CN102236692A

CN102236692A - 信息处理设备、信息处理方法及程序

Info

Publication number: CN102236692A
Application number: CN2011100963443A
Authority: CN
Inventors: 高松慎吾
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-04-21
Filing date: 2011-04-14
Publication date: 2011-11-09
Also published as: JP2011227758A; US20110264443A1

Abstract

本发明公开了一种信息处理设备、信息处理方法及程序。该信息处理设备包括：数据获取器，被配置成获取具有多个句子的句子集合和包括在句子集合中的多个短语；短语特征判定器，被配置成判定短语特征，其中每个短语特征表示数据获取器获取的短语中的各个短语的特性；集合特征判定器，被配置成判定表示句子集合的特性的集合特征；以及压缩器，被配置成通过使用短语特征和集合特征来生成压缩短语特征，压缩短语特征具有低于短语特征的维度的维度以及每个压缩短语特征表示数据获取器获取的短语中的各个短语的特性。

Description

信息处理设备、信息处理方法及程序

技术领域

本发明涉及一种信息处理设备、信息处理方法及程序。

背景技术

近年来，在计算机的信息处理能力增强的背景下，在自然语言处理领域中统计地处理文本的语义方面的技术正引起关注。此技术的一个示例是分析文档的内容并将各个文档分类到各种类别的文档分类技术。另一个示例是从所累积的文本的集合中提取有益信息的文本挖掘技术，其中，上述所累积的文本的集合例如是互联网上的网页或从公司的客户发送的问题或意见的历史。

通常，即使在表达一个相同的或类似的意思的情况下，在文本中经常使用不同的词或短语。因此，在文本的统计分析中试图通过定义用于表示文本的统计特性的向量空间并在向量空间中对各个文本的特征进行聚类来区分具有相似意思的文本(例如，参考Alexander Yates和Oren Etzioni，“Unsupervised Methods for Determining Object and RelationSynonyms on the Web，”Journal of Artigicial Intelligence Research(JAIR)34，2009年3月，第255-296页(在下文中，非专利文献1))。作为用于表示文本的统计特性的向量空间，例如经常使用的是通过将在文本中可能出现的词汇表中所包括的单个词布置为向量的单个分量(向量空间的轴)而构成的向量空间。

发明内容

但是，尽管对特征进行聚类的技术至少在例如具有多个句子的文档的分类中是有效的，但是该技术在试图识别短语的等同或同义关系的情况下难以产生显著成果。其主要原因是短语中所包括的词的数量小。例如，对人、内容或产品进行介绍的诸如新闻文章或网页的文档通常包括几十到几百个词。相反地，短语是比一个句子更小的单位，短语通常仅包括几个词。因此，由于甚至文档的特征都趋向于被获取为稀疏向量(其中的大部分分量为零的向量)，所以短语的特征将被获取为更稀疏的向量即超稀疏向量。这样的超稀疏向量具有在意思的识别中可作为线索使用的信息很少的方面。这导致例如下面的问题。具体地，在基于超稀疏向量之间的相似性(余弦距离)的聚类中，根据意思应该属于一个簇的两个或更多个向量未被聚类到一个簇中。

例如，存在通过使用诸如奇异值分解(SVD)、关于潜在意义分析的概率潜在语义分析(PLSA)、或潜在狄利克雷分配(LDA)的概率技术将高维的向量压缩成低维的向量的技术。这些概率技术有效地用在对文档的特征的维数的压缩中。但是，如果只是将这些概率技术应用到作为超稀疏向量的短语的特征，数据的有效性丢失，并且在许多情况下获取的仅仅是不适合于诸如聚类的后续阶段处理的输出。针对这种情形，上述的非专利文献1为了获取关于短字符串的特征的有效性，试图通过从网上的文本中集合数量大约为几百万的字符串来保证大规模的数据集合。但是，处理这样的大规模数据集合导致对资源的限制的问题。另外，也存在实质上无法保证大规模的数据集合的许多情形，例如对属于所谓的长尾(long tail)的主题进行处理的情况。

例如，为了促进在短语级别识别等同或同义关系，本发明需要提供新颖的、改进的信息处理设备、信息处理方法和程序，其能够在保持或提高特征的有效性的同时压缩短语的特征的维数。

根据本发明的一个方式，提供了一种信息处理设备，该信息处理设备包括：数据获取器，被配置成获取具有多个句子的句子集合和包括在所述句子集合中的多个短语；短语特征判定器，被配置成判定短语特征，其中每个所述短语特征表示所述数据获取器获取的所述短语中的各个短语的特性。另外，该信息处理设备还包括：集合特征判定器，被配置成判定表示所述句子集合的特性的集合特征；以及压缩器，被配置成通过使用所述短语特征和所述集合特征来生成压缩短语特征。压缩短语特征具有低于短语特征的维度的维度以及每个压缩短语特征表示数据获取器获取的短语中的各个短语的特性。

根据此配置，信息处理设备通过除使用表示各个短语的特性的短语特征之外，还使用表示作为短语获取来源的句子集合的特性的集合特征，来在补偿特征的少量信息的同时压缩短语特征。

短语特征可以是具有分量的向量，其中，该向量的每个分量对应于出现在多个短语中的词中的各个词。

集合特征可以是具有分量的矩阵，其中，该矩阵的每个分量对应于出现在句子集合中的词的组合中的各个词的组合；以及短语特征的向量空间的至少一部分与构成集合特征的行向量或列向量的向量空间的一部分相重叠。

压缩器可以通过概率模型中的最大似然估计来计算潜在变量，在该概率模型中，关于多个短语的短语特征和集合特征被视为观测数据以及潜在变量有助于观测数据的出现；以及压缩短语特征包括在潜在变量中。

有助于集合特征的出现的潜在变量和有助于短语特征的出现的潜在变量是至少部分地在概率模型中彼此通用的潜在变量。

压缩器可以通过集合特征的矩阵分解来计算具有低于集合特征的阶的阶的第一低阶矩阵，以及通过短语特征矩阵的矩阵分解来计算具有低于短语特征矩阵的阶的阶的第二低阶矩阵，其中，短语特征矩阵包括关于多个短语的短语特征。另外，第二低阶矩阵是通过与具有和第一低阶矩阵的通用部分的矩阵的乘积来近似地导出短语特征矩阵的矩阵，以及压缩短语特征包括在第二低阶矩阵中。第一低阶矩阵和第二低阶矩阵可以分别等同于例如稍后描述的低阶矩阵Mt4和低阶矩阵Mt1。

集合特征判定器根据关于词的组合中的每个词的组合在句子集合中共同出现的次数来判定集合特征。

集合特征判定器根据词之间的同义关系来判定集合特征。

信息处理设备还可包括聚类部件，其被配置成根据特征之间的相似度来执行由压缩器生成的多个压缩短语特征的聚类。

聚类部分可将与作为簇的代表的短语对应的标签给予作为聚类结果而生成的至少一个簇中的每个簇。

数据获取器可提取均包括在句子集合中的一个句子中的词的对，以及获取多个短语，其中，多个短语中的每个短语表示关于所提取的对中的各个对的词之间的关系。

信息处理设备还可包括聚类部件，其被配置成根据特征之间的相似度来执行由压缩器生成的多个压缩短语特征的聚类；以及摘要器，其被配置成关注包括在句子集合中的特定词，以及通过使用聚类部件关于与关注词有关的短语的聚类结果来创建关于关注词的摘要信息。

根据本发明的另一方式，提供了一种通过使用信息处理设备中的处理装置来实现的信息处理方法。该信息处理方法包括以下步骤：获取具有多个句子的句子集合和包括在句子集合中的多个短语；以及判定短语特征，其中每个短语特征表示所获取的短语中的各个短语的特性。另外，该信息处理方法还包括以下步骤：判定表示所获取的句子集合的特性的集合特征；以及通过使用短语特征和集合特征来生成压缩短语特征。压缩短语特征具有低于短语特征的维度的维度以及每个压缩短语特征表示多个短语当中的各个短语的特性。

根据本发明的另一方式，提供了一种用于将控制信息处理设备的计算机用作处理装置的程序，该处理装置包括：数据获取器，被配置成获取具有多个句子的句子集合和包括在所述句子集合中的多个短语；短语特征判定器，被配置成判定短语特征，其中每个所述短语特征表示所述数据获取器获取的所述短语中的各个短语的特性。另外，该装置还包括：集合特征判定器，被配置成判定表示所述句子集合的特性的集合特征；以及压缩器，被配置成通过使用所述短语特征和所述集合特征来生成压缩短语特征。压缩短语特征具有低于短语特征的维度的维度以及每个压缩短语特征表示数据获取器获取的短语中的各个短语的特性。

如上所述，根据本发明的方式的信息处理设备、信息处理方法及程序能够在保持或提高特征的有效性的同时对短语的特征的维度进行压缩。

附图说明

图1是示出根据本发明的一个实施例的信息处理设备的配置的一个示例的方框图；

图2是用于说明根据本实施例的由数据获取器执行的短语获取的第一说明图；

图3是用于说明根据本实施例的由数据获取器执行的短语获取的第二说明图；

图4是示出根据本实施例的数据获取处理的流程的一个示例的流程图；

图5是用于说明根据本实施例的由短语特征判定器执行的短语特征判定的说明图；

图6是示出根据本实施例的短语特征判定处理的流程的一个示例的流程图；

图7是用于说明根据本实施例的由集合特征判定器执行的集合特征判定的说明图；

图8A是示出根据本实施例的集合特征判定处理的流程的第一示例的流程图；

图8B是示出根据本实施例的集合特征判定处理的流程的第二示例的流程图；

图9A是用于概念地说明根据本实施例的短语特征压缩的第一说明图；

图9B是用于概念地说明根据本实施例的短语特征压缩的第二说明图；

图10是用于说明根据本实施例的由聚类部件执行的短语聚类的结果的一个示例的说明图；

图11是示出根据本实施例的聚类处理的流程的一个示例的流程图；

图12是用于说明根据本实施例的由摘要器创建的摘要信息的一个示例的说明图；

图13是示出根据本实施例的摘要信息创建处理的流程的一个示例的流程图；

图14是示出根据本实施例的信息处理的整体流程的一个示例的流程图。

具体实施方式

下面将参考附图详细描述本发明的优选实施例。在本说明书和附图中，用相同的附图标记表示具有基本相同功能配置的组成元件，从而省略重复的说明。

将以下面的顺序来描述此“具体实施方式”：

1.根据一个实施例的信息处理设备的整体配置示例

2.各个部件的说明

2-1.文档DB

2-2.数据获取器

2-3.短语特征判定器

2-4.集合特征判定器

2-5.特征DB

2-6.压缩器

2-7.压缩特征DB

2-8.聚类部件

2-9.摘要器

2-10.摘要DB

3.信息处理的流程

4.应用示例

5.总结

<1.根据一个实施例的信息处理设备的整体配置示例>

图1是示出根据本发明的一个实施例的信息处理设备100的配置的示例的方框图。参考图1，信息处理设备100包括文档数据库(DB)102、数据获取器110、短语特征判定器120、集合特征判定器130、特征DB140、压缩器150、压缩特征DB160、聚类部件170、摘要器180以及摘要DB190。信息处理设备100可以是任意种类的设备，诸如高性能计算机、个人电脑(PC)、智能电话、数字家庭器具、游戏机或者AV播放器。信息处理设备100的组成元件中，特征DB140、压缩特征DB160以及摘要DB190通常通过使用诸如硬盘或半导体存储器之类的存储介质配置。存储介质可存在于信息处理设备100内或者信息处理设备100外。

<2.各个部件的说明>

下面将使用图2至图13来描述图1所示的信息处理设备100的各个组成元件。

[2-1.文档DB]

文档DB 102是事先存储具有多个句子的句子集合的数据库。文档DB102所存储的句子集合可以是诸如新闻文章、电子词典、或者对人、内容或产品进行介绍的网页之类的文档的集合。或者，文档DB 102所存储的句子集合可以是例如电子邮件、电子公告板上所写的句子、或在网上的表格中输入的某种文本的历史。另外或者，文档DB 102所存储的句子集合可以是例如通过将人的语音变成文本而制作的语料库。文本DB 102响应于来自数据获取器110的请求将存储的句子集合输出到数据获取器110。

[2-2.数据获取器]

数据获取器110从数据DB 102获取具有多个句子的句子集合。另外，数据获取器110获取包括在句子集合中的多个短语。具体地，数据获取器110提取两个词均包括在句子集合中的一个句子中的词对(pair ofwords)，并获取多个短语，其中每个短语表示在所提取的对中的各个对的词之间的关系。数据获取器110从句子集合中提取的词对可以是任意的词对。作为一个示例，在本实施例的方案中，数据获取器110特别地提取一对专有名词，并且获取表示专有名词之间的关系的短语。

图2和图3是用于说明数据获取器110从句子集合中获取短语的说明图。

参考图2，示出了从文档DB 102获取的作为一个示例的句子集合104。句子集合104具有例如第一个句子S01和第二个句子S02。数据获取器首先识别包括在句子集合104中的这种单个的句子，并且指定这样的句子：在每个这样的句子中，两个或更多个专有名词出现在所识别的句子当中。通过使用例如公知的命名实体提取技术能够执行专有名词的辨别。例如，图2中的第一个句子S01包括两个专有名词“杰克逊5”和“CBS唱片”。第二个句子S02包括两个专有名词“杰克逊”和“离开墙”。接下来，数据获取器110对每一个指定句子执行语法分析并且导出语法树。随后，数据获取器110获取这样的短语：每个这样的短语在所导出的语法树中链接一对两个专有名词。在图2的示例中，链接第一个句子S01中的“杰克逊5”和“CBS唱片”的短语是“与签署一个新合约”。链接第二个句子S02中的“杰克逊”和“离开墙”的短语是“创作”。在本说明书中，这样的一对词和对应于该一对词的短语的组称为关系。

图3示出了数据获取器110导出的语法树的一个示例。在图3的示例中，数据获取器110分析第三个句子S03的语法从而导出语法树T03。语法树T03具有在两个专有名词“爱丽丝库珀”和“MCA唱片”之间的最短路径“签约”。副词“随后”在两个专有名词之间的最短路径之外。数据获取器110可以基于这样的语法分析的结果来提取满足预定提取条件的词对，并且可以获取仅关于该所提取的对的短语。预定提取条件可以是例如下面的条件E1至条件E3。

条件E1：等同于句子分隔符的节点不存在于专有名词之间的最短路径上。

条件E2：专有名词之间的最短路径的长度等于或少于三个节点。

条件E3：在句子集合中的专有名词之间的词的数量等于或小于10。

条件E1中的句子分隔符例如是关系代词和逗号。这些提取条件防止数据获取器110错误地获取不适合作为表示两个专有名词之间的关系的字符串。

可在信息处理设备100之外的外部设备中事先执行从句子集合中提取短语。在这种情况下，数据获取器110在信息处理设备100的信息处理开始时从外部设备中获取事先提取的短语和作为提取源的句子集合。

数据获取器110将包括以这种方式获取的多个短语的关系数据112输出到短语特征判定器120。另外，数据获取器110将用作短语获取的基础的句子集合输出到集合特征判定器130。

图4是示出根据本实施例的数据获取器110执行的数据获取处理的流程的一个示例的流程图。

参考图4，首先，数据获取器110从文档DB 102中获取句子集合(步骤S102)。接下来，数据获取器110指定这样的句子：在这样的句子中，两个或更多个词(例如，专有名词)出现在获取的句子集合中所包括的句子当中(步骤S104)。接下来，数据获取器110通过分析所指定的句子的语法来导出各个句子的语法树(步骤S106)。接下来，数据获取器110从步骤S104中所指定的句子中提取满足预定提取条件(例如，上述条件E1至条件E3)的词对(步骤S108)。接下来，数据获取器110从上述句子中的每个相应句子中获取链接所提取的词对的短语(步骤S110)。随后，数据获取器110将包括多个关系的关系数据112输出到短语特征判定器120，其中，每个关系等同于词对和相应短语的组。另外，数据获取器110将用作短语获取的基础的句子集合输出到集合特征判定器130(步骤S112)。

[2-3.短语特征判定器]

短语特征判定器120判定表示由数据获取器110获取的各个短语的特性的短语特征。在本实施例中，短语特征是向量空间中具有分量的向量，每个分量对应于在多个短语中出现一次或更多次的词中的各个词。具体地，例如，如果300种词出现在100个短语中，则短语特征的维数能够是300维。短语特征判定器120基于多个短语中出现的词的词汇表来确定短语特征的向量空间，然后根据每个词在短语中是否出现判定每个短语的短语特征。例如，在每个短语的短语特征中，短语特征判定器120可以将“1”设置为与在短语中出现的词对应的分量，而将“0”设置为与没有出现的词对应的分量。

在短语特征的向量空间的判定中，优选的是，将在表示短语的特性中意义不大的词(例如，冠词、指示词以及关系代词)视为禁用词，并且从分量中排除与禁用词等同的词。另外，例如，短语特征判定器120可以估计短语中出现的词的TF/IDF(词频/逆向文档频率)分数，并且可以从向量空间的分量中排除具有低分(即具有低重要性)的词。

短语特征的向量空间可以不仅具有与多个短语中出现的词对应的分量，而且具有与在多个短语中出现的二元语法词或三元语法词对应的分量。另外，短语特征中可以包括其它参数，例如词性的种类或词的属性。

图5是用于说明短语特征判定器120执行的短语特征的判定的说明图。

在图5的上部，示出了从数据获取器110输入的关系数据112的一个示例。关系数据112包括三个关系R01、R02和R03。例如，短语特征判定器120从这种关系数据112所包括的短语中提取六个词“签约”、“一个”、“新”、“合约”、“创作”和“签约”。接下来，数据获取器110执行关于这六个词的词干处理(用于读取词干的处理)，然后排除禁用词等，从而指定独特的四个词(词干)“签约”、“新”、“合约”和“创作”。另外，短语特征判定器120形成将这些“签约”、“新”、“合约”和“创作”作为分量的短语特征的向量空间。

在图5的下部，示出了在将“签约”、“新”、“合约”和“创作”作为分量的向量空间中的短语特征的三个示例。短语F01对应于关系R01，并且短语F01的短语特征是(...，“签约”，“新”，“合约”，...，“创作”，...)＝(...，1，1，1，...，0，...)。短语F02对应于关系R02，并且短语F02的短语特征是(...，“签约”，“新”，“合约”，...，“创作”，...)＝(...，0，0，0，...，1，...)。短语F03对应于关系R03，并且短语F03的短语特征是(...，“签约”，“新”，“合约”，...，“创作”，...)＝(...，1，0，0，...，0，...)。实践中，将短语特征获取为超稀疏向量，在该超稀疏向量中存在非常大量的分量并且仅为分量中非常小的部分设置除零以外的值。通过将这些短语特征布置在各列(或各行)中而得到的矩阵形成了短语特征矩阵122。

图6是示出根据本实施例的短语特征判定器120执行的短语特征判定处理的流程的一个示例的流程图。

参考图6，首先，短语特征判定器120提取在从数据获取器110输入的关系数据112中的短语所包括的词(步骤S202)。接下来，短语特征判定器120对所提取的词执行词干处理以去除由于词的变形导致的词的差异(步骤S204)。接下来，短语特征判定器120从由词干处理产生的词中排除不必要的词，例如禁用词以及具有低TF/IDF分数的词(步骤S206)。随后，短语特征判定器120形成与包括剩余词的词汇表相对应的短语特征的向量空间(步骤S208)。

接下来，在形成的向量空间中，例如，短语特征判定器120根据词在短语中是否出现判定每个短语的短语特征(步骤S210)。随后，短语特征判定器120将所判定的每个短语的短语特征输出到特征DB 140(步骤S212)。

[2-4.集合特征判定器]

集合特征判定器130判定表示从数据获取器110输入的句子集合104的特性的集合特征。在本实施例中，集合特征是具有分量的矩阵，每个分量对应于在句子集合104中出现的词的组合中的各个组合。上述的短语特征的向量空间的至少一部分与构成集合特征的行向量或列向量的向量空间的一部分相重叠。例如，集合特征判定器130可以根据关于词的每个组合在句子集合104中共同出现(co-occurrence)的次数来判定集合特征。在这种情况下，集合特征是表示词组合中的每个组合的共同出现的次数的共同出现矩阵。或者，例如，集合特征判定器130可以根据词之间的同义关系来判定集合特征。又或者，集合特征判定器130可以来判定反映词组合中的每个组合的共同出现的次数以及根据同义关系的数值这两者的集合特征。

图7是用于说明集合特征判定器130执行的集合特征的判定的说明图。

在图7的上部，示出了从数据获取器110输入的句子集合104的一个示例。句子集合104包括两个句子S01和S02以及多个其它句子。例如，集合特征判定器130提取这种句子集合104中的多个句子中所包括的词。接下来，集合特征判定器130对所提取的词执行词干处理，然后排除禁用词等，从而判定用以形成集合特征的特征空间的词汇表。在该示例中所判定的词汇表中，除出现在短语中的词(例如用作短语特征的向量空间的分量的“签约”、“新”、“合约”和“创作”)之外，还包括出现在除短语之外的部分中的词，例如“专辑”和“一起”。

在图7的下部，将集合特征132示出为共同出现矩阵，对于该共同出现矩阵，将出现在句子集合104中的词的词汇表分配为行和列两者的分量。例如，在集合特征132中，与“签约”和“合约”的组合相对应的分量的值是“30”。该值示出了在句子集合104中“签约”和“合约”的组合在一个句子中的出现次数(包含该组合的句子的数量)为30。相似的，与“签约”和“同意”的组合相对应的分量的值为“10”。与“签约”和“出生”的组合相对应的分量的值为“0”。这些值示出了在句子集合104中这些词组合共同出现的次数分别为10和0。

例如，在根据词之间的同义关系来判定集合特征的情况下，集合特征判定器130可以以这样的方式来判定集合特征：将“1”设置为与在事先准备的同义词词典中的同义关系(包括等同关系)中的词的组合对应的分量，而将“0”设置为其它分量。或者，集合特征判定器130可通过使用预定因子来执行关于各个词组合的共同出现的次数与根据同义词词典所给定的上述值的加权加法。

图8A是示出根据本实施例的集合特征判定器130执行的集合特征判定处理的流程的第一示例的流程图。

参考图8A，首先，集合特征判定器130提取从数据获取器110输入的句子集合104中所包括的词(步骤S302)。接下来，集合特征判定器130对所提取的词执行词干处理以去除由于词的变形导致的词的差异(步骤S304)。接下来，集合特征判定器130从由词干处理产生的词中排除不必要的词，例如禁用词和具有低TF/IDF分数的词(步骤S306)。随后，集合特征判定器130形成与包括剩余词的词汇表相对应的集合特征的特征空间(矩阵空间)(步骤S308)。

接下来，集合特征判定器130对关于与所形成的特征空间的各个分量对应的每个组合在句子集合104中共同出现的次数进行计数(步骤S310)。随后，集合特征判定器130将作为计数结果的共同出现矩阵作为集合特征输出到特征DB 140(步骤S312)。

图8B是示出根据本实施例的集合特征判定器130执行的集合特征判定处理的流程的第二示例的流程图。

参考图8B，首先，集合特征判定器130提取从数据获取器110输入的句子集合104中所包括的词(步骤S352)。接下来，集合特征判定器130对所提取的词执行词干处理以去除由于词的变形导致的词的差异(步骤S354)。接下来，集合特征判定器130从由词干处理产生的词中排除不必要的词，例如禁用词和具有低TF/IDF分数的词(步骤S356)。随后，随后，集合特征判定器130形成与包括剩余词的词汇表相对应的集合特征的特征空间(矩阵空间)(步骤S358)。迄今所执行的处理与图8A中步骤S302至步骤S308的处理相同。

接下来，集合特征判定器130获取同义词词典(步骤S360)。接下来，集合特征判定器130将数值给予与所获取的同义词词典中的同义关系中的词的组合相对应的矩阵分量(步骤S362)。随后，集合特征判定器130将通过把数值给予各分量所得到的特征矩阵作为集合特征输出到特征DB140(步骤S364)。

[2-5.特征DB]

特征DB 140通过使用存储介质存储由短语特征判定器120判定的短语特征以及由集合特征判定器130判定的集合特征。另外，特征DB 140响应于来自压缩器150的请求将存储的短语特征和集合特征输出到压缩器150。

[2-6.压缩器]

压缩器150通过使用从特征DB 140输入的短语特征和集合特征来生成压缩短语特征，该压缩短语特征具有比上述短语特征的维数低的维数并且表示由数据获取器110获取的各个短语的特性。

如使用图5所描述的那样，由短语特征判定器120判定的短语特征是超稀疏向量。所以，即使当仅仅将基于公知的概率技术的向量压缩技术应用到短语特征时，数据的有效性由于压缩而趋向于丢失。因此，根据本实施例的压缩器150除了将上述集合特征视为短语特征之外还将其视为观测数据，从而通过使用具有对特征的很少的信息进行补偿的概率技术来压缩短语特征。这允许不仅通过短语的独立统计特性来有效训练压缩数据，而且通过短语所属于的句子集合的统计特性来有效训练压缩数据。

在压缩器150采用的概率模型中，将关于多个短语的短语特征和集合特征视为观测数据和有助于该观测数据的出现的潜在变量。另外，在压缩器150采用的概率模型中，有助于集合特征的出现的潜在变量和有助于关于多个短语的短语特征的出现的潜在变量是至少部分地彼此通用的变量。用例如下面的等式(1)来表示这样的概率模型。

[表达式1]

p (X, F | U, V, α_{X}, α_{F}) = Π_{i = 1}^{N} Π_{j = 1}^{M} [p (x_{ij} | U_{i}, V_{j}, α_{X})] \cdot Π_{j = 1}^{L} Π_{k = 1}^{L} [p (f_{jk} | V_{j}, V_{k}, α_{F})] - - - (1)

在等式(1)中，X(x_ij)表示短语特征矩阵。F(f_jk)表示集合特征(矩阵)。U_i表示对应于第i个短语的潜在向量。V_j(或V_k)表示对应于第j个(或第k个)词的潜在向量。α_X等同于短语特征的精确度并且在下面的等式(2)中给出正态分布的离散度。α_F等同于集合特征的精确度并且在下面的等式(3)中给出正态分布的离散度。N表示所获取的短语的全部数量。M表示短语特征的向量空间的维数。L表示集合特征的顺序。将等式(1)右端中的两个随机变量定义为如下面的等式所示的。G(x|μ，α)是均值为μ且精确度为α的正态分布。

[表达式2]

p(x_ij|U_i，V_j，α_x)＝G(x_ij|U_i ^TV_j，α_x) (2)

p(f_jk|V_j，V_k，α_F)＝G(f_jk|V_j ^TV_k，α_F) (3)

基于这种概率模型，压缩器150设置共轭先验分布，然后根据诸如最大后验估计或贝叶斯估计之类的最大似然估计来估计作为潜在变量的N个潜在向量U_i和L个潜在向量V_j。另外，压缩器150将关于被获取为估计结果的各个短语的潜在向量U_i(i＝1至N)作为各个短语的压缩短语特征输出到压缩特征DB 160。

图9A和图9B是用于从不同方面概念地说明关于短语特征的压缩的本实施例的思想的说明图。

参考图9A，在上部示出作为潜在变量的数据空间的一个示例的潜在主题空间，以及在下部示出了观测数据空间。潜在向量U_i属于潜在主题空间并且有助于在句子集合中被观测的第i个短语的出现。这意味着，短语所拥有的语义方面概率地影响短语作为语言的出现。另一方面，潜在向量V_j(V_k)和潜在向量U_i都有助于包括在第i个短语中的第j个词的出现。这意味着，例如句子集合中的上下文的语义方面(或者，例如文档的语言倾向)概率地影响单独的词的出现。这时，潜在向量V_j(V_k)不仅有助于包括在第i个短语中的第j个词的出现，而且有助于在除所关注的短语之外的句子集合的另一部分中的词的出现。所以，通过除观测第i个短语的短语特征x_ij之外还观测集合特征f_jk，能够适当地估计潜在向量U_i和潜在向量V_j(V_k)。潜在向量U_i和潜在向量V_j的维度等于潜在主题空间中主题的数量。通过将主题的数量设置成小于短语特征的维度的数量，能够将具有低于短语维度的维度的潜在向量U_i实现为压缩短语特征。根据例如随后级处理的要求或资源的限制，能够将潜在主题空间中的主题的数量设置成适当数量(例如20)。

在图9B的上部，示出了具有N行和M列的短语特征矩阵X。在图9B的下部，示出了具有L行和L列的集合特征F。应该指出的是，在图9B的短语特征矩阵X和集合特征F中，分别相对于图5和图7中示出的短语特征矩阵122和集合特征132，行和列彼此互逆。

例如，如果图9A中示出的潜在主题空间中的主题的数量被定义为T，图9B中示出的具有N行和M列的短语特征矩阵X能够被分解成具有更低的阶的具有N行和T列的低阶矩阵Mt1与具有T行和M列的低阶矩阵Mt2的乘积。在这些矩阵中，低阶矩阵Mt1是通过将T维的潜在向量U_i布置在各行上而得到的矩阵。类似的，具有L行和L列的集合特征F能够被分解成具有L行和T列的低阶矩阵Mt3与具有T行和L列的低阶矩阵Mt4的乘积。在这些矩阵中，低阶矩阵Mt3是通过将T维的潜在向量V_j布置在各行上而得到的矩阵。假设低阶矩阵Mt2的阴影线部分中的潜在变量和低阶矩阵Mt4的阴影线部分中的潜在变量具有相同的值，压缩器150估计近似地导出短语特征矩阵X和集合特征F的似然低阶矩阵Mt1、Mt2、Mt3和Mt4。与仅从短语特征矩阵X估计低阶矩阵Mt1和Mt2的情况相比，这允许压缩器150实现更重要的低阶矩阵Mt1(即潜在向量U_i)。

在图9B的示例中，集合特征的阶L高于短语特征的向量空间的维度M。通常，通过设置L＞M，不仅基于出现在短语中的词，而且基于未出现在短语中、但是出现在短语所属的句子集合中的词的趋势，能够提高短语特征的压缩的有效性。但是，即使例如设置L＝M或L＜M的关系，也能够实现本实施例的有益效果。其原因在于，通常具有L行和L列的集合特征比具有N行和M列的短语特征矩阵更密集(或不是“超稀疏”)，因此集合特征仍实现了对短语特征的少量信息的补偿。

[2-7.压缩特征DB]

压缩特征DB 160通过使用存储介质存储压缩器150生成的压缩短语特征。另外，压缩特征DB 160响应来自聚类部件170的请求将存储的压缩短语特征输出到聚类部件170。此外，压缩特征DB 160与压缩短语特征相关联地存储聚类部件170的聚类结果。

[2-8.聚类部件]

聚类部件170根据特征间的相似度执行压缩器150生成的多个压缩短语特征的聚类。可根据诸如K均值的公知的聚类算法来执行聚类部件170的聚类处理。聚类部件170将与作为簇代表的短语对应的标签给予作为聚类结果生成的一个或更多个簇中的每一个。被给予标签的簇可以不是根据聚类算法生成的所有簇，而是满足例如以下选择条件的部分簇：

选择条件：簇中的短语的数量(重叠短语也被分别计数)在所有簇当中位于前N_f以内，并且关于簇中所有短语对的压缩短语特征的相似度等于或高于预定阈值。

与上述选择条件中的相似度一样，例如可以使用余弦相似度或压缩短语特征之间的内积。

作为选择的聚类的代表的短语可以是，例如在簇中的独特的短语当中包括在簇中最多的短语。例如，聚类部件170可计算具有相同字符串的短语中的每个短语的压缩短语特征的和，并且可将具有最大和的短语的字符串作为聚类的标签。

图10是用于说明聚类部件170执行的短语聚类的结果的一个示例的说明图。

参考图10，在压缩短语特征空间162中，在对应于压缩短语特征的位置处各自示出11个短语F11至F21。在这些短语当中，短语F12至F14被分类在簇C1中，短语F15至F17被分类在簇C2中，短语F18至短语F20被分类在簇C3中。将字符串“签约”给予簇C1，作为簇C1的标签。将字符串“合作”给予簇C2，作为簇C2的标签。将字符串“出生”给予簇C3，作为簇C3的标签。对应于作为簇代表的短语的字符串，给出这些簇的标签。聚类部件170将这种聚类结果与压缩短语特征相关联地存储在压缩特征DB 160中。

不是给出与作为簇代表的短语对应的簇的标签，如果事先给定其应所属的簇已知的短语(在下文中，该短语将被称为老师短语)，可将老师短语或与老师短语相关联的字符串作为簇的标签。

图11是示出根据本实施例的聚类部件170执行的聚类处理的流程的一个示例的流程图。

参考图11，首先，聚类部件170从压缩特征DB 160中读取关于包括在句子集合104中的多个短语的压缩短语特征(步骤S402)。接下来，聚类部件170根据公知的聚类算法执行压缩短语特征的聚类(步骤S404)。接下来，聚类部件170针对簇中的每一个确定簇是否满足预定的选择条件并且选择满足预定的选择条件的主要簇(步骤S406)。接下来，聚类部件170将与作为簇代表的短语的字符串对应的标签给予所选择的聚类中的每一个(步骤S408)。

[2-9.摘要器]

摘要器180关注包括在句子集合104中的特定词，以及通过使用关于与关注词有关的短语的聚类部件170的聚类结果来创建关于关注词的摘要信息。具体地，例如，摘要器180从关系数据112中提取与关注词有关的多个关系。另外，如果提取的第一关系的短语和第二关系的短语都被分类在一个簇中，摘要器180将第一关系中的其它词和第二关系中的其它词添加到关于赋给该一个簇的标签的摘要的内容中。

图12示出了摘要器180创建的作为一个示例的摘要信息182。摘要信息182中的关注词是“迈克尔杰克逊”。摘要信息182包括四个标签：“签约”、“出生”、“合作”和“专辑”。在摘要信息182中，关于标签“签约”的内容包括“CBS唱片”和“汽车城”。例如，在下面情形中可能创建一条这样的摘要信息182。具体地，关于作为关注词的“迈克尔杰克逊”和“CBS唱片”的词对的短语是“签约”，而关于“迈克尔杰克逊”和“汽车城”的词对的短语是“订约”。另外，这些短语都被分类到其标签为“签约”的聚类中。

图13示出根据本实施例的摘要器180执行的摘要信息创建处理的流程的一个示例的流程图。

参考图13，首先，摘要器180指定关注词(步骤S502)。关注词可以是，例如用户指定的词。替代地，例如，摘要器180可将包括在关系数据112中的诸如专有名词的一个或更多个词自动指定为关注词。接下来，摘要器180从关系数据112中提取与指定的关注词有关的关系(步骤S504)。与关注词有关的关系表示，例如词对中的词之一是关注词的关系。接下来，摘要器180从聚类结果中获取包括在提取的关系中的短语所属的簇的标签(步骤S506)。随后，摘要器180针对获取的标签中的每一个通过列出与关注词配成一对的词来生成摘要的内容(步骤S508)。摘要器180将以这种方式创建的摘要信息182输出到摘要DB 190。

[2-10.摘要DB]

摘要DB 190通过使用存储介质存储摘要器180创建的摘要信息182。具有诸如信息检索、做广告、或进行推荐的各种目的的、在信息处理设备100之内或之外的应用能够使用摘要DB 190存储的摘要信息182。

<3.信息处理的流程>

图14是示出根据本实施例的信息处理设备100执行的信息处理的总体流程的一个示例的流程图。参考图14，首先，信息处理设备100中的数据获取器110执行图4描述的数据获取处理(步骤S602)。接下来，短语特征判定器120执行图6描述的短语特征判定处理(步骤S604)。接下来，集合特征判定器130执行图8A或图8B描述的集合特征判定处理(步骤S606)。接下来，压缩器150根据图9A和图9B描述的技术通过使用短语特征和集合特征来生成压缩短语特征(步骤S608)。接下来，聚类部件170执行图11描述的聚类处理(步骤S610)。随后，摘要器180执行图13描述的摘要信息创建处理(步骤S612)。

<4.应用示例>

本实施例的说明涉及使用关于压缩短语特征的聚类结果来创建摘要信息的示例。但是，根据本实施例生成的压缩短语特征还能被应用于除上述目的之外的使用目的。

例如，在经由网上的表格、电子邮件等从客户收集问题的情况下，即使当客户的问题具有相同的要旨时，客户倾向于使用不同的表达。例如，当电视屏有缺陷时，某用户可能说“噪音明显”，而另一用户可能说“电视接收差”。另外，另一用户可能说“图像质量有问题”。在这种情况下，通过使用关于根据本实施例适当获取的压缩短语特征的聚类结果，系统能够自动识别所有的问题都具有类似的要旨。这使得能够将客户引导到适当的查询服务或快速向客户提供适当的答复。

另外在人所说的语音中，可能用各种语言表达一个相同或类似的含义。所以，对于代理，例如通过语音识别来与人进行会话的计算机或机器人，不容易正确理解各种语言的含义以及返回适当的回复。但是，通过使用关于根据本实施例适当获取的压缩短语特征的聚类结果，代理能够更正确地理解人递送的各种语言的含义。作为一个示例，本实施例能被应用于这样的代理：即使当由人通过语音输入的指令涉及表达上的差异时，该代理正确地理解该指令的含义以及采取行动。作为另一示例，本实施例能被应用于这样的代理：当该代理向人输出语音时，该代理通过使用各种短语来表达传送主题的一个含义。

另外，根据本实施例的聚类结果还能被应用于，例如向用户推荐与词对的词之一有关的信息或内容，如果上述词中的另一个是用户行为的主题(例如，内容的信息浏览或观看或购买)。例如，在推荐中，通过将对应簇的标签呈现为信息或内容的推荐理由，能够提高用户对推荐的满意感。

<总结>

以上使用图1至图14描述了根据本发明的一个实施例的信息处理设备100。根据本实施例，通过除使用表示短语特性的短语特征之外，还使用表示作为短语获取来源的句子集合的特性的集合特征，来生成具有低于短语特征维度的维度的压缩短语特征。该配置能够在保持或提高特征的有效性的同时压缩短语特征的维度。从而，例如，即使当由于例如资源的限制或作为主题的文本的属性的限制不能确保大规模的数据采集时，提供允许诸如聚类的后级处理的有效执行的低维度短语特征。

另外，根据本实施例，短语特征是具有分量的向量，其中，每个分量对应于出现在多个短语中的各个词。另外，集合特征是具有分量的矩阵，其中，每个分量对应于出现在句子集合中的词的各个组合。该配置允许短语特征向量空间的至少一部分与用于构成集合特征的行向量或列向量的向量空间的一部分相重叠。从而，通过使用根据集合特征对短语特征的少量信息进行补偿的概率技术能够压缩短语特征。

另外，本实施例提供了概率模型，在该概率模型中，关于多个短语的短语特征和集合特征被视为观测数据和有助于该观测数据的出现的潜在变量。通过对这种概率模型应用最大似然估计，更适当地训练压缩短语特征，以及提高压缩短语特征的有效性。

此外，根据本实施例，根据关于词组合中的每个组合在句子集合中共同出现的次数或词之间的同义关系或其两者，来判定集合特征。这种集合特征反映了句子集合中的上下文的语义方面或直接表示了词之间的同义关系。这使得能够训练适合旨在识别短语的等同或同义关系的聚类的压缩短语特征。

通常通过使用软件来实现本说明书中描述的信息处理设备100的处理序列。将软件配置成实现处理序列的程序例如事先存储到设置在信息处理设备100之内或之外的存储介质中。当执行每个程序时，将每个程序读入信息处理设备100中的随机访问存储器(RAM)中，以及用诸如中央处理单元(CPU)的处理器来执行每个程序。

尽管以上参考附图详细描述了本发明的优选实施例，但是本发明不限于该示例。能够看出的是，本发明所属技术领域的技术人员能够在权利要求的范围中所描述的技术思想的范畴之内实现各种变化示例或修改示例，并且应该理解的是，这些示例自然也属于本发明的技术范围。

本申请包括与2010年4月21日在日本专利局提交的日本在先专利申请JP2010-097917所公开的主题有关的主题，其全部内容通过引用合并于此。

本领域技术人员应该理解的是，根据设计要求和其它因素，可进行各种修改、组合、子组合和替选，只要其在所附权利要求或其等同的范围之内即可。

Claims

1.一种信息处理设备，包括：

数据获取器，被配置成获取具有多个句子的句子集合以及包括在所述句子集合中的多个短语；

短语特征判定器，被配置成判定短语特征，其中每个所述短语特征表示所述数据获取器获取的所述短语中的各个短语的特性；

集合特征判定器，被配置成判定表示所述句子集合的特性的集合特征；以及

压缩器，被配置成通过使用所述短语特征和所述集合特征来生成压缩短语特征，所述压缩短语特征具有低于所述短语特征的维度的维度以及每个所述压缩短语特征表示所述数据获取器获取的所述短语中的各个短语的特性。

2.根据权利要求1所述的信息处理设备，其中，

所述短语特征是具有分量的向量，其中，所述向量的每个分量对应于出现在所述多个短语中的词中的各个词。

3.根据权利要求2所述的信息处理设备，其中，

所述集合特征是具有分量的矩阵，其中，所述矩阵的每个分量对应于出现在所述句子集合中的词的组合中的各个词的组合；以及

所述短语特征的向量空间的至少一部分与构成所述集合特征的行向量或列向量的向量空间的一部分相重叠。

4.根据权利要求3所述的信息处理设备，其中，

所述压缩器通过概率模型中的最大似然估计来计算潜在变量，在所述概率模型中，关于所述多个短语的所述短语特征和所述集合特征被视为观测数据，以及所述潜在变量有助于所述观测数据的出现；以及

所述压缩短语特征包括在所述潜在变量中。

5.根据权利要求4所述的信息处理设备，其中，

有助于所述集合特征的出现的潜在变量以及有助于所述短语特征的出现的潜在变量是至少部分地在所述概率模型中彼此通用的变量。

6.根据权利要求3所述的信息处理设备，其中，

所述压缩器通过所述集合特征的矩阵分解来计算具有低于所述集合特征的阶的阶的第一低阶矩阵，以及通过短语特征矩阵的矩阵分解来计算具有低于所述短语特征矩阵的阶的阶的第二低阶矩阵，其中，所述短语特征矩阵包括关于所述多个短语的所述短语特征；

所述第二低阶矩阵是通过与具有和所述第一低阶矩阵的通用部分的矩阵的乘积来近似地导出所述短语特征矩阵的矩阵；以及

所述压缩短语特征包括在所述第二低阶矩阵中。

7.根据权利要求3所述的信息处理设备，其中，

所述集合特征判定器根据关于所述词的所述组合中的每个组合在所述句子集合中共同出现的次数来判定所述集合特征。

8.根据权利要求3所述的信息处理设备，其中，

所述集合特征判定器根据词之间的同义关系来判定所述集合特征。

9.根据权利要求1所述的信息处理设备，还包括：

聚类部件，被配置成根据特征之间的相似度来执行由所述压缩器生成的多个压缩短语特征的聚类。

10.根据权利要求9所述的信息处理设备，其中，

所述聚类部件将与作为所述簇的代表的短语对应的标签给予作为聚类结果而生成的至少一个簇中的每个簇。

11.根据权利要求1所述的信息处理设备，其中，

所述数据获取器提取均包括在所述句子集合中的一个句子中的词的对，以及获取所述多个短语，其中，所述多个短语中的每个短语表示关于所提取的对中的各个对的所述词之间的关系。

12.根据权利要求11所述的信息处理设备，还包括：

聚类部件，被配置成根据特征之间的相似度来执行由所述压缩器生成的多个压缩短语特征的聚类；以及

摘要器，被配置成关注包括在所述句子集合中的特定词，以及通过使用所述聚类部件关于与关注词有关的短语的聚类结果来创建关于所述关注词的摘要信息。

13.一种通过使用信息处理设备中的处理装置实现的信息处理方法，所述信息处理方法包括以下步骤：

获取具有多个句子的句子集合和包括在所述句子集合中的多个短语；

判定短语特征，其中每个所述短语特征表示所获取的短语中的各个短语的特性；

判定表示所获取的句子集合的特性的集合特征；以及

通过使用所述短语特征和所述集合特征来生成压缩短语特征，所述压缩短语特征具有低于所述短语特征的维度的维度以及每个所述压缩短语特征表示所述多个短语当中的短语中的各个短语的特性。

14.一种用于将控制信息处理设备的计算机用作处理装置的程序，所述处理装置包括：

15.一种信息处理设备，包括：

数据获取装置，用于获取具有多个句子的句子集合以及包括在所述句子集合中的多个短语；

短语特征判定装置，用于判定短语特征，其中每个所述短语特征表示所述数据获取装置获取的所述短语中的各个短语的特性；

集合特征判定装置，用于判定表示所述句子集合的特性的集合特征；以及

压缩装置，用于通过使用所述短语特征和所述集合特征来生成压缩短语特征，所述压缩短语特征具有低于所述短语特征的维度的维度以及每个所述压缩短语特征表示所述数据获取装置获取的所述短语中的各个短语的特性。