CN104919458B

CN104919458B - 文本挖掘设备、文本挖掘方法和记录介质

Info

Publication number: CN104919458B
Application number: CN201480004597.5A
Authority: CN
Inventors: 土田正明; 石川开; 大西贵士
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2013-01-11
Filing date: 2014-01-10
Publication date: 2018-12-14
Anticipated expiration: 2034-01-10
Also published as: US20150356152A1; JPWO2014109388A1; CN104919458A; WO2014109388A1; JP6229665B2

Abstract

一种文本挖掘设备包括：分析单元，其从包括文本和具有属性名称和属性值并且与该文本相关联的一个或多个属性的数据获取属性作为分析观点、使用相应的分析观点分析该数据来从每个分析观点获得分析结果并且生成相应的分析观点的结果向量；相似度获取单元，其获取多个分析观点的结果向量之间的向量相似度；以及推荐单元，其基于向量相似度提取并输出分析观点的组合作为推荐候选。

Description

文本挖掘设备、文本挖掘方法和记录介质

技术领域

本发明涉及文本挖掘设备、文本挖掘系统、文本挖掘方法和记录介质。

背景技术

文本挖掘是针对文本的数据挖掘。作为用于文本挖掘的技术之一，传统上已知一种通过比较基于多个分析观点的分析结果来抓住基于每个分析观点的分析的结果所特有的特征。这样的技术例如在专利文献1中被公开。

专利文献1的文本分类设备分析包括文本和属性的数据。当用户选择任意属性时，文本分类设备将包括在属性中的属性值获取作为分析观点，并且显示来自分析观点中的每个分析观点的分析结果。

引用列表

专利文献

PTL 1：日本专利特开第2004-164137号

发明内容

技术问题

当使用专利文献1的文本分类设备来分析数据时，在采用在由用户选择的属性中包括的任意属性值作为分析观点的情况下的分析结果和在采用在未被用户选择的属性中包括的另一属性值作为分析观点的情况下的分析结果可能彼此类似。在这样的情况下，为了使用户抓住来自分析观点中的每个分析观点的分析结果所特有的特征，有必要比较分析结果。然而，专利文件1的文件分类设备无法推荐用户比较分析结果。

本发明针对上述情况而被完成并且涉及提供能够向用户推荐将从其比较分析结果的分析观点的组合的文本挖掘设备、文本挖掘系统、文本挖掘方法和记录介质。

问题的解决方案

为了实现以上目的，根据本发明的第一示例性方面的文本挖掘设备包括：分析单元，其从包括文本和包括属性名称和属性值并且与该文本相关联的一个或多个属性的数据获取属性作为分析观点、使用相应的分析观点分析该数据以从每个分析观点获得分析结果并且生成相应的分析观点的结果向量；相似度获取单元，其获取多个分析观点的结果向量之间的向量相似度；以及推荐单元，其基于该向量相似度提取并输出该分析观点的组合作为推荐候选。

根据本发明的第二示例性方面的文本挖掘系统包括：根据第一示例性方面的文本挖掘设备；以及其中预先存储数据的数据存储设备。

根据本发明的第三示例性方面的文本挖掘方法包括：分析步骤，用于从包括文本及包括属性名称和属性值并且与该文本相关联的一个或多个属性的数据获取属性作为分析观点、使用相应的分析观点分析该数据以从每个分析观点获得分析结果并且生成相应的分析观点的结果向量；相似度获取步骤，用于获取多个分析观点的结果向量之间的向量相似度；以及推荐步骤，用于基于该向量相似度提取并输出该分析观点的组合作为推荐候选。

根据本发明的第四示例性方面的计算机可读记录介质，其中记录了用于使计算机起以下作用的程序：分析单元，其从包括文本及包括属性名称和属性值并且与该文本相关联的一个或多个属性的数据获取属性作为分析观点、使用相应的分析观点分析该数据以从每个分析观点获得分析结果并且生成相应的分析观点的结果向量；相似度获取单元，其获取多个分析观点的结果向量之间的向量相似度；以及推荐单元，其基于该向量相似度提取并输出该分析观点的组合作为推荐候选。

发明的有利效果

根据本发明，可以提供能够向用户推荐将从其比较分析结果的分析观点的组合的文本挖掘设备、文本挖掘系统、文本挖掘方法和记录介质。

附图说明

图1是图示了根据本发明的示例性实施例1的文本挖掘设备的功能配置的示例的框图。

图2是表示数据的示例的视图。

图3是表示由根据本发明的示例性实施例1的文本挖掘设备执行的推荐处理的示例的流程图。

图4是表示结果数据的示例的视图。

图5是图示了根据本发明的示例性实施例2的文本挖掘系统的配置示例的框图。

图6是表示由根据本发明的示例性实施例2的文本挖掘系统执行的推荐处理的示例的流程图。

图7是图示了文本挖掘设备和数据存储设备的硬件配置的示例的框图。

具体实施方式

(示例性实施例1)

下面将参考附图详细说明文本挖掘设备100的功能和操作。在附图中，相同或者等同的元素由相同的参考符号表示。

文本挖掘设备100向用户推荐将从其比较分析结果的分析观点的组合(推荐候选)。用户可以通过从包括在推荐候选的分析观点相互比较分析结果来抓住来自每个分析观点的分析结果(在下文中被称作来自分析观点的分析结果)所特有的特征。

文本挖掘设备100在功能上包括存储单元110、分析单元120、向量生成单元130、相似度获取单元140和推荐单元150，如在图1中所图示的。

在存储单元110中，在图2中被描述为示例性示例的数据DT被预先存储。数据DT是将被文本挖掘设备100分析的任意数据。数据DT被从外部输入设备(例如，存储介质或者网络)预先取得，并且被存储在存储单元110中。

数据DT包括如在图2中表示的多个记录。每个记录包括记录ID、属性和文本。包括在一个记录中的记录ID、属性和文本相互关联。

记录ID是用于标识每个记录的标识符。

属性包括属性名称和属性值。例如，图2中表示的数据DT的属性包括“性别”、“年代”、“婚姻状态”、“利用目的”、“制造者”、“产品名称”和“满意水平”作为属性名称。包括“性别”作为属性名称的属性包括“男”和“女”作为属性值。

分析单元120获取数据DT中包括的每个属性中包括的属性值作为分析观点。分析单元120使用每个获取的分析观点来分析数据DT并且从每个分析观点获得分析结果。分析单元120基于来自每个获得的分析观点的分析结果来生成结果数据。

向量生成单元130基于由分析单元120生成的结果数据来生成分析观点的每个结果向量。向量生成单元130生成包括由分析单元120获得的多个分析观点的分析观点的组合。

相似度获取单元140获取由向量生成单元130生成的分析观点的相应的组合中包括的分析观点的结果向量之间的向量相似度。

在由向量生成单元130生成的分析观点的组合当中，推荐单元150提取预定数目的具有组合中包括的分析观点的结果向量之间的最高向量相似度的组合并将其显示为推荐候选。推荐候选是分析观点的组合，用户将从其比较分析结果。

下面将使用图3的流程图来说明文本挖掘设备100的操作。

在文本挖掘设备100中包括的存储单元110中，用户希望经受文本挖掘的数据DT被从外部输入设备预先获得并且被存储。

用户在希望数据DT经受文本挖掘时选择作为文本挖掘设备100中包括的多个操作模式之一的推荐处理模式。

当用户选择推荐处理模式时，文本挖掘设备100开始在图3的流程图中表示的推荐处理。

分析单元120获取数据DT中包括的每个属性中包括的属性值作为分析观点(步骤S101)。

分析单元120从每个分析观点获得分析结果(S102)。

具体而言，分析单元120从数据DT中与被采用作为分析观点的属性值相关联的文本提取特征词并且获得特征词作为来自每个分析观点的分析结果。作为数据DT中与被采用作为分析观点的属性值相关联的文本中包括的单词的特征词是预先设置的预定数目个(在本示例性实施例中为50)具有被采用作为分析观点的属性值所关联于的文本中的单词的出现频率对数据DT中包括的所有文本中的单词的出现频率的最高比率(加权值)的单词。

分析单元120生成包括在步骤S102中获得的来自每个分析观点的分析结果的结果数据(步骤S103)。

结果数据包括分析观点(属性值)、记录ID信息和如在图4中表示的分析结果。记录ID信息包括与数据DT中被采用作为分析观点的属性值相关联的所有记录ID。如在图2中图示的，记录ID、属性和文本在数据DT中相互相关联。因此，表示与数据中被采用作为分析观点的属性值相关联的所有记录ID的记录ID信息可以表示与数据中被采用作为分析观点的属性值相关联的所有文本。

例如，与图2中被描述为示例性示例的数据DT中的属性值“男”相关联的文本包括诸如“节能”、“电池”、“容量”、“大”、“处理”和“速度”之类的单词。分析单元120在采用属性值“男”作为分析观点的情况下获得诸如“电池”、“质量”、“速度”和“节能”之类的单词(其是单词当中具有最高加权值的50个单词(特征词)，如在图4中示出)作为分析结果。在图2中被描述为示例性示例的数据DT中，记录ID“1”、“3”等与属性值“男”相关联。因此，在图4中表示的结果数据中，在采用属性值“男”作为分析观点的情况下的记录ID信息包括记录ID“1”、“3”等。

分析单元120将生成的结果数据发送给向量生成单元130。

向量生成单元130基于从分析单元120接收到的结果数据生成每个分析观点的结果向量(步骤S104)。

具体而言，向量生成单元130向作为来自包括数据DT中包括的所有文本中包括的所有单词作为元素(成员)的向量中的某些分析观点的分析结果获得的单词的元素(特征词)应用“1”值，并且向其他元素应用“0”值，由此生成分析观点的结果向量。

例如，数据DT中包括的文本包括诸如“设计”、“颜色”、“电池”、“品质”、“速度”和“节能”之类的单词，如在图2中所图示的。假定在采用属性值“男”作为分析观点的情况下的分析结果包括诸如“电池”、“品质”、“速度”和“节能”之类的特征词但是既不包括“设计”也不包括“颜色”，如在图4中作为示例性示例而被描述的。在这种情况下，向量生成单元130在采用属性值“男”作为分析观点的情况下生成向量(设计＝0，颜色＝0，电池＝1，品质＝1，速度＝1，节能＝0，…)作为结果向量。

然后，向量生成单元130生成包括在步骤S101中由分析单元120获取的多个分析观点的分析观点的组合(步骤S105)。

相似度获取单元140计算相应的组合中包括的相应的分析观点的结果向量之间的向量相似度(步骤S106)。

具体而言，相似度获取单元140将各不相同的两个分析观点的结果向量视为集合，并且计算这两个集合的杰卡德(Jaccard)系数作为两个向量之间的向量相似度。

假定各不相同的两个分析观点的结果向量分别被视为集合A和集合B，则杰卡德系数J(A，B)由以下式(1)确定。

[式1]

A∩B表示集合A和集合B的积集，并且A∪B表示集合A和集合B的并集。|A|表示集合A中的元素的数目(原始数目，浓度)。类似地，|B|、|A∩B|和|A∪B|分别表示集合B、A∩B和A∪B中的元素的数目。

推荐单元150提取具有组合中包括的相应的分析观点的结果向量之间的最高向量相似度的预先设置的预定数目的组合作为推荐候选(步骤S107)。

推荐单元150显示推荐候选(步骤S108)并且结束推荐处理。

如在上面说明的，根据本示例性实施例的文本挖掘设备100将具有相应的分析观点的结果向量之间的高向量相似度的分析观点的组合输出作为推荐候选。用户可以从推荐候选中包括的多个分析观点来相互比较分析结果以抓住分析结果之间的差异，即，来自相应的分析观点的分析结果所特有的特征。

根据本发明，推荐候选由文本挖掘设备100输出，并且因此用户无需自己选择将被比较的分析观点的组合。

根据本发明，具有最高相似度的分析结果可以被优选地相互比较，并且因而用户可以高效地抓住分析结果之间的差异，即，独特特征。

根据本发明，在通过采用各不相同的多个属性值作为分析观点分别获得类似分析结果的情况下，即使当属性值是各不相同的属性中包括的属性值时分析观点的组合也被作为推荐候选输出给用户。因为在分别采用各不相同的属性中包括的多个属性值作为分析观点的情况下的分析结果可以被相互比较，因此用户可以准确地抓住来自每个分析观点的分析结果所特有的特征。

在本示例性实施例中，文本挖掘设备100分析具有图2中表示的结构的数据DT。文本挖掘设备100可以分析具有任意结构的数据，只要该数据包括属性和文本即可。

在本示例性实施例中，任意分析观点的组合(来自其的分析结果类似)作为推荐候选而被输出给用户。当用户选择某一属性值作为分析目标时，文本挖掘设备100也可以将如下分析观点输出作为推荐候选：该分析观点的分析结果类似于在采用被选择为分析目标的属性值作为分析观点的情况下的分析结果。通过将在采用被选择为分析目标的属性值作为分析观点的情况下的分析结果与由文本挖掘设备100作为推荐候选输出的来自分析观点的分析结果相比较，用户可以抓住分析目标的属性值的独特特征。

多个属性值的组合可被指定为分析目标。在这种情况下，各不相同的多个属性中包括的属性值的组合可以被指定为分析目标。

分析单元120可以将数据DT中包括的每个属性值单独获取作为分析观点，或者可以将多个属性值的组合或者包括属性名称和属性值的属性本身获取作为分析观点。

相似度获取单元140可以如在本示例性实施例中一样自己计算向量相似度，或者可以获取由外部设备预先计算并被存储在该外部设备中的向量相似度。

在本示例性实施例中，50个特征词作为分析结果而被获得。作为分析结果获得的特征词的数目可以被任意设置。除特征词之外的信息可以作为分析结果而被获得。

例如，与每个分析观点相关联的文本中的每个单词的出现频率或者出现次数可以作为来自每个分析观点的分析结果而被获得。

备选地，与每个分析观点相关联的文本中的每个短语的出现频率或者出现次数可以作为来自每个分析观点的分析结果而被获得。这样的短语指的是一系列的多个单词。

备选地，在文本中出现的与每个分析观点相关联的短语当中具有最高加权值的预定数目的短语(特征短语)可以作为来自每个分析观点的分析结果而被获得。

备选地，在文本中出现的与每个分析观点相关联的修改或者与每个分析观点相关联的文本中的每个修改的出现频率或者出现次数可以作为来自每个分析观点的分析结果而被获得。这样的修改指的是在单词或短语和另一单词或短语之间存在的语法关系。例如，假定七个描述(其内容等价于“成本效益高”或者“高成本效益”)在与某一分析观点相关联的文本中出现。在这种情况下，作为修改的“成本效益&高”和作为其出现次数的“7”中的每一个作为来自分析观点的分析结果之一而被获得。

在本示例性实施例中，通过向将数据DT中包括的文本中包括的所有单词包括作为元素(成员)的向量中的表示来自每个分析观点的分析结果中包括的特征词的元素应用“1”值来生成结果向量。也可以通过与本示例性实施例中描述的方法不同的方法来生成结果向量。

例如，可以使用作为分析结果获得的特征词中的不是所有但是一些来生成结果向量。

备选地，可以使用作为分析结果获得的短语或者修改来生成结果向量。

备选地，当单词的出现频率或出现次数、短语的出现频率或出现次数和修改的出现频率或出现次数中的任一个被获得作为来自每个分析观点的分析结果时，具有出现频率或出现频率作为元素的结果向量可被生成。

备选地，包括除分析结果之外的信息的结果向量可被生成。例如，在采用属性值“男”作为分析观点的情况下的结果向量可以包括作为分析观点的属性值“男”和作为在包括属性值“男”的属性中包括的属性名称的“性别”作为其元素。可以使用记录ID信息来生成结果向量。例如，包括在记录ID信息中表示的记录ID作为元素的结果向量可以被生成。

在本示例性实施例中，杰卡德系数被采用作为向量相似度。除杰卡德系数之外的集合之间的相似度可被采用作为向量相似度。

例如，同现频率可以被采用作为向量相似度。假定各不相同的两个分析观点的结果向量被分别视为集合A和集合B，同现频率K(A，B)可以由以下式(2)确定。

[式2]

K(A，B)＝|A∩B…式(2)

备选地，余弦系数(余弦距离或者余弦相似度)可被采用作为向量相似度。余弦系数C(A，B)可以由以下式(3)确定。

[式3]

备选地，戴斯(dice)系数可被采用作为向量相似度。戴斯系数D(A，B)可以由以下式(4)确定。

[式4]

备选地，重叠系数(辛普森系数)系数可被采用作为向量相似度。重叠系数S(A，B)可以由以下式(5)确定。

[式5]

其中min(|A|，|B|)表示|A|和|B|当中的更小值。

在本示例性实施例中，具有每个组合中包括的分析观点的结果向量之间的最高相似度的预定数目的组合被提取作为推荐候选。代替预定数目的组合的提取，其中所有生成的组合按照每个组合中包括的分析观点的结果向量之间的相似度的降序排序的列表可以被创建和显示。

当被提取作为推荐候选的组合被显示时，来自每个组合中包括的每个分析观点的分析结果也可被一起显示。备选地，当用户选择作为推荐候选而被显示的组合中包括的分析观点中的任一个分析观点时，来自选择的分析观点的分析结果可被显示。

当被提取作为推荐候选的组合被显示时，每个组合的推荐分数也可被一起显示。推荐分数是根据每个组合中包括的分析观点的结果向量之间的向量相似度而被应用的分数。

推荐候选也可以与诸如图表之类的视图被一起显示。代替在显示器等上显示推荐候选，推荐候选可以通过诸如语音之类的非视觉方法而被输出给用户。

(示例性实施例2)

在示例性实施例1中，由文本挖掘设备100执行的推荐处理的一部分可由除文本挖掘设备100之外的设备执行。下面将说明其中在文本挖掘设备100和数据存储设备200的合作下执行推荐处理的文本挖掘系统1000。

文本挖掘系统1000包括文本挖掘设备100和数据存储设备200，如在图5中所图示的。文本挖掘设备100和数据存储设备200经由有线LAN(局域网)300而相互连接。

文本挖掘设备100在功能上包括向量生成单元130、相似度获取单元140、推荐单元150、结果数据接收单元160、选择单元170和推荐数据传输单元180，如在图5中所图示的。

向量生成单元130、相似度获取单元140和推荐单元150的功能和操作大致类似于第一示例性实施例中的那些单元。

结果数据接收单元160接收来自稍后提到的数据存储设备200中包括的结果数据传输单元230的结果数据。

选择单元170在由向量生成单元130生成的包括多个分析观点(属性值)的分析观点的组合当中提取满足预先设置的提取条件的组合。

推荐数据传输单元180生成表示由推荐单元150提取的推荐候选的推荐数据并且将推荐数据传输给稍后提到的数据存储设备200中包括的推荐数据接收单元240。

相比之下，数据存储设备200在功能上包括存储单元210、分析单元220、结果数据传输单元230、推荐数据接收单元240和显示单元250，如在图5中所图示的。

像在示例性实施例1的文本挖掘设备100中包括的存储单元110中一样，在存储单元210中，作为文本挖掘目标的数据DT被从外部输入设备预先取得并被存储。

分析单元220包括与根据第一示例性实施例的文本挖掘设备100中包括的分析单元120的那些功能类似的功能。

结果数据传输单元230将结果数据传输给文本挖掘设备100中包括的结果数据接收单元160。

推荐数据接收单元240接收来自文本挖掘设备100中包括的推荐数据传输单元180的推荐数据。

显示单元250显示在推荐数据中表示的推荐候选。

下面将使用图6的流程图来描述文本挖掘系统1000的操作。

在数据存储设备200中包括的存储单元210中，用户希望经受文本挖掘的数据DT被从外部输入设备预先取得并且被存储。

用户在希望数据DT经受文本挖掘时选择作为数据存储设备200中包括的多个操作模式之一的推荐处理模式。

当用户选择推荐处理模式时，数据存储设备200开始在图6的流程图中表示的推荐处理。

数据存储设备中的分析单元220获取数据DT中包括的每个属性中包括的属性值作为分析观点(步骤S201)。

分析单元220获得来自每个分析观点的分析结果(S202)。具体而言，分析单元220从数据DT中与被采用作为分析观点的属性值相关联的文本提取特征词并且获得特征词作为来自每个分析观点的分析结果。

分析单元220生成包括在步骤S202中获得的来自每个分析观点的分析结果的结果数据(步骤S203)并且将结果数据发送给结果数据传输单元230。

结果数据传输单元230将接收到的结果数据传输给文本挖掘设备100中的结果数据接收单元160(步骤S204)。

结果数据接收单元160接收结果数据(步骤S205)并且将结果数据发送给向量生成单元130。

向量生成单元130基于接收到的结果数据生成每个分析观点的结果向量(步骤S206)。具体而言，向量生成单元130向作为来自包括数据DT中包括的所有文本中包括的所有单词作为元素(成员)的向量中的某些分析观点的分析结果获得的单词的元素(特征词)应用“1”值，并且向其他元素应用“0”值，由此生成分析观点的结果向量。

然后，向量生成单元130生成包括多个分析观点(属性值)的分析观点的组合(步骤S207)并且将这些组合发送给选择单元170。

选择单元170在接收到的分析观点的组合当中提取满足预先设置的提取条件的组合(步骤S208)。

具体而言，选择单元170在步骤S207中生成的组合当中提取具有这些组合中包括的相应的分析观点的结果向量中共同包括的元素的组合，其中具有“1”的值的元素的数目不小于预定数目。结果，选择单元170可以仅提取如下分析观点的组合：其结果向量以不低于某一水平相互类似。

相似度获取单元140计算在步骤S208中提取的组合中包括的相应的分析观点的结果向量之间的向量相似度(杰卡德系数)(步骤S209)。

推荐单元150提取具有组合中包括的相应的分析观点的结果向量之间的最高向量相似度的预先设置的预定数目的组合作为推荐候选(步骤S210)。

推荐数据传输单元180生成表示在步骤S210中提取的推荐候选的推荐数据并且将推荐数据传输给数据存储设备200中的推荐数据接收单元240(步骤S211)。

推荐数据接收单元240接收推荐数据(步骤S212)并且将推荐数据发送给显示单元250。显示单元250显示由接收到的推荐数据表示的推荐候选(步骤S213)并且结束推荐处理。

通过比较来自由根据本示例性实施例的文本挖掘系统1000作为推荐候选输出的分析观点的组合中包括的每个分析观点的分析结果，用户可以抓住来自每个分析观点的分析结果所特有的特征。

在本示例性实施例中，在示例性实施例1中由文本挖掘设备100执行的推荐处理的一部分(数据DT的存储、分析观点的获取、获得分析结果、结果数据的生成以及推荐候选的显示)由数据存储设备200执行的示例性实施例1中的文本挖掘设备100所执行。因此，根据根据本示例性实施例的文本挖掘设备100的处理负荷比根据示例性实施例1的根据文本挖掘设备100的处理负荷更小。

根据本示例性实施例的文本挖掘设备100在生成的分析观点的组合当中提取满足预先设置的提取条件的组合，并且计算仅在提取的组合中包括的相应的分析观点的结果向量之间的向量相似度。因此，根据本示例性实施例的根据文本挖掘设备100的处理负荷比根据示例性实施例1的根据文本挖掘设备100(其计算所有生成的组合中包括的相应的分析观点的结果向量之间的向量相似度)的处理负荷更小。

根据本示例性实施例的文本挖掘系统1000提取具有组合中包括的相应的分析观点的结果向量中共同包括的元素的分析观点的组合，其中具有“1”的值的元素的数目不小于预定数目，并且将提取的组合的一部分作为推荐候选输出给用户。换言之，如下组合作为推荐候选被输出给用户：在这些组合中来自组合中包括的分析观点的分析结果以不低于某一水平相互类似。因为能够比较以不低于某一水平相互类似的分析结果，所以用户容易地抓住每个分析观点的独特特征。

在本示例性实施例中，在示例性实施例1中由文本挖掘设备100执行的处理当中，数据DT的存储、分析观点的获取、获得分析结果、结果数据的生成和推荐候选的显示由数据存储设备200执行，并且其他处理由文本挖掘设备100执行。与在本示例性中描述的功能的共享不同的功能的各种共享是可能的。

例如，基于推荐数据的推荐候选的显示可以由文本挖掘设备100执行。

备选地，数据存储设备200可以执行结果向量的生成和满足提取条件的分析观点的组合的提取，以由此减少文本挖掘设备100上的处理负荷。在这种情况下，数据存储设备200将所提取的分析观点的组合和这些组合中包括的相应的分析观点的结果向量传输给文本挖掘设备100。因为只有关于所提取的分析观点的信息被传输，因此整个文本挖掘系统1000的操作的效率与如在本示例性实施例中传输用于所有分析观点的结果数据的情况相比被提高。

在本示例性实施例中，文本挖掘设备100将“具有组合中包括的相应分析观点的结果向量中共同包括的元素，其中具有“1”的值的元素的数目不小于预定数目”采用作为用于提取分析观点的组合的提取条件。可以使用与在本示例性实施例中描述的条件不同的任意条件来提取分析观点的组合。

例如，“来自组合中包括的每个分析观点的分析结果之间的简单相似度不小于预定阈值”可被采用作为提取条件。这样的简单相似度是比向量相似度更容易获得的任意相似度。简单相似度例如是相应的分析观点的结果向量之间的内积或距离。

备选地，“具有组合中包括的相应的分析观点的结果向量中共同包括的元素，其中具有大于预定阈值的值的元素的数目不小于预定数目”可被采用作为提取条件。例如，当结果向量包括单词的出现频率作为元素时，共享不少于预定数目个出现频率高于预定阈值的单词的分析观点的组合被提取作为满足提取条件的组合。可以估计在分析结果中频繁出现的单词是表示分析结果的特征的单词。通过比较其中表示特征的单词是共同的分析结果，用户可以高效地抓住每个分析观点的独特特征。

备选地，“组合中包括的相应的分析观点之间的记录相似度不大于预定阈值”可被采用作为提取条件。这样的记录相似度是记录ID信息的项之间的相似度。具体而言，各不相同的分析观点的记录ID信息中共同包括的记录ID的数目或者各不相同的分析观点的记录ID信息中共同包括的记录ID的数目对相应的分析观点的记录ID信息中包括的记录ID的总数的比率(共享率)可以被采用作为记录相似度。例如，假定在本示例性实施例中，所有回复问卷的男人都是三十多岁。在这种情况下，可以估计在采用属性值“男”作为分析观点的情况下的分析结果和将属性值“30年代”视为分析观点的情况下的分析结果之间存在高相似度。然而，该相似度仅是由样本偏差产生的伪相似度。用户可能通过比较具有伪相似度的两个分析结果而错误地识别每个分析观点的特征。可以通过消除具有极高记录相似度的分析观点的组合来消除由样本偏差产生的分析结果之间的伪相似度。

在本示例性实施例中，单个条件被采用作为提取条件。多个条件的组合可被采用作为提取条件。当多个条件被采用作为提取条件时，通过考虑到每次缩小所需的时间、取决于每次缩小的选择性程度等来设置根据每个条件的缩小的次序(过滤的次序)，总体处理时间可以被缩短。

满足提取条件的分析观点的组合可以通过在NPL1(Kenji Tateishi和一个作者，“Fast Duplicated Documents Detection with Multi-level Prefix Filter”，[在线]，日本数据库协会，[在2012年12月12日搜索]，因特网(URL：www.dbsj.org/journal/vol5/no4/tateishi.pdf))和NPL2(Naoaki Okazaki和一个作者，“A Simple and FastAlgorithm for Approximate String Matching with Set Similarity”，[在线]，[在2012年12月12日搜索]，因特网(URL：www.chokkan.org/publication/okazaki_jnlp2011.pdf))中公开的方法而被提取。根据在非专利文献1和2中公开的方法，满足提取条件的组合可以在不实际计算结果向量之间的相似度的情况下被快速提取。

包括上面提到的功能配置并且执行上面提到的推荐处理的文本挖掘设备100和数据存储设备200包括控制单元11、主存储单元12、外部存储单元13、操纵单元14、显示单元15、传输－接收单元16和用于使它们相互连接的内部总线18作为硬件配置，如在图7中所图示的。

控制单元11包括CPU(中央处理单元)。控制单元11控制整个文本挖掘设备100和数据存储设备200以通过执行在外部存储单元13中存储的控制程序17来实现在文本挖掘设备100和数据存储设备200中包括的上面提到的各种功能。文本挖掘设备100中的分析单元120、向量生成单元130、相似度获取单元140、推荐单元150和选择单元170由控制单元11实现。数据存储设备200中的分析单元220也由控制单元11实现。

主存储单元12包括RAM(随机存取存储器)。主存储单元12起控制单元11的工作区域的作用，并且包括控制程序17和文本挖掘程序的各种程序在主存储单元12中被临时展开。

外部存储单元13包括非易失性存储器(例如，闪存、硬盘、DVD-RAM(数字多用途盘随机存取存储器)、DVD-RW(可重写数字多用途盘)等)。外部存储单元13固定地存储包括由控制单元11执行的控制程序17和文本挖掘程序的各种程序以及各种固定数据。外部存储单元13将存储的数据供应给控制单元11并且存储从控制单元11供应的数据。文本挖掘设备100中的存储单元110和数据存储设备200中的存储单元210由外部存储单元13实现。

操纵单元14包括键盘和鼠标，并且接受用户的操纵。

显示单元15显示包括推荐候选的各种信息。显示单元15例如包括CRT(阴极射线管)和LCD(液晶显示器)。数据存储设备200中的显示单元250由显示单元15实现。

传输－接收单元16包括：与网络相连的网络终端设备或者有线通信设备；以及与该设备相连的串行接口或者LAN接口。文本挖掘设备100中的结果数据接收单元160和推荐数据传输单元180以及数据存储设备200中的结果数据传输单元230和推荐数据接收单元240由传输－接收单元16实现。

内部总线18使控制单元11与传输－接收单元16相互连接。

在没有专用系统的情况下可以使用正常计算机系统来实现文本挖掘设备100和数据存储设备200。执行上面提到的处理的文本挖掘设备100和数据存储设备200可以例如通过分发其中存储有用于执行文本挖掘设备100和数据存储设备200的操作的计算机程序的计算机可读记录介质(软盘、CD-ROM、DVD-ROM等)并且通过将该计算机程序安装在计算机上而被配置。文本挖掘设备100和数据存储设备200可以通过例如将诸如因特网之类的通信网络上的服务器设备中包括的存储设备中存储的计算机程序下载到正常计算机系统而被配置。

当文本挖掘设备100和数据存储设备200的各种功能通过OS(操作系统)和应用程序的共享而被实现或者在OS和应用程序的合作下而被实现，只有应用部分可被存储在外部存储单元13、记录介质、存储设备等中。

应用程序可以被叠加在载波上并且经由通信网络递送。例如，应用程序可被张贴在通信网络上的公告板(BBS：公告板系统)上并且经由网络被递送。这样的配置可被做出以使得可以通过启动在计算机上安装的应用程序和通过以类似于另一应用程序的方式的方式在OS的控制下执行应用程序来执行处理。

此外，上面描述的硬件配置、流程图、阈值、参数等中的每项仅是示例，并且可以被可选地改变和修改。

上面描述的示例性实施例中的一些或者全部也可以如在以下补充说明中描述但是不限于以下。

(补充说明1)

一种文本挖掘设备，包括：

分析单元，该分析单元被配置为从包括文本、以及包括属性名称和属性值并且与该文本相关联的一个或多个属性的数据，获取该属性作为分析观点，使用相应的该分析观点分析该数据以从每个分析观点获得分析结果，并且生成相应的该分析观点的结果向量；

相似度获取单元，该相似度获取单元被配置为获取多个该分析观点的该结果向量之间的向量相似度；以及

推荐单元，该推荐单元被配置为基于该向量相似度来提取并输出该分析观点的组合作为推荐候选。

(补充说明2)

根据补充说明1所述的文本挖掘设备，其中

该结果向量基于在来自该分析观点中的每个分析观点的该分析结果中包括的数据的一项或多项而被生成。

(补充说明3)

根据补充说明1或2所述的文本挖掘设备，其中

来自该分析观点中的每个分析观点的该分析结果包括以下中的至少任何一个：被包括在该文本中的单词、被包括在该文本中的该单词的出现频率、被包括在该文本中的该单词的出现次数、被包括在该文本中的修改以及被包括在该文本中的短语。

(补充说明4)

根据补充说明1至3中任一项所述的文本挖掘设备，还包括选择单元，该选择单元被配置为从该分析观点的组合中提取满足提取条件的分析观点的组合，其中

该相似度获取单元获取在由该选择单元提取的该分析观点的该组合中的相应分析观点的组合中包括的分析观点的结果向量之间的向量相似度。

(补充说明5)

根据补充说明4所述的文本挖掘设备，其中

该提取条件包括以下条件中的至少任何一个条件：分析观点的组合，其中被包括在该分析观点的该组合中的分析观点的结果向量之间的简单相似度高于预定阈值；在被包括在该分析观点的该组合中的分析观点的结果向量中被共同包括的元素，其中具有不小于预定阈值的值的元素的数目不小于预定数目；以及表示与每个分析观点相关联的文本的标识信息的项之间的相似度，该相似度在被包括在该分析观点的该组合中的分析观点的标识信息的项之间不大于预定阈值。

(补充说明6)

一种文本挖掘系统，包括：

根据补充说明1至5中任一项所述的文本挖掘设备；以及

数据存储设备，在该数据存储设备中预先存储该数据。

(补充说明7)

一种文本挖掘方法，包括：

分析步骤，用于从包括文本、以及包括属性名称和属性值并且与该文本相关联的一个或多个属性的数据获取该属性作为分析观点，使用相应的该分析观点分析该数据以从每个分析观点获得分析结果，并且生成相应的该分析观点的结果向量；

相似度获取步骤，用于获取多个该分析观点的该结果向量之间的向量相似度；以及

推荐步骤，用于基于该向量相似度来提取并输出该分析观点的组合作为推荐候选。

(补充说明8)

一种计算机可读记录介质，该计算机可读记录介质中记录有用于使计算机起以下作用的程序：

分析单元，该分析单元从包括文本、以及包括属性名称和属性值并且与该文本相关联的一个或多个属性的数据获取该属性作为分析观点，使用相应的该分析观点分析该数据以从每个分析观点获得分析结果，并且生成相应的该分析观点的结果向量；

相似度获取单元，该相似度获取单元获取多个该分析观点的该结果向量之间的向量相似度；以及

推荐单元，该推荐单元基于所述向量相似度来提取并输出该分析观点的组合作为推荐候选。

在不脱离本发明的更广阔精神和范围的情况下可以做出各种示例性实施例和修改。应当注意到，以上实施例仅旨在例示本发明并且不旨在限制本发明的范围。因此，本发明的范围不应当由例示出的实施例决定，而是由所附权利要求决定。因此旨在将本发明解释为包括在权利要求及其等价物的范围内做出的各种修改。

本申请基于在2013年1月11日提交的日本专利申请第2013-003990号。日本专利申请第2013-003990号的说明书、权利要求和附图通过引用而被整体结合于此。

工业应用性

本发明使得用户能够在文本挖掘中抓住来自每个分析观点的分析结果所特有的特征。因此，本发明在诸如营销之类的领域中有用，营销需要从诸如问卷结果之类的巨大文本数据提取有用信息。

标号列表

11 控制单元

12 主存储单元

13 外部存储单元

14 操纵单元

15 显示单元

16 传输－接收单元

17 控制程序

18 内部总线

100 文本挖掘设备

110 存储单元

120 分析单元

130 向量生成单元

140 相似度获取单元

150 推荐单元

160 结果数据接收单元

170 选择单元

180 推荐数据传输单元

200 数据存储设备

210 存储单元

220 分析单元

230 结果数据传输单元

240 推荐数据接收单元

250 显示单元

300 有线LAN

1000 文本挖掘系统

Claims

1.一种文本挖掘设备，包括：

分析单元，所述分析单元被配置为从多个记录获取作为属性的属性值的第一分析观点，并获取作为与所述属性不同的属性的属性值的多个其他分析观点，其中所述记录包括文本和包括属性名称和属性值并且与所述文本相关联的多个属性，所述分析单元基于从与所述第一分析观点相关联的文本获取的特征词生成与所述第一分析观点相应的第一结果向量，并且基于从与被获取了多个的所述其他分析观点之内的各其他分析观点相关联的文本获取的特征词来生成多个与所述各其他分析观点相应的第二结果向量；

相似度获取单元，所述相似度获取单元被配置为分别获取所述第一结果向量和各个所述第二结果向量的向量相似度；以及

推荐单元，所述推荐单元被配置为基于所述向量相似度来提取并输出多个组合作为推荐候选，所述多个组合是与所述第一结果向量相应的第一分析观点和与各个所述第二结果向量相应的其他分析观点的组合。

2.根据权利要求1所述的文本挖掘设备，其中

所述第一分析观点是用户选择的属性的属性值，所述其他分析观点是未被所述用户选择的属性的属性值。

3.根据权利要求1所述的文本挖掘设备，其中

所述特征词是所述多个记录中与被选择为分析观点的属性值相关联的文本中包含的单词，且是与被选择为所述分析观点的属性值相关联的文本中所述单词的出现频率相对于所述多个记录所包含的所有文本中所述单词的出现频率的比率超过阈值的单词。

4.根据权利要求1所述的文本挖掘设备，还包括选择单元，所述选择单元被配置为从所述分析单元所获取的、所述第一分析观点和所述其他分析观点之内的各分析观点的组合中提取满足提取条件的组合，其中

所述相似度获取单元对于由所述选择单元提取的组合获取所述组合中包括的各分析观点的结果向量之间的向量相似度。

5.根据权利要求4所述的文本挖掘设备，其中

所述提取条件是被包括在所述组合中的各分析观点的结果向量之间的简单相似度高于预定阈值的分析观点的组合。

6.一种文本挖掘方法，使计算机执行以下步骤：

分析步骤，从多个记录获取作为属性的属性值的第一分析观点，并获取作为与所述属性不同的属性的属性值的多个其他分析观点，其中所述记录包括文本和包括属性名称和属性值并且与所述文本相关联的多个属性，基于从与所述第一分析观点相关联的文本获取的特征词生成与所述第一分析观点相应的第一结果向量，并且基于从与被获取了多个的所述其他分析观点之内的各其他分析观点相关联的文本获取的特征词来生成多个与所述各其他分析观点相应的第二结果向量；

相似度获取步骤，分别获取所述第一结果向量和各个所述第二结果向量的向量相似度；

推荐步骤，基于所述向量相似度来提取并输出多个组合作为推荐候选，所述多个组合是与所述第一结果向量相应的第一分析观点和与各个所述第二结果向量相应的其他分析观点的组合。

7.一种非瞬态计算机可读记录介质，所述计算机可读记录介质中记录有用于使计算机起以下作用的程序：

分析单元，所述分析单元从多个记录获取作为属性的属性值的第一分析观点，并获取作为与所述属性不同的属性的属性值的多个其他分析观点，其中所述记录包括文本和包括属性名称和属性值并且与所述文本相关联的多个属性，所述分析单元基于从与所述第一分析观点相关联的文本获取的特征词生成与所述第一分析观点相应的第一结果向量，并且基于从与被获取了多个的所述其他分析观点之内的各其他分析观点相关联的文本获取的特征词来生成多个与所述各其他分析观点相应的第二结果向量；

相似度获取单元，所述相似度获取单元分别获取所述第一结果向量和各个所述第二结果向量的向量相似度；以及

推荐单元，所述推荐单元基于所述向量相似度来提取并输出多个组合作为推荐候选，所述多个组合是与所述第一结果向量相应的第一分析观点和与各个所述第二结果向量相应的其他分析观点的组合。