CN104246775A

CN104246775A - 文本挖掘系统、文本挖掘方法和程序

Info

Publication number: CN104246775A
Application number: CN201380021769.5A
Authority: CN
Inventors: 土田正明; 石川开; 大西贵士; 达尼埃尔·安德拉德
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2012-04-26
Filing date: 2013-04-24
Publication date: 2014-12-24
Anticipated expiration: 2033-04-24
Also published as: US10409848B2; WO2013161850A1; JP5494999B1; SG11201406913VA; US20150120735A1; CN104246775B; JPWO2013161850A1

Abstract

本发明涉及一种文本挖掘系统，包括：同义词聚类获取部，配置为从待分析的文本数据中的文本中获取同义词聚类，所述同义词聚类每个都是同义的文本的集合；隐含关系获取部，配置为获取所述同义词聚类之中的隐含关系；以及隐含图生成部，配置为根据所述同义词聚类之中的隐含关系而生成隐含图，所述隐含图包括同义词聚类的顶点和有向边，每个有向边指示从被隐含的同义词聚类到隐含同义词聚类的方向。

Description

文本挖掘系统、文本挖掘方法和程序

技术领域

本发明涉及用于从文本信息获得对其内容中趋势和有用知识的分析的文本挖掘系统。

背景技术

文本挖掘是一种数据分析技术，用于从以自然语言书写的文本数据输入中，诸如从问卷中自由评论字段中的文本，抓取其内容的整体趋势以及找出有用知识。例如，在呼叫中心，这使得有可能从回答记录中抓取询问的内容，或者从有关产品的问卷中找到产品的问题或改进。

例如，PTL 1用于提取两个或更多词之间的句法从属关系，合计句法从属性的出现频率，将词安排到预定义的目录中，之后，显示词的句法从属关系的网络(PTL 1中的图8、10和12)。例如，目录可以包括词的部分语音或句中的功能，诸如主语和宾语。而且，在显示前述网络时，有关目录、词和句法从属关系的显示条件可以调整为自行决定从句法从属关系的宽范围概况到精确细节获取分析。

引用列表

专利文献

PTL 1：JP P2007-293685A

发明内容

技术问题

但是，存在这样的问题：这样的基于句法从属性的词间网络不允许通过直接理解文本内容的分析。其原因在于：文本的内容不能准确地从句法从属关系中读取。例如，假设有两个句子：“当许多应用程序启动时，个人电脑B操作慢”(句子1)和“个人电脑B启动慢”(句子2)，共同包括句法从属关系“个人电脑B-慢”和“启动-慢”。但是，句子1中的“个人电脑B操作慢”的条件是“当许多应用程序启动时”，因此，被“启动”的是什么，这在句子1和2中是不同的；因此，信息是从所述句法从属关系中被部分读取出的，其中这些句子基于所述句法从属关系而相互相关。因此，为了理解文本的具体内容，人们应该读取文本中的句子，包括其句法从属性，并且对其重新安排。

本发明就是考虑到这样的问题而做出的，并且其目的在于提供一种文本挖掘系统、文本挖掘方法和程序，能够通过直接理解的文本内容进行分析。

发明的公开内容

本发明涉及一种文本挖掘系统，其特征在于包括：同义词聚类获取部，配置为从待分析的文本数据中的文本中获取同义词聚类，所述同义词聚类每个都是同义的文本的集合；隐含关系获取部，配置为获取所述同义词聚类之中的隐含关系；以及隐含图生成部，配置为根据所述同义词聚类之中的隐含关系而生成隐含图，所述隐含图包括同义词聚类的顶点和有向边，每个有向边指示从被隐含的同义词聚类到隐含同义词聚类的方向。

本发明涉及一种文本挖掘方法，其特征在于包括：从待分析的文本数据中的文本中获取同义词聚类，所述同义词聚类每个都是同义的文本的集合；获取所述同义词聚类之中的隐含关系；以及根据所述同义词聚类之中的隐含关系而生成隐含图，所述隐含图包括同义词聚类的顶点和有向边，每个有向边指示从被隐含的同义词聚类到隐含同义词聚类的方向。

本发明涉及一种程序，其特征在于使得计算机执行：同义词聚类获取处理，从待分析的文本数据中的文本中获取同义词聚类，所述同义词聚类每个都是同义的文本的集合；隐含关系获取处理，获取所述同义词聚类之中的隐含关系；以及隐含图生成处理，根据所述同义词聚类之中的隐含关系而生成隐含图，所述隐含图包括同义词聚类的顶点和有向边，每个有向边指示从被隐含的同义词聚类到隐含同义词聚类的方向。

根据本发明，文本是以不更改的形式被处置的，由此，同义词聚类获取部获取聚类，每个聚类包括具有不同表示但相同内容的文本(其将被称为同义词聚类)。文本隐含关系获取部获取所有生成的同义词聚类之中的隐含关系。如这里所使用的，隐含关系被定义为，使得在第二文本的内容能够从第一文本的内容中读取的情况下，第一文本隐含第二文本。根据本发明的配置，由于同义文本已经由同义词聚类获取部集合在一起并且重新安排，隐含侧包括与被隐含侧相区别的内容。隐含图生成部生成隐含图，隐含图具有同义词聚类的顶点和有向边，每个有向边从被隐含侧向隐含侧绘制。隐含图中的顶点是保持未更改的原始文本。而且，通过在有向边的方向上追溯隐含图，也就是，从被隐含侧(开始点)到隐含侧(结束点)，可以获取关于有多少文本包括开始点处文本的内容以及它们具有的具体文本是什么的分析。

发明的有益效果

根据本发明，可以通过直接理解的文本内容而获取分析。

附图说明

[图1]图1是示出本发明的第一实施例的配置的框图。

[图2]图2是示出本发明的第一实施例的操作的流程图。

[图3]图3是示出存储在文本数据存储部中的数据示例的图。

[图4]图4是示出从同义词聚类获取部输出的结果的示例的图。

[图5]图5是示出从隐含图生成部输出的结果的示例的图。

[图6]图6是示出从隐含图生成部输出的结果的示例的图。

[图7]图7是示出在显示设备上显示的从隐含图生成部得出的结果的示例的图。

[图8]图8是示出本发明的第二实施例的配置的框图。

[图9]图9是示出本发明的第二实施例的操作的流程图。

[图10]图10是示出在显示设备上显示的从频率合计部得出的结果的示例的图。

具体实施方式

现在将结合附图来描述本发明的实施例。

(第一实施例)

将结合附图来详细描述本发明的第一实施例。图1是示出本发明的第一实施例的配置的框图。参看图1，本发明的实施例包括文本数据存储部1、文本挖掘装置2和显示设备3。

文本数据存储部1在其中存储要分析的文本数据。要分析的文本是人们可以理解其内容的单元，特别地，希望是包含一个或多个句子的文本。

文本挖掘装置2包括同义词聚类获取部20、文本隐含关系获取部21和隐含图生成部22。

同义词聚类获取部20从文本数据存储部1中检索要分析的文本数据，获取每个都包括具有相同内容的文本的同义词聚类。同义词聚类获取部20可以利用确定在文本之间的同义性的任何方法。

文本隐含关系获取部21获取同义词聚类获取部20所生成的同义词聚类之中的隐含关系。文本隐含关系获取部21可以利用任何现有的隐含确定方法。

隐含图生成部22根据文本隐含关系获取部21所作出的隐含确定的结果，生成包括同义词聚类的顶点和有向边的隐含图，其中每个有向边都反映了同义词聚类之间所确定的隐含的方向。

显示设备3显示文本挖掘装置2所生成的隐含图。

接下来，将特别结合图1和图2中的流程图来描述本实施例的操作。

首先，同义词聚类获取部20从文本数据存储部1中读取文本数据，对所读取文本数据进行获取包括同义词文本的聚类的处理(步骤S1)。图3示出了存储在文本数据存储部1中的文本数据的示例。如图3中所示，文本的数据包括文本和表示其标识符的ID。“X”表示具体产品名称。步骤S1可以利用任何现有的聚类同义文本的方法。在本描述中，同义词聚类获取部20进行聚类，使得在包括内容词的矢量之间的余弦相似性等于或大于0.8的情况下文本被认为是同义的，而同义词被认为也是同义的。例如，具有ID 1的文本和具有ID 2的文本导致矢量“X,好”，它们被认为是同义的，因为它们的相似性为1.0。在找到与具有ID 2的文本的相似性等于或大于0.8的另一文本的情况下，其被认为是与具有ID 1的文本同义的，即使其与具有ID 1的文本的相似性小于0.8。

图4示出同义词聚类所获得的同义词聚类的示例。同义词聚类包括：ID，其是同义词聚类的标识符；属于同义词聚类的文本的ID列表；和针对同义词聚类的ID的标签。标签可以是通过从同义词聚类提取任何文本而创建的。

接下来，文本隐含关系获取部21进行获取由同义词聚类获取部20获得的同义词聚类之中的隐含关系的处理(步骤S2)。文本隐含关系获取部21可以利用任何现有的文本隐含确定方法。在本描述中，文本隐含关系获取部21确定在第一文本中出现的内容词涵盖第二文本的80％或更多的情况下，第一文本隐含着第二文本。作为文本，利用同义词聚类的标签。在步骤S2，成对的同义词聚类从所有同义词聚类中列出，每对同义词聚类之间的隐含关系是一个成员被确定为第一文本而另一个被确定为第二文本。

例如，当第一文本在具有ID 1的同义词聚类中，且第二文本在具有ID 2的同义词聚类中时，第一文本的内容词是“(X,好)”而第二文本的内容词是“(X,设计,好)”，由此内容词覆盖率为66％(＝2/3)，这不构成隐含关系。另一方面，当第一文本和第二文本交换位置，第一文本的内容词是“(X,设计,好)”而第二文本的内容词是“(X,好)”，导致覆盖率为100％(＝2/2)，这被确定为构成隐含关系。这个处理应用于所有成对的同义词聚类。当对于同义词聚类的标签之间的隐含的确定的结果在此被定义为对于同义词聚类之间的隐含的确定的结果时，对于属于两个同义词聚类的成对的文本之间的隐含的确定的结果可以组合以做出在同义词聚类之间的隐含确定，因为同义词聚类具有多个文本。这导致了当对于同义词聚类的标签的文本之间的隐含的确定的结果将不正确时，对于隐含做出正确确定的改进的可能性。

最后，隐含图生成部22进行从由文本隐含关系获取部21获得的对于同义词聚类之间的隐含的确定的结果来创建包括从被隐含的同义词聚类到隐含同义词聚类的同义词聚类的顶点和有向边的隐含图的处理(步骤S3)。

图5示出了创建的隐含图的示例。在图5中所示的示例中，有向边从被隐含侧到隐含侧绘制。图5中的隐含图具有两个隐含图，包括隐含“X好”的文本的集合和隐含“X不好”的文本的集合。换句换说，这意味着不存在由“X好”隐含的文本也不存在由“X不好”隐含的文本。例如，从这个隐含图中可以看出，大体存在“X好”和“X不好”的观点，包含(隐含)“X好”的意思的其他观点，按追溯箭头包括“X的液晶好”、“X重量轻且好”、“X的设计好”等。

由于隐含关系保持传递原则，隐含图可能有时变得冗余。例如，当有可能从“X好”经由“X的液晶好”追溯到“X的液晶清晰”时，也有可能直接从“X好”追溯到“X的液晶清晰”。在此情况下，由于为了对文本进行概观，希望根据语义层级结构的重新安排，更希望安排隐含图使得可以识别之间还有文本“X的液晶好”的情况，而不是直接从“X好”追溯到“X的液晶清晰”。因此，在任意对的顶点之间找到多个路径的情况下，隐含图生成部22可以构成这样的隐含图，其中只有最长的路径被保留。路径的长度可以使用例如该路径中所包括的边的数目来计算。此时，图5左边的隐含图被生成在图6中。例如，从“X好”追溯到“X的液晶清晰”的路径包括直接追溯边的路径和沿着经由“X的液晶好”路由的两个边追溯的路径。在此情况下，通过选择最长路径，直接追溯边的路径被消除。这个处理可以应用于所有的顶点对以构成隐含图以便具有尽可能深的层级，如图6中。

此外，隐含图生成部22可以计算对于每对同义词聚类之间的隐含关系的隐含的可能性的分数，并且对隐含关系给出分数。通过使用分数，有可能实现进行分析的处理，其中仅具有更高可能性(分数比预定值高)的隐含的边被保留。在此情况下，可能预期路径的长度被定义为该路径中包括的边的分数的合计。

显示设备3显示由隐含图生成部22因此创建的隐含图。由于整个隐含图是扩展性的，希望显示的方法包含显示不能从作为开始点的任何顶点并且通过点击同义词聚类追溯的同义词聚类，发展近似同义词聚类。图7示出了显示图6中所示的隐含图的方法的示例。图6具有不能从任何同义词聚类追溯的两个顶点：“X好”和“X不好”。一旦“X好”被点击，显示处理被进行，包括发展“X的液晶好”、“X重量轻且好”和“X的设计好”，其可以从“X好”沿着一个边追溯。另外的显示方法可以在此应用，包括发展近似的方法，可以由特定数目的边而非一个边追溯，或者显示处理包括定义限制使得数目小于同义词聚类的规定值被显示，以及发展该限制内的近似。这样的显示控制处理可以由文本挖掘装置中的隐含图生成部22或者由显示设备3加以获取。

根据第一实施例中的发明，分析可以是通过直接理解的文本的内容而获取的。其原因在于，文本是以不更改的形式处置的，且生成具有同义词聚类的顶点和有向边的隐含图，每个有向边表示隐含关系，由此，顶点表示文本原本的信息，以及基本上包括文本的内容的其他文本可以根据隐含图而被追溯。

(第二实施例)

接下来，将结合图8来描述本发明的第二实施例。参看图8，除了第一实施例的发明中的文本挖掘装置之外，本发明的第二实施例进一步包括频率合计部40。

频率合计部40使用由第一实施例的发明所生成的隐含图，进行对每个同义词聚类所表示的信息的频率合计的处理，此外使用可以根据隐含图从同义词聚类追溯的同义词聚类中的信息的频率。

将结合图8和图9中的流程图来特别描述本实施例的操作。

图8中的步骤S1到S3与示出第一实施例的图2中的流程图类似。频率合计部40对隐含图中每个顶点的同义词聚类中的信息的频率进行合计，作为包括在该顶点的同义词聚类中的文本加上包括在可以从该顶点移动的顶点的同义词聚类中的文本的文本ID的数目(步骤S4)。这是通过例如以深度优先方式从每个顶点搜索隐含图以列出可以到达的顶点的集合，对顶点的同义词聚类中的文本ID的数目进行求和，而获取的。除此之外，还可以利用能够列出可以从某个顶点到达的顶点的集合的任何算法。

显示设备3显示由频率合计部40进行的频率合计的结果。基本上，可以预期的方法包括显示图7中每个同义词聚类节点上的频率合计的结果。另一也可以预期的方法包括以表格的格式显示结果。图10示出了以表格的格式显示的根据图7中的隐含图的频率合计的结果的示例。首先，显示了两个同义词聚类：“X好”和“X不好”，显示同义词聚类的各自频率。一旦“X好”被点击，开始在表格中显示能够从此沿着一个边追溯的同义词聚类及其频率的处理。这样的显示控制处理可以通过文本挖掘装置2中的隐含图生成部22或者频率合计部40获取，或者通过显示设备3获取。

根据上述的第二实施例中的发明，有可能合计频率，包括其中基本上包含每个文本的意思的文本。其原因在于，第一实施例中的发明能够根据隐含关系生成隐含图，以及基本上包含，即隐含，每个顶点处文本中信息的同义词聚类可以结合隐含图而被列出。

根据上述本发明的实施例的文本挖掘装置可以由加载和执行存储在存储部分中的操作程序等的CPU(中央处理单元)实现，或者可替换地，它们可以用硬件来配置。上述实施例仅部分功能可以由计算机程序来实现。

部分或所有前面实施例可以被描述在下面的附录中，尽管并非对其限定。

(补充注释1)

一种文本挖掘系统，其特征在于包括：

同义词聚类获取部，用于从待分析的文本数据中的文本中获取同义词聚类，所述同义词聚类每个都是同义的文本的集合；

隐含关系获取部，用于获取所述同义词聚类之中的隐含关系；以及

隐含图生成部，用于根据所述同义词聚类之中的隐含关系而生成隐含图，所述隐含图包括同义词聚类的顶点和有向边，每个有向边指示从被隐含的同义词聚类到隐含同义词聚类的方向。

(补充注释2)

补充注释1中所述的文本挖掘系统，其特征在于：

在两个所述同义词聚类之间找到多个路径的情况下，所述隐含图生成部创建其中只保留构成最长路径的边的隐含图。

(补充注释3)

补充注释1或2中所述的文本挖掘系统，其特征在于进一步包括：

频率合计部，用于附加地使用能够从所述隐含图中的所述同义词聚类追溯的同义词聚类中的信息的频率来合计每个所述同义词聚类所表示的信息的频率。

(补充注释4)

补充注释1到3中任意一项所述的文本挖掘系统，其特征在于进一步包括：

显示设备，用于在使用所述隐含图分析每个同义词聚类时，在所述隐含图中显示近似同义词聚类。

(补充注释5)

一种文本挖掘方法，其特征在于包括：

从待分析的文本数据中的文本中获取同义词聚类，所述同义词聚类每个都是同义的文本的集合；

获取所述同义词聚类之中的隐含关系；以及

根据所述同义词聚类之中的隐含关系而生成隐含图，所述隐含图包括同义词聚类的顶点和有向边，每个有向边指示从被隐含的同义词聚类到隐含同义词聚类的方向。

(补充注释6)

补充注释5中所述的文本挖掘方法，其特征在于：

在两个所述同义词聚类之间找到多个路径的情况下，创建其中只保留构成最长路径的边的隐含图。

(补充注释7)

补充注释5或6中所述的文本挖掘方法，其特征在于：

附加地使用能够从所述隐含图中的所述同义词聚类追溯的同义词聚类中的信息的频率来合计每个所述同义词聚类所表示的信息的频率。

(补充注释8)

补充注释5到7中任意一项所述的文本挖掘方法，其特征在于：

在使用所述隐含图分析每个同义词聚类时，在所述隐含图中显示近似同义词聚类。

(补充注释9)

一种程序，其特征在于使得计算机执行：

同义词聚类获取处理，从待分析的文本数据中的文本中获取同义词聚类，所述同义词聚类每个都是同义的文本的集合；

隐含关系获取处理，获取所述同义词聚类之中的隐含关系；以及

隐含图生成处理，根据所述同义词聚类之中的隐含关系而生成隐含图，所述隐含图包括同义词聚类的顶点和有向边，每个有向边指示从被隐含的同义词聚类到隐含同义词聚类的方向。

(补充注释10)

补充注释9中所述的程序，其特征在于：

在两个所述同义词聚类之间找到多个路径的情况下，所述隐含图生成处理创建其中只保留构成最长路径的边的隐含图。

(补充注释11)

补充注释9或10中所述的程序，其特征在于使得所述计算机进一步执行：

频率合计处理，附加地使用能够从所述隐含图中的所述同义词聚类追溯的同义词聚类中的信息的频率来合计每个所述同义词聚类所表示的信息的频率。

(补充注释12)

补充注释9到11中任意一项所述的程序，其特征在于使得所述计算机进一步执行：

显示处理，在使用所述隐含图分析每个同义词聚类时，在所述隐含图中显示近似同义词聚类。

尽管已经结合优选实施例描述了本发明，不必限制于上面描述的实施例，并且可以通过在其技术思想的范围内的若干修改而实践。

本申请要求基于2012年4月26日提交的日本专利申请2012-101017的优先权，其公开内容在此整体并入本文。

附图标记列表

1 文本数据存储部

2 文本挖掘装置

20 同义词聚类获取部

21 文本隐含关系获取部

22 隐含图生成部

3 显示设备

4 文本挖掘装置

40 频率合计部

Claims

1.一种文本挖掘系统，包括：

同义词聚类获取部，其被配置为从待分析的文本数据中的文本来获取同义词聚类，所述同义词聚类每个都是同义的文本的集合；

隐含关系获取部，其被配置为获取所述同义词聚类之中的隐含关系；以及

隐含图生成部，其被配置为从所述同义词聚类之中的隐含关系来生成隐含图，所述隐含图包括同义词聚类的顶点和有向边，每个有向边指示从被隐含的同义词聚类到隐含同义词聚类的方向。

2.根据权利要求1所述的文本挖掘系统，其中：

3.根据权利要求1或2所述的文本挖掘系统，进一步包括：

频率合计部，其被配置为附加地使用能够从所述隐含图中的所述同义词聚类追溯的同义词聚类中的信息的频率，来合计每个所述同义词聚类所表示的信息的频率。

4.根据权利要求1到3中的任意一项所述的文本挖掘系统，进一步包括：

显示设备，其被配置为在使用所述隐含图来分析每个同义词聚类时，在所述隐含图中显示近似同义词聚类。

5.一种文本挖掘方法，包括：

从待分析的文本数据中的文本来获取同义词聚类，所述同义词聚类每个都是同义的文本的集合；

获取所述同义词聚类之中的隐含关系；以及

从所述同义词聚类之中的隐含关系来生成隐含图，所述隐含图包括同义词聚类的顶点和有向边，每个有向边指示从被隐含的同义词聚类到隐含同义词聚类的方向。

6.一种程序，其特征在于使得计算机执行：

同义词聚类获取处理，从待分析的文本数据中的文本来获取同义词聚类，所述同义词聚类每个都是同义的文本的集合；

隐含图生成处理，从所述同义词聚类之中的隐含关系来生成隐含图，所述隐含图包括同义词聚类的顶点和有向边，每个有向边指示从被隐含的同义词聚类到隐含同义词聚类的方向。