CN103678355A

CN103678355A - 文本挖掘方法和文本挖掘装置

Info

Publication number: CN103678355A
Application number: CN201210335708.3A
Authority: CN
Inventors: 杨宇航; 夏迎炬; 于浩
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2012-09-11
Filing date: 2012-09-11
Publication date: 2014-03-26
Anticipated expiration: 2032-09-11
Also published as: CN103678355B

Abstract

本发明涉及文本挖掘方法和文本挖掘装置。文本挖掘方法包括：提取文档中的多个关键词；计算代表每个关键词的特定属性的分值；按照多个关键词在文档中的出现顺序对计算出的分值进行排列，以得到代表文档的分值序列；以及利用分值序列进行与文本挖掘相关联的操作。

Description

文本挖掘方法和文本挖掘装置

技术领域

本发明涉及文本处理领域，具体涉及文本挖掘方法和文本挖掘装置。

背景技术

自从新的媒体产生了越来越多的文本信息（如微博）以来，文本挖掘已成为热门课题。所使用的最流行的语言模型是矢量空间模型。现存的技术主要存在两个问题。第一个问题是数据稀疏。第二个问题是丢失了长距离词语依赖性。

鉴于此，需要一种能够解决上述技术问题的技术方案。

发明内容

在下文中给出关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

本发明的一个主要目的在于，提供一种文本挖掘方法和文本挖掘装置。

根据本发明的一个方面，提供了一种文本挖掘方法，包括：提取文档中的多个关键词；计算代表每个关键词的特定属性的分值；按照多个关键词在文档中的出现顺序对计算出的分值进行排列，以得到代表文档的分值序列；以及利用分值序列进行与文本挖掘相关联的操作。

根据本发明的另一个方面，提供了一种文本挖掘装置，包括：关键词提取单元，被配置用于提取文档中的多个关键词；分值计算单元，被配置用于计算代表每个关键词的特定属性的分值；分值排列单元，被配置用于按照多个关键词在文档中的出现顺序对计算出的分值进行排列，以得到代表文档的分值序列；以及操作执行单元，被配置用于利用分值序列进行与文本挖掘相关联的操作。

另外，本发明的实施例还提供了用于实现上述方法的计算机程序。

此外，本发明的实施例还提供了至少计算机可读介质形式的计算机程序产品，其上记录有用于实现上述方法的计算机程序代码。

通过以下结合附图对本发明的最佳实施例的详细说明，本发明的这些以及其他优点将更加明显。

附图说明

参照下面结合附图对本发明实施例的说明，会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中，相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。

图1是示出根据本发明的实施例的文本挖掘方法的流程图；

图2是示出根据本发明的实施例的文本挖掘装置的框图；

图3是示出根据本发明的另一个实施例的文本挖掘装置的框图；

图4是示出根据本发明的又一个实施例的文本挖掘装置的框图；以及

图5是示出可以用于实施本发明的文本挖掘方法和文本挖掘装置的计算设备的举例的结构图。

具体实施方式

下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意，为了清楚的目的，附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。

图1示出了根据本发明的实施例的文本挖掘方法100的流程图。

如图1所示，在步骤S102中，可以提取文档中的多个关键词。对于不同的任务而言，所要提取的关键词可能会有所不同。例如，如果要对文档进行分类，则所要提取的关键词可以是更有含义的词语。如果要对本文进行观点分析，则所要提取的关键词可以是表达情感的词语。

可选地，在如图1所示的方法100中，在提取文档中的多个关键词的步骤S102之前还可以先对文档进行分割。例如，可以利用任意适当的通用分割器对文档进行分割，然后从分割后得到的各个词汇中提取关键词。但是，可以理解到，可以不对文档进行分割，而在步骤S102中直接从文档中提取关键词。

在步骤S104中，可以计算代表每个关键词的特定属性的分值。关于代表特定属性，稍后将描述几种示例。

在步骤S106中，可以按照多个关键词在文档中的出现顺序对计算出的分值进行排列，以得到代表文档的分值序列。例如，如果特定关键词在文档中出现在第一位，则代表该关键词的特定属性的分值在分值序列中被排在第一位。

在步骤S108中，可以利用分值序列进行与文本挖掘相关联的操作。

具体而言，在将文档转换为分值序列之后，可以将分值序列应用于多种任务，例如，在文档分类、聚类以及信息检索等任务。在这些任务中，可能涉及到文档之间相似度计算和倾向性判断。

例如，在文档分类中，可以通过相似度计算确定文档所属的类别。在信息检索中，可以通过计算输入查询和文档的相似度来得到检索结果。

倾向性预测是指根据文档中前n个倾向性已知的词汇（或句子），可以对第n+1个词（或句子）的倾向性进行预测。例如，在将文档转换为分值之后，可以根据前n个分值来预测第n+1个分值所对应的词（或句子）的倾向性。

在需要计算相似度的情况下，可以通过计算分别对应于两个文档的分值序列之间的距离来计算两个文档之间的相似度。以下将描述相似度计算的一个示例。

假设要计算文档TX和文档TY之间的相似度。通过计算分值并按照分值所对应的关键词在文档中出现的顺序对分值进行排序，分别得到代表文档TX的分值序列X{x₁,x₂,……,x_n}、以及代表文档TY的分值序列Y{y₁,y₂,……,y_m}。

例如，可以根据以下公式来计算分值序列X和分值序列Y之间的距离。

\begin{matrix} D (i, j) : = \min [D (i - 1, j) + w_{d}, \\ D (i, j - 1) + w_{i}, \\ D (i - 1, j - 1) + w_{r}] \\ D (i, 0) : D (i - 1,0) + w_{d} \\ D (0, j) : = D (0, j - 1) + w_{i} \end{matrix}\} &ForAll; i, j > 0

D(0，0)：＝0

其中，i=1,2,……,n，j=1,2,……,m。此外，在上述公式中，以i代表x_i，以j代表y_j，以0表示相应分值序列在第一个分值之前的空位。

此外，w_i表示插入代价，例如，可以取w_i=1，w_d表示删除代价，可以取w_d＝1，w_r表示替换代价。在传统的方法中，w_r可以取1。在根据本发明的一个实施例中，可以根据所比较的两个分值的位置差异以及两个分值的大小差异来计算替换代价w_r。位置差异是指，一个分值在其相应序列中的位置与另一个分值在其相应序列中的位置之间的差异。分值的大小差异是指，一个分值的大小与另一个分值的大小之间的差异。位置差异越大，则替换代价w_r越大。同理，分值的大小差异越大，则替换代价w_r越大。只要符合上述规则，则可以按照任意适当方式来构建替换代价w_r的计算公式。

例如，可以采用如下公式：

w_{r} = \frac{α \times | i - j | + β \times | x_{i} - y_{i} |}{\max w}

此外，还可以采用如下公式：

w_{r} = \frac{(1 + | i - j |) \times | x_{i} - y_{i} |}{\max w}

其中，max w表示最大距离。

接下来，通过计算分别对应于两个文档的分值序列之间的距离D(X,Y)来计算所述两个文档之间的相似度。例如，可以采用如下公式：

Sim(TX,TY)=D(X,Y)

以下描述代表每个关键词的特定属性的分值的示例。

假定某一文档为文档群中的一篇文档，则该文档的特定属性例如可以是关键词在该文档群中的统计重要性。可以按照任意适当方式来计算统计重要性，如词频反文档频率（term frequency–inverse document frequency，TF-IDF）、术语度（termhood）、词语倾向性等等。

对于不同的任务而言，计算分值的方法可能会有所不同。以下将以词频反文档频率为例来进行描述。

首先计算逆文档频率，如下：

IDF (w_{i}) = \log (\frac{| D |}{DF (w_{i})})

其中，|D|表示总的文档数。DF(w_i)表示文档频率，即，表示词汇w_i至少出现了一次的文档的数量。

然后计算词频反文档频率，如下：

TFIDF(w_i)＝TF(w_i)·IDF(w_i)

其中，TF(w_i)表示词频，即，表示词汇w_i在相应文档中出现的次数。IDF(w_i)表示逆文档频率，可以通过文档频率来计算得到。TFIDF(w_i)表示词频反文档频率。

这样，在该示例性中，统计重要性为词频（TF）与逆向文档频率（IDF）之积。

接下来，用每个关键词的相应TFIDF(w_i)代表该词语，按照关键词在文档中出现的先后顺序，排列这些TFIDF(w_i)，从而将文本转换为以TFIDF(w_i)为分值的分值序列。

以下，将以原始文档“XYZ系统是一套以线形时序逻辑为基础的CASE环境系统，其核心是时序逻辑语XYZ。”为例来描述将文档转换为分值序列的过程。

首先，对上述原始文档进行分割，分割结果如下：XYZ/系统/是/一/套/以/线形/时序/逻辑/为/基础/的/CASE/环境/系统/，/其/核心/是/时序/逻辑/语/XYZ/。/

接下来，根据分割结果，提取关键词如下：XYZ/系统/线形/时序/逻辑/基础/CASE/环境/系统/核心/时序/逻辑/语/XYZ/

在上面提取关键词的过程中，仅去除了停用词。换句话说，此处将停用词之外的所有词汇作为关键词。通过之前的描述可以理解到，根据不同的任务，可以提取不同的关键词，而不限于去掉停用词的这种方式。

接下来，用与关键词对应的TF-IDF值表示关键词，如下：XYZ【5.38】系统【880.19】线形【45.40】时序【839.97】逻辑【1604.43】基础【337.56】CASE【82.95】环境【959.11】系统【880.19】核心【405.74】时序【839.97】逻辑【1604.43】语【352.48】XYZ【5.38】。

接下来，按照各个关键词在文档中出现的先后顺序来排列上述分值，得到以下分值序列：{5.38,880.19,45.40,839.97,1604.43,337.56,82.95,959.11,880.19,405.74,839.97,1604.43,352.48,5.38}。

这样，将上述的原始文档转换为分值序列，分值序列中的每个元素为相应关键词的分值。

尽管在该示例中，将TF-IDF值用作表示关键词的特定属性的分值，但是可以理解到，针对不同的任务可以采用不同的分值，例如，还可以采用词频、术语度Termhood、词语倾向性O_i等作为分值。

术语度Termhood(w_i)可采用下述公式计算：

Termhood (w_{i}) = 1 - \frac{DF (w_{i})}{f (w_{i})}

DF(w_i)表示文档频率，即，有词汇w_i出现的文档的数量。f(w_i)表示词汇w_i在文档群中出现的总频率，即词汇w_i出现的总的频率。DF(w_j)越小，f(w_i)越大，则术语度Termhood(w_i)越大。

此外，词语倾向性O_i计算公式如下：

O_{i} = \frac{F_{i} (P) - F_{i} (N)}{F_{i}}

Fi(P)为词语w_i在正例集中出现的频率，Fi(N)为词语w_i在负例集中出现的频率，Fi为词语w_i出现的总频率。

图2是示出根据本发明的实施例的文本挖掘装置200的框图。

如图2所示，文本挖掘装置200可以包括关键词提取单元202、分值计算单元204、分值排列单元206和操作执行单元208。

关键词提取单元202可以提取文档中的多个关键词。

分值计算单元204可以计算代表关键词提取单元202所提取的每个关键词的特定属性的分值。

分值排列单元206可以按照关键词提取单元202所提取的多个关键词在文档中的出现顺序对分值计算单元204计算出的分值进行排列，以得到代表文档的分值序列。

操作执行单元208可以利用分值排列单元206排列出的分值序列进行与文本挖掘相关联的操作。

如上所述，在一些与文本挖掘相关联的操作中，可能涉及到文档之间的相似度的计算。图3示出了适应于这种情况的根据本发明的另一个实施例的文本挖掘装置200’的框图。

图3所示的文本挖掘装置200’与图2所示的文本挖掘装置200的区别在于，操作执行单元208可以包括相似度计算子单元208-2。

相似度计算子单元208-2可以通过计算分别对应于两个文档的分值序列之间的距离来计算两个文档之间的相似度。

例如，在计算分值序列之间的距离时，相似度计算子单元208-2可以根据所比较的两个分值的位置差异以及两个分值的大小差异来计算替换代价。

例如，文档可以是文档群中的一篇文档，特定属性可以是关键词在文档群中的统计重要性。

例如，统计重要性可以是文档频率（TF）与逆向文档频率（IDF）之积。

图4是示出根据本发明的又一个实施例的文本挖掘装置200”的框图。

图4所示的文本挖掘装置200”与图2所示的文本挖掘装置200的区别在于，文本挖掘装置200”可以包括文档分割单元210。

文档分割单元210可以在关键词提取单元202提取文档中的多个关键词之前对文档进行分割。在这种情况下，关键词提取单元202可以基于文档分割单元210的分割来提取关键词。

之前参照附图1描述的内容也适用于文本挖掘装置200、200’和200”，为了清楚起见，在此不再赘述。

本发明的优势之一在于，将文档转换为分值序列，并且分值序列中的各分值是按照词汇在文档中出现的先后顺序排列的。因此，离散的和无序的数据可以变为按照词汇在文档中出现的先后顺序排列的分值序列。通过利用该相互增强策略可以改善文档处理的性能。

根据本发明，提出了一种基于分值序列的新的模型。通过利用关键词的统计重要性来标识和表示关键词。用分值序列表示文档。序列中的每个元素表示词语及其相应分值。基于语言模型的分值序列使得可以计算相互之间没有共同词语的两个文档之间的相似度。因此，保留了词语顺序信息。所提出的技术可以应用于很多领域，如文档分类、聚类和信息检索。

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，对本领域的普通技术人员而言，能够理解本发明的方法和装置的全部或者任何步骤或者部件，可以在任何计算装置（包括处理器、存储介质等）或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。

因此，本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此，本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本发明，并且存储有这样的程序产品的存储介质也构成本发明。显然，所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。

在通过软件和/或固件实现本发明的实施例的情况下，从存储介质或网络向具有专用硬件结构的计算机，例如图13所示的通用计算机1300安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等等。

在图5中，中央处理单元(CPU)501根据只读存储器(ROM)502中存储的程序或从存储部分508加载到随机存取存储器(RAM)503的程序执行各种处理。在RAM 503中，也根据需要存储当CPU 501执行各种处理等等时所需的数据。CPU 501、ROM 502和RAM 503经由总线504彼此链路。输入/输出接口505也链路到总线504。

下述部件链路到输入/输出接口505：输入部分506（包括键盘、鼠标等等）、输出部分507（包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等）、存储部分508（包括硬盘等）、通信部分509（包括网络接口卡比如LAN卡、调制解调器等）。通信部分509经由网络比如因特网执行通信处理。根据需要，驱动器510也可链路到输入/输出接口505。可拆卸介质511比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器510上，使得从中读出的计算机程序根据需要被安装到存储部分508中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质511安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图5所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质511。可拆卸介质511的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘（包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 502、存储部分508中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本发明还提出一种存储有机器可读取的指令代码的程序产品。指令代码由机器读取并执行时，可执行上述根据本发明实施例的方法。

相应地，用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等。

本领域的普通技术人员应理解，在此所例举的是示例性的，本发明并不局限于此。

在本说明书中，“第一”、“第二”以及“第N个”等表述是为了将所描述的特征在文字上区分开，以清楚地描述本发明。因此，不应将其视为具有任何限定性的含义。

作为一个示例，上述方法的各个步骤以及上述设备的各个组成模块和/或单元可以实施为软件、固件、硬件或其组合，并作为相应设备中的一部分。上述装置中各个组成模块、单元通过软件、固件、硬件或其组合的方式进行配置时可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。

作为一个示例，在通过软件或固件实现的情况下，可以从存储介质或网络向具有专用硬件结构的计算机（例如图5所示的通用计算机500）安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

在上面对本发明具体实施例的描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其他实施方式中使用，与其他实施方式中的特征相组合，或替代其他实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其他特征、要素、步骤或组件的存在或附加。

此外，本发明的方法不限于按照说明书中描述的时间顺序来执行，也可以按照其他的时间顺序地、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

本发明及其优点，但是应当理解在不超出由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且，本发明的范围不仅限于说明书所描述的过程、设备、手段、方法和步骤的具体实施例。本领域内的普通技术人员从本发明的公开内容将容易理解，根据本发明可以使用执行与在此的相应实施例基本相同的功能或者获得与其基本相同的结果的、现有和将来要被开发的过程、设备、手段、方法或者步骤。因此，所附的权利要求旨在在它们的范围内包括这样的过程、设备、手段、方法或者步骤。

基于以上的说明，可知公开至少公开了以下技术方案：

附记1.一种文本挖掘方法，包括：

提取文档中的多个关键词；

计算代表每个关键词的特定属性的分值；

按照所述多个关键词在所述文档中的出现顺序对计算出的分值进行排列，以得到代表所述文档的分值序列；以及

利用所述分值序列进行与文本挖掘相关联的操作。

附记2.根据附记1所述的方法，还包括：

通过计算分别对应于两个文档的所述分值序列之间的距离来计算所述两个文档之间的相似度。

附记3.根据附记2所述的方法，其中：

在计算所述分值序列之间的距离时，根据所比较的两个分值的位置差异以及所述两个分值的大小差异来计算替换代价。

附记4.根据附记1至3中任一项所述的方法，其中：

所述文档为文档群中的一篇文档，所述特定属性为所述关键词在所述文档群中的统计重要性。

附记5.根据附记4所述的方法，其中：

所述统计重要性为词频与逆向文档频率之积、词频、术语度以及词语倾向性之一。

附记6.根据附记1至5中任一项所述的方法，其中，在所述提取文档中的多个关键词的步骤之前还包括：

对所述文档进行分割。

附记7.一种文本挖掘装置，包括：

关键词提取单元，被配置用于提取文档中的多个关键词；

分值计算单元，被配置用于计算代表每个关键词的特定属性的分值；

分值排列单元，被配置用于按照所述多个关键词在所述文档中的出现顺序对计算出的分值进行排列，以得到代表所述文档的分值序列；以及

操作执行单元，被配置用于利用所述分值序列进行与文本挖掘相关联的操作。

附记8.根据附记7所述的装置，其中，所述操作执行单元包括：

相似度计算子单元，被配置用于通过计算分别对应于两个文档的所述分值序列之间的距离来计算所述两个文档之间的相似度。

附记9.根据附记8所述的装置，其中，所述相似度计算子单元被配置用于在计算所述分值序列之间的距离时，根据所比较的两个分值的位置差异以及所述两个分值的大小差异来计算替换代价。

附记10.根据附记7至9中任一项所述的装置，其中，所述文档为文档群中的一篇文档，所述特定属性为所述关键词在所述文档群中的统计重要性。

附记11.根据附记10所述的装置，其中，所述统计重要性为词频与逆向文档频率之积、词频、术语度以及词语倾向性之一。

附记12.根据附记7至11中任一项所述的装置，还包括：

文档分割单元，被配置用于在所述关键词提取单元提取所述文档中的所述多个关键词之前对所述文档进行分割。

附记13.一种用于实现附记7至12中任一项所述的方法的计算机程序。

附记14.一种计算机可读介质形式的计算机程序产品，其上记录有用于实现附记7至12中任一项所述的方法的计算机程序代码。

Claims

1.一种文本挖掘方法，包括：

提取文档中的多个关键词；

计算代表每个关键词的特定属性的分值；

利用所述分值序列进行与文本挖掘相关联的操作。

2.根据权利要求1所述的方法，其中，所述利用所述分值序列进行与文本挖掘相关联的操作的步骤包括：

3.根据权利要求2所述的方法，其中：

4.根据权利要求1至3中任一项所述的方法，其中：

5.根据权利要求4所述的方法，其中：

6.一种文本挖掘装置，包括：

关键词提取单元，被配置用于提取文档中的多个关键词；

7.根据权利要求6所述的装置，其中，所述操作执行单元包括：

8.根据权利要求7所述的装置，其中，所述相似度计算子单元被配置用于在计算所述分值序列之间的距离时，根据所比较的两个分值的位置差异以及所述两个分值的大小差异来计算替换代价。

9.根据权利要求6至8中任一项所述的装置，其中，所述文档为文档群中的一篇文档，所述特定属性为所述关键词在所述文档群中的统计重要性。

10.根据权利要求10所述的装置，其中，所述统计重要性为词频与逆向文档频率之积、词频、术语度以及词语倾向性之一。