CN103631789A

CN103631789A - 文档处理方法和装置

Info

Publication number: CN103631789A
Application number: CN201210299975.XA
Authority: CN
Inventors: 杨宇航; 夏迎炬; 于浩
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2012-08-21
Filing date: 2012-08-21
Publication date: 2014-03-12

Abstract

一种文档处理方法和装置，该方法包括：从多个文档中提取词汇，并且针对每个文档计算词汇的术语度并根据术语度确定术语；对该多个文档进行聚类，其中基于针对每个文档类最近确定的术语及其术语度来确定文档类间的相似度；基于最近的聚类结果重新计算词汇对于相应文档类的术语度，并针对每个文档类重新确定术语；以及重复进行聚类和重新确定术语的过程，直到满足预定截止条件为止。

Description

文档处理方法和装置

技术领域

本发明一般地涉及文档处理，具体涉及用于对多个文档进行聚类和术语提取的方法和装置。

背景技术

文档聚类的目的是将多个文档中具有相似主题的文档分配到相应子集中，文档聚类是处理大规模数据的过程中不可缺少的技术。

术语是表达某领域的基础知识的词汇单元。术语提取是领域知识获取中的一个基本任务，其中领域知识获取可以用于词汇更新、领域实体构建等。

直观地，文档聚类问题是基于领域相似的文档具有许多共有术语这一认识来对文本文档进行聚类。获取适当的术语可能导致更好的聚类效果，然而识别特定领域的术语需要知道文档的聚类信息。另外，特定领域的术语是通过术语在不同聚类中的分布信息而验证的。

发明内容

本发明提供一种新的文档处理方法和装置，其中术语提取和文档聚类彼此增强。首先，计算针对文档候选术语的术语度，然后使用候选术语及其术语度表示相应文档，以对文档进行聚类。然后，根据聚类结果重新计算术语度并更新候选术语，重新聚类。从而可以同时获得术语提取和文档聚类的结果，并改善文档聚类效果。

根据本发明的一个实施例，提供一种文档处理方法，包括：从多个文档中提取词汇，并且针对每个文档计算词汇的术语度并根据术语度确定术语；对该多个文档进行聚类，其中基于针对每个文档类最近确定的术语及其术语度来确定文档类间的相似度；基于最近的聚类结果重新计算词汇对于相应文档类的术语度，并针对每个文档类重新确定术语；以及重复进行聚类和重新确定术语的过程，直到满足预定截止条件为止。

根据本发明的另一个实施例，提供一种文档处理装置，包括：术语确定部分，被配置为从多个文档中提取词汇，并且针对每个文档，计算词汇的术语度并根据术语度确定术语；文档聚类部分，被配置为对该多个文档进行聚类，其中基于针对每个文档类最近确定的术语及其术语度确定文档类间的相似度；以及术语更新部分，被配置为基于最近的聚类结果重新计算词汇对于相应文档类的术语度，并针对每个文档类重新确定术语。

利用根据本发明的方案，即使在文档聚类信息未知且术语未知的情况下，也能够以完全自动的方式进行术语提取和文档聚类。

附图说明

参照以下结合附图对本发明实施例的说明，会更加容易地理解本发明的以上和其它目的、特点和优点。为了避免因不必要的细节而模糊了本发明，在附图中仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其它细节。

图1是示出根据本发明实施例的文档处理方法的流程图；

图2是图解提取词汇的示例方式的示意图；

图3是示出根据本发明实施例的文档处理装置的配置示例的框图；以及

图4是示出实现本发明的方法和装置的计算机的示例性结构的框图。

具体实施方式

下面参照附图说明本发明的实施例。应当注意，为了清楚的目的，附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。

图1是示出根据本发明实施例的文档处理方法的流程图。

首先，在步骤S110中进行术语的初步确定，即，从多个文档中提取词汇，并且针对每个文档，计算词汇的术语度并根据术语度确定术语。

可以采用多种方式从文档中提取词汇，例如可以利用常用的文本分割方式将文档分成句子，然后通过诸如停用词（stop word）过滤的方式提取词汇。图2是图解利用停用词过滤方式提取词汇的示例的示意图。在该示例中，通过从文档的句子中去除停用词来提取词汇。换句话说，通过参照停用词列表利用停用词切分每个句子，将通过切分得到的词汇作为术语候选。如图2所示，假设C₁...C_n是通过分割文档而得到的一个分句或字符串，其中D₁（包含字符串C_i1…C_il）和D₂（包含字符串C_j1…C_jm）为停用词。通过将停用词去除，可以得到词汇TC₁（包含字符串C₁...C_ib）、TC₂（包含字符串C_ia…C_jb）和TC₃（包含字符串C_ja…C_n）作为术语候选。

可以采用词频反文档频率（term frequency-inverse document frequencyTF-IDF）作为术语度。例如，可以根据以下等式（1）或者其数学变换形式来计算词汇w_i对于相应文档的术语度TFIDF(w_i)：

TFIDF (w_{i}) = TF (w_{i}) \cdot \log (\frac{| D |}{DF (w_{i})}) - - - (1)

其中，TF(w_i)表示词汇w_i在相应文档中的词频、|D|表示文档的数量、DF(w_i)表示包含词汇w_i的文档的数量。

基于计算出的术语度，可以将术语度最高的前n个（n≥1）词汇确定为术语，或者将术语度高于预定阈值的词汇确定为术语。

接下来，在步骤S120中对该多个文档进行聚类，其中，以所确定的术语及其术语度来表征相应文档，并确定各文档间的相似度。

例如，文档D可以被表示为D={(t₁,TFIDF(t₁)),(t₂,TFIDF(t₂)),…(t_n,TFIDF(t_n))}，其中，t₁……t_n为针对文档D确定的术语，TFIDF(t₁)……TFIDF(t_n)分别为术语t₁……t_n对于文档D的术语度。

接下来，在步骤S130中，基于在步骤S120中得到的聚类结果重新计算在步骤S110中提取的词汇对于相应文档类的术语度，并且针对每个文档类重新确定术语。

可以采用词汇对于文档类的词频反文档类频率（term frequency-inversecluster frequency，TF-ICF）作为词汇对于相应文档类的术语度。这基于以下认识，如果某个词汇频繁出现在特定文档类中，而较少地出现在其它文档类中，则其较有可能是对于该类文档（其对应于特定领域）的术语。

可以根据以下等式（2）或者其数学变换形式来计算词汇对于相应文档类的术语度：

TFICF (w_{i}) = TF (w_{i}) \cdot \log (\frac{| C |}{CF (w_{i})}) - - - (2)

其中，TF(w_i)表示词汇w_i在相应文档类中的词频、|C|表示文档类的数量、CF(w_i)表示包含词汇w_i的文档类的数量。可以看出，与TF-IDF相比，TF-ICF针对文档类而不是针对文档确定词汇的术语度，从而可以随着聚类结果的变化、针对文档类更新词汇的术语度。

在步骤S130中，可以利用与步骤S110中相应的方式，根据重新计算的术语度，针对每个文档类重新确定术语。例如，针对每个文档类，可以将术语度最高的前n个词汇或术语度高于预定阈值的词汇确定为术语。

相应地，文档类C可以被表示为C={(t₁,TFICF(t₁)),(t₂,TFICF(t₂)),…(t_n,TFICF(t_n))}，其中，t₁……t_n为针对文档类C确定的术语，TFICF(t₁)……TFICF(t_n)分别为t₁......t_n对于文档类C的术语度。

另外，在步骤S120中，可以利用多种已有方式进行聚类。例如，根据一个实施例，可以在每次迭代中将文档或文档类中相似度最高的两个合并。然而，本领域技术人员可以想到多种其它聚类方式。

接下来，在步骤S140中，确定是否满足预定截止条件。

在步骤S140的确定结果为是的情况下，过程结束，并且可以提供所获得的文档聚类结果以及针对每个文档类确定的术语。即，将作为处理对象的多个文档按照领域分类，并且提取每个文档类的术语。

另一方面，在步骤S140的确定结果为否的情况下，过程返回步骤S120，以进行进一步的聚类处理。其中，基于针对每个文档类最近确定的术语及其术语度确定文档类间的相似度。接下来，在步骤S130中基于最新的聚类结果重新计算词汇对于相应文档类的术语度，并且针对每个文档类重新确定术语。

步骤S140中采用的预定截止条件例如可以是预定的循环次数。在这种情况下，可以根据经验值预先设置循环次数，在该数量的迭代之后，认为可以得到满意的聚类结果以及术语。

或者，步骤S140中采用的预定截止条件可以是最相似的文档类之间的相似度低于预定水平。在这种情况下，可以预先设置文档类相似度阈值，在相似度低于该阈值的情况下，认为两个文档类不属于同一领域，从而不再进行文档类的合并。

对于步骤S130，在每次迭代中，可以针对每个文档根据最新计算的术语度来重新确定术语。然而，为了避免每次迭代中确定的术语变化过大，可以采用较为平滑的方式进行术语的确定。例如，可以根据先前迭代中计算出的术语度的加权和确定相应词汇的分值，并根据该分值确定术语，可以针对每个文档将分值最高的前n个词汇确定为术语。并且，在该加权和中，术语度的权重可以随着迭代次数的增大而增大，也就是说，越新确定的术语度对该分值的贡献越大。

例如，在第p次迭代中，可以根据以下等式（3）计算词汇w_i的分值S(w_i，p)，

S (w_{i}, p) = Σ_{q = 1}^{p} p \times TFICF (w_{i}, q) - - - (3)

其中，词汇w_i的分值S(w_i,p)由前p次迭代中计算的术语度的加权求和得到，并且术语度的权重随着迭代次数而增大。在该示例中，权重等于迭代次数p，然而也可以采用其它形式的权重。

另外，本发明也可以实施为文档处理装置。图3是示出根据本发明实施例的文档处理装置的配置示例的框图。文档处理装置300包括术语确定部分310、文档聚类部分320以及术语更新部分330。

术语确定部分310被配置为从多个文档中提取词汇，并且针对每个文档，计算词汇的术语度并根据术语度确定术语。例如，可以将术语度最高的前n个词汇或术语度高于预定阈值的词汇确定为术语，其中n≥1。

文档聚类部分320被配置为对该多个文档进行聚类，其中基于针对每个文档类最近确定的术语及其术语度确定文档类间的相似度。

术语更新部分330被配置为基于文档聚类部分320最近的聚类结果重新计算词汇对于相应文档类的术语度，并针对每个文档类重新确定术语。

根据一个实施例，术语确定部分310被配置为通过从该多个文档的每个句子中去除停用词来提取词汇。

根据一个实施例，文档聚类部分320被配置为：在每次迭代中，将文档类中相似度最高的两个合并。

根据一个实施例，术语更新部分330被配置为：

根据公式

或者其数学变换形式计算术语度TFICF(w_i)，其中，TF(w_i)表示词汇w_i在相应文档类中的词频、|C|表示文档类的数量、CF(w_i)表示包含词汇w_i的文档类的数量。

根据一个实施例，术语更新部分330被配置为根据先前迭代中计算出的术语度的加权和确定相应词汇的分值，并据该分值确定术语。在该加权和中，术语度的权重可以随着迭代次数的增大而增大。

根据一个实施例，文档处理装置300被配置为在满足预定截止条件的情况下输出文档聚类部分320的聚类结果以及术语更新部分330确定的术语。

所属技术领域的技术人员知道，本发明可以体现为装置、方法或计算机程序产品。因此，本发明可以具体实现为以下形式，即，可以是完全的硬件、完全的软件（包括固件、驻留软件、微代码等）、或者软件部分与硬件部分的组合。此外，本发明还可以采取体现在任何有形的表达介质中的计算机程序产品的形式，该介质中包含计算机可用的程序码。

可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质，计算机可读存储介质例如可以是，但不限于，电的、磁的、光的、电磁的、红外线的、或半导体的系统、装置、器件或传播介质、或前述各项的任何适当的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或前述各项的任何适当的组合。在本文语境中，计算机可读存储介质可以是任何含有或存储供指令执行系统、装置或器件使用的或与指令执行系统、装置或器件相联系的程序的有形介质。

用于执行本发明的操作的计算机程序码，可以以一种或多种程序设计语言的任何组合来编写，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++之类，还包括常规的过程式程序设计语言—诸如”C”程序设计语言或类似的程序设计语言。程序码可以完全地在用户的计算机上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分在用户的计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中，远程计算机可以通过任何种类的网络—包括局域网（LAN）或广域网（WAN）—连接到用户的计算机，或者，可以（例如利用因特网服务提供商来通过因特网）连接到外部计算机。

图4是示出实现本发明的设备和方法的计算机400的示例性结构的框图。

在图4中，中央处理单元（CPU）401根据只读存储器（ROM）402中存储的程序或从存储部分408加载到随机存取存储器（RAM）403的程序执行各种处理。在RAM 403中，也根据需要存储当CPU 401执行各种处理等等时所需的数据。

CPU 401、ROM 402和RAM 403经由总线404彼此连接。输入/输出接口405也连接到总线404。

下述部件连接到输入/输出接口405：输入部分406，包括键盘、鼠标等等；输出部分407，包括显示器，比如阴极射线管（CRT）、液晶显示器（LCD）等等，和扬声器等等；存储部分408，包括硬盘等等；和通信部分409，包括网络接口卡比如LAN卡、调制解调器等等。通信部分409经由网络比如因特网执行通信处理。

根据需要，驱动器410也连接到输入/输出接口405。可移除介质411比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器410上，使得从中读出的计算机程序根据需要被安装到存储部分408中。

在通过软件实现上述步骤和处理的情况下，从网络比如因特网或存储介质比如可移除介质411安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图4所示的其中存储有程序、与方法相分离地分发以向用户提供程序的可移除介质411。可移除介质411的例子包含磁盘、光盘（包含光盘只读存储器（CD-ROM）和数字通用盘（DVD））、磁光盘（包含迷你盘（MD））和半导体存储器。或者，存储介质可以是ROM402、存储部分408中包含的硬盘等等，其中存有程序，并且与包含它们的方法一起被分发给用户。

权利要求中的对应结构、操作以及所有功能性限定的装置或步骤的等同替换，旨在包括任何用于与在权利要求中具体指出的其它单元相组合地执行该功能的结构或操作。所给出的对本发明的描述其目的在于示意和描述，并非是穷尽性的，也并非是要把本发明限定到所表述的形式。对于所属技术领域的普通技术人员来说，在不偏离本发明范围和精神的情况下，显然可以作出许多修改和变型。对实施例的选择和说明，是为了最好地解释本发明的原理和实际应用，使所属技术领域的普通技术人员能够明了，本发明可以有适合所要的特定用途的具有各种改变的各种实施方式。

附记：

1.一种文档处理方法，包括：

从多个文档中提取词汇，并且针对每个文档，计算所述词汇的术语度并根据所述术语度确定术语；

对所述多个文档进行聚类，其中基于针对每个文档类最近确定的术语及其术语度来确定文档类间的相似度；

基于最近的聚类结果重新计算所述词汇对于相应文档类的术语度，并针对每个文档类重新确定术语；以及

重复进行聚类和重新确定术语的过程，直到满足预定截止条件为止。

2.根据附记1所述的方法，其中，提取词汇包括：通过从所述多个文档的每个句子中去除停用词来提取所述词汇。

3.根据附记1所述的方法，其中，

根据公式

或者其数学变换形式计算所述术语度TFICF(w_i)，其中，TF(w_i)表示词汇w_i在相应文档类中的词频、|C|表示文档类的数量、CF(w_i)表示包含词汇w_i的文档类的数量。

4.根据附记1所述的方法，其中，在每次迭代中，通过将文档类中相似度最高的两个合并来进行所述聚类。

5.根据附记1至4中任一项所述的方法，其中，重新确定术语包括：根据先前迭代中计算出的术语度的加权和确定相应词汇的分值，并据所述分值确定术语。

6.根据附记5所述的方法，其中，在所述加权和中，术语度的权重随着迭代次数的增大而增大。

7.根据附记1至4中任一项所述的方法，其中，根据所述术语度确定术语包括：将术语度最高的前n个词汇或术语度高于预定阈值的词汇确定为术语，其中n≥1。

8.根据附记1至4中任一项所述的方法，其中所述截止条件为预定的循环次数或最相似的文档类之间的相似度低于预定水平。

9.一种文档处理装置，包括：

术语确定部分，被配置为从多个文档中提取词汇，并且针对每个文档，计算所述词汇的术语度并根据所述术语度确定术语；

文档聚类部分，被配置为对所述多个文档进行聚类，其中基于针对每个文档类最近确定的术语及其术语度确定文档类间的相似度；以及

术语更新部分，被配置为基于最近的聚类结果重新计算所述词汇对于相应文档类的术语度，并针对每个文档类重新确定术语。

10.根据附记9所述的装置，其中，所述术语确定部分被配置为通过从所述多个文档的每个句子中去除停用词来提取所述词汇。

11.根据附记9所述的装置，其中，所述术语更新部分被配置为：

根据公式或者其数学变换形式计算所述术语度TFICF(w_i)，其中，TF(w_i)表示词汇w_i在相应文档类中的词频、|C|表示文档类的数量、CF(w_i)表示包含词汇w_i的文档类的数量。

12.根据附记9所述的装置，其中所述文档聚类部分被配置为：在每次迭代中，将文档类中相似度最高的两个合并。

13.根据附记9至12中任一项所述的装置，其中所述术语更新部分被配置为：根据先前迭代中计算出的术语度的加权和确定相应词汇的分值，并据所述分值确定术语。

14.根据附记13所述的装置，其中，在所述加权和中，术语度的权重随着迭代次数的增大而增大。

15.根据附记9至12中任一项所述的装置，其中所述术语确定部分被配置为：将术语度最高的前n个词汇或术语度高于预定阈值的词汇确定为术语，其中n≥1。

16.根据附记9至12中任一项所述的装置，被配置为在达到预定的循环次数或最相似的文档类之间的相似度低于预定水平的情况下，输出所述文档聚类部分的聚类结果和所述术语更新部分确定的术语。

Claims

1.一种文档处理方法，包括：

2.根据权利要求1所述的方法，其中，提取词汇包括：通过从所述多个文档的每个句子中去除停用词来提取所述词汇。

3.根据权利要求1所述的方法，其中，

根据公式

4.根据权利要求1所述的方法，其中，在每次迭代中，通过将文档类中相似度最高的两个合并来进行所述聚类。

5.根据权利要求1至4中任一项所述的方法，其中，重新确定术语包括：根据先前迭代中计算出的术语度的加权和确定相应词汇的分值，并据所述分值确定术语。

6.根据权利要求5所述的方法，其中，在所述加权和中，术语度的权重随着迭代次数的增大而增大。

7.一种文档处理装置，包括：

8.根据权利要求7所述的装置，其中，所述术语确定部分被配置为通过从所述多个文档的每个句子中去除停用词来提取所述词汇。

9.根据权利要求7所述的装置，其中，所述术语更新部分被配置为：

10.根据权利要求7至9中任一项所述的装置，其中所述术语更新部分被配置为：根据先前迭代中计算出的术语度的加权和确定相应词汇的分值，并据所述分值确定术语。