CN1607526A

CN1607526A - 采用冻结模式的文本分类装置、方法及程序

Info

Publication number: CN1607526A
Application number: CNA2004100951925A
Authority: CN
Inventors: H·施米祖; S·纳卡加瓦
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2003-10-07
Filing date: 2004-10-07
Publication date: 2005-04-20
Also published as: JP2005115628A; KR20050033852A; US20050149846A1

Abstract

根据原文分析而不依赖形态分析，按文档类型将一个文档进行分类。作为参考词典为每一个文档类型准备特殊类型冻结模式。根据出现在文档中的特殊类型冻结模式的外部状态，为输入文档析取冻结模式列表。根据冻结模式列表和输入文档的检测类型来计算每个文档类型的置信度。

Description

采用冻结模式的文本分类装置、方法及程序

技术领域

本发明涉及一种装置、方法以及存储程序的存储设备或存储介质，该程序用来使计算机通过包含在文档中的冻结模式来将文件分类到每一种文件类型。

背景技术

有很多方法被用来从多个的电子文档中提取信息。然而，存在不同的文档类型，例如，(1)具有正确语法的语句的正式撰写的文档，例如报纸上的文章；(2)具有语法错误但可以理解并且经常包括一些口头语言的语句等的不太正式的文档，例如电子公告板上的评论；(3)匆忙书写就的很不正式的文档，例如日报。据我们所知，没有哪种文档处理技术能够统一处理这些不同类型的文档，因此给每一种文档类型选择一种合适的文档处理技术是必要的。因而将文档分类到每一种文档类型也是必要的。

一种已知的文档分类方法根据出现在文档中的单词的统计信息对文档进行分类。例如JP6-75995A等公开了一种使用某种类别文档中相应关键词的出现频率作为与该类别的相关度的方法。出现在某一类别的输入文档中的单词的相关度被累加或组合以计算对于每一类别的相关度。输入文档被分入具有最大相关度的类别。在JP9-16570A中，根据是否存在文档信息预先形成一个决定分类的决策树。决策树使用关键词来决定分类。在JP11-45247A中，通过计算输入文档与某一类别中的典型文档之间的相似度来给输入文档分类。其它重要的现有技术的非专利参考文献是：JP6-75995A；JP9-16570A；JP11-45247A；“自然语言处理”(由Makoto Nagao等，IwanamiShoten编辑)；J.Ross.Quinlan，“C4.5，学习型机器程序设计”(MorganKaufman Pubiliser(1993))；“在线学习和加速应用的决策理论概述”(YoavFreund和Robert Schapire，计算机和系统科学学报，55(1)：119-139，1997)。

在这些方法中，文档被分解为单词单元。因此，为了获得关键词，对像日文或中文这类不是由单词构成语句的文档执行自然语言处理是必要的，所述处理例如是形态分析。

然而，由于存在不同的文档类型，例如报纸文章、论文、电子邮件，即使通过使用词典等对文档执行不同的自然语言处理，因为生词、缩写、书写错误、语法错误等出现的不同程度的原因，很难把不同类型的文档精确地分解为单词单位。另外，由于这些方法主要使用一个单词来指示内容，例如一个名词或关键词，所以这些方法适于根据文档的主题将其分类。但是这些现有的方法不适于通过文档类型来分类文档，例如将输入文档分为报纸文章类型、评论类型等等。

发明内容

本发明的一个目的是提供一种新的、改进的设备及方法，这种设备和方法根据文档类型信息而非其主题通过文档类型将文档分类。

本发明的另一目的是根据原文分析而不依赖形态分析实现文档分类。

在具有同一文档类型的一组文档中，对于表达方式(expressions)、句尾(ends of words)等等建立普通的特征模式。依据本发明的一个方面，经常以这种方式出现在每一文档类型中的冻结模式(以下称为“特殊类型冻结模式”)被作为每种文档类型的参考词典。对于一个未分类的输入文档，根据出现在文档中特殊类型冻结模式的外部状态，冻结模式列表被提取。对于每一文档类型根据冻结模式列表计算其置信度。根据文档分类的置信度确定输入文档所属的文档类型。

如上所述，依据本发明的一个方面，实现按照文档类型分类，而不是按照各文档主题分类。通过把文档分类到各种文档类型，选择适合于特定文档类型的文档处理。由于冻结模式是指一种文档类型的特定表达方式，因此优点是冻结模式受生词和杜撰新词等影响的可能性较小，而这些生词和杜撰新词等通常会导致文档分类出现问题。

本发明的这些如上所述以及更进一步的目的、特征和优点通过下面具体实施方式的详细描述、特别是结合附图的描述将会变得更加清楚明了。

附图说明

图1是包括本发明最佳实施例的文档分类设备示意图。

图2是冻结模式信息析取装置的示意图。

图3是文档分类装置示意图。

图4是文档类型决策树的示例图，这个决策树决定一个文档是属于文档类型1还是其它的文档类型。

图5是决定文件类型的决策树示例图，这个决策树用来辅助决定一个文档是属于文档类型2还是其它的文档类型。

图6是特定类型冻结模式的示意图，所述冻结模式被分为第一群组(cluster)和第二群组。

图7是文件类型决策树示例图，其中这个决策数决定一个文档是属于文档类型2还是其它文档类型，这里文档类型2被分成子群组(sub-clusters)。

图8是根据本发明中最佳实施例的文档分类算法流程图。

图9是实施本发明最佳实施例的设备模块图。

具体实施方式

图9是本发明的设备框图，包括处理装置外壳500，处理装置包括存储器510，中央处理单元(cpu)520，显示部分530，输入/输出单元540。用户把必要的信息输入到输入/输出单元540中，中央处理单元520根据输入/输出单元540的输入信息读出存储器510中的信息以便根据输入信息执行预定的处理和计算，并且在显示器530上显示处理和计算的结果。

图1是文档分类装置模块示意图，包括特殊类型冻结模式词典105，文档类型决策树装置106，冻结模式信息析取装置102，和文档分类装置103。特殊类型冻结模式词典105存储特殊类型冻结模式以便进行特殊类型冻结模式的析取。文档类型决策树装置106存储文档类型的分类规则。冻结模式信息析取装置102析取包含在输入文档中的特殊类型冻结模式。析取装置从文档中析取模式并且把特殊类型冻结模式转化为冻结模式列表的形式。通过使用存储在文档类型决策树装置106中的决策树，文档分类装置103由冻结模式列表决定输入文档的文档类型。

文档类型分类的例子是：(1)书写属于语法正确的文档的介绍性的文章，(2)属于用口头语言的文档的电子公告板，(3)属于匆忙书写的文档的日报。在本说明书中，将以介绍性文章的文档类型(文档类型1)和电子公告板的文档类型(文档类型2)作为要分类的文档类型的例子。

图2是图1中冻结模式信息析取装置102的模块图。冻结模式信息析取装置102包括原文分析装置202和冻结模式列表产生装置203，分析装置202用于析取输入文档中存在的特殊类型冻结模式。析取装置102将输入文档转化为冻结模式列表。原文分析装置202对输入文档的每一个句子执行文本综合处理，同时参考特殊类型冻结模式词典105(图1)，从而析取存在于句子中的特殊类型冻结模式。然后，冻结模式列表产生装置203通过由原文分析装置202析取的特殊类型冻结模式将输入文档的每一个句子转化为每种文档类型的冻结模式列表。

每种文档类型的特殊类型冻结模式被存储在供原文分析装置202参考的特殊类型冻结模式词典中。下面表1中显示的是文档类型1的特殊类型冻结模式的例子。

表1

.です。

.レてぃます。

.では

.この

.である。

.ですが、

下面，表2中显示的是存储在特殊类型冻结模式词典105中的文档类型2的特殊类型冻结模式的例子。

表2

.つて

.ですね。

.つた。

.なんで

.んで

.でレよぅか？

.かな？

要存储在特殊类型冻结模式词典105中的特殊类型冻结模式从一组文档中自动析取。文档被预先分类到每种文档类型。分类后的文档作为特殊类型冻结模式词典105被存储。

析取方法的第一个步骤是从一组文档中析取字符串，所述字符串是任意长度字符串中具有较高的出现频率。析取的字符串被作为候选的字符串。在“自然语言处理”(由Makoto Nagao等，Iwanami shoten编辑)中详细描述了一个有效计算任意长度字符串的频率统计信息的方法。对于每一个候选字符，候选字符串的前面熵Ef从邻近候选字符串前部的字符串集合(W_f＝{W_f1，W_f2，...，W_fn})计算，而候选字符串的后面熵Er从邻近候选字符串后部的字符串集合(W_r＝{W_r1，W_r2，...，W_rm)计算。W_f和W_r根据表达式(1)-(4)进行计算。

表达式1

(1) {- - - E}_{f} = - Σ_{i = 1}^{i &DoubleLeftArrow; n} P_{f} (S, w_{fi}) \times \log P_{f} (s, w_{fi})

表达式2

(2) {- - - E}_{f} = - Σ_{i = 1}^{i &DoubleLeftArrow; m} P_{f} (S, w_{ri}) \times \log P_{r} (s, w_{ri})

表达式3

(3) - - - P_{f} (S, w_{fi}) = \frac{f (w_{fi} S)}{f (S)}

表达式4

(4) - - - P_{r} (S, w_{ri}) = \frac{f (S w_{fi})}{f (S)}

在表达式(1)到(4)中，S是一个候选字符串，f(S)是候选字符串的出现次数，f(w_fiS)是字符串w_fiS的次数，w_fi邻近于S的前部，而f(Sw_ri)是字符串Sw_ri的出现次数，w_ri邻近于S的后部。如果字符串S前面邻近于不同的字符串并且出现的可能性相同；也就是说，如果在字符串的前部有一个表达式的界限，熵的表达式(1)就具有一个大的值。相反地，如果字符串S邻近于较少种类的字符串并且出现的可能性不相同；也就是说，如果字符串S是一个包括邻近字符的较大的表达式的一部分，字符串就具有一个小的值。类似的，表达式(2)的熵具有：(1)一个大的值，如果在字符串S的后部具有一个表达式界限；(2)一个小的值，如果字符串S是一个较大的表达式的一部分。然后，只有一个前面和后面的熵都大于适当的阈值的候选字符串作为特殊类型冻结模式被析取。

表3是从属于文档类型1的一组文档中获得的候选字符串及其熵的例子。而表4是从属于文档类型2的一组文档中获得的候选字符串及其熵的例子。

表3

候选字符串	熵(前面)	熵(后面)
候选字符串	熵(前面)	熵(后面)	です。	2.464508	2.499022
では	2.458311	2.098147	です。	2.464508	2.499022
では	2.458311	2.098147	この	2.019815	2.019815
レています。	1.791759	1.56071	この	2.019815	2.019815
レています。	1.791759	1.56071	である	1.94591	1.747868
ですか、	1.386294	1.386294	である	1.94591	1.747868

表4

候选字符串	熵(前面)	熵(后面)
候选字符串	熵(前面)	熵(后面)	つて	2.813899	2.78185
つた	2.273966	2.512658	つて	2.813899	2.78185
つた	2.273966	2.512658	なんで	1.747868	1.475076
ても	1.427061	1.889159	なんで	1.747868	1.475076
ても	1.427061	1.889159	んで	1.337861	1.580236
かな？	1.098612	1.098612	んで	1.337861	1.580236

冻结模式列表产生装置203为每一个句子产生一个冻结模式列表。例如，在输入文档具有N个句子并且存在M个要分类的文档类型的情况下，冻结模式列表产生装置203产生N×M的冻结模式列表。产生的每一个冻结模式列表是这样一个列表，其中，列举了对于每种文档类型的存储在特殊类型冻结模式词典105中的特殊格冻结模式中出现在每个句子中的特殊类型模式。在该文档中，“なんでライセンスにこだわるのかな？Joi′x”将被作为输入的例句1。表5是在输入例句1被分类时对于文档类型1和文档类型2的冻结模式列表

表5

文档类型1：{}

文档类型2：{なんで、んで、かな？}

图3是文档分类装置103的模块图。文档分类装置包括文档类型置信度计算装置302，用来使用决策树(文档类型决策树)计算每一个文档类型的置信度(文档类型置信度)；文档类型相似度计算装置303，用来由文档类型置信度计算每一个文档类型的相似度(文档类型相似度)；和文档类型决定装置304，用来根据文档类型相似度确定输入文档的文档类型。

每种文档类型的决策树被存储在供文档类型置信度计算装置302参考的文档类型决策树集合中。文档类型决策树具有为每种文档类型析取的作为特征的特殊类型冻结模式，并且查找在那一点的文档类型的分类和置信度。存在两种类别的文档类型可供对输入文档通过决策树进行分类。例如，在文档类型1的决策树的情况下，类别是文档类型1和其他的文档类型。文档类型决策树从对于每种文档类型所分类的一组文档中获得。

决策树算法根据从具有特征向量和类别的数据集合得到的理论标准信息产生树形式的分类规则。通过按照特征把数据集合递归地进行划分可以完成决策树的结构。关于决策树在J.Ross.Quinlan的“C4.5，学习型机器程序设计”(Morgan Kaufman Pubiliser(1993))等相关文献中有详细描述。使用同样的方法，例如文档类型1的文档类型决策树通过产生由特征向量表示的数据集合和文档类型1所属的类别(文档类型1/另一个文档类型)而被建立，其特征在于文档类型1的特殊类型冻结模式。

图4是一种文档类型决策树示意图，其用于将文档分类成具有特殊类型冻结模式(表1)的文档类型1或其它的文档类型，以将文档类型1作为其特征。图5是另一种文档类型决策树示意图，其用于将文档分类成具有特殊类型冻结模式(表2)的文档类型2或其它的文档类型，以将文档类型2作为其特征。图4和图5中每一个节点下面所示的冻结模式表示了用于分类分配到每一个节点的数据的特征。每一个分支所附加的“是/否”代表与数据分类相应的特征值。节点/叶的上半部分显示的值代表了分配给该节点/叶的数据所属的类别。另外，节点/叶的下半部分显示的值代表了数据的可能性(置信度)。通过使用数据的分类频率分布，计算出该值，所述数据分配到属于由节点/叶的上半部分所表示的分类的每一个节点/叶。当某个块不具有向下延伸的分支时，这个块称作“叶”。当某个块具有向下延伸的分支时，这个块称作“节点”。

输入句子所属的文档类型以及在那一点的置信度可以通过使用图4和图5的文档类型决策树进行查找。对于输入的例句“なんでライセンスにてだわるのかな？Joi′x”，从每个文档类型决策树获得的文档类型和置信度的结果显示在表6中：

表6

	冻结模式列表	文档类型决策树	置信度
	冻结模式列表	文档类型决策树	置信度	文档类型1	{}	图4	0.533
文档类型2	{なんで、んで、かな？}	图5	1.000	文档类型1	{}	图4	0.533

由于输入的例句1不包括文档类型1的任何特殊类型冻结模式，文档类型1作为输入例句1所属的类别被得到；根据沿着图4中具有“否”特征值的分支(图4：(4-a)→(4-b)→(4-c)→(4-d)→(4-e)→(4-f))最终到达的叶，从文档类型决策树中得出0.533作为图4中文档类型的置信度。另外，由于输入例句1包括文档类型2的特殊类型冻结模式{“なんで”、“んで”、“かな”}，文档类型2能够作为输入例句1所属的类别被查找，并且，根据沿着具有“是”的“なんで”的值的分支(图5：(5-a)→(5-b))最终到达的叶(图5：(5-b))，从文档类型决策树中得出1.00作为图5中文档类型2的置信度。

例如，在图4中文档类型1的文档类型决策树的情况下，由于文档被分类到文档类型1或者其他的文档类型，并且给出所分类的文档类型的置信度，如果文档被分类到其它的文档类型，文档类型1的置信度不会从文档类型决策树获得。因此，如果文档被分类到其它的文档类型，文档类型1的置信度“C’”通过使用其它的文档类型的置信度“C”来计算，并且C’被用作文档类型1的置信度的值。

表达式5

(5)C’＝1-C

表6是输入例句1的置信度的例子。在表6中，对于输入例句1，文档类型1的置信度通过使用图4中文档类型决策树进行计算，而文档类型2的置信度通过使用图5中文档类型决策树进行计算。输入例句1是文档类型2中的句子。正如图6中显示的结果那样，文档类型2的置信度高于文档类型1的置信度。然而，通常来说，仅仅使用一个决策树不能实现高性能的分类。一个已知的提高分类性能的方法包括在学习型机器领域内组合多个的分类装置，例如决策树。

在“在线学习和加速应用的理论决策推广”(Yoav Freund和RobertSchapire，计算机和系统科学学报，55(1)：119-139，1997)中含有组合多个的分类装置的细节描述。一个相似的方法被用在图1-9的分类装置中，通过为每种文档类型准备多个的文档类型决策树，文档类型的分类性能可望被提高。特别地，同一文档类型的特殊类型冻结模式被分入多个数量的群组(cluster)。通过属于每一群组作为特征的特殊类型冻结模式，获得每一群组的文档类型决策树。对于每种文档类型，准备了多个的文档类型决策树。作为一种分组方法，由于从同一文档类型的一组文档析取的特殊类型冻结模式包括特殊类型冻结模式，该特殊类型冻结模式是可能出现在同一文档中作为一定的特殊类型冻结模式的特殊类型冻结模式和较少出现在文档中的特殊类型冻结模式，这种特殊类型冻结模式通过在可能出现在同一文档中的特殊类型冻结模式中执行群集(clustering)来分组。图6是一个通过将文档类型2的特殊类型冻结模式分组为可能出现在同一文档中的特殊类型冻结模式而获得的群组(clusters)的示例图。

图5中显示的决策树是一个从属于图6的群集1的特殊文档类型冻结模式作为特征中获得的文档类型决策树。然后，文档类型决策树由作为特征属于该群组的特殊文档类型冻结模式形成，借此可以为每种文档类型准备多个的文档类型决策树。图7是一个决策树的示意图，得到该决策树，以通过图6所示群组2的作为特征的特殊类型冻结模式及包括冻结模式以及作为获得数据的其它文档类型，来决定文档是属于文档类型2还是其它文档类型。

参照图8的流程图，文档分类装置的运行过程描述如下：

400：输入一个文档D

401：析取M×N冻结模式列表V_ij，这里i(可供分类的文档类型的数目)＝M并且j(文档中句子的数目)＝N

402：初始化设置

403：M次重复i

404：N次重复j

405：使用由冻结模式列表V_ij得到的文档类型决策树计算置信度向量C_ij

406：计算第j个句子对于文档类型i的类型相似度Lij

407：改变变量j

408：计算文档类型i对于输入文档的文档类型相似度SLi

409：改变变量i

410：把具有最大文档类型相似度的文档类型作为输入文档的文档类型

411：结束

文档分类装置最初接收一个M×N的冻结模式列表V，该列表在冻结模式的信息析取装置中从输入文档中得到。然后，在步骤405中，置信度向量C_ij＝(C_ij1，C_ij2，...，C_ijk，...，C_ijl)由存储在文档类型决策树集合中的文档类型i的文档类型决策树计算得到。向量C_ij由文档类型i的冻结模式列表V_ij计算。这里，C_ijk是对于第j个句子由文档类型i的冻结模式列表利用第k个文档类型决策树计算得到的类型i的置信度，l是存储在文档类型决策树集合中对于文档类型i的文档类型决策树的数目。在此实施例中，由于文档类型2被分为群组1和群组2，对于各自的群组1＝2找到决策树。随后，在步骤406中，第j个句子对于文档类型i的类型相似度L_ij根据表达式6由置信度向量C_ij计算得到。

表达式6

(6) {- - - L}_{ij} = Σ_{k = 1}^{k &DoubleLeftArrow; 1} α_{ik} C_{ik}

在表达式(6)中，α_ik是表示对于文档类型i第k个文档类型决策树置信度的权重，给已满足0≤α_ik≤1，∑α_ik＝1的值。最好是，选择对于计算的类型相似度L_ij的训练文档能够得到最大的正确答案率的α_ik的值。对于输入文档D每个句子的文档类型i的冻结模式列表V_ij(1≤j≤N)重复执行步骤405和406的处理。在步骤408中，在根据表达式7计算的N个类型相似度查找输入文档对于文档类型i的文档类型相似度SL_i。

表达式7

(7) {- - - SL}_{ij} = Σ_{j = 1}^{j &DoubleLeftArrow; n} β_{j} L_{ij}

在表达式(7)中，L_ij是第j个句子对于文档类型i的类似相似度。β_j表示每一个句子的权重，给出一个满足0≤β_j≤1、β_j＝1的值。最好是，对于计算的类型相似度SL_i的训练文档能够得到最大的正确答案率的βj的值。对于每种文档类型i(1≤i≤M)重复执行步骤405到408的处理。然后，在步骤410中，从M个计算的文档类型相似度SL中确定具有作为正确文档类型的最大相似度的文档类型作为输入文档的文档类型。

虽然上面详细说明了本发明的一个具体实施例，然而显然，在不脱离后附权利要求所限定的本发明正确精神和范围的情况下，可以对本发明具体实施方式的细节做一些变化。例如，本发明适用于基于字母的语言并不局限于基于字符的语言，例如给出的日语例子。

Claims

1.根据文档类型对输入文档进行分类的文档分类设备，包括处理装置，用于：

(a)产生特殊类型冻结模式以特征化文档类型；

(b)通过将输入文档与特殊类型固定模式进行对照，从输入文档中析取为特征化列表的冻结模式；

(c)根据冻结模式列表计算输入文档的文档类型置信度；

(d)根据计算的置信度决定输入文档所属的文档类型。

2.根据权利要求1的文档分类设备，其中处理装置被安排用来通过下列步骤产生特殊类型冻结模式以特征化文档类型

(a)使用属于已知文档类型的文档集合来产生特殊类型冻结模式；

(b)根据出现在字符串前部和后部的字符集合的概率的熵，以出现在文档中的任意字符串为目标。

3.根据权利要求1的文档分类设备，其中处理装置被安排用来通过使用属于已知文档类型的被特殊类型冻结模式特征化的文档集合，来查找文档类型决策树。

4.根据权利要求3的文档分类设备，其中处理装置被安排用来通过下列步骤产生特殊类型冻结模式以特征化输入文档

(a)使用属于已知文档类型的文档集合来产生特殊类型冻结模式；和

(b)根据出现在字符串前部和后部的字符集合的出现概率的熵，以出现在文档中的任意字符串为目标。

5.根据权利要求4的文档分类设备，其中特殊类型冻结模式被分为多个组，对于每一组作为特征的特殊类型冻结模式，查找文档类型决策树。

6.根据权利要求3的文档分类设备，其中特殊类型冻结模式被分成多个组，对于每一组作为特征的特殊类型冻结模式，查找文档类型决策树。

7.一种特殊类型冻结模式产生设备，用来产生特征化一个文档类型的特殊类型冻结模式，所述设备包括一种装置，用于：

(a)通过使用属于已知文档类型的文档集合来产生特殊类型冻结模式；

8.一种文档分类设备，用来把具有多个句子的输入文档根据文档类型进行分类，所述设备包括处理装置，用于：

(a)产生与文档类型相应的特殊类型冻结模式；

(b)把特殊类型冻结模式分成多个的组；

(c)通过使用属于已知文档类型的文档集合，由划分成多个组的特殊类型冻结模式产生多个文档类型决策树；

(d)使用相应的特殊类型冻结模式组，为输入文档析取各自的冻结模式列表；

(e)通过使用多个文档类型决策树，根据相应的冻结模式列表来计算输入文档对于文档类型的每个决策树的置信度；以及

(f)根据置信度决定输入文档所属的文档类型。

9.一种根据文档类型将输入文档分类的方法，包括：

(a)产生特征化文档类型的特殊类型冻结模式；

(b)通过将输入文档与特殊类型冻结模式对照，从输入文档析取冻结模式列表；

(c)根据冻结模式列表计算输入文档的文档类型置信度；和

(d)根据置信度决定输入文档所属的文档类型。

10.一种根据文档类型将输入文档分类的方法，包括：

(a)产生特征化文档类型的特殊类型冻结模式；

(b)通过使用属于已知文档类型的文档集合来查找文档类型决策树；

(c)通过将输入文档与特殊类型冻结模式对照，从输入文档析取冻结模式列表；

(d)通过使用文档类型决策树，根据冻结模式列表来计算输入文档的文档类型置信度；

(e)根据计算后的置信度决定输入文档所属的文档类型。

11.一种存储文档分类程序的存储设备或者存储介质，该程序用来使计算机根据权利要求9的方法对输入文档进行分类。

12.一种存储文档分类程序的存储设备或者存储介质，该程序用来使计算机根据权利要求10的方法对输入文档进行分类。