CN1360253A

CN1360253A - 中文文件自动分类法

Info

Publication number: CN1360253A
Application number: CN 00136723
Authority: CN
Inventors: 杨立伟
Original assignee: Yilan Science & Technology Co Ltd
Current assignee: Yilan Science & Technology Co Ltd
Priority date: 2000-12-21
Filing date: 2000-12-21
Publication date: 2002-07-24

Abstract

本发明为一种中文文件自动分类法,先将各篇待分类文件利用断词法进行断词处理,并将所得的所有词汇置于词汇总表中;将每一个词汇进行特征鉴别步骤处理,得词汇总表中的每个词汇在各篇待分类文件的特征值;进行特征值组合处理,求得该篇待分类文件的特征向量;将特征向量进行文件相似性判别步骤处理,得各篇待分类文件与其它篇待分类文件的相似系数;依其相似系数的大小进行分类,将相似系数大的数篇待分类文件结合成同一类别,完成文件分类。

Description

中文文件自动分类法

本发明是一种中文分类法，尤指一种中文文件自动分类法。

随著电脑的日渐普及，有越来越多的中文电子化文件。然而众多的文件是很不易管理的，需要将文件依其内容做分类，以方便管理。将众多的文件依其文件内容的不同，将各文件加以归类，或放置于不同的档案目录下，以达成文件分类的目的。

日前一般使用来做文件分类的方法，主要为「人工获取关键词法」。请参阅图1所示，其是为现有「人工获取关键词法」的流程图，该「人工获取关键词法」是先利用人类对于每篇待分类文件1’的文件内容进行了解后，然后以人工的方式选取数个足以代表该篇待分类文件1’内容的词汇、做为该篇待分类文件1’的关键词2’。然后在进行待分类文件1’分类之时，将具有相同关键词2’的文件归为同一类。

上述的「人工获取关键词法」是利用人工来选取待分类文件1’的关键词2’，然而利用人工处理文件分类时会有三大问题。第一个问题是「效率问题」，因为文件的关键词必须利用人类对于文件内容的理解后加以判断，始能决定那些文件的关键词为何。此一人类的「理解-判断」过程非常地耗时耗力，必需使用大量的人力，付出高昂的时间与成本，才能够处理越来越多的中文电子化文件。

利用人工处理文件分类时的第二个问题是「标准性问题」。因为文件的关键词选取过程必需依赖人类的理解与判断，这是一个牵涉人类主观意见的过程。同一群文件的分类结果可能会因人而异，因为每个人对于文件内容的主题与分类的看法都有不同，而导致每个人所选取的关键词不尽相同，所以会欠缺一致性的分类标准，这是以人工处理文件分类时的最大问题。例如将一群内容皆是政治新闻的中文文件以人工进行分类，某个人经过对这群文件内容的了解所做出的判断，可能将这群内容皆是政治新闻的中文文件的关键词选取为：「台湾」及「美国」；然而另外一个人可能会将这一群内容皆是政治新闻的中文文件的关键词选取为：「李登辉」以及「克林顿」。

利用人工处理文件分类时的第三个问题是「一致性问题」。即使是同一个人针对同一篇中文文件的文件内容进行理解与判断，也会因为个人记忆、经验的改变，以及外界环境的变迁，而有不同的理解与判断。例如将一篇内容属于政治新闻的中文文件交由同一人进行分类，可能第一次该篇中文文件的关键词会被选取为「环境保育」；同一篇内容属于政治新闻的中文文件交由同一人重做一次关键词的选取，然而该篇中文文件的关键词却可能会被选取为「核四电厂」。同一篇中文文件交由同一人进行关键词选取，但两次选取的给果却可能不相同，这就是「一致性问题」。

只要是通过人工处埋中文文件的分类，即使是聘请大量的专业人员来进行文件分类的工作，也都不可避免会有「效率问题」、「准确性问题」与「一致性问题」。因为人类要对于中文文件的文件内容有某一程度的了解后，才有可能将该份文件的文件内容摘要成数个具有代表性的关键词，这是一个需时甚久的步骤，因此具有「效率问题」。除此之外，对于同一篇中文文件的文件内容，可能不同的人会获取出数个不同的关键词，因为每个人所认为足以代表该篇中文文件的文件内容的词汇皆有不同，这也就是「准确性问题」。而同一篇中文文件的文件内容交由同一个人来获取关键词，也有可能会每次都有所不同，这就是「一致性问题」。

本发明的目的是提出一种中文文件自动分类法，本发明完全不需要人工参与，因此可以解决现有的「人工获取关键词法」以人工分类所带来的「效率问题」、「准确性问通」与「一致性问题」。

本发明的目的可以通过以下措施来达到：

一种中文文件自动分类法，其是包含：

(1)先将各篇待分类文件利用断词法进行断词处理；

(2)将断词处理所得的所有词汇置于词汇总表中；

(3)再将词汇总表中的每一个词汇进行特征鉴别步骤处理，以得词汇总表中的每个词汇在各篇待分类文件的特征值；

(4)将词汇总表中的所有词汇在单一篇待分类文件中的特征值，进行特征值组合处理，求得该篇待分类文件的特征向量；

(5)然后将各篇待分类文件的特征向量进行文件相似性判别步骤处理，而得各篇待分类文件与其它篇待分类文件的相似系数；

(6)最后将各篇待分类文件依其相似系数的大小进行分类，将相似系数大的数篇待分类文件结合成同一类别，完成文件分类。

该断词法为长词优先断词法，其是利用主辞典对应待分类文件中的所有文字，优先找出符合主辞典中最长的词汇。

其中该特征鉴别步骤是包括有：

(1)计算词汇总表中的每一个词汇在各篇待分类文件中出现的次数，该次数值为词汇频率；

(2)计算词汇总表中的每一个词汇在所有待分类文件中出现的篇数，该篇数值的倒数为词汇散布率；

(3)再将词汇频率与词汇散布率进行加权运算，求得特征值。

其中该相似性判别步骤是为将各篇待分类文件所得的特征向量与其它待分类文件的特征向量相乘积，再除以各篇待分类文件的特征向量与其它待分类文件的特征向量的绝对值平均数，求得相似系数。

本发明相比现有技术具有如下优点：

本发明的发明人经过不断的研发，提出一种前所未见的中文文件自动分类法，可有效地解决改善上述的「人工获取关键词法」的缺点，亦即本发明中文文件自动分类法的特点在于：

本发明是将中文文件先进行中文断词步骤，然后以分割出的所有可能词汇经过运算后，取得该词汇在某一篇中文文件的特征值，之后再将各词汇在某一篇中文文件的特征值组合成该篇中文文件的特征向量。

该篇中文文件的特征向量具有足以代表该份文件内容的性质，而不需以人工方式来选取关键词，且利用本发明所求得的该篇中文文件的特征向量比「人工获取关键词法」中的关键词更能够代表该篇中文文件的文件内容特性。

每篇中文文件的特征向量皆可以通过本方法快速产生，因此可以解决以人工为每篇中文文件获取关键字所带来的「效率问题」；本方法对于不同篇的中文文件的文件内容，其所产生特征向量的标准是一致的，因此可以解决人工为每篇中文文件获取关链字时，所可能因个人主观理解与判断的不同而产生的「准确性问题」；本方法对于同一篇中文文件的文件内容，每次所产生的特征向量都是一致的，因此可以解决同一人在为同一篇中文文件的文件内容获取关键字时，所可能因个人主观理解与判断的改变而产生的「一致性问题」。综上所述，本发明确实可以有效解决以往「人工获取关键词法」的三大问题：「效率问题」、「准确性问题」与「一致性问题」。

再者，本发明提供一种不同篇中文文件的特征向量间可以进行相似性比较的方法。其是利用计算出相似系数，作为不同篇中文文件的文件内容间相似程度的判断标准，进而将文件依此一标准分类。意即本发明可以判断两份中文文件之间内容的相似性，而不需要人类的理解，即可利用中文文件的特征向量间的相似性比较，将文件内容相似性较高者分为同一类别，达到文件分类的目的。

为使能对本发明中文文件自动分类法有更进一步的了解，兹将本发明配合图示详细说明于后：

图1为现有的「人工获取关键词法」的流程图。

图2为本发明中文文件自动分类法的流程图。

请参阅图2所示，其是本发明一种中文文件自动分类法的流程图，其本发明是先将各篇待分类文件1利用断词法对文件内容的文字进行断词处理，该断词法为长词优先断词法，其是利用主辞典3对应待分类文件1中的所有文字，优先找出符合主辞典中最长的词汇2。将由断词步骤所得的所有词汇2置于词汇总表4中。接着将词汇总表4中的每一个词汇2进行特征鉴别步骤处理，即计算词汇总表4中的每一个词汇的在各篇待分类文件1中出现的次数，该次数值定义为词汇频率；另一方面计算词汇总表4中的每一个词汇2在所有待分类文件1中出现的篇数，该篇数值的倒数则定义为词汇散布率，将所求得的词汇频率与词汇散布率进行加权运算，得到词汇总表4中的每个词汇2在各篇待分类文件1的特征值5。再将词汇总表4中的所有词汇2在单一篇待分类文件1中的特征值5，进行特征值组合处理，求得属于该篇待分类文件1的特征向量6，该特征向量6即可充份代表该篇待分类文件1的内容特性。然后将各篇待分类文件1的特征向量6进行文件相似性判别步骤处理，本发明的相似性判别步骤处理是把各篇待分类文件1所得的特征向量6与其它待分类文件1的特征向量6相乘积，再除以上述互相乘积的特征向量6的绝对值平均数，来得到各篇待分类文件1与其它篇待分类文件1的相似系数7。最后，各篇待分类文件1依其与其它篇待分类文件1的相似系数7进行分类，把所求得的相似系数7值大者的数篇待分类文件1结合成同一类别，借此完成文件的分类。

Claims

1.一种中文文件自动分类法，其特征是：其是包含：

(1)先将各篇待分类文件利用断词法进行断词处理；

(2)将断词处理所得的所有词汇置于词汇总表中；

2.如权利要求1所述的中文文件自动分类法，其特征是：该断词法为长词优先断词法，其是利用主辞典对应待分类文件中的所有文字，优先找出符合主辞典中最长的词汇。

3.如权利要求1所述的中文文件自动分类法，其特征是：其中该特征鉴别步骤是包括有：

(3)再将词汇频率与词汇散布率进行加权运算，求得特征值。

4.如权利要求1所述的中文文件自动分类法，其特征是：其中该相似性判别步骤是为将各篇待分类文件所得的特征向量与其它待分类文件的特征向量相乘积，再除以各篇待分类文件的特征向量与其它待分类文件的特征向量的绝对值平均数，求得相似系数。