CN1360253A - 中文文件自动分类法 - Google Patents

中文文件自动分类法 Download PDF

Info

Publication number
CN1360253A
CN1360253A CN 00136723 CN00136723A CN1360253A CN 1360253 A CN1360253 A CN 1360253A CN 00136723 CN00136723 CN 00136723 CN 00136723 A CN00136723 A CN 00136723A CN 1360253 A CN1360253 A CN 1360253A
Authority
CN
China
Prior art keywords
file
vocabulary
piece
sort file
treated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 00136723
Other languages
English (en)
Inventor
杨立伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yilan Science & Technology Co Ltd
Original Assignee
Yilan Science & Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yilan Science & Technology Co Ltd filed Critical Yilan Science & Technology Co Ltd
Priority to CN 00136723 priority Critical patent/CN1360253A/zh
Publication of CN1360253A publication Critical patent/CN1360253A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明为一种中文文件自动分类法,先将各篇待分类文件利用断词法进行断词处理,并将所得的所有词汇置于词汇总表中;将每一个词汇进行特征鉴别步骤处理,得词汇总表中的每个词汇在各篇待分类文件的特征值;进行特征值组合处理,求得该篇待分类文件的特征向量;将特征向量进行文件相似性判别步骤处理,得各篇待分类文件与其它篇待分类文件的相似系数;依其相似系数的大小进行分类,将相似系数大的数篇待分类文件结合成同一类别,完成文件分类。

Description

中文文件自动分类法
本发明是一种中文分类法,尤指一种中文文件自动分类法。
随著电脑的日渐普及,有越来越多的中文电子化文件。然而众多的文件是很不易管理的,需要将文件依其内容做分类,以方便管理。将众多的文件依其文件内容的不同,将各文件加以归类,或放置于不同的档案目录下,以达成文件分类的目的。
日前一般使用来做文件分类的方法,主要为「人工获取关键词法」。请参阅图1所示,其是为现有「人工获取关键词法」的流程图,该「人工获取关键词法」是先利用人类对于每篇待分类文件1’的文件内容进行了解后,然后以人工的方式选取数个足以代表该篇待分类文件1’内容的词汇、做为该篇待分类文件1’的关键词2’。然后在进行待分类文件1’分类之时,将具有相同关键词2’的文件归为同一类。
上述的「人工获取关键词法」是利用人工来选取待分类文件1’的关键词2’,然而利用人工处理文件分类时会有三大问题。第一个问题是「效率问题」,因为文件的关键词必须利用人类对于文件内容的理解后加以判断,始能决定那些文件的关键词为何。此一人类的「理解-判断」过程非常地耗时耗力,必需使用大量的人力,付出高昂的时间与成本,才能够处理越来越多的中文电子化文件。
利用人工处理文件分类时的第二个问题是「标准性问题」。因为文件的关键词选取过程必需依赖人类的理解与判断,这是一个牵涉人类主观意见的过程。同一群文件的分类结果可能会因人而异,因为每个人对于文件内容的主题与分类的看法都有不同,而导致每个人所选取的关键词不尽相同,所以会欠缺一致性的分类标准,这是以人工处理文件分类时的最大问题。例如将一群内容皆是政治新闻的中文文件以人工进行分类,某个人经过对这群文件内容的了解所做出的判断,可能将这群内容皆是政治新闻的中文文件的关键词选取为:「台湾」及「美国」;然而另外一个人可能会将这一群内容皆是政治新闻的中文文件的关键词选取为:「李登辉」以及「克林顿」。
利用人工处理文件分类时的第三个问题是「一致性问题」。即使是同一个人针对同一篇中文文件的文件内容进行理解与判断,也会因为个人记忆、经验的改变,以及外界环境的变迁,而有不同的理解与判断。例如将一篇内容属于政治新闻的中文文件交由同一人进行分类,可能第一次该篇中文文件的关键词会被选取为「环境保育」;同一篇内容属于政治新闻的中文文件交由同一人重做一次关键词的选取,然而该篇中文文件的关键词却可能会被选取为「核四电厂」。同一篇中文文件交由同一人进行关键词选取,但两次选取的给果却可能不相同,这就是「一致性问题」。
只要是通过人工处埋中文文件的分类,即使是聘请大量的专业人员来进行文件分类的工作,也都不可避免会有「效率问题」、「准确性问题」与「一致性问题」。因为人类要对于中文文件的文件内容有某一程度的了解后,才有可能将该份文件的文件内容摘要成数个具有代表性的关键词,这是一个需时甚久的步骤,因此具有「效率问题」。除此之外,对于同一篇中文文件的文件内容,可能不同的人会获取出数个不同的关键词,因为每个人所认为足以代表该篇中文文件的文件内容的词汇皆有不同,这也就是「准确性问题」。而同一篇中文文件的文件内容交由同一个人来获取关键词,也有可能会每次都有所不同,这就是「一致性问题」。
本发明的目的是提出一种中文文件自动分类法,本发明完全不需要人工参与,因此可以解决现有的「人工获取关键词法」以人工分类所带来的「效率问题」、「准确性问通」与「一致性问题」。
本发明的目的可以通过以下措施来达到:
一种中文文件自动分类法,其是包含:
(1)先将各篇待分类文件利用断词法进行断词处理;
(2)将断词处理所得的所有词汇置于词汇总表中;
(3)再将词汇总表中的每一个词汇进行特征鉴别步骤处理,以得词汇总表中的每个词汇在各篇待分类文件的特征值;
(4)将词汇总表中的所有词汇在单一篇待分类文件中的特征值,进行特征值组合处理,求得该篇待分类文件的特征向量;
(5)然后将各篇待分类文件的特征向量进行文件相似性判别步骤处理,而得各篇待分类文件与其它篇待分类文件的相似系数;
(6)最后将各篇待分类文件依其相似系数的大小进行分类,将相似系数大的数篇待分类文件结合成同一类别,完成文件分类。
该断词法为长词优先断词法,其是利用主辞典对应待分类文件中的所有文字,优先找出符合主辞典中最长的词汇。
其中该特征鉴别步骤是包括有:
(1)计算词汇总表中的每一个词汇在各篇待分类文件中出现的次数,该次数值为词汇频率;
(2)计算词汇总表中的每一个词汇在所有待分类文件中出现的篇数,该篇数值的倒数为词汇散布率;
(3)再将词汇频率与词汇散布率进行加权运算,求得特征值。
其中该相似性判别步骤是为将各篇待分类文件所得的特征向量与其它待分类文件的特征向量相乘积,再除以各篇待分类文件的特征向量与其它待分类文件的特征向量的绝对值平均数,求得相似系数。
本发明相比现有技术具有如下优点:
本发明的发明人经过不断的研发,提出一种前所未见的中文文件自动分类法,可有效地解决改善上述的「人工获取关键词法」的缺点,亦即本发明中文文件自动分类法的特点在于:
本发明是将中文文件先进行中文断词步骤,然后以分割出的所有可能词汇经过运算后,取得该词汇在某一篇中文文件的特征值,之后再将各词汇在某一篇中文文件的特征值组合成该篇中文文件的特征向量。
该篇中文文件的特征向量具有足以代表该份文件内容的性质,而不需以人工方式来选取关键词,且利用本发明所求得的该篇中文文件的特征向量比「人工获取关键词法」中的关键词更能够代表该篇中文文件的文件内容特性。
每篇中文文件的特征向量皆可以通过本方法快速产生,因此可以解决以人工为每篇中文文件获取关键字所带来的「效率问题」;本方法对于不同篇的中文文件的文件内容,其所产生特征向量的标准是一致的,因此可以解决人工为每篇中文文件获取关链字时,所可能因个人主观理解与判断的不同而产生的「准确性问题」;本方法对于同一篇中文文件的文件内容,每次所产生的特征向量都是一致的,因此可以解决同一人在为同一篇中文文件的文件内容获取关键字时,所可能因个人主观理解与判断的改变而产生的「一致性问题」。综上所述,本发明确实可以有效解决以往「人工获取关键词法」的三大问题:「效率问题」、「准确性问题」与「一致性问题」。
再者,本发明提供一种不同篇中文文件的特征向量间可以进行相似性比较的方法。其是利用计算出相似系数,作为不同篇中文文件的文件内容间相似程度的判断标准,进而将文件依此一标准分类。意即本发明可以判断两份中文文件之间内容的相似性,而不需要人类的理解,即可利用中文文件的特征向量间的相似性比较,将文件内容相似性较高者分为同一类别,达到文件分类的目的。
为使能对本发明中文文件自动分类法有更进一步的了解,兹将本发明配合图示详细说明于后:
图1为现有的「人工获取关键词法」的流程图。
图2为本发明中文文件自动分类法的流程图。
请参阅图2所示,其是本发明一种中文文件自动分类法的流程图,其本发明是先将各篇待分类文件1利用断词法对文件内容的文字进行断词处理,该断词法为长词优先断词法,其是利用主辞典3对应待分类文件1中的所有文字,优先找出符合主辞典中最长的词汇2。将由断词步骤所得的所有词汇2置于词汇总表4中。接着将词汇总表4中的每一个词汇2进行特征鉴别步骤处理,即计算词汇总表4中的每一个词汇的在各篇待分类文件1中出现的次数,该次数值定义为词汇频率;另一方面计算词汇总表4中的每一个词汇2在所有待分类文件1中出现的篇数,该篇数值的倒数则定义为词汇散布率,将所求得的词汇频率与词汇散布率进行加权运算,得到词汇总表4中的每个词汇2在各篇待分类文件1的特征值5。再将词汇总表4中的所有词汇2在单一篇待分类文件1中的特征值5,进行特征值组合处理,求得属于该篇待分类文件1的特征向量6,该特征向量6即可充份代表该篇待分类文件1的内容特性。然后将各篇待分类文件1的特征向量6进行文件相似性判别步骤处理,本发明的相似性判别步骤处理是把各篇待分类文件1所得的特征向量6与其它待分类文件1的特征向量6相乘积,再除以上述互相乘积的特征向量6的绝对值平均数,来得到各篇待分类文件1与其它篇待分类文件1的相似系数7。最后,各篇待分类文件1依其与其它篇待分类文件1的相似系数7进行分类,把所求得的相似系数7值大者的数篇待分类文件1结合成同一类别,借此完成文件的分类。

Claims (4)

1.一种中文文件自动分类法,其特征是:其是包含:
(1)先将各篇待分类文件利用断词法进行断词处理;
(2)将断词处理所得的所有词汇置于词汇总表中;
(3)再将词汇总表中的每一个词汇进行特征鉴别步骤处理,以得词汇总表中的每个词汇在各篇待分类文件的特征值;
(4)将词汇总表中的所有词汇在单一篇待分类文件中的特征值,进行特征值组合处理,求得该篇待分类文件的特征向量;
(5)然后将各篇待分类文件的特征向量进行文件相似性判别步骤处理,而得各篇待分类文件与其它篇待分类文件的相似系数;
(6)最后将各篇待分类文件依其相似系数的大小进行分类,将相似系数大的数篇待分类文件结合成同一类别,完成文件分类。
2.如权利要求1所述的中文文件自动分类法,其特征是:该断词法为长词优先断词法,其是利用主辞典对应待分类文件中的所有文字,优先找出符合主辞典中最长的词汇。
3.如权利要求1所述的中文文件自动分类法,其特征是:其中该特征鉴别步骤是包括有:
(1)计算词汇总表中的每一个词汇在各篇待分类文件中出现的次数,该次数值为词汇频率;
(2)计算词汇总表中的每一个词汇在所有待分类文件中出现的篇数,该篇数值的倒数为词汇散布率;
(3)再将词汇频率与词汇散布率进行加权运算,求得特征值。
4.如权利要求1所述的中文文件自动分类法,其特征是:其中该相似性判别步骤是为将各篇待分类文件所得的特征向量与其它待分类文件的特征向量相乘积,再除以各篇待分类文件的特征向量与其它待分类文件的特征向量的绝对值平均数,求得相似系数。
CN 00136723 2000-12-21 2000-12-21 中文文件自动分类法 Pending CN1360253A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 00136723 CN1360253A (zh) 2000-12-21 2000-12-21 中文文件自动分类法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 00136723 CN1360253A (zh) 2000-12-21 2000-12-21 中文文件自动分类法

Publications (1)

Publication Number Publication Date
CN1360253A true CN1360253A (zh) 2002-07-24

Family

ID=4597438

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 00136723 Pending CN1360253A (zh) 2000-12-21 2000-12-21 中文文件自动分类法

Country Status (1)

Country Link
CN (1) CN1360253A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945246A (zh) * 2012-09-28 2013-02-27 北界创想(北京)软件有限公司 网络信息数据的处理方法及装置
CN103119596A (zh) * 2011-09-15 2013-05-22 株式会社东芝 文件分类装置、方法以及程序
CN103377262A (zh) * 2012-04-28 2013-10-30 国际商业机器公司 对用户进行分组的方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103119596A (zh) * 2011-09-15 2013-05-22 株式会社东芝 文件分类装置、方法以及程序
CN103119596B (zh) * 2011-09-15 2017-11-03 株式会社东芝 文件分类装置和方法
CN103377262A (zh) * 2012-04-28 2013-10-30 国际商业机器公司 对用户进行分组的方法和装置
CN103377262B (zh) * 2012-04-28 2017-09-12 国际商业机器公司 对用户进行分组的方法和装置
CN102945246A (zh) * 2012-09-28 2013-02-27 北界创想(北京)软件有限公司 网络信息数据的处理方法及装置

Similar Documents

Publication Publication Date Title
CN107122382B (zh) 一种基于说明书的专利分类方法
Chatzichristofis et al. Fcth: Fuzzy color and texture histogram-a low level feature for accurate image retrieval
Tadi Bani et al. Content-based image retrieval based on combination of texture and colour information extracted in spatial and frequency domains
JP2978044B2 (ja) 文書分類装置
DE60315506T2 (de) Identifizierung von kritischen merkmalen in einem geordneten skala-raum
CN1240011C (zh) 应用于操作系统的文件分类管理系统及方法
CN100533441C (zh) 基于概率主题词的两级组合文本分类方法
CN109165294A (zh) 一种基于贝叶斯分类的短文本分类方法
CN110543564A (zh) 基于主题模型的领域标签获取方法
Asirvatham et al. Web page classification based on document structure
CN115618014A (zh) 一种应用大数据技术的标准文献分析管理系统及方法
CN1360253A (zh) 中文文件自动分类法
Malik et al. Clustering web images using association rules, interestingness measures, and hypergraph partitions
Keyvanpour et al. Document image retrieval based on keyword spotting using relevance feedback
CN112380342A (zh) 一种电力文档主题提取方法及设备
Asirvatham et al. Web page categorization based on document structure
Pulijala et al. Hierarchical text classification
Squire et al. Improving response time by search pruning in a content-based image retrieval system, using inverted file techniques
Chatzichristofis et al. A hybrid scheme for fast and accurate image retrieval based on color descriptors
Freeman et al. Self-organising maps for hierarchical tree view document clustering using contextual information
CN112905771A (zh) 基于词性和位置的特征关键词提取方法
Tyburek et al. Fuzzy system for the classification of sounds of birds based on the audio descriptors
CN111125410A (zh) 一种海量图形图像智能识别检索系统
Luo et al. A comparison of som based document categorization systems
CN111191233A (zh) 一种宏病毒处理方法、装置和存储介质

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: WD

Ref document number: 1048673

Country of ref document: HK