CN101853250A - 对文档进行分类的方法及装置 - Google Patents

对文档进行分类的方法及装置 Download PDF

Info

Publication number
CN101853250A
CN101853250A CN200910081157A CN200910081157A CN101853250A CN 101853250 A CN101853250 A CN 101853250A CN 200910081157 A CN200910081157 A CN 200910081157A CN 200910081157 A CN200910081157 A CN 200910081157A CN 101853250 A CN101853250 A CN 101853250A
Authority
CN
China
Prior art keywords
text
classifying documents
target class
cluster result
knowledge information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200910081157A
Other languages
English (en)
Inventor
薛贵荣
刘存伟
黄西华
万嘉
陆元飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN200910081157A priority Critical patent/CN101853250A/zh
Publication of CN101853250A publication Critical patent/CN101853250A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种对文档进行分类的方法及装置。该方法主要包括:基于待分类文档的各个目标类对应的知识信息,对所述待分类文档的文本信息和词语集合进行协同聚类处理,获得所述待分类文档的词语聚类结果和知识信息聚类结果。然后,将所述待分类文档的词语聚类结果与所述待分类文档的各个目标类的关键词组或者与所述知识信息聚类结果进行相似度计算,根据所述相似度计算的结果对所述待分类文档进行分类。本发明实施例通过基于知识监督的协同聚类算法和相似度计算方法,完成待分类文挡的分类过程,从而避开了传统的分类方法中的人工标注大规模的训练语料数据的环节。

Description

对文档进行分类的方法及装置
技术领域
本发明实施例涉及信息技术领域,尤其涉及一种对文档进行分类的方法及装置。
背景技术
随着互联网的快速发展,互联网上出现了海量的、异质的Web(网络)信息资源,其中Web文本信息占了主要地位。如何从庞大的web文本信息中获得高质量的准确信息,并有效地加以利用已经成为一个重要的研究课题。Web文本分类技术作为web信息挖掘的关键部分得到了人们的广泛关注。
web文本分类技术带来的各种应用已经广泛到应用到多个领域,比如:新闻出版按照栏目分类,实现通过新闻内容自动对新闻分类,如:政治、体育、军事、...;通过对用户的网页浏览历史记录分类获得用户的兴趣爱好,实现个性化新闻推荐、个性化广告等相关个性化推荐;对邮件内容进行分析归类实现垃圾邮件的过滤。
现有技术中的第一种对文档进行分类的方法为:采用相似度模型、概率模型、线性模型、非线性模型和组合模型等模型的传统分类方法。该传统分类方法需要人工标注大量训练语料,人工标注的训练语料的优劣直接影响到分类器的性能指标。人工标注训练语料指通过人为判断整理得到属于某个类的文档集合。通过人工标注的大量训练语料来训练分类器模型,当分类器模型训练好后,就可以用分类器模型对待分类文档进行文本分类了。
在实现本发明过程中,发明人发现上述现有技术中的第一种对文档进行分类的方法中至少存在如下问题:
训练语料的获取需要大量的专业领域的人工整理和收集工作,在很大程度上提高了文本分类的成本。
现有技术中用提前收集整理的训练语料得到的分类器很难对新生事物进行正确的分类,该方法分类的成本和投入较高,效率不高。
发明内容
本发明的实施例提供了一种对文档进行分类的方法及装置,以提高文档分类的效率。
一种对文档进行分类的方法,包括:
基于待分类文档的各个目标类对应的知识信息,对所述待分类文档的文本信息和词语集合执行协同聚类处理,获得知识信息聚类结果和所述待分类文档的词语聚类结果;
将所述待分类文档的词语聚类结果与所述待分类文档的各个目标类的关键词组进行相似度计算,得到第一计算结果;或者,将所述待分类文档的词语聚类结果与所述知识信息聚类结果进行相似度计算,得到第二计算结果;根据所述第一计算结果或第二计算结果对所述待分类文档进行分类。
一种对文档进行分类的装置,包括:
协同聚类处理模块,用于基于待分类文档的各个目标类对应的知识信息,对所述待分类文档的文本信息和词语集合进行协同聚类处理,获得知识信息聚类结果和所述待分类文档的词语聚类结果;
基于相似度的分类处理模块,用于将所述待分类文档的词语聚类结果与所述待分类文档的各个目标类的关键词组进行相似度计算,得到第一计算结果;或者,将所述待分类文档的词语聚类结果与所述知识信息聚类结果进行相似度计算,得到第二计算结果;根据所述第一计算结果或第二计算结果对所述待分类文档进行分类。
一种网络系统,包括至少一个计算机和至少一个服务器,所述计算机和服务器中至少有一个所述的对文档进行分类的装置。
由上述本发明的实施例提供的技术方案可以看出,本发明实施例通过基于知识监督的协同聚类算法和相似度计算方法,完成待分类文挡的分类过程,提高了文档分类的效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的对文本信息进行分类的方法的实现原理示意图;
图2为本发明实施例一提供的对文本信息进行分类的方法的具体处理流程图;
图3为本发明实施例提供的对文本信息进行分类的装置的具体实现结构图;
图4为本发明实施例提供的一种网络系统的结构示意图。
具体实施方式
在本发明实施例中,基于待分类文档的各个目标类对应的知识信息,对所述待分类文档的文本信息和词语集合执行协同聚类处理,获得所述待分类文档的词语聚类结果和知识信息聚类结果。之后,将所述待分类文档的词语聚类结果与所述待分类文档的各个目标类的关键词组进行相似度计算,得到第一计算结果;或者,将所述待分类文档的词语聚类结果与所述知识信息聚类结果进行相似度计算,得到第二计算结果;根据所述第一计算结果或第二计算结果对所述待分类文档进行分类。
进一步地,确定待分类文档的类别体系,该类别体系中包括各个目标类和相应的子类,并定义各个目标类的关键词组;
通过各个目标类的关键词组,搜索获取知识数据库中能够描述各个目标类的纯文本的知识信息,将所述知识信息和相应的目标类进行关联存储。
进一步地,实时地从互联网中获取网页和文档信息,对所述网页和文档信息进行解析,将解析后获取的纯文本的数据信息存放在知识数据库中。
进一步地,对待分类文档的内容进行解析,获得待分类文档的文本信息,对该文本信息进行分词、去停用词、去生僻词的处理后,获得待分类文档的词语集合。
进一步地,对所述文本信息和词语集合进行协同聚类处理,并对所述知识信息和所述词语集合执行协同聚类处理;
计算基于知识信息的所述文本信息和词语集合的协同聚类互信息损失,当判断所述协同聚类互信息损失不是最小时,则继续对所述文本信息和词语集合、知识信息和词语集合执行协同聚类处理,并继续判断所述协同聚类互信息损失是不是最小;当判断所述协同聚类互信息损失为最小时,则输出最优的待分类文档的词语集合和文本聚类结果,并输出知识信息聚类结果。
进一步地,取出所述词语聚类结果中的文本簇,将该文本簇分别与所述待分类文档的每个目标类的关键词组进行相似度计算,将最高的相似度值对应的目标类作为所述文本簇的分类结果;依次将所述词语聚类结果中的每个文本簇进行分类,从而完成所述待分类文挡的分类;
或者,
取出所述词语聚类结果中的文本簇,将该文本簇分别与所述知识信息聚类结果中的每个目标类的文本簇进行相似度计算,将最高的相似度值对应的所述知识信息聚类结果中的目标类作为所述文本簇的分类结果;依次将所述词语聚类结果中的每个文本簇进行分类,从而完成所述待分类文挡的分类。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
实施例一
该实施例提供的对文档进行分类的方法的实现原理示意图如图1所示,具体处理流程如图2所示,包括如下处理步骤:
步骤21:确定文档分类的类别体系,定义描述类别体系中的各个目标类的关键词组。
首先确定文档分类的类别体系,该类别体系中包括所有目标类和相应的子类。上述类别体系可以是一个树状多层分类体系,其中包括多个节点(对应目标类),每个节点可以划分为多个子节点(对应子类)。如“体育类”->“球类”->篮球;“体育类”->“田径”->“110米栏”。
然后,定义描述上述类别体系中所有目标类的关键词组,定义关键词组需要尽可能从多个方面、多个领域、多个角度来对目标类进行相应地描述。例如:“体育”类的关键词组可以定义为“足球、篮球、乒乓球、110米栏、F1、花样游泳......”等体育项目,也还可以定义为“世锦赛、世界杯、黄金联赛......”等体育赛事,也还可以定义为“梅开二度、帽子戏法、乌龙球、本垒打、兴奋剂、禁赛、伤病、......”等体育名词。
步骤22、通过各个目标类的关键词组,搜索知识数据库中能够描述各个目标类的对应的知识信息。
知识数据库是一个大规模的数据集合,该知识数据库的建立过程主要包括:利用网络实时爬取工具,实时地从互联网中抓取网页,对网页的内容、主题、关键字等相关内容进行解析,也实时地从互联网中抓取word、excel、pdf等格式文档,对该格式文档的内容进行解析。然后,将解析后获取的纯文本的数据信息存放在知识数据库中。
上述知识数据库中还需要建立高效查询索引机制,并对外提供查询接口,接收查询请求,将查询结果排序输出。
然后,利用上述知识数据库的查询接口,以上述目标类的关键词组为查找索引,对知识库中的纯文本的数据信息进行搜索,并按照索引算法对搜索结果排序,将排序靠前的一定数量的知识信息作为描述该目标类的知识信息,将该知识信息以文档的格式和相应的目标类进行关联存储。并依次获取和存储各个目标类的知识信息。
上述知识数据库也可以借鉴传统的搜索引擎如:谷哥、雅虎、百度等来实现知识信息的获取,但是最好的办法是建立本地针对性、概括性更强的本地知识数据库来实现文本分类。
步骤23、在知识信息的监督下,对待分类文档和词语集合执行协同聚类处理,基于协同聚类互信息损失最小,得到最优的待分类文档的文本聚类结果、词语聚类结果和知识信息聚类结果。
在获取了一个待分类文档后,需要对该待分类文档进行预处理,该预处理包括:对待分类文档的内容进行解析,进行文本内容的分词、或去停用词、或去生僻词的处理过程。经过该预处理之后,得到待分类文档的文本信息,该文本信息主要表现为离散的单词集合,并为每个出现的单词标上权重信息。
比如,一个待分类文档d,经过预处理之后,可以表示为:
D={w1,h1;w2,h2;w3,h3......},其中,D为预处理之后的待分类文档,wi表示D中的第i个单词,hi表示第i个单词的权重。上述D中的各个wi组成词语集合W,即W={w1,w2,w3......}
对各个目标类的知识信息也进行上述预处理,得到预处理之后的各个目标类的知识信息K。
然后,对上述预处理之后的待分类文档D和词语集合W执行协同聚类处理,预处理之后的词语集合W和各个目标类的知识信息K执行协同聚类处理,获得优化的待分类文档的文本聚类结果D’、词语聚类结果W’和知识信息聚类结果K。
上述协同聚类和传统的聚类的最大区别在于,协同聚类在纵向聚类(文档聚类)的过程中,引入了横向聚类(词语聚类)的内容,可以实现横向和纵向两个方向的互信息引入。而传统的单边聚类(文档聚类)在聚类的过程中没有引入其他的信息。
因此,在上述D和W、W和K的协同聚类处理过程中,在完成文档聚类的同时也获得了横向的单词聚类,在单词聚类的过程中通过知识信息K加强了单词与单词之间的关系,增强了看似无关联的W的信息,同时关联了K与D之间的共同信息。相当于在上述知识信息K的监督下,对D和W进行了协同聚类处理。并且,得到的聚类结果D’携带了大量的关于W的信息,聚类结果W’中携带了大量的关于K的信息。
比如,待分类文档D组成了下面的距阵f(X,Y):
f ( X , Y ) = . 05 . 05 . 05 0 0 0 . 05 . 05 . 05 0 0 0 0 0 0 . 05 . 05 . 05 0 0 0 . 05 . 05 . 05 . 04 . 04 0 . 04 . 04 . 04 . 04 . 04 . 04 0 . 04 . 04
其中Xi纵向表示每一篇文档,横向Yi表示文档中的某个单词,p(x,y)表示单词y在文档x中的权重。
对上述D和W执行协同聚类处理后,得到的D’组成了下面的距阵f(X,Y)
f ^ ′ ( X , Y ) = . 054 . 054 . 042 0 0 0 . 054 . 054 . 042 0 0 0 0 0 0 . 042 . 054 . 054 0 0 0 . 042 . 054 . 054 . 036 . 036 . 028 . 028 . 036 . 036 . 036 . 036 . 028 . 028 . 036 . 036
比较上述两个距阵,发现p(3,5)=0优化为p(3,5)=0.28,强化了横向和纵向变量的关系。
然后,判断基于所述知识信息的D和W之间的协同聚类互信息损失是否为最小,当该协同聚类互信息损失不是为最小时,则继续执行上述在知识信息K的监督下,对D和W执行协同聚类处理的过程。再继续判断D和W之间的协同聚类互信息损失是否为最小,当通过多次迭代处理,上述协同聚类互信息损失为最小时,则输出最优的待分类文档的文本聚类结果D’、词语聚类结果W’和知识信息聚类结果K’。
上述D和W之间的协同聚类互信息损失的计算方法如下:
Figure B2009100811570D0000082
(公式1)
上述公式(1)可以表示为:
(公式2)
在上述公式(2)中,
f(d,w)=p(d,w);
g(k,w)=p(k,w);
f ^ ( d , w ) = p ( d ^ , w ^ ) p ( d | d ^ ) p ( w | w ^ ) = p ( d ^ , w ^ ) p ( d ) p ( d ^ ) p ( u ′ ) p ( u ′ ^ )
g ^ ( k , w ) = p ( k , w ^ ) p ( w | w ^ ) = p ( k , w ^ ) p ( w ) p ( w ^ )
f(d,w),g(k,w)是(D,W)和(K,W)的原始概率分布。
Figure B2009100811570D0000092
D ( g ( K , W ) | | g ^ ( K , W ) ) = Σ w ∈ w ^ Σ ω ^ ∈ W ^ f ( w ) U g ( w , w ^ , K )
U f ( x , x ^ , Y ) = Σ y ∈ y ^ Σ y ^ ∈ Y f ( y | x ) log f ( x , y ) f ^ ( x , y )
U g ( x , x ^ , Y ) = Σ y ∈ y ^ Σ y ^ ∈ Y g ( y | x ) log g ( x , y ) g ^ ( x , y )
f(·),g(·)是f(·,·)和g(·,·)的边缘分布。
通过对上述公式(2)求解,当
Figure B2009100811570D0000097
为最小时,最终得到:
D ′ = arg min x ^ U f ( d , x ^ , W )
Figure B2009100811570D0000099
上述在知识信息的监督下的待分类文档D和词语集合W的协同聚类处理过程,还可以得到最优的知识信息聚类结果K’。
步骤24、将最优的词语聚类结果或知识信息聚类结果中的文本簇与每个目标类对应的关键词组进行相似度计算,将最高的相似度值对应的目标类作为上述某个文本簇的分类结果,完成了待分类文挡的分类过程。
上述通过协同聚类处理获得的最优的词语集合的聚类结果W’可以表示为: W ^ = { w ^ 1 , w ^ 2 . . . w ^ n }
上述W’包括了n个文本簇,取出其中某个文本簇,与上述类别体系中的每个目标类对应的关键词组进行相似度计算,分别获取相应的相似度值,将最高的相似度值对应的目标类作为上述某个文本簇的分类结果。按照上述处理过程,依次将W’中的每个文本簇进行分类,从而完成了待分类文挡D的分类过程。
上述相似度的计算过程可以采用余弦法(标准化点积法)来实现,具体计算方法为:
( d a , d b ) = d a · d b | d a | · | d b |
上述da为某类的关键词组集合,db为最优的词语集合的聚类结果W’中某个文本簇,cos(da,db)为da和db之间的相似度值。
实施例二
在实施例在首先通过上述实施例一提供的协同聚类处理过程,获得了最优的待分类文档的文本聚类结果D’、词语聚类结果W’和知识信息聚类结果K’。
上述最优的知识信息聚类结果K’中携带了待分类文档的词语集合信息,K’也可以表示为多个文本簇的集合,每个文本簇对应一个目标类。
取出词语聚类结果W’中的某个文本簇,分别与上述知识信息聚类结果K’中的各个目标类的文本簇进行相似度计算,分别获取相应的相似度值,将最高的相似度值对应的知识信息聚类结果K’中的目标类作为上述W’中的某个文本簇的分类结果。按照上述处理过程,依次将词语聚类结果W’中的每个文本簇进行分类,从而完成了待分类文挡D的分类过程。
该实施例中的上述相似度的计算过程也可以采用余弦法来实现。
本发明实施例还提供了一种对文档进行分类的装置,其具体实现结构如图3所示,包括如下模块:
协同聚类处理模块34,用于基于待分类文档的各个目标类对应的知识信息,对所述待分类文档的文本信息和词语集合进行协同聚类处理,获得知识信息聚类结果和所述待分类文档的词语聚类结果;
基于相似度的分类处理模块35,用于将所述待分类文档的词语聚类结果与所述待分类文档的各个目标类的关键词组进行相似度计算,得到第一计算结果;或者,将所述待分类文档的词语聚类结果与所述知识信息聚类结果进行相似度计算,得到第二计算结果;根据所述第一计算结果或第二计算结果对所述待分类文档进行分类。
所述装置还可以包括:
类别体系确定模块31,用于确定待分类文档的类别体系,该类别体系中包括各个目标类和相应的子类,定义各个目标类的关键词组;
知识信息获取模块32,用于通过所述待分类文档的类别体系中的各个目标类的关键词组,搜索获取知识数据库中能够描述各个目标类的纯文本的知识信息,将所述知识信息和相应的目标类进行关联存储。
预处理模块33,用于对待分类文档进行预处理,获得待分类文档的文本信息和词语集合。
所述协同聚类处理模块34具体可以包括:
执行计算模块341,用于对所述文本信息和词语集合进行协同聚类处理,并对所述知识信息和所述词语集合执行协同聚类处理,计算基于知识信息的所述文本信息和词语集合的协同聚类互信息损失,并传输给判断输出模块;
判断输出模块342,用于当判断所述执行计算模块传输过来的协同聚类互信息损失不是最小时,指示所述执行计算模块对所述文本信息和词语集合、知识信息和词语集合执行协同聚类处理,判断所述执行计算模块传输过来的协同聚类互信息损失是不是最小;
当判断所述协同聚类互信息损失为最小时,则输出最优的待分类文档的词语集合和文本聚类结果,并输出知识信息聚类结果。
所述基于相似度的分类处理模块35具体可以包括:相似度计算模块351和分类处理模块352,其中,
相似度计算模块351,用于取出所述词语聚类结果中的文本簇,将该文本簇分别与所述待分类文档的每个目标类的关键词组进行相似度计算,分别获取相应的相似度值,传输给分类处理模块;
分类处理模块352,用于将所述相似度计算模块传输过来的最高的相似度值对应的目标类作为所述文本簇的分类结果;依次将所述词语聚类结果中的每个文本簇进行分类,从而完成所述待分类文挡的分类;
或者,
相似度计算模块351,用于取出所述词语聚类结果中的文本簇,将该文本簇分别与所述知识信息聚类结果中的每个目标类的文本簇进行相似度计算,分别获取相应的相似度值,并传输给分类处理模块;
分类处理模块352,用于将所述相似度计算模块传输过来的最高的相似度值对应的所述知识信息聚类结果中的目标类作为所述文本簇的分类结果;依次将所述词语聚类结果中的每个文本簇进行分类,从而完成所述待分类文挡的分类。
上述本发明实施例所述方法和装置通过对待分类文档的文本信息和词语集合执行基于知识信息的协同聚类处理,获得知识信息聚类结果和待分类文档的词语聚类结果。然后,利用上述知识信息聚类结果、词语聚类结果,以及待分类文档的各个目标类的关键词组,执行相似度计算方法,完成待分类文挡的分类过程,从而避开了传统的分类方法中的人工标注大规模训练语料的环节,提高了文档分类的效率,为文挡分类节省了大量的人力成本和项目开发时间。
本发明实施例提供一种网络系统,如图4所示,该网络系统可以包括:计算机401、路由器402、服务器403和存储设备404。在图4所示的网络系统中,计算机401、路由器402、服务器403和存储设备404中的任意一个设备可以包括如图3所示的文档分类装置,该文档分类装置包括:协同聚类处理模块和基于相似度的分类处理模块、类别体系确定模块、知识信息获取模块和预处理模块。其中各个单元的作用与上述实施例类似,此处不再重复描述。
本领域技术人员可在图4所示的网络系统中增设交换机、基站等其它电子设备,并且增设的任意一种设备可以包括协同聚类处理模块和基于相似度的分类处理模块等。
本发明实施例系统的各个单元可以集成于一个装置,也可以分布于多个装置。上述单元可以合并为一个单元,也可以进一步拆分成多个子单元。
综上所述,本发明实施例通过基于知识监督的协同聚类算法和相似度计算方法,完成待分类文挡的分类过程,从而避开了传统的分类方法中的人工标注大规模训练语料的环节,为文挡分类节省了大量的人力成本和项目开发时间。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (12)

1.一种对文档进行分类的方法,其特征在于,包括:
基于待分类文档的各个目标类对应的知识信息,对所述待分类文档的文本信息和词语集合进行协同聚类处理,获得知识信息聚类结果和所述待分类文档的词语聚类结果;
将所述待分类文档的词语聚类结果与所述待分类文档的各个目标类的关键词组进行相似度计算,得到第一计算结果;
或者,
将所述待分类文档的词语聚类结果与所述知识信息聚类结果进行相似度计算,得到第二计算结果;
根据所述第一计算结果或第二计算结果对所述待分类文档进行分类。
2.根据权利要求1所述的对文档进行分类的方法,其特征在于,所述方法还包括:
确定待分类文档的类别体系,该类别体系中包括各个目标类和相应的子类,定义各个目标类的关键词组;
通过各个目标类的关键词组,搜索获取知识数据库中能够描述各个目标类的纯文本的知识信息,将所述知识信息和相应的目标类进行关联存储。
3.根据权利要求2所述的对文档进行分类的方法,其特征在于,所述方法还包括:
从互联网中获取网页和文档信息,对所述网页和文档信息进行解析,将解析后获取的纯文本的数据信息存放在知识数据库中。
4.根据权利要求1所述的对文档进行分类的方法,其特征在于,所述的方法还包括:
对待分类文档的内容进行解析,获得待分类文档的文本信息,对该文本信息进行分词、或去停用词、或去生僻词的处理后,获得待分类文档的词语集合。
5.根据权利要求1至4任一项所述的对文档进行分类的方法,其特征在于,所述的基于所述待分类文档的各个目标类对应的知识信息,对所述文本信息和词语集合执行协同聚类处理,获得所述待分类文档的词语聚类结果和知识信息聚类结果包括:
对所述文本信息和词语集合执行协同聚类处理,对所述知识信息和所述词语集合执行协同聚类处理;
确定基于知识信息的所述文本信息和词语集合的协同聚类互信息损失,当判断所述协同聚类互信息损失不是最小时,继续对所述文本信息和词语集合、知识信息和词语集合执行协同聚类处理,继续判断所述协同聚类互信息损失是不是最小;当判断所述协同聚类互信息损失为最小时,输出最优的待分类文档的词语集合和文本聚类结果,输出知识信息聚类结果。
6.根据权利要求5所述的方法,其特征在于,所述的将所述待分类文档的词语聚类结果与所述待分类文档的各个目标类的关键词组或者与所述知识信息聚类结果进行相似度计算,根据所述相似度计算的结果对所述待分类文档进行分类包括:
获取所述词语聚类结果中的文本簇,将该文本簇分别与所述待分类文档的每个目标类的关键词组进行相似度计算,将最高的相似度值对应的目标类作为所述文本簇的分类结果;依次将所述词语聚类结果中的每个文本簇进行分类,完成所述待分类文挡的分类;
或者,
获取所述词语聚类结果中的文本簇,将该文本簇分别与所述知识信息聚类结果中的每个目标类的文本簇进行相似度计算,将最高的相似度值对应的所述知识信息聚类结果中的目标类作为所述文本簇的分类结果;依次将所述词语聚类结果中的每个文本簇进行分类,完成所述待分类文挡的分类。
7.一种文档分类装置,其特征在于,包括:
协同聚类处理模块,用于基于待分类文档的各个目标类对应的知识信息,对所述待分类文档的文本信息和词语集合进行协同聚类处理,获得知识信息聚类结果和所述待分类文档的词语聚类结果;
基于相似度的分类处理模块,用于将所述待分类文档的词语聚类结果与所述待分类文档的各个目标类的关键词组进行相似度计算,得到第一计算结果;或者,将所述待分类文档的词语聚类结果与所述知识信息聚类结果进行相似度计算,得到第二计算结果;根据所述第一计算结果或第二计算结果对所述待分类文档进行分类。
8.根据权利要求7所述的对文档进行分类的装置,其特征在于,所述装置还包括:
预处理模块,用于对待分类文档进行预处理,获得待分类文档的文本信息和词语集合。
9.根据权利要求7所述的对文档进行分类的装置,其特征在于,所述装置还包括:
类别体系确定模块,用于确定待分类文档的类别体系,该类别体系中包括各个目标类和相应的子类,定义各个目标类的关键词组;
知识信息获取模块,用于通过所述待分类文档的类别体系中的各个目标类的关键词组,搜索获取知识数据库中能够描述各个目标类的纯文本的知识信息,将所述知识信息和相应的目标类进行关联存储。
10.根据权利要求7所述的对文档进行分类的装置,其特征在于,所述协同聚类处理模块包括:
执行计算模块,用于对所述文本信息和词语集合进行协同聚类处理,并对所述知识信息和所述词语集合执行协同聚类处理,确定基于知识信息的所述文本信息和词语集合的协同聚类互信息损失,传输给判断输出模块;
判断输出模块,用于当判断所述执行计算模块传输过来的协同聚类互信息损失不是最小时,指示所述执行计算模块对所述文本信息和词语集合、知识信息和词语集合执行协同聚类处理,判断所述执行计算模块传输过来的协同聚类互信息损失是否为最小;
当所述协同聚类互信息损失为最小时,输出最优的待分类文档的词语集合和文本聚类结果,输出知识信息聚类结果。
11.根据权利要求7至10任一项所述的对文档进行分类的装置,其特征在于,所述基于相似度的分类处理模块包括:相似度计算模块和分类处理模块,其中,
相似度计算模块,用于取出所述词语聚类结果中的文本簇,将该文本簇分别与所述待分类文档的每个目标类的关键词组进行相似度计算,分别获取相应的相似度值,传输给分类处理模块;
分类处理模块,用于将所述相似度计算模块传输过来的最高的相似度值对应的目标类作为所述文本簇的分类结果;依次将所述词语聚类结果中的每个文本簇进行分类,完成所述待分类文挡的分类;
或者,
相似度计算模块,用于取出所述词语聚类结果中的文本簇,将该文本簇分别与所述知识信息聚类结果中的每个目标类的文本簇进行相似度计算,分别获取相应的相似度值,传输给分类处理模块;
分类处理模块,用于将所述相似度计算模块传输过来的最高的相似度值对应的所述知识信息聚类结果中的目标类作为所述文本簇的分类结果;依次将所述词语聚类结果中的每个文本簇进行分类,完成所述待分类文挡的分类。
12.一种网络系统,其特征在于,包括至少一个计算机和至少一个服务器,所述计算机和服务器中至少有一个包括如权利要求7~11任一项所述的对文档进行分类的装置。
CN200910081157A 2009-04-03 2009-04-03 对文档进行分类的方法及装置 Pending CN101853250A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910081157A CN101853250A (zh) 2009-04-03 2009-04-03 对文档进行分类的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910081157A CN101853250A (zh) 2009-04-03 2009-04-03 对文档进行分类的方法及装置

Publications (1)

Publication Number Publication Date
CN101853250A true CN101853250A (zh) 2010-10-06

Family

ID=42804748

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910081157A Pending CN101853250A (zh) 2009-04-03 2009-04-03 对文档进行分类的方法及装置

Country Status (1)

Country Link
CN (1) CN101853250A (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102446174A (zh) * 2010-10-09 2012-05-09 百度在线网络技术(北京)有限公司 一种在网络设备中用于确定关键子词权重的方法和设备
CN103258000A (zh) * 2013-03-29 2013-08-21 北界创想(北京)软件有限公司 对网页中高频关键词进行聚类的方法及装置
CN103970888A (zh) * 2014-05-21 2014-08-06 山东省科学院情报研究所 基于网络度量指标的文档分类方法
CN104216979A (zh) * 2014-09-01 2014-12-17 西北工业大学 中文工艺专利自动分类系统及利用该系统进行专利分类的方法
CN104484459A (zh) * 2014-12-29 2015-04-01 北京奇虎科技有限公司 一种对知识图谱中的实体进行合并的方法及装置
CN105975476A (zh) * 2016-03-31 2016-09-28 华南理工大学 一种基于中文短语串频度的聚类方法
CN106372085A (zh) * 2015-07-22 2017-02-01 北京思博途信息技术有限公司 一种整合关联信息的方法和装置
CN103678327B (zh) * 2012-09-04 2017-02-22 中国移动通信集团四川有限公司 一种信息关联的方法及装置
CN106528581A (zh) * 2015-09-15 2017-03-22 阿里巴巴集团控股有限公司 文本检测方法及装置
CN106528894A (zh) * 2016-12-28 2017-03-22 北京小米移动软件有限公司 设置标签信息的方法及装置
CN106909694A (zh) * 2017-03-13 2017-06-30 杭州普玄科技有限公司 分类标签数据获取方法以及装置
CN106919545A (zh) * 2015-12-25 2017-07-04 皇家飞利浦有限公司 用于处理文档的方法与设备
CN108133009A (zh) * 2017-12-22 2018-06-08 新奥(中国)燃气投资有限公司 一种信息存储方法及装置
CN109299271A (zh) * 2018-10-30 2019-02-01 腾讯科技(深圳)有限公司 训练样本生成、文本数据、舆情事件分类方法及相关设备
CN109684121A (zh) * 2018-12-20 2019-04-26 鸿秦(北京)科技有限公司 一种文件恢复方法及系统
CN110008340A (zh) * 2019-03-27 2019-07-12 曲阜师范大学 一种多源文本知识表示、获取与融合系统
CN110569351A (zh) * 2019-09-02 2019-12-13 北京猎云万罗科技有限公司 一种约束性用户偏好的网络媒体新闻分类方法
WO2020073673A1 (zh) * 2018-10-11 2020-04-16 平安科技(深圳)有限公司 一种文本分析方法及终端
CN111078878A (zh) * 2019-12-06 2020-04-28 北京百度网讯科技有限公司 文本处理方法、装置、设备及计算机可读存储介质
CN111612420A (zh) * 2020-05-20 2020-09-01 江苏中睿联禾知识产权服务有限公司 一种科技项目种类筛选定项辅助系统
CN112052331A (zh) * 2019-06-06 2020-12-08 武汉Tcl集团工业研究院有限公司 一种处理文本信息的方法及终端
CN115204123A (zh) * 2022-07-29 2022-10-18 北京知元创通信息技术有限公司 协同编辑文档的分析方法、分析装置以及存储介质
CN115238153A (zh) * 2022-07-19 2022-10-25 中航机载系统共性技术有限公司 一种基于虚拟仿真的文档管理方法及系统
CN115409135A (zh) * 2022-11-03 2022-11-29 南昌惠联网络技术有限公司 一种网络业务文档的分类管理方法
WO2023024274A1 (zh) * 2021-08-25 2023-03-02 长鑫存储技术有限公司 一种数据处理系统和方法

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102446174B (zh) * 2010-10-09 2015-11-25 百度在线网络技术(北京)有限公司 一种在网络设备中用于确定关键子词权重的方法和设备
CN102446174A (zh) * 2010-10-09 2012-05-09 百度在线网络技术(北京)有限公司 一种在网络设备中用于确定关键子词权重的方法和设备
CN103678327B (zh) * 2012-09-04 2017-02-22 中国移动通信集团四川有限公司 一种信息关联的方法及装置
CN103258000A (zh) * 2013-03-29 2013-08-21 北界创想(北京)软件有限公司 对网页中高频关键词进行聚类的方法及装置
CN103970888A (zh) * 2014-05-21 2014-08-06 山东省科学院情报研究所 基于网络度量指标的文档分类方法
CN103970888B (zh) * 2014-05-21 2017-02-15 山东省科学院情报研究所 基于网络度量指标的文档分类方法
CN104216979B (zh) * 2014-09-01 2017-12-05 西北工业大学 中文工艺专利自动分类系统及利用该系统进行专利分类的方法
CN104216979A (zh) * 2014-09-01 2014-12-17 西北工业大学 中文工艺专利自动分类系统及利用该系统进行专利分类的方法
CN104484459A (zh) * 2014-12-29 2015-04-01 北京奇虎科技有限公司 一种对知识图谱中的实体进行合并的方法及装置
CN104484459B (zh) * 2014-12-29 2019-07-23 北京奇虎科技有限公司 一种对知识图谱中的实体进行合并的方法及装置
CN106372085B (zh) * 2015-07-22 2019-08-20 秒针信息技术有限公司 一种整合关联信息的方法和装置
CN106372085A (zh) * 2015-07-22 2017-02-01 北京思博途信息技术有限公司 一种整合关联信息的方法和装置
CN106528581B (zh) * 2015-09-15 2019-05-07 阿里巴巴集团控股有限公司 文本检测方法及装置
CN106528581A (zh) * 2015-09-15 2017-03-22 阿里巴巴集团控股有限公司 文本检测方法及装置
CN106919545A (zh) * 2015-12-25 2017-07-04 皇家飞利浦有限公司 用于处理文档的方法与设备
CN105975476A (zh) * 2016-03-31 2016-09-28 华南理工大学 一种基于中文短语串频度的聚类方法
CN106528894A (zh) * 2016-12-28 2017-03-22 北京小米移动软件有限公司 设置标签信息的方法及装置
CN106528894B (zh) * 2016-12-28 2019-11-15 北京小米移动软件有限公司 设置标签信息的方法及装置
CN106909694A (zh) * 2017-03-13 2017-06-30 杭州普玄科技有限公司 分类标签数据获取方法以及装置
CN106909694B (zh) * 2017-03-13 2020-01-17 杭州普玄科技有限公司 分类标签数据获取方法以及装置
CN108133009A (zh) * 2017-12-22 2018-06-08 新奥(中国)燃气投资有限公司 一种信息存储方法及装置
WO2020073673A1 (zh) * 2018-10-11 2020-04-16 平安科技(深圳)有限公司 一种文本分析方法及终端
CN109299271A (zh) * 2018-10-30 2019-02-01 腾讯科技(深圳)有限公司 训练样本生成、文本数据、舆情事件分类方法及相关设备
CN109684121A (zh) * 2018-12-20 2019-04-26 鸿秦(北京)科技有限公司 一种文件恢复方法及系统
CN110008340A (zh) * 2019-03-27 2019-07-12 曲阜师范大学 一种多源文本知识表示、获取与融合系统
CN112052331A (zh) * 2019-06-06 2020-12-08 武汉Tcl集团工业研究院有限公司 一种处理文本信息的方法及终端
CN110569351A (zh) * 2019-09-02 2019-12-13 北京猎云万罗科技有限公司 一种约束性用户偏好的网络媒体新闻分类方法
CN111078878A (zh) * 2019-12-06 2020-04-28 北京百度网讯科技有限公司 文本处理方法、装置、设备及计算机可读存储介质
CN111078878B (zh) * 2019-12-06 2023-07-04 北京百度网讯科技有限公司 文本处理方法、装置、设备及计算机可读存储介质
CN111612420A (zh) * 2020-05-20 2020-09-01 江苏中睿联禾知识产权服务有限公司 一种科技项目种类筛选定项辅助系统
WO2023024274A1 (zh) * 2021-08-25 2023-03-02 长鑫存储技术有限公司 一种数据处理系统和方法
CN115238153A (zh) * 2022-07-19 2022-10-25 中航机载系统共性技术有限公司 一种基于虚拟仿真的文档管理方法及系统
CN115238153B (zh) * 2022-07-19 2023-09-08 中航机载系统共性技术有限公司 一种基于虚拟仿真的文档管理方法及系统
CN115204123A (zh) * 2022-07-29 2022-10-18 北京知元创通信息技术有限公司 协同编辑文档的分析方法、分析装置以及存储介质
CN115204123B (zh) * 2022-07-29 2023-02-17 北京知元创通信息技术有限公司 协同编辑文档的分析方法、分析装置以及存储介质
CN115409135A (zh) * 2022-11-03 2022-11-29 南昌惠联网络技术有限公司 一种网络业务文档的分类管理方法

Similar Documents

Publication Publication Date Title
CN101853250A (zh) 对文档进行分类的方法及装置
CN103744981B (zh) 一种基于网站内容用于网站自动分类分析的系统
CN104951548A (zh) 一种负面舆情指数的计算方法及系统
CN104408148B (zh) 一种基于通用百科网站的领域百科构建系统
CN108364028A (zh) 一种基于深度学习的互联网网站自动分类方法
CN100353361C (zh) 一种新的面向文本分类的特征向量权重的方法及装置
CN106202294B (zh) 基于关键词和主题模型融合的相关新闻计算方法及装置
CN101625680A (zh) 面向专利领域的文档检索方法
CN103177024A (zh) 一种话题信息展现方法和装置
CN102073730A (zh) 一种主题网络爬虫系统的构建方法
CN110532379A (zh) 一种基于lstm的用户评论情感分析的电子资讯推荐方法
Wang et al. Are tags better than audio features? The effect of joint use of tags and audio content features for artistic style clustering
CN110825850B (zh) 一种自然语言主题分类方法及装置
CN101719129A (zh) 一种采用人工智能技术自动提取关键字的方法
Wang et al. NUDT@ CLSciSumm-18.
CN103559193A (zh) 一种基于选择单元的主题建模方法
Renuka et al. An unsupervised content-based article recommendation system using natural language processing
CN105095271A (zh) 微博检索方法和微博检索装置
Amini Interactive learning for text summarization
CN111444414A (zh) 一种用于建模ad-hoc检索任务中多样相关特征的信息检索模型
Ziani et al. Recommender system for sports articles based on Arabic opinions polarity detection with a hybrid approach RSS-SVM
Hassaine et al. Authenticity detection as a binary text categorization problem: Application to Hadith authentication
CN113705217A (zh) 一种面向电力领域知识学习的文献推荐方法及装置
Yuan et al. Automatic user goals identification based on anchor text and click-through data
Ascalon et al. Lyric-based music mood recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20101006