CN103577462B - 一种文档分类方法及装置 - Google Patents

一种文档分类方法及装置 Download PDF

Info

Publication number
CN103577462B
CN103577462B CN201210273212.8A CN201210273212A CN103577462B CN 103577462 B CN103577462 B CN 103577462B CN 201210273212 A CN201210273212 A CN 201210273212A CN 103577462 B CN103577462 B CN 103577462B
Authority
CN
China
Prior art keywords
document
classification
similarity
text
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210273212.8A
Other languages
English (en)
Other versions
CN103577462A (zh
Inventor
徐兴军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201210273212.8A priority Critical patent/CN103577462B/zh
Publication of CN103577462A publication Critical patent/CN103577462A/zh
Application granted granted Critical
Publication of CN103577462B publication Critical patent/CN103577462B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文档分类方法及装置。一种文档分类方法包括以下步骤:提取目标文档的特征文本,利用所述特征文本构成搜索条件;利用所述搜索条件进行搜索,得到相应的搜索结果;计算所述目标文档与搜索结果的文本相似度;根据计算得到的文本相似度以及搜索结果的分类信息,得到所述目标文档的分类结果。本发明方案基于文本之间的相似性,利用已有的文档分类信息对新文档进行分类,由于文本内容相似的文档属于相同分类的概率很大,因此通过对与当前文本内容相似的文本所属类别进行统计,可以得到置信度较高的分类结果。

Description

一种文档分类方法及装置
技术领域
本发明涉及计算机应用技术领域,特别是涉及一种文档分类方法及装置。
背景技术
随着互联网技术的发展,互联网上的信息量呈爆炸式增长。为了更好地应用这些信息,需要对这些信息数据进行有效的管理。其中,文档分类(document classification)是目前应用较为广泛的一种管理技术。文档分类是指按照根据文档的内容或某种属性,对文档集合中的每一个文档确定一个类别。这样,用户不但能够方便地在特定的类别浏览文档,而且可以通过限制搜索范围来使文档的查找更为容易。
对于海量的文档资源,采用完全人工的分类方法进行分类显然是不现实的。目前,在一些UGC(User Generated Content,用户生成内容)平台上,常用的文档分类方法是让用户直接参与分类,具体方案是,平台侧的管理人员预先建立一套分类体系,当用户上传或浏览文档时,要求用户自行选择当前文档的分类。这种方式的缺点在于:要求用户完全理解分类体系才能提供准确的分类信息,这提高了用户的操作成本,而且在实际应用中,有些用户并不会认真提供分类信息,系统侧又无法辨识这一状况,这样反而对分类系统的准确性造成影响。
目前另一种常用文档分类方法是:基于有监督学习的方案,人工构建语料、训练分类模型,然后利用分类模型对海量的文档进行分类。采用这种方案,提升文档分类系统性能的一个有效途径是收集高质量标注语料作为分类依据。目前,语料的收集工作,主要采用的方式是随机抽取一定数量的样本、然后由人工对样本进行标注,抽取样本的数量将直接影响文档分类性能。然而在实际应用中,出于人力成本的考虑,选取的标注样本规模往往也会受到 限制,从而导致分类特征提取不准确,在一定程度上会影响分类的效果。另一方面,面对信息的快速更新,标注语料也应该相应进行更新以保证分类效果,但是要持续获得标注语料,同样需要消耗大量的人力成本。
发明内容
为解决上述技术问题,本发明实施例提供一种文档分类方法及装置,以解决/以实现,技术方案如下:
一种文档分类方法,其特征在于,包括:
提取目标文档的特征文本,利用所述特征文本构成搜索条件;
利用所述搜索条件进行搜索,得到相应的搜索结果;
计算所述目标文档与搜索结果的文本相似度;
根据计算得到的文本相似度以及搜索结果的分类信息,得到所述目标文档的分类结果。
根据本发明的一种具体实施方式,所述提取目标文档的特征文本,利用所述特征文本构成搜索条件,包括:
提取目标文档的标题作为搜索关键词。
根据本发明的一种具体实施方式,所述计算所述目标文档与搜索结果的文本相似度,包括:
计算所述目标文档标题与搜索结果标题的文本相似度。
根据本发明的一种具体实施方式,所述计算所述目标文档与搜索结果的文本相似度,包括:
计算所述目标文档与排名前N位搜索结果的文本相似度,其中N为预设的正整数。
根据本发明的一种具体实施方式,所述根据计算得到的文本相似度以及搜索结果的分类信息,得到所述目标文档的分类结果,包括:
计算各个类别搜索结果对应的相似度之和,将相似度之和最高的搜索结果的所属类别,确定为所述目标文档的类别。
根据本发明的一种具体实施方式,所述根据计算得到的文本相似度以及搜索结果的分类信息,确定所述目标文档的分类结果,包括:
计算各个类别搜索结果对应的相似度之和,根据计算结果得到所述目标文档属于各个类别的概率。
根据本发明的一种具体实施方式,该方法还包括:
利用所得到的文档分类结果作为语料,训练文档自动分类模型;
利用所得到的文档分类结果作为语料,对已有的文档自动分类模型进行修正。
根据本发明的一种具体实施方式,该方法还包括:
将所得到的文档分类结果发送给用户,供用户选择或修改。
本发明实施例还提供一种文档分类装置,包括:
特征提取单元,用于提取目标文档的特征文本,利用所述特征文本构成搜索条件;
搜索单元,用于利用所述搜索条件进行搜索,得到相应的搜索结果;
相似度计算单元,用于计算所述目标文档与搜索结果的文本相似度;
分类单元,用于根据计算得到的文本相似度以及搜索结果的分类信息,得到所述目标文档的分类结果。
根据本发明的一种具体实施方式,所述特征提取单元,具体用于:
提取目标文档的标题作为搜索关键词。
根据本发明的一种具体实施方式,所述相似度计算单元,具体用于:
计算所述目标文档标题与搜索结果标题的文本相似度。
根据本发明的一种具体实施方式,所述相似度计算单元,具体用于:
计算所述目标文档与排名前N位搜索结果的文本相似度,其中N为预设的正整数。
根据本发明的一种具体实施方式,所述分类单元,具体用于:
计算各个类别搜索结果对应的相似度之和,将相似度之和最高的搜索结 果的所属类别,确定为所述目标文档的类别。
根据本发明的一种具体实施方式,所述分类单元,具体用于:
计算各个类别搜索结果对应的相似度之和,根据计算结果得到所述目标文档属于各个类别的概率。
根据本发明的一种具体实施方式,该装置还包括分类模型管理单元,用于
利用所得到的文档分类结果作为语料,训练文档自动分类模型;
利用所得到的文档分类结果作为语料,对已有的文档自动分类模型进行修正。
根据本发明的一种具体实施方式,该装置还包括:
分类结果反馈单元,用于将所得到的文档分类结果发送给用户,供用户选择或修改。
本发明实施例所提供的技术方案,基于文本之间的相似性,利用已有的文档分类信息对新文档进行分类,由于文本内容相似的文档属于相同分类的概率很大,因此通过对与当前文本内容相似的文本所属类别进行统计,可以得到置信度较高的分类结果。应用本发明实施例所提供的技术方案,既不需要用户参与,也不需要消耗系统侧的人力成本,分类结果不会受到人为因素的影响。此外,如果进一步利用本发明的分类结果作为依据训练分类模型,也能够有效提升分类模型的适应性,从而可以在不增加系统侧人力成本的情况下,使模型分类系统的分类性能得到持续的提升。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例文档分类方法的一种流程图;
图2为本发明实施例文档分类装置的一种结构示意图;
图3为本发明实施例文档分类装置的第二种结构示意图。
具体实施方式
首先对本发明实施例所提供的一种文档分类方法进行说明,该方法可以包括以下步骤:
提取目标文档的特征文本,利用所述特征文本构成搜索条件;
利用所述搜索条件进行搜索,得到相应的搜索结果;
计算所述目标文档与搜索结果的文本相似度;
根据计算得到的文本相似度以及搜索结果的分类信息,得到所述目标文档的分类结果。
本发明实施例方案基于这样一种实现前提:当前已经具有一些文档(文档可以位于应用平台内部或外部),这些文档本身已经被分类,即具有置信度较高的分类信息。那么,对于待分类的目标文档A,如果可以找到和A具有相同或相似内容的已分类文档B1、B2、…Bn,就可以根据文档B1、B2、…Bn的所属类别,确定文档A的所属类别。
本发明实施例方案,可以适用于各种具有文档文类需求的应用环境。其中的文档也可以表现为多种形式,例如文库平台中的TXT、DOC、PDF等形式的文档、问答平台中的问题主题、百科平台中的百科词条等等,这些并不影响本发明方案的实现。
本发明实施例所提供的技术方案,基于文本之间的相似性,利用已有的文档分类信息对新文档进行分类,由于文本内容相似的文档属于相同分类的概率很大,因此通过对与当前文本内容相似的文本所属类别进行统计,可以得到置信度较高的分类结果。应用本发明实施例所提供的技术方案,既不需要用户参与,也不需要消耗系统侧的人力成本,分类结果不会受到人为因素的影响。
本发明实施例所提供的文档分类方案,从分类效果上看,分类准确率高,且有自适应性;从分类效率上看,辅之以检索手段,减少了不必要的相似度计算,使此方法可以应用于实时分类系统。此外,如果进一步利用本发明的分类结果作为依据训练分类模型,也能够有效提升分类模型的适应性,从而可以在不增加系统侧人力成本的情况下,使模型分类系统的分类性能得到持续的提升。
为了使本领域技术人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明保护的范围。
图1所示为本发明实施例所提供的一种文档分类方法的流程图,该方法可以包括以下步骤:
S101,提取目标文档的特征文本,利用所述特征文本构成搜索条件;
搜索引擎的基本功能,就是根据给定的搜索条件,找出与该搜索条件内容相匹配的其他网络资源。根据搜索引擎的基本功能,在本发明中,可以利用待分类目标文档的部分内容构成搜索条件输入搜索引擎,在一定的文档集合范围内进行搜索,然后根据搜索结果的分类信息确定当前目标文档的所属类别。
由短文本构成的搜索关键词,是一种最为常见的搜索条件形式,而对于一篇文档而言,最能够体现文档特征的短文本一般是该文档的标题,因此,本发明的一种最基本的实现方案是:可以将文档A的标题直接作为搜索条件输入搜索引擎。可以理解的是,在不同的应用环境中,“标题”所指代的具体内容不同,除了狭义上的文档标题之外,还可以是词条名称,问题的题干内容,等等。
当然,在实际应用过程中,除了标题之外,目标文档的其他部分都可以 用于构成检索条件,例如作者、发布者、摘要内容、单位等等。这些部分可以用来单独构成搜索关键词,也可以彼此结合构成复合检索条件。
此外,在构成搜索条件的过程中,还可以进行如分词、去除停用词等等预处理。当然,目前很多搜索引擎已经非常智能,例如搜索引擎本身会自动进行分词、去除停用词等预处理,因此对于本发明而言,上述预处理操作并不是必须的。
S102,利用所述搜索条件进行搜索,得到相应的搜索结果;
构成搜索条件之后,将搜索条件发送至搜索引擎,并且得到搜索引擎所返回的一个或多个搜索结果。
本发明方案,是直接利用已有的搜索引擎进行搜索,本身不需要对搜索引擎进行改动。当然,在实际应用过程中,对于不同的应用环境,可能分别有着不同的分类体系,而只有在搜索结果中包含特定的分类体系信息时,该搜索结果才是有意义的。因此,一般会根据在具体应用环境的文档分类需求,将文档发送至特定的搜索引擎进行搜索。
例如,对于文库平台,将搜索条件直接输入该文库平台的搜索引擎,得到的搜索结果以文件为单位,每条搜索结果对应该文库平台中的一个文档文件(例如TXT、DOC、PDF等格式);对于问答平台,将搜索条件直接输入该问答平台的搜索引擎,得到的搜索结果以“问答对”为单位返回,每条搜索结果对应该问答平台中的一个问答对。对于百科平台,将搜索条件直接输入该百科平台的搜索引擎,得到的搜索结果以词条为单位返回,每条搜索结果对应该百科平台中的一个词条。
在实际应用中,由于不同应用平台的管理策略不同,有些平台可能要求文档资源必须具有一个明确的分类,有些平台则不然。可以理解的是,对于后面一种情况,如果不具有分类信息的文档出现在了搜索结果中,那么这些搜索结果对于本发明的“文档分类”而言,也是没有实际意义的,可以进行滤除处理。
另外,对于搜索引擎而言,根据搜索策略的不同,可能会返回大量的搜 索结果,而且搜索结果一般也都会根据与关键词的相关(相似)程度进行排序,排名靠后的搜索结果可能和搜索条件的匹配程度已经比较低,这类搜索结果对后续的分类处理贡献度较小,因此在本发明的一种实施方式中,可以对搜索结果做适当的截断处理,例如:仅选取排名前N位(N为预设的正整数,例如N=5、N=10、N=20等等)的搜索结果,用于后续处理,从而提高处理效率。
S103,计算所述目标文档与搜索结果的文本相似度;
对于搜索得到的全部或经过滤/截断处理后的搜索结果,分别计算目标文档与搜索结果的文本相似度。
对于文本相似度的计算方法,从大的方面分类,可以分为字面相似与语义相似。字面相似,最基本的方法是利用“公共字串长度/当前文本总长度”的公式计算,当然也可以引入欧式距离等其他更复杂的算法计算。。语义相似,则需要在字面相似的基础上,引入一些同义资源,对同义词进行替换归一,然后再计算,如“电能转换”与“电能转化”归一为“电能转化”,然后再进行字面相似度计算。字面相似在很多情况下,可以近似估计出语义相似,且不需要额外资源;语义相似则需要额外资源,但也会带来比字面相似更准确的效果。根据实际应用需求,本领域技术人员可以灵活选择各种文本相似的具体计算方法,本发明对此并不需要进行限定。
本发明的一种最基本的实现方案是:分别计算目标文档的标题与每条搜索结果文档标题的文本相似度。根据之前的描述可,在不同的应用环境中,“标题”所指代的具体内容不同,除了狭义上的文档标题之外,还可以是词条名称,问题的题干内容,等等。
当然在实际应用中,也可以利用目标文档和搜索结果文档的任意部分进行文本相似度计算,例如,计算目标文档的标题与搜索结果文档摘要的文本相似度、计算目标文档的摘要与搜索结果文档摘要的文本相似度,等等,本领域技术人员可以根据实际应用需求和应用场景,灵活设置相似度计算的源数据本发明对此并不需要进行限定。
S104,根据计算得到的文本相似度以及搜索结果的分类信息,得到所述目标文档的分类结果。
对于搜索得到的全部或经过滤/截断处理后的搜索结果,首先获取其分类信息,然后根据这些已有的分类信息和计算得到的文本相似度结果,对目标文档进行分类。
一种最简单的实现方式是:对每条搜索结果的文本相似度进行排序,选择与当前文档相似度最高的搜索结果,将该条搜索结果所在的分类确定为当前文档的分类。
可以理解的是,对于N条搜索结果,所对应的类别最多有N种,然而在实际应用中,往往N条结果对应的类别只有M(M≤N)种,也就是说,有若干搜索结果的所述类别是相同的。在本发明的一种实施方式中,可以分别计算M个类别下的搜索结果的相似度之和,将相似度之和最高的搜索结果的所属类别,确定为所述目标文档的类别。
例如,对于待分类的目标文档A,其对应5条搜索结果(可以是全部的搜索结果,也可以是截断后的搜索结果)分别为B1、B2、B3、B4、B5,其中,每条搜索结果与A的文本相似度以及所对应的类别如表1所示:
与A的相似度 类别
B1 0.8 类别1
B2 0.8 类别3
B3 0.7 类别3
B4 0.6 类别1
B5 0.6 类别2
表1
在上例中,N=5、M=3,分别计算3个类别下的搜索结果相似度之和:
类别1:包括B1和B4,相似度之和为0.8+0.6=1.4;
类别2:包括B5,相似度之和为0.6;
类别3:包括B2和B3,相似度之和为0.8+0.7=1.5;
可知,相似度之和最大值为1.5,对应的搜索结果为B2和B3,所属类别为类别2,因此,对于目标文档A,可以直接将其归至类别2。
本发明所述的分类结果,并不仅限于直接确定文档分类,在本发明的另一种实施方式中,还可以不直接做出分类判断,而是给出待分类的目标文档属于各个类别的概率。其中,目标文档属于第i类别的概率,可以由以下公式得到:
仍以表1中的数据为例,根据前面的计算结果,
类别1:相似度之和为1.4;
类别2:相似度之和为0.6;
类别3:相似度之和为1.5;
所有搜索结果的相似度之和为1.4+0.6+1.5=3.5
那么A属于各个类别的概率分别为:
属于类别1的概率:1.4/3.5=0.4;
属于类别2的概率:0.6/3.5=0.17;
属于类别3的概率:1.5/3.5=0.43;
另外,本发明所得到的分类结果,还可以反馈给用户,用户如果认为该分类结果与自己想法一致,可以直接确认系统的分类结果,作为自己标注的分类信息提交至系统侧。当然,如果用户认为该分类并不合理,也可以自己重新对分类进行修改。
如果以概率形式返回的分类结果,可以将按照概率的大小排序生成预判断结果。用户收到具有排序的预判断结果后,可以在给出的几个选项中进行选择,与现有技术相比,不要求用户对完整的分类体系进行了解,而且用户很大的概率直接看到符合自己想法的分类结果,执行操作的难度和所需时间都会明显降低。对于直接以确定类别的结果形式返回给用户的情况,如果用 户认真处理,可以在对该结果进行确认或修改,即便是不认真的用户,一般也会选择直接确认的操作,这样至少可以有效避免大量的“胡乱选择“的行为,降低系统的干扰。
下面以一个实际的例子,对本发明的文档分类方法进行说明:
假设待分类的目标文档为《弗洛伊德心理学说》,以标题“弗洛伊德心理学说”直接作为搜索关键词输入文库搜索引擎,在得到的搜索结果中,截取前5位(不包括该文档本身)的搜索结果,搜索结果的标题分别为:
结果1:弗洛伊德《爱情心理学》浅析
结果2:论弗洛伊德米德的心理学说及其方法论意义
结果3:茨威格小说与弗洛伊德心理学理论
结果4:弗洛伊德生平及其心理学基本介绍
结果5:从弗洛伊德心理学角度分析欲望号街车中的主人公布兰奇
在本实施例中,利用“公共字串长度/当前文本总长度”的公式,计算目标文档标题和搜索结果文档标题的文本相似度,例如,第1个结果与当前文档的相似度:
sim(弗洛伊德心理学说,弗洛伊德《爱情心理学》浅析)
=lenth(弗洛伊德心理学)/lenth(弗洛伊德心理学说)
=0.875
其中,分子中的“弗洛伊德心理学”是两个字符串的公共字串。
利用同样方法,得到其他结果与当前文档的相似度,并且分别获取这些结果的分类信息,如表2所示:
表2
最终得到目标文档的分类概率:
人文社科:0.583
工程科技:0.222
高等教育:0.194
也就是说,可以直接将《弗洛伊德心理学说》划分至“人文社科”类型,也可以将上述概率作为分类结果,向用户反馈或者用于训练自动分类模型。
相应于上面的方法实施例,本发明实施例还提供一种文档分类装置,参见图2所示,该装置包括:
特征提取单元110,用于提取目标文档的特征文本,利用所述特征文本构成搜索条件;
搜索引擎的基本功能,就是根据给定的搜索条件,找出与该搜索条件内容相匹配的其他网络资源。根据搜索引擎的基本功能,在本发明中,可以利用待分类目标文档的部分内容构成搜索条件输入搜索引擎,在一定的文档集合范围内进行搜索,然后根据搜索结果的分类信息确定当前目标文档的所属类别。
由短文本构成的搜索关键词,是一种最为常见的搜索条件形式,而对于一篇文档而言,最能够体现文档特征的短文本一般是该文档的标题,因此,本发明的一种最基本的实现方案是:可以将文档A的标题直接作为搜索条件输入搜索引擎。可以理解的是,在不同的应用环境中,“标题”所指代的具 体内容不同,除了狭义上的文档标题之外,还可以是词条名称,问题的题干内容,等等。
当然,在实际应用过程中,除了标题之外,目标文档的其他部分都可以用于构成检索条件,例如作者、发布者、摘要内容、单位等等。这些部分可以用来单独构成搜索关键词,也可以彼此结合构成复合检索条件。
此外,在构成搜索条件的过程中,还可以进行如分词、去除停用词等等预处理。当然,目前很多搜索引擎已经非常智能,例如搜索引擎本身会自动进行分词、去除停用词等预处理,因此对于本发明而言,上述预处理操作并不是必须的。
搜索单元120,用于利用所述搜索条件进行搜索,得到相应的搜索结果;
构成搜索条件之后,将搜索条件发送至搜索引擎,并且得到搜索引擎所返回的一个或多个搜索结果。
本发明方案,是直接利用已有的搜索引擎进行搜索,本身不需要对搜索引擎进行改动。当然,在实际应用过程中,对于不同的应用环境,可能分别有着不同的分类体系,而只有在搜索结果中包含特定的分类体系信息时,该搜索结果才是有意义的。因此,一般会根据在具体应用环境的文档分类需求,将文档发送至特定的搜索引擎进行搜索。
例如,对于文库平台,将搜索条件直接输入该文库平台的搜索引擎,得到的搜索结果以文件为单位,每条搜索结果对应该文库平台中的一个文档文件(例如TXT、DOC、PDF等格式);对于问答平台,将搜索条件直接输入该问答平台的搜索引擎,得到的搜索结果以“问答对”为单位返回,每条搜索结果对应该问答平台中的一个问答对。对于百科平台,将搜索条件直接输入该百科平台的搜索引擎,得到的搜索结果以词条为单位返回,每条搜索结果对应该百科平台中的一个词条。
在实际应用中,由于不同应用平台的管理策略不同,有些平台可能要求文档资源必须具有一个明确的分类,有些平台则不然。可以理解的是,对于后面一种情况,如果不具有分类信息的文档出现在了搜索结果中,那么这些 搜索结果对于本发明的“文档分类”而言,也是没有实际意义的,可以进行滤除处理。
另外,对于搜索引擎而言,根据搜索策略的不同,可能会返回大量的搜索结果,而且搜索结果一般也都会根据与关键词的相关(相似)程度进行排序,排名靠后的搜索结果可能和搜索条件的匹配程度已经比较低,这类搜索结果对后续的分类处理贡献度较小,因此在本发明的一种实施方式中,可以对搜索结果做适当的截断处理,例如:仅选取排名前N位(N为预设的正整数,例如N=5、N=10、N=20等等)的搜索结果,用于后续处理,从而提高处理效率。
相似度计算单元130,用于计算所述目标文档与搜索结果的文本相似度;
对于搜索得到的全部或经过滤/截断处理后的搜索结果,分别计算目标文档与搜索结果的文本相似度。
对于文本相似度的计算方法,从大的方面分类,可以分为字面相似与语义相似。字面相似,最基本的方法是利用“公共字串长度/当前文本总长度”的公式计算,当然也可以引入欧式距离等其他更复杂的算法计算。。语义相似,则需要在字面相似的基础上,引入一些同义资源,对同义词进行替换归一,然后再计算,如“电能转换”与“电能转化”归一为“电能转化”,然后再进行字面相似度计算。字面相似在很多情况下,可以近似估计出语义相似,且不需要额外资源;语义相似则需要额外资源,但也会带来比字面相似更准确的效果。根据实际应用需求,本领域技术人员可以灵活选择各种文本相似的具体计算方法,本发明对此并不需要进行限定。
本发明的一种最基本的实现方案是:分别计算目标文档的标题与每条搜索结果文档标题的文本相似度。根据之前的描述可预置,在不同的应用环境中,“标题”所指代的具体内容不同,除了狭义上的文档标题之外,还可以是词条名称,问题的题干内容,等等。
当然在实际应用中,也可以利用目标文档和搜索结果文档的任意部分进行文本相似度计算,例如,计算目标文档的标题与搜索结果文档摘要的文本 相似度、计算目标文档的摘要与搜索结果文档摘要的文本相似度,等等,本领域技术人员可以根据实际应用需求和应用场景,灵活设置相似度计算的源数据本发明对此并不需要进行限定。
分类单元140,用于根据计算得到的文本相似度以及搜索结果的分类信息,得到所述目标文档的分类结果。
对于搜索得到的全部或经过滤/截断处理后的搜索结果,首先获取其分类信息,然后根据这些已有的分类信息和计算得到的文本相似度结果,对目标文档进行分类。
一种最简单的实现方式是:对每条搜索结果的文本相似度进行排序,选择与当前文档相似度最高的搜索结果,将该条搜索结果所在的分类确定为当前文档的分类。
可以理解的是,对于N条搜索结果,所对应的类别最多有N种,然而在实际应用中,往往N条结果对应的类别只有M(M≤N)种,也就是说,有若干搜索结果的所述类别是相同的。在本发明的一种实施方式中,可以分别计算M个类别下的搜索结果的相似度之和,将相似度之和最高的搜索结果的所属类别,确定为所述目标文档的类别。
例如,对于待分类的目标文档A,其对应5条搜索结果(可以是全部的搜索结果,也可以是截断后的搜索结果)分别为B1、B2、B3、B4、B5,其中,每条搜索结果与A的文本相似度以及所对应的类别如表1所示:
与A的相似度 类别
B1 0.8 类别1
B2 0.8 类别3
B3 0.7 类别3
B4 0.6 类别1
B5 0.6 类别2
表1
在上例中,N=5、M=3,分别计算3个类别下的搜索结果相似度之和:
类别1:包括B1和B4,相似度之和为0.8+0.6=1.4;
类别2:包括B5,相似度之和为0.6;
类别3:包括B2和B3,相似度之和为0.8+0.7=1.5;
可知,相似度之和最大值为1.5,对应的搜索结果为B2和B3,所属类别为类别2,因此,对于目标文档A,可以直接将其归至类别2。
本发明所述的分类结果,并不仅限于直接确定文档分类,在本发明的另一种实施方式中,还可以不直接做出分类判断,而是给出待分类的目标文档属于各个类别的概率。其中,目标文档属于第i类别的概率,可以由以下公式得到:
仍以表1中的数据为例,根据前面的计算结果,
类别1:相似度之和为1.4;
类别2:相似度之和为0.6;
类别3:相似度之和为1.5;
所有搜索结果的相似度之和为1.4+0.6+1.5=3.5
那么A属于各个类别的概率分别为:
属于类别1的概率:1.4/3.5=0.4;
属于类别2的概率:0.6/3.5=0.17;
属于类别3的概率:1.5/3.5=0.43;
参见图3所示,本发明所提供的文档分类装置还可以进一步包括分类模型管理单元150以及分类结果反馈单元160。
本发明所得到分类结果,无论是直接确定类别形式的分类结果还是概率形式的分类结果,都可以提供给分类模型管理单元150,用来做为语料,训练文档自动分类模型,或者对已有的分类模型进行修正,从而进一步提高分类模型的适应性。
利用自动分类模型对文档进行分类是现有的技术,但是,如果要获得准确度较高的分类模型,需要投入人力成本对语料样本进行标注。而应用本发明的方法可以自动给出置信度较高的分类结果,因此可以在不需要在系统侧增加额外的人力资源的前提下,建立自动分类模型或者进一步提升自动分类模型的适应性。
另外,本发明所得到的分类结果,还利用分类结果反馈单元160可以反馈给用户,用户如果认为该分类结果与自己想法一致,可以直接确认系统的分类结果,作为自己标注的分类信息提交至系统侧。当然,如果用户认为该分类并不合理,也可以自己重新对分类进行修改。
如果以概率形式返回的分类结果,可以将按照概率的大小排序生成预判断结果。用户收到具有排序的预判断结果后,可以在给出的几个选项中进行选择,与现有技术相比,不要求用户对完整的分类体系进行了解,而且用户很大的概率直接看到符合自己想法的分类结果,执行操作的难度和所需时间都会明显降低。对于直接以确定类别的结果形式返回给用户的情况,如果用户认真处理,可以在对该结果进行确认或修改,即便是不认真的用户,一般也会选择直接确认的操作,这样至少可以有效避免大量的“胡乱选择“的行为,降低系统的干扰。
本发明实施例所提供的技术方案,基于文本之间的相似性,利用已有的文档分类信息对新文档进行分类,由于文本内容相似的文档属于相同分类的概率很大,因此通过对与当前文本内容相似的文本所属类别进行统计,可以得到置信度较高的分类结果。应用本发明实施例所提供的技术方案,既不需要用户参与,也不需要消耗系统侧的人力成本,分类结果不会受到人为因素的影响。此外,如果进一步利用本发明的分类结果作为依据训练分类模型,也能够有效提升分类模型的适应性,从而可以在不增加系统侧人力成本的情况下,使模型分类系统的分类性能得到持续的提升。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
以上所述仅是本发明的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种文档分类方法,其特征在于,包括:
提取目标文档的特征文本,利用所述特征文本构成搜索条件;
利用所述搜索条件进行搜索,得到相应的搜索结果;
计算所述目标文档与搜索结果的文本相似度;
计算各个类别搜索结果对应的相似度之和,将各个类别搜索结果对应的相似度之和除以所有搜索结果的相似度之和,根据计算结果得到所述目标文档属于各个类别的概率;
将按照概率的大小排序生成预判断结果反馈给用户,用户收到具有排序的预判断结果后,在给出的几个选项中进行选择,得到所述目标文档的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述提取目标文档的特征文本,利用所述特征文本构成搜索条件,包括:
提取目标文档的标题作为搜索关键词。
3.根据权利要求1所述的方法,其特征在于,所述计算所述目标文档与搜索结果的文本相似度,包括:
计算所述目标文档标题与搜索结果标题的文本相似度。
4.根据权利要求1所述的方法,其特征在于,所述计算所述目标文档与搜索结果的文本相似度,包括:
计算所述目标文档与排名前N位搜索结果的文本相似度,其中N为预设的正整数。
5.根据权利要求1所述的方法,其特征在于,该方法还包括:
利用所得到的文档分类结果作为语料,训练文档自动分类模型;
利用所得到的文档分类结果作为语料,对已有的文档自动分类模型进行修正。
6.一种文档分类装置,其特征在于,包括:
特征提取单元,用于提取目标文档的特征文本,利用所述特征文本构成搜索条件;
搜索单元,用于利用所述搜索条件进行搜索,得到相应的搜索结果;
相似度计算单元,用于计算所述目标文档与搜索结果的文本相似度;
分类单元,用于计算各个类别搜索结果对应的相似度之和,将各个类别搜索结果对应的相似度之和除以所有搜索结果的相似度之和,根据计算结果得到所述目标文档属于各个类别的概率;
分类结果反馈单元,用于将按照概率的大小排序生成预判断结果反馈给用户,用户收到具有排序的预判断结果后,在给出的几个选项中进行选择,得到所述目标文档的分类结果。
7.根据权利要求6所述的装置,其特征在于,所述特征提取单元,具体用于:
提取目标文档的标题作为搜索关键词。
8.根据权利要求6所述的装置,其特征在于,所述相似度计算单元,具体用于:
计算所述目标文档标题与搜索结果标题的文本相似度。
9.根据权利要求6所述的装置,其特征在于,所述相似度计算单元,具体用于:
计算所述目标文档与排名前N位搜索结果的文本相似度,其中N为预设的正整数。
10.根据权利要求6所述的装置,其特征在于,该装置还包括分类模型管理单元,用于
利用所得到的文档分类结果作为语料,训练文档自动分类模型;
利用所得到的文档分类结果作为语料,对已有的文档自动分类模型进行修正。
CN201210273212.8A 2012-08-02 2012-08-02 一种文档分类方法及装置 Active CN103577462B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210273212.8A CN103577462B (zh) 2012-08-02 2012-08-02 一种文档分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210273212.8A CN103577462B (zh) 2012-08-02 2012-08-02 一种文档分类方法及装置

Publications (2)

Publication Number Publication Date
CN103577462A CN103577462A (zh) 2014-02-12
CN103577462B true CN103577462B (zh) 2018-10-16

Family

ID=50049261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210273212.8A Active CN103577462B (zh) 2012-08-02 2012-08-02 一种文档分类方法及装置

Country Status (1)

Country Link
CN (1) CN103577462B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912563B (zh) * 2016-03-23 2019-04-02 北京数字跃动科技有限公司 一种基于心理学知识赋予机器人工智能学习的方法
CN106096042A (zh) * 2016-06-28 2016-11-09 乐视控股(北京)有限公司 数据信息分类方法及系统
CN108132941B (zh) * 2016-11-30 2021-03-26 北京国双科技有限公司 法律文献的关联关系的处理方法和装置
WO2018103033A1 (en) * 2016-12-08 2018-06-14 Hewlett Packard Enterprise Development Lp Software classification
CN108255522A (zh) * 2016-12-27 2018-07-06 北京金山云网络技术有限公司 一种应用程序分类方法及装置
CN108319627B (zh) * 2017-02-06 2024-05-28 腾讯科技(深圳)有限公司 关键词提取方法以及关键词提取装置
CN107609106B (zh) * 2017-09-12 2020-10-30 马上消费金融股份有限公司 一种相似文章查找方法、装置、设备及存储介质
CN110019794B (zh) * 2017-11-07 2023-04-25 腾讯科技(北京)有限公司 文本资源的分类方法、装置、存储介质及电子装置
CN110532540B (zh) * 2018-05-25 2024-04-09 北京京东尚科信息技术有限公司 确定用户偏好的方法、系统、计算机系统和可读存储介质
CN109376243A (zh) * 2018-10-23 2019-02-22 平安科技(深圳)有限公司 文本分类方法及装置
CN110135264A (zh) * 2019-04-16 2019-08-16 深圳壹账通智能科技有限公司 数据录入方法、装置、计算机设备以及存储介质
CN110413569A (zh) * 2019-07-30 2019-11-05 石浩灼 纸质档案电子化归档方法、装置及终端设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1612134A (zh) * 2003-10-31 2005-05-04 惠普开发有限公司 分类评估系统、方法和程序
CN1701324A (zh) * 2001-11-02 2005-11-23 Dba西方集团西方出版社 用于分类文档的系统,方法和软件
CN101625680A (zh) * 2008-07-09 2010-01-13 东北大学 面向专利领域的文档检索方法
CN102054029A (zh) * 2010-12-17 2011-05-11 哈尔滨工业大学 一种基于社会网络和人名上下文的人物信息消歧处理方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8046361B2 (en) * 2008-04-18 2011-10-25 Yahoo! Inc. System and method for classifying tags of content using a hyperlinked corpus of classified web pages

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1701324A (zh) * 2001-11-02 2005-11-23 Dba西方集团西方出版社 用于分类文档的系统,方法和软件
CN1612134A (zh) * 2003-10-31 2005-05-04 惠普开发有限公司 分类评估系统、方法和程序
CN101625680A (zh) * 2008-07-09 2010-01-13 东北大学 面向专利领域的文档检索方法
CN102054029A (zh) * 2010-12-17 2011-05-11 哈尔滨工业大学 一种基于社会网络和人名上下文的人物信息消歧处理方法

Also Published As

Publication number Publication date
CN103577462A (zh) 2014-02-12

Similar Documents

Publication Publication Date Title
CN103577462B (zh) 一种文档分类方法及装置
CN101944099B (zh) 一种使用本体进行文本文档自动分类的方法
CA2774278C (en) Methods and systems for extracting keyphrases from natural text for search engine indexing
CN104199833B (zh) 一种网络搜索词的聚类方法和聚类装置
CN103838833A (zh) 基于相关词语语义分析的全文检索系统
KR101079769B1 (ko) 다수 분류 체계를 연동한 시멘틱 검색 방법 및 시스템
CN110543595B (zh) 一种站内搜索系统及方法
Jotheeswaran et al. OPINION MINING USING DECISION TREE BASED FEATURE SELECTION THROUGH MANHATTAN HIERARCHICAL CLUSTER MEASURE.
CN103838756A (zh) 一种确定推送信息的方法及装置
CN107958014B (zh) 搜索引擎
CN105426529A (zh) 基于用户搜索意图定位的图像检索方法及系统
JP2018501579A (ja) 画像の内容の意味表現
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
CN108664515A (zh) 一种搜索方法及装置,电子设备
CN106971000A (zh) 一种搜索方法及装置
Peng et al. Focused crawling enhanced by CBP–SLC
CN101840438B (zh) 面向源文献元关键词的检索系统
Li et al. An agent based intelligent meta search engine
Santoso et al. An Ontological Crawling Approach for Improving Information Aggregation over eGovernment Websites.
Li et al. Research on hot news discovery model based on user interest and topic discovery
Choudhary et al. An ensemble approach to enhance performance of webpage classification
Djuana et al. Ontology learning from user tagging for tag recommendation making
Gawade et al. Using Feedback Sessions for Inferring User Search Goals
Su et al. Retracted: Analysis of Tourist Satisfaction Based on Internet Public Opinion and Big Data Collection
Jhamtani et al. Leveraging site search logs to identify missing content on enterprise webpages

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant