CN102279887B - 一种文档分类方法、装置及系统 - Google Patents

一种文档分类方法、装置及系统 Download PDF

Info

Publication number
CN102279887B
CN102279887B CN201110237502.2A CN201110237502A CN102279887B CN 102279887 B CN102279887 B CN 102279887B CN 201110237502 A CN201110237502 A CN 201110237502A CN 102279887 B CN102279887 B CN 102279887B
Authority
CN
China
Prior art keywords
document
classification
user
classification information
uploaded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110237502.2A
Other languages
English (en)
Other versions
CN102279887A (zh
Inventor
徐兴军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201110237502.2A priority Critical patent/CN102279887B/zh
Publication of CN102279887A publication Critical patent/CN102279887A/zh
Application granted granted Critical
Publication of CN102279887B publication Critical patent/CN102279887B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请公开了一种文档分类方法、装置及系统。一种文档分类方法包括:对不同用户所上传的文档内容进行判重,将内容重复度超过预设阈值的文档构成重复文档集;获得用户对上传文档所标注的类别信息;对重复文档集中的文档类别信息进行统计,获得具有最多标注次数的类别;判断所述最多标注次数与该重复文档集的总标注次数的比值是否大于预设的阈值,如果是,则将所述标注次数最多的类别确定为该重复文档集中文档的类别。上述方案,基于用户上传文档时的标注信息对文档进行分类,能够在不增加系统侧人力成本的情况下,使系统的分类性能得到持续的提升。

Description

一种文档分类方法、装置及系统
技术领域
本申请涉及互联网技术领域,特别是涉及一种文档分类方法、装置及系统。
背景技术
随着互联网技术的发展,互联网上的信息量呈爆炸式增长。为了更好地应用这些数据,需要对这些数据进行有效的管理。其中,文档分类(documentclassification)是目前应用较为广泛的一种数据管理技术。文档分类是指按照根据文档或内容的属性,对文档集合中的每一个文档确定一个类别。这样,用户不但能够方便地在特定的类别浏览文档,而且可以通过限制搜索范围来使文档的查找更为容易。
文本分类问题与其它分类问题没有本质上的区别,其方法可以归结为根据待分类数据的某些特征来进行匹配,当然完全的匹配是不太可能的,因此必须(根据某种评价标准)选择最优的匹配结果,从而完成分类。文本分类一般包括了文本的表达、分类器的选择与训练等过程。一般采用有监督机器学习方法进行,提升文档分类系统性能的一个有效途径是收集高质量标注语料作为分类依据。目前,语料的收集工作,主要采用的方式是随机抽取一定数量的样本、然后由人工对样本进行标注。
可见,抽取样本的数量将直接影响文档分类性能,然而在实际应用中,出于人力成本的考虑,选取的标注样本规模往往也会受到限制,从而导致分类特征提取不准确,在一定程度上会影响分类的效果。另一方面,面对信息的快速更新,标注语料也应该相应进行更新以保证分类效果,但是要持续获得标注语料,同样需要消耗大量的人力成本。
发明内容
为解决上述技术问题,本申请实施例提供一种文档分类方法、装置及系统,以实现在不增加人力成本消耗的情况下,提升文档分类系统的性能。技术方案如下:
一种文档分类方法,包括:
对不同用户所上传的文档内容进行判重,将内容重复度超过预设阈值的文档构成重复文档集;
获得用户对上传文档所标注的类别信息;
对重复文档集中的文档类别信息进行统计,获得具有最多标注次数的类别;
判断所述最多标注次数与该重复文档集的总标注次数的比值是否大于预设的阈值,如果是,则将所述标注次数最多的类别确定为该重复文档集中文档的类别。
在本申请的一种实施方式中,上述方法,还包括:
利用已确定类别的文档作为语料,训练文档自动分类模型。
在本申请的一种实施方式中,所述获得用户对上传文档所标注的类别信息,包括:
获得用户在上传文档时对文档标注的类别信息;
获得用户对所上传文档最后一次更新标注的类别信息。
在本申请的一种实施方式中,所述对重复文档集中的文档类别信息进行统计,包括:
对标注次数超过预设阈值的重复文档集中的文档类别信息进行统计。
在本申请的一种实施方式中,所述对重复文档集中的文档类别信息进行统计,包括:
对于重复文档集中由同一用户上传的多篇文档,判断该用户对每篇文档所标注的类别信息是否相同,如果是,则将所述多篇文档的类别信息标注次数记为1次;如果否,则将所述多篇文档的类别信息标注次数记为0次。
在本申请的一种实施方式中,在获得用户对上传文档所标注的类别信息之前,还包括:
采用预设的分类模型,对用户所上传的文档的类别进行预判断;
将预判断结果发送给用户,供用户选择或修改。
在本申请的一种实施方式中,所述对用户所上传的文档的类别进行预判断,包括:
计算用户所上传文档属于每个类别的概率,并按照概率的大小排序生成预判断结果。
在本申请的一种实施方式中,上述方法还包括:
利用已确定类别的文档作为语料,对所述预设的分类模型进行修正。
一种文档分类装置,包括:
判重单元,用于对不同用户所上传的文档内容进行判重,将内容重复度超过预设阈值的文档构成重复文档集;
类别信息获得单元,用于获得用户对上传文档所标注的类别信息;
类别信息统计单元,用于对重复文档集中的文档类别信息进行统计,获得具有最多标注次数的类别;
文档分类确定单元,用于判断所述最多标注次数与该重复文档集的总标注次数的比值是否大于预设的阈值,如果是,则将所述标注次数最多的类别确定为该重复文档集中文档的类别。
在本申请的一种实施方式中,上述装置,还包括:
分类模型训练单元,用于利用已确定类别的文档作为语料,训练文档自动分类模型。
在本申请的一种实施方式中,类别信息获得单元,具体配置为:
用于获得用户在上传文档时对文档标注的类别信息;
用于获得用户对所上传文档最后一次更新标注的类别信息。
在本申请的一种实施方式中,所述类别信息统计单元,具体配置为:
用于对标注次数超过预设阈值的重复文档集中的文档类别信息进行统计,获得具有最多标注次数的类别。
在本申请的一种实施方式中,所述类别信息统计单元,具体配置为:
用于对重复文档集中由同一用户上传的多篇文档,判断该用户对每篇文档所标注的类别信息是否相同,如果是,则将所述多篇文档的类别信息标注次数记为1次;如果否,则将所述多篇文档的类别信息标注次数记为0次。
在本申请的一种实施方式中,上述装置,还包括:
文档分类预判单元,用于在所述类别信息获得单元获得用户对上传文档所标注的类别信息之前,采用预设的分类模型,对用户所上传的文档的类别进行预判断;
预判结果发送单元,用于将于预判断结果发送给用户,供用户选择或修改。
在本申请的一种实施方式中,所述文档分类预判单元,具体配置为:
采用预设的分类模型,计算用户所上传文档属于每个类别的概率,并按照概率的大小排序生成预判断结果。
在本申请的一种实施方式中,上述装置,还包括:
分类模型修正单元,用于利用已确定类别的文档作为语料,对所述预设的分类模型进行修正。
一种文档分类系统,包括服务器和客户端设备,
所述客户端设备,用于将用户对文档所标注的类别信息上传至服务器;
所述服务器,包括文档分类装置,用于根据客户端设备所上传的用户标注的文档类别信息,对文档进行分类;
所述文档分类装置,包括:
判重单元,用于对不同用户所上传的文档内容进行判重,将内容重复度超过预设阈值的文档构成重复文档集;
类别信息获得单元,用于获得用户对上传文档所标注的类别信息;
类别信息统计单元,用于对重复文档集中的文档类别信息进行统计,获得具有最多标注次数的类别;
文档分类确定单元,用于判断所述最多标注次数与该重复文档集的总标注次数的比值是否大于预设的阈值,如果是,则将所述标注次数最多的类别确定为该重复文档集中文档的类别。
本申请实施例所提供的技术方案,基于用户上传文档时的标注信息对文档进行分类,由于不同用户会上传内容重复的文档,因此通过对相同内容文档的分类标注信息进行统计、并选取在重复文档中占比例比较高的分类标注信息,可以得到置信度较高的标注分类结果。如果进一步利用这些分类结果作为依据训练分类模型,还能够有效地提升文档分类系统的效果分类准确性。另一方面,本申请方案充分利用了互联网用户数量大的特点,将标注的工作分散给互联网上的单一用户,从而可以在不增加系统侧人力成本的情况下,使系统的分类性能得到持续的提升。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本申请实施例文档分类系统的结构示意图;
图2为本申请实施例文档分类方法的第一种流程图;
图3为本申请实施例文档分类方法的第二种流程图;
图4为本申请实施例文档分类方法的第三种流程图;
图5为本申请实施例文档分类装置的第一种结构示意图;
图6为本申请实施例文档分类装置的第二种结构示意图;
图7为本申请实施例文档分类装置的第三种结构示意图;
图8为本申请实施例文档分类装置的第四种结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请保护的范围。
首先对本申请实施例中的文档分类系统的结构进行简单介绍,参见图1所示,该系统包括多个客户端设备100和一台网络侧服务器200。客户端设备100和服务器200可以通过网络进行通信。
其中,客户端100的主要功能包括:向服务器200上传用户文档,向服务器200上传用户对所上传文档标注的类别信息,等等。
服务器200的主要功能包括:接收不同客户端100上传的用户文档以及相应的标注类别信息,对用户标注的类别信息进行统计,并对文档进行分类。此外,服务器200还可以根据现有的分类方法先对用户所上传的文档类型进行预判断,然后将预判断结果发送至客户端100,以供用户在预判断结果的基础上做进一步的选择或修改。
下面将对本申请实施例所提供的一种文档分类方法进行说明,该方法可以包括以下步骤:
对不同用户所上传的文档内容进行判重,将内容重复度超过预设阈值的文档构成重复文档集;
获得用户对上传文档所标注的类别信息;
对重复文档集中的文档类别信息进行统计,获得具有最多标注次数的类别;
判断所述最多标注次数与该重复文档集的总标注次数的比值是否大于预设的阈值,如果是,则将所述标注次数最多的类别确定为该重复文档集中文档的类别。
上述步骤的执行主体,可以是服务器200本身,也可以是服务器200中的一个用于实现文本分类功能的装置。该装置可以直接与或间接(例如通过服务器的通信接口)与客户端进行通信。接收不同客户端对用户上传文档的标注类别信息,对用户标注的类别信息进行统计,并对文档进行分类。此外,该装置还可以根据现有的分类方法先对用户所上传的文档类型进行预判断,然后将预判断结果发送至客户端100,以供用户在预判断结果的基础上做进一步的选择或修改。
本申请所提提供的技术方案,基于用户上传文档时的标注信息对文档进行分类,由于不同用户会上传内容重复的文档,因此通过对相同内容文档的分类标注信息进行统计、并选取在重复文档中占比例比较高的分类标注信息,可以得到置信度较高的标注分类结果。如果进一步利用这些分类结果作为依据训练分类模型,还能够有效地提升文档分类系统的效果分类准确性。另一方面,本申请方案充分利用了互联网用户数量大的特点,将标注的工作分散给互联网上的单一用户,从而可以在不增加系统侧人力成本的情况下,使系统的分类性能得到持续的提升。
为了使本技术领域的人员更好地理解本申请方案,下面结合附图对本申请的技术方案作进一步的详细说明。
目前,很多互联网服务提供商都推出了互联网文库服务,“文库”是一种供互联网用户在线分享文档的开放平台,在这个平台上,用户可以在线阅读或下载涉及课件,习题,考试题库,论文报告,专业资料,各类公文模板。法律文件,文学小说等多个领域的资料。而文档数据来源则是热心用户的上传。
随着各种文库平台影响力的不断扩大,很多用户愿意将自己所拥有的文档资源上传到文库中。在实际应用中发现:对于热门的文档资源,可能为很多用户所共同拥有,这就存在不同用户上传相同内容文档的情况,本申请基于这一情况,提出一种文档分类方法,图2所示该文档分类方法的流程图,可以包括以下步骤:
S101,对不同用户所上传的文档内容进行判重,将内容重复度超过预设阈值的文档构成重复文档集;
大量重复的文档,给文库产品带来很差的用户体验,为了提升用户体验,相应产生了很多文本判重技术,例如基于文档级别的签名算法进行判重,常用算法包括MD5算法、simhash算法等等。在本申请所提供的方案中,可以直接利用这些成熟的文档判重技术,对不用用户所上传的文档进行判重处理,将内容相同的文档归到一起。
当然,在实际应用中,由于用户改动等原因,有些文档之间的内容可能会有一些细节上的区别,但是整体上的内容仍然一致。而本申请的目的是对文档进行自动分类,细节文字上的区别实际并不会影响该文档本身所应归属的类别,基于这种考虑,可以设定一个内容重复度阈值(例如80%、90%)等,在判重过程中,如果文档间的相似度超过这个阈值,则认为文档之间的差异并不会导致文档被划分到不同分类,因此也可以将这些文档归入相同的重复文档集。
S102,获得用户对上传文档所标注的类别信息;
本申请方案是以用户对自身上传文档所所标注的类别信息作为依据,实现对文档的自动分类。在具体实施过程,系统可以设定不同的策略,例如:可以要求用户在上传文档的同时,对该文档的分类进行标注;或者允许用户仅上传文档,过一段时间再对自己曾将上传过的文档的分类进行标注、或者对自己曾经标注过的文档的分类进行修改。
一般来说,认为用户最后一次标准结果是准确性最高的,因此,如果用户是在上传文档的同时对该文档的分类进行标注,并且系统不允许用户修改标注结果,则在本步骤中,可以直接获取用户在上传文档时对文档标注的类别信息;如果系统允许用户增加或修改标注结果,那么在本步骤中,应该获取用户对所上传文档最后一次更新标注的类别信息。
需要说明的是,不同用户对于“分类“的理解是不同,为了避免用户所标注的分类信息过于发散,这里应由系统提供一个完备的分类体系,限定用户在这个分类体系下进行选择。
S103,对重复文档集中的文档类别信息进行统计,获得具有最多标注次数的类别;
在同一个重复文档集中,存在多个内容相同或大体相同的文档,其中每个文档都具有一个由上传用户自行标注的类别信息(对于用户没有进行标注的文档,这里不做考虑),对这些类别信息进行统计,统计出具有最多标注次数的类别,例如,在一个重复文档集中共存在10篇文档,而不同用户对这10篇文档的类别标注情况如下:
A类:7篇
B类:1篇
C类:0篇
D类:2篇
可知,具有最多标注次数的类别是A类,也就是说,根据用户的个人观点,认为该文档的内容应该被归为A类用户是最多的。需要说明的是,由于统计是在同一个重复文档集中进行的,因此这里认为同一用户对于重复文档集中的每个文档都会给出相同的分类标注结果。
S104,判断所述最多标注次数与该重复文档集的总标注次数的比值是否大于预设的阈值,如果是,则将所述标注次数最多的类别确定为该重复文档集中文档的类别。
对于某个重复文档集中的文档,虽然每个用户都可能给出不同的分类,但是,如果大多数用户都认为其应该归于某一文档类别时,则认为这个结果是可信的。在实际应用中,可以预先设置一个比例阈值,如果在一个重复文档集中,最多标注次数与该重复文档集的总标注次数的比值大于该阈值,则认为该结果可信,可以进一步将标注次数最多的类别确定为该重复文档集中文档的类别。
仍以S103中所举的例子进行说明,假设预设的阈值为0.6,重复文档集中共存在10篇文档,根据不同用户对这10篇文档的标注,可知标注次数最多的类别是A类,标注次数为7次,该重复文档集的总标注次数为10次,最多标注次数与该重复文档集的总标注次数的比值为0.7,大于预设的阈值0.6,因此可以将该重复文档集中所有的文档都确定为A类。
由于本申请方案是基于统计实现的,因此,样本的数量在一定程度上会影响最分类结果的置信度,例如,在一个重复文档集中,只有两篇文档具有标注信息,那么无论最终的确定的分类结果如何,其置信度都是不够的。在实际应用中,可以设置一个标注次数阈值,只有在重复文档集中的文档被标注的次数大于该阈值时,才执行本步骤的统计过程,以保证最终的分类结果真正能够代表大部分用户的意见,从而提高置信度。
此外,在实际应用中,还可能存在的一种情况是:有些用户出于赚取积分等目的,会将自己所拥有的同一篇文档多次重复上传,在步骤S101中,这些由同一用户重复上传的文档,也会分别被归入同一个重复文档集。由于每一篇文档都对应一个类别信息,因此可能会导致同一个用户的标注多次影响最终的统计结果,从而违背了“最终分类结果能够代表大部分用户意见”的原则。为了避免这种情况的发生,本申请提供如下的实施方式:
在步骤S103对重复文档集中的文档类别信息进行统计时,对于重复文档集中由同一用户上传的文档,首先判断该用户对每篇文档所标注的类别信息是否相同,然后根据判断结果做不同的处理:
如果是,则无论该用户对同一文档重复上传了多少次,在对标注类别进行次数统计时,都按1次计算。也就是说,进行去重处理,从而使单一用户的意见对最终分类结果的影响度得到控制。
如果否,则无论该用户对同一文档重复上传了多少次,在对标注类别进行次数统计时,都按0次计算。也就是说,如果用户自己对同一文档的类别归属都无法确定,那么这名用户的标注的所有类别信息都会被视为噪声,在统计时不予考虑。
当然,本领域技术人员可以理解的是,如果在某些系统中,本身就设有禁止同一用户上传相同内容文档的机制,那么在执行S103时则不需要采用上述实施方式。
上面实施例所提供的方案,通过对相同内容文档的分类标注信息进行统计、并选取在重复文档中占比例比较高的分类标注信息,可以得到置信度较高的标注分类结果。在本申请的另一种实施方式中,可以进一步利用这些分类结果作为依据训练分类模型,从而提升文档分类系统的效果分类准确性。图3所示为本申请所提供的文档分类方法的另一种流程图,包括以下步骤:
S101,对不同用户所上传的文档内容进行判重,将内容重复度超过预设阈值的文档构成重复文档集;
S102,获得用户对上传文档所标注的类别信息;
S103,对重复文档集中的文档类别信息进行统计,获得具有最多标注次数的类别;
S104,判断所述最多标注次数与该重复文档集的总标注次数的比值是否大于预设的阈值,如果是,则将所述标注次数最多的类别确定为该重复文档集中文档的类别;
S105,利用已确定类别的文档作为语料,训练文档自动分类模型。
利用用户的标注信息对为重复文档集中的文档确定分类,能够有效地减小系统端的人力投入,同时还可以保证分类结果的准确性。但是对重复文档集的利用存在着一些客观的限制,无法对不符合重复文档集要求的文档进行分类。本实施例与前一实施例相比,进一步增加了步骤S105,利用已确定类别的文档作为语料,训练文档自动分类模型,从而进一步提高分类方法的适用范围。
利用自动分类模型对文档进行分类是现有的技术,但是,如果要获得准确度较高的分类模型,需要投入人力成本对语料样本进行标注。而本申请实施例提供的利用重复文档集对文档进行分类的方案,虽然无法直接对不符合重复文档集要求的文档进行分类,但是分类的结果却可以作为语料用来训练自动分类模型。这些这些语料的类别实际上是由用户分别标注的,而系统侧可以实现自动对这些标注信息进行统计并决策最终的分类结果,因此并不需要在系统侧增加额外的人力资源,由于这些语料的标注类别是根据多数用户的意见确定的,因此具有较高的置信度,利用这样的语料对分类模型进行训练,也可以获得较好的分类效果。
图4所示为本申请所提供的文档分类方法的另一种流程图,包括以下步骤:
S201,对不同用户所上传的文档内容进行判重,将内容重复度超过预设阈值的文档构成重复文档集;
本步骤的具体实现与S101相同,这里不再重复描述。
S202,采用预设的分类模型,对用户所上传的文档的类别进行预判断;
在本实施例的方案中,系统中预先配置有一个自动分类模型,在系统运行的初期,这个分类模型并不要求很准确,可以根据人工标注的语料进行训练,甚至利用简单关键词匹配作为分类依据。目的是对于用户所上传的文档类别给出一个初步的判断。
S203,将预判断结果发送给用户,供用户选择或修改。
系统对文档内容进行初步判断后,将判断结果发送给用户,用户如果认为该分类结果与自己想法一致,可以直接确认系统的分类结果,作为自己标注的分类信息提交至系统侧。当然,如果用户认为该分类并不合理,也可以自己重新对分类进行标注并提交。
S204,获得用户对上传文档所标注的类别信息;
由S203可知,在本步骤中所获得的标注类别信息可能包括两类:一类是用户直接利用系统的预判断结果所提交的,另一类是用户自己标注的,但是对于系统侧而言,在本步骤并不需要对两种信息进行区分。
S205,对重复文档集中的文档类别信息进行统计,获得具有最多标注次数的类别;
S206,判断所述最多标注次数与该重复文档集的总标注次数的比值是否大于预设的阈值,如果是,则将所述标注次数最多的类别确定为该重复文档集中文档的类别;
本实施例中,步骤S205-S206的具体实现与S103-S104相同,这里不再重复描述。
S207,利用已确定类别的文档作为语料,对所述预设的分类模型进行修正。
本实施例与上一实施例相比,在系统预设了自动分类模型,但是系统运行的初期并不要求这个自动分类模型的准确性。在利用重复文档集对文档进行分类之后,再利用分类结果对预设的分类模型进行训练。这样,随着系统的运行,用户上传文档数量的增多,将会有越来越来的高置信度的语料可以用来不断修正分类模型,从而可以在不增加系统侧人力成本的情况下,保证分类模型准确性的持续提升。
另一方面,由于分类模型不断修正的,因此后续每次执行S202时,实际上都利用了最新修正过的模型,因此预判断结果的准确性在整体上也必然会有相应的提高,从而使得用户在S203可以更多地直接确认系统的分类结果进行提交,降低用户的操作复杂性。
在本申请的一种实现方式中,在S202,系统可以利用当前的分类模型,计算出计算用户所上传文档属于每个类别的概率,并按照概率的大小排序生成预判断结果。这样在步骤S203,用户收到具有排序的预判断结果后,将有很大的概率在前几位就看到符合自己想法的分类结果,从而减少浏览时间以及需要认真浏览的文本数量,降低浏览和操作代价。
相应于上面的方法实施例,本申请还提供一种文档分类装置,参见图5所示,包括:
判重单元310,用于对不同用户所上传的文档内容进行判重,将内容重复度超过预设阈值的文档构成重复文档集;
大量重复的文档,给文库产品带来很差的用户体验,为了提升用户体验,相应产生了很多文本判重技术,例如基于文档级别的签名算法进行判重,常用算法包括MD5算法、simhash算法等等。在本申请所提供的方案中,可以直接利用这些成熟的文档判重技术,对不用用户所上传的文档进行判重处理,将内容相同的文档归到一起。
当然,在实际应用中,由于用户改动等原因,有些文档之间的内容可能会有一些细节上的区别,但是整体上的内容仍然一致。而本申请的目的是对文档进行自动分类,细节文字上的区别实际并不会影响该文档本身所应归属的类别,基于这种考虑,可以设定一个内容重复度阈值(例如80%、90%)等,在判重过程中,如果文档间的相似度超过这个阈值,则认为文档之间的差异并不会导致文档被划分到不同分类,因此也可以将这些文档归入相同的重复文档集。
类别信息获得单元320,用于获得用户对上传文档所标注的类别信息;
本申请方案是以用户对自身上传文档所所标注的类别信息作为依据,实现对文档的自动分类。在具体实施过程,系统可以设定不同的策略,例如:可以要求用户在上传文档的同时,对该文档的分类进行标注;或者允许用户仅上传文档,过一段时间再对自己曾将上传过的文档的分类进行标注、或者对自己曾经标注过的文档的分类进行修改。
一般来说,认为用户最后一次标准结果是准确性最高的,因此,如果用户是在上传文档的同时对该文档的分类进行标注,并且系统不允许用户修改标注结果,则信息获得单元320,可以配置为直接获取用户在上传文档时对文档标注的类别信息;如果系统允许用户增加或修改标注结果,那么信息获得单元320可以配置为获取用户对所上传文档最后一次更新标注的类别信息。
需要说明的是,不同用户对于“分类“的理解是不同,为了避免用户所标注的分类信息过于发散,这里应由系统提供一个完备的分类体系,限定用户在这个分类体系下进行选择。
类别信息统计单元330,用于对重复文档集中的文档类别信息进行统计,获得具有最多标注次数的类别;
在同一个重复文档集中,存在多个内容相同或大体相同的文档,其中每个文档都具有一个由上传用户自行标注的类别信息(对于用户没有进行标注的文档,这里不做考虑),对这些类别信息进行统计,统计出具有最多标注次数的类别。
由于本申请方案是基于统计实现的,因此,样本的数量在一定程度上会影响最分类结果的置信度,例如,在一个重复文档集中,只有两篇文档具有标注信息,那么无论最终的确定的分类结果如何,其置信度都是不够的。在实际应用中,可以在类别信息统计单元330中,设置一个标注次数阈值,只有在重复文档集中的文档被标注的次数大于该阈值时,才执行后续的统计过程,以保证最终的分类结果真正能够代表大部分用户的意见,从而提高置信度。
此外,为了避免同一用户多次重复上传同一文档对最终分类结果的影响,在类别信息统计单元330对重复文档集中的文档类别信息进行统计时,可以配置如下:
对于重复文档集中由同一用户上传的文档,首先判断该用户对每篇文档所标注的类别信息是否相同,然后根据判断结果做不同的处理:
如果是,则无论该用户对同一文档重复上传了多少次,在对标注类别进行次数统计时,都按1次计算,从而使单一用户的意见对最终分类结果的影响度得到控制。
如果否,则无论该用户对同一文档重复上传了多少次,在对标注类别进行次数统计时,都按0次计算。也就是说,如果用户自己对同一文档的类别归属都无法确定,那么这名用户的标注的所有类别信息都会被视为噪声,在统计时不予考虑。
当然,本领域技术人员可以理解的是,如果在某些系统中,本身就设有禁止同一用户上传相同内容文档的机制,那么在在类别信息统计单元330中就不需要按上述方式进行配置。
文档分类确定单元340,用于判断所述最多标注次数与该重复文档集的总标注次数的比值是否大于预设的阈值,如果是,则将所述标注次数最多的类别确定为该重复文档集中文档的类别。
对于某个重复文档集中的文档,虽然每个用户都可能给出不同的分类,但是,如果大多数用户都认为其应该归于某一文档类别时,则认为这个结果是可信的。在实际应用中,可以预先设置一个比例阈值,如果在一个重复文档集中,最多标注次数与该重复文档集的总标注次数的比值大于该阈值,则认为该结果可信,可以进一步将标注次数最多的类别确定为该重复文档集中文档的类别。
参见图6所示,本申请所提供的文档分类装置,还可以包括:
分类模型训练单元350,用于利用已确定类别的文档作为语料,训练文档自动分类模型。
利用用户的标注信息对为重复文档集中的文档确定分类,能够有效地减小系统端的人力投入,同时还可以保证分类结果的准确性。但是对重复文档集的利用存在着一些客观的限制,无法对不符合重复文档集要求的文档进行分类。本实施例与前一实施例相比,进一步增加了分类模型训练单元350,利用已确定类别的文档作为语料,训练文档自动分类模型,从而进一步提高分类方法的适用范围。
利用自动分类模型对文档进行分类是现有的技术,但是,如果要获得准确度较高的分类模型,需要投入人力成本对语料样本进行标注。而本申请实施例提供的利用重复文档集对文档进行分类的方案,虽然无法直接对不符合重复文档集要求的文档进行分类,但是分类的结果却可以作为语料用来训练自动分类模型。这些这些语料的类别实际上是由用户分别标注的,而系统侧可以实现自动对这些标注信息进行统计并决策最终的分类结果,因此并不需要在系统侧增加额外的人力资源,由于这些语料的标注类别是根据多数用户的意见确定的,因此具有较高的置信度,利用这样的语料对分类模型进行训练,也可以获得较好的分类效果。
图7所示为本申请所提供的文档分类装置另一种结构示意图,在图5所示的基础上,进一步包括了以下功能单元:
文档分类预判单元360,用于在所述类别信息获得单元320获得用户对上传文档所标注的类别信息之前,采用预设的分类模型,对用户所上传的文档的类别进行预判断;
在本实施例的方案中,文档分类预判单元360中预先配置有一个自动分类模型,在装置运行的初期,这个分类模型并不要求很准确,可以根据人工标注的语料进行训练,甚至利用简单关键词匹配作为分类依据。目的是对于用户所上传的文档类别给出一个初步的判断。
其中,所述文档分类预判单元360,可以具体配置为:
采用预设的分类模型,计算用户所上传文档属于每个类别的概率,并按照概率的大小排序生成预判断结果。
预判结果发送单元370,用于将于预判断结果发送给用户,供用户选择或修改。
文档分类预判单元360对文档内容进行初步判断后,预判结果发送单元370将判断结果发送给用户,用户如果认为该分类结果与自己想法一致,可以直接确认该分类结果,作为自己标注的分类信息提交至类别信息获得单元320。当然,如果用户认为该分类并不合理,也可以自己重新对分类进行标注并提交。
参见图8所示,本申请所提供的文档分类装置,还可以进一步包括:
分类模型修正单元380,用于利用已确定类别的文档作为语料,对所述预设的分类模型进行修正。
本实施例与上一实施例相比,在文档分类预判单元360预设了自动分类模型,但是装置运行的初期并不要求这个自动分类模型的准确性。在利用重复文档集对文档进行分类之后,再利用分类结果对预设的分类模型进行训练。这样,随着装置的运行,用户上传文档数量的增多,将会有越来越来的高置信度的语料可以用来不断修正分类模型,从而可以在不增加系统侧人力成本的情况下,保证分类模型准确性的持续提升。
另一方面,由于分类模型不断修正的,因此后续文档分类预判单元360每次进行预判断时,实际上都利用了最新修正过的模型,因此预判断结果的准确性在整体上也必然会有相应的提高,从而使得用户可以在更多的情况下,直接确认预判结果发送单元370所发送的分类结果进行提交,降低用户的操作复杂性。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本申请的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (17)

1.一种文档分类方法,其特征在于,包括:
对不同用户所上传的文档内容进行判重,将内容重复度超过预设阈值的文档构成重复文档集;
获得用户对上传文档所标注的类别信息;
对重复文档集中的文档类别信息进行统计,获得具有最多标注次数的类别;
判断所述最多标注次数与该重复文档集的总标注次数的比值是否大于预设的阈值,如果是,则将所述标注次数最多的类别确定为该重复文档集中文档的类别。
2.根据权利要求1所述的方法,其特征在于,还包括:
利用已确定类别的文档作为语料,训练文档自动分类模型。
3.根据权利要求1所述的方法,其特征在于,所述获得用户对上传文档所标注的类别信息,包括:
获得用户在上传文档时对文档标注的类别信息;
获得用户对所上传文档最后一次更新标注的类别信息。
4.根据权利要求1所述的方法,其特征在于,所述对重复文档集中的文档类别信息进行统计,包括:
对标注次数超过预设阈值的重复文档集中的文档类别信息进行统计。
5.根据权利要求1所述的方法,其特征在于,所述对重复文档集中的文档类别信息进行统计,包括:
对于重复文档集中由同一用户上传的多篇文档,判断该用户对每篇文档所标注的类别信息是否相同,如果是,则将所述多篇文档的类别信息标注次数记为1次;如果否,则将所述多篇文档的类别信息标注次数记为0次。
6.根据权利要求1所述的方法,其特征在于,在获得用户对上传文档所标注的类别信息之前,还包括:
采用预设的分类模型,对用户所上传的文档的类别进行预判断;
将预判断结果发送给用户,供用户选择或修改。
7.根据权利要求6所述的方法,其特征在于,所述对用户所上传的文档的类别进行预判断,包括:
计算用户所上传文档属于每个类别的概率,并按照概率的大小排序生成预判断结果。
8.根据权利要求6或7所述的方法,其特征在于,还包括:
利用已确定类别的文档作为语料,对所述预设的分类模型进行修正。
9.一种文档分类装置,其特征在于,包括:
判重单元,用于对不同用户所上传的文档内容进行判重,将内容重复度超过预设阈值的文档构成重复文档集;
类别信息获得单元,用于获得用户对上传文档所标注的类别信息;
类别信息统计单元,用于对重复文档集中的文档类别信息进行统计,获得具有最多标注次数的类别;
文档分类确定单元,用于判断所述最多标注次数与该重复文档集的总标注次数的比值是否大于预设的阈值,如果是,则将所述标注次数最多的类别确定为该重复文档集中文档的类别。
10.根据权利要求9所述的装置,其特征在于,还包括:
分类模型训练单元,用于利用已确定类别的文档作为语料,训练文档自动分类模型。
11.根据权利要求9所述的装置,其特征在于,所述类别信息获得单元,具体配置为:
用于获得用户在上传文档时对文档标注的类别信息;
用于获得用户对所上传文档最后一次更新标注的类别信息。
12.根据权利要求9所述的装置,其特征在于,所述类别信息统计单元,具体配置为:
用于对标注次数超过预设阈值的重复文档集中的文档类别信息进行统计,获得具有最多标注次数的类别。
13.根据权利要求9所述的装置,其特征在于,所述类别信息统计单元,具体配置为:
用于对重复文档集中由同一用户上传的多篇文档,判断该用户对每篇文档所标注的类别信息是否相同,如果是,则将所述多篇文档的类别信息标注次数记为1次;如果否,则将所述多篇文档的类别信息标注次数记为0次。
14.根据权利要求9所述的装置,其特征在于,还包括:
文档分类预判单元,用于在所述类别信息获得单元获得用户对上传文档所标注的类别信息之前,采用预设的分类模型,对用户所上传的文档的类别进行预判断;
预判结果发送单元,用于将于预判断结果发送给用户,供用户选择或修改。
15.根据权利要求14所述的装置,其特征在于,所述文档分类预判单元,具体配置为:
采用预设的分类模型,计算用户所上传文档属于每个类别的概率,并按照概率的大小排序生成预判断结果。
16.根据权利要求14或15所述的装置,其特征在于,还包括:
分类模型修正单元,用于利用已确定类别的文档作为语料,对所述预设的分类模型进行修正。
17.一种文档分类系统,其特征在于,包括服务器和客户端设备,
所述客户端设备,用于将用户对文档所标注的类别信息上传至服务器;
所述服务器,包括如权利要求9-16任一项所述的文档分类装置,用于根据客户端设备所上传的用户标注的文档类别信息,对文档进行分类。
CN201110237502.2A 2011-08-18 2011-08-18 一种文档分类方法、装置及系统 Active CN102279887B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110237502.2A CN102279887B (zh) 2011-08-18 2011-08-18 一种文档分类方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110237502.2A CN102279887B (zh) 2011-08-18 2011-08-18 一种文档分类方法、装置及系统

Publications (2)

Publication Number Publication Date
CN102279887A CN102279887A (zh) 2011-12-14
CN102279887B true CN102279887B (zh) 2016-06-01

Family

ID=45105329

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110237502.2A Active CN102279887B (zh) 2011-08-18 2011-08-18 一种文档分类方法、装置及系统

Country Status (1)

Country Link
CN (1) CN102279887B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103873507A (zh) * 2012-12-12 2014-06-18 鸿富锦精密工业(深圳)有限公司 数据分块上传与存储系统及方法
CN103905479B (zh) * 2012-12-25 2018-04-27 联想(北京)有限公司 一种数据上传的方法、信息处理的方法及电子设备
CN103500158A (zh) * 2013-10-08 2014-01-08 北京百度网讯科技有限公司 批注电子文档的方法和装置
CN105323732B (zh) * 2014-06-05 2018-12-04 中国移动通信集团公司 一种非正常短消息识别方法及装置
CN107766371B (zh) * 2016-08-19 2023-11-17 中兴通讯股份有限公司 一种文本信息分类方法及其装置
CN106326197A (zh) * 2016-08-23 2017-01-11 达而观信息科技(上海)有限公司 一种快速检测重复抄袭文本的方法
CN106681850B (zh) * 2016-12-06 2019-11-26 北京中交兴路信息科技有限公司 一种车辆型号校验方法及装置
CN107330069B (zh) * 2017-06-30 2020-10-23 北京金山安全软件有限公司 一种多媒体数据处理方法及其装置、服务器、存储介质
CN108021713B (zh) * 2017-12-28 2022-01-21 北京奇艺世纪科技有限公司 一种文档聚类的方法和装置
CN108399418B (zh) * 2018-01-23 2021-09-03 北京奇艺世纪科技有限公司 一种用户分类方法及装置
CN110390094B (zh) * 2018-04-20 2023-05-23 伊姆西Ip控股有限责任公司 对文档进行分类的方法、电子设备和计算机程序产品
CN108932299A (zh) * 2018-06-07 2018-12-04 北京迈格威科技有限公司 用于对线上系统的模型进行更新的方法以及装置
CN109033219B (zh) * 2018-06-29 2022-03-11 北京奇虎科技有限公司 兴趣点poi分类方法和装置
CN109033220B (zh) * 2018-06-29 2022-09-06 北京京东尚科信息技术有限公司 标注数据的自动选取方法、系统、设备和存储介质
CN110909157B (zh) * 2018-09-18 2023-04-11 阿里巴巴集团控股有限公司 文本分类方法、装置、计算设备及可读存储介质
CN112084410B (zh) * 2020-09-10 2023-07-25 北京百度网讯科技有限公司 文档类型的推荐方法、装置、电子设备及可读存储介质
CN113468326A (zh) * 2021-06-16 2021-10-01 北京明略软件系统有限公司 确定文档分类的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134600A (ja) * 1999-11-08 2001-05-18 Nec Corp 情報抽出システム、情報抽出方法および情報抽出用プログラムを記録した記録媒体
CN101055576A (zh) * 2006-04-14 2007-10-17 英保达股份有限公司 可自动上传并分类文件类型的系统及方法
CN101261629A (zh) * 2008-04-21 2008-09-10 上海大学 基于自动分类技术的特定信息搜索方法
CN101286174A (zh) * 2008-05-09 2008-10-15 北京大学 一种文件标签的智能提示方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134600A (ja) * 1999-11-08 2001-05-18 Nec Corp 情報抽出システム、情報抽出方法および情報抽出用プログラムを記録した記録媒体
CN101055576A (zh) * 2006-04-14 2007-10-17 英保达股份有限公司 可自动上传并分类文件类型的系统及方法
CN101261629A (zh) * 2008-04-21 2008-09-10 上海大学 基于自动分类技术的特定信息搜索方法
CN101286174A (zh) * 2008-05-09 2008-10-15 北京大学 一种文件标签的智能提示方法

Also Published As

Publication number Publication date
CN102279887A (zh) 2011-12-14

Similar Documents

Publication Publication Date Title
CN102279887B (zh) 一种文档分类方法、装置及系统
US20210240748A1 (en) Automatically assessing structured data for decision making
Zhou et al. Userrec: A user recommendation framework in social tagging systems
US8417654B1 (en) Decision tree refinement
CN107862022B (zh) 文化资源推荐系统
US20070038646A1 (en) Ranking blog content
EP2560111A2 (en) Systems and methods for facilitating the gathering of open source intelligence
CN110377804A (zh) 培训课程数据的推送方法、装置、系统及存储介质
CN103399891A (zh) 网络内容自动推荐方法、装置和系统
CN107220295A (zh) 一种人民矛盾调解案例搜索和调解策略推荐方法
EP3189449A2 (en) Sentiment rating system and method
CN107507016A (zh) 一种消息推送方法和系统
CN103778548A (zh) 商品信息与关键词匹配方法、商品信息投放方法及装置
Bigorra et al. Aspect-based Kano categorization
CN109145301B (zh) 信息分类方法及装置、计算机可读存储介质
CN107896153B (zh) 一种基于移动用户上网行为的流量套餐推荐方法及装置
Feng et al. Computational social indicators: a case study of chinese university ranking
CN103198098A (zh) 一种网络信息投放方法和装置
CN104111925A (zh) 项目推荐方法和装置
CN104572733A (zh) 用户兴趣标签分类的方法及装置
CN106294363A (zh) 一种论坛帖子评价方法、装置及系统
CN116775879A (zh) 大语言模型的微调训练方法、合同风险评审方法及系统
Huang et al. View analysis of personal information leakage and privacy protection in big data era—based on Q method
CN104102727A (zh) 查询词的推荐方法及装置
CN105786810A (zh) 类目映射关系的建立方法与装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant