CN108628873A - 一种文本分类方法、装置和设备 - Google Patents

一种文本分类方法、装置和设备 Download PDF

Info

Publication number
CN108628873A
CN108628873A CN201710159632.6A CN201710159632A CN108628873A CN 108628873 A CN108628873 A CN 108628873A CN 201710159632 A CN201710159632 A CN 201710159632A CN 108628873 A CN108628873 A CN 108628873A
Authority
CN
China
Prior art keywords
text
classification
classification results
grader
classifying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710159632.6A
Other languages
English (en)
Other versions
CN108628873B (zh
Inventor
李探
温旭
常卓
闫清岭
张智敏
王树伟
花少勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Beijing Co Ltd
Original Assignee
Tencent Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Beijing Co Ltd filed Critical Tencent Technology Beijing Co Ltd
Priority to CN201710159632.6A priority Critical patent/CN108628873B/zh
Priority to PCT/CN2018/079136 priority patent/WO2018166499A1/zh
Publication of CN108628873A publication Critical patent/CN108628873A/zh
Application granted granted Critical
Publication of CN108628873B publication Critical patent/CN108628873B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种文本分类方法,所述方法包括:获取待分类文本;采用第一分类器对所述待分类文本进行分类,得到第一分类结果;采用第二分类器对所述第一分类结果中分类不正确的文本进行分类,得到第二分类结果;其中,所述第二分类器的分类参数与所述第一分类器的分类参数具有关联关系;基于所述第一分类结果和所述第二分类结果,对所述第一分类结果对应的文本和所述第二分类结果对应的文本进行处理得到目标文本。本发明的实施例同时还公开了一种文本分类装置和设备。

Description

一种文本分类方法、装置和设备
技术领域
本发明涉及计算机领域中的文本分类技术,尤其涉及一种文本分类方法、装置和设备。
背景技术
目前常用的文本分类器主要可以分成两大类:基于先验规则的文本分类器和基于模型的文本分类器。基于先验规则的文本分类器的分类规则需要靠人工挖掘或先验知识的积累,基于模型的文本分类器主要利用数据挖掘和机器学习的算法模型。在实际的文本分类应用中,无论是用哪种分类器模型经常会出现分类错误的问题,导致分类的准确率和召回率降低;而且在多层次分类中,如果上一级类出现错误直接会影响下面所有子分类的准确性。
现有技术中通常采用以下两种方案来解决该问题:一种方案是加入一系列的人工规则,修改分类错误的分类,但是规则通常不能覆盖所有的情况,而且还可能造成误修改;另一种方案是修改分类器模型,包括调整每个类别各自的特征,或修改分类器模型的参数。但是上述两种解决方案仍然存在无法准确修改分类的问题,还是会降低分类的准确率,可维护性与可扩展性变差。
发明内容
为解决上述技术问题,本发明实施例期望提供一种文本分类方法、装置和设备,解决了现有的文本分类方案中存在分类错误的问题,提高了文本分类的准确率,增强了可维护性和扩展性。
本发明的技术方案是这样实现的:
第一方面,提供一种文本分类方法,所述方法包括:
获取待分类文本;
采用第一分类器对所述待分类文本进行分类,得到第一分类结果;
采用第二分类器对所述第一分类结果中分类不正确的文本进行分类,得到第二分类结果;其中,所述第二分类器的分类参数与所述第一分类器的分类参数具有关联关系;
基于所述第一分类结果和所述第二分类结果,对所述第一分类结果对应的文本和所述第二分类结果对应的文本进行处理得到目标文本。
可选的,所述按照第二分类标准对所述第一分类结果中分类不正确的文本进行分类,得到第二分类结果,包括:
获取所述第一分类结果中分类不正确的文本的特征信息;
基于所述第一分类结果中分类不正确的文本的特征信息,设置分类参数;
基于所述分类参数并采用所述第二分类器,对所述第一分类结果中分类不正确的文本进行分类得到所述第二分类结果;其中,所述第一分类器的分类参数是根据所述待分类文本中的文本的特征信息生成的。
可选的,所述基于所述第一分类结果和所述第二分类结果,对所述第一分类结果对应的文本和所述第二分类结果对应的文本进行处理得到目标文本,包括:
获取所述第一分类结果中分类正确的文本的类别,得到第一类别;其中,所述第一类别中包括至少一种类别;
基于所述第一类别和所述第二分类结果,对所述第一分类结果对应的文本和所述第二分类结果对应的文本进行处理得到所述目标文本。
可选的,所述基于所述第一类别和所述第二分类结果,对所述第一分类结果对应的文本和所述第二分类结果对应的文本进行处理,得到所述目标文本,包括:
基于所述第二分类结果,获取所述第二分类结果对应的文本中类别为所述第一类别的文本,得到第一文本集合;
将所述第一文本集合和所述第一分类结果中分类正确的文本中属于同一类别的文本结合,得到第一目标文本;
获取所述第二分类结果对应的文本中类别为除所述第一类别集合之外的文本,得到第二目标文本;其中,所述目标文本包括第一目标文本和第二目标文本。
第二方面,提供一种文本分类装置,所述装置包括:第一获取单元、第一分类单元、第二分类单元和处理单元,其中:
所述第一获取单元,用于获取待分类文本;
所述第一分类单元,用于采用第一分类器对所述待分类文本进行分类,得到第一分类结果;
所述第二分类单元,用于采用第二分类器对所述第一分类结果中分类不正确的文本进行分类,得到第二分类结果;其中,所述第二分类器的分类参数与所述第一分类器的分类参数具有关联关系;
所述处理单元,用于基于所述第一分类结果和所述第二分类结果,对所述第一分类结果对应的文本和所述第二分类结果对应的文本进行处理得到目标文本。
第三方面,提供一种文本分类设备,所述设备包括:存储器和处理器,其中:
所述存储器,用于存储待分类文本;
所述处理器,用于从所述存储器中获取所述待分类文本,采用第一分类器对所述待分类文本进行分类,得到第一分类结果;采用第二分类器对所述第一分类结果中分类不正确的文本进行分类,得到第二分类结果;其中,所述第二分类器的分类参数与所述第一分类器的分类参数具有关联关系;基于所述第一分类结果和所述第二分类结果,对所述第一分类结果对应的文本和所述第二分类结果对应的文本进行处理得到目标文本。
本发明的实施例所提供的文本分类方法、装置和设备,获取待分类文本,采用第一分类器对待分类文本进行分类,得到第一分类结果,采用第二分类器对第一分类结果中分类不正确的文本进行分类,得到第二分类结果,第二分类器的分类参数与第一分类器的分类参数具有关联关系,基于第一分类结果和第二分类结果,对第一分类结果对应的文本和第二分类结果对应的文本进行处理得到目标文本;这样,在对待分类文本进行分类之后,可以对分类之后存在错误分类的文本继续进行分类,经过对存在错误分类的文本的再次分类之后得到的文本的分类都是正确的,从而解决了现有的文本分类方案中存在分类错误的问题,提高了文本分类的准确率,增强了可维护性和扩展性。
附图说明
图1为本发明的实施例提供的一种文本分类方法的流程示意图;
图2为本发明的实施例提供的另一种文本分类方法的流程示意图;
图3为本发明的实施例提供的又一种文本分类方法的流程示意图;
图4为本发明的另一实施例提供的一种文本分类方法的流程示意图;
图5为本发明的实施例提供的一种文本分类装置的结构示意图;
图6为本发明的实施例提供的另一种文本分类装置的结构示意图;
图7为本发明的实施例提供的一种文本分类设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明的实施例提供一种文本分类方法,参照图1所示,该方法包括以下步骤:
步骤101、获取待分类文本。
具体的,步骤101获取待分类文本可以是由文本分类装置来实现的;文本分类装置可以是能够实现对文本信息进行分类的设备,例如可以是能够对文本信息进行分类的移动终端。待分类文本可以是预先已经存储在移动终端中的一些需要对其进行分类处理的文本信息,获取待分类文本的一种可行的实现方案是可以是用户需要对某些文本信息进行分类时可以给移动终端发送文本信息获取指令,该获取指令中具有标识信息,移动终端接收到用户发送的获取指令后,可以从自身存储的文本信息中获取该标识信息对应的文本信息得到待分类文本信息;或者,另一种可行的实现方案是,用户需要对某些文本信息进行分类时可以给移动终端发送文本信息获取指令,该获取指令中具有标识信息,移动终端接收到用户发送的获取指令后,可以转发该获取指令给服务器,并从服务器处获取该标识信息对应的文本信息,最终得到待分类文本信息。
这里,所述文本可以为新闻、帖子、文章、产品说明(例如应用程序的简介)等,在实现的过程中只要需要进行分类的都可以作为本实施例中的文本。
步骤102、采用第一分类器对待分类文本进行分类,得到第一分类结果。
具体的,步骤102采用第一分类器对待分类文本进行分类,得到第一分类结果可以是由分类装置来实现的。第一分类结果可以是对待分类文本进行分类后得到的分类结果的信息,第一分类结果中可以包括至少两种分类信息。
以对文章R进行分类,且文章R中包括两个类别(A类别和B类别)为例进行说明,获取到文章R后,采用第一分类器对文章R进行分类后可以得到两组分类,第一组分类的文本的类别A,第二组分类的文本的类别中包括类别A和类别B;其中,第二组分类中的类别为A的文本为Ab,说明此次分类中将本应该划分到A类别中的文本Ab错误的划分到了类别为B的文本中,出现了分类不正确的问题。
步骤103、采用第二分类器对第一分类结果中分类不正确的文本进行分类,得到第二分类结果。
其中,第二分类器的分类参数与第一分类器的分类参数具有关联关系。
具体的,步骤103采用第二分类器对第一分类结果中分类不正确的文本进行分类,得到第二分类结果可以是由文本分类装置来实现的;第一分类器的分类参数与第二分类器的分类参数在设置的时候,第一分类器的分类参数的设置原则和第二分类器的分类参数的设置原则之间具有一定的关联关系。
第二分类结果中可以包括至少两种分类信息,这至少两种分类信息中的一种类别与第一分类结果中的一种类别相同。例如,第二分类结果可以是对文章R进行分类后得到的类别包括类别A和类别B的第二组分类的文本进行再分类后得到的。采用第二分类器对第二组分类中的文本进行分类,分类后可以得到两组分类,第三组分类中的文本的类别是A,第四组分类中的文本的类别为B;第三组分类中的文本的类别与第一组分类中的文本的类别相同,均为A类别;而且,剩下的一组分类中的文本的类别均为B,不存在一组分类中包括有多个类别的文本的情况。而且,此次分类后的第二分类结果可以将第一分类结果中的错误分类的文本再分出来,最终形成的文本的分类信息均是正确的。
步骤104、基于第一分类结果和第二分类结果,对第一分类结果对应的文本和第二分类结果对应的文本进行处理得到目标文本。
具体的,步骤104基于第一分类结果和第二分类结果,对第一分类结果对应的文本和第二分类结果对应的文本进行处理得到目标文本可以是由文本分类装置来实现的。得到第一分类结果和第二分类结果后,可以查找第一分类结果和第二分类结果中共有的类别,然后将共有类别的文本合并为一个文本,最终得到目标文本。其中,目标文本中的每一个目标文本都属于同一类别。
本发明的实施例所提供的文本分类方法,获取待分类文本,采用第一分类器对待分类文本进行分类,得到第一分类结果,采用第二分类器对第一分类结果中分类不正确的文本进行分类,得到第二分类结果,第二分类器的分类参数与第一分类器的分类参数具有关联关系,基于第一分类结果和第二分类结果,对第一分类结果对应的文本和第二分类结果对应的文本进行处理得到目标文本;这样,在对待分类文本进行分类之后,可以对分类之后存在错误分类的文本继续进行分类,经过对存在错误分类的文本的再次分类之后得到的文本的分类都是正确的,从而解决了现有的文本分类方案中存在分类错误的问题,提高了文本分类的准确率,增强了可维护性和扩展性。
基于前述实施例,本发明的实施例提供一种文本分类方法,该方法包括以下步骤:
步骤201、文本分类装置获取待分类文本。
步骤202、文本分类装置采用第一分类器对待分类文本进行分类,得到第一分类结果。
具体的,采用第一分类器对待分类文本进行分类可以是基于预先设置的分类参数,并采用第一分类器对待分类文本进行分类。预先设置的分类参数可以是根据待分类文本的特征信息生成的,待分类文本的特征信息可以是能够表征待分类文本的属性信息的参数,例如可以包括工具、乐器等。
第一分类器可以是基于先验规则的文本分类器,其分类规则需要靠人工挖掘或先验知识的积累来得到;也可以是基于模型的文本分类器,具体包括利用数据挖掘和机器学习的各种算法模型,例如最近邻分类器、逻辑回归分类器、决策树分类器、朴素贝叶斯分类器、支持向量机分类器、人工神经网络分类器等。
步骤203、文本分类装置判断第一分类结果中是否存在分类不正确的文本。
具体的,判断第一分类结果中是否存在分类不正确的文本可以是通过比较归为一个类别中的所有文本的类别是否相同来实现的;如果归为一个类别的文本中存在至少两个类别,说明这个类别中存在分类不争取的文本。
步骤204、若第一分类结果中存在分类不正确的文本,文本分类装置获取第一分类结果中分类不正确的文本。
具体的,若待分类的文本为文章R,采用第一分类器对文章R进行分类后可以得到两组分类,第一组分类的文本的类别A,第二组分类的文本的类别中包括类别A和类别B;因为第二组分类中存在分类不正确的文本,因此需要获取第一分类结果中的第二组分类对应的文本,即获取类别中包括类别A和类别B的分组对应的文本。
步骤205、文本分类装置获取第一分类结果中分类不正确的文本的特征信息。
具体的,在获取到第一分类结果中分类不正确的文本后,可以获取对应的文本的特征信息。此处的特征信息的定义与步骤202中关于特征信息的定义是相同的,只不过此处的特征信息是第一分类结果中分类不正确的文本的属性信息的参数。例如,可以是第二组分类对应的文本的属性信息的参数。
步骤206、文本分类装置基于第一分类结果中分类不正确的文本的特征信息,设置分类参数。
具体的,可以根据已经获取到的第一分类结果中分类不正确的文本的特征信息来设置第一分类器中的分类参数,最终实现对第一分类结果中分类不正确的文本的分类。
步骤207、文本分类装置基于分类参数并采用第二分类器,对第一分类结果中分类不正确的文本进行分类得到第二分类结果。
其中,第一分类器的分类参数是根据待分类文本中的文本的特征信息生成的。
具体的,第一分类器的分类参数与第二分类器的分类参数不同。第一分类器所采用的分类算法与第二分类器所采用的分类算法相同。
或者,第一分类器所采用的分类算法与第二分类器所采用的分类算法不同。
其中,第二分类器可以是基于先验规则的文本分类器,其分类规则需要靠人工挖掘或先验知识的积累来得到;也可以是基于模型的文本分类器,具体包括利用数据挖掘和机器学习的各种算法模型,例如最近邻分类器、逻辑回归分类器、决策树分类器、朴素贝叶斯分类器、支持向量机分类器、人工神经网络分类器等。
例如第一分类器和第二分类器采用的分类算法都是逻辑回归分类器,在如图3中所示在对待分类文章R(快报文章)进行分类时可以先采用逻辑回归分类器并基于设置的第一分类参数(原分类模型)对文章R进行分类,得到两组分类结果,第一组分类中的文本的类别都是A(分类正确),第二组分类中文本的类别包括A和B(分类错误),将本应该分到第一组中的文本错误到分到了第二组中,并将其类别归类为B;明显分类结果中存在错误分类的是第二组分类;之后,继续获取第二组分类对应的文本,采用逻辑回归分类器并基于设置的第二分类参数(新增分类模型)对包括有类别A和类别B的文本进行分类,得到两组分类结果,第三组分类中的文本的类别为A(分类正确),第四组分类中文本的类别为B(分类正确)。此时,分类结果中的文本的类别均是正确的。其中第一分类参数是根据文章R的特征信息设置的,第二分类参数是根据第二组分类对应的文本的特征信息设置的。因为,第一次采用逻辑回归分类器进行分类时,第一分类参数是根据所有文本即文章R的特征信息设置的,因此第一分类结果中存在文本错误分类的问题;第二次采用逻辑回归分类器进行分类时,第二分类参数是根据进行第一次分类后存在错误的文本(即包括有类别A和类别B的文本)设置的。因为,第二分类参数的设置更精准,所以经过第二次分类后得到的文本的分类结果都是正确的。
步骤208、文本分类装置基于第一分类结果和第二分类结果,对第一分类结果对应的文本和第二分类结果对应的文本进行处理得到目标文本。
具体的,在得到第一分类结果和的分类结果后,可以比较第一分类结果和第二分类结果,并基于比较结果对第一分类结果对应的文本和第二分类结果对应的文本进行筛选和组成,最终得到目标文本。
需要说明的是,本实施例中与其它实施例中相同步骤或者概念的解释,可以参照其它实施例中的描述。
本发明的实施例所提供的文本分类方法,获取待分类文本,采用第一分类器对待分类文本进行分类,得到第一分类结果,采用第二分类器对第一分类结果中分类不正确的文本进行分类,得到第二分类结果,第二分类器的分类参数与第一分类器的分类参数具有关联关系,基于第一分类结果和第二分类结果,对第一分类结果对应的文本和第二分类结果对应的文本进行处理得到目标文本;这样,在对待分类文本进行分类之后,可以对分类之后存在错误分类的文本继续进行分类,经过对存在错误分类的文本的再次分类之后得到的文本的分类都是正确的,从而解决了现有的文本分类方案中存在分类错误的问题,提高了文本分类的准确率,增强了可维护性和扩展性。
基于前述实施例,本发明的实施例提供一种文本分类方法,参照图4所示,该方法包括以下步骤:
步骤301、文本分类装置获取待分类文本。
步骤302、文本分类装置采用第一分类器对待分类文本进行分类,得到第一分类结果。
步骤303、文本分类装置判断第一分类结果中是否存在分类不正确的文本。
步骤304、若第一分类结果中存在分类不正确的文本,文本分类装置获取第一分类结果中分类不正确的文本。
步骤305、文本分类装置获取第一分类结果中分类不正确的文本的特征信息。
步骤306、文本分类装置基于第一分类结果中分类不正确的文本的特征信息,设置分类参数。
步骤307、文本分类装置基于分类参数并采用第二分类器,对第一分类结果中分类不正确的文本进行分类得到第二分类结果。
其中,第一分类器的分类参数是根据待分类文本中的文本的特征信息生成的。
需要说明的是,第一分类器的分类参数与第二分类器的分类参数不同。第一分类器所采用的分类算法与第二分类器所采用的分类算法相同。
或者,第一分类器所采用的分类算法与第二分类器所采用的分类算法不同。
例如第一分类器采用的分类算法是逻辑回归分类器,第二分类器采用的分类算法是决策树分类器,在对待分类文章R进行分类时可以先采用逻辑回归分类器并基于设置的第一分类参数对文章R进行分类,得到三组分类结果,第一组分类中的文本的类别都是A,第二组分类中文本的类别包括A、B和C,第三组分类中的文本的类别都是C;明显分类结果中存在错误分类的是第二组分类;之后,继续获取第二组分类对应的文本,采用决策树分类器并基于设置的第二分类参数对包括有类别A、类别B和类别C的文本进行分类,得到三组分类结果,第三组分类中的文本的类别为A,第四组分类中文本的类别为B,第五组分类中文本的类别为C。此时,分类结果中的文本的类别均是正确的。其中第一分类参数是根据文章R的特征信息设置的,第二分类参数是根据第二组分类(即包括有类别A、类别B和类别C的分类)对应的文本的特征信息设置的。因为,第一次采用逻辑回归分类器进行分类时第一分类参数是根据所有文本即文章R的特征信息设置的,因此第一分类结果中存在文本错误分类的问题;第二次采用决策树分类器进行分类时第二分类参数是根据进行第一次分类后存在错误的文本(即包括有类别A、类别B和类别C的文本)设置的。因为,第二分类参数的设置更精准,所以经过第二次分类后得到的文本的分类结果都是正确的。
步骤308、文本分类装置获取第一分类结果中分类正确的文本的类别,得到第一类别。
其中,第一类别中包括至少一种类别。
具体的,可以获取第一分类结果中分类正确的文本的类别为类别A和类别C,即第一类别可以是类别A和类别C。
步骤309、文本分类装置基于第一类别和第二分类结果,对第一分类结果对应的文本和第二分类结果对应的文本进行处理得到目标文本。
具体的,步骤309基于第一类别和第二分类结果,对第一分类结果对应的文本和第二分类结果对应的文本进行处理得到目标文本可以通过以下方式来实现:
步骤309a、文本分类装置基于第二分类结果,获取第二分类结果对应的文本中类别为第一类别的文本,得到第一文本集合。
具体的,分析第二分类结果从第二分类结果对应的文本中获取文本的类别为第一类别的文本,即可以是从第三组分类、第四组分类和第五组分类对应的文本中获取类别为A和C的文本,最终获取到的是第三组分类和第五组分类对应的文本得到第一文本集合。其中,第一文本集合中至少包括两个文本。在本实施例中第一文本集合中包括两种类别的文本。
步骤309b、文本分类装置将第一文本集合和一分类结果中分类正确的文本中属于同一类别的文本结合,得到第一目标文本。
具体的,将得到第一文本集合中的类别为A的文本与第一组分类对应的文本结合,同时将第一文本集合中的类别为C的文本与第三组分类对应的文本结合,最终得到第一目标文本。需要说明的是,第一目标文本中包括至少一种类别的文本。
其中,目标文本包括第一目标文本和第二目标文本。
步骤309c、文本分类装置获取第二分类结果对应的文本中类别为除第一类别集合之外的文本,得到第二目标文本。
具体的,第二分类结果对应的文本中类别为除第一类别集合之外的文本为第四组分类(即第二分类结果中类别为B的分类)对应的文本,此时该文本即为第二目标文本。
本发明中的文本分类方法最终得到的文本的分类信息都是正确的,即使需要分类的文本包括有多层次的分类,因为已经可以保证第一层次分类后的分类信息是准确的,即使后面还有更多层次的分类,只要是按照本发明中的文本分类方法进行分类的都可以保证最终分类结果的准确性。
需要说明的是,本实施例中与其它实施例中相同步骤或者概念的解释,可以参照其它实施例中的描述。
本发明的实施例所提供的文本分类方法,获取待分类文本,采用第一分类器对待分类文本进行分类,得到第一分类结果,采用第二分类器对第一分类结果中分类不正确的文本进行分类,得到第二分类结果,第二分类器的分类参数与第一分类器的分类参数具有关联关系,基于第一分类结果和第二分类结果,对第一分类结果对应的文本和第二分类结果对应的文本进行处理得到目标文本;这样,在对待分类文本进行分类之后,可以对分类之后存在错误分类的文本继续进行分类,经过对存在错误分类的文本的再次分类之后得到的文本的分类都是正确的,从而解决了现有的文本分类方案中存在分类错误的问题,提高了文本分类的准确率,增强了可维护性和扩展性。
本发明的实施例提供一种文本分类装置4,所述装置应用于图1~2、4对应的实施例提供的一种文本分类方法中,参照图5所示,该装置包括:第一获取单元41、第一分类单元42、第二分类单元43和处理单元44,其中:
第一获取单元41,用于获取待分类文本。
第一分类单元42,用于采用第一分类器对待分类文本进行分类,得到第一分类结果。
第二分类单元43,用于采用第二分类器对第一分类结果中分类不正确的文本进行分类,得到第二分类结果。
其中,第二分类器的分类参数与第一分类器的分类参数具有关联关系。
处理单元44,用于基于第一分类结果和第二分类结果,对第一分类结果对应的文本和第二分类结果对应的文本进行处理得到目标文本。
本发明的实施例所提供的文本分类装置,获取待分类文本,采用第一分类器对待分类文本进行分类,得到第一分类结果,采用第二分类器对第一分类结果中分类不正确的文本进行分类,得到第二分类结果,第二分类器的分类参数与第一分类器的分类参数具有关联关系,基于第一分类结果和第二分类结果,对第一分类结果对应的文本和第二分类结果对应的文本进行处理得到目标文本;这样,在对待分类文本进行分类之后,可以对分类之后存在错误分类的文本继续进行分类,经过对存在错误分类的文本的再次分类之后得到的文本的分类都是正确的,从而解决了现有的文本分类方案中存在分类错误的问题,提高了文本分类的准确率,增强了可维护性和扩展性。
进一步,参照图6所示,该装置还包括:判断单元45和第二获取单元46,其中:
判断单元45,用于判断第一分类结果中是否存在分类不正确的文本。
第二获取单元46,用于若第一分类结果中存在分类不正确的文本,获取第一分类结果中分类不正确的文本。
具体的,参照图6所示,第二分类单元43包括:第一获取模块431、设置模块432和分类模块433,其中:
第一获取模块431,用于获取第一分类结果中分类不正确的文本的特征信息。
设置模块432,用于基于第一分类结果中分类不正确的文本的特征信息,设置分类参数。
分类模块433,用于基于分类参数并采用第二分类器,对第一分类结果中分类不正确的文本进行分类得到第二分类结果。
其中,第一分类器的分类参数是根据待分类文本中的文本的特征信息生成的。
具体的,参照图6所示,处理单元44包括:第二获取模块441和处理模块442,其中:
第二获取模块441,用于获取第一分类结果中分类正确的文本的类别,得到第一类别。
其中,第一类别中包括至少一种类别。
处理模块442,用于基于第一类别和第二分类结果,对第一分类结果对应的文本和第二分类结果对应的文本进行处理得到目标文本。
进一步,处理模块442具体用于执行以下步骤:
基于第二分类结果,获取第二分类结果对应的文本中类别为第一类别的文本,得到第一文本集合。
将第一文本集合和第一分类结果中分类正确的文本中属于同一类别的文本结合,得到第一目标文本。
获取第二分类结果对应的文本中类别为除第一类别集合之外的文本,得到第二目标文本。
其中,目标文本包括第一目标文本和第二目标文本。
具体的,第一分类器的分类参数与第二分类器的分类参数不同。
第一分类器所采用的分类算法与第二分类器所采用的分类算法相同。
或者,第一分类器所采用的分类算法与第二分类器所采用的分类算法不同。
需要说明的是,本实施例中各个单元和模块之间的交互过程,可以参照图1~2、4对应的实施例提供的一种文本分类方法中的交互过程,此处不再赘述。
本发明的实施例所提供的文本分类装置,获取待分类文本,采用第一分类器对待分类文本进行分类,得到第一分类结果,采用第二分类器对第一分类结果中分类不正确的文本进行分类,得到第二分类结果,第二分类器的分类参数与第一分类器的分类参数具有关联关系,基于第一分类结果和第二分类结果,对第一分类结果对应的文本和第二分类结果对应的文本进行处理得到目标文本;这样,在对待分类文本进行分类之后,可以对分类之后存在错误分类的文本继续进行分类,经过对存在错误分类的文本的再次分类之后得到的文本的分类都是正确的,从而解决了现有的文本分类方案中存在分类错误的问题,提高了文本分类的准确率,增强了可维护性和扩展性。
基于前述实施例,本发明的实施例提供一种文本分类设备5,可以应用于图1~2、4对应的实施例提供的一种文本分类方法中,参照图7所示,该设备包括:存储器51和处理器52,其中:
存储器51,用于存储待分类文本。
处理器52,用于从存储器51中获取待分类文本,采用第一分类器对待分类文本进行分类,得到第一分类结果;采用第二分类器对第一分类结果中分类不正确的文本进行分类,得到第二分类结果;其中,第二分类器的分类参数与第一分类器的分类参数具有关联关系;基于第一分类结果和第二分类结果,对第一分类结果对应的文本和第二分类结果对应的文本进行处理得到目标文本。
需要说明的是,本实施例中存储器与处理器之间的交互过程,可以参照图1~2、3对应的实施例提供的一种文本分类方法中的交互过程,此处不再赘述。
本发明的实施例所提供的文本分类设备,获取待分类文本,采用第一分类器对待分类文本进行分类,得到第一分类结果,采用第二分类器对第一分类结果中分类不正确的文本进行分类,得到第二分类结果,第二分类器的分类参数与第一分类器的分类参数具有关联关系,基于第一分类结果和第二分类结果,对第一分类结果对应的文本和第二分类结果对应的文本进行处理得到目标文本;这样,在对待分类文本进行分类之后,可以对分类之后存在错误分类的文本继续进行分类,经过对存在错误分类的文本的再次分类之后得到的文本的分类都是正确的,从而解决了现有的文本分类方案中存在分类错误的问题,提高了文本分类的准确率,增强了可维护性和扩展性。
在实际应用中,所述第一获取单元41、第一分类单元42、第二分类单元43、处理单元44、判断单元45、第二获取单元46、第一获取模块431、设置模块432、分类模块433、第二获取模块441和处理模块442均可由位于无线数据发送设备中的中央处理器(CentralProcessing Unit,CPU)、微处理器(Micro Processor Unit,MPU)、数字信号处理器(Digital Signal Processor,DSP)或现场可编程门阵列(Field Programmable GateArray,FPGA)等实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (15)

1.一种文本分类方法,其特征在于,所述方法包括:
获取待分类文本;
采用第一分类器对所述待分类文本进行分类,得到第一分类结果;
采用第二分类器对所述第一分类结果中分类不正确的文本进行分类,得到第二分类结果;其中,所述第二分类器的分类参数与所述第一分类器的分类参数具有关联关系;
基于所述第一分类结果和所述第二分类结果,对所述第一分类结果对应的文本和所述第二分类结果对应的文本进行处理得到目标文本。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
判断所述第一分类结果中是否存在分类不正确的文本;
若所述第一分类结果中存在分类不正确的文本,获取所述第一分类结果中分类不正确的文本。
3.根据权利要求1所述的方法,其特征在于,所述按照第二分类标准对所述第一分类结果中分类不正确的文本进行分类,得到第二分类结果,包括:
获取所述第一分类结果中分类不正确的文本的特征信息;
基于所述第一分类结果中分类不正确的文本的特征信息,设置分类参数;
基于所述分类参数并采用所述第二分类器,对所述第一分类结果中分类不正确的文本进行分类得到所述第二分类结果;其中,所述第一分类器的分类参数是根据所述待分类文本中的文本的特征信息生成的。
4.根据权利要求1所述的方法,其特征在于,所述基于所述第一分类结果和所述第二分类结果,对所述第一分类结果对应的文本和所述第二分类结果对应的文本进行处理得到目标文本,包括:
获取所述第一分类结果中分类正确的文本的类别,得到第一类别;其中,所述第一类别中包括至少一种类别;
基于所述第一类别和所述第二分类结果,对所述第一分类结果对应的文本和所述第二分类结果对应的文本进行处理得到所述目标文本。
5.根据权利要求4所述的方法,其特征在于,所述基于所述第一类别和所述第二分类结果,对所述第一分类结果对应的文本和所述第二分类结果对应的文本进行处理,得到所述目标文本,包括:
基于所述第二分类结果,获取所述第二分类结果对应的文本中类别为所述第一类别的文本,得到第一文本集合;
将所述第一文本集合和所述第一分类结果中分类正确的文本中属于同一类别的文本结合,得到第一目标文本;
获取所述第二分类结果对应的文本中类别为除所述第一类别集合之外的文本,得到第二目标文本;其中,所述目标文本包括第一目标文本和第二目标文本。
6.根据权利要求1所述的方法,其特征在于,
所述第一分类器的分类参数与所述第二分类器的分类参数不同。
7.根据权利要求1所述的方法,其特征在于,所述第一分类器所采用的分类算法与所述第二分类器所采用的分类算法相同;
或者,所述第一分类器所采用的分类算法与所述第二分类器所采用的分类算法不同。
8.一种文本分类装置,其特征在于,所述装置包括:第一获取单元、第一分类单元、第二分类单元和处理单元,其中:
所述第一获取单元,用于获取待分类文本;
所述第一分类单元,用于采用第一分类器对所述待分类文本进行分类,得到第一分类结果;
所述第二分类单元,用于采用第二分类器对所述第一分类结果中分类不正确的文本进行分类,得到第二分类结果;其中,所述第二分类器的分类参数与所述第一分类器的分类参数具有关联关系;
所述处理单元,用于基于所述第一分类结果和所述第二分类结果,对所述第一分类结果对应的文本和所述第二分类结果对应的文本进行处理得到目标文本。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:判断单元和第二获取单元,其中:
所述判断单元,用于判断所述第一分类结果中是否存在分类不正确的文本;
所述第二获取单元,用于若所述第一分类结果中存在分类不正确的文本,获取所述第一分类结果中分类不正确的文本。
10.根据权利要求9所述的装置,其特征在于,所述第二分类单元包括:第一获取模块、设置模块和分类模块,其中:
所述第一获取模块,用于获取所述第一分类结果中分类不正确的文本的特征信息;
所述设置模块,用于基于所述第一分类结果中分类不正确的文本的特征信息,设置分类参数;
所述分类模块,用于基于所述分类参数并采用所述第二分类器,对所述第一分类结果中分类不正确的文本进行分类得到所述第二分类结果;其中,所述第一分类器的分类参数是根据所述待分类文本中的文本的特征信息生成的。
11.根据权利要求8所述的装置,其特征在于,所述处理单元包括:第二获取模块和处理模块,其中:
所述第二获取模块,用于获取所述第一分类结果中分类正确的文本的类别,得到第一类别;其中,所述第一类别中包括至少一种类别;
所述处理模块,用于基于所述第一类别和所述第二分类结果,对所述第一分类结果对应的文本和所述第二分类结果对应的文本进行处理得到所述目标文本。
12.根据权利要求11所述的装置,其特征在于,所述处理模块具体用于:
基于所述第二分类结果,获取所述第二分类结果对应的文本中类别为所述第一类别的文本,得到第一文本集合;
将所述第一文本集合和所述第一分类结果中分类正确的文本中属于同一类别的文本结合,得到第一目标文本;
获取所述第二分类结果对应的文本中类别为除所述第一类别集合之外的文本,得到第二目标文本;其中,所述目标文本包括第一目标文本和第二目标文本。
13.根据权利要求8所述的装置,其特征在于,所述第一分类器的分类参数与所述第二分类器的分类参数不同。
14.根据权利要求9所述的装置,其特征在于,所述第一分类器所采用的分类算法与所述第二分类器所采用的分类算法相同;
或者,所述第一分类器所采用的分类算法与所述第二分类器所采用的分类算法不同。
15.一种文本分类设备,其特征在于,所述设备包括:存储器和处理器,其中:
所述存储器,用于存储待分类文本;
所述处理器,用于从所述存储器中获取所述待分类文本,采用第一分类器对所述待分类文本进行分类,得到第一分类结果;采用第二分类器对所述第一分类结果中分类不正确的文本进行分类,得到第二分类结果;其中,所述第二分类器的分类参数与所述第一分类器的分类参数具有关联关系;基于所述第一分类结果和所述第二分类结果,对所述第一分类结果对应的文本和所述第二分类结果对应的文本进行处理得到目标文本。
CN201710159632.6A 2017-03-17 2017-03-17 一种文本分类方法、装置和设备 Active CN108628873B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710159632.6A CN108628873B (zh) 2017-03-17 2017-03-17 一种文本分类方法、装置和设备
PCT/CN2018/079136 WO2018166499A1 (zh) 2017-03-17 2018-03-15 文本分类方法、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710159632.6A CN108628873B (zh) 2017-03-17 2017-03-17 一种文本分类方法、装置和设备

Publications (2)

Publication Number Publication Date
CN108628873A true CN108628873A (zh) 2018-10-09
CN108628873B CN108628873B (zh) 2022-09-27

Family

ID=63522764

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710159632.6A Active CN108628873B (zh) 2017-03-17 2017-03-17 一种文本分类方法、装置和设备

Country Status (2)

Country Link
CN (1) CN108628873B (zh)
WO (1) WO2018166499A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110990561A (zh) * 2019-10-14 2020-04-10 浙江华云信息科技有限公司 电力设备缺陷文本自动分类实现方法
WO2020215563A1 (zh) * 2019-04-24 2020-10-29 平安科技(深圳)有限公司 用于文本分类的训练样本生成方法、装置和计算机设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111813932B (zh) * 2020-06-17 2023-11-14 北京小米松果电子有限公司 文本数据的处理方法、分类方法、装置及可读存储介质

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050234955A1 (en) * 2004-04-15 2005-10-20 Microsoft Corporation Clustering based text classification
CN101059796A (zh) * 2006-04-19 2007-10-24 中国科学院自动化研究所 基于概率主题词的两级组合文本分类方法
CN101876987A (zh) * 2009-12-04 2010-11-03 中国人民解放军信息工程大学 一种面向类间交叠的两类文本分类方法
US20110098999A1 (en) * 2009-10-22 2011-04-28 National Research Council Of Canada Text categorization based on co-classification learning from multilingual corpora
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统
EP2369505A1 (en) * 2010-03-26 2011-09-28 British Telecommunications public limited company Text classifier system
US20130138641A1 (en) * 2009-12-30 2013-05-30 Google Inc. Construction of text classifiers
CN103246655A (zh) * 2012-02-03 2013-08-14 腾讯科技(深圳)有限公司 一种文本分类方法、装置及系统
US20130297626A1 (en) * 2012-03-23 2013-11-07 AVG Technologies CZ,s.r.o Systems and methods for extraction of policy information
US20130317804A1 (en) * 2012-05-24 2013-11-28 John R. Hershey Method of Text Classification Using Discriminative Topic Transformation
CN103678271A (zh) * 2012-09-10 2014-03-26 华为技术有限公司 一种文本校正方法及用户设备
CN104704556A (zh) * 2012-10-04 2015-06-10 谷歌公司 使用分类器将音频话语映射至动作
CN105138913A (zh) * 2015-07-24 2015-12-09 四川大学 一种基于多视集成学习的恶意软件检测方法
CN105912625A (zh) * 2016-04-07 2016-08-31 北京大学 一种面向链接数据的实体分类方法和系统
CN105930411A (zh) * 2016-04-18 2016-09-07 苏州大学 一种分类器训练方法、分类器和情感分类系统
CN106126751A (zh) * 2016-08-18 2016-11-16 苏州大学 一种具有时间适应性的分类方法及装置
CN106202372A (zh) * 2016-07-08 2016-12-07 中国电子科技网络信息安全有限公司 一种网络文本信息情感分类的方法
CN106339418A (zh) * 2016-08-15 2017-01-18 乐视控股(北京)有限公司 一种分类纠错方法及装置
CN106503153A (zh) * 2016-10-21 2017-03-15 江苏理工学院 一种计算机文本分类体系、系统及其文本分类方法

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050234955A1 (en) * 2004-04-15 2005-10-20 Microsoft Corporation Clustering based text classification
CN101059796A (zh) * 2006-04-19 2007-10-24 中国科学院自动化研究所 基于概率主题词的两级组合文本分类方法
US20110098999A1 (en) * 2009-10-22 2011-04-28 National Research Council Of Canada Text categorization based on co-classification learning from multilingual corpora
CN101876987A (zh) * 2009-12-04 2010-11-03 中国人民解放军信息工程大学 一种面向类间交叠的两类文本分类方法
US20130138641A1 (en) * 2009-12-30 2013-05-30 Google Inc. Construction of text classifiers
EP2369505A1 (en) * 2010-03-26 2011-09-28 British Telecommunications public limited company Text classifier system
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统
CN103246655A (zh) * 2012-02-03 2013-08-14 腾讯科技(深圳)有限公司 一种文本分类方法、装置及系统
US20130297626A1 (en) * 2012-03-23 2013-11-07 AVG Technologies CZ,s.r.o Systems and methods for extraction of policy information
US20130317804A1 (en) * 2012-05-24 2013-11-28 John R. Hershey Method of Text Classification Using Discriminative Topic Transformation
CN103678271A (zh) * 2012-09-10 2014-03-26 华为技术有限公司 一种文本校正方法及用户设备
CN104704556A (zh) * 2012-10-04 2015-06-10 谷歌公司 使用分类器将音频话语映射至动作
CN105138913A (zh) * 2015-07-24 2015-12-09 四川大学 一种基于多视集成学习的恶意软件检测方法
CN105912625A (zh) * 2016-04-07 2016-08-31 北京大学 一种面向链接数据的实体分类方法和系统
CN105930411A (zh) * 2016-04-18 2016-09-07 苏州大学 一种分类器训练方法、分类器和情感分类系统
CN106202372A (zh) * 2016-07-08 2016-12-07 中国电子科技网络信息安全有限公司 一种网络文本信息情感分类的方法
CN106339418A (zh) * 2016-08-15 2017-01-18 乐视控股(北京)有限公司 一种分类纠错方法及装置
CN106126751A (zh) * 2016-08-18 2016-11-16 苏州大学 一种具有时间适应性的分类方法及装置
CN106503153A (zh) * 2016-10-21 2017-03-15 江苏理工学院 一种计算机文本分类体系、系统及其文本分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
宋胜利等: "多层文本分类性能评价方法", 《系统工程与电子技术》 *
李敏等: "基于结果修剪法解决文本分类中属性重叠问题", 《扬州大学学报(自然科学版)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020215563A1 (zh) * 2019-04-24 2020-10-29 平安科技(深圳)有限公司 用于文本分类的训练样本生成方法、装置和计算机设备
CN110990561A (zh) * 2019-10-14 2020-04-10 浙江华云信息科技有限公司 电力设备缺陷文本自动分类实现方法
CN110990561B (zh) * 2019-10-14 2023-08-29 浙江华云信息科技有限公司 电力设备缺陷文本自动分类实现方法

Also Published As

Publication number Publication date
CN108628873B (zh) 2022-09-27
WO2018166499A1 (zh) 2018-09-20

Similar Documents

Publication Publication Date Title
CN109582793A (zh) 模型训练方法、客服系统及数据标注系统、可读存储介质
CN103782309B (zh) 用于机器学习分类器的自动数据清除
Chu et al. A genetic algorithm for the generalised assignment problem
CN106951925A (zh) 数据处理方法、装置、服务器及系统
CN108038052A (zh) 自动化测试管理方法、装置、终端设备及存储介质
CN108628873A (zh) 一种文本分类方法、装置和设备
CN106445908A (zh) 文本识别方法和装置
CN106202380A (zh) 一种分类语料库的构建方法、系统及具有该系统的服务器
CN110288007A (zh) 数据标注的方法、装置及电子设备
CN103389995B (zh) 一种垃圾内容识别方法及装置
CN105868269A (zh) 基于区域卷积神经网络的精确图像检索方法
CN104615730A (zh) 一种多标签分类方法及装置
CN109948160A (zh) 短文本分类方法及装置
CN110009005A (zh) 一种基于特征强相关的网络流量分类方法
CN110083452A (zh) 一种资源管理方法、系统及电子设备和存储介质
CN108346098A (zh) 一种风控规则挖掘的方法及装置
CN108241662A (zh) 数据标注的优化方法及装置
CN110647461A (zh) 多信息融合的回归测试用例排序方法及系统
Grobler et al. Multi-method algorithms: Investigating the entity-to-algorithm allocation problem
CN110728119B (zh) 一种海报生成方法及装置
CN104850540A (zh) 进行语句识别的方法及装置
CN104461861B (zh) 基于efsm模型的路径测试数据生成方法
Ghomeshi et al. RED-GENE: An evolutionary game theoretic approach to adaptive data stream classification
CN109063732B (zh) 基于特征交互和多任务学习的图像排序方法及系统
CN108711074B (zh) 业务分类方法、装置、服务器及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant