CN110245235A - 一种基于协同训练的文本分类辅助标注方法 - Google Patents

一种基于协同训练的文本分类辅助标注方法 Download PDF

Info

Publication number
CN110245235A
CN110245235A CN201910551458.9A CN201910551458A CN110245235A CN 110245235 A CN110245235 A CN 110245235A CN 201910551458 A CN201910551458 A CN 201910551458A CN 110245235 A CN110245235 A CN 110245235A
Authority
CN
China
Prior art keywords
classifier
data
data set
classification
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910551458.9A
Other languages
English (en)
Other versions
CN110245235B (zh
Inventor
张丰琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Tanyu Technology Co ltd
Original Assignee
Hangzhou Weier Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Weier Network Technology Co Ltd filed Critical Hangzhou Weier Network Technology Co Ltd
Priority to CN201910551458.9A priority Critical patent/CN110245235B/zh
Publication of CN110245235A publication Critical patent/CN110245235A/zh
Application granted granted Critical
Publication of CN110245235B publication Critical patent/CN110245235B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本发明公开了一种基于协同训练的文本分类辅助标注方法,涉及文本分类技术领域,包括以下步骤:对样本数据进行标注;构建数据集;训练两个分类器;分类并记录分类结果;提取分类器的正确特征和错误特征;样本优化;替换数据集重新训练直至准确度达到置信度阈值;同时使用两个分类器进行分类,分类结果相同的情况下输出结果。本发明能够将大部分简单数据自动完成高质量的标注,这大大地提高了标注的准确率和效率。

Description

一种基于协同训练的文本分类辅助标注方法
技术领域
本发明涉及文本分类技术领域,尤其涉及一种基于协同训练的文本分类辅助标注方法。
背景技术
近年来,随着大数据时代的到来,机器学习和人工智能的迅猛发展,从业人员对于数据的需求也越来越迫切,标注人员的有限工作量已经越来越无法满足人们对海量数据的需求,并且人工标注带来很多缺点,人工标注时间成本和经济成本较高,而且人工标注难免会出现不可避免的错误,这使得标注的语料质量不高。
人工智能尤其是自然语言处理以及图像处理,所面临的一个棘手的现状是:监督学习方法需要获得大量的标注语料,想要获得这些语料,那么需要投入大量的人力和物力。研究表明,获取未标注语料的时间几乎是获取标注语料时间的十分之一,因此对于大量的未标注语料是非常容易获得的,目前数据及标注方法包括手工标注、机器学习标注以及众包标注。
传统的手工标注方法顾名思义,需要专业人员来指定专门的标注规则,标注的语料质量高,但是需要付出高额的时间代价和金钱代价。、
机器学习标注方法,譬如逻辑回归、支持向量机以及朴素贝叶斯等有监督的机器学习方法,可以实现语料的快速标注,但是这些模型的训练依赖于高质量的数据标注,并且在处理多分类的语料时,表现得并不出色。
众包标注是以众包理论为基础,针对各项任务指定专门的标注系统和标注任务,之后对样本进行随机抽样,然后交给专门的人员进行标注,然而这对于与专业人员的要求比较高,依赖性比较大,需要大量的数据复核工作。
在自然语言处理中的文本分类领域中,经常会遇到文本多分类的问题,多的可能有上百个label,这就对于标注的数量要求非常大,而普通的标注人员他们更擅长的是进行语料的二分类,对于他们而言,如果一次性地标注数量众多个label,这是非常困难且低效的。因此,如何高效低成本地将未标注语料标注成高质量的数据成为了迫在眉睫的任务。
发明内容
本发明的目的在于提供一种基于协同训练的文本分类辅助标注方法,能够将大部分简单数据自动完成高质量的标注,这大大地提高了标注的准确率和效率。
为实现上述目的,本发明提供如下技术方案:
一种基于协同训练的文本分类辅助标注方法,其特征在于,包括以下步骤:
S1,对样本数据进行标注,每一样本数据对应一个标签;
S2,采用已标注的样本数据分别构建数据集A和数据集B,其中数据集A的标签随机分布,数据集B的标签均匀分布;
S3,使用数据集A训练以字向量为输入的分类器Classifier A,使用数据集B训练以词向量为输入的分类器Classifier B;
S4,训练结束后,采用剩余已标注的样本数据另构建数据集E和数据集F,分别输入分类器Classifier A和分类器Classifier B中进行分类,并记录分类结果;
S5,根据数据集E的分类结果统计分类器Classifier A的正确特征和错误特征,根据数据集F的分类结果统计分类器Classifier B的正确特征和错误特征;
S6,样本优化,删除数据集A中包含两个或两个以上分类器Classifier A的错误特征的数据,再结合分类器Classifier B中分类错误的数据构成数据集B+;删除数据集B中包含两个或两个以上分类器Classifier B的错误特征的数据,再结合分类器Classifier A中分类错误的数据构成数据集A+;
S7,以数据集A+替换数据集A,数据集B+替换数据集B,回到步骤S4直至分类结果准确率达到置信度阈值;
S8,将未标注数据同时输入分类器Classifier A和分类器Classifier B,仅在分类结果相同的情况下输出分类结果。
进一步的,所述S5中分类器Classifier A/分类器Classifier B正确特征的确定方法如下:
取数据集E/数据集F中分类正确的数据,统计分类正确的数据中每个词在不同标签下的概率分布;通过TOP-K算法筛选每个词概率最高的前K个数据,求其方差,若方差大于预先设定的方差阈值,则该词为分类器Classifier A/分类器Classifier B的正确特征。
进一步的,所述S5中分类器Classifier A/分类器Classifier B错误特征的确定方法如下:
取数据集E/数据集F中分类错误的数据,统计分类正确的数据中每个词在不同标签下的概率分布;通过TOP-K算法筛选每个词概率最高的前K个数据,求其方差,若方差大于预先设定的方差阈值,则该词为分类器Classifier A/分类器Classifier B的错误特征。
进一步的,所述方差阈值为0.05。
进一步的,所述S6中,数据集A/数据集B包含分类器Classifier A/分类器Classifier B的错误特征的判断标准为:统计数据集A/数据集B中每个词在不同标签下的概率分布,与分类器Classifier A/分类器Classifier B的错误特征的概率分布进行比较,若两个分布的KL散度小于预先设定的散度阈值,则认为数据集A/数据集B中该词为分类器Classifier A/分类器Classifier B的错误特征。
进一步的,所述散度阈值为0.2。
与现有技术相比,本发明的有益效果是:本发明用两个分类器,可以做到从不同角度审视数据,大大地降低了标注的时间,极大地提升了标注的准确性和时间效率,在短时间内可以获得高质量的标注语料。本发明可根据实际情况设定相应的置信度阈值将大部分的简单数据自动标注完成,减少了标注人员的重复多余的工作,提高了标注人员的资源利用效率。
附图说明
图1为本发明的整体结构示意图;
具体实施方式
下面对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种基于协同训练的文本分类辅助标注方法,其特征在于,包括以下步骤:
S1,对样本数据进行标注,每一样本数据对应一个标签;首先,有大量未标注数据集合U,现从该数据集合U中随机抽取几万条数据进行标注作为样本数据。每一条数据为短文本数据,标签为该短文本数据的意图,由人为判断。如一条短文本数据的具体内容为“我在上周下单的衣服在什么时候能够发货”,则在标注的时候,将其归类为“何时发货”该标签下,代表其文本意图。
S2,分别采用3000条已标注的样本数据分别构建数据集A和数据集B,其中数据集A的标签随机分布,数据集B的标签均匀分布;即从原本几万条数据构成的数据集U中随机抽取3000条数据构建数据集A,则其各数据对应标签的数量呈随机分布。再从剩余数据中有选择性地抽取3000条数据,该3000条数据中,对应每一标签的数量平均分布。
S3,使用数据集A训练以字向量为输入的分类器Classifier A,使用数据集B训练以词向量为输入的分类器Classifier B;优选的,本申请中分类器Classifier A和分类器Classifier B的结构为CNN神经网络,具体选用textcnn分类器。
S4,训练结束后,采用数据集U中剩余已标注的样本数据分别提取3000条另构建数据集E和数据集F,并将数据集E和数据集F分别输入分类器Classifier A和分类器Classifier B中进行分类,并记录分类结果;若分类结果与该数据预先标注的标签一致,则认为分类正确,否则分类错误,同时计算其准确率。如,分类器Classifier A分类结果有2200条分类正确,800条分类错误;分类器Classifier B分类结果中有2300条分类正确,700条分类错误,则其准确率为(2200+2300)/6000×100%=75%。
S5,根据数据集E的分类结果统计分类器Classifier A的正确特征和错误特征,根据数据集F的分类结果统计分类器Classifier B的正确特征和错误特征。
具体的,分类器Classifier A/分类器Classifier B正确特征的确定方法如下:取数据集E/数据集F中分类正确的数据,统计分类正确的数据中每个词在不同标签下的概率分布(如“发货”这个词在“何时发货”这个标签下的出现频率很高,其他标签下很少出现。因此对应的“何时发货”这个标签的概率很高,甚至达到90%以上);通过TOP-K算法筛选每个词概率最高的前5个数据,求其方差,若方差大于预先设定的方差阈值,所述方差阈值优选为0.05,则该词为分类器Classifier A/分类器Classifier B的正确特征。方差表达了该次在不同标签下概率的分散程度,若一个词均匀得分散在不同的标签下,则代表该次对于标签分类的过程没有作出贡献,为干扰项,因此不能作为正确特征;反之,若该词在某一个标签下很集中,在其他的标签下几乎没有出现,其方差相应较大,说明其能够反映文本的意图,即对分类作出了巨大贡献。
同理,分类器Classifier A/分类器Classifier B错误特征的确定方法如下:取数据集E/数据集F中分类错误的数据,统计分类正确的数据中每个词在不同标签下的概率分布;通过TOP-K算法筛选每个词概率最高的前5个数据,求其方差,若方差大于预先设定的方差阈值,所述方差阈值优选为0.05,则该词为分类器Classifier A/分类器Classifier B的错误特征。
S6,样本优化,删除数据集A中包含两个或两个以上分类器Classifier A的错误特征的数据,再结合分类器Classifier B中分类错误的数据构成数据集B+;同理,删除数据集B中包含两个或两个以上分类器Classifier B的错误特征的数据,再结合分类器Classifier A中分类错误的数据构成数据集A+。这里之所以结合分类错误的数据,是因为分类错误的数据包含的信息价值更大。而数据集A用分类器Classifier B预测错误的数据,数据集B用分类器Classifier A预测错误的数据是因为,分类器Classifier A和分类器Classifier B从不同的角度审视数据,分类器Classifier A既然分类错了,这部分分类错的数据显然包含了分类器Classifier A没有学习到的特征。这里是希望分类器ClassifierB能学习到分类器Classifier A没有学习到的特征,继续构造差异。分类器Classifier A和分类器Classifier B差异越大,对于分类器Classifier A和分类器Classifier B共同判断正确的句子的可信度也就越大。
具体的,数据集A/数据集B包含分类器Classifier A/分类器Classifier B的错误特征的判断标准为:统计数据集A/数据集B中每个词在不同标签下的概率分布,与分类器Classifier A/分类器Classifier B的错误特征的概率分布进行比较,若两个分布的KL散度小于预先设定的散度阈值,所述散度阈值优选为0.2,则认为数据集A/数据集B中该词为分类器Classifier A/分类器Classifier B的错误特征。
S7,以数据集A+替换数据集A,数据集B+替换数据集B,回到步骤S3,重复步骤S4至步骤S6,直至分类结果准确率达到置信度阈值,置信度阈值优选为90%;
S8,将未标注数据同时输入分类器Classifier A和分类器Classifier B,仅在分类结果相同的情况下输出分类结果;若分类结果不同,则进行人工标注。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

Claims (6)

1.一种基于协同训练的文本分类辅助标注方法,其特征在于,包括以下步骤:
S1,对样本数据进行标注,每一样本数据对应一个标签;
S2,采用已标注的样本数据分别构建数据集A和数据集B,其中数据集A的标签随机分布,数据集B的标签均匀分布;
S3,使用数据集A训练以字向量为输入的分类器Classifier A,使用数据集B训练以词向量为输入的分类器Classifier B;
S4,训练结束后,采用剩余已标注的样本数据另构建数据集E和数据集F,分别输入分类器Classifier A和分类器Classifier B中进行分类,并记录分类结果;
S5,根据数据集E的分类结果统计分类器Classifier A的正确特征和错误特征,根据数据集F的分类结果统计分类器Classifier B的正确特征和错误特征;
S6,样本优化,删除数据集A中包含两个或两个以上分类器Classifier A的错误特征的数据,再结合分类器Classifier B中分类错误的数据构成数据集B+;删除数据集B中包含两个或两个以上分类器Classifier B的错误特征的数据,再结合分类器Classifier A中分类错误的数据构成数据集A+;
S7,以数据集A+替换数据集A,数据集B+替换数据集B,回到步骤S4直至分类结果准确率达到置信度阈值;
S8,将未标注数据同时输入分类器Classifier A和分类器Classifier B,仅在分类结果相同的情况下输出分类结果。
2.根据权利要求1所述的基于协同训练的文本分类辅助标注方法,其特征在于,所述S5中分类器Classifier A/分类器Classifier B正确特征的确定方法如下:
取数据集E/数据集F中分类正确的数据,统计分类正确的数据中每个词在不同标签下的概率分布;通过TOP-K算法筛选每个词概率最高的前K个数据,求其方差,若方差大于预先设定的方差阈值,则该词为分类器Classifier A/分类器Classifier B的正确特征。
3.根据权利要求1所述的基于协同训练的文本分类辅助标注方法,其特征在于,所述S5中分类器Classifier A/分类器Classifier B错误特征的确定方法如下:
取数据集E/数据集F中分类错误的数据,统计分类正确的数据中每个词在不同标签下的概率分布;通过TOP-K算法筛选每个词概率最高的前K个数据,求其方差,若方差大于预先设定的方差阈值,则该词为分类器Classifier A/分类器Classifier B的错误特征。
4.根据根据权利要求3或4所述的基于协同训练的文本分类辅助标注方法,其特征在于,所述方差阈值为0.05。
5.根据根据权利要求1所述的基于协同训练的文本分类辅助标注方法,其特征在于,所述S6中,数据集A/数据集B包含分类器Classifier A/分类器Classifier B的错误特征的判断标准为:统计数据集A/数据集B中每个词在不同标签下的概率分布,与分类器ClassifierA/分类器Classifier B的错误特征的概率分布进行比较,若两个分布的KL散度小于预先设定的散度阈值,则认为数据集A/数据集B中该词为分类器Classifier A/分类器ClassifierB的错误特征。
6.根据根据权利要求5所述的基于协同训练的文本分类辅助标注方法,其特征在于,所述散度阈值为0.2。
CN201910551458.9A 2019-06-24 2019-06-24 一种基于协同训练的文本分类辅助标注方法 Active CN110245235B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910551458.9A CN110245235B (zh) 2019-06-24 2019-06-24 一种基于协同训练的文本分类辅助标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910551458.9A CN110245235B (zh) 2019-06-24 2019-06-24 一种基于协同训练的文本分类辅助标注方法

Publications (2)

Publication Number Publication Date
CN110245235A true CN110245235A (zh) 2019-09-17
CN110245235B CN110245235B (zh) 2020-06-09

Family

ID=67889176

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910551458.9A Active CN110245235B (zh) 2019-06-24 2019-06-24 一种基于协同训练的文本分类辅助标注方法

Country Status (1)

Country Link
CN (1) CN110245235B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826494A (zh) * 2019-11-07 2020-02-21 达而观信息科技(上海)有限公司 标注数据质量评价方法、装置、计算机设备及存储介质
CN111949794A (zh) * 2020-08-14 2020-11-17 扬州大学 一种用于文本多分类任务的在线主动机器学习方法
CN112700880A (zh) * 2020-12-31 2021-04-23 杭州依图医疗技术有限公司 优化方法、训练方法、模型、处理装置及存储介质
CN113590812A (zh) * 2020-04-30 2021-11-02 阿里巴巴集团控股有限公司 垃圾文本训练样本的筛选方法及装置、电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102208037A (zh) * 2011-06-10 2011-10-05 西安电子科技大学 基于高斯过程分类器协同训练算法的高光谱图像分类方法
CN105205124A (zh) * 2015-09-11 2015-12-30 合肥工业大学 一种基于随机特征子空间的半监督文本情感分类方法
CN106056134A (zh) * 2016-05-20 2016-10-26 重庆大学 一种基于Spark的半监督随机森林分类方法
CN106126751A (zh) * 2016-08-18 2016-11-16 苏州大学 一种具有时间适应性的分类方法及装置
US20180373789A1 (en) * 2017-06-22 2018-12-27 International Business Machines Corporation Relation extraction using co-training with distant supervision
CN109741332A (zh) * 2018-12-28 2019-05-10 天津大学 一种人机协同的图像分割与标注方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102208037A (zh) * 2011-06-10 2011-10-05 西安电子科技大学 基于高斯过程分类器协同训练算法的高光谱图像分类方法
CN105205124A (zh) * 2015-09-11 2015-12-30 合肥工业大学 一种基于随机特征子空间的半监督文本情感分类方法
CN106056134A (zh) * 2016-05-20 2016-10-26 重庆大学 一种基于Spark的半监督随机森林分类方法
CN106126751A (zh) * 2016-08-18 2016-11-16 苏州大学 一种具有时间适应性的分类方法及装置
US20180373789A1 (en) * 2017-06-22 2018-12-27 International Business Machines Corporation Relation extraction using co-training with distant supervision
CN109741332A (zh) * 2018-12-28 2019-05-10 天津大学 一种人机协同的图像分割与标注方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826494A (zh) * 2019-11-07 2020-02-21 达而观信息科技(上海)有限公司 标注数据质量评价方法、装置、计算机设备及存储介质
CN110826494B (zh) * 2019-11-07 2023-06-06 达而观信息科技(上海)有限公司 标注数据质量评价方法、装置、计算机设备及存储介质
CN113590812A (zh) * 2020-04-30 2021-11-02 阿里巴巴集团控股有限公司 垃圾文本训练样本的筛选方法及装置、电子设备
CN113590812B (zh) * 2020-04-30 2024-03-05 阿里巴巴集团控股有限公司 垃圾文本训练样本的筛选方法及装置、电子设备
CN111949794A (zh) * 2020-08-14 2020-11-17 扬州大学 一种用于文本多分类任务的在线主动机器学习方法
CN112700880A (zh) * 2020-12-31 2021-04-23 杭州依图医疗技术有限公司 优化方法、训练方法、模型、处理装置及存储介质

Also Published As

Publication number Publication date
CN110245235B (zh) 2020-06-09

Similar Documents

Publication Publication Date Title
CN110245235A (zh) 一种基于协同训练的文本分类辅助标注方法
CN105389379B (zh) 一种基于文本分布式特征表示的垃圾稿件分类方法
CN107368614A (zh) 基于深度学习的图像检索方法及装置
CN109271521A (zh) 一种文本分类方法及装置
CN109376247B (zh) 一种基于关联规则的软件缺陷自动分类方法
CN111444334A (zh) 数据处理方法、文本识别方法、装置及计算机设备
CN108845988B (zh) 一种实体识别方法、装置、设备及计算机可读存储介质
CN104966105A (zh) 一种鲁棒机器错误检索方法与系统
CN113434688B (zh) 用于舆情分类模型训练的数据处理方法和装置
CN109766935A (zh) 一种基于超图p-Laplacian图卷积神经网络的半监督分类方法
CN112417150A (zh) 行业分类模型训练、使用方法、装置、设备及介质
CN110807086A (zh) 文本数据标注方法及装置、存储介质、电子设备
CN110263174A (zh) —基于焦点关注的主题类别分析方法
CN114663002A (zh) 一种自动化匹配绩效考核指标的方法及设备
CN110910175A (zh) 一种旅游门票产品画像生成方法
CN115544348A (zh) 一种基于互联网大数据的海量信息智能搜索系统
CN113407644A (zh) 一种基于深度学习算法的企业行业二级行业多标签分类器
CN110490333A (zh) 基于ai撰写的专业性内容智能化生成方法
CN113378563B (zh) 一种基于遗传变异和半监督的案件特征提取方法及装置
CN112181814B (zh) 一种针对于缺陷报告的多标签标记方法
CN106611189A (zh) 标准化多维代价敏感决策树的集成分类器构建方法
CN112579784A (zh) 一种基于深度强化学习的云边协同文档分类系统及方法
CN115936389A (zh) 一种基于大数据技术的评审专家与评审材料的匹配方法
CN116186266A (zh) Bert、ner实体抽取以及知识图谱的物料分类优化方法及系统
CN116361454A (zh) 一种基于Bloom分类法的课程教学案例自动评估方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230411

Address after: 104058, No. 2-10, No. 311 Huangpu Avenue Middle, Tianhe District, Guangzhou City, Guangdong Province, 510000

Patentee after: Guangzhou Tanyu Technology Co.,Ltd.

Address before: 601-5, 1382 Wenyi West Road, Cangqian street, Yuhang District, Hangzhou City, Zhejiang Province, 310012

Patentee before: Hangzhou Weier Network Technology Co.,Ltd.

TR01 Transfer of patent right