CN113064993B - 一种基于大数据的自动化文本分类标注系统的设计方法、优化方法及标注方法 - Google Patents

一种基于大数据的自动化文本分类标注系统的设计方法、优化方法及标注方法 Download PDF

Info

Publication number
CN113064993B
CN113064993B CN202110308225.3A CN202110308225A CN113064993B CN 113064993 B CN113064993 B CN 113064993B CN 202110308225 A CN202110308225 A CN 202110308225A CN 113064993 B CN113064993 B CN 113064993B
Authority
CN
China
Prior art keywords
text
labeling
stacking
model
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110308225.3A
Other languages
English (en)
Other versions
CN113064993A (zh
Inventor
周金明
熊林海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Inspector Intelligent Technology Co ltd
Original Assignee
Nanjing Inspector Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Inspector Intelligent Technology Co ltd filed Critical Nanjing Inspector Intelligent Technology Co ltd
Priority to CN202110308225.3A priority Critical patent/CN113064993B/zh
Publication of CN113064993A publication Critical patent/CN113064993A/zh
Application granted granted Critical
Publication of CN113064993B publication Critical patent/CN113064993B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大数据的自动化文本分类标注系统的设计方法、优化方法及标注方法,通过设计文本分类线下集成模型stacking_offline和线上集成模型stacking_online,经过对现有的n个文本数据进行人工标注以及更新验证策略,分别获取和更新现有的线下集成模和线上集成模型的样本集,并对其模型进行更新迭代训练,即得到的自动标注评估模型stacking_offline,和自动标注模型stacking_online;实现对新的文本数据样本的自动化标注。

Description

一种基于大数据的自动化文本分类标注系统的设计方法、优 化方法及标注方法
技术领域
本发明涉及自然语言处理和智能信访领域,具体涉及一种基于大数据的自动化文本分类标注系统的设计方法、优化方法及标注方法。
背景技术
目前现有的标注系统大多偏向于半自动化,虽然能够降低人工标注成本,但是不能完全摆脱人工,解决不了完全自动化这个根本性问题,且容易造成反复标注、标注质量差、效率低下、过程繁琐等其他问题。同时现有的标注工具的标注方法都非常单一、无法对标注模型进行自动更新,更谈不上全自动化标注了,因此,迫切需要一套能够全自动分类标注系统来解决以上问题。
发明内容
为了克服现有技术的不足,本公开实施例提供了一种基于大数据的自动化文本分类标注系统的设计方法、优化方法及标注方法,可以实现完全自动化标注。技术方案如下:
第一方面,提供了一种基于大数据的自动化文本分类标注系统的设计方法,该方法包括如下步骤:
步骤1,将现有需要人工标注的n个文本数据存入数据库text表,text表的类别标签字段为空,再将所有C个分类标签存于数据库category表,首先用余弦算法计算文本数据的内容和分类标签之间的文本相似度来给定文本的初始分类标签,将标签存入text表的对应类别标签字段。
步骤2,从text表获取训练集F,设置每个类别下样本数量阈值m,训练集的总样本数量阈值f=m*C,其中f<n,记所有文本数据的内容的文本相似度集合为(v1,v2…vi…vn),vi为某一文本数据与所有类别的相似度的最大值,每个类别下将相似度集合按从大到小排序,将前m个样本加入训练集F,其他文本作为待标注样本集。
步骤3,设计线下集成模型stacking_offline和线上集成模型stacking_online;采用训练集F训练文本分类线下集成模型stacking_offline,模型stacking_offline包括Bert和LSTM两种神经网络文本分类算法,用训练好的stacking_offline模型对待标注样本集自动预测分类结果,将自动预测分类结果更新text表的对应类别标签字段,即得到预测类别标签;训练完后记录训练集文本ID列表trainList={d1,d2,…,df}和stacking_offline的模型准确率TF,其中di表示每个文本内容对应的ID,当训练集F的ID集合与trainList不一致时重新训练,当重新训练的模型准确率超过TF时更新原模型。
记stacking_offline模型预测的自动预测分类结果对应的概率值为(p1,p2,…,pn-f),将每个类别下的预测结果按照预测概率值集合按从小到大排序,逐渐加入到待标注文本列表H,对待标注文本列表H进行人工标注,人工标注完成并审核通过后自动加入训练集F,单独设置人工标注的ID命名规则,当训练集F下每个类别下的样本数量≥m则停止人工标注。
设计线上集成模型stacking_online,模型stacking_online包括logistic、xgbooost、NaiveBayes、3种机器学习分类算法;设置线上训练集G,设置触发stacking_online模型自动训练的标注数量阈值i,每当人工标注量≥i时,将这i个人工标注样本加入到线上训练集G;设置训练集G的文本数量最大值g(g<f),当G的文本数量大于g时,每个分类仅保留预测概率值最大的前floor(g/C)个文本作为训练集G;每当人工标注量≥i时,且G的文本ID列表发生变化时利用新训练集G重新训练stacking_online模型。
步骤4,依次循环,直到所有样本均标注完不再需要人工标注,得到自动标注系统:将n个样本按类别进行拆分,每个类别下50%以上的样本作为stacking_offline的训练集、剩余的样本作为stacking_online的训练集,重新训练即得到自动标注评估模型stacking_offline和自动标注模型stacking_online。
优选的,步骤1中用余弦算法计算文本内容和分类标签之间的文本相似度具体如下:记某一文本数据的内容为A,分词转码后的结果为(a1,a2,…,an),某一分类标签B分词转码后结果为(b1,b2,……bn’),n’表示标签B共有n’级,则A和B的相似度为:
优选的,步骤3中将每个类别下的预测结果按照预测概率值集合按从小到大排序,逐渐加入到待标注文本列表H,对待标注文本列表H进行人工标注,具体为:设置最大任务量阈值h,记stacking_offline模型预测的自动预测分类结果对应的概率值为(p1,p2,…,pn-f),将预测概率值集合按从小到大排序,将前h个文本数据优先加入待标注文本列表H;对待标注文本列表H进行人工标注:通过选取文本中多个关键词作为确认分类的依据,既可以选择认可stacking_offline模型的预测类别结果,也可以修改stacking_offline模型的预测类别结果,确认提交后自动进入下一个标注样本继续标注,同时将标注好的文本自动加入训练集F,并从待标注文本列表H中删除,把标注好的文本对应的分类、关键词及其相关系数自动存入数据库text表对应的关键词字段keywords。
进一步的,设置最大任务量阈值h可以根据当天标注人数和每人每天的任务量上限来确定。
优选的,步骤3还包括对已标注样本进行抽检:采用stacking_online模型自动从当天某个标注人员的已标注样本中随机抽检比例为η1的样本,将其预测类别结果与其人工标注结果不一致的文本认为是不合格样本,自动发送给后台管理员进行审核,若管理员点击确认为不合格则直接退回到待标注文本中重新标注,若管理员超过时限未处理则自动认为是不合格,退回重新标注;若管理员审核后抽检不合格率超过α1,则该批抽检样本全部退回重新标注,继续抽检剩余已标注样本比例为η1的的样本;若样本抽检不合格率超过α2,α2<α1,则继续抽检剩余已标注样本的比例为η1的样本;直到抽检不合格率小于α2才停止抽检。
优选的,步骤3还包括设计stacking_offline自动抽检规则,设置定时任务时长r,每隔r小时就利用最新的stacking_offline模型自动从当天某个标注人员的已标注样本中随机抽检比例为η2的样本,将其预测类别结果与其人工标注结果不一致的文本认为是不合格样本,自动发送给后台管理员进行审核,若管理员点击确认为不合格则直接退回到待标注文本中重新标注,若管理员超过时限未处理则自动认为是不合格,退回重新标注;若管理员审核后抽检不合格率超过α3,则该批抽检样本全部退回重新标注,继续抽检剩余已标注样本比例为η2的的样本;若样本抽检不合格率超过α4,α4<α3,则继续抽检剩余已标注样本的比例为η2的样本;直到抽检不合格率小于α4才停止抽检;此规则不适用于超过时限未处理的情形。
优选的,在自动抽检过程中,还包括设计标注人员打分规则,将因为抽检不合格而退回的待标注样本优先分配给得分高的用户进行标注。
第二方面,本公开实施例提供了一种基于大数据的自动化文本分类标注系统的优化方法,该方法包括如下步骤:
对所有可能的实现方式中任一项所述的一种基于大数据的自动化文本分类标注系统的设计方法得到的自动标注评估模型stacking_offline和自动标注模型stacking_online进行优化:设置标注确信度阈值t,每当新的标注任务进入待标注列表,先由stacking_online模型自动预测出分类,然后利用stacking_offline模型预测确认是否一致;
若二者预测结果一致,则根据stacking_offline的预测概率值自动分配文本:若概率超过t则自动加入stacking_offline的训练集F,否则自动加入stacking_online的训练集G,并将对应的关键词及相关系数(相关系数最大的3个)写入关键词表keywords;
若二者预测结果不一致,若stacking_online模型预测的概率值大于stacking_offline模型预测的概率则认为stacking_online模型预测正确,否则认为stacking_offline模型预测正确,若概率超过t则自动加入stacking_offline的训练集F,否则自动加入stacking_online的训练集G,并将对应的关键词及相关系数(相关系数最大的3个)写入关键词表keywords;
对自动化文本分类标注系统不断迭代优化,即通过新的训练集F对stacking_offline模型进行训练,通过新的训练集G对stacking_online模型进行训练,得到优化后的自动标注评估模型stacking_offline和自动标注模型stacking_online。
第三方面,本公开实施例提供了一种基于大数据的自动化文本分类标注系统的标注方法,该方法包括如下步骤:
每当新的标注任务进入待标注列表,根据所有可能的实现方式中任一项所述的一种基于大数据的自动化文本分类标注系统的设计方法或优化方法得到的stacking_online模型自动预测出分类,即实现了文本数据的自动标注功能。
与现有技术相比,上述技术方案中的一个技术方案具有如下有益效果:通过设计文本分类线下集成模型stacking_offline和线上集成模型stacking_online,经过对现有的n个文本数据进行人工标注以及更新验证策略,分别获取和更新现有的线下集成模和线上集成模型的样本集,并对其模型进行更新迭代训练,即得到的自动标注评估模型stacking_offline,和自动标注模型stacking_online;实现对新的文本数据样本的自动化标注。
具体实施方式
为了阐明本发明的技术方案和工作原理,下面将对本公开实施方式做进一步的详细描述。上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
本申请的说明书和权利要求书中的术语“步骤1”、“步骤2”、“步骤3”等类似描述(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里描述的那些以外的顺序实施。
第一方面:本公开实施例提供了一种基于大数据的自动化文本分类标注系统的设计方法,该方法包括如下步骤:
步骤1,将现有需要人工标注的n个文本数据存入数据库text表,text表的类别标签字段为空,再将所有C个分类标签(如C=455条标签,每个标签共n’级)存于数据库category表,首先用余弦算法计算文本数据的内容和分类标签之间的文本相似度来给定文本的初始分类标签,将标签存入text表的对应类别标签字段。
优选的,用余弦算法计算文本内容和分类标签之间的文本相似度具体如下:记某一文本数据的内容为A,分词转码后的结果为(a1,a2,…,an),某一分类标签B分词转码后结果为(b1,b2,……bn’),n’表示标签B共有n’级,则A和B的相似度为:
步骤2,从text表获取训练集F,设置每个类别下样本数量阈值m,训练集的总样本数量阈值f=m*C(f<n),记所有文本数据的内容的文本相似度集合为(v1,v2…vi…vn),vi为某一文本数据与所有类别的相似度的最大值,每个类别下将相似度集合按从大到小排序,将前m个样本加入训练集F,其他文本作为待标注样本集。
步骤3,设计线下集成模型stacking_offline和线上集成模型stacking_online;设置定时任务,每天凌晨00:00:00时采用训练集F训练文本分类线下集成模型stacking_offline,模型stacking_offline包含Bert和LSTM两种神经网络文本分类算法,然后用训练好的stacking_offline模型对待标注样本集自动预测分类结果,将自动预测分类结果更新text表的对应类别标签字段,即得到预测类别标签;训练完后记录训练集文本ID列表trainList={d1,d2,…,df}和stacking_offline的模型准确率TF,其中di表示每个文本内容对应的ID,当训练集F的ID集合与trainList不一致才会重新训练,当重新训练的模型准确率超过TF才更新原模型。
记stacking_offline模型预测的自动预测分类结果对应的概率值为(p1,p2,…,pn-f),将每个类别下的预测结果按照预测概率值集合按从小到大排序,逐渐加入到待标注文本列表H,对待标注文本列表H进行人工标注,人工标注完成并审核通过后自动加入训练集F,单独设置人工标注的ID命名规则,当训练集F下每个类别下的样本数量>=m则停止人工标注。
优选的,将每个类别下的预测结果按照预测概率值集合按从小到大排序,逐渐加入到待标注文本列表H,对待标注文本列表H进行人工标注,具体为:设置最大任务量阈值h,记stacking_offline模型预测的自动预测分类结果对应的概率值为(p1,p2,…,pn-f),将预测概率值集合按从小到大排序,将前h个文本数据优先加入待标注文本列表H。
优选的,设置最大任务量阈值h可以根据当天标注人数和每人每天的任务量上限来确定。
设计自动标注系统的界面,将待标注文本列表H自动读入并展示,界面主要包含文本数据的内容、预测类别标签、需人工选取的关键词及其相关系数。
对待标注文本列表H进行人工标注:通过选取文本中多个关键词作为确认分类的依据,既可以选择认可stacking_offline模型的预测类别结果,也可以修改stacking_offline模型的预测类别结果,确认提交后自动进入下一个标注样本继续标注,同时将标注好的文本自动加入训练集F,并从待标注文本列表H中删除,把标注好的文本对应的分类、关键词及其相关系数自动存入数据库text表对应的关键词字段keywords。
优选的,所述关键词相关系数设计如下:若关键词能完全决定问题分类,则相关系数为1;若相关度非常大,但不能完全决定就是该分类,则相关系数为0.75;若相关度较大,则相关系数为0.5;若有一定的相关性,则相关系数为0.25。
优选的,设计自动标注系统的用户管理功能,标注人员需要登录进入标注系统先领取标注任务量,系统自动按序分配样本给标注人员进行标注。
优选的,设计自动标注系统的后台管理功能,可查看历史标注情况,也能实时检查标注进度,同时支持审核修改文本标注结果。
设计线上集成模型stacking_online,模型stacking_online包括logistic、xgbooost、NaiveBayes、3种机器学习分类算法。
优选的,线上集成模型stacking_online还包含第四种机器学习分类算法RandomForest。
设置线上训练集G,设置触发stacking_online模型自动训练的标注数量阈值i,每当人工标注量≥i时,将这i个人工标注样本加入到线上训练集G;设置训练集G的文本数量最大值g(g<f),当G的文本数量大于g时,每个分类仅保留预测概率值(预测概率值即为确信度)最大的前floor(g/C)个文本作为训练集G,设置训练集G的文本数量最大值g是为了保证stacking_online模型计算速度。每当人工标注量≥i时,且G的文本ID列表发生变化时利用新训练集G重新训练stacking_online模型。
其中floor表示向下取整的意思,即保证各分类训练样本的均衡性。
优选的,还包括对已标注样本进行抽检:设置定时任务,每天18:00:00时stacking_online模型自动从当天某个标注人员的已标注样本中随机抽检比例为η1的样本(η1=25%),将其预测类别结果与其人工标注结果不一致的文本认为是不合格样本,自动发送给后台管理员进行审核,若管理员点击确认为不合格则直接退回到待标注文本中重新标注,若管理员超过时限(设置审核有效时限,如当天23:00前)未处理则自动认为是不合格,退回重新标注。
优选的,若管理员审核后抽检不合格率超过α1(α1=20%),则该批抽检样本全部退回重新标注,继续抽检剩余已标注样本比例为η1的的样本;若样本抽检不合格率超过α2(α2<α1)(α2=10%),则继续抽检剩余已标注样本的比例为η1的样本;直到抽检不合格率小于α2才停止抽检;此规则不适用于超过时限未处理的情形。
优选的,设计stacking_offline自动抽检规则,设置定时任务时长r,每隔r小时就利用最新的stacking_offline模型自动从当天某个标注人员的已标注样本中随机抽检比例为η2的样本(η2=20%),将其预测类别结果与其人工标注结果不一致的文本认为是不合格样本,自动发送给后台管理员进行审核,若管理员点击确认为不合格则直接退回到待标注文本中重新标注,若管理员超过时限未处理则自动认为是不合格,退回重新标注。
优选的,若管理员审核后抽检不合格率超过α3,则该批抽检样本全部退回重新标注,继续抽检剩余已标注样本比例为η2的的样本;若样本抽检不合格率超过α4(α4<α3),则继续抽检剩余已标注样本的比例为η2的样本;直到抽检不合格率小于α4才停止抽检;此规则不适用于超过时限未处理的情形。
优选的,设计标注人员打分规则,将因为抽检不合格而退回的待标注样本优先分配给得分高的用户进行标注。
进一步的,设计标注人员打分规则具体如下:
记标注人员U共标注了k个样本,总标注时长l小时,与最新的stacking_offline模型预测一致的标注文本量为s个,则用户综合得分为:其中,α等于0.4,β等于0.4,γ等于0.2,S1为质量函数,/>
S2为速度函数,
S3为经验函数,
步骤4,依次循环,直到所有样本均标注完不再需要人工标注,继续设计自动标注系统:将n个样本按类别进行拆分,每个类别下50%以上(如75%)的样本作为stacking_offline的训练集、剩余(如25%)的样本作为stacking_online的训练集,重新训练即得到自动标注评估模型stacking_offline和自动标注模型stacking_online。
第二方面,本公开实施例提供了一种基于大数据的自动化文本分类标注系统的优化方法,该方法包括如下步骤:
设置标注确信度阈值t,每当新的标注任务进入待标注列表,先由stacking_online模型自动预测出分类,然后利用stacking_offline模型预测确认是否一致;
若二者预测结果一致,则根据stacking_offline的预测概率值自动分配文本:若概率超过t则自动加入stacking_offline的训练集F,否则自动加入stacking_online的训练集G,并将对应的关键词及相关系数(相关系数最大的3个)写入关键词表keywords;
若二者预测结果不一致,若stacking_online模型预测的概率值大于stacking_offline模型预测的概率则认为stacking_online模型预测正确,否则认为stacking_offline模型预测正确,若概率超过t则自动加入stacking_offline的训练集F,否则自动加入stacking_online的训练集G,并将对应的关键词及相关系数(相关系数最大的3个)写入关键词表keywords;
对自动化文本分类标注系统不断迭代优化,即通过新的训练集F对stacking_offline模型进行训练,通过新的训练集G对stacking_online模型进行训练,得到优化后的自动标注评估模型stacking_offline和自动标注模型stacking_online。
优选的,若二者预测结果不一致,还可以通过人工审核完善,完善后的结果自动加入stacking_offline的训练集。
第三方面,本公开实施例提供了一种基于大数据的自动化文本分类标注系统的标注方法,该方法包括如下步骤:
每当新的标注任务进入待标注列表,根据所有可能的实现方式中任一项所述的一种基于大数据的自动化文本分类标注系统的设计方法或优化方法得到的stacking_online模型自动预测出分类,即实现了文本数据的自动标注功能。
以上对本发明进行了示例性描述,显然,本发明具体实现并不受上述方式的限制,凡是采用了本发明的方法构思和技术方案进行的各种非实质性的改进;或者未经改进、等同替换,将本发明的上述构思和技术方案直接应用于其他场合的,均在本发明的保护范围之内。

Claims (10)

1.一种基于大数据的自动化文本分类标注系统的设计方法,其特征在于,该方法包括如下步骤:
步骤1,将现有需要人工标注的n个文本数据存入数据库text表,text表的类别标签字段为空,再将所有C个分类标签存于数据库category表,首先用余弦算法计算文本数据的内容和分类标签之间的文本相似度来给定文本的初始分类标签,将标签存入text表的对应类别标签字段;
步骤2,从text表获取训练集F,设置每个类别下样本数量阈值m,训练集的总样本数量阈值f=m*C,其中f<n,记所有文本数据的内容的文本相似度集合为(v1,v2…vi…vn),vi为某一文本数据与所有类别的相似度的最大值,每个类别下将相似度集合按从大到小排序,将前m个样本加入训练集F,其他文本作为待标注样本集;
步骤3,设计线下集成模型stacking_offline和线上集成模型stacking_online;
采用训练集F训练文本分类线下集成模型stacking_offline,模型stacking_offline包括Bert和LSTM两种神经网络文本分类算法,用训练好的stacking_offline模型对待标注样本集自动预测分类结果,将自动预测分类结果更新text表的对应类别标签字段,即得到预测类别标签;训练完后记录训练集文本ID列表trainList={d1,d2,…,df}和stacking_offline的模型准确率TF,其中di表示每个文本内容对应的ID,当训练集F的ID集合与trainList不一致时重新训练,当重新训练的模型准确率超过TF时更新原模型;
记stacking_offline模型预测的自动预测分类结果对应的概率值为(p1,p2,…,pn-f),将每个类别下的预测结果按照预测概率值集合按从小到大排序,逐渐加入到待标注文本列表H,对待标注文本列表H进行人工标注,人工标注完成并审核通过后自动加入训练集F,单独设置人工标注的ID命名规则,当训练集F下每个类别下的样本数量≥m则停止人工标注;
设计线上集成模型stacking_online,模型stacking_online包括logistic、
xgbooost、NaiveBayes、3种机器学习分类算法,设置线上训练集G,设置触发stacking_online模型自动训练的标注数量阈值i,每当人工标注量≥i时,将这i个人工标注样本加入到线上训练集G;设置训练集G的文本数量最大值g,g<f,当G的文本数量大于g时,每个分类仅保留预测概率值最大的前floor(g/C)个文本作为训练集G;每当人工标注量≥i时,且G的文本ID列表发生变化时利用新训练集G重新训练stacking_online模型;
步骤4,依次循环,直到所有样本均标注完不再需要人工标注,得到自动标注系统:将n个样本按类别进行拆分,每个类别下50%以上的样本作为stacking_offline的训练集、剩余的样本作为stacking_online的训练集,重新训练即得到自动标注评估模型stacking_offline和自动标注模型stacking_online。
2.根据权利要求1所述的一种基于大数据的自动化文本分类标注系统的设计方法,其特征在于,步骤1中用余弦算法计算文本内容和分类标签之间的文本相似度具体如下:记某一文本数据的内容为A,分词转码后的结果为(a1,a2,…,an),某一分类标签B分词转码后结果为(b1,b2,……bn’),n’表示标签B共有n’级,则A和B的相似度为:
3.根据权利要求2所述的一种基于大数据的自动化文本分类标注系统的设计方法,其特征在于,步骤3中将每个类别下的预测结果按照预测概率值集合按从小到大排序,逐渐加入到待标注文本列表H,对待标注文本列表H进行人工标注,具体为:设置最大任务量阈值h,记stacking_offline模型预测的自动预测分类结果对应的概率值为(p1,p2,…,pn-f),将预测概率值集合按从小到大排序,将前h个文本数据优先加入待标注文本列表H;
对待标注文本列表H进行人工标注:通过选取文本中多个关键词作为确认分类的依据,既可以选择认可stacking_offline模型的预测类别结果,也可以修改stacking_offline模型的预测类别结果,确认提交后自动进入下一个标注样本继续标注,同时将标注好的文本自动加入训练集F,并从待标注文本列表H中删除,把标注好的文本对应的分类、关键词及其相关系数自动存入数据库text表对应的关键词字段keywords。
4.根据权利要求3所述的一种基于大数据的自动化文本分类标注系统的设计方法,其特征在于,设置最大任务量阈值h可以根据当天标注人数和每人每天的任务量上限来确定。
5.根据权利要求1~4任一项所述的一种基于大数据的自动化文本分类标注系统的设计方法,其特征在于,步骤3还包括对已标注样本进行抽检:采用stacking_online模型自动从当天某个标注人员的已标注样本中随机抽检比例为η1的样本,将其预测类别结果与其人工标注结果不一致的文本认为是不合格样本,自动发送给后台管理员进行审核,若管理员点击确认为不合格则直接退回到待标注文本中重新标注,若管理员超过时限未处理则自动认为是不合格,退回重新标注;
若管理员审核后抽检不合格率超过α1,则该批抽检样本全部退回重新标注,继续抽检剩余已标注样本比例为η1的样本;若样本抽检不合格率超过α2,α2<α1,则继续抽检剩余已标注样本的比例为η1的样本;直到抽检不合格率小于α2才停止抽检。
6.根据权利要求5所述的一种基于大数据的自动化文本分类标注系统的设计方法,其特征在于,步骤3还包括设计stacking_offline自动抽检规则,设置定时任务时长r,每隔r小时就利用最新的stacking_offline模型自动从当天某个标注人员的已标注样本中随机抽检比例为η2的样本,将其预测类别结果与其人工标注结果不一致的文本认为是不合格样本,自动发送给后台管理员进行审核,若管理员点击确认为不合格则直接退回到待标注文本中重新标注,若管理员超过时限未处理则自动认为是不合格,退回重新标注;若管理员审核后抽检不合格率超过α3,则该批抽检样本全部退回重新标注,继续抽检剩余已标注样本比例为η2的样本;若样本抽检不合格率超过α4,α4<α3,则继续抽检剩余已标注样本的比例为η2的样本;直到抽检不合格率小于α4才停止抽检;此规则不适用于超过时限未处理的情形。
7.根据权利要求6所述的一种基于大数据的自动化文本分类标注系统的设计方法,其特征在于,在自动抽检过程中,还包括设计标注人员打分规则,将因为抽检不合格而退回的待标注样本优先分配给得分高的用户进行标注。
8.一种基于大数据的自动化文本分类标注系统的优化方法,其特征在于,该方法包括如下步骤:
对根据权利要求1-7任一项所述的一种基于大数据的自动化文本分类标注系统的设计方法得到的自动标注评估模型stacking_offline和自动标注模型stacking_online进行优化:设置标注确信度阈值t,每当新的标注任务进入待标注列表,先由stacking_online模型自动预测出分类,然后利用stacking_offline模型预测确认是否一致,
若二者预测结果一致,则根据stacking_offline的预测概率值自动分配文本:若概率超过t则自动加入stacking_offline的训练集F,否则自动加入stacking_online的训练集G,并将对应的关键词及相关系数写入关键词表keywords;
若二者预测结果不一致,若stacking_online模型预测的概率值大于stacking_offline模型预测的概率则认为stacking_online模型预测正确,否则认为stacking_offline模型预测正确,若概率超过t则自动加入stacking_offline的训练集F,否则自动加入stacking_online的训练集G,并将对应的关键词及相关系数写入关键词表keywords;
对自动化文本分类标注系统不断迭代优化,即通过新的训练集F对stacking_offline模型进行训练,通过新的训练集G对stacking_online模型进行训练,得到优化后的自动标注评估模型stacking_offline和自动标注模型stacking_online。
9.根据权利要求8所述的一种基于大数据的自动化文本分类标注系统的优化方法,其特征在于,若二者预测结果不一致,还可以通过人工审核完善,完善后的结果自动加入stacking_offline的训练集。
10.一种基于大数据的自动化文本分类标注系统的标注方法,其特征在于,该方法包括如下步骤:
每当新的标注任务进入待标注列表,根据权利要求1-9任一项所述的一种基于大数据的自动化文本分类标注系统的设计方法或优化方法得到的stacking_online模型自动预测出分类,即实现了文本数据的自动标注功能。
CN202110308225.3A 2021-03-23 2021-03-23 一种基于大数据的自动化文本分类标注系统的设计方法、优化方法及标注方法 Active CN113064993B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110308225.3A CN113064993B (zh) 2021-03-23 2021-03-23 一种基于大数据的自动化文本分类标注系统的设计方法、优化方法及标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110308225.3A CN113064993B (zh) 2021-03-23 2021-03-23 一种基于大数据的自动化文本分类标注系统的设计方法、优化方法及标注方法

Publications (2)

Publication Number Publication Date
CN113064993A CN113064993A (zh) 2021-07-02
CN113064993B true CN113064993B (zh) 2023-07-21

Family

ID=76563058

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110308225.3A Active CN113064993B (zh) 2021-03-23 2021-03-23 一种基于大数据的自动化文本分类标注系统的设计方法、优化方法及标注方法

Country Status (1)

Country Link
CN (1) CN113064993B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486986A (zh) * 2021-08-02 2021-10-08 浙江大华技术股份有限公司 增量数据的确定方法及装置、存储介质、电子装置
CN114612699A (zh) * 2022-03-10 2022-06-10 京东科技信息技术有限公司 一种图像数据处理的方法和装置

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407169A (zh) * 2016-09-09 2017-02-15 北京工商大学 一种基于主题模型的文档标注方法
CN107153664A (zh) * 2016-03-04 2017-09-12 同方知网(北京)技术有限公司 一种基于组合特征加权的科技文献标注精简研究结论的方法流程
CN108875781A (zh) * 2018-05-07 2018-11-23 腾讯科技(深圳)有限公司 一种标签分类方法、装置、电子设备及存储介质
CN109543032A (zh) * 2018-10-26 2019-03-29 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备和存储介质
CN110298032A (zh) * 2019-05-29 2019-10-01 西南电子技术研究所(中国电子科技集团公司第十研究所) 文本分类语料标注训练系统
CN110457436A (zh) * 2019-07-30 2019-11-15 腾讯科技(深圳)有限公司 信息标注方法、装置、计算机可读存储介质及电子设备
CN110503126A (zh) * 2018-05-18 2019-11-26 罗伯特·博世有限公司 用于改善分类器的训练的方法和设备
CN110580290A (zh) * 2019-09-12 2019-12-17 北京小米智能科技有限公司 用于文本分类的训练集的优化方法及装置
CN110597961A (zh) * 2019-09-18 2019-12-20 腾讯科技(深圳)有限公司 一种文本类目标注方法、装置、电子设备及存储介质
CN111209738A (zh) * 2019-12-31 2020-05-29 浙江大学 一种联合文本分类的多任务命名实体识别方法
CN111723209A (zh) * 2020-06-28 2020-09-29 上海携旅信息技术有限公司 半监督文本分类模型训练方法、文本分类方法、系统、设备及介质
CN112214599A (zh) * 2020-10-20 2021-01-12 电子科技大学 基于统计学和预训练语言模型的多标签文本分类方法
CN112308129A (zh) * 2020-10-28 2021-02-02 中国科学院宁波材料技术与工程研究所 一种基于深度学习的植物线虫数据自动标注和分类识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10552735B1 (en) * 2015-10-14 2020-02-04 Trading Technologies International, Inc. Applied artificial intelligence technology for processing trade data to detect patterns indicative of potential trade spoofing
KR102661364B1 (ko) * 2019-07-05 2024-04-25 엘지전자 주식회사 열적 쾌적성 기반의 공조 방법 및 공조기

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107153664A (zh) * 2016-03-04 2017-09-12 同方知网(北京)技术有限公司 一种基于组合特征加权的科技文献标注精简研究结论的方法流程
CN106407169A (zh) * 2016-09-09 2017-02-15 北京工商大学 一种基于主题模型的文档标注方法
CN108875781A (zh) * 2018-05-07 2018-11-23 腾讯科技(深圳)有限公司 一种标签分类方法、装置、电子设备及存储介质
CN110503126A (zh) * 2018-05-18 2019-11-26 罗伯特·博世有限公司 用于改善分类器的训练的方法和设备
CN109543032A (zh) * 2018-10-26 2019-03-29 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备和存储介质
CN110298032A (zh) * 2019-05-29 2019-10-01 西南电子技术研究所(中国电子科技集团公司第十研究所) 文本分类语料标注训练系统
CN110457436A (zh) * 2019-07-30 2019-11-15 腾讯科技(深圳)有限公司 信息标注方法、装置、计算机可读存储介质及电子设备
CN110580290A (zh) * 2019-09-12 2019-12-17 北京小米智能科技有限公司 用于文本分类的训练集的优化方法及装置
CN110597961A (zh) * 2019-09-18 2019-12-20 腾讯科技(深圳)有限公司 一种文本类目标注方法、装置、电子设备及存储介质
CN111209738A (zh) * 2019-12-31 2020-05-29 浙江大学 一种联合文本分类的多任务命名实体识别方法
CN111723209A (zh) * 2020-06-28 2020-09-29 上海携旅信息技术有限公司 半监督文本分类模型训练方法、文本分类方法、系统、设备及介质
CN112214599A (zh) * 2020-10-20 2021-01-12 电子科技大学 基于统计学和预训练语言模型的多标签文本分类方法
CN112308129A (zh) * 2020-10-28 2021-02-02 中国科学院宁波材料技术与工程研究所 一种基于深度学习的植物线虫数据自动标注和分类识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向搜索引擎的实体推荐综述;黄际洲等;《计算机学报》;1467-1494 *

Also Published As

Publication number Publication date
CN113064993A (zh) 2021-07-02

Similar Documents

Publication Publication Date Title
CN109598995B (zh) 基于贝叶斯知识跟踪模型的智能教学系统
CN111950932B (zh) 基于多源信息融合的中小微企业综合质量画像方法
US10332007B2 (en) Computer-implemented system and method for generating document training sets
US11593763B2 (en) Automated electronic mail assistant
CN104820629B (zh) 一种智能的舆情突发事件应急处理系统及方法
CN105677873B (zh) 基于领域知识模型的文本情报关联聚类汇集处理方法
CN113064993B (zh) 一种基于大数据的自动化文本分类标注系统的设计方法、优化方法及标注方法
US8495002B2 (en) Software tool for training and testing a knowledge base
CN111984788B (zh) 电力系统违章管理方法、装置及电力设备
CN113127716A (zh) 一种基于显著性图的情感时间序列异常检测方法
CN111339285B (zh) 基于bp神经网络的企业简历筛选方法和系统
CN114742366A (zh) 一种基于大数据算法的工单智能派发方法
CN112200674B (zh) 一种证券市场情绪指数智能计算信息系统
CN107480126B (zh) 一种工程材料类别智能识别方法
CN117911039A (zh) 售后服务系统的控制方法、设备及存储介质
CN117172508B (zh) 一种基于城运投诉工单识别的自动派单方法及系统
CN113570348A (zh) 一种简历筛选方法
CN108615124B (zh) 基于词频分析的企业评价方法及系统
CN113962565B (zh) 一种基于大数据的项目评分方法、系统和可读存储介质
DE102012221927A1 (de) Verfahren zum Verwalten von E-Mail
CN113888318A (zh) 风险检测方法及系统
CN112506930A (zh) 一种基于机器学习技术的数据洞察平台
CN112650838A (zh) 一种基于历史案件大数据的智能问答方法及系统
CN113590673A (zh) 基于区块链深度学习的数据热度统计方法
RU2007141666A (ru) Способ сбора, обработки и каталогизации целевой информации из неструктурированных источников

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant