CN111353291B - 一种基于投诉工单训练文本计算最佳标注集的方法及系统 - Google Patents
一种基于投诉工单训练文本计算最佳标注集的方法及系统 Download PDFInfo
- Publication number
- CN111353291B CN111353291B CN202010114158.7A CN202010114158A CN111353291B CN 111353291 B CN111353291 B CN 111353291B CN 202010114158 A CN202010114158 A CN 202010114158A CN 111353291 B CN111353291 B CN 111353291B
- Authority
- CN
- China
- Prior art keywords
- labeling
- sample
- model
- optimal
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Abstract
一种基于电信行业客服投诉工单训练文本计算最佳标注集的方法,选取待标注训练样本后,S1、取样标注一个样本;S2、主动在线学习实时更新模型;S3、当标注数据达到一定数据累计阈值时,使用线下深度学习更新模型;S4、模型更新后对未标注池example做预测;S5、取确信度最低example作为待标注样例;S6、重复至步骤S1;S7、重复生成最优模型算法后,计算输出最佳待标注集;S8、对最佳标注集进行人工标注,从而无需大量标注训练样本。
Description
技术领域
本发明涉及计算机网络技术领域,更具体地,涉及一种基于投诉工单训练文本计算最佳标注集的方法及系统
背景技术
电信行业客户服务投诉管理人员会定期针对全量记录的工单文档进行自然语言理解的文本处理、聚类建模等实现客户投诉分析。算法训练过程中需要进行大量语料中文标注工作,尤其在电信行业服务及产品专有名词标注过程中,需要花费大量专有人员标注,且随着业务及服务产品不断升级和各省分公司个性化专业名词不断更新,为投诉工单文本分析语料标注的工作带来巨大挑战和人员成本。现有训练未标注样本全部手工标注,花费大量的时间成本和经济成本。同时如果训练样本的规模过于庞大,训练时间也会花费较长。
现有训练需要专业人员大量标注训练样本,从而导致存在错误/无用标注。同时训练的时间花费较多。
发明内容
本发明采用一种方法针对电信行业客服投诉工单文本语料进行主动学习提出最小核心有用标注集,减少人工标注的样本数量,大量降低人工标注成本,提高投诉工单文本分析系统的效率。
本发明提供一种基于投诉工单训练文本计算最佳标注集的方法,包括:
S1、取样标注一个样本;
S2、主动在线学习实时更新模型;
S3、当标注数据达到一定数据累计阈值时,使用线下深度学习更新模型;
S4、模型更新后对未标注池example做预测;
S5、取确信度最低example作为待标注样例;
S6、重复至步骤S1,对待标注样例进行标注;
S7、重复生成最优模型算法后,计算输出最佳待标注集;
S8、对最佳标注集进行人工标注,从而无需大量标注训练样本。
在本公开的一实施例中,所述步骤S1中,取样标注样本选择涵盖电信行业客服投诉相关专有名词条目,保证电信行业客服投诉工单文本中专有名词的标注。
在本公开的一实施例中,所述步骤S2中,利用信息熵SVM算法实时更新模型。
在本公开的一实施例中,所述步骤S3中,所述数据累计阈值为100-200条。
在本公开的一实施例中,所述步骤S3中,使用线下offline的QBC算法深度学习更新模型。
本发明还提供一种基于投诉工单训练文本计算最佳标注集的系统,包括:
取样标注模块,用于取样标注一个样本;
线上主动学习模块,用于主动在线学习实时更新模型;
线下主动学习模块,用于当标注数据达到一定数据累计阈值时,使用线下深度学习更新模型;
example预测模块,用于模型更新后对未标注池example做预测;
待标注样例选取模块,用于取确信度最低example作为待标注样例;
迭代模块,用于对待标注样例进行重复标注;
最优模型算法模块,用于重复生成最优模型算法后,计算输出最佳待标注集;
最佳待标注集模块,用于对最佳标注集进行人工标注,从而无需大量标注训练样本。
在本公开的一实施例中,所述取样标注模块中,取样标注样本选择涵盖电信行业客服投诉相关专有名词条目,保证电信行业客服投诉工单文本中专有名词的标注。
在本公开的一实施例中,所述线上主动学习模块中,利用信息熵SVM算法实时更新模型。
在本公开的一实施例中,所述线下主动学习模块中,所述数据累计阈值为100-200条。
在本公开的一实施例中,所述线下主动学习模块中,使用线下offline的QBC算法深度学习更新模型。
本发明提供的基于电信行业客服投诉工单训练文本计算最佳标注集的方法及系统,具有的技术效果为,本发明采用一种方法针对电信行业客服投诉工单文本分类模型训练样本已标注过程中进行主动学习,输出未标注样本池最小待标注样本,从而实现核心有效小样本标注,降低标注时长,减少训练时间及经济成本。
本发明实施例的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明实施例的技术方案做进一步的详细描述。
附图说明
图1是基于电信行业客服投诉工单训练文本计算最佳标注集的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明的实现思路为选取待标注训练样本后,1、取样标注一个样本;2、主动在线学习实时更新模型;3、当标注数据达到一定数据累计阈值时,使用线下深度学习更新模型;4、模型更新后对未标注池example做预测;5、取确信度最低example作为待标注样例;6、重复至步骤1;7、重复生成最优模型算法后,计算输出最佳待标注集;8、对最佳标注集进行人工标注,从而无需大量标注训练样本。
图1为本发明基于电信行业客服投诉工单训练文本计算最佳标注集的方法的实施方式。首先选取待标注电信行业客服投诉工单训练样本,然后进行如下步骤:
S1、取样标注一个样本label,取样标注样本应尽量选择涵盖电信行业客服投诉相关专有名词条目,保证电信行业客服投诉工单文本中专有名词的标注。
S2、对样本进行标注检测,并基于主动学习active learning模型在线online主动学习,利用信息熵SVM算法实时更新模型。
S3、当样本标注数据达到一定数据累计阈值(100-200条)时,使用线下offline的QBC算法深度学习更新模型。
S4、模型更新后对未标注example池做预测。
S5、取确信度最低example作为待标注样例。
S6、重复至步骤S1,对待标注样例进行标注。
S7、利用线下offlineQBC算法,不断迭代,生成最优模型后,计算输出最佳待标注集。
S8、对最佳标注集进行人工标注,从而无需大量标注训练样本。
本发明又一实施例提供一种基于电信行业客服投诉工单训练文本计算最佳标注集的系统,包括:
取样标注模块,用于取样标注一个样本。取样标注样本选择涵盖电信行业客服投诉相关专有名词条目,保证电信行业客服投诉工单文本中专有名词的标注。
线上主动学习模块,用于主动在线学习实时更新模型。利用信息熵SVM算法实时更新模型。
线下主动学习模块,用于当标注数据达到一定数据累计阈值时,使用线下offline的QBC算法深度学习更新模型;数据累计阈值为100-200条。
example预测模块,用于模型更新后对未标注池example做预测。
待标注样例选取模块,用于取确信度最低example作为待标注样例。
迭代模块,用于对待标注样例进行重复标注。
最优模型算法模块,用于重复生成最优模型算法后,计算输出最佳待标注集。
最佳待标注集模块,用于对最佳标注集进行人工标注,从而无需大量标注训练样本。
本发明采用一种针对电信行业客服投诉工单文本语料进行主动学习提出最小核心有用标注集的方法,Online线上与offline线下模型互相协作,与用户手动标注的过程一起不断循环迭代。在取样标注任务完成之后,offline线下模型可以重新在所有标注数据上重新训练,以达到最好的模型效果,从而减少人工标注的样本数量,大量降低人工标注成本,提高投诉工单文本分析系统的效率。
以上所述仅为本发明的较佳实施例而已,为方便本领域的技术人员更容易理解而设计,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于电信行业客服投诉工单训练文本计算最佳标注集的方法,其特征在于,包括:
S1、取样标注一个样本;
S2、主动在线学习实时更新模型;
S3、当标注数据达到一定数据累计阈值时,使用线下深度学习更新模型;
S4、模型更新后对未标注池example做预测;
S5、取确信度最低example作为待标注样例;
S6、重复至步骤S1,对待标注样例进行标注;
S7、重复生成最优模型算法后,计算输出最佳待标注集;
S8、对最佳待标注集进行人工标注,从而无需大量标注训练样本。
2.如权利要求1所述的方法,其特征在于,所述步骤S1中,取样标注样本选择涵盖电信行业客服投诉相关专有名词条目,保证电信行业客服投诉工单文本中专有名词的标注。
3.如权利要求1所述的方法,其特征在于,所述步骤S2中,利用信息熵SVM算法实时更新模型。
4.如权利要求1所述的方法,其特征在于,所述步骤S3中,所述数据累计阈值为100-200条。
5.如权利要求1所述的方法,其特征在于,所述步骤S3中,使用线下offline的QBC算法深度学习更新模型。
6.一种基于电信行业客服投诉工单训练文本计算最佳标注集的系统,其特征在于,包括:
取样标注模块,用于取样标注一个样本;
线上主动学习模块,用于主动在线学习实时更新模型;
线下主动学习模块,用于当标注数据达到一定数据累计阈值时,使用线下深度学习更新模型;
example预测模块,用于模型更新后对未标注池example做预测;
待标注样例选取模块,用于取确信度最低example作为待标注样例;
迭代模块,用于对待标注样例进行重复标注;
最优模型算法模块,用于重复生成最优模型算法后,计算输出最佳待标注集;最佳标注集模块,用于对最佳待标注集进行人工标注,从而无需大量标注训练样本。
7.如权利要求6所述的系统,其特征在于,所述取样标注模块中,取样标注样本选择涵盖电信行业客服投诉相关专有名词条目,保证电信行业客服投诉工单文本中专有名词的标注。
8.如权利要求6所述的系统,其特征在于,所述线上主动学习模块中,利用信息熵SVM算法实时更新模型。
9.如权利要求6所述的系统,其特征在于,所述线下主动学习模块中,所述数据累计阈值为100-200条。
10.如权利要求6所述的系统,其特征在于,所述线下主动学习模块中,使用线下offline的QBC算法深度学习更新模型。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2019113997730 | 2019-12-27 | ||
CN201911399773 | 2019-12-27 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111353291A CN111353291A (zh) | 2020-06-30 |
CN111353291B true CN111353291B (zh) | 2023-08-01 |
Family
ID=71194060
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010114158.7A Active CN111353291B (zh) | 2019-12-27 | 2020-02-24 | 一种基于投诉工单训练文本计算最佳标注集的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111353291B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112968941B (zh) * | 2021-02-01 | 2022-07-08 | 中科视拓(南京)科技有限公司 | 一种基于边缘计算的数据采集和人机协同标注方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109918642A (zh) * | 2019-01-23 | 2019-06-21 | 重庆恢恢信息技术有限公司 | 基于委员会查询的主动学习框架的情感分析方法及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120310864A1 (en) * | 2011-05-31 | 2012-12-06 | Shayok Chakraborty | Adaptive Batch Mode Active Learning for Evolving a Classifier |
US9135570B2 (en) * | 2012-02-22 | 2015-09-15 | Vencore Labs, Inc. | Active acquisition of privileged information |
CN104318242A (zh) * | 2014-10-08 | 2015-01-28 | 中国人民解放军空军工程大学 | 一种高效的svm主动半监督学习算法 |
CN108519978A (zh) * | 2018-04-10 | 2018-09-11 | 成都信息工程大学 | 一种基于主动学习的中文正式文本分词方法 |
CN109656808B (zh) * | 2018-11-07 | 2022-03-11 | 江苏工程职业技术学院 | 一种基于混合式主动学习策略的软件缺陷预测方法 |
-
2020
- 2020-02-24 CN CN202010114158.7A patent/CN111353291B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109918642A (zh) * | 2019-01-23 | 2019-06-21 | 重庆恢恢信息技术有限公司 | 基于委员会查询的主动学习框架的情感分析方法及系统 |
Non-Patent Citations (1)
Title |
---|
一种基于QBC的SVM主动学习算法;徐海龙;别晓峰;冯卉;吴天爱;;系统工程与电子技术(第12期);第1-7页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111353291A (zh) | 2020-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145087B (zh) | 一种基于表示学习和竞争理论的学者推荐及合作预测方法 | |
CN110929149A (zh) | 一种工业设备故障维修推荐方法和系统 | |
CN106778878B (zh) | 一种人物关系分类方法及装置 | |
CN110750645A (zh) | 基于对抗训练的跨领域虚假评论识别方法 | |
CN113434688B (zh) | 用于舆情分类模型训练的数据处理方法和装置 | |
CN110046356B (zh) | 标签嵌入的微博文本情绪多标签分类方法 | |
CN111339260A (zh) | 一种基于bert和qa思想的细粒度情感分析方法 | |
CN112836509A (zh) | 一种专家系统知识库构建方法及系统 | |
CN112084334A (zh) | 语料的标签分类方法、装置、计算机设备及存储介质 | |
CN107239564A (zh) | 一种基于监督主题模型的文本标签推荐方法 | |
CN114528845A (zh) | 异常日志的分析方法、装置及电子设备 | |
CN116070602B (zh) | 一种pdf文档智能标注与抽取方法 | |
CN111353291B (zh) | 一种基于投诉工单训练文本计算最佳标注集的方法及系统 | |
CN110390014B (zh) | 一种主题挖掘方法、装置及存储介质 | |
CN111931499A (zh) | 模型训练方法及系统、垃圾邮件识别方法及系统和设备 | |
CN113360647B (zh) | 一种基于聚类的5g移动业务投诉溯源分析方法 | |
Ransing et al. | Screening and Ranking Resumes using Stacked Model | |
CN110287495A (zh) | 一种电力营销专业词识别方法及系统 | |
Dritsas et al. | Pre-processing framework for twitter sentiment classification | |
CN112597273A (zh) | 一种基于nl2sql技术的配电自动化图表生成方法 | |
CN112530582B (zh) | 一种辅助死因分类编码的智能系统 | |
KR20200082136A (ko) | 온라인 데이터에 기반한 사용자 성 정체성 예측 장치 및 방법 | |
CN115238093A (zh) | 一种模型训练的方法、装置、电子设备及存储介质 | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 | |
CN114398466A (zh) | 基于语义识别的投诉分析方法、装置、计算机设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |