CN107729921B - 一种机器主动学习方法及学习系统 - Google Patents

一种机器主动学习方法及学习系统 Download PDF

Info

Publication number
CN107729921B
CN107729921B CN201710855853.7A CN201710855853A CN107729921B CN 107729921 B CN107729921 B CN 107729921B CN 201710855853 A CN201710855853 A CN 201710855853A CN 107729921 B CN107729921 B CN 107729921B
Authority
CN
China
Prior art keywords
corpus data
learning
recommended
classified
test model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710855853.7A
Other languages
English (en)
Other versions
CN107729921A (zh
Inventor
蔡振华
肖龙源
朱敬华
李稀敏
刘晓葳
谭玉坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Kuaishangtong Technology Co Ltd
Original Assignee
Xiamen Kuaishangtong Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Kuaishangtong Technology Co Ltd filed Critical Xiamen Kuaishangtong Technology Co Ltd
Priority to CN201710855853.7A priority Critical patent/CN107729921B/zh
Publication of CN107729921A publication Critical patent/CN107729921A/zh
Application granted granted Critical
Publication of CN107729921B publication Critical patent/CN107729921B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种机器主动学习方法及学习系统,其通过对原始语料数据进行聚类处理,得到分类语料数据;根据预设规则自动推荐所述分类语料数据,得到推荐语料数据;对所述推荐语料数据进行人工标注,得到标注语料数据;将所述标注语料数据输入测试模型进行机器学习,并输出学习结果;从而将监督学习与无监督学习进行有机结合,在保证较好的学习效果的基础上,极大的减少了人工标注的工作量,提高了学习效率。

Description

一种机器主动学习方法及学习系统
技术领域
本发明涉及机器学习技术领域,特别是一种机器主动学习方法及其应用该方法的系统。
背景技术
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机实现智能化、自动化的根本途径,其应用遍及人工智能的各个领域。
目前,机器学习的方法主要有两种,分别是监督学习和无监督学习。无监督学习是完全不干涉其学习内容,让机器自主、自由学习数据,节省大量人力成本,但其最终学习的效果不好;监督学习是人为的筛选、准备数据让机器去学习,虽然学习效果较好,但前期需要花费较多的人力去准备机器学习的数据。
如何能够让人工挑选最值得学习的语料数据让机器去学习,以实现监督学习和无监督学习二者之间的平衡,是本发明所解决的问题所在。
发明内容
本发明为解决上述问题,提供了一种机器主动学习方法及学习系统,将监督学习与无监督学习进行有机结合,在保证较好的学习效果的基础上,极大的减少了人工标注的工作量,提高了学习效率。
为实现上述目的,本发明采用的技术方案为:
一种机器主动学习方法,其包括以下步骤:
a.对原始语料数据进行聚类处理,得到分类语料数据;
b.根据预设规则自动推荐所述分类语料数据,得到推荐语料数据;
c.对所述推荐语料数据进行人工标注,得到标注语料数据;
d.将所述标注语料数据输入测试模型进行机器学习,并输出学习结果。
优选的,进一步包括以下步骤:
e.将所述学习结果再次加入所述推荐语料数据,并重复步骤c、d;
f.当所述测试模型的性能指数达到预设要求时,终止学习。
优选的,所述步骤f包括:
f1.当所述测试模型的性能指数达到预设值时,终止学习;和/或
f2.当所述测试模型的性能指数的提升值小于预设阈值时,终止学习。
优选的,所述的步骤b中,是指将一个以上的分类语料数据分别利用测试模型进行机器学习,并根据学习结果的准确率,将准确率低于预设值的分类语料数据自动推荐为所述推荐语料数据。
优选的,所述学习结果包括:所述分类语料数据的所属类别以及对应的置信度;所述置信度较大则表示学习结果的准确率较高,所述置信度较小则表示学习结果的准确率较低;将置信度小于预设的置信度阈值的分类语料数据自动推荐为所述推荐语料数据,和/或,将所述所属类别与聚类类别不一致的分类语料数据自动推荐为所述推荐语料数据。
优选的,所述的步骤e中,将所述学习结果再次加入所述推荐语料数据,是指将一个以上的标注语料数据分别利用测试模型进行机器学习,并根据学习结果的准确率,将准确率低于预设值的标注语料数据自动推荐为所述推荐语料数据。
优选的,所述学习结果包括:所述标注语料数据的所属类别以及对应的置信度;所述置信度较大则表示学习结果的准确率较高,所述置信度较小则表示学习结果的准确率较低;将置信度小于预设的置信度阈值的标注语料数据自动推荐为所述推荐语料数据。
对应的,本发明还提供一种机器主动学习系统,其包括:
分类模块,用于对原始语料数据进行聚类处理,得到分类语料数据;
自动推荐模块,其根据预设规则自动推荐所述分类语料数据,得到推荐语料数据;
标注模块,用于对所述推荐语料数据进行人工标注,得到标注语料数据;
学习模块,其将所述标注语料数据输入测试模型进行机器学习,并输出学习结果。
优选的,还包括优化模块,其将所述学习结果再次加入所述推荐语料数据,并通过标注模块进行重新人工标注、学习模块进行重新学习,如此循环;当所述测试模型的性能指数达到预设要求时,终止学习。
本发明的有益效果是:
(1)本发明在监督学习和无监督学习之间找到一个平衡的方法,通过对原始语料数据进行聚类处理后,再根据预设规则自动推荐聚类后的分类语料数据以及对推荐语料数据进行人工标注,最后再将标注语料数据输入测试模型进行机器学习;从而无需对所有的原始语料数据进行标注,极大的减少了人工标注的工作量,并且仅对标注语料数据进行机器学习,在保证较好的学习效果的基础上,进一步提高了学习效率。
(2)本发明仅将分类错误或者准确率低于预设值的分类语料数据加入推荐语料数据进行标注和学习,从而极大的减少了人工标注的工作量,并提高了测试模型的准确率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明一种机器主动学习方法的流程简图;
图2为本发明一种机器主动学习系统的结构示意图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图及实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,本实施例的一种机器主动学习方法,其包括以下步骤:
a.对原始语料数据进行聚类处理,得到分类语料数据;
b.根据预设规则自动推荐所述分类语料数据,得到推荐语料数据;
c.对所述推荐语料数据进行人工标注,得到标注语料数据;
d.将所述标注语料数据输入测试模型进行机器学习,并输出学习结果;
e.将所述学习结果再次加入所述推荐语料数据,并重复步骤c、d;
f.当所述测试模型的性能指数达到预设要求时,终止学习。
其中,所述步骤f包括:
f1.当所述测试模型的性能指数达到预设值时,终止学习;和/或
f2.当所述测试模型的性能指数的提升值小于预设阈值时,终止学习。
所述的步骤b中,是指将一个以上的分类语料数据分别利用测试模型进行机器学习,并根据学习结果的准确率,将准确率低于预设值的分类语料数据自动推荐为所述推荐语料数据。其中,所述学习结果包括:所述分类语料数据的所属类别以及对应的置信度;所述置信度较大则表示学习结果的准确率较高,所述置信度较小则表示学习结果的准确率较低;将置信度小于预设的置信度阈值的分类语料数据自动推荐为所述推荐语料数据,和/或,将所述所属类别与聚类类别不一致的分类语料数据自动推荐为所述推荐语料数据。
所述的步骤e中,将所述学习结果再次加入所述推荐语料数据,是指将一个以上的标注语料数据分别利用测试模型进行机器学习,并根据学习结果的准确率,将准确率低于预设值的标注语料数据自动推荐为所述推荐语料数据。其中,所述学习结果包括:所述标注语料数据的所属类别以及对应的置信度;所述置信度较大则表示学习结果的准确率较高,所述置信度较小则表示学习结果的准确率较低;将置信度小于预设的置信度阈值的标注语料数据自动推荐为所述推荐语料数据。
本发明的主动学习方法应用与智能客服时,其对智能客服在服务过程中的对话语料的学习过程简述如下:
1.获取智能客服与访客的对话语料,作为原始语料数据;
2.对原始语料数据进行聚类处理,得到分类语料数据;
3.假设聚类结果为A、B、C、D四类,则该四类的分类语料数据分别利用测试模型进行机器学习,并分别获取各个类别对应的学习结果的准确率;
4.将准确率低于预设值的分类语料数据或者聚类错误的分类语料数据,例如,C类语料数据,自动推荐为所述推荐语料数据;
5.对所述C类语料数据进行人工标注,得到标注语料数据;
6.将所述标注语料数据输入测试模型进行机器学习,并输出学习结果;
7.将学习结果中准确率低于预设值的标注语料数据或者类别错误的标注语料数据,重新进行标识和学习,如此循环;
8.当所述测试模型的性能指数(例如,包括准确率、召回率、F值)达到预设值时,和/或,当所述测试模型的性能指数的提升值小于预设阈值(可根据经验设定)时,终止学习。
如图2所示,本发明还对应提供一种机器主动学习系统,其包括:
分类模块,用于对原始语料数据进行聚类处理,得到分类语料数据;
自动推荐模块,其根据预设规则自动推荐所述分类语料数据,得到推荐语料数据;
标注模块,用于对所述推荐语料数据进行人工标注,得到标注语料数据;
学习模块,其将所述标注语料数据输入测试模型进行机器学习,并输出学习结果;
优化模块,其将所述学习结果再次加入所述推荐语料数据,并通过标注模块进行重新人工标注、学习模块进行重新学习,如此循环;当所述测试模型的性能指数达到预设要求时,终止学习。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
并且,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外,本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
上述说明示出并描述了本发明的优选实施例,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (8)

1.一种机器主动学习方法,其特征在于,包括以下步骤:
a.对原始语料数据进行聚类处理,得到分类语料数据;
b.根据预设规则自动推荐所述分类语料数据,得到推荐语料数据;
c.对所述推荐语料数据进行人工标注,得到标注语料数据;
d.将所述标注语料数据输入测试模型进行机器学习,并输出学习结果;
所述的步骤b中,是指将一个以上的分类语料数据分别利用测试模型进行机器学习,并根据学习结果的准确率,将准确率低于预设值的分类语料数据自动推荐为所述推荐语料数据。
2.根据权利要求1所述的一种机器主动学习方法,其特征在于,进一步包括以下步骤:
e.将所述学习结果再次加入所述推荐语料数据,并重复步骤c、d;
f.当所述测试模型的性能指数达到预设要求时,终止学习。
3.根据权利要求2所述的一种机器主动学习方法,其特征在于:所述步骤f包括:
f1.当所述测试模型的性能指数达到预设值时,终止学习;和/或
f2.当所述测试模型的性能指数的提升值小于预设阈值时,终止学习。
4.根据权利要求1所述的一种机器主动学习方法,其特征在于:所述学习结果包括:所述分类语料数据的所属类别以及对应的置信度;所述置信度较大则表示学习结果的准确率较高,所述置信度较小则表示学习结果的准确率较低;将置信度小于预设的置信度阈值的分类语料数据自动推荐为所述推荐语料数据,和/或,将所述所属类别与聚类类别不一致的分类语料数据自动推荐为所述推荐语料数据。
5.根据权利要求2或3所述的一种机器主动学习方法,其特征在于:所述的步骤e中,将所述学习结果再次加入所述推荐语料数据,是指将一个以上的标注语料数据分别利用测试模型进行机器学习,并根据学习结果的准确率,将准确率低于预设值的标注语料数据自动推荐为所述推荐语料数据。
6.根据权利要求5所述的一种机器主动学习方法,其特征在于:所述学习结果包括:所述标注语料数据的所属类别以及对应的置信度;所述置信度较大则表示学习结果的准确率较高,所述置信度较小则表示学习结果的准确率较低;将置信度小于预设的置信度阈值的标注语料数据自动推荐为所述推荐语料数据。
7.一种机器主动学习系统,其特征在于,包括:
分类模块,用于对原始语料数据进行聚类处理,得到分类语料数据;
自动推荐模块,其根据预设规则自动推荐所述分类语料数据,得到推荐语料数据;
标注模块,用于对所述推荐语料数据进行人工标注,得到标注语料数据;
学习模块,其将所述标注语料数据输入测试模型进行机器学习,并输出学习结果;
所述的自动推荐模块中,是指将一个以上的分类语料数据分别利用测试模型进行机器学习,并根据学习结果的准确率,将准确率低于预设值的分类语料数据自动推荐为所述推荐语料数据。
8.根据权利要求7所述的一种机器主动学习系统,其特征在于,还包括优化模块,其将所述学习结果再次加入所述推荐语料数据,并通过标注模块进行重新人工标注、学习模块进行重新学习,如此循环;当所述测试模型的性能指数达到预设要求时,终止学习。
CN201710855853.7A 2017-09-20 2017-09-20 一种机器主动学习方法及学习系统 Active CN107729921B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710855853.7A CN107729921B (zh) 2017-09-20 2017-09-20 一种机器主动学习方法及学习系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710855853.7A CN107729921B (zh) 2017-09-20 2017-09-20 一种机器主动学习方法及学习系统

Publications (2)

Publication Number Publication Date
CN107729921A CN107729921A (zh) 2018-02-23
CN107729921B true CN107729921B (zh) 2020-08-21

Family

ID=61206378

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710855853.7A Active CN107729921B (zh) 2017-09-20 2017-09-20 一种机器主动学习方法及学习系统

Country Status (1)

Country Link
CN (1) CN107729921B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271630B (zh) * 2018-09-11 2022-07-05 成都信息工程大学 一种基于自然语言处理的智能标注方法及装置
CN109582925B (zh) * 2018-11-08 2023-02-14 厦门快商通信息技术有限公司 一种人机结合的语料标注方法及系统
CN109948727A (zh) * 2019-03-28 2019-06-28 北京周同科技有限公司 图像分类模型的训练及分类方法、计算机设备和存储介质
CN114492306A (zh) * 2021-11-16 2022-05-13 马上消费金融股份有限公司 语料标注方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101206727A (zh) * 2006-12-19 2008-06-25 富士施乐株式会社 数据处理装置、方法和程序以及计算机可读介质
CN101819601A (zh) * 2010-05-11 2010-09-01 同方知网(北京)技术有限公司 学术文献自动分类的方法
EP2584496A1 (en) * 2011-10-20 2013-04-24 Telefonaktiebolaget L M Ericsson AB (Publ) Creating and using multiple packet traffic profiling models to profile packet flows
CN103150454A (zh) * 2013-03-27 2013-06-12 山东大学 基于样本推荐标注的动态机器学习建模方法
CN106228183A (zh) * 2016-07-18 2016-12-14 北京邮电大学 一种半监督学习分类方法与装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101206727A (zh) * 2006-12-19 2008-06-25 富士施乐株式会社 数据处理装置、方法和程序以及计算机可读介质
CN101819601A (zh) * 2010-05-11 2010-09-01 同方知网(北京)技术有限公司 学术文献自动分类的方法
EP2584496A1 (en) * 2011-10-20 2013-04-24 Telefonaktiebolaget L M Ericsson AB (Publ) Creating and using multiple packet traffic profiling models to profile packet flows
CN103150454A (zh) * 2013-03-27 2013-06-12 山东大学 基于样本推荐标注的动态机器学习建模方法
CN106228183A (zh) * 2016-07-18 2016-12-14 北京邮电大学 一种半监督学习分类方法与装置

Also Published As

Publication number Publication date
CN107729921A (zh) 2018-02-23

Similar Documents

Publication Publication Date Title
CN107729921B (zh) 一种机器主动学习方法及学习系统
US20220180882A1 (en) Training method and device for audio separation network, audio separation method and device, and medium
CN110188331B (zh) 模型训练方法、对话系统评价方法、装置、设备及存储介质
CN110019843B (zh) 知识图谱的处理方法及装置
US20210224326A1 (en) Dressing recommendation method and dressing recommendation apparatus
CN110633730A (zh) 一种基于课程学习的深度学习机器阅读理解训练方法
US9536444B2 (en) Evaluating expert opinions in a question and answer system
CN113128620B (zh) 一种基于层次关系的半监督领域自适应图片分类方法
Brinton et al. Social learning networks: Efficiency optimization for MOOC forums
CN108959331A (zh) 运用设备学习框架的方法、装置及计算机程序
CN110288007A (zh) 数据标注的方法、装置及电子设备
CN111275133A (zh) 分类模型的融合方法、装置及存储介质
CN110990600A (zh) 多媒体文件推荐、参数调整方法、装置、介质及电子设备
CN109086463B (zh) 一种基于区域卷积神经网络的问答社区标签推荐方法
CN109308332B (zh) 一种目标用户获取方法、装置和服务器
CN112163081A (zh) 标签确定方法、装置、介质及电子设备
Lee et al. Machine learning approaches for learning analytics: Collaborative filtering or regression with experts
CN111738010A (zh) 用于生成语义匹配模型的方法和装置
CN109117829A (zh) 基于tensorflow的茶叶品种识别系统
CN105023214A (zh) 一种题目知识点智能推荐方法
CN106250378B (zh) 公共标识分类方法及装置
CN113837307A (zh) 数据相似度计算方法、装置、可读介质及电子设备
CN110929532B (zh) 数据处理方法、装置、设备及存储介质
CN113705159A (zh) 商户名称的标注方法、装置、设备及存储介质
CN117033961A (zh) 一种上下文语境感知的多模态图文分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A machine active learning method and learning system

Effective date of registration: 20221202

Granted publication date: 20200821

Pledgee: Industrial Bank Limited by Share Ltd. Xiamen branch

Pledgor: XIAMEN KUAISHANGTONG TECH. Corp.,Ltd.

Registration number: Y2022980024751

PE01 Entry into force of the registration of the contract for pledge of patent right