CN107729921A - 一种机器主动学习方法及学习系统 - Google Patents

一种机器主动学习方法及学习系统 Download PDF

Info

Publication number
CN107729921A
CN107729921A CN201710855853.7A CN201710855853A CN107729921A CN 107729921 A CN107729921 A CN 107729921A CN 201710855853 A CN201710855853 A CN 201710855853A CN 107729921 A CN107729921 A CN 107729921A
Authority
CN
China
Prior art keywords
corpus data
learning
recommendation
classification
test model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710855853.7A
Other languages
English (en)
Other versions
CN107729921B (zh
Inventor
蔡振华
肖龙源
朱敬华
李稀敏
刘晓葳
谭玉坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Kuaishangtong Technology Co Ltd
Original Assignee
Xiamen Kuaishangtong Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Kuaishangtong Technology Co Ltd filed Critical Xiamen Kuaishangtong Technology Co Ltd
Priority to CN201710855853.7A priority Critical patent/CN107729921B/zh
Publication of CN107729921A publication Critical patent/CN107729921A/zh
Application granted granted Critical
Publication of CN107729921B publication Critical patent/CN107729921B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种机器主动学习方法及学习系统,其通过对原始语料数据进行聚类处理,得到分类语料数据;根据预设规则自动推荐所述分类语料数据,得到推荐语料数据;对所述推荐语料数据进行人工标注,得到标注语料数据;将所述标注语料数据输入测试模型进行机器学习,并输出学习结果;从而将监督学习与无监督学习进行有机结合,在保证较好的学习效果的基础上,极大的减少了人工标注的工作量,提高了学习效率。

Description

一种机器主动学习方法及学习系统
技术领域
本发明涉及机器学习技术领域,特别是一种机器主动学习方法及其应用该方法的系统。
背景技术
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机实现智能化、自动化的根本途径,其应用遍及人工智能的各个领域。
目前,机器学习的方法主要有两种,分别是监督学习和无监督学习。无监督学习是完全不干涉其学习内容,让机器自主、自由学习数据,节省大量人力成本,但其最终学习的效果不好;监督学习是人为的筛选、准备数据让机器去学习,虽然学习效果较好,但前期需要花费较多的人力去准备机器学习的数据。
如何能够让人工挑选最值得学习的语料数据让机器去学习,以实现监督学习和无监督学习二者之间的平衡,是本发明所解决的问题所在。
发明内容
本发明为解决上述问题,提供了一种机器主动学习方法及学习系统,将监督学习与无监督学习进行有机结合,在保证较好的学习效果的基础上,极大的减少了人工标注的工作量,提高了学习效率。
为实现上述目的,本发明采用的技术方案为:
一种机器主动学习方法,其包括以下步骤:
a.对原始语料数据进行聚类处理,得到分类语料数据;
b.根据预设规则自动推荐所述分类语料数据,得到推荐语料数据;
c.对所述推荐语料数据进行人工标注,得到标注语料数据;
d.将所述标注语料数据输入测试模型进行机器学习,并输出学习结果。
优选的,进一步包括以下步骤:
e.将所述学习结果再次加入所述推荐语料数据,并重复步骤c、d;
f.当所述测试模型的性能指数达到预设要求时,终止学习。
优选的,所述步骤f包括:
f1.当所述测试模型的性能指数达到预设值时,终止学习;和/或
f2.当所述测试模型的性能指数的提升值小于预设阈值时,终止学习。
优选的,所述的步骤b中,是指将一个以上的分类语料数据分别利用测试模型进行机器学习,并根据学习结果的准确率,将准确率低于预设值的分类语料数据自动推荐为所述推荐语料数据。
优选的,所述学习结果包括:所述分类语料数据的所属类别以及对应的置信度;所述置信度较大则表示学习结果的准确率较高,所述置信度较小则表示学习结果的准确率较低;将置信度小于预设的置信度阈值的分类语料数据自动推荐为所述推荐语料数据,和/或,将所述所属类别与聚类类别不一致的分类语料数据自动推荐为所述推荐语料数据。
优选的,所述的步骤e中,将所述学习结果再次加入所述推荐语料数据,是指将一个以上的标注语料数据分别利用测试模型进行机器学习,并根据学习结果的准确率,将准确率低于预设值的标注语料数据自动推荐为所述推荐语料数据。
优选的,所述学习结果包括:所述标注语料数据的所属类别以及对应的置信度;所述置信度较大则表示学习结果的准确率较高,所述置信度较小则表示学习结果的准确率较低;将置信度小于预设的置信度阈值的标注语料数据自动推荐为所述推荐语料数据。
对应的,本发明还提供一种机器主动学习系统,其包括:
分类模块,用于对原始语料数据进行聚类处理,得到分类语料数据;
自动推荐模块,其根据预设规则自动推荐所述分类语料数据,得到推荐语料数据;
标注模块,用于对所述推荐语料数据进行人工标注,得到标注语料数据;
学习模块,其将所述标注语料数据输入测试模型进行机器学习,并输出学习结果。
优选的,还包括优化模块,其将所述学习结果再次加入所述推荐语料数据,并通过标注模块进行重新人工标注、学习模块进行重新学习,如此循环;当所述测试模型的性能指数达到预设要求时,终止学习。
本发明的有益效果是:
(1)本发明在监督学习和无监督学习之间找到一个平衡的方法,通过对原始语料数据进行聚类处理后,再根据预设规则自动推荐聚类后的分类语料数据以及对推荐语料数据进行人工标注,最后再将标注语料数据输入测试模型进行机器学习;从而无需对所有的原始语料数据进行标注,极大的减少了人工标注的工作量,并且仅对标注语料数据进行机器学习,在保证较好的学习效果的基础上,进一步提高了学习效率。
(2)本发明仅将分类错误或者准确率低于预设值的分类语料数据加入推荐语料数据进行标注和学习,从而极大的减少了人工标注的工作量,并提高了测试模型的准确率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明一种机器主动学习方法的流程简图;
图2为本发明一种机器主动学习系统的结构示意图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图及实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,本实施例的一种机器主动学习方法,其包括以下步骤:
a.对原始语料数据进行聚类处理,得到分类语料数据;
b.根据预设规则自动推荐所述分类语料数据,得到推荐语料数据;
c.对所述推荐语料数据进行人工标注,得到标注语料数据;
d.将所述标注语料数据输入测试模型进行机器学习,并输出学习结果;
e.将所述学习结果再次加入所述推荐语料数据,并重复步骤c、d;
f.当所述测试模型的性能指数达到预设要求时,终止学习。
其中,所述步骤f包括:
f1.当所述测试模型的性能指数达到预设值时,终止学习;和/或
f2.当所述测试模型的性能指数的提升值小于预设阈值时,终止学习。
所述的步骤b中,是指将一个以上的分类语料数据分别利用测试模型进行机器学习,并根据学习结果的准确率,将准确率低于预设值的分类语料数据自动推荐为所述推荐语料数据。其中,所述学习结果包括:所述分类语料数据的所属类别以及对应的置信度;所述置信度较大则表示学习结果的准确率较高,所述置信度较小则表示学习结果的准确率较低;将置信度小于预设的置信度阈值的分类语料数据自动推荐为所述推荐语料数据,和/或,将所述所属类别与聚类类别不一致的分类语料数据自动推荐为所述推荐语料数据。
所述的步骤e中,将所述学习结果再次加入所述推荐语料数据,是指将一个以上的标注语料数据分别利用测试模型进行机器学习,并根据学习结果的准确率,将准确率低于预设值的标注语料数据自动推荐为所述推荐语料数据。其中,所述学习结果包括:所述标注语料数据的所属类别以及对应的置信度;所述置信度较大则表示学习结果的准确率较高,所述置信度较小则表示学习结果的准确率较低;将置信度小于预设的置信度阈值的标注语料数据自动推荐为所述推荐语料数据。
本发明的主动学习方法应用与智能客服时,其对智能客服在服务过程中的对话语料的学习过程简述如下:
1.获取智能客服与访客的对话语料,作为原始语料数据;
2.对原始语料数据进行聚类处理,得到分类语料数据;
3.假设聚类结果为A、B、C、D四类,则该四类的分类语料数据分别利用测试模型进行机器学习,并分别获取各个类别对应的学习结果的准确率;
4.将准确率低于预设值的分类语料数据或者聚类错误的分类语料数据,例如,C类语料数据,自动推荐为所述推荐语料数据;
5.对所述C类语料数据进行人工标注,得到标注语料数据;
6.将所述标注语料数据输入测试模型进行机器学习,并输出学习结果;
7.将学习结果中准确率低于预设值的标注语料数据或者类别错误的标注语料数据,重新进行标识和学习,如此循环;
8.当所述测试模型的性能指数(例如,包括准确率、召回率、F值)达到预设值时,和/或,当所述测试模型的性能指数的提升值小于预设阈值(可根据经验设定)时,终止学习。
如图2所示,本发明还对应提供一种机器主动学习系统,其包括:
分类模块,用于对原始语料数据进行聚类处理,得到分类语料数据;
自动推荐模块,其根据预设规则自动推荐所述分类语料数据,得到推荐语料数据;
标注模块,用于对所述推荐语料数据进行人工标注,得到标注语料数据;
学习模块,其将所述标注语料数据输入测试模型进行机器学习,并输出学习结果;
优化模块,其将所述学习结果再次加入所述推荐语料数据,并通过标注模块进行重新人工标注、学习模块进行重新学习,如此循环;当所述测试模型的性能指数达到预设要求时,终止学习。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
并且,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外,本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
上述说明示出并描述了本发明的优选实施例,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (9)

1.一种机器主动学习方法,其特征在于,包括以下步骤:
a.对原始语料数据进行聚类处理,得到分类语料数据;
b.根据预设规则自动推荐所述分类语料数据,得到推荐语料数据;
c.对所述推荐语料数据进行人工标注,得到标注语料数据;
d.将所述标注语料数据输入测试模型进行机器学习,并输出学习结果。
2.根据权利要求1所述的一种机器主动学习方法,其特征在于,进一步包括以下步骤:
e.将所述学习结果再次加入所述推荐语料数据,并重复步骤c、d;
f.当所述测试模型的性能指数达到预设要求时,终止学习。
3.根据权利要求2所述的一种机器主动学习方法,其特征在于:所述步骤f包括:
f1.当所述测试模型的性能指数达到预设值时,终止学习;和/或
f2.当所述测试模型的性能指数的提升值小于预设阈值时,终止学习。
4.根据权利要求1或2或3所述的一种机器主动学习方法,其特征在于:所述的步骤b中,是指将一个以上的分类语料数据分别利用测试模型进行机器学习,并根据学习结果的准确率,将准确率低于预设值的分类语料数据自动推荐为所述推荐语料数据。
5.根据权利要求4所述的一种机器主动学习方法,其特征在于:所述学习结果包括:所述分类语料数据的所属类别以及对应的置信度;所述置信度较大则表示学习结果的准确率较高,所述置信度较小则表示学习结果的准确率较低;将置信度小于预设的置信度阈值的分类语料数据自动推荐为所述推荐语料数据,和/或,将所述所属类别与聚类类别不一致的分类语料数据自动推荐为所述推荐语料数据。
6.根据权利要求2或3所述的一种机器主动学习方法,其特征在于:所述的步骤e中,将所述学习结果再次加入所述推荐语料数据,是指将一个以上的标注语料数据分别利用测试模型进行机器学习,并根据学习结果的准确率,将准确率低于预设值的标注语料数据自动推荐为所述推荐语料数据。
7.根据权利要求6所述的一种机器主动学习方法,其特征在于:所述学习结果包括:所述标注语料数据的所属类别以及对应的置信度;所述置信度较大则表示学习结果的准确率较高,所述置信度较小则表示学习结果的准确率较低;将置信度小于预设的置信度阈值的标注语料数据自动推荐为所述推荐语料数据。
8.一种机器主动学习系统,其特征在于,包括:
分类模块,用于对原始语料数据进行聚类处理,得到分类语料数据;
自动推荐模块,其根据预设规则自动推荐所述分类语料数据,得到推荐语料数据;
标注模块,用于对所述推荐语料数据进行人工标注,得到标注语料数据;
学习模块,其将所述标注语料数据输入测试模型进行机器学习,并输出学习结果。
9.根据权利要求8所述的一种机器主动学习系统,其特征在于,还包括优化模块,其将所述学习结果再次加入所述推荐语料数据,并通过标注模块进行重新人工标注、学习模块进行重新学习,如此循环;当所述测试模型的性能指数达到预设要求时,终止学习。
CN201710855853.7A 2017-09-20 2017-09-20 一种机器主动学习方法及学习系统 Active CN107729921B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710855853.7A CN107729921B (zh) 2017-09-20 2017-09-20 一种机器主动学习方法及学习系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710855853.7A CN107729921B (zh) 2017-09-20 2017-09-20 一种机器主动学习方法及学习系统

Publications (2)

Publication Number Publication Date
CN107729921A true CN107729921A (zh) 2018-02-23
CN107729921B CN107729921B (zh) 2020-08-21

Family

ID=61206378

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710855853.7A Active CN107729921B (zh) 2017-09-20 2017-09-20 一种机器主动学习方法及学习系统

Country Status (1)

Country Link
CN (1) CN107729921B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271630A (zh) * 2018-09-11 2019-01-25 成都信息工程大学 一种基于自然语言处理的智能标注方法及装置
CN109582925A (zh) * 2018-11-08 2019-04-05 厦门快商通信息技术有限公司 一种人机结合的语料标注方法及系统
CN109948727A (zh) * 2019-03-28 2019-06-28 北京周同科技有限公司 图像分类模型的训练及分类方法、计算机设备和存储介质
CN114492306A (zh) * 2021-11-16 2022-05-13 马上消费金融股份有限公司 语料标注方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101206727A (zh) * 2006-12-19 2008-06-25 富士施乐株式会社 数据处理装置、方法和程序以及计算机可读介质
CN101819601A (zh) * 2010-05-11 2010-09-01 同方知网(北京)技术有限公司 学术文献自动分类的方法
EP2584496A1 (en) * 2011-10-20 2013-04-24 Telefonaktiebolaget L M Ericsson AB (Publ) Creating and using multiple packet traffic profiling models to profile packet flows
CN103150454A (zh) * 2013-03-27 2013-06-12 山东大学 基于样本推荐标注的动态机器学习建模方法
CN106228183A (zh) * 2016-07-18 2016-12-14 北京邮电大学 一种半监督学习分类方法与装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101206727A (zh) * 2006-12-19 2008-06-25 富士施乐株式会社 数据处理装置、方法和程序以及计算机可读介质
CN101819601A (zh) * 2010-05-11 2010-09-01 同方知网(北京)技术有限公司 学术文献自动分类的方法
EP2584496A1 (en) * 2011-10-20 2013-04-24 Telefonaktiebolaget L M Ericsson AB (Publ) Creating and using multiple packet traffic profiling models to profile packet flows
CN103150454A (zh) * 2013-03-27 2013-06-12 山东大学 基于样本推荐标注的动态机器学习建模方法
CN106228183A (zh) * 2016-07-18 2016-12-14 北京邮电大学 一种半监督学习分类方法与装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271630A (zh) * 2018-09-11 2019-01-25 成都信息工程大学 一种基于自然语言处理的智能标注方法及装置
CN109271630B (zh) * 2018-09-11 2022-07-05 成都信息工程大学 一种基于自然语言处理的智能标注方法及装置
CN109582925A (zh) * 2018-11-08 2019-04-05 厦门快商通信息技术有限公司 一种人机结合的语料标注方法及系统
CN109582925B (zh) * 2018-11-08 2023-02-14 厦门快商通信息技术有限公司 一种人机结合的语料标注方法及系统
CN109948727A (zh) * 2019-03-28 2019-06-28 北京周同科技有限公司 图像分类模型的训练及分类方法、计算机设备和存储介质
CN114492306A (zh) * 2021-11-16 2022-05-13 马上消费金融股份有限公司 语料标注方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN107729921B (zh) 2020-08-21

Similar Documents

Publication Publication Date Title
CN107729921A (zh) 一种机器主动学习方法及学习系统
Muni et al. A novel approach to design classifiers using genetic programming
Kankuekul et al. Online incremental attribute-based zero-shot learning
CN112100383A (zh) 一种面向多任务语言模型的元-知识微调方法及平台
CN108197643B (zh) 一种基于无监督聚类和度量学习的迁移学习方法
CN109918642A (zh) 基于委员会查询的主动学习框架的情感分析方法及系统
Barghout Spatial-taxon information granules as used in iterative fuzzy-decision-making for image segmentation
CN108985342A (zh) 一种基于深度增强学习的不平衡分类方法
CN107544960B (zh) 一种基于变量绑定和关系激活的自动问答方法
Jabeen et al. Review of classification using genetic programming
CN110222634A (zh) 一种基于卷积神经网络的人体姿态识别方法
CN113516198B (zh) 一种基于记忆网络和图神经网络的文化资源文本分类方法
CN107818080A (zh) 术语识别方法及装置
Alshmrany Adaptive learning style prediction in e-learning environment using levy flight distribution based CNN model
CN114417913B (zh) 基于pc-tcn和迁移学习的轴承寿命预测方法
CN108765228A (zh) 一种计算机自适应私教学习方法
CN114818703B (zh) 基于BERT语言模型和TextCNN模型的多意图识别方法及系统
CN109214444B (zh) 基于孪生神经网络和gmm的游戏防沉迷判定系统及方法
CN110458600A (zh) 画像模型训练方法、装置、计算机设备及存储介质
CN112308115A (zh) 一种多标签图像深度学习分类方法及设备
Lu et al. Decision tree algorithm in machine learning
WO2020135054A1 (zh) 视频推荐方法、装置、设备及存储介质
CN111046655A (zh) 一种数据处理方法、装置及计算机可读存储介质
Lonij et al. Open-world visual recognition using knowledge graphs
CN115858725B (zh) 一种基于无监督式图神经网络的文本噪声筛选方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A machine active learning method and learning system

Effective date of registration: 20221202

Granted publication date: 20200821

Pledgee: Industrial Bank Limited by Share Ltd. Xiamen branch

Pledgor: XIAMEN KUAISHANGTONG TECH. Corp.,Ltd.

Registration number: Y2022980024751