CN107729921A

CN107729921A - 一种机器主动学习方法及学习系统

Info

Publication number: CN107729921A
Application number: CN201710855853.7A
Authority: CN
Inventors: 蔡振华; 肖龙源; 朱敬华; 李稀敏; 刘晓葳; 谭玉坤
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2017-09-20
Filing date: 2017-09-20
Publication date: 2018-02-23
Anticipated expiration: 2037-09-20
Also published as: CN107729921B

Abstract

本发明公开了一种机器主动学习方法及学习系统，其通过对原始语料数据进行聚类处理，得到分类语料数据；根据预设规则自动推荐所述分类语料数据，得到推荐语料数据；对所述推荐语料数据进行人工标注，得到标注语料数据；将所述标注语料数据输入测试模型进行机器学习，并输出学习结果；从而将监督学习与无监督学习进行有机结合，在保证较好的学习效果的基础上，极大的减少了人工标注的工作量，提高了学习效率。

Description

一种机器主动学习方法及学习系统

技术领域

本发明涉及机器学习技术领域，特别是一种机器主动学习方法及其应用该方法的系统。

背景技术

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机实现智能化、自动化的根本途径，其应用遍及人工智能的各个领域。

目前，机器学习的方法主要有两种，分别是监督学习和无监督学习。无监督学习是完全不干涉其学习内容，让机器自主、自由学习数据，节省大量人力成本，但其最终学习的效果不好；监督学习是人为的筛选、准备数据让机器去学习，虽然学习效果较好，但前期需要花费较多的人力去准备机器学习的数据。

如何能够让人工挑选最值得学习的语料数据让机器去学习，以实现监督学习和无监督学习二者之间的平衡，是本发明所解决的问题所在。

发明内容

本发明为解决上述问题，提供了一种机器主动学习方法及学习系统，将监督学习与无监督学习进行有机结合，在保证较好的学习效果的基础上，极大的减少了人工标注的工作量，提高了学习效率。

为实现上述目的，本发明采用的技术方案为：

一种机器主动学习方法，其包括以下步骤：

a.对原始语料数据进行聚类处理，得到分类语料数据；

b.根据预设规则自动推荐所述分类语料数据，得到推荐语料数据；

c.对所述推荐语料数据进行人工标注，得到标注语料数据；

d.将所述标注语料数据输入测试模型进行机器学习，并输出学习结果。

优选的，进一步包括以下步骤：

e.将所述学习结果再次加入所述推荐语料数据，并重复步骤c、d；

f.当所述测试模型的性能指数达到预设要求时，终止学习。

优选的，所述步骤f包括：

f1.当所述测试模型的性能指数达到预设值时，终止学习；和/或

f2.当所述测试模型的性能指数的提升值小于预设阈值时，终止学习。

优选的，所述的步骤b中，是指将一个以上的分类语料数据分别利用测试模型进行机器学习，并根据学习结果的准确率，将准确率低于预设值的分类语料数据自动推荐为所述推荐语料数据。

优选的，所述学习结果包括：所述分类语料数据的所属类别以及对应的置信度；所述置信度较大则表示学习结果的准确率较高，所述置信度较小则表示学习结果的准确率较低；将置信度小于预设的置信度阈值的分类语料数据自动推荐为所述推荐语料数据，和/或，将所述所属类别与聚类类别不一致的分类语料数据自动推荐为所述推荐语料数据。

优选的，所述的步骤e中，将所述学习结果再次加入所述推荐语料数据,是指将一个以上的标注语料数据分别利用测试模型进行机器学习，并根据学习结果的准确率，将准确率低于预设值的标注语料数据自动推荐为所述推荐语料数据。

优选的，所述学习结果包括：所述标注语料数据的所属类别以及对应的置信度；所述置信度较大则表示学习结果的准确率较高，所述置信度较小则表示学习结果的准确率较低；将置信度小于预设的置信度阈值的标注语料数据自动推荐为所述推荐语料数据。

对应的，本发明还提供一种机器主动学习系统，其包括：

分类模块，用于对原始语料数据进行聚类处理，得到分类语料数据；

自动推荐模块，其根据预设规则自动推荐所述分类语料数据，得到推荐语料数据；

标注模块，用于对所述推荐语料数据进行人工标注，得到标注语料数据；

学习模块，其将所述标注语料数据输入测试模型进行机器学习，并输出学习结果。

优选的，还包括优化模块，其将所述学习结果再次加入所述推荐语料数据，并通过标注模块进行重新人工标注、学习模块进行重新学习，如此循环；当所述测试模型的性能指数达到预设要求时，终止学习。

本发明的有益效果是：

(1)本发明在监督学习和无监督学习之间找到一个平衡的方法，通过对原始语料数据进行聚类处理后，再根据预设规则自动推荐聚类后的分类语料数据以及对推荐语料数据进行人工标注，最后再将标注语料数据输入测试模型进行机器学习；从而无需对所有的原始语料数据进行标注，极大的减少了人工标注的工作量，并且仅对标注语料数据进行机器学习，在保证较好的学习效果的基础上，进一步提高了学习效率。

(2)本发明仅将分类错误或者准确率低于预设值的分类语料数据加入推荐语料数据进行标注和学习，从而极大的减少了人工标注的工作量，并提高了测试模型的准确率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明一种机器主动学习方法的流程简图；

图2为本发明一种机器主动学习系统的结构示意图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图及实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，本实施例的一种机器主动学习方法，其包括以下步骤：

a.对原始语料数据进行聚类处理，得到分类语料数据；

c.对所述推荐语料数据进行人工标注，得到标注语料数据；

d.将所述标注语料数据输入测试模型进行机器学习，并输出学习结果；

f.当所述测试模型的性能指数达到预设要求时，终止学习。

其中，所述步骤f包括：

所述的步骤b中，是指将一个以上的分类语料数据分别利用测试模型进行机器学习，并根据学习结果的准确率，将准确率低于预设值的分类语料数据自动推荐为所述推荐语料数据。其中，所述学习结果包括：所述分类语料数据的所属类别以及对应的置信度；所述置信度较大则表示学习结果的准确率较高，所述置信度较小则表示学习结果的准确率较低；将置信度小于预设的置信度阈值的分类语料数据自动推荐为所述推荐语料数据，和/或，将所述所属类别与聚类类别不一致的分类语料数据自动推荐为所述推荐语料数据。

所述的步骤e中，将所述学习结果再次加入所述推荐语料数据,是指将一个以上的标注语料数据分别利用测试模型进行机器学习，并根据学习结果的准确率，将准确率低于预设值的标注语料数据自动推荐为所述推荐语料数据。其中，所述学习结果包括：所述标注语料数据的所属类别以及对应的置信度；所述置信度较大则表示学习结果的准确率较高，所述置信度较小则表示学习结果的准确率较低；将置信度小于预设的置信度阈值的标注语料数据自动推荐为所述推荐语料数据。

本发明的主动学习方法应用与智能客服时，其对智能客服在服务过程中的对话语料的学习过程简述如下：

1.获取智能客服与访客的对话语料，作为原始语料数据；

2.对原始语料数据进行聚类处理，得到分类语料数据；

3.假设聚类结果为A、B、C、D四类，则该四类的分类语料数据分别利用测试模型进行机器学习，并分别获取各个类别对应的学习结果的准确率；

4.将准确率低于预设值的分类语料数据或者聚类错误的分类语料数据，例如，C类语料数据，自动推荐为所述推荐语料数据；

5.对所述C类语料数据进行人工标注，得到标注语料数据；

6.将所述标注语料数据输入测试模型进行机器学习，并输出学习结果；

7.将学习结果中准确率低于预设值的标注语料数据或者类别错误的标注语料数据，重新进行标识和学习，如此循环；

8.当所述测试模型的性能指数(例如，包括准确率、召回率、F值)达到预设值时，和/或，当所述测试模型的性能指数的提升值小于预设阈值(可根据经验设定)时，终止学习。

如图2所示，本发明还对应提供一种机器主动学习系统，其包括：

学习模块，其将所述标注语料数据输入测试模型进行机器学习，并输出学习结果；

优化模块，其将所述学习结果再次加入所述推荐语料数据，并通过标注模块进行重新人工标注、学习模块进行重新学习，如此循环；当所述测试模型的性能指数达到预设要求时，终止学习。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于系统类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

并且，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外，本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述说明示出并描述了本发明的优选实施例，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种机器主动学习方法，其特征在于，包括以下步骤：

a.对原始语料数据进行聚类处理，得到分类语料数据；

c.对所述推荐语料数据进行人工标注，得到标注语料数据；

2.根据权利要求1所述的一种机器主动学习方法，其特征在于，进一步包括以下步骤：

f.当所述测试模型的性能指数达到预设要求时，终止学习。

3.根据权利要求2所述的一种机器主动学习方法，其特征在于：所述步骤f包括：

4.根据权利要求1或2或3所述的一种机器主动学习方法，其特征在于：所述的步骤b中，是指将一个以上的分类语料数据分别利用测试模型进行机器学习，并根据学习结果的准确率，将准确率低于预设值的分类语料数据自动推荐为所述推荐语料数据。

5.根据权利要求4所述的一种机器主动学习方法，其特征在于：所述学习结果包括：所述分类语料数据的所属类别以及对应的置信度；所述置信度较大则表示学习结果的准确率较高，所述置信度较小则表示学习结果的准确率较低；将置信度小于预设的置信度阈值的分类语料数据自动推荐为所述推荐语料数据，和/或，将所述所属类别与聚类类别不一致的分类语料数据自动推荐为所述推荐语料数据。

6.根据权利要求2或3所述的一种机器主动学习方法，其特征在于：所述的步骤e中，将所述学习结果再次加入所述推荐语料数据,是指将一个以上的标注语料数据分别利用测试模型进行机器学习，并根据学习结果的准确率，将准确率低于预设值的标注语料数据自动推荐为所述推荐语料数据。

7.根据权利要求6所述的一种机器主动学习方法，其特征在于：所述学习结果包括：所述标注语料数据的所属类别以及对应的置信度；所述置信度较大则表示学习结果的准确率较高，所述置信度较小则表示学习结果的准确率较低；将置信度小于预设的置信度阈值的标注语料数据自动推荐为所述推荐语料数据。

8.一种机器主动学习系统，其特征在于，包括：

9.根据权利要求8所述的一种机器主动学习系统，其特征在于，还包括优化模块，其将所述学习结果再次加入所述推荐语料数据，并通过标注模块进行重新人工标注、学习模块进行重新学习，如此循环；当所述测试模型的性能指数达到预设要求时，终止学习。