CN111104951A

CN111104951A - 一种主动学习方法、装置及终端设备

Info

Publication number: CN111104951A
Application number: CN201811250332.XA
Authority: CN
Inventors: 刘睿; 李云彬; 罗欢; 权圣
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd; Mashang Consumer Finance Co Ltd
Priority date: 2018-10-25
Filing date: 2018-10-25
Publication date: 2020-05-05

Abstract

本发明提供一种主动学习方法、装置及终端设备，该主动学习方法包括：在主动学习的每轮迭代过程中，利用训练数据集中的多轮对话标记数据训练上下文序列模型，使用训练得到的上下文序列模型，对未标记数据集中的每组多轮对话未标记数据的每轮对话语句的不确定度进行预测，利用预设算法，对每组多轮对话未标记数据的不确定度序列进行处理，根据每组多轮对话未标记数据的不确定度指数，选取预设组不确定度指数最大的多轮对话未标记数据，对选取的预设组多轮对话未标记数据进行标记，将标记后的预设组多轮对话标记数据添加至训练数据集，并以更新后的训练数据集为基础进入下一轮迭代。本发明的方案，可以增强主动学习的效能，提高学习效率。

Description

一种主动学习方法、装置及终端设备

技术领域

本发明涉及主动学习技术领域，尤其涉及一种主动学习方法、装置及终端设备。

背景技术

目前，机器学习主要研究计算机如何利用经验数据提高自身性能，因此充分和高质量的数据是有效学习的基础和关键。在传统的有监督学习中，一般要求用于训练学习模型的数据均是已标记的。一般认为，已标记的数据越多，标记越精准，基于这些数据训练得到的模型也越高效。大数据时代为机器学习提供了丰富的原材料，使其发挥着越来越重要的作用，成为当前最热门的研究领域之一。然而，大数据提供机遇的同时也带来了严重的挑战，其中最典型的便是数据质量低下。在许多实际情况下，虽可获取大量数据，但这些数据大部分是未标记的。而若直接对这些未标记数据进行标记来得到标记数据，标记人员工作压力大且繁复，而且质量很难控制。

为了减轻标记人员的工作压力，提高标记人员的工作价值和标记效率，可应用主动学习(active learning)技术，借助主动学习算法框架，利用少量高质量标记数据训练模型，大幅降低实体识别(entity recognition)、短文本分类(short text classification)等自然语言处理(Nature Language Progress，NLP)任务的对数据量的需求。

但是，现有的主动学习过程，基本上都是基于单句识别的方式，将NLP任务拆分成一个简单的有监督学习的例子，从而影响主动学习的效能，造成学习效率低。

发明内容

本发明实施例提供一种主动学习方法、装置及终端设备，以解决现有的主动学习方法的学习效率低的问题。

第一方面，本发明实施例提供了一种主动学习方法，包括：

在主动学习的每轮迭代过程中，利用训练数据集中的多轮对话标记数据训练上下文序列模型；

使用训练得到的上下文序列模型，对未标记数据集中的每组多轮对话未标记数据的每轮对话语句的不确定度进行预测，得到所述每组多轮对话未标记数据的不确定度序列；

利用预设算法，对所述每组多轮对话未标记数据的不确定度序列进行处理，得到所述每组多轮对话未标记数据的不确定度指数；

根据所述每组多轮对话未标记数据的不确定度指数，从所述未标记数据集中，选取预设组不确定度指数最大的多轮对话未标记数据；

对选取的预设组多轮对话未标记数据进行标记，将标记后的预设组多轮对话标记数据添加至所述训练数据集，得到更新后的训练数据集，并以所述更新后的训练数据集为基础进入下一轮迭代，直至所述上下文序列模型的精度达到预设要求。

第二方面，本发明实施例提供了一种主动学习装置，包括：

训练模块，用于在主动学习的每轮迭代过程中，利用训练数据集中的多轮对话标记数据训练上下文序列模型；

预测模块，用于使用训练得到的上下文序列模型，对未标记数据集中的每组多轮对话未标记数据的每轮对话语句的不确定度进行预测，得到所述每组多轮对话未标记数据的不确定度序列；

主动学习模块，用于利用预设算法，对所述每组多轮对话未标记数据的不确定度序列进行处理，得到所述每组多轮对话未标记数据的不确定度指数；

选取模块，用于根据所述每组多轮对话未标记数据的不确定度指数，从所述未标记数据集中，选取预设组不确定度指数最大的多轮对话未标记数据；

处理模块，用于对选取的预设组多轮对话未标记数据进行标记，将标记后的预设组多轮对话标记数据添加至所述训练数据集，得到更新后的训练数据集，并以所述更新后的训练数据集为基础进入下一轮迭代，直至所述上下文序列模型的精度达到预设要求。

第三方面，本发明实施例提供了一种文本分类方法，所述文本分类方法利用上下文序列模型获取文本分类的结果，所述上下文序列模型为根据上述主动学习方法训练得到。

第四方面，本发明实施例提供了一种图片分类方法，所述图片分类方法利用上下文序列模型获取图片分类的结果，所述上下文序列模型为根据上述主动学习方法训练得到。

第五方面，本发明实施例提供了一种终端设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述计算机程序被所述处理器执行时可实现上述主动学习方法的步骤，或者所述计算机程序被所述处理器执行时可实现上述文本分类方法的步骤，或者所述计算机程序被所述处理器执行时可实现上述图片分类方法的步骤。

第六方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时可实现上述主动学习方法的步骤，或者所述计算机程序被所述处理器执行时可实现上述文本分类方法的步骤，或者所述计算机程序被所述处理器执行时可实现上述图片分类方法的步骤。

本发明实施例中，可以基于上下文序列模型，以多轮对话为粒度进行主动学习，从而相比于现有的以单句为粒度的主动学习方法，可以增强主动学习的效能，提高学习效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的主动学习方法的流程图；

图2为本发明实施例中主动学习的框架图；

图3为本发明实施例中上下文序列模型的框架图；

图4为本发明实施例的主动学习装置的结构示意图；

图5为本发明实施例的终端设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

首先说明的是，本发明实施例的主动学习方法基于的是上下文序列模型，并以多轮对话为粒度进行主动学习，从而相比于现有的以单句为粒度的主动学习方法，可以增强主动学习的效能，提高学习效率。

参见图1和图2所示，本发明实施例提供了一种主动学习方法，所述方法包括如下步骤：

步骤101：在主动学习的每轮迭代过程中，利用训练数据集中的多轮对话标记数据训练上下文序列模型。

其中，上述训练数据集中的多轮对话标记数据可以理解为已有的且用于训练上下文序列模型的标记数据，比如图2中所示的标记数据L1。

步骤102：使用训练得到的上下文序列模型，对未标记数据集中的每组多轮对话未标记数据的每轮对话语句的不确定度进行预测，得到每组多轮对话未标记数据的不确定度序列。

本发明实施例中，上述上下文序列模型的框架图可如图3所示，其中通过Input_i、LSTM(Long Short-Term Memory，长短期记忆网络)和Output_i(体现数据分类概率P)，可以预测得到多轮对话中的每轮对话语句的不确定度Query_i，从而得到相应多轮对话的不确定度序列，即Query_1，Query_2，…，Query_n-1，Query_n。其中，i＝1、2、…、n-1、n，且n与每组多轮对话的整体长度有关，不同长度的多轮对话的n值不同。

可选的，上述LSTM可选为如下任意一种：GRU(Gated Recurrent Unit，门循环单元)、Bi-LSTM(双向LSTM)等其他的LSTM变体。

步骤103：利用预设算法，对每组多轮对话未标记数据的不确定度序列进行处理，得到每组多轮对话未标记数据的不确定度指数。

其中参见图3所示，在基于上下文序列模型得到每组多轮对话未标记数据的不确定度序列之后，可以对该不确定度序列进行处理，比如采用算数平均法、2阶几何平均法、极值处理法或加权平均法等方法进行处理，以得到该多轮对话未标记数据的不确定度指数Uncertern_index。

可选的，上述预设算法可以为如下算法中的任意一种：

算数平均法、2阶几何平均法、极大值法、极小值法和权重平均法。

可以理解的，此步骤103执行的过程即为本发明实施例深度主动学习的核心部分，即图2中虚线框部分。上述预设算法可以理解为核心算法。

例如，本发明实施例的主动学习过程可以抽象为如下表1所示(其中Q为Query，表示不确定度)：

表1

步骤104：根据每组多轮对话未标记数据的不确定度指数，从未标记数据集中，选取预设组不确定度指数最大的多轮对话未标记数据。

可选的，此步骤中选取预设组多轮对话未标记数据的过程可为：首先，依据不确定度指数的由大到小，对未标记数据集中的多轮对话未标记数据进行排序；然后，选取排序后的前预设组多轮对话未标记数据。

可以理解的，上述预设组可以根据实际主动学习需求进行预设。比如参见图2所示，上述预设组可选为N组。

步骤105：对选取的预设组多轮对话未标记数据进行标记，将标记后的预设组多轮对话标记数据添加至训练数据集，得到更新后的训练数据集，并以更新后的训练数据集为基础进入下一轮迭代，直至上下文序列模型的精度达到预设要求。

其中，如图2所示，上述预设组多轮对话未标记数据可由人工标记，而标记后的多轮对话标记数据L2可添加至训练数据集。至于排序后未被选取的多轮对话未标记数据，仍保留在未标记数据集，供下一轮迭代使用。

本发明实施例的主动学习方法，可以基于上下文序列模型，以多轮对话为粒度进行主动学习，从而相比于现有的以单句为粒度的主动学习方法，可以增强主动学习的效能，提高学习效率。

本发明实施例中，为了进一步增强主动学习的效能，当采用权重平均法进行主动学习时，可在主动学习之前利用预设概率分布函数，对每轮对话语句的概率值即权重值进行调整，以体现每轮对话语句的重要程度。

可选的，上述步骤103可包括：

利用预设概率分布函数，调整所述每组多轮对话未标记数据中的每轮对话语句的权重值；

根据调整后的每轮对话语句的权重值，计算所述每组多轮对话未标记数据的不确定度序列的加权平均数，得到所述每组多轮对话未标记数据的不确定度指数。

其中，上述预设概率分布函数可根据实际情况进行预设。一种可能的实施方式中，借助上述预设概率分布函数，可以按照时间轴的先后顺序甚至实际情况，动态调整每轮对话语句的重要性。

可选的，上诉预设概率分布函数可以为如下函数中的任意一种：

泊松概率分布函数、超几何概率分布函数和初等函数(比如线性函数)。

进一步的，根据本发明实施例的主动学习方法训练得到的上下文序列模型，不仅可应用于文本分类场景，还可以应用于图片分类场景，例如：可以具体应用于文本分类场景中的问答场景，可以具体应用于图片分类场景中的视频流分类场景等。

在一些实施例中，本发明实施例还提供了一种文本分类方法，所述文本分类方法利用上下文序列模型获取文本分类的结果，所述上下文序列模型为根据上述任一种主动学习方法训练得到。具体应用于问答场景时，所述文本分类方法利用上下文序列模型获取用户输入问题的答案。

在一些实施例中，本发明实施例还提供了一种图片分类方法，所述图片分类方法利用上下文序列模型获取图片分类的结果，所述上下文序列模型为根据上述任一种主动学习方法训练得到。

上述实施例对本发明的主动学习方法进行了说明，下面将结合实施例和附图对本发明的主动学习装置进行说明。

参见图4所示，本发明实施例还提供了一种主动学习装置，可以基于上下文序列模型，包括：

训练模块41，用于在主动学习的每轮迭代过程中，利用训练数据集中的多轮对话标记数据训练上下文序列模型；

预测模块42，用于使用训练得到的上下文序列模型，对未标记数据集中的每组多轮对话未标记数据的每轮对话语句的不确定度进行预测，得到所述每组多轮对话未标记数据的不确定度序列；

主动学习模块43，用于利用预设算法，对所述每组多轮对话未标记数据的不确定度序列进行处理，得到所述每组多轮对话未标记数据的不确定度指数；

选取模块44，用于根据所述每组多轮对话未标记数据的不确定度指数，从所述未标记数据集中，选取预设组不确定度指数最大的多轮对话未标记数据；

处理模块45，用于对选取的预设组多轮对话未标记数据进行标记，将标记后的预设组多轮对话标记数据添加至所述训练数据集，得到更新后的训练数据集，并以所述更新后的训练数据集为基础进入下一轮迭代，直至所述上下文序列模型的精度达到预设要求。

本发明实施例的主动学习装置，可以基于上下文序列模型，以多轮对话为粒度进行主动学习，从而相比于现有的以单句为粒度的主动学习方法，可以增强主动学习的效能，提高学习效率。

本发明实施例中，可选的，所述预设算法为如下算法中的任意一种：

可选的，所述预设算法为权重平均法；所述主动学习模块43包括：

调整单元，用于利用预设概率分布函数，调整所述每组多轮对话未标记数据中的每轮对话语句的权重值；

计算单元，用于根据调整后的每轮对话语句的权重值，计算所述每组多轮对话未标记数据的不确定度序列的加权平均数，得到所述每组多轮对话未标记数据的不确定度指数。

可选的，所述预设概率分布函数为如下函数中的任意一种：

泊松概率分布函数、超几何概率分布函数和初等函数。

此外，本发明实施例还提供了一种终端设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述计算机程序被所述处理器执行时可实现上述主动学习方法实施例的各个过程，或者所述计算机程序被所述处理器执行时可实现上述文本分类方法的各个步骤，或者所述计算机程序被处理器执行时可实现上述图片分类方法的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

具体的，参见5所示，本发明实施例还提供了一种终端设备，包括总线51、收发机52、天线53、总线接口54、处理器55和存储器56。

在本发明实施例中，所述终端设备还包括：存储在存储器56上并可在处理器55上运行的计算机程序。其中，所述计算机程序被处理器55执行时可实现上述主动学习方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

在图5中，总线架构(用总线51来代表)，总线51可以包括任意数量的互联的总线和桥，总线51将包括由处理器55代表的一个或多个处理器和存储器56代表的存储器的各种电路链接在一起。总线51还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口54在总线51和收发机52之间提供接口。收发机52可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器55处理的数据通过天线53在无线介质上进行传输，进一步，天线53还接收数据并将数据传送给处理器55。

处理器55负责管理总线51和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器56可以被用于存储处理器55在执行操作时所使用的数据。

可选的，处理器55可以是CPU、ASIC、FPGA或CPLD。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时可实现上述主动学习方法实施例的各个过程，或者所述计算机程序被所述处理器执行时可实现上述文本分类方法的各个步骤，或者所述计算机程序被处理器执行时可实现上述图片分类方法的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种主动学习方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述预设算法为如下算法中的任意一种：

3.根据权利要求2所述的方法，其特征在于，所述预设算法为权重平均法；所述利用预设算法，对所述每组多轮对话未标记数据的不确定度序列进行处理，得到所述每组多轮对话未标记数据的不确定度指数，包括：

4.根据权利要求3所述的方法，其特征在于，所述预设概率分布函数为如下函数中的任意一种：

泊松概率分布函数、超几何概率分布函数和初等函数。

5.一种主动学习装置，其特征在于，包括：

6.根据权利要求5所述的装置，其特征在于，所述预设算法为权重平均法；所述主动学习模块包括：

7.一种文本分类方法，其特征在于，所述文本分类方法利用上下文序列模型获取文本分类的结果，所述上下文序列模型为根据权利要求1至4中任一项所述的方法训练得到。

8.一种图片分类方法，其特征在于，所述图片分类方法利用上下文序列模型获取图片分类的结果，所述上下文序列模型为根据权利要求1至4中任一项所述的方法训练得到。

9.一种终端设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的主动学习方法的步骤，或者所述计算机程序被所述处理器执行时实现如权利要求7所述的文本分类方法的步骤，或者所述计算机程序被所述处理器执行时实现如权利要求8所述的图片分类方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的主动学习方法的步骤，或者所述计算机程序被所述处理器执行时实现如权利要求7所述的文本分类方法的步骤，或者所述计算机程序被所述处理器执行时实现如权利要求8所述的图片分类方法的步骤。