CN111611797A

CN111611797A - 基于Albert模型的预测数据标注的方法、装置及设备

Info

Publication number: CN111611797A
Application number: CN202010443400.5A
Authority: CN
Inventors: 李旭滨; 詹学君
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2020-09-01
Anticipated expiration: 2040-05-22
Also published as: CN111611797B

Abstract

本发明涉及一种基于Albert模型的预测数据标注的方法、装置及设备，应用于机器学习技术领域，其中，方法包括：基于Albert模型构建初始意图分类模型；获取线上日志发送的用户语料数据；将所述用户语料数据输入所述初始意图分类模型，以对所述用户语料数据的分类进行预测；将预测结果发送至用户端，以通过用户人工标注对所述预测结果进行纠错；将纠错后的所述用户语料数据输入所述初始意图分类模型进行迭代训练，直至所述初始意图分类模型预测结果准确率大于预设准确率。

Description

基于Albert模型的预测数据标注的方法、装置及设备

技术领域

本发明涉及机器学习技术领域，具体涉及基于Albert模型的预测数据标注的方法、装置及设备。

背景技术

在自然语言理解过程中，数据标注是一个人工成本比较高的工作。

现有技术中，针对不理解和误纳的文本，往往通过人工标注的方式，注明这些是属于是哪个意图，然后将文本加入到对应的意图的语料中，进而将标注后的语料,进行模型的训练，提升语义理解的能力。

但是，这种方式需要先将线上日志导出，然后由标注人员进行人工的标注和整理,重新训练模型不断提升语言理解能力,使得训练过程不但人力成本高,而且时间周期比较长。

发明内容

有鉴于此，本发明为了在至少一定程度上克服相关技术中存在的问题，提供一种基于Albert模型的预测数据标注的方法、装置及设备。

基于上述目的，本发明提供了一种基于Albert模型的预测数据标注的方法，包括：

基于Albert模型构建初始意图分类模型；

获取线上日志发送的用户语料数据；

将所述用户语料数据输入所述初始意图分类模型，以对所述用户语料数据的分类进行预测；

将预测结果发送至用户端，以通过用户人工标注对所述预测结果进行纠错；

将纠错后的所述用户语料数据输入所述初始意图分类模型进行迭代训练，直至所述初始意图分类模型预测结果准确率大于预设准确率。

进一步地，上述所述的基于Albert模型的预测数据标注的方法中，所述基于Albert模型构建初始意图分类模型，包括：

获取预先定义的意图标签及线上真实用户语料数据；

获取各所述真实用户语料数据的人工标注的所述意图标签；

将所述真实用户语料数据及其对应的所述意图标签输入Albert模型，得到所述初始意图分类模型。

进一步地，上述所述的基于Albert模型的预测数据标注的方法中，所述通过用户人工标注对所述预测结果进行纠错，包括：

对所述预测结果进行审核，得到预测正确的用户语料数据和预测错误的用户语料数据；

将所述预测错误用户语料数据进行人工标注，以将所述预测错误用户语料数据的标签正确标注。

进一步地，上述所述的基于Albert模型的预测数据标注的方法中，所述获取线上日志发送的用户语料数据，包括：

获取所述线上日志发送到日志队列中的日志消息；

对所述日志消息进行数据处理；

将处理后的日志消息通过正则方式提取所述用户语料数据。

进一步地，上述所述的基于Albert模型的预测数据标注的方法中，所述对所述用户语料数据进行预测，包括：

根据所述初始意图分类模型中的SOP预训练任务训练模型，预测所述用户语料数据的意图类别。

本发明还提供一种基于Albert模型的预测数据标注的装置，包括：

模型构建模块，用于基于Albert模型构建初始意图分类模型；

获取模块，用于获取线上日志发送的用户语料数据；

数据预测模块，用于将所述用户语料数据输入所述初始意图分类模型，以对所述用户语料数据进行预测；

纠错模块，用于将预测结果发送至用户端，以通过用户人工标注对所述预测结果进行纠错；

模型训练模块，用于将纠错后的所述用户语料数据输入所述初始意图分类模型进行迭代训练，直至所述初始意图分类模型预测结果准确率大于预设准确率。

进一步地，上述所述的基于Albert模型的预测数据标注的装置中，所述模型构建模块，具体包括：

获取预先定义的意图标签及线上真实用户语料数据；

获取各所述真实用户语料数据的人工标注的所述意图标签；

进一步地，上述所述的基于Albert模型的预测数据标注的装置中，所述纠错模块，具体包括：

对所述预测结果进行审核，得到预测正确的训练数据和得到预测错误的训练数据；

将所述预测错误训练数据进行人工标注，以将所述预测错误训练数据的标签标注正确。

进一步地，上述所述的基于Albert模型的预测数据标注的装置中，所述获取模块，具体包括：

获取所述线上日志发送到日志队列中的日志消息；

对所述日志消息进行数据处理；

将处理后的日志消息通过正则方式提取所述用户语料数据。

本发明还提供一种基于Albert模型的预测数据标注的设备，包括：

处理器，以及与所述处理器相连接的存储器；

所述存储器用于存储计算机程序；

所述处理器用于调用并执行所述存储器中的所述计算机程序，以执行如上任一项所述的基于Albert模型的预测数据标注的方法。

从上面所述可以看出，本发明提供的基于Albert模型的预测数据标注的方法、装置及设备，先基于Albert模型构建初始意图分类模型；获取线上日志发送的用户语料数据；将所述用户语料数据输入所述初始意图分类模型，以对所述用户语料数据进行预测；将预测结果发送至用户端，以通过用户人工标注对所述预测结果进行纠错；将纠错后的所述用户语料数据输入所述初始意图分类模型进行迭代训练，直至所述初始意图分类模型预测结果准确率大于预设准确率。如此，不需要将线上日志导出，直接获取线上日志发送的用户语料数据，便可以对数据进行标注；并且，通过初始意图分类模型对数据进行预测，只需将预测错误的的数据进行人工标注，减少了人工标注成本；另外，在不断的迭代训练过程中，需要纠错的用户语料数据越来越少，需要人工标注的数据也变少，通过训练的意图分类模型完成了对数据的辅助标注，提升了模型意图分类的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的基于Albert模型的预测数据标注的方法的流程示意图；

图2是本发明另一实施例提供的基于Albert模型的预测数据标注的方法的流程示意图；

图3是本发明一实施例提供的基于Albert模型的预测数据标注的装置的结构示意图；

图4是本发明一实施例提供的一种基于Albert模型的预测数据标注的设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

需要说明的是，除非另外定义，本发明实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

图1是本发明一实施例提供的基于Albert模型的预测数据标注的方法的流程示意图。如图1所示，本实施例提供一种基于Albert模型的预测数据标注的方法，包括：

101、基于Albert模型构建初始意图分类模型；

一些实施例中，Albert是Google提出的预训练模型,它可以实现跨层参数共享实现模型稳定性,以及SOP(sentence of prediction)训练任务模型更加容易学习句子的连贯性。本实施例中，基于Albert模型构建初始意图分类模型，可以先定义意图标签，收集线上真实用户语料的数据,通过人工标注的方式，为语料标上对应意图标签,然后输入Albert模型训练，得到初始意图分类模型。

102、获取线上日志发送的用户语料数据；

一些实施例中，线上日志发送的用户语料数据，可以先由线上日志将日志消息发送到消息队列之后，数据处理服务消费日志消息，然后通过正则方式提取到用户语料数据。

103、将所述用户语料数据输入所述初始意图分类模型，以对所述用户语料数据进行预测；

一些实施例中，由于初始意图分类模型中，具有预先定义的意图标签，因此，在对用户语料数据预测时，可以根据定义的意图标签，预测出用户语料数据所属的意图标签。

104、将预测结果发送至用户端，以通过用户人工标注对所述预测结果进行纠错；

一些实施例中，由于初始意图分类模型的构建过程不会包含所有语料，因此在预测过程中，可能会出现预测出错的请况，此时，便需要人工标注进行纠错。

105、将纠错后的所述用户语料数据输入所述初始意图分类模型进行迭代训练，直至所述初始意图分类模型预测结果准确率大于预设准确率。

一些实施例中，针对初始意图分类模型初期预测的不准确的情况，本实施例对模型进行迭代训练，使得模型预测的更加准确。

本申请的基于Albert模型的预测数据标注的方法，不需要将线上日志导出，直接获取线上日志发送的用户语料数据，便可以对数据进行标注；并且，通过初始意图分类模型对数据进行预测，只需将预测错误的的数据进行人工标注，减少了人工标注成本；另外，在不断的迭代训练过程中，需要纠错的用户语料数据越来越少，需要人工标注的数据也变少，通过训练的意图分类模型完成了对数据的辅助标注，提升了模型意图分类的准确率。

图2是本发明另一实施例提供的基于Albert模型的预测数据标注的方法的流程示意图。如图2所示，本实施例提供一种基于Albert模型的预测数据标注的方法，包括：

201、获取预先定义的意图标签及线上真实用户语料数据；

一些实施例中，意图标签可以根据实际情况进行选择；线上真实用户语料数据可以进行线上收集得到。

202、获取各所述真实用户语料数据的人工标注的所述意图标签；

基于上述实施例，得到意图标签和用户语料数据后，可以通过人工标注的方式，将各用户语料数据标注上对应的意图标签。

203、将所述真实用户语料数据及其对应的所述意图标签输入Albert模型，得到所述初始意图分类模型。

204、获取所述线上日志发送到日志队列中的日志消息；

205、对所述日志消息进行数据处理；

206、将处理后的日志消息通过正则方式提取所述用户语料数据。

207、将所述用户语料数据输入所述初始意图分类模型，以对所述用户语料数据进行预测；

具体的，对所述用户语料数据进行预测，可以根据所述初始意图分类模型中的SOP预训练任务训练模型，预测所述用户语料数据的意图类别。

Albert提出一种的句间连贯性预测任务，称之为sentence-orderprediction(SOP)，正负样本表示如下：

正样本：与bert一样，两个连贯的语句

负样本：在原文中也是两个连贯的语句，但是顺序交换一下。

SOP因为正负样本都是在同一个文档中选的，只关注句子的顺序而不考虑主题方面的影响，所以这将迫使模型在话语层面学习更细粒度的区分。

208、将预测结果发送至用户端，以通过用户人工标注对所述预测结果进行纠错；

进一步的，所述通过用户人工标注对所述预测结果进行纠错，具体可以通过以下方式，包括：

通过人工审核，将预测语料的意图标签的正确及错误的数据区分，并将预测错误的用户语料数据人工标注，将错误的意图标签标注正确。

209、将纠错后的所述用户语料数据输入所述初始意图分类模型进行迭代训练，直至所述初始意图分类模型预测结果准确率大于预设准确率。

本申请中，对于数据标注的过程中,采用Albert模型的SOP预训练任务训练模型,对需要标注的语料进行预测,通过人工的审核和纠错后语料,反哺给模型进行训练,这样不断的循环,可以不断的提升模型的意图预测能力,这样需要人工审核并且需要纠错的数据量也会越来越少,人工标注成本也会随之的降低。

需要说明的是，本发明实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本发明实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成的方法。

图3是本发明一实施例提供的一种基于Albert模型的预测数据标注的装置的结构示意图。参照图3，本申请实施例的提供了一种基于Albert模型的预测数据标注的装置，包括：

模型构建模块30，用于基于Albert模型构建初始意图分类模型；

获取模块31，用于获取线上日志发送的用户语料数据；

数据预测模块32，用于将所述用户语料数据输入所述初始意图分类模型，以对所述用户语料数据进行预测；

纠错模块33，用于将预测结果发送至用户端，以通过用户人工标注对所述预测结果进行纠错；

模型训练模块34，用于将纠错后的所述用户语料数据输入所述初始意图分类模型进行迭代训练，直至所述初始意图分类模型预测结果准确率大于预设准确率。

可选的，所述模型构建模块30，具体包括：

获取预先定义的意图标签及线上真实用户语料数据；

获取各所述真实用户语料数据的人工标注的所述意图标签；

可选的，所述纠错模块33，具体包括：

可选的，所述获取模块31，具体包括：

获取所述线上日志发送到日志队列中的日志消息；

对所述日志消息进行数据处理；

将处理后的日志消息通过正则方式提取所述用户语料数据。

本实施例的具体实现方案可以参见前述实施例记载的基于Albert模型的预测数据标注的方法及方法实施例中的相关说明，此处不再赘述。

上述实施例的装置用于实现前述实施例中相应的方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

图4为本发明的模型部署设备实施例的结构示意图，如图3所示，本实施例的通行设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

本发明还提供一种存储介质，所述存储介质存储计算机指令，所述计算机指令用于使所述计算机执行上述实施例的分布式终端的控制方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本发明难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本发明难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本发明的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于Albert模型的预测数据标注的方法，其特征在于，包括：

基于Albert模型构建初始意图分类模型；

获取线上日志发送的用户语料数据；

2.根据权利要求1所述的基于Albert模型的预测数据标注的方法，其特征在于，所述基于Albert模型构建初始意图分类模型，包括：

获取预先定义的意图标签及线上真实用户语料数据；

获取各所述真实用户语料数据的人工标注的所述意图标签；

3.根据权利要求1所述的基于Albert模型的预测数据标注的方法，其特征在于，所述通过用户人工标注对所述预测结果进行纠错，包括：

4.根据权利要求1所述的基于Albert模型的预测数据标注的方法，其特征在于，所述获取线上日志发送的用户语料数据，包括：

获取所述线上日志发送到日志队列中的日志消息；

对所述日志消息进行数据处理；

将处理后的日志消息通过正则方式提取所述用户语料数据。

5.根据权利要求1所述的基于Albert模型的预测数据标注的方法，其特征在于，所述对所述用户语料数据进行预测，包括：

6.一种基于Albert模型的预测数据标注的装置，其特征在于，包括：

模型构建模块，用于基于Albert模型构建初始意图分类模型；

获取模块，用于获取线上日志发送的用户语料数据；

7.根据权利要求6所述的基于Albert模型的预测数据标注的装置，其特征在于，所述模型构建模块，具体包括：

获取预先定义的意图标签及线上真实用户语料数据；

获取各所述真实用户语料数据的人工标注的所述意图标签；

8.根据权利要求6所述的基于Albert模型的预测数据标注的装置，其特征在于，所述纠错模块，具体包括：

9.根据权利要求6所述的基于Albert模型的预测数据标注的装置，其特征在于，所述获取模块，具体包括：

获取所述线上日志发送到日志队列中的日志消息；

对所述日志消息进行数据处理；

将处理后的日志消息通过正则方式提取所述用户语料数据。

10.一种基于Albert模型的预测数据标注的设备，其特征在于，包括：

处理器，以及与所述处理器相连接的存储器；

所述存储器用于存储计算机程序；

所述处理器用于调用并执行所述存储器中的所述计算机程序，以执行如权利要求1-5任一项所述的基于Albert模型的预测数据标注的方法。