CN113239151A

CN113239151A - 基于bart模型的口语理解数据增强方法、系统及设备

Info

Publication number: CN113239151A
Application number: CN202110540820.XA
Authority: CN
Inventors: 周玉; 林海涛; 向露
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2021-08-10
Anticipated expiration: 2041-05-18
Also published as: CN113239151B

Abstract

本发明属于自然语言处理技术领域，具体涉及了一种基于BART模型的口语理解数据增强方法、系统及设备，旨在解决的问题。本发明包括：将训练数据进行变换，去除其语义槽值信息或上下文表达方式的信息；利用预训练语言模型BART在变换的数据上进行调优，获得两种调优模型；分别使用两种调优模型和少量训练数据进行增强数据的生成；对增强数据进行过滤处理，获得最终的增强训练数据。本发明在只利用少量训练数据的前提下，可以生成具有不同语义槽值和上下文的带标签的增强训练数据，有效地提高了口语理解模型在少量数据下的语义槽填充的性能。

Description

基于BART模型的口语理解数据增强方法、系统及设备

技术领域

本发明属于自然语言处理技术领域，具体涉及了一种基于BART模型的口语理解数据增强方法、系统及设备。

背景技术

自然语言理解中，口语理解是传统模块级联的任务型对话系统中一个关键的模块，旨在理解对话中每个语句的关键语义信息。该模块分为意图识别和语义槽填充两个子任务。意图识别是指识别用户输入文本的意图和动作类别，语义槽填充是指识别句子中存在的语义槽值以及对应的语义槽类型。相较于意图识别，语义槽填充任务的难度更大，该任务得到的结果对于对话系统的性能有着显著的影响。

口语理解模型在训练过程中通常需要大量的带标签的数据，但是在实际应用中，特别是面向一个新领域的对话场景，大量的带标签数据是难以保证的，往往只能使用少量的SLU数据进行训练。在面向少样本的场景设定下，对已有数据进行数据增强是一种直接的解决方法。数据增强的思想是基于已有数据生成新的数据，通过增加训练数据的规模提高模型性能的鲁棒性。

然而，绝大多数面向口语理解的数据增强方法只能从已有少量数据中挖掘信息，难以生成与已有数据差别较大的增强数据，导致生成数据新颖性不足，难以给口语理解模型带来性能上的提升。另外，目前现有方法只能生成具有不同表达方式的语句，但其中的语义槽值基本都是在原有数据中已经出现的，难以生成新的语义槽值。

总的来说，本领域还需要在口语理解模型的增强训练数据的新颖性进行创新，包括新语义槽值和新的上下文表达两方面的创新，借助预训练语言模型BART中的潜在知识，生成新的语义槽值和新的上下文表达方式进行模型训练数据增强，从而有效提高了口语理解模型在少样本场景下的语义槽填充效果。

发明内容

为了解决现有技术中的上述问题，即现有技术难以在少量训练数据的前提下，生成具有不同语义槽值和上下文的带标签增强数据的问题，本发明提供了一种基于BART模型的口语理解数据增强方法，该数据增强方法包括：

步骤S10，获取口语理解模型的训练数据，并分别对数据进行语义槽标签和语义帧变换，获得第一预处理数据和第二预处理数据；

步骤S20，分别构建针对所述第一预处理数据和第二预处理数据的第一损失函数和第二损失函数，并基于所述第一损失函数和第二损失函数分别进行所述预训练语言模型BART的调优，获得第一调优模型和第二调优模型；

步骤S30，基于获取的口语理解模型的少量待增强训练数据，分别通过所述第一调优模型和第二调优模型获取第一增强数据和第二增强数据；

步骤S40，分别对所述第一增强数据和第二增强数据进行过滤处理，获得口语理解模型的增强训练数据。

在一些优选的实施例中，步骤S10中对数据进行语义槽标签变换，其方法为：

将所述训练数据中的语义槽值替换为语义槽标签，并在替换后的语义槽标签前后各添加一个设定的特殊符号。

在一些优选的实施例中，步骤S10中对数据进行语义帧变换，其方法为：

提取所述训练数据中的语义帧信息，并将所述语义帧信息进行线性排列；所述语义帧信息包括意图信息、多个语义槽类型-语义槽值对。

在一些优选的实施例中，所述第一损失函数为：

其中，Loss₁代表第一损失函数，

代表模型预测的第一预处理数据中单词的概率分布，

代表第一预处理数据中第i₁个单词的输出类别标签，n₁代表第一预处理中的单词个数，

代表第一预处理数据中的第i₁个单词，S₁代表第一预处理数据中所有属于语义槽值的单词集合，|V|代表词汇表大小，∈为预先设定的平滑系数，[0,0,…,1,…,0]为包括|V|个元素的独热向量，1所在位置为单词

在词汇表中的序号，

为包括|V|个元素的平滑向量，1-∈所在位置为单词

在词汇表中的序号。

在一些优选的实施例中，所述第二损失函数为：

其中，Loss₂代表第二损失函数，

代表模型预测的第二预处理数据中单词的概率分布，

代表第二预处理数据中第i₂个单词的输出类别标签，n₂代表第二预处理中的单词个数，

代表第二预处理数据中的第i₂个单词，S₂代表第二预处理数据中所有属于语义槽值的单词集合，|V|代表词汇表大小，∈为预先设定的平滑系数，[0,0,…,1,…,0]为包括|V|个元素的独热向量，1所在位置为单词

在词汇表中的序号，

为包括|V|个元素的平滑向量，1-∈所在位置为单词

在词汇表中的序号。

在一些优选的实施例中，步骤S30包括：

步骤S31，通过上述的基于BART模型的口语理解数据增强方法步骤S10对应的方法，将所述少量待增强训练数据预处理为第一待增强数据和第二待增强数据；

步骤S32，分别通过所述第一调优模型和第二调优模型，使用top-p解码方式进行所述第一待增强数据和第二待增强数据的解码，获得第一增强数据和第二增强数据。

在一些优选的实施例中，步骤S40中对第一增强数据进行过滤处理，其方法为：

判断所述第一增强数据中除去语义槽之外其他单词和对应的第一待增强数据是否相同：

若相同，则保留所述第一增强数据，并将所述第一增强数据的语义槽值标记为其原有的语义槽类型，其他单词的标签和对应的第一预处理数据相同；

若不同，则过滤掉所述第一增强数据。

在一些优选的实施例中，步骤S40中对第二增强数据进行过滤处理，其方法为：

判断所述第二增强数据中是否包含了所述第二待增强数据中的所有语义槽值，且不包含所述第二预处理数据中出现过的其他语义槽值：

若符合要求，则保留所述第二增强数据，并根据所述第二增强数据语义帧的内容给每个单词打上标签；

若不符合要求，则过滤掉所述第二增强数据。

本发明的另一方面，提出了一种基于BART模型的口语理解数据增强系统，该数据增强包括以下模块：

预处理模块，配置为获取口语理解模型的训练数据，并分别对数据进行语义槽标签和语义帧变换，获得第一预处理数据和第二预处理数据；

模型调优模块，配置为分别构建针对所述第一预处理数据和第二预处理数据的第一损失函数和第二损失函数，并基于所述第一损失函数和第二损失函数分别进行所述预训练语言模型BART的调优，获得第一调优模型和第二调优模型；

数据增强模块，配置为基于获取的口语理解模型的少量待增强训练数据，分别通过所述第一调优模型和第二调优模型获取第一增强数据和第二增强数据；

数据过滤模块，配置为分别对所述第一增强数据和第二增强数据进行过滤处理，获得口语理解模型的增强训练数据。

本发明的第三方面，提出了一种电子设备，包括：

至少一个处理器；以及

与至少一个所述处理器通信连接的存储器；其中，

所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现上述的基于BART模型的口语理解数据增强方法。

本发明的第四方面，提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现上述的基于BART模型的口语理解数据增强方法。

本发明的有益效果：

本发明基于BART模型的口语理解数据增强方法，针对现有的面向口语理解的数据增强方法难以生成新颖的数据，且不具备新的语义槽值的生成能力的问题，有效地利用预训练语言模型中的先验知识，生成新的语义槽值和新的上下文表达方式，显著提升了增强数据的质量，从而提高了口语理解系统在少样本情况下的识别能力。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明基于BART模型的口语理解数据增强方法的流程示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明提供一种基于BART模型的口语理解数据增强方法，利用预训练语言模型所包含的丰富的语言知识，通过两种类型的数据变换，学习到如何生成具有不同语义槽值和不同上下文表达方式的增强数据，有效地提高了口语理解模型在少样本场景下的语义槽填充效果。

本发明的一种基于BART模型的口语理解数据增强方法，该数据增强方法包括：

为了更清晰地对本发明基于BART模型的口语理解数据增强方法进行说明，下面结合图1对本发明实施例中各步骤展开详述。

本发明第一实施例的基于BART模型的口语理解数据增强方法，包括步骤S10-步骤S40，各步骤详细描述如下：

步骤S10，获取口语理解模型的训练数据，并分别对数据进行语义槽标签和语义帧变换，获得第一预处理数据和第二预处理数据。

本发明一个实施例中，训练数据为“book a table somewhere in new york city(city)for this evening(time range)”，对该数据进行语义槽标签和语义帧变换，去掉其中的语义槽值信息和上下文信息。

对数据进行语义槽标签变换，其方法为：

对上述实施例的数据进行语义槽标签变换，获得句子“book a table somewherein_city_for this evening”和“book a table somewhere in new york city for_timerange_”，其中“_”即为该变换中设定的用于区分的特殊符号。

对数据进行语义帧变换，其方法为：

对上述实施例的数据进行语义槽标签变换，获得句子“book restaurant(city＝new york city；time range＝this evening)”，其中“book restaurant”即为意图信息，“city＝new york city；time range＝this evening”为两个语义槽类型-语义槽值对。

步骤S20，分别构建针对所述第一预处理数据和第二预处理数据的第一损失函数和第二损失函数，并基于所述第一损失函数和第二损失函数分别进行所述预训练语言模型BART的调优，获得第一调优模型和第二调优模型。

第一损失函数和第二损失函数以及计算损失函数中采用到的参数，其计算方法如式(1)-式(4)所示：

其中，Loss₁代表第一损失函数，Loss₂代表第二损失函数，

代表模型预测的第一预处理数据中单词的概率分布，

代表模型预测的第二预处理数据中单词的概率分布，

代表第一预处理数据中第i₁个单词的输出类别标签，

代表第二预处理数据中第i₂个单词的输出类别标签，n₁代表第一预处理中的单词个数，n₂代表第二预处理中的单词个数，

代表第一预处理数据中的第i₁个单词，

代表第二预处理数据中的第i₂个单词，S₁代表第一预处理数据中所有属于语义槽值的单词集合，S₂代表第二预处理数据中所有属于语义槽值的单词集合，|V|代表词汇表大小，∈为预先设定的平滑系数，[0,0,…,1,…,0]为包括|V|个元素的独热向量，在第一损失函数中1所在位置为单词

在词汇表中的序号，在第二损失函数中1所在位置为单词

在词汇表中的序号，

为包括|V|个元素的平滑向量，在第一损失函数中1-∈所在位置为单词

在词汇表中的序号，在第二损失函数中1-∈所在位置为单词

在词汇表中的序号。

步骤S30，基于获取的口语理解模型的少量待增强训练数据，分别通过所述第一调优模型和第二调优模型获取第一增强数据和第二增强数据。

top-p解码方式中，p值均设置为0.9。

对第一增强数据进行过滤处理，判断所述第一增强数据中除去语义槽之外其他单词和对应的第一待增强数据是否相同：

若不同，则过滤掉所述第一增强数据。

对第二增强数据进行过滤处理，判断所述第二增强数据中是否包含了所述第二待增强数据中的所有语义槽值，且不包含所述第二预处理数据中出现过的其他语义槽值：

若不符合要求，则过滤掉所述第二增强数据。

使用两个常见的口语理解的数据集ATIS和Snips来验证本发明增强数据的效果。为了验证本发明方法在小样本数据上的优势，分别将两个数据集划分为小型数据集Small(包含1/40的原训练数据)，以及中型数据集Medium(包含1/10的原训练数据)。为了具体地比较增强数据的效果，训练了两种常见的语义槽填充的方法，包括基于LSTM的方法和基于BERT的方法。实验中对比了不使用数据增强以及其他的一些常见数据增强的方法，表1为ATIS数据集上不同数据增强方法在两种口语理解模型上的结果，表2为Snips数据集上不同数据增强方法在两种口语理解模型上的结果。

表1

表2

表1和表2中的Seq2seq，VAE，GPT-2为已有的三种常见的数据增强方法。BARTvalue为本发明中提出的利用变换数据类型1(即语义槽标签变换)得到的增强数据1，代表对语义槽值进行增强。BART context为本发明中的利用变换数据类型2(即语义帧变换)得到的增强数据2，代表对上下文表达方式进行增强。表中的所有值都是语义槽填充结果的F1值。对比之下可以发现：(1)本发明中提出的两种增强的数据方法在两个数据集上都取得了较好的结果，在大部分实验设置下相较于不使用数据增强以及其他的数据增强方法有显著的效果提升。(2)对比本发明提出的两种方法，其中对语义槽值进行增强的方法，在大部分情况下带来了更显著的提升，说明新的语义槽值对于口语理解模型的训练有着更大的帮助。(3)对比两种数据集划分的结果，本发明的方法在小数据集的提升更为明显，说明该方法在面向少样本的设定下有更显著的作用。(4)对比两种口语理解模型，本发明在两个模型上均能带来性能的提升，证明本发明方法具有一定程度上的普适性和鲁棒性。

上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述，但是本领域技术人员可以理解，为了实现本实施例的效果，不同的步骤之间不必按照这样的次序执行，其可以同时(并行)执行或以颠倒的次序执行，这些简单的变化都在本发明的保护范围之内。

本发明第二实施例的基于BART模型的口语理解数据增强系统，该数据增强包括以下模块：

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于BART模型的口语理解数据增强系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种电子设备，包括：

至少一个处理器；以及

与至少一个所述处理器通信连接的存储器；其中，

本发明第四实施例的一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现上述的基于BART模型的口语理解数据增强方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。