CN115934891A

CN115934891A - 问句理解方法及装置

Info

Publication number: CN115934891A
Application number: CN202211546264.8A
Authority: CN
Inventors: 熊子奇; 孔德智; 谭敏; 薛彦凯
Original assignee: CETC Big Data Research Institute Co Ltd
Current assignee: CETC Big Data Research Institute Co Ltd
Priority date: 2022-12-05
Filing date: 2022-12-05
Publication date: 2023-04-07

Abstract

本发明公开了一种问句理解方法及装置，该方法包括：基于问句标注数据集及提示器模板生成训练数据集，所述训练数据集中包括多个训练样本；利用所述训练数据集训练得到预训练语言模型；利用所述预训练语言模型对待理解问句进行理解。利用本发明方案，可以同时提高意图识别和要素抽取的准确率，进而提升问句理解效果。

Description

问句理解方法及装置

技术领域

本发明涉及自然语言处理领域，具体涉及一种问句理解方法及装置。

背景技术

问答系统中的问句理解是通过分析问句来判断用户的意图，提取相关的要素，从而进一步实现用户的需求。问句理解有广阔的应用前景，如问答系统、人机交互系统等。以自动问答系统为例，当获得用户提出的问题后，问句理解引擎理解用户的提问，提取出相关要素用于查询或其他处理，直接给出用户所需的答案或者相应操作，从而大大简化了人机交互的流程。

问句理解主要有两个子任务：意图识别和要素抽取。给定一句话，意图识别是判断这句话的意图，可视作分类问题；要素抽取是对这句话中的每个成分填上标签，可视作实体识别问题。以“办理身份证需要什么材料？”这句话为例，其意图为咨询身份证办理业务，要素是“材料”，通过要素抽取将要素表示出来。要素抽取可以通过命名实体识别实现，根据不同的命名实体识别算法，可提取要素为“材料”。

近些年来，许多研究者提出了多种方法来解决这两个任务。传统方法依赖人工设计的特征，使用分类器进行预测，这些方法需要大量的人工干预，且存在着特征稀疏的问题。目前，基于神经网络的方法大量涌现。对于要素抽取任务，主流采用循环神经网络取得，也有通过多任务的方式来进行意图识别和要素抽取，通过联合建模进行意图识别和要素抽取，取得了较之前分别建模更好的结果。然而，一方面，联合建模仍然采用LSTM(Longshort-term memory,长短期记忆)架构，其词/字向量或采用固定的静态词向量如Word2vec，或采用随机生成的方式，这些方式不能更好地建模字词上下文；另一方面，意图识别和要素抽取是两个不同类型的任务(前者是分类问题、后者是序列标注问题)，这两个不同类型的任务在统一建模时面临损失权重分配问题。

发明内容

本发明提供一种问句理解方法及装置，以同时提高意图识别和要素抽取的准确率，进而提升问句理解效果。

为此，本发明提供如下技术方案：

本发明提供一种问句理解方法，所述方法包括：

基于问句标注数据集及提示器模板生成训练数据集，所述训练数据集中包括多个训练样本；

利用所述训练数据集训练得到预训练语言模型；

利用所述预训练语言模型对待理解问句进行理解。

可选地，所述预训练语言模型为BART模型；每个训练样本包括：问句、与所述问句对应的当前时刻模板语句及下一时刻模板语句；

所述基于问句标注数据集及提示器模板生成训练数据集包括：

基于问句标注数据集，生成意图集合及对应的意图要素集合；

将与问句相关的意图及其对应的意图要素映射到带有固定槽位的提示器模板中，得到与所述问句对应的当前时刻模板语句及下一时刻模板语句。

可选地，所述提示器模板包括以下任意一种或多种：有意图无槽位模板、有意图有槽位模板、无意图模板。

可选地，所述利用所述训练数据集训练得到预训练语言模型参数包括：将所述训练样本中的问句作为预训练语言模型的编码器输入，将与所述问句对应的当前时刻模板语句作为所述预训练语言模型的解码器输入，将与所述问句对应的下一时刻模板语句作为所述预训练语言模型的输出，训练预训练语言模型参数，得到预训练语言模型。

可选地，所述利用所述训练数据集训练得到预训练语言模型参数还包括：在训练预训练语言模型参数过程中，根据所述预训练语言模型的输出与对应的所述下一时刻模板语句之间的交叉熵损失更新模型参数。

可选地，所述利用所述预训练语言模型对待理解问句进行理解包括：

生成基于所述待理解问句的所有候选模板语句；

利用所述预训练语言模型计算各候选模板语句的得分；

根据得分最高的候选模板语句，确定所述待理解问句的意图和意图要素。

本发明还提供一种问句理解装置，所述方法包括：

训练样本生成模块，用于基于问句标注数据集及提示器模板生成训练数据集，所述训练数据集中包括多个训练样本；

模型构建模块，用于利用所述训练数据集训练得到预训练语言模型；

问句理解模块，用于利用所述预训练语言模型对待理解问句进行理解。

所述训练样本生成模块包括：

数据处理单元，用于基于问句标注数据集，生成意图集合及对应的意图要素集合；

映射单元，用于将与问句相关的意图及其对应的意图要素映射到带有固定槽位的提示器模板中，得到与所述问句对应的当前时刻模板语句及下一时刻模板语句。

可选地，所述模型构建模块，具体用于将所述训练样本中的问句作为预训练语言模型的编码器输入，将与所述问句对应的当前时刻模板语句作为所述预训练语言模型的解码器输入，将与所述问句对应的下一时刻模板语句作为所述预训练语言模型的输出，训练预训练语言模型参数，得到预训练语言模型。

可选地，所述模型构建模块在训练预训练语言模型参数过程中，根据所述预训练语言模型的输出与对应的所述下一时刻模板语句之间的交叉熵损失更新模型参数。

可选地，所述问句理解模块包括：

候选语句生成单元，用于生成基于所述待理解问句的所有候选模板语句；

预测单元，用于利用所述预训练语言模型计算各候选模板语句的得分；

意图确定单元，用于根据得分最高的候选模板语句，确定所述待理解问句的意图和意图要素。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质为非易失性存储介质或非瞬态存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行上面所述方法的步骤。

本发明还提供一种问句理解装置，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上面所述方法的步骤。

本发明提供一种问句理解方法及装置，基于问句标注数据集及提示器模板生成训练数据集，利用训练数据集中的训练样本，训练得到预训练语言模型参数。利用预训练语言模型，为意图识别和要素抽取提供更好的词/字向量嵌入。进一步地，在模型训练过程中，采用统一损失函数，统一建模意图识别和要素抽取任务。

本发明方案通过预训练语言模型和提示器模板技术，统一建模意图识别任务和要素抽取任务，不仅可减少标注数据工作量，而且同时还提高了问句理解的准确度。

附图说明

图1是本发明实施例提供的问句理解方法的一种流程图；

图2是本发明实施例中将训练样本输入预训练语言模型中的示意图；

图3是本发明实施例提供的问句理解装置的一种结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

下面首先对本发明实施例中提到的几个概念进行简要说明。

意图识别(Intent Identification)：是指判断一句话的意图，划分到一个类别中。

词(或字)向量：是指使用低维实数向量表示一个词(或字)。与传统的稀疏表示相比，维度更低，适合作为神经网络的输入。

预训练：是指在利用标注数据之前，先利用无标注的数据即纯文本数据，去训练一个模型，这个模型能够学到一些潜在的跟标注无关的知识。

Transformer网络：描述了一种摒弃CNN(Convolutional Neural Networks,卷积神经网络)和RNN(Recurrent Neural Network，循环神经网络)，完全由注意力机制构建的多层编码器-解码器神经网络结构。该网络结构兼具CNN的并行运算和RNN的远距离依赖能力，是目前最流行的神经网络结构。

BART(Bidirectional and Auto-Regressive Transformers，兼具上下文语境信息和自回归特性的Transformer)：是一种符合生成任务的预训练方法。BART吸收了BERT(Bidirectional Encoder Representations from Transformers，双向Transformers的编码器)的双向编码和GPT(Generative Pre-Training，生成式的预训练)的从左到右编码各自的特点，建立在标准的seq2seq(sequenceto sequence，序列到序列)Transformer模型的基础之上，这使得它比BERT更适合文本生成的场景；相比GPT，也多了双向上下文语境信息。在生成任务上获得进步的同时，它也可以在一些文本理解类任务上取得最好成绩。

本发明的原理是：通过构造提示器模板，将输入文本以及通过提示器模板所构造的模板语句作为预训练语言模型编码器和解码器的输入，通过文本生成的方式，建立输入文本与意图以及要素抽取之间的关联。实现意图识别和要素抽取任务的统一表示。

具体地，本发明实施例提供一种基于提示器的问句理解方法及装置，基于问句标注数据集及提示器模板生成训练数据集，所述训练数据集中包括多个训练样本，利用所述训练数据集训练得到预训练语言模型，利用所述预训练语言模型对待理解问句进行理解。

如图1所示，是本发明提供的问句理解方法的一种流程图，包括以下步骤：

步骤101，基于问句标注数据集及提示器模板生成训练数据集，所述训练数据集中包括多个训练样本。

所述预训练语言模型为BART模型；每个训练样本包括：问句、与所述问句对应的当前时刻模板语句及下一时刻模板语句。

基于问句标注数据集及提示器模板生成训练数据集的过程如下：首先，基于问句标注数据集，生成意图集合及对应的意图要素集合；然后将与问句相关的意图及其对应的意图要素映射到带有固定槽位的提示器模板中，得到与所述问句对应的当前时刻模板语句及下一时刻模板语句。

令标注数据集为(X，I，S)，其中X是问句集合，X＝{X₁,…,X_n}，X_j代表一个语句，X_j＝{x₁,...,x_c}，x_o是句子X_j在o时刻的单词；

Y为意图集合，Y＝{y₁,…,y_m}；

S是意图要素集合，S＝{S₁,…,S_k}；

上述三者之间的关系形式化如下：

S_j＝x_i:j

intention(X_j)＝y_j

slots(y_j)∈S

也就是说，一个意图就是语句中的一个跨度，一个语句只有一个或没有意图，一个意图可能包含多个或者不包含意图要素。令y_none代表空意图，则最终的意图集合为Y＝Y∩y_none，意图要素集合为S＝S∩S_none。

经过整理后，标注数据集形如：{(X_j,y_j,(S_i,..,S_j))}。

所述提示器模板是带有固定槽位的自然语言句子，所述槽位对应的是该语句的意图和/或意图要素。

需要说明的是，所述提示器模板可以对应以下模板函数：

x_i:j is a y_k slot.

其中，y_k代表第k个意图，x_i:j∈S，是一个意图要素，代表问句中的一个文本跨度，是意图y_k的槽位。

在本发明实施例中，所述提示器模板可以包括但不限于以下任意一种或多种：有意图无槽位模板、有意图有槽位模板、无意图模板。

有意图无槽位模板对应的模板函数可表示为：

noneisy_kslot.

无意图模板对应的模板函数可表示为：

x_i:jisy_noneslot.

其中,

步骤102，利用所述训练数据集训练得到预训练语言模型。

将所述训练样本中的问句作为预训练语言模型的编码器输入，将与所述问句对应的当前时刻模板语句作为所述预训练语言模型的解码器输入，将与所述问句对应的下一时刻模板语句作为所述预训练语言模型的输出，训练预训练语言模型参数，得到预训练语言模型。

例如图2所示，将问句“办理身份证需要什么材料？”作为编码器的输入，将该问句对应的当前时该模板语句“s材料is身份证slot”作为解码器的输入，将该问句对应的下一时刻模板语句“材料is身份证slot.”作为解码器的输出。

需要说明的是，在训练预训练语言模型参数过程中，可以根据所述预训练语言模型的输出与对应的所述下一时刻模板语句之间的交叉熵损失更新模型参数，具体如下：

给定一个语句对(X,T)，其中X表示原始问句，T表示模板语句，将X作为预训练语言模型的编码器输入，得到该问句的隐藏表示：

h^enc＝encoder_bart(X)；

在预训练语言模型解码器的c时刻，隐藏表示h^enc和c时刻之前所输出的所有字符t作为输入，利用注意力机制，生成c时刻字符的隐藏表示：

将c时刻字符的隐藏表示

利用softmax得到其c时刻字符的条件概率，字符t的条件概率定义为：

其中，

代表所述预训练语言模型的词汇集大小。

通过解码器输出与原始模板语句(即对应的所述下一时刻模板语句)之间的交叉熵作为损失函数来更新参数。损失函数为：

步骤103，利用所述预训练语言模型对待理解问句进行理解。

具体地，生成基于所述待理解问句的所有候选模板语句，并利用所述预训练语言模型计算各候选模板语句的得分，然后根据得分最高的候选模板语句，确定所述待理解问句的意图和意图要素。

在本发明实施例中，可以利用预先建立的意图模板生成基于所述待理解问句的所有候选模板语句。比如，对于一个给定的待理解问句X＝{x₁,...,x_m}，其中，m为所述待理解问句中的分词数，根据意图模板枚举所有的意图。

所述意图模板与前面提到的提示器模板结构相同，只是在生成所述候选模板语句时，需要将所述待理解问句中的各分词枚举所有的意图，即将各分词逐一作为意图和意图要素映射到该意图模板中，从而得到所有的候选模板语句。

需要说明的是，为加快解码速度，在进行枚举确定所述候选模板语句时，可以将跨度限定为2到10个字符，假设一个意图平均有k个要素，则一个问句共有约9(m+1)k个候选模板语句。

利用训练好的预训练语言模型给每一个候选模板语句计算一个得分：

其中，

表示模板句x_i:jisay_kslot。

选择最高得分的

作为最终的输出，其意图为y_k，对应的槽位即意图要素为x_i:j。

本发明提供一种问句理解方法，基于问句标注数据集及提示器模板生成训练数据集，利用训练数据集中的训练样本，训练得到预训练语言模型参数。利用预训练语言模型，为意图识别和要素抽取提供更好的词/字向量嵌入。进一步地，在模型训练过程中，采用统一损失函数，统一建模意图识别和要素抽取任务。

相应地，本发明实施例还提供一种问句理解装置，如图3所示，是该装置的一种结构示意图。

该问句理解装置300包括以下各模块：

训练样本生成模块301，用于基于问句标注数据集及提示器模板生成训练数据集，所述训练数据集中包括多个训练样本；

模型构建模块302，用于利用所述训练数据集训练得到预训练语言模型400；

问句理解模块303，用于利用所述预训练语言模型400对待理解问句进行理解。

本发明实施例中，所述预训练语言模型可以采用BART模型；每个训练样本包括：问句、与所述问句对应的当前时刻模板语句及下一时刻模板语句。

相应地，所述训练样本生成模块301的一种具体结构可以包括以下各单元：

在进行模型训练时，所述模型构建模块302将所述训练样本中的问句作为预训练语言模型的编码器输入，将与所述问句对应的当前时刻模板语句作为所述预训练语言模型的解码器输入，将与所述问句对应的下一时刻模板语句作为所述预训练语言模型的输出，训练预训练语言模型参数，得到预训练语言模型。

需要说明的是，所述模型构建模块302在训练预训练语言模型参数过程中，可以根据所述预训练语言模型的输出与对应的所述下一时刻模板语句之间的交叉熵损失更新模型参数。

模型的具体训练过程与现有技术类似，所述交叉熵损失的计算可参照前在本发明方法实施例中的描述，在此不再赘述。

在利用所述预训练语言模型对待理解问句进行理解时，可以基于预先建立的意图模板，利用所述预训练语言模型计算各候选模板语句的得分，根据得分确定最终的意图和意图要素。

相应地，所述问句理解模块303的一种具体结构可以包括以下各单元：

本发明提供一种问句理解装置，基于问句标注数据集及提示器模板生成训练数据集，利用训练数据集中的训练样本，训练得到预训练语言模型参数。利用预训练语言模型，为意图识别和要素抽取提供更好的词/字向量嵌入。进一步地，在模型训练过程中，采用统一损失函数，统一建模意图识别和要素抽取任务。

本发明实施例提供的问句理解方法及装置，针对一段问句文本，将问句对应的意图以及意图要素通过提示器模板生成模板语句，然后与原始问句进行拼接，使得问句与意图以及意图要素通过模板语句进行关联，然后将问句与模板语句分别输入至预训练语言模型的编码器和解码器，通过交叉熵损失来拟合解码器的输出与输入，达到完成问句理解的目的。

利用本发明实施例提供的技术方案，可以将意图识别和槽位填充两个任务通过模板转化成统一的文字生成任务，降低了问句理解的复杂性。进一步地，通过意图模板可以方便地进行意图和槽位的转化，同时在确定得分最高的候选意图后，利用该候选意图对应的意图模板也可以很方便地获取到意图和对应槽位(即意图要素)。另外，本发明方案可以最大限度地利用预训练语言模型的优势，在小批量标注数据下即可取得优异效果。

采用本发明提供的方案在两个数据集上进行实验，两个数据集为ATIS(AirlineTravel Information Systems，航空旅行信息系统)数据集和政务网站上收集的2856个政务相关问答数据。其中，ATIS数据集由关于在自动航空公司旅行查询系统上询问航班信息的人的音频记录和相应的人工抄本组成，数据由17个独特的意图类别组成。

结果表明，在ATIS数据集上意图识别率为99.11％，槽位填充F1值为98.12％，F1值＝正确率×召回率×2/(正确率+召回率)。对于政府网站上收集的政务问答数据集，意图识别准确率为97.56％，槽位填充F1值为88.32％。需要提出的是，利用本发明的技术方案，在少量数据样本下，即取得很好的结果。其槽位填充结果如下表所示：

ATIS

标注样本数	10	20	50	best
					seq-bert	44.1	76.7	90.7	96.89
ner-bart	71.6	79.1	92.4	98.12

政务问答

其中，上述两个表中seq-bert对应的行是基于现有的seq-bert模型，对应不同标注样本数得到的槽位填充F1值；所述seq-bert模型是基于预训练语言模型bert的序列识别模型，其是通过在BERT模型上堆叠softmaxt层进行序列识别。ner-bart对应的行是基于本发明方案提供的模型(即基于预训练语言模型BART的提示器模型)，对应不同标注样本数得到的槽位填充F1值。

其中，best表示该模型的最好效果。

由表1可以看出，在样本数量为50个时，本方案的效果已经接近最佳效果。

需要说明的是，本发明方案可以应用于自动问答系统、人机对话等场景，提升人机对话质量，进而提升用户对产品的使用体验。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质为非易失性存储介质或非瞬态存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行上述图1对应实施例提供的方法中的部分或全部步骤。

本发明实施例还提供了一种问句理解装置，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述图1对应实施例提供的方法中的部分或全部步骤。

在本发明所提供的几个实施例中，应该理解到，所揭露的方法、装置和系统，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的；例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式；例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。而且，以上所描述的系统实施例仅仅是示意性的，其中作为分离部件说明的模块和单元可以是或者也可以不是物理上分开的，即可以位于一个网络单元上，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及系统，其仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围，本说明书内容不应理解为对本发明的限制。因此，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种问句理解方法，其特征在于，所述方法包括：

利用所述训练数据集训练得到预训练语言模型；

利用所述预训练语言模型对待理解问句进行理解。

2.根据权利要求1所述的方法，其特征在于，所述预训练语言模型为BART模型；每个训练样本包括：问句、与所述问句对应的当前时刻模板语句及下一时刻模板语句；

3.根据权利要求1所述的方法，其特征在于，所述提示器模板包括以下任意一种或多种：有意图无槽位模板、有意图有槽位模板、无意图模板。

4.根据权利要求2所述的方法，其特征在于，所述利用所述训练数据集训练得到预训练语言模型参数包括：

5.根据权利要求4所述的方法，其特征在于，所述利用所述训练数据集训练得到预训练语言模型参数还包括：

在训练预训练语言模型参数过程中，根据所述预训练语言模型的输出与对应的所述下一时刻模板语句之间的交叉熵损失更新模型参数。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述利用所述预训练语言模型对待理解问句进行理解包括：

生成基于所述待理解问句的所有候选模板语句；

利用所述预训练语言模型计算各候选模板语句的得分；

7.一种问句理解装置，其特征在于，所述方法包括：

8.根据权利要求7所述的装置，其特征在于，所述预训练语言模型为BART模型；每个训练样本包括：问句、与所述问句对应的当前时刻模板语句及下一时刻模板语句；

所述训练样本生成模块包括：

9.根据权利要求8所述的装置，其特征在于，

所述模型构建模块，具体用于将所述训练样本中的问句作为预训练语言模型的编码器输入，将与所述问句对应的当前时刻模板语句作为所述预训练语言模型的解码器输入，将与所述问句对应的下一时刻模板语句作为所述预训练语言模型的输出，训练预训练语言模型参数，得到预训练语言模型。

10.根据权利要求9所述的装置，其特征在于，

所述模型构建模块在训练预训练语言模型参数过程中，根据所述预训练语言模型的输出与对应的所述下一时刻模板语句之间的交叉熵损失更新模型参数。

11.根据权利要求7至10任一项所述的装置，其特征在于，所述问句理解模块包括：

12.一种计算机可读存储介质，所述计算机可读存储介质为非易失性存储介质或非瞬态存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1至6中任一项所述方法的步骤。

13.一种问句理解装置，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行权利要求1至6中任一项所述方法的步骤。