CN113821616A

CN113821616A - 领域自适应的槽位填充方法、装置、设备及存储介质

Info

Publication number: CN113821616A
Application number: CN202110910430.7A
Authority: CN
Inventors: 徐金安; 于梦诗; 陈钰枫; 刘健
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2021-08-09
Filing date: 2021-08-09
Publication date: 2021-12-21
Anticipated expiration: 2041-08-09
Also published as: CN113821616B

Abstract

本申请公开了一种领域自适应的槽位填充方法、装置、设备及存储介质，属于自然语言处理领域。该方法包括：接收用户输入语句；基于目标槽位的槽位元信息，为所述用户输入语句构建与所述目标槽位对应的问句；将所述问句和所述用户输入语句拼接为用户输入句对；调用机器阅读理解模型对所述用户输入句对进行预测，得到所述问句的答案位置信息；根据所述答案位置信息，将所述问句的答案作为槽位实体，填充在所述目标槽位中。本申请将槽位填充问题转化为机器阅读理解问题，利用通用机器阅读理解模型对不同领域的语料都具有较好理解能力的特性，可以实现跨领域的槽位填充能力。

Description

领域自适应的槽位填充方法、装置、设备及存储介质

技术领域

本申请涉及自然语言处理领域，特别涉及一种领域自适应槽位填充方法、装置、设备及存储介质。

背景技术

口语语言理解(Spoken Language Understanding，SLU)是自然语言处理(NaturalLanguage Processing，NLP)领域中任务型对话系统的一项重要功能。

槽位填充是面向任务的对话系统，在进行口语语言理解过程时的重要任务。随着任务型对话系统日益增加的应用场景，任务型对话系统涉及的领域也越来越广泛。槽位填充通常根据相似含义的槽位具有相似描述的特点，对用户输入的每个词分配一个标签，即采用序列标注方法。在处理一个新的槽位类型时，通过序列标注方法对已知领域槽位进行训练来识别相似的未知领域槽位。

然而这种方法简单的使用序列标注信息匹配槽位实体，要求已知领域槽位与未知领域槽位之间具有相似性。在面对新领域的槽位填充任务时，极大限制了槽位填充系统的性能。

发明内容

本申请提供了一种领域自适应槽位填充方法、装置、设备及存储介质，将槽位填充问题转化为机器阅读理解(Machine Reading Comprehension，MRC)问题，利用通用的机器阅读理解模型对不同领域的语料都具有较好理解能力的特性，可以实现跨领域的槽位填充能力。所述技术方案如下：

根据本申请的一方面，提供了一种领域自适应的槽位填充方法，所述方法包括：

接收用户输入语句；

基于目标槽位的槽位元信息，为所述用户输入语句构建与所述目标槽位对应的问句；

将所述问句和所述用户输入语句拼接为用户输入句对；

调用机器阅读理解模型对所述用户输入句对进行预测，得到所述问句的答案位置信息，所述答案位置信息用于指示所述问句的答案在所述用户输入语句中的位置；

根据所述答案位置信息，将所述问句的答案作为槽位实体，填充在所述目标槽位中。

根据本申请的另一方面，提供了一种领域自适应的槽位填充装置，其特征在于，所述装置包括：

语句接收模块，用于接收用户输入语句；

问句构建模块，用于基于目标槽位的槽位元信息，为所述用户输入语句构建与所述目标槽位对应的问句；

语句拼接模块，用于将所述问句和所述用户输入语句拼接为用户输入句对；

位置预测模块，用于调用机器阅读理解模型对所述用户输入句对进行预测，得到所述问句的答案位置信息，所述答案位置信息用于指示所述问句的答案在所述用户输入语句中的位置；

槽位填充模块，用于根据所述答案位置信息，将所述问句的答案作为槽位实体，填充在所述目标槽位中。

根据本申请的另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方面所述的领域自适应的槽位填充方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上方面所述的领域自适应的槽位填充方法。

根据本申请的另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面的各种可选实现方式中提供的领域自适应的槽位填充方法。

本申请提供的技术方案带来的有益效果至少包括：

将槽位填充问题转化为机器阅读理解问题，利用通用的机器阅读理解模型对不同领域的语料都具有较好理解能力的特性，可以实现跨领域的槽位填充能力。而且由于机器阅读理解模型可以利用已有的大规模MRC数据集进行预训练，不需要严重依赖特定领域或新领域的大量槽位填充样本才能训练，因此能够缓解特定领域或新领域的槽位填充样本较少的问题。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例的示意图；

图2是本申请一个示例性实施例提供的计算机系统的结构框图；

图3是本申请一个示例性实施例提供的领域自适应的槽位填充方法的流程图；

图4是本申请一个示例性实施例提供的领域自适应的槽位填充方法的流程图；

图5是本申请一个示例性实施例的示意图；

图6是本申请一个示例性实施例提供的领域自适应的槽位填充方法的流程图；

图7是本申请一个示例性实施例提供的领域自适应的槽位填充装置的结构框图；

图8是本申请一个示例性实施例提供的服务器的结构框图。

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先对本申请涉及的若干个名词进行简介：

槽位元信息：是用于描述槽位与用户输入之间关系的信息。示例性的，槽位元信息包括下述信息中的至少一种：槽位描述、槽位实例。

参考表一，表一示例性的示出了进行航班订票槽位设计时的槽位元信息。

表一

槽位描述	槽位实例	字段名称	槽位类型
				出发地	北京	loc_from_city	城市
目的地	上海	loc_to_city	城市
				起飞时间	周一晚上8点	time_from	时间
乘机人姓名	张三	customer_name	姓名

槽位类型：是帮助解释槽位的解释器，可以将槽位转化为一个结构化字段。同样的槽位类型，可以赋予不同的槽位描述。

槽位实例：是基于用户输入对槽位进行填充的部分，示例性的，槽位实例包括下述信息中的至少一种：从用户输入中截取，或，基于用户输入进行加工得到的字、词、短语、句子。槽位实例一般由训练集或测试集中得到。

槽位填充是在一个或多个(特定)领域中，根据槽位提取用户输入语句中的部分或全部信息的任务，即识别与任务相关的信息。传统的槽位填充方法通过监督学习(Supervised learning)实现，需要构建特定领域的语料库，并大规模标记与槽位填充有关的样本数据集。

在槽位填充的领域发生变化的情况下，即跨领域的槽位填充中，面临的主要挑战是：对于未知领域的槽位，通常没有语料库或语料库的样本数量不足以进行监督学习。

在槽位填充的领域发生变化的情况下，目标领域(即新的未知领域)通常会包含领域特定槽位(即新的未知槽位)，即使引入槽位元信息进行新的未知领域的槽位填充。通过已知领域槽位的槽位元信息匹配涉及未知领域的用户输入语句的方法，也会导致这种槽位填充方法依赖于已知领域槽位与未知领域槽位之间具有相似性，极大的限制槽位填充系统的性能。若已知领域槽位与未知领域槽位之间的跨度较大，则槽位填充会出现失败。而且面临着领域的快速变化，在新的未知领域中可能没有槽位填充样本，或者只有很少的槽位填充样本。

为了缓解目标领域(即新的未知领域)的数据稀缺问题，本申请创造性的训练一个模型，该模型可以借鉴源领域(即已知领域)的先验经验，并在有限的训练样本下快速适应目标领域。

具体的，本申请提出了一种跨领域进行槽位填充的新方法。该方法将传统的槽位填充问题转换为一个机器阅读理解(Machine Reading Comprehension，MRC)问题来解决。假设根据已知领域的经验可知，存在n个候选的槽位类型。那么对于任意一个槽位类型，本申请将该槽位类型的槽位填充问题转换为一个MRC问题，然后通过机器阅读理解模型对这个MRC问题的答案来填充槽位。该答案是机器阅读理解模型从用户输入语句中提取出的。

本申请充分利用已知领域槽位的槽位元信息，将槽位元信息的利用方式，从直接匹配槽位元信息与用户输入语句的利用方式，调整为基于槽位元信息构建问句，通过基于用户输入语句回答问句得到槽位实体的利用方式。对于用户输入语句和构建已知领域槽位对应的问句，使用机器阅读理解模型在涉及未知领域的用户输入语句中预测答案范围。

由于机器阅读理解模型可以利用大规模MRC数据集进行预训练，因此能够充分避免了未知领域的槽位填充样本的数量不足以进行监督学习的问题。

示意性的参考图1，对于涉及未知的第一领域的用户输入语句101，无需重新搜集和构建第一领域语料库，只需利用已有的第二领域语料库的先验知识，将涉及第二领域的所有槽位作为候选槽位，候选槽位中的槽位依次作为目标槽位，基于目标槽位的槽位元信息102构建与目标槽位对应的问句103。

将问句103与用户输入语句101拼接为用户输入句对104后，输入机器阅读理解模型105对问句103进行答案搜索。机器阅读理解模型105输出答案在用户输入语句101中的答案位置信息。将用户输入语句101中与答案位置信息对应的槽位实体106填充至目标槽位，即可实现涉及第一领域的槽位填充。

需要说明的是：问句103是基于第二领域槽位的槽位元信息构建的，用户输入语句101涉及第一领域，在本实施例中无需搜集和构建未知的第一领域语料库，只需构建第一领域槽位的槽位元信息，即可实现第一领域的槽位填充。

综上所述，本实施例提供的方法，将槽位填充问题转化为机器阅读理解问题，利用通用的机器阅读理解模型对不同领域的语料都具有较好理解能力的特性，可以实现跨领域的槽位填充能力。而且由于机器阅读理解模型可以利用已有的大规模MRC数据集进行预训练，不需要严重依赖特定领域或新领域的大量槽位填充样本才能训练，因此能够缓解特定领域或新领域的槽位填充样本较少的问题。

图2示出了本申请一个实施例提供的领域自适应槽位填充系统的框图。该领域自适应槽位填充系统可以包括：终端210、客户端220、服务器230、领域自适应槽位填充系统240、网络250。

客户端220用于获取用户输入语句，将用户输入语句发送给服务器230。客户端220可以安装在终端210上。示例性的，终端210包括但不限于下述计算机设备中的至少一种：智能手机、平板电脑、笔记本电脑、台式计算机。

服务器230是本申请构建的领域自适应槽位填充系统240的运行方和领域自适应槽位填充服务的提供方。服务器230接收客户端发送的用户输入语句，进行领域自适应槽位填充后将目标槽位填充结果发送给客户端220。

服务器230用于接收用户输入语句；基于目标槽位的槽位元信息，为用户输入语句构建与目标槽位对应的问句；将问句和用户输入语句拼接为用户输入句对；调用机器阅读理解模型对用户输入句对进行预测，得到问句的答案位置信息；根据答案位置信息，将问句的答案作为槽位实体，填充在目标槽位中。服务器220具备承担响应领域自适应槽位填充服务请求、承担领域自适应槽位填充服务、保障领域自适应槽位填充服务的能力中的至少一种能力。

终端210与服务器230之间的通信通过网络250实现。

图3示出了本申请一个实施例提供的领域自适应的槽位填充方法的流程图。所述方法可以由计算机设备来执行。该方法包括：

步骤301：接收用户输入语句；

用户输入语句是用户使用计算机设备的输入设备输入的语句。示例性的，计算机设备的输入设备包括但不限于下述设备中的至少一种：键盘、触控板、手写字符识别设备、光学字符识别(Optical Character Recognition，OCR)设备、语音识别设备。

示例性的，在图1示出的实施例中，用户输入语句是通过用户使用键盘输入的：请为李四预定明天早上10点，从天津西站开往南京南站的火车票。

步骤302：基于目标槽位的槽位元信息，为用户输入语句构建与目标槽位对应的问句；

目标槽位是候选槽位中的一个，候选槽位是已知领域中的所有槽位或部分槽位。即目标槽位的数量不止一个，可以为很多个。针对每个目标槽位，需要分别构建与该目标槽位对应的问句。

目标槽位对应的问句是基于目标槽位的槽位元信息得到的问句，问句通过提问的形式，描述出了目标槽位需要填充何种槽位实体。基于用户输入语句回答目标槽位对应的问句可以得到目标槽位的填充实体。

其中，构建与目标槽位对应的问句是将传统的槽位填充任务转化为机器阅读理解任务的关键。

步骤303：将问句和用户输入语句拼接为用户输入句对；

用户输入句对包括:用户输入语句和问句。

在存在多个目标槽位的情况下，对每个目标槽位对应的问句，分别执行将问句和用户输入语句拼接为用户输入句对的过程。本实施例中，以目标槽位为一个来举例说明。

可选地，将问句和用户输入语句进行顺序拼接，得到用户输入句对。

步骤304：调用机器阅读理解模型对用户输入句对进行预测，得到问句的答案位置信息；

机器阅读理解模型是通过有监督的方式学习潜在的通用的语言、语法、语义信息，让机器理解文本信息的模型。可选地，机器阅读理解模型是基于预训练模型的阅读理解模型，预训练模型是基于通用领域的机器阅读理解语料库进行预训练得到的语言表征模型。

机器阅读理解模型在用户输入语句寻找问句对应的答案，即槽位实体。机器阅读理解模型输出答案位置信息。答案位置信息用于指示问句的答案在用户输入语句中的位置。可选地，答案位置信息包括问句的答案在用户输入语句中的答案开始位置和答案结束位置。

步骤305：根据答案位置信息，将问句的答案作为槽位实体，填充在目标槽位中。

将用户输入语句与答案位置信息对应的字符部分提取为槽位实体，填充至目标槽位。

图4示出了本申请另一个实施例提供的领域自适应的槽位填充方法的流程图。所述方法可以由计算机设备来执行。该方法包括：

步骤301：接收用户输入语句；

以计算机设备为服务器为例，服务器接收终端或客户端上报的用户输入语句。该用户输入语句是用户使用终端上的输入设备采集用户输入语句。

计算机设备内存储有已知领域的全部或部分候选槽位。计算机设备还存储有各个候选槽位的槽位元信息。槽位元信息包括：槽位描述和槽位示例中的至少一种。

作为将槽位填充问题转换为MRC问题的关键，构建与目标槽位对应的问句的方法包括下述方法中的至少一种：

·基于槽位描述构建问句；

预先定义槽位描述信息，使用槽位描述填充问句模板。需要说明的是，数个不同槽位描述的目标槽位可以对应同一种槽位类型，不同目标槽位之间通过槽位描述信息进行区别。

在目标槽位的槽位元信息包括槽位描述的情况下，将槽位描述代入第一问句模板得到与目标槽位对应的问句，第一问句模板是以槽位描述为询问目标的问句模板。示意性的，第一问句模板是“What is the<槽位描述>？”。

比如，槽位描述restaurant_name对应的问句为：What is the restaurantname？。

·基于回译构建问句；

在目标槽位的槽位元信息包括槽位描述的情况下，将槽位描述代入第一问句模板得到初始问句，将初始问句从第一语种翻译为第二语种，再从第二语种翻译为第一语种以得到回译问句；将回译问句确定为与目标槽位对应的问句。

基于回译的方法减少在同种语种文本中的表述方式中，减弱语法错误带来的噪声。示例性的，槽位描述restaurant_name对应的问句为：What is the restaurant name？，利用回译的方法将槽位restaurant_name对应的问句转化为：What's the name of therestaurant？，从而减弱原问句语法错误带来的噪声。

·基于槽位实例构建问句；

在目标槽位的槽位元信息包括槽位描述和槽位实例的情况下，将槽位描述和槽位实例代入第二问句模板得到与目标槽位对应的问句，第二问句模板是以槽位描述为第一询问目标以及以是否存在与槽位实例相似的词语为第二询问目标的问句模板。

对基于槽位描述构建的问句引入n个槽位实例作为参考信息，能够显著提高机器阅读理解模型输出的答案精确度，充分利用新的未知领域的有限样本知识。示例性的，槽位restaurant_name对应的问句为：What is the restaurant name。引入2个槽位实例将槽位restaurant_name对应的问句转化为：What is the restaurant name like the wangs'restaurant or the zhang's fast food restaurant。槽位实例来自已知的语言样本集，对于没有语言样本集的领域，可以人工构建槽位实例。

步骤303：将问句和用户输入语句拼接为用户输入句对；

用户输入句对包括:用户输入语句和问句。

步骤304a：生成用户输入句对中每个字符的嵌入向量；

生成的嵌入向量用于描述用户输入句对中每个字符的信息。并在生成的嵌入向量中插入符号，示例性的，插入符号的方法包括以下方法中的至少一种：

·在用户输入句对生成的嵌入向量前插入特殊分类嵌入符[CLS]，即嵌入向量的第一个字符为特殊分类嵌入符[CLS]；

·在问句与用户输入语句生成的嵌入向量之间插入特殊分隔符[SEP]；

·在用户输入语句生成的嵌入向量之后插入特殊分隔符[SEP]。

示意性的，生成用户输入句对中每个字符的嵌入向量包括如下两个步骤：

·分别生成与用户输入句对中每个字符对应的词嵌入向量、分段嵌入向量和位置嵌入向量；

词嵌入向量中包括用户输入句对中每个字符的词向量，分段嵌入向量中包括用户输入句对中每个字符所属的分段信息，位置嵌入向量中包括用户输入句对中每个字符的位置信息。

·对每个字符的词嵌入向量、分段嵌入向量和位置嵌入向量进行叠加，生成用户输入句对中每个字符对应的嵌入向量；

通过叠加生成的嵌入向量能够完整的示出每个字符的词向量、分段信息和位置信息。

步骤304b：调用编码网络对用户输入句对的嵌入向量进行编码，得到用户输入句对中每个字符的隐层向量；

机器阅读理解模型包括编码网络和预测网络，编码网络是基于预训练模型的编码网络，预训练模型是基于通用领域的机器阅读理解语料库进行预训练得到的语言表征模型。比如，预训练模型是基于通用领域的机器阅读理解语料库训练得到的BERT模型。

计算机设备调用编码网络对嵌入向量进行编码，得到用户输入句对中每个字符的隐层向量。

示例性的，编码网络的结构包括采用12个翻译编码器(Transformer Encoder)堆叠结构，编码网络中的每个编码层使用12个自注意力机制，对嵌入向量进行编码，输出每个字符的隐层向量。自注意力机制用于选择有效和适当规模的字符，让编码网络可以高效地完成嵌入向量编码任务。

示例性的，编码网络105a的结构如图5所示，对于用户输入句对的嵌入向量：

X＝{[CLS],q₁,q₂,…,q_m,[SEP],x₁,x₂,…,x_n,[SEP]}

编码网络105a输出的隐层向量为：

H＝{H_[CLS],H₁,H₂,…,H_n,H_[SEP]，H₁’,H₂’,…,H_n’,H_[SEP]}

其中，{H₁,H₂,…,H_n}是与问句对应的隐层向量，{H₁’,H₂’,…,H_n’_]}是与用户输入句对对应的隐层向量。

可选的，增加注意力层多头注意力机制(Multi-Head Attention)，扩展模型专注于不同位置的能力。多头注意力机制用于学习每个字与其他字的依赖关系和得到上下文语义，通过前馈神经网络对多头注意力机制计算后的输入进行变换，得到嵌入向量的全局信息。

步骤304c：调用预测网络基于用户输入句对中每个字符的隐层向量表示进行答案位置信息的预测，得到问句的答案开始位置和答案结束位置；

预测网络接收编码网络输出的每个字符的隐层向量，进行答案位置信息的预测。

示例性的，预测网络使用全连接层(Fully Connected Layer)和归一化指数(Softmax)，调整全连接层和归一化指数的训练权重，构造两个二元分类器，分别用于预测答案开始位置和答案结束位置。

示例性的，使用全连接层(Fully Connected Layer)和归一化方法(Softmax)预测答案开始位置和答案结束位置的过程如下：

L_start＝Linear(HW_start)

P_start＝Softmax(L_startV_start)

L_end＝Linear(HW_end)

P_end＝Softmax(L_endV_end)

其中，Linear表示全连接层(Fully Connected Layer)，Softmax表示归一化方法(Softmax)，P_start表示答案开始位置的概率，P_end表示答案结束位置的概率。W_start、W_end、V_start、V_end表示预测答案开始位置和答案结束位置的权重，H表示编码网络输出的问句对应的隐层向量。

示例性的，得到问句的答案开始位置和答案结束位置包括如下四个步骤：

S1：调用预测网络基于用户输入句对中每个字符的隐层向量表示进行答案开始位置的预测，得到每个字符作为答案开始位置的第一概率；

如图5所示，P_start代表字符作为答案开始位置的第一概率，P₁ ^s表示用户输入语句中第一个字符作为答案开始位置的第一概率，相似的，P₂ ^s、P₃ ^s、…、P_n ^s表示用户输入语句中第二个字符、第二个字符直至第n个字符作为答案开始位置的第一概率。

S2：调用预测网络基于用户输入句对中每个字符的隐层向量表示进行答案结束位置的预测，得到每个字符作为答案结束位置的第二概率；

如图5所示，P_end代表字符作为答案结束位置的第二概率，P₁ ^e表示用户输入语句中第一个字符作为答案结束位置的第二概率，相似的，P₂ ^e、P₃ ^e、…、P_n ^e表示用户输入语句中第二个字符、第二个字符直至第n个字符作为答案结束位置的第二概率。

S3：通过分别预测答案开始位置答案结束位置，更加详细的示出了与目标槽位对应的问句的答案位置信息

S4:以第一候选字符的第一概率和第二候选字符的第二概率确定候选答案区间概率，第一候选字符的字符位置不晚于第二候选字符的字符位置；

示意性的，通过答案开始位置和答案结束位置的位置逻辑关系，排除了不合理的答案位置区间。

将概率在前k高的候选答案区间中的第一候选字符确定为问句的候选答案开始位置，将概率在前k高的候选答案区间中的第二候选字符确定为问句的候选答案结束位置；

将候选答案开始位置与候选答案结束位置一一进行拼接，并将第一概率和第二概率相加得到候选答案区间概率，从候选答案区间概率中选取概率最高的前t个不重叠的区间作为答案区间；

参数t和参数k的取值为大于0的正整数。

示例性的，参数t和参数k的配置方法包括但不限于下述方法中的至少一种：手动配置、领域自适应的槽位填充系统自动配置。

需要说明的是：如果预测答案位置不存在，将嵌入向量的第一个字符，即特殊分类嵌入符[CLS]的位置作为预测网络的预测结果，输出答案开始位置和答案结束位置。此时认为当前的目标槽位填充失败。

针对不同的目标槽位，机器阅读理解模型预测的多个结果对应用户输入语句中的多个部分，即存在多个槽位实体，因为预测结果对应的槽位实体可能存在重叠，对槽位实体进行消除重叠处理。

示例性的，采用最大优先原则消除重叠，机器阅读理解模型预测多个结果，根据概率对结果中的答案开始位置信息和答案结束位置信息分别进行从高至低排序。根据预定义阈值N，选择概率最高的前N个答案开始位置信息和答案结束位置信息。根据答案开始位置信息和答案结束位置信息的概率计算答案开始位置和答案结束位置描述的区间的概率。根据区间概率从高至低排序，将对应的槽位实体填充在目标槽位中，若待填充槽位实体的区间与已填充槽位实体的区间相重叠，则舍弃当前槽位实体。至此，采用最大优先原则消除了重叠问题。

综上所述，本实施例提供的方法，通过基于槽位描述、槽位实例和回译方法避免了语法错误和语言习惯差异对构建问句的影响。

通过生成每个字符对应的词嵌入向量、分段嵌入向量和位置嵌入向量，从多个角度对用户输入句对中的每个字符使用嵌入向量进行描述，通过叠加生成的嵌入向量可以完整的示出每个字符的词向量、分段信息和位置信息，为机器阅读理解模型的编码网络和预测网络对嵌入向量进行处理奠定了良好基础。

通过调用机器阅读理解模型的预测网络对答案开始位置和答案结束位置分别进行预测，以字符为粒度确定答案区间，细化了领域自适应槽位填充方法的答案输出粒度。

槽位填充避免了槽位实体重叠造成的问句答案丢失问题。提高了领域自适应槽位填充方法在面对未知领域时的适应能力。

图6示出了本申请一个实施例提供的机器阅读理解模型的训练方法的流程图。该方法包括：

步骤601：使用通用领域的机器阅读理解语料库对初始模型进行预训练，得到预训练模型；

通用领域的机器阅读理解语料库是没有划分领域的语料库，使用通用领域的机器阅读理解语料库对初始模型进行预训练，得到预训练模型。可选地，初始模型是BERT模型。

预训练模型是一种语言表征模型。机器阅读理解模型是基于预训练模型的阅读理解模型。

步骤602：基于预训练模型构建机器阅读理解模型中的编码网络；

编码网络对嵌入向量进行编码，得到用户输入句对中每个字符的隐层向量。

示例性的，机器阅读理解模型编码网络的结构包括但不限于采用翻译编码器(Transformer Encoder)堆叠结构，编码网络中的每个编码层使用多个自注意力机制。自注意力机制用于选择有效和适当规模的字符，让编码网络可以高效地完成嵌入向量编码任务。

步骤603：使用槽位填充数据集对机器阅读理解模型进行再训练。

假设新的未知领域存在少量的槽位填充样本，基于新的未知领域的槽位填充样本和已知领域的槽位填充样本构建槽位填充数据集。槽位填充数据集是将槽位填充数据构建为样本问句和样本答案得到的。

将已有语料库中基于槽位元信息构建的问句和已有语料库中槽位对应的语料样本作为槽位填充样本，基于槽位填充样本构建槽位填充数据集。示例性的，槽位填充数据集中至少包括以下信息：基于槽位元信息构建的问句、语料库中槽位对应的语料样本、问句在语料样本中的答案。

需要说明的是：槽位填充数据集中的槽位填充样本通常是从已知领域语料库中获得的，但也不排除使用人为构建的未知领域语料库或使用现存样本量较少的未知领域语料库。

再训练通过设置损失函数用于表征再训练的训练效果。

示例性的，设置二类交叉熵作为损失函数，分别计算答案开始位置和答案结束位置的损失，将两类损失叠加获得最终的损失表征再训练的训练效果。

损失函数的定义如下：

Loss_start＝CE(P_start,Y_start)

Loss_end＝CE(P_end,Y_end)

Loss＝λLoss_start+(1-λ)Loss_end

其中，CE表示交叉熵损失函数，平衡因子λ用于控制再训练的训练目标，Loss是使用二类交叉熵构建的损失函数。

综上所述，本实施例提供的方法，通过使用通用领域的机器阅读理解语料库对初始模型进行预训练得到预训练模型，这种语言表征模型可以完成机器阅读理解任务。使用槽位填充数据集对机器阅读理解模型进行再训练，通过预训练和微调的方法进一步提升了调用机器阅读理解模型进行槽位填充时的正确率。

图7示出了本申请一个示例性实施例提供的领域自适应的槽位填充装置的框图。该装置包括：

语句接收模块710，用于接收用户输入语句；

问句构建模块720，用于基于目标槽位的槽位元信息，为所述用户输入语句构建与所述目标槽位对应的问句；

语句拼接模块730，用于将所述问句和所述用户输入语句拼接为用户输入句对；

位置预测模块740，用于调用机器阅读理解模型对所述用户输入句对进行预测，得到所述问句的答案位置信息，所述答案位置信息用于指示所述问句的答案在所述用户输入语句中的位置；

槽位填充模块750，用于根据所述答案位置信息，将所述问句的答案作为槽位实体，填充在所述目标槽位中。

(所述机器阅读理解模型是基于预训练模型的阅读理解模型，所述预训练模型是基于通用领域的机器阅读理解语料库进行预训练得到的语言表征模型)

在本实施例的一个可选设计中，所述位置预测模块74，包括：

向量生成单元741，用于生成所述用户输入句对中每个字符的嵌入向量；

句对编码单元742，用于调用所述编码网络对所述用户输入句对的嵌入向量进行编码，得到所述用户输入句对中每个字符的隐层向量表示；

句对预测单元743，用于调用所述预测网络基于所述用户输入句对中每个字符的隐层向量表示进行所述答案位置信息的预测，得到所述问句的答案开始位置和答案结束位置。

在本实施例的一个可选设计中，所述向量生成单元741，用于：

分别生成与所述用户输入句对中每个字符对应的词嵌入向量、分段嵌入向量和位置嵌入向量，其中，所述词嵌入向量中包括所述用户输入句对中每个字符的词向量，所述分段嵌入向量中包括所述用户输入句对中每个字符所属的分段信息，所述位置嵌入向量中包括所述用户输入句对中每个字符的位置信息；

对每个字符的所述词嵌入向量、所述分段嵌入向量和所述位置嵌入向量进行叠加，生成所述用户输入句对中每个字符对应的嵌入向量。

在本实施例的一个可选设计中，所述句对预测单元743，用于：

调用所述预测网络基于所述用户输入句对中每个字符的隐层向量表示进行所述答案开始位置的预测，得到所述每个字符作为所述答案开始位置的第一概率；

调用所述预测网络基于所述用户输入句对中每个字符的隐层向量表示进行所述答案结束位置的预测，得到所述每个字符作为所述答案结束位置的第二概率；

以第一候选字符的第一概率和第二候选字符的第二概率确定候选答案区间概率，所述第一候选字符的字符位置不晚于所述第二候选字符的字符位置；

将概率最高的所述候选答案区间中的第一候选字符确定为所述问句的答案开始位置，将概率最高的所述候选答案区间中的第二候选字符确定为所述问句的答案结束位置。

在本实施例的一个可选设计中，所述问句构建模块720，用于：

在所述目标槽位的槽位元信息包括槽位描述的情况下，将所述槽位描述代入第一问句模板得到与所述目标槽位对应的问句，所述第一问句模板是以所述槽位描述为询问目标的问句模板；

或，在所述目标槽位的槽位元信息包括所述槽位描述的情况下，将所述槽位描述代入所述第一问句模板得到初始问句，将所述初始问句从第一语种翻译为第二语种，再从所述第二语种翻译为所述第一语种以得到回译问句；将所述回译问句确定为与所述目标槽位对应的问句；

或，在所述目标槽位的槽位元信息包括所述槽位描述和槽位实例的情况下，将所述槽位描述和所述槽位实例代入所述第二问句模板得到与所述目标槽位对应的问句，所述第二问句模板是以所述槽位描述为第一询问目标以及以是否存在与所述槽位实例相似的词语为第二询问目标的问句模板。

在本实施例的一个可选设计中，所述装置还包括：

预训练模块760，用于使用所述通用机器阅读理解语料库对初始模型进行预训练，得到所述预训练模型；

模型构建模块770，用于基于所述预训练模型构建所述机器阅读理解模型中的所述编码网络；

再训练模块780，用于使用槽位填充数据集对所述机器阅读理解模型进行再训练，所述槽位填充数据集是将槽位填充数据构建为样本问句和样本答案得到的。

需要说明的一点是，上述实施例提供的装置在实现其功能时，仅以上述各个功能模块的划分进行举例说明，实际应用中，可以根据实际需要而将上述功能分配由不同的功能模块完成，即将设备的内容结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本申请实施例还提供了一种计算机设备，该计算机设备包括：处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的领域自适应的槽位填充方法。

可选地，该计算机设备为服务器。示例地，图8是本申请一个示例性实施例提供的服务器的结构框图。

通常，服务器800包括有：处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器801所执行以实现本申请中方法实施例提供的领域自适应的槽位填充方法。

在一些实施例中，服务器800还可选包括有：输入接口803和输出接口804。处理器801、存储器802和输入接口803、输出接口804之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与输入接口803、输出接口804相连。输入接口803、输出接口804可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中，处理器801、存储器802和输入接口803、输出接口804被集成在同一芯片或电路板上；在一些其他实施例中，处理器801、存储器802和输入接口803、输出接口804中的任意一个或两个可以在单独的芯片或电路板上实现，本申请实施例对此不加以限定。

本领域技术人员可以理解，图8中示出的结构并不构成对服务器800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种芯片，所述芯片包括可编程逻辑电路和/或程序指令，当所述芯片在计算机设备上运行时，用于实现上述方面所述的领域自适应的槽位填充方法。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例提供的领域自适应的槽位填充方法。

在示例性实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，当该程序代码由计算机设备的处理器加载并执行时，实现上述各方法实施例提供的领域自适应的槽位填充方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种领域自适应的槽位填充方法，其特征在于，所述方法包括：

接收用户输入语句；

将所述问句和所述用户输入语句拼接为用户输入句对；

2.根据权利要求1所述的方法，其特征在于，所述机器阅读理解模型包括编码网络和预测网络，所述编码网络是基于预训练模型的编码网络，所述预训练模型是基于通用领域的机器阅读理解语料库进行预训练得到的语言表征模型；

所述调用机器阅读理解模型对所述用户输入句对进行预测，得到所述问句的答案位置信息，包括：

生成所述用户输入句对中每个字符的嵌入向量；

调用所述编码网络对所述用户输入句对的嵌入向量进行编码，得到所述用户输入句对中每个字符的隐层向量表示；

调用所述预测网络基于所述用户输入句对中每个字符的隐层向量表示进行所述答案位置信息的预测，得到所述问句的答案开始位置和答案结束位置。

3.根据权利要求2所述的方法，其特征在于，所述生成所述用户输入句对中每个字符的嵌入向量，包括：

4.根据权利要求2所述的方法，其特征在于，所述调用所述预测网络基于所述用户输入句对中每个字符的隐层向量表示进行所述答案位置信息的预测，得到所述问句的答案开始位置和答案结束位置，包括：

将概率在前k高的所述候选答案区间中的第一候选字符确定为所述问句的候选答案开始位置，将概率在前k高的所述候选答案区间中的第二候选字符确定为所述问句的候选答案结束位置；

将所述候选答案开始位置与所述候选答案结束位置一一进行拼接，并将所述第一概率和所述第二概率相加得到候选答案区间概率，从所述候选答案区间概率中选取概率最高的前t个不重叠的区间作为答案区间；

所述参数t和所述参数k的取值为大于0的正整数。

5.根据权利要求1至4任一所述的方法，其特征在于，所述基于目标槽位的槽位元信息，为所述用户输入语句构建与所述目标槽位对应的问句，包括：

或，

在所述目标槽位的槽位元信息包括所述槽位描述的情况下，将所述槽位描述代入所述第一问句模板得到初始问句，将所述初始问句从第一语种翻译为第二语种，再从所述第二语种翻译为所述第一语种以得到回译问句；将所述回译问句确定为与所述目标槽位对应的问句；

或，

在所述目标槽位的槽位元信息包括所述槽位描述和槽位实例的情况下，将所述槽位描述和所述槽位实例代入所述第二问句模板得到与所述目标槽位对应的问句，所述第二问句模板是以所述槽位描述为第一询问目标以及以是否存在与所述槽位实例相似的词语为第二询问目标的问句模板。

6.根据权利要求2至4任一所述的方法，其特征在于，所述方法还包括：

使用所述通用领域的机器阅读理解语料库对初始模型进行预训练，得到所述预训练模型；

基于所述预训练模型构建所述机器阅读理解模型中的所述编码网络；

使用槽位填充数据集对所述机器阅读理解模型进行再训练，所述槽位填充数据集是将槽位填充数据构建为样本问句和样本答案得到的。

7.一种领域自适应的槽位填充装置，其特征在于，所述装置包括：

语句接收模块，用于接收用户输入语句；

8.根据权利要求7所述的装置，其特征在于，所述位置预测模块，包括：

向量生成单元，用于生成所述用户输入句对中每个字符的嵌入向量；

句对编码单元，用于调用所述编码网络对所述用户输入句对的嵌入向量进行编码，得到所述用户输入句对中每个字符的隐层向量表示；

位置/区间预测单元，用于调用所述预测网络基于所述用户输入句对中每个字符的隐层向量表示进行所述答案位置信息的预测，得到所述问句的答案开始位置和答案结束位置。

9.一种计算机设备，其特征在于，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一段程序；所述处理器，用于执行所述存储器中的所述至少一段程序以实现上述如权利要求1至6任一所述的领域自适应的槽位填充方法。

10.一种计算机可读存储介质，其特征在于，所述可读存储介质中存储有可执行指令，所述可执行指令由处理器加载并执行以实现上述如权利要求1至6任一所述的领域自适应的槽位填充方法。