CN110909142B

CN110909142B - 一种问答模型的问题语句处理方法、装置、电子设备及存储介质

Info

Publication number: CN110909142B
Application number: CN201911141607.0A
Authority: CN
Inventors: 周昊; 曹云波; 李勤; 黄民烈
Original assignee: Tsinghua University; Tencent Technology Shenzhen Co Ltd
Current assignee: Tsinghua University; Tencent Technology Shenzhen Co Ltd
Priority date: 2019-11-20
Filing date: 2019-11-20
Publication date: 2023-03-31
Anticipated expiration: 2039-11-20
Also published as: CN110909142A

Abstract

本发明提供了问答模型的问题语句处理方法，包括：通过问答模型的隐变量生成网络，确定与所述目标问题语句所对应的至少一个词语级的隐变量；通过所述问答模型的答复语句生成网络，确定与所述问答模型相匹配的人设特征向量；响应于所述人设特征向量，通过所述问答模型的答复语句生成网络，根据所述至少一个词语级的隐变量，生成与所述词语级的隐变量相对应的答复词语以及所述答复词语的被选取概率；根据所述答复词语的被选取概率，选取至少一个答复词语组成与所述目标问题语句相对应的答复语句；输出所述答复语句。本发明还提供了问题语句处理装置、电子设备及存储介质。本发明能够实现所述答复语句与所述问答模型对应的人设特征相匹配。

Description

一种问答模型的问题语句处理方法、装置、电子设备及存储介质

技术领域

本发明涉及信息处理技术，尤其涉及问答模型的问题语句处理方法、装置、电子设备及存储介质。

背景技术

人机交互(HCI Human–Computer Interaction)是指人与计算机之间使用某种对话语言，以一定的交互方式确定人与计算机之间的信息交换过程。随着人机交互技术的发展，越来越多的基于人机交互技术的智能产品应运而生，例如聊天机器人(chatter bot)等。这些智能产品可以和用户进行聊天交流，并根据用户的问题生成相应的回答信息。但是，所生成的回答信息通常都是高频的通用答复，这些答复往往没有实际意义，与问答模型的人设并不相符合(例如不同的问答模型需要根据使用环境模仿不同的人物进行回复)同时相关技术仅能够根据一个问题语句生成一个对应的答复语句，但并不能够根据一个问题语句生成多个对应的答复语句，影响用户的使用体验。

发明内容

有鉴于此，本发明实施例提供一种问答模型的问题语句处理方法、装置、电子设备及存储介质，本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种问答模型的问题语句处理方法，所述方法包括：

获取目标问题语句；

通过问答模型的隐变量生成网络，确定与所述目标问题语句所对应的至少一个词语级的隐变量；

通过所述问答模型的答复语句生成网络，确定与所述问答模型相匹配的人设特征向量；

响应于所述人设特征向量，通过所述问答模型的答复语句生成网络，根据所述至少一个词语级的隐变量，生成与所述词语级的隐变量相对应的答复词语以及所述答复词语的被选取概率；

根据所述答复词语的被选取概率，选取至少一个答复词语组成与所述目标问题语句相对应的答复语句；

输出所述答复语句，以实现所述答复语句与所述问答模型对应的人设特征相匹配。

本发明实施例还提供了一种问答模型的问题语句处理装置，其特征在于，所述装置包括：

信息传输模块，用于获取目标问题语句；

信息处理模块，用于通过问答模型的隐变量生成网络，确定与所述目标问题语句所对应的至少一个词语级的隐变量；

所述信息处理模块，用于通过所述问答模型的答复语句生成网络，确定与所述问答模型相匹配的人设特征向量；

所述信息处理模块，用于响应于所述人设特征向量，通过所述问答模型的答复语句生成网络，根据所述至少一个词语级的隐变量，生成与所述词语级的隐变量相对应的答复词语以及所述答复词语的被选取概率；

所述信息处理模块，用于根据所述答复词语的被选取概率，选取至少一个答复词语组成与所述目标问题语句相对应的答复语句；

所述信息传输模块，用于输出所述答复语句，以实现所述答复语句与所述问答模型对应的人设特征相匹配。

上述方案中，所述装置还包括：

问答模型训练模块，用于获取第一训练样本集合，其中所述第一训练样本集合为通过主动学习进程所获取的带有噪声的语句样本；

所述问答模型训练模块，用于对所述第一训练样本集合进行去噪处理，以形成相应与问答模型的人设特征相对应的第二训练样本集合；

所述问答模型训练模块，用于通过问答模型对所述第二训练样本集合进行处理，以确定所述问答模型的初始参数；

所述问答模型训练模块，用于响应于所述问答模型的初始参数，通过所述问答模型对所述第二训练样本集合进行处理，确定所述问答模型的更新参数；

所述问答模型训练模块，用于根据所述问答模型的更新参数，通过所述第二训练样本集合对所述问答模型的网络参数进行迭代更新，直至达到相应的收敛。

上述方案中，

所述问答模型训练模块，用于根据所述问答模型，触发相应的主动学习进程，以实现获取数据源中与问答模型相匹配的带有噪声的语句样本；

响应于所述主动学习进程，触发主动探索进程，以实现对所述与问答模型的使用环境相匹配的带有噪声的语句样本进行边界语料扩充处理；

对经过边界语料扩充处理的带有噪声的语句样本的标注信息进行处理，以形成第一训练样本集合。

上述方案中，

所述问答模型训练模块，用于确定与所述问答模型的人设特征相匹配的动态噪声阈值；

根据所述动态噪声阈值对所述目标文本集合进行去噪处理，并触发与所述动态噪声阈值相匹配的动态分词策略；

根据与所述动态噪声阈值相匹配的动态分词策略，对所述第一训练样本集合中的训练样本进行分词处理，形成相应第二训练样本集合。

上述方案中，

所述问答模型训练模块，用于确定与所述问答模型的人设特征相匹配的固定噪声阈值；

根据所述固定噪声阈值对所述目标文本集合进行去噪处理，并触发与所述固定噪声阈值相匹配的固定分词策略；

根据与所述固定噪声阈值相匹配的固定分词策略，对所述第一训练样本集合中的训练样本进行分词处理，形成相应第二训练样本集合。

上述方案中，

所述问答模型训练模块，用于通过所述隐变量生成网络的编码器对所述问题语句进行编码，形成所述问题语句的编码结果；

通过对所述问题语句的编码结果进行全连接处理和归一化指数处理，确定能够形成与所述问题语句所对应的词语级的隐变量时的所述隐变量生成网络的参数。

上述方案中，

所述问答模型训练模块，用于通过所述答复语句生成网络的编码器对所述问题语句进行编码，形成所述问题语句的编码结果；

所述问答模型训练模块，用于通过所述答复语句生成网络的解码器，对所述问题语句的编码结果进行解码；

所述问答模型训练模块，用于当解码得到与所述问题语句相对应的答复词语的被选取概率时，确定所述答复语句生成网络的参数。

上述方案中，

所述问答模型训练模块，用于将所述第二训练样本集合中不同语句样本，代入由所述问答模型隐变量生成网络和答复语句生成网络所组成的网络结构所对应的损失函数；

确定所述损失函数满足相应的收敛条件时对应所述问答模型的隐变量生成网络和答复语句生成网络的网络参数作为所述问答模型的更新参数。

上述方案中，

所述问答模型训练模块，用于通过所述问答模型的更新参数，确定与所述第二训练样本集合相匹配的训练噪声参数，所述训练噪声参数用于表征所述第二训练样本集合中平行语句样本的噪声值；

所述问答模型训练模块，用于当所述训练噪声参数到达相应的噪声值阈值时，根据所述训练噪声参数的噪声值，对所述问答模型隐变量生成网络的网络参数和答复语句生成网络的网络参数进行迭代更新，直至与所述问答模型对应的损失函数满足对应的收敛条件。

上述方案中，

所述问答模型训练模块，用于对所述第二训练样本集合进行负例处理，以形成与所述第二训练样本集合相对应的负例样本集合，其中，所述负例样本集合用于调整所述问答模型的隐变量生成网络的网络参数和答复语句生成网络的网络参数，以实现所述问答模型与所述人设特征向量相适配；

根据所述负例样本集合确定相应的双语评估研究值，其中，所述双语评估研究值，用于作为监督参数对所述问答模型所生成的答复语句进行评价。

本发明实施例还提供了一种电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现前序的问答模型的问题语句处理方法。

本发明实施例还提供了一种计算机可读存储介质，存储有可执行指令，所述可执行指令被处理器执行时实现前序的问答模型的问题语句处理方法。

本发明实施例具有以下有益效果：

通过获取目标问题语句；通过问答模型的隐变量生成网络，确定与所述目标问题语句所对应的至少一个词语级的隐变量；通过所述问答模型的答复语句生成网络，确定与所述问答模型相匹配的人设特征向量；响应于所述人设特征向量，通过所述问答模型的答复语句生成网络，根据所述至少一个词语级的隐变量，生成与所述词语级的隐变量相对应的答复词语以及所述答复词语的被选取概率；根据所述答复词语的被选取概率，选取至少一个答复词语组成与所述目标问题语句相对应的答复语句；输出所述答复语句，以实现所述答复语句与所述问答模型对应的人设特征相匹配，由此可以使得训练得到的问答模型所生成的回复更加具有针对性，减少万能回复，更加符合与所述问答模型相匹配的人设特征，从而可以提升回复的丰富度和前瞻性，提升用户的使用体验。

附图说明

图1为本发明实施例提供的问答模型的问题语句处理方法的使用场景示意图；

图2为本发明实施例提供的问答模型的问题语句处理装置的组成结构示意图；

图3为相关技术中，基于RNN的Seq2Seq模型生成答复语句的示意图；

图4为本发明实施例提供的问答模型的问题语句处理方法一个可选的流程示意图；

图5为本发明实施例提供的问答模型训练方法一个可选的流程示意图；

图6为本发明实施例提供的问答模型训练方法一个可选的流程示意图；

图7为本发明实施例中相关技术对问答模型的应用环境示意图；

图8为本发明实施例所提供的问答模型的工作过程示意图；

图9为本发明实施例所提供的问答模型的结构示意图；

图10本发明实施例所提供的问答模型的数据流示意图；

图11本发明实施例所提供的问答模型的数据流示意图；

图12为本发明实施例所提供的问答模型的训练过程示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)端到端神经网络(Seq2Seq，Sequence-to-Sequence)，包括两个RNN网络，一个被称为编码器encoder，另一个则称为解码器decoder，编码器encoder负责把可变长度(variable-length)序列编码成固定长度(fixed-length)向量表示解码器decoder后者负责把fixed_length向量表示解码成variable-length输出。

2)递归神经网络(RNN，Recurrent Neural Network)，具有树状阶层结构且网络节点按其连接顺序对输入信息进行递归的人工神经网络(ANN，Artificial NeuralNetwork)，是深度学习(deep learning)算法之一。

3)极大似然估计方法(MLE，Maximum Likelihood Estimate)也称为最大概似估计或最大似然估计，是求估计的一种方法。

4)FC层:全连接层，Softmax层:Softmax归一化函数；Query:用户输入文本；Response:由系统生成的回复语句。

5)人工神经网络：简称神经网络(Neural Network，NN)，在机器学习和认知科学领域，是一种模仿生物神经网络结构和功能的数学模型或计算模型，用于对函数进行估计或近似。

6)模型参数：是使用通用变量来建立函数和变量之间关系的一个数量。在人工神经网络中，模型参数通常是实数矩阵。

7)API：全称Application Programming Interface，可语义理解成应用程序接口，是一些预先定义的函数，或指软件系统不同组成部分衔接的约定。目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力，而又无需访问原码，或理解内部工作机制的细节。

8)SDK：全称Software Development Kit，可语义理解成软件开发工具包，是为特定的软件包、软件框架、硬件平台、操作系统等建立应用软件时的开发工具的集合广义上包括辅助开发某一类软件的相关文档、范例和工具的集合。

9)自然语言理解：NLU(Natural Language Understanding)，在对话系统中对用户所说的话进行语义的信息抽取，包括领域意图识别和槽填充(slot filling)。

10)多任务学习：Multi-task Learning，在机器学习领域，通过同时对多个相关任务进行联合学习、优化，可以达到比单个任务更好的模型精度，多个任务通过共享表示层来彼此帮助，这种训练方法称为多任务学习，也叫联合学习(Joint Learning)。

11)主动学习：Active Learning，在监督学习中，机器学习模型通过对训练数据的拟合，来学习数据到预测结果之间的映射关系，主动学习通过设计数据采样方法来挑选对于模型而言信息量最大的样本数据来标注，相对于随机采样方法，标注后的数据重新加入样本训练后，模型的收益最大。

12)语音语义理解(Speech Translation)：又称自动语音语义理解，是通过计算机将一种自然语言的语音语义理解为另一种自然语言的文本或语音的技术，一般可以由语义理解和机器语义理解两阶段组成。

图1为本发明实施例提供的问答模型的问题语句处理方法的使用场景示意图，参见图1，终端(包括终端10-1和终端10-2)上设置有聊天软件的客户端，用户通过所设置的聊天客户端可以输入相应的问题语句，聊天客户端也可以接收相应的答复语句，并将所接收的答复语句向用户进行展示；终端通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。

作为一个示例，服务器200用于布设所述问答模型并通过所述问答模型生成针对目标问题语句的答复语句，并通过终端(终端10-1和/或终端10-2)展示问答模型所生成的与问题语句相对应的答复语句。

具体的，问答模型的问题语句处理过程包括：获取目标问题语句；通过问答模型的隐变量生成网络，确定与所述目标问题语句所对应的至少一个词语级的隐变量；通过所述问答模型的答复语句生成网络，确定与所述问答模型相匹配的人设特征向量；响应于所述人设特征向量，通过所述问答模型的答复语句生成网络，根据所述至少一个词语级的隐变量，生成与所述词语级的隐变量相对应的答复词语以及所述答复词语的被选取概率；根据所述答复词语的被选取概率，选取至少一个答复词语组成与所述目标问题语句相对应的答复语句；输出所述答复语句，以实现所述答复语句与所述问答模型对应的人设特征相匹配。

当然在通过问答模型对目标问题语句进行处理以生成相应的答复语句之前，还需要对问答模型进行训练，具体包括：获取第一训练样本集合，其中所述第一训练样本集合为通过主动学习进程所获取的带有噪声的语句样本；对所述第一训练样本集合进行去噪处理，以形成相应与问答模型的人设特征相对应的第二训练样本集合；通过问答模型对所述第二训练样本集合进行处理，以确定所述问答模型的初始参数；响应于所述问答模型的初始参数，通过所述问答模型对所述第二训练样本集合进行处理，确定所述问答模型的更新参数；根据所述问答模型的更新参数，通过所述第二训练样本集合对所述问答模型的网络参数进行迭代更新，直至达到相应的收敛，由此，以实现对问答模型的训练。

下面对本发明实施例的问答模型的问题语句处理装置的结构做详细说明，问答模型的问题语句处理装置可以各种形式来实施，如带有问答模型训练功能的专用终端，也可以为设置有问答模型训练功能的服务器，例如前序图1中的服务器200。图2为本发明实施例提供的问答模型的问题语句处理装置的组成结构示意图，可以理解，图2仅仅示出了问答模型的问题语句处理装置的示例性结构而非全部结构，根据需要可以实施图2示出的部分结构或全部结构。

本发明实施例提供的问答模型的问题语句处理装置包括：至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。问答模型的问题语句处理装置中的各个组件通过总线系统205耦合在一起。可以理解，总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统205。

其中，用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器202可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括：用于在终端(如10-1)上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

在一些实施例中，本发明实施例提供的问答模型的问题语句处理装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的问答模型问题语句处理装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的问答模型的问题语句处理方法。例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable LogicDevice)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

作为本发明实施例提供的问答模型的问题语句处理装置采用软硬件结合实施的示例，本发明实施例所提供的问答模型的问题语句处理装置可以直接体现为由处理器201执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器202，处理器201读取存储器202中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器201以及连接到总线205的其他组件)完成本发明实施例提供的问答模型的问题语句处理方法。

作为示例，处理器201可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

作为本发明实施例提供的问答模型的问题语句处理装置采用硬件实施的示例，本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成，例如，被一个或多个应用专用集成电路(ASIC，Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件执行实现本发明实施例提供的问答模型的问题语句处理方法。

本发明实施例中的存储器202用于存储各种类型的数据以支持问答模型的问题语句处理装置的操作。这些数据的示例包括：用于在问答模型的问题语句处理装置上操作的任何可执行指令，如可执行指令，实现本发明实施例的从问答模型的问题语句处理方法的程序可以包含在可执行指令中。

在另一些实施例中，本发明实施例提供的问答模型的问题语句处理装置可以采用软件方式实现，图2示出了存储在存储器202中的问答模型的问题语句处理装置，其可以是程序和插件等形式的软件，并包括一系列的模块，作为存储器202中存储的程序的示例，可以包括问答模型的问题语句处理装置，问答模型的问题语句处理装置中包括以下的软件模块：信息传输模块2081和信息处理模块2082。当问答模型的问题语句处理装置中的软件模块被处理器201读取到RAM中并执行时，将实现本发明实施例提供的问答模型的问题语句处理方法，下面继续说明问答模型的问题语句处理装置中各个软件模块的功能，其中，

信息传输模块2081，用于获取目标问题语句；

信息处理模块2082，用于通过问答模型的隐变量生成网络，确定与所述目标问题语句所对应的至少一个词语级的隐变量；

所述信息处理模块2082，用于通过所述问答模型的答复语句生成网络，确定与所述问答模型相匹配的人设特征向量；

所述信息处理模块2082，用于响应于所述人设特征向量，通过所述问答模型的答复语句生成网络，根据所述至少一个词语级的隐变量，生成与所述词语级的隐变量相对应的答复词语以及所述答复词语的被选取概率；

所述信息处理模块2082，用于根据所述答复词语的被选取概率，选取至少一个答复词语组成与所述目标问题语句相对应的答复语句；

所述信息传输模块2081，用于输出所述答复语句，以实现所述答复语句与所述问答模型对应的人设特征相匹配。

结合图2示出的问答模型的问题语句处理装置说明本发明实施例提供的问答模型的问题语句处理方法，在介绍本发明实施例提供的问答模型的问题语句处理方法之前，首先介绍相关技术中，通过传统的问答模型根据问题文本生成相应答复语句的过程中，图3为现有技术中，基于RNN的Seq2Seq模型生成答复语句的示意图，其中，eq2seq模型是以编码器(Encode)和解码器(Decode)为代表的架构方式，seq2seq模型是根据输入序列X来生成输出序列Y。编码器(Encode)和解码器(Decode)为代表的seq2seq模型中，编码器(Encode)是将输入序列转化成一个固定长度的向量，解码器(Decode)将输入的固定长度向量解码成输出序列。如图3所示，编码器(Encoder)对输入的问题语句进行编码，得到问题语句的文本特征；解码器(Decoder)对文本特征进行解码后输出生成相应的回复，其中，编码器(Encode)和解码器(Decode)是一一对应的。

可见，对于图3所示的相关技术来说基于Seq2Seq模型的聊天生成系统的缺点在于，相关技术中的模型本身只对训练数据Query-Response建立一对一的关系，并且使用MLE进行模型的优化，这导致了模型会生成很多高频的通用回复，这些回复往往没有意义且很短。同时，很多实际场景中，所生成的回答信息通常都是高频的通用答复，这些答复往往没有实际意义，与问答模型的人设并不相符合(例如不同的问答模型需要根据使用环境模仿不同的人物进行回复)同时相关技术仅能够根据一个问题语句生成一个对应的答复语句，但并不能够根据一个问题语句生成多个对应的答复语句，影响用户的使用体验。

为解决这一相关技术中的缺陷，参见图4，图4为本发明实施例提供的问答模型的问题语句处理方法一个可选的流程示意图，可以理解地，图4所示的步骤可以由运行问答模型问题语句处理装置的各种电子设备执行，例如可以是如带有模型训练功能的专用终端、带有问答模型训练功能的服务器或者服务器集群。下面针对图4示出的步骤进行说明。

步骤401：问答模型的问题语句处理装置获取目标问题语句。

步骤402：问答模型的问题语句处理装置通过问答模型的隐变量生成网络，确定与所述目标问题语句所对应的至少一个词语级的隐变量。

其中，在编码语义向量过程中，可以将e(x₁)，e(x₂)，…，e(x_n)依次经过GRU编码，输出语义向量h₁，h₂，…，h_n。其中，通过隐变量生成网络，可以将问题语句进行分解，并生成相应的词语级的隐变量，其中可以使用双向门控循环单元(GRU，gated recurrent unit)作为隐变量生成网络的编码器，以实现分解倒装语句格式的问题语句，以增强问答模型中的隐变量生成网络的适用范围。

步骤403：问答模型的问题语句处理装置通过所述问答模型的答复语句生成网络，确定与所述问答模型相匹配的人设特征向量。

其中，由于问答模型的使用环境不同，因此，需要为问答模型配置与使用环境相匹配的人设特征，例如：当问答模型应用于闲聊机器人时，可以确定与问答模型相匹配的人设特征为年轻的小女孩或者中年男性，当问答模型应用于智慧医疗机器人时可以确定与问答模型相匹配的人设特征为医务人员，当问答模型应用于车载智能设备时可以确定与问答模型相匹配的人设特征为驾驶员或领航员。

步骤404：问答模型的问题语句处理装置响应于所述人设特征向量，通过所述问答模型的答复语句生成网络，根据所述至少一个词语级的隐变量，生成与所述词语级的隐变量相对应的答复词语以及所述答复词语的被选取概率。

步骤405：问答模型的问题语句处理装置根据所述答复词语的被选取概率，选取至少一个答复词语组成与所述目标问题语句相对应的答复语句。

步骤406：问答模型的问题语句处理装置输出所述答复语句，以实现所述答复语句与所述问答模型对应的人设特征相匹配。

继续参考图5，图5为本发明实施例提供的问答模型训练方法一个可选的流程示意图，可以理解地，图5所示的步骤可以由运行答模型的问题语句处理装置的各种电子设备执行，例如可以是如带有问答模型训练功能的专用终端、带有问答模型训练功能的服务器或者服务器集群。下面针对图5示出的步骤进行说明。

步骤501：获取第一训练样本集合，其中所述第一训练样本集合为通过主动学习进程所获取的带有噪声的语句样本。

在本发明的一些实施例中，获取第一训练样本集合，可以通过以下方式实现：

根据所述问答模型，触发相应的主动学习进程，以实现获取数据源中与问答模型相匹配的带有噪声的语句样本；响应于所述主动学习进程，触发主动探索进程，以实现对所述与问答模型的使用环境相匹配的带有噪声的语句样本进行边界语料扩充处理；对经过边界语料扩充处理的带有噪声的语句样本的标注信息进行处理，以形成第一训练样本集合。

步骤502：对所述第一训练样本集合进行去噪处理，以形成相应与问答模型的人设特征相对应的第二训练样本集合。

在本发明的一些实施例中，对所述第一训练样本集合进行去噪处理，以形成相应与问答模型的人设特征相对应的第二训练样本集合，可以通过以下方式：

确定与所述问答模型的人设特征相匹配的动态噪声阈值；根据所述动态噪声阈值对所述目标文本集合进行去噪处理，并触发与所述动态噪声阈值相匹配的动态分词策略；根据与所述动态噪声阈值相匹配的动态分词策略，对所述第一训练样本集合中的训练样本进行分词处理，形成相应第二训练样本集合。例如，学术翻译的使用环境中，终端所显示的问题语句仅包括了学术论文的问题语句与所述问答模型的使用环境相匹配的动态噪声阈值需要小于娱乐信息问答的使用环境中的动态噪声阈值。

其中，所谓分词，即有动词含义也有名词含义；每个分词就是一个单词或者词组，即有确定意义的最小语义单元；对于所接收的不同的用户或者不同的问答模型的使用环境，其需要划分其中包含的最小语义单位也是不同的，需要及时地做出调整，这一过程叫做分词，即分词可以指上述划分最小语义单位的过程；另一方面，划分后获得的最小语义单位，也常常被称为分词，即分词这个操作执行后获得的单词；有时为了将两个意思相互区别，将后一个意思所指称的最小语义单位称为分词对象(Term)；本申请中即使用分词对象这个称呼；分词对象对应于倒排表中作为索引依据的关键词。对于汉语而言，由于作为最小语义单位的词往往是由不同数量的字组成的，词之间不存在空白隔断等拼音文字中天然的区分标志，因此，对于汉语而言，准确进行分词以获得合理的分词对象是一个重要的步骤。

在本发明的一些实施例中，不同的用户的语言习惯与操作习惯并不相同，对于不同的用户需要调整不同的分词方式，以适配不同用户的语言习惯。尤其是对于汉语而言，以汉字为基础表意单位，而真正具有含义的最小语义单位则是词；由于词与词之间并没有像英语单词之间的空格作为分割，因此，一句文本中，哪些字组成词并不确定，因此，对汉语文本进行分词就是一个重要的工作。并且，对于文本处理指令文本，其中包含一些仅仅对自然语言理解有价值的东西，而对问答模型而言，要查询到相关内容，必须确定哪些是真正有价值的检索依据，因此，通过步骤502所示的对不同的词语级特征向量进行除噪处理，能够形成与文本处理指令文本相对应的词语级特征向量集合，避免词语级特征向量集合出现无意义的词语级特征向量，例如“的”、“地”和“得”。

确定与所述问答模型的人设特征相匹配的固定噪声阈值；根据所述固定噪声阈值对所述目标文本集合进行去噪处理，并触发与所述固定噪声阈值相匹配的固定分词策略；根据与所述固定噪声阈值相匹配的固定分词策略，对所述第一训练样本集合中的训练样本进行分词处理，形成相应第二训练样本集合。其中，当问答模型固化于相应的硬件机构中，例如车载终端或者智慧医疗系统中时，使用环境为专业术语问题语句(或者某一领域的问题语句)时，由于噪声较为单一，通过固定问答模型相对应的固定噪声阈值，能够有效提升问答模型的处理速度，减少用户的等待时间，提升用户的使用体验。

步骤503：通过问答模型对所述第二训练样本集合进行处理，以确定所述问答模型的初始参数。

步骤504：响应于所述问答模型的初始参数，通过所述问答模型对所述第二训练样本集合进行处理，确定所述问答模型的更新参数。

步骤505：根据所述问答模型的更新参数，通过所述第二训练样本集合对所述问答模型的网络参数进行迭代更新，直至达到相应的收敛。

继续参考图6，图6为本发明实施例提供的问答模型训练方法一个可选的流程示意图，可以理解地，图6所示的步骤可以由运行答模型的问题语句处理装置的各种电子设备执行，例如可以是如带有问答模型训练功能的专用终端、带有问答模型训练功能的服务器或者服务器集群。下面针对图6示出的步骤进行说明。

步骤601：通过所述隐变量生成网络的编码器对所述问题语句进行编码，形成所述问题语句的编码结果。

步骤602：通过对所述问题语句的编码结果进行全连接处理和归一化指数处理，确定能够形成与所述问题语句所对应的词语级的隐变量时的所述隐变量生成网络的参数。

步骤603：通过所述答复语句生成网络的编码器对所述问题语句进行编码，形成所述问题语句的编码结果。

步骤604：通过所述答复语句生成网络的解码器，对所述问题语句的编码结果进行解码。

步骤605：当解码得到与所述问题语句相对应的答复词语的被选取概率时，确定所述答复语句生成网络的参数。

在本发明的一些实施例中，响应于所述问答模型的初始参数，通过所述问答模型对所述第二训练样本集合进行处理，确定所述问答模型的更新参数，可以通过以下方式实现：

将所述第二训练样本集合中不同语句样本，代入由所述问答模型隐变量生成网络和答复语句生成网络所组成的网络结构所对应的损失函数；确定所述损失函数满足相应的收敛条件时对应所述问答模型的隐变量生成网络和答复语句生成网络的网络参数作为所述问答模型的更新参数。

在本发明的一些实施例中，根据所述问答模型的更新参数，通过所述第二训练样本集合对所述问答模型的网络参数进行迭代更新，直至达到相应的收敛，可以通过以下方式实现：

通过所述问答模型的更新参数，确定与所述第二训练样本集合相匹配的训练噪声参数，所述训练噪声参数用于表征所述第二训练样本集合中平行语句样本的噪声值；当所述训练噪声参数到达相应的噪声值阈值时，根据所述训练噪声参数的噪声值，对所述问答模型隐变量生成网络的网络参数和答复语句生成网络的网络参数进行迭代更新，直至与所述问答模型对应的损失函数满足对应的收敛条件。

其中，其中，问答模型的损失函数表示为：

loss_A＝∑(decoder_A(encoder(warp(x1)))-x1)2；其中，decoder_A为解码器A，warp为问题语句的函数，x₁为问题语句，encoder为编码器。

在迭代训练的过程中，通过将问题语句代入问答模型的损失函数，求解损失函数按照梯度(例如最大梯度)下降时编码器A和解码器A的参数，当损失函数收敛时(即确定能够形成与所述问题语句所对应的词语级的隐变量时)，结束训练。

对问答模型的训练过程中，问答模型的损失函数表示为：loss_B＝∑(decoder_B(encoder(warp(x2)))-x2)2；其中，decoder_B为解码器B，warp为问题语句的函数，x2为问题语句，encoder为编码器。

在迭代训练的过程中，通过将问题语句代入问答模型的损失函数，求解损失函数按照梯度(例如最大梯度)下降时编码器B和解码器B的参数；当损失函数收敛时(即当解码得到与所述问题语句相对应的答复语句的被选取概率时)，结束调整和训练。

在本发明的一些实施例中，所述方法还包括：

对所述第二训练样本集合进行负例处理，以形成与所述第二训练样本集合相对应的负例样本集合，其中，所述负例样本集合用于调整所述问答模型的隐变量生成网络的网络参数和答复语句生成网络的网络参数，以实现所述问答模型与所述人设特征向量相适配；根据所述负例样本集合确定相应的双语评估研究值，其中，所述双语评估研究值，用于作为监督参数对所述问答模型所生成的答复语句进行评价。其中，当问答模型的使用场景为非中文(可以是单一的英语或其他语种的使用环境，也可以是至少包括两种语言问题语句来源的使用环境)使用环境时，根据所述负例样本集合所确定相应的双语评估研究值可以用于作为监督参数对所述问答模型的语义理解结果进行评价。

在本发明的一些实施例中，问答模型中的解码器可以为双向网络模型，例如可以均选用Bi-GRU双向GRU模型作为对应的编码器和对应的解码器，此处的Bi-GRU双向GRU模型是一种可以识别倒装句结构的模型。由于用户在输入问题语句时，可能使得该对话语句为倒装句结构，即与正常的语句结构不一样，例如用户输入的对话语句为“结婚了吗夏美”，而正常的语句结构为“夏美结婚了吗”，采用Bi-GRU双向GRU模型可以识别出倒装句结构的对话语句，从而可以丰富训练后的模型的功能，进而可以提高最终训练得到的问答模型的鲁棒性。

下面以封装于相应APP中的问答模型对本发明实施例所提供的问答模型进行说明，其中，图7为本发明实施例中相关技术对问答模型的应用环境示意图，其中，相关技术中可以如图7所示，随着人机交互技术的发展，越来越多的基于人机交互技术的智能产品应运而生，例如聊天机器人(chatter bot)等。这些智能产品可以和用户进行聊天交流，并根据用户的问题生成相应的回答信息。但是，所生成的回答信息通常都是高频的通用答复或者错误的回复信息，相反的用户所期望得到的恰恰是图7右侧所示的答复语句，但是图7左侧所生成的这些答复往往没有实际意义，与问答模型的人设并不相符合(例如不同的问答模型需要根据使用环境模仿不同的人物进行回复)同时相关技术仅能够根据一个问题语句生成一个对应的答复语句，但并不能够根据一个问题语句以及相应的虚拟机器人的人设信息生成多个对应的答复语句，影响用户的使用体验。

图8为本发明实施例所提供的问答模型的工作过程示意图，其中，图9为本发明实施例所提供的问答模型的结构示意图，下面结合图9所示的问答模型的结构示意图对本发明中问答模型的工作过程进行说明，具体包括以下步骤：

步骤801：APP中的问答模型被触发后，通过问答模型的隐变量生成网络，确定与目标问题语句所对应的至少一个词语级的隐变量。

步骤802：APP中的问答模型通过所述问答模型的答复语句生成网络，确定与所述问答模型相匹配的人设特征向量。

其中，图10本发明实施例所提供的问答模型的数据流示意图，步骤801中，查询词向量过程中可以从预训练好的词向量表中，查出每一个词语x_i的表示e(x_i)，e(x_i)是一个100维的向量。

在编码语义向量过程中，可以将e(x₁)，e(x₂)，…，e(x_n)依次经过GRU编码，输出语义向量h₁，h₂，…，h_n。其中，通过隐变量生成网络，可以将问题语句进行分解，并生成相应的词语级的隐变量，其中可以使用双向门控循环单元(GRU，gated recurrent unit)作为隐变量生成网络的编码器，以实现分解倒装语句格式的问题语句，以增强问答模型中的隐变量生成网络的适用范围。

在变换空间过程中，可以通过多层感知器(MLP)，将语义向量表示H＝(h₁，h₂，…，h_n)转换成X在人设空间中的表示，记作K。

在提取人设特征的过程中可以通过最大池化层(max pooling)的处理，从K中提取向量k作为相应的人设特征。之后获取预测的人设p_x。px＝softmax(W_ck)M_c，M_c是由所有人设类别的embedding组成的矩阵。

前序的处理过程中，用户输入的问题可以转换为相应的特征向量X＝(x₁，x₂，…，x_n)，模型的目标是在预设的人设

下，生成回复Y＝(y₁，y₂，…，y_m)，目标函数为

其中，

是带有人设标注的QR对，{c₁，c₂，…，c_l}是人设类别。其中，QR对的表示可以如表1所示。/>

表1

前序图9所示的问答模型的数据结构中，分类器与Encoder-attention-Decoder共用的是同一个编码器，本发明中使GRU对X＝(x₁，x₂，…，x_n)编码。e(x_t)是x_t的词向量，e(x₁)，e(x₂)，…，e(x_n)依次经过GRU编码后，输出各个词的语义表示H＝(h₁，h₂，…，h_n)。

h_t＝GRU(h_t-1，e(x_t)) (2)

H＝(h₁，h₂，…，h_n) (3)

进一步地，前序图8所示的结构中人设分类器(Persona Classifier)的作用：一是分类器可计算出query中人设的类别概率分布，与M_c加权平均即可得到query相关的persona信息；二是期望模型能学出区分query是否人设相关的参数。

H＝(h₁，h₂，…，h_n)输入给Persona Classifier后，Persona Classifier首先将语义表示H通过多层感知机(MLP)变换成人设表示K，接着使用max pooling提取人设特征k，最后对k做softmax，输出X属于类别c的概率。Persona Classifier使用的loss函数是交叉熵。

K＝MLP(H) (4)

k＝max_pooling(K) (5)

P(c|X)＝softmax(W_ck) (6)

步骤803：响应于所述人设特征向量，通过所述问答模型的答复语句生成网络，根据所述至少一个词语级的隐变量，生成与所述词语级的隐变量相对应的答复词语以及所述答复词语的被选取概率。

步骤804：根据所述答复词语的被选取概率，选取至少一个答复词语组成与所述目标问题语句相对应的答复语句。

其中，图11本发明实施例所提供的问答模型的数据流示意图，其中，ContextAttention模块根据H＝(h₁，h₂，…，h_n)与s_t的关系实时算出c_t；Multi-Aspect Attention根据p_x、s_t及M_c的关系实时算出p_t。

结合前序图8，Persona Classifier给出X的人设类别的概率分布后，X所包含的人设信息被表示为p_x＝P(c|X)M_c。Decoder以公式(8)和(9)进行状态s_t的更新；公式(11)是Decoder的生成loss函数。

s₁＝GRU(h_n，[c₀；p₀；p_x]) (8)

s_t＝GRU(s_t-1，[c_t-1；p_t-1；e(y_t-1)]) (9)

当然，为了实现答复语句与所述问答模型对应的人设特征相匹配考虑到Decoder在生成回复时，需要多方面参考query的人设信息，于是本发明使用了Multi-aspectattention。p_x可看作是静态人设向量，而p_y是动态人设向量，是由decoder的状态s_t与m_k进行attention之后的结果。为了平衡这两种人设向量，本发明又设计了门机制，来决定采用两部分人设信息的比例，如公式(16)所示。

为了确保动态注意力人设向量p_y包含p_x没有的人设信息，此处采用的是正交loss函数，如公式(17)所示。

p_t＝gp_x+(1-g)p_y (12)

/>

g＝sigmoid(s_tW_g(p_y-p_x)) (16)

步骤805：输出所述答复语句，以实现所述答复语句与APP中的问答模型对应的人设特征相匹配。

图12为本发明实施例所提供的问答模型的训练过程示意图，其中，结合图3所示的问答模型的结构示意图，具体包括以下步骤：

步骤1201：获取训练样本的时候集合，对问答模型的各结构的参数进行初始化训练。

训练数据：

是人设一致的人标数据集；/>

是大规模普通会话数据集，不带有人设信息；

是为/>

中的每个pair赋一个“other”的人设类别。

训练过程分为三个阶段。训练的第一个阶段是预训练阶段(Pre-trainingPhase)。首先，在数据集

和/>

上，根据公式(11)训练PerCoM的Encoder-attention-Decoder的参数、人设分类器参数、人设表示参数等；接着，在数据集/>

上，根据公式(7)训练分类器的参数。

步骤1202：触发主动学习进程，以调整训练样本集合。

其中，根据persona classifier，从

中挑出人设类别非other的Query；接着，用主动学习的方法为Query找到一个Response，这些Query-Response Pair作为主动学习标注的数据集，记作/>

然后，将/>

和/>

以某个比例混合组成新的训练数据，根据公式(18)训练参数。

步骤1203：通过经过调整的训练样本集合，对问答模型的各结构参数进行调整。

具体的，由于主动学习进程所实现的标注可能会引入不相关的噪音，因此需要在数据集

上根据公式(18)进行微调。

1)、相比于传统技术中问答模型的使用，通过本申请所提供的技术方案，避免了所生成的回答信息通常都是高频的通用答复，与问答模型的人设并不相符合(例如不同的问答模型需要根据使用环境模仿不同的人物进行回复)的缺陷。同时不但能够根据一个问题语句生成至少一个对应的答复语句，有效提升用户的使用体验。其中通过本申请所提供的问答模型，所生成的答复语句在PPL、F1、Distinct-n和BELU-n指标参考表2。

表2

有益技术效果：

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种问答模型的问题语句处理方法，其特征在于，所述方法包括：

获取目标问题语句；

通过所述问答模型的答复语句生成网络，根据所述问答模型的使用环境，确定与所述问答模型相匹配的人设特征向量；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取第一训练样本集合，其中所述第一训练样本集合为通过主动学习进程所获取的带有噪声的语句样本；

对所述第一训练样本集合进行去噪处理，以形成相应与问答模型的人设特征相对应的第二训练样本集合；

通过问答模型对所述第二训练样本集合进行处理，以确定所述问答模型的初始参数；

响应于所述问答模型的初始参数，通过所述问答模型对所述第二训练样本集合进行处理，确定所述问答模型的更新参数；

根据所述问答模型的更新参数，通过所述第二训练样本集合对所述问答模型的网络参数进行迭代更新，直至达到相应的收敛。

3.根据权利要求2所述的方法，其特征在于，所述获取第一训练样本集合，包括：

根据所述问答模型，触发相应的主动学习进程，以实现获取数据源中与问答模型相匹配的带有噪声的语句样本；

4.根据权利要求2所述的方法，其特征在于，所述对所述第一训练样本集合进行去噪处理，以形成相应与问答模型的人设特征相对应的第二训练样本集合，包括：

确定与所述问答模型的人设特征相匹配的动态噪声阈值；

根据所述动态噪声阈值对目标文本集合进行去噪处理，并触发与所述动态噪声阈值相匹配的动态分词策略；

5.根据权利要求2所述的方法，其特征在于，所述对所述第一训练样本集合进行去噪处理，以形成相应与问答模型的人设特征相对应的第二训练样本集合，包括：

确定与所述问答模型的人设特征相匹配的固定噪声阈值；

根据所述固定噪声阈值对目标文本集合进行去噪处理，并触发与所述固定噪声阈值相匹配的固定分词策略；

6.根据权利要求2所述的方法，其特征在于，所述通过问答模型对所述第二训练样本集合进行处理，以确定所述问答模型的初始参数，包括：

通过所述隐变量生成网络的编码器对所述问题语句进行编码，形成所述问题语句的编码结果；

7.根据权利要求2所述的方法，其特征在于，所述通过问答模型对所述第二训练样本集合进行处理，以确定所述问答模型的初始参数，包括：

通过所述答复语句生成网络的编码器对所述问题语句进行编码，形成所述问题语句的编码结果；

通过所述答复语句生成网络的解码器，对所述问题语句的编码结果进行解码；

当解码得到与所述问题语句相对应的答复词语的被选取概率时，确定所述答复语句生成网络的参数。

8.根据权利要求2所述的方法，其特征在于，所述响应于所述问答模型的初始参数，通过所述问答模型对所述第二训练样本集合进行处理，确定所述问答模型的更新参数，包括：

将所述第二训练样本集合中不同语句样本，代入由所述问答模型隐变量生成网络和答复语句生成网络所组成的网络结构所对应的损失函数；

9.根据权利要求8所述的方法，其特征在于，所述根据所述问答模型的更新参数，通过所述第二训练样本集合对所述问答模型的网络参数进行迭代更新，直至达到相应的收敛，包括：

通过所述问答模型的更新参数，确定与所述第二训练样本集合相匹配的训练噪声参数，所述训练噪声参数用于表征所述第二训练样本集合中平行语句样本的噪声值；

当所述训练噪声参数到达相应的噪声值阈值时，

根据所述训练噪声参数的噪声值，对所述问答模型隐变量生成网络的网络参数和答复语句生成网络的网络参数进行迭代更新，直至与所述问答模型对应的损失函数满足对应的收敛条件。

10.根据权利要求2所述的方法，其特征在于，所述方法还包括：

对所述第二训练样本集合进行负例处理，以形成与所述第二训练样本集合相对应的负例样本集合，其中，所述负例样本集合用于调整所述问答模型的隐变量生成网络的网络参数和答复语句生成网络的网络参数，以实现所述问答模型与所述人设特征向量相适配；

11.一种问答模型的问题语句处理装置，其特征在于，所述装置包括：

信息传输模块，用于获取目标问题语句；

所述信息处理模块，用于通过所述问答模型的答复语句生成网络，根据所述问答模型的使用环境，确定与所述问答模型相匹配的人设特征向量；

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：

13.根据权利要求11所述的装置，其特征在于，

14.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现权利要求1-10任一项所述的问答模型的问题语句处理方法。

15.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至10任一项所述的问答模型的问题语句处理方法。