CN114648021A

CN114648021A - 问答模型的训练方法、问答方法及装置、设备和存储介质

Info

Publication number: CN114648021A
Application number: CN202210274307.5A
Authority: CN
Inventors: 王斌; 陈永录; 张飞燕; 姜雨娇
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2022-03-18
Filing date: 2022-03-18
Publication date: 2022-06-21

Abstract

本公开提供了一种问答模型的训练方法、问答方法及装置、电子设备和计算机可读存储介质，可以应用于自然语言处理技术领域和金融领域。该问答模型的训练方法包括：获取初始训练样本数据集，其中，初始训练样本数据集包括多组初始训练样本数据，每组初始训练样本数据包括初始问题文本和初始答案文本；对初始训练样本数据集进行预处理，得到训练样本数据集，其中，训练样本数据集包括多组训练样本数据，每组训练样本数据包括问题文本序列数据和答案文本序列数据；利用问题文本序列数据和答案文本序列数据训练问答模型，得到经训练的问答模型。

Description

问答模型的训练方法、问答方法及装置、设备和存储介质

技术领域

本公开涉及自然语言处理技术领域和金融领域，更具体地，涉及一种问答模型的训练方法、问答方法及装置、电子设备、计算机可读存储介质和一种计算机程序产品。

背景技术

随着人工智能的发展，自然语言处理领域的问答技术能够为用户提供准确且个性化的信息服务。问答技术包括检索式和生成式，其中，检索式问答技术的获取方式较为单一、效率较差、依赖于知识库；而生成式问答技术能够快速准确地提供答案。

在实现本公开构思的过程中，发明人发现相关技术中至少存在如下问题：生成式问答技术的特征提取方法随着网络深度的增加，训练精度在达到饱和后会迅速下降；同时短文本词汇量较小、噪声较大、特征较为稀疏，并且文本特征的提取方式较为单一。

发明内容

有鉴于此，本公开提供了一种问答模型的训练方法、问答方法及装置、电子设备、计算机可读存储介质和计算机程序产品。

根据本公开的第一个方面，提供了一种问答模型的训练方法，包括：

获取初始训练样本数据集，其中，上述初始训练样本数据集包括多组初始训练样本数据，每组上述初始训练样本数据包括初始问题文本和初始答案文本；

对上述初始训练样本数据集进行预处理，得到训练样本数据集，其中，上述训练样本数据集包括多组训练样本数据，每组上述训练样本数据包括问题文本序列数据和答案文本序列数据；以及

利用上述问题文本序列数据和上述答案文本序列数据训练问答模型，得到经训练的问答模型。

根据本公开的实施例，上述对上述初始训练样本数据集进行预处理，得到训练样本数据集包括：

对上述初始问题文本和上述初始答案文本进行去噪处理，得到去噪问题文本和去噪答案文本；

对上述去噪问题文本和上述去噪答案文本进行分词处理，得到分词问题文本和分词答案文本；

对上述分词问题文本和上述分词答案文本进行关键词提取，得到问题关键词文本和答案关键词文本；以及

对上述问题关键词文本和上述答案关键词文本进行词嵌入处理，得到上述问题文本序列数据和上述答案文本序列数据。

根据本公开的实施例，上述问答模型包括编码器和解码器；

上述利用上述问题文本序列数据和上述答案文本序列数据训练问答模型，得到经训练的问答模型包括：

利用上述编码器对上述问题文本序列数据进行处理，得到目标特征向量；

利用上述解码器对上述目标特征向量进行处理，得到预测答案文本序列数据；以及

利用上述预测答案文本序列数据和上述答案文本序列数据训练上述问答模型，得到经训练的问答模型。

根据本公开的实施例，上述编码器包括双向门控循环单元层，上述双向门控循环单元层包括多个基于恒等映射的双向门控循环单元；

上述解码器包括注意力层和单向门控循环单元层，上述单向门控循环单元层包括多个基于恒等映射的单向门控循环单元。

根据本公开的实施例，上述利用上述编码器对上述问题文本序列数据进行处理，得到目标特征向量包括：

利用上述双向门控循环单元层对上述问题文本序列数据进行处理，得到目标特征向量；

上述利用上述解码器对上述目标特征向量进行处理，得到预测答案文本序列数据包括：

利用上述注意力层对上述目标特征向量进行处理，得到中间特征向量；

利用上述单向门控循环单元层对上述中间特征向量进行处理，得到上述预测答案文本序列数据。

根据本公开的实施例，上述双向门控循环单元和上述单向门控循环单元均使用线性整流激活函数；

上述利用上述双向门控循环单元层对上述问题文本序列数据进行处理，得到目标特征向量包括：

利用批标准化算法对上述问题文本序列数据进行处理，得到批标准化问题文本序列数据；以及

利用上述双向门控循环单元层对上述批标准化问题文本序列数据进行处理，得到目标特征向量；

上述利用上述单向门控循环单元层对上述中间特征向量进行处理，得到上述预测答案文本序列数据包括：

利用上述批标准化算法对上述中间特征向量进行处理，得到批标准化中间特征向量；以及

利用上述单向门控循环单元层对上述批标准化中间特征向量进行处理，得到预测答案文本序列数据。

根据本公开的第二个方面，提供了一种问答方法，包括：

获取初始问题文本；

对上述初始问题文本进行预处理，得到目标问题文本序列数据；以及

利用问答模型对上述目标问题文本序列数据进行处理，得到目标答案文本序列数据，

其中，上述问答模型是利用根据如上所述的训练方法得到的。

根据本公开的第三个方面，提供了一种问答模型的训练装置，包括：

第一获取模块，用于获取初始训练样本数据集，其中，上述初始训练样本数据集包括多组初始训练样本数据，每组上述初始训练样本数据包括初始问题文本和初始答案文本；

第一预处理模块，用于对上述初始训练样本数据集进行预处理，得到训练样本数据集，其中，上述训练样本数据集包括多组训练样本数据，每组上述训练样本数据包括问题文本序列数据和答案文本序列数据；以及

训练模块，用于利用上述问题文本序列数据和上述答案文本序列数据训练问答模型，得到经训练的问答模型。

根据本公开的第四个方面，提供了一种问答装置，包括：

第二获取模块，用于获取初始问题文本；

第二预处理模块，用于对上述初始问题文本进行预处理，得到目标问题文本序列数据；以及

处理模块，用于利用问答模型对上述目标问题文本序列数据进行处理，得到目标答案文本序列数据，

根据本公开的第五个方面，提供了一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个指令，

其中，当上述一个或多个指令被上述一个或多个处理器执行时，使得上述一个或多个处理器实现如上所述的方法。

根据本公开的第六个方面，提供了一种计算机可读存储介质，其上存储有可执行指令，上述可执行指令被处理器执行时使处理器实现如上所述的方法。

根据本公开的第七个方面，提供了一种计算机程序产品，上述计算机程序产品包括计算机可执行指令，上述计算机可执行指令在被执行时用于实现如上所述的方法。

根据本公开的实施例，通过对初始训练样本数据集进行预处理，然后利用利用预处理后得到的问题文本序列数据和答案文本序列数据训练问答模型。通过上述技术手段，至少部分地克服了相关技术中短文本特征不足的问题，利用经训练的问答模型实现了自动问答，提升了问答生成的效率和质量。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的可以应用问答模型的训练方法、问答方法的系统架构图；

图2示意性示出了根据本公开实施例的问答模型的训练方法的流程图；

图3示意性示出了根据本公开实施例的得到训练样本数据集的方法流程图；

图4示意性示出了根据本公开实施例的得到经训练的问答模型的方法流程图；

图5示意性示出了根据本公开实施例的门控循环单元的结构示意图；

图6示意性示出了根据本公开实施例的问答模型的结构示意图；

图7示意性示出了根据本公开实施例的问答方法的流程图；

图8示意性示出了根据本公开实施例的问答模型的训练装置的结构框图；

图9示意性示出了根据本公开实施例的问答装置的结构框图；以及

图10示意性示出了根据本公开实施例的适于实现问答模型的训练方法、问答方法的电子设备的框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

在本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

序列到序列模型(Sequence to Sequence，Seq2seq)广泛应用于自然语言处理领域，问题可以通过Seq2seq模型编码成为固定长度的向量，然后利用此向量解码后将答案返回。

在相关技术中，用于Seq2seq模型的特征提取网络例如包括循环神经网络(Recurrent Neural Networks，RNN)、长短期记忆神经网络(Long Short-Term Memory，LSTM)、门控循环单元神经网络(Gated Recurrent Unit，GRU)等。其中，RNN虽然可以处理序列化信息，但是由于依赖长期学习特征，容易出现梯度爆炸；LSTM虽然可以解决长距离依赖问题，但是计算较为复杂，训练耗时较长；GRU虽然参数少且结构简单，但是无法捕捉当前输出状态与前后状态之间的联系。

在训练过程中，现有的特征提取方法随着网络深度的增加，训练精度达到饱和后会迅速下降；同时短文本词汇量小、噪声大、特征稀疏且文本特征提取方式单一，无法集成丰富特征。

为了至少部分地解决相关技术中存在的技术问题，本公开提供了一种问答模型的训练方法、问答方法及装置、电子设备和计算机可读存储介质，可以应用于自然语言处理技术领域和金融领域。该问答模型的训练方法包括：获取初始训练样本数据集，其中，初始训练样本数据集包括多组初始训练样本数据，每组初始训练样本数据包括初始问题文本和初始答案文本；对初始训练样本数据集进行预处理，得到训练样本数据集，其中，训练样本数据集包括多组训练样本数据，每组训练样本数据包括问题文本序列数据和答案文本序列数据；利用问题文本序列数据和答案文本序列数据训练问答模型，得到经训练的问答模型。

需要说明的是，本公开实施例提供的问答模型的训练方法、问答方法和装置可用于自然语言处理技术领域和金融领域，例如可以应用于各个银行网点的客户咨询服务。本公开实施例提供的问答模型的训练方法、问答方法和装置也可用于除自然语言处理技术领域和金融领域之外的任意领域，例如可以应用于问答机器人。本公开实施例提供的问答模型的训练方法、问答方法和装置的应用领域不做限定。

图1示意性示出了根据本公开实施例的可以应用问答模型的训练方法、问答方法的系统架构。需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，根据该实施例的系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线和/或无线通信链路等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。

需要说明的是，本公开实施例所提供的问答模型的训练方法、问答方法一般可以由服务器105执行。相应地，本公开实施例所提供的问答模型的训练装置、问答装置一般可以设置于服务器105中。本公开实施例所提供的问答模型的训练方法、问答方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的问答模型的训练装置、问答装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。或者，本公开实施例所提供的问答模型的训练方法、问答方法也可以由终端设备101、102、或103执行，或者也可以由不同于终端设备101、102、或103的其他终端设备执行。相应地，本公开实施例所提供的问答模型的训练装置、问答装置也可以设置于终端设备101、102、或103中，或设置于不同于终端设备101、102、或103的其他终端设备中。

例如，训练样本数据可以原本存储在终端设备101、102、或103中的任意一个(例如，终端设备101，但不限于此)之中，或者存储在外部存储设备上并可以导入到终端设备101中。然后，终端设备101可以在本地执行本公开实施例所提供的问答模型的训练方法、问答方法，或者将训练样本数据发送到其他终端设备、服务器、或服务器集群，并由接收该训练样本数据的其他终端设备、服务器、或服务器集群来执行本公开实施例所提供的问答模型的训练方法、问答方法。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图2示意性示出了根据本公开实施例的问答模型的训练方法的流程图。

如图2所示，该问答模型的训练方法包括操作S201～S203。

在操作S201，获取初始训练样本数据集，其中，初始训练样本数据集包括多组初始训练样本数据，每组初始训练样本数据包括初始问题文本和初始答案文本。

根据本公开的实施例，训练样本数据集中的初始答案文本和初始问题文本可以一一对应。

在操作S202，对初始训练样本数据集进行预处理，得到训练样本数据集，其中，训练样本数据集包括多组训练样本数据，每组训练样本数据包括问题文本序列数据和答案文本序列数据。

根据本公开的实施例，预处理可以包括分词、文本清洗、文本标准化和文本特征提取等。

在操作S203，利用问题文本序列数据和答案文本序列数据训练问答模型，得到经训练的问答模型。

根据本公开的实施例，可以将训练样本数据集中的训练样本数据输入至问答模型中，以便对问答模型进行训练，从而得到经训练的问答模型。

根据本公开的实施例，通过对初始训练样本数据集进行预处理，然后利用利用预处理后得到的问题文本序列数据和答案文本序列数据训练问答模型。通过上述技术手段，至少部分地克服了相关技术中短文本特征不足的问题，利用经训练的问答模型实现了自动问答，提升了问答生成的效率和准确性。

下面参考图3～图6，结合具体实施例对图2所示的方法做进一步说明。

图3示意性示出了根据本公开实施例的得到训练样本数据集的方法流程图。

如图3所示，该得到训练样本数据集的方法包括操作S301～S304。

在操作S301，对初始问题文本和初始答案文本进行去噪处理，得到去噪问题文本和去噪答案文本。

根据本公开的实施例，由于在中文词语之间没有标记进行分隔时，分词结果会影响下游任务的准确性。因此，可以在分词处理之前通过加载停用词表，去除文本中的停用词、空格和特殊字符等不利于分词的噪声，从而保留中文、数字等通用的特征信息，以便减少文本的冗余信息，降低文本的维度。

在操作S302，对去噪问题文本和去噪答案文本进行分词处理，得到分词问题文本和分词答案文本。

根据本公开的实施例，可以通过基于词典分词算法、基于统计的机器学习算法等对文本进行分词处理。

根据本公开的实施例，可以通过结巴(jieba)分词工具的精确模式对去噪问题文本和去噪答案文本进行分词处理，以便得到分词问题文本和分词答案文本。

根据本公开的实施例，结巴分词可以包括通过词典分词，然后对不在词典的词使用隐含马尔柯夫模型(Hidden Markov Model，HMM)算法识别新词。

在操作S303，对分词问题文本和分词答案文本进行关键词提取，得到问题关键词文本和答案关键词文本。

根据本公开的实施例，由于重要程度高的词语更能体现文本的主题，对文本含义的贡献程度更大，因此可以分别对分词问题文本和分词答案文本进行关键词提取，以便获得问题关键词文本和答案关键词文本。

根据本公开的实施例，可以采用TF-IDF方法计算文本中每个词语的重要程度，使具有关键特征的词语占据更大的贡献程度，从而使问题文本和答案文本产生语义交互。词频TF表示词语出现的频率：

其中，f_i，j表示t_i词的词频，n_i，j表示词t_i在文本中出现的次数，n_m，j表示词t_m在文本中出现的次数。

逆文档频率IDF表示词语的普遍程度：

其中，q_i表示逆文档频率，D表示文本总量，j表示包含词t_i的文本数量，d_i表示包含词t_i的文本。

TF-IDF值是f_i，j与q_i的乘积：

s_i，j＝f_i，jq_i (3)

根据本公开的实施例，例如可以提取每组分词问题文本和分词答案文本权重值排序前三的词语作为关键词。

在操作S304，对问题关键词文本和答案关键词文本进行词嵌入处理，得到问题文本序列数据和答案文本序列数据。

根据本公开的实施例，首先，可以采用Word2vec模型将问题关键词文本和答案关键词文本转换为词向量，并将每个关键词与对应的TF-IDF值相乘，得到该词语的加权词向量。然后，可以将每个加权词向量归一化为一个长度固定的序列，例如，可以对每个加权词向量进行词语数量统计，选取包含最多词语文本的词语数作为阈值，小于阈值的加权词向量用零补齐，以便得到问题文本序列数据和答案文本序列数据。

根据本公开的实施例，通过对初始问题文本和初始答案文本进行去噪、分词、关键词提取和词嵌入等预处理操作，得到问题文本序列数据和答案文本序列数据。通过上述技术手段，可以解决短文本特征不足的问题，以便后续使用集成了丰富特征的问题文本序列数据和答案文本序列数据训练问答模型。

图4示意性示出了根据本公开实施例的得到经训练的问答模型的方法流程图。

根据本公开的实施例，问答模型包括编码器和解码器。

如图4所示，该得到经训练的问答模型的方法包括操作S401～S403。

在操作S401，利用编码器对问题文本序列数据进行处理，得到目标特征向量。

根据本公开的实施例，编码器可以把一个不定长的输入序列变换成一个定长的中间向量，并可以在该中间向量中编码输入序列的信息。编码器可以包括循环神经网络、卷积神经网络和Transformer等。

根据本公开的实施例，当编码器使用单向循环神经网络时，每个时间步的隐藏状态取决于该时间步及之前的输入子序列。当编码器使用双向循环神经网络时，每个时间步的隐藏状态同时取决于该时间步之前和之后的输入子序列，并编码了整个序列的信息。

在操作S402，利用解码器对目标特征向量进行处理，得到预测答案文本序列数据。

在操作S403，利用预测答案文本序列数据和答案文本序列数据训练问答模型，得到经训练的问答模型。

根据本公开的实施例，通过利用编码器对问题文本序列数据进行处理，可以实现对问题文本序列数据进行特征提取，然后利用解码器对得到的目标特征向量进行处理，可以将提取到的特征向量解码为预测文本序列数据输出，再利用预测答案文本序列数据和答案文本序列数据训练问答模型，提高了模型的表征能力。

图5示意性示出了根据本公开实施例的门控循环单元的结构示意图。

根据本公开的实施例，编码器包括双向门控循环单元层，双向门控循环单元层包括多个基于恒等映射的双向门控循环单元。解码器包括注意力层和单向门控循环单元层，单向门控循环单元层包括多个基于恒等映射的单向门控循环单元。

根据本公开的实施例，双向门控循环单元和单向门控循环单元均使用线性整流激活函数。

利用双向门控循环单元层对问题文本序列数据进行处理，得到目标特征向量包括：利用批标准化算法对问题文本序列数据进行处理，得到批标准化问题文本序列数据；利用双向门控循环单元层对批标准化问题文本序列数据进行处理，得到目标特征向量。利用单向门控循环单元层对中间特征向量进行处理，得到预测答案文本序列数据包括：利用批标准化算法对中间特征向量进行处理，得到批标准化中间特征向量；利用单向门控循环单元层对批标准化中间特征向量进行处理，得到预测答案文本序列数据。

根据本公开的实施例，传统门控循环单元(GRU)使用双曲正切(Tanh)激活函数，由于深层网络的层级指数效应，经过多层传递，容易造成梯度消失问题。

根据本公开的实施例，如图5所示，可以使用线性整流激活函数(ReLU)作为候选隐藏状态的激活函数：

其中，x是ReLU函数的输入。当x大于零时有：

根据本公开的实施例，通过使用ReLU激活函数，可以使得信息传输更加直接，避免使用Tanh激活函数带来的梯度消失问题，候选隐藏状态的计算如下：

其中，

表示第l层t时刻的候选隐藏状态的输出；w_hx表示输入权重矩阵；w_hh表示隐藏状态权重矩阵，是t时刻重置门状态；h_t-1表示t-1时刻隐藏状态；b_t表示偏置项。

根据本公开的实施例，如图5所示，可以将批标准化算法应用在每层网络与激活函数之间，通过对每个小批量训练数据进行均值和方差的规范化处理，可以解决数据内部的协变量偏移问题，从而避免梯度爆炸的问题。可以通过如下式(7)～式(9)先获得每个训练小批量数据的均值和方差，接着将均值和方差归一化。为避免丢失表达和部分学习数据特征，可以使用式(10)对输入进行缩放和移动，完成批标准化转换。

其中，μ_B表示输入的平均向量；m_B表示每一批次中的实例数量；x_i表示实例i以0点居中并标准化后的输入向量；σ_B表示输入的标准差向量；e表示平滑项；BN_γ，β(i)表示批标准化的输出；γ表示输出缩放参数；

表示同位矩阵元素对应相乘；β表示输出偏移参数。

根据本公开的实施例，如图5所示，可以将恒等映射引入到式(6)中得到式(11)，即改进后的基于恒等映射的门控循环单元(Identity Mapping Gated Recurrent Unit，IMGRU)。

其中，

表示第l层t时刻的候选隐藏状态的输出；

表示t时刻的l-1层的中间隐藏状态的输出。

根据本公开的实施例，IMGRU可以包括逐层输入得到的映射以及从前一层直接流向下一层的恒等映射。每两层IMGRU中可以增加一个捷径连接，IMGRU可以将捷径连接的信息量添加到堆叠层输出，从而在网络训练时能够进行恒等映射，由此可以在不增加额外参数和计算复杂性的前提下解决深度网络的退化问题。

根据本公开的实施例，通过将恒等映射引入GRU的候选隐藏状态，可以使得到的IMGRU在反向传播过程中，参数收敛速度更快、精度更高，并能够与前文直接建立联系。在编码和解码的过程中，IMGRU能够更加关注上下文信息，从而更好地学习上下文的语义关联特征。

根据本公开的实施例，如图5所示，由于批标准化消除了偏差，偏置项可以被忽略，则IMGRU网络第l层神经元的更新门、重置门、候选隐藏状态和隐藏状态的计算如下：

其中，

表示t时刻更新门状态；σ表示Sigmoid函数；

表示隐藏状态更新权重；

表示输入更新权重；

表示t时刻输入；

表示隐藏状态重置权重；

表示输入重置权重；BN表示批标准化算法。在t时刻，

候选隐藏状态的计算依赖于输入词向量

和

作用于

并且

的重要程度控制过去隐藏状态的保留。

根据本公开的实施例，通过使用基于线性整流激活函数的门控循环单元，解决了梯度爆炸的问题；通过使用批标准化算法对输入数据进行处理，解决了梯度消失的问题；通过使用在原始GRU中添加恒等映射得到的IMGRU(基于恒等映射的门控循环单元)，将恒等映射引入候选隐藏状态，能够缓解网络退化的问题。通过上述技术手段，能够实现更好地学习上下文关联语义特征。

图6示意性示出了根据本公开实施例的问答模型的结构示意图。

根据本公开的实施例，利用编码器对问题文本序列数据进行处理，得到目标特征向量包括：利用双向门控循环单元层对问题文本序列数据进行处理，得到目标特征向量。

利用解码器对目标特征向量进行处理，得到预测答案文本序列数据包括：利用注意力层对目标特征向量进行处理，得到中间特征向量；利用单向门控循环单元层对中间特征向量进行处理，得到预测答案文本序列数据。

根据本公开的实施例，可以通过引入注意力层使得解码器不只依赖于编码器产生的最终定长向量，而是会和编码器每一步的隐藏向量产生交互，以便获取更多信息；并且由于解码器每一步和编码器的各步都有了直接连接，因此反向传播时梯度有了很多直连通路，可以有效降低多步传递带来的梯度消失或者梯度爆炸等风险。

如图6所示，初始问题文本601例如可以为“转账汇款的方式有哪些”。通过对该初始问题文本601进行去噪、分词处理和关键词提取，可以得到问题关键词文本602为“转账汇款的方式有哪些”。通过对该问题关键词文本602进行词嵌入处理，可以得到加权词向量组603。通过对该加权词向量组603进行处理，可以得到问题文本序列数据604。

如图6所示，问答模型的编码器包括双向门控循环单元层605，解码器包括注意力层606和单向门控循环单元层608。通过引入集束搜索算法607，可以得到预测答案文本序列数据609。

根据本公开的实施例，编码器的输入可以包括X＝[x₁，x₂，...，x_l]，编码器的隐藏层可以包含512个隐藏单元，初始的隐藏层参数

为0。通过采用两组单向且方向相反的IMGRU构建而成的双向门控循环单元层605，即每个IMGRU的输入为前一个节点的反馈，输出由两个不同方向的IMGRU状态共同决定。可以使得当前时刻状态与前后时刻状态产生联系，从而提取更深层次的文本特征。文本在t时刻的隐藏层状态h_t由前向隐藏状态

和反向隐藏层状态

加权得到，计算如下：

其中，f_t是前向权重矩阵，b_t是反向权重矩阵，f是前向传播状态，b是后向传播状态。

根据本公开的实施例，通过引入注意力层606可以关注问题中词语的权重值，使得与答案无关的词向量在特征表示中的影响较小，可以关注编码状态与当前输出状态关联程度。通过引入注意力层606还可以自动搜索问题序列与答案序列的相关信息，即解码器在生成预测答案文本序列数据时，能够得到之前编码阶段每个词语的隐藏信息向量，从而提高答案预测准确性。

注意力层606首先可以计算编码器中双向门控循环单元层605的每个时刻的源隐藏状态与当前输出位置的关联性，得到每个源隐藏状态的权重系数：

e_i＝V^Ttanh(Wh_i+Uh′_t-1) (19)

其中，e_i表示第i个隐藏状态的权重系数；h_i表示第i个源隐藏状态向量；h′_t-1表示t-1时刻目标隐藏状态向量；W、U、V表示可训练权重矩阵。

可以对所有权重系数进行softmax归一化，以便得到各个源隐藏状态的注意力权重：

其中，a_i表示注意力权重。

将注意力权重与各个源隐藏状态加权求和，得到当前解码目标更新后的上下文向量：

其中，l表示源序列长度；c_t表示上下文向量。

根据本公开的实施例，解码器的输入可以包括Y＝[y₁，y₂，...，y_l]，解码器的隐藏层可以包含512个隐藏单元，t时刻的隐藏状态可以通过如下公式计算：

z′_t＝σ(BN(w′_zxyt-1)+w′_zhh′_t-1+C_zc_t) (22)

其中，w′_zx表示区别编码器与解码器的参数，y_t-1表示t-1时刻的输出，C_z表示可训练权重矩阵。

与编码器不同的是，解码器在t时刻的隐藏状态可以输出每个时刻的条件概率：

P(y_t|y_t-1，...，y_t，c_t)＝g(y_t-1，h′_t，c_t) (26)

根据本公开的实施例，可以采用集束宽度为10的集束搜索算法选取当前输出概率最大的k个结果，然后在下个神经元使用k个输出计算词汇表中每个词语的输出概率，在结果中选取前k个最大概率的词语作为输出，重复这一步骤，直到输出结束为止。在最终候选输出序列集合中，可以取分数最高的序列作为输出序列，以便解码生成全局最优输出序列：

其中，L表示最终候选序列长度，α表示惩罚因子，T表示时间总步长。

根据本公开的实施例，输入问答模型的中文词汇可以为256维的词向量表示，上下文窗口大小可以设置为5，数据的最大序列长度可以设置为25，迭代次数可以设置为100，优化学习率可以设置为0.001。

根据本公开的实施例，通过将基于恒等映射的门控循环单元作为序列到序列模型中抽取语义的基本单元，并引入注意力机制和集束搜索算法，使得在生成新的答案序列时，能够对前文的关键信息给与更多关注，从而可以生成全局最优解答案，得到自动问答模型，提升了问答生成的准确性。

图7示意性示出了根据本公开实施例的问答方法的流程图。

如图7所示，该问答方法包括操作S701～S703。

在操作S701，获取初始问题文本。

在操作S702，对初始问题文本进行预处理，得到目标问题文本序列数据。

在操作S703，利用问答模型对目标问题文本序列数据进行处理，得到目标答案文本序列数据，其中，问答模型是利用根据如上所述的训练方法得到的。

根据本公开的实施例，对初始问题文本进行预处理，然后利用问答模型对经预处理得到的目标问题文本序列数据进行处理，以便得到目标答案文本序列数据。通过上述技术手段，利用经训练的问答模型实现了自动问答，提升了问答生成的效率和准确性。

图8示意性示出了根据本公开实施例的问答模型的训练装置的结构框图。

如图8所示，问答模型的训练装置800包括第一获取模块801、第一预处理模块802和训练模块803。

其中，第一获取模块801，用于获取初始训练样本数据集，其中，初始训练样本数据集包括多组初始训练样本数据，每组初始训练样本数据包括初始问题文本和初始答案文本。

第一预处理模块802，用于对初始训练样本数据集进行预处理，得到训练样本数据集，其中，训练样本数据集包括多组训练样本数据，每组训练样本数据包括问题文本序列数据和答案文本序列数据。

训练模块803，用于利用问题文本序列数据和答案文本序列数据训练问答模型，得到经训练的问答模型。

根据本公开的实施例，第一预处理模块802包括第一处理子模块、第二处理子模块、第三处理子模块和第四处理子模块。

其中，第一处理子模块，用于对初始问题文本和初始答案文本进行去噪处理，得到去噪问题文本和去噪答案文本。

第二处理子模块，用于对去噪问题文本和去噪答案文本进行分词处理，得到分词问题文本和分词答案文本。

第三处理子模块，用于对分词问题文本和分词答案文本进行关键词提取，得到问题关键词文本和答案关键词文本。

第四处理子模块，用于对问题关键词文本和答案关键词文本进行词嵌入处理，得到问题文本序列数据和答案文本序列数据。

根据本公开的实施例，问答模型包括编码器和解码器。

根据本公开的实施例，训练模块803包括第五处理子模块、第六处理子模块和训练子模块。

其中，第五处理子模块，用于利用编码器对问题文本序列数据进行处理，得到目标特征向量。

第六处理子模块，用于利用解码器对目标特征向量进行处理，得到预测答案文本序列数据。

训练子模块，用于利用预测答案文本序列数据和答案文本序列数据训练问答模型，得到经训练的问答模型。

根据本公开的实施例，编码器包括双向门控循环单元层，双向门控循环单元层包括多个基于恒等映射的双向门控循环单元。

根据本公开的实施例，解码器包括注意力层和单向门控循环单元层，单向门控循环单元层包括多个基于恒等映射的单向门控循环单元。

根据本公开的实施例，第五处理子模块包括第一处理单元。

其中，第一处理单元，用于利用双向门控循环单元层对问题文本序列数据进行处理，得到目标特征向量。

根据本公开的实施例，第六处理子模块包括第二处理单元和第三处理单元。

其中，第二处理单元，用于利用注意力层对目标特征向量进行处理，得到中间特征向量；

第三处理单元，用于利用单向门控循环单元层对中间特征向量进行处理，得到预测答案文本序列数据。

根据本公开的实施例，第一处理单元包括第一处理子单元、第二处理子单元。

其中，第一处理子单元，用于利用批标准化算法对问题文本序列数据进行处理，得到批标准化问题文本序列数据。

第二处理子单元，用于利用双向门控循环单元层对批标准化问题文本序列数据进行处理，得到目标特征向量。

根据本公开的实施例，第三处理单元包括第三处理子单元和第四处理子单元。

其中，第三处理子单元，用于利用批标准化算法对中间特征向量进行处理，得到批标准化中间特征向量。

第四处理子单元，用于利用单向门控循环单元层对批标准化中间特征向量进行处理，得到预测答案文本序列数据。

图9示意性示出了根据本公开实施例的问答装置的结构框图。

如图9所示，问答装置900包括第二获取模块901、第二预处理模块902和处理模块903。

其中，第二获取模块901，用于获取初始问题文本。

第二预处理模块902，用于对初始问题文本进行预处理，得到目标问题文本序列数据。

处理模块903，用于利用问答模型对目标问题文本序列数据进行处理，得到目标答案文本序列数据，其中，问答模型是利用根据如上所述的训练方法得到的。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，第一获取模块801、第一预处理模块802、训练模块803、第二获取模块901、第二预处理模块902和处理模块903中的任意多个可以合并在一个模块/单元/子单元中实现，或者其中的任意一个模块/单元/子单元可以被拆分成多个模块/单元/子单元。或者，这些模块/单元/子单元中的一个或多个模块/单元/子单元的至少部分功能可以与其他模块/单元/子单元的至少部分功能相结合，并在一个模块/单元/子单元中实现。根据本公开的实施例，第一获取模块801、第一预处理模块802、训练模块803、第二获取模块901、第二预处理模块902和处理模块903中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，第一获取模块801、第一预处理模块802、训练模块803、第二获取模块901、第二预处理模块902和处理模块903中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

需要说明的是，本公开的实施例中问答模型的训练装置部分与本公开的实施例中问答模型的训练方法部分是相对应的，问答模型的训练装置部分的描述具体参考问答模型的训练方法部分，在此不再赘述。本公开的实施例中问答装置部分与本公开的实施例中问答方法部分是相对应的，问答装置部分的描述具体参考问答方法部分，在此不再赘述。

图10示意性示出了根据本公开实施例的适于实现问答模型的训练方法、问答方法的电子设备的框图。图10示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图10所示，根据本公开实施例的计算机电子设备1000包括处理器1001，其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。处理器1001例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器1001还可以包括用于缓存用途的板载存储器。处理器1001可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 1003中，存储有电子设备1000操作所需的各种程序和数据。处理器1001、ROM 1002以及RAM 1003通过总线1004彼此相连。处理器1001通过执行ROM 1002和/或RAM1003中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 1002和RAM 1003以外的一个或多个存储器中。处理器1001也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，电子设备1000还可以包括输入/输出(I/O)接口1005，输入/输出(I/O)接口1005也连接至总线1004。电子设备1000还可以包括连接至I/O接口1005的以下部件中的一项或多项：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

根据本公开的实施例，根据本公开实施例的方法流程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被处理器1001执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质。例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM 1002和/或RAM 1003和/或ROM 1002和RAM 1003以外的一个或多个存储器。

本公开的实施例还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行本公开实施例所提供的方法的程序代码，当计算机程序产品在电子设备上运行时，该程序代码用于使电子设备实现本公开实施例所提供的问答模型的训练方法、问答方法。

在该计算机程序被处理器1001执行时，执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例，上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。

在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分1009被下载和安装，和/或从可拆卸介质1011被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

根据本公开的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java，C++，python，“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种问答模型的训练方法，包括：

获取初始训练样本数据集，其中，所述初始训练样本数据集包括多组初始训练样本数据，每组所述初始训练样本数据包括初始问题文本和初始答案文本；

对所述初始训练样本数据集进行预处理，得到训练样本数据集，其中，所述训练样本数据集包括多组训练样本数据，每组所述训练样本数据包括问题文本序列数据和答案文本序列数据；以及

利用所述问题文本序列数据和所述答案文本序列数据训练问答模型，得到经训练的问答模型。

2.根据权利要求1所述的方法，其中，所述对所述初始训练样本数据集进行预处理，得到训练样本数据集包括：

对所述初始问题文本和所述初始答案文本进行去噪处理，得到去噪问题文本和去噪答案文本；

对所述去噪问题文本和所述去噪答案文本进行分词处理，得到分词问题文本和分词答案文本；

对所述分词问题文本和所述分词答案文本进行关键词提取，得到问题关键词文本和答案关键词文本；以及

对所述问题关键词文本和所述答案关键词文本进行词嵌入处理，得到所述问题文本序列数据和所述答案文本序列数据。

3.根据权利要求1或2所述的方法，其中，所述问答模型包括编码器和解码器；

所述利用所述问题文本序列数据和所述答案文本序列数据训练问答模型，得到经训练的问答模型包括：

利用所述编码器对所述问题文本序列数据进行处理，得到目标特征向量；

利用所述解码器对所述目标特征向量进行处理，得到预测答案文本序列数据；以及

利用所述预测答案文本序列数据和所述答案文本序列数据训练所述问答模型，得到经训练的问答模型。

4.根据权利要求3所述的方法，其中，所述编码器包括双向门控循环单元层，所述双向门控循环单元层包括多个基于恒等映射的双向门控循环单元；

所述解码器包括注意力层和单向门控循环单元层，所述单向门控循环单元层包括多个基于恒等映射的单向门控循环单元。

5.根据权利要求4所述的方法，其中，所述利用所述编码器对所述问题文本序列数据进行处理，得到目标特征向量包括：

利用所述双向门控循环单元层对所述问题文本序列数据进行处理，得到目标特征向量；

所述利用所述解码器对所述目标特征向量进行处理，得到预测答案文本序列数据包括：

利用所述注意力层对所述目标特征向量进行处理，得到中间特征向量；

利用所述单向门控循环单元层对所述中间特征向量进行处理，得到所述预测答案文本序列数据。

6.根据权利要求4或5所述的方法，其中，所述双向门控循环单元和所述单向门控循环单元均使用线性整流激活函数；

所述利用所述双向门控循环单元层对所述问题文本序列数据进行处理，得到目标特征向量包括：

利用批标准化算法对所述问题文本序列数据进行处理，得到批标准化问题文本序列数据；以及

利用所述双向门控循环单元层对所述批标准化问题文本序列数据进行处理，得到目标特征向量；

所述利用所述单向门控循环单元层对所述中间特征向量进行处理，得到所述预测答案文本序列数据包括：

利用所述批标准化算法对所述中间特征向量进行处理，得到批标准化中间特征向量；以及

利用所述单向门控循环单元层对所述批标准化中间特征向量进行处理，得到预测答案文本序列数据。

7.一种问答方法，包括：

获取初始问题文本；

对所述初始问题文本进行预处理，得到目标问题文本序列数据；以及

利用问答模型对所述目标问题文本序列数据进行处理，得到目标答案文本序列数据，

其中，所述问答模型是利用根据权利要求1至6中任一项所述的训练方法得到的。

8.一种问答模型的训练装置，包括：

第一获取模块，用于获取初始训练样本数据集，其中，所述初始训练样本数据集包括多组初始训练样本数据，每组所述初始训练样本数据包括初始问题文本和初始答案文本；

第一预处理模块，用于对所述初始训练样本数据集进行预处理，得到训练样本数据集，其中，所述训练样本数据集包括多组训练样本数据，每组所述训练样本数据包括问题文本序列数据和答案文本序列数据；以及

训练模块，用于利用所述问题文本序列数据和所述答案文本序列数据训练问答模型，得到经训练的问答模型。

9.一种问答装置，包括：

第二获取模块，用于获取初始问题文本；

第二预处理模块，用于对所述初始问题文本进行预处理，得到目标问题文本序列数据；以及

处理模块，用于利用问答模型对所述目标问题文本序列数据进行处理，得到目标答案文本序列数据，

10.一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个指令，

其中，当所述一个或多个指令被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1至7中任一项所述的方法。

11.一种计算机可读存储介质，其上存储有可执行指令，所述可执行指令被处理器执行时使处理器实现权利要求1至7中任一项所述的方法。

12.一种计算机程序产品，所述计算机程序产品包括计算机可执行指令，所述计算机可执行指令在被执行时用于实现权利要求1至7中任一项所述的方法。