CN111241304B

CN111241304B - 基于深度学习的答案生成方法、电子装置及可读存储介质

Info

Publication number: CN111241304B
Application number: CN202010046149.9A
Authority: CN
Inventors: 曹辰捷; 徐国强
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2024-02-06
Anticipated expiration: 2040-01-16
Also published as: CN111241304A

Abstract

本发明涉及智能决策技术领域，揭露了一种基于深度学习的答案生成方法，该方法包括：将句子样本输入预设语言模型进行掩盖词预测的训练以确定所述预设语言模型的结构参数，将正、负文本样本输入已确定结构参数的预设语言模型进行句子位置预测的训练以确定所述预设语言模型的句子位置权重参数，得到目标语言模型，将目标文本和目标问题分词处理及向量化处理后输入所述目标语言模型，得到目标问题对应的答案。本发明还提出一种电子装置以及一种计算机可读存储介质。本发明解决了文本阅读理解应用时所生成的答案精确度不够高的问题。

Description

基于深度学习的答案生成方法、电子装置及可读存储介质

技术领域

本发明涉及智能决策技术领域，尤其涉及一种基于深度学习的答案生成方法、电子装置及可读存储介质。

背景技术

自然语言处理(Natural Language Processing，NLP)是当前人工智能重要的一部分，文本阅读理解作为自然语言处理领域的一个重要课题也受到了广泛的关注，文本阅读理解的目的在于从长文本中找到精确的答案。

文本阅读理解能够快速发展，很大程度上要归功于对语言模型预训练来实现迁移学习，谷歌于2018年10月推出了一种预训练模型---双向注意力神经网络模型(Bidirectional Encoder Representation from Transformer，BERT)，该模型在文本阅读理解和文本分类等多项应用上取得了极大突破。但对于文本阅读理解来说，BERT模型的预训练任务为下句预测，下句预测是根据问题与文本中的一些重复相近词或者根据embedding(词嵌入)中具有强匹配度的词汇直接做出的选择，这种只学习一些特定规则的方法在短数据集上容易导致过拟合。同时，BERT模型为了能够处理足够长的文本，上下句的长度总和大部分都接近512个tokens(词单元，对输入文本进行处理前，需要将其分割成诸如词、标点符号、数字或纯字母数字等语言单元，所述单元被称为token)，这就使得下句预测任务仅简单地依据上、下句词汇是否属于同一领域来做出判断，而不需要确认句子级别的因果、转折等关系。因此，现有技术中，文本阅读理解应用时所生成的答案精确度不够高。

发明内容

鉴于以上内容，有必要提供一种基于深度学习的答案生成方法，旨在解决文本阅读理解应用时所生成的答案精确度不够高的问题。

本发明提供的基于深度学习的答案生成方法，包括：

第一训练步骤：从语料库抽取句子样本进行第一预处理，得到所述句子样本对应的目标词语序列中每个词语的词向量，将所述句子样本对应的目标词语序列中每个词语的词向量输入预设语言模型进行掩盖词预测的训练，以确定所述预设语言模型的结构参数；

第二训练步骤：从所述语料库抽取正、负文本样本进行第二预处理，得到所述正、负文本样本对应的目标词语序列中每个词语的词向量，将所述正、负文本样本对应的目标词语序列中每个词语的词向量输入所述已确定结构参数的预设语言模型进行句子位置预测的训练，以确定所述预设语言模型的句子位置权重参数，得到目标语言模型；

答案生成步骤：接收用户提交的目标文本和目标问题，对所述目标文本和目标问题进行分词处理及词向量化处理后输入所述目标语言模型，得到所述目标文本中每个词语分别作为所述目标问题的答案起点和答案终点的概率，确定所述目标问题对应的答案。

可选的，所述第一预处理包括：

采用sentence piece算法将所述句子样本进行分词，得到所述句子样本对应的第一词语序列；

对所述第一词语序列添加句首标识符、句末标识符，得到所述句子样本对应的第二词语序列；

将所述第二词语序列中第一预设百分比的词语进行掩盖，得到所述句子样本对应的目标词语序列；

计算所述句子样本对应的目标词语序列中每个词语的初始向量、位置向量，并将所述初始向量与位置向量相加，得到所述句子样本对应的目标词语序列中每个词语的词向量。

可选的，所述将所述句子样本对应的目标词语序列中每个词语的词向量输入预设语言模型进行掩盖词预测的训练包括：

将所述句子样本对应的目标词语序列中每个词语的词向量输入预设语言模型的特征提取层，得到所述句子样本对应的目标词语序列中每个词语的词矩阵；

将所述句子样本对应的目标词语序列中每个词语的词矩阵输入所述预设语言模型的全连接层进行掩盖词预测的训练，并通过最小化准确度的损失函数确定所述预设语言模型的结构参数。

可选的，所述第二预处理包括：

从所述正文本样本中随机选择一句文本作为所述正文本样本的正问题文本，用替代符替代所述正文本样本中的所述正问题文本，并在所述正文本样本中插入第一预设数量的替代符，得到目标正文本样本；

从所述正文本样本中随机选择一句文本作为所述负文本样本的负问题文本，并将所述负问题文本插入所述负文本样本的句首，用替代符替代所述负文本样本中的所述负问题文本，并在所述负文本样本中插入第二预设数量的替代符，得到目标负文本样本；

对所述目标正、负文本样本进行分词，并分别添加句首标识符、句末标识符及句子连接符，得到所述正、负文本样本对应的目标词语序列；

分别为所述正、负文本样本对应的目标词语序列设置标签向量；

分别计算所述正、负文本样本对应的目标词语序列中每个词语的初始向量及位置向量，并将所述初始向量、位置向量及标签向量相加，得到所述正、负文本样本对应的目标词语序列中每个词语的词向量。

可选的，所述将所述正、负文本样本对应的目标词语序列中每个词语的词向量输入所述已确定结构参数的预设语言模型进行句子位置预测的训练包括：

将所述正、负文本样本对应的目标词语序列中每个词语的词向量输入所述已确定结构参数的预设语言模型的特征提取层，得到所述正、负文本样本对应的目标词语序列中每个词语的词矩阵；

提取所述正、负文本样本对应的目标词语序列中所述替代符及所述句首标识符的词矩阵，将所述词矩阵的集合作为目标词矩阵集合，将所述目标词矩阵集合输入所述已确定结构参数的预设语言模型的全连接层进行正问题文本位置预测的训练，并通过最小化交叉熵函数确定所述预设语言模型的句子位置权重参数。

此外，为实现上述目的，本发明还提供一种电子装置，该电子装置包括：存储器、处理器，所述存储器中存储有可在所述处理器上运行的答案生成程序，所述答案生成程序被所述处理器执行时实现如下步骤：

可选的，所述第一预处理包括：

可选的，所述第二预处理包括：

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有答案生成程序，所述答案生成程序可被一个或者多个处理器执行，以实现上述基于深度学习的答案生成方法的步骤。

相较现有技术，本发明通过将句子样本输入预设语言模型进行掩盖词预测的训练以确定所述预设语言模型的结构参数，再将正、负文本样本输入已确定结构参数的预设语言模型进行句子位置预测的训练以确定所述预设语言模型的句子位置权重参数，得到目标语言模型，然后，将目标文本和目标问题分词处理及向量化处理后输入所述目标语言模型，得到目标问题对应的答案，本发明通过执行句子位置预测的训练任务建立了文本样本中的问题文本与文本样本中的每句文本之间的关联关系，所述关联关系反应了问题文本与文本样本中的每句文本之间的关联性和重要性，即本发明建立了问题文本与文本样本全文的关联关系，故而通过执行句子位置预测的训练任务而确定了句子位置权重参数的预设语言模型可解决文本阅读理解应用时所生成的答案精确度不够高的问题。

附图说明

图1为本发明电子装置一实施例的示意图；

图2为图1中的答案生成程序一实施例的程序模块图；

图3为本发明基于深度学习的答案生成方法一实施例的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

如图1所示，为本发明电子装置1一实施例的示意图。电子装置1是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。所述电子装置1可以是计算机、也可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云，其中云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。

在本实施例中，电子装置1包括，但不仅限于，可通过系统总线相互通信连接的存储器11、处理器12、网络接口13，该存储器11中存储有答案生成程序10，所述答案生成程序10可被所述处理器12执行。图1仅示出了具有组件11-13以及答案生成程序10的电子装置1，本领域技术人员可以理解的是，图1示出的结构并不构成对电子装置1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

其中，存储器11包括内存及至少一种类型的可读存储介质。内存为电子装置1的运行提供缓存；可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等的非易失性存储介质。在一些实施例中，可读存储介质可以是电子装置1的内部存储单元，例如该电子装置1的硬盘；在另一些实施例中，该非易失性存储介质也可以是电子装置1的外部存储设备，例如电子装置1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。本实施例中，存储器11的可读存储介质通常用于存储安装于电子装置1的操作系统和各类应用软件，例如存储本发明一实施例中的答案生成程序10的代码等。此外，存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器12在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子装置1的总体操作，例如执行与其他设备进行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据，例如运行答案生成程序10等。

网络接口13可包括无线网络接口或有线网络接口，该网络接口13用于在所述电子装置1与客户端(图中未画出)之间建立通信连接。

可选的，所述电子装置1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选的，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。

在本发明的一实施例中，所述答案生成程序10被所述处理器12执行时实现如下第一训练步骤、第二训练步骤及答案生成步骤。

第一训练步骤：从语料库抽取句子样本进行第一预处理，得到所述句子样本对应的目标词语序列中每个词语的词向量，将所述句子样本对应的目标词语序列中每个词语的词向量输入预设语言模型进行掩盖词预测的训练，以确定所述预设语言模型的结构参数。

本实施例中，所述预设语言模型为BERT模型，所述语料库为采用Scrapy(Scrapy是Python开发的一个屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取数据)爬虫技术，在知乎、百科百科、维基百科、百度知道、搜狗新闻、研报等公开社区爬取的20G语料。

本实施例中，所述第一预处理包括：

A11、采用sentence piece算法将所述句子样本进行分词，得到所述句子样本对应的第一词语序列。

sentence piece算法为将句子样本切分成多个不同分词结果对应的词语序列，将困惑度最低的词语序列作为所述句子样本的目标分词结果对应的词语序列。

A12、对所述第一词语序列添加句首标识符、句末标识符，得到所述句子样本对应的第二词语序列。

A13、将所述第二词语序列中第一预设百分比(例如，10％)的词语进行掩盖，得到所述句子样本对应的目标词语序列。

第一预设百分比的词语中，将其中第二预设百分比(例如，80％)的词语用掩盖符掩盖，将第三预设百分比(例如，10％)的词语用随机词替换，剩余词语保持不变。

本实施例中，将<cls>作为句首标识符，<sep>作为句末标识符，<mask>作为掩盖符。

在本发明的另一个实施例中，所述第一预处理在步骤A11前还实现如下步骤：

去除句子样本中的标点。

例如，句子样本为：王铭打开电脑开始工作。

该句子样本对应的目标词语序列为：<cls>|王铭|打开|电脑|<mask>|工作|<sep>

A14、计算所述句子样本对应的目标词语序列中每个词语的初始向量、位置向量，并将所述初始向量与位置向量相加，得到所述句子样本对应的目标词语序列中每个词语的词向量。

本实施例中，初始向量是与预设语言模型整合的，需通过训练获得。

所述位置向量的计算公式为：

其中，pos为词语在目标词语序列中的位置，d_model为初始向量的维度，C为周期系数，PE_(pos2i)为第pos个位置的词语的第2i个维度的位置向量，PE_(pos2i+1)为第pos个位置的词语的第2i+1个维度的位置向量。

本实施例中，所述将所述句子样本对应的目标词语序列中每个词语的词向量输入预设语言模型进行掩盖词预测的训练包括：

B11、将所述句子样本对应的目标词语序列中每个词语的词向量输入预设语言模型的特征提取层，得到所述句子样本对应的目标词语序列中每个词语的词矩阵。

所述预设语言模型包括特征提取层和全连接层。特征提取层用来处理数据的输入，并基于自注意力机制(自注意力机制用于学习句子内部的词语依赖关系，捕获句子的内部结构)将输入的每一个词语变成矩阵向量表征的形式。

所述特征提取层为12层的transformer层，每一层的transformer包含两个子层，第一个子层为多头注意力子层，第二个子层为一个前向传播子层。

多头注意力子层利用缩放点积式的多头注意力机制，并行的计算各部分的注意力权重，动态的通过每个词向量收集整个句子样本的信息。

多头注意力子层输出的词矩阵的计算公式为：

其中，Attention_j(Q,K,V))为第j层transformer的多头注意力子层输出的第i个词向量的词矩阵，Q_i为第i个词向量的查询矩阵，K_i为第i个词向量的键矩阵，V_i为第i个词向量的值矩阵，为第i个词向量的维度，K_i ^T为第i个词向量的键矩阵的转置矩阵，Q_i、K_i、V_i的计算公式分别为：

其中，为第i个词向量的查询权重矩阵，/>为第i个词向量的键权重矩阵，为第i个词向量的值权重矩阵，/>皆为可学习的随机初始化矩阵，X_i为输入的第i个词向量。

Transformer的每个子层的输入和输出都存在着残差连接，这种结构可以很好的回传梯度。每个子层的后面跟着一步正则化操作，正则化的使用可以加快模型的收敛速度，前向传播子层实现中有两次线性变换，一次Relu非线性激活，其残差的计算公式为：

FEN(x)＝γ(0,xW₁+b₁)W₂+b₂

其中，FEN(x)为词矩阵的残差值，x表示输入的词向量，W₁表示多头注意力子层输入的词向量对应的权重，b₁表示多头注意力机制的偏置因子，(0,xW₁+b₁)表示前向传播子层输入的层信息，W₂表示前向传播子层输入的层信息对应的权重，b₂表示前向传播函数的偏置因子，γ表示transformer的非线性激活函数，前向传播子层输入信息是transformer第一个子层(多头注意力子层)处理之后的输出。

每一层的transformer将计算得出的attention值进行加权求和得到下一层的表征，12层堆叠计算后的表征即为整个特征提取层的表征。

本实施例通过自注意力机制计算一句话中的每个词语与这句话中所有词语间的相互关系，这些相互关系反应了这句话中不同词语之间的关联性以及重要程度，因此再利用这些相互关系来调整每个词语的重要性(权重)就可以获得每个词语新的表征，这个新的表征不但蕴含了该词语本身，还蕴含了其他词语与这个词语的关系，因此和单纯的词向量相比是一个更加全局的表达。

B12、将所述句子样本对应的目标词语序列中每个词语的词矩阵输入所述预设语言模型的全连接层进行掩盖词预测的训练，并通过最小化准确度的损失函数确定所述预设语言模型的结构参数。

本实施例中，提取句子样本对应的目标词语序列中掩盖符的词矩阵，并将所述词矩阵的集合作为掩盖词词矩阵集合。

所述掩盖词预测的计算公式为：

y_i＝softmax((MaskGather_i)^T(Attention_last(Q,K,V)))

其中，y_i为掩盖词词矩阵集合中第i个掩盖词的预测值，(MaskGather_i)^T为掩盖词词矩阵集合中第i个掩盖词的词矩阵的转置矩阵，Attention_last(Q,K,V)为最后一层transformer层输出的词矩阵。

所述准确度的损失函数的计算公式为：

其中，loss(y_i,yⁱ)为掩盖词词矩阵集合中第i个掩盖词的预测准确度的损失率，y_i为掩盖词词矩阵集合中第i个掩盖词的预测值，yⁱ为掩盖词词矩阵集合中第i个掩盖词的真实值(1或0)，c为掩盖词词矩阵集合中掩盖词的总数量。

第二训练步骤：从所述语料库抽取正、负文本样本进行第二预处理，得到所述正、负文本样本对应的目标词语序列中每个词语的词向量，将所述正、负文本样本对应的目标词语序列中每个词语的词向量输入所述已确定结构参数的预设语言模型进行句子位置预测的训练，以确定所述预设语言模型的句子位置权重参数，得到目标语言模型。

本实施例中，将从语料库中抽取的文本样本划分为第四预设百分比的文本样本和第五预设百分比的文本样本，将所述第四预设百分比的文本样本作为正文本样本，将所述第五预设百分比的文本样本作为负文本样本。

所述第二预处理包括：

A21、从所述正文本样本中随机选择一句文本作为所述正文本样本的正问题文本，用替代符替代所述正文本样本中的所述正问题文本，并在所述正文本样本中插入第一预设数量的替代符，得到目标正文本样本；

A22、从所述正文本样本中随机选择一句文本作为所述负文本样本的负问题文本，并将所述负问题文本插入所述负文本样本的句首，用替代符替代所述负文本样本中的所述负问题文本，并在所述负文本样本中插入第二预设数量的替代符，得到目标负文本样本；

A23、对所述目标正、负文本样本进行分词，并分别添加句首标识符、句末标识符及句子连接符(例如，<sep>)，得到所述正、负文本样本对应的目标词语序列；

A24、分别为所述正、负文本样本对应的目标词语序列设置标签向量；

设置标签向量时，正文本样本对应的目标词语序列中，将替代符处的标签设置为1，其余位置的标签设置为0；负文本样本对应的目标词语序列中，将句首标识符处的标签设置为1，替代符处的标签设置为0。

A25、分别计算所述正、负文本样本对应的目标词语序列中每个词语的初始向量及位置向量，并将所述初始向量、位置向量及标签向量相加，得到所述正、负文本样本对应的目标词语序列中每个词语的词向量。

本实施例中，采用与上述步骤A14相同的方法计算每个词语的初始向量、位置向量。

本实施例中，所述将所述正、负文本样本对应的目标词语序列中每个词语的词向量输入所述已确定结构参数的预设语言模型进行句子位置预测的训练包括：

B21、将所述正、负文本样本对应的目标词语序列中每个词语的词向量输入所述已确定结构参数的预设语言模型的特征提取层，得到所述正、负文本样本对应的目标词语序列中每个词语的词矩阵。

所述词矩阵的计算过程与上述步骤B11相同，在此不做赘述。

B22、提取所述正、负文本样本对应的目标词语序列中所述替代符及所述句首标识符的词矩阵，将所述词矩阵的集合作为目标词矩阵集合，将所述目标词矩阵集合输入所述已确定结构参数的预设语言模型的全连接层进行正问题文本位置预测的训练，并通过最小化交叉熵函数确定所述预设语言模型的句子位置权重参数。

所述正问题文本位置预测的计算公式为：

logits(M_i)＝softmax(W^scpM_i)

其中，logits(M_i)为目标词矩阵集合中第i个词矩阵对应的词语位置为正问题文本位置的预测概率值，W^scp为句子位置权重参数(W^scp为本发明句子位置预测任务需要确定的目标参数)，M_i为目标词矩阵集合中第i个词矩阵。

所述交叉熵函数的计算公式为：

其中，L为交叉熵函数的损失值，p(i)为目标词矩阵集合中第i个词矩阵对应的词语位置为正问题文本位置的真实概率值(1或0)，σ为目标词矩阵集合。

本实施例通过执行句子位置预测的训练任务来确定预设语言模型的句子位置权重参数，建立了问题与文本中每句话的关联关系，所述关联关系反应了问题与文本中每句话之间的关联性和重要性(权重)，对于文本阅读理解任务来说，进行句子位置预测训练优化后的目标语言模型生成答案的精确度会更高。

例如，目标文本中每个词语作为目标问题的答案起点和答案终点的概率如下表1所示：

表1

由表1可见，答案起点概率最高的为第3个词语，答案终点概率最高的为第8个词语，则第3个词语～8个词语为目标问题对应的答案。

由上述实施例可知，本发明提出的电子装置1，首先，将句子样本输入预设语言模型进行掩盖词预测的训练以确定所述预设语言模型的结构参数，再将正、负文本样本输入已确定结构参数的预设语言模型进行句子位置预测的训练以确定所述预设语言模型的句子位置权重参数，得到目标语言模型；然后，将目标文本和目标问题分词处理及向量化处理后输入所述目标语言模型，得到目标问题对应的答案，本发明通过执行句子位置预测的训练任务建立了文本样本中的问题文本与文本样本中的每句文本之间的关联关系，所述关联关系反应了问题文本与文本样本中的每句文本之间的关联性和重要性，即本发明建立了问题文本与文本样本全文的关联关系，故而通过执行句子位置预测的训练任务而确定了句子位置权重参数的预设语言模型可解决文本阅读理解应用时所生成的答案精确度不够高的问题。

在其他实施例中，答案生成程序10还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明，本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段，用于描述答案生成程序10在电子装置1中的执行过程。

如图2所示，为图1中的答案生成程序10一实施例的程序模块图。

在本发明的一个实施例中，答案生成程序10包括第一训练模块110、第二训练模块120及答案生成模块130，示例性地：

所述第一训练模块110，用于从语料库抽取句子样本进行第一预处理，得到所述句子样本对应的目标词语序列中每个词语的词向量，将所述句子样本对应的目标词语序列中每个词语的词向量输入预设语言模型进行掩盖词预测的训练，以确定所述预设语言模型的结构参数；

所述第二训练模块120，用于从所述语料库抽取正、负文本样本进行第二预处理，得到所述正、负文本样本对应的目标词语序列中每个词语的词向量，将所述正、负文本样本对应的目标词语序列中每个词语的词向量输入所述已确定结构参数的预设语言模型进行句子位置预测的训练，以确定所述预设语言模型的句子位置权重参数，得到目标语言模型；

所述答案生成模块130，用于接收用户提交的目标文本和目标问题，对所述目标文本和目标问题进行分词处理及词向量化处理后输入所述目标语言模型，得到所述目标文本中每个词语分别作为所述目标问题的答案起点和答案终点的概率，确定所述目标问题对应的答案。

上述第一训练模块110、第二训练模块120及答案生成模块130等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同，在此不再赘述。

如图3所示，为本发明基于深度学习的答案生成方法一实施例的流程图，该答案生成方法包括步骤S1-S3。

S1、从语料库抽取句子样本进行第一预处理，得到所述句子样本对应的目标词语序列中每个词语的词向量，将所述句子样本对应的目标词语序列中每个词语的词向量输入预设语言模型进行掩盖词预测的训练，以确定所述预设语言模型的结构参数。

本实施例中，所述第一预处理包括：

去除句子样本中的标点。

例如，句子样本为：王铭打开电脑开始工作。

所述位置向量的计算公式为：

多头注意力子层输出的词矩阵的计算公式为：

FEN(x)＝γ(0,xW₁+b₁)W₂+b₂

所述掩盖词预测的计算公式为：

y_i＝softmax((MaskGather_i)^T(Attention_last(Q,K,V)))

所述准确度的损失函数的计算公式为：

S2、从所述语料库抽取正、负文本样本进行第二预处理，得到所述正、负文本样本对应的目标词语序列中每个词语的词向量，将所述正、负文本样本对应的目标词语序列中每个词语的词向量输入所述已确定结构参数的预设语言模型进行句子位置预测的训练，以确定所述预设语言模型的句子位置权重参数，得到目标语言模型。

所述第二预处理包括：

所述词矩阵的计算过程与上述步骤B11相同，在此不做赘述。

所述正问题文本位置预测的计算公式为：

logits(M_i)＝softmax(W^scpM_i)

所述交叉熵函数的计算公式为：

S3、接收用户提交的目标文本和目标问题，对所述目标文本和目标问题进行分词处理及词向量化处理后输入所述目标语言模型，得到所述目标文本中每个词语分别作为所述目标问题的答案起点和答案终点的概率，确定所述目标问题对应的答案。

例如，目标文本中每个词语作为目标问题的答案起点和答案终点的概率如上表1所示：

由上述实施例可知，本发明提出的基于深度学习的答案生成方法，首先，将句子样本输入预设语言模型进行掩盖词预测的训练以确定所述预设语言模型的结构参数，再将正、负文本样本输入已确定结构参数的预设语言模型进行句子位置预测的训练以确定所述预设语言模型的句子位置权重参数，得到目标语言模型；然后，将目标文本和目标问题分词处理及向量化处理后输入所述目标语言模型，得到目标问题对应的答案，本发明通过执行句子位置预测的训练任务建立了文本样本中的问题文本与文本样本中的每句文本之间的关联关系，所述关联关系反应了问题文本与文本样本中的每句文本之间的关联性和重要性，即本发明建立了问题文本与文本样本全文的关联关系，故而通过执行句子位置预测的训练任务而确定了句子位置权重参数的预设语言模型可解决文本阅读理解应用时所生成的答案精确度不够高的问题。

此外，本发明实施例还提出一种计算机可读存储介质，计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等中的任意一种或者几种的任意组合。计算机可读存储介质中包括答案生成程序10，所述答案生成程序10被处理器执行时实现如下操作：

从语料库抽取句子样本进行第一预处理，得到所述句子样本对应的目标词语序列中每个词语的词向量，将所述句子样本对应的目标词语序列中每个词语的词向量输入预设语言模型进行掩盖词预测的训练，以确定所述预设语言模型的结构参数；

从所述语料库抽取正、负文本样本进行第二预处理，得到所述正、负文本样本对应的目标词语序列中每个词语的词向量，将所述正、负文本样本对应的目标词语序列中每个词语的词向量输入所述已确定结构参数的预设语言模型进行句子位置预测的训练，以确定所述预设语言模型的句子位置权重参数，得到目标语言模型；

接收用户提交的目标文本和目标问题，对所述目标文本和目标问题进行分词处理及词向量化处理后输入所述目标语言模型，得到所述目标文本中每个词语分别作为所述目标问题的答案起点和答案终点的概率，确定所述目标问题对应的答案。

本发明之计算机可读存储介质的具体实施方式与上述基于深度学习的答案生成方法以及电子装置的具体实施方式大致相同，在此不再赘述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于深度学习的答案生成方法，应用于电子装置，其特征在于，所述方法包括：

第二训练步骤：从所述语料库抽取正、负文本样本进行第二预处理，得到所述正、负文本样本对应的目标词语序列中每个词语的词向量，将所述正、负文本样本对应的目标词语序列中每个词语的词向量输入已确定结构参数的预设语言模型进行句子位置预测的训练，以确定所述预设语言模型的句子位置权重参数，得到目标语言模型；

答案生成步骤：接收用户提交的目标文本和目标问题，对所述目标文本和目标问题进行分词处理及词向量化处理后输入所述目标语言模型，得到所述目标文本中每个词语分别作为所述目标问题的答案起点和答案终点的概率，确定所述目标问题对应的答案；

其中，所述第一预处理包括：采用sentence piece算法将所述句子样本进行分词，得到所述句子样本对应的第一词语序列；对所述第一词语序列添加句首标识符、句末标识符，得到所述句子样本对应的第二词语序列；将所述第二词语序列中第一预设百分比的词语进行掩盖，得到所述句子样本对应的目标词语序列；计算所述句子样本对应的目标词语序列中每个词语的初始向量、位置向量，并将所述初始向量与位置向量相加，得到所述句子样本对应的目标词语序列中每个词语的词向量；

所述第二预处理包括：从所述正文本样本中随机选择一句文本作为所述正文本样本的正问题文本，用替代符替代所述正文本样本中的所述正问题文本，并在所述正文本样本中插入第一预设数量的替代符，得到目标正文本样本；从所述负文本样本中随机选择一句文本作为所述负文本样本的负问题文本，并将所述负问题文本插入所述负文本样本的句首，用替代符替代所述负文本样本中的所述负问题文本，并在所述负文本样本中插入第二预设数量的替代符，得到目标负文本样本；对所述目标正、负文本样本进行分词，并分别添加句首标识符、句末标识符及句子连接符，得到所述正、负文本样本对应的目标词语序列；分别为所述正、负文本样本对应的目标词语序列设置标签向量；分别计算所述正、负文本样本对应的目标词语序列中每个词语的初始向量及位置向量，并将所述初始向量、位置向量及标签向量相加，得到所述正、负文本样本对应的目标词语序列中每个词语的词向量；

所述将所述正、负文本样本对应的目标词语序列中每个词语的词向量输入已确定结构参数的预设语言模型进行句子位置预测的训练包括：将所述正、负文本样本对应的目标词语序列中每个词语的词向量输入所述已确定结构参数的预设语言模型的特征提取层，得到所述正、负文本样本对应的目标词语序列中每个词语的词矩阵；提取所述正、负文本样本对应的目标词语序列中所述替代符及所述句首标识符的词矩阵，将所述词矩阵的集合作为目标词矩阵集合，将所述目标词矩阵集合输入所述已确定结构参数的预设语言模型的全连接层进行正问题文本位置预测的训练，并通过最小化交叉熵函数确定所述预设语言模型的句子位置权重参数。

2.如权利要求1所述的基于深度学习的答案生成方法，其特征在于，所述将所述句子样本对应的目标词语序列中每个词语的词向量输入预设语言模型进行掩盖词预测的训练包括：

3.一种电子装置，其特征在于，该电子装置包括：存储器、处理器，所述存储器上存储有可在所述处理器上运行的答案生成程序，所述答案生成程序被所述处理器执行时实现如权利要求1或2所述的基于深度学习的答案生成方法。

4.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有答案生成程序，所述答案生成程序可被一个或者多个处理器执行，以实现如权利要求1或2所述的基于深度学习的答案生成方法的步骤。