CN115269807B

CN115269807B - 一种基于问题类型识别的问答对联合生成模型

Info

Publication number: CN115269807B
Application number: CN202210966935.XA
Authority: CN
Inventors: 宫明
Original assignee: Beijing Zhongke Shenzhi Technology Co ltd
Current assignee: Beijing Zhongke Shenzhi Technology Co ltd
Priority date: 2022-08-17
Filing date: 2022-08-17
Publication date: 2023-06-30
Anticipated expiration: 2042-08-17
Also published as: CN115269807A

Abstract

本发明公开了一种基于问题类型识别的问答对联合生成模型，包括使用关键词抽取技术从文本中抽取关键词并将其转化为对应的商品属性类型，来辅助模型获取更多的知识生成问题和答案；将原始的流水线模型改进成将问题生成模块和答案抽取模块联合训练的模型；在答案抽取模块采用联合式抽取，将答案的起始位置和结束位置联系起来，更准确地定位起始位置。本发明采用了联合的方式，将问题生成和答案抽取联合训练，并且在数据预处理时，通过已有的训练好的序列标注模型获取输入文本的关键词信息，并将其转化为对应的商品属性类别，来辅助模型获取更多的知识生成问题和抽取答案。

Description

一种基于问题类型识别的问答对联合生成模型

技术领域

本发明属于问题类型识别技术领域，更具体的说是涉及一种基于问题类型识别的问答对联合生成模型。

背景技术

基于阅读理解模式的问答严重依赖人力去标注问答对，这样大大的加大了时间和人力成本。给定一段文本，自动生成问答对可以大大减少在人力和时间上的消耗。目前在电商领域，每天都有成百上千的新商品出现，很容易获取到每件商品的解说词，即一段描述商品信息的文本，根据这段文本自动生成对应的问答对是急需要解决的问题。

传统方法中，通过文本生成问题，会出现生成的问题涉及文本的内容但是和实际关注的问题不一致的情况。如图1中，原文1中，生成问题和实际关注问题是一致的。但原文2,3中，生成的问题和实际关注的问题严重不一致。在对商品解说词进行问题生成时，我们只想生成和商品属性相关的问题，屏蔽掉与属性无关的问题。

根据输入文本生成与文本相关的问答对，目前采用的是流水线模型的方式，如图2中的(a)和(b)。第一种方案为从文档中抽取候选答案，选出最有可能的一个句子片段作为答案，根据答案来生成问题。第二种方案是根据文档生成问题，再进行答案的抽取。这样分步的流水线模型有如下弊端：(1)抽取的答案和生成的问题不兼容，因为抽取到的答案忽视了问题和答案之间的内在关联。(2)生成的问题会涉及文本内容但和实际关注的问题不一致的情况。如图1中，原文1中，生成问题和实际关注问题是一致的。但原文2,3中，生成的问题和实际关注的问题严重不一致。(3)将问题分步处理还会导致损失的累积，影响效果。增加训练和部署的复杂度。

因此，如何提供一种基于问题类型识别的问答对联合生成模型成为了本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于问题类型识别的问答对联合生成模型，采用了联合的方式，将问题生成和答案抽取联合训练，并且在数据预处理时，通过已有的训练好的序列标注模型获取输入文本的关键词信息，并将其转化为对应的商品属性类别，来辅助模型获取更多的知识生成问题和答案。

为了实现上述目的，本发明采用如下技术方案：

一种基于问题类型识别的问答对联合生成模型，包括：使用关键词抽取技术从文本中抽取关键词并将其转化为对应的商品属性类型，来辅助模型获取更多的知识生成问题和答案；将原始的流水线模型改进成将问题生成模块和答案抽取模块联合训练的模型；在答案抽取模块采用联合式抽取，将答案的起始位置和结束位置联系起来，更准确地定位起始位置。

进一步的，问题生成模块和答案抽取模块采用联合式抽取，生成问题的同时将答案抽取出来。

进一步的，采用编码器-解码器结构来生成问题，解码器生成答案的同时，将编码器的输出和解码器的输出共同输入到注意力层后，通过联合目标函数的方式，来生成问题和抽取答案。

进一步的，在编码器输入端，融合了通过提取输入文本的关键词判别文本中的商品属性，确定问题的提问点，锁定文本生成问题的范围。

进一步的，编码器-解码器的初始化参数加载的是基于电商各领域的商品说明书的文本训练的BART预训练模型的参数。

进一步的，编码器和解码器都为6层，向量的维度为768；编码器部分具有双向表征的能力，用于抽取输入文本t的语义信息；解码器是一个从左到右的自回归语言模型，用于生成对应的问题；编码器的最后一层的输出要和解码器的每一层的输出计算cross-attention；通过注意力机制，获取输入文本中应该重点被关注的信息，用解码器生成问题；

编码器最后一层的输出，经过线性变换，得到能够表征输入信息的query和key矩阵，解码器最终在<EOS>处的输出，经过线性变化后，产生value矩阵；将query，key，value这三个矩阵输入到transformer的自注意力单元，将注意力单元的输出的结果输入到答案抽取模块，获取一对数值，表示答案在输入文本的开始和结束位置，该文本片段为最终的答案。

进一步的，模型训练过程的输入包含：输入文本t,与答案相关的问题q,从输入文本中抽取的答案a。

本发明的有益效果在于：

本发明通过关键词抽取技术从文本中抽取关键词，将其转化为商品属性类别，锁定了文本生成问题的范围，解决了生成问题和实际关注问题不一致的问题。将原始的流水线模型改进成联合模型，在训练过程中，问题生成和答案抽取部分相互影响，提高了生成问答对的相关性，同时提高了模型训练和在工业中部署的效率。答案抽取模块采用联合式抽取，将答案的起始位置和结束位置联系起来，能够更准确地定位起始位置。避免了分别抽取开始和结束位置带来的能够以大的概率定位到起始位置的附近，但不能够很好地预测到结束的位置的问题。从而提高抽取答案的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为模型生成问题和实际关注问题对比图；

图2为现有技术生成问答对模型流程图；

图3为本发明生成问答对模型流程图；

图4为模型中是否加入关键词获取的商品属性信息生成效果对比图；

图5为本发明模型的整个流程图；

图6为序列标注模型抽取关键词；

图7为encoder部分文本输入图形。

具体实施方式

下面将结合本发明的实施例中，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参考图3-7，本发明提供了一种基于问题类型识别的问答对联合生成模型，包括：使用关键词抽取技术从文本中抽取关键词并将其转化为对应的商品属性类型，来辅助模型获取更多的知识生成问题和答案；将原始的流水线模型改进成将问题生成模块和答案抽取模块联合训练的模型，在训练过程中，问题生成和答案抽取部分相互影响，提高了生成问答对的相关性，同时提高了模型训练和在工业中部署的效率；在答案抽取模块采用联合式抽取，将答案的起始位置和结束位置联系起来，能够更准确地定位起始位置。避免了分别抽取开始和结束位置带来的能够以大的概率定位到起始位置的附近，但不能够很好地预测到结束的位置的问题。从而提高抽取答案的准确性。

本发明使用关键词抽取技术从文本中抽取关键词并将其转化为对应的商品属性类型，来辅助模型获取更多的知识生成问题和答案。如图4，通过序列标注模型，获取到输入句子的关键词“屏幕”，将其转化为商品的属性类别“屏幕”，属性类别就是生成的问题要关注的提问点。通过生成的问题可以看到，模型未加入商品属性信息生成的问题与实际关注的问题是存在偏差的，融合了商品属性信息后，很好的改善了这个问题。

本发明采用了联合的方式，将问题生成和答案抽取联合训练，并且在数据预处理时，通过已有的训练好的序列标注模型获取输入文本的关键词信息，并将其转化为对应的商品属性类别，来辅助模型获取更多的知识生成问题和答案。问题类别信息和文本信息融合在一起输入到模型编码器部分，解决了生成问题和实际关注问题不一致的问题。

模型采用将问题生成和答案抽取联合的方式，在模型训练的过程中，生成的问题和抽取的答案之间会相互影响，进而促进了问题和答案之间的关联性。即缓解了问题和答案之间出现的答非所问，问非所答的情况，在模型的训练和部署过程都变得简化。

在答案抽取部分，改进了之前分别独立预测起始位置和结束位置，本发明采用联合位置抽取的方法，将答案的起始位置和结束位置联系起来。避免了分别抽取开始和结束位置带来的能够以大的概率定位到起始位置的附近，但不能够很好地预测到结束的位置的问题。从而提高抽取答案的准确性。

现有技术中虽然是采用编码器-解码器结构来生成问题，但要分成两部分才能够获取到问答对，这种模式获取的问答对存在问题和答案之间不相关的情况。本发明采用的联合的方法，生成问题的同时将答案抽取出来。解码器生成答案的同时，将编码器的输出和解码器的输出共同输入到注意力层后，通过联合目标函数的方式，来生成问题和抽取答案。问题生成和答案抽取之间相互影响，增强了问题和答案之间的关联性。在编码器输入端，融合了通过提取输入文本的关键词判别文本中的商品属性，确定问题的提问点，锁定了文本生成问题的范围，解决了生成问题和实际关注问题不一致的问题。编码器-解码器的初始化参数加载的是基于电商各领域的商品说明书等文本训练的BART预训练模型的参数。

实施例

本发明要解决的问题描述为：给定一个文本t，找到和文本相关联的问题和相应的答案。

其中，t表示输入文本，a表示从输入文本中抽取的答案，q表示与答案相关的问题。

表示最优的问答对。

本发明使用编码器-解码器结构，编码器和解码器的结构和BART的结构完全一致。编码器和解码器都为6层，向量的维度为768。编码器部分具有双向表征的能力，用于抽取输入文本t的语义信息。解码器是一个从左到右的自回归语言模型，用于生成对应的问题。编码器的最后一层的输出要和解码器的每一层的输出计算cross-attention。通过注意力机制，获取输入文本中应该重点被关注的信息，用解码器生成问题。

编码器最后一层的输出，经过线性变换，可以得到能够表征输入信息的query和key矩阵，解码器最终在<EOS>处的输出，经过线性变化后，产生value矩阵。将query，key，value这三个矩阵输入到transformer的自注意力单元，将注意力单元的输出的结果输入到答案抽取模块，获取一对数值，表示答案在输入文本的开始和结束位置，该文本片段为最终的答案，如图5所示。

模型的训练整个过程如图5。训练过程的输入包含：输入文本t,与答案相关的问题q,从输入文本中抽取的答案a。

在数据预处理阶段，要获取输入文本的关键词信息。该部分使用的已经训练好的序列标注模型来抽取对应的关键词，如图6所示。关键词抽取采用BIO模式，“-”后的单词代表所标注的关键词所属的类别，其中charging表示本句话所属的类别为“充电”类别。

在获取到输入问题的类别后，将输入文本和类别拼接在一起，中间用[type]字符拼接，输入到编码器部分。其中，经过三层处理，分别是词嵌入、位置嵌入和片段嵌入，将着三部分表征向量相加，作为编码器的输入。如图7所示。

模型由问题生成模块P(q|t；θ)和答案抽取模块P(a|t,q；θ)联合完成抽取文本问答对任务。P(a|t；θ)表示给定输入文本t生成问题q的概率分布。P(a|t,q；θ)表示给定输入文本t和已生成好的问题q，从输入文本t种抽取答案的概率。

目标函数表示为：

argmaxP(q,a|t)＝argmaxP(q|t；θ)·P(a|t,q；θ)

问答对的获取，由问题生成模块和答案抽取模块共同决定，并且他们共享模型参数θ。

问题生成目标函数为：

问题生成过程是一个自回归问题，即生成的问题的第k个字符，依赖于第k个字符以前的所有字符。

表示，从k＝1的第一个字符开始，到问题的长度n，将每一步的概率进行相乘。用对目标函数做负对数似然函数得到损失函数：

答案抽取的过程为，注意力层的输出经过线性层的变换后，分别得到起始位置和结束位置的向量表示H_s,H_e。

其中，H_s,H_e∈R^d×L，d表示模型的维度，L表示输入文本的长度。

是开始位置和结束位置的权重参数的转置，b_s,b_e是开始位置和结束位置的偏移量。通过使用softmax()函数将整个向量表示空间映射到[0,1]范围内。f_dot(H_s,H_e)表示将起始位置和结束位置的向量表示做点乘，可以获取起始位置和结束位置之间的内部关联。再使用softmax()函数将值影射到[0,1]范围内。

答案抽取的目标函数为：

P(a|t,q；θ)＝P_θ(a_s,a_e)P_θ(a_s)P(a_e)

即将P_θ(a_s),P_θ(a_e),P_θ(a_s,a_e)这三部相乘，使用联合概率来预测最终的问答对。用负对数似然函数作为损失函数：

L_answer＝-log(P_θ(a_s,a_e)P_θ(a_s)P_θ(a_e))

最终的目标函数为：

对目标函数取负对数似然函数为：

最终的训练损失由问题生成部分和答案抽取部分共同决定。

在问题生成的解码过程中，采用束搜索算法，将束宽设置为3。

推理过程为输入文本t，得到相应的<q,a>，即问答对。

目前，基于文本生成问答对主要依靠流水线模型，即将问题生成和答案抽取分别进行处理，这样做的弊端是在训练过程中无法将答案和问题之间语义信息进行关联。问题生成过程中，只能依靠预训练模型或者训练预料，无法提供有价值的信息给模型。本发明将问题生成和答案抽取的联合模型，训练过程中，将这两部分的损失联合训练，使其相互影响，提高最终问题和答案之间的关联性。并且，在编码器输入部分，使用基于电商数据训练好的序列标注模型来抽取输入文本的关键词信息，将其转化为对应问题的类别作为输入的一部分，进一步给模型提供辅助信息，来锁定了文本生成问题的范围，解决了生成问题和实际关注问题不一致的问题。

本发明采用联合模型，使得训练和部署是变得更加简单。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于问题类型识别的问答对联合生成模型，其特征在于，包括：使用关键词抽取技术从文本中抽取关键词并将其转化为对应的商品属性类型，来辅助模型获取更多的知识生成问题和答案；将原始的流水线模型改进成将问题生成模块和答案抽取模块联合训练的模型；在答案抽取模块采用联合式抽取，将答案的起始位置和结束位置联系起来，准确地定位起始位置；

模型训练过程的输入包含：输入文本t,与答案相关的问题q,从输入文本中抽取的答案a；

模型由问题生成模块P(q|t；θ)和答案抽取模块P(a|t，q；θ)联合完成抽取文本问答对任务；P(q|t；θ)表示给定输入文本t生成问题q的概率分布，θ表示模型参数；P(a|t，q；θ)表示给定输入文本t和已生成好的问题q，从输入文本t种抽取答案的概率；

目标函数表示为：

argmaxP(q，a|t)＝argmaxP(q|t；θ)·P(a|t，q；θ)

问答对的获取，由问题生成模块和答案抽取模块共同决定，并且他们共享模型参数θ；

问题生成目标函数为：

问题生成过程是一个自回归问题，即生成的问题的第k个字符，依赖于第k个字符以前的所有字符；

表示，从k＝1的第一个字符开始，到问题的长度n，将每一步的概率进行相乘；用对目标函数做负对数似然函数得到损失函数：

答案抽取的过程为，注意力层的输出经过线性层的变换后，分别得到起始位置和结束位置的向量表示H_s，H_e；

其中，H_s，H_e∈R^d×L，d表示模型的维度，L表示输入文本的长度；

是开始位置和结束位置的权重参数，b_s，b_e是开始位置和结束位置的偏移量；通过使用soft max()函数将整个向量表示空间映射到[0,1]范围内；f_dot(H_s，H_e)表示将起始位置和结束位置的向量表示做点乘，获取起始位置和结束位置之间的内部关联；再使用softmax()函数将值影射到[0,1]范围内；

答案抽取的目标函数为：

P(a|t，q；θ)＝P_θ(a_s，a_e)P_θ(a_s)P_θ(a_e)

即将P_θ(a_s)，P_θ(a_e)，P_θ(a_s，a_e)这三部相乘，使用联合概率来预测最终的问答对；

用负对数似然函数作为损失函数：

L_answer＝-logP_θ(a_s，a_e)P_θ(a_s)P_θ(a_e)

最终的目标函数为：

对目标函数取负对数似然函数为：

最终的训练损失由问题生成部分和答案抽取部分共同决定。

2.根据权利要求1所述的一种基于问题类型识别的问答对联合生成模型，其特征在于，在答案抽取模块采用联合式抽取，生成问题的同时将答案抽取出来。

3.根据权利要求2所述的一种基于问题类型识别的问答对联合生成模型，其特征在于，采用编码器-解码器结构来生成问题，解码器生成答案的同时，将编码器的输出和解码器的输出共同输入到注意力层后，通过联合目标函数的方式，来生成问题和抽取答案。

4.根据权利要求3所述的一种基于问题类型识别的问答对联合生成模型，其特征在于，在解码器输入端，融合了通过提取输入文本的关键词判别文本中的商品属性，确定问题的提问点，锁定文本生成问题的范围。

5.根据权利要求3所述的一种基于问题类型识别的问答对联合生成模型，其特征在于，编码器-解码器的初始化参数加载的是基于电商各领域的商品说明书的文本训练的BART预训练模型的参数。

6.根据权利要求5所述的一种基于问题类型识别的问答对联合生成模型，其特征在于，编码器和解码器都为6层，向量的维度为768；编码器部分具有双向表征的能力，用于抽取输入文本t的语义信息；解码器是一个从左到右的自回归语言模型，用于生成对应的问题；编码器的最后一层的输出要和解码器的每一层的输出计算cross-attention；通过注意力机制，获取输入文本中应该重点被关注的信息，用解码器生成问题；

编码器最后一层的输出，经过线性变换，得到能够表征输入信息的query和key矩阵，解码器最终在<EOS>处的输出，经过线性变化后，产生value矩阵；将query，key，value这三个矩阵输入到transformer的自注意力单元，将注意力单元的输出的结果输入到答案抽取模块，获取一对数字，表示答案在输入文本的开始和结束位置，该文本片段为最终的答案。