CN112115250A

CN112115250A - 一种问句自动生成方法及系统

Info

Publication number: CN112115250A
Application number: CN202011040840.2A
Authority: CN
Inventors: 周兴发; 方凡; 饶璐; 谭斌; 杨兰; 孙锐; 展华益
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2020-12-22

Abstract

本发明公开了一种问句自动生成方法，包括对原始数据进行语义向量初始化，得到数据语义初始化向量序列；根据数据语义初始化向量序列确定待提问目标的位置；对数据语义初始化向量序列和待提问目标的位置进行语义编码，得到数据语义编码加强后的向量序列；根据数据语义编码加强后的向量序列，确定问句类型；根据数据语义编码加强后的向量序列和问句类型，生成与待提问目标和问句类型相符合的问句。还公开了一种系统，包括数据初始化模块、位置确定模块、编码获取模块、问句类型选择模块和问句生成模块。本发明给定一个待提问的数据源，能自动生成高质量的与之相符合的问句，不受限于语法和语义的中间表示、转换规则或模板且不需要人工干预。

Description

一种问句自动生成方法及系统

技术领域

本发明涉及数据挖掘和数据处理技术领域，具体的说，是一种问句自动生成方法及问句生成系统。

背景技术

随着互联网的高速推进，对话系统，智慧教育等领域得到了极大的发展，人们对更流畅的对话过程以及挖掘有价值的问句有了进一步的要求。问句自动生成作为问答系统的一个逆向任务，具备提供大规模高质量问答对的潜质从而为问答系统提供流畅的问句回复；在智慧教育领域中，问句自动生成可以发掘有价值的待提问目标，同时生成与之相符合的问句，从而可以作为知识衡量评价的重要一环。

问句自动生成旨在发掘文本中待提问的目标，然后据此生成有价值的问句。现有技术中，问句自动生成的主流方法有基于规则的方法和基于神经网络的方法两类。

基于规则的方法通常根据数据源的特点，将输出语句转换为语法结构表示，利用结构表示匹配预先设计好的模板以语法和语义为依托，首先应用语法或语义解析，以获取中间符号表示；然后再问句生成部分采用transformation-或template-based方法将中间表示转换为自然语言问题。Transformation-based方法重排输入语句的表达形式(surfacefrom)以生成问句；Template-based方法从预定义的问句模板来生成问句。该方法实现简单，可定制，但同时问句的表示受限于语法和语义的中间表示、转换规则或模板；模板需要预定义，需要人工干预；依赖于词的句法角色，而非语义角色。

基于神经网络的方法主要利用深度学习中的Seq2Seq技术，自动生成问句。其允许在一个统一的框架里联合优化多个不同的问题，在此框架中，传统的parsing-based内容选择策略被attention机制和copy机制等更灵的方式替换；另外，问句生成完全数据驱动，相对于transformation规则不要求更多的人力，且比问句模板更具备语言灵活性(languageflexibility)。该方法无需预定义模块，鲁棒性较好，但是，其纯粹的基于编码解码端到端的方法，通常生成的问句与待提问目标无关或者问句类型不符合，生成问句的语言质量、问题质量仍有大量的提升空间。

发明内容

本发明的目的在于提供一种问句自动生成方法及系统，用于解决现有技术中基于规则的方法受限于语法和语义的中间表示、转换规则或模板以及需要人工干预的问题，以及基于神经网络的方法存在生成的问句与待提问目标无关或者问句类型不相符合的现象。

本发明通过下述技术方案解决上述问题：

一种问句自动生成方法，包括：

步骤S100：对原始数据进行语义向量初始化，得到数据语义初始化向量序列；

步骤S200：根据所述数据语义初始化向量序列确定待提问目标的位置；

步骤S300：对所述数据语义初始化向量序列和待提问目标的位置进行语义编码，得到数据语义编码加强后的向量序列；

步骤S400：根据所述数据语义编码加强后的向量序列和待提问目标的编码向量信息，确定问句类型；

步骤S500：根据所述数据语义编码加强后的向量序列和问句类型，生成与待提问目标和问句类型相符合的问句。

可选地，所述步骤S100具体包括：

步骤S110：对原始数据进行语义单元分割，将原始数据转换为语义单元序列数据；

步骤S120：对语义单元序列数据进行语义向量初始化，得到语义单元初始化向量；

步骤S130：使用语义向量融合方法对所述语义单元初始化向量进行融合，得到数据语义初始化向量序列。

可选地，所述步骤S200具体包括：

步骤S210：将所述数据语义初始化向量序列作为输入，带入第一语义编码网络中进行信息的前向传播，得到数据语义编码向量序列；第一语义编码网络包括但不限制为CNN、LSTM、GRU以及Bert等神经网络；

步骤S220：对所述数据语义编码向量序列进行序列标注，得到待提问目标的位置。

可选地，所述步骤S300具体包括：

步骤S310：根据待提问目标的位置提取待提问目标的语义编码序列；

步骤S320：将待提问目标的语义编码序列代入池化网络得到待提问目标的编码向量信息，数据语义编码向量序列的每个序列单元分别与待提问目标的语义编码序列进行编码对齐，得到对齐权重；

步骤S330：对待提问目标的语义编码序列加权求和，然后与待提问目标的编码向量信息一起串接到数据语义初始化向量序列对应的语义编码上，得到加强后的数据语义向量序列

可选地，所述步骤S400具体为：将数据语义编码加强后的向量序列输入问句类型判断网络，根据问句类型判断网络输出的问句类型概率分布，得到与待提问目标相符合的问句类型。问句类型判断网络可以是任何可对语义编码加强后的向量序列进行编码的神经网络模型，如LSTM+Softmax以及GRU+Softmax等等。

可选地，所述步骤S500具体包括：

步骤S510：初始化待提问目标的问句类型，得到问句类型编码向量；

步骤S520：使用第二语义编码网络对数据语义编码加强后的向量序列进行语义编码，得到数据的语义向量；第二语义编码网络可以为CNN、LSTM以及GRU等神经网络；

步骤S530：使用数据的语义向量作为解码网络的初始状态输入，问句类型编码向量和起始符SOS的初始化向量作为解码网络的初始输入向量，然后经解码网络迭代生成与待提问目标和问句类型相符合的问句。解码网络包括但不限于LSTM以及GRU等等。

一种问句自动生成系统，包括：

数据初始化模块，被配置成对原始数据进行语义单元分割得到语义单元序列数据，再对语义单元序列数据进行语义向量初始化得到语义单元初始化向量，融合语义单元初始化向量得到数据语义初始化向量序列；

位置确定模块，被配置成将数据语义初始化向量序列输入第一语义编码网络得到数据语义编码向量序列，再对所述数据语义编码向量序列进行序列标注，得到待提问目标的集合及待提问目标的位置；

编码获取模块，被配置成根据待提问目标的位置提取出待提问目标的语义编码序列信息，采用编码对齐网络，使数据语义编码向量序列与待提问目标的语义编码序列进行对齐；对待提问目标的语义编码序列加权求和，然后与待提问目标的编码向量信息一起串接到数据语义初始化向量序列对应的语义编码上；

问句类型选择模块，被配置成将数据语义编码加强后的向量序列输入问句类型判断网络，得到与待提问目标相符合的问句类型概率分布P，使用定义的问句类型选择函数选择与待提问目标相符合的最终问句类型；

问句生成模块，被配置成初始化待提问目标的问句类型得到问句类型编码向量；使用第二语义编码网络对数据语义编码加强后的向量序列进行语义编码，得到数据的语义向量；使用数据的语义向量作为解码网络的初始状态输入，问句类型编码向量和起始符SOS的初始化向量作为解码网络的初始输入向量，然后经解码网络迭代生成与待提问目标和问句类型相符合的问句。

本发明与现有技术相比，具有以下优点及有益效果：

本发明在给定一个待提问的数据源的基础上，能自动生成高质量的与之相符合的问题，解决了现有基于规则的方法受限于语法和语义的中间表示、转换规则或模板、需要人工干预，以及基于神经网络的方法生成的问句与待提问目标无关或者问句类型不相符合的问题。

附图说明

图1为本发明的流程图；

图2为本发明的系统框图。

具体实施方式

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例1：

结合附图1所示，一种问句自动生成方法，包括：

步骤S100：对原始数据进行语义向量初始化，得到数据语义初始化向量序列，具体包括：

步骤S120：使用语义单元向量初始化网络对语义单元序列数据进行语义向量初始化，得到语义单元初始化向量；

步骤S130：使用语义向量融合网络，对所述语义单元初始化向量进行融合，得到数据语义初始化向量序列。

所述分割的方法包括基于词的分割、基于字的分割以及基于N-1gram的分割。

例如针对原始文本数据:[成都是四川省的省会城市]，基于字的最小分割后的结果为：Tc＝[成,都,是,四,川,省,的,省,会,城,市]，基于词的一种分割结果为：Tw＝[成都,是,四川省,的,省会,城市]。针对Tw采用语义编码初始化后的结果为：V_w＝[v₀,v₁,v₂,v₃,v₄,v₅]，其中

i＝1,2,3,4,5；d为初始化向量的维度，

表示向量空间，V_w表示基于词的向量表示，同理Vc表示基于字的编码向量表示。

所述语义向量融合网络包括最大化融合、均值融合、加权求和融合以及由用户指定融合的函数进行融合；例如针对上述初始化结果V₀＝f_m(f_w(V_w)，f_c(V_c))，其中f_m表示融合函数，可以为最大化函数，均值函数，加权求和函数等；f_w，f_c为维度归一化函数，可以为卷积神经网络，长短时记忆网络(LSTM)等函数；

步骤S200：根据所述数据语义初始化向量序列确定待提问目标的位置，具体包括：

步骤S210：将所述数据语义初始化向量序列作为输入，带入第一语义编码网络中进行信息的前向传播，得到数据语义编码向量序列V₁；第一语义编码网络包括但不限制为CNN、LSTM、GRU以及Bert等神经网络；

步骤S220：对所述数据语义编码向量序列进行序列标注，得到待提问目标的位置，包括：将所述数据语义编码向量序列带入第一标注序列网络中得到待提问目标在上下文中的开始位置，同时把数据语义编码向量序列带入第二标注序列网络中得到待提问目标在上下文中的结束位置；第一标注序列网络、第二标注序列网络包括但不限于CRF和指针网络等序列标注方法。

步骤S300：对所述数据语义初始化向量序列和待提问目标的位置进行语义编码，得到数据语义编码加强后的向量序列V₂，具体包括：

步骤S330：对待提问目标的语义编码序列加权求和，然后与待提问目标的编码向量信息一起串接到数据语义初始化向量序列对应的语义编码上；

步骤S400：根据所述数据语义编码加强后的向量序列和待提问目标的编码向量信息，确定问句类型，具体为：

将数据语义编码加强后的向量序列和待提问目标的编码向量信息输入问句类型判断网络，按照概率进行随机掩码扰动后输入单层前馈神经网络，得到与待提问目标相符合的问句类型概率分布，根据问句类型判断网络输出的问句类型概率分布，得到与待提问目标相符合的问句类型。问句类型判断网络可以是任何可对语义编码加强后的向量序列进行编码的神经网络模型，如LSTM+Softmax以及GRU+Softmax等等。

例如与待提问目标相符合的问句类型概率分布为P，

其中r为问句类型个数。那么与待提问目标相符合的最终问句类型q＝max(P)或者其它包括但不限定于用户自定义的问句类型选取方式，如top K概率值最大的对应问句类型。

步骤S500：根据所述数据语义编码加强后的向量序列和问句类型，生成与待提问目标和问句类型相符合的问句，具体包括：

步骤S520：使用第二语义编码网络对数据语义编码加强后的向量序列进行语义编码，得到数据的语义向量；第二语义编码网络可以为CNN、LSTM以及GRU等神经网络

首先初始化待提问目标的问句类型q的问句类型编码向量为V_q，其中

m为V_q的向量维度；然后串联V_q到数据每一个序列语义编码V₂上，得到带有问句类型信息的数据语义编码序列V₃；然后使用V₃作为问句生成编码网络的输入，得到问句生成编码网络输出的编码序列向量V₄。其中，问句生成编码网络可以采用任何可以对序列向量进行处理的神经网络，比如卷积网络，LSTM，GRU，BERT等等；最后使用包括但不限于问句生成编码网络的编码序列向量最后一个向量作为问句生成的解码网络的初始化状态向量，问句类型编码向量和起始符SOS的初始化向量作为解码网络的初始输入向量，自动生成与待提问目标和问句类型相符合的问句。比如针对“成都是四川省的省会城市”这个上下文文本信息，可以提取出“成都”作为待提问目标，自动生成问句“成都是哪个省的省会？”；也可以提取出“四川省”作为待提问目标，自动生成问句“四川省的省会是哪个城市？”

实施例2：

结合附图2所示，一种问句自动生成系统，包括：

尽管这里参照本发明的解释性实施例对本发明进行了描述，上述实施例仅为本发明较佳的实施方式，本发明的实施方式并不受上述实施例的限制，应该理解，本领域技术人员可以设计出很多其他的修改和实施方式，这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims

1.一种问句自动生成方法，其特征在于，包括：

步骤S400：根据所述数据语义编码加强后的向量序列，确定问句类型；

2.根据权利要求1所述的一种问句自动生成方法，其特征在于，所述步骤S100具体包括：

3.根据权利要求1或2所述的一种问句自动生成方法，其特征在于，所述步骤S200具体包括：

步骤S210：将所述数据语义初始化向量序列作为输入，带入第一语义编码网络中进行信息的前向传播，得到数据语义编码向量序列；

4.根据权利要求3所述的一种问句自动生成方法，其特征在于，所述步骤S300具体包括：

步骤S330：对待提问目标的语义编码序列加权求和，然后与待提问目标的编码向量信息一起串接到数据语义初始化向量序列对应的语义编码上，得到加强后的数据语义向量序列。

5.根据权利要求1所述的一种问句自动生成方法，其特征在于，所述步骤S400具体为：将数据语义编码加强后的向量序列和待提问目标的编码向量信息输入问句类型判断网络，根据问句类型判断网络输出的问句类型概率分布，得到与待提问目标相符合的问句类型。

6.根据权利要求1所述的一种问句自动生成方法，其特征在于，所述步骤S500具体包括：

步骤S520：使用第二语义编码网络对数据语义编码加强后的向量序列进行语义编码，得到数据的语义向量；

步骤S530：使用数据的语义向量作为解码网络的初始状态输入，问句类型编码向量和起始符SOS的初始化向量作为解码网络的初始输入向量，然后经解码网络迭代生成与待提问目标和问句类型相符合的问句。

7.一种问句自动生成系统，其特征在于，包括：

问句生成模块，被配置成初始化待提问目标的问句类型得到问句类型编码向量；使用第二语义编码网络对数据语义编码加强后的向量序列进行语义编码，得到数据的语义向；使用数据的语义向量作为解码网络的初始状态输入，问句类型编码向量和起始符SOS的初始化向量作为解码网络的初始输入向量，然后经解码网络迭代生成与待提问目标和问句类型相符合的问句。