CN113627530B

CN113627530B - 相似问题文本生成方法、装置、设备及介质

Info

Publication number: CN113627530B
Application number: CN202110919070.7A
Authority: CN
Inventors: 蒋佳惟
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2023-09-15
Anticipated expiration: 2041-08-11
Also published as: CN113627530A

Abstract

本发明涉及智能决策领域，揭露一种相似问题文本生成方法，包括：对问题文本集执行文本遮蔽，并预测遮蔽后的文本集对应的预测文本集；选择预测准确度大于或等于预设阈值的预测文本集，并与所述问题文本集汇总，得到扩充样本集；将所述扩充样本集拆分得到验证样本集和训练样本集；利用所述训练样本集对待训练的相似问题生成模型进行训练，并利用所述验证样本集对待验证的所述相似问题生成模型进行验证微调，得到训练完成的相似问题生成模型；利用训练完成的所述相似问题生成模型预测用户输入的提问文本的提问标签，并查找与提问标签相同的相似文本集。本发明还揭露相似问题文本生成装置、设备以及介质。本发明可提高所生成的相似问题文本准确率。

Description

相似问题文本生成方法、装置、设备及介质

技术领域

本发明涉及智能决策技术领域，尤其涉及一种相似问题文本生成方法、相似问题文本生成装置、电子设备及计算机可读存储介质。

背景技术

检索式问答系统是现今常见的问答系统之一，检索式问答系统可以对输入的问题在原有问答库中查找最相似的问题，并返回该相似问题在现有问答库中的答案作为回答，因其稳定、可控的特性而广泛应用于业界之中。

但由于用户用词习惯或知识储备的不同，对于相同意思的问题，不同用户会采用不同的描述方式，或者输入的提问文本可能存在错字，少字，重字等，导致利用现有的机器学习算法基于用户输入的提问文本在原有问答库中查找最相似的问题时，所查找到的相似文本的准确率低，甚至与用户输入的提问文本不对应。

发明内容

本发明提供一种相似问题文本生成方法、装置、电子设备及计算机可读存储介质，其主要目的在于提高所生成的相似问题文本准确率。

为实现上述目的，本发明提供的一种相似问题文本生成方法，包括：

获取问题文本集，对所述问题文本集执行文本遮蔽，得到遮蔽文本集，利用预训练完成的Transformer模型，预测所述遮蔽文本集对应的预测文本集；

根据所述遮蔽文本集和所述问题文本集，计算所述预测文本集的预测准确度；

选择所述预测准确度大于或等于预设阈值的预测文本集，并汇总选择的所述预测文本集和所述问题文本集，得到扩充样本集；

将所述扩充样本集按照预设的比例拆分得到验证样本集和训练样本集；

利用所述训练样本集对待训练的相似问题生成模型进行训练，并对所述训练样本集进行标签预测，得到预测标签；

计算所述预测标签和所述训练样本集的真实问题标签的损失值，当所述损失值在预置阈值区间内时，得到待验证的相似问题生成模型；

利用所述验证样本集对待验证的所述相似问题生成模型进行验证微调，得到训练完成的相似问题生成模型；

获取用户输入的提问文本，利用训练完成的所述相似问题生成模型预测所述提问文本的提问标签，并根据所述提问标签在预设问答库中查找与所述提问文本具有相同标签的问题集，得到相似文本集。

可选地，所述对所述问题文本集执行文本遮蔽，得到遮蔽文本集，包括：

对所述问题文本集中每个问题文本执行预设数量的复制，并利用预先设置的静态遮蔽矩阵对复制的问题文本执行遮蔽操作，得到第一遮蔽文本集；

利用预先构建的随机矩阵生成器生成动态遮蔽矩阵，并利用所述动态遮蔽矩阵对复制的问题文本执行遮蔽操作，得到第二遮蔽文本集；

汇总所述第一遮蔽文本集及所述第二遮蔽文本集得到所述遮蔽文本集。

可选地，所述利用预先设置的静态遮蔽矩阵对复制后的每个问题文本执行遮蔽操作，之后还包括：

利用WORD2VEC算法，计算所述问题文本集中每个问题文本的位置向量，得到位置向量集；

将所述位置向量集嵌入至所述第一遮蔽文本集，得到包含位置信息的第一遮蔽文本集。

可选地，所述根据所述遮蔽文本集和所述问题文本集，计算所述预测文本集的预测准确度，包括：

从所述问题文本集中选择与所述遮蔽文本集中的遮蔽词语对应的问题词语；

从所述预测文本集中选择所述遮蔽词语对应的预测词语；

将所述问题词语与所述预测词语分别转为向量形式，得到问题向量与预测向量；

利用距离计算方法，计算所述问题向量与所述预测向量之间的准确度，根据计算出来的所述准确度，得到所述预测文本集的预测准确度。

可选地，所述利用所述训练样本集对待训练的相似问题生成模型进行训练，之前还包括：

获取开源词汇实体，利用所述开源词汇实体随机置换所述训练样本集中每个词语，并随机对所述训练样本集中每个词语进行位置置换，得到演变问题集；

将所述演变问题集加入至所述训练样本集。

可选地，所述利用预先设置的静态遮蔽矩阵对复制的问题文本执行遮蔽操作，之后还包括：

将所述位置向量集嵌入至所述第一遮蔽文本集。

可选地，所述所述获取问题文本集，包括。

从预构建的文本收集系统内提取问题文本集，将所述问题文本集推送至所述文本收集系统的系统操作人员；

接收所述系统操作人员根据所述问题文本集输入的真实问题标签集；

将所述真实问题标签集与所述问题文本集执行一一对应操作，得到具有真实问题标签的所述问题文本集。

为了解决上述问题，本发明还提供一种相似问题文本生成装置，所述装置包括：

样本扩充模块：用于获取问题文本集，对所述问题文本集执行文本遮蔽，得到遮蔽文本集，利用预训练完成的Transformer模型，预测所述遮蔽文本集对应的预测文本集；

训练集生成模块：用于根据所述遮蔽文本集和所述问题文本集，计算所述预测文本集的预测准确度，选择所述预测准确度大于或等于预设阈值的预测文本集，并汇总选择的所述预测文本集和所述问题文本集，得到扩充样本集，将所述扩充样本集按照预设的比例拆分得到验证样本集和训练样本集；

模型训练模块：用于利用所述训练样本集对待训练的相似问题生成模型进行训练，并对所述训练样本集进行标签预测，得到预测标签，计算所述预测标签和所述训练样本集的真实问题标签的损失值，当所述损失值在预置阈值区间内时，得到待验证的相似问题生成模型，利用所述验证样本集对待验证的所述相似问题生成模型进行验证微调，得到训练完成的相似问题生成模型；

文本回复模块：获取用户输入的提问文本，利用训练完成的所述相似问题生成模型预测所述提问文本的提问标签，并根据所述提问标签在预设问答库中查找与所述提问文本具有相同标签的问题集，得到相似文本集。

为了解决上述问题，本发明还提供一种电子设备，所述电子设备包括：

存储器，存储至少一个指令；及

处理器，执行所述存储器中存储的指令以实现上述中任意一项所述的相似问题文本生成方法。

为了解决上述问题，本发明还提供一种计算机可读存储介质，包括存储数据区和存储程序区，存储数据区存储创建的数据，存储程序区存储有计算机程序；其中，所述计算机程序被处理器执行时实现上述中任意一项所述的相似问题文本生成方法。

本发明实施例中首先对问题文本集进行文本扩充得到训练样本集，且相比于传统小范围的文本扩充方法，如文字置换、位置置换等，本发明利用遮蔽操作及预训练完成的Transformer模型，预测问题文本集中每个问题文本，可见扩大了文本扩充范围，提高了训练样本集的多样性，从而为后续相似问题生成模型的训练，提供了数据基础。另外，本发明按照预设的比例拆分得到验证样本集和训练样本集，由于扩充得到的训练样本集数量庞大，可解决相似问题生成模型训练因数据集过少产生过拟合现象，其次，本发明利用验证样本集调整相似问题生成模型的内部参数，可进一步提高模型对相似问题识别的准确度，因此本发明提出了一种相似问题文本生成方法、装备、电子设备以及存储介质可以解决所生成的相似问题文本准确率低，甚至与原问题文本不对应的问题。

附图说明

图1为本发明一实施例提供的相似问题文本生成方法的流程示意图；

图2为本发明一实施例提供的相似问题文本生成方法中S1的详细流程示意图；

图3为本发明一实施例提供的相似问题文本生成方法中S2的详细流程示意图；

图4为本发明一实施例提供的相似问题文本生成方法中S5的详细流程示意图；

图5为本发明一实施例提供的相似问题文本生成方法中S9的详细流程示意图；

图6为本发明一实施例提供的相似问题文本生成装置的模块示意图；

图7为本发明一实施例提供的实现相似问题文本生成方法的电子设备的内部结构示意图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例提供一种相似问题文本生成方法。所述相似问题文本生成方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之，所述相似问题文本生成方法可以由安装在终端设备或服务端设备的软件或硬件来执行，所述软件可以是区块链平台。所述服务端包括但不限于：单台服务器、服务器集群、云端服务器或云端服务器集群等。

参照图1所示的本发明一实施例提供的相似问题文本生成方法的流程示意图，在本发明实施例中，所述相似问题文本生成方法包括：

S1、获取问题文本集，对所述问题文本集执行文本遮蔽，得到遮蔽文本集，利用预训练完成的Transformer模型，预测所述遮蔽文本集对应的预测文本集。

本发明实施例中，所述问题文本集可通过预设的数据抓取工具从源网站中抓取得到，所述预设的数据抓取工具可以为Hawk数据抓取工具，所述源网站可以为不同领域的门户网站及专业网站，包括：金融类、法律类、医疗类、教育类、娱乐类、体育类等特定领域类网站。本发明实施例在抓取到问题文本集之后，进一步通过知识图谱获取所述问题文本集中每一个问题文本对应的真实问题标签，如抓取医疗器械类、机械工业等特定领域类的问题文本为【产品的等待期为多久】，则对应的所述真实问题标签获还包括【医疗】、【仪器】、【机床】、【期限】等。

本发明另一实施例中，所述获取问题文本集还可以包括：

将所述真实问题标签集与所述问题文本集执行一一对应，得到具有真实问题标签的所述问题文本集。

本发明较佳实施例中，所述文本收集系统可以是一种在线收集用户咨询、投诉等的信息采集系统，一般由软件开发人员开发、系统操作人员使用并面向用户。如医院为尽快了解患者的病情，开发出一套病情咨询APP，所述病情咨询APP即为本实施例所述的文本收集系统。

另外，本发明实施例利用系统操作人员，对文本收集系统内的问题文本集执行打标签操作，从而得到与问题文本集对应的标签集，如上述病情咨询APP收集到某患者输入的病情咨询文本：“最近头晕耳鸣，双脚无力，各个医院都看过了，但依然没有效果，想知道我的病康复期大约多少”，则系统操作人员输入的标签可以包括【医疗】、【期限】等。

进一步地，由于问题文本集中可能存在大量无意义的停用词、低频词等，且这类停用词、低频词对后续相似问题计算没有帮助的同时，还占用过多计算资源，因此在获取到问题文本集之后，该方法还可以包括：对所述问题文本集执行分词操作及去停用词操作，得到原始语句集；根据预构建的低频词汇表，清洗所述原始语句集中的低频词汇，得到高频语句表；按照所述高频语句表内每个高频语句在所述问题文本集中的位置，重新组合得到清理后的问题文本集。

其中，本发明较佳实施例可采用结巴分词算法执行所述分词操作，如上述病情咨询文本为：“最近头晕，双脚无力，各个医院都看过了，但依然没有效果，想知道我的病康复期大约多少”，通过所述结巴分词算法得到“最近”、“头晕”、“头晕”…“依然”…“了”…“多少”，并去除包括“了”等停用词，得到原始语句集。

进一步地，本发明实施例中，所述低频词汇表需根据实际应用场景构建，如在医疗领域中，“看过”包括“看过病”、“看过医院”、“看过医生等”，属于高频词语，但在其他领域中，“看过”一般为低频词语。进一步地，结合不同场景所构建得到的低频词汇表后，本发明实施例从所述原始语句集剔除出现在所述低频词汇表中的词语，得到高频语句表，并重新组合所述高频语句表中的词语，得到问题文本集。

进一步地，本发明实施例中，参阅图2所示，所述对所述问题文本集执行文本遮蔽，得到遮蔽文本集，包括：

S11、对所述问题文本集中每个问题文本执行预设数量的复制，并利用预先设置的静态遮蔽矩阵对复制的问题文本执行遮蔽操作，得到第一遮蔽文本集；

S12、利用预先构建的随机矩阵生成器生成动态遮蔽矩阵，并利用所述动态遮蔽矩阵对复制的问题文本执行遮蔽操作，得到第二遮蔽文本集；

S13、汇总所述第一遮蔽文本集及所述第二遮蔽文本集得到所述遮蔽文本集。

本发明实施例中，由于问题文本集的数据量不一定满足后续模型训练等要求，因此可设置将所述问题文本集中的每个问题文本复制10、20等预设数量的份数，以扩充所述问题文本集。

其中，所述预先构建的静态遮蔽矩阵可以为【1、0、0、1、0、0、0、1、1、1、】，其中数字“0”表示遮蔽，若问题文本为【该产品的等待期为多久】，则得到对应的第一遮蔽文本为：【该XX的XXX为多久】。

本发明较佳实施例中，因为问题文本集中每个问题文本均具有不同的叙述顺序，如【该产品的等待期为多久】及【产品什么时候可以面向市场】，虽然是同一种意思，但由于产品在问题文本中的叙述顺序不同，从而导致后续相似度计算时差异性较大，因此较佳地，需要对每个问题文本中的词语执行位置向量嵌入，从而解决因词语位置的不同，导致相似性计算产生误差。

进一步地，所述利用预先设置的静态遮蔽矩阵对复制的问题文本执行遮蔽操作之后，还可以包括：

将所述位置向量集嵌入至所述第一遮蔽文本集。

进一步地，所述动态遮蔽矩阵可以是随机生成，与静态遮蔽矩阵相似，所述动态遮蔽矩阵可以为【1、0、0、1、0、0、0、1、1、1、】、【0、1、1、1、0、0、0、1、1、0、】等，其中数字“0”依然表示遮蔽。不同的是，所述静态遮蔽矩阵中遮蔽的位置为固定，而动态遮蔽矩阵中遮蔽的位置为随机生成。

在本实施例中，利用随机矩阵生成器生成多个动态遮蔽矩阵对所述问题文本执行遮蔽可以最大可能的扩充文本。

进一步地，本发明实施例汇总所述第一遮蔽文本集和第二遮蔽文本集，得到所述遮蔽文本集，并利用当前已公开且预训练完成的Transformer模型，预测所述遮蔽文本集对应的预测文本集。

所述Transformer模型是是一种基于encoder-decoder结构，用于文本预测的模型。

如上述【该产品的等待期为多久】的遮蔽文本为【该XXX等待期X多久】，Transformer模型可根据XXX在问题文本集中的位置，实现智能预测，得到所述预测文本可能为【该商品的等待期大概有多久】。

S2、根据所述遮蔽文本集和所述问题文本集，计算所述预测文本集的预测准确度。

详细地，参阅图3所示，本发明实施例中，所述S2包括：

S21、从所述问题文本集中选择与所述遮蔽文本集中遮蔽词语对应的问题词语；

S22、从所述预测文本集中选择所述遮蔽词语对应的预测词语；

S23、将所述问题词语与所述预测词语分别转为向量形式，得到问题向量与预测向量；

本发明实施例可通过Word2Vec算法，将问题词语与预测词语转为向量形式

S24、利用距离计算方法，计算所述问题向量与所述预测向量之间的准确度，根据计算出来的所述准确度，得到所述预测文本集的预测准确度。

详细地，本发明实施例可以通过欧式距离等距离计算方法，计算所述问题向量与所述预测向量之间的准确度。

如问题文本为【该产品的等待期为多久】，遮蔽文本为【该XXX等待期X多久】，预测文本为【该商品的等待期大概为多久】，则计算问题词语“产品”与预测词语“商品”之间的准确度A1，以及问题词语“为”与预测词语“大概为”之间的准确度A2，并根据所述准确度A1以及准确度A2，得到所述预测文本集的预测准确度。其中，本发明实施例可以采用加权平均的方法根据计算出来的所有准确度，得到所述预测文本集的预测准确度。

S3、选择所述预测准确度大于或等于预设阈值的预测文本集，并汇总选择的所述预测文本集和所述问题文本集，得到扩充样本集。

本发明实施例中，所述预设阈值设定为[92％-95％]，如上述原始问题为【该产品的等待期为多久】，对应的遮蔽文本包括【该XX的等待期为XX】，预测文本为【该病房的等待期为多久】，由于“产品”被预测为“病房”，相似度相差较大，则剔除该预测文本。进一步地，将预测准确度大于或等于[92％-95％]的预测文本集，汇总至所述问题文本集进行文本扩充，得到扩充样本集。

且本发明实施例需说明的是，由于预测文本集与问题文本集相似度高，因此共同使用同一真实问题标签。

S4、将所述扩充样本集按照预设的比例拆分得到验证样本集和训练样本集。

在本实施例中，所述预设的比例设定可以为1:5或者2:3等，以对所述扩充样本集进行拆分，得到所述验证样本集和所述训练样本集。

另外，由于训练样本集在执行上述文本扩充后，依然可能存在训练集的数量不满足后续模型训练的情况，因此在本发明实施例中，所述将所述扩充样本集按照预设的比例拆分得到验证样本集和训练样本集之后，还包括：

获取开源词汇实体，利用所述开源词汇实体随机置换所述训练样本集中每个词语，并随机对所述训练样本集中每个语句进行位置置换，得到演变问题集；

将所述演变问题集加入至所述训练样本集。

详细的，在本实施例中，所述开源词汇实体包括中文通用百科知识图谱(CN-DBpedia)等数据集，CN-DBpedia主要从中文百科类网站(如百度百科、互动百科、中文维基百科等)的纯文本页面中提取实体词汇数据。

如原始问题为【某产品等待期为多久”】，使用获取的开源实体词汇【物品】、【商品】、【次品】任一一词置换【产品】一词后，得到如【某次品等待期为多久】，对其进行文本字符奇偶数计算，若文本字符为奇数，则使用中心字符为对称点进行首位字符置换；若文本字符数为偶数，则直接首位对称置换，如【某次品等待期为多久】进行文本对称置换为【期为多久待某次品等】，得到所述训练样本集中问题文本对应的伪问题。

S5、利用所述训练样本集对待训练的相似问题生成模型进行训练，并对所述训练样本集进行标签预测，得到预测标签。

本发明实施例中，所述待训练的相似问题生成模型由BERT算法、前馈注意力机制、全连接层及SoftMax激活函数组成。

具体的，参阅图4所示，所述S5包括：

步骤S51、利用word2vec算法，对所述训练样本集执行第一向量转化，得到初始训练向量集；

步骤S52、利用所述相似问题生成模型中的BERT算法，对所述初始训练向量集执行第二向量转化，得到训练向量集；

本发明实施例使用了两次向量转化，可以达到更精准的向量转化操作。

一可选的实施例中，所述word2vec算法可以通过当前已知的one-hot算法替换。

步骤S53、利用所述相似问题生成模型中的前馈注意力机制对所述训练向量集进行特征字符提取，得到特征字符向量集；

步骤S54、利用所述相似问题生成模型中的全连接层及SoftMax激活函数对所述特征字符向量集进行标签预测，得到候选预测标签。

详细的，对所述训练样本为【产品的等待期为多久】进行向量化操作后进行标签预测，得到所述候选预测标签为【期限】、【交货期】、【电子】、【仪器】等。

步骤S55、对所述候选预测标签进行预测置信值计算，从所述候选预测标签中选择所述预测置信度大于指定阈值的候选预测标签，得到所述预测标签。

详细的，在本实施例中，所述候选预测标签的预测置信度通过如下公式计算得到：

其中，P_j表示第j个候选预测标签的预测置信度，表示所述候选预测标签的回归函数，k表示所述候选预测标签的数量，W_j表示第j个所述候选预测标签，W_k表示第k个所述候选预测标签。

本发明实施例中，所述指定阈值一般设置为[90％-92％]，当预测置信值大于指定阈值时，对应的候选预测标签即为所述预测标签。

S6、计算所述预测标签和所述训练样本集的真实问题标签的损失值，并判断所述损失值在预置阈值区间内。

详细的，本发明实施例利用下述二分类交叉熵损失函数计算所述损失值：

所述表示所述预测标签，y表示所述真实问题标签，Loss为所述损失值。

进一步地，所述预置阈值区间为0.16～0.25。

当所述损失值不在所述预置阈值区间时，即若所述损失值大于0.25或者小于0.16时，执行S7、调整所述相似问题生成模型的参数，并返回上述的S5。

当所述损失值在所述预置阈值区间时，执行S8、停止所述相似问题生成模型的训练，得到待验证的相似问题生成模型。

S9、利用所述验证样本集对待验证的所述相似问题生成模型进行验证微调，得到训练完成的相似问题生成模型。

在本实施例中，为了使相似问题生成模型更加完善，需要利用所述验证样本集对所述相似问题生成模型进行验证操作，根据验证的结果对所述相似问题生成模型进行微调优化。

详细地，参阅图5所示，所述S9包括：

S90、利用待验证的所述相似问题生成模型预测所述验证样本集中每个验证样本的标签，汇总预测得到的所有的验证样本的标签，得到待验证标签集；

S91、根据所述验证样本集的真实问题标签，得到所述待验证标签集的分类准确率，并判断所述分类准确率是否大于预置分类阈值；

当所述分类准确率小于预置分类阈值时，对所述相似问题生成模型进行微调后，返回上述的S5。

所述分类准确率大于或者等于所述预置分类阈值时，执行S92、退出所述相似问题生成模型的验证过程，得到训练好的相似问题识别模型。

例如，所述验证样本集中一共包含1000个问题样本，这1000个问题样本中包含100个关于医疗产品功效类的问题文本、200个关于体育训练计划的问题文本、200个关于金融股票涨停时间的问题文本、200个关于国家重大政策的问题文本、200个关于地方交通路线的问题文本、200个关于旅游景点的问题文本。在利用验证样本集中的1000个问题文本对语言模型进行验证时，待验证的所述相似问题生成模型一共准确识别出720条问题文本所对应的问题标签，识别错误问题文本所对应的问题标签为280条，那么，该相似问题生成模型的分类准确率为72％。

进一步的，在本实施例中，所述预置分类阈值可以设置为90％。

进一步的，在本实施例中，当所述分类准确率小于预置分类阈值时，微调所述相似问题识别模型的模型内部参数，比如本发明实施例中，所述相似问题识别模型的内部参数包括权重集、偏置集等，其中所述权重集为将所述权重集调整为/>对所述权重集的微调数值为0.3。

S10、获取用户输入的提问文本，利用训练完成的所述相似问题生成模型预测所述提问文本的提问标签，并根据所述标签在预设问答库中查找与所述提问文本具有相同提问标签的问题集，得到相似文本集。

本发明实施例中首先对问题文本集进行文本扩充得到训练样本集，相比于传统小范围的文本扩充方法，本发明利用遮蔽操作及预训练完成的Transformer模型，预测问题文本集中每个问题文本，可见扩大了文本扩充范围，提高了训练样本集的多样性，从而为后续相似问题生成模型的训练，提供了数据基础。另外，本发明按照预设的比例拆分得到验证样本集和训练样本集，由于扩充得到的训练样本集数量庞大，可解决相似问题生成模型训练因数据集过少产生过拟合现象，其次，本发明利用验证样本集调整相似问题生成模型的内部参数，可进一步提高模型对相似问题识别的准确度，因此本发明提出了一种相似问题文本生成方法、装备、电子设备以及存储介质可以解决所生成的相似问题文本准确率低，甚至与原问题文本不对应的问题。

如图6所示，是本发明相似问题文本生成装置的模块示意图。

本发明所述相似问题文本生成装置100可以安装于电子设备中。根据实现的功能，所述相似问题文本生成装置可以包括样本扩充模块101、训练集生成模块102、模型训练模块103及文本回复模块104。本发所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块/单元的功能如下：

所述样本扩充模块101，用于获取问题文本集，对所述问题文本集执行文本遮蔽，得到遮蔽文本集，利用预训练完成的Transformer模型，预测所述遮蔽文本集对应的预测文本集；

所述训练集生成模块102，用于根据所述遮蔽文本集和所述问题文本集，计算所述预测文本集的预测准确度，选择所述预测准确度大于或等于预设阈值的预测文本集，并汇总选择的所述预测文本集和所述问题文本集，得到扩充样本集，将所述扩充样本集按照预设的比例拆分得到验证样本集和训练样本集；

所述模型训练模块103，用于利用所述训练样本集对待训练的相似问题生成模型进行训练，并对所述训练样本集进行标签预测，得到预测标签，计算所述预测标签和所述训练样本集的真实问题标签的损失值，当所述损失值在预置阈值区间内时，得到待验证的相似问题生成模型，利用所述验证样本集对待验证的所述相似问题生成模型进行验证微调，得到训练完成的相似问题生成模型；

所述文本回复模块104，用于获取用户输入的提问文本，利用训练完成的所述相似问题生成模型预测所述提问文本的提问标签，并根据所述提问标签在预设问答库中查找与所述提问文本具有相同标签的问题集，得到相似文本集。

本发明实施例所提供的相似问题文本生成装置100中的各个模块能够在使用时基于与上述的相似问题文本生成方法采用相同的手段，具体地实施步骤在此不再赘述，关于各模块/单元的功能所产生技术效果与上述的相似问题文本生成方法的技术效果相同的，即解决所生成的相似问题文本准确率低，甚至与原问题文本不对应的问题。

如图7所示，是本发明实现相似问题文本生成方法的电子设备的结构示意图。

所述电子设备可以包括处理器10、存储器11和通信接口13以及总线12，还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序，如相似问题文本生成程序。

其中，所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元，例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备，例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card，SMC)、安全数字(SecureDigital，SD)卡、闪存卡(Flash Card)等。进一步地，所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据，例如相似问题文本生成程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器10在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器11内的程序或者模块(例如执行相似问题文本生成程序等)，以及调用存储在所述存储器11内的数据，以执行电子设备的各种功能和处理数据。

所述通信接口13可以是外设部件互连标准(peripheral componentinterconnect，简称PCI)接口或扩展工业标准结构(extended industry standardarchitecture，简称EISA)接口等。所述通信接口13被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。

图7仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图7示出的结构并不构成对所述电子设备的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管未示出，所述电子设备还可以包括给各个部件供电的电源(比如电池)，优选地，电源可以通过电源管理装置与所述至少一个处理器10逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

进一步地，所述电子设备还可以包括网络接口，可选地，所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等)，通常用于在该电子设备与其他电子设备之间建立通信连接。

可选地，该电子设备还可以包括用户接口，用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard))，可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

所述电子设备中的所述存储器11存储的相似问题文本生成程序是多个指令的组合，在所述处理器10中运行时，可以实现：

进一步地，所述电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

进一步地，所述计算机可用存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明还提供一种计算机可读存储介质，所述可读存储介质存储有计算机程序，所述计算机程序在被电子设备的处理器所执行时，可以实现：

在本发明所提供的几个实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图表记视为限制所涉及的权利要求。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种相似问题文本生成方法，其特征在于，所述方法包括：

2.如权利要求1所述的一种相似问题文本生成方法，其特征在于，所述对所述问题文本集执行文本遮蔽，得到遮蔽文本集，包括：

3.如权利要求2所述的一种相似问题文本生成方法，其特征在于，所述利用预先设置的静态遮蔽矩阵对复制的问题文本执行遮蔽操作，之后还包括：

4.如权利要求1所述的相似问题文本生成方法，其特征在于，所述根据所述遮蔽文本集和所述问题文本集，计算所述预测文本集的预测准确度，包括：

从所述问题文本集中选择与所述遮蔽文本集中遮蔽词语对应的问题词语；

从所述预测文本集中选择所述遮蔽词语对应的预测词语；

5.如权利要求1所述的相似问题文本生成方法，其特征在于，所述利用所述训练样本集对待训练的相似问题生成模型进行训练，之前还包括：

将所述演变问题集加入至所述训练样本集。

6.如权利要求1至5中任意一项的所述相似问题文本生成方法，其特征在于，所述获取问题文本集，包括：

7.一种相似问题文本生成装置，其特征在于，包括：

8.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至6中任意一项所述的相似问题文本生成方法。

9.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任意一项所述的相似问题文本生成方法。