CN111737449A

CN111737449A - 相似问题的确定方法和装置、存储介质及电子装置

Info

Publication number: CN111737449A
Application number: CN202010764803.XA
Authority: CN
Inventors: 周辉阳; 闫昭
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-03
Filing date: 2020-08-03
Publication date: 2020-10-02
Anticipated expiration: 2040-08-03
Also published as: CN111737449B

Abstract

本发明公开了一种相似问题的确定方法和装置、存储介质及电子装置。其中，该方法包括：将第一问题输入到第一目标神经网络模型，得到与第一问题的语义相似度大于第一预设阈值的第二问题集合；将第一问题和第一答案输入到第二目标神经网络模型，得到与第一问题的语义相似度大于第二预设阈值的第三问题集合；在第二问题集合和第三问题集合中确定目标问题子集，其中，所述目标问题子集中的问题为所述第一问题的相似问题。本发明解决了语料数量和质量较低的技术问题。

Description

相似问题的确定方法和装置、存储介质及电子装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种相似问题的确定方法和装置、存储介质及电子装置。

背景技术

在问答领域的建设过程之中，语料是非常重要的核心资产。有了语料才能训练一个好的模型，让属于这个领域的语料都能被模型识别出来。对于问答型的任务，问答对语料的数量就更加的重要，更多的语料就能让产品更加的智能化，能回答用户各种千奇百怪的问题。所以不难发现，问答语料的数量和质量对于问答领域的端到端影响和用户的体验是起了决定影响力的，对问答型的任务是显得尤其重要，语料的数量指的是语料要够多，数量要够大，语料的质量指的是语料的质量要好，要能包含用户的各种方式的问法。

现有技术向用户推荐相关问题的时候，通常是采用检索式的召回推荐，一般是通过搜索引擎进行检索、召回，然后推荐。比如，用户输入了一个问答对（问题：飞机航行灯如何分布答案：xxxx），通常会到数据库中进行检索，看看数据库中有哪些相似的问题，可以推荐给企业用户。

但是检索的方式存在以下问题：1、自建的问答对数据库需要时间积累，需要花费大量的人力，物力和财力。2、对于一些重要的企业级问题可能是加密的，例如有些关键字在企业内是加密的，对于这些问题和答案是无法获取到的，使得自建的问答对数据库中的问答对不够全面。3、自建的问答对数据库中的相似问题大部分是字符的差异，无法满足用户对多样化语句的需求（用户期望的是字符差别比较大，但是语义是同一个意思的问法）。

针对相关技术中，语料数量和质量较低的问题目前尚未存在有效解决方案。

发明内容

本发明实施例提供了一种相似问题的确定方法和装置、存储介质及电子装置，以至少解决语料数量和质量较低的技术问题。

根据本发明实施例的一个方面，提供了一种相似问题的确定方法，包括：将第一问题输入到第一目标神经网络模型，得到与所述第一问题的语义相似度大于第一预设阈值的第二问题集合，其中，所述第一目标神经网络模型是使用第一训练数据集对第一初始神经网络模型训练得到的模型，所述第一训练数据集包括第一训练问题集合；将所述第一问题和第一答案输入到第二目标神经网络模型，得到与所述第一问题的语义相似度大于第二预设阈值的第三问题集合，其中，所述第一答案为所述第一问题的答案，所述第二目标神经网络模型是使用第二训练数据集对第二初始神经网络模型训练得到的模型，所述第二训练数据集包括：具有对应关系的第二训练问题集合和第二训练答案集合；在所述第二问题集合和所述第三问题集合中确定目标问题子集，其中，所述目标问题子集中的问题为所述第一问题的相似问题。

根据本发明实施例的另一方面，还提供了一种相似问题的确定装置，包括：第一输入模块，用于将第一问题输入到第一目标神经网络模型，得到与所述第一问题的语义相似度大于第一预设阈值的第二问题集合，其中，所述第一目标神经网络模型是使用第一训练数据集对第一初始神经网络模型训练得到的模型，所述第一训练数据集包括第一训练问题集合；第二输入模块，用于将所述第一问题和第一答案输入到第二目标神经网络模型，得到与所述第一问题的语义相似度大于第二预设阈值的第三问题集合，其中，所述第一答案为所述第一问题的答案，所述第二目标神经网络模型是使用第二训练数据集对第二初始神经网络模型训练得到的模型，所述第二训练数据集包括：具有对应关系的第二训练问题集合和第二训练答案集合；确定模块，用于在所述第二问题集合和所述第三问题集合中确定目标问题子集，其中，所述目标问题子集中的问题为所述第一问题的相似问题。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述相似问题的确定方法。

根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过所述计算机程序执行上述的相似问题的确定方法。

在本发明实施例中，采用将第一问题输入到第一目标神经网络模型，得到与所述第一问题的语义相似度大于第一预设阈值的第二问题集合；将第一问题和第一答案输入到第二目标神经网络模型，得到与所述第一问题的语义相似度大于第二预设阈值的第三问题集合；在第二问题集合和第三问题集合中确定目标问题子集，其中，目标问题子集中的问题为第一问题的相似问题。达到了通过第一目标神经网络模型和第二神经网络模型确定与第一问题的语义相似的目标问题集合的目的，从而实现了增加相似问题的数量，保证相似问题质量的技术效果，进而解决了语料数量和质量较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的相似问题的确定方法的硬件环境的示意图；

图2是根据本发明实施例的相似问题的确定方法的流程图；

图3是根据本发明一个可选实施例的相似问题的确定方法的第一显示界面示意图；

图4是根据本发明一个可选实施例的相似问题的确定方法的第二显示界面示意图；

图5是根据本发明一个可选实施例的相似问题的确定方法的第三显示界面示意图一；

图6是根据本发明一个可选实施例的相似问题的确定方法的第三显示界面示意图二；

图7是根据本发明一个可选实施例的相似问题的确定方法的第四显示界面示意图；

图8是根据本发明一个可选实施例的相似问题的确定方法的体流程图；

图9是根据本发明实施例的相似问题的确定装置的结构框图；

图10是根据本发明实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种相似问题的确定方法，可选地，作为一种可选的实施方式，上述相似问题的确定方法可以但不限于应用于如图1所示的环境中。

可选地，在本实施例中，上述用户设备可以是配置有目标客户端的终端设备，可以包括但不限于以下至少之一：手机（如Android手机、iOS手机等）、笔记本电脑、平板电脑、掌上电脑、MID（Mobile Internet Devices，移动互联网设备）、PAD、台式电脑、智能电视等。目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端等。上述网络可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器。上述仅是一种示例，本实施例中对此不作任何限定。

可选地，作为一种可选的实施方式，如图2所示，上述相似问题的确定方法包括：

步骤S202，将第一问题输入到第一目标神经网络模型，得到与所述第一问题的语义相似度大于第一预设阈值的第二问题集合，其中，所述第一目标神经网络模型是使用第一训练数据集对第一初始神经网络模型训练得到的模型，所述第一训练数据集包括第一训练问题集合；

步骤S204，将所述第一问题和第一答案输入到第二目标神经网络模型，得到与所述第一问题的语义相似度大于第二预设阈值的第三问题集合，其中，所述第一答案为所述第一问题的答案，所述第二目标神经网络模型是使用第二训练数据集对第二初始神经网络模型训练得到的模型，所述第二训练数据集包括：具有对应关系的第二训练问题集合和第二训练答案集合；

步骤S206，在所述第二问题集合和所述第三问题集合中确定目标问题子集，其中，所述目标问题子集中的问题为所述第一问题的相似问题。

作为一个可选的实施方式，上述第一目标神经网络模型和第二目标神经网络模型可以是QG模型，第一目标神经网络模型和第二目标神经网络模型构成双QG模型。其中，第一目标神经网络模型可以是

的QG模型，第二目标神经网络模型可以是

，其中，

表示问题，

表示

的相似问题，A表示答案。

作为一个可选的实施方式，QG模型的输入一般是一段文字或者一篇文档，外加一些答案，输出就是针对这些答案而生成的对应的问题。举个例子：现在有一段文字“XX出生于香港新界，在家中排行老四，在老师AA的指导下学习戏剧方面的知识。此外，他还参与包括编剧在内的幕后制作。”，将其中的“AA”标注出来，作为答案，若模型可以针对“AA”能提出问题。那QG模型的输出可能就是：“XX在戏剧方面的老师是谁”，基于

的第一目标神经网络模型和基于

都采用了QG迁移学习的方法。

作为一个可选的实施方式，基于

的第一目标神经网络模型，可以将第一问题作为输入，将与第一问题相似的第二问题集合作为输出。在预测的时候，当用户输入一个问题，输出就是多个与该问题相似的同语义问题，多个与该问题相似的同语义问题所组成的问题集合为第二问题集合。第二问题集合中所包括的多个相似的同语义问题的数量是可以设置的，具体的数量可以根据实际情况而定，例如可以是50、80等。与第一问题的语义相似度的第一预设阈值也是可以根据实际情况而定的，例如可以是0.8、0.9等。

作为一个可选的实施方式，基于

的第二目标神经网络模型，可以将第一问题和第一问题的答案第一答案Q+A作为第二目标神经网络模型的输入。在预测的时候，当用户输入一个问答对之后，我们就把问题Q和对应的答案A作为第二目标神经网络模型的输入，然后输出得到问题Q同语义的多个问题，多个问题所构成的问题集合为第三问题集合。第三问题集合中所包括的多个相似的同语义问题的数量是可以设置的，具体的数量可以根据实际情况而定，例如可以是50、80等。与第一问题的语义相似度的第二预设阈值也是可以根据实际情况而定的，可以与第一预设阈值等，也可以不等。例如可以是0.7、0.8、0.9等。

作为一个可选的实施是方式，通过基于

的第一目标神经网络模型得到与第一问题相似的第二问题集合，基于

的第二目标神经网络模型得到与第一问题相似的第三问题集合。在第二问题集合和第三问题集合确定出目标问题子集中的问题为第一问题的相似问题。

通过上述步骤，从

模型中，可以得到同义词和/或语句的顺序改写的相似问题。从模型

中，由于生成的问题

是利用了答案信息的，也就是说这里的生成的问题结合的答案的内容，参考的内容更多，得到问题的多样性就会扩展。双QG模型得到的相似问题的数量能够得到保障，并且

模型是问题和问题的答案训练得到的，参考的内容更多，得到的相似问题更具有多样性，保证了相似问题的质量。

可选地，在所述第二问题集合和所述第三问题集合中确定目标问题子集，包括：在所述第二问题集合和所述第三问题集合中确定第一目标问题子集，其中，所述目标问题子集包括所述第一目标问题子集，所述第一目标问题子集中每个目标问题之间的编辑距离大于或等于预设编辑距离阈值，且所述每个目标问题与所述第一问题的编辑距离大于或等于所述预设编辑距离阈值。

作为一个可选的实施方式，为了提供语义都是同一个意思的多样性同语义问法，而不是给用户推荐一些只是在字符上差异的相同的问法，需要限定推荐的多样性，也就是要筛选问题。在本实施例中，采用编辑距离的算法来衡量每个问题之间的差距。编辑距离是指两个字串之间由一个转成令一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成令一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个字符串的相似度越大。

作为一个可选的实施方案，假设用户输入的一个问答对，分别用两个QG模型生成了50条和50条的相似问法（总共100条数据）。假设需要给用户推荐5条相似问答，分别用编辑距离来判定生成的问题之间的差别。假设与预先设定预设编辑距离为4，则每个相似问题之间的编辑距离要大于4。首先找到一个和用户输入问题的编辑距离大于4的问答，然后下一个问法需要和这两个问法的编辑距离都大于4，其余的以此类推，直到拿到候选的5个问题终止。这样推荐给用户的数据就显得语义又是同样的，但是字符级别的差距很大，也就是我们通常所说的不同的问法。以此避免了推荐的相似问题仅是字符上的差异，达到了在语义相似的前提下，丰富了相似问题的多样性。需要说明的是，本实施例中的举例仅为了说明本申请，具体的编辑距离，生成相似问题的数量可以根据实际情况而定。

可选地，在所述将第一问题输入到第一目标神经网络模型之前，所述方法包括：在第一显示界面上获取所述第一问题和所述第一答案，其中，所述第一显示界面中设置有第一编辑区域，所述第一编辑区域用于指示输入问答对，所述问答对包括由所述第一问题和所述第一答案组成的第一问答对；在所述第一显示界面上获取添加指令的情况下，将所述第一问答对添加的预设数据库，其中，所述预设数据库中存储了多组问答对，所述多组问答对中的每组问答对包括一个答案和至少一个问题。

作为一个可选的实施方式，可以通过如图3所示的第一显示界面上获取第一问题和第一答案。第一显示界面可以是应用客户端的显示界面，也可以是网页的显示界面。在第一显示界面中设置有问题和答案的编辑区域，用户可以再编辑区域内输入问题和相应的答案，用户输入的问题和答案组成一对问答对。如图3所示，第一显示界面上还设置有添加标识，当接收到触控添加标识的添加指令的情况下，可以将用户输入的问题和答案关联存储在数据库中。

可选地，在所述将第一问题输入到第一目标神经网络模型之前，所述方法还包括：将所述第一训练问题集合输入到所述第一初始神经网络模型，得到第一预估问题集合，其中，所述第一训练问题集合包括所述预设数据库中存储的第一问答对集合中的问题，所述第一训练数据集还包括所述预设数据库中与所述第一训练问题集合中的问题的语义相似度大于所述第一预设阈值的第三训练问题集合；在所述第一预估问题集合与所述第三训练问题集合之间的第一损失函数满足第一收敛条件时，结束对所述第一初始神经网络模型的训练，得到所述第一目标神经网络模型，其中，所述第一收敛条件用于表示所述第一损失函数的输出值在第一预定范围内。

作为一个可选的实施方式，可以使用数据库中存储的问题和对应的答案对第一初始神经网络模型和第二初始神经网络模型进行训练。数据库中存储了问题和对应的答案，每个答案可以对应于多个问题。例如答案1可以对应于问题1、问题2、问题3、问题4。答案2可以对应于问题5、问题6、问题7。在数据库中问题和对应答案的存储方式可以如表1所示。

作为一个可选的实施方式，可以将答案1对应的问题1、问题2作为待预测问题，问题3和问题4作为验证问题，也就是说将问题1、问题2作为第一训练问题集合输入至第一初始神经网络模型，得到第一初始神经网络模型输出的与问题1和问题2相似的预估问题11和问题21，也就是说问题11和问题21为第一初始神经网络模型输出的第一预估问题集合。通过问题3和问题4对问题11和问题21进行验证，当问题11与问题3之间的第一损失函数满足第一收敛条件，问题4与问题21之间的第一损失函数满足第一收敛条件，则确定已训练好第一目标神经网络模型。需要说明的是，在本实施例中所举的问题和答案均为说明本申请，在此不作限定。具体第一训练问题集合和第三训练问题集合中所包括的问题和答案可以根据实际情况选取。

作为一个可选的实施方式，第一损失函数可以是交叉熵函数，或者是现有技术的神经网络模型中所使用的损失函数，第一预定范围可以根据实际情况而定，例如可以是0.1、0.01等。

作为一个可选的实施方式，在所述第一预估问题集合与所述第三训练问题集合之间的第一损失函数不满足所述第一收敛条件时，调整所述第一初始神经网络模型中的训练参数，以使所述第一初始神经网络模型输出的第三预估问题集合与所述第三训练问题集合之间的第一损失函数满足第一收敛条件，结束对所述第一初始神经网络模型的训练，得到所述第一目标神经网络模型，其中，所述第一收敛条件用于表示所述第一损失函数的输出值在第一预定范围内。在本实施例中，第一目标神经网络模型是通过机器学习重复训练得到的，在训练的过程中反复调整模型的训练参数，直到训练好的模型输出的预估问题与已知问题之间的损失函数满足收敛条件。

可选地，在所述将所述第一问题和第一答案输入到第二目标神经网络模型之前，所述方法还包括：将具有对应关系的所述第二训练问题集合和所述第二训练答案集合输入到所述第二初始神经网络模型，得到第二预估问题集合，其中，所述具有对应关系的所述第二训练问题集合和所述第二训练答案集合包括所述预设数据库中存储的第二问答对集合中的问答对，所述第二训练数据集还包括所述预设数据库中与所述第二训练问题集合中的问题的语义相似度大于所述第二预设阈值的第四训练问题集合；在所述第二预估问题集合与所述第四训练问题集合之间的第二损失函数满足第二收敛条件时，结束对所述第二初始神经网络模型的训练，得到所述第二目标神经网络模型，其中，所述第二收敛条件用于表示所述第二损失函数的输出值在第二预定范围内。

作为一个可选的实施方式，可以使用数据库中存储的问答对训练第二初始神经网络模型，以得到第二目标神经网络模型。以数据库中存储如表1中所示的问答对为例进行说明。选取问题1、问题2作为第二训练问题集合中的问题，与问题1和问题2对应的答案1作为第二训练答案集合中的答案。将问题1和问题2对应的答案1作为第二初始神经网络模型的输入，得到第二初始神经网络模型输出的第二预估问题集合问题12和问题22。将数据库中存储的问题3和问题4作为第四训练问题集合中的验证问题。通过问题3和问题4对第二初始神经网络模型输出的问题12和问题22进行验证。在到第二初始神经网络模型输出的预估问题12与问题3、问题22与问题4的损失函数满足收敛条件的情况下，确定第二目标神经网络模型训练完成。第二收敛条件表示所述第二损失函数的输出值在第二预定范围内，第二损失函数可以是交叉熵函数，或者是现有技术中常用的神经网络模型的损失函数。第二预定范围可以根据实际情况而定，例如可以是0.1、0.11等。本实施例中所举第二训练问题集合和所述第二训练答案集合等均为了说明本申请，在此不作限定。

可选地，所述在所述第二问题集合和所述第三问题集合中确定目标问题子集之后，包括：在第二显示界面上显示所述目标问题子集，其中，所述目标问题子集被标识为推荐的所述第一问题的相似问题。

作为一个可选的实施方式，在点击图3所示的添加标识后，用户输入的问题和答案可以对应存储到后台数据库中。本实施例的目的是用户输入完了一个问答对之后，能针对该用户的真实意图，进行问题的扩展推荐，并保证问法的多样性。后台服务器通过上述第一目标神经网络模型和第二目标神经网络模型确定出与用户输入的问题的相似问题后，可以将相似问题显示在如图4所示的界面中，以通过显示界面向用户推荐与用户输入的相似问题。

可选地，在第二显示界面上显示所述目标问题子集之后，所述方法还包括：在第三显示界面上获取融合指令，所述融合指令用于指示将所述目标问题子集和所述第一问题融合为与所述第一答案对应的第一问题集合；将所述第一问题集合和所述第一答案关联存储在所述预设数据库。

作为一个可选的实施方式，在向用户推荐相似问题后，用户可以根据需求确定对推荐的问题是否满意，在满意的情况下，用户可以通过如图5和图6所示的显示界面上对推荐的问题进行融合。并将融合后的问题对应存储于数据库中。在本实施例中，假设用户输入的问题7和答案7。后台服务器通过双QG模型得到的推荐问题为问题8、问题9和问题10后，在显示界面中可以显示推荐的相似问题8、问题9和问题10。用户可以在问题8、问题9和问题10中选择需要融合的问题，若用户选择了问题8进行融合，则将问题7、问题8和对应的答案7关联存储在数据库中。在本实施例中，在问题融合后，可以将问题和对应答案的更新时间显示的显示界面。

可选地，在所述将所述第一问题集合和所述第一答案关联存储在所述预设数据库之后，所述方法还包括：在第四显示界面上获取检索指令，所述检索指令用于指示检索目标问题的答案，所述目标问题为所述目标问题子集中的任一问题；确定所述第一答案为所述目标问题的答案，并将所述第一答案显示在第五显示界面。

作为一个可选的实施方式，在确定出与第一问题的相似问题集合后，若用户在如图7所示的显示界面的搜索框中输入相似问题集合中的任一问题，则将与第一问题对应的第一答案作为用户搜索问题的答案。例如，问题1对应的答案为答案1，若通过双QG模型确定与问题1相似的问题为问题2和问题3。那么当用户输入问题2或问题3时，将答案1作为问题2或问题3的答案。

作为一个可选的实施方式，如图8所示为一个可选实施例的整体流程图，在本实施例中，采用双QG生成模型，基于

的QG生成模型可以对用户输入的问题进行改写，通过同义词发现和语句的顺序改写得到与用户输入问题的相似问题。基于

的QG生成模型所生成的相似问是利用了答案信息的，也就是说这里的生成的问题可能还是结合的答案的内容，所参考的内容更多，得到问题的多样性就会扩展。本申请利用双QG生成模型各自的优点相互补充，得到更加完善的生成结果。达到了在满足语料数量的前提下，满足语料质量的技术效果。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述相似问题的确定方法的相似问题的确定装置。如图9所示，该装置包括：第一输入模块902，用于将第一问题输入到第一目标神经网络模型，得到与所述第一问题的语义相似度大于第一预设阈值的第二问题集合，其中，所述第一目标神经网络模型是使用第一训练数据集对第一初始神经网络模型训练得到的模型，所述第一训练数据集包括第一训练问题集合；第二输入模块904，用于将所述第一问题和第一答案输入到第二目标神经网络模型，得到与所述第一问题的语义相似度大于第二预设阈值的第三问题集合，其中，所述第一答案为所述第一问题的答案，所述第二目标神经网络模型是使用第二训练数据集对第二初始神经网络模型训练得到的模型，所述第二训练数据集包括：具有对应关系的第二训练问题集合和第二训练答案集合；确定模块906，用于在所述第二问题集合和所述第三问题集合中确定目标问题子集，其中，所述目标问题子集中的问题为所述第一问题的相似问题。

可选地，所述确定模块包括：确定单元，用于在所述第二问题集合和所述第三问题集合中确定第一目标问题子集，其中，所述目标问题子集包括所述第一目标问题子集，所述第一目标问题子集中每个目标问题之间的编辑距离大于或等于预设编辑距离阈值，且所述每个目标问题与所述第一问题的编辑距离大于或等于所述预设编辑距离阈值。

可选地，上述装置还用于在所述将第一问题输入到第一目标神经网络模型之前，在第一显示界面上获取所述第一问题和所述第一答案，其中，所述第一显示界面中设置有第一编辑区域，所述第一编辑区域用于指示输入问答对，所述问答对包括由所述第一问题和所述第一答案组成的第一问答对；在所述第一显示界面上获取添加指令的情况下，将所述第一问答对添加的预设数据库，其中，所述预设数据库中存储了多组问答对，所述多组问答对中的每组问答对包括一个答案和至少一个问题。

可选地，上述装置还用于在所述将第一问题输入到第一目标神经网络模型之前，将所述第一训练问题集合输入到所述第一初始神经网络模型，得到第一预估问题集合，其中，所述第一训练问题集合包括所述预设数据库中存储的第一问答对集合中的问题，所述第一训练数据集还包括所述预设数据库中与所述第一训练问题集合中的问题的语义相似度大于所述第一预设阈值的第三训练问题集合；在所述第一预估问题集合与所述第三训练问题集合之间的第一损失函数满足第一收敛条件时，结束对所述第一初始神经网络模型的训练，得到所述第一目标神经网络模型，其中，所述第一收敛条件用于表示所述第一损失函数的输出值在第一预定范围内。

可选地，上述装置还用于在所述将所述第一问题和第一答案输入到第二目标神经网络模型之前，将具有对应关系的所述第二训练问题集合和所述第二训练答案集合输入到所述第二初始神经网络模型，得到第二预估问题集合，其中，所述具有对应关系的所述第二训练问题集合和所述第二训练答案集合包括所述预设数据库中存储的第二问答对集合中的问答对，所述第二训练数据集还包括所述预设数据库中与所述第二训练问题集合中的问题的语义相似度大于所述第二预设阈值的第四训练问题集合；在所述第二预估问题集合与所述第四训练问题集合之间的第二损失函数满足第二收敛条件时，结束对所述第二初始神经网络模型的训练，得到所述第二目标神经网络模型，其中，所述第二收敛条件用于表示所述第二损失函数的输出值在第二预定范围内。

可选地，上述装置还用于所述在所述第二问题集合和所述第三问题集合中确定目标问题子集之后，在第二显示界面上显示所述目标问题子集，其中，所述目标问题子集被标识为推荐的所述第一问题的相似问题。

可选地，上述装置还用于在第二显示界面上显示所述目标问题子集之后，在第三显示界面上获取融合指令，所述融合指令用于指示将所述目标问题子集和所述第一问题融合为与所述第一答案对应的第一问题集合；将所述第一问题集合和所述第一答案关联存储在所述预设数据库。

可选地，上述装置还用于在所述将所述第一问题集合和所述第一答案关联存储在所述预设数据库之后，所述方法还包括：在第四显示界面上获取检索指令，所述检索指令用于指示检索目标问题的答案，所述目标问题为所述目标问题子集中的任一问题；确定所述第一答案为所述目标问题的答案，并将所述第一答案显示在第五显示界面。

根据本发明实施例的又一个方面，还提供了一种用于实施上述相似问题的确定方法的电子设备，该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为相似问题的确定为例来说明。如图10所示，该电子设备包括存储器1002和处理器1004，该存储器1002中存储有计算机程序，该处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，将第一问题输入到第一目标神经网络模型，得到与所述第一问题的语义相似度大于第一预设阈值的第二问题集合，其中，所述第一目标神经网络模型是使用第一训练数据集对第一初始神经网络模型训练得到的模型，所述第一训练数据集包括第一训练问题集合；

S2，将所述第一问题和第一答案输入到第二目标神经网络模型，得到与所述第一问题的语义相似度大于第二预设阈值的第三问题集合，其中，所述第一答案为所述第一问题的答案，所述第二目标神经网络模型是使用第二训练数据集对第二初始神经网络模型训练得到的模型，所述第二训练数据集包括：具有对应关系的第二训练问题集合和第二训练答案集合；

S3，在所述第二问题集合和所述第三问题集合中确定目标问题子集，其中，所述目标问题子集中的问题为所述第一问题的相似问题。

可选地，本领域普通技术人员可以理解，图10所示的结构仅为示意，电子装置电子设备也可以是智能手机（如Android手机、iOS手机等）、平板电脑、掌上电脑以及移动互联网设备（Mobile Internet Devices，MID）、PAD等终端设备。图10其并不对上述电子装置电子设备的结构造成限定。例如，电子装置电子设备还可包括比图10中所示更多或者更少的组件（如网络接口等），或者具有与图10所示不同的配置。

其中，存储器1002可用于存储软件程序以及模块，如本发明实施例中的相似问题的确定方法和装置对应的程序指令/模块，处理器1004通过运行存储在存储器1002内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的相似问题的确定方法。存储器1002可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1002可进一步包括相对于处理器1004远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1002具体可以但不限于用于存储多组问答对等信息。作为一种示例，如图10所示，上述存储器1002中可以但不限于包括上述相似问题的确定装置中的第一输入模块902、第二输入模块904、确定模块906。此外，还可以包括但不限于上述相似问题的确定装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1006包括一个网络适配器（Network Interface Controller，NIC），其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1006为射频（Radio Frequency，RF）模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器1008，用于显示第一显示界面、第二显示界面、第三显示界面、第四显示界面、第五显示界面；和连接总线1010，用于连接上述电子设备中的各个模块部件。

在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点（P2P，Peer To Peer）网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的方法。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器（Read-Only Memory，ROM）、随机存取器（Random Access Memory，RAM）、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备（可为个人计算机、服务器或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种相似问题的确定方法，其特征在于，包括：

将第一问题输入到第一目标神经网络模型，得到与所述第一问题的语义相似度大于第一预设阈值的第二问题集合，其中，所述第一目标神经网络模型是使用第一训练数据集对第一初始神经网络模型训练得到的模型，所述第一训练数据集包括第一训练问题集合；

将所述第一问题和第一答案输入到第二目标神经网络模型，得到与所述第一问题的语义相似度大于第二预设阈值的第三问题集合，其中，所述第一答案为所述第一问题的答案，所述第二目标神经网络模型是使用第二训练数据集对第二初始神经网络模型训练得到的模型，所述第二训练数据集包括：具有对应关系的第二训练问题集合和第二训练答案集合；

在所述第二问题集合和所述第三问题集合中确定目标问题子集，其中，所述目标问题子集中的问题为所述第一问题的相似问题。

2.根据权利要求1所述的方法，其特征在于，在所述第二问题集合和所述第三问题集合中确定目标问题子集，包括：

在所述第二问题集合和所述第三问题集合中确定第一目标问题子集，其中，所述目标问题子集包括所述第一目标问题子集，所述第一目标问题子集中每个目标问题之间的编辑距离大于或等于预设编辑距离阈值，且所述每个目标问题与所述第一问题的编辑距离大于或等于所述预设编辑距离阈值。

3.根据权利要求1所述的方法，其特征在于，在所述将第一问题输入到第一目标神经网络模型之前，所述方法包括：

在第一显示界面上获取所述第一问题和所述第一答案，其中，所述第一显示界面中设置有第一编辑区域，所述第一编辑区域用于指示输入问答对，所述问答对包括由所述第一问题和所述第一答案组成的第一问答对；

在所述第一显示界面上获取添加指令的情况下，将所述第一问答对添加的预设数据库，其中，所述预设数据库中存储了多组问答对，所述多组问答对中的每组问答对包括一个答案和至少一个问题。

4.根据权利要求3所述的方法，其特征在于，在所述将第一问题输入到第一目标神经网络模型之前，所述方法还包括：

将所述第一训练问题集合输入到所述第一初始神经网络模型，得到第一预估问题集合，其中，所述第一训练问题集合包括所述预设数据库中存储的第一问答对集合中的问题，所述第一训练数据集还包括所述预设数据库中与所述第一训练问题集合中的问题的语义相似度大于所述第一预设阈值的第三训练问题集合；

在所述第一预估问题集合与所述第三训练问题集合之间的第一损失函数满足第一收敛条件时，结束对所述第一初始神经网络模型的训练，得到所述第一目标神经网络模型，其中，所述第一收敛条件用于表示所述第一损失函数的输出值在第一预定范围内。

5.根据权利要求3所述的方法，其特征在于，在所述将所述第一问题和第一答案输入到第二目标神经网络模型之前，所述方法还包括：

将具有对应关系的所述第二训练问题集合和所述第二训练答案集合输入到所述第二初始神经网络模型，得到第二预估问题集合，其中，所述具有对应关系的所述第二训练问题集合和所述第二训练答案集合包括所述预设数据库中存储的第二问答对集合中的问答对，所述第二训练数据集还包括所述预设数据库中与所述第二训练问题集合中的问题的语义相似度大于所述第二预设阈值的第四训练问题集合；

在所述第二预估问题集合与所述第四训练问题集合之间的第二损失函数满足第二收敛条件时，结束对所述第二初始神经网络模型的训练，得到所述第二目标神经网络模型，其中，所述第二收敛条件用于表示所述第二损失函数的输出值在第二预定范围内。

6.根据权利要求1所述的方法，其特征在于，所述在所述第二问题集合和所述第三问题集合中确定目标问题子集之后，所述方法包括：

在第二显示界面上显示所述目标问题子集，其中，所述目标问题子集被标识为推荐的所述第一问题的相似问题。

7.根据权利要求6所述的方法，其特征在于，在第二显示界面上显示所述目标问题子集之后，所述方法还包括：

在第三显示界面上获取融合指令，所述融合指令用于指示将所述目标问题子集和所述第一问题融合为与所述第一答案对应的第一问题集合；

将所述第一问题集合和所述第一答案关联存储在预设数据库。

8.根据权利要求7所述的方法，其特征在于，在所述将所述第一问题集合和所述第一答案关联存储在所述预设数据库之后，所述方法还包括：

在第四显示界面上获取检索指令，所述检索指令用于指示检索目标问题的答案，所述目标问题为所述目标问题子集中的任一问题；

确定所述第一答案为所述目标问题的答案，并将所述第一答案显示在第五显示界面。

9.一种相似问题的确定装置，其特征在于，包括：

第一输入模块，用于将第一问题输入到第一目标神经网络模型，得到与所述第一问题的语义相似度大于第一预设阈值的第二问题集合，其中，所述第一目标神经网络模型是使用第一训练数据集对第一初始神经网络模型训练得到的模型，所述第一训练数据集包括第一训练问题集合；

第二输入模块，用于将所述第一问题和第一答案输入到第二目标神经网络模型，得到与所述第一问题的语义相似度大于第二预设阈值的第三问题集合，其中，所述第一答案为所述第一问题的答案，所述第二目标神经网络模型是使用第二训练数据集对第二初始神经网络模型训练得到的模型，所述第二训练数据集包括：具有对应关系的第二训练问题集合和第二训练答案集合；

确定模块，用于在所述第二问题集合和所述第三问题集合中确定目标问题子集，其中，所述目标问题子集中的问题为所述第一问题的相似问题。

10.根据权利要求9所述的装置，其特征在于，所述确定模块包括：

确定单元，用于在所述第二问题集合和所述第三问题集合中确定第一目标问题子集，其中，所述目标问题子集包括所述第一目标问题子集，所述第一目标问题子集中每个目标问题之间的编辑距离大于或等于预设编辑距离阈值，且所述每个目标问题与所述第一问题的编辑距离大于或等于所述预设编辑距离阈值。

11.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序可被终端设备或计算机运行时执行所述权利要求1至8任一项中所述的方法。

12.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至8任一项中所述的方法。