CN108846126B

CN108846126B - 关联问题聚合模型的生成、问答式聚合方法、装置及设备

Info

Publication number: CN108846126B
Application number: CN201810694922.5A
Authority: CN
Inventors: 王硕寰; 孙宇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2021-07-27
Anticipated expiration: 2038-06-29
Also published as: CN108846126A

Abstract

本发明公开了一种关联问题聚合模型的生成、问答式聚合方法、装置及设备。其中，该方法包括：根据至少两个用户的网络行为数据，获取第一数量的基础训练样本，并使用基础训练样本对第一机器学习模型进行训练，得到基础语义匹配模型；将基础语义匹配模型中的语义表示层中迁移至第二机器学习模型中，并根据预先标注的第二数量的关联问题对，对第二机器学习模型进行训练，得到关联问题聚合模型。本发明实施例可以得到将意思一致的问题的答案聚合在一起的关联问题聚合模型，利用用户的网络行为数据训练得到的基础语义匹配模型，作迁移学习生成关联问题聚合模型，可以大大减少人工标注样本以及人工标注成本，可以优化问答社区内问题的答案满足率。

Description

关联问题聚合模型的生成、问答式聚合方法、装置及设备

技术领域

本发明实施例涉及数据处理技术，尤其涉及一种关联问题聚合模型的生成、问答式聚合方法、装置及设备。

背景技术

目前百度知道、知乎等问答社区存在大量相同的问题。部分问题没有答案或者质量很低。当用户搜索这些问题时，无法找到满足其需求的答案。但是网站存在有其他意思一致但表述不同的问题。(例如“苹果手机如何强制关机？”和“IPhone有办法强行关掉吗？”为一对意思一致但表述不同的问题)这些意思一致的问题可能存在满足用户需求的答案。

现有技术中，部分问答社区在用户提问时，会检查用户提问的问题是否已存在库中。如果问题已存在库中，会提示用户先查看已有问题，再提问。检查用户提问的问题是否已存在库中的手段一般是通过规则直接将问题与库中的问题进行匹配，或者去除问题中的停用词后，将问题与库中的问题进行匹配。

发明人在实现本发明的过程中，发现现有技术仅可以检查到问题表述一致，或者只有个别停用词不同的问题，语义泛化性很差；并且对已经存在库中的问题，不会检查是否有相同的问题，存在库中的问题中的部分问题答案质量不高，或者没有答案，影响问答社区整体的答案满足率。

发明内容

本发明实施例提供一种关联问题聚合模型的生成方法、问答式聚合方法、装置、设备及介质，以实现优化答案满足率，提高用户体验。

第一方面，本发明实施例提供了一种关联问题聚合模型的生成方法，包括：

根据至少两个用户的网络行为数据，获取第一数量的基础训练样本，并使用基础训练样本对第一机器学习模型进行训练，得到基础语义匹配模型；

将基础语义匹配模型中的语义表示层迁移至第二机器学习模型中，并根据预先标注的第二数量的关联问题对，对第二机器学习模型进行训练，得到关联问题聚合模型；

其中，第一数量大于第二数量。

第二方面，本发明实施例还提供了一种问答式聚合方法，包括：

获取问答式数据库，问答式数据库中包括问答式结构数据，问答式结构数据包括：问题，与问题对应的回答项，回答项中包括零个或者至少一个答案内容；

根据预先训练的关联问题聚合模型，在问答式数据库包括的各个问题中，确定出至少一个关联问题集，关联问题集中包括至少两个关联问题；关联问题集合模型的输入为问题对，输出为问题对是否关联的结果；

将与关联问题集中的各关联问题分别对应的问答式结构数据进行合并，得到与各关联问题集对应的组合问答式数据；

如果用户的问题搜索请求命中关联问题集中的一个关联问题，则获取与命中的关联问题集对应的组合问答式数据提供给用户。

第三方面，本发明实施例还提供了一种关联问题聚合模型的生成装置，包括：

第一模型训练模块，用于根据至少两个用户的网络行为数据，获取第一数量的基础训练样本，并使用基础训练样本对第一机器学习模型进行训练，得到基础语义匹配模型；

第二模型训练模块，用于将基础语义匹配模型中的语义表示层迁移至第二机器学习模型中，并根据预先标注的第二数量的关联问题对，对第二机器学习模型进行训练，得到关联问题聚合模型；

其中，第一数量大于第二数量。

第四方面，本发明实施例还提供了一种问答式聚合装置，包括：

数据库获取模块，用于获取问答式数据库，问答式数据库中包括问答式结构数据，问答式结构数据包括：问题，与问题对应的回答项，回答项中包括零个或者至少一个答案内容；

问题集确定模块，用于根据预先训练的关联问题聚合模型，在问答式数据库包括的各个问题中，确定出至少一个关联问题集，关联问题集中包括至少两个关联问题；关联问题集合模型的输入为问题对，输出为问题对是否关联的结果；

数据获取模块，用于将与关联问题集中的各关联问题分别对应的问答式结构数据进行合并，得到与各关联问题集对应的组合问答式数据；

数据提供模块，用于如果用户的问题搜索请求命中关联问题集中的一个关联问题，则获取与命中的关联问题集对应的组合问答式数据提供给用户。

第五方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序所述处理器执行所述程序时实现如本发明实施例所述的关联问题聚合模型的生成方法，或者如本发明实施例所述的问答式聚合方法。

第六方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如本发明实施例所述的关联问题聚合模型的生成方法，或者如本发明实施例所述的问答式聚合方法。

本发明实施例的技术方案，通过根据至少两个用户的网络行为数据，获取第一数量的基础训练样本，并使用基础训练样本对第一机器学习模型进行训练，得到基础语义匹配模型；将基础语义匹配模型中的语义表示层迁移至第二机器学习模型中，并根据预先标注的第二数量的关联问题对，对第二机器学习模型进行训练，得到关联问题聚合模型，可以训练得到可以将意思一致的问题的答案聚合在一起的关联问题聚合模型，利用用户的网络行为数据训练得到的基础语义匹配模型，作迁移学习生成关联问题聚合模型，可以大大减少关联问题聚合模型所需的人工标注样本，大大减少了人工标注成本，此外通过在问答社区内使用上述关联问题聚合模型，可以优化问答社区内问题的答案满足率。

附图说明

图1为本发明实施例一提供的一种关联问题聚合模型的生成方法的流程图；

图2a为本发明实施例二提供的一种关联问题聚合模型的生成方法的流程图；

图2b为本发明实施例二提供的一种第一机器学习模型的结构示意图；

图2c为本发明实施例二提供的一种第二机器学习模型的结构示意图；

图3为本发明实施例三提供的一种关联问题聚合模型的生成方法的流程图；

图4为本发明实施例四提供的一种问答式聚合方法的流程图；

图5为本发明实施例五提供的一种问答式聚合方法的流程图；

图6a为本发明实施例六提供的一种问答式聚合方法的流程图；

图6b为本发明实施例六提供的一种用户反馈渠道的示意图；

图6c为本发明实施例六提供的一种问答式聚合方法的整体流程图；

图7为本发明实施例七提供的一种关联问题聚合模型的生成装置的结构示意图；

图8为本发明实施例八提供的一种问答式聚合装置的结构示意图；

图9为本发明实施例九提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

图1为本发明实施例一提供的一种关联问题聚合模型的生成方法的流程图，本实施例可适用于生成进行关联问题聚合的关联问题聚合模型的情况，该方法可以由本发明实施例提供的关联问题聚合模型的生成装置来执行，该装置可采用软件和/或硬件的方式实现，并一般可集成在关联问题聚合模型的生成设备中。关联问题聚合模型的生成设备包括但不限定于计算机等。如图1所示，本实施例的方法具体包括：

S101、根据至少两个用户的网络行为数据，获取第一数量的基础训练样本，并使用基础训练样本对第一机器学习模型进行训练，得到基础语义匹配模型。

在本实施例中，提出了一种训练得到关联问题聚合模型的方法，该关联问题聚合模型的输入为两个问题的内容，输出为这两个问题之间是否具有关联性的结果，该结果可以为预先设定的两个结果(0或者1)中的一个，例如，0表示两个问题不关联，1表示两个问题关联；该结果也可以为两个问题之间的关联程度值(例如：50％或者80％等)。

可以理解的是，可以基于大量的预先标注的关联问题对，对一个机器学习模型进行训练得到所述关联问题聚合模型。但是，需要用户人工标注或者生成大量的标注样本，工作量非常巨大。基于此，发明人研究通过研究机器学习模型发现：关联问题聚合模型第一层需要构建一个语义表示层，该语义表示层用于将输入的文本内容转换为用于表示该文本语义的向量，发明人发现，如果需要对这一层进行训练，无需使用精确的标注好的问题对，仅基于用户的网络行为数据(典型的，点击日志)，即可得到比较准确的语义表示层，之后通过使用该语义表示层，可以使用较少的基于问题对的训练样本，即可以实现对基础语义匹配模型的训练。

相应的，在本实施例中，首先基于用户的网络行为数据得到基础语义匹配模型。其中，在用户完成一次网络搜索之后，搜索引擎可以将该搜索相关的数据记录下来，形成用户的网络行为数据。在记录的大量用户的网络行为数据中，根据至少两个用户的网络行为数据，获取第一数量的基础训练样本。典型的，所述网络行为数据可以为用户的点击日志，该点击日志中包括：搜索式、搜索引擎基于搜索式返回的搜索结果、以及用户基于该搜索结果选择点击的统一资源定位符(Uniform Resource Locator，URL)。

相应的，可以根据该搜索式，以及用户选择或者未选择点击的URL对应的文本信息(例如，与URL对应的标题信息)构造所述基础训练样本。

使用基础训练样本对第一机器学习模型进行训练，得到基础语义匹配模型。基础语义匹配模型用于接收搜索式和基于搜索式选择或者未选择的URL对应的文本信息，输出搜索式和对应文本信息之间的相似度。第一机器学习模型可以为基于结对测试法的词带包模型、基于单文档方法的卷积神经网络(Convolutional Neural Network，CNN)模型以及基于单文档方法的循环神经网络(Recurrent neural Network，RNN)模型等。

S102、将基础语义匹配模型中的语义表示层迁移至第二机器学习模型中，并根据预先标注的第二数量的关联问题对，对第二机器学习模型进行训练，得到关联问题聚合模型；其中，第一数量大于第二数量。

其中，关联问题聚合模型用于接收关联问题对中的两个关联问题，输出两个关联问题是否关联的结果。基础语义匹配模型中的语义表示层用于将搜索式或对应的用户点击数据包含的词语转换成向量。将基础语义匹配模型中的语义表示层迁移至第二机器学习模型中，用于将关联问题包含的词语转换成向量。

典型的，通过人工标注平台对第二数量的关联问题对进行标注。例如：如果关联问题中的两个问题一致，则将关联问题对标注为1；如果关联问题中的两个问题不一致，则将关联问题对标注为0。

根据预先标注的第二数量的关联问题对，对第二机器学习模型进行训练，得到关联问题聚合模型。第二机器学习模型可以为基于结对测试法的词带包模型、基于单文档方法的CNN模型以及基于单文档方法的RNN模型。

本发明实施例提供了一种关联问题聚合模型的生成方法，通过根据至少两个用户的网络行为数据，获取第一数量的基础训练样本，并使用基础训练样本对第一机器学习模型进行训练，得到基础语义匹配模型；将基础语义匹配模型中的语义表示层迁移至第二机器学习模型中，并根据预先标注的第二数量的关联问题对，对第二机器学习模型进行训练，得到关联问题聚合模型，可以训练得到可以将意思一致的问题的答案聚合在一起的关联问题聚合模型，利用用户的网络行为数据训练得到的基础语义匹配模型，作迁移学习生成关联问题聚合模型，可以大大减少关联问题聚合模型所需的人工标注样本，大大减少了人工标注成本，此外通过在问答社区内使用上述关联问题聚合模型，可以优化问答社区内问题的答案满足率。

实施例二

图2a为本发明实施例二提供的一种关联问题聚合模型的生成方法的流程图，本实施例以上述实施例为基础进行具体化。

相应的，如图2a所示，本实施例的方法包括：

S201、获取至少两条用户的点击行为日志，点击行为日志包括：搜索式，基于搜索式召回的URL集合，以及用户基于URL集合选择的目标URL。

其中，点击行为日志包括：搜索式，基于搜索式召回的URL集合，以及用户基于URL集合选择的目标URL。用户在搜索引擎输入搜索式时，搜索引擎会返回给用户多条URL，即基于搜索式召回的URL集合。用户会点击部分URL，该URL即为用户基于URL集合选择的目标URL。通过用户的点击行为日志，可以记录搜索式与URL之间的点击行为。

S202、根据用户点击行为日志中，搜索式以及与目标URL对应的文本信息，构造正例样本。

其中，通过用户的点击行为日志，记录搜索式与URL之间的点击行为以及URL对应的文本信息。被用户点击的URL的标题和用户输入的搜索式在语义存在相关性。而那些点击相同URL的搜索式之间意思更加相近，利用点击行为日志训练基础语义匹配模型，可得到比较准确的语义表示。语义表示是指通过深度学习用实数值向量来表示语句的语义。

基于至少两条用户的点击行为日志构造正例样本。正例样本，是指搜索式以及与用户基于搜索式召回的URL集合选择的目标URL对应的文本信息。

S203、根据用户点击行为日志中，搜索式以及基于搜索式召回的URL集合中除去目标URL之外的URL对应的文本信息，构造负例样本。

其中，基于至少两条用户的点击行为日志构造负例样本。一般来说，可以认为用户没有点击的URL对应的文本信息和用户输入的搜索式之间的相关度不高。相应的，负例样本，是指搜索式以及与基于搜索式召回的URL集合中除去目标URL之外的URL对应的文本信息。

S204、根据构造的正例样本以及负例样本，得到第一数量的基础训练样本，并使用基础训练样本对第一机器学习模型进行训练，得到基础语义匹配模型。

典型的，可以采用利用结对测试法的词带包模型训练基础语义匹配模型，遍历第一数量的基础训练样本，针对每一个搜索式，正例样本中的文本信息，以及负例样本中的文本信息的组合训练。在信息检索中，假定对于一个文本即输入序列，忽略其词序、语法和句法，将其仅仅看做是一个词集合，或者说是词的一个组合。所谓的词集合或者词的组合，可以称之为词袋。

具体的，利用结对测试法的词带包模型可以基于单个词、两个词等粒度信息，用切词获得每一个搜索式，正例样本中的文本信息，以及负例样本中的文本信息对应的词粒度单元，然后通过语义表示层分别获得词粒度单元的向量。然后，通过全连接层基于对应的词粒度单元得到每一个搜索式，正例样本中的文本信息，以及负例样本中的文本信息对应的整个句子的表示。基于每一个搜索式，正例样本中的文本信息，以及负例样本中的文本信息分别对应的整个句子的表示，得到正例样本中的文本信息以及搜索式之间的相似度，负例样本中的文本信息以及搜索式之间的相似度，并根据正例样本以及负例样本中的文本信息以及搜索式之间的相似度计算损失函数。

具体的，可采用BP算法对正负例样本进行成对训练，尽可能拉大正例Title和负例Title之间的相似度差距，也即优化损失函数Loss，其中，损失函数可采用如下公式计算：

其中，Loss为正例样本中的文本信息以及搜索式之间的相似度，以及负例样本中的文本信息以及搜索式之间的相似度的损失函数，Query为搜索式，Title_为负例样本中的文本信息，Title₊为正例样本中的文本信息，Similarity(Query,Title_)为负例样本中的文本信息以及搜索式之间的相似度，Similarity(Query,Title₊)为正例样本中的文本信息以及搜索式之间的相似度，0.1为一常数，可取其他值，D为设定搜索引擎数据库，q为基础训练样本。

如图2b所示，第一机器学习模型可以包括：第一语义表示层21、与第一语义表示层21相连的第一全连接层22、第二语义表示层23、与第二语义表示层23相连的第二全连接层24、第三语义表示层25、与第三语义表示层25相连的第三全连接层26、分别与第一全连接层22以及第二全连接层24相连的第一相似度计算层27、以及分别与第二全连接层24以及第三全连接层26相连的第二相似度计算层28。

第一语义表示层21以及第二语义表示层23的组合，用于分别接收正例样本中的文本信息以及搜索式；第三语义表示层25以及第二语义表示层23的组合，用于分别接收负例样本中的文本信息以及搜索式；第一相似度层27用于输出正例样本中的文本信息以及搜索式之间的相似度；第二相似度层28用于输出负例样本中的文本信息以及搜索式之间的相似度。

第一语义表示层21以及第三语义表示层25的结构相同，第一语义表示层21与第二语义表示层23的结构不同。

其中，第二语义表示层23，用于迁移至第二机器学习模型中。

其中，第一语义表示层21接收正例样本中的文本信息，获得正例样本中的文本信息对应的词粒度单元的向量。第二语义表示层接收搜索式，获得搜索式对应的词粒度单元的向量。第三语义表示层25接收负例样本中的文本信息，获得负例样本中的文本信息对应的词粒度单元的向量。与第一语义表示层21相连的第一全连接层22基于正例样本中的文本信息对应的词粒度单元的向量得到正例样本中的文本信息对应的整个句子的表示。与第二语义表示层23相连的第二全连接层24基于搜索式对应的词粒度单元的向量得到搜索式对应的整个句子的表示。与第三语义表示层25相连的第三全连接层26基于负例样本中的文本信息对应的词粒度单元的向量得到负例样本中的文本信息对应的整个句子的表示。第一相似度层27基于正例样本中的文本信息和搜索式分别对应的整个句子的表示，输出正例样本中的文本信息以及搜索式之间的相似度。第二相似度层28基于负例样本中的文本信息和搜索式分别对应的整个句子的表示，输出负例样本中的文本信息以及搜索式之间的相似度。

本实施例中由于Query和Title(包括Title₊以及Title_-)之间的特征提取方式并不相同，一个是用户输入的，一个是URL对应的标题，因此，第一语义表示层21与第二语义表示层23的结构是不相同的。此外，考虑到第二语义表示层23用于接收Query，这与关联问题聚合模型中接收的问题结构相似，因此可以将第二语义表示层23移植至该第二语义表示层23中。

S205、将基础语义匹配模型中的语义表示层迁移至第二机器学习模型中，并根据预先标注的第二数量的关联问题对，对第二机器学习模型进行训练，得到关联问题聚合模型，其中，第一数量大于第二数量。

在本实施例的一个可选的实施方式中，如图2c所示，第二机器学习模型可以包括：

第四语义表示层29、与第四语义表示层29相连的第一丢弃层30、与第一丢弃层30相连的第四全连接层31、第五语义表示层32、与第五语义表示层32相连的第二丢弃层33、与第二丢弃层33相连的第五全连接层34、以及分别与第四全连接层31以及第五全连接层34相连的二分类层35。

第四语义表示层29以及第五语义表示层32的组合，用于分别接收关联问题对中的两个关联问题；二分类层35用于输出两个关联问题是否关联的结果；

第四语义表示层29与第五语义表示层32的结构相同，且第四语义表示层29与第五语义表示层32为从基础语义匹配模型迁移的语义表示层。

其中，利用第一机器学习模型训练的与搜索式对应的语义表示层，进行迁移，作为第二机器学习模型中搜索式的语义表示层，即关联问题的语义表示的初始参数。在模型训练过程中，保持底层学习率为0或者比较低的值。一般，学习率在初始时固定为0，随着数据规模增大而提高学习率。

对于预先标注的第二数量的关联问题对中的两个关联问题，通过迁移过来的第四语义表示层29与第五语义表示层32，得到两个关联问题对应的底层语义的表示，再经过第一丢弃层30与第二丢弃层33的变换，分别随机把两个关联问题对应的底层语义的表示中的某些参数设为0，提高第二机器学习模型的泛化能力。然后再经过第四全连接层31以及第五全连接层34的变换，分别两个关联问题对应的底层语义的表示进行拼接，再通过二分类层35基于两个关联问题对应的底层语义的表示计算两个关联问题的相似度，根据预设的分类阈值对两个关联问题的相似度进行二分类，输出两个关联问题是否关联的结果。具体的，二分类层35判断两个关联问题的相似度达到预设的分类阈值，则输出1；二分类层35判断两个关联问题的相似度未达到预设的分类阈值，则输出0。

本发明实施例提供了一种关联问题聚合模型的生成方法，通过获取至少两条用户的点击行为日志，根据用户点击行为日志中，搜索式以及与目标URL对应的文本信息，构造正例样本；根据搜索式以及基于搜索式召回的URL集合中除去目标URL之外的URL对应的文本信息，构造负例样本，根据构造的正例样本以及负例样本，得到第一数量的基础训练样本，可以利用用户点击行为日志训练得到的基础语义匹配模型，作迁移学习，提高关联问题聚合模型的聚合效果。

实施例三

图3为本发明实施例三提供的一种关联问题聚合模型的生成方法的流程图，本实施例以上述实施例为基础进行具体化。

相应的，如图3所示，本实施例的方法包括：

S301、根据至少两个用户的网络行为数据，获取第一数量的基础训练样本，并使用基础训练样本对第一机器学习模型进行训练，得到基础语义匹配模型。

S302、将基础语义匹配模型中的语义表示层迁移至第二机器学习模型中，并将第二数量的关联问题对划分为训练样本集合以及测试样本集合。

其中，将根据预先标注的第二数量的关联问题对划分为训练样本集合以及测试样本集合。训练样本集合用于对第二机器学习模型进行训练，得到关联问题聚合模型；测试样本集合用于调整关联问题聚合模型的准确率与召回率。

S303、使用训练样本集合对第二机器学习模型进行训练，得到待调整的关联问题聚合模型。

其中，根据训练样本集合中的预先标注的关联问题对，对第二机器学习模型进行训练，得到关联问题聚合模型。

S304、将测试样本集合中的各测试样本输入至关联问题聚合模型，对关联问题聚合模型中的所二分类层的分类阈值进行调整。

其中，得到关联问题聚合模型后，将测试样本集合中的各测试样本输入至关联问题聚合模型，得到测试结果。根据测试结果对关联问题聚合模型中的所二分类层的分类阈值进行调整，选取一个合适的分类阈值对两个关联问题的相似度进行二分类，能够准确地输出两个关联问题是否关联的结果。

本发明实施例提供了一种关联问题聚合模型的生成方法，通过将第二数量的关联问题对划分为训练样本集合以及测试样本集合，将测试样本集合中的各测试样本输入至使用训练样本集合对第二机器学习模型进行训练，得到待调整的关联问题聚合模型，对关联问题聚合模型中的二分类层的分类阈值进行调整，可以选取合适的分类阈值对两个关联问题的相似度进行二分类，能够准确地输出两个关联问题是否关联的结果。

实施例四

图4为本发明实施例四提供的一种问答式聚合方法的流程图，本实施例可适用于将意思一致的问题的答案聚合在一起，优化问答社区内问题的答案满足率的情况，该方法可以由本发明实施例提供的问答式聚合装置来执行，该装置可采用软件和/或硬件的方式实现，并一般可集成在问答式聚合设备中。问答式聚合设备包括但不限定于计算机等。如图4所示，本实施例的方法具体包括：

S401、获取问答式数据库，问答式数据库中包括问答式结构数据，问答式结构数据包括：问题，与问题对应的回答项，回答项中包括零个或者至少一个答案内容。

其中，问答式数据库用于存储问答社区中问答式结构数据。问答式结构数据包括：问题，与问题对应的回答项，回答项中包括零个或者至少一个答案内容。问答式结构数据中存在大量问题。部分问题没有答案或者质量很低。当用户搜索这些问题时，无法找到满足其需求的答案。问答式结构数据中可能有其他意思一致但表述不同的问题。这些意思一致的问题可能存在满足用户需求的答案。

S402、根据预先训练的关联问题聚合模型，在问答式数据库包括的各个问题中，确定出至少一个关联问题集，关联问题集中包括至少两个关联问题；关联问题集合模型的输入为问题对，输出为问题对是否关联的结果。

其中，发明人在实现本发明的过程中，发现现有技术仅可以检查到问题表述一致，或者只有个别停用词不同的问题，语义泛化性很差；并且对已经存在库中的问题，不会检查是否有相同的问题，存在库中的问题中的部分问题答案质量不高，或者没有答案，影响问答社区整体的答案满足率。

本发明实施例根据预先训练的关联问题聚合模型，在问答式数据库包括的各个问题中，确定出至少一个关联问题集。预先训练的关联问题聚合模型的输入为问题对，输出为问题对是否关联的结果，可以将意思一致的问题的答案聚合在一起，语义泛化性较好。具体的，在问答式数据库包括的各个问题中确定出至少一个包括两个关联问题的关联问题对。将关联问题对输入至预先训练的关联问题聚合模型，获取关联问题聚合模型输出的关联问题对是否关联的结果。如果关联问题对中的两个关联问题是关联的，则根据关联问题对确定一个关联问题集。由此，将问答式数据库中相关联的问题聚合在对应的关联问题集中。关联问题集为相关联的问题的集合。关联问题集中包括至少两个关联问题。

S403、将与关联问题集中的各关联问题分别对应的问答式结构数据进行合并，得到与各关联问题集对应的组合问答式数据。

其中，将与关联问题集中的各关联问题分别对应的问答式结构数据合并为一起，得到与各关联问题集对应的组合问答式数据。组合问答式数据包括各关联问题，与各关联问题对应的回答项。将与关联问题集对应的组合问答式数据作为关联问题集中的各关联问题的答案，存入问答式数据库中。

S404、如果用户的问题搜索请求命中关联问题集中的一个关联问题，则获取与命中的关联问题集对应的组合问答式数据提供给用户。

其中，问题搜索请求为用户进行搜索时输入的问题。如果用户的问题搜索请求命中关联问题集中的一个关联问题，则可以将关联问题对应的组合问答式数据提供给用户，从而将聚合到一起的关联问题的答案一起展示给用户。

可选的，如果用户的问题搜索请求未命中关联问题集中的任何一个关联问题，则根据用户进行搜索时输入的问题在问答式数据库中进行搜索。如果问题已存在问答式数据库中，会提示用户先查看已有问题；如果问题未存在问答式数据库中，会提示用户问答式数据库中不存在用户提问的问题及对应的答案。

本发明实施例提供了一种问答式聚合方法，通过获取问答式数据库，根据预先训练的关联问题聚合模型，在问答式数据库包括的各个问题中，确定出至少一个关联问题集；将与关联问题集中的各关联问题分别对应的问答式结构数据进行合并，得到与各关联问题集对应的组合问答式数据；如果用户的问题搜索请求命中关联问题集中的一个关联问题，则获取与命中的关联问题集对应的组合问答式数据提供给用户，可以将已有的意思一致的问题的答案聚合在一起，展示，可以在用户搜索时，将聚合到一起的问题的答案一起展示给用户，优化问题的答案满足率，提高用户体验。

实施例五

图5为本发明实施例五提供的一种问答式聚合方法的流程图，本实施例以上述实施例为基础进行具体化。

相应的，如图5所示，本实施例的方法包括：

S501、获取问答式数据库，问答式数据库中包括问答式结构数据，问答式结构数据包括：问题，与问题对应的回答项，回答项中包括零个或者至少一个答案内容。

S502、基于设定聚类技术，在问答式数据库中确定出至少一个关联问题备选集，关联问题备选集中包括至少两个关联备选问题。

其中，基于设定聚类技术，抽取出问答式数据库中比较相似的问题，即的相关联的问题。将相关联的问题聚合在对应的关联问题集中，从而出至少一个关联问题备选集。

S503、将各关联问题备选集中的各关联备选问题输入至关联问题聚合模型，得到至少一个关联问题集，关联问题集中包括至少两个关联问题；关联问题集合模型的输入为问题对，输出为问题对是否关联的结果；

其中，将各关联备选问题输入至关联问题聚合模型，获取关联问题聚合模型输出的各关联备选问题是否关联的结果。如果关联问题备选集中的至少两个关联备选问题是关联的，则根据至少两个关联备选问题得到一个关联问题集。

S504、将与关联问题集中的各关联问题分别对应的问答式结构数据进行合并，得到与各关联问题集对应的组合问答式数据。

S505、如果用户的问题搜索请求命中关联问题集中的一个关联问题，则将组合问答式数据中包括的至少两个问答式结构数据，分条目显示给用户。

其中，如果用户的问题搜索请求命中关联问题集中的一个关联问题，在组合问答式数据中包括至少两个问答式结构数据时，将至少两个问答式结构数据分条目显示给用户，以将聚合到一起的关联问题的答案清楚有条理的展示给用户，提高用户体验。例如，组合问答式数据中包括两个问答式结构数据，将两个问答式结构数据分为两个条目，依次排列后，一起展示给用户。

S506、统计输入至关联问题聚合模型中的，相似度与分类阈值的差异值满足设定阈值条件的至少一个目标问题对。

其中，关联问题聚合模型具体为：二分类层，二分类层用于根据输入至关联问题聚合模型中的问题对的相似度与分类阈值之间的关系，输出问题对是否关联的结果。设定阈值条件为根据分类阈值设定的阈值条件。设定阈值条件接近于分类阈值。通过设定阈值条件统计输入至关联问题聚合模型中的，相似度在分类阈值上下的关联问题对，即目前的关联问题聚合模型最难判断的关联问题对，作为目标问题对。

S507、将目标问题对发送至人工标注平台进行标注，并使用人工标注平台对目标问题对的标注结果对关联问题聚合模型进行再训练。

其中，将统计的目标问题对作为新的关联问题对，发送至人工标注平台进行标注。使用标注后的目标问题对，对关联问题聚合模型进行再训练，提高目前的关联问题聚合模型的判断能力，提升关联问题聚合模型的聚合效果。

本发明实施例提供了一种问答式聚合方法，通过基于设定聚类技术，在问答式数据库中确定出至少一个关联问题备选集，将各关联问题备选集中的各关联备选问题输入至关联问题聚合模型，得到至少一个关联问题集；在用户的问题搜索请求命中关联问题集中的一个关联问题时，将组合问答式数据中包括的至少两个问答式结构数据，分条目显示给用户；并统计输入至关联问题聚合模型中的，相似度与分类阈值的差异值满足设定阈值条件的至少一个目标问题对；将目标问题对发送至人工标注平台进行标注，并使用人工标注平台对目标问题对的标注结果对关联问题聚合模型进行再训练，可以更简便的抽取出大量问答式数据库中比较相似的问题，可以将聚合到一起的关联问题的答案清楚有条理的展示给用户，提高用户体验，可以对关联问题聚合模型进行再训练，提高目前的关联问题聚合模型的判断能力，提升关联问题聚合模型的聚合效果。

实施例六

图6a为本发明实施例六提供的一种问答式聚合方法的流程图，本实施例以上述实施例为基础进行具体化。

相应的，如图6a所示，本实施例的方法包括：

S601、获取问答式数据库，问答式数据库中包括问答式结构数据，问答式结构数据包括：问题，与问题对应的回答项，回答项中包括零个或者至少一个答案内容。

S602、根据预先训练的关联问题聚合模型，在问答式数据库包括的各个问题中，确定出至少一个关联问题集，关联问题集中包括至少两个关联问题；关联问题集合模型的输入为问题对，输出为问题对是否关联的结果。

S603、将与关联问题集中的各关联问题分别对应的问答式结构数据进行合并，得到与各关联问题集对应的组合问答式数据。

S604、如果用户的问题搜索请求命中关联问题集中的一个关联问题，将问题搜索请求命中的关联问题集中的关联问题对应的问答式结构数据，作为组合问答式数据中的标准问答式结构数据，并将标准问答式结构数据调整至组合问答式数据的首位。

其中，判断用户的问题搜索请求是否命中关联问题集中的一个关联问题。如果用户的问题搜索请求命中关联问题集中的一个关联问题，则表明该关联问题即为用户提问的问题，该关联问题对应的问答式结构数据即为回答用户提问的问题的答案。因此，将问题搜索请求命中的关联问题集中的关联问题对应的问答式结构数据，作为组合问答式数据中的标准问答式结构数据，并将标准问答式结构数据调整至组合问答式数据的首位。关联问题集中的其他问答式结构数据为与用户提问的问题意思相近的问题的答案，依次排在标准问答式结构数据后，一起展示给用户。

如果用户的问题搜索请求未命中关联问题集中的一个关联问题，则不对问答式结构数据的顺序进行调整。

S605、将组合问答式数据中包括的至少两个问答式结构数据，分条目显示给用户，分别在组合问答式数据分条目显示的各问答式结构数据中，提供用户反馈渠道，用户反馈渠道用于接收用户对组合问答式数据中的问答式结构数据的满意度。

其中，在将组合问答式数据中包括的至少两个问答式结构数据，分条目显示给用户时，分别在组合问答式数据分条目显示的各问答式结构数据中，提供用户反馈渠道。用户反馈渠道用于接收用户对组合问答式数据中的问答式结构数据的满意度。图6b为本发明实施例六提供的一种用户反馈渠道的示意图。如图6b所示，在问答式结构数据中的答案：“如果苹果手机死机了，那么就同时按住home键和电源键。等待屏幕上出现苹果标志，等它自然加载好，就恢复正常了”下方，提供用户反馈渠道：“赞”的按钮61和“踩”的按钮62。如果用户认为这个答案满意，就点击“赞”的按钮61。如果用户对答案不满意，就点击“踩”的按钮62。把答案的满意度定义为点击“赞”与“踩”对应的数字的差值。“赞”的按钮61对应的数字“16”代表有16个用户点击了“赞”的按钮61。“踩”的按钮62对应的数字“3”代表有3个用户点击了“踩”的按钮62。该答案的满意度为13。

S606、如果与目标组合问答式数据中的目标问答式结构数据对应的满意度满足设定模型调整条件，则根据目标组合问答式数据构造新的训练样本对所述关联问题聚合模型进行再训练。

在本实施例的一个可选的实施方式中，如果与目标组合问答式数据中的目标问答式结构数据对应的满意度满足设定模型调整条件，则根据目标组合问答式数据构造新的训练样本对所述关联问题聚合模型进行再训练，包括：如果与目标组合问答式数据中的目标问答式结构数据对应的满意度高于第一阈值，且目标问答式结构数据不是目标组合问答式数据的标准问答式结构数据，则根据标准问答式结构数据中的问题以及目标问答式结构数据中的问题构造正例样本对关联问题聚合模型进行再训练。

其中，第一阈值为预设的满意度判断阈值。通过用户反馈渠道接收用户对组合问答式数据中的问答式结构数据的满意度后，比较问答式结构数据的满意度与第一阈值的大小，如果与目标组合问答式数据中的目标问答式结构数据对应的满意度高于第一阈值，且目标问答式结构数据不是目标组合问答式数据的标准问答式结构数据，即标准问答式结构数据中的问题不是目标问答式结构数据中的问题，目标问答式结构数据为聚合后的答案，在新问题的满意度高于第一阈值，则根据标准问答式结构数据中的问题以及目标问答式结构数据中的问题构造正例样本，对关联问题聚合模型进行再训练。

可选的，如果目标问答式结构数据作为目标组合问答式数据中的标准问答式结构数据时，对应的满意度超过第二阈值，且目标问答式结构数据作为目标组合问答式数据中的非标准问答式结构数据时，对应的满意度低于第三阈值，则根据目标问答式结构数据中的问题以及目标组合问答式数据中其他的问答式结构数据中的问题构造负例样本对关联问题聚合模型进行再训练，并去除目标问答式结构数据与所述目标组合问答式数据之间的关联性。

其中，第二阈值和第三阈值为预设的满意度判断阈值。在目标问答式结构数据作为目标组合问答式数据中的标准问答式结构数据时，比较目标问答式结构数据的满意度与第二阈值的大小。在目标问答式结构数据作为目标组合问答式数据中的非标准问答式结构数据时，比较目标问答式结构数据的满意度与第三阈值的大小。

也即：如果一个组合问答式数据(前文所述的目标组合问答式数据)在提供给用户时，一个问答式结构数据(前文所述的目标问答式结构数据)在作为标准问答式结构数据时(用户实际的问题命中了该问答式结构数据的问题)，其对应的用户满意度较高，但是同样的问答式结构数据在作为非标准问答式结构数据时(用户实际问题没有命中该问答式结构数据的问题，但是该问答式结构数据的问题作为关联问题被推荐给了用户)，其对应的用户满意度较低，因此，说明上述问答式结构数据和目标组合问答式数据之间没有关联性，因此，可以基于该问答式结构数据中的问题与组合问答式数据中的其他问题构造负例样本对关联问题聚合模型进行再训练，并去除该问答式结构数据与组合问答式数据之间的关联性。

图6c为本发明实施例六提供的一种问答式聚合方法的整体流程图。获取搜索数据，通过基础模型训练得到基础语义匹配模型。基础语义匹配模型用于向问题聚合模型提供基础语义表示。众测标注平台进行众测标注，得到同义问题标注数据。对同义问题标注数据进行聚合模型训练，得到问题聚合模型。问题聚合模型基于基础语义匹配模型提供的基础语义表示，进行同义问题聚合，并将聚合结果存储至问题资源库。用户在问题资源库中进行搜索，并输入用户反馈。根据用户反馈更新同义问题标注数据，形成数据闭环。

本发明实施例提供了一种问答式聚合方法，通过将问题搜索请求命中的关联问题集中的关联问题对应的问答式结构数据，作为组合问答式数据中的标准问答式结构数据，调整至组合问答式数据的首位；分别在组合问答式数据分条目显示的各问答式结构数据中，提供用户反馈渠道，用户反馈渠道用于接收用户对组合问答式数据中的问答式结构数据的满意度；如果与目标组合问答式数据中的目标问答式结构数据对应的满意度满足设定模型调整条件，则根据目标组合问答式数据构造新的训练样本对关联问题聚合模型进行再训练，可以在数据库中存在用户提问的问题及答案时，将对应的答案展示在首位，提高用户体验，可以利用问答聚合后的用户反馈评价进行数据补充，作为新的训练数据，构建了数据闭环，不断优化问答的聚合效果。

实施例七

图7为本发明实施例七提供的一种关联问题聚合模型的生成装置的结构示意图，如图7所示，所述装置包括：第一模型训练模块701以及第二模型训练模块702。

其中，第一模型训练模块701，用于根据至少两个用户的网络行为数据，获取第一数量的基础训练样本，并使用基础训练样本对第一机器学习模型进行训练，得到基础语义匹配模型；第二模型训练模块702，用于将基础语义匹配模型中的语义表示层迁移至第二机器学习模型中，并根据预先标注的第二数量的关联问题对，对第二机器学习模型进行训练，得到关联问题聚合模型；其中，第一数量大于第二数量。

本发明实施例提供了一种关联问题聚合模型的生成装置，通过根据至少两个用户的网络行为数据，获取第一数量的基础训练样本，并使用基础训练样本对第一机器学习模型进行训练，得到基础语义匹配模型；将基础语义匹配模型中的语义表示层迁移至第二机器学习模型中，并根据预先标注的第二数量的关联问题对，对第二机器学习模型进行训练，得到关联问题聚合模型，可以训练得到可以将意思一致的问题的答案聚合在一起的关联问题聚合模型，利用用户的网络行为数据训练得到的基础语义匹配模型，作迁移学习生成关联问题聚合模型，可以大大减少关联问题聚合模型所需的人工标注样本，大大减少了人工标注成本，此外通过在问答社区内使用上述关联问题聚合模型，可以优化问答社区内问题的答案满足率。

在上述各实施例的基础上，第一模型训练模块701可以包括：

日志获取单元，用于获取至少两条用户的点击行为日志，点击行为日志包括：搜索式，基于搜索式召回的URL集合，以及用户基于URL集合选择的目标URL；

正例样本构造单元，用于根据用户点击行为日志中，搜索式以及与目标URL对应的文本信息，构造正例样本；

负例样本构造单元，用于样本构造单元，用于根据用户点击行为日志中，搜索式以及基于搜索式召回的URL集合中除去目标URL之外的URL对应的文本信息，构造负例样本；

训练样本生成单元，用于根据构造的正例样本以及负例样本，得到第一数量的基础训练样本。

在上述各实施例的基础上，第一机器学习模型可以包括：

第一语义表示层、与第一语义表示层相连的第一全连接层、第二语义表示层、与第二语义表示层相连的第二全连接层、第三语义表示层、与第三语义表示层相连的第三全连接层、分别与第一全连接层以及第二全连接层相连的第一相似度计算层、以及分别与第二全连接层以及第三全连接层相连的第二相似度计算层；

第一语义表示层以及第二语义表示层的组合，用于分别接收正例样本中的文本信息以及搜索式；第三语义表示层以及第二语义表示层的组合，用于分别接收负例样本中的文本信息以及搜索式；第一相似度层用于输出正例样本中的文本信息以及搜索式之间的相似度；第二相似度层用于输出负例样本中的文本信息以及搜索式之间的相似度；

第一语义表示层以及第三语义表示层的结构相同，第一语义表示层与第二语义表示层的结构不同；

其中，第二语义表示层，用于迁移至第二机器学习模型中。

在上述各实施例的基础上，第二机器学习模型可以包括：

第四语义表示层、与第四语义表示层相连的第一丢弃层、与第一丢弃层相连的第四全连接层、第五语义表示层、与第五语义表示层相连的第二丢弃层、与第二丢弃层相连的第五全连接层、以及分别与第四全连接层以及第五全连接层相连的二分类层；

第四语义表示层以及第五语义表示层的组合，用于分别接收关联问题对中的两个关联问题；二分类层用于输出两个关联问题是否关联的结果；

第四语义表示层与第五语义表示层的结构相同，且第四语义表示层与第五语义表示层为从基础语义匹配模型迁移的语义表示层。

在上述各实施例的基础上，第二模型训练模块702可以包括：

问题划分单元，用于将第二数量的关联问题对划分为训练样本集合以及测试样本集合；

第二训练单元，用于使用训练样本集合对第二机器学习模型进行训练，得到待调整的关联问题聚合模型；

阈值调整单元，用于将测试样本集合中的各测试样本输入至关联问题聚合模型，对关联问题聚合模型中的二分类层的分类阈值进行调整。

上述关联问题聚合模型的生成装置可执行本发明任意实施例所提供的关联问题聚合模型的生成方法，具备执行关联问题聚合模型的生成方法相应的功能模块和有益效果。

实施例八

图8为本发明实施例八提供的一种问答式聚合装置的结构示意图，如图8所示，所述装置包括：数据库获取模块801、问题集确定模块802、数据获取模块803以及数据提供模块804。

其中，数据库获取模块801，用于获取问答式数据库，问答式数据库中包括问答式结构数据，问答式结构数据包括：问题，与问题对应的回答项，回答项中包括零个或者至少一个答案内容；问题集确定模块802，用于根据预先训练的关联问题聚合模型，在问答式数据库包括的各个问题中，确定出至少一个关联问题集，关联问题集中包括至少两个关联问题；关联问题集合模型的输入为问题对，输出为问题对是否关联的结果；数据获取模块803，用于将与关联问题集中的各关联问题分别对应的问答式结构数据进行合并，得到与各关联问题集对应的组合问答式数据；数据提供模块804，用于如果用户的问题搜索请求命中关联问题集中的一个关联问题，则获取与命中的关联问题集对应的组合问答式数据提供给用户。

本发明实施例提供了一种问答式聚合装置，通过获取问答式数据库，根据预先训练的关联问题聚合模型，在问答式数据库包括的各个问题中，确定出至少一个关联问题集；将与关联问题集中的各关联问题分别对应的问答式结构数据进行合并，得到与各关联问题集对应的组合问答式数据；如果用户的问题搜索请求命中关联问题集中的一个关联问题，则获取与命中的关联问题集对应的组合问答式数据提供给用户，可以将已有的意思一致的问题的答案聚合在一起，展示，可以在用户搜索时，将聚合到一起的问题的答案一起展示给用户，优化问题的答案满足率，提高用户体验。

在上述各实施例的基础上，问题集确定模块802可以包括：

备选集确定单元，用于基于设定聚类技术，在问答式数据库中确定出至少一个关联问题备选集，关联问题备选集中包括至少两个关联备选问题；

问题集确定单元，用于将各关联问题备选集中的各关联备选问题输入至关联问题聚合模型，得到至少一个关联问题集。

在上述各实施例的基础上，数据提供模块804可以包括：

数据显示单元，用于将组合问答式数据中包括的至少两个问答式结构数据，分条目显示给用户。

在上述各实施例的基础上，数据提供模块804可以还包括：

数据调整单元，用于将问题搜索请求命中的关联问题集中的关联问题对应的问答式结构数据，作为组合问答式数据中的标准问答式结构数据，并将标准问答式结构数据调整至组合问答式数据的首位。

在上述各实施例的基础上，数据提供模块804可以还包括：

反馈渠道提供单元，用于分别在组合问答式数据分条目显示的各问答式结构数据中，提供用户反馈渠道，用户反馈渠道用于接收用户对组合问答式数据中的问答式结构数据的满意度；

所述装置可以还包括：

第一再训练模块，用于如果与目标组合问答式数据中的目标问答式结构数据对应的满意度满足设定模型调整条件，则根据目标组合问答式数据构造新的训练样本对关联问题聚合模型进行再训练。

在上述各实施例的基础上，模型再训练模块可以包括：

第一再训练单元，用于如果与目标组合问答式数据中的目标问答式结构数据对应的满意度高于第一阈值，且目标问答式结构数据不是目标组合问答式数据的标准问答式结构数据，则根据标准问答式结构数据中的问题以及目标问答式结构数据中的问题构造正例样本对关联问题聚合模型进行再训练；

和/或

第二再训练单元，用于如果目标问答式结构数据作为目标组合问答式数据中的标准问答式结构数据时，对应的满意度超过第二阈值，且所述目标问答式结构数据作为目标组合问答式数据中的非标准问答式结构数据时，对应的满意度低于第三阈值，则根据所述目标问答式结构数据中的问题以及目标组合问答式数据中其他的问答式结构数据中的问题构造负例样本对所述关联问题聚合模型进行再训练，并去除所述目标问答式结构数据与所述目标组合问答式数据之间的关联性。

在上述各实施例的基础上，关联问题聚合模型可以包括：二分类层，二分类层用于根据输入至关联问题聚合模型中的问题对的相似度与分类阈值之间的关系，输出问题对是否关联的结果；

所述装置可以还包括：问题对统计模块，用于统计输入至关联问题聚合模型中的，相似度与分类阈值的差异值满足设定阈值条件的至少一个目标问题对；

第二再训练模块，用于将目标问题对发送至人工标注平台进行标注，并使用人工标注平台对目标问题对的标注结果对关联问题聚合模型进行再训练。

上述问答式聚合装置可执行本发明任意实施例所提供的问答式聚合方法，具备执行问答式聚合方法相应的功能模块和有益效果。

实施例九

图9为本发明实施例九提供的一种计算机设备的结构示意图。图9示出了适于用来实现本发明实施方式的示例性计算机设备912的框图。图9显示的计算机设备912仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示，计算机设备912以通用计算设备的形式表现。计算机设备912的组件可以包括但不限于：一个或者多个处理器或者处理单元916，系统存储器928，连接不同系统组件(包括系统存储器928和处理单元916)的总线918。

总线918表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备912典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备912访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器928可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)930和/或高速缓存存储器932。计算机设备912可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统934可以用于读写不可移动的、非易失性磁介质(图9未显示，通常称为“硬盘驱动器”)。尽管图9中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线918相连。存储器928可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块942的程序/实用工具940，可以存储在例如存储器928中，这样的程序模块942包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块942通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备912也可以与一个或多个外部设备914(例如键盘、指向设备、显示器924等)通信，还可与一个或者多个使得用户能与该计算机设备912交互的设备通信，和/或与使得该计算机设备912能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口922进行。并且，计算机设备912还可以通过网络适配器920与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器920通过总线918与计算机设备912的其它模块通信。应当明白，尽管图9中未示出，可以结合计算机设备912使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元916通过运行存储在系统存储器928中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的关联问题聚合模型的生成方法。也即，根据至少两个用户的网络行为数据，获取第一数量的基础训练样本，并使用基础训练样本对第一机器学习模型进行训练，得到基础语义匹配模型；将基础语义匹配模型中的语义表示层迁移至第二机器学习模型中，并根据预先标注的第二数量的关联问题对，对第二机器学习模型进行训练，得到关联问题聚合模型；其中，第一数量大于第二数量。

又例如：实现本发明实施例所提供的问答式聚合方法。也即，获取问答式数据库，问答式数据库中包括问答式结构数据，问答式结构数据包括：问题，与问题对应的回答项，回答项中包括零个或者至少一个答案内容；根据预先训练的关联问题聚合模型，在问答式数据库包括的各个问题中，确定出至少一个关联问题集，关联问题集中包括至少两个关联问题；关联问题集合模型的输入为问题对，输出为问题对是否关联的结果；将与关联问题集中的各关联问题分别对应的问答式结构数据进行合并，得到与各关联问题集对应的组合问答式数据；如果用户的问题搜索请求命中关联问题集中的一个关联问题，则获取与命中的关联问题集对应的组合问答式数据提供给用户。

实施例十

本发明实施例十提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请所有发明实施例提供的关联问题聚合模型的生成方法：也即，该程序被处理器执行时实现：根据至少两个用户的网络行为数据，获取第一数量的基础训练样本，并使用基础训练样本对第一机器学习模型进行训练，得到基础语义匹配模型；将基础语义匹配模型中的语义表示层迁移至第二机器学习模型中，并根据预先标注的第二数量的关联问题对，对第二机器学习模型进行训练，得到关联问题聚合模型；其中，第一数量大于第二数量；

或者，实现如本申请所有发明实施例提供的问答式聚合方法：也即，该程序被处理器执行时实现：获取问答式数据库，问答式数据库中包括问答式结构数据，问答式结构数据包括：问题，与问题对应的回答项，回答项中包括零个或者至少一个答案内容；根据预先训练的关联问题聚合模型，在问答式数据库包括的各个问题中，确定出至少一个关联问题集，关联问题集中包括至少两个关联问题；关联问题集合模型的输入为问题对，输出为问题对是否关联的结果；将与关联问题集中的各关联问题分别对应的问答式结构数据进行合并，得到与各关联问题集对应的组合问答式数据；如果用户的问题搜索请求命中关联问题集中的一个关联问题，则获取与命中的关联问题集对应的组合问答式数据提供给用户。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种关联问题聚合模型的生成方法，其特征在于，包括：

根据至少两个用户的网络行为数据，获取第一数量的基础训练样本，并使用所述基础训练样本对第一机器学习模型进行训练，得到基础语义匹配模型；其中，所述第一机器学习模型包括：第一语义表示层、与所述第一语义表示层相连的第一全连接层、第二语义表示层、与所述第二语义表示层相连的第二全连接层、第三语义表示层、与所述第三语义表示层相连的第三全连接层、分别与所述第一全连接层以及所述第二全连接层相连的第一相似度计算层、以及分别与所述第二全连接层以及所述第三全连接层相连的第二相似度计算层；所述第一语义表示层以及所述第三语义表示层的结构相同，所述第一语义表示层与所述第二语义表示层的结构不同；其中，所述第二语义表示层，用于迁移至第二机器学习模型中；

将所述基础语义匹配模型中的语义表示层迁移至第二机器学习模型中，并根据预先标注的第二数量的关联问题对，对所述第二机器学习模型进行训练，得到所述关联问题聚合模型；其中，所述第二机器学习模型包括：第四语义表示层、与所述第四语义表示层相连的第一丢弃层、与所述第一丢弃层相连的第四全连接层、第五语义表示层、与所述第五语义表示层相连的第二丢弃层、与所述第二丢弃层相连的第五全连接层、以及分别与所述第四全连接层以及所述第五全连接层相连的二分类层；

其中，所述第一数量大于所述第二数量。

2.根据权利要求1所述的方法，其特征在于，根据至少两个用户的网络行为数据，获取第一数量的基础训练样本，包括：

获取至少两条用户的点击行为日志，所述点击行为日志包括：搜索式，基于所述搜索式召回的URL集合，以及用户基于所述URL集合选择的目标URL；

根据所述用户点击行为日志中，所述搜索式以及与所述目标URL对应的文本信息，构造正例样本；

根据所述用户点击行为日志中，所述搜索式以及基于所述搜索式召回的URL集合中除去所述目标URL之外的URL对应的文本信息，构造负例样本；

根据构造的所述正例样本以及所述负例样本，得到第一数量的所述基础训练样本。

3.根据权利要求2所述的方法，其特征在于，包括：

所述第一语义表示层以及所述第二语义表示层的组合，用于分别接收正例样本中的文本信息以及搜索式；所述第三语义表示层以及所述第二语义表示层的组合，用于分别接收负例样本中的文本信息以及搜索式；所述第一相似度计算层用于输出正例样本中的文本信息以及搜索式之间的相似度；所述第二相似度计算层用于输出负例样本中的文本信息以及搜索式之间的相似度。

4.根据权利要求1所述的方法，其特征在于，

所述第四语义表示层以及所述第五语义表示层的组合，用于分别接收所述关联问题对中的两个关联问题；所述二分类层用于输出所述两个关联问题是否关联的结果；

所述第四语义表示层与所述第五语义表示层的结构相同，且所述第四语义表示层与所述第五语义表示层为从所述基础语义匹配模型迁移的语义表示层。

5.根据权利要求4所述的方法，其特征在于，根据预先标注的第二数量的关联问题对，对所述第二机器学习模型进行训练，得到所述关联问题聚合模型，包括：

将所述第二数量的关联问题对划分为训练样本集合以及测试样本集合；

使用所述训练样本集合对所述第二机器学习模型进行训练，得到待调整的所述关联问题聚合模型；

将所述测试样本集合中的各测试样本输入至所述关联问题聚合模型，对所述关联问题聚合模型中的所述二分类层的分类阈值进行调整。

6.一种问答式聚合方法，其特征在于，包括：

获取问答式数据库，所述问答式数据库中包括问答式结构数据，所述问答式结构数据包括：问题，与所述问题对应的回答项，所述回答项中包括零个或者至少一个答案内容；

根据预先训练的如权利要求1-5中任一项所述的关联问题聚合模型，在所述问答式数据库包括的各个问题中，确定出至少一个关联问题集，所述关联问题集中包括至少两个关联问题；所述关联问题集合模型的输入为问题对，输出为所述问题对是否关联的结果；

将与所述关联问题集中的各关联问题分别对应的问答式结构数据进行合并，得到与各所述关联问题集对应的组合问答式数据；

如果用户的问题搜索请求命中关联问题集中的一个关联问题，则获取与命中的所述关联问题集对应的组合问答式数据提供给所述用户。

7.根据权利要求6所述的方法，其特征在于，根据预先训练的关联问题聚合模型，在所述问答式数据库包括的各个问题中，确定出至少一个关联问题集，包括：

基于设定聚类技术，在所述问答式数据库中确定出至少一个关联问题备选集，所述关联问题备选集中包括至少两个关联备选问题；

将各所述关联问题备选集中的各关联备选问题输入至所述关联问题聚合模型，得到至少一个所述关联问题集。

8.根据权利要求6或7所述的方法，其特征在于，获取与命中的所述关联问题集对应的组合问答式数据提供给所述用户，包括：

将所述组合问答式数据中包括的至少两个问答式结构数据，分条目显示给所述用户。

9.根据权利要求8所述的方法，其特征在于，在获取与命中的所述关联问题集对应的组合问答式数据提供给所述用户之前，还包括：

将所述问题搜索请求命中的所述关联问题集中的关联问题对应的问答式结构数据，作为所述组合问答式数据中的标准问答式结构数据，并将所述标准问答式结构数据调整至所述组合问答式数据的首位。

10.根据权利要求9所述的方法，其特征在于，将所述组合问答式数据中包括的至少两个问答式结构数据，分条目显示给所述用户，具体还包括：

分别在所述组合问答式数据分条目显示的各问答式结构数据中，提供用户反馈渠道，所述用户反馈渠道用于接收用户对组合问答式数据中的问答式结构数据的满意度；

所述方法还包括：

如果与目标组合问答式数据中的目标问答式结构数据对应的满意度满足设定模型调整条件，则根据所述目标组合问答式数据构造新的训练样本对所述关联问题聚合模型进行再训练。

11.根据权利要求10所述的方法，其特征在于，如果与目标组合问答式数据中的目标问答式结构数据对应的满意度满足设定模型调整条件，则根据所述目标组合问答式数据构造新的训练样本对所述关联问题聚合模型进行再训练，包括：

如果与目标组合问答式数据中的目标问答式结构数据对应的满意度高于第一阈值，且所述目标问答式结构数据不是所述目标组合问答式数据的标准问答式结构数据，则根据所述标准问答式结构数据中的问题以及所述目标问答式结构数据中的问题构造正例样本对所述关联问题聚合模型进行再训练；

和/或

如果目标问答式结构数据作为目标组合问答式数据中的标准问答式结构数据时，对应的满意度超过第二阈值，且所述目标问答式结构数据作为目标组合问答式数据中的非标准问答式结构数据时，对应的满意度低于第三阈值，则根据所述目标问答式结构数据中的问题以及目标组合问答式数据中其他的问答式结构数据中的问题构造负例样本对所述关联问题聚合模型进行再训练，并去除所述目标问答式结构数据与所述目标组合问答式数据之间的关联性。

12.根据权利要求6所述的方法，其特征在于，所述关联问题聚合模型包括：二分类层，所述二分类层用于根据输入至所述关联问题聚合模型中的问题对的相似度与分类阈值之间的关系，输出所述问题对是否关联的结果；

所述方法还包括：统计输入至所述关联问题聚合模型中的，相似度与所述分类阈值的差异值满足设定阈值条件的至少一个目标问题对；

将所述目标问题对发送至人工标注平台进行标注，并使用所述人工标注平台对所述目标问题对的标注结果对所述关联问题聚合模型进行再训练。

13.一种关联问题聚合模型的生成装置，其特征在于，包括：

第一模型训练模块，用于根据至少两个用户的网络行为数据，获取第一数量的基础训练样本，并使用所述基础训练样本对第一机器学习模型进行训练，得到基础语义匹配模型；其中，所述第一机器学习模型包括：第一语义表示层、与所述第一语义表示层相连的第一全连接层、第二语义表示层、与所述第二语义表示层相连的第二全连接层、第三语义表示层、与所述第三语义表示层相连的第三全连接层、分别与所述第一全连接层以及所述第二全连接层相连的第一相似度计算层、以及分别与所述第二全连接层以及所述第三全连接层相连的第二相似度计算层；所述第一语义表示层以及所述第三语义表示层的结构相同，所述第一语义表示层与所述第二语义表示层的结构不同；其中，所述第二语义表示层，用于迁移至第二机器学习模型中；

第二模型训练模块，用于将所述基础语义匹配模型中的语义表示层迁移至第二机器学习模型中，并根据预先标注的第二数量的关联问题对，对所述第二机器学习模型进行训练，得到所述关联问题聚合模型；其中，所述第二机器学习模型包括：第四语义表示层、与所述第四语义表示层相连的第一丢弃层、与所述第一丢弃层相连的第四全连接层、第五语义表示层、与所述第五语义表示层相连的第二丢弃层、与所述第二丢弃层相连的第五全连接层、以及分别与所述第四全连接层以及所述第五全连接层相连的二分类层；

其中，所述第一数量大于所述第二数量。

14.一种问答式聚合装置，其特征在于，包括：

数据库获取模块，用于获取问答式数据库，所述问答式数据库中包括问答式结构数据，所述问答式结构数据包括：问题，与所述问题对应的回答项，所述回答项中包括零个或者至少一个答案内容；

问题集确定模块，用于根据预先训练的如权利要求1-5中任一项所述的关联问题聚合模型，在所述问答式数据库包括的各个问题中，确定出至少一个关联问题集，所述关联问题集中包括至少两个关联问题；所述关联问题集合模型的输入为问题对，输出为所述问题对是否关联的结果；

数据获取模块，用于将与所述关联问题集中的各关联问题分别对应的问答式结构数据进行合并，得到与各所述关联问题集对应的组合问答式数据；

数据提供模块，用于如果用户的问题搜索请求命中关联问题集中的一个关联问题，则获取与命中的所述关联问题集对应的组合问答式数据提供给所述用户。

15.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-5中任一所述的关联问题聚合模型的生成方法，或者如权利要求6-12中任一所述的问答式聚合方法。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-5中任一所述的关联问题聚合模型的生成方法，或者如权利要求6-12中任一所述的问答式聚合方法。