CN113792153B

CN113792153B - 问答推荐方法及其装置

Info

Publication number: CN113792153B
Application number: CN202110982271.1A
Authority: CN
Inventors: 瞿康; 刘丽; 韩友; 阳锋
Original assignee: Beijing Dushang Software Technology Co ltd
Current assignee: Beijing Dushang Software Technology Co ltd
Priority date: 2021-08-25
Filing date: 2021-08-25
Publication date: 2023-12-12
Anticipated expiration: 2041-08-25
Also published as: CN113792153A

Abstract

本公开提供了一种问答推荐方法及其装置，涉及知识图谱领域，尤其涉及人工智能领域。具体实现方案为：采集历史搜索行为，基于历史搜索行为确定历史搜索词和历史候选问题；以历史搜索词为第一类节点，历史候选问题为第二类节点，基于历史搜索行为的行为标识，构建无向图；基于无向图和图神经网络，获取搜索词到问题之间的第一映射词表和问题到问题的第二映射词表；获取目标输入，将目标输入与第一映射词表和第二映射词表进行匹配，得到目标输入对应的推荐问题。本申请对用户历史搜索行为进行分析，获得历史搜索词和历史候选问题对应的无向图，通过无向图反应的各节点之间的关系，获取映射词表，从而对用户的输入进行准确的问题推荐。

Description

问答推荐方法及其装置

技术领域

本公开涉及知识图谱领域，尤其涉及大数据、深度学习、自然语言处理等人工智能领域，具体涉及一种问答推荐方法及其装置。

背景技术

用户通常需要通过搜索了解某一领域的某个特定问题以及相关扩展问题，相关技术中，在对用户的搜索进行相关推荐时，通常采用根据文本的相似度进行推荐，无法兼顾语义相关性和非文本语义的潜在行为相关性。

发明内容

本公开提供了一种问答推荐方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种问答推荐方法，通过采集历史搜索行为，并基于所述历史搜索行为确定历史搜索词和历史候选问题；以所述历史搜索词为第一类节点，所述历史候选问题为第二类节点，基于所述历史搜索行为的行为标识，构建无向图；基于所述无向图和图神经网络，获取搜索词到问题之间的第一映射词表和/或问题到问题的第二映射词表；获取目标输入，并将所述目标输入与所述第一映射词表和/或所述第二映射词表进行匹配，得到所述目标输入对应的推荐问题。

本申请提供的问答推荐方法，通过对用户历史搜索行为进行分析，获得历史搜索词和历史候选问题对应的无向图，通过无向图反应的各节点之间的关系，获取到准确的映射词表，从而根据映射词表对用户的输入进行准确的问题推荐。

根据本公开的另一方面，提供了一种问答推荐装置，包括：行为获取模块，用于采集历史搜索行为，并基于所述历史搜索行为确定历史搜索词和历史候选问题；无向图构建模块，用于以所述历史搜索词为第一类节点，所述历史候选问题为第二类节点，基于所述历史搜索行为的行为标识，构建无向图；词表获取模块，用于基于所述无向图和图神经网络，获取搜索词到问题之间的第一映射词表和/或问题到问题的第二映射词表；问题获取模块，用于获取目标输入，并将所述目标输入与所述第一映射词表和/或所述第二映射词表进行匹配，得到所述目标输入对应的推荐问题。

本申请提供的问答推荐装置，通过对用户历史搜索行为进行分析，获得历史搜索词和历史候选问题对应的无向图，通过无向图反应的各节点之间的关系，获取到准确的映射词表，从而根据映射词表对用户的输入进行准确的问题推荐。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述问答推荐方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上述问答推荐方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现上述问答推荐方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开一示例性实施例问答推荐方法的示意图。

图2是根据本公开一示例性实施例的无向图的示意图。

图3是根据本公开一示例性实施例的基于历史搜索行为确定历史搜索词和历史候选问题的示意图。

图4是根据本公开一示例性实施例的基于历史搜索词和历史候选问题对应的三元组生成无向图的示意图。

图5是根据本公开一示例性实施例的获取历史搜索词和历史候选问题对应的三元组的示意图。

图6是根据本公开一示例性实施例的构建无向图的示意图。

图7是根据本公开一示例性实施例的获取搜索词到问题之间的第一映射词表和/或问题到问题的第二映射词表的示意图。

图8是根据本公开一示例性实施例的从无向图中采样样本子图的示意图。

图9是根据本公开一示例性实施例的获取无向图中每个节点最终的节点融合向量的示意图。

图10是根据本公开一示例性实施例的问答推荐方法的总体示意图。

图11是根据本公开一示例性实施例的问答推荐装置的示意图。

图12是根据本公开一示例性实施例的电子设备的示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

知识图谱，是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合，并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。

深度学习(Deep Learning，简称DL)，是机器学习(Machine Learning，简称ML)领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能。深度学习是学习样本数据的内在律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。

计算机视觉(Computer Vision)，是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。这里所指的信息指Shannon定义的，可以用来帮助做一个“决定”的信息。因为感知可以看作是从感官信号中提取信息，所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。

人工智能(Artificial Intelligence，简称AI)，是研究使计算机来模拟人生的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术，也有软件层面的技术。人工智能硬件技术一般包括计算机视觉技术、语音识别技术、自然语言处理技术以及及其学习/深度学习、大数据处理技术、知识图谱技术等几大方面。

大数据(big data)，或称巨量资料，指的是所涉及的资料量规模巨大到无法透过目前主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系，但又有重要的区别。自然语言处理并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统，特别是其中的软件系统。因而它是计算机科学的一部分

图1是本申请提出的一种问答推荐方法的示例性实施方式，如图1所示，该问答推荐方法，包括以下步骤：

S101，采集历史搜索行为，并基于历史搜索行为确定历史搜索词和历史候选问题。

为了对大量用户的搜索数据进行网络构建和学习，需要对大量用户的历史搜索行为进行采集与处理。在采集历史搜索行为后，通过对历史搜索行为的分析，从中确定大量用户曾经搜索过的搜索词，作为历史搜索词(query)。

除此之外，若历史搜索行为中出现了对话数据，从历史对话数据中，确定历史候选问题(question)。比如说，若用户点进去某个公司的网页，并没有在该公司的主页上寻找到自己想要了解的信息，该用户可能会在该公司网页进行留言或者在线咨询，就会产生对话数据，从这些对话数据中，能提取出用户咨询的问题。

S102，以历史搜索词为第一类节点，历史候选问题为第二类节点，基于历史搜索行为的行为标识，构建无向图。

根据历史搜索词和历史候选问题的行为标识构建无向图，其中，无向图指的是边没有方向的图。其中，行为标识用于标识用户的搜索行为，由于用户可能在同一个行为标识下进行连续搜索或连续对话，同一个行为标识可能会对应多个历史搜索词或多个历史候选问题。

可选地，历史搜索词和历史候选问题的行为标识可为其各自对应的id地址。进行无向图构建，首先需要确定无向图的节点，将上述历史搜索词作为第一类节点，记为query_node，每个第一类节点都有其对应的行为标识；将上述历史候选问题作为第二类节点，记为question_node，每个第二类节点都有其对应的语义标识。如图2所示，基于第一类节点和第二类节点的行为标识，将第一类节点和第二类节点用边连接起来，从而构建出无向图。其中，边可以通过其对应的权重体现出该边所连接的两个节点的热度。

S103，基于无向图和图神经网络，获取搜索词到问题之间的第一映射词表和/或问题到问题的第二映射词表。

图神经网络(Graph Neural Networks，GNN)是一种直接在图结构上运行的神经网络,由节点(nodes)和边(edges)组成，一般情况下，边可以是有向的或无向的，本申请实施例中，用的是无向图，边为无向的。

基于图神经网络对上述第一类节点、第二类节点以及边构成的无向图中每个节点进行特征获取，并基于获取到节点的特征进行搜索词与问题之间相似度的处理，并根据获取的相似度获得搜索词到问题之间的第一映射词表。例如，可以选取高频的历史搜索词与历史候选问题之间相似度高的预设个数的问题，与高频的历史搜索词建立映射关系，生成第一映射词表。

类似地，基于获取到的节点的特征进行问题与问题之间相似度的处理，并根据获取的相似度获得问题与问题之间的第二映射词表。例如，可以选取高频的历史候选问题与历史候选问题之间相似度高的预设个数的问题，与高频的历史候选问题建立映射关系，生成第二映射词表。

S104，获取目标输入，并将目标输入与第一映射词表和/或第二映射词表进行匹配，得到目标输入对应的推荐问题。

在用户进行搜索时，可将用户输入的搜索词或用户点击进入的网页作为目标输入，将目标输入与上述获得的第一映射词表和/或第二映射词表进行匹配，获得与目标输入相关度较高的推荐问题，并将所获得的推荐问题按照相关度高低进行排序，向终端设备推荐预设个数的推荐问题。

举例说明，若用户进入某医院的网页进行询问时，在该医院的咨询框输入“耳鸣”，则该医院的咨询框中按照有关耳鸣的问题相关度进行推送问题，比如说：“耳鸣是什么原因造成的”、“耳鸣应该注意什么”、“耳鼻喉科上班时间是几点”等。

本申请提出了一种问答推荐方法，通过采集历史搜索行为，并基于历史搜索行为确定历史搜索词和历史候选问题；以历史搜索词为第一类节点，历史候选问题为第二类节点，基于历史搜索行为的行为标识，构建无向图；基于无向图和图神经网络，获取搜索词到问题之间的第一映射词表和/或问题到问题的第二映射词表；获取目标输入，并将目标输入与第一映射词表和/或第二映射词表进行匹配，得到目标输入对应的推荐问题。本申请通过对用户历史搜索行为进行分析，获得历史搜索词和历史候选问题对应的无向图，通过无向图反应的各节点之间的关系，获取到准确的映射词表，从而根据映射词表对用户的输入进行准确的问题推荐。

图3是本申请提出的一种问答推荐方法的示例性实施方式，如图3所示，基于历史搜索行为确定历史搜索词和历史候选问题，包括以下步骤：

S301，基于历史搜索行为，获取历史搜索词。

对用户的历史搜索行为的数据进行提取，获取历史搜索词。其中，历史搜索词为用户直接在搜索框输入的搜索词。

S302，响应于历史搜索行为存在历史对话数据，从历史对话数据中提取对话问题作为历史候选问题。

若历史搜索行为中存在对话，采用问题识别(question identification)模型判断历史对话数据中的语句是否是一个问题，并将历史对话数据中判断为问题的语句记录下来，作为历史候选问题。可选地，还可以基于关键词判断历史对话数据中的语句是否是一个问题，比如说，若历史对话的某个语句中出现“是不是”、“会不会”、“吗”、“对不对”、“哪里”、“多少”等关键词时，可判断该语句是一个问题，将其记录下来，作为历史候选问题。

本申请实施例基于历史搜索行为确定历史搜索词和历史候选问题，对历史数据进行处理和分析，有利于后续获得更准确的图神经网络。

图4是本申请提出的一种问答推荐方法的示例性实施方式，如图4所示，采集历史搜索行为，基于历史搜索行为确定历史搜索词之后，还包括以下步骤：

S401，获取历史搜索词的语义向量。

由上述，基于历史搜索行为确定历史搜索词之后，为了后续图神经网络的训练，需要获取历史搜索词的语义向量。可选地，在获取历史搜索词的语义向量时，可采用深度剖析知识增强语义表示模型(Enhanced Language Representation with InformativeEntities，ERNIE)，进行历史搜索词的语义向量的提取，获得历史搜索词对应的第一语义向量，记为embedding1。

S402，基于历史搜索词所归属的行为标识、历史搜索词和历史搜索词的语义向量，形成历史搜索词的三元组。

获取历史搜索词对应的搜索页面的id地址，作为该历史搜索词所归属的行为标识，将历史搜索词所归属的行为标识记为search_id。如图5所示，将历史搜索词所归属的行为标识、历史搜索词和历史搜索词的语义向量组成一个历史搜索词的三元组，记为<search_id,query,embedding1>。

S403,获取历史候选问题的语义向量。

基于历史搜索行为确定历史候选问题之后，为了后续图神经网络的训练，需要获取历史候选问题的语义向量。可选地，在获取历史候选问题的语义向量时，可采用ERNIE模型进行历史候选问题的语义向量的提取，获得历史候选问题对应的第二语义向量，记为embedding2。

S404,基于历史候选问题所归属的行为标识、历史候选问题和历史候选问题的语义向量，形成历史候选问题的三元组。

获取历史候选问题对应的搜索页面的id地址，作为该历史候选问题所归属的行为标识，由于历史搜索词和历史候选问题可能是由同一个搜索页面获得，将历史候选问题所归属的行为标识同样记为search_id。如图5所示，将历史候选问题所归属的行为标识、历史候选问题和历史候选问题的语义向量组成一个历史候选问题的三元组，记为<search_id,question,embedding2>。

S405，以历史搜索词为第一类节点，历史候选问题为第二类节点，基于历史搜索行为的行为标识，构建无向图。

其中，无向图中携带历史搜索词的三元组和历史候选问题的三元组。

关于步骤S403的具体的介绍参见上述实施例中相关内容的记载，此处步骤赘述。

本申请实施例通过获取历史候选问题的三元组，便于后续基于历史候选问题所归属的行为标识、历史候选问题和历史候选问题的语义向量构建无向图。

图6是本申请提出的一种问答推荐方法的示例性实施方式，如图6所示，基于上述实施例的基础上，基于历史搜索行为的行为标识，构建无向图，包括以下步骤：

S601，获取归属于同一行为标识的第一类节点和第二类节点，并建立边连接。

获取上述历史搜索词对应的所有第一类节点和历史候选问题对应的所有第二类节点。图2为关于第一类节点和第二类节点的无向图的示意图，如图2所示，根据行为标识，即根据search_id进行无向图的构建，将归属于同一行为标识的第一类节点和第二类节点用边连接起来。比如说，若某个历史搜索词和某个历史候选问题的行为标识search_id是相同的，则将该历史搜索词对应的第一类节点query_node与该历史候选问题对应的第二类节点question_node用边连接起来。

S602，获取归属于同一行为标识的第二类节点的出现顺序，并按照出现顺序，依次在归属于同一行为标识的第二类节点之间建立边连接。

获取历史候选问题对应的所有第二类节点，按照归属于同一search_id的历史候选问题的出现顺序，对归属于同一search_id的第二类节点进行排序。如图6所示，按照第二类节点的顺序，将归属于同一search_id的第二类节点用边建立连接。

为了体现某个历史搜索词或某个历史候选问题的热度，需要获取任一边所连接两个节点归属于不同行为标识的次数并进行记录，将同一个边所连接的两个节点同时出现的所有行为标识的个数，作为该边的权重。比如说某个边所连接的两个节点都为历史候选问题，其中一个历史候选问题对应80个search_id，另一个历史候选问题对应100个search_id，而这两个节点有25个search_id是相同的，则认为连接这两个节点的边的权重为25。

本申请实施例通过构建无向图，可以通过无向图体现出用户历史搜索行为与历史搜索行为对应的频次热度，便于构建图神经网络对用户进行问题推送。

图7是本申请提出的一种问答推荐方法的示例性实施方式，如图7所示，基于上述实施例的基础上，基于无向图和图神经网络，获取搜索词到问题之间的第一映射词表和/或问题到问题的第二映射词表，包括以下步骤：

S701，以无向图中任一个节点为目标节点，从无向图中采样目标节点对应的样本子图。

图8为从无向图中采样样本子图的示意图，如图8所示，以无向图中任一个节点为目标节点，从无向图中提取目标节点和目标节点的邻居节点以及节点之间的边，生成样本子图。由于每个边都有其对应的权重，为了使样本子图的边同样能反应某个历史搜索词或某个历史候选问题的热度，在采样无向图的样本子图时，需要获取无向图中每个边的权重。如果边的权重很小，说明此边所连接的两个节点出现的频率很小，那么可以认为此边所连接的两个节点可能是噪声，为了使无向图中节点和边的质量更高，可以基于每个边的权重，从无向图中识别出现频次高的候选边，并调高候选边的采样权重。

S702，基于样本子图对图神经网络进行训练，以获取无向图中每个节点最终的节点融合向量。

如图9所示，基于样本子图对图神经网络进行训练，以获取无向图中每个节点最终的节点融合向量，包括以下步骤：

S901，将多个样本子图组成的样本子图组输入图神经网络中，由图神经网络对样本子图中的节点进行语义向量融合，以输出样本子图中目标节点的节点融合向量。

从无向图中采样的多个样本子图，将多个样本子图组成一个样本子图组，将样本子图组输入图神经网络中，由图神经网络中的特征融合层，通过聚合函数(Aggregators)建模自身节点和邻居节点的语义与结构关系，基于样本子图中节点之间边的权重，对样本子图中每个节点的语义向量进行加权，得到加权融合向量。将加权融合向量与目标节点的语义向量拼接，生成节点拼接向量。由图神经网络中的全连接层对节点拼接向量进行全连接，以得到目标节点的节点融合向量。

S902，根据样本子图组中包含的目标节点的节点融合向量，确定图神经网络的损失函数，并基于损失函数对图神经网络进行调整，并返回使用下一个样本子图组对调整后的图神经网络继续训练，直至训练结束得到目标图神经网络。

获得样本子图组中包含的目标节点的节点融合向量后，由于样本子图组中包括多个样本子图，可从多个样本子图中随机选取出一部分样本子图作为正样本和另一部分样本子图作为负样本。其中，正样本为出现频率较高的节点对应的样本子图，负样本可以为出现频率很低或者为与选为正样本的节点不相连的节点所对应的样本子图。本公开中，基于相近节点向量距离更近，不相关节点向量距离更远的原则选取损失函数，在确定正样本和负样本后，基于正样本的节点融合向量和负样本对应的节点融合向量，计算正样本和负样本之间的相似距离，进而确定图神经网络的损失函数。

获得图神经网络的损失函数后，基于损失函数对图神经网络进行调整，得到调整后的图神经网络，返回使用下一个样本子图组对调整后的图神经网络采取无监督训练的方式继续训练，直至训练结束得到目标图神经网络。

S903，从无向图中提取每个节点的目标子图，并输入目标神经网络进行语义向量融合，以获取无向图中每个节点最终的节点融合向量。

从无向图中提取每个节点的目标子图，将多个目标子图组成一个目标子图组，将目标子图组输入图神经网络中，由图神经网络中的特征融合层，通过聚合函数(Aggregators)建模自身节点和邻居节点的语义与结构关系，基于目标子图中节点之间边的权重，对目标子图中每个节点的语义向量进行加权，得到加权融合向量。将加权融合向量与目标子图中每个节点的语义向量拼接，生成节点拼接向量。由图神经网络中的全连接层对节点拼接向量进行全连接，以得到目标子图中每个节点的最终的节点融合向量，从而得到无向图中每个节点最终的节点融合向量。

S703，以历史搜索词和历史候选问题作为候选对象，从候选对象中获取出现频率大于各自设定频率的目标对象。

将历史搜索词作为候选对象，对历史搜索词设置一个设定频率，判断每个历史搜索词的出现频率与设定频率的大小关系，若存在历史搜索词的出现频率大于其对应的设定频率，将该历史搜索词作为目标对象。其中，每个历史搜索词的出现频率为该历史搜索词的出现次数与所有历史搜索词的总出现次数的比值，通过该出现频率可以表征该历史搜索词的热度。

与获取历史搜索词的目标对象类似，将历史候选问题作为候选对象，对历史候选问题设置一个设定频率，判断每个历史候选问题的出现频率与设定频率的大小关系，若存在历史候选问题的出现频率大于其对应的设定频率，将该历史候选问题作为目标对象。其中，每个历史候选问题的出现频率为该历史候选问题的出现次数与所有历史候选问题的总出现次数的比值，通过该出现频率可以表征该历史候选问题的热度。

S704，基于目标对象对应的节点融合向量，生成目标映射词表，其中，目标映射词表为第一映射词表或为第二映射词表。

根据上述确定的历史搜索词中的目标对象，获取历史搜索词中的目标对象对应的节点融合向量，构建最近邻检索的索引，通过历史搜索词中的目标对象在最近邻检索中召回的top K的历史候选问题，生成搜索词到问题之间的第一映射词表。

类似的，根据上述确定的历史候选问题中的目标对象，获取历史候选问题中的目标对象对应的节点融合向量，构建最近邻检索的索引，通过历史候选问题中的目标对象在最近邻检索中召回的top K的历史候选问题，生成问题到问题之间的第二映射词表。

本申请实施例构建的图神经网络，不仅考虑了各节点的语义，还考虑了各节点之间的结构关系，使得节点的表达更加准确，从而获取到搜索词到问题之间的第一映射词表，以及问题到问题的第二映射词表，根据用户的输入，系统可以基于映射词表，得到用户的输入对应的推荐问题。

图10是本申请提出的一种问答推荐方法的示例性实施方式，如图10所示，该问答推荐方法，包括以下步骤：

S1001，采集历史搜索行为，并基于历史搜索行为确定历史搜索词和历史候选问题。

S1002，以历史搜索词为第一类节点，历史候选问题为第二类节点，基于历史搜索行为的行为标识，构建无向图。

S1003，以无向图中任一个节点为目标节点，从无向图中采样目标节点对应的样本子图。

S1004，将多个样本子图组成的样本子图组输入图神经网络中，由图神经网络对样本子图中的节点进行语义向量融合，以输出样本子图中目标节点的节点融合向量。

S1005，根据样本子图组中包含的目标节点的节点融合向量，确定图神经网络的损失函数，并基于损失函数对图神经网络进行调整，并返回使用下一个样本子图组对调整后的图神经网络继续训练，直至训练结束得到目标图神经网络。

S1006，从无向图中提取每个节点的目标子图，并输入目标神经网络进行语义向量融合，以获取无向图中每个节点最终的节点融合向量。

关于S1004～S1006,上述实施例已做具体介绍，在此不再进行赘述。

S1007，以历史搜索词和历史候选问题作为候选对象，从候选对象中获取出现频率大于各自设定频率的目标对象。

S1008，基于目标对象对应的节点融合向量，生成目标映射词表，其中，目标映射词表为第一映射词表或为第二映射词表。

关于S1007～S1008,上述实施例已做具体介绍，在此不再进行赘述。

S1009，获取目标输入，并将目标输入与第一映射词表和/或第二映射词表进行匹配，得到目标输入对应的推荐问题。

图11是本申请提出的一种问答推荐装置的示意图，如图11所示，该问答推荐装置1100包括：行为获取模块1101、无向图构建模块1102、词表获取模块1103和问题获取模块1104，其中：

行为获取模块1101，用于采集历史搜索行为，并基于历史搜索行为确定历史搜索词和历史候选问题。

无向图构建模块1102，用于以历史搜索词为第一类节点，历史候选问题为第二类节点，基于历史搜索行为的行为标识，构建无向图。

词表获取模块1103，用于基于无向图和图神经网络，获取搜索词到问题之间的第一映射词表和/或问题到问题的第二映射词表。

问题获取模块1104，用于获取目标输入，并将目标输入与第一映射词表和/或第二映射词表进行匹配，得到目标输入对应的推荐问题。

进一步地，无向图构建模块1102，还用于：获取归属于同一行为标识的第一类节点和第二类节点，并建立边连接；获取归属于同一行为标识的第二类节点的出现顺序，并按照出现顺序，依次在归属于同一行为标识的第二类节点之间建立边连接。

进一步地，无向图构建模块1102，还用于：获取任一边所连接两个节点归属于不同行为标识的次数；基于任一边的次数，确定任一边的权重。

进一步地，词表获取模块1103，还用于：以无向图中任一个节点为目标节点，从无向图中采样目标节点对应的样本子图；基于样本子图对图神经网络进行训练，以获取无向图中每个节点最终的节点融合向量；以历史搜索词和历史候选问题作为候选对象，从候选对象中获取出现频率大于各自设定频率的目标对象；基于目标对象对应的节点融合向量，生成目标映射词表，其中，目标映射词表为第一映射词表或为第二映射词表。

进一步地，词表获取模块1103，还用于：将多个样本子图组成的样本子图组输入图神经网络中，由图神经网络对样本子图中的节点进行语义向量融合，以输出样本子图中目标节点的节点融合向量；根据样本子图组中包含的目标节点的节点融合向量，确定图神经网络的损失函数，并基于损失函数对图神经网络进行调整，并返回使用下一个样本子图组对调整后的图神经网络继续训练，直至训练结束得到目标图神经网络；从无向图中提取每个节点的目标子图，并输入目标神经网络进行语义向量融合，以获取无向图中每个节点最终的节点融合向量。

进一步地，词表获取模块1103，还用于：由图神经网络中的特征融合层，基于样本子图中节点之间边的权重，对样本子图中每个节点的语义向量进行加权，得到加权融合向量；将加权融合向量与目标节点的语义向量拼接，生成节点拼接向量；由图神经网络中的全连接层对节点拼接向量进行全连接，以得到目标节点的节点融合向量。

进一步地，词表获取模块1103，还用于：从无向图中提取目标节点和目标节点的邻居节点以及节点之间的边，生成样本子图。

进一步地，词表获取模块1103，还用于：获取无向图中每个边的权重，基于边线的权重，从无向图中识别出现频次高的候选边，并调高候选边的采样权重。

进一步地，行为获取模块1101，还用于：获取历史搜索词的语义向量；基于历史搜索词所归属的行为标识、历史搜索词和历史搜索词的语义向量，形成历史搜索词的三元组，无向图中携带历史搜索词的三元组。

进一步地，行为获取模块1101，还用于：获取历史候选问题的语义向量；基于历史候选问题所归属的行为标识、历史候选问题和历史候选问题的语义向量，形成历史候选问题的三元组，无向图中携带历史候选问题的三元组。

进一步地，行为获取模块，还用于：基于历史搜索行为，获取历史搜索词；响应于历史搜索行为存在历史对话数据，从历史对话数据中提取对话问题作为历史候选问题。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图12示出了可以用来实施本公开的实施例的示例电子设备1200的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图12所示，设备1200包括计算单元1201，其可以根据存储在只读存储器(ROM)1202中的计算机程序或者从存储单元1208加载到随机访问存储器(RAM)1203中的计算机程序，来执行各种适当的动作和处理。在RAM 1203中，还可存储设备1200操作所需的各种程序和数据。计算单元1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(I/O)接口1205也连接至总线1204。

设备1200中的多个部件连接至I/O接口1205，包括：输入单元1206，例如键盘、鼠标等；输出单元1207，例如各种类型的显示器、扬声器等；存储单元1208，例如磁盘、光盘等；以及通信单元1209，例如网卡、调制解调器、无线通信收发机等。通信单元1209允许设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1201的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和处理，例如问答推荐方法。例如，在一些实施例中，问答推荐方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1208。在一些实施例中，计算机程序的部分或者全部可以经由ROM1202和/或通信单元1209而被载入和/或安装到设备1200上。当计算机程序加载到RAM 1203并由计算单元1201执行时，可以执行上文描述的问答推荐方法的一个或多个步骤。备选地，在其他实施例中，计算单元1201可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行问答推荐方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种问答推荐方法，包括：

采集历史搜索行为，并基于所述历史搜索行为确定历史搜索词和历史候选问题；

以所述历史搜索词为第一类节点，所述历史候选问题为第二类节点，基于所述历史搜索行为的行为标识，构建无向图；

基于所述无向图和图神经网络，获取搜索词到问题之间的第一映射词表和/或问题到问题的第二映射词表；

获取目标输入，并将所述目标输入与所述第一映射词表和/或所述第二映射词表进行匹配，得到所述目标输入对应的推荐问题；

其中，所述基于所述无向图和图神经网络，获取搜索词到问题之间的第一映射词表和/或问题到问题的第二映射词表，包括：

以所述无向图中任一个节点为目标节点，从所述无向图中采样所述目标节点对应的样本子图；

基于所述样本子图对所述图神经网络进行训练，以获取所述无向图中每个节点最终的节点融合向量；

以所述历史搜索词和历史候选问题作为候选对象，从所述候选对象中获取出现频率大于各自设定频率的目标对象；

基于所述目标对象对应的节点融合向量，生成目标映射词表，其中，所述目标映射词表为所述第一映射词表和/或为所述第二映射词表；

所述基于所述目标对象对应的节点融合向量，生成目标映射词表，其中，所述目标映射词表为所述第一映射词表和/或为所述第二映射词表，包括：

根据确定的所述历史搜索词中的目标对象，获取所述历史搜索词中的所述目标对象对应的节点融合向量，构建最近邻检索的索引；

通过所述历史搜索词中的所述目标对象在最近邻检索中召回的top K的历史候选问题，生成所述搜索词到问题之间的第一映射词表；

和/或，根据确定的所述历史候选问题中的目标对象，获取所述历史候选问题中的所述目标对象对应的节点融合向量，构建最近邻检索的索引；

通过所述历史候选问题中的所述目标对象在最近邻检索中召回的top K的历史候选问题，生成所述问题到问题之间的第二映射词表。

2.根据权利要求1所述的方法，其中，所述基于所述历史搜索行为的行为标识，构建无向图，包括：

获取归属于同一行为标识的第一类节点和第二类节点，并建立边连接；

获取归属于同一行为标识的第二类节点的出现顺序，并按照所述出现顺序，依次在所述归属于同一行为标识的第二类节点之间建立边连接。

3.根据权利要求2所述的方法，其中，所述方法还包括：

获取任一边所连接两个节点归属于不同所述行为标识的次数；

基于所述任一边的次数，确定所述任一边的权重。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述基于所述样本子图对所述图神经网络进行训练，以获取所述无向图中每个节点最终的节点融合向量，包括：

将多个所述样本子图组成的样本子图组输入图神经网络中，由所述图神经网络对所述样本子图中的节点进行语义向量融合，以输出所述样本子图中目标节点的节点融合向量；

根据所述样本子图组中包含的所述目标节点的节点融合向量，确定所述图神经网络的损失函数，并基于所述损失函数对所述图神经网络进行调整，并返回使用下一个样本子图组对调整后的图神经网络继续训练，直至训练结束得到目标图神经网络；

从所述无向图中提取每个节点的目标子图，并输入所述目标图神经网络进行语义向量融合，以获取所述无向图中每个节点最终的节点融合向量。

5.根据权利要求4所述的方法，其中，所述由所述图神经网络对所述样本子图中的节点进行语义向量融合，以输出所述样本子图中目标节点的节点融合向量，包括：

由所述图神经网络中的特征融合层，基于所述样本子图中节点之间边的权重，对所述样本子图中每个节点的语义向量进行加权，得到加权融合向量；

将所述加权融合向量与所述目标节点的语义向量拼接，生成节点拼接向量；

由所述图神经网络中的全连接层对所述节点拼接向量进行全连接，以得到所述目标节点的节点融合向量。

6.根据权利要求1-3任一项所述的方法，其中，所述以所述无向图中任一个节点为目标节点，从所述无向图中采样所述目标节点对应的样本子图，包括：

从所述无向图中提取所述目标节点和所述目标节点的邻居节点以及节点之间的边，生成所述样本子图。

7.根据权利要求6所述的方法，其中，所述方法还包括：

获取所述无向图中每个边的权重，基于所述边的权重，从所述无向图中识别出现频次高的候选边，并调高所述候选边的采样权重。

8.根据权利要求1所述的方法，其中，所述方法还包括：

获取所述历史搜索词的语义向量；

基于所述历史搜索词所归属的行为标识、所述历史搜索词和所述历史搜索词的语义向量，形成所述历史搜索词的三元组，所述无向图中携带所述历史搜索词的三元组。

9.根据权利要求1所述的方法，其中，所述方法还包括：

获取所述历史候选问题的语义向量；

基于所述历史候选问题所归属的行为标识、所述历史候选问题和所述历史候选问题的语义向量，形成所述历史候选问题的三元组，所述无向图中携带所述历史候选问题的三元组。

10.根据权利要求1所述的方法，其中，所述基于所述历史搜索行为确定历史搜索词和历史候选问题，包括：

基于所述历史搜索行为，获取历史搜索词；

响应于所述历史搜索行为存在历史对话数据，从所述历史对话数据中提取对话问题作为历史候选问题。

11.一种问答推荐装置，包括：

行为获取模块，用于采集历史搜索行为，并基于所述历史搜索行为确定历史搜索词和历史候选问题；

无向图构建模块，用于以所述历史搜索词为第一类节点，所述历史候选问题为第二类节点，基于所述历史搜索行为的行为标识，构建无向图；

词表获取模块，用于基于所述无向图和图神经网络，获取搜索词到问题之间的第一映射词表和/或问题到问题的第二映射词表；

问题获取模块，用于获取目标输入，并将所述目标输入与所述第一映射词表和/或所述第二映射词表进行匹配，得到所述目标输入对应的推荐问题；

其中，所述词表获取模块，还用于：

所述词表获取模块，还用于：

12.根据权利要求11所述的装置，其中，所述无向图构建模块，还用于：

13.根据权利要求12所述的装置，其中，所述无向图构建模块，还用于：

基于所述任一边的次数，确定所述任一边的权重。

14.根据权利要求11-13任一项所述的装置，其中，所述词表获取模块，还用于：

15.根据权利要求14所述的装置，其中，所述词表获取模块，还用于：

16.根据权利要求11-13任一项所述的装置，其中，所述词表获取模块，还用于：

17.根据权利要求16所述的装置，其中，所述词表获取模块，还用于：

18.根据权利要求11所述的装置，其中，所述行为获取模块，还用于：

获取所述历史搜索词的语义向量；

19.根据权利要求11所述的装置，其中，所述行为获取模块，还用于：

获取所述历史候选问题的语义向量；

20.根据权利要求11所述的装置，其中，所述行为获取模块，还用于：

基于所述历史搜索行为，获取历史搜索词；

21.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-10中任一项所述的方法。