CN108491421B

CN108491421B - 一种生成问答的方法、装置、设备和计算存储介质

Info

Publication number: CN108491421B
Application number: CN201810120655.0A
Authority: CN
Inventors: 黄际洲; 孙雅铭
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-02-07
Filing date: 2018-02-07
Publication date: 2021-04-16
Anticipated expiration: 2038-02-07
Also published as: CN108491421A

Abstract

本发明提供了一种生成问答的方法、装置、设备和计算机存储介质，其中方法包括：利用预先训练得到的问题生成模型，针对输入的图像生成问题；对所述问题进行实体和属性识别，得到所述问题的实体和属性；利用知识图谱查询所述实体的所述属性的值，作为所述问题的答案。本发明能够基于图像自动生成问答，从而方便用户获取知识，提高趣味性。

Description

一种生成问答的方法、装置、设备和计算存储介质

【技术领域】

本发明涉及计算机应用技术领域，特别涉及一种生成问答的方法、装置、设备和计算机存储介质。

【背景技术】

图像通常包含丰富的语义信息和知识信息，用户在了解一些信息的同时往往需要配合图像作为更直观的辅助。在现有的图像搜索技术中，用户在图像的搜索结果页中能够获取图像的描述文档。但用户仍需要浏览大量图文来获取知识，一方面需要耗费较多的时间和精力，另一方面阅读冗长文档的趣味性也较差。

【发明内容】

有鉴于此，本发明提供了一种生成问答的方法、装置、设备和计算机存储介质，能够基于图像自动生成问答，从而方便用户获取知识，提高趣味性。

具体技术方案如下：

本发明提供了一种生成问答的方法，该方法包括：

利用预先训练得到的问题生成模型，针对输入的图像生成问题；

对所述问题进行实体和属性识别，得到所述问题的实体和属性；

利用知识图谱查询所述实体的所述属性的值，作为所述问题的答案。

根据本发明一具体实施方式，所述问题生成模型采用如下方式训练得到：

获取训练数据，所述训练数据包括问题型query以及该问题型query对应的被点击搜索结果包含的图像；

将训练数据中的图像作为输入、对应的问题型query作为输出，训练包含CNN和RNN的神经网络模型，得到问题生成模型。

根据本发明一具体实施方式，所述获取训练数据包括：

从搜索日志中获取搜索次数大于或等于预设搜索次数阈值，或获取搜索频率大于或等于预设搜索频率阈值的问题型query。

根据本发明一具体实施方式，所述获取训练数据包括：

从搜索日志中获取问题型query对应的被点击搜索结果包含的图像中，被点击次数超过预设次数阈值的图像，作为训练数据中所述问题型query对应的图像。

根据本发明一具体实施方式，所述问题生成模型中，所述CNN用于将输入的图像映射至语义空间，得到图像的语义向量；

所述RNN用于基于图像的语义向量预测词序列，得到图像的问题。

根据本发明一具体实施方式，对所述问题进行实体和属性识别，得到所述问题的实体和属性包括：

对所述问题进行实体和属性识别；

将所述识别出的实体和属性映射至知识图谱中的表达，得到所述问题的实体和属性。

根据本发明一具体实施方式，将所述识别出的实体和属性映射至知识图谱中的表达包括：

从所述知识图谱中抽取出所述识别出的实体对应的候选实体，以及识别出的属性对应的候选属性；

利用预先建立的排序模型，对所述候选实体和候选属性分别进行排序；

将排在首位的候选实体和候选属性分别确定为映射至知识图谱中的实体和属性。

根据本发明一具体实施方式，该方法还包括：

查询问答类搜索日志，获取所述问题对应的被点击搜索结果；

从所述被点击搜索结果中提取对所述答案的解释。

根据本发明一具体实施方式，所述查询问答类搜索日志，获取所述问题对应的被点击搜索结果包括：

对所述问题进行同义扩展，得到一个以上的问题表达；

查询问答类搜索日志，分别获取所述一个以上的问题表达对应的被点击搜索结果。

根据本发明一具体实施方式，该方法还包括：

利用所述问题的实体、所述属性以及所述答案，查询知识图谱，获取所述问题的干扰答案。

根据本发明一具体实施方式，利用所述实体、所述属性以及所述答案，查询知识图谱，获取所述问题的干扰答案包括：

查询知识图谱，确定与所述问题的实体之间不存在所述属性的关联、且与所述答案存在关联的其他实体；

利用确定出的其他实体，得到所述问题的干扰答案。

本发明还提供了一种生成问答的装置，该装置包括：

问题生成单元，用于利用预先训练得到的问题生成模型，针对输入的图像生成问题；

问题识别单元，用于对所述问题进行实体和属性识别，得到所述问题的实体和属性；

答案生成单元，用于利用知识图谱查询所述实体的所述属性的值，作为所述问题的答案。

根据本发明一具体实施方式，该装置还包括：

模型训练单元，用于获取训练数据，所述训练数据包括问题型query以及该问题型query对应的被点击搜索结果包含的图像；将训练数据中的图像作为输入、对应的问题型query作为输出，训练包含CNN和RNN的神经网络模型，得到问题生成模型。

根据本发明一具体实施方式，所述模型训练单元，具体用于：

从搜索日志中获取搜索次数大于或等于预设搜索次数阈值，或获取搜索频率大于或等于预设搜索频率阈值的问题型query；和/或，

根据本发明一具体实施方式，所述问题识别单元，具体用于：

对所述问题进行实体和属性识别；

根据本发明一具体实施方式，该装置还包括：

解释生成单元，用于查询问答类搜索日志，获取所述问题对应的被点击搜索结果；从所述被点击搜索结果中提取对所述答案的解释。

根据本发明一具体实施方式，该装置还包括：

干扰生成单元，用于利用所述问题的实体、所述属性以及所述答案，查询知识图谱，获取所述问题的干扰答案。

根据本发明一具体实施方式，所述干扰生成单元，具体用于：

利用确定出的其他实体，得到所述问题的干扰答案。

本发明还提供了一种设备，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述的方法。

本发明还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行上述的方法。

由以上技术方案可以看出，本发明提供的方式能够基于图像自动生成问答，从而方便用户获取知识，提高趣味性。

【附图说明】

图1为本发明实施例提供的主要方法流程图；

图2为本发明实施例提供的一个输入图像的示例；

图3为本发明实施例提供的训练问题生成模型的流程图；

图4为本发明实施例提供的问题生成模型的工作示例图；

图5为本发明实施例提供的生成答案的示例图；

图6为本发明实施例提供的干扰答案在知识图谱中的示例图；

图7为本发明实施例提供的装置结构图；

图8为本发明实施例提供的另一个输入图像的示例图；

图9示出了适于用来实现本发明实施方式的示例性计算机系统/服务器的框图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

图1为本发明实施例提供的主要方法流程图，如图1所示，该方法可以包括以下步骤：

在101中，利用预先训练得到的问题生成模型，针对输入的图像生成问题。

在现有技术中已经存在一些方式能够依据图像生成问题，但方式比较简单，结果也比较单一。例如，对图像进行识别后，确定图像中的实体，然后利用诸如“这是什么___”、“__叫什么名字”、“图片中是一种什么__”等的问题模板，从而生成问题。举个例子，例如图像2，利用现有技术中的方式对图像进行实体的类别识别后，得到图中是一种动物，就可以利用问题模板生成诸如“这是什么动物”、“图片中是一种什么动物”的问题。显然，这些问题太过简单，并不能围绕图像生成一些更深层次的问题。本发明实施例在此提供了一种更优的问题生成方式，能够利用预先训练得到的问题生成模型来针对图像生成问题。即，将图像输入问题生成模型后，问题生成模型就能够输出针对该图像的问题。

为了方便理解，下面对问题生成模型的训练过程进行描述。问题生成模型可以采用如图3中所示的方法训练得到，如图3中所示，该方法可以包括：

步骤301：获取训练数据，该训练数据包括问题型query以及该问题型query对应的被点击搜索结果包含的图像。

本发明实施例中训练的问题生成模型基于神经网络模型，而大规模高质量的训练数据对于学习到好的参数非常重要。若采用人工标记训练数据的方式非常耗时耗力，并且无法得到大规模的训练数据。因此，在本发明实施例中考虑采用搜索引擎的历史搜索日志来进行训练数据的自动收集。

具体地，可以从搜索日志中获取问题型query。问题型query的获取可以基于预先设置的规则，例如包含预设的问题型关键词，诸如“什么”、“哪”、“谁”等，再例如与预设的问题型模板匹配，问题型模板诸如“__是什么__”、“__是谁”、“__属于哪个国家”等等。

对于获取的问题型query，可以基于搜索次数或搜索频率对问题型query进行过滤，过滤掉低频的问题型query。例如选取搜索次数大于或等于预设搜索次数阈值，或获取搜索频率大于或等于预设搜索频率阈值的问题型query。

例如，通过预设的规则“__是什么__”，得到的问题型query包括“忠犬八公是什么狗”、“豆浆里的泡沫是什么”等，其中“忠犬八公是什么狗”的搜索次数是20000，“豆浆里的泡沫是什么”的搜索次数是187，假设预设的搜索次数阈值为10000，则将“豆浆里的泡沫是什么”过滤掉，保留“忠犬八公是什么狗”。

对于获取的问题型query，其对应的搜索结果中通常会包含一些图像，因此可以利用这些图像来得到训练数据。但由于搜索结果的页面中通常会存在一些无关图像，例如广告图像、用户头像等，在此可以利用图像的被点击状况来衡量query与图像的相关程度，并通过设置次数阈值来控制收集图像的质量。即从搜索日志中获取问题型query对应的被点击搜索结果包含的图像中，被点击次数超过预设次数阈值的图像，作为训练数据中问题型query对应的图像。

例如，对于问题型query“忠犬八公是什么狗”在搜索日志中被点击搜索结果包含的图像有包含狗的图像1，其被点击次数为1000，而被点击搜索结果包含的图像也有包含小猫的图像2，其被点击次数为3，若预设的次数阈值为500，则将图像1作为训练数据，而图像2被过滤掉。

经过该步骤后，得到的大规模训练数据包含：问题型query以及该问题型query对应的图像，即query和图像的二元组。

步骤302：将训练数据中的图像作为输入、对应的问题型query作为输出，训练包含CNN(Convolutional Neural Network，卷积神经网络)和RNN(Recurrent neural Network，循环神经网络)的神经网络模型，得到问题生成模型。

本发明实施例提供的问题生成模型为包含编码子系统和解码子系统的神经网络模型。

其中，编码子系统由CNN构成，用于将输入的图像映射至语义空间，得到图像的语义向量。具体地，在编码子系统中，首先对输入的图像进行预处理，将图像标识为一个实数值矩阵，然后经过多层的卷积处理，得到图像的实数值表示向量。该向量中包含了与图像语义相关的信息，因此本发明实施例中称其为图像的语义向量V_i。

解码子系统由RNN构成，用于基于图像的语义向量预测词序列，得到图像的问题。词向量为低维稠密连续的向量表示，蕴含了词的语义信息。对于RNN中每一时刻的计算单元的输入包含两部分：上一时刻得到的隐含向量h_t-1，以及当前输入词x_t的词向量表示w_t，计算单元的输出为：输出词y_t和当前时刻的隐含向量h_t。该输出词y_t作为下一时刻计算单元的输入词x_t+1。对于初始时刻的计算单元，其采用的初始隐含向量可以为图像的语义向量，初始输入词可以为预设的特殊字符。每个计算单元均结合输入词和上一时刻的隐含向量，计算当前时刻的隐含向量，并从词表中选择词语进行概率计算，预测输出词。

需要说明的是，在进行模型训练时，可以在每个问题型query后增加结束字符。这样，后续在利用问题生成模型进行问题预测时，若RNN输出的字符为结束字符时，表示问题生成结束。

模型训练过程中可以通过误差反向传播和随机梯度下降进行更新。模型训练结束后，输入一个图像，模型会自动预测出与该图像相关的问题。

在利用问题生成模型进行实际预测时，一个图片可以生成多个问题，在本发明实施例中可以采用beam-search的方法，通过设置beam的大小来控制生成问题的个数。以2个问题为例，可以设置beam的个数为2，每个时刻在输出序列时，均通过计算选择概率最大的2个序列作为输出。

仍以图2所示图像为例，将其输入训练得到的问题生成模型，如图4所示，首先经过编码子系统，对该图像进行预处理和卷积后，得到该图像的语义向量。再经由解码子系统，针对该图像生成两个问题：“忠犬八公是什么犬”以及“日本国犬是什么”。显然比简单利用规则生成“这是什么动物”之类的问题更加有深度，也更加有趣。

在102中，对问题进行实体和属性识别，得到问题的实体和属性。

本步骤中，可以对问题进行实体和属性识别后，将识别出的实体和属性映射至知识图谱中的表达，得到问题的实体和属性。具体识别方式可以采用已有技术，本发明对此不做限制和详述。

由于用户在问题中可能采用不同的文字表达，造成实体名和属性名并不规范，需要将不规范的实体和属性映射到知识图谱的规范表达上。

具体地，可以从知识图谱中抽取出上述识别出的实体对应的候选实体，以及识别出的属性对应的候选属性；利用预先建立的排序模型，对候选实体和候选属性分别进行排序；将排在首位的候选实体和候选属性分别确定为映射至知识图谱中的实体和属性。

其中，在从知识图谱中抽取识别出的实体对应的候选实体时，可以通过计算相似度的方式，也可以通过查询预先建立的词表的方式。其中预先建立的词表假设表示成词表V，该词表V是一个key-value(键-值)形式的词表，其中，key为实体名，value为该实体名对应的知识图谱中的实体名。词表V的建立方式可以采用从网页中挖掘的方式，例如挖掘百科类网页，从百科类网页中挖掘出一系列实体集合，例如实体集合1中包含实体名a、实体名b、实体名c，实体集合2中包含实体名a、实体名e和实体名f。一个实体集合中的各实体名实际上指代的是同一实体，是同一实体的不同表达。若实体名b和实体名e是知识图谱中的实体名，则利用实体集合1和2可以建立如下key-value：

key＝“实体名a”，value＝“实体名b，实体名e”

key＝“实体名b”，value＝“实体名b”

key＝“实体名c”，value＝“实体名b”

key＝“实体名e”，value＝“实体名e”

key＝“实体名f”，value＝“实体名e”

若从问题中识别出实体名a，则查询词表V，则得到其对应的候选实体包括实体名b和实体名e。若从问题中识别出实体名c，则得到其对应的候选实体包括实体名b。

当挖掘出的实体集合很多时，就构成了一个很大的词表V，从该词表V中就能够查找到各实体名在知识图谱中的规范表达。

排序模型是利用实体间的相关性进行建模并排序的模型，其利用特征主要包括上下文无关特征和上下文相关特征。其中上下文无关特征主要利用实体间名字的相似度、共现次数等。上下文相关特征则基于实体的上下文以及属性的相关度。

以问题“A妹的第一张专辑是什么”为例，从该问题中识别出实体为“A妹”，从知识图谱中抽取出该实体的候选实体包括“Ariana Grande”、“Taylor Swift”、“Adele”等。利用排序模型计算“A妹”与各候选实体的相似度，并排序后，得到排序最高的实体为“ArianaGrande”，因此将“Ariana Grande”作为映射结果。

对于属性的处理与实体类似，不做赘述。

在103中，利用知识图谱查询上述实体的属性值，作为问题的答案。

知识图谱又称为科学知识图谱，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。从知识图谱中能够查询到实体的属性以及属性值。

例如图5中所示，问题为“日本国犬是什么”，对其进行实体和属性识别，得到实体为“日本”、属性为“国犬”。然后利用知识图谱查询实体“日本”的属性“国犬”的属性值为“秋田犬”，则将“秋田犬”作为问题的答案。

在获取到问题的答案后，可以进一步执行以下步骤：

在104中，查询问答类搜索日志，获取问题对应的被点击搜索结果，从被点击搜索结果中提取对答案的解释。

在利用知识图谱获取到问题的答案后，可以利用搜索引擎的搜索日志自动获取答案的解释。优选地，可以首先对问题进行同义扩展，得到一个以上的问题表达；查询问答类搜索日志，分别获取一个以上的问题表达对应的被点击搜索结果。然后从被点击搜索结果中获取包含答案且点击量最高的搜索结果，然后从中提取对答案的解释。

仍以问题“忠犬八公是什么犬种”为例，其答案为“秋田犬”。可以对该问题进行扩展后，得到“忠犬八公是什么品种的狗”、“忠犬八公是什么狗”等。对问题以及扩展得到的问题查询问答类搜索日志，得到很多搜索结果，其中包含答案的搜索结果有诸如“影片《忠犬八公的故事》讲述了一位大学教授收养一只小秋田犬的故事”，其被点击次数为45000；“日本的秋田犬。有些人认为是柴犬，但是秋田犬是大型犬，而柴犬是中型犬”，其被点击次数为23000；等等。其中，被点击次数45000最高，因此可以将“影片《忠犬八公的故事》讲述了一位大学教授收养一只小秋田犬的故事”作为解释。

在有些场景中，除了问题-答案和解释之外，还需要一些针对该问题的干扰答案，则可以进一步执行如下步骤：

在105中，利用问题的实体、属性以及答案，查询知识图谱，获取问题的干扰答案。

具体地，可以查询知识图谱，确定与问题的实体之间不存在该属性的关联、且与答案存在关联的其他实体；利用确定出的其他实体，得到该问题的干扰答案。

假设已经得到了问题和答案，其中问题的实体表示为Eq，R为Eq的属性，Ea为与Eq具有关系R的答案。以需要得到2个干扰答案E1和E2为例，则如图6所示，E1和E2均和Eq不存在关系R，并且E1和E2与Ea存在某种关系。

仍以问题“日本国犬是什么犬种”为例，Eq为“日本”，R为“国犬”，Ea为“秋田犬”。在知识图谱中，找到与“秋田犬”具有同样类别，且与“日本”不存在关系“国犬”的实体作为候选干扰答案，例如“金毛犬”、“吉娃娃”、“柴犬”、“博美犬”等，然后从候选干扰答案中选出两个作为干扰答案。在从候选干扰答案中选择干扰答案时，也可以采用排序模型计算候选干扰答案与答案“秋田犬”的相似度和排序，然后选择排在前两个的作为干扰答案。

以上是对本发明所提供的方法进行的详述，下面对本发明提供的装置进行详述。

图7为本发明实施例提供的装置结构图，如图7所示，该装置可以包括：问题生成单元01、问题识别单元02和答案生成单元03，还可以进一步包括模型训练单元04、解释生成单元05和干扰生成单元06。其中各单元的主要功能如下：

问题生成单元01负责利用预先训练得到的问题生成模型，针对输入的图像生成问题。

问题识别单元02负责对问题进行实体和属性识别，得到问题的实体和属性。

答案生成单元03负责利用知识图谱查询实体的属性的值，作为问题的答案。

模型训练单元04负责训练问题生成模型。具体地，可以获取训练数据，训练数据包括问题型query以及该问题型query对应的被点击搜索结果包含的图像；将训练数据中的图像作为输入、对应的问题型query作为输出，训练包含CNN和RNN的神经网络模型，得到问题生成模型。

在获取训练数据时，模型训练单元04可以从搜索日志中获取搜索次数大于或等于预设搜索次数阈值，或获取搜索频率大于或等于预设搜索频率阈值的问题型query；从搜索日志中获取问题型query对应的被点击搜索结果包含的图像中，被点击次数超过预设次数阈值的图像，作为训练数据中问题型query对应的图像。

上述问题生成模型为包含编码子系统和解码子系统的神经网络模型。

问题识别单元02在对问题进行实体和属性识别时，可以将识别出的实体和属性映射至知识图谱中的表达，得到问题的实体和属性。具体地，可以从知识图谱中抽取出上述识别出的实体对应的候选实体，以及识别出的属性对应的候选属性；利用预先建立的排序模型，对候选实体和候选属性分别进行排序；将排在首位的候选实体和候选属性分别确定为映射至知识图谱中的实体和属性。

解释生成单元05负责查询问答类搜索日志，获取问题对应的被点击搜索结果；从被点击搜索结果中提取对答案的解释。优选地，可以首先对问题进行同义扩展，得到一个以上的问题表达；查询问答类搜索日志，分别获取一个以上的问题表达对应的被点击搜索结果。然后从被点击搜索结果中获取包含答案且点击量最高的搜索结果，然后从中提取对答案的解释。

干扰生成单元06负责利用问题的实体、属性以及答案，查询知识图谱，获取问题的干扰答案。具体地，可以查询知识图谱，确定与问题的实体之间不存在属性的关联、且与答案存在关联的其他实体；利用确定出的其他实体，得到问题的干扰答案。

本发明实施例提供的上述方式可以应用于多种场景，在此仅列举以下两种：

应用场景1：

针对图片生成的问题和答案可以作为图片搜索结果的一部分，从而增加搜索结果的交互性与趣味性。

应用场景2：

目前在线答题类节目非常热门，然而人工出题需要出题人具备较丰富的知识，并且在较短时间难以得到大规模的题库。采用本发明实施例提供的方式，能够针对图像得到问题、答案、解释、干扰答案，实现自动出题，从而能够构造大规模的题库。

若输入图2所示的图像，则可以输出如下内容：

问题1.忠犬八公是什么犬种？

秋田犬

柴犬

金毛犬

正确答案：

秋田犬

解释：

影片《忠犬八公的故事》讲述了一位大学教授收养一只小秋田犬的故事。

问题2.下列哪一种犬为日本国犬？

秋田犬

柴犬

金毛犬

正确答案：

秋田犬

解释：

在日本，秋田犬是具有国家历史文物意义的犬，属国犬，因“忠犬八公”闻名于世，是日本指定的国家天然纪念物中唯一的大型犬。

若输入图8所示的图像，则采用本发明实施例提供的方式，可以输出：

问题1.不要人夸颜色好，只留清气满乾坤的作者是谁？

王安石

王冕

王羲之

正确答案：

B.王冕

解释：

《墨梅》元代王冕

我家洗砚池边树，朵朵花开淡墨痕。

不要人夸颜色好，只留清气满乾坤。

问题2.下列哪句诗描述的是梅花？

A.千磨万击还坚劲，任尔东西南北风

B.疏影横斜水清浅，暗香浮动月黄昏

C.淡极始知花更艳，愁多焉得玉无痕

正确答案：

B.疏影横斜水清浅，暗香浮动月黄昏

解释：

出自北宋诗人林逋的七律《山园小梅》，

原诗为：

众芳摇落独暄妍，占尽风情向小园。

疏影横斜水清浅，暗香浮动月黄昏。

霜禽欲下先偷眼，粉蝶如知合断魂。

幸有微吟可相狎，不须檀板共金樽。

图9示出了适于用来实现本发明实施方式的示例性计算机系统/服务器的框图。图9显示的计算机系统/服务器012仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示，计算机系统/服务器012以通用计算设备的形式表现。计算机系统/服务器012的组件可以包括但不限于：一个或者多个处理器或者处理单元016，系统存储器028，连接不同系统组件(包括系统存储器028和处理单元016)的总线018。

总线018表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机系统/服务器012典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器012访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器028可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)030和/或高速缓存存储器032。计算机系统/服务器012可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统034可以用于读写不可移动的、非易失性磁介质(图9未显示，通常称为“硬盘驱动器”)。尽管图9中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线018相连。存储器028可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块042的程序/实用工具040，可以存储在例如存储器028中，这样的程序模块042包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块042通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器012也可以与一个或多个外部设备014(例如键盘、指向设备、显示器024等)通信，在本发明中，计算机系统/服务器012与外部雷达设备进行通信，还可与一个或者多个使得用户能与该计算机系统/服务器012交互的设备通信，和/或与使得该计算机系统/服务器012能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口022进行。并且，计算机系统/服务器012还可以通过网络适配器020与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器020通过总线018与计算机系统/服务器012的其它模块通信。应当明白，尽管图9中未示出，可以结合计算机系统/服务器012使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元016通过运行存储在系统存储器028中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的方法流程。

上述的计算机程序可以设置于计算机存储介质中，即该计算机存储介质被编码有计算机程序，该程序在被一个或多个计算机执行时，使得一个或多个计算机执行本发明上述实施例中所示的方法流程和/或装置操作。例如，被上述一个或多个处理器执行本发明实施例所提供的方法流程。

随着时间、技术的发展，介质含义越来越广泛，计算机程序的传播途径不再受限于有形介质，还可以直接从网络下载等。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种生成问答的方法，其特征在于，该方法包括：

将图像输入预先训练得到的问题生成模型，获取所述问题生成模型输出的针对所述图像的问题；

利用知识图谱查询所述实体的所述属性的值，作为所述问题的答案；

其中所述问题生成模型采用如下方式训练得到：

从历史搜索日志中获取训练数据，所述训练数据包括问题型query以及该问题型query对应的被点击搜索结果包含的图像；

将训练数据中的图像作为输入、对应的问题型query作为输出，训练神经网络模型，得到问题生成模型；

其中，所述问题生成模型中的编码子系统将输入的图像映射至语义空间，得到图像的语义向量；所述问题生成模型中的解码子系统基于所述图像的语义向量预测词序列，得到图像的问题。

2.根据权利要求1所述的方法，其特征在于，所述编码子系统包括CNN，所述解码子系统包括RNN。

3.根据权利要求1所述的方法，其特征在于，所述获取训练数据包括：

4.根据权利要求1所述的方法，其特征在于，所述获取训练数据包括：

5.根据权利要求1所述的方法，其特征在于，对所述问题进行实体和属性识别，得到所述问题的实体和属性包括：

对所述问题进行实体和属性识别；

6.根据权利要求5所述的方法，其特征在于，将所述识别出的实体和属性映射至知识图谱中的表达包括：

7.根据权利要求1所述的方法，其特征在于，该方法还包括：

从所述被点击搜索结果中提取对所述答案的解释。

8.根据权利要求7所述的方法，其特征在于，所述查询问答类搜索日志，获取所述问题对应的被点击搜索结果包括：

对所述问题进行同义扩展，得到一个以上的问题表达；

9.根据权利要求1所述的方法，其特征在于，该方法还包括：

10.根据权利要求9所述的方法，其特征在于，利用所述实体、所述属性以及所述答案，查询知识图谱，获取所述问题的干扰答案包括：

利用确定出的其他实体，得到所述问题的干扰答案。

11.一种生成问答的装置，其特征在于，该装置包括：

答案生成单元，用于利用知识图谱查询所述实体的所述属性的值，作为所述问题的答案；

该装置还包括：

模型训练单元，用于从历史搜索日志中获取训练数据，所述训练数据包括问题型query以及该问题型query对应的被点击搜索结果包含的图像；将训练数据中的图像作为输入、对应的问题型query作为输出，训练神经网络模型，得到问题生成模型；

12.根据权利要求11所述的装置，其特征在于，所述编码子系统包括CNN，所述解码子系统包括RNN。

13.根据权利要求11所述的装置，其特征在于，所述模型训练单元，具体用于：

14.根据权利要求11所述的装置，其特征在于，所述问题识别单元，具体用于：

对所述问题进行实体和属性识别；

15.根据权利要求11所述的装置，其特征在于，该装置还包括：

16.根据权利要求11所述的装置，其特征在于，该装置还包括：

17.根据权利要求16所述的装置，其特征在于，所述干扰生成单元，具体用于：

利用确定出的其他实体，得到所述问题的干扰答案。

18.一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-10中任一所述的方法。

19.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-10中任一所述的方法。