CN108345692A

CN108345692A - 一种自动问答方法和系统

Info

Publication number: CN108345692A
Application number: CN201810218016.8A
Authority: CN
Inventors: 高毅
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Huijun Technology Co.,Ltd.
Priority date: 2018-03-16
Filing date: 2018-03-16
Publication date: 2018-07-31
Anticipated expiration: 2038-03-16
Also published as: CN108345692B

Abstract

本发明公开了一种自动问答方法和系统，涉及计算机技术领域。该方法的一具体实施方式包括：对接收到的图像信息进行图像识别，根据图像识别结果对所述图像信息进行图像理解，以得到图像理解结果；根据应用场景和所述图像理解结果，从预先训练的图像编码模型中选择一个子模型；将所述图像信息输入到所述子模型中进行编码，以输出编码结果以用户进行答复。该实施方式通过在自动问答中增加对图像信息的理解和编解码处理，提升了自动问答的理解能力和应答能力，并增加了答复内容的多样性和流畅性。

Description

一种自动问答方法和系统

技术领域

本发明涉及计算机领域，尤其涉及一种自动问答方法和系统。

背景技术

随着自然语言处理技术的发展，自动问答系统受到了极大的关注。一个优质的自动问答系统可以解决用户常见的问题，降低人工开销。基于自动问答技术实现的聊天机器人在智能客服、在线导购、订餐、订机票、手机充值等领域已经获得了广泛的应用。现有的自动问答技术主要包括：自动语音识别、文本转语音、问答语料库、知识库构建、意图识别、问答匹配、槽填充、规则树等技术。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：现有的自动问答系统仅能够实现文本信息的交互，问题和答案的呈现模式都是文本信息，无法理解图像信息，也无法处理图像信息，缺乏与用户进行图像信息交互的能力，影响用户的全局体验。

发明内容

有鉴于此，本发明实施例提供一种自动问答方法和系统，通过在自动问答中增加对图像信息的理解和编解码处理，提升了自动问答的理解能力和应答能力，并增加了答复内容的多样性和流畅性。

实现上述目的，根据本发明实施例的一个方面，提供了一种自动问答方法。

本发明实施例的一种自动问答方法，包括：对接收到的图像信息进行图像识别，根据图像识别结果对所述图像信息进行图像理解，以得到图像理解结果；根据应用场景和所述图像理解结果，从预先训练的图像编码模型中选择一个子模型；将所述图像信息输入到所述子模型中进行编码，以输出编码结果对用户进行答复。

可选地，所述对接收到的图像信息进行图像识别，根据图像识别结果对所述图像信息进行图像理解，以得到图像理解结果，包括：通过文字识别技术提取所述图像信息中的文字信息；通过图像分类技术对所述图像信息进行分类，以得到分类信息；通过预先训练的图文转换模型将所述图像信息转换为文本描述信息；根据所述文字信息、分类信息和文本描述信息对所述图像信息进行图像理解，以得到图像理解结果。

可选地，所述图像编码模型包括图像到图像模型和图像到文本模型，所述图像到图像模型和所述图像到文本模型均包括至少一个子模型；所述将所述图像信息输入到所述子模型中进行编码，包括：将所述图像信息输入到选择出的所述图像到图像模型的子模型或者所述图像到文本模型的子模型中进行编码处理，以得到对应的目标图像信息或者文本序列信息。

可选地，所述图像编码模型为端到端的模型，所述图像到图像模型为对抗神经网络模型或者变分自动编码器神经网络模型，所述图像到文本模型为卷积神经网络-时间递归神经网络模型。

可选地，所述对接收到的图像信息进行图像识别的步骤之前，还包括：通过预先训练的表情识别模型对所述图像信息进行表情识别，以得到表情识别结果；所述根据图像识别结果对所述图像信息进行图像理解，以得到图像理解结果的步骤之后，以及所述对用户进行答复的步骤之前，还包括：当识别出有效表情类型时，根据所述表情识别结果查找预先配置的规则树，以获取对应的规则节点；根据所述规则节点生成答复信息，输出所述答复信息。

可选地，所述根据所述规则节点生成答复信息，包括：根据所述规则节点从语料库中获取对应的回复信息，和/或从模板图像库中选择相应的模板图像信息；将所述回复信息或者所述模板图像信息或者所述回复信息和所述模板图像信息组合成的新图像信息作为所述答复信息。

为实现上述目的，根据本发明实施例的一个方面，提供了一种自动问答系统。

本发明实施例的一种自动问答系统，包括：识别理解模块，用于对接收到的图像信息进行图像识别，根据图像识别结果对所述图像信息进行图像理解，以得到图像理解结果；选择模块，用于根据应用场景和所述图像理解结果，从预先训练的图像编码模型中选择一个子模型；编码输出模块，用于将所述图像信息输入到所述子模型中进行编码，以输出编码结果对用户进行答复。

可选地，所述识别理解模块，还用于：通过文字识别技术提取所述图像信息中的文字信息；通过图像分类技术对所述图像信息进行分类，以得到分类信息；通过预先训练的图文转换模型将所述图像信息转换为文本描述信息；以及根据所述文字信息、分类信息和文本描述信息对所述图像信息进行图像理解，以得到图像理解结果。

可选地，所述图像编码模型包括图像到图像模型和图像到文本模型，所述图像到图像模型和所述图像到文本模型均包括至少一个子模型；所述编码输出模块，还用于：将所述图像信息输入到选择出的所述图像到图像模型的子模型或者所述图像到文本模型的子模型中进行编码处理，以得到对应的目标图像信息或者文本序列信息。

可选地，所述系统还包括：表情识别模块，通过预先训练的表情识别模型对所述图像信息进行表情识别，以得到表情识别结果；所述系统还包括：查找输出模块，用于当识别出有效表情类型时，根据所述表情识别结果查找预先配置的规则树，以获取对应的规则节点；以及根据所述规则节点生成答复信息，输出所述答复信息。

可选地，所述查找输出模块，还用于：根据所述规则节点从语料库中获取对应的回复信息，和/或从模板图像库中选择相应的模板图像信息；以及将所述回复信息或者所述模板图像信息或者所述回复信息和所述模板图像信息组合成的新图像信息作为所述答复信息。

为实现上述目的，根据本发明实施例的再一方面，提供了一种电子设备。

本发明实施例的一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例的一种自动问答方法。

为实现上述目的，根据本发明实施例的再一方面，提供了一种计算机可读介质。

本发明实施例的一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明实施例的一种自动问答方法。

上述发明中的一个实施例具有如下优点或有益效果：通过在自动问答中增加对图像信息的理解和编码处理，提升了自动问答的理解能力和应答能力，并增加了答复内容的多样性和流畅性；通过文字识别技术提取文字信息，补充自动应答的信息输入；通过图像分类技术理解图像可能所属的应用场景的子场景，补充自动应答的场景理解能力；通过图文转换技术获取图像的文本描述信息，补充自动应答的场景以及图像细节的理解能力；通过对图像信息进行端到端的编码，扩展了自动应答的处理能力，能够更加多样化、更加直观的方式答复用户，提升了答复质量；通过表情识别技术识别用户表情类型，便于分析用户情绪。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的自动问答方法的主要步骤的示意图；

图2是根据本发明实施例的自动问答方法的主要流程示意图；

图3是根据本发明实施例的自动问答系统的主要模块的示意图；

图4是根据本发明实施例的自动问答系统的模块构成的示意图。

图5是本发明实施例可以应用于其中的示例性系统架构图；

图6是适用于来实现本发明实施例的电子设备的计算机装置的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本发明实施例的自动问答方法的主要步骤的示意图。如图1所示，本发明实施例的自动问答方法，主要包括如下步骤：

步骤S101：对接收到的图像信息进行图像识别，根据图像识别结果对所述图像信息进行图像理解，以得到图像理解结果。接收到来自用户的图像信息后，可使用文字识别、图像分类、图文转换等技术，对所述图像信息进行图像识别；之后基于图像识别结果对图像进行理解。使用文字识别技术提取图像信息中的文字信息，补充了自动应答的信息输入；使用图像分类技术获取图像信息的大致类别，理解图像可能所属的应用场景的子场景，补充了自动应答的场景理解能力；使用图文转换技术获取图像的文本描述信息，补充对场景和图像细节的理解能力。

步骤S102：根据应用场景和所述图像理解结果，从预先训练的图像编码模型中选择一个子模型。其中，所述应用场景可以是儿童教育中的看图讲故事、看图识字，娱乐中的风格迁移，电商平台的订单查询、商品推荐等；所述图像编码模型包括图像到图像模型和图像到文本模型，所述图像到图像模型和所述图像到文本模型均包括至少一个子模型。如果根据应用场景和图像理解结果得知，用户需要将当前图像信息转换为其他风格的图像信息，则可选择图像到图像模型的子模型；如果用户需要将当前图像信息转换为文本形式的信息，则可选择图像到文本模型的子模型。

步骤S103：将所述图像信息输入到所述子模型中进行编码，以输出编码结果对用户进行答复。将所述图像信息输入到选择出的所述图像到图像模型的子模型或者所述图像到文本模型的子模型中进行编码处理，以得到对应的目标图像信息或者文本序列信息。

图2是根据本发明实施例的自动问答方法的主要流程示意图。如图2所示，本发明实施例的自动问答方法由自动问答系统实现，主要包括以下步骤：

步骤S201：自动问答系统接收到来自用户的图像信息后，进入图像处理过程。用户在问答过程中，向自动问答系统发送图像信息；自动问答系统接收到图像信息后进入下述图像处理过程。

步骤S202：通过预先训练的表情识别模型对所述图像信息进行表情识别，以得到表情识别结果。其中，所述表情识别模型可通过卷积神经网络(Convolutional NeuralNetwork，CNN)训练得到；具体训练过程为：预先搜集整理大量的表情图像文件，并且每个表情图像均带有相关表情类型，如开心、大笑、惊讶、愤怒等等；然后将表情图像文件输入卷积神经网络，训练出能够识别表情类型的网络模型，该网络模型即为所述表情识别模型。

表情识别的具体过程为：

(1)将所述图像信息输入所述表情识别模型，以得到所述图像信息的表情类型概率信息。其中，所述表情类型概率信息为所述图像信息为每个表情类型的概率值，所有概率值的和为1。

(2)根据预设阈值对所述表情类型概率信息进行过滤，将所述表情类型概率信息中高于所述阈值的表情类型作为有效表情类型。其中，所述预设阈值为0～1之间的小数，表示概率值的最低门限值，为了保证识别出的表情是有效的，需要设置阈值来过滤掉低于阈值的表情类型。将图像信息输入到表情识别模型后，假设识别出的表情类型是大笑的概率值为0.9，开心的概率值为0.1，预设阈值为0.8，则将大笑作为有效表情类型，忽略开心这一表情类型，最终得到的表情识别结果为大笑。

如果在步骤S202中识别出了有效表情类型，则执行步骤S209，以按照表情类型的应答逻辑进行处理；如果未识别出有效表情类型，则执行步骤S203的文字识别。

步骤S203：通过文字识别技术提取所述图像信息中的文字信息。实施例中，文字识别技术为光学字符识别(Optical Character Recognition，OCR)技术，通过OCR技术检测所述图像信息中是否有文字信息，如果存在文字信息，则提取出来。假设图像信息中包含“今天感觉好开心”的字样，那么通过OCR技术，可将“今天感觉好开心”的文字信息提取出来。如果从图像信息中提取到了文字信息，还可采用命名实体识别技术提取文字信息中的命名实体，并通过意图识别技术从文字信息中识别用户的意图，将命名实体和意图信息输入到自动问答系统的对话管理模块，作为进一步语义分析的依据。

步骤S204：通过图像分类技术对所述图像信息进行分类，以得到分类信息。该步骤使用图像分类技术对图像的类别进行划分。假设用户发送的图像信息中包含一个小猫的动物，采用图像分类技术对其进行分类检测，即可识别出图像中有一个小猫。在一优选的实施例中，该步骤执行完毕之后，可根据分类信息、应用场景和用户的意图，按照预先配置的规则树中的规则节点生成答复信息，并输出至用户。

步骤S205：通过预先训练的图文转换模型将所述图像信息转换为文本描述信息。其中，所述图文转换模型可使用深度学习的编码-解码(Encoder-Decoder)网络训练得到，将模型用于将图像信息转换为文本描述信息。Encoder-Decoder网络用于接收输入的一个文本序列或图像或视频，然后输出为一个新的文本序列或图像或视频。假设图像信息为一张风景图片，则转换成的文本描述信息可以是“沙滩上有一排椰子树，两个小孩在玩足球”。在一优选的实施例中，还可将文本描述信息进行自然语言理解，提取命名实体，识别用户的意图，将命名实体和意图信息输入到自动问答系统的对话管理模块，作为答复用户的候选特征。

步骤S206：根据所述文字信息、分类信息和文本描述信息对所述图像信息进行图像理解，以得到图像理解结果。图像理解就是对图像的语义理解，它是以图像为对象，知识为核心，研究图像中有什么目标、目标之间的相互关系、图像是什么场景以及如何应用场景，其以图像识别结果为基础，对图像进行描述与理解。假设用户发送来的图像信息仅包含一只小猫，那么经步骤S202至步骤S205的识别后，就会得到分类信息(小猫)，基于该分类信息即可知该图像信息中仅包含一个小猫。

步骤S207：根据应用场景和所述图像理解结果，从预先训练的图像编码模型中选择一个子模型。其中，所述图像编码模型端到端的模型，包括图像到图像模型和图像到文本模型，图像到图像模型能够将一张图像转换为一张新的图像，图像到文本模型能够将一张图像转换为文本，图像到图像模型和图像到文本模型中均包括至少一个子模型，每个子模型对应一种应用场景的子场景。在一优选的实施例中，所述图像到图像模型为对抗神经网络(Generative Adversarial Nets，GAN)模型或者变分自动编码器(Variational Auto-Encoder，VAE)神经网络模型，所述图像到文本模型为卷积神经网络-时间递归神经网络(Long Short Term Memory，LSTM)模型(即CNN-LSTM模型)。假设应用场景为儿童教育中的看图讲故事，图像理解结果为一只加菲猫，则可选择图像到文本模型的对应加菲猫的子模型。该子模型可通过将加菲猫的图像输入到CNN-LSTM模型中训练得到。

在另一优选的实施例中，假设应用场景为娱乐中的风格迁移，图像理解结果为一种浮世绘风格作品，从上下文交互中获知用户的意图为想知道什么是莫奈风格，则可选择图像到图像模型的子模型。该子模型可通过将浮世绘风格作品的图像输入到对抗神经网络中训练得到。

步骤S208：将所述图像信息输入到所述子模型中进行编码处理，输出编码结果以对用户进行答复。将所述图像信息输入到该图像到文本模型的子模型中，即可输出一段以故事形式描述该图像信息的文本。

在另一优选的实施例中，将所述图像信息输入到该图像到图像模型的子模型中，即可将浮世绘风格作品转换为莫奈风格，然后将此风格作品返回给用户。

步骤S209：根据所述表情识别结果查找预先配置的规则树(Rule Tree)，以获取对应的规则节点。其中，所述规则树中包括为各种表情类型设置的应答逻辑，每个应答逻辑为一个规则节点。

步骤S210：根据所述规则节点生成答复信息，输出所述答复信息以对用户进行答复。规则节点中定义了生成答复信息的方式，比如从语料库中获取，或者从模板图像库中选取，或者将从语料库中获取的回复信息与从模板图像库中选取的模板图像进行组合。按照规则节点的内容从语料库中获取对应的回复信息，和/或从模板图像库中选择相应的模板图像信息；按照规则节点的内容将所述回复信息或者所述模板图像信息或者所述回复信息和所述模板图像信息组合成的新图像信息作为所述答复信息，并输出至用户。上述过程中，步骤S202至步骤S205的执行顺序没有限定，可以依次顺序执行，也可以并行执行。

下面结合实施例进行说明。下述三个实施例对应三个不同的应用场景，实际使用中，可在自动应答系统的客户端或者网页上，通过手动配置或者按键点击切换到不同的应用场景。

实施例一：闲聊机器人场景中，用户在与自动问答系统的交互过程中，发送了一张“大笑”的表情图像；自动问答系统接收到该图像信息后，将其输入至表情识别模型得到表情类型为“大笑”。自动问答系统中预先配置了各种表情类型对应的应答逻辑，所有的应答逻辑构成规则树，假设“大笑”的表情类型在规则树中对应有5个规则节点，其中，第2个规则节点为：检测图像信息发送前的聊天内容，如果检测到在自动应答系统发送内容后，触发用户回复该图像信息，则从语料库中找到对应的答复，比如“果然很好笑吧”、“还想听其他段子吗？”；如果检测到用户直接发送该图像信息，则语料库中找到对应的回复，比如“什么事情这么开心呀？”；第3个规则节点为：将第2个规则节点的答复信息插入到预先配置的模板图像中的指定位置，生成包含答复内容的新表情图像；之后，选择一个规则节点，比如按照第2个规则节点将上述答复信息输出至用户，或者按照第3个规则节点将新表情图像输出至用户。

实施例二：电商平台场景中，用户在与自动问答系统的交互过程中，发送了一张订单图像。自动问答系统接收到该图像信息后，经步骤S202进行表情识别，未检测到有效表情类型；经步骤S203进行文字识别，提取出该图像信息中的文字信息；经步骤S204进行分类处理后，得出该图像信息的类别为“订单跟踪”。自动问答系统中预先配置了订单图像对应的处理逻辑，该处理逻辑构成规则树，比如“订单跟踪”在规则树中对应有3个规则节点，某规则节点为：第一，调用OCR文字识别结果，检测图像信息中的订单号、用户名、派送状态等；第二，调用后台订单接口，查询此订单的物流状态；第三，若滞留时间超过1天，则触发后台人工安抚及催促；若订单未滞留，则结合用户描述，进一步识别用户意图，完成自动回复。根据规则节点，如果滞留时间超过1天，则可通过人工方式安抚用户，比如回复用户“由于天气原因，您的订单无法及时送达，敬请谅解”；如果订单未滞留，则结合上下文交互，获知用户想询问订单什么时候送到，则结合订单的物流情况，从语料库中找到对应的回复，比如“您的订单预计后天送达”。

实施例三：故事型机器人场景中，用户在与自动问答系统的交互过程中，发送了一张运动场踢足球的图像。自动问答系统接收到该图像信息后，经步骤S202进行表情识别，未检测到有效表情类型；经步骤S203进行文字识别，未检测到有效文字信息；经步骤S204进行图像分类，得到分类信息，比如：人物、运动、足球等；经步骤S205进行图文转换，得到该图像信息的文本描述；根据图像理解结果，经步骤S207从图像编码模型中选择运动故事子模型，然后经步骤S208输出运动类型的故事内容给用户。

在另一优选的实施例中，还可以对子模型的输出内容进行转换与验证。比如，在经图像到图像模型的子模型处理后，对生成的图像进行转换，比如尺寸、格式等，并对图像进行验证，比如是否涉及暴力等；在经图像到文本模型的子模型处理后，对生成的文本信息进行分类、命名实体识别、敏感词过滤等。

在另一优选的实施例中，本发明的自动问答方法还能够结合应用场景和上下文交互识别出用户意图，并对用户进行答复。比如：用户发送了一张艺术作品的图片，并向自动问答系统询问：这是什么风格的作品？自动问答系统能够基于图像识别技术，判断到这是一张浮世绘风格作品，然后向用户答复一段描述文本。之后用户继续向自动问答系统询问：那什么是莫奈风格呢？自动问答系统检测到用户询问莫奈风格，则可以使用风格迁移技术，将用户当前的图片转换为莫奈风格作品，然后返回此作品给用户。实施例中，用户输入的语音信息或者图像信息、自动问答系统识别语音信息、图像信息得到的中间结果以及自动问答系统输出的语音信息或者图像信息均会保存到对话管理模块中，以便于自动问答系统理解上下文。

通过本发明实施例的自动问答方法可以看出，通过在自动问答中增加对图像信息的理解和编码处理，提升了自动问答的理解能力和应答能力，并增加了答复内容的多样性和流畅性；通过表情识别技术识别用户表情类型，便于分析用户情绪；通过图像分类技术理解图像可能所属的应用场景的子场景，补充自动应答的场景理解能力；通过图文转换技术获取图像的文本信息，补充自动应答的场景以及图像细节的理解能力；通过对图像信息进行端到端的编码，扩展了自动应答的处理能力，能够更加多样化、更加直观的方式答复用户，提升了答复质量；通过文字识别技术提取文字信息，补充自动应答的信息输入。

图3是根据本发明实施例的自动问答系统的主要模块的示意图。如图3所示，本发明实施例的自动问答系统300，主要包括：

识别理解模块301，用于对接收到的图像信息进行图像识别，根据图像识别结果对所述图像信息进行图像理解，以得到图像理解结果。自动问答系统接收到来自用户的图像信息后，可使用文字识别、图像分类、图文转换等技术，对所述图像信息进行图像识别；之后基于图像识别结果对图像进行理解。使用文字识别技术提取图像信息中的文字信息，补充了自动应答的信息输入；使用图像分类技术获取图像信息的大致类别，理解图像信息可能所属的应用场景的子场景，补充了自动应答的场景理解能力；使用图文转换技术获取图像信息的文本描述信息，补充对场景和图像细节的理解能力。

选择模块302，用于根据应用场景和所述图像理解结果，从预先训练的图像编码模型中选择一个子模型。其中，所述应用场景可以是儿童教育中的看图讲故事、娱乐中的风格迁移等；所述图像编码模型包括图像到图像模型和图像到文本模型，所述图像到图像模型和所述图像到文本模型均包括至少一个子模型。如果根据应用场景和图像理解结果得知，用户需要将当前图像信息转换为其他风格的图像信息，则可选择图像到图像模型的子模型；如果用户需要将当前图像信息转换为文本形式的信息，则可选择图像到文本模型的子模型。

编码输出模块303，用于将所述图像信息输入到所述子模型中进行编码，以输出编码结果对用户进行答复。将所述图像信息输入到选择出的所述图像到图像模型的子模型或者所述图像到文本模型的子模型中进行编码处理，以得到对应的目标图像信息或者文本序列信息。

图4是根据本发明实施例的自动问答系统的模块构成的示意图。如图4所示，本发明实施例的自动问答系统400，主要包括：

语音识别模块401，用于通过自动语音识别(Automatic Speech Recognition，ASR)技术将用户输入的语音信息转换为文本信息，将所述文本信息输出至自然语言理解模块402。

图像识别与理解模块403，用于使用表情识别、文字识别、图像分类、图文转换等技术，对用户输入的图像信息进行图像识别，之后基于图像识别结果进行图像理解，将图像识别结果和图像理解结果分别输出至自然语言理解模块402、图像编码模块404和对话管理模块405。其中，输出至自然语言理解模块402的仅有图像识别结果中的文字信息。

自然语言理解模块402，用于对语音识别模块401转换成的文本信息和图像识别与理解模块301输出的文字信息进行分词、命名实体识别、问题泛化、意图识别、语法树解析等处理，将处理结果输出至对话管理模块405。其中，分词是将连续的字序列按照一定的规范重新组合成词序列的过程；命名实体是人名、机构名、地名以及其他所有以名称为标识的实体，更广泛的实体还包括数字、日期、货币、地址等等。

图像编码模块404，用于根据应用场景以及图像理解结果，从预先训练的图像编码模型中选择一个子模型，将所述图像信息输入到所述子模型中进行编码处理，如果选择的子模型为图像到图像模型的子模型，则会得到目标图像信息，将分别目标图像信息分别输出至对话管理模块405和图像处理与生成模块408；如果选择的子模型为图像到文本模型的子模型，则会得到文本序列信息，将文本序列信息输出至对话管理模块405。

对话管理模块405，用于管理用户与自动应答系统的对话上下文以及各种中间结果，比如识别出的命名实体、属性等；还用于根据保存接收到的处理结果、目标图像信息、文本序列信息等，将处理结果、文本序列信息输出至自然语言生成模块407；还用于进行槽填充(Slots Filling)、QA匹配(Question-Answer Matching)等。其中，槽填充为从大规模的语料库中抽取给定实体的被明确定义的属性的值，比如订机票这一场景中，自动问答系统必须获知的属性包括出发地、目的地、出发时间，可选属性包括：航空公司名称、价格等，每个属性对应一个槽，在自动问答系统与用户进行交互的过程中，不断从用户提供的信息中获取上述属性，把必须获知的属性对应的槽填满后，即可进行订机票的业务。

自然语言生成模块407，用于根据处理结果、文本序列信息和预先配置的规则树从语料库中获取回复信息，将回复信息分别输出至图像处理与生成模块408和文本转语音模块409。

图像处理与生成模块408，用于将目标图像信息作为答复信息输出至用户；或者从模板图像库中选择相应的模板图像信息，将模板图像信息作为答复信息输出至用户；或者将回复信息和模板图像信息组合成的新图像信息作为答复信息输出至用户。根据规则树的规则节点确定输出至用户的是模板图像信息还是新图像信息。

文本转语音模块409，用于通过文本转语音(Text To Speech，TTS)技术将回复信息转换为语音信息，将语音信息作为答复信息输出至用户。

数据与服务模块406，用于保存语料库、模板图像库、知识库等数据库，并提供自动问答中的检索与匹配服务、槽填充服务等。

从以上描述可以看出，通过在自动问答中增加对图像信息的理解和编码处理，提升了自动问答的理解能力和应答能力，并增加了答复内容的多样性和流畅性；通过文字识别技术提取文字信息，补充自动应答的信息输入；通过图像分类技术理解图像可能所属的应用场景的子场景，补充自动应答的场景理解能力；通过图文转换技术获取图像的文本信息，补充自动应答的场景以及图像细节的理解能力；通过对图像信息进行端到端的编码，扩展了自动应答的处理能力，能够更加多样化、更加直观的方式答复用户，提升了答复质量；通过表情识别技术识别用户表情类型，便于分析用户情绪。

图5示出了可以应用本发明实施例的处理实时消息的方法或处理实时消息的系统的示例性系统架构500。

如图5所示，系统架构500可以包括终端设备501、502、503，网络504和服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备501、502、503通过网络504与服务器505交互，以接收或发送消息等。终端设备501、502、503上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备501、502、503可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器505可以是提供各种服务的服务器，例如对用户利用终端设备501、502、503所产生的点击事件提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的点击数据、文本内容等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。

需要说明的是，本申请实施例所提供的自动问答方法一般由服务器505执行，相应地，自动问答系统一般设置于服务器505中。

应该理解，图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

根据本发明的实施例，本发明还提供了一种电子设备和一种计算机可读介质。

本发明的电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例的一种自动问答方法。

本发明的计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明实施例的一种自动问答方法。

下面参考图6，其示出了适用于来实现本发明实施例的电子设备的计算机系统600的结构示意图。图6示出的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有计算机系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本发明公开的实施例，上文主要步骤图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行主要步骤图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括识别理解模块、选择模块和编码输出模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，识别理解模块还可以被描述为“对接收到的图像信息进行图像识别，根据图像识别结果对所述图像信息进行图像理解，以得到图像理解结果的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：对接收到的图像信息进行图像识别，根据图像识别结果对所述图像信息进行图像理解，以得到图像理解结果；根据应用场景和所述图像理解结果，从预先训练的图像编码模型中选择一个子模型；将所述图像信息输入到所述子模型中进行编码处理，输出编码结果以对用户进行答复。

从以上描述可以看出，通过在自动问答中增加对图像信息的理解和编码处理，提升了自动问答的理解能力和应答能力，并增加了答复内容的多样性和流畅性；通过表情识别技术识别用户表情类型，便于分析用户情绪；通过图像分类技术理解图像可能所属的应用场景的子场景，补充自动应答的场景理解能力；通过图文转换技术获取图像的文本信息，补充自动应答的场景以及图像细节的理解能力；通过对图像信息进行端到端的编码，扩展了自动应答的处理能力，能够更加多样化、更加直观的方式答复用户，提升了答复质量；通过文字识别技术提取文字信息，补充自动应答的信息输入。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种自动问答方法，其特征在于，包括：

对接收到的图像信息进行图像识别，根据图像识别结果对所述图像信息进行图像理解，以得到图像理解结果；

根据应用场景和所述图像理解结果，从预先训练的图像编码模型中选择一个子模型；

将所述图像信息输入到所述子模型中进行编码，以输出编码结果对用户进行答复。

2.根据权利要求1所述的方法，其特征在于，所述对接收到的图像信息进行图像识别，根据图像识别结果对所述图像信息进行图像理解，以得到图像理解结果，包括：

通过文字识别技术提取所述图像信息中的文字信息；

通过图像分类技术对所述图像信息进行分类，以得到分类信息；

通过预先训练的图文转换模型将所述图像信息转换为文本描述信息；

根据所述文字信息、分类信息和文本描述信息对所述图像信息进行图像理解，以得到图像理解结果。

3.根据权利要求1或2所述的方法，所述图像编码模型包括图像到图像模型和图像到文本模型，所述图像到图像模型和所述图像到文本模型均包括至少一个子模型；

所述将所述图像信息输入到所述子模型中进行编码，包括：将所述图像信息输入到选择出的所述图像到图像模型的子模型或者所述图像到文本模型的子模型中进行编码处理，以得到对应的目标图像信息或者文本序列信息。

4.根据权利要求3所述的方法，其特征在于，所述图像编码模型为端到端的模型，所述图像到图像模型为对抗神经网络模型或者变分自动编码器神经网络模型，所述图像到文本模型为卷积神经网络-时间递归神经网络模型。

5.根据权利要求1或2所述的方法，其特征在于，所述对接收到的图像信息进行图像识别的步骤之前，还包括：通过预先训练的表情识别模型对所述图像信息进行表情识别，以得到表情识别结果；

所述根据图像识别结果对所述图像信息进行图像理解，以得到图像理解结果的步骤之后，以及所述对用户进行答复的步骤之前，还包括：

当识别出有效表情类型时，根据所述表情识别结果查找预先配置的规则树，以获取对应的规则节点；

根据所述规则节点生成答复信息，输出所述答复信息。

6.根据权利要求5所述的方法，其特征在于，所述根据所述规则节点生成答复信息，包括：

根据所述规则节点从语料库中获取对应的回复信息，和/或从模板图像库中选择相应的模板图像信息；

将所述回复信息或者所述模板图像信息或者所述回复信息和所述模板图像信息组合成的新图像信息作为所述答复信息。

7.一种自动问答系统，其特征在于，包括：

识别理解模块，用于对接收到的图像信息进行图像识别，根据图像识别结果对所述图像信息进行图像理解，以得到图像理解结果；

选择模块，用于根据应用场景和所述图像理解结果，从预先训练的图像编码模型中选择一个子模型；

编码输出模块，用于将所述图像信息输入到所述子模型中进行编码，以输出编码结果对用户进行答复。

8.根据权利要求7所述的系统，其特征在于，所述识别理解模块，还用于：通过文字识别技术提取所述图像信息中的文字信息；

通过预先训练的图文转换模型将所述图像信息转换为文本描述信息；以及

9.根据权利要求7或8所述的系统，所述图像编码模型包括图像到图像模型和图像到文本模型，所述图像到图像模型和所述图像到文本模型均包括至少一个子模型；

所述编码输出模块，还用于：将所述图像信息输入到选择出的所述图像到图像模型的子模型或者所述图像到文本模型的子模型中进行编码处理，以得到对应的目标图像信息或者文本序列信息。

10.根据权利要求7或8所述的系统，其特征在于，所述系统还包括：表情识别模块，用于通过预先训练的表情识别模型对所述图像信息进行表情识别，以得到表情识别结果；

所述系统还包括：查找输出模块，用于当识别出有效表情类型时，根据所述表情识别结果查找预先配置的规则树，以获取对应的规则节点；以及

根据所述规则节点生成答复信息，输出所述答复信息。

11.根据权利要求10所述的系统，其特征在于，所述查找输出模块，还用于：根据所述规则节点从语料库中获取对应的回复信息，和/或从模板图像库中选择相应的模板图像信息；以及

12.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。

13.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。