CN110209897A

CN110209897A - 智能对话方法、装置、存储介质及设备

Info

Publication number: CN110209897A
Application number: CN201810144881.2A
Authority: CN
Inventors: 方全; 徐常胜
Original assignee: Institute of Automation of Chinese Academy of Science; Tencent Cyber Tianjin Co Ltd
Current assignee: Institute of Automation of Chinese Academy of Science; Tencent Cyber Tianjin Co Ltd
Priority date: 2018-02-12
Filing date: 2018-02-12
Publication date: 2019-09-06
Anticipated expiration: 2038-02-12
Also published as: CN110209897B

Abstract

本发明公开了一种智能对话方法、装置、存储介质及设备，属于人工智能技术领域。所述方法包括：接收目标终端发送的对话内容；获取发起对话的目标用户的用户特征信息；获取与所述对话内容存在内容关联的上下文信息；根据所述用户特征信息以及所述上下文信息，检索与所述对话内容相匹配的目标回复内容；将所述目标回复内容发送给所述目标终端。本发明实现了基于用户发起的对话内容、与该对话内容相关联的上下文信息以及用户特征信息，来寻找与该对话内容相匹配的最佳回复，该种智能对话方式更加符合真实场景中不同用户之间以及同一用户多轮对话的聊天需求，使得人机对话聊天过程更加自然，显著地提升了人与机器之间的对话质量。

Description

智能对话方法、装置、存储介质及设备

技术领域

本发明涉及人工智能技术领域，特别涉及一种智能对话方法、装置、存储介质及设备。

背景技术

AI(Artificial Intelligence，人工智能)，是目前研究和开发用于模拟、延伸以及扩展人类智能的一门新兴科学技术。其中，AI的主要研究目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作，比如时下出现的智能对话系统(例如聊天机器人)便是对AI技术的一个实际应用。

由于当今社会正在逐步向服务型社会转变，因此时下出现的智能对话系统一般均为服务型对话系统，以用来满足家庭陪护、儿童、医疗、教育、政务机关、银行、酒店、餐饮、旅游景区等行业场景的需求。而智能对话系统在接收到用户发起的对话后，可以自动对该对话进行回答，在这一来一往的发起对话与回复对话的过程中，便形成了人与机器之间的对话。

众所周知，在人机对话过程中，智能对话系统能否给出与用户发起的对话相匹配的回答，对人与机器之间的对话质量有着重大的影响，因此如何基于用户发起的对话进行智能对话，成为了时下本领域技术人员亟待解决的一个技术问题。

发明内容

本发明实施例提供了一种智能对话方法、装置、存储介质及设备，解决了相关技术存在的人机对话之间对话质量不好的问题。所述技术方案如下：

一方面，提供了一种智能对话方法，所述方法包括：

接收目标终端发送的对话内容；

获取发起对话的目标用户的用户特征信息；

获取与所述对话内容存在内容关联的上下文信息；

根据所述用户特征信息以及所述上下文信息，检索与所述对话内容相匹配的目标回复内容；

将所述目标回复内容发送给所述目标终端。

另一方面，提供了一种智能对话装置，所述装置包括：

接收模块，用于接收目标终端发送的对话内容；

第一获取模块，用于获取发起对话的目标用户的用户特征信息；

所述第一获取模块，还用于获取与所述对话内容存在内容关联的上下文信息；

检索模块，用于根据所述用户特征信息以及所述上下文信息，检索与所述对话内容相匹配的目标回复内容；

发送模块，用于将所述目标回复内容发送给所述目标终端。

在另一个实施例中，所述检索模块，用于根据所述对话内容，在已存储的回复内容中筛选出候选回复内容；对于所述候选回复内容中包括的M项回复内容，将所述M项回复内容分别与所述对话内容、所述上下文信息以及所述用户特征信息进行组合，得到M个匹配项；获取所述M个匹配项的特征向量；根据所述M个匹配项的特征向量，获取所述M个匹配项对应的匹配分值；对M个匹配分值进行排序，基于得到的排序结果确定所述目标回复内容。

在另一个实施例中，所述第一获取模块，用于对于所述M个匹配项中的每一个匹配项，获取所述对话内容的第一特征向量，以及获取所述匹配项中包含的回复内容的第二特征向量；获取所述上下文信息的第三特征向量，以及获取所述用户特征信息的第四特征向量；将所述第一特征向量、所述第二特征向量、所述第三特征向量以及所述第四特征向量进行拼接处理，将拼接得到的特征向量作为所述匹配项的特征向量。

在另一个实施例中，所述第一获取模块，用于当所述对话内容中包括所述视觉图像时，基于建立好的卷积神经网络提取所述视觉图像的K1维特征向量，将所述K1维特征向量作为所述第一特征向量；当所述对话内容中包括所述文本和/或所述表情符号时，对所述文本和/或所述表情符号进行词嵌入处理，将得到的词向量输入到LSTM(Long Short-TermMemory，长短期记忆网络)模型中，得到N1维特征向量，将所述N1维特征向量作为所述第一特征向量；当所述对话内容中包括所述视觉图像，以及包括所述文本和所述表情符号中的至少一种时，将所述K1维特征向量和所述N1维特征向量进行拼接处理，得到所述第一特征向量。

在另一个实施例中，所述第一获取模块，还用于对所述K1维特征向量进行降维处理，得到N2维特征向量，将所述N2维特征向量作为所述第一特征向量；或，对拼接得到的特征向量进行降维处理，得到所述第一特征向量。

在另一个实施例中，所述回复内容中包括文本、视觉图像、表情符号中的至少一种，所述第一获取模块，用于当所述回复内容中包括所述视觉图像时，基于建立好的卷积神经网络提取所述视觉图像的K2维特征向量，将所述K2维特征向量作为所述第二特征向量；当所述回复内容中包括所述文本和/或所述表情符号时，对所述文本和/或所述表情符号进行词嵌入处理，并将得到的词向量输入LSTM模型中，得到N4维特征向量，将所述N3维特征向量作为所述第二特征向量；当所述回复内容中包括所述视觉图像，以及包括所述文本和所述表情符号中的至少一种时，将所述K2维特征向量和所述N3维特征向量进行拼接处理，得到所述第二特征向量。

在另一个实施例中，所述第一获取模块，用于获取所述目标用户在指定时间段内输入的历史对话内容；对所述历史对话内容进行标签词提取以及用户属性分析，得到所述用户特征信息；对所述用户特征信息进行词嵌入处理，并将得到的词向量输入到双向LSTM模型中；获取所述双向LSTM模型的输出结果，得到所述第四特征向量。

在另一个实施例中，所述第一获取模块，用于对于所述上下文信息中的一项对话内容，获取所述对话内容的特征向量；将所述特征向量输入到LSTM模型中，得到第一输出结果；获取与所述对话内容相邻的下一项对话内容的特征向量；将得到的第一输出结果和所述下一项对话内容的特征向量输入到所述LSTM模型中，得到第二输出结果；重复执行上述步骤，直至所述上下文信息的最后一项对话内容，将所述最后一项对话内容的特征向量以及上一轮得到的输出结果，输入到所述LSTM模型中，得到所述第三特征向量。

在另一个实施例中，所述第一获取模块，用于将所述M个匹配项输入到建立好的匹配排序学习模型中，所述匹配排序学习模型用于获取所述M个匹配项的特征向量，并根据所述M个匹配项的特征向量获取所述M个匹配项对应的匹配分值；获取所述匹配排序学习模型输出的所述M个匹配项对应的匹配分值。

在另一个实施例中，所述装置还包括：

第二获取模块，用于获取正样本数据集以及负样本数据集；

训练模块，用于基于所述正样本数据集和所述负样本数据集，对初始匹配排序学习模型进行模型参数训练，得到所述匹配排序学习模型；

其中，一项正样本数据中包含的对话内容与回复内容匹配，一项负样本数据中包含的回复内容是随机选取的。

在另一个实施例中，所述装置还包括：

采集模块，用于从网络中采集开放域形式的原始对话数据，所述原始对话数据的类型至少包括文本、视觉图像以及表情符号；

预处理模块，用于对所述原始对话数据进行预处理，并对经过预处理的对话数据进行格式整理，得到对话内容与回复内容相对应的多个数据对，存储所述多个数据对；

所述检索模块，用于在已存储的所述多个数据对中，检索与所述对话内容匹配的目标回复内容。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例实现了基于用户发起的对话内容、与该对话内容相关联的上下文信息以及用户特征信息，来检索与该对话内容相匹配的最佳回复，该种智能对话方式更加符合真实场景中不同用户之间以及同一用户多轮对话的聊天需求，使得人机对话聊天过程更加自然，显著地提升了人与机器之间的对话质量。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的智能对话方法所涉及的实施坏境的架构图；

图2是本发明实施例提供的基于深度学习的检索式对话聊天的方案框架；

图3是本发明实施例提供的一种智能对话方法的流程图；

图4是本发明实施例提供的一种构建用户画像以及进行深度特征向量提取的示意图；

图5是本发明实施例提供的一种提取对话内容或回复内容的深度特征向量的示意图；

图6是本发明实施例提供的一种提取上下文信息的深度特征向量的示意图；

图7是本发明实施例提供的一种基于深度学习的匹配排序学习模型的框架示意图；

图8是本发明实施例提供的一种对话聊天的显示示意图；

图9是本发明实施例提供的一种对话聊天的显示示意图；

图10是本发明实施例提供的一种对话聊天的显示示意图；

图11是本发明实施例提供的一种智能对话装置的结构示意图；

图12是本发明实施例提供的一种用于智能对话的设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

在对本发明实施例进行详细地解释说明之前，先对本发明实施例涉及到的一些名词进行一下解释说明。

用户画像(personas)：可以简单理解为用户的标签，用户画像是真实用户的虚拟代表,是建立在一系列真实数据之上的用户模型。

即，用户画像是真实用户的虚拟代表，通过对用户属性进行分析完成用户建模，从而构成能够体现不同用户的个性化的用户画像。

其中，用户属性包括但不限于性别、年龄、兴趣爱好、工作、归属地、受教育程度、说话风格等，本发明实施例对此不进行具体限定。

上下文信息(context)：在本发明实施例中，上下文信息指代在用户当前发起的对话之前，用户与人机对话系统已产生的前序对话。其中，上下文信息在很多情况下会与用户当前发起的对话存在内容关联。

举例来说，假设用户发起对话1“现在走##国道打车去机场堵车吗？”，聊天机器人给予的答复1“有点堵儿”。接下来，用户再次发起对话2“那明天这个时候呢？”，针对上述对话场景来讲，用户最后一句明显是与之前的上下文信息存在内容关联的，如果聊天机器人不结合之前的上下文信息进行回复，那么其很有可能回复类似“明天是个好天气”这样毫无关联的内容，致使对话质量大大降低。

开放域：在本发明实施例中，开放域的含义是用户发起的对话可以涉及多个领域或多个场景，而不是局限于某个特定的领域或场景。

比如，用户发起的对话可以涉及家庭陪护、儿童、医疗、教育、政务机关、银行、酒店、餐饮、旅游景区等众多领域。

多模态：指代用户与人机对话系统之间的对话不再局限于传统的文本内容，而是可以扩展到包括视觉图像、表情符号等等。即，本发明实施例提供的智能对话方式呈现的是多模态内容，用户与聊天机器人之间能够进行基于多模态内容的对话交互。

下面对本发明实施例提供的智能对话方法涉及的实施环境进行解释说明。

参见图1，本发明实施例所涉及的实施环境中包括用户终端101和人机对话系统102。其中，用户终端101包括但不限于：智能手机、平板电脑、笔记本电脑、台式电脑、电子书阅读器等固定式或移动式电子设备，人机对话系统102为服务器，比如具体形式可为聊天机器人。用户通过在持有的终端上进行对话输入，发起向人机对话系统的对话；而人机对话系统在接收到用户发起的对话后，在数据集中检索出与发起的对话相匹配的最佳回复内容，并反馈给用户，在这一来一往的发起对话与回复对话的过程中，便实现了智能对话。

需要说明的是，用户终端101上可安装有用于进行人机对话的应用，进而实现基于该应用完成人与机器之间的对话。其中，该应用可为专用于进行人机对话的应用，也可为具有人机对话功能的其他应用，比如具有几人对话功能的社交应用，本发明实施例对此不进行具体限定。

在另一个实施例中，本发明实施例提供的智能对话方法具有面向多模态、开放域、多轮、个性化的对话聊天能力，使得人与机器之间的对话聊天更加自然化，更加趋向于人与人之间的自然对话。即，本发明实施例提供的可以解决下述几个方面的问题:

(1)、相关技术中对话聊天通常仅能针对特定的领域或场景，功能较为单一，为此本发明实施例提供的一种具有开放域对话聊天能力智能对话方法，使得用户可发起针对多个领域或场景的对话。

(2)、相关技术中的对话聊天一般集中在单轮，过于简单和单调，而自然形式的对话聊天通常是包括多轮的，为此本发明实施例通过结合当前对话的上下文信息来进行情景建模，以便了解用户进行对话的真正意图，并基于此向用户进行回复，从而能够更加准确地满足用户的需求响应。

(3)、相关技术中的对话集中在文本内容，对话聊天方式单一。而真实场景中的对话，尤其是基于社交应用的对话来说，呈现的更多是多模态的对话，为此本发明实施例通过融入多模态的对话来实现人与机器之间的对话交互，使得人机对话系统能够更加自然准确地与人进行对话，提高了用户体验。

(4)、在本发明实施例还将个性化的对话风格融入到对话聊天过程，即人机对话系统在向用户进行回复时，还会基于用户画像来选择回复内容，以体现不同用户的个性化。

总结来说，本发明实施例提出的智能对话方法，面向基于深度学习的开放域、多轮、多模态、个性化对话聊天，以解决针对开放域、多轮、多模态以及个性化这四个方面的问题。换句话说，针对上述几个方面的问题，本发明实施例旨在:

a)、针对单一领域或场景问题，构建数据集时搜集开放域形式的对话数据。

b)、针对多轮对话，考虑上下文信息，以便能够了解用户当前的聊天意图。

c)、针对多模态内容，考虑在对话聊天过程中融入视觉图像和表情符号等多模态内容，建立有效的多模态语义融合处理机制来准确地检索回复内容。

d)、在对话聊天过程中融入用户的个性化信息，为用户呈现与其风格匹配的回复内容。

在另一个实施例中，为了解决上述提及的问题，本发明实施例提出了如图2所示的对话框架。

参见图2，本发明实施例采用基于检索的对话聊天方式，该对话框架中包含离线建模学习和在线对话聊天两大部分。其中，针对离线建模学习过程来说，对构建的数据集进行了索引，得到了索引数据库，以及实现了进行基于上下文信息、多模态内容、用户画像的深度匹配排序学习；针对在线对话聊天过程来说，实现了从索引数据库中检索出与用户发起的对话相关的回复，以及基于深度匹配排序学习模型给出最佳回复。

基于上述对话框架，本发明实施例提供的智能对话过程，可归纳为下述三个步骤：

1)、检索过程：人机对话系统根据用户发起的对话在索引数据库中提取出最相关的回复内容。

其中，上述最相关的回复内容在本发明实施例中也可称之为候选回复内容。

2)匹配过程，人机对话系统对用户发起的对话与检索到的回复内容进行匹配打分，以选出语义匹配的回复内容；

3)排序过程，人机对话系统对得到的匹配分值进行排序，并将匹配分值最高的那一个回复内容作为最佳回复内容反馈给用户。

下面结合以上描述的内容，对本发明实施例提供的智能对话方法进行详细地解释说明。

图3是本发明实施例提供的一种智能对话方法的流程图。参见图3，本发明实施例提供的方法流程包括下述步骤：

301、人机对话系统从网络中采集开放域形式的原始对话数据。

在本发明实施例中，将从网络中采集到的数据称之为原始对话数据。

其中，数据采集的范围包括但不限于：各大论坛、社交网站、问答网站、资讯社区、搜索网站、公众号等。

对话数据的来源形式包括但不限于：开放域形式的回复、评论、对话聊天等。即针对各类场景或各种领域的对话数据本发明实施例均进行采集。

基于上述描述，人机对话系统可从各大论坛、社交网站、问答网站、资讯社区、搜索网站、公众号等，采集开放域形式的回复、评论、对话聊天等，从而完成原始对话数据的采集。

另外，原始对话数据的类型可涵盖文本、视觉图像以及表情符号等，本发明实施例对此不进行具体限定。

302、人机对话系统对原始对话数据进行预处理，并对经过预处理的对话数据进行格式整理，构建数据集。

其中，预处理过程实现对原始对话数据进行清洗，以去除噪声，过滤掉低质量的数据。在另一个实施例中，在对原始对话数据进行预处理后，如图2所示，将清洗过的对话数据整理为<post,reply>的数据格式。其中，post指代对话内容，reply为回复内容。

针对每一条post或reply来说，均包含作者信息、具体内容、元数据信息等。其中，具体内容包括但不限于文本、视觉图像、表情符号等，而元数据信息包括但不限于生成时间、地点、社交指数等。其中，社交指数指代点赞数、评论数等。需要说明的是，为了保证对话质量，构建的数据集的量级通常在百万以上。即，构建的数据集中包括了至少百万个的对话内容与回复内容相对应的数据对<post,reply>。

303、人机对话系统对构建好的数据集进行索引，得到索引数据库。

其中，索引数据库即为图2中所示的index<post,reply>。即，本发明实施例为了便于后续在对话过程中进行信息检索，为每一个数据对<post,reply>均设置了索引。

以上步骤301至步骤302即为数据集的构建过程。需要说明的是，上述数据集构建过程仅需在初始时构建一次即可，后续过程中可对构建的数据集进行数据更新。

304、人机对话系统接收目标终端发送的对话内容。

在本发明实施例中，将向人机对话系统发起对话的终端统称为目标终端。另外，由于本发明实施例支持开放域形式的对话聊天，所以用户发起的对话内容可针对各个领域或场景。且对话内容也不再局限于文本形式，还可包括表情符号或视觉图像等。即，在本发明实施例中对话内容可包括文本、表情符号以及视觉图像中的至少一种。

305、人机对话系统获取发起对话的目标用户的用户特征信息以及与当前对话内容存在内容关联的上下文信息。

在本发明实施例中，目标用户指代持有目标终端的用户。其中，目标用户的用户特征信息在本发明实施例中也称之为用户画像。

其中，用户画像的生成可采取下述方式实现：首先，获取目标用户在指定时间段内输入的历史对话内容。其中，指定时间段可为目标用户从第一次发起对话至当前时刻，即历史对话内容可针对目标用户历史向人机对话系统发起的全部对话内容，指定时间段也可为最近一段时间，比如指定时间段可为最近一个月、最近一个星期等，即历史对话内容也可针对目标用户向人机对话系统发起的部分对话内容，本发明实施例对此不进行具体限定。

而在获取到历史对话内容后，如图4所示，通过对历史对话内容进行标签词提取以及用户属性分析，便可得到诸如年龄、性别、兴趣爱好、归属地、工作、受教育程度、说话风格等的用户特征信息，构成用户画像。

针对与当前对话内容存在内容关联的上下文信息来说，可将本轮人机对话过程中已生成的全部对话作为上下文信息，或者，还可将本轮人机对话过程中最近一个预设时间段内生成的对话作为上下文信息，或者，还可将本轮人机对话过程中最近生成的一定数量的对话作为上下文信息，本发明实施例对此不进行具体限定。

306、人机对话系统根据用户特征信息以及上下文信息，在索引数据库中检索与当前对话内容相匹配的目标回复内容。

在本发明实施例中，目标回复内容的检索过程可拆分为下述几个步骤：

306a、根据当前对话内容，在索引数据库中筛选出候选回复内容。

其中，候选回复内容既可包括与当前对话内容存在内容关联，且语义可能也在某种程度上匹配的内容，也可包括与当前对话内容存在某种程度上的内容关联，但是语义不匹配的内容。

比如，候选回复内容中包括了当前对话内容的部分关键词。举个例子来说，当前对话内容中包括“天气”，则候选回复内容可为索引数据库中包括“天气”这一关键词的回复内容。

306b、对于候选回复内容中包括的M项回复内容，将M项回复内容分别与当前对话内容、上下文信息以及用户特征信息进行组合，得到M个匹配项。

在本发明实施例中，对于每一个匹配项来说，可以形式化为<对话内容，上下文信息，用户特征信息，回复内容>。若人机对话系统在索引数据库中检索到100个回复内容，即M的取值为100，那么便会得到100个上述匹配项。其中，这个100个匹配项中每一个匹配项所包含的回复内容均是不相同的。

若以符号Q表征对话内容，符号C表征上下文信息，符号U表征用户特征信息，符号R表征回复内容，则一个匹配项还可用({Q,C,U,}，R)来表示。其中，上述{Q,C,U,}在本发明实施例中也可称之为请求对话，R也可称之为回复对话。

此外，为了标识Q与R之间是否匹配，还可引入适配标签Y，即用Y来表征Q与R之间的匹配程度。例如当Q与R之间相匹配是，Y的取值为1，当完全不匹配是Y的取值为0。在引入适配标签Y后({Q,C,U,}，R)可变换成({Q,C,U,}，R，Y)。

306c、将M个匹配项输入到建立好的匹配排序学习模型中，该匹配排序学习模型获取M个匹配项的特征向量。

针对该步骤来说，涉及到对话内容、上下文信息、用户特征信息以及回复内容的深度特征学习过程。下面分别对这四个方面进行详细地解释说明。

对于一个匹配项来说，在获取其特征向量时，通常可拆分为下述几个步骤:

(1)、获取该匹配项中包含的对话内容的第一特征向量，以及获取该匹配项中包含的回复内容的第二特征向量。

本步骤又可称之为多模态内容建模。无论是针对对话内容还是针对回复内容来说，均可包括文本、视觉图像、表情符号等，在本发明实施例中，可将表情符号看作文本单词类型，即将对话内容和回复内容均简化成文本表情符号类和视觉图像类两种类型，分别对这两种类型的对话进行深度特征提取。即参见图5，对话内容和回复内容的深度特征提取过程可为：

针对视觉图像类来说，将视觉图像经过建立好的卷积神经网络提取高维特征向量(比如4096维)；针对文本表情符号类来说，先进行词嵌入将其表示成低维实值的词向量，然后将得到的词向量输入到LSTM模型中；最后，将基于视觉图像得到的向量和基于文本表情符号得到的向量拼接成长向量，并将拼接得到的长向量再经过全连接网络映射为低维向量，进而得到对话内容或回复内容的多模态特征向量，即完成了对对话内容或回复内容的深度特征提取。

需要说明的是，上述卷积神经网络的结构模型采用AlexNet，使用ImageNet预先进行模型训练。如图5所示，卷积神经网络通过全连接层fc7提取4096维特征向量，接下来，经过全连接层fc8将提取的4096维特征向量映射为低维向量。而针对文本表情符号类来说，假设一个文本句子为S＝{x₀,x₁,...,x_t}，其中x_t指代在该文本句子中t位置处的词向量，那么LSTM模型在t位置处的输出h_t可表示为：

h_t＝f_t·h_t-1+i_t·l_t

h_t ^s＝o_t·h_t

其中，σ为sigmoid函数，i_t为输入门，f_t为遗忘门，o_t为输出门，l_t用于额外修整记忆内容，W为LSTM模型参数，h_t-1表示t-1位置处的输出，e_t为t位置的偏差量，h_t ^s是当前隐藏层向量。

基于上述描述，针对该匹配项中包括的对话内容来说，获取其特征向量的过程可归纳为下述步骤，这一特征向量在本发明实施例中称之为第一特征向量：

方式一、当该对话内容中仅包括视觉图像时，基于建立好的卷积神经网络提取视觉图像的K1维特征向量，并对K1维特征向量进行降维处理，得到N2维特征向量，将N2维特征向量作为第一特征向量。

方式二、当该对话内容中包括文本和/或表情符号时，对文本和/或表情符号进行词嵌入处理，将得到的词向量输入到LSTM模型中，得到N1维特征向量，将N1维特征向量作为第一特征向量；

方式三、当该对话内容中包括视觉图像，以及包括文本和表情符号中的至少一种时，将N2维特征向量和N1维特征向量进行拼接处理，并对拼接得到的特征向量进行降维处理，得到第一特征向量。

同理，针对该匹配项中包括的回复内容来说，获取其特征向量的过程可归纳为下述步骤，这一特征向量在本发明实施例中称之为第二特征向量：

方式一、当回复内容中仅包括视觉图像时，基于建立好的卷积神经网络提取视觉图像的K2维特征向量，并对K2维特征向量进行降维处理，得到N4维特征向量，将N4维特征向量作为第二特征向量。

方式二、当回复内容中包括文本和/或表情符号时，对文本和/或表情符号进行词嵌入处理，并将得到的词向量输入LSTM模型中，得到N3维特征向量，将N3维特征向量作为第二特征向量；

方式三、当回复内容中包括视觉图像，以及包括文本和表情符号中的至少一种时，将N4维特征向量和N3维特征向量进行拼接处理，并对拼接得到的特征向量进行降维处理，得到第二特征向量。

(2)、获取上下文信息的第三特征向量，以及获取用户特征信息的第四特征向量。

本步骤又可称之为用户个性化建模。如图4所示，针对用户画像的深度特征提取过程来说，人机对话系统先将用户特征信息进行词嵌入处理，之后将得到的词向量输入到双向LSTM模型中，进而得到用户画像的深度特征表示，即获取双向LSTM模型的输出结果，得到第四特征向量。

其中，双向LSTM模型具体是在循坏神经网络的基础上实现，其同时利用时序数据中某个输入的前序数据及后继数据，将时序方向相反的两个循环卷积神经网络连接到同一个输出，通过这种结构，输出层便可以同时获取前序信息和后继信息。换一种表达方式，双向LSTM模型同时有一个正向LSTM和反向LSTM，正向LSTM捕获前序的特征信息，而反向LSTM捕获了后继的特征信息，相对单向LSTM来说能够捕获更多的特征信息，所以通常情况下双向LSTM模型的表现比单向LSTM或者单向循环神经网络要好。

本步骤又可称之为上下文建模。参见图6，针对上下文信息的深度特征提取过程来说，本发明实施例采用LSTM模型对上下文信息中包括的一系列对话进行建模，从而生成上下文信息的深度特征。其中，一项对话中可仅包括用户发起的对话内容，也可既包括用户发起的对话内容也包括对应的回复内容，本发明实施例对此不进行具体限定。如图6所示，每一项对话采用视觉图像加以及文本表情符号的特征提取框架来进行表示。即如下图7所示，上下文建模过程可表述为下述内容：

对于上下文信息中的任一项对话，获取该对话的特征向量；之后，将该特征向量输入到LSTM模型中，得到第一输出结果；接下来，获取与该对话相邻的下一项对话的特征向量，并将得到的第一输出结果和下一项对话的特征向量输入到LSTM模型中，得到第二输出结果。

重复执行上述步骤，直至上下文信息的最后一项对话，将最后一项对话的特征向量以及上一轮得到的输出结果，输入到LSTM模型中，从而上下文信息的深度特征，即第三特征向量。

例如，上述任一项对话即可指代图6中的对话d_n-k，而与该对话相邻的下一项对话便可指代d_n-k+1。

(3)、将第一特征向量、第二特征向量、第三特征向量以及第四特征向量进行拼接处理，将拼接得到的特征向量作为该匹配项的特征向量。

若以符号Q¹表征第一特征向量，以符号R¹表征第二特征向量，以符号C¹表征第三特征向量，以符号U¹表征第四特征向量，则人机对话系统在对对话内容Q、回复内容R，上下文信息C以及用户画像R进行深度特征提取后，便会得到低维实值的向量，通过对得到的几个向量进行拼接，便会得到总向量({Q¹，C¹，U¹}，R¹)，而这个总向量便为该匹配项的特征向量。

306d、匹配排序学习模型根据M个匹配项的特征向量获取M个匹配项对应的匹配分值，并输出M个匹配项对应的匹配分值。

在本发明实施例中，在得到M个匹配项的特征向量后，如图7所示，送入到全连接层，即MLP(Multi-layer Perceptron,多层神经网络)层中，最后经过激活(sigmoid)函数g(·)得到每一个匹配项中包含的对话内容与回复内容之间的匹配分值。其中，在图7中，Target表示目标，即回复内容，y_pr表示目标的真实值，表示目标的预测值。

如图7所示，深度匹配排序模型中包括输入层、嵌入层、全连接层、以及输出层。在本发明实施例中，采用基于点列的排序学习框架进行模型参数学习，从而完成深度匹配排序模型的训练。其中，训练数据集包含正样本数据集和负样本数据集，正数据集以({Q,C,U,}，R，Y₊)指代，负样本数据集以({Q,C,U,}，R，Y_-)指代。

需要说明的是，对于正样本数据集来说，其中任一项正样本数据中包含的对话内容均与回复内容匹配，即Y₊的取值为1。对于负样本数据集来说，任一项负样本数据中包含的回复内容均是随机为对应的对话内容选取的。

在得到正负样本数据集后，本发明实施例基于正样本数据集和负样本数据集，对初始匹配排序学习模型进行模型参数训练，进而得到用于检索最佳回复的深度匹配排序学习模型。具体地，可采用交叉熵loss方法以及随机梯度下降方法来训练模型参数，本发明实施例对此不进行具体限定。而针对交叉熵loss方法来说，对于任一样本q_i,c_i,u_i,r_i，可形式化为：

其中，N指代训练样本数目，y_i指代当前i个样本的真实值。

306e、对得到的M个匹配分值进行排序，基于得到的排序结果确定匹配分值最高的目标匹配项，将目标匹配项中包含的回复内容作为目标回复内容。

匹配分值越高，则表明对应的对话内容与回复内容之间语义越匹配。因此，本发明实施例将得分最高的那个匹配对中包含的回复内容作为目标回复内容。

307、人机对话系统将目标回复内容发送给目标终端。

其中，目标回复内容既可以是文本形式、视觉图像形式、还可以是表情符号形式，还可以是三者中至少两种的组合，本发明实施例对此不进行具体限定。

308、目标终端在接收到目标回复内容后，显示目标回复内容。

综上所述，本发明实施例提出了一种基于深度匹配排序学习的检索框架，通过该框架实现了基于用户发起的对话内容、上下文信息、用户特征信息以及回复内容，来对对话内容与回复内容之间的匹配度进行评分，且实现了通过对得到的匹配评分进行排序来寻找最佳回复，这种智能对话方式具有面向多模态、多轮、个性化、开放域的对话聊天能力。相比与相关技术中的人机对话系统，更加符合真实场景中用户的对话聊天需求，使得人机对话聊天过程更加自然，人与机器之间的对话质量有了明显的提升。

在另一个实施例中，下面通过几个具体的例子对本发明实施例提供的智能对话方法进行举例说明。

以人机对话系统为聊天机器人，且聊天机器人的名字为小z为例，给出如下几个场景说明。

情景1、如下述表1以及图8所示，涉及表情符号。

其中，表情符号既可为动态形式也可为静态形式，本发明实施例对此不进行具体限定。

表1

情景2、如下述表2以及图9所示，涉及视觉图像。

表2

用户OR机器	对话内容
		用户	口腔溃疡了，嘴好疼
小z	吃点药，少喝酒忌辛辣
		用户	吃啥药呢
小z	给出药的视觉图像
		用户	哦，去哪里买呢
小z	给出购买信息
		用户	谢谢小z

需要说明的是，上述药的视觉图像请参见图9。此外，要的购买信息可为文本形式的购买信息，比如药房的地址信息，还可为购买链接信息，本发明实施例对此不进行具体限定。

情景3、如下述表3以及图10所示，涉及视觉图像。

表3

用户OR机器	对话内容
		用户	给出一张视觉图像
小z	樱花不错
		用户	还能猜对樱花呀
用户	给出另一张视觉图像
		小z	小z觉得不错
小z	草莓蛋糕？
		用户	算你厉害

需要说明的是，除了上述的几个场景外，还可在对话聊天过程中引入语音或者视频或者情景感知内容等，本发明实施例对此不进行具体限定。

图11是本发明实施例提供的一种智能对话装置的结构示意图。参见图11,，该装置包括：

接收模块1101，用于接收目标终端发送的对话内容；

第一获取模块1102，用于获取发起对话的目标用户的用户特征信息；

第一获取模块1102，还用于获取与所述对话内容存在内容关联的上下文信息；

检索模块1103，用于根据所述用户特征信息以及所述上下文信息，检索与所述对话内容相匹配的目标回复内容；

发送模块1104，用于将所述目标回复内容发送给所述目标终端。

本发明实施例提供的装置，本发明实施例实现了基于用户发起的对话内容、与该对话内容相关联的上下文信息以及用户特征信息，来寻找与该对话内容相匹配的最佳回复，该种智能对话方式更加符合真实场景中不同用户之间以及同一用户多轮对话的聊天需求，使得人机对话聊天过程更加自然，显著地提升了人与机器之间的对话质量。

在另一个实施例中，所述第一获取模块，用于当所述对话内容中包括所述视觉图像时，基于建立好的卷积神经网络提取所述视觉图像的K1维特征向量，将所述K1维特征向量作为所述第一特征向量；当所述对话内容中包括所述文本和/或所述表情符号时，对所述文本和/或所述表情符号进行词嵌入处理，将得到的词向量输入到LSTM模型中，得到N1维特征向量，将所述N1维特征向量作为所述第一特征向量；当所述对话内容中包括所述视觉图像，以及包括所述文本和所述表情符号中的至少一种时，将所述K1维特征向量和所述N1维特征向量进行拼接处理，得到所述第一特征向量。

在另一个实施例中，所述装置还包括：

第二获取模块，用于获取正样本数据集以及负样本数据集；

在另一个实施例中，所述装置还包括：

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的智能对话装置在进行智能对话时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的智能对话装置与智能对话方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图12是本发明实施例提供的一种用于智能对话的设备的结构示意图，该设备1200可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)1201和一个或一个以上的存储器1202，其中，所述存储器1202中存储有至少一条指令，所述至少一条指令由所述处理器1201加载并执行以实现上述各个方法实施例提供的智能对话方法。当然，该设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该设备还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述实施例中的智能对话方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种智能对话方法，其特征在于，所述方法包括：

接收目标终端发送的对话内容；

获取发起对话的目标用户的用户特征信息；

获取与所述对话内容存在内容关联的上下文信息；

将所述目标回复内容发送给所述目标终端。

2.根据权利要求1所述的方法，其特征在于，所述根据所述用户特征信息以及所述上下文信息，检索与所述对话内容相匹配的目标回复内容，包括：

根据所述对话内容，在已存储的回复内容中筛选出候选回复内容；

对于所述候选回复内容中包括的M项回复内容，将所述M项回复内容分别与所述对话内容、所述上下文信息以及所述用户特征信息进行组合，得到M个匹配项；

获取所述M个匹配项的特征向量；

根据所述M个匹配项的特征向量，获取所述M个匹配项对应的匹配分值；

对M个匹配分值进行排序，基于得到的排序结果确定所述目标回复内容。

3.根据权利要求2所述的方法，其特征在于，所述获取所述M个匹配项的特征向量，包括：

对于所述M个匹配项中的每一个匹配项，获取所述对话内容的第一特征向量，以及获取所述匹配项中包含的回复内容的第二特征向量；

获取所述上下文信息的第三特征向量，以及获取所述用户特征信息的第四特征向量；

将所述第一特征向量、所述第二特征向量、所述第三特征向量以及所述第四特征向量进行拼接处理，将拼接得到的特征向量作为所述匹配项的特征向量。

4.根据权利要求3所述的方法，其特征在于，所述对话内容中包括文本、视觉图像、表情符号中的至少一种，所述获取所述对话内容的第一特征向量，包括：

当所述对话内容中包括所述视觉图像时，基于建立好的卷积神经网络提取所述视觉图像的K1维特征向量，将所述K1维特征向量作为所述第一特征向量；

当所述对话内容中包括所述文本和/或所述表情符号时，对所述文本和/或所述表情符号进行词嵌入处理，将得到的词向量输入到长短期记忆网络LSTM模型中，得到N1维特征向量，将所述N1维特征向量作为所述第一特征向量；

当所述对话内容中包括所述视觉图像，以及包括所述文本和所述表情符号中的至少一种时，将所述K1维特征向量和所述N1维特征向量进行拼接处理，得到所述第一特征向量。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

对所述K1维特征向量进行降维处理，得到N2维特征向量，将所述N2维特征向量作为所述第一特征向量；或，

对拼接得到的特征向量进行降维处理，得到所述第一特征向量。

6.根据权利要求3所述的方法，其特征在于，所述回复内容中包括文本、视觉图像、表情符号中的至少一种，所述获取所述匹配项中包含的回复内容的第二特征向量，包括：

当所述回复内容中包括所述视觉图像时，基于建立好的卷积神经网络提取所述视觉图像的K2维特征向量，将所述K2维特征向量作为所述第二特征向量；

当所述回复内容中包括所述文本和/或所述表情符号时，对所述文本和/或所述表情符号进行词嵌入处理，并将得到的词向量输入长短期记忆网络LSTM模型中，得到N4维特征向量，将所述N3维特征向量作为所述第二特征向量；

当所述回复内容中包括所述视觉图像，以及包括所述文本和所述表情符号中的至少一种时，将所述K2维特征向量和所述N3维特征向量进行拼接处理，得到所述第二特征向量。

7.根据权利要求3所述的方法，其特征在于，所述获取所述用户特征信息的第四特征向量，包括：

获取所述目标用户在指定时间段内输入的历史对话内容；

对所述历史对话内容进行标签词提取以及用户属性分析，得到所述用户特征信息；

对所述用户特征信息进行词嵌入处理，并将得到的词向量输入到双向长短期记忆网络LSTM模型中；

获取所述双向LSTM模型的输出结果，得到所述第四特征向量。

8.根据权利要求3所述的方法，其特征在于，所述获取所述上下文信息的第三特征向量，包括：

对于所述上下文信息中的一项对话内容，获取所述对话内容的特征向量；

将所述特征向量输入到长短期记忆网络LSTM模型中，得到第一输出结果；

获取与所述对话内容相邻的下一项对话内容的特征向量；

将得到的第一输出结果和所述下一项对话内容的特征向量输入到所述LSTM模型中，得到第二输出结果；

重复执行上述步骤，直至所述上下文信息的最后一项对话内容，将所述最后一项对话内容的特征向量以及上一轮得到的输出结果，输入到所述LSTM模型中，得到所述第三特征向量。

9.根据权利要求2所述的方法，其特征在于，所述获取所述M个匹配项的特征向量，根据所述M个匹配项的特征向量，获取所述M个匹配项对应的匹配分值，包括：

将所述M个匹配项输入到建立好的匹配排序学习模型中，所述匹配排序学习模型用于获取所述M个匹配项的特征向量，并根据所述M个匹配项的特征向量获取所述M个匹配项对应的匹配分值；

获取所述匹配排序学习模型输出的所述M个匹配项对应的匹配分值。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

获取正样本数据集以及负样本数据集；

基于所述正样本数据集和所述负样本数据集，对初始匹配排序学习模型进行模型参数训练，得到所述匹配排序学习模型；

11.根据权利要求1至10中任一权利要求所述的方法，其特征在于，所述方法还包括：

从网络中采集开放域形式的原始对话数据，所述原始对话数据的类型至少包括文本、视觉图像以及表情符号；

对所述原始对话数据进行预处理，并对经过预处理的对话数据进行格式整理，得到对话内容与回复内容相对应的多个数据对，存储所述多个数据对；

所述检索与所述对话内容相匹配的目标回复内容，包括：

在已存储的所述多个数据对中，检索与所述对话内容匹配的目标回复内容。

12.一种智能对话装置，其特征在于，所述装置包括：

接收模块，用于接收目标终端发送的对话内容；

发送模块，用于将所述目标回复内容发送给所述目标终端。

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

第二获取模块，用于获取正样本数据集以及负样本数据集；

14.一种存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至11中任一权利要求所述的智能对话方法。

15.一种用于智能对话的设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1至11中任一权利要求所述的智能对话方法。