CN110046221B

CN110046221B - 一种机器对话方法、装置、计算机设备及存储介质

Info

Publication number: CN110046221B
Application number: CN201910154323.9A
Authority: CN
Inventors: 吴壮伟
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-03-01
Filing date: 2019-03-01
Publication date: 2023-12-22
Anticipated expiration: 2039-03-01
Also published as: CN110046221A; WO2020177282A1

Abstract

本发明实施例涉及人工智能技术领域，公开了一种机器对话的方法、装置、计算机设备及存储介质，其中方法包括下述步骤：获取当前用户输入的语言信息；将所述语言信息输入到预设的意图识别模型中，获取所述意图识别模型响应所述语言信息而输出的对话意图；将所述对话意图输入到预设的应答决策模型中，获取所述应答决策模型响应所述对话意图而输出的应答策略；将所述语言信息输入到与所述应答策略具有映射关系的应答生成模型，获取所述应答生成模型响应所述语言信息而输入的应答信息。通过意图识别，确定应答生成模型，生成不同类型应答，使对话多样化，更有趣味性。

Description

一种机器对话方法、装置、计算机设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种机器对话方法、装置、计算机设备及存储介质。

背景技术

随着人工智能技术的发展，聊天机器人也逐渐兴起。聊天机器人是一个用来模拟人类对话或聊天的程序，可以用于实用的目的，例如客户服务、咨询问答，也有一部分的社交机器人，用来与人们聊天。

有些聊天机器人会搭载自然语言处理系统，但更多的从输入语句中提取关键字，再从数据库中根据关键字检索答案。这些聊天机器人回答通常中规中矩，不带感情色彩，聊天模式千篇一律，导致人们与之聊天的兴趣不高，聊天机器人的利用率也较低。

发明内容

本发明提供一种机器对话方法、装置、计算机设备及存储介质，以解决聊天机器人回答千篇一律的问题。

为解决上述技术问题，本发明提出一种机器对话方法，包括如下步骤：

获取当前用户输入的语言信息；

将所述语言信息输入到预设的意图识别模型中，获取所述意图识别模型响应所述语言信息而输出的对话意图；

将所述对话意图输入到预设的应答决策模型中，获取所述应答决策模型响应所述对话意图而输出的应答策略，其中，所述应答决策模型用于从预设的多个候选应答策略中选择与所述对话意图对应的应答策略；

将所述语言信息输入到与所述应答策略具有映射关系的应答生成模型，获取所述应答生成模型响应所述语言信息而输入的应答信息。

可选地，所述应答决策模型基于预设的Q值矩阵，其中，所述Q值矩阵中的元素q用于评价各候选应答策略对于各对话意图的价值，在将所述对话意图输入到预设的应答决策模型中，获取所述应答决策模型响应所述对话意图而输出的应答策略的步骤中，还包括下述步骤：

根据所述对话意图查询所述Q值矩阵；

确定所述Q值矩阵中最大的q值对应的候选应答策略为所述对话意图的应答策略。

可选地，所述应答决策模型基于预先训练的Q值强化学习网络模型，其中，所述Q值强化学习网络模型以下述第一损失函数为特征：

其中，s为对话意图，a为应答策略，w为Q值强化学习网络模型的网络参数，Q为真实值，为预测值；

调整所述Q值强化学习网络模型的网络参数w的值，使所述第一损失函数达到最小值时，确定由所述网络参数w的值定义的Q值强化学习网络模型为预先训练的Q值强化学习网络模型。

可选地，在将所述对话意图输入到预设的应答决策模型中，获取所述应答决策模型响应所述对话意图而输出的应答策略的步骤中，还包括下述步骤：

依次将候选应答策略和所述对话意图输入到所述Q值强化学习网络模型中，获取所述Q值强化学习网络模型输出的各候选应答策略对应的Q值；

确定所述Q值最大的候选应答策略为所述对话意图的应答策略。

可选地，所述预设的意图识别模型采用预先训练的LSTM-CNN神经网络模型，其中，所述LSTM-CNN神经网络模型的训练包含下述步骤：

获取标记有对话意图类别的训练样本，所述训练样本为标记有不同对话意图类别的语言信息；

将所述训练样本输入LSTM-CNN神经网络模型获取所述训练样本的对话意图参照类别；

通过第二损失函数比对所述训练样本内不同样本对话意图参照类别与所述对话意图类别是否一致，其中第二损失函数为：

其中，N为训练样本数，针对第i个样本其对应的标记为Yi是最终的意图识别结果，h＝(h1,h2,...,hc)为样本i的预测结果，其中C是所有分类的数量；

当所述对话意图参照类别与所述对话意图类别不一致时，反复循环迭代的更新所述LSTM-CNN神经网络模型中的权重，至所述第二损失函数达到最小值时结束。

可选地，所述预设的意图识别模型采用正则匹配算法，其中，所述正则匹配算法使用的规则字符串至少包含疑问特征字符串，所述将所述语言信息输入到预设的意图识别模型中，获取所述意图识别模型响应所述语言信息而输出的对话意图的步骤中，包括下述步骤：

将所述语言信息与所述规则字符串进行正则匹配运算，当结果为匹配时，确定所述对话意图为任务型，否则，确定所述对话意图为聊天型。

可选地，所述应答生成模型至少包含预先训练的Seq2Seq模型，其中，所述Seq2Seq模型通过下述步骤进行训练：

获取训练语料，所述训练语料包含输入序列和输出序列；

将所述输入序列输入到Seq2Seq模型中，调整Seq2Seq模型的参数，使Seq2Seq模型响应所述输入序列而输出所述输出序列的概率最大。

为解决上述问题，本发明还提供一种机器对话装置，包括：

获取模块，用于获取当前用户输入的语言信息；

识别模块，将所述语言信息输入到预设的意图识别模型中，获取所述意图识别模型响应所述语言信息而输出的对话意图；

计算模块，将所述对话意图输入到预设的应答决策模型中，获取所述应答决策模型响应所述对话意图而输出的应答策略，其中，所述应答决策模型用于从预设的多个候选应答策略中选择与所述对话意图对应的应答策略；

生成模块，将所述语言信息输入到与所述应答策略具有映射关系的应答生成模型，获取所述应答生成模型响应所述语言信息而输入的应答信息。

可选地，所述机器对话装置中的应答决策模型基于预设的Q值矩阵，其中，所述Q值矩阵中的元素q用于评价各候选应答策略对于各对话意图的价值，所述机器对话装置中还包括：

第一查询子模块，用于根据所述对话意图查询所述Q值矩阵；

第一确认子模块，用于确定所述Q值矩阵中最大的q值对应的候选应答策略为所述对话意图的应答策略。

可选地，所述机器对话装置中的应答决策模型基于预先训练的Q值强化学习网络模型，其中，所述Q值强化学习网络模型以下述第一损失函数为特征：

可选地，所述机器对话装置还包括：

第一处理子模块，用于依次将候选应答策略和所述对话意图输入到所述Q值强化学习网络模型中，获取所述Q值强化学习网络模型输出的各候选应答策略对应的Q值；

第二确认子模块，用于确定所述Q值最大的候选应答策略为所述对话意图的应答策略。

可选地，所述机器对话装置中预设的意图识别模型采用预先训练的LSTM-CNN神经网络模型，所述机器对话装置还包括：

第一获取子模块，用于获取标记有对话意图类别的训练样本，所述训练样本为标记有不同对话意图类别的语言信息；

第二处理子模块，用于将所述训练样本输入LSTM-CNN神经网络模型获取所述训练样本的对话意图参照类别；

第一比对子模块，用于通过第二损失函数比对所述训练样本内不同样本对话意图参照类别与所述对话意图类别是否一致，其中第二损失函数为：

第一执行子模块，用于当所述对话意图参照类别与所述对话意图类别不一致时，反复循环迭代的更新所述LSTM-CNN神经网络模型中的权重，至所述第二损失函数达到最小值时结束。

可选地，可选地，所述机器对话装置中预设的意图识别机器对话模型采用正则匹配算法，其中，所述正则匹配算法使用的规则字符串至少包含疑问特征字符串，所述将所述语言信息输入到预设的意图识别模型中，获取所述意图识别模型响应所述语言信息而输出的对话意图的步骤中，包括下述步骤：将所述语言信息与所述规则字符串进行正则匹配运算，当结果为匹配时，确定所述对话意图为任务型，否则，确定所述对话意图为聊天型。

可选地，所述机器对话装置中的应答生成模型至少包含预先训练的Seq2Seq模型，所述机器对话装置还包括：

第二获取子模块，用于获取训练语料，所述训练语料包含输入序列和输出序列；

第三处理子模块，用于将所述输入序列输入到Seq2Seq模型中，调整Seq2Seq模型的参数，使Seq2Seq模型响应所述输入序列而输出所述输出序列的概率最大。

为解决上述技术问题，本发明实施例还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述所述机器对话方法的步骤。

为解决上述技术问题，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时，使得所述处理器执行上述所述机器对话方法的步骤。

本发明实施例的有益效果为：通过获取当前用户输入的语言信息；将所述语言信息输入到预设的意图识别模型中，获取所述意图识别模型响应所述语言信息而输出的对话意图；将所述对话意图输入到预设的应答决策模型中，获取所述应答决策模型响应所述对话意图而输出的应答策略，其中，所述应答决策模型用于从预设的多个候选应答策略中选择与所述对话意图对应的应答策略；将所述语言信息输入到与所述应答策略具有映射关系的应答生成模型，获取所述应答生成模型响应所述语言信息而输入的应答信息。通过对输入语句的意图识别，确定应答生成模型，且在确定应答生成模型过程中引入强化学习网络模型，意图不同，采用不同的应答生成模型，生成不同类型的应答，使对话多样化，更有趣味性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图

图1为本发明实施例一种机器对话方法基本流程示意图；

图2为本发明实施例采用Q值矩阵确定应答策略流程示意图；

图3为本发明实施例采用Q值强化学习网络确定应答策略流程示意图；

图4为本发明实施例LSTM-CNN神经网络模型训练流程示意图；

图5为本发明实施例一种机器对话装置基本结构框图；

图6为本发明实施例计算机设备基本结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

本技术领域技术人员可以理解，这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，执行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(Personal Communications Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本实施方式中的终端即为上述的终端。

具体地，请参阅图1，图1为本实施例一种机器对话方法的基本流程示意图。

如图1所示，一种机器对话方法，包括下述步骤：

S101、获取当前用户输入的语言信息；

通过终端上可交互的页面获取用户输入的语言信息，接收到的信息可以是文本信息，也可以是语音信息，通过语音识别装置，将语音信息转化为文本信息。

S102、将所述语言信息输入到预设的意图识别模型中，获取所述意图识别模型响应所述语言信息而输出的对话意图；

将文本化的语言信息输入到预设的意图识别模型中，识别出用户的对话意图。对话意图的识别可以基于关键字，例如判断意图是任务型还是聊天型，任务型即对话意图为需要机器人解答问题，可以通过判断输入的语言信息中是否包含表示疑问的关键词，例如“？””什么”“多少”“哪里”“怎么”等表示疑问的语气词。也可以采用正则匹配的算法，判断输入的语言信息是否疑问句，正则表达式是对字符串操作的一种逻辑公式，用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

当输入的语言信息不是疑问句，则判断对话意图为聊天型。进一步地，可以细分对话意图，例如聊天型下可细分为积极型，包括肯定、称赞、感谢等情绪；消极型，包括吐槽、抱怨、指责等情绪。细分的对话意图可以通过预设的关键词列表判断，每一种对话意图，预设一个关键词列表，当提取的输入语言信息中的关键词与某种对话意图对应的关键词列表中的词一致时，认为输入语言信息对应该对话意图。

本发明实施例中通过预先训练的LSTM-CNN神经网络模型进行对话意图识别。具体地，对输入的内容，首先进行中文分词，采用基本分词库，依次进入去除停用词、标点符号等，通过词向量模型获得词嵌入向量，传入基于LSTM-CNN的神经网络模型。词嵌入向量进入多层LSTM神经单元，得到各个阶段的状态向量和输出；然后，基于各个阶段的状态向量，进行卷积操作和池化操作(CNN)，得到综合向量指标；然后将综合向量指标输入softmax函数，得到对应的意图的概率。取概率最高的意图为输入语言信息对应的对话意图。具体地，LSTM-CNN神经网络模型的训练过程请参阅图4。

S103、将所述对话意图输入到预设的应答决策模型中，获取所述应答决策模型响应所述对话意图而输出的应答策略，其中，所述应答决策模型用于从预设的多个候选应答策略中选择与所述对话意图对应的应答策略；

经过步骤S102的处理，得到了输入语言信息的对话意图，将对话意图输入到应答决策模型中，确定针对输入语言信息的应答策略。为了使对话带有感情色彩，使对话更有趣，可以针对不同的对话意图预设不同的应答策略，例如，针对任务型意图，应答策略为问题解答型，针对消极型意图，应答策略为情绪排解型，针对积极型意图，应答策略为情绪同理型。不同的应答策略对应不同的应答生成模型。

本发明实施例中，通过计算Q值来确定对话意图所应采取的应答策略。Q值用来衡量针对某种对话意图采取某种应答策略对整个聊天过程的价值，例如我们考察聊天的愉悦程度，愉悦程度可以用整个对话过程中消极意图语句占用户在本轮对话中输入语句数的比例来衡量，则Q值是针对某轮对话采取某种应答策略对聊天愉悦度的价值。

可以通过经验值预设一个Q值矩阵，其中的元素为q(s,a),s∈S,a∈A其中S为对话意图空间，A为应答策略空间。

q(1，1)…q(1，a)

………

q(s，1)…q(s，a)

在一些实施方式中，Q值通过Q值强化学习网络模型计算得出。Q值强化学习网络模型输入为s，即对话意图，输出为Q(s,a)。即从状态s出发，采取a策略，能得到的预期收益。Q值强化学习网络模型的训练以第一损失函数收敛为训练目标，第一损失函数为

其中，s为对话意图，a为应答策略，w为Q值强化学习网络模型的网络参数，Q为真实值，为预测值。当第一损失函数收敛时，w即为Q值强化学习网络模型训练好的网络参数。

所述的应答决策模型即前述的Q值矩阵或Q值强化学习网络模型。

S104、将所述语言信息输入到与所述应答策略具有映射关系的应答生成模型，获取所述应答生成模型响应所述语言信息而输入的应答信息。

针对每种应答策略，预设对应的应答生成模型，例如，应答策略为问题解答型，对应的应答生成模型包含问答数据库，通过检索输入语言信息中的关键词，匹配相应的答案。对于应答策略为情绪排解型，对应的应答生成模型采用经过训练的Seq2Seq模型，具体的训练过程为准备训练语料，即准备输入序列和对应的输出序列，将输入序列输入到Seq2Seq模型，计算得到输出序列的概率，调整Seq2Seq模型的参数，使整个样本，即所有输入序列经过Seq2Seq输出对应输出序列的概率最高。这里准备的训练语料要求输入语句情感为消极型，输出语句情感为积极型。

如图2所示，当采用预设的Q值矩阵来确定对话意图对应的应答策略时，步骤S103中还包括以下步骤：

S111、根据所述对话意图查询所述Q值矩阵；

查询Q值矩阵中，该对话意图对应的各候选应答策略的q值。

S112、确定所述Q值矩阵中最大的q值对应的候选应答策略为所述对话意图的应答策略。

q值最大的候选应答策略即为该对话意图对应的应答策略。

如图3所示，当采用预先训练的Q值强化学习网络模型来确定对话意图对应的应答策略时，步骤S103中还包括以下步骤：

S121、依次将候选应答策略和所述对话意图输入到所述Q值强化学习网络模型中，获取所述Q值强化学习网络模型输出的各候选应答策略对应的Q值；

计算各候选应答策略的Q值时，将该候选应答策略和对话意图输入到Q值强化学习网络模型，得到该对话意图采用该应答策略的Q值。

S122、确定所述Q值最大的候选应答策略为所述对话意图的应答策略。

确定Q值最大的候选应答策略为该对话意图应该采用的应答策略。

如图4所示，本发明实施例中LSTM-CNN神经网络模型的训练包括以下步骤：

S131、获取标记有对话意图类别的训练样本，所述训练样本为标记有不同对话意图类别的语言信息；

准备训练样本，训练样本标记有对话意图的类别。本发明实施例中的训练样本标记的类别为任务型和聊天型。任务型对应用户需求为解答问题，聊天型对应用和需求为闲聊。

S132、将所述训练样本输入LSTM-CNN神经网络模型获取所述训练样本的对话意图参照类别；

将训练样本，首先进行中文分词，可以采用基本分词库，依次进入去除停用词、标点符号等、通过词向量模型获得词嵌入向量，输入到LSTM-CNN的神经网络模型，即词嵌入向量，进入多层LSTM神经单元，得到各个阶段的状态向量和输出；然后，基于各个阶段的状态向量，进行卷积操作和池化操作(CNN)，得到综合向量指标；然后将综合向量指标进入softmax函数，得到对应的意图的概率。

S133、通过第二损失函数比对所述训练样本内不同样本对话意图参照类别与所述对话意图类别是否一致，其中第二损失函数为：

本发明实施例中，LSTM-CNN的神经网络模型以第二损失函数收敛为训练目标，即通过调整神经网络模型中各节点的权重，使第二损失函数达到最小值，当继续调整权重，损失函数的值不再减小，反而增大时，训练结束。

S134、当所述对话意图参照类别与所述对话意图类别不一致时，反复循环迭代的更新所述LSTM-CNN神经网络模型中的权重，至所述第二损失函数达到最小值时结束。

通过第二损失函数是否收敛来衡量LSTM-CNN的神经网络模型预测的训练样本的对话意图与训练样本标记的对话意图类别是否一致，如果第二损失函数不收敛，通过梯度下降法，调整神经网络模型中各节点的权重，至神经网络预测的对话意图参照类别与训练样本标记的对话意图类别一致时结束。即继续调整权重，损失函数的值不再减小，反而增大时，训练结束。

为解决上述技术问题本发明实施例还提供一种机器对话装置。具体请参阅图5，图5为本实施例机器对话装置的基本结构框图。

如图5所示，一种机器对话装置，包括：获取模块210、识别模块220、计算模块230和生成模块240。其中，获取模块210，用于获取当前用户输入的语言信息；识别模块220，将所述语言信息输入到预设的意图识别模型中，获取所述意图识别模型响应所述语言信息而输出的对话意图；计算模块230，将所述对话意图输入到预设的应答决策模型中，获取所述应答决策模型响应所述对话意图而输出的应答策略，其中，所述应答决策模型用于从预设的多个候选应答策略中选择与所述对话意图对应的应答策略；生成模块240，将所述语言信息输入到与所述应答策略具有映射关系的应答生成模型，获取所述应答生成模型响应所述语言信息而输入的应答信息。

本发明实施例通过获取当前用户输入的语言信息；将所述语言信息输入到预设的意图识别模型中，获取所述意图识别模型响应所述语言信息而输出的对话意图；将所述对话意图输入到预设的应答决策模型中，获取所述应答决策模型响应所述对话意图而输出的应答策略，其中，所述应答决策模型用于从预设的多个候选应答策略中选择与所述对话意图对应的应答策略；将所述语言信息输入到与所述应答策略具有映射关系的应答生成模型，获取所述应答生成模型响应所述语言信息而输入的应答信息。通过对输入语句的意图识别，确定应答生成模型，且在确定应答生成模型过程中引入强化学习网络模型，意图不同，采用不同的应答生成模型，生成不同类型的应答，使对话多样化，更有趣味性。

在一些实施方式中，所述机器对话装置中的应答决策模型基于预设的Q值矩阵，其中，所述Q值矩阵中的元素q用于评价各候选应答策略对于各对话意图的价值，所述机器对话装置中还包括：第一查询子模块和第一确认子模块，其中，第一查询子模块，用于根据所述对话意图查询所述Q值矩阵；第一确认子模块，用于确定所述Q值矩阵中最大的q值对应的候选应答策略为所述对话意图的应答策略。

在一些实施方式中，所述机器对话装置中的应答决策模型基于预先训练的Q值强化学习网络模型，其中，所述Q值强化学习网络模型以下述第一损失函数为特征：

其中，s为对话意图，a为应答策略，w为Q值强化学习网络模型的网络参数，Q为真实值，为预测值；调整所述Q值强化学习网络模型的网络参数w的值，使所述第一损失函数达到最小值时，确定由所述网络参数w的值定义的Q值强化学习网络模型为预先训练的Q值强化学习网络模型。

在一些实施方式中，所述机器对话装置还包括：第一处理子模块、第二确认子模块。其中，第一处理子模块，用于依次将候选应答策略和所述对话意图输入到所述Q值强化学习网络模型中，获取所述Q值强化学习网络模型输出的各候选应答策略对应的Q值；第二确认子模块，用于确定所述Q值最大的候选应答策略为所述对话意图的应答策略。

在一些实施方式中，所述机器对话装置中预设的意图识别模型采用预先训练的LSTM-CNN神经网络模型，所述机器对话装置还包括：第一获取子模块、第二处理子模块、第一比对子模块和第一执行子模块，其中，第一获取子模块，用于获取标记有对话意图类别的训练样本，所述训练样本为标记有不同对话意图类别的语言信息；第二处理子模块，用于将所述训练样本输入LSTM-CNN神经网络模型获取所述训练样本的对话意图参照类别；第一比对子模块，用于通过第二损失函数比对所述训练样本内不同样本对话意图参照类别与所述对话意图类别是否一致，其中第二损失函数为：

其中，N为训练样本数，针对第i个样本其对应的标记为Yi是最终的意图识别结果，h＝(h1,h2,...,hc)为样本i的预测结果，其中C是所有分类的数量；第一执行子模块，用于当所述对话意图参照类别与所述对话意图类别不一致时，反复循环迭代的更新所述LSTM-CNN神经网络模型中的权重，至所述第二损失函数达到最小值时结束。

在一些实施方式中，所述机器对话装置中所述预设的意图识别模型采用正则匹配算法，其中，所述正则匹配算法使用的规则字符串至少包含疑问特征字符串，所述机器对话装置还包括第一匹配子模块，用于将所述语言信息与所述规则字符串进行正则匹配运算，当结果为匹配时，确定所述对话意图为任务型，否则，确定所述对话意图为聊天型。

在一些实施方式中，所述机器对话装置中的应答生成模型至少包含预先训练的Seq2Seq模型，所述机器对话装置还包括第二获取子模块和第三处理子模块，其中，第二获取子模块，用于获取训练语料，所述训练语料包含输入序列和输出序列；第三处理子模块，用于将所述输入序列输入到Seq2Seq模型中，调整Seq2Seq模型的参数，使Seq2Seq模型响应所述输入序列而输出所述输出序列的概率最大。

为解决上述技术问题，本发明实施例还提供计算机设备。具体请参阅图6，图6为本实施例计算机设备基本结构框图。

如图6所示，计算机设备的内部结构示意图。如图6所示，该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中，该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种机器对话的方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种机器对话的方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施方式中处理器用于执行图5中获取模块210、识别模块220、计算模块230和生成模块240的具体内容，存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有机器对话方法中执行所有子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有子模块的功能。

计算机设备通过获取当前用户输入的语言信息；将所述语言信息输入到预设的意图识别模型中，获取所述意图识别模型响应所述语言信息而输出的对话意图；将所述对话意图输入到预设的应答决策模型中，获取所述应答决策模型响应所述对话意图而输出的应答策略，其中，所述应答决策模型用于从预设的多个候选应答策略中选择与所述对话意图对应的应答策略；将所述语言信息输入到与所述应答策略具有映射关系的应答生成模型，获取所述应答生成模型响应所述语言信息而输入的应答信息。通过对输入语句的意图识别，确定应答生成模型，且在确定应答生成模型过程中引入强化学习网络模型，意图不同，采用不同的应答生成模型，生成不同类型的应答，使对话多样化，更有趣味性。

本发明还提供一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述任一实施例所述机器对话方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种机器对话方法,其特征在于,包括下述步骤：

获取当前用户输入的语言信息；

将所述语言信息输入到与所述应答策略具有映射关系的应答生成模型，获取所述应答生成模型响应所述语言信息而输入的应答信息；

所述应答决策模型基于预设的Ｑ值矩阵，其中，所述Ｑ值矩阵中的元素ｑ用于评价各候选应答策略对于各对话意图的价值，在将所述对话意图输入到预设的应答决策模型中，获取所述应答决策模型响应所述对话意图而输出的应答策略的步骤中，具体包括下述步骤：

根据所述对话意图查询所述Ｑ值矩阵；

确定所述Ｑ值矩阵中最大的ｑ值对应的候选应答策略为所述对话意图的应答策略；

所述应答决策模型基于预先训练的Ｑ值强化学习网络模型，其中，所述Ｑ值强化学习网络模型以下述第一损失函数为特征：

；

其中，s为对话意图，a为应答策略，w为Ｑ值强化学习网络模型的网络参数，为真实值，为预测值；

调整所述Ｑ值强化学习网络模型的网络参数w的值，使所述第一损失函数达到最小值时，确定由所述网络参数w的值定义的Ｑ值强化学习网络模型为预先训练的Ｑ值强化学习网络模型；

在将所述对话意图输入到预设的应答决策模型中，获取所述应答决策模型响应所述对话意图而输出的应答策略的步骤中，具体包括下述步骤：

依次将候选应答策略和所述对话意图输入到所述Ｑ值强化学习网络模型中，获取所述Ｑ值强化学习网络模型输出的各候选应答策略对应的Ｑ值；

确定所述Ｑ值最大的候选应答策略为所述对话意图的应答策略。

2.根据权利要求1所述的机器对话方法，其特征在于，所述预设的意图识别模型采用预先训练的LSTM-CNN神经网络模型，其中，所述LSTM-CNN神经网络模型通过下述步骤进行训练：

；

其中，N为训练样本数，针对第 i 个样本其对应的标记为Yi是最终的意图识别结果，h=（h1,h2,...,hc）为样本 i 的预测结果，其中 C 是所有分类的数量；

3.根据权利要求1所述的机器对话方法，其特征在于，所述预设的意图识别模型采用正则匹配算法，其中，所述正则匹配算法使用的规则字符串至少包含疑问特征字符串，所述将所述语言信息输入到预设的意图识别模型中，获取所述意图识别模型响应所述语言信息而输出的对话意图的步骤中，包括下述步骤：

4.根据权利要求1所述的机器对话方法，其特征在于，所述应答生成模型至少包含预先训练的Seq2Seq模型，其中，所述Seq2Seq模型通过下述步骤进行训练：

获取训练语料，所述训练语料包含输入序列和输出序列；

5.一种机器对话装置，其特征在于，所述机器对话装置执行如权利要求1至4中任一项权利要求所述机器对话方法的步骤，所述机器对话装置包括：

获取模块，用于获取当前用户输入的语言信息；

6.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1至4中任一项权利要求所述机器对话方法的步骤。

7.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至4中任一项权利要求所述机器对话方法的步骤。