CN109977201B

CN109977201B - 带情感的机器聊天方法、装置、计算机设备及存储介质

Info

Publication number: CN109977201B
Application number: CN201910081989.6A
Authority: CN
Inventors: 吴壮伟
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2023-09-22
Anticipated expiration: 2039-01-28
Also published as: WO2020155619A1; CN109977201A

Abstract

本发明实施例行公开了一种带情感的机器聊天的方法、装置、计算机设备及存储介质，其中方法包括下述步骤：通过获取用户输入的聊天语句；将所述聊天语句输入到预设的应答生成模型中，获取所述应答生成模型响应所述聊天语句而输出的初始应答；将所述初始应答输入到预设的情感生成模型中，获取所述情感生成模型响应所述初始应答而输出的至少两个携带情感的候选应答；将所述候选应答和所述聊天语句输入到经过训练的深度强化学习网络模型中，获取各候选应答的深度强化学习值；返回深度强化学习值最大的候选应答作为所述聊天语句的应答语句。对用户输入的聊天语句，返回带情感的答复，使机器聊天更自然、更人性化。

Description

带情感的机器聊天方法、装置、计算机设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种带情感的机器聊天方法、装置、计算机设备及存储介质。

背景技术

随着人工智能技术的发展，聊天机器人也逐渐兴起。聊天机器人是一个用来模拟人类对话或聊天的程序，可以用于实用的目的，例如客户服务、咨询问答，也有一部分的社交机器人，用来与人们聊天。

有些聊天机器人会搭载自然语言处理系统，但更多的从输入语句中提取关键字，再从数据库中根据关键字检索答案。这些聊天机器人回答通常中规中矩，不带感情色彩，聊天模式千篇一律，导致人们与之聊天的兴趣不高，聊天机器人的利用率也较低。

发明内容

本发明提供一种带情感的机器聊天方法、装置、计算机设备及存储介质，以解决聊天机器人回答千篇一律，不带感情色彩的问题。

为解决上述技术问题，本发明提出一种带情感的机器聊天方法，包括如下步骤：

获取用户输入的聊天语句；

将所述聊天语句输入到预设的应答生成模型中，获取所述应答生成模型响应所述聊天语句而输出的初始应答；

将所述初始应答输入到预设的情感生成模型中，获取所述情感生成模型响应所述初始应答而输出的至少两个携带情感的候选应答；

将所述候选应答和所述聊天语句输入到经过训练的深度强化学习网络模型中，获取各候选应答的深度强化学习值；

返回深度强化学习值最大的候选应答作为所述聊天语句的应答语句。

可选地，所述预设的应答生成模型包含M个应答生成子模型，M为大于1的正整数，在将所述聊天语句输入到预设的应答生成模型中，获取初始应答的步骤中，包括下述步骤：

将所述聊天语句输入到预设的场景识别模型中，获取所述场景识别模型响应所述聊天语句而输出的场景；

根据所述场景，确定与所述聊天语句对应的应答生成子模型；

将所述聊天语句输入到所述应答生成子模型中，获取所述应答生成子模型响应所述聊天语句而输出的初始应答。

可选地，预设的场景识别模型采用正则匹配算法，在所述将所述聊天语句输入到预设的场景识别模型中，获取所述场景识别模型响应所述聊天语句而输出的场景的步骤中，包括下述步骤：

将所述聊天语句与预设的正则表达式匹配，其中，所述预设的正则表达式包含疑问句特征；

当所述聊天语句与预设的正则表达式匹配时，确定所述聊天语句对应问题解答型场景；

当所述聊天语句与预设的正则表达式不匹配时，确定所述聊天语句对应非问题解答型场景。

可选地，所述根据所述场景，确定与所述聊天语句对应的应答生成子模型的步骤为：根据问题解答型场景，确定与所述聊天语句对应的应答生成子模型为问答知识库；

在所述将所述聊天语句输入到所述应答生成子模型中，获取所述应答生成子模型响应所述聊天语句而输出的初始应答的步骤中，包括下述步骤：

将所述聊天语句进行分词，得到所述聊天语句的关键词；

根据所述关键词检索所述问答知识库，得到与所述关键词匹配的检索结果；

返回所述检索结果作为所述聊天语句的初始应答。

可选地，所述情感生成模型基于N个预先训练的Seq2Seq模型，其中，任一Seq2Seq模型的训练包括以下步骤：

获取训练语料，所述训练语料包含若干输入序列和输出序列对，其中，所述输出序列为所述输入序列的指定情感类型的表达；

将所述输入序列输入到Seq2Seq模型中，调整Seq2Seq模型的参数，使Seq2Seq模型响应所述输入序列而输出所述输出序列的概率最大。

可选地，所述深度强化学习网络以下述损失函数为特征：

其中，s为输入的聊天语句，a为候选应答，w为深度强化学习网络模型的网络参数，Q为真实的深度强化学习值，为深度强化学习网络预测的深度强化学习值。

可选地，所述深度强化学习网络模型的训练通过下述步骤进行训练：

获取训练样本，所述训练样本中的每一个样本都包含输入的聊天语句及聊天语句对应的候选应答及各候选应答的深度强化学习值；

将所述训练样本输入到深度强化学习网络模型，获取所述深度强化学习网络模型预测的深度强化学习值；

根据所述预测的深度学习值，计算所述损失函数L(w)的值；

调整深度强化学习网络模型的网络参数，至所述损失函数L(w)的值最小时结束。

为解决上述问题，本发明还提供一种带情感的机器聊天装置，包括：

获取模块，用于获取用户输入的聊天语句；

生成模块，用于将所述聊天语句输入到预设的应答生成模型中，获取所述应答生成模型响应所述聊天语句而输出的初始应答；

处理模块，用于将所述初始应答输入到预设的情感生成模型中，获取所述情感生成模型响应所述初始应答而输出的至少两个携带情感的候选应答；

计算模块，用于将所述候选应答和所述聊天语句输入到经过训练的深度强化学习网络模型中，获取各候选应答的深度强化学习值；

执行模块，用于返回深度强化学习值最大的候选应答作为所述聊天语句的应答语句。

可选地，所述生成模块包括：

第一识别子模块，用于将所述聊天语句输入到预设的场景识别模型中，获取所述场景识别模型响应所述聊天语句而输出的场景；

第一确认子模块，用于根据所述场景，确定与所述聊天语句对应的应答生成子模型；

第一生成子模块，用于将所述聊天语句输入到所述应答生成子模型中，获取所述应答生成子模型响应所述聊天语句而输出的初始应答

可选地，所述第一识别子模块包括：

第一匹配子模块，用于将所述聊天语句与预设的正则表达式匹配，其中，所述预设的正则表达式包含疑问句特征；

第二确认子模块，用于当所述聊天语句与预设的正则表达式匹配时，确定所述聊天语句对应问题解答型场景；

第三确认子模块，用于当所述聊天语句与预设的正则表达式不匹配时，确定所述聊天语句对应非问题解答型场景。

可选地，所述带情感的机器聊天装置中还包括：

第一分词子模块，将所述聊天语句进行分词，得到所述聊天语句的关键词；

第一检索子模块，用于根据所述关键词检索所述问答知识库，得到与所述关键词匹配的检索结果；

第一执行子模块，用于返回所述检索结果作为所述聊天语句的初始应答。

可选地，所述带情感的机器聊天装置中所述情感生成模型基于N个预先训练的Seq2Seq模型，所述带情感的机器聊天装置中还包括：

第一获取子模块，用于获取训练语料，所述训练语料包含若干输入序列和输出序列对，其中，所述输出序列为所述输入序列的指定情感类型的表达；

第一计算子模块，用于将所述输入序列输入到Seq2Seq模型中，调整Seq2Seq模型的参数，使Seq2Seq模型响应所述输入序列而输出所述输出序列的概率最大。

可选地，所述带情感的机器聊天装置中所述深度强化学习网络以下述损失函数为特征：

可选地，所述带情感的机器聊天装置还包括：

第二获取子模块，用于获取训练样本，所述训练样本中的每一个样本都包含输入的聊天语句及聊天语句对应的候选应答及各候选应答的深度强化学习值；

第二计算子模块，用于将所述训练样本输入到深度强化学习网络模型，获取所述深度强化学习网络模型预测的深度强化学习值；

第三计算子模块，用于根据所述预测的深度学习值，计算所述损失函数L(w)的值；

第一调节子模块，用于调整深度强化学习网络模型的网络参数，至所述损失函数L(w)的值最小时结束。

为解决上述技术问题，本发明实施例还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述所述带情感的机器聊天方法的步骤。

为解决上述技术问题，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时，使得所述处理器执行上述所述带情感的机器聊天方法的步骤。

本发明实施例的有益效果为：通过获取用户输入的聊天语句；将所述聊天语句输入到预设的应答生成模型中，获取所述应答生成模型响应所述聊天语句而输出的初始应答；将所述初始应答输入到预设的情感生成模型中，获取所述情感生成模型响应所述初始应答而输出的至少两个携带情感的候选应答；将所述候选应答和所述聊天语句输入到经过训练的深度强化学习网络模型中，获取各候选应答的深度强化学习值；返回深度强化学习值最大的候选应答作为所述聊天语句的应答语句。对用户输入的聊天语句，返回带情感的答复，使机器聊天更自然、更人性化。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图

图1为本发明实施例一种带情感的机器聊天方法基本流程示意图；

图2为本发明实施例生成初始应答的流程示意图；

图3为本发明实施例通过问答知识库生成初始应答的流程示意图；

图4为本发明实施例情感生成模型训练的流程示意图；

图5为本发明实施例深度学习强化网络训练的流程示意图；

图6为本发明实施例一种带情感的机器聊天装置基本结构框图；

图7为本发明实施例计算机设备基本结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

本技术领域技术人员可以理解，这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，执行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(Personal Communications Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本实施方式中的终端即为上述的终端。

具体地，请参阅图1，图1为本实施例一种带情感的机器聊天方法的基本流程示意图。

如图1所示，一种带情感的机器聊天方法，包括下述步骤：

S101、获取用户输入的聊天语句；

通过终端上可交互的页面获取用户输入的语言信息，接收到的信息可以是文本信息，也可以是语音信息，通过语音识别装置，将语音信息转化为文本信息。

S102、将所述聊天语句输入到预设的应答生成模型中，获取所述应答生成模型响应所述聊天语句而输出的初始应答；

应答生成模型可以采用经过训练的Seq2Seq模型，具体的训练过程为准备训练语料，即准备输入序列和对应的输出序列，将输入序列输入到Seq2Seq模型，计算得到输出序列的概率，调整Seq2Seq模型的参数，使整个样本，即所有输入序列经过Seq2Seq输出对应输出序列的概率最高。采用Seq2Seq模型生成初始应答的过程为，首先将聊天语句向量化，例如采用one-hot词汇编码方式得到词向量，输入到Encoder层，其中，Encoder层是以双向LSTM层作为基本的神经元单位的多层神经元层；输出的encoder的状态向量，输入到Decoder层中，其中Decoder层也是以双向LSTM(Long Short-Term Memory)层作为基本的神经元单位的多层神经网络；将Decoder层输出的final_state状态向量输入到Softmax层，得到概率最高的初始应答内容。

在一些实施方式中，机器聊天应用于问题解答型场景，采用的应答生成模型为问答知识库，通过关键词检索，获得针对用户输入的聊天语句中所含问题的答案，返回该答案作为初始应答。

在一些实施方式中，机器聊天既用来陪用户闲聊也可以解答用户的问题，通过先确定是否为问题解答型场景来选择应答生成模型，具体描述请参见图2。

S103、将所述初始应答输入到预设的情感生成模型中，获取所述情感生成模型响应所述初始应答而输出的至少两个携带情感的候选应答；

将初始应答输入到预设的情感生成模型中，获取情感生成模型输出的候选应答，预设的情感生成模型至少包含两个情感生成子模型，可以将初始应答进行情感转化。例如，将情感为中性的初始应答转为带积极情感的应答，或将情感为中性的初始应答转为带消极情感的应答。

任意一个情感生成子模型都基于预先训练的Seq2Seq模型，一个情感生成子模型是一个Seq2Seq模型，输出一个携带情感的候选应答，预设的情感生成模型中的各Seq2Seq模型由于训练语料不同，生成情感因素不同，所输出的携带情感的候选应答也不同。将初始应答输入到预设的情感生成模型中的各Seq2Seq模型，输出携带各种情感的候选应答。值得注意的是，这里用于情感生成的Seq2Seq模型区别于前述的用于生成初始应答的Seq2Seq模型，用于情感生成的Seq2Seq模型具体的训练过程请参见图4。

S104、将所述候选应答和所述聊天语句输入到经过训练的深度强化学习网络模型中，获取各候选应答的深度强化学习值；

将生成的候选应答和用户输入的聊天语句都输入到经过训练的深度强化学习网络模型中，获取各候选应答的深度强化学习值。深度强化学习网络将深度学习网络的感知能力和强化学习网络的决策能力相结合，通过计算各候选应答的强化学习值来决策采用哪一个候选应答。其中深度强化学习网络以下述损失函数为特征：

深度强化学习网络的训练过程为，准备训练样本，训练样本中的每一个样本都包含输入的聊天语句及聊天语句对应的候选应答以及各候选应答的深度学习值；深度学习值根据预先设定的规则标注，例如，当针对聊天语句的某一候选应答导致用户直接结束对话，则将该候选应答的深度学习值低，当针对聊天语句的某一候选应答使用户下一轮输入的聊天语句的情感有积极的变化，则将该候选应答的深度学习值高。

将训练样本输入到深度强化学习网络模型，获取深度强化学习网络模型预测的深度强化学习值，将深度强化学习网络模型预测的深度强化学习值和样本实际的深度学习值代入到上述损失函数L(w)，调整深度强化学习网络模型的网络参数，至L(w)最小时结束。

S105、返回深度强化学习值最大的候选应答作为所述聊天语句的应答语句。

深度强化学习值最大的候选应答认为是对当前用户输入的聊天语句的最合适的答复，将应答语句返回至客户终端，通过终端的屏幕显示文本信息，也可以先对文本信息进行音频的转换，通过终端的音频输出装置，输出语言信息。

如图2所示，所述预设的应答生成模型包含M个应答生成子模型，M为大于1的正整数，在将所述聊天语句输入到预设的应答生成模型中，获取初始应答的步骤中，包括下述步骤：

S111、将所述聊天语句输入到预设的场景识别模型中，获取所述场景识别模型响应所述聊天语句而输出的场景；

当机器聊天应用于多种场景时，例如既应用于问题解答型场景，又应用于非问题解答型场景，先对场景识别，再根据场景确定对应的应答生成子模型，可以使生成的应答更有针对性。

场景识别模型可以基于关键字，判断是问题解答型场景还是非问题解答型场景，可以通过判断输入的聊天语句中是否包含表示疑问的关键词，例如“？””什么”“多少”“哪里”“怎么”等表示疑问的语气词。也可以采用正则匹配的算法，判断输入的聊天是否疑问句，正则表达式是对字符串操作的一种逻辑公式，用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

当输入的聊天语句不是疑问句，则判断场景为非问题解答型场景。识别出是否为问题解答型场景，进一步地，可以细分场景，例如非问题解答型下可细分为闲聊、赞赏、吐槽；问题解答型场景下细分为售前咨询、售后服务等。细分的场景可以通过预设的关键词列表判断，每一类细分场景，预设一个关键词列表，当提取的输入聊天语句中的关键词与某类细分场景对应的关键词列表中的词一致时，认为输入聊天语句对应细分场景。

在一些实施方式中通过预先训练的LSTM-CNN神经网络模型进行场景识别。具体地，对输入的内容，首先进行中文分词，采用基本分词库，依次进入去除停用词、标点符号等、通过词向量模型获得词嵌入向量，传入基于LSTM-CNN的神经网络模型。即词嵌入向量，进入多层LSTM神经单元，得到各个阶段的状态向量和输出；然后，基于各个阶段的状态向量，进行卷积操作和池化操作(CNN)，得到综合向量指标；然后将综合向量指标输入softmax函数，得到对应的场景的概率。取概率最高的场景为输入聊天语句对应的场景。

S112、根据所述场景，确定与所述聊天语句对应的应答生成子模型；

应答生成模型预设了M个应答生成子模型，且应答生成子模型与场景具有映射关系。确定了输入的聊天语句的场景，根据场景与应答生成子模型的映射关系，确定用户输入聊天语句对应的应答生成子模型。

本发明实施例中，应答生成子模型与场景的映射关系为，当场景为问题解答型时，使用问答知识库作为应答生成子模型，当场景为非问题解答型时，使用经过训练的Seq2Seq模型。

S113、将所述聊天语句输入到所述应答生成子模型中，获取所述应答生成子模型响应所述聊天语句而输出的初始应答。

将聊天语句输入到与场景对应的应答生成子模型中，应答生成子模型响应聊天语句输出初始应答。本发明实施例中，当聊天语句对应非问题解答型场景，初始应答通过Seq2Seq模型生成，具体的过程请参见S102的描述，当聊天语句对应问题解答型场景，生成初始应答的过程请参见图3。

如图3所示，当聊天语句对应问题解答型场景，确定与所述聊天语句对应的应答生成子模型为问答知识库；在S111中，还包括下述步骤：

S121、将所述聊天语句进行分词，得到所述聊天语句的关键词；

本发明实施例中采用双向最大匹配法。双向最大匹配方法是一种基于词典的分词方法。基于词典的分词方法是按照一定策略将待分析的汉字串与一个机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功。基于词典的分词方法按照扫描方向的不同分为正向匹配和逆向匹配，按照长度的不同分为最大匹配和最小匹配。双向最大匹配法是将正向最大匹配法得到的分词结果和逆向最大匹配法的到的结果进行比较，从而决定正确的分词方法。根据研究表明，中文中90.0％左右的句子，正向最大匹配法和逆向最大匹配法完全重合且正确，只有大概9.0％的句子两种切分方法得到的结果不一样，但其中必有一个是正确的，只有不到1.0％的句子，或者正向最大匹配法和逆向最大匹配法的切分虽重合却是错的，即有歧义的，或者正向最大匹配法和逆向最大匹配法切分不同但两个都不对。所以为了使切分出来的词汇能准确的反映句子的意思，采用双向最大匹配法分词。

对聊天语句进行分词后，还可以将分词结果与预设的停用词表进行匹配，去除停用词，得到聊天语句的关键词。

S122、根据所述关键词检索所述问答知识库，得到与所述关键词匹配的检索结果；

根据关键词检索问答知识库，得到与关键词匹配的检索结果。根据关键词检索问答知识库，可以采用第三方的搜索引擎，对问答知识库进行检索。

S123、返回所述检索结果作为所述聊天语句的初始应答。

通常通过关键词对问答知识库进行检索，检索结果有多个，本发明实施例中确定检索结果中，排名最前的结果作为聊天语句的初始应答。

如图4所示，情感生成模型基于N个预先训练的Seq2Seq模型，每一个Seq2Seq模型被训练后，为初始应答添加不同的情感，其中，任一Seq2Seq模型的训练包括以下步骤：

S131、获取训练语料，所述训练语料包含若干输入序列和输出序列对，其中，所述输出序列为所述输入序列的指定情感类型的表达；

训练语料是若干的序列对，包含输入序列和输出序列，其中，输出序列为输入序列的指定情感类型的表达，例如，输入序列为中性的表达“今天天气晴、气温25度、空气质量指数20”，预期的输出序列为积极的表达“今天天气很棒，温度在舒适的25度，空气质量优良”。

S132、将所述输入序列输入到Seq2Seq模型中，调整Seq2Seq模型的参数，使Seq2Seq模型响应所述输入序列而输出所述输出序列的概率最大。

将训练语料中的输入序列输入到Seq2Seq模型中，通过梯度下降法，调整Seq2Seq模型各节点的参数，使Seq2Seq模型输出预期的输出序列的概率最大时，训练结束。此时得到的参数文件即定义了生成该指定情感类型的Seq2Seq模型。

如图5所示，本发明实施例中，深度强化学习网络模型的训练通过下述步骤进行训练：

S141、获取训练样本，所述训练样本中的每一个样本都包含输入的聊天语句及聊天语句对应的候选应答及各候选应答的深度强化学习值；

准备训练样本，训练样本中的每一个样本都包含输入的聊天语句及聊天语句对应的候选应答以及各候选应答的深度学习值；深度学习值根据预先设定的规则标注，例如，当针对聊天语句的某一候选应答导致用户直接结束对话，则将该候选应答的深度学习值低，当针对聊天语句的某一候选应答使用户下一轮输入的聊天语句的情感有积极的变化，则将该候选应答的深度学习值高。

S142、将所述训练样本输入到深度强化学习网络模型，获取所述深度强化学习网络模型预测的深度强化学习值；

将训练样本输入到深度强化学习网络模型，获取深度强化学习网络模型预测的深度强化学习值。深度强化学习可以类比为监督学习，深度强化学习任务通常使用马尔可夫决策过程描述，机器人处在一个环境中，每个状态为机器人对环境的感知。当机器人执行一个动作后，会使得环境按概率转移到另一个状态；同时，环境会根据奖励函数给机器人。

S143、根据所述预测的深度学习值，计算所述损失函数L(w)的值；

将深度强化学习网络模型预测的深度强化学习值和样本实际的深度学习值代入到上述损失函数L(w)，计算损失函数的值。

S144、调整深度强化学习网络模型的网络参数，至所述损失函数L(w)的值最小时结束。

训练的目标是损失函数L(w)收敛，即当继续调整深度强化学习网络模型的网络参数时，损失函数的值不再减少，反而增大时，训练结束，此时，得到的参数文件即为定义该深度强化学习网络模型的文件。

为解决上述技术问题本发明实施例还提供一种带情感的机器聊天装置。具体请参阅图6，图6为本实施例带情感的机器聊天装置的基本结构框图。

如图6所示，一种带情感的机器聊天装置，包括：获取模块210、生成模块220、处理模块230、计算模块240和执行模块250。其中，获取模块210，用于获取用户输入的聊天语句；生成模块220，用于将所述聊天语句输入到预设的应答生成模型中，获取所述应答生成模型响应所述聊天语句而输出的初始应答；处理模块230，用于将所述初始应答输入到预设的情感生成模型中，获取所述情感生成模型响应所述初始应答而输出的至少两个携带情感的候选应答；计算模块240，用于将所述候选应答和所述聊天语句输入到经过训练的深度强化学习网络模型中，获取各候选应答的深度强化学习值；执行模块250，用于返回深度强化学习值最大的候选应答作为所述聊天语句的应答语句。

本发明实施例通过获取用户输入的聊天语句；将所述聊天语句输入到预设的应答生成模型中，获取所述应答生成模型响应所述聊天语句而输出的初始应答；将所述初始应答输入到预设的情感生成模型中，获取所述情感生成模型响应所述初始应答而输出的至少两个携带情感的候选应答；将所述候选应答和所述聊天语句输入到经过训练的深度强化学习网络模型中，获取各候选应答的深度强化学习值；返回深度强化学习值最大的候选应答作为所述聊天语句的应答语句。对用户输入的聊天语句，返回带情感的答复，使机器聊天更自然、更人性化。

在一些实施方式中，所述生成模块包括：第一识别子模块、第一确认子模块和第一生成子模块，其中，第一识别子模块，用于将所述聊天语句输入到预设的场景识别模型中，获取所述场景识别模型响应所述聊天语句而输出的场景；第一确认子模块，用于根据所述场景，确定与所述聊天语句对应的应答生成子模型；第一生成子模块，用于将所述聊天语句输入到所述应答生成子模型中，获取所述应答生成子模型响应所述聊天语句而输出的初始应答。

在一些实施方式中，所述第一识别子模块包括：第一匹配子模块、第二确认子模块和第三确认子模块，其中第一匹配子模块，用于将所述聊天语句与预设的正则表达式匹配，其中，所述预设的正则表达式包含疑问句特征；第二确认子模块，用于当所述聊天语句与预设的正则表达式匹配时，确定所述聊天语句对应问题解答型场景；第三确认子模块，用于当所述聊天语句与预设的正则表达式不匹配时，确定所述聊天语句对应非问题解答型场景。

在一些实施方式中，所述第一生成子模块包括：第一分词子模块、第一检索子模块和第一执行子模块，其中，第一分词子模块，将所述聊天语句进行分词，得到所述聊天语句的关键词；第一检索子模块，用于根据所述关键词检索所述问答知识库，得到与所述关键词匹配的检索结果；第一执行子模块，用于返回所述检索结果作为所述聊天语句的初始应答。

在一些实施方式中，所述带情感的机器聊天装置中所述情感生成模型基于N个预先训练的Seq2Seq模型，所述带情感的机器聊天装置中还包括：第一获取子模块、第一计算子模块，其中，第一获取子模块，用于获取训练语料，所述训练语料包含若干输入序列和输出序列对，其中，所述输出序列为所述输入序列的指定情感类型的表达；第一计算子模块，用于将所述输入序列输入到Seq2Seq模型中，调整Seq2Seq模型的参数，使Seq2Seq模型响应所述输入序列而输出所述输出序列的概率最大。

在一些实施方式中，所述带情感的机器聊天装置中所述深度强化学习网络以下述损失函数为特征：

在一些实施方式中，所述带情感的机器聊天装置还包括：第二获取子模块、第二计算子模块、第三计算子模块和第一调节子模块，其中，第二获取子模块，用于获取训练样本，所述训练样本中的每一个样本都包含输入的聊天语句及聊天语句对应的候选应答及各候选应答的深度强化学习值；第二计算子模块，用于将所述训练样本输入到深度强化学习网络模型，获取所述深度强化学习网络模型预测的深度强化学习值；第三计算子模块，用于根据所述预测的深度学习值，计算所述损失函数L(w)的值；第一调节子模块，用于调整深度强化学习网络模型的网络参数，至所述损失函数L(w)的值最小时结束。

为解决上述技术问题，本发明实施例还提供计算机设备。具体请参阅图7，图7为本实施例计算机设备基本结构框图。

如图7所示，计算机设备的内部结构示意图。如图7所示，该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中，该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种带情感的机器聊天的方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种带情感的机器聊天的方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施方式中处理器用于执行图6中获取模块210、生成模块220、处理模块230、计算模块240和执行模块250的具体内容，存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有带情感的机器聊天方法中执行所有子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有子模块的功能。

计算机设备通过获取用户输入的聊天语句；将所述聊天语句输入到预设的应答生成模型中，获取所述应答生成模型响应所述聊天语句而输出的初始应答；将所述初始应答输入到预设的情感生成模型中，获取所述情感生成模型响应所述初始应答而输出的至少两个携带情感的候选应答；将所述候选应答和所述聊天语句输入到经过训练的深度强化学习网络模型中，获取各候选应答的深度强化学习值；返回深度强化学习值最大的候选应答作为所述聊天语句的应答语句。对用户输入的聊天语句，返回带情感的答复，使机器聊天更自然、更人性化。

本发明还提供一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述任一实施例所述带情感的机器聊天方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种带情感的机器聊天方法，其特征在于，包括下述步骤：

获取用户输入的聊天语句；

返回深度强化学习值最大的候选应答作为所述聊天语句的应答语句；

所述情感生成模型包含N个预先训练的Seq2Seq模型，其中，各Seq2Seq模型训练语料不同，生成情感因素不同，所输出的携带情感的候选应答也不同，任一Seq2Seq模型的训练包括以下步骤：

获取训练语料，所述训练语料包含若干输入序列和输出序列对，其中，所述输出序列为所述输入序列的指定情感类型的表达；将所述输入序列输入到Seq2Seq模型中，调整Seq2Seq模型的参数，使Seq2Seq模型响应所述输入序列而输出所述输出序列的概率最大；

所述深度强化学习网络以下述损失函数为特征：；

其中，s为输入的聊天语句，a为候选应答，w为深度强化学习网络模型的网络参数，为真实的深度强化学习值，/>为深度强化学习网络预测的深度强化学习值；

所述深度强化学习网络模型的训练通过下述步骤进行训练：

获取训练样本，所述训练样本中的每一个样本都包含输入的聊天语句及聊天语句对应的候选应答及各候选应答的深度强化学习值；当针对聊天语句的某一候选应答导致用户直接结束对话，则该候选应答的深度强化学习值低，当针对聊天语句的某一候选应答使用户下一轮输入的聊天语句的情感有积极的变化，则该候选应答的深度强化学习值高；将所述训练样本输入到深度强化学习网络模型，获取所述深度强化学习网络模型预测的深度强化学习值；根据所述预测的深度强化学习值，计算所述损失函数L(w)的值；调整深度强化学习网络模型的网络参数，至所述损失函数L(w)的值最小时结束。

2.根据权利要求1所述的带情感的机器聊天方法，其特征在于，所述预设的应答生成模型包含至少两个应答生成子模型，在将所述聊天语句输入到预设的应答生成模型中，获取所述应答生成模型响应所述聊天语句而输出的初始应答的步骤中，包括下述步骤：

3.根据权利要求2所述的带情感的机器聊天方法，其特征在于，预设的场景识别模型采用正则匹配算法，在所述将所述聊天语句输入到预设的场景识别模型中，获取所述场景识别模型响应所述聊天语句而输出的场景的步骤中，包括下述步骤：

4.根据权利要求3所述的带情感的机器聊天方法，其特征在于，所述根据所述场景，确定与所述聊天语句对应的应答生成子模型的步骤为：

根据问题解答型场景，确定与所述聊天语句对应的应答生成子模型为问答知识库；

将所述聊天语句进行分词，得到所述聊天语句的关键词；

返回所述检索结果作为所述聊天语句的初始应答。

5.一种带情感的机器聊天装置，其特征在于，所述带情感的机器聊天装置运行时实现如权利要求1至4中任一项所述的带情感的机器聊天方法，所述带情感的机器聊天装置包括：

获取模块，用于获取用户输入的聊天语句；

6.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1至4中任一项权利要求所述带情感的机器聊天方法的步骤。

7.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至4中任一项权利要求所述带情感的机器聊天方法的步骤。