CN108363690A

CN108363690A - 基于神经网络的对话语义意图预测方法及学习训练方法

Info

Publication number: CN108363690A
Application number: CN201810130549.0A
Authority: CN
Inventors: 张宇
Original assignee: Beijing Thirteen Science And Technology Co Ltd
Current assignee: Beijing Thirteen Science And Technology Co Ltd
Priority date: 2018-02-08
Filing date: 2018-02-08
Publication date: 2018-08-03

Abstract

本发明公开了一种基于神经网络的聊天机器人对话语义意图预测方法以及学习训练方法，用于聊天机器人根据人类对话者的一个序列(已说过的)语句特征向量，预测出对话者可能延续的对话意图或兴趣点(多个之一)，并通过启发性选择聊天机器人的输出对话以及将对话者的回话作为对之前意图预测结果的验证反馈，实现算法的在线强化学习和自我更新，利于不断提高对话意图预测的正确率，可延长聊天的轮数和增强对话者的兴趣。

Description

基于神经网络的对话语义意图预测方法及学习训练方法

技术领域

本公开涉及语义分析技术领域，具体涉及一种基于神经网络的对话语义意图预测方法及学习训练方法。

背景技术

通过聊天机器人，人们实现了用自然语言与计算机交流。在和机器人聊天的过程中，产生了大量包含丰富用户信息的数据，这些数据蕴含了用户的潜在需求和意图。意图识别旨在判断一个用户发布的文本或表现的行为是否具有某种指向性意图(如消费、休闲、求知等)，准确识别出用户意图可以使得聊天机器人变得更加智能，增强用户体验；同时，也可有针对性地进行消费产品的推荐,更好地服务于用户。

常规意图识别采用基于模板匹配的方法和基于有指导的分类方法。前者主要通过挖掘句子中是否出现意图模板来确定句子最终是否具有消费意图，后者则将模板等作为特征训练分类器来完成句子的消费意图识别。然而,无论是基于模板匹配还是有指导的方法,在应用中都有一定的局限性。基于模板的方法覆盖率不高,效果不理想；通过构建特征的方式不能很好地学习到文本的深层语义信息,这些都导致了不能准确地理解用户的消费意图。

目前，一种基于LSTM神经网络的用户意图识别方法，较好地解决了“聊天机器人的用户对话文本表达较短,且词语的先后语序关系对文本的实际含义影响较大”的问题。

现有的基于LSTM神经网络的用户意图识别方法，用于三个领域的出行消费意图识别任务(订机票意图、订火车票意图和订酒店意图),其基本目标是根据用户在聊天中表达的语义信息来确定用户聊天文本的出行消费意愿。 LSTM神经网络模型不仅对文本的时序关系具有良好的建模能力,而且当用户输入的文本较长时,可以有效处理文本的长期依赖问题。

现有技术中基于LSTM神经网络的出行消费意图识别方法，其结构如附图1所示。该模型由输入层、长短期记忆(LSTM)层和Softmax分类层组成，其中LSTM层由一系列重复的Cell单元组成，得到最后一个Cell的输出送入Softmax层。

输入层将一个句子的n个(时间序列)词向量的作为输入，按照顺序依次送入到LSTM神经网络模型对应的n个Cell中,以保证聊天文本的时序性。

长短期记忆层由一系列重复的Cell单元组成,每个Cell单元接收上一时刻隐层的输出以及当前时刻的输入.每一个Cell单元由输入门i_t、遗忘门f_t和输出门o_t组成。

Softmax层输出维度为4，代表用户文本是否具有订机票、火车票、酒店意图或者是无意图。Softmax之所以适用于本问题场景,在于它的输出可以解释成条件概率,根据条件概率的值来识别聊天文本到底属于哪一类出行意图。

现有技术中基于LSTM神经网络的用户意图识别方法，存在的主要缺陷如下：

LSTM神经网络模型需要依赖原始的词向量输入，对于聊天机器人中的语义意图识别任务，训练词向量的大规模语料(尤其是人-机对话)较难获取，因而，无法得到十分适合本任务的初始化向量表示。

LSTM神经网络模型仅以一个句子的每个词向量(而不是连续几句对话中的每句文本)作为输入，按时间序列分别输入到对应Cell单元中，缺乏任务相关的深层次语义信息，因此，该模型对聊天文本的刻画不充分。

LSTM神经网络模型采用监督学习训练算法实现网络权值的优化调整，因此，需要人工对大量的数据样本进行识别和标签，将带来巨大的时间和人力成本开销。

LSTM神经网络模型采用离线学习训练方式实现网络权值的优化调整，因此，无法在线利用即时经验自主学习，只能在收集到一定数量样本后、并通过再次离线学习训练过程才能更新网络权值。

发明内容

鉴于上述问题，提出了本公开以便提供一种克服上述问题或者至少部分地解决上述问题的基于神经网络的对话语义意图预测方法及学习训练方法。

一种基于神经网络的对话语义意图预测方法，其特征在于，包括：

输入向量生成模块设计：将人类对话者某个时间片段中一定长度的语句文本，根据词表进行向量空间表示，形成句子矩阵并作为Q-LSTM神经网络模型的某一组输入；将某一个连续时间序列中的全部句子矩阵，按照顺序依次对应输入Q-LSTM神经网络模型的Cell单元构成输入层；

Q-LSTM神经网络模块设计：基于长短期记忆LSTM神经网络实现Q学习算法模型，神经网络的输入为代表当前状态的一个人类对话者序列语句特征向量组，神经网络的输出为代表根据当前状态预测的一个人类对话者语义意图集合的概率分布向量；

随机意图选择模块设计：根据所述Q-LSTM神经网络算法模块，计算获得的当前时刻语义意图集合的概率分布向量；所述意图是对人类对话者后续话题的预测，将作为引导聊天机器人后续对话输出的依据；

试探对话生成模块设计：根据随机选择判断的当前时刻意图，从预先设置的对话库中检索出对应该意图的试探性对话(实际行动)，并通过聊天机器人系统将该对话传递给人类对话者；

人类对话采集模块设计：利用文本或语音识别方法，将人类对话者回复聊天机器人试探性对话的信息传递回聊天机器人系统，并通过语义预处理转换为语句词特征向量；

意图匹配检验模块设计：利用模板匹配特征分类方法，对人类对话者回复聊天机器人试探性对话的信息语句词特征向量进行计算，分辨出人类对聊天机器人输出试探性对话的回应结果；

输入状态更新模块设计：当聊天机器人给出人类对话者意图预测，并输出试探性对话，进而对话者人类对话者回复聊天机器人试探性对话的信息语句词特征向量产生后，从Q学习模型角度，状态空间转移到了下一时刻，将当前时刻状态向量的每个句子矩阵由其依次由其后面的句子矩阵替代，并且其最后一个句子矩阵由对话者人类对话者回复聊天机器人试探性对话的信息语句词特征向量替代。

所述方法还包括：所述输入层取某一个连续时间序列语句特征的作为当前时刻的输入，按照顺序依次送入到LSTM神经网络模型对应的Cell中,以保证聊天文本的时序性。

所述方法还包括：由一系列重复的Cell单元组成长短期记忆层,每个Cell 单元接收上一时刻隐层的输出以及当前时刻的输入；每一个Cell单元由输入门、遗忘门和输出门组成,长短期记忆层神经网络，采用反向传播算法实现学习训练。

所述方法还包括：分类输出层为多个人类对话者语义意图的概率分布向量,所述向量由Q-LSTM神经网络模型输出经Softmax函数计算获得。

所述方法还包括：将每个语义意图当作一个虚拟行动，所述语义意图的概率转意为对应当前状态的动作值；采用瞬时差分算法实现Q-LSTM神经网络的强化学习。

一种如上所述的基于神经网络的对话语义意图预测方法的学习训练方法，所述方法包括：

收集整理人类聊天序列对话数据；根据聊天机器人拟应用的服务领域，通过公共社交平台，大量收集人与人、以及机与人之间实际对话的序列样本数据，并经过基本语义处理后，建立对话数据库；

序列对话数据预处理与语义意图标记；针对已生成的数据库，先使用一些关键词及模板规则对数据进行了预处理,过滤掉部分无意图数据；再进行序列对话数据样本的语义预处理与语义意图标记；

针对聊天商业意图建立预置对话库，根据聊天机器人拟应用的服务领域，针对已确定的全部对话语义商业意图标签，分别建立对应的预置对话数据库；

基于标记数据集的LSTM神经网络监督学习训练；根据Q-LSTM神经网络模型结构及其算法模型，利用已完成标记语义意图的序列对话数据样本，对Q-LSTM神经网络进行离线的有监督学习训练，网络权值调整采用反向传播优化算法；

基于Q-LSTM神经网络的语义意图在线强化学习；根据Q-LSTM神经网络方法框架及其算法模型和功能模块，利用已经过离线监督训练的Q-LSTM 神经网络模型，通过在线运行输入向量生成、Q-LSTM神经网络、随机意图选择、试探对话生成、人类对话采集、意图匹配检验和输入状态更新等模块，对Q-LSTM神经网络进行在线的无监督强化学习训练，网络权值调整采用瞬时差分优化算法。

所述序列对话数据预处理与语义意图标记，具体包括：对话数据分词处理与词向量生成；针对数据库中的每个语句文本，采用全切分等方法进行分词处理；针对经过分词处理的每个语句文本中每个词，采用word2vec等方法构建词向量，并将组成一个语句文本的所有词向量加起来构成该语句的特征向量组；

人类聊天商业意图人工提炼与建模；根据聊天机器人拟应用的服务领域，确定待预测的、具有潜在商业价值的对话语义意图标签；针对数据库中的每个语句文本，根据已确定的语义意图标签，在预处理后的数据上由多名标注人员进行语义意图的人工辨识和标注；通过计算多名标注人员标注结果的 Pearson相关系数来验证标注的一致性。

所述针对聊天商业意图建立预置对话库，具体包括：试探、迎合和引导等三类对话；其中，试探性对话为简短的疑问句式、用于印证意图预测的准确性；迎合性对话为中等长度的肯定句式、用于维持对话继续进行下去；引导性对话为较长的陈述句式、用于引导人类对话者逐步转入预设的话题。

所述方法还包括：基于Q-LSTM神经网络的语义意图预测模型测试评估；对于每个意图均采用准确率、召回率和F-measure来评价预测模型的性能；对于本任务的多分类问题，先计算每个类别的评价指标，再以宏平均值作为最终的评价指标。

一种基于神经网络的对话语义意图预测系统，包括：

输入向量生成模块设计模块：将人类对话者某个时间片段中一定长度的语句文本，根据词表进行向量空间表示，形成句子矩阵并作为Q-LSTM神经网络模型的某一组输入；将某一个连续时间序列中的全部句子矩阵，按照顺序依次对应输入Q-LSTM神经网络模型的Cell单元构成输入层；

Q-LSTM神经网络模块设计模块：基于长短期记忆LSTM神经网络实现 Q学习算法模型，神经网络的输入为代表当前状态的一个人类对话者序列语句特征向量组，神经网络的输出为代表根据当前状态预测的一个人类对话者语义意图集合的概率分布向量；

随机意图选择模块设计模块：根据所述Q-LSTM神经网络算法模块，计算获得的当前时刻语义意图集合的概率分布向量；所述意图是对人类对话者后续话题的预测，将作为引导聊天机器人后续对话输出的依据；

试探对话生成模块设计模块：根据随机选择判断的当前时刻意图，从预先设置的对话库中检索出对应该意图的试探性对话(实际行动)，并通过聊天机器人系统将该对话传递给人类对话者；

人类对话采集模块设计模块：利用文本或语音识别方法，将人类对话者回复聊天机器人试探性对话的信息传递回聊天机器人系统，并通过语义预处理转换为语句词特征向量；

意图匹配检验模块设计模块：利用模板匹配特征分类方法，对人类对话者回复聊天机器人试探性对话的信息语句词特征向量进行计算，分辨出人类对聊天机器人输出试探性对话的回应结果；

输入状态更新模块设计模块：当聊天机器人给出人类对话者意图预测，并输出试探性对话，进而对话者人类对话者回复聊天机器人试探性对话的信息语句词特征向量产生后，从Q学习模型角度，状态空间转移到了下一时刻，将当前时刻状态向量的每个句子矩阵由其依次由其后面的句子矩阵替代，并且其最后一个句子矩阵由对话者人类对话者回复聊天机器人试探性对话的信息语句词特征向量替代。

根据本公开上述的一个或多个技术方案，其提供一种基于Q-LSTM神经网络的聊天机器人对话语义意图预测方法以及学习训练方法，用于聊天机器人根据人类对话者的一个序列(已说过的)语句特征向量，预测出对话者可能延续的对话意图或兴趣点(多个之一)，并通过启发性选择聊天机器人的输出对话以及将对话者的回话作为对之前意图预测结果的验证反馈，实现算法的在线强化学习和自我更新，利于不断提高对话意图预测的正确率，可延长聊天的轮数和增强对话者的兴趣。

与现有技术相比，本公开主要有益效果如下：

(1)由于采用Q-LSTM神经网络模型，可以利用环境回报信息进行学习，大大降低了对原始词向量输入的依赖程度,使得语义意图识别任务不再需要大规模语料来训练词向量，从而大量节省了时间和经济成本。

(2)由于Q-LSTM神经网络模型采用连续几句对话中的每句文本(而不仅是一个句子的每个词向量)作为输入，按时间序列分别输入到对应Cell 单元中，使得任务相关的深层次语义信息得以增强，从而提高了模型对聊天文本的刻画准确度。

(3)由于Q-LSTM神经网络模型采用有监督学习和(无监督)强化学习相结合的训练算法实现网络权值的优化调整，使得只需要少量的人工标签数据样本、再加上环境源源不断提供的回报信息，就可达到较高的语义意图预测效果，从而避免了巨大的时间和人力成本开销。

(4)由于Q-LSTM神经网络模型采用在线学习训练方式实现网络网络权值的优化调整，使得聊天机器人可利用即时经验自主学习，从而提高神经网络模型对环境变化的适应能力，确保对语义意图预测的稳定性和准确率。

(5)由于采用Q-LSTM神经网络模型，使得聊天机器人对人类的语义意图预测准确率显著提高、回应对话更加贴切，从而延长了聊天的轮数、增强了对话者的兴趣。

(6)由于采用Q-LSTM神经网络模型，使得聊天机器人提升了对人类语义中潜在消费意图的预测能力，从而可有针对性地进行消费产品的推荐, 更好地服务于用户。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本公开的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了现有技术中基于LSTM神经网络的出行消费意图预测方法框架图；

图2示出了根据本公开一个实施例的基于Q-LSTM神经网络的对话语义意图预测方法框架图；

图3示出了根据本公开一个实施例的基于Q-LSTM神经网络的对话语义意图预测模型结构图；

图4示出了根据本公开一个实施例的Q-LSTM神经网络Cell单元内部结构图；

图5示出了根据本公开一个实施例的基于Q-LSTM神经网络的对话语义意图预测模型学习训练流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明拟解决现有技术中存在的主要问题如下：

(1)单独采用LSTM神经网络模型进行语义意图识别，对原始词向量输入的依赖较强，然而，训练词向量的大规模语料(尤其是人-机对话)却难以获取，导致无法得到适合的初始化向量表示。

(2)现有LSTM神经网络模型仅以一个句子的每个词向量(而不是连续几句对话中的每句文本)作为输入，按时间序列分别输入到对应Cell单元中，任务相关的深层次语义信息刻画不充分。

(3)现有LSTM神经网络模型，需要基于大量人工标签的数据样本，利用监督学习训练算法实现网络权值的优化调整，面临巨大的时间和人力成本开销。

(4)现有LSTM神经网络模型，不具备自主学习机制，无法在线利用即时经验，只能在收集到一定数量样本后、通过再次离线学习训练过程更新网络权值。

实施例一

本发明提供一种“基于Q-LSTM神经网络的聊天机器人对话语义意图预测方法”，其模型框架如附图2所示，包括输入向量生成、Q-LSTM神经网络、随机意图选择、试探对话生成、人类对话采集、意图匹配检验和输入状态更新等模块的设计，各模块的设计步骤如下：

步骤一、输入向量生成模块设计。

对事先收集整理的大量数据集合(标注语料)进行分词等预处理；

统计语料中不重复的词语生成词表；

某一时刻t，将人类对话者(之前说过或刚刚说过的)某个时间片段τ中一定长度I的语句文本，根据词表进行one-hot向量空间表示，形成句子矩阵 S^τ、作为Q-LSTM神经网络模型的某一组输入；

某一时刻t，将某一个连续时间序列(包括M个时间片段τ)中的全部句子矩阵S^τ，按照顺序依次对应输入Q-LSTM神经网络模型的M个Cell单元构成输入层。

步骤二、Q-LSTM神经网络模块设计。

基于长短期记忆(LSTM)神经网络实现一种Q学习算法模型，神经网络的输入为代表当前状态s_t的一个人类对话者序列(已说过的)语句特征向量组x(t+1)，神经网络的输出为代表根据当前状态s_t预测的一个人类对话者语义意图集合I的概率分布向量p_I；为了便于引用Q学习算法，这里将每个语义意图I_i(I_i∈I)当作一个虚拟行动则该语义意图I_i的概率p(i)转意为对应当前状态s_t的动作值采用Q(λ)采算法实现Q-LSTM神经网络的Q-学习，网络权值调整方法的表达式如下：

其中，W_i为神经网络中与本次动作a_t输出相关的连接权值，r_t为与本次动作a_t对应的回报值，α为学习率，γ为折扣率。

Q-LSTM神经网络的具体内部结构，如附图3所示，包括输入层(Input layer)、长短期记忆层(LSTM layer)和分类输出层(Softmax layer)等三层，每层特征及表达式如下：

a)输入层(Input layer)

对于某一时间片段τ中给定长度为I的用户聊天文本，使用代表句子中第i个词维的词向量表示,整个句子可以表示为S^τ∈R^Ik，由句子中词向量进行连接而成，如下所示:

其中，代表将词向量依次进行连接操作。

如附图3所示，输入层取某一个连续时间序列语句特征(包括M个时间片段τ的句子矩阵S^τ)的作为当前时刻t的输入，表达式如下：

τ＝1,2,…,M

按照顺序依次送入到LSTM神经网络模型对应的M个Cell中,以保证聊天文本的时序性。

为了与Q学习算法对应，由(简写为x^τ(t))对应构成当前时刻t状态s_t，表达式如下：

s_t＝[x¹(t),x²(t),…,x^τ(t),…,x^M(t)]^T。

b)长短期记忆层(LSTM layer)

该层的核心是Cell单元，如附图4所示，表达式如下：

输入门(Input Gates)：

遗忘门(Forget Gates)：

Cell节点(Cells)：

输出门(Output Gates)：

Cell单元输出(Cell Outputs)：

τ＝1,2,…,M 。

其中，和分别为Cell单元输入、Cell单元前一步反馈、 Cell节点前一步反馈、以及Cell节点当前步输出等向量，取值为实数；w_il、 w_iφ、w_ic和w_iω分别为输入门、遗忘门、Cell节点、输出门对应输入向量的神经网络权值参数，取值为实数；w_hl、w_hφ、w_hc和w_hω分别为输入门、遗忘门、 Cell节点、输出门对应Cell单元前一步反馈向量的神经网络权值参数，取值为实数；w_cl、w_cφ和w_cω分别为输入门、遗忘门、输出门对应Cell节点反馈向量的神经网络权值参数，取值为实数。

其中f(·)是Sigmoid型函数、g(·)和h(·)是tanh型函数。

长短期记忆层(LSTM layer)神经网络，采用反向传播算法实现学习训练，网络权值调整方法的表达式如下：

Cell Outputs：

Output Gates：

States：

Cells：

Forget Gates：

Input Gates：

其中，和分别为输入门、遗忘门、Cell节点、输出门对应的神经网络权值调整量，取值为实数；其余参数含义同上。

c)分类输出层(Softmax layer)

如附图3所示，当前时刻t分类输出层为N个人类对话者语义意图 (i＝1,2,…,N)的概率分布向量该向量由Q-LSTM神经网络模型输出经Softmax函数计算获得，表达式如下：

对应的Q值向量表达式如下：

并令

步骤三、随机意图选择模块设计。

根据当前时刻t由Q-LSTM神经网络模型计算获得语义意图集合I的概率分布向量采用轮盘赌方法，随机选择意图(虚拟动作)，表达式如下：

该意图是对“人类对话者后续话题”的预测，将作为引导聊天机器人后续对话输出(实际行动a_t)的依据。

步骤四、试探对话生成模块设计。

根据随机选择(判断)的当前时刻t意图(虚拟行动)，从预先设置的对话库中检索出对应该意图的“试探性对话”(实际行动a_t)，并通过聊天机器人系统将该对话传递(声音播放或文本显示)给人类对话者。

步骤五、人类对话采集模块设计。

利用文本或语音识别方法，将人类对话者回复聊天机器人“试探性对话”的信息(语音或文本)传递回聊天机器人系统，并通过语义预处理转换为语句词特征向量x_R(t+1)。

步骤六、意图匹配检验模块设计。

利用模板匹配等特征分类方法，对“人类回话”语句的词特征向量 x_R(t+1)进行计算，分辨出人类对聊天机器人输出“试探性对话”的回应结果：“同意”、“不同意”和“差不多”，表达式如下：

其中r_t对应Q学习算法的当前时刻行动a_t的回报值，取值1代表“同意”、取值-1代表“不同意”，取值0.5代表“差不多”。

步骤七、输入状态更新模块设计。

当前时刻t，当聊天机器人给出人类对话者意图(虚拟行动)预测，并输出“试探性对话”(实际行动a_t)，进而对话者“人类回话”(语句词特征向量x_R(t+1))产生后，从Q学习模型角度，状态空间从s_t转移到了s_t+1，状态转移模型如下：

由s_t＝[x¹(t),x²(t),…,x^τ(t),…,x^M(t)]^T和x_R(t+1)，推出

s_t+1＝[x¹(t+1),x²(t+1),…,x^τ(t+1),…,x^M(t+1)]^T。

其中

x^M(t+1)＝x_R(t+1)

┇

x^τ(t+1)＝x^τ+1(t)

┇

x²(t+1)＝x³(t)

x¹(t+1)＝x²(t)。

实施例二

本发明提供的“基于Q-LSTM神经网络的聊天机器人对话语义意图预测方法”的学习训练流程，如附图5所示，具体步骤为：

步骤一、收集整理人类聊天序列对话数据。

根据聊天机器人拟应用的服务领域，通过一些公共社交平台，大量收集人与人、以及机与人之间实际对话的序列样本数据，并经过基本语义处理后，建立对话数据库。

步骤二、序列对话数据预处理与语义意图标记。

针对步骤(1)生成的数据库，先使用一些关键词及模板规则对数据进行了预处理,过滤掉部分无意图数据；再进行序列对话数据样本的语义预处理与语义意图标记，具体步骤如下：

a)对话数据分词处理与词向量生成。

针对数据库中的每个语句文本，采用全切分等方法进行分词处理，具体步骤为：

进行词条检索(一般用Trie存储)，切分出与词库匹配的所有可能的词条，以词网格(word lattices)形式表示；运用统计语言模型(例如n-gram)找到最优路径(即切分结果)；对每个命名实体识别。

针对经过分词处理的每个语句文本中每个词，采用One-hot、ffnnlm和 word2vec等方法构建词向量，并将组成一个语句文本的所有词向量加起来构成该语句的特征向量组(矩阵)，其中word2vec方法的特征为：

模型更加简单，去掉了ffnnlm中的隐藏层，并去掉了输入层跳过隐藏层直接到输出层的连接；

训练词向量是用其前后各n个词来预测第m个词，这样做真正利用了上下文来预测；

word2vec有两种训练算法：CBOW(continuous bag-of-words)和 Skip-gram。在cbow方法里，训练目标是给定一个word的context，预测word 的概率；在skip-gram方法里，训练目标则是给定一个word，预测word的 context的概率。

b)人类聊天商业意图人工提炼与建模。

根据聊天机器人拟应用的服务领域，确定待预测的、具有潜在商业价值的对话语义意图标签。针对数据库中的每个语句文本，根据已确定的语义意图标签，在预处理后的数据上由多名标注人员进行语义意图的人工辨识和标注。通过计算多名标注人员标注结果的Pearson相关系数(Pearson correlation coefficient)来验证标注的一致性。如果依照上述的流程,得到最终Pearson 相关系数值超过0.8,说明不同用户对语义意图的理解较为一致。同时,为了避免标注结果的偶然性,采用五折交叉验证的方法,即将数据等分为五份,依次取其中的一份作为测试集,其余四份作为训练集,训练模型并进行测试。

步骤三、针对聊天商业意图建立预置对话库。

根据聊天机器人拟应用的服务领域，针对已确定的全部对话语义商业意图标签，分别建立对应的预置对话数据库。

包括试探、迎合和引导等三类对话，其中试探性对话为简短的疑问句式、用于印证意图预测的准确性；迎合性对话为中等长度的肯定句式、用于维持对话继续进行下去；引导性对话为较长的陈述句式、用于引导人类对话者逐步转入预设的话题。

步骤四、基于标记数据集的LSTM神经网络监督学习训练。

根据附图3所示的Q-LSTM神经网络模型结构以及第3.2节第(2)部分所述的算法模型，利用已完成标记语义意图的序列对话数据样本，对Q-LSTM 神经网络进行离线的有监督学习训练，网络权值调整采用反向传播优化算法。

步骤五、基于Q-LSTM神经网络的语义意图在线强化学习。

根据附图2所示的Q-LSTM神经网络方法框架以及第3.2节所属的算法模型和功能模块，利用已经过离线监督训练的Q-LSTM神经网络模型，通过在线运行输入向量生成、Q-LSTM神经网络、随机意图选择、试探对话生成、人类对话采集、意图匹配检验和输入状态更新等模块，对Q-LSTM神经网络进行在线的无监督强化学习训练，网络权值调整采用瞬时差分优化算法。

步骤六、基于Q-LSTM神经网络的语义意图预测模型测试评估。

为了检验经过离线监督和在线强化两个阶段学习训练的Q-LSTM神经网络对人类序列对话语义意图预测的效果，进行实际应用环境运行的测试与评估，方法如下：

对于每个意图(类别)均采用Precision(准确率)、Recall(召回率)和 F-measure来评价预测模型(分类器)的性能,表达式如下：

其中，属于类C的样本被正确分类到类C，记这一类样本数为TP；不属于类C的样本被错误分类到类C，记这一类样本数为FN；属于类别C的样本被错误分类到类C的其他类，记这一类样本数为TN；不属于类别C的样本被正确分类到了类别C的其他类，记这一类样本数为FP。对于本任务的多分类问题，先计算每个类别的评价指标，再以宏平均值(macro-average)作为最终的评价指标。

实施例三

以房地产中介的智能客服(聊天机器人)为应用背景，以国内某大型房地产中介机构在某城市的客服人-人以及人-机对话的聊天记录数据基础，根据如上所述的实施本发明提供的一种“基于Q-LSTM神经网络的聊天机器人对话语义意图预测方法”，具体步骤如下：

步骤一、收集整理人类聊天序列对话数据。利用国内某大型房地产中介机构在某城市的客服平台，收集了两个月的人-人以及人-机对话聊天记录数据约三万组序列语句，每组序列语句包括的语句数量不超过10个，每个语句包括的分词数量不超过30个，并经过基本语义处理后，建立对话数据库。

步骤二、序列对话数据预处理与语义意图标记。针对生成的数据库，先使用一些关键词及模板规则对数据进行了预处理,过滤掉部分无意图数据；再进行序列对话数据样本的语义预处理与语义意图标记，具体步骤如下：

a)对话数据分词处理与词向量生成。

针对数据库中的每个语句文本，采用全切分等方法进行分词处理；

针对经过分词处理的每个语句文本中每个词，采用One-hot、ffnnlm和 word2vec等方法构建词向量，并将组成一个语句文本的所有词向量加起来构成该语句的特征向量组(矩阵)。

b)人类聊天商业意图人工提炼与建模。

根据房地产中介的智能客服(聊天机器人)，确定待五个预测的对话语义意图标签，包括：“短期租房”、“长期租房”、“购置小户型房”、“购置大户型房”和“不确定意图”。

针对数据库中的每个语句文本，根据已确定的语义意图标签，在预处理后的数据上由两名标注人员进行语义意图的人工辨识和标注。通过计算两名标注人员标注结果的Pearson相关系数(Pearson correlation coefficient)来验证标注的一致性。依照上述的流程,得到最终Pearson相关系数值达到0.88 (超过0.8),说明不同用户对语义意图的理解较为一致。同时,为了避免标注结果的偶然性,采用五折交叉验证的方法,即将数据等分为五份,依次取其中的一份作为测试集,其余四份作为训练集,训练模型并进行测试。

步骤三、针对聊天商业意图建立预置对话库。根据房地产中介的智能客服(聊天机器人)，针对已确定的全部对话语义商业意图标签，分别建立对应的预置对话数据库。

以“试探性”预置对话为例，针对“短期租房”意图，预置对话为“租半年还是三个月？”；针对“长期租房”意图，预置对话为“租一年以上会优惠些，如何？”；针对“购置小户型房”意图，预置对话为“30平米能满足吗？”；针对“购置大户型房”意图，预置对话为“100平米的您考虑吗？”；针对“不确定意图”意图，预置对话为“您是想租还是买房呢？”。

步骤四、构建Q-LSTM神经网络模型及算法架构。

a)输入层(Input layer)

根据如上所述的Q-LSTM神经网络算法模型，通过令某一时间片段τ中用户文本(句子)长度I取值为30、每个句子中第i个词维的词向量的维数k 取值为20、以及一个连续时间序列语句包括的时间片段τ个数M取值为10，确定当前时刻t的输入层表达式如下：

τ＝1,2,…,10

按照顺序依次送入到LSTM神经网络模型对应的10个Cell中,以保证聊天文本的时序性。

s_t＝[x¹(t),x²(t),…,x^τ(t),…,x¹⁰(t)]^T。

b)长短期记忆层(LSTM layer)

根据如上所述的Q-LSTM神经网络算法模型，通过令对应输入向量的神经网络隐节点数量I取值为30、对应反馈向量的神经网络隐节点数量H取值为30、对应Cell单元状态向量的神经网络隐节点数量C取值为30、Cell单元输出向量维数N取值为5，以及一个连续时间序列语句包括的时间片段τ个数M取值为10，确定长短期记忆层的Cell单元表达式如下：

Input Gates：

Forget Gates：

Cells：

Output Gates：

Cell Outputs：

τ＝1,2,…,10。

其中f(·)是Sigmoid型函数、g(·)和h(·)是tanh型函数。

c)分类输出层(Softmax layer)

根据如上所述的Q-LSTM神经网络算法模型，通过令Cell单元输出向量维数N取值为5，以及一个连续时间序列语句包括的时间片段τ个数M取值为10，确定分类输出层表达式如下：

如附图3所示，当前时刻t分类输出层为五个人类对话者语义意图 (i＝1,2,…,5)的概率分布向量该向量由Q-LSTM神经网络模型输出经Softmax函数计算获得，表达式如下：

对应的Q值向量表达式如下：

并令

步骤五、构建随机意图选择模块。

根据如上所述的Q-LSTM神经网络算法模型，计算获得的当前时刻t语义意图集合I的概率分布向量采用轮盘赌方法，随机选择意图(虚拟动作)，表达式如下：

步骤六、构建试探对话生成模块。

根据如上所述随机选择(判断)的当前时刻t意图(虚拟行动)，从预先设置的对话库中检索出对应该意图的“试探性对话”(实际行动a_t)，并通过聊天机器人系统将该对话传递(声音播放或文本显示)给人类对话者。

步骤七、构建人类对话采集模块。

步骤八、构建意图匹配检验模块。

利用模板匹配等特征分类方法，对生成的“人类回话”语句的词特征向量x_R(t+1)进行计算，分辨出人类对聊天机器人输出“试探性对话”的回应结果：“同意”、“不同意”和“差不多”，表达式如下：

步骤九、构建输入状态更新模块。

由s_t＝[x¹(t),x²(t),…,x^τ(t),…,x¹⁰(t)]^T和x_R(t+1)，推出

s_t+1＝[x¹(t+1),x²(t+1),…,x^τ(t+1),…,x¹⁰(t+1)]^T

其中，

x¹⁰(t+1)＝x_R(t+1)

┇

x^τ(t+1)＝x^τ+1(t)

┇

x²(t+1)＝x³(t)

x¹(t+1)＝x²(t)

步骤十、神经网络学习训练参数设置。

Q-LSTM神经网络学习训练过程中,设置训练过程中使用batch size＝ 32；为了防止数据过拟合,使用dropout和L2正则化进行约束,其中dropout rate＝0:25,应用于LSTM层与Softmax分类层之间，L2正则化应用于最终的Softmax分类层。

步骤十一、基于标记数据集的LSTM神经网络监督学习训练。

根据附图3所示的Q-LSTM神经网络模型结构以及所述的算法模型，利用已完成标记语义意图的序列对话数据样本，对Q-LSTM神经网络进行离线的有监督学习训练，网络权值调整采用反向传播优化算法。

步骤十二、基于Q-LSTM神经网络的语义意图在线强化学习。

根据附图2所示的Q-LSTM神经网络方法框架所述的算法模型和功能模块，利用已经过离线监督训练的Q-LSTM神经网络模型，通过在线运行输入向量生成、Q-LSTM神经网络、随机意图选择、试探对话生成、人类对话采集、意图匹配检验和输入状态更新等模块，对Q-LSTM神经网络进行在线的无监督强化学习训练，网络权值调整采用瞬时差分优化算法。

步骤十三、基于Q-LSTM神经网络的语义意图预测模型测试评估。

房地产中介智能客服(聊天机器人)的模拟环境人-机对话应用测试中，语义意图预测模型(分类器)的性能评价结果为：

Precision＝0.78(准确率)

Recall＝0.69(召回率)

F-measure＝0.72

基于模板匹配和特征分类方法的传统语义意图预测模型，其性能评价结果为：

Precision＝0.53(准确率)

Recall＝0.48(召回率)

F-measure＝0.50

两个方法相比，前者整体性能提升了约50％。

实施例四

本公开还提供一种基于神经网络的对话语义意图预测系统，与上述各个实施例基于同样的设计思路，具体包括：

Q-LSTM神经网络模块设计模块：基于长短期记忆LSTM神经网络实现Q学习算法模型，神经网络的输入为代表当前状态的一个人类对话者序列语句特征向量组，神经网络的输出为代表根据当前状态预测的一个人类对话者语义意图集合的概率分布向量；

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本公开的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本公开的示例性实施例的描述中，本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本公开的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本公开的范围之内并且形成不同的实施例。例如，在权利要求书中所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本公开的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者系统程序(例如，计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本公开进行说明而不是对本公开进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本公开可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干系统的单元权利要求中，这些系统中的若干个可以是通过同一个硬件项来具体体现。

以上所述仅是本公开的具体实施方式，应当指出的是，对于本领域的普通技术人员来说，在不脱离本公开精神的前提下，可以作出若干改进、修改、和变形，这些改进、修改、和变形都应视为落在本申请的保护范围内。

Claims

1.一种基于神经网络的对话语义意图预测方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

所述输入层取某一个连续时间序列语句特征的作为当前时刻的输入，按照顺序依次送入到LSTM神经网络模型对应的Cell中,以保证聊天文本的时序性。

3.如权利要求1所述的方法，其特征在于，所述方法还包括：

由一系列重复的Cell单元组成长短期记忆层,每个Cell单元接收上一时刻隐层的输出以及当前时刻的输入；每一个Cell单元由输入门、遗忘门和输出门组成,长短期记忆层神经网络，采用反向传播算法实现学习训练。

4.如权利要求1所述的方法，其特征在于，所述方法还包括：

分类输出层为多个人类对话者语义意图的概率分布向量,所述向量由Q-LSTM神经网络模型输出经Softmax函数计算获得。

5.如权利要求1所述的方法，其特征在于，所述方法还包括：

将每个语义意图当作一个虚拟行动，所述语义意图的概率转意为对应当前状态的动作值；采用瞬时差分算法实现Q-LSTM神经网络的强化学习。

6.一种如权利要求1～5任一所述的基于神经网络的对话语义意图预测方法的学习训练方法，其特征在于，所述方法包括：

基于Q-LSTM神经网络的语义意图在线强化学习；根据Q-LSTM神经网络方法框架及其算法模型和功能模块，利用已经过离线监督训练的Q-LSTM神经网络模型，通过在线运行输入向量生成、Q-LSTM神经网络、随机意图选择、试探对话生成、人类对话采集、意图匹配检验和输入状态更新等模块，对Q-LSTM神经网络进行在线的无监督强化学习训练，网络权值调整采用瞬时差分优化算法。

7.如权利要求6所述的方法，其特征在于，所述序列对话数据预处理与语义意图标记，具体包括：

对话数据分词处理与词向量生成；针对数据库中的每个语句文本，采用全切分等方法进行分词处理；针对经过分词处理的每个语句文本中每个词，采用word2vec等方法构建词向量，并将组成一个语句文本的所有词向量加起来构成该语句的特征向量组；

人类聊天商业意图人工提炼与建模；根据聊天机器人拟应用的服务领域，确定待预测的、具有潜在商业价值的对话语义意图标签；针对数据库中的每个语句文本，根据已确定的语义意图标签，在预处理后的数据上由多名标注人员进行语义意图的人工辨识和标注；通过计算多名标注人员标注结果的Pearson相关系数来验证标注的一致性。

8.如权利要求6所述的方法，其特征在于，所述针对聊天商业意图建立预置对话库，具体包括：

试探、迎合和引导等三类对话；其中，试探性对话为简短的疑问句式、用于印证意图预测的准确性；迎合性对话为中等长度的肯定句式、用于维持对话继续进行下去；引导性对话为较长的陈述句式、用于引导人类对话者逐步转入预设的话题。

9.如权利要求6所述的方法，其特征在于，所述方法还包括：

基于Q-LSTM神经网络的语义意图预测模型测试评估；对于每个意图均采用准确率、召回率和F-measure来评价预测模型的性能；对于本任务的多分类问题，先计算每个类别的评价指标，再以宏平均值作为最终的评价指标。

10.一种基于神经网络的对话语义意图预测系统，其特征在于，包括：