CN110795550A

CN110795550A - 一种提高闲聊对话系统回答丰富性的方法

Info

Publication number: CN110795550A
Application number: CN201911056272.2A
Authority: CN
Inventors: 刘渊; 潘嵘
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2020-02-14
Anticipated expiration: 2039-10-31
Also published as: CN110795550B

Abstract

本发明涉及一种提高闲聊对话系统回答丰富性的方法，将查询语句和回答语句进行分词和词性标注后放入Transformer模型并对模型进行训练中。对于需要回答的查询语句进行分词和词性标注，并通过PMI公式获得回答语句的关键词。将获得的关键词输入训练好的模型中得到对应的回答语句，并输出得分最高的回答语句。利用Transformer模型代替了传统的循环神经网络模型，能使模型更加关注到语句中不同位置间的依赖关系，从而生成更加流畅的语句，使得语句不丧失语义相关性。

Description

一种提高闲聊对话系统回答丰富性的方法

技术领域

本发明涉及推荐系统领域，更具体地，涉及一种提高闲聊对话系统回答丰富性的方法。

背景技术

对话系统是一类能够使用自然语言跟人类交流的软件，为了处理各种对话系统相关的任务，例如智能客服、人机闲聊等，对话系统都必须要能理解用户的语义意图并且能够产生跟问题相关的回答。

其中一种闲聊对话系统，也叫做非任务(开放领域)的对话系统，目标是尽可能地模拟人类对话，理解用户语义意图并且做出与问题相关的回答；但以大量数据驱动训练产生的闲聊对话系统模型，有着明显的回答单一性和无趣的缺陷，例如会生成高频率的类似“我也是”、“我不知道”这样的回复。

现有的RNN(Recurrent Neural Network，循环神经网络)模型中，在编码器-解码器模型之间，存在一个由编码器模型生成的隐语义向量，它包含着源句子的语义信息，作为解码器模型的输入。为了提高闲聊对话系统的丰富性和有趣性，将原来编码器模型只生成单一确定的隐语义向量改为隐语义向量空间，在模型每次生成一个回复时，模型都会在隐语义向量空间中进行采样得到一个隐语义向量，作为解码器模型的输入。这技术方案虽然在直观上明显地解决了原闲聊对话系统存在的缺陷：单一的隐语义向量产生单一的回复，隐语义向量空间能产生多样的回复，但是因为隐语义向量的不确定性，导致这技术方案会不能产生流畅的句子。另外因为隐语义向量的不确定性，其产生的回复虽然多样，但是真正与问题相关的回复却不多。

发明内容

本发明为克服上述现有技术中闲聊对话系统回答单调或回答相关性低的问题，提供一种提高闲聊对话系统回答丰富性的方法，加入关键词来提高闲聊对话系统的丰富性，并且不丢失回答语句的语义相关性。

为解决上述技术问题，本发明采用的技术方案是：提供一种提高闲聊对话系统回答丰富性的方法，包括以下步骤：

步骤一：获取样本数量为N，样本形式为查询语句或回答语句，即算式表示为(查询语句，回答语句)；其中，查询语句和回答语句均为中文词语句；

步骤二：对每个样本的查询语句和回答语句进行分词和词性标注，分别得到查询语句的查询词汇和查询词汇的词性，回答语句的回答词汇和回答词汇的词性；

步骤三：建立查询词汇的文件频率表、回答词汇的文件频率表以及查询词汇和回答词汇每对共同出现的共现文件频率表；

步骤四：采用训练样本训练Transformer模型，包括向前模型和向后模型；

步骤五：对输入的查询语句进行分词和词性标注，并采用PMI(Pointwise MutualInformation，逐点互信息)指标进行计算，得到逐点互信息值最高的三个回答语句词汇作为关键词；

步骤六：将三个关键词输入向后模型的解码器部分，得到三个前半句回答语句，再将三个前半句回答语句分别作为向前模型的解码器部分的输入，得到三个回答语句；

步骤七：使用打分函数对步骤六中的回答语句进行重排序，最终输出分数最高的回答语句。

为了将关键词作为预生成回答语句的其中一个词汇，那即是将关键词作为已经生成好的语句序列向量作为解码器的输入，因为关键词可以处于回答语句的任何一个位置，因此需要解码器模型需要两个，分别是向后模型和向前模型，其中向后模型的解码器部分的初始输入有关键词和编码器模型生成的隐语义向量，向前模型的解码器部分的初始输入有向后模型生成好的前半段语句序列以及编码器模型生成的隐语义向量。利用PMI方法生成关键词，由关键词生成包含关键词的回答语句，从外部加入另外的语义信息，引导模型生成更加有趣的回答语句。Transformer模型因为能用运用位置编码向量，比起RNN模型更加能关注到为语句中远距离的依赖关系，能够生成更加语义相关更加合理的回答语句。

优选的，在所述步骤五中，逐点互信息值的计算公式为：

其中，co_df表示查询语句、回答语句词汇的共现文件频率次数，q_df表示查询语句词汇的文件频率，r_df表示回答语句词汇的文件频率，num_doc表示训练数据集总pair对数，alpha为可控参数，默认为0.8；

PMI值最高的三个回答语句词汇作为关键词的公式如下：

其中，m为查询语句分词后的词汇数量，q_i为查询语句分词后的词汇，r为回答语句词汇的词汇，PMI值的阀值为1。

优选的，在所述步骤三中，文件频率表中只记录词性为动词、名词和形容词的词汇；对输入的查询语句进行逐点互信息指标计算时，计算词性为动词、名词以及形容词的词汇。由数据总结发现，词性为代词(例“我”、“你”)、副词(例如“一直”、“总是”)等词汇不具有较多含义，对生成多样性回复的帮助甚微，而词性为动词(例如“吃饭”)、名词(例如“笔”、“纸”)和形容词(例如“漂亮”、“好听”)等词汇，对一句话的含义影响很大。因此只记录词性为动词、名词和形容词的词汇，生成蕴含信息更为丰富的关键词。

优选的，所述文件频率表设置了过滤阀值。为了减少低频词对最终结果的影响，将回答语句的文件频率表的阈值设为300，将共现文件频率表的阈值设为15。

优选的，在所述步骤四中，为了让向后模型能从一个关键词生成从后往前的前半句话，因此需要对向后模型的训练样本的回答语句随机选择一个合法词性的词汇，并且以该词汇为终点，截取前半句话作为向后模型的训练样本。

优选的：在所述步骤六中，将查询语句词汇输入向前模型生成的第四个回答语句；在步骤7中，使用打分函数对四个回答语句进行重排序，最终输出分数最高的回答语句。

优选的：所述打分函数的公式为：

Score(query,reply)＝log(query|reply)+log(reply|query)

其中，query为查询语句，reply为回答语句。

优选的，向前模型和向后模型的公式分别为：

Backward(keyword)＝w₁,w₂,...,w_n

Forward(w₁,w₂,...,w_n,keyword)＝w_n+2,...,w_m-1,w_m

其中，W为每个词汇，keyword为关键词，n表示keyword前面词的数量，m表示keyword后面词的数量。

与现有技术相比，有益效果是：

1、利用PMI-alpha公式代替了原PMI公式，并且加入了大量的规则限制，例如词性选择、文件频率次数过滤以及PMI的阈值选取，使得最终得到的关键词更能跟输入的查询问题相关，而避免了一些稀疏词对对话系统的干扰。

2、利用Transformer模型代替了传统的RNN模型，能使模型更加关注到语句中不同位置间的依赖关系，从而生成更加流畅的语句，使得语句不丧失语义相关性。

3、加入了打分函数，使得系统不仅从关键词的角度来提高系统回复的多样性和相关性，还从查询语句和生成的回答语句本身，考虑互相之间的生成概率，得到最终的回答。

附图说明

图1是本发明的一种提高闲聊对话系统回答丰富性的方法的流程图；

图2是本发明的一种提高闲聊对话系统回答丰富性的方法的另一实施例的流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明，不能理解为对本专利的限制。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”“长”“短”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

下面通过具体实施例，并结合附图，对本发明的技术方案作进一步的具体描述：

实施例1

如图1所示为一种提高闲聊对话系统回答丰富性的方法的是实施例，包括以下步骤：

步骤一：获取样本数量为N，样本形式为(查询语句，回答语句)的训练样本；其中，查询语句和回答语句均为中文词语句；

本实施例的有益效果：1、利用Transformer模型代替了传统的RNN模型，能使模型更加关注到语句中不同位置间的依赖关系，从而生成更加流畅的语句。

2、加入了打分函数，使得系统不仅从关键词的角度来提高系统回复的多样性和相关性，还从查询语句和生成的回答语句本身，考虑互相之间的生成概率，得到最终的回答。

实施例2

如图2所示为一种提高闲聊对话系统回答丰富性的方法的是实施例，包括以下步骤：

步骤二：对每个样本的查询语句和回答语句进行分词和词性标注，分别得到查询语句的查询词汇(q1,q2,…,qm)和查询词汇的词性(qpos1，qpos2，…,qposm)，回答语句的回答词汇(r1,r2,…,rn)和回答词汇的词性(rpos1，rpos2，…,rposn)，其中m和n分别表示查询语句和回答语句分词之后的词汇数量；

步骤三：建立查询词汇的文件频率表、回答词汇的文件频率表以及查询词汇和回答词汇每对共同出现的共现文件频率表；文件频率表中只记录词性为动词、名词和形容词的词汇；为了减少低频词对最终结果的影响，将回答语句的文件频率表的阈值设为300，将共现文件频率表的阈值设为15。

步骤四：采用训练样本训练Transformer模型，包括向前模型和向后模型；向前模型和向后模型的公式分别为：

Backward(keyword)＝w₁,w₂,...,w_n

Forward(w₁,w₂,...,w_n,keyword)＝w_n+2,...,w_m-1,w_m

向后模型需要对训练样本的回答语句随机选择一个合法词性的词汇，并且以该词汇为终点，截取前半句话作为向后模型的训练样本。

步骤五：对输入的查询语句进行分词和词性标注，并采用PMI(Pointwise MutualInformation，逐点互信息)指标进行计算，对输入的查询语句进行逐点互信息指标计算时，计算词性为动词、名词以及形容词的词汇，将得到逐点互信息值最高的三个回答语句词汇作为关键词；PMI值的计算公式为：

PMI值最高的三个回答语句词汇作为关键词的公式如下：

步骤六：将三个关键词输入向后模型的解码器部分，得到三个前半句回答语句，再将三个前半句回答语句分别作为向前模型的解码器部分的输入，得到三个回答语句；将查询语句词汇输入向前模型生成的第四个回答语句；

为了将关键词作为预生成回答语句的其中一个词汇，那即是将关键词作为已经生成好的语句序列向量作为解码器的输入，因为关键词可以处于回答语句的任何一个位置，因此需要解码器模型需要两个，分别是向后模型和向前模型，其中向后模型的解码器部分的初始输入有关键词和编码器模型生成的隐语义向量，向前模型的解码器部分的初始输入有向后模型生成好的前半段语句序列以及编码器模型生成的隐语义向量。

步骤七：使用打分函数对步骤六中的所有的回答语句进行重排序，最终输出分数最高的回答语句，打分函数的公式为：

Score(query,reply)＝log(query|reply)+log(reply|query)

其中，query为查询语句，reply为回答语句。

本实施例的有益效果：

1、利用PMI-alpha公式代替了原PMI公式，并且加入了大量的规则限制，例如词性选择、文件频率次数过滤以及PMI的阈值选取，使得最终得到的关键词更能跟输入的查询问题相关，而避免了一些稀疏词对系统的干扰。

2、利用Transformer模型代替了传统的RNN模型，能使模型更加关注到语句中不同位置间的依赖关系，从而生成更加流畅的语句。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种提高闲聊对话系统回答丰富性的方法，其特征在于，包括如下步骤：

步骤一：获取样本数量为N，样本形式为查询语句或回答语句；

步骤五：对输入的查询语句进行分词和词性标注，并采用逐点互信息指标进行计算，得到逐点互信息值最高的三个回答语句词汇作为关键词；

2.根据权利要求1所述的一种提高闲聊对话系统回答丰富性的方法，其特征在于，在所述步骤五中，逐点互信息值的计算公式为：

其中，Co_df表示查询语句、回答语句词汇的共现文件频率次数，q_df表示查询语句词汇的文件频率，r_df表示回答语句词汇的文件频率，num_doc表示训练数据集总pair对数，alpha为可控参数；

逐点互信息值最高的三个回答语句词汇作为关键词的公式如下：

其中，m为查询语句分词后的词汇数量，q_i为查询语句分词后的词汇，r为回答语句词汇的词汇。

3.根据权利要求1所述的一种提高闲聊对话系统回答丰富性的方法，其特征在于，在所述步骤三中，文件频率表中只记录词性为动词、名词和形容词的词汇；在所述步骤五中，对输入的查询语句进行逐点互信息指标计算时，计算词性为动词、名词以及形容词的词汇。

4.根据权利要求3所述的一种提高闲聊对话系统回答丰富性的方法，其特征在于，所述文件频率表设置了过滤阀值。

5.根据权利要求1所述的一种提高闲聊对话系统回答丰富性的方法，其特征在于，在所述步骤四中，向后模型需要对训练样本的回答语句随机选择一个合法词性的词汇，并且以该词汇为终点，截取前半句话作为向后模型的训练样本。

6.根据权利要求1所述的一种提高闲聊对话系统回答丰富性的方法，其特征在于：在所述步骤六中，将查询语句词汇输入向前模型生成的第四个回答语句；在步骤7中，使用打分函数对四个回答语句进行重排序，最终输出分数最高的回答语句。

7.根据权利要求6所述的一种提高闲聊对话系统回答丰富性的方法，其特征在于：所述打分函数的公式为：

Score(query，reply)＝log(query|reply)+log(reply|query)

其中，query为查询语句，reply为回答语句。

8.根据权利要求6所述的一种提高闲聊对话系统回答丰富性的方法，其特征在于：向前模型和向后模型的公式分别为：

Backward(keyword)＝w₁，w₂，...，w_n

Forward(w₁，w₂，...，w_n，keyword)＝w_n+2，...，w_m-1，w_m