CN107423437B

CN107423437B - 一种基于对抗网络强化学习的问答模型优化方法

Info

Publication number: CN107423437B
Application number: CN201710662815.XA
Authority: CN
Inventors: 王春辉
Original assignee: Easyto Beijing Technology Co ltd
Current assignee: Knowledge intelligence technology Co., Ltd
Priority date: 2017-08-04
Filing date: 2017-08-04
Publication date: 2020-09-01
Anticipated expiration: 2037-08-04
Also published as: CN107423437A

Abstract

本发明公开了一种基于对抗网络强化学习的问答模型优化方法，问答模型优化方法的原理是在知识库中多问一答以及一问多答题目，然后引入了对抗机制，即通过两套智能问答系统交替问答实现问答交互，基于强化学习机制，最终优化智能问答系统模型并具有奖励系统模型。本发明设计合理，定义了对抗问答交互的优化指标及其计算方式，包括易响应性、内容丰富性、主题演变性及语义连续性，并进一步定义了对抗问答模型优化的奖励函数，强化了学习，可以不断优化问答模型，提高问答交互的质量，提升用户体验。

Description

一种基于对抗网络强化学习的问答模型优化方法

技术领域

本发明属于计算机程序领域，更具体地说，涉及一种基于对抗网络强化学习的问答模型优化方法。

背景技术

当今社会，信息技术飞速发展。随着人们在信息社会中对信息检索的迫切需求的增加，普通的信息检索系统己经无法满足用户的需要，而发展在信息检索技术之上的智能问答系统可以满足人们的这一需求。智能问答系统允许用户以自然语言的形式输入一个问句，最终返回给用户的也是自然语言形式的简短而准确的答案。

自动问答是当前自然语言处理和信息检索领域备受关注的一个研究方向。自动问答系统可以分为开放域自动问答和限定域自动问答。开放域是指不限定问题领域，用户随意提问，系统从海量数据中寻找答案；限定域是指系统事先声明，只能回答某一个领域的问题，其他领域问题无法回答。开放域自动问答是目前研究的热点。在开放领域的问答系统研宄中，人们着力于解决从一个给定的庞大语料库中回答那些针对该语料库提出的各种问题，即问答模型的构建。

最近出现的对话生成神经网络使得问答模型的构建更进一步，但目前的神经网络实现都存在一定的局限，即它们只考虑当前时刻的下一句响应如何生成，忽略了其对整个问答交互后续发展所产生的而影响，而问答的可持续交互性对于一个智能问答系统是十分关键的。

为此，一个有效的解决方法就是利用强化学习来对传统的对话生成神经网络模型进行优化改进。

发明内容

针对现有技术存在的不足，本发明的目的在于提供了一种基于对抗网络强化学习的问答模型优化方法，设计合理，定义了对抗问答交互的优化指标及其计算方式，包括易响应性、内容丰富性、主题演变性及语义连续性，并进一步定义了对抗问答模型优化的奖励函数，强化了学习，可以不断优化问答模型，提高问答交互的质量，提升用户体验。

为实现上述目的，本发明提供了如下技术方案：

一种基于对抗网络强化学习的问答模型优化方法，其特征在于：问答模型优化方法的原理是在知识库中多问一答以及一问多答题目，然后引入了对抗机制，即通过两套智能问答系统交替问答实现问答交互，基于强化学习机制，最终优化智能问答系统模型并具有奖励系统模型。

作为一种优化的技术方案，所述智能问答系统模型包括两个问答系统，两个问答系统分别表示为M以及N，初始时随机指定一个问题输入，接下来M和N交替问答；问答的时候，在第i轮问答中，M、N相应的应答分别表示为M_Ai+M_Qi、N_Ai+N_Qi，其中，N_Ai表示N对于M_Qi的应答，M_Ai+1表示M对于M_Qi的应答，问答交互进行；值得注意的是，M_Qi以及N_Qi有可能不存在，即M或N只应答而没有进一步提出问题，则相应的M_Ai+1以及M_Ai+1也不存在。

作为一种优化的技术方案，所述奖励系统模型包括无意义回答概率公式、内容丰富奖励公式、主题演变奖励公式、语义相似度奖励公式和最终的奖励公式；

无意义回答概率公式表示为，

其中，N_S为集合S的大小，P(N_Ai+1|M_Qi)是当第i轮M输出问题M_Qi时，第i+1轮N的回答是N_Ai+1的概率，对集合S中所有响应遍历计算平均概率，就可以得到当前时刻问答模型产生无意义回答的概率；通过尽量让问答模型产生这样无意义回答的概率变小(即f₁变大)，可以实现较好的问答响应性；

内容丰富奖励公式表示为：

f₂＝log_nNum(M_Qi)

其中，Num(M_Qi)表示M_Qi中有效关键词的个数，有效关键词为去除了停用词、冗余词以及完成同义词映射后的关键词；

主题演变奖励公式表示为：

其中，Num(M_Qi，M_Qi-1)表示M_Qi与M_Qi-1中共同存在的有效关键词的个数，Num(M_Qi)、Num(M_Qi-1)分别表示M_Qi、M_Qi-1中存在的有效关键词的个数；

语义相似度奖励公式表示为：

f₃＝Sim(M_Qi，N_Ai+1)

其中，M_Qi是第i轮M输出的问题，而N_Ai+1是第i+1轮N的回答，Sim(M_Qi，N_Ai+1)表示M_Qi和N_Ai+1的语义相似度；因此，问答的语义连续性是通过计算当前轮次的答案与上一轮次的问题间的语义相似度来衡量的；

最终的奖励公式表示为：

f＝θ₁*f₁+θ₂*f₂+θ₃*f₃+θ₄*f₄

其中，θ_i为各指标相应的权值，θ₁+θ₂+θ₃+θ₄＝1；

奖励函数作为衡量问答交互是否向着预先定义的优化目标发展的一个指标，可以用来指导问答模型的优化，使得问答交互朝着所定义的优化目标不断前进。

由于采用了上述技术方案，与现有技术相比，本发明设计合理，定义了对抗问答交互的优化指标及其计算方式，包括易响应性、内容丰富性、主题演变性及语义连续性，并进一步定义了对抗问答模型优化的奖励函数，强化了学习，可以不断优化问答模型，提高问答交互的质量，提升用户体验。

参照附图和实施例对本发明做进一步说明。

附图说明

图1为本发明一种实施例的对抗回答流程的流程图。

具体实施方式

实施例

一种基于对抗网络强化学习的问答模型优化方法，问答模型优化方法的原理是在知识库中多问一答以及一问多答题目，然后引入了对抗机制，即通过两套智能问答系统交替问答实现问答交互，基于强化学习机制，最终优化智能问答系统模型并具有奖励系统模型。

所述智能问答系统模型包括两个问答系统，两个问答系统分别表示为M以及N，初始时随机指定一个问题输入，接下来M和N交替问答。如图1所示，为本实施例的对抗回答流程，即：问答的时候，在第i轮问答中，M、N相应的应答分别表示为M_Ai+M_Qi、N_Ai+N_Qi，其中，N_Ai表示N对于M_Qi的应答，M_Ai+1表示M对于N_Qi的应答，问答交互进行；值得注意的是，M_Qi以及N_Qi有可能不存在，即M或N只应答而没有进一步提出问题，则相应的N_Ai+1以及M_Ai+1也不存在。

所述奖励系统模型包括无意义回答概率公式、内容丰富奖励公式、主题演变奖励公式、语义相似度奖励公式和最终的奖励公式。

易响应性是问答可持续进行的关键因素之一。当出现一些没有太多意义的问答响应时，如“我不知道你在说什么”等，一个对话就很难很好地被进行下去。本发明将知识库中存在的这类响应收集起来组成一个集合。无意义回答概率公式表示为，

其中，N_S为集合S的大小，P(N_Ai+1|M_Qi)是当第i轮M输出问题M_Qi时，第i+1轮N的回答是N_Ai+1的概率，对集合S中所有响应遍历计算平均概率，就可以得到当前时刻问答模型产生无意义回答的概率；通过尽量让问答模型产生这样无意义回答的概率变小(即f₁变大)，可以实现较好的问答响应性。

内容丰富性是衡量问答质量的关键因素之一。一个好的问答响应应该包含较为丰富的信息，而不是简单的一个词或几个词。因此，如果M或者N在问答响应中出现了比较多的关键词的话，那么应该视作一种奖励。内容丰富奖励公式表示为：

f₂＝log_nNum(M_Qi)

其中，Num(M_Qi)表示M_Qi中有效关键词的个数，有效关键词为去除了停用词、冗余词以及完成同义词映射后的关键词。

主题演变性是指在问答交互的过程中，其主题应该是逐渐改变的，即如果M以及N在逐轮问答响应的时候，如果都能持续贡献出新的信息，开辟新的主题的话，那么是有利于问答的持续发展的，与此同时也会减少循环问答的出现。因此，很自然地，如果M或者N在先后两轮问答中出现了比较多重合的关键词的话，那么这种重复就应该被视作一种惩罚。主题演变奖励公式表示为：

其中，Num(M_Qi，M_Qi-1)表示M_Qi与M_Qi-1中共同存在的有效关键词的个数，Num(M_Qi)、Num(M_Qi-1)分别表示M_Qi、MQ_i-1中存在的有效关键词的个数；

通过主题演变性的奖励，很容易促使问答系统产生各种跟问答语义无关的响应(因为主题演变性会促进引入更多主题，从而得到更大的奖励，而更多主题的引入，很容易导致其语义不相关)，进而造成问答在语义上是不连贯的。因此，把问答响应和之前问题之间的语义相似度引入作为一个奖励。语义相似度奖励公式表示为：

f₃=Sim(M_Qi，N_Ai+1)

最后一步，将易响应性、内容丰富性、主题演变性以及语义连续性四个指标加权求和，可以得到最终的奖励函数。最终的奖励公式表示为：

f=θ₁*f₁+θ₂*f₂+θ₃*f₃+θ₄*f₄

其中，θ_i为各指标相应的权值，θ₁+θ₂+θ₃+θ₄=1；

本发明设计合理，定义了对抗问答交互的优化指标及其计算方式，包括易响应性、内容丰富性、主题演变性及语义连续性，并进一步定义了对抗问答模型优化的奖励函数，强化了学习，可以不断优化问答模型，提高问答交互的质量，提升用户体验。

本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于对抗网络强化学习的问答模型优化方法，其特征在于：问答模型优化方法的原理是在知识库中多问一答以及一问多答题目，然后引入了对抗机制，即通过两套智能问答系统交替问答实现问答交互，基于强化学习机制，最终优化智能问答系统模型并具有奖励系统模型；

所述智能问答系统模型包括两个问答系统，两个问答系统分别表示为M以及N，初始时随机指定一个问题输入，接下来M和N交替问答；问答的时候，在第i轮问答中，M、N相应的应答分别表示为M_Ai+M_Qi、N_Ai+N_Qi，其中，N_Ai表示N对于M_Qi的应答，M_Ai+1表示M对于N_Qi的应答，问答交互进行；值得注意的是，M_Qi以及N_Qi有可能不存在，即M或N只应答而没有进一步提出问题，则相应的N_Ai+1以及M_Ai+1也不存在；

所述奖励系统模型包括无意义回答概率公式、内容丰富奖励公式、主题演变奖励公式、语义相似度奖励公式和最终的奖励公式；

无意义回答概率公式表示为，

其中，N_s为集合S的大小，P(N_Ai+1|M_Qi)是当第i轮M输出问题M_Qi时，第i+1轮N的回答是N_Ai+1的概率，对集合S中所有响应遍历计算平均概率，就得到当前时刻问答模型产生无意义回答的概率；通过尽量让问答模型产生这样无意义回答的概率变小，实现较好的问答响应性；

内容丰富奖励公式表示为：

f₂＝log_nNum(M_Qi)

主题演变奖励公式表示为：

语义相似度奖励公式表示为：

f₃＝Sim(M_Qi，N_Ai+1)

最终的奖励公式表示为：

f＝θ₁*f₁+θ₂*f₂+θ₃*f₃+θ₄*f₄

其中，θ_i为各指标相应的权值，θ₁+θ₂+θ₃+θ₄＝1；

奖励函数作为衡量问答交互是否向着预先定义的优化目标发展的一个指标，用来指导问答模型的优化，使得问答交互朝着所定义的优化目标不断前进。