CN107423437B - 一种基于对抗网络强化学习的问答模型优化方法 - Google Patents
一种基于对抗网络强化学习的问答模型优化方法 Download PDFInfo
- Publication number
- CN107423437B CN107423437B CN201710662815.XA CN201710662815A CN107423437B CN 107423437 B CN107423437 B CN 107423437B CN 201710662815 A CN201710662815 A CN 201710662815A CN 107423437 B CN107423437 B CN 107423437B
- Authority
- CN
- China
- Prior art keywords
- question
- answer
- reward
- formula
- answering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于对抗网络强化学习的问答模型优化方法,问答模型优化方法的原理是在知识库中多问一答以及一问多答题目,然后引入了对抗机制,即通过两套智能问答系统交替问答实现问答交互,基于强化学习机制,最终优化智能问答系统模型并具有奖励系统模型。本发明设计合理,定义了对抗问答交互的优化指标及其计算方式,包括易响应性、内容丰富性、主题演变性及语义连续性,并进一步定义了对抗问答模型优化的奖励函数,强化了学习,可以不断优化问答模型,提高问答交互的质量,提升用户体验。
Description
技术领域
本发明属于计算机程序领域,更具体地说,涉及一种基于对抗网络强化学习的问答模型优化方法。
背景技术
当今社会,信息技术飞速发展。随着人们在信息社会中对信息检索的迫切需求的增加,普通的信息检索系统己经无法满足用户的需要,而发展在信息检索技术之上的智能问答系统可以满足人们的这一需求。智能问答系统允许用户以自然语言的形式输入一个问句,最终返回给用户的也是自然语言形式的简短而准确的答案。
自动问答是当前自然语言处理和信息检索领域备受关注的一个研究方向。自动问答系统可以分为开放域自动问答和限定域自动问答。开放域是指不限定问题领域,用户随意提问,系统从海量数据中寻找答案;限定域是指系统事先声明,只能回答某一个领域的问题,其他领域问题无法回答。开放域自动问答是目前研究的热点。在开放领域的问答系统研宄中,人们着力于解决从一个给定的庞大语料库中回答那些针对该语料库提出的各种问题,即问答模型的构建。
最近出现的对话生成神经网络使得问答模型的构建更进一步,但目前的神经网络实现都存在一定的局限,即它们只考虑当前时刻的下一句响应如何生成,忽略了其对整个问答交互后续发展所产生的而影响,而问答的可持续交互性对于一个智能问答系统是十分关键的。
为此,一个有效的解决方法就是利用强化学习来对传统的对话生成神经网络模型进行优化改进。
发明内容
针对现有技术存在的不足,本发明的目的在于提供了一种基于对抗网络强化学习的问答模型优化方法,设计合理,定义了对抗问答交互的优化指标及其计算方式,包括易响应性、内容丰富性、主题演变性及语义连续性,并进一步定义了对抗问答模型优化的奖励函数,强化了学习,可以不断优化问答模型,提高问答交互的质量,提升用户体验。
为实现上述目的,本发明提供了如下技术方案:
一种基于对抗网络强化学习的问答模型优化方法,其特征在于:问答模型优化方法的原理是在知识库中多问一答以及一问多答题目,然后引入了对抗机制,即通过两套智能问答系统交替问答实现问答交互,基于强化学习机制,最终优化智能问答系统模型并具有奖励系统模型。
作为一种优化的技术方案,所述智能问答系统模型包括两个问答系统,两个问答系统分别表示为M以及N,初始时随机指定一个问题输入,接下来M和N交替问答;问答的时候,在第i轮问答中,M、N相应的应答分别表示为MAi+MQi、NAi+NQi,其中,NAi表示N对于MQi的应答,MAi+1表示M对于MQi的应答,问答交互进行;值得注意的是,MQi以及NQi有可能不存在,即M或N只应答而没有进一步提出问题,则相应的MAi+1以及MAi+1也不存在。
作为一种优化的技术方案,所述奖励系统模型包括无意义回答概率公式、内容丰富奖励公式、主题演变奖励公式、语义相似度奖励公式和最终的奖励公式;
无意义回答概率公式表示为,
其中,NS为集合S的大小,P(NAi+1|MQi)是当第i轮M输出问题MQi时,第i+1轮N的回答是NAi+1的概率,对集合S中所有响应遍历计算平均概率,就可以得到当前时刻问答模型产生无意义回答的概率;通过尽量让问答模型产生这样无意义回答的概率变小(即f1变大),可以实现较好的问答响应性;
内容丰富奖励公式表示为:
f2=lognNum(MQi)
其中,Num(MQi)表示MQi中有效关键词的个数,有效关键词为去除了停用词、冗余词以及完成同义词映射后的关键词;
主题演变奖励公式表示为:
其中,Num(MQi,MQi-1)表示MQi与MQi-1中共同存在的有效关键词的个数,Num(MQi)、Num(MQi-1)分别表示MQi、MQi-1中存在的有效关键词的个数;
语义相似度奖励公式表示为:
f3=Sim(MQi,NAi+1)
其中,MQi是第i轮M输出的问题,而NAi+1是第i+1轮N的回答,Sim(MQi,NAi+1)表示MQi和NAi+1的语义相似度;因此,问答的语义连续性是通过计算当前轮次的答案与上一轮次的问题间的语义相似度来衡量的;
最终的奖励公式表示为:
f=θ1*f1+θ2*f2+θ3*f3+θ4*f4
其中,θi为各指标相应的权值,θ1+θ2+θ3+θ4=1;
奖励函数作为衡量问答交互是否向着预先定义的优化目标发展的一个指标,可以用来指导问答模型的优化,使得问答交互朝着所定义的优化目标不断前进。
由于采用了上述技术方案,与现有技术相比,本发明设计合理,定义了对抗问答交互的优化指标及其计算方式,包括易响应性、内容丰富性、主题演变性及语义连续性,并进一步定义了对抗问答模型优化的奖励函数,强化了学习,可以不断优化问答模型,提高问答交互的质量,提升用户体验。
参照附图和实施例对本发明做进一步说明。
附图说明
图1为本发明一种实施例的对抗回答流程的流程图。
具体实施方式
实施例
一种基于对抗网络强化学习的问答模型优化方法,问答模型优化方法的原理是在知识库中多问一答以及一问多答题目,然后引入了对抗机制,即通过两套智能问答系统交替问答实现问答交互,基于强化学习机制,最终优化智能问答系统模型并具有奖励系统模型。
所述智能问答系统模型包括两个问答系统,两个问答系统分别表示为M以及N,初始时随机指定一个问题输入,接下来M和N交替问答。如图1所示,为本实施例的对抗回答流程,即:问答的时候,在第i轮问答中,M、N相应的应答分别表示为MAi+MQi、NAi+NQi,其中,NAi表示N对于MQi的应答,MAi+1表示M对于NQi的应答,问答交互进行;值得注意的是,MQi以及NQi有可能不存在,即M或N只应答而没有进一步提出问题,则相应的NAi+1以及MAi+1也不存在。
所述奖励系统模型包括无意义回答概率公式、内容丰富奖励公式、主题演变奖励公式、语义相似度奖励公式和最终的奖励公式。
易响应性是问答可持续进行的关键因素之一。当出现一些没有太多意义的问答响应时,如“我不知道你在说什么”等,一个对话就很难很好地被进行下去。本发明将知识库中存在的这类响应收集起来组成一个集合。无意义回答概率公式表示为,
其中,NS为集合S的大小,P(NAi+1|MQi)是当第i轮M输出问题MQi时,第i+1轮N的回答是NAi+1的概率,对集合S中所有响应遍历计算平均概率,就可以得到当前时刻问答模型产生无意义回答的概率;通过尽量让问答模型产生这样无意义回答的概率变小(即f1变大),可以实现较好的问答响应性。
内容丰富性是衡量问答质量的关键因素之一。一个好的问答响应应该包含较为丰富的信息,而不是简单的一个词或几个词。因此,如果M或者N在问答响应中出现了比较多的关键词的话,那么应该视作一种奖励。内容丰富奖励公式表示为:
f2=lognNum(MQi)
其中,Num(MQi)表示MQi中有效关键词的个数,有效关键词为去除了停用词、冗余词以及完成同义词映射后的关键词。
主题演变性是指在问答交互的过程中,其主题应该是逐渐改变的,即如果M以及N在逐轮问答响应的时候,如果都能持续贡献出新的信息,开辟新的主题的话,那么是有利于问答的持续发展的,与此同时也会减少循环问答的出现。因此,很自然地,如果M或者N在先后两轮问答中出现了比较多重合的关键词的话,那么这种重复就应该被视作一种惩罚。主题演变奖励公式表示为:
其中,Num(MQi,MQi-1)表示MQi与MQi-1中共同存在的有效关键词的个数,Num(MQi)、Num(MQi-1)分别表示MQi、MQi-1中存在的有效关键词的个数;
通过主题演变性的奖励,很容易促使问答系统产生各种跟问答语义无关的响应(因为主题演变性会促进引入更多主题,从而得到更大的奖励,而更多主题的引入,很容易导致其语义不相关),进而造成问答在语义上是不连贯的。因此,把问答响应和之前问题之间的语义相似度引入作为一个奖励。语义相似度奖励公式表示为:
f3=Sim(MQi,NAi+1)
其中,MQi是第i轮M输出的问题,而NAi+1是第i+1轮N的回答,Sim(MQi,NAi+1)表示MQi和NAi+1的语义相似度;因此,问答的语义连续性是通过计算当前轮次的答案与上一轮次的问题间的语义相似度来衡量的;
最后一步,将易响应性、内容丰富性、主题演变性以及语义连续性四个指标加权求和,可以得到最终的奖励函数。最终的奖励公式表示为:
f=θ1*f1+θ2*f2+θ3*f3+θ4*f4
其中,θi为各指标相应的权值,θ1+θ2+θ3+θ4=1;
奖励函数作为衡量问答交互是否向着预先定义的优化目标发展的一个指标,可以用来指导问答模型的优化,使得问答交互朝着所定义的优化目标不断前进。
本发明设计合理,定义了对抗问答交互的优化指标及其计算方式,包括易响应性、内容丰富性、主题演变性及语义连续性,并进一步定义了对抗问答模型优化的奖励函数,强化了学习,可以不断优化问答模型,提高问答交互的质量,提升用户体验。
本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (1)
1.一种基于对抗网络强化学习的问答模型优化方法,其特征在于:问答模型优化方法的原理是在知识库中多问一答以及一问多答题目,然后引入了对抗机制,即通过两套智能问答系统交替问答实现问答交互,基于强化学习机制,最终优化智能问答系统模型并具有奖励系统模型;
所述智能问答系统模型包括两个问答系统,两个问答系统分别表示为M以及N,初始时随机指定一个问题输入,接下来M和N交替问答;问答的时候,在第i轮问答中,M、N相应的应答分别表示为MAi+MQi、NAi+NQi,其中,NAi表示N对于MQi的应答,MAi+1表示M对于NQi的应答,问答交互进行;值得注意的是,MQi以及NQi有可能不存在,即M或N只应答而没有进一步提出问题,则相应的NAi+1以及MAi+1也不存在;
所述奖励系统模型包括无意义回答概率公式、内容丰富奖励公式、主题演变奖励公式、语义相似度奖励公式和最终的奖励公式;
无意义回答概率公式表示为,
其中,Ns为集合S的大小,P(NAi+1|MQi)是当第i轮M输出问题MQi时,第i+1轮N的回答是NAi+1的概率,对集合S中所有响应遍历计算平均概率,就得到当前时刻问答模型产生无意义回答的概率;通过尽量让问答模型产生这样无意义回答的概率变小,实现较好的问答响应性;
内容丰富奖励公式表示为:
f2=lognNum(MQi)
其中,Num(MQi)表示MQi中有效关键词的个数,有效关键词为去除了停用词、冗余词以及完成同义词映射后的关键词;
主题演变奖励公式表示为:
其中,Num(MQi,MQi-1)表示MQi与MQi-1中共同存在的有效关键词的个数,Num(MQi)、Num(MQi-1)分别表示MQi、MQi-1中存在的有效关键词的个数;
语义相似度奖励公式表示为:
f3=Sim(MQi,NAi+1)
其中,MQi是第i轮M输出的问题,而NAi+1是第i+1轮N的回答,Sim(MQi,NAi+1)表示MQi和NAi+1的语义相似度;因此,问答的语义连续性是通过计算当前轮次的答案与上一轮次的问题间的语义相似度来衡量的;
最终的奖励公式表示为:
f=θ1*f1+θ2*f2+θ3*f3+θ4*f4
其中,θi为各指标相应的权值,θ1+θ2+θ3+θ4=1;
奖励函数作为衡量问答交互是否向着预先定义的优化目标发展的一个指标,用来指导问答模型的优化,使得问答交互朝着所定义的优化目标不断前进。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710662815.XA CN107423437B (zh) | 2017-08-04 | 2017-08-04 | 一种基于对抗网络强化学习的问答模型优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710662815.XA CN107423437B (zh) | 2017-08-04 | 2017-08-04 | 一种基于对抗网络强化学习的问答模型优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107423437A CN107423437A (zh) | 2017-12-01 |
CN107423437B true CN107423437B (zh) | 2020-09-01 |
Family
ID=60437287
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710662815.XA Active CN107423437B (zh) | 2017-08-04 | 2017-08-04 | 一种基于对抗网络强化学习的问答模型优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107423437B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019732B (zh) * | 2017-12-27 | 2021-10-15 | 华为技术有限公司 | 一种智能问答方法以及相关装置 |
CN108256065B (zh) * | 2018-01-16 | 2021-11-09 | 智言科技(深圳)有限公司 | 基于关系检测和强化学习的知识图谱推理方法 |
CN108846124B (zh) * | 2018-06-29 | 2022-05-17 | 北京百度网讯科技有限公司 | 训练方法、装置、计算机设备和可读存储介质 |
CN109460462B (zh) * | 2018-11-15 | 2021-10-19 | 中通天鸿(北京)通信科技股份有限公司 | 一种中文相似问题生成系统与方法 |
CN110263133B (zh) * | 2019-05-07 | 2023-11-24 | 平安科技(深圳)有限公司 | 基于知识图谱的问答方法、电子装置、设备及存储介质 |
CN110866101B (zh) * | 2019-11-07 | 2022-11-01 | 昆明理工大学 | 一种基于近端策略优化与对抗学习的对话生成方法 |
CN110929085B (zh) * | 2019-11-14 | 2023-12-19 | 国家电网有限公司 | 基于元语义分解的电力客服留言生成模型样本处理系统及方法 |
CN110909147B (zh) * | 2019-12-02 | 2022-06-21 | 支付宝(杭州)信息技术有限公司 | 一种训练排序结果选择模型输出标准问法的方法和系统 |
US11520829B2 (en) | 2020-10-21 | 2022-12-06 | International Business Machines Corporation | Training a question-answer dialog sytem to avoid adversarial attacks |
CN112297012B (zh) * | 2020-10-30 | 2022-05-31 | 上海交通大学 | 一种基于自适应模型的机器人强化学习方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105701253A (zh) * | 2016-03-04 | 2016-06-22 | 南京大学 | 中文自然语言问句语义化的知识库自动问答方法 |
CN106980652A (zh) * | 2017-03-03 | 2017-07-25 | 竹间智能科技(上海)有限公司 | 智能问答方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9665825B2 (en) * | 2014-06-09 | 2017-05-30 | Cognitive Scale, Inc. | System for refining cognitive insights using cognitive graph vectors |
-
2017
- 2017-08-04 CN CN201710662815.XA patent/CN107423437B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105701253A (zh) * | 2016-03-04 | 2016-06-22 | 南京大学 | 中文自然语言问句语义化的知识库自动问答方法 |
CN106980652A (zh) * | 2017-03-03 | 2017-07-25 | 竹间智能科技(上海)有限公司 | 智能问答方法及系统 |
Non-Patent Citations (1)
Title |
---|
"生成式对抗网络GAN的研究进展与展望";王坤峰等;《自动化学报》;321-332;20170331;第43卷(第3期);321-332 * |
Also Published As
Publication number | Publication date |
---|---|
CN107423437A (zh) | 2017-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107423437B (zh) | 一种基于对抗网络强化学习的问答模型优化方法 | |
Singh et al. | Teaching machines about everyday life | |
US20220343082A1 (en) | System and method for ensemble question answering | |
CN117149989B (zh) | 大语言模型训练方法、文本处理方法及装置 | |
CN112506945B (zh) | 基于知识图谱的自适应导学方法及系统 | |
US12008319B2 (en) | Method and apparatus for selecting answers to idiom fill-in-the-blank questions, and computer device | |
CN112948558B (zh) | 面向开放域对话系统的上下文增强的问题生成方法及装置 | |
Crager | Meta-logic in Aristotle’s Epistemology | |
CN116415650A (zh) | 生成对话语言模型及生成对话的方法、装置和存储介质 | |
CN117786091B (zh) | 基于苏格拉底式提问的自启发智能问答实现方法及系统 | |
CN115964459B (zh) | 基于食品安全认知图谱的多跳推理问答方法及系统 | |
Liu et al. | Pal: a chatterbot system for answering domain-specific questions | |
CN110826341A (zh) | 一种基于seq2seq模型的语义相似度计算方法 | |
Halas | In error we trust: an apology of abductive inference | |
CN113157932B (zh) | 基于知识图谱表示学习的隐喻计算和装置 | |
Wang et al. | SLR: A million-scale comprehensive crossword dataset for simultaneous learning and reasoning | |
Mehta et al. | Developing a conversational agent using ontologies | |
Kalouli | Hy-NLI: a Hybrid system for state-of-the-art Natural Language Inference | |
Fu | The central role of heuristic search in cognitive computation systems | |
Shau et al. | PSAbot: A Chatbot System for the Analysis of Posts on Stack Overflow | |
Bellotti et al. | Towards a conversational agent architecture to favor knowledge discovery in serious games | |
Zhong et al. | Question generation based on chat‐response conversion | |
Pollak et al. | Scientific Question Generation: Pattern-Based and Graph-Based RoboCHAIR Methods. | |
Bakomichalis | Cyberbullying Detection Through NIP and Machine Learning | |
Abdul-Kader | An investigation on question answering for an online feedable Chatbot |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20200915 Address after: 18 / F, 11 science and technology Northwest Building, 532 Shenzhou Third Road, Xi'an Aerospace base, Shaanxi Province 710000 Patentee after: Knowledge intelligence technology Co., Ltd Address before: 1904 Hongyuan building, No.4 Jiuxianqiao Road, Chaoyang District, Beijing 100015 Patentee before: EASYTO (BEIJING) TECHNOLOGY Co.,Ltd. |
|
TR01 | Transfer of patent right |