CN112818672A - 一种基于文本游戏的强化学习情感分析系统 - Google Patents

一种基于文本游戏的强化学习情感分析系统 Download PDF

Info

Publication number
CN112818672A
CN112818672A CN202110103319.7A CN202110103319A CN112818672A CN 112818672 A CN112818672 A CN 112818672A CN 202110103319 A CN202110103319 A CN 202110103319A CN 112818672 A CN112818672 A CN 112818672A
Authority
CN
China
Prior art keywords
module
text description
emotion
lstm
reward
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110103319.7A
Other languages
English (en)
Inventor
潘晓光
焦璐璐
令狐彬
宋晓晨
韩丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi Sanyouhe Smart Information Technology Co Ltd
Original Assignee
Shanxi Sanyouhe Smart Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi Sanyouhe Smart Information Technology Co Ltd filed Critical Shanxi Sanyouhe Smart Information Technology Co Ltd
Priority to CN202110103319.7A priority Critical patent/CN112818672A/zh
Publication of CN112818672A publication Critical patent/CN112818672A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及内在激励强化学习领域,特别涉及一种基于文本游戏的强化学习情感分析系统,包括如下模块:表示状态的文本描述模块、情绪分析模块、外部环境模块和LSTM‑DQN模型模块,所述表示状态的文本描述模块用于表示状态的文本描述的输入;所述情绪分析模块用于分析所述表示状态的文本描述中的积极和消极轨迹,生成基于情感的奖励;所述外部环境模块用于给出外部环境的奖励;LSTM‑DQN模型模块用于对所述文本描述的状态表示进行编码,使用环境给出的奖励,并从状态表示中提取基于情感的奖励作为补充;本发明将稀疏性奖励问题转化为稠密性奖励问题,提高强化学习在处理所述问题的性能,实现了无奖励环境下的自发学习,提高了强化学习在基于文本游戏中的表现。

Description

一种基于文本游戏的强化学习情感分析系统
技术领域
本发明涉及内在激励强化学习领域,具体涉及一种基于文本游戏的强化学习情感分析系统。
背景技术
目前虽然强化学习(RL)在自然语言处理(NLP)领域取得了成功,如对话生成和基于文本的游戏,但它通常面临的问题是稀疏奖励,导致收敛速度慢或没有收敛。使用文本描述来提取状态表示的传统方法忽略了其中固有的反馈。
强化学习在处理基于文本游戏时常常面临着奖励稀疏的问题而且强化学习一直依赖于固有奖励在处理本身环境奖励稀疏的问题上存在着处理效果不好的问题。
发明内容
本发明的目的在于提供一种基于文本游戏的强化学习情感分析系统。
为实现上述目的,本发明提供如下技术方案:一种基于文本游戏的强化学习情感分析系统,包括:文本描述模块、情绪分析模块、外部环境模块和LSTM-DQN模型模块;
文本描述模块用于作为表示状态的文本描述的输入模块;表示状态包含积极轨迹和消极轨迹;
情绪分析模块用于分析文本描述模块中的积极轨迹和消极轨迹,生成基于情感的奖励;
外部环境模块用于给出外部环境的奖励;
LSTM-DQN模型模块用于对文本描述模块中文本描述的状态表示进行编码,使用外部环境的奖励,并从状态表示中提取基于情感的奖励作为补充。
进一步的,所述情绪分析模块中,根据文本描述的情绪将游戏轨迹划分为赢或输,学习速率在{1×10-6、1×10-5、2×10-5、1×10-4}之间变化,训练epoch数在500~1500之间变化,最终的模型以2×10-5的学习率训练1500个epoch;其中一个epoch就是遍历一次数据集的次数;
新智能体的奖励公式为:
rtotal=renv+scale×polarity
其中,情感分析器被假定为二进制分类器,它在[-1,1]之间输出一个连续的分数称为极性,scale为等级,polarity为极性。
进一步的,所述LSTM-DQN模型模块中,采用标准的Q-学习方程进行训练:
Figure BDA0002916831810000021
LSTM接收作为输入的单词并生成状态表示,然后将其输入到一个计算Q分数的两层神经网络中,其中LSTM为长短期记忆网络,是一种时间循环神经网络;DQN为Deep-QNetwork,融合了神经网络和Q learning的方法。
进一步的,所述表示状态的文本描述模块连接情绪分析模块,表示状态的文本描述模块连接LSTM-DQN模型模块,LSTM-DQN模型模块连接外部环境模块。
本发明的技术效果如下:本发明通过给定状态表示的文本描述,使用LSTM对其状态表示进行编码,并将其输入Deep-Q网络(DQN),然后使用环境给出的奖励,并从状态表示中提取基于情感的奖励作为补充。通过这种方式,即使智能体中来自环境的奖励是0,也会有其他渠道的奖励供给,这会使基于情感的奖励潜在地、更快地学习。
本方案通过对基于文本游戏中的文字线索做情感分析的方法,将原本的稀疏性奖励问题转化为了稠密性奖励问题,使得强化学习在处理此类问题的性能大大提高,而且通过此框架与内在动机的框架相关性,智能体通过分析环境提供的感觉来奖励自己,并通过其内在激励进一步实现了无奖励环境下的自发学习,提高了强化学习在基于文本游戏中的表现。
附图说明
以下参考附图描述的实施例是示例性的,旨在用于解释和说明本申请,而不能理解为对本申请的保护范围的限制。
图1是本申请公开的主要步骤流程图;
图2是本申请公开的LSTM-DQN模型图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
如图1所示,一种基于文本游戏的强化学习情感分析系统,包括:表示状态的文本描述模块、情绪分析模块、外部环境模块和LSTM-DQN模型模块,
所述文本描述模块用于作为表示状态的文本描述的输入模块;所述表示状态包含积极和消极轨迹;
所述情绪分析模块用于分析所述文本描述模块中的积极轨迹和消极轨迹,生成基于情感的奖励;
所述外部环境模块用于给出外部环境的奖励;
所述LSTM-DQN模型模块用于对所述文本描述模块中文本描述的状态表示进行编码,使用外部环境给出的奖励,并从状态表示中提取基于情感的奖励作为补充。
RL(强化学习)在当前状态面临多个挑战,稀疏奖励就是其中一个。因为它导致了学习缓慢,甚至有时候不收敛。假设一个智能体在一个状态空间很大的环境中学习,只有少数状态会导致奖励。从最左边开始的智能体必须在遇到奖励之前采取大量的行动。反过来,这种稀疏反馈会导致训练神经网络时产生非常嘈杂的梯度。在一些极端的场景中,一个智能体可能需要采取指数级的动作才能到达一个有奖励的子节点。
稀疏的奖励是常见的,因为它们是最直接的方式来指定一个任务需要如何解决。如果一个机器人被期望将水壶里的水倒进玻璃杯里,最简单的方法是,如果它装满了玻璃杯,就给予1的奖励,否则的奖励是0。这种类型的奖励设计在基于文本的游戏中很常见,在这种游戏中,Agent(智能体)在到达目标状态时得到奖励,在面向任务的对话中,Agent根据任务的成功完成而得到奖励。
在本方案中,通过考察基于文本的游戏,可以发现在一定条件下,通过情感分析提供密集的奖励可以提高游戏的性能。
在下一板块的系统流程图中描述了具体的方法流程图。在给定表示状态的文本描述,使用LSTM对其状态表示进行编码,并将其输入Deep-Q Network(DQN),然后使用环境给出的奖励,并从状态表示中提取基于情感的奖励作为补充。通过这种方式,即使智能体中来自环境的奖励是0,也会有其他渠道的奖励供给,这会使基于情感的奖励潜在地、更快地学习,其中LSTM为Long Short-Term Memory,长短期记忆网络,是一种时间循环神经网络;DQN为Deep-Q Network,融合了神经网络和Q learning的方法。
情绪分析模块:可以假设能获得环境中的积极轨迹和消极轨迹。在环境中运行一个随机代理会产生负轨迹,因为它的成功率很低。为了产生积极的轨迹,则可以使用与游戏相关的演练,这些演练遵循了正确的行动集合来达到目标。
在情绪分析模块对BERT进行微调,根据文本描述的情绪将游戏轨迹划分为赢或输。学习速率在{1×10-6、1×10-5、2×10-5、1×10-4}之间变化,训练epoch(一个epoch就是遍历一次数据集的次数)数在500~1500之间变化。最终的模型以2×10-5的学习率训练1500个epoch。
新智能体的奖励公式为:
rtotal=renv+scale×polarity
其中,情感分析器被假定为二进制分类器,它在[-1,1]之间输出一个连续的分数,称为极性。scale为等级,polarity为极性。
在本方案的实现中使用了不同模型。智能体使用的是LSTM-DQN。在LSTM-DQN模型模块中,该模型采用标准的Q-学习方程进行训练。
Figure BDA0002916831810000041
LSTM接收作为输入的单词并生成状态表示,这是LSTM的所有最终输出的平均值。然后将其输入到一个计算Q分数的两层神经网络中。
如图2所示,由于实验中的修改改变了环境,这些修改可以应用于任何方法。
LSTM-DQN模型根据文本描述的情绪将游戏轨迹划分为赢或输。通过检验基于文本世界轨迹训练的模型的情绪得分与轨迹成功与否之间的相关性,轨迹中平均的积极情绪与成功之间存在显著而相对强的相关性。
本方案中的框架与内在动机的框架有关,在这个框架中,智能体通过分析环境提供的感觉来奖励自己。在内在激励强化学习(IMRL)中,主体将奖励机制内在化,因为相同的感觉可以为不同的主体诱导不同的奖励。正如一个团队的胜利会让一个人感到高兴或悲伤,这取决于这个人的内部奖励机制,智能体也应该能够单独利用环境提供的感觉来推断自己的奖励。由于方案中的模型有一个可以内化到模型中的情绪分析引擎,所以此方法可以被认为是一种形式的IMRL。
本发明将稀疏性奖励问题转化为稠密性奖励问题,提高强化学习在处理所述问题的性能,实现了无奖励环境下的自发学习,提高了强化学习在基于文本游戏中的表现。
上面仅对本发明的较佳实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化,各种变化均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于文本游戏的强化学习情感分析系统,其特征在于,包括:文本描述模块、情绪分析模块、外部环境模块和LSTM-DQN模型模块;
文本描述模块用于作为表示状态的文本描述的输入模块;表示状态包含积极轨迹和消极轨迹;
情绪分析模块用于分析文本描述模块中的积极轨迹和消极轨迹,生成基于情感的奖励;
外部环境模块用于给出外部环境的奖励;
LSTM-DQN模型模块用于对文本描述模块中文本描述的状态表示进行编码,使用外部环境的奖励,并从状态表示中提取基于情感的奖励作为补充。
2.根据权利要求1所述的一种基于文本游戏的强化学习情感分析系统,其特征在于,所述情绪分析模块中,根据文本描述的情绪将游戏轨迹划分为赢或输,学习速率在{1×10-6、1×10-5、2×10-5、1×10-4}之间变化,训练epoch数在500~1500之间变化,最终的模型以2×10-5的学习率训练1500个epoch;其中一个epoch就是遍历一次数据集的次数;
新智能体的奖励公式为:
rtotal=renv+scale×polarity
其中,情感分析器被假定为二进制分类器,它在[-1,1]之间输出一个连续的分数称为极性,scale为等级,polarity为极性。
3.根据权利要求1所述的一种基于文本游戏的强化学习情感分析系统,其特征在于,所述LSTM-DQN模型模块中,采用标准的Q-学习方程进行训练:
Figure FDA0002916831800000011
LSTM接收作为输入的单词并生成状态表示,然后将其输入到一个计算Q分数的两层神经网络中,其中LSTM为长短期记忆网络,是一种时间循环神经网络;DQN为Deep-Q Network,融合了神经网络和Q learning的方法。
4.根据权利要求1所述的一种基于文本游戏的强化学习情感分析系统,其特征在于,文本描述模块连接情绪分析模块,文本描述模块连接LSTM-DQN模型模块,LSTM-DQN模型模块连接外部环境模块。
CN202110103319.7A 2021-01-26 2021-01-26 一种基于文本游戏的强化学习情感分析系统 Pending CN112818672A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110103319.7A CN112818672A (zh) 2021-01-26 2021-01-26 一种基于文本游戏的强化学习情感分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110103319.7A CN112818672A (zh) 2021-01-26 2021-01-26 一种基于文本游戏的强化学习情感分析系统

Publications (1)

Publication Number Publication Date
CN112818672A true CN112818672A (zh) 2021-05-18

Family

ID=75859360

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110103319.7A Pending CN112818672A (zh) 2021-01-26 2021-01-26 一种基于文本游戏的强化学习情感分析系统

Country Status (1)

Country Link
CN (1) CN112818672A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110378382A (zh) * 2019-06-18 2019-10-25 华南师范大学 基于深度强化学习的新型量化交易系统及其实现方法
CN110399920A (zh) * 2019-07-25 2019-11-01 哈尔滨工业大学(深圳) 一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质
CN110826723A (zh) * 2019-10-12 2020-02-21 中国海洋大学 一种结合tamer框架和面部表情反馈的交互强化学习方法
CN111047148A (zh) * 2019-11-21 2020-04-21 山东科技大学 一种基于强化学习的虚假评分检测方法
CN111260040A (zh) * 2020-05-06 2020-06-09 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于内在奖励的视频游戏决策方法
CN111507880A (zh) * 2020-04-18 2020-08-07 郑州大学 基于情绪感染和深度强化学习的人群对抗仿真方法
CN111837142A (zh) * 2017-10-27 2020-10-27 索尼互动娱乐股份有限公司 用于表征视频内容的深度强化学习框架
CN111931943A (zh) * 2020-05-20 2020-11-13 浙江大学 一种统一的基于好奇心驱动的强化学习方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111837142A (zh) * 2017-10-27 2020-10-27 索尼互动娱乐股份有限公司 用于表征视频内容的深度强化学习框架
CN110378382A (zh) * 2019-06-18 2019-10-25 华南师范大学 基于深度强化学习的新型量化交易系统及其实现方法
CN110399920A (zh) * 2019-07-25 2019-11-01 哈尔滨工业大学(深圳) 一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质
CN110826723A (zh) * 2019-10-12 2020-02-21 中国海洋大学 一种结合tamer框架和面部表情反馈的交互强化学习方法
CN111047148A (zh) * 2019-11-21 2020-04-21 山东科技大学 一种基于强化学习的虚假评分检测方法
CN111507880A (zh) * 2020-04-18 2020-08-07 郑州大学 基于情绪感染和深度强化学习的人群对抗仿真方法
CN111260040A (zh) * 2020-05-06 2020-06-09 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于内在奖励的视频游戏决策方法
CN111931943A (zh) * 2020-05-20 2020-11-13 浙江大学 一种统一的基于好奇心驱动的强化学习方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HONGYU GUO等: "Generating Text with Deep Reinforcement Learning", 《COMPUTATION AND LANGUAGE》 *
赵涓涓 等: "基于情绪认知评价理论和Q-learning的人机交互中情感决策", 《太原理工大学学报》 *
鲁成祥: "基于动机的强化学习及其应用研究", 《中国优秀博硕士论文全文数据库(硕士)信息科技辑》 *

Similar Documents

Publication Publication Date Title
He et al. Learning symmetric collaborative dialogue agents with dynamic knowledge graph embeddings
US20180329884A1 (en) Neural contextual conversation learning
CN111104512B (zh) 游戏评论的处理方法及相关设备
CN110059169B (zh) 基于语料标注的智能机器人聊天上下文实现方法及系统
CN110851575B (zh) 一种对话生成系统及对话实现方法
CN110457661A (zh) 自然语言生成方法、装置、设备及存储介质
Guo et al. Learning to query, reason, and answer questions on ambiguous texts
CN109800295A (zh) 基于情感词典和词概率分布的情感会话生成方法
CN116861258B (zh) 模型处理方法、装置、设备及存储介质
Xu et al. Enhancing dialog coherence with event graph grounded content planning
CN113360618A (zh) 一种基于离线强化学习的智能机器人对话方法及系统
CN116415650A (zh) 生成对话语言模型及生成对话的方法、装置和存储介质
Wang et al. Care: Causality reasoning for empathetic responses by conditional graph generation
CN111282272A (zh) 信息处理方法、计算机可读介质及电子设备
Tran et al. How to ask for donations? learning user-specific persuasive dialogue policies through online interactions
Shibata et al. Playing the werewolf game with artificial intelligence for language understanding
CN117218482A (zh) 模型训练方法、视频处理方法、装置及电子设备
CN117271745A (zh) 一种信息处理方法、装置及计算设备、存储介质
CN112818672A (zh) 一种基于文本游戏的强化学习情感分析系统
CN110891201B (zh) 文本生成方法、装置、服务器和存储介质
Chowanda et al. Generative Indonesian conversation model using recurrent neural network with attention mechanism
Yin et al. Sequential generative exploration model for partially observable reinforcement learning
CN115796187A (zh) 一种基于对话结构图约束的开放域对话方法
CN113590800B (zh) 图像生成模型的训练方法和设备以及图像生成方法和设备
Wang et al. A new factored POMDP model framework for affective tutoring systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210518

RJ01 Rejection of invention patent application after publication