CN112818672A - 一种基于文本游戏的强化学习情感分析系统 - Google Patents
一种基于文本游戏的强化学习情感分析系统 Download PDFInfo
- Publication number
- CN112818672A CN112818672A CN202110103319.7A CN202110103319A CN112818672A CN 112818672 A CN112818672 A CN 112818672A CN 202110103319 A CN202110103319 A CN 202110103319A CN 112818672 A CN112818672 A CN 112818672A
- Authority
- CN
- China
- Prior art keywords
- module
- text description
- emotion
- lstm
- reward
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及内在激励强化学习领域,特别涉及一种基于文本游戏的强化学习情感分析系统,包括如下模块:表示状态的文本描述模块、情绪分析模块、外部环境模块和LSTM‑DQN模型模块,所述表示状态的文本描述模块用于表示状态的文本描述的输入;所述情绪分析模块用于分析所述表示状态的文本描述中的积极和消极轨迹,生成基于情感的奖励;所述外部环境模块用于给出外部环境的奖励;LSTM‑DQN模型模块用于对所述文本描述的状态表示进行编码,使用环境给出的奖励,并从状态表示中提取基于情感的奖励作为补充;本发明将稀疏性奖励问题转化为稠密性奖励问题,提高强化学习在处理所述问题的性能,实现了无奖励环境下的自发学习,提高了强化学习在基于文本游戏中的表现。
Description
技术领域
本发明涉及内在激励强化学习领域,具体涉及一种基于文本游戏的强化学习情感分析系统。
背景技术
目前虽然强化学习(RL)在自然语言处理(NLP)领域取得了成功,如对话生成和基于文本的游戏,但它通常面临的问题是稀疏奖励,导致收敛速度慢或没有收敛。使用文本描述来提取状态表示的传统方法忽略了其中固有的反馈。
强化学习在处理基于文本游戏时常常面临着奖励稀疏的问题而且强化学习一直依赖于固有奖励在处理本身环境奖励稀疏的问题上存在着处理效果不好的问题。
发明内容
本发明的目的在于提供一种基于文本游戏的强化学习情感分析系统。
为实现上述目的,本发明提供如下技术方案:一种基于文本游戏的强化学习情感分析系统,包括:文本描述模块、情绪分析模块、外部环境模块和LSTM-DQN模型模块;
文本描述模块用于作为表示状态的文本描述的输入模块;表示状态包含积极轨迹和消极轨迹;
情绪分析模块用于分析文本描述模块中的积极轨迹和消极轨迹,生成基于情感的奖励;
外部环境模块用于给出外部环境的奖励;
LSTM-DQN模型模块用于对文本描述模块中文本描述的状态表示进行编码,使用外部环境的奖励,并从状态表示中提取基于情感的奖励作为补充。
进一步的,所述情绪分析模块中,根据文本描述的情绪将游戏轨迹划分为赢或输,学习速率在{1×10-6、1×10-5、2×10-5、1×10-4}之间变化,训练epoch数在500~1500之间变化,最终的模型以2×10-5的学习率训练1500个epoch;其中一个epoch就是遍历一次数据集的次数;
新智能体的奖励公式为:
rtotal=renv+scale×polarity
其中,情感分析器被假定为二进制分类器,它在[-1,1]之间输出一个连续的分数称为极性,scale为等级,polarity为极性。
进一步的,所述LSTM-DQN模型模块中,采用标准的Q-学习方程进行训练:
LSTM接收作为输入的单词并生成状态表示,然后将其输入到一个计算Q分数的两层神经网络中,其中LSTM为长短期记忆网络,是一种时间循环神经网络;DQN为Deep-QNetwork,融合了神经网络和Q learning的方法。
进一步的,所述表示状态的文本描述模块连接情绪分析模块,表示状态的文本描述模块连接LSTM-DQN模型模块,LSTM-DQN模型模块连接外部环境模块。
本发明的技术效果如下:本发明通过给定状态表示的文本描述,使用LSTM对其状态表示进行编码,并将其输入Deep-Q网络(DQN),然后使用环境给出的奖励,并从状态表示中提取基于情感的奖励作为补充。通过这种方式,即使智能体中来自环境的奖励是0,也会有其他渠道的奖励供给,这会使基于情感的奖励潜在地、更快地学习。
本方案通过对基于文本游戏中的文字线索做情感分析的方法,将原本的稀疏性奖励问题转化为了稠密性奖励问题,使得强化学习在处理此类问题的性能大大提高,而且通过此框架与内在动机的框架相关性,智能体通过分析环境提供的感觉来奖励自己,并通过其内在激励进一步实现了无奖励环境下的自发学习,提高了强化学习在基于文本游戏中的表现。
附图说明
以下参考附图描述的实施例是示例性的,旨在用于解释和说明本申请,而不能理解为对本申请的保护范围的限制。
图1是本申请公开的主要步骤流程图;
图2是本申请公开的LSTM-DQN模型图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
如图1所示,一种基于文本游戏的强化学习情感分析系统,包括:表示状态的文本描述模块、情绪分析模块、外部环境模块和LSTM-DQN模型模块,
所述文本描述模块用于作为表示状态的文本描述的输入模块;所述表示状态包含积极和消极轨迹;
所述情绪分析模块用于分析所述文本描述模块中的积极轨迹和消极轨迹,生成基于情感的奖励;
所述外部环境模块用于给出外部环境的奖励;
所述LSTM-DQN模型模块用于对所述文本描述模块中文本描述的状态表示进行编码,使用外部环境给出的奖励,并从状态表示中提取基于情感的奖励作为补充。
RL(强化学习)在当前状态面临多个挑战,稀疏奖励就是其中一个。因为它导致了学习缓慢,甚至有时候不收敛。假设一个智能体在一个状态空间很大的环境中学习,只有少数状态会导致奖励。从最左边开始的智能体必须在遇到奖励之前采取大量的行动。反过来,这种稀疏反馈会导致训练神经网络时产生非常嘈杂的梯度。在一些极端的场景中,一个智能体可能需要采取指数级的动作才能到达一个有奖励的子节点。
稀疏的奖励是常见的,因为它们是最直接的方式来指定一个任务需要如何解决。如果一个机器人被期望将水壶里的水倒进玻璃杯里,最简单的方法是,如果它装满了玻璃杯,就给予1的奖励,否则的奖励是0。这种类型的奖励设计在基于文本的游戏中很常见,在这种游戏中,Agent(智能体)在到达目标状态时得到奖励,在面向任务的对话中,Agent根据任务的成功完成而得到奖励。
在本方案中,通过考察基于文本的游戏,可以发现在一定条件下,通过情感分析提供密集的奖励可以提高游戏的性能。
在下一板块的系统流程图中描述了具体的方法流程图。在给定表示状态的文本描述,使用LSTM对其状态表示进行编码,并将其输入Deep-Q Network(DQN),然后使用环境给出的奖励,并从状态表示中提取基于情感的奖励作为补充。通过这种方式,即使智能体中来自环境的奖励是0,也会有其他渠道的奖励供给,这会使基于情感的奖励潜在地、更快地学习,其中LSTM为Long Short-Term Memory,长短期记忆网络,是一种时间循环神经网络;DQN为Deep-Q Network,融合了神经网络和Q learning的方法。
情绪分析模块:可以假设能获得环境中的积极轨迹和消极轨迹。在环境中运行一个随机代理会产生负轨迹,因为它的成功率很低。为了产生积极的轨迹,则可以使用与游戏相关的演练,这些演练遵循了正确的行动集合来达到目标。
在情绪分析模块对BERT进行微调,根据文本描述的情绪将游戏轨迹划分为赢或输。学习速率在{1×10-6、1×10-5、2×10-5、1×10-4}之间变化,训练epoch(一个epoch就是遍历一次数据集的次数)数在500~1500之间变化。最终的模型以2×10-5的学习率训练1500个epoch。
新智能体的奖励公式为:
rtotal=renv+scale×polarity
其中,情感分析器被假定为二进制分类器,它在[-1,1]之间输出一个连续的分数,称为极性。scale为等级,polarity为极性。
在本方案的实现中使用了不同模型。智能体使用的是LSTM-DQN。在LSTM-DQN模型模块中,该模型采用标准的Q-学习方程进行训练。
LSTM接收作为输入的单词并生成状态表示,这是LSTM的所有最终输出的平均值。然后将其输入到一个计算Q分数的两层神经网络中。
如图2所示,由于实验中的修改改变了环境,这些修改可以应用于任何方法。
LSTM-DQN模型根据文本描述的情绪将游戏轨迹划分为赢或输。通过检验基于文本世界轨迹训练的模型的情绪得分与轨迹成功与否之间的相关性,轨迹中平均的积极情绪与成功之间存在显著而相对强的相关性。
本方案中的框架与内在动机的框架有关,在这个框架中,智能体通过分析环境提供的感觉来奖励自己。在内在激励强化学习(IMRL)中,主体将奖励机制内在化,因为相同的感觉可以为不同的主体诱导不同的奖励。正如一个团队的胜利会让一个人感到高兴或悲伤,这取决于这个人的内部奖励机制,智能体也应该能够单独利用环境提供的感觉来推断自己的奖励。由于方案中的模型有一个可以内化到模型中的情绪分析引擎,所以此方法可以被认为是一种形式的IMRL。
本发明将稀疏性奖励问题转化为稠密性奖励问题,提高强化学习在处理所述问题的性能,实现了无奖励环境下的自发学习,提高了强化学习在基于文本游戏中的表现。
上面仅对本发明的较佳实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化,各种变化均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于文本游戏的强化学习情感分析系统,其特征在于,包括:文本描述模块、情绪分析模块、外部环境模块和LSTM-DQN模型模块;
文本描述模块用于作为表示状态的文本描述的输入模块;表示状态包含积极轨迹和消极轨迹;
情绪分析模块用于分析文本描述模块中的积极轨迹和消极轨迹,生成基于情感的奖励;
外部环境模块用于给出外部环境的奖励;
LSTM-DQN模型模块用于对文本描述模块中文本描述的状态表示进行编码,使用外部环境的奖励,并从状态表示中提取基于情感的奖励作为补充。
2.根据权利要求1所述的一种基于文本游戏的强化学习情感分析系统,其特征在于,所述情绪分析模块中,根据文本描述的情绪将游戏轨迹划分为赢或输,学习速率在{1×10-6、1×10-5、2×10-5、1×10-4}之间变化,训练epoch数在500~1500之间变化,最终的模型以2×10-5的学习率训练1500个epoch;其中一个epoch就是遍历一次数据集的次数;
新智能体的奖励公式为:
rtotal=renv+scale×polarity
其中,情感分析器被假定为二进制分类器,它在[-1,1]之间输出一个连续的分数称为极性,scale为等级,polarity为极性。
4.根据权利要求1所述的一种基于文本游戏的强化学习情感分析系统,其特征在于,文本描述模块连接情绪分析模块,文本描述模块连接LSTM-DQN模型模块,LSTM-DQN模型模块连接外部环境模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110103319.7A CN112818672A (zh) | 2021-01-26 | 2021-01-26 | 一种基于文本游戏的强化学习情感分析系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110103319.7A CN112818672A (zh) | 2021-01-26 | 2021-01-26 | 一种基于文本游戏的强化学习情感分析系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112818672A true CN112818672A (zh) | 2021-05-18 |
Family
ID=75859360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110103319.7A Pending CN112818672A (zh) | 2021-01-26 | 2021-01-26 | 一种基于文本游戏的强化学习情感分析系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112818672A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110378382A (zh) * | 2019-06-18 | 2019-10-25 | 华南师范大学 | 基于深度强化学习的新型量化交易系统及其实现方法 |
CN110399920A (zh) * | 2019-07-25 | 2019-11-01 | 哈尔滨工业大学(深圳) | 一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质 |
CN110826723A (zh) * | 2019-10-12 | 2020-02-21 | 中国海洋大学 | 一种结合tamer框架和面部表情反馈的交互强化学习方法 |
CN111047148A (zh) * | 2019-11-21 | 2020-04-21 | 山东科技大学 | 一种基于强化学习的虚假评分检测方法 |
CN111260040A (zh) * | 2020-05-06 | 2020-06-09 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于内在奖励的视频游戏决策方法 |
CN111507880A (zh) * | 2020-04-18 | 2020-08-07 | 郑州大学 | 基于情绪感染和深度强化学习的人群对抗仿真方法 |
CN111837142A (zh) * | 2017-10-27 | 2020-10-27 | 索尼互动娱乐股份有限公司 | 用于表征视频内容的深度强化学习框架 |
CN111931943A (zh) * | 2020-05-20 | 2020-11-13 | 浙江大学 | 一种统一的基于好奇心驱动的强化学习方法 |
-
2021
- 2021-01-26 CN CN202110103319.7A patent/CN112818672A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111837142A (zh) * | 2017-10-27 | 2020-10-27 | 索尼互动娱乐股份有限公司 | 用于表征视频内容的深度强化学习框架 |
CN110378382A (zh) * | 2019-06-18 | 2019-10-25 | 华南师范大学 | 基于深度强化学习的新型量化交易系统及其实现方法 |
CN110399920A (zh) * | 2019-07-25 | 2019-11-01 | 哈尔滨工业大学(深圳) | 一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质 |
CN110826723A (zh) * | 2019-10-12 | 2020-02-21 | 中国海洋大学 | 一种结合tamer框架和面部表情反馈的交互强化学习方法 |
CN111047148A (zh) * | 2019-11-21 | 2020-04-21 | 山东科技大学 | 一种基于强化学习的虚假评分检测方法 |
CN111507880A (zh) * | 2020-04-18 | 2020-08-07 | 郑州大学 | 基于情绪感染和深度强化学习的人群对抗仿真方法 |
CN111260040A (zh) * | 2020-05-06 | 2020-06-09 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于内在奖励的视频游戏决策方法 |
CN111931943A (zh) * | 2020-05-20 | 2020-11-13 | 浙江大学 | 一种统一的基于好奇心驱动的强化学习方法 |
Non-Patent Citations (3)
Title |
---|
HONGYU GUO等: "Generating Text with Deep Reinforcement Learning", 《COMPUTATION AND LANGUAGE》 * |
赵涓涓 等: "基于情绪认知评价理论和Q-learning的人机交互中情感决策", 《太原理工大学学报》 * |
鲁成祥: "基于动机的强化学习及其应用研究", 《中国优秀博硕士论文全文数据库(硕士)信息科技辑》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20180329884A1 (en) | Neural contextual conversation learning | |
CN108734276A (zh) | 一种基于对抗生成网络的模仿学习对话生成方法 | |
CN110059169B (zh) | 基于语料标注的智能机器人聊天上下文实现方法及系统 | |
CN110851575B (zh) | 一种对话生成系统及对话实现方法 | |
CN111104512A (zh) | 游戏评论的处理方法及相关设备 | |
CN110457661A (zh) | 自然语言生成方法、装置、设备及存储介质 | |
CN116415650A (zh) | 生成对话语言模型及生成对话的方法、装置和存储介质 | |
Xu et al. | Enhancing dialog coherence with event graph grounded content planning | |
Zhou et al. | Facilitating multi-turn emotional support conversation with positive emotion elicitation: A reinforcement learning approach | |
Wang et al. | Care: Causality reasoning for empathetic responses by conditional graph generation | |
CN111282272A (zh) | 信息处理方法、计算机可读介质及电子设备 | |
CN113177393B (zh) | 改进针对网页结构理解的预训练语言模型的方法和装置 | |
CN113761148A (zh) | 对话信息获取方法、装置、设备及存储介质 | |
CN111783434B (zh) | 提升回复生成模型抗噪能力的方法及系统 | |
CN117271745A (zh) | 一种信息处理方法、装置及计算设备、存储介质 | |
CN112818672A (zh) | 一种基于文本游戏的强化学习情感分析系统 | |
CN110891201B (zh) | 文本生成方法、装置、服务器和存储介质 | |
Chowanda et al. | Generative Indonesian conversation model using recurrent neural network with attention mechanism | |
CN113590800B (zh) | 图像生成模型的训练方法和设备以及图像生成方法和设备 | |
Ha et al. | Learning dialogue management models for task-oriented dialogue with parallel dialogue and task streams | |
CN113761149A (zh) | 对话信息处理方法、装置、计算机设备及存储介质 | |
CN112434143A (zh) | 基于gru单元隐藏状态约束的对话方法、存储介质及系统 | |
Wang et al. | On the Uses of Large Language Models to Design End-to-End Learning Semantic Communication | |
Fang | Building A User-Centric and Content-Driven Socialbot | |
Zhong et al. | Question generation based on chat‐response conversion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210518 |
|
RJ01 | Rejection of invention patent application after publication |