CN112818672A

CN112818672A - 一种基于文本游戏的强化学习情感分析系统

Info

Publication number: CN112818672A
Application number: CN202110103319.7A
Authority: CN
Inventors: 潘晓光; 焦璐璐; 令狐彬; 宋晓晨; 韩丹
Original assignee: Shanxi Sanyouhe Smart Information Technology Co Ltd
Current assignee: Shanxi Sanyouhe Smart Information Technology Co Ltd
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2021-05-18

Abstract

本申请涉及内在激励强化学习领域，特别涉及一种基于文本游戏的强化学习情感分析系统，包括如下模块：表示状态的文本描述模块、情绪分析模块、外部环境模块和LSTM‑DQN模型模块，所述表示状态的文本描述模块用于表示状态的文本描述的输入；所述情绪分析模块用于分析所述表示状态的文本描述中的积极和消极轨迹，生成基于情感的奖励；所述外部环境模块用于给出外部环境的奖励；LSTM‑DQN模型模块用于对所述文本描述的状态表示进行编码，使用环境给出的奖励，并从状态表示中提取基于情感的奖励作为补充；本发明将稀疏性奖励问题转化为稠密性奖励问题，提高强化学习在处理所述问题的性能，实现了无奖励环境下的自发学习，提高了强化学习在基于文本游戏中的表现。

Description

一种基于文本游戏的强化学习情感分析系统

技术领域

本发明涉及内在激励强化学习领域，具体涉及一种基于文本游戏的强化学习情感分析系统。

背景技术

目前虽然强化学习(RL)在自然语言处理(NLP)领域取得了成功，如对话生成和基于文本的游戏，但它通常面临的问题是稀疏奖励，导致收敛速度慢或没有收敛。使用文本描述来提取状态表示的传统方法忽略了其中固有的反馈。

强化学习在处理基于文本游戏时常常面临着奖励稀疏的问题而且强化学习一直依赖于固有奖励在处理本身环境奖励稀疏的问题上存在着处理效果不好的问题。

发明内容

本发明的目的在于提供一种基于文本游戏的强化学习情感分析系统。

为实现上述目的，本发明提供如下技术方案：一种基于文本游戏的强化学习情感分析系统，包括：文本描述模块、情绪分析模块、外部环境模块和LSTM-DQN模型模块；

文本描述模块用于作为表示状态的文本描述的输入模块；表示状态包含积极轨迹和消极轨迹；

情绪分析模块用于分析文本描述模块中的积极轨迹和消极轨迹，生成基于情感的奖励；

外部环境模块用于给出外部环境的奖励；

LSTM-DQN模型模块用于对文本描述模块中文本描述的状态表示进行编码，使用外部环境的奖励，并从状态表示中提取基于情感的奖励作为补充。

进一步的，所述情绪分析模块中，根据文本描述的情绪将游戏轨迹划分为赢或输，学习速率在{1×10-6、1×10-5、2×10-5、1×10-4}之间变化，训练epoch数在500～1500之间变化，最终的模型以2×10-5的学习率训练1500个epoch；其中一个epoch就是遍历一次数据集的次数；

新智能体的奖励公式为：

r_total＝r_env+scale×polarity

其中，情感分析器被假定为二进制分类器，它在[-1，1]之间输出一个连续的分数称为极性，scale为等级，polarity为极性。

进一步的，所述LSTM-DQN模型模块中，采用标准的Q-学习方程进行训练：

LSTM接收作为输入的单词并生成状态表示，然后将其输入到一个计算Q分数的两层神经网络中，其中LSTM为长短期记忆网络，是一种时间循环神经网络；DQN为Deep-QNetwork,融合了神经网络和Q learning的方法。

进一步的，所述表示状态的文本描述模块连接情绪分析模块，表示状态的文本描述模块连接LSTM-DQN模型模块，LSTM-DQN模型模块连接外部环境模块。

本发明的技术效果如下：本发明通过给定状态表示的文本描述，使用LSTM对其状态表示进行编码，并将其输入Deep-Q网络(DQN)，然后使用环境给出的奖励，并从状态表示中提取基于情感的奖励作为补充。通过这种方式，即使智能体中来自环境的奖励是0，也会有其他渠道的奖励供给，这会使基于情感的奖励潜在地、更快地学习。

本方案通过对基于文本游戏中的文字线索做情感分析的方法，将原本的稀疏性奖励问题转化为了稠密性奖励问题，使得强化学习在处理此类问题的性能大大提高，而且通过此框架与内在动机的框架相关性，智能体通过分析环境提供的感觉来奖励自己，并通过其内在激励进一步实现了无奖励环境下的自发学习，提高了强化学习在基于文本游戏中的表现。

附图说明

以下参考附图描述的实施例是示例性的，旨在用于解释和说明本申请，而不能理解为对本申请的保护范围的限制。

图1是本申请公开的主要步骤流程图；

图2是本申请公开的LSTM-DQN模型图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

如图1所示，一种基于文本游戏的强化学习情感分析系统，包括：表示状态的文本描述模块、情绪分析模块、外部环境模块和LSTM-DQN模型模块，

所述文本描述模块用于作为表示状态的文本描述的输入模块；所述表示状态包含积极和消极轨迹；

所述情绪分析模块用于分析所述文本描述模块中的积极轨迹和消极轨迹，生成基于情感的奖励；

所述外部环境模块用于给出外部环境的奖励；

所述LSTM-DQN模型模块用于对所述文本描述模块中文本描述的状态表示进行编码，使用外部环境给出的奖励，并从状态表示中提取基于情感的奖励作为补充。

RL(强化学习)在当前状态面临多个挑战，稀疏奖励就是其中一个。因为它导致了学习缓慢，甚至有时候不收敛。假设一个智能体在一个状态空间很大的环境中学习，只有少数状态会导致奖励。从最左边开始的智能体必须在遇到奖励之前采取大量的行动。反过来，这种稀疏反馈会导致训练神经网络时产生非常嘈杂的梯度。在一些极端的场景中，一个智能体可能需要采取指数级的动作才能到达一个有奖励的子节点。

稀疏的奖励是常见的，因为它们是最直接的方式来指定一个任务需要如何解决。如果一个机器人被期望将水壶里的水倒进玻璃杯里，最简单的方法是，如果它装满了玻璃杯，就给予1的奖励，否则的奖励是0。这种类型的奖励设计在基于文本的游戏中很常见，在这种游戏中，Agent(智能体)在到达目标状态时得到奖励，在面向任务的对话中，Agent根据任务的成功完成而得到奖励。

在本方案中，通过考察基于文本的游戏，可以发现在一定条件下，通过情感分析提供密集的奖励可以提高游戏的性能。

在下一板块的系统流程图中描述了具体的方法流程图。在给定表示状态的文本描述，使用LSTM对其状态表示进行编码，并将其输入Deep-Q Network(DQN)，然后使用环境给出的奖励，并从状态表示中提取基于情感的奖励作为补充。通过这种方式，即使智能体中来自环境的奖励是0，也会有其他渠道的奖励供给，这会使基于情感的奖励潜在地、更快地学习，其中LSTM为Long Short-Term Memory，长短期记忆网络，是一种时间循环神经网络；DQN为Deep-Q Network,融合了神经网络和Q learning的方法。

情绪分析模块：可以假设能获得环境中的积极轨迹和消极轨迹。在环境中运行一个随机代理会产生负轨迹，因为它的成功率很低。为了产生积极的轨迹，则可以使用与游戏相关的演练，这些演练遵循了正确的行动集合来达到目标。

在情绪分析模块对BERT进行微调，根据文本描述的情绪将游戏轨迹划分为赢或输。学习速率在{1×10-6、1×10-5、2×10-5、1×10-4}之间变化，训练epoch(一个epoch就是遍历一次数据集的次数)数在500～1500之间变化。最终的模型以2×10-5的学习率训练1500个epoch。

新智能体的奖励公式为：

r_total＝r_env+scale×polarity

其中，情感分析器被假定为二进制分类器，它在[-1，1]之间输出一个连续的分数，称为极性。scale为等级，polarity为极性。

在本方案的实现中使用了不同模型。智能体使用的是LSTM-DQN。在LSTM-DQN模型模块中，该模型采用标准的Q-学习方程进行训练。

LSTM接收作为输入的单词并生成状态表示，这是LSTM的所有最终输出的平均值。然后将其输入到一个计算Q分数的两层神经网络中。

如图2所示，由于实验中的修改改变了环境，这些修改可以应用于任何方法。

LSTM-DQN模型根据文本描述的情绪将游戏轨迹划分为赢或输。通过检验基于文本世界轨迹训练的模型的情绪得分与轨迹成功与否之间的相关性，轨迹中平均的积极情绪与成功之间存在显著而相对强的相关性。

本方案中的框架与内在动机的框架有关，在这个框架中，智能体通过分析环境提供的感觉来奖励自己。在内在激励强化学习(IMRL)中，主体将奖励机制内在化，因为相同的感觉可以为不同的主体诱导不同的奖励。正如一个团队的胜利会让一个人感到高兴或悲伤，这取决于这个人的内部奖励机制，智能体也应该能够单独利用环境提供的感觉来推断自己的奖励。由于方案中的模型有一个可以内化到模型中的情绪分析引擎，所以此方法可以被认为是一种形式的IMRL。

本发明将稀疏性奖励问题转化为稠密性奖励问题，提高强化学习在处理所述问题的性能，实现了无奖励环境下的自发学习，提高了强化学习在基于文本游戏中的表现。

上面仅对本发明的较佳实施例作了详细说明，但是本发明并不限于上述实施例，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化，各种变化均应包含在本发明的保护范围之内。

Claims

1.一种基于文本游戏的强化学习情感分析系统，其特征在于，包括：文本描述模块、情绪分析模块、外部环境模块和LSTM-DQN模型模块；

外部环境模块用于给出外部环境的奖励；

2.根据权利要求1所述的一种基于文本游戏的强化学习情感分析系统，其特征在于，所述情绪分析模块中，根据文本描述的情绪将游戏轨迹划分为赢或输，学习速率在{1×10-6、1×10-5、2×10-5、1×10-4}之间变化，训练epoch数在500～1500之间变化，最终的模型以2×10-5的学习率训练1500个epoch；其中一个epoch就是遍历一次数据集的次数；

新智能体的奖励公式为：

r_total＝r_env+scale×polarity

3.根据权利要求1所述的一种基于文本游戏的强化学习情感分析系统，其特征在于，所述LSTM-DQN模型模块中，采用标准的Q-学习方程进行训练：

LSTM接收作为输入的单词并生成状态表示，然后将其输入到一个计算Q分数的两层神经网络中，其中LSTM为长短期记忆网络，是一种时间循环神经网络；DQN为Deep-Q Network,融合了神经网络和Q learning的方法。

4.根据权利要求1所述的一种基于文本游戏的强化学习情感分析系统，其特征在于，文本描述模块连接情绪分析模块，文本描述模块连接LSTM-DQN模型模块，LSTM-DQN模型模块连接外部环境模块。