CN109359191B

CN109359191B - 基于强化学习的句子语义编码方法

Info

Publication number: CN109359191B
Application number: CN201811088153.0A
Authority: CN
Inventors: 许文深; 潘嵘
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-09-18
Filing date: 2018-09-18
Publication date: 2021-10-15
Anticipated expiration: 2038-09-18
Also published as: CN109359191A

Abstract

本发明涉及人工智能、自然语言处理的技术领域，更具体地，涉及基于强化学习的句子语义编码方法。基于强化学习的句子语义编码方法，其中，包括以下步骤，本发明利用强化学习实现类似人类行为的阅读方式，本发明强化学习的功能是定位下一步阅读的文字。本发明的创新性在于引入强化学习网络，学习一个类似人类阅读行为的阅读策略。本发明认为人类在精读文章时，对文本的阅读、处理不是按照无序或者固定的顺序形式，而是加入了跳读、重温等阅读行为，因此将这些行为通过强化学习网络赋予LSTM，使得LSTM能够以更类似人类阅读行为的方式编码文本，将能够使模型具有更好的文本理解能力。

Description

基于强化学习的句子语义编码方法

技术领域

本发明涉及人工智能、自然语言处理的技术领域，更具体地，涉及基于强化学习的句子语义编码方法。

背景技术

语义表示（Semantic Representation）是NLP中的基础任务，因此语句编码（Sentence Embedding）也是NLP中非常重要的研究方向。当前对Sentence Embedding的建模大体可以分为两种，无序模型与顺序模型。无序模型即不利用输入文本中符号的顺序信息，如Joulin等利用bag-of-words模型对文本进行分类，Kim.Y则提出了经典的基于CNN的文本分类架构，CNN最高层的pooling 层抽取特征是无序的，因此认为CNN的建模方式也是无序的。在有序模型中，经典的做法是利用RNN网络如LSTM网络对序列进行顺序建模，如LiuP等提出基于多任务学习的用于文本分类的RNN架构，在此基础上，也有一些基于Attention机制的RNN网络用于文本分类，如Yang Z等在提出了在word-level与sentence-level利用attention机制对输入文本进行分类重要性评估，并取得很好的效果。此外也有一些跳读模型用于文本建模中，如Zhang T等提出了通过利用跳读实现RNN只编码输入文本部分信息进行分类，作者认为输入文本中只有一些是与任务有关的重要词语，只编码这些输入对文本建模有好处，引入其他的文字会产生不必要的噪声。

可以将以上的工作分为无序与顺序两类工作，这些工作在一些领域都取得了很好的表现。类比于人类的阅读方式，无序阅读就像从全局快速匹配、搜索关键词，只要看到某些关键词，就想象文章的主要内容；顺序阅读则是一字不差地依次阅读，这更像是一种课堂“早读”模式，这种阅读方式比较契合文本的序列结构，通常能够较好的利用文本中的序列顺序信息，同时也较好的理解文章，但由于没有重温读过的内容，也有遗忘的可能。通常情况下，无序模型编码比较快，但效果较差；顺序模型编码比较慢，但效果一般比无序方式要好。

发明内容

本发明为克服上述现有技术所述的至少一种缺陷，提供基于强化学习的句子语义编码方法，本发明希望学习一个类似人类阅读行为的LSTM编码文本方式，即LSTM有类似人类的跳读、重温的能力，从而能够对文本有更好的语义编码能力，得到的语义向量更能保留输入文本的大部分语义信息，以便用于NLP其他下游任务。

本发明的技术方案是：基于强化学习的句子语义编码方法，其中，包括以下步骤，本发明利用强化学习实现类似人类行为的阅读方式，本发明强化学习的功能是定位下一步阅读的文字。下面是对Agent的一些介绍：

（1）State：表示当前Agent的状态，其中的状态信息主要是Agent对于当前所处环境、自身状态的认知，例如当前Agent处于输入文本的哪个位置；当前Agent对文本的理解状态，即LSTM网络输出的hidden state；同时Agent定位下个阅读位置应该是在有全局理解文本的基础上，本发明也提供了一个全局文本语义向量V_context，我们不要求V_context包含输入文本的详细语义，只需模糊的认知，因此快速的CNN是比较好的选择。这个语义向量只是让Agent对文本有整体上的理解，避免未读先跳的情况。因此，Agent的状态输入包括hiddenstate、V_context以及当前所处的位置index，其中hidden state、V_context可以经过全连接网络得到更强的特征表达能力。之后我们也可以探索更好的状态表达，例如增加前若干步的阅读位置。

（2）Action：Agent的行为，即定位下一个阅读的位置或者停止阅读，基于的信息是State。这里Action对应输入文本的一个位置或者停止阅读的信号，因此对于长度为512的文本，Action空间为0~512，其中0表示停止阅读，1~512表示对应的阅读位置。

（3）Reward：以文本分类为例，没有得到最终的分类结果之前，reward为0，即停止编码得到最终的hidden state用于分类才会出现reward信号。正确分类reward为1，错误分类reward为0。

（4）State Transition Matrix：状态转移，本发明的位置状态转移是确定性的，Agent下个位置就是Agent做出的选择，V_context在编码过程中保持不变，如果LSTM参数固定，那么hidden state也是可知的。因此本发明的状态转移比较简单。

与现有技术相比，有益效果是：本发明的创新性在于引入强化学习网络，学习一个类似人类阅读行为的阅读策略。本发明认为人类在精读文章时，对文本的阅读、处理不是按照无序或者固定的顺序形式，而是加入了跳读、重温等阅读行为，因此将这些行为通过强化学习网络赋予LSTM，使得LSTM能够以更类似人类阅读行为的方式编码文本，将能够使模型具有更好的文本理解能力。

附图说明

图1是本发明下游任务以最后一个hidden state输出用于文本分类示意图。

图2是本发明流程模块示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明，不能理解为对本专利的限制。

基于强化学习的句子语义编码方法，其中，包括以下步骤，本发明利用强化学习实现类似人类行为的阅读方式，本发明强化学习的功能是定位下一步阅读的文字。下面是对Agent的一些介绍：

附加说明：

（1）采用CNN网络编码得到的V_context是为了避免跳读中可能出现的未读先跳，未读先跳是不合理的，没有阅读是无法知道是否能够跳跃过去的。因此我们提供一个能够模糊认知语义的向量，这个语义向量最好是能够保留一些位置信息，如某个位置的文字大体表达什么内容。而CNN不采用pooling措施可以保留一定的位置信息，同时CNN的编码速度很快，因此比较适合我们快速模糊认知文本语义的需求。而V_context也有多种利用方式，例如上文提到的直接提供给Agent作为状态的一部分信息；此外也可以用来初始化LSTM的状态，那么可能也可以用来解决未读先跳的问题。

（2）LSTM（及CNN）与强化学习可以分开训练，可能能够避免可能存在的发散问题。可以先用in-domain数据预训练一个LSTM，然后固定LSTM参数训练强化学习网络，或者在训练强化学习网络时也可以对LSTM网络进行微调。

（3）本发明提出的阅读方式一个可能的糟糕情况是，Agent永远不会做出Action 0停止阅读的操作，那么永远都不能结束编码得到语义向量用于下游的任务。一些可能的解决措施是，只允许Agent一定的决策次数，当次数用完之后，LSTM便顺序编码接下来的文本并且将最后一个hidden state作为语义向量；只允许一定的编码次数，当达到一定的次数后便停止编码并且将当前的hidden state作为语义向量。这样的操作可以避免模型处于无限循环之中，同时也能迫使Agent在有限的次数下做出更好的Action。

如图1所示：

下游任务以最后一个hidden state输出用于文本分类为例；

S1: 输入一个文本序列；

S1: agent 每次根据一些状态信息预测下一个编码位置；

S2: LSTM根据agent的action编码下一个位置输入；

S3: 重复S1、S2到编码结束（达到一定的编码长度或者agent做出终止决策）；

S4: 拿以上的hidden state输出提供给下游任务，如文本生成、文本分类等，该例拿最后一个hidden state用于文本分类。

如图2所示：

Agent做出决策的输入包括，全局语义向量与上一状态hidden state，agent输入不做限制。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.基于强化学习的句子语义编码方法，其特征在于，将跳读重温阅读行为通过强化学习网络赋予LSTM使得LSTM具备跳读重温的能力，

包括以下步骤：S1：输入文本；S2：采用CNN网络对所述文本进行编码得到全局文本语义向量V_context，所述V_context表示对文本语义的模糊认知；S3：将所述V_context作为Agent状态输入，以避免出现未读先跳；S4：Agent根据状态输入信息预测下一个编码位置；Agent状态输入信息包括hidden state、V_context以及当前Agent处于输入文本的具体位置index，其中hidden state和V_context通过全连接网络来提高特征表达能力；S5：LSTM根据Agent的Action编码下一个位置输入；S6：重复S4和S5直到编码结束；S7：根据LSTM输出的最后一个hiddenstate进行文本分类；

Agent框架包括

(1)State：表示当前Agent的状态信息，该状态信息是Agent对于当前所处环境、自身状态的认知；所述Agent对于当前所处环境包括当前Agent处于输入文本的具体位置index，所述自身状态的认知包括LSTM网络输出的hidden state；

(2)Action：Agent的行为，基于State来定位下一个阅读的位置或者停止阅读；

(3)Reward：文本分类，没有得到最终的分类结果之前，reward为0，在停止编码得到最终的hidden state用于分类时才会出现reward信号；正确分类reward为1，错误分类reward为0；

(4)State Transition Matrix：状态转移，位置状态转移是确定性的，Agent下个位置就是Agent做出的选择，V_context在编码过程中保持不变。

2.根据权利要求1所述的基于强化学习的句子语义编码方法，其特征在于：在Action中，Action对应输入文本的一个位置或者停止阅读的信号，对于长度为512的文本，Action空间为0～512，其中0表示停止阅读，1～512表示对应的阅读位置。