CN109359191B - 基于强化学习的句子语义编码方法 - Google Patents
基于强化学习的句子语义编码方法 Download PDFInfo
- Publication number
- CN109359191B CN109359191B CN201811088153.0A CN201811088153A CN109359191B CN 109359191 B CN109359191 B CN 109359191B CN 201811088153 A CN201811088153 A CN 201811088153A CN 109359191 B CN109359191 B CN 109359191B
- Authority
- CN
- China
- Prior art keywords
- agent
- state
- reading
- text
- reinforcement learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及人工智能、自然语言处理的技术领域,更具体地,涉及基于强化学习的句子语义编码方法。基于强化学习的句子语义编码方法,其中,包括以下步骤,本发明利用强化学习实现类似人类行为的阅读方式,本发明强化学习的功能是定位下一步阅读的文字。本发明的创新性在于引入强化学习网络,学习一个类似人类阅读行为的阅读策略。本发明认为人类在精读文章时,对文本的阅读、处理不是按照无序或者固定的顺序形式,而是加入了跳读、重温等阅读行为,因此将这些行为通过强化学习网络赋予LSTM,使得LSTM能够以更类似人类阅读行为的方式编码文本,将能够使模型具有更好的文本理解能力。
Description
技术领域
本发明涉及人工智能、自然语言处理的技术领域,更具体地,涉及基于强化学习的句子语义编码方法。
背景技术
语义表示(Semantic Representation)是NLP中的基础任务,因此语句编码(Sentence Embedding)也是NLP中非常重要的研究方向。当前对Sentence Embedding的建模大体可以分为两种,无序模型与顺序模型。无序模型即不利用输入文本中符号的顺序信息,如Joulin等利用bag-of-words模型对文本进行分类,Kim.Y则提出了经典的基于CNN的文本分类架构,CNN最高层的pooling 层抽取特征是无序的,因此认为CNN的建模方式也是无序的。在有序模型中,经典的做法是利用RNN网络如LSTM网络对序列进行顺序建模,如LiuP等提出基于多任务学习的用于文本分类的RNN架构,在此基础上,也有一些基于Attention机制的RNN网络用于文本分类,如Yang Z等在提出了在word-level与sentence-level利用attention机制对输入文本进行分类重要性评估,并取得很好的效果。此外也有一些跳读模型用于文本建模中,如Zhang T等提出了通过利用跳读实现RNN只编码输入文本部分信息进行分类,作者认为输入文本中只有一些是与任务有关的重要词语,只编码这些输入对文本建模有好处,引入其他的文字会产生不必要的噪声。
可以将以上的工作分为无序与顺序两类工作,这些工作在一些领域都取得了很好的表现。类比于人类的阅读方式,无序阅读就像从全局快速匹配、搜索关键词,只要看到某些关键词,就想象文章的主要内容;顺序阅读则是一字不差地依次阅读,这更像是一种课堂“早读”模式,这种阅读方式比较契合文本的序列结构,通常能够较好的利用文本中的序列顺序信息,同时也较好的理解文章,但由于没有重温读过的内容,也有遗忘的可能。通常情况下,无序模型编码比较快,但效果较差;顺序模型编码比较慢,但效果一般比无序方式要好。
发明内容
本发明为克服上述现有技术所述的至少一种缺陷,提供基于强化学习的句子语义编码方法,本发明希望学习一个类似人类阅读行为的LSTM编码文本方式,即LSTM有类似人类的跳读、重温的能力,从而能够对文本有更好的语义编码能力,得到的语义向量更能保留输入文本的大部分语义信息,以便用于NLP其他下游任务。
本发明的技术方案是:基于强化学习的句子语义编码方法,其中,包括以下步骤,本发明利用强化学习实现类似人类行为的阅读方式,本发明强化学习的功能是定位下一步阅读的文字。下面是对Agent的一些介绍:
(1)State:表示当前Agent的状态,其中的状态信息主要是Agent对于当前所处环境、自身状态的认知,例如当前Agent处于输入文本的哪个位置;当前Agent对文本的理解状态,即LSTM网络输出的hidden state;同时Agent定位下个阅读位置应该是在有全局理解文本的基础上,本发明也提供了一个全局文本语义向量Vcontext,我们不要求Vcontext包含输入文本的详细语义,只需模糊的认知,因此快速的CNN是比较好的选择。这个语义向量只是让Agent对文本有整体上的理解,避免未读先跳的情况。因此,Agent的状态输入包括hiddenstate、Vcontext以及当前所处的位置index,其中hidden state、Vcontext可以经过全连接网络得到更强的特征表达能力。之后我们也可以探索更好的状态表达,例如增加前若干步的阅读位置。
(2)Action:Agent的行为,即定位下一个阅读的位置或者停止阅读,基于的信息是State。这里Action对应输入文本的一个位置或者停止阅读的信号,因此对于长度为512的文本,Action空间为0~512,其中0表示停止阅读,1~512表示对应的阅读位置。
(3)Reward:以文本分类为例,没有得到最终的分类结果之前,reward为0,即停止编码得到最终的hidden state用于分类才会出现reward信号。正确分类reward为1,错误分类reward为0。
(4)State Transition Matrix:状态转移,本发明的位置状态转移是确定性的,Agent下个位置就是Agent做出的选择,Vcontext在编码过程中保持不变,如果LSTM参数固定,那么hidden state也是可知的。因此本发明的状态转移比较简单。
与现有技术相比,有益效果是:本发明的创新性在于引入强化学习网络,学习一个类似人类阅读行为的阅读策略。本发明认为人类在精读文章时,对文本的阅读、处理不是按照无序或者固定的顺序形式,而是加入了跳读、重温等阅读行为,因此将这些行为通过强化学习网络赋予LSTM,使得LSTM能够以更类似人类阅读行为的方式编码文本,将能够使模型具有更好的文本理解能力。
附图说明
图1是本发明下游任务以最后一个hidden state输出用于文本分类示意图。
图2是本发明流程模块示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本专利的限制。
基于强化学习的句子语义编码方法,其中,包括以下步骤,本发明利用强化学习实现类似人类行为的阅读方式,本发明强化学习的功能是定位下一步阅读的文字。下面是对Agent的一些介绍:
(1)State:表示当前Agent的状态,其中的状态信息主要是Agent对于当前所处环境、自身状态的认知,例如当前Agent处于输入文本的哪个位置;当前Agent对文本的理解状态,即LSTM网络输出的hidden state;同时Agent定位下个阅读位置应该是在有全局理解文本的基础上,本发明也提供了一个全局文本语义向量Vcontext,我们不要求Vcontext包含输入文本的详细语义,只需模糊的认知,因此快速的CNN是比较好的选择。这个语义向量只是让Agent对文本有整体上的理解,避免未读先跳的情况。因此,Agent的状态输入包括hiddenstate、Vcontext以及当前所处的位置index,其中hidden state、Vcontext可以经过全连接网络得到更强的特征表达能力。之后我们也可以探索更好的状态表达,例如增加前若干步的阅读位置。
(2)Action:Agent的行为,即定位下一个阅读的位置或者停止阅读,基于的信息是State。这里Action对应输入文本的一个位置或者停止阅读的信号,因此对于长度为512的文本,Action空间为0~512,其中0表示停止阅读,1~512表示对应的阅读位置。
(3)Reward:以文本分类为例,没有得到最终的分类结果之前,reward为0,即停止编码得到最终的hidden state用于分类才会出现reward信号。正确分类reward为1,错误分类reward为0。
(4)State Transition Matrix:状态转移,本发明的位置状态转移是确定性的,Agent下个位置就是Agent做出的选择,Vcontext在编码过程中保持不变,如果LSTM参数固定,那么hidden state也是可知的。因此本发明的状态转移比较简单。
附加说明:
(1)采用CNN网络编码得到的Vcontext是为了避免跳读中可能出现的未读先跳,未读先跳是不合理的,没有阅读是无法知道是否能够跳跃过去的。因此我们提供一个能够模糊认知语义的向量,这个语义向量最好是能够保留一些位置信息,如某个位置的文字大体表达什么内容。而CNN不采用pooling措施可以保留一定的位置信息,同时CNN的编码速度很快,因此比较适合我们快速模糊认知文本语义的需求。而Vcontext也有多种利用方式,例如上文提到的直接提供给Agent作为状态的一部分信息;此外也可以用来初始化LSTM的状态,那么可能也可以用来解决未读先跳的问题。
(2)LSTM(及CNN)与强化学习可以分开训练,可能能够避免可能存在的发散问题。可以先用in-domain数据预训练一个LSTM,然后固定LSTM参数训练强化学习网络,或者在训练强化学习网络时也可以对LSTM网络进行微调。
(3)本发明提出的阅读方式一个可能的糟糕情况是,Agent永远不会做出Action 0停止阅读的操作,那么永远都不能结束编码得到语义向量用于下游的任务。一些可能的解决措施是,只允许Agent一定的决策次数,当次数用完之后,LSTM便顺序编码接下来的文本并且将最后一个hidden state作为语义向量;只允许一定的编码次数,当达到一定的次数后便停止编码并且将当前的hidden state作为语义向量。这样的操作可以避免模型处于无限循环之中,同时也能迫使Agent在有限的次数下做出更好的Action。
如图1所示:
下游任务以最后一个hidden state输出用于文本分类为例;
S1: 输入一个文本序列;
S1: agent 每次根据一些状态信息预测下一个编码位置;
S2: LSTM根据agent的action编码下一个位置输入;
S3: 重复S1、S2到编码结束(达到一定的编码长度或者agent做出终止决策);
S4: 拿以上的hidden state输出提供给下游任务,如文本生成、文本分类等,该例拿最后一个hidden state用于文本分类。
如图2所示:
Agent做出决策的输入包括,全局语义向量与上一状态hidden state,agent输入不做限制。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (2)
1.基于强化学习的句子语义编码方法,其特征在于,将跳读重温阅读行为通过强化学习网络赋予LSTM使得LSTM具备跳读重温的能力,
包括以下步骤:S1:输入文本;S2:采用CNN网络对所述文本进行编码得到全局文本语义向量Vcontext,所述Vcontext表示对文本语义的模糊认知;S3:将所述Vcontext作为Agent状态输入,以避免出现未读先跳;S4:Agent根据状态输入信息预测下一个编码位置;Agent状态输入信息包括hidden state、Vcontext以及当前Agent处于输入文本的具体位置index,其中hidden state和Vcontext通过全连接网络来提高特征表达能力;S5:LSTM根据Agent的Action编码下一个位置输入;S6:重复S4和S5直到编码结束;S7:根据LSTM输出的最后一个hiddenstate进行文本分类;
Agent框架包括
(1)State:表示当前Agent的状态信息,该状态信息是Agent对于当前所处环境、自身状态的认知;所述Agent对于当前所处环境包括当前Agent处于输入文本的具体位置index,所述自身状态的认知包括LSTM网络输出的hidden state;
(2)Action:Agent的行为,基于State来定位下一个阅读的位置或者停止阅读;
(3)Reward:文本分类,没有得到最终的分类结果之前,reward为0,在停止编码得到最终的hidden state用于分类时才会出现reward信号;正确分类reward为1,错误分类reward为0;
(4)State Transition Matrix:状态转移,位置状态转移是确定性的,Agent下个位置就是Agent做出的选择,Vcontext在编码过程中保持不变。
2.根据权利要求1所述的基于强化学习的句子语义编码方法,其特征在于:在Action中,Action对应输入文本的一个位置或者停止阅读的信号,对于长度为512的文本,Action空间为0~512,其中0表示停止阅读,1~512表示对应的阅读位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811088153.0A CN109359191B (zh) | 2018-09-18 | 2018-09-18 | 基于强化学习的句子语义编码方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811088153.0A CN109359191B (zh) | 2018-09-18 | 2018-09-18 | 基于强化学习的句子语义编码方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109359191A CN109359191A (zh) | 2019-02-19 |
CN109359191B true CN109359191B (zh) | 2021-10-15 |
Family
ID=65351098
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811088153.0A Active CN109359191B (zh) | 2018-09-18 | 2018-09-18 | 基于强化学习的句子语义编码方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109359191B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110196909B (zh) * | 2019-05-14 | 2022-05-31 | 北京来也网络科技有限公司 | 基于强化学习的文本去噪方法及装置 |
CN112668306B (zh) * | 2020-12-22 | 2021-07-27 | 延边大学 | 一种基于语句甄别识别和强化学习动作设计的语言处理方法和系统 |
CN114328883B (zh) * | 2022-03-08 | 2022-06-28 | 恒生电子股份有限公司 | 一种机器阅读理解的数据处理方法、装置、设备及介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10133729B2 (en) * | 2015-08-28 | 2018-11-20 | Microsoft Technology Licensing, Llc | Semantically-relevant discovery of solutions |
CN108780521B (zh) * | 2016-02-04 | 2023-05-26 | 渊慧科技有限公司 | 关联长短期记忆神经网络层 |
CN108363690A (zh) * | 2018-02-08 | 2018-08-03 | 北京十三科技有限公司 | 基于神经网络的对话语义意图预测方法及学习训练方法 |
CN108415977B (zh) * | 2018-02-09 | 2022-02-15 | 华南理工大学 | 一个基于深度神经网络及强化学习的生成式机器阅读理解方法 |
-
2018
- 2018-09-18 CN CN201811088153.0A patent/CN109359191B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109359191A (zh) | 2019-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107506414B (zh) | 一种基于长短期记忆网络的代码推荐方法 | |
CN110321417B (zh) | 一种对话生成方法、系统、可读存储介质及计算机设备 | |
AU2020244577B2 (en) | Slot filling with contextual information | |
CN109359191B (zh) | 基于强化学习的句子语义编码方法 | |
Cuayáhuitl et al. | Deep reinforcement learning for multi-domain dialogue systems | |
Pichl et al. | Alquist 2.0: Alexa prize socialbot based on sub-dialogue models | |
CN112559734B (zh) | 简报生成方法、装置、电子设备及计算机可读存储介质 | |
CN109726400B (zh) | 实体词识别结果评价方法、装置、设备及实体词提取系统 | |
CN111737974B (zh) | 一种语句的语义抽象化表示方法及装置 | |
CN113987179A (zh) | 基于知识增强和回溯损失的对话情绪识别网络模型、构建方法、电子设备及存储介质 | |
Camilleri et al. | Analysing the limitations of deep learning for developmental robotics | |
Soam et al. | Next word prediction using deep learning: A comparative study | |
CN114528898A (zh) | 基于自然语言命令的场景图修改 | |
CN114327483A (zh) | 图张量神经网络模型建立方法及源代码语义识别方法 | |
CN116992942B (zh) | 自然语言模型优化方法、装置、自然语言模型、设备和介质 | |
Wolff | Solutions to problems with deep learning | |
CN111259673A (zh) | 一种基于反馈序列多任务学习的法律判决预测方法及系统 | |
CN115617972B (zh) | 一种机器人对话方法、装置、电子设备及存储介质 | |
CN114519353B (zh) | 模型的训练方法、情感消息生成方法和装置、设备、介质 | |
CN114626529A (zh) | 一种自然语言推理微调方法、系统、装置及存储介质 | |
CN113010662A (zh) | 一种层次化会话式机器阅读理解系统和方法 | |
Icarte | Reward Machines | |
Wang et al. | Research on Multi-Label Text Classification Based on Multi-Channel CNN and BiLSTM | |
Soam et al. | Sentiment Analysis Using Deep Learning: A Comparative Study | |
Ammar et al. | A Methodology for Hierarchical Classification of Semantic Answer Types of Questions. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |