CN109359191B - 基于强化学习的句子语义编码方法 - Google Patents

基于强化学习的句子语义编码方法 Download PDF

Info

Publication number
CN109359191B
CN109359191B CN201811088153.0A CN201811088153A CN109359191B CN 109359191 B CN109359191 B CN 109359191B CN 201811088153 A CN201811088153 A CN 201811088153A CN 109359191 B CN109359191 B CN 109359191B
Authority
CN
China
Prior art keywords
agent
state
reading
text
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811088153.0A
Other languages
English (en)
Other versions
CN109359191A (zh
Inventor
许文深
潘嵘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201811088153.0A priority Critical patent/CN109359191B/zh
Publication of CN109359191A publication Critical patent/CN109359191A/zh
Application granted granted Critical
Publication of CN109359191B publication Critical patent/CN109359191B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及人工智能、自然语言处理的技术领域,更具体地,涉及基于强化学习的句子语义编码方法。基于强化学习的句子语义编码方法,其中,包括以下步骤,本发明利用强化学习实现类似人类行为的阅读方式,本发明强化学习的功能是定位下一步阅读的文字。本发明的创新性在于引入强化学习网络,学习一个类似人类阅读行为的阅读策略。本发明认为人类在精读文章时,对文本的阅读、处理不是按照无序或者固定的顺序形式,而是加入了跳读、重温等阅读行为,因此将这些行为通过强化学习网络赋予LSTM,使得LSTM能够以更类似人类阅读行为的方式编码文本,将能够使模型具有更好的文本理解能力。

Description

基于强化学习的句子语义编码方法
技术领域
本发明涉及人工智能、自然语言处理的技术领域,更具体地,涉及基于强化学习的句子语义编码方法。
背景技术
语义表示(Semantic Representation)是NLP中的基础任务,因此语句编码(Sentence Embedding)也是NLP中非常重要的研究方向。当前对Sentence Embedding的建模大体可以分为两种,无序模型与顺序模型。无序模型即不利用输入文本中符号的顺序信息,如Joulin等利用bag-of-words模型对文本进行分类,Kim.Y则提出了经典的基于CNN的文本分类架构,CNN最高层的pooling 层抽取特征是无序的,因此认为CNN的建模方式也是无序的。在有序模型中,经典的做法是利用RNN网络如LSTM网络对序列进行顺序建模,如LiuP等提出基于多任务学习的用于文本分类的RNN架构,在此基础上,也有一些基于Attention机制的RNN网络用于文本分类,如Yang Z等在提出了在word-level与sentence-level利用attention机制对输入文本进行分类重要性评估,并取得很好的效果。此外也有一些跳读模型用于文本建模中,如Zhang T等提出了通过利用跳读实现RNN只编码输入文本部分信息进行分类,作者认为输入文本中只有一些是与任务有关的重要词语,只编码这些输入对文本建模有好处,引入其他的文字会产生不必要的噪声。
可以将以上的工作分为无序与顺序两类工作,这些工作在一些领域都取得了很好的表现。类比于人类的阅读方式,无序阅读就像从全局快速匹配、搜索关键词,只要看到某些关键词,就想象文章的主要内容;顺序阅读则是一字不差地依次阅读,这更像是一种课堂“早读”模式,这种阅读方式比较契合文本的序列结构,通常能够较好的利用文本中的序列顺序信息,同时也较好的理解文章,但由于没有重温读过的内容,也有遗忘的可能。通常情况下,无序模型编码比较快,但效果较差;顺序模型编码比较慢,但效果一般比无序方式要好。
发明内容
本发明为克服上述现有技术所述的至少一种缺陷,提供基于强化学习的句子语义编码方法,本发明希望学习一个类似人类阅读行为的LSTM编码文本方式,即LSTM有类似人类的跳读、重温的能力,从而能够对文本有更好的语义编码能力,得到的语义向量更能保留输入文本的大部分语义信息,以便用于NLP其他下游任务。
本发明的技术方案是:基于强化学习的句子语义编码方法,其中,包括以下步骤,本发明利用强化学习实现类似人类行为的阅读方式,本发明强化学习的功能是定位下一步阅读的文字。下面是对Agent的一些介绍:
(1)State:表示当前Agent的状态,其中的状态信息主要是Agent对于当前所处环境、自身状态的认知,例如当前Agent处于输入文本的哪个位置;当前Agent对文本的理解状态,即LSTM网络输出的hidden state;同时Agent定位下个阅读位置应该是在有全局理解文本的基础上,本发明也提供了一个全局文本语义向量Vcontext,我们不要求Vcontext包含输入文本的详细语义,只需模糊的认知,因此快速的CNN是比较好的选择。这个语义向量只是让Agent对文本有整体上的理解,避免未读先跳的情况。因此,Agent的状态输入包括hiddenstate、Vcontext以及当前所处的位置index,其中hidden state、Vcontext可以经过全连接网络得到更强的特征表达能力。之后我们也可以探索更好的状态表达,例如增加前若干步的阅读位置。
(2)Action:Agent的行为,即定位下一个阅读的位置或者停止阅读,基于的信息是State。这里Action对应输入文本的一个位置或者停止阅读的信号,因此对于长度为512的文本,Action空间为0~512,其中0表示停止阅读,1~512表示对应的阅读位置。
(3)Reward:以文本分类为例,没有得到最终的分类结果之前,reward为0,即停止编码得到最终的hidden state用于分类才会出现reward信号。正确分类reward为1,错误分类reward为0。
(4)State Transition Matrix:状态转移,本发明的位置状态转移是确定性的,Agent下个位置就是Agent做出的选择,Vcontext在编码过程中保持不变,如果LSTM参数固定,那么hidden state也是可知的。因此本发明的状态转移比较简单。
与现有技术相比,有益效果是:本发明的创新性在于引入强化学习网络,学习一个类似人类阅读行为的阅读策略。本发明认为人类在精读文章时,对文本的阅读、处理不是按照无序或者固定的顺序形式,而是加入了跳读、重温等阅读行为,因此将这些行为通过强化学习网络赋予LSTM,使得LSTM能够以更类似人类阅读行为的方式编码文本,将能够使模型具有更好的文本理解能力。
附图说明
图1是本发明下游任务以最后一个hidden state输出用于文本分类示意图。
图2是本发明流程模块示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本专利的限制。
基于强化学习的句子语义编码方法,其中,包括以下步骤,本发明利用强化学习实现类似人类行为的阅读方式,本发明强化学习的功能是定位下一步阅读的文字。下面是对Agent的一些介绍:
(1)State:表示当前Agent的状态,其中的状态信息主要是Agent对于当前所处环境、自身状态的认知,例如当前Agent处于输入文本的哪个位置;当前Agent对文本的理解状态,即LSTM网络输出的hidden state;同时Agent定位下个阅读位置应该是在有全局理解文本的基础上,本发明也提供了一个全局文本语义向量Vcontext,我们不要求Vcontext包含输入文本的详细语义,只需模糊的认知,因此快速的CNN是比较好的选择。这个语义向量只是让Agent对文本有整体上的理解,避免未读先跳的情况。因此,Agent的状态输入包括hiddenstate、Vcontext以及当前所处的位置index,其中hidden state、Vcontext可以经过全连接网络得到更强的特征表达能力。之后我们也可以探索更好的状态表达,例如增加前若干步的阅读位置。
(2)Action:Agent的行为,即定位下一个阅读的位置或者停止阅读,基于的信息是State。这里Action对应输入文本的一个位置或者停止阅读的信号,因此对于长度为512的文本,Action空间为0~512,其中0表示停止阅读,1~512表示对应的阅读位置。
(3)Reward:以文本分类为例,没有得到最终的分类结果之前,reward为0,即停止编码得到最终的hidden state用于分类才会出现reward信号。正确分类reward为1,错误分类reward为0。
(4)State Transition Matrix:状态转移,本发明的位置状态转移是确定性的,Agent下个位置就是Agent做出的选择,Vcontext在编码过程中保持不变,如果LSTM参数固定,那么hidden state也是可知的。因此本发明的状态转移比较简单。
附加说明:
(1)采用CNN网络编码得到的Vcontext是为了避免跳读中可能出现的未读先跳,未读先跳是不合理的,没有阅读是无法知道是否能够跳跃过去的。因此我们提供一个能够模糊认知语义的向量,这个语义向量最好是能够保留一些位置信息,如某个位置的文字大体表达什么内容。而CNN不采用pooling措施可以保留一定的位置信息,同时CNN的编码速度很快,因此比较适合我们快速模糊认知文本语义的需求。而Vcontext也有多种利用方式,例如上文提到的直接提供给Agent作为状态的一部分信息;此外也可以用来初始化LSTM的状态,那么可能也可以用来解决未读先跳的问题。
(2)LSTM(及CNN)与强化学习可以分开训练,可能能够避免可能存在的发散问题。可以先用in-domain数据预训练一个LSTM,然后固定LSTM参数训练强化学习网络,或者在训练强化学习网络时也可以对LSTM网络进行微调。
(3)本发明提出的阅读方式一个可能的糟糕情况是,Agent永远不会做出Action 0停止阅读的操作,那么永远都不能结束编码得到语义向量用于下游的任务。一些可能的解决措施是,只允许Agent一定的决策次数,当次数用完之后,LSTM便顺序编码接下来的文本并且将最后一个hidden state作为语义向量;只允许一定的编码次数,当达到一定的次数后便停止编码并且将当前的hidden state作为语义向量。这样的操作可以避免模型处于无限循环之中,同时也能迫使Agent在有限的次数下做出更好的Action。
如图1所示:
下游任务以最后一个hidden state输出用于文本分类为例;
S1: 输入一个文本序列;
S1: agent 每次根据一些状态信息预测下一个编码位置;
S2: LSTM根据agent的action编码下一个位置输入;
S3: 重复S1、S2到编码结束(达到一定的编码长度或者agent做出终止决策);
S4: 拿以上的hidden state输出提供给下游任务,如文本生成、文本分类等,该例拿最后一个hidden state用于文本分类。
如图2所示:
Agent做出决策的输入包括,全局语义向量与上一状态hidden state,agent输入不做限制。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (2)

1.基于强化学习的句子语义编码方法,其特征在于,将跳读重温阅读行为通过强化学习网络赋予LSTM使得LSTM具备跳读重温的能力,
包括以下步骤:S1:输入文本;S2:采用CNN网络对所述文本进行编码得到全局文本语义向量Vcontext,所述Vcontext表示对文本语义的模糊认知;S3:将所述Vcontext作为Agent状态输入,以避免出现未读先跳;S4:Agent根据状态输入信息预测下一个编码位置;Agent状态输入信息包括hidden state、Vcontext以及当前Agent处于输入文本的具体位置index,其中hidden state和Vcontext通过全连接网络来提高特征表达能力;S5:LSTM根据Agent的Action编码下一个位置输入;S6:重复S4和S5直到编码结束;S7:根据LSTM输出的最后一个hiddenstate进行文本分类;
Agent框架包括
(1)State:表示当前Agent的状态信息,该状态信息是Agent对于当前所处环境、自身状态的认知;所述Agent对于当前所处环境包括当前Agent处于输入文本的具体位置index,所述自身状态的认知包括LSTM网络输出的hidden state;
(2)Action:Agent的行为,基于State来定位下一个阅读的位置或者停止阅读;
(3)Reward:文本分类,没有得到最终的分类结果之前,reward为0,在停止编码得到最终的hidden state用于分类时才会出现reward信号;正确分类reward为1,错误分类reward为0;
(4)State Transition Matrix:状态转移,位置状态转移是确定性的,Agent下个位置就是Agent做出的选择,Vcontext在编码过程中保持不变。
2.根据权利要求1所述的基于强化学习的句子语义编码方法,其特征在于:在Action中,Action对应输入文本的一个位置或者停止阅读的信号,对于长度为512的文本,Action空间为0~512,其中0表示停止阅读,1~512表示对应的阅读位置。
CN201811088153.0A 2018-09-18 2018-09-18 基于强化学习的句子语义编码方法 Active CN109359191B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811088153.0A CN109359191B (zh) 2018-09-18 2018-09-18 基于强化学习的句子语义编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811088153.0A CN109359191B (zh) 2018-09-18 2018-09-18 基于强化学习的句子语义编码方法

Publications (2)

Publication Number Publication Date
CN109359191A CN109359191A (zh) 2019-02-19
CN109359191B true CN109359191B (zh) 2021-10-15

Family

ID=65351098

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811088153.0A Active CN109359191B (zh) 2018-09-18 2018-09-18 基于强化学习的句子语义编码方法

Country Status (1)

Country Link
CN (1) CN109359191B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110196909B (zh) * 2019-05-14 2022-05-31 北京来也网络科技有限公司 基于强化学习的文本去噪方法及装置
CN112668306B (zh) * 2020-12-22 2021-07-27 延边大学 一种基于语句甄别识别和强化学习动作设计的语言处理方法和系统
CN114328883B (zh) * 2022-03-08 2022-06-28 恒生电子股份有限公司 一种机器阅读理解的数据处理方法、装置、设备及介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10133729B2 (en) * 2015-08-28 2018-11-20 Microsoft Technology Licensing, Llc Semantically-relevant discovery of solutions
CN108780521B (zh) * 2016-02-04 2023-05-26 渊慧科技有限公司 关联长短期记忆神经网络层
CN108363690A (zh) * 2018-02-08 2018-08-03 北京十三科技有限公司 基于神经网络的对话语义意图预测方法及学习训练方法
CN108415977B (zh) * 2018-02-09 2022-02-15 华南理工大学 一个基于深度神经网络及强化学习的生成式机器阅读理解方法

Also Published As

Publication number Publication date
CN109359191A (zh) 2019-02-19

Similar Documents

Publication Publication Date Title
CN107506414B (zh) 一种基于长短期记忆网络的代码推荐方法
CN110321417B (zh) 一种对话生成方法、系统、可读存储介质及计算机设备
AU2020244577B2 (en) Slot filling with contextual information
CN109359191B (zh) 基于强化学习的句子语义编码方法
Cuayáhuitl et al. Deep reinforcement learning for multi-domain dialogue systems
Pichl et al. Alquist 2.0: Alexa prize socialbot based on sub-dialogue models
CN112559734B (zh) 简报生成方法、装置、电子设备及计算机可读存储介质
CN109726400B (zh) 实体词识别结果评价方法、装置、设备及实体词提取系统
CN111737974B (zh) 一种语句的语义抽象化表示方法及装置
CN113987179A (zh) 基于知识增强和回溯损失的对话情绪识别网络模型、构建方法、电子设备及存储介质
Camilleri et al. Analysing the limitations of deep learning for developmental robotics
Soam et al. Next word prediction using deep learning: A comparative study
CN114528898A (zh) 基于自然语言命令的场景图修改
CN114327483A (zh) 图张量神经网络模型建立方法及源代码语义识别方法
CN116992942B (zh) 自然语言模型优化方法、装置、自然语言模型、设备和介质
Wolff Solutions to problems with deep learning
CN111259673A (zh) 一种基于反馈序列多任务学习的法律判决预测方法及系统
CN115617972B (zh) 一种机器人对话方法、装置、电子设备及存储介质
CN114519353B (zh) 模型的训练方法、情感消息生成方法和装置、设备、介质
CN114626529A (zh) 一种自然语言推理微调方法、系统、装置及存储介质
CN113010662A (zh) 一种层次化会话式机器阅读理解系统和方法
Icarte Reward Machines
Wang et al. Research on Multi-Label Text Classification Based on Multi-Channel CNN and BiLSTM
Soam et al. Sentiment Analysis Using Deep Learning: A Comparative Study
Ammar et al. A Methodology for Hierarchical Classification of Semantic Answer Types of Questions.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant