CN112668306B

CN112668306B - 一种基于语句甄别识别和强化学习动作设计的语言处理方法和系统

Info

Publication number: CN112668306B
Application number: CN202011523142.8A
Authority: CN
Inventors: 赵亚慧; 杨飞扬; 崔荣一; 金晶; 李飞雨; 姜克鑫; 高君龙; 崔东虎
Original assignee: Yanbian University
Current assignee: Yanbian University
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2021-07-27
Anticipated expiration: 2040-12-22
Also published as: CN112668306A

Abstract

本申请公开了一种基于语句甄别识别和强化学习动作设计的语言处理方法和系统，包括构建核心结构网络、语句结构化优化分类处理和最优化文本结构采样判定。本发明提出了识别重要单词的语句强化学习动作设计模块，与识别重要结构的设计模块来构建结构化表示。引入注意力机制后能够更好的覆盖到短语的关注度，注意力机制能够辅助强化学习更快地拟合，可以提升学习效率。

Description

一种基于语句甄别识别和强化学习动作设计的语言处理方法和系统

技术领域

本申请涉及语言处理技术领域，具体而言，涉及一种基于语句甄别识别和强化学习动作设计的语言处理方法和系统。

背景技术

主要研究集中在面向自然语言处理的语言学研究方面，主要包括朝文文字的构成特点和形态特征、句法结构特点和构造规则及语义表达形式等，同时也对机器翻译、信息检索等技术有所涉及。

近年来语言文本的语料库语言学发展迅速，并且依据相关理论知识构建了生语料库、标记语料库，进而通过语料库获得形态知识、词性知识、句法知识和语义知识。

国内语言文本语正音正字法及相关语言文本语言文字规范制定科学合理的语言文本文信息。在语料库加工和规范方面，首先进行了总体规划，制定了统一的数据格式和编码标准，并根据中国语言文本语的特点开发了词性自动标注系统，实现了文本语料库的词性标注加工。从自主创新的角度来看，掌握相关信息技术的自主知识产权不仅符合我们国家未来的政治、军事战略，并且利用这些技术可以有效地推动相关产业的发展，进而创造出巨大的经济效益。因此，我们有必要加大对这方面研究探索的投入，大力推进我国语言文本语信息处理建设，争取用最短的时间达到并赶超世界水平。

对语言文本语自然语言处理的研究当前停留在使用词袋模块或传统神经网络的序列模块方式进行文本分类，算法的单纯叠加，或只在词嵌入的角度优化，并不能对语言文本语言文字资源进行有效的管理、挖掘与利用，无法满足语言文本语言文字信息化和智能化处理的需求。

在文本结构化的方面，在少数民族语言信息处理领域，目前并没有对语言文本语进行表征学习的研究，本发明给出了解决语言文本语数据处理的一种基于语句甄别识别和强化学习动作设计的语言处理方法和系统新的处理方式，此方法适用于大多数后续的下游任务，在文本分类、情感分析、情绪转换、问答系统、推荐系统等等领域具有进一步深入研究和应用的价值。

此外，国内在语言文本语自然语言处理研究方面还属于发展阶段，相关研究相对于韩国乃至语言文本还比较滞后，语言文本语语言资源建设方面还没有统一的规划和布局，没有相关的系列标准，使得各家的资源很难融合，这就限制了相关研究的进一步深化。在语言文本语信息处理领域，韩国的许多研究都要比中国领先，从知识产权及夺取信息优势的角度来看，语言文本语属于尚未深入研究的少数民族语言。

因此，如何在没有显式结构注释的情况下有效地发现语言文本语句子的结构是目前亟需解决的技术问题。

发明内容

本申请的主要目的在于提供一种基于语句甄别识别和强化学习动作设计的语言处理方法和系统，以解决目前的问题。

为了实现上述目的，本申请提供了如下技术：

本发明第一方面在于提出一种基于语句甄别识别和强化学习动作设计的语言处理方法，包括如下步骤，

S1、构建核心结构网络：基于强化学习模块而构建核心结构网络，通过所述核心结构网络而使得预处理文本结构生成动作序列；所述核心结构网络包括为：策略梯度网络、结构化表示模块和分类网络；

S2、语句结构化优化分类处理：对所述预处理文本结构进行关键词提取，利用关键词将生成的所述动作序列结构化处理，输入所述核心结构网络进行迭代而获取最优化文本结构；

S3、最优化文本结构采样判定：基于预处理文本结构的层次结构，于最优化文本结构每一处单词设定判定动作并进行采样，采样后更新文本结构而再次迭代，输出分类文本结构。

优选地，在步骤S1中，所述通过所述核心结构网络而使得预处理文本结构生成动作序列，包括：

所述策略梯度网络采取随机策略对每个状态对应的动作进行抽样，为当前句子生成一个动作序列；

所述结构化表示模块将动作序列转化为结构化表示；

所述分类网络基于得到的结构化表示进行分类，并为策略梯度网络提供函数计算。

优选地，在步骤S2中，所述对所述预处理文本结构进行关键词提取，利用关键词将生成的所述动作序列结构化处理，输入所述核心结构网络进行迭代而获取最优化文本结构，具体包括：

在预处理文本结构中选择一处核心语句作为核心文本词句；

将核心文本词句传入策略梯度网络，通过所述核心结构网络生成动作序列，将获取到的动作序列传入结构化表示表示模块，构建新的文本表示结构；

将更新的文本表示结构传入分类网络，得到优化结构后的分类准确率，使模块反复迭代至最优。

优选地，在步骤S1中，在所述对所述预处理文本结构进行关键词提取后，还包括文本结构词句甄别识别，具体为：

对所述预处理文本结构进行关联识别，识别与任务相关的中心单词，提取所述中心单词而作为关键词；

利用所述关键词将生成的所述动作序列结构化处理。

优选地，在步骤S3中，所述于最优化文本结构每一处单词设定判定动作并进行采样时，需要进行语句强化学习动作设计，具体为：

基于注意力机制而使得短语结构以形成分层的句子表示，将动作转化为句子的层次结构表示，构成新划分的结构或片段；

通过对每个单词位置设置相应的判定动作实现采样，判断单词在短语结构的内部还是结尾。

本发明第二方面在于提出一种基于语句甄别识别和强化学习动作设计的语言处理系统，包括核心结构网络构建模块、语句结构化优化分类处理模块和最优化文本结构采样判定模块，其中，

所述核心结构网络构建模块：用于基于强化学习模块而构建核心结构网络，通过所述核心结构网络而使得预处理文本结构生成动作序列；所述核心结构网络包括为：策略梯度网络模块、结构化表示模块和分类网络；

所述语句结构化优化分类处理模块：用于对所述预处理文本结构进行关键词提取，利用关键词将生成的所述动作序列结构化处理，输入所述核心结构网络进行迭代而获取最优化文本结构；

所述最优化文本结构采样判定模块：用于基于预处理文本结构的层次结构，于最优化文本结构每一处单词设定判定动作并进行采样，采样后更新文本结构而再次迭代，输出分类文本结构。

优选地，所述核心结构网络构建模块包括：

动作序列生成模块：用于通过所述策略梯度网络采取随机策略对每个状态对应的动作进行抽样，为当前句子生成一个动作序列；

结构化表示模块：用于通过所述结构化表示模块将动作序列转化为结构化表示；

结构化分类模块：用于通过所述分类网络基于得到的结构化表示进行分类，并为策略梯度网络提供函数计算。

优选地，所述语句结构化优化分类处理模块包括：

核心文本词句提取模块：用于在预处理文本结构中选择一处核心语句作为核心文本词句；

新文本结构构建模块：用于将核心文本词句传入策略梯度网络，通过所述核心结构网络生成动作序列，将获取到的动作序列传入结构化表示表示模块，构建新的文本表示结构；

迭代优化模块：用于将更新的文本表示结构传入分类网络，得到优化结构后的分类准确率，使模块反复迭代至最优。

优选地，所述核心结构网络构建模块还包括文本结构词句甄别识别模块：

所述文本结构词句甄别识别模块：用于

对所述预处理文本结构进行关联识别，识别与任务相关的中心单词，提取所述中心单词而作为关键词；以及

用于利用所述关键词将生成的所述动作序列结构化处理。

优选地，所述最优化文本结构采样判定模块包括语句强化学习动作设计模块：

所述语句强化学习动作设计模块：用于

基于注意力机制而使得短语结构以形成分层的句子表示，将动作转化为句子的层次结构表示，构成新划分的结构或片段；以及

与现有技术相比较，本申请能够带来如下技术效果：

1、本发明将注意力机制与深度强化学习相结合，通过发现任务相关结构来学习语言文本句子表示；提出了两种表示模块：文本结构词句甄别识别模块，用其识别与任务相关的单词以提炼的句子表示；语句强化学习动作设计模块模块，用于发现短语结构以形成分层的句子表示；

强化学习依据语言文本文本分类的准确率作为奖励，对动作序列进行优化，而动作序列可以生成更适合分类的文本结构表示。在动作序列生成的过程中引入了注意力机制，不仅弥补了强化学习方法方差过大、难以拟合的劣势，还弥补了只使用注意力机制过于依赖打分函数的效果，做到既具有顾及全局的优势，又能识别出更重要的句子成分；

另一方面也提升了分类任务的准确率。在语言文本文本上的实验表明，本发明所提出的两种模块能够在没有显式结构注释的情况下有效地发现语言文本句子的结构；

2、本技术的主要出发点是通过提取重要的单词，并删除句中不相关的单词来建立句子的结构化表示。因为语言文本本身与中英文不同，其中大量虚词是构成单词的重要部分，许多停用词往往会构成特殊的短语结构，梳理前后文逻辑关系，删去部分虚词会影响语言文本文本本身的含义，造成语言内容、语义信息的丢失，故在处理语言文本文本时并不需要剔除停用词，用甄别句子中重要单词的方式将句子浓缩并突出重点，以提升分类任务的效果；

3、本发明提出了层次结构的语句强化学习动作设计模块，通过发现句子中的层次结构来构建结构化表示。引入注意力机制后能够更好的覆盖到短语的关注度，注意力机制能够辅助强化学习更快地拟合，不但可以提升学习效率的，而且随机策略梯度下降在短语连接方式的关注度受到改变后，能够更容易获取到连接更合理的短语结构，从而起到优化整体模块的作用。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本发明基于语句甄别识别和强化学习动作设计的语言处理方法的实施流程示意图；

图2是本发明基于语句甄别识别和强化学习动作设计的语言处理系统的组成结构示意图；

图3是本发明图2中核心结构网络构建模块的另一实施组成示意图；

图4是本发明采用了文本结构词句甄别识别模块和语句强化学习动作设计模块模块后的识别正确率对比表。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。

并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本申请中的具体含义。

另外，术语“多个”的含义应为两个以及两个以上。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

实施例1

本发明提出了层次结构的语句强化学习动作设计模块，通过发现句子中的层次结构来构建结构化表示。

如附图1所示，本发明第一方面在于提出一种基于语句甄别识别和强化学习动作设计的语言处理方法，包括如下步骤，

预处理文本结构为待处理的需要优化分类的语句，核心结构网络使得预处理文本结构生成动作序列。

基于强化学习模块构建核心结构网络，核心结构网络包括为：策略梯度网络、结构化表示模块、分类网络，其中策略梯度网络采取随机策略对每个状态对应的动作进行抽样，一直采样直至句尾，为当前句子生成一个动作序列，然后结构化表示模块将动作序列转化为结构化表示；

分类网络基于得到的结构化表示进行分类，并为策略梯度网络提供reward函数计算，由于一个完整的结构化表示给出后就可以计算当前结构化表示的reward，因此可以通过Policy Gradient方法求解此过程。

语句结构化优化分类主要在于构建新的结构表示，将更新的结构表示传入分类网络，得到优化结构后的分类准确率，从而使模块反复迭代至最优。

可以对预处理文本结构通过提取重要的关键词，考虑将策略梯度网络传递来的动作序列转化为句子结构化表示；

通过提取重要的关键词的思路，考虑将策略梯度网络传递来的动作序列转化为句子结构化表示，给定一个句子X形如X＝x₁x₂…x_L，将句子X传入策略梯度网络后，单词位置xi上对应的每个动作ai是从保留当前单词或删除当前单词中选择，获取到的动作序列传入结构表示模块，构建新的结构表示，将更新的结构表示传入分类网络，得到优化结构后的分类准确率，从而使模块反复迭代至最优。

通过发现句子中的层次结构构建结构化表示的思路，考虑在每个单词位置对应设定一个判定动作并进行采样，其中两个动作分别为：认为单词在短语内部；认为单词是短语的结尾。

将动作转化为句子的层次结构表示，构成新划分的结构或片段，将单词连成短语，以短语为单元形成一个句子的表示，将更新的结构表示传入分类网络，得到优化结构后的分类准确率，在文本分类得到改善的同时，结构化表示也得到优化，二者相互促进，彼增此涨。

分类文本结构在发现如果可以接近人类的标注时，则可以在许多方面节省大量人力与时间成本，作为下游信息处理可以编制大量内容，覆盖范围涵盖多种语言文本信息处理领域。

所述结构化表示模块将动作序列转化为结构化表示；

在预处理文本结构中选择一处核心语句作为核心文本词句；

本技术的主要出发点是通过提取重要的单词，并删除句中不相关的单词来建立句子的结构化表示。

本技术设定了文本结构词句甄别识别和语句强化学习动作设计两个优化步骤来实现语句提炼，获取具备关键词的词组。

利用所述关键词将生成的所述动作序列结构化处理。

因为语言文本本身与中英文不同，其中大量虚词是构成单词的重要部分，许多停用词往往会构成特殊的短语结构，梳理前后文逻辑关系，删去部分虚词会影响语言文本文本本身的含义，造成语言内容、语义信息的丢失，故在处理语言文本文本时并不需要剔除停用词，用甄别句子中重要单词的方式将句子浓缩并突出重点，对所述预处理文本结构进行关联识别，识别与任务相关的中心单词，提取所述中心单词而作为关键词；

利用所述关键词将生成的所述动作序列结构化处理，以提升分类任务的效果。

引入注意力机制后能够更好的覆盖到短语的关注度，注意力机制能够辅助强化学习更快地拟合，不但可以提升学习效率的，而且随机策略梯度下降在短语连接方式的关注度受到改变后，能够更容易获取到连接更合理的短语结构，从而起到优化整体模块的作用。

语句强化学习动作设计模块，通过发现句子中的层次结构来构建结构化表示。

语句强化学习动作设计模块将动作转化为句子的层次结构表示，构成新划分的结构或片段。在语句强化学习动作设计模块中，有两级结构：短语结构，连接单词序列形成一个短语表示；句子结构，连接短语形成一个句子表示。通过对每个单词位置设置相应的判定动作实现采样，即判断单词在短语结构的内部还是结尾。

短语结构的转换取决于动作at-1，如果动作at-1是认为当前位置在短语末尾，则位置t处的单词为下一个短语的开头，其他情况则认为当前位置在短语中间。在此基础上连接前项的状态，短语结构从初始化状态开始，从短语到句子结构的过渡取决于当前位置的动作at，当at为End时，短语在位置t结束，表示短语已构建完成。短语结构的隐状态将传递到句子结构，其他情况则认为采用Inside操作，在此操作中固定句子结构，并从前项复制变量。

在切分语言文本句子时利用reward(分类准确率、句子长度与短语长度比值)控制切分的大小，切割出的每个部分为语言文本词组或句子的断句处，无需人工显式标注也可以获取划分短语断句的句子结构。在训练分类网络时，采用交叉熵损失函数。

首先对结构化模块与分类网络进行训练，然后再引入策略梯度网络共同训练，直至收敛。由于从头开始训练强化学习比较困难，方差很大，因此要采用一些预热结构对强化学习模块进行预训练，对于词句甄别模块，利用原始句子进行预训练：对于语句强化学习动作设计模块，将句子拆分为长度很小的基本短语(一般小于句子长度的平方根)。与预先需要人工解析结构完全不同，因此本方法泛化能力更强，对数据的限制更少。

本实施例提供一种处理终端，处理终端包括处理器和执行器，执行器执行处理器时能够实现本发明实施例1提出的基于语句甄别识别和强化学习动作设计的语言处理方法。

实施例2

本发明基于强化学习，需要依赖环境的反馈，即标签信息，分类准确率可以作为一个明确的环境反馈，而用于文本分类的主流表示模块大致可以分成词袋表示模块、序列表示模块、结构表示模块、注意力模块等四种类型。其中，词袋表示模块往往会忽略单词的顺序，结构表示模块往往很依赖预先指定的解析树来构建结构化表示，例如Tree-LSTM、递归自编码器等；基于注意力机制的表示模块需要对输入的单词或句子利用注意力打分函数来构建表示形式。

如附图2所示，本发明第二方面在于提出一种基于语句甄别识别和强化学习动作设计的语言处理系统，

基于语句甄别识别和强化学习动作设计的语言处理系统包括核心结构网络构建模块、语句结构化优化分类处理模块和最优化文本结构采样判定模块，其中，

所述核心结构网络构建模块：用于基于强化学习模块而构建核心结构网络，通过所述核心结构网络而使得预处理文本结构生成动作序列；所述核心结构网络包括为：策略梯度网络、结构化表示模块和分类网络；

核心结构网络构建模块由三个部分交错而成，策略梯度网络的状态表示形式来自结构化表示模块，结构化表示模块由策略梯度网络的动作序列与句子的输入所生成，分类网络由最终生成的结构化表示模块进行分类预测，策略梯度网络从分类网络得到的分类效果获取reward函数值，从而指导策略的学习更好的结构化表示。

优选地，所述核心结构网络构建模块包括：

优选地，所述语句结构化优化分类处理模块包括：

如附图3所示，本实施例，为了提高识别正确率和识别效率，核心结构网络构建模块增设了文本结构词句甄别识别模块与语句强化学习动作设计模块。

所述文本结构词句甄别识别模块：用于

用于利用所述关键词将生成的所述动作序列结构化处理。

所述语句强化学习动作设计模块：用于

如附图4所示，虚线代表采用了文本结构词句甄别识别模块后的正确率，实线代表采用了句强化学习动作序列设计模块后的正确率。

文本结构词句甄别识别模块与语句强化学习动作序列设计模块在语言文本语文本分类时的整体损失函数随迭代次数的增加不断下降，采用交叉熵作为损失函数，随着迭代次数的增加损失函数值趋于稳定，损失函数值越小，预测的概率分布与标签的概率分布的差异性越小，模块的准确率随之提高。

本实施例提供一种处理系统，系统包括基于语句甄别识别和强化学习动作序列序列设计的语言处理系统，系统包含上述模块，执行上述模块时来实现实施例1的功能步骤。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于语句甄别识别和强化学习动作设计的语言处理方法，其特征在于，包括如下步骤，

S2、语句结构化优化分类处理：对所述预处理文本结构进行关键词提取，利用关键词将生成的所述动作序列结构化处理，输入所述核心结构网络进行迭代而获取最优化文本结构；具体包括：

在预处理文本结构中选择一处核心语句作为核心文本词句；

将核心文本词句传入策略梯度网络，通过所述核心结构网络生成动作序列，将获取到的动作序列传入结构化表示模块，构建新的文本表示结构；

将更新的文本表示结构传入分类网络，得到优化结构后的分类准确率，使模块反复迭代至最优；

2.如权利要求1所述的一种基于语句甄别识别和强化学习动作设计的语言处理方法，其特征在于，在步骤S1中，通过所述核心结构网络而使得预处理文本结构生成动作序列，包括：

所述结构化表示模块将动作序列转化为结构化表示；

3.如权利要求1所述的一种基于语句甄别识别和强化学习动作设计的语言处理方法，其特征在于，在步骤S2中，对所述预处理文本结构进行关键词提取，利用关键词将生成的所述动作序列结构化处理，输入所述核心结构网络进行迭代而获取最优化文本结构，具体包括：

在预处理文本结构中选择一处核心语句作为核心文本词句；

4.如权利要求1所述的一种基于语句甄别识别和强化学习动作设计的语言处理方法，其特征在于，在步骤S1中，在所述对所述预处理文本结构进行关键词提取后，还包括文本结构词句甄别识别，具体为：

利用所述关键词将生成的所述动作序列结构化处理。

5.如权利要求1所述的一种基于语句甄别识别和强化学习动作设计的语言处理方法，其特征在于，在步骤S3中，所述于最优化文本结构每一处单词设定判定动作并进行采样时，需要进行语句强化学习动作设计，具体为：

基于注意力机制而使得短语结构以形成分层的句子表示，将动作序列转化为句子的层次结构表示，构成新划分的结构或片段；

6.一种基于语句甄别识别和强化学习动作设计的语言处理系统，其特征在于，包括核心结构网络构建模块、语句结构化优化分类处理模块和最优化文本结构采样判定模块，其中，

所述语句结构化优化分类处理模块：用于对所述预处理文本结构进行关键词提取，利用关键词将生成的所述动作序列结构化处理，输入所述核心结构网络进行迭代而获取最优化文本结构；具体包括：

在预处理文本结构中选择一处核心语句作为核心文本词句；

7.如权利要求6所述的一种基于语句甄别识别和强化学习动作设计的语言处理系统，其特征在于，所述核心结构网络构建模块包括：

8.如权利要求6所述的一种基于语句甄别识别和强化学习动作设计的语言处理系统，其特征在于，所述语句结构化优化分类处理模块包括：

新文本结构构建模块：用于将核心文本词句传入策略梯度网络，通过所述核心结构网络生成动作序列，将获取到的动作序列传入结构化表示模块，构建新的文本表示结构；

9.如权利要求6所述的一种基于语句甄别识别和强化学习动作设计的语言处理系统，其特征在于，所述核心结构网络构建模块还包括文本结构词句甄别识别模块：

所述文本结构词句甄别识别模块：用于对所述预处理文本结构进行关联识别，识别与任务相关的中心单词，提取所述中心单词而作为关键词；以及用于利用所述关键词将生成的所述动作序列结构化处理。

10.如权利要求6所述的一种基于语句甄别识别和强化学习动作设计的语言处理系统，其特征在于，所述最优化文本结构采样判定模块包括语句强化学习动作设计模块：

所述语句强化学习动作设计模块：用于基于注意力机制而使得短语结构以形成分层的句子表示，将动作转化为句子的层次结构表示，构成新划分的结构或片段；以及通过对每个单词位置设置相应的判定动作实现采样，判断单词在短语结构的内部还是结尾。