CN112765956B - 基于多任务学习的依存句法分析方法及应用 - Google Patents
基于多任务学习的依存句法分析方法及应用 Download PDFInfo
- Publication number
- CN112765956B CN112765956B CN202110090317.9A CN202110090317A CN112765956B CN 112765956 B CN112765956 B CN 112765956B CN 202110090317 A CN202110090317 A CN 202110090317A CN 112765956 B CN112765956 B CN 112765956B
- Authority
- CN
- China
- Prior art keywords
- dependency
- word
- representing
- label
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
一种基于多任务学习的依存句法分析方法及应用包括:S1.使用深度双向长短期记忆神经网络对特征进行提取;S2.然后通过多任务学习的硬共享模式共享特征表示;S3.最后对各个任务设置私有层,达到单输入、多输出的目的,两个输出是依存分析和分词;基于多任务学习的依存句法分析方法的应用包括:通过数据增强的方式对数据集进行扩充,通过Word2Vec模型将词语向量化后;然后将依存句法分析引入到结构性双关的识别中,并对结构性双关的语料进行解析,通过对依存句法树的概率判断结构性双关,分析结构性双关的特点。本发明在分析精度上要优于基于转移的依存分析方法,不易产生错误传播的现象;而且本发明所采用的方法建立在使用较少的特征模板的基础上,成本较低。
Description
技术领域
本发明属于人工智能的自然语言处理(NLP)技术领域,具体涉及一种基于多任务学习的依存句法分析模型及应用。
背景技术
自然语言处理(NLP)的基本任务大致可以分为三大层次,分别为词法分析、句法分析和语义分析,而句法分析性能的好坏对整个自然语言处理的性能有非常大的影响,是自然语言处理最关键的一个环节。依存结构句法和短语结构句法是句法分析中研究最广泛的两个方面。相比于短语结构分析,依存句法分析是一个基于词的语法标注体系。依存句法分析以词语为分析单元,将词语之间的关系用依存句法树的形式表现出来,不仅形式上简洁直观,同时又能展现词语间的语义依存关系。在实际应用中,汉语句子的输入是汉字序列且汉语句子之间缺乏明显的界限,首先需要对汉语句子进行分词,然后对分词好的词进行词性标注,在这基础上才能进行依存分析。但是这三项任务遵循的串行模式步骤会导致错误传播问题。为了解决错误传播问题,有学者提出三项任务的联合模型,虽然以上三项任务的联合模型取得了较大的进展,但已有的联合模型均采用了基于转移的分析算法,将分词、词性标注和依存分析集成在一起联合训练。该算法在特征提取和决策存在一定的不足,如下:
(1)搜索空间巨大:与词语级别基于转换的依存分析联合模型相比,字符级别的模型需要建模更长的动作序列,因此搜索空间巨大,导致很难准确的找到最优的转移序列。通常在实际应用中采用贪心搜索或柱搜索算法等近似策略,但是近似策略并不会产生最优解。另外,由于此方法实现精确查找的时间复杂度较高,所以他们只得到了无标签依存分析的准确率,并没有关注有标签依存分析的准确率。
(2)特征工程繁琐:这些基于转移的依存分析联合模型依赖于一个详细的手工特征提取,尤其是从栈中设计和组合基于词的特征以及从缓冲区中设计和组合基于字符的特征,这是一个非常繁重的任务,需要付出巨大的时间和金钱。
(3)不能实现知识共享:由于分词、词性标注和依存分析这三个任务具有很强的相关性,分词的好坏可以影响下面的两个任务,依存分析的精度也可对分词的性能产生影响。所以,对此三个任务中学到的知识可以共享,即从一项任务学习到的知识可以对另外的任务有帮助。但是,串行模式分别训练这三个任务,将每一种模型都对应一个单一任务,并不能充分利用三个任务之间的共享知识。
另外,现有技术中所采用的方法多建立在使用大量的特征模板的基础上,定义特征模板费时费力,成本较高。因此如何运用多任务学习的思想,使用深度神经网络模型对特征进行自动提取,共享多个任务之间有用的信息是一个亟待解决的问题。
发明内容
为了解决依存分析的精度较低的问题,本发明提出:一种基于多任务学习的依存句法分析方法,技术方案如下:
将标注、分词和依存分析三项任务中的中文分词和依存分析集成到模型中联合训练,其包括共享部分和私有部分,包括以下步骤:
S1.使用深度双向长短期记忆神经网络对特征进行提取;
S2.然后通过多任务学习的硬共享模式共享特征表示;
S3.最后对各个任务设置私有层,达到单输入、多输出的目的,两个输出是依存分析和分词;
其中,所述步骤S1:从前后两个方向获取长短期记忆神经网络生成的隐藏表示,即将某一时刻的前向隐藏向量和后向隐藏向量/>进行拼接,此拼接向量就是这一时刻的双向长短期记忆神经网络模型输出向量,达到获取某个元素的双向表示/>
其中,Wmlp和bmlp分别表示多层感知机层的权重和偏置,n表示大于1的自然数;
定义S core(S,Y;W)为句子S被标记为Y的序列得分:
如上式所示,W表示模型参数,A表示转移矩阵,Ai,j表示标签i转移到标签j的分数,i和j表示从1开始的自然数,y表示某个词被正确标注。
进一步地,步骤S2中:所述共享部分是一个基于双向长短期记忆神经网络的编码层;
S21.给定一个字符序列X={x1,x2,...,xN},将离散语言符号映射到分布式嵌入空间中;
在形式上,每个字符xi被映射成向量de表示字符向量大小的超参数,E表示向量矩阵,将二元字符向量和三元字符向量结合来增强每个字符的向量表示,最终xi的字符表示为/>e表示一元字符向量、二元字符向量和三元字符向量,/>表示连接符;
S22.使用深度双向长短期记忆神经网络获取长期的上下文信息,第i个字符的长短期记忆神经网络隐藏状态为
进一步地,所述步骤S3中:其中所述私有部分预测每个字符对之间的关系,采用双仿射注意力机制在编码层的顶部对它们的概率进行评分;步骤如下:
S31.针对无标签的依存弧预测问题:对于第i个和第j个字符组成的字符对,首先获取编码层hi和hj的输出,然后将它们输入到一种双线性变换的扩展—双仿射函数中,使用此函数对从头词xi指向依存词xj的一条弧进行打分:
ri (arc-head)=MLP(arc-head)(hi);
r(arc-head)表示当前词的核心词(只标注弧),r(arc-dep)表示当前词的依存词(只标注弧),MLP表示多层感知机。
S32.针对有标签的弧预测问题:在获得最佳预测的无标签依存树之后,为每一条xi从指向xj的弧分配一个得分s(label)∈RK,第k个元素对应第k个标签的得分,k是标签集的大小;在此模型中,弧标签集由标准的词级别依存标签和表示词内部的字符依存关系的标签组成;
对于从xi指向xj的弧,用下面的公式得到标签的得分S(label):
ri (label-head)=MLP(label-head)(hi);
这里U(label)∈RK×p×p是三阶张量,W(label)∈RK×2p是权重矩阵,u(label)∈RK是一个偏置向量,根据得分s(label)确定从xi指向xj的弧的最佳标签为:
进一步地,所述步骤S3还包括分词任务:
S31.为每两个相邻的字符分配一个向左指向但未加标签的弧;
S32.预测弧的标签:“seg”和“lin”,“seg”意味着要将连续的字符分开,即将词分开的标记,“lin”表示连在一起的字符属于一个词,以此来表示切分词的边界。
本发明还包括一种基于多任务学习的依存句法分析方法的应用包括如下步骤:
第一步:通过数据增强的方式对数据集进行扩充,通过Word2Vec模型将词语向量化后;
第二步:然后将依存句法分析引入到结构性双关的识别中,并对结构性双关的语料进行解析,通过对依存句法树的概率判断结构性双关,分析结构性双关的特点。
进一步地,所述第一步是采用数据增强的方法对数据集进行扩充,在自然语言处理方面,数据增强的方法改变一个词语就会改变整个句子的意思,采用数据增强方法,具体的操作方法如下:
(1)同义替换:从句子中随机选择n个非停用词,用随机选择的同义词替换这些单词;
(2)随机插入:在句子中随机找一个非停用词的同义词,将同义词插入句子中任意位置,执行n次;
(3)随机交换:在句子中随机选择两个单词并调换它们的位置;
(4)随机删除:随机移除句子里的词汇,每个词被移除的概率均为p;
(5)时态变换:变换句子中的时态,如现在时态变换成过去时态;
通过Word2Vec模型将词语向量化:
(1)对原始的英文语料进行预处理,首先去除非英文字符的字符;
(2)去除停用词;
(3)使用Word2Vec词嵌入方法将词语向量化,将词转化为向量的形式进行表示。
进一步地,所述第二步的方法如下:
将结构性双关语的识别定义为一个二分类的有监督学习问题,语料中的句子类别分为两类:结构性双关和非结构性双关,语料在经过依存句法分析的模型进行解析后,每个句子会得到两棵依存句法树,定义P(DT1)是依存句法分析模型将句子划分为一种依存句法树的概率,P(DT2)是依存句法分析模型将句子划分为另一种依存句法树的概率,然后将P(DT1)与P(DT2)做差,对二者的差值求平均数和标准差。
本发明的有益效果为:
基于图的依存分析方法可以获得一个全局最优解,能够保证当前选择的依存子树是全局最优的,因此在分析精度上要优于基于转移的依存分析方法易产生错误传播的现象;同时还具有以下优点:
(1)缩小搜索空间:
(2)特征工程简单:
(3)可以实现知识共享:
(4)本发明所采用的方法建立在使用较少的特征模板的基础上,成本较低。
附图说明
图1基于多任务学习的依存句法分析网络模型
图2为双向长短期记忆神经网络模型图;
图3为n-gram字符向量表示示意图;
图4为依存分析示意图;
图5为门控循环单元(GRU网络模型;
图6为长短时记忆神经网络深度对实验结果影响条形图;
图7为双向长短期记忆神经网络模型隐藏层的大小对实验结果的影响趋势图;
图8为英语结构性双关歧义依存图;
图9为汉语结构双关歧义依存图;
图10为NLP、Word Embedding和Word2Vecde的关系图;
图11为Word2Vec训练模型图。
具体实施方式
一种基于多任务学习的依存句法分析模型及应用,包括:如图1基于多任务学习的依存句法分析网络模型,基于多任务学习的依存句法分析方法是将标注、分词和依存分析三项任务中的中文分词和依存分析集成到模型中联合训练,其包括共享部分和私有部分,包括以下步骤:
S1.使用深度双向长短期记忆神经网络对特征进行提取;
S2.然后通过多任务学习的硬共享模式共享特征表示;硬共享模式是对所有任务共享中间隐藏层,同时根据不同的子任务使用各任务对应的输出层。
S3.最后对各个任务设置私有层,达到单输入、多输出的目的,两个输出是依存分析和分词;
其中,所述步骤S1:如图2所示的模型,从前后两个方向获取长短期记忆神经网络生成的隐藏表示,即将某一时刻的前向隐藏向量和后向隐藏向量/>进行拼接,此拼接向量就是这一时刻的双向长短期记忆神经网络模型输出向量,达到获取某个元素的双向表示
其中,Wmlp和bmlp分别表示多层感知机层的权重和偏置;
定义S core(S,Y;W)为句子S被标记为Y的序列得分:
其中,W表示模型参数,A表示转移矩阵,Ai,j表示标签i转移到标签j的分数,i和j表示从1开始的自然数,y表示某个词被正确标注。
进一步地,步骤S2中:所述共享部分是一个基于双向长短期记忆神经网络的编码层;
在中文维基百科语料库训练多元字符向量,此方法通过使用令牌的序列信息提高了Word2Vec的性能,提高了词性标注和依存分析任务上的表现;对于一个句子“夏天太热”,一元字符序列表示为“夏\天\太\热”;二元字符序列表示为“夏天\天太\太热”;三元字符序列表示为“夏天太\天太热”;多元字符向量表示如图3所示。对于依存分析器,可以使用腾讯的预训练词向量。
S21.给定一个字符序列X={x1,x2,...,xN},将离散语言符号映射到分布式嵌入空间中;
在形式上,每个字符xi被映射成向量de表示字符向量大小的超参数,E表示向量矩阵,将二元字符向量和三元字符向量结合来增强每个字符的向量表示,最终xi的字符表示为/>e表示一元字符向量、二元字符向量和三元字符向量,/>表示连接符;
S22.使用深度双向长短期记忆神经网络获取长期的上下文信息,第i个字符的长短期记忆神经网络隐藏状态为
进一步地,所述步骤S3中:其中所述私有部分预测每个字符对之间的关系,采用双仿射注意力机制在编码层的顶部对它们的概率进行评分;步骤如下:
S31.针对无标签的依存弧预测问题:对于第i个和第j个字符组成的字符对,首先获取编码层hi和hj的输出,然后将它们输入到一种双线性变换的扩展—双仿射函数中,使用此函数对从头词xi指向依存词xj的一条弧进行打分:
ri (arc-head)=MLP(arc-head)(hi);
r(arc-head)表示当前词的核心词(只标注弧),r(arc-dep)表示当前词的依存词(只标注弧),MLP表示多层感知机。
S32.针对有标签的弧预测问题:如图4所示,在获得最佳预测的无标签依存树之后,为每一条xi从指向xj的弧分配一个得分s(label)∈RK,第k个元素对应第k个标签的得分,k是标签集的大小;在此模型中,弧标签集由标准的词级别依存标签和表示词内部的字符依存关系的标签组成;
对于从xi指向xj的弧,用下面的公式得到标签的得分s(label):
ri (label-head)=MLP(label-head)(hi);
这里U(label)∈RK×p×p是三阶张量,W(label)∈RK×2p是权重矩阵,u(label)∈RK是一个偏置向量,根据得分s(label)确定从xi指向xj的弧的最佳标签为:
进一步地,所述步骤S3还包括分词任务:
(1)为每两个相邻的字符分配一个向左指向但未加标签的弧;
(2)预测弧的标签:“seg”和“lin”,“seg”意味着要将连续的字符分开,即将词分开的标记,“lin”表示连在一起的字符属于一个词,以此来表示切分词的边界;如图4所示,在分词任务中,由于无标签的弧在之前已经被分配给了字符,所以只使用步骤S32中的公式来预测标签“seg”和“lin”即可,这样分词任务就被转换成了二分类问题。
我们使用通用的评价指标:F1值、准确率和召回率来评估我们的模型,细节如下:
(1):F1seg:表示中文分词的F1值,F1值是中文分词任务的通用评价指标。
(2):F1UAS:表示无标签依存弧的F1值,使用F1值、准确率和召回率评估依存分析的表现。在联合模型中,由于分词或者头词的预测可能会出现错误,所以通用的无标记得分(UAS)不足以评估整个模型的表现。一个依存词对被正确预测的前提是头词和依存词在分词、词性标注上都正确且依存词的头词被正确找到。无标签依存分析的准确率用PUAS表示,由正确的依存词对数量和所有的依存词对数量的比值计算出。无标签依存分析的召回率用RUAS表示,由预测正确的依存词对数量和标准的依存词对数量的比值计算出。
(3)F1LAS:表示有标签依存弧的F1值。F1LAS与F1UAS之间除了头词和依存词的匹配,唯一的区别是依存词对必须要和标准的依存词对有相同的标签。精确率和召回率的计算方法同(2)。
因为标准的依存词对数量和预测的依存词对数量与对应的无标签依存分析的数量是相同的,所以F1LAS的值要低于F1UAS的值。
表1 实验配置
(1)实验配置:本实验使用Windows10系统进行开发,使用开源的PyTorch框架搭建神经网络模型。Pytorch是专门针对GPU加速的深度神经网络(DNN),比CPU效果更好。具体实验环境如表1所示。
(2)超参数选择:验证集用于参数调优。超参数的设置如表2所示,模型使用Adam算法训练,Adam算法可以最小化弧预测和弧标签预测的交叉熵损失之和。
表2 超参数设置
在每一个训练轮次之后,用在开发集上测试此模型,将在开发集上取得最高值的模型用来在测试集上测试,记录测试集上取得的结果。
为了验证双向长短期记忆神经网络模型在本模型中的有效性,在保持模型的其他参数不变的情况下,将其与目前常用的文本特征提取器—门控循环单元(门控循环单元)进行对比。门控循环单门控循环单元网络模型.元(门控循环单元)同长短时记忆神经网络一样,也是循环神经网络(RNN)的一种变体。门控循环单元有两个门,一个是重置门(resetgate),另一是更新门(update gate)网络模型如图5所示。从直观上来讲,重置门的作用是结合新的输入信息和前面的记忆信息,更新门决定了前面的记忆信息能够保存到当前时间的量。这两个门控机制能够长时间保存长期序列中的信息。如果将重置门设置为1,更新门设置为0,就将再次获得标准的循环神经网络(RNN)模型。
本实验使用双向长短期记忆神经网络模型对文本信息进行深层特征提取,为每一个向量独立编码,将该向量表示用于下游的分类任务。
表3 不同特征提取方式的实验结果对比
分别使用门控循环单元和双向长短期记忆神经网络模型两种模型对文本信息进行编码,参考现有技术中提出的方法,将基于可变推理的dropout技术应用到双向长短期记忆神经网络模型中,得到的实验结果如表3所示。从表3中可以看出,在中文分词的F1值结果上,双向长短期记忆神经网络模型的性能要稍稍好于门控循环单元,大约高出08个百分点。但是在无标签依存关系(UAS)的F1值和有标签依存关系(LAS)的F1值上,双向长短期记忆神经网络模型的表现要好很多,分别比门控循环单元高出4个百分点和4.3个百分点。所以本实验选择使用双向长短期记忆神经网络模型作为编码器。
然后,本实验对模型的重要参数进行了探究。
首先对长短时记忆神经网络深度对实验结果的影响进行了探究。分别将长短时记忆神经网络的层数设置为1、2、3、4层,对模型的性能进行探究。实验结果如图6所示。从图6中可以看出,当长短时记忆神经网络的深度为1层时,分词结果较差。当深度为2层和4层时,分词结果相当。当长短时记忆神经网络的深度为3层时,分词的结果和依存分析的结果取得最大值。但是,在实验中发现当长短时记忆神经网络的深度为3层时,所需要的时间也最少,为17个小时,小于长短时记忆神经网络的深度为3的20.5个小时。所以,通过综合考量,当长短时记忆神经网络的深度为3层时,表现最佳。
本文也对双向长短期记忆神经网络模型隐藏层的大小对实验结果的影响进行了探究,结果如图7所示。如表4所示,当隐藏层大小为200、400和500时,分词的F1值相差无几,无标签依存分析的F1值和无标签依存分析的F1值随着隐藏层的增大而增大,但是当隐藏层的大小为500时,训练模型所需要的时间为30小时,远远大于隐藏层的大小为400时所需要的时间17小时。综合考虑模型性能和时间复杂度,选择双向长短期记忆神经网络模型隐藏层的大小为400。
本文还对模型的学习率进行了探究,结果如表4所示。如表4所示,当学习率为0.002时,模型不论在效果表现还是时间上都变现的更好。
表4 模型的学习率对实验结果的影响
将本发明的多任务学习的模型与前人的模型进行对比,结果如下:
由于前人的工作并未统计有标签依存弧的F1值和运行模型所需要消耗的时间,所以在这里只比较分词和无标签依存弧的F1值。结果如表5所示。由表中可以看出,尽管我们并没有像之前的基于转移的模型一样,使用过多的局部依存特征,但是我们的模型在中文分词和无标签依存分析上的性能都要优于之前的模型。对于我们模型依存分析性能的提高,我们认为这主要归功于两个方面。第一个是中文分词的准确性提高了,分词准确性的提高为依存分析中找到词与词之间的关系提供了基础。另一个是给两个字符之间标记信息这一过程也为寻找头字符提供了额外的监督信息。
表5 与之前的模型实验结果对比
我们也单对分词任务的结果与之前的一些模型进行了对比。在之前取得最好结果的分词方法中,大多采用基于序列标注的方法,需要把每个句子转换为一个带有{B,M,E,S}标签的序列。其中B代表一个词的开头部分,M代表一个词的中间部分,E代表一个词的结尾部分,S代表这个词是单字词。我们将我们的模型与之前取得最好结果的方法进行了对比。还有另一种标注的方式,就是将中文的句子标注为一个{app,seg}标签的序列。其中app表示连接的字符属于一个词,seg表示一个词的最后一个字符。这些模型都使用多层BiLSTM作为编码器,其中BiLSTM的层数为3,隐藏层的大小为200,不同之处在于解码方式和标签集不同。使用{B,M,E,S}标签序列的LSTM+MLP模型表示在BiLSTM之后将每个字符的隐藏状态喂给一个MLP,为每个字符输出一个标签集上的概率分布,然后使用Viterbi算法寻找全局的最大生成树。使用{B,M,E,S}标签序列的LSTM+CRF模型表示在使用{B,M,E,S}标签序列的LSTM+MLP模型的基础上使用CRF预测概率。
表6 分词实验结果对比
使用{app,seg}标签序列的LSTM+MLP模型除了标签集与使用{B,M,E,S}标签序列的LSTM+MLP模型不同之外,其他的都相同。我们的分词模型使用双仿射注意力机制对词边界附近的两个相邻字符进行建模。结果如表6所示,表6中的前两行表示在MLP的顶部是否使用CRF的差异。由,6中的数据对比,可以看出使用CRF的模型性能要稍微好于未使用CRF的模型。第一行和第三行展示了同样的模型在不同标签集上的对比。由表6中的数据可以看出使用{app,seg}标签集的模型性能要稍好于使用{B,M,E,S}标签的模型性能。本文提出的使用双仿射注意力机制的模型性能要稍微好于使用{app,seg}标签的模型性能。尽管本文的联合模型对于头词的预测与中文分词并没有直接的联系,但是将分词和字符级别的依存分析并行训练,实际上对分词的效果也起到了促进作用。
本文模型与串行模式的依存分析准确率对比。对于串行模式,首先使用本文的联合模型得到最好的分词结果,然后利用词级别的双仿射解析器对分词后的句子进行依存分析。结果对比如表7所示。结果显示我们的模型在无标签依存分析的F1值和有标签依存分析的F1值上分别比串行模式高出1.6%和2.8%,这也显示出多任务学习可以共享有用信息的优势。
表7 我们的模型与串行模式实验结果对比
进一步地,基于多任务学习的依存句法分析方法的应用包括如下步骤:
第一步:通过数据增强的方式对数据集进行扩充,通过Word2Vec模型将词语向量化后;
第二步:然后将依存句法分析引入到结构性双关的识别中,并对结构性双关的语料进行解析,通过对依存句法树的概率判断结构性双关,分析结构性双关的特点。
进一步地,所述第一步是采用数据增强的方法对数据集进行扩充,在自然语言处理方面,数据增强的方法改变一个词语就会改变整个句子的意思,采用数据增强方法,具体的操作方法如下:
(1)同义替换:从句子中随机选择n个非停用词,用随机选择的同义词替换这些单词;
(2)随机插入:在句子中随机找一个非停用词的同义词,将同义词插入句子中任意位置,执行n次;
(3)随机交换:在句子中随机选择两个单词并调换它们的位置;
(4)随机删除:随机移除句子里的词汇,每个词被移除的概率均为p;
(5)时态变换:变换句子中的时态,如现在时态变换成过去时态;
通过Word2Vec模型将词语向量化:
(1)对原始的英文语料进行预处理,首先去除非英文字符的字符;
(2)去除停用词;
(3)使用Word2Vec词嵌入方法将词语向量化,将词转化为向量的形式进行表示。
所用数据增强方法的具体操作示例如表8所示。本发明通过如上的五项基本操作方法,将数据扩充到1545条,其中正例541条,负例1005条。正例为结构性双关的语句,在数据集中标签为1;负例为非结构性双关的语句,在数据集中标签为0。此五种方法简单高效,对于语料资源匮乏的研究方向有较大的帮助
表8 数据扩充操作示例
对使用依存句法分析的方法解决结构性双关问题是否可行进行了详细介绍,如下:
由于数据量样本较少,所以本章采用机器学习的方法对文本进行分类,得到基线模型的准确率为53.70%,F1值为51.29%。可以看出基线模型的效果并不好,所以将依存句法分析的思想引入到结构性双关识别。
首先,列举几个例子对结构性双关语的形成原因进行简单的介绍。
以句子
(1):“-Do you ever draw picture in the nude?
-No,I usually wear a jacket.”
为例,对英语结构性双关语句结构特点进行说明。对该句子进行依存句法分析之后,得到两棵完整且符合语法规则的依存句法树,如图8所示。问句可以有“①你曾画过裸体画吗”和“②你曾光着身子画画吗”两种译法,这样就会让读者产生歧义,但是从问句“不,我通常会穿夹克”中可以看出,读者以为问者的意思是问自己对否光着身子画画。在这则幽默中,结构性双关是由短语“in the nude”在句中做不同成分所导致的,即“nude”做“you”的状语还是做“picture”的定语。再如句子
(2):“-Did you take a bath?
-No,only towels,is there one missing?
问句中“take a bath”作为一个固定词组,意思是“洗个澡”。但是逐字来看的话,还有“带走一个浴缸”或者“把某东西带去另外一个地方”的意思。这种对同一个短语的双向感知和理解就会造成歧义,带来双关的效果。
再如句子
(3):“Customer:I’d like to try that dress in the window.
Assistant:I’m sorry,Madam.I’m afraid you’ll have to use the fittingroom like everybody else.”
这个对话可以翻译为:顾客:我想试试橱窗里的那件衣服。店员:不好意思女士。恐怕您得像其他人一样使用试衣间。从店员的回答中可以看出她理解为顾客要在窗户那里试衣服,即她认为“in the window”在句中做“dress”的定语。此句造成双关的原因是词组“inthe window”在句中做哪种成分所引起的歧义,即“in the window”做“dress”的定语还是做“try”的状语。
此外,也列举了中文的结构性双关例子进行说明。
以句子(4):“孟光轧姘头,梁鸿志短;宋江吃败仗,吴用威消”为例,对汉语结构性双关语句的解析进行说明。对句子进行依存句法分析后,得到两个依存句法树,如图9所示。“梁鸿志短”与“吴用威消”表面可以切分为“梁鸿-志-短”和“吴用-威-消”,“短”做“志”的定语,二者是定中关系,“志”做主语“梁鸿”的谓语,“消”做“威”的定语,二者也是定中关系,“威”做主语“吴用”的谓语,构成主谓式的分句。根据对联出现的时代背景,此联是著名画家吴湖帆为了鞭笞卖国求荣的汉奸:梁鸿志和吴用威所做,其真正用意为在表达当时的情形下,人们对两个大汉奸的嘲弄和痛恨之情。所以实际可以分词为“梁鸿志-短”和“吴用威-消”,“梁鸿志”与“短”,“吴用威”与“消”分别是主谓关系,是形容词、动词做谓语的一般主谓式分句。此联以历史人物为话题,通过构思全新的离奇故事,再巧妙嵌入两个败类的姓名,以歇后语的形式表现出来,讽刺效果极其强烈。所以,同一个句子可以有不同的语法切分方式,这样就构成了不同的句式,也就能够表达不同的语义。
通过以上的例子可以看出,对于汉语的结构性双关语句,造成双关的原因是分词出现错误,进而导致句子的依存结构出现歧义,而达到双关的幽默讽刺效果。对于英语的结构性双关语句,造成双关的原因主要是短语、词组等固定搭配在句中所做的成分模糊,给读者在读句子时造成理解上的偏差。说明使用依存句法树的思想来解析结构性双关是可行且有效的。
进一步地,所述第二步的方法如下:
将结构性双关语的识别定义为一个二分类的有监督学习问题,语料中的句子类别分为两类:结构性双关和非结构性双关,语料在经过依存句法分析的模型进行解析后,每个句子会得到两棵依存句法树,定义P(DT1)是依存句法分析模型将句子划分为一种依存句法树的概率,P(DT2)是依存句法分析模型将句子划分为另一种依存句法树的概率,然后将P(DT1)与P(DT2)做差,对二者的差值求平均数和标准差。
本文提出Structure-Pun Recognition算法:
1.输入:语料库中的一个句子
2.输出:结构双关
3.步骤一:对输入的句子进行词干化。
4.步骤二:去除标点和停用词。
5.步骤三:保留句子中的名词、动词、形容词和副词。
6.步骤四:将预处理好的句子输入依存句法分析模型。
7.if依存树=2
8.Return(结构性双关)
9.else
10.Return(非结构性双关)
本实施例的数据集共包含1545条数据,其中正例541条,负例1005条。对数据集按照8:2的比例进行划分,训练集1236条,测试集309条。训练集中包含正例433条,负例803条,测试集中正例108条,负例201条。划分细则如表9所示。
表9 结构性双关数据集划分
本发明的数据预处理:
首先对原始的英文语料进行预处理。首先去除非英文字符的字符,例如符号、数字、中文等,然后去除停用词。
本文使用Word2Vec词嵌入技术将词语向量化。词嵌入(Word Embedding)是将词转化为向量的形式进行表示,是人工智能非常关键的一步。Word2Vec是谷歌公司的Mikolov在2013年提出的一种词嵌入技术,是将词转化为可计算的结构化向量的过程。自然语言处理(NLP)、词嵌入(Word Embedding)和Word2Vec的关系如图10所示。
Word2Vec的两种训练模型是:Skip-gram和CBOW。Skip-gram的核心思想是根据中心词或者当前词来预测周围的词,相当于给出一个词,来推断这个词的前面和后面可能出现什么词。即把一个词作为神经网络的输入,预测的词作为标签,中心词一个一个移动,遍历所有文本。Skip-gram的模型图如图11(a)所示。CBOW是Continuous Bag-of-Words的缩写,方法其实就是Skip-Gram倒过来,用上下文的词来预测中心词,相当于在一句话中扣掉一个词,来推测这个词是什么。此时,每一次中心词的移动,只能产生一个训练样本。CBOW的模型图如图11(b)所示。为了提高速度,Word2Vec采用两种优化方法:负采样和层次Softmax。
分析结果为:对P(DT1)与P(DT2)差值的平均数和标准差进行统计,结果如表10所示。从表10中可以看出依存分析模型将结构性双关的语句划分为2棵依存句法树时,各棵树的概率之差较接近,也就是说每棵树的概率相差不大,证明每棵树的存在都是合理且有效的。但是,对非结构性双关的语句来说,使用依存分析模型划分出的依存树的概率值相差较大,也就是说概率较大的树才是符合语法规范的合理的依存句法树,概率小的树并不符合语法规范且不存在。所以P(DT1)与P(DT2)的平均值差异大说明有一棵依存句法树是不合理的,或者说不符合语法规则的,也就是说不存在这棵树,所以只存在另外一棵概率值大的树,即此句话为非结构性双关。也就说明了这句话不是结构性双关的句子。如果平均值差异较小,那么这两棵句法树都是合理的,也就是此句为结构性双关。
表10 结构双关统计结果
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (7)
1.一种基于多任务学习的依存句法分析方法,其特征在于,将标注、分词和依存分析三项任务中的分词和依存分析集成到模型中联合训练,其包括共享部分和私有部分,包括以下步骤:
S1.使用深度双向长短期记忆神经网络对特征进行提取;
S2.通过多任务学习的硬共享模式共享特征表示;
S3.对各个任务设置私有层,达到单输入、多输出的目的,两个输出是依存分析和分词;
其中,所述步骤S1:从前后两个方向获取长短期记忆神经网络生成的隐藏表示,即将某一时刻的前向隐藏向量和后向隐藏向量/>进行拼接,此拼接向量就是这一时刻的双向长短期记忆神经网络模型输出向量,达到获取某个元素的双向表示/>
其中,Wmlp和bmlp分别表示多层感知机层的权重和偏置,n表示大于1的自然数;
定义Score(S,Y;W)为句子S被标记为Y的序列得分:
如上式所示,W表示模型参数,A表示转移矩阵,Ai,j表示标签i转移到标签j的分数,i和j表示从1开始的自然数,y表示某个词被正确标注。
2.如权利要求1所述的基于多任务学习的依存句法分析方法,其特征在于,步骤S2中:所述共享部分是一个基于双向长短期记忆神经网络的编码层;
S21.给定一个字符序列X={x1,x2,...,xN},将离散语言符号映射到分布式嵌入空间中;
在形式上,每个字符xi被映射成向量de表示字符向量大小的超参数,E表示向量矩阵,R表示字符向量空间,将二元字符向量和三元字符向量结合来增强每个字符的向量表示,最终xi的字符表示为/>e表示一元字符向量、二元字符向量和三元字符向量,/>表示连接符;
S22.使用深度双向长短期记忆神经网络获取长期的上下文信息,第i个字符的长短期记忆神经网络隐藏状态为
3.如权利要求1所述的基于多任务学习的依存句法分析方法,其特征在于,所述步骤S3中:所述私有部分预测每个字符对之间的关系,采用双仿射注意力机制在编码层的顶部对它们的概率进行评分;步骤如下:
S31.针对无标签的依存弧预测问题:对于第i个和第j个字符组成的字符对,首先获取编码层hi和hj的输出,然后将它们输入到一种双线性变换的扩展—双仿射函数中,使用此函数对从头词xi指向依存词xj的一条弧进行打分:
r(arc-head)表示当前词的核心词,r(arc-dep)表示当前词的依存词,MLP表示多层感知机;
S32.针对有标签的弧预测问题:在获得最佳预测的无标签依存树之后,为每一条xi从指向xj的弧分配一个得分s(label)∈RK,第k个元素对应第k个标签的得分,k是标签集的大小;在此模型中,弧标签集由标准的词级别依存标签和表示词内部的字符依存关系的标签组成;
对于从xi指向xj的弧,用下面的公式得到标签的得分S(label):
这里U(label)∈RK×p×p是三阶张量,W(label)∈RK×2p是权重矩阵,u(label)∈RK是一个偏置向量,根据得分S(label)确定从xi指向xj的弧的最佳标签为:
4.如权利要求3所述的基于多任务学习的依存句法分析方法,其特征在于,所述步骤S3还包括分词任务:
(1)为每两个相邻的字符分配一个向左指向但未加标签的弧;
(2)预测弧的标签:“seg”和“lin”,“seg”意味着要将连续的字符分开,即将词分开的标记,“lin”表示连在一起的字符属于一个词,以此来表示切分词的边界。
5.如权利要求1所述的基于多任务学习的依存句法分析方法,其特征在于,基于多任务学习的依存句法分析方法的应用包括如下步骤:
第一步:通过数据增强的方式对数据集进行扩充,通过Word2Vec模型将词语向量化后;
第二步:然后将依存句法分析引入到结构性双关的识别中,并对结构性双关的语料进行解析,通过对依存句法树的概率判断结构性双关,分析结构性双关的特点。
6.如权利要求5所述的基于多任务学习的依存句法分析方法,其特征在于,所述第一步是采用数据增强的方法对数据集进行扩充,在自然语言处理方面,数据增强的方法改变一个词语就会改变整个句子的意思,采用数据增强方法,具体的操作方法如下:
(1)同义替换:从句子中随机选择n个非停用词,用随机选择的同义词替换这些单词;
(2)随机插入:在句子中随机找一个非停用词的同义词,将同义词插入句子中任意位置,执行n次;
(3)随机交换:在句子中随机选择两个单词并调换它们的位置;
(4)随机删除:随机移除句子里的词汇,每个词被移除的概率均为p;
(5)时态变换:变换句子中的时态,如现在时态变换成过去时态;
通过Word2Vec模型将词语向量化:
(1)对原始的英文语料进行预处理,去除非英文字符的字符;
(2)去除停用词;
(3)使用Word2Vec词嵌入方法将词语向量化,将词转化为向量的形式进行表示。
7.如权利要求5所述的基于多任务学习的依存句法分析方法,其特征在于,所述第二步的方法如下:
将结构性双关语的识别定义为一个二分类的有监督学习问题,语料中的句子类别分为两类:结构性双关和非结构性双关,语料在经过依存句法分析的模型进行解析后,每个句子会得到两棵依存句法树,定义P(DT1)是依存句法分析模型将句子划分为一种依存句法树的概率,P(DT2)是依存句法分析模型将句子划分为另一种依存句法树的概率,然后将P(DT1)与P(DT2)做差,对二者的差值求平均数和标准差。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110090317.9A CN112765956B (zh) | 2021-01-22 | 2021-01-22 | 基于多任务学习的依存句法分析方法及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110090317.9A CN112765956B (zh) | 2021-01-22 | 2021-01-22 | 基于多任务学习的依存句法分析方法及应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112765956A CN112765956A (zh) | 2021-05-07 |
CN112765956B true CN112765956B (zh) | 2023-06-20 |
Family
ID=75706700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110090317.9A Active CN112765956B (zh) | 2021-01-22 | 2021-01-22 | 基于多任务学习的依存句法分析方法及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112765956B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113468330B (zh) * | 2021-07-06 | 2023-04-28 | 北京有竹居网络技术有限公司 | 信息获取方法、装置、设备及介质 |
CN113221539B (zh) * | 2021-07-08 | 2021-09-24 | 华东交通大学 | 一种集成句法信息的嵌套命名实体识别方法与系统 |
CN113901791B (zh) * | 2021-09-15 | 2022-09-23 | 昆明理工大学 | 低资源条件下融合多策略数据增强的依存句法分析方法 |
CN113780008B (zh) * | 2021-11-15 | 2022-03-04 | 腾讯科技(深圳)有限公司 | 描述文本中目标词的确定方法、装置、设备以及存储介质 |
CN115391608B (zh) * | 2022-08-23 | 2023-05-23 | 哈尔滨工业大学 | 一种图到图结构的自动标注转换方法 |
CN117350276B (zh) * | 2023-12-05 | 2024-02-13 | 卓世未来(天津)科技有限公司 | 一种数据增强方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330049A (zh) * | 2017-06-28 | 2017-11-07 | 北京搜狐新媒体信息技术有限公司 | 一种新闻热度预估方法及系统 |
CN111858954A (zh) * | 2020-06-29 | 2020-10-30 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 面向任务的文本生成图像网络模型 |
-
2021
- 2021-01-22 CN CN202110090317.9A patent/CN112765956B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330049A (zh) * | 2017-06-28 | 2017-11-07 | 北京搜狐新媒体信息技术有限公司 | 一种新闻热度预估方法及系统 |
CN111858954A (zh) * | 2020-06-29 | 2020-10-30 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 面向任务的文本生成图像网络模型 |
Non-Patent Citations (1)
Title |
---|
基于深度学习的关系抽取研究综述;庄传志;靳小龙;朱伟建;刘静伟;白龙;程学旗;;中文信息学报(第12期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112765956A (zh) | 2021-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112765956B (zh) | 基于多任务学习的依存句法分析方法及应用 | |
Chang et al. | Chinese named entity recognition method based on BERT | |
Dos Santos et al. | Deep convolutional neural networks for sentiment analysis of short texts | |
Ban et al. | [Retracted] Design of English Automatic Translation System Based on Machine Intelligent Translation and Secure Internet of Things | |
CN112541356B (zh) | 一种生物医学命名实体识别的方法和系统 | |
He et al. | A survey on recent advances in sequence labeling from deep learning models | |
Gao et al. | Named entity recognition method of Chinese EMR based on BERT-BiLSTM-CRF | |
Ren et al. | Detecting the scope of negation and speculation in biomedical texts by using recursive neural network | |
CN113657123A (zh) | 基于目标模板指导和关系头编码的蒙语方面级情感分析方法 | |
CN114358201A (zh) | 基于文本的情感分类方法和装置、计算机设备、存储介质 | |
El Desouki et al. | Exploring the recent trends of paraphrase detection | |
CN115169349A (zh) | 基于albert的中文电子简历命名实体识别方法 | |
Alian et al. | Paraphrasing identification techniques in English and Arabic texts | |
CN110210033B (zh) | 基于主述位理论的汉语基本篇章单元识别方法 | |
WO2023159759A1 (zh) | 模型的训练方法、情感消息生成方法和装置、设备、介质 | |
Hu et al. | Enhanced word embedding method in text classification | |
Hsu et al. | Recurrent neural network encoder with attention for community question answering | |
Xu | Research on neural network machine translation model based on entity tagging improvement | |
Putra et al. | Textual Entailment Technique for the Bahasa Using BiLSTM | |
Wei | Research on internet text sentiment classification based on BERT and CNN-BiGRU | |
Aliwy et al. | Key challenges and proposed solutions to design sentiment analysis system | |
Ma et al. | A Hybrid Model Based on Multi-level External Knowledge for Chinese Semantic Matching | |
Sun et al. | Study of Natural Language Understanding | |
Yang et al. | Applications research of machine learning algorithm in translation system | |
Zheng et al. | Terminology extraction of new energy vehicle patent texts based on BERT-BILSTM-CRF |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |