CN110889284B

CN110889284B - 一种基于双向长短时记忆网络的多任务学习中文语病诊断方法

Info

Publication number: CN110889284B
Application number: CN201911224397.1A
Authority: CN
Inventors: 田文洪; 黎在万; 高印权
Original assignee: Chengdu Zhongke Cluster Information Technology Co ltd
Current assignee: Chengdu Zhongke Cluster Information Technology Co ltd
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2023-04-07
Anticipated expiration: 2039-12-04
Also published as: CN110889284A

Abstract

本发明提供一种基于双向长短时记忆网络的多任务学习中文语病诊断方法，包括：获取近年来中文语法错误诊断任务(Chinese Grammatical Error Diagnosis，CGED)提供的汉语水平考试作文批改数据集；采用融合字嵌入获得模型输入序列，充分利用文本特征，提升诊断效果；将获得的输入序列输入到Bi‑LSTM，通过神经网络的学习获得中文语法错误诊断模型；采用多任务学习的方法，以检测句子是否有语病为主任务，检测句子的语病类型以及错误的位置为辅任务，多任务之间共享隐藏层参数，保留任务相关的输出层；本发明充分利用了检测中文语句是否有语病任务与检测语病类型和错误位置任务之间的关联性，解决了在检测中文语句是否有语病任务中，由于没有较好的特征导致检测效果不好的问题，同时由于多任务共同优化，在一定程度上提升了模型的泛化能力。

Description

一种基于双向长短时记忆网络的多任务学习中文语病诊断方法

技术领域

本发明涉及计算机技术领域，特别涉及一种基于双向长短时记忆网络的多任务学习中文语病诊断方法。

背景技术

汉语被认为是世界上最难懂的语言之一。与英语不同，汉语没有动词时态和复数，在汉语中通常有多种表达相同意思的方式。因此，母语非汉语的人在写作中经常犯各种语法错误，汉语语法错误诊断的研究已成为一个亟待解决的课题。

从语法上来说，由于汉语本身的特点和汉语理论研究的局限性，使中文语法校对的难度要高于英文。语法错误检查的困难在于：汉语的词类没有形态的变化、词类和句法成分之间不存在简单的对应关系、汉语词序的灵活性等汉语本身的特点使得汉语的语法分析存在很大的难度。

汉语语法错误诊断的目标是建立一个能够自动诊断汉语句子错误的系统。目前，基于深度学习的方法被广泛的应用到自然语言处理问题的解决中。该类方法相较于传统的方法能够大幅度减少特征工程的工作量，在节省人工的同时，也能取得较好的效果。双向长短时记忆神经网络是循环神经网络的一个拓展。循环神经网络能够针对时间序列进行建模，有效的捕捉时间序列上的信息传递特征。它与自然语言文本中词汇的前后顺序关系非常的契合。因此，在很多自然语言处理任务中，循环神经网络都能取得不错的效果。

发明内容

本发明要解决的技术问题是：提供一种基于双向长短时记忆网络的多任务中文语病诊断算法，解决汉语写作中经常出现的语法错误。

一种基于双向长短时记忆网络的多任务中文语病诊断算法，其特征在于，所述系统包括数据集模块、分词模块、特征模块和多任务双向长短时记忆网络学习模块。

数据集模块用于分配训练集与测试集的数据，所述数据中包括语料的数量，语料中句子的语病分类、位置标注和训练测试的数量分配。

所述分词模块用于对数据进行分词和词性标注，用于下一步处理。

特征模块包含6种不同的句子特征，分别是字向量、二元字向量、词性向量、词性得分、句法成分向量、点互信息向量。

一种基于双向长短时记忆网络(Bidirectional Long Short-Term Memory，Bi-LSTM)的多任务学习(Multi-task Learning，MTL)中文语病诊断方法，其特征包括，

采用融合字嵌入构建字向量作为模型输入；采用Bi-LSTM作为神经网络隐藏层；采用MTL机制，使多任务共享隐藏层参数，保留任务相关的输出层；采用对多任务的损失函数加权的方法形成最终的损失函数，进而进行反向传播使损失函数最小化；

采用融合字嵌入的方式构建字向量，将字特征向量拼接在一起作为表示具体字的融合字向量，字特征向量拼接包括：字向量，对句子分词后预训练词向量，采用BIO标注方法将词向量表示为每个字的字向量；二元字向量，每个字与其左右相邻字组合成两个二元字，并预训练该二元字向量；词性向量，对句子分词后获得词性，采用BIO标注方法将词性表示为每个字的词性向量；词性得分向量，通过每个词性标签的离散概率计算出词性得分，该离散概率由Gigawords语料训练而得；句法成分向量，对句子分词后获得依存句法对象，采用BIO标注方法将其依存句法对象的Head元素表示为每个字的句法成分向量；点互信息向量，计算两个词语之间的搭配程度，从统计的角度发现词语共现的情况来分析出词语间是否存在语义相关，其计算公式为：

其中P(w₁)表示词w₁在语料中出现的概率，P(w₁，w₂)表示词w₁和w₂在一个句子中同时出现的概率；

采用对多任务的损失函数加权的方法形成最终优化的目标损失函数，进而进行反向传播使损失函数最小化，模型的网络结构包括：Task1为判断句子是否有错，为2分类问题，Task2为给有错的句子进行错误标注，Task1和Task2共享Bi-LSTM隐藏层，Task1将Bi-LSTM隐藏层的结果输入到attention层中，再经过softmax层归一化，最后计算Task1的损失值；Task2是序列标注问题，将Bi-LSTM隐藏层的结果经过softmax层归一化后输入到一层CRF中，CRF加入了标签之间的转移特征，充分考虑了输出标签之间的顺序性；最后通过对Task1和Task2的损失值进行加权，得到最终的损失值，损失值的权重是通过训练不断优化更新的。

采用Bi-LSTM作为神经网络隐藏层，LSTM的输入是上一时刻的隐藏单元状态和当前时刻的输入字向量，输出是对应到细胞状态的每一个单元的信息乘数因子；该乘数因子的大小控制着信息的输入、遗忘和输出百分比；LSTM包含遗忘门、输入门和输出门这三个门结构：

遗忘门是计算上一个时刻细胞的状态到当前时刻细胞状态信息保留的权重，控制了内部细胞状态随时间改变的自环；

输入门是决定这一时刻的输入整合加入到当前细胞状态中的权重，所以，当前时刻的细胞状态的更新是由上一时刻的状态经过遗忘门后的值与上这一时刻输入经过输入门选择后结果相加得到；

输出门是计算当前的细胞状态输出到隐藏层状态中权重；

Bi-LSTM是由前向的LSTM与后向的LSTM结合而成，其隐藏层状态是由将前向和后向的隐藏层状态拼接得到。

采用MTL机制，利用任务之间的关联性，通过联合训练提升模型的性能，多任务学习深度神经网络在训练时，通过共享Bi-LSTM隐藏层，保留任务相关的输出层，采用层级架构的注意力机制(Attention)作为任务1的输出层，采用条件随机场(Conditional RandomField，CRF)作为任务2的输出层，充分考虑输出标签之间的顺序性，多个任务同时进行损失函数的反向传播。

所述双向长短时记忆网络多任务学习模块将从所述数据源模块与分词模块和特征模块中获得的6种特征分别训练成不同维度的词向量，再将其拼接。词向量拼接之后，输入到双向长短时记忆网络中进行训练学习。采用多任务学习的方法，以检测句子是否有语病为主任务，检测句子的语病类型以及错误的位置为辅任务，多任务之间共享双向长短时记忆网络隐藏层参数；同时多任务之间保留任务相关的输出层，将隐藏层结果输出到各自的激活函数层中，并加权计算最终的损失值。多任务学习的底层权重共享的机制可以充分挖掘句子是否有语法错误和句子语法错误类型之间的关联，增强底层网络的特征提取能力。同时，方案中的融合词嵌入的方法能够充分挖掘文本的自身信息。

本发明的前景是广阔的，本发明可以解决汉语语法错误的问题。因此该发明能够有效的提升对话系统、自动问答等系统的性能，对多种自然语言处理任务的解决起到辅助作用。

附图说明

图1是本发明一种实施例的模型输入融合字嵌入示意图。

图2是本发明一种实施例的模型结构示意图。

具体实施方式

本发明的实施分为模型的训练和模型的使用两个部分。下面根据附图和实施例，对本发明的具体实施方式作进一步详细说明。以下实施例用于说明本发明，但不用来限制本发明的范围。

图2是本发明一种实施例的模型结构示意图。

该双向长短时记忆网络多任务学习的句子语病检测模型如图2所示。其中，task1为句子语病分类任务，task2为句子语病类型和位置检测任务。模型采用Bi-LSTM，隐藏层是task1和task2共享的网络，用于提取任务通用的特征。然后将隐藏层的结果输出到任务各自的激活函数层中，task1加入attention层做是否有语病的二分类任务；task2加入CRF层对句子进行序列标注，对每个字进行错误类型标注，标注后获取有语病错误的字的位置。最后通过加权计算多任务最终的损失值。

每个时刻的输入词向量是融合词嵌入，即由七个部分连接而得，代表由Word2vec生成的字向量，代表word2vec生成的二元字向量，代表由词性的词嵌入方法生成的词向量，代表通过每个词性标签的离散概率而得到的词性得分，代表句法成分向量，代表两个词语之间的搭配程度。其公式如下所示：

按照该顺序将task1和task2的输入字向量输入到Bi-LSTM中。其公式如下所示：

task1使用交叉熵(Cross Entropy)作为损失函数，task2使用CRF计算损失值。其公式如下所示：

Loss＝a₁loss_task1+a₂loss_task2

其中，

表示隐藏层的输出，表示预测值，

表示对输入序列X所对应的每个输出标签序列y的得分，和为task1和task2的损失权重，Loss为需要优化的加权损失函数。

该网络结构设计旨在使用共享结构进行训练学习到两种任务所共同具有的特征，针对具体任务的网络训练学习到具体的任务的特征。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于双向长短时记忆网络(Bidirectional Long Short-Term Memory,Bi-LSTM)的多任务学习(Multi-task Learning, MTL)中文语病诊断方法，其特征包括：

其中表示词在语料中出现的概率，表示词w₁和w₂在一个句子中同时出现的概率；

采用对多任务的损失函数加权的方法形成最终优化的目标损失函数，进而进行反向传播使损失函数最小化，模型的网络结构包括：Task1为判断句子是否有错，为2分类问题，Task2为给有错的句子进行错误标注，Task1和Task2共享Bi-LSTM隐藏层，Task1将Bi-LSTM隐藏层的结果输入到attention层中，再经过softmax层归一化，最后计算Task1的损失值；Task2是序列标注问题，将Bi-LSTM隐藏层的结果经过softmax层归一化后输入到一层CRF中，CRF加入了标签之间的转移特征，充分考虑了输出标签之间的顺序性;最后通过对Task1和Task2的损失值进行加权，得到最终的损失值，损失值的权重是通过训练不断优化更新的。

2.根据权利要求1所述的基于双向长短时记忆网络的多任务学习中文语病诊断方法，其特征在于采用Bi-LSTM作为神经网络隐藏层，LSTM的输入是上一时刻的隐藏单元状态和当前时刻的输入字向量，输出是对应到细胞状态的每一个单元的信息乘数因子；该乘数因子的大小控制着信息的输入、遗忘和输出百分比；LSTM包含遗忘门、输入门和输出门这三个门结构：

输出门是计算当前的细胞状态输出到隐藏层状态中权重；

3.根据权利要求1所述的基于双向长短时记忆网络的多任务学习中文语病诊断方法，其特征在于采用MTL机制，利用任务之间的关联性，通过联合训练提升模型的性能，多任务学习深度神经网络在训练时，通过共享Bi-LSTM隐藏层，保留任务相关的输出层，采用层级架构的注意力机制(Attention)作为任务1的输出层，采用条件随机场(ConditionalRandom Field, CRF)作为任务2的输出层，充分考虑输出标签之间的顺序性，多个任务同时进行损失函数的反向传播。