CN110889284B - 一种基于双向长短时记忆网络的多任务学习中文语病诊断方法 - Google Patents

一种基于双向长短时记忆网络的多任务学习中文语病诊断方法 Download PDF

Info

Publication number
CN110889284B
CN110889284B CN201911224397.1A CN201911224397A CN110889284B CN 110889284 B CN110889284 B CN 110889284B CN 201911224397 A CN201911224397 A CN 201911224397A CN 110889284 B CN110889284 B CN 110889284B
Authority
CN
China
Prior art keywords
word
lstm
sentence
tasks
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911224397.1A
Other languages
English (en)
Other versions
CN110889284A (zh
Inventor
田文洪
黎在万
高印权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Zhongke Cluster Information Technology Co ltd
Original Assignee
Chengdu Zhongke Cluster Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Zhongke Cluster Information Technology Co ltd filed Critical Chengdu Zhongke Cluster Information Technology Co ltd
Priority to CN201911224397.1A priority Critical patent/CN110889284B/zh
Publication of CN110889284A publication Critical patent/CN110889284A/zh
Application granted granted Critical
Publication of CN110889284B publication Critical patent/CN110889284B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于双向长短时记忆网络的多任务学习中文语病诊断方法,包括:获取近年来中文语法错误诊断任务(Chinese Grammatical Error Diagnosis,CGED)提供的汉语水平考试作文批改数据集;采用融合字嵌入获得模型输入序列,充分利用文本特征,提升诊断效果;将获得的输入序列输入到Bi‑LSTM,通过神经网络的学习获得中文语法错误诊断模型;采用多任务学习的方法,以检测句子是否有语病为主任务,检测句子的语病类型以及错误的位置为辅任务,多任务之间共享隐藏层参数,保留任务相关的输出层;本发明充分利用了检测中文语句是否有语病任务与检测语病类型和错误位置任务之间的关联性,解决了在检测中文语句是否有语病任务中,由于没有较好的特征导致检测效果不好的问题,同时由于多任务共同优化,在一定程度上提升了模型的泛化能力。

Description

一种基于双向长短时记忆网络的多任务学习中文语病诊断方法
技术领域
本发明涉及计算机技术领域,特别涉及一种基于双向长短时记忆网络的多任务学习中文语病诊断方法。
背景技术
汉语被认为是世界上最难懂的语言之一。与英语不同,汉语没有动词时态和复数,在汉语中通常有多种表达相同意思的方式。因此,母语非汉语的人在写作中经常犯各种语法错误,汉语语法错误诊断的研究已成为一个亟待解决的课题。
从语法上来说,由于汉语本身的特点和汉语理论研究的局限性,使中文语法校对的难度要高于英文。语法错误检查的困难在于:汉语的词类没有形态的变化、词类和句法成分之间不存在简单的对应关系、汉语词序的灵活性等汉语本身的特点使得汉语的语法分析存在很大的难度。
汉语语法错误诊断的目标是建立一个能够自动诊断汉语句子错误的系统。目前,基于深度学习的方法被广泛的应用到自然语言处理问题的解决中。该类方法相较于传统的方法能够大幅度减少特征工程的工作量,在节省人工的同时,也能取得较好的效果。双向长短时记忆神经网络是循环神经网络的一个拓展。循环神经网络能够针对时间序列进行建模,有效的捕捉时间序列上的信息传递特征。它与自然语言文本中词汇的前后顺序关系非常的契合。因此,在很多自然语言处理任务中,循环神经网络都能取得不错的效果。
发明内容
本发明要解决的技术问题是:提供一种基于双向长短时记忆网络的多任务中文语病诊断算法,解决汉语写作中经常出现的语法错误。
一种基于双向长短时记忆网络的多任务中文语病诊断算法,其特征在于,所述系统包括数据集模块、分词模块、特征模块和多任务双向长短时记忆网络学习模块。
数据集模块用于分配训练集与测试集的数据,所述数据中包括语料的数量,语料中句子的语病分类、位置标注和训练测试的数量分配。
所述分词模块用于对数据进行分词和词性标注,用于下一步处理。
特征模块包含6种不同的句子特征,分别是字向量、二元字向量、词性向量、词性得分、句法成分向量、点互信息向量。
一种基于双向长短时记忆网络(Bidirectional Long Short-Term Memory,Bi-LSTM)的多任务学习(Multi-task Learning,MTL)中文语病诊断方法,其特征包括,
采用融合字嵌入构建字向量作为模型输入;采用Bi-LSTM作为神经网络隐藏层;采用MTL机制,使多任务共享隐藏层参数,保留任务相关的输出层;采用对多任务的损失函数加权的方法形成最终的损失函数,进而进行反向传播使损失函数最小化;
采用融合字嵌入的方式构建字向量,将字特征向量拼接在一起作为表示具体字的融合字向量,字特征向量拼接包括:字向量,对句子分词后预训练词向量,采用BIO标注方法将词向量表示为每个字的字向量;二元字向量,每个字与其左右相邻字组合成两个二元字,并预训练该二元字向量;词性向量,对句子分词后获得词性,采用BIO标注方法将词性表示为每个字的词性向量;词性得分向量,通过每个词性标签的离散概率计算出词性得分,该离散概率由Gigawords语料训练而得;句法成分向量,对句子分词后获得依存句法对象,采用BIO标注方法将其依存句法对象的Head元素表示为每个字的句法成分向量;点互信息向量,计算两个词语之间的搭配程度,从统计的角度发现词语共现的情况来分析出词语间是否存在语义相关,其计算公式为:
Figure GDA0004074096440000031
其中P(w1)表示词w1在语料中出现的概率,P(w1,w2)表示词w1和w2在一个句子中同时出现的概率;
采用对多任务的损失函数加权的方法形成最终优化的目标损失函数,进而进行反向传播使损失函数最小化,模型的网络结构包括:Task1为判断句子是否有错,为2分类问题,Task2为给有错的句子进行错误标注,Task1和Task2共享Bi-LSTM隐藏层,Task1将Bi-LSTM隐藏层的结果输入到attention层中,再经过softmax层归一化,最后计算Task1的损失值;Task2是序列标注问题,将Bi-LSTM隐藏层的结果经过softmax层归一化后输入到一层CRF中,CRF加入了标签之间的转移特征,充分考虑了输出标签之间的顺序性;最后通过对Task1和Task2的损失值进行加权,得到最终的损失值,损失值的权重是通过训练不断优化更新的。
采用Bi-LSTM作为神经网络隐藏层,LSTM的输入是上一时刻的隐藏单元状态和当前时刻的输入字向量,输出是对应到细胞状态的每一个单元的信息乘数因子;该乘数因子的大小控制着信息的输入、遗忘和输出百分比;LSTM包含遗忘门、输入门和输出门这三个门结构:
遗忘门是计算上一个时刻细胞的状态到当前时刻细胞状态信息保留的权重,控制了内部细胞状态随时间改变的自环;
输入门是决定这一时刻的输入整合加入到当前细胞状态中的权重,所以,当前时刻的细胞状态的更新是由上一时刻的状态经过遗忘门后的值与上这一时刻输入经过输入门选择后结果相加得到;
输出门是计算当前的细胞状态输出到隐藏层状态中权重;
Bi-LSTM是由前向的LSTM与后向的LSTM结合而成,其隐藏层状态是由将前向和后向的隐藏层状态拼接得到。
采用MTL机制,利用任务之间的关联性,通过联合训练提升模型的性能,多任务学习深度神经网络在训练时,通过共享Bi-LSTM隐藏层,保留任务相关的输出层,采用层级架构的注意力机制(Attention)作为任务1的输出层,采用条件随机场(Conditional RandomField,CRF)作为任务2的输出层,充分考虑输出标签之间的顺序性,多个任务同时进行损失函数的反向传播。
所述双向长短时记忆网络多任务学习模块将从所述数据源模块与分词模块和特征模块中获得的6种特征分别训练成不同维度的词向量,再将其拼接。词向量拼接之后,输入到双向长短时记忆网络中进行训练学习。采用多任务学习的方法,以检测句子是否有语病为主任务,检测句子的语病类型以及错误的位置为辅任务,多任务之间共享双向长短时记忆网络隐藏层参数;同时多任务之间保留任务相关的输出层,将隐藏层结果输出到各自的激活函数层中,并加权计算最终的损失值。多任务学习的底层权重共享的机制可以充分挖掘句子是否有语法错误和句子语法错误类型之间的关联,增强底层网络的特征提取能力。同时,方案中的融合词嵌入的方法能够充分挖掘文本的自身信息。
本发明的前景是广阔的,本发明可以解决汉语语法错误的问题。因此该发明能够有效的提升对话系统、自动问答等系统的性能,对多种自然语言处理任务的解决起到辅助作用。
附图说明
图1是本发明一种实施例的模型输入融合字嵌入示意图。
图2是本发明一种实施例的模型结构示意图。
具体实施方式
本发明的实施分为模型的训练和模型的使用两个部分。下面根据附图和实施例,对本发明的具体实施方式作进一步详细说明。以下实施例用于说明本发明,但不用来限制本发明的范围。
图2是本发明一种实施例的模型结构示意图。
该双向长短时记忆网络多任务学习的句子语病检测模型如图2所示。其中,task1为句子语病分类任务,task2为句子语病类型和位置检测任务。模型采用Bi-LSTM,隐藏层是task1和task2共享的网络,用于提取任务通用的特征。然后将隐藏层的结果输出到任务各自的激活函数层中,task1加入attention层做是否有语病的二分类任务;task2加入CRF层对句子进行序列标注,对每个字进行错误类型标注,标注后获取有语病错误的字的位置。最后通过加权计算多任务最终的损失值。
每个时刻的输入词向量是融合词嵌入,即由七个部分连接而得,代表由Word2vec生成的字向量,代表word2vec生成的二元字向量,代表由词性的词嵌入方法生成的词向量,代表通过每个词性标签的离散概率而得到的词性得分,代表句法成分向量,代表两个词语之间的搭配程度。其公式如下所示:
按照该顺序将task1和task2的输入字向量输入到Bi-LSTM中。其公式如下所示:
Figure GDA0004074096440000061
task1使用交叉熵(Cross Entropy)作为损失函数,task2使用CRF计算损失值。其公式如下所示:
Figure GDA0004074096440000062
Figure GDA0004074096440000063
Figure GDA0004074096440000064
Loss=a1losstask1+a2losstask2
其中,
Figure GDA0004074096440000071
表示隐藏层的输出,表示预测值,
Figure GDA0004074096440000072
表示对输入序列X所对应的每个输出标签序列y的得分,和为task1和task2的损失权重,Loss为需要优化的加权损失函数。
该网络结构设计旨在使用共享结构进行训练学习到两种任务所共同具有的特征,针对具体任务的网络训练学习到具体的任务的特征。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (3)

1.一种基于双向长短时记忆网络(Bidirectional Long Short-Term Memory,Bi-LSTM)的多任务学习(Multi-task Learning, MTL)中文语病诊断方法,其特征包括:
采用融合字嵌入构建字向量作为模型输入;采用Bi-LSTM作为神经网络隐藏层;采用MTL机制,使多任务共享隐藏层参数,保留任务相关的输出层;采用对多任务的损失函数加权的方法形成最终的损失函数,进而进行反向传播使损失函数最小化;
采用融合字嵌入的方式构建字向量,将字特征向量拼接在一起作为表示具体字的融合字向量,字特征向量拼接包括:字向量,对句子分词后预训练词向量,采用BIO标注方法将词向量表示为每个字的字向量;二元字向量,每个字与其左右相邻字组合成两个二元字,并预训练该二元字向量;词性向量,对句子分词后获得词性,采用BIO标注方法将词性表示为每个字的词性向量;词性得分向量,通过每个词性标签的离散概率计算出词性得分,该离散概率由Gigawords语料训练而得;句法成分向量,对句子分词后获得依存句法对象,采用BIO标注方法将其依存句法对象的Head元素表示为每个字的句法成分向量;点互信息向量,计算两个词语之间的搭配程度,从统计的角度发现词语共现的情况来分析出词语间是否存在语义相关,其计算公式为:
其中表示词在语料中出现的概率,表示词w1和w2在一个句子中同时出现的概率;
采用对多任务的损失函数加权的方法形成最终优化的目标损失函数,进而进行反向传播使损失函数最小化,模型的网络结构包括:Task1为判断句子是否有错,为2分类问题,Task2为给有错的句子进行错误标注,Task1和Task2共享Bi-LSTM隐藏层,Task1将Bi-LSTM隐藏层的结果输入到attention层中,再经过softmax层归一化,最后计算Task1的损失值;Task2是序列标注问题,将Bi-LSTM隐藏层的结果经过softmax层归一化后输入到一层CRF中,CRF加入了标签之间的转移特征,充分考虑了输出标签之间的顺序性;最后通过对Task1和Task2的损失值进行加权,得到最终的损失值,损失值的权重是通过训练不断优化更新的。
2.根据权利要求1所述的基于双向长短时记忆网络的多任务学习中文语病诊断方法,其特征在于采用Bi-LSTM作为神经网络隐藏层,LSTM的输入是上一时刻的隐藏单元状态和当前时刻的输入字向量,输出是对应到细胞状态的每一个单元的信息乘数因子;该乘数因子的大小控制着信息的输入、遗忘和输出百分比;LSTM包含遗忘门、输入门和输出门这三个门结构:
遗忘门是计算上一个时刻细胞的状态到当前时刻细胞状态信息保留的权重,控制了内部细胞状态随时间改变的自环;
输入门是决定这一时刻的输入整合加入到当前细胞状态中的权重,所以,当前时刻的细胞状态的更新是由上一时刻的状态经过遗忘门后的值与上这一时刻输入经过输入门选择后结果相加得到;
输出门是计算当前的细胞状态输出到隐藏层状态中权重;
Bi-LSTM是由前向的LSTM与后向的LSTM结合而成,其隐藏层状态是由将前向和后向的隐藏层状态拼接得到。
3.根据权利要求1所述的基于双向长短时记忆网络的多任务学习中文语病诊断方法,其特征在于采用MTL机制,利用任务之间的关联性,通过联合训练提升模型的性能,多任务学习深度神经网络在训练时,通过共享Bi-LSTM隐藏层,保留任务相关的输出层,采用层级架构的注意力机制(Attention)作为任务1的输出层,采用条件随机场(ConditionalRandom Field, CRF)作为任务2的输出层,充分考虑输出标签之间的顺序性,多个任务同时进行损失函数的反向传播。
CN201911224397.1A 2019-12-04 2019-12-04 一种基于双向长短时记忆网络的多任务学习中文语病诊断方法 Active CN110889284B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911224397.1A CN110889284B (zh) 2019-12-04 2019-12-04 一种基于双向长短时记忆网络的多任务学习中文语病诊断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911224397.1A CN110889284B (zh) 2019-12-04 2019-12-04 一种基于双向长短时记忆网络的多任务学习中文语病诊断方法

Publications (2)

Publication Number Publication Date
CN110889284A CN110889284A (zh) 2020-03-17
CN110889284B true CN110889284B (zh) 2023-04-07

Family

ID=69750254

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911224397.1A Active CN110889284B (zh) 2019-12-04 2019-12-04 一种基于双向长短时记忆网络的多任务学习中文语病诊断方法

Country Status (1)

Country Link
CN (1) CN110889284B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364631B (zh) * 2020-09-21 2022-08-02 山东财经大学 基于层级多任务学习的中文语法错误检测方法及系统
CN114611497B (zh) * 2022-05-10 2022-08-16 北京世纪好未来教育科技有限公司 语病诊断模型的训练方法、语病诊断方法、装置及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105045779A (zh) * 2015-07-13 2015-11-11 北京大学 一种基于深度神经网络与多标记分类的病句检测方法
CN108959260A (zh) * 2018-07-06 2018-12-07 北京邮电大学 一种基于文本化词向量的中文语法错误检测方法
CN108984525A (zh) * 2018-07-06 2018-12-11 北京邮电大学 一种基于加入文本信息的词向量的中文语法错误检测方法
WO2019024050A1 (en) * 2017-08-03 2019-02-07 Lingochamp Information Technology (Shanghai) Co., Ltd. CORRECTION OF GRAMMAR ERRORS BASED ON DEEP CONTEXT AND USING ARTIFICIAL NEURAL NETWORKS
CN109460466A (zh) * 2018-09-20 2019-03-12 电子科技大学 一种基于多任务双向长短时记忆网络的隐式句间关系分析方法
CN109948152A (zh) * 2019-03-06 2019-06-28 北京工商大学 一种基于lstm的中文文本语法纠错模型方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105045779A (zh) * 2015-07-13 2015-11-11 北京大学 一种基于深度神经网络与多标记分类的病句检测方法
WO2019024050A1 (en) * 2017-08-03 2019-02-07 Lingochamp Information Technology (Shanghai) Co., Ltd. CORRECTION OF GRAMMAR ERRORS BASED ON DEEP CONTEXT AND USING ARTIFICIAL NEURAL NETWORKS
CN108959260A (zh) * 2018-07-06 2018-12-07 北京邮电大学 一种基于文本化词向量的中文语法错误检测方法
CN108984525A (zh) * 2018-07-06 2018-12-11 北京邮电大学 一种基于加入文本信息的词向量的中文语法错误检测方法
CN109460466A (zh) * 2018-09-20 2019-03-12 电子科技大学 一种基于多任务双向长短时记忆网络的隐式句间关系分析方法
CN109948152A (zh) * 2019-03-06 2019-06-28 北京工商大学 一种基于lstm的中文文本语法纠错模型方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
田文洪 ; 高印权 ; 黄厚文 ; 黎在万 ; 张朝阳 ; .基于多任务双向长短时记忆网络的隐式句间关系分析.中文信息学报.2019,(第05期),52-58. *
谭咏梅 ; 杨一枭 ; 杨林 ; 刘姝雯 ; .基于LSTM和N-gram的ESL文章的语法错误自动纠正方法.中文信息学报.2018,(第06期),24-32. *

Also Published As

Publication number Publication date
CN110889284A (zh) 2020-03-17

Similar Documents

Publication Publication Date Title
Guo et al. Long text generation via adversarial training with leaked information
Keneshloo et al. Deep reinforcement learning for sequence-to-sequence models
Yao et al. An improved LSTM structure for natural language processing
CN108962224B (zh) 口语理解和语言模型联合建模方法、对话方法及系统
CN109344413B (zh) 翻译处理方法、装置、计算机设备和计算机可读存储介质
Chen et al. A semantics-assisted video captioning model trained with scheduled sampling
CN112560479B (zh) 摘要抽取模型训练方法、摘要抽取方法、装置和电子设备
CN111062217B (zh) 语言信息的处理方法、装置、存储介质及电子设备
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN113743099B (zh) 基于自注意力机制方面术语提取系统、方法、介质、终端
Zhang et al. Image captioning via semantic element embedding
Peng et al. Unsupervised cross-domain named entity recognition using entity-aware adversarial training
Shi et al. Improving neural machine translation with sentence alignment learning
CN113723105A (zh) 语义特征提取模型的训练方法、装置、设备及存储介质
Zhang et al. A multi-feature fusion model for Chinese relation extraction with entity sense
CN110889284B (zh) 一种基于双向长短时记忆网络的多任务学习中文语病诊断方法
Dethlefs Domain transfer for deep natural language generation from abstract meaning representations
CN114492441A (zh) 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法
Lin et al. Deep selective memory network with selective attention and inter-aspect modeling for aspect level sentiment classification
CN113657115A (zh) 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
Guo et al. Who is answering whom? Finding “Reply-To” relations in group chats with deep bidirectional LSTM networks
Jiang et al. Modeling coverage with semantic embedding for image caption generation
CN112084788B (zh) 一种影像字幕隐式情感倾向自动标注方法及系统
CN113705207A (zh) 语法错误识别方法及装置
Zhang et al. Combining part-of-speech tags and self-attention mechanism for simile recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant