CN111767718B - 一种基于弱化语法错误特征表示的中文语法错误更正方法 - Google Patents

一种基于弱化语法错误特征表示的中文语法错误更正方法 Download PDF

Info

Publication number
CN111767718B
CN111767718B CN202010636770.0A CN202010636770A CN111767718B CN 111767718 B CN111767718 B CN 111767718B CN 202010636770 A CN202010636770 A CN 202010636770A CN 111767718 B CN111767718 B CN 111767718B
Authority
CN
China
Prior art keywords
character
text
corrected
layer
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010636770.0A
Other languages
English (en)
Other versions
CN111767718A (zh
Inventor
李思
梁景贵
陆树栋
李明正
孙忆南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202010636770.0A priority Critical patent/CN111767718B/zh
Publication of CN111767718A publication Critical patent/CN111767718A/zh
Application granted granted Critical
Publication of CN111767718B publication Critical patent/CN111767718B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于弱化语法错误特征表示的中文语法错误更正方法,在用于中文语法错误更正任务的Transformer神经网络的基础上,通过编码器所提取得到字符特征表示和上下文特征表示,为待纠错文本中每一个字符学习得到一个弱化因子。弱化因子能够通过联合方程将编码器提取得到的字符特征表示和上下文特征表示联合,使得编码器所提取得到的待纠错文本的特征表示中,语法错误的特征信息得到抑制,从而弱化了语法错误特征信息对中文语法错误更正模型的负面影响,提升了基于Transformer的序列到序列神经网络模型在中文语法错误更正任务中的性能。

Description

一种基于弱化语法错误特征表示的中文语法错误更正方法
技术领域
本发明涉及互联网技术领域,尤其涉及一种基于Transformer神经网络的中文语法错误更正方法。
背景技术
中文是世界上最古老、最复杂的一门语言之一。随着中国的不断发展,越来越多的外国人将中文作为第二语言进行学习。自动化地中文语法错误更正能够替代传统耗时耗力的人工中文语法错误更正,提高外国人学习中文的效率。同时,中文语法错误更正任务能够作为自然语言处理领域中生成任务的辅助任务,提高生成任务中生成文本的质量和合理性。因此,近年来中文语法错误更正任务引起了学术界和工业界的普遍关注。
中文语法错误更正任务即通过某种算法,使计算机自动地对包含语法错误的中文句子进行语法错误更正,输出正确的中文句子。目前,最普遍的中文语法错误更正方法是把语法错误更正任务作为翻译任务来完成。通过使用序列到序列神经网络模型,将包含语法错误的中文句子“翻译”为正确的中文句子。
现有用于中文语法错误更正的“翻译”技术,一部分方法是利用多模型,对包含语法错误的中文句子进行多次处理实现中文语法错误更正;另一部分方法则是直接改进序列到序列神经网络模型,加强序列到序列神经网络模型对中文句子的建模能力,实现中文语法错误更正。
如图1所示,现有技术之一的“A Two-Stage Model for Chinese GrammaticalError Correction”文章中,使用拼写检查(Spelling Check)+Transformer双模型进行中文语法错误更正。
对于拼写检查(Spelling Check)模型,首先利用JIEBA分词器和给定词典找出分词结果中未在给定词典内的词;其次,通过相似字符集合给出未在给定词典内的词的可能候选词集合;最后使用预训练好的5-gram语言模型在可能候选词集合中选择最高概率候选词,得到一次纠错结果。
对于Transformer神经网络模型,首先使用通过拼写检查(Spelling Check)模型得到的一次纠错结果作为编码器的输入;其次,编码器通过多头注意力对输入句子进行建模,得到输入句子的特征表示;最后解码器直接使用编码器提取得到的特征表示进行解码,得到二次纠错结果。
如图2所示,现有技术之二的“Improving Grammatical Error Correction viaPre-Training a Copy-Augmented Architecture with Unlabeled Data”文章中提出通过加入复制增强机制(Copy-Augmented)改进Transformer,解决语法纠错任务中未知词(OOV,Out Of Vocabulary)问题和部分词无需纠错问题。
首先,将待纠错句子作为Transformer模型编码器的输入,通过多头注意力对待纠错句子进行建模,得到待纠错句子的特征表示;其次,将待纠错句子的特征表示作为Transformer模型解码器的输入,解码得到解码器预测字符概率分布;同时,使用待纠错句子的特征表示和Transformer解码器最后一层的隐藏状态作为复制增强模块的输入,得到待纠错句子中每个字符被复制到解码器输出的复制概率分布;最后,联合解码器预测字符概率分布和待纠错句子中每个字符的复制概率分布得到每个预测字符的最终概率分布,最终概率分布如下所示:
Figure BDA0002568874920000011
其中,t表示解码器当前预测第t个字符;
Figure BDA0002568874920000012
表示Transformer解码器预测字符概率分布;
Figure BDA0002568874920000013
表示待纠错句子中每个字符的复制概率分布;
Figure BDA0002568874920000014
表示联合两个概率分布的平衡因子。
通过每个预测字符的最终概率分布,解码得到最优输出序列,完成语法错误更正任务。
发明人在研究过程中发现,对于“A Two-Stage Model for Chinese GrammaticalError Correction”、“Improving Grammatical Error Correction via Pre-Training aCopy-Augmented Architecture with Unlabeled Data”现有技术中,Transformer网络模型解码器直接使用由编码器所提取的待纠错句子的特征表示作为输入。其中该特征表示中包含了语法错误的特征信息,导致现有技术中Transformer神经网络模型被包含语法错误信息的特征表示所影响,在语法纠错任务中表现不佳。
发明内容
为了解决现有技术问题,本发明提供了一种基于弱化语法错误特征表示的中文错误更正方法。方案如下:
(1)将中文语法错误更正语料划分为待纠错文本数据和正确文本数据;
(2)将待纠错文本和正确文本的中文字符,利用相同字典,映射为向量表示,输入的待纠错文本和正确文本即数值化为每个字符向量列连接而成的数值矩阵;
(3)将步骤(2)中得到的待纠错文本数值矩阵输入编码器提取得到待纠错文本特征表示;
(4)将步骤(3)中得到的待纠错文本特征表示和步骤(2)中得到的正确文本数值矩阵作为解码器的两个输入,得到每一个预测字符概率分布;
(5)使用交叉熵损失函数,计算每一个预测字符的概率分布和真实字符之间的交叉熵损失,用反向传播算法(Back Propagation,BP)计算更新网络各层权重。
进一步的,非训练情况下,中文语法错误更正时,将步骤(1)~(5)予以替换,替换如下:
(1)将待纠错文本作为神经网络的输入;
(2)将待纠错文本中的中文字符,利用与训练过程中相同的字典,映射为向量表示,输入的待纠错文本即数值化为每个字符向量列连接而成的数值矩阵;
(3)将向量表示输入编码器,提取得到待纠错文本的特征表示;
(4)将待纠错文本的特征表示输入解码器,利用集束搜索算法(Beam Search)对字符进行逐个解码,得到最优输出序列,完成语法错误更正。
进一步的,所述步骤(2)中,将待纠错文本和正确文本的中文字符,利用相同字典,映射为向量表示,包括:
首先,随机初始化字符到字符向量的映射索引和字符向量矩阵;其次,通过映射索引将字符映射为对应的字符编号;再次,通过各个字符的字符编号取得字符向量矩阵中对应的字符向量;最后,将字符向量连接,各个字符的字符向量列连接而成的数值矩阵。
进一步的,所述步骤(3)中,将待纠错文本数值矩阵输入编码器提取得到待纠错文本的特征表示,具体包括:
首先,将待纠错文本数值矩阵或上层编码器层的输出输入至当前编码器层,通过多头注意力+全连接网络和上下文注意力+全连接网络分别提取得到待纠错文本中每一个字符在当前编码器层中的字符特征表示和上下文特征表示。
对于待纠错文本中每一个字符在当前编码器层中的字符特征表示的提取,计算如下:
Figure BDA0002568874920000021
Figure BDA0002568874920000022
其中,Hl-1为待纠错文本数值矩阵或上层编码器层的输出;
Figure BDA0002568874920000023
表示当前编码器层提取得到的字符特征表示;LN(·)为输入归一化函数;FFN(·)表示全连接网络;MultiHead(·)表示多头注意力模块;
其中,MultiHead(·)计算公式如下:
MultiHead(X)=Concat(head1,…,headh)WO
headi=Attention(Qi,Ki,Vi)
Qi,Ki,Vi=XWi Q,XWi K,XWi V
其中,Concat(·)表示向量拼接操作;WO表示输出连接权重矩阵;{Wi Q,Wi K,Wi V}表示多头注意力中第i个注意力头的权重矩阵;headi表示多头注意力中第i个注意力头的输出向量;Attention(·)表示自注意力机制;{Qi,Ki,Vi}表示query,key,value向量;
其中,Attention(·)计算公式如下:
Figure BDA0002568874920000031
其中,dk表示key向量的维度;softmax(·)表示归一化指数函数,计算公式如下:
Figure BDA0002568874920000032
其中,x为向量,xi为向量中第i个元素。
对于待纠错文本中每一个字符在当前编码器层中的上下文特征表示的提取,计算如下:
Figure BDA0002568874920000033
Figure BDA0002568874920000034
其中,Hl-1为待纠错文本数值矩阵或上层编码器层的输出;
Figure BDA0002568874920000035
表示当前编码器层提取得到的上下文特征表示;LN(·)为输入归一化函数;FFN(·)表示全连接网络;ContextAttn(·)表示上下文注意力模块;
其中,上下文注意力模块为多头注意力模块的一种变体,其计算过程与多头注意力模块相似。区别在于,在上下文注意力模块中,通过使用掩码,使自注意力机制能够提取得到待纠错文本中每一个字符在当前编码器层中的上下文特征表示,计算如下:
Figure BDA0002568874920000036
其中,Mij表示所加入掩码函数,计算公式如下:
Figure BDA0002568874920000037
其次,将提取得到的待纠错文本中每一个字符在当前编码器层中的字符特征表示和上下文特征表示输入至语法错误弱化模块,得到当前编码器层对待纠错文本中每一个字符的弱化因子,计算如下:
Figure BDA0002568874920000038
其中,
Figure BDA0002568874920000039
表示语法错误弱化模块学习得到的待纠错文本中每一个字符的弱化因子;LengthSentence表示输入的待纠错文本长度;
Figure BDA00025688749200000314
Figure BDA00025688749200000315
分别为待纠错文本中每一个字符在当前编码器层中的字符特征表示和上下文特征表示;
Figure BDA00025688749200000310
Figure BDA00025688749200000311
Figure BDA00025688749200000312
为权重矩阵;dmodel为特征表示的维度;tanh(·)、sigmoid(·)为激活函数;
其中,tanh(·)、sigmoid(·)计算公式如下:
Figure BDA00025688749200000313
Figure BDA0002568874920000041
再次,将提取得到的待纠错文本中每一个字符在当前编码器层中的字符特征表示和上下文特征表示以及待纠错文本中每一个字符的弱化因子通过联合方程联合,得到当前编码器层的输出。联合方程如下:
Figure BDA0002568874920000042
其中,⊙表示点积;Hl表示当前编码器层的最终输出。
最后,取编码器最终层的输出,作为待纠错文本的特征表示。
进一步的,所述步骤(4)中,将待纠错文本的特征表示和正确文本的数值矩阵作为解码器的两个输入,得到每一个预测字符的概率分布,具体包括:
首先,将正确文本的数值矩阵或上层解码器层的输出输入至当前解码器层中的掩码多头注意力网络,得到当前解码器层中掩码多头注意力网络层的输出:
Figure BDA0002568874920000043
其中,Dl-1表示正确文本的数值矩阵或上层解码器层的输出;
Figure BDA0002568874920000044
表示当前解码器层中掩码注意力网络层输出;LN(·)为输入归一化函数;MaskMultiHead(·)表示掩码多头注意力模块,掩码多头注意力网络与上下文注意力模块相似。区别在于,掩码多头注意力网络中,掩码函数如下:
Figure BDA0002568874920000045
其次,将待纠错文本的特征表示和当前解码器层中掩码多头注意力网络层的输出作为当前解码器层中多头注意力+全连接网络的两个输入,得到当前解码器层的最终输出:
Figure BDA0002568874920000046
Figure BDA0002568874920000047
其中,
Figure BDA0002568874920000048
表示当前解码器层中掩码注意力网络层输出;Dl表示当前解码器层的最终输出;HL表示编码器所提取的待纠错文本的特征表示;LN(·)为输入归一化函数;FFN(·)表示全连接网络;MultiHead(·)表示多头注意力模块;
其中,与编码器中的MultiHead(·)模块不同的是,解码器中的MultiHead(·)模块接受待纠错文本的特征表示和当前解码器层中掩码多头注意力网络层的输出作为其两个输入,计算公式如下:
MultiHead(X,Y)=Concat(head1,…,headh)WO
headi=Attention(Qi,Ki,Vi)
Qi,Ki,Vi=XWi Q,YWi K,YWi V
其中,Concat(·)表示向量拼接操作;WO表示输出连接权重矩阵;{Wi Q,Wi K,Wi V}表示多头注意力中第i个注意力头的权重矩阵;headi表示多头注意力中第i个注意力头的输出向量;Attention(·)表示自注意力机制;{Qi,Ki,Vi}表示query,key,value向量;
最后,取解码器最终层的输出,作为线性层的输入,并经过softmax函数计算得到每一个预测字符概率分布:
Figure BDA0002568874920000049
其中,P(·)表示每一个预测字符的概率分布;DL表示解码器最终层输出;
Figure BDA00025688749200000410
表示线性层权重矩阵;dmodel表示解码器最终层输出向量矩阵的维度;|V|表示语料库字典大小;
进一步的,所述步骤(5)中,使用交叉熵损失函数,计算每一个预测字符概率分布和真实字符之间的交叉熵损失,损失函数计算如下:
Figure BDA0002568874920000051
其中,T表示正确文本中所包含字符数;t表示解码器当前预测第t个字符;Pt(·)表示当前预测字符概率分布;yt表示当前预测字符对应正确字符。
本发明提供的一种基于弱化语法错误特征表示的中文语法错误更正方法,通过使用编码器中多头注意力+全连接网络和上下文注意力+全连接网络提取的字符特征表示和上下文特征表示,为待纠错文本中每一个字符学习一个弱化因子,并通过学习到的弱化因子联合字符特征表示和上下文特征表示,实现了弱化语法错误特征表示的中文语法错误更正方法,提升了基于Transformer的序列到序列神经网络模型在中文语法错误更正任务中的性能。
附图说明
图1为拼写检查(Spelling Check)+Transformer的双模型示意图;
图2为Copy-Augmented Transformer神经网络模型示意图;
图3为本发明的中文语法错误更正模型示意图;
图4为本发明的中文语法错误更正方法的流程图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
实施例一
参照图3,4所示,图3,4示出了本发明提供的一种基于弱化语法错误特征表示的中文语法错误更正方法。具体的,该方法包括:
(1)将中文语法错误更正语料划分为待纠错文本数据和正确文本数据;
(2)将待纠错文本和正确文本的中文字符,利用相同字典,映射为向量表示,输入的待纠错文本和正确文本即数值化为每个字符向量列连接而成的数值矩阵;
本实施例中,每一个字符设置映射向量维度为512,;本步骤通过一个映射字典实现,将字符映射稠密的向量表示。首先建立语料文本中字符到字符向量的映射字典,将文本中各个字符映射为相应的字符编号;其次,随机初始化字符向量矩阵,每一行行号对应相应的字符编号,每一行代表一个字符向量。通过字符向量矩阵将字符编号映射为相应的字符向量。连接语料文本中各个字符的字符向量形成的数值矩阵。假设中文字符共有N个,那么字符向量矩阵可以表示为一个(N+1)×512的矩阵,除了N个字符以外,还设置一个向量表示所有没有在语料文本中出现的字符,为未知字符。
(3)将步骤(2)中得到的待纠错文本数值矩阵输入编码器提取得到待纠错文本特征表示;
本实施例中,由编码器提取得到的每个字符特征的维度为512维,编码器层数设置为6层,编码器多头注意力模块注意力头数设置为8,编码器上下文注意力模块注意力头数设置为8,编码器所所学习到的每一个字符的弱化因子取值范围为0到1。
(4)将步骤(3)中得到的待纠错文本特征表示和步骤(2)中得到的正确文本数值矩阵作为解码器的两个输入,得到每一个预测字符概率分布;
本实施例中,解码器层数设置为6,解码器掩码多头注意力模块注意力头数设置为8,解码器多头注意力模块注意力头数设置为8,解码器线性层输入维度设置为512,解码器线性层输出维度设置为步骤(2)中所建立词典大小。
(5)使用交叉熵损失函数,计算每一个预测字符的概率分布和真实字符之间的交叉熵损失,用反向传播算法(Back Propagation,BP)计算更新网络各层权重;
进一步的,所述步骤(5)中,使用交叉熵损失函数,计算每一个预测字符概率分布和真实字符之间的交叉熵损失,损失函数计算如下:
Figure BDA0002568874920000061
其中,T表示正确文本中所包含字符数;t表示解码器当前预测第t个字符;Pt(·)表示当前预测字符概率分布;yt表示当前预测字符对应正确字符。
进一步的,非训练情况下,中文语法错误更正时,将步骤(1)~(5)予以替换,替换如下:
(1)将待纠错文本作为神经网络的输入;
(2)将待纠错文本中的中文字符,利用与训练过程中相同的字典,映射为向量表示,输入的待纠错文本即数值化为每个字符向量列连接而成的数值矩阵;
(3)将向量表示输入编码器,提取得到待纠错文本的特征表示;
(4)将待纠错文本的特征表示输入解码器,利用集束搜索算法(Beam Search)对字符进行逐个解码,得到最优输出序列,完成语法错误更正。
本发明实施例一在原有应用于错误更正任务的基于Transformer的序列到序列神经网络模型上,引入了语法错误特征表示弱化机制,该弱化机制通过为待纠错文本中每一个字符学习一个弱化因子,使得在编码器所提取的待纠错文本的特征表示中,语法错误的特征信息得到抑制,提升了基于Transformer的序列到序列神经网络模型在中文语法错误更正任务中的性能。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (4)

1.一种基于弱化语法错误特征表示的中文语法错误更正方法,其特征在于,所述方法包含以下步骤:
(1)将中文语法错误更正语料划分为待纠错文本数据和正确文本数据;
(2)将待纠错文本和正确文本的中文字符,利用相同字典,映射为向量表示,输入的待纠错文本和正确文本即数值化为每个字符向量列连接而成的数值矩阵,所述步骤(2)具体包括:2.1)随机初始化字符到字符向量编号的映射索引和字符向量矩阵;2.2)通过映射索引将字符映射为对应的字符编号;2.3)通过各个字符的字符编号取得字符向量矩阵中对应的字符向量;2.4)将字符向量连接,得到各个字符的字符向量列连接而成的数值矩阵;
(3)将步骤(2)中得到的待纠错文本数值矩阵输入编码器提取得到待纠错文本特征表示;
(4)将步骤(3)中得到的待纠错文本特征表示和步骤(2)中得到的正确文本数值矩阵作为解码器的两个输入,得到每一个预测字符概率分布;
(5)使用交叉熵损失函数,计算每一个预测字符的概率分布和真实字符之间的交叉熵损失,用反向传播算法(Back propagation,BP)计算更新网络各层权重。
2.如权利要求1所述的方法中,其特征在于,所述步骤(3)中,将待纠错文本数值矩阵输入编码器提取得到待纠错文本特征表示,具体包括:
(3.1)将待纠错文本数值矩阵或上层编码器层的输出输入至当前编码器层,通过多头注意力+全连接网络和上下文注意力+全连接网络分别提取得到待纠错文本中每一个字符在当前编码器层中的字符特征表示和上下文特征表示;
(3.2)将(3.1)中提取得到的字符特征表示和上下文特征表示输入至语法错误弱化模块,得到当前编码器层对待纠错文本中每一个字符的弱化因子;
(3.3)将(3.1)中提取得到的字符特征表示和上下文特征表示以及(3.2)中得到的弱化因子通过联合方程联合,得到当前编码器层的输出;
(3.4)重复(3.1)~(3.3),得到编码器最终层的输出,并作为待纠错文本的特征表示。
3.如权利要求1所述的方法中,其特征在于,所述步骤(4)中,将待纠错文本的特征表示和正确文本的数值矩阵作为解码器的两个输入,得到每一个预测字符概率分布,具体包括:
(4.1)将正确文本的数值矩阵或上层解码器层的输出输入至当前解码器层中的掩码多头注意力网络,得到当前解码器层中掩码多头注意力网络层的输出;
(4.2)将待纠错文本的特征表示和当前解码器层中掩码多头注意力网络层的输出作为当前解码器层中多头注意力+全连接网络的两个输入,得到当前解码器层的最终输出;
(4.3)重复(4.1)~(4.2),得到解码器最终层的输出;
(4.4)将解码器最终层的输出输入至解码器的线性层,得到线性层的输出,并经过softmax函数计算得到每一个预测字符概率分布。
4.如权利要求1所述的方法中,其特征在于,所述步骤(5)中,使用交叉熵损失函数,计算每一个预测字符概率分布和真实字符之间的交叉熵损失,损失函数计算如下:
Figure FDA0003308313530000021
其中,T表示正确文本中所包含字符数;t表示解码器当前预测第t个字符;Pt(·)表示当前预测字符概率分布;yt表示当前预测字符对应正确字符。
CN202010636770.0A 2020-07-03 2020-07-03 一种基于弱化语法错误特征表示的中文语法错误更正方法 Active CN111767718B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010636770.0A CN111767718B (zh) 2020-07-03 2020-07-03 一种基于弱化语法错误特征表示的中文语法错误更正方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010636770.0A CN111767718B (zh) 2020-07-03 2020-07-03 一种基于弱化语法错误特征表示的中文语法错误更正方法

Publications (2)

Publication Number Publication Date
CN111767718A CN111767718A (zh) 2020-10-13
CN111767718B true CN111767718B (zh) 2021-12-07

Family

ID=72723787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010636770.0A Active CN111767718B (zh) 2020-07-03 2020-07-03 一种基于弱化语法错误特征表示的中文语法错误更正方法

Country Status (1)

Country Link
CN (1) CN111767718B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112231480A (zh) * 2020-10-23 2021-01-15 中电科大数据研究院有限公司 一种基于bert的字音混合纠错模型
CN112364990B (zh) * 2020-10-29 2021-06-04 北京语言大学 通过元学习实现语法改错少样本领域适应的方法及系统
CN112836496B (zh) * 2021-01-25 2024-02-13 之江实验室 一种基于bert和前馈神经网络的文本纠错方法
CN113033188B (zh) * 2021-03-19 2022-12-20 华果才让 一种基于神经网络的藏文语法纠错方法
CN113255645B (zh) * 2021-05-21 2024-04-23 北京有竹居网络技术有限公司 一种文本行图片的解码方法、装置和设备
CN114510925A (zh) * 2022-01-25 2022-05-17 森纵艾数(北京)科技有限公司 一种中文文本纠错方法、系统、终端设备及存储介质
CN114611492B (zh) * 2022-03-17 2023-11-17 北京中科智加科技有限公司 一种文本顺滑方法、系统和计算机设备

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140147438A (ko) * 2013-06-20 2014-12-30 에스케이플래닛 주식회사 마크업 파싱 장치, 방법 및 기록 매체
CN104504442A (zh) * 2014-12-30 2015-04-08 湖南强智科技发展有限公司 神经网络优化方法
CN104680192A (zh) * 2015-02-05 2015-06-03 国家电网公司 一种基于深度学习的电力图像分类方法
CN105095184A (zh) * 2015-06-11 2015-11-25 周连惠 文本文档拼写及语法校对方法
CN106294863A (zh) * 2016-08-23 2017-01-04 电子科技大学 一种针对海量文本快速理解的文摘方法
CN106776549A (zh) * 2016-12-06 2017-05-31 桂林电子科技大学 一种基于规则的英语作文语法错误纠正方法
CN107679244A (zh) * 2017-10-30 2018-02-09 中国联合网络通信集团有限公司 文本分类方法及装置
CN108053030A (zh) * 2017-12-15 2018-05-18 清华大学 一种开放领域的迁移学习方法及系统
CN108197111A (zh) * 2018-01-10 2018-06-22 华南理工大学 一种基于融合语义聚类的文本自动摘要方法
CN108345887A (zh) * 2018-01-29 2018-07-31 清华大学深圳研究生院 图像语义分割模型的训练方法及图像语义分割方法
CN108959260A (zh) * 2018-07-06 2018-12-07 北京邮电大学 一种基于文本化词向量的中文语法错误检测方法
CN108984525A (zh) * 2018-07-06 2018-12-11 北京邮电大学 一种基于加入文本信息的词向量的中文语法错误检测方法
CN109948152A (zh) * 2019-03-06 2019-06-28 北京工商大学 一种基于lstm的中文文本语法纠错模型方法
CN110196980A (zh) * 2019-06-05 2019-09-03 北京邮电大学 一种基于卷积网络在中文分词任务上的领域迁移
CN110287961A (zh) * 2019-05-06 2019-09-27 平安科技(深圳)有限公司 中文分词方法、电子装置及可读存储介质
CN110309512A (zh) * 2019-07-05 2019-10-08 北京邮电大学 一种基于生成对抗网络的中文语法错误更正方法
CN110737769A (zh) * 2019-10-21 2020-01-31 南京信息工程大学 一种基于神经主题记忆的预训练文本摘要生成方法
CN110765775A (zh) * 2019-11-01 2020-02-07 北京邮电大学 一种融合语义和标签差异的命名实体识别领域自适应的方法
CN111078866A (zh) * 2019-12-30 2020-04-28 华南理工大学 一种基于序列到序列模型的中文文本摘要生成方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060024661A1 (en) * 2003-07-30 2006-02-02 The Regents Of The University Of California Modulation of CRF potentiation of NMDA receptor currents via CRF receptor 2
CN104933030B (zh) * 2015-06-25 2018-03-09 中通服公众信息产业股份有限公司 一种维吾尔语拼写检查方法及装置
US20170200207A1 (en) * 2016-01-06 2017-07-13 Klevu Oy Systems Methods Circuits and Associated Computer Executable Code for Digital Catalog Augmentation
US20170308790A1 (en) * 2016-04-21 2017-10-26 International Business Machines Corporation Text classification by ranking with convolutional neural networks
CN109697232B (zh) * 2018-12-28 2020-12-11 四川新网银行股份有限公司 一种基于深度学习的中文文本情感分析方法
CN110032631B (zh) * 2019-03-26 2021-07-02 腾讯科技(深圳)有限公司 一种信息反馈方法、装置和存储介质
CN110134782B (zh) * 2019-05-14 2021-05-18 南京大学 一种基于改进的选择机制和lstm变体的文本摘要模型及自动文本摘要方法
CN110267049B (zh) * 2019-05-30 2021-09-07 西安交通大学 一种稀疏编码的存储优化方法
CN110516229B (zh) * 2019-07-10 2020-05-05 杭州电子科技大学 一种基于深度学习的领域自适应中文分词方法
CN110489756B (zh) * 2019-08-23 2020-10-27 上海松鼠课堂人工智能科技有限公司 会话式人机交互口语测评系统

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140147438A (ko) * 2013-06-20 2014-12-30 에스케이플래닛 주식회사 마크업 파싱 장치, 방법 및 기록 매체
CN104504442A (zh) * 2014-12-30 2015-04-08 湖南强智科技发展有限公司 神经网络优化方法
CN104680192A (zh) * 2015-02-05 2015-06-03 国家电网公司 一种基于深度学习的电力图像分类方法
CN105095184A (zh) * 2015-06-11 2015-11-25 周连惠 文本文档拼写及语法校对方法
CN106294863A (zh) * 2016-08-23 2017-01-04 电子科技大学 一种针对海量文本快速理解的文摘方法
CN106776549A (zh) * 2016-12-06 2017-05-31 桂林电子科技大学 一种基于规则的英语作文语法错误纠正方法
CN107679244A (zh) * 2017-10-30 2018-02-09 中国联合网络通信集团有限公司 文本分类方法及装置
CN108053030A (zh) * 2017-12-15 2018-05-18 清华大学 一种开放领域的迁移学习方法及系统
CN108197111A (zh) * 2018-01-10 2018-06-22 华南理工大学 一种基于融合语义聚类的文本自动摘要方法
CN108345887A (zh) * 2018-01-29 2018-07-31 清华大学深圳研究生院 图像语义分割模型的训练方法及图像语义分割方法
CN108959260A (zh) * 2018-07-06 2018-12-07 北京邮电大学 一种基于文本化词向量的中文语法错误检测方法
CN108984525A (zh) * 2018-07-06 2018-12-11 北京邮电大学 一种基于加入文本信息的词向量的中文语法错误检测方法
CN109948152A (zh) * 2019-03-06 2019-06-28 北京工商大学 一种基于lstm的中文文本语法纠错模型方法
CN110287961A (zh) * 2019-05-06 2019-09-27 平安科技(深圳)有限公司 中文分词方法、电子装置及可读存储介质
CN110196980A (zh) * 2019-06-05 2019-09-03 北京邮电大学 一种基于卷积网络在中文分词任务上的领域迁移
CN110309512A (zh) * 2019-07-05 2019-10-08 北京邮电大学 一种基于生成对抗网络的中文语法错误更正方法
CN110737769A (zh) * 2019-10-21 2020-01-31 南京信息工程大学 一种基于神经主题记忆的预训练文本摘要生成方法
CN110765775A (zh) * 2019-11-01 2020-02-07 北京邮电大学 一种融合语义和标签差异的命名实体识别领域自适应的方法
CN111078866A (zh) * 2019-12-30 2020-04-28 华南理工大学 一种基于序列到序列模型的中文文本摘要生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"中文文本自动校对中的语法错误检查";龚小谨 等;《计算机工程与应用》;20030311(第08期);第98-100页 *

Also Published As

Publication number Publication date
CN111767718A (zh) 2020-10-13

Similar Documents

Publication Publication Date Title
CN111767718B (zh) 一种基于弱化语法错误特征表示的中文语法错误更正方法
CN109190131B (zh) 一种基于神经机器翻译的英语单词及其大小写联合预测方法
CN108268444B (zh) 一种基于双向lstm、cnn和crf的中文分词方法
CN112733541A (zh) 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法
CN107967262A (zh) 一种神经网络蒙汉机器翻译方法
CN109492202A (zh) 一种基于拼音的编码与解码模型的中文纠错方法
CN110826334B (zh) 一种基于强化学习的中文命名实体识别模型及其训练方法
CN111985239A (zh) 实体识别方法、装置、电子设备及存储介质
CN114818668B (zh) 一种语音转写文本的人名纠错方法、装置和计算机设备
CN112784604A (zh) 一种基于实体边界网络的实体链接方法
CN115292463B (zh) 一种基于信息抽取的联合多意图检测和重叠槽填充的方法
CN113190656A (zh) 一种基于多标注框架与融合特征的中文命名实体抽取方法
CN112800184B (zh) 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法
CN115204143B (zh) 一种基于prompt的文本相似度计算方法及系统
CN114429132A (zh) 一种基于混合格自注意力网络的命名实体识别方法和装置
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN115545041B (zh) 一种增强医疗语句语义向量表示的模型构造方法及系统
CN115879546A (zh) 一种复合神经网络心理医学知识图谱构建方法及系统
CN116663578A (zh) 一种基于策略梯度方法改进的神经机器翻译方法
CN114818669A (zh) 一种人名纠错模型的构建方法和计算机设备
CN115906854A (zh) 一种基于多级对抗的跨语言命名实体识别模型训练方法
CN112784576B (zh) 一种文本依存句法分析方法
CN109960782A (zh) 一种基于深度神经网络的藏文分词方法及装置
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN114372467A (zh) 命名实体抽取方法及装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant