CN114881010A - 一种基于Transformer和多任务学习的中文语法纠错方法 - Google Patents

一种基于Transformer和多任务学习的中文语法纠错方法 Download PDF

Info

Publication number
CN114881010A
CN114881010A CN202210452081.3A CN202210452081A CN114881010A CN 114881010 A CN114881010 A CN 114881010A CN 202210452081 A CN202210452081 A CN 202210452081A CN 114881010 A CN114881010 A CN 114881010A
Authority
CN
China
Prior art keywords
sentence
error correction
chinese
training
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210452081.3A
Other languages
English (en)
Inventor
黄继风
冯雅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Normal University
Original Assignee
Shanghai Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Normal University filed Critical Shanghai Normal University
Priority to CN202210452081.3A priority Critical patent/CN114881010A/zh
Publication of CN114881010A publication Critical patent/CN114881010A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于Transformer和多任务学习的中文语法纠错方法,该方法包括以下步骤:步骤A:利用爬虫技术收集Lang‑8网站母语非中文学习者书写语句和对应批改语句,清洗并筛选语句对,组成语料库;步骤B:对语料库中的语句对数据进行预处理;包括去停用词、繁体转简体、以及划分训练集和验证集;步骤C:基于编辑操作集合生成训练样本所需的标签;步骤D:构建基于Transformer和多任务学习的中文语法纠错模型进并采用训练集行训练;步骤E:对完成训练的中文语法纠错模型通过验证集进行验证,根据评价指标评价纠错效果,并利用该模型输入待纠错语句进行纠错。与现有技术相比,本发明具有精确率高、泛化能力强、性能好等优点。

Description

一种基于Transformer和多任务学习的中文语法纠错方法
技术领域
本发明涉及中文文本纠错技术领域,尤其是涉及一种基于Transformer和多任务学习的中文语法纠错方法。
背景技术
在互联网时代,每天都要产生海量的文本数据和文本信息,人们需要对这些数据进行核对和校正,否则会干扰后续重要的工作。常规的人工校对方式速度慢、成本高,无法适应现在的信息爆炸时代。随着计算机技术和自然语言处理技术的发展,学术界以及工业界开始自动文本校对的研究,减轻人工校对的负担。早期的文本校对采用基于规则和统计的机器学习方法,随着文本数据的扩增,该方法存在不够灵活、泛化能力差的缺点。随着深度学习的发展,主流更多选择基于深度学习的神经网络模型实现文本校对,进行大规模的文本数据的训练。
中文语法纠错指的是针对中文文本中的语法错误进行校对,包括错误检测、错误定位和错误纠正等任务,常用的语法纠错方案有两种:一种是把纠错看成错误检测、错误标注和错误纠正等子任务,将多个子模型集成起来,错误标注通常使用序列标注模型,比如BiLSTM+CRF经典模型。这种方法容易产生错误传递,上一个子模型结果影响到下一子模型,从而影响整个纠错系统性能;另一种是将纠错任务直接看成“翻译”任务,由待纠错句“翻译”成正确句,通常选择端到端的神经翻译模型(NMT)实现纠错任务,但是目前纠错的性能的速度都不能满足要求。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于Transformer和多任务学习的中文语法纠错方法。
本发明的目的可以通过以下技术方案来实现:
一种基于Transformer和多任务学习的中文语法纠错方法,该方法包括以下步骤:
步骤A:利用爬虫技术收集Lang-8网站母语非中文学习者书写语句和对应批改语句,清洗并筛选语句对,组成语料库;
步骤B:对语料库中的语句对数据进行预处理;包括去停用词、繁体转简体、以及划分训练集和验证集;
步骤C:基于编辑操作集合生成训练样本所需的标签;
步骤D:构建基于Transformer和多任务学习的中文语法纠错模型进并采用训练集行训练;
步骤E:对完成训练的中文语法纠错模型通过验证集进行验证,根据评价指标评价纠错效果,并利用该模型输入待纠错语句进行纠错。
所述的步骤A中,对语句对进行清洗筛选的原则具体包括:
若原语句对应不止一个批改句,则选择其中一个批改句和原语句组成语句对;
若原语句没有对应批改句,表示该语句正确,则复制其本身组成语句对;
选取句长范围在20~90的原语句。
所述的步骤B中,预处理包括去停用词、繁体转简体、以及划分训练集和验证集,所述的去停用词具体为:
去除包括数字、英文、乱符的非中文字符,以提高语料数据精度;
所述的繁体转简体具体为:
将语句中的繁体字符转为简体字符。
所述的步骤C具体包括以下步骤:
步骤C1、将语句对按照字粒度切割成token序列;
步骤C2、计算待纠错语句和对应的正确句的token级别编辑距离,得到编辑操作集合;
步骤C3、根据编辑操作集合,按照多字、少字、乱序和替换四种语法错误进行分类,对待纠错语句序列中存在的语法错误进行标注,获得错误标签序列。
所述的步骤C2中,采用工具包MaxMatch(M2)计算编辑距离。
所述的步骤D中,基于Transformer和多任务学习的中文语法纠错模型包括预训练模型、Transformer和CRF层,所述的Transformer的Encoder端由Embedding层和N个相同的神经模块组成,每个神经模块由Multi-Head Attention和Feed Forward子层组成,每个子层均后接残差连接,Transformer的Decoder端由N个相同的神经模块组成,其比Encoder端多一个额外的编解码多头注意力层。
所述的中文语法纠错模型包括语法错误标注和语法纠错两个子任务,所述的Encoder端和CRF组成语法错误标注任务,所述的Encoder端和Decoder端组成语法纠错任务,且二者共Encoder端隐层权重,所述的Encoder端Embedding层输入为待纠错句序列,Decoder端Embedding层输入为正确句序列,CRF层输出语句中存在的错误标签,Decoder端输出纠错模型的最终结果,即待纠错句对应的纠正语句,Embedding层用以将输入的语句序列映射为词向量,神经模块的Multi-Head Attention用于计算注意力,Feed Forward用于对输入数据进行线性变换,残差连接用以防止模型过拟合以及加快收敛速度,CRF层用以添加约束保证预测的标签序列合法。
所述的预训练模型具体采用Hugging Face的开源中文预训练模型Chinese-RoBERTa-wwm-ext。
所述的步骤D中,训练基于Transformer和多任务学习的中文语法纠错模型具体为:
使用预训练模型权重初始化Transformer的Encoder端,其他部分随机初始化,进行超参数微调训练,超参数包括batch size、epoch、learning rate和drop rate,在训练过程中,每次输入一批次的语句对数据。
所述的步骤E具体为:
利用验证集验证训练好的中文语法纠错模型,并使用评价指标对模型纠错效果进行评价,所述的评价指标包括精确率、召回率和综合指标F值。
与现有技术相比,本发明具有以下优点:
一、本发明提出一种基于编辑操作集合的错误标签生成方法,扩增了语料数据的多样性。
二、本发明采用基于注意力机制的Transformer模型能够更好地捕捉上下文语义信息,并且实现并行处理,加快计算速度。
三、本发明提出一种多任务学习的中文语法纠错方法,相较于单任务模型,进一步提高纠错模型的性能和泛化能力,提升纠错效果。
四、本发明通过结合预训练模型的微调训练有效加快模型收敛速度,进一步提高了模型的性能。
附图说明
图1为本发明的步骤结构框图。
图2为本发明的语料预处理流程图。
图3为本发明的Transformer模型结构图。
图4为本发明的基于Transformer和多任务学习的中文语法纠错模型结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
如图1所示,本发明提供一种基于Transformer和多任务学习的中文语法纠错方法,包括以下步骤:
步骤A:利用爬虫技术爬取Lang-8网站母语非中文用户写作语句和批改语句,按照以下原则对语句对进行清洗筛选,组成语料库:
①如果原语句对应不止一个批改句,选择其中一个批改句和原语句组成句对;
②如果原语句没有对应批改句,表示该语句正确,则复制其本身组成句对;
③选取句长范围在20~90个字的原语句。
经过筛选,最终语料库规模为50万级别。
步骤B:对语料库中的语句对数据进行去停用词、繁体转简体、划分训练集和验证集预处理工作;
进一步地,包括以下分步骤:
①去除数字、英文、乱符等非中文字符,提高语料数据精度;
②将语句中的繁体字符转为简体字符;
③将语料库划分为训练集和验证集。随机选择语料库中5000个句对作为验证集,其余为训练集。
步骤C:基于编辑操作集合生成训练样本所需的标签;
进一步地,包括以下分步骤:
①将语句对按照字粒度切割成token序列;
②计算待纠错和对应的正确句的token级别编辑距离,得到编辑操作集合;
③根据编辑操作集合,按照多字(R)、少字(M)、乱序(W)、替换(S)四种语法错误分类,对待纠错句序列中存在的语法错误进行标注,生成错误标签序列。
进一步地,所述的步骤C的编辑距离的计算使用公开的工具包MaxMatch(M2)。
步骤D:结合预训练模型,对基于Transformer和多任务学习的中文语法纠错模型进行训练;
进一步地,
预训练模型使用Hugging Face提供的开源中文预训练模型:Chinese-RoBERTa-wwm-ext。基于Transformer和多任务学习的中文语法纠错模型结构(如图4所示)由Transformer的编码器(Encoder)和解码器(Decoder)以及CRF部分组成,其中,Transformer模型(如图3所示)的编码器(Encoder)由Embedding层和N个相同的神经模块组成,每个神经模块由Multi-Head Attention和Feed Forward子层组成,每个子层都后接了残差连接(Residual Connection);解码器(Decoder)同样由N个相同的神经模块组成,其只比Encoder的模块多一个额外的编解码多头注意力层(Scaled Dot-Product Attention)。
如图4所示,多任务学习模型包括语法错误标注和语法纠错两个子任务,其中Encoder端和CRF组成语法错误标注任务,Encoder端和Decoder端组成语法纠错任务,二者共Encoder端隐层权重。Encoder端Embedding层输入为待纠错句序列,Decoder端Embedding层输入为正确句序列,CRF层输出语句中存在的错误标签,Decoder端输出是纠错模型的最终结果,即待纠错句对应的纠正语句。Embedding层作用是将输入序列映射成词向量,神经模块的Multi-Head Attention用于计算注意力,Feed Forward用于对输入数据进行线性变换,残差连接是为了防止模型过拟合和加快收敛速度。CRF层作用是添加一些约束以保证预测的标签序列合法。
在训练过程中,使用预训练模型权重初始化多任务学习模型的Encoder端,其他部分随机初始化,进行微调训练。
模型的超参数主要包括:batch size、epoch、learning rate和drop rate等,调整合适的超参数,提高模型的性能。
步骤E:对训练完成的纠错模型进行验证,根据评价指标评价纠错效果。
进一步地,所述的模型评价指标为:精确率(Precision)、召回率(Recall)和综合评价指标F值(F0.5)。本发明提出的方法在验证集上表现:精确率为31.23,召回率为5.90,F0.5为17.29。相较于现有方法的单任务模型(baseline)在验证集表现:精确率为24.95,召回率为4.95,F0.5为13.80,在精确率和F值有显著的提升,进一步优化模型性能。
综上所述,根据本发明提出的基于Transformer和多任务学习的中文语法纠错方法,在中文语法纠错任务训练的基础上,加入语法错误标注任务,进行多任务学习的训练,并结合预训练模型进行微调训练,极大地提高模型精度和泛化能力,进一步提升纠错水平。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于Transformer和多任务学习的中文语法纠错方法,其特征在于,该方法包括以下步骤:
步骤A:利用爬虫技术收集Lang-8网站母语非中文学习者书写语句和对应批改语句,清洗并筛选语句对,组成语料库;
步骤B:对语料库中的语句对数据进行预处理;包括去停用词、繁体转简体、以及划分训练集和验证集;
步骤C:基于编辑操作集合生成训练样本所需的标签;
步骤D:构建基于Transformer和多任务学习的中文语法纠错模型进并采用训练集行训练;
步骤E:对完成训练的中文语法纠错模型通过验证集进行验证,根据评价指标评价纠错效果,并利用该模型输入待纠错语句进行纠错。
2.根据权利要求1所述的一种基于Transformer和多任务学习的中文语法纠错方法,其特征在于,所述的步骤A中,对语句对进行清洗筛选的原则具体包括:
若原语句对应不止一个批改句,则选择其中一个批改句和原语句组成语句对;
若原语句没有对应批改句,表示该语句正确,则复制其本身组成语句对;
选取句长范围在20~90的原语句。
3.根据权利要求1所述的一种基于Transformer和多任务学习的中文语法纠错方法,其特征在于,所述的步骤B中,预处理包括去停用词、繁体转简体、以及划分训练集和验证集,所述的去停用词具体为:
去除包括数字、英文、乱符的非中文字符,以提高语料数据精度;
所述的繁体转简体具体为:
将语句中的繁体字符转为简体字符。
4.根据权利要求1所述的一种基于Transformer和多任务学习的中文语法纠错方法,其特征在于,所述的步骤C具体包括以下步骤:
步骤C1、将语句对按照字粒度切割成token序列;
步骤C2、计算待纠错语句和对应的正确句的token级别编辑距离,得到编辑操作集合;
步骤C3、根据编辑操作集合,按照多字、少字、乱序和替换四种语法错误进行分类,对待纠错语句序列中存在的语法错误进行标注,获得错误标签序列。
5.根据权利要求4所述的一种基于Transformer和多任务学习的中文语法纠错方法,其特征在于,所述的步骤C2中,采用工具包MaxMatch(M2)计算编辑距离。
6.根据权利要求1所述的一种基于Transformer和多任务学习的中文语法纠错方法,其特征在于,所述的步骤D中,基于Transformer和多任务学习的中文语法纠错模型包括预训练模型、Transformer和CRF层,所述的Transformer的Encoder端由Embedding层和N个相同的神经模块组成,每个神经模块由Multi-Head Attention和Feed Forward子层组成,每个子层均后接残差连接,Transformer的Decoder端由N个相同的神经模块组成,其比Encoder端多一个额外的编解码多头注意力层。
7.根据权利要求6所述的一种基于Transformer和多任务学习的中文语法纠错方法,其特征在于,所述的中文语法纠错模型包括语法错误标注和语法纠错两个子任务,所述的Encoder端和CRF组成语法错误标注任务,所述的Encoder端和Decoder端组成语法纠错任务,且二者共Encoder端隐层权重,所述的Encoder端Embedding层输入为待纠错句序列,Decoder端Embedding层输入为正确句序列,CRF层输出语句中存在的错误标签,Decoder端输出纠错模型的最终结果,即待纠错句对应的纠正语句,Embedding层用以将输入的语句序列映射为词向量,神经模块的Multi-Head Attention用于计算注意力,Feed Forward用于对输入数据进行线性变换,残差连接用以防止模型过拟合以及加快收敛速度,CRF层用以添加约束保证预测的标签序列合法。
8.根据权利要求6所述的一种基于Transformer和多任务学习的中文语法纠错方法,其特征在于,所述的预训练模型具体采用Hugging Face的开源中文预训练模型Chinese-RoBERTa-wwm-ext。
9.根据权利要求8所述的一种基于Transformer和多任务学习的中文语法纠错方法,其特征在于,所述的步骤D中,训练基于Transformer和多任务学习的中文语法纠错模型具体为:
使用预训练模型权重初始化Transformer的Encoder端,其他部分随机初始化,进行超参数微调训练,超参数包括batch size、epoch、learning rate和drop rate,在训练过程中,每次输入一批次的语句对数据。
10.根据权利要求1所述的一种基于Transformer和多任务学习的中文语法纠错方法,其特征在于,所述的步骤E具体为:
利用验证集验证训练好的中文语法纠错模型,并使用评价指标对模型纠错效果进行评价,所述的评价指标包括精确率、召回率和综合指标F值。
CN202210452081.3A 2022-04-26 2022-04-26 一种基于Transformer和多任务学习的中文语法纠错方法 Pending CN114881010A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210452081.3A CN114881010A (zh) 2022-04-26 2022-04-26 一种基于Transformer和多任务学习的中文语法纠错方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210452081.3A CN114881010A (zh) 2022-04-26 2022-04-26 一种基于Transformer和多任务学习的中文语法纠错方法

Publications (1)

Publication Number Publication Date
CN114881010A true CN114881010A (zh) 2022-08-09

Family

ID=82672513

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210452081.3A Pending CN114881010A (zh) 2022-04-26 2022-04-26 一种基于Transformer和多任务学习的中文语法纠错方法

Country Status (1)

Country Link
CN (1) CN114881010A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116644738A (zh) * 2023-05-04 2023-08-25 合芯科技(苏州)有限公司 一种基于神经网络模型的文本纠错方法与装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116644738A (zh) * 2023-05-04 2023-08-25 合芯科技(苏州)有限公司 一种基于神经网络模型的文本纠错方法与装置

Similar Documents

Publication Publication Date Title
Dušek et al. Sequence-to-sequence generation for spoken dialogue via deep syntax trees and strings
Wang et al. A comprehensive survey of grammatical error correction
CN111382574B (zh) 一种虚拟现实与增强现实场景下结合句法的语义解析系统
Zhu et al. Improving Chinese named entity recognition by large-scale syntactic dependency graph
CN113657123A (zh) 基于目标模板指导和关系头编码的蒙语方面级情感分析方法
CN115906815B (zh) 一种用于修改一种或多种类型错误句子的纠错方法及装置
CN112364132A (zh) 基于依存句法的相似度计算模型和系统及搭建系统的方法
CN114925170B (zh) 文本校对模型训练方法及装置、计算设备
CN113723103A (zh) 融合多源知识的中文医学命名实体和词性联合学习方法
CN111291175A (zh) 一种基于策略梯度算法的自动生成提交需求摘要的方法
CN111651973A (zh) 一种基于句法感知的文本匹配方法
CN113822054A (zh) 基于数据增强的中文语法纠错方法及装置
CN114528398A (zh) 一种基于交互双重图卷积网络的情感预测方法及系统
Liu et al. Cross-domain slot filling as machine reading comprehension: A new perspective
CN114881010A (zh) 一种基于Transformer和多任务学习的中文语法纠错方法
Jiang et al. An AST structure enhanced decoder for code generation
CN113468883B (zh) 位置信息的融合方法、装置及计算机可读存储介质
Long The construction of machine translation model and its application in English grammar error detection
CN116483314A (zh) 一种自动化智能活动图生成方法
CN115906854A (zh) 一种基于多级对抗的跨语言命名实体识别模型训练方法
Ailani et al. Grammatical error correction (GEC): research approaches till now
CN114528459A (zh) 一种基于语义的网页信息抽取方法及系统
CN114298032A (zh) 文本标点检测方法、计算机设备及存储介质
CN116681087B (zh) 一种基于多阶段时序和语义信息增强的自动问题生成方法
Jiang et al. Research on Generative Text Summarization Fusing Multidimensional Semantic Information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination