CN114707492A - 融合多粒度特征的越南语语法错误纠正方法及装置 - Google Patents
融合多粒度特征的越南语语法错误纠正方法及装置 Download PDFInfo
- Publication number
- CN114707492A CN114707492A CN202210284610.3A CN202210284610A CN114707492A CN 114707492 A CN114707492 A CN 114707492A CN 202210284610 A CN202210284610 A CN 202210284610A CN 114707492 A CN114707492 A CN 114707492A
- Authority
- CN
- China
- Prior art keywords
- syllable
- sentences
- sentence
- error
- vietnamese
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012937 correction Methods 0.000 title claims abstract description 73
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000001514 detection method Methods 0.000 claims abstract description 26
- 238000002372 labelling Methods 0.000 claims abstract description 10
- 239000013598 vector Substances 0.000 claims description 79
- 239000011159 matrix material Substances 0.000 claims description 15
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 3
- 230000009193 crawling Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000009827 uniform distribution Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 7
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 235000019580 granularity Nutrition 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 3
- 239000013604 expression vector Substances 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及融合多粒度特征的越南语语法错误纠正方法及装置,属自然语言处理领域。本发明在模型编码端融入额外的越南语字符、音节和句子特征嵌入,然后利用一个序列标注网络预测输入句子的错误位置,再使用多语言BERT的掩码语言模型重新预测错误位置的词,得到数个纠正候选句子,最后利用N‑gram语言模型对候选句子打分,选出得分最高的句子作为纠正句子输出。该方法避免了直接生成句子,而是根据错误检测结果对输入句子进行修改,不会改变输入句子的基本语法结构。实验结果表明本发明比基于Transformer模型的基线方法的F0.5值和F1值分别提升了16.69%和17.84%,语法纠错效果明显优于序列到序列的生成模型。
Description
技术领域
本发明涉及融合多粒度特征的越南语语法错误纠正方法及装置,属于自然语言处理技术领域。
背景技术
文本纠错技术的应用场景十分广阔,除了设计成面向外语学习者的自动在线纠错学习工具外,也可以在其他领域起到重要作用。比如在办公软件上嵌入纠错模块,可以在作者写作时自动检查并提示错误,从而降低因疏忽导致的错误表述;将文本纠错模块嵌入到语音识别系统中,可以自动修正语音识别转文本过程中的错别字,使产品整体体验更佳;新闻媒体行业可以将其用于编辑校对,用于自动纠正新闻文章中的错别字,从而节省大量人工成本。
文本语法纠错通常使用序列到序列的文本生成模型来生成语法正确的句子,但是,现有的Seq2Seq方法存在以下问题:(1)序列生成模型由于曝光偏差的问题,导致生成的句子不稳定,生成的句子与输入句子语法结构上差异较大,使得纠错准确率不高;(2)现有方法无法有效利用越南语的语言特征,使得语法错误的识别较为困难,语法错误检测准确率不高。
综上所述,需要提供一种能够有效利用越南语的语言特征并且能够准确识别错误位置以及对错误位置的词进行正确纠正的方法与系统。
发明内容
为解决上述问题,本发明提供了一种融合多粒度特征的越南语语法错误纠正方法及装置,本发明在纠错准确率、召回率和F值等指标上的表现均优于基线模型,纠错的准确率有很大的提升。
本发明的技术方案是:第一方面,本发明提供一种融合多粒度特征的越南语语法错误纠正方法,所述方法的具体步骤如下:
Step1、越南语文本数据获取并对其进行预处理;
Step2、对输入的越南语句子进行词嵌入表示,并且融合额外的特征向量;对输入的越南语句子进行语法错误检测;
Step3、根据检测结果利用mBERT掩码语言模型对错误位置的词进行纠正,得到数个候选句子;利用N-gram语言模型对候选句子打分,选出得分最高的纠正候选句子输出。
作为本发明的进一步方案,所述Step1的具体步骤如下:
Step1.1、利用爬虫程序从维基百科词条目录(http://www.wikipedia.org)以及越南的各大新闻网站(http://www.vnexpress.net、https://thanhnien.vn)爬取文本数据,得到大规模的越南语原始语料,大小约为1.5GB;
Step1.2、对爬取到的语料进行数据清洗,先将得到的文本进行断句,得到152万个句子,然后删除含有特殊字符和非越南语字符的句子,再筛选出句子长度不超过40个音节并且音节重复率低于90%的句子,最终得到语法正确的句子108万句;
Step1.3、利用开源工具Underthesea(https://github.com/undertheseanlp/underthesea)对Step1.2预处理后的句子进行分词和词性标注,根据分词和词性标注结果构建越南语词性词典,根据越南语拼写和发音规则构建音节混淆集词典;
Step1.4、设计并实现一个基于不同错误类型的错误数据生成算法,利用该算法和Step1.3得到的音节混淆集词典对语法正确的句子进行造错,人工构造了规模为20.8万的“错误-纠正”平行句对,并对错误位置进行标注,得到错误句子中每个词对应的标签;
作为本发明的进一步方案,所述Step2的具体步骤如下:
Step2.1、对于输入的包含语法错误的句子X=(x1,...,xi,...,xn),利用多语言BERT模型(mBERT)对输入句子的每个音节xi进行词嵌入初始化,得到编码后的隐状态表示:
Step2.2、对输入的每个音节xi进行字符特征嵌入,首先对xi(c1,c2,....,cM)进行字符拆分,得到当前音节的每个字符cj,然后对每个字符cj进行One-hot编码,得到音节xi对应的字符特征向量Ci:
其中,M表示音节的字符总数,DC表示字符特征维度大小,fk(x)表示第k维的One-hot编码。
Step2.3、对输入的每个音节xi进行音节特征嵌入,音节特征包括每个音节对应的词性和它的声调,先判断输入音节的词性标签pi和声调标签ti,然后分别根据词性和声调标签进行One-hot编码,得到词性特征向量Pi和声调特征向量Ti,最后将Pi和Ti进行拼接操作得到音节特征向量Si:
Si=Concat(Pi,Ti)
其中,fk(x)表示第k维的one-hot编码,DP表示词性特征维度,DT表示声调特征维度。
Step2.4、对输入的每个音节xi进行句子特征嵌入,句子特征包括短语成分特征和相邻音节匹配度特征,用一个矩阵表示第i个音节对应的短语成分特征矩阵,其中,ds表示成分标注集大小,dm表示短语成分特征维度,第k维的权重参数从一个服从上的均匀分布进行随机采样,采样样本数为dm;
Step2.5、使用相邻音节匹配度(Adjacent Syllable Matching,ASM)来表示输入句子中两个相邻音节之间的语法正确程度,首先使用点互信息(Pointwise MutualInformation,PMI)来表示相邻音节之间的相关性:
其中,P(s1,s2)表示两个音节s1和s2在语料库中同时出现的概率,P(s)表示某个音节s在语料库中单独出现的概率。
Step2.7、将第i个音节的短语成分特征向量和相邻音节匹配度特征向量进行拼接,得到句子特征向量Gi,然后再将字符特征向量Ci、音节特征向量Si和句子特征向量Gi按照最大维度填充(Pad)后再拼接(Concatenation),得到音节xi对应的特征向量F(xi):
F(xi)=Pad_Concat(Ci,Si,Gi)
Step2.8、得到每个音节xi的特征嵌入F(xi)后,再将其和mBERT编码器的最后一层隐状态输出进行拼接,得到最终的隐状态表示Xi,然后将送入一个softmax层去计算每个音节xi的预测标签概率li:
li=softmax(WOXi+bO)
其中,WO是softmax层的矩阵权重参数,bO是偏置项权重参数。
作为本发明的进一步方案,所述Step3的具体步骤如下:
利用mBERT掩码语言模型和N-gram语言模型进行语法纠错的方法;
Step3.1、根据Step2中得到的预测标签序列L=(l1,l2,...,ln)进行语法错误纠正,首先遍历检测结果标签序列中的每个标签li,如果li为“O”(无错标记),则纠正句子中对应位置处的音节保持不变,否则将对应位置处的音节替换为“MASK”标记;
Step3.2、利用mBERT掩码语言模型(mBERT Masked Language Model)对“MASK”标记位置的词进行重新预测,给出5个候选纠正项{a1,a2,a3,a4,a5};
Step3.3、原输入句子X的“MASK”标记处分别用5个纠正候选项进行替换,得到对应的5个纠正候选句子{Y1,Y2,Y3,Y4,Y5};
Step3.4、利用N-gram语言模型对得到的5个纠正候选句子进行打分:
其中,S表示输入的候选句子,P(x)表示利用N-gram语言模型计算出的某个音节x在语料库中出现的概率。
Step3.5、选择5个候选句子中得分最高的作为最终的纠正句子输出:
Yout=max{score(Y1),score(Y2),score(Y3),score(Y4),score(Y5)}
第二方面,本发明实施例还提供了融合多粒度特征的越南语语法错误纠正装置,该装置包括用于执行上述第一方面的方法的模块。
具体的可以为,提供一种基于“错误检测-错误纠正”pipeline模式的越南语语法错误纠正装置,包括以下几个模块:
词嵌入模块:用于将输入的越南语句子序列X=(x1,x2,...,xn)中的每个音节转换为词向量,词向量的权重参数使用mBERT模型的编码器对每个音节进行初始化,编码器由多个Transformer encoder组成,经过mBERT编码后可得到每个音节对应的隐状态表示向量,该向量根据Step2.1计算得到。
特征嵌入模块:用于对输入的句子X进行多粒度的特征表示,这些特征主要包含三个粒度:字符粒度、音节粒度、句子粒度,字符特征是指对输入音节的每个字符进行进一步编码表示,音节特征是指对输入音节的词性和声调进行进一步编码表示,句子特征是指对输入句子X的短语结构信息和相邻音节匹配度进行进一步编码表示,整个特征嵌入的计算步骤如下:
1、根据Step2.2计算每个音节的字符特征向量;
2、根据Step2.3计算每个音节的词性特征向量和声调特征向量;
3、根据Step2.5和Step2.6计算输入句子的相邻音节匹配度特征向量;
4、根据Step2.7计算得到每个音节对应的特征向量;
语法错误检测模块:用于使用基于mBERT的序列标注模型对输入句子X的每个音节进行标签预测,将词嵌入模块得到的隐状态表示向量和特征嵌入模块得到的特征向量拼接后送入一个softmax层去计算每个音节预测标签的概率,预测概率根据Step2.8计算得到。
语法错误纠正模块:用于根据语法错误检测模块计算出的预测概率,得到输入句子X对应的预测标签序列L=(l1,l2,...,ln)。遍历标签序列L,如果L中没有错误标记,则表示输入句子X语法正确,X原样输出;如果L中含有错误标记,则表示X含有语法错误,用“MASK”标记替换错误位置的标签,再利用mBERT掩码语言模型对“MASK”标记处的词进行重新预测,得到5个纠正候选词,用这5个候选词分别替换原来错误位置的词,得到5个纠正候选句子,最后利用N-gram语言模型和Step3.4以及Step3.5计算选出句子得分最高的候选句子Y作为纠正句子输出。
词嵌入模块、特征嵌入模块、语法错误检测模块和语法错误纠正模块,通过级联方式串接起来,共同构成一个“错误检测-错误纠正”pipeline模式的越南语语法错误纠正装置。
本发明的有益效果是:
本发明将语法纠错任务视为语法错检测和语法错误纠正两个子任务,在语法错误检测网络的编码端融入额外的越南语特征向量,包括了字符、音节和句子粒度的不同特征,能够有效识别出传统序列标注模型识别不到的越南语语法错误;根据语法错误检测的输出结果对输入句子进行修改,而非直接利用序列生成模型生成结果,这种方式不会对输入句子的整体语法结构作大量修改,有效避免了序列生成模型的曝光偏差问题。
本发明提出的方法及装置结构对于越南语的词序错误、音节混淆错误以及虚词误用错误有很好的纠正效果,语法错误的识别准确率和语法错误纠正准确率均优于基线模型。
附图说明
图1为本发明中的语法错误纠正模型构建示意图;
图2为本发明中的特征融合流程示意图;
图3为本发明中的错误数据生成算法流程示意图;
图4为本发明中的装置结构示意图;
图5为本发明中的流程示意图。
具体实施方式
实施例1:如图1-图5所示,融合多粒度特征的越南语语法错误纠正方法,所述方法包括:对越南语文本数据进行预处理;对输入的越南语句子进行词嵌入表示,并且融合额外的特征向量;对输入的越南语句子进行语法错误检测;根据检测结果利用mBERT掩码语言模型对错误位置的词进行纠正,得到数个候选句子;利用N-gram语言模型对候选句子打分,选出得分最高的纠正候选句子输出。
具体步骤为:
Step1、利用爬虫程序从维基百科词条目录(http://www.wikipedia.org)以及越南的各大新闻网站(http://www.vnexpress.net、https://thanhnien.vn)爬取大小约为1.5GB的原始语料,使用开源工具Underthesea(https://github.com/undertheseanlp/underthesea)对爬取到的语料进行数据清洗,首先对文本数据进行断句,得到152万个句子,然后过滤掉含有特殊字符的句子,再筛选出句子长度不超过40个音节并且音节重复率低于90%的句子,最终得到语法正确的句子108万句。利用开源工具Underthesea对这些句子进行分词和词性标注,根据分词和词性标注结果构建越南语词性词典,根据越南语拼写和发音规则构建音节混淆集词典。
将语法正确的108万个句子作为种子语料,针对越南语中的连词错误、介词错误、关联词错误、词序错误、音节混淆错误等5种错误类型,设计了一个基于不同错误类型的错误数据生成算法,算法流程如图3所示。首先对语法正确的种子语料Cs进行分句,得到句子集合{S},遍历每个句子S,然后依概率Pe判断是否对S进行造错,依概率Pu、Pm、Ps判断是否对S引入替换错误(介词、连词、关联词错误)、词序错误和音节混淆错误,其中,音节混淆错误根据混淆集词典中的选项进行替换,概率Pe、Pu、Pm、Ps均为人工设置的参数,在本发明中分别设置为0.5、0.25、0.25、0.25。根据错误数据生成算法得到的含有语法错误的句子示例如表1所示。
表1越南语语法错误类型示例
本发明主要针对表1中的5种错误类型进行语法纠错,利用错误数据生成算法对种子语料进行造错,以错误句子为源端,以正确句子为目标端,人工构造规模为20.8万的“错误-纠正”平行句对。然后对含有语法错误句子进行标注,采用BIO标注方案,用“B-”前缀表示语法错误的起始位置,“I-”前缀表示语法错误部分的中间和结尾部分,“O”标记表示不含语法错误的部分。采用6种不同的标签来分别表示连词错误、介词错误、关联词错误、词序错误和音节混淆错误。详细的标注方案如表2所示。
表2纠错语料标注方案
根据表2的标注方案,对人工构造的20.8万的“错误-纠正”平行句对进行标注,得到可用于语法错误检测模型训练和预测的数据以及后续用于语法错误纠正模型训练的平行句对。
Step2、接下来对语法错误检测模型进行建模,首先对输入句子进行词嵌入表示,直接采用多语言BERT(mBERT)模型预训练好的词嵌入权重参数对输入句子的每个音节进行初始化,mBERT模型来自于Hugging Face提供的Transformers代码库,BERT下载地址:https://cdn.huggingface.co/bert-base-multilingual-cased-pytorch_model.bin。对于输入的包含语法错误的句子X=(x1,x2,...,xn),利用mBERT模型对输入句子的每个音节xi进行词嵌入初始化,得到编码后的隐状态表示:
然后对输入句子的每个音节进行特征嵌入,得到特征向量并将特征向量融入mBERT模型的编码端,特征融合过程如图2所示。这些特征包括字符特征、音节特征和句子特征,各个粒度的特征嵌入过程如下:
1、字符特征嵌入,首先对xi(c1,c2,....,cM)进行字符拆分,得到当前音节的每个字符cj,然后对每个字符cj进行One-hot编码,得到xi对应的字符特征向量Ci:
其中,M表示音节的字符总数,DC表示字符特征维度大小,fk(x)表示第k维的One-hot编码。
2、音节特征嵌入,音节特征包括每个音节对应的词性和它的声调,先判断输入音节的词性标签pi和声调标签ti,然后分别根据词性和声调标签进行One-hot编码,得到词性特征向量Pi和声调特征向量Ti,最后将Pi和Ti进行拼接操作得到音节特征向量Si:
Si=Concat(Pi,Ti) (4)
其中,DP表示词性特征维度,DT表示声调特征维度。词性标签利用前面提到的开源工具Underthesea对输入句子标注后得到,一共有10种,声调标签根据音节的加符字符判断,每个音节只有一种声调,声调包括横声、玄声、锐声、问声、跌声和重声6种。
3、句子特征嵌入,句子特征包括输入句子的短语成分特征和相邻音节匹配度,用一个矩阵表示音节xi对应的短语成分特征矩阵,其中,ds表示成分标注集大小,dm表示短语成分特征维度,第k维的权重参数从一个服从上的均匀分布进行随机采样,采样样本数为dm;再用一个矩阵表示音节xi的相邻音节匹配度特征,其中,dm表示特征维度,矩阵中的每个权重参数用相邻音节匹配度(Adjacent Syllable Matching,ASM)进行初始化:
其中,P(s1,s2)表示两个音节s1和s2在语料库中同时出现的概率,P(s)表示某个音节s在语料库中单独出现的概率。
4、将音节xi对应的短语成分特征向量和相邻音节匹配度特征向量进行拼接,得到句子特征向量Gi,然后再将字符特征向量Ci、音节特征向量Si和句子特征向量Gi按照最大维度填充(Pad)后再拼接(Concatenation),得到音节xi对应的特征向量F(xi):
F(xi)=Pad_Concat(Ci,Si,Gi) (8)
li=softmax(WoXi+bo) (10)
其中,Wo是softmax层的矩阵权重参数,bo是偏置项权重参数。语法错误检测模型在训练阶段使用如公式(11)所示的交叉熵损失对检测模型进行优化:
其中,y表示正确类别的softmax输入,C表示标签类别数,Yj表示第j个标签的预测概率。在模型推理阶段,最后的softmax输出层直接输出越南语句子X对应的预测标签序列L=(l1,l2,...,ln)。
Step3、最后,根据检测标签序列L,利用mBERT掩码语言模型和N-gram语言模型进行语法纠错。首先遍历检测结果标签序列中的每个标签li,如果li为“O”(无错标记),则纠正句子中对应位置处的音节保持不变,否则将对应位置处的音节替换为“MASK”标记;利用mBERT掩码语言模型(mBERT Masked Language Model)对“MASK”标记位置的词进行重新预测,给出5个候选纠正项{a1,a2,a3,a4,a5};原输入句子X的“MASK”标记处分别用5个纠正候选项进行替换,得到对应的5个纠正候选句子{Y1,Y2,Y3,Y4,Y5};利用N-gram语言模型对得到的5个纠正候选句子进行打分:
其中,S表示输入的候选句子,P(x)表示利用N-gram语言模型计算出的某个音节x在语料库中出现的概率。越南语的N-gram语言模型使用开源工具KenLM和获取的大规模越南语文本数据训练得到,KenLM地址为:https://github.com/kpu/kenlm。在本发明中,使用KenLM训练了一个5-gram的语言模型,mBERT掩码语言模型使用Transformers代码库中提供的BertForMaskedLM模型参数,最后选择候选句子中得分最高的作为输出:
Yout=max{score(Y1),score(Y2),score(Y3),score(Y4),score(Y5)} (14)
整个语法纠错的网络模型需要训练语法错误检测网络部分,训练数据必须包含表1所示的5种错误类型,本发明将数据预处理部分人工构建的带有标注的“错误-纠正”平行句对作为模型的训练和验证数据,具体的数据统计信息如表3所示。检测网络采用基于mBERT的序列标注模型,模型的参数设置如表4所示。
表3数据集详细统计信息
表4模型参数设置
在模型的评价指标方面,使用M2 Scorer工具(https://github.com/nusnlp/m2scorer)进行纠错准确率、召回率和F值的计算,具体介绍如下:
语法纠错模型的评估采用M2评价指标,该指标通过计算语法纠错系统的输出的编辑集合与参考的纠正编辑集合之间的匹配程度来衡量系统的整体性能。该工具的评价指标计算仍然采用准确率P,召回率R和F值的方式,但是计算方式与一般分类任务略有不同,对于n个纠错系统输出的句子,P、R和F值的计算方式如下:
其中,|gi∩ei|表示语法纠错系统输出的第i个句子的编辑集合与参考编辑集合之间的交集,M2评价指标严格要求修改后的每个字符串相同才算作交集,ei和gi分别表示纠错系统输出的第i个句子的编辑集合和第i个句子的参考纠正的编辑集合。
为了验证本发明的有效性,将以下模型与本发明提出的模型进行对比实验:
(1)LSTM-Seq2Seq:一种基于LSTM结构的序列到序列模型,实验中分别对比了使用word2vec单音节词向量和GloVe单音节词向量的效果。
(2)Bi-LSTM with Attention:一种带有注意力机制的基于双向LSTM网络的序列生成模型,使用GloVe预训练的单音节词向量。
(3)Transformer:经典的基于自注意力机制的编码器-解码器模型,能够适应各种序列生成任务,包括语法纠错。
表5不同方法在测试集上的效果对比(单位:%)
表5展示了在测试集上不同方法的评测结果。结果表明,同基线方法相比,本发明提出的方法在测试集上的准确率和召回率均为最高,分别为42.53%和42.82%;在基线方法中,Transformer模型是基线方法中效果最好的模型,在准确率和召回率上远高出传统的基于LSTM网络的Seq2Seq模型,本章的方法与Transformer模型相比在准确率、召回率、F0.5值和F1值上分别高出15.86%、19.59%、16.69%和17.84%,表明采用“错误检测-错误纠正”pipeline方式的方法要比直接端到端的序列生成方法效果要好。
表6越南语语法纠错实例
表6展示了两个越南语语法纠错的具体实例。从表6可以看出,本发明提出的语法纠错模型整体效果优于Transformer序列生成模型。在第一个例子中,输入句子存在音节混淆错误,错误音节为正确音节为正确词组为(所有)”,Transformer模型虽然改对了该词组,但是将后面不应修改的部分修改了,本发明提出的模型改对了整个句子。在第二个例子中,一共有两处错误,Transformer模型未对其进行修改,而提出的模型只改对了一处错误。
第二方面,本发明实施例还提供了融合多粒度特征的越南语语法错误纠正装置,该装置包括用于执行上述第一方面的方法的模块。
具体的可以为,提供一种基于“错误检测-错误纠正”pipeline模式的越南语语法错误纠正装置,如图4所示,包括以下几个模块:
词嵌入模块:用于将输入的越南语句子序列X=(x1,x2,...,xn)中的每个音节转换为词向量,词向量的权重参数使用mBERT模型的编码器对每个音节进行初始化,经过mBERT编码后可得到每个音节对应的词嵌入向量,该向量根据公式(1)计算得到。
特征嵌入模块:用于对输入的句子X进行多粒度的特征表示,这些特征主要包含三个粒度:字符粒度、音节粒度、句子粒度。字符特征包括组成输入音节的每个字符的编码,字符特征向量根据公式(2)计算得到;音节特征包括输入音节的词性和声调,词性特征向量和音节特征向量根据公式(3)计算得到,将词性特征向量和音节特征向量拼接后得到输入音节的音节特征向量;句子特征包括输入句子的短语成分特征和相邻音节匹配度,短语成分特征向量的表示方式与之前介绍的特征嵌入过程相同,相邻音节匹配度特征向量根据公式(4)计算得到,将两者拼接后得到句子特征向量。最后,将字符特征向量、音节特征向量和句子特征向量进行填充对齐和拼接操作得到输入音节对应的特征向量。
语法错误检测模块:用于使用基于mBERT的序列标注模型对输入句子X的每个音节进行标签预测,将词嵌入模块得到的词嵌入向量和特征嵌入模块得到的特征向量拼接后送入一个softmax层去计算每个音节预测标签的概率,预测概率根据公式(10)计算得到。
语法错误纠正模块:用于根据语法错误检测模块计算出的预测概率,得到输入句子X对应的预测标签序列L=(l1,l2,...,ln)。遍历标签序列L,如果L中没有错误标记,则表示输入句子X语法正确,X原样输出;如果L中含有错误标记,则表示X含有语法错误,用“MASK”标记替换错误位置的标签,再利用mBERT掩码语言模型对“MASK”标记处的词进行重新预测,得到5个纠正候选词,用这5个候选词分别替换原来错误位置的词,得到5个纠正候选句子,最后利用N-gram语言模型和公式(12-13)计算出每个候选句子的得分,选出句子得分最高的候选句子Y作为纠正句子输出。
词嵌入模块、特征嵌入模块、语法错误检测模块和语法错误纠正模块,通过级联方式串接起来,实现了对输入的越南语句子进行语法错误检测和纠正的功能,从而共同组成一个基于“错误检测-错误纠正”pipeline模式的越南语语法错误纠正装置。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
Claims (5)
1.融合多粒度特征的越南语语法错误纠正方法,其特征在于,所述方法的具体步骤如下:
Step1、越南语文本数据获取并对其进行预处理;
Step2、对输入的越南语句子进行词嵌入表示,并且融合额外的特征向量;对输入的越南语句子进行语法错误检测;
Step3、根据检测结果利用mBERT掩码语言模型对错误位置的词进行纠正,得到数个候选句子;利用N-gram语言模型对候选句子打分,选出得分最高的纠正候选句子输出。
2.根据权利要求1所述的融合多粒度特征的越南语语法错误纠正方法,其特征在于,所述Step1的具体步骤如下:
Step1.1、利用爬虫程序从维基百科词条目录以及越南的各大新闻网站爬取文本数据,得到越南语原始语料;
Step1.2、对爬取到的语料进行数据清洗,先将得到的文本进行断句,得到152万个句子,然后删除包含有特殊字符和非越南语字符的句子,再筛选出句子长度不超过40音节的句子和音节重复率低于90%的句子,最终得到语法正确的越南语句子108万句;
Step1.3、利用开源工具对Step1.2预处理后的句子进行分词和词性标注,根据分词和词性标注结果构建越南语词性词典,根据越南语拼写和发音规则构建音节混淆集词典;
Step1.4、设计并实现一个基于不同错误类型的错误数据生成算法,利用该算法和Step1.3得到的音节混淆集词典对语法正确的句子进行造错,人工构造了规模为20.8万的“错误-纠正”平行句对,并对错误位置进行标注,得到错误句子中每个词对应的标签。
3.根据权利要求1所述的融合多粒度特征的越南语语法错误纠正方法,其特征在于,所述Step2的具体步骤如下:
Step2.1、对于输入的包含语法错误的句子X=(x1,...,xi,...,xn),利用多语言BERT模型mBERT对输入句子的每个音节xi进行词嵌入初始化,得到编码后的隐状态表示:
Step2.2、对输入的每个音节xi进行字符特征嵌入,首先对xi(c1,c2,....,cM)进行字符拆分,得到当前音节的每个字符cj,然后对每个字符cj进行One-hot编码,得到音节xi对应的字符特征向量Ci:
其中,M表示音节的字符总数,DC表示字符特征维度大小,fk(x)表示第k维的One-hot编码;
Step2.3、对输入的每个音节xi进行音节特征嵌入,音节特征包括每个音节对应的词性和它的声调,先判断输入音节的词性标签pi和声调标签ti,然后分别根据词性和声调标签进行One-hot编码,得到词性特征向量Pi和声调特征向量Ti,最后将Pi和Ti进行拼接操作得到音节特征向量Si:
Si=Concat(Pi,Ti) (4)
其中,fk(x)表示第k维的one-hot编码,DP表示词性特征维度,DT表示声调特征维度;
Step2.4、对输入的每个音节xi进行句子特征嵌入,句子特征包括短语成分特征和相邻音节匹配度特征,用一个矩阵表示第i个音节对应的短语成分特征矩阵,其中,ds表示成分标注集大小,dm表示短语成分特征维度,第k维的权重参数从一个服从上的均匀分布进行随机采样,采样样本数为dm;
Step2.5、使用相邻音节匹配度ASM来表示输入句子中两个相邻音节之间的语法正确程度,首先使用点互信息PMI来表示相邻音节之间的相关性:
其中,P(s1,s2)表示两个音节s1和s2在语料库中同时出现的概率,P(s)表示某个音节s在语料库中单独出现的概率;
Step2.7、将第i个音节的短语成分特征向量和相邻音节匹配度特征向量进行拼接,得到句子特征向量Gi,然后再将字符特征向量Ci、音节特征向量Si和句子特征向量Gi按照最大维度填充(Pad)后再拼接,得到音节xi对应的特征向量F(xi):
F(xi)=Pad_Concat(Ci,Si,Gi) (8)
Step2.8、得到每个音节xi的特征嵌入F(xi)后,再将其和mBERT编码器的最后一层隐状态输出进行拼接,得到最终的隐状态表示Xi,然后将送入一个softmax层去计算每个音节xi的预测标签概率li:
li=softmax(WOXi+bO) (10)
其中,Wo是softmax层的矩阵权重参数,bo是偏置项权重参数。
4.根据权利要求1所述的融合多粒度特征的越南语语法错误纠正方法,其特征在于,所述Step3的具体步骤如下:
Step3.1、根据Step2中得到的预测标签序列L=(l1,l2,...,ln)进行语法错误纠正,首先遍历检测结果标签序列中的每个标签li,如果li为“O”(无错标记),则纠正句子中对应位置处的音节保持不变,否则将对应位置处的音节替换为“MASK”标记;
Step3.2、利用mBERT掩码语言模型对“MASK”标记位置的词进行重新预测,给出5个候选纠正项{a1,a2,a3,a4,a5};
Step3.3、原输入句子X的“MASK”标记处分别用5个纠正候选项进行替换,得到对应的5个纠正候选句子{Y1,Y2,Y3,Y4,Y5};
Step3.4、利用N-gram语言模型对得到的5个纠正候选句子进行打分:
其中,S表示输入的候选句子,P(x)表示利用N-gram语言模型计算出的某个音节x在语料库中出现的概率;
Step3.5、选择5个候选句子中得分最高的作为最终的纠正句子输出:
Yout=max{score(Y1),score(Y2),score(Y3),score(Y4),score(Y5)} (13)。
5.融合多粒度特征的越南语语法错误纠正装置,其特征在于,包括用于执行如权利要求1-4任一项权利要求所述方法的模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210284610.3A CN114707492B (zh) | 2022-03-22 | 2022-03-22 | 融合多粒度特征的越南语语法错误纠正方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210284610.3A CN114707492B (zh) | 2022-03-22 | 2022-03-22 | 融合多粒度特征的越南语语法错误纠正方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114707492A true CN114707492A (zh) | 2022-07-05 |
CN114707492B CN114707492B (zh) | 2024-08-23 |
Family
ID=82168459
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210284610.3A Active CN114707492B (zh) | 2022-03-22 | 2022-03-22 | 融合多粒度特征的越南语语法错误纠正方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114707492B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115223549A (zh) * | 2022-07-09 | 2022-10-21 | 昆明理工大学 | 一种越南语语音识别语料构建方法 |
CN115906815A (zh) * | 2023-03-08 | 2023-04-04 | 北京语言大学 | 一种用于修改一种或多种类型错误句子的纠错方法及装置 |
CN116757184A (zh) * | 2023-08-18 | 2023-09-15 | 昆明理工大学 | 融合发音特征的越南语语音识别文本纠错方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140025381A1 (en) * | 2012-07-20 | 2014-01-23 | Microsoft Corporation | Evaluating text-to-speech intelligibility using template constrained generalized posterior probability |
CN104978311A (zh) * | 2015-07-15 | 2015-10-14 | 昆明理工大学 | 一种基于条件随机场的越南语分词方法 |
CN106202255A (zh) * | 2016-06-30 | 2016-12-07 | 昆明理工大学 | 融合实体特性的越南语命名实体识别方法 |
CN112149406A (zh) * | 2020-09-25 | 2020-12-29 | 中国电子科技集团公司第十五研究所 | 一种中文文本纠错方法及系统 |
CN112926324A (zh) * | 2021-02-05 | 2021-06-08 | 昆明理工大学 | 融合词典与对抗迁移的越南语事件实体识别方法 |
CN113901840A (zh) * | 2021-09-15 | 2022-01-07 | 昆明理工大学 | 一种基于多粒度特征的文本生成评价方法 |
-
2022
- 2022-03-22 CN CN202210284610.3A patent/CN114707492B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140025381A1 (en) * | 2012-07-20 | 2014-01-23 | Microsoft Corporation | Evaluating text-to-speech intelligibility using template constrained generalized posterior probability |
CN104978311A (zh) * | 2015-07-15 | 2015-10-14 | 昆明理工大学 | 一种基于条件随机场的越南语分词方法 |
CN106202255A (zh) * | 2016-06-30 | 2016-12-07 | 昆明理工大学 | 融合实体特性的越南语命名实体识别方法 |
CN112149406A (zh) * | 2020-09-25 | 2020-12-29 | 中国电子科技集团公司第十五研究所 | 一种中文文本纠错方法及系统 |
CN112926324A (zh) * | 2021-02-05 | 2021-06-08 | 昆明理工大学 | 融合词典与对抗迁移的越南语事件实体识别方法 |
CN113901840A (zh) * | 2021-09-15 | 2022-01-07 | 昆明理工大学 | 一种基于多粒度特征的文本生成评价方法 |
Non-Patent Citations (3)
Title |
---|
张洲: "融合多粒度特征的越南语文本语法纠错方法研究", 《中国优秀硕士学位论文 信息科技辑》, 15 December 2023 (2023-12-15), pages 1 - 79 * |
熊明明;李英;郭剑毅;毛存礼;余正涛;: "基于CRFs和歧义模型的越南语分词", 数据采集与处理, no. 03, 15 May 2017 (2017-05-15), pages 210 - 216 * |
王吉地;郭军军;黄于欣;高盛祥;余正涛;张亚飞;: "融合依存信息和卷积神经网络的越南语新闻事件检测", 南京大学学报(自然科学), no. 01, 30 January 2020 (2020-01-30), pages 130 - 136 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115223549A (zh) * | 2022-07-09 | 2022-10-21 | 昆明理工大学 | 一种越南语语音识别语料构建方法 |
CN115906815A (zh) * | 2023-03-08 | 2023-04-04 | 北京语言大学 | 一种用于修改一种或多种类型错误句子的纠错方法及装置 |
CN116757184A (zh) * | 2023-08-18 | 2023-09-15 | 昆明理工大学 | 融合发音特征的越南语语音识别文本纠错方法及系统 |
CN116757184B (zh) * | 2023-08-18 | 2023-10-20 | 昆明理工大学 | 融合发音特征的越南语语音识别文本纠错方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114707492B (zh) | 2024-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhu et al. | Encoder-decoder with focus-mechanism for sequence labelling based spoken language understanding | |
CN114707492B (zh) | 融合多粒度特征的越南语语法错误纠正方法及装置 | |
CN110489760A (zh) | 基于深度神经网络文本自动校对方法及装置 | |
CN114118065B (zh) | 一种电力领域中文文本纠错方法、装置、存储介质及计算设备 | |
Solyman et al. | Synthetic data with neural machine translation for automatic correction in arabic grammar | |
CN110276069B (zh) | 一种中国盲文错误自动检测方法、系统及存储介质 | |
US20170286376A1 (en) | Checking Grammar Using an Encoder and Decoder | |
CN112183094A (zh) | 一种基于多元文本特征的中文语法查错方法及系统 | |
CN112784576B (zh) | 一种文本依存句法分析方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
Hifny | Open vocabulary Arabic diacritics restoration | |
Li et al. | Boost transformer with BERT and copying mechanism for ASR error correction | |
CN114595700A (zh) | 融合零代词与篇章信息的汉越神经机器翻译方法 | |
CN113947072A (zh) | 一种文本纠错方法及文本纠错装置 | |
CN117973372A (zh) | 一种基于拼音约束的中文语法纠错方法 | |
CN112599129A (zh) | 语音识别方法、装置、设备和存储介质 | |
Gamal et al. | Survey of arabic machine translation, methodologies, progress, and challenges | |
CN116956944A (zh) | 一种融合句法信息的濒危语言翻译模型方法 | |
CN116560890A (zh) | 一种结合词法和语法信息的自动程序修复方法 | |
Zheng et al. | How do you correct run-on sentences it's not as easy as it seems | |
CN115374784A (zh) | 一种多模态信息选择性融合的中文命名实体识别方法 | |
Duan et al. | Pinyin as a feature of neural machine translation for Chinese speech recognition error correction | |
CN114676709B (zh) | 基于零代词补齐的汉越数据增强方法 | |
CN116681087B (zh) | 一种基于多阶段时序和语义信息增强的自动问题生成方法 | |
CN117787266B (zh) | 基于预训练知识嵌入的大语言模型文本纠错方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |