CN117010367A - 一种中文文本的规范性检测方法及装置 - Google Patents

一种中文文本的规范性检测方法及装置 Download PDF

Info

Publication number
CN117010367A
CN117010367A CN202310981771.2A CN202310981771A CN117010367A CN 117010367 A CN117010367 A CN 117010367A CN 202310981771 A CN202310981771 A CN 202310981771A CN 117010367 A CN117010367 A CN 117010367A
Authority
CN
China
Prior art keywords
error correction
chinese
correction result
text
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310981771.2A
Other languages
English (en)
Inventor
单宇翔
高扬华
金泳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Tobacco Zhejiang Industrial Co Ltd
Original Assignee
China Tobacco Zhejiang Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Tobacco Zhejiang Industrial Co Ltd filed Critical China Tobacco Zhejiang Industrial Co Ltd
Priority to CN202310981771.2A priority Critical patent/CN117010367A/zh
Publication of CN117010367A publication Critical patent/CN117010367A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种中文文本的规范性检测方法及装置,方法包括:将输入文本转换为对应的中文读音特征;基于中文读音特征预测与中文读音特征对应的中文词语组合;将中文词语组合与输入文本进行比对,确定输入文本的第一错误点位置和第一纠错建议,形成第一纠错结果;输出第一纠错结果。本申请基于读音的拼写纠错方法,通过探索字词间的相关性,对易错词组进行针对性的预测,提高了预测的准确率,通过纠错规范文本的内容和格式,提高文本纠错的效率和准确性。

Description

一种中文文本的规范性检测方法及装置
技术领域
本申请涉及自然语言处理技术领域,更具体地,涉及一种中文文本的规范性检测方法及装置。
背景技术
随着计算机和人工智能技术的飞速发展,人们越来越依赖文本进行交流和信息传递,例如合同文本。但是,由于人的语言表达能力和注意力等方面的局限,文本错误屡见不鲜。例如,在编写文本合同时,可能会出现标点、拼写、语法、语义错误等文本错误,因合同条款用语含糊、矛盾、错误造成的合同缺陷,不仅影响了文本的可读性和可信度,也会给读者带来困扰,导致误解和矛盾,会对后续业务的进行造成严重影响。因此,文本纠错在自然语言处理领域中具有极其重要的意义。
传统的文本纠错方法主要基于规则、统计和机器学习等技术,但是这些方法往往需要大量的人工参与和语言专业知识的支持。此外,在处理复杂的文本错误时,这些方法的效果往往不尽如人意。与此相比,基于深度学习技术的文本纠错方法可以构建大规模的语料库和强大的语言模型,从而更加准确地预测和纠正文本中的错误。目前,基于深度学习技术的文本纠错方法已经成为主流,取得了很大的进展和成就。
然而,与英文文本纠错相比,中文文本纠错存在着一些特殊的问题和挑战。主要问题包括多音字、同音字、词汇歧义、易错词组等等,这些问题给中文文本纠错带来了很大的困难。
发明内容
本申请提供一种中文文本的规范性检测方法及装置,基于读音的拼写纠错方法,通过探索字词间的相关性,对易错词组进行针对性的预测,提高了预测的准确率,通过纠错规范文本的内容和格式,提高文本纠错的效率和准确性。
本申请提供了一种中文文本的规范性检测方法,包括:
将输入文本转换为对应的中文读音特征;
基于中文读音特征预测与中文读音特征对应的中文词语组合;
将中文词语组合与输入文本进行比对,确定输入文本的第一错误点位置和第一纠错建议,形成第一纠错结果;
输出第一纠错结果。
优选地,中文文本的规范性检测方法还包括:
对输入文本直接进行错误检测,获得第二错误点位置和第二纠错建议,形成第二纠错结果;
将第一纠错结果和第二纠错结果进行融合,获得第三纠错结果并输出。
优选地,采用加权平均法对第一纠错结果和第二纠错结果进行融合。
优选地,采用加权平均法时,依据输入文本的长度确定第一纠错结果和第二纠错结果的权重。
优选地,基于中文读音特征预测与中文读音特征对应的中文词语组合之前,还包括对中文读音特征中的特殊拼音进行规范化处理。
本申请还提供一种中文文本的规范性检测装置,包括读音转换模块、词语组合预测模块、比对模块以及输出模块;
读音转换模块用于将输入文本转换为对应的中文读音特征;
词语组合预测模块用于基于中文读音特征预测与中文读音特征对应的中文词语组合;
比对模块用于将中文词语组合与输入文本进行比对,确定输入文本的第一错误点位置和第一纠错建议,形成第一纠错结果;
输出模块用于输出第一纠错结果。
优选地,中文文本的规范性检测装置还包括直接检测模块和融合模块;
直接检测模块用于对输入文本直接进行错误检测,获得第二错误点位置和第二纠错建议,形成第二纠错结果;
融合模块用于将第一纠错结果和第二纠错结果进行融合,获得第三纠错结果并输出。
优选地,融合模块用于采用加权平均法对第一纠错结果和第二纠错结果进行融合。
优选地,融合模块用于采用加权平均法时,依据输入文本的长度确定第一纠错结果和第二纠错结果的权重。
优选地,中文文本的规范性检测装置还包括读音规范模块,读音规范模块用于对中文读音特征中的特殊拼音进行规范化处理。
通过以下参照附图对本申请的示例性实施例的详细描述,本申请的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本申请的实施例,并且连同其说明一起用于解释本申请的原理。
图1为本申请提供的中文文本的规范性检测方法的一个优选实施例的流程图;
图2为本申请提供的中文文本的规范性检测方法的一个优选实施例的原理示意图;
图3为BART模型的原理示意图;
图4为本申请提供的中文文本的规范性检测装置的结构示意图。
具体实施方式
现在将参照附图来详细描述本申请的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本申请及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
本申请提供一种中文文本的规范性检测方法及装置,基于读音的拼写纠错方法,通过探索字词间的相关性,对易错词组进行针对性的预测,提高了预测的准确率,通过纠错规范文本的内容和格式,提高文本纠错的效率和准确性。进一步地,本申请还利用了中文汉字的读音特征,直接对文本中的拼写错误进行检测和修正,有效地解决了多音字、同音字、词汇歧义等问题。在此基础上,将通过读音拼写和直接的文本拼写纠错结果融合在一起,最终得出修正建议,这种方法有效地综合了两种模型的优点,提高了纠错的准确性和完整性。
如图1所示,作为一个实施例,本申请提供的中文文本的规范性检测方法包括:
S110:将输入文本转换为对应的中文读音特征。
需要说明的是,本申请中,输入文本为含有中文语法错误的文本,错误类型包括标点、拼写、语法和语义错误等。
作为一个实施例,输入文本来自多国语言学习交流平台Lang 8数据集,Lang-8数据集是一组高质量的多语言文本数据,其特点在于文本已经被母语为该语言的人进行了纠正和注释,可用于自然语言处理、机器学习、语言学习等领域的模型训练和评估。该数据集覆盖了多种语言,包括英语、日语、中文、西班牙语、法语等。数据集中的文本经过了真实用户的提交和纠正,其质量很高。同时,该数据集也具有一定的代表性,能够反映出不同语言使用者的写作习惯和语法错误。
具体地,采用正则表达式将用于检测的一段长文本按匹配规则切分为长度较短的多条语句,形成输入文本Text1,在消除额外影响的同时保留上下文语境信息。
获得输入文本后,首先将原始的输入文本Text1按照一定规则进行分词,得到分词后的词组p1,p2,...,px,然后将分词后的词组输入读音转换工具,提取中文读音特征。优选地,在获得中文读音特征之后,还对中文读音特征中的特殊拼音进行规范化处理,例如‘lue’规范化为‘lve’,以消除声调的影响。
S120:基于中文读音特征预测与中文读音特征对应的中文词语组合。
作为一个实施例,中文读音转换模型基于维特比(Viterbi)算法将中文读音特征转换为对应的中文词语组合phrase1,phrase2,...,phrasex。Viterbi算法是一种动态规划算法,常用于序列标注问题中,其基本思想是利用动态规划的方法,递归地求解每个时刻的最优状态序列,并利用路径回溯的方式得到最优路径。
Viterbi算法的基本原理:假设给定隐式马尔可夫模型(HMM)状态空间S,共有k个状态,初始状态i的概率为πi,从状态i到状态j的转移概率为ai,j。令观察到的输出为y1,…,yT。产生该观察结果的最有可能的状态序列x1,…,xT由递推关系给出:
V1,k=P(y1|k)·πk (1)
其中,V1,k是t=1时最终状态为k的观测结果对应的状态序列的概率,P(y1|k)是在状态k下观察到输出为y1的概率,Vt,k是前t个最终状态为k的观测结果最有可能对应的状态序列的概率,P(yt|k)是在状态k下观察到输出为yt的概率。通过保存向后制作记住在等式(2)中用到的状态x可以获得Viterbi路径。其中,通过函数Ptr(k,t)返回每个状态序列值,若t>1,则该函数返回的是Vt,k用到的x值;若t=1,则该函数返回的是状态k,这样:
xt-1=Ptr(xt,t) (4)
基于Viterbi算法,将汉字作为隐藏状态,拼音作为观测值,可以将多个拼音转换成合理的汉字。
S130:将中文词语组合与输入文本进行比对,确定输入文本的第一错误点位置和第一纠错建议S1,形成第一纠错结果。
具体地,将转换后的中文词语组合phrase1,phrase2,...,phrasex作为参考值,与原的始输入文本Text1进行比对,确定第一错误点位置,并给出第一纠错建议。
作为一个实施例,在获得第一纠错结果后执行S160:输出第一纠错结果。
上述基于读音的拼写纠错方法通过探索字词间的相关性,对易错词组进行针对性的预测,提高了预测的准确率,从而提高了纠错的准确率。
在上述基础上,优选地,结合图2,本申请的中文文本的规范性检测方法还包括:
S140:对输入文本直接进行错误检测,获得第二错误点位置和第二纠错建议S2,形成第二纠错结果。
作为一个实施例,采用掩码预测模型对输入文本直接进行错误检测,其对输入文本Text1中可能存在的标点、拼写、语法、语义等错误进行检测,预测正确文本Text2。
本申请主要采用基于Transformer的序列到序列(seq2seq)方法建模文本纠错任务,具体中文BART(Bidirectional and Auto-Regressive Transformers,双向自回归变压器)作为预训练模型。BART是一个Encoder-Decoder的结构,其Encoder端的输入是加了噪音的序列,Decoder端的输入是Right-shifted的序列,Decoder端的目标是原序列。模型设计的目的很明确,就是在利用Encoder端的双向建模能力的同时,保留自回归的特性,以适用于生成任务。BART吸收了BERT的Bidirectional Encoder(双向编码)和GPT的Left-to-Right Decoder(左-右解码)的特点,建立在标准的seq2seq Transformer Model的基础之上,这使得它比BERT更适合文本生成的场景;相比GPT,也多了双向上下文语境信息。在生成任务上获得进步的同时,它也可以在一些文本理解类任务上取得当前最优的性能表现。
如图3示出了BART的主要结构,编码器输入与解码器输出无需对齐,即允许任意噪声变换,使用掩码符号替换文本段,从而破坏文本,使用双向模型编码破坏的文本,然后使用自回归解码器计算原始文档的似然。输入时先MASK句子的一部分,例如,句子的内容是[x1,x2,x3,x4,x5,x6,x7,x8](图3中给出了另一个例子),从中MASK了[x3,x4,x5,x6],那么Encoder的输入变成了[x1,x2,[M],[M],[M],[M],x7,x8]。而在Decoder中,它的输入包括Attention加权后的Encoder编码的特征向量,以及当前时间片之前已经预测的内容。经Decoder预测出被MASK的内容,作为正确文本Text2。
随后对比预测出来的正确文本Text2和原始的输入文本Text1,找出原始的输入文本中出现错误的位置(第二错误点位置),并根据模型检测出的错误类型,给出“插入”、“删除”、“修改”等纠错建议(第二纠错建议)。
利用了BART预训练模型中的掩码机制,通过对文本中的错别字进行预测和替换,实现了对文本纠错的处理。
S150:将第一纠错结果和第二纠错结果进行融合,获得第三纠错结果S3。随后执行S160,将第三纠错结果输出。
作为一个实施例,采用加权平均法对第一纠错结果和第二纠错结果进行融合。
若第一纠错结果和第二纠错结果分别为x1,x2,对应的权值为w1,w2,加权平均融合法的结果为y,则有:
y=(w1·x1+w2·x2)/(w1+w2) (5)
其中,权值w1,w2根据模型性能设定,一般要求满足w1+w2=1。
优选地,采用加权平均法时,依据输入文本的长度确定第一纠错结果和第二纠错结果的权重。具体地,先判断输入文本的长度是否大于阈值。若是,则按照第一权重组合对第一纠错结果和第二纠错结果进行融合,其中,第一纠错结果的权重为w1,第二纠错结果的权重为w2,其中w1<w2,使得第三纠错结果更偏向直接文本检测给出的预测值;否则,按照第二权重组合对第一纠错结果和第二纠错结果进行融合,其中,第一纠错结果的权重为w1’,第二纠错结果的权重为w2’,其中w1’>w2’,使得第三纠错结果更偏向读音转换给出的预测值。
经融合后,若系统判定原始的输入文本Text1没有问题,则不会修改原始输入文本Text1,即认为原始的输入文本无相关类型的错误,则输出提示信息,不给出修改建议。若系统判定原始的输入文本Text1中至少存在一处存在规范性问题,则根据修改类型,给出“增加”、“删除”、“修改”的修改建议,并输出修改后的文本内容。
基于上述中文文本的规范性检测,本申请还提供一种中文文本的规范性检测装置。如图4所示,中文文本的规范性检测装置包括读音转换模块410、词语组合预测模块420、比对模块430以及输出模块440。
读音转换模块410用于将输入文本转换为对应的中文读音特征。
词语组合预测模块420用于基于中文读音特征预测与中文读音特征对应的中文词语组合。
比对模块430用于将中文词语组合与输入文本进行比对,确定输入文本的第一错误点位置和第一纠错建议,形成第一纠错结果。
输出模块440用于输出第一纠错结果。
优选地,中文文本的规范性检测装置还包括直接检测模块450和融合模块460。
直接检测模块450用于对输入文本直接进行错误检测,获得第二错误点位置和第二纠错建议,形成第二纠错结果。
融合模块460用于将第一纠错结果和第二纠错结果进行融合,获得第三纠错结果并输出。
优选地,融合模块460用于采用加权平均法对第一纠错结果和第二纠错结果进行融合。
优选地,融合模块460用于采用加权平均法时,依据输入文本的长度确定第一纠错结果和第二纠错结果的权重。
优选地,中文文本的规范性检测装置还包括读音规范模块470,读音规范模块470用于对中文读音特征中的特殊拼音进行规范化处理。
本申请利用中文汉字的读音特征,采用基于拼音和音形码的拼写纠错方法,同时利用掩码预测方法进行文本纠错,对文本中的拼写错误进行检测和修正,最后基于加权平均法将两种模型的修正结果进行融合,综合两种模型的优点,进一步提高了纠错的准确性和完整性,本方法可以较好地处理错误的分词问题,使得文本纠错的效果更加准确和鲁棒,通过实验验证,本申请的方法在中文文本纠错领域取得了很好的效果,并具有很高的实用价值。
虽然已经通过例子对本申请的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上例子仅是为了进行说明,而不是为了限制本申请的范围。本领域的技术人员应该理解,可在不脱离本申请的范围和精神的情况下,对以上实施例进行修改。本申请的范围由所附权利要求来限定。

Claims (10)

1.一种中文文本的规范性检测方法,其特征在于,包括:
将输入文本转换为对应的中文读音特征;
基于所述中文读音特征预测与所述中文读音特征对应的中文词语组合;
将所述中文词语组合与所述输入文本进行比对,确定所述输入文本的第一错误点位置和第一纠错建议,形成第一纠错结果;
输出所述第一纠错结果。
2.根据权利要求1所述的中文文本的规范性检测方法,其特征在于,还包括:
对所述输入文本直接进行错误检测,获得第二错误点位置和第二纠错建议,形成第二纠错结果;
将所述第一纠错结果和所述第二纠错结果进行融合,获得第三纠错结果并输出。
3.根据权利要求2所述的中文文本的规范性检测方法,其特征在于,采用加权平均法对所述第一纠错结果和所述第二纠错结果进行融合。
4.根据权利要求3所述的中文文本的规范性检测方法,其特征在于,采用加权平均法时,依据所述输入文本的长度确定所述第一纠错结果和所述第二纠错结果的权重。
5.根据权利要求1所述的中文文本的规范性检测方法,其特征在于,基于所述中文读音特征预测与所述中文读音特征对应的中文词语组合之前,还包括对所述中文读音特征中的特殊拼音进行规范化处理。
6.一种中文文本的规范性检测装置,其特征在于,包括读音转换模块、词语组合预测模块、比对模块以及输出模块;
所述读音转换模块用于将输入文本转换为对应的中文读音特征;
所述词语组合预测模块用于基于所述中文读音特征预测与所述中文读音特征对应的中文词语组合;
所述比对模块用于将所述中文词语组合与所述输入文本进行比对,确定所述输入文本的第一错误点位置和第一纠错建议,形成第一纠错结果;
所述输出模块用于输出所述第一纠错结果。
7.根据权利要求6所述的中文文本的规范性检测装置,其特征在于,还包括直接检测模块和融合模块;
所述直接检测模块用于对所述输入文本直接进行错误检测,获得第二错误点位置和第二纠错建议,形成第二纠错结果;
所述融合模块用于将所述第一纠错结果和所述第二纠错结果进行融合,获得第三纠错结果并输出。
8.根据权利要求7所述的中文文本的规范性检测装置,其特征在于,所述融合模块用于采用加权平均法对所述第一纠错结果和所述第二纠错结果进行融合。
9.根据权利要求8所述的中文文本的规范性检测装置,其特征在于,所述融合模块用于采用加权平均法时,依据所述输入文本的长度确定所述第一纠错结果和所述第二纠错结果的权重。
10.根据权利要求6所述的中文文本的规范性检测装置,其特征在于,还包括读音规范模块,所述读音规范模块用于对所述中文读音特征中的特殊拼音进行规范化处理。
CN202310981771.2A 2023-08-04 2023-08-04 一种中文文本的规范性检测方法及装置 Pending CN117010367A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310981771.2A CN117010367A (zh) 2023-08-04 2023-08-04 一种中文文本的规范性检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310981771.2A CN117010367A (zh) 2023-08-04 2023-08-04 一种中文文本的规范性检测方法及装置

Publications (1)

Publication Number Publication Date
CN117010367A true CN117010367A (zh) 2023-11-07

Family

ID=88570664

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310981771.2A Pending CN117010367A (zh) 2023-08-04 2023-08-04 一种中文文本的规范性检测方法及装置

Country Status (1)

Country Link
CN (1) CN117010367A (zh)

Similar Documents

Publication Publication Date Title
US9069753B2 (en) Determining proximity measurements indicating respective intended inputs
KR100911621B1 (ko) 한영 자동번역 방법 및 장치
CN110046350B (zh) 文法错误识别方法、装置、计算机设备及存储介质
Wilcox-O’Hearn et al. Real-word spelling correction with trigrams: A reconsideration of the Mays, Damerau, and Mercer model
US20050289463A1 (en) Systems and methods for spell correction of non-roman characters and words
Antony et al. Parts of speech tagging for Indian languages: a literature survey
US20070005345A1 (en) Generating Chinese language couplets
CN111460793A (zh) 纠错方法、装置、设备及存储介质
Zitouni et al. Arabic diacritic restoration approach based on maximum entropy models
Păiş et al. Capitalization and punctuation restoration: a survey
KR20230009564A (ko) 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치
Anastasopoulos Computational tools for endangered language documentation
Zhang et al. A survey on syntactic processing techniques
JP5097802B2 (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
CN112183060B (zh) 多轮对话系统的指代消解方法
CN116681061A (zh) 一种基于多任务学习和注意力机制的英文语法纠正技术
CN113822052A (zh) 一种文本错误检测方法、装置、电子设备及存储介质
Winata Multilingual transfer learning for code-switched language and speech neural modeling
CN117010367A (zh) 一种中文文本的规范性检测方法及装置
CN114519358A (zh) 翻译质量评估方法、装置、电子设备和存储介质
Chao et al. Automatic spelling correction for asr corpus in traditional chinese language using seq2seq models
Duan et al. Pinyin as a feature of neural machine translation for Chinese speech recognition error correction
Yadav et al. Image Processing-Based Transliteration from Hindi to English
Athanaselis et al. A corpus based technique for repairing ill-formed sentences with word order errors using co-occurrences of n-grams
CN115437511B (zh) 一种拼音汉字转换方法、转换模型训练方法及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination