CN114548080B - 一种基于分词增强的中文错字校正方法及系统 - Google Patents

一种基于分词增强的中文错字校正方法及系统 Download PDF

Info

Publication number
CN114548080B
CN114548080B CN202210448670.4A CN202210448670A CN114548080B CN 114548080 B CN114548080 B CN 114548080B CN 202210448670 A CN202210448670 A CN 202210448670A CN 114548080 B CN114548080 B CN 114548080B
Authority
CN
China
Prior art keywords
text
characters
character
hidden state
word segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210448670.4A
Other languages
English (en)
Other versions
CN114548080A (zh
Inventor
李芳芳
单悠然
黄惟
康占英
王青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha Zhiwei Information Technology Co ltd
Original Assignee
Changsha Zhiwei Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha Zhiwei Information Technology Co ltd filed Critical Changsha Zhiwei Information Technology Co ltd
Priority to CN202210448670.4A priority Critical patent/CN114548080B/zh
Publication of CN114548080A publication Critical patent/CN114548080A/zh
Application granted granted Critical
Publication of CN114548080B publication Critical patent/CN114548080B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Document Processing Apparatus (AREA)

Abstract

发明涉及一种基于分词增强的中文错字校正方法及系统,中文错字校正方法包括以下步骤,S1、获取包含中文错字的原始文本;S2、利用分词模块中的第一文本编码模块获取原始文本的第一隐藏状态,并根据所述原始文本的第一隐藏状态预测目标文本的分词结果;S3、利用纠正模块中预先训练的文本编码模型,根据所述原始文本、分词结果和第一隐藏状态获取最终隐藏状态;S4、利用纠正模块中的纠正网络模块,根据所述最终隐藏状态对所述原始文本进行纠正得到目标文本。本方法可预测目标文本的分词结果,在原始文本存在错别字的情况下,能获得正确的分词结果,为纠正过程提供有效信息,确保目标文本的正确性。

Description

一种基于分词增强的中文错字校正方法及系统
技术领域
本发明涉及计算机文字处理技术领域,尤其涉及一种基于分词增强的中文错字校正方法及系统。
背景技术
当中文文本中出现错别字时,将会影响文本的语义表达,错别字的出现在许多场景中会造成一定的不良影响。中文拼写检查在搜索优化,新闻稿校对,非母语学习者文本校正上都有大量应用,是自然语言处理中的一项重要任务。
早期的中文拼写检查方法遵循错误发现,候选召回,候选排序的方式,通过语言模型、词表以及大量人工设计的规则进行纠错,在精度无法令人满意。随着深度学习的发展,尤其是预训练语言模型的发展与广泛应用,基于深度学习的中文拼写检查方法成为主流。
目前的大部分方法都将中文拼写检查视为序列标注任务,采用非自回归的方式进行预测。其中一个研究热点就是融入字符的字音字形特征或融入字符间的相似性。为了达到这一目的,出现了各式各样的方法,其中不乏复杂的字音字形编码结构。但现有的方法都忽略了错别字的出现常常会影响文本的分词这一现象,同时常规的分词工具无法根据含错误字符的文本预测正确的分词结果。
发明内容
因此,本发明要解决的技术问题在于克服分词工具无法根据错误文本预测正确的分词结果的问题,从而提供一种基于分词增强的中文拼写检查方法及系统。
为解决上述技术问题,本发明公开实施例至少提供一种基于分词增强的中文错字校正方法及系统。
第一方面,提供一种基于分词增强的中文错字校正方法,包括以下步骤,
S1、获取包含中文错字的原始文本;
S2、利用分词模块中的第一文本编码模块获取原始文本的第一隐藏状态,并根据所述原始文本的第一隐藏状态预测目标文本的分词结果;
S3、利用纠正模块中预先训练的文本编码模型,根据所述原始文本、分词结果和第一隐藏状态获取最终隐藏状态;
S4、利用纠正模块中的纠正网络模块,根据所述最终隐藏状态对所述原始文本进行纠正得到目标文本。
可选的,所述S2包括,
根据原始文本获得与原始文本对应的字符序列、分段序列和位置序列;
根据字符序列、分段序列和位置序列计算嵌入向量;
根据嵌入向量抽取文本的语义表示,得到第一隐藏状态。
可选的,按照下述公式预测分词结果:
Figure 911154DEST_PATH_IMAGE001
,式中H为第一隐藏状态,W1与b1通过训练得到。
可选的,所述S3包括:
根据原始文本,获得与原始文本对应的字符序列、位置序列;
根据分词结果、字符序列、位置序列通过文本编码模型获取原始文本的第二隐藏状态;
将第一隐藏状态与第二隐藏状态相加,获得最终隐藏状态。
可选的,所述文本编码模型是基于BERT继续预训练获得的,训练方法为:
以大规模语料为基础,为大规模语料中的每一个基础字符生成音近字初始候选列表和形近字初始候选列表,音近字符初始候选列表和形近字符初始候选列表中的字符为候选字符;为大规模语料中的每一个基础词语生成音近词语初始候选列表;音近词语初始候选列表中的词语为候选词语;
计算每一个基础字符与其对应的初始候选列表中的每一个候选字符的字音综合得分、字形综合得分,为基础字符生成音近字候选列表、形近字候选列表;
计算每一个基础词语与其对应的初始候选列表中的每一个候选词语的音近词语综合得分,为基础词语生成音近词语候选列表;
获取不包含错别字的训练原始文本;
使用LAC模型获取训练原始文本的文本分词;
在训练原始文本的字符中随机挑选设定比例的字符作为被替换字符;被替换字符包括字符和词语;
将被替换字符中的字符与基础字符对应,在相应的音近字候选列表、形近字候选列表中选择候选字符作为替换字符,候选列表中每个候选字符的分数作为其被选中的概率。
将被替换字符中的词语与基础词语对应,在相应的音近词语候选列表中选择候选词语作为替换词语,候选列表中每个候选词语的分数作为其被选中的概率。
替换前的训练原始文本作为训练目标文本,替换后的训练原始文本作为输入的训练原始文本,由此构成的若干句子对作为训练集;使用替换前的文本分词替换原始BERT模型嵌入层的分段嵌入信息,并进行训练;训练的优化目标是根据输入的训练原始文本预测与之对应的训练目标文本,训练生成文本编码模型。
第二方面,本发明公开实施例还提供一种基于分词增强的中文错字校正系统包括:
分词模块,用于根据原始文本预测目标文本的分词结果;
纠正模块,用于分词结果作为额外的信息对原始文本进行纠正,并输出目标文本。
可选的,所述分词模块包括:
第一文本编码模块,用于获取原始文本的第一隐藏状态;
分词网络模块,用于根据原始文本的第一隐藏状态,预测目标文本的分词结果。
可选的,所述纠正模块包括:
第二文本编码模块,用于利用预先训练的文本编码模型以分词结果作为额外的信息获取原始文本的第二隐藏状态,并将第一隐藏状态与第二隐藏状态相加,获得最终隐藏状态;
纠正网络模块,用于根据最终隐藏状态预测并输出目标文本。
第三方面,本发明公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行基于分词增强的中文拼写检查方法所述的方法。
第四方面,本发明公开实施例还提供一种计算机设备,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述机器可读指令被所述处理器执行时执行如基于分词增强的中文拼写检查方法。
有益效果:本发明公开的一种基于分词增强的中文错字校正方法,根据所述原始文本抽取其语义特征获取第一隐藏状态预测目标文本的分词结果,在原始文本存在错别字的情况下,能获得正确的分词结果,为纠正过程提供有效信息,确保目标文本的正确性。
附图说明
下面结合附图和具体实施例对本发明作出进一步详细说明。
图1为本公开一示例性实施例的基于分词增强的中文错字校正方法的流程图;
图2为本公开另一示例性实施例的基于分词增强的中文错字校正方法的流程图;
图3为本公开一示例性实施例的基于分词增强的中文错字校正系统的结构框图。
图4为本公开一示例性实施例的一种计算机设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有所述特定细节中的一个或更多,或者可以采用其它的方法、组元、材料、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、装置、实现、材料或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个软件硬化的模块中实现这些功能实体或功能实体的一部分,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
实施例1
如图1所示,本发明公开实施例所提供的基于分词增强的中文错字校正方法的流程图,该方法包括:
S1、获取包含中文错字的原始文本;
S2、利用分词模块中的第一文本编码模块获取原始文本的第一隐藏状态,并根据所述原始文本的第一隐藏状态预测目标文本的分词结果;
分词模块包括第一文本编码模块和分词网络模块,第一文本编码模块包括第一嵌入层和编码器;
根据原始文本获得与原始文本对应的字符序列、分段序列和位置序列;
根据字符序列、分段序列和位置序列,利用第一嵌入层计算第一嵌入向量;
根据嵌入向量抽取文本的语义表示,利用编码器得到第一隐藏状态;
利用分词网络模块,按照下述公式预测分词结果:
Figure 581170DEST_PATH_IMAGE002
式中,S为分词结果,H为第一隐藏状态,W1与b1是可学习的向量,W1与b1通过训练得到。
S3、利用纠正模块中预先训练的文本编码模型,根据所述原始文本、分词结果和第一隐藏状态获取最终隐藏状态;
纠正模块包括第二文本编码模块和纠正网络模块,第二文本编码模块包括第二嵌入层和文本编码模型;
根据原始文本,获得与原始文本对应的字符序列、位置序列;
利用第二嵌入层,根据分词结果、字符序列、位置序列获取原始文本的第二嵌入向量;
利用文本编码模型,根据第二嵌入向量获取原始文本的第二隐藏状态;并将第一隐藏状态与第二隐藏状态相加,获得最终隐藏状态。
S4、根据所述最终隐藏状态通过纠正模块中的纠正网络对所述原始文本进行纠正得到目标文本。
文本编码模型的训练方法为:
以大规模语料为基础,为大规模语料中的每一个基础字符生成音近字初始候选列表和形近字初始候选列表,音近字符初始候选列表和形近字符初始候选列表中的字符为候选字符;为大规模语料中的每一个基础词语生成音近词语初始候选列表;音近词语初始候选列表中的词语为候选词语;
计算每一个基础字符与其对应的初始候选列表中的每一个候选字符的字音综合得分、字形综合得分,为基础字符生成音近字候选列表、形近字候选列表;
计算每一个基础词语与其对应的初始候选列表中的每一个候选词语的音近词语综合得分,为基础词语生成音近词语候选列表;
获取不包含错别字的训练原始文本;
使用LAC模型获取训练原始文本的文本分词;
在训练原始文本的字符中随机挑选设定比例的字符作为被替换字符;被替换字符包括字符和词语;
将被替换字符中的字符与基础字符对应,在相应的音近字候选列表、形近字候选列表中选择候选字符作为替换字符,候选列表中每个候选字符的分数作为其被选中的概率。
将被替换字符中的词语与基础词语对应,在相应的音近词语候选列表中选择候选词语作为替换词语,候选列表中每个候选词语的分数作为其被选中的概率。
替换前的训练原始文本作为训练目标文本,替换后的训练原始文本作为输入的训练原始文本,由此构成的若干句子对作为训练集;使用替换前的文本分词替换BERT模型嵌入层的分段嵌入信息,并进行训练;训练的优化目标是根据输入的训练原始文本预测与之对应的训练目标文本,训练生成文本编码模型。
实施例2
如图2所示,本发明公开实施例所提供的另一种基于分词增强的中文错字校正方法,所述方法包括:
S1、获取包含中文错字的原始文本;
其中,所述原始文本为
Figure 430177DEST_PATH_IMAGE003
Figure 86418DEST_PATH_IMAGE004
,n为原始文本的长度,
Figure 337270DEST_PATH_IMAGE006
为原始文本中的字符,i∈{1,2,…,n}。
S2、利用分词模块中的第一文本编码模块获取原始文本的第一隐藏状态,并根据所述原始文本的第一隐藏状态预测目标文本的分词结果;
在分词模块中,包括第一文本编码模块和分词网络模块;第一文本编码模块为BERT模块,其包括第一嵌入层和编码器;所述编码器为BERT模型。
根据BERT模块的第一嵌入层输入需求,获得与原始文本对应的字符序列、分段序列和位置序列,
字符序列为T,
Figure 912608DEST_PATH_IMAGE007
t i 表示原始文本中的字符在BERT词表中的编号,i∈{1,2,…,n};
分段序列为C,
Figure 386927DEST_PATH_IMAGE008
c i 表示原始文本中的字符在句子对中的编号,i∈{1,2,…,n};在BERT模块中,原始文本单句输入,因此分段序列中的每一个元素其实都是0,即c i 值为0;
位置序列为P,
Figure 705913DEST_PATH_IMAGE009
p i 表示原始文本中的字符在原始文本中的位置,i∈{1,2,…,n};
通过第一嵌入层获取原始文本的第一文本嵌入向量,第一文本嵌入向量为E,
Figure 811273DEST_PATH_IMAGE010
Figure 432878DEST_PATH_IMAGE011
;式中
Figure 990898DEST_PATH_IMAGE012
是BERT的隐藏状态的维度;e i x i 的第一嵌入向量,i∈{1,2,…,n},Embedding为分词模块中BERT模块的第一嵌入层;
通过编码器获取第一隐藏状态,第一隐藏状态为H;
Figure 379154DEST_PATH_IMAGE013
式中,
Figure 214386DEST_PATH_IMAGE014
是BERT的隐藏状态的维度;h i 为字符x i 的隐藏状态,i∈{1,2,…,n},Encoding为分词模块中BERT模型的编码层;
根据原始文本的第一隐藏状态,利用由全连接层为架构的分词网络模块预测目标文本的分词结果,分词结果为S,
Figure 131527DEST_PATH_IMAGE015
s i =1表示在当前字符前需要分词,i∈{1,2,…,n},即当前字符s i 与其前一个字符s i-1 不属于同一个词;s i =0表示在当前字符前不需要分词;
分词结果的计算公式为
Figure 442422DEST_PATH_IMAGE002
,式中W1与b1是可学习的向量,即可训练的向量,W1与b1通过训练得到;
由于原始文本中带有错别字,而错别字常常会引起分词错误,该步骤根据原始文本预测目标文本的分词结果,目标文本不含错别字,即预测正确的分词结果;
S3、在纠正模块中,根据所述原始文本、分词结果和第一隐藏状态,利用预先训练的文本编码模型获取最终隐藏状态。
纠正模块包括第二文本编码模块和纠正网络模块,第二文本编码模块包括第二嵌入层和文本编码模型;获取最终隐藏状态的方法如下:
根据原始文本获得对应的字符序列与位置序列;
结合分词模块获得的分词结果,通过第二编码模块获取原始文本的第二文本嵌入向量,第二嵌入向量为
Figure 244156DEST_PATH_IMAGE016
Figure 58528DEST_PATH_IMAGE017
Figure 412149DEST_PATH_IMAGE018
Figure 85707DEST_PATH_IMAGE019
的第二嵌入向量,i∈{1,2,…,n},
Figure 550187DEST_PATH_IMAGE020
式中,Embedding为第二文本编码模块的第二嵌入层,T为字符序列,P为位置序列,S为分词结果;
通过文本编码模型抽取原始文本的语义特征,获取第二隐藏状态,第二隐藏状态为
Figure 219065DEST_PATH_IMAGE021
Figure 743588DEST_PATH_IMAGE022
式中,Encoding为文本编码模型的编码层。
将第一隐藏状态与第二隐藏状态相加,获得最终隐藏状态,最终隐藏状态为
Figure 904442DEST_PATH_IMAGE023
Figure 907033DEST_PATH_IMAGE024
式中,n为原始文本的长度,
Figure 695997DEST_PATH_IMAGE025
是BERT的隐藏状态的维度;
该步骤可保证分词过程和纠正过程的梯度传递,使纠正模块的训练影响分词模块的训练,最后获得最终隐藏状态。
文本编码模型为W-MLM模型,其是基于BERT模型继续预训练获得的;本实施例中使用的文本是单句文本,不是句子对,因此文本编码模型忽略NSP(Next SentencePrediction)任务,只采用MLM(Masked Language Model)任务进行预训练,训练方法具体如下:
以大规模语料为基础,为大规模语料中的每一个基础字符生成音近字初始候选列表和形近字初始候选列表;为大规模语料中的每一个基础词语,生成音近词语初始候选列表;基础字符的音近字符初始候选列表和形近字符初始候选列表分别包含在大规模语料中除该基础字符外的所有字符;音近字符初始候选列表和形近字符初始候选列表中的字符为候选字符;
对于每一个基础字符对应的音近字初始候选列表,根据候选字符的常用性,即在大规模语料中出现的频次,以及候选字符与被替换字符之间的字音相似度,计算音近字符初始候选列表中每一个候选字符的字音综合得分,并保留字音综合分数最高的前30个候选字符,生成音近字候选列表,音近字候选列表为
Figure 532366DEST_PATH_IMAGE026
对于每一个基础字符对应的形近字初始候选列表,根据候选字符的常用性,即在大规模语料中出现的频次,以及候选字符与被替换字符之间的字形相似度,计算形近字符初始候选列表中每一个候选字符的字形综合得分,并保留字形综合分数最高的前30个候选字符,生成形近字候选列表,形近字候选列表为
Figure 773992DEST_PATH_IMAGE027
大规模语料包括基础词语,以相同的方法为大规模语料中所有基础词语生成音近词语初始候选列表,为被替换字符中的词语生成音近词语候选列表,音近词语候选列表为
Figure 580274DEST_PATH_IMAGE028
此实施中以音近字候选列表为例,具体说明音近字候选列表的生成方式:
计算候选字符与被替换字符的相似度分数,计算候选字符的常用性分数与综合分数,候选字符为cand;
字音相似度分数为
Figure 364690DEST_PATH_IMAGE029
,式中,
Figure 965436DEST_PATH_IMAGE030
是FASPell中提出的音近相似度计算方法;
常用性分数为
Figure 225516DEST_PATH_IMAGE031
Figure 442346DEST_PATH_IMAGE032
Figure 205903DEST_PATH_IMAGE033
是当前候选字符cand在大规模语料中出现的频次,
Figure 243129DEST_PATH_IMAGE034
表示被替换字符对应的音近字符初始候选列表中所有候选字符在大规模语料中出现频次的频次集合;
Figure 600292DEST_PATH_IMAGE035
表示频次集合中出现频次的最小值,
Figure 748376DEST_PATH_IMAGE036
表示频次集合中出现频次的最大值;
综合分数为
Figure 366440DEST_PATH_IMAGE037
Figure 574567DEST_PATH_IMAGE038
Figure 419026DEST_PATH_IMAGE039
w c w s 分别表示分数
Figure 105222DEST_PATH_IMAGE040
Figure 843371DEST_PATH_IMAGE041
在综合分数
Figure 97766DEST_PATH_IMAGE042
中所占的比重;
保留综合分数最高的前30个候选字符生成音近字候选列表;候选字符被随机选择为替换字符,候选字符的综合分数将作为其被选中为替换字符的概率。
同理可生成字符的形近字候选列表以及词语的音近词语候选列表。
获取不包含错别字的训练原始文本;
使用LAC模型获取训练原始文本的文本分词,文本分词为L,
Figure 288576DEST_PATH_IMAGE043
,i∈{1,2,…,n},
Figure 778463DEST_PATH_IMAGE044
表示在当前字符前需要分词,即当前字符l i 与其前一个字符l i-1 不属于同一个词;l i =0表示在当前字符前不需要分词;
在训练原始文本的字符中随机挑选设定比例的字符作为被替换字符,设定比例为15%,为被替换字符生成替换字符,具体如下:
被替换字符包括字符和词语,被替换字符中,10%替换为相同字符,20%替换为[MASK]标记,10%替换为随机字符,10%替换为形近字,30%替换为音近字,10%选择连续的字符替换为连续的音近字,10%选择词语替换为其他音近的合法词;这种替换策略使替换字符与被替换字符有较大的概率是相似字符,相似字符包括音近字符和形近字符,使文本编码模型学习到字符间相似性的知识,同时替换为连续的音近字、其他音近的合法词使文本编码模型学习到词级别的知识。
将被替换字符中的字符与基础字符对应,在相应的音近字候选列表、形近字候选列表中选择候选字符作为替换字符,候选列表中每个候选字符的分数作为其被选中的概率。
将被替换字符中的词语与基础词语对应,在相应的音近词语候选列表中选择候选词语作为替换词语,候选列表中每个候选词语的分数作为其被选中的概率。
其中替换前的训练原始文本作为训练目标文本,替换后的训练原始文本作为输入的训练原始文本,由此构成的若干句子对作为训练集。
以BERT模型为骨架,并以BERT模型的MLM(Masked Language Model)任务为训练逻辑,使用替换前的文本分词替换原始BERT模型的嵌入层的分段嵌入信息,并基于BERT模型进行继续预训练,优化目标是根据输入的训练原始文本预测与之对应的训练目标文本;训练生成文本编码模型。
S4、根据所述最终隐藏状态通过纠正模块中的纠正网络模块对所述原始文本进行纠正得到目标文本。
具体如下:
根据最终隐藏状态,通过标准化层与全连接层获取没有错别字的目标文本,
Figure 246485DEST_PATH_IMAGE045
式中W2、W3与b2、b3是可学习的向量,LayerNorm是标准化层,GELU是常规的激活函数;目标文本为Y,
Figure 796415DEST_PATH_IMAGE046
,式中,y i 为i位置的正确字符;i∈{1,2,…,n},目标文本为不含错别字的正确文本。
此实施例中,步骤S2为分词任务,由分词模块执行,步骤S3和S4为纠正任务,由纠正模块执行,所述分词模块和纠正模块联合训练,所述训练中使用的损失函数如下:
Figure 740100DEST_PATH_IMAGE047
Figure 643465DEST_PATH_IMAGE048
为分词任务损失值;
Figure 90627DEST_PATH_IMAGE049
为纠正任务损失值;
Figure 77038DEST_PATH_IMAGE050
为分词任务标签;即分词任务真实值;
Figure 117806DEST_PATH_IMAGE051
为纠正任务标签,即纠正任务真实值;
Figure 949496DEST_PATH_IMAGE052
为综合损失值,
Figure 516743DEST_PATH_IMAGE053
,当λ趋近于0时,表示纠正任务的优化更重要,;当λ趋近于1时,分词任务的优化更重要。由于纠正任务显然比分词任务具有更高的难度,因此λ被经验的设置为0.2。
此实施例提供的方法,通过全连接层预测目标文本的分词结果,在原始文本存在错别字的情况下,能获得正确的分词结果,并将分词结果作为纠正过程的额外的信息,确保目标文本的正确性;纠正过程嵌入信息不包含分段嵌入(SegmentEmbedding),而是嵌入分词嵌入(Word Segment Embedding) ;分段嵌入代表句子编号的分段信息是值全为0的序列,不包含任何有效信息,分词嵌入的嵌入信息是分词序列,比原始的分段嵌入具有更多、更有用的信息;文本编码模型在预训练阶段融入字符间相似度,在选择替换字符时综合考虑字符的常用性以及与被替换字符的相似性,更常用的字符、与被替换字符更相似的字符拥有更大的被选中概率,同时更广泛的选择范围也增大了固定混淆集替换的选择范围;分词过程的第一隐藏状态传递给纠正过程的第二隐藏状态,保证了两个过程的梯度传递,得到最终隐藏状用于纠正,提高目标文本的正确性。
实施例3
参考图3所示 ,本示例性实施例还提供一种基于分词增强的中文错字校正系统100,其包括分词模块110和纠正模块120;所述分词模块110根据原始文本预测目标文本的分词结果;所述纠正模块120根据分词结果对原始文本进行纠正,并输出目标文本。
在本示例的实施例中,所述分词模块110包括:
第一文本编码模块111,其包括第一嵌入层和编码器;所述第一嵌入层用于获取第一文本嵌入向量;所述编码器用于根据文本嵌入向量获取原始文本的第一隐藏状态;
分词网络模块112,用于根据原始文本的第一隐藏状态,通过全连接层预测目标文本的分词结果;
所述纠正模块120包括:
第二文本编码模块121,其包括第二嵌入层和文本编码模型;所述第二嵌入层用于根据原始文本和分词结果获取第二文本嵌入向量;文本编码模型是通过对BERT模型训练获得的,其用于根据第二文本嵌入向量获取原始文本的第二隐藏状态,并将第一隐藏状态与第二隐藏状态相加,获得最终的最终隐藏状态;
纠正网络模块122,用于根据最终隐藏状态,预测并输出目标文本。
此示例性实施例提供的基于分词增强的中文错字校正系统100,通过全连接层预测目标文本的分词结果,提高系统分词的鲁棒性,在原始文本存在错别字的情况下,能获得正确的分词结果,为纠正过程提供有效信息,确保目标文本的正确性;分词模块110的第一隐藏状态传递给纠正模块120的第二隐藏状态,保证了两个模块的梯度传递,得到最终隐藏状态用于纠正,提高目标文本的正确性。
实施例4
基于同一技术构思,本申请实施例还提供了一种计算机设备,包括存储器1和处理器2,如图4所示,所述存储器1存储有计算机程序,所述处理器2执行所述计算机程序时实现上述任一项所述的方法。
其中,存储器1至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器1在一些实施例中可以是基于分词增强的中文错字校正系统的内部存储单元,例如硬盘。存储器1在另一些实施例中也可以是基于分词增强的中文错字校正系统的外部存储设备,例如插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。进一步地,存储器1还可以既包括基于分词增强的中文错字校正系统的内部存储单元也包括外部存储设备。存储器1不仅可以用于存储安装于基于分词增强的中文错字校正系统的应用软件及各类数据,例如基于分词增强的中文错字校正程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器2在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器1中存储的程序代码或处理数据,例如执行基于分词增强的中文错字校正程序等。
本发明公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
本发明公开实施例所提供的应用基于分词增强的中文错字校正方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行上述方法实施例中所述的方法的步骤,具体可参见上述方法实施例,在此不再赘述。
本发明公开实施例还提供一种计算机程序,该计算机程序被处理器执行时实现前述实施例的任意一种方法。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software DevelopmentKit,SDK)等等。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (6)

1.一种基于分词增强的中文错字校正方法,其特征在于,包括以下步骤,
S1、获取包含中文错字的原始文本;
S2、利用分词模块中的第一文本编码模块获取原始文本的第一隐藏状态,并根据所述原始文本的第一隐藏状态预测目标文本的分词结果;
S3、利用纠正模块中预先训练的文本编码模型,根据所述原始文本、分词结果和第一隐藏状态获取最终隐藏状态;
S4、利用纠正模块中的纠正网络模块,根据所述最终隐藏状态对所述原始文本进行纠正得到目标文本;
所述S3包括:
根据原始文本,获得与原始文本对应的字符序列、位置序列;
根据分词结果、字符序列、位置序列获取原始文本的第二隐藏状态;
将第一隐藏状态与第二隐藏状态相加,获得最终隐藏状态;
所述文本编码模型是基于BERT模型继续预训练获得的,训练方法为:
以大规模语料为基础,为大规模语料中的每一个基础字符生成音近字初始候选列表和形近字初始候选列表,音近字符初始候选列表和形近字符初始候选列表中的字符为候选字符;为大规模语料中的每一个基础词语生成音近词语初始候选列表;音近词语初始候选列表中的词语为候选词语;
计算每一个基础字符与其对应的初始候选列表中的每一个候选字符的字音综合得分、字形综合得分,为基础字符生成音近字候选列表、形近字候选列表;
计算每一个基础词语与其对应的初始候选列表中的每一个候选词语的音近词语综合得分,为基础词语生成音近词语候选列表;
获取不包含错别字的训练原始文本;
使用LAC模型获取训练原始文本的文本分词;
在训练原始文本的字符中随机挑选设定比例的字符作为被替换字符;被替换字符包括字符和词语;
将被替换字符中的字符与基础字符对应,在相应的音近字候选列表、形近字候选列表中选择候选字符作为替换字符,候选列表中每个候选字符的分数作为其被选中的概率;
将被替换字符中的词语与基础词语对应,在相应的音近词语候选列表中选择候选词语作为替换词语,候选列表中每个候选词语的分数作为其被选中的概率;
替换前的训练原始文本作为训练目标文本,替换后的训练原始文本作为输入的训练原始文本,由此构成的若干句子对作为训练集;使用替换前的文本分词替换原始BERT模型嵌入层的分段嵌入信息,并进行训练;训练的优化目标是根据输入的训练原始文本预测与之对应的训练目标文本,训练生成文本编码模型。
2.根据权利要求1所述的基于分词增强的中文错字校正方法,其特征在于,所述S2包括,
根据原始文本获得与原始文本对应的字符序列、分段序列和位置序列;
根据字符序列、分段序列和位置序列计算第一嵌入向量;
根据第一嵌入向量抽取文本的语义表示,得到第一隐藏状态。
3.根据权利要求1所述的基于分词增强的中文错字校正方法,其特征在于,按照下述公式预测分词结果:
Figure DEST_PATH_IMAGE002
,式中S为分词结果,H为第一隐藏状态,W1与b1通过训练得到。
4.一种基于分词增强的中文错字校正系统,其特征在于,包括:
分词模块,用于根据原始文本预测目标文本的分词结果;
纠正模块,用于将分词结果作为额外的信息对原始文本进行纠正,并输出目标文本;
第一文本编码模块,用于获取原始文本的第一隐藏状态;
分词网络模块,用于根据原始文本的第一隐藏状态,预测目标文本的分词结果;
所述纠正模块包括:
第二文本编码模块,用于利用预先训练的文本编码模型以分词结果作为额外的信息获取原始文本的第二隐藏状态,并将第一隐藏状态与第二隐藏状态相加,获得最终隐藏状态;
纠正网络模块,用于根据最终隐藏状态预测并输出目标文本。
5.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至3中任一项所述的方法。
6.一种计算机设备,其特征在于,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述机器可读指令被所述处理器执行时执行如权利要求1至3中任一项所述的方法。
CN202210448670.4A 2022-04-24 2022-04-24 一种基于分词增强的中文错字校正方法及系统 Active CN114548080B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210448670.4A CN114548080B (zh) 2022-04-24 2022-04-24 一种基于分词增强的中文错字校正方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210448670.4A CN114548080B (zh) 2022-04-24 2022-04-24 一种基于分词增强的中文错字校正方法及系统

Publications (2)

Publication Number Publication Date
CN114548080A CN114548080A (zh) 2022-05-27
CN114548080B true CN114548080B (zh) 2022-07-15

Family

ID=81666640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210448670.4A Active CN114548080B (zh) 2022-04-24 2022-04-24 一种基于分词增强的中文错字校正方法及系统

Country Status (1)

Country Link
CN (1) CN114548080B (zh)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291692B (zh) * 2017-06-14 2020-12-18 北京百度网讯科技有限公司 基于人工智能的分词模型的定制方法、装置、设备和介质
CN109614612A (zh) * 2018-11-29 2019-04-12 武汉大学 一种基于seq2seq+attention的中文文本纠错方法
CN110196967B (zh) * 2019-06-05 2024-10-15 腾讯科技(深圳)有限公司 基于深度转换架构的序列标注方法和装置
CN111191441A (zh) * 2020-01-06 2020-05-22 广东博智林机器人有限公司 文本纠错方法、装置及存储介质
CN111291552B (zh) * 2020-05-09 2020-08-14 支付宝(杭州)信息技术有限公司 一种文本内容修正的方法和系统
CN111695343A (zh) * 2020-06-23 2020-09-22 深圳壹账通智能科技有限公司 错词纠正方法、装置、设备及存储介质
CN113673228B (zh) * 2021-09-01 2024-09-24 阿里巴巴达摩院(杭州)科技有限公司 文本纠错方法、装置、计算机存储介质及计算机程序产品
CN114219682A (zh) * 2021-11-22 2022-03-22 上海交通大学 基于bert隐藏层信息的案件判决预测方法、系统及介质

Also Published As

Publication number Publication date
CN114548080A (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
CN110489760B (zh) 基于深度神经网络文本自动校对方法及装置
CN110196894B (zh) 语言模型的训练方法和预测方法
US11024287B2 (en) Method, device, and storage medium for correcting error in speech recognition result
JP2010250814A (ja) 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法
CN111310447A (zh) 语法纠错方法、装置、电子设备和存储介质
CN109800414A (zh) 语病修正推荐方法及系统
TWI567569B (zh) Natural language processing systems, natural language processing methods, and natural language processing programs
CN111291552B (zh) 一种文本内容修正的方法和系统
CN110084323B (zh) 端到端语义解析系统及训练方法
CN114036950B (zh) 一种医疗文本命名实体识别方法及系统
CN114970503A (zh) 一种基于预训练的字音字形知识增强的中文拼写纠正方法
CN114997148B (zh) 一种基于对比学习的中文拼写校对预训练模型构建方法
CN118313372B (zh) 一种中文航行通告文本纠错方法、计算机程序产品及终端
CN116681061A (zh) 一种基于多任务学习和注意力机制的英文语法纠正技术
CN114023306B (zh) 用于预训练语言模型的处理方法和口语语言理解系统
CN115358219A (zh) 一种融合无监督学习和自监督学习的中文拼写纠错方法
CN113312918B (zh) 融合部首向量的分词和胶囊网络法律命名实体识别方法
CN113177405B (zh) 基于bert的数据纠错方法、装置、设备及存储介质
CN113988063A (zh) 一种文本纠错方法、装置、设备及计算机可读存储介质
CN113012685B (zh) 音频识别方法、装置、电子设备及存储介质
CN114548080B (zh) 一种基于分词增强的中文错字校正方法及系统
CN116187304A (zh) 一种基于改进bert的自动文本纠错算法及系统
CN115455948A (zh) 一种拼写纠错模型训练方法、拼写纠错方法及存储介质
CN115099222A (zh) 标点符号误用检测纠正方法、装置、设备及存储介质
JP2007322984A (ja) モデル学習方法、情報抽出方法、モデル学習装置、情報抽出装置、モデル学習プログラム、情報抽出プログラム、およびそれらプログラムを記録した記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant