CN112380841B - 一种中文拼写纠错方法、装置、计算机设备及存储介质 - Google Patents

一种中文拼写纠错方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN112380841B
CN112380841B CN202011306738.2A CN202011306738A CN112380841B CN 112380841 B CN112380841 B CN 112380841B CN 202011306738 A CN202011306738 A CN 202011306738A CN 112380841 B CN112380841 B CN 112380841B
Authority
CN
China
Prior art keywords
candidate
word
wrongly
written
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011306738.2A
Other languages
English (en)
Other versions
CN112380841A (zh
Inventor
李俊杰
黄力
马骏
王少军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202011306738.2A priority Critical patent/CN112380841B/zh
Publication of CN112380841A publication Critical patent/CN112380841A/zh
Priority to PCT/CN2021/097096 priority patent/WO2022105180A1/zh
Application granted granted Critical
Publication of CN112380841B publication Critical patent/CN112380841B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种中文拼写纠错方法、装置、计算机设备及存储介质,涉及人工智能领域,方法包括:将出错概率超过预设出错概率阈值的字判定为错别字;使用自然语言处理技术对遮罩位置进行预测,得到候选字集合;从混淆集中选择形近音近字添加到所述候选字集合中,依据形近分数与音近分数对候选字集合进行过滤;构建替换概率的有向图网络,使用图神经网络对有向图网络进行迭代学习,得到最优的替换概率图;基于所述形近分数、音近分数及替换概率图进行多轮排序,并在每轮排序时对所述候选字集合进行筛选,使用最终保留的候选字替换对应的错别字。本发明对中文句子进行检错和纠错,对候选字结果进行评估与排序,纠错结果更加稳定和准确。

Description

一种中文拼写纠错方法、装置、计算机设备及存储介质
技术领域
本发明涉及人工智能技术领域,特别涉及一种中文拼写纠错方法、装置、计算机设备及存储介质。
背景技术
中文拼写纠错是广泛应用在语音合成的前端中的一项技术,其目的是将文本中拼写有误的地方检测出来并根据上下文信息改正。由于汉字之间没有分隔符且中文字符数量众多(超过13000个),中文的拼写纠错相比其他语言的拼写纠错更具有挑战性。
现有的中文拼写纠错方法大多基于使用人工定义的规则或者深度学习的方法,但是人工定义规则需要语言学专家的参与,规则制定过程繁杂且可扩展性不高。基于深度学习的方法因模型复杂,可复用性较差等原因未投入生产环境使用。上述方法都将纠错作为分类任务处理,未考虑候选字的特征,导致纠错准确性较差。
发明内容
本发明的目的是提供一种中文拼写纠错方法、装置、计算机设备及存储介质,旨在解决现有中文拼写纠错方法准确性较差的问题。
第一方面,本发明实施例提供一种中文拼写纠错方法,其包括:
将含有中文拼写错误的句子样本添加至样本集中,并将错误检测作为序列标注任务,对所述样本集中的每一个句子样本预测每一个字的出错概率,并将出错概率超过预设出错概率阈值的字判定为错别字;
使用标识符对所述错别字进行遮罩,并使用自然语言处理技术对遮罩位置进行预测,得到每个所述遮罩位置对应的候选字集合;
对于每一个所述候选字集合中的每一个候选字,从混淆集中选择形近音近字添加到对应的所述候选字集合中,并分别基于汉字的笔画构成与拼音构成,计算所述候选字集合中的所有候选字与对应的所述错别字的形近分数与音近分数,依据所述形近分数与音近分数对所述候选字集合进行过滤;
将所述候选字集合中的每一个候选字与对应的所述错别字作为节点、所述错别字与所述每一个候选字之间的替换概率作为边权值,构建替换概率的有向图网络,使用图神经网络对所述有向图网络进行迭代学习,得到最优的替换概率图;
基于所述形近分数、音近分数及替换概率图进行多轮排序,并在每轮排序时对所述候选字集合进行筛选,使用最终保留的候选字替换对应的错别字。
第二方面,本发明实施例提供一种中文拼写纠错装置,其包括:
错别字判断单元,用于将含有中文拼写错误的句子样本添加至样本集中,并将错误检测作为序列标注任务,对所述样本集中的每一个句子样本预测每一个字的出错概率,并将出错概率超过预设出错概率阈值的字判定为错别字;
遮罩预测单元,用于使用标识符对所述错别字进行遮罩,并使用自然语言处理技术对遮罩位置进行预测,得到每个所述遮罩位置对应的候选字集合;
候选字过滤单元,用于对于每一个所述候选字集合中的每一个候选字,从混淆集中选择形近音近字添加到对应的所述候选字集合中,并分别基于汉字的笔画构成与拼音构成,计算所述候选字集合中的所有候选字与对应的所述错别字的形近分数与音近分数,依据所述形近分数与音近分数对所述候选字集合进行过滤;
替换概率学习单元,用于将所述候选字集合中的每一个候选字与对应的所述错别字作为节点、所述错别字与所述每一个候选字之间的替换概率作为边权值,构建替换概率的有向图网络,使用图神经网络对所述有向图网络进行迭代学习,得到最优的替换概率图;
排序单元,用于基于所述形近分数、音近分数及替换概率图进行多轮排序,并在每轮排序时对所述候选字集合进行筛选,使用最终保留的候选字替换对应的错别字。
第三方面,本发明实施例提供一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如第一方面所述的中文拼写纠错方法。
第四方面,本发明实施例提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如第一方面所述的中文拼写纠错方法。
本发明实施例提供了一种中文拼写纠错方法、装置、计算机设备及存储介质,方法包括:将出错概率超过预设出错概率阈值的字判定为错别字;使用自然语言处理技术对遮罩位置进行预测,得到候选字集合;从混淆集中选择形近音近字添加到对应的所述候选字集合中,依据形近分数与音近分数对所述候选字集合进行过滤;构建替换概率的有向图网络,使用图神经网络对所述有向图网络进行迭代学习,得到最优的替换概率图;基于所述形近分数、音近分数及替换概率图进行多轮排序,并在每轮排序时对所述候选字集合进行筛选,使用最终保留的候选字替换对应的错别字。本发明实施例能够同时对中文句子进行检错和纠错,并且对候选字结果进行评估与排序,最终纠错结果更加稳定和准确。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的中文拼写纠错方法的流程示意图;
图2为本发明实施例提供的中文拼写纠错方法的子流程示意图;
图3为本发明实施例提供的中文拼写纠错方法的又一子流程示意图;
图4为本发明实施例提供的中文拼写纠错方法的又一子流程示意图;
图5为本发明实施例提供的中文拼写纠错方法的又一子流程示意图;
图6为本发明实施例提供的中文拼写纠错方法的又一子流程示意图;
图7为本发明实施例提供的中文拼写纠错方法的又一子流程示意图;
图8为本发明实施例提供的中文拼写纠错装置的示意性框图;
图9为本发明实施例提供的中文拼写纠错装置的子单元示意性框图;
图10为本发明实施例提供的中文拼写纠错装置的又一子单元示意性框图;
图11为本发明实施例提供的中文拼写纠错装置的又一子单元示意性框图;
图12为本发明实施例提供的中文拼写纠错装置的又一子单元示意性框图;
图13为本发明实施例提供的中文拼写纠错装置的又一子单元示意性框图;
图14为本发明实施例提供的中文拼写纠错装置的又一子单元示意性框图;
图15为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1为本发明实施例提供的一种中文拼写纠错方法的流程示意图,如图1所示,包括步骤S101~S105:
S101、将含有中文拼写错误的句子样本添加至样本集中,并将错误检测作为序列标注任务,对所述样本集中的每一个句子样本预测每一个字的出错概率,并将出错概率超过预设出错概率阈值的字判定为错别字;
本步骤中,先构建样本集,该样本集中包含多个句子样本,并且句子样本中包含有中文拼写错误。然后将错误检测作为序列标注任务,对每一个句子样本预测出其中每一个字的出错概率,如果出错概率高,基本可以判定其为错别字。本发明实施例可以设定一个出错概率阈值,如果出错概率超过该预设出错概率阈值,则可以将对应的字判定为错别字。
该预设出错概率阈值为超参数,可以对所述预设出错概率阈值进行调节,从而调节错别字的范围。
在一实施例中,如图2所示,所述步骤S101包括步骤S201~S203:
S201、通过查表将所述句子样本中的每个字表示成向量;
此步骤中,首先将句子样本中的每个字表示成向量,即将字进行向量化处理。
S202、将得到的所述向量传入BiGRU或BiLSTM层中,并将每个所述向量对应位置的隐层状态作为对应所述向量经过BiGRU或BiLSTM层的输出;
此步骤中,将向量化处理的向量传入到BiGRU(双向门控循环单元)或BiLSTM(双向长短期记忆)层中,输出即为向量对应位置的隐层状态。
S203、将所述输出输入到CRF层中,计算每个字的出错概率,并将出错概率超过预设出错概率阈值的字判定为错别字。
本步骤中,可以将BiGRU或BiLSTM层的输出,输入到CRF层(条件随机场)中,得到句子样本中每个字的出错概率,然后依据所述出错概率确定是否为错别字。
S102、使用标识符对所述错别字进行遮罩,并使用自然语言处理技术对遮罩位置进行预测,得到每个所述遮罩位置对应的候选字集合;
此步骤是先对错别字进行遮罩,然后对遮罩位置对应的字进行预测,由于预测到的字可能有多个,所以可以将遮罩位置预测到的所有字添加到候选字集合中,该候选字集合中的所有字作为对应错别字的候选字。
在一实施例中,如图3所示,所述步骤S102包括步骤S301~S303:
S301、使用标识符对所述错别字进行遮罩;
本步骤可以使用特殊的标识符对错别字的位置进行遮罩处理,如利用预设的mask(掩膜)进行遮罩。
S302、将所述句子样本输入至Transformer模块中,得到所述句子样本中每个字的向量表示;
此步骤可以将所述句子样本输入至Transformer模块中,利用Transformer模块的自注意力层,得到向量结果,然后将向量结果输入至所述Transformer模块的神经网络层处理得到每个字的向量表示。
所述Transformer模块中包含多个编码器和多个解码器,编码器和解码器的数量相同,例如均为6个。从编码器输入的句子样本首先会经过一个自注意力(self-attention)层,所述自注意力层可以使得编码器在对句子样本中的每个字编码时关注输入句子样本的其他字。所述自注意力层的输出再传递到前馈(feed-forward)神经网络中,每个位置的字均对应一个相同的前馈神经网络。所述解码器中同样设置有自注意力层和前馈神经网络,并且作用分别与编码器的相同。
S303、使用线性层将每个字的向量表示投射到向量空间,并使用softmax激活函数转成选择概率,根据所述选择概率从字典中选择k个候选字添加到对应所述遮罩位置的所述候选字集合中。
此步骤中,需要将每个字的向量表示投射到字典大小的向量空间,具体利用线性层进行投射,然后利用softmax激活函数转换成选择概率,根据该选择概率来选择预定数量的k个候选字添加到候选字集中。所述线性层(he Linear layer)是一个完全连接的神经网络,作用是将解码器堆栈产生的向量投射到一个更大的向量空间中。
S103、对于每一个所述候选字集合中的每一个候选字,从混淆集中选择形近音近字添加到对应的所述候选字集合中,并分别基于汉字的笔画构成与拼音构成,计算所述候选字集合中的所有候选字与对应的所述错别字的形近分数与音近分数,依据所述形近分数与音近分数对所述候选字集合进行过滤;
由于在中文汉字的构成中,有许多形近音近字,在本发明实施例中,为了确保预测到最为准确的字,并且不遗漏任何可能性,所以对于每一个候选字,还从混淆集中选择形近音近字添加到对应的所述候选字集合中,从而丰富了原候选字集合的构成。
但对于各形近音近字而言,其与对应的候选字之间的形近音近程度不同,所以本发明实施例为了提高纠错效率,依据形近音近程度来对候选字集合进行过滤。形近音近程度可以通过形近分数与音近分数来表示,形近分数与音近分数则是根据候选字与对应的所述错别字的编辑距离来确定。
在一实施例中,如图4所示,所述步骤S103包括步骤S401~S404:
S401、对于每一个所述候选字集合中的每一个候选字,从混淆集中选择形近音近字添加到对应的所述候选字集合中;
S402、基于汉字的笔画构成,计算所述候选字集合中的所有候选字与对应的所述错别字的笔画编辑距离,并将所述笔画编辑距离作为形近分数;
S403、基于汉字的拼音构成,计算所述候选字集合中的所有候选字与对应的所述错别字的拼音编辑距离,并将所述拼音编辑距离作为音近分数;
S404、依据所述形近分数与音近分数的权重,对所述形近分数与音近分数进行加权处理,根据加权结果对所述候选字集合进行过滤。
在本实施例中,笔画编辑距离是候选字与对应的所述错别字的笔画编辑距离,拼音编辑距离是候选字与对应的所述错别字的拼音编辑距离。这两种编辑距离都可以基于余弦相似度算法来得到,最终得到的笔画编辑距离作为形近分数,得到的拼音编辑距离作为音近分数。
这里的编辑距离可以是越小,则代表越相近,对于编辑距离越小代表越相近的情况,可以将其求倒数作为对应的分数。即,最终的分数应是越大,代表越相近。
S104、构建所述候选字集合中的每一个候选字与对应的所述错别字之间的替换概率的有向图网络,使用图神经网络对所述有向图网络进行迭代学习,得到最优的替换概率图;
此步骤中,构建一个替换概率的有向图网络,然后使用图神经网络对有向图网络进行迭代学习,从而使所述有向图网络达到最优,形成替换概率图。
在一实施例中,如图5所示,所述步骤S104包括步骤S501~S503:
S501、将所述候选字集合中的每一个候选字与对应的所述错别字作为节点、所述错别字与所述每一个候选字之间的替换概率作为边权值,构建对应所述错别字的替换概率的有向图网络;
本步骤中,将每一个候选字与对应的错别字作为节点,同时将错别字与每一个候选字之间的替换概率作为边权值,这样即可构建到有向图网络,这样,该有向图网络的节点、边都具有对应的含义。
S502、将所述错别字与所述每一个候选字之间的替换概率进行初始化;
对于所述有向图网络中的替换概率初始值,本发明实施例可以将其定义为每一候选字在样本集中的出现次数与所有候选字在样本集中的出现次数的比例,也就是说,某一候选字在样本集中经常出现,那么该候选字初始的替换概率较高,某一候选字在样本集中较少出现,则其初始的替换概率较低。
例如,所述错别字对应的正确字在样本集中出现了5次,而所有错别字对应的正确字在样本集中出现了100次,那么其替换概率为5/100。
S503、使用图神经网络对所述有向图网络的边权值进行迭代学习,得到最优的替换概率图。
本步骤中,利用图神经网络来对边权值进行迭代学习,从而对每一边权值进行优化,得到最优的边权值,最终组成最优的替换概率图。
S105、基于所述形近分数、音近分数及替换概率图进行多轮排序,并在每轮排序时对所述候选字集合进行筛选,使用最终保留的候选字替换对应的错别字。
本步骤中,不依靠单一的标准来进行过滤筛选,而是依靠多个标准进行多轮排序,从而使最终保留的候选字正确率更高。
在一实施例中,如图6所示,所述步骤S105包括步骤S601~S602:
S601、为所述形近分数、音近分数及替换概率图分别设置至少一轮排序处理过程,并为每一轮排序处理过程设置一个对应的排序阈值;
本步骤中,形近分数、音近分数及替换概率图均设置有至少一轮排序处理过程。
每一轮排序处理过程均有一个排序阈值,不同轮次的排序处理过程的排序阈值可以相同,也可以不同。
S602、在每一轮排序处理过程中,根据所述排序阈值对所述候选字集合进行筛选,并在最后一轮排序处理过程结束后,输出最终保留的候选字,并使用所述最终保留的候选字替换对应的错别字。
本步骤中,会在每一轮排序处理过程中,对所述候选字集合进行筛选,这样不断的进行筛选,最终保留一个候选字,作为替换对应错别字的候选字。
在一实施例中,如图7所示,所述步骤S602包括步骤S701~S703:
S701、在形近排序处理过程中,将所有候选字与对应错别字的形近分数与对应的排序阈值进行比对,将低于所述排序阈值的候选字剔除;
S702、在音近排序处理过程中,将所有候选字与对应错别字的音近分数与对应的排序阈值进行比对,将低于所述排序阈值的候选字剔除;
S703、在替换概率排序处理过程中,将所有候选字与对应错别字的替换概率与对应的排序阈值进行比对,将低于所述排序阈值的候选字剔除。
本实施例实际上就是在形近排序处理过程、音近排序处理过程、替换概率排序处理过程中,对候选字与对应错别字的分数与排序阈值进行比对,从而剔除掉低于排序阈值的候选字。
以形近排序处理过程为例,将所有候选字与错别字的形近分数与排序阈值进行比对,形近分数(代表着候选字与错别字在字形上的相似度,形近分数越高代表两字字形上越相近)低于阈值的候选字都从候选字集合中淘汰。
本发明实施例,能够同时对中文句子进行检错和纠错,对候选字结果进行评估与排序,此外,与现有中文拼写纠错技术相比,本发明实施例使用的技术引入多轮排序方式,使得系统的最终纠错结果更加稳定和准确。并且各个模块可以采用可插拔的形式进行替换,增加了系统的可用性与复用性,方便根据实际生产环境的状况部署不同的模块,使得系统在生产环境的部署更加方便。
请参阅图8,图8为本发明实施例一种中文拼写纠错装置的示意性框图,所述中文拼写纠错装置800包括:
错别字判断单元801,用于将含有中文拼写错误的句子样本添加至样本集中,并将错误检测作为序列标注任务,对所述样本集中的每一个句子样本预测每一个字的出错概率,并将出错概率超过预设出错概率阈值的字判定为错别字;
遮罩预测单元802,用于使用标识符对所述错别字进行遮罩,并使用自然语言处理技术对遮罩位置进行预测,得到每个所述遮罩位置对应的候选字集合;
候选字过滤单元803,用于对于每一个所述候选字集合中的每一个候选字,从混淆集中选择形近音近字添加到对应的所述候选字集合中,并分别基于汉字的笔画构成与拼音构成,计算所述候选字集合中的所有候选字与对应的所述错别字的形近分数与音近分数,依据所述形近分数与音近分数对所述候选字集合进行过滤;
替换概率学习单元804,用于构建所述候选字集合中的每一个候选字与对应的所述错别字之间的替换概率的有向图网络,使用图神经网络对所述有向图网络进行迭代学习,得到最优的替换概率图;
排序单元805,用于基于所述形近分数、音近分数及替换概率图进行多轮排序,并在每轮排序时对所述候选字集合进行筛选,使用最终保留的候选字替换对应的错别字。
在一实施例中,如图9所示,所述错别字判断单元801包括:
向量查表单元901,用于通过查表将所述句子样本中的每个字表示成向量;
向量输出单元902,用于将得到的所述向量传入BiGRU或BiLSTM层中,并将每个所述向量对应位置的隐层状态作为对应所述向量经过BiGRU或BiLSTM层的输出;
出错概率计算单元903,用于将所述输出输入到CRF层中,计算每个字的出错概率,并将出错概率超过预设出错概率阈值的字判定为错别字。
在一实施例中,如图10所示,所述遮罩预测单元802包括:
遮罩单元1001,用于使用标识符对所述错别字进行遮罩;
向量表示单元1002,用于将所述句子样本输入至Transformer模块中,得到所述句子样本中每个字的向量表示;
候选字选取单元1003,用于使用线性层将每个字的向量表示投射到向量空间,并使用softmax激活函数转成选择概率,根据所述选择概率从字典中选择k个候选字添加到对应所述遮罩位置的所述候选字集合中。
在一实施例中,如图11所示,所述候选字过滤单元803包括:
形近音近字添加单元1101,用于对于每一个所述候选字集合中的每一个候选字,从混淆集中选择形近音近字添加到对应的所述候选字集合中;
形近分数计算单元1102,用于基于汉字的笔画构成,计算所述候选字集合中的所有候选字与对应的所述错别字的笔画编辑距离,并将所述笔画编辑距离作为形近分数;
音近分数计算单元1103,用于基于汉字的拼音构成,计算所述候选字集合中的所有候选字与对应的所述错别字的拼音编辑距离,并将所述拼音编辑距离作为音近分数;
加权单元1104,用于依据所述形近分数与音近分数的权重,对所述形近分数与音近分数进行加权处理,根据加权结果对所述候选字集合进行过滤。
在一实施例中,如图12所示,所述替换概率学习单元804包括:
有向图网络构建单元1201,用于将所述候选字集合中的每一个候选字与对应的所述错别字作为节点、所述错别字与所述每一个候选字之间的替换概率作为边权值,构建对应所述错别字的替换概率的有向图网络;
初始化单元1202,用于将所述错别字与所述每一个候选字之间的替换概率进行初始化;
迭代学习单元1203,用于使用图神经网络对所述有向图网络的边权值进行迭代学习,得到最优的替换概率图。
在一实施例中,如图13所示,所述排序单元805包括:
设置单元1301,用于为所述形近分数、音近分数及替换概率图分别设置至少一轮排序处理过程,并为每一轮排序处理过程设置一个对应的排序阈值;
筛选单元1302,用于在每一轮排序处理过程中,根据所述排序阈值对所述候选字集合进行筛选,并在最后一轮排序处理过程结束后,输出最终保留的候选字,并使用所述最终保留的候选字替换对应的错别字。
在一实施例中,如图14所示,所述筛选单元1302包括:
形近筛选单元1401,用于在形近排序处理过程中,将所有候选字与对应错别字的形近分数与对应的排序阈值进行比对,将低于对应排序阈值的候选字剔除;
音近筛选单元1402,用于在音近排序处理过程中,将所有候选字与对应错别字的音近分数与对应的排序阈值进行比对,将低于对应排序阈值的候选字剔除;
替换概率筛选单元1403,用于在替换概率排序处理过程中,将所有候选字与对应错别字的替换概率与对应的排序阈值进行比对,将低于对应排序阈值的候选字剔除。
本发明实施例提供的装置,能够同时对中文句子进行检错和纠错,并且对候选字结果进行评估与排序,最终纠错结果更加稳定和准确。
上述中文拼写纠错装置800可以实现为计算机程序的形式,该计算机程序可以在如图15所示的计算机设备上运行。
请参阅图15,图15是本发明实施例提供的计算机设备的示意性框图。该计算机设备1500是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图15,该计算机设备1500包括通过系统总线1501连接的处理器1502、存储器和网络接口1505,其中,存储器可以包括非易失性存储介质1503和内存储器1504。
该非易失性存储介质1503可存储操作系统15031和计算机程序15032。该计算机程序15032被执行时,可使得处理器1502执行中文拼写纠错方法。
该处理器1502用于提供计算和控制能力,支撑整个计算机设备1500的运行。
该内存储器1504为非易失性存储介质1503中的计算机程序15032的运行提供环境,该计算机程序15032被处理器1502执行时,可使得处理器1502执行中文拼写纠错方法。
该网络接口1505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图15中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备1500的限定,具体的计算机设备1500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器1502用于运行存储在存储器中的计算机程序15032,以实现如下功能:将含有中文拼写错误的句子样本添加至样本集中,并将错误检测作为序列标注任务,对所述样本集中的每一个句子样本预测每一个字的出错概率,并将出错概率超过预设出错概率阈值的字判定为错别字;使用标识符对所述错别字进行遮罩,并使用自然语言处理技术对遮罩位置进行预测,得到每个所述遮罩位置对应的候选字集合;对于每一个所述候选字集合中的每一个候选字,从混淆集中选择形近音近字添加到对应的所述候选字集合中,并分别基于汉字的笔画构成与拼音构成,计算所述候选字集合中的所有候选字与对应的所述错别字的形近分数与音近分数,依据所述形近分数与音近分数对所述候选字集合进行过滤;构建所述候选字集合中的每一个候选字与对应的所述错别字之间的替换概率的有向图网络,使用图神经网络对所述有向图网络进行迭代学习,得到最优的替换概率图;基于所述形近分数、音近分数及替换概率图进行多轮排序,并在每轮排序时对所述候选字集合进行筛选,使用最终保留的候选字替换对应的错别字。
本领域技术人员可以理解,图15中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图15所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器1502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器1502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现以下步骤:将含有中文拼写错误的句子样本添加至样本集中,并将错误检测作为序列标注任务,对所述样本集中的每一个句子样本预测每一个字的出错概率,并将出错概率超过预设出错概率阈值的字判定为错别字;使用标识符对所述错别字进行遮罩,并使用自然语言处理技术对遮罩位置进行预测,得到每个所述遮罩位置对应的候选字集合;对于每一个所述候选字集合中的每一个候选字,从混淆集中选择形近音近字添加到对应的所述候选字集合中,并分别基于汉字的笔画构成与拼音构成,计算所述候选字集合中的所有候选字与对应的所述错别字的形近分数与音近分数,依据所述形近分数与音近分数对所述候选字集合进行过滤;构建所述候选字集合中的每一个候选字与对应的所述错别字之间的替换概率的有向图网络,使用图神经网络对所述有向图网络进行迭代学习,得到最优的替换概率图;基于所述形近分数、音近分数及替换概率图进行多轮排序,并在每轮排序时对所述候选字集合进行筛选,使用最终保留的候选字替换对应的错别字。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种中文拼写纠错方法,其特征在于,包括:
将含有中文拼写错误的句子样本添加至样本集中,并将错误检测作为序列标注任务,对所述样本集中的每一个句子样本预测每一个字的出错概率,并将出错概率超过预设出错概率阈值的字判定为错别字;
使用标识符对所述错别字进行遮罩,并使用自然语言处理技术对遮罩位置进行预测,得到每个所述遮罩位置对应的候选字集合;
对于每一个所述候选字集合中的每一个候选字,从混淆集中选择形近音近字添加到对应的所述候选字集合中,并分别基于汉字的笔画构成与拼音构成,计算所述候选字集合中的所有候选字与对应的所述错别字的形近分数与音近分数,依据所述形近分数与音近分数对所述候选字集合进行过滤;
构建所述候选字集合中的每一个候选字与对应的所述错别字之间的替换概率的有向图网络,使用图神经网络对所述有向图网络进行迭代学习,得到最优的替换概率图;
基于所述形近分数、音近分数及替换概率图进行多轮排序,并在每轮排序时对所述候选字集合进行筛选,使用最终保留的候选字替换对应的错别字。
2.根据权利要求1所述的中文拼写纠错方法,其特征在于,所述将含有中文拼写错误的句子样本添加至样本集中,并将错误检测作为序列标注任务,对所述样本集中的每一个句子样本预测每一个字的出错概率,并将出错概率超过预设出错概率阈值的字判定为错别字,包括:
通过查表将所述句子样本中的每个字表示成向量;
将得到的所述向量传入BiGRU或BiLSTM层中,并将每个所述向量对应位置的隐层状态作为对应所述向量经过BiGRU或BiLSTM层的输出;
将所述输出输入到CRF层中,计算每个字的出错概率,并将出错概率超过预设出错概率阈值的字判定为错别字。
3.根据权利要求1所述的中文拼写纠错方法,其特征在于,所述使用标识符对所述错别字进行遮罩,并使用自然语言处理技术对遮罩位置进行预测,得到每个所述遮罩位置对应的候选字集合,包括:
使用标识符对所述错别字进行遮罩;
将所述句子样本输入至Transformer模块中,得到所述句子样本中每个字的向量表示;
使用线性层将每个字的向量表示投射到向量空间,并使用softmax激活函数转成选择概率,根据所述选择概率从字典中选择k个候选字添加到对应所述遮罩位置的所述候选字集合中。
4.根据权利要求1所述的中文拼写纠错方法,其特征在于,所述对于每一个所述候选字集合中的每一个候选字,从混淆集中选择形近音近字添加到对应的所述候选字集合中,并分别基于汉字的笔画构成与拼音构成,计算所述候选字集合中的所有候选字与对应的所述错别字的形近分数与音近分数,依据所述形近分数与音近分数对所述候选字集合进行过滤,包括:
对于每一个所述候选字集合中的每一个候选字,从混淆集中选择形近音近字添加到对应的所述候选字集合中;
基于汉字的笔画构成,计算所述候选字集合中的所有候选字与对应的所述错别字的笔画编辑距离,并将所述笔画编辑距离作为形近分数;
基于汉字的拼音构成,计算所述候选字集合中的所有候选字与对应的所述错别字的拼音编辑距离,并将所述拼音编辑距离作为音近分数;
依据所述形近分数与音近分数的权重,对所述形近分数与音近分数进行加权处理,根据加权结果对所述候选字集合进行过滤。
5.根据权利要求1所述的中文拼写纠错方法,其特征在于,所述构建所述候选字集合中的每一个候选字与对应的所述错别字之间的替换概率的有向图网络,使用图神经网络对所述有向图网络进行迭代学习,得到最优的替换概率图,包括:
将所述候选字集合中的每一个候选字与对应的所述错别字作为节点、所述错别字与所述每一个候选字之间的替换概率作为边权值,构建对应所述错别字的替换概率的有向图网络;
将所述错别字与所述每一个候选字之间的替换概率进行初始化;
使用图神经网络对所述有向图网络的边权值进行迭代学习,得到最优的替换概率图。
6.根据权利要求1所述的中文拼写纠错方法,其特征在于,所述基于所述形近分数、音近分数及替换概率图进行多轮排序,并在每轮排序时对所述候选字集合进行筛选,使用最终保留的候选字替换对应的错别字,包括:
为所述形近分数、音近分数及替换概率图分别设置至少一轮排序处理过程,并为每一轮排序处理过程设置一个对应的排序阈值;
在每一轮排序处理过程中,根据所述排序阈值对所述候选字集合进行筛选,并在最后一轮排序处理过程结束后,输出最终保留的候选字,并使用所述最终保留的候选字替换对应的错别字。
7.根据权利要求6所述的中文拼写纠错方法,其特征在于,所述在每一轮排序处理过程中,根据所述排序阈值对所述候选字集合进行筛选,包括:
在形近排序处理过程中,将所有候选字与对应错别字的形近分数与对应的排序阈值进行比对,将低于对应排序阈值的候选字剔除;
在音近排序处理过程中,将所有候选字与对应错别字的音近分数与对应的排序阈值进行比对,将低于对应排序阈值的候选字剔除;
在替换概率排序处理过程中,将所有候选字与对应错别字的替换概率与对应的排序阈值进行比对,将低于对应排序阈值的候选字剔除。
8.一种中文拼写纠错装置,其特征在于,包括:
错别字判断单元,用于将含有中文拼写错误的句子样本添加至样本集中,并将错误检测作为序列标注任务,对所述样本集中的每一个句子样本预测每一个字的出错概率,并将出错概率超过预设出错概率阈值的字判定为错别字;
遮罩预测单元,用于使用标识符对所述错别字进行遮罩,并使用自然语言处理技术对遮罩位置进行预测,得到每个所述遮罩位置对应的候选字集合;
候选字过滤单元,用于对于每一个所述候选字集合中的每一个候选字,从混淆集中选择形近音近字添加到对应的所述候选字集合中,并分别基于汉字的笔画构成与拼音构成,计算所述候选字集合中的所有候选字与对应的所述错别字的形近分数与音近分数,依据所述形近分数与音近分数对所述候选字集合进行过滤;
替换概率学习单元,用于构建所述候选字集合中的每一个候选字与对应的所述错别字之间的替换概率的有向图网络,使用图神经网络对所述有向图网络进行迭代学习,得到最优的替换概率图;
排序单元,用于基于所述形近分数、音近分数及替换概率图进行多轮排序,并在每轮排序时对所述候选字集合进行筛选,使用最终保留的候选字替换对应的错别字。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的中文拼写纠错方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的中文拼写纠错方法。
CN202011306738.2A 2020-11-19 2020-11-19 一种中文拼写纠错方法、装置、计算机设备及存储介质 Active CN112380841B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011306738.2A CN112380841B (zh) 2020-11-19 2020-11-19 一种中文拼写纠错方法、装置、计算机设备及存储介质
PCT/CN2021/097096 WO2022105180A1 (zh) 2020-11-19 2021-05-31 一种中文拼写纠错方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011306738.2A CN112380841B (zh) 2020-11-19 2020-11-19 一种中文拼写纠错方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN112380841A CN112380841A (zh) 2021-02-19
CN112380841B true CN112380841B (zh) 2022-02-11

Family

ID=74584362

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011306738.2A Active CN112380841B (zh) 2020-11-19 2020-11-19 一种中文拼写纠错方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN112380841B (zh)
WO (1) WO2022105180A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380841B (zh) * 2020-11-19 2022-02-11 平安科技(深圳)有限公司 一种中文拼写纠错方法、装置、计算机设备及存储介质
CN112560452B (zh) * 2021-02-25 2021-05-18 智者四海(北京)技术有限公司 一种自动生成纠错语料的方法和系统
CN115270771B (zh) * 2022-10-08 2023-01-17 中国科学技术大学 细粒度自适应字音预测任务辅助的中文拼写纠错方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090043A (zh) * 2017-11-30 2018-05-29 北京百度网讯科技有限公司 基于人工智能的纠错举报处理方法、装置及可读介质
CN110750959A (zh) * 2019-10-28 2020-02-04 腾讯科技(深圳)有限公司 文本信息处理的方法、模型训练的方法以及相关装置
CN111310443A (zh) * 2020-02-12 2020-06-19 新华智云科技有限公司 一种文本纠错方法和系统
CN111859907A (zh) * 2020-06-11 2020-10-30 北京百度网讯科技有限公司 文字纠错方法、装置、电子设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10282416B2 (en) * 2017-05-05 2019-05-07 Apple Inc. Unified framework for text conversion and prediction
CN108563632A (zh) * 2018-03-29 2018-09-21 广州视源电子科技股份有限公司 文字拼写错误的修正方法、系统、计算机设备及存储介质
CN111460793A (zh) * 2020-03-10 2020-07-28 平安科技(深圳)有限公司 纠错方法、装置、设备及存储介质
CN112380841B (zh) * 2020-11-19 2022-02-11 平安科技(深圳)有限公司 一种中文拼写纠错方法、装置、计算机设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090043A (zh) * 2017-11-30 2018-05-29 北京百度网讯科技有限公司 基于人工智能的纠错举报处理方法、装置及可读介质
CN110750959A (zh) * 2019-10-28 2020-02-04 腾讯科技(深圳)有限公司 文本信息处理的方法、模型训练的方法以及相关装置
CN111310443A (zh) * 2020-02-12 2020-06-19 新华智云科技有限公司 一种文本纠错方法和系统
CN111859907A (zh) * 2020-06-11 2020-10-30 北京百度网讯科技有限公司 文字纠错方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN112380841A (zh) 2021-02-19
WO2022105180A1 (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
CN112380841B (zh) 一种中文拼写纠错方法、装置、计算机设备及存储介质
CN110210029B (zh) 基于垂直领域的语音文本纠错方法、系统、设备及介质
CN112287670A (zh) 文本纠错方法、系统、计算机设备及可读存储介质
CN112906392B (zh) 一种文本增强方法、文本分类方法及相关装置
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN111460083A (zh) 文档标题树的构建方法、装置、电子设备及存储介质
DeGiuli Random language model
CN114580382A (zh) 文本纠错方法以及装置
CN110188353B (zh) 文本纠错方法及装置
CN111402861A (zh) 一种语音识别方法、装置、设备及存储介质
CN113343671B (zh) 一种语音识别后的语句纠错方法、装置、设备及存储介质
CN113239683A (zh) 中文文本纠错方法、系统及介质
CN113780418A (zh) 一种数据的筛选方法、系统、设备和存储介质
CN113705203A (zh) 文本纠错方法、装置、电子设备及计算机可读存储介质
CN113705165A (zh) 错别字词的识别方法、装置、设备及计算机可读存储介质
CN111862963B (zh) 语音唤醒方法、装置和设备
CN112151021A (zh) 语言模型的训练方法、语音识别方法、装置及电子设备
CN114896966A (zh) 一种中文文本语法错误定位方法、系统、设备及介质
CN115169328A (zh) 一种高准确性的中文拼写检查方法、系统及介质
CN111090720B (zh) 一种热词的添加方法和装置
CN115688748A (zh) 问句纠错方法、装置、电子设备及存储介质
CN112509565A (zh) 语音识别方法、装置、电子设备及可读存储介质
CN111428475A (zh) 分词词库的构建方法、分词方法、装置及存储介质
CN112749565A (zh) 基于人工智能的语义识别方法、装置和语义识别设备
CN114548080B (zh) 一种基于分词增强的中文错字校正方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant