CN113255330B

CN113255330B - 一种基于字符特征分类器与软输出的中文拼写检查方法

Info

Publication number: CN113255330B
Application number: CN202110599111.9A
Authority: CN
Inventors: 李芳芳; 单悠然; 李伟; 彭亦楠
Original assignee: Central South University
Current assignee: Shanghai Mido Technology Co ltd
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-09-24
Anticipated expiration: 2041-05-31
Also published as: CN113255330A

Abstract

本发明公开了一种基于字符特征分类器与软输出的中文拼写检查方法，属于中文拼写检查领域，包括步骤S1：提取词表中所有字符的字音字形特征向量；S2：生成字符特征分类器和软输出矩阵；S3：字符特征分类器得到当前字符被更改为其他字符的概率，将所有字符被更改的概率组合得到概率矩阵；S4：结合软输出矩阵对字符特征分类器结果进行软输出，将两概率矩阵对应位相乘，得到每个字符被更改为其他字符的概率。字符特征分类器可对更相似的字符给予更高的关注度，同时，使用软输出矩阵对字符特征分类器的结果进行调整，缓解了对相似度最高的字符即当前字符本身给予过高的关注度的问题，得到了更为准确地结果。

Description

一种基于字符特征分类器与软输出的中文拼写检查方法

技术领域

本发明属于中文拼写检查领域，尤其涉及一种基于字符特征分类器与软输出的中文拼写检查方法。

背景技术

中文拼写检查是自然语言处理中的一项重要任务。可以帮助新闻编辑快速审查新闻中是否存在错别字，降低人工检查的工作量。同时，错别字也可以看做是其他自然语言处理任务中原始语料的噪声，进行中文拼写检查，降低语料中的错别字，可以有效提高数据质量，对下游任务精度的提高起到一定的作用。常用的进行中文拼写检查任务的方法主要基于传统的统计学习的方法与基于深度学习的方法。基于传统的统计学习的方法通常人工设计大量的特征，但这样的方法需要大量的人工工作，在特征的选择上也存在一定的难点，也缺乏灵活性。目前的技术渐渐步入深度学习时代，深度学习的方法表现出更好的效果。

目前最常用的中文拼写检查的方法是基于预训练语言模型并结合字符间相似度的方法。其中结合字符间相似度的方法多种多样，包括设计计算字符间相似度的函数并人工设置阈值和使用图神经网络在混淆集中的相似字符间传播信息，但是这些面临着3个问题：(1)人工设置的相似度阈值较难达到最优，同时会使模型忽略与原始字符相似度低的所有候选项，虽然错别字大部分是正确字符的相似字符，但依然存在低相似度的错别字。(2)目前广泛应用于中文拼写检查任务的混淆集大多是人工构建的，且在模型的运行期间是固定的，在混淆集包含的相似字符间传递信息，模型无法学习到混淆集以外的相似字符信息，在一定程度上降低了模型的召回能力。(3)在混淆集中相似字符间传递信息时，并没有考虑到字符间相似性的大小，而是一视同仁的传递字符的信息。模型对较高相似度的字符与较低相似度的字符拥有相同的关注度。

发明内容

本发明的目的在于克服上述现有技术的不足，提供了一种使模型在不丢弃低相似度字符的同时根据相似度的提高而给予更高的关注度的，且防止检测出当前位置为错别字时对原始字符给予过高关注度的中文拼写检查方法，具体为一种基于字符特征分类器与软输出的中文拼写检查方法。

一种基于字符特征分类器与软输出的中文拼写检查方法，包括如下步骤：

S1：提取词表中所有字符的字音字形特征向量，

S1.1：中文字符，抽取字音特征向量和字形特征向量构建字音字形特征向量，

S1.2：非中文字符，以其嵌入向量作为字音字形特征向量；

S2：生成字符特征分类器和软输出矩阵，组合词表中每个字符的字音字形特征向量生成字符特征分类器，同时通过错误检测网络获取词表中每个字符错误的概率，根据每个字符错误的概率生成软输出矩阵；

S3：字符特征分类器得到当前字符被更改为其他字符的概率，将所有字符被更改的概率组合得到概率矩阵；

S4：结合软输出矩阵对字符特征分类器结果进行软输出，将概率矩阵与软输出矩阵的对应位相乘，得到每个字符被更改为其他字符的概率。

作为本发明的进一步限定，S1.1中得到字音特征向量时，采集大规模网络新闻，并统计多音字的不同读音在大规模语料中出现的比例，将每个字符的声母、韵母和声调分别嵌入，并联结输入全连接层，根据字符不同读音的权重进行加权求和获得字音特征向量。

作为本发明的进一步限定，S1.1中得到字形特征向量时，使用表意字符描述序列描述词表中字符的结构，对字符序列中的每一个笔画进行编码，并使用BIGRU抽取字形特征向量。

作为本发明的进一步限定，S1.1中将字音特征向量和字形特征向量进行合并得到字音字形特征向量。

作为本发明的进一步限定，S1.2中，对于没有字音字形特征的非中文字符，通过预训练语言模型得到该字符的嵌入向量，将该字符的嵌入向量作为其字音字形特征向量。

作为本发明的进一步限定，S3中，将待纠错句子中每个字符通过字符特征分类器得到当前字符被更改为其他字符的概率，将所有概率组合得到词表大小的概率矩阵；通过错误检测网络得到的每个字符错误的概率组成词表大小的软输出矩阵。

作为本发明的进一步限定，软输出矩阵中每个索引的概率数值计算公式为：

其中，

表示当前字符在词表中的索引，

表示当前字符的软输出矩阵中索引为

位置的数值，

表示当前字符为错别字的概率。

作为本发明的进一步限定，抽取字形特征向量的方法还包括使用全连接层抽取字形特征向量。

有益效果：

1.通过本发明提供的中文拼写检查方法构建了字符特征分类器，字符特征分类器对更相似的字符拥有更相似的特征向量，可以对更相似的字符给予更高的关注度；同时，使用软输出矩阵对字符特征分类器的结果进行调整，缓解了对相似度最高的字符即当前字符本身给予过高的关注度的问题，得到了更为准确地结果。

2.在生成字符特征分类器时对字符进行拆解，使得所有字符都可以拥有特征向量，而不是仅对固定的混淆集进行学习，本发明提供的中文拼写检查方法显然拥有更高的灵活性，也拥有更加全面的特征向量。

3.字符特征分类器包含字音特征向量和字形特征向量，使得音近字和形近字的特征向量在一定程度上包含相似的信息，克服了预训练语言模型仅关注语义特征而对字符间相似性关注度不够的缺点；同时，本发明提供的中文拼写检查方法不会直接过滤相似度不高的字符，克服了现有技术不考虑低相似度字符的问题。

4.本发明使用了连续的错误概率而不是离散的是否错误，这种方式使得调整更加平滑。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施中基于字符特征分类器与软输出的中文拼写检查方法的步骤示意图。

图2是本发明实施中基于字符特征分类器与软输出的中文拼写检查方法的字符特征分类器生成步骤示意图。

图3是本发明实施中基于字符特征分类器与软输出的中文拼写检查方法的软输出步骤示意图。

具体实施方式

下面将结合本发明的实施例中的附图，对本发明的实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供了一种基于字符特征分类器与软输出的中文拼写检查方法，包括步骤：

S1：提取词表中所有字符的字音字形特征向量，

S1.1：中文字符，抽取字音特征向量和字形特征向量构建字音字形特征向量。

如图2所示，以字符“似”为例，使用“似”的声母“s”、韵母“i”和声调“4”构建字典，由于汉语中存在多音字，但词表中的字符并没有上下文，无法确定字符的读音，因此我们采集大规模网络新闻，并统计多音字的不同读音在大规模语料中出现的比例，将“似”的声母“s”、韵母“i”和声调“4”，以及与字符相似的声母“sh”、韵母“i”和声调“4”分别编码并嵌入，然后联结全连接层，读音为“si4”在语料中出现209975次，读音权重为85.25%，读音为“shi4”在语料中出现36327次，读音权重为14.75%，根据字符不同读音的权重，进行加权求和获得字音特征向量。

使用表意字符描述序列(Ideographic Description Sequence, IDS)描述词表中所有字符的结构，如图2所示，展示了“似”的IDS序列，对“似”的字符序列中的每一个笔画进行编码，并使用双向门控循环单元BIGRU（Bi-directional Gated Recurrent Unit）抽取字形特征向量，由于部分复杂字符的IDS序列较长，对计算资源的占用较大，因此可使用简单的全连接层代替BIGRU，这样可以节约训练时间与显存。将字音特征向量和字形特征向量进行合并，得到字音字形特征向量，将字音特征向量与字形特征向量联合并输入全连接层，将字音特征向量和字形特征向量进行简单的融合，以更好的保留字符的字音和字形特征。

S1.2：非中文字符，以其嵌入向量作为字音字形特征向量。

非中文字符无法通过字符的字音和字形提取其字音特征向量和字形特征向量，但这部分非中文字符并不是中文拼写检查任务的重点关注字符，对于没有字音字形特征的非中文字符，使用预训练语言模型，本发明实施例使用的是BERT模型得到该字符的嵌入向量，将该字符的嵌入向量作为其字音字形特征向量。

在日常生活中，错别字大多是正确字符的音近字或形近字。BERT能够有效的提取上下文语义特征，生成符合上下文语义的建议更改字符，但BERT不考虑字符之间的相似性，也并不包含字符的字音与字形特征，因此生成的建议更改字符并不能有效的考虑原始字符的音近字与形近字。字符特征分类器提取了字符的字型与字音特征，且相似的字符会具有相似的特征向量，有效的克服了基于BERT的纠错方法的缺点。

S2：生成字符特征分类器和软输出矩阵，将词表中每个字符的字音字形特征向量组合生成字符特征分类器，同时通过错误检测网络获取每个字符错误的概率，根据每个字符错误的概率生成软输出矩阵。错误检测网络的构建形式为：通过预训练语言模型获取输入文本的向量化表示后输入全连接层获取句子中每个字符是错别字的概率。

S3：字符特征分类器得到当前字符被更改为其他字符的概率；软输出矩阵得到当前字符错误的概率。

S4：结合软输出矩阵对字符特征分类器结果进行软输出，将两概率相乘，得到每个字符被更改为其他字符的概率。

如图3所示，结合字符特征分类器的结果进行软输出，以待纠错词表“天”、“气”、“证”、“好”为例。

将错误检测网络得到的每个字符错误的概率组成词表大小的软输出矩阵；将待纠错句子中每个字符通过字符特征分类器得到当前字符被更改为其他字符的概率，将所有概率组合得到词表大小的概率矩阵；将概率矩阵与软输出矩阵中的对应位置的数值相乘，调整字符特征分类器的概率矩阵，得到最终的“天”、“气”、“证”、“好”字符被更改为其他字符的概率。

其中软输出中每个索引的概率数值计算公式为：

其中，

表示当前字符在词表中的索引，

表示当前字符的软输出矩阵中索引为

位置的数值，

表示当前字符为错别字的概率，图3中计算公式具体为：

如图3所示，本发明提供的中文拼写检查方法包括错误检测网络DetectionNetwork和错误纠正网络Correction Network。错误检测网络的构建形式为：通过预训练语言模型获取输入文本的向量化表示后输入全连接层获取句子中每个字符是错别字的概率。

通过增加DetectionNetwork获取当前字符是错别字的概率，并通过此概率生成软输出矩阵。用以平滑的调整字符特征分类器的输出。概率是连续的数值，使用概率进行调整而不是是否错误（0或1）能够使调整更加的平滑与灵活。由于字符特征分类器使模型对更相似的字符给予更高的关注度，但并不希望出现错别字时，方法给予原始字符过高的关注度，因此对字符特征分类器的结果进行软输出能够克服这一缺点。

本发明提供的一种基于字符特征分类器与软输出的中文拼写检查方法，具有以下有益效果：

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于字符特征分类器与软输出的中文拼写检查方法，其特征在于，该方法包括如下步骤：

S1：提取词表中所有字符的字音字形特征向量，

S1.2：非中文字符，以其嵌入向量作为字音字形特征向量；

2.根据权利要求1所述的一种基于字符特征分类器与软输出的中文拼写检查方法，其特征在于，S1.1中得到字音特征向量时，采集大规模网络新闻，并统计多音字的不同读音在大规模语料中出现的比例，将每个字符的声母、韵母和声调分别嵌入，并联结输入全连接层，根据字符不同读音的权重进行加权求和获得字音特征向量。

3.根据权利要求2所述的一种基于字符特征分类器与软输出的中文拼写检查方法，其特征在于，S1.1中得到字形特征向量时，使用表意字符描述序列描述词表中字符的结构，对字符序列中的每一个笔画进行编码，并使用BIGRU抽取字形特征向量。

4.根据权利要求1所述的一种基于字符特征分类器与软输出的中文拼写检查方法，其特征在于，S1.1中将字音特征向量和字形特征向量进行合并得到字音字形特征向量。

5.根据权利要求1所述的一种基于字符特征分类器与软输出的中文拼写检查方法，其特征在于，S1.2中，对于没有字音字形特征的非中文字符，通过预训练语言模型得到该字符的嵌入向量，将该字符的嵌入向量作为其字音字形特征向量。

6.根据权利要求1所述的一种基于字符特征分类器与软输出的中文拼写检查方法，其特征在于，S3中，将待纠错句子中每个字符通过字符特征分类器得到当前字符被更改为其他字符的概率，将当前字符的所有概率组合得到词表大小的概率矩阵；通过错误检测网络得到的每个字符错误的概率组成词表大小的软输出矩阵。

7.根据权利要求6所述的一种基于字符特征分类器与软输出的中文拼写检查方法，其特征在于，软输出矩阵中每个索引的概率数值计算公式为：

其中，

表示当前字符在词表中的索引，

表示当前字符的软输出矩阵中索引为

位置的数值，

表示当前字符为错别字的概率。

8.根据权利要求3所述的一种基于字符特征分类器与软输出的中文拼写检查方法，其特征在于，所述抽取字形特征向量的方法还可以使用全连接层抽取字形特征向量。