CN112990353B

CN112990353B - 一种基于多模态模型的汉字易混淆集构建方法

Info

Publication number: CN112990353B
Application number: CN202110402126.1A
Authority: CN
Inventors: 李芳芳; 汪业成; 林中尧; 单悠然; 毛星亮
Original assignee: Central South University
Current assignee: CHANGSHA ZHIWEI INFORMATION TECHNOLOGY Co.,Ltd.
Priority date: 2021-04-14
Filing date: 2021-04-14
Publication date: 2021-07-30
Anticipated expiration: 2041-04-14
Also published as: CN112990353A

Abstract

本发明涉及汉字易混淆集构建领域，公开了一种基于多模态模型的汉字易混淆集构建方法。S1：得到字形编码的相似度，S2：得到字音编码的相似度，S3：构建并训练出一个图像分类的神经网络模型，由图像分类的神经网络模型输出一个M维的向量，S4：构建并训练出一个音频分类的神经网络模型，由音频分类的神经网络模型输出一个M维的向量，S5：将汉字字符C _i的字形编码相似度向量、字音编码相似度向量、字形视觉易混淆向量、字音听觉易混淆向量，加权组合为一个向量，作为音形易混淆向量，从而依据音形易混淆向量中每个维度上的相似度，选择对应的字典Dic中的汉字，构成音形易混淆集。本发明能够模拟人的视觉和听觉构建易混淆集。

Description

一种基于多模态模型的汉字易混淆集构建方法

技术领域

本发明属于汉字易混淆集构建领域，尤其涉及一种基于多模态模型的汉字易混淆集构建方法。

背景技术

中文文本纠错是中文自然语言处理中一项传统而重要的预处理任务。对于一段含有拼写错误的自然文本，如果没有纠正就去做文本分类和命名实体识别等自然语言任务，势必会影响做这些任务的模型的学习效果和判断能力。

人输入的字句尤其是长文本时，即使经历多次检查，也会或多或少都出现语病、错别字、漏字多字等错误，这是因为人很难长时间保持专注。此外如果是自己检查自己写的文字，那么思维的定势也将会影响错误的检查。

而使用计算机算法实现的拼写检查，可以帮助人们做拼写检查，甚至纠错的工作。因此，拼写检查对文字出版商，对学生论文的修改等应用场景具有重要的意义。

易混淆集是现在大多数拼写检查和拼写纠错任务都使用到的一个重要数据。如，我们在文本中需要使用到“爆”的地方，很容易错误会被替换成“暴”，“曝”等词，造成一些拼写甚至语法上的错误。这里“暴”，“曝”等字构成的集合就是“爆”的易混淆集。

易混淆集一直在中文文本纠错中扮演着重要角色。

Linetal.2015用易混淆集和N-gram算法做中文文本纠错;

Wangetal.2019用易混淆集和指针网络做中文文本纠错；

Chengetal.2020分别用字音的易混淆集和字形的易混淆集构建一个图，然后用图神经网络的方法把图嵌入成向量。接着用该向量与Bert模型的输出进行对应元素相乘，得出结果作为最后输出的预测向量。

关于易混淆集的生成，有学者对4100个错误的汉字的研究统计，发现76%的错误与正确字符和错误字符之间的语音相似性有关，46%是由于视觉相似性，29%涉及两个因素。这表明汉字与该汉字对应的易混淆集的易混淆性，往往与字音和字形的相似度有关。

近年来，已经有很多学者基于这点，提出了生成易混淆集的一些方式，包括：

Liuetal.2011用仓颉码进判断汉字之间的视觉相似性,用经验规则来确定汉语音素之间的相似度。接着混合字形和字音相似度，并取相似度达到阈值的项选为易混淆集。

Shietal.2014利用笔顺相似度和字音的点阵相似度构建初始易混淆集。然后在原有易混淆集的基础上，根据易混淆关系构建一张图，在图上设计了一些基于规则的自扩展算法和开源外部补充算法，来扩展易混淆集。

Leeetal.2019使用Jaccard系数计算字形相似度；为韵母、音调分别制定规则，计算字音相似度，然后综合音形相似度生成易混淆集。

目前为止，中文易混淆集的生成，基本都使用了字音形相似的思路。不过目前这些文章的思路都有一个明显的共性，就是对官方给出的汉字的字音和字形的编码来设定特定的规则求字音和字形的相似度；而不是从模拟人本身的视觉和听觉感官来评估字音和字形对于人的易混淆程度。这种直接的方式会带来以下两个问题：

（1）这些在编码上人为制定规则来表示相似度的方式，并不能在所有场合准确地表示两个字符的易混淆性。

如使用编辑距离的时候，对驰、池、弛三个字：虽然他们只有一个部首的差别，但是在这里，马子旁与弓子旁的易混淆显然是更高的，也使得驰与弛的易混淆性要更高。

又如使用笔画顺序的方式计算字形易混淆性：同样的笔顺下，工和土并不那么容易混淆。

而基于神经网络的方法通过对大量易得的数据进行训练，可以习得对人的视觉的模拟，因而能够把握住一些细微的视觉特征来计算字形的易混淆性。

音频混淆更是如此，编辑距离等方法比起字体，将更难以描述两个读音的易混淆性。如不能科学地衡量实际场合中究竟是元音对易混淆性的影响大，还是辅音的影响更大，抑或者是声调、鼻音……。

此外还会涉及到口音等，就更是基于拼音编码所难以解决的问题。而模拟人的听觉的神经网络，则能够通过大量易得数据训练出一个模型，把握住这些因素对声音易混淆性的影响的细微不同，在使用了方言和口音的语音包来训练神经网络的情况下，网络也可以解决诸如方言和口音等所导致音形易混淆性。

（2）作为主要服务于中文文本纠错的易混淆集，其易混淆性还应该根据具体的语境来分析。之前一些基于标注数据做人工统计的方法生成易混淆集时，会考虑汉字本身的使用频率和把一个字混淆成另一个字的混淆频率。但这种统计方法是脱离了汉字具体所在的上下文的。

而很多拼写错误，在不同的上下文中，与不同汉字的易混淆的程度是不一样的。如：辩论与辨论，这两个词都是存在的，都学习过，只是语义和使用的语境不同，这里就很容易产生混淆出现错误。而如果辨和辩的下文是“认”，就没那么容易把两个字弄混了，因为只有“辨认”是词语。

之前生成混淆集的方法中，都没能很好地考虑上下文。

发明内容

本发明的目的在于克服上述现有技术的不足，提供了一种基于多模态模型的汉字易混淆集构建方法，其能够模拟人的视觉，发现字形之间的细微差别对人的认知产生的易混淆性，还可以模拟人的听觉，发现字音之间的细微差别对人的认知产生的易混淆性。

一种基于多模态模型的汉字易混淆集构建方法，构建易混淆集的具体步骤为：

S1：得到字典Dic中汉字字符C _i与字典Dic中每一个汉字字符的字形编码的相似度，并对根据字形编码得到的所有相似度进行归一化，并由经归一化的所有相似度构建出一个向量，作为汉字字符C _i的字形编码相似度向量，记为shape-edi[C _i]；

S2：得到字典

中汉字字符C _i与字典Dic中每一个汉字字符的字音编码的相似度，并对根据字音编码得到的所有相似度进行归一化，并由经归一化的所有相似度构建出一个向量，作为汉字字符C _i的字音编码相似度向量，记为pronunce-edi[C _i]；

S3：构建并训练出一个图像分类的神经网络模型，再输入汉字字符C _i的手写体图像，由图像分类的神经网络模型输出一个M维的向量，每一个维度上的值分别为当前输入的汉字字符C _i的手写体图像被识别为字典Dic中每一个字符的概率值，并满足所有概率值的和为1，则由图像分类的神经网络模型输出的M维的向量，作为汉字字符C _i的字形视觉易混淆向量，记为shape-net[C _i]；

S4：构建并训练出一个音频分类的神经网络模型，再输入汉字字符C _i的音频数据，由音频分类的神经网络模型输出一个M维的向量，每一个维度上的值分别为当前输入的汉字字符C _i的被识别为字典Dic中每一个字符的概率值，并满足所有概率值的和为1，则由音频分类的神经网络模型输出的M维的向量，作为汉字字符C _i的字音听觉易混淆向量，记为pronunce-net[C _i]；

S5：将汉字字符C _i的字形编码相似度向量、字音编码相似度向量、字形视觉易混淆向量、字音听觉易混淆向量，加权组合为一个向量，作为音形易混淆向量，记为

，并满足四个加权值的和为1，则音形易混淆向量中的每个维度上的值表示为汉字字符C _i与字典Dic中每一个汉字字符的相似度，从而依据音形易混淆向量中每个维度上的相似度，选择对应的字典Dic中的汉字，构成汉字字符C _i的音形易混淆集。

作为本发明基于多模态模型的汉字易混淆集构建方法进一步的改进：

S6：构建并训练出一个机器阅读理解模型，再输入由汉字字符C _i组成的句子j，句子j的字符构成表示为C^j ₀、C^j ₁、...、C^j _i、C^j _n，对于句子j中每个汉字字符C _i，由机器阅读理解模型输出对应的M维的向量，每一个维度上的值分别为句子j中汉字字符C _i被识别为字典Dic中每一个字符的概率值，并满足所有概率值的和为1，则由机器阅读理解模型输出的M维的向量上每个维度上的概率值，对应于汉字字符C _i与字典

中每一个字符的相似度，则由机器阅读理解模型输出的M维的向量，作为汉字字符C _i的语境相似度向量,记为

；

S7：求音形易混淆向量和语境相似度向量的向量积；由向量积得出的M维的向量，作为语境音形易混淆向量，记为Confusion[C_i]，则

Confusion[C_i]=

*

则将有C _i出现在的句子j的数量N_Ci结合求Confusion[C_i]，用于表示取多个句子（语境）的综合，式子为：

S8：把M个字符C _i，分别得到M个相应的语境音形易混淆向量Confusion[C_i]，最终组合成M×M的易混矩阵，记作Confusion-matrix[M][M],对于i，r∈（1，M），则

Confusion-matrix[i][r]中第i行第r列的值，对应于字符C _i混淆成字典Dic中的一个字符的概率值，依据易混矩阵中的概率值，选择字典Dic中对应的字符组成字符C _i的易混淆集。

S1中求相似度的具体步骤为：

S1.1：从字典中找到汉字C _i和汉字C _q的字形的编码，即对应两个字符串，并使用字符串的编辑距离的计算方法计算，得到两个字符串的编辑距离:

dis（C _i，C _q）

S1.2：根据两个字符的编辑距离计算这两个字符的相似度，其中Len（）函数计算字符串的长度，

S1.3:使C _i与字典Dic中每一个汉字用求d（C _i，C _q）公式计算相似度。

S2中，求相似度的具体步骤为：

S2.1：从字典中找到汉字

与汉字C _q的字音的编码，即对应两个字符串，并使用字符串的编辑距离的计算方法计算，得到两个字符串的编辑距离:

dis（C _i，C _q）

S2.2根据两个字符的编辑距离计算这两个字符的相似度，其中Len（）函数计算字符串的长度：

S2.3使C _i与字典Dic中每一个汉字用求d（C _i，C _q）公式计算相似度。

S3中，图像分类的神经网络模型的训练方法为：

S3.1：收集训练数据，训练数据采用现有的字体库或汉字手写识别的语料库或相关的标注语料，训练数据的格式为：输入的是字符C _i对应的手写体图像，标记为字符C _q，记作是C _i→C _q；

S3.2：收集现有的基于字形的易混淆集，并且使用词频统计的方式对字符C _i被混淆成C _i，C _q，C _k……的次数进行统计；

其中一组数据为：输入字符C _i对应的手写体图像，标记为C _i，C _q，C _k……，也就是C _i→C _i，C _i→C _q，C _i→C _k……，此外对数据进行扩充，使得C _i→C _i，C _i→C _q，C _i→C _k……的训练数据的比例与C _i分别混淆成C _i，C _q，C _k……的次数比例相同，其中次数就是S3.2词频统计出来的次数；

另一组数据为：输入字符C _i，C _q，C _k……对应的手写体图像，标记为C _i，也就是C _i→C _i，C _q→C _i，C _k→C _i……，此外对数据进行扩充，使得C _i→C _i，C _q→C _i，C _k→C _i…… 的训练数据的比例与C _i分别混淆成C _i，C _q，C _k……的次数比例相同；

S3.3：构建一个图像分类的神经网络模型，所述图像分类的神经网络模型为CNN或ResNet，使图像分类的神经网络模型满足输入的是一个手写体图像，模型的输出是一个M维的向量；

S3.4：利用S3.1的训练数据，使用图形数据增强的方法训练图像分类的神经网络模型，直到模型的验证精度达到相应的阈值；

S3.5：经S3.4训练后的图像分类的神经网络模型，为其增添全连接层，并使用S3.2的数据对其进行训练；

S3.6：经S3.5训练后的图像分类的神经网络模型，用于输入字符C _i的对应的图像，输出一个M维的向量。

S4中音频分类的神经网络模型的训练方法为：

S4.1：收集训练数据，获取汉字字典Dic中每个汉字字符对应的发音的音频文件，训练数据的格式为：输入字符C _i对应的发音的音频数据，标记为字符C _q，记作是C _i→C _q；

S4.2：收集现有的基于字音的易混淆集，并且使用词频统计的方式对字符C _i被混淆成C _i，C _q，C _k……的次数进行统计；

一组数据为：输入C _i对应的音频数据，标记为C _i，C _q，C _k……，也就是C _i→C _i，C _i→C _q，C _i→C _k……，此外对数据进行扩充，使得C _i→C _i，C _i→C _q，C _i→C _k……的训练数据的比例与C _i分别混淆成C _i，C _q，C _k……的次数比例相同；

另一组数据为：输入字符C _i，C _q，C _k……对应的音频数据，标记为

，也就是C _i→C _i，C _q→C _i，C _k→C _i……，此外对数据进行扩充，使得C _i→C _i，C _q→C _i，C _k→C _i……的训练数据的比例与C _i分别混淆成C _i，C _q，C _k……的次数比例相同；

S4.3：构建一个音频分类的神经网络模型，所述音频分类的神经网络模型为RNN或CNN或transformer，音频分类的神经网络模型满足输入的是字符C _i的音频数据，模型输出的是一个M维的向量；

S4.4：利用S4.1的训练数据，使用音频数据增强的方法训练音频分类的神经网络模型，直到模型的验证精度达到相应的阈值；

S4.5：经S4.4训练后的音频分类的神经网络模型，为其增添全连接层，并使用S4.2的数据对其进行训练；

S4.6：经S4.5训练后的音频分类的神经网络模型，用于输入字符C _i的对应的音频数据；输出一个M维的向量。

S5的具体步骤为：

=α₁×shape-edi[C _i] +α₂×pronunce-edi[C _i]+ α₃×shape- net[C _i]+ α₄×pronunce-net[C _i]；

其中α₁+α₂+α₃+α₄=1。

S6中，机器阅读理解模型的训练方法为：

S6.1：收集含有编辑错误的语料；

S6.2：所述机器阅读理解模型为Bert模型，利用MLM，在S6.1中收集的语料上训练Bert模型；

S6.3：对训练好的Bert模型，输入一个句子j。对于句子j中每个汉字字符C _i，由Bert模型输出字符C _i被识别为字典

中每一个字符的概率值。

本发明可以使用Bert等深度模型来引入更为具体的上下文信息。本发明主使用要MLM(Masked Language Model)无监督学习的方式来预训练Bert模型，来引入上下文导致的易混淆信息。有益效果如下：

（1）首次将图像分类神经网络用于易混淆集特征提取。图像分类神经网络，可以模拟人的视觉，发现字形之间的细微差别对人的认知产生的易混淆性。

（2）首次将音频分类神经网络用于易混淆集特征提取。使用音频分类神经网络，可以模拟人的听觉，发现字音之间的细微差别对人的认知产生的易混淆性。

（3）联合编辑距离方法用于易混淆集特征的提取，编辑距离方法可以用于模拟由于五笔输入法和拼音输入法导致的输入混淆。

（4）使用BERT模型将上下文语境融入汉字易混淆集的构建。基于上下文语境的BERT模型将比基于词频的传统方法更细致地考虑具体语境下的易混淆性。

（5）首次构建了一个基于以方法的易混淆集生成的多模态模型。

该多模态模型带来以下特性：

1）可以无需新的标注数据。MLM基于无监督学习方式，字音字形分类的分类神经网络也有大量现有数据，因此不需要人工标注数据即可以完成任务。

2）使用字音字形分类网络以及MLM混合模型，可以很好地模拟人的视觉、听觉、输入法以及语境，因而较为贴近易混淆产生的本质，也使得计算出来的字音字形易混淆度更具有鲁棒性。

3）该易混淆集表示的易混淆性的粒度更加细致，而不再是“是”或“否”两种粒度，这对易混淆集的下游任务具有更准确的指导性；

4）同时由于方法较优，该易混淆矩阵能表示的有效易混淆性数量更多，不再是少数几个人为确定的易混淆关系。这能为下游任务提供更丰富的信息。这里本发明又把混淆集扩展地成称之为易混淆矩阵。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是音形易混淆向量的构建流程示意图。

图2是结合听觉视觉感官、输入法和语境的易混淆集的构建流程示意图。

图3为所使用数据的字音字形编码及手写体示意图。

图4为图像分类神经网络使用的一组数据示意图。

图5为图像分类神经网络使用的另一组数据示意图。

具体实施方式

下面将结合本发明的实施例中的附图，对本发明的实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1和图2所示：

1:混合方法构建音形易混淆向量

传统的计算汉字字音和字形相似度的方法，是用过一个汉字的编码计算编辑距离的方式。如图3所示，其字音字形编码来自Unihan字典库以及汉典字体库。传统方式是通过对两个字的编码的编辑距离的大小来判断两个汉字的字音和字形的相似度。

而为了更加符合现实场景的音形易混淆性，实则是人通过耳朵和眼睛感官来发现的相似度，以及思维定式上带来的相似度。如已、己、巳这三个字字形编码之间的相似度都是类似的，但实际上人们更容易把已和己混淆。这种情况下，一个好的神经网络，就可以某种程度上发掘这些感官和思维定式上隐含的信息，提供更准确的相似度的度量。

本发明在这里同时混合采用了两种计算音形易混淆性的方法，以提升字音和字形相似度计算的健壮性和准确性。

1.1根据字形编辑距离的方式构建相似度向量。

步骤一：从字典中找到汉字C _i和汉字C _q的字形的编码，即对应两个字符串。并使用字符串的编辑距离的计算方法计算，得到两个字符串的编辑距离:

dis（C _i ，C _q ）

步骤二：根据两个字符的编辑距离计算这两个字符的相似度。其中Len（）函数计算字符串的长度。

步骤三：根据C _i与字典中每一个汉字用上述公式计算的相似度，再对这些相似度进行归一化，使得C _i与字典中每一个汉字的相似度之和为1。最后得到的，就是关于汉字C _i字符的相似度向量。记作：shape-edi[C _i]

该向量长度为字典

的大小M。这时候若是取相似度最高的前几个字符，即用传统方法构建出了关于字符C _i的字形的易混淆集。

优点：由于现在文本的输入法有五笔输入法。所以考虑字形的编辑距离，可以模拟由五笔输入法引入的易混淆错误。

1.2根据字音编辑距离的方式构建字音相似度向量

步骤一：从字典中找到汉字C _i和汉字C _q的字音的编码，即对应两个字符串。并使用字符串的编辑距离的计算方法计算，得到两个字符串的编辑距离:

dis（C _i，C _q）

步骤三：根据C _i与字典中每一个汉字用上述公式计算的相似度，再对这些相似度进行归一化，使得C _i与字典中每一个汉字的相似度之和为1。最后得到的，就是关于汉字C _i字符的相似度向量。记作：

pronunce-edi[C _i]

该向量长度为字典

的大小

。这时候若是取相似度最高的前几个字符，即用传统方法构建出了关于字符C _i的字音的易混淆集。

优点：由于现在文本的输入法有拼音输入法。所以考虑字音的编辑距离，可以模拟由拼音输入法引入的易混淆错误。

1.3使用图像分类神经网络构建字形易混淆向量。

步骤一：收集训练数据。如通过现有的字体库，汉字手写识别的语料库等。相关的标注语料有很多。训练数据的格式为：输入是字符C _i对应的手写体图像，label为C _q，记作是C _i→C _q，箭头左边是C _i的图像，右边是C _q的标签，这样使得模型能够学习到为什么C _i的图像易混淆成C _q。

步骤二：收集传统方法生成的基于字形的易混淆集；并且使用词频统计的方式对字符C _i被混淆成C _i，C _q，C _k……的次数进行统计。（注意，为了计算统一，本发明这里把C _i正确识别的情况也当成混淆）。

一组数据为：输入为C _i对应的手写体图像，lable为C _i，C _q，C _k……，也就是C _i→C _i，C _i→C _q以及C _i→C _k……。此外对数据进行扩充，使得C _i→C _i，C _i→C _q以及C _i→C _k……的训练数据的比例与

分别混淆成C _i，C _q，C _k……的词频统计的次数的比例相同，也可看做概率的比例。

另一组数据为：输入是字符C _i，C _q，C _k……对应的手写体图像，label为C _i，也就是C _i→C _i，C _q→C _i以及C _k→C _i……。此外对数据进行扩充，使得C _i→C _i，C _q→C _i，以及C _k→C _i……的训练数据的比例与C _i分别混淆成C _i，C _q，C _k……的词频统计的次数的比例相同。

对于步骤二这里举例说明一下。假设本发明收集到的关于汉字“驰”基于字形的易混淆集为：驰-10、池-3、弛-5，其中驰-10表示在文本中没有出错的驰的数量为10次；“池-3”表示在文本中“驰”被错误地写为“池”造成拼写错误的数量为3次；“弛-5”表示在文本中“驰”被错误地写为“弛”造成拼写错误的数量为5次。

那么本发明对于这一组易混淆集生成两组数据，如图4和图5所示。

优点：利用这两组数据集，可以让模型融合已有的人工整理的易混淆集信息。同时，通过这些信息，发掘影响人的视觉易混淆性的细微特征。

步骤三：构建一个图像分类的神经网络模型，模型选择有很多，如CNN，ResNet等。由于不用担心训练数据的量，模型选择主要考虑硬件条件即可。模型的输入是一个手写体图像，模型的输出是一个M维的向量，每一个维度分别表示当前输入的手写体图像被识别为字典Dic中每一个字符的可能性，这些概率值之和为1。

步骤四：接着用步骤一构建的数据集，使用一些图形数据增强的方法进行训练，直到模型的验证精度达到一个较高的阈值。这时模型就学会了区分两个不同汉字所依赖的字形特征。数据增强的方法可以在提升有效训练数据量的同时，提升模型的鲁棒性。

步骤五：在步骤四网络模型的基础上，新增添一些全连接层，然后用步骤二中的数据对该模型进行微调。让模型学习到会影响易混淆性的字形的特征。

步骤六：对步骤五中训练好的网络。输入字符C _i对应的图像，神经网络对应的输出向量就表示C _i在该手写体中学习到的与字典中所有字符的易混淆性，记作：

shape-net[C _i]

该向量长度为字典Dic的大小M。

优点：使用图像分类神经网络，可以模拟人的视觉，发现汉字字形之间的细微特征对人的认知产生的易混淆性。

1.4使用音频分类神经网络构建字音易混淆向量。

步骤一：收集训练数据，获取汉字字典Dic中每个汉字字符对应的发音的音频文件。要是想模型能考虑方言和特殊口音的因素，则也可以收集带有方言和口音的特殊的语音包作为训练数据。此外，也可以用一些音频视频处理技术，从电影的字幕中爬取、制作训练数据。训练数据的格式为：输入是字符C _i对应的发音的音频数据，label为C _q，记作是C _i→C _q。

步骤二：收集传统方法生成的基于字音的易混淆；并且使用词频统计的方式对字符C _i被混淆成C _i，C _q，C _k……的次数进行统计。（注意，为了计算统一，本发明这里把C _i正确识别的情况也当成混淆）。如果这里使用口音、方言等的易混淆数据集，那么神经网络也将能够学习到口音和方言对易混淆性的影响。

一组数据为：输入为C _i对应的音频数据，lable为C _i，C _q，C _k……，也就是C _i→C _i，C _i→C _q以及C _i→C _k……。此外对数据进行扩充，使得C _i→C _i，C _i→C _q以及C _i→C _k……的训练数据的比例与C _i分别混淆成C _i，C _q，C _k……的次数比例相同。

另一组数据为：输入是字符C _i，C _q，C _k……对应的音频数据，label为C _i，也就是C _i→C _i，C _q→C _i以及C _k→C _i……。此外对数据进行扩充，使得C _i→C _i，C _q→C _i以及C _k→C _i……的训练数据的比例与C _i分别混淆成C _i，C _q，C _k……的次数比例相同。

步骤三：构建一个音频分类的神经网络模型，模型选择有很多，可以使用RNN，也可以使用CNN，transformer等。由于不用担心训练数据的量，模型选择主要考虑硬件条件即可。模型的输入是一个字符对应的音频数据，模型的输出是一个M维的向量，每一个维度分别表示当前输入的音频数据被识别为字典Dic中每一个字符的概率值，这些概率值之和为1。

接着用步骤一构建的数据集，使用一些音频数据增强的方法进行训练，让模型的验证精度达到一个较高的阈值，让模型学会根据不同字的音素特征（如元音、辅音、声调）区分两个字。数据增强在提升训练数据量的同时，可以提升模型的鲁棒性

步骤五：在步骤四网络模型的基础上，新增添一些全连接层，然后用步骤二中的数据对该模型进行微调。让模型学习到会影响易混淆性的字音的特征。

步骤六：对步骤五中训练好的网络。输入字符C _i对应的音频数据，神经网络对应的输出向量就表示C _i在该音频数据中学习到的与字典中所有字符的易混淆性，记作：

pronunce-net[C _i]

该向量长度为字典Dic的大小M。

优点：使用音频分类神经网络，可以模拟人的听觉，发现汉字字音之间的细微差别对人的认知产生的易混淆性。

1.5 混合计算音形易混淆向量。

将前面步骤计算所得的四个相似度shape-edi[C _i]、pronunce-edi[C _i]、shape-net[C _i]、pronunce-net[C _i]进行综合，得到：

表示中文字符C _i所对应的音形易混淆集。

其中，α₁+α₂+α₃+α₄=1。这里可以把α₁～α₄看作超参数来调节以得到最好的实验结果。因为向量shape-edi[C _i]、pronunce-edi[C _i]、shape-net[C _i]、pronunce-net[C _i]都已经归一化过，所以

依然满足归一性。

此外另一个候选方案是，在有音形混淆集标注数据的情况下，本发明可以用梯度下降的方式来学习这些参数。

优点：同时考虑了输入法、人对字音和字形的认知易混性。同时考虑多个因素，会使得该混淆集表示的易混淆集具有较强鲁棒性。

2：通过Bert模型，计算语境相似度

步骤一：收集尽量含有较多编辑错误的正常语料。可以爬取互联网中的论坛中的数据，也根据一些规则字形构建部分数据集。一般正规平台上的新闻语料被认为音形错误较少。

步骤二：利用MLM(Masked Language Model)，在步骤一中收集的语料上训练Bert模型，MLM是Bert模型的训练方式，训练数据为步骤一收集的语料。

步骤三：对训练好的Bert模型，输入一个当前上下文，即一个由多个中文汉字字符构成的句子j,该句子的字符构成为：C^j ₀、C^j ₁、...、C^j _i、C^j _n。然后对句子中的每个中文字符C _i都对应输出一个大小为字典大小的归一化后的语境相似度向量，记作：

表示字符C _i在当前语境上下文句子j（该字符前后的一些字符）下，由Bert模型推算出的被替换成字典Dic中每一个字符的概率值，即语境相似度。

优点：这里，神经网络模型会对本发明的混淆集引入真实的语境上下文。因为模型的特性，可以把基于语境而产生的多音字情形考虑进去。

3：利用语境相似度向量和音形易混淆向量的混合方法构建易混淆集。

步骤一：对于每个语境句子j中每一个字符C _i计算：

Confusion[C_i]=

*

表示音形易混淆向量和语境相似度向量的对应元素相乘，结果维度不变，也就是(a1,a2)*（b1,b2）=(a1b1,a2b2)。其中

和

都是长度为M的向量。

该运算背后代表的意义是：在一个含有音形错误的正常语料环境下训练出来的语义相似度的大小由以下几个因素影响：编辑错误，关联词（如:前后语境是我喜欢_球，那么这里的关联词就是打、看、踢等），而本发明通过模拟输入法和人的感官得到的音形相似度，就可以筛选上下文语境中由输入法和感官导致的易混淆性所导致的错别字的情况。毕竟考虑两个汉字，如果使用的语境情况一致，字音字形也相似，那么这两个汉字将具有很强的易混淆性（例如：秘和密），那么理应对这一类同时拥有相似上下文的易混淆增添易混淆性。

步骤二：把每个字符C _i在多个语境句子j下的易混淆性取综合，最终得出鲁棒性较强的易混淆向量。表示字符C _i易混淆成其它字符的可能性大小。

其中N_Ci表示C _i出现在的上下文的数量。

步骤三：当本发明把每一个字符C _i都按步骤二计算，生成一个对应的长为M（M为字典Dic的大小）易混淆向量。一共有M个字符，那么最终就可以组合成一个M×M的易混矩阵，记作Confusion-matrix[M][M],对于i，r∈（1，M）,Confusion-matrix[i][r]就表示把字符C _i混淆成C _q的可能性。

本发明首次提出基于神经网络的汉字字音和字形易混淆度计算方法。

该方法的优点是：

1) 利用神经网络模型发掘字音和字形的细微特征对人的视觉和听觉产生的易混淆性。即能够模拟人视觉和听觉以判断汉字间的易混淆程度。这是以往基于字音编码和字形编码制定规则的方法所很难做到的。

举例说明：如使用传统计算方法计算编辑距离的时候，对驰、池、弛三个字：虽然他们只有一个部首的差别，但是在这里，马字旁与弓字旁的相似度显然是更高的，也使得驰与弛的易混淆性要更高。如使用笔画顺序的方式计算字形相似性：同样的笔顺下，工和土并不那么容易混淆。而基于神经网络的方法通过对大量易得的数据进行训练，可以习得对人的视觉的模拟，因而能够把握住一些细微的视觉特征来计算字形的相似性。对于听觉同样如此。

2)神经网络的方式，可以很好地融合以往手工整理收集的易混淆集数据和词频数据等成果所蕴藏的信息。

（2）首次构建了一个基于模拟人的视觉、听觉、输入法以及语境的多模态模型，来生成易混淆集。该模型生成的易混淆集有以下优点：

1）无需新的标注数据。MLM（Masked Language Model）基于无监督学习方式，字音和字形的分类神经网络的训练也有大量现有数据，因此可以不需要新的人工标注数据即可以完成任务。

2）构建的易混淆更加符合生活实际语境。使用字音字形分类网络以及MLM混合模型，可以很好地模拟人的视觉、听觉、输入法以及语境，因而较为贴近易混淆产生的本质，也使得计算出来的字音字形相似度更具有鲁棒性。

3）构建的易混淆集表示的易混淆性的粒度更加细致。构建的易混淆集不再是“是”或“否”两种粒度，这对易混淆集的下游任务具有更准确的指导性；

4）构建的易混淆矩阵能表示的有效易混淆性数量更多。这能为下游任务提供更丰富的信息。这里把混淆集扩展地成称之为易混淆矩阵。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所做的任何修改、等同替换或改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多模态模型的汉字易混淆集构建方法，其特征在于，构建易混淆集的具体步骤为：

S2：得到字典

2.根据权利要求1所述的一种基于多模态模型的汉字易混淆集构建方法，其特征在于：

；

Confusion[C_i]=

*

则将有C _i出现的句子j的数量N _Ci结合求Confusion[C_i]，用于表示取多个句子的综合，式子为：

3.根据权利要求1所述的一种基于多模态模型的汉字易混淆集构建方法，其特征在于：S1中求相似度的具体步骤为：

dis（C _i，C _q）

4.根据权利要求1所述的一种基于多模态模型的汉字易混淆集构建方法，其特征在于：S2中，求相似度的具体步骤为：

S2.1：从字典中找到汉字

dis（C _i，C _q）

S2.2根据两个字符的编辑距离计算这两个字符的相似度，其中Len（）函数计算字符串的长度，

5.根据权利要求1所述的一种基于多模态模型的汉字易混淆集构建方法，其特征在于，S3中，图像分类的神经网络模型的训练方法为：

其中一组数据为：输入字符C _i对应的手写体图像，标记为C _i，C _q，C _k……，也就是C _i→C _i，C _i→C _q，C _i→C _k……，此外对数据进行扩充，使得C _i→C _i，C _i→C _q，C _i→C _k……的训练数据的比例与C _i分别混淆成C _i，C _q，C _k……的次数比例相同；

另一组数据为：输入字符C _i，C _q，C _k……对应的手写体图像，标记为C _i，也就是C _i→C _i，C _q→C _i，C _k→C _i……，此外对数据进行扩充，使得 C _i→C _i，C _q→C _i，C _k→C _i……的训练数据的比例与C _i分别混淆成C _i，C _q，C _k……的次数比例相同；

6.根据权利要求1所述一种基于多模态模型的汉字易混淆集构建方法，其特征在于，S4中音频分类的神经网络模型的训练方法为：

S4.1：收集训练数据，获取汉字字典Dic中每个汉字字符对应的发音的音频数据，训练数据的格式为：输入字符C _i对应的发音的音频数据，标记为C _q，记作是C _i→C _q；

7.根据权利要求1所述的一种基于多模态模型的汉字易混淆集构建方法，其特征在于，S5的具体步骤为：

=α₁×shape-edi[C _i] +α₂×pronunce-edi[C _i]+ α₃×shape-net[C _i]+ α₄×pronunce-net[C _i]；

其中α₁+α₂+α₃+α₄=1。

8.根据权利要求2所述的一种基于多模态模型的汉字易混淆集构建方法，其特征在于，S6中，机器阅读理解模型的训练方法为：

S6.1：收集含有编辑错误的语料；

S6.3：对训练好的Bert模型，输入一个句子j，对于句子j中每个汉字字符C _i，由Bert模型输出字符C _i被识别为字典

中每一个字符的概率值。