CN114218926A

CN114218926A - 一种基于分词与知识图谱的中文拼写纠错方法及系统

Info

Publication number: CN114218926A
Application number: CN202111551684.0A
Authority: CN
Inventors: 陈锦坤; 卓汉逵
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-12-17
Filing date: 2021-12-17
Publication date: 2022-03-22

Abstract

本发明公开了一种基于分词与知识图谱的中文拼写纠错方法及系统，该方法包括：对中文字符序列进行向量表示并整合词汇信息，得到字符嵌入序列；根据字符上下文及词汇信息判断中文字符序列中各字符出错的概率，得到出错概率；根据出错概率对字符嵌入序列进行处理，掩盖出错概率高的字符向量，得到掩盖后的字符序列；对掩盖后的字符序列中各个字符进行三元组整合，得到整合知识三元组序列；根据整合知识三元组序列对掩盖后的字符序列进行纠错，得到正确字符序列。该系统包括：输入表示模块、检错网络模块、Soft‑Mask模块、知识三元组整合模块和纠错网络模块。通过使用本发明，能够提高现有中文拼写纠错模型的纠错效果。本发明可广泛应用于拼写纠错领域。

Description

一种基于分词与知识图谱的中文拼写纠错方法及系统

技术领域

本发明涉及中文拼写纠错领域，尤其涉及一种基于分词与知识图谱的中文拼写纠错方法及系统。

背景技术

中文拼写纠错是自然语言处理领域里的一项重要任务，目标是检查并纠正中文文本中存在的拼写错误。中文拼写纠错由于实现了纠错的自动化，可以节省大量人力与时间成本，故具有重大的研究价值。目前，中文拼写纠错被广泛应用于搜索、问答系统、文章评分、光学字符识别(optical character recognition，OCR)等自然语言应用场景。具体地，中文拼写纠错的任务是分析并理解中文文本，找到拼写错误，挑选最恰当的汉字将其替换。一般来说，中文拼写纠错任务仅考虑替换的错误，对删除和插入的错误研究较少。现有的基于字符级表征的中文拼写纠错模型根据上下文字符进行检错纠错，未能充分利用可能提高纠错效果的分词信息，因为无法组词的字符相比其他可组词的字符具有更大的错误几率。此外，这些模型未能引入外部知识，在某些特定领域纠错能力不足。引入知识图谱可以增强词信息表达，使模型获得更丰富的语义信息。

发明内容

为了解决上述技术问题，本发明的目的是提供一种基于分词与知识图谱的中文拼写纠错方法及系统，能够提高现有中文拼写纠错模型的纠错效果。

本发明所采用的第一技术方案是：一种基于分词与知识图谱的中文拼写纠错方法，包括以下步骤：

对中文字符序列进行向量表示并整合词汇信息，得到字符嵌入序列；

根据字符上下文及词汇信息判断中文字符序列中各字符出错的概率，得到出错概率；

根据出错概率对字符嵌入序列进行处理，掩盖出错概率高的字符向量，得到掩盖后的字符序列；

对掩盖后的字符序列中各个字符进行三元组整合，得到整合知识三元组序列；

根据整合知识三元组序列对掩盖后的字符序列进行纠错，得到正确字符序列。

进一步，所述对中文字符序列进行向量表示并整合词汇信息，得到字符嵌入序列这一步骤，其具体包括：

获取中文字符序列并基于Word2Vec方法将各字符转换为向量表示；

基于词典整合中文字符序列中的词汇信息和词频信息，得到整合信息后的字符嵌入序列。

进一步，所述根据字符上下文及词汇信息判断中文字符序列中各字符出错的概率具体为采用检错网络计算错误概率，公式表示如下：

上式中，

表示双向GRU的隐藏状态，W_d和b_d表示可训练参数。

进一步，所述对掩盖后的字符序列中各个字符进行三元组整合，得到整合知识三元组序列这一步骤，其具体包括：

在知识图谱中检索各个字符的BMES词汇集合中的每个词汇，得到相关的BMES三元组集合；

基于TransE对相关的BMES三元组集合进行表征并拼接，得到整合知识三元组序列。

进一步，所述根据整合知识三元组序列对掩盖后的字符序列进行纠错，得到正确字符序列这一步骤，其具体包括：

基于BERT的多分类器构建纠错网络；

基于残差层根据整合知识三元组序列对掩盖后的字符序列进行理解和分析；

基于全连接层和softmax函数计算各字符被纠正为候选字列表中字符的概率，选择候选字列表中最可能正确的字替换掉出错的字符，生成正确的字符序列。

进一步，还包括网络训练步骤：

将检错网络和纠错网络的损失函数线性加和得到联合损失函数并将训练的优化目标设为最小化联合损失函数。

本发明所采用的第二技术方案是：一种基于分词与知识图谱的中文拼写纠错系统，包括：

输入表示模块，用于对中文字符序列进行向量表示并整合词汇信息，得到字符嵌入序列；

检错网络模块，用于根据字符上下文及词汇信息判断中文字符序列中各字符出错的概率，得到出错概率；

Soft-Mask模块，用于根据出错概率对字符嵌入序列进行处理，掩盖出错概率高的字符向量，得到掩盖后的字符序列；

知识三元组整合模块，用于对掩盖后的字符序列中各个字符进行三元组整合，得到整合知识三元组序列；

纠错网络模块，用于根据整合知识三元组序列对掩盖后的字符序列进行纠错，得到正确字符序列。

进一步，还包括：

训练模块，用于将检错网络和纠错网络的损失函数线性加和得到联合损失函数并将训练的优化目标设为最小化联合损失函数。

本发明方法及系统的有益效果是：本发明在字符级表征的基础上，引入了分词信息和组词词频，提高了模型的检错精确度，另外，整合了外部知识，丰富了字符表达内容，使模型可以利用文本相关的知识三元组辅助纠错，改善了纠错的效果，还通过知识图谱提高纠错模型对文本的理解能力，降低了模型对数据集的依赖性。

附图说明

图1是本发明一种基于分词与知识图谱的中文拼写纠错方法的步骤流程图；

图2是本发明一种基于分词与知识图谱的中文拼写纠错系统的结构框图；

图3是本发明具体实施例词汇BMES集合示意图；

图4是本发明具体实施例词汇信息辅助检错示意图；

图5是本发明具体实施例部分知识图谱三元组示意图；

图6是本发明具体实施例知识图谱辅助纠错示意图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

参照图1和图2，本发明提供了一种基于分词与知识图谱的中文拼写纠错方法，该方法包括以下步骤：

S1、基于输入表示模块，对中文字符序列进行向量表示并整合词汇信息，得到字符嵌入序列；

具体地，模型的输入是一个中文字符序列X＝(x₁，x₂，...，x_n)。首先使用Word2Vec方法获得各字符的向量表示

其中

为字符x_i在BERT中的词嵌入、位置嵌入、段嵌入之和。然后，找出句子中所有出现的词典词汇，将与字符x_i相关的词汇按照匹配类型放入集合B_i、M_i、E_i、S_i中，其中B代表begin、M代表middle、E代表end、S代表single。B_i表示以第i个字符为首的词汇的集合；M_i以第i个字符为中间字符的词汇的集合；E_i以第i个字符结尾的词汇的集合；S_i表示字符x_i单字在词典中的词汇集合。关于BMES集合的定义与操作详见图3。记词汇w在某集合中出现的次数为t(w)，则总频次T＝∑_{w∈B∪M∪E∪S}t(W)。词汇集合S^w的表征为

其中υ^w(w)为词w通过Word2Vec方法所得的词嵌入。接着，为了倾注更多注意力在组词少的字符，模型需要统计各字符组词的词汇个数。字符x_i的组词频次记为f(x_i)＝|B_i|+|M_i|+|E_i|+|S_i|。最终，整合词汇信息，即字符x_i表征为

其中[]表示拼接操作。

图3所示为词汇BMES集合示意图。字符的B集合表示在词典能检索到的以该字符起始的连续字符构成的词的集合。例如从示意图的“中”字为首的连续字符序列中，可以在词典搜索到“中山”和“中山大学，故“中”的B集合为{“中山”,“中山大学”}。以此类推，字符的M集合表示在词典能检索到的包含该字符的连续字符构成的词的集合，字符的E集合表示在词典能检索到的以该字符为结尾的连续字符构成的词的集合，字符的S集合表示在词典能检索到该单字的集合。

S2、基于检错网络模块，根据字符上下文及词汇信息判断中文字符序列中各字符出错的概率，得到出错概率；

检错网络的输入是表征序列(e₁，e₂，...，e_n)。检错网络的输出是概率序列P＝(p₁，p₂，...，p_n)，其中p_i表示字符x_i出错的概率。检错网络使用双向GRU(Bi-GRU)来计算错误概率P：

其中

表示Bi-GRU的隐藏状态，w_d和b_d是可训练的参数。Bi-GRU的隐藏状态定义如下：

图4所示为词汇信息辅助检错示意图。正确的句子为“中山大学在广州市”，句子中存在于词典中的词汇为{“中山”，“中山大学”，“山大”，“大学”，“广州”，“广州市”}，各字符对应的f为该字符所能构成的词汇(包括单字)的个数，例如“山”字相关的词汇有“中山”、“中山大学”、“山大”、“山”，故其对应的词频为4。错误的句子为“中山大学在广周市”，其中词频为1的字符有{“在”，“广”，“周”，“市”}，这4个字为高概率错字，模型会对这些高概率错字分配更多的注意力来检错；而对于{“中”、“山”、“大”、“学”}，模型更倾向于认为这4个字是正确的。最终经过检错网络模块的判断，“周”字为错误的字符。

S3、基于Soft-Mask模块，根据出错概率对字符嵌入序列进行处理，掩盖出错概率高的字符向量，得到掩盖后的字符序列；

具体地，Soft-Mask模块根据字符的出错概率将e_i与掩模e_mask加权求和，掩盖高概率出错的字符表征，得到soft-mask后的表征e′_i：e′_i＝p_i·e_mask+(1-p_i)·e_i。

S4、基于知识三元组整合模块，对掩盖后的字符序列中各个字符进行三元组整合，得到整合知识三元组序列；

具体地，在知识图谱中检索各个字符的BMES词汇集合中的每个词汇，得到与之相关的BMES三元组集合TB_i/TM_i/TE_i/TS_i。一个三元组集合S^t＝{k₁，k₂，...，k_N}，其中N为集合中三元组的个数，k_i＝(h_i，r_i，t_i)为(头实体,关系,尾实体)三元组。为了更好地表示实体间的关系，使用TransE对三元组进行表征：k_i＝(h_i，r_i，t_i)＝TransE(h_i，r_i，t_i)。应用图注意力机制，可以将一个三元组集合S^t的表征为：

其中W_h，W_r，W_t分别是参数。将x_i对应的BMES三元组表征拼接在e′_i后，得到整合知识三元组后的表征

图5所示为“中山大学”相关的部分知识图谱三元组示意图。通过检索知识图谱，可以得到<中山大学，位于，广东省>、<中山大学，位于，广州市>、<中山大学，种类，学校>、<中山大学，创立于，1924年>等三元组，对于包含“中山大学”的句子纠错有积极作用。

S5、基于纠错网络模块，根据整合知识三元组序列对掩盖后的字符序列进行纠错，得到正确字符序列。

纠错网络模块是基于BERT的多分类器，输入是整合知识三元组后的表征序列

输出是纠错后的字符序列Y＝(y₁，y₂，...，y_n)。BERT的最后一层的隐状态可以表示为

输入表示层的表征和BERT的最后一层隐状态之间还建立了残差连接，隐状态

最后采用全连接层与softmax函数，计算各字符被纠正为候选字列表中字符j的概率P_c(y_i＝j|X)＝softmax(Wh′_i+b)[j]，其中W和b都是参数。

图6所示为知识图谱辅助纠错示意图。错误的句子为“中山大学在广周市”，“州”字被错写成“周”。根据句子中的潜在词汇检索知识图谱，可以获得“广东省”、“广州市”、“山东省”、“学习”等知识三元组实体/概念，通过模型将这些外部知识嵌入句子的表示中。在纠错阶段，实体“广州市”就会对“广周市”的纠错产生辅助作用，改善了纠错的效果，并且提高了纠错的可解释性。

进一步作为本方法优选实施例，还包括：

S6、基于训练模块，将检错网络和纠错网络的损失函数线性加和得到联合损失函数并将训练的优化目标设为最小化联合损失函数。

具体地，检错的直观结果可以表示为标签序列M＝(m₁，m₂，...，m_n)，其中m_i是基于p_i判断的拼写错误标签，m_i＝1表示字符x_i错误，m_i＝0表示字符x_i是正确的。检错网络和纠错网络的损失函数分别为：

对上述损失函数线性加和得到联合损失函数L＝λ·L_c+(1-λ)·L_d，其中λ∈[0，1]为超参数。训练的优化目标是最小化联合损失函数L。

一种基于分词与知识图谱的中文拼写纠错系统，包括：

进一步作为本系统优选实施例，还包括：

本发明主要包括输入表示模块、检错网络模块、Soft-Mask模块、知识三元组整合模块、纠错网络模块。首先输入表示模块对输入字符序列进行向量表示，并根据词典整合词汇信息及词频信息。然后将整合了词汇信息的字符嵌入序列输入基于Bi-GRU的检错网络模块，得到各字符出错的概率。Soft-Mask模块根据此概率将高出错概率的字符嵌入掩盖。接着知识三元组整合模块检索知识图谱，将知识三元组的向量表示附加在当前字符嵌入之后。纠错网络模块对字符序列进行理解与分析，并在残差连接后选择候选字列表中最可能正确的字替换掉出错的字，生成正确的字符序列。

上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

一种基于分词与知识图谱的中文拼写纠错装置：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如上所述一种基于分词与知识图谱的中文拼写纠错方法。

上述方法实施例中的内容均适用于本装置实施例中，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

一种存储介质，其中存储有处理器可执行的指令，其特征在于：所述处理器可执行的指令在由处理器执行时用于实现如上所述一种基于分词与知识图谱的中文拼写纠错方法。

上述方法实施例中的内容均适用于本存储介质实施例中，本存储介质实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于分词与知识图谱的中文拼写纠错方法，其特征在于，包括以下步骤：

2.根据权利要求1所述一种基于分词与知识图谱的中文拼写纠错方法，其特征在于，所述对中文字符序列进行向量表示并整合词汇信息，得到字符嵌入序列这一步骤，其具体包括：

3.根据权利要求2所述一种基于分词与知识图谱的中文拼写纠错方法，其特征在于，所述根据字符上下文及词汇信息判断中文字符序列中各字符出错的概率具体为采用检错网络计算错误概率，公式表示如下：

上式中，

表示双向GRU的隐藏状态，W_d和b_d表示可训练参数。

4.根据权利要求3所述一种基于分词与知识图谱的中文拼写纠错方法，其特征在于，所述对掩盖后的字符序列中各个字符进行三元组整合，得到整合知识三元组序列这一步骤，其具体包括：

5.根据权利要求4所述一种基于分词与知识图谱的中文拼写纠错方法，其特征在于，所述根据整合知识三元组序列对掩盖后的字符序列进行纠错，得到正确字符序列这一步骤，其具体包括：

基于BERT的多分类器构建纠错网络；

6.根据权利要求5所述一种基于分词与知识图谱的中文拼写纠错方法，其特征在于，还包括网络训练步骤：

7.一种基于分词与知识图谱的中文拼写纠错系统，其特征在于，包括：

8.根据权利要求7所述一种基于分词与知识图谱的中文拼写纠错系统，其特征在于，包括：