CN116702760A

CN116702760A - 一种基于预训练深度学习的地理命名实体纠错方法

Info

Publication number: CN116702760A
Application number: CN202310646008.4A
Authority: CN
Inventors: 张伟; 孟静涛; 刘元亮; 万剑华; 徐流畅
Original assignee: Zhejiang University ZJU; China University of Petroleum East China; Shandong Provincial Institute of Land Surveying and Mapping
Current assignee: Zhejiang University ZJU; China University of Petroleum East China; Shandong Provincial Institute of Land Surveying and Mapping
Priority date: 2023-06-01
Filing date: 2023-06-01
Publication date: 2023-09-05

Abstract

本发明涉及地理命名实体纠错技术领域，提供了一种基于预训练深度学习的地理命名实体纠错方法，以BERT预训练语言模型为代表的基于自注意力机制的地理命名实体文本纠错方法为参考，设计了基于地理命名实体语义模型的以地理命名实体文本纠错为目标任务的方法，主要解决的是来自泛在网络文本的地理命名实体文本数据可能存在的错字问题。本发明基于地理命名实体语义模型的以地理命名实体文本纠错为目标任务的方法，在预训练模型的基础上进行了微调，具有较强的泛化能力；基于预训练深度学习的地理命名实体语义模型微调的方法能极大地提高模型在地理命名实体文本纠错任务中的表现，相较于传统方法，此方法在各项评价指标上有较好的表现。

Description

一种基于预训练深度学习的地理命名实体纠错方法

技术领域

本发明涉及地理命名实体纠错技术领域，具体涉及一种基于预训练深度学习的地理命名实体纠错方法。

背景技术

现有的地理命名实体纠错相关方法主要以下几种：基于规则的地理命名实体文本纠错方法，该方法需要语言专家以及对研究区域非常熟悉的城市规划专家总结出常见的地理命名实体文本错误规则，来判断地理命名实体文本是否发生了错误。然后根据总结好的规则，对地理命名实体文本的语法和语义规则进行分析和处理，从而对地理命名实体文本中的错误进行检测和纠正；基于统计学习的方法通过对大量文本数据的统计分析，建立概率模型来预测文本中可能存在的错误，并进行相应的修正。在地理命名实体文本纠错的场景下，统计学习方法可以使用大量的地理命名实体文本来统计相邻字的共现概率，并根据共现概率来标注错误的字符，然后根据同型字表或者同音字表进行文本校正；基于深度学习的地理命名实体文本纠错方法，主要分为基于循环神经网络和基于自注意力机制两类，其中循环神经网络是经典的可用于文本纠错任务的序列模型。把这类序列模型应用于地理命名实体文本纠错任务的核心思想是把该纠错任务转换成序列到序列(seq2seq)任务，在该类方法中，一个循环神经网络被用作编码器，另一个循环神经网络被用作解码器。

基于规则的地理命名实体文本纠错方法对于复杂的地理命名实体文本错误或上下文环境处理能力不足，可能会漏掉一些错误甚至出现误纠错的情况。此外，这类方法过分依赖规则和相关领域的专家，当从一个研究区域转移到另一个研究区域时，其效果就会明显下降，甚至是完全无法使用。且更换研究区域后，需要针对性地重新总结规则，因此人力成本和时间成本都较高。

基于统计学习的方法中的N-gram模型在实际的应用场景中，公式难以实现，需要采用马尔可夫链进行计算，导致过程繁琐。

基于循环神经网络的地理命名实体文本纠错方法只能利用有限的上下文信息，且模型结构是单向的，只能从前往后或从后往前处理输入序列，难以充分利用输入序列中的双向信息。

发明内容

中文语言有着复杂的结构和词汇，例如语法成分之间的语序关系、多音字、繁体字、简化字等，而英语语法结构则相对简单，因此，中文地理命名实体文本纠错需要处理更多的语言形式，本发明的目的是提供一种基于预训练深度学习的地理命名实体纠错方法，相较于传统方法，本发明以BERT预训练语言模型为代表的基于自注意力机制的地理命名实体文本纠错方法为参考，设计了基于地理命名实体语义模型的以地理命名实体文本纠错为目标任务的方法，主要解决的是来自泛在网络文本的地理命名实体文本数据可能存在的错字问题。

本发明采用以下的技术方案：

一种基于预训练深度学习的地理命名实体纠错方法，包括以下步骤：

一、构建地理命名实体语义特征模型

1、输入文本序列中每个字符对应的词嵌入及位置权重：

(1)获取字典-向量转换矩阵(Lookup Table)C；

(2)获得字符在字典中的序号index；

(3)根据index得到字符的独热向量one_hot，独热向量的长度是字典的大小：

(4)将独热向量与字典-向量转换矩阵相乘，得到字符的词嵌入：

E_word＝C×one_hot

(5)获得字符在文本序列中的位置position；

(6)计算字符的位置权重信息：

(7)最后将字符的词嵌入和位置权重相加，得到模型输入的字符表示向量：

E＝E_word+PW

上述技术方案中，以神经网络语言模型的通用结构作为设计依据，并结合地理命名实体文本数据的特性，开展地理命名实体语义模型构建工作。其中，模型的输入部分，除了要输入文本序列中每个字符对应的词嵌入，再加入位置顺序的权重。

2、把包括多头注意力机制的实现在内的部分整合成为一个模块，并层层叠加这个模块以构建具有足够深度的模型架构来进行地理命名实体的语义提取工作；

3、利用残差网络在每个多头自注意力层输出后叠加上一层的信息，对模型叠加的每一层的输出进行层归一化(Layer Normalization，LN)；

4、增加全连接前馈神经网络以及把Leaky ReLU作为作为激活函数；

将地理命名实体语义模型中的每个多头自注意力模块定义为GeographicalNamed Entity Transformer Module。

为了使模型能更充分地学习到地理命名实体文本中的语义特征，将包括多头注意力机制的实现在内的部分整合成为一个模块，并层层叠加这个模块以构建具有足够深度的模型架构来进行地理命名实体的语义提取工作。

本申请采用的这种层层叠加模块所构建的深度神经网络具有强大的学习能力，且可以适应大数据量和高维数据的场景。然而，在实际应用中，这种网络设计容易带来两类常见的问题：梯度消失和网络退化。其中梯度消失是指模型在方向传播的过程中，梯度的值非常小，以至于对于较深的层，更新量几乎为零。这导致了较深的层无法得到足够的更新，导致模型不能很好地学习输入数据。而网络退化是指随着模型层数的增加，深度神经网络模型在验证集上的准确率下降的现象。

综上所述，本申请通过叠加多头自注意力模块的数量，深入挖掘地理命名实体文本的语义信息。为了得到更好的效果，引入了残差连接、层归一化和全连接前馈神经网络的设计，使得地理命名实体语义模型能更好地提取语义特征。该模型结构参照了谷歌研究团队提出的Transformer结构，同时为了适应地理命名实体语料库及相应的预训练任务，舍弃了Transformer中的解码器，并重新设计了文本序列的输入方式(在下节中会有详细介绍)，本节将地理命名实体语义模型中的每个多头自注意力模块定义为Geographical NamedEntity Transformer Module。

作为优选地，所述残差网络由若干个残差单元组成，在包含多头自注意力的模块中，以第l层的多头注意力层的输出为例，单个残差单元表示为：

self-attentionl＝self-attention^l-1+F(self-attention^l-1)

其中，self-attention^l和self-attention^l-1分别表示第l层和第l-1层的输出，F表示多头自注意力的处理函数。

作为优选地，所述层归一化是对一个网络层的所有神经元进行归一化，使每一层的输入保持稳定的分布。

上述技术方案中，在本方法中的残差网络就是在每个多头自注意力层输出后叠加上一层的信息，融合了自注意力语义与文本表征信息，引入残差网络解决梯度消失问题，对模块的每一层的输出进行了层归一化缓解梯度消失的影响，同时可以让训练过程变得更加稳定且帮助模型更快地收敛。层归一化是对一个网络层的所有神经元进行归一化，使每一层的输入保持稳定的分布，它有助于缓解梯度消失的影响，同时可以让训练过程变得更加稳定且帮助模型更快地收敛。

作为优选地，所述Leaky ReLU是ReLU的一个变体，ReLU激活函数的全称为修正线性单元(Rectified Linear Unit，ReLU)，它是深度学习神经网络中常用的激活函数，在数学上的定义为：

g(x)＝max(0,x)

Leaky ReLU的数学表达式如下所示：

在该式中，本方法把a的取值设置为0.01。

上述技术方案中，由于多头注意力层本质上仍然是一个线性模块，为了对自注意力层的输出结果进行维度变换同时增加非线性，本方法在自注意力层的输出后增加了全连接前馈神经网络以及把Leaky ReLU作为作为激活函数。Leaky ReLU是ReLU的一个变体，ReLU激活函数的全称为修正线性单元(Rectified Linear Unit，ReLU)，它是深度学习神经网络中常用的激活函数。在数学上的定义为：

g(x)＝max(0,x)

ReLU通过为正输入提供一个大的、恒定的梯度来缓解深度神经网络中可能出现的梯度消失问题。然而，当输入值为负时，ReLU的输出始终为0，其一阶导数也始终为0，这会导致神经元不再更新参数，也就是说会出现“死亡神经元”(Dead Neuron)的问题。Leaky ReLU通过允许负输入有一个小的非零梯度的方法，来防止出现“死亡神经元”并提高神经网络的学习能力。

二、对构建的地理命名实体语义特征模型进行优化

1、使用分词工具对地理命名实体语料库中的地理命名实体文本进行分词；

作为优选地，所述分词使用“结巴”中文分词库的精确模式进行分词，并在分词过程中加载所要纠错的地理命名的多个地名词典作为自定义词典，让“结巴”分词库根据自定义词典中的地名信息分割地理命名实体要素，避免原始的“结巴”分词库对地理命名实体进行过度的切割。

上述技术方案中，考虑到上述模型输入地理命名实体文本序列时，是把文本序列拆分成单个的字符，没有考虑地理命名实体文本序列中地理命名实体要素之间的关系，因此设计了一种顾及地理命名实体层级边界信息的字符编码策略，该策略没有将词作为基本的输入单元，而是继续使用字符级的向量化表达，并通过在地理命名实体层级之间插入特殊的标记[B]来注入层级信息。这个特殊的标记会提示模型它的前一个字符是一个地理命名实体层级的结尾，而后一个字符是另一个地理命名实体层级的开头。

作为优选地，在分词后，在地理命名实体要素之间插入特殊的标记符号作为分隔符，这些标记符号在模型中被视为普通的字符，同样作为Geographical Named EntityTransformerModule中输入的一部分。

2、混淆词校正目标：

由于输入的地理命名实体存在同音词、同义词等情况，需要设计一个混淆词校正的模块，使得模型能够正确识别输入的地理命名实体并自动校正输出。

(1)假设条件：地理命名实体文本序列中某个地理命名实体要素被混淆词替换了，而其它上下文可知，即：

W＝{w₁,w₂,...,w_i-1,w_i(confused),w_i+1,...,w_n} (1)

(2)目标任务：通过已知的上下文，预测被混淆词替换的词的出现概率，可表示为如下条件概率表达式：

P(x_i|x₁,x₂,...x_i-1,x_i+1,...,x_n) (2)

在式2中，为简化表达，被混淆词替换的词被表达为x_i，实际上它由多个字符组成，而x₁,x₂,...x_i-1,x_i+1,...,x_n表达的是上下文中的字符；

(3)将文本内容输入到多层叠加的Geographical Named Entity TransformerModule中，得到该词的上下文语义特征信息：

SA＝{sa₁,sa₂,...,sa_i-1,sa_i,sa_i+1,...sa_n} (3)

(4)由多头注意力机制可知，sa_i表达的是全文对该词的影响，因此条件概率可近似表达为：

P(x_i|x₁,x₂,...x_i-1,x_i+1,...,x_n)≈P(x_i|sa_i) (4)

3、基于已知上下文校正混淆词的目标任务模块的神经网络结构设计：

(1)为了将基于多头自注意力的语义特征提取模块中的输出转化为每个字符经过上下文影响后的“校正词嵌入”信息，并在后续步骤中根据Lookup Table计算待预测词中的各个字符概率做准备，将语义特征提取模块中的输出作为全连接神经网络层的输入，并使用LeakyReLU激活函数实现非线性变换：

prob_embedding＝σ(W×SA+b) (5)

在式(5)中，SA表示语义特征提取模块的输出，σ表示Leaky ReLU激活函数，W和b表示全连接神经网络的权重。

(2)建立全连接层，将“校正词嵌入”进行线性变换，以得到概率分布得分：

logits＝C^T×prob_embedding+b (6)

在式6中，C表示Lookup Table。

(3)最后通过将上述结果输入到softmax函数中，得出待预测词中的各个字符作为词典中的各个字的条件概率分布：

prob＝softmax(logits) (7)

4、掩码策略的选取：

(1)动态掩码策略：把训练数据集复制N份，从每个输入的文本序列在训练过程中以N种不同的方式被掩码，在整个训练过程中，对于每个输入的文本序列，相同的掩码次数为：

epoch/N (8)

其中，epoch为训练的轮数。

(2)全词掩码：如果要用屏蔽的字符属于一个完整的地理命名实体要素，则整个地理命名实体要素都会被屏蔽。

(3)基于混淆词替换的掩码策略：采用混淆词来替换[MASK]标记。

预训练中混淆词使用近义词和同音词作为混淆词，使用一个基于word2vec做相似度计算的中文近义词生成工具库synonyms，使用一个数据增强工具包JioNLP来生成同音词。

上述技术方案中，为了使模型能够完成基于已知上下文校正混淆词这一目标，借鉴了经典的BERT预训练语言模型中掩码语言模型任务的核心思想，针对地理命名实体文本数据的特性，设计了基于混淆词替换的全词动态掩码策略。BERT中使用的随机掩码策略主要参照了完形填空的思想，即以一定的概率随机屏蔽句子中某些字符，并以[MASK]标记替代，这些特殊的标记可以视为完形填空中的“空格”。BERT的随机掩码策略在地理命名实体文本数据的场景中有其局限性，因此本方法设计了动态掩码、全词掩码和基于混淆词替换的掩码策略。

作为优选地，选择屏蔽输入文本中15％的词；在这15％的屏蔽词中，40％的词选择用近义词替换，40％的词用同音词替换，10％的词用随机词替换，剩下最后10％的词保持不变。

综上所述，这一部分构建了基于已知上下文校正混淆词的目标任务模块，该模块紧接在语义特征提取模块之后。具体来说，给定某个词，本方法取它Geographical NamedEntity Transformer Module叠加后的输出的语义表征并进行混淆词校正。

也就是说，经过基于多头自注意力机制的语义特征提取模块的设计和混淆词校正目标任务模块的设计，二者共同构成了一个地理命名实体语义模型。对其进行验证和预训练后即可用于后面的地理命名实体文本纠错的基础。

三、对构建的地理命名实体语义特征模型进行验证和预训练

四、对构建的地理命名实体语义特征模型的基础上进行基于预训练深度学习的地理命名实体文本纠错：

1、定义“编码器”-“解码器”的模型结构构建地理命名实体文本纠错模型；

2、构建地理命名实体文本纠错数据集；

3、使用检错指标、纠错指标以及序列级指标来评价地理命名实体文本纠错模型的有效性；

即完成基于预训练深度学习的理命名实体纠错方法。

上述技术方案中，基于地理命名实体语义模型是以地理命名实体文本纠错为目标任务的方法。由于对象是地理命名实体文本，而非更接近通用自然语言的泛在网络文本数据，因此直接在地理命名实体语义模型预训练后的实例基础上，构建能够以较高的精度完成地理命名实体文本纠错的任务模型。

作为优选地，定义“编码器”-“解码器”的模型结构构建地理命名实体文本纠错模型包括以下步骤：

把地理命名实体语义特征模型在预训练阶段学习到的地理命名实体文本的语义信息作为地理命名实体文本纠错任务的基础网络结构，即作为地理命名实体文本纠错任务的“编码器”；

针对地理命名实体文本纠错任务，将其划分为两个部分，即错误检测子任务和错误纠正子任务，其中错误检测子任务在训练时可视为一种二分类任务，需要针对性地添加一个二元分类器；而错误纠正子任务可视为一种掩码语言模型任务，即直接把编码器的输出作为该子任务的输出结果，其与地理命名实体语义特征模型在预训练阶段的目标任务相似，但它在模型的微调阶段实现；把上述两个部分作为地理命名实体文本纠错任务的“解码器”；

最终构建出地理命名实体文本纠错模型(Geographic Named Entity Text ErrorCorrection Model，GNETECM)。

作为优选地，构建地理命名实体文本纠错数据集，包括以下构建过程：

(1)文本纠错数据集包含有错误的文本及其对应的正确文本，根据地理命名实体识别模型提取出的地理命名实体文本，人工标注少量的纠错数据；然后使用数据增强方法，基于地理命名实体语料库和从社交媒体数据中提取出的地理命名实体文本来扩充数据集；

(2)在构建地理命名实体文本纠错数据集时参考Wang271K中文纠错数据集中的数据结构，构建出带标签的地理命名实体文本纠错数据集。

作为优选地，使用检错指标、纠错指标以及序列级指标来评价地理命名实体文本纠错模型的有效性，包括以下步骤：

采用由人工标注以及数据增强方法获取的地理命名实体文本纠错数据作为数据集，基于地理命名实体语义模型实例进行微调，开展地理命名实体文本纠错的实验；

在训练集、验证集和测试集的比例方面，随机选取85％的数据作为训练集，10％的数据作为验证集，剩下5％的数据作为测试集；

将所提出模型在测试集上的表现与传统的几种文本纠错模型进行对比。对比的方法包括RNN、BERT、ERNIE以及ELECTRA。其中基于BERT、ERNIE以及ELECTRA的方法采用与本方法类似的模型架构，仅用相应的模型替换本方法中的编码器。

使用检错指标、纠错指标以及序列级指标来评价地理命名实体文本纠错模型的有效性。

经验证本方法采用的预训练-微调模式的深度学习架构可以极大地提高地理命名实体文本纠错任务的准确率和有效性；在检错、纠错以及序列级的大部分指标上都具有明显的优势。

本发明具有的有益效果是：

基于数据增强的思想，使用词汇替换的方法来扩充地理命名实体文本纠错数据集。根据地理命名实体识别模型提取出的地理命名实体文本，人工标注少量的纠错数据。然后使用数据增强方法，基于地理命名实体语料库和从社交媒体数据中提取出的地理命名实体文本来扩充数据集。数据集构建完毕后，构建地理命名实体文本纠错模型进行纠错任务。

基于地理命名实体语义模型的以地理命名实体文本纠错为目标任务的方法，在预训练模型的基础上进行了微调，具有较强的泛化能力。

基于预训练深度学习的地理命名实体语义模型微调的方法能极大地提高模型在地理命名实体文本纠错任务中的表现，相较于传统方法，此方法在各项评价指标上有较好的表现。

附图说明

图1为基于多头自注意力机制的语义特征提取模块的神经网络结构图；

图2为混淆词校正目标任务模块的神经网络结构示例图；

图3为地理命名实体语义模型整体结构图；

图4为地理命名实体文本纠错模型的完整网络结构图；

图5为地理命名实体文本纠错模型(GNETECM)与其它基于检错-纠错模块的方法的序列级F1值和准确率指标对比图。

具体实施方式

下面结合附图对本发明进行具体的说明：

一、构建地理命名实体语义特征模型

1、输入文本序列中每个字符对应的词嵌入及位置权重：

(1)获取字典-向量转换矩阵(Lookup Table)C；

(2)获得字符在字典中的序号index；

E_word＝C×one_hot

(5)获得字符在文本序列中的位置position；

(6)计算字符的位置权重信息：

E＝E_word+PW

模型的内部结构设计如图1所示。

作为其中的一个实施例，优选地，所述残差网络由若干个残差单元组成，在包含多头自注意力的模块中，以第l层的多头注意力层的输出为例，单个残差单元表示为：

self-attention^l＝self-attention^l-1+F(self-attention^l-1)

作为其中的一个实施例，优选地，所述层归一化是对一个网络层的所有神经元进行归一化，使每一层的输入保持稳定的分布。

作为其中的一个实施例，优选地，所述Leaky ReLU是ReLU的一个变体，ReLU激活函数的全称为修正线性单元(Rectified Linear Unit，ReLU)，它是深度学习神经网络中常用的激活函数，在数学上的定义为：

g(x)＝max(0,x)

Leaky ReLU的数学表达式如下所示：

在该式中，本方法把a的取值设置为0.01。

g(x)＝max(0,x)

二、对构建的地理命名实体语义特征模型进行优化

作为其中的一个实施例，优选地，所述分词使用“结巴”中文分词库的精确模式进行分词，并在分词过程中加载所要纠错的地理命名的多个地名词典作为自定义词典，让“结巴”分词库根据自定义词典中的地名信息分割地理命名实体要素，避免原始的“结巴”分词库对地理命名实体进行过度的切割。

可以以山东省济南市为例，分词后的地理命名实体文本示例如表1所示。

表1分词后的地理命名实体文本示例

作为其中的一个实施例，优选地，在分词后，在地理命名实体要素之间插入特殊的标记符号作为分隔符，这些标记符号在模型中被视为普通的字符，同样作为GeographicalNamedEntity Transformer Module中输入的一部分。

2、混淆词校正目标：

W＝{w₁,w₂,...,w_i-1,w_i(confused),w_i+1,...,w_n} (1)

P(x_i|x₁,x₂,...x_i-1,x_i+1,...,x_n) (2)

SA＝{sa₁,sa₂,...,sa_i-1,sa_i,sa_i+1,…sa_n} (3)

P(x_i|x₁,x₂,...x_i-1,x_i+1,...,x_n)≈P(x_i|sa_i) (4)

prob_embedding＝σ(W×SA+b) (5)

logits＝C^T×prob_embedding+b (6)

在式6中，C表示Lookup Table。

prob＝softmax(logits) (7)

4、掩码策略的选取：

epoch/N (8)

其中，epoch为训练的轮数。

作为其中的一个实施例，优选地，选择屏蔽输入文本中15％的词；在这15％的屏蔽词中，40％的词选择用近义词替换，40％的词用同音词替换，10％的词用随机词替换，剩下最后10％的词保持不变。

最终地理命名实体语义模型的混淆词校正目标任务模块的神经网络结构如图2所示。

也就是说，经过基于多头自注意力机制的语义特征提取模块的设计和混淆词校正目标任务模块的设计，二者共同构成了一个地理命名实体语义模型，如图3所示。对其进行验证和预训练后即可用于后面的地理命名实体文本纠错的基础。

三、对构建的地理命名实体语义特征模型进行验证和预训练

上述技术方案中，采用经过数据清洗预处理后的位于山东省济南市的2022年共计3530611条地理命名实体文本数据作为地理命名实体语料库实验对象构建地理命名实体语义模型实例。

在实验设计方面，首先考虑了是否使用顾及地理命名实体层级边界的字符编码策略、是否使用基于混淆词替换的全词动态掩码策略这两个影响因素，并针对这些影响因素进行消融实验。此外，现有的关于地名地址语义模型的本方法分析了语义特征提取模块数量以及使用特殊的符号替换文本中的阿拉伯数字对模型性能的影响，并认为这两个超参数在与地理文本相关的预训练模型构建中非常重要。地理命名实体文本数据相较于地名地址数据包含的数据范围更广，为了验证前人本方法中使用的策略在本本方法中是否有效，本方法对语义特征提取模块(Geographical Named Entity Transformer Module)的数量以及是否替换地理命名实体文本中的阿拉伯数字这两个超参数通过实验进行验证。对于其它超参数，本方法参照现有的关于预训练语言模型本方法中的实验设计以及自身经过多次实验，最终确定了这些超参数的最优值。

此外，这一步的目的是验证本方法所设计的地理命名实体语义模型的有效性，由于不需要对模型进行测试或者预测，因此在预训练该模型时，只需要使用训练集和验证集。同时，为了让更多的地理命名实体文本数据参与训练以对模型的参数产生影响，从而让模型尽可能全面地理解地理命名实体文本语义，因此训练集和验证集的数量比例分别设置为大约99％(3495304条)和1％(35307)。

为了充分利用预训练语言模型在通用语料库中学到的语义知识，采用基于BERT模型的架构，并利用基于中文语料库的BERT实例，在此基础上再进行增量预训练，从而大幅度减少模型预训练所需的时间和计算成本，并让模型在拥有通用语义表征能力的基础上能更好地适应地理学领域的特定任务。

经过以上实验后，结果验证了基础的地理命名实体语义模型的可行性和准确性。

2、构建地理命名实体文本纠错数据集；

3、使用检错指标、纠错指标以及序列级指标来评价地理命名实体文本纠错模型的有效性。

即完成基于预训练深度学习的理命名实体纠错方法。

定义“编码器”-“解码器”的模型结构。把地理命名实体语义模型在预训练阶段学习到了地理命名实体文本的语义信息作为地理命名实体文本纠错任务的基础网络结构，即作为该任务的“编码器”。而针对地理命名实体文本纠错任务，将其划分为两个部分，即错误检测子任务和错误纠正子任务。其中错误检测子任务在训练时可视为一种二分类任务，需要针对性地添加一个二元分类器。而错误纠正子任务可视为一种掩码语言模型任务，即直接把编码器的输出作为该子任务的输出结果，其与地理命名实体语义模型在预训练阶段的目标任务相似，但它在模型的微调阶段实现。把上述两个部分作为地理命名实体文本纠错任务的“解码器”。

最终设计出的地理命名实体文本纠错模型(Geographic Named Entity TextError Correction Model，GNETECM)的网络结构如图4所示。

构建完地理命名实体文本纠错模型后，下一步是构建地理命名实体文本纠错数据集。构建过程如下：

(1)文本纠错数据集通常包含有错误的文本及其对应的正确文本。在本方法中，首先根据地理命名实体识别模型提取出的地理命名实体文本，人工标注少量的纠错数据。然后使用数据增强方法，基于地理命名实体语料库和从社交媒体数据中提取出的地理命名实体文本来扩充数据集。

(2)在构建地理命名实体文本纠错数据集时参考了Wang271K中文纠错数据集中的数据结构。Wang271K是一个通过自动生成包含拼写错误的句子构建的纠错语料库，且标记出错误的位置和相应的纠正结果，而无需任何的人为干预。参照该做法，构建出带标签的地理命名实体文本纠错数据集，如表2所示。

表2带标签的地理命名实体文本纠错数据集数据结构

确定完数据集和模型的构建后，进行实际的实验验证提出的纠错方法。

采用779924条由人工标注以及数据增强方法获取的地理命名实体文本纠错数据作为数据集，基于地理命名实体语义模型实例进行微调，开展地理命名实体文本纠错的实验。

在训练集、验证集和测试集的比例方面，随机选取85％的数据作为训练集，10％的数据作为验证集，剩下5％的数据作为测试集。

为了评价所提出的地理命名实体文本纠错模型的精度，将所提出模型在测试集上的表现与传统的几种文本纠错模型进行了对比。对比的方法包括RNN、BERT、ERNIE以及ELECTRA。其中基于BERT、ERNIE以及ELECTRA的方法采用与本方法类似的模型架构，仅用相应的模型替换本方法中的编码器。

经过实验得出结果的结果，其中F1值和准确率结果如图5所示。证明了本方法采用的预训练-微调模式的深度学习架构可以极大地提高地理命名实体文本纠错任务的准确率和有效性；在检错、纠错以及序列级的大部分指标上都具有明显的优势。

当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.一种基于预训练深度学习的地理命名实体纠错方法，其特征在于，包括以下步骤：

一、构建地理命名实体语义特征模型

1、输入文本序列中每个字符对应的词嵌入及位置权重：

(1)获取字典-向量转换矩阵(Lookup Table)C；

(2)获得字符在字典中的序号index；

E_word＝C×one_hot

(5)获得字符在文本序列中的位置position；

(6)计算字符的位置权重信息：

E＝E_word+PW

3、利用残差网络在每个多头自注意力层输出后叠加上一层的信息，对模型叠加的每一层的输出进行层归一化；

将地理命名实体语义模型中的每个多头自注意力模块定义为Geographical NamedEntity Transformer Module。

二、对构建的地理命名实体语义特征模型进行优化

2、混淆词校正目标：

W＝{w₁，w₂，...，w_i-1，w_i(confused)，w_i+1，...，w_n) (1)

P(x_i|x₁，x₂，...x_i-1，x_i+1，...，x_n) (2)

在式2中，为简化表达，被混淆词替换的词被表达为x_i，实际上它由多个字符组成，而x₁，x₂，...x_i-1，x_i+1，...，x_n表达的是上下文中的字符；

(3)将文本内容输入到多层叠加的Geographical Named Entity Transformer Module中，得到该词的上下文语义特征信息：

SA＝{sa₁，sa₂，...，sa_i-1，sa_i，sa_i+1，...sa_n} (3)

Px_i|x₁，x₂，...x_i-1，x_i+1，...，x_a)≈P(x_i|sa_i) (4)

(1)为了将基于多头自注意力的语义特征提取模块中的输出转化为每个字符经过上下文影响后的校正词嵌入信息，并在后续步骤中根据Lookup Table计算待预测词中的各个字符概率做准备，将语义特征提取模块中的输出作为全连接神经网络层的输入，并使用LeakyReLU激活函数实现非线性变换：

prob_embedding＝σ(W×SA+b) (5)

(2)建立全连接层，将校正词嵌入进行线性变换，以得到概率分布得分：

logits＝C^T×prob_embedding+b (6)

在式6中，C表示Lookup Table。

prob＝softmax(logits) (7)

4、掩码策略的选取：

epoch/N (8)

其中，epoch为训练的轮数。

三、对构建的地理命名实体语义特征模型进行验证和预训练

2、构建地理命名实体文本纠错数据集；

即完成基于预训练深度学习的理命名实体纠错方法。

2.根据权利要求1所述的一种基于预训练深度学习的地理命名实体纠错方法，其特征在于，所述残差网络由若干个残差单元组成，在包含多头自注意力的模块中，以第l层的多头注意力层的输出为例，单个残差单元表示为：

self-attention^l＝self-attention^l-1+F(self-attention^l-1)

3.根据权利要求1所述的一种基于预训练深度学习的地理命名实体纠错方法，其特征在于，所述层归一化是对一个网络层的所有神经元进行归一化，使每一层的输入保持稳定的分布。

4.根据权利要求1所述的一种基于预训练深度学习的地理命名实体纠错方法，其特征在于，所述Leaky ReLU是ReLU的一个变体，ReLU激活函数的全称为修正线性单元，它是深度学习神经网络中常用的激活函数，在数学上的定义为：

g(x)＝max(0,x)

Leaky ReLU的数学表达式如下所示：

在该式中，本方法把a的取值设置为0.01。

5.根据权利要求1所述的一种基于预训练深度学习的地理命名实体纠错方法，其特征在于，所述分词使用结巴中文分词库的精确模式进行分词，并在分词过程中加载所要纠错的地理命名的多个地名词典作为自定义词典，让结巴分词库根据自定义词典中的地名信息分割地理命名实体要素，避免原始的结巴分词库对地理命名实体进行过度的切割。

6.根据权利要求5所述的一种基于预训练深度学习的地理命名实体纠错方法，其特征在于，在分词后，在地理命名实体要素之间插入特殊的标记符号作为分隔符，这些标记符号在模型中被视为普通的字符，同样作为Geographical Named Entity Transformer Module中输入的一部分。

7.根据权利要求1所述的一种基于预训练深度学习的地理命名实体纠错方法，其特征在于，选择屏蔽输入文本中15％的词；在这15％的屏蔽词中，40％的词选择用近义词替换，40％的词用同音词替换，10％的词用随机词替换，剩下最后10％的词保持不变。

8.根据权利要求1所述的一种基于预训练深度学习的地理命名实体纠错方法，其特征在于，定义“编码器”-“解码器”的模型结构构建地理命名实体文本纠错模型包括以下步骤：

最终构建出地理命名实体文本纠错模型。

9.根据权利要求1所述的一种基于预训练深度学习的地理命名实体纠错方法，其特征在于，构建地理命名实体文本纠错数据集，包括以下构建过程：

10.根据权利要求1所述的一种基于预训练深度学习的地理命名实体纠错方法，其特征在于，使用检错指标、纠错指标以及序列级指标来评价地理命名实体文本纠错模型的有效性，包括以下步骤：

将所提出模型在测试集上的表现与传统的几种文本纠错模型进行对比；对比的方法包括RNN、BERT、ERNIE以及ELECTRA；