CN114298228A

CN114298228A - 一种基于数据预处理的地址文本信息相关性学习方法

Info

Publication number: CN114298228A
Application number: CN202111650136.3A
Authority: CN
Inventors: 何中杰; 施渊烈; 王越胜
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-04-08

Abstract

本发明公开了一种地址文本信息相关性的训练学习方法。针对模型预训练知识缺少针对性、地址文本本身的不规范问题以及训练集存在样本数量不平衡情况，首先对预训练集中地址进行遮掩预处理，然后用预处理后的预训练集对初始化后的模型进行预训练，接着对训练集中地址关系对的两条地址进行修正和补齐，并利用特殊的训练集划分策略将整个训练集划分为多个子训练集，再利用预训练后的模型对各个子训练集进行集成训练和预测，最后对集成模型的泛化能力进行测试。

Description

一种基于数据预处理的地址文本信息相关性学习方法

技术领域

本发明涉及深度学习技术领域，尤其涉及一种基于数据预处理的地址文本信息相关性学习方法。

背景技术

随着互联网和物联网技术的迅猛发展，地址文本信息相关性任务在现实世界中存在着广泛的应用场景，如：基于地理信息搜索的地理位置服务、对于突发事件位置信息的快速搜索定位、不同地址位置信息系统的对齐等等。地址文本信息相关性的判断方法目前主要为有监督的学习方法，可以分为以下两种类型：一是将需要判断的地址对通过特殊隔断字符合并后输入模型直接得出分类结果；二是将地址对中的两个地址分别输入模型，并根据输出向量的余弦相似度得出结果。

现有方法的不足在于：首先，大多模型都是基于通用领域知识进行预训练，造成模型所学知识缺少地址文本领域的针对性；另外，地址文本中常常会出现缺少要素或存在不规范的问题，以至于降低了地址文本的易理解性以及地址关系对之间的对比关联性；此外，训练数据标注工作不仅非常耗时耗力，而且标注后的训练集可能存在不同程度的样本数量不平衡情况，这些不平衡情况将会随模型拟合能力差异而在模型中不同程度地传播放大，导致模型的泛化能力大幅下降，最终表现为在针对不同数据集时，完成地址文本信息相关性任务的精度差异较大或整体精度不高。

发明内容

针对现有技术的不足，本发明提出了一种基于数据预处理的地址文本信息相关性学习方法，首先对预训练集中的地址进行遮掩预处理，然后用预处理后的预训练集对初始化后的模型进行预训练，以此增强模型所学知识的针对性；接着对训练集中地址关系对的两条地址进行修正和补齐，并利用特定的训练集划分策略将整个训练集划分为多个子训练集，再利用预训练后的模型对各个子训练集进行集成训练和预测，以此解决地址文本本身的不规范以及训练集样本数量不平衡问题，最后对集成模型的泛化能力进行测试。

一种基于数据预处理的地址文本信息相关性学习方法，具体包括以下步骤：

步骤一、预训练数据遮掩

收集多个包含完整地址信息的单个地址，然后对这些单个地址进行随机遮掩处理，得到预训练集。

所述随机遮掩预处理的方法为：先利用随机算法判断是否对该地址进行遮掩，若进行遮掩，则通过随机算法决定对随机的字进行遮掩或对表征位置信息的特殊词组进行遮掩；再通过随机算法决定被遮掩的具体内容，最后将被选择遮掩的内容用特殊字符[mask]代替。

步骤二、模型预训练

模型预训练是利用自监督学习，让模型通过相关知识的大数据量训练，提前学习句子中词语间的语义关系，以减少具体任务训练时对理解相关上下文关系的数据量和学习时间。模型预训练具体包括以下步骤：

s2.1、对模型进行随机初始化，在词嵌入层中，基于经过步骤一随机遮掩后的新预训练集，获取预训练集中每个地址的预训练语句矩阵向量；

s2.2、在编码器模块中对s2.1得到的预训练语句矩阵向量依次经过多头注意力运算和线性运算后，分别进行残差连接以及归一化运算，输出预训练编码器特征信息。

通过注意力运算可以获得语句矩阵向量中某个词向量对其他词向量的关注程度，进一步采用多头(Multi-Head)注意力的机制，在对输入进行维度压缩后，利用多个不同的注意力运算可以增加模型的泛化能力，所述多头注意力运算为：

MultiHead＝Concat(Head₁,…,Head_l)W^O

Head_i＝Attention(HW_i ^Q,HwiK_i ^K,Hw_i ^V)

其中，MultiHead表示多头注意力运算的输出；Head_i表示第i个注意力运算的输出；l表示注意力运算头数；Concat表示对多个注意力运算的输出进行堆叠操作；W^O表示可学习的参数矩阵；H表示上一个编码器模块输出的预训练编码器特征信息或预训练语句矩阵向量；W_i ^Q,W_i ^K,W_i ^V表示第i个注意力运算的可学习参数矩阵；其中，注意力运算Attention()为：

其中，Q、K、V表示三个不同的输入；d表示输入的词向量特征表示数；S表示Softmax分数运算的输入矩阵；s_m表示输入矩阵的第m个词向量，n表示最大文本长度。

归一化运算对输入的特征信息运用期望μ与标准差σ进行整合，能够缓解模型的过拟合以及梯度爆炸和消失问题：

其中，LN表示经过归一化运算后的输出；Z表示输入；z_j表示输入矩阵的第j个词向量；h表示Z的词向量特征表示数；G和B表示可学习的参数矩阵。

线性运算则对特征信息进行再整理、再提取：

Linner＝wX+b

其中，Linner表示经过线性运算后的输出；X表示输入；w和b表示可学习的参数矩阵。

s2.3、重复多次，获得最优预训练编码器特征信息。然后在分类线性层根据最优预训练编码器特征信息，获取词库中的每个词与预训练集中被遮掩的内容相同的条件概率；基于该条件概率计算交叉熵损失，并不断地更新模型，最终完成模型的预训练。

步骤三、训练数据修正和补齐

收集用于地址文本信息相关性任务的地址关系对数据，利用ac自动机算法对这些地址关系对数据中所有地址关系对的两条地址分别进行二次匹配，首先获取地址中标识省、市、区的关键信息，再对错误或残缺的地址信息进行修正和补齐，补齐后的地址信息可选项只有一个。

其中，ac自动机算法具体步骤包括：根据收集的地址关系对数据中的每一条地址都拆分为独立的字，构建字典树，然后从字典树的根节点(root)开始，根据字是否连续存在而决定是否插入新的节点；然后使用深度优先算法构建节点间的fail指针，fail指针位于下一个字符匹配失败时需要转向的结点处，fail指针所指向的字符为已匹配的字符串后缀与指向字符串前缀最长的相同字符末尾所在的节点处；之后根据构建的字典树，对待匹配的地址不断进行匹配操作，直至匹配所有字符或停留在根节点无法继续匹配。

步骤四、子训练集划分

基于步骤三中经过修正和补齐后的地址文本信息相关性任务训练集，对训练集中各个地址关系对的标签进行筛选后，进行特定的交叉分组策略。假设训练集为E由标签不同的子集e₀,e₁,e₂组成，提取其中的低数据量类别的子集e₀，并对剩余其他类别的子集组合E₁₂进行多折交叉分组形成多个新的子集，再重新加入低数据量的子集e₀，得到多个子训练集O_n：

其中，k表示集合E₁₂被拆分的折数；n表示集合E₁₂被拆分的第n折；num_k表示集合E₁₂的总数据量；num_k表示拆分后每一折占集合E₁₂总数据量的平均数，num_k＝num_total/k。

通过上述子训练集的划分，可以在保证训练数据充分的前提下，解决或缓解样本数量不平衡问题。

步骤五、模型集成训练

使用步骤二中预训练后的模型，在词嵌入层中获取各个训练地址关系对的训练语句矩阵向量；并通过多个编码器模块堆叠运算，获得最优训练编码器特征信息；对模型的分类线性层的参数和规模进行重新初始化，在分类线性层处理所述最优训练编码器特征信息后，获取所述各个训练地址关系对的相关性分类条件概率；基于条件概率，获得交叉熵损失，以此不断地更新模型，完成单个模型的训练。

重复上述过程，对每一组子训练集On都使用预训练后的模型进行重新训练，以此获得经过不同子训练集训练后的模型。

步骤六、集成模型测试

在完成地址文本信息相关性任务训练以后，需要测试所训练模型的泛化能力。首先，加载地址文本信息相关性任务数据库中的地址关系对测试集，并利用步骤五中经过不同子训练集训练后的模型分别获取测试集中各个地址关系对的关系分类概率；接着，对各个模型输出同一个测试地址关系对的关系分类概率进行加权平均，通过取概率最大的分类标签确定各个测试地址关系对的相关性；最后，对测试结果利用预定义的指标函数F₁值进行评估，F₁值越大，则表明模型在测试集上的泛化能力越强，以此判断模型是否需要重新预训练或继续训练：

其中，P表示精确率(Precision)，R表示召回率(Recall)，r_i表示被正确分类的第i类测试地址关系对的个数，t_i表示被分类为第i类测试地址关系对的个数，a_i表示被正确标签为第i类测试地址关系对的个数。

本发明具有以下有益效果：

1、使用单条的地址信息对模型进行预训练，让模型通过大量的地址信息数据提前学习到地址信息中的语义关系，减少具体的地址对相关性分析任务时理解相关上下文关系的数据量和学习时间。

2、利用ac自动机算法对错误或残缺的地址信息进行修正和补齐，以此解决地址文本本身的不规范问题，增加数据集中地址文本的易理解性以及地址关系对之间的对比关联性。

3、通过子训练集划分的方式，将数量多的类别数据统一进行交叉分组，然后加入数量少的类别数据组成新的子训练集用于模型训练，可以在保证训练数据充分的前提下，解决或缓解样本数量不平衡问题，进一步提高模型的泛化能力。

附图说明

图1为地址文本信息相关性的分析方法流程图；

图2为实施例中使用的模型结构示意图；

图3为实施例中建立的ac自动机树结构图。

具体实施方式

以下结合附图对本发明作进一步的解释说明；

如图1所示，一种基于数据预处理的地址文本信息相关性学习方法，具体包括以下步骤：

步骤一、预训练数据遮掩

收集全国统计用区划代码和城乡划分数据库中所有包含完整地址位置信息的单个地址，对其中的“浙江省杭州市钱塘区下沙街道”这个地址进行随机遮掩。

若对其进行随机字遮掩，则原地址将以较大概率对任意位置、不连续的词进行遮掩，遮掩后的地址信息为：“浙[mask]省[mask]州市钱塘区下沙[mask]道”。若对其进行表征位置信息的特殊词组遮掩，则遮掩的词将表示地址关键要素，如省、市、区等中随机选择，遮掩后的地址信息为：“浙江省[mask][mask]市钱塘区[mask][mask]街道”。

步骤二、计算被遮掩词的预测概率

步骤二、模型预训练

s2.1、对如图2所示的模型进行随机初始化，在词嵌入层中，基于经过步骤一随机遮掩后的新预训练集，获取预训练集中每个地址的预训练语句矩阵向量；

MultiHead＝Concat(Head₁,…,Head_l)W^O

Head_i＝Attention(HW_i ^Q,HW_i ^K,HW_i ^V)

线性运算则对特征信息进行再整理、再提取：

Linner＝wX+b

步骤三、训练数据修正和补齐

在加载地址文本信息相关性任务数据库中的地址关系对训练集后，利用ac自动机算法对这些地址关系对数据中所有地址关系对的两条地址分别进行二次匹配，首先获取地址中标识省、市、区的关键信息，再对错误或残缺的地址信息进行修正和补齐，补齐后的地址信息可选项只有一个。

如图3所示，“浙江”、“江苏”、“江西”被分割成单个字，并从root出发形成了由实线连接的节点树，图中由灰色填充的节点为结束节点。对于已经匹配的词组，当算法在某个节点匹配失败时，则通过fail指针跳向某个节点，由虚线表示。当“浙江”的下一个字不为“杭”时，算法会跳向“江苏”的“江”字，这是由于“江”是“浙江”的尾缀和“江苏”的前缀最长的相同项。另外，若待匹配项为“浙江钱塘区下沙街道文一路xx号”，ac自动机会先匹配出可能为地址的关键信息“浙江”、“钱塘区”，再对数据库中的所有可能地址进行搜索并输出“浙江省杭州市钱塘区”，若只存在一条可能地址，则用完整的地址替换原来残缺的地址。若存在多个可能地址，如“鼓楼区”可能输出“江苏省南京市鼓楼区”、“江苏省徐州市鼓楼区”、“河南省开封市鼓楼区”等多个结果，此时不对原来残缺的地址进行替换。

步骤四、子训练集划分

基于步骤三中经过修正和补齐后的地址文本信息相关性任务训练集E，对训练集中各个地址关系对的标签进行筛选后，按照标签分为子集e₀、e₁、e₂，e₀为低数据量的子集，因此提取e₀，对剩余的子集e₁、e₂组成的集合E₁₂进行多折交叉分组形成多个新的子集，再重新加入低数据量的子集e₀，得到多个子训练集O_n：

步骤五、模型集成训练

重复上述过程，对每一组子训练集O_n都使用预训练后的模型进行重新训练，以此获得经过不同子训练集训练后的模型。

步骤六、集成模型测试

Claims

1.一种基于数据预处理的地址文本信息相关性学习方法，其特征在于：该方法具体包括以下步骤：

步骤一、预训练数据处理

收集多个包含完整地址信息的单个地址，然后对这些单个地址进行随机遮掩处理，得到预训练集；

步骤二、模型预训练

s2.1、对模型进行随机初始化，将步骤一得到的预训练集输入模型的词嵌入层，获取预训练集中每个地址的预训练语句矩阵向量；

s2.2、在编码器模块中对s2.1得到的预训练语句矩阵向量依次进行多头注意力运算、归一化运算和线性运算，输出预训练编码器特征信息；重复多次，获得最优预训练编码器特征信息；

s2.3、在分类线性层根据最优预训练编码器特征信息，获取词库中的每个词与预训练集中被遮掩的内容相同的条件概率；基于该条件概率计算交叉熵损失，并不断地更新模型，最终完成模型的预训练；

步骤三、训练数据预处理

收集用于地址文本信息相关性任务的地址关系对数据，利用ac自动机算法对这些地址关系对数据中所有地址关系对的两条地址分别进行二次匹配，首先获取地址中标识省、市、区的关键信息，再对错误或残缺的地址信息进行修正和补齐，得到预处理后的训练集；

步骤四、划分子训练集

对步骤三修正、补齐后的训练集中的各个地址关系对的标签进行筛选，按照标签划分成多个子集，提取其中低数据量的子集，然后对剩余的子集组成的集合进行多折交叉分组，形成多个新子集，再将提取的低数据量的子集重新加入多折交叉分组后得到的新子集中，得到多个子训练集；

步骤五、模型集成训练

将步骤四得到的每一个子训练集都输入步骤二预处理后的模型中，基于交叉熵损失优化分类线性层的参数与规模，得到经过不同子训练集训练后的模型；将需要进行相关性任务分析的地址关系对输入经过不同子训练集训练后的模型中，得到地址关系对的关系分类概率。

2.如权利要求1所述一种基于数据预处理的地址文本信息相关性学习方法，其特征在于：所述随机遮掩处理的方法为：先利用随机算法判断是否对该地址进行遮掩，若进行遮掩，则通过随机算法决定对随机的字进行遮掩或对表征位置信息的特殊词组进行遮掩；再通过随机算法决定被遮掩的具体内容，最后将被选择遮掩的内容用特殊字符[mask]代替。

3.如权利要求1所述一种基于数据预处理的地址文本信息相关性学习方法，其特征在于：所述多头注意力运算为：

MultiHead＝Concat(Head₁，…，Head_l)W^O

Head_i＝Attention(HW_i ^Q，HW_i ^K，HW_i ^V)

其中，MultiHead表示多头注意力运算的输出；Head_i表示第i个注意力运算的输出；l表示注意力运算头数；Concat表示对多个注意力运算的输出进行堆叠操作；W^O表示可学习的参数矩阵；H表示上一个编码器模块输出的预训练编码器特征信息或预训练语句矩阵向量；W_i ^Q，W_i ^K，W_i ^V表示第i个注意力运算的可学习参数矩阵；其中，注意力运算Attention()为：

其中，Q、K、V表示三个不同的输入；d表示输入的词向量特征表示数；S表示Softmax分数运算的输入矩阵；s_m表示输入矩阵的第m个词向量，n表示最大文本长度；

所述归一化运算对输入的特征信息运用期望μ与标准差σ进行整合：

其中，LN表示经过归一化运算后的输出；Z表示归一化运算的输入矩阵；z_j表示输入矩阵的第j个词向量；h表示输入矩阵的词向量特征表示数；G和B表示可学习的参数矩阵；

所述线性运算对特征信息进行再整理、再提取：

Linner＝wX+b

其中，Linner表示经过线性运算后的输出；X表示线性运算的输入矩阵；w和b表示可学习的参数矩阵。

4.如权利要求1所述一种基于数据预处理的地址文本信息相关性学习方法，其特征在于：所述ac自动机算法具体步骤为：

s3.1、根据收集的地址关系对数据中的每一条地址都拆分为独立的字，然后构建字典树，从根节点开始，根据字典树上的字是否连续存在而决定是否插入新的节点；

s3.2、使用深度优先算法构建节点间的fail指针，所述fail指针所指向的字符为已匹配的字符串后缀与指向字符串前缀最长的相同字符末尾所在的节点处；

s3.3、然后根据构建的字典树对待匹配的地址不断进行匹配操作，直至匹配所有字符或停留在根节点无法继续匹配。

5.如权利要求1所述一种基于数据预处理的地址文本信息相关性学习方法，其特征在于：所述子数据集的划分方法具体为：针对预处理后的训练集E，按照标签分为子集e₀、e₁、e₂，e₀为低数据量的子集，因此提取e₀，对剩余的子集e₁、e₂组成的集合E₁₂进行多折交叉分组形成多个新的子集，再重新加入低数据量的子集e₀，得到多个子训练集O_n：

6.如权利要求1所述一种基于数据预处理的地址文本信息相关性学习方法，其特征在于：评估步骤五中经过不同子训练集训练后的模型的泛化能力，对泛化能力低的模型重新进行训练。

7.如权利要求6所述一种基于数据预处理的地址文本信息相关性学习方法，其特征在于：评估方法为：以指标函数F₁值进行评估，F₁值越大模型的泛化能力越强；

其中，P表示精确率，R表示召回率，r_i表示被正确分类的第i类地址关系对的个数，t_i表示被分类为第i类地址关系对的个数，a_i表示被正确标签为第i类地址关系对的个数。