CN114792091A

CN114792091A - 基于词汇增强的中文地址要素解析方法、设备及存储介质

Info

Publication number: CN114792091A
Application number: CN202210339889.0A
Authority: CN
Inventors: 傅湘玲; 申艳廷; 仵伟强; 陈松龄; 沈耀迪
Original assignee: Bohai Bank Co ltd; Beijing University of Posts and Telecommunications
Current assignee: Bohai Bank Co ltd; Beijing University of Posts and Telecommunications
Priority date: 2022-04-01
Filing date: 2022-04-01
Publication date: 2022-07-26

Abstract

本发明涉及数据处理技术领域，特别涉及一种基于词汇增强的中文地址要素解析方法、设备及存储介质，其中方法包括：获取中文地址文本；确定中文地址文本中的每个字符、词汇及对应的嵌入表示；将确定的所有字符、词汇均作为令牌，基于各令牌本身对应的嵌入表示、令牌在中文地址文本中的位置以及令牌之间的关联关系，构建平面图；基于平面图中令牌在句子中对应的头尾位置信息，确定每两个令牌之间的最终相对位置编码；基于确定的嵌入表示和最终相对位置编码，通过深度学习进行特征提取；基于提取的特征进行分类，得到解析后的地址要素。本发明通过引入词汇的语义信息和边界信息，能够有效增强字符的语义信息，提升中文地址要素解析准确率。

Description

基于词汇增强的中文地址要素解析方法、设备及存储介质

技术领域

本发明涉及数据处理技术领域，特别涉及一种基于词汇增强的中文地址要素解析方法、设备及存储介质。

背景技术

地址作为一种重要的文本数据，记录了社会生产活动及人的行为活动对应的地理空间信息，在地理商业智能、城市治理、金融风控等领域有着重要的应用价值。随着互联网、大数据以及地理信息系统的快速发展，公众对位置信息的需求迅速增加，如何利用计算机快速、准确解析地址，成为备受关注的内容。

中文地址要素解析指的是对中文地址文本拆分成具有独立语义的地址要素实体，并将这些实体确定其对应的类别。中国幅员辽阔，地理文化差异大，至今没有形成一个权威的、覆盖全国的地点命名标准，同时，日常应用中，中文地址大部分是以非结构化文本的形式表达，数据结构复杂，随意性较强，多伴随地址要素缺失或冗余等问题。因此，目前针对中文文本的地址要素解析技术往往精确度偏低，不利于实际应用。

发明内容

基于中文地址要素解析精确度偏低的问题，本发明提供了一种中文地址要素解析方法、设备及存储介质，能够有效提高中文地址要素解析的精确度。

第一方面，本发明实施例提供了一种中文地址要素解析方法，包括：

获取待解析的中文地址文本；

确定所述中文地址文本中的每个字符及对应的嵌入表示；

确定所述中文地址文本中的每个词汇及对应的嵌入表示；

将确定的所有字符、词汇均作为令牌，基于各令牌本身对应的嵌入表示、令牌在所述中文地址文本中的位置以及令牌之间的关联关系，构建平面图；其中，所述平面图由令牌本身对应的嵌入表示以及令牌在句子中对应的头尾位置信息构成，用于提供词汇的语义信息和边界信息；

基于所述平面图中令牌在句子中对应的头尾位置信息，确定每两个令牌之间的最终相对位置编码；

基于确定的嵌入表示和最终相对位置编码，通过深度学习进行特征提取；

基于提取的特征进行分类，得到解析后的地址要素。

可选地，所述确定所述中文地址文本中的每个词汇及对应的嵌入表示，包括：

确定所述中文地址文本对应的词典；

基于所述词典，建立字典树；

基于所述字典树，对所述中文地址文本进行匹配，得到所述中文地址文本中的每个词汇；

基于所述词典对应的嵌入表示资源库，获取所述中文地址文本中每个词汇的嵌入表示。

可选地，所述平面图包括的第一平面图和第二平面图，其中，所述第一平面图为平面晶格结构，用于表示字符与自匹配词汇关联关系，所述第二平面图为平面转移结构，用于表示字符与最近上下文词汇关联关系；

所述基于所述平面图中令牌在句子中对应的头尾位置信息，确定每两个令牌之间的最终相对位置编码，包括：对于每两个令牌，均执行如下步骤：

分别基于所述第一平面图和所述第二平面图，计算两个令牌之间的相对位置编码；

将分别基于所述第一平面图和所述第二平面图计算得到的相对位置编码进行拼接，经过神经网络的线性变换，得到两个令牌之间的最终相对位置编码。

可选地，所述计算两个令牌之间的相对位置编码包括：

确定两个令牌在句子中对应的头尾位置信息，包括头位置和尾位置；

确定两个令牌之间的头头、头尾、尾头和尾尾四种相对距离；

若两个令牌之间存在包含关系，则对确定的四种相对距离同时进行缩小；

对四种相对距离做非线性变换，得到相对位置编码。

可选地，所述对确定的四种相对距离同时进行缩小，包括：

对确定的四种相对距离同时乘以e^w，进行指数缩小；其中，w为两个令牌之间头头和尾尾两种相对距离的乘积。

可选地，所述确定两个令牌在句子中对应的头尾位置信息，包括：

若令牌为字符，其头位置和尾位置相同，均为该字符在句子中的位置；

若令牌为词汇，对于所述第一平面图，其头位置、尾位置分别为该词汇的起、止字符在句子中的位置，对于所述第二平面图，其头位置、尾位置分别为该词汇的前、后相邻字符在句子中的位置，且不超出句子范围。

可选地，所述确定所述中文地址文本中的每个字符及对应的嵌入表示，包括：

将所述中文地址文本输入预训练的BERT模型，确定所述中文地址文本中的每个字符及对应的嵌入表示。

第二方面，本发明实施例还提供了一种虚假地址识别方法，包括：

基于如上述任一项所述的基于词汇增强的中文地址要素解析方法，进行地址要素解析；

对地址要素进行层级判定，若存在不同名的同级地址实体，则识别为虚假地址，否则继续执行下一步骤；

将地址要素与五层级地址库进行匹配，得到相应的地址编码，校验较高层级地址要素对应的地址编码与较低层级地址要素对应的地址编码是否具有正确的相关性，是则继续执行下一步骤，否则识别为虚假地址；

根据地址要素化分第一地址和第二地址，基于所述第一地址确定地理围栏，基于所述第二地址确定经纬度坐标，校验所述地理围栏与所述经纬度坐标之间的位置关系是否有误，是则识别为虚假地址，否则识别为真实地址；其中，所述第一地址包括省级、市级和区级的地址要素，所述第二地址包括除省级、市级和区级之外的所有低层级地址要素。

第三方面，本发明实施例还提供了一种设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时，实现本说明书任一实施例所述的方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行本说明书任一实施例所述的方法。

本发明实施例提供了一种基于词汇增强的中文地址要素解析方法、设备及存储介质，本发明将词汇信息融入中文地址要素解析过程，融合词汇的语义信息和边界信息，有效增强字符的语义信息，提升最终的中文地址要素解析准确率。

本发明实施例还提供了一种虚假地址识别方法、设备及存储介质，本发明基于解析得到的地址要素进行多轮分析与判断，最终确定输入的地址是否为虚假地址，能够有效地识别中文地址文本中的虚假地址。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的中文地址要素解析方法流程图；

图2是本发明一实施例提供的虚假地址识别方法流程图。

具体实施例

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如前所述，地址作为一种重要的文本数据，记录了社会生产活动及人的行为活动对应的地理空间信息，在地理商业智能、城市治理、金融风控等领域有着重要的应用价值。随着互联网、大数据以及地理信息系统的快速发展，公众对位置信息的需求迅速增加，如何利用计算机快速、准确解析地址成为备受关注的内容。中文地址要素解析指的是对中文地址文本拆分成具有独立语义的地址要素实体，并将这些实体确定其对应的类别。中文地址要素解析的结果直接影响着地理编码等空间定位技术的准确性。

但是，中国幅员辽阔，地理文化差异大，至今没有形成一个权威的、覆盖全国的地点命名标准，同时，日常应用中，中文地址大部分是以非结构化文本的形式表达，数据结构复杂，随意性较强，多伴随地址要素缺失或冗余等问题。目前，针对中文文本的地址要素解析技术往往精确度偏低，不利于实际应用。

中文地址要素解析领域的研究大致可概括为三个方面：词典匹配、机器学习以及深度学习；其中，基于深度学习的中文地址要素解析方法由于其深层的网络结构能够抽取更深层的文本特征，大幅提高了解析效率和计算性能，逐渐成为该领域的主流方法。但现有技术中的深度学习方法仍以字符作为基本单位进行处理，并没有充分融合利用地址文本的字符信息及词汇信息。通过融入词汇信息，有利于增强字符的语义信息，提升最终的分类准确率。有鉴于此，本发明提出了基于词汇增强的中文地址要素解析技术。

下面描述以上构思的具体实现方式。

请参考图1，本发明实施例提供了一种基于词汇增强的中文地址要素解析方法，该方法包括：

步骤100，获取待解析的中文地址文本；

步骤102，确定所述中文地址文本中的每个字符及其对应的嵌入表示(embedding)；

步骤104，确定所述中文地址文本中的每个词汇及其对应的嵌入表示(embedding)；

步骤106，将步骤102确定的所有字符、步骤104确定的所有词汇均作为令牌(token)，一个令牌代表一个字符或一个词汇，基于各令牌本身对应的嵌入表示、各令牌在所述中文地址文本中的位置以及各令牌之间的关联关系，构建平面图(Flat-Graph)；其中，所述平面图由令牌本身对应的嵌入表示以及令牌在句子中对应的头尾位置信息构成，用于提供词汇的语义信息和边界信息；

步骤108，基于构建的所述平面图中令牌在句子中对应的头尾位置信息，确定每两个令牌之间的最终相对位置编码；

步骤110，基于步骤102、步骤104确定的每个令牌对应的嵌入表示，和步骤108确定的每两个令牌之间的最终相对位置编码，通过深度学习进行特征提取；

步骤112，基于提取的特征进行分类，得到解析后的地址要素。

为充分利用词汇信息增强中文地址文本的字符序列，消除上下文中潜在的地址实体歧义，本发明上述实施例构建平面图，利用地址文本中词汇的语义信息和边界信息对特定字符的语义进行有效增强，从而减少地址要素解析的错误率。

下面描述图1所示的各个步骤的执行方式。

针对步骤100，获取待解析的中文地址文本，可以一次获取单条中文地址，也可以一次获取多条中文地址，对每条中文地址分别进行地址要素解析即可，但属于同一条地址的数据应在同一句子中，避免断句错误引入歧义。

针对步骤102，确定所述中文地址文本中的每个字符及对应的嵌入表示进一步包括：

本发明将原始的地址文本解析为地址要素实体，地址要素实体包括省级、市级和区级实体等。为了在深度学习过程中更精确地识别地址要素，需要使用更丰富的语义特征表达地址文本中的字符，即需获取字符对应的嵌入表示 (或称分布式嵌入向量)。上述实施例使用先进的大规模预训练BERT模型实现这一过程。传统的语言模型，如word2vec、GPT等，仅可进行单向预测，容易错误理解语义，而BERT模型使用双向Transformer作为编码器预训练地址文本字符的深度双向表示，从而对前后两侧的信息进行充分利用，得到更佳的分布式表征，有助于正确识别地址级别。

针对步骤104，确定所述中文地址文本中的每个词汇及对应的嵌入表示进一步包括：

确定所述中文地址文本对应的词典；

基于所述词典，建立字典树；

基于所述词典对应的嵌入表示库，获取所述中文地址文本中每个词汇的嵌入表示。

上述实施例中，通过查询字典树获取每一条地址文本所包含的词汇。字典树是一种树形结构，广泛应用于统计和排序大量的字符串，它的优点是能够最大限度地减少无谓的字符串比较，效率较高。在公开的词典对应嵌入表示资源库中，可选择资源库ctb.50d.vec来获取词汇对应的嵌入表示，得到每个词汇对应维度为50的嵌入表示，这些嵌入表示同样是在大规模模型上训练得到的，具有优秀的表征能力。

平面图(Flat-Graph)即一种有向无环图，可选地，所述平面图包括第一平面图和第二平面图，其中，所述第一平面图为平面晶格结构(Flat-Lattice)，用于表示字符与自匹配词汇关联关系，以提供自匹配词汇的语义信息和边界信息，所述第二平面图为平面转移结构(Flat-Shift)，用于表示字符与最近上下文词汇关联关系，以提供最近上下文词汇的语义信息和边界信息；

相应地，针对步骤108，基于所述平面图中令牌在句子中对应的头尾位置信息，确定每两个令牌之间的最终相对位置编码进一步包括：对于每两个令牌，均执行如下步骤：

将分别基于所述第一平面图和所述第二平面图计算得到的相对位置编码进行拼接，经过神经网络的线性变换后，得到两个令牌之间的最终相对位置编码。

本发明上述实施例采用协作互补的第一平面图和第二平面图，利用地址文本中的自匹配词汇(即包含当前字符的词汇)和最近上下文词汇(即距离当前字符最近但不包含当前字符的词汇)对特定字符进行增强，从而充分利用词汇的语义信息和边界信息。

现有技术通常没有考虑到最近上下文词汇对消除歧义的影响。以地址文本“昌邑上海路”为例，对于字符“上”，自匹配词汇“上海路”以及最近上下文词汇“昌邑”(昌邑作为一个市级实体，后面不应该再紧跟市级实体) 的加入，会防止将该文本中的“上海”误识别为市级实体(city)，而是作为“上海路”中的一部分，被标记为道路名实体(road)。本发明上述实施例通过独立的第一平面图和第二平面图分别获得包含自匹配词汇和最近上下文词汇对相应字符增强语义关联的相对位置编码，再进行拼接和线性变换，实现融合，即集成两种词汇信息，提高词汇信息对字符的增强效果，同时有效解决了传统图结构(即Flat-Lattice)进行词汇增强时只能对词尾字符进行有效增强的问题。

假设

和

分别表示基于第一平面图和第二平面图计算得到的两个令牌(令牌i和令牌j)之间的相对位置编码，

和

的融合过程表达式如下：

其中，W_t是可学习的参数矩阵，与括号内拼接的向量进行矩阵乘法运算，

表示向量的拼接操作，

为两个令牌之间的最终相对位置编码。

进一步地，针对步骤108，基于所述第一平面图，计算两个令牌之间的相对位置编码包括如下步骤：

基于所述第一平面图，确定两个令牌在句子中对应的头尾位置信息，包括头位置(head)和尾位置(tail)；

若两个令牌之间存在包含关系，则对确定的四种相对距离同时进行缩小，若两个令牌之间不存在包含关系，则保持确定的四种相对距离不变，继续执行下一步骤；

对得到的四种相对距离做非线性变换，得到相对位置编码。

针对步骤108，基于所述第二平面图，计算两个令牌之间的相对位置编码包括如下步骤：

基于所述第二平面图，确定两个令牌在句子中对应的头尾位置信息，包括头位置和尾位置；

对得到的四种相对距离做非线性变换，得到相对位置编码。

优选地，所述对确定的四种相对距离同时进行缩小，包括：

上述实施例中，对于令牌i和令牌j两个令牌，四种相对距离之中，头头相对距离即令牌i的头位置与令牌j的头位置之间的距离，记为

头尾相对距离即令牌i的头位置与令牌j的尾位置之间的距离，记为

尾头相对距离即令牌i的尾位置与令牌j的头位置之间的距离，记为

尾尾相对距离即令牌i的尾位置与令牌j的尾位置之间的距离，记为

以head[i]、 head[j]分别表示令牌i、令牌j的头位置，tail[i]、tail[j]分别表示令牌i、令牌 j的尾位置，则步骤108计算两个令牌之间的相对位置编码的表达式为：

使用传统的相对位置编码，由于词汇与其包含的非首尾字符之间相对距离较大，存在无法有效增强词汇中非首尾字符的问题，上述实施例通过对不同令牌之间的相对距离进行指数缩小，加深了对词汇中非首尾字符的增强效果。改进后的相对位置编码先计算两个令牌的头头、头尾、尾头、尾尾之间的相对距离，接着对于具有包含关系(w≤0)的两个令牌，对其四种相对距离进行缩小。指数缩小的优点是当两个令牌之间的相对距离小时，说明它们之间的关联性越大，指数缩小的效果就越明显，特别是对词汇中非首尾字符来说，它们与词汇的相对距离短，经过指数缩小之后，就能实现有效增强。

除上述实施例中记载的指数缩小方式之外，所述对确定的四种相对距离同时进行缩小，还可采用如下规则进行：

d＝(d/abs(d))*0.5

或

d＝d/(1-w)

或

d＝d*(1+0.5*arctan(w))

或

d＝d*(2*arccot(-w))/π

其中，d表示相对距离，

对得到的四种相对距离做非线性变换，即可得到最终的相对位置编码R_ij，表达式为：

其中，ReLU()为线性整流函数，是一种神经网络中常用的激活函数，W_r是可学习的参数矩阵，与括号内拼接的向量进行矩阵乘法运算，PE_d是相对距离d的编码表示，其元素的计算公式如下：

其中d_model表示模型输入向量的维度大小，i表示当前位置在位置编码中对应的索引。

进一步地，针对步骤108，所述确定两个令牌在句子中对应的头尾位置信息，包括：

由于第一平面图用于表示字符与自匹配词汇关联关系，第二平面图用于表示字符与最近上下文词汇关联关系，第一平面图和第二平面图中，令牌在句子中对应的头尾位置信息并不相同。仍以地址文本“昌邑上海路”为例，若令牌为字符“上”，其头和尾位置相同，均为“上”在句子的位置3；若令牌为词汇“上海”，对于第一平面图，其头、尾位置分别为起、止字符“上”、 “海”在句子中的位置3、4，对于第二平面图，其头位置为“上海”前的相邻字符“邑”在句子中的位置2，其尾位置为“上海”后的相邻字符“路” 在句子中的位置5；若令牌为词汇“上海路”，对于第一平面图，其头、尾位置分别为起、止字符“上”、“路”在句子中的位置3、5，对于第二平面图，其头位置为“上海路”前的相邻字符“邑”在句子中的位置2，由于“路” 已达句子末尾，因此其尾位置为“路”在句子中的位置5。

上述实施例详述了如何分别基于第一平面图和第二平面图确定各令牌的头位置和尾位置，进而可确定每两个令牌之间的相对位置编码，通过该方式，在后续的深度学习过程中，能够更好地利用自匹配词汇及最近上下文词汇增强字符的语义，以实现更为精准划分地址实体。

针对步骤110，所述通过深度学习进行特征提取，包括：

通过基于自注意机制的深度学习模型进行特征提取。

基于自注意机制的深度学习模型，如Transformer，作为目前十分主流的捕获上下文信息的结构，相对于RNN来说，既可以实现并行化，提高处理速度，也可以解决长距离依赖问题，其通过自注意力机制来将词汇嵌入表示与字符嵌入表示进行充分融合，改善最终的字符嵌入表示。Transformer的输入为嵌入表示及融合后的相对位置编码，Transformer通过自注意力机制来建模两个令牌之间的关系，两个令牌之间的相对位置越接近，互相之间的影响关系越深，相应的自注意力权重也越大。因此，如果地址文本字符与其自匹配词汇或上下文匹配词汇的相对位置越接近，该字符能得到的词汇信息增强效果越强。

针对步骤112，所述基于提取的特征进行分类，包括：

将提取的特征输入条件随机场(CRF)，进行分类。

在经过Transformer进行特征提取后，地址文本字符序列的特征表征被输入条件随机场进行分类，CRF的分类过程如下：

根据输入的地址文本长度，生成相同长度的备选标注序列；

对所有的备选标注序列，基于每个节点的状态特征函数和状态转移函数，计算所对应的条件概率；

将条件概率得分最高的标注序列作为最终的标注序列输出，表示该序列为可能性最大的标注序列。

上述实施例中，为提高最终预测结果的准确性，在Transformer之后接条件随机场，条件随机场通过对所有的可能结果序列计算对应的条件概率，条件概率体现了在给定数据下，得到当前结果序列的可能性，其需要计算每个节点的状态特征函数和状态转移函数。本发明选择条件概率最大的序列作为最终的预测序列，解析结果更加可靠，准确度更高。更详细的分类过程可参考现有技术，在此不再进一步赘述。

为验证所提出的中文地址要素解析方法的可行性，本发明还基于中文地址要素解析方法构建相应的中文地址要素解析模型(简称本发明模型)，并进行了训练及测试。具体地，本发明模型可包括：

输入模块，用于获取待解析的中文地址文本；

字符模块，用于确定所述中文地址文本中的每个字符及对应的嵌入表示；

词汇模块，用于确定所述中文地址文本中的每个词汇及对应的嵌入表示；

平面图模块，用于将确定的所有字符、词汇均作为令牌，基于各令牌本身对应的嵌入表示、令牌在所述中文地址文本中的位置以及令牌之间的关联关系，构建平面图；其中，所述平面图由令牌本身对应的嵌入表示以及令牌在句子中对应的头尾位置信息构成，用于提供词汇的语义信息和边界信息；

编码模块，用于基于所述平面图中令牌在句子中对应的头尾位置信息，确定每两个令牌之间的最终相对位置编码；

特征模块，用于基于确定的嵌入表示和最终相对位置编码，通过深度学习进行特征提取；

分类模块，用于基于提取的特征进行分类，得到解析后的地址要素。

在本发明实施例中，输入模块可用于执行上述方法实施例中的步骤100，字符模块可用于执行上述方法实施例中的步骤102，词汇模块可用于执行上述方法实施例中的步骤104，平面图模块可用于执行上述方法实施例中的步骤106，编码模块可用于执行上述方法实施例中的步骤108，特征模块可用于执行上述方法实施例中的步骤108，特征模块可用于执行上述方法实施例中的步骤110，分类模块可用于执行上述方法实施例中的步骤112。

本发明实施例利用正确标注的中文地址数据集对本发明模型进行训练，并在公开的中文地址要素解析数据集TCAddress和自标注中文地址要素解析数据集SNIAddress以及中文命名实体识别基准数据集Weibo、OntoNotes、 MSRA、Resume上进行了测试，这些数据集来源于不同领域，Weibo的语料来自于社交媒体，Resume的语料来自于新浪财经的简历数据，而MSRA和 OntoNotes来自于新闻数据。本发明选用了未使用词汇增强的TENER模型，以及近几年在中文地址要素解析领域的SOTA(state-of-the-art)模型 BERT-BiLSTM-CRF和中文命名实体识别领域的SOTA模型FLAT、LEBERT 等作为基准对比模型，采用F1值作为最终的评价指标。根据测试结果，首先，相对于未使用词汇增强的TENER模型，使用词汇增强的本发明模型在两个中文地址要素解析的数据集(TCAddress和SNIAddress)上的F1值均有较大的提升，这充分说明了词汇增强对中文地址要素解析任务的重要性。另外，本发明模型优于在中文地址要素解析领域与中文命名实体识别领域现存的SOTA模型(BERT-BiLSTM-CRF、FLAT、LEBERT等)，在六个数据集上都取得了最优的表现。具体来说，本发明模型在Weibo数据集上取得了 69.70的F1分数，相较于2022年的SOTA模型LEBERT高出了0.92，另外在中文地址要素解析数据集TCAddress上，本发明模型的F1分数达到了92.38，也是目前的最高分数，相较于中文地址要素解析领域的SOTA模型 BERT-BiLSTM-CRF，F1分数提升高达3.59，而在数据集SNIAddress上，本发明模型的F1分数也提升了0.77。测试结果证明了本发明中文地址要素解析方法(及模型)在不同领域的数据中的有效性。并且，本发明还通过消融实验来验证了本发明创新点的有效性：1)平面图中平面晶格结构及平面转移结构对解析性能提升都起积极作用，当移除任意一种时，模型的表现都会下降；2)改进后的相对位置编码也在其中扮演着重要的角色，在Weibo数据集上，使用改进后的相对位置编码，模型的F1值提升了0.58；3)本发明的相对位置编码融合方法相对于常用的、对输出进行融合的方法，进一步提升了模型的F1值。

综上，本发明提供了一种基于词汇增强的中文地址要素解析方法及模型，通过引入自匹配词汇和最近上下文词汇信息，有效增强了中文地址文本的字符序列嵌入表示，并提出了改进的方式确定每两个令牌之间的最终相对位置编码，实现对词中非首尾字符的有效增强，提高解析结果的准确率。

将词汇信息引入中文地址要素解析领域具有划时代的意义，一方面，词汇信息中的词边界对于实体边界划分起着至关重要的作用，另一方面，由于标注数据资源的稀缺，BERT等预训练模型在该任务上表现不佳，而词汇增强的方法逼近甚至优于BERT模型的性能。为了有效捕获地址文本所对应的词汇信息，本发明提出了利用包含平面晶格结构及平面转移结构的平面图，且解决了使用图结构进行词汇增强时只能对词尾字符进行有效增强的问题。中文地址文本中的字符所对应的自匹配词汇以及最近上下文词汇信息都有助于增强对该字符的理解，以“吉林市昌邑上海路”和“四川攀枝花仁和区” 为例，自匹配词汇“上海路”以及“昌邑上海路”能够用来消除上下文中潜在的地址实体的歧义，避免将吉林市昌邑区的上海路识别为昌邑区，上海市；而在加入最近上下文词汇“仁和区”的语义信息后，“攀枝花”将会被识别为市级实体而不是一种花，因为区级实体前为市级实体的可能性更大。因此本发明提出的平面晶格结构和平面转移结构能够分别用来捕获自匹配词汇和最近上下文词汇的边界及语义信息，实现多种词汇信息的融合。

另外，本发明得到两个令牌(字符与字符、字符与词汇、词汇与词汇) 之间的相对位置关系之后，需要对其进行编码，使用密集向量来建模相对位置关系(即确定相对位置编码)。传统的相对位置编码存在无法有效增强词汇中非首尾字符的问题，因此，本发明提出了一种改进的相对位置编码，通过对不同的令牌之间的相对距离进行指数缩小，加深了对词汇中非首尾字符的增强效果。当两个令牌间的相对距离小时，说明关联性越大，指数缩小的效果就越明显，特别是对词汇中非首尾字符来说，它们与词汇的相对距离短，经过指数缩放之后，能实现有效增强。

为了提高两类词汇信息(即自匹配词汇及最近上下文词汇信息)的增强效果，本发明还对它们的相对位置编码进行了融合。通过将两个相对位置编码进行拼接之后再经过神经网络线性变换得到融合后的最终相对位置编码，作为Transformer的输入，Transformer作为目前十分主流的捕获上下文信息的结构，相对于RNN来说，既可以实现并行化，提高处理速度，也可以解决长距离依赖问题，其通过自注意力机制来将词汇嵌入与字符嵌入进行充分融合，改善最终的字符嵌入表示。

为了提高最终预测结果的准确性，本发明在Transformer之后接了条件随机场，条件随机场通过对所有的可能结果序列计算它们的条件概率，条件概率体现了在给定数据下，得到当前结果序列的可能性，经过条件随机场后，最终的预测序列更加可靠，准确度更高。

特别地，如图2所示，本发明实施例还提供了一种虚假地址识别方法，包括如下步骤：

S1、基于如上述任一项实施例所述的中文地址要素解析方法，进行地址要素解析；

S2、对得到的地址要素进行层级判定，若存在不同名的同级地址实体，则识别为虚假地址，否则继续执行下一步骤；

S3、将得到的地址要素与五层级地址库进行匹配，得到相应的地址编码，校验高层级地址要素对应的地址编码与低层级地址要素对应的地址编码是否具有正确的相关性，是则继续执行下一步骤，否则识别为虚假地址；其中，五层级地址库包括的五个层级由高到低依次为：省级、市级、县级、乡级和村级，即，省级为最高层级，村级为最低层级；

S4、根据得到的地址要素化分第一地址和第二地址，基于所述第一地址确定地理围栏，基于所述第二地址确定经纬度坐标，校验所述地理围栏与所述经纬度坐标之间的位置关系是否有误(即判断经纬度坐标是否在地理围栏范围内)，是则识别为虚假地址，否则识别为真实地址；其中，所述第一地址包括省级、市级和区级的地址要素，所述第二地址包括除省级、市级和区级之外的所有低层级地址要素。

目前在物流、金融等领域，用户胡乱填写虚假地址的现象层出不穷，给相关公司造成了巨大的利益损失。在实际场景中，虚假地址往往存在两种主要表现形式：地址套叠以及虚构地址。地址套叠表示地址中包含重复的同级别地址要素，且重复项在空间位置上是冲突的，而虚构地址表示在现实中不存在的地址。主流的虚假地址识别方法大多依赖于中文地址要素解析的结果，中文地址要素解析模型表现的提高有助于增加虚假地址识别的准确率。

本发明实施例在上述中文地址要素解析方法的基础上，提出了一种虚假地址识别方法，该虚假地址识别方法首先通过解析文本获得准确度较高的中文地址要素，然后利用得到的地址要素进行多轮判定，最终确定输入的地址是否为虚假地址。

具体地，该该虚假地址识别方法在步骤S2中进行要素层级判定，即判定地址文本中是否存在地址套叠问题，对比所有同层级的地址实体，如存在不同名的同级地址实体，则认为存在地址套叠问题，是虚假地址。例如，“河北省石家庄市桥西区上海市黄浦区河南南路33号”将被判定为虚假地址，因为“石家庄市”与“上海市”冲突，存在不同名的同级地址实体。

上述虚假地址识别方法在步骤S3中进一步利用五层级地址库判定不同层级的地址实体之间是否有正确的相关性，在国家统计局公开的统计用区划代码和城乡划分代码编制规则中，高层级的地址要素对应的地址编码与其地域范围内的低层级地址要素对应的地址编码之间具有相关性，例如“安徽省阜阳市”的地址编码为“341200000000”，“安徽省阜阳市颍上县”的地址编码为“341226000000”，“安徽省阜阳市颍上县”的地址编码的前四位等同于“安徽省阜阳市”的地址编码的前四位。根据不同层级的地址要素所对应的地址编码之间存在的相关性，该虚假地址识别方法基于五层级地址库进行粗粒度的地址要素关系校验。具体的，将地址要素匹配五层级地址库，得到相应的地址编码，并通过校验高层级地址要素对应地址编码和低层级地址要素对应地址编码之间是否具有正确的相关性(即能体现正确包含关系的相关性)，从而判定地址文本中是否存在地址套叠问题以及虚假地址问题。如果根据地址编码的相关性，低层级地址要素反而包含高层级地址要素，或者高层级地址要素不包含低层级地址要素，则校验不通过，相应地址将被归于虚假地址。五层级地址库可基于国家统计局公布的统计用区划和城乡划分代码构建，考虑到国家统计局公布的数据存在滞后性以及少数数据缺失的问题，还可进一步参考其他数据来源，包括：民政部公布的中华人民共和国行政区划代码，可作为辅助的省、市、区三级数据；高德地图行政区划及腾讯地图行政区划，数据更新比较频繁，可作为辅助的省、市、区、镇四级数据，最后构成较全面的五层级地址库。

上述虚假地址识别方法在步骤S4中进一步判断省市区地址与详细地址在地理位置上是否存在包含关系。通过要素层级判定及基于五层级地址库的粗粒度地址要素关系校验，已经基本可以判断地址文本中是否存在虚假地址，但仍有可能存在漏查部分虚假地址的欺诈情况，如“北京市海淀区西土城路 100000号”。因此，本发明还可利用公开的地图API进行细粒度地址要素关系校验。进一步地，对于得到的所述第一地址，可通过高德地图API确定其对应的地理围栏。地理围栏是一个虚拟的空间围栏，能够体现省市区地址(也即包括省级、市级和区级地址要素的第一地址)的空间地理范围。在实际使用中，可调用“v1/track/geofence/add/district”接口确定地理围栏，并调用 “v1/track/geofence/”下的多个接口对地理围栏进行管理。对于得到的所述第二地址，可通过高德地图API确定经纬度坐标，将详细地址(也即包括除省级、市级和区级之外的所有低层级地址要素的第二地址)与某个空间位置点唯一对应，在实际使用中，可调用“v3/geocode/geo”接口查询详细地址的经纬度坐标。得到省市区地址的地理围栏及详细地址的经纬度坐标后，判断地理围栏与经纬度坐标之间的空间位置关系，在实际使用中，可调用 “v1/track/geofence/status/location”接口查询详细地址的经纬度坐标是否在省市区地址的地理围栏内，若详细地址的经纬度坐标查询无误，且该经纬度坐标确实包含于省市区地址的地理围栏，此时该地址文本成功通过细粒度地址要素关系校验，否则视为不通过。

上述实施例中，地址文本在经过解析，得到相应的地址要素后，只有成功通过步骤S2、步骤S3以及步骤S4三轮校验步骤，才被视为真实性检验合格，确认为真实地址，否则，将被识别为虚假地址。该方式更加准确、可靠，能够为自动校验、筛分地址信息，提供有力的技术支持。

本发明实施例还提供了一种设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时，实现本发明任一实施例中的一种基于词汇增强的中文地址要素解析方法或虚假地址识别方法。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序在被处理器执行时，使所述处理器执行本发明任一实施例中的一种基于词汇增强的中文地址要素解析方法或虚假地址识别方法。

具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如 CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。

此外，可以理解的是，将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展模块中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展模块上的CPU 等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。

需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个…”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在计算机可读取的存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于词汇增强的中文地址要素解析方法，其特征在于，包括：

获取待解析的中文地址文本；

确定所述中文地址文本中的每个字符及对应的嵌入表示；

确定所述中文地址文本中的每个词汇及对应的嵌入表示；

基于提取的特征进行分类，得到解析后的地址要素。

2.根据权利要求1所述的中文地址要素解析方法，其特征在于，

所述确定所述中文地址文本中的每个词汇及对应的嵌入表示，包括：

确定所述中文地址文本对应的词典；

基于所述词典，建立字典树；

3.根据权利要求1所述的中文地址要素解析方法，其特征在于，

所述平面图包括的第一平面图和第二平面图，其中，所述第一平面图为平面晶格结构，用于表示字符与自匹配词汇关联关系，所述第二平面图为平面转移结构，用于表示字符与最近上下文词汇关联关系；

4.根据权利要求3所述的中文地址要素解析方法，其特征在于，

所述计算两个令牌之间的相对位置编码包括：

对四种相对距离做非线性变换，得到相对位置编码。

5.根据权利要求4所述的中文地址要素解析方法，其特征在于，

所述对确定的四种相对距离同时进行缩小，包括：

6.根据权利要求4所述的中文地址要素解析方法，其特征在于，

所述确定两个令牌在句子中对应的头尾位置信息，包括：

7.根据权利要求1所述的中文地址要素解析方法，其特征在于，

所述确定所述中文地址文本中的每个字符及对应的嵌入表示，包括：

8.一种虚假地址识别方法，其特征在于，包括如下步骤：

基于如上述权利要求1-7任一项所述的基于词汇增强的中文地址要素解析方法，进行地址要素解析；

9.一种设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现如权利要求1-8中任一项所述的方法。

10.一种存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-8中任一项所述的方法。