CN113449528B

CN113449528B - 一种地址要素提取方法、装置、计算机设备和存储介质

Info

Publication number: CN113449528B
Application number: CN202111000470.4A
Authority: CN
Inventors: 孙勤; 柴玉倩; 陶予祺
Original assignee: Qichacha Technology Co ltd
Current assignee: Qichacha Technology Co ltd
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2021-11-30
Anticipated expiration: 2041-08-30
Also published as: CN113449528A

Abstract

本公开涉及一种地址要素提取方法、装置、计算机设备和存储介质。所述方法包括：获取待处理地址数据；对所述待处理地址数据进行预处理，得到符合预处理要求的地址数据；将所述符合预处理要求的地址数据输入预先构建的地址要素提取模型，得到所述待处理地址数据中的地址要素数据，所述地址要素提取模型的构建基于对知识增强语义表示模型和条件随机场模型进行训练。采用本方法能够使地址要素提取模型在表达文本上下文信息时不受地址数据的句子长度的限制，能够降低地址要素提取时对地址要素特征选取的要求，并且降低了地址要素提取模型对训练语料库的依赖，可以更加快速的构建满足地址要求提取的模型，提高地址要素提取速度。

Description

一种地址要素提取方法、装置、计算机设备和存储介质

技术领域

本公开涉及文本挖掘的计算机数据处理领域，特别是涉及文本中地址要素的提取。

背景技术

随着国内邮政、快递领域的技术的发展，出现了大量以文本描述为主的位置信息。由于没有记录与信息对应的空间位置，这些信息只能以文本的形式存储。另外一方面，中文地址本身有着命名不规范和描述方式多样的特点，这极大地限制了根据文本信息进行地址匹配和位置预测等任务的准确执行。为了解决这一问题，我们需要对这些文本中的地址要素进行提取。

目前，基于统计的方法是一种用于地址要素提取的主流方法。基于统计的方法依据自然语言理解的中文分词原理和语义推理思想，对非规范中文地址进行处理，需要从文本中选择对地址要素提取有影响的各种特征，并将这些特征加入到特征向量中，依据特定地址要素所面临的主要困难和所表现出的特性，考虑选择能有效反映该类地址要素特性的特征集合。

然而，目前基于统计的方法，例如基于条件随机场模型的地址要素提取方法，对地址要素特征选取的要求较高，对语料库的依赖也比较大，而可以用来建设和评估地址要素的大规模通用语料库又比较少，这些问题限制了这种方法的使用。

发明内容

基于此，本公开针对上述技术问题，提供一种对特征选取要求低且对语料库依赖小的地址要素提取的方法、装置、计算机设备、存储介质、计算机程序产品。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种地址要素提取方法，所述方法包括：

获取待处理地址数据；

对所述待处理地址数据进行预处理，得到符合预处理要求的地址数据。

将所述符合预处理要求的地址数据输入预先构建的地址要素提取模型，得到所述待处理地址数据中的地址要素数据。所述地址要素提取模型的构建基于对知识增强语义表示模型和条件随机场模型进行训练，训练后的知识增强语义表示模型用于表达地址上下文信息，训练后的条件随机场模型用于输出预测的标记数据，训练后的条件随机场模型还用于解码所述标记数据得到地址要素数据。

在其中一个实施例中，所述地址要素提取模型的构建至少包括下述的处理过程：使用所述符合预处理要求的地址数据训练知识增强语义表示模型，得到适用于构建所述地址要素提取模型的专用模型。

在其中一个实施例中，所述地址要素提取模型的构建至少包括下述的处理过程：根据国家行政区域和/或根据自定义规则划分地址等级，所述自定义规则包括根据相同地理位置属性划分地址等级的规则。

在其中一个实施例中，所述地址要素提取模型的构建至少包括下述的处理过程：根据所述地址等级确定不同等级的地址要素，对所述不同等级的地址要素标签化处理，形成标签集合。

在其中一个实施例中，所述地址要素提取模型的构建至少包括下述的处理过程：根据所述标签集合，对所述符合预处理要求的地址数据进行地址要素标记，得到标记数据，所述标记数据包含标记，所述标记包括表示地址要素开头字符的标记、表示地址要素中间字符的标记、表示地址要素结尾字符的标记、表示地址要素只有一个字符的标记、表示不是任何一个地址要素字符的标记。

在其中一个实施例中，所述地址要素提取模型的构建至少包括下述的处理过程：将所述标记数据输入条件随机场模型，通过条件随机场模型学习所述标记数据，得到所述标记之间的依赖关系。

在其中一个实施例中，所述地址要素提取模型的构建至少包括下述的处理过程：利用知识增强语义表示模型将所述符合预处理要求的地址数据转换成组合编码向量，所述组合编码向量包括字符编码、句子编码、位置编码。

在其中一个实施例中，所述地址要素提取模型的构建至少包括下述的处理过程：将所述组合编码向量通过知识增强语义表示模型的全连接层映射到所述标签集合，得到文本向量；将所述文本向量和所述标记数据输入条件随机场模型，通过条件随机场模型学习所述文本向量和所述标记数据，得到所述文本向量的词符与所述标记之间的对应关系，根据所述文本向量预测相对应的标记数据。

根据本公开实施例的第二方面，提供一种地址要素提取装置，所述装置包括：

地址信息获取模块，用于获取待处理地址数据；

预处理模块，用于对所述地址信息进行预处理，得到符合预处理要求的地址数据；

地址要素提取模块，用于将所述符合预处理要求的地址数据输入预先构建的地址要素提取模型，得到所述待处理地址数据中的地址要素数据，所述地址要素提取模型基于对知识增强语义表示模型和条件随机场模型进行训练后得到，训练后的知识增强语义表示模型用于表达地址上下文信息，训练后的条件随机场模型用于输出预测的标记数据，训练后的条件随机场模型还用于解码所述标记数据得到地址要素数据。

根据本公开实施例的第三方面，提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述实施例中任一项所述的方法的步骤。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中任一项所述的方法的步骤。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述计算机程序产品中包括指令，所述指令被电子设备的处理器执行时，使得所述电子设备能够执行上述实施例任一项所述的方法。

上述基于知识增强语义表示模型及条件随机场模型的地址要素提取方法、装置、计算机设备和存储介质，通过知识增强语义表示模型将地址数据表示成包括字符编码、句子编码、位置编码的组合编码向量，可以使地址要素提取模型考虑文本上下文信息时不受地址数据的句子长度的限制，能够降低地址要素提取时对地址要素特征选取的要求。而在对训练语料库的需要方面，由于知识增强语义表示模型是一个NLP预训练模型（NLP是Natural Language Processing的简称，中文名为自然语言处理），目前已经通过大规模语料训练了预训练模型，只需要通过少量地址文本训练(如一千条)即可用于构建地址要素提取模型，从而降低了地址要素提取模型对训练语料库的依赖，可以更加快速的构建满足地址要求提取的模型，提高地址要素提取速度。

附图说明

图1为一个实施例中地址要素提取方法的应用环境图；

图2为一个实施例中地址要素提取方法的流程示意图；

图3为一个实施例中地址要素提取模型训练步骤的流程示意图；

图4为一个实施例中地址要素提取装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本公开的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本公开进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本公开，并不用于限定本公开。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

还需要说明的是，本公开所涉及的待处理地址数据，包括但不限于快递单号上的地址数据、外卖单号上的地址数据和其他地址数据（包括但不限于用于展示、分析的地址数据、爬虫爬取的地址数据），均为经用户授权或者经过各方充分授权的信息和数据。

本公开提供的地址要素提取方法，可以应用于如图1所示的应用环境中。其中，可以预先采集获取地址信息，如通过扫描快递单号或者人工记录地址数据等。采集到的地址数据（可以统一称为待处理地址数据）可能包括多种类型、多种数据格式的地址数据，这些待处理地址数据可以输入服务器102中。服务器102可以对获取的地址信息进行预处理，得到符合预处理要求的地址数据。服务器102可以设置有预先构建的地址要素提取模型，利用所述地质要素提取模型对待处理地址数据进行地址要素提取，得到所述待处理地址数据中的地址要素数据。其中，不公开不排除所述的服务器也可以包括但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等终端设备。

在一个实施例中，如图2所示，提供了一种地址要素提取方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

S202：获取待处理地址数据。

其中，待处理地址数据通常指的是需要进行地址要素提取的数据。该数据的形式一般是存储的地址文本。可以通过扫描快递单、外卖单等方法获得该数据，也可以通过直接提取包含地址信息的文本获得，以及通过其他数据获取方法获得（例如手机终端采集地址信息数据并上传到服务器）。

具体地一个示例，服务器可以通过数据接收模块，接收待处理地址数据。

S204：对所述待处理地址数据进行预处理，得到符合预处理要求的地址数据。

其中，所述的预处理通常是将待处理数据处理为符合预处理要求的数据格式。可以预先设置一种或多种预处理方式，如删除地址数据中与地址信息无关的字符。

具体地一个示例，预处理要求可以包括删除待处理地址数据中与地址信息无关的字符。所述与地址信息无关的字符可以包括空白字符和特殊字符，所述空白字符可以包括空格、制表符、换行符等，所述特殊字符可以包括“@”、“￥”、“&”、“%”等。

S206：将所述符合预处理要求的地址数据输入预先构建的地址要素提取模型，得到所述待处理地址数据中的地址要素数据，所述地址要素提取模型的构建基于对知识增强语义表示模型和条件随机场模型进行训练，训练后的知识增强语义表示模型用于表达地址上下文信息，训练后的条件随机场模型用于输出预测的标记数据，训练后的条件随机场模型还用于解码所述标记数据得到地址要素数据。

其中，知识增强语义表示模型是一种NLP预训练模型（NLP是Natural LanguageProcessing的简称，中文名为自然语言处理），具体可以是预训练语言模型ERNIE（ERNIE 是Enhanced Representation from kNowledge IntEgration的简称，中文名为知识增强语义表示模型），也可以是其他类似的模型，用于使用计算机语言表达地址上下文信息。条件随机场模型通常是用于执行分词、词性标注和命名实体识别等序列标注任务的数据模型、算法。具体可以是Lafferty等人提出的CRF模型（CRF是Conditional Random Field的简称，中文名为条件随机场），也可以是其他类似的模型。地址要素是指有地址含义的中文分词，例如“江苏省”、“南京市”、“松涛街”、“月亮湾地铁站”、“三单元”、“123号房间”、“一楼”、“XX超市”（“XX”指代超市的具体名称）。“表达地址上下文信息”可以是指将地址数据表示成包含地址上下文信息且能被机器识别的形式；“标记数据”是指被标记的能直接用于地址要素提取的数据。

例如一个实施方式中，服务器可以将符合预处理要求的地址数据输入预先构建的地址要素提取模型，所述地址要素提取模型提取地址数据中的地址要素数据，服务器从所述地址要素提取模型获得提取的地址要素数据。所述地址要素提取模型的构建基于对知识增强语义表示模型和条件随机场模型进行训练，训练后的知识增强语义表示模型用于将符合预处理要求的地址数据进行表达，训练后的条件随机场模型用于根据输入的地址信息预测相对应的标记数据，训练后的条件随机场模型还用于将预测的标记数据进行解码，解码得到地址要素数据。

上述地址要素提取方法中，通过对所述待处理地址数据进行预处理，得到符合预处理要求的地址数据，将所述符合预处理要求的地址数据输入预先构建的地址要素提取模型，得到所述待处理地址数据中的地址要素数据，所述地址要素提取模型的构建基于对知识增强语义表示模型和条件随机场模型进行训练，可以使地址要素提取模型考虑文本上下文信息时不受地址数据的句子长度的限制，从而能够在地址要素提取时，实现降低所述地址要素提取模型对地址要素特征选取的要求的目的，并且降低了地址要素提取模型对训练语料库的依赖，可以更加快速的构建满足地址要求提取的模型，提高地址要素提取速度。

在一个实施例中，所述地址要素提取模型的构建过程可以包括：使用所述符合预处理要求的地址数据训练知识增强语义表示模型，得到适用于构建所述地址要素提取模型的专用模型。

具体地，将所述符合预处理要求的地址数据输入知识增强语义表示模型，知识增强语义表示模型通过注意力机制和掩码语言模型（掩码语言模型的英文简称是MLM，英文全称是Masked Language Model，掩码语言模型是知识增强语义表示模型的一部分）来学习地址文本的上下文信息及处理地址的模型特征。知识增强语义表示模型有12层，每一层对应一个多头自注意力机制。其中，注意力机制的作用是查询向量

和键值对向量

−

之间的映射关系，其中

为待匹配的向量；即向量

和

相乘，相乘后的结果用软最大函数归一化。最后，将归一化后的结果与向量

相乘，乘法结果显示了该层对句子中每个标记的关注程度。注意力计算公式如下：

上式中，

为

和

的维度，两个矩阵的相乘的维度越大，

值就越大，即可以减少这种影响，

表示注意力机制，

表示软最大函数。

知识增强语义表示模型的目标是构建语言模型，它采用随机掩盖部分输入词、实体，然后对那些被掩盖的词、实体进行预测的方法来训练神经网络。在训练的过程中，掩码语言模型从输入的文本中随机地掩盖一些词或实体，其目标是基于上下文，来预测被掩盖单词的原始词汇，掩码语言模型学习到的表示能够融合左右两侧的上下文。模型中的Transformer（Transformer是知识增强语义表示模型的一部分）不知道它将被要求预测哪些词或实体，或者哪些已经被随机词替换，因此它必须对每个输入词保持分布式的上下文表示。此外，由于随机替换在所有词只占所有词的极少数部分，所以通常不会影响模型对于语言的理解。通过这样的方式，即学习到了一个能表达地址上下文信息的语言模型。通过掩码语言模型，知识增强语义表示模型可以学习地址的左右上下文信息，掩码语言模型随机覆盖15%的标记来预测原始字符，在15%的随机选择词符中，80%用MASK标记（MASK即是具体的标记）替换词符，10%用随机字符替换词符，其余10%保持不变。注意力机制和掩码语言模型使用整个地址的上下文信息对每个词符进行编码。知识增强语义表示模型是一个预训练语言模型，已经通过大规模语料进行了训练，可以通过少量地址文本(如一千条)即可将所述知识增强语义表示模型训练成适用于构建所述地址要素提取模型的专用模型。

本实施例中，通过使用所述符合预处理要求的地址数据训练知识增强语义表示模型，得到适用于构建所述地址要素提取模型的专用模型，有利于减小地址要素提取模型提取地址要素时对语料库的依赖。

在一个实施例中，所述地址要素提取模型的构建过程包括：根据国家行政区域和/或根据自定义规则划分地址等级，所述自定义规则包括根据相同地理位置属性划分地址等级的规则。

具体地，划分的地址等级可如表1所示，表1中的其他实体：一般在一个地址的结尾，如“XX超市”、“XX宾馆”，“XX省XX市XX区XX路XX号XX产业园XX幢XF（F表示楼层）XX超市”中的“XX超市”即为其他实体。

统计分析工商局发布的大量的公司地址后，本公开中切分的13级粒度可以最详细而又不冗余地包含各个地址要素，是优选的方案。

本实施例中，通过对地址要素进行合适的等级划分，能够增加不同地址分词之间的区别，方便地址要素提取模型识别地址要素，有利于提升地址要素提取模型提取地址要素的能力。

在一个实施例中，所述地址要素提取模型的构建过程包括：对所述地址等级进行标签化处理，得到标签集合。每个地址等级作为一个地址标签，每个地址标签都包含自定义的标记，所述自定义的标记可以包括表示地址等级开头字符的标记、表示地址等级中间字符的标记、表示地址等级结尾字符的标记、表示地址要素只有一个字符的标记、表示不是任何一个地址要素字符的标记。

表1. 地址要素级别与特征表

具体地，可以按照BMESO的方式进行地址等级标注，B表示地址等级的开头字符，M表示地址等级的中间字符，E表示地址等级的结尾字符，S表示地址等级只有一个字符，O表示不是任何一个地址等级的字符。例如地址等级分为13级，每一级都定义有BMES前缀表示的开头标签、中间标签、结尾标签和单个标签，再加一个表示不是任何一个地址等级的标签“O”，所述标签集合共有13×4+1=43个标签。

本实施例中，通过对地址等级进行标签化处理，能够使不同的地址等级包含相同的标签，使不同的地址等级有区别的同时又有了共同点，方便了地址要素提取模型对地址等级的学习，有利于提升地址要素提取模型提取地址要素的能力。

在一个实施例中，所述地址要素提取模型的构建过程包括：根据所述标签集合，对所述符合预处理要求的地址数据进行地址要素标记，得到标记数据。

表2. 标记数据形式表

具体地，使用人工的方式，依据所述标签集合，对所述符合预处理要求的地址数据进行地址要素标记，例如地址文本“江苏苏州市工业园区XX路XX号X幢XF-X”(“X”指代具体的地址信息)进行地址要素标记后会拥有相对应的标记“B-省| E-省| B-市| M-市| E-市|B-区| M-区| M-区| E-区| B-道路| M-道路| E-道路| B-道路编号| M-道路编号| E-道路编号| B-楼号| M-楼号| E-楼号| B-楼层号| E-楼层号| O| S-门面号”。标记的形式可以如表2所示，表2中的数据形式仅用于帮助理解标记数据的示意形式，标记数据的具体形式为计算机语言表示的形式，可能与表2会有所区别。需要说明的是示例中的地址文本在被标记前已经被分割到了词符级别（词符是指计算机语言中的token）。

本实施例中，通过依据所述标签集合，对地址数据进行地址要素标记，能够得到标记数据，标记数据能够直接用于地址要素提取模型提取地址要素，使用标记数据训练条件随机场模型，有利于条件随机场模型学习地址标记之间的依赖关系，也有利于条件随机场模型正确预测标记数据。

在一个实施例中，所述地址要素提取模型的构建过程包括：

将所述标记数据输入条件随机场模型，条件随机场模型学习所述标记数据后，得到所述标记之间的依赖关系。

具体地，将所述标记数据输入条件随机场模型，条件随机场模型通过所述标记数据学习所述标记之间的约束关系。比如地址文本：江苏省苏州市工业园区，所述地址文本对应的标记为：B-省| M-省| E-省| B-市| M-市| E-市| B-区| M-区| M-区| E-区。

由以上训练数据可以看出，对于每一个地址要素，只出现了BE、BME、BMME、BMMME、S等这样的标记之间的表示模式（除了当一个地址要素只有一个字符时用S表示以外，其他表示模式中，一个地址要素一定以B开头，以E结尾，B和E之间只可以有M），条件随机场模型会学习这样的表达模式，即得到所述标记之间的依赖关系。当条件随机场模型利用这种依赖关系预测地址文本对应的标记数据时（所述标记数据可以直接用于地址要素的提取），就不会出现一个地址要素的表达方式是BM（以M结尾），因为在学习得到的依赖关系中，BM（以M结尾）这样的表达模式是不存在的。条件随机场模型可以有效地约束预测的标记数据中标记之间的关系，对标记数据的标记序列进行建模，从而获取全局最优序列。

本实施例中，通过条件随机场模型对所述标记数据的学习，得到所述标记之间的依赖关系，所述标记之间的依赖关系可以帮助地址要素提取模型预测地址文本对应的标记数据，还可以作为地址要素提取模型进行地址要素提取的依据，有利于提升地址要素提取模型对地址要素的提取能力。

在一个实施例中，所述地址要素提取模型的构建过程包括：利用知识增强语义表示模型将所述符合预处理要求的地址数据转换成组合编码向量，所述组合编码向量包括字符编码、句子编码、位置编码。

其中，所述知识增强语义表示模型是指使用符合预处理要求的地址数据训练后的知识增强语义表示模型，即已经是适用于构建所述地址要素提取模型的专用模型。所述位置编码是指字符在相应句子中的位置编码。

表3. 组合编码向量形式表

具体地，使用知识增强语义表示模型将所述符合预处理要求的地址数据加上两个特殊的标记：[CLS]表示句子的开头, [SEP]表示句子的末尾。即对于每一个地址数据，开头被嵌入[CLS], 末尾被嵌入[SEP]。使用知识增强语义表示模型的wordpiece分词器（wordpiece为知识增强语义表示模型中分词器的名称）对加入了[CLS]标记和[SEP]标记的地址数据进行分割，分割成词符（词符是指计算机语言中的token）级别。知识增强语义表示模型维护了一个包含中文、数字、各种特殊字符、字母的词表，记为 vocab词表，vocab词表中一个词符对应一个身份标识号（身份标识号是指计算机语言中的id）。地址数据中有而 vocab词表中没有的词符用[UNK]表示，对应[UNK]的身份标识号。知识增强语义表示模型将加入了[CLS]和[SEP]标记且分割成词符级别的地址数据表示成包括字符编码-句子编码- 位置编码三部分的组合编码向量。组合编码的形式可以如表3所示，表中segment embeding、token embeding、position embeding分别表示字符编码、句子编码、位置编码。字符编码可以使用统一表示，例如“EA”，句子编码的表示形式可以为由一种统一表示和相应的字符形成的复合形式，例如“E江”、“E苏”、“E省”，位置编码的表示形式可以为由一种统一表示和相应的表示位置的数字形成的复合形式，例如“E1”、“E2”、“E3”。需要说明的是，表 3位置编码中的部分编码由于篇幅原因不在同一行，应视为在同一行，如“E1”、“E10”、和 “E18”在表格的表示中应视为仅存在数字上的区别，有着相同的形式，表3中其他部分内容，例如“CLS”，因篇幅原因占据超过一行内容的，应视为在同一行。需要说明的是，表3中的数据形式仅用于帮助理解组合编码的向量的形式，组合编码向量的具体形式为计算机语言表示的形式，可能与表3有所区别。在位置编码中，出现在不同地址等级的同一个词符会有不同的编码。在知识增强语义表示模型中，位置向量的计算公式如下，其中，编码使用的是正弦函数和余弦函数，

代表位置编码，

代表地址中的第几个字，

代表第几维，编码后的向量维度设为

，

表示正弦函数，

表示余弦函数。

本实施例中，通过将所述符合预处理要求的地址数据转换成组合编码向量，一方面，对地址数据进行编码的操作使得地址数据的形式转换成了计算机能够识别的形式，方便了地址数据在训练中的使用，另一方面，所述组合编码向量包括字符编码、句子编码、位置编码，这些组合编码将地址数据的上下文之间的关系，字符与字符之间的关系，字符位置与位置之间的关系以机器能够识别的方式表现了出来，方便了地址要素提取模型对这些关系的学习，有利于地址要素提取模型对地址要素的提取。

在一个实施例中，所述地址要素提取模型的构建过程包括：将所述组合编码向量通过知识增强语义表示模型的全连接层（全连接层的英文全称是Fully Connected layer）映射到所述标签集合，得到文本向量；将所述文本向量和所述标记数据输入条件随机场模型，通过条件随机场模型学习所述文本向量和所述标记数据，得到所述文本向量的词符与所述标记数据的标记之间的对应关系，根据所述文本向量预测相对应的标记数据。

其中，所述知识增强语义表示模型是指使用符合预处理要求的地址数据训练后的知识增强语义表示模型，即已经是适用于构建所述地址要素提取模型的专用模型。

具体地，当地址等级为13级时，标签集合共有43个标签，全连接层的节点也有43个，每一个节点代表一个标签。那么将组合编码向量通过全连接层后就转变成维度为43的向量，这个维度为43的向量即所述文本向量。将所述文本向量和所述标记数据输入条件随机场模型，通过条件随机场模型对输入内容进行学习，得到所述文本向量的词符与所述标记之间的对应关系。随后，条件随机场模型便能够根据所述文本向量预测相对应的标记数据（这句话中的“所述文本向量”是指组合编码向量经过全连接层转换后的维度为43的向量，可以是有相对应的标记数据的文本向量，例如用于训练的文本向量，也可以是没有相对应的标记数据的文本向量，例如需要进行地址要素提取的新地址数据的文本向量）。

本实施例中，通过知识增强语义表示模型将所述组合编码向量转变为文本向量，将所述文本向量和所述标记数据输入条件随机场模型，条件随机场模型通过学习得到所述词符与所述标记之间的对应关系后，能够根据所述文本向量预测相对应的标记数据，即能根据文本向量预测直接用于地址要素提取的标记数据，十分有利于地址要素提取模型对地址要素的提取。

为了进一步公开本公开提供的地址要素提取方法，以下结合附图3，在一个实施例中，针对地址要素提取模型的训练提供优选的方案。

S302：获取1万条地址数据，对获取的地址数据全部进行预处理，即删除每条地址数据中与地址信息无关的字符，得到符合预处理要求的地址数据，所述符合预处理要求的地址数据组成预处理数据集；

S304：根据国家行政区域和自定义规则将地址等级划分为13级，具体如表4所示，按照BMESO的方式对所述地址等级进行标注，每一级都定义有BMES前缀表示的开头标签、中间标签、结尾标签和单个标签，再加一个什么都不是的标签“O”，共有43（13×4+1=43）个标签，所述43个标签构成标签集合；

S306：将所述预处理数据集拆分成第一训练集和第一测试集，第一训练集和第一测试集的数据比例为4：1，即训练数据8000条，测试数据2000条，分别对所述第一训练集和第一测试集进行复制，得到第二训练集和第二测试集，第二训练集的数据与第一训练集的数据一一对应，第二测试集的数据与第一测试集的数据一一对应，使用第一训练集数据训练知识增强语义表示模型，得到适用于构建地址要素提取模型的专用模型（后续步骤中所述的知识增强语义表示模型皆指经过第一训练集训练过的专用的知识增强语义表示模型）；

表4. 地址要素级别与特征表

S308：根据所述标签集合，对所述第二训练集和所述第二测试集的数据进行标记，得到标记数据，所述标记数据被按照BMESO的方式标记且包含地址等级信息；

S310：使用知识增强语义表示模型的wordpiece分词器对标记后的第二训练集和第二测试集数据进行分割，分割到词符（词符指的是计算机语言中的token）级别，对分割后的数据进行编码，即将分割后的地址数据表示成计算机能够识别的形式，得到标记第二训练集和标记第二测试集；

S312：使用知识增强语义表示模型将所述第一训练集和第一测试集的数据加上表示一条地址数据开头的标记[CLS]和表示一条地址数据末尾的标记[SEP]，使用知识增强语义表示模型的wordpiece分词器对加入[CLS]标记和[SEP]标记的数据进行分割，分割到词符（词符指的是计算机语言中的token）级别，使用知识增强语义表示模型将分割后的地址数据表示成字符编码-句子编码-位置编码三部分组合编码的向量，得到组合编码向量，使得地址数据中的词符被表示成向量，每个词符向量包含地址数据的上下文之间的关系，字符与字符之间的关系，字符位置与位置之间的关系；

S314：将组合编码的第一训练集和所述标记第二训练集合并，合并后的数据集称为训练集，训练集中的组合编码向量和标记数据一一对应，将组合编码的第二测试集和所述第二测试集合并，合并后的数据集称为测试集，测试集中的组合编码向量和标记数据一一对应；

S316：用所述训练集训练知识增强语义表示模型和条件随机场模型，将训练集中的组合编码向量通过知识增强语义表示模型的全连接层映射到所述标签集合，使所述组合编码向量转换成文本向量，将所述文本向量和对应的标记数据，输入给条件随机场模型，让条件随机场模型学习文本向量和标记数据之间的关系，训练过程中，用所述测试集测试训练效果，并将测试结果反馈给知识增强语义表示模型和条件随机场模型，根据所述反馈的测试结果，知识增强语义表示模型调整输出的文本向量，条件随机场模型调整输出的预测标记数据，当条件随机场模型输出的预测标记数据与测试集中对应的标记数据一致时，即当知识增强语义表示模型和条件随机场模型能根据测试集中的组合编码向量预测对应的数据标记时，训练结束，得到基于知识增强语义表示模型和条件随机场模型的地址要素识别模型。

本实施例中，通过训练，知识增强语义表示模型成为一个能表示地址上下文信息的模型，即能够以机器能够识别的形式将地址数据表示成一个包含地址上下文信息的文本向量，所述文本向量还包含地址等级信息，条件随机场模型则成为一个能根据所述文本向量预测对应的标记数据且能够从所述预测标记数据中提取地址要素的模型，训练后的知识增强语义表示模型和条件随机场模型共同构成地址要素提取模型。

应该理解的是，虽然图2和图3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2和图3中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其它实施例的不同之处。尤其，对于硬件+程序类实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

基于上述所述的地址要素提取方法实施例的描述，本公开还提供地址要素提取装置。所述装置可以包括使用了本说明书实施例所述方法的系统（包括分布式系统）、软件（应用）、模块、组件、服务器、客户端等并结合必要的实施硬件的装置。基于同一创新构思，本公开实施例提供的一个或多个实施例中的装置如下面的实施例所述。由于装置解决问题的实现方案与方法相似，因此本说明书实施例具体的装置的实施可以参见前述方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

在一个实施例中，如图4所示，提供了一种地址要素提取装置，包括：地址信息获取模块、预处理模块和地址要素提取模块，其中：

地址信息获取模块S402，可以用于获取待处理地址数据；

预处理模块S404，用于对所述地址信息进行预处理，得到符合预处理要求的地址数据；

地址要素提取模块S406，用于将所述符合预处理要求的地址数据输入预先构建的地址要素提取模型，得到所述待处理地址数据中的地址要素数据，所述地址要素提取模型基于对知识增强语义表示模型和条件随机场模型进行训练后得到，训练后的知识增强语义表示模型用于表达地址上下文信息，训练后的条件随机场模型用于输出预测的标记数据，训练后的条件随机场模型还用于解码所述标记数据得到地址要素数据。

在一个实施例中，地址要素提取模块S406，用于使用所述符合预处理要求的地址数据训练知识增强语义表示模型，得到适用于构建所述地址要素提取模型的专用模型。

在一个实施例中，地址要素提取模块S406，用于根据国家行政区域和/或根据自定义规则划分地址等级，所述自定义规则包括根据相同地理位置属性划分地址等级的规则。

在一个实施例中，地址要素提取模块S406，用于对所述地址等级进行标签化处理，得到标签集合。每个地址等级作为一个地址标签，每个地址标签都包含自定义的标记，所述自定义的标记可以包括表示地址等级开头字符的标记、表示地址等级中间字符的标记、表示地址等级结尾字符的标记、表示地址要素只有一个字符的标记、表示不是任何一个地址要素字符的标记。

在一个实施例中，地址要素提取模块S406，用于根据所述标签集合，对所述符合预处理要求的地址数据进行地址要素标记，得到标记数据。

在一个实施例中，地址要素提取模块S406，用于将所述标记数据输入条件随机场模型，条件随机场模型学习所述标记数据后，得到所述标记之间的依赖关系。

在一个实施例中，地址要素提取模块S406，用于利用知识增强语义表示模型将所述符合预处理要求的地址数据转换成组合编码向量，所述组合编码向量包括字符编码、句子编码、位置编码。

在一个实施例中，地址要素提取模块S406，用于将所述组合编码向量通过知识增强语义表示模型的全连接层映射到所述标签集合，得到文本向量；将所述文本向量和所述标记数据输入条件随机场模型，条件随机场模型学习所述文本向量和所述标记数据后，得到所述文本向量的词符与所述标记之间的对应关系，根据所述文本向量预测相对应的标记数据。

关于地址要素提取装置的具体限定可以参见上文中对于地址要素提取方法的限定，在此不再赘述。上述地址要素装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储地址数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种地址要素提取方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本公开方案相关的部分结构的框图，并不构成对本公开方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，所述计算机程序产品中包括指令，其特征在于，所述指令被电子设备的处理器执行时，使得所述电子设备能够实现上述各方法实施例中的步骤。

需要说明的，上述所述的装置、计算机设备、计算机可读存储介质、计算机程序产品等根据方法实施例的描述还可以包括其它的实施方式，具体的实现方式可以参照相关方法实施例的描述。同时各个方法以及装置、设备、服务器实施例之间特征的相互组合组成的新的实施例仍然属于本公开所涵盖的实施范围之内，在此不作一一赘述。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本公开所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-Only Memory，ROM）、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本公开的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本公开构思的前提下，还可以做出若干变形和改进，这些都属于本公开的保护范围。因此，本公开专利的保护范围应以所附权利要求为准。

Claims

1.一种地址要素提取方法，其特征在于，所述方法包括：

获取待处理地址数据；

对所述待处理地址数据进行预处理，得到符合预处理要求的地址数据；

将所述符合预处理要求的地址数据输入预先构建的地址要素提取模型，得到所述待处理地址数据中的地址要素数据，所述地址要素提取模型的构建基于对知识增强语义表示模型和条件随机场模型进行训练，训练后的知识增强语义表示模型用于表达地址上下文信息，训练后的条件随机场模型用于输出预测的标记数据，训练后的条件随机场模型还用于解码所述标记数据得到地址要素数据；

所述训练使用的数据集包括训练集、测试集，所述训练包括：用所述测试集测试训练效果，并将测试结果反馈给知识增强语义表示模型和条件随机场模型，根据所述反馈的测试结果，知识增强语义表示模型调整输出的文本向量，条件随机场模型调整输出的预测标记数据，当知识增强语义表示模型和条件随机场模型能根据测试集中的组合编码向量预测对应的数据标记时，训练结束。

2.根据权利要求1所述的方法，其特征在于，所述地址要素提取模型的构建至少包括下述的处理过程：

根据国家行政区域和/或根据自定义规则划分地址等级，所述自定义规则包括根据相同地理位置属性划分地址等级的规则。

3.根据权利要求2所述的方法，其特征在于，所述地址要素提取模型的构建至少包括下述的处理过程：

根据所述地址等级确定不同等级的地址要素，对所述不同等级的地址要素标签化处理，形成标签集合。

4.根据权利要求3所述的方法，其特征在于，所述地址要素提取模型的构建至少包括下述的处理过程：

根据所述标签集合，对所述符合预处理要求的地址数据进行地址要素标记，得到标记数据，所述标记数据包含标记，所述标记包括表示地址要素开头字符的标记、表示地址要素中间字符的标记、表示地址要素结尾字符的标记、表示地址要素只有一个字符的标记、表示不是任何一个地址要素字符的标记。

5.根据权利要求4所述的方法，其特征在于，所述地址要素提取模型的构建至少包括下述的处理过程：

将所述标记数据输入条件随机场模型，通过条件随机场模型学习所述标记数据，得到所述标记之间的依赖关系。

6.根据权利要求5所述的方法，其特征在于，所述地址要素提取模型的构建至少包括下述的处理过程：

利用知识增强语义表示模型将所述符合预处理要求的地址数据转换成组合编码向量，所述组合编码向量包括字符编码、句子编码、位置编码。

7.根据权利要求6所述的方法，其特征在于，所述地址要素提取模型的构建至少包括下述的处理过程：

将所述组合编码向量通过知识增强语义表示模型的全连接层映射到所述标签集合，得到文本向量；

将所述文本向量和所述标记数据输入条件随机场模型，通过条件随机场模型学习所述文本向量和所述标记数据，得到所述文本向量的词符与所述标记之间的对应关系，根据所述文本向量预测相对应的标记数据。

8.一种地址要素提取装置，其特征在于，所述装置包括：

地址信息获取模块，用于获取待处理地址数据；

地址要素提取模块，用于将所述符合预处理要求的地址数据输入预先构建的地址要素提取模型，得到所述待处理地址数据中的地址要素数据，所述地址要素提取模型基于对知识增强语义表示模型和条件随机场模型进行训练后得到，训练后的知识增强语义表示模型用于表达地址上下文信息，训练后的条件随机场模型用于输出预测的标记数据，训练后的条件随机场模型还用于解码所述标记数据得到地址要素数据；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。