CN111104802A

CN111104802A - 一种地址信息文本的提取方法及相关设备

Info

Publication number: CN111104802A
Application number: CN201911270156.0A
Authority: CN
Inventors: 张思亮
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2020-05-05
Anticipated expiration: 2039-12-11
Also published as: CN111104802B

Abstract

本发明实施例适用于语音语义领域中的自然语言处理，公开了一种地址信息文本的提取方法及相关设备，所述方法包括：生成针对输入文本序列中每个序列文字的原始编码向量；通过注意力机制得到所述各个序列文字的注意力特征向量；分别确定所述各个序列文字针对预设的多种文字属性标签的标签取值概率；获取各个所述文字属性标签之间互相转移的标签转移概率；确定所述输入文本序列在不同的标签状态下的标签组合得分；将标签组合得分最高的标签状态确定为所述输入文本序列的目标标签状态，并根据所述目标标签状态下所述各个序列文字对应的文字属性标签，提取所述输入文本序列中的地址信息文本。本发明可以提高输入文本序列中地址信息文本的召回率。

Description

一种地址信息文本的提取方法及相关设备

技术领域

本申请涉及信息提取领域，尤其涉及一种地址信息文本的提取方法及相关设备。

背景技术

地址信息提取是在智能机器人交互领域、物流领域、大数据领域都有重要的作用。传统的地址信息提取可以通过关键字匹配的方式进行地址提取，如，针对一段输入文本在识别到输入文本中有“省”字时，将“省”字之前的若干个字作为地址中的省份名，在识别到输入文本中有“市”时，将“市”之前的若干个字作为地址中的城市名，类似方法获取区域名、乡镇名等。由于中文表达形式丰富多样，在实际应用场景中，输入文本中的地址通常没有以省、市、区等规范的命名方式存在，导致了上述这种关键字匹配的方式不能准确有效地识别文本中的地址信息，文本信息中的地址召回率较低。

发明内容

本申请提供一种地址信息文本的提取方法及相关设备，通过本发明可以从单个序列文字的文字属性标签和相邻两个序列文字的文字属性标签的组合两个方面作为参考信息，对输入文本序列进行地址信息文本提取，可以提高输入文本序列中地址信息文本的召回率。

本发明实施例第一方面提供了一种地址信息文本的提取方法，包括：

生成针对输入文本序列中各个序列文字的原始编码向量；

分别根据所述各个序列文字的原始编码向量，通过注意力机制提取所述各个序列文字的文字特征，得到所述各个序列文字的注意力特征向量；

分别将所述各个序列文字的注意力特征向量输入预设的标签分类模型，得到所述各个序列文字针对预设的多种文字属性标签的标签取值概率，所述文字属性标签为用于指示序列文字是否具有地址类相关属性的标签；

获取各个所述文字属性标签之间互相转移的标签转移概率，第一文字属性标签转移到第二文字属性标签的标签转移概率为任意相邻的两个序列文字中前一个序列文字和后一个序列文字各自对应的文字属性标签分别是所述第一文字属性标签和所述第二文字属性标签的概率，其中，所述第一文字属性标签和所述第二文字属性标签为所述预设的多种文字属性标签中的任意两个；

根据所述各个序列文字的标签取值概率以及所述标签转移概率，确定所述输入文本序列在不同的标签状态下的标签组合得分，所述输入文本序列的不同的标签状态为所述各个序列文字在对应不同的文字属性标签的情况下产生的；

将标签组合得分最高的标签状态确定为所述输入文本序列的目标标签状态，并根据所述目标标签状态下所述各个序列文字对应的文字属性标签，提取所述输入文本序列中的地址信息文本。

结合本发明实施例第一方面，在第一种可能的实现方式中，所述生成针对输入文本序列中每个序列文字的原始编码向量包括：

对所述输入文本序列分别进行语义嵌入和位置嵌入，得到所述输入文本序列中每个序列文字的原始语义向量和原始位置向量；

分别将所述各个序列文字的原始语义向量和原始位置向量进行融合，得到所述各个序列文字的原始编码向量。

结合本发明实施例第一方面，在第二种可能的实现方式中，所述分别根据所述各个序列文字的原始编码向量，通过注意力机制提取所述各个序列文字的文字特征，得到所述各个序列文字的注意力特征向量包括：

根据所述原始编码向量与预设的查询因子标准化权重，确定所述各个序列文字的查询因子向量；

根据所述原始编码向量与预设的键因子标准化权重，确定所述各个序列文字的键因子向量；

根据所述原始编码向量与预设的值因子标准化权重，确定所述各个序列文字的值因子向量；

分别确定所述各个序列文字的查询因子向量与第一序列文字的键因子向量之间的相关性，得到所述各个序列文字关于所述第一序列文字的相关性权重，所述第一序列文字为所述输入文本序列中的任意一个序列文字；

将所述各个序列文字关于所述第一序列文字的相关性权重，与各自的值因子向量相乘后的和，确定为所述第一序列文字的注意力特征向量。

结合本发明实施例第一方面，在第三种可能的实现方式中，所述根据所述各个序列文字的标签取值概率以及所述标签转移概率，确定所述输入文本序列在不同的标签状态下的标签组合得分包括：

根据所述标签转移概率确定所述输入文本序列在第一标签状态下，任意相邻的两个序列文字的文字属性标签之间的标签转移概率，所述第一标签状态为所述输入文本序列的任意一个标签状态；

将所述第一标签状态下各个相邻的两个序列文字的文字属性标签之间的标签转移概率的和，加上所述第一标签状态下各个序列文字的标签取值概率的和，得到所述输入文本序列在第一标签状态下的标签组合得分。

结合本发明实施例第一方面，在第四种可能的实现方式中，所述文字属性标签包含非地址类文字标签、地址起始文字标签以及地址非起始文字标签；

所述根据所述目标标签状态下所述各个序列文字的文字属性标签，提取所述输入文本序列中的地址信息文本包括：

确定在所述目标标签状态下，所述输入文本序列中文字标签属性为地址起始文字标签的序列文字中的目标起始序列文字，所述目标起始序列文字的右侧相邻至少一个或连续多个对应地址非起始文字标签的序列文字；

将所述目标起始序列文字，以及所述目标起始序列文字右侧相邻的至少一个或连续多个具有地址非起始文字标签的序列文字，构成所述输入文本序列中的地址信息文本。

结合本发明实施例第一方面。在第五种可能的实现方式中，所述获取各个所述文字属性标签之间互相转移的标签转移概率包括：

获取多个地址类样本序列，各个所述地址类样本序列携带各自样本文字的标注文字属性标签；

根据预设的各个所述文字属性标签之间的标签转移初始化概率，以及所述地址类样本序列各自样本文字的标注文字属性标签，分别确定各个所述地址类样本序列中样本文字的标注标签转移得分；

确定各个地址类样本序列在各自的样本文字对应不同的文字属性标签的情况下，各个所述地址类样本序列的假定标签转移得分；

分别确定各个所述地址类样本序列的标注标签转移得分，与各自的样本文字对应各种不同的文字属性标签时的假定标签转移得分的和的比值；

调节所述各个所述文字属性标签之间的标签转移初始化概率使所述比值升高，得到各个所述文字属性标签之间的所述标签转移概率。

结合本发明实施例第一方面，在第六种可能的实现方式中，所述根据所述目标标签状态下所述各个序列文字的文字属性标签，提取所述输入文本序列中的地址信息文本之后，还包括：

对所述地址信息文本进行分词，识别所述地址信息文本中的多个地址词汇；

分别将各个所述地址词汇与预设的标准地址文本库中的地址文本进行比对，确定所述地址词汇各自匹配的标准地址文本；

确定各个所述标准地址文本对应地理区域之间的重叠地理区域，根据所述重叠地理区域与各个标准地址文本对应的地理区域，确定所述输入文本序列对应的标准地址文本。

结合本发明实施例第一种可能的实现方式的第六种可能的实现方式，在第七种可能的实现方式中，所述根据所述重叠地理区域与各个标准地址文本对应的地理区域，确定所述输入文本序列对应的标准地址文本包括：

若各个所述标准地址文本对应的地理区域之间均存在同一重叠地理区域，则分别确定所述同一重叠地理区域与各个所述标准地址文本对应的地理区域的区域面积比值；

将最大的区域面积比值对应的标准地址文本确定为所述输入文本序列对应的标准地址文本。

本发明实施例第二方面提供了一种地址信息文本的提取装置，包括：

原始向量生成模块，用于生成针对输入文本序列中各个序列文字的原始编码向量；

特征提取模块，用于分别根据所述各个序列文字的原始编码向量，通过注意力机制提取所述各个序列文字的文字特征，得到所述各个序列文字的注意力特征向量；

取值概率确定模块，用于分别将所述各个序列文字的注意力特征向量输入预设的标签分类模型，得到所述各个序列文字针对预设的多种文字属性标签的标签取值概率，所述文字属性标签为用于指示序列文字是否具有地址类相关属性的标签；

转移概率获取模块，用于获取各个所述文字属性标签之间互相转移的标签转移概率，第一文字属性标签转移到第二文字属性标签的标签转移概率为任意相邻的两个序列文字中，前一个序列文字和后一个序列文字各自对应的文字属性标签分别是所述第一文字属性标签和所述第二文字属性标签的概率，其中，所述第一文字属性标签和所述第二文字属性标签为所述预设的多种文字属性标签中的任意两个；

得分确定模块，用于根据所述各个序列文字的标签取值概率以及所述标签转移概率，确定所述输入文本序列在不同的标签状态下的标签组合得分，所述输入文本序列的不同的标签状态为所述各个序列文字在对应不同的文字属性标签的情况下产生的；

地址文本提取模块，用于将标签组合得分最高的标签状态确定为所述输入文本序列的目标标签状态，并根据所述目标标签状态下所述各个序列文字对应的文字属性标签，提取所述输入文本序列中的地址信息文本。

本发明实施例第三方面提供了另一种地址信息文本的提取装置，包括处理器、存储器以及通信接口，所述处理器、存储器和通信接口相互连接，其中，所述通信接口用于接收和发送数据，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，所述程序代码当被计算机执行时使所述计算机执行上述第一方面和第一方面各个可能的实现方式中的任意一种方法。

本发明实施例第四方面提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被计算机执行时使所述计算机执行上述第一方面和第一方面各个可能的实现方式。

本发明实施例中，针对输入文本序列中的每个序列文字生成原始编码向量，分别根据各个序列文字的原始编码向量，通过注意力机制提取各个序列文字的文字特征，得到各个序列文字的注意力特征向量，然后分别将各个序列文字的注意力特征向量输入预设的标签分类模型，得到各个序列文字针对预设的文字属性标签的标签取值概率，并获取各个文字属性标签之间互相转移的标签转移概率，进而根据各个序列文字的标签取值概率和标签转移概率，确定输入文本序列在不同标签状态下的标签组合得分，然后根据标签组合得分最高的目标标签状态下，各个序列文字对应的文字属性标签，提取输入文本序列中的地址信息文本。根据注意力特征向量确定的各个序列文字针对各个文字属性标签的标签取值概率，反映了每个序列文字对应各个文字属性标签的可能性大小，输入文本序列中每相邻的两个序列文字的文字属性标签之间的标签转移概率，反映了相邻的两个序列文字对应的标签组合的可能性的大小，从单个序列文字的文字属性标签和相邻两个序列文字的文字属性标签的组合两个方面作为参考信息，对输入文本序列进行地址信息文本提取，可以提高输入文本序列中地址信息文本的召回率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种BERT的网络架构示意图；

图2为本发明实施例提供的一种地址信息文本的提取方法的流程示意图；

图3为本发明实施例提供的一种CBOW的训练网络的示意图；

图4为本发明实施例提供的一种注意力特征向量的确定方式示例图；

图5为本发明实施例提供的一种地址信息文本的提取装置的结构示意图；

图6为本发明实施例提供的另一种地址信息文本的提取装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的地址信息文本的提取方法为基于BERT(BidirectionalEncoder Representation from Transformers，转换器的双向编码器表示)机制和基于CRF(Conditional Random Field，条件随机场)机制的文本提取方法，在介绍本发明实施例提供的地址信息文本的提取方法之前，首先对BERT和CRF的相关技术进行介绍。

BERT的本质上是通过在海量的语料的基础上进行自监督学习，学习之后可以作为特征提取器为文本提供一个好的特征表示，然后在特定的NLP(Natural LanguageProcessing，自然语言处理)任务中，可以在BERT后添加一个NLP任务对应的输出层，然后直接使用BERT的特征表示作为该输出层的输入词嵌入特征，所以BERT提供的是一个供其它任务迁移学习的基础模型，该模型可以根据任务微调或者固定之后作为特征提取器。参见图1，图1为本发明实施例提供的一种BERT的网络架构示意图，如图所示，为BERT作为特征提取器的网络架构示意图，BERT网络至少包括文本序列编码层、注意力层、第一归一化层、全连接层和第二归一化层。在后续对本发明实施例提供的地址信息文本的提取方法的介绍中，将结合BERT网络包含的各个部分进行介绍。

CRF是一种条件概率分布模型P(Y|X)，表示的是给定一组输入随机变量X的条件下，输出随机变量Y的马尔科夫随机场，也就是说CRF的特点是假设输出随机变量构成马尔科夫随机场。马尔科夫随机场是具有马尔科夫随机特性的随机场，马尔科夫特性为在已知变量眼下状态(如今)的条件下，它未来的变化(将来)不依赖于以往的变化，而只跟眼下所处的状态有关。本发明实施例中就是将输入文本序列中各个序列文字的文字属性标签之间看作具有马尔科夫特性，也就是相邻两个序列文字中后一个序列文字的文字属性标签仅与前一个序列文字的文字属性标签有关，与前一个序列文字之前的序列文字无关，因此，可以通过训练CRF，学习得到不同文字属性标签之间的互相转移的标签转移概率，然后确定输入文本序列中各个相邻的序列文字的文字属性标签的组合的可能性，进而确定输入文本序列中各个序列文字最有的文字属性标签的组合。

接下来介绍本发明实施例提供的地址信息文本的提取方法，参阅图2，图2为本发明实施例提供的一种地址信息文本的提取方法的流程示意图，如图所示，所述方法可以包括：

S101，生成针对输入文本序列中各个序列文字的原始编码向量。

这里，输入文本序列的来源可以是聊天记录文本，可以是任意新闻、小说等文章中的文本，还可以是通过图像识别技术从图像中识别出的文本，等等。输入文本序列为文本形式，为了便于对输入文本序列进行特征提取及后续的分类，需要对输入文本序列进行编码，将序列文字降维映射或嵌入到数值向量空间，生成对应的向量表示形式。在图1所示的网络架构中，可以通过文本序列编码层实现。

具体的，为了保留输入文本序列较为完整的语义特征和其中各个序列文字的位置特征，可以对输入文本序列中的每个序列文字分别进行语义嵌入和位置嵌入，得到输入文本序列中各个序列文字的原始语义向量和原始位置向量，进而将各个序列文字的原始语义向量和原始位置向量进行融合，得到各个序列文字的原始编码向量。

其中，对输入文本序列进行语义嵌入得到各个序列文字的原始语义向量的方式可以包含基于频率的语义嵌入方式和基于预测的语义嵌入方式。其中基于频率的语义嵌入方式包括Count Vector(计数向量)嵌入方式、TF-IDF Vector(Term Frequncy-InverseDocument Frequency Vector，词汇频率-逆文档频率向量)嵌入方式和Co-OccurenceVector(共现向量)嵌入方式，上述三种方式都是基于独热(one-hot)编码，以频率为主旨的加权改进方法，都存在编码过程简单，但输出的原始编码向量过大的问题。这里详细介绍基于预测的语义嵌入方式。

基于预测的语义嵌入方式包含CBOW(Continues Bag Of Words，连续词袋)和Skip-Gram两种形式，其中CBOW是根据某一个序列文字的上下文，对该序列文字进行预测的方法，Skip-Gram是CBOW的逆过程，根据某一个序列文字预测上下文，因此CBOW适用于本实施例中根据上下文对序列文字进行编码的场景，下面详细介绍CBOW的训练过程以及通过训练好的CBOW对序列文字进行编码的具体方式。

参阅图3，图3为本发明实施例提供的一种CBOW的训练网络的示意图，该训练网络包含输入层、隐藏层和输出层。

其中，输入层中神经元的数量为i个，i为对预测对象文字进行预测时，输入的上下文的参考文字的数量，例如，针对“我的家在深圳”这句话中，若预测对象文字为“家”，可以预设用于选取参考文字的窗口大小为4，则输入层的神经元可以设置为4个，针对“家”的选取参考文字包含4个，分别为“我”、“的”、“在”和“深”。确定预测对象上下文的参考文字之后，对各个参考文字进行独热编码，得到X1、X2、X3、…、Xi，独热编码的位数为V位，那么对各个参考文字进行独热编码后，X1、X2、X3、…、Xi的大小为1×V；输入层接收X1、X2、X3、…、Xi后，将X1、X2、X3、…、Xi分别与共享的编码初始权重矩阵相乘，得到隐藏层的第一输入向量，其中可以将共享的编码初始权重矩阵的维度设置为V×N(这里N也就是通过训练好的CBOW对序列文字进行编码，得到原始语义向量的维度)，那么隐藏层的第一输入向量的大小为1×N。

隐藏层将各个输入层的神经元传输的输入向量相加后求平均值，并与预设的输出初始权重矩阵相乘，得到输出层的第二输入向量，其中，可以将输出初始权重矩阵的维度设置为N×V，那么输出层的第二输入向量的大小为1×V。

输出层将隐藏层传输的第二输入向量通过Softmax函数归一化处理，得到第二输入向量中各个位数取1的概率，确定概率最大的位数在独热编码中对应的目标文字。例如，针对“我”、“在”、“福”和“田”四个字的独热编码分别为：[1,0,0,0]、[0,1,0,0]、[0,0,1,0]和[0,0,0,1]，若经过Softmax函数归一化处理后，得到第二输入向量中各个位数取1的概率分别为0.5、0.1、0.3和0.1，则将“我”确定为目标文字。然后根据目标文字的独热编码以及预测对象文字的独热编码调节编码初始权重矩阵和解码初始权重矩阵，使得目标文字的独热编码和预测对象文字的独热编码之间的误差降低。

通过多次上述过程的调节，可以得到训练好的语义编码权重矩阵和输出权重矩阵，也就是得到了训练好的CBOW，进而在通过训练好的CBOW对序列文字进行编码时，先对序列文字进行独热编码后，将序列文字的独热编码与调节好的语义编码权重矩阵相乘，得到序列文字的原始语义向量。

其中，针对输入文本序列中每个序列文字进行位置嵌入的方式，可以将序列文字在输入序列文本中不同的位置索引映射成各自对应的预设维度的向量表示，得到各个序列文字的原始位置向量。一种可选的方式中，原始位置向量的预设维度设置可以为与原始语义向量相同的维度。具体的，可以通过以下公式得到对每个序列文字的原始位置向量：

其中，d_pos是原始位置向量的预设维度，i是原始位置向量的维度索引因子，i是正整数，通过i取不同的整数，得到不同原始位置向量中不同维度的维度索引，p是序列文字在输入文本序列中的位置索引，PE_2i(p)表示原始位置向量中偶数的维度索引对应的值，PE_2i+1(p)表示原始位置向量中奇数的维度索引对应的值。例如，若原始位置向量的预设维度为3，即d_pos＝3，输入文本序列为“我在福田”，则序列文字“我”对应的原始位置向量确定方式为：令p＝1，分别求得当i＝0时，PE₁(p＝1)＝cos1≈0.9998，当i＝1时，PE₂(p＝1)＝sin(1/10000^2/3)≈0.9696，PE₃(p＝1)＝cos(1/10000^2/3)≈-0.2446，得到序列文字对应的原始位置向量为[0.998,0.9696,-0.2446]，进而可以分别令p＝2，p＝3，p＝4得到序列文字“在”、“福”、“田”各自的原始位置向量。

将各个序列文字的原始语义向量和原始位置向量确定之后，可以将每个序列文字各自的原始语义向量和原始位置向量进行前后拼接，得到的新的向量即为各个序列文字对应的原始编码向量。可选的，在原始位置向量的预设维度与原始语义向量相同时，还可以将每个序列文字的原始语义向量与原始位置向量相加后得到各个序列文字的原始编码向量。

S102，分别根据所述各个序列文字的原始编码向量，通过注意力机制提取所述各个序列文字的文字特征，得到所述各个序列文字的注意力特征向量。

这里，通过注意力机制提取各个序列文字的文字特征可以通过图1的网络架构中的注意力层实现，实现过程可以为：根据所述原始编码向量与预设的查询因子标准化权重，确定所述各个序列文字的查询因子向量；根据所述原始编码向量与预设的键因子标准化权重，确定所述各个序列文字的键因子向量；根据所述原始编码向量与预设的值因子标准化权重，确定所述各个序列文字的值因子向量；分别确定所述各个序列文字的查询因子向量与第一序列文字的键因子向量之间的相关性，得到所述各个序列文字关于所述第一序列文字的相关性权重，所述第一序列文字为所述输入文本序列中的任意一个序列文字；将所述各个序列文字关于所述第一序列文字的相关性权重，与各自的值因子向量相乘后的和，确定为所述第一序列文字的注意力特征向量。

下面结合图4对注意力特征向量的确定方式做进一步介绍，参见图4，图4为本发明实施例提供的一种注意力特征向量的确定方式示例图，如图所示，所述输入文本序列为“我在福田”，分别生成针对“我”、“在”、“福”和“田”原始编码向量X1、X2、X3和X4，然后将X1分别与注意力层训练好的查询因子自标准化权重、键因子标准化权重和值因子标准化权重分别相乘，得到“我”对应的查询因子向量(query向量)、键因子向量(key向量)和值因子向量(value向量)：Q1、K1和V1，按照同样方式，得到“在”的query向量、key向量和value向量：Q2、K2和V2，“福”的query向量、key向量和value向量：Q3、K3和V3，以及“福”的query向量、key向量和value向量：Q4、K4和V4，进而生成针对“我”的注意力特征向量的方式为：将“我”的query向量分别与“我”、“在”、“福”和“田”各自的key向量相乘，得到“我”、“在”、“福”和“田”各自的注意力得分：S1、S2、S3和S4，也就是“我”、“在”、“福”和“田”关于“我”的相关性权重，进而为了避免各个向量之间相乘后的结果数值过大，通过softmax对各个注意力得分进行归一化处理，得到“我”、“在”、“福”和“田”各自的归一化注意力得分S1’、S2’、S3’和S4’，分别将“我”、“在”、“福”和“田”的归一化注意力得分与各自的value向量相乘后相加，即得到“我”对应的注意力特征向量Z1。按照同样的方式即可得到“在”“福”和“田”的注意力特征向量：Z2、Z3和Z4。

可选的，图1对应的注意力层中可以包含多个并行的注意力网络，各个并行的注意力网络各自的权重不共享(这里，各个注意力网络的权重可以包括各自的查询因子标准化权重、键因子标准化权重和值因子标准化权重)，各个并行的注意力网络分别通过自身的权重矩阵对输入的序列文字进行文字特征提取，最后将各个注意力网络针对同一个序列文字的输出进行拼接，作为注意力层提取的各个序列文字的注意力特征向量。

这里，可以直接将注意力层通过以上步骤得到的注意力特征向量用作步骤S103中用于确定标签取值概率的注意力特征向量，可选的，还可以将图1中注意力层输出的注意力特征向量以及文本序列编码层输出的原始编码向量均输入第二归一化层，进行归一化处理，通过这种网络连接可以缓解网络梯度消失的问题，并加强了内部文字特征的复用，减少计算量，进而将第二归一化层的输出传输给全连接层，实现将提取到的序列文字的局部特征融合成序列文字的整体特征，然后再将全连接层的输出以及第二归一化层的输出传输给第一归一化层，进一步缓解网络梯度消失的问题，加强内部文字特征的复用，减少计算量，并避免数据过大的问题，进而将第一归一化层的输出作为步骤S103中用于确定标签取值概率的注意力特征向量。

进一步可选的，可以在图1中的第一归一化层的后面设置多个权重独立的注意力层、第二归一化层、全连接层、第一归一化层的网络组合，用于提取各个序列文字的深层次特征。

S103，分别将所述各个序列文字的注意力特征向量输入预设的标签分类模型，得到所述各个序列文字针对预设的多种文字属性标签的标签取值概率。

其中，文字属性标签为用于指示序列文字是否具有地址类相关属性的标签，上述文字属性标签的设置方式有多种，其中一种设置方式中，文字属性标签可以设置为包含地址类文字标签和非地址类文字标签两种，又一种设置方式中，文字属性标签可以设置为包含非地址类文字标签、地址起始文字标签以及地址非起始文字标签。

这里，可以设置一个Softmax分类层作为BERT后添加的一个NLP分类任务对应的输出层，该Softmax分类层可以作为标签分类模型，用于对各个序列文字进行分类，根据各个序列文字的注意力特征向量，确定出各个序列文字针对各个文字属性标签的标签取值概率。具体的，在步骤S103之前，可以针对多个标记了文字属性标签的分类样本文字，参照步骤S101～步骤S102中生成序列文字的注意力特征向量的过程，生成各个分类样本文字的注意力特征向量。其中，上述分类样本文字中各个文字属性标签下的多个分类样本文字。进而将各个分类样本文字的注意力特征向量，输入初始化后的标签分类模型(如上述Softmax分类层)，得到各个分类样本文字关于各种文字属性标签的分类概率，进而根据各个分类样本文字的分类概率，以及各个分类样本文字标记的文字属性标签，对标签分类模型的模型参数进行调节，使得各个分类样本文字自身标记的文字属性标签对应的分类概率最大化，经过多次上述过程，当输出的各个分类样本文字的分类概率满足一定的条件时，得到上述预设的标签分类模型。

S104，获取各个所述文字属性标签之间互相转移的标签转移概率。

其中，针对预设的多个文字属性标签中的任一第一文字属性标签和任一第二文字属性标签，第一文字属性标签转移到第二文字属性标签的标签转移概率为任意相邻的两个序列文字中，前一个序列文字和后一个序列文字各自对应的文字属性标签分别是所述第一文字属性标签和所述第二文字属性标签的概率。

具体的，可以通过以下方式获取各个文字属性标签之间的标签转移概率：获取多个地址类样本序列，各个所述地址类样本序列携带各自样本文字的标注文字属性标签；根据预设的各个所述文字属性标签之间的标签转移初始化概率，以及所述地址类样本序列各自样本文字的标注文字属性标签，分别确定各个所述地址类样本序列中样本文字的标注标签转移得分；确定各个地址类样本序列在各自的样本文字对应不同的文字属性标签的情况下，各个所述地址类样本序列的假定标签转移得分；分别确定各个所述地址类样本序列的标注标签转移得分，与各自的样本文字对应各种不同的文字属性标签时的假定标签转移得分的和的比值；调节所述各个所述文字属性标签之间的标签转移初始化概率使所述比值升高，得到各个所述文字属性标签之间的所述标签转移概率。

S105，根据所述各个序列文字的标签取值概率以及所述标签转移概率，确定所述输入文本序列在不同的标签状态下的标签组合得分。

其中，输入文本序列的不同的标签状态为各个序列文字在对应不同的文字属性标签的情况下产生的，例如，若预设的文字属性标签有两个：地址类文字标签Y和非地址类文字标签N，输入文本序列为“在深圳”，则输入文本你序列对应的不同的标签状态有八种，不同的标签状态以及各个序列文字对应的文字属性标签表1所示：

表1

输入本文序列在不同标签状态下的标签组合得分的一种确定方式为：根据所述标签转移概率确定所述输入文本序列在第一标签状态下，任意相邻的两个序列文字的文字属性标签之间的标签转移概率，所述第一标签状态为所述输入文本序列的任意一个标签状态；将所述第一标签状态下各个相邻的两个序列文字的文字属性标签之间的标签转移概率的和，加上所述第一标签状态下各个序列文字的标签取值概率的和，得到所述输入文本序列在第一标签状态下的标签组合得分。

举例来说，若输入文本序列为“我在福田”，预设的文字属性标签包含：非地址类文字表亲O、地址起始文字标签B-LOC和地址非起始文字标签I-LOC，若步骤S103中确定的各个序列文字针对预设的多种文字属性标签的标签取值概率如表2所示，其中序列文字对应不同文字属性标签的概率可以记为P_{序列文字-文字属性标签}，例如，P_我-O＝0.7，P_福-B-LOC＝0.8，表2如下所示：

表2

若步骤S104中获取的各个文字属性标签之间的标签转移概率如表3所示，其中不同文字属性标签之间的标签转移概率可以记为A_{第一文字属性标签—>第二文字属性标签}，例如，A_O—>O＝0.5，A_O—>B-LOC＝0.6，表3如下所示：

文字属性标签	O	B-LOC	I-LOC
				O	0.5	0.6	0.1
B-LOC	0.2	0.1	0.7
				I-LOC	0.3	0.3	0.2

表3

则输入文本序列的不同标签状态有81种，其中，“我”、“在”、“福”、“田”对应的文字属性标签分别为O、B-LOC、B-LOC、I-LOC对应的标签状态的标签组合得分为：

S＝A_O→B-LOC+A_{B-LOC→B-LOC}+A_{B-LOC→I-LOC}+P_我-O+P_在-B-LOC+P_福-B-LOC+P_田-I-LOC

＝0.6+0.1+0.7+0.7+0.1+0.8+0.7，

＝0.37

参照上述公式，可以将输入文本序列在81种标签状态下的标签组合得分确定出来。

S106，将标签组合得分最高的标签状态确定为所述输入文本序列的目标标签状态，并根据所述目标标签状态下所述各个序列文字对应的文字属性标签，提取所述输入文本序列中的地址信息文本。

步骤S105中将输入文本序列在不同标签状态下的标签组合得分确定出来后，将标签组合得分最高的标签状态对应的目标标签状态选取出来，进而根据目标标签状态下各个序列文字的文字属性标签，提取输入文本序列中的地址信息文本。

一种实现方式中，若预设的文字属性标签包含地址类文字标签和非地址类文字标签两种标签，则将目标标签状态下输入文本序列中连续的至少两个地址类文字标签对应的序列文字提取出来，构成输入文本序列中的地址信息文本。例如，输入文本序列“我在福田”的目标标签状态为“非地址类文字标签、非地址类文字标签、地址类文字标签、地址类文字标签”，则将“福”和“田”提取出来，将“福田”确定为输入文本序列“我在福田”的地址信息文本。

另一种实现方式中，若预设的文字属性标签包含非地址类文字标签、地址起始文字标签以及地址非起始文字标签，则确定在目标标签状态下，输入文本序列中文字标签属性为地址起始文字标签的序列文字中的目标起始序列文字，目标起始序列文字的右侧相邻至少一个或连续多个对应地址非起始文字标签的序列文字；将目标起始序列文字，以及目标起始序列文字右侧相邻的至少一个或连续多个具有地址非起始文字标签的序列文字，构成所述输入文本序列中的地址信息文本。例如，若输入文本序列“我在福田益田路”对应的目标标签状态为“非地址类文字标签、非地址类文字标签、地址起始文字标签、地址非起始文字标签、地址非起始文字标签、地址非起始文字标签、地址非起始文字标签”，则“福”为目标起始序列位置，将“福”以及“福”右侧相连的4个连续的具有地址非起始文字标签的序列文字“田益田路”提取出来，并将“福田益田路”确定为输入文本序列“我在福田益田路”的地址信息文本。

可选的，步骤S106之后，所述方法还可以包括以下步骤，实现对从输入文本序列提取的地址信息文本进行地址标准化处理，提高本方案地址信息文本提取方法的多场景适用性：

(1)对所述地址信息文本进行分词，识别所述地址信息文本中的多个地址词汇；

(2)分别将各个所述地址词汇与预设的标准地址文本库中的地址文本进行比对，确定所述地址词汇各自匹配的标准地址文本；

(3)确定各个所述标准地址文本对应地理区域之间的重叠地理区域，根据所述重叠地理区域与各个标准地址文本对应的地理区域，确定所述输入文本序列对应的标准地址文本。

其中，对地址信息文本进行分词的算法包括但不限于正向最大匹配算法、邻近匹配算法、逆向最大匹配算法、双向最大匹配法、最短路径匹配算法、N元文法模型以及隐马尔科夫模型算法等。通过上述算法可以实现对地址信息文本进行分词，将连续的地址信息文本按照常用的规范组合成地址词汇，例如，地址信息文本“福田益田路”，对其分词可得到两个地址词汇，“福田”和“益田路”。

其中，预设的标准地址文本库中可以包含按照省/自治区/直辖市/特别行政区、市、县/区、乡镇、街道、门牌号不同地区级别对应的数据库，例如，针对省/自治区/直辖市/特别行政区这一地区级别对应的省级数据库包含23个省、4个直辖市、5个自治区以及2个特别行政区各自对应的省级标准化地址名，例如，广东省、台湾省、北京市、宁夏回族自治区、香港特别行政区、澳门特别行政区等。进而针对每个省级标准化地址名分别建立存储对应的市级标准化地址名的市级数据库，例如，广东省对应的市级数据库中存储包含广州市、深圳市，东莞市等21个市级标准化地址名。以此类推分别建立用于存储各个市级标准化地址名下的各个县/区级标准化地址名的县/区级数据库、分别建立用于存储各个县/区级标准化地址名下各个乡镇级标准化地址名的乡镇级数据库、分别建立用于存储各个乡镇级标准化地址名下各个街道级标准化地址名的乡镇级数库、分别建立用于存储各个街道级标准化地址名下门牌号标准化地址名的门牌级数据库。

进而将各个地址词汇分别与各个地区级别的数据库进行比对，确定各自匹配的标准地址文本。其中地址词汇匹配的标准地址文本由地址词汇对应的本级别的标准化地址名以及本级别以上的地区级别的标准化地址名构成，例如，地址词汇“福田”出现在市级数据库中，其对应的本级别的标准化地址名为市级标准化地址名“福田区”，进而检索市级标准化地址名“福田区”对应的省级标准化地址名为“广东省”，进而将“广东省福田区”作为“福田”对应的标准地址文本。

各个地址词汇匹配的标准地址文本确定之后，确定各个标准地址文本对应地理区域之间的重叠地理区域，一种实现方式中，若各个标准地址文本对应的地理区域之间均存在同一重叠地理区域，则分别确定该同一重叠地理区域与各个标准地址文本对应的地理区域的区域面积比值；将最大的区域面积比值对应的标准地址文本确定为输入文本序列对应的标准地址文本。例如，若分词后得到的地址词汇包含“福田”和“益田路”，其中“福田”对应的标准地址文本为“深圳市福田区”，“益田路”对应的标准地址文本为“深圳市福田区益田路”，二者存在同一重叠地理区域，且重叠地理区域与“深圳市福田区益田路”对应的地理区域的面积比，大于重叠地理区域与“深圳市福田区”对应的地理区域的面积比，因此，确定到的标准地址文本为“深圳市福田区益田路”。

另一种实现方式中，若各个标准地址文本对应的地理区域之间的重叠地理区域不唯一，则将较多标准地址文本对应的地址区域所重叠的重叠地理区域确定为目标重叠地理区域，则将目标重叠地理区域的面积与其对应地理区域的面积比最大的标准地址文本确定为输入文本序列对应的标准地址文本。例如，若分词后得到的地址词汇包含“福田”、“益田路”和“5033号”，其中“福田”对应的标准地址文本为“深圳市福田区”，“益田路”对应的标准地址文本为“深圳市福田区益田路”，“5033号”对应的标准地址文本为“深圳市福田区益田路5033号”和“上海市浦东新区罗山路5033号”，则“深圳市福田区益田路5033号”对应的地理区域为目标重叠地理区域，且目标重叠地理区域与“深圳市福田区益田路5033号”对应的地理区域的面积比最大，因此将“深圳市福田区益田路5033号”确定为标准地址文本。

参加图5，图5为本发明实施例提供的一种地址信息文本的提取装置的结构示意图，如图所示，所述地址信息文本的提取装置50可以至少包含原始向量生成模块501、特征提取模块502、取值概率确定模块503、转移概率获取模块504、得分确定模块505以及地址文本提取模块506，其中：

原始向量生成模块501，用于生成针对输入文本序列中各个序列文字的原始编码向量；

特征提取模块502，用于分别根据所述各个序列文字的原始编码向量，通过注意力机制提取所述各个序列文字的文字特征，得到所述各个序列文字的注意力特征向量；

取值概率确定模块503，用于分别将所述各个序列文字的注意力特征向量输入预设的标签分类模型，得到所述各个序列文字针对预设的多种文字属性标签的标签取值概率，所述文字属性标签为用于指示序列文字是否具有地址类相关属性的标签；

转移概率获取模块504，用于获取各个所述文字属性标签之间互相转移的标签转移概率，第一文字属性标签转移到第二文字属性标签的标签转移概率为任意相邻的两个序列文字中，前一个序列文字和后一个序列文字各自对应的文字属性标签分别是所述第一文字属性标签和所述第二文字属性标签的概率，其中，所述第一文字属性标签和所述第二文字属性标签为所述预设的多种文字属性标签中的任意两个；

得分确定模块505，用于根据所述各个序列文字的标签取值概率以及所述标签转移概率，确定所述输入文本序列在不同的标签状态下的标签组合得分，所述输入文本序列的不同的标签状态为所述各个序列文字在对应不同的文字属性标签的情况下产生的；

地址文本提取模块506，用于将标签组合得分最高的标签状态确定为所述输入文本序列的目标标签状态，并根据所述目标标签状态下所述各个序列文字对应的文字属性标签，提取所述输入文本序列中的地址信息文本。

具体实现中，所述地址信息文本的提取装置50可以通过其内置的各个功能模块执行如图2的地址信息文本的提取方法中的各个步骤，具体实施细节可参阅图2对应的实施例中各个步骤的实现细节，此处不再赘述。

本发明实施例中，原始向量生成模块针对输入文本序列中的每个序列文字生成原始编码向量，特征提取模块分别根据各个序列文字的原始编码向量，通过注意力机制提取各个序列文字的文字特征，得到各个序列文字的注意力特征向量，然后取值概率确定模块分别将各个序列文字的注意力特征向量输入预设的标签分类模型，得到各个序列文字针对预设的文字属性标签的标签取值概率，转移概率获取模块获取各个文字属性标签之间互相转移的标签转移概率，进而得分确定模块根据各个序列文字的标签取值概率和标签转移概率，确定输入文本序列在不同标签状态下的标签组合得分，然后地址文本提取模块根据标签组合得分最高的目标标签状态下，各个序列文字对应的文字属性标签，提取输入文本序列中的地址信息文本。根据注意力特征向量确定的各个序列文字针对各个文字属性标签的标签取值概率，反映了每个序列文字对应各个文字属性标签的可能性大小，输入文本序列中每相邻的两个序列文字的文字属性标签之间的标签转移概率，反映了相邻的两个序列文字对应的标签组合的可能性的大小，从单个序列文字的文字属性标签和相邻两个序列文字的文字属性标签的组合两个方面作为参考信息，对输入文本序列进行地址信息文本提取，可以提高输入文本序列中地址信息文本的召回率。

参见图6，图6为本发明实施例提供的另一种地址信息文本的提取装置的结构示意图，如图所示，所述地址信息文本的提取装置60包括：至少一个处理器601，例如CPU，至少一个网络接口604，用户接口603，存储器605，至少一个通信总线602。其中，通信总线602用于实现这些组件之间的连接通信。其中，用户接口603可以包括显示屏(Display)、摄像头(Camera)，可选用户接口603还可以包括标准的有线接口、无线接口。网络接口604可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器605可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器605可选的还可以是至少一个位于远离前述处理器601的存储装置。如图6所示，作为一种计算机存储介质的存储器605中可以包括操作系统、网络通信模块、用户接口模块以及终端运动状态的确定应用程序。

在图6所示的地址信息文本的提取装置60中，用户接口603主要用于为接收输入文本序列以及向用户推送地址信息文本的接口；而处理器601可以用于调用存储器605中存储的地址信息的提取应用程序，并具体执行以下操作：

生成针对输入文本序列中各个序列文字的原始编码向量；

获取各个所述文字属性标签之间互相转移的标签转移概率，第一文字属性标签转移到第二文字属性标签的标签转移概率为任意相邻的两个序列文字中，前一个序列文字和后一个序列文字各自对应的文字属性标签分别是所述第一文字属性标签和所述第二文字属性标签的概率，其中，所述第一文字属性标签和所述第二文字属性标签为所述预设的多种文字属性标签中的任意两个；

需要说明的是，各个操作的实现还可以对应参照图2所示的方法实施例的相应描述；所述处理器601还可以用于执行上述方法实施例中的其他操作。

本发明实施例还提供一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被计算机执行时使所述计算机执行如前述实施例所述的方法，所述计算机可以为上述提到的地址信息文本的提取装置的一部分。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种地址信息文本的提取方法，其特征在于，包括：

生成针对输入文本序列中各个序列文字的原始编码向量；

2.根据权利要求1所述的方法，其特征在于，所述生成针对输入文本序列中每个序列文字的原始编码向量包括：

3.根据权利要求1所述的方法，其特征在于，所述分别根据所述各个序列文字的原始编码向量，通过注意力机制提取所述各个序列文字的文字特征，得到所述各个序列文字的注意力特征向量包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述各个序列文字的标签取值概率以及所述标签转移概率，确定所述输入文本序列在不同的标签状态下的标签组合得分包括：

5.根据权利要求1所述的方法，其特征在于，所述文字属性标签包含非地址类文字标签、地址起始文字标签以及地址非起始文字标签；

6.根据权利要求1所述的方法，其特征在于，所述获取各个所述文字属性标签之间互相转移的标签转移概率包括：

7.根据权利要求1所述的方法，其特征在于，所述根据所述目标标签状态下所述各个序列文字的文字属性标签，提取所述输入文本序列中的地址信息文本之后，还包括：

8.一种地址信息文本的提取装置，其特征在于，包括：

9.一种地址信息文本的提取装置，其特征在于，包括处理器、存储器以及通信接口，所述处理器、存储器和通信接口相互连接，其中，所述通信接口用于接收和发送数据，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，执行如权利要求1至7任意一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现权利要求1至7任意一项所述的方法。