CN112560478A

CN112560478A - 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法

Info

Publication number: CN112560478A
Application number: CN202011483732.2A
Authority: CN
Inventors: 杜清运; 张红伟; 任福; 张琛; 陈张建; 陈凯; 俞春娜
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2021-03-26
Anticipated expiration: 2040-12-16
Also published as: CN112560478B

Abstract

本发明提出了一种使用语义标注的中文地址RoBERTa‑BiLSTM‑CRF耦合解析方法。本发明将多条地址文本依次进行分词，对分词后的字符进行人工语义标注，得到分词后去重的字符集及语义标注集。通过RoBERTa模型字典和语义标注集将地址文本及其对应的语义标注转化为地址信息矩阵。将地址信息矩阵输入到RoBERTa神经网络，得到地址的语义信息矩阵。将地址的语义信息矩阵输入到BiLSTM对上下文语义信息进行删减，得到标签的得分序列。将标签的得分序列作为输入到CRF模型筛选最优语义标注序列。本发明采用语义标注，能够识别地址中地址元素的层级及空间关系；能够从非标准地址提取标准地址，解决未登录词问题、剔除非标准和错误地址元素，根据地址中的空间关系实现空间推理。

Description

一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法

技术领域

本发明涉及自然语言处理中的中文分词领域，尤其是涉及一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法。

背景技术

随着外卖、快递等行业的发展，基于地址匹配的位置服务扮演着越来越重要的角色，同时也对地址匹配的准确性提出了越来越高的要求。地址解析是地址匹配的重要组成部分，其对地址匹配的准确性有着重要影响。但是，由于定位系统的误差，导致经常使用的百度地图导航、高德地图导航、腾讯地图导航等无法解决最后几十米的导航问题。为了更加准确的对某一位置进行描述，经常在地址中加入距离、方位等空间关系关键词。另外，中文地址作为一种空间数据基础设施，由于不同的需求，会造成地址描述方式的不一致。比如，公安部门要求地址精确到房间号，而工商教育部门一般要求地址精确到楼栋号或门牌号。这些都增加了地址解析的难度。因此，对这些地址进行高效的解析成为了一个急需解决的问题。

地址解析就是把地址中的地址元素以及地址标志结构抽取出来，即结合空间关系地址模型对中文地址进行分词，并标注地址元素的层级及空间关系，为下一阶段的地址标准化和匹配做准备。目前，很多研究者提出了中文地址分词算法。程昌秀等、张雪英等提出了基于规则和词尾特征的中文分词，但是由于地址用字的自由性，该方法分词准确率不高。后来随着统计语言模型的兴起，基于统计模型的地址分词受到了越来越多的关注。应申等提出了基于决策树的城市地址集分词，该方法统计城市地址集的分布特征构建决策树进行地址元素提取，无法解决数据稀疏及过分割问题。蒋文明等提出了基于条件随机场的地址元素提取方法，该方法需要设计复杂的特征。李伟等提出了基于规则和统计的混合方法进行中文地址分词，该方法需要提取词尾特征集，在一定程度上缓解了数据稀疏的问题，仍存在过分割的问题。随着机器学习、特别是深度学习的技术在自然语言处理领域取得了重大突破。李鹏鹏等使用BiGRU进行中文地址分割，该方法只考虑了使用兴趣点地址进行分词，没有考虑地址元素之间的约束关系，无法对地址进行标准化等操作。程博等使用BiLSTM-CRF对中文地址进行分词，该方法提取了地址元素词尾特征以增强地址切分的准确性，并且对地址元素所处的层级进行了标注，但是没有考虑地址中的楼层号、距离关系等。

针对地址分词存在的不足，提出一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法。该方法不需要依赖外部特征，采用基于自然语言理解的深度学习方法学习地址模型特征和上下文信息。

发明内容

本发明针对地址分词存在的不足，提出一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法。

本发明的目的是通过以下技术方法来实现的：一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法，包括以下步骤：

步骤1、将多条地址文本依次进行分词，对分词后的字符进行人工语义标注。处理得到分词后地址字符集合及语义标注集合，将多条分词后地址字符集合及语义标注集合进行拼接，得到分词后去重的字符集及语义标注集；

步骤2、将得到分词后去重的字符集通过RoBERTa模型词典转化为字符信息向量，依据字符信息向量将地址文本转化为地址文本信息矩阵；依据语义标注集将地址文本对应的语义标注转化为语义标注信息矩阵。

步骤3、根据地址文本中字符的位置，采用RoBERTa模型中的三角函数位置编码方式计算地址文本中每个字符的位置信息向量，根据每个字符的位置信息向量将地址文本转化为位置信息矩阵；

步骤4、将地址文本信息矩阵和位置信息矩阵相加，进一步与语义标注信息矩阵拼接得到地址信息矩阵；

步骤5、将地址信息矩阵输入到RoBERTa神经网络，得到地址的语义信息矩阵。

步骤6、将地址的语义信息矩阵输入到BiLSTM，使用前向传播算法和后向传播算法对BiLSTM进行训练，通过门控机制对上下文语义信息进行删减，得到标签的得分序列。

步骤7、将标签的得分序列作为输入，利用条件随机场构建标签之间的约束关系，得到中文地址分词的最优标注序列。

作为优选，步骤1所述的分词后地址字符集合及标注集合定义为：

j∈[1,M]

其中，address_j表示第j条地址分词后的地址字符集合及语义标注集合，word_j,l表示第j条地址分词后的地址字符集合中第l个字符，tag_j,l表示第j条地址分词后的地址字符集合中第l个字符对应的语义标注，K_j表示第j条地址分词后的地址字符集合中字符的数量，H_j表示第j条地址分词后的地址字符对应的语义标注数量，这里K_j＝H_j，M表示地址文本的数量；

步骤1所述分别将多条分词后的地址字符集合及语义标注集合进行拼接为：

{address₁,address₂,...,address_M}

步骤1所述通过去重处理分别得到地址分词后的字符集及语义标注集为将{address₁,address₂,...,address_M}中重复的字符及语义标注剔除，分别得到分词后去重的字符集及语义标注集为：

word＝{word₁,word₂,...,word_N}

tag＝{tag₁,tag₂,...,tag_K}

其中，word_i为地址分词后去重的字符集中第i个字符，N表示地址分词后去重的字符集中字符的数量，i∈[1,N]；tag_i为地址语义标注后去重的语义标注集中第i个语义标注，K表示分词后去重的语义标注集的数量。

作为优选，步骤2所述将分词后去重的字符集通过查找RoBERTa模型词典转化为字符信息向量为：

其中，α_i表示分词后去重的字符集中第i个字符的字符信息向量，i∈[1,N]，N表示分词后的字符集中字符的数量，d_model代表分词后的字符集中第i个字符的字符信息向量的维度；

步骤2所述依据字符信息向量将地址文本转化为地址文本信息矩阵为：

将每条地址中包含的字符通过步骤1得到分词后去重的字符集转化为one-hot向量为：

β_i＝{0,0,...,y_i,…,0}

其中，β_i表示字符集中第i个字符的one-hot向量，y_i表示地址中第i个字符出在word中第i个位置，且y_i＝1，β_i其余位置的值为0，β_i的维数为word中字符集的个数，即N；

限制地址文本长度为L，对于小于L的地址使用零向量进行补充，对于大于L的地址进行截断，零向量定义为：

γ＝{0,0,...,0,…,0}

其中，γ为零向量，所有位置的值为0，γ的维数为word中字符集的个数，即N。

则把一条地址文本η＝[word₁,word₂,…,word_L-1]转化为稀疏信息矩阵为：

B^L*N＝(β₁,β₂,...,β_L-1,γ)^T

通过字符矩阵

和地址稀疏信息矩阵B^L*N，将

转化为步骤2所述地址文本信息矩阵为：

把

对应的每个语义标注转化为one-hot向量为：

τ_i＝{0,0,...,x_i,…,0}

其中，τ_i表示地址中第i个字符对应的语义标注的one-hot向量，x_i表示

这条地址中第i个字符对应的语义标注在tag中第i个位置，且x_i＝1，τ_i其余位置的值为0，τ_i的维数为tag中字符集的个数，即K；

步骤2所述依据语义标注集将地址文本对应的语义标注转化为语义标注信息矩阵为：

D^L*K＝(τ₁,τ₂,…,τ_k)^T

作为优选，步骤3所述计算地址文本中每个字符的位置信息向量为：

PE(pos,2i)＝sin(pos/100002i/d_{mod el})

PE(pos,2i+1)＝cos(pos/100002i/d_model)

其中，PE(pos,2i)、PE(pos,2i+1)分别表示地址文本

每个字符位置的偶数位与奇数位，其中i＝1,2,…,L；pos＝1,2,…,L；

步骤3所述地址文本中第i个字符的位置信息向量为：

其中，z_q表示一个标量，根据步骤3中上面的计算公式得到的

步骤3所述将地址文本转化为位置信息矩阵为：

作为优选，所述步骤4将地址文本信息矩阵和位置信息矩阵相加为：

进一步与语义标注信息矩阵拼接得到地址信息矩阵为

作为优选，所述步骤5包括：

将步骤4得到的地址信息矩阵

输入到RoBERTa模型，使用注意力机制捕获地址的语义信息，其单独的headi自注意力计算公式如下：

其中，W_q、W_k、W_v是RoBERTa神经网络初始化的矩阵，Q是查询向量，K-V是键-值对向量，d为Q与K的维度，

是得到的注意力，即RoBERTa模型第m层的注意力

由于RoBERTa模型是利用多头注意力机制捕获地址语义信息，多头注意力机制就是把每个head的计算结果拼接起来得到地址的语义信息矩阵，具体计算公式如下

其中head_n是第n个head的输出结果，w⁰是RoBERTa模型映射参数矩阵。

作为优选，所述步骤6包括：

将上下文语义信息矩阵输入到BiLSTM模型，通过遗忘门、记忆门、输出门对上下文语义信息进行删减，对于t时刻门控制单元的计算过程如下：

f_t＝σ(w_f·[h_t-1,x_t]+b_f)

i_t＝σ(w_i·[h_t-1,x_t]+b_i)

c_t＝f_t ^*c_t-1+i_t ^*tanh(w_c·[h_t-1,x_t]+b_c)

o_t＝σ(w_o·[h_t-1,x_t]+b_o)

h_t＝o_t ^*tanh(c_t)

其中，h_t-1表示前一时刻的隐藏层状态，x_t表示当前时刻输入的词，f_t表示遗忘门的值，i_t表示记忆门的值，c_t表示当前时刻细胞状态，o_t表示输出门的值，h_t表示当前时刻的隐藏层状态，b_f、b_i、b_c和b_o表示偏移量，w_f、w_i和w_o表示相应门的权重矩阵。分别经过前向LSTM和后向LSTM计算之后，得到地址的前向信息m和后向信息n。

把前向信息、后向信息拼接，得到地址的上下文语义信息v＝[m,n]。

把得到地址的上下文语义信息通过全连接神经网络转化为标签得分序列X＝{x₁，x₂，…，x_n}。计算公式如下

X＝v×E

其中，E为初始化的转换矩阵；

进一步，所述步骤7包括：

将步骤6得到的标签得分序列X＝{x₁，x₂，…，x_n}，对应的标注序列Y＝{y₁，y₂，…，y_n}，输入CRF构建标签之间的约束关系。则计算过程如下：

式中，Z(X)为归一化因子，t_k(y_i-1，y_i，X，i)为观测序列下标注序列在位置i-1与i之间对应值的转移概率，s_k(y_i，X，i)为观察序列下标注序列在位置i对应的值概率。t_k和s_k都是基于位置的特征函数，通常是二值函数，满足特征条件时取值为1，否则为0。参数λ_k和u_k经过语料训练后的权重值，决定着最终的预测结果。

采用维特比算法选取概率最大的Y为最优标注序列。

本发明优点在于：

采用语义标注，能够识别地址中地址元素的层级及空间关系；

能够从非标准地址提取标准地址，解决未登录词问题、并剔除非标准和错误地址元素，根据地址中的空间关系实现空间推理。

附图说明

图1：RoBERTa-BiLSTM-CRF神经网络结构示意图。

图2：本发明方法流程图。

图3：分词后地址语义标注。

图4：注意力机制计算过程。

图5：BiLSTM前后向信息计算过程。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述，以下实施例用于说明本发明，但不用来限制本发明的范围。

本发明提供的一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法，其结构见图1。

下面结合图1至图5介绍本发明的具体实施方式为一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法，方法流程图见图2。具体包括以下步骤：

步骤1、将多条地址文本依次进行分词，对分词后的字符进行人工语义标注，语义标注如表1所示。处理得到分词后地址字符集合及语义标注集合，将多条分词后地址字符集合及语义标注集合进行拼接，得到分词后去重的字符集及语义标注集；

步骤1所述的分词后地址字符集合及标注集合定义为：

j∈[1,M]

其中，address_j表示第j条地址分词后的地址字符集合及语义标注集合，word_j,l表示第j条地址分词后的地址字符集合中第l个字符，tag_j,l表示第j条地址分词后的地址字符集合中第l个字符对应的语义标注，K_j表示第j条地址分词后的地址字符集合中字符的数量，H_j表示第j条地址分词后的地址字符对应的语义标注数量，这里K_j＝H_j，M表示地址文本的数量；分词后地址语义标注见图3。

{address₁,address₂,...,address_M}

word＝{word₁,word₂,...,word_N}

tag＝{tag₁,tag₂,...,tag_K}

表1：语义标注

步骤2、将步骤1得到的分词后去重的字符集通过RoBERTa模型词典转化为字符信息向量，依据字符信息向量将步骤1地址文本转化为地址文本信息矩阵；依据步骤1得到的语义标注集将步骤1地址文本对应的语义标注转化为语义标注信息矩阵。

步骤2所述将分词后去重的字符集通过查找RoBERTa模型词典转化为字符信息向量为：

步骤2所述依据字符信息向量将步骤1地址文本转化为地址文本信息矩阵为：

将每条地址中包含的字符通过步骤1得到word字符集转化为one-hot向量为：

β_i＝{0,0,...,y_i,…,0}

γ＝{0,0,...,0,…,0}

B^L*N＝(β₁,β₂,...,β_L-1,γ)^T

通过字符矩阵

和地址稀疏信息矩阵B^L*N，将

转化为步骤2所述地址文本信息矩阵为：

把

对应的每个语义标注转化为one-hot向量为：

τ_i＝{0,0,...,x_i,…,0}

步骤2所述依据步骤1得到的语义标注集将步骤1地址文本对应的语义标注转化为语义标注信息矩阵为：

D^L*K＝(τ₁,τ₂,…,τ_k)^T

步骤3、根据地址文本η中字符的位置，采用RoBERTa模型中的三角函数位置编码方式计算地址文本中每个字符的位置信息向量，根据每个字符的位置信息向量将地址文本η转化为位置信息矩阵；

步骤3所述计算地址文本中每个字符的位置信息向量为：

PE(pos,2i)＝sin(pos/100002i/d_model)

PE(pos,2i+1)＝cos(pos/100002i/d_model)

其中，PE(pos,2i)、PE(pos,2i+1)分别表示地址文本

步骤3所述地址文本η中第i个字符的位置信息向量为：

其中，z_q表示一个标量，根据步骤3中上面的计算公式得到的步骤3所述将地址文本转化为位置信息矩阵为：

步骤4、将步骤2所述的地址文本信息矩阵和步骤3所述的位置信息矩阵相加，进一步与语义标注信息矩阵拼接得到地址信息矩阵；

进一步，所述步骤4包括：

将将步骤2所述的地址文本信息矩阵和步骤3所述的位置信息矩阵相加为

进一步与语义标注信息矩阵拼接得到地址信息矩阵为

步骤5、将步骤4得到的地址信息矩阵输入到RoBERTa神经网络，得到地址的语义信息矩阵。

进一步，所述步骤5包括：

将步骤4得到的地址信息矩阵

输入到RoBERTa模型，使用注意力机制捕获地址的语义信息，其单独的head_i自注意力计算公式如下：

是得到的注意力，即RoBERTa模型第m层的注意力，注意力机制计算过程见图4。

步骤6、将步骤5得到的上文语义信息矩阵输入到BiLSTM，使用前向传播算法和后向传播算法对BiLSTM进行训练，通过门控机制对上下文语义信息进行删减，得到标签的得分序列。

进一步，所述步骤6包括：

f_t＝σ(w_f·[h_t-1,x_t]+b_f)

i_t＝σ(w_i·[h_t-1,x_t]+b_i)

c_t＝f_t ^*c_t-1+i_t ^*tanh(w_c·[h_t-1,x_t]+b_c)

o_t＝σ(w_o·[h_t-1,x_t]+b_o)

h_t＝o_t ^*tanh(c_t)

把前向信息、后向信息拼接，得到地址的上下文语义信息v＝[m,n]，BiLSTM前后向信息计算过程见图5。

X＝v×E

其中，E为初始化的转换矩阵；

步骤7、将步骤6标签的得分序列作为输入，利用条件随机场构建标签之间的约束关系，得到中文地址分词的最优标注序列。

进一步，所述步骤7包括：

采用维特比算法选取概率最大的Y为最优标注序列。

应当理解的是，本申请书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本申请专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本申请权利要求所保护的范围情况下，还可以做出替换或变形，均落入本申请的保护范围之内，本申请的请求保护范围应以所附权利要求为准。

Claims

1.一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法，其特征在于，包括以下步骤：

步骤1、将多条地址文本依次进行分词，对分词后的字符进行人工语义标注；处理得到分词后地址字符集合及语义标注集合，将多条分词后地址字符集合及语义标注集合进行拼接，得到分词后去重的字符集及语义标注集；

步骤2、将得到分词后去重的字符集通过RoBERTa模型词典转化为字符信息向量，依据字符信息向量将地址文本转化为地址文本信息矩阵；依据语义标注集将地址文本对应的语义标注转化为语义标注信息矩阵；

步骤5、将地址信息矩阵输入到RoBERTa神经网络，得到地址的语义信息矩阵；

步骤6、将地址的语义信息矩阵输入到BiLSTM，使用前向传播算法和后向传播算法对BiLSTM进行训练，通过门控机制对上下文语义信息进行删减，得到标签的得分序列；

2.根据权利要求1所述的使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法，其特征在于：

步骤1所述的分词后地址字符集合及标注集合定义为：

{address₁,address₂,...,address_M}

word＝{word₁,word₂,...,word_N}

tag＝{tag₁,tag₂,...,tag_K}

3.根据权利要求1所述的使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法，其特征在于：

β_i＝{0,0,...,y_i,…,0}

γ＝{0,0,...,0,…,0}

其中，γ为零向量，所有位置的值为0，γ的维数为word中字符集的个数，即N；

B^L*N＝(β₁,β₂,...,β_L-1,γ)^T

通过字符矩阵

和地址稀疏信息矩阵B^L*N，将

转化为步骤2所述地址文本信息矩阵为：

把

对应的每个语义标注转化为one-hot向量为：

τ_i＝{0,0,...,x_i,…,0}

D^L*K＝(τ₁,τ₂,…,τ_k)^T。

4.根据权利要求1所述的使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法，其特征在于：

步骤3所述计算地址文本中每个字符的位置信息向量为：

PE(pos,2i)＝sin(pos/100002i/d_model)

PE(pos,2i+1)＝cos(pos/100002i/d_model)

其中，PE_(pos,2i)、PE_(pos,2i+1)分别表示地址文本

步骤3所述地址文本中第i个字符的位置信息向量为：

其中，z_q表示一个标量，根据步骤3中上面的计算公式得到的

步骤3所述将地址文本转化为位置信息矩阵为：

5.根据权利要求1所述的使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法，其特征在于：

所述步骤4将地址文本信息矩阵和位置信息矩阵相加为：

进一步与语义标注信息矩阵拼接得到地址信息矩阵为

6.根据权利要求1所述的使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法，其特征在于：

所述步骤5包括：

将步骤4得到的地址信息矩阵

是得到的注意力，即RoBERTa模型第m层的注意力

Multihead(Q；K；V)＝Concat(head₁,head₂,...,head_n)×w⁰

7.根据权利要求1所述的使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法，其特征在于：

所述步骤6包括：

f_t＝σ(w_f·[h_t-1,x_t]+b_f)

i_t＝σ(w_i·[h_t-1,x_t]+b_i)

c_t＝f_t ^*c_t-1+i_t ^*tanh(w_c·[h_t-1,x_t]+b_c)

o_t＝σ(w_o·[h_t-1,x_t]+b_o)

h_t＝o_t ^*tanh(c_t)

其中，h_t-1表示前一时刻的隐藏层状态，x_t表示当前时刻输入的词，f_t表示遗忘门的值，i_t表示记忆门的值，c_t表示当前时刻细胞状态，o_t表示输出门的值，h_t表示当前时刻的隐藏层状态，b_f、b_i、b_c和b_o表示偏移量，w_f、w_i和w_o表示相应门的权重矩阵；分别经过前向LSTM和后向LSTM计算之后，得到地址的前向信息m和后向信息n；

把前向信息、后向信息拼接，得到地址的上下文语义信息v＝[m,n]；

把得到地址的上下文语义信息通过全连接神经网络转化为标签得分序列X＝{x₁，x₂，…，x_n}；计算公式如下

X＝v×E

其中，E为初始化的转换矩阵。

8.根据权利要求1所述的使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法，其特征在于：

进一步，所述步骤7包括：

将步骤6得到的标签得分序列X＝{x₁，x₂，，x_n}，对应的标注序列Y＝{y₁，y₂，…，y_n}，输入CRF构建标签之间的约束关系；则计算过程如下：

式中，Z(X)为归一化因子，t_k(y_i-1，y_i，X，i)为观测序列下标注序列在位置i-1与i之间对应值的转移概率，sk(y_i，X，i)为观察序列下标注序列在位置i对应的值概率；tk和sk都是基于位置的特征函数，通常是二值函数，满足特征条件时取值为1，否则为0；参数λ_k和uk经过语料训练后的权重值，决定着最终的预测结果；

采用维特比算法选取概率最大的Y为最优标注序列。