CN112560478A - 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法 - Google Patents

一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法 Download PDF

Info

Publication number
CN112560478A
CN112560478A CN202011483732.2A CN202011483732A CN112560478A CN 112560478 A CN112560478 A CN 112560478A CN 202011483732 A CN202011483732 A CN 202011483732A CN 112560478 A CN112560478 A CN 112560478A
Authority
CN
China
Prior art keywords
address
semantic
character
information
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011483732.2A
Other languages
English (en)
Other versions
CN112560478B (zh
Inventor
杜清运
张红伟
任福
张琛
陈张建
陈凯
俞春娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202011483732.2A priority Critical patent/CN112560478B/zh
Publication of CN112560478A publication Critical patent/CN112560478A/zh
Application granted granted Critical
Publication of CN112560478B publication Critical patent/CN112560478B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了一种使用语义标注的中文地址RoBERTa‑BiLSTM‑CRF耦合解析方法。本发明将多条地址文本依次进行分词,对分词后的字符进行人工语义标注,得到分词后去重的字符集及语义标注集。通过RoBERTa模型字典和语义标注集将地址文本及其对应的语义标注转化为地址信息矩阵。将地址信息矩阵输入到RoBERTa神经网络,得到地址的语义信息矩阵。将地址的语义信息矩阵输入到BiLSTM对上下文语义信息进行删减,得到标签的得分序列。将标签的得分序列作为输入到CRF模型筛选最优语义标注序列。本发明采用语义标注,能够识别地址中地址元素的层级及空间关系;能够从非标准地址提取标准地址,解决未登录词问题、剔除非标准和错误地址元素,根据地址中的空间关系实现空间推理。

Description

一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析 方法
技术领域
本发明涉及自然语言处理中的中文分词领域,尤其是涉及一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法。
背景技术
随着外卖、快递等行业的发展,基于地址匹配的位置服务扮演着越来越重要的角色,同时也对地址匹配的准确性提出了越来越高的要求。地址解析是地址匹配的重要组成部分,其对地址匹配的准确性有着重要影响。但是,由于定位系统的误差,导致经常使用的百度地图导航、高德地图导航、腾讯地图导航等无法解决最后几十米的导航问题。为了更加准确的对某一位置进行描述,经常在地址中加入距离、方位等空间关系关键词。另外,中文地址作为一种空间数据基础设施,由于不同的需求,会造成地址描述方式的不一致。比如,公安部门要求地址精确到房间号,而工商教育部门一般要求地址精确到楼栋号或门牌号。这些都增加了地址解析的难度。因此,对这些地址进行高效的解析成为了一个急需解决的问题。
地址解析就是把地址中的地址元素以及地址标志结构抽取出来,即结合空间关系地址模型对中文地址进行分词,并标注地址元素的层级及空间关系,为下一阶段的地址标准化和匹配做准备。目前,很多研究者提出了中文地址分词算法。程昌秀等、张雪英等提出了基于规则和词尾特征的中文分词,但是由于地址用字的自由性,该方法分词准确率不高。后来随着统计语言模型的兴起,基于统计模型的地址分词受到了越来越多的关注。应申等提出了基于决策树的城市地址集分词,该方法统计城市地址集的分布特征构建决策树进行地址元素提取,无法解决数据稀疏及过分割问题。蒋文明等提出了基于条件随机场的地址元素提取方法,该方法需要设计复杂的特征。李伟等提出了基于规则和统计的混合方法进行中文地址分词,该方法需要提取词尾特征集,在一定程度上缓解了数据稀疏的问题,仍存在过分割的问题。随着机器学习、特别是深度学习的技术在自然语言处理领域取得了重大突破。李鹏鹏等使用BiGRU进行中文地址分割,该方法只考虑了使用兴趣点地址进行分词,没有考虑地址元素之间的约束关系,无法对地址进行标准化等操作。程博等使用BiLSTM-CRF对中文地址进行分词,该方法提取了地址元素词尾特征以增强地址切分的准确性,并且对地址元素所处的层级进行了标注,但是没有考虑地址中的楼层号、距离关系等。
针对地址分词存在的不足,提出一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法。该方法不需要依赖外部特征,采用基于自然语言理解的深度学习方法学习地址模型特征和上下文信息。
发明内容
本发明针对地址分词存在的不足,提出一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法。
本发明的目的是通过以下技术方法来实现的:一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法,包括以下步骤:
步骤1、将多条地址文本依次进行分词,对分词后的字符进行人工语义标注。处理得到分词后地址字符集合及语义标注集合,将多条分词后地址字符集合及语义标注集合进行拼接,得到分词后去重的字符集及语义标注集;
步骤2、将得到分词后去重的字符集通过RoBERTa模型词典转化为字符信息向量,依据字符信息向量将地址文本转化为地址文本信息矩阵;依据语义标注集将地址文本对应的语义标注转化为语义标注信息矩阵。
步骤3、根据地址文本中字符的位置,采用RoBERTa模型中的三角函数位置编码方式计算地址文本中每个字符的位置信息向量,根据每个字符的位置信息向量将地址文本转化为位置信息矩阵;
步骤4、将地址文本信息矩阵和位置信息矩阵相加,进一步与语义标注信息矩阵拼接得到地址信息矩阵;
步骤5、将地址信息矩阵输入到RoBERTa神经网络,得到地址的语义信息矩阵。
步骤6、将地址的语义信息矩阵输入到BiLSTM,使用前向传播算法和后向传播算法对BiLSTM进行训练,通过门控机制对上下文语义信息进行删减,得到标签的得分序列。
步骤7、将标签的得分序列作为输入,利用条件随机场构建标签之间的约束关系,得到中文地址分词的最优标注序列。
作为优选,步骤1所述的分词后地址字符集合及标注集合定义为:
Figure BDA0002838382820000021
j∈[1,M]
其中,addressj表示第j条地址分词后的地址字符集合及语义标注集合,wordj,l表示第j条地址分词后的地址字符集合中第l个字符,tagj,l表示第j条地址分词后的地址字符集合中第l个字符对应的语义标注,Kj表示第j条地址分词后的地址字符集合中字符的数量,Hj表示第j条地址分词后的地址字符对应的语义标注数量,这里Kj=Hj,M表示地址文本的数量;
步骤1所述分别将多条分词后的地址字符集合及语义标注集合进行拼接为:
{address1,address2,...,addressM}
步骤1所述通过去重处理分别得到地址分词后的字符集及语义标注集为将{address1,address2,...,addressM}中重复的字符及语义标注剔除,分别得到分词后去重的字符集及语义标注集为:
word={word1,word2,...,wordN}
tag={tag1,tag2,...,tagK}
其中,wordi为地址分词后去重的字符集中第i个字符,N表示地址分词后去重的字符集中字符的数量,i∈[1,N];tagi为地址语义标注后去重的语义标注集中第i个语义标注,K表示分词后去重的语义标注集的数量。
作为优选,步骤2所述将分词后去重的字符集通过查找RoBERTa模型词典转化为字符信息向量为:
Figure BDA0002838382820000031
其中,αi表示分词后去重的字符集中第i个字符的字符信息向量,i∈[1,N],N表示分词后的字符集中字符的数量,dmodel代表分词后的字符集中第i个字符的字符信息向量的维度;
步骤2所述依据字符信息向量将地址文本转化为地址文本信息矩阵为:
Figure BDA0002838382820000032
将每条地址中包含的字符通过步骤1得到分词后去重的字符集转化为one-hot向量为:
βi={0,0,...,yi,…,0}
其中,βi表示字符集中第i个字符的one-hot向量,yi表示地址中第i个字符出在word中第i个位置,且yi=1,βi其余位置的值为0,βi的维数为word中字符集的个数,即N;
限制地址文本长度为L,对于小于L的地址使用零向量进行补充,对于大于L的地址进行截断,零向量定义为:
γ={0,0,...,0,…,0}
其中,γ为零向量,所有位置的值为0,γ的维数为word中字符集的个数,即N。
则把一条地址文本η=[word1,word2,…,wordL-1]转化为稀疏信息矩阵为:
BL*N=(β12,...,βL-1,γ)T
通过字符矩阵
Figure BDA0002838382820000045
和地址稀疏信息矩阵BL*N,将
Figure BDA0002838382820000044
转化为步骤2所述地址文本信息矩阵为:
Figure BDA0002838382820000041
Figure BDA0002838382820000042
对应的每个语义标注转化为one-hot向量为:
τi={0,0,...,xi,…,0}
其中,τi表示地址中第i个字符对应的语义标注的one-hot向量,xi表示
Figure BDA0002838382820000043
这条地址中第i个字符对应的语义标注在tag中第i个位置,且xi=1,τi其余位置的值为0,τi的维数为tag中字符集的个数,即K;
步骤2所述依据语义标注集将地址文本对应的语义标注转化为语义标注信息矩阵为:
DL*K=(τ12,…,τk)T
作为优选,步骤3所述计算地址文本中每个字符的位置信息向量为:
PE(pos,2i)=sin(pos/100002i/dmod el)
PE(pos,2i+1)=cos(pos/100002i/dmodel)
其中,PE(pos,2i)、PE(pos,2i+1)分别表示地址文本
Figure BDA0002838382820000051
每个字符位置的偶数位与奇数位,其中i=1,2,…,L;pos=1,2,…,L;
步骤3所述地址文本中第i个字符的位置信息向量为:
Figure BDA0002838382820000052
其中,zq表示一个标量,根据步骤3中上面的计算公式得到的
步骤3所述将地址文本转化为位置信息矩阵为:
Figure BDA0002838382820000053
作为优选,所述步骤4将地址文本信息矩阵和位置信息矩阵相加为:
Figure BDA0002838382820000054
进一步与语义标注信息矩阵拼接得到地址信息矩阵为
Figure BDA0002838382820000055
作为优选,所述步骤5包括:
将步骤4得到的地址信息矩阵
Figure BDA00028383828200000511
输入到RoBERTa模型,使用注意力机制捕获地址的语义信息,其单独的headi自注意力计算公式如下:
Figure BDA0002838382820000056
Figure BDA0002838382820000057
Figure BDA0002838382820000058
Figure BDA0002838382820000059
其中,Wq、Wk、Wv是RoBERTa神经网络初始化的矩阵,Q是查询向量,K-V是键-值对向量,d为Q与K的维度,
Figure BDA00028383828200000510
是得到的注意力,即RoBERTa模型第m层的注意力
由于RoBERTa模型是利用多头注意力机制捕获地址语义信息,多头注意力机制就是把每个head的计算结果拼接起来得到地址的语义信息矩阵,具体计算公式如下
Figure BDA0002838382820000061
其中headn是第n个head的输出结果,w0是RoBERTa模型映射参数矩阵。
作为优选,所述步骤6包括:
将上下文语义信息矩阵输入到BiLSTM模型,通过遗忘门、记忆门、输出门对上下文语义信息进行删减,对于t时刻门控制单元的计算过程如下:
ft=σ(wf·[ht-1,xt]+bf)
it=σ(wi·[ht-1,xt]+bi)
ct=ft *ct-1+it *tanh(wc·[ht-1,xt]+bc)
ot=σ(wo·[ht-1,xt]+bo)
ht=ot *tanh(ct)
其中,ht-1表示前一时刻的隐藏层状态,xt表示当前时刻输入的词,ft表示遗忘门的值,it表示记忆门的值,ct表示当前时刻细胞状态,ot表示输出门的值,ht表示当前时刻的隐藏层状态,bf、bi、bc和bo表示偏移量,wf、wi和wo表示相应门的权重矩阵。分别经过前向LSTM和后向LSTM计算之后,得到地址的前向信息m和后向信息n。
把前向信息、后向信息拼接,得到地址的上下文语义信息v=[m,n]。
把得到地址的上下文语义信息通过全连接神经网络转化为标签得分序列X={x1,x2,…,xn}。计算公式如下
X=v×E
其中,E为初始化的转换矩阵;
进一步,所述步骤7包括:
将步骤6得到的标签得分序列X={x1,x2,…,xn},对应的标注序列Y={y1,y2,…,yn},输入CRF构建标签之间的约束关系。则计算过程如下:
Figure BDA0002838382820000062
式中,Z(X)为归一化因子,tk(yi-1,yi,X,i)为观测序列下标注序列在位置i-1与i之间对应值的转移概率,sk(yi,X,i)为观察序列下标注序列在位置i对应的值概率。tk和sk都是基于位置的特征函数,通常是二值函数,满足特征条件时取值为1,否则为0。参数λk和uk经过语料训练后的权重值,决定着最终的预测结果。
采用维特比算法选取概率最大的Y为最优标注序列。
本发明优点在于:
采用语义标注,能够识别地址中地址元素的层级及空间关系;
能够从非标准地址提取标准地址,解决未登录词问题、并剔除非标准和错误地址元素,根据地址中的空间关系实现空间推理。
附图说明
图1:RoBERTa-BiLSTM-CRF神经网络结构示意图。
图2:本发明方法流程图。
图3:分词后地址语义标注。
图4:注意力机制计算过程。
图5:BiLSTM前后向信息计算过程。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述,以下实施例用于说明本发明,但不用来限制本发明的范围。
本发明提供的一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法,其结构见图1。
下面结合图1至图5介绍本发明的具体实施方式为一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法,方法流程图见图2。具体包括以下步骤:
步骤1、将多条地址文本依次进行分词,对分词后的字符进行人工语义标注,语义标注如表1所示。处理得到分词后地址字符集合及语义标注集合,将多条分词后地址字符集合及语义标注集合进行拼接,得到分词后去重的字符集及语义标注集;
步骤1所述的分词后地址字符集合及标注集合定义为:
Figure BDA0002838382820000071
j∈[1,M]
其中,addressj表示第j条地址分词后的地址字符集合及语义标注集合,wordj,l表示第j条地址分词后的地址字符集合中第l个字符,tagj,l表示第j条地址分词后的地址字符集合中第l个字符对应的语义标注,Kj表示第j条地址分词后的地址字符集合中字符的数量,Hj表示第j条地址分词后的地址字符对应的语义标注数量,这里Kj=Hj,M表示地址文本的数量;分词后地址语义标注见图3。
步骤1所述分别将多条分词后的地址字符集合及语义标注集合进行拼接为:
{address1,address2,...,addressM}
步骤1所述通过去重处理分别得到地址分词后的字符集及语义标注集为将{address1,address2,...,addressM}中重复的字符及语义标注剔除,分别得到分词后去重的字符集及语义标注集为:
word={word1,word2,...,wordN}
tag={tag1,tag2,...,tagK}
其中,wordi为地址分词后去重的字符集中第i个字符,N表示地址分词后去重的字符集中字符的数量,i∈[1,N];tagi为地址语义标注后去重的语义标注集中第i个语义标注,K表示分词后去重的语义标注集的数量。
表1:语义标注
Figure BDA0002838382820000081
步骤2、将步骤1得到的分词后去重的字符集通过RoBERTa模型词典转化为字符信息向量,依据字符信息向量将步骤1地址文本转化为地址文本信息矩阵;依据步骤1得到的语义标注集将步骤1地址文本对应的语义标注转化为语义标注信息矩阵。
步骤2所述将分词后去重的字符集通过查找RoBERTa模型词典转化为字符信息向量为:
Figure BDA0002838382820000091
其中,αi表示分词后去重的字符集中第i个字符的字符信息向量,i∈[1,N],N表示分词后的字符集中字符的数量,dmodel代表分词后的字符集中第i个字符的字符信息向量的维度;
步骤2所述依据字符信息向量将步骤1地址文本转化为地址文本信息矩阵为:
Figure BDA0002838382820000092
将每条地址中包含的字符通过步骤1得到word字符集转化为one-hot向量为:
βi={0,0,...,yi,…,0}
其中,βi表示字符集中第i个字符的one-hot向量,yi表示地址中第i个字符出在word中第i个位置,且yi=1,βi其余位置的值为0,βi的维数为word中字符集的个数,即N;
限制地址文本长度为L,对于小于L的地址使用零向量进行补充,对于大于L的地址进行截断,零向量定义为:
γ={0,0,...,0,…,0}
其中,γ为零向量,所有位置的值为0,γ的维数为word中字符集的个数,即N。
则把一条地址文本η=[word1,word2,…,wordL-1]转化为稀疏信息矩阵为:
BL*N=(β12,...,βL-1,γ)T
通过字符矩阵
Figure BDA0002838382820000101
和地址稀疏信息矩阵BL*N,将
Figure BDA0002838382820000102
转化为步骤2所述地址文本信息矩阵为:
Figure BDA0002838382820000103
Figure BDA0002838382820000104
对应的每个语义标注转化为one-hot向量为:
τi={0,0,...,xi,…,0}
其中,τi表示地址中第i个字符对应的语义标注的one-hot向量,xi表示
Figure BDA0002838382820000105
这条地址中第i个字符对应的语义标注在tag中第i个位置,且xi=1,τi其余位置的值为0,τi的维数为tag中字符集的个数,即K;
步骤2所述依据步骤1得到的语义标注集将步骤1地址文本对应的语义标注转化为语义标注信息矩阵为:
DL*K=(τ12,…,τk)T
步骤3、根据地址文本η中字符的位置,采用RoBERTa模型中的三角函数位置编码方式计算地址文本中每个字符的位置信息向量,根据每个字符的位置信息向量将地址文本η转化为位置信息矩阵;
步骤3所述计算地址文本中每个字符的位置信息向量为:
PE(pos,2i)=sin(pos/100002i/dmodel)
PE(pos,2i+1)=cos(pos/100002i/dmodel)
其中,PE(pos,2i)、PE(pos,2i+1)分别表示地址文本
Figure BDA0002838382820000107
每个字符位置的偶数位与奇数位,其中i=1,2,…,L;pos=1,2,…,L;
步骤3所述地址文本η中第i个字符的位置信息向量为:
Figure BDA0002838382820000106
其中,zq表示一个标量,根据步骤3中上面的计算公式得到的步骤3所述将地址文本转化为位置信息矩阵为:
Figure BDA0002838382820000108
步骤4、将步骤2所述的地址文本信息矩阵和步骤3所述的位置信息矩阵相加,进一步与语义标注信息矩阵拼接得到地址信息矩阵;
进一步,所述步骤4包括:
将将步骤2所述的地址文本信息矩阵和步骤3所述的位置信息矩阵相加为
Figure BDA0002838382820000111
进一步与语义标注信息矩阵拼接得到地址信息矩阵为
Figure BDA0002838382820000112
步骤5、将步骤4得到的地址信息矩阵输入到RoBERTa神经网络,得到地址的语义信息矩阵。
进一步,所述步骤5包括:
将步骤4得到的地址信息矩阵
Figure BDA0002838382820000113
输入到RoBERTa模型,使用注意力机制捕获地址的语义信息,其单独的headi自注意力计算公式如下:
Figure BDA0002838382820000114
Figure BDA0002838382820000115
Figure BDA0002838382820000116
Figure BDA0002838382820000117
其中,Wq、Wk、Wv是RoBERTa神经网络初始化的矩阵,Q是查询向量,K-V是键-值对向量,d为Q与K的维度,
Figure BDA0002838382820000119
是得到的注意力,即RoBERTa模型第m层的注意力,注意力机制计算过程见图4。
由于RoBERTa模型是利用多头注意力机制捕获地址语义信息,多头注意力机制就是把每个head的计算结果拼接起来得到地址的语义信息矩阵,具体计算公式如下
Figure BDA0002838382820000118
其中headn是第n个head的输出结果,w0是RoBERTa模型映射参数矩阵。
步骤6、将步骤5得到的上文语义信息矩阵输入到BiLSTM,使用前向传播算法和后向传播算法对BiLSTM进行训练,通过门控机制对上下文语义信息进行删减,得到标签的得分序列。
进一步,所述步骤6包括:
将上下文语义信息矩阵输入到BiLSTM模型,通过遗忘门、记忆门、输出门对上下文语义信息进行删减,对于t时刻门控制单元的计算过程如下:
ft=σ(wf·[ht-1,xt]+bf)
it=σ(wi·[ht-1,xt]+bi)
ct=ft *ct-1+it *tanh(wc·[ht-1,xt]+bc)
ot=σ(wo·[ht-1,xt]+bo)
ht=ot *tanh(ct)
其中,ht-1表示前一时刻的隐藏层状态,xt表示当前时刻输入的词,ft表示遗忘门的值,it表示记忆门的值,ct表示当前时刻细胞状态,ot表示输出门的值,ht表示当前时刻的隐藏层状态,bf、bi、bc和bo表示偏移量,wf、wi和wo表示相应门的权重矩阵。分别经过前向LSTM和后向LSTM计算之后,得到地址的前向信息m和后向信息n。
把前向信息、后向信息拼接,得到地址的上下文语义信息v=[m,n],BiLSTM前后向信息计算过程见图5。
把得到地址的上下文语义信息通过全连接神经网络转化为标签得分序列X={x1,x2,…,xn}。计算公式如下
X=v×E
其中,E为初始化的转换矩阵;
步骤7、将步骤6标签的得分序列作为输入,利用条件随机场构建标签之间的约束关系,得到中文地址分词的最优标注序列。
进一步,所述步骤7包括:
将步骤6得到的标签得分序列X={x1,x2,…,xn},对应的标注序列Y={y1,y2,…,yn},输入CRF构建标签之间的约束关系。则计算过程如下:
Figure BDA0002838382820000121
式中,Z(X)为归一化因子,tk(yi-1,yi,X,i)为观测序列下标注序列在位置i-1与i之间对应值的转移概率,sk(yi,X,i)为观察序列下标注序列在位置i对应的值概率。tk和sk都是基于位置的特征函数,通常是二值函数,满足特征条件时取值为1,否则为0。参数λk和uk经过语料训练后的权重值,决定着最终的预测结果。
采用维特比算法选取概率最大的Y为最优标注序列。
应当理解的是,本申请书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本申请专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本申请权利要求所保护的范围情况下,还可以做出替换或变形,均落入本申请的保护范围之内,本申请的请求保护范围应以所附权利要求为准。

Claims (8)

1.一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法,其特征在于,包括以下步骤:
步骤1、将多条地址文本依次进行分词,对分词后的字符进行人工语义标注;处理得到分词后地址字符集合及语义标注集合,将多条分词后地址字符集合及语义标注集合进行拼接,得到分词后去重的字符集及语义标注集;
步骤2、将得到分词后去重的字符集通过RoBERTa模型词典转化为字符信息向量,依据字符信息向量将地址文本转化为地址文本信息矩阵;依据语义标注集将地址文本对应的语义标注转化为语义标注信息矩阵;
步骤3、根据地址文本中字符的位置,采用RoBERTa模型中的三角函数位置编码方式计算地址文本中每个字符的位置信息向量,根据每个字符的位置信息向量将地址文本转化为位置信息矩阵;
步骤4、将地址文本信息矩阵和位置信息矩阵相加,进一步与语义标注信息矩阵拼接得到地址信息矩阵;
步骤5、将地址信息矩阵输入到RoBERTa神经网络,得到地址的语义信息矩阵;
步骤6、将地址的语义信息矩阵输入到BiLSTM,使用前向传播算法和后向传播算法对BiLSTM进行训练,通过门控机制对上下文语义信息进行删减,得到标签的得分序列;
步骤7、将标签的得分序列作为输入,利用条件随机场构建标签之间的约束关系,得到中文地址分词的最优标注序列。
2.根据权利要求1所述的使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法,其特征在于:
步骤1所述的分词后地址字符集合及标注集合定义为:
Figure FDA0002838382810000011
其中,addressj表示第j条地址分词后的地址字符集合及语义标注集合,wordj,l表示第j条地址分词后的地址字符集合中第l个字符,tagj,l表示第j条地址分词后的地址字符集合中第l个字符对应的语义标注,Kj表示第j条地址分词后的地址字符集合中字符的数量,Hj表示第j条地址分词后的地址字符对应的语义标注数量,这里Kj=Hj,M表示地址文本的数量;
步骤1所述分别将多条分词后的地址字符集合及语义标注集合进行拼接为:
{address1,address2,...,addressM}
步骤1所述通过去重处理分别得到地址分词后的字符集及语义标注集为将{address1,address2,...,addressM}中重复的字符及语义标注剔除,分别得到分词后去重的字符集及语义标注集为:
word={word1,word2,...,wordN}
tag={tag1,tag2,...,tagK}
其中,wordi为地址分词后去重的字符集中第i个字符,N表示地址分词后去重的字符集中字符的数量,i∈[1,N];tagi为地址语义标注后去重的语义标注集中第i个语义标注,K表示分词后去重的语义标注集的数量。
3.根据权利要求1所述的使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法,其特征在于:
步骤2所述将分词后去重的字符集通过查找RoBERTa模型词典转化为字符信息向量为:
Figure FDA0002838382810000022
其中,αi表示分词后去重的字符集中第i个字符的字符信息向量,i∈[1,N],N表示分词后的字符集中字符的数量,dmodel代表分词后的字符集中第i个字符的字符信息向量的维度;
步骤2所述依据字符信息向量将地址文本转化为地址文本信息矩阵为:
Figure FDA0002838382810000021
将每条地址中包含的字符通过步骤1得到分词后去重的字符集转化为one-hot向量为:
βi={0,0,...,yi,…,0}
其中,βi表示字符集中第i个字符的one-hot向量,yi表示地址中第i个字符出在word中第i个位置,且yi=1,βi其余位置的值为0,βi的维数为word中字符集的个数,即N;
限制地址文本长度为L,对于小于L的地址使用零向量进行补充,对于大于L的地址进行截断,零向量定义为:
γ={0,0,...,0,…,0}
其中,γ为零向量,所有位置的值为0,γ的维数为word中字符集的个数,即N;
则把一条地址文本η=[word1,word2,…,wordL-1]转化为稀疏信息矩阵为:
BL*N=(β12,...,βL-1,γ)T
通过字符矩阵
Figure FDA0002838382810000035
和地址稀疏信息矩阵BL*N,将
Figure FDA0002838382810000031
转化为步骤2所述地址文本信息矩阵为:
Figure FDA0002838382810000034
Figure FDA0002838382810000032
对应的每个语义标注转化为one-hot向量为:
τi={0,0,...,xi,…,0}
其中,τi表示地址中第i个字符对应的语义标注的one-hot向量,xi表示
Figure FDA0002838382810000033
这条地址中第i个字符对应的语义标注在tag中第i个位置,且xi=1,τi其余位置的值为0,τi的维数为tag中字符集的个数,即K;
步骤2所述依据语义标注集将地址文本对应的语义标注转化为语义标注信息矩阵为:
DL*K=(τ12,…,τk)T
4.根据权利要求1所述的使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法,其特征在于:
步骤3所述计算地址文本中每个字符的位置信息向量为:
PE(pos,2i)=sin(pos/100002i/dmodel)
PE(pos,2i+1)=cos(pos/100002i/dmodel)
其中,PE(pos,2i)、PE(pos,2i+1)分别表示地址文本
Figure FDA0002838382810000044
每个字符位置的偶数位与奇数位,其中i=1,2,…,L;pos=1,2,…,L;
步骤3所述地址文本中第i个字符的位置信息向量为:
Figure FDA0002838382810000043
其中,zq表示一个标量,根据步骤3中上面的计算公式得到的
步骤3所述将地址文本转化为位置信息矩阵为:
Figure FDA0002838382810000045
5.根据权利要求1所述的使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法,其特征在于:
所述步骤4将地址文本信息矩阵和位置信息矩阵相加为:
Figure FDA0002838382810000046
进一步与语义标注信息矩阵拼接得到地址信息矩阵为
Figure FDA0002838382810000047
6.根据权利要求1所述的使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法,其特征在于:
所述步骤5包括:
将步骤4得到的地址信息矩阵
Figure FDA0002838382810000048
输入到RoBERTa模型,使用注意力机制捕获地址的语义信息,其单独的headi自注意力计算公式如下:
Figure FDA0002838382810000049
Figure FDA00028383828100000410
Figure FDA00028383828100000411
Figure FDA0002838382810000041
其中,Wq、Wk、Wv是RoBERTa神经网络初始化的矩阵,Q是查询向量,K-V是键-值对向量,d为Q与K的维度,
Figure FDA0002838382810000042
是得到的注意力,即RoBERTa模型第m层的注意力
由于RoBERTa模型是利用多头注意力机制捕获地址语义信息,多头注意力机制就是把每个head的计算结果拼接起来得到地址的语义信息矩阵,具体计算公式如下
Multihead(Q;K;V)=Concat(head1,head2,...,headn)×w0
其中headn是第n个head的输出结果,w0是RoBERTa模型映射参数矩阵。
7.根据权利要求1所述的使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法,其特征在于:
所述步骤6包括:
将上下文语义信息矩阵输入到BiLSTM模型,通过遗忘门、记忆门、输出门对上下文语义信息进行删减,对于t时刻门控制单元的计算过程如下:
ft=σ(wf·[ht-1,xt]+bf)
it=σ(wi·[ht-1,xt]+bi)
ct=ft *ct-1+it *tanh(wc·[ht-1,xt]+bc)
ot=σ(wo·[ht-1,xt]+bo)
ht=ot *tanh(ct)
其中,ht-1表示前一时刻的隐藏层状态,xt表示当前时刻输入的词,ft表示遗忘门的值,it表示记忆门的值,ct表示当前时刻细胞状态,ot表示输出门的值,ht表示当前时刻的隐藏层状态,bf、bi、bc和bo表示偏移量,wf、wi和wo表示相应门的权重矩阵;分别经过前向LSTM和后向LSTM计算之后,得到地址的前向信息m和后向信息n;
把前向信息、后向信息拼接,得到地址的上下文语义信息v=[m,n];
把得到地址的上下文语义信息通过全连接神经网络转化为标签得分序列X={x1,x2,…,xn};计算公式如下
X=v×E
其中,E为初始化的转换矩阵。
8.根据权利要求1所述的使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法,其特征在于:
进一步,所述步骤7包括:
将步骤6得到的标签得分序列X={x1,x2,,xn},对应的标注序列Y={y1,y2,…,yn},输入CRF构建标签之间的约束关系;则计算过程如下:
Figure FDA0002838382810000061
式中,Z(X)为归一化因子,tk(yi-1,yi,X,i)为观测序列下标注序列在位置i-1与i之间对应值的转移概率,sk(yi,X,i)为观察序列下标注序列在位置i对应的值概率;tk和sk都是基于位置的特征函数,通常是二值函数,满足特征条件时取值为1,否则为0;参数λk和uk经过语料训练后的权重值,决定着最终的预测结果;
采用维特比算法选取概率最大的Y为最优标注序列。
CN202011483732.2A 2020-12-16 2020-12-16 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法 Active CN112560478B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011483732.2A CN112560478B (zh) 2020-12-16 2020-12-16 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011483732.2A CN112560478B (zh) 2020-12-16 2020-12-16 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法

Publications (2)

Publication Number Publication Date
CN112560478A true CN112560478A (zh) 2021-03-26
CN112560478B CN112560478B (zh) 2024-03-12

Family

ID=75063854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011483732.2A Active CN112560478B (zh) 2020-12-16 2020-12-16 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法

Country Status (1)

Country Link
CN (1) CN112560478B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113255346A (zh) * 2021-07-01 2021-08-13 湖南工商大学 一种基于图嵌入与crf知识融入的地址要素识别方法
CN113268995A (zh) * 2021-07-19 2021-08-17 北京邮电大学 中文学术关键词抽取方法、装置和存储介质
CN113468881A (zh) * 2021-07-23 2021-10-01 浙江大华技术股份有限公司 一种地址标准化方法及装置
CN113536794A (zh) * 2021-06-22 2021-10-22 河北远东通信系统工程有限公司 一种基于置信度的Active-BiLSTM-CRF中文层级地址分词方法
CN113919350A (zh) * 2021-09-22 2022-01-11 上海明略人工智能(集团)有限公司 一种实体识别方法、系统、电子设备及存储介质
CN114398886A (zh) * 2021-12-22 2022-04-26 科讯嘉联信息技术有限公司 一种基于预训练的地址提取和标准化方法
CN114417853A (zh) * 2021-12-10 2022-04-29 新智道枢(上海)科技有限公司 数字警务警情地址分词方法及数字警务警情系统
CN115081449A (zh) * 2022-08-23 2022-09-20 北京睿企信息科技有限公司 一种地址识别方法及系统
CN116341557A (zh) * 2023-05-29 2023-06-27 华北理工大学 一种糖尿病医学文本命名实体识别方法
CN116756624A (zh) * 2023-08-17 2023-09-15 中国民用航空飞行学院 一种面向民航监管事项检查记录处理的文本分类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2628077A1 (en) * 2007-04-02 2008-10-02 Research In Motion Limited Input shortcuts for a communications device
WO2016179988A1 (zh) * 2015-05-12 2016-11-17 深圳市华傲数据技术有限公司 中文地址分词标注方法
CN108268444A (zh) * 2018-01-10 2018-07-10 南京邮电大学 一种基于双向lstm、cnn和crf的中文分词方法
CN111950280A (zh) * 2020-05-27 2020-11-17 西交利物浦大学 地址匹配方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2628077A1 (en) * 2007-04-02 2008-10-02 Research In Motion Limited Input shortcuts for a communications device
WO2016179988A1 (zh) * 2015-05-12 2016-11-17 深圳市华傲数据技术有限公司 中文地址分词标注方法
CN108268444A (zh) * 2018-01-10 2018-07-10 南京邮电大学 一种基于双向lstm、cnn和crf的中文分词方法
CN111950280A (zh) * 2020-05-27 2020-11-17 西交利物浦大学 地址匹配方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张秋颖;傅洛伊;王新兵;: "基于BERT-BiLSTM-CRF的学者主页信息抽取", 计算机应用研究, no. 1, 30 June 2020 (2020-06-30) *
李瑞昶;田沁;任福;: "基于Lucene引擎构建在线地址匹配服务", 测绘与空间地理信息, no. 02, 25 February 2016 (2016-02-25) *
许普乐;王杨;黄亚坤;黄少芬;赵传信;陈付龙;: "大数据环境下基于贝叶斯推理的中文地名地址匹配方法", 计算机科学, no. 09, 15 September 2017 (2017-09-15) *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113536794A (zh) * 2021-06-22 2021-10-22 河北远东通信系统工程有限公司 一种基于置信度的Active-BiLSTM-CRF中文层级地址分词方法
CN113255346A (zh) * 2021-07-01 2021-08-13 湖南工商大学 一种基于图嵌入与crf知识融入的地址要素识别方法
CN113268995A (zh) * 2021-07-19 2021-08-17 北京邮电大学 中文学术关键词抽取方法、装置和存储介质
CN113268995B (zh) * 2021-07-19 2021-11-19 北京邮电大学 中文学术关键词抽取方法、装置和存储介质
CN113468881B (zh) * 2021-07-23 2024-02-27 浙江大华技术股份有限公司 一种地址标准化方法及装置
CN113468881A (zh) * 2021-07-23 2021-10-01 浙江大华技术股份有限公司 一种地址标准化方法及装置
CN113919350A (zh) * 2021-09-22 2022-01-11 上海明略人工智能(集团)有限公司 一种实体识别方法、系统、电子设备及存储介质
CN114417853A (zh) * 2021-12-10 2022-04-29 新智道枢(上海)科技有限公司 数字警务警情地址分词方法及数字警务警情系统
CN114398886A (zh) * 2021-12-22 2022-04-26 科讯嘉联信息技术有限公司 一种基于预训练的地址提取和标准化方法
CN115081449B (zh) * 2022-08-23 2022-11-04 北京睿企信息科技有限公司 一种地址识别方法及系统
CN115081449A (zh) * 2022-08-23 2022-09-20 北京睿企信息科技有限公司 一种地址识别方法及系统
CN116341557A (zh) * 2023-05-29 2023-06-27 华北理工大学 一种糖尿病医学文本命名实体识别方法
CN116756624A (zh) * 2023-08-17 2023-09-15 中国民用航空飞行学院 一种面向民航监管事项检查记录处理的文本分类方法
CN116756624B (zh) * 2023-08-17 2023-12-12 中国民用航空飞行学院 一种面向民航监管事项检查记录处理的文本分类方法

Also Published As

Publication number Publication date
CN112560478B (zh) 2024-03-12

Similar Documents

Publication Publication Date Title
CN112560478A (zh) 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法
CN110826335B (zh) 一种命名实体识别的方法和装置
CN113297975A (zh) 表格结构识别的方法、装置、存储介质及电子设备
CN110232192A (zh) 电力术语命名实体识别方法及装置
CN109960728B (zh) 一种开放域会议信息命名实体识别方法及系统
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN114139533A (zh) 一种面向中文小说领域的文本内容审核方法
CN112632993A (zh) 一种基于卷积注意力网络的电力计量实体识别模型的分类方法
CN114880468A (zh) 基于BiLSTM与知识图谱的建筑规范审查方法与系统
CN114416979A (zh) 一种文本查询方法、设备和存储介质
CN115952791A (zh) 基于机器阅读理解的篇章级事件抽取方法、装置、设备及存储介质
CN116245097A (zh) 训练实体识别模型的方法、实体识别方法及对应装置
CN117891939A (zh) 粒子群算法结合cnn卷积神经网络的文本分类方法
CN112036189A (zh) 一种金文语义识别方法和系统
CN115098673A (zh) 基于变体注意力及层次结构的业务文书信息抽取方法
CN113191150B (zh) 一种多特征融合的中文医疗文本命名实体识别方法
CN114330328A (zh) 基于Transformer-CRF的藏文分词方法
CN112256932B (zh) 一种地址字符串的分词方法及装置
CN112215007B (zh) 基于leam模型的机构命名实体归一化方法和系统
CN118170907A (zh) 一种基于深度神经网络的公文智能标签系统及其实现方法
CN111738008B (zh) 基于多层模型的实体识别方法、装置、设备及存储介质
CN114626378A (zh) 命名实体识别方法、装置、电子设备及计算机可读存储介质
CN112084783A (zh) 基于民航不文明旅客的实体识别方法及系统
CN114969343B (zh) 结合相对位置信息的弱监督文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant