CN112560478A - 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法 - Google Patents
一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法 Download PDFInfo
- Publication number
- CN112560478A CN112560478A CN202011483732.2A CN202011483732A CN112560478A CN 112560478 A CN112560478 A CN 112560478A CN 202011483732 A CN202011483732 A CN 202011483732A CN 112560478 A CN112560478 A CN 112560478A
- Authority
- CN
- China
- Prior art keywords
- address
- semantic
- character
- information
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008878 coupling Effects 0.000 title claims abstract description 17
- 238000010168 coupling process Methods 0.000 title claims abstract description 17
- 238000005859 coupling reaction Methods 0.000 title claims abstract description 17
- 238000004458 analytical method Methods 0.000 title claims abstract description 10
- 239000011159 matrix material Substances 0.000 claims abstract description 87
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000013528 artificial neural network Methods 0.000 claims abstract description 11
- 230000011218 segmentation Effects 0.000 claims description 71
- 239000013598 vector Substances 0.000 claims description 59
- 238000004364 calculation method Methods 0.000 claims description 25
- 230000007246 mechanism Effects 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims 1
- 230000004044 response Effects 0.000 claims 1
- 239000000284 extract Substances 0.000 abstract description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明提出了一种使用语义标注的中文地址RoBERTa‑BiLSTM‑CRF耦合解析方法。本发明将多条地址文本依次进行分词,对分词后的字符进行人工语义标注,得到分词后去重的字符集及语义标注集。通过RoBERTa模型字典和语义标注集将地址文本及其对应的语义标注转化为地址信息矩阵。将地址信息矩阵输入到RoBERTa神经网络,得到地址的语义信息矩阵。将地址的语义信息矩阵输入到BiLSTM对上下文语义信息进行删减,得到标签的得分序列。将标签的得分序列作为输入到CRF模型筛选最优语义标注序列。本发明采用语义标注,能够识别地址中地址元素的层级及空间关系;能够从非标准地址提取标准地址,解决未登录词问题、剔除非标准和错误地址元素,根据地址中的空间关系实现空间推理。
Description
技术领域
本发明涉及自然语言处理中的中文分词领域,尤其是涉及一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法。
背景技术
随着外卖、快递等行业的发展,基于地址匹配的位置服务扮演着越来越重要的角色,同时也对地址匹配的准确性提出了越来越高的要求。地址解析是地址匹配的重要组成部分,其对地址匹配的准确性有着重要影响。但是,由于定位系统的误差,导致经常使用的百度地图导航、高德地图导航、腾讯地图导航等无法解决最后几十米的导航问题。为了更加准确的对某一位置进行描述,经常在地址中加入距离、方位等空间关系关键词。另外,中文地址作为一种空间数据基础设施,由于不同的需求,会造成地址描述方式的不一致。比如,公安部门要求地址精确到房间号,而工商教育部门一般要求地址精确到楼栋号或门牌号。这些都增加了地址解析的难度。因此,对这些地址进行高效的解析成为了一个急需解决的问题。
地址解析就是把地址中的地址元素以及地址标志结构抽取出来,即结合空间关系地址模型对中文地址进行分词,并标注地址元素的层级及空间关系,为下一阶段的地址标准化和匹配做准备。目前,很多研究者提出了中文地址分词算法。程昌秀等、张雪英等提出了基于规则和词尾特征的中文分词,但是由于地址用字的自由性,该方法分词准确率不高。后来随着统计语言模型的兴起,基于统计模型的地址分词受到了越来越多的关注。应申等提出了基于决策树的城市地址集分词,该方法统计城市地址集的分布特征构建决策树进行地址元素提取,无法解决数据稀疏及过分割问题。蒋文明等提出了基于条件随机场的地址元素提取方法,该方法需要设计复杂的特征。李伟等提出了基于规则和统计的混合方法进行中文地址分词,该方法需要提取词尾特征集,在一定程度上缓解了数据稀疏的问题,仍存在过分割的问题。随着机器学习、特别是深度学习的技术在自然语言处理领域取得了重大突破。李鹏鹏等使用BiGRU进行中文地址分割,该方法只考虑了使用兴趣点地址进行分词,没有考虑地址元素之间的约束关系,无法对地址进行标准化等操作。程博等使用BiLSTM-CRF对中文地址进行分词,该方法提取了地址元素词尾特征以增强地址切分的准确性,并且对地址元素所处的层级进行了标注,但是没有考虑地址中的楼层号、距离关系等。
针对地址分词存在的不足,提出一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法。该方法不需要依赖外部特征,采用基于自然语言理解的深度学习方法学习地址模型特征和上下文信息。
发明内容
本发明针对地址分词存在的不足,提出一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法。
本发明的目的是通过以下技术方法来实现的:一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法,包括以下步骤:
步骤1、将多条地址文本依次进行分词,对分词后的字符进行人工语义标注。处理得到分词后地址字符集合及语义标注集合,将多条分词后地址字符集合及语义标注集合进行拼接,得到分词后去重的字符集及语义标注集;
步骤2、将得到分词后去重的字符集通过RoBERTa模型词典转化为字符信息向量,依据字符信息向量将地址文本转化为地址文本信息矩阵;依据语义标注集将地址文本对应的语义标注转化为语义标注信息矩阵。
步骤3、根据地址文本中字符的位置,采用RoBERTa模型中的三角函数位置编码方式计算地址文本中每个字符的位置信息向量,根据每个字符的位置信息向量将地址文本转化为位置信息矩阵;
步骤4、将地址文本信息矩阵和位置信息矩阵相加,进一步与语义标注信息矩阵拼接得到地址信息矩阵;
步骤5、将地址信息矩阵输入到RoBERTa神经网络,得到地址的语义信息矩阵。
步骤6、将地址的语义信息矩阵输入到BiLSTM,使用前向传播算法和后向传播算法对BiLSTM进行训练,通过门控机制对上下文语义信息进行删减,得到标签的得分序列。
步骤7、将标签的得分序列作为输入,利用条件随机场构建标签之间的约束关系,得到中文地址分词的最优标注序列。
作为优选,步骤1所述的分词后地址字符集合及标注集合定义为:
j∈[1,M]
其中,addressj表示第j条地址分词后的地址字符集合及语义标注集合,wordj,l表示第j条地址分词后的地址字符集合中第l个字符,tagj,l表示第j条地址分词后的地址字符集合中第l个字符对应的语义标注,Kj表示第j条地址分词后的地址字符集合中字符的数量,Hj表示第j条地址分词后的地址字符对应的语义标注数量,这里Kj=Hj,M表示地址文本的数量;
步骤1所述分别将多条分词后的地址字符集合及语义标注集合进行拼接为:
{address1,address2,...,addressM}
步骤1所述通过去重处理分别得到地址分词后的字符集及语义标注集为将{address1,address2,...,addressM}中重复的字符及语义标注剔除,分别得到分词后去重的字符集及语义标注集为:
word={word1,word2,...,wordN}
tag={tag1,tag2,...,tagK}
其中,wordi为地址分词后去重的字符集中第i个字符,N表示地址分词后去重的字符集中字符的数量,i∈[1,N];tagi为地址语义标注后去重的语义标注集中第i个语义标注,K表示分词后去重的语义标注集的数量。
作为优选,步骤2所述将分词后去重的字符集通过查找RoBERTa模型词典转化为字符信息向量为:
其中,αi表示分词后去重的字符集中第i个字符的字符信息向量,i∈[1,N],N表示分词后的字符集中字符的数量,dmodel代表分词后的字符集中第i个字符的字符信息向量的维度;
步骤2所述依据字符信息向量将地址文本转化为地址文本信息矩阵为:
将每条地址中包含的字符通过步骤1得到分词后去重的字符集转化为one-hot向量为:
βi={0,0,...,yi,…,0}
其中,βi表示字符集中第i个字符的one-hot向量,yi表示地址中第i个字符出在word中第i个位置,且yi=1,βi其余位置的值为0,βi的维数为word中字符集的个数,即N;
限制地址文本长度为L,对于小于L的地址使用零向量进行补充,对于大于L的地址进行截断,零向量定义为:
γ={0,0,...,0,…,0}
其中,γ为零向量,所有位置的值为0,γ的维数为word中字符集的个数,即N。
则把一条地址文本η=[word1,word2,…,wordL-1]转化为稀疏信息矩阵为:
BL*N=(β1,β2,...,βL-1,γ)T
τi={0,0,...,xi,…,0}
其中,τi表示地址中第i个字符对应的语义标注的one-hot向量,xi表示这条地址中第i个字符对应的语义标注在tag中第i个位置,且xi=1,τi其余位置的值为0,τi的维数为tag中字符集的个数,即K;
步骤2所述依据语义标注集将地址文本对应的语义标注转化为语义标注信息矩阵为:
DL*K=(τ1,τ2,…,τk)T
作为优选,步骤3所述计算地址文本中每个字符的位置信息向量为:
PE(pos,2i)=sin(pos/100002i/dmod el)
PE(pos,2i+1)=cos(pos/100002i/dmodel)
步骤3所述地址文本中第i个字符的位置信息向量为:
其中,zq表示一个标量,根据步骤3中上面的计算公式得到的
步骤3所述将地址文本转化为位置信息矩阵为:
作为优选,所述步骤4将地址文本信息矩阵和位置信息矩阵相加为:
进一步与语义标注信息矩阵拼接得到地址信息矩阵为
作为优选,所述步骤5包括:
由于RoBERTa模型是利用多头注意力机制捕获地址语义信息,多头注意力机制就是把每个head的计算结果拼接起来得到地址的语义信息矩阵,具体计算公式如下
其中headn是第n个head的输出结果,w0是RoBERTa模型映射参数矩阵。
作为优选,所述步骤6包括:
将上下文语义信息矩阵输入到BiLSTM模型,通过遗忘门、记忆门、输出门对上下文语义信息进行删减,对于t时刻门控制单元的计算过程如下:
ft=σ(wf·[ht-1,xt]+bf)
it=σ(wi·[ht-1,xt]+bi)
ct=ft *ct-1+it *tanh(wc·[ht-1,xt]+bc)
ot=σ(wo·[ht-1,xt]+bo)
ht=ot *tanh(ct)
其中,ht-1表示前一时刻的隐藏层状态,xt表示当前时刻输入的词,ft表示遗忘门的值,it表示记忆门的值,ct表示当前时刻细胞状态,ot表示输出门的值,ht表示当前时刻的隐藏层状态,bf、bi、bc和bo表示偏移量,wf、wi和wo表示相应门的权重矩阵。分别经过前向LSTM和后向LSTM计算之后,得到地址的前向信息m和后向信息n。
把前向信息、后向信息拼接,得到地址的上下文语义信息v=[m,n]。
把得到地址的上下文语义信息通过全连接神经网络转化为标签得分序列X={x1,x2,…,xn}。计算公式如下
X=v×E
其中,E为初始化的转换矩阵;
进一步,所述步骤7包括:
将步骤6得到的标签得分序列X={x1,x2,…,xn},对应的标注序列Y={y1,y2,…,yn},输入CRF构建标签之间的约束关系。则计算过程如下:
式中,Z(X)为归一化因子,tk(yi-1,yi,X,i)为观测序列下标注序列在位置i-1与i之间对应值的转移概率,sk(yi,X,i)为观察序列下标注序列在位置i对应的值概率。tk和sk都是基于位置的特征函数,通常是二值函数,满足特征条件时取值为1,否则为0。参数λk和uk经过语料训练后的权重值,决定着最终的预测结果。
采用维特比算法选取概率最大的Y为最优标注序列。
本发明优点在于:
采用语义标注,能够识别地址中地址元素的层级及空间关系;
能够从非标准地址提取标准地址,解决未登录词问题、并剔除非标准和错误地址元素,根据地址中的空间关系实现空间推理。
附图说明
图1:RoBERTa-BiLSTM-CRF神经网络结构示意图。
图2:本发明方法流程图。
图3:分词后地址语义标注。
图4:注意力机制计算过程。
图5:BiLSTM前后向信息计算过程。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述,以下实施例用于说明本发明,但不用来限制本发明的范围。
本发明提供的一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法,其结构见图1。
下面结合图1至图5介绍本发明的具体实施方式为一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法,方法流程图见图2。具体包括以下步骤:
步骤1、将多条地址文本依次进行分词,对分词后的字符进行人工语义标注,语义标注如表1所示。处理得到分词后地址字符集合及语义标注集合,将多条分词后地址字符集合及语义标注集合进行拼接,得到分词后去重的字符集及语义标注集;
步骤1所述的分词后地址字符集合及标注集合定义为:
j∈[1,M]
其中,addressj表示第j条地址分词后的地址字符集合及语义标注集合,wordj,l表示第j条地址分词后的地址字符集合中第l个字符,tagj,l表示第j条地址分词后的地址字符集合中第l个字符对应的语义标注,Kj表示第j条地址分词后的地址字符集合中字符的数量,Hj表示第j条地址分词后的地址字符对应的语义标注数量,这里Kj=Hj,M表示地址文本的数量;分词后地址语义标注见图3。
步骤1所述分别将多条分词后的地址字符集合及语义标注集合进行拼接为:
{address1,address2,...,addressM}
步骤1所述通过去重处理分别得到地址分词后的字符集及语义标注集为将{address1,address2,...,addressM}中重复的字符及语义标注剔除,分别得到分词后去重的字符集及语义标注集为:
word={word1,word2,...,wordN}
tag={tag1,tag2,...,tagK}
其中,wordi为地址分词后去重的字符集中第i个字符,N表示地址分词后去重的字符集中字符的数量,i∈[1,N];tagi为地址语义标注后去重的语义标注集中第i个语义标注,K表示分词后去重的语义标注集的数量。
表1:语义标注
步骤2、将步骤1得到的分词后去重的字符集通过RoBERTa模型词典转化为字符信息向量,依据字符信息向量将步骤1地址文本转化为地址文本信息矩阵;依据步骤1得到的语义标注集将步骤1地址文本对应的语义标注转化为语义标注信息矩阵。
步骤2所述将分词后去重的字符集通过查找RoBERTa模型词典转化为字符信息向量为:
其中,αi表示分词后去重的字符集中第i个字符的字符信息向量,i∈[1,N],N表示分词后的字符集中字符的数量,dmodel代表分词后的字符集中第i个字符的字符信息向量的维度;
步骤2所述依据字符信息向量将步骤1地址文本转化为地址文本信息矩阵为:
将每条地址中包含的字符通过步骤1得到word字符集转化为one-hot向量为:
βi={0,0,...,yi,…,0}
其中,βi表示字符集中第i个字符的one-hot向量,yi表示地址中第i个字符出在word中第i个位置,且yi=1,βi其余位置的值为0,βi的维数为word中字符集的个数,即N;
限制地址文本长度为L,对于小于L的地址使用零向量进行补充,对于大于L的地址进行截断,零向量定义为:
γ={0,0,...,0,…,0}
其中,γ为零向量,所有位置的值为0,γ的维数为word中字符集的个数,即N。
则把一条地址文本η=[word1,word2,…,wordL-1]转化为稀疏信息矩阵为:
BL*N=(β1,β2,...,βL-1,γ)T
τi={0,0,...,xi,…,0}
其中,τi表示地址中第i个字符对应的语义标注的one-hot向量,xi表示这条地址中第i个字符对应的语义标注在tag中第i个位置,且xi=1,τi其余位置的值为0,τi的维数为tag中字符集的个数,即K;
步骤2所述依据步骤1得到的语义标注集将步骤1地址文本对应的语义标注转化为语义标注信息矩阵为:
DL*K=(τ1,τ2,…,τk)T
步骤3、根据地址文本η中字符的位置,采用RoBERTa模型中的三角函数位置编码方式计算地址文本中每个字符的位置信息向量,根据每个字符的位置信息向量将地址文本η转化为位置信息矩阵;
步骤3所述计算地址文本中每个字符的位置信息向量为:
PE(pos,2i)=sin(pos/100002i/dmodel)
PE(pos,2i+1)=cos(pos/100002i/dmodel)
步骤3所述地址文本η中第i个字符的位置信息向量为:
其中,zq表示一个标量,根据步骤3中上面的计算公式得到的步骤3所述将地址文本转化为位置信息矩阵为:
步骤4、将步骤2所述的地址文本信息矩阵和步骤3所述的位置信息矩阵相加,进一步与语义标注信息矩阵拼接得到地址信息矩阵;
进一步,所述步骤4包括:
将将步骤2所述的地址文本信息矩阵和步骤3所述的位置信息矩阵相加为
进一步与语义标注信息矩阵拼接得到地址信息矩阵为
步骤5、将步骤4得到的地址信息矩阵输入到RoBERTa神经网络,得到地址的语义信息矩阵。
进一步,所述步骤5包括:
由于RoBERTa模型是利用多头注意力机制捕获地址语义信息,多头注意力机制就是把每个head的计算结果拼接起来得到地址的语义信息矩阵,具体计算公式如下
其中headn是第n个head的输出结果,w0是RoBERTa模型映射参数矩阵。
步骤6、将步骤5得到的上文语义信息矩阵输入到BiLSTM,使用前向传播算法和后向传播算法对BiLSTM进行训练,通过门控机制对上下文语义信息进行删减,得到标签的得分序列。
进一步,所述步骤6包括:
将上下文语义信息矩阵输入到BiLSTM模型,通过遗忘门、记忆门、输出门对上下文语义信息进行删减,对于t时刻门控制单元的计算过程如下:
ft=σ(wf·[ht-1,xt]+bf)
it=σ(wi·[ht-1,xt]+bi)
ct=ft *ct-1+it *tanh(wc·[ht-1,xt]+bc)
ot=σ(wo·[ht-1,xt]+bo)
ht=ot *tanh(ct)
其中,ht-1表示前一时刻的隐藏层状态,xt表示当前时刻输入的词,ft表示遗忘门的值,it表示记忆门的值,ct表示当前时刻细胞状态,ot表示输出门的值,ht表示当前时刻的隐藏层状态,bf、bi、bc和bo表示偏移量,wf、wi和wo表示相应门的权重矩阵。分别经过前向LSTM和后向LSTM计算之后,得到地址的前向信息m和后向信息n。
把前向信息、后向信息拼接,得到地址的上下文语义信息v=[m,n],BiLSTM前后向信息计算过程见图5。
把得到地址的上下文语义信息通过全连接神经网络转化为标签得分序列X={x1,x2,…,xn}。计算公式如下
X=v×E
其中,E为初始化的转换矩阵;
步骤7、将步骤6标签的得分序列作为输入,利用条件随机场构建标签之间的约束关系,得到中文地址分词的最优标注序列。
进一步,所述步骤7包括:
将步骤6得到的标签得分序列X={x1,x2,…,xn},对应的标注序列Y={y1,y2,…,yn},输入CRF构建标签之间的约束关系。则计算过程如下:
式中,Z(X)为归一化因子,tk(yi-1,yi,X,i)为观测序列下标注序列在位置i-1与i之间对应值的转移概率,sk(yi,X,i)为观察序列下标注序列在位置i对应的值概率。tk和sk都是基于位置的特征函数,通常是二值函数,满足特征条件时取值为1,否则为0。参数λk和uk经过语料训练后的权重值,决定着最终的预测结果。
采用维特比算法选取概率最大的Y为最优标注序列。
应当理解的是,本申请书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本申请专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本申请权利要求所保护的范围情况下,还可以做出替换或变形,均落入本申请的保护范围之内,本申请的请求保护范围应以所附权利要求为准。
Claims (8)
1.一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法,其特征在于,包括以下步骤:
步骤1、将多条地址文本依次进行分词,对分词后的字符进行人工语义标注;处理得到分词后地址字符集合及语义标注集合,将多条分词后地址字符集合及语义标注集合进行拼接,得到分词后去重的字符集及语义标注集;
步骤2、将得到分词后去重的字符集通过RoBERTa模型词典转化为字符信息向量,依据字符信息向量将地址文本转化为地址文本信息矩阵;依据语义标注集将地址文本对应的语义标注转化为语义标注信息矩阵;
步骤3、根据地址文本中字符的位置,采用RoBERTa模型中的三角函数位置编码方式计算地址文本中每个字符的位置信息向量,根据每个字符的位置信息向量将地址文本转化为位置信息矩阵;
步骤4、将地址文本信息矩阵和位置信息矩阵相加,进一步与语义标注信息矩阵拼接得到地址信息矩阵;
步骤5、将地址信息矩阵输入到RoBERTa神经网络,得到地址的语义信息矩阵;
步骤6、将地址的语义信息矩阵输入到BiLSTM,使用前向传播算法和后向传播算法对BiLSTM进行训练,通过门控机制对上下文语义信息进行删减,得到标签的得分序列;
步骤7、将标签的得分序列作为输入,利用条件随机场构建标签之间的约束关系,得到中文地址分词的最优标注序列。
2.根据权利要求1所述的使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法,其特征在于:
步骤1所述的分词后地址字符集合及标注集合定义为:
其中,addressj表示第j条地址分词后的地址字符集合及语义标注集合,wordj,l表示第j条地址分词后的地址字符集合中第l个字符,tagj,l表示第j条地址分词后的地址字符集合中第l个字符对应的语义标注,Kj表示第j条地址分词后的地址字符集合中字符的数量,Hj表示第j条地址分词后的地址字符对应的语义标注数量,这里Kj=Hj,M表示地址文本的数量;
步骤1所述分别将多条分词后的地址字符集合及语义标注集合进行拼接为:
{address1,address2,...,addressM}
步骤1所述通过去重处理分别得到地址分词后的字符集及语义标注集为将{address1,address2,...,addressM}中重复的字符及语义标注剔除,分别得到分词后去重的字符集及语义标注集为:
word={word1,word2,...,wordN}
tag={tag1,tag2,...,tagK}
其中,wordi为地址分词后去重的字符集中第i个字符,N表示地址分词后去重的字符集中字符的数量,i∈[1,N];tagi为地址语义标注后去重的语义标注集中第i个语义标注,K表示分词后去重的语义标注集的数量。
3.根据权利要求1所述的使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法,其特征在于:
步骤2所述将分词后去重的字符集通过查找RoBERTa模型词典转化为字符信息向量为:
其中,αi表示分词后去重的字符集中第i个字符的字符信息向量,i∈[1,N],N表示分词后的字符集中字符的数量,dmodel代表分词后的字符集中第i个字符的字符信息向量的维度;
步骤2所述依据字符信息向量将地址文本转化为地址文本信息矩阵为:
将每条地址中包含的字符通过步骤1得到分词后去重的字符集转化为one-hot向量为:
βi={0,0,...,yi,…,0}
其中,βi表示字符集中第i个字符的one-hot向量,yi表示地址中第i个字符出在word中第i个位置,且yi=1,βi其余位置的值为0,βi的维数为word中字符集的个数,即N;
限制地址文本长度为L,对于小于L的地址使用零向量进行补充,对于大于L的地址进行截断,零向量定义为:
γ={0,0,...,0,…,0}
其中,γ为零向量,所有位置的值为0,γ的维数为word中字符集的个数,即N;
则把一条地址文本η=[word1,word2,…,wordL-1]转化为稀疏信息矩阵为:
BL*N=(β1,β2,...,βL-1,γ)T
τi={0,0,...,xi,…,0}
其中,τi表示地址中第i个字符对应的语义标注的one-hot向量,xi表示这条地址中第i个字符对应的语义标注在tag中第i个位置,且xi=1,τi其余位置的值为0,τi的维数为tag中字符集的个数,即K;
步骤2所述依据语义标注集将地址文本对应的语义标注转化为语义标注信息矩阵为:
DL*K=(τ1,τ2,…,τk)T。
4.根据权利要求1所述的使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法,其特征在于:
步骤3所述计算地址文本中每个字符的位置信息向量为:
PE(pos,2i)=sin(pos/100002i/dmodel)
PE(pos,2i+1)=cos(pos/100002i/dmodel)
步骤3所述地址文本中第i个字符的位置信息向量为:
其中,zq表示一个标量,根据步骤3中上面的计算公式得到的
步骤3所述将地址文本转化为位置信息矩阵为:
6.根据权利要求1所述的使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法,其特征在于:
所述步骤5包括:
由于RoBERTa模型是利用多头注意力机制捕获地址语义信息,多头注意力机制就是把每个head的计算结果拼接起来得到地址的语义信息矩阵,具体计算公式如下
Multihead(Q;K;V)=Concat(head1,head2,...,headn)×w0
其中headn是第n个head的输出结果,w0是RoBERTa模型映射参数矩阵。
7.根据权利要求1所述的使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法,其特征在于:
所述步骤6包括:
将上下文语义信息矩阵输入到BiLSTM模型,通过遗忘门、记忆门、输出门对上下文语义信息进行删减,对于t时刻门控制单元的计算过程如下:
ft=σ(wf·[ht-1,xt]+bf)
it=σ(wi·[ht-1,xt]+bi)
ct=ft *ct-1+it *tanh(wc·[ht-1,xt]+bc)
ot=σ(wo·[ht-1,xt]+bo)
ht=ot *tanh(ct)
其中,ht-1表示前一时刻的隐藏层状态,xt表示当前时刻输入的词,ft表示遗忘门的值,it表示记忆门的值,ct表示当前时刻细胞状态,ot表示输出门的值,ht表示当前时刻的隐藏层状态,bf、bi、bc和bo表示偏移量,wf、wi和wo表示相应门的权重矩阵;分别经过前向LSTM和后向LSTM计算之后,得到地址的前向信息m和后向信息n;
把前向信息、后向信息拼接,得到地址的上下文语义信息v=[m,n];
把得到地址的上下文语义信息通过全连接神经网络转化为标签得分序列X={x1,x2,…,xn};计算公式如下
X=v×E
其中,E为初始化的转换矩阵。
8.根据权利要求1所述的使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法,其特征在于:
进一步,所述步骤7包括:
将步骤6得到的标签得分序列X={x1,x2,,xn},对应的标注序列Y={y1,y2,…,yn},输入CRF构建标签之间的约束关系;则计算过程如下:
式中,Z(X)为归一化因子,tk(yi-1,yi,X,i)为观测序列下标注序列在位置i-1与i之间对应值的转移概率,sk(yi,X,i)为观察序列下标注序列在位置i对应的值概率;tk和sk都是基于位置的特征函数,通常是二值函数,满足特征条件时取值为1,否则为0;参数λk和uk经过语料训练后的权重值,决定着最终的预测结果;
采用维特比算法选取概率最大的Y为最优标注序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011483732.2A CN112560478B (zh) | 2020-12-16 | 2020-12-16 | 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011483732.2A CN112560478B (zh) | 2020-12-16 | 2020-12-16 | 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112560478A true CN112560478A (zh) | 2021-03-26 |
CN112560478B CN112560478B (zh) | 2024-03-12 |
Family
ID=75063854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011483732.2A Active CN112560478B (zh) | 2020-12-16 | 2020-12-16 | 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112560478B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113255346A (zh) * | 2021-07-01 | 2021-08-13 | 湖南工商大学 | 一种基于图嵌入与crf知识融入的地址要素识别方法 |
CN113268995A (zh) * | 2021-07-19 | 2021-08-17 | 北京邮电大学 | 中文学术关键词抽取方法、装置和存储介质 |
CN113468881A (zh) * | 2021-07-23 | 2021-10-01 | 浙江大华技术股份有限公司 | 一种地址标准化方法及装置 |
CN113536794A (zh) * | 2021-06-22 | 2021-10-22 | 河北远东通信系统工程有限公司 | 一种基于置信度的Active-BiLSTM-CRF中文层级地址分词方法 |
CN113919350A (zh) * | 2021-09-22 | 2022-01-11 | 上海明略人工智能(集团)有限公司 | 一种实体识别方法、系统、电子设备及存储介质 |
CN114398886A (zh) * | 2021-12-22 | 2022-04-26 | 科讯嘉联信息技术有限公司 | 一种基于预训练的地址提取和标准化方法 |
CN114417853A (zh) * | 2021-12-10 | 2022-04-29 | 新智道枢(上海)科技有限公司 | 数字警务警情地址分词方法及数字警务警情系统 |
CN115081449A (zh) * | 2022-08-23 | 2022-09-20 | 北京睿企信息科技有限公司 | 一种地址识别方法及系统 |
CN116341557A (zh) * | 2023-05-29 | 2023-06-27 | 华北理工大学 | 一种糖尿病医学文本命名实体识别方法 |
CN116756624A (zh) * | 2023-08-17 | 2023-09-15 | 中国民用航空飞行学院 | 一种面向民航监管事项检查记录处理的文本分类方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2628077A1 (en) * | 2007-04-02 | 2008-10-02 | Research In Motion Limited | Input shortcuts for a communications device |
WO2016179988A1 (zh) * | 2015-05-12 | 2016-11-17 | 深圳市华傲数据技术有限公司 | 中文地址分词标注方法 |
CN108268444A (zh) * | 2018-01-10 | 2018-07-10 | 南京邮电大学 | 一种基于双向lstm、cnn和crf的中文分词方法 |
CN111950280A (zh) * | 2020-05-27 | 2020-11-17 | 西交利物浦大学 | 地址匹配方法及装置 |
-
2020
- 2020-12-16 CN CN202011483732.2A patent/CN112560478B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2628077A1 (en) * | 2007-04-02 | 2008-10-02 | Research In Motion Limited | Input shortcuts for a communications device |
WO2016179988A1 (zh) * | 2015-05-12 | 2016-11-17 | 深圳市华傲数据技术有限公司 | 中文地址分词标注方法 |
CN108268444A (zh) * | 2018-01-10 | 2018-07-10 | 南京邮电大学 | 一种基于双向lstm、cnn和crf的中文分词方法 |
CN111950280A (zh) * | 2020-05-27 | 2020-11-17 | 西交利物浦大学 | 地址匹配方法及装置 |
Non-Patent Citations (3)
Title |
---|
张秋颖;傅洛伊;王新兵;: "基于BERT-BiLSTM-CRF的学者主页信息抽取", 计算机应用研究, no. 1, 30 June 2020 (2020-06-30) * |
李瑞昶;田沁;任福;: "基于Lucene引擎构建在线地址匹配服务", 测绘与空间地理信息, no. 02, 25 February 2016 (2016-02-25) * |
许普乐;王杨;黄亚坤;黄少芬;赵传信;陈付龙;: "大数据环境下基于贝叶斯推理的中文地名地址匹配方法", 计算机科学, no. 09, 15 September 2017 (2017-09-15) * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113536794A (zh) * | 2021-06-22 | 2021-10-22 | 河北远东通信系统工程有限公司 | 一种基于置信度的Active-BiLSTM-CRF中文层级地址分词方法 |
CN113255346A (zh) * | 2021-07-01 | 2021-08-13 | 湖南工商大学 | 一种基于图嵌入与crf知识融入的地址要素识别方法 |
CN113268995A (zh) * | 2021-07-19 | 2021-08-17 | 北京邮电大学 | 中文学术关键词抽取方法、装置和存储介质 |
CN113268995B (zh) * | 2021-07-19 | 2021-11-19 | 北京邮电大学 | 中文学术关键词抽取方法、装置和存储介质 |
CN113468881B (zh) * | 2021-07-23 | 2024-02-27 | 浙江大华技术股份有限公司 | 一种地址标准化方法及装置 |
CN113468881A (zh) * | 2021-07-23 | 2021-10-01 | 浙江大华技术股份有限公司 | 一种地址标准化方法及装置 |
CN113919350A (zh) * | 2021-09-22 | 2022-01-11 | 上海明略人工智能(集团)有限公司 | 一种实体识别方法、系统、电子设备及存储介质 |
CN114417853A (zh) * | 2021-12-10 | 2022-04-29 | 新智道枢(上海)科技有限公司 | 数字警务警情地址分词方法及数字警务警情系统 |
CN114398886A (zh) * | 2021-12-22 | 2022-04-26 | 科讯嘉联信息技术有限公司 | 一种基于预训练的地址提取和标准化方法 |
CN115081449B (zh) * | 2022-08-23 | 2022-11-04 | 北京睿企信息科技有限公司 | 一种地址识别方法及系统 |
CN115081449A (zh) * | 2022-08-23 | 2022-09-20 | 北京睿企信息科技有限公司 | 一种地址识别方法及系统 |
CN116341557A (zh) * | 2023-05-29 | 2023-06-27 | 华北理工大学 | 一种糖尿病医学文本命名实体识别方法 |
CN116756624A (zh) * | 2023-08-17 | 2023-09-15 | 中国民用航空飞行学院 | 一种面向民航监管事项检查记录处理的文本分类方法 |
CN116756624B (zh) * | 2023-08-17 | 2023-12-12 | 中国民用航空飞行学院 | 一种面向民航监管事项检查记录处理的文本分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112560478B (zh) | 2024-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112560478A (zh) | 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法 | |
CN110826335B (zh) | 一种命名实体识别的方法和装置 | |
CN113297975A (zh) | 表格结构识别的方法、装置、存储介质及电子设备 | |
CN110232192A (zh) | 电力术语命名实体识别方法及装置 | |
CN109960728B (zh) | 一种开放域会议信息命名实体识别方法及系统 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN114139533A (zh) | 一种面向中文小说领域的文本内容审核方法 | |
CN112632993A (zh) | 一种基于卷积注意力网络的电力计量实体识别模型的分类方法 | |
CN114880468A (zh) | 基于BiLSTM与知识图谱的建筑规范审查方法与系统 | |
CN114416979A (zh) | 一种文本查询方法、设备和存储介质 | |
CN115952791A (zh) | 基于机器阅读理解的篇章级事件抽取方法、装置、设备及存储介质 | |
CN116245097A (zh) | 训练实体识别模型的方法、实体识别方法及对应装置 | |
CN117891939A (zh) | 粒子群算法结合cnn卷积神经网络的文本分类方法 | |
CN112036189A (zh) | 一种金文语义识别方法和系统 | |
CN115098673A (zh) | 基于变体注意力及层次结构的业务文书信息抽取方法 | |
CN113191150B (zh) | 一种多特征融合的中文医疗文本命名实体识别方法 | |
CN114330328A (zh) | 基于Transformer-CRF的藏文分词方法 | |
CN112256932B (zh) | 一种地址字符串的分词方法及装置 | |
CN112215007B (zh) | 基于leam模型的机构命名实体归一化方法和系统 | |
CN118170907A (zh) | 一种基于深度神经网络的公文智能标签系统及其实现方法 | |
CN111738008B (zh) | 基于多层模型的实体识别方法、装置、设备及存储介质 | |
CN114626378A (zh) | 命名实体识别方法、装置、电子设备及计算机可读存储介质 | |
CN112084783A (zh) | 基于民航不文明旅客的实体识别方法及系统 | |
CN114969343B (zh) | 结合相对位置信息的弱监督文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |