CN115481635A - 一种地址要素解析方法和系统 - Google Patents
一种地址要素解析方法和系统 Download PDFInfo
- Publication number
- CN115481635A CN115481635A CN202211034540.2A CN202211034540A CN115481635A CN 115481635 A CN115481635 A CN 115481635A CN 202211034540 A CN202211034540 A CN 202211034540A CN 115481635 A CN115481635 A CN 115481635A
- Authority
- CN
- China
- Prior art keywords
- address
- address information
- information element
- word
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及地址信息处理技术领域,且公开了一种地址要素解析方法和系统,其中一种地址要素解析方法,包括:S1、训练得到地址信息要素抽取模型;S2、对用户输入的地址信息进行命名实体识别,用训练好的模型提取所需信息元,即,地址信息要素标签;S3、储存所提取出的地址信息要素标签;S4、将地址信息要素标签以结构化的方式呈现给用户。该地址要素解析方法,通过引入特征提取器BILSTM和条件随机场CRF,充分考虑到了地址要素上下文之间的相关性,让地址要素提取模型基于文本上下关系,且能够自动学习相关约束,从而增强了特征表达,提高了地址要素解析的效果。
Description
技术领域
本发明涉及地址信息处理技术领域,具体为一种地址要素解析方法和系统。
背景技术
地址是日常生活中一种重要的文本信息,生活中诸多场景需要登记地址,如电商购物、外卖配送、人口普查、水电气开户等。面对海量的地址数据,如何准确提取地址要素,成为了中文地址处理的核心任务。面对这一挑战,人们提出了地址要素解析技术,借助智能化地址要素解析技术得到准确的地址信息要素。
地址文本相关性任务在现实世界中存在着广泛的应用场景,如:基于地理信息搜索的地理位置服务、对于突发事件位置信息的快速搜索定位、不同地址信息系统的对齐等;而地址要素解析是将地址文本拆分成独立语义的要素,并对这些要素进行类型识别的过程。目前,针对地址文本内容要素的拆分,主要利用命名实体识别的方式处理地址数据。
传统地址解析系统多基于词典匹配来提高准确度,然而,由于我国的地址系统复杂,地址信息种类繁多,用词典全部揽括需要相当大的人力,所以一般的识别系统基于大量的已知数据,只能细分到区或者街道。
在实际应用中,地址文本存在写法自由、缺省别名多、地域性强等特点,对地址的解析、归一和匹配等都造成困难,具体表现有,对于同一个地址存在多种写法,没有给定的改写词表、不同地市地址规范不一且存在省市区等限制条件;对于现有的很多模型来说,当地址出现缺省以及口语化等不规范表述时,容易导致要素提取错误。
发明内容
本发明提供了一种地址要素解析方法和系统,将命名实体识别模型应用到地址解析领域;通过提取地址信息的特征,通过上下文之间的约束,对地址要素进行预测,从而达到解析地址的效果,促进解决了上述背景技术中所提到的问题。
本发明提供如下技术方案:一种地址要素解析方法,所述地址要素解析方法包括:
S1、训练模型,地址信息要素抽取模型;
S2、对用户输入的地址信息进行命名实体识别,用训练好的模型提取所需信息元,即,地址信息要素标签;
S3、储存所提取出的地址信息要素标签;
S4、将地址信息要素标签以结构化的方式呈现给用户。
作为本发明所述地址要素解析方法的一种可选方案,其中:所述S1的训练模型步骤具体包括:
S11、通过网络爬虫技术爬取数据,并存储到第一数据库中;
S12、对第一数据库中的数据集进行预处理;
S13、通过特征提取层提取文本特征,得到序列的特征表征;
S14、通过最优化输出层得到最优模型参数,保存最终的地址信息要素抽取模型。
作为本发明所述地址要素解析方法的一种可选方案,其中:所述S2具体包括:
S21、将用户输入地址中的每一个词,构建一个向量用于表示词的意思以及特征,将由词转化而成的词向量通过编码被计算机所识别和处理;
S22、依据用户地址的词向量,通过模型预测出NER标注序列,解码并输出每个字的序列,即得到信息要素。
作为本发明所述地址要素解析方法的一种可选方案,其中:所述S12的预处理步骤包括:
S121、对数据集进行划分,其中一部分用来训练,另一部分用来检验模型效果;
S122、处理地址信息要素标签,构建一个包含所有地址信息要素标签的id表,将地址元素地址信息要素标签转化为跟文本一样大小的k维地址信息要素标签映射序列;
S123、对划分后的地址数据集进行词向量化,得到该地址的词向量序列,作为模型的输入。
作为本发明所述地址要素解析方法的一种可选方案,其中:所述S13步骤包括:
将词向量序列(x1,x2,...,xn)作为特征提取层各个时间步的输入,再将正向LSTM输出的隐状态序列(h1→,h2→,...,hn→)与反向LSTM输出的隐状态序列(h1←,h2←,...,hn←)在各个位置输出的隐状态进行按位置拼接ht=[ht→;ht←]∈Rm,得到完整的隐状态序列(h1,h2,..., hn)∈Rn×m;
利用线性关系将隐状态向量从m维映射到k维,k是标注集的地址信息要素标签数,从而得到自动提取的句子特征,记作矩阵P=(p1,p2,..., pn)∈Rn×k,其中,pi的每一维pij都视作将字i分类到第j个地址信息要素标签的打分值,即这个字对于每个地址信息要素标签的概率值;
特征提取层的输出即为得到的评分矩阵P。
作为本发明所述地址要素解析方法的一种可选方案,其中:所述S14步骤中:
以(k+2)×(k+2)的转移矩阵A作为最优化输出层的参数,其中,Aij表示为从第i个地址信息要素标签到第j个地址信息要素标签的转移得分;
整个序列的打分等于各个位置的打分之和,每个位置的打分由矩阵P和矩阵A决定;
具体为:
记一个长度等于句子长度的地址信息要素标签序列y=(y1,y2,...,yn),则句子x的地址信息要素标签等于y的得分为:
句子x的地址信息要素标签等于y的得分随着训练的迭代次数的增加,更新转移矩阵的参数值,得到模型参数,保存最终的地址要素抽取模型;
作为本发明所述地址要素解析方法的一种可选方案,其中:所述S22步骤还包括:
通过用户地址的向量序列,根据转移矩阵的参数进行维特比解码,得到预测序列标注值,输出每个字对应的地址信息要素标签。
作为本发明所述地址要素解析方法的一种可选方案,其中:所述S11步骤还包括:
数据去噪,去除与地址无关的内容;
对去噪后的数据进行标注;
对去噪后的数据进行标注具体为:
指定各个触发词类型的定义标准;
找出数据中的触发词,对所有事件触发词给予对应地址信息要素标签;
对每个地址句进行分词处理,并在每个句子插入开头([CLS])以及结尾([SEP])这两个地址信息要素标签用于为分类任务服务。
作为本发明所述地址要素解析方法的一种可选方案,其中:所述S121步骤具体包括:
训练集,采用训练模型的数据集,通过数据训练得到模型的参数;
验证集,用于做超参数的选取与模型的选取;
测试集,用于评价模型的好坏,检测训练后的模型效果;
其中,数据划分比例为8:1:1,将划分好的带地址信息要素标签数据集存储到第二数据库中。
作为本发明所述地址要素解析方法的一种可选方案,其中:所述S123步骤包括:
token embedding阶段,将各个词转换成固定维度的向量;
Segment Embeddings阶段,前一个句子的词用0表示,后一个句子的词用1表示,用于处理对输入句子对的分类任务;
Position Embeddings阶段,对句子中各个词之间的相对位置信息进行处理;
将三个向量相加即为预处理后的词向量,并得到句子中各个字的词向量序列(x1,x2,...,xn),其中n表示一个地址信息中字的数量。
一种地址要素解析系统,包括:
输入模块:用户输入需要解析的地址信息;
信息元抽取模块:用于将用户输入的地址文本进行命名实体识别(模型预测),提取所需信息元,得到地址文本中每个字的地址信息要素标签;
存储模块:用于储存提取出来的地址信息要素标签;
输出模块:将识别出的地址信息要素标签以结构化的方式呈现给用户。
本发明具备以下有益效果:
1、该地址要素解析方法,本申请对地址要素进行了详细分类,通过模型预测来得到地址要素,能够精细匹配到房号、路号等。模型更全面的揽括了各地址要素,具有较好的泛化能力,基于地址要素之间的相对关系来确定,采用多种算法相结合,使得预测结果更加准确。
2、该地址要素解析方法,采用CRF层优化数据参数,CRF的优点在于其为一个位置进行标注的过程中可以利用到此前已经标注的信息,利用Viterbi 解码来得到最优序列。CRF层可以为最后预测的标签添加一些约束来保证预测的标签是合法的。
3、该地址要素解析方法,对于CRF层来说,由评分矩阵P和初始化的转移矩阵A形成训练要素,在之后的训练过程中,这些随机初始化的score将会被自动更新;CRF层可以自己学习到这些约束,并不需要手动创建这样一个矩阵;这些分数值会随着训练的迭代次数的增加,变得越来越“合理”也即分数值为较优选的数据;在不断迭代过程中更新转移矩阵的参数值,得到最优模型参数,保存最终的地址要素抽取模型。
4、该地址要素解析方法,通过引入特征提取器BILSTM和条件随机场CRF,充分考虑到了地址要素上下文之间的相关性,让地址要素提取模型基于文本上下关系,且能够自动学习相关约束,从而增强了特征表达,提高了地址要素解析的效果。
附图说明
图1为本发明地址要素解析流程示意图。
图2为本发明信息元抽取模块工作的流程示意图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的首选实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
需要特别说的是,命名实体识别(Named Entity Recongnition,简称NER) 又称作专名识别,命名实体一般指的是文本中具有特定意义或者指代性强的实体。NER系统就是从非结构化的输入文本中抽取出实体要素,并且可以按照业务需求识别出更多类别的实体,只要是业务需要的文本片段都可以称为实体。
采用命名实体识别的方式处理地址数据有:
基于词典的无监督方法
典型的无监督方法如聚类可以利用语义相似性,从聚集的组中抽取命名实体。其核心思路在于利用基于巨大语料得到的词汇资源、词汇模型、统计数据来推断命名实体的类别。对于地址来说,可以通过庞大的语料库来分析语义相似性。
基于特征的监督学习方法
利用监督学习,NER任务可以被转化为多分类任务或者序列标注任务。根据标注好的数据,研究者应用领域知识与工程技巧设计复杂的特征来表征每个训练样本,然后应用机器学习算法,训练模型使其对数据的模式进行学习。
基于深度学习
NER可以利用深度学习非线性的特点,从输入到输出建立非线性的映射。相比于线性模型(如线性链式CRF、log-linear隐马尔可夫模型),深度学习模型可以利用巨量数据通过非线性激活函数学习得到更加复杂精致的特征,从输入中自动发掘信息以及学习信息的表示。
传统地址解析系统多基于词典匹配来提高准确度,然而,由于我国的地址系统复杂,地址信息种类繁多,用词典全部揽括需要相当大的人力,所以一般的识别系统基于大量的已知数据,只能细分到区或者街道。本专利对地址要素进行了详细分类,通过模型预测来得到地址要素,能够精细匹配到房号、路号等。模型揽括了几乎所有地址要素,具有较好的泛化能力。
在实际应用中,地址文本存在写法自由、缺省别名多、地域性强等特点,对地址的解析、归一和匹配等都造成困难,具体表现有,对于同一个地址存在多种写法,没有给定的改写词表、不同地市地址规范不一且存在省市区等限制条件;对于现有的很多模型来说,当地址出现缺省以及口语化等不规范表述时,容易导致要素提取错误。所以本专利基于地址要素之间的相对关系来确定,采用多种算法相结合,使得预测结果更加准确。
实施例1
具体参照图2,一种地址要素解析方法,包括:
训练出地址信息要素抽取模型;
对用户输入的地址信息进行命名实体识别,用训练好的模型提取所需信息元,即,地址信息要素标签;
储存所提取出的地址信息要素标签;
将地址信息要素标签以结构化的方式呈现给用户。
训练地址信息要素抽取模型需要对数据进行预处理,通常需包括如下步骤:
第一步需要爬取数据,互联网上已有大量的地址数据,利用网络爬虫获取没有标注过的包含地址的信息,可以利用现有的网络爬虫技术来实现,然后将获取的数据存储到存储模块中的第一数据库中,也即图2中数据库1。
需特备说明的是,上述爬取到的包含地址的文本不能直接应用于训练,一方面是因为存在噪声数据(Noisy Data),即无意义的数据,这类数据不仅会增加数据量,也会加大计算量和计算误差,所以需要对数据进行清洗;
对数据进行清洗,也称数据去噪,一些数据存在与地址无关的内容,例如,网页自带的html标签、无意义的字符和标点等,这些不相关内容会影响到模型训练的结果;
一般采用如正则匹配等对数据进行过滤,去除网页标签、乱码字符等干扰项,使得去噪后的数据能够最大化满足模型训练的各项需求,且尽可能保留相关数据的完整性。
另一方面由于模型的训练采用的是有监督的方式,需要使用有监督的标签化数据集,而爬取后的数据大多数是不包含标签的,所以需要对清洗后的地址要素进行人工标注;
标注过程主要有以下步骤:
首先,指定各个触发词类型的定义标准,需特别说明的是,这里所述的触发词指的是各个地址信息要素,常见的地址触发词一般包含以下几类信息:
行政区划信息,如省、市、县、乡镇信息;
路网信息,如路名,路号,道路设施等;
详细地址信息,如POI也即兴趣点、楼栋号、户室号等;
非地址信息,如补充说明,误输入等;
其次,以此为依据,找到数据中的触发词,对所有事件触发词给予对应标签,标签体系采用BIEO体系,也即用Beginning、Inside、End、Outside 标签来表示字在词语中的相对关系;
最后对每个地址句进行分词处理,并在每个句子插入开头([CLS])、结尾 ([SEP])这两个标签,用于为后面的分类任务服务,得到的带标签的地址句如:“[CLS][CLS]浙[B-prov]江[E-prov]杭[B-city]州[I-city]市[E-city] 的[O]江[B-district]干[I-district]区[E-district][SEP][SEP]”。
数据划分,将处理好的标签数据集进行划分,其中一部分用来训练,另一部分用来检验模型效果;
数据划分一般分为以下三个部分:
训练集:就是拿来训练模型的数据集,通过这个数据训练得到模型的参数;
验证集,主要用于做超参数的选取与模型的选取;
测试集,用于评价模型的好坏,检测训练后的模型效果;数据划分比例8: 1:1,即训练集占百分之八十,验证集和测试集分别占百分之十;将划分好的带标签数据集存储到存储模块的第二数据库中,也即图2中数据库2。
将处理后的地址文本进行命名实体识别,进而提取出需要的信息元,即地址信息要素标签,这一步骤中,通常采用信息元抽取模块,信息元抽取模块流程如图2所示;
该模块使用的训练模型有三层,分别是数据预处理(BERT)层、双向长短期记忆(BILSTM)层和条件随机场(CRF)层来实现地址要素的命名实体识别。
其中BERT层为输入层,进行数据的预处理,得到计算机可以理解的词向量,对于文本中的每一个词,需要构建一个向量来获取这个词的意思以及对实体识别有用的一些特征。由词转化而成的词向量通过编码被计算机所识别和处理,再通过解码得到预测结论。数据预处理就是要得到每个地址文本对应的词向量。
BERT(Bidirectional Encoder Representation from Transformers) 是目前主流的数据预处理模型,它将词转化成向量形式。每个地址信息在的处理过程主要经过以下三个向量阶段:
token embedding阶段,它将各个词转换成固定维度的向量,在BERT中,每个词会被转换成固定维度的向量表示;
Segment Embeddings阶段,前一个句子的词用0表示,后一个句子的词用1表示,它能够处理对输入句子对的分类任务;这类任务就像判断两个文本是否是语义相似的;
Position Embeddings阶段,它对句子中各个词之间的相对位置信息进行处理,为了令计算机能够感知词与词之间的位置关系,我们需要使用位置编码给每个词加上位置信息。
地址文本在经过BERT三层处理阶段之后,得到的三个向量之和即为预处理后的词向量,由此得到了句子中各个字的词向量序列(x1,x2,...,xn),n表示一个地址信息中字的数量。
最后对标签进行处理,构建一个包含所有标签的id表,对于每一个标签,在表中都有对应的id表示,从而将地址元素标签转化为跟文本一样大小的k 维标签映射序列;数据预处理层的输出即为词向量序列和标签序列。
BILSTM层为特征提取层,用于文本特征提取,得到序列的特征表征;
特征提取是将一些原始的输入的数据维度减少,或者将原始的特征进行重新组合以便于后续的使用,能够起到减少数据维度,整理已有的数据特征的作用。
词在句子中的前后顺序,模型中引入双向长短期记忆(BILSTM)作为特征提取工具,使用BILSTM能够获取左右两侧的上下文信息,进而根据拼接的上下文向量信息重新获得对目标词的表示。BILSTM能够同时处理多个句子,提高模型的特征提取能力,其处理过程如下:
将数据预处理得到的词向量序列(x1,x2,...,xn)作为BILSTM各个时间步的输入,再将正向LSTM输出的隐状态序列(h1→,h2→,...,hn→) 与反向LSTM输出的隐状态序列(h1←,h2←,...,hn←)在各个位置输出的隐状态进行按位置拼接ht=[ht→;ht←]∈Rm,得到完整的隐状态序列 (h1,h2,...,hn)∈Rn×m;
之后利用线性关系将隐状态向量从m维映射到k维,k是标注集的标签数,从而得到自动提取的句子特征,记作矩阵P=(p1,p2,...,pn)∈Rn×k,其中,pi的每一维pij都视作将字i分类到第j个标签的打分值,即这个字对于每个标签的概率值;
特征提取层的输出即为得到的评分矩阵P。
对于评分矩阵P,评分矩阵P本身可以将每个字打分最高的标签作为输出标签,但它没有考虑到字与字之间的相对关系,容易使结果丧失词语的一致性。这一层的任务就是找到最优标签,提升标签的可靠性。
为促进解决评分矩阵P的局限性,本实施例还引入CRF层作为最优化输出层,用于得到最可能的NER标注序列,解码并输出每个字的序列,即得到信息要素;
需说明的是,CRF(conditional random field),即条件随机场,是一种鉴别式机率模型,CRF的优点在于其为一个位置进行标注的过程中可以利用到此前已经标注的信息,利用Viterbi解码来得到最优序列。CRF层可以为最后预测的标签添加一些约束来保证预测的标签是合法的。在训练数据训练过程中,这些约束是CRF层自动学习到的,约束可以是:
句子中第一个词总是以标签“B-”或“O”开始,而不是“I-”;
实体标签的首个标签应该是“B-”,而非“I-”;
标签“B-city1 I-city2 E-city3”中,city1,city2,city3应该属于同一个词里面的字;
CRF层的参数是一个(k+2)×(k+2)的矩阵A,其中,Aij表示的是从第 i个标签到第j个标签的转移得分,即从一个序列转移到下一个序列的可能性,进而在为一个位置进行标注的时候可以利用此前已经标注过的标签。
这里需要特别说明的是,对于(k+2)×(k+2)的矩阵A中,之所以要加2 是因为预处理过程中句子首部添加的起始状态[CLS]以及为句子尾部添加的终止状态[SEP]。
整个序列的打分等于各个位置的打分之和,而每个位置的打分由两部分得到,一部分是由BILSTM输出的评分矩阵P决定,另一部分则由CRF的转移矩阵A决定。如果记一个长度等于句子长度的标签序列y=(y1,y2,...,yn),那么模型对于句子x的标签等于y的最终得分为:
对于CRF层来说,由评分矩阵P和初始化的转移矩阵A形成训练要素,在之后的训练过程中,这些随机初始化的score将会被自动更新;CRF层可以自己学习到这些约束,并不需要手动创建这样一个矩阵;这些分数值会随着训练的迭代次数的增加,变得越来越“合理”也即分数值为较优选的数据;在不断迭代过程中更新转移矩阵的参数值,得到最优模型参数,保存最终的地址要素抽取模型;
在预测阶段时,输入一个序列,根据转移矩阵的参数进行维特比解码,得到最优化的预测序列标注值,输出每个字最可能对应的地址信息要素标签。
通过引入特征提取器BILSTM和条件随机场CRF,充分考虑到了地址要素上下文之间的相关性,让地址要素提取模型基于文本上下关系,且能够自动学习相关约束,从而增强了特征表达,提高了地址要素解析的效果。
实施例2
一种地址要素解析系统,
地址要素解析系统主要由以下模块组成:
输入模块:用户输入需要解析的地址句也即输入需要解析的地址信息;
数据预处理模块:用于爬取数据并对数据进行去噪、标注以及数据集划分处理;
信息元抽取模块:用于将数据预处理模块处理后的地址文本进行命名实体识别,提取出需信息元,得到地址文本中每个字的地址信息要素标签,将地址文本输入到已经训练好的信息元抽取模块中,通过模型预测输出得到地址文本中每个字最有可能的标签;
存储模块:将提取出来的信息元即地址信息要素标签保存到数据库中;
输出模块:将识别出的信息元以结构化的方式呈现给用户。
具体的实施流程如下:
输入模块:用户将输入需要解析的地址句或者地址句集,句中包含了有关地址信息;如“余杭区五常大道002号教工宿舍电联”。
信息元抽取模块:这一模块已经提前经过训练,得到了最优参数的模型;将输入模块的地址句或者地址句集作为模型的输入,使用已经训练好了的模型(BERT+BILSTM+CRF)对句子进行地址信息元抽取,得到带有标签的结果。
比如“余杭区五常大道002号教工宿舍电联”通过模型预测,得到输出结果:“余[B-district]杭[I-district]区[E-district]五[B-road]常 [I-road]大[I-road]道[E-road]0[B-roadno]0[I-roadno]2[I-roadno] 号[E-roadno]教[B-poi]工[I-poi]宿[I-poi]舍[E-poi]电[O]联[O]”。其中B-district、B-district、E-district分别表示县级区首字、县级区非首尾字、县级区尾字;B-road、I-road、E-road分别表示道路首字、道路非首尾字、道路尾字;B-roadno、I-roadno、E-roadno分别表示道路号首字、道路号非首尾字、道路号尾字;B-poi、I-poi、E-poi分别表示兴趣点首字、兴趣点非首尾字、兴趣点尾字;0表示无意义信息。将字和标签按照原来的顺序拼接起来,通过标签类别的鉴别,可以判断出例句中包含了信息元“district”、“road”、“roadno”、“poi”、“0”这几类地址要素。
存储模块:对于每一个句子,将预测后的每类地址要素标签所包含的字归并成一个词,得到地址要素对,例如:{[“district”,“余杭区”],[“road”,“五常大道”],[“roadno”,“002号”],[“O”,“电联”]},将这样的地址要素对存入到数据库中。
输出模块:将数据库中每个句子的地址要素对取出,结构化输出对应的地址解析结果。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各除法运算方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程 ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种地址要素解析方法,其特征在于,所述地址要素解析方法包括:
S1、训练模型,训练出地址信息要素抽取模型;
S2、对用户输入的地址信息进行命名实体识别,用训练好的模型提取所需信息元,即,地址信息要素标签;
S3、储存所提取出的地址信息要素标签;
S4、将地址信息要素标签以结构化的方式呈现给用户。
2.根据权利要求1所述的地址要素解析方法,其特征在于,所述S1的训练模型步骤具体包括:
S11、通过网络爬虫技术爬取数据,并存储到第一数据库中;
S12、对第一数据库中的数据集进行预处理;
S13、通过特征提取层提取文本特征,得到序列的特征表征;
S14、通过最优化输出层得到最优模型参数,保存最终的地址信息要素抽取模型。
3.根据权利要求1所述的地址要素解析方法,其特征在于,所述S2具体包括:
S21、将用户输入地址中的每一个词,构建一个向量用于表示词的意思以及特征,将由词转化而成的词向量通过编码被计算机所识别和处理;
S22、依据用户地址的词向量,通过模型预测出NER标注序列,解码并输出每个字的序列,即得到信息要素。
4.根据权利要求2或3所述的地址要素解析方法,其特征在于,所述S12的预处理步骤包括:
S121、对数据集进行划分,其中一部分用来训练,另一部分用来检验模型效果;
S122、处理地址信息要素标签,构建一个包含所有地址信息要素标签的id表,将地址元素地址信息要素标签转化为跟文本一样大小的k维地址信息要素标签映射序列;
S123、对划分后的地址数据集进行词向量化,得到该地址的词向量序列,作为模型的输入。
5.根据权利要求4所述的地址要素解析方法,其特征在于,所述S13步骤包括:
将词向量序列(x1,x2,...,xn)作为特征提取层各个时间步的输入,再将正向LSTM输出的隐状态序列(h1→,h2→,...,hn→)与反向LSTM输出的隐状态序列(h1←,h2←,...,hn←)在各个位置输出的隐状态进行按位置拼接ht=[ht→;ht←]∈Rm,得到完整的隐状态序列(h1,h2,...,hn)∈Rn×m;
利用线性关系将隐状态向量从m维映射到k维,k是标注集的地址信息要素标签数,从而得到自动提取的句子特征,记作矩阵P=(p1,p2,...,pn)∈Rn×k,其中,pi的每一维pij都视作将字i分类到第j个地址信息要素标签的打分值,即这个字对于每个地址信息要素标签的概率值;
特征提取层的输出即为得到的评分矩阵P。
7.根据权利要求6所述的地址要素解析方法,其特征在于,所述S22步骤还包括:
通过用户地址的向量序列,根据转移矩阵的参数进行维特比解码,得到预测序列标注值,输出每个字对应的地址信息要素标签。
8.根据权利要求2所述的地址要素解析方法,其特征在于,所述S11步骤还包括:
数据去噪,去除与地址无关的内容;
对去噪后的数据进行标注;
对去噪后的数据进行标注具体为:
指定各个触发词类型的定义标准;
找出数据中的触发词,对所有事件触发词给予对应地址信息要素标签;
对每个地址句进行分词处理,并在每个句子插入开头([CLS])以及结尾([SEP])这两个地址信息要素标签用于为分类任务服务。
9.根据权利要求7所述的地址要素解析方法,其特征在于,所述S121步骤具体包括:
训练集,采用训练模型的数据集,通过数据训练得到模型的参数;
验证集,用于做超参数的选取与模型的选取;
测试集,用于评价模型的好坏,检测训练后的模型效果;
其中,数据划分比例为8:1:1,将划分好的带地址信息要素标签数据集存储到第二数据库中;
所述S123步骤包括:
token embedding阶段,将各个词转换成固定维度的向量;
Segment Embeddings阶段,前一个句子的词用0表示,后一个句子的词用1表示,用于处理对输入句子对的分类任务;
Position Embeddings阶段,对句子中各个词之间的相对位置信息进行处理;
将三个向量相加即为预处理后的词向量,并得到句子中各个字的词向量序列(x1,x2,...,xn),其中n表示一个地址信息中字的数量。
10.一种地址要素解析系统,其特征在于,包括:
输入模块:用户输入需要解析的地址信息;
信息元抽取模块:用于将数据预处理模块处理后的地址文本进行命名实体识别,提取所需信息元,得到地址文本中每个字的地址信息要素标签;
存储模块:用于储存提取出来的地址信息要素标签;
输出模块:将识别出的地址信息要素标签以结构化的方式呈现给用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211034540.2A CN115481635A (zh) | 2022-08-26 | 2022-08-26 | 一种地址要素解析方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211034540.2A CN115481635A (zh) | 2022-08-26 | 2022-08-26 | 一种地址要素解析方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115481635A true CN115481635A (zh) | 2022-12-16 |
Family
ID=84422342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211034540.2A Pending CN115481635A (zh) | 2022-08-26 | 2022-08-26 | 一种地址要素解析方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115481635A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116522943A (zh) * | 2023-05-11 | 2023-08-01 | 北京微聚智汇科技有限公司 | 一种地址要素提取方法、装置、存储介质及计算机设备 |
CN116843432A (zh) * | 2023-05-10 | 2023-10-03 | 北京微聚智汇科技有限公司 | 一种基于地址文本信息的反欺诈方法和装置 |
-
2022
- 2022-08-26 CN CN202211034540.2A patent/CN115481635A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116843432A (zh) * | 2023-05-10 | 2023-10-03 | 北京微聚智汇科技有限公司 | 一种基于地址文本信息的反欺诈方法和装置 |
CN116843432B (zh) * | 2023-05-10 | 2024-03-22 | 北京微聚智汇科技有限公司 | 一种基于地址文本信息的反欺诈方法和装置 |
CN116522943A (zh) * | 2023-05-11 | 2023-08-01 | 北京微聚智汇科技有限公司 | 一种地址要素提取方法、装置、存储介质及计算机设备 |
CN116522943B (zh) * | 2023-05-11 | 2024-06-07 | 北京微聚智汇科技有限公司 | 一种地址要素提取方法、装置、存储介质及计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110321432B (zh) | 文本事件信息提取方法、电子装置和非易失性存储介质 | |
CN110196906B (zh) | 面向金融行业的基于深度学习文本相似性检测方法 | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN113191148B (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN115481635A (zh) | 一种地址要素解析方法和系统 | |
CN111723569A (zh) | 一种事件抽取方法、装置和计算机可读存储介质 | |
CN113569050B (zh) | 基于深度学习的政务领域知识图谱自动化构建方法和装置 | |
CN111061882A (zh) | 一种知识图谱构建方法 | |
CN113168499A (zh) | 检索专利文档的方法 | |
CN112434535A (zh) | 基于多模型的要素抽取方法、装置、设备及存储介质 | |
CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN111191051B (zh) | 一种基于中文分词技术的应急知识图谱的构建方法及系统 | |
CN113722490B (zh) | 一种基于键值匹配关系的视觉富文档信息抽取方法 | |
CN112464669B (zh) | 股票实体词消歧方法、计算机设备及存储介质 | |
CN113196278A (zh) | 训练自然语言检索系统的方法、检索系统以及对应的用途 | |
CN113553853B (zh) | 命名实体识别方法、装置、计算机设备及存储介质 | |
CN113011161A (zh) | 一种基于深度学习与模式匹配的人案物关联关系抽取方法 | |
CN114298035A (zh) | 一种文本识别脱敏方法及其系统 | |
CN113553400A (zh) | 一种企业知识图谱实体链接模型的构建方法及装置 | |
CN114648029A (zh) | 一种基于BiLSTM-CRF模型的电力领域命名实体识别方法 | |
CN111178080B (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN114970536B (zh) | 一种分词、词性标注和命名实体识别的联合词法分析方法 | |
CN113204967A (zh) | 简历命名实体识别方法及系统 | |
CN110008699A (zh) | 一种基于神经网络的软件漏洞检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |