CN116522943B - 一种地址要素提取方法、装置、存储介质及计算机设备 - Google Patents

一种地址要素提取方法、装置、存储介质及计算机设备 Download PDF

Info

Publication number
CN116522943B
CN116522943B CN202310530502.4A CN202310530502A CN116522943B CN 116522943 B CN116522943 B CN 116522943B CN 202310530502 A CN202310530502 A CN 202310530502A CN 116522943 B CN116522943 B CN 116522943B
Authority
CN
China
Prior art keywords
address
nested
character
level
address element
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310530502.4A
Other languages
English (en)
Other versions
CN116522943A (zh
Inventor
赵佳悌
龙泉
杨武力
林悦贤
姜辉
武广柱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Weiju Future Technology Co ltd
Beijing Weijuzhihui Technology Co ltd
Original Assignee
Beijing Weiju Future Technology Co ltd
Beijing Weijuzhihui Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Weiju Future Technology Co ltd, Beijing Weijuzhihui Technology Co ltd filed Critical Beijing Weiju Future Technology Co ltd
Priority to CN202310530502.4A priority Critical patent/CN116522943B/zh
Publication of CN116522943A publication Critical patent/CN116522943A/zh
Application granted granted Critical
Publication of CN116522943B publication Critical patent/CN116522943B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供一种地址要素提取方法、装置、存储介质及计算机设备,涉及文本识别领域,该方法包括:获取待识别地址文本;将待识别地址文本按字符级别进行转换,得到待识别地址文本的词向量;将词向量输入嵌套地址要素提取模型,输出地址要素,地址要素包括:非嵌套地址要素,以及嵌套地址内的每一层级的地址要素,嵌套地址包括:最外层的地址要素以及处于嵌套于最外层的地址要素内的每一层级的地址要素,且嵌套地址的层级至少包括两个层级。基于嵌套命名实体识别的的方式来提取地址要素,能够自地址文本抽出得到所有的地址要素,尤其是嵌套多层的地址元素全都能被抽取出来,对地址要素提取技术准确性高,提取效率高。

Description

一种地址要素提取方法、装置、存储介质及计算机设备
技术领域
本发明涉及文本识别领域,具体涉及一种地址要素提取方法、装置、存储介质及计算机设备。
背景技术
地址是日常生活中一种重要的文本信息,诸多场景都需要填写,如电商购物、外卖配送、信用卡申请等。地址中包含空间信息的文本数据资源,记录了丰富的地理空间信息,从而赋予非空间数据空间属性,在地理智能、城市治理、金融风控等领域都有着重要的应用。另一方面,地址文本通常为用户主动填写,具有写法不统一和描述不规范的特点,这种非结构化数据会限制对地址的区分和聚合等任务的计算,因此对非结构化的中文地址文本拆分成独立语义的要素具有重要的研究价值。
目前地址要素提取的方法主要包括:基于规则的方法、基于标准地址库的方法、基于统计学习的方法、基于深度学习的方法。
基于规则的方法,采用正则表达式等符号规则构建合理有效的规则,这种方法要求耗费大量的人力和时间,并且依旧很难构建一套完备的规则库。
基于标准地址库的方法,采用预先构建地址库,在使用匹配算法进行分词,这种方法只能识别出地址库中记录的地址,对地址库的覆盖度要求较高,并且如果地址库规模较大,那么匹配效率又会低下。
基于统计学习的方法,该方法依据自然语言理解的中文分词原理和语义推理思想,对非规范中文地址进行处理,通常采用滑动窗口在文本上移动,在每个位置都会计算出一组被称为特征的属性,例如基于条件随机场(CRF)或者隐马尔可夫(HMM)模型的地址要素提取方法,但这类方法需要建立较大规模的语料库,且对特征选取的要求较高。此外,少量方法引入了深度模型,例如基于transformer和CRF的中文地址分词方法。
在实现本发明过程中,申请人发现现有技术中至少存在如下问题:
第一,依靠规则模版和标准地址库,维护成本很高;且由于地址存在名称变更,地址增加等特性,增加了维护的难度。第二,基于传统的命名实体识别任务构建的深度模型,可以解决人工维护成本高的问题,但是无法解决地址信息中出现的嵌套实体情况。因此,上述所有方法都无法解决地址信息中存在要素嵌套的情况,会导致文本信息丢失。
发明内容
本发明实施例提供一种地址要素提取方法、装置、存储介质及计算机设备,能够解决现有技术中存在的嵌套地址提取的技术问题。
为达上述目的,第一方面,本发明实施例提供一种地址要素提取方法,包括:
获取待识别地址文本;
将所述待识别地址文本按字符级别进行转换,得到所述待识别地址文本的词向量;
将所述词向量输入嵌套地址要素提取模型,输出地址要素,所述地址要素包括:非嵌套地址要素,以及嵌套地址内的每一层级的地址要素,所述嵌套地址包括:最外层的地址要素以及处于嵌套于最外层的地址要素内的每一层级的地址要素,且所述嵌套地址的层级至少包括两个层级;
其中,所述嵌套地址要素识别模型通过如下方法训练得到:
针对每个样本地址文本,根据地址等级相应的地址关键要素,按照嵌套命名实体的方式确定出每个地址要素;以嵌套命名实体的方式将每个所述地址要素的每个字符标注标签,得到标注的地址要素以及对应的位置区间;所述嵌套命名实体是指最外层的命名实体内包括至少两个下一层级的命名实体,且所述嵌套命名实体的层级至少包括两个层级;
将每个所述样本地址文本按字符级别进行转换,得到所述样本地址文本的词向量;并自所述词向量提出文本特征,形成样本地址文本的特征向量;基于多任务学习捕捉所述特征向量中的地址要素边界,定位到各地址要素及对应的位置区间;
将所捕捉到的地址要素以及对应的位置区间、以及标注的地址要素以及对应的位置区间输入训练模型进行地址要素种类预测的迭代训练,直至地址要素种类预测的损失函数达到模型收敛条件时,得到所述嵌套地址要素识别模型。
第二方面,本发明实施例提供一种地址要素提取装置,包括:
地址获取模块,用于获取待识别地址文本;
地址转化模块,用于将所述待识别地址文本按字符级别进行转换,得到所述待识别地址文本的词向量;
地址元素输出模块,用于将所述词向量输入嵌套地址要素提取模型,输出地址要素,所述地址要素包括:非嵌套地址要素,以及嵌套地址内的每一层级的地址要素,所述嵌套地址包括:最外层的地址要素以及处于嵌套于最外层的地址要素内的每一层级的地址要素,且所述嵌套地址的层级至少包括两个层级;
模型训练模块,所述嵌套地址要素识别模型通过如下方法训练得到:
标注子模块,用于针对每个样本地址文本,根据地址等级相应的地址关键要素,按照嵌套命名实体的方式确定出每个地址要素;以嵌套命名实体的方式将每个所述地址要素的每个字符标注标签,得到标注的地址要素以及对应的位置区间;所述嵌套命名实体是指最外层的命名实体内包括至少两个下一层级的命名实体,且所述嵌套命名实体的层级至少包括两个层级;
转化提取子模块,用于将每个所述样本地址文本按字符级别进行转换,得到所述样本地址文本的词向量;并自所述词向量提出文本特征,形成样本地址文本的特征向量;基于多任务学习捕捉所述特征向量中的地址要素边界,定位到各地址要素及对应的位置区间;
迭代子模块,用于将所捕捉到的地址要素以及对应的位置区间、以及标注的地址要素以及对应的位置区间输入训练模型进行地址要素种类预测的迭代训练,直至地址要素种类预测的损失函数达到模型收敛条件时,得到所述嵌套地址要素识别模型。
第三方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,当所述一个或多个程序被计算机设备执行时,使得所述计算机设备执行前述的地址要素提取方法。
第四方面,本发明实施例提供一种计算机设备包括:
处理器;以及,被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行前述的地址要素提取方法。
上述技术方案具有如下有益效果:基于嵌套命名实体识别的的方式来提取地址要素,能够自地址文本抽出得到所有的地址要素,尤其是嵌套多层的地址元素全都能被抽取出来,对地址要素提取技术准确性高,提取效率高;相对于统计学的方法,能够在深层次文本理解中捕获更细粒度的语义信息,解决嵌套地址要素提取缺失的情况;不需要创建大规则模板和注册地址库进行,更不需要高的人工维护成本;且所采用的基于联合任务学习的嵌套地址要素识别模型具有速度快、精度高、提高鲁棒性等优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种地址要素提取方法的流程图;
图2是本发明实施例的一种地址要素提取装置的结构示意图;
图3是本发明实施例的计算机设备的逻辑示意图;
图4是本发明实施例自构造模型到地址要素提取的流程图;
图5是本发明实施例的样本地址语料库构建的流程图;
图6是本发明实施例的以嵌套命名实体识别方式识别地址要素的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,结合本发明的实施例,提供一种地址要素提取方法,包括:
S101:获取待识别地址文本;
S102:将待识别地址文本按字符级别进行转换,得到待识别地址文本的词向量;
S103:将词向量输入嵌套地址要素提取模型,输出地址要素,地址要素包括:非嵌套地址要素,以及嵌套地址内的每一层级的地址要素,嵌套地址包括:最外层的地址要素以及处于嵌套于最外层的地址要素内的每一层级的地址要素,且嵌套地址的层级至少包括两个层级;
S104:嵌套地址要素识别模型通过如下方法训练得到:
S1041:针对每个样本地址文本,根据地址等级相应的地址关键要素,按照嵌套命名实体的方式确定出每个地址要素;以嵌套命名实体的方式将每个地址要素的每个字符标注标签,得到标注的地址要素以及对应的位置区间;嵌套命名实体是指最外层的命名实体内包括至少两个下一层级的命名实体,且嵌套命名实体的层级至少包括两个层级;即嵌套命名实体的直接下一层级内包括至少两个命名实体,且嵌套命名实体的层级有外到内包括依次嵌套的至少两个层级。
S1042:将每个样本地址文本按字符级别进行转换,得到样本地址文本的词向量;并自词向量提出文本特征,形成样本地址文本的特征向量;基于多任务学习捕捉特征向量中的地址要素边界,定位到各地址要素及对应的位置区间;
S1043:将所捕捉到的地址要素以及对应的位置区间、以及标注的地址要素以及对应的位置区间输入训练模型进行地址要素种类预测的迭代训练,直至地址要素种类预测的损失函数达到模型收敛条件时,得到嵌套地址要素识别模型。
基于嵌套命名实体识别的的方式来提取地址要素,能够自地址文本抽出得到所有的地址要素,尤其是嵌套多层的地址元素全都能被抽取出来,对地址要素提取技术准确性高,提取效率高;相对于统计学的方法,能够在深层次文本理解中捕获更细粒度的语义信息,解决嵌套地址要素提取缺失的情况;不需要创建大规则模板和注册地址库进行,更不需要高的人工维护成本;且所采用的基于联合任务学习的嵌套地址要素识别模型具有速度快、精度高、提高鲁棒性等优点。
优选地,S1041:以嵌套命名实体的方式将每个地址要素的每个字符标注标签,得到标注的地址要素以及对应的位置区间,具体包括:
S1041-1:采用第一种标注策略,针对样本地址文本的每个地址要素,以嵌套命名实体的方式将每个地址要素的每个字符采用分层BIO标注相应的标签;其中,B代表地址元素的开头,I代表地址元素的中间或者结尾,O代表不是地址元素;
S1041-2:依次采用其他标注策略校验采用第一种标注策略所得到的标签的准确率,直至准确率达到预设值范围内;其中,标注策略包括至少如下两种:分层标注、级联标注、串联标签标注、串联Token标注和解析树标注。
优选地,地址要素提取方法,还包括:
S105:根据地址等级的划分规则确定地址关键要素,形成类别由高级到低级的地址关键要素,地址关键要素由高级到低级的类别依次包括:省级、市级、区级、镇级、区位位置、点位位置和实体机构;地址关键要素的级别越高,则对应的嵌套地址的层级越靠进外层。
优选地,S1042:将每个样本地址文本按字符级别进行转换,得到样本地址文本的词向量,具体包括:
S1042-1:利用BERT预训练语言模型提取样本地址文本的每个字符,将每个字符分别进行转换得到样本地址文本的词向量。
优选地,S1042:自词向量提出文本特征,形成样本地址文本的特征向量,具体包括:
S1042-2:将词向量输入双向长短期记忆网络,通过双向长短期记忆网络将词向量序列化并结合词向量的上下文抽取到样本地址文本的文本特征,形成特征向量。
优选地,S1042:基于多任务学习捕捉特征向量中的地址要素边界,定位到各地址要素及对应的位置区间,具体包括:
S1042-3:通过第一字符级分类器预测特征向量内的单个字符是否为地址元素的第一个字符;以及通过第二字符级分类预测特征向量内的单个字符是否为地址元素的最后一个字符;根据第一字符和最后一个字符分别作为元素地址的边界得到地址元素的位置区间及相应的地址元素。
优选地,S1043:将所捕捉到的地址要素以及对应的位置区间、以及标注得到的地址要素以及对应的位置区间输入训练模型进行地址要素种类预测,具体包括:
将预测到的地址元素各字符对应的向量聚合形成地址元素的向量,将地址元素的向量输入全连接层;通过全连接层预测地址元素的对应的类别标签;且损失函数为边界预测的损失函数与类别预测的损失函数加权之和。
如图2所示,结合本发明的实施例,还提供一种地址要素提取装置,包括:
地址获取模块21,用于获取待识别地址文本;
地址转化模块22,用于将待识别地址文本按字符级别进行转换,得到待识别地址文本的词向量;
地址元素输出模块23,用于将词向量输入嵌套地址要素提取模型,输出地址要素,地址要素包括:非嵌套地址要素,以及嵌套地址内的每一层级的地址要素,嵌套地址包括:最外层的地址要素以及处于嵌套于最外层的地址要素内的每一层级的地址要素,且嵌套地址的层级至少包括两个层级;
模型训练模块24,嵌套地址要素识别模型通过如下方法训练得到:
标注子模块241,用于针对每个样本地址文本,根据地址等级相应的地址关键要素,按照嵌套命名实体的方式确定出每个地址要素;以嵌套命名实体的方式将每个地址要素的每个字符标注标签,得到标注的地址要素以及对应的位置区间;嵌套命名实体是指最外层的命名实体内包括至少两个下一层级的命名实体,且嵌套命名实体的层级至少包括两个层级;
转化提取子模块242,用于将每个样本地址文本按字符级别进行转换,得到样本地址文本的词向量;并自词向量提出文本特征,形成样本地址文本的特征向量;基于多任务学习捕捉特征向量中的地址要素边界,定位到各地址要素及对应的位置区间;
迭代子模块243,用于将所捕捉到的地址要素以及对应的位置区间、以及标注的地址要素以及对应的位置区间输入训练模型进行地址要素种类预测的迭代训练,直至地址要素种类预测的损失函数达到模型收敛条件时,得到嵌套地址要素识别模型。
优选地,标注子模块241,具体用于:
采用第一种标注策略,针对样本地址文本的每个地址要素,以嵌套命名实体的方式将每个地址要素的每个字符采用分层BIO标注相应的标签;其中,B代表地址元素的开头,I代表地址元素的中间或者结尾,O代表不是地址元素;
依次采用其他标注策略校验采用第一种标注策略所得到的标签的准确率,直至准确率达到预设值范围内;其中,标注策略包括至少如下两种:分层标注、级联标注、串联标签标注、串联Token标注和解析树标注。
优选地,转化提取子模块242,具体用于:
利用BERT预训练语言模型提取样本地址文本的每个字符,将每个字符分别进行转换得到样本地址文本的词向量;
将词向量输入双向长短期记忆网络,通过双向长短期记忆网络将词向量序列化并结合词向量的上下文抽取到样本地址文本的文本特征,形成特征向量;
通过第一字符级分类器预测特征向量内的单个字符是否为地址元素的第一个字符;以及通过第二字符级分类预测特征向量内的单个字符是否为地址元素的最后一个字符;根据第一字符和最后一个字符分别作为元素地址的边界得到地址元素的位置区间及相应的地址元素。
优选地,迭代子模块243,具体用于:
将预测到的地址元素各字符对应的向量聚合形成地址元素的向量,将地址元素的向量输入全连接层;通过全连接层预测地址元素的对应的类别标签;且损失函数为边界预测的损失函数与类别预测的损失函数加权之和。
结合本发明的实施例,还提供一种计算机可读存储介质,计算机可读存储介质存储一个或多个程序,当一个或多个程序被计算机设备执行时,使得计算机设备执行前述任一项的地址要素提取方法。
如图3所示,结合本发明的实施例,还提供一种计算机设备,包括:
处理器;以及,被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行前述任一项所述的地址要素提取方法。
下面结合具体的应用实例对本发明实施例上述技术方案进行详细说明,实施过程中没有介绍到的技术细节,可以参考前文的相关描述。
本发明实施例为一种地址要素提取方法、装置、存储介质及计算机设备,基于嵌套命名实体识别的方法。该方法将中文地址要素提取任务转换成一个嵌套命名实体识别任务,并构建了一个适用于嵌套命名实体识别任务的模型来对地址文本进行分词。能够解决如下技术问题:1、解决地址中的嵌套实体识别不出或少识别实体导致的信息丢失问题;2、避免了为提取地址要素,而对大规则模板和注册地址库进行创建、人工维护成本较高的问题;3、现有技术中,对地址要素提取技术准确性不高,提取效率较低;相对于统计学的方法,能够在深层次文本理解中捕获更细粒度的语义信息,解决嵌套地址要素提取缺失的情况。
其中,嵌套命名实体识别(Nested Named Entity Recognition,NNER)是一种特殊形式的命名实体识别(Named Entity Recognition,NER)任务。NER旨在将文本中的命名实体定位并分类为预先定义的类别,如任命、组织、位置、时间表达式等,该任务通常被建模为字符级别的序列标注任务,模型需要预测出每个字符对应的命名实体标签。可以利用基于NER做地址要素提取任务,但实际上,地址文本中经常存在一个实体内部还存在一个或多个其他实体的现象,例如“富盛镇派出所”的“富”既是组织机构“富盛镇派出所”的起始位置,也是地名“富盛镇”的起始位置。传统NER的任务只能识别最外层的命名实体或者最内层的命名实体,在地址分词任务中,如果一个命名实体未被识别出,那么该命名实体的属性就会丢失。NNER能够识别一段序列里嵌套各层的命名实体,能够有效的避免上述信息丢失的问题。
如图4所示,基于嵌套命名实体识别的地址要素提取方法具体如下。其中:前四个步骤为模型训练,最后一个步骤为采用训练好的模型提取具有嵌套实体的地址元素。
S1:地址文本数据获取
S2:地址提取要素设计:对地址要素进行合适的等级划分,主要提取几类常见的关键信息。如表1所示,例如提取了七类的地址要素:省级(prov)、市级(city)、区级(district)、镇级(town)、区位位置(area)、点位位置(pos)、实体机构(org)。
表1地址等级划分
S3:语料库构建,如图5所示,将步骤S1获取的地址数据按照一定比例划分为训练集、验证集和测试集,并结合S2中的地址要素分类进行标注,并通过交叉验证提高标注准确性。目前嵌套实体识别常见的五种标注策略:分层标注、级联标注、串联标签标注、串联Token标注、解析树标注。经过对收集的地址的统计可知,中文地址类数据中的嵌套命名实体层数大都不超过三层,因此本发明实施例以字符为单位采用分层BIO标注的方式,其中,B代表实体开头,I代表实体的中间或者结尾,O代表不是实体。完备地标注出一个字符序列中所包含的所有命名实体,每个字符的标签数N由最大嵌套级别决定,N=最大嵌套级别M+1,本方案中N=4。数据标注在建立基准和确保使用正确的信息来学习模型方面起着至关重要的作用,为了有一个高质量的地址语料库,因此对标注的数据进行交叉验证。
本发明实施例采用了含有15种标签的标签集合,如表2所示。
表2地址等级标签
标签 标签含义
B-prov 省级地址类别的开始标记
I-prov 省级地址类别的内部标记
B-city 市级地址类别的开始标记
I-city 市级地址类别的内部标记
B-district 区级地址类别的开始标记
I-district 区级地址类别的内部标记
B-town 县级地址类别的开始标记
I-town 县级地址类别的内部标记
B-area 区域地址类别的开始标记
I-area 区域地址类别的内部标记
B-pos 点位地址地址类别的开始标记
I-pos 点位地址类别的内部标记
B-org 组织机构类别的开始标记
I-org 组织机构类别的内部标记
O 非实体类别
例如”浙江省绍兴市越城区富盛镇派出所“该实例的标注结果为:
浙B-prov B-prov B-prov O
江I-prov I-prov I-prov O
省I-prov I-prov I-prov O
绍B-city B-city B-city O
兴I-city I-city I-city O
市I-city I-city I-city O
越B-district B-district B-district O
城I-district I-district I-district O
区I-district I-district I-district O
富B-org B-town O O
盛I-org I-town O O
镇I-org I-town O O
派I-org O B-org O
出I-org O I-org O
所I-org O I-org O
S4:构建并训练一个适用于嵌套实体识别任务的模型以实现地址要素提取
利用S3中的语料库数据训练模型,基于多任务学习来捕捉实体边界与事实标签之间的依赖关系。该模型主要分为两部分,首先定位出实体的位置,然后在对应的位置区间进行实体类型的预测。该模型主要包含子模块:词向量模块、特征抽取模块、边界检测模块、实体预测模块。
S401:词向量模块,本发明使用BERT预训练语言模型获得中文字符级别的词向量作为地址文本的向量表征wi,因为BERT预训练词向量是在大规模语料上训练得到,通用型很强,包含了丰富的特征;
S402:特征抽取模块,是通过双向长短期记忆网络(Bi-LSTM)实现,将词向量模块获取的词向量输入双向长短期记忆网络,将文本序列化并结合上下文进一步获取文本特征;
S403:边界检测模块
由两个字符级分类器组成,分别预测单个字符是实体的第一个字符还是最后一个字符,字符i是实体的第一个字符的概率表示为是实体最后一个字符的概率表示为/>训练目标函数定义为两个字符级分类器交叉函数的总和;
S404:实体预测模块
将跨度的内部信息聚合起来预测其实体分类,Ri,j代表字符i到字符j的向量表示,将向量表示Ri,j输入一个全连接层获得Pec来预测其地址元素对应的实体类别标签:
Pec=softmax(WRi,j+bi,j)
在推理过程中,需要联合考虑边界概率和标签概率来做出决策,本发明实施例的损失函数由边界检测模块的损失函数Lbdc与实体预测模块的损失函数Lec相加获得,且由超参数α来平衡两个子任务的重要程度。
L=αLbdc+(1-α)Lec
S5:采用模型提取地址要素,如图6所示
获取待识别地址文本;将所述待识别地址文本按字符级别进行转换,得到所述待识别地址文本的词向量;针对每个待识别地址文本,根据地址等级相应的地址关键要素,按照嵌套命名实体的方式确定出每个地址要素;并自所述词向量提出文本特征,形成地址文本的特征向量;基于多任务学习捕捉所述特征向量中的地址要素边界,定位到各地址要素及对应的位置区间(通过第一字符级分类器预测所述特征向量内的单个字符是否为地址元素的第一个字符;以及通过第二字符级分类预测所述特征向量内的单个字符是否为地址元素的最后一个字符;根据第一字符和最后一个字符分别作为元素地址的边界得到地址元素的位置区间及相应的地址元素);将所述词向量输入嵌套地址要素提取模型,输出地址要素,所述地址要素包括:非嵌套地址要素,以及嵌套地址内的每一层级的地址要素,所述嵌套地址包括:最外层的地址要素以及处于嵌套于最外层的地址要素内的每一层级的地址要素,且所述嵌套地址的层级至少包括两个层级。当嵌套于最外层的地址要素内具有多个层级依次嵌套的地址要素时,则将每一层级的多个地址要素均分别提取出来。
本发明实施例所取得的有益效果如下:
基于嵌套命名实体识别提取的地址要素,将地址要素提取作为一个嵌套命名实体任务,通过构建深度模型解析出地址中的关键要素,不仅可以减少维护的人工成本,还可以抽取出更丰富的地址属性信息,并且通过构建基于联合任务学习的模型具有速度快、精度高、提高鲁棒性等特点。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
为使本领域内的任何技术人员能够实现或者使用本发明,上面对所公开实施例进行了描述。对于本领域技术人员来说;这些实施例的各种修改方式都是显而易见的,并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此,本公开并不限于本文给出的实施例,而是与本申请公开的原理和新颖性特征的最广范围相一致。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrativecomponents),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种地址要素提取方法,其特征在于,包括:
获取待识别地址文本;
将所述待识别地址文本按字符级别进行转换,得到所述待识别地址文本的词向量;
将所述词向量输入嵌套地址要素识别模型,输出地址要素,所述地址要素包括:非嵌套地址要素,以及嵌套地址内的每一层级的地址要素,所述嵌套地址包括:最外层的地址要素以及处于嵌套于最外层的地址要素内的每一层级的地址要素,且所述嵌套地址的层级至少包括两个层级;
其中,所述嵌套地址要素识别模型通过如下方法训练得到:
针对每个样本地址文本,根据地址等级相应的地址关键要素,按照嵌套命名实体的方式确定出每个地址要素;以嵌套命名实体的方式将每个所述地址要素的每个字符标注标签,得到标注的地址要素以及对应的位置区间;所述嵌套命名实体是指最外层的命名实体内包括至少两个下一层级的命名实体,且所述嵌套命名实体的层级至少包括两个层级;
将每个所述样本地址文本按字符级别进行转换,得到所述样本地址文本的词向量;并自所述词向量提出文本特征,形成样本地址文本的特征向量;基于多任务学习捕捉所述特征向量中的地址要素边界,定位到各地址要素及对应的位置区间;
将所捕捉到的地址要素以及对应的位置区间、以及标注的地址要素以及对应的位置区间输入训练模型进行地址要素种类预测的迭代训练,直至地址要素种类预测的损失函数达到模型收敛条件时,得到所述嵌套地址要素识别模型;
所述以嵌套命名实体的方式将每个所述地址要素的每个字符标注标签,得到标注的地址要素以及对应的位置区间,具体包括:
采用第一种标注策略,针对所述样本地址文本的每个地址要素,以嵌套命名实体的方式将每个所述地址要素的每个字符采用分层BIO标注相应的标签;其中,B代表地址元素的开头,I代表地址元素的中间或者结尾,O代表不是地址元素;
依次采用其他标注策略校验采用第一种标注策略所得到的标签的准确率,直至准确率达到预设值范围内;其中,所述标注策略包括至少如下两种:分层标注、级联标注、串联标签标注、串联Token标注和解析树标注。
2.根据权利要求1所述的地址要素提取方法,其特征在于,还包括:
根据地址等级的划分规则确定地址关键要素,形成类别由高级到低级的地址关键要素,所述地址关键要素由高级到低级的类别依次包括:省级、市级、区级、镇级、区位位置、点位位置和实体机构;所述地址关键要素的级别越高,则对应的所述嵌套地址的层级越靠近外层。
3.根据权利要求1所述的地址要素提取方法,其特征在于,所述将每个所述样本地址文本按字符级别进行转换,得到所述样本地址文本的词向量,具体包括:
利用BERT预训练语言模型提取样本地址文本的每个字符,将每个字符分别进行转换得到所述样本地址文本的词向量。
4.根据权利要求1所述的地址要素提取方法,其特征在于,所述自所述词向量提出文本特征,形成样本地址文本的特征向量,具体包括:
将所述词向量输入双向长短期记忆网络,通过双向长短期记忆网络将所述词向量序列化并结合所述词向量的上下文抽取到所述样本地址文本的文本特征,形成特征向量。
5.根据权利要求1所述的地址要素提取方法,其特征在于,所述基于多任务学习捕捉所述特征向量中的地址要素边界,定位到各地址要素及对应的位置区间,具体包括:
通过第一字符级分类器预测所述特征向量内的单个字符是否为地址元素的第一个字符;以及通过第二字符级分类器预测所述特征向量内的单个字符是否为地址元素的最后一个字符;根据第一字符和最后一个字符分别作为元素地址的边界得到地址元素的位置区间及相应的地址元素。
6.根据权利要求5所述的地址要素提取方法,其特征在于,所述将所捕捉到的地址要素以及对应的位置区间、以及标注得到的地址要素以及对应的位置区间输入训练模型进行地址要素种类预测,具体包括:
将聚合形成地址元素的向量,将所述地址元素的向量输入全连接层;通过所述全连接层预测所述地址元素的对应的类别标签;且所述损失函数为边界预测的损失函数与类别预测的损失函数加权之和。
7.一种地址要素提取装置,其特征在于,包括:
地址获取模块,用于获取待识别地址文本;
地址转化模块,用于将所述待识别地址文本按字符级别进行转换,得到所述待识别地址文本的词向量;
地址元素输出模块,用于将所述词向量输入嵌套地址要素识别模型,输出地址要素,所述地址要素包括:非嵌套地址要素,以及嵌套地址内的每一层级的地址要素,所述嵌套地址包括:最外层的地址要素以及处于嵌套于最外层的地址要素内的每一层级的地址要素,且所述嵌套地址的层级至少包括两个层级;
模型训练模块,所述嵌套地址要素识别模型通过如下方法训练得到:
标注子模块,用于针对每个样本地址文本,根据地址等级相应的地址关键要素,按照嵌套命名实体的方式确定出每个地址要素;以嵌套命名实体的方式将每个所述地址要素的每个字符标注标签,得到标注的地址要素以及对应的位置区间;所述嵌套命名实体是指最外层的命名实体内包括至少两个下一层级的命名实体,且所述嵌套命名实体的层级至少包括两个层级;
转化提取子模块,用于将每个所述样本地址文本按字符级别进行转换,得到所述样本地址文本的词向量;并自所述词向量提出文本特征,形成样本地址文本的特征向量;基于多任务学习捕捉所述特征向量中的地址要素边界,定位到各地址要素及对应的位置区间;
迭代子模块,用于将所捕捉到的地址要素以及对应的位置区间、以及标注的地址要素以及对应的位置区间输入训练模型进行地址要素种类预测的迭代训练,直至地址要素种类预测的损失函数达到模型收敛条件时,得到所述嵌套地址要素识别模型;
所述标注子模块,具体用于:
采用第一种标注策略,针对所述样本地址文本的每个地址要素,以嵌套命名实体的方式将每个所述地址要素的每个字符采用分层BIO标注相应的标签;其中,B代表地址元素的开头,I代表地址元素的中间或者结尾,O代表不是地址元素;
依次采用其他标注策略校验采用第一种标注策略所得到的标签的准确率,直至准确率达到预设值范围内;其中,所述标注策略包括至少如下两种:分层标注、级联标注、串联标签标注、串联Token标注和解析树标注。
8.根据权利要求7所述的地址要素提取装置,其特征在于,所述转化提取子模块,具体用于:
利用BERT预训练语言模型提取样本地址文本的每个字符,将每个字符分别进行转换得到所述样本地址文本的词向量;
将所述词向量输入双向长短期记忆网络,通过双向长短期记忆网络将所述词向量序列化并结合所述词向量的上下文抽取到所述样本地址文本的文本特征,形成特征向量;
通过第一字符级分类器预测所述特征向量内的单个字符是否为地址元素的第一个字符;以及通过第二字符级分类器预测所述特征向量内的单个字符是否为地址元素的最后一个字符;根据第一字符和最后一个字符分别作为元素地址的边界得到地址元素的位置区间及相应的地址元素。
9.根据权利要求7所述的地址要素提取装置,其特征在于,所述迭代子模块,具体用于:
将预测到的地址元素各字符对应的向量聚合形成地址元素的向量,将所述地址元素的向量输入全连接层;通过所述全连接层预测所述地址元素的对应的类别标签;且所述损失函数为边界预测的损失函数与类别预测的损失函数加权之和。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储一个或多个程序,当所述一个或多个程序被计算机设备执行时,使得所述计算机设备执行权利要求1-6中任意一项所述的地址要素提取方法。
11.一种计算机设备,其特征在于,包括:
处理器;以及,被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行权利要求1-6中任意一项所述的地址要素提取方法。
CN202310530502.4A 2023-05-11 2023-05-11 一种地址要素提取方法、装置、存储介质及计算机设备 Active CN116522943B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310530502.4A CN116522943B (zh) 2023-05-11 2023-05-11 一种地址要素提取方法、装置、存储介质及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310530502.4A CN116522943B (zh) 2023-05-11 2023-05-11 一种地址要素提取方法、装置、存储介质及计算机设备

Publications (2)

Publication Number Publication Date
CN116522943A CN116522943A (zh) 2023-08-01
CN116522943B true CN116522943B (zh) 2024-06-07

Family

ID=87408091

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310530502.4A Active CN116522943B (zh) 2023-05-11 2023-05-11 一种地址要素提取方法、装置、存储介质及计算机设备

Country Status (1)

Country Link
CN (1) CN116522943B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753545A (zh) * 2020-06-19 2020-10-09 科大讯飞(苏州)科技有限公司 嵌套实体识别方法、装置、电子设备和存储介质
CN112612940A (zh) * 2020-12-23 2021-04-06 深圳壹账通智能科技有限公司 地址信息解析方法、装置、设备及存储介质
CN113449528A (zh) * 2021-08-30 2021-09-28 企查查科技有限公司 一种地址要素提取方法、装置、计算机设备和存储介质
CN113886512A (zh) * 2021-10-25 2022-01-04 北京顶象技术有限公司 地址要素解析方法、装置和电子设备
CN115481635A (zh) * 2022-08-26 2022-12-16 东莞理工学院 一种地址要素解析方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753545A (zh) * 2020-06-19 2020-10-09 科大讯飞(苏州)科技有限公司 嵌套实体识别方法、装置、电子设备和存储介质
CN112612940A (zh) * 2020-12-23 2021-04-06 深圳壹账通智能科技有限公司 地址信息解析方法、装置、设备及存储介质
CN113449528A (zh) * 2021-08-30 2021-09-28 企查查科技有限公司 一种地址要素提取方法、装置、计算机设备和存储介质
CN113886512A (zh) * 2021-10-25 2022-01-04 北京顶象技术有限公司 地址要素解析方法、装置和电子设备
CN115481635A (zh) * 2022-08-26 2022-12-16 东莞理工学院 一种地址要素解析方法和系统

Also Published As

Publication number Publication date
CN116522943A (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
CN112765358B (zh) 一种基于噪声标签学习的纳税人行业分类方法
CN110633409B (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
CN111985239A (zh) 实体识别方法、装置、电子设备及存储介质
CN111723569A (zh) 一种事件抽取方法、装置和计算机可读存储介质
CN111291566A (zh) 一种事件主体识别方法、装置、存储介质
CN113722490B (zh) 一种基于键值匹配关系的视觉富文档信息抽取方法
CN113312918B (zh) 融合部首向量的分词和胶囊网络法律命名实体识别方法
CN111597811A (zh) 一种基于图神经网络算法的金融篇章级多关联事件抽取方法
CN114036950A (zh) 一种医疗文本命名实体识别方法及系统
CN113869054A (zh) 一种基于深度学习的电力领域项目特征识别方法
CN116522943B (zh) 一种地址要素提取方法、装置、存储介质及计算机设备
CN116029394B (zh) 自适应文本情感识别模型训练方法、电子设备及存储介质
CN112163069A (zh) 一种基于图神经网络节点特征传播优化的文本分类方法
CN114330350A (zh) 一种命名实体识别方法、装置、电子设备及存储介质
CN108875591A (zh) 文本图片匹配分析方法、装置、计算机设备和存储介质
CN114298047A (zh) 基于笔画卷积和词向量的中文命名实体识别方法及系统
CN114328902A (zh) 文本标注模型构建方法和装置
CN116843432B (zh) 一种基于地址文本信息的反欺诈方法和装置
CN117077672B (zh) 一种基于词汇增强和tcn-bilstm模型的中文命名实体识别方法
CN111046934A (zh) 一种swift报文软条款识别方法及装置
CN113127576B (zh) 一种基于用户内容消费分析的热点发现方法及系统
CN117634489B (zh) 一种样本选择方法、样本选择系统、识别方法和识别系统
CN109299442A (zh) 汉语篇章主次关系识别方法和系统
CN113705728B (zh) 一种分类分级清单智能打标方法
CN115878815B (zh) 法律文书的判决结果预测方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant