CN112257413A - 地址参数处理方法及相关设备 - Google Patents

地址参数处理方法及相关设备 Download PDF

Info

Publication number
CN112257413A
CN112257413A CN202011188722.6A CN202011188722A CN112257413A CN 112257413 A CN112257413 A CN 112257413A CN 202011188722 A CN202011188722 A CN 202011188722A CN 112257413 A CN112257413 A CN 112257413A
Authority
CN
China
Prior art keywords
address
information
standard
address information
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011188722.6A
Other languages
English (en)
Other versions
CN112257413B (zh
Inventor
邹倩霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Financial Technology Co Ltd Shanghai
Original Assignee
OneConnect Financial Technology Co Ltd Shanghai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Financial Technology Co Ltd Shanghai filed Critical OneConnect Financial Technology Co Ltd Shanghai
Priority to CN202011188722.6A priority Critical patent/CN112257413B/zh
Publication of CN112257413A publication Critical patent/CN112257413A/zh
Priority to PCT/CN2021/124161 priority patent/WO2022089227A1/zh
Application granted granted Critical
Publication of CN112257413B publication Critical patent/CN112257413B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及人工智能技术领域,提供一种地址参数处理方法及相关设备,所述地址参数处理方法包括:接收输入的地址信息;将所述地址信息输入至基于Transformer的双向编码器表征BERT的地址解析模型中,获得输出概率;若所述输出概率大于预设阈值,获取所述地址解析模型输出的非规范地址参数;根据所述非规范地址参数,对所述地址信息进行清理,获得清理后的地址信息;根据地址知识模板库,对所述清理后的地址信息进行切分,获得规范地址参数;将所述非规范地址参数和所述规范地址参数进行合并,获得所述地址信息的地址解析结果。本发明还涉及区块链技术,可以将地址解析结果上传至区块链上。本发明能够对地址型参数进行有效解析。

Description

地址参数处理方法及相关设备
技术领域
本发明涉及人工智能技术领域,尤其涉及一种地址参数处理方法及相关设备。
背景技术
地址型参数在自然语言处理中是非常常见而且重要的参数。地址型参数与一般的参数不一样,并不是简单的字符串,而是有省市区层级的对应,并且是真实有效的地址。
实际应用中,地址经常是介于规则和非规则信息中间,在实际对话中经常会有一些非规范的地址表述,比如:XX省XX市XX区XX路XX办公楼,XX办公楼就属于非规范的地址表述,然而,目前并没有有效的方法能够识别非规范的地址信息。
因此,如何对地址型参数进行有效解析是一个亟待解决的技术问题。
发明内容
鉴于以上内容,有必要提供一种地址参数处理方法及相关设备,能够对地址型参数进行有效解析。
本发明的第一方面提供一种地址参数处理方法,所述地址参数处理方法包括:
接收输入的地址信息;
将所述地址信息输入至基于Transformer的双向编码器表征BERT的地址解析模型中,获得输出概率,其中,所述基于BERT的地址解析模型包括BERT输入层、双向长短时记忆循环神经网络Bilstm层、全连接层FC以及条件随机场CRF层;
若所述输出概率大于预设阈值,获取所述地址解析模型输出的非规范地址参数;
根据所述非规范地址参数,对所述地址信息进行清理,获得清理后的地址信息;
根据地址知识模板库,对所述清理后的地址信息进行切分,获得规范地址参数;
将所述非规范地址参数和所述规范地址参数进行合并,获得所述地址信息的地址解析结果。
在一些可选的实施方式中,所述接收输入的地址信息之后,所述地址参数处理方法包括:
对所述地址信息进行语义识别,获得识别结果;
根据所述识别结果,判断所述地址信息中是否存在非规范信息;
若所述地址信息中存在非规范信息,执行所述的将所述地址信息输入至基于Transformer的双向编码器表征BERT的地址解析模型中,获得输出概率的步骤。
在一些可选的实施方式中,所述将所述地址信息输入至基于Transformer的双向编码器表征BERT的地址解析模型中,获得输出概率包括:
将所述地址信息输入至所述基于BERT的地址解析模型中的BERT输入层;
通过所述Bilstm层提取所述地址信息的非规范地址参数;
使用所述FC层对所述非规范地址参数进行分类识别,获得识别结果;
使用所述CRF层对所述识别结果进行预测,获得输出概率。
在一些可选的实施方式中,所述将所述地址信息输入至基于Transformer的双向编码器表征BERT的地址解析模型中,获得输出概率之后,以及所述若所述输出概率大于预设阈值,获取所述地址解析模型输出的非规范地址参数之前,所述地址参数处理方法还包括:
通过所述地址解析模型,输出非规范信息在所述地址信息中的位置及类型;
根据所述位置、所述类型以及所述非规范信息,生成所述非规范地址参数。
在一些可选的实施方式中,所述地址参数处理方法还包括:
获取基准地址参数;
计算所述地址解析结果与所述基准地址参数的相似度;
根据所述相似度,对所述地址信息的准确性进行校验。
在一些可选的实施方式中,所述计算所述地址解析结果与所述基准地址参数的相似度包括:
采用词频-逆文本频率指数TF-IDF算法计算所述地址解析结果的第一词频向量,以及采用所述TF-IDF算法计算所述基准地址参数的第二词频向量;
计算所述第一词频向量与所述第二词频向量的余弦值;
将所述余弦值确定为所述地址解析结果与所述基准地址参数的相似度。
在一些可选的实施方式中,所述地址参数处理方法还包括:
若校验的结果表明所述地址信息有误,从所述地址解析结果中提取出有误的目标地址参数;
获取所述目标地址参数所属的地址类型以及所述地址信息的应用场景;
根据所述地址类型,确定所述目标地址参数在所述应用场景下的风险级别;
若所述风险级别高于预设风险级别阈值,输出风险提示信息。
本发明的第二方面提供一种地址参数处理装置,所述地址参数处理装置包括:
接收模块,用于接收输入的地址信息;
输入模块,用于将所述地址信息输入至基于Transformer的双向编码器表征BERT的地址解析模型中,获得输出概率,其中,所述基于BERT的地址解析模型包括BERT输入层、双向长短时记忆循环神经网络Bilstm层、全连接层FC以及条件随机场CRF层;
获取模块,用于若所述输出概率大于预设阈值,获取所述地址解析模型输出的非规范地址参数;
清理模块,用于根据所述非规范地址参数,对所述地址信息进行清理,获得清理后的地址信息;
切分模块,用于根据地址知识模板库,对所述清理后的地址信息进行切分,获得规范地址参数;
合并模块,用于将所述非规范地址参数和所述规范地址参数进行合并,获得所述地址信息的地址解析结果。
本发明的第三方面提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述的地址参数处理方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的地址参数处理方法。
由以上技术方案可知,本发明中,在传统的基础上,先利用地址解析模型提取并识别非规范地址参数,然后利用地址知识模板库,对清理后的地址信息进行切分,获得规范地址参数,最后,结合两部分内容,得到地址解析结果,让传统的方法在清理后的地址信息上更好的发挥作用,同时对这些非规范地点信息进行定位和识别,从而有效地解决了现有技术中无法识别非规范地址的盲点,有效解析了地址型参数。
附图说明
图1是本发明公开的一种地址参数处理方法的较佳实施例的流程图。
图2是本发明公开的一种BIO标记的示意图。
图3是本发明公开的一种地址参数处理装置的较佳实施例的功能模块图。
图4是本发明实现地址参数处理方法的较佳实施例的电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
请参见图1,图1是本发明公开的一种地址参数处理方法的较佳实施例的流程图。其中,根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
S11、接收输入的地址信息。
其中,所述地址信息可以包括规范信息和非规范信息,规范信息即省市区相关的地理信息,非规范信息比如小区名、办公楼名和公司名等。
可选的,步骤S11之后,以及步骤S12之前,所述方法还包括:
对所述地址信息进行语义识别,获得识别结果;
根据所述识别结果,判断所述地址信息中是否存在非规范信息;
若所述地址信息中存在非规范信息,执行步骤S12。
在该可选的实施方式中,可以先通过语义识别,对所述地址信息进行识别分析,即分析获得该地址信息中包括哪些类型的地址参数,有些地址参数是规范的,有些地址参数是不规范的。
S12、将所述地址信息输入至基于Transformer的双向编码器表征BERT的地址解析模型中,获得输出概率,其中,所述基于BERT的地址解析模型包括BERT输入层、双向长短时记忆循环神经网络Bilstm层、全连接层FC以及条件随机场CRF层。
具体的,所述将所述地址信息输入至基于Transformer的双向编码器表征BERT的地址解析模型中,获得输出概率包括:
将所述地址信息输入至所述基于BERT的地址解析模型中的BERT输入层;
通过所述Bilstm层提取所述地址信息的非规范地址参数;
使用所述FC层对所述非规范地址参数进行分类识别,获得识别结果;
使用所述CRF层对所述识别结果进行预测,获得输出概率。
其中,基于Transformer的双向编码器表征BERT(Bidirectional EncoderRepresentations from Transformers,BERT)实现了多层双向的Transformer编码器,“双向”即表示它在处理一个词的时候,能考虑到该词前面和后面单词的信息,从而获取上下文的语义。本发明实施例中,地址解析模型采用bert本身的输入结构作为BERT输入层。其中,bert本身的输入结构属于现有技术,在此不再赘述。
其中,双向长短时记忆循环神经网络(Bi-directional Long Short-TermMemory,BiLSTM)层是由前向LSTM与后向LSTM组合而成。单向的LSTM可以更好的捕捉到较长距离的依赖关系,无法编码从后到前的信息。而采用BiLSTM即加了一层从后往前的链接,使得信息之间的前后关系双向都可以利用。在地址参数提取中,很显然,信息之间是有上下文关系的。所以,在地址解析模型中引入BiLSTM层能更好的进行参数提取。
其中,全连接层(fully connected layers,FC)在整个卷积神经网络中起到“分类器”的作用。FC层可以将非规范地址参数分类为不同的类别,比如分成小区名、商场名、公司名。
其中,条件随机场(Conditional Random Field,CRF层)能从训练数据中获得约束性的规则。CRF层可以为最后预测的标签添加一些约束来保证预测的标签是合法的。在训练数据训练过程中,这些约束可以通过CRF层自动学习到。这些约束可以是:I:句子中第一个词总是以标签“B-”或“O”开始,而不是“I-”;II:标签“B-label1 I-label2 I-label3I-…”,label1,label2,label3应该属于同一类实体。例如,“B-Person I-Person”是合法的序列,但是“B-Person I-Organization”是非法标签序列;III:标签序列“0I-label”is非法的,实体标签的首个标签应该是“B-”,而非“I-”,换句话说,有效的标签序列应该是“O B-label”。基于这些约束,标签序列预测中非法序列出现的概率将会大大降低。
S13、若所述输出概率大于预设阈值,获取所述地址解析模型输出的非规范地址参数。
其中,可以预先通过多次试验的测试数据,计算每次试验的准确率大小,并根据准确率大小确定预设阈值,该预设阈值用于衡量模型识别的准确率大小的临界值。其中,输出概率为模型输出某个结果的概率大小,如果输出概率大于预设阈值,表明模型输出某个结果的准确率是符合要求的。
其中,所述非规范地址参数,比如:建筑物名:XX。
其中,地址解析模型的输出格式,采取BIO的标记方法,NP为需要识别的类别。
(1)B-NP:名词短语的开头。
(2)I-NP:名词短语的中间。
(3)O:不是名词短语。
在模型训练时,可以根据真实的地址语料采用BIO标记方法进行标注,然后将这些语料进行训练,得到地址解析模型。
如下图2所示的BIO标记的示意图,可以标记出地址信息,比如厦门,金门。
可选的,步骤S12之后,以及步骤S13之前,所述方法还包括:
通过所述地址解析模型,输出非规范信息在所述地址信息中的位置及类型;
根据所述位置、所述类型以及所述非规范信息,生成所述非规范地址参数。
在该可选的实施方式中,地址解析模型会标注出非规范信息在原句(即地址信息)中的位置以及类型。可以将此类信息都归为一类信息,也可以将这些细分,细分多个类型,比如细分成小区名,建筑物名,公司名等。
S14、根据所述非规范地址参数,对所述地址信息进行清理,获得清理后的地址信息。
举例来说,输入的地址信息为:上海虹口区西江湾路龙之梦5楼,通过地址解析模型之后,得到的非规范地址参数为建筑物名:龙之梦,则对所述地址信息进行清理,获得清理后的地址信息为上海虹口区西江湾路5楼。
S15、根据地址知识模板库,对所述清理后的地址信息进行切分,获得规范地址参数。
举例来说,清理后的地址信息为上海虹口区西江湾路5楼,进行切分后,可以得到规范地址参数为:省:上海,市:上海(推理),区:虹口区,路名:西江湾路,楼层,5楼。
S16、将所述非规范地址参数和所述规范地址参数进行合并,获得所述地址信息的地址解析结果。
举例来说,非规范地址参数为建筑物名:龙之梦,规范地址参数为:省:上海,市:上海(推理),区:虹口区,路名:西江湾路,楼层,5楼,合并后获得的地址信息的地址解析结果为:省:上海,市:上海,区:虹口区,路名:西江湾路,建筑物名:龙之梦,楼层:5楼。
可选的,为了确保数据的安全性和私密性,可以将地址解析结果上传至区块链上。
可选的,所述方法还包括:
获取基准地址参数;
计算所述地址解析结果与所述基准地址参数的相似度;
根据所述相似度,对所述地址信息的准确性进行校验。
在该可选的实施方式中,其中,基准地址参数比如大众公知的地名,区名等。通过计算地址解析模型输出的地址解析结果与所述基准地址参数的相似度,可以对所述地址信息的准确性进行校验,即如果相似度超过某个相似度阈值(如80%),则可以表明所述地址信息无误,如果相似度低于某个相似度阈值(如50%),则可以表明所述地址信息输入有误。通过这种方式,可以有效的对输入的地址信息进行核验,避免地址信息作假。
具体的,所述计算所述地址解析结果与所述基准地址参数的相似度包括:
采用词频-逆文本频率指数TF-IDF算法计算所述地址解析结果的第一词频向量,以及采用所述TF-IDF算法计算所述基准地址参数的第二词频向量;
计算所述第一词频向量与所述第二词频向量的余弦值;
将所述余弦值确定为所述地址解析结果与所述基准地址参数的相似度。
其中,TF-IDF(term frequency–inverse document frequency,词频-逆文本频率指数)是一种用于信息检索与数据挖掘的常用加权技术。通过TF-IDF算法计算词频向量,便于将文本数据转换成向量数据,有利于后续计算两个向量之间的余弦值。其中,余弦值的计算公式为:
Figure BDA0002752101660000101
A和B分别代表两个向量,cosθ为两个向量的夹角。夹角的余弦值的取值范围为(0,1),余弦值越接近1,表明地址解析结果与基准地址参数要素越相似。
可选的,所述方法还包括:
若校验的结果表明所述地址信息有误,从所述地址解析结果中提取出有误的目标地址参数;
获取所述目标地址参数所属的地址类型以及所述地址信息的应用场景;
根据所述地址类型,确定所述目标地址参数在所述应用场景下的风险级别;
若所述风险级别高于预设风险级别阈值,输出风险提示信息。
在该可选的实施方式中,每个地址参数会对应一个地址类型,比如:AA对应建筑物名,BB对应小区名,CC对应办公楼名。其中,在不同应用场景的不同地址类型下,不同的目标地址参数对应的风险级别是不同的,比如针对金融审核领域的智能面审场景,输入的地址信息有误是很严重的,涉及到作假行为。通常,地理类型的范围越大,风险级别越高,比如目标地址参数为XX省的风险级别比目标地址参数为YY市的风险级别高。通过风险提示信息可以智能地提醒用户该地址信息在当前应用场景下的风险程度,以便用户及时作出相应的防御措施。
在图1所描述的方法流程中,在传统的基础上,先利用地址解析模型提取并识别非规范地址参数,然后利用地址知识模板库,对清理后的地址信息进行切分,获得规范地址参数,最后,结合两部分内容,得到地址解析结果,让传统的方法在清理后的地址信息上更好的发挥作用,同时对这些非规范地点信息进行定位和识别,从而有效地解决了现有技术中无法识别非规范地址的盲点,有效解析了地址型参数。
以上所述,仅是本发明的具体实施方式,但本发明的保护范围并不局限于此,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出改进,但这些均属于本发明的保护范围。
请参见图3,图3是本发明公开的一种地址参数处理装置的较佳实施例的功能模块图。
在一些实施例中,所述地址参数处理装置运行于电子设备中。所述地址参数处理装置可以包括多个由程序代码段所组成的功能模块。所述地址参数处理装置中的各个程序段的程序代码可以存储于存储器中,并由至少一个处理器所执行,以执行图1所描述的地址参数处理方法中的部分或全部步骤,具体请参考图1中的相关描述,在此不再赘述。
本实施例中,所述地址参数处理装置根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:接收模块301、输入模块302、获取模块303、清理模块304、切分模块305及合并模块306。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机可读指令段,其存储在存储器中。
接收模块301,用于接收输入的地址信息;
输入模块302,用于将所述地址信息输入至基于Transformer的双向编码器表征BERT的地址解析模型中,获得输出概率,其中,所述基于BERT的地址解析模型包括BERT输入层、双向长短时记忆循环神经网络Bilstm层、全连接层FC以及条件随机场CRF层;
获取模块303,用于若所述输出概率大于预设阈值,获取所述地址解析模型输出的非规范地址参数;
清理模块304,用于根据所述非规范地址参数,对所述地址信息进行清理,获得清理后的地址信息;
切分模块305,用于根据地址知识模板库,对所述清理后的地址信息进行切分,获得规范地址参数;
合并模块306,用于将所述非规范地址参数和所述规范地址参数进行合并,获得所述地址信息的地址解析结果。
在图3所描述的地址参数处理装置中,在传统的基础上,先利用地址解析模型提取并识别非规范地址参数,然后利用地址知识模板库,对清理后的地址信息进行切分,获得规范地址参数,最后,结合两部分内容,得到地址解析结果,让传统的方法在清理后的地址信息上更好的发挥作用,同时对这些非规范地点信息进行定位和识别,从而有效地解决了现有技术中无法识别非规范地址的盲点,有效解析了地址型参数。
如图4所示,图4是本发明实现地址参数处理方法的较佳实施例的电子设备的结构示意图。所述电子设备4包括存储器41、至少一个处理器42、存储在所述存储器41中并可在所述至少一个处理器42上运行的计算机程序43及至少一条通讯总线44。
本领域技术人员可以理解,图4所示的示意图仅仅是电子设备4的示例,并不构成对电子设备4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如电子设备4还可以包括输入输出设备、网络接入设备等。
所述至少一个处理器42可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。该处理器42可以是微处理器或者该处理器42也可以是任何常规的处理器等,所述处理器42是所述电子设备4的控制中心,利用各种接口和线路连接整个电子设备4的各个部分。
所述存储器41可用于存储所述计算机程序43和/或模块/单元,所述处理器42通过运行或执行存储在所述存储器41内的计算机程序和/或模块/单元,以及调用存储在存储器41内的数据,实现所述电子设备4的各种功能。所述存储器41可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备4的使用所创建的数据等。此外,存储器41可以包括非易失性和易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他存储器件。
结合图1,所述电子设备4中的所述存储器41存储多个指令以实现一种地址参数处理方法,所述处理器42可执行所述多个指令从而实现:
接收输入的地址信息;
将所述地址信息输入至基于Transformer的双向编码器表征BERT的地址解析模型中,获得输出概率,其中,所述基于BERT的地址解析模型包括BERT输入层、双向长短时记忆循环神经网络Bilstm层、全连接层FC以及条件随机场CRF层;
若所述输出概率大于预设阈值,获取所述地址解析模型输出的非规范地址参数;
根据所述非规范地址参数,对所述地址信息进行清理,获得清理后的地址信息;
根据地址知识模板库,对所述清理后的地址信息进行切分,获得规范地址参数;
将所述非规范地址参数和所述规范地址参数进行合并,获得所述地址信息的地址解析结果。
具体地,所述处理器42对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
在图4所描述的电子设备4中,在传统的基础上,先利用地址解析模型提取并识别非规范地址参数,然后利用地址知识模板库,对清理后的地址信息进行切分,获得规范地址参数,最后,结合两部分内容,得到地址解析结果,让传统的方法在清理后的地址信息上更好的发挥作用,同时对这些非规范地点信息进行定位和识别,从而有效地解决了现有技术中无法识别非规范地址的盲点,有效解析了地址型参数。
所述电子设备4集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机可读指令代码,所述计算机可读指令代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机可读指令代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)以及随机存取存储器(RAM,Random Access Memory)。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。本发明中陈述的多个单元或装置也可以通过软件或者硬件来实现。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种地址参数处理方法,其特征在于,所述地址参数处理方法包括:
接收输入的地址信息;
将所述地址信息输入至基于Transformer的双向编码器表征BERT的地址解析模型中,获得输出概率,其中,所述基于BERT的地址解析模型包括BERT输入层、双向长短时记忆循环神经网络Bilstm层、全连接层FC以及条件随机场CRF层;
若所述输出概率大于预设阈值,获取所述地址解析模型输出的非规范地址参数;
根据所述非规范地址参数,对所述地址信息进行清理,获得清理后的地址信息;
根据地址知识模板库,对所述清理后的地址信息进行切分,获得规范地址参数;
将所述非规范地址参数和所述规范地址参数进行合并,获得所述地址信息的地址解析结果。
2.根据权利要求1所述的地址参数处理方法,其特征在于,所述接收输入的地址信息之后,所述地址参数处理方法包括:
对所述地址信息进行语义识别,获得识别结果;
根据所述识别结果,判断所述地址信息中是否存在非规范信息;
若所述地址信息中存在非规范信息,执行所述的将所述地址信息输入至基于Transformer的双向编码器表征BERT的地址解析模型中,获得输出概率的步骤。
3.根据权利要求1所述的地址参数处理方法,其特征在于,所述将所述地址信息输入至基于Transformer的双向编码器表征BERT的地址解析模型中,获得输出概率包括:
将所述地址信息输入至所述基于BERT的地址解析模型中的BERT输入层;
通过所述Bilstm层提取所述地址信息的非规范地址参数;
使用所述FC层对所述非规范地址参数进行分类识别,获得识别结果;
使用所述CRF层对所述识别结果进行预测,获得输出概率。
4.根据权利要求1所述的地址参数处理方法,其特征在于,所述将所述地址信息输入至基于Transformer的双向编码器表征BERT的地址解析模型中,获得输出概率之后,以及所述若所述输出概率大于预设阈值,获取所述地址解析模型输出的非规范地址参数之前,所述地址参数处理方法还包括:
通过所述地址解析模型,输出非规范信息在所述地址信息中的位置及类型;
根据所述位置、所述类型以及所述非规范信息,生成所述非规范地址参数。
5.根据权利要求1所述的地址参数处理方法,其特征在于,所述地址参数处理方法还包括:
获取基准地址参数;
计算所述地址解析结果与所述基准地址参数的相似度;
根据所述相似度,对所述地址信息的准确性进行校验。
6.根据权利要求5所述的地址参数处理方法,其特征在于,所述计算所述地址解析结果与所述基准地址参数的相似度包括:
采用词频-逆文本频率指数TF-IDF算法计算所述地址解析结果的第一词频向量,以及采用所述TF-IDF算法计算所述基准地址参数的第二词频向量;
计算所述第一词频向量与所述第二词频向量的余弦值;
将所述余弦值确定为所述地址解析结果与所述基准地址参数的相似度。
7.根据权利要求5所述的地址参数处理方法,其特征在于,所述地址参数处理方法还包括:
若校验的结果表明所述地址信息有误,从所述地址解析结果中提取出有误的目标地址参数;
获取所述目标地址参数所属的地址类型以及所述地址信息的应用场景;
根据所述地址类型,确定所述目标地址参数在所述应用场景下的风险级别;
若所述风险级别高于预设风险级别阈值,输出风险提示信息。
8.一种地址参数处理装置,其特征在于,所述地址参数处理装置包括:
接收模块,用于接收输入的地址信息;
输入模块,用于将所述地址信息输入至基于Transformer的双向编码器表征BERT的地址解析模型中,获得输出概率,其中,所述基于BERT的地址解析模型包括BERT输入层、双向长短时记忆循环神经网络Bilstm层、全连接层FC以及条件随机场CRF层;
获取模块,用于若所述输出概率大于预设阈值,获取所述地址解析模型输出的非规范地址参数;
清理模块,用于根据所述非规范地址参数,对所述地址信息进行清理,获得清理后的地址信息;
切分模块,用于根据地址知识模板库,对所述清理后的地址信息进行切分,获得规范地址参数;
合并模块,用于将所述非规范地址参数和所述规范地址参数进行合并,获得所述地址信息的地址解析结果。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序以实现如权利要求1至7中任意一项所述的地址参数处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现如权利要求1至7任意一项所述的地址参数处理方法。
CN202011188722.6A 2020-10-30 2020-10-30 地址参数处理方法及相关设备 Active CN112257413B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011188722.6A CN112257413B (zh) 2020-10-30 2020-10-30 地址参数处理方法及相关设备
PCT/CN2021/124161 WO2022089227A1 (zh) 2020-10-30 2021-10-15 地址参数处理方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011188722.6A CN112257413B (zh) 2020-10-30 2020-10-30 地址参数处理方法及相关设备

Publications (2)

Publication Number Publication Date
CN112257413A true CN112257413A (zh) 2021-01-22
CN112257413B CN112257413B (zh) 2022-05-17

Family

ID=74267801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011188722.6A Active CN112257413B (zh) 2020-10-30 2020-10-30 地址参数处理方法及相关设备

Country Status (2)

Country Link
CN (1) CN112257413B (zh)
WO (1) WO2022089227A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113191602A (zh) * 2021-04-13 2021-07-30 上海东普信息科技有限公司 基于地址的物流分派方法、装置、设备和存储介质
CN113886512A (zh) * 2021-10-25 2022-01-04 北京顶象技术有限公司 地址要素解析方法、装置和电子设备
WO2022089227A1 (zh) * 2020-10-30 2022-05-05 深圳壹账通智能科技有限公司 地址参数处理方法及相关设备
CN115577065A (zh) * 2022-12-09 2023-01-06 中信证券股份有限公司 一种地址解析的方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160147943A1 (en) * 2014-11-21 2016-05-26 Argo Data Resource Corporation Semantic Address Parsing Using a Graphical Discriminative Probabilistic Model
CN110569322A (zh) * 2019-07-26 2019-12-13 苏宁云计算有限公司 地址信息解析方法、装置、系统及数据获取方法
CN110674636A (zh) * 2019-09-02 2020-01-10 中国南方电网有限责任公司 一种用电行为分析方法
CN111104802A (zh) * 2019-12-11 2020-05-05 中国平安财产保险股份有限公司 一种地址信息文本的提取方法及相关设备
CN111125365A (zh) * 2019-12-24 2020-05-08 京东数字科技控股有限公司 地址数据标注方法及装置、电子设备、存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291871B (zh) * 2017-06-15 2021-02-19 北京百度网讯科技有限公司 基于人工智能的多域信息的匹配度评估方法、设备及介质
JP7041281B2 (ja) * 2019-07-04 2022-03-23 浙江大学 ディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法
CN112257413B (zh) * 2020-10-30 2022-05-17 深圳壹账通智能科技有限公司 地址参数处理方法及相关设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160147943A1 (en) * 2014-11-21 2016-05-26 Argo Data Resource Corporation Semantic Address Parsing Using a Graphical Discriminative Probabilistic Model
CN110569322A (zh) * 2019-07-26 2019-12-13 苏宁云计算有限公司 地址信息解析方法、装置、系统及数据获取方法
CN110674636A (zh) * 2019-09-02 2020-01-10 中国南方电网有限责任公司 一种用电行为分析方法
CN111104802A (zh) * 2019-12-11 2020-05-05 中国平安财产保险股份有限公司 一种地址信息文本的提取方法及相关设备
CN111125365A (zh) * 2019-12-24 2020-05-08 京东数字科技控股有限公司 地址数据标注方法及装置、电子设备、存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022089227A1 (zh) * 2020-10-30 2022-05-05 深圳壹账通智能科技有限公司 地址参数处理方法及相关设备
CN113191602A (zh) * 2021-04-13 2021-07-30 上海东普信息科技有限公司 基于地址的物流分派方法、装置、设备和存储介质
CN113886512A (zh) * 2021-10-25 2022-01-04 北京顶象技术有限公司 地址要素解析方法、装置和电子设备
CN115577065A (zh) * 2022-12-09 2023-01-06 中信证券股份有限公司 一种地址解析的方法及装置

Also Published As

Publication number Publication date
CN112257413B (zh) 2022-05-17
WO2022089227A1 (zh) 2022-05-05

Similar Documents

Publication Publication Date Title
CN112257413B (zh) 地址参数处理方法及相关设备
CN110765770B (zh) 一种合同自动生成方法及装置
CN112287157B (zh) 自动检测图像中用户所请求的对象
CN110427623B (zh) 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN110781299B (zh) 资产信息识别方法、装置、计算机设备及存储介质
CN112686036B (zh) 风险文本识别方法、装置、计算机设备及存储介质
CN111597803B (zh) 一种要素提取方法、装置、电子设备及存储介质
CN111723569A (zh) 一种事件抽取方法、装置和计算机可读存储介质
WO2021196825A1 (zh) 摘要生成方法、装置、电子设备及介质
CN112214984A (zh) 内容抄袭识别方法、装置、设备及存储介质
CN112257444B (zh) 金融信息负面实体发现方法、装置、电子设备及存储介质
CN113064973A (zh) 文本分类方法、装置、设备及存储介质
CN111651674B (zh) 双向搜索方法、装置及电子设备
CN114491018A (zh) 敏感信息检测模型的构建方法、敏感信息检测方法及装置
CN117454987B (zh) 基于事件自动抽取的矿山事件知识图谱构建方法及装置
CN113010785B (zh) 用户推荐方法及设备
CN112651417A (zh) 车牌识别方法、装置、设备及存储介质
CN117709317A (zh) 报表文件的处理方法、装置及电子设备
CN113887191A (zh) 文章的相似性检测方法及装置
CN116186263A (zh) 文档检测方法、装置、计算机设备及计算机可读存储介质
CN114417860A (zh) 一种信息检测方法、装置及设备
CN116414783A (zh) 一种日志检测方法、装置、电子设备和存储介质
CN111813964A (zh) 基于生态环境的数据处理方法及相关设备
CN111753521B (zh) 基于人工智能的阅读理解方法及相关设备
CN114138934B (zh) 文本通顺度的检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant