CN113468881A - 一种地址标准化方法及装置 - Google Patents

一种地址标准化方法及装置 Download PDF

Info

Publication number
CN113468881A
CN113468881A CN202110837245.XA CN202110837245A CN113468881A CN 113468881 A CN113468881 A CN 113468881A CN 202110837245 A CN202110837245 A CN 202110837245A CN 113468881 A CN113468881 A CN 113468881A
Authority
CN
China
Prior art keywords
address
sample
training
subtask
address data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110837245.XA
Other languages
English (en)
Other versions
CN113468881B (zh
Inventor
徐阳
陈立力
周明伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Dahua Technology Co Ltd
Original Assignee
Zhejiang Dahua Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Dahua Technology Co Ltd filed Critical Zhejiang Dahua Technology Co Ltd
Priority to CN202110837245.XA priority Critical patent/CN113468881B/zh
Publication of CN113468881A publication Critical patent/CN113468881A/zh
Application granted granted Critical
Publication of CN113468881B publication Critical patent/CN113468881B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种地址标准化方法及装置,该方法包括获取待处理地址数据,通过地址向量化模型对待处理地址数据进行处理,确定出待处理地址数据的语义特征向量,将待处理地址数据的语义特征向量输入到地址分词模型进行分词处理,确定出各子地址分词,对各子地址分词进行词性标注,得到标准化的地址数据。如此,该方案无需基于地址词典对待处理地址数据进行分词处理,从而可以降低针对待处理地址数据匹配分割时所消耗的时间成本,并可以有效地解决现有技术在待处理地址数据中出现新的地址段时就会无法及时地通过现有地址词典来实现对待处理地址数据的匹配分割的问题,进而可以有效地提高待处理地址数据的标准化处理效率。

Description

一种地址标准化方法及装置
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种地址标准化方法及装置。
背景技术
随着信息化技术的快速发展,地址数据作为用户的重要信息逐渐被广泛应用。但是,目前的大量地址数据中还存在相当一部分地址数据为非标准化的信息,而这部分非标准化的地址数据会给基于地址数据进行进一步分析处理的应用场景带来极大地不便。因此,为了确保地址数据的规范性、精确性,需要对非标准化的地址数据进行标准化处理。
现有方案通常基于地址词典来实现地址数据的标准化处理。具体地,通过地址词典中的地址分段触发词对待处理地址数据进行匹配分割,得到不同级别的地址段,并对不同级别的地址段进行标准化处理。然而,这种处理方式虽然在一定程度上提高了地址标准化处理的准确性,但是由于依赖地址词典的覆盖面,因此在待处理地址数据中存在新出现的地址段时就会无法通过现有地址词典来实现针对待处理地址数据进行准确地匹配分割,从而导致待处理地址数据的标准化处理效率低。
综上,目前亟需一种地址标准化方法,用以有效地提高地址数据标准化处理的效率。
发明内容
本发明实施例提供了一种地址标准化方法及装置,用以有效地提高地址数据标准化处理的效率。
第一方面,本发明实施例提供了一种地址标准化方法,包括:
获取待处理地址数据;
通过地址向量化模型对所述待处理地址数据进行处理,确定出所述待处理地址数据的语义特征向量;所述地址向量化模型是基于多个训练子任务对第一历史样本集进行训练确定的;
将所述待处理地址数据的语义特征向量输入到地址分词模型进行分词处理,确定出各子地址分词;
对所述各子地址分词进行词性标注,得到标准化的地址数据。
上述技术方案中,由于现有技术中的技术方案通过基于地址词典来实现对待处理地址数据的匹配分割,以便后续基于分割出的各级别的地址段进行标准化处理,因此,现有技术中的技术方案一方面存在匹配分割时所消耗的时间成本大,另一方面在待处理地址数据中出现新的地址段时就会无法及时地通过现有地址词典来实现对待处理地址数据的匹配分割。基于此,本发明中的技术方案通过地址向量化模型对待处理地址数据进行处理,可以更及时精确地得到待处理地址数据的语义特征向量,如此在将待处理地址数据的语义特征向量输入到地址分词模型进行分词处理时,就能够更加及时准确地得到各子地址分词,而无需基于地址词典对待处理地址数据进行分词处理,从而可以降低针对待处理地址数据匹配分割时所消耗的时间成本,并可以有效地解决现有技术在待处理地址数据中出现新的地址段时就会无法及时地通过现有地址词典来实现对待处理地址数据的匹配分割的问题,进而可以有效地提高待处理地址数据的标准化处理效率。然后,在对各子地址分词进行词性标注后,就可以及时有效地得到标准化的地址数据。
可选地,所述多个训练子任务包括地址行政区划子任务、兴趣点POI分类子任务、噪音混淆子任务以及地址区划重排子任务;所述地址行政区划子任务用于训练学习地址数据中的地址行政区划信息;所述兴趣点POI分类子任务用于训练学习地址数据与POI类别的关联关系;所述噪音混淆子任务用于增强训练学习的稳定性;所述地址区划重排子任务用于训练学习地址数据的层级包含关系。
上述技术方案中,由于现有预训练模型的训练方式是基于两个训练子任务进行训练的,但是现有预训练模型在处理地址数据时效果并不好,并不适用于地址数据处理领域。因此本发明中的技术方案通过修改现有预训练模型的训练方式,使修改后的预训练模型更符合地址数据这种特定的文本领域,即,将现有预训练模型的训练方式由原来的两个训练子任务变为至少三个训练子任务,每个训练子任务用于训练学习不同的地址语义特征信息,以此对预训练模型进行训练,即可得到符合地址数据这种特定的文本领域的地址向量化模型,从而在对地址数据进行处理时,能够更及时精确地得到待处理地址数据的语义特征向量,以便为后续对地址数据进行更好的地址分词提供支持。
可选地,基于多个训练子任务对第一历史样本集进行训练确定所述地址向量化模型,包括:
针对所述第一历史样本集中的同一样本,通过初始的地址向量化模型执行任一训练子任务,确定所述训练子任务的损失函数;
根据各训练子任务的损失函数,确定出融合损失函数;
根据所述融合损失函数调整所述初始的地址向量化模型,直至所述初始的地址向量化模型收敛或达到预设迭代训练轮次为止,得到所述地址向量化模型。
上述技术方案中,通过初始的地址向量化模型依次执行多个训练子任务,可以得到各训练子任务的损失函数,并将该多个损失函数进行融合在一起,形成一个融合损失函数来调整初始的地址向量化模型,以此可以得到符合地址数据这种特定的文本领域的地址向量化模型,以便在处理地址数据时能够精确地识别出地址数据中的语义特征信息,从而为后续地址分词模型在处理地址数据时能够更精准地确定出该地址数据中的各子地址分词提供支持。
可选地,所述针对所述第一历史样本集中的同一样本,通过初始的地址向量化模型执行任一训练子任务,确定所述训练子任务的损失函数,包括:
针对地址行政区划子任务,以随机掩饰的方式,将所述第一历史样本集中的第一样本包含的部分行政区划进行掩饰处理,得到掩饰后的第一样本;
将所述掩饰后的第一样本输入到所述初始的地址向量化模型进行处理,得到所述掩饰后的第一样本的语义特征向量;
根据所述掩饰后的第一样本的语义特征向量和所述第一样本的标签语义特征向量,确定出第一损失函数。
上述技术方案中,通过初始的地址向量化模型执行地址行政区划子任务进行训练,可以使得训练好的地址向量化模型在处理地址数据时能够更好地学习到地址数据中的地址行政区划信息,从而为后续地址分词模型能够更好地基于地址数据中的各行政区划语义信息识别出该地址数据中的各行政区划提供支持。
可选地,所述针对第一历史样本集中的同一样本,通过初始的地址向量化模型执行任一训练子任务,确定所述训练子任务的损失函数,包括:
针对POI分类子任务,将所述第一历史样本集中的第一样本输入到所述初始的地址向量化模型进行处理,得到所述第一样本对应的预测POI类别;
基于所述第一样本对应的预测POI类别和所述第一样本对应的标签POI 类别,确定出第二损失函数。
上述技术方案中,通过初始的地址向量化模型执行POI分类子任务进行训练,可以使得训练好的地址向量化模型在处理地址数据时能够更好地学习到地址数据与POI类别的关联关系,从而为后续地址分词模型能够更好地基于地址数据与POI类别的关联关系识别出该地址数据的POI类别提供支持。
可选地,所述针对第一历史样本集中的同一样本,通过初始的地址向量化模型执行任一训练子任务,确定所述训练子任务的损失函数,包括:
针对噪音混淆子任务,将所述第一历史样本集中的第一样本包含的部分行政区划进行噪声混淆处理,得到噪声混淆后的第一样本;
将所述噪声混淆后的第一样本输入到所述初始的地址向量化模型进行处理,得到所述噪声混淆后的第一样本的语义特征向量;
根据所述噪声混淆后的第一样本的语义特征向量和所述第一样本的标签语义特征向量,确定出第三损失函数。
上述技术方案中,通过初始的地址向量化模型执行噪音混淆子任务进行训练,可以使得训练好的地址向量化模型在处理地址数据时识别地址数据的语义特征信息的稳定好更好,从而为后续地址分词模型能够更好地对地址数据进行分词处理提供支持。
可选地,所述针对第一历史样本集中的同一样本,通过初始的地址向量化模型执行任一训练子任务,确定所述训练子任务的损失函数,包括:
针对地址区划重排子任务,将所述第一历史样本集中的第一样本包含的部分行政区划进行调换处理,得到调换后的第一样本;
将所述调换后的第一样本输入到所述初始的地址向量化模型进行处理,得到所述调换后的第一样本的语义特征向量;
根据所述调换后的第一样本的语义特征向量和所述第一样本的标签语义特征向量,确定出第四损失函数。
上述技术方案中,通过初始的地址向量化模型执行地址区划重排子任务进行训练,可以使得训练好的地址向量化模型在处理地址数据时能够更好地学习到地址数据的层级包含关系,也即是能够更好地学习到地址数据中各级子地址的上下级关系,从而为后续地址分词模型能够更好地基于地址数据的层级包含关系识别出该地址数据的各子地址的上下级关系提供支持。
可选地,在得到标准化的地址数据之后,还包括:
通过构建的地址字典树,对所述标准化的地址数据中标注的各子地址分词进行匹配识别,确定标注的各子地址分词是否符合地址标准要求;
若是,则将符合地址标准要求的子地址分词存储至所述标准地址数据库,否则对不符合地址标准要求的子地址分词进行更改,并将更改后的子地址分词存储至所述标准地址数据库。
上述技术方案中,通过构建的地址字典树对标注后的各子地址分词进行匹配识别,以便进一步地验证确认标注后的各子地址分词是否符合地址标准要求,从而可以有效地确保存储至标准地址数据库的各子地址分词是准确的,是符合地址标准要求的。
可选地,在得到所述地址向量化模型之后,还包括:
将第二历史样本集中的各第二样本进行聚类分析,得到多个空间距离类别;
根据所述多个空间距离类别,确定所述第二历史样本集中每个第二样本的空间距离类别标注;
将所述第二历史样本集中的各第二样本分别输入到所述地址向量化模型进行处理,得到所述各第二样本的语义特征向量;
针对每个第二样本的语义特征向量,将所述第二样本的语义特征向量输入到预设的分类模型进行识别,确定出所述第二样本的预测空间距离类别;
通过所述第二样本的预测空间距离类别与所述第二样本的空间距离类别标注之间的损失函数进行反向优化所述地址向量化模型;优化后的地址向量化模型还用于识别待处理地址数据的空间距离信息。
上述技术方案中,由于地址向量化模型在处理地址数据时所得到的结果中只包含地址的语义特征信息,并不包含地址的空间距离信息。因此,本发明中的技术方案通过优化地址向量化模型来实现将地址的空间距离信息加入到地址向量化模型中。即,通过聚类分析的方式来实现将每个第二样本标注上空间距离类别,并基于第二样本输入到预设的分类模型得到预测空间距离类别。然后,通过第二样本的预测空间距离类别与第二样本的空间距离类别标注之间的损失函数进行反向优化地址向量化模型,以此达到训练地址向量化模型来学习地址数据与地址数据之间的空间距离信息,从而为后续优化后的地址向量化模型在处理地址数据时能够及时准确地识别出该地址数据的空间距离信息提供支持。
第二方面,本发明实施例还提供了一种地址标准化装置,包括:
获取单元,用于获取待处理地址数据;
处理单元,用于通过地址向量化模型对所述待处理地址数据进行处理,确定出所述待处理地址数据的语义特征向量;所述地址向量化模型是基于多个训练子任务对第一历史样本集进行训练确定的;将所述待处理地址数据的语义特征向量输入到地址分词模型进行分词处理,确定出各子地址分词;对所述各子地址分词进行词性标注,得到标准化的地址数据。
可选地,所述处理单元具体用于:
所述多个训练子任务包括地址行政区划子任务、兴趣点POI分类子任务、噪音混淆子任务以及地址区划重排子任务;所述地址行政区划子任务用于训练学习地址数据中的地址行政区划信息;所述兴趣点POI分类子任务用于训练学习地址数据与POI类别的关联关系;所述噪音混淆子任务用于增强训练学习的稳定性;所述地址区划重排子任务用于训练学习地址数据的层级包含关系。
可选地,所述处理单元具体用于:
针对所述第一历史样本集中的同一样本,通过初始的地址向量化模型执行任一训练子任务,确定所述训练子任务的损失函数;
根据各训练子任务的损失函数,确定出融合损失函数;
根据所述融合损失函数调整所述初始的地址向量化模型,直至所述初始的地址向量化模型收敛或达到预设迭代训练轮次为止,得到所述地址向量化模型。
可选地,所述处理单元具体用于:
针对地址行政区划子任务,以随机掩饰的方式,将所述第一历史样本集中的第一样本包含的部分行政区划进行掩饰处理,得到掩饰后的第一样本;
将所述掩饰后的第一样本输入到所述初始的地址向量化模型进行处理,得到所述掩饰后的第一样本的语义特征向量;
根据所述掩饰后的第一样本的语义特征向量和所述第一样本的标签语义特征向量,确定出第一损失函数。
可选地,所述处理单元具体用于:
针对POI分类子任务,将所述第一历史样本集中的第一样本输入到所述初始的地址向量化模型进行处理,得到所述第一样本对应的预测POI类别;
基于所述第一样本对应的预测POI类别和所述第一样本对应的标签POI 类别,确定出第二损失函数。
可选地,所述处理单元具体用于:
针对噪音混淆子任务,将所述第一历史样本集中的第一样本包含的部分行政区划进行噪声混淆处理,得到噪声混淆后的第一样本;
将所述噪声混淆后的第一样本输入到所述初始的地址向量化模型进行处理,得到所述噪声混淆后的第一样本的语义特征向量;
根据所述噪声混淆后的第一样本的语义特征向量和所述第一样本的标签语义特征向量,确定出第三损失函数。
可选地,所述处理单元具体用于:
针对地址区划重排子任务,将所述第一历史样本集中的第一样本包含的部分行政区划进行调换处理,得到调换后的第一样本;
将所述调换后的第一样本输入到所述初始的地址向量化模型进行处理,得到所述调换后的第一样本的语义特征向量;
根据所述调换后的第一样本的语义特征向量和所述第一样本的标签语义特征向量,确定出第四损失函数。
可选地,所述处理单元还用于:
在得到标准化的地址数据之后,通过构建的地址字典树,对所述标准化的地址数据中标注的各子地址分词进行匹配识别,确定标注的各子地址分词是否符合地址标准要求;
若是,则将符合地址标准要求的子地址分词存储至所述标准地址数据库,否则对不符合地址标准要求的子地址分词进行更改,并将更改后的子地址分词存储至所述标准地址数据库。
可选地,所述处理单元还用于:
在得到所述地址向量化模型之后,将第二历史样本集中的各第二样本进行聚类分析,得到多个空间距离类别;
根据所述多个空间距离类别,确定所述第二历史样本集中每个第二样本的空间距离类别标注;
将所述第二历史样本集中的各第二样本分别输入到所述地址向量化模型进行处理,得到所述各第二样本的语义特征向量;
针对每个第二样本的语义特征向量,将所述第二样本的语义特征向量输入到预设的分类模型进行识别,确定出所述第二样本的预测空间距离类别;
通过所述第二样本的预测空间距离类别与所述第二样本的空间距离类别标注之间的损失函数进行反向优化所述地址向量化模型;优化后的地址向量化模型还用于识别待处理地址数据的空间距离信息。
第三方面,本发明实施例提供一种计算设备,包括至少一个处理器以及至少一个存储器,其中,所述存储器存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行上述第一方面任意所述的地址标准化方法。
第四方面,本发明实施例提供一种计算机可读存储介质,其存储有可由计算设备执行的计算机程序,当所述程序在所述计算设备上运行时,使得所述计算设备执行上述第一方面任意所述的地址标准化方法。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种地址标准化系统架构的示意图;
图2为本发明实施例提供的一种地址标准化方法的流程示意图;
图3为本发明实施例提供的一种地址标准化装置的结构示意图;
图4为本发明实施例提供的一种计算设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
为了便于理解本发明实施例,首先以图1中示出的系统结构为例说明适用于本发明实施例的地址标准化系统架构。如图1所示,该检测地址标准化系统架构可以包括终端设备100和服务设备200。其中,终端设备100和服务设备 200可以通过有线方式进行通信连接,或者可以通过无线方式进行通信连接,本发明实施例对此并不作限定。
其中,终端设备100用于接收用户传输的待处理地址数据,并将接收到的待处理地址数据传输给服务设备200,以便服务设备200对待处理地址数据进行处理,从而可以得到标准化的地址数据。其中,终端设备100可以包括但不限于智能手机、平板电脑、笔记本电脑、台式电脑、智能穿戴设备、车载终端等。服务设备200可以是独立的物理服务器,也可以是多个物理服务器构成的分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、云通信、中间件服务、域名服务、安全服务等基础云计算服务的云服务器,本发明实施例对此并不作限定。
需要说明的是,上述图1所示的结构仅是一种示例,本发明实施例对此不做限定。
基于上述描述,图2示例性的示出了本发明实施例提供的一种地址标准化方法的流程,该流程可以由地址标准化装置执行。
如图2所示,该流程具体包括:
步骤201,获取待处理地址数据。
本发明实施例中,该待处理地址数据是需要进行标准化处理的地址数据。其中,地址数据通常是由省市区县行政区划信息和详细地址信息组成的,比如 XX省XX市XX区XX路XX街道XXXX号XXXX。其中,有一些地址数据存在一些问题,比如地址数据中部分数据缺失、地址数据的排列组合不符合地址标准要求或地址数据表述不规范等,导致这些地址数据不符合地址标准规范,无法更好地为后续基于地址数据进行复杂的业务分析提供支持,因此,需要对这些不符合地址标准规范的地址数据进行标准化处理。
步骤202,通过地址向量化模型对所述待处理地址数据进行处理,确定出所述待处理地址数据的语义特征向量。
本发明实施例中,通过将待处理地址数据输入到地址向量化模型中进行处理,即可及时准确地得到该待处理地址数据的语义特征向量。该待处理地址数据的语义特征向量中包含待处理地址数据的行政区划信息、POI(Point of Interest,兴趣点)类别以及地址数据的层级包含关系等,从而可以为后续地址分词模型在处理待处理地址数据时能够更精准地确定出该待处理地址数据中的各子地址分词提供支持。其中,地址向量化模型是基于多个训练子任务对第一历史样本集进行训练确定的。其中,多个训练子任务包括地址行政区划子任务、兴趣点POI分类子任务、噪音混淆子任务以及地址区划重排子任务;地址行政区划子任务用于训练学习地址数据中的地址行政区划信息;兴趣点POI 分类子任务用于训练学习地址数据与POI类别的关联关系;噪音混淆子任务用于增强训练学习的稳定性;地址区划重排子任务用于训练学习地址数据的层级包含关系。针对于此,由于现有预训练模型的训练方式是基于两个训练子任务进行训练的,即子任务MLM(Mask Language Model,用于学习文本内的词信息)和子任务NSP(Next Sentence Prediction,用于学习文本上下句子间的顺序信息),但是现有预训练模型在处理地址数据时效果并不好,并不适用于地址数据处理领域,而且由于地址数据中不存在上下句顺序,因此会排除子任务NSP的训练。因此本发明中的技术方案通过修改现有预训练模型的训练方式,即,将现有预训练模型的训练方式由原来的两个训练子任务变为至少三个训练子任务,每个训练子任务用于训练学习不同的地址语义特征信息,以此对预训练模型进行训练,即可得到符合地址数据这种特定的文本领域的地址向量化模型,从而在对地址数据进行处理时,能够更及时精确地得到待处理地址数据的语义特征向量。
下面对基于多个训练子任务对第一历史样本集进行训练确定地址向量化模型的实施过程进行描述。
步骤a、针对第一历史样本集中的同一样本,通过初始的地址向量化模型执行任一训练子任务,确定训练子任务的损失函数。
其中,第一历史样本集可以从数据仓库和互联网上获取,也即是,数据仓库和互联网能够提供标准化的地址数据。其中,POI数据以及带有编码的4级或5级标准行政区划数据来自于互联网,从互联网上可以找到标准化地址数据的全集,比如通过爬取高德地图的POI数据、百度地图的POI数据或邮政的地址库数据等,此外,一些所需的地址数据(比如标准行政区划数据或地址分词数据等)也可以从数据仓库中获取。在获取到第一历史样本集后,即可针对第一历史样本集中的同一样本,基于同一样本通过初始的地址向量化模型执行任一训练子任务,以此可确定出各训练子任务的损失函数。
具体地,针对地址行政区划子任务,以随机掩饰的方式,将第一历史样本集中的第一样本包含的部分行政区划进行掩饰处理,得到掩饰后的第一样本,并将掩饰后的第一样本输入到初始的地址向量化模型进行处理,得到掩饰后的第一样本的语义特征向量。然后,根据掩饰后的第一样本的语义特征向量和第一样本的标签语义特征向量,确定出第一损失函数。如此,通过初始的地址向量化模型执行地址行政区划子任务进行训练,可以使得训练好的地址向量化模型在处理地址数据时能够更好地学习到地址数据中的地址行政区划信息,从而为后续地址分词模型能够更好地基于地址数据中的各行政区划语义信息识别出该地址数据中的各行政区划提供支持。
示例性地,以第一样本为“浙江省杭州市滨江区滨安路1181号优迈科技园”为例进行描述,且以初始的地址向量化模型为BERT模型(Bidirectional EncoderRepresentations from Transformers)为例,以随机掩饰的方式,比如将第一样本中的“浙江省”进行随机mask,即,将第一样本“浙江省杭州市滨江区滨安路1181号优迈科技园”变为“[mask]杭州市滨江区滨安路1181号优迈科技园”。将掩饰后的第一样本“[mask]杭州市滨江区滨安路1181号优迈科技园”输入到BERT模型中进行处理,得到掩饰后的第一样本的语义特征向量,然后,根据掩饰后的第一样本“[mask]杭州市滨江区滨安路1181号优迈科技园”的语义特征向量和第一样本“浙江省杭州市滨江区滨安路1181号优迈科技园”的标签语义特征向量,确定出掩饰后的第一样本与第一样本的语义特征向量之间的第一损失函数。
针对POI分类子任务,将第一历史样本集中的第一样本输入到初始的地址向量化模型进行处理,得到第一样本对应的预测POI类别。然后,基于第一样本对应的预测POI类别和第一样本对应的标签POI类别,确定出第二损失函数。如此,通过初始的地址向量化模型执行POI分类子任务进行训练,可以使得训练好的地址向量化模型在处理地址数据时能够更好地学习到地址数据与POI 类别的关联关系,从而为后续地址分词模型能够更好地基于地址数据与POI 类别的关联关系识别出该地址数据的POI类别提供支持。其中,POI类别可以包括但不限于写字楼、商铺、大厦、广场、酒店、学校、银行、餐馆、加油站、医院、超市等。
示例性地,继续以第一样本为“浙江省杭州市滨江区滨安路1181号优迈科技园”为例进行描述,且以初始的地址向量化模型为BERT模型为例,该第一样本“浙江省杭州市滨江区滨安路1181号优迈科技园”对应的POI类别为写字楼。将带有POI类别写字楼标签的第一样本“浙江省杭州市滨江区滨安路 1181号优迈科技园”输入到BERT模型中进行处理,得到第一样本对应的预测 POI类别。然后,根据第一样本“浙江省杭州市滨江区滨安路1181号优迈科技园”对应的POI类别写字楼与该第一样本对应的预测POI类别,确定出POI 类别写字楼与预测POI类别之间的第二损失函数。
针对噪音混淆子任务,将第一历史样本集中的第一样本包含的部分行政区划进行噪声混淆处理,得到噪声混淆后的第一样本,并将噪声混淆后的第一样本输入到初始的地址向量化模型进行处理,得到噪声混淆后的第一样本的语义特征向量。然后,根据噪声混淆后的第一样本的语义特征向量和第一样本的标签语义特征向量,确定出第三损失函数。如此,通过初始的地址向量化模型执行噪音混淆子任务进行训练,可以使得训练好的地址向量化模型在处理地址数据时识别地址数据的语义特征信息的稳定好更好,从而为后续地址分词模型能够更好地对地址数据进行分词处理提供支持。
示例性地,继续以第一样本为“浙江省杭州市滨江区滨安路1181号优迈科技园”为例进行描述,且以初始的地址向量化模型为BERT模型为例,将第一样本“浙江省杭州市滨江区滨安路1181号优迈科技园”进行噪声混淆处理,比如将第一样本中的“浙江省”进行噪声混淆处理,即,将第一样本“浙江省杭州市滨江区滨安路1181号优迈科技园”改为“浙工省杭州市滨江区滨安路 1181号优迈科技园”。将噪声混淆后的第一样本“浙工省杭州市滨江区滨安路 1181号优迈科技园”输入到BERT模型中进行处理,得到噪声混淆后的第一样本的语义特征向量。其中,噪声混淆后的第一样本在输入到BERT模型中之前也会按照BERT模型的常规训练方式进行mask任务处理。然后,根据噪声混淆后的第一样本“浙工省杭州市滨江区滨安路1181号优迈科技园”的语义特征向量和第一样本“浙江省杭州市滨江区滨安路1181号优迈科技园”的标签语义特征向量,确定出噪声混淆后的第一样本的语义特征向量与第一样本的标签语义特征向量之间的第三损失函数。
针对地址区划重排子任务,将第一历史样本集中的第一样本包含的部分行政区划进行调换处理,得到调换后的第一样本,并将调换后的第一样本输入到初始的地址向量化模型进行处理,得到调换后的第一样本的语义特征向量。然后,根据调换后的第一样本的语义特征向量和第一样本的标签语义特征向量,确定出第四损失函数。如此,通过初始的地址向量化模型执行地址区划重排子任务进行训练,可以使得训练好的地址向量化模型在处理地址数据时能够更好地学习到地址数据中各级子地址的上下级关系,从而为后续地址分词模型能够更好地基于地址数据的层级包含关系识别出该地址数据的各子地址的上下级关系提供支持。
示例性地,继续以第一样本为“浙江省杭州市滨江区滨安路1181号优迈科技园”为例进行描述,且以初始的地址向量化模型为BERT模型为例,将第一样本“浙江省杭州市滨江区滨安路1181号优迈科技园”中的部分行政区划进行调换处理,比如将第一样本中的“杭州市滨江区”变换为“滨江区杭州市”,即,将第一样本“浙江省杭州市滨江区滨安路1181号优迈科技园”变为“浙江省滨江区杭州市滨安路1181号优迈科技园”。将调换后的第一样本“浙江省滨江区杭州市滨安路1181号优迈科技园”输入到BERT模型中进行处理,得到调换后的第一样本的语义特征向量。其中,调换后的第一样本在输入到BERT 模型中之前也会按照BERT模型的常规训练方式进行mask任务处理。然后,根据调换后的第一样本“浙江省滨江区杭州市滨安路1181号优迈科技园”的语义特征向量和第一样本“浙江省杭州市滨江区滨安路1181号优迈科技园”的标签语义特征向量,确定出调换后的第一样本的语义特征向量与第一样本的标签语义特征向量之间的第四损失函数。
步骤b、根据各训练子任务的损失函数,确定出融合损失函数。
由于地址向量化模型的模型参数调整是由各训练子任务的损失函数共同决定的,因此在确定出各训练子任务的损失函数后,通过将地址行政区划子任务的第一损失函数、POI分类子任务的第二损失函数、噪音混淆子任务的第三损失函数以及地址区划重排子任务的第四损失函数进行融合处理,可以确定出初始的地址向量化模型的融合损失函数,并基于该融合损失函数对初始的地址向量化模型进行调整。
步骤c、根据融合损失函数调整初始的地址向量化模型,直至初始的地址向量化模型收敛或达到预设迭代训练轮次为止,得到地址向量化模型。
通过融合损失函数对初始的地址向量化模型中的模型参数进行调整,直至初始的地址向量化模型收敛或达到预设迭代训练轮次为止,即可得到符合地址数据这种特定的文本领域的地址向量化模型,从而可以为后续地址分词模型对地址数据进行更好的地址分词提供支持。
步骤203,将所述待处理地址数据的语义特征向量输入到地址分词模型进行分词处理,确定出各子地址分词。
本发明实施例中,通过将待处理地址数据的语义特征向量输入到地址分词模型进行分词处理,即可及时准确地得到各子地址分词,而无需基于地址词典对待处理地址数据进行分词处理,从而可以降低针对待处理地址数据匹配分割时所消耗的时间成本,并可以有效地解决现有技术在待处理地址数据中出现新的地址段时就会无法及时地通过现有地址词典来实现对待处理地址数据的匹配分割的问题。
示例性地,以待处理地址数据为“浙江省杭州市滨江区滨安路1181号优迈科技园”为例进行描述,将该待处理地址数据输入到地址向量化模型(比如训练好的BERT模型)中进行处理,得到该待处理地址数据的语义特征向量。其中,该待处理地址数据的语义特征向量中包含待处理地址数据“浙江省杭州市滨江区滨安路1181号优迈科技园”中的行政区划信息、POI类别以及所包含的各级子地址的上下级关系。在将该待处理地址数据的语义特征向量输入到地址分词模型进行分词处理后,即可得到各子地址分词的结果,即浙江省、杭州市、滨江区、滨安路、1181号以及优迈科技园。
在基于地址样本数据进行训练得到地址分词模型时,一种可能的实现方式为:基于数据仓库中现有的地址分词数据进行训练得到地址分词模型,即,可以通过将数据仓库中现有的地址分词数据中每个地址分词数据的语义特征向量输入到预设的地址分词模型进行训练,得到每个地址分词数据的预测标签,通过每个地址分词数据的预测标签与该地址分词数据的实际标签之间的损失函数进行调整预设的地址分词模型,直至预设的地址分词模型收敛或达到预设迭代训练轮次为止,即可得到训练好的地址分词模型。另一种可能的实现方式为:可以将第一历史样本集中每个第一样本中的各地址分词都进行标注上标签,将标注上标签的每个第一样本输入到训练好的地址向量化模型中进行处理,得到标注上标签的每个第一样本的语义特征向量,并将标注上标签的每个第一样本的语义特征向量输入到预设的地址分词模型进行训练,得到每个地址分词的预测标签,通过第一样本中各地址分词的预测标签与对应的地址分词的实际标签之间的损失函数共同进行调整预设的地址分词模型,直至预设的地址分词模型收敛或达到预设迭代训练轮次为止,即可得到训练好的地址分词模型。其中,预设的地址分词模型可以包括BiLSTM(Bi-directional LongShort-Term Memory,双向长短期记忆网络)或CRF(Conditional Random Field,条件随机场)等中的一种或两种。
示例性地,以第二种可能的实现方式为例进行描述,假设地址样本数据“浙江省杭州市滨江区滨安路1181号优迈科技园”,并对该地址样本数据中每个地址分词都标注上标签,比如对“浙江省”标注上标签A,对“杭州市”标注上标签B等,且假设预设的地址分词模型为BiLSTM,将该地址样本数据输入到训练好的BERT模型中进行处理,得到该地址样本数据的语义特征向量,比如可以得到“浙江省”的语义特征向量,得到“杭州市”的语义特征向量等,并将该地址样本数据的语义特征向量输入到BiLSTM中进行训练,即可得到地址样本数据每个地址分词的预测标签,比如可以得到“浙江省”的预测标签,得到“杭州市”的预测标签等,通过地址样本数据每个地址分词的预测标签与地址样本数据每个地址分词的实际标签之间的损失函数共同进行调整BiLSTM,比如通过“浙江省”的预测标签与“浙江省”的实际标签(A)之间的损失函数、“杭州市”的预测标签与“杭州市”的实际标签(B)之间的损失函数等共同确定一个总的损失函数,基于该总的损失函数进行调整BiLSTM,直至 BiLSTM收敛或达到预设迭代训练轮次为止,即可得到训练好的地址分词模型。
步骤204,对所述各子地址分词进行词性标注,得到标准化的地址数据。
本发明实施例中,通过预设的地址标注规则,对各子地址分词进行地址级别标注,即可得到标注后的各子地址分词。
示例性地,根据预设的地址词典、标注规则等对各子地址分词进行词性标注,比如可以根据省、市、区、乡镇街道、社区、路、门牌号、小区、楼幢号、单元号、房间号、楼层号、兴趣点POI进行13级地址级别要素的划分,从而实现针对各子地址分词的标注。其中,预设的地址词典可以不断地进行自学习更新;预设的地址词典中可以包括但不限于省、市、区、乡镇、街道、社区、办事处、居委会、村民小组、小区、兴趣点POI等。比如,以上述待处理地址数据“浙江省杭州市滨江区滨安路1181号优迈科技园”进行分词处理后所得到的各子地址分词的结果为例,将浙江省标注上省级地址级别,将杭州市标注上市级地址级别,将滨江区标注上区级地址级别,将滨安路标注上路级地址级别、将1181号标注上门牌号级地址级别,将优迈科技园标注上兴趣点POI级地址级别。
在得到标注后的各子地址分词后,通过构建的地址字典树,对标注后的各子地址分词进行匹配识别,确定标注后的各子地址分词是否符合地址标准要求。如果某一标注后的子地址分词符合地址标准要求,则将该子地址分词存储至标准地址数据库;如果某一标注后的子地址分词不符合地址标准要求,则对不符合地址标准要求的子地址分词进行更改,将更改后的子地址分词存储至标准地址数据库。其中,标准化后的地址数据可用于地址错别字纠错、地址字段的统计分析、地址二义性及歧义的消除、行政区划的识别、门牌及单元室书写差异的纠正等。
示例性地,通过基于标准的子地址分词构建出地址字典树,即Trie树,并基于Trie树的有限状态机进行子地址分词的匹配识别,以此将标注后的各子地址分词进行结构化后存储至标准地址数据库。其中,本发明实施例采取有限状态机(Finite State Machine)理论来设计地址结构化模型,主要基于以下两点的考虑:(1)原理简单、容易实现。根据有限状态机理论,对应每一种状态,当有不同的输入时会通过转换函数产生不同的唯一的输出状态,并且该状态将作为下一个迭代判断的当前状态;(2)适合于地址标准化匹配控制流程建模。一方面是因为地址层级模型的输入信号和状态都是有限的,而且数量较少,非常符合有限状态机的建模要求。另一方面采用有限状态机驱动匹配流程,对输入地址的层级结构变化不敏感,对输入的地址元素是否合乎规范标准要求不高,具有较强的鲁棒性。
需要说明的是,由于地址向量化模型在处理地址数据时所得到的结果中只包含地址的语义特征信息,并不包含地址的空间距离信息。因此,本发明中的技术方案在得到训练好的地址向量化模型之后,还可以通过优化训练好的地址向量化模型来实现将地址的空间距离信息加入到地址向量化模型中。即,将第二历史样本集中的各第二样本分别输入到地址向量化模型进行处理,得到各第二样本的语义特征向量。针对每个第二样本的语义特征向量,将第二样本的语义特征向量输入到预设的分类模型进行识别,确定出第二样本的预测空间距离类别。然后,通过第二样本的预测空间距离类别与第二样本的空间距离类别标注之间的损失函数进行反向优化地址向量化模型,以此达到训练地址向量化模型来学习地址数据与地址数据之间的空间距离信息,从而使得优化后的地址向量化模型在处理地址数据时还能够识别待处理地址数据的空间距离信息。
示例性地,针对某一城市的所有地址数据,通过根据该城市的每个地址数据的经纬度来该城市的所有地址数据进行聚类分析,并根据聚类分析后的结果来对该城市的每个地址数据进行打标签处理,比如将城市的所有地址数据进行聚类分析后得到10大类别,则可以将该城市的每个地址数据都标上对应的类别标签。然后,将该城市的每个地址数据输入到训练好的地址向量化模型(比如训练好的BERT模型)中进行处理,得到该地址数据的语义特征向量,并将该地址数据的语义特征向量输入到预设的分类模型(比如卷积神经网络、深度神经网络等)进行识别,得到该地址数据的预测类别。最后,通过地址数据的预测类别与地址数据的类别标签之间的损失函数进行反向优化训练好的地址向量化模型,以此达到训练地址向量化模型来学习地址数据与地址数据之间的空间距离信息,从而实现在训练好的地址向量化模型中加入空间距离信息的目的,进而可以为后续某一分析任务需要地址数据的空间距离信息提供支持。
上述实施例表明,由于现有技术中的技术方案通过基于地址词典来实现对待处理地址数据的匹配分割,以便后续基于分割出的各级别的地址段进行标准化处理,因此,现有技术中的技术方案一方面存在匹配分割时所消耗的时间成本大,另一方面在待处理地址数据中出现新的地址段时就会无法及时地通过现有地址词典来实现对待处理地址数据的匹配分割。基于此,本发明中的技术方案通过地址向量化模型对待处理地址数据进行处理,可以更及时精确地得到待处理地址数据的语义特征向量,如此在将待处理地址数据的语义特征向量输入到地址分词模型进行分词处理时,就能够更加及时准确地得到各子地址分词,而无需基于地址词典对待处理地址数据进行分词处理,从而可以降低针对待处理地址数据匹配分割时所消耗的时间成本,并可以有效地解决现有技术在待处理地址数据中出现新的地址段时就会无法及时地通过现有地址词典来实现对待处理地址数据的匹配分割的问题,进而可以有效地提高待处理地址数据的标准化处理效率。然后,在对各子地址分词进行词性标注后,就可以及时有效地得到标准化的地址数据。
基于相同的技术构思,图3示例性的示出了本发明实施例提供的一种地址标准化装置,该装置可以执行地址标准化方法的流程。
如图3所示,该装置包括:
获取单元301,用于获取待处理地址数据;
处理单元302,用于通过地址向量化模型对所述待处理地址数据进行处理,确定出所述待处理地址数据的语义特征向量;所述地址向量化模型是基于多个训练子任务对第一历史样本集进行训练确定的;将所述待处理地址数据的语义特征向量输入到地址分词模型进行分词处理,确定出各子地址分词;对所述各子地址分词进行词性标注,得到标准化的地址数据。
可选地,所述处理单元302具体用于:
所述多个训练子任务包括地址行政区划子任务、兴趣点POI分类子任务、噪音混淆子任务以及地址区划重排子任务;所述地址行政区划子任务用于训练学习地址数据中的地址行政区划信息;所述兴趣点POI分类子任务用于训练学习地址数据与POI类别的关联关系;所述噪音混淆子任务用于增强训练学习的稳定性;所述地址区划重排子任务用于训练学习地址数据的层级包含关系。
可选地,所述处理单元302具体用于:
针对所述第一历史样本集中的同一样本,通过初始的地址向量化模型执行任一训练子任务,确定所述训练子任务的损失函数;
根据各训练子任务的损失函数,确定出融合损失函数;
根据所述融合损失函数调整所述初始的地址向量化模型,直至所述初始的地址向量化模型收敛或达到预设迭代训练轮次为止,得到所述地址向量化模型。
可选地,所述处理单元302具体用于:
针对地址行政区划子任务,以随机掩饰的方式,将所述第一历史样本集中的第一样本包含的部分行政区划进行掩饰处理,得到掩饰后的第一样本;
将所述掩饰后的第一样本输入到所述初始的地址向量化模型进行处理,得到所述掩饰后的第一样本的语义特征向量;
根据所述掩饰后的第一样本的语义特征向量和所述第一样本的标签语义特征向量,确定出第一损失函数。
可选地,所述处理单元302具体用于:
针对POI分类子任务,将所述第一历史样本集中的第一样本输入到所述初始的地址向量化模型进行处理,得到所述第一样本对应的预测POI类别;
基于所述第一样本对应的预测POI类别和所述第一样本对应的标签POI 类别,确定出第二损失函数。
可选地,所述处理单元302具体用于:
针对噪音混淆子任务,将所述第一历史样本集中的第一样本包含的部分行政区划进行噪声混淆处理,得到噪声混淆后的第一样本;
将所述噪声混淆后的第一样本输入到所述初始的地址向量化模型进行处理,得到所述噪声混淆后的第一样本的语义特征向量;
根据所述噪声混淆后的第一样本的语义特征向量和所述第一样本的标签语义特征向量,确定出第三损失函数。
可选地,所述处理单元302具体用于:
针对地址区划重排子任务,将所述第一历史样本集中的第一样本包含的部分行政区划进行调换处理,得到调换后的第一样本;
将所述调换后的第一样本输入到所述初始的地址向量化模型进行处理,得到所述调换后的第一样本的语义特征向量;
根据所述调换后的第一样本的语义特征向量和所述第一样本的标签语义特征向量,确定出第四损失函数。
可选地,所述处理单元302还用于:
在得到标准化的地址数据之后,通过构建的地址字典树,对所述标准化的地址数据中标注的各子地址分词进行匹配识别,确定标注的各子地址分词是否符合地址标准要求;
若是,则将符合地址标准要求的子地址分词存储至所述标准地址数据库,否则对不符合地址标准要求的子地址分词进行更改,并将更改后的子地址分词存储至所述标准地址数据库。
可选地,所述处理单元302还用于:
在得到所述地址向量化模型之后,将第二历史样本集中的各第二样本进行聚类分析,得到多个空间距离类别;
根据所述多个空间距离类别,确定所述第二历史样本集中每个第二样本的空间距离类别标注;
将所述第二历史样本集中的各第二样本分别输入到所述地址向量化模型进行处理,得到所述各第二样本的语义特征向量;
针对每个第二样本的语义特征向量,将所述第二样本的语义特征向量输入到预设的分类模型进行识别,确定出所述第二样本的预测空间距离类别;
通过所述第二样本的预测空间距离类别与所述第二样本的空间距离类别标注之间的损失函数进行反向优化所述地址向量化模型;优化后的地址向量化模型还用于识别待处理地址数据的空间距离信息。
基于相同的技术构思,本发明实施例还提供了一种计算设备,如图4所示,包括至少一个处理器401,以及与至少一个处理器连接的存储器402,本发明实施例中不限定处理器401与存储器402之间的具体连接介质,图4中处理器 401和存储器402之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。
在本发明实施例中,存储器402存储有可被至少一个处理器401执行的指令,至少一个处理器401通过执行存储器402存储的指令,可以执行前述的地址标准化方法中所包括的步骤。
其中,处理器401是计算设备的控制中心,可以利用各种接口和线路连接计算设备的各个部分,通过运行或执行存储在存储器402内的指令以及调用存储在存储器402内的数据,从而实现数据处理。可选的,处理器401可包括一个或多个处理单元,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理下发指令。可以理解的是,上述调制解调处理器也可以不集成到处理器401 中。在一些实施例中,处理器401和存储器402可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器401可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合地址标准化方法实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器402作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器402可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器402是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本发明实施例中的存储器402还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
基于相同的技术构思,本发明实施例还提供了一种计算机可读存储介质,其存储有可由计算设备执行的计算机程序,当所述程序在所述计算设备上运行时,使得所述计算设备执行上述地址标准化方法的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种地址标准化方法,其特征在于,包括:
获取待处理地址数据;
通过地址向量化模型对所述待处理地址数据进行处理,确定出所述待处理地址数据的语义特征向量;所述地址向量化模型是基于多个训练子任务对第一历史样本集进行训练确定的;
将所述待处理地址数据的语义特征向量输入到地址分词模型进行分词处理,确定出各子地址分词;
对所述各子地址分词进行词性标注,得到标准化的地址数据。
2.如权利要求1所述的方法,其特征在于,所述多个训练子任务包括地址行政区划子任务、兴趣点POI分类子任务、噪音混淆子任务以及地址区划重排子任务;所述地址行政区划子任务用于训练学习地址数据中的地址行政区划信息;所述兴趣点POI分类子任务用于训练学习地址数据与POI类别的关联关系;所述噪音混淆子任务用于增强训练学习的稳定性;所述地址区划重排子任务用于训练学习地址数据的层级包含关系。
3.如权利要求1所述的方法,其特征在于,基于多个训练子任务对第一历史样本集进行训练确定所述地址向量化模型,包括:
针对所述第一历史样本集中的同一样本,通过初始的地址向量化模型执行任一训练子任务,确定所述训练子任务的损失函数;
根据各训练子任务的损失函数,确定出融合损失函数;
根据所述融合损失函数调整所述初始的地址向量化模型,直至所述初始的地址向量化模型收敛或达到预设迭代训练轮次为止,得到所述地址向量化模型。
4.如权利要求3所述的方法,其特征在于,所述针对所述第一历史样本集中的同一样本,通过初始的地址向量化模型执行任一训练子任务,确定所述训练子任务的损失函数,包括:
针对地址行政区划子任务,以随机掩饰的方式,将所述第一历史样本集中的第一样本包含的部分行政区划进行掩饰处理,得到掩饰后的第一样本;
将所述掩饰后的第一样本输入到所述初始的地址向量化模型进行处理,得到所述掩饰后的第一样本的语义特征向量;
根据所述掩饰后的第一样本的语义特征向量和所述第一样本的标签语义特征向量,确定出第一损失函数。
5.如权利要求3所述的方法,其特征在于,所述针对第一历史样本集中的同一样本,通过初始的地址向量化模型执行任一训练子任务,确定所述训练子任务的损失函数,包括:
针对POI分类子任务,将所述第一历史样本集中的第一样本输入到所述初始的地址向量化模型进行处理,得到所述第一样本对应的预测POI类别;
基于所述第一样本对应的预测POI类别和所述第一样本对应的标签POI类别,确定出第二损失函数。
6.如权利要求3所述的方法,其特征在于,所述针对第一历史样本集中的同一样本,通过初始的地址向量化模型执行任一训练子任务,确定所述训练子任务的损失函数,包括:
针对噪音混淆子任务,将所述第一历史样本集中的第一样本包含的部分行政区划进行噪声混淆处理,得到噪声混淆后的第一样本;
将所述噪声混淆后的第一样本输入到所述初始的地址向量化模型进行处理,得到所述噪声混淆后的第一样本的语义特征向量;
根据所述噪声混淆后的第一样本的语义特征向量和所述第一样本的标签语义特征向量,确定出第三损失函数。
7.如权利要求3所述的方法,其特征在于,所述针对第一历史样本集中的同一样本,通过初始的地址向量化模型执行任一训练子任务,确定所述训练子任务的损失函数,包括:
针对地址区划重排子任务,将所述第一历史样本集中的第一样本包含的部分行政区划进行调换处理,得到调换后的第一样本;
将所述调换后的第一样本输入到所述初始的地址向量化模型进行处理,得到所述调换后的第一样本的语义特征向量;
根据所述调换后的第一样本的语义特征向量和所述第一样本的标签语义特征向量,确定出第四损失函数。
8.如权利要求1至7任一项所述的方法,其特征在于,在得到标准化的地址数据之后,还包括:
通过构建的地址字典树,对所述标准化的地址数据中标注的各子地址分词进行匹配识别,确定标注的各子地址分词是否符合地址标准要求;
若是,则将符合地址标准要求的子地址分词存储至所述标准地址数据库,否则对不符合地址标准要求的子地址分词进行更改,并将更改后的子地址分词存储至所述标准地址数据库。
9.如权利要求3所述的方法,其特征在于,在得到所述地址向量化模型之后,还包括:
将第二历史样本集中的各第二样本进行聚类分析,得到多个空间距离类别;
根据所述多个空间距离类别,确定所述第二历史样本集中每个第二样本的空间距离类别标注;
将所述第二历史样本集中的各第二样本分别输入到所述地址向量化模型进行处理,得到所述各第二样本的语义特征向量;
针对每个第二样本的语义特征向量,将所述第二样本的语义特征向量输入到预设的分类模型进行识别,确定出所述第二样本的预测空间距离类别;
通过所述第二样本的预测空间距离类别与所述第二样本的空间距离类别标注之间的损失函数进行反向优化所述地址向量化模型;优化后的地址向量化模型还用于识别待处理地址数据的空间距离信息。
10.一种地址标准化装置,其特征在于,包括:
获取单元,用于获取待处理地址数据;
处理单元,用于通过地址向量化模型对所述待处理地址数据进行处理,确定出所述待处理地址数据的语义特征向量;所述地址向量化模型是基于多个训练子任务对第一历史样本集进行训练确定的;将所述待处理地址数据的语义特征向量输入到地址分词模型进行分词处理,确定出各子地址分词;对所述各子地址分词进行词性标注,得到标准化的地址数据。
CN202110837245.XA 2021-07-23 2021-07-23 一种地址标准化方法及装置 Active CN113468881B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110837245.XA CN113468881B (zh) 2021-07-23 2021-07-23 一种地址标准化方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110837245.XA CN113468881B (zh) 2021-07-23 2021-07-23 一种地址标准化方法及装置

Publications (2)

Publication Number Publication Date
CN113468881A true CN113468881A (zh) 2021-10-01
CN113468881B CN113468881B (zh) 2024-02-27

Family

ID=77882128

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110837245.XA Active CN113468881B (zh) 2021-07-23 2021-07-23 一种地址标准化方法及装置

Country Status (1)

Country Link
CN (1) CN113468881B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117272053A (zh) * 2023-11-22 2023-12-22 杭州中房信息科技有限公司 少样本地址数据集生成方法、地址匹配方法、介质及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019575A (zh) * 2017-08-04 2019-07-16 北京京东尚科信息技术有限公司 对地理地址进行标准化的方法和装置
CN111159974A (zh) * 2019-12-30 2020-05-15 北京明略软件系统有限公司 地址信息的标准化方法、装置、存储介质及电子设备
WO2020103783A1 (zh) * 2018-11-19 2020-05-28 阿里巴巴集团控股有限公司 地址文本相似度确定方法、地址搜索方法、装置和设备
CN111522901A (zh) * 2020-03-18 2020-08-11 大箴(杭州)科技有限公司 文本中地址信息的处理方法及装置
CN112069273A (zh) * 2020-08-13 2020-12-11 丰图科技(深圳)有限公司 地址文本的分类方法、装置、电子设备及存储介质
CN112560478A (zh) * 2020-12-16 2021-03-26 武汉大学 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法
CN112632213A (zh) * 2020-12-03 2021-04-09 大箴(杭州)科技有限公司 地址信息标准化方法及装置、电子设备、存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019575A (zh) * 2017-08-04 2019-07-16 北京京东尚科信息技术有限公司 对地理地址进行标准化的方法和装置
WO2020103783A1 (zh) * 2018-11-19 2020-05-28 阿里巴巴集团控股有限公司 地址文本相似度确定方法、地址搜索方法、装置和设备
CN111159974A (zh) * 2019-12-30 2020-05-15 北京明略软件系统有限公司 地址信息的标准化方法、装置、存储介质及电子设备
CN111522901A (zh) * 2020-03-18 2020-08-11 大箴(杭州)科技有限公司 文本中地址信息的处理方法及装置
CN112069273A (zh) * 2020-08-13 2020-12-11 丰图科技(深圳)有限公司 地址文本的分类方法、装置、电子设备及存储介质
CN112632213A (zh) * 2020-12-03 2021-04-09 大箴(杭州)科技有限公司 地址信息标准化方法及装置、电子设备、存储介质
CN112560478A (zh) * 2020-12-16 2021-03-26 武汉大学 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIAOLIN LI: "Chinese Word Segmentation Based on Maximum Entropy", PROCEEDINGS OF THE 2019 INTERNATIONAL CONFERENCE ON ROBOTICS SYSTEMS AND VEHICLE TECHNOLOGY, 31 October 2019 (2019-10-31) *
张剑;叶远智;翁宝凤;: "面向智慧城市的高精度地名地址匹配方法", 测绘与空间地理信息, no. 11, 25 November 2019 (2019-11-25) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117272053A (zh) * 2023-11-22 2023-12-22 杭州中房信息科技有限公司 少样本地址数据集生成方法、地址匹配方法、介质及设备
CN117272053B (zh) * 2023-11-22 2024-02-23 杭州中房信息科技有限公司 少样本地址数据集生成方法、地址匹配方法、介质及设备

Also Published As

Publication number Publication date
CN113468881B (zh) 2024-02-27

Similar Documents

Publication Publication Date Title
CN110795543B (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
Liu et al. Classifying urban land use by integrating remote sensing and social media data
CN109145294B (zh) 文本实体识别方法及装置、电子设备、存储介质
CN110363049B (zh) 图形元素检测识别和类别确定的方法及装置
CN110826335B (zh) 一种命名实体识别的方法和装置
CN110069626B (zh) 一种目标地址的识别方法、分类模型的训练方法以及设备
CN101286163B (zh) 一种基于识别知识库的识别方法
CN115357719B (zh) 基于改进bert模型的电力审计文本分类方法及装置
Li et al. A trajectory restoration algorithm for low-sampling-rate floating car data and complex urban road networks
CN115408525A (zh) 基于多层级标签的信访文本分类方法、装置、设备及介质
CN115470307A (zh) 一种地址匹配方法及装置
CN113468881A (zh) 一种地址标准化方法及装置
CN111126422B (zh) 行业模型的建立及行业的确定方法、装置、设备及介质
CN116029394B (zh) 自适应文本情感识别模型训练方法、电子设备及存储介质
CN111460044B (zh) 地理位置数据处理方法及装置
CN116431746A (zh) 基于编码库的地址映射方法、装置、电子设备及存储介质
CN114513550B (zh) 一种地理位置信息的处理方法、装置及电子设备
CN113886602B (zh) 一种基于多粒度认知的领域知识库实体识别方法
CN115952800A (zh) 命名实体识别方法、装置、计算机设备及可读存储介质
CN115129885A (zh) 实体链指方法、装置、设备及存储介质
CN114595329A (zh) 一种原型网络的少样本事件抽取系统及方法
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质
CN115185986A (zh) 省市区地址信息匹配方法、装置、计算机设备及存储介质
CN114912513A (zh) 一种模型训练的方法、识别信息的方法及装置
CN114970547A (zh) 多层级多类型的规划内容差异识别与冲突消除方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant