CN110188184A - 一种地址信息比对的处理方法、存储介质及终端设备 - Google Patents

一种地址信息比对的处理方法、存储介质及终端设备 Download PDF

Info

Publication number
CN110188184A
CN110188184A CN201910482755.2A CN201910482755A CN110188184A CN 110188184 A CN110188184 A CN 110188184A CN 201910482755 A CN201910482755 A CN 201910482755A CN 110188184 A CN110188184 A CN 110188184A
Authority
CN
China
Prior art keywords
address
subitem
address information
information
compares
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910482755.2A
Other languages
English (en)
Inventor
谷国良
彭青齐
宋智刚
罗学权
许曲
罗毅虎
樊洋
佟禹
周太威
张昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PENGYUAN CREDIT CO Ltd
Original Assignee
PENGYUAN CREDIT CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PENGYUAN CREDIT CO Ltd filed Critical PENGYUAN CREDIT CO Ltd
Priority to CN201910482755.2A priority Critical patent/CN110188184A/zh
Publication of CN110188184A publication Critical patent/CN110188184A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种地址信息比对的处理方法、存储介质及终端设备,其包括:获取待对比的第一地址信息和第二地址信息,分别采用改进的隐马尔科夫模型对第一地址信息和第二地址信息进行分词,以得到第一地址信息的各第一地址子项以及第二地址信息的各第二地址子项;按照预设规则分别将各第一地址子项与其对应的第二地址子项进行比较,并获取各比较结果对应的结果编码;根据各结果编码计算第一地址信息和第二地址信息的相似度;当所述相似度满足预设阈值时,判定第一地址信息与第二地址信息相同。本发明实现了对地址进行有效和正确的切分,在切分之后的地址子项的基础上面进行比对,并且实现了对多个地址信息的比较,能准确的确定多个地址的比对结果和相似度。

Description

一种地址信息比对的处理方法、存储介质及终端设备
技术领域
本发明涉及中文信息处理技术领域,特别涉及一种地址信息比对的处理方法、存储介质及终端设备。
背景技术
近年来,随着自然语言处理技术的发展,越来越多的中文文本处理任务通过程序自动完成,在文本处理中,可以提取出大量的地址信息;比如用户在申请信用卡时,银行需要将用户录入的工作单位地址或者居住地址跟其它信息源(比如社保系统)的工作单位地址进行比对校验,而由于缩写等原因,许多地址信息存在不统一和不规范的表述。例如“广东省深圳市福田区中心四路1号嘉里建设广场”还可能被表述为:“深圳市福田区福华路嘉里建设广场”、“广东省深圳市福田区中心四路1号”、“深圳市福田区中心四路嘉里建设广场”等名称,为判断不同表示的地址信息是否指代同一个地址,需要对地址信息各地址子项进行切分,并识别每个子项的类型;
比如,有两个地址A和B,针对这两个地址分析子项比对如何判断地址子项的比对结果。首先两个待比较的地址信息如下:
A为“广东省深圳市福田区中心四路1号嘉里建设广场1座”
B为“深圳市福田区中心四路嘉里建设广场”
首先,切分并识别地址A为“广东省/pyd 深圳市/pyd 福田区/pyd 中心四路/pydr 1号/pyd 嘉里建设广场/pydb 1座/pyd”;B为“深圳市/pyd 福田区/pyd 中心四路/pydr 嘉里建设广场/pydb”;
区划词子项比对:识别出的地址子项中前五级区划词,A地址的为:广东省/pyd 深圳市/pyd 福田区,B地址的为:深圳市/pyd 福田区/pyd,AB两个地址都可以获取到区划代码440304,根据区划的比对规则,区划编码完全相等判断地址中的地址区划子项相等,结果编码为D01;
街巷比对:识别出地址子项中的街巷和道路信息,AB地址的都为:中心四路,根据街巷和道路的比对规则,道路信息完全相同,街巷比对的结果为相等,结果编码为R01;
道路号比对:识别出地址子项中的街巷和道路信息中的道路号信息,A地址的道路号为:1,B地址没有道路号信息,根据街巷和道路号的比对规则,道路号信息为B单边缺失,道路号比对的结果为B单边缺失,结果编码为M04;
小区比对:识别出地址子项中的小区信息,A地址和B地址的小区都为缺失,故小区子项的比对结果为双边缺失,结果编码为G07;
大楼比对:识别出地址子项中的大楼信息,A地址和B地址的大楼信息都为“嘉里建设广场”,故,大楼的比对结果为相等,结果编码为B01;
标志物比对:识别出地址子项中的标志物信息,A地址的标志物为1座,B地址没有标注标志物信息,故,地址的标志物比对结果为B单边缺失,结果编码为W03;
方位词比对:识别出地址子项中的方位词信息,A地址和B地址都没有方位词信息,故,地址的方位词的比对结果为方位词双边缺失,结果编码为F05;
地址相似度比对:根据AB两个地址词计算出地址的相似度,得出连个地址的相似对为0.78,可以根据地址相似度比对的规则得出,地址基本相等,结果编码为S02;
计算地址的距离:通过调用百度提供的地址计算的API获取到两个地址的距离,AB两个地址计算的结果为1000,根据规则,算出的结果为相等,结果编码为J03;
最后利用比对的总规则,对所有的地址子项的计算结果进行计算,得出两个地址的计算结果为相等。
目前,市面上面没有专门针对地址比对的相关软件,地址比对的技术难点在于切分的地址子项的准确性和子项比对规则的合理性和完善性,分词准确性又受限于词库的完整性和对未登录地址词以及对特殊词切分结果的调整。而且用户在输入地址的时候,随意性太大,有可能一个标准地址在当地人的叫法上又不同,这个又增加了地址分词和比对的复杂度,降低了比对的准确性。
也就是说,现有技术中,对于地址信息细分分词和比对的准确性和效率都不高,有很多地名识别不准确,不能对地址信息中的各元素进行准确切分,无法进行有效的识别和比对。
因而现有技术还有待改进和提高。
发明内容
本发明要解决的技术问题在于,针对现有技术的不足,提供一种地址信息比对的处理方法、存储介质及终端设备,旨在实现对地址信息进行有效和正确切分,以及地址子项的正确识别,提供一套比对规则,实现地址比对,提升地址比对的准确性和效率。
为了解决上述技术问题,本发明所采用的技术方案如下:
一种地址信息比对的处理方法,其包括:
获取待对比的第一地址信息和第二地址信息,分别采用改进的隐马尔科夫模型对第一地址信息和第二地址信息进行分词,以得到第一地址信息的各第一地址子项以及第二地址信息的各第二地址子项;
按照预设规则分别将各第一地址子项与其对应的第二地址子项进行比较,并获取各比较结果对应的结果编码;
根据各结果编码计算第一地址信息和第二地址信息的相似度;
当所述相似度满足预设阈值时,判定第一地址信息与第二地址信息相同。
所述地址信息比对的处理方法,其中,所述获取待对比的第一地址信息和第二地址信息,分别采用改进的隐马尔科夫模型对第一地址信息和第二地址信息进行分词,以得到第一地址信息的各第一地址子项以及第二地址信息的各第二地址子项之前还包括:
预先定义不同地址子项的名称,搜集并补充地址子项词库。
所述地址信息比对的处理方法,其中,所述预先定义不同地址子项的名称,搜集并补充地址子项词库具体包括:
根据地址信息中出现的地址子项类型定义地址子项词库;
搜集地名词用于补充所述地址子项词库。
所述地址信息比对的处理方法,其中,所述获取待对比的第一地址信息和第二地址信息,分别采用改进的隐马尔科夫模型对第一地址信息和第二地址信息进行分词,以得到第一地址信息的各第一地址子项以及第二地址信息的各第二地址子项具体包括:
获取待对比的第一地址信息和第二地址信息;
通过改进的隐马尔科夫模型对所述第一地址信息和第二地址信息进行全切分,以生成第一词图和第二词图,其中,所述第一词图包括第一地址信息的各地址子项,所述第二词图包括第二地址信息的各地址子项。
所述地址信息比对的处理方法,其中,所述第一地址子项和第二地址子项具体包括:
省市(区|县)乡镇标准区划、道路(街巷)、道路号、小区、大楼、标志物、方位词以及地址距离。
所述地址信息比对的处理方法,其中,所述按照预设规则分别将各第一地址子项与其对应的第二地址子项进行比较,并获取各比较结果对应的结果编码之前还包括:
获取第一地址子项的第一地名词子项和第二地址子项的第二地名词子项;
对第一地名词子项和第二地名词子项进行识别,以得到对应的的第一区划编码和第二区划编码。
所述地址信息比对的处理方法,其中,所述按照预设规则分别将各第一地址子项与其对应的第二地址子项进行比较,并获取各比较结果对应的结果编码具体为:
采用可配置的规则表对各类地址子项的比对则进行配置,根据地址子项比对规则计算第一地址子项和第二地址子项的比对结果,每一条地址子项比对规则对应到具体的地址子项规则比对类中的具体方法,在方法中实现规则中的逻辑。
所述地址信息比对的处理方法,其还包括:
当检测到的地址子项不存在地址子项词库时,识别所述地址子项的类型,并手动将所述地址子项更新至所述地址子项词库。
一种计算机可读存储介质,其中,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上任意一项所述的地址信息比对的处理方法中的步骤。
一种终端设备,其中,包括:处理器和存储器;所述存储器上存储有可被所述处理器执行的计算机可读程序;所述处理器执行所述计算机可读程序时实现如上任意一项所述的地址信息比对的处理方法中的步骤。
有益效果:与现有技术相比,本发明提供了一种地址信息比对的处理方法、存储介质及终端设备,其包括:获取待对比的第一地址信息和第二地址信息,分别采用改进的隐马尔科夫模型对第一地址信息和第二地址信息进行分词,以得到第一地址信息的各第一地址子项以及第二地址信息的各第二地址子项;按照预设规则分别将各第一地址子项与其对应的第二地址子项进行比较,并获取各比较结果对应的结果编码;根据各结果编码计算第一地址信息和第二地址信息的相似度;当所述相似度满足预设阈值时,判定第一地址信息与第二地址信息相同。本发明实现了对地址进行有效和正确的切分,在切分之后的地址子项的基础上面进行比对,并且实现了对多个地址信息的比较,能准确的确定多个地址的比对结果和相似度。
附图说明
图1为本发明提供的地址信息比对的处理方法较佳实施例的流程图。
图2为本发明提供的地址信息比对的处理方法中步骤S10较佳实施例的流程图。
图3为本发明提供的地址信息比对的处理方法中步骤S100较佳实施例的流程图。
图4为本发明提供的终端设备较佳实施例的结构原理图。
具体实施方式
本发明提供一种地址信息比对的处理方法、存储介质及终端设备,为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。 应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
下面结合附图,通过对实施例的描述,对发明内容作进一步说明。
请参照图1,图1为本发明提供的一种地址信息比对的处理方法的较佳实施例的流程图。所述方法包括:
S10、获取待对比的第一地址信息和第二地址信息,分别采用改进的隐马尔科夫模型对第一地址信息和第二地址信息进行分词,以得到第一地址信息的各第一地址子项以及第二地址信息的各第二地址子项。
具体地,如图2所示,图2为本发明提供的地址信息比对的处理方法中步骤S10较佳实施例的流程图。其具体包括:
S11、获取待对比的第一地址信息和第二地址信息;
S12、通过改进的隐马尔科夫模型对所述第一地址信息和第二地址信息进行全切分,以生成第一词图和第二词图,其中,所述第一词图包括第一地址信息的各地址子项,所述第二词图包括第二地址信息的各地址子项。
具体地,发明基于改进的隐马尔可夫模型设计开发除了一套比较完善的中文分词系统,通过对现有的分词系统的改造和配置,其完全适用于地址分词,且能够保证地址子项拆分的正确性。进一步,本实施例中在进行信息比对时还包括以下步骤:
获取第一地址子项的第一地名词子项和第二地址子项的第二地名词子项;
对第一地名词子项和第二地名词子项进行识别,以得到对应的的第一区划编码和第二区划编码。
本实施例中,首先要标识出各地址信息的地名词所有可能的区划编码,再进行前后地名词区划编码的匹配,并可以根据地名后缀,消除地名变更的影响。本实施例中,对于区划编码不匹配的地名词,通过修改模型中条件概率的计算方式,减小其成词概率。以此来避免小地名词对分词结果的影响。
进一步,所述获取待对比的第一地址信息和第二地址信息,分别采用改进的隐马尔科夫模型对第一地址信息和第二地址信息进行分词,以得到第一地址信息的各第一地址子项以及第二地址信息的各第二地址子项之前还包括:
S100、预先定义不同地址子项的名称,搜集并补充地址子项词库。
具体地,如图3所示,图3为本发明提供的地址信息比对的处理方法中步骤S100较佳实施例的流程图。所述预先定义不同地址子项的名称,搜集并补充地址子项词库具体包括:
S101、根据地址信息中出现的地址子项类型定义地址子项词库;
S102、搜集地名词用于补充所述地址子项词库。
具体地,预先定义地址子项词库,例如:
名称 描述 示例
pyd 地址词 广东省/pyd,深圳市/pyd
pydg 小区 东海花园/pydg
pydb 大厦 阳光高尔夫大厦/pydb
pydr 道路、街巷 深南大道/pydr
pyf 方位词 西北角/pyf
其中,搜集并补充词库,主要是大量的地名词、道路、小区花园等。五级区划信息、一般的道路信息、小区大厦信息都可以直接从全国的地址信息库中获取到,直接可以加入到地址子项词库中。值得说明的是,本发明当检测到的地址子项不存在地址子项词库时,识别所述地址子项的类型,并手动将所述地址子项更新至所述地址子项词库。
S20、按照预设规则分别将各第一地址子项与其对应的第二地址子项进行比较,并获取各比较结果对应的结果编码。
本实施例中,所述地址子项具体包括:省市(区|县)乡镇标准区划、道路(街巷)、道路号、小区、大楼、标志物、方位词以及地址距离。其中,所述各地址子项的比对规则如下表所示:
区划比对:
编码 分类 判定结果 判定结果编码
101 区划完全相等 相等 D01
102 区划编码不同,区划词名称相等(这种情况多见于四级五级行政区划词) 相等 D01
103 区划编码不同,区划词名称相似(单边缺失弱地名词) 相等 D01
201 区划词A单边缺失 A单边缺失 D02
202 区划词B单边缺失 B单边缺失 D03
301 区划编码包含(A包含B) 区划编码A包含B D04
302 区划编码包含(B包含A) 区划编码B包含A D05
303 忽略区划编码,区划词字符串包含(A包含B),暂定忽略关键字,但是要同一个区划级别 字符串A包含B D06
304 忽略区划编码,区划词字符串包含(B包含A),暂定忽略关键字,但是要同一个区划级别 字符串B包含A D08
401 区划词拼音完全相等 相等 D01
501 区划词双边缺失 双边缺失 D09
901 区划词编码不缺失,省市区不等 不等 D90
902 区划词编码不缺失,省市区相等,四五级不等 不等 D90
街巷比对:
编码 分类 判定结果 判定结果编码
101 街巷完全相等 相等 R01
102 忽略关键字后完全相等 不等 R02
201 A、B有多个街巷词,至少一个完全相等 相似 R03
301 街巷信息A单边缺失 A单边缺失 R04
302 街巷信息B单边缺失 B单边缺失 R05
401 街巷信息双边缺失 双边缺失 R06
901 街巷信息不等 不等 R90
道路号比对:
编码 分类 判定结果 判定结果编码
101 道路信息完全相等 相等 M01
102 忽略号等关键字后完全相等 相等 M01
103 道路号提取数字后,数字完全相等 相等 M01
104 道路号提取数字后,数字左包含关系 相等 M01
201 A、B有多个道路号词,至少一个完全相等 相似 M02
301 道路号信息A单边缺失 A单边缺失 M03
302 道路号信息A单边缺失 B单边缺失 M04
401 街巷信息双边缺失 双边缺失 M05
901 街巷信息完全不等 不等 M90
小区比对:
编码 分类 判定结果 判定结果编码
109 小区个数不等,其中有某一项相似,如A地址有三个小区,B地址只有两个小区,A中的某一项与B中的某一项相似。 相等 G01
101 小区信息完全相等 相等 G01
102 小区名字完全相等,附属信息相似 相等 G01
103 小区名字完全相等,附属信息不等 相似 G02
104 小区名称相同,但关键字不匹配,如大楼小区等关键字没有匹配上,附属信息相等 相等 G01
105 小区名称相同,但关键字不匹配,如大楼小区等关键字没有匹配上,附属信息相似 相似 G02
106 小区名称相同,但关键字不匹配,如大楼,小区等关键字没有匹配上,附属信息不等 相似 G02
107 小区名称完全相等,附属信息A缺失 相似 G02
108 小区名称完全相等,附属信息B缺失 相似 G02
201 小区字符串信息包含(A包含B) A包含B G03
202 小区字符串信息包含(B包含A) B包含A G04
301 A地址小区单边缺失 A单边缺失 G05
302 B地址小区单边缺失 B单边缺失 G06
401 地址小区信息双边缺失 双边缺失 G07
901 小区信息不同 不等 G90
大楼比对:
编码 分类 判定结果 判定结果编码
109 大楼个数不等,其中有某一项相似,如A地址有三个大楼信息,B地址只有两个,A中的某一项与B中的某一项相似。 相等 B01
101 大楼信息完全相等 相等 B01
102 大楼名字完全相等,附属信息相似 相等 B01
103 大楼名字完全相等,附属信息不等 相似 B02
104 大楼名称相同,但关键字不匹配,如大楼大楼等关键字没有匹配上,附属信息相等 相等 B01
105 大楼名称相同,但关键字不匹配,如大楼小区等关键字没有匹配上,附属信息相似 相似 B02
106 大楼名称相同,但关键字不匹配,如大楼,小区等关键字没有匹配上,附属信息不等 相似 B02
107 大楼名称完全相等,附属信息A缺失 相似 B02
108 大楼名称完全相等,附属信息B缺失 相似 B02
201 大楼字符串信息包含(A包含B) A包含B B03
202 大楼字符串信息包含(B包含A) B包含A B04
301 A地址的大楼信息单边缺失 A单边缺失 B05
302 B地址的大楼信息单边缺失 B单边缺失 B06
401 地址的大楼信息双边缺失 双边缺失 B07
901 地址的大楼信息不等 不等 B90
标志物比对:
编码 分类 判定结果 判定结果编码
101 标志物完全相等 相等 W01
201 忽略关键字后完全相等 相等 W01
301 标志物信息A单边缺失 A单边缺失 W02
302 标志物信息B单边缺失 B单边缺失 W03
401 相似(熵值服务或字符串比对) 相等 W01
501 标志物信息双边缺失 双边缺失 W04
901 标志物信息不等 不等 W90
方位词比对:
编码 分类 判定结果 判定结果编码
101 方位词完全相等 相等 F01
201 方位词近义相等 相等 F01
301 方位词信息A单边缺失 A单边缺失 F03
302 方位词信息B单边缺失 B单边缺失 F04
401 方位词信息双边缺失 双边缺失 F05
子地址相似度比对:
编码 分类 判定结果 判定结果编码
101 自地址相似度大于等于0.8 相等 S01
102 自地址相似度大于等于0.5,小于0.8 基本相等 S01
103 自地址相似度小于0.5 不相等 S03
地址距离比对:
编码 分类 判定结果 判定结果编码
101 两地地址距离小于等于1000米 相等 J01
102 两地距离大于1000米,小于等于2000米 基本相等 J01
103 两地距离大于2000米 不相等 J03
本实施例中,以“广东省深圳市福田区中心4路1号嘉里建设广场1座”和“深圳市福田区中心4路嘉里建设广场”两个地址为例针对这两个地址分析子项比对如何判断地址子项的比对结果。首先两个待比较的地址信息如下:
A为“广东省深圳市福田区中心4路1号嘉里建设广场1座”
B为“深圳市福田区中心4路嘉里建设广场”
首先,切分并识别地址A为“广东省/pyd 深圳市/pyd 福田区/pyd 中心四路/pydr 1号/pyd 嘉里建设广场/pydb 1座/pyd”;B为“深圳市/pyd 福田区/pyd 中心四路/pydr 嘉里建设广场/pydb”;
区划词子项比对:识别出的地址子项中前五级区划词,A地址的为:广东省/pyd 深圳市/pyd 福田区,B地址的为:深圳市/pyd 福田区/pyd,AB两个地址都可以获取到区划代码440304,根据区划的比对规则,区划编码完全相等判断地址中的地址区划子项相等,结果编码为D01;
街巷比对:识别出地址子项中的街巷和道路信息,AB地址的都为:中心四路,根据街巷和道路的比对规则,道路信息完全相同,街巷比对的结果为相等,结果编码为R01;
道路号比对:识别出地址子项中的街巷和道路信息中的道路号信息,A地址的道路号为:1,B地址没有道路号信息,根据街巷和道路号的比对规则,道路号信息为B单边缺失,道路号比对的结果为B单边缺失,结果编码为M04;
小区比对:识别出地址子项中的小区信息,A地址和B地址的小区都为缺失,故小区子项的比对结果为双边缺失,结果编码为G07;
大楼比对:识别出地址子项中的大楼信息,A地址和B地址的大楼信息都为“嘉里建设广场”,故,大楼的比对结果为相等,结果编码为B01;
标志物比对:识别出地址子项中的标志物信息,A地址的标志物为1座,B地址没有标注标志物信息,故,地址的标志物比对结果为B单边缺失,结果编码为W03;
方位词比对:识别出地址子项中的方位词信息,A地址和B地址都没有方位词信息,故,地址的方位词的比对结果为方位词双边缺失,结果编码为F05;
地址相似度比对:根据AB两个地址词计算出地址的相似度,得出连个地址的相似对为0.78,可以根据地址相似度比对的规则得出,地址基本相等,结果编码为S02;
计算地址的距离:通过调用百度提供的地址计算的API获取到两个地址的距离,AB两个地址计算的结果为1000,根据规则,算出的结果为相等,结果编码为J03。
S30、根据各结果编码计算第一地址信息和第二地址信息的相似度。
S40、当所述相似度满足预设阈值时,判定第一地址信息与第二地址信息相同。
具体地,在上述对地址信息的每个地址子项对比后,最后再利用比对的总规则(可配置的规则表),对所有的地址子项的计算结果进行计算,得出两个地址的计算结果为相等,其中所述总规则具体如下表所示:
行政区划:
编码 规则描述 区划(D) 区划子项比对结果编码
A0001 区划不等,比对结果不等 不相等 D90
A0002 区划包含,其他缺失,比对结果相等。 包含 D04;D05
A0003 相等和双边缺失的组合,比对结果相等 相等,双边缺失,区划包含 D01;D09;D04;D05
编码 规则描述 街巷(R) 街巷编码 街巷门牌 街巷门牌编码
A0001 区划不等,比对结果不等 不相等
A0002 区划包含,其他缺失,比对结果相等。 双边缺失 R06 双边缺失 M06
A0003 相等和双边缺失的组合,比对结果相等 相等,双边缺失 R01;R06 相等,双边缺失 M01;M06
编码 规则描述 小区(R) 比对编码 小区号 比对编码
A0001 区划不等,比对结果不等 不相等
A0002 区划包含,其他缺失,比对结果相等。 双边缺失 G06 双边缺失 G05
A0003 相等和双边缺失的组合,比对结果相等 相等,双边缺失 G01;G06 相等,双边缺失 G01;G05
编码 规则描述 大楼(R) 比对编码 大楼号 比对编码
A0001 区划不等,比对结果不等 不相等
A0002 区划包含,其他缺失,比对结果相等。 双边缺失 B06 双边缺失 B06
A0003 相等和双边缺失的组合,比对结果相等 相等,双边缺失 B01;B06 相等,双边缺失 B01;B06
编码 规则描述 标志物(R) 比对编码 方位词 比对编码
A0001 区划不等,比对结果不等 不相等
A0002 区划包含,其他缺失,比对结果相等。 双边缺失 W04 双边缺失 F05
A0003 相等和双边缺失的组合,比对结果相等 相等,双边缺失 W01;W04 相等,双边缺失 F01;F05
编码 规则描述 比对结果
A0001 区划不等,比对结果不等 不相等
A0002 区划包含,其他缺失,比对结果相等。 不相等
A0003 相等和双边缺失的组合,比对结果相等 相等
本发明通过定义地址子项类型,构建词库;通过改进的隐马尔科夫模型对地址信息进行分词,并标出地址子项、以及区划编码;对未登录地名词进行识别;通过一套地址子项的比对规则和一套总的比对规则对地址的内容进行比较,得出地址的比对结果,总比对规则的可配置化可以方便的满足不同的客户对于定制不同比对规则的需求;识别出未登录的地址词,通过自动和人工标注的方式加入到词库中。通过本发明的比对方法,可实现对地址信息的切分和比对结果正确性达到99%以上。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述实施例所述的地址信息比对的处理方法中的步骤。
本发明还提供了一种终端设备,如图4所示,其包括至少一个处理器(processor)20;显示屏21;以及存储器(memory)22,还可以包括通信接口(Communications Interface)23和总线24。其中,处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令,以执行上述实施例中的方法。
此外,上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
存储器22作为一种计算机可读存储介质,可设置为存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令或模块。处理器30通过运行存储在存储器22中的软件程序、指令或模块,从而执行功能应用以及数据处理,即实现上述实施例中的方法。
存储器22可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器。例如,U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
此外,上述存储介质以及移动终端中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明,在这里就不再一一陈述。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种地址信息比对的处理方法,其特征在于,其包括:
获取待对比的第一地址信息和第二地址信息,分别采用改进的隐马尔科夫模型对第一地址信息和第二地址信息进行分词,以得到第一地址信息的各第一地址子项以及第二地址信息的各第二地址子项;
按照预设规则分别将各第一地址子项与其对应的第二地址子项进行比较,并获取各比较结果对应的结果编码;
根据各结果编码计算第一地址信息和第二地址信息的相似度;
当所述相似度满足预设阈值时,判定第一地址信息与第二地址信息相同。
2.根据权利要求1所述地址信息比对的处理方法,其特征在于,所述获取待对比的第一地址信息和第二地址信息,分别采用改进的隐马尔科夫模型对第一地址信息和第二地址信息进行分词,以得到第一地址信息的各第一地址子项以及第二地址信息的各第二地址子项之前还包括:
预先定义不同地址子项的名称,搜集并补充地址子项词库。
3.根据权利要求2所述地址信息比对的处理方法,其特征在于,所述预先定义不同地址子项的名称,搜集并补充地址子项词库具体包括:
根据地址信息中出现的地址子项类型定义地址子项词库;
搜集地名词用于补充所述地址子项词库。
4.根据权利要求1所述地址信息比对的处理方法,其特征在于,所述获取待对比的第一地址信息和第二地址信息,分别采用改进的隐马尔科夫模型对第一地址信息和第二地址信息进行分词,以得到第一地址信息的各第一地址子项以及第二地址信息的各第二地址子项具体包括:
获取待对比的第一地址信息和第二地址信息;
通过改进的隐马尔科夫模型对所述第一地址信息和第二地址信息进行全切分,以生成第一词图和第二词图,其中,所述第一词图包括第一地址信息的各地址子项,所述第二词图包括第二地址信息的各地址子项。
5.根据权利要求1所述地址信息比对的处理方法,其特征在于,所述第一地址子项和第二地址子项具体包括:
省市(区|县)乡镇标准区划、道路(街巷)、道路号、小区、大楼、标志物、方位词以及地址距离。
6.根据权利要求1所述地址信息比对的处理方法,其特征在于,所述按照预设规则分别将各第一地址子项与其对应的第二地址子项进行比较,并获取各比较结果对应的结果编码之前还包括:
获取第一地址子项的第一地名词子项和第二地址子项的第二地名词子项;
对第一地名词子项和第二地名词子项进行识别,以得到对应的的第一区划编码和第二区划编码。
7.根据权利要求5所述地址信息比对的处理方法,其特征在于,所述按照预设规则分别将各第一地址子项与其对应的第二地址子项进行比较,并获取各比较结果对应的结果编码具体为:
采用可配置的规则表对各类地址子项的比对则进行配置,根据地址子项比对规则计算第一地址子项和第二地址子项的比对结果,每一条地址子项比对规则对应到具体的地址子项规则比对类中的具体方法,在方法中实现规则中的逻辑。
8.根据权利要求2所述地址信息比对的处理方法,其特征在于,其还包括:
当检测到的地址子项不存在地址子项词库时,识别所述地址子项的类型,并手动将所述地址子项更新至所述地址子项词库。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1~8任意一项所述的地址信息比对的处理方法中的步骤。
10.一种终端设备,其特征在于,包括:处理器和存储器;所述存储器上存储有可被所述处理器执行的计算机可读程序;所述处理器执行所述计算机可读程序时实现如权利要求1~8任意一项所述的地址信息比对的处理方法中的步骤。
CN201910482755.2A 2019-06-04 2019-06-04 一种地址信息比对的处理方法、存储介质及终端设备 Pending CN110188184A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910482755.2A CN110188184A (zh) 2019-06-04 2019-06-04 一种地址信息比对的处理方法、存储介质及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910482755.2A CN110188184A (zh) 2019-06-04 2019-06-04 一种地址信息比对的处理方法、存储介质及终端设备

Publications (1)

Publication Number Publication Date
CN110188184A true CN110188184A (zh) 2019-08-30

Family

ID=67720311

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910482755.2A Pending CN110188184A (zh) 2019-06-04 2019-06-04 一种地址信息比对的处理方法、存储介质及终端设备

Country Status (1)

Country Link
CN (1) CN110188184A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110688851A (zh) * 2019-09-26 2020-01-14 税友软件集团股份有限公司 一种提取地址文本的关键信息的方法、装置及介质
CN110990651A (zh) * 2019-12-05 2020-04-10 同盾控股有限公司 地址数据处理方法、装置、电子设备及计算机可读介质
CN112581252A (zh) * 2020-12-03 2021-03-30 信用生活(广州)智能科技有限公司 融合多维相似度与规则集合的地址模糊匹配方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6985926B1 (en) * 2001-08-29 2006-01-10 I-Behavior, Inc. Method and system for matching and consolidating addresses in a database
CN106096024A (zh) * 2016-06-24 2016-11-09 北京京东尚科信息技术有限公司 地址相似度的评估方法和评估装置
CN107239442A (zh) * 2017-05-09 2017-10-10 北京京东金融科技控股有限公司 一种计算地址相似度的方法和装置
CN108595435A (zh) * 2018-05-03 2018-09-28 鹏元征信有限公司 一种机构名称识别处理方法、智能终端及存储介质
CN108804398A (zh) * 2017-05-03 2018-11-13 阿里巴巴集团控股有限公司 地址文本的相似度计算方法及装置
CN109284358A (zh) * 2018-09-05 2019-01-29 普信恒业科技发展(北京)有限公司 一种中文地址名词分层级的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6985926B1 (en) * 2001-08-29 2006-01-10 I-Behavior, Inc. Method and system for matching and consolidating addresses in a database
CN106096024A (zh) * 2016-06-24 2016-11-09 北京京东尚科信息技术有限公司 地址相似度的评估方法和评估装置
CN108804398A (zh) * 2017-05-03 2018-11-13 阿里巴巴集团控股有限公司 地址文本的相似度计算方法及装置
CN107239442A (zh) * 2017-05-09 2017-10-10 北京京东金融科技控股有限公司 一种计算地址相似度的方法和装置
CN108595435A (zh) * 2018-05-03 2018-09-28 鹏元征信有限公司 一种机构名称识别处理方法、智能终端及存储介质
CN109284358A (zh) * 2018-09-05 2019-01-29 普信恒业科技发展(北京)有限公司 一种中文地址名词分层级的方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110688851A (zh) * 2019-09-26 2020-01-14 税友软件集团股份有限公司 一种提取地址文本的关键信息的方法、装置及介质
CN110990651A (zh) * 2019-12-05 2020-04-10 同盾控股有限公司 地址数据处理方法、装置、电子设备及计算机可读介质
CN110990651B (zh) * 2019-12-05 2021-06-04 同盾控股有限公司 地址数据处理方法、装置、电子设备及计算机可读介质
CN112581252A (zh) * 2020-12-03 2021-03-30 信用生活(广州)智能科技有限公司 融合多维相似度与规则集合的地址模糊匹配方法及系统

Similar Documents

Publication Publication Date Title
CN110188184A (zh) 一种地址信息比对的处理方法、存储介质及终端设备
US11734508B2 (en) Method and system for expansion to everyday language by using word vectorization technique based on social network content
CN109190044A (zh) 个性化推荐方法、装置、服务器和介质
WO2020168851A1 (zh) 行为识别
Zhang et al. Extracting resource terms for sentiment analysis
CN110110213B (zh) 挖掘用户职业的方法、装置、计算机可读存储介质和终端设备
CN108595435A (zh) 一种机构名称识别处理方法、智能终端及存储介质
CN108446270B (zh) 电子装置、系统敏感内容的预警方法及存储介质
US10282467B2 (en) Mining product aspects from opinion text
CN106844792B (zh) 一种社交关系的原生信息指定受众广告实现方法及系统
Singh et al. Identifying complaints based on semi-supervised mincuts
CN107301248A (zh) 文本的词向量构建方法和装置、计算机设备、存储介质
CN110909540B (zh) 短信垃圾新词识别方法、装置及电子设备
Humphreys et al. Superstition and real estate prices: Transaction-level evidence from the US housing market
CN112559631A (zh) 分布式图数据库的数据处理方法、装置以及电子设备
CN112989235A (zh) 基于知识库的内链构建方法、装置、设备和存储介质
CN103377186B (zh) 基于命名实体识别的Web服务整合装置、方法以及设备
CN107729944B (zh) 一种低俗图片的识别方法、装置、服务器及存储介质
US10769372B2 (en) Synonymy tag obtaining method and apparatus, device and computer readable storage medium
CN111475736A (zh) 社区挖掘的方法、装置和服务器
CN110598122B (zh) 社交群体挖掘方法、装置、设备及存储介质
US10831795B2 (en) Method and system for providing target information using application list
CN114463033A (zh) 一种数据筛查方法、装置、电子设备、存储介质
CN103514167B (zh) 数据处理方法和设备
CN112616074B (zh) 目标团体识别方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190830