CN105224610A - 一种地址比较的方法及设备 - Google Patents

一种地址比较的方法及设备 Download PDF

Info

Publication number
CN105224610A
CN105224610A CN201510566384.8A CN201510566384A CN105224610A CN 105224610 A CN105224610 A CN 105224610A CN 201510566384 A CN201510566384 A CN 201510566384A CN 105224610 A CN105224610 A CN 105224610A
Authority
CN
China
Prior art keywords
address
address element
original
address information
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510566384.8A
Other languages
English (en)
Inventor
郑佳栋
王生
王伟
李欣
汪利宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Founder International Co Ltd
Founder International Beijing Co Ltd
Original Assignee
Founder International Co Ltd
Founder International Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Founder International Co Ltd, Founder International Beijing Co Ltd filed Critical Founder International Co Ltd
Priority to CN201510566384.8A priority Critical patent/CN105224610A/zh
Publication of CN105224610A publication Critical patent/CN105224610A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种地址比较的方法及设备,以解决现有的地址比较效率低且准确性低的问题。该方法为,分别对两条原始地址信息进行分词,得到各自的分词结果;分别基于获得的分词结果,确定相应的各地址元素类型,并在预设的地址元素组合规则库中,分别筛选出符合每一条原始地址信息的各地址元素类型的地址元素组合规则;基于获得的两条地址元素组合规则,提取出一条公共地址元素组合规则;基于公共地址元素组合规则对两条原始地址信息进行关键信息提取,得到两条目标地址信息,对该两条目标地址信息进行地址元素匹配,得到相似度比较结果,这样,在对地址一致性进行比较时的比较速度快、比较结果准确度高,还能够确定待比较地址双方之间的范围差异。

Description

一种地址比较的方法及设备
技术领域
本发明涉及地理信息技术领域,尤其涉及一种地址比较的方法及设备。
背景技术
在民政部门、公安部门、房管局等国家单位的备案档案中,存在有大量的手工填写的地址信息。这些地址信息包括身份证中的地址信息、户口本中的地址信息、公司的地址信息、房屋产权登记的地址信息等。由于填写地址信息时,不同填写人遵循的填写方法不尽相同,因此对于同一地址,可能存在多种不同的书写表述方式。
在房屋管理、人口管理等多种业务中,需要将这些书写不一致的地址,根据是否描述的是同一地址,进行判定,将所有填写地址映射到标准的地址库中,或者为其进行统一的编号或者规范为同一种写法。
现有技术中针对地址进行比较方法包括有手工比较纠正方法、空间位置比较方法和地址匹配方法,其中,手工比较纠正方法方法需要人为逐条比对,存在工作量大,准确度低的缺点;空间位置比较方法需要的前期工作比较大,且实施起来比较困难,对于精确到户的地址一致性准确度低;地址匹配方法是通过地址匹配技术,进行地址关联的方法,通过地址匹配技术,进行地址关联,首先需要建立一个标准地址库,然后将待关联地址,与标准地址库中最相近的地址进行关联。地址匹配技术,一般使用文本字符串相近度等算法实现此功能。这个方法应用广泛,但是其匹配的结果是按照文本相似性计算的,通常具有很高模糊度,而非表述是否一致性的计算,因此,部分地址关联的不正确,存在准确度低下的问题,因此,亟需一种快速准确的地址比较方法。
发明内容
本发明的目的是提供一种地址比较的方法及设备,以解决现有的地址比较效率低且准确性低的问题。
本发明的目的是通过以下技术方案实现的:
一种地址比较的方法,包括:
分别对两条原始地址信息进行分词,得到各自对应的包括多个地址元素的分词结果;
分别基于获得的每一条原始地址信息的分词结果,确定相应的原始地址信息的各地址元素类型,并在预设的地址元素组合规则库中,分别筛选出符合所述每一条原始地址信息的各地址元素类型的地址元素组合规则;
基于获得的两条原始地址信息各自对应的地址元素组合规则,提取出一条公共地址元素组合规则;
基于所述公共地址元素组合规则对所述两条原始地址信息进行关键信息提取,得到两条目标地址信息,并对所述两条目标地址信息进行地址元素匹配,得到两条原始地址信息的相似度比较结果。
这样,在对地址一致性进行比较时,在提取的公共地址元素组合规则中,通过地址元素类型的逐级比较能够减少缺失部分可选地址元素类型时产生的文本相似度差异,而且比较速度快、比较结果准确度高,还能够确定待比较地址双方之间的范围差异。
可选的,分别对两条原始地址信息进行分词,得到各自对应的包括多个地址元素的分词结果,具体包括:
按照预设的地址分词库分别对两条原始地址信息进行分词,得到各自对应的包括多个地址元素的分词结果,所述地址分词库中存储有多个标准地址元素。
可选的,分别基于获得的每一条原始地址信息的分词结果,确定相应的原始地址信息的各地址元素类型,具体包括:
分别基于获得的每一条原始地址信息的分词结果,分别对每一条原始地址信息中的各地址元素进行分析,确定每一条原始地址信息中的各地址元素的地址元素类型。
可选的,基于获得的两条原始地址信息各自对应的地址元素组合规则,提取出一条公共地址元素组合规则,具体包括:
对获得的两条原始地址信息各自对应的地址元素组合规则进行地址元素类型分析,将两条原始地址信息各自对应的地址元素组合规则中都存在的地址元素类型提取出来,得到一条公共地址元素组合规则,所述地址元素组合规则为多个地址元素类型的组合。
可选的,基于所述公共地址元素组合规则对所述两条原始地址信息进行关键信息提取,得到两条目标地址信息,并对所述两条目标地址信息进行地址元素匹配,得到两条原始地址信息的相似度比较结果,具体包括:
基于所述公共地址元素组合规则中的地址元素类型,对所述两条原始地址信息进行关键信息提取,得到两条目标地址信息;
对所述两条目标地址信息中相同地址元素类型对应的地址元素进行匹配,得到每一条地址元素类型的匹配度,对每一条地址元素类型的匹配度进行加权求和得到两条原始地址信息的相似度比较结果。
一种地址比较的设备,包括:
分词模块,用于分别对两条原始地址信息进行分词,得到各自对应的包括多个地址元素的分词结果;
筛选模块,用于分别基于获得的每一条原始地址信息的分词结果,确定相应的原始地址信息的各地址元素类型,并在预设的地址元素组合规则库中,分别筛选出符合所述每一条原始地址信息的各地址元素类型的地址元素组合规则;
提取模块,用于基于获得的两条原始地址信息各自对应的地址元素组合规则,提取出一条公共地址元素组合规则;
匹配模块,用于基于所述公共地址元素组合规则对所述两条原始地址信息进行关键信息提取,得到两条目标地址信息,并对所述两条目标地址信息进行地址元素匹配,得到两条原始地址信息的相似度比较结果。
这样,在对地址一致性进行比较时,在提取的公共地址元素组合规则中,通过地址元素类型的逐级比较能够减少缺失部分可选地址元素类型时产生的文本相似度差异,而且比较速度快、比较结果准确度高,还能够确定待比较地址双方之间的范围差异。
可选的,分别对两条原始地址信息进行分词,得到各自对应的包括多个地址元素的分词结果时,所述分词模块具体用于:
按照预设的地址分词库分别对两条原始地址信息进行分词,得到各自对应的包括多个地址元素的分词结果,所述地址分词库中存储有多个标准地址元素。
可选的,分别基于获得的每一条原始地址信息的分词结果,确定相应的原始地址信息的各地址元素类型时,所述筛选模块具体用于:
分别基于获得的每一条原始地址信息的分词结果,分别对每一条原始地址信息中的各地址元素进行分析,确定每一条原始地址信息中的各地址元素的地址元素类型。
可选的,基于获得的两条原始地址信息各自对应的地址元素组合规则,提取出一条公共地址元素组合规则时,所述提取模块具体用于:
对获得的两条原始地址信息各自对应的地址元素组合规则进行地址元素类型分析,将两条原始地址信息各自对应的地址元素组合规则中都存在的地址元素类型提取出来,得到一条公共地址元素组合规则,所述地址元素组合规则为多个地址元素类型的组合。
可选的,基于所述公共地址元素组合规则对所述两条原始地址信息进行关键信息提取,得到两条目标地址信息,并对所述两条目标地址信息进行地址元素匹配,得到两条原始地址信息的相似度比较结果时,所述匹配模块具体用于:
基于所述公共地址元素组合规则中的地址元素类型,对所述两条原始地址信息进行关键信息提取,得到两条目标地址信息;
对所述两条目标地址信息中相同地址元素类型对应的地址元素进行匹配,得到每一条地址元素类型的匹配度,对每一条地址元素类型的匹配度进行加权求和得到两条原始地址信息的相似度比较结果。
附图说明
图1为本发明实施例中地址比较方法流程示意图;
图2为本发明实施例中地址比较设备结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,并不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
由于现有技术中进行地址一致性鉴别时,一般通过使用文本字符串相近度等算法来实现,但是地址一致性匹配的结果通常具有很高模糊度,造成部分地址关联不正确,因此,本发明实施例中提供一种地址比较方法,该方法主要通过将原始地址信息划分为多个地址元素,对每个地址元素,划分其地址元素类型,基于原始地址信息的各地址元素类型确定各原始地址信息所遵循的地址元素组合规则,对各原始地址信息所遵循的地址元素组合规则进行分析,提取公共地址元素组合规则,基于公共地址元素组合规则对原始地址信息进行关键信息提取,得到目标地址信息,对目标地址信息进行地址元素的逐个比较,实现从大范围到小范围的逐级比较,从而最终确定两个地址是否一致,以及确定他们之间的位置差异在何种范围内。
参阅图1所示,本发明实施例中提供一种地址比较的方法,具体流程如下所示:
步骤100:分别对两条原始地址信息进行分词,得到各自对应的包括多个地址元素的分词结果。
具体的,分别对两条原始地址信息进行分词,得到各自对应的包括多个地址元素的分词结果,具体过程为:按照预设的地址分词库分别对两条原始地址信息进行分词,得到各自对应的包括多个地址元素的分词结果,地址分词库中存储有多个标准地址元素。
其中,地址元素一般是指最小拆分的地址单元,例如,北京市,海淀区,致真大厦、学知桥等具有较强地理属性的词条。
例如,输入的两条原始地址信息分别为A地址和B地址,其中A地址为北京市西城区1号,B地址为北京市海淀区知春嘉园小区201。按照预设的地址分词库,将A地址拆分为“北京市”、“西城区”和“1号”三个地址元素,将B地址拆分为“北京市”、“海淀区”、“知春嘉园小区”和“201”四个地址元素。
步骤101:分别基于获得的每一条原始地址信息的分词结果,确定相应的原始地址信息的各地址元素类型,并在预设的地址元素组合规则库中,分别筛选出符合每一条原始地址信息的各地址元素类型的地址元素组合规则。
具体的,分别基于获得的每一条原始地址信息的分词结果,确定相应的原始地址信息的各地址元素类型,具体过程为:分别基于获得的每一条原始地址信息的分词结果,分别对每一条原始地址信息中的各地址元素进行分析,确定每一条原始地址信息中的各地址元素的地址元素类型。
例如,通过分析A地址拆分的“北京市”、“西城区”和“1号”三个地址元素,各地址元素的后缀,辨别各地址元素的地址元素类型,将北京市西城区1号,转换为“市”-“区”-“编号”的地址元素类型结构,同理,将北京市海淀区知春嘉园小区201转换为“市”-“区”-“小区”-“编号”的各地址元素类型结构。接着,在预设的地址元素组合规则库中,筛选出符合A地址的地址元素类型的地址元素组合规则和符合B地址的地址元素类型的地址元素组合规则。预设的地址元素组合规则库是根据当地地址构成规律设定的多条规则中。
例如,预先配置的多条地址元素组合规则如下所示:
规则1:“市”->“区”->“街道”->“编号”;
规则2:“市”->“区”->“小区”->“编号”;
规则3:“市”->“区”->“编号”;
由于A地址的地址元素类型结构为:“市”->“区”->“编号”,该地址元素类型结构符合地址元素组合规则3,B地址的地址元素类型结构为:“市”-“区”-“小区”-“编号”,该地址元素类型结构符合地址元素组合规则2。
步骤102:基于获得的两条原始地址信息各自对应的地址元素组合规则,提取出一条公共地址元素组合规则。
具体的,基于获得的两条原始地址信息各自对应的地址元素组合规则,提取出一条公共地址元素组合规则,具体过程为:
对获得的两条原始地址信息各自对应的地址元素组合规则进行地址元素类型分析,将两条原始地址信息各自对应的地址元素组合规则中都存在的地址元素类型提取出来,得到一条公共地址元素组合规则,该地址元素组合规则为多个地址元素类型的组合。
例如,针对A地址的地址元素组合规则3和B地址的地址元素组合规则2,进行地址元素类型分析,将地址元素组合规则3和地址元素组合规则2中都存在的地址元素类型提取出来,得到一条公共地址元素组合规则,这里的公共地址元素组合规则为“市”-“区”-“小区”。
步骤103:基于公共地址元素组合规则对上述两条原始地址信息进行关键信息提取,得到两条目标地址信息,并对两条目标地址信息进行地址元素匹配,得到两条原始地址信息的相似度比较结果。
具体的,基于公共地址元素组合规则对所述两条原始地址信息进行关键信息提取,得到两条目标地址信息,并对两条目标地址信息进行地址元素匹配,得到两条原始地址信息的相似度比较结果,具体执行:
基于公共地址元素组合规则中的地址元素类型,对两条原始地址信息进行关键信息提取,得到两条目标地址信息;
对两条目标地址信息中相同地址元素类型对应的地址元素进行匹配,得到每一条地址元素类型的匹配度,对每一条地址元素类型的匹配度进行加权求和得到两条原始地址信息的相似度比较结果。
例如,基于公共地址元素组合规则“市”-“区”,对A地址和B地址进行关键信息提取,得到两条目标地址信息,分别为A’和B’,其中:A’为北京市西城区,B’为北京市海淀区。具体可以通过表1进行表示。
表1
公共地址元素组合规则
A’ 北京市 西城区
B’ 北京市 海淀区
针对公共地址元素组合规则中的每一个地址元素类型,比较两条目标地址A’和B’所包含的对应此地址元素类型的地址元素的信息,形成“不同”,“相同”,“相似”三种比较结果,匹配度分别给予0,X,1三种结果,其中X可以根据实际情况,设置为大于0且小于1的数值。
两个地址元素,专名相同,通名的修饰词不同的,匹配度按0.75配置。
两个地址元素,专名相同,通名不同的,匹配度按0.5配置。
两个地址元素,通名相同,专名的修饰词不同的,匹配度按0.5配置。
两个地址元素,专名相同,通名也相同的,匹配度按1.0配置。
其他情况,匹配度按照0.0配置,
上述中所说地址元素的专名指的是地址元素的具体名称,通名指的是地址元素的类型,例如“北京市”的专名为“北京”,通名为“市”。
修饰词为:新、东、西、南、北、上、下、左、右、前、后、斜等等。
最后将每个地址元素类型的匹配度,通过加权求和,获得两个原始地址信息的相似度比较结果。其加权算法如下:
RESULT=Σ(δi)(si),其中,δi为第i个元素的权值,si为第i个地址元素类型的匹配度。
对于A’地址和B’地址,由于只有地址元素类型为“市”的地址元素匹配成功,其中,预设的地址元素类型为“市”的权重为0.2,因此A地址和B地址的相似度为0.2,由于规定的若两个地址的相似度低于0.8,则认为两个地址不具有很强的一致性,且两个地址的距离较远。
基于上述方法实施例,参阅图2所示,本发明实施例还提供一种地址比较的设备,包括:分词模块20、筛选模块21、提取模块22和匹配模块23,其中:
分词模块20,用于分别对两条原始地址信息进行分词,得到各自对应的包括多个地址元素的分词结果;
筛选模块21,用于分别基于获得的每一条原始地址信息的分词结果,确定相应的原始地址信息的各地址元素类型,并在预设的地址元素组合规则库中,分别筛选出符合所述每一条原始地址信息的各地址元素类型的地址元素组合规则;
提取模块22,用于基于获得的两条原始地址信息各自对应的地址元素组合规则,提取出一条公共地址元素组合规则;
匹配模块23,用于基于所述公共地址元素组合规则对所述两条原始地址信息进行关键信息提取,得到两条目标地址信息,并对所述两条目标地址信息进行地址元素匹配,得到两条原始地址信息的相似度比较结果。
可选的,分别对两条原始地址信息进行分词,得到各自对应的包括多个地址元素的分词结果时,所述分词模块20具体用于:
按照预设的地址分词库分别对两条原始地址信息进行分词,得到各自对应的包括多个地址元素的分词结果,所述地址分词库中存储有多个标准地址元素。
可选的,分别基于获得的每一条原始地址信息的分词结果,确定相应的原始地址信息的各地址元素类型时,所述筛选模块21具体用于:
分别基于获得的每一条原始地址信息的分词结果,分别对每一条原始地址信息中的各地址元素进行分析,确定每一条原始地址信息中的各地址元素的地址元素类型。
可选的,基于获得的两条原始地址信息各自对应的地址元素组合规则,提取出一条公共地址元素组合规则时,所述提取模块22具体用于:
对获得的两条原始地址信息各自对应的地址元素组合规则进行地址元素类型分析,将两条原始地址信息各自对应的地址元素组合规则中都存在的地址元素类型提取出来,得到一条公共地址元素组合规则,所述地址元素组合规则为多个地址元素类型的组合。
可选的,基于所述公共地址元素组合规则对所述两条原始地址信息进行关键信息提取,得到两条目标地址信息,并对所述两条目标地址信息进行地址元素匹配,得到两条原始地址信息的相似度比较结果时,所述匹配模块23具体用于:
基于所述公共地址元素组合规则中的地址元素类型,对所述两条原始地址信息进行关键信息提取,得到两条目标地址信息;
对所述两条目标地址信息中相同地址元素类型对应的地址元素进行匹配,得到每一条地址元素类型的匹配度,对每一条地址元素类型的匹配度进行加权求和得到两条原始地址信息的相似度比较结果。
综上所述,本发明实施例中,分别对两条原始地址信息进行分词,得到各自对应的包括多个地址元素的分词结果;分别基于获得的每一条原始地址信息的分词结果,确定相应的原始地址信息的各地址元素类型,并在预设的地址元素组合规则库中,分别筛选出符合所述每一条原始地址信息的各地址元素类型的地址元素组合规则;基于获得的两条原始地址信息各自对应的地址元素组合规则,提取出一条公共地址元素组合规则;基于提取的公共地址元素组合规则对两条原始地址信息进行关键信息提取,得到两条目标地址信息,并对该两条目标地址信息进行地址元素匹配,得到两条原始地址信息的相似度比较结果,这样,在对地址一致性进行比较时,在提取的公共地址元素组合规则中,通过地址元素类型的逐级比较能够减少缺失部分可选地址元素类型时产生的文本相似度差异,而且比较速度快、比较结果准确度高,还能够确定待比较地址双方之间的范围差异。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种地址比较的方法,其特征在于,包括:
分别对两条原始地址信息进行分词,得到各自对应的包括多个地址元素的分词结果;
分别基于获得的每一条原始地址信息的分词结果,确定相应的原始地址信息的各地址元素类型,并在预设的地址元素组合规则库中,分别筛选出符合所述每一条原始地址信息的各地址元素类型的地址元素组合规则;
基于获得的两条原始地址信息各自对应的地址元素组合规则,提取出一条公共地址元素组合规则;
基于所述公共地址元素组合规则对所述两条原始地址信息进行关键信息提取,得到两条目标地址信息,并对所述两条目标地址信息进行地址元素匹配,得到两条原始地址信息的相似度比较结果。
2.如权利要求1所述的方法,其特征在于,分别对两条原始地址信息进行分词,得到各自对应的包括多个地址元素的分词结果,具体包括:
按照预设的地址分词库分别对两条原始地址信息进行分词,得到各自对应的包括多个地址元素的分词结果,所述地址分词库中存储有多个标准地址元素。
3.如权利要求1所述的方法,其特征在于,分别基于获得的每一条原始地址信息的分词结果,确定相应的原始地址信息的各地址元素类型,具体包括:
分别基于获得的每一条原始地址信息的分词结果,分别对每一条原始地址信息中的各地址元素进行分析,确定每一条原始地址信息中的各地址元素的地址元素类型。
4.如权利要求1、2或3所述的方法,其特征在于,基于获得的两条原始地址信息各自对应的地址元素组合规则,提取出一条公共地址元素组合规则,具体包括:
对获得的两条原始地址信息各自对应的地址元素组合规则进行地址元素类型分析,将两条原始地址信息各自对应的地址元素组合规则中都存在的地址元素类型提取出来,得到一条公共地址元素组合规则,所述地址元素组合规则为多个地址元素类型的组合。
5.如权利要求4所述的方法,其特征在于,基于所述公共地址元素组合规则对所述两条原始地址信息进行关键信息提取,得到两条目标地址信息,并对所述两条目标地址信息进行地址元素匹配,得到两条原始地址信息的相似度比较结果,具体包括:
基于所述公共地址元素组合规则中的地址元素类型,对所述两条原始地址信息进行关键信息提取,得到两条目标地址信息;
对所述两条目标地址信息中相同地址元素类型对应的地址元素进行匹配,得到每一条地址元素类型的匹配度,对每一条地址元素类型的匹配度进行加权求和得到两条原始地址信息的相似度比较结果。
6.一种地址比较的设备,其特征在于,包括:
分词模块,用于分别对两条原始地址信息进行分词,得到各自对应的包括多个地址元素的分词结果;
筛选模块,用于分别基于获得的每一条原始地址信息的分词结果,确定相应的原始地址信息的各地址元素类型,并在预设的地址元素组合规则库中,分别筛选出符合所述每一条原始地址信息的各地址元素类型的地址元素组合规则;
提取模块,用于基于获得的两条原始地址信息各自对应的地址元素组合规则,提取出一条公共地址元素组合规则;
匹配模块,用于基于所述公共地址元素组合规则对所述两条原始地址信息进行关键信息提取,得到两条目标地址信息,并对所述两条目标地址信息进行地址元素匹配,得到两条原始地址信息的相似度比较结果。
7.如权利要求6所述的设备,其特征在于,分别对两条原始地址信息进行分词,得到各自对应的包括多个地址元素的分词结果时,所述分词模块具体用于:
按照预设的地址分词库分别对两条原始地址信息进行分词,得到各自对应的包括多个地址元素的分词结果,所述地址分词库中存储有多个标准地址元素。
8.如权利要求6所述的设备,其特征在于,分别基于获得的每一条原始地址信息的分词结果,确定相应的原始地址信息的各地址元素类型时,所述筛选模块具体用于:
分别基于获得的每一条原始地址信息的分词结果,分别对每一条原始地址信息中的各地址元素进行分析,确定每一条原始地址信息中的各地址元素的地址元素类型。
9.如权利要求6、7或8所述的设备,其特征在于,基于获得的两条原始地址信息各自对应的地址元素组合规则,提取出一条公共地址元素组合规则时,所述提取模块具体用于:
对获得的两条原始地址信息各自对应的地址元素组合规则进行地址元素类型分析,将两条原始地址信息各自对应的地址元素组合规则中都存在的地址元素类型提取出来,得到一条公共地址元素组合规则,所述地址元素组合规则为多个地址元素类型的组合。
10.如权利要求9所述的设备,其特征在于,基于所述公共地址元素组合规则对所述两条原始地址信息进行关键信息提取,得到两条目标地址信息,并对所述两条目标地址信息进行地址元素匹配,得到两条原始地址信息的相似度比较结果时,所述匹配模块具体用于:
基于所述公共地址元素组合规则中的地址元素类型,对所述两条原始地址信息进行关键信息提取,得到两条目标地址信息;
对所述两条目标地址信息中相同地址元素类型对应的地址元素进行匹配,得到每一条地址元素类型的匹配度,对每一条地址元素类型的匹配度进行加权求和得到两条原始地址信息的相似度比较结果。
CN201510566384.8A 2015-09-08 2015-09-08 一种地址比较的方法及设备 Pending CN105224610A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510566384.8A CN105224610A (zh) 2015-09-08 2015-09-08 一种地址比较的方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510566384.8A CN105224610A (zh) 2015-09-08 2015-09-08 一种地址比较的方法及设备

Publications (1)

Publication Number Publication Date
CN105224610A true CN105224610A (zh) 2016-01-06

Family

ID=54993578

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510566384.8A Pending CN105224610A (zh) 2015-09-08 2015-09-08 一种地址比较的方法及设备

Country Status (1)

Country Link
CN (1) CN105224610A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363686A (zh) * 2018-01-12 2018-08-03 中国平安人寿保险股份有限公司 一种字符串分词方法、装置、终端设备及存储介质
CN108572948A (zh) * 2017-03-14 2018-09-25 腾讯科技(深圳)有限公司 门牌信息的处理方法及装置
CN109118131A (zh) * 2017-06-23 2019-01-01 菜鸟智能物流控股有限公司 一种物流数据处理方法及装置
CN109359200A (zh) * 2018-10-11 2019-02-19 北京国信达数据技术有限公司 地名地址数据智能解析系统
WO2020010982A1 (zh) * 2018-07-10 2020-01-16 阿里巴巴集团控股有限公司 一种风险防控方法、系统及终端设备
CN111832259A (zh) * 2019-04-12 2020-10-27 中国联合网络通信集团有限公司 Json数据生成方法及设备
CN111984748A (zh) * 2019-05-22 2020-11-24 深圳中兴飞贷金融科技有限公司 地址信息处理方法和装置、存储介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102279843A (zh) * 2010-06-13 2011-12-14 北京四维图新科技股份有限公司 处理短语数据的方法以及装置
CN103678684A (zh) * 2013-12-25 2014-03-26 沈阳美行科技有限公司 一种基于导航信息检索的中文分词方法
CN103914544A (zh) * 2014-04-03 2014-07-09 浙江大学 一种基于地址特征词的多层次快速中文地址匹配方法
CN104375992A (zh) * 2013-08-12 2015-02-25 中国移动通信集团浙江有限公司 一种地址匹配的方法和装置
CN104462059A (zh) * 2014-12-01 2015-03-25 银联智惠信息服务(上海)有限公司 商户地址信息识别方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102279843A (zh) * 2010-06-13 2011-12-14 北京四维图新科技股份有限公司 处理短语数据的方法以及装置
CN104375992A (zh) * 2013-08-12 2015-02-25 中国移动通信集团浙江有限公司 一种地址匹配的方法和装置
CN103678684A (zh) * 2013-12-25 2014-03-26 沈阳美行科技有限公司 一种基于导航信息检索的中文分词方法
CN103914544A (zh) * 2014-04-03 2014-07-09 浙江大学 一种基于地址特征词的多层次快速中文地址匹配方法
CN104462059A (zh) * 2014-12-01 2015-03-25 银联智惠信息服务(上海)有限公司 商户地址信息识别方法和装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108572948A (zh) * 2017-03-14 2018-09-25 腾讯科技(深圳)有限公司 门牌信息的处理方法及装置
CN109118131A (zh) * 2017-06-23 2019-01-01 菜鸟智能物流控股有限公司 一种物流数据处理方法及装置
CN108363686A (zh) * 2018-01-12 2018-08-03 中国平安人寿保险股份有限公司 一种字符串分词方法、装置、终端设备及存储介质
WO2020010982A1 (zh) * 2018-07-10 2020-01-16 阿里巴巴集团控股有限公司 一种风险防控方法、系统及终端设备
CN109359200A (zh) * 2018-10-11 2019-02-19 北京国信达数据技术有限公司 地名地址数据智能解析系统
CN111832259A (zh) * 2019-04-12 2020-10-27 中国联合网络通信集团有限公司 Json数据生成方法及设备
CN111832259B (zh) * 2019-04-12 2023-09-12 中国联合网络通信集团有限公司 Json数据生成方法及设备
CN111984748A (zh) * 2019-05-22 2020-11-24 深圳中兴飞贷金融科技有限公司 地址信息处理方法和装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN105224610A (zh) 一种地址比较的方法及设备
CN108628811B (zh) 地址文本的匹配方法和装置
CN106547770B (zh) 一种基于用户地址信息的用户分类、用户识别方法及装置
WO2016165538A1 (zh) 一种地址数据的管理方法和装置
CN103810212A (zh) 一种数据库索引的自动创建方法及系统
CN109977366B (zh) 一种目录生成方法及装置
CN109145003B (zh) 一种构建知识图谱的方法及装置
CN111325022B (zh) 识别层级地址的方法和装置
CN113434623A (zh) 一种基于多源异构空间规划数据的融合方法
CN103164393B (zh) 报表公式处理方法和系统
CN111597279B (zh) 基于深度学习的信息预测方法及相关设备
CN102521713B (zh) 数据处理装置和数据处理方法
CN110232156B (zh) 基于长文本的信息推荐方法及装置
CN105159885A (zh) 一种兴趣点名称的识别方法和装置
CN108052609A (zh) 一种基于词典和机器学习的地址匹配方法
CN106155998A (zh) 一种数据处理方法及装置
CN110928928B (zh) 投资主体的数据统计方法、装置、电子设备及存储介质
CN110688995B (zh) 地图查询的处理方法,计算机可读存储介质和移动终端
CN105138708A (zh) 一种兴趣点名称的识别方法和装置
CN104298786B (zh) 一种图像检索方法及装置
CN105512270A (zh) 一种确定相关对象的方法和装置
CN105608205A (zh) 结构化数据的指纹校验方法及装置
CN115563942A (zh) 一种合同生成方法、装置、电子设备及计算机可读介质
CN106557564A (zh) 一种对象数据分析方法及装置
CN110297818B (zh) 构建数据仓库的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160106