CN106709065A - 一种地址信息标准化处理方法及装置 - Google Patents

一种地址信息标准化处理方法及装置 Download PDF

Info

Publication number
CN106709065A
CN106709065A CN201710038482.3A CN201710038482A CN106709065A CN 106709065 A CN106709065 A CN 106709065A CN 201710038482 A CN201710038482 A CN 201710038482A CN 106709065 A CN106709065 A CN 106709065A
Authority
CN
China
Prior art keywords
address
matching
matched
match
normal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710038482.3A
Other languages
English (en)
Other versions
CN106709065B (zh
Inventor
许鑫
孙志杰
王莉
巩冬梅
张凌宇
刘晓伟
傅军
朱天博
汤佩霖
秦风圆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
North China Electric Power Research Institute Co Ltd
Electric Power Research Institute of State Grid Jibei Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
North China Electric Power Research Institute Co Ltd
Electric Power Research Institute of State Grid Jibei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, North China Electric Power Research Institute Co Ltd, Electric Power Research Institute of State Grid Jibei Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201710038482.3A priority Critical patent/CN106709065B/zh
Publication of CN106709065A publication Critical patent/CN106709065A/zh
Application granted granted Critical
Publication of CN106709065B publication Critical patent/CN106709065B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Remote Sensing (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种地址信息标准化处理方法及装置,其中,方法包括:根据匹配规则树和上一次匹配成功的行政区划从标准地址数据库的地址结构数据表中确定当前匹配的地址范围;将待标准化处理的地址中未匹配的地址字段所对应的最大长度作为每次匹配的最大词长,在当前匹配的地址范围内按照各行政区划的关联关系进行匹配,如果匹配不成功,则根据当前匹配的地址范围从歧义地址匹配表中按照歧义地址、行政区划称谓不全与标准地址之间的关联关系进行匹配,如果匹配不成功,更换匹配规则树,根据更换后的匹配规则树重新确定当前匹配的地址范围,在当前匹配的地址范围内进行匹配;根据每次匹配的结果获得对应地址字段的标准地址信息。

Description

一种地址信息标准化处理方法及装置
技术领域
本发明涉及地址信息处理技术领域,特别涉及一种地址信息标准化处理方法及装置。
背景技术
电网的建设和电网设备定期维护及故障维修都会导致局部停电现象的产生,影响用电企业正常生产和居民用户的日常用电,如果停电次数过多,则会导致投诉诉求的产生。根据国网冀北电力有限公司电力科学研究院客户服务中心提供的投诉分析数据,在五大类投诉中频繁停电类别的投诉占到了投诉总量的百分之三十左右,个别年份甚至占到了投诉总量的百分之四十,频繁停电成了投诉产生的主要诱因和投诉热点。因此,配电网频繁停电现象已成为供电企业在提升服务水平及客户满意度过程中的拦路石。
目前,针对95598故障工单中地址信息的匹配,停留在人工分析层面,当用户对停电次数过多产生不满,并进行投诉时,业务人员通过系统查询该地区两个月内故障报修停电和停电信息中的停电次数以确定是否为频繁停电投诉。利用人工查询停电次数不仅存在效率低下、规范性差等问题,并且对工作人员经验要求较高,不利于经验的传递和复制。
发明内容
为解决现有技术的问题,本发明提出一种地址信息标准化处理方法及装置,本技术方案准确识别村落级用电单元地址,并将地址规范化处理后用于频繁停电类投诉预警。通过该方法将不规范地址和模糊地址规范化,实现精确统计村落、小区、学校等用电单元的停电次数,从而应用于频繁停电类投诉预警。
为实现上述目的,本发明提供了一种地址信息标准化处理方法,包括:
根据匹配规则树和上一次匹配成功的行政区划从标准地址数据库的地址结构数据表中确定当前匹配的地址范围;
将待标准化处理的地址中未匹配的地址字段所对应的最大长度作为每次匹配的最大词长,在所述当前匹配的地址范围内按照各行政区划的关联关系进行匹配,如果匹配不成功,则根据当前匹配的地址范围从歧义地址匹配表中按照歧义地址、行政区划称谓不全与标准地址之间的关联关系进行匹配,如果匹配不成功,则更换匹配规则树,根据更换后的匹配规则树和上一次匹配成功的行政区划从标准地址数据库的地址结构数据表中重新确定当前匹配的地址范围,将待标准化处理的地址中未匹配的地址字段所对应的最大长度作为每次匹配的最大词长,在重新确定的当前匹配的地址范围内按照各行政区划的关联关系进行匹配;
根据每次匹配的结果获得对应地址字段的标准地址信息。
优选地,所述根据每次匹配的结果获得对应字段的标准地址信息的步骤包括:
如果每次匹配成功,则把匹配成功的地址字段所对应的标准地址信息组合在一起,获得待标准化处理的地址所对应的标准地址。
优选地,所述根据每次匹配的结果获得对应字段的标准地址信息的步骤包括:
如果更换匹配规则树的情况下没有匹配成功,则根据所述标准地址数据库和歧义地址匹配表将待标准化处理的地址中未匹配的地址字段进行分析,获得对应地址字段的标准地址信息,并对所述标准地址数据库和歧义地址匹配表进行修正。
优选地,所述匹配规则树的地址格式为:省、市、区/县、村/小区;省、市、区/县、乡/镇、村/小区;省、市、乡/镇、村/小区。
优选地,所述标准地址数据库中的数据以知识库中行政区划与营业区域对照表为基础获得。
为实现上述目的,本发明还提供了一种地址信息标准化处理装置,包括:
匹配地址范围确定单元,用于根据匹配规则树和上一次匹配成功的行政区划从标准地址数据库的地址结构数据表中确定当前匹配的地址范围;
匹配单元,用于将待标准化处理的地址中未匹配的地址字段所对应的最大长度作为每次匹配的最大词长,在所述当前匹配的地址范围内按照各行政区划的关联关系进行匹配,如果匹配不成功,则根据当前匹配的地址范围从歧义地址匹配表中按照歧义地址、行政区划称谓不全与标准地址之间的关联关系进行匹配,如果匹配不成功,则更换匹配规则树,根据更换后的匹配规则树和上一次匹配成功的行政区划从标准地址数据库的地址结构数据表中重新确定当前匹配的地址范围,将待标准化处理的地址中未匹配的地址字段所对应的最大长度作为每次匹配的最大词长,在重新确定的当前匹配的地址范围内按照各行政区划的关联关系进行匹配;
标准化单元,用于根据每次匹配的结果获得对应地址字段的标准地址信息。
优选地,所述标准化单元包括:
第一标准化单元,用于如果每次匹配成功,则把匹配成功的地址字段所对应的标准地址信息组合在一起,获得待标准化处理的地址所对应的标准地址。
优选地,所述标准化单元包括:
第二标准化单元,用于如果更换匹配规则树的情况下没有匹配成功,则根据所述标准地址数据库和歧义地址匹配表将待标准化处理的地址中未匹配的地址字段进行分析,获得对应地址字段的标准地址信息,并对所述标准地址数据库和歧义地址匹配表进行修正。
优选地,所述匹配规则树的地址格式为:省、市、区/县、村/小区;省、市、区/县、乡/镇、村/小区;省、市、乡/镇、村/小区。
优选地,所述标准地址数据库中的数据以知识库中行政区划与营业区域对照表为基础获得。
上述技术方案具有如下有益效果:
1、实现了故障地址的有效分词
该地址匹配方法是根据匹配规则树和上一次匹配成功的行政区划从标准地址数据库的地址结构数据表中确定当前匹配的地址范围,实现多级词表的设计。从而解决了匹配过程中单个词表导致的匹配词量过多的情况,并且可以利用多级词表的关联关系实现将标准词表匹配范围最小化。在模糊地址匹配设计上利用标准地址数据库的地址结构数据表与歧义地址匹配表内数据的关联关系,快速定位模糊地址对应的标准地址,有效的解决了模糊地址的匹配。在地址匹配的过程中利用规则引导地址匹配过程,减少了匹配次数,提高了匹配效率。
2、有益于预警工作的开展
地址规范化处理的实现将有助于电力部门在工单数据的统计分析上实现地址维度的数据统计分析,比如:针对某地区停电数据分析、某地用户偏好分析、某地业务数量统计分析等。另外,该技术的延伸也将有助于实现各类停电信息、投诉工单信息的分析及地址处理。
频繁停电投诉的管理及数据分析,难点就在于地址填写不规范,本技术方案解决了在频繁停电投诉管理和数据分析中遇到的地址不规范难题,为投诉预警及服务关口前移创造了条件。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提出一种地址信息标准化处理方法流程图;
图2为本实施例中地址层级结构示意图;
图3为本实施例的标准地址数据库的地址结构数据表示意图;
图4为本技术方案的总的算法流程图;
图5为本发明实施例提出的一种地址信息标准化处理装置功能框图;
图6为本发明实施例提出的一种地址信息标准化处理装置中标准化单元功能框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本技术方案的工作原理为:本技术方案通过构建基于标准地址数据库的地址结构数据表的中文分词匹配方法,实现了地址的分词、匹配、归集,最终精确统计停电次数。在数据处理过程中,利用构建的标准地址数据库的地址结构数据表的字段长度进行词长限定,通过匹配规则树以及上一次匹配的行政区划缩小下一次将要匹配的地址范围,将待标准化处理的地址在对应的标准地址数据库的地址结构数据表中进行匹配,如果地址匹配失败,则将待标准化处理的地址在对应的歧义地址匹配表中进行匹配,如果还不能匹配成功,则输出到待处理库,待人工修正;人工进行原因分析修正完善标准数据库或添加歧义表数据,当全部匹配成功后终止运算,返回匹配成功的地址,最终使地址信息统一格式,形成预警数据源,并推送到预警数据库。
基于上述工作原理,本发明实施例提出一种地址信息标准化处理方法,如图1所示。包括:
步骤101):根据匹配规则树和上一次匹配成功的行政区划从标准地址数据库的地址结构数据表中确定当前匹配的地址范围;
在本实施例中,标准地址数据库主要是为分词匹配提供标准词长及匹配值,因此需要分析当前待标准化处理的地址结构,明确各个行政区域的划分,然后分级构建对应的标准数据表。
如图2所示,为本实施例中地址层级结构示意图。对地址进行分析,当前待标准化处理的地址信息中以省、市、区/县、乡/镇/街道办事处、村/小区为结构。因此,针对以上数据结构构建地址层级结构示意图。其中,省对市、市对区/县、区/县对乡/镇/街道办事处、乡/镇/街道办事处对村/都是一对多的关系,通过以上地址结构分析构建如图3所示的标准地址数据库的地址结构数据表。标准地址数据库的数据以知识库中行政区域与营业区域对照表为基础,在进行匹配过程中根据匹配情况不断进行完善补充。
在客户进行故障报修时,考虑到95598坐席人员书写格式问题,为了提高匹配效率,便于按照当前地址进行匹配,梳理了2015年和2016年两年故障报修工单数据中的地址信息,整理出了地址的所有书写格式,见下表1所示。
表1
为了便于表示,由下表2可知,将标准地址数据库中的省、市、区/县、乡/镇/街道办事处、村/小区进行编号。
表2
表名 省表 市表 区/县 供电单位 乡/镇/街道办事处 村/小区表
编号 1 2 3 4 5 6
利用编号对报修工单地址的匹配规则进行定义,获得三种匹配规则树,见下表3。匹配规则树分别为12356、1236、1256。以表3中匹配规则树一为例,当对地址进行匹配时,首先,对省表中数据进行匹配运算,省表匹配成功后,再匹配市表,依次进行匹配,匹配完成后终止运算,返回规范的地址。但当匹配规则树一在匹配到区/县(编号3)时匹配失败,那么该匹配方法直接按照匹配规则树二继续匹配,直到匹配完成。如果在运算执行过程中遇到多个分支则默认按匹配规则树一、匹配规则树二、匹配规则树三排序前后依次执行。
表3
匹配规则树 匹配规则树一 匹配规则树二 匹配规则树三
匹配表编号 12356 1236 1256
步骤102):将待标准化处理的地址中未匹配的地址字段所对应的最大长度作为每次匹配的最大词长,在所述当前匹配的地址范围内按照各行政区划的关联关系进行匹配,如果匹配不成功,则根据当前匹配的地址范围从歧义地址匹配表中按照歧义地址、行政区划称谓不全与标准地址之间的关联关系进行匹配,如果匹配不成功,则更换匹配规则树,根据更换后的匹配规则树和上一次匹配成功的行政区划从标准地址数据库的地址结构数据表中重新确定当前匹配的地址范围,将待标准化处理的地址中未匹配的地址字段所对应的最大长度作为每次匹配的最大词长,在重新确定的当前匹配的地址范围内按照各行政区划的关联关系进行匹配;
在本步骤中,由于在日常工作中,95598客户服务工作人员直接根据用户口述填报地址信息,因此得到的地址数据有些存在表达模糊、地址编写不完整的情况。经过对用户口述填报地址信息进行分析,可将模糊地址分为可匹配的模糊地址和不可匹配的模糊地址两类。针对可匹配的模糊地址,可以通过附加一些匹配规则来提高匹配成功率。可以匹配的模糊地址主要分为:歧义地址和行政区划称谓不全。对于这两种地址,该匹配算法中提出如下方法:
一是,构建歧义地址匹配表。根据歧义地址、行政区划称谓不全与标准地址之间的关联关系构建数据表。当地址匹配到相应的行政区划且无法在标准地址数据库的地址结构数据表中匹配成功时,可对歧义地址匹配表中存在关联关系的数据进行匹配,根据匹配情况得出结果。二是,人工完善歧义地址匹配表内容。在匹配过程中,如果利用歧义地址匹配表没有匹配成功,则人工梳理过程逐步完善歧义地址匹配表。
虽然歧义地址匹配表设置中有些冗余,但是可以解决匹配模糊地址的问题,从而提高匹配成功率。
例如:“河北省承德市双滦区双塔山百旺家园”相对于标准地址“河北省承德市双滦区双塔山镇百旺家园”缺少了“镇”这个行政区划称谓,属于行政区划称谓不全。通过对地址的分析,在匹配到“镇”的行政区划时,对歧义地址匹配表中相关联的“镇”信息进行匹配,从而匹配成功,不会因为行政区划称谓而导致匹配失败。
步骤103):根据每次匹配的结果获得对应地址字段的标准地址信息。其中,所述根据每次匹配的结果获得对应字段的标准地址信息的步骤包括:
如果每次匹配成功,则把匹配成功的地址字段所对应的标准地址信息组合在一起,获得待标准化处理的地址所对应的标准地址;
如果更换匹配规则树的情况下没有匹配成功,则根据所述标准地址数据库和歧义地址匹配表将待标准化处理的地址中未匹配的地址字段进行分析,获得对应地址字段的标准地址信息,并对所述标准地址数据库和歧义地址匹配表进行修正。
如图4所示,为本技术方案的总的算法流程图。假如:将整个待匹配地址字符串定义为S(0),匹配完成后规范地址为SS。使用匹配次数定义i和Tmaxlen(i),其中,i=0,1,2,3,4。S(i)为每次匹配时所对应行政区划截取后的剩余字符串,Tmaxlen(i)每次匹配时标准地址数据库对应表中最长字段的长度值,并定义正向匹配词长为MaxLen。匹配算法流程如下:
步骤一:载入地址数据S(0)和省表数据,使MaxLen=Tmaxlen(0)并进行匹配。如果匹配成功则进入步骤二,如果匹配失败则进入步骤九。
步骤二:截取S(0)匹配到的地址数据,得到剩余字符串S(1),以省作为限制条件查询对应的标准地址数据库的地址结构数据表,筛选出当前省份的所有市名称,并以筛选出的市信息数据中最长词长作为MaxLen的长度,即MaxLen=Tmaxlen(1),使用对应的地址结构数据表进行匹配,如果S(1)匹配成功,则进入步骤三,如果匹配失败则进入步骤九。
步骤三:截取S1匹配到的地址数据,得到剩余字符串S(2),以截取到的市作为限制条件筛选该市下的区/县作为标准地址数据库的地址结构数据表,并以筛选出的区/县信息数据中的最长词长作为MaxLen的长度,即MaxLen=Tmaxlen(2),使用对应的地址结构数据表进行匹配,如果S(2)匹配成功则进入步骤四,如果匹配失败则进入步骤六。
步骤四:截取S(2)匹配到的地址数据,得到剩余字符串S(3),以截取到的区/县作为限制条件筛选该区/县下的乡/镇/街道办信息作为标准地址数据库的地址结构数据表,并以筛选出的乡/镇/街道办信息数据中最长词长作为MaxLen的长度,即MaxLen=Tmaxlen(3),使用对应的地址结构数据表进行匹配,如果S(3)匹配成功则进入步骤五,如果匹配失败则进入步骤七。
步骤五:截取S(3)匹配的乡/镇/街道办信息得到剩余字符串S(4),以截取到的乡/镇/街道办信息作为限制条件筛选该区/县下的村/小区作为标准地址数据库的地址结构数据表,并以筛选出的村/小区中最长词长的作为MaxLen的长度,即MaxLen=Tmaxlen(4),使用对应的地址结构数据表进行正向最大匹配,如果S(4)匹配成功,则截取S(3)中村/小区信息,生成字符串SS并输出,同时结束算法流程,如果匹配失败则进入步骤八。
步骤六:以同样的限制条件查询歧义地址匹配表,如果匹配成功则修正S(2)中区/县信息,然后进入步骤四,如果匹配不成功,则查询表3中的匹配规则树,由匹配规则树一转换为匹配规则树二,并按照匹配规则树二执行,用匹配完成的市信息为限制条件查询所包含的乡/镇/街道办信息,并将乡/镇/街道办信息最长的词长作为MaxLen,继续从步骤四的“匹配乡、镇、街道办表”过程执行。
步骤七:以同样的限制条件查询歧义地址匹配表,如果匹配成功则修正S(3)中乡/镇/街道办信息,然后进入步骤五,如果匹配不成功,则查询表3中的匹配规则树,由匹配规则树二转换为匹配规则树三,并按照匹配规则树三执行,以匹配完成的区/县信息为限制条件查询所包含的村/小区信息,并将村/小区信息最长的词长作为MaxLen,继续从步骤五的“匹配村/小区表”过程执行。
步骤八:以同样的限制条件查询歧义地址匹配表,如果匹配成功则修正S(4)中村/小区信息,生成字符串SS并输出,同时结束算法流程。如果匹配失败则进入步骤九。
步骤九:人工分析匹配失败原因,根据所述标准地址数据库和歧义地址匹配表将待标准化处理的地址中未匹配的地址字段进行分析,获得对应地址字段的标准地址信息,并对所述标准地址数据库和歧义地址匹配表进行修正。人工处理字符串S(0)并输出SS,结束流程。
应当注意,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
如图5所示,为本发明实施例提出的一种地址信息标准化处理装置功能框图。包括:
匹配地址范围确定单元501,用于根据匹配规则树和上一次匹配成功的行政区划从标准地址数据库的地址结构数据表中确定当前匹配的地址范围;
匹配单元502,用于将待标准化处理的地址中未匹配的地址字段所对应的最大长度作为每次匹配的最大词长,在所述当前匹配的地址范围内按照各行政区划的关联关系进行匹配,如果匹配不成功,则根据当前匹配的地址范围从歧义地址匹配表中按照歧义地址、行政区划称谓不全与标准地址之间的关联关系进行匹配,如果匹配不成功,则更换匹配规则树,根据更换后的匹配规则树和上一次匹配成功的行政区划从标准地址数据库的地址结构数据表中重新确定当前匹配的地址范围,将待标准化处理的地址中未匹配的地址字段所对应的最大长度作为每次匹配的最大词长,在重新确定的当前匹配的地址范围内按照各行政区划的关联关系进行匹配;
标准化单元503,用于根据每次匹配的结果获得对应地址字段的标准地址信息。
如图6所示,为本发明实施例提出的一种地址信息标准化处理装置中标准化单元功能框图。所述标准化单元503包括:
第一标准化单元5031,用于如果每次匹配成功,则把匹配成功的地址字段所对应的标准地址信息组合在一起,获得待标准化处理的地址所对应的标准地址。
第二标准化单元5032,用于如果更换匹配规则树的情况下没有匹配成功,则根据所述标准地址数据库和歧义地址匹配表将待标准化处理的地址中未匹配的地址字段进行分析,获得对应地址字段的标准地址信息,并对所述标准地址数据库和歧义地址匹配表进行修正。
此外,尽管在上文详细描述中提及了装置的若干单元,但是这种划分仅仅并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。同样,上文描述的一个单元的特征和功能也可以进一步划分为由多个单元来具体化。
以“河北省承德市双桥区冯营子天都嘉城小区4A901”作为输入地址S0,按照以上技术方案匹配步骤包括:
步骤一:取标准地址数据库中关于“省”的地址结构数据表中最长字段作为MaxLen,即使MaxLen=Tmaxlen(0),如省份最长为黑龙江省,则使MaxLen=TmaxLen(0)=4。对于本实施例来说,匹配成功“河北省”。
步骤二:截取S0匹配到的省名称信息,得到剩余字符串S1(承德市双桥区冯营子天都嘉城小区4A901),以省作为限制条件查询关于“市”的地址结构数据表,筛选出当前省份的所有市名称,并以筛选出的市信息数据中最长词长作为MaxLen的长度,即MaxLen=Tmaxlen(1),匹配出“承德市”。
步骤三:截取S1(承德市双桥区冯营子天都嘉城小区4A901)匹配的市信息得到剩余字符串S2(双桥区冯营子天都嘉城小区4A901),以截取到的市作为限制条件筛选该市下的区/县查询对应的地址结构数据表,并以筛选出的区/县信息数据中的最长词长作为MaxLen的长度,即MaxLen=Tmaxlen(2),匹配成功“双桥区”。
步骤四:截取S2(双桥区冯营子天都嘉城小区4A901)匹配的区/县信息得到剩余字符串S3(冯营子天都嘉城小区4A901),以截取到的区/县作为限制条件筛选该区/县下的乡/镇/街道办信息查询对应的地址结构数据表,并以筛选出的乡/镇/街道办信息数据中最长词长作为MaxLen的长度,即MaxLen=Tmaxlen(3),此处由于“冯营子”没有所属行政区划称谓,其全称为“冯营子镇”,因此无法在标准地址数据库中查到数据。因此进入步骤六,进行歧义地址匹配表查找。
步骤五:截取S3(冯营子天都嘉城小区4A901)匹配的乡/镇/街道办信息得到剩余字符串S4(天都嘉城小区4A901),以截取到的乡/镇/街道办信息作为限制条件筛选该区/县下的村/小区查询对应的地址结构数据表,并以筛选出的村/小区中最长词长的作为MaxLen的长度,即MaxLen=Tmaxlen(4),匹配成功为“天都嘉城小区”,生成字符串SS(河北省承德市双桥区冯营子镇天都嘉城小区),并输出,同时结束算法流程。
步骤六:以同样的限制条件查询歧义表,匹配成功“冯营子”则修正S3中区/县信息,结果输出为“冯营子镇”,然后进入步骤五。
由上述实施例可知,本案不仅对地址信息进行有效分词处理,还有助于电力部门利用其他信息化技术实现地址可视化定位。例如:利用百度地图接口,用规范化的数据获取该地址的坐标信息,然后按照坐标信息将该地区的停电数据标记在地图上,实现可视化的展现效果。这不但改善了统计分析中表格式的陈旧展现样式,更为今后与地址相关的数据分析及展现拓宽了技术思路。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种地址信息标准化处理方法,其特征在于,包括:
根据匹配规则树和上一次匹配成功的行政区划从标准地址数据库的地址结构数据表中确定当前匹配的地址范围;
将待标准化处理的地址中未匹配的地址字段所对应的最大长度作为每次匹配的最大词长,在所述当前匹配的地址范围内按照各行政区划的关联关系进行匹配,如果匹配不成功,则根据当前匹配的地址范围从歧义地址匹配表中按照歧义地址、行政区划称谓不全与标准地址之间的关联关系进行匹配,如果匹配不成功,则更换匹配规则树,根据更换后的匹配规则树和上一次匹配成功的行政区划从标准地址数据库的地址结构数据表中重新确定当前匹配的地址范围,将待标准化处理的地址中未匹配的地址字段所对应的最大长度作为每次匹配的最大词长,在重新确定的当前匹配的地址范围内按照各行政区划的关联关系进行匹配;
根据每次匹配的结果获得对应地址字段的标准地址信息。
2.如权利要求1所述的方法,其特征在于,所述根据每次匹配的结果获得对应字段的标准地址信息的步骤包括:
如果每次匹配成功,则把匹配成功的地址字段所对应的标准地址信息组合在一起,获得待标准化处理的地址所对应的标准地址。
3.如权利要求1所述的方法,其特征在于,所述根据每次匹配的结果获得对应字段的标准地址信息的步骤包括:
如果更换匹配规则树的情况下没有匹配成功,则根据所述标准地址数据库和歧义地址匹配表将待标准化处理的地址中未匹配的地址字段进行分析,获得对应地址字段的标准地址信息,并对所述标准地址数据库和歧义地址匹配表进行修正。
4.如权利要求1、2或3所述的方法,其特征在于,所述匹配规则树的地址格式为:省、市、区/县、村/小区;省、市、区/县、乡/镇、村/小区;省、市、乡/镇、村/小区。
5.如权利要求1、2或3所述的方法,其特征在于,所述标准地址数据库中的数据以知识库中行政区划与营业区域对照表为基础获得。
6.一种地址信息标准化处理装置,其特征在于,包括:
匹配地址范围确定单元,用于根据匹配规则树和上一次匹配成功的行政区划从标准地址数据库的地址结构数据表中确定当前匹配的地址范围;
匹配单元,用于将待标准化处理的地址中未匹配的地址字段所对应的最大长度作为每次匹配的最大词长,在所述当前匹配的地址范围内按照各行政区划的关联关系进行匹配,如果匹配不成功,则根据当前匹配的地址范围从歧义地址匹配表中按照歧义地址、行政区划称谓不全与标准地址之间的关联关系进行匹配,如果匹配不成功,则更换匹配规则树,根据更换后的匹配规则树和上一次匹配成功的行政区划从标准地址数据库的地址结构数据表中重新确定当前匹配的地址范围,将待标准化处理的地址中未匹配的地址字段所对应的最大长度作为每次匹配的最大词长,在重新确定的当前匹配的地址范围内按照各行政区划的关联关系进行匹配;
标准化单元,用于根据每次匹配的结果获得对应地址字段的标准地址信息。
7.如权利要求6所述的装置,其特征在于,所述标准化单元包括:
第一标准化单元,用于如果每次匹配成功,则把匹配成功的地址字段所对应的标准地址信息组合在一起,获得待标准化处理的地址所对应的标准地址。
8.如权利要求6所述的装置,其特征在于,所述标准化单元包括:
第二标准化单元,用于如果更换匹配规则树的情况下没有匹配成功,则根据所述标准地址数据库和歧义地址匹配表将待标准化处理的地址中未匹配的地址字段进行分析,获得对应地址字段的标准地址信息,并对所述标准地址数据库和歧义地址匹配表进行修正。
9.如权利要求6、7或8所述的装置,其特征在于,所述匹配规则树的地址格式为:省、市、区/县、村/小区;省、市、区/县、乡/镇、村/小区;省、市、乡/镇、村/小区。
10.如权利要求6、7或8所述的装置,其特征在于,所述标准地址数据库中的数据以知识库中行政区划与营业区域对照表为基础获得。
CN201710038482.3A 2017-01-19 2017-01-19 一种地址信息标准化处理方法及装置 Active CN106709065B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710038482.3A CN106709065B (zh) 2017-01-19 2017-01-19 一种地址信息标准化处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710038482.3A CN106709065B (zh) 2017-01-19 2017-01-19 一种地址信息标准化处理方法及装置

Publications (2)

Publication Number Publication Date
CN106709065A true CN106709065A (zh) 2017-05-24
CN106709065B CN106709065B (zh) 2020-08-04

Family

ID=58908793

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710038482.3A Active CN106709065B (zh) 2017-01-19 2017-01-19 一种地址信息标准化处理方法及装置

Country Status (1)

Country Link
CN (1) CN106709065B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109254964A (zh) * 2018-08-20 2019-01-22 中国平安人寿保险股份有限公司 地址标准化方法、装置、计算机设备和存储介质
CN109614396A (zh) * 2018-12-17 2019-04-12 广东电网有限责任公司 一种地址数据结构化与规范化的清理方法
CN109829028A (zh) * 2019-01-30 2019-05-31 广州供电局有限公司 一种基于标准地址的电力数据管理系统
CN110046343A (zh) * 2019-03-01 2019-07-23 江苏横云智慧科技有限公司 非规范地址转换为规范地址及规范地址编码的方法
CN110147420A (zh) * 2019-05-07 2019-08-20 武大吉奥信息技术有限公司 一种基于图谱模型的地名地址匹配查询方法及系统
CN110852556A (zh) * 2019-09-20 2020-02-28 国网浙江省电力有限公司 95598抢修工单自动派单方法
CN111160011A (zh) * 2019-12-17 2020-05-15 浙江大华技术股份有限公司 一种组织机构单位规范化方法、装置、设备及存储介质
CN111460054A (zh) * 2019-01-21 2020-07-28 阿里巴巴集团控股有限公司 地址数据处理方法及装置、设备和存储介质
CN111753515A (zh) * 2020-06-24 2020-10-09 广东科杰通信息科技有限公司 一种实现实体定位的地址信息提取及匹配方法
CN111859849A (zh) * 2020-07-01 2020-10-30 邦道科技有限公司 一种用电地址的管理方法和装置
CN112100161A (zh) * 2019-09-17 2020-12-18 上海寻梦信息技术有限公司 数据处理方法及系统、电子设备及存储介质
CN112115214A (zh) * 2019-06-20 2020-12-22 中科聚信信息技术(北京)有限公司 地址标准化方法、地址标准化装置和电子设备
CN112330281A (zh) * 2020-11-05 2021-02-05 南京师范大学 一种面向沿革数据的中国行政区划关联方法
CN112487122A (zh) * 2020-12-02 2021-03-12 电信科学技术第十研究所有限公司 地址归一化处理方法及装置
CN112835897A (zh) * 2021-01-29 2021-05-25 上海寻梦信息技术有限公司 地理区域划分管理方法、数据转换方法及相关设备
CN113157762A (zh) * 2020-12-31 2021-07-23 南威软件股份有限公司 基于模糊层级地理位置的规范化方法、系统及数处理终端

Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070127555A1 (en) * 2005-09-07 2007-06-07 Lynch Henry T Methods of geographically storing and publishing electronic content
CN101005461A (zh) * 2007-01-16 2007-07-25 中兴通讯股份有限公司 一种IPv6路由表查找、转发的方法
CN101043421A (zh) * 2006-03-21 2007-09-26 上海激动通信有限公司 一种基于内存的ip地址最长匹配快速查找的方法
CN101127050A (zh) * 2007-07-03 2008-02-20 北京大学 一种从网页中自动提取网站拥有者行政属地信息的方法
CN101299217A (zh) * 2008-06-06 2008-11-05 北京搜狗科技发展有限公司 一种地图信息处理的方法、装置和系统
CN101458694A (zh) * 2008-10-09 2009-06-17 浙江大学 一种基于树形词库的中文分词方法
CN101719128A (zh) * 2009-12-31 2010-06-02 浙江工业大学 一种基于模糊匹配的中文地理编码确定方法
CN101882163A (zh) * 2010-06-30 2010-11-10 中国科学院地理科学与资源研究所 一种基于匹配规则的模糊中文地址地理赋值方法
CN101887462A (zh) * 2010-07-14 2010-11-17 厦门精图信息技术有限公司 一种可持续优化地名数据库快速分级配准方法
CN101980208A (zh) * 2010-11-10 2011-02-23 百度在线网络技术(北京)有限公司 地址查询方法及系统
CN102314645A (zh) * 2011-09-26 2012-01-11 深圳市络道科技有限公司 一种地址匹配方法及匹配系统
CN103065267A (zh) * 2012-12-26 2013-04-24 天津市电力公司 基于用户集的营销、生产数据共享及业务融合方法
CN103473289A (zh) * 2013-08-30 2013-12-25 深圳市华傲数据技术有限公司 一种通信地址补全的装置及方法
CN103605752A (zh) * 2013-11-21 2014-02-26 武大吉奥信息技术有限公司 一种基于语义识别的地址匹配方法
CN103699623A (zh) * 2013-12-19 2014-04-02 百度在线网络技术(北京)有限公司 地理编码实现方法和装置
CN103914544A (zh) * 2014-04-03 2014-07-09 浙江大学 一种基于地址特征词的多层次快速中文地址匹配方法
CN104166679A (zh) * 2014-07-08 2014-11-26 北京迪威特科技有限公司 一种用于分拣的地址匹配方法
CN104537062A (zh) * 2014-12-29 2015-04-22 北京牡丹电子集团有限责任公司数字电视技术中心 一种地址信息抽取方法及系统
CN104615782A (zh) * 2015-03-02 2015-05-13 武汉工程大学 基于滑动窗口最大匹配算法的地址匹配方法
CN105677700A (zh) * 2015-12-23 2016-06-15 武汉工程大学 一种基于集合运算的中文地址行政区划解析方法
CN105786800A (zh) * 2016-03-23 2016-07-20 苏州数字地图信息科技股份有限公司 一种警用标准地址获取方法及系统

Patent Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070127555A1 (en) * 2005-09-07 2007-06-07 Lynch Henry T Methods of geographically storing and publishing electronic content
CN101043421A (zh) * 2006-03-21 2007-09-26 上海激动通信有限公司 一种基于内存的ip地址最长匹配快速查找的方法
CN101005461A (zh) * 2007-01-16 2007-07-25 中兴通讯股份有限公司 一种IPv6路由表查找、转发的方法
CN101127050A (zh) * 2007-07-03 2008-02-20 北京大学 一种从网页中自动提取网站拥有者行政属地信息的方法
CN101299217A (zh) * 2008-06-06 2008-11-05 北京搜狗科技发展有限公司 一种地图信息处理的方法、装置和系统
CN101458694A (zh) * 2008-10-09 2009-06-17 浙江大学 一种基于树形词库的中文分词方法
CN101719128A (zh) * 2009-12-31 2010-06-02 浙江工业大学 一种基于模糊匹配的中文地理编码确定方法
CN101882163A (zh) * 2010-06-30 2010-11-10 中国科学院地理科学与资源研究所 一种基于匹配规则的模糊中文地址地理赋值方法
CN101887462A (zh) * 2010-07-14 2010-11-17 厦门精图信息技术有限公司 一种可持续优化地名数据库快速分级配准方法
CN101980208A (zh) * 2010-11-10 2011-02-23 百度在线网络技术(北京)有限公司 地址查询方法及系统
CN102314645A (zh) * 2011-09-26 2012-01-11 深圳市络道科技有限公司 一种地址匹配方法及匹配系统
CN103065267A (zh) * 2012-12-26 2013-04-24 天津市电力公司 基于用户集的营销、生产数据共享及业务融合方法
CN103473289A (zh) * 2013-08-30 2013-12-25 深圳市华傲数据技术有限公司 一种通信地址补全的装置及方法
CN103605752A (zh) * 2013-11-21 2014-02-26 武大吉奥信息技术有限公司 一种基于语义识别的地址匹配方法
CN103699623A (zh) * 2013-12-19 2014-04-02 百度在线网络技术(北京)有限公司 地理编码实现方法和装置
CN103914544A (zh) * 2014-04-03 2014-07-09 浙江大学 一种基于地址特征词的多层次快速中文地址匹配方法
CN104166679A (zh) * 2014-07-08 2014-11-26 北京迪威特科技有限公司 一种用于分拣的地址匹配方法
CN104537062A (zh) * 2014-12-29 2015-04-22 北京牡丹电子集团有限责任公司数字电视技术中心 一种地址信息抽取方法及系统
CN104615782A (zh) * 2015-03-02 2015-05-13 武汉工程大学 基于滑动窗口最大匹配算法的地址匹配方法
CN105677700A (zh) * 2015-12-23 2016-06-15 武汉工程大学 一种基于集合运算的中文地址行政区划解析方法
CN105786800A (zh) * 2016-03-23 2016-07-20 苏州数字地图信息科技股份有限公司 一种警用标准地址获取方法及系统

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109254964A (zh) * 2018-08-20 2019-01-22 中国平安人寿保险股份有限公司 地址标准化方法、装置、计算机设备和存储介质
CN109614396A (zh) * 2018-12-17 2019-04-12 广东电网有限责任公司 一种地址数据结构化与规范化的清理方法
CN111460054B (zh) * 2019-01-21 2023-06-30 阿里巴巴集团控股有限公司 地址数据处理方法及装置、设备和存储介质
CN111460054A (zh) * 2019-01-21 2020-07-28 阿里巴巴集团控股有限公司 地址数据处理方法及装置、设备和存储介质
CN109829028A (zh) * 2019-01-30 2019-05-31 广州供电局有限公司 一种基于标准地址的电力数据管理系统
CN110046343A (zh) * 2019-03-01 2019-07-23 江苏横云智慧科技有限公司 非规范地址转换为规范地址及规范地址编码的方法
CN110147420A (zh) * 2019-05-07 2019-08-20 武大吉奥信息技术有限公司 一种基于图谱模型的地名地址匹配查询方法及系统
CN112115214A (zh) * 2019-06-20 2020-12-22 中科聚信信息技术(北京)有限公司 地址标准化方法、地址标准化装置和电子设备
CN112115214B (zh) * 2019-06-20 2024-04-02 中科聚信信息技术(北京)有限公司 地址标准化方法、地址标准化装置和电子设备
CN112100161B (zh) * 2019-09-17 2021-05-28 上海寻梦信息技术有限公司 数据处理方法及系统、电子设备及存储介质
CN112100161A (zh) * 2019-09-17 2020-12-18 上海寻梦信息技术有限公司 数据处理方法及系统、电子设备及存储介质
CN110852556A (zh) * 2019-09-20 2020-02-28 国网浙江省电力有限公司 95598抢修工单自动派单方法
CN111160011A (zh) * 2019-12-17 2020-05-15 浙江大华技术股份有限公司 一种组织机构单位规范化方法、装置、设备及存储介质
CN111160011B (zh) * 2019-12-17 2023-06-27 浙江大华技术股份有限公司 一种组织机构单位规范化方法、装置、设备及存储介质
CN111753515A (zh) * 2020-06-24 2020-10-09 广东科杰通信息科技有限公司 一种实现实体定位的地址信息提取及匹配方法
CN111859849A (zh) * 2020-07-01 2020-10-30 邦道科技有限公司 一种用电地址的管理方法和装置
CN111859849B (zh) * 2020-07-01 2023-11-24 邦道科技有限公司 一种用电地址的管理方法和装置
CN112330281A (zh) * 2020-11-05 2021-02-05 南京师范大学 一种面向沿革数据的中国行政区划关联方法
CN112487122A (zh) * 2020-12-02 2021-03-12 电信科学技术第十研究所有限公司 地址归一化处理方法及装置
CN112487122B (zh) * 2020-12-02 2024-05-17 电信科学技术第十研究所有限公司 地址归一化处理方法及装置
CN113157762A (zh) * 2020-12-31 2021-07-23 南威软件股份有限公司 基于模糊层级地理位置的规范化方法、系统及数处理终端
CN112835897B (zh) * 2021-01-29 2024-03-15 上海寻梦信息技术有限公司 地理区域划分管理方法、数据转换方法及相关设备
CN112835897A (zh) * 2021-01-29 2021-05-25 上海寻梦信息技术有限公司 地理区域划分管理方法、数据转换方法及相关设备

Also Published As

Publication number Publication date
CN106709065B (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
CN106709065A (zh) 一种地址信息标准化处理方法及装置
CN109635127B (zh) 一种基于大数据技术的电力设备画像知识图谱构建方法
US20040158562A1 (en) Data quality system
CN103325067B (zh) 基于用电客户细分的服务推送方法和系统
CN113377758A (zh) 一种数据质量稽核引擎及其稽核方法
CN109685567A (zh) 一种基于卷积神经网络和模糊聚类的用电客户画像新方法
CN109033322A (zh) 一种多维数据的测试方法和装置
CN117472987A (zh) 一种基于互联网公开信息的数据集成分析系统
CN105404608B (zh) 一种基于公式解析的复杂指标集计算方法和系统
CN117291000A (zh) 一种国土空间规划大数据分析辅助模型
CN107329998A (zh) 用户增量类数据获取方法、装置及设备
CN117251517A (zh) 大数据视野下的年鉴行政区划信息匹配方法和模型
CN104778253B (zh) 一种提供数据的方法和装置
CN104216986B (zh) 以数据更新周期进行预操作提高数据查询效率的装置及方法
CN110175199A (zh) 基于k均值聚类算法的能源企业关键用户识别分析方法
CN111579928B (zh) 配电线路线损分析方法和分析装置
CN112801817B (zh) 一种电能质量数据中心构建方法及其系统
CN110866083B (zh) 一种电力标准结构化地址库的地址稽核方法
CN108335231A (zh) 一种自动匹配的配电网数据诊断方法
CN111191915B (zh) 一种基于配电网运行数据的10kV双电源用户线变关系分析方法
CN109919811B (zh) 基于大数据的保险代理人培养方案生成方法及相关设备
CN111078674A (zh) 一种配网设备的数据识别与纠错方法
CN110532550A (zh) 一种基于日志词频树的智能系统日志解析处理方法
CN113722489B (zh) 一种基于nlp算法的关系分析方法
Guang Research and analysis of power outage dispatch control system based on customer zero-blackout awareness

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant