CN114461540B - 一种地址归一化的处理系统 - Google Patents

一种地址归一化的处理系统 Download PDF

Info

Publication number
CN114461540B
CN114461540B CN202210376896.8A CN202210376896A CN114461540B CN 114461540 B CN114461540 B CN 114461540B CN 202210376896 A CN202210376896 A CN 202210376896A CN 114461540 B CN114461540 B CN 114461540B
Authority
CN
China
Prior art keywords
address
normalized
information
distance
determined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210376896.8A
Other languages
English (en)
Other versions
CN114461540A (zh
Inventor
张德文
路博
杨凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Sanxiang Bank Co Ltd
Original Assignee
Hunan Sanxiang Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Sanxiang Bank Co Ltd filed Critical Hunan Sanxiang Bank Co Ltd
Priority to CN202210376896.8A priority Critical patent/CN114461540B/zh
Publication of CN114461540A publication Critical patent/CN114461540A/zh
Application granted granted Critical
Publication of CN114461540B publication Critical patent/CN114461540B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/0223User address space allocation, e.g. contiguous or non contiguous base addressing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/387Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种地址归一化的处理系统,包括,地址信息存储单元,用于存储地址信息;地址信息采集单元,用于采集待归一地址信息,待归一地址信息包括地址文本信息和地址地理信息,其中,地址文本信息包括以地址文本为中心预设区域的文本信息;地址地理信息判定单元,用于根据待归一地址地理信息获取待归一地址信息的区域范围,确定待归一地址的级别;地址文本信息判定单元,用于根据待归一地址文本信息获取待归一地址与待归一地址的级别内各地址的距离,获取待确定地址;归一化处理单元,其与地址文本信息判定单元相连接,用于根据待归一地址与待确定地址的距离与预设距离标准值相比较,判定待归一地址归入信息。

Description

一种地址归一化的处理系统
技术领域
本发明涉及地址归一领域,尤其涉及一种地址归一化的处理系统。
背景技术
归一化是一种简化计算的方式,将需要处理的数据经过处理后(通过某种算法)限制在你需要的一定范围内。为了后面数据处理的方便,保证程序运行时收敛加快。归纳统一样本的统计分布性,将数据进行归一化,在使用机器学习算法的数据预处理阶段,归一化也是非常重要的一个步骤。
在地址的归一化研究中,我们发现在发展过程中,很多地名产生了歧义,其中包括一地多名,或一名多地的现象出现,上述问题造成了在检索或查询过程中出现较为严重的误差,因此亟需一种能够明确地址名称,对地址进行归一化处理的技术方案。
中国专利ZL201310078531.8公开了一种用于地点语义识别的数据库的构建方法及系统,其公开了简单方便获取地点语义识别的数据源,提高地点语义识别的准确性的技术方案,但并未公开如何根据地理和文本信息准确将地址进行归一处理。
发明内容
为此,本发明提供一种地址归一化的处理系统,可以解决无法根据地址地理信息和文本信息准确判定地址的归入信息的技术问题。
为实现上述目的,本发明提供一种地址归一化的处理系统,包括:
地址信息存储单元,用于存储地址信息,所述地址信息存储单元存储有地址信息级别,包括第一级别地址,第二级别地址···以及第n级别地址;
地址信息采集单元,用于采集待归一地址信息,所述待归一地址信息包括地址文本信息和地址地理信息,其中,所述地址文本信息包括以地址文本为中心预设区域的文本信息;
地址地理信息判定单元,其与所述地址信息采集单元相连接,用于根据待归一地址地理信息获取待归一地址信息的区域范围,确定待归一地址的级别;
地址文本信息判定单元,其与所述地址信息采集单元以及所述地址地理信息判定单元相连接,用于根据待归一地址文本信息获取待归一地址与待归一地址的级别内各地址的距离,获取待确定地址;
归一化处理单元,其与所述地址文本信息判定单元相连接,用于根据待归一地址与待确定地址的距离与预设距离标准值相比较,判定待归一地址归入信息。
进一步地,所述地址信息存储单元存储有地址信息级别,包括第一级别地址,第二级别地址、直至第n级别地址,其中n为大于2的整数,所述地址信息存储单元存储有各级别地址地理信息,所述地址地理信息判定单元根据所述地址信息采集单元获取的待归一地址地理信息g,与各级别地址地理信息分别比较,获取待归一地址的级别,其中,
g∈Gi,所述地址地理信息判定单元判定待归一地址地理信息属于第i级别;
g∉Gi,所述地址地理信息判定单元判定待归一地址地理信息不属于第i级别,地址地理信息判定单元将待归一地址地理信息与第(i+1)级别地址的地理信息进行比较;
其中,Gi为第i级别地址的地理信息,i=1,2···n。
进一步地,所述地址地理信息判定单元确定待归一地址的级别后,所述地址文本信息判定单元根据所述地址信息采集单元获取待归一地址文本信息,所述第i级别地址包括若干待比对地址,其中,第一待比对地址M1、待归一地址文本信息第二待比对地址M2、直至待归一地址文本信息第Q待比对地址MQ,其中,Q为大于2的整数,所述地址文本信息判定单元获取第j待比对地址与待归一地址的距离sj,并将获取的距离与预设距离相比较,其中,
当sj≤S1,所述地址文本信息判定单元判定将第j待比对地址记为待确定地址;
当S1<sj<S2,所述地址文本信息判定单元判定将第j待比对地址记为模糊地址;
当sj≥S2,所述地址文本信息判定单元判定不将第j待比对地址记为待确定地址;
其中,所述地址文本信息判定单元预设距离S,设定第一预设距离S1、第二预设距离S2,j=1,2···Q。
进一步地,所述地址文本信息判定单元获取模糊地址的数量记为mh,地址文本信息判定单元将获取的模糊地址数量与预设模糊地址数量相比较,判定增加文本信息数量以明确待确定地址,其中,
当mh≤MH1,所述地址文本信息判定单元不增加文本信息数量;
当MH1<mh<MH2,所述地址文本信息判定单元增加文本信息数量NUM至NUM1,设定NUM1=NUM×(1+(MH2-mh)×(mh-MH1)/(MH1×MH2)),若NUM1为非整数,则向上取整;
当mh≥MH2,所述地址文本信息判定单元增加文本信息数量NUM至NUM2,设定NUM2=NUM×(1+1.2×(mh-MH2)/MH2),若NUM1为非整数,则向上取整;
其中,所述地址文本信息判定单元预设模糊地址数量MH,设定第一预设模糊地址数量MH1,第二预设模糊地址数量MH2。
进一步地,所述地址文本信息判定单元获取模糊地址的数量记为mh,地址文本信息判定单元将获取的模糊地址数量与预设模糊地址数量相比较,判定增加文本信息数量以明确待确定地址,其中,
当mh≤MH1,所述地址文本信息判定单元不增加文本信息数量;
当MH1<mh<MH2,所述地址文本信息判定单元增加文本信息数量NUM至NUM1,设定NUM1=NUM×(1+(MH2-mh)×(mh-MH1)/(MH1×MH2)),若NUM1为非整数,则向上取整;
当mh≥MH2,所述地址文本信息判定单元增加文本信息数量NUM至NUM2,设定NUM2=NUM×(1+1.2×(mh-MH2)/MH2),若NUM1为非整数,则向上取整;
其中,所述地址文本信息判定单元预设模糊地址数量MH,设定第一预设模糊地址数量MH1,第二预设模糊地址数量MH2。
进一步地,所述归一化处理单元获取待确定地址y,其中,第一待确定地址y1、第二待确定地址y2、直至第m待确定地址ym,其中,m为大于2的整数,归一化处理单元根据增加的文本信息对第p待确定地址yp与待归一地址的距离syp调节至syp’,设定syp’=syp×t,其中,t为距离补偿参数,并将调节后的各待确定地址与待归一地址的距离syp’与预设距离标准值相比较,确定待归一地址归入信息,其中,
当syp’<SP1,所述归一化处理单元判定第p待确定地址yp为待归一地址归入信息,若归入信息不唯一,则地址文本信息将待归一地址归入调节后待确定地址与待归一地址距离最小的地址信息;
当SP1<syp’<SP2,所述归一化处理单元判定对预设区域和文本数量进行调节,重新获取各待确定地址与待归一地址的调节后的距离;
当syp’≥SP2,所述归一化处理单元判定待归一地址不归入第p待确定地址,若待归一地址不属于各待确定地址,则归一化处理单元判定将待归一地址更新为当前级别的新地址;
其中,所述归一化处理单元预设距离标准值SP,设定第一预设距离标准值SP1,第二预设距离标准值SP2,p=1,2···m。
进一步地,所述归一化处理单元判定增加文本信息数量以明确待确定地址,归一化处理单元获取增加的第一文本信息中第一待确定地址与待归一地址的距离设为s1y1、增加的第一文本信息中第二待确定地址与待归一地址的距离设为s1y2、至增加的第一文本信息中第m待确定地址与待归一地址的距离设为s1ym,归一化处理单元获取增加的第二文本信息中第一待确定地址与待归一地址的距离设为s2y1、增加的第二文本信息中第二待确定地址与待归一地址的距离设为s2y2、至增加的第二文本信息中第m待确定地址与待归一地址的距离设为s2ym,以此类推,归一化处理单元获取增加的第NUMq文本信息中第一待确定地址与待归一地址的距离设为sNUMqy1、增加的第NUMq文本信息中第二待确定地址与待归一地址的距离设为sNUMqy2、至增加的第NUMq文本信息中第m待确定地址与待归一地址的距离设为sNUMqym其中,所述归一化处理单元获取距离补偿参数t,设定
Figure 602821DEST_PATH_IMAGE001
其中,q=1,2,f=1,2···NUMq。
进一步地,当所述归一化处理单元获取调节后待确定地址与待归一地址的距离sp’在第一预设距离标准值和第二预设距离标准值之间,所述归一化处理单元根据距离补偿参数与预设距离补偿参数相比较,对所述地址文本信息预设的区域进行调节,其中,
当t≤T1,所述归一化处理单元不对预设区域进行调节;
当T1<t<T2,所述归一化处理单元将预设区域Y提高至Y1,设定Y1=Y×(1+(T2-t)×(t-T1)/(T1×T2));
当t≥T2,所述归一化处理单元将预设区域Y提高至Y2,设定Y2=Y×(1+2×(t-T2)/T2);
其中,所述归一化处理单元预设距离补偿参数T,设定第一预设距离补偿参数T1,第二预设距离补偿参数T2。
进一步地,所述地址文本信息预设的区域为文本字符时,所述归一化处理单元选取第一预设调节参数d1对调节后的预设区域Yl修正至Yl1,设定Yl1=Yl×d1;所述地址文本信息预设的区域为行数时,所述归一化处理单元选取第二预设调节参数d2对调节后的预设区域Yl修正至Yl2,设定Yl2=Yl×d2,其中,l=1,2。
进一步地,当所述归一化处理单元获取调节后待确定地址与待归一地址的距离sp’在第一预设距离标准值和第二预设距离标准值之间,所述归一化处理单元将文本信息数量NUMq提高至NUMq1,设定NUMq1=NUMq×(1+(SP2-syp’)×(syp’-SP1)/(SP1×SP2))。
与现有技术相比,本发明的有益效果在于,本发明通过地址地理信息判定单元确定待归一地址级别,根据地址文本信息判定单元确定待确定地址,最终由归一化处理单元根据待归一地址与待确定地址的距离与预设距离标准值相比较,判定待归一地址归入信息。
尤其,本发明地址信息存储单元存储有各级别地址信息,所述各级别地址信息还包括各地址的地理信息,其中各地址的地理信息为范围值,地址地理信息根据地址信息采集单元获取的待归一地址的地理信息与各级别地址的地理信息进行比较,其中,当待归一地址的地理信息属于当前级别地址当前地址,则地址地理信息判定单元判定待归一地址隶属于当前级别地址当前地址,当待归一地址地理信息不属于第一级别地址当前地址,则地址地理信息判定单元将待归一地址的地理信息与下一级别地址相比较,直至与第n级别地址相比较后,仍无法确定待归一地址的级别,则将待归一地址更新为第一级别地址新的级别。
尤其,本发明所述地址地理信息确定待归一地址级别后,为明确待归一地址的归一地址,地址文本信息获取待归一地址级别内的待比对地址,并通过待归一地址文本信息获取待归一地址与各待比对地址的距离,其中,若待归一地址与待比对地址的距离小于等于第一预设距离,说明待归一地址与待比对地址相似度较高,地址文本信息判定将当前待比对地址记为待确定地址,若待归一地址与待比对地址的距离在第一预设距离和第二预设距离之间,说明待归一地址和待比对地址相似度较为不明确,地址文本信息判定单元降当前待比对地址记为模糊地址,若待归一地址与待比对地址的距离大于等于第二预设距离,说明待归一地址与当前待比对地址相似度较低,地址文本信息判定单元判定待比对地址与待归一地址无关,不将其记为待确定地址。
尤其,本发明根据地址文本信息判定单元获取的模糊地址数量与预设模糊地址数量相比较,对文本信息的数量进行调整,以增加对样本数量,以明确待确定地址,其中,若地址文本信息判定单元获取的模糊地址数量小于等于第一预设模糊地址数量,说明当前文本信息量较为准确,地址文本信息判定不增加文本信息数量,若地址文本信息判定单元获取的模糊地址数量在第一预设模糊地址数量和第二预设模糊地址数量之间,说明当前文本信息量略微不准确,地址文本信息判定略增加文本信息数量,若地址文本信息判定单元获取的模糊地址数量大于等于第二预设模糊地址数量和第二预设模糊地址数量,说明当前文本信息量较不准确,地址文本信息判定增加文本信息数量。
尤其,本发明归一化处理单元获取待确定地址,并根据待确定地址与待归一地址的距离与距离补偿参数的乘积确定调节后待确定地址与待归一地址的距离,归一化处理单元根据调节后的待确定地址与待归一地址的距离与预设距离标准值相比较,确定将待归一地址的归一信息,其中,若调节后的待归一地址与待确定地址距离小于等于第一预设距离标准值,所述归一化处理单元判定当前待确定地址为待归一地址归入信息,若归入信息不唯一,则地址文本信息将待归一地址归入调节后待确定地址与待归一地址距离最小的地址信息,即将待归一地址归入调节后距离最小值的待确定地址中;若调节后归一化地址与待确定地址距离在第一预设距离标准值和第二预设距离标准值之间,所述归一化处理单元判定对预设区域和文本数量进行调节,重新获取各待确定地址与待归一地址的调节后的距离;若调节后归一化地址与待确定地址距离大于等于第二预设距离标准值,说明当前待归一地址与当前待确定地址距离较远,相似度较低,所述归一化处理单元判定待归一地址不归入当前待确定地址,若待归一地址不属于各待确定地址,则归一化处理单元判定将待归一地址更新为当前级别的新地址。
尤其,本发明归一化处理单元根据增加的各地址文本信息中各待确定地址与待归一地址的距离综合获取距离补偿参数,并将获取的距离补偿参数与预设距离补偿参数相比较,确定是否对获取待确定地址的文本区域进行调节,其中,若归一化处理单元获取的距离补偿参数小于等于第一预设距离补偿参数,归一化处理单元判定不对预设区域进行调节,若归一化处理单元获取的距离补偿参数在第一预设距离补偿参数和第二预设距离补偿参数之间,归一化处理单元判定提高预设区域,若归一化处理单元获取的距离补偿参数大于等于第二预设距离补偿参数,归一化处理单元判定增加预设区域,以提高待确定地址的准确程度,其中,归一化处理单元还设置有两个调节参数,当预设区域为文本字符时,归一化处理单元选取第一预设调节参数对预设区域进行修正,当预设区域为文本行列数时,归一化处理单元判定选取第二预设调节参数修正预设区域。
附图说明
图1为发明实施例地址归一化的处理系统结构示意图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1所示,其为本发明实施例地址归一化的处理系统结构示意图,包括,地址信息存储单元,用于存储地址信息,所述地址信息存储单元存储有地址信息级别,包括第一级别地址,第二级别地址、直至第n级别地址,其中n为大于2的整数;地址信息采集单元,用于采集待归一地址信息,所述待归一地址信息包括地址文本信息和地址地理信息,其中,所述地址文本信息包括以地址文本为中心预设区域的文本信息;地址地理信息判定单元,其与所述地址信息采集单元相连接,用于根据待归一地址地理信息获取待归一地址信息的区域范围,确定待归一地址的级别;地址文本信息判定单元,其与所述地址信息采集单元以及所述地址地理信息判定单元相连接,用于根据待归一地址文本信息获取待归一地址与待归一地址的级别内各地址的距离,获取待确定地址;归一化处理单元,其与所述地址文本信息判定单元相连接,用于根据待归一地址与待确定地址的距离与预设距离标准值相比较,判定待归一地址归入信息。
其中,所述地址信息存储单元存储有地址信息级别,包括第一级别地址,第二级别地址、直至第n级别地址,其中n为大于2的整数,所述地址信息存储单元存储有各级别地址地理信息,所述地址地理信息判定单元根据所述地址信息采集单元获取的待归一地址地理信息g,与各级别地址地理信息分别比较,获取待归一地址的级别,其中,
g∈Gi,所述地址地理信息判定单元判定待归一地址地理信息属于第i级别;
g∉Gi,所述地址地理信息判定单元判定待归一地址地理信息不属于第i级别,地址地理信息判定单元将待归一地址地理信息与第(i+1)级别地址的地理信息进行比较;
其中,Gi为第i级别地址的地理信息,i=1,2···n。
具体而言,本发明地址信息存储单元存储有各级别地址信息,所述各级别地址信息还包括各地址的地理信息,其中各地址的地理信息为范围值,地址地理信息根据地址信息采集单元获取的待归一地址的地理信息与各级别地址的地理信息进行比较,其中,当待归一地址的地理信息属于当前级别地址当前地址,则地址地理信息判定单元判定待归一地址隶属于当前级别地址当前地址,当待归一地址地理信息不属于第一级别地址当前地址,则地址地理信息判定单元将待归一地址的地理信息与下一级别地址相比较,直至与第n级别地址相比较后,仍无法确定待归一地址的级别,则将待归一地址更新为第一级别地址新的级别。
其中,当所述地址地理信息判定单元确定待归一地址的级别后,所述地址文本信息判定单元根据所述地址信息采集单元获取待归一地址文本信息,所述第i级别地址包括若干待比对地址,其中,第一待比对地址M1、待归一地址文本信息第二待比对地址M2、直至待归一地址文本信息第Q待比对地址MQ,其中,Q为大于2的整数,所述地址文本信息判定单元获取第j待比对地址与待归一地址的距离sj,并将获取的距离与预设距离相比较,其中,
当sj≤S1,所述地址文本信息判定单元判定将第j待比对地址记为待确定地址;
当S1<sj<S2,所述地址文本信息判定单元判定将第j待比对地址记为模糊地址;
当sj≥S2,所述地址文本信息判定单元判定不将第j待比对地址记为待确定地址;
其中,所述地址文本信息判定单元预设距离S,设定第一预设距离S1、第二预设距离S2,j=1,2···Q。
具体而言,本发明所述地址地理信息确定待归一地址级别后,为明确待归一地址的归一地址,地址文本信息获取待归一地址级别内的待比对地址,并通过待归一地址文本信息获取待归一地址与各待比对地址的距离,其中,若待归一地址与待比对地址的距离小于等于第一预设距离,说明待归一地址与待比对地址相似度较高,地址文本信息判定将当前待比对地址记为待确定地址,若待归一地址与待比对地址的距离在第一预设距离和第二预设距离之间,说明待归一地址和待比对地址相似度较为不明确,地址文本信息判定单元降当前待比对地址记为模糊地址,若待归一地址与待比对地址的距离大于等于第二预设距离,说明待归一地址与当前待比对地址相似度较低,地址文本信息判定单元判定待比对地址与待归一地址无关,不将其记为待确定地址。
具体而言,待归一地址文本信息为所述采集单元获取的记录有待归一地址文本信息的文本,本发明实施例对该文本不作限定,其可以是搜索到待归一地址文本信息的文本,也可以是待归一地址文本信息的匹配文本,更具体地说,本发明实施例对待归一地址文本信息的数量不作限定,其可以一份,也可以是多份。
具体而言,本发明实施例中待归一地址与待比对地址的距离不作限定,只要其能够评价待归一地址与待比对地址的相似度即可,本发明实施例中待归一地址与待比对地址的距离可以通过编辑距离算法,也可以采用Word2vec向量的余弦距离进行衡量。
其中,所述地址文本信息判定单元获取模糊地址的数量记为mh,地址文本信息判定单元将获取的模糊地址数量与预设模糊地址数量相比较,判定增加文本信息数量以明确待确定地址,其中,
当mh≤MH1,所述地址文本信息判定单元不增加文本信息数量;
当MH1<mh<MH2,所述地址文本信息判定单元增加文本信息数量NUM至NUM1,设定NUM1=NUM×(1+(MH2-mh)×(mh-MH1)/(MH1×MH2)),若NUM1为非整数,则向上取整;
当mh≥MH2,所述地址文本信息判定单元增加文本信息数量NUM至NUM2,设定NUM2=NUM×(1+1.2×(mh-MH2)/MH2),若NUM1为非整数,则向上取整;
其中,所述地址文本信息判定单元预设模糊地址数量MH,设定第一预设模糊地址数量MH1,第二预设模糊地址数量MH2。
具体而言,本发明根据地址文本信息判定单元获取的模糊地址数量与预设模糊地址数量相比较,对文本信息的数量进行调整,以增加对样本数量,以明确待确定地址,其中,若地址文本信息判定单元获取的模糊地址数量小于等于第一预设模糊地址数量,说明当前文本信息量较为准确,地址文本信息判定不增加文本信息数量,若地址文本信息判定单元获取的模糊地址数量在第一预设模糊地址数量和第二预设模糊地址数量之间,说明当前文本信息量略微不准确,地址文本信息判定略增加文本信息数量,若地址文本信息判定单元获取的模糊地址数量大于等于第二预设模糊地址数量和第二预设模糊地址数量,说明当前文本信息量较不准确,地址文本信息判定增加文本信息数量。
具体而言,本发明实施例对文本信息量的获取方式不作限定,只要其能够增加样本量进行分析待确定地址的信息即可,本发明实施例根据地址文本信息判定单元获取的模糊地址数量与预设模糊地址数量相比较,确定增加样本量,该增加的文本信息数量可以以时间为基准,获取待归一地址文本信息之前的样本数量对待确定地址进一步的确定。
其中,所述归一化处理单元获取待确定地址y,其中,第一待确定地址y1、第二待确定地址y2、直至第m待确定地址ym,其中,m为大于2的整数,归一化处理单元根据增加的文本信息对第p待确定地址yp与待归一地址的距离syp调节至syp’,设定syp’=syp×t,其中,t为距离补偿参数,并将调节后的各待确定地址与待归一地址的距离syp’与预设距离标准值相比较,确定待归一地址归入信息,其中,
当syp’<SP1,所述归一化处理单元判定第p待确定地址yp为待归一地址归入信息,若归入信息不唯一,则地址文本信息将待归一地址归入调节后待确定地址与待归一地址距离最小的地址信息;
当SP1<syp’<SP2,所述归一化处理单元判定对预设区域和文本数量进行调节,重新获取各待确定地址与待归一地址的调节后的距离;
当syp’≥SP2,所述归一化处理单元判定待归一地址不归入第p待确定地址,若待归一地址不属于各待确定地址,则归一化处理单元判定将待归一地址更新为当前级别的新地址;
其中,所述归一化处理单元预设距离标准值SP,设定第一预设距离标准值SP1,第二预设距离标准值SP2,p=1,2···m。
具体而言,本发明归一化处理单元获取待确定地址,并根据待确定地址与待归一地址的距离与距离补偿参数的乘积确定调节后待确定地址与待归一地址的距离,归一化处理单元根据调节后的待确定地址与待归一地址的距离与预设距离标准值相比较,确定将待归一地址的归一信息,其中,若调节后的待归一地址与待确定地址距离小于等于第一预设距离标准值,所述归一化处理单元判定当前待确定地址为待归一地址归入信息,若归入信息不唯一,则地址文本信息将待归一地址归入调节后待确定地址与待归一地址距离最小的地址信息,即将待归一地址归入调节后距离最小值的待确定地址中;若调节后归一化地址与待确定地址距离在第一预设距离标准值和第二预设距离标准值之间,所述归一化处理单元判定对预设区域和文本数量进行调节,重新获取各待确定地址与待归一地址的调节后的距离;若调节后归一化地址与待确定地址距离大于等于第二预设距离标准值,说明当前待归一地址与当前待确定地址距离较远,相似度较低,所述归一化处理单元判定待归一地址不归入当前待确定地址,若待归一地址不属于各待确定地址,则归一化处理单元判定将待归一地址更新为当前级别的新地址。
其中,当所述归一化处理单元判定增加文本信息数量以明确待确定地址时,归一化处理单元获取增加的第一文本信息中第一待确定地址与待归一地址的距离设为s1y1、增加的第一文本信息中第二待确定地址与待归一地址的距离设为s1y2···至增加的第一文本信息中第m待确定地址与待归一地址的距离设为s1ym,归一化处理单元获取增加的第二文本信息中第一待确定地址与待归一地址的距离设为s2y1、增加的第二文本信息中第二待确定地址与待归一地址的距离设为s2y2、至增加的第一文本信息中第m待确定地址与待归一地址的距离设为s1ym,归一化处理单元获取增加的第二文本信息中第一待确定地址与待归一地址的距离设为s2y1、增加的第二文本信息中第二待确定地址与待归一地址的距离设为s2y2、至增加的第二文本信息中第m待确定地址与待归一地址的距离设为s2ym,以此类推,归一化处理单元获取增加的第NUMq文本信息中第一待确定地址与待归一地址的距离设为sNUMqy1、增加的第NUMq文本信息中第二待确定地址与待归一地址的距离设为sNUMqy2、至增加的第NUMq文本信息中第m待确定地址与待归一地址的距离设为sNUMqym其中,,所述归一化处理单元获取距离补偿参数t,设定
Figure 159704DEST_PATH_IMAGE002
,其中,q=1,2,f=1,2···NUMq。
具体而言,当所述归一化处理单元获取调节后待确定地址与待归一地址的距离sp’在第一预设距离标准值和第二预设距离标准值之间,所述归一化处理单元根据距离补偿参数与预设距离补偿参数相比较,对所述地址文本信息预设的区域进行调节,其中,
当t≤T1,所述归一化处理单元不对预设区域进行调节;
当T1<t<T2,所述归一化处理单元将预设区域Y提高至Y1,设定Y1=Y×(1+(T2-t)×(t-T1)/(T1×T2));
当t≥T2,所述归一化处理单元将预设区域Y提高至Y2,设定Y2=Y×(1+2×(t-T2)/T2);
其中,所述归一化处理单元预设距离补偿参数T,设定第一预设距离补偿参数T1,第二预设距离补偿参数T2。
具体而言,本发明实施例对第一预设调节参数和第二预设调节参数不作限定,只要其能够对预设区域进行修正即可,本发明实施例提供一种优选的实施方案,其中,第一预设调节参数为2-6,第二预设调节参数为1-4。
所述地址文本信息预设的区域为文本字符时,所述归一化处理单元选取第一预设调节参数d1对调节后的预设区域Yl修正至Yl1,设定Yl1=Yl×d1,其中,l=1,2。
所述地址文本信息预设的区域为行数时,所述归一化处理单元选取第二预设调节参数d2对调节后的预设区域Yl修正至Yl2,设定Yl2=Yl×d2。
当所述归一化处理单元获取调节后待确定地址与待归一地址的距离sp’在第一预设距离标准值和第二预设距离标准值之间,所述归一化处理单元将文本信息数量NUMq提高至NUMq1,设定NUMq1=NUMq×(1+(SP2-syp’)×(syp’-SP1)/(SP1×SP2))。
具体而言,本发明归一化处理单元根据增加的各地址文本信息中各待确定地址与待归一地址的距离综合获取距离补偿参数,并将获取的距离补偿参数与预设距离补偿参数相比较,确定是否对获取待确定地址的文本区域进行调节,其中,若归一化处理单元获取的距离补偿参数小于等于第一预设距离补偿参数,归一化处理单元判定不对预设区域进行调节,若归一化处理单元获取的距离补偿参数在第一预设距离补偿参数和第二预设距离补偿参数之间,归一化处理单元判定提高预设区域,若归一化处理单元获取的距离补偿参数大于等于第二预设距离补偿参数,归一化处理单元判定增加预设区域,以提高待确定地址的准确程度,其中,归一化处理单元还设置有两个调节参数,当预设区域为文本字符时,归一化处理单元选取第一预设调节参数对预设区域进行修正,当预设区域为文本行列数时,归一化处理单元判定选取第二预设调节参数修正预设区域。
具体而言,本发明实施例,各小区地址归一化的处理系统用于解决同一小区名称不同,例如在修建时期,对小区临时名称为A1小区,建成后,小区更名为A2小区,尤其是老旧小区由于历史问题,同一个小区名称很多,因此较难统一管理,因此,本系统建立地址信息存储单元,用于存储地址信息,所述地址信息存储单元存储有地址信息级别,包括若干第一级别地址,分别为花园小区,绿树小区,森林小区,其中,第一级别地址花园小区下设有第二级别地址,分别为花园小区一期、花园小区二期、花园小区三期,第二级别地址花园小区一期下设有第三级别地址,分别为花园小区一期第一单元、花园小区一期第二单元、花园小区一期第三单元,第三级别地址花园小区一期第一单元下设有第四级别地址,分别为花园小区一期第一单元一号楼、花园小区一期第一单元二号楼、花园小区一期第一单元三号楼。
当地址信息采集单元采集待归一地址信息,所述待归一地址信息包括地址文本信息和地址地理信息,待归一信息中地址为花园红楼,地址信息采集单元获取花园红楼的地址地理信息以及花园红楼的地址文本信息,获取若干有花园红楼的文本,将花园红楼为中心点,获取预设区域内文本信息为花园红楼地址文本信息。
地址地理信息判定单元根据花园红楼的地理信息与存储的各级别地址地理信息相比较,确定花园红楼的级别,本发明实施例中,花园红楼的地理信息在第一预设第一级别地址范围内,即花园红楼属于花园小区,确定了花园红楼属于第一预设第一级别地址,将花园红楼的地理信息花园小区第一级别下设的第二级别地址相比较,确定花园红楼属于第一预设第一级别地址的第二预设第二级别地址,即花园红楼属于花园小区二期,将花园红楼的地理信息第一级别地址下设第二级别地址下设的第三级别地址地理信息相比较,无法确定花园红楼属于花园小区二期各第三级别地址,因此需启动地址文本信息判定单元对待归一地址即花园红楼归入哪个级别或更新新的地址。
所述地址文本信息获取若干有花园红楼的文本,以花园红楼为中心词,获取预设区域内文本信息为花园红楼地址文本信息,其中,花园红楼的文本数以10以上为较优,文本以较新的文本为主,具体而言,本发明实施例中预设区域不做限定,区域可以是字符数也可以是文本的行列数。所述地址文本信息判定单元根据花园红楼地址文本信息获取花园红楼与花园红楼地址文本信息中各地址的距离,并根据获取的距离与预设距离相比较,确定花园红楼的待归入信息。
归一化处理单元,根据花园红楼的待确定地址与花园红楼的距离确定花园红楼的归入信息或更新为新的地址。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (7)

1.一种地址归一化的处理系统,其特征在于,包括:
地址信息存储单元,用于存储地址信息,所述地址信息存储单元存储有地址信息级别,包括第一级别地址,第二级别地址···以及第n级别地址;
地址信息采集单元,用于采集待归一地址信息,所述待归一地址信息包括地址文本信息和地址地理信息,其中,所述地址文本信息包括以地址文本为中心预设区域的文本信息;
地址地理信息判定单元,其与所述地址信息采集单元相连接,用于根据待归一地址地理信息获取待归一地址信息的区域范围,确定待归一地址的级别;
地址文本信息判定单元,其与所述地址信息采集单元以及所述地址地理信息判定单元相连接,用于根据待归一地址文本信息获取待归一地址与待归一地址的级别内各地址的距离,获取待确定地址;
归一化处理单元,其与所述地址文本信息判定单元相连接,用于根据待归一地址与待确定地址的距离与预设距离标准值相比较,判定待归一地址归入信息;
所述地址信息存储单元存储有地址信息级别,包括第一级别地址,第二级别地址、直至第n级别地址,其中n为大于2的整数,所述地址信息存储单元存储有各级别地址地理信息,所述地址地理信息判定单元根据所述地址信息采集单元获取的待归一地址地理信息g,与各级别地址地理信息分别比较,获取待归一地址的级别,其中,
g∈Gi,所述地址地理信息判定单元判定待归一地址地理信息属于第i级别;
g∉Gi,所述地址地理信息判定单元判定待归一地址地理信息不属于第i级别,地址地理信息判定单元将待归一地址地理信息与第(i+1)级别地址的地理信息进行比较;
其中,Gi为第i级别地址的地理信息,i=1,2···n;
所述地址地理信息判定单元确定待归一地址的级别后,所述地址文本信息判定单元根据所述地址信息采集单元获取待归一地址文本信息,所述第i级别地址包括若干待比对地址,其中,第一待比对地址M1、待归一地址文本信息第二待比对地址M2、直至待归一地址文本信息第Q待比对地址MQ,其中,Q为大于2的整数,所述地址文本信息判定单元获取第j待比对地址与待归一地址的距离sj,并将获取的距离与预设距离相比较,其中,
当sj≤S1,所述地址文本信息判定单元判定将第j待比对地址记为待确定地址;
当S1<sj<S2,所述地址文本信息判定单元判定将第j待比对地址记为模糊地址;
当sj≥S2,所述地址文本信息判定单元判定不将第j待比对地址记为待确定地址;
其中,所述地址文本信息判定单元预设距离S,设定第一预设距离S1、第二预设距离S2,j=1,2···Q。
2.根据权利要求1所述的地址归一化的处理系统,其特征在于,所述地址文本信息判定单元获取模糊地址的数量记为mh,地址文本信息判定单元将获取的模糊地址数量与预设模糊地址数量相比较,判定增加文本信息数量以明确待确定地址,其中,
当mh≤MH1,所述地址文本信息判定单元不增加文本信息数量;
当MH1<mh<MH2,所述地址文本信息判定单元增加文本信息数量NUM至NUM1,设定NUM1=NUM×(1+(MH2-mh)×(mh-MH1)/(MH1×MH2)),若NUM1为非整数,则向上取整;
当mh≥MH2,所述地址文本信息判定单元增加文本信息数量NUM至NUM2,设定NUM2=NUM×(1+1.2×(mh-MH2)/MH2),若NUM1为非整数,则向上取整;
其中,所述地址文本信息判定单元预设模糊地址数量MH,设定第一预设模糊地址数量MH1,第二预设模糊地址数量MH2。
3.根据权利要求1所述的地址归一化的处理系统,其特征在于,所述归一化处理单元获取待确定地址y,其中,第一待确定地址y1、第二待确定地址y2、直至第m待确定地址ym,其中,m为大于2的整数,归一化处理单元根据增加的文本信息对第p待确定地址yp与待归一地址的距离syp调节至syp’,设定syp’=syp×t,其中,t为距离补偿参数,并将调节后的各待确定地址与待归一地址的距离syp’与预设距离标准值相比较,确定待归一地址归入信息,其中,
当syp’<SP1,所述归一化处理单元判定第p待确定地址yp为待归一地址归入信息,若归入信息不唯一,则地址文本信息将待归一地址归入调节后待确定地址与待归一地址距离最小的地址信息;
当SP1<syp’<SP2,所述归一化处理单元判定对预设区域和文本数量进行调节,重新获取各待确定地址与待归一地址的调节后的距离;
当syp’≥SP2,所述归一化处理单元判定待归一地址不归入第p待确定地址,若待归一地址不属于各待确定地址,则归一化处理单元判定将待归一地址更新为当前级别的新地址;
其中,所述归一化处理单元预设距离标准值SP,设定第一预设距离标准值SP1,第二预设距离标准值SP2,p=1,2···m。
4.根据权利要求3所述的地址归一化的处理系统,其特征在于,所述归一化处理单元判 定增加文本信息数量以明确待确定地址,归一化处理单元获取增加的第一文本信息中第一 待确定地址与待归一地址的距离设为s1y1、增加的第一文本信息中第二待确定地址与待归 一地址的距离设为s1y2、至增加的第一文本信息中第m待确定地址与待归一地址的距离设 为s1ym,归一化处理单元获取增加的第二文本信息中第一待确定地址与待归一地址的距离 设为s2y1、增加的第二文本信息中第二待确定地址与待归一地址的距离设为s2y2、至增加 的第二文本信息中第m待确定地址与待归一地址的距离设为s2ym,以此类推,归一化处理单 元获取增加的第NUMq文本信息中第一待确定地址与待归一地址的距离设为sNUMqy1、增加 的第NUMq文本信息中第二待确定地址与待归一地址的距离设为sNUMqy2、至增加的第NUMq 文本信息中第m待确定地址与待归一地址的距离设为sNUMqym,所述归一化处理单元获取距 离补偿参数t,设定
Figure 431896DEST_PATH_IMAGE001
,其中,q= 1,2,f=1,2···NUMq。
5.根据权利要求2所述的地址归一化的处理系统,其特征在于,当所述归一化处理单元获取调节后待确定地址与待归一地址的距离sp’在第一预设距离标准值和第二预设距离标准值之间,所述归一化处理单元根据距离补偿参数与预设距离补偿参数相比较,对所述地址文本信息预设的区域进行调节,其中,
当t≤T1,所述归一化处理单元不对预设区域进行调节;
当T1<t<T2,所述归一化处理单元将预设区域Y提高至Y1,设定Y1=Y×(1+(T2-t)×(t-T1)/(T1×T2));
当t≥T2,所述归一化处理单元将预设区域Y提高至Y2,设定Y2=Y×(1+2×(t-T2)/T2);
其中,所述归一化处理单元预设距离补偿参数T,设定第一预设距离补偿参数T1,第二预设距离补偿参数T2。
6.根据权利要求5所述的地址归一化的处理系统,其特征在于,所述地址文本信息预设的区域为文本字符时,所述归一化处理单元选取第一预设调节参数d1对调节后的预设区域Yl修正至Yl1,设定Yl1=Yl×d1;所述地址文本信息预设的区域为行数时,所述归一化处理单元选取第二预设调节参数d2对调节后的预设区域Yl修正至Yl2,设定Yl2=Yl×d2,其中,l=1,2。
7.根据权利要求6所述的地址归一化的处理系统,其特征在于,当所述归一化处理单元获取调节后待确定地址与待归一地址的距离sp’在第一预设距离标准值和第二预设距离标准值之间,所述归一化处理单元将文本信息数量NUMq提高至NUMq1,设定NUMq1=NUMq×(1+(SP2-syp’)×(syp’-SP1)/(SP1×SP2))。
CN202210376896.8A 2022-04-12 2022-04-12 一种地址归一化的处理系统 Active CN114461540B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210376896.8A CN114461540B (zh) 2022-04-12 2022-04-12 一种地址归一化的处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210376896.8A CN114461540B (zh) 2022-04-12 2022-04-12 一种地址归一化的处理系统

Publications (2)

Publication Number Publication Date
CN114461540A CN114461540A (zh) 2022-05-10
CN114461540B true CN114461540B (zh) 2022-07-12

Family

ID=81417214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210376896.8A Active CN114461540B (zh) 2022-04-12 2022-04-12 一种地址归一化的处理系统

Country Status (1)

Country Link
CN (1) CN114461540B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5699285A (en) * 1995-10-16 1997-12-16 Mitsubishi Denki Kabushiki Kaisha Normalization circuit device of floating point computation device
CN104965920A (zh) * 2015-07-08 2015-10-07 百度在线网络技术(北京)有限公司 用于确定目标地址的方法和装置
CN106326233A (zh) * 2015-06-18 2017-01-11 阿里巴巴集团控股有限公司 地址提示方法及装置
CN111538914A (zh) * 2019-02-01 2020-08-14 阿里巴巴集团控股有限公司 地址信息的处理方法和装置
CN114168705A (zh) * 2021-12-03 2022-03-11 南京大峡谷信息科技有限公司 一种基于地址要素索引的中文地址匹配方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10133807B2 (en) * 2015-06-30 2018-11-20 Researchgate Gmbh Author disambiguation and publication assignment
CN112988933A (zh) * 2021-03-11 2021-06-18 北京汇钧科技有限公司 地址信息管理的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5699285A (en) * 1995-10-16 1997-12-16 Mitsubishi Denki Kabushiki Kaisha Normalization circuit device of floating point computation device
CN106326233A (zh) * 2015-06-18 2017-01-11 阿里巴巴集团控股有限公司 地址提示方法及装置
CN104965920A (zh) * 2015-07-08 2015-10-07 百度在线网络技术(北京)有限公司 用于确定目标地址的方法和装置
CN111538914A (zh) * 2019-02-01 2020-08-14 阿里巴巴集团控股有限公司 地址信息的处理方法和装置
CN114168705A (zh) * 2021-12-03 2022-03-11 南京大峡谷信息科技有限公司 一种基于地址要素索引的中文地址匹配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
非均权-动态规划地址匹配算法设计与实现;徐嘉康;《小型微型计算机系统》;20210319;全文 *

Also Published As

Publication number Publication date
CN114461540A (zh) 2022-05-10

Similar Documents

Publication Publication Date Title
US5659731A (en) Method for rating a match for a given entity found in a list of entities
CN111046035B (zh) 数据自动化处理方法、系统、计算机设备及可读存储介质
EP3846048A1 (en) Online log analysis method, system, and electronic terminal device thereof
CN114048870A (zh) 一种基于日志特征智能挖掘的电力系统异常监测方法
CN110659175A (zh) 日志的主干提取方法、分类方法、设备及存储介质
CN111078512A (zh) 告警记录生成方法、装置、告警设备及存储介质
CN117478390A (zh) 一种基于改进密度峰值聚类算法的网络入侵检测方法
CN114443863A (zh) 工控网络中基于机器学习的攻击向量生成方法及系统
CN114461540B (zh) 一种地址归一化的处理系统
CN116015965A (zh) 一种网络恶意流量的多维度检测及防御系统
CN113554079B (zh) 一种基于二次检测法的电力负荷异常数据检测方法及系统
CN114880318A (zh) 一种基于数据标准实现自动化数据治理的方法及系统
Lim et al. Implementation of the POW (phonetically optimized words) algorithm for speech database
CN114996287B (zh) 一种基于特征库的设备自动识别和扩容方法
CN113392286B (zh) 大数据信息采集系统
CN115775060A (zh) 一种不动产存量数据整理方法及其应用
CN115544235A (zh) 一种基于文本解析的电网规划智能问答系统
CN115186138A (zh) 一种配电网数据的比对方法及终端
CN110097126B (zh) 基于dbscan聚类算法的核查重点人员、房屋漏登记的方法
CN117251554B (zh) 一种非标准地址转标准地址的方法
CN117131251B (zh) 一种基于云计算的多维数据分析处理系统及方法
CN117609529B (zh) 电子元器件的替代检索方法及其系统
CN118568453A (zh) 光伏组串故障识别方法及装置
CN118250186A (zh) 一种基于改进卷积神经网络的工控设备识别方法及系统
CN114757398A (zh) 一种铁塔倾斜传感器节点最小用量部署方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant