CN116402050B - 一种地址归一化及补充方法、装置、电子设备及存储介质 - Google Patents
一种地址归一化及补充方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116402050B CN116402050B CN202211682597.3A CN202211682597A CN116402050B CN 116402050 B CN116402050 B CN 116402050B CN 202211682597 A CN202211682597 A CN 202211682597A CN 116402050 B CN116402050 B CN 116402050B
- Authority
- CN
- China
- Prior art keywords
- address
- data set
- data
- addresses
- acquiring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000010606 normalization Methods 0.000 title claims abstract description 24
- 239000013589 supplement Substances 0.000 title claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 34
- 238000011156 evaluation Methods 0.000 claims description 37
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 230000036962 time dependent Effects 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 5
- 230000009469 supplementation Effects 0.000 claims description 5
- 230000001502 supplementing effect Effects 0.000 claims description 5
- 238000012986 modification Methods 0.000 claims description 4
- 230000004048 modification Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种地址归一化及补充方法、装置、电子设备及存储介质。所述方法包括获取待处理数据集,所述待处理数据集包括具有同一对象的地址数据;根据预设的第一处理规则和所述待处理数据集获得多个关联地址;根据预设的第二处理规则和多个关联地址获得目标地址;修改所有具有同一对象的地址数据为目标地址。以此方式,能够将存在一地多名的地址信息统一为一个标准的地址信息。
Description
技术领域
本申请涉及地址处理的技术领域,尤其是涉及一种地址归一化及补充方法、装置、电子设备及存储介质。
背景技术
归一化是一种简化计算的方式,需要处理的数据经过处理后(通过某种算法)限制一定范围内。
在日常生活中,一些约定俗成的称谓能够准确地标识一个地址,而一个地址也会同时具有多种称谓,如简称、俗称、新旧称谓、前后顺序不一致、以地标物作为地址等。这些情况会使一个地址信息存在多种称谓,从而会在分析一个地址信息时带来较大干扰。
发明内容
根据本申请的实施例,提供了一种地址归一化及补充方案。
在本申请的第一方面,提供了一种地址归一化及补充方法。该方法包括:
获取待处理数据集,所述待处理数据集包括具有同一对象的地址数据;
根据预设的第一处理规则和所述待处理数据集获得多个关联地址;
根据预设的第二处理规则和多个关联地址获得目标地址;
修改所述同一关联地址中的另一地址数据为目标地址。
在一种可能的实现方式中,所述获取待处理数据集的方法包括:
获取关系型数据集;
根据预设的NLP命名实体识别模块获取非关系数据集;
合并所述关系型数据和所述非关系型数据集获得初始数据集;
获取初始数据集中具有同一对象的地址数据,得到待处理数据集。
在一种可能的实现方式中,根据预设的第一处理规则和所述待处理数据集获得多个关联地址的方法包括:
删去所述待处理数据集中相同的地名和数字编码;
根据组合数公式获得个关联地址,其中m为所述待处理数据集中数据的个数,n为关联地址中地址的个数,所述m大于1,所述n为2。
在一种可能的实现方式中,所述根据预设的第二处理规则和多个关联地址获得目标地址的方法包括:
根据预设的词向量模型获取所述多个关联地址的相似度SAB′;
在所述关联地址的相似度大于预设的相似度阈值时,获取所述关联地址的可归一评估值;
在所述可归一评估值大于预设的归一阈值时,获取可归一评估值最大的关联地址;
根据选定指令选择评估值最大的关联地址中的其中一个地址作为目标地址。
在一种可能的实现方式中,所述获取所述关联地址的可归一评估值的方法包括:
获取所述关联地址的地址关系网络关联度;
UAB′为所述关联地址的地址关系网络关联度,CA′为关联地址中其中一个地址在初始数据集中的关联人数,CB′为关联地址中另一地址在初始数据集中的关联人数,Cu为关联地址中具有相同对象的关联人数;
所述地址关系网络关联度的计算公式为:
计算所述关联地址的时间相关叠加概率;
获取两个相邻的关联地址之间的时间间隔GAB′;
标记多个关联地址中最大时间间隔为Gmax;
则每两个关联地址之间的时间调节概率为TGAB′;
所述时间相关叠加概率计算公式为:
计算所述关联地址的可归一评估值;
SUAB′为关联地址的可归一评估值,SAB′为关联地址的相似度;
所述可归一评估值的计算公式为:
SUAB′=SAB′*UAB′+TGAB′。
在一种可能的实现方式中,在修改所有具有同一对象的地址数据为目标地址后,所述方法还包括:
存储所述修改后的具有同一对象的地址数据至归一数据集。
由以上技术方案可知,通过获得初始数据集,初始数据集包括关系型数据和非关系型数据,将初始数据集处理为待处理数据集,通过待处理数据集、预设的第一处理规则和预设的第二处理规则得到目标地址,将关联地址中的地址统一为目标地址,能够将存在一地多名的地址信息统一为一个标准的地址信息
在一种可能的实现方式中,包括应用于提取自然语言的自然语言命名实体识别装置,所述方法还包括:
获取不完整数据;
根据所述自然语言命名实体识别装置提取所述不完整数据中的待检测对象和待补充地址信息;
获取归一数据集中所有包括所述待检测对象的地址信息;
根据所述待补充地址信息和所述归一数据集获得多个关联地址;
根据所述预设的词向量模型获得所述多个关联地址的相似度;
获取所有关联地址中大于预设的相似度阈值的关联地址中相似度最高的关联地址;
补充所述关联地址至不完整数据中。
由以上技术方案可知,在应用的层面上,对于获得到的不完整的地址信息,通过获取的归一数据集对获取的不完整的地址信息进行补充,能够对不精准的地址信息进行标准的地址信息补充。
在本申请的第二方面,提供了一种地址归一化及补充装置。该装置包括:
数据获取模块,用于获取待处理数据集,所述待处理数据集包括具有同一对象的地址数据;
数据筛选模块,用于根据预设的第一处理规则和所述待处理数据集获得多个关联地址;
数据处理模块,用于根据预设的第二处理规则和多个关联地址获得目标地址;
数据修改模块,用于修改所述同一关联地址中的另一地址数据为目标地址。
在本申请的第三方面,提供了一种电子设备。该电子设备包括:存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
在本申请的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如根据本申请的第一方面的方法。
应当理解,发明内容部分中所描述的内容并非旨在限定本申请的实施例的关键或重要特征,亦非用于限制本申请的范围。本申请的其它特征将通过以下的描述变得容易理解。
附图说明
结合附图并参考以下详细说明,本申请各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
图1示出了根据本申请的实施例的一种地址归一化及补充方法的流程图;
图2示出了根据本申请的实施例的一种地址归一化及补充装置的方框图;
图3示出了适于用来实现本申请实施例的终端设备或服务器的结构示意图。
附图标记说明:11、数据获取模块;12、数据筛选模块;13、数据处理模块;14、数据修改模块;301、C1 PU;302、ROM;303、RA1 M;304、总线;305、I/O接口;306、输入部分;307、输出部分;308、存储部分;309、通信部分;310、驱动器;311、可拆卸介质。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本申请保护的范围。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
本申请中,主要包括地址归一化方法和不完整地址的补充方法。
第一部分地址归一化方法:首先获得初始数据集,初始数据集包括关系型数据和非关系型数据,对初始数据集处理为待处理数据集,通过待处理数据集、预设的第一处理规则和预设的第二处理规则得到目标地址。比如户籍档案中某人的地址登记信息和其在房屋登记中地址信息的数据不一致。对于一些较容易识别的地址不一致,比如已经精准到多少路多少号的地址、字母大小写有区别的地址、数字汉字和阿拉伯数字区别地址,可以用很简单的方法进行解决,不在本方法之内,本方法主要解决地名的区别,比如对于同一地址,分别被记录为“A1家园”和“A1小区”等等类似的情况,本方法将以上这样两个或更多的叫法的情况,统一成其中一个较为标准的地址,进行记录。
第二部分不完整地址的补充方法:对所有地址进行归一化之后,再对不完整的地址信息利用归一化之后的结果进行补充标准化。比如存在大量的警情数据,因为报警者的慌张或情绪不安,或者报警者本人也不能准确说出报警信息,导致报警信息中的地址只有某某小区,某某大厦等,并没有完整的省市区路号等信息,导致使用时地址信息缺失,无法定位,从而导致报警信息中的地址的使用价值降低,这样的情况就需要对不精准的地址进行标准补充。
图1示出了根据本申请的实施例的一种地址归一化及补充方法的流程图。
如图1所示:
步骤S100,获取待处理数据集,所述待处理数据集包括具有同一对象的地址数据;
步骤S110,获取关系型数据集;
关系型数据集为可以直接提供对象与地址之间具有绑定关系的数据,则此关系型数据包括但不限于户籍数据,案件数据,物流数据;在具体的事例中,户籍数据:
户籍数据包括人员姓名、身份证号码、手机号、家庭住址和籍贯之类的信息。
同理如果是物流信息,即可获得人员姓名、手机号、收货地址(住址或办公地)之类的信息。
将上述方法获得的数据整理成关系型数据集J10。
步骤S120,根据预设的NLP命名实体识别模块获取非关系数据集;
非关系型数据主要是从文本类数据中提取出的数据,对文本类数据通过NLP命名实体识别模块进行命名实体识别,该命名实体识别模块在计算机网络中使用较为普遍,这里不做解释;从中提取出主要对象与地址。
在具体的事例中,
有一份文本数据为:对,是我的快递,我是张三,我的手机号是11717171717,麻烦把快递送到A1市B1区C1社区一号楼507,谢谢。
通过命名实体识别模块可以从中提取非关系型数据:姓名为张三;手机号为11717171717;地址为A1市B1区C1社区一号楼507;
将上述方法获得的数据汇总形成非关系型数据集J20。
步骤S130,合并所述关系型数据和所述非关系型数据集获得初始数据集;
步骤S140,获取初始数据集中具有同一对象的地址数据,得到待处理数据集;
从初始数据集中获取的具有同一对象的地址数据,该“同一对象”可以为姓名、手机号、身份证号等可以唯一确定地址人员的信息。
步骤S200,根据预设的第一处理规则和所述待处理数据集获得多个关联地址;
步骤S210,删去所述待处理数据集中相同的地名和数字编码;
相同的地名为标准化地名,即省份、市区、县镇等命名准确的地名;数字编码为具体的门牌号或街道号;
在具体的事例中,例如人员张三,对应三个地址,分别为:
地址一,A1市B1区C1社区一号楼507;
地址二,A1市B1区C1小区一号楼507;
地址三,A1市B1区C1家园一号楼507;
经上述方法处理后,得到:
地址一,C1社区;
地址二,C1小区;
地址三,C1家园。
步骤S220,根据组合数公式获得个关联地址,其中m为所述待处理数据集中数据的个数,n为关联地址中地址的个数,所述m大于1,所述n为2;
在上述三个地址中,m为3,n为2;
经上述方法处理后,得到个关联地址,即得到3个关联地址,分别为:
C1社区,C1小区;
C1社区,C1家园;
C1小区,C1家园。
可以理解的是,步骤S210和步骤S220的顺序可以颠倒,其主要目的是获得个删去相同地名和数字编码的关联地址。
步骤S300,根据预设的第二处理规则和多个关联地址获得目标地址;
步骤S310,根据预设的词向量模型获取所述多个关联地址的相似度SAB′;
词向量模型为用于预测关联地址相似度的模型,训练词向量模型需要使用大量的数据文本,还包括步骤S100中提及的初始数据集,因为词向量模型属于现有技术,这里不做赘述。
步骤S320,在所述关联地址的相似度大于预设的相似度阈值时,获取所述关联地址的可归一评估值;
相似度阈值为人为设置的数值,工作人员可以根据实际情况更改相似度阈值的数值,在关联地址的相似度大于相似度阈值时,跳转至步骤S330;可以理解的是,当关联地址的相似度小于等于预设的相似阈值时,该关联地址不进行后续操作,即放弃该关联地址.
步骤S330,在所述可归一评估值大于预设的归一阈值时,获取可归一评估值最大的关联地址;
步骤S331,获取所述关联地址的地址关系网络关联度;
地址关系网络关联度为用于从具有多个对象的初始数据集中评估关联地址中的两个地址在初始数据集中的地址一致性。
UAB′为所述关联地址的地址关系网络关联度,CA′为关联地址中其中一个地址在初始数据集中的关联人数,CB′为关联地址中另一地址在初始数据集中的关联人数,Cu为关联地址中具有相同对象的关联人数。
所述地址关系网络关联度的计算公式为:
步骤S332,计算所述关联地址的时间相关叠加概率;
时间相关叠加概率是从业务的角度出发的,
获取两个相邻的关联地址之间的时间间隔GAB′;标记多个关联地址中最大时间间隔为Gmax;则每组之间的时间调节概率为TGAB′;
所述时间相关叠加概率计算公式为:
步骤S333,计算所述关联地址的可归一评估值;
可归一评估值为一种侧面展示关联地址之间关联程度的数据;
SUAB′为关联地址的可归一评估值,SAB′为关联地址的相似度;
所述可归一评估值的计算公式为:
SUAB′=SAB′*UAB′+TGAB′。
步骤S340,根据选定指令选择评估值最大的关联地址中的其中一个地址作为目标地址。
最后选择出可归一评估值最大的关联地址,关联地址中含有两个地址数据,通常是按照的是结合业务认为的比较规范的一个地址,比如户籍登记信息上填写的地址就比较规范;
在具体的事例中,最后得出的可归一评估值最大的关联地址包括C1社区和C1小区;C1社区是从户籍信息中提取出来的地址信息,C1小区是从物流信息中提取出来的地址信息,显而易见的户籍信息中提取出的“C1社区”在业务关系上更加符合规范,根据选定指令选择“C1社区”为目标地址。
步骤S400,修改所述同一关联地址中的另一地址数据为目标地址;
显而易见的,这里所说的具有同一关联地址中另一地址为不是目标地址的地址数据;例如在步骤S340中提到的“C1小区”,值得注意的是,这里为了后续查验本方法的步骤是否出现误差,需记录本关联地址的可归一评估值。
步骤S500,存储所述修改后的具有同一对象的地址数据至归一数据集;
在上述方法执行完后,继续执行上述的方法,直至遍布初始数据集中所有的地址。
在具体的使用过程中,因为报警者遭遇突发情况,在报警时无法做到冷静描述自身所处位置的准确地址,或报警者自身也不清楚报警地址的标准化地址名称,所以公安从报警者处可能接收到地址不完整的数据;所以还需要对不完整的数据进行补全,此时可以通过归一数据集对不完整的数据进行补充,所以本申请还包括对不完整的地址数据进行补全的方法,上述方法包括:
步骤S610,获取不完整数据;
在具体的事例中,张三发现家中被盗窃,于是报警,警方根据张三的报警语音得到报警文本,报警文本:
收到手机号为13313131313的报警信息,C3家园512发生入室盗窃。
则不完整数据为:手机号13313131313报警称,在C3家园512发生入室盗窃。
步骤S620,根据所述自然语言命名实体识别装置提取所述不完整数据中的待检测对象和待补充地址信息;
通过预设的NLP命名实体识别模块识别上述报警文本,因为报警文本中没有报警者的姓名,所以将报警手机号“13313131313”作为对象,提取非标准地址“C3家园512”。
步骤S630,获取归一数据集中所有包括所述待检测对象的地址信息;
检索归一数据集,从中获取所有对象是“13313131313”的数据,假设归一数据集中对象是“13313131313”的地址信息有三个,分别为:
地址一:A1市B1区C1社区507;
地址二:A1市B2区C2;
地址三:A1市B3区C3家园524。
步骤S640,根据所述待补充地址信息和所述归一数据集获得多个关联地址;
待补充的地址信息为C3家园512,按照步骤S210处理归一数据集中获取的多个对象为“13313131313”的地址数据,处理后获得:
地址一:C1社区;
地址二:C2;
地址三:C3家园;
分别组合待补充地址信息和地址一、地址二、地址三,得到三个关联地址:
关联地址一,C3家园,C1社区;
关联地址二,C3家园,C2;
关联地址三,C3家园,C3家园。
步骤S650,根据所述预设的词向量模型获得所述多个关联地址的相似度;
按照步骤S310预测上述三个关联地址的相似度。
步骤S660,获取所有关联地址中大于预设的相似度阈值的关联地址中相似度最高的关联地址;
显而易见的,“关联地址三,C3家园,C3家园”的相似度最高,即获取关联地址三中不是待补充地址信息的地址信息;
步骤S670,补充所述关联地址至不完整数据中;
补充“A1市B3区C3家园524”中与待补充地址信息“C3家园512”中缺失的部分至待补充地址信息;即将待补充地址信息补充为“A1市B3区C3家园512”,其中“C1家园524”与“C1家园512”之间出现的不同的数字编码应以待补充地址信息为准,需要说明的是,该补充的待补充地址信息仅作为待补充地址信息的参考。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本申请所必须的。
以上是关于方法实施例的介绍,以下通过装置实施例,对本申请所述方案进行进一步说明。
图2示出了根据本申请的实施例的一种地址归一化及补充装置的方框图。
如图2所示,装置包括:
数据获取模块11,用于获取待处理数据集,所述待处理数据集包括具有同一对象的地址数据;
数据筛选模块12,用于根据预设的第一处理规则和所述待处理数据集获得多个关联地址;
数据处理模块13,用于根据预设的第二处理规则和多个关联地址获得目标地址;
数据修改模块14,用于修改所有具有同一对象的地址数据为目标地址。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,所述描述的模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
图3示出了适于用来实现本申请实施例的电子设备的结构示意图。
如图3所示,电子设备包括中央处理单元(CPU)301,其可以根据存储在只读存储器(ROM)302中的程序或者从存储部分308加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理。在RAM 303中,还存储有系统300操作所需的各种程序和数据。CPU301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。
以下部件连接至I/O接口305:包括键盘、鼠标等的输入部分306;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分307;包括硬盘等的存储部分308;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分309。通信部分309经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至I/O接口305。可拆卸介质311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器310上,以便于从其上读出的计算机程序根据需要被安装入存储部分308。
特别地,根据本申请的实施例,上文参考流程图图1描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在机器可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分309从网络上被下载和安装,和/或从可拆卸介质311被安装。在该计算机程序被中央处理单元(CPU)301执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,例如,可以描述为:一种处理器包括数据获取模块,数据筛选模块,数据处理模块和数据修改模块。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定,例如,数据获取模块还可以被描述为“用于获取待处理数据集,所述待处理数据集包括具有同一对象的地址数据的模块”。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中的。上述计算机可读存储介质存储有一个或者多个程序,当上述前述程序被一个或者一个以上的处理器用来执行描述于本申请的地址信息处理方法。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的申请范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离前述申请构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中申请的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (7)
1.一种地址归一化及补充方法,其特征在于,
所述方法包括:
获取待处理数据集,所述待处理数据集包括具有同一对象的地址数据;
根据预设的第一处理规则和所述待处理数据集获得多个关联地址;
根据预设的第二处理规则和多个关联地址获得目标地址;
修改所述同一关联地址中的另一地址数据为目标地址;
所述获取待处理数据集的方法包括:
获取关系型数据集;
根据预设的NLP命名实体识别模块获取非关系型数据集;
合并所述关系型数据集和所述非关系型数据集获得初始数据集;
获取初始数据集中具有同一对象的地址数据,得到待处理数据集;
所述根据预设的第二处理规则和多个关联地址获得目标地址的方法包括:
根据预设的词向量模型获取所述多个关联地址的相似度SAB′;
在所述关联地址的相似度大于预设的相似度阈值时,获取所述关联地址的可归一评估值,可归一评估值为一种侧面展示关联地址之间关联程度的数据;
在所述可归一评估值大于预设的归一阈值时,获取可归一评估值最大的关联地址;
根据选定指令选择评估值最大的关联地址中的其中一个地址作为目标地址;
所述获取所述关联地址的可归一评估值的方法包括:
获取所述关联地址的地址关系网络关联度;
UAB′为所述关联地址的地址关系网络关联度,CA′为关联地址中其中一个地址在初始数据集中的关联人数,CB′为关联地址中另一地址在初始数据集中的关联人数,Cu为关联地址中具有相同对象的关联人数;
所述地址关系网络关联度的计算公式为:
计算所述关联地址的时间相关叠加概率;
获取两个相邻的关联地址之间的时间间隔GAB′;
标记多个关联地址中最大时间间隔为Gmax;
则每两个关联地址之间的时间调节概率为TGAB′;
所述时间相关叠加概率计算公式为:
计算所述关联地址的可归一评估值;
SUAB′为关联地址的可归一评估值,SAB′为关联地址的相似度;
所述可归一评估值的计算公式为:
SUAB′=SAB′*UAB′+TGAB′。
2.根据权利要求1所述的一种地址归一化及补充方法,其特征在于,根据预设的第一处理规则和所述待处理数据集获得多个关联地址的方法包括:
删去所述待处理数据集中相同的地名和数字编码;
根据组合数公式获得个关联地址,其中m为所述待处理数据集中数据的个数,n为关联地址中地址的个数,所述m大于1,所述n为2。
3.根据权利要求1所述的一种地址归一化及补充方法,其特征在于,
在修改所有具有同一对象的地址数据为目标地址后,所述方法还包括:
存储所述修改后的具有同一对象的地址数据至归一数据集。
4.根据权利要求3所述的一种地址归一化及补充方法,其特征在于,包括应用于提取自然语言的自然语言命名实体识别装置,所述方法还包括:
获取不完整数据;
根据所述自然语言命名实体识别装置提取所述不完整数据中的待检测对象和待补充地址信息;获取归一数据集中所有包括所述待检测对象的地址信息;
根据所述待补充地址信息和所述归一数据集获得多个关联地址;
根据所述预设的词向量模型获得所述多个关联地址的相似度;
获取所有关联地址中大于预设的相似度阈值的关联地址中相似度最高的关联地址;
补充所述关联地址至不完整数据中。
5.一种地址归一化及补充装置,其特征在于,包括,
数据获取模块,用于获取待处理数据集,所述待处理数据集包括具有同一对象的地址数据;数据筛选模块,用于根据预设的第一处理规则和所述待处理数据集获得多个关联地址;
数据处理模块,用于根据预设的第二处理规则和多个关联地址获得目标地址;
数据修改模块,用于修改所述同一关联地址中的另一地址数据为目标地址;
所述获取待处理数据集的方法包括:
获取关系型数据集;
根据预设的NLP命名实体识别模块获取非关系型数据集;
合并所述关系型数据集和所述非关系型数据集获得初始数据集;
获取初始数据集中具有同一对象的地址数据,得到待处理数据集;
所述根据预设的第二处理规则和多个关联地址获得目标地址的方法包括:
根据预设的词向量模型获取所述多个关联地址的相似度SAB′;
在所述关联地址的相似度大于预设的相似度阈值时,获取所述关联地址的可归一评估值,可归一评估值为一种侧面展示关联地址之间关联程度的数据;
在所述可归一评估值大于预设的归一阈值时,获取可归一评估值最大的关联地址;
根据选定指令选择评估值最大的关联地址中的其中一个地址作为目标地址;
所述获取所述关联地址的可归一评估值的方法包括:
获取所述关联地址的地址关系网络关联度;
UAB′为所述关联地址的地址关系网络关联度,CA′为关联地址中其中一个地址在初始数据集中的关联人数,CB′为关联地址中另一地址在初始数据集中的关联人数,Cu为关联地址中具有相同对象的关联人数;
所述地址关系网络关联度的计算公式为:
计算所述关联地址的时间相关叠加概率;
获取两个相邻的关联地址之间的时间间隔GAB′;
标记多个关联地址中最大时间间隔为Gmax;
则每两个关联地址之间的时间调节概率为TGAB′;
所述时间相关叠加概率计算公式为:
计算所述关联地址的可归一评估值;
SUAB′为关联地址的可归一评估值,SAB′为关联地址的相似度;
所述可归一评估值的计算公式为:
SUAB′=SAB′*UAB′+TGAB′。
6.一种电子设备,其特征在于,包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行如权利要求1至4中任一种方法的计算机程序。
7.一种计算机可读存储介质,其特征在于,存储有能够被处理器加载并执行如权利要求1至4中任一种方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211682597.3A CN116402050B (zh) | 2022-12-26 | 2022-12-26 | 一种地址归一化及补充方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211682597.3A CN116402050B (zh) | 2022-12-26 | 2022-12-26 | 一种地址归一化及补充方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116402050A CN116402050A (zh) | 2023-07-07 |
CN116402050B true CN116402050B (zh) | 2023-11-10 |
Family
ID=87012916
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211682597.3A Active CN116402050B (zh) | 2022-12-26 | 2022-12-26 | 一种地址归一化及补充方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116402050B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016127904A1 (zh) * | 2015-02-13 | 2016-08-18 | 阿里巴巴集团控股有限公司 | 文本地址处理方法及装置 |
CN111783419A (zh) * | 2020-06-12 | 2020-10-16 | 上海东普信息科技有限公司 | 地址相似度计算方法、装置、设备和存储介质 |
CN112527933A (zh) * | 2020-12-04 | 2021-03-19 | 重庆市地理信息和遥感应用中心 | 一种基于空间位置和文本训练的中文地址关联方法 |
CN113052534A (zh) * | 2021-03-30 | 2021-06-29 | 上海东普信息科技有限公司 | 基于半监督聚类的地址分配方法、装置、设备及存储介质 |
CN114416892A (zh) * | 2021-11-25 | 2022-04-29 | 南京烽火天地通信科技有限公司 | 一种基于自训练地址切分模型的全国地址归一化方法 |
CN115048516A (zh) * | 2022-06-10 | 2022-09-13 | 中国工商银行股份有限公司 | 一种地址相似度的确定方法和装置 |
CN115481242A (zh) * | 2021-06-16 | 2022-12-16 | 阿里巴巴新加坡控股有限公司 | 地址文本聚类方法、装置和设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8682898B2 (en) * | 2010-04-30 | 2014-03-25 | International Business Machines Corporation | Systems and methods for discovering synonymous elements using context over multiple similar addresses |
-
2022
- 2022-12-26 CN CN202211682597.3A patent/CN116402050B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016127904A1 (zh) * | 2015-02-13 | 2016-08-18 | 阿里巴巴集团控股有限公司 | 文本地址处理方法及装置 |
CN105988988A (zh) * | 2015-02-13 | 2016-10-05 | 阿里巴巴集团控股有限公司 | 文本地址处理方法及装置 |
CN111783419A (zh) * | 2020-06-12 | 2020-10-16 | 上海东普信息科技有限公司 | 地址相似度计算方法、装置、设备和存储介质 |
CN112527933A (zh) * | 2020-12-04 | 2021-03-19 | 重庆市地理信息和遥感应用中心 | 一种基于空间位置和文本训练的中文地址关联方法 |
CN113052534A (zh) * | 2021-03-30 | 2021-06-29 | 上海东普信息科技有限公司 | 基于半监督聚类的地址分配方法、装置、设备及存储介质 |
CN115481242A (zh) * | 2021-06-16 | 2022-12-16 | 阿里巴巴新加坡控股有限公司 | 地址文本聚类方法、装置和设备 |
CN114416892A (zh) * | 2021-11-25 | 2022-04-29 | 南京烽火天地通信科技有限公司 | 一种基于自训练地址切分模型的全国地址归一化方法 |
CN115048516A (zh) * | 2022-06-10 | 2022-09-13 | 中国工商银行股份有限公司 | 一种地址相似度的确定方法和装置 |
Non-Patent Citations (2)
Title |
---|
城市地址地名数据库建设;魏伟;;电子世界(第14期);全文 * |
多源地名地址数据融合更新技术方法研究;马春林;;经纬天地(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116402050A (zh) | 2023-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11610394B2 (en) | Neural network model training method and apparatus, living body detecting method and apparatus, device and storage medium | |
EP3451328B1 (en) | Method and apparatus for verifying information | |
CN108831505B (zh) | 用于识别应用的使用场景的方法和装置 | |
US20190014185A1 (en) | Method and apparatus for pushing information | |
US11803855B2 (en) | Method for detecting block chain abnormal behavior based on graph embedding | |
US10417274B2 (en) | Method and apparatus for pushing information | |
CN111612038B (zh) | 异常用户检测方法及装置、存储介质、电子设备 | |
CN110245704B (zh) | 业务处理方法、装置、存储介质与电子设备 | |
CN111160805A (zh) | 应急预案辅助信息获取方法、装置及设备 | |
CN116932919B (zh) | 信息推送方法、装置、电子设备和计算机可读介质 | |
CN109088793B (zh) | 用于检测网络故障的方法和装置 | |
CN113111233B (zh) | 基于正则表达式的接处警文本居住地地址提取方法和装置 | |
CN114708545A (zh) | 基于图像的对象侦测方法、装置、设备和存储介质 | |
CN116402050B (zh) | 一种地址归一化及补充方法、装置、电子设备及存储介质 | |
CN112419312B (zh) | 相似房源信息检测方法、装置、电子设备和可读介质 | |
CN110263135B (zh) | 一种数据交换匹配方法、装置、介质和电子设备 | |
CN113111230B (zh) | 基于正则表达式的接处警文本户籍地地址提取方法和装置 | |
CN115966061A (zh) | 基于5g消息的灾情预警处理方法、系统和装置 | |
CN110119433B (zh) | 用于预测性别的方法和设备 | |
CN114189806A (zh) | 一种生成无线信号指纹数据库的方法、装置及电子设备 | |
CN113111229A (zh) | 基于正则表达式的接处警文本轨迹地地址提取方法和装置 | |
CN113743293A (zh) | 跌倒行为检测方法、装置、电子设备及存储介质 | |
CN113706182A (zh) | 一种用户分类方法和装置 | |
CN113723466B (zh) | 文本相似度量化方法、设备及系统 | |
CN111767722A (zh) | 一种分词方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |