CN113343688A - 地址相似度确定方法、装置和计算机设备 - Google Patents

地址相似度确定方法、装置和计算机设备 Download PDF

Info

Publication number
CN113343688A
CN113343688A CN202110690657.5A CN202110690657A CN113343688A CN 113343688 A CN113343688 A CN 113343688A CN 202110690657 A CN202110690657 A CN 202110690657A CN 113343688 A CN113343688 A CN 113343688A
Authority
CN
China
Prior art keywords
address
similarity
value
series
original address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110690657.5A
Other languages
English (en)
Inventor
王济宣
侯亦杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Xingyun Digital Technology Co Ltd
Original Assignee
Nanjing Xingyun Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Xingyun Digital Technology Co Ltd filed Critical Nanjing Xingyun Digital Technology Co Ltd
Priority to CN202110690657.5A priority Critical patent/CN113343688A/zh
Publication of CN113343688A publication Critical patent/CN113343688A/zh
Priority to CA3164883A priority patent/CA3164883A1/en
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种地址相似度确定方法、装置和计算机设备。地址相似度确定方法包括:获取第一原始地址中的第一具体地址信息,以及获取第二原始地址中的第二具体地址信息;采用N‑Gram模型对第一具体地址信息进行分词,得到第一系列分词,以及采用N‑Gram模型对第二具体地址信息进行分词,得到第二系列分词;对第一系列分词和第二系列分词进行相似度计算,获得第一类相似度值;根据第一类相似度值,确定第一原始地址和第二原始地址的相似度。采用本方法能准确确定第一原始地址和第二原始地址的相似度。

Description

地址相似度确定方法、装置和计算机设备
技术领域
本申请涉及计算机数据处理技术领域,特别是涉及一种地址相似度确定方法、装置和计算机设备。
背景技术
目前,地址相似度判断的技术广泛应用于各领域,如金融保险领域,需要侦测用户有意或无意状况下提供的虚假错误地址从而进行更加准确的信用判断,作为电商平台需要侦测用户的收货地址从而判断刷单等行为。在具体应用场合中,大量相似度较高的地址可能被当作异常地址,计算机会根据这些地址生成异常地址列表,供审核人员专门审核或处理。
目前常用的地址相似度判断的方法主要是使用字符串间的属性进行比较,例如文本编辑距离,或其他字符串距离算法。然而,由于地址字符串一般不能通过差多少字来展现其差别,例如“南京市北京西路100号”和“上海市北京西路100号”,从文本上11个字符中仅相差2个字符,但是实际上完全不指代同一地址或是接近的地址。因此,此类方法对地址相似度的判断,准确度较低。
发明内容
基于此,有必要针对上述技术问题,提供一种地址相似度确定方法、装置和计算机设备,能够提高地址相似度的准确度。
一种地址相似度确定方法,包括:
获取第一原始地址中的第一具体地址信息,所述第一具体地址信息为由所述第一原始地址中除行政区域信息之外的地址信息构成,以及获取第二原始地址中的第二具体地址信息,所述第二具体地址信息为由所述第二原始地址中除行政区域信息之外的地址信息构成,其中,所述第一原始地址的行政区域信息和所述第二原始地址的行政区域信息表征同一行政区域;采用N-Gram模型对所述第一具体地址信息进行分词,得到第一系列分词,以及采用N-Gram模型对所述第二具体地址信息进行分词,得到第二系列分词;对所述第一系列分词和所述第二系列分词进行相似度计算,获得第一类相似度值;根据所述第一类相似度值,确定所述第一原始地址和所述第二原始地址的相似度。
在其中一个实施例中,所述第一具体地址信息包括第一描述字段和第一门牌信息,所述采用N-Gram模型对所述第一具体地址信息进行分词,得到第一系列分词,包括:采用所述N-Gram模型对所述第一描述字段进行分词,得到所述第一系列分词;所述第二具体地址信息包括第二描述字段和第二门牌信息,所述采用N-Gram模型对所述第二具体地址信息进行分词,得到第二系列分词,包括:采用所述N-Gram模型对所述第二描述字段进行分词,得到所述第二系列分词;所述方法还包括:对所述第一门牌信息和所述第二门牌信息进行相似度计算,获得第二类相似度值;所述根据所述第一类相似度值,确定所述第一原始地址和所述第二原始地址的相似度,包括:根据所述第一类相似度值和所述第二类相似度值,确定所述第一原始地址和所述第二原始地址的相似度。
在其中一个实施例中,所述采用所述N-Gram模型对所述第一描述字段进行分词,得到所述第一系列分词,包括:确定所述第一描述字段的长度值,根据所述第一描述字段的长度值确定一个以上的第一分词长度值;根据所述一个以上的第一分词长度值,采用所述N-Gram模型对所述第一描述字段进行分词,得到与各第一分词长度值对应的第一系列分词;所述采用所述N-Gram模型对所述第二描述字段进行分词,得到所述第二系列分词,包括:确定所述第二描述字段的长度值,根据所述第二描述字段的长度值,确定一个以上的第二分词长度值;根据所述一个以上的第二分词长度值,采用所述N-Gram模型对所述第二描述字段进行分词,得到与各第二分词长度值对应的第二系列分词;所述对所述第一系列分词和所述第二系列分词进行相似度计算,获得第一类相似度值,包括:对分词长度值相同的所述第一系列分词和所述第二系列分词进行相似度计算,获得所述第一类相似度值。
在其中一个实施例中,所述根据所述第一描述字段的长度值确定一个或多个的第一分词长度值,包括:根据所述第一描述字段的长度值,确定出多个不大于所述第一描述字段的长度值的第一分词长度值;所述根据所述一个以上的第一分词长度值,采用所述N-Gram模型对所述第一描述字段进行分词,得到与第一分词长度值对应的第一系列分词,包括:将所述各第一分词长度值分别作为所述N-Gram模型中的N值,对所述第一描述字段进行分词,得到各第一分词长度值对应的第一系列分词;所述根据所述第二描述字段的长度值确定一个或多个的第二分词长度值,包括:根据所述第二描述字段的长度值,确定出多个不大于所述第二描述字段的长度值的第二分词长度值;所述根据所述一个以上的第二分词长度值,采用所述N-Gram模型对所述第二描述字段进行分词,得到与第二分词长度值对应的第一系列分词,包括:将各第二分词长度值作为所述N-Gram模型中的N值,对所述第二描述字段进行分词,得到各第二分词长度值对应的第二系列分词;所述对分词长度值相同的所述第一系列分词和所述第二系列分词进行相似度计算,获得所述第一类相似度值,包括:按照分词长度值从大到小的排序,依次从多个所述第一系列分词以及多个所述第二系列分词中选取分词长度值相同的第一系列分词和第二系列分词进行相似度计算,当相似度计算结果满足预设要求时,根据所述相似度计算结果获得所述第一类相似度值。
在其中一个实施例中,所述方法包括:确定第一区间、第二区间和第三区间,所述第一区间对应的字符长度值小于第一预设值,所述第二区间对应的字符长度值不小于所述第一预设值且不大于第二预设值,所述第三区间对应的字符长度值大于所述第二预设值,所述第一预设值小于所述第二预设值;所述根据所述第一类相似度值和所述第二类相似度值,确定所述第一原始地址和所述第二原始地址的相似度,包括:在所述第一具体地址信息对应的字符长度值和所述第二具体地址信息对应的字符长度值均处于所述第一区间内,且所述第一类相似度值大于预设的第一阈值、所述第二类相似度值大于预设的第二阈值时,确定所述第一原始地址与所述第二原始地址的第一相似度;在所述第一具体地址信息对应的字符长度值和所述第二具体地址信息对应的字符长度值均同时处于所述第二区间内,对应的第一类相似度值大于预设的第三阈值,且对应的第二类相似度值大于预设的第四阈值时,确定所述第一原始地址与所述第二原始地址的第二相似度;在所述第一具体地址信息对应的字符长度值和所述第二具体地址信息对应的字符长度值均同时处于所述第三区间内,且对应的第一类相似度值大于预设的第五阈值时,确定所述第一原始地址与所述第二原始地址的第三相似度。
在其中一个实施例中,所述方法还包括:根据所述第一具体地址信息确定所述第一原始地址的合理度;根据所述第二具体地址信息确定所述第二原始地址的合理度;根据所述第一原始地址和所述第二原始地址的相似度、所述第一原始地址的合理度与所述第二原始地址的合理度,确定所述第一原始地址的异常度和所述第二原始地址的异常度。
在其中一个实施例中,所述方法包括:获取多条样本原始地址;根据各条样本原始地址的地址字段顺序从前往后扫描所述各条样本原始地址的地址字段,得到所述各条样本原始地址的行政区域信息;根据所述各条样本原始地址的行政区域信息对所述多条样本原始地址进行分类存储,得到一个或多个存储区数据;从任一所述存储区数据中获取所述第一原始地址和所述第二原始地址。
在其中一个实施例中,所述根据各条样本原始地址的地址字段顺序从前往后扫描所述各条样本原始地址的地址字段,得到所述各条样本原始地址的行政区域信息,包括:根据所述各条样本原始地址的地址字段顺序从前往后扫描所述各条样本原始地址的地址字段,根据首次扫描得到的行政区域的字段确定所述各条样本原始地址的行政区域信息。
一种地址相似度确定装置,所述装置包括:具体地址信息获取模块,用于获取第一原始地址中的第一具体地址信息,所述第一具体地址信息为由所述第一原始地址中除行政区域信息之外的地址信息构成,以及获取第二原始地址中的第二具体地址信息,所述第二具体地址信息为由所述第二原始地址中除行政区域信息之外的地址信息构成,其中,所述第一原始地址的行政区域信息和所述第二原始地址的行政区域信息表征同一行政区域;分词模块,用于采用N-Gram模型对所述第一具体地址信息进行分词,得到第一系列分词,以及采用N-Gram模型对所述第二具体地址信息进行分词,得到第二系列分词;相似度计算模块,用于对所述第一系列分词和所述第二系列分词进行相似度计算,获得第一类相似度值;相似度确定模块,用于根据所述第一类相似度值,确定所述第一原始地址和所述第二原始地址的相似度。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取第一原始地址中的第一具体地址信息,所述第一具体地址信息为由所述第一原始地址中除行政区域信息之外的地址信息构成,以及获取第二原始地址中的第二具体地址信息,所述第二具体地址信息为由所述第二原始地址中除行政区域信息之外的地址信息构成,其中,所述第一原始地址的行政区域信息和所述第二原始地址的行政区域信息表征同一行政区域;采用N-Gram模型对所述第一具体地址信息进行分词,得到第一系列分词,以及采用N-Gram模型对所述第二具体地址信息进行分词,得到第二系列分词;对所述第一系列分词和所述第二系列分词进行相似度计算,获得第一类相似度值;根据所述第一类相似度值,确定所述第一原始地址和所述第二原始地址的相似度。
上述地址相似度确定方法、装置和计算机设备,将对应于同一行政区域的第一原始地址和第二原始地址进行比较,并通过N-Gram模型对第一具体地址信息和第二地址信息进行分词处理,根据第一系列分词和第二系列分词进行相似度计算的结果来确定第一原始地址和第二原始地址之间的相似度,相较于使用字符串间的属性进行比较的方式,具有更高的准确度。
附图说明
图1为一个实施例中地址相似度确定方法的流程示意图;
图2为一个实施例中地址相似度确定装置的结构框图;
图3为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种地址相似度确定方法,以该方法应用于服务器(该服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现)为例进行说明,包括以下步骤:
步骤S101,获取第一原始地址中的第一具体地址信息,第一具体地址信息为由第一原始地址中除行政区域信息之外的地址信息构成,以及获取第二原始地址中的第二具体地址信息,第二具体地址信息为由第二原始地址中除行政区域信息之外的地址信息构成,其中,第一原始地址的行政区域信息和第二原始地址的行政区域信息表征同一行政区域;
步骤S102,采用N-Gram模型对第一具体地址信息进行分词,得到第一系列分词,以及采用N-Gram模型对第二具体地址信息进行分词,得到第二系列分词;
步骤S103,对第一系列分词和第二系列分词进行相似度计算,获得第一类相似度值;
步骤S104,根据第一类相似度值,确定第一原始地址和第二原始地址的相似度。
步骤S101中的第一原始地址和第二原始地址,可以是消费者购物的收货地址,也可以是其他类型的地址,例如网站注册者填写的地址,在此不作特别限制。另外,第一原始地址和第二原始地址的内容可能是相同的,也可能是不相同的。
一般来说,第一原始地址和第二原始地址,都存在着描述行政区域的字段,例如包括省、市、区、县、乡镇、村或街道的名称,这些名称是行政区域信息的构成要素。在此之外,第一原始地址还存在着行政区域信息以外的信息,例如道路信息、小区信息或门牌信息等,这些行政区域信息以外的信息属于第一具体地址信息的构成要素,同理,第二原始地址中,存在着行政区域信息以外的信息,这些信息则是第二具体地址信息的构成要素。
获取第一具体地址信息、第二具体地址信息的方式可以是多样的。通常地,将第一原始地址中的词汇与中国行政区划数据进行匹配,可以获得第一原始地址中的行政区域信息,将第一原始地址中,属于行政区域信息的词汇进行排除,剩余的词汇便可以被确定为是第一具体地址信息的构成要素。对于第二原始地址信息,也可以采用相同原理的方式进行处理,获得第二具体地址信息。此处的行政区划,是指行政区域划分。当然,也可以通过检测第一原始地址和第二原始地址中,带有表示行政区划级别字眼的词汇(例如“省”、“市”或“区”等字眼),以提取行政区域信息。此外,还可以通过已知的一些方式对第一原始地址和第二原始地址进行词汇的拆解,确定对应的行政区域信息,在此基础上,进一步提取出第一具体地址信息、第二具体地址信息。
在步骤S102中,N-Gram模型的主要作用是分词,该模型采用的是N-Gram算法。N-Gram算法用于分词时,基本原理是将文本内容按照字符长度为N的滑动窗口操作,形成一系列的分词(分词也可以被称为字节片段),这一系列的分词中,每个分词的字符长度均为N。由此可知,步骤S102中,根据N的取值变化,第一系列分词的内容会有所不同,即第一系列分词的分词数量、分词对应的内容会有所不同。例如,当N=2时,第一具体地址信息将被分为多个分词,每个分词的字符长度为2,而当N=3时,第一具体地址信息将被分为多个分词,每个分词的字符长度为3。同理,第二系列分词的内容也会随N的变化而不同。需要注意的是,可以使N取不同的数值,从而获得多个系列的第一系列分词或多个系列的第二系列分词。
在步骤S103中,对第一系列分词和第二系列分词进行相似度计算,是指将具有相同N的取值的第一系列分词和第二系列分词进行相似度计算。进行相似度计算的具体计算方式也可以是多种的,例如可以计算第一系列分词中,与第二系列分词具有相同内容的字节片段的数量。随后可以将该数量作为第一类相似度值。例如也可以计算第一系列分词的字节片段与对应的第二系列分词的字节片段的余弦相似度值,根据多个字节片段之间的余弦相似度值来确定第一类相似度值。当然,还可以通过其他的文本内容相似度计算方式,计算第一系列分词和第二系列分词的相似度值,以此作为第一类相似度值。
步骤S104中,根据第一类相似度值,确定第一原始地址和第二原始地址的相似度,具体方式可以是直接采用第一类相似度值表征第一原始地址和第二原始地址的相似度,也可以是根据第一类相似度值和其他数值(例如下文的第二类相似度值)一起确定第一原始地址和第二原始地址的相似度,也可以用对第一类相似度值进行映射处理后获得的结果来表征第一原始地址和第二原始地址的相似度。另外,第一原始地址和第二原始地址的相似度可以用数值进行表示,例如,采用0-100之间的数值进行表示,数值越大表示相似度越大;例如,采用数字“1”表示相似度大,采用数字“0”表示相似度小;当然,也可以用“相似”和“不相似”等文字进行表示,在此不作特别限制。
上述的地址相似度确定方法,在确定第一原始地址和第二原始地址的相似度时,先确定第一原始地址和第二原始地址对应于同一行政区域,再分别根据第一具体地址信息和第二具体地址信息得到第一类相似度值,最终根据第一类相似度值确定第一原始地址和第二原始地址的相似度。相当于,将第一原始地址和第二原始地址划分为行政区域和非行政区域两部分地址信息进行相似度比较,在第一原始地址和第二原始地址为同一行政区域时,对第一原始地址和第二原始地址的非行政区域的地址信息进行对比,以确定第一原始地址和第二原始地址的相似度,相较于使用字符串间的属性进行比较的方式,提高了第一原始地址和第二原始地址的地址相似度的准确性。
在一些实施例中,第一具体地址信息包括第一描述字段和第一门牌信息,第二具体地址信息包括第二描述字段和第二门牌信息。对应地,步骤S102包括:采用N-Gram模型对第一描述字段进行分词,得到第一系列分词;采用N-Gram模型对第二描述字段进行分词,得到第二系列分词。对应地,地址相似度确定方法还包括:对第一门牌信息和第二门牌信息进行相似度计算,获得第二类相似度值。对应地,步骤S104包括:根据第一类相似度值和第二类相似度值,确定第一原始地址和第二原始地址的相似度。
第一具体地址信息中,第一门牌信息可以包括房间号码、楼层号码、大楼号码和小巷号码中的一个或更多,第一描述字段则是第一具体地址信息中,第一门牌信息以外的地址信息。一般来说,第一描述字段用于表示道路信息,例如“金晶大道”,但不排除一些情况下,第一描述字段包括用于表示某些特定地名、建筑物或小区名称的词汇,例如“颐和花园”。对于第二具体地址信息中,第二门牌信息和第二描述字段的特点也可以作类似理解。为便于直观理解,在此举例说明,例如第二具体地址信息为“x省xx市xxx区xxxx路1001弄C座7楼7004室”,则可以按照预设的标准格式,提取出行政区域信息,即“省级:x省,市级:x市,区县级:xxx区,街道乡镇级:空,村居委会级:空”,其次,确定第二描述字段为“xxxx路”,确定第二门牌信息为“1001弄,C座,7楼,7004室”。
在确定第一门牌信息和第二门牌信息后,便可以对第一门牌信息和第二门牌信息进行相似度计算,获得第二类相似度值,具体地,可以计算第一门牌信息和第二门牌信息的相似度值,以该相似度值作为第二类相似度值。例如,可以对第一门牌信息和第二门牌信息分别进行分词,得到一个或更多的第一门牌信息分词,以及一个或更多的第二门牌信息分词,将第一门牌信息分词与第二门牌信息分词进行内容比对,确定内容相同的分词的个数,以该个数作为第二类相似度值。或者,可以通过计算第一门牌信息和第二门牌信息的余弦相似度来获得第二类相似度值。也可以计算第一门牌信息和第二门牌信息有多少个字符是相同的,根据相同字符的数值确定第二类相似度。当然,还可以采取其他计算地址间相似度值的方式,确定第一门牌信息和第二门牌信息之间的相似度,从而获得第二类相似度值。
获得第一类相似度值和第二类相似度值之后,可以据此确定第一原始地址和第二原始地址的相似度。具体地,可以将第一类相似度值和第二类相似度值相加、相乘或加权平均,以得到的结果用于表示第一原始地址和第二原始地址的相似度。当然,也可以采取其他方式对第一类相似度值和第二类相似度值进行处理,确定述第一原始地址和第二原始地址的相似度,在此不作过多扩展。
在一些实施例中,采用N-Gram模型对第一描述字段进行分词,得到第一系列分词的步骤,具体包括:确定第一描述字段的长度值,根据第一描述字段的长度值确定一个以上的第一分词长度值;根据一个以上的第一分词长度值,采用N-Gram模型对第一描述字段进行分词,得到与各第一分词长度值对应的第一系列分词。采用N-Gram模型对第二描述字段进行分词,得到第二系列分词的步骤,具体包括:确定第二描述字段的长度值,根据第二描述字段的长度值,确定一个以上的第二分词长度值;根据一个以上的第二分词长度值,采用N-Gram模型对第二描述字段进行分词,得到与各第二分词长度值对应的第二系列分词。步骤S103包括:对分词长度值相同的第一系列分词和第二系列分词进行相似度计算,获得第一类相似度值。
当第一描述字段的长度值为A(A大于2)时,第一分词长度值可以取2到A之间(含本数)的数值,例如,A为4时,则第一分词长度值可以为4、3或2。根据第一描述字段的长度值来确定分词长度值,既可以指确定一个分词长度值,也可以指确定两个以上分词长度值。需要注意,当第一描述字段的长度值A为2时,则可以不用进行分词。对于根据第二描述字段的长度值,确定一个以上的第二分词长度值的情况,也可以作类似理解。对分词长度值相同的第一系列分词和第二系列分词进行相似度计算,是指,进行相似度计算的第一系列分词和第二系列分词,它们的分词长度值均是相同的。例如,第一描述字段的长度值为5,第二描述字段的长度值为4,则第一系列分词对应的分词长度值可以是5、4、3或2,第二系列分词对应的分词长度值可以是4、3或2;此时,可以将分词长度值为4的第一系列分词和分词长度值为4的第二系列分词进行相似度计算,也可以将分词长度值为3的第一系列分词和分词长度值为3的第二系列分词进行相似度计算,也可以将分词长度值为2的第一系列分词和分词长度值为2的第二系列分词进行相似度计算,这样最多可以有3个相似度计算结果,根据最多3个相似度计算结果来确定第一类相似度值。
在一些实施例中,根据第一描述字段的长度值确定一个或多个的第一分词长度值的步骤,具体包括:根据第一描述字段的长度值,确定出多个不大于第一描述字段的长度值的第一分词长度值。根据一个以上的第一分词长度值,采用N-Gram模型对第一描述字段进行分词,得到与第一分词长度值对应的第一系列分词的步骤,具体包括:将各第一分词长度值分别作为N-Gram模型中的N值,对第一描述字段进行分词,得到各第一分词长度值对应的第一系列分词,得到多个第一系列分词。根据第二描述字段的长度值确定一个或多个的第二分词长度值的步骤,具体包括:根据第二描述字段的长度值,确定出多个不大于第二描述字段的长度值的第二分词长度值。根据一个以上的第二分词长度值,采用N-Gram模型对第二描述字段进行分词,得到与第二分词长度值对应的第一系列分词的步骤,具体包括:将各第二分词长度值作为N-Gram模型中的N值,对第二描述字段进行分词,得到各第二分词长度值对应的第二系列分词,得到多个第二系列分词。对应地,对分词长度值相同的第一系列分词和第二系列分词进行相似度计算,获得第一类相似度值的步骤,具体包括:按照分词长度值从大到小的排序,依次从多个第一系列分词以及多个第二系列分词中选取分词长度值相同的第一系列分词和第二系列分词进行相似度计算,当相似度计算结果满足预设要求时,根据相似度计算结果获得第一类相似度值。
为便于理解,在此举例说明。分词长度值是第一分词长度值和第二分词长度值的统称。假设第一描述字段为“金晶大道颐和花园最西头”,第二描述字段为“衡阳碧桂园花园里”,则第一描述字段的长度值为12,第二描述字段的长度值为8。此时,不大于第一描述字段的长度值的第一分词长度值为12、11、10、9、8、7、6、5、4、3或2,一共11种,对应的第一系列分词则有11种,每种第一系列分词的字节片段的字符长度不一致。不大于第二描述字段的长度值的第二分词长度值为8、7、6、5、4、3或2,一共7种,对应的第二系列分词也有7种,对应的第二系列分词则有7种,每种第二系列分词的字节片段的字符长度不一致。对第一系列分词和第二系列分词进行相似度计算,获得第一类相似度值的过程如下:由于第一分词长度值为12、11、10和9时,没有与之数值相等的第二分词长度值,因此从N为8开始匹配。
当N-Gram的N为8时,选取第一分词长度值为8时的第一系列分词和第二分词长度值为8时的第二系列分词进行匹配,此时第一系列分词为:{金晶大道颐和花园,晶大道颐和花园最,大道颐和花园最西,道颐和花园最西头},此时“金晶大道颐和花园”“晶大道颐和花园最”等字段则被称为第一系列分词的分词,或被称为第一系列分词的字节片段;第二系列分词为:{衡阳碧桂园花园里},此时“衡阳碧桂园花园里”则被称为第二系列分词的分词,或被称为第二系列分词的字节片段。由此可知,此时任意一个第一系列分词的字节片段均和第二系列分词的字节片段不相同,即第一系列分词的字节片段和第二系列分词的字节片段不存在交集,或可以理解为字节片段的交集个数为0;以字节片段的交集个数作为相似度计算结果,当字节片段小于预设交集个数阈值时,视为相似度计算结果不满足预设要求,当字节片段不小于预设交集个数阈值时,视为相似度计算结果满足预设要求。假设N为8时,对应的预设交集个数阈值为1,可见,此时的相似度计算结果不满足预设要求,因此,减小第一分词长度值和第二分词长度值,进行下一轮的相似度计算,并判断下一轮的相似度计算结构是否满足预设要求。
下一轮的相似度计算,对应的N为7。此时第一系列分词为:{金晶大道颐和花,晶大道颐和花园,大道颐和花园最,道颐和花园最西,颐和花园最西头};第二系列分词为:{衡阳碧桂园花园,阳碧桂园花园里}。对应的字节片段的交集个数依然为0,假设N为7时,对应的预设交集个数阈值为1,可见,此时的相似度计算结果不满足预设要求,因此,减小第一分词长度值和第二分词长度值,进行下一轮的相似度计算,并判断下一轮的相似度计算结果是否满足预设要求。
需要注意的是,当N有不同取值时,对应的预设交集个数阈值可以是不同的。假设N为6、5、4、3时,对应的相似度计算结果均不满足预设要求,则需要判断N为2时,相似度计算结果是否满足预设要求。
当N为2时,第一系列分词为:{金晶,晶大,大道,道颐,颐和,和花,花园,园最,最西,西头};第二系列分词为{衡阳,阳碧,碧桂,桂园,园花,花园,园里},此时,第一系列分词和第二系列分词,均有“花园”这个字节片段,因此字节片段的交集个数为1,假设N为2时,对应的预设交集个数阈值为4,则本轮相似度计算结果也不满足预设要求。
此时,按照分词长度值从大到小的排序,依次从多个第一系列分词以及多个第二系列分词中选取长度值相同的第一系列分词和第二系列分词进行相似度计算(即进行了7轮的相似度计算),获得了7个相似度计算结果,可以综合N的7个取值,确定“金晶大道颐和花园最西头”和“衡阳碧桂园花园里”对应的第一类相似度值。
第一类相似度值,可以用7个相似度计算结果的平均值进行表示,也可以用7个相似度计算结果的和表示。当然,在一些情况下,若每一轮的相似度计算结果均不满足预设要求,第一类相似度值可以直接取值0,表示第一描述字段和第二描述字段不相似;若多轮相似度计算对应的多个相似度计算结果中,满足预设要求的相似度计算结果的数量符合预设数值(例如预设数值为所有相似度计算结果数量的一半),第一类相似度值可以直接取值1,表示第一描述字段和第二描述字段相似。或者,当某一轮的相似度计算结果满足预设要求时,也可以根据本轮的相似度计算结果确定第一类相似度值,例如确定第一类相似度值为1;若所有轮次的相似度计算结果均不满足预设要求,则确定第一类相似度值为0。由此可知,根据相似度计算结果获得第一类相似度值的方式可以多样的,在此不作特别限制。
由此可知,当相似度计算结果满足预设要求时,根据相似度计算结果获得第一类相似度值,可以指:当本轮相似度计算结果满足预设要求时,根据本轮相似度计算结果确定第一类相似度值。但并不排除这样的情况:当所有轮次的相似度计算结果不满足预设要求时,可以根据所有轮次的相似度计算结果确定第一类相似度值。
另外,第一类相似度值还可以用“长度值;字节片段的交集个数”的形式进行表示,例如“8;0”,则表示N为8时,第一系列分词和第二系列分词的字节片段的交集个数为0,例如“2;1”,则表示N为2时,第一系列分词和第二系列分词的字节片段的交集个数为1。
事实上,根据第一描述字段的长度值确定多个第一分词长度值,根据第二描述字段的长度值确定多个第二分词长度值,然后用N-Gram模型进行分词,可以获得多个系列的第一系列分词、多个系列的第二系列分词,可以将这些第一系列分词和第二系列分词进行存储,在后续需要将第一原始地址与第二原始地址以外的其他地址进行相似度比对时,便不需要再次对第一地址的第一描述字段进行分词,提高了第一原始地址与多个不同地址进行相似度比对的效率。对于第二原始地址而言,效果也是类似的。
在一些实施例中,地址相似度确定方法还包括:确定第一区间、第二区间和第三区间,第一区间对应的字符长度值小于第一预设值,第二区间对应的字符长度值不小于第一预设值且不大于第二预设值,第三区间对应的字符长度值大于第二预设值,第一预设值小于第二预设值。
根据第一类相似度值和第二类相似度值,确定第一原始地址和第二原始地址的相似度,包括:
在第一具体地址信息对应的字符长度值和第二具体地址信息对应的字符长度值均处于第一区间内,且第一类相似度值大于预设的第一阈值、第二类相似度值大于预设的第二阈值时,确定第一原始地址与第二原始地址的第一相似度;
在第一具体地址信息对应的字符长度值和第二具体地址信息对应的字符长度值均同时处于第二区间内,对应的第一类相似度值大于预设的第三阈值,且对应的第二类相似度值大于预设的第四阈值时,确定第一原始地址与第二原始地址的第二相似度;
在第一具体地址信息对应的字符长度值和第二具体地址信息对应的字符长度值均同时处于第三区间内,且对应的第一类相似度值大于预设的第五阈值时,确定第一原始地址与第二原始地址的第三相似度。
前述的第一阈值、第三阈值和第五阈值,可以根据对第一描述字段和第二描述字段的相似度的要求进行设置,例如,当第一类相似度值的取值范围是一个区间(例如0%-100%)时,对应的第一阈值、第三阈值和第五阈值可以在该区间进行取值;例如,第一类相似度值为“1”时,表示第一描述字段和第二描述字段相似,第一类相似度值为“0”时,表示第一描述字段和第二描述字段不相似时,第一阈值、第三阈值和第五阈值可以设置为“0”。
第二阈值、第四阈值,可以根据对第一门牌信息和第二门牌信息的相似度的要求进行设置,例如,当第二类相似度值的取值范围是一个区间(例如0%-100%)时,对应的第二阈值、第四阈值可以在该区间进行取值。另外,还可以通过以下方式计算第二类相似度值:具体地,第一门牌信息中包括了一个或更多的门牌号,第二门牌信息中也包括了一个或更多的门牌号,第二类相似度值可以用相同的门牌号的个数进行表示,假设第一门牌信息中,有3个门牌号与第二门牌信息中的3个门牌号相同,则此时第二类相似度值为6。门牌号可以根据小巷号码、大楼号码、房间号码等格式进行提取,例如“1001弄C座7楼7004室”这一个门牌信息,可以提取出“1001弄”、“C座”、“7楼”和“7004室”等门牌号。第二阈值可以是1,第四阈值可以是第一门牌信息的门牌号总数与第二门牌信息的门牌号总数之和的二分之一,当第一门牌信息的门牌号总数是4,第二门牌信息的门牌号总数是2,则总数之和的二分之一是3。
在一个具体的示例中。第一预设值为5,第二预设值为15,第一阈值、第三阈值和第五阈值为“0”,第二阈值为1,第四阈值为第一门牌信息的门牌号总数与第二门牌信息的门牌号总数之和的二分之一。则在第一具体地址信息对应的字符长度值和第二具体地址信息对应的字符长度值小于5时,且第一类相似度值大于0、第二类相似度值大于1时,确定第一原始地址与第二原始地址的第一相似度为“1”。在第一具体地址信息对应的字符长度值和第二具体地址信息对应的字符长度值均同时不小于5且不大于15时,对应的第一类相似度值大于0,且对应的第二类相似度值大于第一门牌信息的门牌号总数与第二门牌信息的门牌号总数之和的二分之一时,确定第一原始地址与第二原始地址的第二相似度为“1”。在第一具体地址信息对应的字符长度值和第二具体地址信息对应的字符长度值均同时大于15时,且对应的第一类相似度值大于1时,确定第一原始地址与第二原始地址的第三相似度为“1”。第一相似度、第二相似度、第三相似度均可以取值“1”或“0”,当取值是“1”时,表示第一原始地址和第二原始地址相似,当取值是“0”时,表示第一原始地址和第二原始地址不相似。
综上,通过将第一具体地址信息分解成第一描述字段和第一门牌信息,将第二具体地址信息分解成第二描述字段和第二门牌信息,并利用N-Gram模型对第一描述字段、第二描述字段进行分词,计算得到第一类相似度值,对第一门牌信息和第二门牌信息进行相似度计算,得到第二类相似度值,结合第一类相似度值和第二类相似度值,最终确定第一原始地址和第二原始地址的相似度,能准确判断出第一原始地址与第二原始地址是否相似。
在一些实施例中,可以在计算第一原始地址和第二原始地址的相似度之前,首先根据第一具体地址信息确定第一原始地址的合理度;根据第二具体地址信息确定第二原始地址的合理度;当根据第一原始地址的合理度确定第一原始地址为合理,且根据第一原始地址和第二原始地址的相似度确定出第一原始地址和第二原始地址不相似时,确定第一原始地址为正常;当根据第一原始地址的合理度确定第一原始地址为不合理,则确定第一原始地址为异常;当根据第一原始地址的合理度确定第一原始地址为合理,且根据第一原始地址和第二原始地址的相似度确定出第一原始地址和第二原始地址相似时,确定第一原始地址为异常;对于第二原始地址是否为异常的判断方式,也是类似的。
在一些实施例中,地址相似度确定方法还包括:根据第一具体地址信息确定第一原始地址的合理度;根据第二具体地址信息确定第二原始地址的合理度;根据第一原始地址和第二原始地址的相似度、第一原始地址的合理度与第二原始地址的合理度,确定第一原始地址的异常度和第二原始地址的异常度。具体地,当第一具体地址信息中包含了有意义的道路信息时(即该道路信息存在于数据库中,或者该道路信息可以在互联网上搜索得到,或者该道路信息存在于电子地图中),可以确定第一原始地址的合理度为“1”,否则确定第一原始地址的合理度为“0”;对于第二原始地址的合理度,也可以按照相同原理进行处理。合理度为“1”表示合理,合理度为“0”表示不合理。这样可以识别出一些地址中的道路信息是捏造的情况。一般来说,当合理度为“0”时,则异常度可以取值“0”,表示异常;当合理度为“1”时,且第一原始地址和第二原始地址的相似度取值为“0”时,则异常度可以取值为“1”,表示不异常。
前文主要描述了如何对两条地址进行相似度的比对,即如何确定第一原始地址和第二原始地址的相似度。事实上,对于电商平台或其他网站而言,可以获取在设定时间窗口内的多条地址,对这些地址之间的相似度进行分析,可以识别出异常的地址,而具体在分析两条地址之间的相似度时,可以采用前文所描述的确定第一原始地址和第二原始地址的相似度的方法。
对于存在多条地址的情况,在一些实施例中,地址相似度确定方法还包括以下步骤:
获取多条样本原始地址;
根据各条样本原始地址的地址字段顺序从前往后扫描各条样本原始地址的地址字段,得到各条样本原始地址的行政区域信息;
根据各条样本原始地址的行政区域信息对多条样本原始地址进行分类存储,得到一个或多个存储区数据;
从任一存储区数据中获取第一原始地址和第二原始地址。
前述的多条样本原始地址,可以是服务器在设定时间窗口内获得的多条地址,例如设定时间窗口为每天的0点至24点,则可以在每一天,对前一天的多条样本原始地址进行分析,获得前一天的多条样本原始地址之间的相似度。
根据各条样本原始地址的行政区域信息对多条样本原始地址进行分类存储,有利于将对应于不同行政区域的样本原始地址进行分开,行政区域不相同的样本原始地址之间,就不需要进行相似度计算了,直接可以认定为相似度为0或者不相似。
另外,可以将同一个存储区数据中的样本原始地址进行两两比对,进行两两比对时,将一条样本原始地址作为第一原始地址,将另一条样本原始地址作为第二原始地址,根据第一原始地址和第二原始地址的相似度的确定方式,快速、准确获得两两比对的两条样本原始地址的相似度。
上述方法还适用于大量大规模的比较场景,1对n的场景例如新地址和地址黑名单库的比较;n对n的场景例如两组大规模地址字段的互相比较,本段的“n”是指地址的数量。因为单条算法运行速度有限,所以完成一次1对n或是n对n的地址字段比较,取决于n的大小,要花费秒级的时间。但根据各条样本原始地址的行政区域信息对多条样本原始地址进行分类存储的方式,可以提高在前述的1对n的场景或n对n的场景中,进行地址字段比较的效率,届时只需要将属于同一个存储区数据中的两条地址作为第一原始地址和第二原始地址进行比较,从而将原复杂度为n^2的算法,降低到实际场景中花费的时间接近于接近线性时间算法所消耗的时间。
在一些实施例中,根据各条样本原始地址的地址字段顺序从前往后扫描各条样本原始地址的地址字段,得到各条样本原始地址的行政区域信息,包括:根据各条样本原始地址的地址字段顺序从前往后扫描各条样本原始地址的地址字段,根据首次扫描得到的行政区域的字段确定各条样本原始地址的行政区域信息。这种方式,可以避免提取出错误的行政区域信息,例如对于“南京市xx区北京东路小学”,存在“南京”和“北京”两个词汇,此时仅取用先出现的南京市作为该条地址的市级行政区域,在此基础上,再确定市级行政区域的下一级行政区域。
在一些实施例中,扫描样本原始地址的地址字段,包括通过结巴分词器对样本原始地址的地址字段进行分词。分词后可以获得与样本原始地址对应的原始分词,前述的结巴分词器的词典为采用中国行政区划数据训练得到的词典。
传统的分词器对于地址字段的分割方式有较大缺陷,原因是传统分词器的训练数据的语料,通常来自于报纸,书籍,杂志等。对于常见句式,使用此类语料库的表现优良,但是地址字段中的很多词语,属于地名或是专有名词,同时又常常内部再包含有意义的词语。而采用中国行政区划数据训练得到的词典作为结巴分词器的词典,利用结巴分词器进行分词,可以会优先将词典中的地名词语作为分词词语分割出来,这种分词方式保证了在地址字段中,合法地名的词,优先被分割出来,避免了各个分词器常见的以常见高频词汇为优先分割从而产生的将地名一分为二的情况。
根据地区从属结构数据,从原始分词中提取出对应的行政区域信息,前述地区从属结构数据是预设的、以树结构存储的行政区划数据,预先构建地区从属结构数据,有利于对分词的token进行解析。地区从属结构数据中,省级数据是地市级数据的父结点,地市级数据是区县级数据的父结点,区县级数据以下的层级还可以有乡镇级、村级等。此外,可以通过算法对原始的中国行政区划数据进行了数据增强,枚举了标准的行政区划数据可能的缩写、简写、昵称和代号等,得到地区从属结构数据。对于地区从属结构数据,可以使用不同的方式进行储存,例如使用某种数据结构缓存于内存中,也可以使用高速缓存数据库例如Redis等,从而实现多线程并发访问。随后,可以将原始分词中与行政区划信息不相关的分词,按预设格式确定为第一具体地址信息或第二具体地址信息。
应该理解的是,而且,图1和其他实施例中的一些步骤,其中至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图2所示,提供了一种地址相似度确定装置200,包括:
具体地址信息获取模块201,用于获取第一原始地址中的第一具体地址信息,第一具体地址信息为由第一原始地址中除行政区域信息之外的地址信息构成,以及获取第二原始地址中的第二具体地址信息,第二具体地址信息为由第二原始地址中除行政区域信息之外的地址信息构成,其中,第一原始地址的行政区域信息和第二原始地址的行政区域信息表征同一行政区域;
分词模块202,用于采用N-Gram模型对第一具体地址信息进行分词,得到第一系列分词,以及采用N-Gram模型对第二具体地址信息进行分词,得到第二系列分词;
相似度计算模块203,用于对第一系列分词和第二系列分词进行相似度计算,获得第一类相似度值;
相似度确定模块204,用于根据第一类相似度值,确定第一原始地址和第二原始地址的相似度。
在一个实施例中,第一具体地址信息包括第一描述字段和第一门牌信息,第二具体地址信息包括第二描述字段和第二门牌信息,分词模块202采用N-Gram模型对第一描述字段进行分词,得到第一系列分词,采用N-Gram模型对第二描述字段进行分词,得到第二系列分词;地址相似度确定装置200还包括第二类相似度值确定模块(未图示),用于对第一门牌信息和第二门牌信息进行相似度计算,获得第二类相似度值;相似度确定模块204根据第一类相似度值和第二类相似度值,确定第一原始地址和第二原始地址的相似度。
在一个实施例中,分词模块202确定第一描述字段的长度值,根据第一描述字段的长度值确定一个以上的第一分词长度值;根据一个以上的第一分词长度值,采用N-Gram模型对第一描述字段进行分词,得到与各第一分词长度值对应的第一系列分词;分词模块202还确定第二描述字段的长度值,根据第二描述字段的长度值,确定一个以上的第二分词长度值;根据一个以上的第二分词长度值,采用N-Gram模型对第二描述字段进行分词,得到与各第二分词长度值对应的第二系列分词;相似度计算模块203对分词长度值相同的第一系列分词和第二系列分词进行相似度计算,获得第一类相似度值。
在一个实施例中,分词模块202根据第一描述字段的长度值,确定出多个不大于第一描述字段的长度值的第一分词长度值,将各第一分词长度值分别作为N-Gram模型中的N值,对第一描述字段进行分词,得到各第一分词长度值对应的第一系列分词,得到多个第一系列分词,根据第二描述字段的长度值,确定出多个不大于第二描述字段的长度值的第二分词长度值,将各第二分词长度值作为N-Gram模型中的N值,对第二描述字段进行分词,得到各第二分词长度值对应的第二系列分词,得到多个第二系列分词;相似度确定模块204按照分词长度值从大到小的排序,依次从多个第一系列分词以及多个第二系列分词中选取长度值相同的第一系列分词和第二系列分词进行相似度计算,当相似度计算结果满足预设要求时,根据相似度计算结果获得第一类相似度值。
在一个实施例中,地址相似度确定装置200还包括区间确定模块(未图示),区间确定模块用于确定第一区间、第二区间和第三区间,第一区间对应的字符长度值小于第一预设值,第二区间对应的字符长度值不小于第一预设值且不大于第二预设值,第三区间对应的字符长度值大于第二预设值,第一预设值小于第二预设值;相似度确定模块204用于:在第一具体地址信息对应的字符长度值和第二具体地址信息对应的字符长度值均处于第一区间内,且第一类相似度值大于预设的第一阈值、第二类相似度值大于预设的第二阈值时,确定第一原始地址与第二原始地址的第一相似度;在第一具体地址信息对应的字符长度值和第二具体地址信息对应的字符长度值均同时处于第二区间内,对应的第一类相似度值大于预设的第三阈值,且对应的第二类相似度值大于预设的第四阈值时,确定第一原始地址与第二原始地址的第二相似度;在第一具体地址信息对应的字符长度值和第二具体地址信息对应的字符长度值均同时处于第三区间内,且对应的第一类相似度值大于预设的第五阈值时,确定第一原始地址与第二原始地址的第三相似度。
在一个实施例中,地址相似度确定装置200还包括合理度确定模块和异常度确定模块(未图示),合理度确定模块用于根据第一具体地址信息确定第一原始地址的合理度,根据第二具体地址信息确定第二原始地址的合理度;异常度确定模块用于根据第一原始地址和第二原始地址的相似度、第一原始地址的合理度与第二原始地址的合理度,确定第一原始地址的异常度和第二原始地址的异常度。
在一个实施例中,地址相似度确定装置200还包括:样本原始地址获取模块(未图示),用于获取多条样本原始地址;行政区域信息获取模块(未图示),用于根据各条样本原始地址的地址字段顺序从前往后扫描各条样本原始地址的地址字段,得到各条样本原始地址的行政区域信息;分类存储模块(未图示),用于根据各条样本原始地址的行政区域信息对多条样本原始地址进行分类存储,得到一个或多个存储区数据;比对地址获取模块(未图示),用于从任一存储区数据中获取第一原始地址和第二原始地址。
在一个实施例中,行政区域信息获取模块根据各条样本原始地址的地址字段顺序从前往后扫描各条样本原始地址的地址字段,根据首次扫描得到的行政区域的字段确定各条样本原始地址的行政区域信息。
关于地址相似度确定装置200的具体限定可以参见上文中对于地址相似度确定方法的限定,在此不再赘述。上述地址相似度确定装置200中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种地址相似度确定方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取第一原始地址中的第一具体地址信息,第一具体地址信息为由第一原始地址中除行政区域信息之外的地址信息构成,以及获取第二原始地址中的第二具体地址信息,第二具体地址信息为由第二原始地址中除行政区域信息之外的地址信息构成,其中,第一原始地址的行政区域信息和第二原始地址的行政区域信息表征同一行政区域;采用N-Gram模型对第一具体地址信息进行分词,得到第一系列分词,以及采用N-Gram模型对第二具体地址信息进行分词,得到第二系列分词;对第一系列分词和第二系列分词进行相似度计算,获得第一类相似度值;根据第一类相似度值,确定第一原始地址和第二原始地址的相似度。
在一个实施例中,第一具体地址信息包括第一描述字段和第一门牌信息,第二具体地址信息包括第二描述字段和第二门牌信息,处理器执行计算机程序时实现采用N-Gram模型对第一具体地址信息进行分词,得到第一系列分词,采用N-Gram模型对第二具体地址信息进行分词,得到第二系列分词的步骤,包括:采用N-Gram模型对第一描述字段进行分词,得到第一系列分词,采用N-Gram模型对第二描述字段进行分词,得到第二系列分词。处理器执行计算机程序时还实现以下步骤:对第一门牌信息和第二门牌信息进行相似度计算,获得第二类相似度值。处理器执行计算机程序时实现根据第一类相似度值,确定第一原始地址和第二原始地址的相似度的步骤,包括:根据第一类相似度值和第二类相似度值,确定第一原始地址和第二原始地址的相似度。
在一个实施例中,处理器执行计算机程序时实现采用N-Gram模型对第一描述字段进行分词,得到第一系列分词的步骤,包括:确定第一描述字段的长度值,根据第一描述字段的长度值确定一个以上的第一分词长度值;根据一个以上的第一分词长度值,采用N-Gram模型对第一描述字段进行分词,得到与各第一分词长度值对应的第一系列分词。处理器执行计算机程序时实现采用N-Gram模型对第二描述字段进行分词,得到第二系列分词的步骤,包括:确定第二描述字段的长度值,根据第二描述字段的长度值,确定一个以上的第二分词长度值;根据一个以上的第二分词长度值,采用N-Gram模型对第二描述字段进行分词,得到与各第二分词长度值对应的第二系列分词。对应地,处理器执行计算机程序时实现对第一系列分词和第二系列分词进行相似度计算,获得第一类相似度值的步骤,包括:对分词长度值相同的第一系列分词和第二系列分词进行相似度计算,获得第一类相似度值。
在一个实施例中,处理器执行计算机程序时实现根据第一描述字段的长度值确定一个或多个的第一分词长度值的步骤,包括:根据第一描述字段的长度值,确定出多个不大于第一描述字段的长度值的第一分词长度值。处理器执行计算机程序时实现根据一个以上的第一分词长度值,采用N-Gram模型对第一描述字段进行分词,得到与第一分词长度值对应的第一系列分词的步骤,包括:将各第一分词长度值分别作为N-Gram模型中的N值,对第一描述字段进行分词,得到各第一分词长度值对应的第一系列分词,得到多个第一系列分词。处理器执行计算机程序时实现根据第二描述字段的长度值确定一个或多个的第二分词长度值的步骤,包括:根据第二描述字段的长度值,确定出多个不大于第二描述字段的长度值的第二分词长度值。处理器执行计算机程序时实现根据一个以上的第二分词长度值,采用N-Gram模型对第二描述字段进行分词,得到与第二分词长度值对应的第一系列分词的步骤,包括:将各第二分词长度值作为N-Gram模型中的N值,对第二描述字段进行分词,得到各第二分词长度值对应的第二系列分词,得到多个第二系列分词。处理器执行计算机程序时实现对分词长度值相同的第一系列分词和第二系列分词进行相似度计算,获得第一类相似度值的步骤,包括:按照分词长度值从大到小的排序,依次从多个第一系列分词以及多个第二系列分词中选取长度值相同的第一系列分词和第二系列分词进行相似度计算,当相似度计算结果满足预设要求时,根据相似度计算结果获得第一类相似度值。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:确定第一区间、第二区间和第三区间,第一区间对应的字符长度值小于第一预设值,第二区间对应的字符长度值不小于第一预设值且不大于第二预设值,第三区间对应的字符长度值大于第二预设值,第一预设值小于第二预设值。处理器执行计算机程序时实现根据第一类相似度值和第二类相似度值,确定第一原始地址和第二原始地址的相似度的步骤,包括:在第一具体地址信息对应的字符长度值和第二具体地址信息对应的字符长度值均处于第一区间内,且第一类相似度值大于预设的第一阈值、第二类相似度值大于预设的第二阈值时,确定第一原始地址与第二原始地址的第一相似度;在第一具体地址信息对应的字符长度值和第二具体地址信息对应的字符长度值均同时处于第二区间内,对应的第一类相似度值大于预设的第三阈值,且对应的第二类相似度值大于预设的第四阈值时,确定第一原始地址与第二原始地址的第二相似度;在第一具体地址信息对应的字符长度值和第二具体地址信息对应的字符长度值均同时处于第三区间内,且对应的第一类相似度值大于预设的第五阈值时,确定第一原始地址与第二原始地址的第三相似度。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据第一具体地址信息确定第一原始地址的合理度;根据第二具体地址信息确定第二原始地址的合理度;根据第一原始地址和第二原始地址的相似度、第一原始地址的合理度与第二原始地址的合理度,确定第一原始地址的异常度和第二原始地址的异常度。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取多条样本原始地址;根据各条样本原始地址的地址字段顺序从前往后扫描各条样本原始地址的地址字段,得到各条样本原始地址的行政区域信息;根据各条样本原始地址的行政区域信息对多条样本原始地址进行分类存储,得到一个或多个存储区数据;从任一存储区数据中获取第一原始地址和第二原始地址。
在一个实施例中,处理器执行计算机程序时实现根据各条样本原始地址的地址字段顺序从前往后扫描各条样本原始地址的地址字段,得到各条样本原始地址的行政区域信息的步骤,包括:根据各条样本原始地址的地址字段顺序从前往后扫描各条样本原始地址的地址字段,根据首次扫描得到的行政区域的字段确定各条样本原始地址的行政区域信息。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,前述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种地址相似度确定方法,其特征在于,方法包括:
获取第一原始地址中的第一具体地址信息,第一具体地址信息为由所述第一原始地址中除行政区域信息之外的地址信息构成,以及获取第二原始地址中的第二具体地址信息,所述第二具体地址信息为由所述第二原始地址中除行政区域信息之外的地址信息构成,其中,所述第一原始地址的行政区域信息和所述第二原始地址的行政区域信息表征同一行政区域;
采用N-Gram模型对所述第一具体地址信息进行分词,得到第一系列分词,以及采用N-Gram模型对所述第二具体地址信息进行分词,得到第二系列分词;
对所述第一系列分词和所述第二系列分词进行相似度计算,获得第一类相似度值;
根据所述第一类相似度值,确定所述第一原始地址和所述第二原始地址的相似度。
2.根据权利要求1所述的方法,其特征在于,
所述第一具体地址信息包括第一描述字段和第一门牌信息,所述采用N-Gram模型对所述第一具体地址信息进行分词,得到第一系列分词,包括:采用所述N-Gram模型对所述第一描述字段进行分词,得到所述第一系列分词;
所述第二具体地址信息包括第二描述字段和第二门牌信息,所述采用N-Gram模型对所述第二具体地址信息进行分词,得到第二系列分词,包括:采用所述N-Gram模型对所述第二描述字段进行分词,得到所述第二系列分词;
所述方法还包括:对所述第一门牌信息和所述第二门牌信息进行相似度计算,获得第二类相似度值;
所述根据所述第一类相似度值,确定所述第一原始地址和所述第二原始地址的相似度,包括:根据所述第一类相似度值和所述第二类相似度值,确定所述第一原始地址和所述第二原始地址的相似度。
3.根据权利要求2所述的方法,其特征在于,
所述采用所述N-Gram模型对所述第一描述字段进行分词,得到所述第一系列分词,包括:确定所述第一描述字段的长度值,根据所述第一描述字段的长度值确定一个以上的第一分词长度值;根据所述一个以上的第一分词长度值,采用所述N-Gram模型对所述第一描述字段进行分词,得到与各第一分词长度值对应的第一系列分词;
所述采用所述N-Gram模型对所述第二描述字段进行分词,得到所述第二系列分词,包括:确定所述第二描述字段的长度值,根据所述第二描述字段的长度值,确定一个以上的第二分词长度值;根据所述一个以上的第二分词长度值,采用所述N-Gram模型对所述第二描述字段进行分词,得到与各第二分词长度值对应的第二系列分词;
所述对所述第一系列分词和所述第二系列分词进行相似度计算,获得第一类相似度值,包括:对分词长度值相同的所述第一系列分词和所述第二系列分词进行相似度计算,获得所述第一类相似度值。
4.根据权利要求3所述的方法,其特征在于,
所述根据所述第一描述字段的长度值确定一个或多个的第一分词长度值,包括:根据所述第一描述字段的长度值,确定出多个不大于所述第一描述字段的长度值的第一分词长度值;
所述根据所述一个以上的第一分词长度值,采用所述N-Gram模型对所述第一描述字段进行分词,得到与第一分词长度值对应的第一系列分词,包括:将所述各第一分词长度值分别作为所述N-Gram模型中的N值,对所述第一描述字段进行分词,得到各第一分词长度值对应的第一系列分词;
所述根据所述第二描述字段的长度值确定一个或多个的第二分词长度值,包括:根据所述第二描述字段的长度值,确定出多个不大于所述第二描述字段的长度值的第二分词长度值;
所述根据所述一个以上的第二分词长度值,采用所述N-Gram模型对所述第二描述字段进行分词,得到与第二分词长度值对应的第一系列分词,包括:将各第二分词长度值作为所述N-Gram模型中的N值,对所述第二描述字段进行分词,得到各第二分词长度值对应的第二系列分词;
所述对分词长度值相同的所述第一系列分词和所述第二系列分词进行相似度计算,获得所述第一类相似度值,包括:按照分词长度值从大到小的排序,依次从多个所述第一系列分词以及多个所述第二系列分词中选取分词长度值相同的第一系列分词和第二系列分词进行相似度计算,当相似度计算结果满足预设要求时,根据所述相似度计算结果获得所述第一类相似度值。
5.根据权利要求2所述的方法,其特征在于,
所述方法还包括:确定第一区间、第二区间和第三区间,所述第一区间对应的字符长度值小于第一预设值,所述第二区间对应的字符长度值不小于所述第一预设值且不大于第二预设值,所述第三区间对应的字符长度值大于所述第二预设值,所述第一预设值小于所述第二预设值;
所述根据所述第一类相似度值和所述第二类相似度值,确定所述第一原始地址和所述第二原始地址的相似度,包括:
在所述第一具体地址信息对应的字符长度值和所述第二具体地址信息对应的字符长度值均处于所述第一区间内,且所述第一类相似度值大于预设的第一阈值、所述第二类相似度值大于预设的第二阈值时,确定所述第一原始地址与所述第二原始地址的第一相似度;
在所述第一具体地址信息对应的字符长度值和所述第二具体地址信息对应的字符长度值均同时处于所述第二区间内,对应的第一类相似度值大于预设的第三阈值,且对应的第二类相似度值大于预设的第四阈值时,确定所述第一原始地址与所述第二原始地址的第二相似度;
在所述第一具体地址信息对应的字符长度值和所述第二具体地址信息对应的字符长度值均同时处于所述第三区间内,且对应的第一类相似度值大于预设的第五阈值时,确定所述第一原始地址与所述第二原始地址的第三相似度。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述第一具体地址信息确定所述第一原始地址的合理度;
根据所述第二具体地址信息确定所述第二原始地址的合理度;
根据所述第一原始地址和所述第二原始地址的相似度、所述第一原始地址的合理度与所述第二原始地址的合理度,确定所述第一原始地址的异常度和所述第二原始地址的异常度。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取多条样本原始地址;
根据各条样本原始地址的地址字段顺序从前往后扫描所述各条样本原始地址的地址字段,得到所述各条样本原始地址的行政区域信息;
根据所述各条样本原始地址的行政区域信息对所述多条样本原始地址进行分类存储,得到一个或多个存储区数据;
从任一所述存储区数据中获取所述第一原始地址和所述第二原始地址。
8.根据权利要求7所述的方法,其特征在于,
所述根据各条样本原始地址的地址字段顺序从前往后扫描所述各条样本原始地址的地址字段,得到所述各条样本原始地址的行政区域信息,包括:
根据所述各条样本原始地址的地址字段顺序从前往后扫描所述各条样本原始地址的地址字段,根据首次扫描得到的行政区域的字段确定所述各条样本原始地址的行政区域信息。
9.一种地址相似度确定装置,其特征在于,所述装置包括:
具体地址信息获取模块,用于获取第一原始地址中的第一具体地址信息,所述第一具体地址信息为由所述第一原始地址中除行政区域信息之外的地址信息构成,以及获取第二原始地址中的第二具体地址信息,所述第二具体地址信息为由所述第二原始地址中除行政区域信息之外的地址信息构成,其中,所述第一原始地址的行政区域信息和所述第二原始地址的行政区域信息表征同一行政区域;
分词模块,用于采用N-Gram模型对所述第一具体地址信息进行分词,得到第一系列分词,以及采用N-Gram模型对所述第二具体地址信息进行分词,得到第二系列分词;
相似度计算模块,用于对所述第一系列分词和所述第二系列分词进行相似度计算,获得第一类相似度值;
相似度确定模块,用于根据所述第一类相似度值,确定所述第一原始地址和所述第二原始地址的相似度。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。
CN202110690657.5A 2021-06-22 2021-06-22 地址相似度确定方法、装置和计算机设备 Withdrawn CN113343688A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110690657.5A CN113343688A (zh) 2021-06-22 2021-06-22 地址相似度确定方法、装置和计算机设备
CA3164883A CA3164883A1 (en) 2021-06-22 2022-06-22 Address similarity determining method, device and computer equipment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110690657.5A CN113343688A (zh) 2021-06-22 2021-06-22 地址相似度确定方法、装置和计算机设备

Publications (1)

Publication Number Publication Date
CN113343688A true CN113343688A (zh) 2021-09-03

Family

ID=77477548

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110690657.5A Withdrawn CN113343688A (zh) 2021-06-22 2021-06-22 地址相似度确定方法、装置和计算机设备

Country Status (2)

Country Link
CN (1) CN113343688A (zh)
CA (1) CA3164883A1 (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688563A (zh) * 2016-08-05 2018-02-13 中国移动通信有限公司研究院 一种同义词的识别方法及识别装置
CN108804398A (zh) * 2017-05-03 2018-11-13 阿里巴巴集团控股有限公司 地址文本的相似度计算方法及装置
CN110442603A (zh) * 2019-07-03 2019-11-12 平安科技(深圳)有限公司 地址匹配方法、装置、计算机设备及存储介质
CN111523321A (zh) * 2020-04-24 2020-08-11 天津易维数科信息科技有限公司 基于规则和统计分词的地址差异性判断方法
CN111931491A (zh) * 2020-08-14 2020-11-13 工银科技有限公司 领域词典构建方法及装置
CN112559658A (zh) * 2020-12-08 2021-03-26 中国科学技术大学 一种地址匹配方法及装置
CN112883721A (zh) * 2021-01-14 2021-06-01 科技日报社 基于bert预训练模型的新词识别方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688563A (zh) * 2016-08-05 2018-02-13 中国移动通信有限公司研究院 一种同义词的识别方法及识别装置
CN108804398A (zh) * 2017-05-03 2018-11-13 阿里巴巴集团控股有限公司 地址文本的相似度计算方法及装置
CN110442603A (zh) * 2019-07-03 2019-11-12 平安科技(深圳)有限公司 地址匹配方法、装置、计算机设备及存储介质
CN111523321A (zh) * 2020-04-24 2020-08-11 天津易维数科信息科技有限公司 基于规则和统计分词的地址差异性判断方法
CN111931491A (zh) * 2020-08-14 2020-11-13 工银科技有限公司 领域词典构建方法及装置
CN112559658A (zh) * 2020-12-08 2021-03-26 中国科学技术大学 一种地址匹配方法及装置
CN112883721A (zh) * 2021-01-14 2021-06-01 科技日报社 基于bert预训练模型的新词识别方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵英;占斌斌;贾沛哲;李华英;: "基于规则与词典的地址匹配算法", 北京测绘, no. 05 *

Also Published As

Publication number Publication date
CA3164883A1 (en) 2022-12-22

Similar Documents

Publication Publication Date Title
CN108628974B (zh) 舆情信息分类方法、装置、计算机设备和存储介质
CN108595695B (zh) 数据处理方法、装置、计算机设备和存储介质
JP6893209B2 (ja) 構造化されたマルチフィールドファイルのレイアウトの自動解釈
CN111881693B (zh) 论文作者的消歧方法、装置和计算机设备
CN109949154B (zh) 客户信息分类方法、装置、计算机设备和存储介质
AU2016222401B1 (en) Intelligent data munging
CN111444349B (zh) 信息抽取方法、装置、计算机设备和存储介质
CN111400340B (zh) 一种自然语言处理方法、装置、计算机设备和存储介质
CN113961768B (zh) 敏感词检测方法、装置、计算机设备和存储介质
CN111783460A (zh) 一种企业简称提取方法、装置、计算机设备及存储介质
CN111651666A (zh) 用户主题推荐方法、装置、计算机设备及存储介质
CN111382570A (zh) 文本实体识别方法、装置、计算机设备及存储介质
CN112613321A (zh) 一种抽取文本中实体属性信息的方法及系统
CN112580363A (zh) 需求文档处理方法、装置、计算机设备及存储介质
CN110413994B (zh) 热点话题生成方法、装置、计算机设备和存储介质
CN112464660B (zh) 文本分类模型构建方法以及文本数据处理方法
CN111401055B (zh) 从金融资讯提取脉络信息的方法和装置
CN110888977B (zh) 文本分类方法、装置、计算机设备和存储介质
CN110781310A (zh) 目标概念图谱的构建方法、装置、计算机设备和存储介质
CN113343688A (zh) 地址相似度确定方法、装置和计算机设备
CN110598115A (zh) 一种基于人工智能多引擎的敏感网页识别方法及系统
CN114003685B (zh) 分词位置索引构建方法及其装置、文档检索方法及其装置
CN116414808A (zh) 详细地址规范化的方法、装置、计算机设备和存储介质
CN111340580B (zh) 房型的确定方法、装置、计算机设备和存储介质
EP2846499B1 (en) Method And Device For Classifying A Message

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210903