CN113868351A - 一种地址聚类方法、装置、电子设备及存储介质 - Google Patents

一种地址聚类方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113868351A
CN113868351A CN202111058800.5A CN202111058800A CN113868351A CN 113868351 A CN113868351 A CN 113868351A CN 202111058800 A CN202111058800 A CN 202111058800A CN 113868351 A CN113868351 A CN 113868351A
Authority
CN
China
Prior art keywords
address
address data
class
data
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111058800.5A
Other languages
English (en)
Inventor
符国辉
何萧峰
何保健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongdun Technology Co ltd
Original Assignee
Tongdun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongdun Technology Co ltd filed Critical Tongdun Technology Co ltd
Priority to CN202111058800.5A priority Critical patent/CN113868351A/zh
Publication of CN113868351A publication Critical patent/CN113868351A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Remote Sensing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种地址聚类方法、装置、电子设备及存储介质,属于数据处理领域,其中,在获得地址数据后,可以对地址数据进行区域划分,并根据地址数据的文本对不同区域内的地址数据进行聚类,获得第一地址类,根据地址数据的经纬度对地址数据进行聚类,获得第二地址类,第一地址类与第二地址类间存在交集时根据该交集获得第三地址类,并循环执行获取第三地址类中地址数据的地址特征匹配地址数据,将第三地址类以外匹配的地址数据并入第三地址类中,至符合预设聚类条件。第三地址类为第一地址类与第二地址类的交集在文本、距离维度均具有相关性,再根据第三地址类确定地址特征进一步扩充,保证地址聚类的精度和广度,提升地址聚类的准确性。

Description

一种地址聚类方法、装置、电子设备及存储介质
技术领域
本申请涉及数据处理领域,更具体地,涉及一种地址聚类方法、装置、电子设备及存储介质。
背景技术
地址聚类是根据地址信息中的特征对地址进行分类,以使同一类中的地址相似度尽可能大,不同类中的地址相似度尽可能小的技术,可以应用于地图导航、团伙挖掘、商户分析等场景中。
目前,常对地址数据进行分区,并根据不同分区内地址数据的文本计算地址之间的相似度,从而对分区内的地址数据进行聚类;或者,根据地址数据的经纬度分布确定距离远近从而进行聚类。
但是,采用对地址数据分区后基于文本相似度聚类,可能导致分区与分区间相关的地址数据被忽略;采用据地址数据的经纬度进行聚类,无法对超出经纬度距离的地址聚类,会导致距离较远的地址数据间文本特征的相关性被忽略,使得聚类结果不准确。
发明内容
本申请提供了一种地址聚类方法、装置、电子设备及存储介质,以解决在地址聚类中采用分区后根据地址文本聚类,或根据地址经纬度聚类等方案得到的聚类结果不准确的问题。
本申请第一方面提供了一种地址聚类方法,该方法可以包括:
获取地址数据;
对所述地址数据进行区域划分,并根据所述地址数据的文本对不同所述区域内的所述地址数据进行聚类,获得至少一个第一地址类;
根据所述地址数据的经纬度对所述地址数据进行聚类,获得至少一个第二地址类;
在所述第一地址类与所述第二地址类中的所述地址数据存在交集的情况下,根据所述交集获得第三地址类;
循环执行如下步骤,并在所述第三地址类符合预设聚类条件的情况下,终止循环:
获取所述第三地址类中所述地址数据的地址特征;
根据所述地址特征对所述地址数据进行匹配,并将所述第三地址类以外匹配的所述地址数据并入所述第三地址类中。
可选地,所述根据所述地址特征对所述地址数据进行匹配,包括:
根据所述第三地址类中所述地址数据的经纬度确定目标地址范围,所述目标地址范围大于所述第三地址类中所述地址数据的范围;
根据所述地址特征对所述目标地址范围内的所述地址数据进行匹配。
可选地,所述地址特征包括第一地址关键词,所述获取所述第三地址类中所述地址数据的地址特征,包括:
对所述第三地址类中所述地址数据的文本进行分词,获得地址词库;
根据所述地址词库中的词频信息确定所述第一地址关键词。
可选地,所述预设聚类条件包括以下至少一种:
循环执行的次数达到预设次数;
相邻两次循环执行中所述第三地址类中所述地址数据的增量小于或等于预设增量。
可选地,所述根据所述地址数据的文本对不同所述区域内的所述地址数据进行聚类,获得至少一个第一地址类,包括:
对所述地址数据的文本进行分词,获得第二地址关键词;
根据所述第二地址关键词生成所述地址数据对应的地址向量;
对每一所述区域内的所述地址数据根据所述地址向量确定相似度;
根据所述相似度对不同所述区域内的所述地址数据进行聚类,获得至少一个所述第一地址类。
可选地,所述根据所述地址数据的经纬度对所述地址数据进行聚类,获得至少一个第二地址类,包括:
根据所述地址数据的经纬度生成所述地址数据对应的地理散列编码;
根据所述地理散列编码对所述地址数据进行聚类,获得至少一个所述第二地址类。
可选地,所述获取地址数据包括:
对所述地址数据进行清洗;
对清洗后的所述地址数据进行标准化,获得所述地址数据对应的文本;
根据清洗后的所述地址数据获得所述地址数据对应的经纬度。
本申请第二方面提供了一种地址聚类装置,该装置可以包括:
数据获取模块,用于获取地址数据;
第一聚类模块,用于对所述地址数据进行区域划分,并根据所述地址数据的文本对不同所述区域内的所述地址数据进行聚类,获得至少一个第一地址类;
第二聚类模块,用于根据所述地址数据的经纬度对所述地址数据进行聚类,获得至少一个第二地址类;
第三聚类模块,用于在所述第一地址类与所述第二地址类中的所述地址数据存在交集的情况下,根据所述交集获得第三地址类;
循环执行模块,用于循环执行如下步骤,并在所述第三地址类符合预设聚类条件的情况下,终止循环:
获取所述第三地址类中所述地址数据的地址特征;
根据所述地址特征对所述地址数据进行匹配,并将所述第三地址类以外匹配的所述地址数据并入所述第三地址类中。
可选地,所述循环执行模块,包括:
目标范围确定子模块,用于根据所述第三地址类中所述地址数据的经纬度确定目标地址范围,所述目标地址范围大于所述第三地址类中所述地址数据的范围;
地址数据匹配子模块,用于根据所述地址特征对所述目标地址范围内的所述地址数据进行匹配
可选地,所述地址特征包括第一地址关键词,所述循环执行模块,包括:
第一分词子模块,用于对所述第三地址类中所述地址数据的文本进行分词,获得地址词库;
第一关键词子模块,用于根据所述地址词库中的词频信息确定所述第一地址关键词。
可选地,所述预设聚类条件包括以下至少一种:
循环执行的次数达到预设次数;
相邻两次循环执行中所述第三地址类中所述地址数据的增量小于或等于预设增量。
可选地,所述第一聚类模块,包括:
第二分词子模块,用于对所述地址数据的文本进行分词,获得第二地址关键词;
向量生成子模块,用于根据所述第二地址关键词生成所述地址数据对应的地址向量;
相似度确定子模块,用于对每一所述区域内的所述地址数据根据所述地址向量确定相似度;
第一聚类子模块,用于根据所述相似度对不同所述区域内的所述地址数据进行聚类,获得至少一个所述第一地址类。
可选地,所述第二聚类模块,包括:
地址编码子模块,用于根据所述地址数据的经纬度生成所述地址数据对应的地理散列编码;
第二聚类子模块,用于根据所述地理散列编码对所述地址数据进行聚类,获得至少一个所述第二地址类。
可选地,所述数据获取模块,包括:
数据清洗子模块,用于对所述地址数据进行清洗;
地址文本确定子模块,用于对清洗后的所述地址数据进行标准化,获得所述地址数据对应的文本;
地址经纬度确定子模块,用于根据清洗后的所述地址数据获得所述地址数据对应的经纬度。
本申请第三方面提供了一种电子设备,该电子设备包括:接口,总线,存储器与处理器,所述接口、存储器与处理器通过所述总线相连接,所述存储器用于存储可执行程序,所述处理器被配置为运行所述可执行程序实现如第一方面所述的地址聚类方法的步骤。
本申请第四方面提供了一种计算机存储介质,该计算机可读存储介质上存储可执行程序,所述可执行程序被处理器运行实现如第一方面所述的地址聚类方法的步骤。
与相关技术相比,本申请具有以下优点:
本申请实施例中,在获得地址数据后,可以对地址数据进行区域划分,并根据地址数据的文本对不同区域内的地址数据进行聚类,获得至少一个第一地址类,并根据地址数据的经纬度对地址数据进行聚类,获得至少一个第二地址类,在第一地址类与第二地址类间存在交集的情况下,根据该交集获得第三地址类,并循环执行获取第三地址类中地址数据的地址特征,根据该地址特征匹配地址数据,将第三地址类以外匹配的地址数据并入第三地址类中,至第三地址类符合预设聚类条件。上述地址聚类方法中,对地址数据分别采用分区后根据文本进行聚类获得第一地址类,以及根据经纬度进行聚类获得第二地址类,并提取第一地址类与第二地址类的交集第三地址类,第三地址类中的地址数据间在文本、距离维度均具有相关性,再根据第三地址类确定地址特征,匹配地址数据以对第三地址类进行扩充,从而保证了地址聚类的精度和广度,有效提升了地址聚类的准确性。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本申请实施例提供的一种地址聚类方法的步骤流程图;
图2是本申请实施例提供的另一种地址聚类方法的步骤流程图;
图3是本发明实施例提供的一种第三地址类确定原理示意图;
图4是本申请实施例提供的一种地址聚类装置的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
在本申请的各种实施例中,应理解,下述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
图1是本申请实施例提供的一种地址聚类方法的步骤流程图,该方法可以包括:
步骤101、获取地址数据。
本申请实施例中,地址数据可以是通过线上、线下获取的描述任意实体地理位置的数据,其中,地址数据可以包括省、市、区、街道门牌、名称等根据行政区划分的文本,也可以包括地理坐标、经纬度坐标等,其中,可以在线上、线下无差别获取可采集的所有实体的地址数据,也可以根据实际需求可以通过不同方式获取地址数据,如在风控场景下采用地址聚类进行团伙挖掘的情况下,可以对风险事件发生频率高的地区进行地址数据获取,或者,根据已确定的风险地址扩大地址范围,并获取该地址范围内的地址数据,或者,可以根据风控对象获取信贷交易中的登记地址等地址数据;在采用地址聚类对商户、行业进行分析的情况下,可以获取线上交易的收发货地址,或者,可以获取线上平台各商户的登记地址等地址数据,本发明实施例中对地址数据的来源,以及获取地址数据的方式不作具体限制。
步骤102、对所述地址数据进行区域划分,并根据所述地址数据的文本对不同所述区域内的所述地址数据进行聚类,获得至少一个第一地址类。
本发明实施例中,由于地址数据较多,可以对地址数据进行区域划分,再对划分后的区域内的地址数据分别进行聚类以简化计算量,可选地,可以根据实际行政区对地址数据进行区域划分,如M市包括M1区、M2区、M3区,则可以对M市的地址数据根据M1区、M2区、M3区进行区域划分,或者,也可以根据地址数据的位置分布划分不同的区块,以使不同区块中地址数据的数量较均衡分布,本发明实施例对区域划分的方式不作具体限制。
本发明实施例中,在划分区域后,可以根据不同区域内地址数据的文本对地址数据进行聚类,其中,地址数据的文本可以是省、市、区、街道门牌、名称等文本,如可以是A省B市B1区C街道D银行、A省B市B2区E街道门牌F酒店等,可以根据地址数据的文本确定不同地址数据之间的相关性,从而进行聚类,获得至少一个第一地址类,可选地,在同一区域中,可以在地址数据的文本中去除该区域对应的文本,以进一步简化计算量,如在A省内的地址数据中,仅根据市、区、街道门牌、名称等文本进行聚类,在B市内的地址数据中,仅根据区、街道门牌、名称等文本进行聚类等;另外,根据地址数据的文本对地址数据进行聚类可以采用不同的聚类算法,如可以采用均值聚类算法、层次聚类算法、密度聚类算法等,本发明实施例中对此不作具体限制。
步骤103、根据所述地址数据的经纬度对所述地址数据进行聚类,获得至少一个第二地址类。
本发明实施例中,还可以根据地址数据的经纬度对地址数据进行聚类,根据经纬度确定地址数据之间的距离,从而根据距离的大小确定地址数据的聚集性,其中,可以将距离小于预设距离的地址数据确定为具有聚集性的地址数据,或者,也可以对经纬度进行编码,并根据编码结果对地址数据进行聚类,以获得至少一个第二地址类。
本发明实施例中,步骤102与步骤103的执行顺序不作具体限制,可以先执行步骤102再执行步骤103,也可以先执行步骤103在执行步骤102,也可以同时执行步骤102与步骤103,本发明实施例对此不作具体限制。
步骤104、在所述第一地址类与所述第二地址类中的所述地址数据存在交集的情况下,根据所述交集获得第三地址类。
本发明实施例中,交集指同时属于第一地址类与第二地址类中的地址数据集合,在交集存在的情况下,交集中的地址数据之间在文本的维度具有相关性,也在经纬度的维度具有相关性,因此,可以将交集中的地址数据作为第三地址类,有效提高聚类结果的准确性,可选地,可以在同时属于第一地址类与第二地址类中的地址数据的数量大于或等于一定数量的情况下确定存在交集,其中,一定数量可以是0以上的数值;或者,当同时存在于第一地址类、第二地址类的地址数据距离其中至少一类的中心小于或等于预设距离的情况下确定存在交集,其中,距离可以是向量距离,也可以是地理距离,本发明实施例对此不作具体限制。
步骤105、循环执行如下步骤,并在所述第三地址类符合预设聚类条件的情况下,终止循环:
步骤106、获取所述第三地址类中所述地址数据的地址特征。
本发明实施例中,在确定第三地址类的情况下,可以以第三地址类为聚类中心,进行进一步聚类,其中,可以获取第三地址类中地址数据的地址特征,该地址特征用于表征第三地址类中所有地址数据的综合特征,可选地,可以是第三地址类中地址数据的文本特征、经纬度特征等,也可以对文本特征、经纬度特征拼接等得到。
步骤107、根据所述地址特征对所述地址数据进行匹配,并将所述第三地址类以外匹配的所述地址数据并入所述第三地址类中。
本发明实施例中,可以根据地址特征对地址数据进行匹配,可选地,可以仅对第三地址类以外的地址数据进行匹配,也可以对第三地址类内和以外的地址数据均进行匹配,可以将第三地址类以外匹配成功的地址数据并入第三地址类,从而基于地址特征以第三地址类为聚类中心,进行进一步聚类,从而避免对地址数据聚类的遗漏,提高聚类的准确性。
本发明实施例中,可以对步骤106、107循环执行,在基于地址特征更新第三地址类后,可以基于更新后的第三地址类重新获取第三地址类中地址数据的地址特征,再根据更新后的地址特征对地址数据进行匹配,并将第三地址类以外匹配的地址数据并入第三地址类中,循环往复至第三地址类符合预设聚类条件,从而终止循环,其中,预设聚类条件用于限定循环终止时第三地址类的状态,可选地,可以是循环执行的收益低于开销时循环终止,也可以根据循环执行次数、第三地址类中地址数据的数量等限定循环终止,本发明实施例对此不作具体限制。
本申请实施例中,在获得地址数据后,可以对地址数据进行区域划分,并根据地址数据的文本对不同区域内的地址数据进行聚类,获得至少一个第一地址类,并根据地址数据的经纬度对地址数据进行聚类,获得至少一个第二地址类,在第一地址类与第二地址类间存在交集的情况下,根据该交集获得第三地址类,并循环执行获取第三地址类中地址数据的地址特征,根据该地址特征匹配地址数据,将第三地址类以外匹配的地址数据并入第三地址类中,至第三地址类符合预设聚类条件。上述地址聚类方法中,对地址数据分别采用分区后根据文本进行聚类获得第一地址类,以及根据经纬度进行聚类获得第二地址类,并提取第一地址类与第二地址类的交集第三地址类,第三地址类中的地址数据间在文本、距离维度均具有相关性,再根据第三地址类确定地址特征,匹配地址数据以对第三地址类进行扩充,从而保证了地址聚类的精度和广度,有效提升了地址聚类的准确性。
图2是本申请实施例提供的另一种地址聚类方法的步骤流程图,如图2所示,该方法可以包括:
步骤201、对所述地址数据进行清洗。
本发明实施例中,地址数据可以通过任意来源、方式获取,因此,可能存在地址数据的格式、文本等方面的错误,还可能存在重复问题,或者夹杂无关数据,此时,可以对地址数据进行清洗,包括去除重复数据、无关数据,统一数据格式,修正文本错误等。
步骤202、对清洗后的所述地址数据进行标准化,获得所述地址数据对应的文本。
本发明实施例中,对清洗后的地址数据进行标准化可以指根据行政区划分对地址数据的文本进行标准化,如对地址数据的省、市、区、街道门牌、名称等根据地址数据已有的文本、位置坐标等进行填充、校正等,如地址数据中包括B市C街道D银行,对其进行标准化确定B市属于A省,C街道属于B1区,则对地址数据进行标准化获得文本“A省B市B1区C街道D银行”,或者地址数据中包括位置坐标(x,y),对其进行标准化确定该坐标(x,y)对应文本“A省B市B2区E街道门牌F酒店”等。
步骤203、根据清洗后的所述地址数据获得所述地址数据对应的经纬度。
本发明实施例中,可以根据清洗后的地址数据获取地址数据对应的经纬度,其中,可以获取地址数据的坐标位置,从而确定地址数据对应的经纬度,可选地,可以在获取地址数据时获取地址数据对应的坐标位置,也可以根据地址数据对应的文本在地图数据库中检索对应的坐标位置,本发明实施例对此不作具体限制。
步骤204、对所述地址数据进行区域划分,并对所述地址数据的文本进行分词,获得第二地址关键词。
本发明实施例中,可以对地址数据的文本进行分词,其中,对地址数据的文本进行分词的算法不作限制,可选地,可以采用字符匹配、语义分析等分词算法,如可以采用jieba(结巴)分词对地址数据进行分词,获得地址数据对应的第二地址关键词。
本发明实施例中,对地址数据进行区域划分可对应参照前述步骤102的相关描述,为避免重复,在此不再赘述。
步骤205、根据所述第二地址关键词生成所述地址数据对应的地址向量。
本发明实施例中,可以根据地址数据对应的第二地址关键词生成地址数据对应的地址向量,可选地,可以采用Gensim、TF-IDF(term frequency–inverse documentfrequency,词频-逆文本频率指数)等模型对第二地址关键词进行转换,获得地址数据对应的地址向量。
步骤206、对每一所述区域内的所述地址数据根据所述地址向量确定相似度。
本发明实施例中,在每一区域内,可以根据地址向量计算地址数据之间的相似度,可选地,根据地址向量确定相似度可以是计算地址向量之间的余弦距离、皮尔逊相关系数、欧氏距离、标准化欧氏距离、马氏距离等等,本发明实施例对此不作具体限制。
步骤207、根据所述相似度对不同所述区域内的所述地址数据进行聚类,获得至少一个所述第一地址类。
本发明实施例中,基于地址向量确定的地址数据间文本的相似度可以表征地址数据之间的相关性,在不同场景中可以表达不同含义,如在风控场景中,由于同一团伙中不同地址数据的文本中可能包括字面暗号信息,因此,文本的相关性可以表征地址数据属于同一团伙的可能性,在行业分析中可以表征地址数据属于同类业务机构的可能性,其中,相似度越大,可能性越高,从而可以根据相似度对地址数据进行聚类,获得至少一个第一地址类,具体聚类方法可对应参照前述步骤102的相关描述,为避免重复,在此不再赘述。
步骤208、根据所述地址数据的经纬度生成所述地址数据对应的地理散列编码。
本发明实施例中,还可以根据地址数据的经纬度对地址数据进行聚类,其中,可以根据地址数据的经纬度生成地址数据对应的地理散列编码,地理散列编码即Geohash是一种对地表根据经纬度进行多层级分区,再按顺序分层级编码的算法,可以将二维信息转化为一维信息,通过字符串表示地址数据的信息。
步骤209、根据所述地理散列编码对所述地址数据进行聚类,获得至少一个所述第二地址类。
本发明实施例中,基于地理散列编码的编码原理,可以将地理散列编码中预设编码位数的编码相同的地理数据进行聚类,预设编码位数的编码相同表示地址数据属于地理散列编码中的同一分区,在经纬度上具有聚集性,其中,预设编码位数可以根据业务需求、历史经验等设置,如可以认为地理散列编码中前7位的编码相同的地理数据具有地理聚集性,则可以在对经纬度编码后,对前7位的编码相同的地理数据进行聚类,获得至少一个第二地址类。
步骤210、在所述第一地址类与所述第二地址类中的所述地址数据存在交集的情况下,根据所述交集获得第三地址类。
本发明实施例中,步骤210可对应参照前述步骤104的相关描述,为避免重复,在此不再赘述。
图3是本发明实施例提供的一种第三地址类确定原理示意图,如图3所示,包括所有地址数据301、第一地址类302与第二地址类303,其中,第一地址类301根据区域内地址数据的文本相似度聚类得到,第二地址类303根据地址数据的经纬度地理散列编码聚类得到,可以看出,第一地址类302与第二地址类303之间存在交集,此时,可以将该交集中的地址数据确定为第三地址类304。
步骤211、循环执行如下步骤,并在所述第三地址类符合预设聚类条件的情况下,终止循环:
步骤212、获取所述第三地址类中所述地址数据的地址特征。
本发明实施例中,步骤212可对应参照前述步骤106的相关描述,为避免重复,在此不再赘述。
可选地,所述地址特征包括第一地址关键词,所述步骤212,包括:
步骤S11、对所述第三地址类中所述地址数据的文本进行分词,获得地址词库。
本发明实施例中,地址特征可以是第一地址关键词,该第一地址关键词通过对地址数据的文本进行分词的得到,其中,对地址数据的文本进行分词可对应参照前述步骤204的相关描述,为避免重复,在此不再赘述。
本发明实施例中,可以根据分词建立第三地址类对应的地址词库,地址词库中可以存储所有第三地址类中地址数据的文本分词结果,可选地,还可以进一步对分词结果进行处理,如统计分词结果的词频信息,去除街道、号、楼、室等高频词,根据词频信息对分词结果进行排名等,还可以关联分词结果与对应的词频信息以建立词频字典,如可以是{“积分”:5,“街道”:1},其中,左侧引号中为分词,右侧为分词对应的词频信息。
步骤S12、根据所述地址词库中的词频信息确定所述第一地址关键词。
本发明实施例中,地址词库中包括第三地址类中所有地址数据对应文本的分词结果,根据该分词结果可以确定各分词结果对应的词频信息,可选地,可以根据词频信息确定第三地址类对应的第一地址关键词,如可以根据词频信息对分词结果进行排序,将排名顺序中前预设位数的分词结果确定为第一地址关键词。
步骤213、根据所述第三地址类中所述地址数据的经纬度确定目标地址范围,所述目标地址范围大于所述第三地址类中所述地址数据的范围。
本发明实施例中,由于距离较远的地址数据为了避免在大量数据中匹配导致开销大、效率低的问题,可以根据第三地址类中地址数据的经纬度确定目标地址范围,可选地,可以是根据第三地址类中各地址数据的经纬度,确定区域范围大于第三地址类各地址数据分布范围的目标地址范围,该目标地址范围包括第三地址类中的地址数据,以及一定数量第三地址类以外的地址数据;还可以是根据地理散列编码确定目标地址范围,如在根据预设编码位数对地理数据进行聚类的情况下,可以缩小预设编码位数以扩大区域范围,根据缩小后的预设编码位数,将预设编码位数的编码相同的地址数据确定为目标地址范围内的地址数据,即目标地址范围大于第三地址类中地址数据的范围。
如,“B市G县H镇酒店1”、“B市G县H镇酒店2”、“B市G县H镇学校1”的三个地址数据对应的地理散列编码前六位字符串“wthc6h”相同,“B市G县”的地理散列编码为“wthc”与上述三个地址数据的前四位字符串相同,“B市”的地理散列编码为“wt”与上述三个地址数据的前两位字符串相同,因此,在获得第二地址类时,可以以前六位为预设编码位数,对前六位编码相同的地址数据进行聚类,在确定目标地址范围时可以缩小预设编码位数至前四位或前两位,再对前四位或前两位编码相同的地址数据进行聚类,从而通过缩小预设编码位数扩大区域范围,以确定大于第三地址类中地址数据范围的目标地址范围。
步骤214、根据所述地址特征对所述目标地址范围内的所述地址数据进行匹配,并将所述第三地址类以外匹配的所述地址数据并入所述第三地址类中。
本发明实施例中,可以对目标地址范围内的地址数据基于地址特征进行匹配,具体的,可参照前述步骤107的相关描述,为避免重复,在此不再赘述。另外,在循环执行步骤212~214的过程中,目标地址范围可以不变,也可以根据第三类地址中地址数据的分布变化,本发明实施例对此不作具体限制。
可选地,所述预设聚类条件包括以下至少一种:
循环执行的次数达到预设次数;
相邻两次循环执行中所述第三地址类中所述地址数据的增量小于或等于预设增量。
本发明实施例中,预设聚类条件可对应参照前述步骤107的相关描述,为避免重复,在此不再赘述。可选地,预设聚类条件可以是循环执行步骤212~214的次数达到预设次数,也可以是相邻两次循环执行中第三地址类中地址数据的增量小于预设增量,或者,也可以是执行步骤212~214后第三地址类中地址数据的增量为0,本发明实施例对此不作具体限制。
本申请实施例中,在获得地址数据后,可以对地址数据进行区域划分,并根据地址数据的文本对不同区域内的地址数据进行聚类,获得至少一个第一地址类,并根据地址数据的经纬度对地址数据进行聚类,获得至少一个第二地址类,在第一地址类与第二地址类间存在交集的情况下,根据该交集获得第三地址类,并循环执行获取第三地址类中地址数据的地址特征,根据该地址特征匹配地址数据,将第三地址类以外匹配的地址数据并入第三地址类中,至第三地址类符合预设聚类条件。上述地址聚类方法中,对地址数据分别采用分区后根据文本进行聚类获得第一地址类,以及根据经纬度进行聚类获得第二地址类,并提取第一地址类与第二地址类的交集第三地址类,第三地址类中的地址数据间在文本、距离维度均具有相关性,再根据第三地址类确定地址特征,匹配地址数据以对第三地址类进行扩充,从而保证了地址聚类的精度和广度,有效提升了地址聚类的准确性。
图4是本申请实施例提供的一种地址聚类装置40的结构框图,如图4所示,该装置40可以包括:
数据获取模块401,用于获取地址数据;
第一聚类模块402,用于对所述地址数据进行区域划分,并根据所述地址数据的文本对不同所述区域内的所述地址数据进行聚类,获得至少一个第一地址类;
第二聚类模块403,用于根据所述地址数据的经纬度对所述地址数据进行聚类,获得至少一个第二地址类;
第三聚类模块404,用于在所述第一地址类与所述第二地址类中的所述地址数据存在交集的情况下,根据所述交集获得第三地址类;
循环执行模块405,用于循环执行如下步骤,并在所述第三地址类符合预设聚类条件的情况下,终止循环:
获取所述第三地址类中所述地址数据的地址特征;
根据所述地址特征对所述地址数据进行匹配,并将所述第三地址类以外匹配的所述地址数据并入所述第三地址类中。
可选地,所述循环执行模块405,包括:
目标范围确定子模块,用于根据所述第三地址类中所述地址数据的经纬度确定目标地址范围,所述目标地址范围大于所述第三地址类中所述地址数据的范围;
地址数据匹配子模块,用于根据所述地址特征对所述目标地址范围内的所述地址数据进行匹配
可选地,所述地址特征包括第一地址关键词,所述循环执行模块405,包括:
第一分词子模块,用于对所述第三地址类中所述地址数据的文本进行分词,获得地址词库;
第一关键词子模块,用于根据所述地址词库中的词频信息确定所述第一地址关键词。
可选地,所述预设聚类条件包括以下至少一种:
循环执行的次数达到预设次数;
相邻两次循环执行中所述第三地址类中所述地址数据的增量小于或等于预设增量。
可选地,所述第一聚类模块402,包括:
第二分词子模块,用于对所述地址数据的文本进行分词,获得第二地址关键词;
向量生成子模块,用于根据所述第二地址关键词生成所述地址数据对应的地址向量;
相似度确定子模块,用于对每一所述区域内的所述地址数据根据所述地址向量确定相似度;
第一聚类子模块,用于根据所述相似度对不同所述区域内的所述地址数据进行聚类,获得至少一个所述第一地址类。
可选地,所述第二聚类模块403,包括:
地址编码子模块,用于根据所述地址数据的经纬度生成所述地址数据对应的地理散列编码;
第二聚类子模块,用于根据所述地理散列编码对所述地址数据进行聚类,获得至少一个所述第二地址类。
可选地,所述数据获取模块401,包括:
数据清洗子模块,用于对所述地址数据进行清洗;
地址文本确定子模块,用于对清洗后的所述地址数据进行标准化,获得所述地址数据对应的文本;
地址经纬度确定子模块,用于根据清洗后的所述地址数据获得所述地址数据对应的经纬度。
本申请实施例中,在获得地址数据后,可以对地址数据进行区域划分,并根据地址数据的文本对不同区域内的地址数据进行聚类,获得至少一个第一地址类,并根据地址数据的经纬度对地址数据进行聚类,获得至少一个第二地址类,在第一地址类与第二地址类间存在交集的情况下,根据该交集获得第三地址类,并循环执行获取第三地址类中地址数据的地址特征,根据该地址特征匹配地址数据,将第三地址类以外匹配的地址数据并入第三地址类中,至第三地址类符合预设聚类条件。上述地址聚类方法中,对地址数据分别采用分区后根据文本进行聚类获得第一地址类,以及根据经纬度进行聚类获得第二地址类,并提取第一地址类与第二地址类的交集第三地址类,第三地址类中的地址数据间在文本、距离维度均具有相关性,再根据第三地址类确定地址特征,匹配地址数据以对第三地址类进行扩充,从而保证了地址聚类的精度和广度,有效提升了地址聚类的准确性。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明实施例还提供了一种电子设备,所述电子设备包括:接口,总线,存储器与处理器,所述接口、存储器与处理器通过所述总线相连接,所述存储器用于存储可执行程序,所述处理器被配置为运行所述可执行程序实现如图1至图2任一所述的地址聚类方法的步骤。
本发明实施例还提供了一种计算机存储介质,所述计算机可读存储介质上存储可执行程序,所述可执行程序被处理器运行实现如图1至图2任一所述的地址聚类方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (10)

1.一种地址聚类方法,其特征在于,所述方法包括:
获取地址数据;
对所述地址数据进行区域划分,并根据所述地址数据的文本对不同所述区域内的所述地址数据进行聚类,获得至少一个第一地址类;
根据所述地址数据的经纬度对所述地址数据进行聚类,获得至少一个第二地址类;
在所述第一地址类与所述第二地址类中的所述地址数据存在交集的情况下,根据所述交集获得第三地址类;
循环执行如下步骤,并在所述第三地址类符合预设聚类条件的情况下,终止循环:
获取所述第三地址类中所述地址数据的地址特征;
根据所述地址特征对所述地址数据进行匹配,并将所述第三地址类以外匹配的所述地址数据并入所述第三地址类中。
2.根据权利要求1所述的方法,其特征在于,所述根据所述地址特征对所述地址数据进行匹配,包括:
根据所述第三地址类中所述地址数据的经纬度确定目标地址范围,所述目标地址范围大于所述第三地址类中所述地址数据的范围;
根据所述地址特征对所述目标地址范围内的所述地址数据进行匹配。
3.根据权利要求1所述的方法,其特征在于,所述地址特征包括第一地址关键词,所述获取所述第三地址类中所述地址数据的地址特征,包括:
对所述第三地址类中所述地址数据的文本进行分词,获得地址词库;
根据所述地址词库中的词频信息确定所述第一地址关键词。
4.根据权利要求1所述的方法,其特征在于,所述预设聚类条件包括以下至少一种:
循环执行的次数达到预设次数;
相邻两次循环执行中所述第三地址类中所述地址数据的增量小于或等于预设增量。
5.根据权利要求1所述的方法,其特征在于,所述根据所述地址数据的文本对不同所述区域内的所述地址数据进行聚类,获得至少一个第一地址类,包括:
对所述地址数据的文本进行分词,获得第二地址关键词;
根据所述第二地址关键词生成所述地址数据对应的地址向量;
对每一所述区域内的所述地址数据根据所述地址向量确定相似度;
根据所述相似度对不同所述区域内的所述地址数据进行聚类,获得至少一个所述第一地址类。
6.根据权利要求1所述的方法,其特征在于,所述根据所述地址数据的经纬度对所述地址数据进行聚类,获得至少一个第二地址类,包括:
根据所述地址数据的经纬度生成所述地址数据对应的地理散列编码;
根据所述地理散列编码对所述地址数据进行聚类,获得至少一个所述第二地址类。
7.根据权利要求1所述的方法,其特征在于,所述获取地址数据包括:
对所述地址数据进行清洗;
对清洗后的所述地址数据进行标准化,获得所述地址数据对应的文本;
根据清洗后的所述地址数据获得所述地址数据对应的经纬度。
8.一种地址聚类装置,其特征在于,所述装置包括:
数据获取模块,用于获取地址数据;
第一聚类模块,用于对所述地址数据进行区域划分,并根据所述地址数据的文本对不同所述区域内的所述地址数据进行聚类,获得至少一个第一地址类;
第二聚类模块,用于根据所述地址数据的经纬度对所述地址数据进行聚类,获得至少一个第二地址类;
第三聚类模块,用于在所述第一地址类与所述第二地址类中的所述地址数据存在交集的情况下,根据所述交集获得第三地址类;
循环执行模块,用于循环执行如下步骤,并在所述第三地址类符合预设聚类条件的情况下,终止循环:
获取所述第三地址类中所述地址数据的地址特征;
根据所述地址特征对所述地址数据进行匹配,并将所述第三地址类以外匹配的所述地址数据并入所述第三地址类中。
9.一种电子设备,所述电子设备包括:接口,总线,存储器与处理器,所述接口、存储器与处理器通过所述总线相连接,所述存储器用于存储可执行程序,所述处理器被配置为运行所述可执行程序实现如权利要求1~7任一所述的地址聚类方法的步骤。
10.一种计算机存储介质,所述计算机可读存储介质上存储可执行程序,所述可执行程序被处理器运行实现如权利要求1~7任一所述的地址聚类方法的步骤。
CN202111058800.5A 2021-09-09 2021-09-09 一种地址聚类方法、装置、电子设备及存储介质 Pending CN113868351A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111058800.5A CN113868351A (zh) 2021-09-09 2021-09-09 一种地址聚类方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111058800.5A CN113868351A (zh) 2021-09-09 2021-09-09 一种地址聚类方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113868351A true CN113868351A (zh) 2021-12-31

Family

ID=78995154

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111058800.5A Pending CN113868351A (zh) 2021-09-09 2021-09-09 一种地址聚类方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113868351A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115525841A (zh) * 2022-10-14 2022-12-27 高德软件有限公司 兴趣点信息的获取方法、电子设备及存储介质
CN116541474A (zh) * 2023-07-05 2023-08-04 平安银行股份有限公司 对象获取方法、装置、电子设备及存储介质
CN117591904A (zh) * 2024-01-18 2024-02-23 中睿信数字技术有限公司 一种基于密度聚类的货车聚类方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115525841A (zh) * 2022-10-14 2022-12-27 高德软件有限公司 兴趣点信息的获取方法、电子设备及存储介质
CN115525841B (zh) * 2022-10-14 2024-02-02 高德软件有限公司 兴趣点信息的获取方法、电子设备及存储介质
CN116541474A (zh) * 2023-07-05 2023-08-04 平安银行股份有限公司 对象获取方法、装置、电子设备及存储介质
CN116541474B (zh) * 2023-07-05 2024-02-02 平安银行股份有限公司 对象获取方法、装置、电子设备及存储介质
CN117591904A (zh) * 2024-01-18 2024-02-23 中睿信数字技术有限公司 一种基于密度聚类的货车聚类方法
CN117591904B (zh) * 2024-01-18 2024-04-16 中睿信数字技术有限公司 一种基于密度聚类的货车聚类方法

Similar Documents

Publication Publication Date Title
CN111274811B (zh) 地址文本相似度确定方法以及地址搜索方法
CN111783419B (zh) 地址相似度计算方法、装置、设备和存储介质
CN109783582B (zh) 一种知识库对齐方法、装置、计算机设备及存储介质
CN113868351A (zh) 一种地址聚类方法、装置、电子设备及存储介质
CN110968654B (zh) 文本数据的地址类目确定方法、设备以及系统
US8849030B2 (en) Image retrieval using spatial bag-of-features
CN109783490B (zh) 数据融合方法、装置、计算机设备及存储介质
CN107168991B (zh) 一种搜索结果展示方法和装置
CN111143597B (zh) 图像检索方法、终端及存储装置
US10331717B2 (en) Method and apparatus for determining similar document set to target document from a plurality of documents
CN113656547B (zh) 文本匹配方法、装置、设备及存储介质
CN110825894A (zh) 数据索引建立、数据检索方法、装置、设备和存储介质
CN112860993B (zh) 兴趣点的分类方法、装置、设备、存储介质及程序产品
CN111078835A (zh) 简历评估方法、装置、计算机设备及存储介质
Feldman et al. The single pixel GPS: learning big data signals from tiny coresets
CN111291099A (zh) 一种地址模糊匹配方法、系统及计算机设备
CN114548192A (zh) 样本数据处理方法、装置、电子设备及介质
Zhang et al. Clustering with implicit constraints: A novel approach to housing market segmentation
CN113065354B (zh) 语料中地理位置的识别方法及其相关设备
CN111460325B (zh) Poi搜索方法、装置与设备
CN110321435B (zh) 一种数据源划分方法、装置、设备和存储介质
US20230296406A1 (en) Apparatus and method for matching POI entities
CN112149005A (zh) 用于确定搜索结果的方法、装置、设备和可读存储介质
CN110874442A (zh) 处理信息的方法、装置、设备和介质
Chen et al. Vertex-context sampling for weighted network embedding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination