CN115481242A - 地址文本聚类方法、装置和设备 - Google Patents
地址文本聚类方法、装置和设备 Download PDFInfo
- Publication number
- CN115481242A CN115481242A CN202110668563.8A CN202110668563A CN115481242A CN 115481242 A CN115481242 A CN 115481242A CN 202110668563 A CN202110668563 A CN 202110668563A CN 115481242 A CN115481242 A CN 115481242A
- Authority
- CN
- China
- Prior art keywords
- address
- text
- cluster
- processed
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000012545 processing Methods 0.000 claims abstract description 48
- 238000004364 calculation method Methods 0.000 claims abstract description 18
- 239000013598 vector Substances 0.000 claims description 177
- 239000000470 constituent Substances 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 13
- 230000000875 corresponding effect Effects 0.000 description 58
- 230000008569 process Effects 0.000 description 14
- 238000003860 storage Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 8
- 238000013507 mapping Methods 0.000 description 7
- 238000009826 distribution Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种地址文本聚类方法、装置和设备。地址文本聚类方法包括:获取待处理的地址文本;计算待处理的地址文本与多个已知的聚类簇之间的相似度;基于相似度,确定待处理的地址文本的聚类结果。本实施例提供的技术方案,通过获取待处理的地址文本,并计算地址文本与多个已知的地址聚类簇之间的相似度,而后基于相似度来确定地址文本的聚类结果,从而有效地实现了能够流式地对地址文本进行分析处理,这样不仅数据计算量较小,适用于上亿级别的数据处理任务,并且对地址文本进行分析处理的精确度较高。
Description
技术领域
本发明涉及文本处理技术领域,尤其涉及一种地址文本聚类方法、装置和设备。
背景技术
随着网络技术的飞速发展,互联网中存在海量的地址相关数据,针对海量的地址相关数据,地址自归一技术可以将描述同一地点的不同地址文本进行聚合处理,从而可以实现对于依附于同一地点的不同数据进行关联,便于下游数据的分析任务。
现有的文本聚类方法的实现原理比较简单,其一般包括以下步骤:获取任意两个地址文本之间的相似度,基于相似度来对地址文本进行聚类处理。然而,这样不仅数据计算量比较大,无法适用于上亿级别的数据处理任务,并且聚类精确度较低。
发明内容
鉴于此,本发明实施例提供了一种地址文本聚类方法、装置和设备,能够流式地对地址文本进行分析处理,不仅数据计算量较小,适用于上亿级别的数据处理任务,并且对地址文本进行分析处理的精确度较高。
第一方面,本发明实施例提供了一种地址文本聚类方法,包括:
获取待处理的地址文本;
计算所述待处理的地址文本与多个已知的地址聚类簇之间的相似度;
基于所述相似度,确定所述待处理的地址文本的聚类结果。
第二方面,本发明实施例提供了一种地址文本聚类装置,包括:
获取模块,用于获取待处理的地址文本;
计算模块,用于计算所述待处理的地址文本与多个已知的地址聚类簇之间的相似度;
处理模块,用于基于所述相似度,确定所述待处理的地址文本的聚类结果。
第三方面,本发明实施例提供一种电子设备,包括处理器和存储器,存储器用于存储一条或多条计算机指令,其中,一条或多条计算机指令被处理器执行时实现上述第一方面中的地址文本聚类方法。
第四方面,本发明实施例提供了一种计算机存储介质,用于储存存储计算机程序,计算机程序使计算机执行时实现上述第一方面中的地址文本聚类方法。
本实施例提供的技术方案,通过获取待处理的地址文本,并计算所述地址文本与所述多个已知的地址聚类簇之间的相似度,而后基于所述相似度来确定所述地址文本的聚类结果,从而有效地实现了能够流式地对地址文本进行分析处理,这样不仅数据计算量较小,适用于上亿级别的数据处理任务,并且对地址文本进行分析处理的精确度较高,进而提高了该方法的实用性,有利于市场的推广与应用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种地址文本聚类方法的场景流程图;
图2为本发明实施例提供的一种地址文本聚类方法的流程示意图;
图3为本发明实施例提供的计算所述待处理的地址文本与多个已知的地址聚类簇之间的相似度的流程示意图;
图4为本发明实施例提供的计算所述待处理的地址文本与所述每个地址聚类簇的聚类中心点之间的文本相似度的流程示意图;
图5为本发明实施例提供的根据所述第一向量数据、第二向量数据和所述参考向量,计算所述待处理的地址文本与每个地址聚类簇的聚类中心点之间的文本相似度的流程示意图;
图6为本发明实施例提供的一种地址文本聚类装置的结构示意图;
图7为与图6所示实施例提供的地址文本聚类装置相对应的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于识别”。类似地,取决于语境,短语“如果确定”或“如果识别(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当识别(陈述的条件或事件)时”或“响应于识别(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
为了便于理解本实施例的技术方案,下面对现有技术进行相关说明:
互联网中存在海量的地址相关数据,针对海量的地址相关数据,地址自归一技术可以将描述同一地点的不同地址文本进行聚合处理,从而可以实现对于依附于该地点的不同数据进行关联,便于下游数据的分析任务。
现有的文本聚类方法的实现原理比较简单,其一般包括以下步骤:获取任意两个地址文本之间的相似度,基于相似度来对地址文本进行聚类处理。然而,上述通用的文本聚类方法存在以下两个缺陷:
(1)简单的文本表示不适用于地址这种高度结构化的文本,从而影响了聚类结果的精确度。
举例来说,现有以下待聚类的地址文本,地址文本1为“淘宝城”,地址文本2为“中国杭州市余杭区文一西路969号、阿里巴巴西溪园区”,上述的地址文本1可以认为是简单的地址文本,而地址文本2可以认为时高度结构化的地址文本,在利用现有的文本聚类方法对上述地址文本1和地址文本2进行分析处理时,由于地址文本1与地址文本2之间的文字表述差异较大。因此,在对地址文本进行相似度分析时,容易确定地址文本1与地址文本2之间的相似度较低。然而,在实际场景中,上述的地址文本1和地址文本2指代的是同一个地点,此时,在利用上述相似度分析结果进行聚类处理时,很容易出现聚类结果出现偏差,进而降低文本聚类的精确程度。
(2)无法处理上亿级别的的数据。
由于现有的文本聚类方法需要获取所有的历史地址文本,而后计算历史地址文本与当前待处理的地址文本之间的相似度,这样不仅数据计算量比较大,无法适用于上亿级别的数据处理任务,并且聚类精确度较低,因此,传统聚类方法无法直接应用于海量数据。
为了解决上述技术问题,本实施例提供了一种地址文本聚类方法、装置和设备,其中,该地址文本聚类方法的执行主体为地址文本聚类装置,上述的地址文本聚类装置可以通信连接有客户端,以实现地址文本的处理操作。
具体的,客户端可以是任何具有一定计算能力的计算设备。客户端的基本结构可以包括:至少一个处理器。处理器的数量取决于客户端的配置和类型。客户端也可以包括存储器,该存储器可以为易失性的,例如RAM,也可以为非易失性的,例如只读存储器(Read-Only Memory,简称ROM)、闪存等,或者也可以同时包括两种类型。存储器内通常存储有操作系统(Operating System,简称OS)、一个或多个应用程序,也可以存储有程序数据等。除了处理单元和存储器之外,客户端还包括一些基本配置,例如网卡芯片、IO总线、显示组件以及一些外围设备等。可选地,一些外围设备可以包括,例如键盘、鼠标、输入笔、打印机等。其它外围设备在本领域中是众所周知的,在此不做赘述。可选地,客户端可以为PC(personalcomputer)终端、手持终端(例如:智能手机、平板电脑)等。
地址文本聚类装置可以是指可以在网络虚拟环境中提供计算处理服务的设备,通常是指能够对地址文本进行分析处理的装置。在物理实现上,地址文本聚类装置可以是任何能够提供计算服务,响应服务请求,并进行处理的设备,例如:可以是集群服务器、常规服务器、云服务器、云主机、虚拟中心等。数据处理装置的构成主要包括处理器、硬盘、内存、系统总线等,和通用的计算机架构类似。
在上述本实施例中,客户端可以与地址文本聚类装置进行网络连接,该网络连接可以是无线或有线网络连接。若客户端与地址文本聚类装置是通信连接,该移动网络的网络制式可以为2G(GSM)、2.5G(GPRS)、3G(WCDMA、TD-SCDMA、CDMA2000、UTMS)、4G(LTE)、4G+(LTE+)、WiMax等中的任意一种。
在本申请实施例中,客户端用于获取待处理的地址文本,而后可以将待处理的地址文本发送至地址文本聚类装置,以使得地址文本聚类装置可以对待处理的地址文本进行分析处理。其中,待处理的地址文本的数量可以为一个或多个,在待处理数据的数量为多个时,多个待处理的地址文本可以对应有不同的数据格式,并且多个待处理的地址文本可以对应于不同的数据量大小。
在地址文本聚类装置获取到待处理的地址文本之后,可以确定用于所述地址文本进行分析处理的多个已知的地址聚类簇,其中,每个已知的地址聚类簇中包括一个或多个历史地址文本,且每个已知的地址聚类簇对应一兴趣点(Point of Interest,简称POI);而后计算所述地址文本与所述多个已知的地址聚类簇之间的相似度,从而可以基于所获得的相似度来确定地址文本的聚类结果,实现了对地址文本进行准确地聚类处理。
举例来说,参考附图1所示,多个已知的地址聚类簇可以包括:与兴趣点1相对应的已知的地址聚类簇1、与兴趣点2相对应的已知的地址聚类簇2以及与兴趣点3相对应的已知的地址聚类簇3等等,可以理解的是,每个已知的地址聚类簇中可以包括一个或多个地址文本。
在获取到待处理的地址文本之后,可以计算地址文本与每个已知的地址聚类簇之间的相似度,具体可以获取到待处理的地址文本与已知的地址聚类簇1之间的相似度1、待处理的地址文本与已知的地址聚类簇2之间的相似度2以及待处理的地址文本与已知的地址聚类簇3之间的相似度3等等。在获取到上述多个相似度之后,可以基于多个相似度来确定地址文本的聚类结果。在一些实例中,在获取到多个相似度之后,可以获取最高的相似度,而后将最高的相似度与预设阈值进行分析比较,在最高的相似度为相似度2、且相似度2大于或等于预设阈值时,则可以将与兴趣点2相对应的已知的地址聚类簇2确定为地址文本的聚类结果。
在确定已知的地址聚类簇2为地址文本的聚类结果之后,可以将待处理的地址文本聚类至已知的地址聚类簇2中,从而可以生成新的已知的地址聚类簇2。
在另一些实例中,在最高的相似度为相似度2、且相似度2小于预设阈值时,则说明已知的地址聚类簇中并不存在与待处理的地址文本相近似的聚类结果,此时可以基于待处理的地址文本生成一个新的独立聚类簇。
此外,本实施例中的地址文本聚类装置可以应用于各个用于进行地址分析的应用场景中。举例1,在接收到报警电话、急救电话、救火电话时,可以通过报警电话、急救电话、救火电话所对应的模糊地址信息,而后基于地址文本聚类装置对模糊地址信息进行聚类分析,以确定与模糊地址信息相对应的精确定位信息。在获取到精确定位信息之后,可以使得警务人员、急救人员、救援人员可以更加快速、有效地进行急救、紧急救援或者紧急救火,这样有效地提高了该地址文本聚类装置使用的安全可靠性。
举例2,在配送技术领域,某一配送员存在多个待配送任务时,可以基于不同的待配送任务确定属于同一区域的地址簇,即利用地址文本聚类装置对所有的待配送任务所对应的地址文本进行聚类分析,从而可以获得聚类结果,每一个聚类结果中可以对应同一区域,同一区域中可以包括一个或多个待配送任务所对应的地址信息,而后可以基于上述聚类结果来生成配送建议,该配送建议用于供配送员进行快速、有效地配送操作,即按照上述与聚类结果进行配送操作时,可以提高配送操作的质量和效率,进一步保证了该地址文本聚类装置的实用性。
本实施例提供的技术方案,通过获取待处理的地址文本,计算所述地址文本与所述多个已知的地址聚类簇之间的相似度,而后基于所述相似度来确定所述地址文本的聚类结果,从而有效地实现了能够流式地对地址文本进行分析处理,这样不仅数据计算量较小,适用于上亿级别的数据处理任务,并且对地址文本进行分析处理的精确度较高,进而提高了该方法的实用性,有利于市场的推广与应用。
另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
图2为本发明实施例提供的一种地址文本聚类方法的流程示意图;参考附图2所示,本实施例提供了一种地址文本聚类方法,该地址文本聚类方法的执行主体为地址文本聚类装置,可以理解的是,该地址文本聚类装置可以实现为软件、或者软件和硬件的组合。具体的,该方法可以包括:
步骤S201:获取待处理的地址文本。
步骤S202:计算待处理的地址文本与多个已知的地址聚类簇之间的相似度。
步骤S203:基于相似度,确定待处理的地址文本的聚类结果。
下面对上述各个步骤的具体实现过程进行详细阐述:
步骤S201:获取待处理的地址文本。
其中,待处理的地址文本是指需要进行聚类分析处理的地址文本,该地址文本的数量可以为一个或多个,具体的,本实施例对于与待处理的地址文本的具体获取方式不做限定,本领域技术人员可以根据不同的应用场景和应用需求采用不同的实现方式来获取,例如,待处理的地址文本可以存储在预设区域中,通过访问预设区域即可获取待处理的地址文本;或者,地址文本聚类装置上设置有检测设备,检测设备用于检测用户对地址文本聚类装置所输入的执行操作,并基于执行操作生成待处理的地址文本;或者,待处理的地址文本存储在第三设备中,第三设备与地址文本聚类装置通信连接,在用户存在聚类处理需求时,地址文本聚类装置可以生成文本处理请求,并将文本处理请求发送至第三设备,以使第三设备可以基于文本处理请求将待处理的地址文本发送至地址文本聚类装置,从而使得地址文本聚类装置可以稳定地获取到待处理的地址文本。
当然的,本领域技术人员也可以采用其他的方式来获取待处理的地址文本,只要能够保证对待处理的地址文本进行获取的准确可靠性即可,在此不再赘述。
步骤S202:计算待处理的地址文本与多个已知的地址聚类簇之间的相似度。
在获取到地址文本之后,可以确定用于对地址文本进行分析处理的多个已知的地址聚类簇,其中,不同的地址文本可以对应有相同或者不同的已知的地址聚类簇,每个已知的地址聚类簇中包括一个或多个历史地址文本,且每个已知的地址聚类簇对应一兴趣点,可以理解的是,不同的已知的地址聚类簇中可以包括不同数量的历史地址文本。另外,上述不同的地址文本可以是指以下任意之一:文本内容不同的地址文本、不同地理位置所对应的地址文本。
在一些实例中,在确定用于对地址文本进行分析处理的多个已知的地址聚类簇时,若不同的地址文本对应有相同的已知的地址聚类簇,此时的多个已知的地址聚类簇可以存储在预设区域中,通过访问预设区域即可获取用于对地址文本进行分析处理的多个已知的地址聚类簇。当然的,本领域技术人员也可以采用其他的方式来获取多个已知的地址聚类簇,只要能够保证对多个已知的地址聚类簇进行获取的稳定可靠性即可,在此不再赘述。
在另一些实例中,在确定用于对地址文本进行分析处理的多个已知的地址聚类簇时,若不同的地址文本可以对应有不同的已知的地址聚类簇,例如:城市“北京”区域内的地址文本可以对应第一组“多个已知的地址聚类簇”,城市“深圳”区域内的地址文本可以对应第二组“多个已知的地址聚类簇”,显然的,第一组“多个已知的地址聚类簇”与第二组“多个已知的地址聚类簇”不同。再或者,北京市中“海淀区”内的地址文本可以对应第三组“多个已知的地址聚类簇”,北京市中“朝阳区”内的地址文本可以对应第四组“多个已知的地址聚类簇”,显然的,第三组“多个已知的地址聚类簇”与第四组“多个已知的地址聚类簇”不同。此时,为了能够准确地确定用于对地址文本进行分析处理的多个已知的地址聚类簇,则可以先获取地址文本所对应的区域范围,基于区域范围来确定用于对地址文本进行分析处理的多个已知的地址聚类簇。
当然的,本领域技术人员也可以采用其他的方式来获取多个已知的地址聚类簇,只要能够保证对多个已知的地址聚类簇进行获取的稳定可靠性即可,在此不再赘述。
在获取到地址文本和多个已知的地址聚类簇之后,可以计算待处理的地址文本与多个已知的地址聚类簇之间的相似度,即计算待处理的地址文本与每个已知的地址聚类簇之间的相似度,从而可以获取到待处理的地址文本与多个已知的地址聚类簇之间的多个相似度。具体的,本实施例对于计算地址文本与多个已知的地址聚类簇之间的相似度的具体实现方式不做限定,本领域技术人员可以根据具体的应用场景和应用需求进行设置,例如:在获取到多个已知的地址聚类簇之后,可以针对每个已知的地址聚类簇获取聚类簇标识信息,具体的,该聚类簇标识信息可以是对已知的地址聚类簇中所有历史地址文本进行分析处理获得的综合结果信息,或者,该聚类簇标识信息可以为已知的地址聚类簇中所有历史地址文本中的任意一个。
在获取到聚类簇标识信息之后,可以计算待处理的地址文本与聚类簇标识信息之间的相似度,而后将待处理的地址文本与聚类簇标识信息之间的相似度确定为地址文本与所对应的已知的地址聚类簇之间的相似度,从而有效地保证了对待处理的地址文本与已知的地址聚类簇之间的相似度进行确定的准确可靠性。
当然的,本领域技术人员也可以采用其他的方式来计算待处理的地址文本与多个已知的地址聚类簇之间的相似度,只要能够保证对待处理的地址文本与多个已知的地址聚类簇之间的相似度进行获取的稳定可靠性即可,在此不再赘述。
步骤S203:基于相似度,确定待处理的地址文本的聚类结果。
在获取到相似度之后,可以对相似度进行分析处理,以确定待处理的地址文本的聚类结果。在一些实例中,基于相似度,确定待处理的地址文本的聚类结果可以包括:在存在相似度大于或等于预设阈值时,则将相似度所对应的已知的地址聚类簇确定为待处理的地址文本所对应的聚类结果;在所有的相似度小于预设阈值时,则基于待处理的地址文本生成独立聚类簇。
具体的,在获取到相似度之后,可以获取用于对相似度进行分析处理的预设阈值,该预设阈值用于标识待处理的地址文本与已知的地址聚类簇属于同一聚类簇的相似度最小值,本实施例对于预设阈值的具体数值范围不做限定,本领域技术人员可以根据具体的应用场景和应用需求进行设置,例如:预设阈值可以为95%、98%或者99%等等。
在获取到预设阈值之后,可以将所获取到的相似度与预设阈值进行分析比较,在存在相似度大于或等于预设阈值时,则可以将相似度所对应的已知的地址聚类簇确定为地址文本所对应的聚类结果;在所有的相似度小于预设阈值时,则说明此时的待处理的地址文本与所有已知的地址聚类簇的相似度较低,进而可以基于地址文本生成独立聚类簇。
举例来说,已知的地址聚类簇包括聚类簇A、聚类簇B和聚类簇C,上述的聚类簇A对应于兴趣点1、聚类簇B对应于兴趣点2、聚类簇C对应于兴趣点3。而后计算地址文本与上述已知的地址聚类簇之间的相似度分别为:地址文本与聚类簇A之间的相似度为90%,地址文本与聚类簇B之间的相似度为97%,地址文本与聚类簇C之间的相似度为95%。
在预设阈值为96%时,则可以确定聚类簇B与待处理的地址文本之间的相似度大于预设阈值,进而可以将聚类簇B确定为待处理的地址文本的聚类结果。
在预设阈值为98%时,则可以确定所有的相似度均小于预设阈值,进而可以基于待处理的地址文本生成新的独立聚类簇,例如,可以生成聚类簇D,该聚类簇D中包括待处理的地址文本。
在又一些实例中,在存在多个相似度大于或等于预设阈值时,则可以获取多个相似度中最大的相似度,而后将最大的相似度所对应的已知的地址聚类簇确定为待处理的地址文本所对应的聚类结果。
承接上述举例,在预设阈值为95%时,则可以确定聚类簇B与地址文本之间的相似度大于预设阈值,地址文本与聚类簇C之间的相似度等于预设阈值,此时,可以获取较高的相似度所对应的聚类簇B,而后将聚类簇B确定为待处理的地址文本的聚类结果。
在又一些实例中,基于相似度,确定待处理的地址文本的聚类结果可以包括:如果相似度大于或等于预设阈值,则将相似度所对应的目标地址聚类簇确定为待处理的地址文本所对应的聚类结果;如果相似度小于预设阈值,则基于待处理的地址文本生成新的地址聚类簇。
在另一些实例中,基于相似度,确定待处理的地址文本的聚类结果可以包括:获取最大的相似度,将最大的相似度与预设阈值进行分析比较,在最大的相似度大于或等于预设阈值时,则将最大的相似度所对应的已知的地址聚类簇确定为地址文本的聚类结果;在最大的相似度小于预设阈值时,则基于待处理的地址文本生成新的地址聚类簇。
在又一些实例中,在将所述相似度所对应的目标地址聚类簇确定为所述待处理的地址文本所对应的聚类结果之后,本实施例中的方法还可以包括:将待处理的地址文本聚类至目标地址聚类簇中,并更新目标地址聚类簇。
具体的,在确定与地址文本相对应的目标地址聚类簇之后,可以将地址文本聚类至所对应的目标地址聚类簇中,并可以更新该目标地址聚类簇中,即使得该已知的目标地址聚类簇中所包括的历史地址文本中可以包括上述待处理的地址文本,从而有效地完成了对地址文本进行聚类处理,进一步提高了该方法的实用性。
在又一些实例中,在基于待处理的地址文本生成新的地址聚类簇之后,本实施例中的方法还可以包括:将所生成的新的地址聚类簇更新至已知的地址聚类簇中,获得更新后的已知的地址聚类簇。
需要注意的是,所生成的新的地址聚类簇中仅仅包括待处理的地址文本,而待处理的地址文本可以对应于一兴趣点,具体的,该兴趣点可以基于地址文本进行分析处理所获得。另外,在基于待处理的地址文本生成新的地址聚类簇之后,可以将所生成的新的地址聚类簇更新至已知的地址聚类簇中,以使的已知的地址聚类簇中可以包括所有进行聚类处理的地址文本,进而便于实现流式地对地址文本进行聚类处理,进一步提高了地址文本聚类的质量和效率。
本实施例提供的地址文本聚类方法,通过获取待处理的地址文本,计算待处理的地址文本与多个已知的地址聚类簇之间的相似度,而后基于相似度来确定地址文本的聚类结果,从而有效地实现了能够流式地对地址文本进行分析处理,这样不仅数据计算量较小,适用于上亿级别的数据处理任务,并且对地址文本进行分析处理的精确度较高,进而提高了该方法的实用性,有利于市场的推广与应用。
图3为本发明实施例提供的计算待处理的地址文本与多个已知的地址聚类簇之间的相似度的流程示意图;在上述实施例的基础上,参考附图3所示,本实施例对于计算待处理的计算地址文本与多个已知的地址聚类簇之间的相似度的具体实现方式不做限定,本领域技术人员可以根据具体的应用场景和应用需求进行设置,较为优选的,本实施例中的计算待处理的地址文本与多个已知的地址聚类簇之间的相似度可以包括:
步骤S301:获取多个已知的地址聚类簇中每个地址聚类簇相对应的聚类中心点。
其中,在获取到多个已知的地址聚类簇之后,可以对每个地址聚类簇包括的所有历史地址文本进行分析处理,从而可以获得多个已知的地址聚类簇中每个聚类簇相对应的聚类中心点,在一些实例中,聚类中心点可以为所有历史地址文本所对应的向量标识信息的平均值。
当然的,本领域技术人员也可以采用其他的方式来获取每个已知的地址聚类簇相对应的聚类中心点,只要能够保证对聚类中心点进行确定的准确可靠性即可,在此不再赘述。
步骤S302:计算待处理的地址文本与每个地址聚类簇的聚类中心点之间的文本相似度。
其中,在获取到待处理的地址文本和每个地址聚类簇的聚类中心点之后,可以对地址文本与聚类中心点进行分析处理,以计算地址文本与聚类中心点之间的文本相似度。具体的,本实施例对于计算地址文本与聚类中心点之间的文本相似度的具体实现方式不做限定,本领域技术人员可以根据具体的应用场景或应用需求进行设置,例如:预先训练有用于计算地址文本之间相似度的机器学习模型,在获取到待处理的地址文本与每个地址聚类簇的聚类中心点之后,可以将待处理的地址文本与每个地址聚类簇的聚类中心点输入至机器学习模型中,从而可以获得待处理的地址文本与每个地址聚类簇的聚类中心点之间的文本相似度。或者,获取待处理的地址文本的第一向量表示信息以及与每个地址聚类簇的聚类中心点的第二向量表示信息,基于第一向量表示信息和第二向量表示信息来计算待处理的地址文本与每个地址聚类簇的聚类中心点之间的文本相似度。
当然的,本领域技术人员也可以采用其他的方式来计算待处理的地址文本与每个地址聚类簇的聚类中心点之间的文本相似度,只要能够保证对地址文本与聚类中心点之间的文本相似度进行获取的稳定可靠性即可,在此不再赘述。
步骤S303:根据文本相似度确定待处理的地址文本与每个地址聚类簇之间的相似度。
在获取到文本相似度之后,可以对文本相似度进行分析处理,以根据文本相似度来确定待处理的地址文本与每个地址聚类簇之间的相似度,在一些实例中,可以直接将文本相似度确定为待处理的地址文本与每个地址聚类簇之间的相似度;从而有效地保证了对待处理的地址文本与每个地址聚类簇之间的相似度进行获取的准确可靠性,进一步提高了对地址文本进行聚类处理的精确程度。
图4为本发明实施例提供的计算待处理的地址文本与每个地址聚类簇的聚类中心点之间的文本相似度的流程示意图;在上述实施例的基础上,参考附图4所示,本实施例提供了一种计算待处理的地址文本与每个地址聚类簇的聚类中心点之间的文本相似度的实现方式,本实施例中的计算待处理的地址文本与每个地址聚类簇的聚类中心点之间的文本相似度可以包括:
步骤S401:在待处理的地址文本中,获取用于标识地址信息的第一向量数据、以及用于标识关键信息的第二向量数据。
其中,为了能够准确地计算待处理的地址文本与每个地址聚类簇的聚类中心点之间的文本相似度,在获取到待处理的地址文本之后,可以对待处理的地址文本进行分析处理,以获取用于标识地址文本中地址信息的第一向量信息和用于标识地址文本中关键信息的第二向量信息。在一些实例中,获取用于标识地址信息的第一向量数据可以包括:获取地址文本中所包括的字符信息;计算字符信息的向量表示信息;对地址文本中包括的所有字符信息的向量表示信息进行求和,获得用于标识地址文本中地址信息的第一向量数据。
在获取到地址文本之后,可以对地址文本进行字符识别,从而可以获得地址文本中所包括的字符信息,具体的,本实施例对于计算字符信息的向量表示信息的实现方式不做限定,本领域技术人员可以根据具体的应用场景和应用需求进行设置,例如:预先配置有字符信息与向量表示信息之间的映射表,通过查找映射表即可确定字符信息的向量表示信息。或者,预先设置字符编码算法,在获取到字符信息之后,可以利用字符编码算法对字符信息进行分析处理,从而可以获得字符信息的向量表示信息。当然的,本领域技术人员也可以采用其他的方式来获取字符信息的向量表示信息,只要能够保证对向量表示信息进行确定的准确可靠性。
在获取到地址文本中所有字符信息的向量表示信息之后,可以对地址文本中包括的所有字符信息的向量表示信息进行求和,这样可以获得用于标识地址文本中地址信息的第一向量数据,从而有效地保证了对第一向量数据进行获取的质量和效率。
在另一些实例中,本实施中的获取用于标识关键信息的第二向量数据可以包括:确定地址文本中所包括的关键信息,计算关键信息的向量表示信息,基于地址文本中包括的所有关键信息的向量表示信息,确定用于标识地址文本中关键信息的第二向量数据。
在获取到地址文本之后,可以对地址文本进行分析处理,从而可以获得地址文本中所包括的关键信息,具体的,本实施例对于获得地址文本中所包括的关键信息的具体实现方式不做限定,本领域技术人员可以根据具体的应用场景或者应用需求进行设置,例如:预先设置有用于对地址文本进行分析处理的机器学习模型,机器学习模型可以对地址文本进行分析处理,从而可以获得地址文本中所包括的关键信息。
举例来说,地址文本为“浙江省杭州市文一西路969阿里巴巴西溪园区”时,可以利用机器学习模型对上述的地址文本进行分析处理,从而可以获得地址文本中所包括的关键信息:prov=浙江省、city=杭州市、road=文一西路、roadno=969、poi=阿里巴巴西溪园区。
在获取到关键信息之后,可以对关键信息进行分析处理,以计算关键信息的向量表示信息,可以理解的是,地址文本中可以包括一个或多个关键信息,而后可以获得与一个或多个关键信息相对应的向量表示信息。具体的,本实施例对于计算关键信息的向量表示信息的实现方式不做限定,本领域技术人员可以根据具体的应用场景和应用需求进行设置,例如:预先配置有关键信息与向量表示信息之间的映射表,通过查找映射表即可确定关键信息的向量表示信息。或者,预先设置字符编码算法,在获取到关键信息之后,可以利用字符编码算法对关键信息进行分析处理,从而可以获得关键信息的向量表示信息。
在一些实例中,确定地址文本中所包括的关键信息可以包括:获取用于对地址文本进行分析处理的地址解析模型,地址解析模型被训练为用于解析地址文本中所包括的关键信息;利用地址解析模型对地址文本进行分析处理,确定地址文本中所包括的关键信息。
具体的,预先设置有用于对地址文本进行分析处理的地址解析模型,该地址解析模型被训练为用于解析地址文本中所包括的关键信息,在获取到地址文本之后,可以利用地址解析模型对地址文本进行分析处理,从而可以准确、有效地获取地址文本中所包括的关键信息。当然的,本领域技术人员也可以采用其他的方式来获取关键信息的向量表示信息,只要能够保证对向量表示信息进行确定的准确可靠性。
在获取到地址文本中包括的所有关键信息的向量表示信息之后,可以基于地址文本中包括的所有关键信息的向量表示信息来确定地址文本中关键信息的第二向量数据。在一些实例中,可以直接将所有关键信息的向量表示信息确定为地址文本中关键信息的第二向量数据;或者,可以将所有关键信息的向量表示信息进行组合,从而可以稳定地获取地址文本中关键信息的第二向量数据。
步骤S402:对于每个地址聚类簇,获取用于标识聚类中心点的参考向量。
在获取到每个地址聚类簇的聚类中心点之后,可以对聚类中心点进行分析处理,从而可以确定用于标识聚类中心点的参考向量。在一些实例中,获取用于标识聚类中心点的参考向量可以包括:获得第一地址聚类簇中的多个组成地址文本;计算每个组成地址文本所对应的地址向量;将多个地址向量的平均值,作为所述第一地址聚类簇的聚类中心点的参考向量。
其中,为了能够获取用于标识聚类中心点的参考向量,可以对多个已知的地址聚类簇进行分析处理,以第一地址聚类簇作为多个已知的地址聚类簇中的一个代表为例进行说明,可以获取第一地址聚类簇中的多个组成地址文本,即确定第一地址聚类簇中所包括的历史地址文本,在获取到多个组成地址文本之后,可以计算每个组成地址文本所对应的地址向量,由于组成地址文本的数量可以为一个或多个,因此,所获得的地址向量的数量为一个或多个。在获取到每个组成地址文本所对应的地址向量之后,可以将多个地址向量的平均值确定为第一地址聚类簇的聚类中心点的参考向量,由于此时的参考向量是基于地址聚类簇中所有历史组成地址文本所确定的,从而有效地保证了对参考向量进行确定的准确可靠性。
当然的,本领域技术人员也可以采用其他的方式来获取用于标识聚类中心点的参考向量,只要能够保证对用于标识聚类中心点的参考向量进行确定的准确可靠性即可,在此不再赘述。
步骤S403:根据第一向量数据、第二向量数据和参考向量,计算待处理的地址文本与每个地址聚类簇的聚类中心点之间的文本相似度。
其中,在获取到第一向量数据、第二向量数据和参考向量之后,可以对第一向量数据、第二向量数据和参考向量进行分析处理,从而可以计算待处理的地址文本与每个地址聚类簇的聚类中心点之间的文本相似度。
本实施例中,通过获取用于标识地址信息的第一向量数据、以及用于标识关键信息的第二向量数据,之后确定用于标识聚类中心点的参考向量,并根据第一向量数据、第二向量数据和参考向量来计算待处理的地址文本与每个地址聚类簇的聚类中心点之间的文本相似度,从而有效地保证了对待处理的地址文本与每个地址聚类簇的聚类中心点之间的文本相似度进行计算的准确可靠性。
图5为本发明实施例提供的根据第一向量数据、第二向量数据和参考向量,计算待处理的地址文本与每个地址聚类簇的聚类中心点之间的文本相似度的流程示意图;在上述实施例的基础上,继续参考附图5所示,本实施例提供了一种计算待处理的地址文本与每个地址聚类簇的聚类中心点之间的文本相似度的实现方式,具体的,本实施例中的根据第一向量数据、第二向量数据和参考向量,计算待处理的地址文本与每个地址聚类簇的聚类中心点之间的文本相似度可以包括:
步骤S501:根据第一向量数据、第二向量数据和参考向量,计算待处理的地址文本与聚类中心点之间的距离信息。
步骤S502:根据待处理的地址文本与聚类中心点之间的距离信息,确定地址文本与聚类中心点之间的文本相似度,相似度与距离信息呈负相关。
其中,在获取到第一向量数据、第二向量数据和参考向量之后,可以对第一向量数据、第二向量数据和参考向量进行分析处理,以计算地址文本与聚类中心点之间的距离信息。
在一些实例中,根据第一向量数据、第二向量数据和参考向量,计算地址文本与聚类中心点之间的距离信息可以包括:基于第一向量数据和参考向量,计算待处理的地址文本与聚类中心点之间在地址信息维度上的第一距离信息;基于第二向量数据和参考向量,计算待处理的地址文本与聚类中心点之间在关键信息维度上的第二距离信息;根据第一距离信息和第二距离信息,获取待处理的地址文本与聚类中心点之间在不同维度上的目标距离信息。
具体的,在获取到第一向量数据和参考向量之后,可以基于第一向量数据和参考向量来计算地址文本与聚类中心点之间在地址信息维度上的第一距离信息。相类似的,在获取到第二向量数据和参考向量之后,可以基于第二向量数据和参考向量来计算地址文本与聚类中心点之间在关键信息维度上的第二距离信息。在获取到第一距离信息和第二距离信息之后,可以对第一距离信息和第二距离信息进行分析处理,以获取地址文本与聚类中心点之间在不同维度上的目标距离信息。
在一些实例中,根据第一距离信息和第二距离信息,获取待处理的地址文本与聚类中心点之间在不同维度上的目标距离信息可以包括:在待处理的地址文本中,获取与地址信息相对应的第一权重信息和与关键信息相对应的第二权重信息;基于第一权重信息和第二权重信息对第一距离信息和第二距离信息进行加权,获得待处理的地址文本与聚类中心点之间在不同维度上的目标距离信息。
其中,由于地址文本在地址信息维度和关键信息维度所对应的距离信息可以对应有不同的权重信息,因此,为了能够准确地获取到地址文本与聚类中心点之间在不同维度上的目标距离信息,则可以获取与地址文本中地址信息相对应的第一权重信息和与地址文本中关键信息相对应的第二权重信息,而后基于第一权重信息和第二权重信息对第一距离信息和第二距离信息进行加权,从而可以获得待处理的地址文本与聚类中心点之间在不同维度上的目标距离信息。
在获取到待处理的地址文本与聚类中心点之间的距离信息之后,可以对待处理的地址文本与聚类中心点之间的距离信息进行分析处理,以确定待处理的地址文本与聚类中心点之间的文本相似度,可以理解的是,文本相似度与距离信息呈负相关,即距离信息越大,则地址文本与聚类中心点之间的文本相似度越低;在距离信息越小时,地址文本与聚类中心点之间的文本相似度越高。
本实施例中,根据第一向量数据、第二向量数据和参考向量来计算地址文本与聚类中心点之间的距离信息,而后根据地址文本与聚类中心点之间的距离信息来确定地址文本与聚类中心点之间的文本相似度,相似度与距离信息呈负相关。
具体应用时,本应用实施例提供了一种基于流式聚类的地址自归一方法,可以实现对于海量数据进行流式归一处理,具体的,本实施例中的方法可以包括以下步骤:
步骤1:获取待处理的地址文本。
步骤2:确定地址文本的向量表示信息。
对于地址文本x=c1c2...cn而言,可以将地址文本转化为可计算的向量信息,该向量信息用于表示地址的整体信息以及关键信息,其中,关键信息包括:路名路号、poi、路名poi等几种信息,可以理解的是,关键信息可根据具体地址的特征来配置。具体的,确定地址文本的向量表示信息可以包括以下步骤:
步骤2.1:获取地址文本中所包括的字符信息,基于字符信息确定用于表示地址文本中地址的整体信息的第一向量表示信息。
其中,在获取到地址文本之后,可以识别地址文本中所包括的每个字符c_i,而后计算每个字符c_i所对应的向量表示信息,该向量表示信息可以通过查找设定映射表来获得,具体可以表达为:w_i=f_w(c_i),上述的w_i是与字符c_i相对应的向量表示信息,c_i是地址文本中所包括的字符信息,f_w为字符信息与向量表示信息之间的映射函数。
在获取到地址文本中每个字符信息所对应的向量表示信息之后,可以将所有字符的向量表示信息进行求和,获得用于表示地址文本中地址的整体信息的第一向量表示信息,即g(x)=sum_i w_i,上述的w_i是与字符c_i相对应的向量表示信息,g(x)是确定用于表示地址文本中地址的整体信息的第一向量表示信息,sum_i为用于对向量表示信息进行编码求和操作的编码求和函数。
步骤2.2:获取地址文本中所包括的关键信息,基于关键信息确定用于标识地址文本中关键信息的第二向量表示信息。
获取训练好的地址解析模型,利用地址解析模型对地址文本进行关键字打标处理,获得地址文本中所包括的关键信息,例如:当地址文本为“浙江省杭州市文一西路969阿里巴巴西溪园区”,利用地址解析模型对上述地址文本进行关键字打标处理时,可以获得地址文本中所包括的关键信息:prov=浙江省、city=杭州市、road=文一西路、roadno=969、poi=阿里巴巴西溪园区。
在获取到地址文本中所包括的关键信息之后,可以计算每个关键信息的向量表示信息,例如:可以获得向量表示信息g(文一西路969号)、向量表示信息g(阿里巴巴西溪园区)等等。
在一些实例中,在获取到第一向量表示信息和第二向量表示信息之后,可以基于第一向量表示信息和第二向量表示信息来确定用于标识地址文本中整体信息和关键信息的向量表示信息。
步骤3:获取用于对地址文本进行分析处理的L个已知的地址聚类簇。
假设,已经处理了第i-1条地址文本,获得了L个已知的地址聚类簇,上述L个已知的地址聚类簇可以对应有L个唯一的地点。可以理解的是,已知的地址聚类簇以及已知的地址聚类簇中所包括地址文本的数量可以随着新的地址文本的不断增加而进行更新变化。
步骤4:获取每个已知的地址聚类簇所对应的聚类簇中心点,确定聚类簇中心点的参考向量表示信息。
其中,每个已知的地址聚类簇可以由每个簇的中心点表示,针对L个已知的地址聚类簇,每个已知的地址聚类簇可以对应有一个中心点,因此,可以获得与多个已知的地址聚类簇相对应的中心点集合一般情况下,一个已知的地址聚类簇的中心点可以基于已知的地址聚类簇中所有地址文本的向量表示信息的平均值来确定。
步骤5:基于向量表示信息和参考向量表示信息,计算地址文本与各个聚类簇中心点之间的距离信息。
其中,假设第i条地址文本为xi,针对上述地址文本xi对应有向量表示信息为vi,k,各个已知的地址聚类簇中心点的参考向量表示信息为ci-k,而后可以基于向量表示信息和参考向量表示信息来获得相似度矩阵D,D为实数。具体的,地址文本xi与各个已知的地址聚类簇在不同信息维度的相似度可以表示为:
其中,D(l,k)为地址文本xi与聚类簇中心点之间的距离信息,ci,k表示为第i个已知的地址聚类簇中聚类簇中心点的第k个向量表示信息,vi,k表示为第i个地址文本xi的第k个向量表示信息。
可以理解的是,上述的D(l,k)可以包括地址文本与聚类簇中心点之间在整体信息维度和关键信息维度上的距离信息,而地址文本在整体信息维度和关键信息维度上与聚类簇中心点之间的距离信息对应有不同的权重信息,因此,可以获取与上述不同维度上的距离信息所对应的权重信息,该权重信息可以为一个经验性的权重向量ω∈RK,该权重矩阵可以代表不同维度上的距离信息的重要程度。
在获取到权重向量之后,可以计算加权后xi到各个聚类中心点的距离d
d(l)=D(l,k)ω (2)
步骤6:基于地址文本与各个聚类簇中心点之间的距离信息,确定地址文本与各个聚类簇中心点之间的相似度,该相似度与上述距离信息呈负相关,具体的,相似度与上述距离信息之间的映射关系可以包括:
步骤7:基于地址文本与各个聚类簇中心点之间的相似度,确定待处理的地址文本的聚类结果。
具体的,预先设置有用于对相似度进行分析处理的临界值t,当相似度时,则可以将相似度所对应的已知的地址聚类簇确定为地址文本的聚类结果,并可以将地址文本xi加入到上述已知的地址聚类簇中,同时可以更新已知的地址聚类簇中所包括的历史地址文本的数量。当相似度时,则可以将xi作为一个独立簇,并将已知的地址聚类簇L更新为L+1。
本应用实施例提供的提出的针对地址文本的流式聚类方法,可以对大量的地址文本数据进行分析处理,具体的,该方法通过将地址文本转化为向量表示信息,而后基于向量表示信息对地址文本进行聚类处理,这样有效地实现了无需逐一访问历史数据即能够实现文本的聚类处理,从而使得数据计算量较小,适用于上亿级别的数据处理任务,此外,该方法对地址文本进行分析处理的精确度较高,进而提高了该方法的实用性,从而可以大大提高对地址文本进行聚类的精确度,有利于市场的推广与应用。
图6为本发明实施例提供的一种地址文本聚类装置的结构示意图;参考附图6所示,本实施例提供了一种地址文本聚类装置,该地址文本聚类装置可以包括:获取模块11、计算模块12和处理模块13,具体的,
获取模块11,用于获取待处理的地址文本。
计算模块12,用于计算待处理的地址文本与多个已知的地址聚类簇之间的相似度。
处理模块13,用于基于相似度,确定待处理的地址文本的聚类结果。
在一些实例中,在计算模块12计算待处理的地址文本与多个已知的地址聚类簇之间的相似度时,该计算模块12用于执行:获取多个已知的地址聚类簇中每个地址聚类簇的聚类中心点;计算待处理的地址文本与每个地址聚类簇的聚类中心点之间的文本相似度;根据文本相似度确定待处理的地址文本与每个地址聚类簇之间的相似度。
在一些实例中,在计算模块12计算待处理的地址文本与每个地址聚类簇的聚类中心点之间的文本相似度时,该计算模块12用于执行:在待处理的地址文本中,获取用于标识地址信息的第一向量数据,以及用于标识关键信息的第二向量数据;对于每个地址聚类簇,获取用于标识聚类中心点的参考向量;根据第一向量数据、第二向量数据和参考向量,计算待处理的地址文本与每个地址聚类簇的聚类中心点之间的文本相似度。
在一些实例中,在计算模块12获取用于标识聚类中心点的参考向量时,该计算模块12用于执行:获得第一地址聚类簇中的多个组成地址文本;计算每个组成地址文本所对应的地址向量;将多个地址向量的平均值,作为第一地址聚类簇的聚类中心点的参考向量。
在一些实例中,在计算模块12根据第一向量数据、第二向量数据和参考向量,计算待处理的地址文本与每个地址聚类簇的聚类中心点之间的文本相似度时,该计算模块12用于执行:基于第一向量数据和参考向量,计算待处理的地址文本与聚类中心点之间在地址信息维度上的第一距离信息;基于第二向量数据和参考向量,计算待处理的地址文本与聚类中心点之间在关键信息维度上的第二距离信息;根据第一距离信息和第二距离信息,获取待处理的地址文本与聚类中心点之间在不同维度上的目标距离信息。
在一些实例中,在计算模块12根据第一距离信息和第二距离信息,获取待处理的地址文本与聚类中心点之间在不同维度上的目标距离信息12用于执行:在待处理的地址文本中,获取与地址信息相对应的第一权重信息和与关键信息相对应的第二权重信息;基于第一权重信息和第二权重信息对第一距离信息和第二距离信息进行加权,获得待处理的地址文本与聚类中心点之间在不同维度上的目标距离信息。
在一些实例中,在处理模块13基于相似度,确定待处理的地址文本的聚类结果时,该处理模块13用于执行:如果相似度大于或等于预设阈值,则将相似度所对应的目标地址聚类簇确定为待处理的地址文本所对应的聚类结果;如果相似度小于预设阈值,则基于待处理的地址文本生成新的地址聚类簇。
在一些实例中,当存在多个相似度大于或等于预设阈值时,本实施例中的处理模块13还用于执行:获取多个相似度中最大的相似度;将最大的相似度所对应的已知的地址聚类簇确定为地址文本所对应的聚类结果。
在一些实例中,在将相似度所对应的目标地址聚类簇确定为待处理的地址文本所对应的聚类结果之后,本实施例中的处理模块13用于执行:将待处理的地址文本聚类至目标地址聚类簇中,并更新目标地址聚类簇。
图6所示装置可以执行图1至图5所示中的实施例的方法,本实施例未详细描述的部分,可参考对图1至图5所示中的实施例的相关说明。该技术方案的执行过程和技术效果参见图1至图5所示实施例中的描述,在此不再赘述。
在一个可能的设计中,图6所示地址文本聚类装置的结构可实现为一电子设备,该电子设备可以是手机、平板电脑、服务器等各种设备。如图7所示,该电子设备可以包括:第一处理器21和第一存储器22。其中,第一存储器22用于存储支持电子设备执行上述图1-图5所示中的至少部分实施例中提供的地址文本聚类方法的程序,第一处理器21被配置为用于执行第一存储器22中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第一处理器21执行时能够实现如下步骤:
获取待处理的地址文本;
计算所述待处理的地址文本与多个已知的地址聚类簇之间的相似度;
基于所述相似度,确定所述待处理的地址文本的聚类结果。
可选地,第一处理器21还用于执行前述图1-图5所示中的至少部分实施例中的全部或部分步骤。
其中,电子设备的结构中还可以包括第一通信接口23,用于电子设备与其他设备或通信网络通信。
另外,本发明实施例提供了一种计算机存储介质,用于储存电子设备所用的计算机软件指令,其包含用于执行上述图1-图5所示中的至少部分实施例中地址文本聚类方法所涉及的程序。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种地址文本聚类方法,包括:
获取待处理的地址文本;
计算所述待处理的地址文本与多个已知的地址聚类簇之间的相似度;
基于所述相似度,确定所述待处理的地址文本的聚类结果。
2.根据权利要求1所述的方法,其中,计算所述待处理的地址文本与多个已知的地址聚类簇之间的相似度,包括:
获取所述多个已知的地址聚类簇中每个地址聚类簇的聚类中心点;
计算所述待处理的地址文本与每个地址聚类簇的聚类中心点之间的文本相似度;
根据所述文本相似度确定所述待处理的地址文本与每个地址聚类簇之间的相似度。
3.根据权利要求2所述的方法,其中,计算所述待处理的地址文本与所述每个地址聚类簇的聚类中心点之间的文本相似度,包括:
在所述待处理的地址文本中,获取用于标识地址信息的第一向量数据,以及用于标识关键信息的第二向量数据;
对于每个地址聚类簇,获取用于标识聚类中心点的参考向量;
根据所述第一向量数据、第二向量数据和所述参考向量,计算所述待处理的地址文本与每个地址聚类簇的聚类中心点之间的文本相似度。
4.根据权利要求3所述的方法,其中,获取用于标识聚类中心点的参考向量,包括:
获得第一地址聚类簇中的多个组成地址文本;
计算每个组成地址文本所对应的地址向量;
将多个地址向量的平均值,作为所述第一地址聚类簇的聚类中心点的参考向量。
5.根据权利要求3所述的方法,其中,根据所述第一向量数据、第二向量数据和所述参考向量,计算所述待处理的地址文本与每个地址聚类簇的聚类中心点之间的文本相似度,包括:
基于所述第一向量数据和所述参考向量,计算所述待处理的地址文本与所述聚类中心点之间在地址信息维度上的第一距离信息;
基于所述第二向量数据和所述参考向量,计算所述待处理的地址文本与所述聚类中心点之间在关键信息维度上的第二距离信息;
根据所述第一距离信息和所述第二距离信息,获取所述待处理的地址文本与所述聚类中心点之间在不同维度上的目标距离信息。
6.根据权利要求5所述的方法,其中,根据所述第一距离信息和所述第二距离信息,获取所述待处理的地址文本与所述聚类中心点之间在不同维度上的目标距离信息,包括:
在所述待处理的地址文本中,获取与地址信息相对应的第一权重信息和与关键信息相对应的第二权重信息;
基于所述第一权重信息和所述第二权重信息对所述第一距离信息和所述第二距离信息进行加权,获得所述待处理的地址文本与所述聚类中心点之间在不同维度上的目标距离信息。
7.根据权利要求1-6中任意一项所述的方法,其中,基于所述相似度,确定所述待处理的地址文本的聚类结果,包括:
如果所述相似度大于或等于预设阈值,则将所述相似度所对应的目标地址聚类簇确定为所述待处理的地址文本所对应的聚类结果;
如果所述相似度小于预设阈值,则基于所述待处理的地址文本生成新的地址聚类簇。
8.根据权利要求7所述的方法,其中,在将所述相似度所对应的目标地址聚类簇确定为所述待处理的地址文本所对应的聚类结果之后,所述方法还包括:
将所述待处理的地址文本聚类至所述目标地址聚类簇中,并更新所述目标地址聚类簇。
9.一种地址文本聚类装置,包括:
获取模块,用于获取待处理的地址文本;
计算模块,用于计算所述待处理的地址文本与多个已知的地址聚类簇之间的相似度;
处理模块,用于基于所述相似度,确定所述待处理的地址文本的聚类结果。
10.一种电子设备,包括:存储器、处理器;其中,
所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如权利要求1至8中任一项所述的地址文本聚类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110668563.8A CN115481242A (zh) | 2021-06-16 | 2021-06-16 | 地址文本聚类方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110668563.8A CN115481242A (zh) | 2021-06-16 | 2021-06-16 | 地址文本聚类方法、装置和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115481242A true CN115481242A (zh) | 2022-12-16 |
Family
ID=84419829
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110668563.8A Pending CN115481242A (zh) | 2021-06-16 | 2021-06-16 | 地址文本聚类方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115481242A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116402050A (zh) * | 2022-12-26 | 2023-07-07 | 北京码牛科技股份有限公司 | 一种地址归一化及补充方法、装置、电子设备及存储介质 |
CN116541474A (zh) * | 2023-07-05 | 2023-08-04 | 平安银行股份有限公司 | 对象获取方法、装置、电子设备及存储介质 |
-
2021
- 2021-06-16 CN CN202110668563.8A patent/CN115481242A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116402050A (zh) * | 2022-12-26 | 2023-07-07 | 北京码牛科技股份有限公司 | 一种地址归一化及补充方法、装置、电子设备及存储介质 |
CN116402050B (zh) * | 2022-12-26 | 2023-11-10 | 北京码牛科技股份有限公司 | 一种地址归一化及补充方法、装置、电子设备及存储介质 |
CN116541474A (zh) * | 2023-07-05 | 2023-08-04 | 平安银行股份有限公司 | 对象获取方法、装置、电子设备及存储介质 |
CN116541474B (zh) * | 2023-07-05 | 2024-02-02 | 平安银行股份有限公司 | 对象获取方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10102220B2 (en) | Activity based analytics | |
WO2022105111A1 (zh) | 区域画像图生成方法、装置、计算机设备及存储介质 | |
CN110826594B (zh) | 一种轨迹聚类的方法、设备及存储介质 | |
CN109783490B (zh) | 数据融合方法、装置、计算机设备及存储介质 | |
CN115481242A (zh) | 地址文本聚类方法、装置和设备 | |
CN113312361B (zh) | 轨迹查询方法、装置、设备、存储介质及计算机程序产品 | |
CN111163072B (zh) | 机器学习模型中特征值的确定方法、装置及电子设备 | |
CN111090807A (zh) | 一种基于知识图谱的用户识别方法及装置 | |
CN111522838A (zh) | 地址相似度计算方法及相关装置 | |
CN112148305A (zh) | 一种应用检测方法、装置、计算机设备和可读存储介质 | |
CN106301979B (zh) | 检测异常渠道的方法和系统 | |
CN111597279B (zh) | 基于深度学习的信息预测方法及相关设备 | |
CN110598122B (zh) | 社交群体挖掘方法、装置、设备及存储介质 | |
CN108804917B (zh) | 一种文件检测方法、装置、电子设备及存储介质 | |
CN113326064A (zh) | 划分业务逻辑模块的方法、电子设备及存储介质 | |
CN113517038A (zh) | 药物与靶点之间亲和力的预测方法、装置及设备 | |
CN112541595A (zh) | 模型构建方法及装置、存储介质及电子设备 | |
CN113761867A (zh) | 地址识别方法、装置、计算机设备及存储介质 | |
Kepner et al. | Fast mapping onto census blocks | |
CN111752734A (zh) | 异常数据的分类方法、分析方法、装置及存储介质 | |
CN108133234B (zh) | 基于稀疏子集选择算法的社区检测方法、装置及设备 | |
WO2016127858A1 (zh) | 网页入侵脚本特征的识别方法及设备 | |
CN115495537A (zh) | 一种地址描述信息处理方法及设备 | |
CN115794398A (zh) | 资源分配方法、装置、电子设备及存储介质 | |
CN115481241A (zh) | 深度学习模型的训练方法、装置和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20240315 Address after: # 03-06, Lai Zan Da Building 1, 51 Belarusian Road, Singapore Applicant after: Alibaba Innovation Co. Country or region after: Singapore Address before: Room 01, 45th Floor, AXA Building, 8 Shanton Road, Singapore Applicant before: Alibaba Singapore Holdings Ltd. Country or region before: Singapore |
|
TA01 | Transfer of patent application right |