CN111737315B - 地址模糊匹配方法及装置 - Google Patents
地址模糊匹配方法及装置 Download PDFInfo
- Publication number
- CN111737315B CN111737315B CN202010541244.6A CN202010541244A CN111737315B CN 111737315 B CN111737315 B CN 111737315B CN 202010541244 A CN202010541244 A CN 202010541244A CN 111737315 B CN111737315 B CN 111737315B
- Authority
- CN
- China
- Prior art keywords
- address
- virtual
- user
- data
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2468—Fuzzy queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2471—Distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Fuzzy Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Automation & Control Theory (AREA)
- Remote Sensing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Computer And Data Communications (AREA)
Abstract
本申请实施例提供一种地址模糊匹配方法及装置,方法包括:分别获取标准数据块中各个目标用户各自对应的多个虚拟记录对,各个标准数据块分别用于存储前三层相同的标准地址表,各个虚拟记录对分别用于存储各自对应的用户唯一标识与对应的虚拟地址,虚拟地址预先基于位于对应的标准地址表的第四层或大于第四层的层级中的详细地址信息获取;应用各个虚拟记录对生成目标有向图;在目标有向图中进行两次传递方向相反的消息传递,得到存在相似性的各个虚拟记录对之间的地址相似度。本申请能够有效提高用户地址模糊匹配的效率,并能够有效降低用户地址模糊匹配的计算量,进而能够有效提高企业获取存在高地址相似度的用户的效率。
Description
技术领域
本申请涉及数据处理技术领域,具体涉及地址模糊匹配方法及装置。
背景技术
随着大数据技术的发展,对用户间社会关系的分析已成为各个企业或机构等进行用户数据分析的常用技术甚至必备手段,如:银行机构在识别信用卡欺诈团伙时:同一欺诈团伙往往申请一批信用卡来套取资金,这些信用卡往往使用相同的卡片邮寄地址、公司地址等,通过建立信用卡申请客户间在地理位置信息上的关系,对于识别信用卡团伙欺诈有着重要意义。
在各个企业或机构构建其用户的社会关系的过程中,地址关系的建立至关重要,然而,对于大型银行来说,其所有用户地址的两两匹配往往面临以下耗时漫长难以满足应用性能的困难。原因如下:
1、匹配次数多:
假如银行每日出现100万个新地址信息(这些地址信息可来自于客户的交易地址、申请信用卡填写的公司地址\居住地址等),如果逐条匹配:即对每个客户均扫描一遍其余客户地址数据来得到其余所有客户的地址相似度,则需要匹配(1*106)!次,如果串行执行耗时过长难以满足银行数据分析的及时性要求。
2、匹配算法复杂:
上海市浦东新区XX路XX号与上海浦东XX路XX号是一个地址,如果采用精确匹配则不能正确反映其关系。因此,传统上往往采用各类模糊匹配算法来进行地址的模糊匹配,这些算法有时十分复杂,这样就更加剧了地址匹配的性能瓶颈。
发明内容
针对现有技术中的问题,本申请提供一种地址模糊匹配方法及装置,能够有效提高用户地址模糊匹配的效率,并能够有效降低用户地址模糊匹配的计算量,进而能够有效提高企业获取存在高地址相似度的用户的效率。
为解决上述技术问题,本申请提供以下技术方案:
第一方面,本申请提供一种地址模糊匹配方法,包括:
分别获取标准数据块中各个目标用户各自对应的多个虚拟记录对,其中,各个所述标准数据块分别用于存储前三层相同的标准地址表,各个所述虚拟记录对分别用于存储各自对应的用户唯一标识与对应的虚拟地址,且所述虚拟地址预先基于位于对应的所述标准地址表的第四层或大于第四层的层级中的详细地址信息获取;
应用各个所述虚拟记录对生成目标有向图,且该目标有向图中的各个边的起始节点为所述用户唯一标识,各个边的目的节点为对应的所述虚拟地址;
在所述目标有向图中进行两次传递方向相反的消息传递,得到存在相似性的各个所述虚拟记录对之间的地址相似度。
进一步地,所述分别获取标准数据块中各个目标用户各自对应的多个虚拟记录对,包括:
分别获取各个标准数据块各自对应的多个记录对,其中,各个所述记录对分别用于存储各自对应的用户唯一标识与对应的词向量,且该词向量为位于所述标准地址表的第四层或大于第四层的层级中的详细地址信息;
将所在层级相同的所述词向量对应的所述记录对合并至同一数据集合,并所述数据集合内的词向量进行聚类,得到至少一个词向量类;
获取各个所述词向量类的中心点向量,并将所述记录对中的所述词向量替换为对应的中心点向量,得到各个所述记录对各自对应的虚拟记录对。
进一步地,在所述分别获取各个标准数据块各自对应的多个记录对之前,还包括:
根据当前处于可用状态的并发线程的数量,将各个所述目标用户的数据对划分至对应数据的数据块中,其中,所述数据对用于存储各自对应的用户唯一标识与对应的地址信息;
应用各个所述并发线程分别对各自对应的所述数据块中的地址信息进行分词处理;
将经该分词处理得到得各个词汇按预设规则进行分层处理,得到各个所述目标用户各自对应的各层依次关联的标准地址表;
将前三层相同的标准地址表划分至同一标准数据块中。
进一步地,在所述根据当前处于可用状态的并发线程的数量,将各个所述目标用户的数据对划分至对应数据的数据块中之前,还包括:
自预设的存储设备中顺序读取各个所述目标用户的用户唯一标识以及地址数据;
对各个所述地址数据进行预处理,得到各个所述目标用户各自对应的各个地址信息;
基于各个所述目标用户的用户唯一标识以及地址信息生成各个所述目标用户的数据对。
进一步地,所述在所述目标有向图中进行两次传递方向相反的消息传递,得到存在相似性的各个所述虚拟记录对之间的地址相似度,包括:
自各个所述起始节点沿所述目标有向图的边向对应的各个所述目的节点进行第一次消息传递,以使各个所述目的节点同时收到与自身虚拟地址相同的各个用户唯一标识;
自各个所述目的节点沿所述目标有向图的边向对应的各个所述起始节点进行与所述第一次消息传递逆向传递的第二次消息传递,以使各个所述起始节点同时收到与自身虚拟地址相同的各个用户唯一标识,并生成各个所述目标用户各自对应的相似记录对,其中,该相似记录对用于存储对应的用户唯一标识与用于所述标准地址表中各层是否相同的相似度信息。
进一步地,还包括:
基于存在相似性的各个所述虚拟记录对之间的地址相似度输出各个所述目标用户的地址模糊匹配结果。
第二方面,本申请提供一种地址模糊匹配装置,包括地址匹配模块,且该地址匹配模块包括:
分布式图构建子模块,用于分别获取标准数据块中各个目标用户各自对应的多个虚拟记录对,其中,各个所述标准数据块分别用于存储前三层相同的标准地址表,各个所述虚拟记录对分别用于存储各自对应的用户唯一标识与对应的虚拟地址,且所述虚拟地址预先基于位于对应的所述标准地址表的第四层或大于第四层的层级中的详细地址信息获取;
所述分布式图构建子模块,还用于应用各个所述虚拟记录对生成目标有向图,且该目标有向图中的各个边的起始节点为所述用户唯一标识,各个边的目的节点为对应的所述虚拟地址;
地址比对子模块,用于在所述目标有向图中进行两次传递方向相反的消息传递,得到存在相似性的各个所述虚拟记录对之间的地址相似度,以基于存在相似性的各个所述虚拟记录对之间的地址相似度输出各个所述目标用户的地址模糊匹配结果。
进一步地,所述分布式图构建子模块用于执行下述内容:
分别获取各个标准数据块各自对应的多个记录对,其中,各个所述记录对分别用于存储各自对应的用户唯一标识与对应的词向量,且该词向量为位于所述标准地址表的第四层或大于第四层的层级中的详细地址信息;
将所在层级相同的所述词向量对应的所述记录对合并至同一数据集合,并所述数据集合内的词向量进行聚类,得到至少一个词向量类;
获取各个所述词向量类的中心点向量,并将所述记录对中的所述词向量替换为对应的中心点向量,得到各个所述记录对各自对应的虚拟记录对。
进一步地,还包括:数据读取模块和地址分段模块;
所述数据读取模块,用于根据当前处于可用状态的并发线程的数量,将各个所述目标用户的数据对划分至对应数据的数据块中,其中,所述数据对用于存储各自对应的用户唯一标识与对应的地址信息;
所述地址分段模块包括:
分词子模块,用于应用各个所述并发线程分别对各自对应的所述数据块中的地址信息进行分词处理;
标准化子模块,用于将经该分词处理得到得各个词汇按预设规则进行分层处理,得到各个所述目标用户各自对应的各层依次关联的标准地址表;
数据分块子模块,用于将前三层相同的标准地址表划分至同一标准数据块中。
进一步地,所述数据读取模块用于执行下述内容:
自预设的存储设备中顺序读取各个所述目标用户的用户唯一标识以及地址数据;
对各个所述地址数据进行预处理,得到各个所述目标用户各自对应的各个地址信息;
基于各个所述目标用户的用户唯一标识以及地址信息生成各个所述目标用户的数据对。
进一步地,所述地址比对子模块用于执行下述内容:
自各个所述起始节点沿所述目标有向图的边向对应的各个所述目的节点进行第一次消息传递,以使各个所述目的节点同时收到与自身虚拟地址相同的各个用户唯一标识;
自各个所述目的节点沿所述目标有向图的边向对应的各个所述起始节点进行与所述第一次消息传递逆向传递的第二次消息传递,以使各个所述起始节点同时收到与自身虚拟地址相同的各个用户唯一标识,并生成各个所述目标用户各自对应的相似记录对,其中,该相似记录对用于存储对应的用户唯一标识与用于所述标准地址表中各层是否相同的相似度信息。
进一步地,还包括:
数据输出模块,用于基于存在相似性的各个所述虚拟记录对之间的地址相似度输出各个所述目标用户的地址模糊匹配结果。
第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的地址模糊匹配方法。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的地址模糊匹配方法。
由上述技术方案可知,本申请提供的一种地址模糊匹配方法及装置,方法包括:分别获取标准数据块中各个目标用户各自对应的多个虚拟记录对,其中,各个所述标准数据块分别用于存储前三层相同的标准地址表,各个所述虚拟记录对分别用于存储各自对应的用户唯一标识与对应的虚拟地址,且所述虚拟地址预先基于位于对应的所述标准地址表的第四层或大于第四层的层级中的详细地址信息获取;应用各个所述虚拟记录对生成目标有向图,且该目标有向图中的各个边的起始节点为所述用户唯一标识,各个边的目的节点为对应的所述虚拟地址;在所述目标有向图中进行两次传递方向相反的消息传递,得到存在相似性的各个所述虚拟记录对之间的地址相似度,通过应用有向图能够技术支持地址的分布式匹配,通过消息传递机制能够改进地址匹配算法的时间复杂度,进而能够有效提高用户地址模糊匹配的效率,并能够有效降低用户地址模糊匹配的计算量,能够克服现有的地址信息模糊匹配方式存在的效率低下且耗时长的问题,进而能够有效提高企业获取存在高地址相似度的用户的效率,尤其适用于银行机构基于存在高地址相似度的用户进行欺诈风险识别的效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例中的地址模糊匹配方法的流程示意图。
图2是本申请实施例中的地址模糊匹配方法中步骤100的具体流程示意图。
图3是本申请实施例中的包含有步骤010至040的地址模糊匹配方法的流程示意图。
图4是本申请实施例中的包含有步骤001至003的地址模糊匹配方法的流程示意图。
图5是本申请实施例中的地址模糊匹配方法中步骤300的具体流程示意图。
图6是本申请实施例中的包含有步骤400的地址模糊匹配方法的流程示意图。
图7是本申请实施例中的仅包含有地址匹配模块的地址模糊匹配装置的第一种结构示意图。
图8是本申请实施例中的地址模糊匹配装置的第二种结构示意图。
图9是本申请实施例中的包含有地址分段模块的详细内容的地址模糊匹配装置的结构示意图。
图10是本申请实施例中的地址模糊匹配装置的第三种结构示意图。
图11是本申请应用实例提供的地址数据的输入输出形式示意图。
图12是本申请应用实例提供的地址模糊匹配装置的数据处理逻辑示意图。
图13是本申请应用实例提供的地址分段过程的流程示意图。
图14是本申请应用实例提供的分词过程的流程示意图。
图15是本申请应用实例提供的标准化地址分层的举例示意图。
图16是本申请应用实例提供的地址匹配过程的流程示意图。
图17是本申请应用实例提供的地址编码过程的流程示意图。
图18a是本申请应用实例提供的地址匹配模块下分布式图构建子模块中聚类步骤的执行举例示意图。
图18b是本申请应用实例提供的地址匹配模块下分布式图构建子模块中构图步骤的执行举例示意图。
图19a是本申请应用实例提供的地址匹配模块下地址比对子模块中第1次消息传递的举例过程示意图。
图19b是本申请应用实例提供的地址匹配模块下地址比对子模块中第2次消息传递的举例过程示意图。
图20是本申请实施例中的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了解决现有的地址模糊匹配方式所需的匹配次数多以及算法复杂的问题,本申请实施例提供一种地址模糊匹配方法、地址模糊匹配装置、电子设备及计算机可读存储介质,通过分别获取标准数据块中各个目标用户各自对应的多个虚拟记录对,其中,各个所述标准数据块分别用于存储前三层相同的标准地址表,各个所述虚拟记录对分别用于存储各自对应的用户唯一标识与对应的虚拟地址,且所述虚拟地址预先基于位于对应的所述标准地址表的第四层或大于第四层的层级中的详细地址信息获取;应用各个所述虚拟记录对生成目标有向图,且该目标有向图中的各个边的起始节点为所述用户唯一标识,各个边的目的节点为对应的所述虚拟地址;在所述目标有向图中进行两次传递方向相反的消息传递,得到存在相似性的各个所述虚拟记录对之间的地址相似度,应用有向图能够技术支持地址的分布式匹配,并通过消息传递机制能够改进地址匹配算法的时间复杂度,进而能够有效提高用户地址模糊匹配的效率,并能够有效降低用户地址模糊匹配的计算量,能够克服现有的地址信息模糊匹配方式存在的效率低下且耗时长的问题,进而能够有效提高企业获取存在高地址相似度的用户的效率,尤其适用于银行机构基于存在高地址相似度的用户进行欺诈风险识别的效率。
在本申请的一个或多个实施例中,所述地址数据为预先接收的一批目标用户的地理位置属性信息,这些信息内容均为中国境内的地址,记录方式为中文形式,存储方式可为GBK或UNICODE等支持中文的码制,输出结果为每个目标用户的地理位置属性与其它用户地理位置属性的两两相似度列表。
为了解决现有的地址模糊匹配方式所需的匹配次数多以及算法复杂的问题,本申请实施例提供一种地址模糊匹配方法,参见图1,所述地址模糊匹配方法具体包含有如下内容:
步骤100:分别获取标准数据块中各个目标用户各自对应的多个虚拟记录对,其中,各个所述标准数据块分别用于存储前三层相同的标准地址表,各个所述虚拟记录对分别用于存储各自对应的用户唯一标识与对应的虚拟地址,且所述虚拟地址预先基于位于对应的所述标准地址表的第四层或大于第四层的层级中的详细地址信息获取。
在步骤100中,所述标准地址表包含有至少四层,且各层之间依次链接,其中,所述标准地址表中的前三层依次用于表示省、市和区,所述标准地址表中的第四层或大于第四层的层级用于表示详细地址信息,可以理解的是,所述详细地址信息即为中文地址信息中出除去省、市和区后的具体小区、楼盘、单元、楼层及门牌号中的至少一项信息。
在本申请的一个或多个实施例中,所述用户唯一标识可以为用于区分该用户与其他用户的身份标识,例如机构内部的用户编号或手机号码等,在本申请的一种举例中,若所述机构为银行机构,则所述目标用户均可以为该银行机构中的客户,则所述用户唯一标识的具体举例即可以为该银行机构中的客户ID。
步骤200:应用各个所述虚拟记录对生成目标有向图,且该目标有向图中的各个边的起始节点为所述用户唯一标识,各个边的目的节点为对应的所述虚拟地址。
可以理解的是,所述目标有向图的具体获取过程可以为:使用词向量生成虚拟词向量,每个虚拟词向量代表距离非常接近的一类词向量。之后,使用形如<客户ID,虚拟词向量>的节点对生成一张有向图。
步骤300:在所述目标有向图中进行两次传递方向相反的消息传递,得到存在相似性的各个所述虚拟记录对之间的地址相似度。
在步骤300中,在目标有向图上,可以使用基于大规模分布式图计算概念模型建立的匹配算法了计算地址相似度,最终生成数据块Cij,即包含<客户ID1,客户ID2,相似度>的数据块。
从上述描述可知,本申请实施例提供的地址模糊匹配方法,通过应用有向图能够技术支持地址的分布式匹配,通过消息传递机制能够改进地址匹配算法的时间复杂度,进而能够有效提高用户地址模糊匹配的效率,并能够有效降低用户地址模糊匹配的计算量,能够克服现有的地址信息模糊匹配方式存在的效率低下且耗时长的问题,进而能够有效提高企业获取存在高地址相似度的用户的效率,尤其适用于银行机构基于存在高地址相似度的用户进行欺诈风险识别的效率。
为了有效实现虚拟记录对的获取,在本申请提供的地址模糊匹配方法的一个实施例中,参见图2,所述地址模糊匹配方法的步骤100具体包含有如下内容:
步骤110:分别获取各个标准数据块各自对应的多个记录对,其中,各个所述记录对分别用于存储各自对应的用户唯一标识与对应的词向量,且该词向量为位于所述标准地址表的第四层或大于第四层的层级中的详细地址信息。
步骤120:将所在层级相同的所述词向量对应的所述记录对合并至同一数据集合,并所述数据集合内的词向量进行聚类,得到至少一个词向量类。
步骤130:获取各个所述词向量类的中心点向量,并将所述记录对中的所述词向量替换为对应的中心点向量,得到各个所述记录对各自对应的虚拟记录对。
从上述描述可知,本申请实施例提供的地址模糊匹配方法,能够有效提高虚拟记录对的获取可靠性及准确性,进而能够进一步提高有向图生成的可靠性及准确性,以有效提高用户地址模糊匹配的准确性。
为了有效实现标准数据块的获取,在本申请提供的地址模糊匹配方法的一个实施例中,参见图3,所述地址模糊匹配方法的步骤110之前还具体包含有如下内容:
步骤010:根据当前处于可用状态的并发线程的数量,将各个所述目标用户的数据对划分至对应数据的数据块中,其中,所述数据对用于存储各自对应的用户唯一标识与对应的地址信息。
步骤020:应用各个所述并发线程分别对各自对应的所述数据块中的地址信息进行分词处理。
步骤030:将经该分词处理得到得各个词汇按预设规则进行分层处理,得到各个所述目标用户各自对应的各层依次关联的标准地址表。
步骤040:将前三层相同的标准地址表划分至同一标准数据块中。
从上述描述可知,本申请实施例提供的地址模糊匹配方法,能够有效提高地址信息分词的效率,并能够提高标准地址表的获取效率,进而能够进一步提高用户地址模糊匹配的效率。
为了有效实现数据对的获取,在本申请提供的地址模糊匹配方法的一个实施例中,参见图4,所述地址模糊匹配方法的步骤010之前还具体包含有如下内容:
步骤001:自预设的存储设备中顺序读取各个所述目标用户的用户唯一标识以及地址数据。
步骤002:对各个所述地址数据进行预处理,得到各个所述目标用户各自对应的各个地址信息。
步骤003:基于各个所述目标用户的用户唯一标识以及地址信息生成各个所述目标用户的数据对。
从上述描述可知,本申请实施例提供的地址模糊匹配方法,能够有效提高数据对获取的准确性,进而为用户地址模糊匹配提供了更为准确的数据基础。
为了有效实现两次消息传递,在本申请提供的地址模糊匹配方法的一个实施例中,参见图5,所述地址模糊匹配方法的步骤300具体包含有如下内容:
步骤310:自各个所述起始节点沿所述目标有向图的边向对应的各个所述目的节点进行第一次消息传递,以使各个所述目的节点同时收到与自身虚拟地址相同的各个用户唯一标识。
步骤320:自各个所述目的节点沿所述目标有向图的边向对应的各个所述起始节点进行与所述第一次消息传递逆向传递的第二次消息传递,以使各个所述起始节点同时收到与自身虚拟地址相同的各个用户唯一标识,并生成各个所述目标用户各自对应的相似记录对,其中,该相似记录对用于存储对应的用户唯一标识与用于所述标准地址表中各层是否相同的相似度信息。
从上述描述可知,本申请实施例提供的地址模糊匹配方法,能够有效提高消息传递的效率,进而能够进一步提高用户地址模糊匹配的效率。
为了有效实现匹配结果输出,在本申请提供的地址模糊匹配方法的一个实施例中,参见图6,所述地址模糊匹配方法的步骤300之后还具体包含有如下内容:
步骤400:基于存在相似性的各个所述虚拟记录对之间的地址相似度输出各个所述目标用户的地址模糊匹配结果。
从上述描述可知,本申请实施例提供的地址模糊匹配方法,能够有效提高用户获取地址模糊匹配的效率,以提高用户体验。
从软件层面来说,为了解决现有的地址模糊匹配方式所需的匹配次数多以及算法复杂的问题,本申请还提供一种用于实现所述地址模糊匹配方法中全部或分部内容的地址模糊匹配装置的实施例,参见图7,所述地址模糊匹配装置具体包含有如下内容:
地址匹配模块30,且该地址匹配模块30具体包含有如下内容:
分布式图构建子模块31,用于分别获取标准数据块中各个目标用户各自对应的多个虚拟记录对,其中,各个所述标准数据块分别用于存储前三层相同的标准地址表,各个所述虚拟记录对分别用于存储各自对应的用户唯一标识与对应的虚拟地址,且所述虚拟地址预先基于位于对应的所述标准地址表的第四层或大于第四层的层级中的详细地址信息获取。
所述分布式图构建子模块31,还用于应用各个所述虚拟记录对生成目标有向图,且该目标有向图中的各个边的起始节点为所述用户唯一标识,各个边的目的节点为对应的所述虚拟地址。
地址比对子模块32,用于在所述目标有向图中进行两次传递方向相反的消息传递,得到存在相似性的各个所述虚拟记录对之间的地址相似度,以基于存在相似性的各个所述虚拟记录对之间的地址相似度输出各个所述目标用户的地址模糊匹配结果。
从上述描述可知,本申请实施例提供的地址模糊匹配装置,通过应用有向图能够技术支持地址的分布式匹配,通过消息传递机制能够改进地址匹配算法的时间复杂度,进而能够有效提高用户地址模糊匹配的效率,并能够有效降低用户地址模糊匹配的计算量,能够克服现有的地址信息模糊匹配方式存在的效率低下且耗时长的问题,进而能够有效提高企业获取存在高地址相似度的用户的效率,尤其适用于银行机构基于存在高地址相似度的用户进行欺诈风险识别的效率。
为了有效实现虚拟记录对的获取,在本申请提供的地址模糊匹配装置的一个实施例中,所述地址模糊匹配装置中的分布式图构建子模块31用于执行下述内容:
步骤110:分别获取各个标准数据块各自对应的多个记录对,其中,各个所述记录对分别用于存储各自对应的用户唯一标识与对应的词向量,且该词向量为位于所述标准地址表的第四层或大于第四层的层级中的详细地址信息;
步骤120:将所在层级相同的所述词向量对应的所述记录对合并至同一数据集合,并所述数据集合内的词向量进行聚类,得到至少一个词向量类;
步骤130:获取各个所述词向量类的中心点向量,并将所述记录对中的所述词向量替换为对应的中心点向量,得到各个所述记录对各自对应的虚拟记录对。
从上述描述可知,本申请实施例提供的地址模糊匹配装置,能够有效提高虚拟记录对的获取可靠性及准确性,进而能够进一步提高有向图生成的可靠性及准确性,以有效提高用户地址模糊匹配的准确性。
为了有效实现标准数据块的获取,在本申请提供的地址模糊匹配装置的一个实施例中,参见图8,所述地址模糊匹配装置还具体包含有如下内容:
数据读取模块10和地址分段模块20;
所述数据读取模块10,用于根据当前处于可用状态的并发线程的数量,将各个所述目标用户的数据对划分至对应数据的数据块中,其中,所述数据对用于存储各自对应的用户唯一标识与对应的地址信息。
参见图9,所述地址分段模块20具体包含有如下内容::
分词子模块21,用于应用各个所述并发线程分别对各自对应的所述数据块中的地址信息进行分词处理。
标准化子模块22,用于将经该分词处理得到得各个词汇按预设规则进行分层处理,得到各个所述目标用户各自对应的各层依次关联的标准地址表。
数据分块子模块23,用于将前三层相同的标准地址表划分至同一标准数据块中。
从上述描述可知,本申请实施例提供的地址模糊匹配装置,能够有效提高地址信息分词的效率,并能够提高标准地址表的获取效率,进而能够进一步提高用户地址模糊匹配的效率。
为了有效实现数据对的获取,在本申请提供的地址模糊匹配装置的一个实施例中,所述地址模糊匹配装置中的数据读取模块10用于执行下述内容:
步骤001:自预设的存储设备中顺序读取各个所述目标用户的用户唯一标识以及地址数据。
步骤002:对各个所述地址数据进行预处理,得到各个所述目标用户各自对应的各个地址信息。
步骤003:基于各个所述目标用户的用户唯一标识以及地址信息生成各个所述目标用户的数据对。
从上述描述可知,本申请实施例提供的地址模糊匹配装置,能够有效提高数据对获取的准确性,进而为用户地址模糊匹配提供了更为准确的数据基础。
为了有效实现两次消息传递,在本申请提供的地址模糊匹配装置的一个实施例中,所述地址模糊匹配装置中的地址比对子模块32用于执行下述内容:
步骤310:自各个所述起始节点沿所述目标有向图的边向对应的各个所述目的节点进行第一次消息传递,以使各个所述目的节点同时收到与自身虚拟地址相同的各个用户唯一标识。
步骤320:自各个所述目的节点沿所述目标有向图的边向对应的各个所述起始节点进行与所述第一次消息传递逆向传递的第二次消息传递,以使各个所述起始节点同时收到与自身虚拟地址相同的各个用户唯一标识,并生成各个所述目标用户各自对应的相似记录对,其中,该相似记录对用于存储对应的用户唯一标识与用于所述标准地址表中各层是否相同的相似度信息。
从上述描述可知,本申请实施例提供的地址模糊匹配装置,能够有效提高消息传递的效率,进而能够进一步提高用户地址模糊匹配的效率。
为了有效实现匹配结果输出,在本申请提供的地址模糊匹配装置的一个实施例中,参见图10,所述地址模糊匹配装置还具体包含有如下内容:
数据输出模块40,用于基于存在相似性的各个所述虚拟记录对之间的地址相似度输出各个所述目标用户的地址模糊匹配结果。
从上述描述可知,本申请实施例提供的地址模糊匹配装置,能够有效提高用户获取地址模糊匹配的效率,以提高用户体验。
为了进一步说明本方案,本申请还提供一种应用所述地址模糊匹配装置实现地址模糊匹配方法的具体应用实例,本申请应用实例涉及大规模分布式图计算领域,提出了一种运用大规模分布式图计算理论实现地址信息快速模糊匹配的方法及装置,克服了地址信息模糊匹配效率低下耗时长的缺点。其中,图11是本申请应用实例的输入输出形式示意图,输入部分包含有客户ID和地址,分别由位于上海市浦东新区XXX的客户1和位于上海浦东XXX的客户2等组成,输出部分由客户ID和客户ID之间的对应关系组成。
参见图12,本地址模糊匹配装置的数据处理包括:数据读取、地址分段、地址匹配及数据输出。其中:数据读取、数据输出模块进行串行计算,地址分段、地区匹配进行分布式计算。
数据读取模块:从存储设备顺序读入每个客户的ID信息、每个客户的地址数据,并对地址数据进行清洗,输出为清洗后的数据分块,其中第i个每个分块记做Ai,每个数据分块包括一些形如:<客户ID,地址>的数据对。
地址分段模块:对于数据读取模块输出的地址,通过与标准地址库匹配的方式,将地址分为省、市、区、详细地址四段。该模块首先采用分布式计算方式,对于数据读取模块输出分块A1~An(假设总共输出了n个模块)同时计算。其次,对数据重新分块,将前三段地址相同的<客户ID,标准化地址表>的数据对分到同一块,其中第i个每个分块记Bi。
地址匹配模块:对Bi内部的所有<客户ID,标准化地址表>数据对根据其详细地址进行模糊匹配,得到其和Bi内部其它地址存在与其地址存在相似性的客户的相似度,第i个数据块的第j个数据对的输出结果为:<客户ID1,客户ID2,相似度>的数据块,对于其中的客户j记为Cij。
数据输出模块:将地址匹配模块完成计算的数据块Bij收集起来,合并为一个数据块后写入存储设备中。
(一)数据读取模块
数据读取模块包括以下步骤:
步骤1:从存储设备中读取<客户ID,地址>的数据对。
步骤2:对每条数据对中的地址信息进行清洗,清洗规则如下:
1)去除地址中的非中文、英文字母字符,举例如下表1所述的符号等。
表1
!@#¥%……&*()?》《》:“”}{} |
2)全角转化为半角(Util.Q2B(String str))
3)大写字母转小写(Util.B2S(String str))
4)去除连续重复的分隔符,比如:1003号--15号楼--301室,处理后是:1003号-15号楼-301室(Util.getDelDupString(String original_str,String[]dupStrArr))
对类似“1003号-15号楼-301室”情况进行处理,处理后是“1003号15号楼301室”。
步骤3:将数据随机分成大小相等的N个数据块,N与地址分段模块所拥有的并行计算资源相匹配,例如:地址分段模块有10个并发计算线程,则N=10。
(二)地址分段模块
地址分段模块包括分词模块、标准化、数据分块三个子模块,其中,参见图13,数据块A1至数据块A3分别在不同的并行计算过程中基于地址库进行分词和标准化处理,在经数据分块过程后输出对应的数据块B1至数据块B4。
分词子模块:将形如“河北无极1003号15号楼301室”的地址形式,切分为“河北+,无极+,1003+号,15+号楼,301+室”的形式。该模块需要用到地址库,该地址库包含两部分字典:
(1)地址通名字典,该字典存储所有经过标准化的已知中国地址,例如表2:
表2
(2)地址别名字典,该字典存储已知地址别名,例如表3:
表3
标准化子模块:根据分词模块输出结果,将地址标准化为分层结构,第0层为“中国”,第一层为“省”,第二层为“市”,第三层为“区/县”,第四层往下各层为详细地址,将各层通过链表方式连接起来形成标准化地址表。
数据分块子模块:根据标准化子模块的输出结果,将标准化树的前三层相同的地址划分为一个数据块,输入到地址匹配模块中。
(1)参见图14,分词子模块进行分词处理步骤如下:
步骤1:从S右边开始扫描地址字符串,截取固定长度为MAXSPLIT的字符串W。其中,S为地址字符串。
步骤2:查找通名字典,如果找到则作为一个分词:“+”通名W“,”。
步骤3:若未在通名字典中查到,则扫描地址别名字典,查找省,市,区,县专名字典,如果找到则作为一个分词:专名W“,”,且当前的S=S-W。
步骤4:如果地址字符串未到终点则下移一个字符,即:若通名&专名都没有找到,则固定长度为MAXSPLIT-1,判断地址字符串长度LENGTH(S)是否大于0,若是,则返回步骤1,若否,则字符串头又一段既不是通名也不是专名,加入到分词后的地址最前位置处,且处理通名钱没有专名的情况,比如:云+桥,+路,处理后是:云桥+路。其中,“&”代表“和”的含义,通名&专名是指通名和专名。
步骤5:结束。
(2)标准化子模块处理步骤如下:
步骤1:分词后得到的字符串组,若单词中有“+”,则按“+”把单词分割,比如:上海+市,分割成:上海和市。
步骤1.1:“+”分割出2个词,遍历通名进行处理。
步骤1.2:“+”后没有跟通名,遍历地区树得到标准化地址,比如:黄浦+。
步骤2:若单词中没有“+”,作为门牌号处理。
步骤3:析取出有待标准化的行政区划字符串,按照行政区划等级由高到低排序,构成省、市、区字符串数组。
参见图15,例如中国下层为北京市及广东省等,北京市链接的第三层级为西城区等区的划分,广东省链接的第二层级为广州市、河源市等,河源市链接的第三等级又为紫金县及源城区等区的划分。
(三)地址匹配模块
地址匹配模块包括地址编码、分布式图构建、地址比对三个子模块。
参见图16,数据块D1至数据块D3经由地址编码、分布式图构建及地址比对的并行计算过程,分别得到各个地址对。
地址编码子模块对于地址分段模块输出的每条<客户ID,标准化地址表>记录对中的每个地址表的每一项进行编码,使其输出为形如[a0,a1,a2,a3,a4,a5,a6,a7,a8,a9]的10位数组,其中ai是a的第i-1个元素,ai≤1并且ai≥-1。
分布式图构建子模块使用地址编码子模块输出的词向量生成虚拟词向量,每个虚拟词向量代表距离非常接近的一类词向量。之后,使用形如<客户ID,虚拟词向量>的节点对生成一张有向图。
地址比对子模块在分布式图构建子模块输出的有向图的上,使用基于大规模分布式图计算概念模型建立的匹配算法了计算地址相似度,最终生成数据块Cij,即包含<客户ID1,客户ID2,相似度>的数据块。
(1)参见图17,地址编码子模块是对每个数据块Bi并行操作的。
地址编码子模块首先将每个数据块内的每条<客户ID,标准化地址表>中的标准化地址表中第四层向下重新合并为一个字符串,并使用“/”分割每个词,标准化地址表中的每一项都是一个词,生成一组<客户ID,地址字符串>的数据集。
地址编码子模块对每个数据集使用用来产生词向量的相关模型word2vec的CROW模型对其中的每个词进行编码。word2vec是一种将字词转换为多维向量的开源技术,本申请应用实例对该技术无改动,故在此不详细说明。其中的第四层编码前获取的xx路数据经由word2vec得到第四层编码后的数据,例如[0.836237,0.932929,...]、[0.433242,-0,435234521,...]、[0.34513,-1,...]和[1,0.34534532,...]。其中的第五层编码前获取的xx小区数据经由word2vec得到第五层编码后的数据,例如[0.836237,0.932929,...]、[0.433242,-0,435234521,...]、[0.34513,-1,...]和[1,0.34534532,...]。
地址编码子模块完成word2vec编码后,对每条<客户ID,标准化地址表>数据对重新更新标准化地址表,每个地址使用其编码得到的词向量来替代。
分布式图构建子模块对地址编码子模块输出的每个数据块B进行并行处理,处理包括聚类步骤和构图步骤,最终生成客户与虚拟地址之间的有向图:
步骤1:聚类步骤。首先将数据块内各个客户的标准地址表按层拆分,输出为<客户ID,标准地址表第i层(i≥4)地址(即词向量)>的记录对;然后将i相同,即同一层的记录合并为一个数据集合。最后,在该数据集上针对词向量进行聚类,将词向量聚为n类,n≥1且n<词向量个数,记Eij为第i层第j个类。本申请应用实例采用层次聚类方法,本申请应用实例对层次聚类算法没有改动,故不详细说明。参见图18a,例如,将第四层的客户1至客户3分别对应的[0.836237,0.932929,...]、[0.8237,0.939,...]和[0.8237,0.939,...]进行聚类,得到第四层的客户1至客户3分别对应的虚地址a1和虚地址a2。将第五层的客户1至客户3分别对应的数据进行聚类,得到第五层的客户1至客户3分别对应的虚地址b1和虚地址b2。
步骤2:构图步骤。首先针对聚类后的每个类Eij计算其中心点的向量,记Eij的中心点向量为Fij。然后,对每条<客户ID,标准地址表第i层(i≥4)地址(即词向量)>的记录对,使用Fij替换属于其对应类的标准地址项,得到<客户ID,虚地址>记录对。最后,对每条<客户ID,虚地址>记录对,生成客户ID指向虚地址的边,客户ID和虚拟地址向量分别作为起始、目的节点,这样就形成了用于地址比对的有向图。参见图18b,第四层地址中的虚地址a1和虚地址b1分别对应客户1和客户2,虚地址a2和虚地址b2分别对应客户3。
(2)地址比对子模块在分布式图构建子模块输出的有向图中进行两次消息传递计算,最终生成第i个数据分块(地址分段模块输出)的第j个客户数据块Cij。
第1次消息传递从客户节点沿着有向图的边按边的方向传递到虚地址节点,这样虚地址节点i就同时收到了所有虚地址相同,且等于虚地址节点i词向量的客户。
第2次消息传递从虚地址节点沿着有向图的边逆向传播到客户节点,这样每个客户节点就同时收到了所有与其在第i层地址相同的客户,合并结果后,对每个客户有<客户ID,第1层是否相同,第2层是否相同,…>的记录对。
最后每个客户节点并发计算其与该节点所收集到的客户的地址相似度等于相同的层数总和除以总层数。
参见图19a,在第1次消息传递的过程中,例如虚地址a1等的各个虚地址节点均可以得到所有第四层虚地址相同的客户。参见图19b,在第2次消息传递的过程中,例如客户1等客户节点得到所有与自己第四层虚地址相同的客户集合G1,并得到所有与自己第四层虚地址相同的客户集合G2等等。
(四)数据输出模块
数据输出模块将地址匹配模块输出的一系列数据块Cij顺序收集起来合并为一个数据块,然后将此数据库写入到存储设备中。
基于上述内容,本申请应用实例通过应用自然语言处理技术对地址进行分段和编码,在地址分段的基础上,应用分布式图计算技术支持地址的分布式匹配,基于大规模分布式图计算概念模型,通过消息传递机制改进地址匹配算法的时间复杂度,大大提高了地址模糊匹配的效率,使得银行等金融机构可以有效地将客户的地理位置信息用于其客户间关系的构建,为其客户数据分析提供有力地支持。
从硬件层面来说,为了解决现有的地址模糊匹配方式所需的匹配次数多以及算法复杂的问题,本申请提供一种用于实现所述地址模糊匹配方法中的全部或部分内容的电子设备的实施例,所述电子设备具体包含有如下内容:
图20为本申请实施例的电子设备9600的系统构成的示意框图。如图20所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图20是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
在一实施例中,地址模糊匹配功能可以被集成到中央处理器中。其中,中央处理器可以被配置为进行如下控制:
步骤100:分别获取标准数据块中各个目标用户各自对应的多个虚拟记录对,其中,各个所述标准数据块分别用于存储前三层相同的标准地址表,各个所述虚拟记录对分别用于存储各自对应的用户唯一标识与对应的虚拟地址,且所述虚拟地址预先基于位于对应的所述标准地址表的第四层或大于第四层的层级中的详细地址信息获取。
在步骤100中,所述标准地址表包含有至少四层,且各层之间依次链接,其中,所述标准地址表中的前三层依次用于表示省、市和区,所述标准地址表中的第四层或大于第四层的层级用于表示详细地址信息,可以理解的是,所述详细地址信息即为中文地址信息中出除去省、市和区后的具体小区、楼盘、单元、楼层及门牌号中的至少一项信息。
在本申请的一个或多个实施例中,所述用户唯一标识可以为用于区分该用户与其他用户的身份标识,例如机构内部的用户编号或手机号码等,在本申请的一种举例中,若所述机构为银行机构,则所述目标用户均可以为该银行机构中的客户,则所述用户唯一标识的具体举例即可以为该银行机构中的客户ID。
步骤200:应用各个所述虚拟记录对生成目标有向图,且该目标有向图中的各个边的起始节点为所述用户唯一标识,各个边的目的节点为对应的所述虚拟地址。
可以理解的是,所述目标有向图的具体获取过程可以为:使用词向量生成虚拟词向量,每个虚拟词向量代表距离非常接近的一类词向量。之后,使用形如<客户ID,虚拟词向量>的节点对生成一张有向图。
步骤300:在所述目标有向图中进行两次传递方向相反的消息传递,得到存在相似性的各个所述虚拟记录对之间的地址相似度。
在步骤300中,在目标有向图上,可以使用基于大规模分布式图计算概念模型建立的匹配算法了计算地址相似度,最终生成数据块Cij,即包含<客户ID1,客户ID2,相似度>的数据块。
从上述描述可知,本申请实施例提供的电子设备,通过应用有向图能够技术支持地址的分布式匹配,通过消息传递机制能够改进地址匹配算法的时间复杂度,进而能够有效提高用户地址模糊匹配的效率,并能够有效降低用户地址模糊匹配的计算量,能够克服现有的地址信息模糊匹配方式存在的效率低下且耗时长的问题,进而能够有效提高企业获取存在高地址相似度的用户的效率,尤其适用于银行机构基于存在高地址相似度的用户进行欺诈风险识别的效率。
在另一个实施方式中,地址模糊匹配装置可以与中央处理器9100分开配置,例如可以将地址模糊匹配装置配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现地址模糊匹配功能。
如图20所示,该电子设备9600还可以包括:通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图20中所示的所有部件;此外,电子设备9600还可以包括图20中没有示出的部件,可以参考现有技术。
如图20所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。
本申请的实施例还提供能够实现上述实施例中的地址模糊匹配方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的地址模糊匹配方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤100:分别获取标准数据块中各个目标用户各自对应的多个虚拟记录对,其中,各个所述标准数据块分别用于存储前三层相同的标准地址表,各个所述虚拟记录对分别用于存储各自对应的用户唯一标识与对应的虚拟地址,且所述虚拟地址预先基于位于对应的所述标准地址表的第四层或大于第四层的层级中的详细地址信息获取。
在步骤100中,所述标准地址表包含有至少四层,且各层之间依次链接,其中,所述标准地址表中的前三层依次用于表示省、市和区,所述标准地址表中的第四层或大于第四层的层级用于表示详细地址信息,可以理解的是,所述详细地址信息即为中文地址信息中出除去省、市和区后的具体小区、楼盘、单元、楼层及门牌号中的至少一项信息。
在本申请的一个或多个实施例中,所述用户唯一标识可以为用于区分该用户与其他用户的身份标识,例如机构内部的用户编号或手机号码等,在本申请的一种举例中,若所述机构为银行机构,则所述目标用户均可以为该银行机构中的客户,则所述用户唯一标识的具体举例即可以为该银行机构中的客户ID。
步骤200:应用各个所述虚拟记录对生成目标有向图,且该目标有向图中的各个边的起始节点为所述用户唯一标识,各个边的目的节点为对应的所述虚拟地址。
可以理解的是,所述目标有向图的具体获取过程可以为:使用词向量生成虚拟词向量,每个虚拟词向量代表距离非常接近的一类词向量。之后,使用形如<客户ID,虚拟词向量>的节点对生成一张有向图。
步骤300:在所述目标有向图中进行两次传递方向相反的消息传递,得到存在相似性的各个所述虚拟记录对之间的地址相似度。
在步骤300中,在目标有向图上,可以使用基于大规模分布式图计算概念模型建立的匹配算法了计算地址相似度,最终生成数据块Cij,即包含<客户ID1,客户ID2,相似度>的数据块。
从上述描述可知,本申请实施例提供的计算机可读存储介质,通过应用有向图能够技术支持地址的分布式匹配,通过消息传递机制能够改进地址匹配算法的时间复杂度,进而能够有效提高用户地址模糊匹配的效率,并能够有效降低用户地址模糊匹配的计算量,能够克服现有的地址信息模糊匹配方式存在的效率低下且耗时长的问题,进而能够有效提高企业获取存在高地址相似度的用户的效率,尤其适用于银行机构基于存在高地址相似度的用户进行欺诈风险识别的效率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种地址模糊匹配方法,其特征在于,包括:
分别获取标准数据块中各个目标用户各自对应的多个虚拟记录对,其中,各个所述标准数据块分别用于存储前三层相同的标准地址表,各个所述虚拟记录对分别用于存储各自对应的用户唯一标识与对应的虚拟地址,且所述虚拟地址预先基于位于对应的所述标准地址表的第四层或大于第四层的层级中的详细地址信息获取;
应用各个所述虚拟记录对生成目标有向图,且该目标有向图中的各个边的起始节点为所述用户唯一标识,各个边的目的节点为对应的所述虚拟地址;
在所述目标有向图中进行两次传递方向相反的消息传递,得到存在相似性的各个所述虚拟记录对之间的地址相似度;
基于存在相似性的各个所述虚拟记录对之间的地址相似度输出各个所述目标用户的地址模糊匹配结果;
所述在所述目标有向图中进行两次传递方向相反的消息传递,得到存在相似性的各个所述虚拟记录对之间的地址相似度,包括:
自各个所述起始节点沿所述目标有向图的边向对应的各个所述目的节点进行第一次消息传递,以使各个所述目的节点同时收到与自身虚拟地址相同的各个用户唯一标识;
自各个所述目的节点沿所述目标有向图的边向对应的各个所述起始节点进行与所述第一次消息传递逆向传递的第二次消息传递,以使各个所述起始节点同时收到与自身虚拟地址相同的各个用户唯一标识,并生成各个所述目标用户各自对应的相似记录对,其中,该相似记录对用于存储对应的用户唯一标识与用于所述标准地址表中各层是否相同的相似度信息。
2.根据权利要求1所述的地址模糊匹配方法,其特征在于,所述分别获取标准数据块中各个目标用户各自对应的多个虚拟记录对,包括:
分别获取各个标准数据块各自对应的多个记录对,其中,各个所述记录对分别用于存储各自对应的用户唯一标识与对应的词向量,且该词向量为位于所述标准地址表的第四层或大于第四层的层级中的详细地址信息;
将所在层级相同的所述词向量对应的所述记录对合并至同一数据集合,并所述数据集合内的词向量进行聚类,得到至少一个词向量类;
获取各个所述词向量类的中心点向量,并将所述记录对中的所述词向量替换为对应的中心点向量,得到各个所述记录对各自对应的虚拟记录对。
3.根据权利要求2所述的地址模糊匹配方法,其特征在于,在所述分别获取各个标准数据块各自对应的多个记录对之前,还包括:
根据当前处于可用状态的并发线程的数量,将各个所述目标用户的数据对划分至对应数据的数据块中,其中,所述数据对用于存储各自对应的用户唯一标识与对应的地址信息;
应用各个所述并发线程分别对各自对应的所述数据块中的地址信息进行分词处理;
将经该分词处理得到得各个词汇按预设规则进行分层处理,得到各个所述目标用户各自对应的各层依次关联的标准地址表;
将前三层相同的标准地址表划分至同一标准数据块中。
4.根据权利要求3所述的地址模糊匹配方法,其特征在于,在所述根据当前处于可用状态的并发线程的数量,将各个所述目标用户的数据对划分至对应数据的数据块中之前,还包括:
自预设的存储设备中顺序读取各个所述目标用户的用户唯一标识以及地址数据;
对各个所述地址数据进行预处理,得到各个所述目标用户各自对应的各个地址信息;
基于各个所述目标用户的用户唯一标识以及地址信息生成各个所述目标用户的数据对。
5.一种地址模糊匹配装置,其特征在于,包括地址匹配模块,且该地址匹配模块包括:
分布式图构建子模块,用于分别获取标准数据块中各个目标用户各自对应的多个虚拟记录对,其中,各个所述标准数据块分别用于存储前三层相同的标准地址表,各个所述虚拟记录对分别用于存储各自对应的用户唯一标识与对应的虚拟地址,且所述虚拟地址预先基于位于对应的所述标准地址表的第四层或大于第四层的层级中的详细地址信息获取;
所述分布式图构建子模块,还用于应用各个所述虚拟记录对生成目标有向图,且该目标有向图中的各个边的起始节点为所述用户唯一标识,各个边的目的节点为对应的所述虚拟地址;
地址比对子模块,用于在所述目标有向图中进行两次传递方向相反的消息传递,得到存在相似性的各个所述虚拟记录对之间的地址相似度,以基于存在相似性的各个所述虚拟记录对之间的地址相似度输出各个所述目标用户的地址模糊匹配结果;
数据输出模块,用于基于存在相似性的各个所述虚拟记录对之间的地址相似度输出各个所述目标用户的地址模糊匹配结果;
所述地址比对子模块用于执行下述内容:
自各个所述起始节点沿所述目标有向图的边向对应的各个所述目的节点进行第一次消息传递,以使各个所述目的节点同时收到与自身虚拟地址相同的各个用户唯一标识;
自各个所述目的节点沿所述目标有向图的边向对应的各个所述起始节点进行与所述第一次消息传递逆向传递的第二次消息传递,以使各个所述起始节点同时收到与自身虚拟地址相同的各个用户唯一标识,并生成各个所述目标用户各自对应的相似记录对,其中,该相似记录对用于存储对应的用户唯一标识与用于所述标准地址表中各层是否相同的相似度信息。
6.根据权利要求5所述的地址模糊匹配装置,其特征在于,所述分布式图构建子模块用于执行下述内容:
分别获取各个标准数据块各自对应的多个记录对,其中,各个所述记录对分别用于存储各自对应的用户唯一标识与对应的词向量,且该词向量为位于所述标准地址表的第四层或大于第四层的层级中的详细地址信息;
将所在层级相同的所述词向量对应的所述记录对合并至同一数据集合,并所述数据集合内的词向量进行聚类,得到至少一个词向量类;
获取各个所述词向量类的中心点向量,并将所述记录对中的所述词向量替换为对应的中心点向量,得到各个所述记录对各自对应的虚拟记录对。
7.根据权利要求6所述的地址模糊匹配装置,其特征在于,还包括:数据读取模块和地址分段模块;
所述数据读取模块,用于根据当前处于可用状态的并发线程的数量,将各个所述目标用户的数据对划分至对应数据的数据块中,其中,所述数据对用于存储各自对应的用户唯一标识与对应的地址信息;
所述地址分段模块包括:
分词子模块,用于应用各个所述并发线程分别对各自对应的所述数据块中的地址信息进行分词处理;
标准化子模块,用于将经该分词处理得到得各个词汇按预设规则进行分层处理,得到各个所述目标用户各自对应的各层依次关联的标准地址表;
数据分块子模块,用于将前三层相同的标准地址表划分至同一标准数据块中。
8.根据权利要求7所述的地址模糊匹配装置,其特征在于,所述数据读取模块用于执行下述内容:
自预设的存储设备中顺序读取各个所述目标用户的用户唯一标识以及地址数据;
对各个所述地址数据进行预处理,得到各个所述目标用户各自对应的各个地址信息;
基于各个所述目标用户的用户唯一标识以及地址信息生成各个所述目标用户的数据对。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至4任一项所述的地址模糊匹配方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至4任一项所述的地址模糊匹配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010541244.6A CN111737315B (zh) | 2020-06-15 | 2020-06-15 | 地址模糊匹配方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010541244.6A CN111737315B (zh) | 2020-06-15 | 2020-06-15 | 地址模糊匹配方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111737315A CN111737315A (zh) | 2020-10-02 |
CN111737315B true CN111737315B (zh) | 2023-08-11 |
Family
ID=72649167
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010541244.6A Active CN111737315B (zh) | 2020-06-15 | 2020-06-15 | 地址模糊匹配方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111737315B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113190596B (zh) * | 2021-04-22 | 2023-02-10 | 华中科技大学 | 一种地名地址混合匹配的方法和装置 |
CN113204613B (zh) * | 2021-04-26 | 2022-05-03 | 北京百度网讯科技有限公司 | 地址生成方法、装置、设备和存储介质 |
CN114328808A (zh) * | 2021-08-26 | 2022-04-12 | 中科聚信信息技术(北京)有限公司 | 地址模糊匹配方法、地址处理方法、装置和电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101882163A (zh) * | 2010-06-30 | 2010-11-10 | 中国科学院地理科学与资源研究所 | 一种基于匹配规则的模糊中文地址地理赋值方法 |
CN104809183A (zh) * | 2015-04-17 | 2015-07-29 | 北京奇艺世纪科技有限公司 | 一种数据读取及写入的方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10095878B2 (en) * | 2015-06-02 | 2018-10-09 | ALTR Solutions, Inc. | Internal controls engine and reporting of events generated by a network or associated applications |
-
2020
- 2020-06-15 CN CN202010541244.6A patent/CN111737315B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101882163A (zh) * | 2010-06-30 | 2010-11-10 | 中国科学院地理科学与资源研究所 | 一种基于匹配规则的模糊中文地址地理赋值方法 |
CN104809183A (zh) * | 2015-04-17 | 2015-07-29 | 北京奇艺世纪科技有限公司 | 一种数据读取及写入的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111737315A (zh) | 2020-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111737315B (zh) | 地址模糊匹配方法及装置 | |
WO2021135910A1 (zh) | 基于机器阅读理解的信息抽取方法、及其相关设备 | |
WO2022126971A1 (zh) | 基于密度的文本聚类方法、装置、设备及存储介质 | |
CN108509569A (zh) | 企业画像的生成方法、装置、电子设备以及存储介质 | |
Dong et al. | A hierarchical distributed processing framework for big image data | |
CN111400504A (zh) | 企业关键人的识别方法和装置 | |
CN104112005B (zh) | 分布式海量指纹识别方法 | |
CN113656547B (zh) | 文本匹配方法、装置、设备及存储介质 | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN102867049A (zh) | 一种基于单词查找树实现的汉语拼音快速分词方法 | |
CN115438370A (zh) | 全匿联邦学习模型的训练方法、设备和存储介质 | |
JP2023062150A (ja) | 文字認識モデルトレーニング、文字認識方法、装置、機器及び媒体 | |
CN112015865A (zh) | 基于分词的全称匹配搜索方法、装置、设备及存储介质 | |
CN114528944A (zh) | 一种医疗文本编码方法、装置、设备及可读存储介质 | |
CN112287657B (zh) | 基于文本相似度的信息匹配系统 | |
CN112597748A (zh) | 语料生成方法、装置、设备及计算机可读存储介质 | |
Song et al. | An immune clonal selection algorithm for synthetic signature generation | |
CN103678355B (zh) | 文本挖掘方法和文本挖掘装置 | |
CN116166858A (zh) | 基于人工智能的信息推荐方法、装置、设备及存储介质 | |
CN113204613B (zh) | 地址生成方法、装置、设备和存储介质 | |
CN113553415B (zh) | 问答匹配的方法、装置及电子设备 | |
Majumder et al. | A generalized model of text steganography by summary generation using frequency analysis | |
CN111859924A (zh) | 一种基于word2vec模型构建词网的方法和装置 | |
CN111552890A (zh) | 基于名称预测模型的名称信息处理方法、装置、电子设备 | |
CN114510935B (zh) | 双地址文本识别方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |