CN115392955B - 门店去重处理方法、装置、设备及存储介质 - Google Patents
门店去重处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115392955B CN115392955B CN202210957641.0A CN202210957641A CN115392955B CN 115392955 B CN115392955 B CN 115392955B CN 202210957641 A CN202210957641 A CN 202210957641A CN 115392955 B CN115392955 B CN 115392955B
- Authority
- CN
- China
- Prior art keywords
- store
- target
- grid
- name
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 45
- 238000003672 processing method Methods 0.000 title claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 31
- 239000013598 vector Substances 0.000 claims description 43
- 238000004422 calculation algorithm Methods 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 16
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 10
- 238000012549 training Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 238000013145 classification model Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000002093 peripheral effect Effects 0.000 description 5
- 238000007689 inspection Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种门店去重处理方法、装置、设备及存储介质,属于数据处理领域。该方法包括:获取目标门店的第一门店名称和第一门店位置信息;根据第一门店位置信息,确定目标门店所在的目标网格区域;在预存的存量门店数据库中,获取位于目标网格区域和邻居网格区域的存量门店的第二门店名称和第二门店位置信息;基于第一门店名称、第一门店位置信息、第二门店名称和第二门店位置信息,得到目标门店与位于目标网格区域和邻居网格区域的存量门店的目标相似度;在目标相似度大于等于预设的去重相似度阈值的情况下,将目标门店作为重复门店去除。根据本申请实施例能够提高门店去重处理的效率。
Description
技术领域
本申请属于数据处理领域,尤其涉及一种门店去重处理方法、装置、设备及存储介质。
背景技术
随着电子支付技术的推广,用户在商户线下的门店中可利用电子支付技术进行支付。为了便于处理商户线下的门店中的电子支付,需要对商户线下的门店进行信息管理。但在门店数据由不同来源上送的情况下,不同来源可能会上送同一门店的门店数据,且不同来源上送的同一门店的门店数据可能会有所不同,导致根据门店数据将同一门店误判为两个不同的门店,即同一门店被反复统计。
为了避免同一门店被反复统计,需要派遣人员前往门店现场进行巡检,人工判断同一门店是否被反复统计。但人工巡检花费时间、人力非常大,门店去重处理的效率很低。
发明内容
本申请实施例提供一种门店去重处理方法、装置、设备及存储介质,能够提高门店去重处理的效率。
第一方面,本申请实施例提供一种门店去重处理方法,包括:获取目标门店的第一门店名称和第一门店位置信息;根据第一门店位置信息,确定目标门店所在的目标网格区域;在预存的存量门店数据库中,获取位于目标网格区域和邻居网格区域的存量门店的第二门店名称和第二门店位置信息,邻居网格区域与目标网格区域相邻;基于第一门店名称、第一门店位置信息、第二门店名称和第二门店位置信息,得到目标门店与位于目标网格区域和邻居网格区域的存量门店的目标相似度;在目标相似度大于等于预设的去重相似度阈值的情况下,将目标门店作为重复门店去除。
第二方面,本申请实施例提供一种门店去重处理装置,包括:第一获取模块,用于获取目标门店的第一门店名称和第一门店位置信息;网格区域确定模块,用于根据第一门店位置信息,确定目标门店所在的目标网格区域;第二获取模块,用于在预存的存量门店数据库中,获取位于目标网格区域和邻居网格区域的存量门店的第二门店名称和第二门店位置信息,邻居网格区域与目标网格区域相邻;计算模块,用于基于第一门店名称、第一门店位置信息、第二门店名称和第二门店位置信息,得到目标门店与位于目标网格区域和邻居网格区域的存量门店的目标相似度;去重模块,用于在目标相似度大于等于预设的去重相似度阈值的情况下,将目标门店作为重复门店去除。
第三方面,本申请实施例提供一种门店去重处理设备,设备包括:处理器以及存储有计算机程序指令的存储器;处理器执行计算机程序指令时实现第一方面的门店去重处理方法。
第四方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现第一方面的门店去重处理方法。
本申请实施例提供一种门店去重处理方法、装置、设备及存储介质,可根据目标门店的门店位置信息,确定目标门店所在的网格区域。网格区域为地图中划分的区域。基于数据库中位于目标门店所在的目标网格区域的存量门店、目标网格区域周边的网格区域的存量门店以及目标门店的门店名称、门店位置信息,得到目标门店与存量门店的相似度,根据该相似度判断新获取的门店是否与存量门店为同一门店,若新获取的门店与存量门店为同一门店,则认为新获取的门店为重复门店,予以去除。该去重过程不需人工参与,且利用门店的位置可缩小用于比对的存量门店的范围,提高了门店去重处理的效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的门店去重处理方法的流程图;
图2为本申请实施例中网格区域的一示例的示意图;
图3为本申请另一实施例提供的门店去重处理方法的流程图;
图4为本申请实施例中编码表的一示例的示意图;
图5为本申请又一实施例提供的门店去重处理方法的流程图;
图6为本申请一实施例提供的门店去重处理装置的结构示意图;
图7为本申请一实施例提供的门店去重处理设备的结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
随着电子支付技术的推广,用户在商户线下的门店中可利用电子支付技术进行支付。为了便于处理商户线下的门店中的电子支付,需要对商户线下的门店进行信息管理。但在门店数据由不同来源上送的情况下,不同来源可能会上送同一门店的门店数据,且不同来源上送的同一门店的门店数据可能会有所不同,导致根据门店数据将同一门店误判为两个不同的门店,即同一门店被反复统计。在一些情况下,同一门店被反复统计的情况也可能会被利用,从而造成存储门店信息的数据库中的漏洞。
为了避免同一门店被反复统计,需要派遣人员前往门店现场进行巡检,人工判断同一门店是否被反复统计。但人工巡检花费时间、人力非常大,门店去重处理的效率很低。
本申请提供一种门店去重处理方法、装置、设备及存储介质,可根据新获取的门店的门店位置信息,确定该门店所在的网格区域。网格区域为地图中划分的区域。利用数据库中位于新获取的门店所在的目标网格区域和目标网格区域周边的网格区域的存量门店的数据,以及新获取的门店的数据,得到新获取的门店与存量门店的相似度,根据该相似度判断新获取的门店是否与存量门店为同一门店,若新获取的门店与存量门店为同一门店,则认为新获取的门店为重复门店,予以去除。该去重过程不需人工参与,且利用门店的位置缩小用于比对的存量门店的范围,提高了门店去重处理的效率。
下面对本申请提供的门店去重处理方法、装置、设备及存储介质分别进行说明。
本申请第一方面提供一种门店去重处理方法,可应用于根据不同来源收集来的门店信息进行门店去重的场景,可由门店去重装置、设备等执行,在此并不限定。图1为本申请一实施例提供的门店去重处理方法的流程图,如图1所示,门店去重处理方法可包括步骤S101至步骤S105。
在步骤S101中,获取目标门店的第一门店名称和第一门店位置信息。
目标门店为待判断是否为重复门店的门店,可以为新获取到的门店信息对应的门店,如新的欲加入存量门店数据库中的门店。第一门店名称可为目标门店的门店名称。第一门店位置信息可为目标门店的门店位置信息。门店位置信息用于表征门店的位置,可包括门店地址、门店经纬度等,在此并不限定。
在步骤S102中,根据第一门店位置信息,确定目标门店所在的目标网格区域。
为了便于处理,可预先将地图划分为多个网格区域。不同网格区域的大小可以相同,也可不同,在此并不限定。网格区域的形状可为矩形等规则形状,也可为不规则形状,在此并不限定。例如,网格区域可为长为150米,宽为150米的矩形区域。
目标网格区域为目标门店所在的网格区域。第一门店位置信息可表征目标门店的位置,根据第一门店位置信息可确定目标门店所在的网格区域即目标网格区域。
在步骤S103中,在预存的存量门店数据库中,获取位于目标网格区域和邻居网格区域的存量门店的第二门店名称和第二门店位置信息。
存量门店数据库包括存量门店的相关数据。存量门店为已确定为非重复门店的门店。存量门店的相关数据可包括但不限于存量门店的门店名称、门店位置信息、所在网格区域等。
为了缩小与目标门店比对的存量门店的范围,可根据位置先行划定一个可能存在与目标门店为同一门店的存量门店的地理区域,该地理区域为目标门店的位置的周边区域。可将目标网格区域和邻居网格区域确定为目标门店的位置的周边区域。邻居网格区域与目标网格区域相邻,即,邻居网格区域为与目标网格区域相邻的网格区域。
例如,图2为本申请实施例中网格区域的一示例的示意图。图2中以虚线方格示出了9个网格区域,分别为网格区域A1至A9。图2还示出了多个存量门店21。若网格区域A5为目标网格区域,对应地,网格区域A1、网格区域A2、网格区域A3、网格区域A4、网格区域A6、网格区域A7、网格区域A8和网格区域A9均为目标网格区域的邻居网格区域。以对位于网格区域A5中的目标门店进行去重处理为例,可获取网格区域A1中各存量门店21的门店名称和门店位置信息、网格区域A2中各存量门店21的门店名称和门店位置信息、网格区域A3中各存量门店21的门店名称和门店位置信息、网格区域A4中各存量门店21的门店名称和门店位置信息、网格区域A6中各存量门店21的门店名称和门店位置信息、网格区域A7中各存量门店21的门店名称和门店位置信息、网格区域A8中各存量门店21的门店名称和门店位置信息以及网格区域A9中各存量门店21的门店名称和门店位置信息。
存量门店数据库中存量门店的数量级很大,若将目标门店与存量门店数据库中所有存量门店一一比对,会使得门店去重处理所需时间较长。由于目标网格区域和邻居网格区域为目标门店的周边区域,位于目标门店的周边区域中的存量门店和目标门店为同一门店的可能性较大,可先将存量门店数据库中位于目标网格区域的和邻居网格区域的存量门店的相关数据筛选出来,利用位于目标网格区域的和邻居网格区域的存量门店的相关数据和目标门店的相关数据,来进行存量门店与目标门店的比对,以缩短门店去重处理所需时间,提高门店去重处理的效率。
位于目标网格区域和邻居网格区域的存量门店包括位于目标网格区域的存量门店和位于邻居网格区域的存量门店。第二门店名称包括位于目标网格区域的存量门店的门店名称和位于邻居网格区域的存量门店的门店名称。第二门店位置信息包括位于目标网格区域的存量门店的门店位置信息和位于邻居网格区域的存量门店的门店位置信息。
在步骤S104中,基于第一门店名称、第一门店位置信息、第二门店名称和第二门店位置信息,得到目标门店与位于目标网格区域和邻居网格区域的存量门店的目标相似度。
基于第一门店名称和第二门店名称,可得到目标门店与存量门店在门店名称方面的相似度。基于第一门店位置信息和第二门店位置信息,可得到目标门店与存量门店在地理位置方面的相似度。根据目标门店与存量门店在门店名称方面的相似度和在地理位置方面的相似度,可得到目标相似度。目标相似度为目标门店与存量门店的相似度。可计算得到目标门店与位于目标网格区域和邻居网格区域的每个存量门店的相似度,根据目标相似度,确定目标门店是否为与位于目标网格区域和邻居网格区域的存量门店相同的重复门店。
在步骤S105中,在目标相似度大于等于预设的去重相似度阈值的情况下,将目标门店作为重复门店去除。
去重相似度阈值为确认目标门店与存量门店为同一门店的相似度的阈值,可根据场景、需求、经验等设定,在此并不限定,例如,去重相似度阈值可为0.6。目标相似度大于等于去重相似度阈值,表示目标门店与存量门店为同一门店,即目标门店为重复门店,可将目标门店去除。将目标门店去除可指舍弃目标门店的相关数据。目标相似度小于去重相似度阈值,表示目标门店与存量门店为不同的门店,即目标门店不是重复门店,可将目标门店的相关数据存储入存量门店数据库,也就是说,可将目标门店视为新加入存量门店数据库中的存量门店。
在本申请实施例中,可根据目标门店的门店位置信息,确定目标门店所在的网格区域。网格区域为地图中划分的区域。基于数据库中位于目标门店所在的目标网格区域的存量门店、目标网格区域周边的网格区域的存量门店以及目标门店的门店名称、门店位置信息,得到目标门店与存量门店的相似度,根据该相似度判断新获取的门店是否与存量门店为同一门店,若新获取的门店与存量门店为同一门店,则认为新获取的门店为重复门店,予以去除。该去重过程不需人工参与,且利用门店的位置可缩小用于比对的存量门店的范围,提高了门店去重处理的效率。
而且,除了比对目标门店与目标网格区域中的存量门店以外,还比对目标门店与邻居网格区域中的存量门店,避免漏查位于目标网格区域的边界附近与目标门店为同一门店的存量门店,进一步提高门店去重处理的全面性和准确性。
在一些实施例中,网格区域具有网格编码,可基于目标网格区域的网格编码和网格编码算法,确定目标网格区域的邻居网格区域。图3为本申请另一实施例提供的门店去重处理方法的流程图。图3与图1的不同之处在于,图3所示的门店去重处理方法还可包括步骤S106至步骤S108,图3所示的门店去重处理方法还可包括步骤S109至步骤S112,或步骤S113至步骤S115。
在步骤S106中,将地图划分为多个网格区域,并利用网格编码算法,为每个网格区域分配网格编码。
可获取地理地图,将地理地图划分为多个网格区域。为每个网格区域分配一个网格编码,网格编码可表征网格区域,即,不同的网格区域的网格编码不同。网格编码可根据网格编码算法得到,在此并不限定网格编码算法的类型。根据同一网格区域中不同位置的位置信息计算得到网格编码相同。
在一些示例中,网格编码可为m位字符串,网格编码中的前m1位的字符可表征省、市、区等,邻近的多个网格区域的前m1位的字符一致,后m-m1位的字符不同。不同网格区域的网格编码的后m-m1位的字符可按照预设的编码表选取,编码表包括多个按一定顺序排布的编码字符,可按照编码字符的排布顺序与网格区域的对应关系,选择对应的编码字符作为网格编码的后m-m1位的字符。网格编码的后m-m1位中每一位可对应一张编码表,不同位对应的编码表可以相同,也可以不同。根据多个网格区域的网格编码,可确定多个网格区域是否邻近,进一步地,还可根据多个网格区域的网格编码,确定网格区域之间的方位关系。
例如,图4为本申请实施例中编码表的一示例的示意图。网格区域如图2所示,网格编码为7位字符串,若邻近的网格区域的网格编码中前6位的字符一致,均为wk2vu1,最后一位的字符按照图4所示的编码表进行编码,网格区域A1的网格编码为wk2vu1E,则网格区域A2的网格编码为wk2vu1R,网格区域A3的网格编码为wk2vu1T,网格区域A4的网格编码为wk2vu1D,网格区域A5的网格编码为wk2vu1F,网格区域A6的网格编码为wk2vu1G,网格区域A7的网格编码为wk2vu1C,网格区域A8的网格编码为wk2vu1V,网格区域A9的网格编码为wk2vu1B。
在步骤S107中,获取存量门店的门店位置信息,根据存量门店的门店位置信息,确定存量门店所在的网格区域。
在步骤S108中,建立存量门店和存量门店所在的网格区域的网格编码的第一对应关系,并将第一对应关系存储于存量门店数据库。
第一对应关系包括存量门店和存量门店所在的网格区域的网格编码的对应关系。为了进一步缩短门店去重处理所需的时间,可预先对存量门店的数据进行处理,将得到的存量门店所在的网格区域的网格编码与存量门店建立对应关系,并将该对应关系存储入存量门店数据库,以便于在门店去重处理过程中可在存量门店数据库中直接查找到目标网格区域的网格编码对应的存量门店以及邻居网格区域的网格编码对应的存量门店,目标网格区域的网格编码对应的存量门店为位于目标网格区域的存量门店,邻居网格区域的网格编码对应的存量门店为位于邻居网格区域的存量门店。
在步骤S109中,获取目标网格区域的网格编码。
确定目标网格区域后,可获取目标网格区域的网格编码。
在步骤S110中,根据目标网格区域的网格编码和网格编码逆算法,获取目标网格区域的顶点的位置。
网格编码逆算法为网格编码算法的逆算法。根据网格区域中一个或多个位置的位置信息,利用网格编码算法,可得到该网格区域的网格编码。根据网格区域的网格编码,利用网格编码逆算法,可得到该网格区域的顶点的位置信息。
在步骤S111中,根据目标网格区域的顶点的位置信息,确定位于邻居网格区域中辅助点的位置信息。
邻居网格区域与目标网格区域共用部分顶点,得到目标网格区域的顶点的位置信息,相当于得到邻居网格区域的部分顶点的位置信息,根据邻居网格区域的部分顶点的位置信息,可得到邻居网格区域中辅助点的位置信息。辅助点可为邻居网格区域中除与目标网格区域共用的顶点外的任意一点或多点,在此并不限定。可在每个邻居网格区域中确定辅助点,以便于后续利用辅助点的位置信息,确定邻居网格区域。
在步骤S112中,基于每个邻居网格区域中辅助点的位置信息和网格编码算法,计算得到每个邻居网格区域的网格编码,以确定邻居网格区域。
网格编码与网格区域具有对应关系,根据邻居网格区域中辅助点的位置信息,利用网格编码算法,计算得到的网格编码为邻居网格区域的网格编码。利用网格编码与网格区域的对应关系,可确定邻居网格区域。
在步骤S113中,获取目标网格区域的网格编码。
在步骤S114中,根据目标网格区域的网格编码,获取候选网格区域的网格编码。
在一些示例中,邻近的网格区域的网格编码的一部分数位的字符是相同的,可利用该特征在大量的网格区域中筛选出目标网格区域邻近的网格区域即候选网格区域。候选网格区域包括网格编码中一部分数位的字符与目标网格区域的网格编码中一部分数位的字符相同的网格区域。例如,邻近的网格区域的网格编码的前m1个数位的字符相同,可将网格编码的前m1个数位的字符与目标网格区域的网格编码的前m1个数位的字符相同的网格区域确定为候选网格区域。
在步骤S115中,按照网格编码算法中的网格区域排布与编码数位的字符的对应关系,在候选网格区域的网格编码中确定邻居网格区域的网格编码,以确定邻居网格区域。
网格编码算法中可包括网格区域排布与编码数位的字符的对应关系。例如,网格区域的排布如图2所示,网格编码为7位的字符串,候选网格区域的网格编码的前6位的字符与目标网格区域的网格编码的前6位的字符相同,目标网格区域为网格区域A5,其网格编码为wk2vu1D,网格编码算法中网格区域排布与网格编码的最后一位的字符的对应关系具体实现为如图4所示的编码表,则可知目标网格区域具有8个邻居网格区域,8个邻居网格区域分别位于目标网格区域的左上、上、右上、左、右、左下、下、右下,按照图4所示的编码表,位于字符D的左上、上、右上、左、右、左下、下、右下的字符分别为W、E、R、S、F、X、C、V,对应地,位于目标网格区域的左上、上、右上、左、右、左下、下、右下的8个邻居网格区域,即网格区域A1、网格区域A2、网格区域A3、网格区域A4、网格区域A6、网格区域A7、网格区域A8、网格区域A9的网格编码分别为wk2vu1W、wk2vu1E、wk2vu1R、wk2vu1S、wk2vu1F、wk2vu1X、wk2vu1C、wk2vu1V。
网格编码表征网格区域,确定邻居网格区域的网格编码,即可确定邻居网格区域。
利用网格区域排布与编码数位的字符的对应关系来确定邻居网格区域的方式更为简便,耗时更短,效率更高。
在一些实施例中,目标相似度可基于与门店名称相关的相似度、与门店位置信息相关的相似度综合得到。图5为本申请又一实施例提供的门店去重处理方法的流程图。图5与图1的不同之处在于,图1中的步骤S104可具体细化为图5中的步骤S1041至步骤S1043。
在步骤S1041中,基于第一门店名称和第二门店名称,得到目标门店与位于目标网格区域和邻居网格区域的存量门店的N个名称相关相似度。
N为大于等于1的整数。名称相关相似度为与门店名称相关的相似度,可基于第一门店名称和第二门店名称得到。名称相关相似度可包括但不限于字符相似度、语义相似度、门店类型相似度中的任意一种或两种以上。字符相似度为组成门店名称的字符的相似度。语义相似度为门店名称的语义的相似度。门店类型相似度为基于门店名称得到的门店类型的相似度。
在一些示例中,名称相关相似度包括字符相似度。可对第一门店名称和第二门店名称分别进行分词,得到第一门店名称对应的词汇和第二门店名称对应的词汇;计算第一门店名称对应的词汇和第二门店名称对应的词汇的词频(Term Frequency,TF)和逆文本频率指数(Inverse Document Frequency,IDF);选取词频低于等于冗余词频阈值且逆文本频率指数大于冗余频率指数阈值的词汇;基于选取的第一门店名称对应的词汇和选取的第二门店名称对应的词汇,得到目标门店与位于目标网格区域和邻居网格区域的存量门店的字符相似度。
可利用分词工具对第一门店名称进行切分,得到第一门店名称对应的词汇;利用分词工具对第二门店名称进行切分,得到第二门店名称对应的词汇。词频表征词汇出现的频率。逆文本频率指数用于表征词汇具有的区分能力。冗余词频阈值为用于区分词汇是否为冗余词汇的词频的阈值。冗余频率指数阈值为用于区分词汇是否为冗余词汇的逆文本频率指数的阈值。若某词汇的词频大于冗余词频阈值,表示该词汇为冗余词汇;若某词汇的逆文本频率指数小于等于冗余频率指数阈值,表示该词汇为冗余词汇。冗余词汇对字符相似度的运算没有帮助,甚至可能会有不良影响,不需参与字符相似度的运算。词频低于等于冗余词频阈值且逆文本频率指数大于冗余频率指数阈值的词汇为参与字符相似度运算的有效词汇。字符相似度运算可参考机器翻译所使用的双语评估研究(Bilingual EvaluationUnderstudy,BLEU)算法,通过选取的第一门店名称对应的词汇和第二门店名称对应的词汇间的N-gram重合度来评价第一门店名称和第二名称在字符方面的相似性。
在一些示例中,名称相关相似度包括语义相似度。将第一门店名称和第二门店名称分别转化为第一名称数字序列和第二名称数字序列;将第一名称数字序列和第二名称数字序列输入第一模型,得到第一模型输出的目标门店与位于目标网格区域和邻居网格区域的存量门店的语义相似度。
第一模型用于根据输入的两个门店名称转化为的数字序列输出两个门店名称的语义相似度。可预先获取一定数量的具有标注的门店名称作为训练集正样本,随机抽取数量相当的门店名称作为训练集负样本,将训练集正样本和训练集负样本分别转换为数字序列,利用数字序列训练得到第一模型。第一模型可包括分类模型,可为深度学习分类模型或其他类型的分类模型,在此并不限定。例如,可利用BERT(即BidirectionalEncoderRepresentations from Transformer)模型,将“[CLS]+某一门店名称对应的数字序列+[SEP]+另一门店名称对应的数字序列”作为输入,训练第一模型,使第一模型可拟合一门店名称与另一门店名称的语义相似度,即,使第一模型可根据输入输出一门店名称与另一门店名称的语义相似度。
第一名称数字序列为第一门店名称转化为的数字序列。第二名称数字序列为第二门店名称转化为的数字序列。具体可将门店名称按字分割,将分割得到的字转化为数字,将每个字对应的数字组合,得到数字序列。将第一名称数字序列和位于目标网格区域和邻居网格区域的一个存量门店对应的第二名称数字序列输入第一模型,第一模型可输出目标门店的门店名称与这一个存量门店的门店名称的语义相似度。
在一些示例中,名称相关相似度包括门店类型相似度。在门店去重处理过程中可能会出现门店为连锁店且距离较近、不同门店名称类似所产生的误去重的可能,为了降低甚至避免误去重的可能,可引入门店类型相似度来提高门店去重的准确性。可根据第一门店名称,得到第一门店名称信息;将第一门店名称信息输入第二模型,得到第二模型输出的目标门店的门店类型概率向量;在存量数据库中查找与第二门店名称对应的门店类型概率向量;计算目标门店的门店类型概率向量与第二门店名称对应的门店类型概率向量的相似度,将相似度确定为目标门店与位于目标网格区域和邻居网格区域的存量门店的门店类型相似度。
第二模型用于根据输入的门店名称信息输出门店类型概率向量。门店类型概率向量用于表征门店名称指示的门店属于各门店类型的概率。门店类型概率向量中的每个元素可表征门店属于一门店类型的概率,可将门店类型概率向量中表征的概率最大元素对应的门店类型确定为该门店的门店类型。门店类型概率向量可为长度为M的归一化向量,但并不限于此。可预先获取一定数量的具有标注的门店名称和门店类型作为训练集,如<XXXX1(B1地区店),超市>、<YYYY2(B2地区店),咖啡厅>,其中,XXXX1(B1地区店)和YYYY2(B2地区店)为门店名称,超市和咖啡厅为门店类型。利用训练集训练得到第二模型。第二模型可包括分类模型,可为深度学习分类模型或其他类型的分类模型,在此并不限定。例如,可利用BERT模型,将“[CLS]+某一门店名称对应的数字序列”作为输入,训练第二模型,使第二模型可拟合该门店名称与门店类型之间的对应关系,即,使第二模型可根据输入输出该门店名称的门店类型概率向量。
第一门店名称信息基于第一门店名称得到,可为第一门店名称,也可为第一门店名称经处理后的信息,如数字序列,门店名称转化为数字序列的方式可参见上述实施例中的相关说明,在此不再赘述。第二门店名称对应的门店类型概率向量包括位于目标网格区域和邻居网格区域的存量门店对应的门店类型概率向量。在一些示例中,目标门店的门店类型概率向量与第二门店名称对应的门店类型概率向量的相似度可为两门店类型概率向量的余弦相似度。
为了进一步缩短门店去重处理所需的时间,可预先根据各存量门店的门店名称,得到存量门店的门店类型概率向量,以便于需要计算门店类型相似度时,直接从存量门店数据库中获取。具体地,可获取存量门店的门店名称,根据门店名称,得到门店名称信息;将存量门店的门店名称信息输入第二模型,得到第二模型输出的存量门店的门店类型概率向量;建立存量门店和存量门店的门店类型概率向量的第二对应关系,并将第二对应关系存储于存量门店数据库。在计算门店类型相似度时,可根据第二对应关系,在存量门店数据库中查找得到第二门店名称对应的门店类型概率向量。
在步骤S1042中,基于第一门店位置信息和第二门店位置信息,得到目标门店与位于目标网络区域和邻居网格区域的存量门店的位置相似度。
位置相似度为与门店位置信息相关的相似度,可基于第一门店位置信息和第二门店位置信息得到。位置相似度可根据两个门店位置信息指示的两个门店位置之间的距离和位置信息可能导致的偏差量确定。具体地,可根据第一门店位置信息和第二门店位置信息,得到目标门店与存量门店的地理距离;根据地理距离和位置偏差阈值的比值,得到目标门店与位于目标网络区域和邻居网格区域的存量门店的位置相似度。第一门店位置信息和第二门店位置信息可为定位坐标信息,如全球定位系统(Global Positioning System,GPS)坐标信息。若第一门店位置信息和第二门店位置信息为地址信息,则可将地址信息转换为坐标信息,如经纬度信息,再根据坐标信息确定目标门店与存量门店的地理距离。位置偏差阈值可为位置信息可能导致的偏差量的最大值。可利用地理距离和位置偏差阈值的比值进行归一化,从而得到位置相似度。例如,位置相似度可根据下式(1)得到:
在步骤S1043中,根据N个名称相关相似度、位置相似度以及对应的权重系数,计算得到目标相似度。
权重系数可作为指数或乘积系数参与目标相似度的计算,在此并不限定。在一些示例中,权重系数可作为指数参与目标相似度的计算,例如,名称相关相似度包括字符相似度、语义相似度和门店类型相似度,则目标相似度可根据下式(2)得到:
sim(目标门店,存量门店)=sim(字符)α×sim(语义)β×sim(类型)γ×sim(位置)δ
(2)
其中,sim(目标门店,存量门店)为目标相似度;sim(字符)为字符相似度;sim(语义)为语义相似度;sim(类型)为门店类型相似度;sim(位置)为位置相似度;α为字符相似度的权重系数;β为语义相似度的权重系数;γ为门店类型相似度的权重系数;δ为位置相似度的权重系数。在一些示例中,为了方便计算,可使α=β=γ=δ=1。
为了便于理解,下面以一示例对门店去重处理方法进行说明。在该示例中,名称相关相似度包括字符相似度、语义相似度和门店类型相似度。
获取目标门店的门店名称和门店地址,将门店地址转换为经纬度坐标,转换得到的经纬度坐标为{30.193,120.173}。利用网格编码算法,计算得到目标门店所在网格区域即目标网格区域的网格编码为wtm7y8e。邻居网格区域的网格编码的前6位字符与目标网格区域的网格编码的前6位字符相同,可利用如图4所示的编码表得到8个邻居网格区域的网格编码。8个邻居网格区域的网格编码分别为wtm7y82、wtm7y83、wtm7y84、wtm7y8W、wtm7y8R、wtm7y8S、wtm7y8D和wtm7y8F。在存量门店数据库中查询,确定目标网格区域中具有158个存量门店,网格编码为wtm7y82的邻居网格区域中具有0个存量门店,网格编码为wtm7y83的邻居网格区域中具有4个存量门店,网格编码为wtm7y84的邻居网格区域中具有1个存量门店,网格编码为wtm7y8W的邻居网格区域中具有0个存量门店,网格编码为wtm7y8R的邻居网格区域中具有18个存量门店,网格编码为wtm7y8S的邻居网格区域中具有1个存量门店,网格编码为wtm7y8D的邻居网格区域中具有0个存量门店,网格编码为wtm7y8F的邻居网格区域中具有0个存量门店。即,目标网格区域和邻居网格区域中共具有181个存量门店。需计算得到目标门店与目标网格区域和邻居网格区域中每一个存量门店的目标相似度。
下面以目标门店与其中一个存量门店的目标相似度的计算为例进行说明。目标门店的门店名称为“X1X2(杭州市滨江宝龙城市广场店)”,存量门店名称为“杭州市滨江区X3X4便利店”,其中,X1、X2、X3和X4均为汉字,且是不同的汉字。
可使用分词工具对目标门店和存量门店的门店名称进行切分,得到目标门店对应的词汇和存量门店对应的词汇。目标门店对应的词汇包括`X1X2`、`(`、`杭州市`、`滨江`、`宝龙`、`城市`、`广场`、`店`和`)`。存量门店对应的词汇包括`杭州市`、`滨江区`、`X3X4`和`便利店`。计算各词汇的词频和逆文本频率指数,上述词汇中`(`、`杭州市`和`)`的词频和逆文本频率指数不符合词频低于等于冗余词频阈值且逆文本频率指数大于冗余频率指数阈值的条件,因此舍弃词汇`(`、`杭州市`和`)`。舍弃词汇`(`、`杭州市`和`)`后,目标门店对应的选取的词汇组合后为“X1X2滨江宝龙城市广场店”,存量门店对应的选取的词汇组合后为“滨江区X3X4便利店”。利用上述BLEU算法计算字符相似度,“X1X2滨江宝龙城市广场店”包含11个1-gram,“滨江区X3X4便利店”包含8个1-gram,分别计算两者的1-gram的共现次数,可知`滨`、`江`和`店`三个1-gram分别共现一次,因此,“X1X2滨江宝龙城市广场店”和“滨江区X3X4便利店”的字符相似度为(3/11+3/8)/2≈0.32。
可将“X1X2(杭州市滨江宝龙城市广场店)”转化为数字序列[0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15],将“杭州市滨江区X3X4便利店”转化为数字序列[3,4,5,6,7,16,17,18,19,20,14],相同的汉字对应的数字相同。将上述两个数字序列和[CLS]以及[SEP]拼接,组合为单个向量,并输入第一模型,得到第一模型输出的两者的语义相似度。
可将“X1X2(杭州市滨江宝龙城市广场店)”和“杭州市滨江区X3X4便利店”转换得到的两个数字序列分别输入第二模型,得到目标门店的门店类型概率向量和存量门店的门店类型概率向量。目标门店和存量门店在“购物”、“超市”、“便利店”三个门店类型维度上的元素的值比较高,基于目标门店的门店类型概率向量和存量门店的门店类型概率向量得到的门店类型相似度表征的门店类型比较接近。
基于目标门店的门店位置信息和存量门店的门店位置信息,确定两者的地理距离为285米,根据该地理距离和位置偏差阈值可计算得到位置相似度为0.8585。
设去重相似度阈值为0.6,对于目标门店和存量门店,利用上述式(2)计算得到的目标相似度小于0.6,可确定目标门店和存量门店不是同一门店。
需要说明的是,本申请实施例中对信息、数据的获取、存储、使用、处理等均得到用户或相关机构的授权,符合国家法律法规的相关规定。
本申请第二方面提供一种门店去重处理装置。图6为本申请一实施例提供的门店去重处理装置的结构示意图。如图6所示,该门店去重处理装置300可包括第一获取模块301、网格区域确定模块302、第二获取模块303、计算模块304和去重模块305。
第一获取模块301可用于获取目标门店的第一门店名称和第一门店位置信息。
网格区域确定模块302可用于根据第一门店位置信息,确定目标门店所在的目标网格区域。
第二获取模块303可用于在预存的存量门店数据库中,获取位于目标网格区域和邻居网格区域的存量门店的第二门店名称和第二门店位置信息。
邻居网格区域与目标网格区域相邻。
计算模块304可用于基于第一门店名称、第一门店位置信息、第二门店名称和第二门店位置信息,得到目标门店与位于目标网格区域和邻居网格区域的存量门店的目标相似度。
去重模块305可用于在目标相似度大于等于预设的去重相似度阈值的情况下,将目标门店作为重复门店去除。
在本申请实施例中,可根据目标门店的门店位置信息,确定目标门店所在的网格区域。网格区域为地图中划分的区域。基于数据库中位于目标门店所在的目标网格区域的存量门店、目标网格区域周边的网格区域的存量门店以及目标门店的门店名称、门店位置信息,得到目标门店与存量门店的相似度,根据该相似度判断新获取的门店是否与存量门店为同一门店,若新获取的门店与存量门店为同一门店,则认为新获取的门店为重复门店,予以去除。该去重过程不需人工参与,且利用门店的位置可缩小用于比对的存量门店的范围,提高了门店去重处理的效率。
而且,除了比对目标门店与目标网格区域中的存量门店以外,还比对目标门店与邻居网格区域中的存量门店,避免漏查位于目标网格区域的边界附近与目标门店为同一门店的存量门店,进一步提高门店去重处理的全面性和准确性。
在一些实施例中,网格区域具有网格编码。门店去重处理装置200还可包括邻居网格区域确定模块。
在一些示例中,邻居网格区域确定模块可用于:获取目标网格区域的网格编码;根据目标网格区域的网格编码和网格编码逆算法,获取目标网格区域的顶点的位置信息;根据目标网格区域的顶点的位置信息,确定位于邻居网格区域中辅助点的位置信息;基于每个邻居网格区域中辅助点的位置信息和网格编码算法,计算得到每个邻居网格区域的网格编码,以确定邻居网格区域。
在一些示例中,相邻的网格区域的网格编码中一部分数位的值相同。邻居网格区域确定模块可用于:获取目标网格区域的网格编码;根据目标网格区域的网格编码,获取候选网格区域的网格编码,候选网格区域包括网格编码中一部分数位的字符与目标网格区域的网格编码中一部分数位的字符相同的网格区域;按照网格编码算法中的网格区域排布与编码数位的字符的对应关系,在候选网格区域的网格编码中确定邻居网格区域的网格编码,以确定邻居网格区域。
在一些实施例中,门店去重装置200还可包括第一预处理模块。第一预处理模块可用于:将地图划分为多个网格区域,并利用网格编码算法,为每个网格区域分配网格编码;获取存量门店的门店位置信息,根据存量门店的门店位置信息,确定存量门店所在的网格区域;建立存量门店和存量门店所在的网格区域的网格编码的第一对应关系,并将第一对应关系存储于存量门店数据库。
在一些实施例中,计算模块304可用于:基于第一门店名称和第二门店名称,得到目标门店与位于目标网格区域和邻居网格区域的存量门店的N个名称相关相似度,N为大于等于1的整数;基于第一门店位置信息和第二门店位置信息,得到目标门店与位于目标网络区域和邻居网格区域的存量门店的位置相似度;根据N个名称相关相似度、位置相似度以及对应的权重系数,计算得到目标相似度。
在一些示例中,名称相关相似度包括字符相似度。计算模块304可用于:对第一门店名称和第二门店名称分别进行分词,得到第一门店名称对应的词汇和第二门店名称对应的词汇;计算第一门店名称对应的词汇和第二门店名称对应的词汇的词频和逆文本频率指数;选取词频低于等于冗余词频阈值且逆文本频率指数大于冗余频率指数阈值的词汇;基于选取的第一门店名称对应的词汇和选取的第二门店名称对应的词汇,得到目标门店与位于目标网格区域和邻居网格区域的存量门店的字符相似度。
在一些示例中,名称相关相似度包括语义相似度。计算模块304可用于:将第一门店名称和第二门店名称分别转化为第一名称数字序列和第二名称数字序列;将第一名称数字序列和第二名称数字序列输入第一模型,得到第一模型输出的目标门店与位于目标网格区域和邻居网格区域的存量门店的语义相似度,第一模型用于根据输入的两个门店名称转化为的数字序列输出两个门店名称的语义相似度。
在一些示例中,名称相关相似度包括门店类型相似度。计算模块304可用于:根据第一门店名称,得到第一门店名称信息;将第一门店名称信息输入第二模型,得到第二模型输出的目标门店的门店类型概率向量,第二模型用于根据输入的门店名称信息输出门店类型概率向量,门店类型概率向量用于表征门店名称指示的门店属于各门店类型的概率;在存量数据库中查找与第二门店名称对应的门店类型概率向量;计算目标门店的门店类型概率向量与第二门店名称对应的门店类型概率向量的相似度,将相似度确定为目标门店与位于目标网格区域和邻居网格区域的存量门店的门店类型相似度。
在一些示例中,计算模块304可用于:根据第一门店位置信息和第二门店位置信息,得到目标门店与存量门店的地理距离;根据地理距离和位置偏差阈值的比值,得到目标门店与位于目标网络区域和邻居网格区域的存量门店的位置相似度。
在一些实施例中,门店去重处理装置还可包括第二预处理模块。第二预处理模块可用于:获取存量门店的门店名称,根据门店名称,得到门店名称信息;将存量门店的门店名称信息输入第二模型,得到第二模型输出的存量门店的门店类型概率向量;建立存量门店和存量门店的门店类型概率向量的第二对应关系,并将第二对应关系存储于存量门店数据库。
本申请第三方面提供一种门店去重处理设备。图7为本申请一实施例提供的门店去重处理设备的结构示意图。如图7所示,门店去重处理设备400包括存储器401、处理器402及存储在存储器401上并可在处理器402上运行的计算机程序。
在一些示例中,上述处理器402可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器401可包括只读存储器(Read-Only Memory,ROM),随机存取存储器(RandomAccess Memory,RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本申请实施例中门店去重处理方法所描述的操作。
处理器402通过读取存储器401中存储的可执行程序代码来运行与可执行程序代码对应的计算机程序,以用于实现上述实施例中的门店去重处理方法。
在一些示例中,门店去重处理设备400还可包括通信接口403和总线404。其中,如图7所示,存储器401、处理器402、通信接口403通过总线404连接并完成相互间的通信。
通信接口403,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。也可通过通信接口403接入输入设备和/或输出设备。
总线404包括硬件、软件或两者,将门店去重处理设备400的部件彼此耦接在一起。举例来说而非限制,总线404可包括加速图形端口(Accelerated Graphics Port,AGP)或其他图形总线、增强工业标准架构(Enhanced Industry Standard Architecture,EISA)总线、前端总线(Front Side Bus,FSB)、超传输(Hyper Transport,HT)互连、工业标准架构(Industry Standard Architecture,ISA)总线、无限带宽互连、低引脚数(Low pin count,LPC)总线、存储器总线、微信道架构(Micro Channel Architecture,MCA)总线、外围组件互连(Peripheral Component Interconnect,PCI)总线、PCI-Express(PCI-E)总线、串行高级技术附件(Serial Advanced Technology Attachment,SATA)总线、视频电子标准协会局部(Video Electronics Standards Association Local Bus,VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线404可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
本申请第四方面提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序指令,该计算机程序指令被处理器执行时可实现上述实施例中的门店去重处理方法,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,上述计算机可读存储介质可包括非暂态计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等,在此并不限定。
本申请实施例提供一种计算机程序产品,该计算机程序产品中的指令由电子设备的处理器执行时,使得电子设备可执行上述实施例中的门店去重处理方法,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要明确的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。对于装置实施例、设备实施例、计算机可读存储介质实施例、计算机程序产品实施例而言,相关之处可以参见方法实施例的说明部分。本申请并不局限于上文所描述并在图中示出的特定步骤和结构。本领域的技术人员可以在领会本申请的精神之后,作出各种改变、修改和添加,或者改变步骤之间的顺序。并且,为了简明起见,这里省略对已知方法技术的详细描述。
上面参考根据本申请的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
本领域技术人员应能理解,上述实施例均是示例性而非限制性的。在不同实施例中出现的不同技术特征可以进行组合,以取得有益效果。本领域技术人员在研究附图、说明书及权利要求书的基础上,应能理解并实现所揭示的实施例的其他变化的实施例。在权利要求书中,术语“包括”并不排除其他装置或步骤;数量词“一个”不排除多个;术语“第一”、“第二”用于标示名称而非用于表示任何特定的顺序。权利要求中的任何附图标记均不应被理解为对保护范围的限制。权利要求中出现的多个部分的功能可以由一个单独的硬件或软件模块来实现。某些技术特征出现在不同的从属权利要求中并不意味着不能将这些技术特征进行组合以取得有益效果。
Claims (12)
1.一种门店去重处理方法,其特征在于,包括:
获取目标门店的第一门店名称和第一门店位置信息;
根据所述第一门店位置信息,确定所述目标门店所在的目标网格区域;
在预存的存量门店数据库中,获取位于所述目标网格区域和邻居网格区域的存量门店的第二门店名称和第二门店位置信息,所述邻居网格区域与所述目标网格区域相邻;
基于所述第一门店名称、所述第一门店位置信息、所述第二门店名称和所述第二门店位置信息,得到所述目标门店与位于所述目标网格区域和所述邻居网格区域的存量门店的目标相似度;
在所述目标相似度大于等于预设的去重相似度阈值的情况下,将所述目标门店作为重复门店去除;
其中,网格区域具有网格编码,
在所述在预存的存量门店数据库中,获取位于所述目标网格区域和邻居网格区域的存量门店的第二门店名称和第二门店位置信息之前,还包括:
获取所述目标网格区域的网格编码;
根据所述目标网格区域的网格编码和网格编码逆算法,获取所述目标网格区域的顶点的位置信息;
根据所述目标网格区域的顶点的位置信息,确定位于所述邻居网格区域中辅助点的位置信息;
基于每个所述邻居网格区域中辅助点的位置信息和网格编码算法,计算得到每个所述邻居网格区域的网格编码,以确定所述邻居网格区域。
2.根据权利要求1所述的方法,其特征在于,相邻的网格区域的网格编码中一部分数位的值相同,
在所述在预存的存量门店数据库中,获取位于所述目标网格区域和邻居网格区域的存量门店的第二门店名称和第二门店位置信息之前,还包括:
获取所述目标网格区域的网格编码;
根据所述目标网格区域的网格编码,获取候选网格区域的网格编码,所述候选网格区域包括网格编码中一部分数位的字符与所述目标网格区域的网格编码中一部分数位的字符相同的网格区域;
按照网格编码算法中的网格区域排布与编码数位的字符的对应关系,在所述候选网格区域的网格编码中确定所述邻居网格区域的网格编码,以确定所述邻居网格区域。
3.根据权利要求1所述的方法,其特征在于,还包括:
将地图划分为多个网格区域,并利用网格编码算法,为每个网格区域分配网格编码;
获取所述存量门店的门店位置信息,根据所述存量门店的门店位置信息,确定所述存量门店所在的网格区域;
建立所述存量门店和存量门店所在的网格区域的网格编码的第一对应关系,并将第一对应关系存储于所述存量门店数据库。
4.根据权利要求1所述的方法,其特征在于,所述基于所述第一门店名称、所述第一门店位置信息、所述第二门店名称和所述第二门店位置信息,得到所述目标门店与位于所述目标网格区域和所述邻居网格区域的存量门店的目标相似度,包括:
基于所述第一门店名称和所述第二门店名称,得到所述目标门店与位于所述目标网格区域和所述邻居网格区域的存量门店的N个名称相关相似度,N为大于等于1的整数;
基于所述第一门店位置信息和所述第二门店位置信息,得到所述目标门店与位于所述目标网格区域和所述邻居网格区域的所述存量门店的位置相似度;
根据N个所述名称相关相似度、所述位置相似度以及对应的权重系数,计算得到所述目标相似度。
5.根据权利要求4所述的方法,其特征在于,所述名称相关相似度包括字符相似度,
所述基于所述第一门店名称和所述第二门店名称,得到所述目标门店与位于所述目标网格区域和所述邻居网格区域的存量门店的N个名称相关相似度,包括:
对所述第一门店名称和所述第二门店名称分别进行分词,得到所述第一门店名称对应的词汇和所述第二门店名称对应的词汇;
计算所述第一门店名称对应的词汇和所述第二门店名称对应的词汇的词频和逆文本频率指数;
选取词频低于等于冗余词频阈值且逆文本频率指数大于冗余频率指数阈值的词汇;
基于选取的所述第一门店名称对应的词汇和选取的所述第二门店名称对应的词汇,得到所述目标门店与位于所述目标网格区域和所述邻居网格区域的所述存量门店的所述字符相似度。
6.根据权利要求4所述的方法,其特征在于,所述名称相关相似度包括语义相似度,
所述基于所述第一门店名称和所述第二门店名称,得到所述目标门店与位于所述目标网格区域和所述邻居网格区域的存量门店的N个名称相关相似度,包括:
将所述第一门店名称和所述第二门店名称分别转化为第一名称数字序列和第二名称数字序列;
将所述第一名称数字序列和所述第二名称数字序列输入第一模型,得到所述第一模型输出的所述目标门店与位于所述目标网格区域和所述邻居网格区域的所述存量门店的语义相似度,所述第一模型用于根据输入的两个门店名称转化为的数字序列输出两个门店名称的语义相似度。
7.根据权利要求4所述的方法,其特征在于,所述名称相关相似度包括门店类型相似度,
所述基于所述第一门店名称和所述第二门店名称,得到所述目标门店与位于所述目标网格区域和所述邻居网格区域的存量门店的N个名称相关相似度,包括:
根据第一门店名称,得到第一门店名称信息;
将所述第一门店名称信息输入第二模型,得到所述第二模型输出的所述目标门店的门店类型概率向量,所述第二模型用于根据输入的门店名称信息输出门店类型概率向量,门店类型概率向量用于表征门店名称指示的门店属于各门店类型的概率;
在所述存量门店数据库中查找与所述第二门店名称对应的门店类型概率向量;
计算所述目标门店的门店类型概率向量与所述第二门店名称对应的门店类型概率向量的相似度,将所述相似度确定为所述目标门店与位于所述目标网格区域和所述邻居网格区域的存量门店的所述门店类型相似度。
8.根据权利要求7所述的方法,其特征在于,还包括:
获取所述存量门店的门店名称,根据门店名称,得到门店名称信息;
将所述存量门店的门店名称信息输入所述第二模型,得到所述第二模型输出的所述存量门店的门店类型概率向量;
建立所述存量门店和所述存量门店的门店类型概率向量的第二对应关系,并将第二对应关系存储于所述存量门店数据库。
9.根据权利要求4所述的方法,其特征在于,所述基于所述第一门店位置信息和所述第二门店位置信息,得到所述目标门店与位于所述目标网格区域和所述邻居网格区域的所述存量门店的位置相似度,包括:
根据所述第一门店位置信息和所述第二门店位置信息,得到所述目标门店与所述存量门店的地理距离;
根据所述地理距离和位置偏差阈值的比值,得到所述目标门店与位于所述目标网格区域和所述邻居网格区域的所述存量门店的所述位置相似度。
10.一种门店去重处理装置,其特征在于,包括:
第一获取模块,用于获取目标门店的第一门店名称和第一门店位置信息;
网格区域确定模块,用于根据所述第一门店位置信息,确定所述目标门店所在的目标网格区域;
第二获取模块,用于在预存的存量门店数据库中,获取位于所述目标网格区域和邻居网格区域的存量门店的第二门店名称和第二门店位置信息,所述邻居网格区域与所述目标网格区域相邻;
计算模块,用于基于所述第一门店名称、所述第一门店位置信息、所述第二门店名称和所述第二门店位置信息,得到所述目标门店与位于所述目标网格区域和所述邻居网格区域的存量门店的目标相似度;
去重模块,用于在所述目标相似度大于等于预设的去重相似度阈值的情况下,将所述目标门店作为重复门店去除;
其中,网格区域具有网格编码,所述门店去重处理装置还包括邻居网格区域确定模块,所述邻居网格区域确定模块用于:获取所述目标网格区域的网格编码;根据所述目标网格区域的网格编码和网格编码逆算法,获取所述目标网格区域的顶点的位置信息;根据所述目标网格区域的顶点的位置信息,确定位于所述邻居网格区域中辅助点的位置信息;基于每个所述邻居网格区域中辅助点的位置信息和网格编码算法,计算得到每个所述邻居网格区域的网格编码,以确定所述邻居网格区域。
11.一种门店去重处理设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1至9中任意一项所述的门店去重处理方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1至9中任意一项所述的门店去重处理方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210957641.0A CN115392955B (zh) | 2022-08-10 | 2022-08-10 | 门店去重处理方法、装置、设备及存储介质 |
TW112101633A TWI847497B (zh) | 2022-08-10 | 2023-01-13 | 門店去重處理方法、裝置、設備及存儲介質 |
PCT/CN2023/074805 WO2024031943A1 (zh) | 2022-08-10 | 2023-02-07 | 门店去重处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210957641.0A CN115392955B (zh) | 2022-08-10 | 2022-08-10 | 门店去重处理方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115392955A CN115392955A (zh) | 2022-11-25 |
CN115392955B true CN115392955B (zh) | 2024-03-01 |
Family
ID=84119080
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210957641.0A Active CN115392955B (zh) | 2022-08-10 | 2022-08-10 | 门店去重处理方法、装置、设备及存储介质 |
Country Status (3)
Country | Link |
---|---|
CN (1) | CN115392955B (zh) |
TW (1) | TWI847497B (zh) |
WO (1) | WO2024031943A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115392955B (zh) * | 2022-08-10 | 2024-03-01 | 中国银联股份有限公司 | 门店去重处理方法、装置、设备及存储介质 |
CN115797109B (zh) * | 2023-01-30 | 2023-05-05 | 北京四方启点科技有限公司 | 一种不同供应商的酒店聚合方法、装置及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103559213A (zh) * | 2013-10-10 | 2014-02-05 | 河南大学 | 一种公路网高效空间最近邻查询方法 |
WO2017075268A1 (en) * | 2015-10-27 | 2017-05-04 | Abbott Laboratories | Troponin i and soluble urokinase receptor detection for determining the risk of cardiovascular disease |
CN107370702A (zh) * | 2016-05-11 | 2017-11-21 | 北京三星通信技术研究有限公司 | 一种通信系统中的信号发射、接收方法和装置 |
CN109947876A (zh) * | 2018-07-19 | 2019-06-28 | 北京大学 | 基于地理网格的倒损房屋编码标识方法和统计方法 |
CN109993184A (zh) * | 2017-12-30 | 2019-07-09 | 华为技术有限公司 | 一种数据融合的方法以及数据融合设备 |
CN110399569A (zh) * | 2019-07-19 | 2019-11-01 | 银联智策顾问(上海)有限公司 | 一种基于大数据评估土地价值的方法及评估装置 |
CN113220395A (zh) * | 2021-05-07 | 2021-08-06 | 王云鹏 | 一种基于地图显示的博物馆互动方法及系统 |
CN113806456A (zh) * | 2020-06-16 | 2021-12-17 | 华为技术有限公司 | 网格编码方法和装置 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6518974B2 (en) * | 1999-07-16 | 2003-02-11 | Intel Corporation | Pixel engine |
TW201501056A (zh) * | 2013-06-28 | 2015-01-01 | Oriental Inst Technology | 具有開店資訊lbs系統 |
CN105320657A (zh) * | 2014-05-30 | 2016-02-10 | 中国电信股份有限公司 | 兴趣点数据融合方法和系统 |
TW201612836A (en) * | 2014-09-26 | 2016-04-01 | Mercuries Data Systems Ltd | Method of fast estimation for developing a store in a city in accordance with magnetic distance |
KR102060991B1 (ko) * | 2019-04-19 | 2019-12-31 | 한국전력공사 | 상업시설의 영업정보 제공 시스템 및 방법 |
CN111597254B (zh) * | 2020-04-14 | 2023-07-21 | 口碑(上海)信息技术有限公司 | 资源数据的共享方法、装置及设备 |
CN113761867A (zh) * | 2020-12-29 | 2021-12-07 | 京东城市(北京)数字科技有限公司 | 地址识别方法、装置、计算机设备及存储介质 |
CN113642310B (zh) * | 2021-07-14 | 2022-04-19 | 广州市玄武无线科技股份有限公司 | 一种终端数据相似度度量方法 |
CN113706222B (zh) * | 2021-09-18 | 2023-12-22 | 口碑(上海)信息技术有限公司 | 一种门店选址的方法、装置 |
CN114328656A (zh) * | 2021-12-17 | 2022-04-12 | 中国银联股份有限公司 | 真实门店的验证方法、装置、设备及存储介质 |
CN114757712A (zh) * | 2022-04-29 | 2022-07-15 | 维沃移动通信有限公司 | 选址的推荐方法、装置、电子设备和可读存储介质 |
CN115392955B (zh) * | 2022-08-10 | 2024-03-01 | 中国银联股份有限公司 | 门店去重处理方法、装置、设备及存储介质 |
-
2022
- 2022-08-10 CN CN202210957641.0A patent/CN115392955B/zh active Active
-
2023
- 2023-01-13 TW TW112101633A patent/TWI847497B/zh active
- 2023-02-07 WO PCT/CN2023/074805 patent/WO2024031943A1/zh unknown
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103559213A (zh) * | 2013-10-10 | 2014-02-05 | 河南大学 | 一种公路网高效空间最近邻查询方法 |
WO2017075268A1 (en) * | 2015-10-27 | 2017-05-04 | Abbott Laboratories | Troponin i and soluble urokinase receptor detection for determining the risk of cardiovascular disease |
CN107370702A (zh) * | 2016-05-11 | 2017-11-21 | 北京三星通信技术研究有限公司 | 一种通信系统中的信号发射、接收方法和装置 |
CN109993184A (zh) * | 2017-12-30 | 2019-07-09 | 华为技术有限公司 | 一种数据融合的方法以及数据融合设备 |
CN109947876A (zh) * | 2018-07-19 | 2019-06-28 | 北京大学 | 基于地理网格的倒损房屋编码标识方法和统计方法 |
CN110399569A (zh) * | 2019-07-19 | 2019-11-01 | 银联智策顾问(上海)有限公司 | 一种基于大数据评估土地价值的方法及评估装置 |
CN113806456A (zh) * | 2020-06-16 | 2021-12-17 | 华为技术有限公司 | 网格编码方法和装置 |
CN113220395A (zh) * | 2021-05-07 | 2021-08-06 | 王云鹏 | 一种基于地图显示的博物馆互动方法及系统 |
Non-Patent Citations (1)
Title |
---|
基于压缩感知的无线传感器网络多目标定位算法研究;李咏伦;《中国优秀硕士学位论文全文数据库》(第3期);I136-893 * |
Also Published As
Publication number | Publication date |
---|---|
TWI847497B (zh) | 2024-07-01 |
TW202407602A (zh) | 2024-02-16 |
WO2024031943A1 (zh) | 2024-02-15 |
CN115392955A (zh) | 2022-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115392955B (zh) | 门店去重处理方法、装置、设备及存储介质 | |
CN110334162B (zh) | 地址识别方法及装置 | |
CN111767819B (zh) | 一种图像识别方法、装置、电子设备和计算机可读介质 | |
CN106528508A (zh) | 一种重复文本的判定方法和装置 | |
CN111209411B (zh) | 一种文档分析的方法及装置 | |
CN110222695A (zh) | 一种证件图片处理方法及装置、介质、电子设备 | |
US20240273555A1 (en) | Method, apparatus, device and storage medium for verifying real store | |
CN112307820A (zh) | 文本识别方法、装置、设备和计算机可读介质 | |
CN110837568A (zh) | 实体对齐方法及装置、电子设备、存储介质 | |
CN111651674B (zh) | 双向搜索方法、装置及电子设备 | |
CN111680506A (zh) | 数据库表的外键映射方法、装置、电子设备和存储介质 | |
CN117556079B (zh) | 遥感影像内容检索方法、装置、电子设备及介质 | |
CN110287943B (zh) | 图像的对象识别方法、装置、电子设备及存储介质 | |
CN113868379B (zh) | 面向开放域问答的段落选择方法、装置、设备及存储介质 | |
CN110705258A (zh) | 文本实体识别方法及装置 | |
CN114970490A (zh) | 一种文本标注数据的质检方法、装置、电子设备以及存储介质 | |
CN114782720A (zh) | 文案的配图确定方法、装置、电子设备、介质及程序产品 | |
CN113392859A (zh) | 一种确定城市功能区域的类型的方法及装置 | |
CN113887192B (zh) | 文本匹配方法、装置及存储介质 | |
CN113963339B (zh) | 一种信息提取方法和装置 | |
CN118171727B (zh) | 三元组的生成方法、装置、设备、介质及程序产品 | |
CN110674640B (zh) | 中文姓名获取方法、中文姓名提取模型的训练方法及装置 | |
US11631047B2 (en) | System and method of geocoding | |
CN116455866A (zh) | 对象间wifi关系的生成方法、装置、设备和存储介质 | |
CN115953224A (zh) | 商户匹配方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40077451 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |