CN118051646A - 门店名称重复检测方法和门店重复检测方法 - Google Patents

门店名称重复检测方法和门店重复检测方法 Download PDF

Info

Publication number
CN118051646A
CN118051646A CN202410134530.9A CN202410134530A CN118051646A CN 118051646 A CN118051646 A CN 118051646A CN 202410134530 A CN202410134530 A CN 202410134530A CN 118051646 A CN118051646 A CN 118051646A
Authority
CN
China
Prior art keywords
store
store name
character string
string
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410134530.9A
Other languages
English (en)
Inventor
唐永波
张志强
莫笛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Xiaodian Technology Co ltd
Original Assignee
Hangzhou Xiaodian Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Xiaodian Technology Co ltd filed Critical Hangzhou Xiaodian Technology Co ltd
Priority to CN202410134530.9A priority Critical patent/CN118051646A/zh
Publication of CN118051646A publication Critical patent/CN118051646A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种门店名称重复检测方法和门店重复检测方法,其中,该门店名称重复检测方法包括:基于分店名拆分,确定第一门店名称中的第一初始字符串,和第二门店名称中的第二初始字符串;其中,第一门店名称为待建档的门店名称,第二门店名称为已建档的门店名称;基于预设的干扰词识别规则,去除第一初始字符串中的干扰词,得到第一匹配字符串,去除第二初始字符串中的干扰词,得到第二匹配字符串;对第一匹配字符串和第二匹配字符串进行相似度计算,得到字符相似度;基于字符相似度,确定第一门店名称与第二门店名称的重复度。其能够基于分店名拆分、干扰词去除,实现以门店行业特性相关的判重检测,从而提高门店名称判重的准确度。

Description

门店名称重复检测方法和门店重复检测方法
技术领域
本申请涉及门店信息维护领域,特别是涉及门店名称重复检测方法和门店重复检测方法。
背景技术
在共享移动电源行业中,需要将共享移动电源分配至不同城市区域的商场或门店中,以供相应商场或门店的客户通过扫码租赁移动电源进行充电。在该种经营模式下,门店管理系统需要将门店信息与对应的共享移动电源和经营商家建立关系。在建立关系的过程中,首先需要在门店管理系统中录入实体门店对应的门店信息。
在进行门店信息录入时,首先需要进行门店判重检测。目前,往往采用MySQL模糊搜索,或者elasticsearch的分词和相关性评分来对门店名称进行判重检测和提示。其中,MySQL为关系型数据库管理系统,elasticsearch为分布式搜索和分析引擎。MySQL的模糊搜索,和elasticsearch的相似度判定,仅适用于通用文本层面的相似度检测,而无法基于不同门店的行业特性进行判重,因而判重检测的准确度较低。
针对相关技术中存在门店名称判重检测的准确度较低的问题,目前还没有提出有效的解决方案。
发明内容
在本实施例中提供了一种门店名称重复检测方法和门店重复检测方法,以解决相关技术中存在门店名称判重检测的准确度较低的问题。
第一个方面,在本实施例中提供了一种门店名称重复检测方法,包括:
基于分店名拆分,确定第一门店名称中的第一初始字符串,和第二门店名称中的第二初始字符串;其中,第一门店名称为待建档的门店名称,第二门店名称为已建档的门店名称;
基于预设的干扰词识别规则,去除第一初始字符串中的干扰词,得到第一匹配字符串,去除第二初始字符串中的干扰词,得到第二匹配字符串;
对第一匹配字符串和第二匹配字符串进行相似度计算,得到字符相似度;
基于字符相似度,确定第一门店名称与第二门店名称的重复度。
在其中的一些实施例中,在基于分店名拆分,确定第一门店名称中的第一初始字符串,和第二门店名称中的第二初始字符串之前,上述方法还包括:
根据门店类别信息和门店位置信息,从已建档的门店信息库中确定与待建档的第一门店信息匹配的第二门店信息;
获取第一门店信息的门店名称,得到第一门店名称;
获取第二门店信息的门店名称,得到第二门店名称。
在其中的一些实施例中,基于分店名拆分,确定第一门店名称中的第一初始字符串,和第二门店名称中的第二初始字符串,包括:
对第一门店名称进行分店名拆分,得到第一拆分结果;第一拆分结果包含第一店名字符串和第一分店名字符串;
对第二门店名称进行分店名拆分,得到第二拆分结果;第二拆分结果包含第二店名字符串和第二分店名字符串;
基于第一拆分结果与第二拆分结果的匹配结果,确定第一门店名称中的第一初始字符串,和第二门店名称中的第二初始字符串。
在其中的一些实施例中,基于第一拆分结果与第二拆分结果的匹配结果,确定第一门店名称中的第一初始字符串,和第二门店名称中的第二初始字符串,包括:
在基于第一拆分结果与第二拆分结果的匹配结果,确定第一店名字符串与第二店名字符串一致的情况下,将第一分店名字符串识别为第一初始字符串,将第二分店名字符串识别为第二初始字符串。
在其中的一些实施例中,基于第一拆分结果与第二拆分结果的匹配结果,确定第一门店名称中的第一初始字符串,和第二门店名称中的第二初始字符串,包括:
在基于第一拆分结果与第二拆分结果的匹配结果,确定第一店名字符串与第二店名字符串不一致的情况下,将第一店名字符串识别为第一初始字符串,将第二店名字符串识别为第二初始字符串。
在其中的一些实施例中,在基于第一拆分结果与第二拆分结果的匹配结果,确定第一门店名称中的第一初始字符串,和第二门店名称中的第二初始字符串之前,上述方法还包括:
在第一分店名字符串不为空,第二分店名字符串为空,且第二店名字符串包含第一分店名字符串的情况下,将第一分店名字符串赋值至第二分店名字符串,并从第二店名字符串中去除第一分店名字符串;
在第二分店名字符串不为空,第一分店名字符串为空,且第一店名字符串包含第二分店名字符串的情况下,将第二分店名字符串赋值至第一分店名字符串,并从第一店名字符串中去除第二分店名字符串。
在其中的一些实施例中,预设的干扰词识别规则包括:
将不属于预设语种文字且不属于数字的字符,和/或,门店补充信息,识别为干扰词。
在其中的一些实施例中,预设的干扰词识别规则包括:
分别识别第一初始字符串和第二初始字符串中表征门店业务信息的关键词;
在关键词仅分布于第一初始字符串的情况下,将第一初始字符串的关键词识别为干扰词;
在关键词仅分布于第二初始字符串的情况下,将第二初始字符串的关键词识别为干扰词;
在第一初始字符串和第二初始字符串包含重复的关键词的情况下,将重复的关键词识别为干扰词。
在其中的一些实施例中,对第一匹配字符串和第二匹配字符串进行相似度计算,得到字符相似度,包括:
确定第一匹配字符串和第二匹配字符串中的重复字符数;
确定第一匹配字符串和第二匹配字符串的字符总数;
根据重复字符数和字符总数,确定第一匹配字符串和第二匹配字符串的字符相似度。
第二个方面,在本实施例中提供了一种门店重复检测方法,包括:
基于上述第一个方面的门店名称重复检测方法,确定待建档的第一门店与已建档的第二门店之间的门店名称重复度;
获取第一门店关联的第一门店图像,和第二门店关联的第二门店图像;
确定第一门店图像和第二门店图像之间的图像相似度;
根据门店名称重复度和图像相似度,确定第一门店和第二门店的重复度。
第三个方面,在本实施例中提供了一种门店名称重复检测装置,包括:初始字符确定模块、去除模块、相似度计算模块以及重复度确定模块;其中:
初始字符确定模块,用于基于分店名拆分,确定第一门店名称中的第一初始字符串,和第二门店名称中的第二初始字符串;其中,第一门店名称为待建档的门店名称,第二门店名称为已建档的门店名称;
去除模块,用于基于预设的干扰词识别规则,去除第一初始字符串中的干扰词,得到第一匹配字符串,去除第二初始字符串中的干扰词,得到第二匹配字符串;
相似度计算模块,用于对第一匹配字符串和第二匹配字符串进行相似度计算,得到字符相似度;
重复度确定模块,用于至少基于字符相似度,确定第一门店名称与第二门店名称的重复度。
第四个方面,在本实施例中提供了一种电子装置,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述第一个方面的门店信息重复检测方法。
第五个方面,在本实施例中提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一个方面的门店信息重复检测方法。
与相关技术相比,在本实施例中提供了门店名称重复检测方法和门店重复检测方法。其中的门店名称重复检测方法,基于分店名拆分,确定第一门店名称中的第一初始字符串,和第二门店名称中的第二初始字符串;其中,第一门店名称为待建档的门店名称,第二门店名称为已建档的门店名称;基于预设的干扰词识别规则,去除第一初始字符串中的干扰词,得到第一匹配字符串,去除第二初始字符串中的干扰词,得到第二匹配字符串;对第一匹配字符串和第二匹配字符串进行相似度计算,得到字符相似度;基于字符相似度,确定第一门店名称与第二门店名称的重复度。其能够基于分店名拆分、干扰词去除,实现以门店行业特性相关的判重检测,从而提高门店名称判重的准确度。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本实施例的门店名称重复检测方法的终端的硬件结构框图;
图2是本实施例的门店名称重复检测方法的流程图;
图3是本实施例的门店重复检测方法的流程图;
图4是本申请实施例的门店信息建档方法的流程图;
图5是本申请实施例的又一种门店名称重复检测方法的流程图;
图6是本实施例的门店名称重复检测装置的结构框图。
具体实施方式
为更清楚地理解本申请的目的、技术方案和优点,下面结合附图和实施例,对本申请进行了描述和说明。
除另作定义外,本申请所涉及的技术术语或者科学术语应具有本申请所属技术领域具备一般技能的人所理解的一般含义。在本申请中的“一”、“一个”、“一种”、“该”、“这些”等类似的词并不表示数量上的限制,它们可以是单数或者复数。在本申请中所涉及的术语“包括”、“包含”、“具有”及其任何变体,其目的是涵盖不排他的包含;例如,包含一系列步骤或模块(单元)的过程、方法和系统、产品或设备并未限定于列出的步骤或模块(单元),而可包括未列出的步骤或模块(单元),或者可包括这些过程、方法、产品或设备固有的其他步骤或模块(单元)。在本申请中所涉及的“连接”、“相连”、“耦接”等类似的词语并不限定于物理的或机械连接,而可以包括电气连接,无论是直接连接还是间接连接。在本申请中所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。通常情况下,字符“/”表示前后关联的对象是一种“或”的关系。在本申请中所涉及的术语“第一”、“第二”、“第三”等,只是对相似对象进行区分,并不代表针对对象的特定排序。
在本实施例中提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。比如在终端上运行,图1是本实施例的门店名称重复检测方法的终端的硬件结构框图。如图1所示,终端可以包括一个或多个(图1中仅示出一个)处理器102和用于存储数据的存储器104,其中,处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置。上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述终端的结构造成限制。例如,终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示出的不同配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如在本实施例中的门店名称重复检测方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络包括终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(NetworkInterface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种门店名称重复检测方法,图2是本实施例的门店名称重复检测方法的流程图,如图2所示,该流程包括如下步骤:
步骤S210,基于分店名拆分,确定第一门店名称中的第一初始字符串,和第二门店名称中的第二初始字符串;其中,第一门店名称为待建档的门店名称,第二门店名称为已建档的门店名称。
其中,第一门店名称可以为待建档的第一门店信息中的门店名称;第二门店名称可以为预先匹配到的已建档的第二门店信息中的门店名称。可以首先从门店信息库中,筛选出预设范围内与待建档的第一门店信息匹配的多个第二门店信息。依次将第一门店名称与多个第二门店名称一一进行比对,确定该第一门店名称与不同的第二门店名称之间的字符相似度。上述预设范围可以为基于门店经营类型、门店地理位置、门店品牌或者其他根据实际应用场景确定的范围。
上述第一初始字符串,为从第一门店名称中提取出来需要进行字符相似度比对的字符串;第二初始字符串,为从第二门店名称中提取出来需要与第一初始字符串进行相似度比对的字符串。具体地,可以通过对第一门店名称进行分店名拆分,从中提取出表征店名的字符串作为第一店名字符串,提取出表征分店名的字符串作为第一分店名字符串。类似地,从第二门店名称中提取出表征店名的字符串作为第二店名字符串,提取出表征分店名的字符串作为第二分店名字符串。基于第一店名字符串与第二店名字符串的比对结果,从第一店名字符串和第一分店名字符串中选取一种字符串作为第一初始字符串,并从第二店名字符串和第二分店名字符串中选取一种字符串作为第二初始字符串。
其中,可以预先统计门店名称中,用于分割店名和分店名的通用字符,进而基于统计出的通用字符来进行分店名拆分。示例性地,可以基于中英文和不同类型的括号(例如大括号、中括号以及小括号)分别对第一门店名称和第二门店名称进行拆分,从而得到上述第一店名字符串、第一分店名字符串、第二店名字符串以及第二分店名字符串。可以理解地,对于不包含分店名的门店而言,上述第一分店名字符串、第二分店名字符串可以为空字符串。
基于此,本步骤通过考虑分店名的处理,能够将对门店名称的分析,从文本层面深入到门店行业特性层面,实现对行业因素的考虑,从而能够降低后续门店判重的误差。
步骤S220,基于预设的干扰词识别规则,去除第一初始字符串中的干扰词,得到第一匹配字符串,去除第二初始字符串中的干扰词,得到第二匹配字符串。
其中,可以将第一初始字符串和第二初始字符串中,对门店名称中实质内容的相似度识别存在干扰的词汇识别为干扰词,具体可以包括不具有文字表达含义的字符,对门店名称的含义不具有表达贡献的属于补充说明信息的字符等。此外,干扰词还可以包括第一初始字符串和第二初始字符串中在特定门店品类中区分度较低,但对文本相似度的判定干扰又过大的部分关键词字符。
通过将第一初始字符串和第二初始字符串中,对文本相似度判定存在干扰的字符去除,能够进一步引入行业因素,实现在门店名称的实质含义层面的相似度判定,从而避免在通用文本层面的相似度判定所存在的误判率高、漏洞大的问题,降低通用文本层面的干扰,提高后续字符相似度判定的准确度。
步骤S230,对第一匹配字符串和第二匹配字符串进行相似度计算,得到字符相似度。
具体地,对经过上述干扰词去除后得到的第一匹配字符串和第二匹配字符串进行字符相似度的计算。其中,既可以在整体字符串层面进行相似度的计算,也可以针对各个字符进行相似度的计算后,对于各个字符的相似度结果进行统计分析。例如,可以利用任意一种字符串相似度算法,确定第一匹配字符串和第二匹配字符串之间的相似度。另外,也可以根据实际应用场景,自行设置相似度计算规则进行计算。
特别地,在进行字符相似度的计算之前,还可以对第一匹配字符串和第二匹配字符串分别进行去重,对去重后的第一匹配字符串和去重后的第二匹配字符串进行字符相似度计算。
步骤S240,基于字符相似度,确定第一门店名称与第二门店名称的重复度。
具体地,可以根据上述计算得出的字符相似度,确定第一门店名称与第二门店名称之间的重复度,从而得到名称重复度的衡量指标。后续,可以与其他重复度指标结合,进行门店判重。
在相关技术中,往往使用elasticsearch进行文本分词相似度判断,或者基于MySQL模糊匹配确定与待建档的门店名称相似的已建档门店名称,其仅能解决通用文本层面的相似判定,无法排除部分行业通用描述文字对文本相似度的干扰,存在较高的判断误差。
相比于相关技术,本实施例不仅考虑门店名称在文本层面的相似度,更结合分店名拆分、干扰词去除将行业因素纳入相似度的判断,从而实现基于门店名称实质内容的相似度判断,减少判重误差,从而能够提高门店名称判重检测的准确度。
上述步骤S210至步骤S240,基于分店名拆分,确定第一门店名称中的第一初始字符串,和第二门店名称中的第二初始字符串;其中,第一门店名称为待建档的门店名称,第二门店名称为已建档的门店名称;基于预设的干扰词识别规则,去除第一初始字符串中的干扰词,得到第一匹配字符串,去除第二初始字符串中的干扰词,得到第二匹配字符串;对第一匹配字符串和第二匹配字符串进行相似度计算,得到字符相似度;基于字符相似度,确定第一门店名称与第二门店名称的重复度。其能够基于分店名拆分、干扰词去除,实现以门店行业特性相关的判重检测,从而提高门店名称判重的准确度。
在一个实施例中,基于上述步骤S210,在基于分店名拆分,确定第一门店名称中的第一初始字符串,和第二门店名称中的第二初始字符串之前,上述门店名称重复检测方法还可以包括:
根据门店类别信息和门店位置信息,从已建档的门店信息库中确定与待建档的第一门店信息匹配的第二门店信息;获取第一门店信息的门店名称,得到第一门店名称;获取第二门店信息的门店名称,得到第二门店名称。
首先,可以基于门店类别信息和门店位置信息,从已建档的门店信息库中筛选出与待建档的第一门店信息匹配的第二门店信息,从而缩小与第一门店名称进行比对的门店名称数量和范围。上述门店类别信息具体可以包括表征门店经营类别的门店品类信息、门店品牌信息。上述门店位置信息可以为门店所处的地理位置信息。例如,待建档的第一门店信息属于第一门店,则可以先过滤到距离待建档的第一门店若干公里范围外(例如5公里)的门店、与该第一门店品类不同的门店,之后,再从过滤后剩下的若干门店中,按照门店名称分词查询得到的相似度排序,取排序前若干位(例如前100位)的门店,得到若干个第二门店信息。
上述过滤的范围、确定的第二门店信息的数量均可以根据实际应用场景而设置,本实施例对此不作具体限定。具体地,可以利用elasticsearch来实现上述无关门店的过滤和分词查询。
在本实施例中,根据门店类别、位置等信息,对门店信息进行过滤,从而在基于门店名称进行判重判断之外,还兼容考虑门店辅助信息,能够进一步提高后续门店名称判重的准确度,并通过缩小判重比对范围来提高判重效率。
在一个实施例中,基于上述步骤S210,基于分店名拆分,确定第一门店名称中的第一初始字符串,和第二门店名称中的第二初始字符串,可以包括:
对第一门店名称进行分店名拆分,得到第一拆分结果;第一拆分结果包含第一店名字符串和第一分店名字符串;对第二门店名称进行分店名拆分,得到第二拆分结果;第二拆分结果包含第二店名字符串和第二分店名字符串;基于第一拆分结果与第二拆分结果的匹配结果,确定第一门店名称中的第一初始字符串,和第二门店名称中的第二初始字符串。
具体地,可以基于对第一门店名称的中英文字符的识别,和大括号、中括号以及小括号等字符的识别,从第一门店名称中拆分出店名字符串作为第一店名字符串,以及分店名字符串作为第一分店名字符串。基于对第二门店名称的中英文字符的识别,和大括号、中括号以及小括号等字符的识别,从第二门店名称中拆分出店名字符串作为第二店名字符串,以及分店名字符串作为第二分店名字符串。例如,若第一门店名称所包含的内容为“A品牌名(B位置店)”则通过分店名拆分后,得到“A品牌名”作为第一店名字符串,得到“B位置店”作为第一分店名字符串。其中,若第一门店名称中不含分店名,则第一分店名字符串为空;若第二门店名称中不含分店名,则第二分店名字符串为空。
之后,上述第一拆分结果与第二拆分结果的匹配结果,具体可以为根据第一店名字符串与第二店名字符串的比对情况。基于该比对情况,从第一店名字符串和第一分店名字符串中选取一种字符串作为第一初始字符串;从第二店名字符串和第二分店名字符串中选取一种字符串作为第二初始字符串。
其中,在一个实施例中,基于第一拆分结果与第二拆分结果的匹配结果,确定第一门店名称中的第一初始字符串,和第二门店名称中的第二初始字符串,可以包括:
在基于第一拆分结果与第二拆分结果的匹配结果,确定第一店名字符串与第二店名字符串一致的情况下,将第一分店名字符串识别为第一初始字符串,将第二分店名字符串识别为第二初始字符串。
也即,在拆分后第一店名字符串与第二店名字符串一致的情况下,则只需要考虑基于分店名来对第一门店名称进行判重,基于第一分店名字符串与第二分店名字符串的字符相似度,来作为门店判重的指标。其中,若第一分店名字符串和第二分店名字符串均为空,则可以确定第一门店名称与第二门店名称一致,确认存在已建档的与第一门店名称一致的门店名称。
另外地,在一个实施例中,基于第一拆分结果与第二拆分结果的匹配结果,确定第一门店名称中的第一初始字符串,和第二门店名称中的第二初始字符串,包括:
在基于第一拆分结果与第二拆分结果的匹配结果,确定第一店名字符串与第二店名字符串不一致的情况下,将第一店名字符串识别为第一初始字符串,将第二店名字符串识别为第二初始字符串。
在第一店名字符串与第二店名字符串不一致的情况下,则只需要基于店名来对门店名称进行判重,根据第一店名字符串与第二店名字符串之间的字符相似度来作为判重指标。
另外地,在一个实施例中,在基于第一拆分结果与第二拆分结果的匹配结果,确定第一门店名称中的第一初始字符串,和第二门店名称中的第二初始字符串之前,上述门店名称重复检测方法还可以包括:
在第一分店名字符串不为空,第二分店名字符串为空,且第二店名字符串包含第一分店名字符串的情况下,将第一分店名字符串赋值至第二分店名字符串,并从第二店名字符串中去除第一分店名字符串;在第二分店名字符串不为空,第一分店名字符串为空,且第一店名字符串包含第二分店名字符串的情况下,将第二分店名字符串赋值至第一分店名字符串,并从第一店名字符串中去除第二分店名字符串。
例如,第一店名字符串为T,第一分店名字符串为Tb,第二店名字符串为Y,第二分店名字符串为Yb。当Tb不为空且Yb为空,并且Y中包含Tb的情况下,令Yb=Tb,并且将Y中的Tb部分替换为空字符串。相应地,当Yb不为空且Tb为空,并且T中包含Yb的情况下,令Tb=Yb,并且将T中的Yb部分替换为空字符串。
此外,在一个实施例中,预设的干扰词识别规则包括:将不属于预设语种文字且不属于数字的字符,和/或,门店补充信息,识别为干扰词。预设语种可以为预先设定的中文、英文或者其他语种。例如,可以将第一初始字符串和第二初始字符串中,不属于中文字符和英文字符的,同时也不属于数字的其他字符识别为停用词,将该停用词作为其中一种类型的干扰词去除。上述门店补充信息,可以为省市区名等与门店名称无关的补充信息,将其识别为特殊词,该特殊词作为其中一种类型的干扰词进行去除。例如,若第一初始字符串为“X市Y区Z店”,第二初始字符串为“Z店”,则将第一初始字符串中的“X市Y区”作为特殊词进行移除。
另外地,预设的干扰词识别规则包括:分别识别第一初始字符串和第二初始字符串中表征门店业务信息的关键词;在关键词仅分布于第一初始字符串的情况下,将第一初始字符串的关键词识别为干扰词;在关键词仅分布于第二初始字符串的情况下,将第二初始字符串的关键词识别为干扰词;在第一初始字符串和第二初始字符串包含重复的关键词的情况下,将重复的关键词识别为干扰词。
例如,第一初始字符串为StrA,第二初始字符串为StrB。若StrA和StrB具有共同的关键词,也即重复的关键词,则需要从StrA和StrB同时移除掉重复的关键词。若仅StrA包含关键词,或者仅StrB包含关键词,则需要去除所包含的关键词。其中,上述关键词为表征门店业务信息的词汇,例如在不同店铺通用的“某某小吃”、“某某火锅”等。若StrA和StrB之间具有不同的关键词,则需要保留对应的关键词。
其中,在一个实施例中,可以先对第一初始字符串和第二初始字符串进行停用词移除,之后再进行上述关键词判定,对重复的关键词,或仅存在于其中一种字符串中的关键词进行移除,最后对特殊词进行移除,得到第一匹配字符串和第二匹配字符串。
还需说明的是,在一个实施例中,对第一匹配字符串和第二匹配字符串进行相似度计算,得到字符相似度,可以包括:
确定第一匹配字符串和第二匹配字符串中的重复字符数;确定第一匹配字符串和第二匹配字符串的字符总数;根据重复字符数和字符总数,确定第一匹配字符串和第二匹配字符串的字符相似度。
例如,计算出第一匹配字符串和第二匹配字符串之间的重复字符数为repeatCount,第二匹配字符串和第二匹配字符串合计的字符总数为totalCount,则以repeatCount与totalCount的比值(repeatCount/totalCount)×100%作为字符相似度的结果。其中,在进行字符相似度计算之前,还可以对第一匹配字符串和第二匹配字符串分别进行去重,并基于去重后的第一匹配字符串和去重后的第二匹配字符串进行字符相似度计算,以进一步提高字符相似度计算的准确度。
通过本实施例,能够实现准确的字符相似度的计算,从而为后续的门店判重提供准确的参考指标。
在一个实施例中,还提供了一种门店重复检测方法。图3为本实施例的门店重复检测方法的流程图,如图3所示,该门店重复检测方法包括如下步骤:
步骤S301,基于上述任意实施例提供的门店名称重复检测方法,确定待建档的第一门店与已建档的第二门店之间的门店名称重复度;
步骤S302,获取第一门店关联的第一门店图像,和第二门店关联的第二门店图像;
步骤S303,确定第一门店图像和第二门店图像之间的图像相似度;
步骤S304,根据门店名称重复度和图像相似度,确定第一门店和第二门店的重复度。
具体地,可以利用任意一种适用于图像相似度比对的图像识别算法,分别计算第一门店图像和第二门店图像的图像相似度,将其与字符相似度共同作为评估第一门店与第二门店的重复度的指标。其中,第一门店图像可以为第一门店的门头照,第二门店图像可以为第二门店的门头照。将门店名称重复度指标,与图像相似度指标一起,共同用于确定第一门店与第二门店之间的重复度。从而实现多维度的判重检测。例如,可以将门店名称重复度与门店图像相似度结合,作为门店重复度的共同衡量指标输出给用户,以便用户基于门店名称重复度度和门店图像相似度最终确定门店的重复度。或者,基于预设的重复度计算规则,将门店名称重复度与门店图像相似度等其他维度的相似度结合,计算出第一门店与第二门店的重复度。具体的重复度确定方式本实施例在此不作限定。
图4是本申请实施例的门店信息建档方法的流程图,如图4所示,该门店信息建档方法包括如下步骤:
步骤S401,根据待建档的第一门店名称,从已建档的门店信息库中进行门店名称的相似匹配,得到相似匹配结果;
步骤S402,判断相似匹配结果是否为公海数据;若是,则执行步骤S403;否则,执行步骤S404;
步骤S403,根据相似匹配结果确定公海门店,结束建档流程;
步骤S404,根据用户反馈判断是否继续建档;若是,则执行步骤S405;否则,执行步骤S413;其中,在确定相似匹配结果包含私海数据时,将私海数据反馈至用户,由用户进行门店创建核实,若经核实无需再针对相似门店进行建档,则反馈结束建档;否则,若经核实确认还需要针对相似门店进行建档,则反馈继续建档;
步骤S405,填充门店建档表单;其中,可以在门店建档表单中填入门店名称、门店品类、门店位置、门店坐标、负责人员联系信息以及门头照片等信息;
步骤S406,将填充好的表单提交至门店创建系统进行门店名称重复检测;其中,可以门店创建系统可以基于上述任意实施例提供的门店名称重复检测方法,对填充好的表单检测;
步骤S407,基于门店名称重建检测结果,判断门店信息库中是否存在重复度超出预设重复度阈值的第二门店信息;若是,则执行步骤S408;否则,执行步骤S412;
步骤S408,根据重复度判断是否需要提交人工审核,若是,则执行步骤S409;否则,执行步骤S410;
步骤S409,提交至人工审核,并执行步骤S411;
步骤S410,确认存在名称重复的门店,结束建档流程;
步骤S411,判断人工审核是否通过;若是,则执行步骤S412;否则,执行步骤S413;其中,人工审核可以基于实际应用场景确定是否需要继续建档,若是,则通过审核,否则,不通过审核;
步骤S412,根据上述表单新建门店;
步骤S413,结束建档流程。
上述步骤S401至步骤S413,能够基于分店名拆分、干扰词去除,实现以门店行业特性相关的判重检测,从而提高门店名称判重的准确度。
图5是本申请实施例的又一种门店名称重复检测方法的流程图,如图5所示,该门店名称重复检测方法包括如下步骤:
步骤S501,获取当前需要与第一门店名称进行比对的第二门店名称;其中,遍历基于elasticsearch根据第一门店信息匹配到的前100位已建档的第二门店信息,并依次将各个第二门店信息分别与第一门店信息进行比对;其中,第一门店名称为第一门店信息中的门店名称,第二门店名称为第二门店信息中的门店名称;根据门店品类信息、门店位置信息、门店品牌信息,利用elasticsearch从已建档的门店信息库中匹配第二门店信息;另外,若第一门店名称和/或第二门店名称为空,则对应将空字符串赋值给相应的门店名称的变量,若均不为空,则将其中输入的空格字符替换为空字符串;
步骤S502,对第一门店名称进行分店名拆分,得到第一店名字符串T和第一分店名字符串Tb,对第二门店名称进行分店名拆分,得到第二店名字符串Y和第二分店名字符串Yb;其中,若第一门店名称不包含分店名,则将Tb用空字符串代替,若第二门店名称不包含分店名,则将Yb用空字符串代替;
步骤S503,判断Tb是否不为空,Yb为空,且Y中包含Tb;若是,则执行步骤S504;否则,执行步骤S505;
步骤S504,令Yb=Tb,且将Y中的Tb用空字符串代替;执行步骤S506;
步骤S505,若Yb不为空,Tb为空,且T中包含Yb,则令Tb=Yb,且将T中的Yb用空字符串代替;执行步骤S506;
步骤S506,判断T与Y是否一致,且Tb和Yb均不为空;若是,则执行步骤S507;否则,执行步骤S508;
步骤S507,令Tb为第一初始字符串,令Yb为第二初始字符串;执行步骤S509,
步骤S508,若T与Y不一致,则令T为第一初始字符串,令Y为第二初始字符串;执行步骤S509;
步骤S509,对第一初始字符串分词后进行停用词移除得到第一字符列表,遍历第一字符列表查找关键词得到第一关键词键值对,对第二初始字符串分词后进行停用词移除得到第二字符列表,遍历第二字符列表查找关键词得到第二关键词键值对;其中,遍历第一字符列表查找关键词,对查找到的关键词进行分词后,以关键词为键,以固定数值1为值建立键值对,得到第一关键词键值对,并基于与第一关键词键值对获取的相似处理得到第二关键词键值对;
步骤S510,根据第一关键词键值对和第二关键词键值对判断第一字符列表和第二字符列表是否存在重复的关键词;若是,则执行步骤S511;否则,执行步骤S512;
步骤S511,将第一初始字符串和第二初始字符串中重复的关键词移除;其中,遍历第一关键词键值对和第二关键词键值对,将同时存在于第一关键词键值对和第二关键词键值对中的关键词判定为重复的关键词,在第一初始字符串和第二初始字符串中用空字符串进行代替重复的关键词,并从第一关键词键值对和第二关键词键值对中移除;
步骤S512,若仅第一初始字符串中存在关键词,则移除第一初始字符串中的关键词;若仅第二初始字符串中存在关键词,则移除第二初始字符串中的关键词;
步骤S513,对完成停用词和关键词处理的第一初始字符串和第二初始字符串进行特殊词处理,得到第一匹配字符串和第二匹配字符串;其中,分别移除第一初始字符串和第二初始字符串中的特殊词;
步骤S514,分别对第一匹配字符串和第二匹配字符串进行规范化处理和去重;其中,规范化处理包括:将字符串中的英文字母替换为小写、阿拉伯数字替换为中文中对应的大写汉字;去重处理包括对第一匹配字符串和第二匹配字符串中的每个字符进行去重;
步骤S515,计算第一匹配字符串中与第二匹配字符串一致的字符串数量,得到重复字符数;计算第一匹配字符串数量和第二匹配字符串数量的相加总数,得到字符总数;
步骤S516,基于重复字符数与字符总数的比值得到字符相似度。
上述步骤S501至步骤S516,其能够基于分店名拆分、干扰词去除,实现以门店行业特性相关的判重检测,从而提高门店名称判重的准确度。
在本实施例中还提供了一种门店名称重复检测装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。以下所使用的术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图6是本实施例的门店名称重复检测装置60的结构框图,如图6所示,该门店名称重复检测装置60包括:初始字符确定模块62、去除模块64、相似度计算模块66以及重复度确定模块68;其中:
所述初始字符确定模块62,用于基于分店名拆分,确定第一门店名称中的第一初始字符串,和第二门店名称中的第二初始字符串;其中,所述第一门店名称为待建档的门店名称,所述第二门店名称为已建档的门店名称;所述去除模块64,用于基于预设的干扰词识别规则,去除所述第一初始字符串中的干扰词,得到第一匹配字符串,去除所述第二初始字符串中的干扰词,得到第二匹配字符串;所述相似度计算模块66,用于对所述第一匹配字符串和所述第二匹配字符串进行相似度计算,得到字符相似度;所述重复度确定模块68,用于至少基于所述字符相似度,确定所述第一门店名称与所述第二门店名称的重复度。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
在本实施例中还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,基于分店名拆分,确定第一门店名称中的第一初始字符串,和第二门店名称中的第二初始字符串;其中,第一门店名称为待建档的门店名称,第二门店名称为已建档的门店名称;
S2,基于预设的干扰词识别规则,去除第一初始字符串中的干扰词,得到第一匹配字符串,去除第二初始字符串中的干扰词,得到第二匹配字符串;
S3,对第一匹配字符串和第二匹配字符串进行相似度计算,得到字符相似度;
S4,基于字符相似度,确定第一门店名称与第二门店名称的重复度。
需要说明的是,在本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,在本实施例中不再赘述。
此外,结合上述实施例中提供的门店名称重复检测方法,在本实施例中还可以提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种门店名称重复检测方法。
应该明白的是,这里描述的具体实施例只是用来解释这个应用,而不是用来对它进行限定。根据本申请提供的实施例,本领域普通技术人员在不进行创造性劳动的情况下得到的所有其它实施例,均属本申请保护范围。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
显然,附图只是本申请的一些例子或实施例,对本领域的普通技术人员来说,也可以根据这些附图将本申请适用于其他类似情况,但无需付出创造性劳动。另外,可以理解的是,尽管在此开发过程中所做的工作可能是复杂和漫长的,但是,对于本领域的普通技术人员来说,根据本申请披露的技术内容进行的某些设计、制造或生产等更改仅是常规的技术手段,不应被视为本申请公开的内容不足。
“实施例”一词在本申请中指的是结合实施例描述的具体特征、结构或特性可以包括在本申请的至少一个实施例中。该短语出现在说明书中的各个位置并不一定意味着相同的实施例,也不意味着与其它实施例相互排斥而具有独立性或可供选择。本领域的普通技术人员能够清楚或隐含地理解的是,本申请中描述的实施例在没有冲突的情况下,可以与其它实施例结合。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对专利保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (13)

1.一种门店名称重复检测方法,其特征在于,包括:
基于分店名拆分,确定第一门店名称中的第一初始字符串,和第二门店名称中的第二初始字符串;其中,所述第一门店名称为待建档的门店名称,所述第二门店名称为已建档的门店名称;
基于预设的干扰词识别规则,去除所述第一初始字符串中的干扰词,得到第一匹配字符串,去除所述第二初始字符串中的干扰词,得到第二匹配字符串;
对所述第一匹配字符串和所述第二匹配字符串进行相似度计算,得到字符相似度;
基于所述字符相似度,确定所述第一门店名称与所述第二门店名称的重复度。
2.根据权利要求1所述的门店名称重复检测方法,其特征在于,在基于分店名拆分,确定第一门店名称中的第一初始字符串,和第二门店名称中的第二初始字符串之前,所述方法还包括:
根据门店类别信息和门店位置信息,从已建档的门店信息库中确定与待建档的第一门店信息匹配的第二门店信息;
获取所述第一门店信息的门店名称,得到所述第一门店名称;
获取所述第二门店信息的门店名称,得到所述第二门店名称。
3.根据权利要求1所述的门店名称重复检测方法,其特征在于,所述基于分店名拆分,确定第一门店名称中的第一初始字符串,和第二门店名称中的第二初始字符串,包括:
对所述第一门店名称进行分店名拆分,得到第一拆分结果;所述第一拆分结果包含第一店名字符串和第一分店名字符串;
对所述第二门店名称进行分店名拆分,得到第二拆分结果;所述第二拆分结果包含第二店名字符串和第二分店名字符串;
基于所述第一拆分结果与所述第二拆分结果的匹配结果,确定所述第一门店名称中的第一初始字符串,和所述第二门店名称中的第二初始字符串。
4.根据权利要求3所述的门店名称重复检测方法,其特征在于,所述基于所述第一拆分结果与所述第二拆分结果的匹配结果,确定所述第一门店名称中的第一初始字符串,和所述第二门店名称中的第二初始字符串,包括:
在基于所述第一拆分结果与所述第二拆分结果的匹配结果,确定所述第一店名字符串与所述第二店名字符串一致的情况下,将所述第一分店名字符串识别为第一初始字符串,将所述第二分店名字符串识别为第二初始字符串。
5.根据权利要求3所述的门店名称重复检测方法,其特征在于,所述基于所述第一拆分结果与所述第二拆分结果的匹配结果,确定所述第一门店名称中的第一初始字符串,和所述第二门店名称中的第二初始字符串,包括:
在基于所述第一拆分结果与所述第二拆分结果的匹配结果,确定所述第一店名字符串与所述第二店名字符串不一致的情况下,将所述第一店名字符串识别为第一初始字符串,将所述第二店名字符串识别为第二初始字符串。
6.根据权利要求3所述的门店名称重复检测方法,其特征在于,在基于所述第一拆分结果与所述第二拆分结果的匹配结果,确定所述第一门店名称中的第一初始字符串,和所述第二门店名称中的第二初始字符串之前,所述方法还包括:
在所述第一分店名字符串不为空,所述第二分店名字符串为空,且所述第二店名字符串包含所述第一分店名字符串的情况下,将所述第一分店名字符串赋值至所述第二分店名字符串,并从所述第二店名字符串中去除所述第一分店名字符串;
在所述第二分店名字符串不为空,所述第一分店名字符串为空,且所述第一店名字符串包含所述第二分店名字符串的情况下,将所述第二分店名字符串赋值至所述第一分店名字符串,并从所述第一店名字符串中去除所述第二分店名字符串。
7.根据权利要求1所述的门店名称重复检测方法,其特征在于,所述预设的干扰词识别规则包括:
将不属于预设语种文字且不属于数字的字符,和/或,门店补充信息,识别为干扰词。
8.根据权利要求1所述的门店名称重复检测方法,其特征在于,所述预设的干扰词识别规则包括:
分别识别所述第一初始字符串和所述第二初始字符串中表征门店业务信息的关键词;
在所述关键词仅分布于所述第一初始字符串的情况下,将所述第一初始字符串的所述关键词识别为干扰词;
在所述关键词仅分布于所述第二初始字符串的情况下,将所述第二初始字符串的所述关键词识别为干扰词;
在所述第一初始字符串和所述第二初始字符串包含重复的所述关键词的情况下,将重复的所述关键词识别为干扰词。
9.根据权利要求1所述的门店名称重复检测方法,其特征在于,所述对所述第一匹配字符串和所述第二匹配字符串进行相似度计算,得到字符相似度,包括:
确定所述第一匹配字符串和所述第二匹配字符串中的重复字符数;
确定所述第一匹配字符串和所述第二匹配字符串的字符总数;
根据所述重复字符数和所述字符总数,确定所述第一匹配字符串和所述第二匹配字符串的字符相似度。
10.一种门店重复检测方法,其特征在于,包括:
基于权利要求1至9中任一项所述的门店名称重复检测方法,确定待建档的第一门店与已建档的第二门店之间的门店名称重复度;
获取所述第一门店关联的第一门店图像,和所述第二门店关联的第二门店图像;
确定所述第一门店图像和所述第二门店图像之间的图像相似度;
根据所述门店名称重复度和所述图像相似度,确定所述第一门店和所述第二门店的重复度。
11.一种门店名称重复检测装置,其特征在于,包括:初始字符确定模块、去除模块、相似度计算模块以及重复度确定模块;其中:
所述初始字符确定模块,用于基于分店名拆分,确定第一门店名称中的第一初始字符串,和第二门店名称中的第二初始字符串;其中,所述第一门店名称为待建档的门店名称,所述第二门店名称为已建档的门店名称;
所述去除模块,用于基于预设的干扰词识别规则,去除所述第一初始字符串中的干扰词,得到第一匹配字符串,去除所述第二初始字符串中的干扰词,得到第二匹配字符串;
所述相似度计算模块,用于对所述第一匹配字符串和所述第二匹配字符串进行相似度计算,得到字符相似度;
所述重复度确定模块,用于基于所述字符相似度,确定所述第一门店名称与所述第二门店名称的重复度。
12.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至9中任一项所述的门店信息重复检测方法。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的门店信息重复检测方法的步骤。
CN202410134530.9A 2024-01-31 2024-01-31 门店名称重复检测方法和门店重复检测方法 Pending CN118051646A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410134530.9A CN118051646A (zh) 2024-01-31 2024-01-31 门店名称重复检测方法和门店重复检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410134530.9A CN118051646A (zh) 2024-01-31 2024-01-31 门店名称重复检测方法和门店重复检测方法

Publications (1)

Publication Number Publication Date
CN118051646A true CN118051646A (zh) 2024-05-17

Family

ID=91046181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410134530.9A Pending CN118051646A (zh) 2024-01-31 2024-01-31 门店名称重复检测方法和门店重复检测方法

Country Status (1)

Country Link
CN (1) CN118051646A (zh)

Similar Documents

Publication Publication Date Title
US10810218B2 (en) System and method for matching of database records based on similarities to search queries
CN111143597B (zh) 图像检索方法、终端及存储装置
CN113094559B (zh) 信息匹配方法、装置、电子设备和存储介质
WO2024031943A1 (zh) 门店去重处理方法、装置、设备及存储介质
CN108345689B (zh) 商标注册成功率查询方法、装置、商标注册方法、装置
CN111858922A (zh) 服务方信息查询方法、装置、电子设备以及存储介质
CN112364014A (zh) 数据查询方法、装置、服务器及存储介质
CN113326363A (zh) 搜索方法及装置、预测模型训练方法及装置、电子设备
CN118051646A (zh) 门店名称重复检测方法和门店重复检测方法
CN114610955A (zh) 一种智能检索方法、装置、电子设备及存储介质
CN114579580A (zh) 存储数据的方法、查询数据的方法和装置
CN114416847A (zh) 一种数据转换的方法、装置、服务器及存储介质
CN113434413A (zh) 基于数据差异的数据测试方法、装置、设备及存储介质
CN113128231A (zh) 一种数据质检方法、装置、存储介质和电子设备
CN107908771B (zh) 内置约束规则的k-means文本聚类方法及装置
CN117313111B (zh) 一种基于汽车信息安全测试用例的标注与索引方法和系统
CN113377893B (zh) Poi融合、poi融合阈值确定方法、装置、设备及介质
CN111859100B (zh) 一种检索意图转移识别方法及装置
CN110083679B (zh) 搜索请求的处理方法、装置、电子设备和存储介质
CN107220255B (zh) 地址信息处理方法及装置
CN115129871A (zh) 文本类别确定方法、装置、计算机设备和存储介质
CN116484854A (zh) 规范化名称的确定方法、系统、设备及介质
CN111008330A (zh) 一种基于多数据源的专家推荐方法及系统
WO2022164387A1 (en) Method and system for deduplicating point of interest databases
CN116600247A (zh) 一种信息关联匹配方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination