CN109033370A - 一种查找相似店铺的方法及装置、店铺接入的方法及装置 - Google Patents

一种查找相似店铺的方法及装置、店铺接入的方法及装置 Download PDF

Info

Publication number
CN109033370A
CN109033370A CN201810840191.0A CN201810840191A CN109033370A CN 109033370 A CN109033370 A CN 109033370A CN 201810840191 A CN201810840191 A CN 201810840191A CN 109033370 A CN109033370 A CN 109033370A
Authority
CN
China
Prior art keywords
shop
store
accessed
name
pronunciation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810840191.0A
Other languages
English (en)
Inventor
马书超
袁承振
方鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201810840191.0A priority Critical patent/CN109033370A/zh
Publication of CN109033370A publication Critical patent/CN109033370A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种查找相似店铺的方法及装置、店铺接入的方法及装置,该查找相似店铺的方法包括:根据获取的待接入的店铺的店铺名,提取店铺名中的关键词,基于该关键词的发音,在店铺信息库中查找与该店铺名关键词的发音相同或相似度达到预设条件的店铺,由于采用发音方式来查找与店铺名关键词发音相同或相似的店铺,因此,相比于现有技术中直接采用店铺名称进行检索,扩大了检索范围,可以检索到更多的店铺,因而增加了相似店铺的召回数量,避免漏掉可能存在的相同店铺。

Description

一种查找相似店铺的方法及装置、店铺接入的方法及装置
技术领域
本发明涉及互联网搜索技术领域,尤其涉及一种查找相似店铺的方法及装置、店铺接入的方法及装置。
背景技术
店铺信息平台,支持店铺的接入,用于展示接入店铺的店铺信息(例如:店铺名称、店铺地址、联系方式、经营范围等信息),用户可以在店铺信息平台上查询每家店铺的店铺参数信息,并购买相关产品或服务。
在将店铺接入到店铺信息平台时,容易发生同一家店铺多次接入的情况,如果同一家店铺被多次接入,会使得店铺信息平台上的店铺数据冗杂、混乱,不利于用户查询店铺,用户体验较差,且根据店铺的返佣策略,在对店铺付佣金时,会造成资损。尤其对于国际店铺来讲,由于其具有多语言、多文化的特点,店铺名称更容易被录错,易出现同一家店铺被接入多次的情况。
现有技术中,在对待接入店铺进行检索时,相似店铺的召回数量较少,容易出现检索遗漏的情况,导致同一家店铺被接入多次。因此,如何增加相似店铺的召回数量是亟待解决的问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的查找相似店铺的方法及装置、店铺接入的方法及装置。
依据本发明的第一个方面,提供了一种查找相似店铺的方法,所述方法包括:
获取待接入的店铺的店铺名;
对所述店铺名进行切词,去除停用词和位置信息,获得店铺名关键词;
基于所述店铺名关键词的发音,在店铺信息库中查找与所述店铺名关键词的发音相同或相似度达到预设条件的店铺,所述店铺信息库中存储有已接入店铺信息平台的店铺的信息。
依据本发明的第二个方面,提供一种店铺接入的方法,所述方法包括:
获取待接入的店铺的店铺名;
对所述店铺名进行切词,去除停用词和位置信息,获得店铺名关键词;
基于所述店铺名关键词的发音,在店铺信息库中查找与所述店铺名关键词的发音相同或相似度达到预设条件的店铺,所述店铺信息库中存储有已接入店铺信息平台的店铺的信息;
基于查找到的店铺的第一店铺参数信息,以及所述待接入的店铺的第二店铺参数信息,判断所述待接入的店铺是否已接入所述店铺信息平台;
若已接入,则禁止所述待接入的店铺接入所述店铺信息平台;
若未接入,则将所述待接入的店铺接入所述店铺信息平台。
依据本发明的第三个方面,提供一种查找相似店铺的装置,包括:
获取模块,用于获取待接入的店铺的店铺名;
提取模块,用于对所述店铺名进行切词,去除停用词和位置信息,获得店铺名关键词;
查找模块,用于基于所述店铺名关键词的发音,在店铺信息库中查找与所述店铺名关键词的发音相同或相似度到达预设条件的店铺,所述店铺信息库中存储有已接入店铺信息平台的店铺的信息。
依据本发明的第四个方面,提供一种店铺接入的装置,包括:
获取模块,用于获取待接入的店铺的店铺名;
提取模块,用于对所述店铺名进行切词,去除停用词和位置信息,获得店铺名关键词;
查找模块,用于基于所述店铺名关键词的发音,在店铺信息库中查找与所述店铺名关键词的发音相同或相似度达到预设条件的店铺,所述店铺信息库中存储有已接入店铺信息平台的店铺的信息;
判断模块,用于基于查找到的店铺的第一店铺参数信息,以及所述待接入的店铺的第二店铺参数信息,判断所述待接入的店铺是否已接入所述店铺信息平台;
禁止模块,用于在已接入时,禁止所述待接入的店铺接入所述店铺信息平台;
接入模块,用于在未接入时,将所述待接入的店铺接入所述店铺信息平台。
依据本发明的第五个方面,提供了一种服务器,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本发明第一个方面和第二个方面中的任一方法的步骤。
依据本发明的第六个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明第一个方面和第二个方面中的任一方法步骤。
本说明书实施例中的上述一个或多个技术方案,至少具有如下技术效果:
本说明书实施例提供的一种查找相似店铺的方法,首先,根据获取的待接入的店铺的店铺名,提取店铺名中的关键词,基于该关键词的发音,在店铺信息库中查找与店铺名关键词的发音相同或相似度达到预设条件的店铺,由于基于发音方式来查找与店铺名关键词发音相同或相似的店铺,相比于现有技术中直接采用店铺名称进行检索,本申请扩大了检索范围,可以检索到更多的店铺,因而增加了店铺的召回数量,避免漏掉可能存在的相同店铺。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考图形表示相同的部件。在附图中:
图1示出了本发明实施例中查找相似店铺的方法的流程示意图;
图2示出了本发明实施例中店铺接入的方法的流程示意图;
图3示出了本发明实施例中查找相似店铺的装置的结构示意图;
图4示出了本发明实施例中店铺接入的装置的结构示意图;
图5示出了本发明实施例中服务器的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为了扩大相似店铺的召回数量,本发明实施例的总体思路如下:
首先在得到一个店铺名称时,通过对该店铺名称切词,获得该店铺名称的关键词,根据该店铺名称的关键词的发音,在已有的店铺信息库中查找与该关键词的发音相同或相似的店铺,从而只要店铺名称发音相同或相似即召回,由于基于发音方式来查找与店铺名关键词发音相同或相似的店铺,因此,相比于现有技术中直接采用店铺名称进行检索,扩大了检索范围,可以检索到更多的店铺,因而增加了店铺的召回数量,避免漏掉可能存在的相同店铺。在获得多个相同或相似店铺之后,对每个相同或相似店铺与待确定的店铺进行比较,具体是对店铺中的店铺参数的相似度评分,最后,根据相似度评分结果来确定该待确定的店铺是否是已接入的店铺。
下面结合说明书附图对本发明的实施例进行详细说明:
一方面,本发明第一实施例提供一种查找相似店铺的方法,请参见图1,包括S101~S103。
S101,获取待接入的店铺的店铺名。
具体的,获取的店铺名中包含了地址信息、商圈信息。比如:九宫格老火锅(红牌楼店)、锦城足御养生会所(高升桥店)、Pret a Manger(静安嘉里中心店),由于很多店铺都开设有多个分店,为了区分这些店铺,通过添加地址或者商圈信息,表明该店铺是该地址区域或者该商圈区域的店铺,不同于其他地址或商圈的店铺。
在获取到店铺的店铺名之后,执行S102,对店铺名进行切词,去除停用词和位置信息,获得店铺名关键词。
具体的,对店铺名进行切词,去除停用词和位置信息,其目的是将店铺名划分为多个单独的词,从中识别出有用的词,去除无用的词,从而使得获得的店铺关键词的限制性降低。具体是去除停用词以及店铺名中包含的地址或者商圈信息。其中,停用词是指为了提高搜索效率,去除没有实际含义的功能词(通常为:定冠词、介词),比如,在英文名称中出现的“the、is、on、which、a、an、that”等,中文名称中的“的、在”之类。例如上述的“Pret aManger”,首先切词,获得“Pret”和“a”、“Manger”,其中,“a”是一个没有实际含义的功能词,可去除,最终,获得“Pret”和“Manger”。店铺名中包含的地址或者商圈信息也需要去除,例如上述的“锦城足御养生会所(高升桥店)”中,通过切词,获得“锦城”、“足御”、“养生”、“会所”、“高升桥店”,其中,“高升桥店”、“锦城”都包含有位置含义,可去除。最后获得“足御”、“养生”、“会所”。采用上述的关键词获取的方式,使得关键词的限制性降低,在限制性降低之后,根据这样的关键词查找到的店铺数量会更多。
在提取店铺名关键词之后,执行S103,基于该店铺名关键词的发音,在店铺信息库中查找发音相同或相似度达到预设条件的店铺,该店铺信息库中存储有已接入店铺信息平台的店铺的信息。
该店铺信息平台具体是提供给用户更全面、更准确的检索店铺数据的平台,集合了大量已接入的店铺的信息,大量的店铺的信息(无重复的店铺的信息)形成店铺信息库,其中每个店铺对应的店铺的信息包括了店铺的名称、店铺地址(包括城市、地道、门牌号)、店铺联系方式、店铺经营类型等等所有有关该店铺的信息。
在查找发音相同或相似度达到预设条件的店铺的店铺名时,具体是在店铺信息库中查找与店铺名关键词的发音码相同或编辑距离小于预设值的店铺。
有两种种实现方式,具体如下:
第一种实现方式,在该店铺名关键词为中文名时,将该店铺名关键词的中文转化为拼音;在店铺信息库中查找与该拼音相同或相似的店铺。
在具体的实施方式中,在该店铺名为中文店铺名时,通过上述步骤获得店铺名关键词,将该店铺关键词转化为拼音,然后,在店铺信息库中查找与该拼音相同或编辑距离小于预设值的店铺(可能是一个店铺,也可能是多个店铺)。比如,上述的获得的“足御”、“养生”、“会所”,转化为拼音“zuyu”、“yangsheng”、“huisuo”。接着在店铺信息库中查找与该拼音相同或编辑距离小于预设值的店铺。例如:可能会找到名称包含“足浴”、“养生”、“会所”的店铺,还可能会找到名称包含“祖御”、“扬声”、“会所”的店铺,还可能会找到名称包含“诅预”、“阳生”、“会所”的店铺等等拼音相同的店铺,还可能会找到名称包含“足浴”、“养神(yangshen)”、“会所”等等拼音的编辑距离小于预设值(该编辑距离值为1,仅需将“yangshen”的拼音末尾加上“g”字符)的店铺。
第二种实现方式,在店铺名关键词为英文名时,采用语音匹配算法对该英文名进行编码处理,获得该英文名的发音码;在店铺信息库中查找店铺名与该发音码的相同或编辑距离小于预设值的店铺。
其中,在采用该语音匹配算法对英文名进行编码处理过程中,具体是进行如下编码操作。
按照英文的编码规则,对英文名中的不发音的字母删除。比如,comb(梳子)中的字母“b”不发音,可以对单词comb中的字母“b”删除,得到的发音码为com;bridge(桥梁)中的字母“d”、“e”不发音,可以对单词bridge中的字母“d”和“e”删除,得到的发音码为brig;再比如,字母组合AE-、GN-、KN-、PN-、WR-位于词首时,删除其中的首字母;删除位于词首的字母组合WH-中的H等。
修改不符合字母发音的情况:
将英文名中与实际字母发音不相符的字母修改为与实际字母发音相符的字母。比如,cake(蛋糕)中的字母c发音为[k],可以将该单词cake中的字母修改为“k”,得到的发音码为kak(还删除了不发音的字母“e”);face(脸)中的字母“c”发音为[s],可以将该单词face中的字母修改为“s”,得到的发音码为fas(还删除了不发音的字母“e”)。
重复字母去重的情况:
将英文名中重复的字母去重。比如,button(按钮)中的字母“t”有重复,可以将该单词button中的字母“t”去掉一个,得到发音码为buton;wedding(婚礼)中的字母“d”有重复,可以将该单词wedding中的“d”去掉一个,得到发音码为weding。
按照元音字母(A、E、I、O、U)位于不同位置时的发音的不同进行保留或者删除:
具体是当元音字母位于词首时予以保留,当元音字母位于其他位置时则删除。比如,orange(橘子)中首字母是“o”元音,因此保留,在得到的发音码中字母“o”需要发元音;umbrella(雨伞)中的首字母“u”也是元音,也保留,在得到的发音码中字母“u”需要发元音。fate(命运)中元音字母“e”位于结尾不发音,可删除,得到的发音码中没有字母“e”。Wine(红酒)中元音字母位于结尾不发音,可删除,得到的发音码中没有字母“e”。
上述按照英文的发音规则,对店铺关键词的英文名进行编码处理,这些规则的处理是在单个单词中进行的其中一种规则的处理或多种规则结合的处理。
当然,并不仅限于上述这些规则的处理,英文发音规则的处理还包括删除字母组合-sci-、-sce-和-scy-中的“c”;字母“k”位于字母“c”之后时,删除字母“k”;“y”字母之后没有元音字母时,删除“y”字母;“y”字母之后有元音字母时,保留“y”字母等等,在本发明实施例中就不再详细赘述了。
本发明实施例中采用的语音匹配算法具体可以是Metaphone(变音位,指音位的自由变体)算法,还可以是Soundex(探测法)算法。
根据上述的编码处理,获得英文名的发音码。便于后续基于该发音码查找相同的或者编辑距离小于预设值的店铺。
比如,上述得到的发音码是“fat”,在店铺信息库中很可能找到店铺名称中包含有fat(肥肉)的发音码,该发音码与待接入的店铺的店铺名的发音码相同,或者找到原有店铺名称中包含Feit(人名:费特)的店铺,该发音码与待接入的店铺的店铺名关键词的发音码的编辑距离小于预设值(将“Feit”通过删除“e”、“i”,然后添加“a”得到“fat”的发音码,编辑距离为3),当然还可能找到如fete(编辑距离为2)、fet(编辑距离为1)的店铺名等等,因此,召回的相同或相似度达到预设条件的店铺数量增多。
上述“编辑距离”具体是指两个字符串之间,由一个字符串转化为另一个字符串所需的最少的编辑操作次数;该编辑操作具体包括将一个字符替换成另一个字符、插入一个字符、删除一个字符等等;如果编辑距离越小,两个字符串的相似度越大。
以拼音字符串为例,比如上述的九宫格老火锅(红牌楼店),获得的店铺名关键词“九宫格”、“老火锅”,店铺名关键词对应的拼音字符串“jiugongge”(九宫格)、“laohuoguo”(老火锅),查找到店铺名关键词的字符串为“jiugongge”(九宫格)、“laoguoguo”(老锅锅)的店铺名,通过计算编辑距离,确定查找到的店铺名与上述待接入的店铺名的编辑距离为1,具体是将“jiugongge”(九宫格)、“laoguoguo”(老锅锅)编辑为“jiugongge”(九宫格)、“laohuoguo”(老火锅),只需将“laoguoguo”中的第一个“g”编辑修为“h”,如果按照编辑距离小于或等于3,确定为编辑距离小于预设值的店铺,那么该“jiugongge”(九宫格)、“laoguoguo”(老锅锅)对应的店铺确定为与“jiugongge”(九宫格)、“laohuoguo”(老火锅)的店铺的编辑距离小于预设值的店铺,即确定为相似店铺。如果查找到的店铺名关键词的字符串为“jiguge”(季谷阁)、“laohuoguo”(老火锅),具体将“jiguge”(季谷阁)编辑为“jiugongge”(九宫格)需要的编辑距离为5,如果编辑距离预设值是3,则确定该“jiguge”(季谷阁)、“laohuoguo”(老火锅)对应的店铺并不是编辑距离小于预设值的店铺,即确定为不是相似的店铺。
以英文字符串为例,比如上述的Pret a Manger,获得的店铺名关键词为“pret”、“manger”,获得的发音码为“prt”、“manger”查找到发音码也是“prt”、“manger”的店铺名关键词为“pret”、“manager”的店铺,由于这两个店铺的店铺名关键词发音码的编辑距离为0,确定该店铺为发音码编辑距离小于预设值的店铺。如果查找到店铺名关键词发音码为“prety”、“manger”,实际对应的店铺名关键词是“pretty”、“manager”,通过计算编辑距离,确定查找到的店铺名与待接入的店铺名的发音码编辑距离为1,具体是将“pret”结尾加上“y”,满足预设值(编辑距离小于3)的要求,确定该查找到的店铺为发音码编辑距离小于预设值的店铺。
通过上述两种实现方式获得的店铺均被认为是店铺名关键词的发音码相同或编辑距离小于预设值的店铺。采用上述的实现方式获得的店铺,扩大了相似店铺的召回数量。避免遗漏可能存在的相同店铺。
在获得相同或相似的店铺之后,还需要确定这些店铺是否是真正意义上的相似店铺。
具体采用如下方式获得该结果:
从店铺信息库中获取该查找到的店铺的第一店铺参数信息。
获取该待接入店铺的第二店铺参数信息。
基于第一店铺参数信息和第二店铺参数信息,计算出查找到的店铺与所述待接入的店铺的相似度。
基于查找到的店铺的相似度以及相似度评分阈值,获得查找到的店铺的相似度评分结果。
该查找到的店铺的第一店铺参数信息以及待接入店铺的第二店铺参数信息,具体是店铺名称文本内容、地址文本内容、地址中的数字信息,电话号码信息,品牌名称信息、地理位置服务信息(LBS)等等,通过上述查找到的店铺的第一店铺参数信息分别与待接入的店铺的第二店铺参数信息进行比较,获得每个查找到的店铺的第一店铺参数信息的相似度。
比如,查找到的店铺中A店铺的第一店铺参数信息中包括:店铺地址信息:上海浦东新区世纪大街1号,店铺名称:Pret a Manger(浦东新区店),电话号码:021-8787282,品牌简称:Pret,地理位置服务信息:距离用户当前的位置有1.0km等等。
待接入的店铺B店铺的第二店铺参数信息中包括:店铺地址信息:上海浦东新区世纪大道19号,店铺名称:Pret a Manager,电话号码:021-8788980,品牌简称:无,地理位置服务信息:距离用户当前的位置有3.0km等等。
其中,分别对店铺名、店铺地址、电话号码、品牌简称、地理位置服务信息分别计算相似度。在对店铺地址进行相似度计算时,分别对店铺地址文本内容计算相似度以及对店铺地址数字内容计算相似度;在对店铺名计算相似度时可以根据两个店铺名的编辑距离确定相似度;在对店铺地址文本内容计算相似度时,具体是计算N-Gram分词之后的杰拉德相似度,N-Gram分词是对地址文本内容按照预设的字符数量进行分词。杰拉德相似度是根据分词后,确定两个比对的样本的集合,获得这两个比对的样本的交集与并集的比值。
具体地,A店铺地址文本内容:上海浦东新区世纪大街,待接入的店铺的店铺地址文本内容:上海浦东新区世纪大道,按照2个字符进行分词,获得A店铺地址文本内容的分词结果:上海、浦东、新区、世纪、大街;获得待接入的店铺的店铺地址文本内容的分词结果:上海、浦东、新区、世纪、大道。在计算杰拉德相似度时,将两个文本内容的分词后的词作为集合A和集合B,得到的杰拉德相似度J(A,B)=|A∩B|/|A∪B|=4/6=2/3,可见,这两个集合的杰拉德相似度相对较高,即店铺地址文本内容的相似度为66.7%。
店铺地址的数字信息明显不相同,一个是1号,一个是19号,相似度为0。电话号码直接比较数字即可,很明显,上述例子中的电话号码明显不相同,只有极个别数字相同,相似度达到30%。品牌简称也明显不同,一个有品牌简称,一个没有品牌简称,相似度为0。地理位置服务信息也明显不同,一个是距离1.0km,另一个是距离3.0km,相似度为0。店铺名称相似度为90%(由于是基于编辑距离小于预设值查找到的相似店铺,因此相似度较高)。可见,上述两个店铺除了店铺地址的文本内容相近,店铺名称相似之外,其他店铺参数信息均不相同,根据评分阈值(店铺参数信息的相似度均值在80%的以上),获得A店铺的第一店铺参数信息中对应的店铺名称与B店铺的店铺名称相似度为90%,店铺地址文本信息相似度为66.7%,店铺地址数字信息相似度为0、店铺电话号码相似度为30%、品牌简称相似度为0、以及地理位置服务信息相似度为0,因此,获得的店铺参数信息的相似度均值低于50%,即获得A店铺与待接入的B店铺是不可能相同的店铺的结果。
基于上述查找到的店铺的第一店铺参数的相似度以及相似度评分阈值,可能获得三种结果,一种是一定是同店,一种是一定不是同店,一种是模糊地带(需要进一步区分)。相似度评分阈值可以设定为相似度为80%、50%的阈值,当相似度达到80%及以上时认为一定是同店,根据相似度达到50%~80%之间是模糊地带,根据相似度在50%以下认为一定不是同店。
采用上述的技术方案,不仅扩大了发音相同或相似度达到预设条件的店铺的召回数量,而且,能够通过对召回的店铺与待接入的店铺的相似度进行评分,基于评分结果再次进行判断,最终获得真正意义上的相同店铺,提高了识别准确率。
基于同一发明构思,本发明第二实施例还提供一种店铺接入的方法,请参见图2,包括:
S201,获取待接入的店铺的店铺名;
S202,对所述店铺名进行切词,去除停用词和位置信息,获得店铺名关键词;
S203,基于所述店铺名关键词的发音,在店铺信息库中查找与所述店铺名关键词的发音相同或相似度达到预设条件的店铺,所述店铺信息库中存储有已接入店铺信息平台的店铺的信息;
S204,基于查找到的店铺的第一店铺参数信息,以及待接入的店铺的第二店铺参数信息,判断待接入的店铺是否已接入店铺信息平台;
S205,若已接入,则禁止待接入的店铺接入店铺信息平台;
S206,若未接入,则将待接入的店铺接入店铺信息平台。
作为一种可选的实施方式,基于第一店铺参数信息,以及待接入的店铺的第二店铺参数信息,判断待接入的店铺是否已接入店铺信息平台,具体包括:
基于第一店铺参数信息以及第二店铺参数信息,计算查找到的店铺分别与待接入的店铺的相似度;
基于查找到的店铺的相似度以及相似度评分阈值,获得查找到的店铺的相似度评分结果;
基于查找到的店铺的相似度评分结果,判断待接入的店铺是否已接入所述店铺信息平台。
具体的,基于查找到的店铺的相似度评分结果是一定是同店,确定该待接入的店铺已接入店铺信息平台,从而禁止该待接入的店铺接入该店铺信息平台;当查找到的店铺的相似度评分结果是一定不是同店(例如上述查找到的A店铺与待接入的B店铺的相似度评分结果是一定不是同店),确定该待接入的店铺未接入店铺信息平台(确定该待接入的B店铺未接入店铺信息平台);从而将该待接入的店铺接入该店铺信息平台(将该待接入的B店铺接入该店铺信息平台);当查找到的店铺的相似度评分结果是模糊不确定,不能确定该待接入的店铺是否已接入店铺信息平台,需要进一步分析确定,才能确定是否可以接入该待接入的店铺。
基于同一发明构思,本发明第三实施例还提供一种查找相似店铺的装置,请参见图3,该装置包括:
获取模块301,用于获取待接入的店铺的店铺名;
提取模块302,用于对所述店铺名进行切词,去除停用词和位置信息,获得店铺名关键词;
查找模块303,用于基于所述店铺名关键词的发音,在店铺信息库中查找与所述店铺名关键词的发音相同或相似的店铺,所述店铺信息库中存储有已接入店铺信息平台的店铺的信息。
作为一种可选的实施方式,提取模块302具体用于对店铺名进行切词,去除停用词和位置信息,获得店铺名关键词。
作为一种可选的实施方式,查找模块303具体用于在店铺信息库中查找与店铺名关键词的发音码相同或编辑距离小于预设值的店铺。
作为一种可选的实施方式,查找模块303具体包括:
转化单元,用于在所述店铺名关键词为中文名时,将所述店铺名关键词的中文转化为拼音;
第一查找子单元,用于在店铺信息库中查找与所述拼音相同或编辑距离小于预设值的店铺。
作为一种可选的实施方式,查找模块303具体包括:
编码处理单元,用于在所述店铺名关键词为英文名时,采用语音匹配算法对所述英文名进行编码处理,获得所述英文名的发音码;
第二查找子单元,用于在店铺信息库中查找与所述发音码相同或编辑距离小于预设值的店铺。
作为一种可选的实施方式,编码处理单元具体用于如下的一种或多种处理方式,获得英文名中的发音码:
在所述店铺名关键词为英文名时,采用语音匹配算法,按照英文的编码规则,对所述英文名中的不发音的字母删除;
将英文名中与实际字母发音不相符的字母修改为相符的字母;
将英文名中重复的字母去重;
按照元音字母位于不同位置时的发音的不同进行保留或者删除。
作为一种可选的实施方式,该装置还包括:
第一获取模块,用于从所述店铺信息库中获取所述查找到的店铺的第一店铺参数信息
第二获取模块,用于获取所述待接入店铺的第二店铺参数信息
计算模块,用于基于查找到的店铺的第一店铺参数信息和待接入店铺的第二店铺参数信息,计算出所述查找到的店铺与所述待接入的店铺的相似度;
相似度评分结果获得模块,用于基于所述查找到的店铺的相似度以及相似度评分阈值,获得所述查找到的店铺的相似度评分结果。
其中,该用于第一店铺参数信息和第二店铺参数信息具体为店铺名称文本内容、地址文本内容、地址中的数字信息,电话号码信息,品牌名称信息、地理位置服务信息(LBS)等等。
基于同一发明构思,本发明第四实施例还提供一种店铺接入的装置,请参见图4,该装置包括:
获取模块401,用于获取待接入的店铺的店铺名;
提取模块402,用于对所述店铺名进行切词,去除停用词和位置信息,获得店铺名关键词;
查找模块402,用于基于所述店铺名关键词的发音,在店铺信息库中查找与所述店铺名关键词的发音相同或相似度达到预设条件的店铺,所述店铺信息库中存储有已接入店铺信息平台的店铺的店铺参数信息;
判断模块404,用于基于查找到的店铺的第一店铺参数信息,以及所述待接入的店铺的第二店铺参数信息,判断所述待接入的店铺是否已接入所述店铺信息平台;
禁止模块405,用于在已接入时,禁止所述待接入的店铺接入所述店铺信息平台;
接入模块406,用于在未接入时,将所述待接入的店铺接入所述店铺信息平台。
作为一种可选的实施方式,判断模块404具体包括:
计算单元,用于基于查找到的店铺的第一店铺参数信息以及待接入的店铺的第二店铺参数信息,计算所述查找到的店铺分别与所述待接入的店铺的相似度;
获得单元,用于基于所述查找到的店铺的相似度以及相似度评分阈值,获得所述查找到的店铺的相似度评分结果;
判断子单元,用于基于所述查找到的店铺的相似度评分结果,判断所述待接入的店铺是否已接入所述店铺信息平台。
基于与前述实施例中查找相似店铺的方法同样的发明构思,本发明还提供一种服务器,请参见图5,包括存储器504、处理器502及存储在存储器504上并可在处理器502上运行的计算机程序,所述处理器502执行所述程序时实现前文所述查找相似店铺的方法或者店铺接入的方法中的任一方法的步骤。
其中,在图5中,总线架构(用总线500来代表),总线500可以包括任意数量的互联的总线和桥,总线500将包括由处理器502代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线500还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口506在总线500和接收器501和发送器503之间提供接口。接收器501和发送器503可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器502负责管理总线500和通常的处理,而存储器504可以被用于存储处理器502在执行操作时所使用的数据。
基于与前述实施例中线下商户识别的方法相同的发明构思,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前文所述查找相似店铺的方法或店铺接入的方法中的任一方法的步骤。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品,该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本说明书的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本说明书范围的所有变更和修改。
显然,本领域的技术人员可以对本说明书进行各种改动和变型而不脱离本说明书的精神和范围。这样,倘若本说明书的这些修改和变型属于本说明书权利要求及其等同技术的范围之内,则本说明书也意图包含这些改动和变型在内。

Claims (18)

1.一种查找相似店铺的方法,所述方法包括:
获取待接入的店铺的店铺名;
对所述店铺名进行切词,去除停用词和位置信息,获得店铺名关键词;
基于所述店铺名关键词的发音,在店铺信息库中查找与所述店铺名关键词的发音相同或相似度达到预设条件的店铺,所述店铺信息库中存储有已接入店铺信息平台的店铺的信息。
2.如权利要求1所述的方法,在店铺信息库中查找与所述店铺名关键词的发音相同或相似度达到预设条件的店铺,具体为:
在店铺信息库中查找与所述店铺名关键词的发音码相同或编辑距离小于预设值的店铺。
3.如权利要求2所述的方法,所述基于所述店铺名关键词的发音,在店铺信息库中查找与所述店铺名关键词的发音码相同或编辑距离小于预设值的店铺,具体包括:
在所述店铺名关键词为中文名时,将所述店铺名关键词的中文转化为拼音;
在店铺信息库中查找与所述拼音相同或编辑距离小于预设值的店铺。
4.如权利要求2所述的方法,所述基于所述店铺名关键词的发音,在店铺信息库中查找与所述店铺名关键词的发音相同或编辑距离小于预设值的的店铺,具体包括:
在所述店铺名关键词为英文名时,采用语音匹配算法对所述英文名进行编码处理,获得所述英文名的发音码;
在店铺信息库中查找与所述发音码相同或编辑距离小于预设值的店铺。
5.如权利要求4所述的方法,所述采用语音匹配算法对所述英文名进行编码处理,具体包括以下方法中的一种或多种:
(a)采用语音匹配算法,按照英文的编码规则,对所述英文名中的不发音的字母删除;
(b)将所述英文名中与实际字母发音不相符的字母修改为相符的字母;
(c)将所述英文名中重复的字母去重;
(d)按照元音字母位于不同位置时的发音的不同进行保留或者删除。
6.如权利要求1所述的方法,还包括:
从所述店铺信息库中获取所述查找到的店铺的第一店铺参数信息;
获取所述待接入店铺的第二店铺参数信息;
基于所述第一店铺参数信息和所述第二店铺参数信息,计算出所述查找到的店铺与所述待接入的店铺的相似度;
基于所述查找到的店铺的相似度以及相似度评分阈值,获得所述查找到的店铺的相似度评分结果。
7.一种店铺接入的方法,所述方法包括:
获取待接入的店铺的店铺名;
对所述店铺名进行切词,去除停用词和位置信息,获得店铺名关键词;
基于所述店铺名关键词的发音,在店铺信息库中查找与所述店铺名关键词的发音相同或相似度达到预设条件的店铺,所述店铺信息库中存储有已接入店铺信息平台的店铺的信息;
基于查找到的店铺的第一店铺参数信息,以及所述待接入的店铺的第二店铺参数信息,判断所述待接入的店铺是否已接入所述店铺信息平台;
若已进入,则禁止所述待接入的店铺接入所述店铺信息平台;
若未接入,则将所述待接入的店铺接入所述店铺信息平台。
8.如权利要求7所述的方法,所述基于查找到的店铺的第一店铺参数信息,以及所述待接入的店铺的第二店铺参数信息,判断所述待接入的店铺是否已接入所述店铺信息平台,具体包括:
基于所述第一店铺参数信息以及所述第二店铺参数信息,计算所述查找到的店铺分别与所述待接入的店铺的相似度;
基于所述查找到的店铺的相似度以及相似度评分阈值,获得所述查找到的店铺的相似度评分结果;
基于所述查找到的店铺的相似度评分结果,判断所述待接入的店铺是否已接入所述店铺信息平台。
9.一种查找相似店铺的装置,包括:
获取模块,用于获取待接入的店铺的店铺名;
提取模块,用于对所述店铺名进行切词,去除停用词和位置信息,获得店铺名关键词;
查找模块,用于基于所述店铺名关键词的发音,在店铺信息库中查找与所述店铺名关键词的发音相同或相似达到预设条件的店铺,所述店铺信息库中存储有已接入店铺信息平台的店铺的信息。
10.如权利要求9所述的装置,所述查找模块具体用于在店铺信息库中查找与所述店铺名关键词的发音码相同或编辑距离小于预设值的店铺。
11.如权利要求10所述的装置,所述查找模块具体包括:
转化单元,用于在所述店铺名关键词为中文名时,将所述店铺名关键词的中文转化为拼音;
第一查找子单元,用于在店铺信息库中查找与所述拼音相同或编辑距离小于预设值的店铺。
12.如权利要求10所述的装置,所述查找模块具体包括:
编码处理单元,用于在所述店铺名关键词为英文名时,采用语音匹配算法对所述英文名进行编码处理,获得所述英文名的发音码;
第二查找子单元,用于在店铺信息库中查找与所述发音码相同或编辑距离小于预设值的店铺。
13.如权利要求12所述的装置,所述编码处理单元具体用于如下一种或多种方法,获得所述英文名中的发音码:
(a)在所述店铺名关键词为英文名时,采用语音匹配算法,按照英文的编码规则,对所述英文名中的不发音的字母删除;
(b)将所述英文名中与实际字母发音不相符的字母修改为相符的字母;
(c)将所述英文名中重复的字母去重;
(d)按照元音字母位于不同位置时的发音的不同进行保留或者删除。
14.如权利要求9所述的装置,还包括:
第一获取模块,用于从所述店铺信息库中获取所述查找到的店铺的第一店铺参数信息
第二获取模块,用于获取所述待接入店铺的第二店铺参数信息
计算模块,用于基于所述第一店铺参数信息和所述第二店铺参数信息,计算出所述查找到的店铺与所述待接入的店铺的相似度;
相似度评分结果获得模块,用于基于所述查找到的店铺的相似度以及相似度评分阈值,获得所述查找到的店铺的相似度评分结果。
15.一种店铺接入的装置,所述装置包括:
获取模块,用于获取待接入的店铺的店铺名;
提取模块,用于对所述店铺名进行切词,去除停用词和位置信息,获得店铺名关键词;
查找模块,用于基于所述店铺名关键词的发音,在店铺信息库中查找与所述店铺名关键词的发音相同或相似度达到预设条件的店铺,所述店铺信息库中存储有已接入店铺信息平台的店铺的店铺参数信息;
判断模块,用于基于查找到的店铺的第一店铺参数信息,以及所述待接入的店铺的第二店铺参数信息,判断所述待接入的店铺是否已接入所述店铺信息平台;
禁止模块,用于在已接入时,禁止所述待接入的店铺接入所述店铺信息平台;
接入模块,用于在未接入时,将所述待接入的店铺接入所述店铺信息平台。
16.根据权利要求15所述的装置,所述判断模块具体包括:
计算单元,用于基于所述第一店铺参数信息以及所述第二店铺参数信息,计算所述查找到的店铺分别与所述待接入的店铺的相似度;
获得单元,用于基于所述查找到的店铺的相似度以及相似度评分阈值,获得所述查找到的店铺的相似度评分结果;
判断子单元,用于基于所述查找到的店铺的相似度评分结果,判断所述待接入的店铺是否已接入所述店铺信息平台。
17.一种服务器,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1-8中任一项所述的方法的步骤。
18.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-8中任一项所述的方法步骤。
CN201810840191.0A 2018-07-27 2018-07-27 一种查找相似店铺的方法及装置、店铺接入的方法及装置 Pending CN109033370A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810840191.0A CN109033370A (zh) 2018-07-27 2018-07-27 一种查找相似店铺的方法及装置、店铺接入的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810840191.0A CN109033370A (zh) 2018-07-27 2018-07-27 一种查找相似店铺的方法及装置、店铺接入的方法及装置

Publications (1)

Publication Number Publication Date
CN109033370A true CN109033370A (zh) 2018-12-18

Family

ID=64645861

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810840191.0A Pending CN109033370A (zh) 2018-07-27 2018-07-27 一种查找相似店铺的方法及装置、店铺接入的方法及装置

Country Status (1)

Country Link
CN (1) CN109033370A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109885752A (zh) * 2019-01-14 2019-06-14 口碑(上海)信息技术有限公司 品牌词挖掘方法、装置、设备及可读存储介质
CN110889467A (zh) * 2019-12-20 2020-03-17 中国建设银行股份有限公司 一种公司名称匹配方法、装置、终端设备及存储介质
CN112149005A (zh) * 2019-06-27 2020-12-29 腾讯科技(深圳)有限公司 用于确定搜索结果的方法、装置、设备和可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102023984A (zh) * 2009-09-10 2011-04-20 阿里巴巴集团控股有限公司 甄别重复实体数据的方法和系统
CN102203777A (zh) * 2008-11-26 2011-09-28 三菱电机株式会社 设施检索装置
CN102385597A (zh) * 2010-08-31 2012-03-21 厦门雅迅网络股份有限公司 一种poi的容错搜索方法
CN102867040A (zh) * 2012-08-31 2013-01-09 中国科学院计算技术研究所 一种面向中文搜索引擎混杂语言的查询纠错方法及系统
CN103678674A (zh) * 2013-12-25 2014-03-26 乐视网信息技术(北京)股份有限公司 通过拼音进行纠错搜索的方法、装置及系统
CN106649851A (zh) * 2016-12-30 2017-05-10 徐庆 近似商标查询结果排序方法、装置及其商标服务器
CN107220334A (zh) * 2017-05-25 2017-09-29 北京小度信息科技有限公司 商户名称的相似度计算方法、装置及设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102203777A (zh) * 2008-11-26 2011-09-28 三菱电机株式会社 设施检索装置
CN102023984A (zh) * 2009-09-10 2011-04-20 阿里巴巴集团控股有限公司 甄别重复实体数据的方法和系统
CN102385597A (zh) * 2010-08-31 2012-03-21 厦门雅迅网络股份有限公司 一种poi的容错搜索方法
CN102867040A (zh) * 2012-08-31 2013-01-09 中国科学院计算技术研究所 一种面向中文搜索引擎混杂语言的查询纠错方法及系统
CN103678674A (zh) * 2013-12-25 2014-03-26 乐视网信息技术(北京)股份有限公司 通过拼音进行纠错搜索的方法、装置及系统
CN106649851A (zh) * 2016-12-30 2017-05-10 徐庆 近似商标查询结果排序方法、装置及其商标服务器
CN107220334A (zh) * 2017-05-25 2017-09-29 北京小度信息科技有限公司 商户名称的相似度计算方法、装置及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DAVID LOSHIN: "《数据质量改进实践指南》", 31 August 2016 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109885752A (zh) * 2019-01-14 2019-06-14 口碑(上海)信息技术有限公司 品牌词挖掘方法、装置、设备及可读存储介质
CN109885752B (zh) * 2019-01-14 2021-03-02 口碑(上海)信息技术有限公司 品牌词挖掘方法、装置、设备及可读存储介质
CN112149005A (zh) * 2019-06-27 2020-12-29 腾讯科技(深圳)有限公司 用于确定搜索结果的方法、装置、设备和可读存储介质
CN112149005B (zh) * 2019-06-27 2023-09-01 腾讯科技(深圳)有限公司 用于确定搜索结果的方法、装置、设备和可读存储介质
CN110889467A (zh) * 2019-12-20 2020-03-17 中国建设银行股份有限公司 一种公司名称匹配方法、装置、终端设备及存储介质

Similar Documents

Publication Publication Date Title
CN108388559B (zh) 地理空间应用下的命名实体识别方法及系统、计算机程序
CN109657054B (zh) 摘要生成方法、装置、服务器及存储介质
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
CN112395395B (zh) 文本关键词提取方法、装置、设备及存储介质
JP2020027649A (ja) エンティティ関係データ生成方法、装置、機器、及び記憶媒体
CN110096573B (zh) 一种文本解析方法及装置
JP7362998B2 (ja) Poi状態情報を取得する方法、及び装置
CN111259160B (zh) 知识图谱构建方法、装置、设备及存储介质
US20130232147A1 (en) Generating a taxonomy from unstructured information
CN107291858A (zh) 一种基于字符串后缀的数据索引方法
CN109033370A (zh) 一种查找相似店铺的方法及装置、店铺接入的方法及装置
Bouillot et al. How and why exploit tweet’s location information
CN107291684A (zh) 语言文本的分词方法和系统
CN108121697A (zh) 一种文本改写的方法、装置、设备和计算机存储介质
CN110737774A (zh) 图书知识图谱的构建、图书推荐方法、装置、设备及介质
CN102930048A (zh) 使用参考和视觉数据的语义自动发现的数据丰富
CN109213990A (zh) 一种特征提取方法、装置和服务器
CN116662583B (zh) 一种文本生成方法、地点检索方法及相关装置
CN110263140B (zh) 一种主题词的挖掘方法、装置、电子设备及存储介质
CN110232160B (zh) 兴趣点变迁事件检测方法、装置及存储介质
CN113807102B (zh) 建立语义表示模型的方法、装置、设备和计算机存储介质
CN113420119B (zh) 基于知识卡片的智能问答方法、装置、设备及存储介质
CN114707003A (zh) 一种论文作者姓名消歧的方法、设备及储存介质
CN107066601A (zh) 文件对比管理方法及系统
CN113010642A (zh) 语义关系的识别方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181218