CN103942693A - 识别杂货铺的方法、装置及搜索店铺的方法、系统 - Google Patents

识别杂货铺的方法、装置及搜索店铺的方法、系统 Download PDF

Info

Publication number
CN103942693A
CN103942693A CN201310019559.4A CN201310019559A CN103942693A CN 103942693 A CN103942693 A CN 103942693A CN 201310019559 A CN201310019559 A CN 201310019559A CN 103942693 A CN103942693 A CN 103942693A
Authority
CN
China
Prior art keywords
industry
shop
product
word
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310019559.4A
Other languages
English (en)
Other versions
CN103942693B (zh
Inventor
宋超
冯景华
张一楠
陈超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201310019559.4A priority Critical patent/CN103942693B/zh
Publication of CN103942693A publication Critical patent/CN103942693A/zh
Application granted granted Critical
Publication of CN103942693B publication Critical patent/CN103942693B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本申请提供了一种识别杂货铺的方法及装置,以实现准确识别杂货铺的目的,避免因行业信息填写不准确或类目作弊导致的识别不准确的问题。其中一种识别杂货铺的方法包括:获取指定店铺的产品信息,并从所述产品信息中提取出所述指定店铺的核心产品词;统计所述指定店铺的核心产品词在所述指定店铺的产品信息中出现的频率,作为核心产品词对应的产品词频率;识别所述指定店铺的核心产品词所属的行业,并根据属于同一行业的核心产品词对应的产品词频率,计算所述行业在所述指定店铺中出现的频率,作为行业频率;根据所述行业频率计算所述指定店铺所属的各个行业的产品占比,并依据各个行业的产品占比判定所述指定店铺是否为杂货铺。

Description

识别杂货铺的方法、装置及搜索店铺的方法、系统
技术领域
本申请涉及搜索技术,特别是涉及一种识别杂货铺的方法、装置及搜索店铺的方法、系统。
背景技术
目前电子商务网站(简称电商网站)提供了便利的产品信息以及供应商获取途径,但是这些电商网站提供的供应商实力良莠不齐,用户无法快速从海量的信息中找到有实力、专业性强的供应商。而这类专业性强的供应商往往经营领域比较集中,专注于做某个特定领域的产品,而不是从事多个领域、每个领域做的都不够专业的杂货铺。因此,需要将这些从事多个领域、不够专业的杂货铺从大量的店铺信息中识别出来,以提高搜索准确率。
电子商务网站发布的产品信息中包含产品所属的类目,现有的杂货铺识别方法是直接统计电子商务网站发布的类目信息,以类目代表行业,根据每个行业的占比识别出杂货铺。
但是,如果发布的产品信息没有填写准确的类目,或者进行类目作弊,例如:在发布的时候将店铺中涉及多个行业的产品类目全部设置为某个行业,上述识别方法将不能准确识别出杂货铺店铺。
发明内容
本申请提供了一种识别杂货铺的方法及装置,以实现准确识别杂货铺的目的,避免因行业信息填写不准确或类目作弊导致的识别不准确的问题。
相应的,本申请还提供了一种搜索店铺的方法及系统,在搜索的时候降低杂货铺的排序,从而提高搜索准确率。
为了解决上述问题,本申请公开了一种识别杂货铺的方法,包括:
获取指定店铺的产品信息,并从所述产品信息中提取出所述指定店铺的核心产品词;
统计所述指定店铺的核心产品词在所述指定店铺的产品信息中出现的频率,作为核心产品词对应的产品词频率;
识别所述指定店铺的核心产品词所属的行业,并根据属于同一行业的核心产品词对应的产品词频率,计算所述行业在所述指定店铺中出现的频率,作为行业频率;
根据所述行业频率计算所述指定店铺所属的各个行业的产品占比,并依据各个行业的产品占比判定所述指定店铺是否为杂货铺。
可选地,所述从所述产品信息中提取出所述指定店铺的核心产品词,包括:
从所述产品信息中提取出标题,并对所述标题进行切词,得到切词结果;
将所述切词结果与核心产品词表进行匹配,匹配到的核心产品词作为所述指定店铺的核心产品词。
可选地,所述识别所述指定店铺的核心产品词所属的行业包括:
统计核心产品词的行业点击率;
将所述核心产品词的行业点击率与各行业的行业阈值进行匹配,判断所述核心产品词的行业点击率是否达到行业阈值;
若所述核心产品词的行业点击率达到行业阈值,则判定该核心产品词属于该行业。
可选地,所述根据属于同一行业的核心产品词对应的产品词频率,计算所述行业在所述指定店铺中出现的频率,包括:
将所述属于同一行业的核心产品词对应的产品词频率进行加和,作为该行业在所述指定店铺中出现的频率。
可选地,所述根据所述行业频率计算所述指定店铺所属的各个行业的产品占比包括:
将所述行业的行业频率相加作为行业总频率;
将所述行业的行业频率与所述行业总频率相除,相除的商作为该行业的产品占比。
可选地,所述依据各个行业的产品占比判定所述指定店铺是否为杂货铺包括:
当指定店铺中有两个行业的产品占比超过阈值时,判定该店铺为杂货铺。
本申请还公开了一种搜索店铺的方法,包括:
接收搜索关键词;
查找与所述搜索关键词相匹配的店铺,得到候选店铺;
将所述候选店铺中识别为杂货铺的候选店铺排在未识别为杂货铺的候选店铺之后并输出;
所述杂货铺通过以下步骤识别:
将所述候选店铺作为指定店铺,获取指定店铺的产品信息,并从所述产品信息中提取出所述指定店铺的核心产品词;
统计所述指定店铺的核心产品词在所述指定店铺的产品信息中出现的频率,作为核心产品词对应的产品词频率;
识别所述指定店铺的核心产品词所属的行业,并根据属于同一行业的核心产品词对应的产品词频率,计算所述行业在所述指定店铺中出现的频率,作为行业频率;
根据所述行业频率计算所述指定店铺所属的各个行业的产品占比,并依据各个行业的产品占比判定所述指定店铺是否为杂货铺。
本申请还公开了一种识别杂货铺的装置,包括:
提取模块,用于获取指定店铺的产品信息,并从所述产品信息中提取出所述指定店铺的核心产品词;
产品词频率计算模块,用于统计所述指定店铺的核心产品词在所述指定店铺的产品信息中出现的频率,作为核心产品词对应的产品词频率;
行业频率计算模块,用于识别所述指定店铺的核心产品词所属的行业,并根据属于同一行业的核心产品词对应的产品词频率,计算所述行业在所述指定店铺中出现的频率,作为行业频率;
判定模块,用于根据所述行业频率计算所述指定店铺所属的各个行业的产品占比,并依据各个行业的产品占比判定所述指定店铺是否为杂货铺。
可选地,所述提取模块包括:
提取子模块,用于从所述产品信息中提取出标题,并对所述标题进行切词,得到切词结果;
匹配子模块,用于将所述切词结果与核心产品词表进行匹配,匹配到的核心产品词作为所述指定店铺的核心产品词。
可选地,所述行业频率计算模块包括:
行业识别子模块,用于统计核心产品词的行业点击率,并将所述核心产品词的行业点击率与各行业的行业阈值进行匹配,判断所述核心产品词的行业点击率是否达到行业阈值;若所述核心产品词的行业点击率达到行业阈值,则判定该核心产品词属于该行业;
计算子模块,用于将所述属于同一行业的核心产品词对应的产品词频率进行加和,作为该行业在所述指定店铺中出现的频率。
可选地,所述判定模块包括:
产品占比计算子模块,用于将每个行业的行业频率相加作为行业总频率,并将每个行业的行业频率与所述行业总频率相除,相除的商作为该行业的产品占比;
判定子模块,用于当指定店铺中有两个行业的产品占比超过阈值时,判定该店铺为杂货铺。
本申请还公开了一种搜索店铺的系统,包括:
接收模块,用于接收搜索关键词;
查找模块,用于查找与所述搜索关键词相匹配的店铺,得到候选店铺;
排序模块,用于将所述候选店铺中识别为杂货铺的候选店铺排在未识别为杂货铺的候选店铺之后并输出;
所述杂货铺通过以下模块识别:
提取模块,用于将所述候选店铺作为指定店铺,获取指定店铺的产品信息,并从所述产品信息中提取出所述指定店铺的核心产品词;
产品词频率计算模块,用于统计所述指定店铺的核心产品词在所述指定店铺的产品信息中出现的频率,作为核心产品词对应的产品词频率;
行业频率计算模块,用于识别所述指定店铺的核心产品词所属的行业,并根据属于同一行业的核心产品词对应的产品词频率,计算所述行业在所述指定店铺中出现的频率,作为行业频率;
判定模块,用于根据所述行业频率计算所述指定店铺所属的各个行业的产品占比,并依据各个行业的产品占比判定所述指定店铺是否为杂货铺。
与现有技术相比,本申请包括以下优点:
本申请实施例提供的识别杂货铺的方法,首先从指定店铺的产品信息中提取出核心产品词,其次,统计核心产品词在指定店铺中的产品词频率,并基于用户的搜索点击行为挖掘出核心产品词对应的行业;最后,根据行业频率计算指定店铺所属的各个行业的产品占比,并依据各个行业的产品占比判定所述指定店铺是否为杂货铺。由于本申请实施例是根据从产品信息中提取到的核心产品词识别出产品分布,再根据产品分布识别出所属的行业,而不是直接使用用户填写的行业信息,因此可以避免卖家行业分布信息填写不准确或类目作弊导致的杂货铺识别不准确的问题,提高了识别杂货铺的准确率。
本申请实施例提供的搜索店铺的方法,可以在搜索的时候将这些从事多个领域,不够专业的杂货铺从大量的店铺中识别出来,并降低其排序,从而提高搜索的准确率。
当然,实施本申请的任一产品不一定需要同时达到以上所述的所有优点。
附图说明
图1是本申请实施例所述一种识别杂货铺的方法的流程图;
图2是本申请实施例所述指定店铺的产品信息示意图;
图3是本申请实施例所述指定店铺的一条产品信息示意图;
图4是本申请实施例所述一种识别杂货铺的装置的结构框图;
图5是本申请实施例所述一种搜索店铺的方法的流程图;
图6是本申请实施例所述一种搜索店铺的系统的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
杂货铺是指从事多个领域,每个领域做的都不够专业的店铺。本申请就是将这些从事多个领域,不够专业的杂货铺从大量的店铺中识别出来。
本申请是从卖家发布的产品信息的标题或其他商品描述信息中挖掘出核心产品词,并且基于用户的搜索点击行为挖掘出核心产品词对应的行业,最后统计行业的分布,根据行业分布识别出杂货铺。下面通过实施例进行详细说明。
参照图1,其示出了本申请实施例所述一种识别杂货铺的方法的流程图,本实施例具体可以包括以下步骤:
步骤100,获取指定店铺的产品信息,并从所述产品信息中提取出所述指定店铺的核心产品词;
指定店铺是指本次要识别的某个店铺,没有特别指定,可以理解为是泛指某个待识别的店铺。
如图2所示是一家指定店铺的产品信息示意图,店铺的每条产品信息通常包含标题、属性、类目、价格、图片、详情页面的描述信息等几个部分,产品信息是由店铺的卖家自行填写的。
下面以图3所示的该指定店铺的一条产品信息为例进行说明。在图3所示的产品信息中,“新中长款 大码 毛衣 女装 宽松 休闲 蝙蝠..”是标题,¥25是价格。行业信息没有展现出来,是用户从类目体系中选择的,例如图3的产品信息用户会指定到“毛衣”类目,属于“女装”行业。类目是一整个体系:例如“服装”下面有“女装”、“男装”、“童装”等类目,而“女装”类目下面又有“连衣裙”、“毛衣”、“牛仔裤”、“T恤”、“羽绒服”、“皮衣”等类目。
本实施例中可以采用以下方式从所述产品信息中提取出所述指定店铺的核心产品词:
首先,从所述产品信息中提取出标题,并对所述标题进行切词,得到切词结果;
所谓切词,是指将一个汉字序列切分成一个一个单独的词。例如,从图3所示的产品信息中提取出标题“新中长款 大码 毛衣 女装 宽松 休闲 蝙蝠..”,然后对标题进行切词,结果为“新中长款、大码、毛衣、女装、宽松、休闲、蝙蝠”。
其次,将所述切词结果与核心产品词表进行匹配,匹配到的核心产品词作为所述指定店铺的核心产品词。
核心产品词表记录了能够标识产品的词,可以通过训练模型获得,也可以通过经验人工标注。例如,“连衣裙”、“起重机”、“玩具”等能够标识产品的词都位于核心产品词表中,而“女式连衣裙”中的“女式”为产品修饰词,并不在核心产品词表中。
将上述切词结果中的词与核心产品词表进行匹配,在核心产品词表中出现的词作为核心产品词。例如,上述切词结果中出现在核心产品词表中的词为“毛衣”,即图3所示的产品信息中,核心产品词为“毛衣”。
同理,可以从图2所示的指定店铺的产品信息中,取到核心产品词“毛衣”、“针织衫”、“蝙蝠衫”、“收纳盒”、“挂袋”。
需要说明的是,本申请也可以采用其他的核心产品词提取方式,本申请的保护范围不应限定于上述实施例。
步骤102,统计所述指定店铺的核心产品词在所述指定店铺的产品信息中出现的频率,作为核心产品词对应的产品词频率;
例如,在图2所示的指定店铺中,核心产品词“毛衣”出现了4次,所以该核心产品词“毛衣”对应的产品词频率为4。同理,核心产品词“针织衫”对应的产品词频率为3,核心产品词“蝙蝠衫”对应的产品词频率为1,核心产品词“收纳盒”对应的产品词频率为3,核心产品词“挂袋”对应的产品词频率为1。如表1所示:
核心产品词 频率
毛衣 4
针织衫 3
蝙蝠衫 1
收纳盒 3
挂袋 1
表1,指定店铺中各核心产品词对应的产品词频率
步骤104,识别所述指定店铺的核心产品词所属的行业,并根据属于同一行业的核心产品词对应的产品词频率,计算各行业在所述指定店铺中出现的频率,作为行业频率;
每个核心产品词都有其对应的行业,例如,核心产品词“连衣裙”对应的行业是“女装”,核心产品词“橘子”对应的行业是“水果”。
在本实施例中识别所述指定店铺的核心产品词所属的行业具体可以通过以下方式实现,当然,本申请的保护范围不限定于此识别方式:
首先,统计核心产品词的行业点击率;
所述行业点击率是通过统计用户搜索该核心产品词时点击的行业来识别的。例如,用户在搜索“毛衣”时,搜索引擎根据用户的搜索词,返回到产品的搜索列表,用户在搜索列表中选择相关的产品,点击进入详情页面。在这个过程中大部分用户点击的产品都属于“服装”行业,因此可以通过统计大规模的用户点击行为,来得到行业点击率。
其次,将所述核心产品词的行业点击率与各行业的行业阈值进行匹配,判断所述核心产品词的行业点击率是否达到行业阈值;若所述核心产品词的行业点击率达到行业阈值,则判定该核心产品词属于该行业。
每个行业都有其对应的行业阈值,当核心产品词的行业点击率达到行业阈值的时候,判定该核心产品词属于该行业,当所述核心产品词的行业点击率未达到行业阈值,则判定该核心产品词不属于该行业,作为噪音进行去除。例如,“服装”行业的行业阈值为0.2,用户在搜索“服装”的时的点击记录如下:连衣裙100词,毛衣80次,羽绒服50次、童裙3次,则核心产品词“连衣裙”的行业点击率为0.4292(100/(100+80+50+3)=0.4292),核心产品词“毛衣”的行业点击率为0.3433(80/(100+80+50+3)=0.4292),核心产品词“羽绒服”的行业点击率为0.2146(50/(100+80+50+3)=0.4292),核心产品词“挂袋”的行业点击率为0.0129(3/(100+80+50+3)=0.4292)。核心产品词“连衣裙”、“毛衣”和“羽绒服”的行业点击率都大于或等于“服装”行业的行业阈值为0.2,因此“连衣裙”、“毛衣”和“羽绒服”都属于“服装”行业,而“挂袋”的行业点击率小于“服装”行业的行业阈值为0.2,因此“挂袋”并不属于“服装”行业,应作为点击噪音去除掉。
同理,采用上述识别方法,可以得知图2所示的指定店铺中,核心产品词“毛衣”、“针织衫”和“蝙蝠衫”都属于“服装”行业,核心产品词“收纳盒”和“挂袋”属于“家居用品”行业。
在本实施例中可以将所述属于同一行业的核心产品词对应的产品词频率进行加和,作为该行业在所述指定店铺中出现的频率。
具体地,可以将属于同一行业的核心产品词对应的产品词频率相加,结果作为该行业在所示指定店铺中出现的频率,例如图2所示的指定店铺中,将属于同一行业“服装”的核心产品词“毛衣”对应的产品词频率4、核心产品词“针织衫”对应的产品词频率3和核心产品词“蝙蝠衫”对应的产品词频率1相加,结果8作为“服装”行业在指定店铺中出现的频率,即在指定店铺中“服装”行业的行业频率为8。同理,可以计算得到指定店铺中“家居用品”的行业频率为4(3+1=4),如表2所示:
行业 频率
服装 8
家居用品 4
表2,指定店铺中各行业的行业频率
需要说明的是,本实施例是以简单的相加求和为例进行说明的,实际应用时也可以采用其他方式如加权求和的方式来实现,将属于同一行业的核心产品词对应的产品词频率进行加权以后求和,作为该行业的行业频率。
步骤106,根据所述行业频率计算所述指定店铺所属的各个行业的产品占比,并依据各个行业的产品占比判定所述指定店铺是否为杂货铺。
本实施例中可以采用以下公式计算各个行业的产品占比:
Ratio i = tf i Σ i = 1 n tf i
其中,Ratioi表示产品占比;fi表示某一行业在指定店铺中出现的频率,即行业频率;表示指定店铺所属的所有行业的行业频率之和,即下文所说的行业总频率。
本实施例中根据所述行业频率计算所述指定店铺所属的各个行业的产品占比具体可以通过以下方式实现:
首先,将所述行业的行业频率相加作为行业总频率;
例如,将表2所示的服装行业的行业频率8和家居用品的行业频率4相加,结果12作为行业总频率。
其次,将所述行业的行业频率与所述行业总频率相除,相除的商作为该行业的产品占比。
例如,将服装行业的行业频率8与行业总频率12相除,相除的商0.67(8/12=0.67)作为服装行业的产品占比;将家居用品行业的行业频率4与行业总频率12相除,相除的商4(4/12=0.33)作为服装行业的产品占比。
本实施例中所述依据各个行业的产品占比判定所述指定店铺是否为杂货铺包括:当指定店铺中有两个行业的产品占比超过阈值时,判定该店铺为杂货铺。
例如,在本实施例中,阈值设为20%,在图2所示的指定店铺中,服装行业的产品占比为0.67,即67%,已经超过上述设定的阈值20%;家居用品行业的产品占比为0.33,即33%,同样超过上述设定的阈值20%,显然图2所示的指定店铺中,有两个行业的产品占比都超过了预设的阈值,因此判定图2所示指定店铺为杂货铺。
综上所述,本申请实施例首先从指定店铺的产品信息中提取出核心产品词,其次,统计核心产品词在指定店铺中的产品词频率,并基于用户的搜索点击行为挖掘出核心产品词对应的行业;最后,根据行业频率计算指定店铺所属的各个行业的产品占比,并依据各个行业的产品占比判定所述指定店铺是否为杂货铺。由于本申请实施例是根据从产品信息中提取到的核心产品词识别出产品分布,再根据产品分布识别出所属的行业,而不是直接使用用户填写的行业信息,可以避免卖家行业分布信息填写不准确或类目作弊导致的杂货铺识别不准确的问题,提高了识别杂货铺的准确率。
基于上述识别杂货铺的方法的实施例的描述,本申请提供了相应的识别杂货铺的装置实施例,具体如下:
参照图4,其示出了本申请实施例所述一种识别杂货铺的装置的结构框图,本实施例具体可以包括以下模块:提取模块10、产品词频率计算模块12、行业频率计算模块14和判定模块16,其中:
提取模块10,用于获取指定店铺的产品信息,并从所述产品信息中提取出所述指定店铺的核心产品词;
本实施例中提取模块10具体可以包括以下子模块:
提取子模块,用于从所述产品信息中提取出标题,并对所述标题进行切词,得到切词结果;
以图3所示的该指定店铺的一条产品信息为例进行说明,在图3所示的产品信息中,“新中长款 大码 毛衣 女装 宽松 休闲 蝙蝠..”是标题。
所谓切词,是指将一个汉字序列切分成一个一个单独的词。例如,从图3所示的产品信息中提取出标题“新中长款 大码 毛衣 女装 宽松 休闲 蝙蝠..”,然后对标题进行切词,结果为“新中长款、大码、毛衣、女装、宽松、休闲、蝙蝠”。
匹配子模块,用于将所述切词结果与核心产品词表进行匹配,匹配到的核心产品词作为所述指定店铺的核心产品词。
核心产品词表记录了能够标识产品的词,可以通过经验人工标注。例如,“连衣裙”、“起重机”、“玩具”等能够标识产品的词都位于核心产品词表中,而“女式连衣裙”中的“女式”为产品修饰词,并不在核心产品词表中。
将上述切词结果中的词与核心产品词表进行匹配,在核心产品词表中出现的词作为核心产品词,上述切词结果中出现在和核心产品词表中的词为“毛衣”,即图3所示的产品信息中,核心产品词为“毛衣”。
同理,匹配子模块可以从图2所示的指定店铺的产品信息中,取到核心产品词“毛衣”、“针织衫”、“蝙蝠衫”、“收纳盒”、“挂袋”。
产品词频率计算模块12,用于统计所述指定店铺的核心产品词在所述指定店铺的产品信息中出现的频率,作为核心产品词对应的产品词频率;
例如,在图2所示的指定店铺中,核心产品词“毛衣”出现了4次,所以产品词频率计算模块12计算得到该核心产品词“毛衣”对应的产品词频率为4。同理,产品词频率计算模块12计算得到核心产品词“针织衫”对应的产品词频率为3,核心产品词“蝙蝠衫”对应的产品词频率为1,核心产品词“收纳盒”对应的产品词频率为3,核心产品词“挂袋”对应的产品词频率为1。
行业频率计算模块14,用于识别所述指定店铺的核心产品词所属的行业,并根据属于同一行业的核心产品词对应的产品词频率,计算所述行业在所述指定店铺中出现的频率,作为行业频率;
每个核心产品词都有其对应的行业,例如,核心产品词“连衣裙”对应的行业是“女装”,核心产品词“橘子”对应的行业是“水果”。
本实施例中行业频率计算模块14具体可以包括以下子模块:
行业识别子模块,用于统计核心产品词的行业点击率,并将所述核心产品词的行业点击率与各行业的行业阈值进行匹配,判断所述核心产品词的行业点击率是否达到行业阈值;若所述核心产品词的行业点击率达到行业阈值,则判定该核心产品词属于该行业;
所述行业点击率是通过统计用户搜索该核心产品词时点击的行业来识别的。例如,用户在搜索“毛衣”时,搜索引擎根据用户的搜索词,返回到产品的搜索列表,用户在搜索列表中选择相关的产品,点击进入详情页面。在这个过程中大部分用户点击的产品都属于“服装”行业,因此可以通过统计大规模的用户点击行为,来得到行业点击率。
每个行业都有其对应的行业阈值,当核心产品词的行业点击率达到行业阈值的时候,判定该核心产品词属于该行业,当所述核心产品词的行业点击率未达到行业阈值,则判定该核心产品词不属于该行业,作为噪音进行去除。例如,“服装”行业的行业阈值为0.2,用户在搜索“服装”的时的点击记录如下:连衣裙100词,毛衣80次,羽绒服50次、童裙3次,则核心产品词“连衣裙”的行业点击率为0.4292(100/(100+80+50+3)=0.4292),核心产品词“毛衣”的行业点击率为0.3433,核心产品词“羽绒服”的行业点击率为0.2146,核心产品词“挂袋”的行业点击率为0.0129。核心产品词“连衣裙”、“毛衣”和“羽绒服”的行业点击率都大于或等于“服装”行业的行业阈值为0.2,因此“连衣裙”、“毛衣”和“羽绒服”都属于“服装”行业,而“挂袋”的行业点击率小于“服装”行业的行业阈值为0.2,因此“挂袋”并不属于“服装”行业,应作为点击噪音去除掉。
同理,采用上述识别方法,可以得知图2所示的指定店铺中,核心产品词“毛衣”、“针织衫”和“蝙蝠衫”都属于“服装”行业,核心产品词“收纳盒”和“挂袋”属于“家居用品”行业。
计算子模块,用于将所述属于同一行业的核心产品词对应的产品词频率进行加和,作为该行业在所述指定店铺中出现的频率。
在本实施例中可以将所述属于同一行业的核心产品词对应的产品词频率进行加和,作为该行业在所述指定店铺中出现的频率。
具体地,计算子模块可以将属于同一行业的核心产品词对应的产品词频率相加,结果作为该行业在所示指定店铺中出现的频率,例如图2所示的指定店铺中,将属于同一行业“服装”的核心产品词“毛衣”对应的产品词频率4、核心产品词“针织衫”对应的产品词频率3和核心产品词“蝙蝠衫”对应的产品词频率1相加,结果8作为“服装”行业在指定店铺中出现的频率,即在指定店铺中“服装”行业的行业频率为8。同理,可以计算得到指定店铺中“家居用品”的行业频率为4(3+1=4)。
需要说明的是,本实施例是以简单的相加求和为例进行说明的,实际应用时计算子模块也可以采用加权求和的方式来实现,将属于同一行业的核心产品词对应的产品词频率进行加权以后求和,作为该行业的行业频率。
判定模块16,用于根据所述行业频率计算所述指定店铺所属的各个行业的产品占比,并依据各个行业的产品占比判定所述指定店铺是否为杂货铺。
本实施例中判定模块16具体可以包括以下子模块:
产品占比计算子模块,用于将每个行业的行业频率相加作为行业总频率,并将每个行业的行业频率与所述行业总频率相除,相除的商作为该行业的产品占比;
例如,产品占比计算子模块将表2所示的服装行业的行业频率8和家居用品的行业频率4相加,结果12作为行业总频率。然后,产品占比计算子模块将服装行业的行业频率8与行业总频率12相除,相除的商0.67(8/12=0.67)作为服装行业的产品占比;将家居用品行业的行业频率4与行业总频率12相除,相除的商4(4/12=0.33)作为服装行业的产品占比。
判定子模块,用于当指定店铺中有两个行业的产品占比超过阈值时,判定该店铺为杂货铺。
例如,在本实施例中,阈值设为20%,在图2所示的指定店铺中,服装行业的产品占比为0.67,即67%,已经超过上述设定的阈值20%;家居用品行业的产品占比为0.33,即33%,同样超过上述设定的阈值20%,显然图2所示的指定店铺中,有两个行业的产品占比都超过了预设的阈值,因此判定子模块判定图2所示指定店铺为杂货铺。
本申请实施例中提取模块10从指定店铺的产品信息中提取出核心产品词,然后产品词频率计算模块12统计核心产品词在指定店铺中的产品词频率,行业频率计算模块14基于用户的搜索点击行为挖掘出核心产品词对应的行业;判定模块16根据行业频率计算指定店铺所属的各个行业的产品占比,并依据各个行业的产品占比判定所述指定店铺是否为杂货铺。由于本申请实施例是根据从产品信息中提取到的核心产品词识别出产品分布,再根据产品分布识别出所属的行业,而不是直接使用用户填写的行业信息,可以避免卖家行业分布信息填写不准确或类目作弊导致的杂货铺识别不准确的问题,提高了识别杂货铺的准确率。
对于上述识别杂货铺的装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见图1所示识别杂货铺的方法实施例的部分说明即可。
基于上述识别杂货铺的方法的实施例的描述,本申请提供了相应的搜索店铺的方法实施例,可以在搜索的时候降低杂货铺的排序,从而提高搜索准确率,具体如下:
参照图5,其示出了本申请实施例所述一种搜索店铺的方法的流程图,本实施例具体可以包括以下步骤:
步骤200,接收搜索关键词;
搜索关键词是指买家在搜索店铺的时候输入的关键词,例如,女装。
步骤202,查找与所述搜索关键词相匹配的店铺,得到候选店铺;
候选店铺中包含与搜索关键词相关的产品,例如搜索关键词为女装,与女装相关的产品有连衣裙、女式毛衣和女式羽绒服等,如果一家店铺中包含连衣裙、女式毛衣或女式羽绒服等产品,则该店铺为候选店铺。
步骤204,将所述候选店铺中识别为杂货铺的候选店铺排在未识别为杂货铺的候选店铺之后并输出;
杂货铺是指从事多个领域,每个领域做的都不够专业的店铺。本实施例需要在搜索的时候将这些从事多个领域,不够专业的杂货铺从大量的店铺中识别出来,并降低其排序,从而提高搜索的准确率。
本实施例中所述杂货铺具体可以通过以下步骤识别:
步骤100,将所述候选店铺作为指定店铺,获取指定店铺的产品信息,并从所述产品信息中提取出所述指定店铺的核心产品词;
步骤102,统计所述指定店铺的核心产品词在所述指定店铺的产品信息中出现的频率,作为核心产品词对应的产品词频率;
步骤104,识别所述指定店铺的核心产品词所属的行业,并根据属于同一行业的核心产品词对应的产品词频率,计算所述行业在所述指定店铺中出现的频率,作为行业频率;
步骤106,根据所述行业频率计算所述指定店铺所属的各个行业的产品占比,并依据各个行业的产品占比判定所述指定店铺是否为杂货铺。
对于上述识别杂货铺的步骤而言,由于在识别杂货铺的方法实施例中已经进行了详细的描述,相关之处参见图1所示的识别杂货铺的方法实施例的说明即可,本实施例在此不做赘述。
基于上述搜索店铺的方法实施例的描述,本申请提供了相应的搜索店铺的系统实施例,具体如下:
参照图6,其示出了本申请实施例所述一种搜索店铺的系统的结构框图,本实施例具体可以包括以下模块:
接收模块20,用于接收搜索关键词;
查找模块22,用于查找与所述搜索关键词相匹配的店铺,得到候选店铺;
排序模块24,用于将所述候选店铺中识别为杂货铺的候选店铺排在未识别为杂货铺的候选店铺之后并输出;
本实施例中所述杂货铺具体可以通过以下模块识别:
提取模块10,用于将所述候选店铺作为指定店铺,获取指定店铺的产品信息,并从所述产品信息中提取出所述指定店铺的核心产品词;
产品词频率计算模块12,用于统计所述指定店铺的核心产品词在所述指定店铺的产品信息中出现的频率,作为核心产品词对应的产品词频率;
行业频率计算模块14,用于识别所述指定店铺的核心产品词所属的行业,并根据属于同一行业的核心产品词对应的产品词频率,计算所述行业在所述指定店铺中出现的频率,作为行业频率;
判定模块16,用于根据所述行业频率计算所述指定店铺所属的各个行业的产品占比,并依据各个行业的产品占比判定所述指定店铺是否为杂货铺。
对于上述识别杂货铺的模块而言,由于在识别杂货铺的装置实施例中已经进行了详细的描述,相关之处参见图4所示的识别杂货铺的装置实施例的说明即可,本实施例在此不做赘述。
杂货铺是指从事多个领域,每个领域做的都不够专业的店铺。本实施例提供的搜索店铺的系统,可以在搜索的时候将这些从事多个领域,不够专业的杂货铺从大量的店铺中识别出来,并降低其排序,从而提高搜索的准确率。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域技术人员易于想到的是:上述各个实施例的任意组合应用都是可行的,故上述各个实施例之间的任意组合都是本申请的实施方案,但是由于篇幅限制,本说明书在此就不一一详述了。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
以上对本申请所提供的一种识别杂货铺的方法、装置及搜索店铺的方法、系统,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (12)

1.一种识别杂货铺的方法,其特征在于,包括:
获取指定店铺的产品信息,并从所述产品信息中提取出所述指定店铺的核心产品词;
统计所述指定店铺的核心产品词在所述指定店铺的产品信息中出现的频率,作为核心产品词对应的产品词频率;
识别所述指定店铺的核心产品词所属的行业,并根据属于同一行业的核心产品词对应的产品词频率,计算所述行业在所述指定店铺中出现的频率,作为行业频率;
根据所述行业频率计算所述指定店铺所属的各个行业的产品占比,并依据各个行业的产品占比判定所述指定店铺是否为杂货铺。
2.根据权利要求1所述的方法,其特征在于,所述从所述产品信息中提取出所述指定店铺的核心产品词,包括:
从所述产品信息中提取出标题,并对所述标题进行切词,得到切词结果;
将所述切词结果与核心产品词表进行匹配,匹配到的核心产品词作为所述指定店铺的核心产品词。
3.根据权利要求1所述的方法,其特征在于,所述识别所述指定店铺的核心产品词所属的行业包括:
统计核心产品词的行业点击率;
将所述核心产品词的行业点击率与各行业的行业阈值进行匹配,判断所述核心产品词的行业点击率是否达到行业阈值;
若所述核心产品词的行业点击率达到行业阈值,则判定该核心产品词属于该行业。
4.根据权利要求1所述的方法,其特征在于,所述根据属于同一行业的核心产品词对应的产品词频率,计算所述行业在所述指定店铺中出现的频率,包括:
将所述属于同一行业的核心产品词对应的产品词频率进行加和,作为该行业在所述指定店铺中出现的频率。
5.根据权利要求1所述的方法,其特征在于,所述根据所述行业频率计算所述指定店铺所属的各个行业的产品占比包括:
将所述行业的行业频率相加作为行业总频率;
将所述行业的行业频率与所述行业总频率相除,相除的商作为该行业的产品占比。
6.根据权利要求1所述的方法,其特征在于,所述依据各个行业的产品占比判定所述指定店铺是否为杂货铺包括:
当指定店铺中有两个行业的产品占比超过阈值时,判定该店铺为杂货铺。
7.一种搜索店铺的方法,其特征在于,包括:
接收搜索关键词;
查找与所述搜索关键词相匹配的店铺,得到候选店铺;
将所述候选店铺中识别为杂货铺的候选店铺排在未识别为杂货铺的候选店铺之后并输出;
所述杂货铺通过以下步骤识别:
将所述候选店铺作为指定店铺,获取指定店铺的产品信息,并从所述产品信息中提取出所述指定店铺的核心产品词;
统计所述指定店铺的核心产品词在所述指定店铺的产品信息中出现的频率,作为核心产品词对应的产品词频率;
识别所述指定店铺的核心产品词所属的行业,并根据属于同一行业的核心产品词对应的产品词频率,计算所述行业在所述指定店铺中出现的频率,作为行业频率;
根据所述行业频率计算所述指定店铺所属的各个行业的产品占比,并依据各个行业的产品占比判定所述指定店铺是否为杂货铺。
8.一种识别杂货铺的装置,其特征在于,包括:
提取模块,用于获取指定店铺的产品信息,并从所述产品信息中提取出所述指定店铺的核心产品词;
产品词频率计算模块,用于统计所述指定店铺的核心产品词在所述指定店铺的产品信息中出现的频率,作为核心产品词对应的产品词频率;
行业频率计算模块,用于识别所述指定店铺的核心产品词所属的行业,并根据属于同一行业的核心产品词对应的产品词频率,计算所述行业在所述指定店铺中出现的频率,作为行业频率;
判定模块,用于根据所述行业频率计算所述指定店铺所属的各个行业的产品占比,并依据各个行业的产品占比判定所述指定店铺是否为杂货铺。
9.根据权利要求8所述的装置,其特征在于,所述提取模块包括:
提取子模块,用于从所述产品信息中提取出标题,并对所述标题进行切词,得到切词结果;
匹配子模块,用于将所述切词结果与核心产品词表进行匹配,匹配到的核心产品词作为所述指定店铺的核心产品词。
10.根据权利要求8所述的装置,其特征在于,所述行业频率计算模块包括:
行业识别子模块,用于统计核心产品词的行业点击率,并将所述核心产品词的行业点击率与各行业的行业阈值进行匹配,判断所述核心产品词的行业点击率是否达到行业阈值;若所述核心产品词的行业点击率达到行业阈值,则判定该核心产品词属于该行业;
计算子模块,用于将所述属于同一行业的核心产品词对应的产品词频率进行加和,作为该行业在所述指定店铺中出现的频率。
11.根据权利要求8所述的装置,其特征在于,所述判定模块包括:
产品占比计算子模块,用于将每个行业的行业频率相加作为行业总频率,并将每个行业的行业频率与所述行业总频率相除,相除的商作为该行业的产品占比;
判定子模块,用于当指定店铺中有两个行业的产品占比超过阈值时,判定该店铺为杂货铺。
12.一种搜索店铺的系统,其特征在于,包括:
接收模块,用于接收搜索关键词;
查找模块,用于查找与所述搜索关键词相匹配的店铺,得到候选店铺;
排序模块,用于将所述候选店铺中识别为杂货铺的候选店铺排在未识别为杂货铺的候选店铺之后并输出;
所述杂货铺通过以下模块识别:
提取模块,用于将所述候选店铺作为指定店铺,获取指定店铺的产品信息,并从所述产品信息中提取出所述指定店铺的核心产品词;
产品词频率计算模块,用于统计所述指定店铺的核心产品词在所述指定店铺的产品信息中出现的频率,作为核心产品词对应的产品词频率;
行业频率计算模块,用于识别所述指定店铺的核心产品词所属的行业,并根据属于同一行业的核心产品词对应的产品词频率,计算所述行业在所述指定店铺中出现的频率,作为行业频率;
判定模块,用于根据所述行业频率计算所述指定店铺所属的各个行业的产品占比,并依据各个行业的产品占比判定所述指定店铺是否为杂货铺。
CN201310019559.4A 2013-01-18 2013-01-18 识别杂货铺的方法、装置及搜索店铺的方法、系统 Active CN103942693B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310019559.4A CN103942693B (zh) 2013-01-18 2013-01-18 识别杂货铺的方法、装置及搜索店铺的方法、系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310019559.4A CN103942693B (zh) 2013-01-18 2013-01-18 识别杂货铺的方法、装置及搜索店铺的方法、系统

Publications (2)

Publication Number Publication Date
CN103942693A true CN103942693A (zh) 2014-07-23
CN103942693B CN103942693B (zh) 2017-11-14

Family

ID=51190353

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310019559.4A Active CN103942693B (zh) 2013-01-18 2013-01-18 识别杂货铺的方法、装置及搜索店铺的方法、系统

Country Status (1)

Country Link
CN (1) CN103942693B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107463616A (zh) * 2017-07-03 2017-12-12 上海凡响网络科技有限公司 一种企业信息分析方法及系统
CN107832338A (zh) * 2017-10-12 2018-03-23 北京京东尚科信息技术有限公司 一种识别核心产品词的方法和系统
CN109003133A (zh) * 2018-07-20 2018-12-14 阿里巴巴集团控股有限公司 一种线下店铺识别的方法及装置
CN109885752A (zh) * 2019-01-14 2019-06-14 口碑(上海)信息技术有限公司 品牌词挖掘方法、装置、设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040143600A1 (en) * 1993-06-18 2004-07-22 Musgrove Timothy Allen Content aggregation method and apparatus for on-line purchasing system
CN101593200A (zh) * 2009-06-19 2009-12-02 淮海工学院 基于关键词频度分析的中文网页分类方法
CN101794311A (zh) * 2010-03-05 2010-08-04 南京邮电大学 基于模糊数据挖掘的中文网页自动分类方法
CN102779136A (zh) * 2011-05-13 2012-11-14 北京搜狗科技发展有限公司 一种信息搜索的方法和装置
CN102841904A (zh) * 2011-06-24 2012-12-26 阿里巴巴集团控股有限公司 一种搜索方法及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040143600A1 (en) * 1993-06-18 2004-07-22 Musgrove Timothy Allen Content aggregation method and apparatus for on-line purchasing system
CN101593200A (zh) * 2009-06-19 2009-12-02 淮海工学院 基于关键词频度分析的中文网页分类方法
CN101794311A (zh) * 2010-03-05 2010-08-04 南京邮电大学 基于模糊数据挖掘的中文网页自动分类方法
CN102779136A (zh) * 2011-05-13 2012-11-14 北京搜狗科技发展有限公司 一种信息搜索的方法和装置
CN102841904A (zh) * 2011-06-24 2012-12-26 阿里巴巴集团控股有限公司 一种搜索方法及设备

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107463616A (zh) * 2017-07-03 2017-12-12 上海凡响网络科技有限公司 一种企业信息分析方法及系统
CN107463616B (zh) * 2017-07-03 2020-04-10 上海凡响网络科技有限公司 一种企业信息分析方法及系统
CN107832338A (zh) * 2017-10-12 2018-03-23 北京京东尚科信息技术有限公司 一种识别核心产品词的方法和系统
WO2019072098A1 (zh) * 2017-10-12 2019-04-18 北京京东尚科信息技术有限公司 一种识别核心产品词的方法和系统
CN107832338B (zh) * 2017-10-12 2020-02-07 北京京东尚科信息技术有限公司 一种识别核心产品词的方法和系统
US11741094B2 (en) 2017-10-12 2023-08-29 Beijing Jingdong Shangke Information Technology Co., Ltd. Method and system for identifying core product terms
CN109003133A (zh) * 2018-07-20 2018-12-14 阿里巴巴集团控股有限公司 一种线下店铺识别的方法及装置
CN109885752A (zh) * 2019-01-14 2019-06-14 口碑(上海)信息技术有限公司 品牌词挖掘方法、装置、设备及可读存储介质
CN109885752B (zh) * 2019-01-14 2021-03-02 口碑(上海)信息技术有限公司 品牌词挖掘方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN103942693B (zh) 2017-11-14

Similar Documents

Publication Publication Date Title
TWI787196B (zh) 業務對象屬性標識的生成方法、裝置和系統
CN103577423B (zh) 关键词分类方法及系统
CN102375823B (zh) 搜索结果聚合显示方法及系统
CN104252456B (zh) 一种权重估计方法、装置及系统
CN107122980B (zh) 识别商品所属类目的方法和装置
CN107632984A (zh) 一种聚类数据表的展现方法、装置和系统
CN103914492A (zh) 查询词融合方法、商品信息发布方法和搜索方法及系统
CN109816482B (zh) 电商平台的知识图谱构建方法、装置、设备及存储介质
CN104881798A (zh) 基于商品图像特征的个性化搜索装置及方法
US9727906B1 (en) Generating item clusters based on aggregated search history data
CN103577432A (zh) 一种商品信息搜索方法和系统
JP2015526831A (ja) 製品識別子のラベル付けおよび製品のナビゲーション
CN103870505A (zh) 一种查询词推荐方法和查询词推荐系统
CN104111941A (zh) 信息展示的方法及设备
CN105138690B (zh) 确定关键词的方法和装置
CN104850567A (zh) 一种识别网络用户之间关联关系的方法和装置
CN105023178B (zh) 一种基于本体的电子商务推荐方法
Yan et al. Differentiated fashion recommendation using knowledge graph and data augmentation
CN103778553A (zh) 一种商品属性推荐方法及系统
CN103123632A (zh) 搜索中心词确定方法及装置、搜索方法及搜索设备
CN106933867A (zh) 一种图像查询方法和装置
CN105653562A (zh) 一种文本内容与查询请求之间相关性的计算方法及装置
CN104915860A (zh) 一种商品推荐方法及装置
CN103942693A (zh) 识别杂货铺的方法、装置及搜索店铺的方法、系统
CN104123285A (zh) 搜索结果的导航方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant