CN109885752A - 品牌词挖掘方法、装置、设备及可读存储介质 - Google Patents
品牌词挖掘方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN109885752A CN109885752A CN201910032786.8A CN201910032786A CN109885752A CN 109885752 A CN109885752 A CN 109885752A CN 201910032786 A CN201910032786 A CN 201910032786A CN 109885752 A CN109885752 A CN 109885752A
- Authority
- CN
- China
- Prior art keywords
- word
- shop
- brand
- segmentation
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种品牌词挖掘方法、装置、设备及可读存储介质,涉及互联网技术领域,可以利用店铺的真实情况生成目标品牌词,实现对店铺的划分,保证品牌词的挖掘过程与店铺的实际情况相符,避免对用户造成误导,用户粘度较高。所述方法包括:在店铺名称中确定第一分段词串,根据第一分段词串的频率数据,在第一分段词串中提取候选品牌词;分别确定多个候选品牌词中每个候选品牌词的关联店铺,根据关联店铺的菜品名称,在关联店铺中提取真实店铺;将多个候选品牌词的真实店铺进行比对,计算多个候选品牌词之间的店铺相似度;将多个候选品牌词中店铺相似度大于相似度阈值的候选品牌词进行合并,得到至少一个目标品牌词。
Description
技术领域
本发明涉及互联网技术领域,特别是涉及一种品牌词挖掘方法、装置、设备及可读存储介质。
背景技术
随着互联网技术的不断发展以及智能终端的日益普及,人们的生活、工作等与智能终端息息相关。目前,智能终端为用户提供了各式各样的便利性,例如智能终端提供电子支付、手机点餐等功能,因此,基于互联网技术实现现代化管理的餐厅越来越多。通常来说,智能终端会基于管理平台为餐厅提供点餐服务,为了使用户可以在基于智能终端看到不同的餐厅以及各个餐厅中提供的各种菜品,管理平台会对接入的餐厅进行整合。由于这些餐厅中存在连锁餐厅,连锁餐厅同属于一个品牌,品牌的效应很可能会影响用户的选择以及餐厅的销量,因此,在对餐厅进行整合时,会对餐厅的品牌词进行挖掘,以便基于挖掘得到的品牌词对不同的餐厅进行统一的管理。
相关技术中,在对餐厅品牌进行挖掘时,通常由工作人员统一线下收集和管理或者通过店铺名称进行单一挖掘,获取名称中的高频词作为品牌词,并将得到的品牌词进行统一整合,实现对品牌词的挖掘。
在实现本发明的过程中,发明人发现相关技术至少存在以下问题:
有些餐厅的店铺名称与餐厅中贩卖的商品并不具有实际的联系,部分挖掘到的品牌词无法正确描绘餐厅的实际情况或者挖掘到的品牌词是错误的,导致一些餐厅被划分在非其真实品牌下的另一品牌或者多家不存在品牌联系的店铺分为同一不存在的品牌下,挖掘出来的品牌词并不具有区分能力和实际店铺品牌表达能力,造成后续品牌店铺无法管理,甚至也会造成运营决策错误,为错误的品牌店铺进行推荐和组织活动,浪费了大量资源。
发明内容
有鉴于此,本发明提供了一种品牌词挖掘方法、装置、设备及可读存储介质,主要目的在于解决目前挖掘到的品牌词无法正确描绘餐厅的实际情况,导致一些餐厅被划分为伪餐厅,与实际情况不符,对用户造成误导,用户粘度较低的问题。
依据本发明第一方面,提供了一种品牌词挖掘方法,该方法包括:
在所述多个店铺名称中确定多个第一分段词串,根据所述多个第一分段词串的频率数据,在所述多个第一分段词串中提取多个候选品牌词,所述候选品牌词的频率数据大于等于频率阈值;
分别确定所述多个候选品牌词中每个候选品牌词的关联店铺,根据所述关联店铺的菜品名称,在所述关联店铺中提取真实店铺,所述真实店铺的菜品名称符合对应候选品牌词的名称框选标准;
将所述多个候选品牌词的真实店铺进行比对,计算所述多个候选品牌词之间的店铺相似度;
将所述多个候选品牌词中店铺相似度大于相似度阈值的候选品牌词进行合并,得到至少一个目标品牌词。
在另一个实施例中,所述在所述多个店铺名称中确定第一分段词串,根据所述第一分段词串的频率数据,在所述第一分段词串中提取多个候选品牌词,包括:
按照预设词长,对所述多个店铺名称进行词语分割,得到满足所述预设词长的多个第一分段词串,并统计所述多个店铺名称的名称总数;
基于所述多个第一分段词串和所述名称总数,分别计算所述多个第一分段词串的共现概率、共现成词率以及内聚程度作为频率数据;
获取概率阈值、成词率阈值和内聚阈值,分别依次将所述多个第一分段词串的所述共现概率、所述共现成词率和所述内聚程度与所述概率阈值、所述成词率阈值和所述内聚阈值进行比对;
在所述多个第一分段词串中提取所述共现概率、所述共现成词率和所述内聚程度均大于等于所述概率阈值、所述成词率阈值和所述内聚阈值的多个第一分段词串作为所述多个候选品牌词。
在另一个实施例中,所述基于所述多个第一分段词串和所述名称总数,分别计算所述多个第一分段词串的共现概率、共现成词率以及内聚程度作为频率数据,包括:
对于所述多个第一分段词串中的每个第一分段词串,统计包括所述第一分段词串的店铺名称的第一个数,计算所述第一个数与所述名称总数之间的第一比值作为所述第一分段词串的共现概率;
将所述第一分段词串进行划分,得到多个单字符,统计包括所述多个单字符的店铺名称的第二个数,计算所述第二个数与所述名称总数之间的第二比值,并计算所述第一比值与所述第二比值之间的第三比值作为所述第一分段词串的共现成词率;
分别统计包括所述多个单字符中每个单字符的店铺名称的多个第三个数,计算所述多个第三个数的个数乘积,并计算所述第二个数与所述个数乘积的比值作为内聚程度;
将所述共现概率、所述共现成词率和所述内聚程度作为所述第一分段词串的频率数据。
在另一个实施例中,所述分别确定所述多个候选品牌词中每个候选品牌词的关联店铺,根据所述关联店铺的菜品名称,在所述关联店铺中提取真实店铺,包括:
对于所述多个候选品牌词中的任一候选品牌词,获取所述候选品牌词的关联店铺的全部菜品名称;
对所述全部菜品名称进行词语分割,得到多个第二分段词串;
分别统计多个第二分段词串中每个第二分段词串在所述关联店铺的菜品名称中的第一出现次数,生成所述关联店铺的特征向量;
确定预设标准点,获取所述预设标准点的标准向量,计算所述标准向量与所述特征向量的余弦值,将所述余弦值作为所述关联店铺与所述预设标准点之间的向量距离;
获取距离阈值,基于所述距离阈值对所述向量距离进行框选,在所述关联店铺中提取所述向量距离大于等于所述距离阈值的关联店铺作为所述真实店铺。
在另一个实施例中,所述将所述多个候选品牌词的真实店铺进行比对,计算所述多个候选品牌词之间的店铺相似度,包括:
分别确定所述多个候选品牌词对应的行业类型,按照所述行业类型,对所述多个候选品牌词进行分类,得到至少一个品牌词集;
对于所述至少一个品牌词集中的每个品牌词集,获取所述品牌词集所属的行业类型对应的特征空间;
基于所述特征空间,分别确定所述品牌词集中包括的候选品牌词在所述特征空间中的特征向量;
计算所述品牌词集中包括的候选品牌词的特征向量之间的相似度作为所述多个候选品牌词之间的店铺相似度。
在另一个实施例中,所述对于所述至少一个品牌词集中的每个品牌词集,获取所述品牌词集所属的行业类型对应的特征空间,包括:
对于所述至少一个品牌词集中的每个品牌词集,确定所述品牌词集包括的全部候选品牌词,获取所述全部候选品牌词的真实店铺的多个菜品名称;
对所述全部候选品牌词的真实店铺的多个菜品名称进行切词,得到多个第三分段词串;
对所述多个第三分段词串进行整合,生成所述品牌词集所属的行业类型对应的特征空间。
在另一个实施例中,所述基于所述特征空间,分别确定所述品牌词集中包括的候选品牌词在所述特征空间中的特征向量,包括:
对于所述品牌词集中包括的任一候选品牌词,获取所述候选品牌词的真实店铺的多个菜品名称,将所述多个菜品名称进行切词,得到多个第四分段词串;
分别统计所述多个第四分段词串中每个第四分段词串在所述特征向量中的第二出现次数;
将所述多个第四分段词串中每个第四分段词串的第二出现次数进行整合,生成所述品牌词集中包括的候选品牌词在所述特征空间中的特征向量。
依据本发明第二方面,提供了一种品牌词挖掘装置,该装置包括:
第一提取模块,用于在所述多个店铺名称中确定多个第一分段词串,根据所述多个第一分段词串的频率数据,在所述多个第一分段词串中提取多个候选品牌词,所述候选品牌词的频率数据大于等于频率阈值;
第二提取模块,用于分别确定所述多个候选品牌词中每个候选品牌词的关联店铺,根据所述关联店铺的菜品名称,在所述关联店铺中提取真实店铺,所述真实店铺的菜品名称符合对应候选品牌词的名称框选标准;
比对模块,用于将所述多个候选品牌词的真实店铺进行比对,计算所述多个候选品牌词之间的店铺相似度;
合并模块,用于将所述多个候选品牌词中店铺相似度大于相似度阈值的候选品牌词进行合并,得到至少一个目标品牌词。
在另一个实施例中,所述第一提取模块,包括:
分割单元,用于按照预设词长,对所述多个店铺名称进行词语分割,得到满足所述预设词长的多个第一分段词串,并统计所述多个店铺名称的名称总数;
计算单元,用于基于所述多个第一分段词串和所述名称总数,分别计算所述多个第一分段词串的共现概率、共现成词率以及内聚程度作为频率数据;
比对单元,用于获取概率阈值、成词率阈值和内聚阈值,分别依次将所述多个第一分段词串的所述共现概率、所述共现成词率和所述内聚程度与所述概率阈值、所述成词率阈值和所述内聚阈值进行比对;
提取单元,用于在所述多个第一分段词串中提取所述共现概率、所述共现成词率和所述内聚程度均大于等于所述概率阈值、所述成词率阈值和所述内聚阈值的多个第一分段词串作为所述多个候选品牌词。
在另一个实施例中,所述计算单元,用于对于所述多个第一分段词串中的每个第一分段词串,统计包括所述第一分段词串的店铺名称的第一个数,计算所述第一个数与所述名称总数之间的第一比值作为所述第一分段词串的共现概率;将所述第一分段词串进行划分,得到多个单字符,统计包括所述多个单字符的店铺名称的第二个数,计算所述第二个数与所述名称总数之间的第二比值,并计算所述第一比值与所述第二比值之间的第三比值作为所述第一分段词串的共现成词率;分别统计包括所述多个单字符中每个单字符的店铺名称的多个第三个数,计算所述多个第三个数的个数乘积,并计算所述第二个数与所述个数乘积的比值作为内聚程度;将所述共现概率、所述共现成词率和所述内聚程度作为所述第一分段词串的频率数据。
在另一个实施例中,所述第二提取模块,包括:
获取单元,用于对于所述多个候选品牌词中的任一候选品牌词,获取所述候选品牌词的关联店铺的全部菜品名称;
分割单元,用于对所述全部菜品名称进行词语分割,得到多个第二分段词串;
统计单元,用于分别统计多个第二分段词串中每个第二分段词串在所述关联店铺的菜品名称中的第一出现次数,生成所述关联店铺的特征向量;
计算单元,用于确定预设标准点,获取所述预设标准点的标准向量,计算所述标准向量与所述特征向量的余弦值,将所述余弦值作为所述关联店铺与所述预设标准点之间的向量距离;
提取单元,用于获取距离阈值,基于所述距离阈值对所述向量距离进行框选,在所述关联店铺中提取所述向量距离大于等于所述距离阈值的关联店铺作为所述真实店铺。
在另一个实施例中,所述比对模块,包括:
分类单元,用于分别确定所述多个候选品牌词对应的行业类型,按照所述行业类型,对所述多个候选品牌词进行分类,得到至少一个品牌词集;
获取单元,用于对于所述至少一个品牌词集中的每个品牌词集,获取所述品牌词集所属的行业类型对应的特征空间;
确定单元,用于基于所述特征空间,分别确定所述品牌词集中包括的候选品牌词在所述特征空间中的特征向量;
计算单元,用于计算所述品牌词集中包括的候选品牌词的特征向量之间的相似度作为所述多个候选品牌词之间的店铺相似度。
在另一个实施例中,所述获取单元,用于对于所述至少一个品牌词集中的每个品牌词集,确定所述品牌词集包括的全部候选品牌词,获取所述全部候选品牌词的真实店铺的多个菜品名称;对所述全部候选品牌词的真实店铺的多个菜品名称进行切词,得到多个第三分段词串;对所述多个第三分段词串进行整合,生成所述品牌词集所属的行业类型对应的特征空间。
在另一个实施例中,所述确定单元,用于对于所述品牌词集中包括的任一候选品牌词,获取所述候选品牌词的真实店铺的多个菜品名称,将所述多个菜品名称进行切词,得到多个第四分段词串;分别统计所述多个第四分段词串中每个第四分段词串在所述特征向量中的第二出现次数;将所述多个第四分段词串中每个第四分段词串的第二出现次数进行整合,生成所述品牌词集中包括的候选品牌词在所述特征空间中的特征向量。
依据本发明第三方面,提供了一种设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述方法的步骤。
依据本发明第四方面,提供了一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法的步骤。
借由上述技术方案,本发明提供的一种品牌词挖掘方法、装置、设备及可读存储介质,与目前工作人员统一对餐厅的店铺名称进行挖掘的方式相比,本发明根据店铺名称的多个第一分段词串的频率数据,提取候选品牌词,并在候选品牌词的关联店铺中确定真实店铺,基于不同候选品牌词的真实店铺之间的店铺相似度,将同类的候选品牌词进行合并,得到目标品牌词,利用店铺的真实情况生成目标品牌词,实现对店铺的划分,保证品牌词的挖掘过程与店铺的实际情况相符,避免对用户造成误导,用户粘度较高。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种品牌词挖掘方法流程示意图;
图2示出了本发明实施例提供的一种品牌词挖掘方法流程示意图;
图3A示出了本发明实施例提供的一种品牌词挖掘装置的结构示意图;
图3B示出了本发明实施例提供的一种品牌词挖掘装置的结构示意图;
图3C示出了本发明实施例提供的一种品牌词挖掘装置的结构示意图;
图3D示出了本发明实施例提供的一种品牌词挖掘装置的结构示意图;
图4示出了本发明实施例提供的一种设备的装置结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种品牌词挖掘方法,可以根据店铺名称的多个第一分段词串的频率数据,提取候选品牌词,并在候选品牌词的关联店铺中确定真实店铺,基于不同候选品牌词的真实店铺之间的店铺相似度,将同类的候选品牌词进行合并,得到目标品牌词,达到了利用店铺的真实情况生成目标品牌词,实现对店铺的划分,保证品牌词的挖掘过程与店铺的实际情况相符,避免对用户造成误导,用户粘度较高的目的,如图1所示,该方法包括:
101、在多个店铺名称中确定多个第一分段词串,根据多个第一分段词串的频率数据,在多个第一分段词串中提取多个候选品牌词,候选品牌词的频率数据大于等于频率阈值。
在本发明实施例中,由于对共现率较高、共现成词率较高且内聚程度较高的品牌词进行分析才是有意义的,因此,需要对店铺名称进行分割,得到多个第一分段词串,并根据多个第一分段词串的频率数据,在第一分段词串中提取候选品牌词。
102、分别确定多个候选品牌词中每个候选品牌词的关联店铺,根据关联店铺的菜品名称,在关联店铺中提取真实店铺,真实店铺的菜品名称符合对应候选品牌词的名称框选标准。
在本发明实施例中,考虑到有些候选品牌词的相关店铺中是存在虚假的店铺的,这些虚假的店铺并不具有研究价值,且可能会影响候选品牌词的分析结果,因此,分别确定多个候选品牌词中每个候选品牌词的关联店铺,根据关联店铺的菜品名称,在关联店铺中提取真实店铺。其中,由于关联店铺所提供的菜品名称才可以证明关联店铺的真实情况,因此,根据关联店铺的菜品名称,在关联店铺中提取真实店铺。
103、将多个候选品牌词的真实店铺进行比对,计算多个候选品牌词之间的店铺相似度。
在本发明实施例中,考虑到有些候选品牌词是同属于一个实际品牌的,可以进行合并,因此,将多个候选品牌词的真实店铺进行比对,计算多个候选品牌词之间的店铺相似度,以便在后续将店铺相似度较高的候选品牌词进行合并,避免造成大量无用的工作量。
104、将多个候选品牌词中店铺相似度大于相似度阈值的候选品牌词进行合并,得到至少一个目标品牌词。
在本发明实施例中,在计算多个候选品牌词之间的店铺相似度后,便可以将多个候选品牌词中店铺相似度大于相似度阈值的候选品牌词进行合并,从而得到最终的至少一个目标品牌词。
本发明实施例提供的方法,可以根据店铺名称的多个第一分段词串的频率数据,提取候选品牌词,并在候选品牌词的关联店铺中确定真实店铺,基于不同候选品牌词的真实店铺之间的店铺相似度,将同类的候选品牌词进行合并,得到目标品牌词,利用店铺的真实情况生成目标品牌词,实现对店铺的划分,保证品牌词的挖掘过程与店铺的实际情况相符,优化了对品牌店铺的管理,提高了运营决策的正确率,避免在为品牌店铺进行推荐和组织活动时浪费资源。
本发明实施例提供了一种品牌词挖掘方法,可以根据店铺名称的多个第一分段词串的频率数据,提取候选品牌词,并在候选品牌词的关联店铺中确定真实店铺,基于不同候选品牌词的真实店铺之间的店铺相似度,将同类的候选品牌词进行合并,得到目标品牌词,达到了利用店铺的真实情况生成目标品牌词,实现对店铺的划分,保证品牌词的挖掘过程与店铺的实际情况相符,避免对用户造成误导,用户粘度较高的目的,如图2所示,该方法包括:
201、按照预设词长,对多个店铺名称进行词语分割,得到满足预设词长的多个第一分段词串,并统计多个店铺名称的名称总数。
在本发明实施例中,发明人认识到,真正经营生意的店铺在线上开店时,由于店铺的名称与店铺的经营是息息相关的,因此,店铺通常很注重店铺名称选择,会采用可以体现店铺内经营的商品的特性来命名,不会随意对待自己的店铺名称,因此,可以利用大多数真正经营的店铺的店铺名称进行品牌词的挖掘,从而保证挖掘到的品牌词是符合实际情况的,以便后续基于挖掘到的品牌词对管理平台中接入的店铺进行管理。
其中,为了使品牌词的挖掘过程更加细致,达到利用词语的共现性以及独立性进行挖掘的目的,需要采用词语分割的方式将目前管理平台中接入的店铺名称进行分割,得到多个第一分段词串,从而基于多个第一分段词串的共现性以及独立性来选择候选品牌词。
在对店铺名称进行词语分割时,为了统一得到的分段词串的长度,可以设置希望挖掘品牌词的长度作为预设词长,并按照预设词长对目前管理平台中接入的多个店铺名称进行词语分割,从而得到多个第一分段词串。例如,假设预设词长为3,店铺名称为“五道口黄焖鸡米饭”,则按照预设词长对店铺名称进行划分后,可以得到的多个第一分段词串分别为“五道口”、“道口黄”、“口黄焖”、“黄焖鸡”“焖鸡米”和“鸡米饭”。通过上述举例的方式,便可以完成对接入至管理平台中的全部店铺名称进行的词语分割。为了后续计算每一个第一分段词串的频率数据,还需要统计目前接入至管理平台的店铺名称的名称总数。
202、基于多个第一分段词串和名称总数,分别计算多个第一分段词串的共现概率、共现成词率以及内聚程度作为频率数据。
在本发明实施例中,考虑到在确定候选品牌词时需要同时考虑第一分段词串的共现性和独立性,因此,可以分别计算多个第一分段词串中每个第一分段词串的共现概率、共现成词率以及内聚程度作为频率数据,以便后续综合每个第一分段词串的频率数据确定候选品牌词。其中,在计算包括共现概率、共现成词率以及内聚程度的频率数据时,可以分别通过执行下述步骤一至步骤三实现。
步骤一、计算共现频率。
共现频率也即第一分段词串在全部的店铺名称中出现的频率,可以通过共享频率来表达第一分段词串是否可以被评定为高频词。在计算共现频率时,对于多个第一分段词串中的每个第一分段词串,首先,统计包括第一分段词串的店铺名称的第一个数;随后,计算第一个数与名称总数之间的第一比值作为第一分段词串的共现概率。
例如,在计算第一分段词串“鸡米饭”的共现概率时,假设目前接入管理平台的全部店铺名称有5个,分别为“网红黄焖鸡米饭”、“五道口黄焖鸡米饭”、“黄帝焖面”、“口水鸡配米饭”和“口口黄桃水果”,则包括第一分段词串“鸡米饭”的店铺名称有2个,分别为“网红黄焖鸡米饭”和“五道口黄焖鸡米饭”,因此,第一个数为2个,名称总数为5个,计算得到的共现概率为2/5=0.4。其中,在表示共现概率时,可以采用P(第一分段词串)表示,例如,P(鸡米饭)。需要说明的是,在统计包括第一分段词串的店铺名称的第一个数时,需要保证店铺名称包括了第一分段词串的整体,并不是包括第一分段词串中全部的单字符,例如,店铺名称“口水鸡配米饭”包括了第一分段词串“鸡米饭”中全部三个单字符,但是并没有组成词串“鸡米饭”,因此,店铺名称“口水鸡配米饭”不可以算作包括第一分段词串。
步骤二、计算共现成词率。
共现成词率也即包括第一分段词串的全部单字符的店铺名称同时包括整个第一分段词串的频率,可以通过共现成词率来表达第一分段词串中的单字符在同时出现时,有多少几率组成第一分段词串。在计算共现成词率时,需要先计算包括多个单字符的店铺名称的第二个数;随后,计算包括整个第一分段词串的店铺名称的个数,也即上述提及的第一个数;最后,计算第一个数与第二个数之间的比值作为共现成词率。例如,继续以第一分段词串为“鸡米饭”为例进行说明,第一分段词串“鸡米饭”的共现成词率的意义也即在“鸡”、“米”、“饭”同时出现时,形成“鸡米饭”的概率。继续以上述的店铺名称为例,可以看到“鸡”、“米”、“饭”一起出现的店铺名称有3个,分别为“网红黄焖鸡米饭”、“五道口黄焖鸡米饭”和“口水鸡配米饭”,也即第二个数为3,而在这种前提下形成“鸡米饭”的次数为2,因此,可以计算得到共现成词率为2/3=0.67。其中,可以采用P(鸡米饭∣鸡,米,饭)表示共现成词率。
需要说明的是,在店铺名称较少的情况下,统计“鸡”、“米”、“饭”同时出现的个数以及“鸡米饭”出现的个数是较为简单的,但是在店铺名称较多的情况下进行这种统计是需要较长的工作量的,因此,可以利用贝叶斯公式进行简单的转换。其中,在进行转换时,设共现成词率为P(w1w2w3∣w1,w2,w3),利用共现成词率的特性可知,P(w1w2w3∣w1,w2,w3)P(w1,w2,w3)=P(w1,w2,w3∣w1w2w3)P(w1w2w3),因此,可以得到P(w1w2w3∣w1,w2,w3)=[1·P(w1w2w3)]/P(w1,w2,w3)=P(w1w2w3)/P(w1,w2,w3),也即在生成共现成词率时,可以先统计包括多个单字符的店铺名称的第二个数,计算第二个数与名称总数之间的第二比值;随后,计算第一比值与第二比值之间的第三比值作为第一分段词串的共现成词率。继续以第一分段词串为“鸡米饭”为例进行说明,如果要计算P(鸡米饭∣鸡,米,饭)的值,只要得到P(鸡米饭)的值和P(鸡,米,饭),并计算P(鸡米饭)与P(鸡,米,饭)的比值即可。其中,在上述步骤一中计算得到的P(鸡米饭)的值为2/5,P(鸡,米,饭)的值为第二个数与名称总数的比值,也即3/5,因此,可以直接得到P(鸡米饭∣鸡,米,饭)为(2/5)÷(3/5)=2/3。
步骤三、计算内聚程度。
内聚程度也即包括第一分段词串的全部单字符的店铺名称与单字符各自出现的频率的比值,可以通过内聚程度表达单字符出现在同一店铺名称中的关联程度。在计算内聚程度时,首先,分别统计包括多个单字符中每个单字符的店铺名称的多个第三个数,并计算多个第三个数的个数乘积;随后,计算第二个数与个数乘积的比值作为内聚程度。
例如,继续以第一分段词串为“鸡米饭”为例进行说明,在独立性的意义中,“鸡米饭”的单字符出现频率的概率乘积应该为各个单字符完全不相关的情况下单字符共现的概率,也就是说,假设“鸡”、“米”、“饭”三个单字符完全不相关,那么下述公式1便会成立。
公式1:P(鸡,米,饭)=P(鸡)P(米)P(饭)=>P(鸡,米,饭)/P(鸡)P(米)P(饭)=1
因此,可以使用P(鸡,米,饭)/P(鸡)P(米)P(饭)来表示内聚程度,这样可知P(鸡)=3/5,P(米)=3/5,P(饭)=3/5,计算得到的内聚程度为(3/5)/[(3/5)·(3/5)(3/5)]=2.8。另外,通过上述过程可以计算“口焖黄”的内聚程度为(1/5)/[(3/5)·(3/5)(4/5)]=0.69。
需要说明的是,在本方案中,不仅要求单字符的共现,还要求单字符成词,因此,采用了真实共现成词率除以期望概率,也即采用共现成词率除以各个单字符出现概率的乘积得到内聚程度,且内聚程度的值越高则表示内聚程度越好。
通过上述步骤一至步骤二所述的过程,便可以为每一个第一分段词串计算共现概率、共现成词率和内聚程度,并将计算得到的共现概率、共现成词率和内聚程度作为对应的第一分段词串的频率数据,以便后续基于频率数据在第一分段词串中提取候选品牌词。
203、获取概率阈值、成词率阈值和内聚阈值,分别依次将多个第一分段词串的共现概率、共现成词率和内聚程度与概率阈值、成词率阈值和内聚阈值进行比对,在多个第一分段词串中提取共现概率、共现成词率和内聚程度均大于等于概率阈值、成词率阈值和内聚阈值的多个第一分段词串作为多个候选品牌词。
在本发明实施例中,为了使选择的候选品牌词是第一分段词串中出现频率最高、共现成词率最高以及内聚程度最高的词串,可以分别为共现概率、共现成词率和内聚程度设置概率阈值、成词率阈值和内聚阈值,并基于概率阈值、成词率阈值和内聚阈值对第一分段词串进行过滤,从而将满足阈值要求的第一分段词串作为候选品牌词。
其中,在提取候选品牌词时,首先,获取概率阈值、成词率阈值和内聚阈值,分别依次将多个第一分段词串的共现概率、共现成词率和内聚程度与概率阈值、成词率阈值和内聚阈值进行比对;随后,在多个第一分段词串中提取共现概率、共现成词率和内聚程度均大于等于概率阈值、成词率阈值和内聚阈值的多个第一分段词串作为多个候选品牌词。
需要说明的是,通过上述步骤201至步骤204,便可以在预设词长的第一分段词串中提取到候选品牌词。而在实际应用的过程中,在确定了预设词长的候选品牌词后,可以重新设置预设词长,并继续再次执行上述步骤201至步骤204,根据新设置的预设词长,确定新的候选品牌词。通常来说,新的预设词长为目前预设词长在数值上增加1,并在后续设置的预设词长达到了店铺名称词长的最大值时,停止执行上述步骤201至步骤204,从而可以得到不同预设词长的候选品牌词。
204、分别确定多个候选品牌词中每个候选品牌词的关联店铺,根据关联店铺的菜品名称,在关联店铺中提取真实店铺。
发明人认识到,真正的品牌词旗下的店铺所出售的菜品通常都是相似的,例如,“黄焖鸡”品牌下的店铺的菜品是与黄焖鸡相关的,因此,通过反向思维便可以过滤掉虚假的候选品牌词。另外,在真实的候选品牌词中,还可以掺杂有不属于该候选品牌词的店铺,也即虚假店铺,因此,还需要将每个候选品牌词的关联店铺中的虚假店铺过滤掉,从而留下菜品名称符合对应候选品牌词的名称框选标准的真实店铺进行进一步地分析。其中,在基于候选品牌词的关联店铺的菜品名称,在关联店铺中提取真实店铺时,可以通过下述步骤一至步骤四实现。
步骤一、对于多个候选品牌词中的任一候选品牌词,获取候选品牌词的关联店铺的全部菜品名称,对全部菜品名称进行词语分割,得到多个第二分段词串。
由于是根据候选品牌词的关联店铺实际售卖的菜品来确定是否存在虚假店铺,因此,为了可以更加细致的对关联店铺的菜品进行分析,对于多个候选品牌词中的任一候选品牌词,需要获取该候选品牌词的关联店铺的全部菜品名称,对全部菜品名称进行词语分割,得到多个第二分段词串,并在后续通过对第二分段词串进行分析,来过滤虚假店铺。
例如,设候选品牌词为“黄焖鸡”,该候选品牌词的关联店铺分别为S1“五道口黄焖鸡”,S2“小明黄焖鸡”,S3“假的黄焖鸡”,且三家店铺的菜品名称分别为S1【S1_D1“大份黄焖鸡”,S1_D2“小份黄焖鸡”,S1_D3“娃娃菜”,S1_D4“金针菇”】;S2【S2_D1“黄焖鸡微辣”,S2_D2“小份黄焖鸡”,S2_D3“娃娃菜”,S2_D3“土豆”】;S3【S3_D1“大份奶茶”,S3_D2“土豆奶茶”,S3_D3“丝袜奶茶”】,则通过对词语进行分割,得到的多个第二分段词串分别为【“大份”,“黄焖鸡”,“小份”,“娃娃菜”,“金针菇”,“微辣”,“土豆”,“奶茶”,“丝袜”】。需要说明的是,在对菜品名称进行词语分割时,可按照正常的语言组成词语的逻辑进行分割,也即按照习惯组词进行分割;还可以设置词长,并按照词长进行分割,本发明实施例对进行词语分割的方式不进行具体限定。
步骤二、分别统计多个第二分段词串中每个第二分段词串在关联店铺的菜品名称中的第一出现次数,生成关联店铺的特征向量。
当确定了多个第二分段词串后,为了根据店铺售卖的实际菜品表示与多个分段词串之间的关联关系,可以分别统计多个第二分段词串中每个第二分段词串在关联店铺的菜品名称中的第一出现次数,并为每个关联店铺生成特征向量,以便在后续基于特征向量对店铺进行分析。例如,继续以上述例子为例,为S1生成的特征向量可为S1【1,2,1,1,1,0,0,0,0】,S2【0,2,1,1,0,1,1,0,0】,S3【1,0,0,0,0,0,1,1,1】。
需要说明的是,本发明实施例中采用第二分段词串在菜品名称中的出现次数生成了每个关联店铺的特征向量,而在实际应用的过程中,也可以使用TF-IDF(TermFrequency-Inverse Document Frequency,词频-逆文本频率指数)等能够代表第二分段词串的权重的值作为每个关联店铺的特征向量,本发明实施例对生成特征向量的过程不进行具体限定。
步骤三、确定预设标准点,获取预设标准点的标准向量,计算标准向量与特征向量的余弦值,将余弦值作为关联店铺与预设标准点之间的向量距离。
由于每个关联店铺的菜品均采用特征向量体现,为了提取菜品名称与候选品牌词所规定的菜品最接近的店铺作为真实店铺,可以基于多个第二分段词串生成一个向量空间,并按照每个店铺的特征向量,在该向量空间中体现每一个店铺。
其中,为了根据特征向量确定哪一个店铺可以作为真实店铺,可在向量空间中设置一个用于对关联店铺进行评估的预设标准点,这样,获取预设标准点的标准向量,对于每一个关联店铺,计算该关联店铺的特征向量与标准向量之间的余弦值作为该关联店铺与预设标准点之间的向量距离,从而在后续通过评估该向量距离来提取关联店铺中的真实店铺。
继续以上述步骤二中的例子为例进行说明,设选取的预设标准点为O,标准向量为【1,1,1,1,1,1,1,1,1】,则便可以以该点O为中心,分别将S1,S2和S3按照特征向量的指示体现在向量空间中,并计算OS1的向量距离为cos(O,S1)=0.7,OS2的向量距离为cos(O,S2)=0.7,OS3的向量距离为cos(O,S3)=0.67。
步骤四、获取距离阈值,基于距离阈值对向量距离进行框选,在关联店铺中提取向量距离大于等于距离阈值的关联店铺作为真实店铺。
在本发明实施例中,由于每个关联店铺在向量空间中与预设标准点之间的向量距离即可表示该关联店铺与预设标准点之间的相似度,且相似度为1时,表示与预设标准点完全一致,也即与预设标准点之间的向量距离为0,因此,为了实现对关联店铺的框选,可以设置距离阈值,并基于该距离阈值对向量空间中体现出来的向量距离进行框选,选择向量距离大于等于距离阈值的关联店铺作为真实店铺。
继续以上述步骤三中的例子为例进行说明,设距离阈值为0.7,则可以确定S1和S2的向量距离满足距离阈值的框选要求,因此,将S1和S2作为真实店铺。
通过执行上述步骤204中的过程便可以确定候选品牌词的关联店铺中哪些是真实店铺,哪些是虚假店铺。而在实际应用的过程中,候选品牌词中也可能存在虚假的候选品牌词,这样,可以采用抽样均值相似值的方式对虚假品牌词进行筛选,具体过程为:对于每个候选品牌词,对候选品牌词的相关店铺进行抽样,两两计算抽样的关联店铺之间的相似度,并对这些抽样计算得到的相似度的分布进行分析,从而确定哪些候选品牌词是虚假品牌词,以便减轻由于候选品牌词的关联店铺的数量庞大造成的巨大计算量。例如,如果候选品牌词A中抽样计算的关联店铺两两之间的相似度普遍很低,或者相似度高的关联店铺占总体分布很小,则便可以认为该候选品牌词A为虚假的候选品牌词,可将该候选品牌词过滤掉。其中,在确定虚假店铺时,也可以采用抽样计算的方法,此处不再进行赘述。
205、分别确定多个候选品牌词对应的行业类型,按照行业类型,对多个候选品牌词进行分类,得到至少一个品牌词集。
在本发明实施例中,通过上述过程确定的候选品牌词在实际的情况中可能同属于一个真实的品牌中,同属于一个真实的品牌的候选品牌词可以进行合并,例如,候选品牌词“黄焖鸡”和“黄焖鸡米饭”在实际的情况中同属于一个真实的品牌,因此,可以按照每个候选品牌词对应的行业类型,对候选品牌词进行分类,从而得到至少一个品牌词集,每个品牌词集中包括的候选品牌词是相似的。
在对候选品牌词进行分类时,首先,确定多个候选品牌词中每个候选品牌词对应的行业类型;随后,按照行业类型,对多个候选品牌词进行分类,从而得到包括候选品牌词的至少一个品牌词集。其中,为了确定多个候选品牌词中每个候选品牌词所对应的行业类型,可以为每个行业类型设置样本品牌词,并将候选品牌词分别与每个行业类型的样本品牌词进行比对,将包括与候选品牌词一致的样本品牌词的行业类型作为该候选品牌词所属的行业类型,从而确定每一个候选品牌词的行业类型。当确定了每一个候选品牌词的行业类型后,便可以按照行业类型,对多个候选品牌词进行分类,从而得到至少一个品牌词集。例如,设多个候选品牌词分别为“黄焖鸡米饭”、“黄焖鸡”以及“奶茶”,其中,行业类型“黄焖鸡”包括的样本品牌词分别为“黄焖鸡米饭”、“黄焖鸡”和“鸡米饭”,行业类型“热饮”包括的样本品牌词分别为“奶茶”、“玉米汁”和“豆浆”,则可以确定候选品牌词“黄焖鸡米饭”和“黄焖鸡”同属于行业类型“黄焖鸡”,候选品牌词“奶茶”同属于行业类型“热饮”,这样,便可以得到一个包括“黄焖鸡米饭”和“黄焖鸡”的品牌词集,另一个包括“奶茶”的品牌词集。
206、对于至少一个品牌词集中的每个品牌词集,获取品牌词集所属的行业类型对应的特征空间。
在本发明实施例中,为了可以明确体现品牌词集包括的候选品牌词之间的相似关系,在计算相似度之前,对于至少一个品牌词集中的每个品牌词集,可以为该品牌词集所属的行业类型生成对应的特征空间,以便后续在特征空间中体现每一个候选品牌词,更加清晰的表现候选品牌词之间的关系。其中,在为每一个行业类型生成特征空间时,可以通过执行下述步骤一至步骤三实现。
步骤一、对于至少一个品牌词集中的每个品牌词集,确定品牌词集包括的全部候选品牌词,获取全部候选品牌词的真实店铺的多个菜品名称。
在本发明实施例中,由于生成的特征空间需要全面表现该品牌词集中包括的全部候选品牌词的特征,以便在后续可以基于该特征空间筛选出极其相似的候选品牌词,因此,对于至少一个品牌词集中的每个品牌词集,确定该品牌词集包括的全部候选品牌词,并获取全部候选品牌词的真实店铺的多个菜品名称。其中,获取多个菜品名称的过程与上述步骤204中步骤一所示的获取菜品名称的过程一致,此处不再进行赘述。
步骤二、对全部候选品牌词的真实店铺的多个菜品名称进行切词,得到多个第三分段词串。
在本发明实施例中,当获取到全部候选品牌词的真实店铺的多个菜品名称后,为了在后续可以更加细致的识别每一个候选品牌词与其他候选品牌词之间是否相似,可以对全部候选品牌词的真实店铺的多个菜品名称进行切词,得到多个第三分段词串,并在后续通过得到的多个第三分段词串生成每个候选品牌词的特征向量,以便后续在特征空间中体现每个候选品牌词的特征向量,从而确定每个候选品牌词之间的关联性。其中,对多个菜品名称进行切词的过程与上述步骤204中步骤一所示的词语分割的过程一致,此处不再进行赘述。
步骤三、对多个第三分段词串进行整合,生成品牌词集所属的行业类型对应的特征空间。
在本发明实施例中,当生成了多个第三分段词串后,便可以为每个品牌词集所属的行业类型生成与其对应的特征空间,以便在后续基于特征空间展示每个候选品牌词之间的关联性。其中,生成特征空间的过程与上述步骤204中步骤三中的生成第二分段词串的向量空间的过程一致,此处不再进行赘述。
207、基于特征空间,分别确定品牌词集中包括的候选品牌词在特征空间中的特征向量。
在本发明实施例中,由于每个行业类型都生成了对应的特征空间,因此,对于每一个品牌词集,都可以基于该品牌词集对应的行业类型的特征空间,将该品牌词集中全部的候选品牌词体现在特征空间中,也即确定该品牌词集中包括的每个候选品牌词在该特征空间中的特征向量。其中,在确定品牌词集中包括的候选品牌词在特征空间中的特征向量时,可以通过执行下述步骤一至步骤三中的过程实现。
步骤一、对于品牌词集中包括的任一候选品牌词,获取候选品牌词的真实店铺的多个菜品名称,将多个菜品名称进行切词,得到多个第四分段词串。
由于是根据候选品牌词的关联店铺实际售卖的菜品来确定哪些候选品牌词之间存在关联,因此,为了可以更加细致的对每个候选品牌词进行分析,对于品牌词集中包括的任一候选品牌词,获取该候选品牌词的真实店铺的多个菜品名称,并将多个菜品名称进行切词,得到多个第四分段词串,以便基于多个第四分段词串生成可以体现候选品牌词的特征向量,实现特征向量在上述生成的特征空间中的体现。其中,生成第四分段词串的过程与上述步骤204中步骤一所示的生成第二分段词串的过程一致,此处不再进行赘述。
步骤二、分别统计多个第四分段词串中每个第四分段词串在特征向量中的第二出现次数。
当确定了多个第四分段词串后,为了根据候选品牌词相关的实际菜品表示与其他候选品牌词之间的关联关系,可以分别统计多个第四分段词串中每个第四分段词串在特征向量中的第二出现次数,并在后续基于该第二出现次数为每个候选品牌词生成对应的特征向量。其中,统计第二出现次数的过程与上述步骤204中步骤二所示的统计第一出现次数的过程一致,此处不再进行赘述。
步骤三、将多个第四分段词串中每个第四分段词串的第二出现次数进行整合,生成品牌词集中包括的候选品牌词在特征空间中的特征向量。
当统计得到多个第四分段词串中每个第四分段词串在特征向量中的第二出现次数后,便可以基于得到的第二出现次数,为每一个候选品牌词生成在特征空间中的特征向量。其中,生成特征向量的过程与上述步骤204中步骤二中生成特征向量的过程一致,此处不再进行赘述。
208、计算品牌词集中包括的候选品牌词的特征向量之间的相似度作为多个候选品牌词之间的店铺相似度。
在本发明实施例中,当确定了每个候选品牌词的特征向量后,便可以在生成的特征空间中,按照每个候选品牌词的特征向量,将候选品牌词体现在特征空间中。由于在特征空间中,特征向量在空间以及形状上越接近则表示对应的候选品牌词越相似,因此,可以采用聚类算法对特征空间中体现的特征向量进行计算,计算每个候选品牌词的特征向量与其他候选品牌词的特征向量之前的相似度,进而将该相似度作为多个候选品牌词之间的店铺相似度。
具体地,在计算特征向量的相似度时,可以先统计两个特征向量之间重合的数字的个数;随后,计算重合的数字的个数占任一特征向量的数字总个数的百分比,并将该百分比作为特征向量之间的相似度。本发明实施例对计算候选品牌词的特征向量之间的相似度采用的方法不进行具体限定。
209、将多个候选品牌词中店铺相似度大于相似度阈值的候选品牌词进行合并,得到至少一个目标品牌词。
在本发明实施例中,由于店铺相似度越大则表示候选品牌词之间越相似,因此,为了统一对候选品牌词进行筛选,可以设置相似度阈值,并在店铺相似度中提取大于相似度阈值的候选品牌词,也即非常相似的候选品牌词,将提取到的候选品牌词进行合并,从而得到目标品牌词,实现了品牌词的挖掘。其中,在生成目标品牌词时,可以随机选择生成该目标品牌词的候选品牌词的名称作为该目标品牌词的名称,也可以选择生成该目标品牌词的候选品牌词中最长的名称作为该目标品牌词的名称,还可以选择生成该目标品牌词的候选品牌词的最短名称作为该目标品牌词的名称,本发明实施例对目标品牌词的命名方式不进行具体限定。例如,设相似度阈值为90%,则如果候选品牌词“黄焖鸡”和“黄焖鸡米饭”之间的店铺相似度达到了99%,则可将候选品牌词“黄焖鸡”和“黄焖鸡米饭”进行合并,生成目标品牌词,并采用“黄焖鸡”或者“黄焖鸡米饭”对该目标品牌词进行命名即可。
在实际应用的过程中,在进行候选品牌词的合并时,还可以采用最小图的算法,例如,两个候选品牌词的相似度大于一个阈值时才能生成一条边,否则不能构成便,利用生成最小图的方式能够将一些相似集合计算出来。
本发明实施例提供的方法,根据店铺名称的多个第一分段词串的频率数据,提取候选品牌词,并在候选品牌词的关联店铺中确定真实店铺,基于不同候选品牌词的真实店铺之间的店铺相似度,将同类的候选品牌词进行合并,得到目标品牌词,利用店铺的真实情况生成目标品牌词,实现对店铺的划分,保证品牌词的挖掘过程与店铺的实际情况相符,优化了对品牌店铺的管理,提高了运营决策的正确率,避免在为品牌店铺进行推荐和组织活动时浪费资源。
进一步地,作为图1所述方法的具体实现,本发明实施例提供了一种品牌词挖掘装置,如图3A所示,所述装置包括:第一提取模块301,第二提取模块302,比对模块303和合并模块304。
该第一提取模块301,用于在所述多个店铺名称中确定多个第一分段词串,根据所述多个第一分段词串的频率数据,在所述多个第一分段词串中提取多个候选品牌词,所述候选品牌词的频率数据大于等于频率阈值;
该第二提取模块302,用于分别确定所述多个候选品牌词中每个候选品牌词的关联店铺,根据所述关联店铺的菜品名称,在所述关联店铺中提取真实店铺,所述真实店铺的菜品名称符合对应候选品牌词的名称框选标准;
该比对模块303,用于将所述多个候选品牌词的真实店铺进行比对,计算所述多个候选品牌词之间的店铺相似度;
该合并模块304,用于将所述多个候选品牌词中店铺相似度大于相似度阈值的候选品牌词进行合并,得到至少一个目标品牌词。
在具体的应用场景中,如图3B所示,第一提取模块301,具体包括:分割单元3011,计算单元3012,比对单元3013和提取单元3014。
该分割单元3011,用于按照预设词长,对所述多个店铺名称进行词语分割,得到满足所述预设词长的多个第一分段词串,并统计所述多个店铺名称的名称总数;
该计算单元3012,用于基于所述多个第一分段词串和所述名称总数,分别计算所述多个第一分段词串的共现概率、共现成词率以及内聚程度作为频率数据;
该比对单元3013,用于获取概率阈值、成词率阈值和内聚阈值,分别依次将所述多个第一分段词串的所述共现概率、所述共现成词率和所述内聚程度与所述概率阈值、所述成词率阈值和所述内聚阈值进行比对;
该提取单元3014,用于在所述多个第一分段词串中提取所述共现概率、所述共现成词率和所述内聚程度均大于等于所述概率阈值、所述成词率阈值和所述内聚阈值的多个第一分段词串作为所述多个候选品牌词。
在具体的应用场景中,该计算单元3012,用于对于所述多个第一分段词串中的每个第一分段词串,统计包括所述第一分段词串的店铺名称的第一个数,计算所述第一个数与所述名称总数之间的第一比值作为所述第一分段词串的共现概率;将所述第一分段词串进行划分,得到多个单字符,统计包括所述多个单字符的店铺名称的第二个数,计算所述第二个数与所述名称总数之间的第二比值,并计算所述第一比值与所述第二比值之间的第三比值作为所述第一分段词串的共现成词率;分别统计包括所述多个单字符中每个单字符的店铺名称的多个第三个数,计算所述多个第三个数的个数乘积,并计算所述第二个数与所述个数乘积的比值作为内聚程度;将所述共现概率、所述共现成词率和所述内聚程度作为所述第一分段词串的频率数据。
在具体的应用场景中,如图3C所示,该第二提取模块302,包括:获取单元3021,分割单元3022,统计单元3023,计算单元3024和提取单元3025。
该获取单元3021,用于对于所述多个候选品牌词中的任一候选品牌词,获取所述候选品牌词的关联店铺的全部菜品名称;
该分割单元3022,用于对所述全部菜品名称进行词语分割,得到多个第二分段词串;
该统计单元3023,用于分别统计多个第二分段词串中每个第二分段词串在所述关联店铺的菜品名称中的第一出现次数,生成所述关联店铺的特征向量;
该计算单元3024,用于确定预设标准点,获取所述预设标准点的标准向量,计算所述标准向量与所述特征向量的余弦值,将所述余弦值作为所述关联店铺与所述预设标准点之间的向量距离;
该提取单元3025,用于获取距离阈值,基于所述距离阈值对所述向量距离进行框选,在所述关联店铺中提取所述向量距离大于等于所述距离阈值的关联店铺作为所述真实店铺。
在具体的应用场景中,如图3D所示,该比对模块303,包括:分类单元3031,获取单元3032,确定单元3033和计算单元3034。
该分类单元3031,用于分别确定所述多个候选品牌词对应的行业类型,按照所述行业类型,对所述多个候选品牌词进行分类,得到至少一个品牌词集;
该获取单元3032,用于对于所述至少一个品牌词集中的每个品牌词集,获取所述品牌词集所属的行业类型对应的特征空间;
该确定单元3033,用于基于所述特征空间,分别确定所述品牌词集中包括的候选品牌词在所述特征空间中的特征向量;
该计算单元3034,用于计算所述品牌词集中包括的候选品牌词的特征向量之间的相似度作为所述多个候选品牌词之间的店铺相似度。
在具体的应用场景中,该获取单元3032,用于对于所述至少一个品牌词集中的每个品牌词集,确定所述品牌词集包括的全部候选品牌词,获取所述全部候选品牌词的真实店铺的多个菜品名称;对所述全部候选品牌词的真实店铺的多个菜品名称进行切词,得到多个第三分段词串;对所述多个第三分段词串进行整合,生成所述品牌词集所属的行业类型对应的特征空间。
在具体的应用场景中,该确定单元3033,用于对于所述品牌词集中包括的任一候选品牌词,获取所述候选品牌词的真实店铺的多个菜品名称,将所述多个菜品名称进行切词,得到多个第四分段词串;分别统计所述多个第四分段词串中每个第四分段词串在所述特征向量中的第二出现次数;将所述多个第四分段词串中每个第四分段词串的第二出现次数进行整合,生成所述品牌词集中包括的候选品牌词在所述特征空间中的特征向量。
本发明实施例提供的装置,可以根据店铺名称的多个第一分段词串的频率数据,提取候选品牌词,并在候选品牌词的关联店铺中确定真实店铺,基于不同候选品牌词的真实店铺之间的店铺相似度,将同类的候选品牌词进行合并,得到目标品牌词,利用店铺的真实情况生成目标品牌词,实现对店铺的划分,保证品牌词的挖掘过程与店铺的实际情况相符,优化了对品牌店铺的管理,提高了运营决策的正确率,避免在为品牌店铺进行推荐和组织活动时浪费资源。
需要说明的是,本发明实施例提供的一种品牌词挖掘装置所涉及各功能单元的其他相应描述,可以参考图1和图2中的对应描述,在此不再赘述。
在示例性实施例中,参见图4,还提供了一种设备,该设备400包括通信总线、处理器、存储器和通信接口,还可以包括、输入输出接口和显示设备,其中,各个功能单元之间可以通过总线完成相互间的通信。该存储器存储有计算机程序,处理器,用于执行存储器上所存放的程序,执行上述实施例中的品牌词挖掘方法。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的品牌词挖掘方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。
本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。
以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。
Claims (10)
1.一种品牌词挖掘方法,其特征在于,包括:
在所述多个店铺名称中确定多个第一分段词串,根据所述多个第一分段词串的频率数据,在所述多个第一分段词串中提取多个候选品牌词,所述候选品牌词的频率数据大于等于频率阈值;
分别确定所述多个候选品牌词中每个候选品牌词的关联店铺,根据所述关联店铺的菜品名称,在所述关联店铺中提取真实店铺,所述真实店铺的菜品名称符合对应候选品牌词的名称框选标准;
将所述多个候选品牌词的真实店铺进行比对,计算所述多个候选品牌词之间的店铺相似度;
将所述多个候选品牌词中店铺相似度大于相似度阈值的候选品牌词进行合并,得到至少一个目标品牌词。
2.根据权利要求1所述的方法,其特征在于,所述在所述多个店铺名称中确定第一分段词串,根据所述第一分段词串的频率数据,在所述第一分段词串中提取多个候选品牌词,包括:
按照预设词长,对所述多个店铺名称进行词语分割,得到满足所述预设词长的多个第一分段词串,并统计所述多个店铺名称的名称总数;
基于所述多个第一分段词串和所述名称总数,分别计算所述多个第一分段词串的共现概率、共现成词率以及内聚程度作为频率数据;
获取概率阈值、成词率阈值和内聚阈值,分别依次将所述多个第一分段词串的所述共现概率、所述共现成词率和所述内聚程度与所述概率阈值、所述成词率阈值和所述内聚阈值进行比对;
在所述多个第一分段词串中提取所述共现概率、所述共现成词率和所述内聚程度均大于等于所述概率阈值、所述成词率阈值和所述内聚阈值的多个第一分段词串作为所述多个候选品牌词。
3.根据权利要求2所述的方法,其特征在于,所述基于所述多个第一分段词串和所述名称总数,分别计算所述多个第一分段词串的共现概率、共现成词率以及内聚程度作为频率数据,包括:
对于所述多个第一分段词串中的每个第一分段词串,统计包括所述第一分段词串的店铺名称的第一个数,计算所述第一个数与所述名称总数之间的第一比值作为所述第一分段词串的共现概率;
将所述第一分段词串进行划分,得到多个单字符,统计包括所述多个单字符的店铺名称的第二个数,计算所述第二个数与所述名称总数之间的第二比值,并计算所述第一比值与所述第二比值之间的第三比值作为所述第一分段词串的共现成词率;
分别统计包括所述多个单字符中每个单字符的店铺名称的多个第三个数,计算所述多个第三个数的个数乘积,并计算所述第二个数与所述个数乘积的比值作为内聚程度;
将所述共现概率、所述共现成词率和所述内聚程度作为所述第一分段词串的频率数据。
4.根据权利要求1所述的方法,其特征在于,所述分别确定所述多个候选品牌词中每个候选品牌词的关联店铺,根据所述关联店铺的菜品名称,在所述关联店铺中提取真实店铺,包括:
对于所述多个候选品牌词中的任一候选品牌词,获取所述候选品牌词的关联店铺的全部菜品名称;
对所述全部菜品名称进行词语分割,得到多个第二分段词串;
分别统计多个第二分段词串中每个第二分段词串在所述关联店铺的菜品名称中的第一出现次数,生成所述关联店铺的特征向量;
确定预设标准点,获取所述预设标准点的标准向量,计算所述标准向量与所述特征向量的余弦值,将所述余弦值作为所述关联店铺与所述预设标准点之间的向量距离;
获取距离阈值,基于所述距离阈值对所述向量距离进行框选,在所述关联店铺中提取所述向量距离大于等于所述距离阈值的关联店铺作为所述真实店铺。
5.根据权利要求1所述的方法,其特征在于,所述将所述多个候选品牌词的真实店铺进行比对,计算所述多个候选品牌词之间的店铺相似度,包括:
分别确定所述多个候选品牌词对应的行业类型,按照所述行业类型,对所述多个候选品牌词进行分类,得到至少一个品牌词集;
对于所述至少一个品牌词集中的每个品牌词集,获取所述品牌词集所属的行业类型对应的特征空间;
基于所述特征空间,分别确定所述品牌词集中包括的候选品牌词在所述特征空间中的特征向量;
计算所述品牌词集中包括的候选品牌词的特征向量之间的相似度作为所述多个候选品牌词之间的店铺相似度。
6.根据权利要求5所述的方法,其特征在于,所述对于所述至少一个品牌词集中的每个品牌词集,获取所述品牌词集所属的行业类型对应的特征空间,包括:
对于所述至少一个品牌词集中的每个品牌词集,确定所述品牌词集包括的全部候选品牌词,获取所述全部候选品牌词的真实店铺的多个菜品名称;
对所述全部候选品牌词的真实店铺的多个菜品名称进行切词,得到多个第三分段词串;
对所述多个第三分段词串进行整合,生成所述品牌词集所属的行业类型对应的特征空间。
7.根据权利要求5所述的方法,其特征在于,所述基于所述特征空间,分别确定所述品牌词集中包括的候选品牌词在所述特征空间中的特征向量,包括:
对于所述品牌词集中包括的任一候选品牌词,获取所述候选品牌词的真实店铺的多个菜品名称,将所述多个菜品名称进行切词,得到多个第四分段词串;
分别统计所述多个第四分段词串中每个第四分段词串在所述特征向量中的第二出现次数;
将所述多个第四分段词串中每个第四分段词串的第二出现次数进行整合,生成所述品牌词集中包括的候选品牌词在所述特征空间中的特征向量。
8.一种品牌词挖掘装置,其特征在于,包括:
第一提取模块,用于在所述多个店铺名称中确定多个第一分段词串,根据所述多个第一分段词串的频率数据,在所述多个第一分段词串中提取多个候选品牌词,所述候选品牌词的频率数据大于等于频率阈值;
第二提取模块,用于分别确定所述多个候选品牌词中每个候选品牌词的关联店铺,根据所述关联店铺的菜品名称,在所述关联店铺中提取真实店铺,所述真实店铺的菜品名称符合对应候选品牌词的名称框选标准;
比对模块,用于将所述多个候选品牌词的真实店铺进行比对,计算所述多个候选品牌词之间的店铺相似度;
合并模块,用于将所述多个候选品牌词中店铺相似度大于相似度阈值的候选品牌词进行合并,得到至少一个目标品牌词。
9.一种设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910032786.8A CN109885752B (zh) | 2019-01-14 | 2019-01-14 | 品牌词挖掘方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910032786.8A CN109885752B (zh) | 2019-01-14 | 2019-01-14 | 品牌词挖掘方法、装置、设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109885752A true CN109885752A (zh) | 2019-06-14 |
CN109885752B CN109885752B (zh) | 2021-03-02 |
Family
ID=66925976
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910032786.8A Active CN109885752B (zh) | 2019-01-14 | 2019-01-14 | 品牌词挖掘方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109885752B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111325025A (zh) * | 2020-02-03 | 2020-06-23 | 口口相传(北京)网络技术有限公司 | 店铺名称挖掘方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001357271A (ja) * | 2000-06-14 | 2001-12-26 | Mitsubishi Electric Information Systems Corp | 在庫管理装置及び在庫管理方法及びプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2004234294A (ja) * | 2003-01-30 | 2004-08-19 | Fujitsu Support & Service Kk | チラシ情報の提供システム |
CN102298576A (zh) * | 2010-06-25 | 2011-12-28 | 株式会社理光 | 文档关键词生成方法和装置 |
CN103942693A (zh) * | 2013-01-18 | 2014-07-23 | 阿里巴巴集团控股有限公司 | 识别杂货铺的方法、装置及搜索店铺的方法、系统 |
CN104462143A (zh) * | 2013-09-24 | 2015-03-25 | 高德软件有限公司 | 连锁品牌词词库、类别词词库建立方法和装置 |
CN107220334A (zh) * | 2017-05-25 | 2017-09-29 | 北京小度信息科技有限公司 | 商户名称的相似度计算方法、装置及设备 |
CN107330752A (zh) * | 2017-05-31 | 2017-11-07 | 北京京东尚科信息技术有限公司 | 识别品牌词的方法和装置 |
CN109033370A (zh) * | 2018-07-27 | 2018-12-18 | 阿里巴巴集团控股有限公司 | 一种查找相似店铺的方法及装置、店铺接入的方法及装置 |
-
2019
- 2019-01-14 CN CN201910032786.8A patent/CN109885752B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001357271A (ja) * | 2000-06-14 | 2001-12-26 | Mitsubishi Electric Information Systems Corp | 在庫管理装置及び在庫管理方法及びプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2004234294A (ja) * | 2003-01-30 | 2004-08-19 | Fujitsu Support & Service Kk | チラシ情報の提供システム |
CN102298576A (zh) * | 2010-06-25 | 2011-12-28 | 株式会社理光 | 文档关键词生成方法和装置 |
CN103942693A (zh) * | 2013-01-18 | 2014-07-23 | 阿里巴巴集团控股有限公司 | 识别杂货铺的方法、装置及搜索店铺的方法、系统 |
CN104462143A (zh) * | 2013-09-24 | 2015-03-25 | 高德软件有限公司 | 连锁品牌词词库、类别词词库建立方法和装置 |
CN107220334A (zh) * | 2017-05-25 | 2017-09-29 | 北京小度信息科技有限公司 | 商户名称的相似度计算方法、装置及设备 |
CN107330752A (zh) * | 2017-05-31 | 2017-11-07 | 北京京东尚科信息技术有限公司 | 识别品牌词的方法和装置 |
CN109033370A (zh) * | 2018-07-27 | 2018-12-18 | 阿里巴巴集团控股有限公司 | 一种查找相似店铺的方法及装置、店铺接入的方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111325025A (zh) * | 2020-02-03 | 2020-06-23 | 口口相传(北京)网络技术有限公司 | 店铺名称挖掘方法及装置 |
CN111325025B (zh) * | 2020-02-03 | 2023-04-07 | 口口相传(北京)网络技术有限公司 | 店铺名称挖掘方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109885752B (zh) | 2021-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11670021B1 (en) | Enhanced graphical user interface for representing events | |
US20150120782A1 (en) | Systems and Methods for Identifying Influencers and Their Communities in a Social Data Network | |
CN104462084B (zh) | 基于多个查询提供搜索细化建议 | |
CN103678335B (zh) | 商品标识标签的方法、装置及商品导航的方法 | |
CN103020212B (zh) | 一种基于用户查询日志实时发现热点视频的方法和装置 | |
JP6862531B2 (ja) | ガイド付きデータ探索 | |
CN104731809B (zh) | 对象的属性信息的处理方法及装置 | |
WO2012154348A1 (en) | Generation of topic-based language models for an app search engine | |
CN107844565A (zh) | 商品搜索方法和装置 | |
CN103279513A (zh) | 产生内容标签的方法、提供多媒体内容信息的方法及装置 | |
CN106067132A (zh) | 商品属性的设置方法及装置 | |
TW201905733A (zh) | 多源資料融合方法和裝置 | |
US20200327177A1 (en) | System and method for monitoring internet activity | |
CN110008306A (zh) | 一种数据关系分析方法、装置及数据服务系统 | |
US20180089242A1 (en) | Hierarchic model and natural language analyzer | |
CN108650684A (zh) | 一种关联规则确定方法及装置 | |
CN107092609A (zh) | 一种信息推送方法及装置 | |
JP2014093058A (ja) | 画像管理装置、画像管理方法、プログラム及び集積回路 | |
CN108604249A (zh) | 生成索引信息的数据库的存档方法及装置、包含索引信息的存档的数据库的搜索方法及装置 | |
Bhattacharya et al. | High utility itemset mining | |
CN109885752A (zh) | 品牌词挖掘方法、装置、设备及可读存储介质 | |
CN114461705A (zh) | 数据可视化生成方法、装置、电子设备及存储介质 | |
CN110245684A (zh) | 数据处理方法、电子设备和介质 | |
CN110263318A (zh) | 实体名称的处理方法、装置、计算机可读介质及电子设备 | |
Iglesias et al. | MDCStream: Stream data generator for testing analysis algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |