发明内容
针对相关技术在进行关键词扩充时,系统向信息发布用户推荐关键词的处理速度慢并且推荐关键词与信息发布用户的属性不符的问题,目前尚未提出有效的解决方案,为此,本申请的主要目的在于提供一种数据推送的方法及装置,以解决上述问题。
为了实现上述目的,根据本申请的一个方面,提供了一种数据推送的方法,该方法包括:提取用户的大于预设搜索频率的搜索信息;提取系统中大于预设访问频率的所有访问信息,并获取访问信息所对应的关键词类目关联度信息;根据搜索信息和关键词类目关联度信息进行权重计算,以获取对应每个用户的关键词权重信息,其中,关键词权重信息包括推荐关键词和权重参数;根据对应两个用户的推荐关键词和权重参数进行相似度计算,得到两个用户的相似度值;根据相似度值获取与用户对应的相似度信息,并根据相似度信息向用户推荐关键词。
进一步地,提取系统中大于预设访问频率的所有访问信息,并获取访问信息所对应的关键词类目关联度信息的步骤包括:获取访问信息所对应的访问信息ID、访问关键词以及访问次数;将访问信息ID进行ID更新和对访问次数进行累加计算,以获取对应的访问信息类目ID以及访问总次数;根据访问关键词、访问信息类目ID以及访问总次数进行关联度计算,以获取关联度值;将关联度值以及与关联度值相对应的访问关键词和访问信息类目ID进行保存,以获取关键词类目关联度信息。
进一步地,根据访问关键词、访问信息类目ID以及访问总次数进行关联度计算,以获取关联度值的步骤包括:根据访问关键词、访问信息类目ID以及访问总次数通过第一公式进行关联度计算,获取关联度值relation(keyword,category_id),第一公式为:
其中,keyword为访问关键词,category_id为访问信息类目ID,count(keyword,category_id)为访问总次数,max{count(*,category_id)}为关键词类目关联度信息中所有访问总次数中的最大值。
进一步地,将访问信息ID进行ID更新和对访问次数进行累加计算,以获取对应的访问信息类目ID以及访问总次数的步骤包括:将访问信息所对应的访问信息ID转换为访问信息类目ID,以获取更新后的第一访问信息;对更新后的第一访问信息中对应相同的访问信息类目ID的访问次数进行累加计算,以获取访问总次数。
进一步地,获取访问信息中的访问信息ID、访问关键词以及访问次数的步骤包括:提取访问信息中的访问信息ID和初始访问关键词;对初始访问关键词进行归一化处理,以获取标准形式的访问关键词,并得到第三访问信息;提取与第三访问信息中的访问关键词相对应的点击次数;对具有相同的访问关键词的第三访问信息的点击次数进行累加计算,以获取访问次数。
进一步地,根据搜索信息和关键词类目关联度信息进行权重计算,以获取对应每个用户的关键词权重信息的步骤包括:从每个用户的搜索信息中分别提取推荐关键词,生成对应每个用户的当前关键词权重信息,其中,当前关键词权重信息包括:用户ID、推荐关键词以及当前关键词类目关联度,当前关键词类目关联度等于关联度值,推荐关键词为搜索信息中的搜索信息标题中与访问关键词相同的关键词;提取当前关键词权重信息中具有相同的用户ID和推荐关键词的关键词权重信息,并将具有相同的用户ID和推荐关键词的关键词权重信息保存在一个或多个权重信息表中,对每个权重信息表中的当前关键词类目关联度分别进行累加计算,得到权重参数,以获取关键词权重信息,其中,关键词权重信息包括用户ID、推荐关键词以及权重参数。
进一步地,根据对应两个用户的推荐关键词和权重参数进行相似度计算,得到两个用户的相似度值的步骤包括:根据第二公式进行余弦相似度的计算,得到两个用户的相似度值similarity,其中,第二公式为:
其中,K1为第一用户的第一关键词权重信息中的第一关键词集合,K2为第二用户的第二关键词权重信息中的第二关键词集合,K’为第一关键词集合和第二关键词集合的交集,k为交集中的推荐关键词,w1,k为推荐关键词k在第一关键词权重信息中对应的权重参数,w2,k为推荐关键词k在第二关键词权重信息中对应的权重参数。
进一步地,提取用户的大于预设搜索频率的搜索信息的步骤包括:提取大于预设搜索频率的当前搜索信息,其中,当前搜索信息包括:用户ID、搜索信息ID、搜索信息类目ID以及当前搜索信息标题;对当前搜索信息中的当前搜索信息标题进行归一化处理,以获取标准形式的搜索信息标题,得到更新后的搜索信息。
为了实现上述目的,根据本申请的一个方面,提供了一种数据推送的装置,该装置包括:第一提取模块,用于提取用户的大于预设搜索频率的搜索信息;第四处理模块,用于提取系统中大于预设访问频率的所有访问信息,并获取访问信息所对应的关键词类目关联度信息;第一处理模块,用于根据搜索信息和关键词类目关联度信息进行权重计算,以获取对应每个用户的关键词权重信息,其中,关键词权重信息包括推荐关键词和权重参数;第二处理模块,用于根据对应两个用户的推荐关键词和权重参数进行相似度计算,得到两个用户的相似度值;第三处理模块,用于根据相似度值获取与用户对应的相似度信息,并根据相似度信息向用户推荐关键词。
进一步地,第四处理模块包括:第一获取模块,用于获取访问信息所对应的访问信息ID、访问关键词以及访问次数;第五处理模块,用于将访问信息ID进行ID更新和对访问次数进行累加计算,以获取对应的访问信息类目ID以及访问总次数;第一计算模块,用于根据访问关键词、访问信息类目ID以及访问总次数进行关联度计算,以获取关联度值;保存模块,用于将关联度值以及与关联度值相对应的访问关键词和访问信息类目ID进行保存,以获取关键词类目关联度信息。
进一步地,第一计算模块包括:第一子计算模块,用于根据访问关键词、访问信息类目ID以及访问总次数通过第一公式进行关联度计算,获取关联度值relation(keyword,category_id),第一公式为:
其中,keyword为访问关键词,category_id为访问信息类目ID,count(keyword,category_id)为访问总次数,max{count(*,category_id)}为关键词类目关联度信息中所有访问总次数中的最大值。
进一步地,第五处理模块包括:第一子处理模块,用于将访问信息的访问信息ID转换为访问信息类目ID,以获取更新后的第一访问信息;第二子计算模块,用于对更新后的第一访问信息中对应相同的访问信息类目ID的访问次数进行累加计算,以获取访问总次数。
进一步地,第一获取模块包括:第一子提取模块,用于提取访问信息中的访问信息ID和初始访问关键词;第二子处理模块,用于对初始访问关键词进行归一化处理,以获取标准形式的访问关键词,并得到第三访问信息;第三子处理模块,用于提取与第三访问信息中的访问关键词相对应的点击次数;第四子处理模块,用于对具有相同的访问关键词的第三访问信息的点击次数进行累加计算,以获取访问次数。
进一步地,第一处理模块包括:第二子提取模块,用于从每个用户的搜索信息中分别提取推荐关键词,生成对应每个用户的当前关键词权重信息,其中,当前关键词权重信息包括:用户ID、推荐关键词以及当前关键词类目关联度,当前关键词类目关联度等于关联度值,推荐关键词为搜索信息中的搜索信息标题中与访问关键词相同的关键词;第五子处理模块,用于提取当前关键词权重信息中具有相同的用户ID和推荐关键词的关键词权重信息,并将具有相同的用户ID和推荐关键词的关键词权重信息保存在一个或多个权重信息表中,对每个权重信息表中的当前关键词类目关联度分别进行累加计算,得到权重参数,以获取关键词权重信息,其中,关键词权重信息包括用户ID、推荐关键词以及权重参数。
进一步地,第二处理模块包括:第四子计算模块,用于根据第二公式进行余弦相似度的计算,得到两个用户的相似度值similarity,其中,第二公式为:
其中,K1为第一用户的第一关键词权重信息中的第一关键词集合,K2为第二用户的第二关键词权重信息中的第二关键词集合,K’为第一关键词集合和第二关键词集合的交集,k为交集中的推荐关键词,w1,k为推荐关键词k在第一关键词权重信息中对应的权重参数,w2,k为推荐关键词k在第二关键词权重信息中对应的权重参数。
进一步地,第一提取模块包括:第三子提取模块,用于提取大于预设搜索频率的当前搜索信息,其中,当前搜索信息包括:用户ID、搜索信息ID、搜索信息类目ID以及当前搜索信息标题;第六子处理模块,用于对当前搜索信息中的当前搜索信息标题进行归一化处理,以获取标准形式的搜索信息标题,得到更新后的搜索信息。
通过本申请,只选取用户大于预设搜索频率的搜索信息和访问信息,然后根据电子商务网站搜索引擎上关键词搜索与点击信息的记录挖掘关键词与信息类目之间的关联度,并根据信息发布用户所提供的信息的标题关键词以及关键词与信息类目关联度,挖掘能够反应信息发布用户发布信息特点的关键词权重信息,据此生成的用户相似度的权重信息不仅考虑关键词出现的频率也考虑到了关键词与访问信息类目的关联度,且处理的数据量较小,解决了现有技术中在进行关键词扩充时,系统向信息发布用户推荐关键词的处理速度慢并且推荐关键词与信息发布用户的属性不符的问题,实现了系统快速处理信息发布用户的关键词扩充,并可以根据用户的特点向用户准确推荐关键词,从而提高了系统的关键词信息处理速度。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1是根据本申请实施例的数据推送的装置的结构示意图。如图1所示,该装置包括:第一提取模块10,用于提取用户的大于预设搜索频率的搜索信息;第四处理模块30,用于提取系统中大于预设访问频率的所有访问信息,并获取访问信息所对应的关键词类目关联度信息;第一处理模块50,用于根据搜索信息和关键词类目关联度信息进行权重计算,以获取对应每个用户的关键词权重信息,其中,关键词权重信息包括推荐关键词和权重参数;第二处理模块70,用于根据对应两个用户的推荐关键词和权重参数进行相似度计算,得到两个用户的相似度值;第三处理模块90,用于根据相似度值获取与用户对应的相似度信息,并根据相似度信息向用户推荐关键词。
采用本申请的数据推送的装置,通过第一提取模块提取用户的大于预设搜索频率的搜索信息,并通过第二提取模块提取系统的大于预设访问频率的所有访问信息,然后,第一处理模块根据搜索信息和访问信息中的关键词类目关联度信息进行权重计算,以获取对应每个用户的关键词权重信息,之后第二处理模块根据对应两个用户的关键词权重信息中的推荐关键词和权重参数进行相似度计算,得到两个用户的相似度值,最后第三处理模块根据相似度值获取与用户对应的相似度信息,并根据相似度信息向用户推荐关键词。通过本申请的数据推送的装置,只选取用户大于预设搜索频率的搜索信息和访问信息,然后根据电子商务网站搜索引擎上关键词搜索与点击信息的记录挖掘关键词与信息类目之间的关联度,并根据信息发布用户所提供的信息的标题关键词以及关键词与信息类目关联度,挖掘能够反应信息发布用户发布信息特点的关键词权重信息,据此生成的用户相似度的权重信息不仅考虑关键词出现的频率也考虑到了关键词与访问信息类目的关联度,且由于处理的数据量只是大于预设搜索频率的搜索信息和访问信息,因此处理的数据量较少,解决了现有技术中在进行关键词扩充时,系统向信息发布用户推荐关键词的处理速度慢并且推荐关键词与信息发布用户的属性不符的问题,实现了系统快速处理信息发布用户的关键词扩充,并可以根据用户的特点向用户准确推荐关键词,从而提高了系统的关键词信息处理速度。
其中,上述实施例中的用户可以为信息发布用户。
上述实施例中的关键词推荐可以是推荐近邻用户的标识,也可以是推荐近邻用户的搜索关键词,也即该关键词推荐可以是向信息发布用户推荐其它信息发布用户的ID,使得信息发布用户通过ID获取其它信息发布用户的关键词信息,也可以直接向信息发布用户推荐关键词信息。
本申请的数据推送的装置可以应用于电子商务网站近邻用户推荐或者基于近邻用户的其他信息运营的业务中,则上述实施例中的用户可以是信息发布用户,系统可以是电子商务网站。其中,近邻用户推荐可以针对电子商务网站的全部或者部分信息发布用户,为其中的每一位信息发布用户都推荐一定数量的其他近邻用户的信息,具体地,上述信息可以是近邻用户的ID或其它标识(如:名称等),也可以是近邻用户的关键词信息。
其中,上述实施例中的搜索信息和访问信息,可以是电子商务网站中的搜索产品信息和访问产品信息。具体地,搜索信息可以是一段时间内(如:3个月)在电子商务网站上对应每个用户的有过曝光或者点击的所有的产品的信息,而访问信息则可以为从电子商务网站触发的所有被点击过的产品的信息,关键词类目关联度信息则为使用者访问信息时所使用的关键词与访问信息的类目之间关联度信息。其中,一段时间可以是3个月。
具体地,上述实施例中,由于相似度值示出了两个信息发布用户之间的相似度,若两个用户分别为第一用户和第二用户,则对第一用户进行关键词推荐时,第三处理模块90获取第二用户的发布的关键词信息,关键词信息包括第二用户的信息ID,信息类目ID,第二用户发布产品信息的信息标题或者第二用户发布信息的信息关键词。
在本申请的上述实施例中,第一提取模块10包括:第三子提取模块,用于提取大于预设搜索频率的当前搜索信息,其中,当前搜索信息包括:用户ID、搜索信息ID、搜索信息类目ID以及当前搜索信息标题;第六子处理模块,用于对当前搜索信息中的当前搜索信息标题进行归一化处理,以获取标准形式的搜索信息标题,得到更新后的搜索信息。
具体地,第三子提取模块提取大于预设搜索频率的当前搜索信息之后,第六子处理模块,用于根据当前搜索信息中的搜索信息当前标题进行归一化处理,以获取标准形式的搜索信息标题,得到更新后的搜索信息。其中,当前搜索信息包括:用户ID、搜索信息ID、搜索信息类目ID以及当前搜索信息标题。
在本申请的上述实施例中,第四处理模块可以包括:第一获取模块,用于获取访问信息所对应的访问信息ID、访问关键词以及访问次数;第五处理模块,用于将访问信息ID进行ID更新和对访问次数进行累加计算,以获取对应的访问信息类目ID以及访问总次数;第一计算模块,用于根据访问关键词、访问信息类目ID以及访问总次数进行关联度计算,以获取关联度值;保存模块,用于将关联度值以及与关联度值相对应的访问关键词和访问信息类目ID进行保存,以获取关键词类目关联度信息。其中,第一计算模块根据电子商务网站搜索引擎上关键词搜索与信息点击的记录挖掘关键词与信息类目之间的关联度。
其中,访问信息可以以数据表的形式存储,访问信息包括一条或多条信息,其中的每条信息分别用三个字段存储:访问信息ID、访问关键词以及访问次数。
更具体地,第五处理模块可以包括:第一子处理模块,用于将访问信息中的访问信息ID转换为访问信息类目ID,以获取更新后的第一访问信息;第二子计算模块,用于对更新后的第一访问信息中对应相同的访问信息类目ID的访问次数进行累加计算,以获取访问总次数。
具体地,第一子处理模块,用于将访问信息中的访问信息ID替换为信息类目ID,以获取更新后的第一访问信息,则更新后的第一访问信息包括:访问关键词、访问次数以及访问信息类目ID,然后第二子计算模块将更新后的第一访问信息中的与相同的访问信息类目ID和访问关键词的对应的访问次数进行累加计算,以获取访问总次数,并可以获取包括访问关键词、访问信息类目ID以及访问总次数的第二访问信息。
进一步地,第一获取模块包括:第一子提取模块,用于提取访问信息中的访问信息ID和初始访问关键词;第二子处理模块,用于对初始访问关键词进行归一化处理,以获取标准形式的访问关键词,并得到第三访问信息;第三子处理模块,用于提取与第三访问信息中的访问关键词相对应的点击次数;第四子处理模块,用于对具有相同的访问关键词的第三访问信息的点击次数进行累加计算,以获取访问次数。
具体地,通过执行第一子提取模块获取当前访问信息,然后第二子处理模块将当前访问信息中的初始访问关键词进行归一化处理,以获取标准形式的访问关键词,得到第三访问信息,例如,将无线鼠标归一化为鼠标或者将水晶开关归一化为开关,或者将番茄归一化为西红柿等等。
其中,第三子处理模块还可以用于根据对应相同的访问关键词的点击次数进行累加计算,以获取访问信息,其中,访问信息包括访问信息ID、访问关键词以及访问次数。
具体地,在得到第三访问信息之后,第三子处理模块和第四子处理模块将与归一化后的访问关键词相对应的点击次数进行累加得到访问总次数,并获取访问信息。
具体地,第一计算模块可以包括:第一子计算模块,用于根据访问关键词、访问信息类目ID以及访问总次数通过第一公式进行关联度计算,获取关联度值relation(keyword,category_id),第一公式为:
其中,keyword为访问关键词,category_id为访问信息类目ID,count(keyword,category_id)为访问总次数,max{count(*,category_id)}为关键词类目关联度信息中所有访问总次数中的最大值。其中,关键词类目关联度信息为关键词与信息类目之间的关联度信息。
在本申请的上述实施例中,第一处理模块50可以包括:第二子提取模块,用于从每个用户的搜索信息中分别提取推荐关键词,生成对应每个用户的当前关键词权重信息,其中,当前关键词权重信息包括:用户ID、推荐关键词以及当前关键词类目关联度,当前关键词类目关联度等于关联度值,推荐关键词为搜索信息中的搜索信息标题中与访问关键词相同的关键词;第五子处理模块,用于提取当前关键词权重信息中具有相同的用户ID和推荐关键词的关键词权重信息,并将具有相同的用户ID和推荐关键词的关键词权重信息保存在一个或多个权重信息表中,对每个权重信息表中的当前关键词类目关联度分别进行累加计算,得到权重参数,以获取关键词权重信息,其中,关键词权重信息包括用户ID、推荐关键词以及权重参数。
其中,当前关键词权重信息包括:用户ID、搜索关键词以及当前关键词类目关联度,当前关键词类目关联度等于关联度值,推荐关键词为搜索信息中的搜索标题中与访问关键词相同的关键词,关键词权重信息包括用户ID、推荐关键词以及权重参数。
根据本申请的上述实施例,第二处理模块70可以包括:第四子计算模块,用于根据第二公式进行余弦相似度的计算,得到两个用户的相似度值similarity,其中,第二公式为:
其中,K1为第一用户的第一关键词权重信息中的第一关键词集合,K2为第二用户的第二关键词权重信息中的第二关键词集合,K’为第一关键词集合和第二关键词集合的交集,k为交集中的推荐关键词,w1,k为推荐关键词k在第一关键词权重信息中对应的权重参数,w2,k为推荐关键词k在第二关键词权重信息中对应的权重参数。
具体地,第四子计算模块计算关键词权重信息中两两信息发布用户之间的余弦相似度。具体方法如下:
假设第一信息发布用户拥有的关键词集合为K1,第二信息发布用户拥有的关键词集合为K2,二者关键词交集为K’,令w1,k表示推荐关键词k在第一信息发布用户中的权重参数,令w2,k表示关键词k在第二信息发布用户中的权重参数,那么第一信息发布用户与第二信息发布用户之间的余弦相似度similarity为:
在获取到相似度值之后,第三处理模块处理获取对应每个用户的相似度信息:
(company_id,neighbor_companyd_id,similarity),其中,company_id为用户ID,也即信息发布用户id,neighbor_companyd_id为近邻用户ID,即表示近邻用户的id,similarity表示二者的相似度值。
之后第三处理模块根据相似度信息,为每一位信息发布用户提取相似度值得分最高的一定数量(如30个)的其他信息发布用户作为该信息发布用户的近邻用户,并将这些相邻信息发布用户发布的关键词信息推荐给用户。
图2是根据本申请实施例的数据推送的方法的流程图。图3是根据图2所示实施例的数据推送的方法的流程图。
如图2和图3所示该方法包括如下步骤:
步骤S102,提取用户的大于预设搜索频率的搜索信息。
步骤S104,提取系统中大于预设访问频率的所有访问信息,并获取所述访问信息所对应的关键词类目关联度信息。
步骤S106,根据搜索信息和关键词类目关联度信息进行权重计算,以获取对应每个用户的关键词权重信息,其中,关键词权重信息包括推荐关键词和权重参数。
步骤S108,根据对应两个用户的推荐关键词和权重参数进行相似度计算,得到两个用户的相似度值。
步骤S110,根据相似度值获取与用户对应的相似度信息,并根据相似度信息向用户推荐关键词。
采用本申请的数据推送的方法,通过提取用户的大于预设搜索频率的搜索信息,并提取系统的大于预设访问频率的所有访问信息及与访问信息所对应的关键词类目关联度信息,然后,根据搜索信息和关键词类目关联度信息进行权重计算,以获取对应每个用户的关键词权重信息,之后根据对应两个用户的关键词权重信息中的推荐关键词和权重参数进行相似度计算,得到两个用户的相似度值,根据相似度值获取与用户对应的相似度信息,并根据相似度信息向用户推荐关键词。通过本申请的数据推送的方法,只选取用户大于预设搜索频率的搜索信息和访问信息,然后根据电子商务网站搜索引擎上关键词搜索与点击信息的记录挖掘关键词与信息类目之间的关联度,并根据信息发布用户所提供的信息的标题关键词以及关键词与信息类目关联度,挖掘能够反应信息发布用户发布信息特点的关键词权重信息,据此生成的用户相似度的权重信息不仅考虑关键词出现的频率也考虑到了关键词与访问信息类目的关联度,且由于处理的数据量只是大于预设搜索频率的搜索信息和访问信息,因此处理的数据量较少,解决了现有技术中在进行关键词扩充时,系统向信息发布用户推荐关键词的处理速度慢并且推荐关键词与信息发布用户的属性不符的问题,实现了系统快速处理信息发布用户的关键词扩充,并可以根据用户的特点向用户准确推荐关键词,从而提高了系统的关键词信息处理速度。
上述实施例中的关键词推荐可以是推荐近邻用户的标识,也可以是推荐近邻用户的搜索关键词,也即该关键词推荐可以是向信息发布用户推荐其它信息发布用户的ID,使得信息发布用户通过ID获取其它信息发布用户的关键词信息,也可以直接向信息发布用户推荐关键词信息。
本申请的数据推送的装置可以应用于电子商务网站近邻用户推荐或者基于近邻用户的其他信息运营的业务中,则上述实施例中的用户可以是信息发布用户,系统可以是电子商务网站。其中,近邻用户推荐可以针对电子商务网站的全部或者部分信息发布用户,为其中的每一位信息发布用户都推荐一定数量的其他近邻用户的信息,具体地,上述信息可以是近邻用户的ID或其它标识(如:名称等),也可以是近邻用户的关键词信息。
其中,上述实施例中的搜索信息和访问信息,可以是电子商务网站中的搜索产品信息和访问产品信息。具体地,搜索信息可以是一段时间内(如:3个月)在电子商务网站上对应每个用户的有过曝光或者点击的所有的产品的信息,而访问信息则可以为从电子商务网站触发的所有被点击过的产品的信息,关键词类目关联度信息则为使用者访问信息时所使用的关键词与访问产品的类目之间关联度信息。其中,访问信息可以是网站搜索一段时间内的关键词触发点击,此处的一段时间可以是3个月。
具体地,上述实施例中,由于相似度值示出了两个信息发布用户之间的相似度,若两个用户分别为第一用户和第二用户,则对第一用户进行关键词推荐时,第三处理模块90获取第二用户的发布的关键词信息,关键词信息包括第二用户的信息ID,信息类目ID,第二用户发布信息的信息标题或者第二用户发布信息的信息关键词。
具体地,可以执行步骤S202至步骤S208实现上述方法:
步骤S202,提取用户高质量信息列表。其中,用户高质量信息列表可以是一段时间内网站所有信息中被曝光或者点击过的所有信息的列表,也即用于上述实施例中的搜索信息的列表。
根据上述实施例,提取用户的大于预设搜索频率的搜索信息的步骤可以包括:提取大于预设搜索频率的当前搜索信息,其中,当前搜索信息包括:用户ID、搜索信息ID、搜索信息类目ID以及当前搜索信息标题;对当前搜索信息中的当前搜索信息标题进行归一化处理,以获取标准形式的搜索信息标题,得到更新后的搜索信息。
具体地,对当前搜索信息标题进行归一化处理,以获取标准形式的搜索信息标题,并使用标准形式的搜索信息标题更新当前搜索信息,得到搜索信息。
具体地,可以通过如下步骤实现上述方法:
(1)从数据库中提取一段时间内(优选为3个月)有过曝光或者点击的所有搜索信息的列表,称这部分信息为高质量信息,其中的所有搜索信息的列表包括:用户ID、搜索信息ID、搜索信息类目ID以及当前搜索信息标题。
(2)将上述高质量信息的标题中的所有单词归一化为标准的形式,获取到标准形式的搜索信息标题,并将搜索信息更新。其中,更新后的搜索信息(即高质量信息列表)包括:用户ID、搜索信息ID、搜索信息类目ID以及搜索信息标题。
使用本申请的方法对系统中所有的用户都获取一个高质量信息列表,并且后续的近邻用户所有计算只针对拥有高质量信息的信息发布用户进行。具体的可以将如下字段信息保存在高质量表中:(company_id,product_id,category_id,subject),其中,company_id表示用户id,product_id表示搜索id,category_id表示所在类目的类目id以及subject表示经归一化之后的搜索标题。例如,信息发布用户A买两个:无线鼠标和无线键盘,信息类目ID均可以为通讯设备,搜索信息标题则为信息发布用户A定义的标题,如品牌X的无线鼠标。
由于仅仅考虑一个信息发布用户所有的信息不仅使得特点不够突出还会使得后续信息发布用户相似度计算时的得分偏低,在使用本方法提取用户高质量信息列表时,仅仅提取一段时间内有过曝光或点击的信息,突出了用户信息的特点并且在执行步骤S106的结果更能体现用户之间的相似度。
步骤S204,计算关键词与信息类目关联度。
该步骤可以获取系统(即电子商务网站)主搜索的一段时间内的关键词触发点击信息(即访问信息),然后计算每一个关键词与相关信息类目之间的关联强度。上述的一段时间优选为3个月。
在本申请的上述实施例中,提取系统的大于预设访问频率的所有访问信息的步骤可以包括:获取访问信息所对应的访问信息ID、访问关键词以及访问次数;将访问信息ID进行ID更新和对访问次数进行累加计算,以获取对应的访问信息类目ID以及访问总次数;根据访问关键词、访问信息类目ID以及访问总次数进行关联度计算,以获取关联度值;将关联度值以及与关联度值相对应的访问关键词和访问信息类目ID进行保存,以获取关键词类目关联度信息。
在本申请的上述实施例中,将访问信息ID进行ID更新和对访问次数进行累加计算,以获取对应的访问信息类目ID以及访问总次数的步骤可以包括:将访问信息中的访问信息ID转换为访问信息类目ID,以获取更新后的第一访问信息;对更新后的第一访问信息中对应相同的访问信息类目ID的访问次数进行累加计算,以获取访问总次数。具体地,可以对具有相同的访问信息类目ID的第一访问信息的访问次数进行累加计算,以获取访问总次数,并可以获取更新后的第二访问信息。
具体地,获取访问信息所对应的访问信息ID、访问关键词以及访问次数的步骤包括:提取访问信息中的访问信息ID和初始访问关键词;对初始访问关键词进行归一化处理,以获取标准形式的访问关键词,并得到第三访问信息;提取与第三访问信息中的访问关键词相对应的点击次数;对具有相同的访问关键词的第三访问信息的点击次数进行累加计算,以获取访问次数。
具体地,将本申请应用于电子商务网站中,通过如下步骤实现上述方法:
(1)从系统的数据库中提取一段时间内(优选为最近的3个月)从网站主搜索触发的所有产品点击记录(即上述实施例中的大于预设访问频率的所有当前访问产品信息),该信息包括字段(keyword,product_id),其中,keyword表示当前的访问关键词,product_id表示触发的点击记录中的访问产品id。
(2)将通过上述方法提取到的当前访问产品信息中的keyword字段归一化为标准形式,得到更新后的当前访问产品信息。
(3)统计上述信息中每个(keyword,product_id)字段出现的次数,获得访问产品信息,可以用下述字表示:(keyword,product_id,count),其中count表示(keyword,product_id)共同出现的次数,即访问次数。
(4)在获得访问产品信息之后,将访问产品信息中的访问产品ID(即product_id)替换为其所在的产品类目id,获得更新后的访问产频信息,可以使用下述字段表示:(keyword,category_id,count),其中category_id表示访问产品类目id。
(5)将上述更新后的访问产品信息中前两个字段相同的记录次数进行累加计算,得到二次更新后的访问产品信息:(keyword,category_id,total_count),其中,total_count可以表示(keyword,category_id)组合的总出现次数,即访问总次数。
在本申请的上述实施例中,在获取到访问信息之后,可以使用如下方法获取关键词类目关联度信息包括:根据访问关键词、访问信息类目ID以及访问总次数进行关联度计算,以获取关联度值的步骤包括:根据访问关键词、访问信息类目ID以及访问总次数通过第一公式进行关联度计算,获取关联度值relation(keyword,category_id),第一公式为:
其中,keyword为访问关键词,category_id为访问信息类目ID,count(keyword,category_id)为访问总次数,max{count(*,category_id)}为关键词类目关联度信息中所有访问总次数中的最大值。
具体地,根据更新后的第二访问信息,计算访问关键词与访问信息类目的关联度,即计算每一对(keyword,category_id)的关联强度。计算公式为:
其中,max{count(*,category_id)}表示包含访问信息类目ID(即category_id)的所有记录中,最大的访问总次数的值。根据以上关联强度的计算公式可知:关联强度的取值范围只可能是[0,1]。
通过上述方法得到包括关键词类目关键度信息的访问信息,其中,可以将关键词类目关联度保存在数据表中,则上述数据表包括如下字段:(keyword,category_id,relation)
其中,keyword为访问关键词,category_id为访问信息类目ID,relation为关键词类目关联度值,其取值范围为[0,1]。例如,访问信息可以包括如下的字段信息:品牌X,通讯设备,0.5;无线鼠标,通讯设备,0.3;……。这些信息可以以数据表的形式保存。
步骤S206,计算用户关键词权重表。
其中,可以将每个用户的搜索信息分别与关键词类目关联度信息进行权重计算,获取权重参数,并将获取到的关键词权重信息保存在数据表中,生成关键词权重表。具体地,根据信息发布用户所提供的信息的标题关键词以及关键词与信息类目关联度,挖掘能够反应信息发布用户发布信息的特点的关键词权重信息。
在本申请的上述实施例中,根据搜索信息和关键词类目关联度信息进行权重计算,以获取对应每个用户的关键词权重信息的步骤可以包括:从每个用户的搜索信息中分别提取推荐关键词,生成对应每个用户的当前关键词权重信息,其中,当前关键词权重信息包括:用户ID、推荐关键词以及当前关键词类目关联度,当前关键词类目关联度等于关联度值,推荐关键词为搜索信息中的搜索信息标题中与访问关键词相同的关键词;提取当前关键词权重信息中具有相同的用户ID和推荐关键词的关键词权重信息,并将具有相同的用户ID和推荐关键词的关键词权重信息保存在一个或多个权重信息表中,对每个权重信息表中的当前关键词类目关联度分别进行累加计算,得到权重参数,以获取关键词权重信息,其中,关键词权重信息包括用户ID、推荐关键词以及权重参数。
具体地,可以通过如下方法实现:
(1)从搜索信息(即高质量信息表中的数据)中的每一条记录,提取出搜索信息标题(即subject)包含的所有信息有效关键词,获取对应每个用户的当前关键词权重信息。其中,有效关键词是指在关键词类目关联度表中存在的访问关键词,权重信息为:(company_id,keyword,score),keyword为推荐关键词,score为该keyword与category_id的当前关键词类目关联度。优选地,当前关键词类目关联度可以是关键词类目关联度值。
(2)将当前关键词权重信息中包括company_id与keyword两个字段的相同记录的score字段累加得到权重参数(即weight参数),得到关键词权重表,并可以使用如下字段保存在关键词权重信息表中:(company_id,keyword,weight),其中,company_id为用户ID(即信息发布用户ID),keyword表示推荐关键词,weight表示该关键词对应该信息发布用户的权重参数。
使用本申请的上述方法,计算信息发布用户关键词权重参数时,同时考虑了关键词在信息标题中的出现频率和关键词与相关信息类目之间的关联度,从而使获得的关键词权重参数准确地反映该关键词对应该用户的重要程度。
步骤S208,根据用户关键词权重表计算不同用户之间的相似度,并为用户推荐关键词。
其中,根据信息发布用户关键词权重信息计算不同信息发布用户之间的相似度,具体利用信息发布用户关键词权重表的余弦相似度来计算信息发布用户之间的相似度,以为信息发布用户推荐相似度得分最高的若干近邻用户发布信息使用的关键词。
在本申请的上述实施例中,根据对应两个用户的推荐关键词和权重参数进行相似度计算,得到两个用户的相似度值的步骤包括:根据第二公式进行余弦相似度的计算,得到两个用户的相似度值similarity,其中,第二公式为:
其中,K1为第一用户的第一关键词权重信息中的第一关键词集合,K2为第二用户的第二关键词权重信息中的第二关键词集合,K’为第一关键词集合和第二关键词集合的交集,k为交集中的推荐关键词,w1,k为推荐关键词k在第一关键词权重信息中对应的权重参数,w2,k为推荐关键词k在第二关键词权重信息中对应的权重参数。
具体地,计算关键词权重信息中两两信息发布用户之间的余弦相似度。假设第一信息发布用户拥有的关键词集合为K1,第二信息发布用户拥有的关键词集合为K2,二者关键词交集为K’,令w1,k表示推荐关键词k在第一信息发布用户中的权重参数,令w2,k表示关键词k在第二信息发布用户中的权重参数,那么第一信息发布用户与第二信息发布用户之间的余弦相似度similarity为:
在获取到相似度值之后,生成对应每个用户的相似度信息:
(company_id,neighbor_companyd_id,similarity),其中,company_id为用户ID,也即信息发布用户id,neighbor_companyd_id为近邻用户ID,即表示近邻用户的id,similarity表示二者的相似度值。
然后根据相似度信息,为每一位信息发布用户提取相似度值得分最高的一定数量(如:30个)的其他信息发布用户作为该信息发布用户的近邻用户,并将这些相邻信息发布用户发布的关键词信息推荐给用户。
优选的,根据本申请的上述方法获得的信息发布用户近邻信息不仅可以用于P4P信息发布用户的关键词扩充中,还可以用于其他需要基于信息发布用户近邻信息进行运营的业务中。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
从以上的描述中,可以看出,本申请实现了如下技术效果:通过本申请,只选取用户大于预设搜索频率的搜索信息和访问信息,然后根据电子商务网站搜索引擎上关键词搜索与点击信息的记录挖掘关键词与信息类目之间的关联度,并根据信息发布用户所提供的信息的标题关键词以及关键词与信息类目关联度,挖掘能够反应信息发布用户发布信息特点的关键词权重信息,据此生成的用户相似度的权重信息不仅考虑关键词出现的频率也考虑到了关键词与访问信息类目的关联度,且由于处理的数据量只是大于预设搜索频率的搜索信息和访问信息,因此处理的数据量较少,解决了现有技术中在进行关键词扩充时,系统向信息发布用户推荐关键词的处理速度慢并且推荐关键词与信息发布用户的属性不符的问题,实现了系统快速处理信息发布用户的关键词扩充,并可以根据用户的特点向用户准确推荐关键词,从而提高了系统的关键词信息处理速度。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。