CN103885971A - 数据推送的方法及装置 - Google Patents

数据推送的方法及装置 Download PDF

Info

Publication number
CN103885971A
CN103885971A CN201210560700.7A CN201210560700A CN103885971A CN 103885971 A CN103885971 A CN 103885971A CN 201210560700 A CN201210560700 A CN 201210560700A CN 103885971 A CN103885971 A CN 103885971A
Authority
CN
China
Prior art keywords
information
keyword
user
degree
access
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210560700.7A
Other languages
English (en)
Other versions
CN103885971B (zh
Inventor
陈智强
冯贝
曾鹏
顾海杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Singapore Holdings Pte Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201210560700.7A priority Critical patent/CN103885971B/zh
Publication of CN103885971A publication Critical patent/CN103885971A/zh
Application granted granted Critical
Publication of CN103885971B publication Critical patent/CN103885971B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据推送的方法及装置,其中,该方法包括:提取用户的大于预设搜索频率的搜索信息;提取系统中大于预设访问频率的所有访问信息,并获取访问信息所对应的关键词类目关联度信息;根据搜索信息和关键词类目关联度信息进行权重计算,以获取对应每个用户的关键词权重信息,其中,关键词权重信息包括推荐关键词和权重参数;根据对应两个用户的推荐关键词和权重参数进行相似度计算,得到两个用户的相似度值;根据相似度值获取与用户对应的相似度信息,并根据相似度信息向用户推荐关键词。通过本申请,实现了系统快速处理信息发布用户的关键词扩充,并可以根据用户的特点向用户准确推荐关键词,从而提高了系统的关键词信息处理速度。

Description

数据推送的方法及装置
技术领域
本申请涉及互联网领域,具体而言,涉及一种数据推送的方法及装置。
背景技术
目前,电子商务网站主要包括信息发布用户和信息搜索用户两大类客户,其中信息发布用户是在电子商务网站上展示并销售产品的客户群体,信息搜索用户是在电子商务网站上浏览并有购买意向的客户群体,一般电子商务网站上拥有大量的信息发布用户和商品信息,为了帮助每一位信息发布用户的成长,网站需要根据其近邻用户的运营信息帮助其更好的运营网站,其中,近邻用户为在电子商务网站上发布相同或者类似信息的两个信息发布用户,具体地,近邻用户也可以为在电子商务网站上销售相同或者类似产品的两个信息发布用户。
为了帮助平台信息发布用户更好地发展其业务,电子商务网站应该为每一位信息发布用户挖掘与其关联的关键词,我们称该过程为关键词扩充。电子商务平台寻找到每个信息发布用户的近邻用户之后,根据近邻用户发布的所有关键词信息,将其中有价值的关键词信息推荐给当前的信息发布用户以帮助其实现关键词扩充。
现有的近邻用户推荐方法一般是基于每一个信息发布用户的所有产品信息,提取所有产品所包含的关键词的出现频率,然后根据该频率判断每一个关键词的权重,获得每一个信息发布用户的关键词权重表。在近邻搜索时,通过计算两个信息发布用户关键词权重表的权重分布的相似程度计算相似度,为每一个信息发布用户推荐一定数量相似度得分最高的其他信息发布用户。然而,这种方法存在以下的缺点:
(1)现有技术中为某一信息发布用户推荐近邻用户时,需要根据近邻用户所发布的所有商品信息来计算该二用户的相似度,由于电子商务网站信息发布用户所发布的商品信息数量极多,将会导致数据处理量庞大,进一步导致数据处理速度缓慢。另外,电子商务网站上大多数信息发布用户虽然拥有大量的产品品种、数量,但实际得到曝光和点击的产品品种、数量却非常有限,考虑一个信息发布用户的所有产品信息不仅使得产品特点不够突出还会使得后续进行信息发布用户的相似度计算时的得分偏低,使得相似度的得分不能准确反映相邻信息发布用户的关联程度。
(2)由于不同关键词与产品类目的关联程度可能有很大区别,完全按照关键词出现的频率计算关键词权重不能准确的衡量关键词对信息发布用户的重要程度。
针对现有技术中在进行关键词扩充时,系统向信息发布用户推荐关键词的处理速度慢并且推荐关键词与信息发布用户的属性不符的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术在进行关键词扩充时,系统向信息发布用户推荐关键词的处理速度慢并且推荐关键词与信息发布用户的属性不符的问题,目前尚未提出有效的解决方案,为此,本申请的主要目的在于提供一种数据推送的方法及装置,以解决上述问题。
为了实现上述目的,根据本申请的一个方面,提供了一种数据推送的方法,该方法包括:提取用户的大于预设搜索频率的搜索信息;提取系统中大于预设访问频率的所有访问信息,并获取访问信息所对应的关键词类目关联度信息;根据搜索信息和关键词类目关联度信息进行权重计算,以获取对应每个用户的关键词权重信息,其中,关键词权重信息包括推荐关键词和权重参数;根据对应两个用户的推荐关键词和权重参数进行相似度计算,得到两个用户的相似度值;根据相似度值获取与用户对应的相似度信息,并根据相似度信息向用户推荐关键词。
进一步地,提取系统中大于预设访问频率的所有访问信息,并获取访问信息所对应的关键词类目关联度信息的步骤包括:获取访问信息所对应的访问信息ID、访问关键词以及访问次数;将访问信息ID进行ID更新和对访问次数进行累加计算,以获取对应的访问信息类目ID以及访问总次数;根据访问关键词、访问信息类目ID以及访问总次数进行关联度计算,以获取关联度值;将关联度值以及与关联度值相对应的访问关键词和访问信息类目ID进行保存,以获取关键词类目关联度信息。
进一步地,根据访问关键词、访问信息类目ID以及访问总次数进行关联度计算,以获取关联度值的步骤包括:根据访问关键词、访问信息类目ID以及访问总次数通过第一公式进行关联度计算,获取关联度值relation(keyword,category_id),第一公式为:
relation ( keyword , category _ id ) = log 10 ( 1 + count ( keyword , category _ id ) ) log 10 ( 1 + max { count ( * , category _ id ) } ) , 其中,keyword为访问关键词,category_id为访问信息类目ID,count(keyword,category_id)为访问总次数,max{count(*,category_id)}为关键词类目关联度信息中所有访问总次数中的最大值。
进一步地,将访问信息ID进行ID更新和对访问次数进行累加计算,以获取对应的访问信息类目ID以及访问总次数的步骤包括:将访问信息所对应的访问信息ID转换为访问信息类目ID,以获取更新后的第一访问信息;对更新后的第一访问信息中对应相同的访问信息类目ID的访问次数进行累加计算,以获取访问总次数。
进一步地,获取访问信息中的访问信息ID、访问关键词以及访问次数的步骤包括:提取访问信息中的访问信息ID和初始访问关键词;对初始访问关键词进行归一化处理,以获取标准形式的访问关键词,并得到第三访问信息;提取与第三访问信息中的访问关键词相对应的点击次数;对具有相同的访问关键词的第三访问信息的点击次数进行累加计算,以获取访问次数。
进一步地,根据搜索信息和关键词类目关联度信息进行权重计算,以获取对应每个用户的关键词权重信息的步骤包括:从每个用户的搜索信息中分别提取推荐关键词,生成对应每个用户的当前关键词权重信息,其中,当前关键词权重信息包括:用户ID、推荐关键词以及当前关键词类目关联度,当前关键词类目关联度等于关联度值,推荐关键词为搜索信息中的搜索信息标题中与访问关键词相同的关键词;提取当前关键词权重信息中具有相同的用户ID和推荐关键词的关键词权重信息,并将具有相同的用户ID和推荐关键词的关键词权重信息保存在一个或多个权重信息表中,对每个权重信息表中的当前关键词类目关联度分别进行累加计算,得到权重参数,以获取关键词权重信息,其中,关键词权重信息包括用户ID、推荐关键词以及权重参数。
进一步地,根据对应两个用户的推荐关键词和权重参数进行相似度计算,得到两个用户的相似度值的步骤包括:根据第二公式进行余弦相似度的计算,得到两个用户的相似度值similarity,其中,第二公式为:
similarity = Σ k ∈ K ′ w 1 , k * w 2 , k Σ k ∈ K 1 ( w 1 , k * w 1 , k ) Σ k ∈ K 2 ( w 2 , k * w 2 , k ) , 其中,K1为第一用户的第一关键词权重信息中的第一关键词集合,K2为第二用户的第二关键词权重信息中的第二关键词集合,K’为第一关键词集合和第二关键词集合的交集,k为交集中的推荐关键词,w1,k为推荐关键词k在第一关键词权重信息中对应的权重参数,w2,k为推荐关键词k在第二关键词权重信息中对应的权重参数。
进一步地,提取用户的大于预设搜索频率的搜索信息的步骤包括:提取大于预设搜索频率的当前搜索信息,其中,当前搜索信息包括:用户ID、搜索信息ID、搜索信息类目ID以及当前搜索信息标题;对当前搜索信息中的当前搜索信息标题进行归一化处理,以获取标准形式的搜索信息标题,得到更新后的搜索信息。
为了实现上述目的,根据本申请的一个方面,提供了一种数据推送的装置,该装置包括:第一提取模块,用于提取用户的大于预设搜索频率的搜索信息;第四处理模块,用于提取系统中大于预设访问频率的所有访问信息,并获取访问信息所对应的关键词类目关联度信息;第一处理模块,用于根据搜索信息和关键词类目关联度信息进行权重计算,以获取对应每个用户的关键词权重信息,其中,关键词权重信息包括推荐关键词和权重参数;第二处理模块,用于根据对应两个用户的推荐关键词和权重参数进行相似度计算,得到两个用户的相似度值;第三处理模块,用于根据相似度值获取与用户对应的相似度信息,并根据相似度信息向用户推荐关键词。
进一步地,第四处理模块包括:第一获取模块,用于获取访问信息所对应的访问信息ID、访问关键词以及访问次数;第五处理模块,用于将访问信息ID进行ID更新和对访问次数进行累加计算,以获取对应的访问信息类目ID以及访问总次数;第一计算模块,用于根据访问关键词、访问信息类目ID以及访问总次数进行关联度计算,以获取关联度值;保存模块,用于将关联度值以及与关联度值相对应的访问关键词和访问信息类目ID进行保存,以获取关键词类目关联度信息。
进一步地,第一计算模块包括:第一子计算模块,用于根据访问关键词、访问信息类目ID以及访问总次数通过第一公式进行关联度计算,获取关联度值relation(keyword,category_id),第一公式为:
relation ( keyword , category _ id ) = log 10 ( 1 + count ( keyword , category _ id ) ) log 10 ( 1 + max { count ( * , category _ id ) } ) , 其中,keyword为访问关键词,category_id为访问信息类目ID,count(keyword,category_id)为访问总次数,max{count(*,category_id)}为关键词类目关联度信息中所有访问总次数中的最大值。
进一步地,第五处理模块包括:第一子处理模块,用于将访问信息的访问信息ID转换为访问信息类目ID,以获取更新后的第一访问信息;第二子计算模块,用于对更新后的第一访问信息中对应相同的访问信息类目ID的访问次数进行累加计算,以获取访问总次数。
进一步地,第一获取模块包括:第一子提取模块,用于提取访问信息中的访问信息ID和初始访问关键词;第二子处理模块,用于对初始访问关键词进行归一化处理,以获取标准形式的访问关键词,并得到第三访问信息;第三子处理模块,用于提取与第三访问信息中的访问关键词相对应的点击次数;第四子处理模块,用于对具有相同的访问关键词的第三访问信息的点击次数进行累加计算,以获取访问次数。
进一步地,第一处理模块包括:第二子提取模块,用于从每个用户的搜索信息中分别提取推荐关键词,生成对应每个用户的当前关键词权重信息,其中,当前关键词权重信息包括:用户ID、推荐关键词以及当前关键词类目关联度,当前关键词类目关联度等于关联度值,推荐关键词为搜索信息中的搜索信息标题中与访问关键词相同的关键词;第五子处理模块,用于提取当前关键词权重信息中具有相同的用户ID和推荐关键词的关键词权重信息,并将具有相同的用户ID和推荐关键词的关键词权重信息保存在一个或多个权重信息表中,对每个权重信息表中的当前关键词类目关联度分别进行累加计算,得到权重参数,以获取关键词权重信息,其中,关键词权重信息包括用户ID、推荐关键词以及权重参数。
进一步地,第二处理模块包括:第四子计算模块,用于根据第二公式进行余弦相似度的计算,得到两个用户的相似度值similarity,其中,第二公式为:
similarity = Σ k ∈ K ′ w 1 , k * w 2 , k Σ k ∈ K 1 ( w 1 , k * w 1 , k ) Σ k ∈ K 2 ( w 2 , k * w 2 , k ) , 其中,K1为第一用户的第一关键词权重信息中的第一关键词集合,K2为第二用户的第二关键词权重信息中的第二关键词集合,K’为第一关键词集合和第二关键词集合的交集,k为交集中的推荐关键词,w1,k为推荐关键词k在第一关键词权重信息中对应的权重参数,w2,k为推荐关键词k在第二关键词权重信息中对应的权重参数。
进一步地,第一提取模块包括:第三子提取模块,用于提取大于预设搜索频率的当前搜索信息,其中,当前搜索信息包括:用户ID、搜索信息ID、搜索信息类目ID以及当前搜索信息标题;第六子处理模块,用于对当前搜索信息中的当前搜索信息标题进行归一化处理,以获取标准形式的搜索信息标题,得到更新后的搜索信息。
通过本申请,只选取用户大于预设搜索频率的搜索信息和访问信息,然后根据电子商务网站搜索引擎上关键词搜索与点击信息的记录挖掘关键词与信息类目之间的关联度,并根据信息发布用户所提供的信息的标题关键词以及关键词与信息类目关联度,挖掘能够反应信息发布用户发布信息特点的关键词权重信息,据此生成的用户相似度的权重信息不仅考虑关键词出现的频率也考虑到了关键词与访问信息类目的关联度,且处理的数据量较小,解决了现有技术中在进行关键词扩充时,系统向信息发布用户推荐关键词的处理速度慢并且推荐关键词与信息发布用户的属性不符的问题,实现了系统快速处理信息发布用户的关键词扩充,并可以根据用户的特点向用户准确推荐关键词,从而提高了系统的关键词信息处理速度。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的数据推送的装置的结构示意图;
图2是根据本申请实施例的数据推送的方法的流程图;以及
图3是根据图2所示实施例的数据推送的方法的流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1是根据本申请实施例的数据推送的装置的结构示意图。如图1所示,该装置包括:第一提取模块10,用于提取用户的大于预设搜索频率的搜索信息;第四处理模块30,用于提取系统中大于预设访问频率的所有访问信息,并获取访问信息所对应的关键词类目关联度信息;第一处理模块50,用于根据搜索信息和关键词类目关联度信息进行权重计算,以获取对应每个用户的关键词权重信息,其中,关键词权重信息包括推荐关键词和权重参数;第二处理模块70,用于根据对应两个用户的推荐关键词和权重参数进行相似度计算,得到两个用户的相似度值;第三处理模块90,用于根据相似度值获取与用户对应的相似度信息,并根据相似度信息向用户推荐关键词。
采用本申请的数据推送的装置,通过第一提取模块提取用户的大于预设搜索频率的搜索信息,并通过第二提取模块提取系统的大于预设访问频率的所有访问信息,然后,第一处理模块根据搜索信息和访问信息中的关键词类目关联度信息进行权重计算,以获取对应每个用户的关键词权重信息,之后第二处理模块根据对应两个用户的关键词权重信息中的推荐关键词和权重参数进行相似度计算,得到两个用户的相似度值,最后第三处理模块根据相似度值获取与用户对应的相似度信息,并根据相似度信息向用户推荐关键词。通过本申请的数据推送的装置,只选取用户大于预设搜索频率的搜索信息和访问信息,然后根据电子商务网站搜索引擎上关键词搜索与点击信息的记录挖掘关键词与信息类目之间的关联度,并根据信息发布用户所提供的信息的标题关键词以及关键词与信息类目关联度,挖掘能够反应信息发布用户发布信息特点的关键词权重信息,据此生成的用户相似度的权重信息不仅考虑关键词出现的频率也考虑到了关键词与访问信息类目的关联度,且由于处理的数据量只是大于预设搜索频率的搜索信息和访问信息,因此处理的数据量较少,解决了现有技术中在进行关键词扩充时,系统向信息发布用户推荐关键词的处理速度慢并且推荐关键词与信息发布用户的属性不符的问题,实现了系统快速处理信息发布用户的关键词扩充,并可以根据用户的特点向用户准确推荐关键词,从而提高了系统的关键词信息处理速度。
其中,上述实施例中的用户可以为信息发布用户。
上述实施例中的关键词推荐可以是推荐近邻用户的标识,也可以是推荐近邻用户的搜索关键词,也即该关键词推荐可以是向信息发布用户推荐其它信息发布用户的ID,使得信息发布用户通过ID获取其它信息发布用户的关键词信息,也可以直接向信息发布用户推荐关键词信息。
本申请的数据推送的装置可以应用于电子商务网站近邻用户推荐或者基于近邻用户的其他信息运营的业务中,则上述实施例中的用户可以是信息发布用户,系统可以是电子商务网站。其中,近邻用户推荐可以针对电子商务网站的全部或者部分信息发布用户,为其中的每一位信息发布用户都推荐一定数量的其他近邻用户的信息,具体地,上述信息可以是近邻用户的ID或其它标识(如:名称等),也可以是近邻用户的关键词信息。
其中,上述实施例中的搜索信息和访问信息,可以是电子商务网站中的搜索产品信息和访问产品信息。具体地,搜索信息可以是一段时间内(如:3个月)在电子商务网站上对应每个用户的有过曝光或者点击的所有的产品的信息,而访问信息则可以为从电子商务网站触发的所有被点击过的产品的信息,关键词类目关联度信息则为使用者访问信息时所使用的关键词与访问信息的类目之间关联度信息。其中,一段时间可以是3个月。
具体地,上述实施例中,由于相似度值示出了两个信息发布用户之间的相似度,若两个用户分别为第一用户和第二用户,则对第一用户进行关键词推荐时,第三处理模块90获取第二用户的发布的关键词信息,关键词信息包括第二用户的信息ID,信息类目ID,第二用户发布产品信息的信息标题或者第二用户发布信息的信息关键词。
在本申请的上述实施例中,第一提取模块10包括:第三子提取模块,用于提取大于预设搜索频率的当前搜索信息,其中,当前搜索信息包括:用户ID、搜索信息ID、搜索信息类目ID以及当前搜索信息标题;第六子处理模块,用于对当前搜索信息中的当前搜索信息标题进行归一化处理,以获取标准形式的搜索信息标题,得到更新后的搜索信息。
具体地,第三子提取模块提取大于预设搜索频率的当前搜索信息之后,第六子处理模块,用于根据当前搜索信息中的搜索信息当前标题进行归一化处理,以获取标准形式的搜索信息标题,得到更新后的搜索信息。其中,当前搜索信息包括:用户ID、搜索信息ID、搜索信息类目ID以及当前搜索信息标题。
在本申请的上述实施例中,第四处理模块可以包括:第一获取模块,用于获取访问信息所对应的访问信息ID、访问关键词以及访问次数;第五处理模块,用于将访问信息ID进行ID更新和对访问次数进行累加计算,以获取对应的访问信息类目ID以及访问总次数;第一计算模块,用于根据访问关键词、访问信息类目ID以及访问总次数进行关联度计算,以获取关联度值;保存模块,用于将关联度值以及与关联度值相对应的访问关键词和访问信息类目ID进行保存,以获取关键词类目关联度信息。其中,第一计算模块根据电子商务网站搜索引擎上关键词搜索与信息点击的记录挖掘关键词与信息类目之间的关联度。
其中,访问信息可以以数据表的形式存储,访问信息包括一条或多条信息,其中的每条信息分别用三个字段存储:访问信息ID、访问关键词以及访问次数。
更具体地,第五处理模块可以包括:第一子处理模块,用于将访问信息中的访问信息ID转换为访问信息类目ID,以获取更新后的第一访问信息;第二子计算模块,用于对更新后的第一访问信息中对应相同的访问信息类目ID的访问次数进行累加计算,以获取访问总次数。
具体地,第一子处理模块,用于将访问信息中的访问信息ID替换为信息类目ID,以获取更新后的第一访问信息,则更新后的第一访问信息包括:访问关键词、访问次数以及访问信息类目ID,然后第二子计算模块将更新后的第一访问信息中的与相同的访问信息类目ID和访问关键词的对应的访问次数进行累加计算,以获取访问总次数,并可以获取包括访问关键词、访问信息类目ID以及访问总次数的第二访问信息。
进一步地,第一获取模块包括:第一子提取模块,用于提取访问信息中的访问信息ID和初始访问关键词;第二子处理模块,用于对初始访问关键词进行归一化处理,以获取标准形式的访问关键词,并得到第三访问信息;第三子处理模块,用于提取与第三访问信息中的访问关键词相对应的点击次数;第四子处理模块,用于对具有相同的访问关键词的第三访问信息的点击次数进行累加计算,以获取访问次数。
具体地,通过执行第一子提取模块获取当前访问信息,然后第二子处理模块将当前访问信息中的初始访问关键词进行归一化处理,以获取标准形式的访问关键词,得到第三访问信息,例如,将无线鼠标归一化为鼠标或者将水晶开关归一化为开关,或者将番茄归一化为西红柿等等。
其中,第三子处理模块还可以用于根据对应相同的访问关键词的点击次数进行累加计算,以获取访问信息,其中,访问信息包括访问信息ID、访问关键词以及访问次数。
具体地,在得到第三访问信息之后,第三子处理模块和第四子处理模块将与归一化后的访问关键词相对应的点击次数进行累加得到访问总次数,并获取访问信息。
具体地,第一计算模块可以包括:第一子计算模块,用于根据访问关键词、访问信息类目ID以及访问总次数通过第一公式进行关联度计算,获取关联度值relation(keyword,category_id),第一公式为:
relation ( keyword , category _ id ) = log 10 ( 1 + count ( keyword , category _ id ) ) log 10 ( 1 + max { count ( * , category _ id ) } ) , 其中,keyword为访问关键词,category_id为访问信息类目ID,count(keyword,category_id)为访问总次数,max{count(*,category_id)}为关键词类目关联度信息中所有访问总次数中的最大值。其中,关键词类目关联度信息为关键词与信息类目之间的关联度信息。
在本申请的上述实施例中,第一处理模块50可以包括:第二子提取模块,用于从每个用户的搜索信息中分别提取推荐关键词,生成对应每个用户的当前关键词权重信息,其中,当前关键词权重信息包括:用户ID、推荐关键词以及当前关键词类目关联度,当前关键词类目关联度等于关联度值,推荐关键词为搜索信息中的搜索信息标题中与访问关键词相同的关键词;第五子处理模块,用于提取当前关键词权重信息中具有相同的用户ID和推荐关键词的关键词权重信息,并将具有相同的用户ID和推荐关键词的关键词权重信息保存在一个或多个权重信息表中,对每个权重信息表中的当前关键词类目关联度分别进行累加计算,得到权重参数,以获取关键词权重信息,其中,关键词权重信息包括用户ID、推荐关键词以及权重参数。
其中,当前关键词权重信息包括:用户ID、搜索关键词以及当前关键词类目关联度,当前关键词类目关联度等于关联度值,推荐关键词为搜索信息中的搜索标题中与访问关键词相同的关键词,关键词权重信息包括用户ID、推荐关键词以及权重参数。
根据本申请的上述实施例,第二处理模块70可以包括:第四子计算模块,用于根据第二公式进行余弦相似度的计算,得到两个用户的相似度值similarity,其中,第二公式为:
similarity = Σ k ∈ K ′ w 1 , k * w 2 , k Σ k ∈ K 1 ( w 1 , k * w 1 , k ) Σ k ∈ K 2 ( w 2 , k * w 2 , k ) , 其中,K1为第一用户的第一关键词权重信息中的第一关键词集合,K2为第二用户的第二关键词权重信息中的第二关键词集合,K’为第一关键词集合和第二关键词集合的交集,k为交集中的推荐关键词,w1,k为推荐关键词k在第一关键词权重信息中对应的权重参数,w2,k为推荐关键词k在第二关键词权重信息中对应的权重参数。
具体地,第四子计算模块计算关键词权重信息中两两信息发布用户之间的余弦相似度。具体方法如下:
假设第一信息发布用户拥有的关键词集合为K1,第二信息发布用户拥有的关键词集合为K2,二者关键词交集为K’,令w1,k表示推荐关键词k在第一信息发布用户中的权重参数,令w2,k表示关键词k在第二信息发布用户中的权重参数,那么第一信息发布用户与第二信息发布用户之间的余弦相似度similarity为:
similarity = Σ k ∈ K ′ w 1 , k * w 2 , k Σ k ∈ K 1 ( w 1 , k * w 1 , k ) Σ k ∈ K 2 ( w 2 , k * w 2 , k ) ;
在获取到相似度值之后,第三处理模块处理获取对应每个用户的相似度信息:
(company_id,neighbor_companyd_id,similarity),其中,company_id为用户ID,也即信息发布用户id,neighbor_companyd_id为近邻用户ID,即表示近邻用户的id,similarity表示二者的相似度值。
之后第三处理模块根据相似度信息,为每一位信息发布用户提取相似度值得分最高的一定数量(如30个)的其他信息发布用户作为该信息发布用户的近邻用户,并将这些相邻信息发布用户发布的关键词信息推荐给用户。
图2是根据本申请实施例的数据推送的方法的流程图。图3是根据图2所示实施例的数据推送的方法的流程图。
如图2和图3所示该方法包括如下步骤:
步骤S102,提取用户的大于预设搜索频率的搜索信息。
步骤S104,提取系统中大于预设访问频率的所有访问信息,并获取所述访问信息所对应的关键词类目关联度信息。
步骤S106,根据搜索信息和关键词类目关联度信息进行权重计算,以获取对应每个用户的关键词权重信息,其中,关键词权重信息包括推荐关键词和权重参数。
步骤S108,根据对应两个用户的推荐关键词和权重参数进行相似度计算,得到两个用户的相似度值。
步骤S110,根据相似度值获取与用户对应的相似度信息,并根据相似度信息向用户推荐关键词。
采用本申请的数据推送的方法,通过提取用户的大于预设搜索频率的搜索信息,并提取系统的大于预设访问频率的所有访问信息及与访问信息所对应的关键词类目关联度信息,然后,根据搜索信息和关键词类目关联度信息进行权重计算,以获取对应每个用户的关键词权重信息,之后根据对应两个用户的关键词权重信息中的推荐关键词和权重参数进行相似度计算,得到两个用户的相似度值,根据相似度值获取与用户对应的相似度信息,并根据相似度信息向用户推荐关键词。通过本申请的数据推送的方法,只选取用户大于预设搜索频率的搜索信息和访问信息,然后根据电子商务网站搜索引擎上关键词搜索与点击信息的记录挖掘关键词与信息类目之间的关联度,并根据信息发布用户所提供的信息的标题关键词以及关键词与信息类目关联度,挖掘能够反应信息发布用户发布信息特点的关键词权重信息,据此生成的用户相似度的权重信息不仅考虑关键词出现的频率也考虑到了关键词与访问信息类目的关联度,且由于处理的数据量只是大于预设搜索频率的搜索信息和访问信息,因此处理的数据量较少,解决了现有技术中在进行关键词扩充时,系统向信息发布用户推荐关键词的处理速度慢并且推荐关键词与信息发布用户的属性不符的问题,实现了系统快速处理信息发布用户的关键词扩充,并可以根据用户的特点向用户准确推荐关键词,从而提高了系统的关键词信息处理速度。
上述实施例中的关键词推荐可以是推荐近邻用户的标识,也可以是推荐近邻用户的搜索关键词,也即该关键词推荐可以是向信息发布用户推荐其它信息发布用户的ID,使得信息发布用户通过ID获取其它信息发布用户的关键词信息,也可以直接向信息发布用户推荐关键词信息。
本申请的数据推送的装置可以应用于电子商务网站近邻用户推荐或者基于近邻用户的其他信息运营的业务中,则上述实施例中的用户可以是信息发布用户,系统可以是电子商务网站。其中,近邻用户推荐可以针对电子商务网站的全部或者部分信息发布用户,为其中的每一位信息发布用户都推荐一定数量的其他近邻用户的信息,具体地,上述信息可以是近邻用户的ID或其它标识(如:名称等),也可以是近邻用户的关键词信息。
其中,上述实施例中的搜索信息和访问信息,可以是电子商务网站中的搜索产品信息和访问产品信息。具体地,搜索信息可以是一段时间内(如:3个月)在电子商务网站上对应每个用户的有过曝光或者点击的所有的产品的信息,而访问信息则可以为从电子商务网站触发的所有被点击过的产品的信息,关键词类目关联度信息则为使用者访问信息时所使用的关键词与访问产品的类目之间关联度信息。其中,访问信息可以是网站搜索一段时间内的关键词触发点击,此处的一段时间可以是3个月。
具体地,上述实施例中,由于相似度值示出了两个信息发布用户之间的相似度,若两个用户分别为第一用户和第二用户,则对第一用户进行关键词推荐时,第三处理模块90获取第二用户的发布的关键词信息,关键词信息包括第二用户的信息ID,信息类目ID,第二用户发布信息的信息标题或者第二用户发布信息的信息关键词。
具体地,可以执行步骤S202至步骤S208实现上述方法:
步骤S202,提取用户高质量信息列表。其中,用户高质量信息列表可以是一段时间内网站所有信息中被曝光或者点击过的所有信息的列表,也即用于上述实施例中的搜索信息的列表。
根据上述实施例,提取用户的大于预设搜索频率的搜索信息的步骤可以包括:提取大于预设搜索频率的当前搜索信息,其中,当前搜索信息包括:用户ID、搜索信息ID、搜索信息类目ID以及当前搜索信息标题;对当前搜索信息中的当前搜索信息标题进行归一化处理,以获取标准形式的搜索信息标题,得到更新后的搜索信息。
具体地,对当前搜索信息标题进行归一化处理,以获取标准形式的搜索信息标题,并使用标准形式的搜索信息标题更新当前搜索信息,得到搜索信息。
具体地,可以通过如下步骤实现上述方法:
(1)从数据库中提取一段时间内(优选为3个月)有过曝光或者点击的所有搜索信息的列表,称这部分信息为高质量信息,其中的所有搜索信息的列表包括:用户ID、搜索信息ID、搜索信息类目ID以及当前搜索信息标题。
(2)将上述高质量信息的标题中的所有单词归一化为标准的形式,获取到标准形式的搜索信息标题,并将搜索信息更新。其中,更新后的搜索信息(即高质量信息列表)包括:用户ID、搜索信息ID、搜索信息类目ID以及搜索信息标题。
使用本申请的方法对系统中所有的用户都获取一个高质量信息列表,并且后续的近邻用户所有计算只针对拥有高质量信息的信息发布用户进行。具体的可以将如下字段信息保存在高质量表中:(company_id,product_id,category_id,subject),其中,company_id表示用户id,product_id表示搜索id,category_id表示所在类目的类目id以及subject表示经归一化之后的搜索标题。例如,信息发布用户A买两个:无线鼠标和无线键盘,信息类目ID均可以为通讯设备,搜索信息标题则为信息发布用户A定义的标题,如品牌X的无线鼠标。
由于仅仅考虑一个信息发布用户所有的信息不仅使得特点不够突出还会使得后续信息发布用户相似度计算时的得分偏低,在使用本方法提取用户高质量信息列表时,仅仅提取一段时间内有过曝光或点击的信息,突出了用户信息的特点并且在执行步骤S106的结果更能体现用户之间的相似度。
步骤S204,计算关键词与信息类目关联度。
该步骤可以获取系统(即电子商务网站)主搜索的一段时间内的关键词触发点击信息(即访问信息),然后计算每一个关键词与相关信息类目之间的关联强度。上述的一段时间优选为3个月。
在本申请的上述实施例中,提取系统的大于预设访问频率的所有访问信息的步骤可以包括:获取访问信息所对应的访问信息ID、访问关键词以及访问次数;将访问信息ID进行ID更新和对访问次数进行累加计算,以获取对应的访问信息类目ID以及访问总次数;根据访问关键词、访问信息类目ID以及访问总次数进行关联度计算,以获取关联度值;将关联度值以及与关联度值相对应的访问关键词和访问信息类目ID进行保存,以获取关键词类目关联度信息。
在本申请的上述实施例中,将访问信息ID进行ID更新和对访问次数进行累加计算,以获取对应的访问信息类目ID以及访问总次数的步骤可以包括:将访问信息中的访问信息ID转换为访问信息类目ID,以获取更新后的第一访问信息;对更新后的第一访问信息中对应相同的访问信息类目ID的访问次数进行累加计算,以获取访问总次数。具体地,可以对具有相同的访问信息类目ID的第一访问信息的访问次数进行累加计算,以获取访问总次数,并可以获取更新后的第二访问信息。
具体地,获取访问信息所对应的访问信息ID、访问关键词以及访问次数的步骤包括:提取访问信息中的访问信息ID和初始访问关键词;对初始访问关键词进行归一化处理,以获取标准形式的访问关键词,并得到第三访问信息;提取与第三访问信息中的访问关键词相对应的点击次数;对具有相同的访问关键词的第三访问信息的点击次数进行累加计算,以获取访问次数。
具体地,将本申请应用于电子商务网站中,通过如下步骤实现上述方法:
(1)从系统的数据库中提取一段时间内(优选为最近的3个月)从网站主搜索触发的所有产品点击记录(即上述实施例中的大于预设访问频率的所有当前访问产品信息),该信息包括字段(keyword,product_id),其中,keyword表示当前的访问关键词,product_id表示触发的点击记录中的访问产品id。
(2)将通过上述方法提取到的当前访问产品信息中的keyword字段归一化为标准形式,得到更新后的当前访问产品信息。
(3)统计上述信息中每个(keyword,product_id)字段出现的次数,获得访问产品信息,可以用下述字表示:(keyword,product_id,count),其中count表示(keyword,product_id)共同出现的次数,即访问次数。
(4)在获得访问产品信息之后,将访问产品信息中的访问产品ID(即product_id)替换为其所在的产品类目id,获得更新后的访问产频信息,可以使用下述字段表示:(keyword,category_id,count),其中category_id表示访问产品类目id。
(5)将上述更新后的访问产品信息中前两个字段相同的记录次数进行累加计算,得到二次更新后的访问产品信息:(keyword,category_id,total_count),其中,total_count可以表示(keyword,category_id)组合的总出现次数,即访问总次数。
在本申请的上述实施例中,在获取到访问信息之后,可以使用如下方法获取关键词类目关联度信息包括:根据访问关键词、访问信息类目ID以及访问总次数进行关联度计算,以获取关联度值的步骤包括:根据访问关键词、访问信息类目ID以及访问总次数通过第一公式进行关联度计算,获取关联度值relation(keyword,category_id),第一公式为:
relation ( keyword , category _ id ) = log 10 ( 1 + count ( keyword , category _ id ) ) log 10 ( 1 + max { count ( * , category _ id ) } ) , 其中,keyword为访问关键词,category_id为访问信息类目ID,count(keyword,category_id)为访问总次数,max{count(*,category_id)}为关键词类目关联度信息中所有访问总次数中的最大值。
具体地,根据更新后的第二访问信息,计算访问关键词与访问信息类目的关联度,即计算每一对(keyword,category_id)的关联强度。计算公式为:
relation ( keyword , category _ id ) = log 10 ( 1 + count ( keyword , category _ id ) ) log 10 ( 1 + max { count ( * , category _ id ) } ) ,
其中,max{count(*,category_id)}表示包含访问信息类目ID(即category_id)的所有记录中,最大的访问总次数的值。根据以上关联强度的计算公式可知:关联强度的取值范围只可能是[0,1]。
通过上述方法得到包括关键词类目关键度信息的访问信息,其中,可以将关键词类目关联度保存在数据表中,则上述数据表包括如下字段:(keyword,category_id,relation)
其中,keyword为访问关键词,category_id为访问信息类目ID,relation为关键词类目关联度值,其取值范围为[0,1]。例如,访问信息可以包括如下的字段信息:品牌X,通讯设备,0.5;无线鼠标,通讯设备,0.3;……。这些信息可以以数据表的形式保存。
步骤S206,计算用户关键词权重表。
其中,可以将每个用户的搜索信息分别与关键词类目关联度信息进行权重计算,获取权重参数,并将获取到的关键词权重信息保存在数据表中,生成关键词权重表。具体地,根据信息发布用户所提供的信息的标题关键词以及关键词与信息类目关联度,挖掘能够反应信息发布用户发布信息的特点的关键词权重信息。
在本申请的上述实施例中,根据搜索信息和关键词类目关联度信息进行权重计算,以获取对应每个用户的关键词权重信息的步骤可以包括:从每个用户的搜索信息中分别提取推荐关键词,生成对应每个用户的当前关键词权重信息,其中,当前关键词权重信息包括:用户ID、推荐关键词以及当前关键词类目关联度,当前关键词类目关联度等于关联度值,推荐关键词为搜索信息中的搜索信息标题中与访问关键词相同的关键词;提取当前关键词权重信息中具有相同的用户ID和推荐关键词的关键词权重信息,并将具有相同的用户ID和推荐关键词的关键词权重信息保存在一个或多个权重信息表中,对每个权重信息表中的当前关键词类目关联度分别进行累加计算,得到权重参数,以获取关键词权重信息,其中,关键词权重信息包括用户ID、推荐关键词以及权重参数。
具体地,可以通过如下方法实现:
(1)从搜索信息(即高质量信息表中的数据)中的每一条记录,提取出搜索信息标题(即subject)包含的所有信息有效关键词,获取对应每个用户的当前关键词权重信息。其中,有效关键词是指在关键词类目关联度表中存在的访问关键词,权重信息为:(company_id,keyword,score),keyword为推荐关键词,score为该keyword与category_id的当前关键词类目关联度。优选地,当前关键词类目关联度可以是关键词类目关联度值。
(2)将当前关键词权重信息中包括company_id与keyword两个字段的相同记录的score字段累加得到权重参数(即weight参数),得到关键词权重表,并可以使用如下字段保存在关键词权重信息表中:(company_id,keyword,weight),其中,company_id为用户ID(即信息发布用户ID),keyword表示推荐关键词,weight表示该关键词对应该信息发布用户的权重参数。
使用本申请的上述方法,计算信息发布用户关键词权重参数时,同时考虑了关键词在信息标题中的出现频率和关键词与相关信息类目之间的关联度,从而使获得的关键词权重参数准确地反映该关键词对应该用户的重要程度。
步骤S208,根据用户关键词权重表计算不同用户之间的相似度,并为用户推荐关键词。
其中,根据信息发布用户关键词权重信息计算不同信息发布用户之间的相似度,具体利用信息发布用户关键词权重表的余弦相似度来计算信息发布用户之间的相似度,以为信息发布用户推荐相似度得分最高的若干近邻用户发布信息使用的关键词。
在本申请的上述实施例中,根据对应两个用户的推荐关键词和权重参数进行相似度计算,得到两个用户的相似度值的步骤包括:根据第二公式进行余弦相似度的计算,得到两个用户的相似度值similarity,其中,第二公式为:
similarity = Σ k ∈ K ′ w 1 , k * w 2 , k Σ k ∈ K 1 ( w 1 , k * w 1 , k ) Σ k ∈ K 2 ( w 2 , k * w 2 , k ) , 其中,K1为第一用户的第一关键词权重信息中的第一关键词集合,K2为第二用户的第二关键词权重信息中的第二关键词集合,K’为第一关键词集合和第二关键词集合的交集,k为交集中的推荐关键词,w1,k为推荐关键词k在第一关键词权重信息中对应的权重参数,w2,k为推荐关键词k在第二关键词权重信息中对应的权重参数。
具体地,计算关键词权重信息中两两信息发布用户之间的余弦相似度。假设第一信息发布用户拥有的关键词集合为K1,第二信息发布用户拥有的关键词集合为K2,二者关键词交集为K’,令w1,k表示推荐关键词k在第一信息发布用户中的权重参数,令w2,k表示关键词k在第二信息发布用户中的权重参数,那么第一信息发布用户与第二信息发布用户之间的余弦相似度similarity为: similarity = Σ k ∈ K ′ w 1 , k * w 2 , k Σ k ∈ K 1 ( w 1 , k * w 1 , k ) Σ k ∈ K 2 ( w 2 , k * w 2 , k ) ;
在获取到相似度值之后,生成对应每个用户的相似度信息:
(company_id,neighbor_companyd_id,similarity),其中,company_id为用户ID,也即信息发布用户id,neighbor_companyd_id为近邻用户ID,即表示近邻用户的id,similarity表示二者的相似度值。
然后根据相似度信息,为每一位信息发布用户提取相似度值得分最高的一定数量(如:30个)的其他信息发布用户作为该信息发布用户的近邻用户,并将这些相邻信息发布用户发布的关键词信息推荐给用户。
优选的,根据本申请的上述方法获得的信息发布用户近邻信息不仅可以用于P4P信息发布用户的关键词扩充中,还可以用于其他需要基于信息发布用户近邻信息进行运营的业务中。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
从以上的描述中,可以看出,本申请实现了如下技术效果:通过本申请,只选取用户大于预设搜索频率的搜索信息和访问信息,然后根据电子商务网站搜索引擎上关键词搜索与点击信息的记录挖掘关键词与信息类目之间的关联度,并根据信息发布用户所提供的信息的标题关键词以及关键词与信息类目关联度,挖掘能够反应信息发布用户发布信息特点的关键词权重信息,据此生成的用户相似度的权重信息不仅考虑关键词出现的频率也考虑到了关键词与访问信息类目的关联度,且由于处理的数据量只是大于预设搜索频率的搜索信息和访问信息,因此处理的数据量较少,解决了现有技术中在进行关键词扩充时,系统向信息发布用户推荐关键词的处理速度慢并且推荐关键词与信息发布用户的属性不符的问题,实现了系统快速处理信息发布用户的关键词扩充,并可以根据用户的特点向用户准确推荐关键词,从而提高了系统的关键词信息处理速度。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (16)

1.一种数据推送的方法,其特征在于,包括:
提取用户的大于预设搜索频率的搜索信息;
提取系统中大于预设访问频率的所有访问信息,并获取所述访问信息所对应的关键词类目关联度信息;
根据所述搜索信息和所述关键词类目关联度信息进行权重计算,以获取对应每个所述用户的关键词权重信息,其中,所述关键词权重信息包括推荐关键词和权重参数;
根据对应两个所述用户的所述推荐关键词和所述权重参数进行相似度计算,得到两个所述用户的相似度值;
根据所述相似度值获取与所述用户对应的相似度信息,并根据所述相似度信息向所述用户推荐关键词。
2.根据权利要求1所述的方法,其特征在于,提取系统中大于预设访问频率的所有访问信息,并获取所述访问信息所对应的关键词类目关联度信息的步骤包括:
获取所述访问信息所对应的访问信息ID、访问关键词以及访问次数;
将所述访问信息ID进行ID更新和对所述访问次数进行累加计算,以获取对应的访问信息类目ID以及访问总次数;
根据所述访问关键词、所述访问信息类目ID以及所述访问总次数进行关联度计算,以获取关联度值;
将所述关联度值以及与所述关联度值相对应的所述访问关键词和所述访问信息类目ID进行保存,以获取所述关键词类目关联度信息。
3.根据权利要求2所述的方法,其特征在于,根据所述访问关键词、所述访问信息类目ID以及所述访问总次数进行关联度计算,以获取关联度值的步骤包括:
根据所述访问关键词、所述访问信息类目ID以及所述访问总次数通过第一公式进行关联度计算,获取所述关联度值relation(keyword,category_id),所述第一公式为:
relation ( keyword , category _ id ) = log 10 ( 1 + count ( keyword , category _ id ) ) log 10 ( 1 + max { count ( * , category _ id ) } ) , 其中,所述keyword为所述访问关键词,所述category_id为所述访问信息类目ID,所述count(keyword,category_id)为所述访问总次数,所述max{count(*,category_id)}为所述关键词类目关联度信息中所有所述访问总次数中的最大值。
4.根据权利要求2所述的方法,其特征在于,将所述访问信息ID进行ID更新和对所述访问次数进行累加计算,以获取对应的访问信息类目ID以及访问总次数的步骤包括:
将所述访问信息中的所述访问信息ID转换为访问信息类目ID,以获取更新后的第一访问信息;
对所述第一访问信息中对应相同的所述访问信息类目ID的所述访问次数进行累加计算,以获取所述访问总次数。
5.根据权利要求4所述的方法,其特征在于,获取所述访问信息所对应的访问信息ID、访问关键词以及访问次数的步骤包括:
提取所述访问信息中的所述访问信息ID和初始访问关键词;
对所述初始访问关键词进行归一化处理,以获取标准形式的所述访问关键词,并得到更新后的第三访问信息;
提取与所述第三访问信息中的所述访问关键词相对应的点击次数;
对具有相同的访问关键词的所述第三访问信息的点击次数进行累加计算,以获取所述访问次数。
6.根据权利要求2所述的方法,其特征在于,根据所述搜索信息和所述关键词类目关联度信息进行权重计算,以获取对应每个所述用户的关键词权重信息的步骤包括:
从每个所述用户的所述搜索信息中分别提取所述推荐关键词,生成对应每个所述用户的当前关键词权重信息,其中,所述当前关键词权重信息包括:用户ID、所述推荐关键词以及当前关键词类目关联度,所述当前关键词类目关联度等于所述关联度值,所述推荐关键词为所述搜索信息中的搜索信息标题中与所述访问关键词相同的关键词;
提取所述当前关键词权重信息中具有相同的所述用户ID和推荐关键词的关键词权重信息,并将所述具有相同的所述用户ID和所述推荐关键词的关键词权重信息保存在一个或多个权重信息表中,对每个所述权重信息表中的所述当前关键词类目关联度分别进行累加计算,得到权重参数,以获取所述关键词权重信息,其中,所述关键词权重信息包括所述用户ID、所述推荐关键词以及所述权重参数。
7.根据权利要求1所述的方法,其特征在于,根据对应两个所述用户的所述推荐关键词和所述权重参数进行相似度计算,得到两个所述用户的相似度值的步骤包括:
根据第二公式进行余弦相似度的计算,得到两个所述用户的相似度值similarity,其中,所述第二公式为:
similarity = Σ k ∈ K ′ w 1 , k * w 2 , k Σ k ∈ K 1 ( w 1 , k * w 1 , k ) Σ k ∈ K 2 ( w 2 , k * w 2 , k ) , 其中,所述K1为第一用户的第一关键词权重信息中的第一关键词集合,所述K2为第二用户的第二关键词权重信息中的第二关键词集合,所述K’为所述第一关键词集合和所述第二关键词集合的交集,所述k为所述交集中的所述推荐关键词,所述w1,k为所述推荐关键词k在所述第一关键词权重信息中对应的权重参数,所述w2,k为所述推荐关键词k在所述第二关键词权重信息中对应的权重参数。
8.根据权利要求1所述的方法,其特征在于,提取用户的大于预设搜索频率的搜索信息的步骤包括:
提取大于所述预设搜索频率的当前搜索信息,其中,所述当前搜索信息包括:用户ID、搜索信息ID、搜索信息类目ID以及当前搜索信息标题;
对所述当前搜索信息中的所述当前搜索信息标题进行归一化处理,以获取标准形式的所述搜索信息标题,得到更新后的所述搜索信息。
9.一种数据推送的装置,其特征在于,包括:
第一提取模块,用于提取用户的大于预设搜索频率的搜索信息;
第四处理模块,用于提取系统中大于预设访问频率的所有访问信息,并获取所述访问信息所对应的关键词类目关联度信息;
第一处理模块,用于根据所述搜索信息和所述关键词类目关联度信息进行权重计算,以获取对应每个所述用户的关键词权重信息,其中,所述关键词权重信息包括推荐关键词和权重参数;
第二处理模块,用于根据对应两个所述用户的所述推荐关键词和所述权重参数进行相似度计算,得到两个所述用户的相似度值;
第三处理模块,用于根据所述相似度值获取与所述用户对应的相似度信息,并根据所述相似度信息向所述用户推荐关键词。
10.根据权利要求9所述的装置,其特征在于,所述第四处理模块包括:
第一获取模块,用于获取所述访问信息所对应的访问信息ID、访问关键词以及访问次数;
第五处理模块,用于将所述访问信息ID进行ID更新和对所述访问次数进行累加计算,以获取对应的访问信息类目ID以及访问总次数;
第一计算模块,用于根据所述访问关键词、所述访问信息类目ID以及所述访问总次数进行关联度计算,以获取关联度值;
保存模块,用于将所述关联度值以及与所述关联度值相对应的所述访问关键词和所述访问信息类目ID进行保存,以获取所述关键词类目关联度信息。
11.根据权利要求10所述的装置,其特征在于,所述第一计算模块包括:
第一子计算模块,用于根据所述访问关键词、所述访问信息类目ID以及所述访问总次数通过第一公式进行关联度计算,获取所述关联度值relation(keyword,category_id),所述第一公式为:
relation ( keyword , category _ id ) = log 10 ( 1 + count ( keyword , category _ id ) ) log 10 ( 1 + max { count ( * , category _ id ) } ) , 其中,所述keyword为所述访问关键词,所述category_id为所述访问信息类目ID,所述count(keyword,category_id)为所述访问总次数,所述max{count(*,category_id)}为所述关键词类目关联度信息中所有所述访问总次数中的最大值。
12.根据权利要求10所述的装置,其特征在于,所述第五处理模块包括:
第一子处理模块,用于将所述访问信息中的所述访问信息ID转换为访问信息类目ID,以获取更新后的第一访问信息;
第二子计算模块,用于对所述第一访问信息中对应相同的所述访问信息类目ID的所述访问次数进行累加计算,以获取所述访问总次数。
13.根据权利要求12所述的装置,其特征在于,所述第一获取模块包括:
第一子提取模块,用于提取所述访问信息中的所述访问信息ID和初始访问关键词;
第二子处理模块,用于对所述初始访问关键词进行归一化处理,以获取标准形式的所述访问关键词,并得到更新后的第三访问信息;
第三子处理模块,用于提取与所述第三访问信息中的所述访问关键词相对应的点击次数;
第四子处理模块,用于对具有相同的访问关键词的所述第三访问信息的点击次数进行累加计算,以获取所述访问次数。
14.根据权利要求10所述的装置,其特征在于,所述第一处理模块包括:
第二子提取模块,用于从每个所述用户的所述搜索信息中分别提取所述推荐关键词,生成对应每个所述用户的当前关键词权重信息,其中,所述当前关键词权重信息包括:用户ID、所述推荐关键词以及当前关键词类目关联度,所述当前关键词类目关联度等于所述关联度值,所述推荐关键词为所述搜索信息中的搜索信息标题中与所述访问关键词相同的关键词;
第五子处理模块,用于提取所述当前关键词权重信息中具有相同的所述用户ID和推荐关键词的关键词权重信息,并将所述具有相同的所述用户ID和所述推荐关键词的关键词权重信息保存在一个或多个权重信息表中,对每个所述权重信息表中的所述当前关键词类目关联度分别进行累加计算,得到权重参数,以获取所述关键词权重信息,其中,所述关键词权重信息包括所述用户ID、所述推荐关键词以及所述权重参数。
15.根据权利要求9所述的装置,其特征在于,所述第二处理模块包括:
第四子计算模块,用于根据第二公式进行余弦相似度的计算,得到两个所述用户的相似度值similarity,其中,所述第二公式为:
similarity = Σ k ∈ K ′ w 1 , k * w 2 , k Σ k ∈ K 1 ( w 1 , k * w 1 , k ) Σ k ∈ K 2 ( w 2 , k * w 2 , k ) , 其中,所述K1为第一用户的第一关键词权重信息中的第一关键词集合,所述K2为第二用户的第二关键词权重信息中的第二关键词集合,所述K’为所述第一关键词集合和所述第二关键词集合的交集,所述k为所述交集中的所述推荐关键词,所述w1,k为所述推荐关键词k在所述第一关键词权重信息中对应的权重参数,所述w2,k为所述推荐关键词k在所述第二关键词权重信息中对应的权重参数。
16.根据权利要求9所述的装置,其特征在于,所述第一提取模块包括:
第三子提取模块,用于提取大于所述预设搜索频率的当前搜索信息,其中,所述当前搜索信息包括:用户ID、搜索信息ID、搜索信息类目ID以及当前搜索信息标题;
第六子处理模块,用于对所述当前搜索信息中的所述当前搜索信息标题进行归一化处理,以获取标准形式的所述搜索信息标题,得到更新后的所述搜索信息。
CN201210560700.7A 2012-12-20 2012-12-20 数据推送的方法及装置 Active CN103885971B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210560700.7A CN103885971B (zh) 2012-12-20 2012-12-20 数据推送的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210560700.7A CN103885971B (zh) 2012-12-20 2012-12-20 数据推送的方法及装置

Publications (2)

Publication Number Publication Date
CN103885971A true CN103885971A (zh) 2014-06-25
CN103885971B CN103885971B (zh) 2017-02-08

Family

ID=50954866

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210560700.7A Active CN103885971B (zh) 2012-12-20 2012-12-20 数据推送的方法及装置

Country Status (1)

Country Link
CN (1) CN103885971B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106227786A (zh) * 2016-07-19 2016-12-14 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN106326311A (zh) * 2015-07-03 2017-01-11 北京国双科技有限公司 数据信息处理的方法和装置
CN106657164A (zh) * 2017-03-06 2017-05-10 泰华智慧产业集团股份有限公司 一种用于实名认证的身份识别复合算法及系统
CN107169801A (zh) * 2017-05-22 2017-09-15 上海汇纳信息科技股份有限公司 店铺关联关系获取方法、系统、存储介质以及移动终端
CN108122611A (zh) * 2017-12-22 2018-06-05 东软集团股份有限公司 一种信息推荐方法、装置及存储介质、程序产品
CN109582863A (zh) * 2018-11-19 2019-04-05 珠海格力电器股份有限公司 一种推荐方法及服务器
CN109885773A (zh) * 2019-02-28 2019-06-14 广州寄锦教育科技有限公司 一种文章个性化推荐方法、系统、介质及设备
CN110020132A (zh) * 2017-11-03 2019-07-16 腾讯科技(北京)有限公司 关键词推荐方法、装置、计算设备及存储介质
CN110351371A (zh) * 2019-07-15 2019-10-18 星联云服科技有限公司 一种在云存储系统中进行数据推送的方法及系统
CN114328847A (zh) * 2022-03-15 2022-04-12 深圳市一号互联科技有限公司 一种基于知识图谱的数据处理方法及系统
CN114928532A (zh) * 2022-05-17 2022-08-19 北京达佳互联信息技术有限公司 一种告警消息的生成方法、装置、设备及存储介质
CN115098548A (zh) * 2022-07-21 2022-09-23 南宁沃众科技有限公司 一种数据决策方法、系统及云平台

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7668821B1 (en) * 2005-11-17 2010-02-23 Amazon Technologies, Inc. Recommendations based on item tagging activities of users
CN102411596A (zh) * 2010-09-21 2012-04-11 阿里巴巴集团控股有限公司 一种信息推荐方法及系统
US20120102034A1 (en) * 2010-10-25 2012-04-26 Nhn Corporation System and method for recommending location-based keyword
CN102768685A (zh) * 2012-07-24 2012-11-07 杭州东方网升科技有限公司 一种基于关键字匹配的内容推荐方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7668821B1 (en) * 2005-11-17 2010-02-23 Amazon Technologies, Inc. Recommendations based on item tagging activities of users
CN102411596A (zh) * 2010-09-21 2012-04-11 阿里巴巴集团控股有限公司 一种信息推荐方法及系统
US20120102034A1 (en) * 2010-10-25 2012-04-26 Nhn Corporation System and method for recommending location-based keyword
CN102768685A (zh) * 2012-07-24 2012-11-07 杭州东方网升科技有限公司 一种基于关键字匹配的内容推荐方法

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326311A (zh) * 2015-07-03 2017-01-11 北京国双科技有限公司 数据信息处理的方法和装置
CN106326311B (zh) * 2015-07-03 2019-09-20 北京国双科技有限公司 数据信息处理的方法和装置
CN106227786A (zh) * 2016-07-19 2016-12-14 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN106227786B (zh) * 2016-07-19 2019-10-15 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN106657164A (zh) * 2017-03-06 2017-05-10 泰华智慧产业集团股份有限公司 一种用于实名认证的身份识别复合算法及系统
CN106657164B (zh) * 2017-03-06 2019-06-14 泰华智慧产业集团股份有限公司 一种用于实名认证的身份识别复合算法及系统
CN107169801A (zh) * 2017-05-22 2017-09-15 上海汇纳信息科技股份有限公司 店铺关联关系获取方法、系统、存储介质以及移动终端
CN110020132B (zh) * 2017-11-03 2023-04-11 腾讯科技(北京)有限公司 关键词推荐方法、装置、计算设备及存储介质
CN110020132A (zh) * 2017-11-03 2019-07-16 腾讯科技(北京)有限公司 关键词推荐方法、装置、计算设备及存储介质
CN108122611B (zh) * 2017-12-22 2021-05-07 东软集团股份有限公司 一种信息推荐方法、装置及存储介质、程序产品
CN108122611A (zh) * 2017-12-22 2018-06-05 东软集团股份有限公司 一种信息推荐方法、装置及存储介质、程序产品
CN109582863A (zh) * 2018-11-19 2019-04-05 珠海格力电器股份有限公司 一种推荐方法及服务器
CN109885773B (zh) * 2019-02-28 2020-11-24 广州寄锦教育科技有限公司 一种文章个性化推荐方法、系统、介质及设备
CN109885773A (zh) * 2019-02-28 2019-06-14 广州寄锦教育科技有限公司 一种文章个性化推荐方法、系统、介质及设备
CN110351371A (zh) * 2019-07-15 2019-10-18 星联云服科技有限公司 一种在云存储系统中进行数据推送的方法及系统
CN114328847A (zh) * 2022-03-15 2022-04-12 深圳市一号互联科技有限公司 一种基于知识图谱的数据处理方法及系统
CN114328847B (zh) * 2022-03-15 2022-05-24 深圳市一号互联科技有限公司 一种基于知识图谱的数据处理方法及系统
CN114928532A (zh) * 2022-05-17 2022-08-19 北京达佳互联信息技术有限公司 一种告警消息的生成方法、装置、设备及存储介质
CN114928532B (zh) * 2022-05-17 2023-12-12 北京达佳互联信息技术有限公司 一种告警消息的生成方法、装置、设备及存储介质
CN115098548A (zh) * 2022-07-21 2022-09-23 南宁沃众科技有限公司 一种数据决策方法、系统及云平台

Also Published As

Publication number Publication date
CN103885971B (zh) 2017-02-08

Similar Documents

Publication Publication Date Title
CN103885971A (zh) 数据推送的方法及装置
CN102722481B (zh) 一种用户收藏夹数据的处理方法及搜索方法
JP5721818B2 (ja) 検索におけるモデル情報群の使用
CN103530299B (zh) 一种搜索结果的生成方法及装置
TWI609278B (zh) Method and system for recommending search words
JP5802745B2 (ja) インテリジェントナビゲーションの方法、装置、およびシステム
CN103400286B (zh) 一种基于用户行为进行物品特征标注的推荐系统及方法
CN103207881B (zh) 查询方法和装置
CN104572863A (zh) 一种产品推荐方法及系统
CN104424291A (zh) 一种对搜索结果进行排序的方法及装置
CN102682001A (zh) 一种确定推荐词的方法及设备
CN103309894B (zh) 基于用户属性的搜索实现方法及系统
CN103699603A (zh) 一种基于用户行为的信息推荐方法和系统
CN101782998A (zh) 一种违规在线产品信息的智能判断方法与系统
CN104077286A (zh) 商品信息的搜索方法及系统
CN105023178B (zh) 一种基于本体的电子商务推荐方法
CN105468649A (zh) 一种待展示对象匹配的判断方法及其装置
CN112579854A (zh) 信息处理方法、装置、设备和存储介质
CN108572971A (zh) 一种用于挖掘与检索词相关的关键词的方法和装置
Niu et al. Predictive analytics of E-commerce search behavior for conversion
CN103136213A (zh) 一种提供相关词的方法及装置
CN105022830A (zh) 一种基于用户行为的加权轨迹数据集构建方法
CN103744904A (zh) 一种提供信息的方法及装置
CN103034665A (zh) 信息查询方法和装置
CN105389330A (zh) 一种跨社区开源资源匹配关联方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1194839

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240220

Address after: # 01-21, Lai Zan Da Building 1, 51 Belarusian Road, Singapore

Patentee after: Alibaba Singapore Holdings Ltd.

Country or region after: Singapore

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Patentee before: ALIBABA GROUP HOLDING Ltd.

Country or region before: Cayman Islands

TR01 Transfer of patent right