CN103838756A - 一种确定推送信息的方法及装置 - Google Patents

一种确定推送信息的方法及装置 Download PDF

Info

Publication number
CN103838756A
CN103838756A CN201210483611.7A CN201210483611A CN103838756A CN 103838756 A CN103838756 A CN 103838756A CN 201210483611 A CN201210483611 A CN 201210483611A CN 103838756 A CN103838756 A CN 103838756A
Authority
CN
China
Prior art keywords
keyword
user
propelling movement
pushes
behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210483611.7A
Other languages
English (en)
Inventor
杨志雄
苏煜
邓中华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201210483611.7A priority Critical patent/CN103838756A/zh
Publication of CN103838756A publication Critical patent/CN103838756A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种确定推送信息的方法及装置,所述推送信息为描述推送对象的数据信息,该方法包括:当检测到用户浏览网页内容时,根据预存的用户信息和/或网页内容信息确定基准推送对象;确定所述基准推送对象对应的至少一个对象聚类,所述对象聚类是利用推送对象的文本相关性值及行为相关性值进行聚类算法得到的多个推送对象的集合;获取所述至少一个对象聚类对应的目标关键词,根据所述目标关键词从信息推送系统中获取推送信息。本申请公开的方法和装置可以提高推送的信息与用户的潜在需求的一致性,提高了信息推送的精确度。

Description

一种确定推送信息的方法及装置
技术领域
本申请涉及电子信息技术领域,尤其涉及一种确定推送信息的方法及装置。
背景技术
目前网络系统会根据用户的网络行为主动获取一些数据推荐给用户,例如:用户在使用搜索引擎进行搜索时,除了搜索引擎会根据用户输入的关键词在搜索引擎服务器中查询获取到相应搜索结果并反馈给用户外,搜索引擎还会根据接收到的搜索关键词,从信息推送系统或其他系统中获取与所述搜索关键词对应的查询结果,并将所述查询结果作为推荐数据主动推送给用户。但是因为现有的信息推送系统中包括大量的数据,所以导致想要搜索到与用户搜索关键词密切相关的推荐数据具有很大的难度,在现有技术的方案中,如果要获得正确的推荐数据则主要的问题在于如何获取准确的关键词。
现有技术中,对应不同的应用场景,获取推荐数据的关键词的具体方法包括以下几种方式:
a,在搜索查询场景:直接使用用户输入的查询关键词(querywords)作为获取推荐数据的关键词;
b,在上下文场景:当用户浏览具体介绍某个推送对象的网页内容/资讯内容/博客文章时,提取对应当前浏览对象(即所述推送对象)预存的相关关键词作为获取推荐数据的关键词;如果没有,也可以将当前浏览对象的标题进行分词处理得到相应的关键词;
c,在其他场景(也可以称之为一般性场景):当用户刚刚进入网站首页等此类场景中时,用户既没有输入关键词、也没有当前浏览对象时,会使用用户以往的查询关键词作为输入关键词来获取推荐数据。
在现有技术方案中,对于所述上下文场景来说,基于当前浏览对象得到的关键词,往往过于细化,很可能查询不到足够的推荐数据;如果用户想要获取到想要的推荐数据则需要多次查询信息推送系统,从而造成用户的重复操作,并导致系统的无意义访问量增加,进一步导致系统资源的浪费。
对于一般性场景,在进行搜索时,是使用用户以往的查询关键词,因为用户对商品的需求会随时间有所变化,所以该种方式并不一定能准确的反应用户的真实需求。比如,部分用户可能并没有查询关键词;部分用户虽然有查询关键词,这些关键词能从信息推送系统中获取足够多的推荐数据,但是因为用户需求发生变化所以导致信息推送系统推送给用户的大部分数据是无意义的,所以导致信息推送系统向用户发送无意义数据时浪费了大量的系统资源。
通过上述三种商品信息的获取方案获取到的推荐数据并不能完全的符合用户当时的需求,在这种情况下会浪费大量的网络资源发送无意义的推荐数据的同时并不能有效推送用户确切需要的推荐数据。
发明内容
本申请提供一种确定推送信息的方法及装置,本申请所提供的方法和装置用于解决现有技术中获取到的推荐数据并不能完全的符合用户当时的需求,在这种情况下会浪费大量的网络资源发送无意义的推荐数据的同时并不能有效推送用户确切需要的推荐数据的问题。
针对上述问题本申请提供一种确定推送信息的方法,所述推送信息为描述推送对象的数据信息,该方法包括:
当检测到用户浏览任一网页内容时,根据预存的用户信息和/或网页内容信息确定基准推送对象;
确定所述基准推送对象对应的至少一个对象聚类,所述对象聚类是利用推送对象的文本相关性值及行为相关性值进行聚类算法得到的多个推送对象的集合;其中,根据推送对象对应的文本介绍信息得到推送对象的文本相关性值,根据用户对推送对象的操作行为得到推送对象的行为相关性值,并根据对象聚类中每个推送对象对应的关键词组得到该对象聚类的关键词组;
获取所述至少一个对象聚类对应的目标关键词组,根据所述目标关键词组从信息推送系统中获取推送信息。
根据上述方法本申请还提供一种确定推送信息的装置,所述推送信息为描述推送对象的数据信息,该装置包括:
基准推送对象确定模块,当检测到用户浏览任一网页内容时,用于根据预存的用户信息和/或网页内容信息确定基准推送对象;
对象聚类确定模块,用于确定所述基准推送对象对应的至少一个对象聚类,所述对象聚类是利用推送对象的文本相关性值及行为相关性值进行聚类算法得到的多个推送对象的集合;其中,根据推送对象对应的文本介绍信息得到推送对象的文本相关性值,根据用户对推送对象的操作行为得到推送对象的行为相关性值,并根据对象聚类中每个推送对象对应的关键词组得到该对象聚类的关键词组;
推送信息确定模块,用于获取所述至少一个对象聚类对应的目标关键词组,根据所述目标关键词组从信息推送系统中获取推送信息。
上述技术方案中的一个或两个,至少具有如下技术效果:
本申请实施例所提供的方法和装置能够基于内容相关与行为相关,对推送对象进行分类,使得每个推送对象都归在某个聚类中,然后对于聚类提取关键词,可以提高推送的信息与用户的潜在需求的一致性,提高了信息推送的精确度。能够在推送适量数据的情况下,满足用户的需求,减少信息推送系统的数据发送量,减少了数据推送过程中带宽资源的浪费。另外,由于本申请实施例只是对一个聚类中的推送对象提取关键词,而无需对所有的基准推送对象都提取关键词,因此,提取出的关键词数量少,加快了后续关键词的排序过程,提高了获取到目标关键词的速度。
附图说明
图1为本申请实施例一种确定推送信息的方法的流程图;
图2为本申请实施例中计算文本相关性值的方法流程图;
图3为本申请实施例中计算行为相关性值的方法流程图;
图4为本申请实施例一种确定推送信息的装置的结构示意图。
具体实施方式
本申请实施例提供一种确定推送信息的方法,所述推送信息为描述推送对象的数据信息,该方法包括:当检测到用户浏览任一网页内容时,根据预存的用户信息和/或网页内容信息确定基准推送对象;确定所述基准推送对象对应的至少一个对象聚类,所述对象聚类是利用推送对象的文本相关性值及行为相关性值进行聚类算法得到的多个推送对象的集合;其中,根据推送对象对应的文本介绍信息得到推送对象的文本相关性值,根据用户对推送对象的操作行为得到推送对象的行为相关性值,并根据对象聚类中每个推送对象对应的关键词组得到该对象聚类的关键词组;获取所述至少一个对象聚类对应的目标关键词组,根据所述目标关键词组从信息推送系统中获取推送信息。
本申请实施例所提供的方法根据待推送信息的特性将推送信息进行聚类,然后根据聚类中每个推送对象的关键词提取聚类的关键词。当需要向用户推送信息时,则可根据用户当前浏览网页内容的上下文场景以及其他场景确定推送对象,然后确定基准推送对象对应的对象聚类,从而根据对象聚类对应的关键词确定需要向用户推送的信息。通过本申请提供的方法能够基于内容相关与行为相关,对推送对象进行分类,使得每个推送对象都归在某个聚类中,然后对于聚类提取关键词,可以提高推送的信息与用户的潜在需求的一致性,同时能够保证推送信息的数量和类型更多样化。以下结合说明书附图对本申请所提供的方法做进一步的说明:
如图1所示,本申请实施例提供一种确定推送信息的方法,下面结合说明书附图对本申请的具体实施方式进行详细说明:
在本申请实施例中,系统向用户推送的信息可以是介绍某一推送对象的描述信息等,所以所述推送信息可以是描述推送对象的数据信息,该方法具体包括:
步骤101,当检测到用户浏览任一网页内容时,根据预存的用户信息和/或网页内容信息确定基准推送对象;
所述基准推送对象是指分析用户当前浏览的内容后初步选定的推送对象。如果推送对象是商品,则当用户在浏览某一电子商店中某个商品的介绍网页,所述基准推送对象为预设的与所述商品相关的商品或者预存的与所述用户对应的相关商品。
在本申请实施例中所述用户浏览任一网页内容包括:
A,在上下文场景:当用户浏览某个包括推送对象信息的网页内容(如果推送对象是商品,则当用户在浏览某一电子商店中某个商品的介绍网页/介绍商品的资讯内容/介绍商品的博客文章)时,提取用户当前浏览的网页内容中的推送对象。
B,在其他场景(也可以称之为一般性场景):当用户在没有特定推送对象的网站首页等场景中,用户既没有输入关键词、也没有当前浏览对象时,如果能够获取到用户的识别信息则获取用户最近关注的推送对象,即根据预存的用户信息确定基准推送对象包括:获取所述用户对应的用户标识;根据所述用户标识获取预存的该用户标识对应的基准推送对象。
在该实施例中以推送对象是商品为例说明“确定用户关注的推送对象”的具体实现方式,具体包括:
首选,通过用户对推送对象(商品)的操作行为以及操作行为发生的时间计算得到用户对于每个商品的关注度;
操作行为对关注度的影响:对于用户对推送对象(即商品)的不同操作行为(例如:点击、收藏、交易),不同的行为对应不同的权重(例如:交易权重>收藏权重>点击权重);
操作行为发生的时间对关注的影响:行为发生的日期距离当前日期之差进行分段(例如,最近1周,距离当前2周,距离当前3周等),不同的时间段分别对应不同的时间衰减系数(例如最近一周为1.0,距离当前2周的为0.8,距离当前3周的为0.6......);
将所述操作行为权重和时间衰减系数综合计算得到用户对每个商品的关注度。
其次,根据关注度由大到小的顺序进行排序,根据排序确定多个商品为用户最近关注的商品(即该实施例中的基准推送对象)。
步骤102,确定所述基准推送对象对应的至少一个对象聚类,所述对象聚类是利用推送对象的文本相关性值及行为相关性值进行聚类得到的多个推送对象的集合;
在本申请实施例中将具有一定特性的推送对象聚合到一个聚类中,具体在实现对象聚类操作时,需要考虑推送对象的文本相关性和行为相关性,具体实现时包括:
其中,根据推送对象对应的文本介绍信息得到推送对象的文本相关性值,根据用户对推送对象的操作行为得到推送对象的行为相关性值(因为本发明实施例所分析的对象为推送对象,所以该实施例中行为相关性值是根据多个用户对同一推送对象所执行的操作行为生成的),并根据对象聚类中每个推送对象对应的关键词组得到该对象聚类的关键词组;
所述对象聚类的关键词组是从聚类中的多个推送对象所对应的关键词组中筛选得到,具体实现包括:
获取对象聚类中每个推送对象对应的关键词组;
确定所述关键词组中每个关键词重复出现的次数,并根据所述重复出现的次数对关键词进行排序;
根据所述排序从关键词中选取K个关键词作为所述对象聚类的关键词组,其中,K为正整数。
在本发明实施例中,重复出现的次数可以使用TF-IDF数值体现,计算每个关键词的TF-IDF((term frequency inverse document frequency))数值的具体实现方式可以是:
首先计算tf数值,
Figure BDA00002458085600071
以上式子中ni,j是该词在该聚类的关键词组dj中的出现次数,而分母则是在该聚类对应的关键词组dj中所有字词的出现次数之和;
计算idf数值,
Figure BDA00002458085600072
其中|D|表示所有聚类的总数,|{j:ti∈dj}|:包含该关键词ti的聚类数目;包含词语的文件数目(即的文件数目)如果该词语不在语料库中,就会导致被除数为零,因此一般情况下使用1+|{j:ti∈dj}|;
对于该关键词的tf_idf数值,tf_idfi,j=tfi,j*idfi
某一特定文件内的高频率词语,以及该词语在整个文件集合中的低频率文件,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。
对该聚类中的所有关键词,根据其对应的tf-idf数值,从大到小排序,从关键词中选取K个关键词作为所述对象聚类的关键词组,其中,K为正整数。
在本发明实施例中实现对象聚类的方法包括多种,因为不同对象之间同时具有文本相关性数值与行为相关性数值,可以类似理解为x坐标数值,y坐标数值,两个对象之间的距离,就是两个坐标之间的直线距离。
在进行对象聚类之前,需要做数据补足操作:
对于文本相关性,所有对象之间都会有数值;
对于行为相关性,很多对象之间可能没有数值,则缺省设置为零——表示两个对象在行为上没有任何关系,例如,某两个商品没有同一个人都点击浏览过。
再使用传统聚类算法,比如K-MEANS算法,将所有对象进行聚类操作。
步骤103,获取所述至少一个对象聚类对应的目标关键词,根据所述目标关键词从信息推送系统中获取推送信息。
在该实施例中,当步骤101中通过方式B获得多个推送对象,并且得到的多个推送对象并不属于同一个聚类,即多个推送对象对应多个聚类。选择关键词的时候,则需要获取每个聚类的关键词组(在本发明实施例中,每个聚类的关键词至少包括一个),然后再根据关键词在多个聚类中的tf idf数值大小,tf idf数值表达了每个关键词在聚类中的聚类特性,所以根据TF IDF数值选择关键词作为目标关键词组。
本申请以上实施例中以关键词组或目标关键词组进行示例性的描述,实际应用中也可能会出现选取出的目标关键词只有一个的情况,因此,本申请实施例中关键词组或目标关键词组的描述并不是为了限定本申请的保护范围。本领域技术人员可以清楚的知道采用关键词或目标关键词的描述亦可实现本发明。
如图2所示,在本申请实施例中,步骤102中根据推送对象对应的文本介绍信息得到推送对象的文本相关性值,可以通过以下方式实现:
步骤201,对所述推送对象对应文本介绍信息进行分词处理,得到每个推送对象的第一关键词组,该第一关键词组中包括多个关键词;
在具体的应用环境中,如果推送对象为商品,该实施例中确定每个商品的关键词组时,则选用任意可获取到的商品作为分析对象,进行分词处理等操作。商品的分析材料为商品的文本介绍信息,每个商品的文本介绍信息里包括商品的标题与描述信息,或商品关键属性(比如商品材质、主要属性特征等);
步骤202,根据各推送对象的第一关键词组之间的相似度,计算得到各推送对象之间的文本相关性值。
在本申请实施例中,因为在生成推送对象的关键词时是根据推送对象的特性生成,所以如果具有相同或相似特性的推送对象则会有大量的关键词相同。所以在本申请实施例中,各推送对象的关键词组之间的相似度可以是任意两个推送对象相同关键词的个数。例如:推送对象A和推送对象B相同关键词的个数为8则可定义为推送对象A和推送对象B的相似度为8。
如图3所示,在本申请实施例中,步骤102中根据用户对推送对象的操作行为得到推送对象的行为相关性值包括:
步骤301,获取每个推送对象对应的操作行为数据;
根据获取到的操作行为数据构建用户商品行为矩阵(如表1所示):根据用户对商品的各种行为(点击、收藏、交易等行为),构建出一个用户商品行为矩阵:
Figure BDA00002458085600091
表1
步骤302,根据预设的每类操作行为与行为值之间的对应关系,确定每个推送对象对应的行为值;
不同的操作行为对应不同的权重系数,汇总计算得到用户对于每个商品的行为值。例如表1中,用户1(U1)对商品1(I1)的行为值为5。所述行为值可以是通过点击、收藏、交易等行为对应的行为值累计得到。
步骤303,基于每个推送对象对应的行为值进行相关性计算,得到推送对象与推送对象之间的行为相关性值。
在本申请实施例中,基于用户商品行为矩阵,使用常用的item-based相关性计算算法对行为相关性进行计算,使每个商品与有相关性的商品之间有一个相关性值。具体可以选用余弦夹角相似度算法或者矫正余弦相似度算法,其中:
余弦夹角相似度算法具体计算公式可以是:Sim(u,v)=Cos(u,v)=(u·v)/(||u||2*||v||2)。
通过图2和图3所提供的方法计算出推送对象之间的文本相关性值V1和行为相关性值V2之后,即可基于文本相关性值V1和行为相关性值V2这两个维度,对商品进行聚类处理,将每个商品归集到一个类下面:
具体的聚类方法,可以使用K-means方法,分别计算商品之间的欧氏空间距离;
K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。
在通过K-means算法进行聚类计算时,所使用的公式为:
V = Σ i = 1 k Σ x j ∈ S i ( x j - μ i ) 2
k个初始类聚类中心点的选取对聚类结果具有较大的影响,因为在该算法第一步中是随机的选取任意k个对象作为初始聚类的中心,初始地代表一个簇。在本申请实施例中,在聚类时需要将所有商品进行分类的。其中,分类的标准为将一些具有某一相同特性的商品分到一类中。具体可以是将聚类限定在叶子类目下实现。该算法在每次迭代中对数据集中剩余的每个对象,根据其与各个簇中心的距离将每个对象重新赋给最近的簇。当考察完所有数据对象后,一次迭代运算完成,新的聚类中心被计算出来。如果在一次迭代前后,J的值没有发生变化,说明算法已经收敛。算法过程如下:
1)从N个文档随机选取K个文档作为质心
2)对剩余的每个文档测量其到每个质心的距离,并把它归到最近的质心的类
3)重新计算已经得到的各个类的质心
4)迭代2~3步直至新的质心与原质心相等或小于指定阀值,算法结束
具体如下:
输入:k,data[n];
(1)选择k个初始中心点,例如c[0]=data[0],...c[k-1]=data[k-1];
(2)对于data[0],...data[n],分别与c[0]...c[k-1]比较,假定与c[i]差值最少,就标记为i;
(3)对于所有标记为i点,重新计算c[i]={所有标记为i的data[j]之和}/标记为i的个数;
(4)重复(2)(3),直到所有c[i]值的变化小于给定阈值。
在确定生成多少个聚类的时候需要,用户输入对应的聚类参数。对于聚类数量进行调整:基于聚类计算的结果评测后确定聚类算法之后的聚类个数。
如图4所示,根据上述方法本申请实施例还提供一种确定推送信息的装置,所述推送信息为描述推送对象的数据信息,该装置包括:
基准推送对象确定模块401,当检测到用户浏览任一网页内容时,用于根据预存的用户信息和/或网页内容信息确定基准推送对象;
其中,基准推送对象确定模块401根据预存的用户信息确定基准推送对象包括:
获取所述用户对应的用户标识;
根据所述用户标识获取预存的该用户标识对应的基准推送对象。
对象聚类确定模块402,用于确定所述基准推送对象对应的至少一个对象聚类,所述对象聚类是利用推送对象的文本相关性值及行为相关性值进行聚类算法得到的多个推送对象的集合;其中,根据推送对象对应的文本介绍信息得到推送对象的文本相关性值,根据用户对推送对象的操作行为得到推送对象的行为相关性值,并根据对象聚类中每个推送对象对应的关键词组得到该对象聚类的关键词组;
在具体的实现过程中,为了实现文本相关性值和行为相关性值的计算所述对象聚类确定模块还实现以下功能:
所述对象聚类确定模块402根据推送对象对应文本介绍信息得到推送对象的文本相关性值包括:
对所述推送对象对应文本介绍信息进行分词处理,得到每个推送对象的第一关键词组,该第一关键词组中包括多个关键词;
根据各推送对象的第一关键词组之间的相似度,计算得到各推送对象之间的文本相关性值。
所述对象聚类确定模块402根据用户对推送对象的操作行为得到推送对象的行为相关性值包括:
获取每个推送对象对应的操作行为数据;
根据预设的每类操作行为与行为值之间的对应关系,确定每个推送对象对应的行为值;
基于每个推送对象对应的行为值进行相关性计算,得到推送对象与推送对象之间的行为相关性值。
所述对象聚类确定模块402根据对象聚类中每个推送对象对应的关键词组得到该对象聚类的关键词组包括:
获取对象聚类中每个推送对象对应的关键词组;
确定所述关键词组中每个关键词重复出现的次数,并根据所述重复出现的次数对关键词进行排序;
根据所述排序从关键词中选取K个关键词作为所述对象聚类的关键词组,其中,K为正整数。
推送信息确定模块403,用于获取所述至少一个对象聚类对应的目标关键词组,根据所述目标关键词组从信息推送系统中获取推送信息。
本申请实施例中的上述一个或多个技术方案,至少具有如下的技术效果:
本申请实施例所提供的方法根据待推送信息的特性将推送信息进行聚类,然后根据聚类中每个推送对象的关键词提取聚类的关键词。当需要向用户推送信息时,则可根据用户当前浏览网页内容的上下文场景以及其他场景确定推送对象,然后确定基准推送对象对应的对象聚类,从而根据对象聚类对应的关键词确定需要向用户推送的信息。通过本申请提供的方法能够基于内容相关与行为相关,对推送对象进行分类,使得每个推送对象都归在某个聚类中,然后对于聚类提取关键词,可以提高推送的信息与用户的潜在需求的一致性,提高了信息推送的精确度,同时能够保证推送信息的数量和类型更多样化。并且能够达推送适量数据的情况下,满足用户的需求,从而减少信息推送系统的数据发送量,减少了数据推送过程中带宽资源的浪费。另外,由于本申请实施例只是对一个聚类中的推送对象提取关键词,而无需对所有的基准推送对象都提取关键词,因此,提取出的关键词数量少,加快了后续关键词的排序过程,提高了获取到关键词的速度。
本申请所述的方法并不限于具体实施方式中所述的实施例,本领域技术人员根据本申请的技术方案得出其它的实施方式,同样属于本申请的技术创新范围。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种确定推送信息的方法,其特征在于,所述推送信息为描述推送对象的数据信息,该方法包括:
当检测到用户浏览网页内容时,根据预存的用户信息和/或网页内容信息确定基准推送对象;
确定所述基准推送对象对应的至少一个对象聚类,所述对象聚类是利用推送对象的文本相关性值及行为相关性值进行聚类得到的多个推送对象的集合;其中,根据推送对象对应的文本介绍信息得到推送对象的文本相关性值,根据用户对推送对象的操作行为得到推送对象的行为相关性值,并根据对象聚类中推送对象对应的关键词得到该对象聚类的关键词;
获取所述至少一个对象聚类对应的目标关键词,根据所述目标关键词从信息推送系统中获取推送信息。
2.如权利要求1所述的方法,其特征在于,所述根据推送对象对应文本介绍信息得到推送对象的文本相关性值包括:
对所述推送对象对应文本介绍信息进行分词处理,得到每个推送对象的第一关键词组,该第一关键词组中包括多个关键词;
根据各推送对象的第一关键词组之间的相似度,计算得到各推送对象之间的文本相关性值。
3.如权利要求1所述的方法,其特征在于,所述根据用户对推送对象的操作行为得到推送对象的行为相关性值包括:
获取每个推送对象对应的操作行为数据;
根据预设的每类操作行为与行为值之间的对应关系,确定每个推送对象对应的行为值;
基于每个推送对象对应的行为值进行相关性计算,得到推送对象与推送对象之间的行为相关性值。
4.如权利要求1-3任一所述的方法,其特征在于,根据预存的用户信息确定基准推送对象包括:
获取所述用户对应的用户标识;
根据所述用户标识获取预存的该用户标识对应的基准推送对象。
5.如权利要求1所述的方法,其特征在于,根据对象聚类中推送对象对应的关键词得到该对象聚类的关键词包括:
获取对象聚类中推送对象对应的关键词;
确定所述关键词中每个关键词重复出现的次数,并根据所述重复出现的次数对关键词进行排序;
根据所述排序从关键词中选取K个关键词作为所述对象聚类的关键词,其中,K为正整数。
6.一种确定推送信息的装置,其特征在于,所述推送信息为描述推送对象的数据信息,该装置包括:
基准推送对象确定模块,当检测到用户浏览网页内容时,用于根据预存的用户信息和/或网页内容信息确定基准推送对象;
对象聚类确定模块,用于确定所述基准推送对象对应的至少一个对象聚类,所述对象聚类是利用推送对象的文本相关性值及行为相关性值进行聚类得到的多个推送对象的集合;其中,根据推送对象对应的文本介绍信息得到推送对象的文本相关性值,根据用户对推送对象的操作行为得到推送对象的行为相关性值,并根据对象聚类中推送对象对应的关键词得到该对象聚类的关键词;
推送信息确定模块,用于获取所述至少一个对象聚类对应的目标关键词,根据所述目标关键词从信息推送系统中获取推送信息。
7.如权利要求6所述的装置,其特征在于,所述对象聚类确定模块根据推送对象对应文本介绍信息得到推送对象的文本相关性值包括:
对所述推送对象对应文本介绍信息进行分词处理,得到每个推送对象的第一关键词组,该第一关键词组中包括多个关键词;
根据各推送对象的第一关键词组之间的相似度,计算得到各推送对象之间的文本相关性值。
8.如权利要求6所述的装置,其特征在于,所述对象聚类确定模块根据用户对推送对象的操作行为得到推送对象的行为相关性值包括:
获取每个推送对象对应的操作行为数据;
根据预设的每类操作行为与行为值之间的对应关系,确定每个推送对象对应的行为值;
基于每个推送对象对应的行为值进行相关性计算,得到推送对象与推送对象之间的行为相关性值。
9.如权利要求6-8任一所述的装置,其特征在于,基准推送对象确定模块根据预存的用户信息确定基准推送对象包括:
获取所述用户对应的用户标识;
根据所述用户标识获取预存的该用户标识对应的基准推送对象。
10.如权利要求6所述的装置,其特征在于,所述对象聚类确定模块根据对象聚类中推送对象对应的关键词组得到该对象聚类的关键词包括:
获取对象聚类中推送对象对应的关键词;
确定所述关键词中每个关键词重复出现的次数,并根据所述重复出现的次数对关键词进行排序;
根据所述排序从关键词中选取K个关键词作为所述对象聚类的关键词,其中,K为正整数。
CN201210483611.7A 2012-11-23 2012-11-23 一种确定推送信息的方法及装置 Pending CN103838756A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210483611.7A CN103838756A (zh) 2012-11-23 2012-11-23 一种确定推送信息的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210483611.7A CN103838756A (zh) 2012-11-23 2012-11-23 一种确定推送信息的方法及装置

Publications (1)

Publication Number Publication Date
CN103838756A true CN103838756A (zh) 2014-06-04

Family

ID=50802269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210483611.7A Pending CN103838756A (zh) 2012-11-23 2012-11-23 一种确定推送信息的方法及装置

Country Status (1)

Country Link
CN (1) CN103838756A (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104539678A (zh) * 2014-12-19 2015-04-22 百度在线网络技术(北京)有限公司 一种信息推送、接收方法和装置
CN104951961A (zh) * 2015-06-02 2015-09-30 百度在线网络技术(北京)有限公司 用于推送内容的方法、终端、服务器以及系统
CN105335509A (zh) * 2015-10-29 2016-02-17 广州神马移动信息科技有限公司 一种推荐活动信息的方法、装置及服务器
CN105426537A (zh) * 2015-12-21 2016-03-23 北京奇虎科技有限公司 一种用于导航页搜索关键词的推荐方法及终端设备
CN105447020A (zh) * 2014-08-22 2016-03-30 阿里巴巴集团控股有限公司 一种确定业务对象关键词的方法及装置
CN105677895A (zh) * 2016-02-03 2016-06-15 北京千米时代科技有限公司 一种移动互联网用户行为特征属性的获取装置及方法
CN105988661A (zh) * 2015-03-04 2016-10-05 阿里巴巴集团控股有限公司 一种提示信息的显示方法、装置及终端设备
WO2017121272A1 (zh) * 2016-01-12 2017-07-20 阿里巴巴集团控股有限公司 用户行为数据的处理方法及装置
CN107679030A (zh) * 2017-09-04 2018-02-09 北京京东尚科信息技术有限公司 基于用户操作行为数据提取同义词的方法和装置
CN107786389A (zh) * 2017-10-16 2018-03-09 上海理工大学 一种网络信息传播设备及其方法
CN108073498A (zh) * 2016-11-07 2018-05-25 富士通株式会社 软件测试中获取反馈的插件和检测重复反馈的方法及装置
CN108171538A (zh) * 2017-12-26 2018-06-15 中国联合网络通信集团有限公司 用户数据处理方法及系统
CN108363707A (zh) * 2017-01-26 2018-08-03 百度在线网络技术(北京)有限公司 用于生成网页的方法和装置
CN108648031A (zh) * 2018-03-28 2018-10-12 苏州迪尔未来网络科技有限公司 产品推荐方法及装置
CN109165975A (zh) * 2018-08-09 2019-01-08 平安科技(深圳)有限公司 标签推荐方法、装置、计算机设备及存储介质
CN109189908A (zh) * 2018-08-22 2019-01-11 重庆市智权之路科技有限公司 海量数据提取推送工作方法
CN109460519A (zh) * 2018-12-28 2019-03-12 上海晶赞融宣科技有限公司 浏览对象推荐方法及装置、存储介质、服务器
CN110020136A (zh) * 2017-11-10 2019-07-16 阿里巴巴集团控股有限公司 对象推荐方法及相关设备
CN110287414A (zh) * 2019-06-25 2019-09-27 北京向上一心科技有限公司 信息推送方法、装置和电子设备
CN110674320A (zh) * 2019-09-27 2020-01-10 百度在线网络技术(北京)有限公司 一种检索方法、装置和电子设备
CN111338809A (zh) * 2020-05-22 2020-06-26 南京江北新区科技投资集团有限公司 一种基于hadoop的大数据paas云平台系统
WO2021129439A1 (zh) * 2019-12-28 2021-07-01 科大讯飞股份有限公司 语音识别方法及相关产品
CN113177148A (zh) * 2021-05-21 2021-07-27 滨州职业学院 一种数据推送方法、装置和存储介质
TWI735516B (zh) * 2017-01-23 2021-08-11 香港商阿里巴巴集團服務有限公司 使用者行為資料的處理方法及裝置
CN114117214A (zh) * 2021-11-16 2022-03-01 北京达佳互联信息技术有限公司 信息推送方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6845374B1 (en) * 2000-11-27 2005-01-18 Mailfrontier, Inc System and method for adaptive text recommendation
US20100017390A1 (en) * 2008-07-16 2010-01-21 Kabushiki Kaisha Toshiba Apparatus, method and program product for presenting next search keyword
CN101866341A (zh) * 2009-04-17 2010-10-20 华为技术有限公司 一种信息推送方法、装置及系统
CN102693271A (zh) * 2012-03-06 2012-09-26 奇智软件(北京)有限公司 一种网络信息推荐方法及系统
CN102708198A (zh) * 2012-05-16 2012-10-03 杭州通策会综合服务有限公司 个性化网络广告的推送方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6845374B1 (en) * 2000-11-27 2005-01-18 Mailfrontier, Inc System and method for adaptive text recommendation
US20100017390A1 (en) * 2008-07-16 2010-01-21 Kabushiki Kaisha Toshiba Apparatus, method and program product for presenting next search keyword
CN101866341A (zh) * 2009-04-17 2010-10-20 华为技术有限公司 一种信息推送方法、装置及系统
CN102693271A (zh) * 2012-03-06 2012-09-26 奇智软件(北京)有限公司 一种网络信息推荐方法及系统
CN102708198A (zh) * 2012-05-16 2012-10-03 杭州通策会综合服务有限公司 个性化网络广告的推送方法

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105447020A (zh) * 2014-08-22 2016-03-30 阿里巴巴集团控股有限公司 一种确定业务对象关键词的方法及装置
CN105447020B (zh) * 2014-08-22 2018-11-27 阿里巴巴集团控股有限公司 一种确定业务对象关键词的方法及装置
CN104539678B (zh) * 2014-12-19 2018-08-07 百度在线网络技术(北京)有限公司 一种信息推送、接收方法和装置
CN104539678A (zh) * 2014-12-19 2015-04-22 百度在线网络技术(北京)有限公司 一种信息推送、接收方法和装置
CN105988661A (zh) * 2015-03-04 2016-10-05 阿里巴巴集团控股有限公司 一种提示信息的显示方法、装置及终端设备
CN104951961A (zh) * 2015-06-02 2015-09-30 百度在线网络技术(北京)有限公司 用于推送内容的方法、终端、服务器以及系统
CN105335509A (zh) * 2015-10-29 2016-02-17 广州神马移动信息科技有限公司 一种推荐活动信息的方法、装置及服务器
CN105426537A (zh) * 2015-12-21 2016-03-23 北京奇虎科技有限公司 一种用于导航页搜索关键词的推荐方法及终端设备
WO2017121272A1 (zh) * 2016-01-12 2017-07-20 阿里巴巴集团控股有限公司 用户行为数据的处理方法及装置
CN105677895A (zh) * 2016-02-03 2016-06-15 北京千米时代科技有限公司 一种移动互联网用户行为特征属性的获取装置及方法
CN108073498A (zh) * 2016-11-07 2018-05-25 富士通株式会社 软件测试中获取反馈的插件和检测重复反馈的方法及装置
TWI735516B (zh) * 2017-01-23 2021-08-11 香港商阿里巴巴集團服務有限公司 使用者行為資料的處理方法及裝置
CN108363707A (zh) * 2017-01-26 2018-08-03 百度在线网络技术(北京)有限公司 用于生成网页的方法和装置
CN107679030B (zh) * 2017-09-04 2021-08-13 北京京东尚科信息技术有限公司 基于用户操作行为数据提取同义词的方法和装置
CN107679030A (zh) * 2017-09-04 2018-02-09 北京京东尚科信息技术有限公司 基于用户操作行为数据提取同义词的方法和装置
CN107786389A (zh) * 2017-10-16 2018-03-09 上海理工大学 一种网络信息传播设备及其方法
CN110020136A (zh) * 2017-11-10 2019-07-16 阿里巴巴集团控股有限公司 对象推荐方法及相关设备
CN110020136B (zh) * 2017-11-10 2023-04-07 阿里巴巴集团控股有限公司 对象推荐方法及相关设备
CN108171538A (zh) * 2017-12-26 2018-06-15 中国联合网络通信集团有限公司 用户数据处理方法及系统
CN108648031A (zh) * 2018-03-28 2018-10-12 苏州迪尔未来网络科技有限公司 产品推荐方法及装置
CN108648031B (zh) * 2018-03-28 2022-01-18 苏州千照信息科技有限公司 产品推荐方法及装置
CN109165975A (zh) * 2018-08-09 2019-01-08 平安科技(深圳)有限公司 标签推荐方法、装置、计算机设备及存储介质
CN109189908A (zh) * 2018-08-22 2019-01-11 重庆市智权之路科技有限公司 海量数据提取推送工作方法
CN109460519A (zh) * 2018-12-28 2019-03-12 上海晶赞融宣科技有限公司 浏览对象推荐方法及装置、存储介质、服务器
CN110287414A (zh) * 2019-06-25 2019-09-27 北京向上一心科技有限公司 信息推送方法、装置和电子设备
CN110674320A (zh) * 2019-09-27 2020-01-10 百度在线网络技术(北京)有限公司 一种检索方法、装置和电子设备
CN110674320B (zh) * 2019-09-27 2022-03-18 百度在线网络技术(北京)有限公司 一种检索方法、装置和电子设备
WO2021129439A1 (zh) * 2019-12-28 2021-07-01 科大讯飞股份有限公司 语音识别方法及相关产品
CN111338809A (zh) * 2020-05-22 2020-06-26 南京江北新区科技投资集团有限公司 一种基于hadoop的大数据paas云平台系统
CN113177148A (zh) * 2021-05-21 2021-07-27 滨州职业学院 一种数据推送方法、装置和存储介质
CN114117214A (zh) * 2021-11-16 2022-03-01 北京达佳互联信息技术有限公司 信息推送方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN103838756A (zh) 一种确定推送信息的方法及装置
CN107729336B (zh) 数据处理方法、设备及系统
CN102760138B (zh) 用户网络行为的分类方法和装置及对应的搜索方法和装置
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
CN109885773B (zh) 一种文章个性化推荐方法、系统、介质及设备
CN104252456B (zh) 一种权重估计方法、装置及系统
Bendersky et al. Learning from user interactions in personal search via attribute parameterization
CN105426528A (zh) 一种商品数据的检索排序方法及系统
CN103514181B (zh) 一种搜索方法和装置
CN104572797A (zh) 基于主题模型的个性化服务推荐系统和方法
CN106547864B (zh) 一种基于查询扩展的个性化信息检索方法
CN109800350A (zh) 一种个性化新闻推荐方法及系统、存储介质
WO2017121272A1 (zh) 用户行为数据的处理方法及装置
CN103294778A (zh) 一种推送资讯信息的方法及系统
CN103400286A (zh) 一种基于用户行为进行物品特征标注的推荐系统及方法
Zhu et al. A recommendation engine for travel products based on topic sequential patterns
CN112818230B (zh) 内容推荐方法、装置、电子设备和存储介质
CN111475725A (zh) 用于搜索内容的方法、装置、设备和计算机可读存储介质
CN103942268A (zh) 搜索与应用相结合的方法、设备以及应用接口
Chung et al. Categorization for grouping associative items using data mining in item-based collaborative filtering
Kacem et al. Time-sensitive user profile for optimizing search personlization
CN103744918A (zh) 基于垂直领域的微博搜索排序方法及系统
Rajkumar et al. Users’ click and bookmark based personalization using modified agglomerative clustering for web search engine
Sharma et al. An efficient semantic clustering of URLs for web page recommendation
Batra et al. Content based hidden web ranking algorithm (CHWRA)

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1194838

Country of ref document: HK

RJ01 Rejection of invention patent application after publication

Application publication date: 20140604

RJ01 Rejection of invention patent application after publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: WD

Ref document number: 1194838

Country of ref document: HK