CN103164521A - 一种基于用户浏览和搜索行为的关键词计算方法及装置 - Google Patents
一种基于用户浏览和搜索行为的关键词计算方法及装置 Download PDFInfo
- Publication number
- CN103164521A CN103164521A CN2013100770045A CN201310077004A CN103164521A CN 103164521 A CN103164521 A CN 103164521A CN 2013100770045 A CN2013100770045 A CN 2013100770045A CN 201310077004 A CN201310077004 A CN 201310077004A CN 103164521 A CN103164521 A CN 103164521A
- Authority
- CN
- China
- Prior art keywords
- user
- keyword
- search
- word
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于用户浏览和搜索行为的关键词计算方法及装置,该方法包括:对于用户浏览行为数据中有其他用户搜索词跳转的网页数据,根据其他用户搜索词生成第一类用户关键词;对于用户浏览行为数据中无其他用户搜索词跳转的网页数据,根据所述网页数据中的标题、正文和meta信息,生成第二类用户关键词;对于用户搜索行为数据中直接输入的搜索词,结合协同过滤技术进行关键词推荐生成第三类用户关键词;对三类用户关键词进行合并融合,得到统一的用户关键词;对统一的用户关键词中各关键词进行排序,选取部分或全部关键词作为反应用户全方面信息的关键词。本发明提出的技术方案能够使得系统计算用户关键词代价较小,覆盖用户行为全面。
Description
技术领域
本发明涉及互联网应用技术领域,尤其涉及一种基于用户浏览和搜索行为的关键词计算方法及装置。
背景技术
定向广告也叫智能广告,即将特定的网络广告发送给特定的人群。通常情况下,定向广告系统是根据用户在互联网上的行为,例如搜索、浏览网页、点击广告等,对用户推送符合当前用户需求的广告。定向广告系统一般采用关键词的方式来描述用户在互联网上的行为,获取用户信息,从而对用户进行分类,向其投放特定的广告。
现有技术中,公开日期为2012年2月22日的中国专利“关键词计算方法及系统”提出了一种关键词计算技术,参见图1,一种关键词计算方法流程示意图,该方法为:接收用户输入的搜索词,采用第一计算策略获取与所述搜索词的相关性满足预设第一相关性要求的关键词作为计算词词源;获取所述用户的推广集合中的已有关键词,并计算所述搜索词与已有关键词的相关性;判断所述搜索词与已有关键词的相关性是否达到预设的触发阈值,若是,则触发个性化计算,若否,则将所述计算词词源作为计算结果计算给所述用户;其中,所述触发个性化计算具体包括:对所述计算词词源进行扩充,采用第二计算策略获取与所述搜索词或所述用户的已有关键词的相关性满足第二相关性要求的关键词作为扩充词添加到所述计算词词源中;将扩充后的计算词词源作为计算结果计算给所述用户。
上述现有技术只挖掘了用户在互联网上的一种行为:搜索行为。但是,用户在互联网上的行为还包括浏览行为。用户的浏览行为,即为用户未直接使用搜索引擎输入搜索词,而是采用其他方式浏览网页的行为,例如用户通过输入网址、点击链接、或是使用搜索引擎输入搜索词多次跳转来浏览当前网页。用户的搜索行为,即为用户直接使用搜索引擎输入搜索词的行为。因此,在用户行为数据中主要包含了用户搜索行为数据和用户浏览行为数据。用户搜索行为数据为用户直接使用搜索引擎输入的搜索词的集合,其虽然更有效的表达了用户的意图,但十分稀疏,并且存在着歧义性等缺陷。用户浏览行为数据为用户未直接使用搜索引擎输入搜索词而进行浏览的所有网页的集合,其虽然覆盖了90%的用户数据,但是包含的特征数目高达几百亿,对用户访问的每个网页抽取正文进行计算,会耗费大量的时间和海量的计算资源,并且访问网页包含的用户兴趣随意性很强,致使关键词计算结果有很大的随机性。
发明内容
为了解决上述现有技术中存在的问题,本发明的目的在于提出一种基于用户浏览和搜索行为的关键词计算方法及装置,能够使得系统在计算用户关键词时代价较小,且覆盖全面的用户行为,可以充分利用用户信息,得到更快更精准的用户分类结果,进而能够实现广告的有效推广。
为达此目的,本发明采用以下技术方案:
一种基于用户浏览和搜索行为的关键词计算方法,所述方法包括:
对于用户浏览行为数据中有其他用户搜索词跳转的网页数据,根据所述其他用户搜索词,生成第一类用户关键词;
对于用户浏览行为数据中无其他用户搜索词跳转的网页数据,根据所述网页数据中的标题、正文和meta信息,生成第二类用户关键词;
对于用户搜索行为数据中直接输入的搜索词,结合协同过滤技术进行关键词推荐,生成第三类用户关键词;
对所述用户浏览和搜索行为生成的所述第一类用户关键词和/或第二类用户关键词、第三类用户关键词进行合并融合,得到统一的用户关键词;
对所述统一的用户关键词中各关键词进行排序,选取部分或全部关键词作为反应用户全方面信息的关键词。
进一步地,所述第一类用户关键词由所述用户浏览行为数据中有其他用户搜索词跳转的各网页的关键词组合而成;
所述用户浏览行为数据中有其他用户搜索词跳转的某一网页的关键词计算过程为:
从互联网上海量的其他用户的搜索行为数据中,选择所有能够跳转至所述某一网页的搜索词,并对所述选择的搜索词进行分词,然后将各分词组合在一起,生成url-query矩阵;
从所述url-query矩阵中获取词频与文本频率的自然对数比值最大的前N个分词作为所述某一网页的关键词,其中N为大于或等于1的整数。
进一步地,所述第二类用户关键词由所述用户浏览行为数据中无其他用户搜索词跳转的各网页的关键词组合而成;
所述用户浏览行为数据中无其他用户搜索词跳转的某一网页的关键词计算过程为:
抓取所述某一网页内容,将所述某一网页内容中的标题、正文和meta信息进行分词,然后将各分词组合在一起,生成url-word矩阵;
从所述url-word矩阵中获取词频与文本频率的自然对数比值最大的前M个分词作为所述某一网页的关键词,其中M为大于1或等于1的整数。
进一步地,对所述用户浏览和搜索行为生成的所述第一类用户关键词和/或第二类用户关键词、第三类用户关键词进行合并融合,得到统一的用户关键词具体包括:
统计所述第一类用户关键词和/或第二类用户关键词、第三类用户关键词中各关键词的权值信息;
根据所述第一类用户关键词和/或第二类用户关键词、第三类用户关键词不同数据来源的权重,对三类用户关键词中相同关键词的权值信息进行加权求和,将所述三类用户关键词中相同关键词合并,融合得到所述统一的用户关键词;
其中,所述权重由交叉验证得到。
进一步地,所述对所述统一的用户关键词中各关键词进行排序,选取部分或全部关键词作为反应用户全方面信息的关键词具体包括:
按照所述统一的用户关键词中各关键词从属的主题不同,将表达新语义的关键词的排序提前;选取所述统一的用户关键词中前面部分或全部关键词作为反应用户全方面信息的关键词。
本发明还提供了一种基于用户浏览和搜索行为的关键词计算装置,所述装置包括:
第一类用户关键词计算模块,用于对于用户浏览行为数据中有其他用户搜索词跳转的网页数据,根据所述其他用户搜索词,生成第一类用户关键词;
第二类用户关键词计算模块,用于对于用户浏览行为数据中无其他用户搜索词跳转的网页数据,根据所述网页数据中的标题、正文和meta信息,生成第二类用户关键词;
第三类用户关键词计算模块,用于对于用户搜索行为数据中直接输入的搜索词,结合协同过滤技术进行关键词推荐,生成第三类用户关键词;
融合模块,用于对生成的所述第一类用户关键词和/或第二类用户关键词、第三类用户关键词进行合并融合,得到统一的用户关键词;
排序选择模块,用于对所述统一的用户关键词中各关键词进行排序,选取部分或全部关键词作为反应用户全方面信息的关键词。
进一步地,所述第一类用户关键词由所述用户浏览行为数据中有其他用户搜索词跳转的各网页的关键词组合而成;
所述第一用户关键词计算模块对所述用户浏览行为数据中有其他用户搜索词跳转的某一网页关键词的计算包括:
第一矩阵生成子模块,用于从互联网上海量的其他用户的搜索行为数据中,选择所有能够跳转至所述某一网页的搜索词,并对所述选择的搜索词进行分词,然后将各分词组合在一起,生成url-query矩阵;
第一关键词提取子模块,从所述url-query矩阵中获取词频与文本频率的自然对数比值最大的前N个分词作为所述某一网页的关键词,其中N为大于或等于1的整数。
进一步地,所述第二类用户关键词由所述用户浏览行为数据中无其他用户搜索词跳转的各网页的关键词组合而成;
所述第二用户关键词计算模块对所述用户浏览行为数据中无其他用户搜索词跳转的某一网页关键词的计算包括:
第二矩阵生成子模块,用于抓取所述某一网页内容,将所述某一网页内容中的标题、正文和meta信息进行分词,然后将各分词组合在一起,生成url-word矩阵;
第二关键词提取子模块,用于从所述url-word矩阵中获取词频与文本频率的自然对数比值最大的前M个分词作为所述某一网页的关键词,其中M为大于1或等于1的整数。
进一步地,所述融合模块包括:
权值信息统计子模块,用于统计所述第一类用户关键词和/或第二类用户关键词、第三类用户关键词中各关键词的权值信息;
加权求和子模块,用于根据所述第一类用户关键词和/或第二类用户关键词、第三类用户关键词不同数据来源的权重,对三类用户关键词中相同关键词的权值信息进行加权求和,将所述三类用户关键词中相同关键词合并,融合得到所述统一的用户关键词;
其中,所述权重由交叉验证得到。
进一步地,所述排序选择模块具体用于:按照所述统一的用户关键词中各关键词从属的主题不同,将表达新语义的关键词的排序提前;选取所述统一的用户关键词中前面部分或全部关键词作为反应用户全方面信息的关键词。
本发明提出的技术方案针对用户浏览行为中有其他用户搜索词跳转的网页数据、无其他用户搜索词跳转的网页数据,及用户搜索行为中直接输入的搜索词三类数据计算得到统一的用户关键词,并将所述统一的用户关键词进行融合排序,选取得到反应用户全方面信息的关键词,能够使得在计算用户关键词时代价较小,且覆盖全面的用户行为,可以充分利用用户信息,得到更快更精准的用户分类结果,进而实现广告的有效推广。
附图说明
图1是本发明背景技术提供的一种关键词计算方法流程示意图;
图2是本发明实施例一提供的一种基于用户浏览和搜索行为的关键词计算方法示意图;
图3是本发明实施例二提供的一种基于用户浏览和搜索行为的关键词计算装置示意图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。以下各实施例均是以用户Q为例,详细阐述本发明所提出的一种基于用户浏览和搜索行为的关键词计算方法及系统的技术方案。本发明提出的技术方案同样适用于其他用户。
实施例一
本实施例中将用户Q的浏览和搜索行为数据分为三类:有其他用户搜索词跳转的网页数据(A类数据),无其他用户搜索词跳转的网页数据(B类数据),用户Q直接使用搜索引擎时输入的搜索词数据(C类数据),其中A类和B类数据属于用户Q浏览行为数据,C类数据属于用户Q搜索行为数据。
图2是本发明实施例一提供的一种基于用户浏览和搜索行为的关键词计算方法示意图。参见图2,本实施例对基于用户Q浏览和搜索行为的关键词计算方法作如下详细阐述。
对于用户Q的浏览行为W1关键词计算过程,可分为A类数据关键词计算过程S11和B类数据关键词计算过程S12。
对于用户Q的A类数据关键词计算过程S11,是根据其他用户是通过输入哪些搜索词后直接访问用户Q的A类数据,来推断用户Q如果采用搜索行为时最可能输入的搜索词,并将其推断出的最可能输入的搜索词作为第一类用户Q关键词。第一类用户Q关键词由用户Q的A类数据中各网页的关键词组合而成。
用户Q的A类数据中某一网页的关键词计算过程为:从互联网上海量的其他用户的搜索行为数据中,选择所有能够直接跳转至该网页的搜索词,并运用最大匹配法分词技术对选择的搜索词进行分词,然后将各分词组合在一起,生成url-query矩阵;
从生成的url-query矩阵中获取词频与文本频率的自然对数比值最大的前N个分词作为该网页的关键词,其中,某一分词的词频为该分词在url-query矩阵中出现的次数除以url-query矩阵中所有分词出现的次数之和,文本频率为用户Q的A类数据中网页总数目除以包含有该分词的网页总数目,N为大于或等于1的正整数。
对于用户Q的B类数据关键词计算过程S12,根据网页数据中的标题、正文和meta信息,生成第二类用户Q关键词。第二类用户Q关键词由用户Q的B类数据中各网页的关键词组合而成。
采用网页关键词计算模型计算用户Q的B类数据中某一网页关键词的具体过程为:先抓取用户Q浏览的无其他用户搜索词跳转的该网页内容,然后运用最大匹配法分词技术将该网页内容中的标题,正文和meta信息进行分词,并加起来生成url-word矩阵;
从生成的url-word矩阵中获取词频与文本频率的自然对数比值最大的前M个分词作为该网页的关键词,其中,某一分词的词频为该分词在url-word矩阵中出现的次数除以url-word矩阵中所有分词出现的次数之和,文本频率为用户Q的B类数据中网页总数目除以包含有该分词的网页总数目,M为大于或等于1的正整数。
对于上述所有涉及的分词技术,本实施例还可以选用反向最大匹配法、二次扫描法、联想-回溯法等。
S13:对于用户Q的搜索行为W2,C类数据的关键词计算过程为:根据用户Q直接使用搜索引擎时输入的搜索词,结合协同过滤技术进行关键词推荐,生成第三类用户Q关键词,以达到补充用户Q使用的搜索词中包含了相应的意图却未直接使用的关键词。其中,协同过滤技术为本领域普通技术人员所熟知的,这里不再赘述。
S14:将上述得到的三类用户Q关键词进行合并融合。
在步骤S14中,合并融合过程具体为:
统计第一类用户关键词、第二类用户关键词、第三类用户关键词中各关键词的权值信息;其中,第一类用户Q关键词中的各关键词对应一个权值信息,所述权值信息可以优选为该关键词在其对应的url-query矩阵中出现的次数;第二类用户Q关键词中的各关键词对应一个权值信息,所述权值信息可以优选为该关键词在其对应的url-word矩阵中出现的次数;第三类用户Q关键词中的各关键词对应一个权值信息,所述权值信息可以优选为该关键词在用户Q的C类数据中出现的次数;
根据第一类用户Q关键词、第二类用户Q关键词、第三类用户Q关键词不同数据来源的权重,对三类用户Q关键词中相同关键词的权值信息进行加权求和,将三类用户Q关键词中相同关键词合并,融合得到统一的用户Q关键词,并将统一的用户Q关键词各关键词的权值信息进行归一化处理;其中,权重可由交叉验证得到;其中,交叉验证为:将已经建立的测试数据集分成n(n>3)份,随机取其中n-1份调优得到最优参数,然后使用剩下的一份进行验证,去在测试数据集上性能最佳的参数为最终参数。交叉验证形式可以采用K折交叉验证、Holdout验证、留一验证;本实施例中优选采用K折交叉验证,K优选为10。
S15:根据各关键词从属的主题不同,将表达新语义的关键词排序提前,从所述排序后的统一的用户Q关键词中,选取前面部分或全部用户Q关键词作为反应用户Q全方面信息的关键词。进而,根据计算得到的反应用户Q全方面信息的关键词向用户Q推广适合该用户的广告。
在步骤S15中,主题由LDA(Latent Dirichlet Allocation,潜在狄利克雷分配)主题模型计算得到。LDA主题模型通过已有的大量数据训练得到主题-文档矩阵和关键词-主题矩阵。所述大量的数据为所有的统一的用户关键词归一化处理后的权值信息。主题-文档矩阵中第i行j列元素表示第i个主题在文档j中的权重,关键词-主题矩阵中第m行n列元素表示第m个关键词在主题n中的权重,i、j、m、n均为大于或等于1的正整数,i与n相等。关键词为所有用户生成的统一的用户关键词中的关键词,文档j由第j个用户生成的统一的用户关键词组合而成。
对统一的用户Q关键词排序的过程具体为:将关键词-主题矩阵中与用户Q对应的所有行向量(统一的用户Q关键词在不同主题中的权重),与主题-文档矩阵中与用户Q对应的列向量(不同主题在由统一的用户Q关键词组合而成的文档中的权重)作点积,并将点积得到的权重按照从大到小的顺序对统一的用户Q关键词进行排序。排序在前的关键词,说明该关键词表达新语义的可能性大。
本实施例中对于用户Q的A类数据,根据其他用户是通过输入哪些搜索词后直接访问用户Q的A类数据,来推断用户Q如果采用搜索行为时最可能输入的搜索词,并将其推断出的最可能输入的搜索词作为第一类用户Q关键词;对于用户Q的B数据,采用网页关键词计算模型计算得到第二类用户Q关键词;对于用户Q的C类数据,结合协同过滤技术进行关键词推荐,生成第三类用户Q关键词;对三类用户Q关键词进行合并融合排序,最终计算得到反应用户Q全方面信息的关键词。本实施例提出的方案能够使得在计算用户关键词时代价较小,且覆盖全面的用户行为,可以充分利用用户信息,得到更快更精准的用户分类结果,进而能够实现广告的有效推广。
实施例二
本实施例对用户Q行为数据的分类与实施例一相同,这里不再赘述。
图3是本发明实施例二提供的一种基于用户浏览和搜索行为的关键词计算装置示意图。参见图3,所述装置包括:第一类用户关键词计算模块21,用于计算生成第一类用户Q关键词;第二类用户关键词计算模块22,用于计算生成第二类用户Q关键词;第三类用户关键词计算模块23,用于计算生成第三类用户Q关键词;融合模块24,用于将生成的第一、二、三类用户Q关键词进行合并融合,生成统一的用户Q关键词;排序选择模块25,用于对统一的用户Q关键词中各关键词进行排序选择,最终得到反应用户Q全方面信息的关键词。
其中,第一类用户关键词计算模块21,具体用于根据其他用户是通过输入哪些搜索词后直接访问用户Q的A类数据,来推断用户Q如果采用搜索行为时最可能输入的搜索词,并将其推断出的最可能输入的搜索词作为第一类用户Q关键词。第一类用户Q关键词由用户Q的A类数据中各网页的关键词组合而成。
第一类用户关键词计算模块21对用户Q的A类数据中某一网页关键词的计算包括:
第一矩阵生成子模块(未示出),从互联网上海量的其他用户的搜索行为数据中,选择所有能够直接跳转至该网页的搜索词,并运用最大匹配法分词技术对选择的搜索词进行分词,然后将各分词组合在一起,生成url-query矩阵;
第一关键词提取子模块(未示出),从生成的url-query矩阵中获取词频与文本频率的自然对数比值最大的前N个分词作为该网页的关键词,其中,某一分词的词频为该分词在url-query矩阵中出现的次数除以url-query矩阵中所有分词出现的次数之和,文本频率为用户Q的A类数据中网页总数目除以包含有该分词的网页总数目,N为大于或等于1的正整数。
第二类用户关键词计算模块22,用于对用户Q的B类数据根据所述网页数据中的标题、正文和meta信息,生成第二类用户Q关键词。第二类用户Q关键词由用户Q的B类数据中各网页的关键词组合而成。
第二类用户关键词计算模块22对用户Q的B类数据中某一网页关键词的计算包括:
第二矩阵生成子模块(未示出),先抓取用户Q浏览的无其他用户搜索词跳转的该网页内容,然后运用最大匹配法分词技术将该网页内容中的标题,正文和meta信息进行分词,并加起来生成url-word矩阵;
第二关键词子模块(未示出),从生成的url-word矩阵中获取词频与文本频率的自然对数比值最大的前M个分词作为该网页的关键词,其中,某一分词的词频为该分词在url-word矩阵中出现的次数除以url-word矩阵中所有分词出现的次数之和,文本频率为用户Q的B类数据中网页总数目除以包含有该分词的网页总数目,M为大于或等于1的正整数。
对于上述所有涉及的分词技术,本实施例还可以选用反向最大匹配法、二次扫描法、联想-回溯法等。
第三类用户关键词计算模块23,具体用于根据用户Q直接使用搜索引擎时输入的搜索词,结合协同过滤技术进行关键词推荐,生成第三用户Q关键词,以达到补充用户Q使用的搜索词中包含了相应的意图却未直接使用的关键词。
融合模块24进一步包括:
权值信息统计子模块,用于统计第一类用户关键词、第二类用户关键词、第三类用户关键词中各关键词的权值信息;
加权求和子模块,用于根据第一类用户关键词、第二类用户关键词、第三类用户关键词不同数据来源的权重,对三类用户关键词中相同关键词的权值信息进行加权求和,将三类用户关键词中相同关键词合并,融合得到统一的用户关键词,并将统一的用户Q关键词各关键词的权值信息进行归一化处理;其中,权重可由交叉验证得到;其中,交叉验证为:将已经建立的测试数据集分成n(n>3)份,随机取其中n-1份调优得到最优参数,然后使用剩下的一份进行验证,去在测试数据集上性能最佳的参数为最终参数。交叉验证形式可以采用K折交叉验证、Holdout验证、留一验证;本实施例中优选采用K折交叉验证,K优选为10。
第一类用户Q关键词中的各关键词对应的权值信息优选为该关键词在其对应的url-query矩阵中出现的次数。第二类用户Q关键词中的各关键词对应的权值信息优选为该关键词在其对应的url-word矩阵中出现的次数。第三类用户Q关键词中的各关键词对应的权值信息优选为该关键词在用户Q的C类数据中出现的次数。
排序选择模块25,具体用于根据统一的用户Q关键词中各关键词从属的主题不同,将表达新语义的关键词排序提前,从所述排序后的统一的用户Q关键词中,选取前面部分或全部用户Q关键词作为反应用户Q全方面信息的关键词。
其中,主题由排序选择模块25采用LDA(Latent Dirichlet Allocation,潜在狄利克雷分配)主题模型计算得到。LDA主题模型通过已有的大量数据训练得到主题-文档矩阵和关键词-主题矩阵。所述大量的数据为所有的统一的用户关键词归一化处理后的权值信息。主题-文档矩阵中第i行j列元素表示第i个主题在文档j中的权重,关键词-主题矩阵中第m行n列元素表示第m个关键词在主题n中的权重,i、j、m、n均为大于或等于1的正整数,i与n相等。关键词为所有用户生成的统一的用户关键词中的关键词,文档j由第j个用户生成的统一的用户关键词组合而成。
排序选择模块25对统一的用户Q关键词排序具体包括:将关键词-主题矩阵中与用户Q对应的所有行向量(统一的用户Q关键词在不同主题中的权重),与主题-文档矩阵中与用户Q对应的列向量(不同主题在由统一的用户Q关键词组合而成的文档中的权重)作点积,并将点积得到的值按照从大到小的顺序对统一的用户Q关键词进行排序。排序在前的关键词,说明该关键词表达新语义的可能性大。
本实施例将第一类用户关键词计算模块21计算的第一类用户Q关键词、第二类用户关键词计算模块22计算的第二类用户Q关键词、第三类用户关键词计算模块23生成的第三类用户Q关键词,通过融合模块24进行合并融合,经排序选择模块25排序计算,最终选取得到反应用户Q全方面信息的关键词。本实施例提出的方案能够使得系统在计算用户关键词时代价较小,且覆盖全面的用户行为,可以充分利用用户信息,得到更快更精准的用户分类结果,进而能够实现广告的有效推广。
以上实施例提供的技术方案中的全部或部分内容可以通过软件编程实现,其软件程序存储在可读取的存储介质中,存储介质例如:计算机中的硬盘、光盘或软盘。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于用户浏览和搜索行为的关键词计算方法,其特征在于,所述方法包括:
对于用户浏览行为数据中有其他用户搜索词跳转的网页数据,根据所述其他用户搜索词,生成第一类用户关键词;
对于用户浏览行为数据中无其他用户搜索词跳转的网页数据,根据所述网页数据中的标题、正文和meta信息,生成第二类用户关键词;
对于用户搜索行为数据中直接输入的搜索词,结合协同过滤技术进行关键词推荐,生成第三类用户关键词;
对所述用户浏览和搜索行为生成的所述第一类用户关键词和/或第二类用户关键词、第三类用户关键词进行合并融合,得到统一的用户关键词;
对所述统一的用户关键词中各关键词进行排序,选取部分或全部关键词作为反应用户全方面信息的关键词。
2.根据权利要求1所述的基于用户浏览和搜索行为的关键词计算方法,其特征在于,所述第一类用户关键词由所述用户浏览行为数据中有其他用户搜索词跳转的各网页的关键词组合而成;
所述用户浏览行为数据中有其他用户搜索词跳转的某一网页的关键词计算过程为:
从互联网上海量的其他用户的搜索行为数据中,选择所有能够跳转至所述某一网页的搜索词,并对所述选择的搜索词进行分词,然后将各分词组合在一起,生成url-query矩阵;
从所述url-query矩阵中获取词频与文本频率的自然对数比值最大的前N个分词作为所述某一网页的关键词,其中N为大于或等于1的整数。
3.根据权利要求1所述的基于用户浏览和搜索行为的关键词计算方法,其特征在于,所述第二类用户关键词由所述用户浏览行为数据中无其他用户搜索词跳转的各网页的关键词组合而成;
所述用户浏览行为数据中无其他用户搜索词跳转的某一网页的关键词计算过程为:
抓取所述某一网页内容,将所述某一网页内容中的标题、正文和meta信息进行分词,然后将各分词组合在一起,生成url-word矩阵;
从所述url-word矩阵中获取词频与文本频率的自然对数比值最大的前M个分词作为所述某一网页的关键词,其中M为大于1或等于1的整数。
4.根据权利要求1所述的基于用户浏览和搜索行为的关键词计算方法,其特征在于,对所述用户浏览和搜索行为生成的所述第一类用户关键词和/或第二类用户关键词、第三类用户关键词进行合并融合,得到统一的用户关键词具体包括:
统计所述第一类用户关键词和/或第二类用户关键词、第三类用户关键词中各关键词的权值信息;
根据所述第一类用户关键词和/或第二类用户关键词、第三类用户关键词不同数据来源的权重,对三类用户关键词中相同关键词的权值信息进行加权求和,将所述三类用户关键词中相同关键词合并,融合得到所述统一的用户关键词;
其中,所述权重由交叉验证得到。
5.根据权利要求1所述的基于用户浏览和搜索行为的关键词计算方法,其特征在于,所述对所述统一的用户关键词中各关键词进行排序,选取部分或全部关键词作为反应用户全方面信息的关键词具体包括:
按照所述统一的用户关键词中各关键词从属的主题不同,将表达新语义的关键词的排序提前;选取所述统一的用户关键词中前面部分或全部关键词作为反应用户全方面信息的关键词。
6.一种基于用户浏览和搜索行为的关键词计算装置,其特征在于,所述系统包括:
第一类用户关键词计算模块,用于对于用户浏览行为数据中有其他用户搜索词跳转的网页数据,根据所述其他用户搜索词,生成第一类用户关键词;
第二类用户关键词计算模块,用于对于用户浏览行为数据中无其他用户搜索词跳转的网页数据,根据所述网页数据中的标题、正文和meta信息,生成第二类用户关键词;
第三类用户关键词计算模块,用于对于用户搜索行为数据中直接输入的搜索词,结合协同过滤技术进行关键词推荐,生成第三类用户关键词;
融合模块,用于对生成的所述第一类用户关键词和/或第二类用户关键词、第三类用户关键词进行合并融合,得到统一的用户关键词;
排序选择模块,用于对所述统一的用户关键词中各关键词进行排序,选取部分或全部关键词作为反应用户全方面信息的关键词。
7.根据权利要求6所述的基于用户浏览和搜索行为的关键词计算装置,其特征在于,所述第一类用户关键词由所述用户浏览行为数据中有其他用户搜索词跳转的各网页的关键词组合而成;
所述第一用户关键词计算模块对所述用户浏览行为数据中有其他用户搜索词跳转的某一网页关键词的计算包括:
第一矩阵生成子模块,用于从互联网上海量的其他用户的搜索行为数据中,选择所有能够跳转至所述某一网页的搜索词,并对所述选择的搜索词进行分词,然后将各分词组合在一起,生成url-query矩阵;
第一关键词提取子模块,从所述url-query矩阵中获取词频与文本频率的自然对数比值最大的前N个分词作为所述某一网页的关键词,其中N为大于或等于1的整数。
8.根据权利要求6所述的基于用户浏览和搜索行为的关键词计算装置,其特征在于,所述第二类用户关键词由所述用户浏览行为数据中无其他用户搜索词跳转的各网页的关键词组合而成;
所述第二用户关键词计算模块对所述用户浏览行为数据中无其他用户搜索词跳转的某一网页关键词的计算包括:
第二矩阵生成子模块,用于抓取所述某一网页内容,将所述某一网页内容中的标题、正文和meta信息进行分词,然后将各分词组合在一起,生成url-word矩阵;
第二关键词提取子模块,用于从所述url-word矩阵中获取词频与文本频率的自然对数比值最大的前M个分词作为所述某一网页的关键词,其中M为大于1或等于1的整数。
9.根据权利要求6所述的基于用户浏览和搜索行为的关键词计算装置,其特征在于,所述融合模块包括:
权值信息统计子模块,用于统计所述第一类用户关键词和/或第二类用户关键词、第三类用户关键词中各关键词的权值信息;
加权求和子模块,用于根据所述第一类用户关键词和/或第二类用户关键词、第三类用户关键词不同数据来源的权重,对三类用户关键词中相同关键词的权值信息进行加权求和,将所述三类用户关键词中相同关键词合并,融合得到所述统一的用户关键词;
其中,所述权重由交叉验证得到。
10.根据权利要求6所述的基于用户浏览和搜索行为的关键词计算装置,其特征在于,所述排序选择模块具体用于:按照所述统一的用户关键词中各关键词从属的主题不同,将表达新语义的关键词的排序提前;选取所述统一的用户关键词中前面部分或全部关键词作为反应用户全方面信息的关键词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310077004.5A CN103164521B (zh) | 2013-03-11 | 2013-03-11 | 一种基于用户浏览和搜索行为的关键词计算方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310077004.5A CN103164521B (zh) | 2013-03-11 | 2013-03-11 | 一种基于用户浏览和搜索行为的关键词计算方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103164521A true CN103164521A (zh) | 2013-06-19 |
CN103164521B CN103164521B (zh) | 2016-03-23 |
Family
ID=48587609
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310077004.5A Expired - Fee Related CN103164521B (zh) | 2013-03-11 | 2013-03-11 | 一种基于用户浏览和搜索行为的关键词计算方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103164521B (zh) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699625A (zh) * | 2013-12-20 | 2014-04-02 | 北京百度网讯科技有限公司 | 基于关键词进行检索的方法及装置 |
CN103744835A (zh) * | 2014-01-02 | 2014-04-23 | 上海大学 | 一种基于主题模型的文本关键词提取方法 |
CN104063453A (zh) * | 2014-06-24 | 2014-09-24 | 晶赞广告(上海)有限公司 | 一种基于url分析的营销关键词提取的方法 |
CN104217030A (zh) * | 2014-09-28 | 2014-12-17 | 北京奇虎科技有限公司 | 一种根据服务器搜索日志数据进行用户分类的方法和装置 |
CN104268233A (zh) * | 2014-09-26 | 2015-01-07 | 北京国双科技有限公司 | 组合关键词的生成方法及装置 |
CN104951471A (zh) * | 2014-03-28 | 2015-09-30 | 富士通株式会社 | 信息处理设备、信息处理方法以及电子装置 |
CN105045901A (zh) * | 2015-08-05 | 2015-11-11 | 百度在线网络技术(北京)有限公司 | 搜索关键词的推送方法和装置 |
CN105095440A (zh) * | 2015-07-23 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 一种搜索推荐方法及装置 |
CN105320770A (zh) * | 2015-10-30 | 2016-02-10 | 江苏省电力公司电力科学研究院 | 基于web页面关键字的即时援助搜索系统 |
CN105574091A (zh) * | 2015-12-10 | 2016-05-11 | 百度在线网络技术(北京)有限公司 | 信息推送方法及装置 |
CN105653547A (zh) * | 2014-11-12 | 2016-06-08 | 北大方正集团有限公司 | 一种提取文本关键词的方法和装置 |
CN105824833A (zh) * | 2015-01-07 | 2016-08-03 | 苏宁云商集团股份有限公司 | 基于用户行为反馈的关键词推荐方法和系统 |
CN106294456A (zh) * | 2015-05-29 | 2017-01-04 | 华为技术有限公司 | 机器学习的方法和设备 |
WO2017020451A1 (zh) * | 2015-08-03 | 2017-02-09 | 百度在线网络技术(北京)有限公司 | 信息推送方法和装置 |
CN106557473A (zh) * | 2015-09-24 | 2017-04-05 | 北京国双科技有限公司 | 生成蹊径的方法和装置 |
CN107193987A (zh) * | 2017-05-27 | 2017-09-22 | 广东神马搜索科技有限公司 | 获取与页面相关的搜索词的方法、装置和系统 |
CN108319615A (zh) * | 2017-01-18 | 2018-07-24 | 百度在线网络技术(北京)有限公司 | 推荐词获取方法和装置 |
CN108897734A (zh) * | 2018-06-13 | 2018-11-27 | 康键信息技术(深圳)有限公司 | 用户画像生成方法、装置、计算机设备和存储介质 |
CN109145213A (zh) * | 2018-08-22 | 2019-01-04 | 清华大学 | 基于历史信息的查询推荐方法及装置 |
CN109543113A (zh) * | 2018-12-21 | 2019-03-29 | 北京字节跳动网络技术有限公司 | 确定点击推荐词的方法、装置、存储介质及电子设备 |
CN110069542A (zh) * | 2017-09-26 | 2019-07-30 | 北京国双科技有限公司 | 关键词评估方法及装置 |
CN110968765A (zh) * | 2019-12-04 | 2020-04-07 | 掌阅科技股份有限公司 | 书籍搜索方法、计算设备及计算机存储介质 |
CN113761383A (zh) * | 2021-10-13 | 2021-12-07 | 中国人民大学 | 一种基于统一用户行为建模的搜索和推荐融合系统 |
CN115358214A (zh) * | 2022-08-23 | 2022-11-18 | 杭州达西信息技术有限公司 | 一种基于用户浏览和搜索行为的关键词识别方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1487438A (zh) * | 2002-09-23 | 2004-04-07 | 国际商业机器公司 | 根据用户输入的url和/或搜索关键词提供广告的方法和系统 |
US20070260597A1 (en) * | 2006-05-02 | 2007-11-08 | Mark Cramer | Dynamic search engine results employing user behavior |
US20080104026A1 (en) * | 2006-10-30 | 2008-05-01 | Koran Joshua M | Optimization of targeted advertisements based on user profile information |
CN102236867A (zh) * | 2011-08-15 | 2011-11-09 | 悠易互通(北京)广告有限公司 | 基于云计算的受众行为分析广告定向系统 |
CN102360358A (zh) * | 2011-09-28 | 2012-02-22 | 百度在线网络技术(北京)有限公司 | 关键词推荐方法及系统 |
CN102831124A (zh) * | 2011-06-16 | 2012-12-19 | 北京亿赞普网络技术有限公司 | 基于跨网通信网络报文的用户行为关联分析方法 |
-
2013
- 2013-03-11 CN CN201310077004.5A patent/CN103164521B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1487438A (zh) * | 2002-09-23 | 2004-04-07 | 国际商业机器公司 | 根据用户输入的url和/或搜索关键词提供广告的方法和系统 |
US20070260597A1 (en) * | 2006-05-02 | 2007-11-08 | Mark Cramer | Dynamic search engine results employing user behavior |
US20080104026A1 (en) * | 2006-10-30 | 2008-05-01 | Koran Joshua M | Optimization of targeted advertisements based on user profile information |
CN102831124A (zh) * | 2011-06-16 | 2012-12-19 | 北京亿赞普网络技术有限公司 | 基于跨网通信网络报文的用户行为关联分析方法 |
CN102236867A (zh) * | 2011-08-15 | 2011-11-09 | 悠易互通(北京)广告有限公司 | 基于云计算的受众行为分析广告定向系统 |
CN102360358A (zh) * | 2011-09-28 | 2012-02-22 | 百度在线网络技术(北京)有限公司 | 关键词推荐方法及系统 |
Non-Patent Citations (2)
Title |
---|
俞淑平等: "一种高效的行为定向广告投放算法", 《计算机应用与软件》 * |
尹春晖等: "基于用户浏览行为分析的用户兴趣获取", 《计算机技术与发展》 * |
Cited By (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699625A (zh) * | 2013-12-20 | 2014-04-02 | 北京百度网讯科技有限公司 | 基于关键词进行检索的方法及装置 |
CN103699625B (zh) * | 2013-12-20 | 2017-05-10 | 北京百度网讯科技有限公司 | 基于关键词进行检索的方法及装置 |
CN103744835A (zh) * | 2014-01-02 | 2014-04-23 | 上海大学 | 一种基于主题模型的文本关键词提取方法 |
CN103744835B (zh) * | 2014-01-02 | 2016-12-07 | 上海大学 | 一种基于主题模型的文本关键词提取方法 |
CN104951471A (zh) * | 2014-03-28 | 2015-09-30 | 富士通株式会社 | 信息处理设备、信息处理方法以及电子装置 |
CN104063453A (zh) * | 2014-06-24 | 2014-09-24 | 晶赞广告(上海)有限公司 | 一种基于url分析的营销关键词提取的方法 |
CN104268233A (zh) * | 2014-09-26 | 2015-01-07 | 北京国双科技有限公司 | 组合关键词的生成方法及装置 |
CN104268233B (zh) * | 2014-09-26 | 2018-07-13 | 北京国双科技有限公司 | 组合关键词的生成方法及装置 |
CN104217030A (zh) * | 2014-09-28 | 2014-12-17 | 北京奇虎科技有限公司 | 一种根据服务器搜索日志数据进行用户分类的方法和装置 |
CN104217030B (zh) * | 2014-09-28 | 2018-12-11 | 北京奇虎科技有限公司 | 一种根据服务器搜索日志数据进行用户分类的方法和装置 |
CN105653547B (zh) * | 2014-11-12 | 2020-08-07 | 北大方正集团有限公司 | 一种提取文本关键词的方法和装置 |
CN105653547A (zh) * | 2014-11-12 | 2016-06-08 | 北大方正集团有限公司 | 一种提取文本关键词的方法和装置 |
CN105824833A (zh) * | 2015-01-07 | 2016-08-03 | 苏宁云商集团股份有限公司 | 基于用户行为反馈的关键词推荐方法和系统 |
CN106294456A (zh) * | 2015-05-29 | 2017-01-04 | 华为技术有限公司 | 机器学习的方法和设备 |
US10936633B2 (en) | 2015-07-23 | 2021-03-02 | Baidu Online Network Technology (Beijing) Co., Ltd. | Search recommending method and apparatus, apparatus and computer storage medium |
WO2017012235A1 (zh) * | 2015-07-23 | 2017-01-26 | 百度在线网络技术(北京)有限公司 | 一种搜索推荐方法、装置、设备及计算机存储介质 |
CN105095440A (zh) * | 2015-07-23 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 一种搜索推荐方法及装置 |
CN105095440B (zh) * | 2015-07-23 | 2019-02-12 | 百度在线网络技术(北京)有限公司 | 一种搜索推荐方法及装置 |
WO2017020451A1 (zh) * | 2015-08-03 | 2017-02-09 | 百度在线网络技术(北京)有限公司 | 信息推送方法和装置 |
CN105045901B (zh) * | 2015-08-05 | 2019-04-30 | 百度在线网络技术(北京)有限公司 | 搜索关键词的推送方法和装置 |
CN105045901A (zh) * | 2015-08-05 | 2015-11-11 | 百度在线网络技术(北京)有限公司 | 搜索关键词的推送方法和装置 |
CN106557473A (zh) * | 2015-09-24 | 2017-04-05 | 北京国双科技有限公司 | 生成蹊径的方法和装置 |
CN106557473B (zh) * | 2015-09-24 | 2020-01-07 | 北京国双科技有限公司 | 生成蹊径的方法和装置 |
CN105320770A (zh) * | 2015-10-30 | 2016-02-10 | 江苏省电力公司电力科学研究院 | 基于web页面关键字的即时援助搜索系统 |
CN105574091A (zh) * | 2015-12-10 | 2016-05-11 | 百度在线网络技术(北京)有限公司 | 信息推送方法及装置 |
CN105574091B (zh) * | 2015-12-10 | 2019-08-02 | 百度在线网络技术(北京)有限公司 | 信息推送方法及装置 |
CN108319615A (zh) * | 2017-01-18 | 2018-07-24 | 百度在线网络技术(北京)有限公司 | 推荐词获取方法和装置 |
CN107193987B (zh) * | 2017-05-27 | 2020-12-29 | 阿里巴巴(中国)有限公司 | 获取与页面相关的搜索词的方法、装置和系统 |
CN107193987A (zh) * | 2017-05-27 | 2017-09-22 | 广东神马搜索科技有限公司 | 获取与页面相关的搜索词的方法、装置和系统 |
CN110069542B (zh) * | 2017-09-26 | 2021-06-29 | 北京国双科技有限公司 | 关键词评估方法及装置 |
CN110069542A (zh) * | 2017-09-26 | 2019-07-30 | 北京国双科技有限公司 | 关键词评估方法及装置 |
CN108897734A (zh) * | 2018-06-13 | 2018-11-27 | 康键信息技术(深圳)有限公司 | 用户画像生成方法、装置、计算机设备和存储介质 |
CN108897734B (zh) * | 2018-06-13 | 2023-08-22 | 康键信息技术(深圳)有限公司 | 用户画像生成方法、装置、计算机设备和存储介质 |
CN109145213A (zh) * | 2018-08-22 | 2019-01-04 | 清华大学 | 基于历史信息的查询推荐方法及装置 |
CN109543113A (zh) * | 2018-12-21 | 2019-03-29 | 北京字节跳动网络技术有限公司 | 确定点击推荐词的方法、装置、存储介质及电子设备 |
CN110968765A (zh) * | 2019-12-04 | 2020-04-07 | 掌阅科技股份有限公司 | 书籍搜索方法、计算设备及计算机存储介质 |
CN110968765B (zh) * | 2019-12-04 | 2020-09-22 | 掌阅科技股份有限公司 | 书籍搜索方法、计算设备及计算机存储介质 |
CN113761383A (zh) * | 2021-10-13 | 2021-12-07 | 中国人民大学 | 一种基于统一用户行为建模的搜索和推荐融合系统 |
CN113761383B (zh) * | 2021-10-13 | 2023-06-20 | 中国人民大学 | 一种基于统一用户行为建模的搜索和推荐融合系统 |
CN115358214A (zh) * | 2022-08-23 | 2022-11-18 | 杭州达西信息技术有限公司 | 一种基于用户浏览和搜索行为的关键词识别方法及系统 |
CN115358214B (zh) * | 2022-08-23 | 2024-04-12 | 深圳铁磁数字科技有限公司 | 一种基于用户浏览和搜索行为的关键词识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN103164521B (zh) | 2016-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103164521B (zh) | 一种基于用户浏览和搜索行为的关键词计算方法及装置 | |
Zhou et al. | Micro behaviors: A new perspective in e-commerce recommender systems | |
CN101984423B (zh) | 一种热搜词生成方法及系统 | |
US7519588B2 (en) | Keyword characterization and application | |
CN101216825B (zh) | 标引关键词提取/预测方法 | |
Abdollahi et al. | Explainable restricted boltzmann machines for collaborative filtering | |
CN103064826B (zh) | 一种用于表情输入的方法、装置与系统 | |
US20150278359A1 (en) | Method and apparatus for generating a recommendation page | |
CN110263243A (zh) | 媒体信息推荐方法、装置、存储介质和计算机设备 | |
CN105335519A (zh) | 模型生成方法及装置、推荐方法及装置 | |
CN102346899A (zh) | 一种基于用户行为的广告点击率预测方法和装置 | |
CN104885081A (zh) | 搜索系统和相应方法 | |
CN104216881A (zh) | 一种个性化标签的推荐方法及装置 | |
WO2014160282A1 (en) | Classifying resources using a deep network | |
CN109993583B (zh) | 信息推送方法和装置、存储介质及电子装置 | |
CN102004774A (zh) | 基于统一概率模型的个性化用户标签建模与推荐方法 | |
CN104615779A (zh) | 一种Web文本个性化推荐方法 | |
CN105518661A (zh) | 经由挖掘的超链接文本的片段来浏览图像 | |
CN104008203A (zh) | 一种融入本体情境的用户兴趣挖掘方法 | |
CN102521248A (zh) | 一种网络用户分类方法及其装置 | |
CN104077415A (zh) | 搜索方法及装置 | |
CN106682152A (zh) | 一种个性化消息推荐方法 | |
CN104142990A (zh) | 搜索方法及装置 | |
CN104503988A (zh) | 搜索方法及装置 | |
CN104239552A (zh) | 生成关联关键词、提供关联关键词的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160323 Termination date: 20190311 |