CN104598607A - 推荐搜索短语的方法及系统 - Google Patents

推荐搜索短语的方法及系统 Download PDF

Info

Publication number
CN104598607A
CN104598607A CN201510047142.8A CN201510047142A CN104598607A CN 104598607 A CN104598607 A CN 104598607A CN 201510047142 A CN201510047142 A CN 201510047142A CN 104598607 A CN104598607 A CN 104598607A
Authority
CN
China
Prior art keywords
search
recommended
page
phrase
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510047142.8A
Other languages
English (en)
Other versions
CN104598607B (zh
Inventor
贾春鑫
沈抖
曹晓冬
陈进生
王亮
魏春水
许健
胡晨
冯立强
卢晶晶
王剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510047142.8A priority Critical patent/CN104598607B/zh
Publication of CN104598607A publication Critical patent/CN104598607A/zh
Application granted granted Critical
Publication of CN104598607B publication Critical patent/CN104598607B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种推荐搜索短语的方法及系统,所述方法包括:获取用户的搜索信息;提取所述获取的搜索信息的关键词;根据所述提取的关键词获取待推荐的搜索短语;将所述获取的待推荐的搜索短语显示给所述用户。通过采用本发明可以根据用户的搜索信息向该用户推荐搜索短语,从而可以使用户便捷地获取到与其可能的兴趣点相关的内容,降低搜索成本,提高用户体验度;同时以该推荐搜索短语作为流量入口,可以为搜索引入更多的流量。

Description

推荐搜索短语的方法及系统
技术领域
本发明涉及通信领域,更为具体而言,涉及推荐搜索短语的方法及系统。
背景技术
随着互联网技术的发展以及网络信息的大范围覆盖,用户在浏览信息时需要从海量的信息中选择自己感兴趣的内容,这样不仅浪费时间而且还会造成信息资源的浪费,同时也会影响用户体验;另外,从流量的角度,由于网站流量是网站的基础,流量的大小影响着该网站的竞争力,除了其自有流量以外,需要通过其他方式来给网站引入流量,然而,在现有技术中,导流产品大部分以实现商业最大化为目的,所推荐的内容为纯商业词,不能满足用户在当前页面的扩展浏览的需求。
发明内容
为有效地解决上述技术问题,本发明提供了一种推荐搜索短语的方法及系统。
一方面,本发明的实施方式提供了一种推荐搜索短语的方法,所述方法包括:
获取用户的搜索信息;
提取所述获取的搜索信息的关键词;
根据所述提取的关键词获取待推荐的搜索短语;
将所述获取的待推荐的搜索短语显示给所述用户。
另一方面,本发明的实施方式还提供了一种推荐搜索短语的系统,所述系统包括:
第一获取模块,用于获取用户的搜索信息;
提取模块,用于提取所述第一获取模块所获取的搜索信息的关键词;
第二获取模块,用于根据所述提取模块所提取的关键词获取待推荐的搜索短语;
显示模块,用于将所述第二获取模块所获取的待推荐的搜索短语显示给所述用户。
实施本发明提供的推荐搜索短语的方法及系统可以根据用户的搜索信息向该用户推荐搜索短语,从而可以使用户便捷地获取到与其可能的兴趣点相关的内容,降低搜索成本,提高用户体验度;同时以该推荐搜索短语作为流量入口,可以为搜索引入更多的流量。
附图说明
图1是根据本发明实施方式的一种推荐搜索短语的方法的流程图;
图2示出了图1所示的处理S120的一种实施方式;
图3示出了图2所示的处理S121的一种实施方式;
图4示出了图2所示的处理S122的一种实施方式;
图5示出了图1所示的处理S140的一种实施方式;
图6是根据本发明实施方式的一种推荐搜索短语的系统的结构示意图;
图7示出了图6所示的提取模块120的一种实施方式;
图8示出了图7所示的中心词提取单元121的一种实施方式;
图9示出了图7所示的主题词提取单元122的一种实施方式;
图10示出了图6所示的显示模块140的一种实施方式。
具体实施方式
为使本发明的实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明作详细描述。
图1是根据本发明实施方式的一种推荐搜索短语的方法的流程图。参见图1,该方法包括:
S110:获取用户的搜索信息。
其中,在本发明的实施方式中,该搜索信息包括:所述用户的历史搜索文本以及所述用户浏览的页面(包括历史浏览页面以及当前浏览页面)。
S120:提取所述获取的搜索信息的关键词。
其中,该关键词包括:所述历史搜索文本的中心词以及所述用户浏览的页面的主题词。
S130:根据所述提取的关键词获取待推荐的搜索短语。
其中,在本发明的实施方式中,所述处理S130可以通过以下方式实现:通过所述提取到的关键词检索推荐模型以获得作为所述待推荐的搜索短语的检索结果,其中,在一种实施方式中,所述推荐模型可以包括:搜索引擎的全部搜索文本的中心词以及与所述中心词对应的热门搜索短语,其中,该热门搜索短语指在预定的时间周期内,搜索量达到预定阈值的搜索短语,可以通过搜索引擎的搜索日志按时间周期统计得到。
S140:将所述获取的待推荐的搜索短语显示给所述用户。
其中,在本发明的实施方式中,为不影响用户浏览当前页面的主体内容,可以将各搜索短语显示在当前页面的底端。此外,还可以在搜索短语与该搜索短语对应的搜索结果页之间建立链接,从而使用户点击该搜索短语时直接跳转到对应的搜索结果页。
需要说明的是,以上仅仅是对本发明的举例说明,在不脱离本发明原理的前提下可以进行各种修改和变形,例如,可以将各搜索短语显示在当前页面的左侧、右侧或者左上端、右上端。
如图2所示,所述处理S120具体可以包括:
S121:提取所述历史搜索文本的中心词;以及,S122:提取所述用户浏览的页面的主题词。
本发明实施方式不限于此,本领域技术人员可以采用其他实施方式,只要能够提取所获取的搜索信息的关键词即可。
如图3所示,所述处理S121可以通过以下方式实现:
S1211:对所述历史搜索文本进行切词以生成第一切分元素集合;
S1212:对所述生成的第一切分元素集合中的各元素进行词性标注以及权重标注。
S1213:根据所述标注的结果提取出所述历史搜索文本的中心词,例如可以提取词性为高价值词性且权重大于或等于该第一切分元素集合中的其他高价值词性的元素的权重的元素作为该中心词,当然本发明不限于此,本领域的技术人员可以根据实际需要按照其他合理方式,根据标注的结果提取出该历史搜索文本的中心词。
如图4所示,所述处理S122可以通过以下方式实现:
S1221:获取所述用户浏览的页面的页面文本。
S1222:根据所述获取的页面文本,提取所述页面的标题和页面正文;
S1223:根据所述提取的标题和页面正文提取出所述页面的主题词。
其中,在本发明的实施方式中,所述处理S1223可以通过以下方式实现:对所述提取的标题和页面正文进行切词以生成第二切分元素集合;挖掘所述生成的第二切分元素集合中的各元素之间的依存关系;将所述挖掘出的依存关系作为影响系数作用于所述各元素的权重;根据所述作用的结果,选取出权重大于或等于所述第二切分元素集合中其他任意一个元素的权重的元素作为所述页面的主题词。本发明实施方式不限于此,本领域技术人员可以采用其他实施方式,只要能够提取所述页面的主题词即可。
为补充数据的多样性以及满足用户时效性需求,在本发明的一种优选的实施方式中,该方法还可以包括:获取搜索引擎的搜索日志;根据所述获取的搜索日志获取所述待推荐的搜索短语。具体地,可以根据搜索引擎的搜索日志,按照时间和/或事件维度统计出预定的时间周期内的热门搜索短语以获得实时的热门搜索短语,该实时的热门搜索短语即为所述待推荐的搜索短语。其中该预定的时间周期例如可以是1小时,即可以每经过1小时对该实时的热门搜索短语进行一次数据更新,当然本发明不限于此,本领域的技术人员可以根据实际需要合理设置该预定的时间周期。
为使用户更为快速、便捷的搜索到与其可能的兴趣点相关的内容,如图5所示,所述处理S140可以包括:
S141:对所述待推荐的搜索短语进行排序。
S142:根据所述排序的结果将所述待推荐的搜索短语显示给所述用户。
其中,在本发明的实施方式中,所述处理S141可以通过以下方式实现:根据所述用户的自然属性信息(例如性别、年龄、职业、兴趣等信息)计算所述待推荐的搜索短语的初始排序分数;根据用户行为数据(用户对显示的搜索短语进行的点击、浏览、鼠标停留等动作)以及自然冷却模型调节所述计算出的初始排序分数;根据所述调节后的排序分数对所述待推荐的搜索短语进行排序。其中,该用户的自然属性信息可以在执行根据所述用户的自然属性信息计算所述待推荐的搜索短语的初始排序分数的步骤前,根据所述用户的搜索信息的关键词,通过分类器预测出;该自然冷却模型是根据物理学上的冷却定律,建立的一个排序分数与时间之间的函数关系,使得排序分数随着时间的推移逐渐降低,有效地避免短时间爆发的高时效性的搜索短语长时间占据排序的领先位置的情况。
以下结合具体的例子对本发明的实施方式进行具体说明。
首先,在本发明中主要使用到了主体模型与用户模型。其中,主体模型用于根据输入的文本内容输出该文本内容的主题词或关键词。具体地,首先对于输入的文本内容进行中文切词(指将一个汉字序列切分成一个一个单独的词),并得到多粒度的切分元素(term)集合,即通过控制切分粒度的大小,可以获得不同的term集合、如关键字集合、短语集合等;其次,基于专名挖掘算法,对term集合中的专名进行标注,防止专名被错误切分;再次,通过句法依存算法(将句子分析成一棵依存句法树,描述出各个词语之间的依存关系,也指出了词语之间在句法上的搭配关系,这种搭配关系是和语义相关联的),挖掘出各term之间的依存关系,并将该依存关系作为影响系数作用于term的TF-IDF(term frequency–inverse document frequency,一种用于信息搜索和信息挖掘的常用加权技术)权重,最后输出term集合中权重最高的term作为主题词或关键词。
用户模型用于根据输入的用户历史搜索文本、历史浏览网页和当前页面,输出该用户的自然属性。对于搜索文本,首先进行中文切词处理,对切词后的term集合中的各term进行词性标注和权重标注,提取高价值词性且权重较高的term作为搜索文本的中心词。而对于历史浏览页面和当前页面,首先查询页面索引库,获取页面文本,去除网页中的HTML(HyperText Mark-up Language,超文本标记语言)标记符号、导航等与正文无关的文本,提取页面标题和页面正文;然后基于上述的主题模型提取页面的主题词。最后,将搜索文本的中心词和页面的主题词输入SVM(Support Vector Machine,支持向量机)分类器,预测用户性别、年龄、职业、兴趣等信息作为用户自然属性,当然本发明不限于此,本领域的技术人员可以根据实际需要采用其他的分类器对用户的自然属性信息进行预测,例如贝叶斯分类器或者决策树分类器等。
其次,根据通过该主题模型所获取的搜索文本的中心词以及页面的主题词检索推荐模型以获取搜索短语候选集。具体地,以搜索引擎的全量搜索文本的中心词作为key(主键),应用关联挖掘算法分别挖掘出与各搜索文本相关联的热门搜索短语(指在预定的时间周期内,搜索量达到预定阈值的搜索短语,可以通过搜索引擎的搜索日志按时间周期统计得到),并建立搜索文本的中心词与挖掘出的搜索短语之间的对应关系以构建该推荐模型,其中对应于同一中心词的搜索短语构成该中心词的搜索短语候选集。因此,将获取的搜索文本中心词以及页面的主题词输入到该推荐模型就可以检索出相应的搜索短语候选集。
同时,为补充数据的多样性以及满足用户时效性需求,在本发明还向用户推荐实时的热门搜索短语。具体地,可以根据搜索引擎的搜索日志,按照时间和/或事件维度统计出预定的时间周期内的热门搜索短语以获得实时的热门搜索短语,并将该实时的热门搜索短语补充进上述检索出的搜索短语候选集中,其中该预定的时间周期例如可以是1小时,即可以每经过1小时对该实时的热门搜索短语进行一次数据更新,当然本发明不限于此,本领域的技术人员可以根据实际需要合理设置该预定的时间周期。
在通过上述方式获取到搜索短语候选集后,将该候选集中的各搜索短语显示给用户,在本发明的实施方式中,为不影响用户浏览当前页面的主体内容,可以将各搜索短语显示在当前页面的底端。此外,还可以在搜索短语与该搜索短语对应的搜索结果页之间建立链接,从而使用户点击该搜索短语时直接跳转到对应的搜索结果页。
此外,在本发明的实施方式中,还可以对搜索短语候选集中的各搜索短语进行排序,根据排序的结果进行显示。其中,在本发明的一种优选的实施方式中,采用基于群体投票的自然冷却排序算法对排序进行优化,不仅使用用户行为数据(用户对显示的搜索短语进行的点击、浏览、鼠标停留等动作),而且引入了自然冷却模型,既让排序取决于集体行为,又防止短时间爆发的高时效性的搜索短语长时间占据排序的领先位置,其具体的实现过程为:分别计算用户的自然属性与搜索短语候选集中的各搜索短语的相关程度,得到的分数作为搜索短语的初始化的“热度”(该“热度”一词是为说明下文中的冷却过程而引入的概念,例如,若相关程度为50%,则热度为50,当然本发明不限于此,本领域的技术人员可以根据实际需要,将相关程度与热度设定为其他的正相关的关系);在任意时刻,各搜索短语都有一个“当前热度”,根据该“当前热度”进行排序,即“热度”最高的搜索短语排在第一;若用户对某个搜索短语投了一票(进行了一次点击或者鼠标停留等行为),则该搜索短语的热度就上升“一度”(例如某搜索短语的原热度为50,则在被投了一票后上升为51);并通过公式(1)建立一个“热度”与“时间”之间的函数关系,构建一个冷却过程,使得搜索短语的“热度”随着时间的变化逐渐“冷却”,
T=T′×exp(-1×k×h)      (1)
其中,T表示搜索短语的当前热度,T'表示搜索短语在上一周期的热度,k表示系数,该系统用于控制冷却的速度,可以根据实验获得,h表示搜索短语出现的小时数,初始热度设为100度,当然本发明不限于此,本领域的技术人员可以根据实际需要进行其它合理设置。
图6是根据本发明实施方式的一种推荐搜索短语的系统的结构示意图,参见图6,该系统100包括:第一获取模块110、提取模块120、第二获取模块130以及显示模块140。
第一获取模块110用于获取用户的搜索信息。其中,在本发明的实施方式中,该搜索信息包括:所述用户的历史搜索文本以及所述用户浏览的页面(包括历史浏览页面以及当前浏览页面)。
提取模块120用于提取所述第一获取模块110所获取的搜索信息的关键词。其中,该关键词包括:所述历史搜索文本的中心词以及所述用户浏览的页面的主题词。
第二获取模块130用于根据所述提取模块120所提取的关键词获取待推荐的搜索短语。其中,在本发明的实施方式中,该第二获取模块可以包括,但不限于:检索单元,用于通过所述提取到的关键词检索推荐模型以获得作为所述待推荐的搜索短语的检索结果,其中所述推荐模型包括:搜索引擎的全部搜索文本的中心词以及与所述中心词对应的热门搜索短语。关于该热门搜索短语的含义如上文所述,在此不再赘述。
显示模块140用于将所述第二获取模块130所获取的待推荐的搜索短语显示给所述用户。
如图7所示,所述提取模块120可以包括:中心词提取单元121以及主题词提取单元122。
中心词提取单元121用于提取所述历史搜索文本的中心词;
主题词提取单元122用于提取所述用户浏览的页面的主题词。
如图8所示,所述中心词提取单元121可以包括:第一切词组件1211、标注组件1212以及提取组件1213。
第一切词组件1211用于对所述历史搜索文本进行切词以生成第一切分元素集合;
标注组件1212用于对所述第一切词组件1211所生成的第一切分元素集合中的各元素进行词性标注以及权重标注;
提取组件1213用于根据所述标注组件1212所标注的结果提取出所述历史搜索文本的中心词。
如图9所示,所述主题词提取单元122可以包括:获取子单元1221、第一提取子单元1222以及第二提取子单元1223。
获取子单元1221用于获取所述用户浏览的页面的页面文本;
第一提取子单元1222用于根据所述获取子单元1221所获取的页面文本,提取所述页面的标题和页面正文;
第二提取子单元1223用于根据所述第一提取子单元1222所提取的标题和页面正文提取所述页面的主题词。
其中,在本发明的实施方式中,该第二提取子单元1223可以包括:第二切词组件,用于对所述提取的标题和页面正文进行切词以生成第二切分元素集合;依存关系挖掘组件,用于挖掘所述第二切词组件所生成的第二切分元素集合中的各元素之间的依存关系;权重作用组件,用于将所述依存关系挖掘组件所挖掘出的依存关系作为影响系数作用于所述各元素的权重;选取组件,用于根据所述权重作用组件所作用的结果,选取出权重大于或等于所述第二切分元素集合中其他任意一个元素的权重的元素作为所述页面的主题词。
为补充数据的多样性以及满足用户时效性需求,在本发明的一种优选的实施方式中,该系统100还可以包括:第三获取模块,用于获取搜索引擎的搜索日志;第四获取模块,用于根据所述第三获取模块所获取的搜索日志获取所述待推荐的搜索短语。
为使用户更为快速、便捷的搜索到与其可能的兴趣点相关的内容,如图10所示,该显示模块140可以包括:排序单元141以及显示单元142。
排序单元141用于对所述待推荐的搜索短语进行排序;
显示单元142用于根据所述排序单元141所排出的结果将所述待推荐的搜索短语显示给所述用户。
其中,在本发明的实施方式中,该排序单元141可以包括:计算组件,用于根据所述用户的自然属性信息(例如性别、年龄、职业、兴趣等信息)计算所述待推荐的搜索短语的初始排序分数;调节组件,用于根据用户行为数据(用户对显示的搜索短语进行的点击、浏览、鼠标停留等动作)以及自然冷却模型(如上文所述,在此不再赘述)调节所述计算组件所计算出的初始排序分数;排序组件,用于根据所述调节组件所调节后的排序分数对所述待推荐的搜索短语进行排序。并且,该排序单元141还可以包括:预测组件,用于根据所述用户的搜索信息的关键词,通过分类器预测出所述用户的自然属性信息。
实施本发明提供的推荐搜索短语的方法及系统可以根据用户的搜索信息向该用户推荐搜索短语,从而可以使用户便捷地获取到与其可能的兴趣点相关的内容,降低搜索成本,提高用户体验度;同时以该推荐搜索短语作为流量入口,可以为搜索引入更多的流量。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可全部通过软件实现,也可借助软件结合硬件平台的方式来实现,当然也可以全部通过硬件来实施。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,智能手机或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本发明说明书中使用的术语和措辞仅仅为了举例说明,并不意味构成限定。本领域技术人员应当理解,在不脱离所公开的实施方式的基本原理的前提下,对上述实施方式中的各细节可进行各种变化。因此,本发明的范围只由权利要求确定,在权利要求中,除非另有说明,所有的术语应按最宽泛合理的意思进行理解。

Claims (22)

1.一种推荐搜索短语的方法,其特征在于,所述方法包括:
获取用户的搜索信息;
提取所述获取的搜索信息的关键词;
根据所述提取的关键词获取待推荐的搜索短语;
将所述获取的待推荐的搜索短语显示给所述用户。
2.如权利要求1所述的方法,其特征在于,
所述搜索信息包括:所述用户的历史搜索文本以及所述用户浏览的页面。
3.如权利要求2所述的方法,其特征在于,提取所述获取的搜索信息的关键词包括:
提取所述历史搜索文本的中心词;
以及
提取所述用户浏览的页面的主题词。
4.如权利要求3所述的方法,其特征在于,提取所述历史搜索文本的中心词包括:
对所述历史搜索文本进行切词以生成第一切分元素集合;
对所述生成的第一切分元素集合中的各元素进行词性标注以及权重标注;
根据所述标注的结果提取出所述历史搜索文本的中心词。
5.如权利要求3所述的方法,其特征在于,提取所述用户浏览的页面的主题词包括:
获取所述用户浏览的页面的页面文本;
根据所述获取的页面文本,提取所述页面的标题和页面正文;
根据所述提取的标题和页面正文提取出所述页面的主题词。
6.如权利要求5所述的方法,其特征在于,根据所述提取的标题和页面正文提取出所述页面的主题词包括:
对所述提取的标题和页面正文进行切词以生成第二切分元素集合;
挖掘所述生成的第二切分元素集合中的各元素之间的依存关系;
将所述挖掘出的依存关系作为影响系数作用于所述各元素的权重;
根据所述作用的结果,选取出权重大于或等于所述第二切分元素集合中其他任意一个元素的权重的元素作为所述页面的主题词。
7.如权利要求1所述的方法,其特征在于,根据所述提取到的关键词获取待推荐的搜索短语包括:
通过所述提取到的关键词检索推荐模型以获得作为所述待推荐的搜索短语的检索结果,其中所述推荐模型包括:搜索引擎的全部搜索文本的中心词以及与所述中心词对应的热门搜索短语。
8.如权利要求1至7中任意一项所述的方法,其特征在于,所述方法还包括:
获取搜索引擎的搜索日志;
根据所述获取的搜索日志获取所述待推荐的搜索短语。
9.如权利要求8所述的方法,其特征在于,将所述获取的待推荐的搜索短语显示给所述用户包括:
对所述待推荐的搜索短语进行排序;
根据所述排序的结果将所述待推荐的搜索短语显示给所述用户。
10.如权利要求9所述的方法,其特征在于,对所述待推荐的搜索短语进行排序包括:
根据所述用户的自然属性信息计算所述待推荐的搜索短语的初始排序分数;
根据用户行为数据以及自然冷却模型调节所述计算出的初始排序分数;
根据所述调节后的排序分数对所述待推荐的搜索短语进行排序。
11.如权利要求10所述的方法,其特征在于,对所述待推荐的搜索短语进行排序还包括:
在执行根据所述用户的自然属性信息计算所述待推荐的搜索短语的初始排序分数的步骤前,根据所述用户的搜索信息的关键词,通过分类器预测出所述用户的自然属性信息。
12.一种推荐搜索短语的系统,其特征在于,所述系统包括:
第一获取模块,用于获取用户的搜索信息;
提取模块,用于提取所述第一获取模块所获取的搜索信息的关键词;
第二获取模块,用于根据所述提取模块所提取的关键词获取待推荐的搜索短语;
显示模块,用于将所述第二获取模块所获取的待推荐的搜索短语显示给所述用户。
13.如权利要求12所述的系统,其特征在于,
所述搜索信息包括:所述用户的历史搜索文本以及所述用户浏览的页面。
14.如权利要求13所述的系统,其特征在于,所述提取模块包括:
中心词提取单元,用于提取所述历史搜索文本的中心词;
以及
主题词提取单元,用于提取所述用户浏览的页面的主题词。
15.如权利要求14所述的系统,其特征在于,所述中心词提取单元包括:
第一切词组件,用于对所述历史搜索文本进行切词以生成第一切分元素集合;
标注组件,用于对所述第一切词组件所生成的第一切分元素集合中的各元素进行词性标注以及权重标注;
提取组件,用于根据所述标注组件所标注的结果提取出所述历史搜索文本的中心词。
16.如权利要求14所述的系统,其特征在于,所述主题词提取单元包括:
获取子单元,用于获取所述用户浏览的页面的页面文本;
第一提取子单元,用于根据所述获取子单元所获取的页面文本,提取所述页面的标题和页面正文;
第二提取子单元,用于根据所述第一提取子单元所提取的标题和页面正文提取所述页面的主题词。
17.如权利要求16所述的系统,其特征在于,所述第二提取子单元包括:
第二切词组件,用于对所述提取的标题和页面正文进行切词以生成第二切分元素集合;
依存关系挖掘组件,用于挖掘所述第二切词组件所生成的第二切分元素集合中的各元素之间的依存关系;
权重作用组件,用于将所述依存关系挖掘组件所挖掘出的依存关系作为影响系数作用于所述各元素的权重;
选取组件,用于根据所述权重作用组件所作用的结果,选取出权重大于或等于所述第二切分元素集合中其他任意一个元素的权重的元素作为所述页面的主题词。
18.如权利要求12所述的系统,其特征在于,所述第二获取模块包括:
检索单元,用于通过所述提取到的关键词检索推荐模型以获得作为所述待推荐的搜索短语的检索结果,其中所述推荐模型包括:搜索引擎的全部搜索文本的中心词以及与所述中心词对应的热门搜索短语。
19.如权利要求12至18中任意一项所述的系统,其特征在于,所述系统还包括:
第三获取模块,用于获取搜索引擎的搜索日志;
第四获取模块,用于根据所述第三获取模块所获取的搜索日志获取所述待推荐的搜索短语。
20.如权利要求19所述的系统,其特征在于,所述显示模块包括:
排序单元,用于对所述待推荐的搜索短语进行排序;
显示单元,用于根据所述排序单元所排出的结果将所述待推荐的搜索短语显示给所述用户。
21.如权利要求20所述的系统,其特征在于,所述排序单元包括:
计算组件,用于根据所述用户的自然属性信息计算所述待推荐的搜索短语的初始排序分数;
调节组件,用于根据用户行为数据以及自然冷却模型调节所述计算组件所计算出的初始排序分数;
排序组件,用于根据所述调节组件所调节后的排序分数对所述待推荐的搜索短语进行排序。
22.如权利要求21所述的系统,其特征在于,所述排序单元还包括:
预测组件,用于根据所述用户的搜索信息的关键词,通过分类器预测出所述用户的自然属性信息。
CN201510047142.8A 2015-01-29 2015-01-29 推荐搜索短语的方法及系统 Active CN104598607B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510047142.8A CN104598607B (zh) 2015-01-29 2015-01-29 推荐搜索短语的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510047142.8A CN104598607B (zh) 2015-01-29 2015-01-29 推荐搜索短语的方法及系统

Publications (2)

Publication Number Publication Date
CN104598607A true CN104598607A (zh) 2015-05-06
CN104598607B CN104598607B (zh) 2018-10-30

Family

ID=53124392

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510047142.8A Active CN104598607B (zh) 2015-01-29 2015-01-29 推荐搜索短语的方法及系统

Country Status (1)

Country Link
CN (1) CN104598607B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426508A (zh) * 2015-11-30 2016-03-23 百度在线网络技术(北京)有限公司 网页生成方法和装置
CN105608071A (zh) * 2015-12-21 2016-05-25 北京奇虎科技有限公司 用于确定中心词的机器学习算法的生成方法及装置
CN105956148A (zh) * 2016-05-12 2016-09-21 北京奇艺世纪科技有限公司 资源信息的推荐方法和装置
CN106503863A (zh) * 2016-11-10 2017-03-15 北京红马传媒文化发展有限公司 基于决策树模型的年龄特征的预测方法、系统及终端
CN107193987A (zh) * 2017-05-27 2017-09-22 广东神马搜索科技有限公司 获取与页面相关的搜索词的方法、装置和系统
CN107679217A (zh) * 2017-10-19 2018-02-09 北京百度网讯科技有限公司 基于数据挖掘的关联内容提取方法和装置
CN107818091A (zh) * 2016-09-12 2018-03-20 百度在线网络技术(北京)有限公司 文档处理方法及装置
CN108280106A (zh) * 2017-03-08 2018-07-13 广州市动景计算机科技有限公司 搜索关键词的处理方法、装置及移动终端
CN108304533A (zh) * 2018-01-29 2018-07-20 上海名轩软件科技有限公司 关键词推荐方法及设备
CN110069676A (zh) * 2017-09-28 2019-07-30 北京国双科技有限公司 关键词推荐方法和装置
CN110866106A (zh) * 2019-10-10 2020-03-06 重庆金融资产交易所有限责任公司 一种文本推荐方法及相关设备
CN111309999A (zh) * 2018-12-11 2020-06-19 阿里巴巴集团控股有限公司 一种互动场景内容的生成方法及装置
CN117688243A (zh) * 2023-12-19 2024-03-12 广州无限可能数字科技有限公司 一种基于大数据的关键词筛选推荐的方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101315623A (zh) * 2007-05-29 2008-12-03 阿里巴巴集团控股有限公司 一种文本主题推荐方法和装置
CN101620625A (zh) * 2009-07-30 2010-01-06 腾讯科技(深圳)有限公司 一种搜索关键词排序方法、装置和搜索引擎
US20120123855A1 (en) * 2010-11-11 2012-05-17 Nhn Business Platform Corporation System and method for suggesting recommended keyword
CN103970743A (zh) * 2013-01-24 2014-08-06 北京百度网讯科技有限公司 一种在搜索中的个性化信息推荐方法、系统及搜索引擎
CN104166700A (zh) * 2014-08-01 2014-11-26 百度在线网络技术(北京)有限公司 搜索词推荐方法及装置
CN104268176A (zh) * 2012-06-26 2015-01-07 北京奇虎科技有限公司 一种基于搜索关键词的推荐方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101315623A (zh) * 2007-05-29 2008-12-03 阿里巴巴集团控股有限公司 一种文本主题推荐方法和装置
CN101620625A (zh) * 2009-07-30 2010-01-06 腾讯科技(深圳)有限公司 一种搜索关键词排序方法、装置和搜索引擎
US20120123855A1 (en) * 2010-11-11 2012-05-17 Nhn Business Platform Corporation System and method for suggesting recommended keyword
CN104268176A (zh) * 2012-06-26 2015-01-07 北京奇虎科技有限公司 一种基于搜索关键词的推荐方法及系统
CN103970743A (zh) * 2013-01-24 2014-08-06 北京百度网讯科技有限公司 一种在搜索中的个性化信息推荐方法、系统及搜索引擎
CN104166700A (zh) * 2014-08-01 2014-11-26 百度在线网络技术(北京)有限公司 搜索词推荐方法及装置

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426508A (zh) * 2015-11-30 2016-03-23 百度在线网络技术(北京)有限公司 网页生成方法和装置
CN105426508B (zh) * 2015-11-30 2019-07-05 百度在线网络技术(北京)有限公司 网页生成方法和装置
CN105608071A (zh) * 2015-12-21 2016-05-25 北京奇虎科技有限公司 用于确定中心词的机器学习算法的生成方法及装置
CN105956148A (zh) * 2016-05-12 2016-09-21 北京奇艺世纪科技有限公司 资源信息的推荐方法和装置
CN107818091A (zh) * 2016-09-12 2018-03-20 百度在线网络技术(北京)有限公司 文档处理方法及装置
CN106503863A (zh) * 2016-11-10 2017-03-15 北京红马传媒文化发展有限公司 基于决策树模型的年龄特征的预测方法、系统及终端
CN108280106A (zh) * 2017-03-08 2018-07-13 广州市动景计算机科技有限公司 搜索关键词的处理方法、装置及移动终端
CN107193987A (zh) * 2017-05-27 2017-09-22 广东神马搜索科技有限公司 获取与页面相关的搜索词的方法、装置和系统
CN110069676A (zh) * 2017-09-28 2019-07-30 北京国双科技有限公司 关键词推荐方法和装置
CN107679217B (zh) * 2017-10-19 2021-12-07 北京百度网讯科技有限公司 基于数据挖掘的关联内容提取方法和装置
CN107679217A (zh) * 2017-10-19 2018-02-09 北京百度网讯科技有限公司 基于数据挖掘的关联内容提取方法和装置
CN108304533A (zh) * 2018-01-29 2018-07-20 上海名轩软件科技有限公司 关键词推荐方法及设备
CN111309999A (zh) * 2018-12-11 2020-06-19 阿里巴巴集团控股有限公司 一种互动场景内容的生成方法及装置
CN111309999B (zh) * 2018-12-11 2023-05-16 阿里巴巴集团控股有限公司 一种互动场景内容的生成方法及装置
CN110866106A (zh) * 2019-10-10 2020-03-06 重庆金融资产交易所有限责任公司 一种文本推荐方法及相关设备
CN117688243A (zh) * 2023-12-19 2024-03-12 广州无限可能数字科技有限公司 一种基于大数据的关键词筛选推荐的方法及系统

Also Published As

Publication number Publication date
CN104598607B (zh) 2018-10-30

Similar Documents

Publication Publication Date Title
CN104598607A (zh) 推荐搜索短语的方法及系统
CN106202294B (zh) 基于关键词和主题模型融合的相关新闻计算方法及装置
CN105243087B (zh) It资讯聚合阅读个性化推荐方法
CN103544210B (zh) 一种识别网页类型的系统和方法
CN102200975B (zh) 一种利用语义分析的垂直搜索引擎系统
CN108763321B (zh) 一种基于大规模相关实体网络的相关实体推荐方法
CN113822067A (zh) 关键信息提取方法、装置、计算机设备及存储介质
CN106126502B (zh) 一种基于支持向量机的情感分类系统及方法
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
CN105893444A (zh) 情感分类方法及装置
CN108038099B (zh) 基于词聚类的低频关键词识别方法
CN104915399A (zh) 基于新闻标题的推荐数据处理方法及系统
CN111488429A (zh) 一种基于搜索引擎的短文本聚类系统及其短文本聚类方法
CN104794209A (zh) 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统
CN111274366A (zh) 搜索推荐方法及装置、设备、存储介质
Kumar et al. Near-duplicate web page detection: an efficient approach using clustering, sentence feature and fingerprinting
Lee et al. Web document classification using topic modeling based document ranking
Timonen Term weighting in short documents for document categorization, keyword extraction and query expansion
Shah et al. An automatic text summarization on Naive Bayes classifier using latent semantic analysis
Yang et al. A topic-specific web crawler with web page hierarchy based on HTML Dom-Tree
Kalita et al. An extractive approach of text summarization of Assamese using WordNet
CN111177514B (zh) 基于网站特征分析的信源评价方法、装置及存储设备、程序
CN113934910A (zh) 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法
Gupta et al. Document summarisation based on sentence ranking using vector space model
Duan et al. Research on Enterprise Track of TREC 2007 at SJTU APEX Lab.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant