CN105912669A - 用于补全搜索词及建立个体兴趣模型的方法及装置 - Google Patents

用于补全搜索词及建立个体兴趣模型的方法及装置 Download PDF

Info

Publication number
CN105912669A
CN105912669A CN201610224759.7A CN201610224759A CN105912669A CN 105912669 A CN105912669 A CN 105912669A CN 201610224759 A CN201610224759 A CN 201610224759A CN 105912669 A CN105912669 A CN 105912669A
Authority
CN
China
Prior art keywords
interest
client device
weight
individual
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610224759.7A
Other languages
English (en)
Other versions
CN105912669B (zh
Inventor
周浩
邓夏玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qifutong Technology Co ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201610224759.7A priority Critical patent/CN105912669B/zh
Publication of CN105912669A publication Critical patent/CN105912669A/zh
Application granted granted Critical
Publication of CN105912669B publication Critical patent/CN105912669B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于补全搜索词的方法,包括:匹配客户端设备的访问方进行搜索的输入内容,获取与所述输入内容具有相关性的若干候选搜索词;至少根据所述客户端设备的访问方的个体兴趣模型在所述若干候选搜索词中确定用于补全的搜索词,所述客户端设备的访问方的个体兴趣模型包括体现所述客户端设备的访问方的个性化兴趣的信息;根据所述用于补全的搜索词,对所述客户端设备的访问方进行搜索的输入内容进行补全。本发明还公开了一种用于补全搜索词的装置。能够在不同用户进行搜索输入时为其输入内容补全更符合其个人兴趣要求的搜索词。

Description

用于补全搜索词及建立个体兴趣模型的方法及装置
本申请为申请号201210353539.6、申请日2012年9月20日、发明名称“用于补全搜索词及建立个体兴趣模型的方法及装置”的分案申请。
技术领域
本发明涉及计算机网络技术领域,具体涉及一种用于补全搜索词的方法及装置,以及一种用于建立客户端设备的访问方的个体兴趣模型的方法及装置。
背景技术
随着计算机技术的发展和互联网用户规模的不断扩大,越来越多的互联网用户使用个人计算机通过互联网获得各种各样所需的信息。同时,为互联网用户提供信息服务的网站也越来越多,互联网网页的数量每天都在以惊人的速度增长,互联网信息呈现出爆发式的增长。对于用户来说,经常需要通过一定的手段,才能在浩如烟海的互联网信息中迅速定位最适合自己需求的网站或者需要的信息,比如通过搜索引擎服务。
搜索引擎的服务器将互联网上的大量网站的网页信息收集起来,经过加工处理后,建立信息数据库和索引数据库,用户可以通过在搜索引擎提供的入口中输入搜索查询词,获取搜索引擎针对该搜索词返回的搜索结果。而且,为了提高用户搜索的效率,可以为其提供搜索查询词推荐的技术服务,这种技术服务是在用户输入搜索查询词的一部分时,为用户推荐一定数量的匹配用户输入部分的搜索查询词的选项(推荐补全搜索词)供用户选择。虽然这种技术服务在一定程度上方便了用户使用搜索引擎,但现有技术中的补全搜索词的推荐技术方案,在为用户提供推荐选项时,往往只是机械地结合用户的输入进行上下文相关性的联想,相关词条很多无法满足用户的真实需求。
另外一种为用户提供推荐选项的技术方案,是生硬的与当前热点结合,忽视用户的真实需求强行给用户推荐热点词条,不仅无法满足用户的真正需求,而且还容易让用户反感。由此可见,现有在用户搜索时为用户提供推荐选项的两种方法,由于与用户的真正需求匹配度相对较差,因此不能很好的提高用户搜索效率。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的用于补全搜索词的方法和相应的用于补全搜索词的装置,以及用于建立客户端设备的访问方的个体兴趣模型的方法和相应的用于建立客户端设备的访问方的个体兴趣模型的装置。
依据本发明的一个方面,提供了一种用于补全搜索词的方法,包括:匹配客户端设备的访问方进行搜索的输入内容,获取与所述输入内容具有相关性的若干候选搜索词;至少根据所述客户端设备的访问方的个体兴趣模型在所述若干候选搜索词中确定用于补全的搜索词,所述客户端设备的访问方的个体兴趣模型包括体现所述客户端设备的访问方的个性化兴趣的信息;根据所述用于补全的搜索词,对所述客户端设备的访问方进行搜索的输入内容进行补全。
可选地,所述根据用于补全的搜索词,对所述客户端设备的访问方进行搜索的输入内容进行补全包括:向所述客户端设备反馈所述用于补全的搜索词;和/或,在所述客户端设备的用户界面上向所述客户端设备的访问方呈现所述用于补全的搜索词。
可选地,所述至少根据所述客户端设备的访问方的个体兴趣模型在所述若干候选搜索词中确定用于补全的搜索词候选搜索词用于补全的搜索词包括:至少根据所述客户端设备的访问方的个体兴趣模型对所述若干候选搜索词的部分或全部进行排序;根据所述排序的结果,确定用于补全的搜索词以及所述用于补全的搜索词的顺序。
可选地,所述客户端设备的访问方的个体兴趣模型包括若干兴趣点,每一所述兴趣点基于所述客户端设备的访问方的个性化兴趣被赋予相应的兴趣度权重;所述至少根据客户端设备的访问方的个体兴趣模型对所述若干候选搜索词的部分或全部进行排序包括:根据所述客户端设备的访问方的个体兴趣模型中与所述候选搜索词相关的兴趣点的兴趣度权重,确定所述候选搜索词的兴趣权重;至少根据所述候选搜索词的兴趣权重,对所述若干候选搜索词的部分或全部进行排序。
可选地,所述至少根据客户端设备的访问方的个体兴趣模型在所述若干候选搜索词中确定用于补全的搜索词包括:至少根据所述客户端设备的访问方的个体兴趣模型和当前热点信息,在所述若干候选搜索词中确定用于补全的搜索词。
可选地,所述至少根据所述客户端设备的访问方的个体兴趣模型在所述若干候选搜索词中确定用于补全的搜索词候选搜索词用于补全的搜索词包括:至少根据所述客户端设备的访问方的个体兴趣模型和当前热点信息,对所述若干候选搜索词的部分或全部进行排序;根据所述排序的结果,确定用于补全的搜索词以及所述用于补全的搜索词的顺序。
可选地,所述客户端设备的访问方的个体兴趣模型包括若干兴趣点,每一所述兴趣点基于所述客户端设备的访问方的个性化兴趣被赋予相应的兴趣度权重;所述至少根据客户端设备的访问方的个体兴趣模型和当前热点信息,对所述若干候选搜索词的部分或全部进行排序包括:根据所述客户端设备的访问方的个体兴趣模型中与所述候选搜索词相关的兴趣点的兴趣度权重,确定所述候选搜索词的兴趣权重;将所述候选搜索词与所述当前热点信息进行匹配,确定所述候选搜索词的热点权重;至少根据所述候选搜索词的兴趣权重和热点权重,对所述若干候选搜索词的部分或全部进行排序。
根据本发明的另一方面,提供了一种用于建立客户端设备的访问方的个体兴趣模型的方法,包括:收集多台基于客户端设备的访问事件的历史行为数据;根据所述多台基于客户端设备的访问事件的历史行为数据,标记和分类客户端设备的访问方的兴趣点特征词;根据每一所述客户端设备的访问方的个体历史行为数据以及所述兴趣点特征词进行匹配,获得每个客户端设备的访问方的个体兴趣模型,所述个体兴趣模型中包括若干兴趣点,每一兴趣点基于所述客户端设备的访问方的个体历史行为数据被赋相应的兴趣度权重。
根据本发明的又一方面,提供了一种用于补全搜索词的装置,包括:接收单元,用于接收客户端设备发送的客户端设备的访问方进行搜索的输入内容;候选确定单元,用于根据接收到的所述输入内容获取与所述输入内容具有相关性的若干候选搜索词;搜索词确定单元,用于至少根据客户端设备的访问方的个体兴趣模型在所述若干候选搜索词中确定用于补全的搜索词,所述客户端设备的访问方的个体兴趣模型包括体现所述客户端设备的访问方的个性化兴趣的信息;反馈单元,用于向所述客户端设备反馈所述用于补全的搜索词。
可选地,所述搜索词确定单元包括:第一排序单元,用于至少根据所述客户端设备的访问方的个体兴趣模型对所述若干候选搜索词的部分或全部进行排序;第一确定单元,用于根据所述排序的结果,确定用于补全的搜索词以及所述用于补全的搜索词的顺序。
可选地,所述客户端设备的访问方的个体兴趣模型包括若干兴趣点,每一所述兴趣点基于所述客户端设备的访问方的个性化兴趣被赋予相应的兴趣度权重;所述第一排序单元包括:兴趣权重子单元,用于根据所述客户端设备的访问方的个体兴趣模型中与所述候选搜索词相关的兴趣点的兴趣度权重,确定所述候选搜索词的兴趣权重;第一搜索词排序子单元,用于至少根据所述候选搜索词的兴趣权重,对所述若干候选搜索词的部分或全部进行排序。
可选地,所述搜索词确定单元,具体用于至少根据所述客户端设备的访问方的个体兴趣模型和当前热点信息,在所述若干候选搜索词中确定用于补全的搜索词。
可选地,所述搜索词确定单元包括:第二排序单元,用于至少根据所述客户端设备的访问方的个体兴趣模型和当前热点信息,对所述若干候选搜索词的部分或全部进行排序;第二确定单元,用于根据所述排序的结果,确定用于补全的搜索词以及所述用于补全的搜索词的顺序。
可选地,所述客户端设备的访问方的个体兴趣模型包括若干兴趣点,每一所述兴趣点基于所述客户端设备的访问方的个性化兴趣被赋予相应的兴趣度权重;所述第二排序单元包括:兴趣权重子单元,用于根据所述客户端设备的访问方的个体兴趣模型中与所述候选搜索词相关的兴趣点的兴趣度权重,确定所述候选搜索词的兴趣权重;热点权重子单元,用于将所述候选搜索词与所述当前热点信息进行匹配,确定所述候选搜索词的热点权重;第二搜索词排序子单元,用于至少根据所述候选搜索词的兴趣权重和热点权重,对所述若干候选搜索词的部分或全部进行排序。
可选地,所述兴趣点至少包括一级兴趣点和二级兴趣点,其中每一所述一级兴趣点包括若干二级兴趣点,所述兴趣权重子单元包括:第一兴趣权重子单元,用于根据所述客户端设备的访问方的个体兴趣模型中与所述候选搜索词相关的二级兴趣点的兴趣度权重,以及所述相关的二级兴趣点所属一级兴趣点的一级权重占比,确定所述候选搜索词的兴趣权重;
或,
第二兴趣权重子单元,用于根据所述客户端设备的访问方的个体兴趣模型中与所述候选搜索词相关的二级兴趣点的兴趣度权重,以及所述相关的二级兴趣点在所属一级兴趣点中的二级权重占比,确定所述候选搜索词的兴趣权重。
可选地,所述兴趣点至少包括一级兴趣点和二级兴趣点,其中每一所述一级兴趣点包括若干二级兴趣点,所述兴趣权重子单元包括:
第三兴趣权重子单元,用于在如果所述客户端设备的访问方进行的搜索是非垂直搜索时,则根据所述客户端设备的访问方的个体兴趣模型中与所述候选搜索词相关的二级兴趣点的兴趣度权重,以及所述相关的二级兴趣点所属一级兴趣点的一级权重占比,确定所述候选搜索词的兴趣权重;
以及,
第四兴趣权重子单元,用于在如果所述客户端设备的访问方进行的搜索是垂直搜索时,确定所述垂直搜索对应的一级兴趣点,根据所述一级兴趣点下与所述候选搜索词相关的二级兴趣点的兴趣度权重,以及所述相关的二级兴趣点在所属一级兴趣点中的二级权重占比,确定所述候选搜索词的兴趣权重。
依据本发明的又一方面,提供了一种用于补全搜索词的装置,包括:输入获取单元,用于获取客户端设备的访问方在客户端设备上进行搜索的输入内容;候选确定单元,用于根据所述输入内容获取与所述输入内容具有相关性的若干候选搜索词;搜索词确定单元,用于至少根据客户端设备的访问方的个体兴趣模型在所述若干候选搜索词中确定用于补全的搜索词,所述客户端设备的访问方的个体兴趣模型包括体现所述用户个性化兴趣的信息;信息呈现单元,用于在所述客户端设备的用户界面上向所述客户端设备的访问方呈现所述用于补全的搜索词。
可选地,所述搜索词确定单元,具体用于至少根据所述客户端设备的访问方的个体兴趣模型和当前热点信息,在所述若干候选搜索词中确定用于补全的搜索词。
依据本发明的又一方面,提供了一种用于补全搜索词的装置,包括:候选单元,用于匹配客户端设备的访问方进行搜索的输入内容,获取与所述输入内容具有相关性的若干候选搜索词;补全搜索词确定单元,用于至少根据客户端设备的访问方的个体兴趣模型在所述若干候选搜索词中确定用于补全的搜索词,所述客户端设备的访问方的个体兴趣模型包括体现所述客户端设备的访问方的个性化兴趣的信息;补全单元,用于根据所述用于补全的搜索词,对所述客户端设备的访问方进行搜索的输入内容进行补全。
依据本发明的再一方面,提供了一种用于建立客户端设备的访问方的个体兴趣模型的装置,包括:数据收集单元,用于收集多台基于客户端设备的访问事件的历史行为数据;标记分类单元,用于根据所述多台基于客户端设备的访问事件的历史行为数据,标记和分类客户端设备的访问方的兴趣点特征词;匹配单元,用于根据每一所述客户端设备的访问方的个体历史行为数据以及所述兴趣点特征词进行匹配,获得每个客户端设备的访问方的个体兴趣模型,所述个体兴趣模型中包括若干兴趣点,每一兴趣点基于所述客户端设备的访问方的个体历史行为数据被赋相应的兴趣度权重。
根据本发明的推荐补全搜索词的方法和装置,及具体实施例,可以通过匹配客户端设备的访问方进行搜索的输入内容,获取与客户端设备的访问方输入内容具有相关性的若干补全搜索词,为客户端设备的访问方确定用于补全的搜索词做好数据准备;然后至少根据客户端设备的访问方的个体兴趣模型确定用于补全的搜索词,可以为不同的客户端设备的访问方确定更符合其兴趣要求的补全搜索词;并根据用于补全的搜索词,对客户端设备的访问方进行搜索的输入内容进行补全。,由此解决了只是机械地结合用户的输入进行上下文相关性的联想,或生硬的与当前热点结合,忽视用户的真实需求给用户推荐热点词条,而无法满足用户的真正需求的问题。取得了能够在不同用户进行搜索输入时为其输入内容补全更符合其个人兴趣要求的搜索词的有益效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的用于补全搜索词的方法流程图;
图2示出了根据本发明一个实施例的用于建立客户端设备的访问方的个体兴趣模型的方法流程图;
图3示出了根据本发明一个实施例的用于补全搜索词的装置第一实施例示意图;以及
图4示出了根据本发明一个实施例的用于建立客户端设备的访问方的个体兴趣模型的装置示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
请参阅图1,其示出了根据本发明一个实施例的用于补全搜索词的方法流程图。该方法实施例包括以下步骤:
S101:匹配客户端设备的访问方进行搜索的输入内容,获取与所述输入内容具有相关性的若干候选搜索词;
每一个用户可以对应一个客户端设备,用户作为客户端设备的访问方,可以是客户端设备的登录者或输入者,每个客户端设备的访问方可以被分配以一个和客户端设备的访问方对应的唯一性标识,以对不同的客户端设备的访问方进行区分。为叙述方便,下述后续实施例以及具体实施方式的描述中,在某些具体阐述时会以“用户”代替“客户端设备的访问方”进行说明。
用户在使用搜索引擎时,可以通过多种站点的页面提供的搜索引擎入口来使用,例如可以使用搜索引擎服务提供商提供的站点页面中提供的搜索引擎入口,还可以使用一些导航网站的页面提供的搜索引擎入口等来使用搜索引擎。用户可以在这些搜索引擎入口输入关键词,查询需要的信息。用户进行搜索的输入内容,狭义的理解可以包括用户在搜索引擎入口中使用鼠标、键盘、触屏等输入设备进行输入时输入的具体字符等;广义的理解,还可以包括用户在搜索引擎入口中使用输入设备进行输入时产生的行为信息,例如用户将鼠标指针定位到搜索引擎入口,或者用户在搜索引擎入口进行点击等行为所产生的信息。
在用户进行输入时,可以将用户的输入内容与保存有若干词的词库进行匹配,进而获取与用户输入的内容具有相关性的若干候选搜索词。在匹配用户的输入内容获取与用户输入内容具有相关性的补全搜索词时,可以获取与用户输入内容有上下文相关性的字词,例如当用户当前输入的内容是“n”时,获取的作为候选搜索词可以包括:“NBA”、“NASA”、“ntfs”、“CNN”、“NASDAQ”等,可以将这些词作为候选搜索词。另外有一种特殊情况是,当用户还未在搜索引擎入口输入任何字符内容,但却产生了广义上的行为信息时,例如在用户将鼠标指针定位到搜索引擎入口,却未输入任何字符内容时,可以认为此时的状态是:用户的输入字符为空,用户的输入内容为用户将鼠标指针定位到搜索入口所产生的行为信息,此时也可以使用一定的方法获取候选的补全搜索词,例如根据用户的浏览网页历史记录数据,分析出用户的浏览偏好信息,根据这些用户偏好信息,获取用户在用户将鼠标指针定位到搜索引擎入口却还未输入任何字符时的候选搜索词。
此外,在用户输入的内容发生变化时,还可以根据变化后的用户的输入内容进行匹配,以实时地匹配用户的搜索内容,获取与用户输入的当前内容具有相关性的若干补全搜索词。
S102:至少根据所述客户端设备的访问方的个体兴趣模型在所述若干候选搜索词中确定用于补全的搜索词,所述客户端设备的访问方的个体兴趣模型包括体现所述客户端设备的访问方的个性化兴趣的信息。
为了更充分的公开本步骤的具体实现,首先介绍客户端设备的访问方的个体兴趣模型的相关技术特征。
客户端设备的访问方的个体兴趣模型,是体现不同用户个体的不同兴趣类别的一种数据模型,其包括体现用户个性化兴趣的信息。客户端设备的访问方的个体兴趣模型的表达形式可以是多样的,即客户端设备的访问方的个体兴趣模型包括的体现用户个性化兴趣的信息可以是多种多样的,只要能体现出用户的兴趣即可,本发明实施例对用户个体兴趣模型的具体形式并没有限制。例如,可以通过兴趣点和兴趣点的兴趣度权重作为体现用户个性化兴趣的信息。
例如,客户端设备的访问方的个体兴趣模型可以包括用户的若干兴趣点(或称兴趣分类),每一兴趣点包括若干兴趣点特征词,对于每一兴趣点可以基于用户的个性化兴趣赋予兴趣度权重。为每一兴趣点赋予兴趣度权重的过程,可以认为是对具体客户端设备的访问方的个体兴趣模型的实例化或量化的过程,而根据具体客户端设备的访问方的个性化兴趣对此客户端设备的访问方的个体兴趣模型实例化或量化后,得到的就是此客户端设备的访问方的个体兴趣模型的实例。
比如用集合表示的客户端设备的访问方的个体兴趣模型可以是:首先,可以根据群体用户的兴趣进行分类,获得一个基准兴趣分类,例如,根据用户群体的兴趣数据获得如下的一个基准兴趣分类,每类可以代表一个兴趣点,每个兴趣点包括若干兴趣点特征词,例如:{新闻,体育,科技,娱乐,汽车,视频,……,房产,旅游,音乐,时尚,军事,教育},这个集合包含了某用户群体的所有兴趣点,每个兴趣点都可以包括若干兴趣点特征词,比如,“体育”这个兴趣点可以包括兴趣点特征词“姚明”、“奥运会”、“比赛”等等,这些特征词都属于该兴趣点。而对于群体中每个具体的用户个体而言,对集合中每个兴趣点的兴趣高低程度可能不尽相同,此时,可以基于基准兴趣分类建立客户端设备的访问方的个体兴趣模型,表示用户个体对基准兴趣分类中各兴趣点的兴趣高低程度,基于基准兴趣分类的个体兴趣模型可以用数据集合的形式来表示,如:
{a0,a1,a2,a3,a4,a5,……,ai,a(i+1),a(i+2),a(i+3),a(i+4),a(i+5)}
对集合中的各个元素进行数量化和实例化,就可以得到用于表示某个具体客户端设备的访问方的个体兴趣模型实例,例如上述的用户群体中的某个具体客户端设备的访问方的个体兴趣模型可以实例化为:
{950,540,51,855,0,1022,……,10,366,784,599,15,56}
集合中每个元素对应基准兴趣分类中的一个分类,即一个兴趣点,用户对于各兴趣点的兴趣高低程度则通过各元素的取值,即兴趣度权重来反映,如上述的数据集合就可以用来表示此用户某一时刻对各个兴趣点的感兴趣程度,如元素a5对应的值1022相对于其他元素较高,则可以看出此用户此时对元素a5对应的视频类信息的兴趣度较高。
又如,为了更加细化用户兴趣分类,还可以使用二维矩阵来建立和表示客户端设备的访问方的个体兴趣模型,二维矩阵表示的个体兴趣模型如下所示:
a 11 a 12 ... a 1 j ... a 1 n ... ... ... ... ... ... a i 1 a i 2 ... a i j ... a i n ... ... ... ... ... ... a m 1 a m 2 ... a m j ... a m n
这个二维矩阵中包括了m行和n列,其行数m和列数n可以分别通过如下方式确定:从群体用户获得的数据中,聚类出用户的主要兴趣分类,即主要兴趣点(以下称为一级兴趣点)有m个,从而确定二维矩阵的行数为m;再通过分类算法得到的每个一级兴趣点下有若干个子分类(以下称为二级兴趣点),在m个一级兴趣点中,找到包括的二级兴趣点最多的某一级兴趣点,假设这个一级兴趣点中包括了n个二级兴趣点,则确定二维矩阵的列数,从而确定二维矩阵的列数为n。在此基础上,构造一个二维矩阵表示的个体兴趣模型。通过群体用户数据聚类和分类从而获得一级兴趣点和二级兴趣点的方法还有很多,在此不再赘述,本发明实施例对此并没有限制。
通过以上二维矩阵的建立过程可知,行向量[ai1ai2…aij…ain]为一级兴趣点i(i∈Ν,i∈[1,m])特征向量,每个元素aij(其中假设i分类下的二级分类数为r,则有j≤r≤n,j∈Ν)代表了用户感兴趣的相应的二级兴趣点,对二维矩阵中的每个元素,同样可以进行数量化和实例化,以与具体的用户个体相对应,用数量化和实例化的二维矩阵反映具体的用户个体对各个兴趣点的感兴趣程度,由于不同用户对各个兴趣点的感兴趣程度各不相同,相应的为每个用户数量化和实例化个体兴趣模型后得到的二维矩阵也不尽相同,因此,可以通过为每个用户数量化和实例化个体兴趣模型后得到的二维矩阵,来反映出每个用户个体对信息的需求的差异性。另外,在为每个用户数量化和实例化个体兴趣模型后得到的二维矩阵中,如果某个用户对某个兴趣点从未关注或者关注度低于某个阈值,则可以认为此用户对此兴趣点的兴趣度为0,反映在数量化和实例化的二维矩阵中,此分类对应的元素可以赋值为0。
例如,一个二维矩阵表示的个体兴趣模型,一级兴趣点可以概括为体育,财经,音乐,宠物,从而构成了如下的一个包含有若干二级兴趣点的个体兴趣模型:
对其进行数量化和实例化后,某个用户个体的感兴趣的分类情况可以通过下面的二维矩阵反映出来:
501 23 456 239 200 309 0 2 300 21 800 211 600 0 0 0
可以看出,取值最高800对应的二级兴趣点“古典”,反映出该用户对一级兴趣点“音乐”下的二级兴趣点“古典”最为感兴趣,而兴趣点“期货”、“狗”、“豚鼠”、“蛇”的取值为0,可以说明,用户在这些兴趣点上的兴趣极低甚至没有兴趣。此外,在对各个兴趣点赋予权重时,还可以进行归一化处理,如根据访问次数对兴趣点赋予权重,某用户对各个兴趣点的访问次数可以表示为{10001,8023,7504,8765,901},可以取100作为一个因子,用上述访问次数除以这个因子后取整,作为归一化后的权重,如上例中的数据做归一化处理后得到:{100,80,75,87,9}。
当然,客户端设备的访问方的个体兴趣模型还可以有其他的表达形式,在此举例说明了以集合,以及二维矩阵的方式表达的客户端设备的访问方的个体兴趣模型,在实际应用中,还可以有其它的表达方式,在此就不在赘述了。可以看出,实例化的客户端设备的访问方的个体兴趣模型可以反映出对应的具体用户对各个兴趣类别的感兴趣程度,包括了个性化兴趣的信息,其感兴趣程度的高低,可以通过实例化的客户端设备的访问方的个体兴趣模型中的元素的取值体现。
以上介绍了用户个体兴趣模型的具体实现方案。下面介绍用户个体兴趣模型的数据来源。
例如,客户端设备的访问方的个体兴趣模型至少可以通过用户的历史行为数据分析获得,用户的历史行为数据可以包括但不限于:用户点击、搜索、输入的数据、以及访问过的文档等,这些数据具体可以包括但不限于:用户使用浏览器访问网页的历史数据、用户在导航网站上的点击链接访问网页的历史数据、用户使用搜索引擎进行搜索的输入历史等。获取这些历史数据可以通过:有用户历史行为数据收集功能的浏览器、有用户历史行为数据收集功能的浏览器插件、有用户历史行为数据收集功能的其他应用软件等,在用户访问网页时,可以通过这些程序来对用户历史行为数据进行收集,具体可以是在用户使用浏览器浏览网页时,浏览器向服务器发起请求后,这些请求可以通过导航站的服务器记录并保存为用户日志。
客户端设备的访问方的个体兴趣模型可以通过对使用上述方式获得的上述用户的历史行为数据进行分析获得,其分析的过程可以是:根据群体用户的历史行为数据,标记和分类用户的兴趣点特征词;再根据用户的个体历史行为数据以及兴趣点特征词进行匹配,获得每个客户端设备的访问方的个体兴趣模型,其中个体兴趣模型中包括若干兴趣点,每一兴趣点基于用户的个体历史行为数据被赋相应的兴趣度权重。比如前文中提到的以集合方式表示的,以及以二维矩阵方式表示的客户端设备的访问方的个体兴趣模型。
具体而言,可以通过分析获取到的若干用户的历史行为数据,作为群体用户的历史行为数据。根据这个群体中的所有用户的历史行为数据,具体的可以是网页访问行为数据等,在这些数据中进行关键词提取。可以将群体用户的历史行为数据提取出的关键词作为兴趣点特征词,进而对群体用户的兴趣点特征词进行聚类、分类。如将姚明、刘翔、孙杨、郭晶晶等作为兴趣点“运动员”的特征词,将“刘嘉玲”、“梁朝伟”、“郑爽”等作为兴趣点“娱乐”的特征词,以此类推,可以将提取的特征词根据兴趣点进行聚类,即获得若干兴趣点,每个兴趣点中包括若干兴趣点特征词。可选的,在本步骤中,可以根据群体用户数据建立一个基准的兴趣模型。当然,也可以不建立这个兴趣模型,只是建立存储有上述数据信息的数据库。
然后,再根据每一用户的个体历史行为数据与兴趣点特征词进行匹配,获得每个客户端设备的访问方的个体兴趣模型,所述个体兴趣模型中包括若干兴趣点,每一兴趣点基于所述用户的个体历史行为数据被赋相应的兴趣度权重。每个兴趣点都包含若干兴趣点特征词。具体而言,采用与群体用户数据提取特征词相同的方案,也对用户的个体历史行为数据提取特征词,然后与基于群体用户数据提取的兴趣点特征词进行匹配,从而获得每个客户端设备的访问方的个体兴趣模型。
前述方案是通过群体的用户历史行为数据先获得一个基本的兴趣模型,然后再通过用户的个体历史行为数据与该兴趣模型进行匹配,从而获得客户端设备的访问方的个体兴趣模型。可选的,还可以只使用个体用户的历史行为访问数据获得此个体客户端设备的访问方的个体兴趣模型,这种获得个体兴趣模型的方法可以是:首先可以通过分析获取到的个体用户的历史行为数据,对该用户访问的网页进行特征词提取,对提取到的特征词进行聚类、分类,从而得到该用户的兴趣的分类数据,将这组数据模型化,即用一种可以量化的模型对用户兴趣的分类数据进行表示,从而也可以得到客户端设备的访问方的个体兴趣模型。
实例化的客户端设备的访问方的个体兴趣模型可以保存在计算机设备中,如在以服务器/客户端模式实现的系统中,可以将实例化的客户端设备的访问方的个体兴趣模型保存在服务器端或者客户端,具体在保存时,可以针对不同的用户保存对应于各个用户的实例化的客户端设备的访问方的个体兴趣模型。如果是将上述个体兴趣模型保存在客户端,或者由服务器更新至客户端,则本发明实施例涉及的各步骤都可以在客户端实现;如果将上述个体兴趣模型保存在服务器端,则可以将步骤S102的相关处理过程在服务器端实现,最终确定的用于补全的搜索词可以由服务器推送给客户端即可。
以上介绍了本发明实施例中客户端设备的访问方的个体兴趣模型的相关技术特征。下面介绍如何至少根据客户端设备的访问方的个体兴趣模型在若干候选搜索词中确定用于补全的搜索词。
在具体实现时,可以根据客户端设备的访问方的个体兴趣模型在若干候选搜索词中确定用于补全的搜索词;也可以除了根据客户端设备的访问方的个体兴趣模型之外,还参考其他因素,综合确定用于补全的搜索词,比如一并参考热点信息。下面给出上述两种具体实现方式:
具体实现方式一:
根据客户端设备的访问方的个体兴趣模型在所述若干候选搜索词中确定用于补全的搜索词。具体而言,可选的,至少根据客户端设备的访问方的个体兴趣模型对若干候选搜索词的部分或全部进行排序;根据排序的结果,确定用于补全的搜索词以及所述用于补全的搜索词的推荐顺序。
前面在介绍客户端设备的访问方的个体兴趣模型时提到,客户端设备的访问方的个体兴趣模型可以包括若干兴趣点,每一兴趣点基于用户的个性化兴趣被赋予兴趣度权重。进而,可以根据客户端设备的访问方的个体兴趣模型中与候选搜索词相关的兴趣点的兴趣度权重,确定候选搜索词的兴趣权重;至少根据候选搜索词的兴趣权重,对所述若干候选搜索词的部分或全部进行排序。
与候选搜索词相关的兴趣点,是指与该候选搜索词属于同一类的兴趣点。具体而言,比如某候选搜索词是“姚明”,一般在本地的词库对各词条都有标注一些属性标签,比如该词条的特征标签包括“体育”,“明星”,“篮球”等等。前面介绍个体兴趣模型中的兴趣点时提及,每个兴趣点都可以包括若干兴趣点特征词,于是,就可以将候选搜索词“姚明”的各特征标签、候选搜索词本身,与个体兴趣模型中各兴趣点的特征词进行匹配,如果匹配成功,则说明该候选搜索词与某兴趣点相关,并且可以获得该兴趣点的兴趣度权重。比如,兴趣点“体育”包括的兴趣点特征词有“体育”“篮球”“足球”等等,于是通过匹配,就可以知道该候选搜索词与“体育”这个兴趣点特征词相关。如果该客户端设备的访问方的个体兴趣模型包括两级兴趣点,比如在模型中除了有“体育”这个一级兴趣点之外,还有“篮球”这个二级兴趣点,那么候选搜索词“姚明”经过匹配后,就可以知道与其相关的一级兴趣点是“体育”,二级兴趣点是“篮球”。本领域技术人员可以理解,即使本地没有针对各候选搜索词的各种属性标签,通过对该词条进行语义分析,也可以知道该词条属于哪类,对应于个体兴趣模型中的哪个兴趣点。
个体兴趣模型中的兴趣点可以是一级兴趣点,也可以细化为两级以上的多级兴趣点。个体兴趣模型的具体实现不同,在根据个体兴趣模型确定候选搜索词的兴趣权重时的具体实现方案也略有区别,下面将举例介绍。
如果某个体兴趣模型中仅包括一级兴趣点,那么在根据与候选搜索词相关的兴趣点的兴趣度权重,确定候选搜索词的兴趣权重的方案,是比较简单的。可以直接将候选搜索词相关的兴趣点的兴趣度权重相加,作为该候选搜索词的兴趣权重。也可以根据候选搜索词相关的兴趣点的兴趣度权重,和这些相关兴趣点的兴趣权重占比,共同确定候选搜索词的兴趣权重,即兴趣权重占比可以作为相应兴趣度权重的系数。
比如,某个客户端设备的访问方的个体兴趣模型中包括如下兴趣点:
{新闻,体育,科技,娱乐,汽车,视频,……,房产,旅游,音乐,时尚,军事,教育}
这些兴趣点被分别赋予的兴趣度权重:
{950,540,51,855,0,1022,……,10,366,784,599,15,56}
假设某个候选搜索词相关的兴趣点分别是体育、娱乐、时尚,则可选的,
该候选搜索词的兴趣权重=540*540/∑{950,540,51,855,0,1022,……,10,366,784,599,15,56}+855*855/∑{950,540,51,855,0,1022,……,10,366,784,599,15,56}+599*599/∑{950,540,51,855,0,1022,……,10,366,784,599,15,56}。
上述实例中的兴趣权重占比是根据所有兴趣点计算所得,在实际应用中,所述兴趣权重占比还可以仅仅根据该候选搜索词相关的各兴趣点计算所得,比如:
可选的,该候选搜索词的兴趣权重=540*540/∑{540,855,599}+855*855/∑{540,855,599}+599*599/∑{540,855,599}。
通过上述两个实例可以看出,如果个体兴趣模型只包括一级兴趣点,那么本质上就是根据候选搜索词相关的兴趣点,以及兴趣点的兴趣度权重,共同确定候选搜索词的兴趣权重,具体采用什么策略计算兴趣权重,则可以根据实际需要调整,本发明实施例对此并没有限制。
如果个体兴趣模型包括多级兴趣点,比如个体兴趣模型中的兴趣点至少包括一级兴趣点和二级兴趣点,其中每一一级兴趣点包括若干二级兴趣点。那么,在根据客户端设备的访问方的个体兴趣模型中与候选搜索词相关的兴趣点的兴趣度权重,确定所述候选搜索词的兴趣权重的过程中,也可以采取多种具体实现方式。下面以两种为例做进一步说明:
(1)根据客户端设备的访问方的个体兴趣模型中与所述候选搜索词相关的二级兴趣点的兴趣度权重,以及所述相关的二级兴趣点所属一级兴趣点的一级权重占比,确定所述候选搜索词的兴趣权重。
一级兴趣点的一级兴趣度权重可以根据一级兴趣点下的二级兴趣点的二级兴趣度权重获得,如将某一级兴趣点下二级兴趣点的二级兴趣度权重全部相加得到的值作为该一级兴趣点的一级兴趣度权重,而一级兴趣点相应的一级权重占比=该一级兴趣点的一级兴趣度权重/所有一级兴趣点的一级兴趣度权重的和。例如某个体兴趣模型的一级兴趣点的兴趣度权重分别为:{10,20,30,40},则其中第一个一级兴趣点的一级权重占比为10/(10+20+30+40)=0.1。
进而,候选搜索词的兴趣权重=∑(该候选搜索词相关的二级兴趣点的兴趣度权重×该候选搜索词相关的二级兴趣点所属一级兴趣点的兴趣度权重/全部一级兴趣点的兴趣度权重的和),也即,候选搜索词的兴趣权重=∑(该候选搜索词相关的二级兴趣点的兴趣度权重×该二级兴趣点所属一级兴趣点的一级权重占比)。
以候选搜索词“贝克汉姆”为例,映射到一个客户端设备的访问方的个体兴趣模型,首先映射到该个体兴趣模型的二级兴趣点:{明星;运动员,球星,奥运会,足球,足球;帅哥,时尚,街拍,时尚,时尚},再映射到一级兴趣点上为:{娱乐;体育,体育,体育,体育,体育;时尚,时尚,时尚,时尚}
则使用上述的方法可以得到“贝克汉姆”最后的兴趣权重为:
明星权重*娱乐权重占比+(运动员权重+球星权重+奥运会权重+足球权重*2)*体育权重占比+(帅哥权重+时尚权重*3+街拍权重)*时尚权重。
(2)根据所述客户端设备的访问方的个体兴趣模型中与所述候选搜索词相关的二级兴趣点的兴趣度权重,以及所述相关的二级兴趣点在所属一级兴趣点中的二级权重占比,确定所述候选搜索词的兴趣权重。该方案与前述(1)中方案的区别之处在于,本方案中参考的因素之一是二级兴趣点在所属一级兴趣点中的二级权重占比,而(1)中对应的参考因素是二级兴趣点所属一级兴趣点的一级权重占比。这种方案在具体实现时都可行,只是根据实际需要可以任意选择。
此外,在有些实例中,上述方案(1)和(2)还可以结合使用。比如,如果用户进行的搜索是非垂直搜索,则根据所述客户端设备的访问方的个体兴趣模型中与所述候选搜索词相关的二级兴趣点的兴趣度权重,以及所述相关的二级兴趣点所属一级兴趣点的一级权重占比,确定所述候选搜索词的兴趣权重,相当于方案(1)的一种具体应用;如果所述用户进行的搜索是垂直搜索,则确定所述垂直搜索对应的一级兴趣点;根据所述一级兴趣点下与所述候选搜索词相关的二级兴趣点的兴趣度权重,以及所述相关的二级兴趣点在所属一级兴趣点中的二级权重占比,确定所述候选搜索词的兴趣权重,相当于方案(2)的一种具体应用。
关于在非垂直搜索情况下,采用方案(1)的方案实现,与前述方案(1)中的具体实例基本雷同,所以不再赘述。下面重点描述在垂直搜索情况下,如何具体应用方案(2)中的实现方式。
例如,用户当前进行的是体育类的垂直搜索,根据用户输入内容匹配出的候选搜索词有“贝克汉姆”一词,由于用户当前进行的是体育相关的垂直搜索,因此只将“贝克汉姆”映射到“体育”这个一级兴趣点,其余与体育无关的一级兴趣点可以不予以关注。“体育”下面的二级兴趣点包括:运动员,奥运会,球星和足球。进而,“贝克汉姆”根据个体兴趣模型匹配得到的兴趣权重=运动员权重*该二级分类在体育类下的权重占比+球星权重*该二级分类在体育类下的权重占比+奥运会权重*该二级分类在体育类下的权重占比+足球权重*2*该二级分类在体育类下的权重占比。
对应于一个量化后的个体兴趣模型而言,如:一级兴趣点为体育,其下包含了如下的二级兴趣点:{运动员,奥运会,球星,足球,篮球,德甲}。某用户对应的各二级兴趣点的兴趣度权重分别为:{30,40,50,50,20,10},则可以推出体育这个一级兴趣点下各二级兴趣点的二级权重占比分别为:{0.15,0.2,0.25,0.25,0.1,0.05},其中各二级兴趣点的二级权重占比=二级兴趣点的兴趣权重/二级兴趣点所在的一级兴趣点的所有二级兴趣点的和。进而,用户输入对应的候选搜索词的兴趣权重可以是:∑(输入词所属的二级兴趣点权重×该兴趣点的二级权重占比)。在应用上述方法获得“贝克汉姆”的兴趣权重时,可以是:(30×0.15)+(40×0.2)+(50×0.25)+(50×0.25)=37.5。
通过上述描述的垂直搜索时确定补全搜索词的兴趣权重的方案可知,在垂直搜索时重点关注的是垂直搜索对应的一级兴趣点及其下的二级兴趣点;而其余类别的一级兴趣点及其下的二级兴趣点,不予以关注,可以认为权重为0。因为垂直搜索技术是不同于通用的搜索技术,垂直搜索技术专注于特定的搜索领域和搜索需求(例如,游戏搜索、购物搜索、体育搜索、旅游搜索、生活搜索、小说搜索、视频搜索等),在其特定的搜索领域有更好的搜索效果。相比通用搜索,垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样,在应用垂直搜索技术的条件下实现确定候选搜索词的兴趣权重时,采取前述(2)中所示方案确定候选搜索词的兴趣权重的方法则更加适合,因为这种方法具备垂直搜索技术要求的专注于特定的搜索领域和搜索需求的搜索的技术特征。
当然,本领域技术人员可以理解,前述方式(2)中给出的实例仅仅是一种具体举例,在实际应用中还可以根据实际需要做各种调整,比如,可能某垂直搜索对应的一级兴趣点就是两个以上,那么可以根据前述(2)中给出的方式针对垂直搜索对应的每个一级兴趣点分别计算出一个兴趣度权重,然后再将这些兴趣度权重相加或者分别乘以一定系数后再相加,最终得到候选搜索词的兴趣权重。再比如,方式(2)虽然更适合应用于垂直搜索这一特殊类型的搜索,但是,也可以应用于通用、非垂直搜索,因此也不排除将采用(2)应用于通用搜索的情况。同理,前述方式(1)既可以应用于非垂直搜索,也可以应用于垂直搜索。可选的一种组合方案是,在非垂直搜索中,采用前述(1)中的方案,在垂直搜索中采用前述(2)中的方案。
以上介绍了根据客户端设备的访问方的个体兴趣模型中与候选搜索词相关的兴趣点的兴趣度权重,确定候选搜索词的兴趣权重的几种具体实现方式。在确定出候选搜索词的兴趣权重后,就可以至少根据候选搜索词的兴趣权重,对若干候选搜索词的部分或全部进行排序。
具体而言,比如,可以是根据各个候选搜索词的兴趣权重对各个候选搜索词进行排序,再根据排序高低,来确定用于补全的搜索词以及用于补全的搜索词的推荐顺序。通常而言,在搜索入口附件提供的用于展现推荐的补全搜索词的位置有限,一般是几条至数十条,有时还可以滚动或采用多组的方式展示,但总之展示的数量一般有限。所以,可以根据各候选搜索词的兴趣权重的排序结果,选择排序在前的指定数目的补全搜索词作为确定用于补全的搜索词。比如,指定展示前10条,于是可以选择兴趣权重最高的10条予以展示,并且这10条的展示顺序也可以根据权重高低确定。当然,在某些情况下,对于已经确定推荐的若干条补全搜索词而言,展示顺序可能并不重要,这种情况下,就可以只是根据展示的数量要求,选择兴趣权重排序在前的若干条补全搜索词,而这些补全搜索词之间的推荐顺序(比如展现时的排列顺序)可以不考虑,例如随机排列。
此外,同样是由于真正展现的用于补全的搜索词数量十分有限,因此,为了提高计算机的内部运行处理效率,可以先将步骤S101中匹配得到的补全候选词和个体兴趣模型中的兴趣点进行匹配,如果能匹配成功,即候选搜索词能够对应于用户个体兴趣模型中的某个体现该用户感兴趣的兴趣点,则首先将这些能够匹配用户个体兴趣模型的候选搜索词筛选出来,然后再对这部分匹配成功、筛选出来的候选搜索词计算相应的兴趣权重,进而,对这部分候选搜索词进行排序,确定用于补全的搜索词。
由此可以看出,在实际应用中,可以对步骤S101匹配出的具有上下文相关的各候选搜索词,根据用户的个性兴趣模型,进行全部排序,也可以只是对其中部分候选搜索词排序。这样可以避免对与个体兴趣模型不匹配的候选搜索词也参与排序计算,从而可以进一步提高计算机系统内部的运算效率,以及排序效率,减少计算机软硬件的计算压力。此外,还可以在候选搜索词较多时更加灵活地为用户选择用于补全的搜索词,如当用户对当前推荐的部分补全搜索词不满意时,可以为用户提供“下一组”按钮,用于在用户点击后更换下一组补全搜索词进行推荐,此时可以再选取另外一部分补全搜索词进行排序。
具体实现方式二:
本具体实施方式与前述具体实施方式一的主要区别在于,不仅仅根据客户端设备的访问方的个体兴趣模型确定用于补全的搜索词,还一并根据热点信息共同确定用于补全的搜索词。即,根据客户端设备的访问方的个体兴趣模型和当前热点信息,在若干候选搜索词中确定用于补全的搜索词。可选的,至少根据所述客户端设备的访问方的个体兴趣模型和当前热点信息,对所述若干候选搜索词中部分或全部进行排序;根据所述排序的结果,确定用于补全的搜索词以及所述用于补全的搜索词的推荐顺序。
具体而言,客户端设备的访问方的个体兴趣模型包括若干兴趣点,每一所述兴趣点基于所述用户的个性化兴趣被赋予相应的兴趣度权重,同样,当前热点信息也根据热度被赋予一热点权重,于是,可以根据客户端设备的访问方的个体兴趣模型中与所述候选搜索词相关的兴趣点的兴趣度权重,确定所述候选搜索词的兴趣权重;将候选搜索词与所述当前热点信息进行匹配,确定所述候选搜索词的热点权重;最后,至少根据所述候选搜索词的兴趣权重和热点权重,对若干候选搜索词的部分或全部进行排序。
由于在本具体实现方式中,涉及根据客户端设备的访问方的个体兴趣模型确定候选搜索词的兴趣权重的各种方法,与前述具体实现方式一中的一样,相关技术实现可以参考前述具体实现方式一中的描述,因而此处不再赘述。重点描述热点相关的技术特征,以及如何将兴趣权重和热点权重结合共同来确定用于补全的搜索词。
当前热点信息,是指当前比较受广大群众关注或者欢迎的新闻或者信息,或指某时期引人注目的地方或问题,也可以是网络搜索量相对靠前的词,如“北京车展”、“伦敦奥运会”、“日本大地震”等。这些当前热点信息一方面可以通过抓取搜索引擎的数据以及自有服务器的搜索访问记录,获得热搜词,热搜词可以认为是热点信息的一种;另一方面还可以通过一些网站发布的热点词汇,获得当前的热点信息。同时,还可以根据上述数据不断更新本地的热点信息。
根据热点信息的热度,比如点击量、搜索量等,可以为每个热点信息赋一热点权重,与为个体兴趣模型中兴趣点赋兴趣权重类似,在为热点信息赋热点权重时也可以进行归一化处理。例如,前5名的热点信息的点击率分别为:{2000万,1800万,1620万,1100万,890万},则可以取100万作为因子,用上述的点击率数据除以这个因子后取整,作为归一化后的各个热点信息的相应热点权重为{20,18,16,11,8}。进而,可以将候选搜索词与当前热点信息进行匹配,匹配成功的候选搜索词还可以获得相应的热点权重。
根据客户端设备的访问方的个体兴趣模型可以获得候选搜索词的兴趣权重,根据当前热点信息可以获得候选搜索词的热点权重,进而就可以将兴趣权重和热点权重结合共同确定候选搜索词的总权重。每个补全候选词都可以根据前述方式获得一个总权重,进而根据每个补全候选词的总权重进行排序,最后根据排序结果确定排序在前的指定数目的是用于补全的搜索词。至于如何将兴趣权重和热点权重结合,则有多种实现方式,比如可以将两者直接累加,也可以分别乘以一定的权重系数再进行累加,具体采用何种方式以及权重系数取值多少,则可以根据实际需要灵活处理和调整,而且也可以在不同时期有不同的侧重。
例如,假设有候选搜索词A和B,A的兴趣权重为25,热点权重为4;B的兴趣权重为20,热点权重为10。如果简单的将A和B各自的兴趣权重与热点权重相加的和作为排序的依据,则A与B的排序是B在前A在后,因为B的兴趣权重与热点权重的和为30,要高于A的兴趣权重与热点权重的和29,这样候选搜索词B就会排在A的前面。而如果根据实际需要,为了体现个人兴趣对推荐结果的影响,则可以使用下面的方法来计算候选搜索词的排序得分,根据最后得到的排序得分来确定候选搜索词的排序:(兴趣权重×兴趣权重比例系数)+(热点权重×热点权重比例系数)。在公式中,为了更多的体现个人兴趣对推荐结果的影响,可以为兴趣权重设置一个较高的比例系数如0.9(甚至可以取值为1),并为热点权重设置一个较低的比例系数如0.1,此时,上例中的候选搜索词A和B的排序得分分别为
A:(25×0.9)+(4×0.1)=22.9
B:(20×0.9)+(10×0.1)=19
根据以上方法得到A的排序得分高于B,这样应用上述方法后对候选搜索词A和B进行排序后,A的排序就会高于B。可见,应用上述方法能够得到更加符合用户的个人兴趣的候选搜索词的排序结果。本领域技术人员可以理解,在实际应用中,为个体兴趣模型和热点设置比例系数可以根据实际需要进行调整,具体数值和比例并没有限制,以上仅仅是示例。而且,也不排除根据实际需要不为个体兴趣模型和热点设置比例系数,而是直接将两者的得分相加的情况。
需要说明的是,与前述具体实现方式一中介绍的几种替代方案类似,本具体实现方式二中,仍然可以基于同样的理由、采用雷同的技术提供几种替代方案。例如,可以只是对部分候选搜索词进行排序,也可以是对全部候选搜索词进行排序。例如,只是对能够与用户个体兴趣模型匹配成功或者匹配度较高(如匹配上的相关兴趣点的兴趣度权重较高)的候选搜索词,以及与当前热点信息匹配成功或者匹配度较高(如热点权重较高)的候选补全搜索进行排序,其余未匹配成功或者匹配度不高的词不参与排序,甚至不去计算相应的兴趣权重和热点权重,从而可以提高计算机的内部运算效率。具体实现时,可以只将个体兴趣模型中兴趣度权重较高的兴趣点参与匹配,将热点权重较高的热点信息参与匹配。再例如,只是通过客户端设备的访问方的个体兴趣模型和当前热点信息筛选出匹配度比较高的候选搜索词,直接作为用于补全的搜索词,而不对这些候选搜索词进行排序,直接展现推荐给用户,这种方案比较适合通过个体兴趣模型和当前热点信息筛选出的候选搜索词较少的情况。
S103:根据所述用于补全的搜索词,对所述客户端设备的访问方进行搜索的输入内容进行补全。
本领域技术人员可以理解,无论是步骤S101中涉及的词库(也是数据库的一种),还是步骤S102中涉及的客户端上设备访问方的个体兴趣模型数据库,都既可以保存在客户端设备中,也可以保存在服务器,客户端设备还可以从服务器进行数据库的更新。因此,步骤S101、S102以及S103既可以在服务器中实现,也可以在客户端设备中实现。具体而言:
如果步骤S101和S102是在服务器端完成的,那么步骤S103通过服务器实现,具体是向客户端设备反馈所述用于补全的搜索词。本领域技术人员可以理解,客户端设备接收到服务器反馈的用于补全的搜索词之后,就可以在用户界面上向客户端设备的访问方呈现所述用于补全的搜索词。
如果步骤S101和S102是在客户端设备完成的,那么就无需服务器向客户端设备反馈用于补全的搜索词,步骤S103通过客户端设备实现,即客户端设备直接将步骤S102确定的用于补全的搜索词呈现给客户端设备的访问方即可,即步骤S103具体是在所述客户端设备的用户界面上向所述客户端设备的访问方呈现所述用于补全的搜索词。
在确定了用于补全的搜索词后,可以在用户输入字符内容或产生输入行为信息时,向用户推荐用于补全的搜索词,推荐的方式可以是在用户输入时,在搜索输入区域展现一个下拉列表,向用户展现一定数量的用于补全的搜索词。例如,如果采用了对候选搜索词进行排序的方法,则可以将一定数量的排名比较靠前的补全搜索词推荐给用户。此外,还可以提供一个“下一组”按钮,用以在用于补全的搜索词比较多时,在用户点击“下一组”按钮后,向其展现下一组其他的用于补全的搜索词,以提供用户更多的选择。本领域技术人员可以理解,具体向用户推荐补全搜索词的产品形态多种多样,无法一一穷尽,本发明对此并没有限制。
请参阅图2,其示出了根据本发明一个实施例的用于建立客户端设备的访问方的个体兴趣模型的方法流程图。该方法实施例包括以下步骤:
S201:收集多台基于客户端设备的访问事件的历史行为数据;
多台基于客户端设备的访问事件的历史行为数据可以包括:多个客户端设备的访问方使用浏览器访问网页的历史数据、在导航网站上的点击链接访问网页的历史数据、使用搜索引擎进行搜索的输入历史、以及访问过的文档等。获取这些历史数据可以通过:有用户历史行为数据收集功能的浏览器、有用户历史行为数据收集功能的浏览器插件、有用户历史行为数据收集功能的其他应用软件等,在用户访问网页时,可以通过这些程序来对用户的历史行为数据进行收集。具体可以是在用户使用浏览器浏览网页时,浏览器向服务器发起请求后,这些请求可以通过导航站的服务器记录并保存为用户日志。
S202:根据所述多台基于客户端设备的访问事件的历史行为数据,标记和分类客户端设备的访问方的兴趣点特征词;
可以将若干客户端设备的访问方作为一个用户群体,根据这个群体中的所有客户端设备的访问方的历史行为数据,具体的可以是网页访问行为数据等,在这些数据中进行关键词提取。可以将群体用户的历史行为数据提取出的关键词作为兴趣点特征词,进而对群体用户的兴趣点特征词进行分类,如将姚明、刘翔、孙杨、郭晶晶等作为兴趣点“运动员”的特征词,将“刘嘉玲”、“梁朝伟”、“郑爽”等作为兴趣点“娱乐”的特征词,以此类推,可以将提取的特征词根据兴趣点进行聚类,即获得若干兴趣点,每个兴趣点中包括若干兴趣点特征词。可选的,在本步骤中,可以根据群体用户数据建立一个基准的兴趣模型。当然,也可以不建立这个兴趣模型,只是建立存储有上述数据信息的数据库。
S203:根据每一所述客户端设备的访问方的个体历史行为数据以及所述兴趣点特征词进行匹配,获得每个客户端设备的访问方的个体兴趣模型,所述个体兴趣模型中包括若干兴趣点,每一兴趣点基于所述客户端设备的访问方的个体历史行为数据被赋相应的兴趣度权重。
具体而言,采用与群体用户数据提取特征词类似的方法,也对客户端设备的访问方的个体历史行为数据提起特征词,然后与基于群体用户数据提取的兴趣点特征词进行匹配,从而获得每个客户端设备的访问方的个体兴趣模型。或者直接将用户的个体历史行为数据与兴趣点特征词进行匹配,也是可行的。个体兴趣模型的表现形式多种多种,比如,可以使用二维矩阵来建立和表示客户端设备的访问方的个体兴趣模型,二维矩阵表示的个体兴趣模型如下所示:
a 11 a 12 ... a 1 j ... a 1 n ... ... ... ... ... ... a i 1 a i 2 ... a i j ... a i n ... ... ... ... ... ... a m 1 a m 2 ... a m j ... a m n
例如,一个二维矩阵表示的个体兴趣模型,一级分类可以概括为体育,财经,音乐,宠物四个兴趣点,其中,一级兴趣点“体育”有包括了足球、篮球、网球和游泳四个二级兴趣点,其他一级兴趣点也各自包括若干二级兴趣点,于是构成了如下的一个包含有若干二级分类的个体兴趣模型:
其中的元素代表了用户可能感兴趣的兴趣点。对于具体用户来说,可以根据用户的个体历史行为数据来确定其感兴趣的兴趣点,并且可以根据个体历史行为数据,例如用户访问某类兴趣点的次数,在某类兴趣点的页面逗留的时间等数据,对客户端设备的访问方的个体兴趣模型中的兴趣点赋予一定的权重,如采用上述个体兴趣模型的某客户端设备的访问方的个体兴趣模型可以通过下面的二维矩阵反映出来:
501 23 456 239 200 309 0 2 300 21 800 211 600 0 0 0
通过以上描述可知,通过本发明实施例提供的建立用户个体兴趣模型的方法,可以为每个用户建立体现个性化兴趣的信息数据库,个体兴趣模型可以应用于很多具体的领域,也可以和其他相关的技术手段组合使用。比如,前述图1所示实施例中的步骤S102中也可以使用本实施例中的用户个体兴趣模型。这两个实施例中与用户个体兴趣模型相关的技术特征,可以相互借鉴。
与前述本发明实施例提供的一种用于补全搜索词的方法相对应,本发明实施例还提供了一种用于补全搜索词的装置第一实施例,如图3所示,该装置具体可以包括:
候选单元301,用于匹配客户端设备的访问方进行搜索的输入内容,获取与所述输入内容具有相关性的若干候选搜索词;
补全搜索词确定单元302,用于至少根据客户端设备的访问方的个体兴趣模型在所述若干候选搜索词中确定用于补全的搜索词,所述客户端设备的访问方的个体兴趣模型包括体现所述客户端设备的访问方的个性化兴趣的信息;
补全单元303,用于根据所述用于补全的搜索词,对所述客户端设备的访问方进行搜索的输入内容进行补全。
其中,在一种具体的实施方式下,为了进一步对推荐结果进行优化,补全搜索词确定单元302具体可以包括:
第一排序单元,用于至少根据所述客户端设备的访问方的个体兴趣模型对所述若干候选搜索词的部分或全部进行排序;
第一确定单元,用于根据所述排序的结果,确定用于补全的搜索词以及所述用于补全的搜索词的顺序。
其中,在具体实现时,客户端设备的访问方的个体兴趣模型具体可以包括若干兴趣点,每一所述兴趣点基于所述客户端设备的访问方的个体历史行为数据被赋予相应的兴趣度权重;
此时,第一排序单元具体可以包括:
兴趣权重子单元,用于根据所述客户端设备的访问方的个体兴趣模型中与所述候选搜索词相关的兴趣点的兴趣度权重,确定所述候选搜索词的兴趣权重;
第一搜索词排序子单元,用于至少根据所述候选搜索词的兴趣权重,对所述若干候选搜索词的部分或全部进行排序。
在实际应用中,为了提高补全结果的有效性,还可以结合当前的热点信息,来确定用于补全的搜索词,此时,所述补全搜索词确定单元302,具体可以用于至少根据所述客户端设备的访问方的个体兴趣模型和当前热点信息,在所述若干候选搜索词中确定用于补全的搜索词。
在一种具体的实施方式下,为了提高推荐结果的有效性,以及进一步对补全结果进行优化,补全搜索词确定单元302可以包括:
第二排序单元,用于至少根据所述客户端设备的访问方的个体兴趣模型和当前热点信息,对所述若干候选搜索词中部分或全部进行排序;
第二确定单元,用于根据所述排序的结果,确定用于补全的搜索词以及所述用于补全的搜索词的顺序。
其中,在具体实现时,为了更好地对候选搜索词进行排序,以更好地满足用户的个性化需求,所述客户端设备的访问方的个体兴趣模型可以包括若干兴趣点,每一所述兴趣点基于所述用户的个体历史行为数据被赋予相应的兴趣度权重;相应的,所述第二排序单元可以包括:
兴趣权重子单元,用于根据所述客户端设备的访问方的个体兴趣模型中与所述候选搜索词相关的兴趣点的兴趣度权重,确定所述候选搜索词的兴趣权重;
热点权重子单元,用于将所述候选搜索词与所述当前热点信息进行匹配,确定所述候选搜索词的热点权重;
第二搜索词排序子单元,用于至少根据所述候选搜索词的兴趣权重和热点权重,对所述若干候选搜索词的部分或全部进行排序。
或者,在另一种实施方式下,所述兴趣点至少包括一级兴趣点和二级兴趣点,其中每一所述一级兴趣点包括若干二级兴趣点,此时,所述兴趣权重子单元包括:
第一兴趣权重子单元用于根据所述客户端设备的访问方的个体兴趣模型中与所述候选搜索词相关的二级兴趣点的兴趣度权重,以及所述相关的二级兴趣点所属一级兴趣点的一级权重占比,确定所述候选搜索词的兴趣权重。
或者,
第二兴趣权重子单元,用于根据所述客户端设备的访问方的个体兴趣模型中与所述候选搜索词相关的二级兴趣点的兴趣度权重,以及所述相关的二级兴趣点在所属一级兴趣点中的二级权重占比,确定所述候选搜索词的兴趣权重。
可选的,所述兴趣权重子单元包括:
第三兴趣权重子单元,用于在如果所述客户端设备的访问方进行的搜索是非垂直搜索时,则根据所述客户端设备的访问方的个体兴趣模型中与所述候选搜索词相关的二级兴趣点的兴趣度权重,以及所述相关的二级兴趣点所属一级兴趣点的一级权重占比,确定所述候选搜索词的兴趣权重;
以及,
第四兴趣权重子单元,用于在如果所述客户端设备的访问方进行的搜索是垂直搜索时,确定所述垂直搜索对应的一级兴趣点,根据所述一级兴趣点下与所述候选搜索词相关的二级兴趣点的兴趣度权重,以及所述相关的二级兴趣点在所属一级兴趣点中的二级权重占比,确定所述候选搜索词的兴趣权重。
在一种可选的实施方式中,该装置还可以包括:
个体兴趣模型单元,用于至少根据所述客户端设备的访问方的历史行为数据分析获得所述客户端设备的访问方的个体兴趣模型。可选,所述个体兴趣模型单元具体包括:标记分类单元,用于根据多台基于客户端设备的访问事件的历史行为数据,标记和分类客户端设备的访问方的兴趣点特征词;
匹配单元,用于根据客户端设备的访问方的个体历史行为数据以及所述兴趣点特征词进行匹配,获得每个客户端设备的访问方的个体兴趣模型,所述个体兴趣模型中包括若干兴趣点,每一兴趣点基于所述客户端设备的访问方的个体历史行为数据被赋相应的兴趣度权重。
本发明实施例还提供了另一种用于补全搜索词的装置第二实施例,该装置可以包括:
接收单元,用于接收客户端设备发送的客户端设备的访问方进行搜索的输入内容;候选确定单元,用于根据接收到的所述输入内容获取与所述输入内容具有相关性的若干候选搜索词;搜索词确定单元,用于至少根据客户端设备的访问方的个体兴趣模型在所述若干候选搜索词中确定用于补全的搜索词,所述客户端设备的访问方的个体兴趣模型包括体现所述客户端设备的访问方的个性化兴趣的信息;反馈单元,用于向所述客户端设备反馈所述用于补全的搜索词。
可选的,所述搜索词确定单元包括:第一排序单元,用于至少根据所述客户端设备的访问方的个体兴趣模型对所述若干候选搜索词的部分或全部进行排序;第一确定单元,用于根据所述排序的结果,确定用于补全的搜索词以及所述用于补全的搜索词的顺序。
可选,所述客户端设备的访问方的个体兴趣模型包括若干兴趣点,每一所述兴趣点基于所述客户端设备的访问方的个性化兴趣被赋予相应的兴趣度权重;所述第一排序单元包括:兴趣权重子单元,用于根据所述客户端设备的访问方的个体兴趣模型中与所述候选搜索词相关的兴趣点的兴趣度权重,确定所述候选搜索词的兴趣权重;第一搜索词排序子单元,用于至少根据所述候选搜索词的兴趣权重,对所述若干候选搜索词的部分或全部进行排序。
可选的,所述搜索词确定单元,具体用于至少根据所述客户端设备的访问方的个体兴趣模型和当前热点信息,在所述若干候选搜索词中确定用于补全的搜索词。
可选的,所述搜索词确定单元包括:第二排序单元,用于至少根据所述客户端设备的访问方的个体兴趣模型和当前热点信息,对所述若干候选搜索词的部分或全部进行排序;第二确定单元,用于根据所述排序的结果,确定用于补全的搜索词以及所述用于补全的搜索词的顺序。
可选的,所述客户端设备的访问方的个体兴趣模型包括若干兴趣点,每一所述兴趣点基于所述客户端设备的访问方的个性化兴趣被赋予相应的兴趣度权重;所述第二排序单元包括:兴趣权重子单元,用于根据所述客户端设备的访问方的个体兴趣模型中与所述候选搜索词相关的兴趣点的兴趣度权重,确定所述候选搜索词的兴趣权重;热点权重子单元,用于将所述候选搜索词与所述当前热点信息进行匹配,确定所述候选搜索词的热点权重;第二搜索词排序子单元,用于至少根据所述候选搜索词的兴趣权重和热点权重,对所述若干候选搜索词的部分或全部进行排序。
可选的,所述兴趣点至少包括一级兴趣点和二级兴趣点,其中每一所述一级兴趣点包括若干二级兴趣点,所述兴趣权重子单元包括:第一兴趣权重子单元,用于根据所述客户端设备的访问方的个体兴趣模型中与所述候选搜索词相关的二级兴趣点的兴趣度权重,以及所述相关的二级兴趣点所属一级兴趣点的一级权重占比,确定所述候选搜索词的兴趣权重;或,第二兴趣权重子单元,用于根据所述客户端设备的访问方的个体兴趣模型中与所述候选搜索词相关的二级兴趣点的兴趣度权重,以及所述相关的二级兴趣点在所属一级兴趣点中的二级权重占比,确定所述候选搜索词的兴趣权重。
可选的,所述兴趣点至少包括一级兴趣点和二级兴趣点,其中每一所述一级兴趣点包括若干二级兴趣点,所述兴趣权重子单元包括:第三兴趣权重子单元,用于在如果所述客户端设备的访问方进行的搜索是非垂直搜索时,则根据所述客户端设备的访问方的个体兴趣模型中与所述候选搜索词相关的二级兴趣点的兴趣度权重,以及所述相关的二级兴趣点所属一级兴趣点的一级权重占比,确定所述候选搜索词的兴趣权重;以及,第四兴趣权重子单元,用于在如果所述客户端设备的访问方进行的搜索是垂直搜索时,确定所述垂直搜索对应的一级兴趣点,根据所述一级兴趣点下与所述候选搜索词相关的二级兴趣点的兴趣度权重,以及所述相关的二级兴趣点在所属一级兴趣点中的二级权重占比,确定所述候选搜索词的兴趣权重。
从上述内容可以看出,本实施例所示的用于补全搜索词装置第二实施例,可以理解为是前述用于补全搜索词装置第一实施例的一种具体应用,即本装置在服务器上予以实现。本实施例中的服务器通过反馈单元将用于补全的搜索词反馈给客户端设备,进而客户端设备就可以其用户界面将所述用于补全的搜索词呈现给客户端设备的访问方。因此,本实施例中相关单元的具体实现细节可以参看前述的用于补全搜索词的装置第一实施例中的记载,以及前述用于补全搜索词的方法实施例,在此不再赘述。
此外,本发明实施例还提供了另一种用于补全搜索词的装置第三实施例,该装置第三实施例可以包括:
输入获取单元,用于获取客户端设备的访问方在客户端设备上进行搜索的输入内容;候选确定单元,用于根据所述输入内容获取与所述输入内容具有相关性的若干候选搜索词;搜索词确定单元,用于至少根据用户的个体兴趣模型在所述若干候选搜索词中确定用于补全的搜索词,所述用户的个体兴趣模型包括体现所述用户个性化兴趣的信息;信息呈现单元,用于在所述客户端设备的用户界面上向所述客户端设备的访问方呈现所述用于补全的搜索词。
本实施例所示的用于补全搜索词装置第三实施例,也可以理解为是前述用于补全搜索词装置第一实施例的一种具体应用,即本装置中的各单元在客户端设备上予以实现。当然客户端设备也可以通过服务器获得相关的数据库信息,比如从服务器下载个体兴趣模型等等,但是具体处理时可以在客户端设备上实现。本实施例装置中相关单元的具体实现细节可以参看前述的用于补全搜索词的装置第一实施例、第二实施例中的记载,以及前述用于补全搜索词的方法实施例,在此不再赘述。
总之,前述三个装置实施例中的各单元之间可以相互借鉴或者组合。
与本发明实施例提供的一种用于建立客户端设备的访问方的个体兴趣模型的方法相对应,本发明实施例还提供了一种用于建立客户端设备的访问方的个体兴趣模型的装置,参见图4,该装置可以包括:
数据收集单元401,用于收集多台基于客户端设备的访问事件的历史行为数据;
标记分类单元402,用于根据所述多台基于客户端设备的访问事件的历史行为数据,标记和分类客户端设备的访问方的兴趣点特征词;
匹配单元403,用于根据每一所述客户端设备的访问方的个体历史行为数据以及所述兴趣点特征词进行匹配,获得每个客户端设备的访问方的个体兴趣模型,所述个体兴趣模型中包括若干兴趣点,每一兴趣点基于所述客户端设备的访问方的个体历史行为数据被赋相应的兴趣度权重。
通过以上本发明提供的各实施例可以看出,通过本发明实施例可以通过匹配用户输入内容,获取与用户输入内容具有相关性的若干补全搜索词,为用户确定用于补全的搜索词做好数据准备;至少根据客户端设备的访问方的个体兴趣模型确定用于补全的搜索词,可以为不同的用户确定更符合其兴趣要求的补全搜索词;并向所述用户推荐确定用于补全的搜索词,由此解决了只是机械地结合用户的输入进行上下文相关性的联想,或生硬的与当前热点结合,忽视用户的真实需求给用户推荐热点词条,而无法满足用户的真正需求的问题。取得了能够向不同用户推荐更符合其个人兴趣要求的补全搜索词的有益效果。
进一步的,可以根据客户端设备的访问方的个体兴趣模型对候选搜索词的部分或全部进行排序,再根据排序的结果,确定用于补全的搜索词以及所述用于补全的搜索词的推荐顺序,为进一步对推荐结果进行优化,并用户推荐优化的补全搜索词打下了基础。更进一步的,还可以结合当前的热点信息,来确定用于补全的搜索词,提高了推荐结果的有效性。以及其他实施例中的其他单元,对提高搜索结果的有效性,更好的为不同用户的推荐个性化的补全搜索词都起到一定的积极效果。
本申请可以应用于计算机系统/服务器,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的用于推荐补全搜索词及建立个体兴趣模型的设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (20)

1.一种用于补全搜索词的方法,包括:
匹配客户端设备的访问方进行搜索的输入内容,获取与所述输入内容具有相关性的若干候选搜索词;
至少根据所述客户端设备的访问方的个体兴趣模型在所述若干候选搜索词中确定用于补全的搜索词,所述客户端设备的访问方的个体兴趣模型包括体现所述客户端设备的访问方的个性化兴趣的信息;
根据所述用于补全的搜索词,对所述客户端设备的访问方进行搜索的输入内容进行补全。
2.根据权利要求1所述的方法,所述根据用于补全的搜索词,对所述客户端设备的访问方进行搜索的输入内容进行补全包括:
向所述客户端设备反馈所述用于补全的搜索词;
和/或,
在所述客户端设备的用户界面上向所述客户端设备的访问方呈现所述用于补全的搜索词。
3.根据权利要求1所述的方法,所述至少根据所述客户端设备的访问方的个体兴趣模型在所述若干候选搜索词中确定用于补全的搜索词候选搜索词用于补全的搜索词包括:
至少根据所述客户端设备的访问方的个体兴趣模型对所述若干候选搜索词的部分或全部进行排序;
根据所述排序的结果,确定用于补全的搜索词以及所述用于补全的搜索词的顺序。
4.根据权利要求3所述的方法,所述客户端设备的访问方的个体兴趣模型包括若干兴趣点,每一所述兴趣点基于所述客户端设备的访问方的个性化兴趣被赋予相应的兴趣度权重;所述至少根据客户端设备的访问方的个体兴趣模型对所述若干候选搜索词的部分或全部进行排序包括:
根据所述客户端设备的访问方的个体兴趣模型中与所述候选搜索词相关的兴趣点的兴趣度权重,确定所述候选搜索词的兴趣权重;
至少根据所述候选搜索词的兴趣权重,对所述若干候选搜索词的部分或全部进行排序。
5.根据权利要求1所述的方法,所述至少根据客户端设备的访问方的个体兴趣模型在所述若干候选搜索词中确定用于补全的搜索词包括:
至少根据所述客户端设备的访问方的个体兴趣模型和当前热点信息,在所述若干候选搜索词中确定用于补全的搜索词。
6.根据权利要求5所述的方法,所述至少根据所述客户端设备的访问方的个体兴趣模型在所述若干候选搜索词中确定用于补全的搜索词候选搜索词用于补全的搜索词包括:
至少根据所述客户端设备的访问方的个体兴趣模型和当前热点信息,对所述若干候选搜索词的部分或全部进行排序;
根据所述排序的结果,确定用于补全的搜索词以及所述用于补全的搜索词的顺序。
7.根据权利要求6所述的方法,所述客户端设备的访问方的个体兴趣模型包括若干兴趣点,每一所述兴趣点基于所述客户端设备的访问方的个性化兴趣被赋予相应的兴趣度权重;所述至少根据客户端设备的访问方的个体兴趣模型和当前热点信息,对所述若干候选搜索词的部分或全部进行排序包括:
根据所述客户端设备的访问方的个体兴趣模型中与所述候选搜索词相关的兴趣点的兴趣度权重,确定所述候选搜索词的兴趣权重;
将所述候选搜索词与所述当前热点信息进行匹配,确定所述候选搜索词的热点权重;
至少根据所述候选搜索词的兴趣权重和热点权重,对所述若干候选搜索词的部分或全部进行排序。
8.一种用于建立客户端设备的访问方的个体兴趣模型的方法,包括:
收集多台基于客户端设备的访问事件的历史行为数据;
根据所述多台基于客户端设备的访问事件的历史行为数据,标记和分类客户端设备的访问方的兴趣点特征词;
根据每一所述客户端设备的访问方的个体历史行为数据以及所述兴趣点特征词进行匹配,获得每个客户端设备的访问方的个体兴趣模型,所述个体兴趣模型中包括若干兴趣点,每一兴趣点基于所述客户端设备的访问方的个体历史行为数据被赋相应的兴趣度权重。
9.一种用于补全搜索词的装置,包括:
接收单元,用于接收客户端设备发送的客户端设备的访问方进行搜索的输入内容;
候选确定单元,用于根据接收到的所述输入内容获取与所述输入内容具有相关性的若干候选搜索词;
搜索词确定单元,用于至少根据客户端设备的访问方的个体兴趣模型在所述若干候选搜索词中确定用于补全的搜索词,所述客户端设备的访问方的个体兴趣模型包括体现所述客户端设备的访问方的个性化兴趣的信息;
反馈单元,用于向所述客户端设备反馈所述用于补全的搜索词。
10.根据权利要求9所述的装置,所述搜索词确定单元包括:
第一排序单元,用于至少根据所述客户端设备的访问方的个体兴趣模型对所述若干候选搜索词的部分或全部进行排序;
第一确定单元,用于根据所述排序的结果,确定用于补全的搜索词以及所述用于补全的搜索词的顺序。
11.根据权利要求10所述的装置,所述客户端设备的访问方的个体兴趣模型包括若干兴趣点,每一所述兴趣点基于所述客户端设备的访问方的个性化兴趣被赋予相应的兴趣度权重;所述第一排序单元包括:
兴趣权重子单元,用于根据所述客户端设备的访问方的个体兴趣模型中与所述候选搜索词相关的兴趣点的兴趣度权重,确定所述候选搜索词的兴趣权重;
第一搜索词排序子单元,用于至少根据所述候选搜索词的兴趣权重,对所述若干候选搜索词的部分或全部进行排序。
12.根据权利要求9所述的装置:
所述搜索词确定单元,具体用于至少根据所述客户端设备的访问方的个体兴趣模型和当前热点信息,在所述若干候选搜索词中确定用于补全的搜索词。
13.根据权利要求12所述的装置,所述搜索词确定单元包括:
第二排序单元,用于至少根据所述客户端设备的访问方的个体兴趣模型和当前热点信息,对所述若干候选搜索词的部分或全部进行排序;
第二确定单元,用于根据所述排序的结果,确定用于补全的搜索词以及所述用于补全的搜索词的顺序。
14.根据权利要求13所述的装置,所述客户端设备的访问方的个体兴趣模型包括若干兴趣点,每一所述兴趣点基于所述客户端设备的访问方的个性化兴趣被赋予相应的兴趣度权重;所述第二排序单元包括:
兴趣权重子单元,用于根据所述客户端设备的访问方的个体兴趣模型中与所述候选搜索词相关的兴趣点的兴趣度权重,确定所述候选搜索词的兴趣权重;
热点权重子单元,用于将所述候选搜索词与所述当前热点信息进行匹配,确定所述候选搜索词的热点权重;
第二搜索词排序子单元,用于至少根据所述候选搜索词的兴趣权重和热点权重,对所述若干候选搜索词的部分或全部进行排序。
15.根据权利要求11或14中任一项所述的装置,所述兴趣点至少包括一级兴趣点和二级兴趣点,其中每一所述一级兴趣点包括若干二级兴趣点,所述兴趣权重子单元包括:
第一兴趣权重子单元,用于根据所述客户端设备的访问方的个体兴趣模型中与所述候选搜索词相关的二级兴趣点的兴趣度权重,以及所述相关的二级兴趣点所属一级兴趣点的一级权重占比,确定所述候选搜索词的兴趣权重;
或,
第二兴趣权重子单元,用于根据所述客户端设备的访问方的个体兴趣模型中与所述候选搜索词相关的二级兴趣点的兴趣度权重,以及所述相关的二级兴趣点在所属一级兴趣点中的二级权重占比,确定所述候选搜索词的兴趣权重。
16.根据权利要求11或14中任一项所述的装置,所述兴趣点至少包括一级兴趣点和二级兴趣点,其中每一所述一级兴趣点包括若干二级兴趣点,所述兴趣权重子单元包括:
第三兴趣权重子单元,用于在如果所述客户端设备的访问方进行的搜索是非垂直搜索时,则根据所述客户端设备的访问方的个体兴趣模型中与所述候选搜索词相关的二级兴趣点的兴趣度权重,以及所述相关的二级兴趣点所属一级兴趣点的一级权重占比,确定所述候选搜索词的兴趣权重;
以及,
第四兴趣权重子单元,用于在如果所述客户端设备的访问方进行的搜索是垂直搜索时,确定所述垂直搜索对应的一级兴趣点,根据所述一级兴趣点下与所述候选搜索词相关的二级兴趣点的兴趣度权重,以及所述相关的二级兴趣点在所属一级兴趣点中的二级权重占比,确定所述候选搜索词的兴趣权重。
17.一种用于补全搜索词的装置,包括:
输入获取单元,用于获取客户端设备的访问方在客户端设备上进行搜索的输入内容;
候选确定单元,用于根据所述输入内容获取与所述输入内容具有相关性的若干候选搜索词;
搜索词确定单元,用于至少根据客户端设备的访问方的个体兴趣模型在所述若干候选搜索词中确定用于补全的搜索词,所述客户端设备的访问方的个体兴趣模型包括体现所述用户个性化兴趣的信息;
信息呈现单元,用于在所述客户端设备的用户界面上向所述客户端设备的访问方呈现所述用于补全的搜索词。
18.根据权利要求17所述的装置:
所述搜索词确定单元,具体用于至少根据所述客户端设备的访问方的个体兴趣模型和当前热点信息,在所述若干候选搜索词中确定用于补全的搜索词。
19.一种用于补全搜索词的装置,包括:
候选单元,用于匹配客户端设备的访问方进行搜索的输入内容,获取与所述输入内容具有相关性的若干候选搜索词;
补全搜索词确定单元,用于至少根据客户端设备的访问方的个体兴趣模型在所述若干候选搜索词中确定用于补全的搜索词,所述客户端设备的访问方的个体兴趣模型包括体现所述客户端设备的访问方的个性化兴趣的信息;
补全单元,用于根据所述用于补全的搜索词,对所述客户端设备的访问方进行搜索的输入内容进行补全。
20.一种用于建立客户端设备的访问方的个体兴趣模型的装置,包括:
数据收集单元,用于收集多台基于客户端设备的访问事件的历史行为数据;
标记分类单元,用于根据所述多台基于客户端设备的访问事件的历史行为数据,标记和分类客户端设备的访问方的兴趣点特征词;
匹配单元,用于根据每一所述客户端设备的访问方的个体历史行为数据以及所述兴趣点特征词进行匹配,获得每个客户端设备的访问方的个体兴趣模型,所述个体兴趣模型中包括若干兴趣点,每一兴趣点基于所述客户端设备的访问方的个体历史行为数据被赋相应的兴趣度权重。
CN201610224759.7A 2012-09-20 2012-09-20 用于补全搜索词及建立个体兴趣模型的方法及装置 Expired - Fee Related CN105912669B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610224759.7A CN105912669B (zh) 2012-09-20 2012-09-20 用于补全搜索词及建立个体兴趣模型的方法及装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201610224759.7A CN105912669B (zh) 2012-09-20 2012-09-20 用于补全搜索词及建立个体兴趣模型的方法及装置
CN201210353539.6A CN102902753B (zh) 2012-09-20 2012-09-20 用于补全搜索词及建立个体兴趣模型的方法及装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201210353539.6A Division CN102902753B (zh) 2012-09-20 2012-09-20 用于补全搜索词及建立个体兴趣模型的方法及装置

Publications (2)

Publication Number Publication Date
CN105912669A true CN105912669A (zh) 2016-08-31
CN105912669B CN105912669B (zh) 2020-04-07

Family

ID=47574985

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201210353539.6A Active CN102902753B (zh) 2012-09-20 2012-09-20 用于补全搜索词及建立个体兴趣模型的方法及装置
CN201610224759.7A Expired - Fee Related CN105912669B (zh) 2012-09-20 2012-09-20 用于补全搜索词及建立个体兴趣模型的方法及装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201210353539.6A Active CN102902753B (zh) 2012-09-20 2012-09-20 用于补全搜索词及建立个体兴趣模型的方法及装置

Country Status (1)

Country Link
CN (2) CN102902753B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111989664A (zh) * 2018-04-18 2020-11-24 北京嘀嘀无限科技发展有限公司 用于改善在线平台用户体验的系统和方法
CN113032819A (zh) * 2019-12-09 2021-06-25 阿里巴巴集团控股有限公司 搜索提示词的确定方法、系统以及信息处理方法
CN113704387A (zh) * 2020-05-21 2021-11-26 北京沃东天骏信息技术有限公司 一种提供搜索联想词的方法和装置

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063383B (zh) * 2013-03-19 2019-09-27 北京三星通信技术研究有限公司 信息推荐方法及装置
CN103246717B (zh) * 2013-04-26 2019-11-05 百度在线网络技术(北京)有限公司 基于包含兴趣点信息的空间结构的推送方法及装置
CN103258023B (zh) * 2013-05-07 2016-08-31 百度在线网络技术(北京)有限公司 搜索候选词的推荐方法及搜索引擎
CN104216601B (zh) * 2013-05-31 2018-02-02 腾讯科技(深圳)有限公司 浏览器地址栏输入的提示方法和装置、浏览器
CN103383701A (zh) * 2013-07-12 2013-11-06 北京小米科技有限责任公司 信息检索方法、装置及终端
US20150169537A1 (en) * 2013-12-13 2015-06-18 Nuance Communications, Inc. Using statistical language models to improve text input
CN103823868B (zh) * 2014-02-26 2017-05-03 中国科学院计算技术研究所 一种面向在线百科的事件识别方法和事件关系抽取方法
CN104918070A (zh) * 2015-06-02 2015-09-16 四川九天揽月文化传媒有限公司 一种基于智能电视的视频节目推送系统及推送方法
JP6896362B2 (ja) * 2015-07-30 2021-06-30 ヤフー株式会社 推定装置、推定方法および推定プログラム
CN106407239A (zh) * 2015-08-03 2017-02-15 阿里巴巴集团控股有限公司 用于推荐及辅助推荐信息的方法及装置
CN106815219A (zh) * 2015-11-27 2017-06-09 阿里巴巴集团控股有限公司 数据库编辑器的编辑方法和装置
CN105589936A (zh) * 2015-12-11 2016-05-18 航天恒星科技有限公司 一种数据查询方法及系统
CN105808688B (zh) * 2016-03-02 2021-02-05 百度在线网络技术(北京)有限公司 基于人工智能的补全检索方法及装置
CN106294661B (zh) * 2016-08-04 2019-09-20 百度在线网络技术(北京)有限公司 一种扩展搜索方法与装置
CN107247743A (zh) * 2017-05-17 2017-10-13 安徽富驰信息技术有限公司 一种司法类案检索方法及系统
CN107179838B (zh) * 2017-05-25 2019-07-26 维沃移动通信有限公司 一种候选词的显示方法及移动终端
CN108241740A (zh) * 2017-12-29 2018-07-03 北京奇虎科技有限公司 一种时效性的搜索输入联想词的生成方法及装置
CN108197308B (zh) * 2018-01-31 2020-06-05 湖北工业大学 一种基于搜索引擎的关键词推荐方法及系统
CN108920507A (zh) * 2018-05-29 2018-11-30 宇龙计算机通信科技(深圳)有限公司 自动搜索方法、装置、终端及计算机可读存储介质
CN109710088B (zh) * 2018-12-29 2022-12-27 北京金山安全软件有限公司 一种信息搜索方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070150464A1 (en) * 2005-12-27 2007-06-28 Scott Brave Method and apparatus for predicting destinations in a navigation context based upon observed usage patterns
CN101520785A (zh) * 2008-02-29 2009-09-02 富士通株式会社 信息检索方法和系统
CN101946249A (zh) * 2008-02-13 2011-01-12 微软公司 使用相关用户的数据来增强web搜索
CN102368262A (zh) * 2011-10-14 2012-03-07 北京百度网讯科技有限公司 一种提供与查询序列相对应的搜索建议的方法与设备
CN102385636A (zh) * 2011-12-22 2012-03-21 陈伟 一种智能搜索方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567364A (zh) * 2010-12-24 2012-07-11 鸿富锦精密工业(深圳)有限公司 文件搜索系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070150464A1 (en) * 2005-12-27 2007-06-28 Scott Brave Method and apparatus for predicting destinations in a navigation context based upon observed usage patterns
CN101946249A (zh) * 2008-02-13 2011-01-12 微软公司 使用相关用户的数据来增强web搜索
CN101520785A (zh) * 2008-02-29 2009-09-02 富士通株式会社 信息检索方法和系统
CN102368262A (zh) * 2011-10-14 2012-03-07 北京百度网讯科技有限公司 一种提供与查询序列相对应的搜索建议的方法与设备
CN102385636A (zh) * 2011-12-22 2012-03-21 陈伟 一种智能搜索方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111989664A (zh) * 2018-04-18 2020-11-24 北京嘀嘀无限科技发展有限公司 用于改善在线平台用户体验的系统和方法
CN113032819A (zh) * 2019-12-09 2021-06-25 阿里巴巴集团控股有限公司 搜索提示词的确定方法、系统以及信息处理方法
CN113704387A (zh) * 2020-05-21 2021-11-26 北京沃东天骏信息技术有限公司 一种提供搜索联想词的方法和装置

Also Published As

Publication number Publication date
CN102902753A (zh) 2013-01-30
CN102902753B (zh) 2016-05-11
CN105912669B (zh) 2020-04-07

Similar Documents

Publication Publication Date Title
CN102902753B (zh) 用于补全搜索词及建立个体兴趣模型的方法及装置
CN103886090B (zh) 基于用户喜好的内容推荐方法及装置
CN102687138B (zh) 搜索建议聚类和呈现
US8615514B1 (en) Evaluating website properties by partitioning user feedback
US9436707B2 (en) Content-based image ranking
CN112632359B (zh) 信息推荐方法、装置、电子设备和存储介质
US8095582B2 (en) Dynamic search engine results employing user behavior
CN103699700B (zh) 一种搜索引导的生成方法、系统及相关服务器
US8037064B2 (en) Method and system of selecting landing page for keyword advertisement
US9940367B1 (en) Scoring candidate answer passages
CN108090111B (zh) 用于搜索结果的动画摘录
US20090287676A1 (en) Search results with word or phrase index
US8874586B1 (en) Authority management for electronic searches
US20090287645A1 (en) Search results with most clicked next objects
US20100125568A1 (en) Dynamic feature weighting
JP2009521750A (ja) コンテキストを決定するためのコンテンツの分析およびコンテキストに基づく関係のあるコンテンツの供給
CN107924404A (zh) 消除搜索查询的歧义
US10019513B1 (en) Weighted answer terms for scoring answer passages
CN109952571B (zh) 基于上下文的图像搜索结果
CN112488781A (zh) 搜索推荐方法、装置、电子设备及可读存储介质
Arguello et al. The effect of aggregated search coherence on search behavior
CN102982079B (zh) 个性化网址导航方法和装置
Dong et al. Improving sequential recommendation with attribute-augmented graph neural networks
CN102930009B (zh) 个性化网址导航系统
CN107153697A (zh) 一种商品交易网站中的商品搜索方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200226

Address after: Room 2309, building 20, building 12, No. 93 Jianguo Road, Beijing, Chaoyang District, China

Applicant after: Beijing Qifutong Technology Co.,Ltd.

Address before: 100088 Beijing city Xicheng District xinjiekouwai Street 28, block D room 112 (Desheng Park)

Applicant before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Applicant before: Qizhi software (Beijing) Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200407

CF01 Termination of patent right due to non-payment of annual fee