CN107169116B - 默认搜索词的生成方法及装置 - Google Patents

默认搜索词的生成方法及装置 Download PDF

Info

Publication number
CN107169116B
CN107169116B CN201710373197.7A CN201710373197A CN107169116B CN 107169116 B CN107169116 B CN 107169116B CN 201710373197 A CN201710373197 A CN 201710373197A CN 107169116 B CN107169116 B CN 107169116B
Authority
CN
China
Prior art keywords
search
default
word
preference
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710373197.7A
Other languages
English (en)
Other versions
CN107169116A (zh
Inventor
叶澄灿
陈英傑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201710373197.7A priority Critical patent/CN107169116B/zh
Publication of CN107169116A publication Critical patent/CN107169116A/zh
Application granted granted Critical
Publication of CN107169116B publication Critical patent/CN107169116B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种默认搜索词的生成方法及装置,所述默认搜索词的生成方法首先根据全局搜索历史信息,确定搜索词元数据,然后根据目标用户的视频历史信息,确定所述目标用户的偏好数据,再根据所述搜索词元数据和所述偏好数据生成多个默认搜索词。该默认搜索词的生成方法及装置根据全局搜索历史和用户的偏好数据自动生成默认搜索词,时效性高;针对具有不同视频偏好的用户能够生成对应的默认搜索词,从而生成的默认搜索词能够贴合不同用户的需求,有助于简化用户视频搜索流程,提升用户的使用体验。

Description

默认搜索词的生成方法及装置
技术领域
本发明涉及视频搜索技术领域,更具体的说,是涉及一种默认搜索词的生成方法及装置。
背景技术
视频应用能够为用户提供各种题材的影视及社会视频,已成为用户获取信息和休闲娱乐的重要方式。用户在获取想要观看的视频之前,需要在视频搜索框中输入自己想要观看视频的关键字,以使得搜索引擎根据该关键字返回相应的视频。然而有些时候,用户会觉得这个过程比较麻烦,且有的用户搜索视频时本身没有很明确的目的性,这种情况下,在搜索框中展示用户可能感兴趣的搜索词,即默认搜索词,有助于简化用户的搜索流程。
在视频搜索技术领域,存在一种通过人工设定方法来配置默认搜索词的方案,然而这种方案由于是人工设定,因此时效性比较差,而且,人工设定的默认搜索词往往比较局限,多样性差,不能满足用户不同的搜索偏好。
发明内容
有鉴于此,本发明提供了一种默认搜索词的生成方法及装置,以克服现有技术中由于人工设定默认搜索词而导致的,默认搜索词时效性差且不能满足用户不同搜索偏好的问题。
为实现上述目的,本发明提供如下技术方案:
一种默认搜索词的生成方法,包括:
根据全局搜索历史信息,确定搜索词元数据;
根据目标用户的视频历史信息,确定所述目标用户的偏好数据;
根据所述搜索词元数据和所述偏好数据生成多个默认搜索词。
可选的,所述搜索词元数据包括频道热门搜索词;所述偏好数据包括频道偏好数据;则所述根据所述搜索词元数据和所述偏好数据生成多个默认搜索词,包括:
根据所述频道偏好数据,确定所述目标用户的偏好频道;
从所述频道热门搜索词中选择出与所述偏好频道对应的搜索词并确定为默认搜索词。
可选的,所述频道热门搜索词为带有热门分数的频道热门搜索词;所述热门分数依据第一预设规则计算得到;所述频道偏好数据为带有频道分数的频道偏好数据,所述频道分数依据第二预设规则计算得到;则在所述从所述频道热门搜索词中选择出与所述偏好频道对应的搜索词并确定为默认搜索词之后,还包括:
根据所述默认搜索词对应的热门分数和频道分数,依据第三预设规则计算出所述默认搜索词的综合分数。
可选的,所述搜索词元数据包括频繁搜索词和相关搜索词;所述偏好数据包括标签偏好数据和搜索历史数据;则所述根据所述搜索词元数据和所述偏好数据生成多个默认搜索词,包括:
根据所述标签偏好数据和/或所述搜索历史数据,确定所述目标用户的偏好标签和/或历史搜索词;
判断每一个偏好标签和/或历史搜索词是否属于频繁搜索词;
如果是,将所述偏好标签和/或所述历史搜索词确定为默认搜索词;
如果否,在所述偏好标签和/或所述历史搜索词具有相关搜索词的情况下,将所述偏好标签和/或所述历史搜索词的相关搜索词确定为默认搜索词。
可选的,所述标签偏好数据为带有标签分数的标签偏好数据,所述搜索历史数据为带有搜索分数的搜索历史数据;所述标签分数依据所述第二预设规则计算得到;所述搜索分数依据第四预设规则计算得到;则在所述将偏好标签和/或历史搜索词确定为默认搜索词之后,或在所述将所述偏好标签和/或所述历史搜索词的相关搜索词确定为默认搜索词之后,还包括:
将所述偏好标签和/或所述历史搜索词对应的标签分数和/或搜索分数对应确定为所述默认搜索词的综合分数。
可选的,在所述根据所述默认搜索词对应的热门分数和频道分数,依据第三预设规则计算出所述默认搜索词的综合分数之后,或在所述将所述偏好标签和/或所述历史搜索词对应的标签分数和/或搜索分数对应确定为所述默认搜索词的综合分数之后,还包括:
将综合分数最高的N个默认搜索词生成默认搜索词列表,并提供给搜索引擎,所述N为正整数。
一种默认搜索词的生成装置,包括:
元数据确定模块,用于根据全局搜索历史信息,确定搜索词元数据;
偏好数据确定模块,用于根据目标用户的视频历史信息,确定所述目标用户的偏好数据;
默认词确定模块,用于根据所述搜索词元数据和所述偏好数据生成多个默认搜索词。
可选的,述搜索词元数据包括频道热门搜索词;所述偏好数据包括频道偏好数据;则所述默认词确定模块包括:
第一偏好确认模块,用于根据所述频道偏好数据,确定所述目标用户的偏好频道;
第一默认词子模块,用于从所述频道热门搜索词中选择出与所述偏好频道对应的搜索词并确定为默认搜索词。
可选的,所述频道热门搜索词为带有热门分数的频道热门搜索词;所述热门分数依据第一预设规则计算得到;所述频道偏好数据包括带有频道分数的频道偏好数据,所述频道分数依据第二预设规则计算得到;则所述默认词确定模块还包括:
综合分数确定模块,用于根据所述默认搜索词对应的热门分数和频道分数,依据第三预设规则计算出所述默认搜索词的综合分数。
可选的,所述搜索词元数据包括频繁搜索词和相关搜索词;所述偏好数据包括标签偏好数据和搜索历史数据;则所述默认词确定模块包括:
第二偏好确认模块,用于根据所述标签偏好数据和/或所述搜索历史数据,确定所述目标用户的偏好标签和/或历史搜索词;
判断模块,用于判断每一个偏好标签和/或历史搜索词是否属于频繁搜索词;
第二默认词子模块,用于在所述判断模块的判断结果为是时,将所述偏好标签和/或所述历史搜索词确定为默认搜索词;在所述判断模块的判断结果为否时,在所述偏好标签和/或所述历史搜索词具有相关搜索词的情况下,将所述偏好标签和/或所述历史搜索词的相关搜索词确定为默认搜索词。
可选的,所述标签偏好数据为带有标签分数的标签偏好数据,所述搜索历史数据为带有搜索分数的搜索历史数据;所述标签分数依据所述第二预设规则计算得到;所述搜索分数依据第四预设规则计算得到;则所述默认词确定模块还包括:
综合分数确定模块,用于在所述判断模块的判断结果为是时,将所述偏好标签和/或所述历史搜索词对应的标签分数和/或搜索分数对应确定为所述默认搜索词的综合分数;在所述判断模块的判断结果为否时,在偏好标签和/或历史搜索词具有相关搜索词的情况下,将所述的偏好标签和/或所述历史搜索词对应的标签分数和/或搜索分数对应确定为所述默认搜索词的综合分数。
可选的,还包括:
列表生成模块,用于将综合分数最高的N个默认搜索词生成默认搜索词列表,并提供给搜索引擎,所述N为正整数。
经由上述的技术方案可知,与现有技术相比,本发明实施例公开了一种默认搜索词的生成方法及装置,所述默认搜索词的生成方法首先根据全局搜索历史信息,确定搜索词元数据,然后根据目标用户的视频历史信息,确定所述目标用户的偏好数据,再根据所述搜索词元数据和所述偏好数据生成多个默认搜索词。该默认搜索词的生成方法及装置根据全局搜索历史和用户的偏好数据自动生成默认搜索词,时效性高;针对具有不同视频偏好的用户能够生成对应的默认搜索词,从而生成的默认搜索词能够贴合不同用户的需求,有助于简化用户视频搜索流程,提升用户的使用体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例公开的一种默认搜索词的生成方法流程图;
图2为本发明实施例公开的一种确定默认搜索词的流程图;
图3为本发明实施例公开的另一种确定默认搜索词的流程图;
图4为本发明实施例公开的另一种默认搜索词的生成方法的流程图;
图5为本发明实施例公开的一种默认搜索词的生成装置的结构示意图;
图6为本发明实施例公开的一种默认词确定模块的结构示意图;
图7为本发明实施例公开的另一种默认词确定模块的结构示意图;
图8为本发明实施例公开的另一种默认搜索词的生成装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅附图1,为本发明公开的一种默认搜索词的生成方法的流程图,如图1所示,所述方法可以包括:
步骤101:根据全局搜索历史信息,确定搜索词元数据;
根据全网用户搜索历史信息,可以确定搜索词元数据。本实施例中,所述元数据可以包括频道热门搜索词、频繁搜索词和/或相关搜索词。
其中,所述频道热门搜索词的获取,可以是基于全局的用户搜索历史,估计过去一天或几天各频道下的热门搜索词,以全局搜索次数为准,每个频道下可至多保留搜索次数最多的10-20个热门搜索词。当然,保留的热门搜索词的个数并不固定,可以根据实际应用,由管理者根据实际情况设置。
所述频繁搜索词的确定,可以是根据搜索词被用户搜索的频繁程度来确定。搜索词可以被分类为频繁搜索词和非频繁搜索词。如电视剧标题、综艺节目标题、热点事件等搜索词,通过追剧、八卦等行为,用户在一段时间内频繁搜索的概率大,即是频繁搜索词;而电影标题、长尾搜索词等搜索词,用户在搜索并点击观看后,短期内再次搜索的概率小,即为非频繁搜索词。
具体的,界定搜索词是否为频繁搜索词,可以通过预设的算法判断结果是否满足条件来确定。如基于全局的用户搜索历史,统计过去15天中每个词的点击次数和点击人数,当一个搜索词的点击次数大于3000,且所有来自相同用户的点击次数除以总点击次数大于0.36时,即确定其为频繁搜索词,否则为非频繁搜索词。其中,相同用户指点击该搜索词至少两次的用户。举例来说,“开门大吉”总共被全网用户点击了10000次,其中有2000个用户每个人点击了2次,其余用户每个人点击了一次。那么来自相同用户的点击次数总数为2000*2=4000次,来自不同用户的点击次数为10000-4000=6000次,则“所有来自相同用户的点击次数除以总点击次数”为4000/10000=0.4。0.4大于0.36,则“开门大吉”这个词即为频繁搜索词。
所述相关搜索词,可以采用基于物品的协同过滤算法,以过去15天全网用户的搜索词为输入,对每一个词预测其相关概率,取相关概率最高的几个词作为所述搜索词的相关词。
步骤102:根据目标用户的视频历史信息,确定所述目标用户的偏好数据;
其中,所述目标用户的偏好数据,可以基于观看视频历史数据以及用户的搜索历史数据两方面来确定。
每个视频都有频道、标签信息,根据用户观看视频历史数据以及预设规则,可以确定所述目标用户的频道偏好数据和标签偏好数据。具体地,可以统计用户过去30天的视频观看历史数据,将各频道、各标签的观看次数,除以观看总数获得频道和标签的得分,即将所述目标用户对频道、标签的观看爱好,归一化到[0,1]的概率上,可以设定概率大于0.4的频道、标签为所述目标用户的偏好频道、偏好标签。
利用所述用户搜索历史数据,可以确定用户搜索过的搜索词,判断用户对哪些搜索词感兴趣。
步骤103:根据所述搜索词元数据和所述偏好数据生成多个默认搜索词。
所述默认搜索词的确定,可以将基于全局搜索历史信息确定的频道热门搜索词、频繁搜索词和相关搜索词,结合基于目标用户的视频历史信息确定的目标用户的频道偏好信息、标签偏好信息和搜索历史数据来确定。基于全网的搜索情况,结合目标用户的个人爱好生成的默认搜索词同时具备公众性和针对性,很容易贴合目标用户的视频搜索意愿。
图2为本发明实施例公开的一种确定默认搜索词的流程图。在一个示意性的示例中,所述搜索词元数据包括频道热门搜索词;所述偏好数据包括频道偏好数据。参见图2,步骤103具体可以包括:
步骤201:根据所述频道偏好数据,确定所述目标用户的偏好频道;
用户在日常生活中可能经常观看某个频道的视频,如果观看该频道的次数或时长占用户观看视频的总次数或总时长的比例超过预设阈值,那么可以确定该频道为所述用户的偏好频道。
步骤202:从所述频道热门搜索词中选择出与所述偏好频道对应的搜索词并确定为默认搜索词。
如果所述用户偏好某个频道,那么这个频道的热门搜索词就很可能也是该用户想要搜索的搜索词。因此本示例中,将用户偏好频道下的频道热门搜索词确定为默认搜索词。
图3为本发明实施例公开的另一种确定默认搜索词的流程图。在另一个示意性的示例中,所述搜索词元数据包括频繁搜索词和相关搜索词;所述偏好数据包括标签偏好数据和搜索历史数据。参见图3,步骤103具体可以包括:
步骤301:根据所述标签偏好数据和/或所述搜索历史数据,确定所述目标用户的偏好标签和/或历史搜索词;
用户在日常生活中可能经常观看某个标签的视频,如果观看该标签下视频的次数占用户观看视频的总次数的比例超过预设阈值,那么可以确定该频道为所述用户的偏好标签。
历史搜索词为用户之前搜索过的词,证明用户对该搜索词相关的视频比较感兴趣。
步骤302:判断每一个偏好标签和/或历史搜索词是否属于频繁搜索词;如果是,进入步骤303;如果否,进入步骤304;
步骤303:将所述偏好标签和/或所述历史搜索词确定为默认搜索词;
对于用户的偏好标签或历史搜索词,如果是频繁搜索词,证明用户再次搜索所述偏好标签或历史搜索词的可能会很大,本示例中,这种情况下,将是频繁搜索词的用户偏好标签和历史搜索词确定为默认搜索词。
步骤304:在所述偏好标签和/或所述历史搜索词具有相关搜索词的情况下,将所述偏好标签和/或所述历史搜索词的相关搜索词确定为默认搜索词。
在所述偏好标签或历史搜索词不是频繁搜索词的情况下,考虑到用户的偏好兴趣,将所述偏好标签和历史搜索词的相关词确认为默认搜索词。
在实际应用中,上述内容中涉及到的各项数值可以根据实际情况调整设置,以将生成的默认搜索词的数量控制在合理的范围内。
本实施例中,所述默认搜索词的生成方法首先根据全局搜索历史信息,确定搜索词元数据,然后根据目标用户的视频历史信息,确定所述目标用户的偏好数据,再根据所述搜索词元数据和所述偏好数据生成多个默认搜索词。该默认搜索词的生成方法根据全局搜索历史和用户的偏好数据自动生成默认搜索词,时效性高;针对具有不同视频偏好的用户能够生成对应的默认搜索词,从而生成的默认搜索词能够贴合不同用户的需求,有助于简化用户视频搜索流程,提升用户的使用体验。
图4为本发明实施例公开的另一种默认搜索词的生成方法的流程图,如图4所示,所述方法可以包括:
步骤401:根据全局搜索历史信息,确定带有热门分数的频道热门搜索词、频繁搜索词和相关搜索词;
其中,所述热门分数可以依据第一预设规则计算得到。所述第一预设规则可以是:以所述频道热门搜索词中搜索次数最少的词的搜索量(base_imp_count)作为基准,每个热门搜索词的热门分数为min(1.0,0.5+log(imp_count/base_imp_count)。即将每个频道热门搜索词的搜索量平滑到[0.5,1]的区间上。
步骤402:根据目标用户的视频历史信息,确定所述目标用户的带有频道分数的频道偏好数据、带有标签分数的标签偏好数据和带有搜索分数的搜索历史数据;
所述频道分数和标签分数依据第二预设规则计算得到;所述搜索分数依据第四预设规则计算得到。
其中,所述第二预设规则可以是:将各频道、各标签的观看次数,除以观看总数获得频道、标签的得分。可以保留得分大于0.4的频道、标签,参与到后续默认搜索词的生成确定。
所述第四预设规则可以是:统计目标用户过去15天历史搜索词的搜索次数(imp_count)及搜索时间(imp_time),如所述目标用户对一个搜索词进行了多次搜索,取最新时间作为搜索时间。对每一个搜索词,计算其搜索次数得分imp_count_score=0.74+0.13*imp_count,搜索词的搜索次数越多,则得分越高;计算其搜索新鲜度得分imp_time_score=pow(0.85,(cur_time–imp_time)),其中cur_time为当前时间,即新鲜度得分每天以0.85的系数衰减,搜索词的时间距离当前时间越久,则得分越低;计算总得分score=imp_count_score*imp_time_score*query_ctr,其中query_ctr是搜索词的全局点击率。
其中,全局点击率可以反映一个搜索词的质量,全局点击率越高,这个搜索词被目标用户点击的可能性就越高。
步骤402后,同时进入步骤403和步骤406。
步骤403:根据所述频道偏好数据,确定所述目标用户的偏好频道;
步骤404:从所述频道热门搜索词中选择出与所述偏好频道对应的搜索词并确定为默认搜索词;
步骤405:根据所述默认搜索词对应的热门分数和频道分数,依据第三预设规则计算出所述默认搜索词的综合分数;进入步骤410;
所述频道热门搜索词具有热门分数,所述频道偏好数据具有频道分数,而默认搜索词取两者交集,因此确定的这个默认搜索词,既是频道热门搜索词,又是频道偏好数据,其对应的具有热门分数和频道分数。
所述第三预设规则可以是:将所述默认搜索词的热门分数乘以频道分数作为其综合得分,投入默认搜索词候选集。例如,一个默认搜索词对应的热门分数为0.6,对应的频道分数为0.5,则所述默认搜索词的综合分数为0.6*0.5=0.3。
步骤406:根据所述标签偏好数据和/或所述搜索历史数据,确定所述目标用户的偏好标签和/或历史搜索词;
步骤407:判断每一个偏好标签和/或历史搜索词是否属于频繁搜索词;如果是,进入步骤408;如果否,进入步骤409;
步骤408:将偏好标签和/或历史搜索词确定为默认搜索词,并将所述偏好标签和/或所述历史搜索词对应的标签分数和/或搜索分数对应确定为所述默认搜索词的综合分数;进入步骤410;
步骤409:在偏好标签和/或历史搜索词具有相关搜索词的情况下,将所述偏好标签和/或所述历史搜索词的相关搜索词确定为默认搜索词,并将所述的偏好标签和/或所述历史搜索词对应的标签分数和/或搜索分数对应确定为所述默认搜索词的综合分数;进入步骤410;
步骤410:将综合分数最高的N个默认搜索词生成默认搜索词列表,并提供给搜索引擎。
其中,所述N为正整数。将综合分数最高的N各默认搜索词提供给搜索引擎后,搜索引擎即可在搜索栏中展示出默认搜索词,以供用户查看选择。
本实施例中,所述默认搜索词的生成方法根据全局搜索历史和用户的偏好数据自动生成默认搜索词,时效性高;针对具有不同视频偏好的用户能够生成对应的默认搜索词,满足不同用户的需求,有助于简化用户视频搜索流程,提升用户的使用体验。且该方法中引用了默认搜索词评分机制,有利于生成更加贴合用户意愿的默认搜索词。
上述本发明公开的实施例中详细描述了方法,对于本发明的方法可采用多种形式的装置实现,因此本发明还公开了一种装置,下面给出具体的实施例进行详细说明。
图5为本发明实施例公开的一种默认搜索词的生成装置的结构示意图,参见图5所示,所述默认搜索词的生成装置50可以包括:
元数据确定模块501,用于根据全局搜索历史信息,确定搜索词元数据;
根据全网用户搜索历史信息,可以确定搜索词元数据。本实施例中,所述元数据可以包括频道热门搜索词、频繁搜索词和/或相关搜索词。
偏好数据确定模块502,用于根据目标用户的视频历史信息,确定所述目标用户的偏好数据;
其中,所述目标用户的偏好数据,可以基于观看视频历史数据以及用户的搜索历史数据两方面来确定。
利用所述用户搜索历史数据,可以确定用户搜索过的搜索词,判断用户对哪些搜索词感兴趣。
默认词确定模块503,用于根据所述搜索词元数据和所述偏好数据生成多个默认搜索词。
所述默认搜索词的确定,可以将基于全局搜索历史信息确定的频道热门搜索词、频繁搜索词和相关搜索词,结合基于目标用户的视频历史信息确定的目标用户的频道偏好信息、标签偏好信息和搜索历史数据来确定。基于全网的搜索情况,结合目标用户的个人爱好生成的默认搜索词同时具备公众性和针对性,很容易贴合目标用户的视频搜索意愿。
图6为本发明实施例公开一种的默认词确定模块的第一结构示意图。在一个示意性的示例中,所述搜索词元数据包括频道热门搜索词;所述偏好数据包括频道偏好数据。参见图6,所述默认词确定模块503可以包括:
第一偏好确认模块601,用于根据所述频道偏好数据,确定所述目标用户的偏好频道;
用户在日常生活中可能经常观看某个频道的视频,如果观看该频道的次数或时长占用户观看视频的总次数或总时长的比例超过预设阈值,那么可以确定该频道为所述用户的偏好频道。
第一默认词子模块602,用于从所述频道热门搜索词中选择出与所述偏好频道对应的搜索词并确定为默认搜索词。
如果所述用户偏好某个频道,那么这个频道的热门搜索词就很可能也是该用户想要搜索的搜索词。因此本示例中,将用户偏好频道下的频道热门搜索词确定为默认搜索词。
图7为本发明实施例公开的另一种默认词确定模块的结构示意图。在另一个示意性的示例中,所述搜索词元数据包括频繁搜索词和相关搜索词;所述偏好数据包括标签偏好数据和搜索历史数据。参见图7,所述默认词确定模块503可以包括:
第二偏好确认模块701,用于根据所述标签偏好数据和/或所述搜索历史数据,确定所述目标用户的偏好标签和/或历史搜索词;
用户在日常生活中可能经常观看某个标签的视频,如果观看该标签下视频的次数占用户观看视频的总次数的比例超过预设阈值,那么可以确定该频道为所述用户的偏好标签。
历史搜索词为用户之前搜索过的词,证明用户对该搜索词相关的视频比较感兴趣。
判断模块702,用于判断每一个偏好标签和/或历史搜索词是否属于频繁搜索词;
第二默认词子模块703,用于在所述判断模块702的判断结果为是时,将所述偏好标签和/或所述历史搜索词确定为默认搜索词;在所述判断模块702的判断结果为否时,在所述偏好标签和/或所述历史搜索词具有相关搜索词的情况下,将所述偏好标签和/或所述历史搜索词的相关搜索词确定为默认搜索词。
对于用户的偏好标签或历史搜索词,如果是频繁搜索词,证明用户再次搜索所述偏好标签或历史搜索词的可能会很大,本示例中,这种情况下,将是频繁搜索词的用户偏好标签和历史搜索词确定为默认搜索词。
在所述偏好标签或历史搜索词不是频繁搜索词的情况下,考虑到用户的偏好兴趣,将所述偏好标签和历史搜索词的相关词确认为默认搜索词。
在实际应用中,上述内容中涉及到的各项数值可以根据实际情况调整设置,以将生成的默认搜索词的数量控制在合理的范围内。
本实施例中,所述默认搜索词的生成装置首先根据全局搜索历史信息,确定搜索词元数据,然后根据目标用户的视频历史信息,确定所述目标用户的偏好数据,再根据所述搜索词元数据和所述偏好数据生成多个默认搜索词。该默认搜索词的生成装置根据全局搜索历史和用户的偏好数据自动生成默认搜索词,时效性高;针对具有不同视频偏好的用户能够生成对应的默认搜索词,从而生成的默认搜索词能够贴合不同用户的需求,有助于简化用户视频搜索流程,提升用户的使用体验。
图8为本发明实施例公开的另一种默认搜索词的生成装置的结构示意图,如图8所示,所述默认搜索词的生成装置80可以包括:
元数据确定模块501,用于根据全局搜索历史信息,确定带有热门分数的频道热门搜索词、频繁搜索词和相关搜索词;
其中,所述热门分数可以依据第一预设规则计算得到。所述第一预设规则可以是:以所述频道热门搜索词中搜索次数最少的词的搜索量(base_imp_count)作为基准,每个热门搜索词的热门分数为min(1.0,0.5+log(imp_count/base_imp_count)。即将每个频道热门搜索词的搜索量平滑到[0.5,1]的区间上。
偏好数据确定模块502,用于根据目标用户的视频历史信息,确定所述目标用户的带有频道分数的频道偏好数据、带有标签分数的标签偏好数据和带有搜索分数的搜索历史数据;
所述频道分数和标签分数依据第二预设规则计算得到;所述搜索分数依据第四预设规则计算得到。
其中,所述第二预设规则可以是:将各频道、各标签的观看次数,除以观看总数获得频道、标签的得分。可以保留得分大于0.4的频道、标签,参与到后续默认搜索词的生成确定。
所述第四预设规则可以是:统计目标用户过去15天历史搜索词的搜索次数(imp_count)及搜索时间(imp_time),如所述目标用户对一个搜索词进行了多次搜索,取最新时间作为搜索时间。对每一个搜索词,计算其搜索次数得分imp_count_score=0.74+0.13*imp_count,搜索词的搜索次数越多,则得分越高;计算其搜索新鲜度得分imp_time_score=pow(0.85,(cur_time–imp_time)),其中cur_time为当前时间,即新鲜度得分每天以0.85的系数衰减,搜索词的时间距离当前时间越久,则得分越低;计算总得分score=imp_count_score*imp_time_score*query_ctr,其中query_ctr是搜索词的全局点击率。
其中,全局点击率可以反映一个搜索词的质量,全局点击率越高,这个搜索词被目标用户点击的可能性就越高。
第一偏好确认模块601,用于根据所述频道偏好数据,确定所述目标用户的偏好频道;
第一默认词子模块602,用于从所述频道热门搜索词中选择出与所述偏好频道对应的搜索词并确定为默认搜索词;
综合分数确定模块801,用于根据所述默认搜索词对应的热门分数和频道分数,依据第三预设规则计算出所述默认搜索词的综合分数;
所述频道热门搜索词具有热门分数,所述频道偏好数据具有频道分数,而默认搜索词取两者交集,因此确定的这个默认搜索词,既是频道热门搜索词,又是频道偏好数据,其对应的具有热门分数和频道分数。
所述第三预设规则可以是:将所述默认搜索词的热门分数乘以频道分数作为其综合得分,投入默认搜索词候选集。
第二偏好确认模块701,用于根据所述标签偏好数据和/或所述搜索历史数据,确定所述目标用户的偏好标签和/或历史搜索词;
判断模块702,用于判断每一个偏好标签和/或历史搜索词是否属于频繁搜索词;
第二默认词子模块703,用于在所述判断模块702的判断结果为是时,将所述偏好标签和/或所述历史搜索词确定为默认搜索词;在所述判断模块702的判断结果为否时,在所述偏好标签和/或所述历史搜索词具有相关搜索词的情况下,将所述偏好标签和/或所述历史搜索词的相关搜索词确定为默认搜索词;
则所述综合分数确定模块801还用于,在所述判断模块的判断结果为是时,将所述偏好标签和/或所述历史搜索词对应的标签分数和/或搜索分数对应确定为所述默认搜索词的综合分数;在所述判断模块的判断结果为否时,在偏好标签和/或历史搜索词具有相关搜索词的情况下,将所述的偏好标签和/或所述历史搜索词对应的标签分数和/或搜索分数对应确定为所述默认搜索词的综合分数;
列表生成模块802,用于将综合分数最高的N个默认搜索词生成默认搜索词列表,并提供给搜索引擎。
其中,所述N为正整数。将综合分数最高的N各默认搜索词提供给搜索引擎后,搜索引擎即可在搜索栏中展示出默认搜索词,以供用户查看选择。
本实施例中,所述默认搜索词的生成装置根据全局搜索历史和用户的偏好数据自动生成默认搜索词,时效性高;针对具有不同视频偏好的用户能够生成对应的默认搜索词,满足不同用户的需求,有助于简化用户视频搜索流程,提升用户的使用体验。且该装置中引用了默认搜索词评分机制,有利于生成更加贴合用户意愿的默认搜索词。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (12)

1.一种默认搜索词的生成方法,其特征在于,包括:
根据全局搜索历史信息,确定搜索词元数据,所述搜索词元数据包括频繁搜索词,所述频繁搜索词为一段时间内总点击次数大于第一阈值,且所有来自相同用户的点击次数除以总点击次数大于第二阈值的搜索词,其中,相同用户指点击该搜索词至少两次的用户;
根据目标用户的视频历史信息,确定所述目标用户的偏好数据;
根据所述搜索词元数据和所述偏好数据生成多个默认搜索词。
2.根据权利要求1所述的默认搜索词的生成方法,其特征在于,所述搜索词元数据包括频道热门搜索词;所述偏好数据包括频道偏好数据;则所述根据所述搜索词元数据和所述偏好数据生成多个默认搜索词,包括:
根据所述频道偏好数据,确定所述目标用户的偏好频道;
从所述频道热门搜索词中选择出与所述偏好频道对应的搜索词并确定为默认搜索词。
3.根据权利要求2所述的默认搜索词的生成方法,其特征在于,所述频道热门搜索词为带有热门分数的频道热门搜索词;所述热门分数依据第一预设规则计算得到;所述频道偏好数据为带有频道分数的频道偏好数据,所述频道分数依据第二预设规则计算得到;则在所述从所述频道热门搜索词中选择出与所述偏好频道对应的搜索词并确定为默认搜索词之后,还包括:
根据所述默认搜索词对应的热门分数和频道分数,依据第三预设规则计算出所述默认搜索词的综合分数。
4.根据权利要求1所述的默认搜索词的生成方法,其特征在于,所述搜索词元数据包括频繁搜索词和相关搜索词;所述偏好数据包括标签偏好数据和搜索历史数据;则所述根据所述搜索词元数据和所述偏好数据生成多个默认搜索词,包括:
根据所述标签偏好数据和/或所述搜索历史数据,确定所述目标用户的偏好标签和/或历史搜索词;
判断每一个偏好标签和/或历史搜索词是否属于频繁搜索词;
如果是,将所述偏好标签和/或所述历史搜索词确定为默认搜索词;
如果否,在所述偏好标签和/或所述历史搜索词具有相关搜索词的情况下,将所述偏好标签和/或所述历史搜索词的相关搜索词确定为默认搜索词。
5.根据权利要求4所述的默认搜索词的生成方法,其特征在于,所述标签偏好数据为带有标签分数的标签偏好数据,所述搜索历史数据为带有搜索分数的搜索历史数据;所述标签分数依据第二预设规则计算得到;所述搜索分数依据第四预设规则计算得到;则在所述将偏好标签和/或历史搜索词确定为默认搜索词之后,或在所述将所述偏好标签和/或所述历史搜索词的相关搜索词确定为默认搜索词之后,还包括:
将所述偏好标签和/或所述历史搜索词对应的标签分数和/或搜索分数对应确定为所述默认搜索词的综合分数。
6.根据权利要求3或5所述的默认搜索词的生成方法,其特征在于,在得到所述默认搜索词的综合分数之后,还包括:
将综合分数最高的N个默认搜索词生成默认搜索词列表,并提供给搜索引擎,所述N为正整数。
7.一种默认搜索词的生成装置,其特征在于,包括:
元数据确定模块,用于根据全局搜索历史信息,确定搜索词元数据,所述搜索词元数据包括频繁搜索词,所述频繁搜索词为一段时间内总点击次数大于第一阈值,且所有来自相同用户的点击次数除以总点击次数大于第二阈值的搜索词,其中,相同用户指点击该搜索词至少两次的用户;
偏好数据确定模块,用于根据目标用户的视频历史信息,确定所述目标用户的偏好数据;
默认词确定模块,用于根据所述搜索词元数据和所述偏好数据生成多个默认搜索词。
8.根据权利要求7所述的默认搜索词的生成装置,其特征在于,述搜索词元数据包括频道热门搜索词;所述偏好数据包括频道偏好数据;则所述默认词确定模块包括:
第一偏好确认模块,用于根据所述频道偏好数据,确定所述目标用户的偏好频道;
第一默认词子模块,用于从所述频道热门搜索词中选择出与所述偏好频道对应的搜索词并确定为默认搜索词。
9.根据权利要求8所述的默认搜索词的生成装置,其特征在于,所述频道热门搜索词为带有热门分数的频道热门搜索词;所述热门分数依据第一预设规则计算得到;所述频道偏好数据包括带有频道分数的频道偏好数据,所述频道分数依据第二预设规则计算得到;则所述默认词确定模块还包括:
综合分数确定模块,用于根据所述默认搜索词对应的热门分数和频道分数,依据第三预设规则计算出所述默认搜索词的综合分数。
10.根据权利要求7所述的默认搜索词的生成装置,其特征在于,所述搜索词元数据包括频繁搜索词和相关搜索词;所述偏好数据包括标签偏好数据和搜索历史数据;则所述默认词确定模块包括:
第二偏好确认模块,用于根据所述标签偏好数据和/或所述搜索历史数据,确定所述目标用户的偏好标签和/或历史搜索词;
判断模块,用于判断每一个偏好标签和/或历史搜索词是否属于频繁搜索词;
第二默认词子模块,用于在所述判断模块的判断结果为是时,将所述偏好标签和/或所述历史搜索词确定为默认搜索词;在所述判断模块的判断结果为否时,在所述偏好标签和/或所述历史搜索词具有相关搜索词的情况下,将所述偏好标签和/或所述历史搜索词的相关搜索词确定为默认搜索词。
11.根据权利要求10所述的默认搜索词的生成装置,其特征在于,所述标签偏好数据为带有标签分数的标签偏好数据,所述搜索历史数据为带有搜索分数的搜索历史数据;所述标签分数依据第二预设规则计算得到;所述搜索分数依据第四预设规则计算得到;则所述默认词确定模块还包括:
综合分数确定模块,用于在所述判断模块的判断结果为是时,将所述偏好标签和/或所述历史搜索词对应的标签分数和/或搜索分数对应确定为所述默认搜索词的综合分数;在所述判断模块的判断结果为否时,在偏好标签和/或历史搜索词具有相关搜索词的情况下,将所述的偏好标签和/或所述历史搜索词对应的标签分数和/或搜索分数对应确定为所述默认搜索词的综合分数。
12.根据权利要求9或11所述默认搜索词的生成装置,其特征在于,还包括:
列表生成模块,用于将综合分数最高的N个默认搜索词生成默认搜索词列表,并提供给搜索引擎,所述N为正整数。
CN201710373197.7A 2017-05-24 2017-05-24 默认搜索词的生成方法及装置 Active CN107169116B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710373197.7A CN107169116B (zh) 2017-05-24 2017-05-24 默认搜索词的生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710373197.7A CN107169116B (zh) 2017-05-24 2017-05-24 默认搜索词的生成方法及装置

Publications (2)

Publication Number Publication Date
CN107169116A CN107169116A (zh) 2017-09-15
CN107169116B true CN107169116B (zh) 2020-11-24

Family

ID=59820866

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710373197.7A Active CN107169116B (zh) 2017-05-24 2017-05-24 默认搜索词的生成方法及装置

Country Status (1)

Country Link
CN (1) CN107169116B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543113B (zh) * 2018-12-21 2022-02-01 北京字节跳动网络技术有限公司 确定点击推荐词的方法、装置、存储介质及电子设备
CN111291258A (zh) * 2020-01-20 2020-06-16 北京无限光场科技有限公司 搜索热词的推荐方法、装置、电子设备及可读介质
CN112235611A (zh) * 2020-10-14 2021-01-15 广州欢网科技有限责任公司 搜索热词提取方法、装置及智能电视
CN112702622B (zh) * 2020-12-24 2023-05-23 深圳Tcl数字技术有限公司 节目搜索方法、装置、设备和计算机可读存储介质
CN113536118B (zh) * 2021-06-29 2023-04-07 未鲲(上海)科技服务有限公司 搜索默认词的配置方法、装置、计算机设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955465A (zh) * 2014-03-28 2014-07-30 百度在线网络技术(北京)有限公司 一种用于生成推荐页面的方法和装置
CN104143001A (zh) * 2014-08-01 2014-11-12 百度在线网络技术(北京)有限公司 搜索词推荐方法及装置
CN104166700A (zh) * 2014-08-01 2014-11-26 百度在线网络技术(北京)有限公司 搜索词推荐方法及装置
CN105956149A (zh) * 2016-05-12 2016-09-21 北京奇艺世纪科技有限公司 默认搜索词的推荐方法和装置
CN106503233A (zh) * 2016-11-03 2017-03-15 北京挖玖电子商务有限公司 热门搜索词推荐系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955465A (zh) * 2014-03-28 2014-07-30 百度在线网络技术(北京)有限公司 一种用于生成推荐页面的方法和装置
CN104143001A (zh) * 2014-08-01 2014-11-12 百度在线网络技术(北京)有限公司 搜索词推荐方法及装置
CN104166700A (zh) * 2014-08-01 2014-11-26 百度在线网络技术(北京)有限公司 搜索词推荐方法及装置
CN105956149A (zh) * 2016-05-12 2016-09-21 北京奇艺世纪科技有限公司 默认搜索词的推荐方法和装置
CN106503233A (zh) * 2016-11-03 2017-03-15 北京挖玖电子商务有限公司 热门搜索词推荐系统

Also Published As

Publication number Publication date
CN107169116A (zh) 2017-09-15

Similar Documents

Publication Publication Date Title
CN107169116B (zh) 默认搜索词的生成方法及装置
CN104935970B (zh) 进行电视内容推荐的方法及电视客户端
US20240086413A1 (en) Methods, systems, and media for presenting search results
CN107832437B (zh) 音/视频推送方法、装置、设备及存储介质
CN105653705B (zh) 一种热门事件搜索方法和装置
US20150143394A1 (en) Content presentation method, content presentation device, and program
JP2005536814A (ja) ユーザプロファイルの作成方法、及び、ユーザの次の選択に対する提案を特定する方法
CN106131703A (zh) 一种视频推荐的方法和终端
KR20140032439A (ko) 전자 디바이스에 근접하여 현재 디스플레이되고 있는 텔레비전 프로그램을 결정함으로써 사용자 검색 결과들을 향상시키기 위한 시스템 및 방법
US10306320B2 (en) Providing service based on user operation behavior
US20230089961A1 (en) Optimizing content distribution using a model
KR101404585B1 (ko) 구간 작성 장치, 구간 작성 방법 및, 구간 작성 프로그램을 기록한 컴퓨터로 판독 가능한 기록 매체
CN112507163B (zh) 时长预测模型训练方法、推荐方法、装置、设备及介质
US20130290340A1 (en) Providing Control Over a Personalized Category of Information
JP4253532B2 (ja) 情報推薦装置、情報推薦プログラム及び記録媒体
CN113535991A (zh) 一种多媒体资源推荐方法、装置、电子设备及存储介质
CN111523035A (zh) App浏览内容的推荐方法、装置、服务器和介质
US11126655B2 (en) Metadata of partial content
CN105159990A (zh) 一种媒体数据分级控制的方法和装置
WO2014174913A1 (ja) 端末装置および装置のプログラム
US9479839B2 (en) Method and system for providing a representative phrase based on keyword searches
CN112000865A (zh) 热词生成方法、装置、服务器及存储介质
CN113420209A (zh) 基于天气搜索的推荐方法、装置、设备及存储介质
CN107608792B (zh) 资源调度方法与装置
CN110719280B (zh) 基于大数据的用户隐私保护的推荐系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant