CN105183897B - 一种视频搜索排序的方法和系统 - Google Patents

一种视频搜索排序的方法和系统 Download PDF

Info

Publication number
CN105183897B
CN105183897B CN201510634855.4A CN201510634855A CN105183897B CN 105183897 B CN105183897 B CN 105183897B CN 201510634855 A CN201510634855 A CN 201510634855A CN 105183897 B CN105183897 B CN 105183897B
Authority
CN
China
Prior art keywords
video
information
long
click
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510634855.4A
Other languages
English (en)
Other versions
CN105183897A (zh
Inventor
陈英傑
胡军
王天畅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201510634855.4A priority Critical patent/CN105183897B/zh
Publication of CN105183897A publication Critical patent/CN105183897A/zh
Application granted granted Critical
Publication of CN105183897B publication Critical patent/CN105183897B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings

Abstract

本发明提供了一种视频搜索排序的方法和系统,所述方法包括:根据视频的文本描述信息获得与用户搜索视频的关键词相关的结果候选集;记录结果候选集中每个候选视频与关键词的相关度信息;根据预设的第一数据库中存储的视频信息将结果候选集中的第一类视频删除;从预设的第二数据库中查询得到删除第一类视频后的结果候选集中的每个候选视频的质量信息,并从预设的第三数据库中查询得到删除第一类视频后的结果候选集中的每个候选视频针对关键词的调权信息;根据相关度信息、质量信息和调权信息得到删除第一类视频后的结果候选集中的每个候选视频的排序分数;对得到的每个候选视频的排序分数进行降序排列,并将前K个排序分数对应的候选视频返回用户。

Description

一种视频搜索排序的方法和系统
技术领域
本发明涉及搜索技术领域,特别是涉及一种视频搜索排序的方法和系统。
背景技术
随着视频数量的急速增长,视频搜索成为用户获取所需资源的有效方式。目前视频搜索的主要方法有:1)基于视频的文本描述信息(如标题、演职员列表、视频简介等)的方法;2)基于视频关键帧内容的检索方法。基于视频关键帧内容的方法虽然能用于视频的搜索,但由于关键帧内容的提取难度、帧信息的存储空间等问题,使得其难以大规模用于目前的视频搜索系统中,因此基于视频的文本描述信息的搜索方法仍然是主流的视频搜索方法。
然而,基于视频的文本描述信息的视频搜索方法严重依赖于文本描述信息的准确性和质量,而通常简短的文本描述信息难以完整、准确地表达视频本身,特别是对于用户生产内容,视频的文本描述信息填写不够规范,同时还存在一些恶意的作弊行为,如为了吸引用户点击,视频上传者会给自己的视频添加一些热门但与视频内容不太相关的关键词,这更加加剧了基于文本描述信息的视频搜索和排序的难度。
其次,视频的文本描述信息即使能正确表达视频的内容信息,也难以用于识别视频的质量好坏。在视频量非常巨大的情况下,与用户查询的关键词相关的候选视频集可能非常庞大,用户不可能浏览所有的候选集。因此有效识别视频的质量好坏,将高质量的视频排序在最靠前的位置是视频搜索排序需要解决的重要问题,也是提升视频搜索用户体验的关键。
综上所述,虽然基于文本描述信息的方法是视频搜索的主要方法,但由于文本描述信息难以完整地表示视频内容、难以用于区分视频的质量好坏,因此仅仅基于文本描述信息的视频搜索排序方法难以满足视频搜索的需求。
发明内容
本发明提供一种视频搜索排序的方法和系统,以解决现有的基于文本描述信息的视频搜索排序方法中的文本描述信息难以完整地表示视频内容,难以用于区分视频的质量好坏的问题。
为了解决上述问题,本发明公开了一种视频搜索排序的方法,包括:
根据视频的文本描述信息获得与用户搜索视频的关键词相关的结果候选集;
记录所述结果候选集中每个候选视频与所述关键词的相关度信息;
根据预设的第一数据库中存储的视频信息将所述结果候选集中的第一类视频删除;
从预设的第二数据库中查询得到删除所述第一类视频后的结果候选集中的每个候选视频的质量信息,并从预设的第三数据库中查询得到删除所述第一类视频后的结果候选集中的每个候选视频针对所述关键词的调权信息;
根据所述相关度信息、质量信息和调权信息得到删除所述第一类视频后的结果候选集中的每个候选视频的排序分数;
对得到的每个候选视频的排序分数进行降序排列,并将前K个排序分数对应的候选视频返回用户,K为正整数。
相应地,本发明还公开了一种视频搜索排序的系统,包括:
结果候选集获取模块,用于根据视频的文本描述信息获得与用户搜索视频的关键词相关的结果候选集;
相关度信息记录模块,用于记录所述结果候选集中每个候选视频与所述关键词的相关度信息;
第一类视频删除模块,用于根据预设的第一数据库中存储的视频信息将所述结果候选集中的第一类视频删除;
质量信息和调权信息获取模块,用于从预设的第二数据库中查询得到删除所述第一类视频后的结果候选集中的每个候选视频的质量信息,并从预设的第三数据库中查询得到删除所述第一类视频后的结果候选集中的每个候选视频针对所述关键词的调权信息;
排序分数确定模块,用于根据所述相关度信息、质量信息和调权信息得到删除所述第一类视频后的结果候选集中的每个候选视频的排序分数;
视频排序模块,用于对得到的每个候选视频的排序分数进行降序排列,并将前K个排序分数对应的候选视频返回用户,K为正整数。
与背景技术相比,本发明包括以下优点:
首先,根据用户搜索视频的关键词获得与关键词相关的结果候选集,结果候选集中包括候选视频,并记录下结果候选集中的每个候选视频与关键词的相关度信息。
其次,将结果候选集中的候选视频与预设的作弊数据库中的作弊视频进行比较,删除结果候选集中的作弊视频。
再次,在预设的质量数据库中获取删除作弊视频后的结果候选集中的每个候选视频的质量信息,并在预设的调权数据库中获取删除作弊视频后的结果候选集中的每个候选视频的调权信息。
最后,利用相关度信息、质量信息和调权信息确定删除作弊视频后的结果候选集中的每个候选视频的排序分数,对排序分数进行降序排列,将排列靠前的部分候选视频返回给用户。
本发明利用大量的用户的点击播放行为数据,屏蔽了作弊视频,在基于文本描述信息的视频搜索排序的基础上,融入视频的质量信息和调权信息,避免对文本描述信息的过度依赖,优化了视频搜索排序的结果。
附图说明
图1是本发明实施例一中的收集每次的用户搜索请求和点击行为信息的具体流程图;
图2是本发明实施例一中的一种视频搜索排序的方法的步骤流程图;
图3是本发明实施例一中的技术方案流程示意图;
图4是本发明实施例二中的日志分析阶段的流程图;
图5是本发明实施例三中的一种视频搜索排序的系统的结构示意图;
图6是本发明实施例四中的一种视频搜索排序的系统的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
下面通过列举几个具体的实施例详细介绍本发明提供的一种视频搜索排序的方法和系统。
实施例一
详细介绍本发明实施例提供的一种视频搜索排序的方法。
用户对视频的搜索点击行为能很好地反映用户对视频搜索结果的偏好,也能帮忙识别文本描述信息存在作弊行为的视频。对于作弊的视频,会吸引一些用户点击播放,但当用户点击播放视频后,会很快发现视频不满足其需求而退出播放,因此这类视频的播放时长一般较短,或者播放时长占视频总时长的比率很低。而对于满足了用户搜索需求且高质量视频,会累积更多的用户点击行为,且用户的播放时长会很长,或者播放时长占总时长的比率很高。
基于以上思路,本发明实施例提出了一种在基于文本描述信息的视频搜索排序方案的基础上,加入用户的搜索点击行为的搜索排序方案。本发明实施例利用大量用户的视频搜索行为,有效地检测并过滤掉文本描述信息中有作弊行为的视频,同时根据用户对视频的点击量、点击率、播放时长等特征识别视频的质量;最后,综合针对用户搜索视频的关键词的其他用户的点击反馈信息,优化视频排序的效果,同时提升用户的搜索体验。
本发明实施例根据用户的视频搜索行为收集每次的用户搜索请求和点击行为信息,具体流程见图1。用户利用关键词进行视频搜索,视频搜索系统根据用户搜索的关键词呈现用户交互界面,对每次的用户搜索请求和点击行为信息进行收集,收集的数据包括搜索结果展示信息和用户点击视频信息。
其中,搜索结果展示信息中记录了哪个用户在什么时间点搜索了哪个关键词,返回了哪些结果。主要的字段有:
1)用户惟一标识(user_id);
2)本次会话(session)的惟一标识(event_id);
3)当前关键词(query);
4)本次搜索的时间点(timestamp);
5)搜索引擎展示给用户的视频列表(impression_doc_list)。
用户点击视频信息中记录了用户点击了哪个视频,播放了多长时间。主要的字段有:
1)本次点击对应的session(event_id);
2)点击视频惟一标识(doc_id);
3)点击视频的播放时长(click_duration)。
参照图2,示出了本发明实施例中一种视频搜索排序的方法的步骤流程图。
步骤100,根据视频的文本描述信息获得与用户搜索视频的关键词相关的结果候选集。
当用户搜索某个关键词时,首先视频搜索系统根据视频的文本描述信息,查找倒排索引,获取与关键词相关的视频结果列表,构成与关键词相关的结果候选集。
步骤102,记录所述结果候选集中每个候选视频与所述关键词的相关度信息。
记录每个候选视频与关键词的相关度信息,记为topicality。
步骤104,根据预设的第一数据库中存储的视频信息将所述结果候选集中的第一类视频删除。
预设的第一数据库(作弊检测数据库)可以为存储有作弊视频信息的数据库。将结果候选集中的每个候选视频与第一数据库中的作弊视频信息进行比对,删除结果候选集中的作弊视频。
步骤106,从预设的第二数据库中查询得到删除所述第一类视频后的结果候选集中的每个候选视频的质量信息,并从预设的第三数据库中查询得到删除所述第一类视频后的结果候选集中的每个候选视频针对所述关键词的调权信息。
预设的第二数据库(视频质量评价数据库)可以存储视频的质量信息;预设的第三数据库(点击调权数据库)可以存储视频针对关键词的调权信息。
步骤108,根据所述相关度信息、质量信息和调权信息得到删除所述第一类视频后的结果候选集中的每个候选视频的排序分数。
将相关度信息、质量信息和调权信息进行融合,得到排序分数。
步骤110,对得到的每个候选视频的排序分数进行降序排列,并将前K个排序分数对应的候选视频返回用户,K为正整数。
本发明实施例中的技术方案可以概括为如下步骤,如图3所示:
步骤10,用户利用关键词进行视频搜索。
步骤11,根据关键词和视频的文本描述信息获取与关键词相关的视频结果列表,构成与关键词相关的结果候选集。
步骤12,根据作弊检测数据库查询出结果候选集中的作弊视频,并删除作弊视频。
步骤13,根据点击反馈数据库和视频质量评价数据库对删除作弊视频后的结果候选集中的候选视频计算排序分数。
步骤14,按照降序对排序分数进行排序,将靠前的部分候选视频返回至用户。
综上所述,本发明实施例提供的技术方案,首先,根据用户搜索视频的关键词获得与关键词相关的结果候选集,结果候选集中包括候选视频,并记录下结果候选集中的每个候选视频与关键词的相关度信息。
其次,将结果候选集中的候选视频与预设的作弊数据库中的作弊视频进行比较,删除结果候选集中的作弊视频。
再次,在预设的质量数据库中获取删除作弊视频后的结果候选集中的每个候选视频的质量信息,并在预设的调权数据库中获取删除作弊视频后的结果候选集中的每个候选视频的调权信息。
最后,利用相关度信息、质量信息和调权信息确定删除作弊视频后的结果候选集中的每个候选视频的排序分数,对排序分数进行降序排列,将排列靠前的部分候选视频返回给用户。
本发明实施例利用大量的用户的点击播放行为数据,屏蔽了作弊视频,在基于文本描述信息的视频搜索排序的基础上,融入视频的质量信息和调权信息,避免对文本描述信息的过度依赖,优化了视频搜索排序的结果。
实施例二
详细介绍本发明实施例提供的一种视频搜索排序的方法。
本发明实施例将用户搜索点击行为信息用于视频搜索的排序,具体可以划分为三个阶段:日志收集阶段、日志分析阶段和视频搜索重排序阶段。
一、日志收集阶段根据用户的视频搜索行为收集每次的用户搜索请求和点击行为信息,具体流程见图1。本发明实施例中日志收集阶段的具体技术内容可以参照实施例一中的内容。
二、日志分析阶段将日志收集阶段获取的日志信息记性统计,主要从3个维度进行分析,如图4所示。统计每个视频的播放时长和短点击占比,建立作弊检测数据库;统计每个视频的长点击次数、长点击率和平均播放时长等特征,建立视频质量评价数据库;统计每个关键词下每个视频的长点击次数和长点击率,建立点击调权数据库。将作弊检测数据库、视频质量评价数据库和点击调权数据库作为用户搜索行为库的其中一部分。
日志分析阶段具体可以包括如下步骤:
1)计算每个视频短点击占总体点击的比率,建立作弊检测数据库。
根据视频被点击播放的时长信息,将每次点击行为划分为长点击和短点击。长点击是指播放时长达到一定的阈值或播放时长占总时长的比率达到一定阈值的点击行为。相应地,短点击是指播放时长小于一定阈值或播放时长占总时长的比值低于一定阈值的点击行为。计算逻辑如下:
其中clickduration表示点击播放时长,duration表示视频的播放总时长;LCth、LRth分别表示长点击的播放时长阈值(第一长阈值)和播放时长占总时长的比值阈值(第二长阈值),SCth、SRth分别表示短点击的播放时长阈值(第一短阈值)和播放时长占总时长的比值阈值(第二短阈值)。这4个阈值可以基于所有视频的播放时长分布和播放时长比率分布来设置,本发明实施例中LCth=120s、LRth=0.8、SCth=40s、SRth=0.2。
作弊检测数据库的建立,可以包括:
1、根据每个视频的总点击次数和短点击次数确定得到第一类(作弊)视频,具体为:计算每个视频的短点击次数与总点击次数的比值,得到短点击率;将大于等于第一比值阈值的短点击率对应的视频确定为第一类视频。
2、将确定得到的第一类视频存入作弊检测数据库中。
可以认为当视频的播放时长特别短时,用户对视频内容是不喜欢的。一个视频的点击观看行为中,短点击占很大比率时,说明大量用户都认为该视频的质量较差。当总点击次数大于总点击阈值(记为CCth,本发明实施例中设置为100),且短点击占大于等于第一比值阈值(记为SCRth,本发明实施例中该值设置为0.5)时,可以认为该视频是作弊视频。
2)统计每个视频的长点击次数、长点击率(长点击次数与总点击次数的比值)、平均播放时长(该视频被播放时长的平均值)等特征,计算每个视频的质量信息。
可以认为,用户喜欢的视频会累积更多的用户点击行为,因此也会有更高的点击率;其中高质量的视频将拥有更长的平均播放时长。这几个特征共同影响了视频的质量,同时再加上视频的清晰度、发布时间等自有特征,可以最后确定视频的质量信息。
获得质量信息,可以包括:
1、统计每个视频的特征,所述特征包括:长点击次数、长点击率、平均播放时长、视频清晰度和发布时间等。
2、根据每个视频的特征的归一化结果和特征的权重确定得到质量信息。
其中,quality为质量信息,feature(i)为特征的归一化结果,weight(i)为特征的权重,且i为每个特征的序号。
3)统计每个关键词下每个视频的长点击次数、长点击率,建立点击调权数据库。
在一个关键词下,大量用户都点击某些视频,说明这些视频更匹配当前关键词。可以认为,限定关键词的条件下,视频的长点击次数越多、长点击率越高,越能满足用户的搜索需求。
获得调权信息,可以包括:
根据关键词对应的每个视频的长点击次数、长点击率、长点击次数的权重和长点击率的权重确定得到调权信息。具体可以为:
通过navboost=a*score(long_click)+b*score(long_ctr)得到调权信息。
其中,navboost为调权信息,score(long_click)为长点击次数的归一化结果,score(long_ctr)为长点击率的归一化结果,a为长点击次数的权重,b为长点击率的权重,且a+b=1。
三、视频搜索重排序阶段即时响应用户的搜索请求,将排好序的视频结果返回给用户。
根据上述相关度信息、质量信息和调权信息得到删除作弊视频后的结果候选集中的每个候选视频的排序分数,具体可以包括:
通过finalscore=topicalityα*qualityβ*navboostγ得到排序分数。
其中,finalscore为排序分数,topicality为相关度信息,α、β、γ均为预设参数,且α+β+γ=1。
综上所述,本发明实施例提供的技术方案,首先,根据用户搜索视频的关键词获得与关键词相关的结果候选集,结果候选集中包括候选视频,并记录下结果候选集中的每个候选视频与关键词的相关度信息。
其次,将结果候选集中的候选视频与预设的作弊数据库中的作弊视频进行比较,删除结果候选集中的作弊视频。
再次,在预设的质量数据库中获取删除作弊视频后的结果候选集中的每个候选视频的质量信息,并在预设的调权数据库中获取删除作弊视频后的结果候选集中的每个候选视频的调权信息。
最后,利用相关度信息、质量信息和调权信息确定删除作弊视频后的结果候选集中的每个候选视频的排序分数,对排序分数进行降序排列,将排列靠前的部分候选视频返回给用户。
本发明实施例利用大量的用户的点击播放行为数据,屏蔽了作弊视频,在基于文本描述信息的视频搜索排序的基础上,融入视频的质量信息和调权信息,避免对文本描述信息的过度依赖,优化了视频搜索排序的结果。
实施例三
详细介绍本发明实施例提供的一种视频搜索排序的系统。
参照图5,示出了本发明实施例中一种视频搜索排序的系统的结构示意图。
所述系统可以包括:结果候选集获取模块300,相关度信息记录模块302,第一类视频删除模块304,质量信息和调权信息获取模块306,排序分数确定模块308,视频排序模块310。
下面分别详细介绍各模块的功能以及各模块之间的关系。
结果候选集获取模块300,用于根据视频的文本描述信息获得与用户搜索视频的关键词相关的结果候选集。
相关度信息记录模块302,用于记录所述结果候选集中每个候选视频与所述关键词的相关度信息。
第一类视频删除模块304,用于根据预设的第一数据库中存储的视频信息将所述结果候选集中的第一类视频删除。
质量信息和调权信息获取模块306,用于从预设的第二数据库中查询得到删除所述第一类视频后的结果候选集中的每个候选视频的质量信息,并从预设的第三数据库中查询得到删除所述第一类视频后的结果候选集中的每个候选视频针对所述关键词的调权信息。
排序分数确定模块308,用于根据所述相关度信息、质量信息和调权信息得到删除所述第一类视频后的结果候选集中的每个候选视频的排序分数。
视频排序模块310,用于对得到的每个候选视频的排序分数进行降序排列,并将前K个排序分数对应的候选视频返回用户,K为正整数。
综上所述,本发明实施例提供的技术方案,首先,根据用户搜索视频的关键词获得与关键词相关的结果候选集,结果候选集中包括候选视频,并记录下结果候选集中的每个候选视频与关键词的相关度信息。
其次,将结果候选集中的候选视频与预设的作弊数据库中的作弊视频进行比较,删除结果候选集中的作弊视频。
再次,在预设的质量数据库中获取删除作弊视频后的结果候选集中的每个候选视频的质量信息,并在预设的调权数据库中获取删除作弊视频后的结果候选集中的每个候选视频的调权信息。
最后,利用相关度信息、质量信息和调权信息确定删除作弊视频后的结果候选集中的每个候选视频的排序分数,对排序分数进行降序排列,将排列靠前的部分候选视频返回给用户。
本发明实施例利用大量的用户的点击播放行为数据,屏蔽了作弊视频,在基于文本描述信息的视频搜索排序的基础上,融入视频的质量信息和调权信息,避免对文本描述信息的过度依赖,优化了视频搜索排序的结果。
实施例四
详细介绍本发明实施例提供的一种视频搜索排序的系统。
参照图6,示出了本发明实施例中一种视频搜索排序的系统的结构示意图。
所述系统可以包括:第一类视频确定模块400,第一数据库确定模块402,特征统计模块404,质量信息确定模块406,调权信息确定模块408,结果候选集获取模块410,相关度信息记录模块412,第一类视频删除模块414,质量信息和调权信息获取模块416,排序分数确定模块418,视频排序模块420。
下面分别详细介绍各模块的功能以及各模块之间的关系。
第一类视频确定模块400,用于根据每个视频的总点击次数和短点击次数确定得到第一类视频。
优选地,所述第一类视频确定模块400,可以包括:
计算模块4001,用于计算每个视频的短点击次数与总点击次数的比值,得到短点击率。
确定模块4002,用于将大于等于第一比值阈值的短点击率对应的视频确定为第一类视频。
第一数据库确定模块402,用于将确定得到的第一类视频存入所述第一数据库中。
其中,所述总点击次数大于总点击阈值,所述短点击为视频的播放时长小于第一短阈值,或播放时长占视频总时长的比值小于第二短阈值的点击操作。
特征统计模块404,用于统计每个视频的特征,所述特征包括:长点击次数、长点击率、平均播放时长、视频清晰度和发布时间;其中,所述长点击为视频的播放时长大于等于第一长阈值,或播放时长占视频总时长的比值大于等于第二长阈值的点击操作。
质量信息确定模块406,用于根据每个视频的特征的归一化结果和特征的权重确定得到质量信息。
优选地,所述质量信息确定模块406通过 得到质量信息。
其中,quality为质量信息,feature(i)为特征的归一化结果,weight(i)为特征的权重,且i为每个特征的序号。
调权信息确定模块408,用于根据关键词对应的每个视频的长点击次数、长点击率、长点击次数的权重和长点击率的权重确定得到调权信息。
优选地,所述调权信息确定模块408通过navboost=a*score(long_click)+b*score(long_ctr)得到调权信息。
其中,navboost为调权信息,score(long_click)为长点击次数的归一化结果,score(long_ctr)为长点击率的归一化结果,a为长点击次数的权重,b为长点击率的权重,且a+b=1。
结果候选集获取模块410,用于根据视频的文本描述信息获得与用户搜索视频的关键词相关的结果候选集。
相关度信息记录模块412,用于记录所述结果候选集中每个候选视频与所述关键词的相关度信息。
第一类视频删除模块414,用于根据预设的第一数据库中存储的视频信息将所述结果候选集中的第一类视频删除。
质量信息和调权信息获取模块416,用于从预设的第二数据库中查询得到删除所述第一类视频后的结果候选集中的每个候选视频的质量信息,并从预设的第三数据库中查询得到删除所述第一类视频后的结果候选集中的每个候选视频针对所述关键词的调权信息。
排序分数确定模块418,用于根据所述相关度信息、质量信息和调权信息得到删除所述第一类视频后的结果候选集中的每个候选视频的排序分数。
优选地,所述排序分数确定模块418通过finalscore=topicalityα*qualityβ*navboostγ得到排序分数。
其中,finalscore为排序分数,topicality为相关度信息,α、β、γ均为预设参数,且α+β+γ=1。
视频排序模块420,用于对得到的每个候选视频的排序分数进行降序排列,并将前K个排序分数对应的候选视频返回用户,K为正整数。
综上所述,本发明实施例提供的技术方案,首先,根据用户搜索视频的关键词获得与关键词相关的结果候选集,结果候选集中包括候选视频,并记录下结果候选集中的每个候选视频与关键词的相关度信息。
其次,将结果候选集中的候选视频与预设的作弊数据库中的作弊视频进行比较,删除结果候选集中的作弊视频。
再次,在预设的质量数据库中获取删除作弊视频后的结果候选集中的每个候选视频的质量信息,并在预设的调权数据库中获取删除作弊视频后的结果候选集中的每个候选视频的调权信息。
最后,利用相关度信息、质量信息和调权信息确定删除作弊视频后的结果候选集中的每个候选视频的排序分数,对排序分数进行降序排列,将排列靠前的部分候选视频返回给用户。
本发明实施例利用大量的用户的点击播放行为数据,屏蔽了作弊视频,在基于文本描述信息的视频搜索排序的基础上,融入视频的质量信息和调权信息,避免对文本描述信息的过度依赖,优化了视频搜索排序的结果。
对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
以上对本发明实施例所提供的一种视频搜索排序的方法和系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (14)

1.一种视频搜索排序的方法,其特征在于,包括:
根据视频的文本描述信息获得与用户搜索视频的关键词相关的结果候选集;
记录所述结果候选集中每个候选视频与所述关键词的相关度信息;
根据预设的第一数据库中存储的视频信息将所述结果候选集中的第一类视频删除,其中通过以下步骤建立所述第一数据库:根据每个视频的总点击次数和短点击次数确定得到第一类视频;将确定得到的第一类视频存入所述第一数据库中;其中,所述总点击次数大于总点击阈值,所述短点击为视频的播放时长小于第一短阈值,或播放时长占视频总时长的比值小于第二短阈值的点击操作;
从预设的第二数据库中查询得到删除所述第一类视频后的结果候选集中的每个候选视频的质量信息,并从预设的第三数据库中查询得到删除所述第一类视频后的结果候选集中的每个候选视频针对所述关键词的调权信息;
根据所述相关度信息、质量信息和调权信息得到删除所述第一类视频后的结果候选集中的每个候选视频的排序分数;
对得到的每个候选视频的排序分数进行降序排列,并将前K个排序分数对应的候选视频返回用户,K为正整数。
2.根据权利要求1所述的方法,其特征在于,所述根据每个视频的总点击次数和短点击次数确定得到第一类视频,包括:
计算每个视频的短点击次数与总点击次数的比值,得到短点击率;
将大于等于第一比值阈值的短点击率对应的视频确定为第一类视频。
3.根据权利要求1所述的方法,其特征在于,通过以下步骤获得质量信息:
统计每个视频的特征,所述特征包括:长点击次数、长点击率、平均播放时长、视频清晰度和发布时间;其中,所述长点击为视频的播放时长大于等于第一长阈值,或播放时长占视频总时长的比值大于等于第二长阈值的点击操作;
根据每个视频的特征的归一化结果和特征的权重确定得到质量信息。
4.根据权利要求3所述的方法,其特征在于,所述根据每个视频的特征的归一化结果和特征的权重确定得到质量信息,包括:
通过得到质量信息;
其中,quality为质量信息,feature(i)为特征的归一化结果,weight(i)为特征的权重,且i为每个特征的序号。
5.根据权利要求4所述的方法,其特征在于,通过以下步骤获得调权信息:
根据关键词对应的每个视频的长点击次数、长点击率、长点击次数的权重和长点击率的权重确定得到调权信息。
6.根据权利要求5所述的方法,其特征在于,所述根据关键词对应的每个视频的长点击次数、长点击率、长点击次数的权重和长点击率的权重确定得到调权信息,包括:
通过navboost=a*score(long_click)+b*score(long_ctr)得到调权信息;
其中,navboost为调权信息,score(long_click)为长点击次数的归一化结果,score(long_ctr)为长点击率的归一化结果,a为长点击次数的权重,b为长点击率的权重,且a+b=1。
7.根据权利要求6所述的方法,其特征在于,所述根据所述相关度信息、质量信息和调权信息得到删除所述第一类视频后的结果候选集中的每个候选视频的排序分数,包括:
通过finalscore=topicalityα*qualityβ*navboostγ得到排序分数;
其中,finalscore为排序分数,topicality为相关度信息,α、β、γ均为预设参数,且α+β+γ=1。
8.一种视频搜索排序的系统,其特征在于,包括:
结果候选集获取模块,用于根据视频的文本描述信息获得与用户搜索视频的关键词相关的结果候选集;
相关度信息记录模块,用于记录所述结果候选集中每个候选视频与所述关键词的相关度信息;
第一类视频删除模块,用于根据预设的第一数据库中存储的视频信息将所述结果候选集中的第一类视频删除;
质量信息和调权信息获取模块,用于从预设的第二数据库中查询得到删除所述第一类视频后的结果候选集中的每个候选视频的质量信息,并从预设的第三数据库中查询得到删除所述第一类视频后的结果候选集中的每个候选视频针对所述关键词的调权信息;
排序分数确定模块,用于根据所述相关度信息、质量信息和调权信息得到删除所述第一类视频后的结果候选集中的每个候选视频的排序分数;
视频排序模块,用于对得到的每个候选视频的排序分数进行降序排列,并将前K个排序分数对应的候选视频返回用户,K为正整数;
还包括:第一类视频确定模块,用于根据每个视频的总点击次数和短点击次数确定得到第一类视频;
第一数据库确定模块,用于将确定得到的第一类视频存入所述第一数据库中;
其中,所述总点击次数大于总点击阈值,所述短点击为视频的播放时长小于第一短阈值,或播放时长占视频总时长的比值小于第二短阈值的点击操作。
9.根据权利要求8所述的系统,其特征在于,所述第一类视频确定模块,包括:
计算模块,用于计算每个视频的短点击次数与总点击次数的比值,得到短点击率;
确定模块,用于将大于等于第一比值阈值的短点击率对应的视频确定为第一类视频。
10.根据权利要求8所述的系统,其特征在于,还包括:
特征统计模块,用于统计每个视频的特征,所述特征包括:长点击次数、长点击率、平均播放时长、视频清晰度和发布时间;其中,所述长点击为视频的播放时长大于等于第一长阈值,或播放时长占视频总时长的比值大于等于第二长阈值的点击操作;
质量信息确定模块,用于根据每个视频的特征的归一化结果和特征的权重确定得到质量信息。
11.根据权利要求10所述的系统,其特征在于,所述质量信息确定模块通过得到质量信息;
其中,quality为质量信息,feature(i)为特征的归一化结果,weight(i)为特征的权重,且i为每个特征的序号。
12.根据权利要求11所述的系统,其特征在于,还包括:
调权信息确定模块,用于根据关键词对应的每个视频的长点击次数、长点击率、长点击次数的权重和长点击率的权重确定得到调权信息。
13.根据权利要求12所述的系统,其特征在于,所述调权信息确定模块通过navboost=a*score(long_click)+b*score(long_ctr)得到调权信息;
其中,navboost为调权信息,score(long_click)为长点击次数的归一化结果,score(long_ctr)为长点击率的归一化结果,a为长点击次数的权重,b为长点击率的权重,且a+b=1。
14.根据权利要求13所述的系统,其特征在于,所述排序分数确定模块通过finalscore=topicalityα*qualityβ*navboostγ得到排序分数;
其中,finalscore为排序分数,topicality为相关度信息,α、β、γ均为预设参数,且α+β+γ=1。
CN201510634855.4A 2015-09-29 2015-09-29 一种视频搜索排序的方法和系统 Active CN105183897B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510634855.4A CN105183897B (zh) 2015-09-29 2015-09-29 一种视频搜索排序的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510634855.4A CN105183897B (zh) 2015-09-29 2015-09-29 一种视频搜索排序的方法和系统

Publications (2)

Publication Number Publication Date
CN105183897A CN105183897A (zh) 2015-12-23
CN105183897B true CN105183897B (zh) 2018-09-11

Family

ID=54905978

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510634855.4A Active CN105183897B (zh) 2015-09-29 2015-09-29 一种视频搜索排序的方法和系统

Country Status (1)

Country Link
CN (1) CN105183897B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273389A (zh) * 2016-04-08 2017-10-20 北京国双科技有限公司 庭审录像的查询方法和装置
CN106131632A (zh) * 2016-06-29 2016-11-16 乐视控股(北京)有限公司 开机视频播放方法、装置及终端
CN106294536A (zh) * 2016-07-20 2017-01-04 合网络技术(北京)有限公司 一种反作弊视频的方法及装置
CN106326498A (zh) * 2016-10-13 2017-01-11 合网络技术(北京)有限公司 一种作弊视频识别方法及装置
CN108932245A (zh) * 2017-05-24 2018-12-04 合网络技术(北京)有限公司 视频搜索方法及装置
CN107256251B (zh) * 2017-06-08 2020-08-25 阿里巴巴(中国)有限公司 一种应用软件搜索方法、装置及服务器
CN107169131A (zh) * 2017-06-08 2017-09-15 广州优视网络科技有限公司 一种视频搜索方法、装置及服务器
CN107493467B (zh) * 2017-07-06 2019-04-19 北京奇艺世纪科技有限公司 一种视频质量评估方法及装置
CN107368573A (zh) * 2017-07-14 2017-11-21 北京奇艺世纪科技有限公司 视频质量评估方法及装置
CN107577707B (zh) * 2017-07-31 2021-06-18 北京奇艺世纪科技有限公司 一种目标数据集生成方法、装置及电子设备
CN107820125B (zh) * 2017-11-28 2020-03-17 北京小度互娱科技有限公司 基于用户行为优化视频应用体验的方法及装置
CN108280155B (zh) * 2018-01-11 2022-04-08 百度在线网络技术(北京)有限公司 基于短视频的问题检索反馈方法、装置及其设备
CN108764021B (zh) * 2018-04-04 2021-03-26 北京奇艺世纪科技有限公司 一种作弊视频识别方法和装置
CN108984722A (zh) * 2018-07-10 2018-12-11 北京奇艺世纪科技有限公司 一种视频搜索方法及装置
CN110598044B (zh) * 2019-08-01 2022-12-20 达而观信息科技(上海)有限公司 一种基于用户点击和转化时长反馈的协同召回方法
CN113127761A (zh) * 2019-12-31 2021-07-16 中国科学技术信息研究所 用于科技要素检索的智能排序方法、电子设备和存储介质
CN111339356B (zh) * 2020-02-21 2023-07-18 北京字节跳动网络技术有限公司 视频检索中防误判方法、装置及电子设备
CN112052352B (zh) * 2020-09-07 2024-04-30 北京达佳互联信息技术有限公司 视频排序方法、装置、服务器及存储介质
CN112214573A (zh) * 2020-10-30 2021-01-12 数贸科技(北京)有限公司 信息搜索系统、方法、计算设备及计算机存储介质
CN114691906A (zh) * 2020-12-29 2022-07-01 北京达佳互联信息技术有限公司 媒体内容的处理方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101719167A (zh) * 2010-01-15 2010-06-02 北京暴风网际科技有限公司 一种可互动的影视搜索方法
CN102880712A (zh) * 2012-10-08 2013-01-16 合一网络技术(北京)有限公司 一种用于对搜索的网络视频进行排序的方法和系统
CN103136275A (zh) * 2011-12-02 2013-06-05 盛乐信息技术(上海)有限公司 个性化视频推荐系统及方法
CN104462573A (zh) * 2014-12-29 2015-03-25 北京奇艺世纪科技有限公司 一种视频搜索结果展示方法及装置
CN104935967A (zh) * 2015-06-19 2015-09-23 北京数码视讯科技股份有限公司 一种视频终端用户的兴趣识别方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101719167A (zh) * 2010-01-15 2010-06-02 北京暴风网际科技有限公司 一种可互动的影视搜索方法
CN103136275A (zh) * 2011-12-02 2013-06-05 盛乐信息技术(上海)有限公司 个性化视频推荐系统及方法
CN102880712A (zh) * 2012-10-08 2013-01-16 合一网络技术(北京)有限公司 一种用于对搜索的网络视频进行排序的方法和系统
CN104462573A (zh) * 2014-12-29 2015-03-25 北京奇艺世纪科技有限公司 一种视频搜索结果展示方法及装置
CN104935967A (zh) * 2015-06-19 2015-09-23 北京数码视讯科技股份有限公司 一种视频终端用户的兴趣识别方法及装置

Also Published As

Publication number Publication date
CN105183897A (zh) 2015-12-23

Similar Documents

Publication Publication Date Title
CN105183897B (zh) 一种视频搜索排序的方法和系统
JP5078674B2 (ja) 分析システム、情報処理装置、アクティビティ分析方法、およびプログラム
CN105701216B (zh) 一种信息推送方法及装置
Zhao et al. Topical keyphrase extraction from twitter
CN106407484B (zh) 一种基于弹幕语义关联的视频标签提取方法
US9317550B2 (en) Query expansion
WO2017096877A1 (zh) 一种推荐方法和装置
US8694374B1 (en) Detecting click spam
US20130232154A1 (en) Social network message categorization systems and methods
US20130080422A1 (en) Method, Apparatus and System of Intelligent Navigation
CN104469508A (zh) 基于弹幕信息内容进行视频定位的方法、服务器和系统
CN107844525A (zh) 一种基于用户行为的资讯个性化推荐方法、系统及装置
CN110532351B (zh) 推荐词展示方法、装置、设备及计算机可读存储介质
JP2014522004A (ja) 決定されたプリファレンス値に基づく製品情報の送信
US9245035B2 (en) Information processing system, information processing method, program, and non-transitory information storage medium
WO2014056369A1 (zh) 一种用于对搜索的网络视频进行排序的方法和系统
Cao et al. Tracking web video topics: Discovery, visualization, and monitoring
CN113779381B (zh) 资源推荐方法、装置、电子设备和存储介质
JP4714710B2 (ja) 自動タグ付与装置、自動タグ付与方法、自動タグ付与プログラムおよびそのプログラムを記録した記録媒体
CN109885656B (zh) 基于量化热度的微博转发预测方法及装置
O'Hare et al. Leveraging user interaction signals for web image search
CN106604068B (zh) 一种更新媒体节目的方法及其系统
Jie et al. A unified search federation system based on online user feedback
CN104834739A (zh) 互联网信息存储系统
CN103688256A (zh) 基于评论信息确定视频质量参数的方法、装置和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant