CN108304512A - 一种视频搜索引擎粗排序方法、装置及电子设备 - Google Patents

一种视频搜索引擎粗排序方法、装置及电子设备 Download PDF

Info

Publication number
CN108304512A
CN108304512A CN201810056946.8A CN201810056946A CN108304512A CN 108304512 A CN108304512 A CN 108304512A CN 201810056946 A CN201810056946 A CN 201810056946A CN 108304512 A CN108304512 A CN 108304512A
Authority
CN
China
Prior art keywords
video
training
sample
score
training sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810056946.8A
Other languages
English (en)
Other versions
CN108304512B (zh
Inventor
赵晓萌
陈英傑
胡军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201810056946.8A priority Critical patent/CN108304512B/zh
Publication of CN108304512A publication Critical patent/CN108304512A/zh
Application granted granted Critical
Publication of CN108304512B publication Critical patent/CN108304512B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本发明实施例提供了一种视频搜索引擎粗排序方法、装置及电子设备,其中,所述方法包括:获得多个待排序视频;针对每个待排序视频,获得预设维度的维度特征的得分;针对每个待排序视频,根据所述维度特征的得分,使用预设的每个维度特征对应的权重值,计算获得所述每个待排序视频的总得分;按总得分对多个待排序视频进行排序。本发明实施例使视频搜索引擎的搜索结果更符合用户需求,提高用户体验。

Description

一种视频搜索引擎粗排序方法、装置及电子设备
技术领域
本发明涉及视频检索技术领域,特别是涉及一种视频搜索引擎粗排序方法、装置及电子设备。
背景技术
目前,视频搜索引擎在进行视频搜索时,先获得通过用户输入的关键词召回的海量视频;再针对召回的海量视频进行粗排序,筛选出一小部分视频进入精排序;按照精排序的结果,将筛选出的视频作为搜索结果展示给用户。
现有的搜索引擎排序过程如图1所示,在根据搜索词进行视频搜索时,会在以文档形式存储视频的文档库中进行查找,进而从文档库中获得搜索词对应视频所对应的一系列文档,然后对获取的文档进行粗排序,将粗排序的前N位再进行精排序,最后将精排序的结果以及粗排序的N位之后的文档一起作为搜索结果展示给用户。
现有技术中对召回的海量视频进行粗排序,通常采用如下的方法:
获取用户输入的关键词召回的海量视频的视频信息,对视频信息中的特征进行简单分类降维处理。比如,视频信息中包含关键词与召回视频标题、描述等的关系、召回视频被点击的次数、播放的时间、上线时间和更新时间等特征。首先,将这些特征降维至文本相关性、质量、及文档新鲜度等特征,其中,文本相关性特征包括关键词与召回视频标题、描述等的关系等;质量特征包括召回视频被点击的次数、播放的时间等;文档新鲜度特征包括召回视频上线时间和更新时间等。之后,根据经验估算或简单的规则对降维之后的特征进行打分,获取各项特征的得分。针对每条被召回的视频,使用预先根据经验设置的各项特征的权重值,对各项特征的得分进行线性加权后求和,得出每条被召回的视频的总得分,再根据总得分对召回的海量视频进行粗排序。因粗排序阶段需要处理的召回视频数据量比较大,出于其排序方法的复杂度考虑,故其采用的方法相对简单易实现。
然而,发明人在实现本发明的过程中发现,现有技术至少存在如下问题:
由于各项特征的权重值是根据经验人为设置的,而用户进行搜索时的需求不尽相同,用按经验设置的权重值计算出的总得分进行粗排序,最后输出的搜索结果,可能不是用户真正想要搜索的视频。例如:可能会出现如下情况:当用户想搜索“起风了”剧场版电影时,输入的关键字是“起风了宫崎骏”,若粗排序过程给予了文本相关性过高的权重,那么粗排序阶段会返回很多精确包含“起风了宫崎骏”的相关视频,这些视频可能是文本相关性得分很高但质量得分并不高的短视频,而可能没有返回用户想要的文本相关性得分没那么高但质量得分很高的“起风了”剧场版电影,导致用户体验不好;还有可能出现另一种情况:当用户想看的是“小猪佩奇打针”这特定的一集时,输入的关键字是“小猪佩奇打针”,如果粗排序过程过于重视质量得分,给予了质量过高的权重,那么粗排序的结果可能会将质量得分很高的小猪佩奇专辑结果以及电影剧集排在前面,如果网上资源中“小猪佩奇打针”这一集的质量得分不是很高的话,就可能搜索不到这一集,导致用户体验不好。
发明内容
本发明实施例的目的在于提供一种视频搜索引擎粗排序方法、装置及电子设备,以使视频搜索引擎的搜索结果更符合用户需求,提高用户体验。具体技术方案如下:
在本发明实施例的第一方面,公开了一种视频搜索引擎粗排序方法,包括:
获得多个待排序视频;
针对每个待排序视频,获得预设维度的维度特征的得分;
针对每个待排序视频,根据所述维度特征的得分,使用预设的每个维度特征对应的权重值,计算获得所述每个待排序视频的总得分;所述预设的每个维度特征对应的权重值,是预先采用机器学习算法,将从已经保存的第一预设时间段内的搜索日志中获得的视频样本进行训练获得的;
按总得分对多个待排序视频进行排序。
可选地,所述预先采用机器学习算法,将从已经保存的第一预设时间段内的搜索日志中获得的视频样本进行训练,包括:
获取已经保存的第一预设时间段内的搜索日志;
获取所述搜索日志对应的播放日志;
将获取的所有播放日志中的所有视频,确定为训练样本视频;
根据每个训练样本视频的播放时长,对各个训练样本进行打分,将每个训练样本视频的得分确定为训练目标;
针对每个训练样本视频,获得预设维度的维度特征的得分;
构建包含训练样本视频的各个维度特征得分的样本训练集;
将每个训练样本视频的训练目标及样本训练集中每个样本的各个维度特征得分作为训练数据,输入到带权重的逻辑回归Weighted Logistic Regression模型中进行训练,获得每个预设维度的维度特征的最优权重。
可选地,所述获取所述搜索日志对应的播放日志,包括:
获取所述搜索日志对应的所有播放日志;
对获取的所有播放日志进行过滤,过滤掉重复的播放日志,过滤后保留的日志为所述搜索日志对应的播放日志。
可选地,所述根据每个训练样本视频的播放时长,对各个训练样本进行打分,将每个训练样本视频的得分确定为训练目标,包括:
将每个训练样本视频与预设的第一播放时长阈值和第二播放时长阈值进行比较;其中,第一播放时长阈值小于所述第二播放时长阈值;
如果所述训练样本视频播放时长小于预设第一播放时长阈值,则该训练样本视频的得分为预设的最低值,并将所述最低值确定为该训练样本视频的训练目标;
或者,如果所述训练样本视频播放时长大于预设第二播放时长阈值,则该训练样本视频的得分为预设的最高值,并将所述最高值确定为该训练样本视频的训练目标;
或者,如果所述训练样本视频播放时长在所述第一播放时长阈值和第二播放时长阈值之间,则该训练样本视频的得分为预设的中间值,并将所述中间值确定为该训练样本视频的训练目标。
可选地,所述将每个训练样本视频的训练目标及样本训练集中每个样本的各个维度特征得分作为训练数据,输入到带权重的逻辑回归Weighted Logistic Regression模型中进行训练,获得每个预设维度的维度特征的最优权重,包括:
将所述每个训练样本视频的训练目标作为观测值,表示为y;
将样本训练集中每个样本的各个维度特征得分作为特征数据,表示为x;
将所述特征数据与该特征数据对应的虚拟权值进行线性加权加和,得到g(x);
将所述g(x)输入到逻辑函数sigmoid中,获取logistic regression模型预测函数h0(x),所述
使用预设的损失函数进行计算,获得每个预设维度的维度特征的最优权重。
可选地,所述损失函数定义为:
其中,n为训练样本的个数,i为第i个样本,yi为所述观测值,Xi为第i个样本的所有特征构成的一个向量,hθ为logistic regression模型预测函数,wi为样本权重值,所述样本权重值根据所述每个训练样本视频的训练目标获取:
所述label为所述每个训练样本视频的训练目标值。
可选地,在所述针对每个训练样本视频,获得预设维度的维度特征的得分之前,还包括:
从所述获取的搜索日志中,获取预设数量个搜索结果中的未被播放视频,作为训练样本视频;
将获取的每个未被播放视频的得分确定为预设的最低值;
将所述最低值确定为所述获取的每个未被播放视频的训练目标。
可选地,所述针对每个训练样本视频,获得预设维度的维度特征的得分,包括:
使用离线恢复的方法,获取训练样本视频预设维度的维度特征;
获取该样本预设维度的维度特征得分。
可选地,所述预设维度的维度特征包括:视频原始特征、搜索词与搜索日志的文本相关性特征和用户行为数据;
所述视频原始特征包括:视频新鲜度、视频时长和视频数据类型;
所述用户行为数据包括,视频在预设的历史时间段内点击信息。
在本发明实施的第二方面,公开了一种视频搜索引擎粗排序装置,包括:
第一获取模块,用于获得多个待排序视频;
第二获取模块,用于针对每个待排序视频,获得预设维度的维度特征的得分;
总得分计算模块,用于针对每个待排序视频,根据所述维度特征的得分,使用预设的每个维度特征对应的权重值,计算获得所述每个待排序视频的总得分;所述预设的每个维度特征对应的权重值,是预先采用机器学习算法,将从已经保存的第一预设时间段内的搜索日志中获得的视频样本进行训练获得的;
排序模块,用于按总得分对多个待排序视频进行排序。
可选地,所述装置还包括训练模块;
所述训练模块包括:
第一获取子模块,用于获取已经保存的第一预设时间段内的搜索日志;
第二获取子模块,用于获取所述搜索日志对应的播放日志;
训练样本确定子模块,用于将获取的所有播放日志中的所有视频,确定为训练样本视频;
第一训练目标确定子模块,用于根据每个训练样本视频的播放时长,对各个训练样本进行打分,将每个训练样本视频的得分确定为训练目标;
特征得分获取子模块,用于针对每个训练样本视频,获得预设维度的维度特征的得分;
样本训练集构建子模块,用于构建包含训练样本视频的各个维度特征得分的样本训练集;
权重获取子模块,用于将每个训练样本视频的训练目标及样本训练集中每个样本的各个维度特征得分作为训练数据,输入到带权重的逻辑回归Weighted LogisticRegression模型中进行训练,获得每个预设维度的维度特征的最优权重。
可选地,所述第二获取子模块,具体用于:
获取所述搜索日志对应的所有播放日志;
对获取的所有播放日志进行过滤,过滤掉重复的播放日志,过滤后保留的日志为所述搜索日志对应的播放日志。
可选地,所述第一训练目标确定子模块,具体用于:
将每个训练样本视频与预设的第一播放时长阈值和第二播放时长阈值进行比较;其中,第一播放时长阈值小于所述第二播放时长阈值;
如果所述训练样本视频播放时长小于预设第一播放时长阈值,则该训练样本视频的得分为预设的最低值,并将所述最低值确定为该训练样本视频的训练目标;
或者,如果所述训练样本视频播放时长大于预设第二播放时长阈值,则该训练样本视频的得分为预设的最高值,并将所述最高值确定为该训练样本视频的训练目标;
或者,如果所述训练样本视频播放时长在所述第一播放时长阈值和第二播放时长阈值之间,则该训练样本视频的得分为预设的中间值,并将所述中间值确定为该训练样本视频的训练目标。
可选地,所述权重获取子模块,具体用于:
将所述每个训练样本视频的训练目标作为观测值,表示为y;
将样本训练集中每个样本的各个维度特征得分作为特征数据,表示为x;
将所述特征数据与该特征数据对应的虚拟权值进行线性加权加和,得到g(x);
将所述g(x)输入到逻辑函数sigmoid中,获取logistic regression模型预测函数hθ(x),所述
使用预设的损失函数进行计算,获得每个预设维度的维度特征的最优权重,所述损失函数为:
其中,n为训练样本的个数,i为第i个样本,yi为所述观测值,Xi为第i个样本的所有特征构成的一个向量,hθ为logistic regression模型预测函数,wi为样本权重值,所述样本权重值根据所述每个训练样本视频的训练目标获取:
所述label为所述每个训练样本视频的训练目标值。
可选地,所述训练模块还包括第二训练目标确定子模块;
所述第二训练目标确定子模块,用于在所述针对每个训练样本视频,获得预设维度的维度特征的得分之前,从所述获取的搜索日志中,获取预设数量个搜索结果中的未被播放视频,作为训练样本视频;
将获取的每个未被播放视频的得分确定为预设的最低值;
将所述最低值确定为所述获取的每个未被播放视频的训练目标。
可选地,所述特征得分获取子模块,具体用于:
使用离线恢复的方法,获取训练样本视频预设维度的维度特征;
获取该样本预设维度的维度特征得分;所述预设维度的维度特征包括:视频原始特征、搜索词与搜索日志的文本相关性特征和用户行为数据;
所述视频原始特征包括:视频新鲜度、视频时长和视频数据类型;
所述用户行为数据包括,视频在预设的历史时间段内点击信息。
在本发明实施的又一方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现上述第一方面所述的视频搜索引擎粗排序方法。
在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面所述的视频搜索引擎粗排序方法。
在本发明实施的又一方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面所述的视频搜索引擎粗排序方法。
本发明实施例提供的一种视频搜索引擎粗排序方法、装置及电子设备,针对视频搜索引擎,获得多个待排序视频,针对每个待排序视频,获得预设维度的维度特征的得分,针对每个待排序视频,根据所述维度特征的得分,使用预设的每个维度特征对应的权重值,计算获得所述每个待排序视频的总得分;所述预设的每个维度特征对应的权重值,是预先采用机器学习算法,将从已经保存的第一预设时间段内的搜索日志中获得的视频样本进行训练获得的;按总得分对多个待排序视频进行排序。本发明实施例中,预先采用机器学习算法,将已经保存的第一预设时间段内的搜索日志作为训练样本进行训练,获得每个维度特征对应的权重值,克服了现有的粗排序方法中经验的给出各项特征权重的人为主观性,使粗排序中各项特征权重达到更优,进而视频搜索引擎粗排序效果更优,搜索结果更符合用户需求,提高用户体验。当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为现有的一种搜索引擎排序流程图;
图2为本发明实施例提供的一种视频搜索引擎粗排序方法流程图;
图3为本发明实施例中采用机器学习算法,训练获取维度特征权重的一种流程图;
图4为本发明实施例的一种视频搜索引擎粗排序装置结构示意图;
图5为本发明实施例训练模块的结构示意图;
图6为本发明实施例的一种电子设备结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
首先对本发明实施例所提供的一种视频搜索引擎粗排序方法进行介绍,该方法可以包括以下步骤:
获得多个待排序视频;
针对每个待排序视频,获得预设维度的维度特征的得分;
针对每个待排序视频,根据所述维度特征的得分,使用预设的每个维度特征对应的权重值,计算获得所述每个待排序视频的总得分;所述预设的每个维度特征对应的权重值,是预先采用机器学习算法,将从已经保存的第一预设时间段内的搜索日志中获得的视频样本进行训练获得的;
按总得分对多个待排序视频进行排序。
需要说明的是,本发明实施例所提供的一种视频搜索引擎粗排序方法,该方法可以用于任何视频搜索引擎,及涉及到视频搜索排序的任何应用中,其具体形式本发明实施例在此并不需要进行限定。
本发明实施例中,预先采用机器学习算法,将已经保存的第一预设时间段内的搜索日志作为训练样本进行训练,获得每个维度特征对应的权重值,克服了现有的粗排序方法中经验的给出各项特征权重的人为主观性,使粗排序中各项特征权重达到更优,进而视频搜索引擎粗排序效果更优,搜索结果更符合用户需求,提高用户体验。
下面对本发明实施例的第一方面所提供的一种视频搜索引擎粗排序方法的步骤进行详细介绍。图2所示的是本发明实施例的一种视频搜索引擎粗排序方法流程图,可以包括以下步骤:
S201,获得多个待排序视频。
当用户需要搜索想要观看的视频时,可以通过搜索词在视频搜索引擎中进行搜索,视频搜索引擎服务器获取通过搜索词搜索得到的多个待排序视频,视频搜索引擎服务器在获取多个待排序视频之后,触发后续的对多个待排序视频进行粗排序的流程。
S202,针对每个待排序视频,获得预设维度的维度特征的得分。
一种具体的实现方式可以是:当获取多个待排序视频之后,通过视频名称,视频标识等查询存储这些视频的视频数据库,获取每个待排序视频对应的预设维度的维度特征,即视频相关特征,同时获取视频数据库中这些视频对应的维度特征的得分。
其中,有些维度特征的得分是可以直接从视频数据库中读取的,有些则需要通过从视频数据库中得到的数据计算获取。例如,视频时长、视频数据类型等视频特征得分可以从视频数据库中直接读取,而视频新鲜度、搜索词与搜索日志的文本相关性特征、以及用户行为数据特征的得分可以通过从视频数据库中得到的数据计算获取。具体的可以为,所述视频新鲜度得分,可以通过计算从视频数据库中得到的用户搜索时间与视频最近更新时间差值的绝对值来获取;所述搜索词与搜索日志的文本相关性特征得分,可以通过使用BM25,VSM,语言模型,或文本重合概率之中的一种或多种方式计算获取;所述用户行为数据特征的得分,可以通过统计视频数据库中用户的点击、搜索次数等进行计算来获取特征得分。当然,本申请只是以上述实现方式进行说明,实际应用中获得每个待排序视频之后,获取这些视频对应的预设维度的维度特征得分的方式并不仅限于此。
需要说明的是,本发明实施例中预设维度可以是20维,30维,或更多维,具体的预设维度值可根据实际需求进行设置,在此不作限制。
S203,针对每个待排序视频,根据所述维度特征的得分,使用预设的每个维度特征对应的权重值,计算获得所述每个待排序视频的总得分;所述预设的每个维度特征对应的权重值,是预先采用机器学习算法,将从已经保存的第一预设时间段内的搜索日志中获得的视频样本进行训练获得的。
本发明实施例中,一种获取每个待排序视频总得分的方法可以是:对获取的每个待排序视频对应的预设维度的维度特征得分,使用线性加权加和的方法,获得所述每个待排序视频的总得分。例如,总得分的一种计算公式可以为:
S=x1β1+x2β2+…+xnβn
其中,xn为第n个维度特征得分,βn为第n个维度特征对应的权重值,n为预设维度的个数,S为计算得到的总得分。
在本发明实施例中,所述预设的每个维度特征对应的权重值,是预先采用机器学习算法,将从已经保存的第一预设时间段内的搜索日志中获得的视频样本进行训练获得的。具体获取预设的每个维度特征对应的权重值的方法将在下文中详细描述,此处不再赘述。可选地,所述预设的维度特征的个数和上述预设维度的个数是相同的。
S204,按总得分对多个待排序视频进行排序。
本发明实施例中,计算获取每个待排序视频的总得分之后,按照总得分对多个待排序视频进行排序。可选地,可以按照总得分的从高到底,或从低到高的方式对多个待排序视频进行排序,也可以采用现有技术中的排序方法按照总得分对多个待排序视频进行排序,具体排序方式在此不作限制。
本发明实施例中,预先采用机器学习算法,将已经保存的第一预设时间段内的搜索日志作为训练样本进行训练,获得每个维度特征对应的权重值,克服了现有的粗排序方法中经验的给出各项特征权重的人为主观性,使粗排序中各项特征权重达到更优,进而视频搜索引擎粗排序效果更优,搜索结果更符合用户需求,提高用户体验。
参见图3,本发明实施例中采用机器学习算法,训练获取维度特征权重的步骤,可以包括:
S301,获取已经保存的第一预设时间段内的搜索日志。
在实际应用中,可以获取最近一周的搜索日志,或指定时间段内的搜索日志,并对获取的搜索日志进行保存。可以理解,此处的搜索日志可以为,根据搜索词搜索获取的每一条视频搜索结果,将一条视频搜索结果作为一条搜索日志。该步骤中的第一预设时间段可以是最近一周,也可以是最近一月,或指定的时间段,具体如何确定第一预设时间段,本发明实施例在此不作具体的限定,本领域技术人员可以根据实际情况选择,以满足视频搜索中差异性的需求。
本发明实施例中,对获取的搜索日志进行保存,保存的搜索日志可以包含以下特征:用户搜索的事件标识(event_id)、用户标识(uid)、输入检索词(query)、视频标识(video_id)、视频是否被用户点击(is_click)以及用户的播放时长(watch_time),保存的格式可以为:
event_id \t uid \t query \t video_id \t is_click \t watch_time
当然,本发明实施例只是以上述实现方式进行说明,实际应用中对搜索日志格式保存并不仅限于此。
S302,获取所述搜索日志对应的播放日志。
本发明实施例中,获取的搜索日志中可以包括:用户点击播放的日志、用户没有点击的日志、用户没有点击且排序靠后的日志等。该步骤中需要获取搜索日志中所有用户点击播放的日志,例如,可以通过播放时长来选取搜索日志中所有用户点击播放的日志,具体如何选取搜索日志中用户点击播放的日志,本发明实施例在此不作具体的限定。
进一步地,获取搜索日志中所有用户点击播放日志之后,可以对所有的用户点击播放日志进行过滤,过滤掉重复的播放日志,过滤后保留的日志作为所述搜索日志对应的播放日志,将所述播放日志作为正样本。更进一步地,过滤掉重复的播放日志可以通过以下任一方式,或多个方式组合使用来实现。
其中,步骤S302的一种实现方式可以为:通过获取所述搜索日志中用户点击播放的日志对应的用户标识,判断同一用户标识的用户是否在第二预设时间段内对同一视频进行了多次搜索或多次点击,如果是则仅保留一条该用户对该视频搜索生成的日志,过滤掉其他重复的日志。
例如,获取的搜索日志中用户点击播放的日志对应的用户标识是用户A,用户A在一个小时内对同一个视频进行了多次的搜索和点击,此时会生成针对该用户和这个视频的多条日志,那么就可以只保留一条日志。保留的一条日志可以是播放时长最长的那条日志,也可以是任一条日志,将其他的日志删除,也就是过滤掉。
另一种实现方式可以为:根据用户的IP地址,将使用同一IP地址的用户在第三预设时间段内对同一视频进行多次搜索或多次点击生成的日志进行过滤。还有一种实现方式可以为:根据用户所属的IP段,将同一IP段内的用户在第四预设时间段内对同一视频进行多次搜索或多次点击生成的日志进行过滤。本领域技术人员可以理解,上述的第二预设时间段、第三预设时间段、第四预设时间段、以及搜索次数、点击次数可以根据实际情况进行设置。
需要说明的是,本申请只是以上述实现方式进行说明,实际应用中过滤掉重复的播放日志的方式并不仅限于此。
S303,将获取的所有播放日志中的所有视频,确定为训练样本视频。
在该步骤中,所获取的一条播放日志对应一条视频搜索结果,将所获取的所有播放日志中的每条视频搜索结果,确定为训练样本视频。
S304,根据每个训练样本视频的播放时长,对各个训练样本进行打分,将每个训练样本视频的得分确定为训练目标。
可选地,根据每个训练样本视频的播放时长,对各个训练样本进行打分,将每个训练样本视频的得分确定为训练目标,可以包括:
将每个训练样本视频与预设的第一播放时长阈值和第二播放时长阈值进行比较;其中,第一播放时长阈值小于所述第二播放时长阈值;
如果所述训练样本视频播放时长小于预设第一播放时长阈值,则该训练样本视频的得分为预设的最低值,并将所述最低值确定为该训练样本视频的训练目标;
或者,如果所述训练样本视频播放时长大于预设第二播放时长阈值,则该训练样本视频的得分为预设的最高值,并将所述最高值确定为该训练样本视频的训练目标;
或者,如果所述训练样本视频播放时长在所述第一播放时长阈值和第二播放时长阈值之间,则该训练样本视频的得分为预设的中间值,并将所述中间值确定为该训练样本视频的训练目标。
本发明实施例中,预设的最低值可以是0,中间值是1,最高值是2。基于用户播放时长对所述每个训练样本视频进行打分,其打分标准可以设置如表1所示。所述第一播放时长阈值可以表示为short_click_threshold,所述第二播放时长阈值可以表示为long_click_threshold。例如,可以根据用户播放时长对所述每个训练样本视频进行如下打分:当所述训练样本视频播放时长小于short_click_threshold时,将其打分为0,设置其标签label为0,表示本次用户点击播放属于误操作,或者用户点击播放的不是用户想要观看的视频;当所述训练样本视频播放时长大于long_click_threshold时,将其打分为2,设置其标签label为2,表示用户很满意本次的搜索结果;当所述训练样本视频播放时长在short_click_threshold和long_click_threshold之间时,将其打分为1,设置其标签label为1,表示用户对本次的搜索结果一般满意。可选的,将上述最低值表示为label为0,最高值表示为label为2,中间值表示为label为1。
表1 一种基于用户播放时长打分标准
在本发明实施例中,对于short_click_threshold和long_click_threshold,可以根据不同的视频时长进行分类,相似视频时长的视频采用相同的长短点击阈值。例如,视频总时长在30分钟以内的划分为短视频,视频总时长在2个小时以内的划分为中等视频,视频总时长在3个小时以上的划分为长视频;将短视频的short_click_threshold可以设置为10分钟,long_click_threshold可以设置为20分钟;中等视频的short_click_threshold可以设置为30分钟,long_click_threshold可以设置为60分钟;长视频的short_click_threshold可以设置为1个小时,long_click_threshold可以设置为3个小时,等等。当然,本发明实施例只是以上述实现方式进行说明,实际应用中对视频按时长进行分类,设置长短点击阈值的方式并不仅限于此。
在本发明实施例中,获取的搜索日志中可以包括:用户点击播放的日志、用户没有点击的日志、用户没有点击且排序靠后的日志等。在获取搜索日志对应的播放日志之后,可以还包括:
从所述获取的搜索日志中,获取预设数量个搜索结果中的未被播放视频,作为训练样本视频;
将获取的每个未被播放视频的得分确定为预设的最低值;
将所述最低值确定为所述获取的每个未被播放视频的训练目标。
本发明实施例中,进一步从所述获取的搜索日志中,获取预设数量个搜索结果中的未被播放视频,作为训练样本视频,这些未被播放视频是被作为负样本参与训练的。这里,获取负样本的过程可以被称为负采样。
本发明实施例中负采样的一种实现方式可以为:获取搜索日志中用户没有点击的日志、用户没有点击且排序靠后的日志、及搜索词与搜索日志文本相关性特征得分小于预设阈值的搜索日志作为负采样的负样本。其中,所述搜索词与搜索日志的文本相关性特征得分,可以通过使用BM25,VSM,语言模型,或文本重合概率之中的一种或多种方式计算获取,另本领域技术人员可根据实际需求进行设置预设阈值的大小。因获取的搜索日志中可能存在的负样本比较多,为了使负样本的数量和正样本的数量相当,可以使用降采样的方法减少负样本的数量,以使最终获取的负样本的数量和正样本的数量相当。所述降采样的一种实现方式可以为:随机提取负样本,以使负样本的数量和正样本的数量相同。
进一步地,在获取和正样本数量相同的负样本之后,将获取的负样本(即未被播放视频)的得分确定为预设的最低值,即将负样本的得分确定label为0,并将其确定为训练目标之一。
S305,针对每个训练样本视频,获得预设维度的维度特征的得分。
可选地,所述针对每个训练样本视频,获得预设维度的维度特征的得分,包括:
使用离线恢复的方法,获取训练样本视频预设维度的维度特征;
获取该样本预设维度的维度特征得分。
本发明实施例中,步骤S301在获取搜索日志时,获取的搜索日志包含了部分视频特征,其并没有保存搜索日志的全部视频特征。因此需要进行视频特征的恢复,在进行视频特征恢复时可以根据已有的这些视频特征找到视频数据库中对应的视频,然后根据需求进行视频特征的恢复。
本发明实施例中步骤S305的一种实现方法可以为:使用离线恢复的方法,根据获取搜索日志时,获取的搜索日志中包含的视频标识,查询视频数据库中对应存储该视频标识对应的视频的全部视频特征,在该视频全部视频特征中获取预设维度的维度特征。
可选地,所述预设维度的维度特征包括:视频原始特征、搜索词与搜索日志的文本相关性特征和用户行为数据;
所述视频原始特征包括:视频新鲜度、视频时长和视频数据类型;
所述用户行为数据包括,视频在预设的历史时间段内点击信息。
本发明实施例中,另一种情况下,预设维度的维度特征里有些维度特征的得分是可以直接从视频数据库中读取的,有些则需要通过从视频数据库中得到的数据计算获取。例如,视频时长、视频数据类型等视频特征得分可以从视频数据库中直接读取,而视频新鲜度、搜索词与搜索日志的文本相关性特征、以及用户行为数据特征的得分可以通过从视频数据库中得到的数据计算获取。具体的可以为,所述视频新鲜度得分,可以通过计算从视频数据库中得到的用户搜索时间与视频最近更新时间差值的绝对值来获取;所述搜索词与搜索日志的文本相关性特征得分,可以通过使用BM25,VSM,语言模型,或文本重合概率之中的一种或多种方式计算获取;所述视频在预设的历史时间段内点击信息得分,比如,点击次数、点击时间等特征得分,可以通过统计视频数据库中用户的点击、搜索次数或点击时间等进行计算来获取特征得分。类似的,本申请只是以上述实现方式进行说明,实际应用中获取训练样本视频之后,获取这些视频对应的预设维度的维度特征得分的方式并不仅限于此。
本发明实施例中,针对每个训练样本视频,获得预设维度的维度特征的得分之后,所述训练样本视频保存的格式可以为:
event_id \t query \t video_id \t 1abel \t feature_id:value,feature_id:value...
其中,所述feature_id为训练样本视频的特征标识,所述value为训练样本视频的特征得分。
S306,构建包含训练样本视频的各个维度特征得分的样本训练集。
S307,将每个训练样本视频的训练目标及样本训练集中每个样本的各个维度特征得分作为训练数据,输入到带权重的逻辑回归Weighted Logistic Regression模型中进行训练,获得每个预设维度的维度特征的最优权重。
可选地,该步骤包括:
将所述每个训练样本视频的训练目标作为观测值,表示为y;
将样本训练集中每个样本的各个维度特征得分作为特征数据,表示为x;
将所述特征数据与该特征数据对应的虚拟权值进行线性加权加和,得到g(x);
将所述g(x)输入到逻辑函数sigmoid中,获取logistic regression模型预测函数hθ(x),所述
使用预设的损失函数进行计算,获得每个预设维度的维度特征的最优权重。
本发明实施例中,将所述每个训练样本视频的训练目标作为观测值,表示为y。所述训练目标可以为label为0,label为1,和label为2,将所述label为0的样本视频的y值设置为0,将所述label为1和label为2的样本视频的y值设置为1。将样本训练集中每个样本的各个维度特征得分作为特征数据,表示为x,例如将第i个样本的各个维度特征得分的特征数据表示为xi,xi为第i个样本的预设维度的维度特征得分的一个向量。
进一步地,将所述观测值及特征数据输入到逻辑回归模型中进行训练,为每个预设维度的维度特征得分设置对应的虚拟权值,将所述特征数据与该特征数据对应的虚拟权值进行线性加权加和,得到g(t)值。例如,g(x)=ω01×t12×t3+…+ωm×tm,其中,t1,t2,…,tm是某一个样本的各个数据特征,此处m表示预设维度,ω1,ω2,…,ωm为虚拟权值。
更进一步地,将所述g(x)值输入到逻辑函数sigmoid中,获取logisticregression模型预测函数hθ(x),所述所述sigmoid函数表示为然后,使用预设的损失函数进行计算,通过判断计算得到的损失函数值是否达到最小或小于预设的阈值ε,获得每个预设维度的维度特征的最优权重。
可选地,所述损失函数定义为:
其中,“*”表示相乘,n为训练样本的个数,i为第i个样本,yi为所述观测值,Xi为第i个样本的所有特征构成的一个向量,hθ为logistic regression模型预测函数,wi为样本权重值,所述样本权重值根据所述每个训练样本视频的训练目标获取:
所述label为所述每个训练样本视频的训练目标值。
本发明实施例中,所述样本权重值根据所述每个训练样本视频的训练目标获取,具体的,一种w获取方式可以为:所述训练目标可以为label为0,label为1,和label为2,将所述label为0和label为1的样本视频的样本权重值w设置为1,将所述label为2的样本视频的样本权重值w设置为2。
本发明实施例提供的一种视频搜索引擎粗排序方法,针对视频搜索引擎,获得多个待排序视频,针对每个待排序视频,获得预设维度的维度特征的得分,针对每个待排序视频,根据所述维度特征的得分,使用预设的每个维度特征对应的权重值,计算获得所述每个待排序视频的总得分;所述预设的每个维度特征对应的权重值,是预先采用机器学习算法,将从已经保存的第一预设时间段内的搜索日志中获得的视频样本进行训练获得的;按总得分对多个待排序视频进行排序。本发明实施例中,预先采用机器学习算法,将已经保存的第一预设时间段内的搜索日志作为训练样本进行训练,获得每个维度特征对应的权重值,克服了现有的粗排序方法中经验的给出各项特征权重的人为主观性,使粗排序中各项特征权重达到更优,进而视频搜索引擎粗排序效果更优,搜索结果更符合用户需求,提高用户体验。
与前述视频搜索引擎粗排序方法相对应,在本发明实施的第二方面,还提供了一种视频搜索引擎粗排序装置。图4为本发明实施例提供的一种视频搜索引擎粗排序装置的结构示意图,该装置包括:
第一获取模块401,用于获得多个待排序视频;
第二获取模块402,用于针对每个待排序视频,获得预设维度的维度特征的得分;
总得分计算模块403,用于针对每个待排序视频,根据所述维度特征的得分,使用预设的每个维度特征对应的权重值,计算获得所述每个待排序视频的总得分;所述预设的每个维度特征对应的权重值,是预先采用机器学习算法,将从已经保存的第一预设时间段内的搜索日志中获得的视频样本进行训练获得的;
排序模块404,用于按总得分对多个待排序视频进行排序。
本发明实施例提供的一种视频搜索引擎粗排序装置,可以针对视频搜索引擎,获得多个待排序视频,针对每个待排序视频,获得预设维度的维度特征的得分,针对每个待排序视频,根据所述维度特征的得分,使用预设的每个维度特征对应的权重值,计算获得所述每个待排序视频的总得分;所述预设的每个维度特征对应的权重值,是预先采用机器学习算法,将从已经保存的第一预设时间段内的搜索日志中获得的视频样本进行训练获得的;按总得分对多个待排序视频进行排序。本发明实施例中,预先采用机器学习算法,将已经保存的第一预设时间段内的搜索日志作为训练样本进行训练,获得每个维度特征对应的权重值,克服了现有的粗排序方法中经验的给出各项特征权重的人为主观性,使粗排序中各项特征权重达到更优,进而视频搜索引擎粗排序效果更优,搜索结果更符合用户需求,提高用户体验。
需要说明的是,本发明实施例的装置是应用上述一种视频搜索引擎粗排序方法的装置,则上述视频搜索引擎粗排序方法的所有实施例均适用于该装置,且均能达到相同或相似的有益效果。
可选地,如图5所示,图5为本发明实施例训练模块的结构示意图,在本发明视频搜索引擎粗排序装置的一种实施例中,所述装置还包括训练模块;所述训练模块,包括:
第一获取子模块501,用于获取已经保存的第一预设时间段内的搜索日志;
第二获取子模块502,用于获取所述搜索日志对应的播放日志;
训练样本确定子模块503,用于将获取的所有播放日志中的所有视频,确定为训练样本视频;
第一训练目标确定子模块504,用于根据每个训练样本视频的播放时长,对各个训练样本进行打分,将每个训练样本视频的得分确定为训练目标;
特征得分获取子模块506,用于针对每个训练样本视频,获得预设维度的维度特征的得分;
样本训练集构建子模块507,用于构建包含训练样本视频的各个维度特征得分的样本训练集;
权重获取子模块508,用于将每个训练样本视频的训练目标及样本训练集中每个样本的各个维度特征得分作为训练数据,输入到带权重的逻辑回归Weighted LogisticRegression模型中进行训练,获得每个预设维度的维度特征的最优权重。
可选地,在本发明的一种具体实施方式中,第二获取子模块502具体用于:
获取所述搜索日志对应的所有播放日志;
对获取的所有播放日志进行过滤,过滤掉重复的播放日志,过滤后保留的日志为所述搜索日志对应的播放日志。
可选地,本发明的一种具体实施方式中,第一训练目标确定子模块504具体用于:
将每个训练样本视频与预设的第一播放时长阈值和第二播放时长阈值进行比较;其中,第一播放时长阈值小于所述第二播放时长阈值;
如果所述训练样本视频播放时长小于预设第一播放时长阈值,则该训练样本视频的得分为预设的最低值,并将所述最低值确定为该训练样本视频的训练目标;
或者,如果所述训练样本视频播放时长大于预设第二播放时长阈值,则该训练样本视频的得分为预设的最高值,并将所述最高值确定为该训练样本视频的训练目标;
或者,如果所述训练样本视频播放时长在所述第一播放时长阈值和第二播放时长阈值之间,则该训练样本视频的得分为预设的中间值,并将所述中间值确定为该训练样本视频的训练目标。
可选地,本发明的一种具体实施方式中,权重获取子模块508具体用于:
将所述每个训练样本视频的训练目标作为观测值,表示为y;
将样本训练集中每个样本的各个维度特征得分作为特征数据,表示为x;
将所述特征数据与该特征数据对应的虚拟权值进行线性加权加和,得到g(x);
将所述g(x)输入到逻辑函数sigmoid中,获取logistic regression模型预测函数hθ(x),所述
使用预设的损失函数进行计算,获得每个预设维度的维度特征的最优权重,所述损失函数为:
其中,n为训练样本的个数,i为第i个样本,yi为所述观测值,Xi为第i个样本的所有特征构成的一个向量,hθ为logistic regression模型预测函数,wi为样本权重值,所述样本权重值根据所述每个训练样本视频的训练目标获取:
所述label为所述每个训练样本视频的训练目标值。
可选地,本发明的一种具体实施方式中,训练模块还包括第二训练目标确定子模块505;第二训练目标确定子模块505,用于:
在所述针对每个训练样本视频,获得预设维度的维度特征的得分之前,从所述获取的搜索日志中,获取预设数量个搜索结果中的未被播放视频,作为训练样本视频;
将获取的每个未被播放视频的得分确定为预设的最低值;
将所述最低值确定为所述获取的每个未被播放视频的训练目标。
可选地,本发明的一种具体实施方式中,特征得分获取子模块506具体用于:
使用离线恢复的方法,获取训练样本视频预设维度的维度特征;
获取该样本预设维度的维度特征得分;所述预设维度的维度特征包括:视频原始特征、搜索词与搜索日志的文本相关性特征和用户行为数据;
所述视频原始特征包括:视频新鲜度、视频时长和视频数据类型;
所述用户行为数据包括,视频在预设的历史时间段内点击信息。
本发明实施例提供的一种视频搜索引擎粗排序装置,预先采用机器学习算法,将已经保存的第一预设时间段内的搜索日志作为训练样本进行训练,获得每个维度特征对应的权重值,克服了现有的粗排序方法中经验的给出各项特征权重的人为主观性,使粗排序中各项特征权重达到更优,进而视频搜索引擎粗排序效果更优,搜索结果更符合用户需求,提高用户体验。
在本发明实施的又一方面,还提供了一种电子设备,如图6所示。图6为本发明实施例的一种电子设备结构示意图,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601、通信接口602、存储器603通过通信总线604完成相互间的通信;
存储器603,用于存放计算机程序;
处理器601,用于执行存储器603上所存放的程序时,实现如下步骤:
获得多个待排序视频;
针对每个待排序视频,获得预设维度的维度特征的得分;
针对每个待排序视频,根据所述维度特征的得分,使用预设的每个维度特征对应的权重值,计算获得所述每个待排序视频的总得分;所述预设的每个维度特征对应的权重值,是预先采用机器学习算法,将从已经保存的第一预设时间段内的搜索日志中获得的视频样本进行训练获得的;
按总得分对多个待排序视频进行排序。
上述电子设备提到的通信总线604可以是外设部件互连标准(PeripheralComponent Interconnect,简称PCI)总线或扩展工业标准结构(Extended IndustryStandard Architecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口602用于上述电子设备与其他设备之间的通信。
存储器603可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器603还可以是至少一个位于远离前述处理器601的存储装置。
上述的处理器601可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明实施例提供的一种电子设备,可以针对视频搜索引擎,获得多个待排序视频,针对每个待排序视频,获得预设维度的维度特征的得分,针对每个待排序视频,根据所述维度特征的得分,使用预设的每个维度特征对应的权重值,计算获得所述每个待排序视频的总得分;所述预设的每个维度特征对应的权重值,是预先采用机器学习算法,将从已经保存的第一预设时间段内的搜索日志中获得的视频样本进行训练获得的;按总得分对多个待排序视频进行排序。本发明实施例中,预先采用机器学习算法,将已经保存的第一预设时间段内的搜索日志作为训练样本进行训练,获得每个维度特征对应的权重值,克服了现有的粗排序方法中经验的给出各项特征权重的人为主观性,使粗排序中各项特征权重达到更优,进而视频搜索引擎粗排序效果更优,搜索结果更符合用户需求,提高用户体验。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的视频搜索引擎粗排序方法。
本发明实施例提供的一种计算机可读存储介质,预先采用机器学习算法,将已经保存的第一预设时间段内的搜索日志作为训练样本进行训练,获得每个维度特征对应的权重值,克服了现有的粗排序方法中经验的给出各项特征权重的人为主观性,使粗排序中各项特征权重达到更优,进而视频搜索引擎粗排序效果更优,搜索结果更符合用户需求,提高用户体验。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的视频搜索引擎粗排序方法。
本发明实施例提供的一种包含指令的计算机程序产品,预先采用机器学习算法,将已经保存的第一预设时间段内的搜索日志作为训练样本进行训练,获得每个维度特征对应的权重值,克服了现有的粗排序方法中经验的给出各项特征权重的人为主观性,使粗排序中各项特征权重达到更优,进而视频搜索引擎粗排序效果更优,搜索结果更符合用户需求,提高用户体验。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、存储介质、计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

Claims (17)

1.一种视频搜索引擎粗排序方法,其特征在于,包括:
获得多个待排序视频;
针对每个待排序视频,获得预设维度的维度特征的得分;
针对每个待排序视频,根据所述维度特征的得分,使用预设的每个维度特征对应的权重值,计算获得所述每个待排序视频的总得分;所述预设的每个维度特征对应的权重值,是预先采用机器学习算法,将从已经保存的第一预设时间段内的搜索日志中获得的视频样本进行训练获得的;
按总得分对多个待排序视频进行排序。
2.根据权利要求1所述的方法,其特征在于,所述预先采用机器学习算法,将从已经保存的第一预设时间段内的搜索日志中获得的视频样本进行训练,包括:
获取已经保存的第一预设时间段内的搜索日志;
获取所述搜索日志对应的播放日志;
将获取的所有播放日志中的所有视频,确定为训练样本视频;
根据每个训练样本视频的播放时长,对各个训练样本进行打分,将每个训练样本视频的得分确定为训练目标;
针对每个训练样本视频,获得预设维度的维度特征的得分;
构建包含训练样本视频的各个维度特征得分的样本训练集;
将每个训练样本视频的训练目标及样本训练集中每个样本的各个维度特征得分作为训练数据,输入到带权重的逻辑回归Weighted Logistic Regression模型中进行训练,获得每个预设维度的维度特征的最优权重。
3.根据权利要求2所述的方法,其特征在于,所述获取所述搜索日志对应的播放日志,包括:
获取所述搜索日志对应的所有播放日志;
对获取的所有播放日志进行过滤,过滤掉重复的播放日志,过滤后保留的日志为所述搜索日志对应的播放日志。
4.根据权利要求2所述的方法,其特征在于,所述根据每个训练样本视频的播放时长,对各个训练样本进行打分,将每个训练样本视频的得分确定为训练目标,包括:
将每个训练样本视频与预设的第一播放时长阈值和第二播放时长阈值进行比较;其中,第一播放时长阈值小于所述第二播放时长阈值;
如果所述训练样本视频播放时长小于预设第一播放时长阈值,则该训练样本视频的得分为预设的最低值,并将所述最低值确定为该训练样本视频的训练目标;
或者,如果所述训练样本视频播放时长大于预设第二播放时长阈值,则该训练样本视频的得分为预设的最高值,并将所述最高值确定为该训练样本视频的训练目标;
或者,如果所述训练样本视频播放时长在所述第一播放时长阈值和第二播放时长阈值之间,则该训练样本视频的得分为预设的中间值,并将所述中间值确定为该训练样本视频的训练目标。
5.根据权利要求4所述的方法,其特征在于,所述将每个训练样本视频的训练目标及样本训练集中每个样本的各个维度特征得分作为训练数据,输入到带权重的逻辑回归Weighted Logistic Regression模型中进行训练,获得每个预设维度的维度特征的最优权重,包括:
将所述每个训练样本视频的训练目标作为观测值,表示为y;
将样本训练集中每个样本的各个维度特征得分作为特征数据,表示为x;
将所述特征数据与该特征数据对应的虚拟权值进行线性加权加和,得到g(x);
将所述g(x)输入到逻辑函数sigmoid中,获取logistic regression模型预测函数hθ(x),所述
使用预设的损失函数进行计算,获得每个预设维度的维度特征的最优权重。
6.根据权利要求5所述的方法,其特征在于,所述损失函数定义为:
其中,n为训练样本的个数,i为第i个样本,yi为所述观测值,Xi为第i个样本的所有特征构成的一个向量,hθ为logistic regression模型预测函数,wi为样本权重值,所述样本权重值根据所述每个训练样本视频的训练目标获取:
所述label为所述每个训练样本视频的训练目标值。
7.根据权利要求2所述的方法,其特征在于,在所述针对每个训练样本视频,获得预设维度的维度特征的得分之前,还包括:
从所述获取的搜索日志中,获取预设数量个搜索结果中的未被播放视频,作为训练样本视频;
将获取的每个未被播放视频的得分确定为预设的最低值;
将所述最低值确定为所述获取的每个未被播放视频的训练目标。
8.根据权利要求2所述的方法,其特征在于,所述针对每个训练样本视频,获得预设维度的维度特征的得分,包括:
使用离线恢复的方法,获取训练样本视频预设维度的维度特征;
获取该样本预设维度的维度特征得分。
9.根据权利要求8所述的方法,其特征在于,所述预设维度的维度特征包括:视频原始特征、搜索词与搜索日志的文本相关性特征和用户行为数据;
所述视频原始特征包括:视频新鲜度、视频时长和视频数据类型;
所述用户行为数据包括,视频在预设的历史时间段内点击信息。
10.一种视频搜索引擎粗排序装置,其特征在于,包括:
第一获取模块,用于获得多个待排序视频;
第二获取模块,用于针对每个待排序视频,获得预设维度的维度特征的得分:
总得分计算模块,用于针对每个待排序视频,根据所述维度特征的得分,使用预设的每个维度特征对应的权重值,计算获得所述每个待排序视频的总得分;所述预设的每个维度特征对应的权重值,是预先采用机器学习算法,将从已经保存的第一预设时间段内的搜索日志中获得的视频样本进行训练获得的;
排序模块,用于按总得分对多个待排序视频进行排序。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括训练模块;
所述训练模块包括:
第一获取子模块,用于获取已经保存的第一预设时间段内的搜索日志;
第二获取子模块,用于获取所述搜索日志对应的播放日志;
训练样本确定子模块,用于将获取的所有播放日志中的所有视频,确定为训练样本视频;
第一训练目标确定子模块,用于根据每个训练样本视频的播放时长,对各个训练样本进行打分,将每个训练样本视频的得分确定为训练目标;
特征得分获取子模块,用于针对每个训练样本视频,获得预设维度的维度特征的得分;
样本训练集构建子模块,用于构建包含训练样本视频的各个维度特征得分的样本训练集;
权重获取子模块,用于将每个训练样本视频的训练目标及样本训练集中每个样本的各个维度特征得分作为训练数据,输入到带权重的逻辑回归Weighted Logistic Regression模型中进行训练,获得每个预设维度的维度特征的最优权重。
12.根据权利要求11所述的装置,其特征在于,所述第二获取子模块,具体用于:
获取所述搜索日志对应的所有播放日志;
对获取的所有播放日志进行过滤,过滤掉重复的播放日志,过滤后保留的日志为所述搜索日志对应的播放日志。
13.根据权利要求11所述的装置,其特征在于,所述第一训练目标确定子模块,具体用于:
将每个训练样本视频与预设的第一播放时长阈值和第二播放时长阈值进行比较;其中,第一播放时长阈值小于所述第二播放时长阈值;
如果所述训练样本视频播放时长小于预设第一播放时长阈值,则该训练样本视频的得分为预设的最低值,并将所述最低值确定为该训练样本视频的训练目标;
或者,如果所述训练样本视频播放时长大于预设第二播放时长阈值,则该训练样本视频的得分为预设的最高值,并将所述最高值确定为该训练样本视频的训练目标;
或者,如果所述训练样本视频播放时长在所述第一播放时长阈值和第二播放时长阈值之间,则该训练样本视频的得分为预设的中间值,并将所述中间值确定为该训练样本视频的训练目标。
14.根据权利要求13所述的装置,其特征在于,所述权重获取子模块,具体用于:
将所述每个训练样本视频的训练目标作为观测值,表示为y;
将样本训练集中每个样本的各个维度特征得分作为特征数据,表示为x;
将所述特征数据与该特征数据对应的虚拟权值进行线性加权加和,得到g(x);
将所述g(x)输入到逻辑函数sigmoid中,获取logistic regression模型预测函数hθ(x),所述
使用预设的损失函数进行计算,获得每个预设维度的维度特征的最优权重,所述损失函数为:
其中,n为训练样本的个数,i为第i个样本,yi为所述观测值,Xi为第i个样本的所有特征构成的一个向量,hθ为logistic regression模型预测函数,wi为样本权重值,所述样本权重值根据所述每个训练样本视频的训练目标获取:
所述label为所述每个训练样本视频的训练目标值。
15.根据权利要求11所述的装置,其特征在于,所述训练模块还包括第二训练目标确定子模块;
所述第二训练目标确定子模块,用于在所述针对每个训练样本视频,获得预设维度的维度特征的得分之前,从所述获取的搜索日志中,获取预设数量个搜索结果中的未被播放视频,作为训练样本视频;
将获取的每个未被播放视频的得分确定为预设的最低值;
将所述最低值确定为所述获取的每个未被播放视频的训练目标。
16.根据权利要求11所述的装置,其特征在于,所述特征得分获取子模块,具体用于:
使用离线恢复的方法,获取训练样本视频预设维度的维度特征;
获取该样本预设维度的维度特征得分;所述预设维度的维度特征包括:视频原始特征、搜索词与搜索日志的文本相关性特征和用户行为数据;
所述视频原始特征包括:视频新鲜度、视频时长和视频数据类型;
所述用户行为数据包括,视频在预设的历史时间段内点击信息。
17.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现权利要求1-9任一所述的方法步骤。
CN201810056946.8A 2018-01-19 2018-01-19 一种视频搜索引擎粗排序方法、装置及电子设备 Active CN108304512B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810056946.8A CN108304512B (zh) 2018-01-19 2018-01-19 一种视频搜索引擎粗排序方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810056946.8A CN108304512B (zh) 2018-01-19 2018-01-19 一种视频搜索引擎粗排序方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN108304512A true CN108304512A (zh) 2018-07-20
CN108304512B CN108304512B (zh) 2021-05-25

Family

ID=62866021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810056946.8A Active CN108304512B (zh) 2018-01-19 2018-01-19 一种视频搜索引擎粗排序方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN108304512B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109068180A (zh) * 2018-09-28 2018-12-21 武汉斗鱼网络科技有限公司 一种确定视频精选集的方法以及相关设备
CN109063108A (zh) * 2018-07-27 2018-12-21 天津字节跳动科技有限公司 搜索排序方法、装置、计算机设备和存储介质
CN109558986A (zh) * 2018-12-10 2019-04-02 北京顺丰同城科技有限公司 一种同城站点配送顺序的排序方法及装置
CN109600434A (zh) * 2018-12-06 2019-04-09 上海博泰悦臻电子设备制造有限公司 车载电台节目收听方法、电台app、车联网服务器、系统
CN109684510A (zh) * 2018-10-31 2019-04-26 北京达佳互联信息技术有限公司 视频排序方法、装置、电子设备及存储介质
CN110659389A (zh) * 2019-09-05 2020-01-07 北京字节跳动网络技术有限公司 排序方法、装置、电子设备和计算机可读存储介质
CN111061968A (zh) * 2019-11-15 2020-04-24 北京三快在线科技有限公司 排序方法、装置、电子设备及可读存储介质
CN111242752A (zh) * 2020-04-24 2020-06-05 支付宝(杭州)信息技术有限公司 一种基于多任务预测的确定推荐对象的方法及系统
CN111314790A (zh) * 2020-03-26 2020-06-19 北京奇艺世纪科技有限公司 一种视频播放记录的排序方法、装置和电子设备
CN111491198A (zh) * 2019-01-28 2020-08-04 北京字节跳动网络技术有限公司 一种小视频搜索方法和装置
CN111666450A (zh) * 2020-06-04 2020-09-15 北京奇艺世纪科技有限公司 视频召回方法、装置、电子设备及计算机可读存储介质
CN112380388A (zh) * 2020-11-12 2021-02-19 北京达佳互联信息技术有限公司 搜索场景下的视频排序方法、装置、电子设备及存储介质
CN113392266A (zh) * 2021-08-17 2021-09-14 北京达佳互联信息技术有限公司 排序模型的训练、排序方法、装置、电子设备及存储介质
CN114528435A (zh) * 2020-11-23 2022-05-24 北京达佳互联信息技术有限公司 搜索场景下的视频排序方法、装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080235208A1 (en) * 2007-03-23 2008-09-25 Microsoft Corporation Method For Fast Large Scale Data Mining Using Logistic Regression
CN101739416A (zh) * 2008-11-04 2010-06-16 未序网络科技(上海)有限公司 多指标综合权重视频排序方法
CN102880712A (zh) * 2012-10-08 2013-01-16 合一网络技术(北京)有限公司 一种用于对搜索的网络视频进行排序的方法和系统
CN104077306A (zh) * 2013-03-28 2014-10-01 阿里巴巴集团控股有限公司 一种搜索引擎的结果排序方法及系统
US20150324664A1 (en) * 2014-05-06 2015-11-12 Kla-Tencor Corporation Automatic calibration sample selection for die-to-database photomask inspection
CN106779985A (zh) * 2017-02-24 2017-05-31 武汉奇米网络科技有限公司 一种个性化商品排序的方法及系统
CN107133301A (zh) * 2017-04-27 2017-09-05 北京小米移动软件有限公司 概率的预测方法及装置
CN107153977A (zh) * 2016-03-02 2017-09-12 阿里巴巴集团控股有限公司 网上交易平台中交易实体信用评估方法、装置及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080235208A1 (en) * 2007-03-23 2008-09-25 Microsoft Corporation Method For Fast Large Scale Data Mining Using Logistic Regression
CN101739416A (zh) * 2008-11-04 2010-06-16 未序网络科技(上海)有限公司 多指标综合权重视频排序方法
CN102880712A (zh) * 2012-10-08 2013-01-16 合一网络技术(北京)有限公司 一种用于对搜索的网络视频进行排序的方法和系统
CN104077306A (zh) * 2013-03-28 2014-10-01 阿里巴巴集团控股有限公司 一种搜索引擎的结果排序方法及系统
US20150324664A1 (en) * 2014-05-06 2015-11-12 Kla-Tencor Corporation Automatic calibration sample selection for die-to-database photomask inspection
CN107153977A (zh) * 2016-03-02 2017-09-12 阿里巴巴集团控股有限公司 网上交易平台中交易实体信用评估方法、装置及系统
CN106779985A (zh) * 2017-02-24 2017-05-31 武汉奇米网络科技有限公司 一种个性化商品排序的方法及系统
CN107133301A (zh) * 2017-04-27 2017-09-05 北京小米移动软件有限公司 概率的预测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
M KORZEŃ: "Logistic regression with weight grouping priors", 《COMPUTATIONAL STATISTICS & DATA ANALYSIS》 *
李志宇: "DNPS:基于阻尼采样的大规模动态社会网络结构特征表示学习", 《计算机学报》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063108A (zh) * 2018-07-27 2018-12-21 天津字节跳动科技有限公司 搜索排序方法、装置、计算机设备和存储介质
CN109063108B (zh) * 2018-07-27 2020-03-03 北京字节跳动网络技术有限公司 搜索排序方法、装置、计算机设备和存储介质
CN109068180B (zh) * 2018-09-28 2021-02-02 武汉斗鱼网络科技有限公司 一种确定视频精选集的方法以及相关设备
CN109068180A (zh) * 2018-09-28 2018-12-21 武汉斗鱼网络科技有限公司 一种确定视频精选集的方法以及相关设备
CN109684510B (zh) * 2018-10-31 2020-01-31 北京达佳互联信息技术有限公司 视频排序方法、装置、电子设备及存储介质
CN109684510A (zh) * 2018-10-31 2019-04-26 北京达佳互联信息技术有限公司 视频排序方法、装置、电子设备及存储介质
CN109600434A (zh) * 2018-12-06 2019-04-09 上海博泰悦臻电子设备制造有限公司 车载电台节目收听方法、电台app、车联网服务器、系统
CN109600434B (zh) * 2018-12-06 2022-10-18 博泰车联网科技(上海)股份有限公司 车载电台节目收听方法、电台app、车联网服务器、系统
CN109558986A (zh) * 2018-12-10 2019-04-02 北京顺丰同城科技有限公司 一种同城站点配送顺序的排序方法及装置
CN111491198A (zh) * 2019-01-28 2020-08-04 北京字节跳动网络技术有限公司 一种小视频搜索方法和装置
CN111491198B (zh) * 2019-01-28 2023-02-17 抖音视界有限公司 一种小视频搜索方法和装置
CN110659389A (zh) * 2019-09-05 2020-01-07 北京字节跳动网络技术有限公司 排序方法、装置、电子设备和计算机可读存储介质
CN111061968A (zh) * 2019-11-15 2020-04-24 北京三快在线科技有限公司 排序方法、装置、电子设备及可读存储介质
CN111061968B (zh) * 2019-11-15 2023-05-30 北京三快在线科技有限公司 排序方法、装置、电子设备及可读存储介质
CN111314790A (zh) * 2020-03-26 2020-06-19 北京奇艺世纪科技有限公司 一种视频播放记录的排序方法、装置和电子设备
CN111242752A (zh) * 2020-04-24 2020-06-05 支付宝(杭州)信息技术有限公司 一种基于多任务预测的确定推荐对象的方法及系统
CN111666450A (zh) * 2020-06-04 2020-09-15 北京奇艺世纪科技有限公司 视频召回方法、装置、电子设备及计算机可读存储介质
CN111666450B (zh) * 2020-06-04 2024-04-26 北京奇艺世纪科技有限公司 视频召回方法、装置、电子设备及计算机可读存储介质
CN112380388A (zh) * 2020-11-12 2021-02-19 北京达佳互联信息技术有限公司 搜索场景下的视频排序方法、装置、电子设备及存储介质
CN112380388B (zh) * 2020-11-12 2024-03-12 北京达佳互联信息技术有限公司 搜索场景下的视频排序方法、装置、电子设备及存储介质
CN114528435A (zh) * 2020-11-23 2022-05-24 北京达佳互联信息技术有限公司 搜索场景下的视频排序方法、装置、电子设备及存储介质
CN113392266A (zh) * 2021-08-17 2021-09-14 北京达佳互联信息技术有限公司 排序模型的训练、排序方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN108304512B (zh) 2021-05-25

Similar Documents

Publication Publication Date Title
CN108304512A (zh) 一种视频搜索引擎粗排序方法、装置及电子设备
WO2021042826A1 (zh) 一种视频播放完整度预测方法及装置
Guo et al. Tapping on the potential of q&a community by recommending answer providers
US20090319449A1 (en) Providing context for web articles
CN109325146B (zh) 一种视频推荐方法、装置、存储介质和服务器
US20090271391A1 (en) Method and apparatus for rating user generated content in seach results
CN106131601A (zh) 视频推荐方法及装置
CN106202294B (zh) 基于关键词和主题模型融合的相关新闻计算方法及装置
CN106547871A (zh) 基于神经网络的搜索结果的召回方法和装置
CN108416028A (zh) 一种搜索内容资源的方法、装置及服务器
CN108363730B (zh) 一种内容推荐方法、系统及终端设备
CN106372249A (zh) 一种点击率预估方法、装置及电子设备
CN111723260B (zh) 推荐内容的获取方法、装置、电子设备及可读存储介质
CN110032679A (zh) 一种基于层次注意力网络的动态新闻推荐的方法
CN105917364A (zh) 对问答论坛中讨论话题的排名
CN110475132A (zh) 直播间类型识别方法、装置及数据处理设备
CN110825868A (zh) 一种基于话题热度的文本推送方法、终端设备及存储介质
CN107885875B (zh) 检索词的同义变换方法、装置及服务器
CN114330329A (zh) 一种业务内容搜索方法、装置、电子设备及存储介质
CN112199582A (zh) 一种内容推荐方法、装置、设备及介质
CN114428910A (zh) 资源推荐方法、装置、电子设备、产品及介质
CN110275943A (zh) 文章推送方法及装置
CN110188277B (zh) 一种资源的推荐方法及装置
CN109033050B (zh) 文章生成方法、设备及存储介质
CN111242239A (zh) 一种训练样本选取方法、装置、以及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant