CN109684513B

CN109684513B - 一种低质量视频识别方法及装置

Info

Publication number: CN109684513B
Application number: CN201811532655.8A
Authority: CN
Inventors: 胡军; 陈英傑; 吴桂林
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2021-08-24
Anticipated expiration: 2038-12-14
Also published as: CN109684513A

Abstract

本发明公开了一种低质量视频识别方法及装置，获取用户反馈的负反馈日志集，基于从负反馈日志集获取低质量视频标签数据中的包含的各个视频ID，从视频特征库中筛选对每个视频ID对应的低质量视频特征，并从视频特征库中除了作为低质量视频特征以外的视频特征信息随机选取非低质量视频特征，将筛选出的低质量视频特征和随机抽取的非低质量视频特征作为训练样本，以低质量视频特征对应的视频标签ID和非低质量视频特征对应的视频标签ID为样本标签进行训练得到低质量视频识别模型，以进行低质量视频识别。本发明采用负反馈日志的方式来对低质量视频进行标注，实现了以低成本获取海量的标签数据，节约了人工标注的时间和人力成本。

Description

一种低质量视频识别方法及装置

技术领域

本发明涉及视频识别技术领域，更具体的说，涉及一种低质量视频识别方法及装置。

背景技术

在视频搜索和视频推荐等场景中，如何对低质量视频，比如，低俗视频、色情视频、视频图像质量不高、不相关视频等进行识别，以便为用户提供高质量视频成为了一项非常重要的工作。

现有识别低质量视频的一种方法为：提取视频的特征信息，然后采用启发式方法进行识别，缺点为对低质量视频识别的效果不佳；因此，现有技术又提供了另一种低质量视频识别方法，具体为：人工标注大量的低质量视频，基于人工标注的低质量视频构建训练数据集，采用机器学习方法进行识别。虽然该方法提高了对低质量视频的识别效果，但是，人工标注需要制定严格的标注标准，且需要耗费大量的人力对低质量视频进行标注，同时还存在着标注人员与用户对视频质量高低反馈不一致的情况。

发明内容

有鉴于此，本发明公开一种低质量视频识别方法及装置，以采用负反馈日志的方式来对低质量视频进行标注，实现以低成本获取海量高质量的标签数据，不仅节约了人工标注的时间成本和人力成本，而且，还有效避免了标注人员与用户对视频质量高低反馈不一致的情况，同时，还提高了低质量视频识别模型的识别精度。

一种低质量视频识别方法，包括：

获取预设时间段内，用户对低质量视频的反馈的负反馈日志集，所述负反馈日志集包括多个负反馈日志，每个所述负反馈日志包括：用户ID、视频ID和视频标签ID，所述视频标签ID所属的标签类型对应一个或多个投诉原因；

基于从所述负反馈日志集中获取的低质量视频标签数据中的各个视频ID，从预先建立的视频特征库中，筛选出每个视频ID对应的视频特征作为低质量视频特征；

从所述视频特征库中除了作为所述低质量视频特征以外的视频特征信息中，随机抽取预设数量的视频ID对应的视频特征作为非低质量视频特征；

将筛选出的所述低质量视频特征和随机抽取的所述非低质量视频特征作为训练样本，以所述低质量视频特征对应的视频标签ID和所述非低质量视频特征对应的视频标签ID作为样本标签进行训练得到低质量视频识别模型；

基于所述低质量视频识别模型进行低质量视频识别。

可选的，从所述负反馈日志集中获取所述低质量视频标签数据的过程包括：

将预设时间段内同一用户ID的负反馈日志进行汇总；

判断是否存在同一用户ID在所述预设时间段内的投诉次数大于第一设定阈值；

将投诉次数大于所述第一设定阈值的用户ID对应的视频标签ID进行滤除；

将所述预设时间段内同一视频ID对应的视频标签ID的数量进行汇总，得到同一视频ID的被投诉次数；

将被投诉次数不大于第二设定阈值的视频ID及其对应的视频标签ID进行滤除，保留被投诉次数大于所述第二设定阈值的视频ID及其对应的视频标签ID；

基于被投诉次数大于所述第二设定阈值的视频ID及其对应的视频标签ID生成所述低质量视频标签数据，所述低质量视频标签数据的数据格式采用“视频ID；视频标签ID”，其中，每个视频标签ID包含的标签类型采用“，”分隔。

可选的，所述视频特征库中存储的每个视频特征包括：

视频内容维度、缩略图维度、标题文本维度、视频上传者维度和用户反馈特征。

可选的，

所述视频内容维度包括：视频清晰度、视频抖动、黑边、重复播放和语音清晰度；

所述标题文本维度包括：关键词个数和软色情特征；

所述视频上传者维度包括：上传视频总数、粉丝数和视频播放量；

所述用户反馈特征包括：视频播放完整度、播放退出率、留存得分、顶踩和评论特征。

可选的，所述基于所述低质量视频识别模型进行低质量视频识别具体包括：

从待识别视频中提取出视频特征；

将提取出的视频特征作为输入信息输入至所述低质量视频识别模型，得到所述待识别视频的视频标签ID；

判断所述待识别视频的视频标签ID是否为低质量视频的视频标签ID；

如果是，则所述待识别视频为低质量视频；

如果否，则所述待识别视频为非低质量视频。

一种低质量视频识别装置，包括：

获取单元，用于获取预设时间段内，用户对低质量视频反馈的负反馈日志集，所述负反馈日志集包括多个负反馈日志，每个所述负反馈日志包括：用户ID、视频ID和视频标签ID，所述视频标签ID所属的标签类型对应一个或多个投诉原因；

筛选单元，用于基于从所述负反馈日志集中获取的低质量视频标签数据中的各个视频ID，从预先建立的视频特征库中，筛选出每个视频ID对应的视频特征作为低质量视频特征；

抽取单元，用于从所述视频特征库中除了作为所述低质量视频特征以外的视频特征信息中，随机抽取预设数量的视频ID对应的视频特征作为非低质量视频特征；

模型训练单元，用于将筛选出的所述低质量视频特征和随机抽取的所述非低质量视频特征作为训练样本，以所述低质量视频特征对应的视频标签ID和所述非低质量视频特征对应的视频标签ID作为样本标签进行训练得到低质量视频识别模型；

识别单元，用于基于所述低质量视频识别模型进行低质量视频识别。

可选的，所述筛选单元还用于：

将预设时间段内同一用户ID的负反馈日志进行汇总；

可选的，所述识别单元具体用于：

从待识别视频中提取出视频特征；

如果是，则所述待识别视频为低质量视频；

如果否，则所述待识别视频为非低质量视频。

从上述的技术方案可知，本发明公开了一种低质量视频识别方法及装置，首先获取用户对低质量视频反馈的负反馈日志集，然后基于从负反馈日志集中获取的低质量视频标签数据中的包含的视频ID，从视频特征库中筛选出每个视频ID对应视频特征作为的低质量视频特征，并从视频特征库中除了作为低质量视频特征以外的视频特征信息随机选取非低质量视频特征，将筛选出的低质量视频特征和随机抽取的非低质量视频特征作为训练样本，以低质量视频特征对应的视频标签ID和非低质量视频特征对应的视频标签ID作为样本标签进行训练得到低质量视频识别模型，以进行低质量视频识别。相对于现有方案中人工标注低质量视频而言，本发明采用负反馈日志的方式来对低质量视频进行标注，实现了以低成本获取海量高质量的标签数据，不仅节约了人工标注的时间成本和人力成本，而且，还有效避免了标注人员与用户对视频质量高低反馈不一致的情况，同时，还提高了低质量视频识别模型的识别精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据公开的附图获得其他的附图。

图1为本发明实施例公开的一种低质量视频识别方法流程图；

图2为本发明实施例公开的一种对负反馈日志中的噪音进行滤除生成低质量视频标签数据的方法流程图；

图3为本发明实施例公开的一种低质量视频识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种低质量视频识别方法及装置，首先获取用户对低质量视频反馈的负反馈日志集，然后基于从负反馈日志集中获取的低质量视频标签数据中的包含的视频ID，从视频特征库中筛选出每个视频ID对应视频特征作为的低质量视频特征，并从视频特征库中除了作为低质量视频特征以外的视频特征信息随机选取非低质量视频特征，将筛选出的低质量视频特征和随机抽取的非低质量视频特征作为训练样本，以低质量视频特征对应的视频标签ID和非低质量视频特征对应的视频标签ID作为样本标签进行训练得到低质量视频识别模型，以进行低质量视频识别。相对于现有方案中人工标注低质量视频而言，本发明采用负反馈日志的方式来对低质量视频进行标注，实现了以低成本获取海量高质量的标签数据，不仅节约了人工标注的时间成本和人力成本，而且，还有效避免了标注人员与用户对视频质量高低反馈不一致的情况，同时，还提高了低质量视频识别模型的识别精度。

参见图1，本发明一实施例公开的一种低质量视频识别方法流程图，该方法包括步骤：

步骤S101、获取预设时间段内，用户对低质量视频反馈的负反馈日志集；

在视频搜索和视频推荐等场景中，可以获取到大量用户对视频的正反馈行为，包括但不限于用户对视频的点击、点赞、评论、评分等行为，基于这些正反馈，可以极大的优化搜索和推荐的视频。

然而，在视频搜索和视频推荐等场景中，避免不了会搜索或推荐出一些低质量视频，比如，低俗视频、色情视频、不相关视频等，用户在观看到这些低质量视频后，可能不希望再看着此类视频的搜索结果。基于此，可以在搜索和推荐等产品中增加用户的“投诉”通道，这样在用户返回搜索结果界面或推荐信息流时，可以对不满意的视频进行投诉。在投诉界面，可以根据产品业务需求，显示若干投诉原因，比如“色情”、“低俗”、“标题与内容不符”、“缩略图欺诈”和“内容不相关”等，在实际应用中，每个视频标签ID对应的标签类型可以是一个类型或多个类型的组合，每一个类型对应一个投诉原因，也就是说，每个标签类型可以对应一个或是多个投诉原因。当一个标签类型包括多个投诉原因时，各个投诉原因之间采用“，”分隔。

每个用户ID提交对低质量视频的投诉原因后，前端系统发送PingBack(自动引用通知)到日志搜寻服务，日志搜寻服务获取预设时间段内的负反馈日志，通过视频播放系统向后台发送负反馈日志。

负反馈日志集包括多个负反馈日志，每个负反馈日志包括：用户ID、视频ID和视频标签ID等。

步骤S102、基于从所述负反馈日志中获取的低质量视频标签数据中的各个视频ID，从预先建立的视频特征库中，筛选出每个视频ID对应的视频特征作为低质量视频特征；

所述视频特征库中存储有各个视频ID以及相对应的视频特征。

其中，视频特征库中存储的每个视频ID对应的视频特征可以包括五种：

(1)视频内容维度。

具体可以包括：a、视频清晰度，影响视频清晰度的因素有很多，包括：模糊度、噪声数量、明暗程度、编码误差，在实际应用中，可使用现有的一些图像识别技术进行提取；

b、视频抖动，指拍摄视频过程中由于相机抖动引起的视频内容抖动，可采用已知的技术识别；

c、黑边，指的是视频周围黑色的边框；

d、重复播放；

e、语音清晰度；

等等。

(2)缩略图维度。

缩略图是指搜索结果页或者推荐信息流中展现给用户的视频封面，缩略图对于用户点击率影响非常大。缩略图可以使用的特征包括但不限于，清晰度、软色情、黑边等特征。

(3)标题文本维度。

具体可以包括：a、关键词个数，关键词可定义为nz(剧名)、nr(人名)，在实际应用中，很多低质量视频会堆砌大量关键词，以提高视频在搜索中的召回率；b、软色情特征，在实际应用中，为了吸引用户眼球，一些低质量视频上传者可能会使用一些软色情、低俗标题。

(4)视频上传者维度。

具体可以包括：上传视频总数、粉丝数和视频播放量等。

(5)用户反馈特征。

具体可以包括：视频播放完整度、播放退出率、留存得分、顶踩和评论特征等。

需要特别说明的是，视频特征库中存储的每个视频ID对应的视频特征，可以包括上述五种特征中的部分或全部，当然，也可以根据实际需要增加上述五种特征之外的其他视频特征。

步骤S103、从所述视频特征库中除了作为低质量视频特征以外的视频特征信息中，随机抽取预设数量的视频ID对应的视频特征作为非低质量视频特征；

具体的，在从视频特征库中筛选出负反馈日志中的各个视频ID对应的低质量视频特征后，还需要从视频特征库中剩余的视频特征信息中，选取一些非低质量视频特征，由筛选出的所有的低质量视频特征和选取的所有的非低质量视频特征组成训练样本。

其中，预设数量的取值依据实际需要而定，比如，作为非低质量视频的视频ID的数量可以与负反馈日志中的视频ID的数量比例为1:1，此时，预设数量为负反馈日志中包含的视频ID的数量。

步骤S104、将筛选出的所述低质量视频特征和随机抽取的所述非低质量视频特征作为训练样本，以所述低质量视频特征对应的视频标签ID和所述非低质量视频特征对应的视频标签ID作为样本标签进行训练得到低质量视频识别模型；

在实际应用中，可以使用传统的机器学习方法，比如LR/SVM/GBDT等，训练得到低质量视频识别模型，也可以采用深度学习模型方法训练得到低质量视频识别模型。在训练低质量视频识别模型时，可以根据实际应用使用部分或者视频特征所有维度的特征，比如上述(1)～(4)这四种维度特征，训练低质量视频识别模型。

具体的，在负反馈日志中，视频ID和视频标签ID相对应。

在视频特征库中，视频ID和视频特征相对应。

因此，通过视频ID，可以得到视频特征和视频标签ID的对应关系，本发明基于这一对应关系进行模型训练，具体为：将筛选出的低质量视频特征和随机抽取的非低质量视频特征作为训练样本，以低质量视频特征对应的视频标签ID和非低质量视频特征对应的视频标签ID作为样本标签进行训练得到低质量视频识别模型。

判断一个视频是否为低质量视频，可以先获取该视频的视频特征，然后将获取的视频特征输入至低质量视频识别模型，可以得到该视频对应的视频标签ID，由于每个视频标签ID对应的标签类型可以是一个类型或多个类型的组合，每一个类型对应一个投诉原因，因此，根据得到的视频标签ID即可进行低质量视频识别。

步骤S105、基于所述低质量视频识别模型进行低质量视频识别。

当用户上传视频时，可从该待识别视频中提取出上述(1)～(4)四种维度特征作为该视频的视频特征，通过将该视频特征作为输入信息输入至低质量视频识别模型，根据低质量视频识别模型输出的视频标签ID即可确定用户上传的视频是否为低质量视频。

需要特别说明的是，低质量视频特征对应的视频标签ID和非低质量视频特征对应的视频标签ID是完全不同的，低质量视频特征对应的视频标签ID为负反馈日志中包含的视频标签ID，负反馈日志中包含的视频标签ID可以包括一个或是多个被投诉原因，投诉原因包括但不限于“色情”、“低俗”、“标题与内容不符”、“缩略图欺诈”和“内容不相关”等。

非低质量视频特征对应的视频标签ID可以用一个预先定义的视频标签ID来表示，比如非低质量视频特征对应的视频标签ID为“高质量”，且所有非低质量视频特征对应的视频标签ID可以为同一个视频标签ID。

这样，根据低质量视频识别模型输出的视频标签ID即可确定用户上传的视频为低质量视频还是非低质量视频。

当确定用户上传的视频为低质量视频时，可以在搜索和推荐等各类产品中，对该低质量视频不给予展示机会。

综上可知，本发明公开的低质量视频识别方法，首先获取用户对低质量视频反馈的负反馈日志集，然后基于从负反馈日志集中获取的低质量视频标签数据中的包含的视频ID，从视频特征库中筛选出每个视频ID对应视频特征作为的低质量视频特征，并从视频特征库中除了作为低质量视频特征以外的视频特征信息随机选取非低质量视频特征，将筛选出的低质量视频特征和随机抽取的非低质量视频特征作为训练样本，以低质量视频特征对应的视频标签ID和非低质量视频特征对应的视频标签ID作为样本标签进行训练得到低质量视频识别模型，以进行低质量视频识别。相对于现有方案中人工标注低质量视频而言，本发明采用负反馈日志的方式来对低质量视频进行标注，实现了以低成本获取海量高质量的标签数据，不仅节约了人工标注的时间成本和人力成本，而且，还有效避免了标注人员与用户对视频质量高低反馈不一致的情况，同时，还提高了低质量视频识别模型的识别精度。

从上述实施例中可以看出，视频特征库中存储的每个视频ID对应的视频特征可以包括：(1)视频内容维度、(2)缩略图维度、(3)标题文本维度、(4)视频上传者维度和(5)用户反馈特征。其中，前四个维度在视频上传后就可以确定，而(5)用户反馈特征需要在上传的视频播放后才可以确定。

在训练得到低质量视频识别模型时，可以采用包含上述五种维度中的任意几种组合或是全部，得到低质量视频识别模型。

若采用的视频特征包括(1)视频内容维度、(2)缩略图维度、(3)标题文本维度和(4)视频上传者维度四个维度信息，来训练得到低质量视频识别模型时，可以将此时训练得到的低质量视频识别模型命名为视频元质量模型。

因此，在用户上传视频后，通过提取该视频的视频特征，并将视频特征输入至视频元质量模型，即可在第一时间内确定用户上传的视频是否为低质量视频，并在确定用户上传的视频为低质量视频时，可以在搜索和推荐等各类产品中，不给予该视频的展示机会，从而提高用户对产品的体验。

若采用的视频特征包括(1)视频内容维度、(2)缩略图维度、(3)标题文本维度、(4)视频上传者维度和(5)用户反馈特征五个维度信息，来训练得到低质量视频识别模型时，可以将此时训练得到的低质量视频识别模型命名为视频质量综合模型，视频质量综合模型的识别精度高于视频元质量模型。

因此，在用户上传的视频播放后，可以结合用户反馈，比如，视频播放完整度、播放退出率、留存得分、顶踩、评论等特征，利用视频质量综合模型对低质量视频进行高精度的识别，从而进一步提高用户对产品的体验。

进一步，当某一个新上传的视频上线一段时间后，可以获取更加丰富的用户对视频的反馈特征，给予这些新增的反馈特征对增加视频特征的包含的特征维度，使用视频特征的所有特征维度，再次训练得到一个更完善的低质量视频识别模型，利用该完善的低质量视频识别模型进行低质量视频识别，从而可以大大提高对低质量视频的识别精度。

综上可知，本发明综合了视频内容、缩略图、标题文本、视频上传者和用户反馈等视频维度特征，来训练得到低质量视频识别模型，相对于传统方案中采用少于本申请视频维度特征训练得到的低质量视频识别模型而言，本发明大大提高了训练模型的模型效果。

基于上述论述可知，本发明中负反馈日志的用途为：以较低的成本获取海量对低质量视频的标注数据，构建低质量视频训练集，训练低质量视频识别模型，从而避免了人工标注数据的过程。

负反馈日志中通常会包含大量的噪音，比如，用户误提交信息、用户的恶意投诉、用户点击的标签不准确等，因此，为提高训练的低质量视频识别模型的准确性，在获取到负反馈日志，构建训练数据集时，还需要对负反馈日志进行过滤噪音处理。

参见图2，本发明一实施例公开的一种对负反馈日志中的噪音进行滤除生成低质量视频标签数据的方法流程图，包括步骤：

步骤S201、将预设时间段内同一用户ID的负反馈日志进行汇总；

在实际应用中，同一用户ID可以对同一视频或是不同视频进行投诉，投诉内容也即视频标签。

步骤S202、判断是否存在同一用户ID在所述预设时间段内的投诉次数大于第一设定阈值，如果是，则执行步骤S203，如果否，则执行步骤S204；

当同一用户ID在预设时间段内频繁提交投诉时，可以认为该用户ID存在恶意提交投诉的嫌疑，在这种情况下，可以将该用户ID的所有投诉进行过滤，也即将该用户ID对应的视频标签ID进行过滤，以避免将无效的视频标签ID进行计数统计。

步骤S203、将投诉次数大于所述第一设定阈值的用户ID对应的视频标签ID进行滤除，并继续执行步骤S204；

步骤S204、将所述预设时间段内同一视频ID对应的视频标签ID的数量进行汇总，得到同一视频ID的被投诉次数；

步骤S205、将被投诉次数不大于第二设定阈值的视频ID及其对应的视频标签ID进行滤除，保留被投诉次数大于所述第二设定阈值的视频ID及其对应的视频标签ID；

步骤S206、基于被投诉次数大于所述第二设定阈值的视频ID及其对应的视频标签ID生成所述低质量视频标签数据。

具体的，由于每个视频标签ID对应的标签类型可以是一个类型或多个类型的组合，每一个类型对应一个投诉原因，因此，在对预设时间段内同一视频ID对应的视频标签ID的数量进行汇总后，可以得到同一个视频ID被投诉次数。通过将被投诉次数小于第二设定阈值的视频ID及其对应的视频标签ID进行滤除，实现对负反馈日志中包含的噪音的滤除，得到被投诉次数大于第二设定阈值的视频ID及其对应的视频标签ID，从而得到视频ID和视频标签ID的对应关系，本实施例中，将被投诉次数大于第二设定阈值的视频ID及其对应的视频标签ID的对应关系命名为“低质量视频标签数据”，低质量视频标签数据的格式可采用“视频ID；视频标签ID”。

由于每个视频标签ID对应的标签类型可以是一个类型或多个类型的组合，因此，当一个视频标签ID对应多个标签类型时，各个标签类型之间可采用“，”分隔。

综上可知，本发明通过对投诉次数大于第一设定阈值的用户ID对应的视频标签ID进行滤除，以及对投诉次数不大于第二设定阈值的视频ID及其对应的视频标签ID进行滤除，实现了对负反馈日志中包含的噪音的滤除，从而提高了训练的低质量视频识别模型的准确性。

与上述方法实施例相对应，本发明还公开了一种低质量视频识别装置。

参见图3，本发明一实施例公开的一种低质量视频识别装置的结构示意图，该装置包括：

获取单元301，用于获取预设时间段内，用户对低质量视频反馈的负反馈日志集；

每个用户ID提交对低质量视频的投诉原因后，前端系统发送PingBack(自动引用通知)到日志搜寻服务，日志搜寻服务获取预设时间段内的负反馈日志，通过视频播放系统向后台发送负反馈日志，负反馈日志包括：用户ID、视频ID和视频标签ID等，每个所述视频标签ID所属的标签类型对应一个或多个投诉原因。

筛选单元302，用于基于从所述负反馈日志集中获取的低质量视频标签数据中的各个视频ID，从预先建立的视频特征库中，筛选出每个视频ID对应的视频特征作为低质量视频特征；

(1)视频内容维度。

c、黑边，指的是视频周围黑色的边框；

d、重复播放；

e、语音清晰度；

等等。

(2)缩略图维度。

(3)标题文本维度。

(4)视频上传者维度。

具体可以包括：上传视频总数、粉丝数和视频播放量等。

(5)用户反馈特征。

抽取单元303，用于从所述视频特征库中除了作为低质量视频特征以外的视频特征信息中，随机抽取预设数量的视频ID对应的视频特征作为非低质量视频特征；

模型训练单元304，用于将筛选出的所述低质量视频特征和随机抽取的所述非低质量视频特征作为训练样本，以所述低质量视频特征对应的视频标签ID和所述非低质量视频特征对应的视频标签ID作为样本标签进行训练得到低质量视频识别模型；

在视频特征库中，视频ID和视频特征相对应。

识别单元305，用于基于所述低质量视频识别模型进行低质量视频识别。

因此，识别单元305具体用于：

从待识别视频中提取出视频特征；

如果是，则所述待识别视频为低质量视频；

如果否，则所述待识别视频为非低质量视频。

综上可知，本发明公开的低质量视频识别装置，首先获取用户对低质量视频反馈的负反馈日志集，然后基于从负反馈日志集中获取的低质量视频标签数据中的包含的视频ID，从视频特征库中筛选出每个视频ID对应视频特征作为的低质量视频特征，并从视频特征库中除了作为低质量视频特征以外的视频特征信息随机选取非低质量视频特征，将筛选出的低质量视频特征和随机抽取的非低质量视频特征作为训练样本，以低质量视频特征对应的视频标签ID和非低质量视频特征对应的视频标签ID作为样本标签进行训练得到低质量视频识别模型，以进行低质量视频识别。相对于现有方案中人工标注低质量视频而言，本发明采用负反馈日志的方式来对低质量视频进行标注，实现了以低成本获取海量高质量的标签数据，不仅节约了人工标注的时间成本和人力成本，而且，还有效避免了标注人员与用户对视频质量高低反馈不一致的情况，同时，还提高了低质量视频识别模型的识别精度。

筛选单元302具体还用于：

将预设时间段内同一用户ID的负反馈日志进行汇总；

基于被投诉次数大于所述第二设定阈值的视频ID及其对应的视频标签ID生成所述低质量视频标签数据。

需要说明的是，装置实施例中各组成部分的具体工作原理，请参见方法实施例对应部分，此处不再赘述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种低质量视频识别方法，其特征在于，包括：

基于从所述负反馈日志集中获取的低质量视频标签数据中的各个视频ID，从预先建立的视频特征库中，筛选出每个视频ID对应的视频特征作为低质量视频特征，所述视频特征库中存储有各个视频ID以及相对应的视频特征；

基于所述低质量视频识别模型进行低质量视频识别，包括：针对待识别视频，获取所述待识别视频的视频特征，将所述视频特征作为输入信息输入至所述低质量视频识别模型进行低质量视频识别；其中，所述低质量视频识别模型用于输出视频标签ID，低质量视频特征对应的视频标签ID和所述非低质量视频特征对应的视频标签ID不同，低质量视频特征对应的视频标签ID为负反馈日志中包含的视频标签ID，非低质量视频特征对应的视频标签ID为预先定义的视频标签ID。

2.根据权利要求1所述的方法，其特征在于，从所述负反馈日志集中获取所述低质量视频标签数据的过程包括：

将预设时间段内同一用户ID的负反馈日志进行汇总；

3.根据权利要求1所述的方法，其特征在于，所述视频特征库中存储的每个视频特征包括：

4.根据权利要求3所述的方法，其特征在于，

所述标题文本维度包括：关键词个数和软色情特征；

5.根据权利要求1所述的方法，其特征在于，所述基于所述低质量视频识别模型进行低质量视频识别具体包括：

从待识别视频中提取出视频特征；

如果是，则所述待识别视频为低质量视频；

如果否，则所述待识别视频为非低质量视频。

6.一种低质量视频识别装置，其特征在于，包括：

筛选单元，用于基于从所述负反馈日志集中获取的低质量视频标签数据中的各个视频ID，从预先建立的视频特征库中，筛选出每个视频ID对应的视频特征作为低质量视频特征，所述视频特征库中存储有各个视频ID以及相对应的视频特征；

识别单元，用于基于所述低质量视频识别模型进行低质量视频识别，包括：针对待识别视频，获取所述待识别视频的视频特征，将所述视频特征作为输入信息输入至所述低质量视频识别模型进行低质量视频识别；其中，所述低质量视频识别模型用于输出视频标签ID，低质量视频特征对应的视频标签ID和所述非低质量视频特征对应的视频标签ID不同，低质量视频特征对应的视频标签ID为负反馈日志中包含的视频标签ID，非低质量视频特征对应的视频标签ID为预先定义的视频标签ID。

7.根据权利要求6所述的装置，其特征在于，所述筛选单元还用于：

将预设时间段内同一用户ID的负反馈日志进行汇总；

8.根据权利要求6所述的装置，其特征在于，所述识别单元具体用于：

从待识别视频中提取出视频特征；

如果是，则所述待识别视频为低质量视频；

如果否，则所述待识别视频为非低质量视频。