CN112016613A

CN112016613A - 视频内容分类模型的训练方法、装置、计算机设备及介质

Info

Publication number: CN112016613A
Application number: CN202010873761.3A
Authority: CN
Inventors: 刘文奇
Original assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Current assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Priority date: 2020-08-26
Filing date: 2020-08-26
Publication date: 2020-12-01

Abstract

本发明实施例公开了一种视频内容分类模型的训练方法、装置、计算机设备及介质。该方法包括：根据视频内容分类模型确定新增视频的标签；根据所述标签从所述新增视频中选择满足预设条件的目标视频，获取所述目标视频的人工标注数据；组合所述人工标注数据和预设离线数据得到训练数据集；采用所述训练数据集更新所述视频内容分类模型中的设定参数。本发明实施例提供的技术方案，通过采用线上数据和离线数据共同训练模型，从而减少由于模型训练时和模型使用时的数据分布不一致导致的模型性能下降的情况发生，提高了模型的性能和打标的准确率。

Description

视频内容分类模型的训练方法、装置、计算机设备及介质

技术领域

本发明实施例涉及视频处理领域，尤其涉及一种视频内容分类模型的训练方法、装置、计算机设备及介质。

背景技术

理解视频内容的基础工作是给短视频打标签。比如，标有“猫”标签的视频可以推荐给经常消费猫视频的用户。标有“xx明星”的视频可以推荐给该明星的粉丝用户。通常为了避免人工打标耗费人力成本较高的问题，可以采用机器学习模型来给视频打标签。

训练机器学习模型有一个假设：训练数据的数据分布和待预测数据的数据分布情况是一致的，即训练机器学习模型所使用的数据集(包括训练集、验证集和测试集，一般称之为离线数据)和实际应用场景中待预测数据的数据分布是一致的。

然而，在实际应用中，实际业务中的视频和训练模型时采用的视频的地域或流行内容等数据往往不一致，如果采用机器学习模型处理实际业务中的视频，可能出现预测结果不准确的情况。因此，如何减少因数据分布不一致对模型性能的影响成为亟待解决的问题。

发明内容

本发明实施例提供了一种视频内容分类模型的训练方法、装置、计算机设备及介质，可以减少因数据分布不一致对模型性能的影响。

第一方面，本发明实施例提供了一种视频内容分类模型的训练方法，包括：

根据视频内容分类模型确定新增视频的标签；

根据所述标签从所述新增视频中选择满足预设条件的目标视频，获取所述目标视频的人工标注数据；

组合所述人工标注数据和预设离线数据得到训练数据集；

采用所述训练数据集更新所述视频内容分类模型中的设定参数。

第二方面，本发明实施例提供了一种视频内容分类模型的训练装置，包括：

标签确定模块，用于根据视频内容分类模型确定新增视频的标签；

数据确定模块，用于根据所述标签从所述新增视频中选择满足预设条件的目标视频，获取所述目标视频的人工标注数据；

训练数据生成模块，用于组合所述人工标注数据和预设离线数据得到训练数据集；

模型训练模块，用于采用所述训练数据集更新所述视频内容分类模型中的设定参数。

第三方面，本发明实施例提供了一种计算机设备，该计算机设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任意实施例所述的视频内容分类模型的训练方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任意实施例所述的视频内容分类模型的训练方法。

本发明实施例提供了一种视频内容分类模型的训练方法、装置、计算机设备及介质，通过视频内容分类模型确定新增视频的标签，通过该标签从新增视频中选择满足设定条件的目标视频，并获取该目标视频的人工标注数据；组合人工标注数据和预设离线数据生成训练数据集，可以使训练数据集既包括离线数据又包括在线数据；采用训练数据集对视频内容分类模型进行训练，以修改视频内容分类模型中的设定参数，可以实现采用线上数据和离线数据共同训练模型，从而减少由于模型训练时和模型使用时的数据分布不一致导致的模型性能下降的情况发生，提高了模型的性能和打标的准确率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明实施例提供的一种视频内容分类模型的训练方法的流程图；

图2a为本发明实施例提供的一种视频内容分类模型的训练流程示意图；

图2b为本发明实施例提供的一种利用视频内容分类模型给视频打标签的流程图；

图2c为本发明实施例提供的一种利用人工标注平台给视频打标签的流程图；

图3为本发明实施例提供的另一种视频内容分类模型的训练方法的流程图；

图4为本发明实施例提供的又一种视频内容分类模型的训练方法的流程图；

图5为本发明实施例提供的又一种视频内容分类模型的训练方法的流程图；

图6为本发明实施例提供的一种视频内容分类模型的训练装置的结构示意图；

图7为本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。此外，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

为了便于理解，下面对本发明各个实施例中出现的技术术语进行解释。

长尾效应:长尾效应是统计学中的一个名词。在本发明中是指少部分的标签下的视频的数量占据绝对优势，而大部分标签下的视频的数量都非常少的现象。

训练集：在机器学习/深度学习算法中，模型要先从数据中学习。这种用来学习的数据即为训练集。

测试集：在机器学习/深度学习算法中，模型从数据中学习完后，要用一些不同的数据(不在训练集中的数据)来测试模型预测的性能。这些数据即为测试集。这些数据的分布情况通常比较贴近模型运用的场景的数据分布。

验证集：和测试集功能相似，也用来测试模型的性能，但是验证集还用来调节训练模型时的超参数。所以，在训练时，模型也以某种形式“看见”过验证集，而且，验证集的数据分布一般和训练集的数据分布一致，与最终的运用场景的数据分布可能不同。所以，模型的性能要以在测试集的表现为准。

Kafka：是一个开源的流处理平台，是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。它通常作为数据与模型、模型与数据库之间数据的中转站。

本实施例中主要针对通过离线数据训练的模型确定业务中产生的视频的标签时，由于模型训练时和模型使用时的数据分布不一致导致模型性能下降的问题，此时采用一种增量学习标签优化策略，确定视频内容分类模型中标注不准确的标签对应的视频，采用人工标注的方式为上述标注不准确的标签对应的视频添加标签，得到人工标注数据。根据人工标注数据和离线数据共同训练视频内容分类模型，从而在使用优化后的内容分类模型确定视频标签时，可以减少因数据分布不一致导致模型性能下降的情况，提高了模型的性能和打标的准确率。

图1为本发明实施例提供的一种视频内容分类模型的训练方法的流程图，本实施例提供的一种视频内容分类模型的训练方法可以由本发明实施例提供的视频内容分类模型的训练装置来执行，该装置可以通过软件和/或硬件的方式来实现，并集成在执行本方法的计算机设备中，例如，该计算机设备可以是服务器等。

如图1所示，该方法包括如下步骤：

步骤110、根据视频内容分类模型确定新增视频的标签。

其中，视频内容分类模型是一种基于已有的人工打标的视频样本训练的机器学习模型。本发明实施例中，视频内容分类模型是使用离线数据训练的机器学习模型，并且，视频内容分类模型包括特征提取器(可以包括视频特征提取器和音频特征提取器)和特征分类器。

例如，采用已有的人工打标的视频作为视频样本，对特征提取器和特征分类器进行训练，得到视频内容分类模型。具体地，视频内容分类模型的训练流程包括：1)采用已有的人工打标的视频制作训练集、验证集和测试集；2)使用训练集和验证集训练机器学习模型，并使用测试集验证模型性能；3)如果模型性能达到预期(比如，模型的准确率达到某个设定值)，则确定模型训练完成，可以将训练完成的模型部署到线上，即上线模型。在视频内容模型上线之后，可以确定输入模型的视频的标签的分数。

图2a为本发明实施例提供的一种视频内容分类模型的训练流程示意图。如图2a所示，解码视频文件210得到视频帧211和音频信号212。视频帧211和音频信号212分别经过视频特征提取器213和音频特征提取器214，产生视频帧特征215和音频特征216。对视频帧特征215和音频特征216进行融合后送入特征分类器217，通过特征分类器217基于视频帧特征215和音频特征216的融合特征产生视频文件的标签预测结果218。需要说明的是，视频文件可以属于训练集、验证集或测试集。对于视频文件具体属于上述哪个集合是根据模型的训练阶段确定的。例如，在模型学习阶段，视频文件属于训练集。在模型验证阶段，视频文件属于验证集。在模型测试阶段，视频文件属于测试集。基于训练集中的视频文件执行上述训练流程，使机器学习模型学习视频文件和对应标签。基于验证集中的视频文件执行上述训练流程，以测试模型性能，并基于测试结果调整模型中的超参数。基于训练集中的视频文件执行上述训练流程，以测试模型性能。如果模型对测试集中视频文件的标签预测结果达到预期，则确定模型训练完成。

需要说明的是，新增视频是设定时间段内客户端新生产的视频。假设模型更新周期是以天为单位，则新增视频可以是前一天内新产生的视频数据。可选地，新增视频还可以是设定时间段内客户端新生产的视频中满足预设过滤条件的视频。其中，预设过滤条件用于限定新增视频的属性信息。例如，属性信息可以包括国家、地区、语言类型和创作者信息等等。通过预设过滤条件对客户端新生成的视频进行过滤可以更好的筛选出符合模型训练需要的样本数据。

需要说明的是，标签用于指示视频内容分类信息。一个视频可以有一个或多个标签。例如，包含跳舞内容的视频的标签是跳舞。或者，包含猫的视频的标签是猫。

示例性地，当视频内容分类模型上线之后，将满足预设过滤条件的新增视频输入视频内容分类模型，根据视频内容分类模型的输出结果确定新增视频的标签。图2b为本发明实施例提供的一种利用视频内容分类模型给视频打标签的流程图。将满足预设过滤条件的新增视频数据传入第一kafka里面。模型服务220持续读取第一kafka里面的新增视频数据，送入视频内容分类模型，并读取视频内容分类模型输出的标签预测结果，输出标签预测结果到第二kafka里面。阈值管理服务221从第二kafka读取标签预测结果。对于每个新增视频，如果视频内容分类模型输出的标签预测结果(可以简称为模型输出结果或输出结果)中至少一个标签的分数超过设定阈值，则将分数超过设定阈值的标签作为当前新增视频的标签。对于每个新增视频，如果视频内容分类模型的输出结果中不包括分数超过设定阈值的标签，则将分数最大的标签作为当前新增视频的标签。

步骤120、根据所述标签从所述新增视频中选择满足预设条件的目标视频，获取所述目标视频的人工标注数据。

其中，预设条件用于由模型输出结果中确定标注效果不好的标签，进而，基于标注效果不好的标签由新增视频中选出需要人工标注的目标视频。例如，标注效果不好可以指某一类别的标签对应的视频数量没有达到预期。或者，标注效果不好还可以指标签与视频内容不匹配等。人工标注数据是人工标注平台输出的经打标人员标注了标签的视频。人工标注数据中的标签可能与模型输出结果相同，也可能与模型输出结果不同。例如，人工标注平台输出的人工标注数据中视频A的标签是跳舞，而模型输出结果中视频A的标签不包括跳舞。或者，人工标注平台输出的人工标注数据中视频A的标签是跳舞，而模型输出结果中视频A的标签也是跳舞。

示例性地，获取新增视频的标签和视频内容不相符的第一参考标签；根据第一参考标签对应的分数，将分数在设定分数段内的第一参考标签作为第一目标标签；将第一目标标签对应的视频对象作为目标视频。具体地，获取视频内容分类模型无法识别的视频，该类视频以模型输出结果中得分最高的标签为视频标签，实际上，标签与视频内容匹配度不高。由这些视频标签中选择分数在设定分数段的标签。其中，设定分数段可以是根据模型优化需要而预先设定的经验值。例如，设定分数段可以是0.3到0.9等，本发明并不作具体限定。通常情况下，在设定分数段中高分数的占比要高于低分数的占比，因为高分数的标签是决定视频的标签类型的主要因素，如果视频内容与标签不匹配，很有可能是高分数的标签被标注错误。将这些高分数的标签对应的目标视频送入人工标注平台进行人工标注，以获得人工标注数据，将人工标注数据作为在线数据样本。

可选地，获取各个类别的标签对应的视频数量，将视频数量小于设定数量阈值的标签作为第二参考标签；根据每个第二参考标签对应的分数，选择分数在设定分数段内的第二参考标签作为第二目标标签；将第二目标标签对应的视频对象作为目标视频。具体地，获取视频内容分类模型对新增视频的标签预测结果，将标签预测结果基于类别进行分组处理，统计各个标签类别对应的视频的数量。将数量小于设定数量阈值的标签所对应的视频作为满足预设条件的目标视频。

将上述满足预设条件的目标视频的模型输出结果和视频相关信息输出到人工标注平台。在人工标注平台显示上述满足预设条件的目标视频的模型输出结果和视频相关信息，以供打标人员进行人工标注。

可选地，从目标视频对应的标签中，分批获取设定数量的不同类别的标签对象；根据与标签对象对应的目标视频生成标注任务，发送标注任务到人工标注平台。其中，目标视频对应的标签可以包括第一目标标签和/或第二目标标签。考虑到标注人力和标注速度，可以分批选择第一目标标签和/或第二目标标签中的几个类别的标签，将被选择的标签称为标签对象。将所选择的标签对应的视频相关信息送入人工标注平台。每次选择几个标签送入人工标注平台进行打标，再基于人工标注平台输出的人工标注数据和预先设置的离线数据生成训练数据集，可以优先改善视频内容分类模型对被选中的这几类标签的识别准确度，加快了模型的迭代速度。

图2c为本发明实施例提供的一种利用人工标注平台给视频打标签的流程图。如图2c所示，获取设定时间段内的模型输出结果，基于上述方式从模型输出结果中选择目前模型标注效果不好的标签。根据标注人力和标注的速度，从上述目标模型标注效果不好的标签中选择设定数量的标签。获取与所选择的标签对应的视频和视频相关的信息，作为需要标注的数据。对需要标注的数据进行格式化(格式化是为了满足人工标注平台的处理要求)后，调用人工标注平台的接口，基于需要标注的数据、打标模板和打标要求(包括准确率要求、打标数量要求、打标人数要求、是否需要审核以及审核比例等)生成打标任务，将打标任务相关的数据送入到人工标注平台，以供打标人员对目标视频进行人工标注。实时获取人工标注平台的人工标注数据，并保存该人工标注数据到预设标签数据库。

步骤130、组合所述人工标注数据和预设离线数据得到训练数据集。

需要说明的是，将人工标注数据和预设离线数据进行组合的策略可以有很多种，本发明实施例并不作具体限定。例如，策略可以包括离线数据和人工标注数据的组合比例，离线数据和人工标注数据的组合数据中正负样本的比例及离线数据和人工标注数据的组合数据中各个标签类别的权重设置等等。为了提高模型性能，需要尽量多的使用在线数据，以达到训练模型所用的数据的分布情况尽量接近应用场景中的数据分布的效果。

具体地，每次模型迭代时，集中选择标注效果不好的标签中的几个类别的标签进行人工打标，以加快模型迭代流程，但是，这种方式可能导致人工标注数据的数量较少。为了满足模型训练的样本数量的要求，还需要从预设的离线数据中选择一定数量的离线数据，并将所选择的离线数据与本次模型迭代过程中获得的所有人工标注数据相组合，生成训练数据集。

步骤140、采用所述训练数据集更新所述视频内容分类模型中的设定参数。

其中，设定参数是视频内容分类模型中特征提取器和特征分类器相关的参数属性是可变的参数。例如，设定参数包括音频特征提取器的少量特征参数、视频特征提取器的少量特征参数和特征分类器参数等。

需要说明的是，由于标注效果不好的标签和标注效果较好的标签均依赖于一个视频内容分类模型输出，因此，需要保证模型训练后，之前标注效果较好的标签的模型输出结果不受影响。为了达到这一目的，需要对基于离线数据训练得到的视频内容分类模型进行如下设置：将音频特征提取器的参数中与音频特征相关的部分参数的属性设置为不变，将音频特征提取器的参数中与音频特征相关的其余参数的属性设置为可变。将视频特征提取器的参数中与视频帧特征相关的部分参数的属性设置为不可变，将视频特征提取器的参数中与视频帧特征相关的其余参数的属性设置为可变。以及，将特征分类器的参数的属性设置为可变。

示例性地，预先将视频内容分类模型中的目标特征参数和分类器参数的属性设置为可变。其中，目标特征参数可以是音频特征提取器的少量特征参数和视频特征提取器的少量特征参数。将训练数据集输入视频内容分类模型，通过模型训练方式更新目标特征参数和分类器参数。具体地，根据训练数据集生成训练集、验证集和测试集。基于该训练集和验证集对视频内容分类模型进行训练，以训练视频内容分类模型中的目标特征参数和分类器参数。通过测试集对视频内容分类模型进行评价，如果模型性能达到预期，则完成本次模型训练，部署训练后的模型到线上，以更新线上模型中需要优化的部分参数，简化了模型部署难度。

本发明实施例提供的技术方案，通过视频内容分类模型确定新增视频的标签，通过该标签从新增视频中选择满足设定条件的目标视频，并获取该目标视频的人工标注数据；组合人工标注数据和预设离线数据生成训练数据集，可以使训练数据集既包括离线数据又包括在线数据；采用训练数据集对视频内容分类模型进行训练，以修改视频内容分类模型中的设定参数，可以实现采用线上数据和离线数据共同训练模型，从而减少由于模型训练时和模型使用时的数据分布不一致导致的模型性能下降的情况发生，提高了模型的性能和打标的准确率。

图3为本发明实施例提供的另一种视频内容分类模型的训练方法的流程图，本实施例是在上述实施例的基础上进行优化，本实施例主要对根据视频内容分类模型确定新增视频的标签过程进行详细的解释说明。

可选地，如图3所示，该方法包括：

步骤310、获取设定时间段内新增的备选视频。

需要说明的是，设定时间段基于模型更新周期确定。例如，模型更新周期是一天，且模型更新开始时间是当天的零点，则设定时间段就是前一天的零点至24点。

示例性地，根据视频上传时间从资源库中获取在设定时间段内新生产的视频，作为备选视频。

步骤320、获取各个所述备选视频的视频属性信息，将所述视频属性信息与预设过滤条件相匹配的备选视频作为满足预设过滤条件的新增视频。

示例性的，通过预先设定的过滤条件对备选视频进行过滤，得到模型训练所需的满足过滤条件的备选视频，作为新增视频。将新增视频的数据放入第一kafka。

步骤330、将所述新增视频输入视频内容分类模型。

步骤340、获取视频内容分类模型的输出结果，判断输出结果中是否存在至少一个标签的分数超过设定阈值，若是，则执行步骤350，否则执行步骤360。

具体地，将新增视频A输入视频内容分类模型，经处理后，视频内容分类模型的输出结果是视频A分别对应第一标签的分数是x₁、视频A分别对应第二标签的分数是x₂，……，视频A分别对应第N标签的分数是x_N，其中，N为正整数。由于视频内容分类模型的输出结果存储于第二kafka，因此，从第二kafka中读取这些输出结果，并将输出结果与设定阈值进行比较。

步骤350、对于每个新增视频，将分数超过设定阈值的标签作为当前新增视频的标签。

具体地，当上述输出结果中存在至少一个标签的分数超过设定阈值时，将分数超过设定阈值的标签作为新增视频A的标签。如果将多个新增视频输入视频内容模型，可以采用上述方式分别确定各个新增视频的标签。

步骤360、对于每个新增视频，将分数最大的标签作为当前新增视频的标签。

具体地，如果新增视频A的输出结果中没有一个标签的分数超过设定阈值，则认为视频内容分类模型无法确定新增视频A的标签类别。对新增视频A对应的输出结果中的各个标签按照分数进行排序，将其中分数最高的标签作为新增视频A的标签。

步骤370、根据所述标签从所述新增视频中选择满足预设条件的目标视频，获取所述目标视频的人工标注数据。

步骤380、组合所述人工标注数据和预设离线数据得到训练数据集。

步骤390、采用所述训练数据集更新所述视频内容分类模型中的设定参数。

本发明实施例提供的技术方案，通过获取模型训练所需的线上业务新产生的视频，将这些视频输入视频内容分类模型，可以得到新增视频的标签，根据标签从这些视频中选择满足预设条件的目标视频，获取目标视频的人工标注数据，并基于人工标注数据和离线数据更新视频内容分类模型中的设定参数，由于视频是线上业务对应的视频，与实际应用中的待预测数据的数据分布一致，可以减少由于数据分布不一致导致的模型性能下降的问题，提高了打标的准确率，因此，模型可以准确的标注视频的标签，有助于精准推荐视频，提高了视频的召回率。

图4为本发明实施例提供的又一种视频内容分类模型的训练方法的流程图，本实施例是在上述实施例的基础上进行优化，本实施例主要对组合所述人工标注数据和预设离线数据得到训练数据集过程进行详细的解释说明。

步骤410、根据视频内容分类模型确定新增视频的标签。

步骤420、根据所述标签从所述新增视频中选择满足预设条件的目标视频，获取所述目标视频的人工标注数据。

步骤430、获取全部人工标注数据，确定所述全部人工标注数据中正负样本的实际比例。

其中，人工标注数据是每次输入人工标注平台的目标视频的人工标注结果。正样本是模型输出结果与人工标注结果一致的视频样本。负样本是模型输出结果与人工标注结果不一致的视频样本。具体地，实时获取人工标注数据，确定该人工标注数据中标注结果与模型输出结果一致的正样本数量，以及标注结果与模型输出结果不一致的负样本数量，将正样本数据和负样本数据的比值作为正负样本的实际比例。

步骤440、根据预设组合比例、所述人工标注数据的数量、预设正负样本比例和所述实际比例，从预设离线数据中获取目标离线数据。

需要说明的是，组合比例是根据模型训练需要预先设置的数值。预设正负样本比例是根据模型训练需要预先设置的数值。人工标注数据的数量基于每次输入人工标注的几类标签对应的视频的数量确定。

具体地，根据预设组合比例和人工标注数据的数量确定目标离线数据数量。当实际比例等于所述预设正负样本比例时，根据实际比例从预设离线数据中随机获取所述目标离线数据数量的目标离线数据。当实际比例不等于预设正负样本比例时，根据实际比例与预设正负样本比例的偏差值，从预设离线数据中随机获取目标离线数据数量的目标离线数据。例如，假设预设组合比例是人工标注数据和离线数据的比值是5:3，获取到的人工标注数据有1200条，则根据比例可知，还需要720条目标离线数据，结合人工标注数据和目标离线数据可知，训练集共用1920条样本数据。如果预设正负样本比例是7:5，则训练集中的正样本和负样本的数量分别是1120条和800条。如果根据人工标注数据中正样本和负样本的数量计算的实际比例也是7:5，则人工标注数据中正样本的数量是700条，负样本的数量是500条，因此，还需要由预设离线数据中随机获取420条正样本和300条负样本。如果根据人工标注数据中正样本和负样本的数量计算的实际比例是7:3，则人工标注数据中正样本的数量是840条，负样本的数量是360条。如果要达到预设正负样本比例规定的7:5，还需要由预设离线数据中随机获取238条正样本和482条负样本。

步骤450、将所述全部人工标注数据和目标离线数据作为训练数据，根据所述训练数据中各个类别的标签对应的视频数量设置各类标签的权重，得到训练数据集。

需要说明的是，由于每个标签类别下的样本数量可能相差较多，为了保证模型训练效果较好，为样本数量较少的标签设置较高的权重，而为样本数量较多的标签设置较低的权重，以避免长尾效应发生。

步骤460、采用所述训练数据集更新所述视频内容分类模型中的设定参数。

本发明实施例提供的技术方案，在每次模型迭代过程中，获取人工标注平台输出的人工标注数据，确定人工标注数据中的正负样本的实际比例，然后，基于预设组合比例、人工标注数据的数量、预设正负样本比例和实际比例，从预设离线数据中获取目标离线数据，将人工标注数据和目标离线数据进行组合，并根据不同标签类别下的视频数量设置各类标签的权重，可以避免正负样本不均衡以及长尾效应，提升模型训练效果。

图5为本发明实施例提供的又一种视频内容分类模型的训练方法的流程图，本实施例是在上述实施例的基础上进行优化，提供一种具体的视频内容分类模型的训练流程。如图5所示，该方法具体包括如下步骤：

步骤501、模型训练。

具体地，预先通过模型训练模块采用离线数据训练视频内容分类模型，在模型训练完成之后，将模型上线到线上推理模块，这样就可以直接接收线上的视频，通过视频内容分类模型为视频打上标签。需要说明的是，模型训练模块和线上推理模块可以是由程序代码实现的功能模块。本步骤是整个优化流程的准备工作，并不是必须步骤。视频内容分类模型的具体训练流程已经在上述实施例中介绍，此处不再赘述。

步骤502、线上推理。

具体地，由于上述视频内容分类模型被部署于线上推理模块，通过线上推理模块读取新增视频，并将新增视频送到视频内容分类模块进行标签类别预测，根据预测结果确定各个新增视频对应标签的分数，再经过阈值处理，确定各个新增视频的标签。将视频相关的信息以及视频标签同步到数据库进行存储。这些带有标签的视频数据可以输出到各种下游应用中。例如，这些带有标签的视频数据可以用作冷启，视频推荐等下游应用。

其中，线上推理模块所读取的视频是用户近期上传的视频。以短视频为例，用户通过客户端创造短视频，并上传至服务端。这些短视频被存储于资源库中，线上推理模块由资源库读取短视频，经预设过滤条件过滤后，送入视频内容分类模型。需要说明的是，上述短视频仅是示例并非限定，本发明实施例中的视频还可以是直播视频、长视频等其它形式的视频。利用视频内容分类模块给视频打标签的具体过程已经在上述实施例中介绍，此处不再赘述。

步骤503、线上打标。

具体地，通过线上打标模块获取设定时间段内的模型输出结果，从模型输出结果中选择标注效果不好的目标标签，根据目标标签从新增视频中选出需要人工标注的目标视频。需要说明的是，从模型输出结果中选择标注效果不好的目标标签的方法已经在上述实施例中介绍，此处不再赘述。在线打标模块可以是由程序代码实现的功能模块。

根据标注人力和标注速度确定每次送入人工标注平台的标签数量，根据标签数量从标注效果不好的标签中随机选择几类标签，分批将被选择标签下的视频的模型输出结果和视频的相关信息输入到人工标注平台，经过人工标注得到人工标注数据，即产生一批对视频内容分类模型来说的难样本，将人工标注数据存入标签数据库。由于每次模型迭代只关注少量几类标签，加快了整个迭代过程。

需要说明的是，采用人工标注平台给视频打标签的具体过程已经在上述实施例中介绍，此处不再赘述。

步骤504、数据重组。

具体地，通过数据重组模块对离线数据和人工标注数据进行数据重组，生成新的训练数据集。根据模型优化要求采用不同的策略组合离线数据和人工标注数据，具体策略已在上述实施例中介绍，此处不再赘述。需要说明的是，数据重组模块可以是由程序代码实现的功能模块。

步骤505、模型优化。

具体地，通过模型优化模块采用训练数据集对视频内容分类模型进行优化。模型优化过程与模型训练过程相似，只不过在数据来源和参数更新两个方面存在区别。

从数据来源方面来说，模型优化所依赖的样本数据包括离线数据和人工标注数据(线上数据)，且为了提高模型性能，样本数据中人工标注数据的占比较大。

从参数更新方面来说，由于实际应用中，所有标签结果都依赖于一个模型，且部分模型输出结果是准确的，因此，模型优化的前提是优化过程中，不能影响其它不需要优化标签的模型结果。为了达到这一目的，需要保持音频特征提取器和视频特征提取器的大部分参数不变，只优化少量的特征参数以及特征分类器的参数。这样设计的好处在于模型优化既不会影响其它不需要优化标签的模型结果，也不必重新训练整个视频内容分类模型，从而加快整个优化过程。

模型训练完成后，可以只更新线上推理模块中的视频内容分类模型的被优化的参数，简化了模型部署难度，还可以实现持续使用最近的数据迭代更新模型，使得模型可以识别出最近流行的趋势。

相关技术采用离线数据训练的模型不能准确识别最近流行趋势。例如，对于流行舞这个标签。由于不同时间段会流行不同的流行舞片段。如果使用去年的流行舞视频学习这个标签，则今年推荐流行舞视频时，模型可能还会推荐去年比较火的流行舞视频，可能影响流行舞这个标签的消费指标，模型性能降低。然而，本发明实施例可以持续使用最近的数据迭代更新模型，因此，模型能够学会今年流行的流行舞视频，从而，推荐出各个新出的流行舞视频，提高流行舞这个标签的消费指标。

本发明实施例提供的技术方案，通过线上推理、线上打标、数据重组和模型优化等一系列步骤，可以实现基于离线数据和线上数据共同训练模型，以优化模型中的设定参数，并根据设定参数更新线上模型的对应参数，简化了模型部署难度，还可以实现持续使用最近的数据迭代更新模型，使得模型可以识别出最新和最近的流行视频。

图6为本发明实施例提供的一种视频内容分类模型的训练装置的结构示意图，具体的，如图6所示，该装置可以包括：

标签确定模块610，用于根据视频内容分类模型确定新增视频的标签；

数据确定模块620，用于根据所述标签从所述新增视频中选择满足预设条件的目标视频，获取所述目标视频的人工标注数据；

训练数据生成模块630，用于组合所述人工标注数据和预设离线数据得到训练数据集；

模型训练模块640，用于采用所述训练数据集更新所述视频内容分类模型中的设定参数。

本实施例提供的技术方案，通过视频内容分类模型确定新增视频的标签，通过该标签从新增视频中选择满足设定条件的目标视频，并获取该目标视频的人工标注数据；组合人工标注数据和预设离线数据生成训练数据集，可以使训练数据集既包括离线数据又包括在线数据；采用训练数据集对视频内容分类模型进行训练，以修改视频内容分类模型中的设定参数，可以实现采用线上数据和离线数据共同训练模型，从而减少由于模型训练时和模型使用时的数据分布不一致导致的模型性能下降的情况发生，提高了模型的性能和打标的准确率。

本发明实施例提供了一种计算机设备，该计算机设备中可继承本发明实施例提供的视频内容分类模型的训练装置。图7为本发明实施例提供的一种计算机设备的结构示意图，如图7所示，该计算机设备700包括存储器710和处理器720及存储在存储器710上并可在处理器720上运行的计算机程序，所述处理器720执行所述计算机程序时实现本发明实施例提供的视频内容分类模型的训练方法。

本实施例提供的一种计算机设备可用于执行上述任意实施例提供的视频内容分类模型的优化方法，具备相应的功能和有益效果。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可实现上述任意实施例中的视频内容分类模型的训练方法。该方法具体可以包括：

根据视频内容分类模型确定新增视频的标签；

组合所述人工标注数据和预设离线数据得到训练数据集；

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的视频内容分类模型的训练方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述视频内容分类模型的训练装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频内容分类模型的训练方法，其特征在于，包括：

根据视频内容分类模型确定新增视频的标签；

组合所述人工标注数据和预设离线数据得到训练数据集；

2.根据权利要求1所述的方法，其特征在于，所述根据视频内容分类模型确定新增视频的标签，包括：

将满足预设过滤条件的新增视频输入视频内容分类模型；

根据所述视频内容分类模型的输出结果确定所述新增视频的标签。

3.根据权利要求2所述的方法，其特征在于，所述将满足预设过滤条件的新增视频输入视频内容分类模型，包括：

获取设定时间段内新增的备选视频；

获取各个所述备选视频的视频属性信息，将所述视频属性信息与预设过滤条件相匹配的备选视频作为满足预设过滤条件的新增视频；

将所述新增视频输入视频内容分类模型。

4.根据权利要求2所述的方法，其特征在于，所述根据所述视频内容分类模型的输出结果确定所述新增视频的标签，包括：

对于每个新增视频，如果所述视频内容分类模型的输出结果中至少一个标签的分数超过设定阈值，则将分数超过设定阈值的标签作为当前新增视频的标签；

对于每个新增视频，如果所述视频内容分类模型的输出结果中不包括分数超过设定阈值的标签，则将分数最大的标签作为当前新增视频的标签。

5.根据权利要求1所述的方法，其特征在于，所述根据所述标签从所述新增视频中选择满足预设条件的目标视频，包括：

获取新增视频的标签和视频内容不相符的第一参考标签；

根据所述第一参考标签对应的分数，将所述分数在设定分数段内的第一参考标签作为第一目标标签；

将所述第一目标标签对应的视频对象作为目标视频。

6.根据权利要求1所述的方法，其特征在于，所述根据所述标签从所述新增视频中选择满足预设条件的目标视频，包括：

获取各个类别的标签对应的视频数量，将所述视频数量小于设定数量阈值的标签作为第二参考标签；

根据每个第二参考标签对应的分数，选择所述分数在设定分数段内的第二参考标签作为第二目标标签；

将所述第二目标标签对应的所述视频对象作为目标视频。

7.根据权利要求1所述的方法，其特征在于，在所述根据所述标签从所述新增视频中选择满足预设条件的目标视频之后，还包括：

从所述目标视频对应的标签中，分批获取设定数量的不同类别的标签对象；

根据与所述标签对象对应的目标视频生成标注任务，发送所述标注任务到人工标注平台。

8.根据权利要求1所述的方法，其特征在于，所述组合所述人工标注数据和预设离线数据得到训练数据集，包括：

获取全部人工标注数据，确定所述全部人工标注数据中正负样本的实际比例；

根据预设组合比例、所述人工标注数据的数量、预设正负样本比例和所述实际比例，从预设离线数据中获取目标离线数据；

将所述全部人工标注数据和目标离线数据作为训练数据，根据所述训练数据中各个类别的标签对应的视频数量设置各类标签的权重，得到训练数据集。

9.根据权利要求8所述的方法，其特征在于，所述根据预设组合比例、所述人工标注数据的数量、预设正负样本比例和所述实际比例，从预设离线数据中获取目标离线数据，包括：

根据所述预设组合比例和所述人工标注数据的数量确定目标离线数据数量；

当所述实际比例等于所述预设正负样本比例时，根据所述实际比例从预设离线数据中随机获取所述目标离线数据数量的目标离线数据；

当所述实际比例不等于所述预设正负样本比例时，根据所述实际比例与所述预设正负样本比例的偏差值，从预设离线数据中随机获取所述目标离线数据数量的目标离线数据。

10.根据权利要求1所述的方法，其特征在于，所述采用所述训练数据集更新所述视频内容分类模型中的设定参数，包括：

将所述训练数据集输入所述视频内容分类模型，通过模型训练方式更新所述视频内容分类模型中的设定参数，其中，所述设定参数包括所述视频内容分类模型中的目标特征参数和分类器参数。

11.一种视频内容分类模型的训练装置，其特征在于，包括：

12.一种计算机设备，其特征在于，所述计算机设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-10中任一所述的视频内容分类模型的训练方法。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-10中任一所述的视频内容分类模型的训练方法。