CN110971895B

CN110971895B - 视频抖动检测方法和装置

Info

Publication number: CN110971895B
Application number: CN201911310784.7A
Authority: CN
Inventors: 于天宝; 邓天生; 杜鹏; 贠挺
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2022-07-08
Anticipated expiration: 2039-12-18
Also published as: JP2021089711A; EP3817392A1; US11546577B2; JP7079294B2; CN110971895A; US20210195170A1

Abstract

本发明提供一种视频抖动检测方法和装置，其中，视频抖动检测方法包括：获取视频；将视频输入到检测模型中，得到视频的评估值，评估值用于指示视频的抖动程度；其中，检测模型是以视频样本集合中的视频样本为输入，以视频样本集合中视频样本的评估值为输出训练得到的模型。通过将待检测的视频输入到检测模型中，通过检测模型可以获取视频的评估值，从而确定视频是否抖动，端到端的实现了视频抖动检测，提高了视频抖动的检测准确率和鲁棒性。

Description

视频抖动检测方法和装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种视频抖动检测方法和装置。

背景技术

近年来，人们获取信息、休闲娱乐的方式逐步发生变化，对于视频类产品的需求急速增长。如果视频中存在画面抖动的现象，会给观看视频的用户带来不好的体验。

检测视频是否存在抖动，常见的有如下几种方法：基于图像位移的光流法、特征点匹配法和基于图像灰度分布特征的视频抖动检测方法。由于视频抖动会带来画面一定程度的来回晃动，基于图像位移的光流法通过图像帧之间光流识别画面的运动方向，从而检测出视频是否抖动。特征点匹配法利用特征点匹配算法识别图像中物体的运动方向，从而检测视频是否抖动。基于图像灰度分布特征的视频抖动检测方法通过获取行灰度值的期望和方差以及列灰度值的期望和方差，在行方向和列方向上分别进行假设检验，从而检测视频是否抖动。

上述方法都利用图像处理技术对视频进行检测，运算复杂，准确率较低，鲁棒性较差。

发明内容

本发明提供一种视频抖动检测方法和装置，提高了视频抖动的检测准确率和鲁棒性。

第一方面，本发明实施例提供一种视频抖动检测方法，包括：

获取视频；

将所述视频输入到检测模型中，得到所述视频的评估值，所述评估值用于指示所述视频的抖动程度；其中，所述检测模型是以视频样本集合中的视频样本为输入，以所述视频样本集合中视频样本的评估值为输出训练得到的模型。

可选的，所述将所述视频输入到检测模型中之前，还包括：

获取所述视频的时长；

若所述时长大于预设时长，则从所述视频中获取第一视频，所述第一视频的时长等于所述预设时长；

所述将所述视频输入到检测模型中，包括：

将所述第一视频输入到检测模型中。

可选的，所述从所述视频中获取第一视频，包括：

从所述视频的起始时刻开始在所述视频中获取所述第一视频；或者，

从所述视频中获取多段短视频，所述多段短视频之间具有时间间隔，将所述多段短视频连接后确定为所述第一视频。

可选的，所述视频样本集合包括第一子集合和第二子集合，所述第一子集合包括的视频样本标注有评估值，所述第二子集合包括的视频样本没有标注评估值；

所述将所述视频输入到检测模型中之前，还包括：

训练所述检测模型；

所述训练所述检测模型，包括：

以所述第一子集合中的视频样本为输入，以所述第一子集合中视频样本的评估值为输出训练得到第一模型；

将所述第二子集合中的视频样本输入到所述第一模型中，得到所述第二子集合中视频样本的评估值；

通过对所述第二子集合中评估值大于第一数值的视频样本进行人工校正评估值，获取修正后的第二子集合，所述修正后的第二子集合中的视频样本标注有评估值；

以所述第一子集合中的视频样本和所述修正后的第二子集合中的视频样本为输入，以所述第一子集合中的视频样本和所述修正后的第二子集合中的视频样本分别对应的评估值为输出训练得到所述检测模型。

可选的，还包括：

获取第三子集合，所述第三子集合包括没有标注评估值的多个视频样本；

将所述第三子集合中的视频样本输入到所述检测模型中，得到所述第三子集合中视频样本的评估值；

从所述第三子集合中获取校验样本，所述校验样本为通过所述检测模型得到的评估值大于第二数值且通过人工校正评估值得到的评估值小于第三数值的视频样本，所述第三数值小于所述第二数值；

以所述第一子集合中的视频样本、所述修正后的第二子集合中的视频样本和所述校验样本为输入，以所述第一子集合中的视频样本、所述修正后的第二子集合中的视频样本和所述校验样本分别对应的评估值为输出，对所述检测模型训练以校正所述检测模型。

可选的，所述第一子集合包括的视频样本数目小于所述第二子集合包括的视频样本数目。

第二方面，本发明实施例提供一种视频抖动检测装置，包括：

获取模块，用于获取视频；

检测模块，用于将所述视频输入到检测模型中，得到所述视频的评估值，所述评估值用于指示所述视频的抖动程度；其中，所述检测模型是以视频样本集合中的视频样本为输入，以所述视频样本集合中视频样本的评估值为输出训练得到的模型。

可选的，所述获取模块还用于：

获取所述视频的时长；

所述检测模块，具体用于将所述第一视频输入到检测模型中。

可选的，所述获取模块具体用于：

还包括训练模块，所述训练模块用于：

可选的，所述训练模块还用于：

第三方面，本发明实施例提供一种视频抖动检测装置，包括：存储器和处理器；

所述存储器，用于存储程序指令；

所述处理器，用于调用所述存储器中存储的所述程序指令以实现本发明第一方面任一实施方式提供的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，包括：可读存储介质和计算机程序，所述计算机程序用于实现本发明第一方面任一实施方式提供的方法。

第五方面，本发明提供一种程序产品，该程序产品包括计算机程序(即执行指令)，该计算机程序存储在可读存储介质中。处理器可以从可读存储介质读取该计算机程序，处理器执行该计算机程序用于实现本发明第一方面任一实施方式提供的方法。

本发明提供一种视频抖动检测方法和装置，将待检测的视频输入到检测模型中，通过检测模型可以得到视频的评估值，从而确定视频是否抖动。由于检测模型是根据大量样本训练出来的模型，因此，本发明提供的视频抖动检测方法，应用场景更加广泛，提高了视频抖动的检测准确率和鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的视频抖动检测方法的一种流程图；

图2为本发明实施例提供的视频抖动检测方法的另一种流程图；

图3为本发明实施例提供的视频抖动检测装置的一种结构示意图；

图4为本发明实施例提供的视频抖动检测装置的另一种结构示意图；

图5为本发明实施例提供的用来实现本发明实施例的示例性计算机系统/服务器的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书及附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例，例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1为本发明实施例提供的视频抖动检测方法的一种流程图。本实施例提供的视频抖动检测方法，执行主体可以为视频抖动检测装置。如图1所示，本实施例提供的视频抖动检测方法，可以包括：

S101、获取视频。

S102、将视频输入到检测模型中，得到视频的评估值，评估值用于指示视频的抖动程度。

其中，检测模型是以视频样本集合中的视频样本为输入，以视频样本集合中视频样本的评估值为输出训练得到的模型。

具体的，获取待检测的视频，通过检测模型，端到端的得到待检测视频对应的评估值，进而，可以根据视频的评估值确定视频是否存在抖动现象。由于检测模型是以大量的视频样本为输入，以每个视频样本对应的评估值为输出训练得到的端到端的模型，因此，对于视频是否存在视频抖动、存在视频抖动时视频抖动的程度都具有良好的判断效果，相比于现有技术中基于图像处理技术检测视频是否抖动，降低了运算复杂度，可以应用于各种视频的检测，扩展了应用范围，提高了视频抖动的检测准确率和鲁棒性。

需要说明，本实施例对获取的视频的大小、文件格式、视频长度等不做限定。

需要说明，本实施例对评估值的实现不做限定。可选的，评估值可以包括有限个数的离散值。举例说明。评估值可以包括：不存在抖动、存在抖动。评估值可以包括：不存在抖动、存在轻微抖动、存在严重抖动。评估值可以包括：0、1，其中，0表示不存在抖动，1表示存在抖动。评估值可以包括：0、1、2，其中，0表示不存在抖动，1表示存在轻微抖动，2表示存在严重抖动。可选的，评估值可以为连续范围内的数值。举例说明。评估值的取值范围可以为大于等于0且小于等于100。评估值的取值越大，说明视频越抖动。例如，评估值为80的视频比评估值为60的视频抖动更严重。或者，评估值的取值越小，说明视频越抖动。本实施例对评估值的取值范围不做限定，例如，评估值的取值范围可以为大于等于0且小于等于1。可选的，当评估值具有一定的取值范围时，可以设置预设数值。该预设数值用于确定视频是否抖动。例如，评估值的取值范围大于等于0且小于等于1，估值的取值越大，说明视频越抖动。预设数值可以为0.7。当视频的评估值大于或等于0.7时，确定视频抖动，当视频的评估值小于或等于0.7时，确定视频不抖动。本实施例对预设数值的取值不做限定。

需要说明，本实施例对视频样本集合包括的视频样本的数量不做限定。其中，为了提升检测模型的准确性以及解决训练过程中的过拟合问题，视频样本的数量尽可能大。例如，视频样本的数量可以大于1万条，例如为1.7万条。

需要说明，本实施例对检测模型的类型不做限定。可选的，检测模型的类型可以为下列中的任意一个：神经网络模型、深度算法模型和机器算法模型。可选的，神经网络模型可以包括但不限于全卷积网络(Fully Convolutional Networks，FCN)模型、卷积网络在生物医学图像分割中的应用(Convolutional Networks for Biomedical ImageSegmentation，U-net)模型。

可选的，在S102中，将视频输入到检测模型中之前，还可以包括：

获取视频的时长。

若视频的时长大于预设时长，则从视频中获取第一视频，第一视频的时长等于预设时长。

相应的，S102中，将视频输入到检测模型中，可以包括：

将第一视频输入到检测模型中。

具体的，如果待检测的视频的长度过长，会增加检测的时间。而且，视频的拍摄环境通常是不变的，如果待检测的视频过长，通过检测视频中的一部分就可以确定视频是否抖动，通常不需要对完整的视频进行检测。因此，当待检测的视频的时长大于预设时长时，从待检测的视频中获取预设时长的第一视频，将第一视频输入到检测模型中，确定视频是否抖动，降低了运算量，缩短了检测时间，提升了检测效率。

需要说明，本实施例对预设时长的取值不做限定。例如，预设时长可以为40秒。

可选的，在一种实现方式中，从视频中获取第一视频，可以包括：

从视频的起始时刻开始在视频中获取第一视频。

举例说明。假设，预设时长为40秒，待检测的视频的时长为3分钟。那么，将待检测的视频的前40秒的视频确定为第一视频。

用户观看视频的习惯，通常点击视频后从头开始观看。如果视频开始就出现抖动，直接影响了用户观看视频的感受。因此，从视频的起始时刻开始获取第一视频，考虑用户的观看习惯，提升了视频检测的准确性和有效性，贴近用户感受。

可选的，在另一种实现方式中，从视频中获取第一视频，可以包括：

从视频中获取多段短视频，多段短视频之间具有时间间隔，将多段短视频连接后确定为第一视频。

举例说明。假设，预设时长为40秒，待检测的视频的时长为3分钟。那么，第一视频可以包括待检测的视频中的如下时间段：0-20秒、60-70秒、120-130秒，或者，0-20秒、60-80秒。

用户观看视频的习惯，通常点击视频后从头开始观看，观看期间可能多次跳跃观看视频的不同的部分。因此，将视频中的多段短视频确定为第一视频，考虑用户的观看习惯，提升了视频检测的准确性和有效性，贴近用户感受。

需要说明，本实施例对短视频的数量、短视频的持续时长和在待检测视频中的位置不做限定。

训练检测模型。

需要说明的是，本实施例对检测模型的训练方法不做限定，根据模型类型的不同可以有所不同。例如，在训练过程中，可以对视频进行切帧处理，每秒切5帧，将视频帧缩放成224*224的尺寸，格式为三原色(Red,Green,Blue，RGB)图像。

可见，本实施例提供一种视频抖动检测方法，将待检测的视频输入到检测模型中，通过检测模型可以得到视频的评估值，从而确定视频是否抖动。由于检测模型是根据大量样本训练出来的模型，因此，本实施例提供的视频抖动检测方法，应用场景更加广泛，提高了视频抖动的检测准确率和鲁棒性。

图2为本发明实施例提供的视频抖动检测方法的另一种流程图。本实施例对检测模型的训练过程进行说明。在本实施例中，视频样本集合可以包括第一子集合和第二子集合，第一子集合包括的视频样本标注有评估值，第二子集合包括的视频样本没有标注评估值。如图2所示，训练检测模型，可以包括：

S201、以第一子集合中的视频样本为输入，以第一子集合中视频样本的评估值为输出训练得到第一模型。

S202、将第二子集合中的视频样本输入到第一模型中，得到第二子集合中视频样本的评估值。

S203、通过对第二子集合中评估值大于第一数值的视频样本进行人工校正评估值，获取修正后的第二子集合，修正后的第二子集合中的视频样本标注有评估值。

S204、以第一子集合中的视频样本和修正后的第二子集合中的视频样本为输入，以第一子集合中的视频样本和修正后的第二子集合中的视频样本分别对应的评估值为输出训练得到检测模型。

下面结合示例进行说明。

假设，视频样本集合一共包括1.7万个视频样本。其中，第一子集合包括1000个视频样本，这1000个视频样本标注有评估值。本实施例对第一子集合中的视频样本的评估值的获取方式不做限定，例如，可以通过人工标注。第二子集合包括1.6万个视频样本，这1.6万个视频样本没有标注评估值。

检测模型的训练过程可以包括：

以第一子集合中的1000个视频样本为输入，以这1000个视频样本分别对应的评估值为输出训练得到第一模型。然后，将第二子集合中的1.6万个视频样本输入到第一模型中，得到这1.6万个视频样本分别对应的评估值。然后，获取第二子集合对应的修正后的第二子集合。具体的，通过人工校正的方式，对第二子集合中评估值大于第一数值的视频样本进行人工校正评估值。为了便于说明，对于第二子集合中的视频样本的评估值，将通过第一模型得到的评估值表示为评估值P1，对通过人工校正的方式得到的评估值表示为评估值P2。比如，第一数值为0.7。第二子集合中的视频样本1的评估值P1为0.8。通过对视频样本1进行人工校正，得到视频样本1的评估值P2可能为0.6。最后，以第一子集合中的1000个视频样本和修正后的第二子集合中的1.6万个视频样本为输入，以每个视频样本的评估值为输出训练得到检测模型。

可见，第一模型是通过视频样本集合中的一部分视频样本训练得到的，准确率还有待提升。第二子集合包括的视频样本没有标注评估值，首先通过第一模型可以得到每个视频样本的评估值。由于第一模型可能存在误差，因此，通过人工校正的方式，对第一模型输出的评估值较高的视频样本进行校正。然后，根据第一子集合和修正后的第二子集合中的视频样本继续以第一模型为基础进行训练，得到准确的检测模型。

其中，S203～S204可以循环执行多次，本实施例对执行的次数不做限定。

其中，本实施例对第一数值的取值不做限定。

可选的，第一子集合包括的视频样本数目可以小于第二子集合包括的视频样本数目，降低获取第一子集合的难度。

可选的，S204之后，还可以包括：

获取第三子集合，第三子集合包括没有标注评估值的多个视频样本。

将第三子集合中的视频样本输入到检测模型中，得到第三子集合中视频样本的评估值。

从第三子集合中获取校验样本，校验样本为通过检测模型得到的评估值大于第二数值且通过人工校正评估值得到的评估值小于第三数值的视频样本，第三数值小于第二数值。

以第一子集合中的视频样本、修正后的第二子集合中的视频样本和校验样本为输入，以第一子集合中的视频样本、修正后的第二子集合中的视频样本和校验样本分别对应的评估值为输出，对检测模型训练以校正检测模型。

下面还结合上述示例进行说明。

假设，第三子集合包括1万个视频样本，这1万个视频样本没有标注评估值。

检测模型的训练过程还可以包括：

将第三子集合中的1万个视频样本输入到检测模型中，得到这1万个视频样本分别对应的评估值。从第三子集合中获取校验样本。具体的，通过对第三子集合中利用检测模型得到的评估值大于第二数值的视频样本进行人工校正。为了便于说明，对于第三子集合中的视频样本的评估值，将通过检测模型得到的评估值表示为评估值Q1，对通过人工校正的方式得到的评估值表示为评估值Q2。比如，第二数值为0.7。第三子集合中的视频样本1的评估值Q1为0.8。通过对视频样本1进行人工校正，得到视频样本1的评估值Q2可能为0.6。视频样本1即为校验样本。假设，校验样本的数量为2000个。最后，以第一子集合中的1000个视频样本、修正后的第二子集合中的1.6万个视频样本和2000个校验样本为输入，以每个视频样本的评估值为输出，对检测模型训练以校正检测模型。

可见，通过第三子集合对检测模型进行校正，进一步提升了检测模型的准确性。

图3为本发明实施例提供的视频抖动检测装置的一种结构示意图。本实施例提供的视频抖动检测装置，用于执行图1～图2所示实施例提供的视频抖动检测方法。如图3所示，本实施例提供的视频抖动检测装置，可以包括：

获取模块31，用于获取视频；

检测模块32，用于将所述视频输入到检测模型中，得到所述视频的评估值，所述评估值用于指示所述视频的抖动程度；其中，所述检测模型是以视频样本集合中的视频样本为输入，以所述视频样本集合中视频样本的评估值为输出训练得到的模型。

可选的，所述获取模块31还用于：

获取所述视频的时长；

所述检测模块32，具体用于将所述第一视频输入到检测模型中。

可选的，所述获取模块31具体用于：

还包括训练模块，所述训练模块用于：

可选的，所述训练模块还用于：

本实施例提供的视频抖动检测装置，用于执行图1～图2所示实施例提供的视频抖动检测方法，其技术原理和技术效果类似，此处不再赘述。

图4为本发明实施例提供的视频抖动检测装置的另一种结构示意图。如图4所示，视频抖动检测装置可以包括处理器41和存储器42。所述存储器42用于存储指令，所述处理器41用于执行所述存储器42中存储的指令，以使所述视频抖动检测装置执行图1～图2所示实施例提供的视频抖动检测方法，技术原理和技术效果相似，此处不再赘述。

需要说明，本发明对视频抖动检测装置的设备形态和具体结构不做限定。

示例性的，图5为本发明实施例提供的用来实现本发明实施例的示例性计算机系统/服务器的结构示意图。图5显示的计算机系统/服务器012仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统/服务器012以通用计算设备的形式表现。计算机系统/服务器012的组件可以包括但不限于：一个或者多个处理器或者处理器016，系统存储器028，连接不同系统组件(包括系统存储器028和处理器016)的总线018。

总线018表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机系统/服务器012典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器012访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器028可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)030和/或高速缓存存储器032。计算机系统/服务器012可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统034可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线018相连。存储器028可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块042的程序/实用工具040，可以存储在例如存储器028中，这样的程序模块042包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块042通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器012也可以与一个或多个外部设备014(例如键盘、指向设备、显示器024等)通信，还可以与一个或者多个使得用户能与该计算机系统/服务器012交互的设备通信，和/或与使得该计算机系统/服务器012能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口022进行。并且，计算机系统/服务器012还可以通过网络适配器020与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图5所示，网络适配器020通过总线018与计算机系统/服务器012的其它模块通信。应当明白，尽管图5中未示出，可以结合计算机系统/服务器012使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器016通过运行存储在系统存储器028中的程序，从而执行本发明所描述的实施例中的功能和/或方法。

上述的计算机程序可以设置于计算机存储介质中，即该计算机存储介质被编码有计算机程序，该程序在被一个或多个计算机执行时，使得一个或多个计算机执行本发明上述实施例中所示的方法流程和/或装置操作。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明实施例的技术方案，而非对其限制；尽管参照前述各实施例对本发明实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.一种视频抖动检测方法，其特征在于，包括：

获取视频；

将所述视频输入到检测模型中，端到端的得到所述视频的评估值，所述评估值用于指示所述视频的抖动程度；其中，所述检测模型是以第一子集合中的视频样本、修正后的第二子集合中的视频样本和校验样本为输入，以所述第一子集合中的视频样本、所述修正后的第二子集合中的视频样本和所述校验样本分别对应的评估值为输出校正得到的端到端的模型；所述修正后的第二子集合为第二子集合通过所述检测模型得到评估值大于第一数值的视频样本进行人工校正评估值得到的子集合；所述校验样本为第三子集合中通过检测模型得到的评估值大于第二数值且通过人工校正评估值得到的评估值小于第三数值的视频样本，第三数值小于第二数值，第二数值等于第一数值。

2.根据权利要求1所述的方法，其特征在于，所述将所述视频输入到检测模型中之前，还包括：

获取所述视频的时长；

所述将所述视频输入到检测模型中，包括：

将所述第一视频输入到检测模型中。

3.根据权利要求2所述的方法，其特征在于，所述从所述视频中获取第一视频，包括：

4.根据权利要求1至3任一项所述的方法，其特征在于，所述第一子集合包括的视频样本标注有评估值，所述第二子集合包括的视频样本没有标注评估值；

所述将所述视频输入到检测模型中之前，还包括：

训练所述检测模型；

所述训练所述检测模型，包括：

以所述第一子集合中的视频样本和所述修正后的第二子集合中的视频样本为输入，以所述第一子集合中的视频样本和所述修正后的第二子集合中的视频样本分别对应的评估值为输出训练得到所述检测模型；

从所述第三子集合中获取校验样本；

5.根据权利要求4所述的方法，其特征在于，所述第一子集合包括的视频样本数目小于所述第二子集合包括的视频样本数目。

6.一种视频抖动检测装置，其特征在于，包括：

获取模块，用于获取视频；

检测模块，用于将所述视频输入到检测模型中，端到端的得到所述视频的评估值，所述评估值用于指示所述视频的抖动程度；其中，所述检测模型是以第一子集合中的视频样本、修正后的第二子集合中的视频样本和校验样本为输入，以所述第一子集合中的视频样本、所述修正后的第二子集合中的视频样本和所述校验样本分别对应的评估值为输出校正得到的端到端的模型；所述修正后的第二子集合为第二子集合通过所述检测模型得到评估值大于第一数值的视频样本进行人工校正评估值得到的子集合；所述校验样本为第三子集合中通过检测模型得到的评估值大于第二数值且通过人工校正评估值得到的评估值小于第三数值的视频样本，第三数值小于第二数值，第二数值等于第一数值。

7.根据权利要求6所述的装置，其特征在于，所述获取模块还用于：

获取所述视频的时长；

8.根据权利要求7所述的装置，其特征在于，所述获取模块具体用于：

9.根据权利要求6至8任一项所述的装置，其特征在于，所述第一子集合包括的视频样本标注有评估值，所述第二子集合包括的视频样本没有标注评估值；

还包括训练模块，所述训练模块用于：

从所述第三子集合中获取校验样本；

10.根据权利要求9所述的装置，其特征在于，所述第一子集合包括的视频样本数目小于所述第二子集合包括的视频样本数目。

11.一种视频抖动检测装置，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序指令；

所述处理器，用于调用所述存储器中存储的所述程序指令以实现如权利要求1-5中任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，包括：计算机程序，所述计算机程序用于实现如权利要求1-5中任一项所述的方法。