CN111541911A

CN111541911A - 视频检测方法和装置、存储介质及电子装置

Info

Publication number: CN111541911A
Application number: CN202010319305.4A
Authority: CN
Inventors: 梁健豪; 陈琳; 车翔; 管琰平
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Shenzhen Yayue Technology Co ltd
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2020-08-14
Anticipated expiration: 2040-04-21
Also published as: CN111541911B

Abstract

本发明公开了一种基于人工智能的视频检测方法和装置、存储介质及电子装置。其中，该方法包括：获取待检测的目标视频的多帧视频帧；将多帧视频帧输入到目标识别模型中，得到目标识别模型输出的每帧视频帧的识别结果，其中，目标识别模型为使用多组第一样本视频帧组对原始识别模型进行训练后得到的模型；根据与多帧视频帧分别对应的多个识别结果，确定目标视频为经过拉伸的视频，或者目标视频为未经过拉伸的视频。本发明解决了相关技术中检测视频是否被拉伸准确度低的技术问题。

Description

视频检测方法和装置、存储介质及电子装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种视频检测方法和装置、存储介质及电子装置。

背景技术

现有技术中，通常由于场景的需求，需要检测出一个视频是否经过横向拉伸或者纵向拉伸。而现有技术中的检测方法，通常为使用正常视频中的图片与横向拉伸或者纵向拉伸后的该图片作为样本图片训练神经网络模型，再使用训练后的神经网络模型识别视频中的图片是否经过拉伸，以确定视频是否经过拉伸。

然而，上述过程由于样本的单一性，造成训练效果差，训练的神经网络模型识别视频是否被拉伸的识别准确度低。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种视频检测方法和装置、存储介质及电子装置，以至少解决相关技术中检测视频是否被拉伸准确度低的技术问题。

根据本发明实施例的一个方面，提供了一种视频检测方法，包括：获取待检测的目标视频的多帧视频帧；将上述多帧视频帧输入到目标识别模型中，得到上述目标识别模型输出的每帧上述视频帧的识别结果，其中，上述目标识别模型为使用多组第一样本视频帧组对原始识别模型进行训练后得到的模型，上述第一样本视频帧组包括第一样本视频帧、第二样本视频帧与第二样本视频帧集，上述第一样本视频帧为从上述样本视频中截取的样本视频帧，上述第二样本视频帧为对上述第一样本视频帧进行拉伸变换后得到的样本视频帧，上述第二样本视频帧集包括第一子样本视频帧与第二子样本视频帧与上述第二样本视频帧，上述第一子样本视频帧为对上述第二样本视频帧进行横向拉伸后得到的样本视频帧，上述第二子样本视频帧为对上述第二样本视频帧进行纵向拉伸后得到的样本视频帧；根据与上述多帧视频帧分别对应的多个上述识别结果，确定上述目标视频为经过拉伸的视频，或者上述目标视频为未经过拉伸的视频。

根据本发明实施例的另一方面，还提供了一种视频检测装置，包括：第一获取单元，用于获取待检测的目标视频的多帧视频帧；输入单元，用于将上述多帧视频帧输入到目标识别模型中，得到上述目标识别模型输出的每帧上述视频帧的识别结果，其中，上述目标识别模型为使用多组第一样本视频帧组对原始识别模型进行训练后得到的模型，上述第一样本视频帧组包括第一样本视频帧、第二样本视频帧与第二样本视频帧集，上述第一样本视频帧为从上述样本视频中截取的样本视频帧，上述第二样本视频帧为对上述第一样本视频帧进行拉伸变换后得到的样本视频帧，上述第二样本视频帧集包括第一子样本视频帧与第二子样本视频帧与上述第二样本视频帧，上述第一子样本视频帧为对上述第二样本视频帧进行横向拉伸后得到的样本视频帧，上述第二子样本视频帧为对上述第二样本视频帧进行纵向拉伸后得到的样本视频帧；确定单元，用于根据与上述多帧视频帧分别对应的多个上述识别结果，确定上述目标视频为经过拉伸的视频，或者上述目标视频为未经过拉伸的视频。

作为一种可选的实施方式，上述第一获取单元包括：第二获取模块，用于获取上述目标视频；第二识别模块，用于识别出上述目标视频中的第一视频片段和第二视频片段，其中，上述第一视频片段为从上述目标视频的起始播放时刻起，按照正序播放截取的视频片段，上述第二视频片段为从上述目标视频的终止播放时刻起，按照倒序播放截取的视频片段；处理模块，用于去除上述第一视频片段和上述第二视频片段，得到剩余视频；截取模块，用于根据上述剩余视频的播放时长，每隔预定时长从上述剩余视频中截取一帧视频帧，得到上述目标视频的上述多帧视频帧。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述视频检测方法。

根据本发明实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的视频检测方法。

在本发明实施例中，采用了获取待检测的目标视频的多帧视频帧；将上述多帧视频帧输入到目标识别模型中，得到上述目标识别模型输出的每帧上述视频帧的识别结果，其中，上述目标识别模型为使用多组第一样本视频帧组对原始识别模型进行训练后得到的模型，上述第一样本视频帧组包括第一样本视频帧、第二样本视频帧与第二样本视频帧集，上述第一样本视频帧为从上述样本视频中截取的样本视频帧，上述第二样本视频帧为对上述第一样本视频帧进行拉伸变换后得到的样本视频帧，上述第二样本视频帧集包括第一子样本视频帧与第二子样本视频帧与上述第二样本视频帧，上述第一子样本视频帧为对上述第二样本视频帧进行横向拉伸后得到的样本视频帧，上述第二子样本视频帧为对上述第二样本视频帧进行纵向拉伸后得到的样本视频帧；根据与上述多帧视频帧分别对应的多个上述识别结果，确定上述目标视频为经过拉伸的视频，或者上述目标视频为未经过拉伸的视频的方法，由于在上述方法中，在训练模型的过程中，使用了第一样本视频帧、对第一样本视频帧进行拉伸变换后的第二样本视频帧，以及对第二样本视频帧进行横向拉伸与纵向拉伸得到的第二样本视频帧集，从而训练的识别模型更加准确，进一步提高了识别视频是否被拉伸的准确度。解决了相关技术中检测视频是否被拉伸准确度低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的视频检测方法的应用环境的示意图；

图2是根据本发明实施例的另一种可选的视频检测方法的应用环境的示意图；

图3是根据本发明实施例的一种可选的视频检测方法的流程示意图；

图4是根据本发明实施例的一种可选的视频检测方法的示意图；

图5是根据本发明实施例的另一种可选的视频检测方法的示意图；

图6是根据本发明实施例的又一种可选的视频检测方法的示意图；

图7是根据本发明实施例的又一种可选的视频检测方法的示意图；

图8是根据本发明实施例的又一种可选的视频检测方法的示意图；

图9是根据本发明实施例的一种可选的视频检测装置的结构示意图；

图10是根据本发明实施例的一种可选的电子装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在计算机视觉技术(Computer Vision,CV)方向，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

在机器学习(Machine Learning,ML)方向，机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，本申请实施例提供的方案涉及人工智能的计算机视觉技术与机器学习等技术，具体通过如下实施例进行说明。

根据本发明实施例的一个方面，提供了一种视频检测方法，可选地，作为一种可选的实施方式，上述视频检测方法可以但不限于应用于如图1所示的环境中。

图1中用户102与用户设备104之间可以进行人机交互。用户设备104中包含有存储器106，用于存储交互数据、处理器108，用于处理交互数据。用户设备104可以通过网络110与服务器112之间进行数据交互。服务器112中包含有数据库114，用于存储交互数据、处理引擎116，用于处理交互数据。用户设备104可以获取待检测的目标视频，在获取到目标视频后，从目标视频中获取多帧视频帧，并将视频帧输入到目标识别模型中。目标识别模型可以设置在服务器112侧，由服务器112进行数据的运算，确定出目标视频是否为经过拉伸的视频。

或者，本方案还可以应用与如图2所示的环境中。图2中用户202与用户设备204之间可以进行人机交互。用户设备204中包含有存储器206，用于存储交互数据、处理器208，用于处理交互数据。用户设备202可以获取待检测的目标视频，在获取到目标视频后，从目标视频中获取多帧视频帧，并将视频帧输入到目标识别模型中。目标识别模型可以设置在用户设备204中。由用户设备204输出目标视频是否经过拉伸。

可选地，上述用户设备104或者用户设备204可以但不限于为手机、平板电脑、笔记本电脑、PC机等终端，上述网络110可以包括但不限于无线网络或有线网络。其中，该无线网络包括：WIFI及其他实现无线通信的网络。上述有线网络可以包括但不限于：广域网、城域网、局域网。上述服务器112可以包括但不限于任何可以进行计算的硬件设备。

可选地，作为一种可选的实施方式，如图3所示，上述视频检测方法包括：

S302，获取待检测的目标视频的多帧视频帧；

S304，将所述多帧视频帧输入到目标识别模型中，得到所述目标识别模型输出的每帧所述视频帧的识别结果，其中，所述目标识别模型为使用多组第一样本视频帧组对原始识别模型进行训练后得到的模型，所述第一样本视频帧组包括第一样本视频帧、第二样本视频帧与第二样本视频帧集，所述第一样本视频帧为从所述样本视频中截取的样本视频帧，所述第二样本视频帧为对所述第一样本视频帧进行拉伸变换后得到的样本视频帧，所述第二样本视频帧集包括第一子样本视频帧与第二子样本视频帧与所述第二样本视频帧，所述第一子样本视频帧为对所述第二样本视频帧进行横向拉伸后得到的样本视频帧，所述第二子样本视频帧为对所述第二样本视频帧进行纵向拉伸后得到的样本视频帧；

S306，根据与所述多帧视频帧分别对应的多个所述识别结果，确定所述目标视频为经过拉伸的视频，或者所述目标视频为未经过拉伸的视频。

可选地，上述视频检测方法可以但不限于应用于确定目标视频是否为经过拉伸的视频的过程中。目标视频的产生领域并不做限定。例如，目标视频可以为直播的视频内容、在各个视频平台上投稿的视频内容或者使用编辑软件编辑的视频内容等。

以目标视频为用户在视频平台上发布的视频为例，在用户发布视频后，需要对视频进行判断是否经过拉伸，此时，获取到用户发布的视频，并将视频输入到目标识别模型中，由目标识别模型给出该视频是否经过拉伸的识别结果。由于在上述过程中，所使用的模型是使用了第一样本视频帧、对第一样本视频帧进行拉伸变换后的第二样本视频帧，以及对第二样本视频帧进行横向拉伸与纵向拉伸得到的第二样本视频帧集训练的模型，训练数据进行了丰富，从而训练的模型更加准确，实现了提高识别视频是否被拉伸的准确度的效果。

可选地，本方案中在使用目标识别模型之前，需要对目标识别模型进行训练。在训练过程中，可以获取样本视频，从样本视频中提取多帧第一样本视频帧。对于每一帧第一样本视频帧，对其进行随机拉伸变换后得到第二样本视频帧，对第二样本视频帧进行横向拉伸得到第一子样本视频帧，对第二样本视频帧进行纵向拉伸得到第二子样本视频帧。将第一样本视频帧、第二样本视频帧、第一子样本视频帧、第二子样本视频帧作为训练样本，输入到原始识别模型中。原始识别模型包括有一个特征提取网络和三个子任务分支，特征提取网络提取第一样本视频帧的特征，得到第一特征，并将第一特征输入到模型第一个子任务分支上，训练第一子任务分支，特征提取网络提取第二样本视频帧的特征，得到第二特征，并将第二特征输入到模型第二个子任务分支上，训练第二子任务分支，特征提取网络提取第二样本视频帧、第一子样本视频帧、第二子样本视频帧的特征，得到第三特征，并将第三特征输入到模型第三个子任务分支上，训练第三子任务分支。在训练结束后，得到目标识别模型，将目标识别模型投入使用。在使用目标识别模型的过程中，可以对目标识别模型的识别结果进一步校验，从而进一步提高目标识别模型的准确度。

在获取到目标识别模型后，可以使用目标识别模型识别待识别的目标视频。在获取到目标视频之后，首先可以识别目标视频的第一视频片段与第二视频片段，所述第一视频片段为从所述目标视频的起始播放时刻起，按照正序播放截取的视频片段，所述第二视频片段为从所述目标视频的终止播放时刻起，按照倒序播放截取的视频片段。若是识别到上述第一视频片段与第二视频片段，则需要从目标视频上删除上述第一视频片段与第二视频片段，得到剩余视频。然后，从剩余视频上每隔预定时长截取一帧视频帧，得到多帧视频帧。

例如，一个目标视频总长10分钟，片头1分钟，片尾1分钟，根据视频内容识别出片头与片尾，并删除片头与片尾，剩余视频8分钟，每隔1分钟截取一帧视频帧，得到多帧视频帧。

对于获取到的每一帧视频帧，均作为第一视频帧，获取第一视频帧的第一视频帧组，第一视频帧组包括第一视频帧、第一子视频帧与第二子视频帧，所述第一子视频帧为对所述第一视频帧进行横向拉伸后得到的视频帧，所述第二子视频帧为对所述第一视频帧进行纵向拉伸后得到的视频帧。

例如，对于一帧视频帧，如从视频中截取的第5分钟的视频帧，首先，对该视频帧进行横向拉伸，得到第一子视频帧，然后对该视频帧进行纵向拉伸，得到第二子视频帧，拉伸的比例可以预先设定。如图4所示，图4中的图4a为一帧视频帧，可以横向拉伸到图4b，得到第一子视频帧，纵向拉伸到图4c，得到第二子视频帧。将图4b，图4c与图4a确定为第一视频帧组。

经过上述操作后，每一帧第一视频帧均对应一个第一视频帧组。

在获取到多组视频帧组之后，将每一组视频帧组输入到目标识别模型中，由目标识别模型输出与一组视频帧组对应的识别结果。识别结果包括有识别一组视频帧组中的第一视频帧得到的第一数值，识别第二视频帧得到的第二数值与识别第二视频帧集得到的第一向量。

在输入的过程中，将一组视频帧组中的未经过拉伸变形的第一视频帧输入到目标识别模型的第一任务分支与第二任务分支中，得到第一数值与第二数值，然后将该组视频帧组的三张视频帧输入到第三任务分支中，得到第一向量。在输入的过程中，可以先由特征提取模型提取特征，然后输入特征到各自的任务分支中。

之后，对多个所述识别结果中的每一个识别结果中的所述第二数值与所述第一向量执行预定操作，得到所述每一个识别结果的第三数值；获取所述每一个识别结果中的所述第一数值与所述第三数值，得到目标数据集；确定所述目标数据集中数据的加权均值与加权方差；获取1减去所述加权方差得到的结果；将所述结果与所述加权均值的乘积确定为所述目标数值。该目标数值是与目标视频对应的数值，该数值大于一个预定阈值则认为该目标视频为经过拉伸的视频，若是该数值小于或等于预定阈值，则认为该目标视频为未经过拉伸的视频。

本方案的总的思路是我们使用去除片头片尾后，对剩余视频进行抽帧策略以从视频中抽取有代表性的关键帧，并根据拉伸变形问题的特性采用自动的样本构造法，将每个视频帧图片样本扩展增强为多个图片样本；使用深度学习主干网络进行图片特征提取，以备和后续各任务分支接入；针对拉伸变形问题，设计了变形比例回归、对比择一分类、变形置信度分类等三个网络上层学习任务，与第二步中的主干网络对接并进行端到端训练；通过预测得到的多个视频帧图片进行后策略设计，得到最终的视频级拉伸变形检测分数，以判断一个视频是否存在拉伸变形的问题。

以下结合一个具体示例说明上述视频检测方法。

首先，获取样本视频，然后从视频中抽取一定数量的关键帧，使其足以覆盖视频的主要画面与主要场景。抽帧的细节策略如下：

通过片头片尾检测算法，除去片头片尾部分，在剩余视频的部分进行抽帧。在抽帧时，采用间隔均匀抽帧的方式，对于视频主体超过60秒的视频，均匀抽取10帧(最小间隔6秒)，对于视频主体超过15秒但不超过60秒的视频，均匀抽取5帧(最小间隔3秒)，对于主体少于15秒的视频进行抛弃。

在获取到上述视频帧后，可以通过人工标注的方式，将视频帧中明显经过拉伸变形的视频帧标注出来，被标注出来的视频帧将被从数据集中删除。剩余的视频帧为被标注为未变形或者被标注为特殊类型(特殊类型指无法区分是否有拉伸的类型)的视频帧。使用该剩余的视频帧构造数据集。

1、将该部分视频帧记为data0，标签记为label0，然后将该部分数据按视频维度区分为训练集、验证集与测试集。

2、对于训练集中的数据，设置一个最大的拉伸比例，例如最大横向拉伸2倍，最大纵向拉伸2倍。将训练集中的每一个视频帧在这个最大拉伸比例范围内随机拉伸变形多次，得到多个变形后的视频帧，记为data1，并记录对应的多个变形比例作为标签label1。

3、将上述第2步中拉伸后的图片data1随机抽取一张，如抽取到视频帧A4，将其固定横向拉伸20％、纵向拉伸20％，得到三个一组的图片组，并根据此前记录的拉伸比例，记录这三个图片组中哪一个最接近正常比例作为标签。图片组记为data2，标签记为label2。

数据集构造完成。

构造的数据集用于训练模型。例如如图5步骤S02到步骤S510所示，对视频帧A进行随机拉伸变形，得到视频帧A1、A2、A3、A4后，可以从A1、A2、A3、A4中随机选择一张视频帧，如A4，并横向拉伸20％，与纵向拉伸20％，得到A4a和A4b。将A、A1、A2、A3、A4、A4a和A4b输入到目标识别模型中。

目标识别模型包含两部分，第一部分为特征提取网络，可以为经过预训练的深度残差网络。深度残差网络是一个有效的图片物体分类网络，深度残差网络有多种深度配置，包括18层、34层、50层、101层、152层，为兼顾效果与运行时间，本方案使用的是101层的网络架构配置。去除深度残差网络的最顶层分类层后，该网络可以对任意一张3*H*W尺寸的输入图片输出1024*[H/32]*[W/32]尺寸的图片特征，以下将该特征提取网络称为res101_feature。其中，H为图片高度，W为图片宽度。第二部分为视频检测部分，共包含三个任务分支。

1、变形置信度分类confidence head

视频中抽取的视频帧不可避免会有部分存在转场、模糊、主体不明确的现象，此时人类也无法确切分辨这张图的主体到底是什么、这张图是否存在拉伸变形问题。所以，本分支用于接收数据集中的data0特征，并使用标签label0进行训练，判断每一个视频帧是否能够被人分辨为拉伸变形与否，最终输出一个[0,1]区间内的概率值，记这个概率值为confidence。confidence更接近1代表这张视频帧的主体更明确。也就是说，confidence越接近1，则表示输入的图片由人来分辨时，越容易分辨出是否有进行过拉伸。该分支的结构采用两层卷积神经网络、一层全连接分类层、通过softmax归一化，最终采用交叉熵误差作为该分支任务的误差函数。

2、变形比例回归distortion head

该分支意图预测一张视频帧拉伸变形比例的绝对数值，并通过输入data1与标签label1进行训练。在实际操作中，模型预测的是以横向拉伸变形比例数值为基础的的自然对数值。例如，横向拉伸变形比例为2倍，自然对数值为ln2＝0.693；纵向拉伸变形比例为1.5倍，则转换为横向拉伸变形比例为1/1.5倍，自然对数值为ln1/1.5＝-0.405。采用对数值的原因是，无论横向拉伸比例值分布在1两侧时，等比例的缩放需要有一个等值的标签，比例值为2或比例值为0.5与1相比都是x2或/2的关系，但是两者与1的差分别为1和0.5，并不相等，采用对数比例可以有效地消除这种不相等。根据设置的最大的变形比例(2倍)，该分支的模型输出值应在[-0.693,0.693]区间，记这个输出值为distortion。distortion的绝对值越大，模型认为图片拉伸比例约严重，正数代表为横向拉伸，负数代表为纵向拉伸。该分支的结构采用两层卷积神经网络、一层全连接回归层，最终采用均方误差作为该分支任务的误差函数。

3、对比择一分类choose-one head

该分支注重图片变形后与变形前的相对特征对比。该分支意图通过对比一张视频帧与自身横向拉伸、纵向拉伸后的结果，选择相对偏向于正常图片的那一张，学习的是图片拉伸后的相对特征。该分支输入的是data2的特征，对应标签label2，输出一个三维度的向量p＝[ph,po,pv]，ph代表横向拉伸更好的概率，po代表原图更好的概率，pv代表纵向拉伸更好的概率，且满足ph+po+pv＝1。该分支的结构采用两层卷积神经网络、一层全连接分类层、并进行softmax归一化。上述更好可以为和第一视频帧的比例更接近。

经过数据集中的数据训练模型，从而得到目标识别模型。目标识别模型的识别准确度超过目标阈值。目标阈值可以为预先计算的值。

下一步进行视频的识别。

获取目标视频，从目标视频中提取视频帧，提取方法与从样本中提取视频帧相同。

在提取得到多帧视频帧后，如图6步骤S602到步骤S608所示，将每一帧视频帧，如视频帧B，进行横向拉伸20％、以及纵向拉伸20％，得到Ba与Bb和不做变化的B。将Ba与Bb和B输入到特征提取模型res101_feature中，然后由res101_feature将提取的特征输入到各个子任务分支中，由各个子任务分支输出对应的结果distortion、confidence和[ph,po,pv]。distortion、confidence为数值，[ph,po,pv]为向量。则视频帧B对应的结果为两个数值和一个向量。需要说明的是，将Ba与Bb和B输入到特征提取模型res101_feature中，由res101_feature提取Ba与Bb和B的特征后，将Ba与Bb和B三者的特征输入到choose-one head中，将B的特征输入到confidence head和distortion head中。

每一帧视频帧均对应一个输出结果。每一个输出结果均包括distortion、confidence和[ph,po,pv]，从而，对于一个目标视频，如提取出10帧，则最后的输出结果为10个distortion、10个confidence和10个[ph,po,pv]。

接下来需要计算目标视频的目标分值。

首先，计算每一个视频帧的输出结果中，distortion与[ph,po,pv]的第三数值d_score。该第三数值为一个中间参数，用于计算目标数值。

向量p与distortion之间有一定的关联关系。例如模型完美，则当max(ph,po,pv)＝po时，distortion应落在[-ln1.1,ln1.1]之间(因为只有这样才能保证，横向或纵向拉伸变形20％都不如原图更接近无变形的标准)；当max(ph,po,pv)＝ph时，distortion应落在[-ln2,-ln1.1]之间；当max(ph,po,pv)＝pv时，distortion应落在[ln1.1,-ln2]之间。但是训练得到的模型由于样本有限及不可避免的误差，会存在不一致的矛盾。

为使冲突的分数更准确，对于distortion与p冲突的情况处理约定如下，max(ph,po,pv)＝po且distortion未落在[-ln1.1,ln1.1]之间时，d_score＝distortion/2；或者max(ph,po,pv)＝ph且distortion未落在[-ln2,-ln1.1]时，d_score＝distortion-ln1.2；或者max(ph,po,pv)＝pv且distortion未落在[ln1.1,-ln2]之间时，d_score＝distortion+ln1.2。

接下来，获取所有提取的视频帧的confidence和d_score，以confidence为权值计算d_score的加权均值d_score_mean与加权方差d_score_var。

目标视频的目标分值final_score＝d_score_mean*(1-d_score_var)。

设定预定阈值为0.15，当|final_score|>0.15时，则判断该视频为拉伸变形的视频。

例如，以两个视频帧为例，如图7所示，在模型输出视频帧A与视频帧B的识别结果后，计算视频帧A与视频帧B的d_score_a与d_score_b，并以confidence_a和confidence_b为权值，计算d_score_a与d_score_b的加权均值与加权方差，将加权均值与加权方差输入到d_score_mean*(1-d_score_var)中得到final_score。

可选地，当输入目标视频之后，可以输出视频经过了拉伸或者未经过拉伸的提示信息。例如如图8在输出显示框802中显示视频经过了拉伸的提示信息。

作为一种可选的实施方案，所述将所述多帧视频帧输入到目标识别模型中，得到所述目标识别模型输出的每帧所述视频帧的识别结果包括：

S1，获取每帧所述视频帧对应的第一视频帧组，其中，每组所述第一视频帧组包括第一视频帧、第一子视频帧与第二子视频帧，所述第一视频帧为从所述目标视频中截取的视频帧，所述第一子视频帧为对所述第一视频帧进行横向拉伸后得到的视频帧，所述第二子视频帧为对所述第一视频帧进行纵向拉伸后得到的视频帧；

S2，使用所述目标识别模型识别每组所述第一视频帧组，得到每组所述第一视频帧组的所述识别结果，其中，所述识别结果包括有第一数值、第二数值与第一向量。

通过本实施例，通过上述方法，从而在获取到目标视频中的第一视频帧后，可以获取第一视频帧组，并将第一视频帧组输入到目标识别模型中，得到识别结果，进一步判断目标视频是否被拉伸过，提高了判断目标视频的判断准确度。

作为一种可选的实施方案，所述根据与所述多帧视频帧分别对应的多个所述识别结果，确定所述目标视频为经过拉伸的视频，或者所述目标视频为未经过拉伸的视频包括：

S1，根据多个所述识别结果的所述第一数值、所述第二数值与所述第一向量，确定出所述目标视频的目标数值，其中，所述目标数值用于判断所述目标视频是否为经过拉伸的视频；

S2，在所述目标数值大于预定阈值的情况下，确定所述目标视频为经过拉伸的视频；

S3，在所述目标数值小于或等于所述预定阈值的情况下，确定所述目标视频为未经过拉伸的视频。

通过本实施例，通过上述方法，从而在获取到识别结果后，根据识别结果判断目标视频是否被拉伸过，提高了判断目标视频的判断准确度。

作为一种可选的实施方案，所述根据多个所述识别结果的所述第一数值、所述第二数值与所述第一向量，确定出所述目标视频的目标数值包括：

S1，对多个所述识别结果中的每一个识别结果中的所述第二数值与所述第一向量执行预定操作，得到所述每一个识别结果的第三数值；

S2，获取所述每一个识别结果中的所述第一数值与所述第三数值；

S3，以所述第一数值为权重，确定所述第三数值的加权均值与加权方差；

S4，获取1减去所述加权方差得到的结果；

S5，将所述结果与所述加权均值的乘积确定为所述目标数值。

通过本实施例，通过上述方法，从而可以结合三个子任务分支的识别结果确定出目标视频的目标数值，提高了确定目标视频是否被拉伸的准确度。

作为一种可选的实施方案，在将所述多帧视频帧输入到目标识别模型中，得到所述目标识别模型输出的每帧所述视频帧的识别结果之前，所述方法还包括：

S1，获取所述第一样本视频帧组；

S2，识别所述第一样本视频帧组中的所述第一样本视频帧，得到第一特征；

S3，识别所述第一样本视频帧组中的所述第二样本视频帧，得到第二特征；

S4，识别所述第一样本视频帧组中的所述第二样本视频帧集，得到第三特征；

S5，使用所述第一特征、所述第二特征与所述第三特征训练所述原始识别模型。

通过本实施例，通过上述方法，从而提高了所训练的目标识别模型的准确度，进一步提高了判断目标视频的判断准确度。

作为一种可选的实施方案，所述使用所述第一特征、所述第二特征与所述第三特征训练所述原始识别模型包括：

S1，使用所述第一特征训练所述原始识别模型的第一分支，直到所述第一分支识别准确度大于第一阈值；

S2，使用所述第二特征训练所述原始识别模型的第二分支，直到所述第二分支识别准确度大于第二阈值；

S3，使用所述第三特征训练所述原始识别模型的第三分支，直到所述第三分支识别准确度大于第三阈值。

通过本实施例，通过上述方法，从而可以对目标识别模型的三个子任务分支分别进行训练，提高了训练目标识别模型的准确度，进一步提高了判断目标视频的判断准确度。

作为一种可选的实施方案，所述获取待检测的目标视频的多帧视频帧包括：

S1，获取所述目标视频；

S2，识别出所述目标视频中的第一视频片段和第二视频片段，其中，所述第一视频片段为从所述目标视频的起始播放时刻起，按照正序播放截取的视频片段，所述第二视频片段为从所述目标视频的终止播放时刻起，按照倒序播放截取的视频片段；

S3，去除所述第一视频片段和所述第二视频片段，得到剩余视频；

S4，根据所述剩余视频的播放时长，每隔预定时长从所述剩余视频中截取一帧视频帧，得到所述目标视频的所述多帧视频帧。

通过本实施例，通过上述方法，从而在获取目标视频时，可以获取到代表目标视频的视频帧，提高了获取到的目标视频真的质量，进一步提高了判断目标视频的判断准确度。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述视频检测方法的视频检测装置。如图9所示，该装置包括：

(1)第一获取单元902，用于获取待检测的目标视频的多帧视频帧；

(2)输入单元904，用于将所述多帧视频帧输入到目标识别模型中，得到所述目标识别模型输出的每帧所述视频帧的识别结果，其中，所述目标识别模型为使用多组第一样本视频帧组对原始识别模型进行训练后得到的模型，所述第一样本视频帧组包括第一样本视频帧、第二样本视频帧与第二样本视频帧集，所述第一样本视频帧为从所述样本视频中截取的样本视频帧，所述第二样本视频帧为对所述第一样本视频帧进行拉伸变换后得到的样本视频帧，所述第二样本视频帧集包括第一子样本视频帧与第二子样本视频帧与所述第二样本视频帧，所述第一子样本视频帧为对所述第二样本视频帧进行横向拉伸后得到的样本视频帧，所述第二子样本视频帧为对所述第二样本视频帧进行纵向拉伸后得到的样本视频帧；

(3)确定单元906，用于根据与所述多帧视频帧分别对应的多个所述识别结果，确定所述目标视频为经过拉伸的视频，或者所述目标视频为未经过拉伸的视频。

可选地，上述视频检测装置可以但不限于应用于确定目标视频是否为经过拉伸的视频的过程中。目标视频的产生领域并不做限定。例如，目标视频可以为直播的视频内容、在各个视频平台上投稿的视频内容或者使用编辑软件编辑的视频内容等。

作为一种可选的实施方案，所述输入单元包括：

(1)第一获取模块，用于获取每帧所述视频帧对应的第一视频帧组，其中，每组所述第一视频帧组包括第一视频帧、第一子视频帧与第二子视频帧，所述第一视频帧为从所述目标视频中截取的视频帧，所述第一子视频帧为对所述第一视频帧进行横向拉伸后得到的视频帧，所述第二子视频帧为对所述第一视频帧进行纵向拉伸后得到的视频帧；

(2)第一识别模块，用于使用所述目标识别模型识别每组所述第一视频帧组，得到每组所述第一视频帧组的所述识别结果，其中，所述识别结果包括有第一数值、第二数值与第一向量。

作为一种可选的实施方案，所述确定单元包括：

(1)第一确定模块，用于根据多个所述识别结果的所述第一数值、所述第二数值与所述第一向量，确定出所述目标视频的目标数值，其中，所述目标数值用于判断所述目标视频是否为经过拉伸的视频；

(2)第二确定模块，用于在所述目标数值大于预定阈值的情况下，确定所述目标视频为经过拉伸的视频；

(3)第三确定模块，用于在所述目标数值小于或等于所述预定阈值的情况下，确定所述目标视频为未经过拉伸的视频。

作为一种可选的实施方案，所述第一确定模块包括：

(1)执行子模块，用于对多个所述识别结果中的每一个识别结果中的所述第二数值与所述第一向量执行预定操作，得到所述每一个识别结果的第三数值；

(2)第一获取子模块，用于获取所述每一个识别结果中的所述第一数值与所述第三数值；

(3)第一确定子模块，用于以所述第一数值为权重，确定所述第三数值的加权均值与加权方差；

(4)第二获取子模块，用于获取1减去所述加权方差得到的结果；

(5)第二确定子模块，用于将所述结果与所述加权均值的乘积确定为所述目标数值。

作为一种可选的实施方案，所述装置还包括：

(1)第二获取单元，用于在将所述多帧视频帧输入到目标识别模型中，得到所述目标识别模型输出的每帧所述视频帧的识别结果之前，获取所述第一样本视频帧组；

(2)第一识别单元，用于识别所述第一样本视频帧组中的所述第一样本视频帧，得到第一特征；

(3)第二识别单元，用于识别所述第一样本视频帧组中的所述第二样本视频帧，得到第二特征；

(4)第三识别单元，用于识别所述第一样本视频帧组中的所述第二样本视频帧集，得到第三特征；

(5)训练单元，用于使用所述第一特征、所述第二特征与所述第三特征训练所述原始识别模型。

作为一种可选的实施方案，所述训练单元包括：

(1)第一训练模块，用于使用所述第一特征训练所述原始识别模型的第一分支，直到所述第一分支识别准确度大于第一阈值；

(2)第二训练模块，用于使用所述第二特征训练所述原始识别模型的第二分支，直到所述第二分支识别准确度大于第二阈值；

(3)第三训练模块，用于使用所述第三特征训练所述原始识别模型的第三分支，直到所述第三分支识别准确度大于第三阈值。

作为一种可选的实施方案，所述第一获取单元包括：

(1)第二获取模块，用于获取所述目标视频；

(2)第二识别模块，用于识别出所述目标视频中的第一视频片段和第二视频片段，其中，所述第一视频片段为从所述目标视频的起始播放时刻起，按照正序播放截取的视频片段，所述第二视频片段为从所述目标视频的终止播放时刻起，按照倒序播放截取的视频片段；

(3)处理模块，用于去除所述第一视频片段和所述第二视频片段，得到剩余视频；

(4)截取模块，用于根据所述剩余视频的播放时长，每隔预定时长从所述剩余视频中截取一帧视频帧，得到所述目标视频的所述多帧视频帧。

根据本发明实施例的又一个方面，还提供了一种用于实施上述视频检测方法的电子装置，如图10所示，该电子装置包括存储器1002和处理器1004，该存储器1002中存储有计算机程序，该处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取待检测的目标视频的多帧视频帧；

S2，将所述多帧视频帧输入到目标识别模型中，得到所述目标识别模型输出的每帧所述视频帧的识别结果，其中，所述目标识别模型为使用多组第一样本视频帧组对原始识别模型进行训练后得到的模型，所述第一样本视频帧组包括第一样本视频帧、第二样本视频帧与第二样本视频帧集，所述第一样本视频帧为从所述样本视频中截取的样本视频帧，所述第二样本视频帧为对所述第一样本视频帧进行拉伸变换后得到的样本视频帧，所述第二样本视频帧集包括第一子样本视频帧与第二子样本视频帧与所述第二样本视频帧，所述第一子样本视频帧为对所述第二样本视频帧进行横向拉伸后得到的样本视频帧，所述第二子样本视频帧为对所述第二样本视频帧进行纵向拉伸后得到的样本视频帧；

S3，根据与所述多帧视频帧分别对应的多个所述识别结果，确定所述目标视频为经过拉伸的视频，或者所述目标视频为未经过拉伸的视频。

可选地，本领域普通技术人员可以理解，图10所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图10中所示更多或者更少的组件(如网络接口等)，或者具有与图10所示不同的配置。

其中，存储器1002可用于存储软件程序以及模块，如本发明实施例中的视频检测方法和装置对应的程序指令/模块，处理器1004通过运行存储在存储器1002内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的视频检测方法。存储器1002可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1002可进一步包括相对于处理器1004远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1002具体可以但不限于用于存储目标视频与视频帧等信息。作为一种示例，如图10所示，上述存储器1002中可以但不限于包括上述视频检测装置中的第一获取单元902、输入单元904与确定单元906。此外，还可以包括但不限于上述视频检测装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1006包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1006为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器1008，用于显示目标视频的检测结果；和连接总线1010，用于连接上述电子装置中的各个模块部件。

根据本发明的实施例的又一方面，还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取待检测的目标视频的多帧视频帧；

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频检测方法，其特征在于，包括：

获取待检测的目标视频的多帧视频帧；

将所述多帧视频帧输入到目标识别模型中，得到所述目标识别模型输出的每帧所述视频帧的识别结果，其中，所述目标识别模型为使用多组第一样本视频帧组对原始识别模型进行训练后得到的模型，所述第一样本视频帧组包括第一样本视频帧、第二样本视频帧与第二样本视频帧集，所述第一样本视频帧为从所述样本视频中截取的样本视频帧，所述第二样本视频帧为对所述第一样本视频帧进行拉伸变换后得到的样本视频帧，所述第二样本视频帧集包括第一子样本视频帧与第二子样本视频帧与所述第二样本视频帧，所述第一子样本视频帧为对所述第二样本视频帧进行横向拉伸后得到的样本视频帧，所述第二子样本视频帧为对所述第二样本视频帧进行纵向拉伸后得到的样本视频帧；

根据与所述多帧视频帧分别对应的多个所述识别结果，确定所述目标视频为经过拉伸的视频，或者所述目标视频为未经过拉伸的视频。

2.根据权利要求1所述的方法，其特征在于，所述将所述多帧视频帧输入到目标识别模型中，得到所述目标识别模型输出的每帧所述视频帧的识别结果包括：

获取每帧所述视频帧对应的第一视频帧组，其中，每组所述第一视频帧组包括第一视频帧、第一子视频帧与第二子视频帧，所述第一视频帧为从所述目标视频中截取的视频帧，所述第一子视频帧为对所述第一视频帧进行横向拉伸后得到的视频帧，所述第二子视频帧为对所述第一视频帧进行纵向拉伸后得到的视频帧；

使用所述目标识别模型识别每组所述第一视频帧组，得到每组所述第一视频帧组的所述识别结果，其中，所述识别结果包括有第一数值、第二数值与第一向量。

3.根据权利要求2所述的方法，其特征在于，所述根据与所述多帧视频帧分别对应的多个所述识别结果，确定所述目标视频为经过拉伸的视频，或者所述目标视频为未经过拉伸的视频包括：

根据多个所述识别结果的所述第一数值、所述第二数值与所述第一向量，确定出所述目标视频的目标数值，其中，所述目标数值用于判断所述目标视频是否为经过拉伸的视频；

在所述目标数值大于预定阈值的情况下，确定所述目标视频为经过拉伸的视频；

在所述目标数值小于或等于所述预定阈值的情况下，确定所述目标视频为未经过拉伸的视频。

4.根据权利要求3所述的方法，其特征在于，所述根据多个所述识别结果的所述第一数值、所述第二数值与所述第一向量，确定出所述目标视频的目标数值包括：

对多个所述识别结果中的每一个识别结果中的所述第二数值与所述第一向量执行预定操作，得到所述每一个识别结果的第三数值；

获取所述每一个识别结果中的所述第一数值与所述第三数值；

以所述第一数值为权重，确定所述第三数值的加权均值与加权方差；

获取1减去所述加权方差得到的结果；

将所述结果与所述加权均值的乘积确定为所述目标数值。

5.根据权利要求1所述的方法，其特征在于，在将所述多帧视频帧输入到目标识别模型中，得到所述目标识别模型输出的每帧所述视频帧的识别结果之前，所述方法还包括：

获取所述第一样本视频帧组；

识别所述第一样本视频帧组中的所述第一样本视频帧，得到第一特征；

识别所述第一样本视频帧组中的所述第二样本视频帧，得到第二特征；

识别所述第一样本视频帧组中的所述第二样本视频帧集，得到第三特征；

使用所述第一特征、所述第二特征与所述第三特征训练所述原始识别模型。

6.根据权利要求5所述的方法，其特征在于，所述使用所述第一特征、所述第二特征与所述第三特征训练所述原始识别模型包括：

使用所述第一特征训练所述原始识别模型的第一分支，直到所述第一分支识别准确度大于第一阈值；

使用所述第二特征训练所述原始识别模型的第二分支，直到所述第二分支识别准确度大于第二阈值；

使用所述第三特征训练所述原始识别模型的第三分支，直到所述第三分支识别准确度大于第三阈值。

7.根据权利要求1至6任意一项所述的方法，其特征在于，所述获取待检测的目标视频的多帧视频帧包括：

获取所述目标视频；

识别出所述目标视频中的第一视频片段和第二视频片段，其中，所述第一视频片段为从所述目标视频的起始播放时刻起，按照正序播放截取的视频片段，所述第二视频片段为从所述目标视频的终止播放时刻起，按照倒序播放截取的视频片段；

去除所述第一视频片段和所述第二视频片段，得到剩余视频；

根据所述剩余视频的播放时长，每隔预定时长从所述剩余视频中截取一帧视频帧，得到所述目标视频的所述多帧视频帧。

8.一种视频检测装置，其特征在于，包括：

第一获取单元，用于获取待检测的目标视频的多帧视频帧；

输入单元，用于将所述多帧视频帧输入到目标识别模型中，得到所述目标识别模型输出的每帧所述视频帧的识别结果，其中，所述目标识别模型为使用多组第一样本视频帧组对原始识别模型进行训练后得到的模型，所述第一样本视频帧组包括第一样本视频帧、第二样本视频帧与第二样本视频帧集，所述第一样本视频帧为从所述样本视频中截取的样本视频帧，所述第二样本视频帧为对所述第一样本视频帧进行拉伸变换后得到的样本视频帧，所述第二样本视频帧集包括第一子样本视频帧与第二子样本视频帧与所述第二样本视频帧，所述第一子样本视频帧为对所述第二样本视频帧进行横向拉伸后得到的样本视频帧，所述第二子样本视频帧为对所述第二样本视频帧进行纵向拉伸后得到的样本视频帧；

确定单元，用于根据与所述多帧视频帧分别对应的多个所述识别结果，确定所述目标视频为经过拉伸的视频，或者所述目标视频为未经过拉伸的视频。

9.根据权利要求8所述的装置，其特征在于，所述输入单元包括：

第一获取模块，用于获取每帧所述视频帧对应的第一视频帧组，其中，每组所述第一视频帧组包括第一视频帧、第一子视频帧与第二子视频帧，所述第一视频帧为从所述目标视频中截取的视频帧，所述第一子视频帧为对所述第一视频帧进行横向拉伸后得到的视频帧，所述第二子视频帧为对所述第一视频帧进行纵向拉伸后得到的视频帧；

第一识别模块，用于使用所述目标识别模型识别每组所述第一视频帧组，得到每组所述第一视频帧组的所述识别结果，其中，所述识别结果包括有第一数值、第二数值与第一向量。

10.根据权利要求9所述的装置，其特征在于，所述确定单元包括：

第一确定模块，用于根据多个所述识别结果的所述第一数值、所述第二数值与所述第一向量，确定出所述目标视频的目标数值，其中，所述目标数值用于判断所述目标视频是否为经过拉伸的视频；

第二确定模块，用于在所述目标数值大于预定阈值的情况下，确定所述目标视频为经过拉伸的视频；

第三确定模块，用于在所述目标数值小于或等于所述预定阈值的情况下，确定所述目标视频为未经过拉伸的视频。

11.根据权利要求10所述的装置，其特征在于，所述第一确定模块包括：

执行子模块，用于对多个所述识别结果中的每一个识别结果中的所述第二数值与所述第一向量执行预定操作，得到所述每一个识别结果的第三数值；

第一获取子模块，用于获取所述每一个识别结果中的所述第一数值与所述第三数值；

第一确定子模块，用于以所述第一数值为权重，确定所述第三数值的加权均值与加权方差；

第二获取子模块，用于获取1减去所述加权方差得到的结果；

第二确定子模块，用于将所述结果与所述加权均值的乘积确定为所述目标数值。

12.根据权利要求8所述的装置，其特征在于，所述装置还包括：

第二获取单元，用于在将所述多帧视频帧输入到目标识别模型中，得到所述目标识别模型输出的每帧所述视频帧的识别结果之前，获取所述第一样本视频帧组；

第一识别单元，用于识别所述第一样本视频帧组中的所述第一样本视频帧，得到第一特征；

第二识别单元，用于识别所述第一样本视频帧组中的所述第二样本视频帧，得到第二特征；

第三识别单元，用于识别所述第一样本视频帧组中的所述第二样本视频帧集，得到第三特征；

训练单元，用于使用所述第一特征、所述第二特征与所述第三特征训练所述原始识别模型。

13.根据权利要求12所述的装置，其特征在于，所述训练单元包括：

第一训练模块，用于使用所述第一特征训练所述原始识别模型的第一分支，直到所述第一分支识别准确度大于第一阈值；

第二训练模块，用于使用所述第二特征训练所述原始识别模型的第二分支，直到所述第二分支识别准确度大于第二阈值；

第三训练模块，用于使用所述第三特征训练所述原始识别模型的第三分支，直到所述第三分支识别准确度大于第三阈值。

14.一种计算机可读的存储介质，所述存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现权利要求1至7任一项中所述的方法。

15.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时，实现权利要求1至7任一项中所述的方法。