CN114727093B

CN114727093B - 数据分析方法、装置、电子设备及计算机存储介质

Info

Publication number: CN114727093B
Application number: CN202210273260.0A
Authority: CN
Inventors: 王昊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-03-18
Filing date: 2022-03-18
Publication date: 2023-03-24
Anticipated expiration: 2042-03-18
Also published as: CN114727093A

Abstract

本公开提供了数据分析方法、装置、电子设备及计算机存储介质，计算机技术领域，尤其涉及计算机视觉、深度学习等人工智能技术领域。具体实现方案为：获取待分析的视频数据；视频数据包括多个视频帧；获得多个视频帧中每个视频帧的图像内容；根据图像内容，确定目标抖动判定规则；根据目标抖动判定规则和不同的视频帧之间的抖动信息，确定视频数据的第一稳定性分析结果。本公开实施例能够提高视频数据分析结果的准确性。

Description

数据分析方法、装置、电子设备及计算机存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及计算机视觉、深度学习等人工智能技术领域。

背景技术

随着计算机技术的发展，网络成为人们日常生活、生产、学习等活动必不可少的工具。网络上的信息内容多种多样，主要包括文字类型的信息、图像类型的信息、音频类型的信息和视频类型的信息等。由于目前的计算机设备，包括便携移动终端等，几乎均具备视频拍摄功能，因此，网络上的视频类型的信息数量也越来越多，网络用户观看视频类型的信息的行为也越来越多。

随着视频数据数量的增多，视频数据的质量也呈现出参差不齐的现象。质量较差的视频数据，可能会对观看者造成不好的观看体验，影响视频产品的用户的维持和数量增加。

发明内容

本公开提供了一种数据分析方法、装置、电子设备及计算机存储介质。

根据本公开的一方面，提供了一种数据分析方法，包括：

获取待分析的视频数据；视频数据包括多个视频帧；

获得多个视频帧中每个视频帧的图像内容；

根据图像内容，确定目标抖动判定规则；目标抖动判定规则为预设的多个判定规则之一；

根据目标抖动判定规则和不同的视频帧之间的抖动信息，确定视频数据的第一稳定性分析结果。

根据本公开的另一方面，提供了一种数据分析装置，包括：

视频获取模块，用于获取待分析的视频数据；视频数据包括多个视频帧；

图像内容模块，用于获得多个视频帧中每个视频帧的图像内容；

判定规则模块，用于根据图像内容，确定目标抖动判定规则；目标抖动判定规则为预设的多个判定规则之一；

分析结果模块，用于根据目标抖动判定规则和不同的视频帧之间的抖动信息，确定视频数据的第一稳定性分析结果。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现本公开任一实施例中的方法。

根据本公开的技术，能够对待分析视频数据进行图像内容和抖动信息的提取，根据图像内容确定抖动判定规则，从而能够针对不同的图像内容，采用不同的标准进行抖动判定，提高抖动分析结果的准确性，从而有助于对抖动过大的视频进行有效筛选、处理，进一步有助于提高用户观看视频的体验。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开一实施例的数据处理方法示意图；

图2是根据本公开另一实施例的数据处理方法示意图；

图3是根据本公开又一实施例的数据处理方法示意图；

图4是根据本公开又一实施例的数据处理方法示意图；

图5是根据本公开一示例的数据处理方法的数据示意图；

图6是根据本公开一示例的数据处理方法所使用的模型示意图；

图7是根据本公开一示例的数据处理方法所使用的模型中转换块示意图；

图8是根据本公开一示例的数据处理方法所使用的模型中残差块示意图；

图9是根据本公开一实施例的数据处理装置示意图；

图10是根据本公开另一实施例的数据处理装置示意图；

图11是根据本公开又一实施例的数据处理装置示意图；

图12是根据本公开又一实施例的数据处理装置示意图；

图13是根据本公开又一实施例的数据处理装置示意图；

图14是根据本公开又一实施例的数据处理装置示意图；

图15是用来实现本公开实施例的数据处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开实施例根据本公开的实施例，提供了一种数据分析方法，图1是根据本公开实施例的数据分析方法的流程示意图，该方法可以应用于可利用前端或有段执行指令的电子设备，例如，该装置可以部署于终端或服务器或其它处理设备执行的情况下，可以执行目标信息的内容的获取、稳定性的确定等步骤。其中，终端可以为用户设备(UE，UserEquipment)、移动设备、蜂窝电话、无绳电话、个人数字处理(PDA，Personal DigitalAssistant)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图1所示，数据分析方法包括：

步骤S11：获取待分析的视频数据；待分析的视频数据包括多个视频帧；

步骤S12：获取多个视频帧中每个视频帧的图像内容；

步骤S13：根据图像内容，确定目标抖动判定规则；目标抖动判定规则为预设的多个判定规则之一；

步骤S14：根据目标抖动判定规则和不同的视频帧之间的抖动信息，确定视频数据的第一稳定性分析结果。

本实施例中，待分析的视频数据，可以为一个已知视频数据中的片段。待分析的视频数据包括的多个视频帧，为已知视频数据中的视频帧。

待分析的视频数据包括多个视频帧，可以是时序上具有一定连续型的视频帧。比如，视频数据包括10个视频帧，分别为已知视频数据中第1-第10秒出现的视频帧。

在另一种可能的实现方式中，待分析的视频数据包括的多个视频帧中，可以是按照时序顺序排列的视频帧，且相邻时序的视频帧之间的提取时刻间隔相同。比如，第一个时序的视频帧为从已知视频数据的第1秒提取的，第二个时序的视频帧为从已知视频数据的第2秒提取的……如此类推，两个相邻时序的视频帧之间的提取时刻间隔为1秒。

本实施例中，获得多个视频帧中每个视频帧的图像内容，可以是采用目标检测等方式，确定每个视频帧中的目标物体，根据目标物体以及目标物体对应的数量、状态，确定每个视频帧的图像内容。目标物体具体可以包括人物、动物、植物、静物和单一背景中的至少一种等等。

比如，针对一个视频帧，其中的目标物体包括多个车辆、街道、植物，可以判断这一视频帧中的图像内容为道路车流。

再如，可以预设一部分常出现的图像内容。比如道路、人物、运动场、海边、公园等，获得多个视频帧中每个视频帧的图像内容，可以包括确定每个视频帧的属于预设的各图像内容的概率，选择概率超过预设阈值的至少一个预设图像内容作为视频帧的图像内容。

在一种可能的实现方式中，视频帧中的图像内容可以包括至少一种。

获取多个视频帧中每个视频帧的图像内容，还可以是获取每个视频帧的空间图像特征，作为图像内容。

根据图像内容，确定目标抖动判定规则，可以是根据预设的图像内容和抖动判定规则之间的对应关系，选择与图像内容对应的抖动判定规则作为目标抖动判定规则。

在具体实现方式中，不同的图像内容可以对应不同的抖动判定规则。

在一种可能的实现方式中，根据图像内容，确定目标抖动判定规则，可包括针对视频数据中的每个视频帧的图像内容，确定对应于视频帧的抖动判定规则。在相邻时序的两个视频帧的目标抖动判定规则相同的情况下，采用相同的目标抖动判定规则对相邻时序的两个视频帧进行抖动判断。

在另一种可能的实现方式中，根据图像内容，确定目标抖动判定规则，可以包括，确定视频帧中的图像内容的主要内容，根据主要内容，确定目标抖动判定规则。

本实施例中，不同的视频帧之间的抖动信息，可以是待分析视频数据中，时序相邻的两个视频帧之间的抖动信息，也可以是待分析视频数据中，时序连续的多个视频帧之间的抖动信息。即，不同的视频帧之间的抖动信息，可以包括时序连续的至少两个视频帧之间的抖动信息。

在一种可能的实现方式中，不同的视频帧之间的抖动信息，可以是时序上不相邻的视频帧之间的抖动信息，即帧间变化特征。考虑到待分析视频数据中，可能存在不同内容的穿插，因此，不同的视频帧之间可以是时序上具有先后时间关系、图像内容存在一定的相似性的不同视频帧。

在一种可能的实现方式中，由于视频帧中的图像内容可能包括两种以上，两种以上不同的图像内容可能对应不同的目标抖动判定规则，因此，针对不同的两个视频帧，可能存在针对不同图像内容的多种目标抖动判定规则，在这种情况下，可选择不同视频帧之间公有的一种目标抖动判定规则，作为两个视频帧的目标抖动判定规则。

根据目标抖动判定规则和不同的视频帧之间的抖动信息，确定视频数据的第一稳定性分析结果，可以包括，根据目标抖动判定规则，判定抖动信息是否过于剧烈，得到第一稳定性分析结果。

第一稳定性分析结果，可以包括视频数据抖动或不抖动。

根据目标抖动判定规则和不同的视频帧之间的抖动信息，确定视频数据的第一稳定性分析结果，可以包括，根据相邻时序的不同视频帧之间的抖动信息和目标抖动判定规则，确定各相邻不同视频帧之间的分析结果，根据所有相邻不同视频帧之间的分析结果，得到第一稳定性分析结果。

本实施例中，能够对待分析视频数据进行图像内容和抖动信息的提取，根据图像内容确定抖动判定规则，从而能够针对不同的图像内容，采用不同的标准进行抖动判定，提高抖动分析结果的准确性，从而有助于对抖动过大的视频进行有效筛选、处理，进一步有助于提高用户观看视频的体验。

在一种实施方式中，如图2所示，根据图像内容，确定目标抖动判定规则，包括：

步骤S21：在视频数据中，时序相邻视频帧的图像内容符合预设的连续内容判定条件的情况下，根据图像内容，确定目标分类；连续内容判定条件，包括时序相邻视频帧的图像内容的相似度达到设定的相似度阈值；

步骤S22：根据预设的分类与抖动判定规则的对应关系，确定与目标分类对应的抖动判定规则；

步骤S23：将与目标分类对应的抖动判定规则，作为目标抖动判定规则。

本实施例中，符合连续内容判定条件的视频帧，可以为图像内容连续、没有镜头切换的视频帧。

比如，针对两个时序上相邻的视频帧，其中一个视频帧的图像内容包括第一背景和第一人物，另一个视频帧的图像内容包括第二背景和第二人物，则这两个时序上相邻的视频帧不符合预设的连续内容判定条件。

再如，针对两个时序上相邻的视频帧，其中一个视频帧的图像内容包括第一背景和第一人物，另一个视频帧的图像内容仍然包括第一背景和第一人物，则可认为这两个时序上相邻的视频帧符合预设的连续内容判定条件。

本实施例中，在时序相邻视频帧的图像内容符合预设的连续内容判定条件的情况下，根据图像内容，确定目标分类，可以是将图像内容作为目标分类，也可以是根据图像内容，确定另外的编码或者名称作为目标分类。

比如，在两个时序相邻的视频帧的图像内容均为第一人物的情况下，可确定时序相邻视频帧的图像内容符合预设的连续内容判定条件，可确定目标分类为人物。

在视频帧中的图像内容，包含比较丰富的目标物体的情况下，目标分类可以包括两个或多个。

根据预设的分类与抖动判定规则的对应关系，确定与目标分类对应的抖动判定规则，可以是根据目标分类的名称，进行查找，获得与目标分类对应的抖动判定规则。也可以是根据目标分类的编号，进行查找，获得与目标分类对应的抖动判定规则。

本实施例中，能够对视频帧中的图像内容进行分类，根据分类情况确定目标抖动判定规则，从而针对不同的分类，可以采用不同的标准判定抖动，针对视频帧中本身就存在人物运动、车流运动的情况下，可相对放宽抖动认定标准，针对视频帧中仅包含静态物体的情况下，可以按照正常的抖动认定标准进行抖动判定，从而提高抖动分析结果的准确性。

在一种实施方式中，如图3所示，确定图像内容的目标分类，包括：

步骤S31：根据图像内容，确定至少一个目标物体的信息；

步骤S32：根据至少一个目标物体的信息，确定图像内容对应的运动信息；

步骤S33：根据运动信息，确定目标分类。

本实施例中，根据图像内容，确定至少一个目标物体的信息，可以是根据目标跟踪算法、目标识别算法等，确定视频帧中的至少一个目标物体。

在另一种可能的实现方式中，根据图像内容，确定至少一个目标物体的信息，可以是识别图像内容中的所有目标物体。

在另一种可能的实现方式中，根据图像内容，确定至少一个目标物体的信息，可以是识别图像内容中的所有目标物体，以及各目标物体的状态信息。比如，目标物体包括人体，人体的状态信息为运动状态。再如，目标物体包括铁球，铁球的状态信息为自由落体或下落状态。再如，目标物体包括车辆，车辆的状态信息为静止或运动状态。再如，目标物体包括人体，人体的状态信息为站立状态、说话状态、睡眠状态、吃饭状态、工作状态等。

根据至少一个目标物体的信息，确定图像内容对应的运动信息，可以是根据目标的信息，确定图像内容对应的运动种类的信息。比如，至少一个目标物体包括人体、镜子，且镜子的状态信息为竖立静止状态，人体的状态信息为运动状态，可以进一步确定图像内容对应的运动信息为舞蹈。

再如，至少一个目标物体包括人体、球网，且球网的状态信息为静止状态，人体的状态信息为运动状态，可以进一步确定图像内容对应的运动信息为体育运动。

再如，至少一个目标物体包括道路、路灯、车辆，且道路、路灯、车辆的状态信息都为静止状态，则图像内容对应的运动信息为静止。

本实施例中，运动信息可以为图像内容中的目标物体的运动形态，比如人体的球类运动、滑冰运动、游泳运动、跑步运动、投掷运动、弹跳运动、舞蹈运动、走路运动、上肢运动、杂技运动、无明显运动等。再如，车辆的一般行驶运动、倒退运动、极速行驶运动、特技运动等。再如，树枝的无明显运动、风吹运动、轻微摇动等。再如，动物的追逐运动、慢跑运动、飞翔运动、跳跃运动、攀爬运动等。再如，云朵的一般变化运动等。再如，水面的波纹运动、浪花运动等。再如，球类的滚动、弹动、自有落体运动、抛物运动等。

在一种可能的实现方式中，根据运动信息，确定目标分类，可以是根据运动信息，进一步进行代码转换、名称转换等操作，确定目标分类。也可以是将运动信息作为目标分类。

本实施例中，能够根据图像内容中至少一个目标物体的信息，确定图像内容对应的运动信息，进而确定目标分类，从而有助于确定准确、恰当的抖动判定规则，提高抖动分析结果的准确性。

在一种实施方式中，确定图像内容的目标分类，包括：

在视频数据中，相邻视频帧的图像内容不符合预设的连续内容判定条件的情况下，确定目标抖动判定规则为用于生成不抖动的分析结果的判定规则。

时序相邻视频帧的图像内容不符合预设的连续内容判定条件，可以是时序相邻的至少两个视频帧，图像内容差异较大，明显不属于同一个镜头。则这种情况下，难以根据帧间信息确定是否抖动，则可默认按照不抖动处理。

本实施例中，确定目标抖动判定规则为用于生成不抖动的分析结果的判定规则，可以是从预设的多个抖动判定规则中，选择指示直接生成不抖动的分析结果的抖动判定规则。

本实施例中，在时序相邻的视频帧的图像内容明显不一致的情况下，可默认判定为两个视频帧之间不存在抖动现象，在提高分析准确性的情况下，简化分析过程，提高分析效率。

在一种实施方式中，获得多个视频帧中每个视频帧的图像内容，包括：

确定每个视频帧的空间特征；

根据空间特征，获得图像内容。

本实施例中，可采用卷积神经网络等处理工具，将视频帧的图像信息转换为图像特征，作为视频帧的空间特征。

本实施例中，通过视频帧的空间特征，能够准确识别图像内容，有助于提高抖动分析结果的准确性。

在一种实施方式中，数据分析方法还包括：

根据图像内容，确定不同的视频帧之间，相同图像内容部分的移动信息；

将移动信息，作为不同的视频帧之间的抖动信息。

相同图像内容部分，可以是不同视频帧之间的图像内容的相同的部分。比如，两个时序相邻视频帧中之一，图像内容包括第一人物、第一背景、第二人物，另一视频帧图像内容包括第一人物、第一背景，则可确定第一人物、第一背景为两个视频帧的图像内容的相同部分。移动信息可以是图像内容的相同部分在不同图像帧中的坐标变化信息，比如可以包括第一人物中参考点的坐标变化信息，或者第一背景中参考物体的坐标变化信息。

在另一种可能的实现方式中，可以将图像内容中相同部分位移最小的部分，作为视频帧中的参照物或参照点，针对参照物或者参照点确定移动信息。

本实施例中，将移动信息，作为不同的视频帧之间的抖动信息，可以包括，将移动信息作为抖动信息。

在另一种可能的实现方式中，将移动信息，作为不同的视频帧之间的抖动信息，也可以包括，根据移动信息判定对应的抖动程度，比如抖动程度高、中等、低，或者抖动程度对应0-10中的一个代码，将抖动程度作为抖动信息。

在另一种可能的实现方式中，如果两个视频帧之间间隔的时间太远、或者两个视频帧的图像内容相差太大，则不进行抖动信息的获取。以节省操作。

在另一种可能的实现方式中，可默认针对所有时序相邻视频帧均执行抖动信息获取操作。

在另一种可能的实现方式中，可针对时序相邻的设定数量个视频帧，执行抖动信息获取操作。

确定不同的视频帧之间，相同图像内容部分的移动信息，可以根据相同图像内容在各视频帧中的像素坐标，确定对应关键点、关键部位的位移，包括直线位移和角度位移等位移，根据位移确定移动信息。

本实施例中，能够根据不同视频帧的相同图像内容部分的移动信息，确定抖动信息，从而在判定抖动时，能够将帧间信息结合，提高抖动分析结果的准确性。

在一种实施方式中，如图4所示，获取待分析的视频数据，包括：

步骤S41：按照设定的时间间隔，视频数据划分为多个片段；

步骤S42：从每个片段中，提取至少一个视频帧；

步骤S43：根据至少一个视频帧，构成多个视频数据，多个视频数据包括待分析的视频数据。即待分析的视频数据为多个视频数据之一。

按照设定的时间间隔，视频数据划分为多个片段，比如可以是，按照1秒、2秒或者其它时间间隔，将视频数据划分为多个片段。比如，将长度为100秒的视频数据划分为100个片段。

从每个片段中，提取至少一个视频帧，可以是默认提取片段中第N个时序的至少一个视频帧(N≥1)。

根据至少一个视频帧，构成多个视频数据，可以是将各片段的视频帧进行选择和集合，根据视频帧集合和时序信息，按照时序划分为多个视频数据。

在具体实现方式中，可将片段中的第一帧进行提取，按照时序依次选择设定数量个视频帧，构成多个视频数据，依次将各视频数据作为待分析的视频数据进行抖动分析。

本实施例中，能够从视频数据的片段中，选择视频帧，构成视频数据，从而既能满足抖动分析的要求，又能减少需要处理的视频帧的数量，提高分析效率。

在一种实施方式中，数据分析方法还包括：

确定视频数据中，第一稳定性分析结果表示抖动的目标视频数据；

根据目标视频数据在视频数据中占据的时长比例，确定对视频数据的第二稳定性分析结果。

本实施例中，能够根据目标视频数据在视频数据中占据的时长比例，确定对视频数据的抖动分析结果，从而能够从整体上对视频数据进行综合的分析，避免仅因为少量抖动而否认整个视频的质量。

随着网络信息技术的发展与电子设备的普及，短视频作为一种重要的信息载体，在人们的工作、娱乐和学习中逐渐发挥着日益显著的作用，而流媒体的成熟应用使得这一趋势更加明显。在这样的背景下，人们可以便捷地在日产生活中上传海量的短视频供其他人欣赏，而受制于个人技术或者设备的原因，这样的视频质量是参差不齐的，其中较为明显的一个问题便是视频的稳定性无法得到保证，稳定性问题包含了视频剧烈抖动、画面不聚焦不固定、长时间或频繁滑动镜头等一系列问题。这些问题不仅会使得用户的观影感受有所下降，同时也会使得相关视频平台的风评受到影响，丧失一些潜在的边缘用户。同时一些随手录制的剧烈晃动、滑动视频也会使得人们引起眩晕、呕吐等不适反应而引起一定危害。基于上述种种原因，发展一种可以针对各类稳定性进行判别的方法，从短期来看这可以帮助直播平台、短视频平台、流媒体相关机构节约人力对部分低质短视频进行审核，从长远来看可以在无形中留存潜在的用户，改善人们的生活体验，是十分有意义的。

本公开一种示例提出的基于特征联合的视频稳定性判别方法，基于卷积神经网络与全连接网络的检测方案进行视频数据的抖动分析。利用卷积神经网络对视频的空间、图像特征进行提取，利用self-attention(自注意力)与全连接网络构建时间网络对视频帧间关系进行计算映射为高维特征。二者并行运算并将最终结果融合后一起送入分类网络得到最终结果。当前的方案测试效果对包含多重复杂稳定性问题的场景下召回准确率达90％。

在一种具体示例中，数据分析方法的数据处理过程如图5所示：

对输入的视频数据51进行切分，每16(或者其它数字)秒组成一个片段(即前述实施例的视频数据)，并且每个片段按照每秒一帧进行切帧处理，得到视频数据的多个片段52。对所有切帧后的片段52构成的集合进行图像预处理，使得图像分辨率符合网络输入并对图像像素分布缩放。针对每个片段，将所有图像片段集合送入特征分类网络(或者模型)53提取其空间特征(即前述实施例的图像内容)与帧间特征(即前述实施例的不同的视频帧之间的抖动信息)，并基于这两种特征融合后的结果进行特征联合，得到联合特征54。根据联合特征54，得到联合特征图55，将联合特征图55输入特征分类网络(或者模型)56进行分类得到检测结果，并得到其属于正样本(即存在稳定性问题的样本)的置信度。根据所有片段52预测的置信度集合计算正样本片段(即前述实施例的目标视频数据)，并计算正样本片段在总时长中的占比。根据正样本片段在视频数据中的时长占比来判断该短视频是否存在稳定性问题，综合输出视频数据的分析结果57。

在本公开一种示例中，可通过识别视频数据中各视频帧的空间信息，以及帧间信息，将空间信息和帧间信息对应的向量进行拼接后，通过识别模型进行识别。

在一种示例中，识别模型的结构可以入图6所示，包括丢弃卷积层(Dropout Conv)61、转换块(Transformer Block)62、卷积和池化层63、残差块(ResBlock)64、适应性池化拼接线性网络(AdaptPooling Concat LinerNet)65、特征联合模块66、特征分类模块67和结果集合模块68。其中，转换块62和残差块64可分别设置多个(比如1-50个)。卷积和池化层63可以包括卷积批归一化模块(ConvBN)、激励函数模块(Relu)和最大化池化模块(MaxPooling)。将待分析的视频数据作为输入数据输入，经过丢弃卷积层61、转换块62的处理，得到视频帧的空间特征，经过卷积和池化层63、残差块64、适应性池化拼接线性网络65，得到帧间特征，经过特征联合模块66得到联合特征，最后经过特征分类模块67，对特征进行分类，从结果集合模块68得到分类结果，分类结果表明视频数据抖动与否。

图7为本公开示例中的转换块结构示意图，包括输入模块(Input)71、卷积批归一化模块(Con Bath Norm，Convolutional Bath Normalization)72、卷积归一化激活模块(Con Bath Norm Relu)73和输出模块74。其中卷积批归一化模块72可以包括卷积模块和批归一化模块，可设置多个，多个卷积批归一化模块72的参数可根据需要设置为不同的数值。卷积归一化激活模块73可以包括卷积归一化模块和激活函数模块(Relu)。转换块通过两路对输入的视频帧进行处理，针对每一个视频帧，将两路处理结果进行融合，最终得到视频帧的图像内容。本实施例中的各模块中的卷积可以是2D卷积。

图8为本公开示例中的残差模块示意图，包括输入模块81、第一线性归一化模块82、第二线性归一化模块83和输出模块84。其中，第一线性归一化模块82包括线性归一化子模块(Layer Norm)、线性化子模块、丢弃子模块(Dropout)。第二线性归一化模块83包括线性归一化子模块(Layer Norm)、线性化子模块、激活函数模块和丢弃子模块(Dropout)。残差模块能够将模型中上一级模块输入的数据和第一线性归一化模块82、第二线性归一化模块83处理的数据进行融合，通过输出模块84输出帧间特征(即前述是实施例的抖动信息)的结果。

通过本公开示例提供的模型，能够解决一般模型的稳定性难召回问题：目前短视频业务场景下，存在各种各样复杂的稳定性问题如剧烈抖动、小范围频繁移动镜头、长时间滑动平移镜头等，利用单一种类的特征难以完全覆盖上述问题，故本问题出利用双流分支网络的方式，对同一视频进行特征提取，并对两类特征进行综合分析后再进行分类以鉴别各类场景的稳定性低质问题。

通过本公开示例提供的模型，能够解决一般模型的时长较长的视频面临识别困难问题，由于短视频本身种类复杂，当前利用抽取固定帧数的检测方法在进行计算时，面对时长较长的短视频会缺失大量特征，进而导致分类准确率较低等问题。本文则采取预先将短视频划分为多个片段，分片段进行检测并最终对所有片段的结果进行综合打分，进而判断该条视频是否存在稳定性问题。

本公开实施例还提供一种数据分析装置，如图9所示，包括：

视频获取模块91，用于获取待分析的视频数据；待分析的视频数据包括多个视频帧；

图像内容模块92，用于获得多个视频帧中每个视频帧的图像内容；

判定规则模块93，用于根据图像内容，确定目标抖动判定规则；目标抖动判定规则为预设的多个判定规则之一；

分析结果模块94，用于根据目标抖动判定规则和不同的视频帧之间的抖动信息，确定视频数据的第一稳定性分析结果。

在一种实施方式中，如图10所示，判定规则模块包括：

目标分类单元101，用于在视频数据中，时序相邻视频帧的图像内容符合预设的连续内容判定条件的情况下，根据图像内容，确定目标分类；连续内容判定条件，包括时序相邻视频帧的图像内容的相似度达到设定的相似度阈值；

目标分类处理单元102，用于根据预设的分类与抖动判定规则的对应关系，确定与目标分类对应的抖动判定规则；

目标规则单元103，用于将与目标分类对应的抖动判定规则，作为目标抖动判定规则。

在一种实施方式中，目标分类单元还用于：

根据图像内容，确定至少一个目标物体的信息；

根据至少一个目标物体的信息，确定图像内容对应的运动信息；

根据运动信息，确定目标分类。

在一种实施方式中，目标分类单元还用于：

在时序相邻视频帧的图像内容不符合预设的连续内容判定条件的情况下，确定目标抖动判定规则为用于生成不抖动的分析结果的判定规则。

在一种实施方式中，如图11所示，图像内容模块包括：

空间特征单元111，用于确定每个视频帧的空间特征；

空间特征处理单元112，用于根据空间特征，获得图像内容。

在一种实施方式中，如图12所示，数据分析装置还包括：

移动信息模块121，用于根据图像内容，确定不同的视频帧之间，相同图像内容部分的移动信息；

抖动信息模块122，用于将移动信息，作为不同的视频帧之间的抖动信息。

在一种实施方式中，如图13所示，视频获取模块包括：

片段单元131，用于按照设定的时间间隔，视频数据划分为多个片段；

提取单元132，用于从每个片段中，提取至少一个视频帧；

视频数据单元133，用于根据至少一个视频帧，构成多个视频数据，多个视频数据包括待分析的视频数据。

在一种实施方式中，如图14所示，数据分析装置还包括：

目标视频模块141，用于确定视频数据中，第一稳定性分析结果表示抖动的视频数据，作为目标视频数据；

视频结果模块142，用于根据目标视频数据在视频数据中占据的时长比例，确定对视频数据的第二稳定性分析结果。

本公开实施例的数据分析方法和装置，可以有效在海量短视频中将存在稳定性问题的低质视频召回，可以在一定程度上辅助人工审核，准确率高，节约成本及人力并提升搜索视频质量。同时可以将本模型的输出作为其他下游服务的输入特征，提升对低质视频的召回率。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图15示出了可以用来实施本公开的实施例的示例电子设备150的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图15所示，设备150包括计算单元151，其可以根据存储在只读存储器(ROM)152中的计算机程序或者从存储单元158加载到随机访问存储器(RAM)153中的计算机程序，来执行各种适当的动作和处理。在RAM153中，还可存储设备150操作所需的各种程序和数据。计算单元151、ROM 152以及RAM 153通过总线154彼此相连。输入/输出(I/O)接口155也连接至总线154。

设备150中的多个部件连接至I/O接口155，包括：输入单元156，例如键盘、鼠标等；输出单元157，例如各种类型的显示器、扬声器等；存储单元158，例如磁盘、光盘等；以及通信单元159，例如网卡、调制解调器、无线通信收发机等。通信单元159允许设备150通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元151可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元151的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元151执行上文所描述的各个方法和处理，例如数据分析方法。例如，在一些实施例中，数据分析方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元158。在一些实施例中，计算机程序的部分或者全部可以经由ROM 152和/或通信单元159而被载入和/或安装到设备150上。当计算机程序加载到RAM 153并由计算单元151执行时，可以执行上文描述的数据分析方法的一个或多个步骤。备选地，在其他实施例中，计算单元151可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行数据分析方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种数据分析方法，包括：

获取待分析的视频数据；所述待分析的视频数据包括多个视频帧；

获取所述多个视频帧中每个视频帧的图像内容；所述图像内容为根据目标物体，以及所述目标物体对应的数量和状态所确定的；所述状态包括运动种类的信息；在所述目标物体为人的情况下，所述运动种类的信息包括人体运动种类的信息；

根据所述图像内容，确定目标抖动判定规则，包括：选择与图像内容对应的抖动判定规则作为目标抖动判定规则；所述目标抖动判定规则为预设的多个判定规则之一；不同的图像内容对应不同的抖动判定规则；所述抖动判定规则用于判断视频数据抖动或非抖动；

根据所述目标抖动判定规则和不同的所述视频帧之间的抖动信息，确定所述视频数据的第一稳定性分析结果。

2.根据权利要求1所述的方法，其中，所述根据所述图像内容，确定目标抖动判定规则，包括：

在所述视频数据中，时序相邻视频帧的图像内容符合预设的连续内容判定条件的情况下，根据所述图像内容，确定目标分类；所述连续内容判定条件，包括时序相邻视频帧的图像内容的相似度达到设定的相似度阈值；

根据预设的分类与抖动判定规则的对应关系，确定与所述目标分类对应的抖动判定规则；

将与所述目标分类对应的抖动判定规则，作为所述目标抖动判定规则。

3.根据权利要求2所述的方法，其中，所述根据所述图像内容，确定目标分类，包括：

根据所述图像内容，确定至少一个目标物体的信息；

根据所述至少一个目标物体的信息，确定所述图像内容对应的运动信息；

根据所述运动信息，确定所述目标分类。

4.根据权利要求2所述的方法，其中，所述根据所述图像内容，确定目标分类，包括：

在所述视频数据中，时序相邻视频帧的图像内容不符合预设的连续内容判定条件的情况下，确定所述目标抖动判定规则为用于生成不抖动的分析结果的判定规则。

5.根据权利要求1-4中任意一项所述的方法，其中，所述获取所述多个视频帧中每个视频帧的图像内容，包括：

确定所述每个视频帧的空间特征；

根据所述空间特征，获取所述图像内容。

6.根据权利要求1所述的方法，还包括：

根据所述图像内容，确定不同的所述视频帧之间，相同图像内容部分的移动信息；

将所述移动信息，作为不同的所述视频帧之间的抖动信息。

7.根据权利要求1所述的方法，其中，所述获取待分析的视频数据，包括：

按照设定的时间间隔，视频数据划分为多个片段；

从每个所述片段中，提取至少一个视频帧；

根据所述至少一个视频帧，构成多个视频数据，所述多个视频数据包括所述待分析的视频数据。

8.根据权利要求7所述的方法，所述方法还包括：

确定所述视频数据中，第一稳定性分析结果表示抖动的视频数据，作为目标视频数据；

根据所述目标视频数据在所述视频数据中占据的时长比例，确定对所述视频数据的第二稳定性分析结果。

9.一种数据分析装置，包括：

视频获取模块，用于获取待分析的视频数据；所述待分析的视频数据包括多个视频帧；

图像内容模块，用于获取所述多个视频帧中每个视频帧的图像内容；所述图像内容为根据所述视频帧中的目标物体，以及所述目标物体对应的数量和状态所确定的；所述状态包括运动种类的信息；在所述目标物体为人的情况下，所述运动种类的信息包括人体运动种类的信息；

判定规则模块，用于根据所述图像内容，确定目标抖动判定规则，包括：选择与图像内容对应的抖动判定规则作为目标抖动判定规则；所述目标抖动判定规则为预设的多个判定规则之一；不同的图像内容对应不同的抖动判定规则；

分析结果模块，用于根据所述目标抖动判定规则和不同的所述视频帧之间的抖动信息，确定所述视频数据的第一稳定性分析结果。

10.根据权利要求9所述的装置，其中，所述判定规则模块，包括：

目标分类单元，用于在所述视频数据中，时序相邻所述视频帧的图像内容符合预设的连续内容判定条件的情况下，根据所述图像内容，确定目标分类；所述连续内容判定条件，包括时序相邻视频帧的图像内容的相似度达到设定的相似度阈值；

目标分类处理单元，用于根据预设的分类与抖动判定规则的对应关系，确定与所述目标分类对应的抖动判定规则；

目标规则单元，用于将与所述目标分类对应的抖动判定规则，作为所述目标抖动判定规则。

11.根据权利要求10所述的装置，其中，所述目标分类单元还用于：

根据所述图像内容，确定至少一个目标物体的信息；

根据所述运动信息，确定所述目标分类。

12.根据权利要求10所述的装置，其中，所述目标分类单元还用于：

13.根据权利要求9-12中任意一项所述的装置，其中，所述图像内容模块包括：

空间特征单元，用于确定所述每个视频帧的空间特征；

空间特征处理单元，用于根据所述空间特征，获取所述图像内容。

14.根据权利要求9所述的装置，还包括：

移动信息模块，用于根据所述图像内容，确定不同的所述视频帧之间，相同图像内容部分的移动信息；

抖动信息模块，用于将所述移动信息，作为不同的所述视频帧之间的抖动信息。

15.根据权利要求9所述的装置，其中，所述视频获取模块包括：

片段单元，用于按照设定的时间间隔，视频数据划分为多个片段；

提取单元，用于从每个所述片段中，提取至少一个视频帧；

视频数据单元，用于根据所述至少一个视频帧，构成多个视频数据，所述多个视频数据包括所述待分析的视频数据。

16.根据权利要求15所述的装置，所述装置还包括：

目标视频模块，用于确定所述视频数据中，第一稳定性分析结果表示抖动的视频数据，作为目标视频数据；

视频结果模块，用于根据所述目标视频数据在所述视频数据中占据的时长比例，确定对所述视频数据的第二稳定性分析结果。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。