CN112800278B

CN112800278B - 视频类型的确定方法和装置及电子设备

Info

Publication number: CN112800278B
Application number: CN202110337153.5A
Authority: CN
Inventors: 陈思宏; 肖万鹏; 鞠奇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2021-07-09
Anticipated expiration: 2041-03-30
Also published as: CN112800278A

Abstract

本发明公开了一种视频类型的确定方法和装置及电子设备。其中，该方法包括：在视频类型自动识别的过程中，将根据目标视频中的帧图像将目标视频划分多个场景片段，获取每个场景片段的特征信息，融合目标视频中的每个场景的特征信息，确定出目标视频的类型的目的，从而实现了目标视频中的场景进行细化，根据细化后的特征信息确定出目标视频类型的技术效果，进而解决了现有技术中，视频分类准确性较低的技术问题。

Description

视频类型的确定方法和装置及电子设备

技术领域

本发明涉及视频处理技术领域，具体而言，涉及一种视频类型的确定方法和装置及电子设备。

背景技术

现有技术中，对视频进行分类的一类算法，在单一场景连续动作的动作识别上效果较好，如SlowFast算法。然而，这类算法在镜头变换较大的视频中SlowFast的表现稍差。这是因为，镜头变换较多的视频，经过快速和慢速的截帧，两个通道截取到的场景数量不一致，融合时容易出现场景不匹配的情形，即在视频分类中，未考虑视频中的具体场景，导致无法准确的确定视频的类型。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种视频类型的确定方法和装置及电子设备，以至少解决现有技术中，视频分类准确性较低的技术问题。

根据本发明实施例的一个方面，提供了一种视频类型的确定方法，包括：根据目标视频中的帧图像的特征，将所述目标视频中的帧图像划分成多个场景片段；对所述多个场景片段中的每个场景片段上进行场景采样，得到场景图像组，并对所述多个场景片段中每个场景片段的帧图像进行时序采样，得到所述每个场景片段的时序采样帧组；根据所述场景图像组，确定所述每个场景片段的场景特征，并根据所述时序采样帧组，确定所述每个场景片段对应的时序特征；根据所述每个场景片段的场景特征以及所述每个场景片段对应的时序特征，确定所述目标视频的类型。

根据本发明实施例的另一方面，还提供了一种视频类型的确定装置，包括：划分单元，用于根据目标视频中的帧图像的特征，将所述目标视频中的帧图像划分成多个场景片段；采样单元，用于对所述目标视频中的帧图像在所述多个场景片段中的每个场景片段上进行场景采样，得到场景图像组，并对所述多个场景片段中每个场景片段的帧图像进行时序采样，得到所述每个场景片段的时序采样帧组；第一确定单元，用于根据所述场景图像组，确定所述每个场景片段的场景特征，并根据所述时序采样帧组，确定所述每个场景片段对应的时序特征；第二确定单元，用于根据所述每个场景片段的场景特征以及所述每个场景片段对应的时序特征，确定所述目标视频的类型。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述视频类型的确定方法。

根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过所述计算机程序执行上述的视频类型的确定方法。

在本发明实施例中，通过根据目标视频中的帧图像的特征，将目标视频中的帧图像划分成多个场景片段；对多个场景片段中的每个场景片段上进行场景采样，得到场景图像组，并对所述多个场景片段中每个场景片段的帧图像进行时序采样，得到所述每个场景片段的时序采样帧组；根据场景图像组，确定每个场景片段的场景特征，并根据时序采样帧组，确定每个场景片段对应的时序特征；根据每个场景片段的场景特征以及每个场景片段对应的时序特征，确定目标视频的类型，达到了将根据目标视频中的帧图像将目标视频划分多个场景片段，获取每个场景片段的特征信息，融合目标视频中的每个场景的特征信息，确定出目标视频的类型的目的，从而实现了对目标视频中的场景进行细化，根据细化后的场景特征信息确定出目标视频类型的技术效果，进而解决了现有技术中，视频分类准确性较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的视频类型的确定方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的分布式系统应用于区块链系统的一个可选的结构示意图；

图3是根据本发明实施例的一种可选的区块结构（Block Structure）一个可选的示意图；

图4是根据本发明实施例的一种可选的视频类型的确定方法的流程图；

图5是根据本发明实施例的一种可选的目标视频的帧图像划分片段的示意图；

图6是根据本发明实施例的一种可选的目标视频中每个场景片段中的帧采样示意图（一）；

图7是根据本发明实施例的一种可选的目标视频中每个场景片段中的帧采样示意图（二）；

图8是根据本发明实施例的一种可选的目标视频类型确定的结构框图；

图9是根据本发明实施例的一种可选的目标视频类型确定的结构框图（二）；

图10是根据本发明实施例的一种可选的融合场景与动作的视频语义识别算法的流程图；

图11是根据本发明实施例的一种可选的光流标签的示意图；

图12是根据本发明实施例的一种可选的视频类型的确定装置的结构示意图；

图13是根据本发明实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了更好的理解本申请，部分名词说明如下。

视频语义分类：指通过深度学习方法学习视频中的图片信息与时序信息，从而对视频进行分类/动作识别的一类算法。

Feature map：图像和滤波器进行卷积后得到的特征图，Feature map可以和滤波器进行卷积生成新的feature map。

根据本发明实施例的一个方面，提供了一种视频类型的确定方法，可选地，作为一种可选的实施方式，上述视频类型的确定方法可以但不限于应用于如图1所示的环境中。终端设备102、网络104以及服务器106，其中，终端设备102中安装有播放目标视频的客户端。

服务器106通过网络104获取终端设备102中的目标视频，根据目标视频中的帧图像的特征，将目标视频中的帧图像划分成多个场景片段；对多个场景片段中的每个场景片段上进行场景采样，得到场景图像组，并对多个场景片段中每个场景片段的帧图像进行时序采样，得到每个场景片段的时序采样帧组；根据场景图像组，确定每个场景片段的场景特征，并根据时序采样帧组，确定每个场景片段对应的时序特征；根据每个场景片段的场景特征以及每个场景片段对应的时序特征，确定目标视频的类型，达到了将根据目标视频中的帧图像将目标视频划分多个场景片段，获取每个场景片段的特征信息，融合目标视频中的每个场景的特征信息，确定出目标视频的类型的目的，从而实现了对目标视频中的场景进行细化，根据细化后的场景特征信息确定出目标视频类型的技术效果，进而解决了现有技术中，视频分类准确性较低的技术问题。

可选地，在本实施例中，上述终端设备可以是配置有目标客户端的终端设备，可以包括但不限于以下至少之一：手机（如Android手机、iOS手机等）、笔记本电脑、平板电脑、掌上电脑、MID（Mobile Internet Devices，移动互联网设备）、PAD、台式电脑、智能电视等。目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端等。上述网络可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器。上述仅是一种示例，本实施例中对此不作任何限定。

还需要说明的是，本发明实施例涉及的系统可以是由客户端、多个节点（接入网络中的任意形式的计算设备，如服务器、用户终端）通过网络通信的形式连接形成的分布式系统。

以分布式系统为区块链系统为例，参见图2，图2是本发明实施例提供的分布式系统100应用于区块链系统的一个可选的结构示意图，由多个节点（接入网络中的任意形式的计算设备，如服务器、用户终端）和客户端300形成，节点之间形成组成的点对点（P2P，PeerTo Peer）网络，P2P协议是一个运行在传输控制协议（TCP，Transmission ControlProtocol）协议之上的应用层协议。在分布式系统中，任何机器如服务器、终端都可以加入而成为节点，节点200包括硬件层、中间层、操作系统层和应用层。

参见图2示出的区块链系统中各节点的功能，涉及的功能包括：

1）路由，节点具有的基本功能，用于支持节点之间的通信。

节点除具有路由功能外，还可以具有以下功能：

2）应用，用于部署在区块链中，根据实际业务需求而实现特定业务，记录实现功能相关的数据形成记录数据，在记录数据中携带数字签名以表示任务数据的来源，将记录数据发送到区块链系统中的其他节点，供其他节点在验证记录数据来源以及完整性成功时，将记录数据添加到临时区块中。

在本实施例中，将确定的视频类型记录在区块链中，以及在区块链中保存视频类型确定过程。

3）区块链，包括一系列按照产生的先后时间顺序相互接续的区块（Block），新区块一旦加入到区块链中就不会再被移除，区块中记录了区块链系统中节点提交的记录数据。

参见图3，图3是本发明实施例提供的区块结构（Block Structure）一个可选的示意图，每个区块中包括本区块存储交易记录的哈希值（本区块的哈希值）、以及前一区块的哈希值，各区块通过哈希值连接形成区块链。另外，区块中还可以包括有区块生成时的时间戳等信息。区块链（Blockchain），本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了相关的信息，用于验证其信息的有效性（防伪）和生成下一个区块。

可选地，作为一种可选的实施方式，如图4所示，上述视频类型的确定方法包括：

步骤S402，根据目标视频中的帧图像的特征，将目标视频中的帧图像划分成多个场景片段。

步骤S404，对多个场景片段中的每个场景片段上进行场景采样，得到场景图像组，并对多个场景片段中每个场景片段的帧图像进行时序采样，得到每个场景片段的时序采样帧组。

步骤S406，根据场景图像组，确定每个场景片段的场景特征，并根据时序采样帧组，确定每个场景片段对应的时序特征。

步骤S408，根据每个场景片段的场景特征以及每个场景片段对应的时序特征，确定目标视频的类型。

可选的，在本实施例中，上述视频类型的确定方法可以包括但不限于自动识别出播放客户端中播放的视频的类型，如可以识别出视频的类型为瑜伽视频，即可以根据视频中的帧图像的特征图，确定出视频的类型。

以目标视频为瑜伽视频为例，说明上述视频类型的确定方法如下。

目标视频中的瑜伽运动员有多个舒展动作，每个舒展动作可以看出一个场景片段，如上抬胳膊作为一个场景片段，腿部拉伸作为一个场景片段，头部运动作为一个场景片段，根据目标视频中的多个舒展动作确定出该视频是瑜伽视频。

具体的，基于场景片段作为操作单元，获取每个场景片段中的最清晰的图像，得到包括3张场景图像的场景图像组，在每个场景片段中获取一组时序采样帧组，即获取3组时序采样帧组，确定每个场景片段的场景特征，以及确定每个场景片段对应的时序特征，并根据场景特征和时序特征进行拼接，得到该视频的类型，也可以为视频的标签，该目标视频的标签为瑜伽视频。

以目标视频为跑步视频为例，说明上述视频类型的确定方法如下。

目标视频中的跑步运动员有多个跑步动作，每个跑步动作可以看出一个场景片段，如上抬小腿作为一个场景片段，如上抬大腿作为一个场景片段，也就是说，将跑步运动员的跑步动作进行分解，分解动作对应的帧图片划分一个场景片段，根据目标视频中的跑步分解动作确定出该视频是跑步视频。

具体的，基于场景片段作为操作单元，获取每个场景片段中的最清晰的图像，得到包括2张场景图像的场景图像组，在每个场景片段中获取一组时序采样帧组，即获取2组时序采样帧组，确定每个场景片段的场景特征，以及确定每个场景片段对应的时序特征，并根据场景特征和时序特征进行拼接，得到该视频的类型，也可以为视频的标签，该目标视频的标签为跑步视频。

还需要说明的是，上述视频类型的确定方法还可以用于人工智能领域，即可以自动识别出目标视频的类型，进而直接显示该目标视频的类型，可以应用于人工智能云服务。

所谓人工智能云服务，一般也被称作是AIaaS（AIas a Service，中文为“AI即服务”）。这是目前主流的一种人工智能平台的服务方式，具体来说AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城：所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。

在本实施例中，根据目标视频中的帧图像的特征，将目标视频中的帧图像划分成多个场景片段可以包括：先解析目标视频，得到整个目标视频的所有帧图像，随后对每帧图像提取直方图特征，然后用聚类算法将所有帧图像划分成多个场景片段，其中聚类算法可以包括但不限于k-means聚类算法。

可选的，在本实施例中，上述对多个场景片段中的每个场景片段上进行场景采样，得到场景图像组可以包括：通过拉普拉斯算法得到每个场景片段中最清晰的帧图像，进而得到场景图像组，其中，场景图像组中包括每个场景片段中的一张图像。

在本实施例中，上述对多个场景片段中的每个场景片段上进行场景采样，得到时序采样帧组可以包括：对整个目标视频进行跨步截帧，并按照聚类结果将片段帧划分好，同时按照时间顺序进行排序，得到时序采样帧组。

如图5所示，目标视频的帧图像划分片段的示意图，在图5所示，目标视频包括15帧图像，根据聚类算法，将目标视频划分出3个片段，即第1个片段包括编号为1至4的4帧图像，第2个片段包括编号为5至10的6帧图像，第3个片段包括编号为11至15的5帧图像。

如图6所示，目标视频中每个场景片段中的帧采样示意图（一），结合图5所示，目标视频包括3个片段，对于每个场景片段通过拉普拉斯算法得到每个场景片段中最清晰的帧图像，第1片段中最清晰的帧图像为编号为2的帧图像，第2片段中最清晰的帧图像为编号为8的帧图像，第3片段中最清晰的帧图像编号为13的帧图像，场景图像组中包括编号为2的帧图像、编号为8的帧图像以及编号为13的帧图像，共3张图像。

如图7所示，目标视频中每个场景片段中的帧采样示意图（二），结合图5所示，目标视频包括15帧图像，共划分了3个片段。对目标视频进行跨步截帧，如跨步为2，则可以得到第1帧图像、第3帧图像，第5帧图像、第7帧图像、第9帧图像、第11帧图像、第13帧图像以及第15帧图像，时序采样帧组包括上述第1帧图像、第3帧图像，第5帧图像、第7帧图像、第9帧图像、第11帧图像、第13帧图像以及第15帧图像。

其中，时序采样帧组中的帧图像划分至目标视频的片段中，由于第1片段中包括编号为1至4的帧图像，第2个片段包括编号为5至10的6帧图像，第3个片段包括编号为11至15的5帧图像，即可以将第1帧图像和第3帧图像划分为第1片段对应的帧图像，将第5帧图像、第7帧图像、第9帧图像划分为第2片段对应的帧图像，第11帧图像、第13帧图像以及第15帧图像划分为第3片段对应的帧图像。

在本实施例中，时序采样帧组包括每个场景片段上采样到的一组帧图像，如第1片段中的一组帧图像包括第1帧图像和第3帧图像，共2张图像，第2片段中的一组帧图像包括第5帧图像、第7帧图像、第9帧图像，共3张图像，第3片段中的一组帧图像包括第11帧图像、第13帧图像以及第15帧图像，共3张图像。还需要说明的是，每个场景片段上采样到的一组帧图像还可以包括1张图像。

可选的，在本实施例中，确定每个场景片段的场景特征，对每个场景片段的场景特征进行拼接，得到目标场景特征。确定每个场景片段对象的时序特征，对每个场景片段的时序特征进行拼接，得到目标时序特征。根据目标场景特征和目标时序特征进行拼接，得到目标视频的目标视频特征，根据目标视频特征确定出目标视频的类型。

通过本申请提供的实施例，根据目标视频中的帧图像的特征，将目标视频中的帧图像划分成多个场景片段；对多个场景片段中的每个场景片段上进行场景采样，得到场景图像组，并对多个场景片段中每个场景片段的帧图像进行时序采样，得到每个场景片段的时序采样帧组；根据场景图像组，确定每个场景片段的场景特征，并根据时序采样帧组，确定每个场景片段对应的时序特征；根据每个场景片段的场景特征以及每个场景片段对应的时序特征，确定目标视频的类型，达到了将根据目标视频中的帧图像将目标视频划分多个场景片段，获取每个场景片段的特征信息，融合目标视频中的每个场景的特征信息，确定出目标视频的类型的目的，从而实现了对目标视频中的场景进行细化，根据细化后的场景特征信息确定出目标视频类型的技术效果，进而解决了现有技术中，视频分类准确性较低的技术问题。

可选的，根据目标视频中的帧图像的特征，将目标视频中的帧图像划分成多个场景片段，可以包括：获取目标视频中的每个帧图像的直方图特征；根据每个帧图像的直方图特征，对目标视频中的每个帧图像进行聚类，得到多个场景片段。

在本实施例中，根据聚类结果对目标视频，划分多个场景片段，即对目标视频进行了细化，进而根据细化的片段，确定出目标视频的类型，进而可以提高视频分类的准确性。

可选的，对多个场景片段中的每个场景片段上进行场景采样，得到场景图像组，可以包括：获取目标视频中的每个场景片段包括的每个帧图像的清晰度参数，其中，清晰度参数用于表示帧图像的清晰度；将每个场景片段中清晰度参数的取值最高的帧图像确定为采样到的帧图像。

在本实施例中，获取每个场景片段中最清晰的帧图像，即得到最能表达该片段场景的图像，进而可以得到更清晰准确的场景特征。也就是说，可以得到最能代表该片段的场景特征。

可选的，对目标视频中的帧图像进行时序采样，得到时序采样帧组，可以包括：按照预设的采样率，对目标视频中的帧图像进行采样，得到一组帧图像；将一组帧图像划分到每个场景片段上，并将一组帧图像在每个场景片段上按照时间顺序进行排序，得到时序采样帧组。

如图7所示，目标视频中每个场景片段中的帧采样示意图（二），结合图5所示，目标视频包括15帧图像，共划分了3个片段。对目标视频进行跨步截帧，如跨步为2，则可以得到第1帧图像、第3帧图像，第5帧图像、第7帧图像、第9帧图像、第11帧图像、第13帧图像以及第15帧图像，时序采样帧组可以包括上述第1帧图像、第3帧图像，第5帧图像、第7帧图像、第9帧图像、第11帧图像、第13帧图像以及第15帧图像。

其中，时序采样帧组中的帧图像划分至目标视频的片段中，如由于第1片段中包括编号为1至4的帧图像，第2个片段包括编号为5至10的6帧图像，第3个片段包括编号为11至15的5帧图像，即可以将第1帧图像和第3帧图像划分为第1片段对应的帧图像，将第5帧图像、第7帧图像、第9帧图像划分为第2片段对应的帧图像，第11帧图像、第13帧图像以及第15帧图像划分为第3片段对应的帧图像。

可选的，根据场景图像组，确定每个场景片段的场景特征，可以包括：获取场景图像组中的每个帧图像的图像特征；根据每个帧图像的图像特征，确定每个场景片段的场景特征。

其中，根据每个帧图像的图像特征，确定每个场景片段的场景特征，可以包括：使用时间位移模块对每个帧图像的图像特征进行处理，得到每个帧图像的时间位移模块特征，其中，每个场景片段的场景特征包括每个场景片段上采样到的帧图像的时间位移模块特征，每个场景片段的场景特征的特征尺寸均相同。

在本实施例中，可以通过2D-CNN网络获取场景图像组中每个帧图像的图像特征，随后经过TSM（temporal shift module：Temporal Shift Module for Efficient VideoUnderstanding）得到包含时序信息的时序featuremap，即确定出每个场景片段的场景特征。上述时间位移模型可以理解为TSM模型。

可选的，根据时序采样帧组，确定每个场景片段对应的时序特征，可以包括：获取时序采样帧组中的每个帧图像的图像特征；使用时间位移模块对每个帧图像的图像特征进行处理，得到每个帧图像的时间位移模块特征；分别对每个场景片段上采样到的一组帧图像的时间位移模块特征进行3D卷积处理，得到每个场景片段对应的3D卷积特征，其中，每个场景片段对应的时序特征包括每个场景片段对应的3D卷积特征，每个场景片段对应的时序特征和场景特征具有相同的特征尺寸。

在本实施例中，可以通过2D-CNN网络获取时序采样帧组中每个帧图像的图像特征，随后经过TSM得到包含时序信息的时序featuremap，即确定出每个场景片段的场景特征。

其中，分别对每个场景片段上采样到的一组帧图像的时间位移模块特征进行3D卷积处理，得到每个场景片段对应的3D卷积特征，可以包括：对多个场景片段上的每个场景片段，执行以下步骤，其中，在执行以下步骤时，每个场景片段被视为当前片段，N为大于1的自然数：对当前片段上采样到的一组帧图像的时间位移模块特征进行3D卷积处理，得到当前片段对应的3D卷积特征，其中，时间位移模块特征的特征尺寸与3D卷积特征的特征尺寸相同。

可选的，根据每个场景片段的场景特征以及每个场景片段对应的时序特征，确定目标视频的类型，可以包括：根据每个场景片段的场景特征、每个场景片段对应的时序特征以及每个场景片段对应的光流特征，确定目标视频的类型，其中，每个场景片段对应的光流特征是根据每个场景片段对应的时序特征确定得到的特征。

如图8所示，目标视频类型确定的结构框图。如图8所示，根据每个场景片段的场景特征、每个场景片段对应的时序特征，确定目标视频的类型，其中，每个场景片段对应的光流特征是根据每个场景片段对应的时序特征确定得到的特征。

可选的，上述方法还可以包括：获取时序采样帧组中的每个帧图像的图像特征；使用时间位移模块对每个帧图像的图像特征进行处理，得到每个帧图像的时间位移模块特征；分别对每个场景片段上采样到的一组帧图像的时间位移模块特征进行特征平均处理，得到每个场景片段对应的光流特征，其中，时间位移模块特征与光流特征具有相同的特征尺寸。

其中，在本实施例中，使用时间位移模块对每个帧图像的图像特征进行处理，是在图像特征中通过TSM算法添加时序信息，进而得到时序特征。

可选的，根据每个场景片段的场景特征、每个场景片段对应的时序特征以及每个场景片段对应的光流特征，确定目标视频的类型，可以包括：对每个场景片段的场景特征、每个场景片段对应的时序特征以及每个场景片段对应的光流特征进行拼接，得到目标拼接特征；根据目标拼接特征，确定目标视频的类型。

可选的，对每个场景片段的场景特征、每个场景片段对应的时序特征以及每个场景片段对应的光流特征进行拼接，得到目标拼接特征，可以包括：将每个场景片段的场景特征进行拼接，得到第一拼接特征；将每个场景片段对应的时序特征进行拼接，得到第二拼接特征；将每个场景片段对应的光流特征进行拼接，得到第三拼接特征；将第一拼接特征、第二拼接特征以及第三拼接特征进行拼接，得到目标拼接特征，其中，第一拼接特征、第二拼接特征以及第三拼接特征具有相同的特征尺寸。

在本实施例中，针对每一个片段，根据场景图像组提供了画面信息，提示了画面中存在的场景与物品，时序采样帧组中的光流信息则是提示画面中动作变化的部分，起到attention的作用；时序采样帧组中的TSM特征则是提供动作信息，三者合一模仿人眼观察视频的流程，最终对所有片段信息进行融合，得到最终的分类结果。

可选的，根据目标拼接特征，确定目标视频的类型，可以包括：将目标拼接特征输入到目标视频类型神经网络中，得到目标视频类型神经网络输出的目标视频的类型。

如图9所示，目标视频类型确定的结构框图（二）。如图9所示，将目标拼接特征输入到目标视频类型神经网络中，得到目标视频类型神经网络输出的目标视频的类型，如可以得到视频的类型是瑜伽视频。

作为一种可选的实施例，本申请还提供了一种融合场景与动作的视频语义识别算法。如图10所示，融合场景与动作的视频语义识别算法的流程图。

步骤一，对获取的目标视频，进行帧采样，分别得到慢速通道和快速通道的视频帧图像；

步骤二，两路的视频帧图像分别通过2D-CNN网络获取图片特征，随后经过TSM得到包含时序信息的时序featuremap；

步骤三，快速通道的TSM特征通过一次3D卷积得到和慢速TSM特征相同尺寸的featuremap；

步骤四，快速通道的TSM特征将会分片段进行特征平均，每个场景片段的特征平均后从尺寸H*W*C*

变为 H*W*C*

，（由于H和W不参与TSM变换，为了方便表示，图中仅画出通道C和时序t的特征），其中

表示第

个片段的帧数，最终

个片段的平均特征进行拼接，得到尺寸为H*W*C*

的光流特征，光流特征受光流标签的监督进行学习；

步骤五，快速通道3D卷积特征，与经过上采样的光流特征，以及慢速通道特征，三者进行拼接后，根据拼接后的特征确定目标视频的类型。

在本实施例中，帧采样主要用于将不定长视频变为定长序列图片。同时，为了保证视频能够对不同场景进行感知，对视频进行了场景划分的操作，其中场景划分具体流程如下：（1）解析视频得到整个视频的所有帧，随后对每帧提取直方图特征，然后用k-means聚类将所有帧划分成k个片段；（2）通过拉普拉斯算法得到每个场景片段中最清晰的帧，此过程为场景采样；（3）对整个视频进行跨步截帧，并按照聚类结果将片段帧划分好，同时按照时间顺序进行排序，此过程为时序采样。

需要说明的是，在本实施例中，快速通道主要是对时序的动作信息进行感知。光流是提取目标视频帧图像之间动作信息，为了更有针对性地引导快速通道对时序信息进行学习，同时告知目标视频的动作变换位置，在本实施例中，加入了光流训练。

如图11所示，光流标签的示意图。其中，获取光流标签的步骤具体如下：（1）针对快速通道的每一个片段，片段中每相邻两帧用光流算法求x和y方向的光流变化，得到x方向和y方向的光流图；（2）对两个方向图的每个元素进行平方和开根，得到双方向光流图；（3）一个片段中的n帧图得到n-1张光流图，对n-1张光流图求平均后得到该片段的平均光流图。所有片段以此类推，最终得到

个平均光流图。

最后将获取的光流标签与快速通道的光流特征求mean-square损失函数。训练完毕后，网络已经学习到光流信息，测试中不再需要计算光流。

对于一个视频，可以解析成一系列有时间顺序的图像，比如一个视频拆解成10张图像。

10张图像有10个直方图特征，然后对这10个特征进行聚类，聚类的个数k是固定的，这里假设k为2，10张图像可以聚类成2类，4张A类图，6张B类图。A类和B类对应的4张图像，6张图像称之为“片段”。

其中，A类的4张图像中取最清晰的一张图像，称为场景图像A。同样，B类片段也可以提取出场景图像B，场景图像A和场景图像B是视频对应的场景图像组。

A片段经过TSM得到A片段的TSM特征，然后求平均，得到属于A片段的尺寸为H*W*C的一个featuremap，B片段同理也得到尺寸为H*W*C的一个featuremap。A，B片段的TSM特征拼接，得到H*W*（k*C）的特征（其中k=2），然后用三维卷积卷积一次，得到能够代表整个视频（即AB片段）的TSM特征（这时候TSM特征的尺寸为H1*W1*1）。这个是特征的获取过程。

A片段4张图可以得到3张光流图，求平均，变成可以代表A片段的一张光流图。B片段同理也有5张光流图。AB片段光流图求平均，得到可以表示整个视频的一张光流图，然后，这张光流图直接做resize操作，变成H1*W1*1的尺寸，这个就是光流标签。需要说明的是，光流图的长宽和原图保持一致。

然后，视频的TSM特征和光流标签做有监督训练，在训练过程中，TSM特征就逐渐学习到了光流的信息。

在本实施例中，针对每一个片段，慢速通道提供了画面信息，提示了画面中存在的场景与物品，而快速通道的光流信息则是提示画面中动作变化的部分，起到attention的作用；快速通道的TSM特征则是提供动作信息，三者合一模仿人眼观察视频的流程，最终对所有片段信息进行融合，得到最终的分类结果。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述视频类型的确定方法的视频类型的确定装置。如图12所示，该视频类型的确定装置包括：划分单元1201、采样单元1203、第一确定单元1205以及第二确定单元1207。

划分单元1201，用于根据目标视频中的帧图像的特征，将目标视频中的帧图像划分成多个场景片段。

采样单元1203，用于对多个场景片段中的每个场景片段上进行场景采样，得到场景图像组，并对多个场景片段中每个场景片段的帧图像进行时序采样，得到每个场景片段的时序采样帧组。

第一确定单元1205，用于根据场景图像组，确定每个场景片段的场景特征，并根据时序采样帧组，确定每个场景片段对应的时序特征。

第二确定单元1207，用于根据每个场景片段的场景特征以及每个场景片段对应的时序特征，确定目标视频的类型。

通过本申请提供的实施例，划分单元1201根据目标视频中的帧图像的特征，将目标视频中的帧图像划分成多个场景片段；采样单元1203对多个场景片段中的每个场景片段上进行场景采样，得到场景图像组，并对多个场景片段中每个场景片段的帧图像进行时序采样，得到每个场景片段的时序采样帧组；第一确定单元1205根据场景图像组，确定每个场景片段的场景特征，并根据时序采样帧组，确定每个场景片段对应的时序特征；第二确定单元1207根据每个场景片段的场景特征以及每个场景片段对应的时序特征，确定目标视频的类型，达到了将根据目标视频中的帧图像将目标视频划分多个场景片段，获取每个场景片段的特征信息，融合目标视频中的每个场景的特征信息，确定出目标视频的类型的目的，从而实现了对目标视频中的场景进行细化，根据细化后的场景特征信息确定出目标视频类型的技术效果，进而解决了现有技术中，视频分类准确性较低的技术问题。

可选的，上述划分单元1201，可以包括：第一获取模块，用于获取目标视频中的每个帧图像的直方图特征；第一划分模块，用于根据每个帧图像的直方图特征，对目标视频中的每个帧图像进行聚类，得到多个场景片段。

可选的，上述采样单元1203，可以包括：

1）第二获取模块，用于获取目标视频中的每个场景片段包括的每个帧图像的清晰度参数，其中，清晰度参数用于表示帧图像的清晰度。

2）第一确定模块，用于将每个场景片段中清晰度参数的取值最高的帧图像确定为采样到场景图像组中的场景图像。

3）采样模块，用于按照预设的采样率，对目标视频中的帧图像进行采样，得到一组帧图像。

4）第二划分模块，用于将一组帧图像划分到每个场景片段上，并将一组帧图像在每个场景片段上按照时间顺序进行排序，得到时序采样帧组。

可选的，上述第一确定单元1205，可以包括：第三获取模块，用于获取场景图像组中的每个帧图像的图像特征；第二确定模块，用于根据每个帧图像的图像特征，确定每个场景片段的场景特征。

其中，上述第二确定模块，可以包括：处理子模块，用于使用时间位移模块对每个帧图像的图像特征进行处理，得到每个帧图像的时间位移模块特征，其中，每个场景片段的场景特征包括每个场景片段上采样到的帧图像的时间位移模块特征，每个场景片段的场景特征的特征尺寸均相同。

可选的，上述第一确定单元1205，可以包括：第四获取模块，用于获取时序采样帧组中的每个帧图像的图像特征；处理模块，用于使用时间位移模块对每个帧图像的图像特征进行处理，得到每个帧图像的时间位移模块特征；分别对每个场景片段上采样到的一组帧图像的时间位移模块特征进行3D卷积处理，得到每个场景片段对应的3D卷积特征，其中，每个场景片段对应的时序特征包括每个场景片段对应的3D卷积特征，每个场景片段对应的时序特征和场景特征具有相同的特征尺寸。

其中，上述处理模块还用于执行如下操作：对多个场景片段上的每个场景片段，执行以下步骤，其中，在执行以下步骤时，每个场景片段被视为当前片段，N为大于1的自然数：对当前片段上采样到的一组帧图像的时间位移模块特征进行3D卷积处理，得到当前片段对应的3D卷积特征，其中，时间位移模块特征的特征尺寸与3D卷积特征的特征尺寸相同。

可选的，上述第二确定单元1207，可以包括：第三确定模块，用于根据每个场景片段的场景特征、每个场景片段对应的时序特征以及每个场景片段对应的光流特征，确定目标视频的类型，其中，每个场景片段对应的光流特征是根据每个场景片段对应的时序特征确定得到的特征。

可选的，上述装置还可以包括：获取单元，用于获取时序采样帧组中的每个帧图像的图像特征；处理单元，用于使用时间位移模块对每个帧图像的图像特征进行处理，得到每个帧图像的时间位移模块特征；得到单元，用于分别对每个场景片段上采样到的一组帧图像的时间位移模块特征进行特征平均处理，得到每个场景片段对应的光流特征，其中，时间位移模块特征与光流特征具有相同的特征尺寸。

可选的，上述第二确定单元，可以包括：拼接模块，用于对每个场景片段的场景特征、每个场景片段对应的时序特征以及每个场景片段对应的光流特征进行拼接，得到目标拼接特征；第四确定模块，用于根据目标拼接特征，确定目标视频的类型。

其中，上述拼接模块，可以包括：第一拼接子模块，用于将每个场景片段的场景特征进行拼接，得到第一拼接特征；第二拼接子模块，用于将每个场景片段对应的时序特征进行拼接，得到第二拼接特征；第三拼接子模块，用于将每个场景片段对应的光流特征进行拼接，得到第三拼接特征；第四拼接子模块，用于将第一拼接特征、第二拼接特征以及第三拼接特征进行拼接，得到目标拼接特征，其中，第一拼接特征、第二拼接特征以及第三拼接特征具有相同的特征尺寸。

上述第二确定单元，可以包括：输出模块，用于将目标拼接特征输入到目标视频类型神经网络中，得到目标视频类型神经网络输出的目标视频的类型。

根据本发明实施例的又一个方面，还提供了一种用于实施上述视频类型的确定方法的电子设备，该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为服务器为例来说明。如图13所示，该电子设备包括存储器1302和处理器1304，该存储器1302中存储有计算机程序，该处理器1304被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，根据目标视频中的帧图像的特征，将目标视频中的帧图像划分成多个场景片段；

S2，对多个场景片段中的每个场景片段上进行场景采样，得到场景图像组，并对多个场景片段中每个场景片段的帧图像进行时序采样，得到每个场景片段的时序采样帧组；

S3，根据场景图像组，确定每个场景片段的场景特征，并根据时序采样帧组，确定每个场景片段对应的时序特征；

S4，根据每个场景片段的场景特征以及每个场景片段对应的时序特征，确定目标视频的类型。

可选地，本领域普通技术人员可以理解，图13所示的结构仅为示意，电子装置电子设备也可以是智能手机（如Android手机、iOS手机等）、平板电脑、掌上电脑以及移动互联网设备（Mobile Internet Devices，MID）、PAD等终端设备。图13其并不对上述电子装置电子设备的结构造成限定。例如，电子装置电子设备还可包括比图13中所示更多或者更少的组件（如网络接口等），或者具有与图13所示不同的配置。

其中，存储器1302可用于存储软件程序以及模块，如本发明实施例中的视频类型的确定方法和装置对应的程序指令/模块，处理器1304通过运行存储在存储器1302内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的视频类型的确定方法。存储器1302可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1302可进一步包括相对于处理器1304远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1302具体可以但不限于用于存储目标视频的帧图像、帧图像的等信息。作为一种示例，如图13所示，上述存储器1302中可以但不限于包括上述视频类型的确定装置中的划分单元1201、采样单元1203、第一确定单元1205及第二确定单元1207。此外，还可以包括但不限于上述视频类型的确定装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1306用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1306包括一个网络适配器（Network Interface Controller，NIC），其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1306为射频（Radio Frequency，RF）模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器1308，用于显示上述目标视频；和连接总线1310，用于连接上述电子设备中的各个模块部件。

在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点（P2P，Peer To Peer）网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述视频类型的确定方面或者视频类型的确定方面的各种可选实现方式中提供的视频类型的确定方法。其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器（Read-Only Memory，ROM）、随机存取器（Random Access Memory，RAM）、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备（可为个人计算机、服务器或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频类型的确定方法，其特征在于，包括：

根据目标视频中帧图像的直方图特征，将所述目标视频中的帧图像进行聚类，划分成多个场景片段；

对所述多个场景片段中的每个场景片段进行场景采样，获取所述每个场景片段中清晰度参数取值最高的帧图像，得到场景图像组，并对所述多个场景片段中每个场景片段的帧图像进行时序采样，得到所述每个场景片段的时序采样帧组；

根据所述场景图像组，确定所述每个场景片段的场景特征，并根据所述时序采样帧组，确定所述每个场景片段的时序特征；

根据所述每个场景片段的场景特征以及所述每个场景片段的时序特征，确定所述目标视频的类型。

2.根据权利要求1所述的方法，其特征在于，所述根据目标视频中的帧图像的直方图特征，将所述目标视频中的帧图像进行聚类，划分成多个场景片段，包括：

获取所述目标视频中的每个帧图像的直方图特征；

根据所述每个帧图像的直方图特征，对所述目标视频中的每个帧图像进行聚类，得到所述多个场景片段。

3.根据权利要求1所述的方法，其特征在于，所述对所述多个场景片段中的每个场景片段上进行场景采样，获取所述每个场景片段中清晰度参数取值最高的帧图像，得到所述场景图像组，包括：

获取所述目标视频中的所述每个场景片段包括的每个帧图像的清晰度参数；

将所述每个场景片段中清晰度参数的取值最高的帧图像确定为采样到所述场景图像组中的场景图像。

4.根据权利要求1所述的方法，其特征在于，所述对所述多个场景片段中每个场景片段的帧图像进行时序采样，得到所述每个场景片段的时序采样帧组，包括：

按照预设的采样率，对所述目标视频中的帧图像进行采样，得到一组帧图像；

将所述一组帧图像划分到所述每个场景片段上，并将所述一组帧图像在所述每个场景片段上按照时间顺序进行排序，得到所述每个场景片段的时序采样帧组。

5.根据权利要求1所述的方法，其特征在于，所述根据所述场景图像组，确定所述每个场景片段的场景特征，包括：

获取所述场景图像组中的每个帧图像的图像特征；

根据所述每个帧图像的图像特征，确定所述每个场景片段的场景特征。

6.根据权利要求5所述的方法，其特征在于，所述根据所述每个帧图像的图像特征，确定所述每个场景片段的场景特征，包括：

使用时间位移模块对所述每个帧图像的图像特征进行处理，得到所述每个帧图像的时间位移模块特征，其中，所述每个场景片段的场景特征包括所述每个场景片段上采样到的帧图像的时间位移模块特征，所述每个场景片段的场景特征的特征尺寸均相同。

7.根据权利要求1所述的方法，其特征在于，所述根据所述时序采样帧组，确定所述每个场景片段的时序特征，包括：

获取所述时序采样帧组中的每个帧图像的图像特征；

使用时间位移模块对所述每个帧图像的图像特征进行处理，得到所述每个帧图像的时间位移模块特征；

分别对所述每个场景片段上采样到的一组帧图像的时间位移模块特征进行3D卷积处理，得到所述每个场景片段对应的3D卷积特征，其中，所述每个场景片段对应的时序特征包括所述每个场景片段对应的3D卷积特征，所述每个场景片段对应的时序特征和场景特征具有相同的特征尺寸。

8.根据权利要求7所述的方法，其特征在于，所述分别对所述每个场景片段上采样到的一组帧图像的时间位移模块特征进行3D卷积处理，得到所述每个场景片段对应的3D卷积特征，包括：

对所述多个场景片段上的每个场景片段，执行以下步骤，其中，在执行以下步骤时，所述每个场景片段被视为当前片段：

对所述当前片段上采样到的一组帧图像的时间位移模块特征进行3D卷积处理，得到所述当前片段对应的3D卷积特征，其中，所述时间位移模块特征的特征尺寸与所述3D卷积特征的特征尺寸相同。

9.根据权利要求1所述的方法，其特征在于，所述根据所述每个场景片段的场景特征以及所述每个场景片段对应的时序特征，确定所述目标视频的类型，包括：

根据所述每个场景片段的场景特征、所述每个场景片段对应的时序特征以及所述每个场景片段对应的光流特征，确定所述目标视频的类型，其中，所述每个场景片段对应的光流特征是根据所述每个场景片段对应的时序特征确定得到的特征。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

获取所述时序采样帧组中的每个帧图像的图像特征；

分别对所述每个场景片段上采样到的一组帧图像的时间位移模块特征进行特征平均处理，得到所述每个场景片段对应的光流特征，其中，所述时间位移模块特征与所述光流特征具有相同的特征尺寸。

11.根据权利要求9所述的方法，其特征在于，所述根据所述每个场景片段的场景特征、所述每个场景片段对应的时序特征以及所述每个场景片段对应的光流特征，确定所述目标视频的类型，包括：

对所述每个场景片段的场景特征、所述每个场景片段对应的时序特征以及所述每个场景片段对应的光流特征进行拼接，得到目标拼接特征；

根据所述目标拼接特征，确定所述目标视频的类型。

12.根据权利要求11所述的方法，其特征在于，所述对所述每个场景片段的场景特征、所述每个场景片段对应的时序特征以及所述每个场景片段对应的光流特征进行拼接，得到目标拼接特征，包括：

将所述每个场景片段的场景特征进行拼接，得到第一拼接特征；

将所述每个场景片段对应的时序特征进行拼接，得到第二拼接特征；

将所述每个场景片段对应的光流特征进行拼接，得到第三拼接特征；

将所述第一拼接特征、所述第二拼接特征以及所述第三拼接特征进行拼接，得到所述目标拼接特征，其中，所述第一拼接特征、所述第二拼接特征以及所述第三拼接特征具有相同的特征尺寸。

13.根据权利要求11所述的方法，其特征在于，所述根据所述目标拼接特征，确定所述目标视频的类型，包括：

将所述目标拼接特征输入到目标视频类型神经网络中，得到所述目标视频类型神经网络输出的所述目标视频的类型。

14.一种视频类型的确定装置，其特征在于，包括：

划分单元，用于根据目标视频中的帧图像的直方图特征，将所述目标视频中的帧图像进行聚类，划分成多个场景片段；

采样单元，用于对所述多个场景片段中的每个场景片段上进行场景采样，获取所述每个场景片段中清晰度参数取值最高的帧图像，得到场景图像组，并对所述多个场景片段中每个场景片段的帧图像进行时序采样，得到所述每个场景片段的时序采样帧组；

第一确定单元，用于根据所述场景图像组，确定所述每个场景片段的场景特征，并根据所述时序采样帧组，确定所述每个场景片段对应的时序特征；

第二确定单元，用于根据所述每个场景片段的场景特征以及所述每个场景片段对应的时序特征，确定所述目标视频的类型。

15.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至13任一项中所述的方法。