CN113762034A

CN113762034A - 视频分类方法和装置、存储介质及电子设备

Info

Publication number: CN113762034A
Application number: CN202110432193.8A
Authority: CN
Inventors: 陈思宏; 肖万鹏; 鞠奇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-04-21
Filing date: 2021-04-21
Publication date: 2021-12-07

Abstract

本发明公开了一种与人工智能和云服务器相关的视频分类方法和装置、存储介质及电子设备。其中，该方法包括：在获取到待分类的目标视频的情况下，获取目标视频中每一帧视频帧的图像特征；根据各个视频帧的图像特征之间的特征距离，对目标视频中的所有视频帧进行聚类处理，以得到多个视频片段；获取多个视频片段中每个视频片段各自对应的片段时序融合特征；根据各个视频片段各自对应的片段时序融合特征确定目标视频的视频特征；对视频特征进行识别，得到目标视频的目标类型。本发明解决了视频分类不准确的技术问题。

Description

视频分类方法和装置、存储介质及电子设备

技术领域

本发明涉及计算机计算领域，具体而言，涉及一种视频分类方法和装置、存储介质及电子设备。

背景技术

现有技术中，在对视频进行分类的时候，如果视频为长视频，则会因为长视频中的内容包含了不同的场景，造成对视频分类的分类结果不准确。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种视频分类方法和装置、存储介质及电子设备，以至少解决视频分类不准确的技术问题。

根据本发明实施例的一个方面，提供了一种视频分类方法，包括：在获取到待分类的目标视频的情况下，获取上述目标视频中每一帧视频帧的图像特征；根据各个视频帧的上述图像特征之间的特征距离，对上述目标视频中的所有视频帧进行聚类处理，以得到多个视频片段，其中，上述多个视频片段的每一个视频片段中包括多个有序视频帧；获取上述多个视频片段中每个上述视频片段各自对应的片段时序融合特征，其中，上述片段时序融合特征为根据上述视频片段中的目标视频帧所确定的特征，上述目标视频帧为上述视频片段中的一部分视频帧；根据各个上述视频片段各自对应的片段时序融合特征确定上述目标视频的视频特征；对上述视频特征进行识别，得到上述目标视频的目标类型。

根据本发明实施例的另一方面，还提供了一种视频分类装置，包括：第一获取单元，用于在获取到待分类的目标视频的情况下，获取上述目标视频中每一帧视频帧的图像特征；聚类单元，用于根据各个视频帧的上述图像特征之间的特征距离，对上述目标视频中的所有视频帧进行聚类处理，以得到多个视频片段，其中，上述多个视频片段的每一个视频片段中包括多个有序视频帧；第二获取单元，用于获取上述多个视频片段中每个上述视频片段各自对应的片段时序融合特征，其中，上述片段时序融合特征为根据上述视频片段中的目标视频帧所确定的特征，上述目标视频帧为上述视频片段中的一部分视频帧；确定单元，用于根据各个上述视频片段各自对应的片段时序融合特征确定上述目标视频的视频特征；识别单元，用于对上述视频特征进行识别，得到上述目标视频的目标类型。

作为一种可选的示例，上述聚类单元包括：第一确定模块，用于确定多个目标特征；第二处理模块，用于将上述目标视频的每一个上述图像特征作为当前特征，对上述当前特征执行如下操作，得到上述多个视频片段：确定上述当前特征与上述多个目标特征中，每一个上述目标特征的特征距离，将上述特征距离中的最小值对应的第一目标特征与上述当前特征确定为一组特征中的两个特征；第二确定模块，用于在遍历上述目标视频的每一个上述图像特征之后，将同一组特征中的上述图像特征对应的视频帧确定为一个上述视频片段中的视频帧。

作为一种可选的示例，上述第一确定模块包括：第一确定子模块，用于确定多个初始特征；第一处理子模块，用于对上述当前特征执行如下操作，得到多个第一距离：确定每一个上述当前特征与上述多个初始特征中的第一初始特征的第一距离，其中，上述第一初始特征为上述多个初始特征中，与上述当前特征距离最小的特征，每一个上述当前特征对应一个上述第一距离；第二确定子模块，用于确定多个上述第一距离的和；调整模块，用于调整上述多个初始特征，得到重新确定的上述和；第三确定子模块，用于将最小的上述和对应的上述多个初始特征确定为上述多个目标特征。

作为一种可选的示例，上述确定单元包括：第一获取模块，用于获取每一个上述视频片段的上述片段时序融合特征；第三处理模块，用于对多个上述片段时序融合特征执行求平均操作，得到平均特征；第三确定模块，用于将上述平均特征作为上述视频特征。

作为一种可选的示例，上述第一获取模块包括：第二处理子模块，用于将每一个上述视频片段作为当前片段，对上述当前片段执行如下操作：确定上述当前片段中的每一个上述目标视频帧的目标帧特征；将每一个上述目标帧特征确定为当前帧特征，对上述当前帧特征执行如下操作：使用第一帧特征中的第一部分的特征替换上述当前帧特征中上述第一部分的特征并使用第二帧特征中第二部分的特征替换上述当前帧特征中上述第二部分的特征，其中，上述第一帧特征为上述目标视频帧中，上述当前帧特征所在的视频帧的前一帧视频帧的帧特征，上述第二帧特征为上述目标视频帧中，上述当前帧特征所在的视频帧的后一帧视频帧的帧特征；将处理后的每一个上述目标帧特征按照时间顺序融合为上述当前片段的上述片段时序融合特征。

作为一种可选的示例，上述第三处理模块包括：第一池化子模块，用于将多个上述片段时序融合特征中每一个上述片段时序融合特征在时间维度上进行池化操作，得到池化后的池化特征；第四确定子模块，用于将多个上述池化特征求平均确定出的特征作为上述平均特征。

作为一种可选的示例，上述第二获取单元包括：第二获取模块，用于使用目标神经网络模型的特征提取层提取上述片段时序融合特征；上述识别单元包括：第一识别模块，用于使用上述目标神经网络模型的全连接层对上述视频特征进行识别，得到上述目标类型。

作为一种可选的示例，上述第二获取单元还包括：第三获取模块，用于在使用上述目标神经网络模型的上述特征提取层提取上述片段时序融合特征之前，获取样本视频，其中，上述样本视频被标注有样本类型；输入模块，用于将上述样本视频输入到上述目标神经网络模型中，得到上述目标神经网络模型输出的上述样本视频的预估类型；第一调整模块，用于在上述预估类型和上述样本类型不同的情况下，调整上述目标神经网络模型的上述特征提取层的第一参数和上述全连接层的第二参数。

作为一种可选的示例，上述样本视频还被标注有关键帧的第一位置，上述第二获取单元还包括：第四获取模块，用于在将上述样本视频输入到上述目标神经网络模型中，得到上述目标神经网络模型输出的上述样本视频的视频类型时，获取上述样本视频的每一个样本视频片段的样本片段时序融合特征；池化模块，用于将每一个上述样本片段时序融合特征执行最大值池化操作，得到池化后的池化样本特征；拼接模块，用于将多个上述池化样本特征拼接为二维特征；第二识别模块，用于由上述目标神经网络模型的上述全连接层对上述二维特征进行识别，得到上述样本视频的上述关键帧的预估位置；第二调整模块，用于在上述预估位置和上述第一位置不同的情况下，调整上述第一参数和上述第二参数。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述视频分类方法。

根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过上述计算机程序执行上述的视频分类方法。

在本发明实施例中，采用了在获取到待分类的目标视频的情况下，获取上述目标视频中每一帧视频帧的图像特征；根据各个视频帧的上述图像特征之间的特征距离，对上述目标视频中的所有视频帧进行聚类处理，以得到多个视频片段，其中，上述多个视频片段的每一个视频片段中包括多个有序视频帧；获取上述多个视频片段中每个上述视频片段各自对应的片段时序融合特征，其中，上述片段时序融合特征为根据上述视频片段中的目标视频帧所确定的特征，上述目标视频帧为上述视频片段中的一部分视频帧；根据各个上述视频片段各自对应的片段时序融合特征确定上述目标视频的视频特征；对上述视频特征进行识别，得到上述目标视频的目标类型的方法，由于在上述方法中，在获取到待分类的目标视频时，首先时根据目标视频中的视频帧的图像特征的特征距离聚类成多个视频片段，接着，对视频片段的片段时序融合特征确定出目标视频的视频特征，根据视频特征识别目标视频的目标类型，从而考虑到了长视频中不同场景的内容，提高了对视频分类的准确度，进而解决了视频分类不准确的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的视频分类方法的应用环境的示意图；

图2是根据本发明实施例的另一种可选的视频分类方法的应用环境的示意图；

图3是根据本发明实施例的一种可选的视频分类方法的流程的示意图；

图4是根据本发明实施例的一种可选的视频分类方法的获取目标视频帧的示意图；

图5是根据本发明实施例的一种可选的视频分类方法的替换特征的示意图；

图6是根据本发明实施例的一种可选的视频分类方法的替换特征的示意图；

图7是根据本发明实施例的一种可选的视频分类方法的系统示意图；

图8是根据本发明实施例的一种可选的视频分类装置的结构示意图；

图9是根据本发明实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种视频分类方法，可选地，作为一种可选的实施方式，上述视频分类方法可以但不限于应用于如图1所示的环境中。

如图1所示，终端设备102包括了存储器104，用于存储终端设备102运行过程中产生的各项数据、处理器106，用于处理运算上述各项数据、显示器108，用于显示目标视频的分类结果。终端设备102可以通过网络110与服务器112之间进行数据交互。服务器112包括数据库114，用于存储各项数据，处理引擎116，用于处理上述各项数据。通过步骤S102到步骤S106，终端设备102可以将目标视频发送给服务器112，服务器112识别目标视频的目标类型并下发目标类型。

作为一种可选的实施方式，上述视频分类方法可以但不限于应用于如图2所示的环境中。

如图2所示，终端设备202包括了存储器204，用于存储终端设备202运行过程中产生的各项数据、处理器206，用于处理运算上述各项数据、显示器208，用于显示目标视频的分类结果。终端设备202可以执行步骤S202到步骤S210，从而实现目标视频的识别，得到目标类型。

可选地，在本实施例中，上述终端设备102或终端设备202可以是配置有目标客户端的终端设备，可以包括但不限于以下至少之一：手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices，移动互联网设备)、PAD、台式电脑、智能电视等。目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端等。上述网络110可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述服务器112可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器。上述仅是一种示例，本实施例中对此不作任何限定。

服务器112可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

本实施例中的上述视频分类方法涉及到人工智能，人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

可选地，上述视频分类方法可以应用在区块链节点上。本实施例中的区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中，用户管理模块负责所有区块链参与者的身份信息管理，包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等，并且在授权的情况下，监管和审计某些真实身份的交易情况，提供风险控制的规则配置(风控审计)；基础服务模块部署在所有区块链节点设备上，用来验证业务请求的有效性，并对有效请求完成共识后记录到存储上，对于一个新的业务请求，基础服务先对接口适配解析和鉴权处理(接口适配)，然后通过共识算法将业务信息加密(共识管理)，在加密之后完整一致的传输至共享账本上(网络通信)，并进行记录存储；智能合约模块负责合约的注册发行以及合约触发和合约执行，开发人员可以通过某种编程语言定义合约逻辑，发布到区块链上(合约注册)，根据合约条款的逻辑，调用密钥或者其它的事件触发执行，完成合约逻辑，同时还提供对合约升级注销的功能；运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出，例如：告警、监控网络情况、监控节点设备健康状态等。

平台产品服务层提供典型应用的基本能力和实现框架，开发人员可以基于这些基本能力，叠加业务的特性，完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。

可选地，作为一种可选的实施方式，如图3所示，上述视频分类方法包括：

S302，在获取到待分类的目标视频的情况下，获取目标视频中每一帧视频帧的图像特征；

S304，根据各个视频帧的图像特征之间的特征距离，对目标视频中的所有视频帧进行聚类处理，以得到多个视频片段，其中，多个视频片段的每一个视频片段中包括多个有序视频帧；

S306，获取多个视频片段中每个视频片段各自对应的片段时序融合特征，其中，片段时序融合特征为根据视频片段中的目标视频帧所确定的特征，目标视频帧为视频片段中的一部分视频帧；

S308，根据各个视频片段各自对应的片段时序融合特征确定目标视频的视频特征；

S310，对视频特征进行识别，得到目标视频的目标类型。

可选地，本实施例中可以但不限于应用与对视频进行分类的过程中。例如，可以应用到网络安全监控，将视频分类为正常视频和非法视频。例如应用到视频播放器中，通过识别目标视频的类型为目标视频打上不同类型的标签，例如应用到学习教育中，通过识别目标视频确定出目标视频的学科类型，进而对目标视频进行分类。

以将上述视频分类方法应用到视频播放器为例，视频播放器在获取到个人媒体账号上传的视频之后，可以对视频进行识别。首先通过视频的每一帧视频帧的图像特征将目标视频聚类为多个视频片段，对于每一个视频片段确定出一个片段时序融合特征，将片段时序融合特征确定出视频的视频特征，最后识别视频特征确定出视频的类型。将视频打上对应类型的标签，则在用户侧搜索该标签的资源时，可以搜索到该视频。由于在上述视频分类过程中，考虑到了长视频不同场景下的内容，因此，上述方法提高了视频分类的准确度。

以将上述视频分类方法应用到网络安全监控为例，在获取到个人媒体账号上传的视频之后，可以对视频进行识别。首先通过视频的每一帧视频帧的图像特征将目标视频聚类为多个视频片段，对于每一个视频片段确定出一个片段时序融合特征，将片段时序融合特征确定出视频的视频特征，最后识别视频特征确定出视频的类型。将视频打上对应类型的标签，标签可以为该视频为合法视频或者该视频为非法视频。对于非法视频，可以进行屏蔽，对于合法视频，允许被观看。

可选地，上述目标视频的类型可以为预先设置的多种类型。例如，可以为正常视频或者非法视频，例如可以为语文内容视频、数学内容视频，例如可以为悬疑类型、惊悚类型、喜剧类型等。多种类型可以根据不同的分类方式进行分类，本实施例并不限定。

可选地，上述目标视频帧为视频片段中的一部分视频帧。可以将视频片段中每隔多帧截取一帧，将截取的视频帧作为目标视频帧。也可以按照先后顺序，从目标视频中随机抽取多帧作为目标视频帧。例如，如图4所示，图4为30帧的一个视频，对于该视频的30帧视频帧，每10帧截取一帧图片作为目标视频帧，则抽取出三帧目标视频帧404。上述的每10帧截取一帧图片作为目标视频帧为示例，还可以每5帧截取一帧图片。可选地，本实施例中也可以在视频片段中截取一段连续的视频帧作为目标视频帧。例如，将30帧的视频片段的第10-15帧截取出来作为目标视频帧。可选地，本实施例中在截取目标视频帧时，还可以根据视频片段的场景来截取目标视频帧。例如，可以识别视频片段中的场景，识别出多个场景，每一个场景截取一帧或多帧视频帧。

可选地，对于上述场景的识别，可以通过识别视频片段中视频帧的颜色实现。统计视频片段中相邻的两帧视频帧中的相同位置的像素点的颜色的差值，如果颜色的差值的加权求和结果大于预定阈值，则认为相邻两帧视频帧属于不同的场景中的视频帧。可以将相邻两帧视频帧中，上述加权求和结果都小于或等于预定阈值的多帧视频帧确定为一个场景下的视频帧。通过本实施例，通过上述方法，从而可以在识别视频类型时，考虑到目标视频中不同场景的内容，提高了识别视频类型的准确性。

可选地，本实施例中，在获取到目标视频后，在获取目标视频的每一帧视频帧的图像特征时，可以获取每一帧视频帧的直方图特征。方法可以为：将目标视频的每一帧视频帧确定为当前视频帧，对当前视频帧执行如下操作：获取多个目标灰度值，将每一个目标灰度值确定为当前灰度值，统计当前视频帧中，像素点的灰度值与当前灰度值相同的像素点的数量，得到第一数量，其中，在当前视频帧中，每一个目标灰度值对应一个第一数量；将多个第一数量组成的序列确定为当前视频帧的图像特征。

可选地，上述目标灰度值可以为人工设置的值，也可以为系统运行过程中，通过计算得到的值。目标灰度值可以有多个，数量并不做限定。例如，对于目标灰度值，可以有16个，16个目标灰度值不同。则对于每一帧视频帧，该帧视频帧中，每一个像素点的灰度值是可以得到的。统计该帧视频帧中，每一个像素点的灰度值与上述16个目标灰度值中任意一个目标灰度值相同的灰度值的数量。如16个目标灰度值中，包括了灰度值30、灰度值55和灰度值126……一共16个数值(仅为举例)，则对于目标视频的一帧视频帧，统计该帧视频帧中，灰度值为上述16个值的像素点的数量。例如，有3个像素点的灰度值为30，有20个像素点的灰度值为55，有80个像素点的灰度值为126等等。得到16个数字。将16个灰度值拉成一个向量，得到一个16维的直方图向量特征。该直方图向量特征就是目标视频的视频帧的图像特征。

可选地，本实施例中，在获取每一帧图像的图像特征时，还可以提取图像的颜色特征。颜色特征可以为颜色的颜色矩。颜色矩分为一阶矩、二阶矩和三阶矩。一阶矩为均值，在本实施例中可以为图像中，颜色对应的像素的像素位置的均值，二阶矩为方差，在本实施例中可以为图像中，颜色对应的像素的像素位置的方差，三阶矩为斜度，在本实施例中可以为图像中，颜色对应的像素的像素位置的斜度。在获取一帧图像的图像特征时，可以确定图像中包括的颜色，对于每一种颜色，确定该颜色的一阶矩、二阶矩和三阶矩，从而得到该颜色的特征，将每一种颜色的特征进行组合，得到图像的图像特征。也就是说，对于一帧图像，每一个颜色可以得到一个一阶矩、二阶矩和三阶矩。例如，一帧图像共5中颜色，则共有五个一阶矩、五个二阶矩和五个三阶矩，五个一阶矩、五个二阶矩和五个三阶矩组合为该帧图像的图像特征。

可选地，本实施例中，根据图像特征之间的特征距离对图像特征进行聚类，从而得到目标视频的多个视频片段。可以包括：确定多个目标特征；将目标视频的每一个图像特征作为当前特征，对当前特征执行如下操作，得到多个视频片段：确定当前特征与多个目标特征中，每一个目标特征的特征距离，将特征距离中的最小值对应的第一目标特征与当前特征确定为一组特征中的两个特征；在遍历目标视频的每一个图像特征之后，将同一组特征中的图像特征对应的视频帧确定为一个视频片段中的视频帧。

也就是说，本实施例中在进行聚类时，可以先确定出多个目标特征。对于目标视频的所有视频帧，每一帧视频帧都作为当前视频帧，然后确定当前视频帧的视频特征和目标特征中的每一个目标特征的特征距离。结果会得到当前视频帧的视频特征和目标特征中第一目标特征之间的特征距离是最小的。则将当前视频帧确定为与第一目标特征为一组。最后，可以将目标视频的视频帧分成多组。对于一组中的一个视频帧，该视频帧的图像特征与该组的第一目标特征之间的特征距离要小于该视频帧的图像特征与其他任意一组的第一目标特征之间的特征距离。每一组的视频帧作为一个视频片段中的视频帧。

可选地，可以将每一组的视频按照时间先后的顺序进行排序，得到一个视频片段。

可选地，本实施例中，上述多个目标特征可以为经过预先计算得到的。例如，可以确定多个初始特征；对当前特征执行如下操作，得到多个第一距离：确定每一个当前特征与多个初始特征中的第一初始特征的第一距离，其中，第一初始特征为多个初始特征中，与当前特征距离最小的特征，每一个当前特征对应一个第一距离；确定多个第一距离的和；调整多个初始特征，得到重新确定的和；将最小的和对应的多个初始特征确定为多个目标特征。

本实施例中，可以在确定出一次多个初始特征以及确定出和之后，按照一个策略调整初始特征，然后再确定一次和。如果确定出的和比上一个和大，则切换调整策略。如果确定出的和比上一个和小，则按照该策略继续调整多个初始特征。例如先调整多个初始特征中的一部分，如先调整一个，然后重新确定上述和，如果确定出的上述和相比于调整前的和大，则调整初始特征中的另外的特征。如果确定出的上述和相比于调整前的和小，则继续调整上述初始特征中的一部分。

也就是说，可以随机确定多个初始特征，然后，计算多个初始特征的上述第一距离的和，经过调整后，得到多个和。将最小的和对应的多个初始特征确定为上述的多个目标特征。经过本方法，可以有效的保证聚类后的视频片段中视频帧的相关联程度，提高聚类准确性。

可选地，本实施例中对目标视频提取出的视频帧进行聚类时，可以对图像特征进行聚类，可以将每一个图像特征均作为一类，然后，确定每两类图像特征之间的距离，将距离最小的两类图像特征合并为一类图像特征，重复确定每两类图像特征之间的距离，将距离最小的两类图像特征合并为一类图像特征的过程，直到剩余类的数量占初始的类的数量的比例小于一个预定的值，例如小于10％。

举例说明，如10个图像，每一个图像对应一个图像特征，共10个图像特征，每一个图像特征被分为一类，计算每一类图像特征之间的距离，如第3和第6类图像特征的距离最小，则将两类图像特征合并为一类，得到9类新的图像特征，重复计算距离和合并的步骤，如果预定的值为30％，则当10个图像特征的10类图像特征合并为3类图像特征的情况下，停止计算距离和合并的步骤。此时，将10个图像特征聚类为3类图像特征。则与10个图像特征对应的10个图像被聚类为3个视频片段。

可选地，本实施例中，在获取到多个视频片段之后，可以获取每一个视频片段的片段时序融合特征，然后根据片段时序融合特征得到目标视频的视频特征。例如，可以获取每一个视频片段的片段时序融合特征；对多个片段时序融合特征执行求平均操作，得到平均特征；将平均特征作为视频特征。

例如，对于片段时序融合特征H1*W1*C1*t1，和H2*W2*C2*t2，求取平均值可以得到平均特征：(H1+H2)/2*(W1+W2)/2*(C1+C2)/2*(t1+t2)/2。对于多个片段时序融合特征求取平均值，也可以采用上述方法，将各个特征求取平均特征。

上述求平均操作可以为对特征求取平均值，得到平均特征。

可选地，本实施例中，获取每一个视频片段的片段时序融合特征包括：将每一个视频片段作为当前片段，对当前片段执行如下操作：确定当前片段中的每一个目标视频帧的目标帧特征；将每一个目标帧特征确定为当前帧特征，对当前帧特征执行如下操作：使用第一帧特征中的第一部分的特征替换当前帧特征中第一部分的特征并使用第二帧特征中第二部分的特征替换当前帧特征中第二部分的特征，其中，第一帧特征为目标视频帧中，当前帧特征所在的视频帧的前一帧视频帧的帧特征，第二帧特征为目标视频帧中，当前帧特征所在的视频帧的后一帧视频帧的帧特征；将处理后的每一个目标帧特征按照时间顺序融合为当前片段的片段时序融合特征。

也就是说，对于每一个视频片段，可以先从视频片段中确定出多个目标视频帧。确定方法在上述内容中提到，在此不再赘述。确定出多个目标视频帧之后，对于每一个目标视频帧的目标帧特征，使用上一帧目标视频帧的目标帧特征替换一部分，使用下一帧目标视频帧的目标帧特征替换一部分，从而得到替换后的目标帧特征。将替换后的目标帧特征作为片段时序融合特征。

例如，对于一个视频片段，其包含60帧，每20帧提取一帧，提取出3帧目标视频帧。对于该3帧目标视频帧，每一帧目标视频帧对应一个目标帧特征。对于第二个目标帧特征，将其中第一部分的特征由第一个目标帧特征中第一部分的特征代替，将其中第二部分的特征由第三个目标帧特征中第二部分的特征代替。例如，如图5所示，图5中包括了三帧目标视频帧的目标帧特征，分别为目标帧特征502、目标帧特征504和目标帧特征506，目标帧特征502所在的目标视频帧位于目标帧特征504所在的目标视频帧之前，目标帧特征506所在的目标视频帧位于目标帧特征504所在的目标视频帧之后。将目标帧特征502的第一部分502-1的特征替换目标帧特征504的第一部分504-1的特征，将目标帧特征506的第二部分506-2的特征替换目标帧特征504的第二部分504-2的特征。在替换后，对于目标帧特征502，如果其为目标视频帧中的首帧的目标帧特征，则将其的第一部分502-1使用0填充。对于目标帧特征506，如果其为目标视频帧中的尾帧的目标帧特征，则第二部分506-2由0填充。如果目标帧特征502和目标帧特征506并不是在目标视频帧中的首帧和尾帧中，则采用对目标帧特征504的处理方法进行处理。

可选地，本实施例中，在确定出目标视频帧之后，在对目标视频帧的帧特征进行替换得到片段时序融合特征之后，可以对多个片段时序融合特征执行求平均操作，得到平均特征。如将多个片段时序融合特征中每一个片段时序融合特征在时间维度上进行池化操作，得到池化后的池化特征；将多个池化特征求平均确定出的特征作为平均特征。

例如，每一个片段时序融合特征在时间上进行池化，得到池化后的特征。池化后的特征进行求平均，得到平均特征。将平均特征作为目标视频的视频特征，对视频特征进行识别，从而确定出目标视频的目标类型。

可选地，本实施例中，可以使用目标神经网络模型来对聚类后的视频片段提取片段时序融合特征，以及根据各个视频片段各自对应的片段时序融合特征确定目标视频的视频特征和对目标视频的视频特征进行识别，得到目标类型。本实施例中的目标神经网络模型可以为预先训练的模型。训练时，可以获取样本视频，其中，样本视频被标注有样本类型；将样本视频输入到目标神经网络模型中，得到目标神经网络模型输出的样本视频的预估类型；在预估类型和样本类型不同的情况下，调整目标神经网络模型的特征提取层的第一参数和全连接层的第二参数。

例如，样本视频可以为被标注有样本类型的视频。如1个样本视频，被标注有喜剧类型。该样本视频先经过上述的获取图像特征和聚类得到多个视频片段的步骤，然后，使用目标神经网络模型获取该样本视频的每一个视频片段的片段时序融合特征，以及根据片段时序融合特征确定出样本视频的视频特征，最后识别出样本视频的预估类型。如果预估类型和样本类型不同，说明目标神经网络模型识别的结果是不准确的。可以调整目标神经网络模型的第一参数和第二参数。本实施例中，特征提取层可以为卷积层，负责提取特征和计算，全连接层负责对特征进行识别。

作为另一种可选的方式，还可以根据目标神经网络模型的识别准确度确定是否调整第一参数和第二参数。例如，对于一批样本视频，如100个样本视频，每一个样本视频均被标注有类型。将100个样本视频中，每一个样本视频经过上述的获取图像特征和聚类得到多个视频片段的步骤，然后，使用目标神经网络模型获取该样本视频的每一个视频片段的片段时序融合特征，以及根据片段时序融合特征确定出样本视频的视频特征，最后识别出样本视频的预估类型，将预估类型和样本视频的标签进行比对，可以查看100个样本视频中，有多少样本视频的识别结果是准确的，有多少样本视频的识别结果不准确。确定出识别准确度，如90个样本视频识别准确，识别准确度为90％。

本实施例中，可以并不在每识别一个样本视频之后，就调整第一参数和第二参数，可以识别一批样本视频，根据一批样本视频的识别结果确定是否调整第一参数和第二参数。在此过程中，如果识别准确度小于了预定值，如上述的90％，则认为识别不准确，需要调整第一参数和第二参数。当然，也可以比对识别每一批样本视频的识别准确度，如果识别准确度在上升，即使没有达到90％，也可以暂不调整第一参数和第二参数，可以在识别样本视频的识别准确度不再增加的情况下，再调整第一参数和第二参数。例如，识别几批样本视频，识别准确度分别为50％、60％和70％，识别准确度在增加，因此，可以不调整第一参数和第二参数。如果识别准确度不再增加，如识别准确度为50％、60％、59％，则调整第一参数与第二参数，或者识别准确度增加的幅度较低，例如增加幅度预设为5％，识别准确度为50％、60％、61％，则调整第一参数和第二参数。

本实施例中，可以在目标神经网络模型输入多个样本视频后，识别准确度低的情况下调整第一参数和第二参数，从而提高目标神经网络模型的识别准确度。

可选地，本实施例中还提供了一种训练目标神经网络模型的方法。如样本视频还被标注有关键帧的第一位置，本实施例中可以获取样本视频的每一个样本视频片段的样本片段时序融合特征；将每一个样本片段时序融合特征执行最大值池化操作，得到池化后的池化样本特征；将多个池化样本特征拼接为二维特征；由目标神经网络模型的全连接层对二维特征进行识别，得到样本视频的关键帧的预估位置；在预估位置和第一位置不同的情况下，调整第一参数和第二参数。

也就是说，本实施例中，不仅仅会根据目标神经网络模型输出的预估类型和样本类型进行比对从而调整第一参数和第二参数，还会给样本视频标注出关键帧的第一位置。样本视频输入到目标神经网络模型后，目标神经网络模型还会识别样本视频的关键帧的预估位置，如果第一位置和预估位置不一致，或者相似度小于第一阈值，则认为目标神经网络模型的识别结果不准确，此时可以调整上述第一参数和第二参数，直到目标神经网络模型的识别准确度高于要求的识别准确度。

在本实施例中，在标注关键帧的第一位置时，也可以确定标注第一位置的准确度，以及使用上述方法来确定是否调整第一参数和第二参数。

以下结合一个具体示例说明。

本实施例涉及到视频语义分类和特征图Feature map。

视频语义分类:指通过深度学习方法学习视频中的图片信息与时序信息，从而对视频进行分类/动作识别的一类算法。

Feature map:图像和滤波器进行卷积后得到的特征图。Feature map可以和滤波器进行卷积生成新的Feature map。

对于一个待识别目标类型的目标视频。在获取到目标视频后，先将该目标视频每一帧解析出来，随后使用直方图算法对目标视频的每一帧视频帧抽取图像特征。具体可以为首先将目标视频拆分成一系列视频帧，比如一分钟的视频按秒拆成60帧。对于每一帧视频帧，先计算视频帧的直方图，比如设置的直方图的参数bin为16，则一个视频帧可以得到16个灰度的像素数，16个值拉成一个向量，则一个视频帧对应一个16维直方图向量特征。该直方图向量特征即为视频帧的图像特征。一个目标视频里可以得到60个直方图特征，60个直方图特征直接用kmeans算法划分成k份，同一个视频片段类别的帧可能散落在不同时间段，同一类别中较少的小片段则直接归为就近时间的一类视频帧。最终一个目标视频可以得到k个视频片段。如图6中的K个片段。不同视频片段内的视频帧按照时间顺序排列。每个视频片段使用跨步截帧对输入的视频片段进行帧采样，将片段转化成固定数量的帧数，例如，60帧中，每20帧采样一次，得到3帧目标视频帧。每个视频片段的目标视频帧通过TSM算法得片段的片段时序融合特征。如图6中的特征1到特征K。所有视频片段的片段时序融合特征将在时间这个维度上进行平均池化，如每个片段的Featuremap尺寸为H*W*C*t(由于H和W方向的特征不参与TSM的特征转移，为了方便表示，图6中仅示出通道C以及时序t两个维度的特征)，每个片段在t维上进行池化后将得到尺寸为H*W*C的Featuremap，然后k个H*W*C的Featuremap再次求平均，得到尺寸H*W*C的Featuremap。该Featuremap通过全连接层即可进行分类，得到目标视频的目标类型。在识别目标类型后，可以根据反馈确定识别是否正确，从而确定是否要调整第一参数和第二参数。以及，通过关键片段训练进一步提高目标识别模型的识别准确度。

对于关键片段训练，目的为提高模型的识别准确度。对于一个样本视频，样本视频中的关键帧的起止时间段，也就是关键帧在样本视频中所在的第一位置是被标注的(样本视频的样本类型同样被标注)。样本视频在被输入到目标神经网络模型中之后，在被聚类为多个样本视频片段之后，针对每个样本视频片段，通过TSM可以得到尺寸为H*W*C*t的Featuremap(样本片段时序融合特征)。如图7所示。对于K个特征，对t维中每一个H*W*C尺寸Feature map求最大值池化，最终每个样本视频片段的Feature map转化为1*1*1*t的特征。每个片段的1*1*1*t特征可以认为是该片段在分类过程中的信息占比，1*1*1*t中的每一个值，将返回与对应通道(C这个维度)的H*W的Feature map进行点乘，达到提高样本视频片段的片段信息的注意力的效果。将k个片段的1*1*1*t特征按照时序拼接为K*t的二维特征，通过全连接层得到最终的决策特征向量也就是K*1的特征，得到关键帧的预估位置。具体可以为根据关键帧的标注计算关键帧标签。训练的时候，通过聚类预先将样本视频划分为k个样本视频片段，每个片段中，属于关键帧的视频帧数除以视频帧总数则为当前样本视频片段的关键帧标签；(2)对图7中得到的k*1特征使用sigmoid进行归一化，随后使用如下的mean-squared损失函数计算损失，并进行梯度反传，调整第一参数和第二参数。

其中Y_i，

分别表示标签label和预测的结果，n表示标签的类别数量。

在整体的训练过程中，仅对有关键帧标注的数据进行关键帧片段训练，在训练时，为了保证训练的有效性，每个训练集batch中都需要保证采集到关键帧标注视频。在该训练方式下，模型的语义分类预测受到关键片段训练的影响，提升了语义分类的正确性。同时，测试过程中再也不需要关键帧信息的介入，即可得到包含关键帧片段信息的分类结果。

上述视频分类方法可以根据视频时长进行信息采样，减少长视频的信息丢失，且能同时采集场景信息和时序信息，加强了对视频信息的把控，以及只需要少量关键帧标签数据即可让模型在学习语义分类时同时拥有对关键帧的感知，提升了语义分类效果。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述视频分类方法的视频分类装置。如图8所示，该装置包括：

第一获取单元802，用于在获取到待分类的目标视频的情况下，获取目标视频中每一帧视频帧的图像特征；

聚类单元804，用于根据各个视频帧的图像特征之间的特征距离，对目标视频中的所有视频帧进行聚类处理，以得到多个视频片段，其中，多个视频片段的每一个视频片段中包括多个有序视频帧；

第二获取单元806，用于获取多个视频片段中每个视频片段各自对应的片段时序融合特征，其中，片段时序融合特征为根据视频片段中的目标视频帧所确定的特征，目标视频帧为视频片段中的一部分视频帧；

确定单元808，用于根据各个视频片段各自对应的片段时序融合特征确定目标视频的视频特征；

识别单元810，用于对视频特征进行识别，得到目标视频的目标类型。

以将上述视频分类装置应用到终端中，应用到视频播放器为例，视频播放器在获取到个人媒体账号上传的视频之后，可以对视频进行识别。首先通过视频的每一帧视频帧的图像特征将目标视频聚类为多个视频片段，对于每一个视频片段确定出一个片段时序融合特征，将片段时序融合特征确定出视频的视频特征，最后识别视频特征确定出视频的类型。将视频打上对应类型的标签，则在用户侧搜索该标签的资源时，可以搜索到该视频。由于在上述视频分类过程中，考虑到了长视频不同场景下的内容，因此，上述方法提高了视频分类的准确度。

可选地，上述目标视频帧为视频片段中的一部分视频帧。可以将视频片段中每隔多帧截取一帧，将截取的视频帧作为目标视频帧。也可以按照先后顺序，从目标视频中随机抽取多帧作为目标视频帧。通过本实施例，通过上述方法，从而可以在识别视频类型时，考虑到目标视频中不用场景的内容，提高了识别视频类型的准确性。

根据本发明实施例的又一个方面，还提供了一种用于实施上述视频分类方法的电子设备，该电子设备可以是图9所示的终端设备或服务器。本实施例以该电子设备为终端为例来说明。如图9所示，该电子设备包括存储器902和处理器904，该存储器902中存储有计算机程序，该处理器904被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

在获取到待分类的目标视频的情况下，获取目标视频中每一帧视频帧的图像特征；

根据各个视频帧的图像特征之间的特征距离，对目标视频中的所有视频帧进行聚类处理，以得到多个视频片段，其中，多个视频片段的每一个视频片段中包括多个有序视频帧；

获取多个视频片段中每个视频片段各自对应的片段时序融合特征，其中，片段时序融合特征为根据视频片段中的目标视频帧所确定的特征，目标视频帧为视频片段中的一部分视频帧；

根据各个视频片段各自对应的片段时序融合特征确定目标视频的视频特征；

对视频特征进行识别，得到目标视频的目标类型。

可选地，本领域普通技术人员可以理解，图9所示的结构仅为示意，电子装置电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图9其并不对上述电子装置电子设备的结构造成限定。例如，电子装置电子设备还可包括比图9中所示更多或者更少的组件(如网络接口等)，或者具有与图9所示不同的配置。

其中，存储器902可用于存储软件程序以及模块，如本发明实施例中的视频分类方法和装置对应的程序指令/模块，处理器904通过运行存储在存储器902内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的视频分类方法。存储器902可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器902可进一步包括相对于处理器904远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器902具体可以但不限于用于存储目标视频等信息。作为一种示例，如图9所示，上述存储器902中可以但不限于包括上述视频分类装置中的第一获取单元802、聚类单元804、第二获取单元806、确定单元808和识别单元810。此外，还可以包括但不限于上述视频分类装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置906用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置906包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置906为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器908，用于显示目标视频的目标类型；和连接总线910，用于连接上述电子设备中的各个模块部件。

在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(P2P，Peer To Peer)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

根据本发明的实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：

对视频特征进行识别，得到目标视频的目标类型。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频分类方法，其特征在于，包括：

在获取到待分类的目标视频的情况下，获取所述目标视频中每一帧视频帧的图像特征；

根据各个视频帧的所述图像特征之间的特征距离，对所述目标视频中的所有视频帧进行聚类处理，以得到多个视频片段，其中，所述多个视频片段的每一个视频片段中包括多个有序视频帧；

获取所述多个视频片段中每个所述视频片段各自对应的片段时序融合特征，其中，所述片段时序融合特征为根据所述视频片段中的目标视频帧所确定的特征，所述目标视频帧为所述视频片段中的一部分视频帧；

根据各个所述视频片段各自对应的片段时序融合特征确定所述目标视频的视频特征；

对所述视频特征进行识别，得到所述目标视频的目标类型。

2.根据权利要求1所述的方法，其特征在于，所述在获取到待分类的目标视频的情况下，获取所述目标视频的每一帧视频帧的图像特征包括：

将所述目标视频的每一帧视频帧确定为当前视频帧，对所述当前视频帧执行如下操作：

获取多个目标灰度值，将每一个所述目标灰度值确定为当前灰度值，统计所述当前视频帧中，像素点的灰度值与所述当前灰度值相同的像素点的数量，得到第一数量，其中，在所述当前视频帧中，每一个所述目标灰度值对应一个所述第一数量；

将多个所述第一数量组成的序列确定为所述当前视频帧的所述图像特征。

3.根据权利要求1所述的方法，其特征在于，所述根据各个视频帧的所述图像特征之间的特征距离，对所述目标视频中的所有视频帧进行聚类处理，以得到多个视频片段包括：

确定多个目标特征；

将所述目标视频的每一个所述图像特征作为当前特征，对所述当前特征执行如下操作，得到所述多个视频片段：确定所述当前特征与所述多个目标特征中，每一个所述目标特征的特征距离，将所述特征距离中的最小值对应的第一目标特征与所述当前特征确定为一组特征中的两个特征；

在遍历所述目标视频的每一个所述图像特征之后，将同一组特征中的所述图像特征对应的视频帧确定为一个所述视频片段中的视频帧。

4.根据权利要求3所述的方法，其特征在于，所述确定多个目标特征包括：

确定多个初始特征；

对所述当前特征执行如下操作，得到多个第一距离：确定每一个所述当前特征与所述多个初始特征中的第一初始特征的第一距离，其中，所述第一初始特征为所述多个初始特征中，与所述当前特征距离最小的特征，每一个所述当前特征对应一个所述第一距离；

确定多个所述第一距离的和；

调整所述多个初始特征，得到重新确定的所述和；

将最小的所述和对应的所述多个初始特征确定为所述多个目标特征。

5.根据权利要求1所述的方法，其特征在于，所述根据各个所述视频片段各自对应的片段时序融合特征确定所述目标视频的视频特征包括：

获取每一个所述视频片段的所述片段时序融合特征；

对多个所述片段时序融合特征执行求平均操作，得到平均特征；将所述平均特征作为所述视频特征。

6.根据权利要求5所述的方法，其特征在于，所述获取每一个所述视频片段的所述片段时序融合特征包括：

将每一个所述视频片段作为当前片段，对所述当前片段执行如下操作：

确定所述当前片段中的每一个所述目标视频帧的目标帧特征；

将每一个所述目标帧特征确定为当前帧特征，对所述当前帧特征执行如下操作：使用第一帧特征中的第一部分的特征替换所述当前帧特征中所述第一部分的特征并使用第二帧特征中第二部分的特征替换所述当前帧特征中所述第二部分的特征，其中，所述第一帧特征为所述目标视频帧中，所述当前帧特征所在的视频帧的前一帧视频帧的帧特征，所述第二帧特征为所述目标视频帧中，所述当前帧特征所在的视频帧的后一帧视频帧的帧特征；

将处理后的每一个所述目标帧特征按照时间顺序融合为所述当前片段的所述片段时序融合特征。

7.根据权利要求5所述的方法，其特征在于，所述对多个所述片段时序融合特征执行求平均操作，得到平均特征包括：

将多个所述片段时序融合特征中每一个所述片段时序融合特征在时间维度上进行池化操作，得到池化后的池化特征；

将多个所述池化特征求平均确定出的特征作为所述平均特征。

8.根据权利要求1所述的方法，其特征在于，

所述获取所述多个视频片段中每个所述视频片段各自对应的片段时序融合特征包括：使用目标神经网络模型的特征提取层提取所述片段时序融合特征；

所述对所述视频特征进行识别，得到所述目标视频的目标类型包括：使用所述目标神经网络模型的全连接层对所述视频特征进行识别，得到所述目标类型。

9.根据权利要求8所述的方法，其特征在于，在使用所述目标神经网络模型的所述特征提取层提取所述片段时序融合特征之前，所述方法还包括：

获取样本视频，其中，所述样本视频被标注有样本类型；

将所述样本视频输入到所述目标神经网络模型中，得到所述目标神经网络模型输出的所述样本视频的预估类型；

在所述预估类型和所述样本类型不同的情况下，调整所述目标神经网络模型的所述特征提取层的第一参数和所述全连接层的第二参数。

10.根据权利要求9所述的方法，其特征在于，所述样本视频还被标注有关键帧的第一位置，所述将所述样本视频输入到所述目标神经网络模型中，得到所述目标神经网络模型输出的所述样本视频的视频类型时，所述方法还包括：

获取所述样本视频的每一个样本视频片段的样本片段时序融合特征；

将每一个所述样本片段时序融合特征执行最大值池化操作，得到池化后的池化样本特征；

将多个所述池化样本特征拼接为二维特征；

由所述目标神经网络模型的所述全连接层对所述二维特征进行识别，得到所述样本视频的所述关键帧的预估位置；

在所述预估位置和所述第一位置不同的情况下，调整所述第一参数和所述第二参数。

11.一种视频分类装置，其特征在于，包括：

第一获取单元，用于在获取到待分类的目标视频的情况下，获取所述目标视频中每一帧视频帧的图像特征；

聚类单元，用于根据各个视频帧的所述图像特征之间的特征距离，对所述目标视频中的所有视频帧进行聚类处理，以得到多个视频片段，其中，所述多个视频片段的每一个视频片段中包括多个有序视频帧；

第二获取单元，用于获取所述多个视频片段中每个所述视频片段各自对应的片段时序融合特征，其中，所述片段时序融合特征为根据所述视频片段中的目标视频帧所确定的特征，所述目标视频帧为所述视频片段中的一部分视频帧；

确定单元，用于根据各个所述视频片段各自对应的片段时序融合特征确定所述目标视频的视频特征；

识别单元，用于对所述视频特征进行识别，得到所述目标视频的目标类型。

12.一种计算机可读的存储介质，所述计算机可读的存储介质存储有计算机程序，其特征在于，所述计算机程序运行时执行所述权利要求1至10任一项中所述的方法。

13.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至10任一项中所述的方法。