CN112016521A

CN112016521A - 视频处理的方法及装置

Info

Publication number: CN112016521A
Application number: CN202010969723.8A
Authority: CN
Inventors: 唐勇平; 李瑞锋
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-09-15
Filing date: 2020-09-15
Publication date: 2020-12-01

Abstract

本申请公开了一种视频处理的方法及装置，涉及视频分析技术领域。具体实现方案为：在第一视频中提取至少一张图像和至少一段音频。将至少一张图像与样本图像进行匹配处理，以确定至少一张图像对应的第一匹配视频。将至少一段音频与样本音频进行匹配处理，以确定至少一段音频对应的第二匹配视频。根据至少一张图像对应的第一匹配视频和至少一段音频对应的第二匹配视频，确定第一视频的视频类型。通过分别确定匹配的第一匹配视频和第二匹配视频，之后根据第一匹配视频和第二匹配视频确定第一视频的视频类型，以实现从图像和音频两个维度确定与第一视频匹配的视频，从而可以有效提升确定视频类型的效率和准确率。

Description

视频处理的方法及装置

技术领域

本申请涉及数据处理中的视频分析技术领域，尤其涉及一种视频处理的方法及装置。

背景技术

随着互联网技术的快速发展，互联网中呈现的视频数量也随之快速增长，其中，对视频的类型进行识别就显得重要。

目前，现有技术在对视频的类型进行识别时，通常是将需要处理的视频提供给多个工作人员，之后工作人员会人工的对视频进行浏览和查阅，从而确定视频的类型。

然而，人工确定视频类型的实现方式，会导致对视频类型的识别的效率低下。

发明内容

本申请提供了一种用于视频处理的方法、装置、设备以及存储介质。

根据本申请的一方面，提供了一种视频处理的方法，包括：

在第一视频中提取至少一张图像和至少一段音频；

将所述至少一张图像与样本图像进行匹配处理，以确定所述至少一张图像对应的第一匹配视频；

将所述至少一段音频与样本音频进行匹配处理，以确定所述至少一段音频对应的第二匹配视频；

根据所述至少一张图像对应的第一匹配视频和所述至少一段音频对应的第二匹配视频，确定所述第一视频的视频类型。

根据本申请的另一方面，提供了一种视频处理的装置，包括：

提取模块，用于在第一视频中提取至少一张图像和至少一段音频；

处理模块，用于将所述至少一张图像与样本图像进行匹配处理，以确定所述至少一张图像对应的第一匹配视频；

所述处理模块，还用于将所述至少一段音频与样本音频进行匹配处理，以确定所述至少一段音频对应的第二匹配视频；

确定模块，用于根据所述至少一张图像对应的第一匹配视频和所述至少一段音频对应的第二匹配视频，确定所述第一视频的视频类型。

根据本申请的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上一方面所述的方法。

根据本申请的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行如上一方面所述的方法。

根据本申请的技术提高了确定的视频类型的效率和准确率。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请实施例提供的视频类型的一种示意图；

图2为本申请实施例提供的视频类型的另一种示意图；

图3为本申请实施例提供的视频处理的方法的流程图；

图4为本申请实施例提供的提取视频的示意图；

图5为本申请实施例提供的提取音频的示意图；

图6为本申请另一实施例提供的视频处理的方法的流程图；

图7为本申请实施例提供的特征向量的空间示意图；

图8为本申请实施例提供的各图像对应的样本视频的示意图；

图9为本申请又一实施例提供的视频处理的方法的流程图；

图10为本申请再一实施例提供的视频处理的方法的流程图；

图11为本申请实施例提供的确定视频类型的示意图；

图12为本申请实施例提供的对样本视频的处理流程图；

图13为本申请实施例提供的对第一视频的处理流程图；

图14为本申请实施例的视频处理的装置的结构示意图；

图15是用来实现本申请实施例的视频处理的方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

为了更好的理解本申请的技术方案，下面对本申请所涉及的相关概念进行介绍：

FFmpeg：FFmpeg是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序。

下面结合图1和图2对本申请所涉及的背景技术进行进一步的详细介绍，图1为本申请实施例提供的视频类型的一种示意图，图2为本申请实施例提供的视频类型的另一种示意图。

目前，随着互联网中的视频类网站和视频类APP的高速发展，在互联网中所呈现的数量也表现出了爆发式的增长。

在一种可能的实现方式中，互联网中呈现的视频中可能包括一些违规视频，其中，违规视频例如可以为涉及版权的视频、暴力、恐怖的视频、涉及政治的视频等，根据相关规定，在视频类网站或者视频类APP中不能出现违规视频，因此对违规视频的识别就显得尤为重要，在当前的实现方式下，视频的类型例如可以为违规视频或者合规视频。

如图1所示，假设当前视频A中呈现有暴力的画面，则可以确定当前的视频A为暴力视频，该视频A的类型例如可以为违规视频。

在另一种可能的实现方式中，互联网在对视频进行呈现时，可能需要对视频进行分类显示，当前视频的分类例如可以为爱情片、警匪片、悬疑片等，在当前的实现方式下，对视频的类型进行识别之后，可以快速有效的实现对视频进行分类显示。

如图2所示，假设当前视频A中呈现有展现爱情的画面，则可以确定当前的视频A为爱情视频，该视频A的类型例如可以为爱情片。

目前，现有的相关技术在对视频类型进行识别时，在一种可能的实现方式中，可以由人工对视频的类型进行识别和审核，然而，人工审核的实现方式存在效率低下的问题，并且还可能出现误检和漏检的情况，从而导致视频类型的识别的准确率不高。

在另一种可能的实现方式中，还可以使用信息摘要算法(Message-DigestAlgorithm，MD5)得到视频文件的字符串序列号，如果两个视频的MD5字符串序列号相同，那么认为是相同视频，基于当前的实现方式，从而可以根据当前待识别视频的MD5字符串序列号和已知视频类型的MD5字符串序列号进行比较，从而确定当前视频的类型。

然而，当前的实现方式下，若视频文件经过相关的处理之后，比如说剪辑、拼接、旋转、植入广告、弹幕、修改分辨率/帧率/码率等处理，视频文件的MD5字符串序列号会发生改变，那么可能当前视频A和已知是违规视频的视频B，实际上是一个视频，但是因为视频A进行了相关的处理，因此无法检测到视频A和视频B是同一视频，可能就会确定视频A是一个合规视频，从而导致视频类型识别的准确率较低，并且局限性很大。

在再一种可能的实现方式中，还可以通过对比两个视频中的若干张图片帧的核心特征，其中，图片帧的核心特征例如可以包括：结构相似度(Structural SIMilarity，SSIM)值、图像局部纹理特征、梯度或边缘的方向密度分布特征、不同的尺度空间上特征点等，在确定两个视频的核心特征值的匹配度大于预设阈值的图片数量大于预设数量的时候，可以确定两个视频为相似视频。

然而，在实际场景中，内容相同的视频往往存在多个版本，因此使用视频的结构相似度确定是否为相似视频的时候，在对视频进行相关的处理之后，在识别的过程中识别鲁棒性较差，无法快速准确的识别是否为相似视频，从而导致视频类型的确定的效率和准确率较低。

针对现有技术中的问题，本申请提供一种视频处理的方法，应用于数据处理领域中的视频分析技术，以达到提升视频类型的确定的准确率和效率。

下面结合具体的实施例对本申请提供的视频处理的方法进行介绍，需要说明的是，本申请中各实施例的执行主体例如可以为服务器、处理器、微处理器等具备数据处理功能的设备，在实际实现过程中，具体的执行主体可以根据实际需求进行选择，只要其可以进行数据处理即可。

图3为本申请实施例提供的视频处理的方法的流程图，图4为本申请实施例提供的提取视频的示意图，图5为本申请实施例提供的提取音频的示意图。

如图3所示，该方法包括：

S301、在第一视频中提取至少一张图像和至少一段音频。

在本实施例中，第一视频为需要确定视频类型的视频，其可以理解为待处理视频，在实际实现过程中，凡是需要进行视频类别的识别的视频均可以作为本实施例中的第一视频，本实施例对第一视频的内容、长度、格式等均不做特别限制。

其中，视频中通常包括图像和音频，当前需要对第一视频进行识别，则可以从第一视频中提取图像和音频。

首先对从第一视频中提取图像的实现方式进行介绍：

在一种可能的实现方式中，在从第一视频中提取图像时，例如可以从第一视频中平均的进行图像的提取，从而得到至少一张图片。

例如参见图4，假设当前第一视频为一个10秒的视频，则可以从该第一视频中平均的提取图片，从而提取得到图4所示的16张图片，在实现过程中，例如可以首先设置提取的图片的数量(比如说16)，从而可以将第一视频的时间均分为16等份，在16等份的每一个位置提取关键帧，从而得到16张图片；或者，还可以首先设置提取的图片的间隔时长，例如可以设置每间隔X秒就提取一张关键帧，其中X可以为大于等于0的数，从而得到至少一张图像，在实际实现过程中，平均进行提取的实现方式可以根据实际需求进行选择，通过在第一视频中平均的进行图像的提取，可以有效保证对视频进行识别时，提取的图片的有效性和广泛性。

在另一种可能的实现方式中，还例如可以随机的在第一视频中获取至少一个关键帧，从而提取至少一张图像；或者还可以在第一视频中节选某个视频片段，将该视频片段中所包括的关键帧或者图像帧作为提取的至少一张图像，本实施例对提取至少一张图像的具体实现方式不做特别限制，其可以根据实际需求进行选择。

在从第一视频中提取图像的实现过程中，在一种可能的实现方式中，例如可以利用FFmpeg从第一视频中提取各个时间点若干秒的关键帧，以提取至少一张图像。

其次对从第一视频中提取音频的实现方式进行介绍：

在一种可能的实现方式中，在从第一视频中提取音频时，例如可以从第一视频中平均的进行音频的提取，从而得到至少一段音频。

例如参见图5，假设当前第一视频为一个10秒的视频，则可以从该第一视频中平均的提取音频，从而提取得到图5所示的5段图片，其中平均提取音频的实现方式与上述介绍的平均提取图片的实现方式类似，以及在提取音频的过程中，提取的每段音频的长度可以是相同的，在一种可能的实现方式中，例如每段音频的长度可以为40ms，其中40ms可以作为一个音频帧，或者每段音频的长度还可以根据实际需求进行选择，本实施例对此不做特别限制。

在另一种可能的实现方式中，还例如可以随机的在第一视频中获取至少一段音频；或者还可以在第一视频中节选某个音频片段，将该音频片段进行分段，从而得到至少一个音频，本实施例对提取至少一张音频的具体实现方式不做特别限制，其可以根据实际需求进行选择。

在从第一视频中提取音频的实现过程中，在一种可能的实现方式中，例如可以利用FFmpeg从第一视频中提取各个时间段固定长度的音频，以提取至少一段音频。

S302、将至少一张图像与样本图像进行匹配处理，以确定至少一张图像对应的第一匹配视频。

在本实施例中，样本图像为样本视频中的图像，可以理解的是，一个样本视频中包括多个样本图片，本实施例中存在多个样本视频，则可以存在多个样本图片，例如可以为一个样本图像库。

其中，样本视频为已经确定了视频类型的视频。

例如当前视频类型可以分为违规视频和合规视频，则样本视频例如可以包括多个违规视频，当第一视频和任一个样本视频匹配成功时，可以确定第一视频的类型为违规视频；或者当第一视频和各个样本视频均匹配不成功的时候，可以确定第一视频的类型为合规视频。

或者，例如当前视频类型为爱情片、警匪片、动作片等时，则样本视频可以包括多个标识有视频类型的视频，则在确定第一视频和某一个样本视频匹配成功时，可以确定第一视频的视频类型为当前匹配到的视频的视频类型。

当前从第一视频中提取了至少一张图像，可以将各张图像和样本图像分别进行匹配处理，从而确定各个图像各自匹配的样本图像，并且根据各自匹配的样本图像所属的样本视频，确定至少一个图像所对应的第一匹配视频，可以理解的是，至少一个图像所对应的第一匹配视频可以为样本视频中的一个视频，或者还可以为样本视频中的多个视频。

此处进行举例说明，假设当前从第一视频中提取了3张图像，分别为图像1、图像2、图像3，其中图像1和样本图像进行匹配，例如确定图像1匹配了1个样本图像，该样本图像属于样本视频A，则可以确定图像1对应样本视频A，同时，还例如可以确定图像2对应样本视频B，图像3对应样本视频A。

在一种可能的实现方式中，例如可以将各个样本视频所对应的图像张数中，大于预设张数的样本视频确定为至少一个图像所对应的第一匹配视频，例如设置有预设张数为1，则当前可以将样本视频A确定为第一匹配视频。

或者，还例如可以将各个样本视频所对应的图像张数中，张数最大的样本视频确定为至少一个图像所对应的第一匹配视频，例如基于上述示例，当前样本视频A对应两张图像，样本视频B对应一张图像，则当前可以将样本视频A确定为第一匹配视频。

在本实施例中，至少一个图像所对应的第一匹配视频是根据实际的匹配处理和确定策略得到的，本实施例对此不做特别限制。

S303、将至少一段音频与样本音频进行匹配处理，以确定至少一段音频对应的第二匹配视频。

在本实施例中，样本音频为样本视频中的音频，可以理解的是，一个样本视频中包括多个样本音频，本实施例中存在多个样本视频，则可以存在多个样本音频，例如可以为一个样本音频库。

其中，样本视频与上述介绍的类似，此处不再赘述。

当前从第一视频中提取了至少一段音频，可以将各段音频和样本音频分别进行匹配处理，从而确定各段音频各自对应的样本音频，并且根据各自对应的样本音频所属的样本视频，确定至少一段音频对应的第二匹配视频，可以理解的是，至少一段音频对应的第二匹配视频可以为样本视频中的一个视频，或者还可以为样本视频中的多个视频。

其中确定至少一段音频对应的第二匹配视频的实现方式与上述介绍的类似，不同之处在于，上述是针对图像，此处是针对音频，其具体的实现方式可以示例介绍可以参照上述介绍的内容进行理解。

在本实施例中，各段音频所对应的第二匹配视频是根据实际的匹配处理确定的，本实施例对此不做特别限制。

S304、根据至少一张图像对应的第一匹配视频和至少一段音频对应的第二匹配视频，确定第一视频的视频类型。

在本实施例中，从图像层面确定了至少一张图像对应的第一匹配视频，以及从音频层面确定了至少一段音频对应的第二匹配视频，为了提升确定的视频类型的准确率，本实施例中可以根据第一匹配视频和第二匹配视频，确定第一视频的视频类型。

在一种可能的实现方式中，可以取第一匹配视频和第二匹配视频的交集，并将该交集对应的视频的视频类型确定为第一视频的视频类型，比如说当前需要识别第一视频是否为非法视频，以及样本视频中包括多个非法视频，则在取交集之后的视频不为空的时候，就可以确定第一视频的视频类型是违规视频，否则，可以确定第一视频的视频类型是合规视频。

再例如，当前需要识别第一视频的视频类型具体是爱情片、警匪片等哪一个分类，则例如可以根据第一视频和第二视频的交集所对应的视频的视频类型，确定第一视频的视频类型，例如取交集后的视频是一个爱情片，则可以确定第一视频为一个爱情片。

在另一种可能的实现方式中，可以理解的是，每个图像均对应有至少一个第一匹配视频，以及每段音频都对应有至少一个第二匹配视频，则当前存在多个第一匹配视频和多个第二匹配视频，则可以根据第一匹配视频和第二匹配视频，确定各个样本视频出现的次数，并将出现次数大于预设阈值的几个视频作为备选视频，并将备选视频中最多的一个视频类型确定为第一视频的视频类型。

本实施例中对确定第一视频的视频类型的实现方式不做特别限制，其可以根据实际需求进行选择，只要其是根据第一匹配视频和第二匹配视频确定的即可。

本申请实施例提供的视频处理的方法，包括：在第一视频中提取至少一张图像和至少一段音频。将至少一张图像与样本图像进行匹配处理，以确定至少一张图像对应的第一匹配视频。将至少一段音频与样本音频进行匹配处理，以确定至少一段音频对应的第二匹配视频。根据至少一张图像对应的第一匹配视频和至少一段音频对应的第二匹配视频，确定第一视频的视频类型。通过从第一视频中提取图像和音频，并且根据图像和音频，分别确定匹配的第一匹配视频和第二匹配视频，之后根据第一匹配视频和第二匹配视频确定第一视频的视频类型，以实现从图像和音频两个维度确定与第一视频匹配的视频，之后再确定第一视频的视频类型，从而可以有效提升确定视频类型的效率和准确率。

在上述实施例的基础上，下面结合具体的实施例，分别对图像和音频两个方面的匹配处理，从而确定匹配视频的实现方式进行介绍。

首先结合图6至图8对图像的匹配处理进行介绍，图6为本申请另一实施例提供的视频处理的方法的流程图，图7为本申请实施例提供的特征向量的空间示意图，图8为本申请实施例提供的各图像对应的样本视频的示意图。

如图6所示，该方法包括：

S601、通过第一模型对至少一张图像进行处理，得到至少一张图像的特征向量。

在本实施例中，在进行至少一张图像的匹配的时候，可以根据图像的特征向量进行匹配，需要说明的是，若对视频进行了相关处理，比如说剪辑、拼接、旋转、植入广告、弹幕、修改分辨率/帧率/码率等处理，图像的特征向量是不会发生变化的，因此根据特征向量进行匹配可以有效保证确定的第一视频的视频类型的准确率和有效性。

在本实施例中，第一模型为得到图像的特征向量的模型，在一种可能的实现方式中，第一模型例如可以为神经网络模型(Convolutional Neural Network，CNN)，或者第一模型还可以为任意的可以得到图像的特征向量的模型，本实施例对第一模型的具体实现方式不做特别限制。

其中，第一模型为对多组训练数据学习得到的，每组训练数据包括训练图像和在训练图像中提取的训练特征向量，通过根据训练数据进行学习，可以有效保证第一模型输出的图像的特征向量的准确性。

S602、将每张图像的特征向量与样本图像向量库中的样本图像的特征向量进行匹配处理，以在样本图像向量库中确定每张图像对应的目标特征向量，其中，每张图像对应的目标特征向量与该张图像的特征向量的相似度大于或等于第一阈值。

在本实施例中，在对图像进行匹配处理时，需要根据特征向量进行匹配，因此可以预先对各个样本图像进行处理，以得到各个样本图像的特征向量，其中得到样本图像的特征向量的实现方式与上述介绍的类似，例如可以通过第一模型对各个样本图像进行处理，从而得到各个样本图片的特征向量。

在本实施例的一种可能的实现方式中，例如可以对每一个样本视频，获取样本视频每秒的关键帧，从而得到当前样本视频的多个样本图片，针对每一个样本图片进行处理，得到各个样本图片的特征向量，则每一个样本视频所对应的样本图片的特征向量，就可以构成一个图片样本库，样本图像向量库中就包括个多个样本图片的特征向量。

因此本实施例中可以根据每张图像的特征向量和样本图像向量库中的各个样本图像特征向量进行匹配，将于图像的特征向量的相似度大于或等于第一阈值的样本图像特征向量，确定为当前图像所对应的目标特征向量，从而确定每张图像所对应的目标特征向量。

可以理解的是，确定两个特征向量的相似度，实际上也就是计算两个特征向量之间的距离，其中计算图片的特征向量和样本图片的特征向量的相似度时，例如可以计算欧几里得距离，或者还可以计算曼哈顿距离，或者还可以计算皮尔逊相关系数等，本实施例对计算特征向量的相似度的具体实现方式不做特别限制，其可以根据实际需求进行选择。

在一种可能的实现方式中，可以理解的是，在图片样本库中存在大量的样本图像的特征向量，若和每一个样本图片的特征向量都计算相似度，则会导致计算的工作非常大。

而每个向量在空间中都对应各自的位置，也可理解为对应空间点，则在本实施例的一种可能的实现方式中，在计算相似度的时候，可以确定当前图像的特征向量的空间位置，并且和其邻近的样本图片的特征向量计算相似度，从而能够有效减少计算的工作量。

以样本图片特征向量是3维向量为例，对特征向量的空间点进行介绍，例如参见图7，假设当前的样本图片特征向量是3维向量，则每一个样本图片特征向量在图7所示的三维空间中对应各自的位置，本实施例中例如可以将三维空间进行划分，得到多个子空间，其中一个子空间可以作为一个类型，例如对于子空间701，例如其类型为a，则在该子空间701中的各个空间点对应的样本图片的特征向量的类型也就是a，其中，每个样本图片的特征向量在存储时可以包括各自对应的类型。

在确定样本图片的特征向量对应的类型之后，在之后进特征向量的相似度比较的时候，就可以仅仅比较类型相同的特征向量，从而有效降低了计算的工作量。

上述图7是结合三维空间进行的介绍，在实际实现过程中，特征向量可以具有更高的维度，例如64维、或者256维等，其实现的方式与上述介绍的是类似的，可以理解的是，特征向量中各个维度的数据均可以指示图片的某个特征，因此在空间中位置相近的特征向量所对应的样本图片也是类似的，因此当前介绍的类型除了可以标识特征向量的空间位置之外，其实同时也可以反映特征向量对应的样本图片的类型，比如说涉及暴力的视频可能存储在同一个区域，涉及血腥的视频可能存储在同一个区域。

基于上述介绍的内容，在确定每张图像对应的目标特征向量的一种可能的实现方式中，例如可以根据第一图像的特征向量的类型，在样本图像向量库中确定第一特征向量集合，其中，第一特征向量集合中的特征向量的类型与第一图像的特征向量的类型相同。

其中，类型即为上述介绍的可以指示空间位置的类型，比如说确定当前第一图像在空间中的位置对应的是类型a，则可以在样本图像向量库中确定所有类型a的样本图片的特征向量，得到第一特征向量集合。

之后将第一图像的特征向量与第一特征向量集合中的特征向量进行匹配处理，以确定目标特征向量。

其中匹配处理与上述介绍的类似，可以为确定特征向量的相似度，从而得到目标特征向量。

在本实施例中，通过根据第一图像的类别，首先确定了空间位置相近的第一特征向量集合，从而可以有效缩减进行匹配处理的样本图像的特征向量的范围，之后仅根据第一特征向量集合和第一图片的特征向量进行匹配，从而可以极大的减少计算的工作量，从而节省系统资源。

S603、获取每个目标特征向量对应的样本视频。

在本实施例中，相似度大于或等于第一阈值的样本图像的特征向量可能存在一个或多个，对应的，每张图像所对应的目标特征向量可能存在一个或多个。

其中，每个目标特征向量都对应各自的样本视频，在一种可能的实现方式中，图片样本库中的各个样本视频特征向量，与各自所对应的样本视频A之间具有关联关系，比如说样本视频A的所有样本图片特征向量，都可以包括样本视频A的标识。

则可以通过每个目标特征向量所对应的样本视频A的标识，获取每个目标特征向量所对应的样本视频。

S604、根据每个目标特征向量对应的样本视频，确定至少一张图像对应的第一匹配视频。

基于上述可以确定的是，每个图像可以对应一个或多个目标特征向量，也就是说可以对应多个样本视频，则可以根据多个样本视频确定第一匹配视频。

下面结合图8对确定第一匹配视频的实现方式进行介绍：

如图8所示，假设当前存在3张图像，分别是图像1、图像2、图像3，以及假设图像1所匹配的目标特征向量包括特征向量α、特征向量β、特征向量γ，其中，特征向量α对应样本视频A，特征向量β对应样本视频A，特征向量γ对应样本视频B，以及图像2和图像3的对应关系参见图8。

则当前确定了每个图像所对应的至少一个样本视频，在一种可能的实现方式中，例如可以统计出现的每个样本视频对应的图像张数，将对应的图像张数大于预设张数的样本视频确定为第一匹配视频。

例如结合图8可以得到，样本视频A对应3张图像(1、2、3)，样本视频B对应2张图像(1、3)，样本视频C对应1张图像(2)，以及假设预设张数为1，则可以确定第一匹配视频为样本视频A和样本视频B。

在当前的实现方式下，还可以理解为，当前共有M个图像，在其中的N个图像中都对应有某个样本视频，则可以将该样本视频确定为第一匹配视频，其中M为提取的图像的个数，N为预设个数。

或者，还可以统计出现的每个样本视频对应的图像张数，将对应的图像张数最大的样本视频确定为第一匹配视频，本实施例对确定第一匹配视频的具体实现方式不做限制，其可以根据实际需求进行选择。

通过上述介绍的各种方式根据每个目标特征向量对应的样本视频，确定第一匹配视频，能够有效保证确定的第一匹配视频的相似性和关联性。

本申请实施例提供的视频处理的方法，包括：通过第一模型对至少一张图像进行处理，得到至少一张图像的特征向量。将每张图像的特征向量与样本图像向量库中的样本图像的特征向量进行匹配处理，以在样本图像向量库中确定每张图像对应的目标特征向量，其中，每图像对应的目标特征向量与该张图像的特征向量的相似度大于或等于第一阈值。获取每个目标特征向量对应的样本视频。根据每个目标特征向量对应的样本视频，确定至少一张图像对应的第一匹配视频。通过根据图片的特征向量进行匹配处理，以得到至少一个图片对应的第一匹配视频，从而能够有效避免视频处理后相似性的检测准确率不高的问题，有效提升了确定的第一视频的视频类型的准确率和有效性；以及，通过根据每个目标特征向量对应的样本视频，确定第一匹配视频，能够有效保证确定的第一匹配视频的相似性和关联性；同时，在进行匹配处理的过程中，可以首先确定第一特征向量集合，从而能够缩减匹配范围，有效减少计算的工作量，以提升处理速度。

在上述实施例的基础上，下面接着结合图9对音频的匹配处理进行介绍，图9为本申请又一实施例提供的视频处理的方法的流程图。

如图9所示，该方法包括：

S901、通过第二模型对至少一段音频进行处理，得到至少一段音频的特征向量。

其中，第二模型为对多组第二训练数据学习得到的，每组第二训练数据包括训练音频和在训练音频中提取的训练特征向量。

S902、将每段音频的特征向量与样本音频向量库中的样本音频的特征向量进行匹配处理，以在样本音频向量库中确定每段音频对应的目标特征向量，其中，每段音频对应的目标特征向量与该段音频的特征向量的相似度大于或等于第一阈值。

S903、获取每个目标特征向量对应的样本视频。

S904、根据每个目标特征向量对应的样本视频，确定至少一段音频对应的第二匹配视频。

在本实施例中，各种可能的实现方式均与上述介绍的图像的实现方式类似，不同支持在于，上述是针对图像进行的处理，当前实施例是针对音频进行的处理。

另外，本实施例中，是通过第二模型对至少一段音频进行处理，从而得到音频的特征向量，在一种可能的实现方式中，第二模型例如可以为视觉几何组网络(VisualGeometry Group Network，VGGish)模型，或者，第二模型还可以为任意的用于得到音频的特征向量的模型。

音频的匹配处理的各种可能的实现方式以及有益效果，可以参照上述实施例中对图像处理的介绍，此处不再进行赘述。

在上述实施例的基础上，下面结合图10和图11对根据第一匹配视频和第二匹配视频，确定第一视频类型的可能的实现方式进行介绍，图10为本申请再一实施例提供的视频处理的方法的流程图，图11为本申请实施例提供的确定视频类型的示意图。

如图10所示，该方法包括：

S1001、获取第一匹配视频和第二匹配视频的交集，得到目标匹配视频。

在本实施例中，为了保证确定的视频类型的准确性，可以根据图片对应的第一匹配视频和音频对应的第二匹配视频，综合确定第一视频所对应的目标匹配视频。

例如可以参照图11进行理解，假设当前图片对应的第一匹配视频包括样本视频A和样本视频B，以及假设当前音频对应的第二匹配视频包括样本视频A、样本视频C和样本视频D，则取第一匹配视频和第二匹配视频的交集可以得到样本视频A，则可以确定与第一视频对应的目标匹配视频为样本视频A。

因为样本视频A同时满足了第一视频的图片的匹配以及第一视频的音频的匹配，因此将样本视频A确定为第一视频对应的目标匹配视频，可以有效保证目标匹配视频的相似性和匹配度。

S1002、将目标匹配视频的类型确定为第一视频的视频类型。

在确定目标匹配视频之后，可以将目标匹配视频的类型确定为第一视频的视频类型，例如当前目标匹配视频的类型是爱情片，则可以确定第一视频的视频类型为爱情片。

或者，样本视频中包括的是多个违规视频，则在确定交集中存在样本视频的时候，可以确定当前第一视频的视频类型是违规视频；在另一种可能的实现方式中，若第一匹配视频和第二匹配视频的交集为空，则表示当前不存在和第一视频相匹配的样本视频，则可以确定第一视频是合规视频。

本实施例中，通过取第一匹配视频和第二匹配视频的交集，根据交集的目标匹配视频的类型得到第一视频的类型，从而可以有效保证确定的视频类型的准确性。

在上述介绍的各实施例的基础上，下面以当前确定的视频类型具体是违规视频或者合规视频为例，结合一个具体的实施例对本申请提供的视频处理的方法进行介绍。

图12为本申请实施例提供的对样本视频的处理流程图，图13为本申请实施例提供的对第一视频的处理流程图。

在本实施例中，需要根据样本视频的图片特征向量和音频特征向量进行匹配，因此需要首先对样本视频进行特征向量的提取。

在一种可能的实现方式中，参见图12，例如可以利用FFmpeg抽取样本视频每秒的关键帧，从而得到多个样本图片，之后通过第一模型，例如神经网络模型(CNN)，获取每张样本图片的特征向量，再将各个样本图片特征向量存储到图片的相似向量检索库，从而得到样本图片向量库；

以及，例如还可以利用FFmpeg抽取样本视频的固定长度的音频，其中样本视频中提取的音频长度和第一视频中提取的音频长度例如可以相同，之后可以通过第二模型，例如VGGish模型，提取具有语义和有意义的样本音频的特征向量，再将各个样本音频的特征向量存储到音频的相似向量检索库，从而得到样本音频向量库。

在对样本视频处理完成之后，就可以基于样本图片向量库和样本音频向量库，对第一视频进行匹配了。

例如参见图13，例如可以利用FFmpeg抽取待检视频不同时间点若干秒的关键帧，从而得到至少一张图像，之后通过第一模型，例如神经网络模型(CNN)，得到每张图像的图像特征向量，接着根据每张图像的图像特征向量分别在样本图片向量库中检索和匹配，例如至少一张图片中，在与样本视频A的图片特征向量相似度大于预设值的张数达到预设张数时，则可以确定样本视频A和第一视频是图片相似的视频，则可以将样本视频A确定为第一匹配视频。

以及，还例如可以利用FFmpeg抽取待检视频不同时间点若干时间段固定长度的音频文件，之后通过第二模型，例如VGGish模型，得到各个音频的音频特征向量，然后在样本音频向量库中检索和匹配，例如至少一段音频中，在与样本视频A的音频特征向量相似度大于预设值的段数达到预设段数时，则可以确定样本视频A和第一视频是音频相似的视频，则可以将样本视频A确定为第二匹配视频。

之后可以根据第一匹配视频和第二匹配视频，得到第一视频对应的目标匹配视频，例如基于上述的介绍，样本视频A同时满足图片和音频的相似，则可以确定第一视频和样本视频A为相似视频，则可以确定第一视频的视频类型为样本视频A的视频类型，例如样本视频A是违规视频，则可以确定第一视频同样是违规视频。

在另一种可能的实现方式中，若确定第一视频不存在对应的目标匹配视频，则可以确定第一视频为合规视频。

综上所述，本申请提供的视频处理的方法，通过特征向量确定匹配的样本视频，从而根据匹配的样本视频的视频类型确定第一视频的视频类型，从而能够有效保证确定的视频类型的效率和准确性，同时，因为图片特征向量和音频特征向量不受视频处理的影响，因此本申请提供的视频处理的方法具有良好的鲁棒性。

图14为本申请实施例的视频处理的装置的结构示意图。如图14所示，本实施例的视频处理的装置140可以包括：提取模块1401、处理模块1402和确定模块1403。

提取模块1401，用于在第一视频中提取至少一张图像和至少一段音频；

处理模块1402，用于将所述至少一张图像与样本图像进行匹配处理，以确定所述至少一张图像对应的第一匹配视频；

所述处理模块1402，还用于将所述至少一段音频与样本音频进行匹配处理，以确定所述至少一段音频对应的第二匹配视频；

确定模块1403，用于根据所述至少一张图像对应的第一匹配视频和所述至少一段音频对应的第二匹配视频，确定所述第一视频的视频类型。

一种可能的实现方式中，所述处理模块1402具体用于：

获取所述至少一张图像的特征向量；

将所述至少一张图像的特征向量与样本图像向量库中的样本图像的特征向量进行匹配处理，以确定所述至少一张图像对应的第一匹配视频。

一种可能的实现方式中，所述处理模块1402具体用于：

将每张图像的特征向量与所述样本图像向量库中的样本图像的特征向量进行匹配处理，以在所述样本图像向量库中确定每张图像对应的目标特征向量，其中，每张图像对应的目标特征向量与该张图像的特征向量的相似度大于或等于第一阈值；

根据所述每张图像对应的目标特征向量，确定所述至少一张图像对应的第一匹配视频。

一种可能的实现方式中，所述处理模块1402具体用于：

获取每个目标特征向量对应的样本视频；

根据所述每个目标特征向量对应的样本视频，确定所述至少一张图像对应的第一匹配视频。

一种可能的实现方式中，针对至少一张图像中的任意一张第一图像；所述处理模块1402具体用于：

根据所述第一图像的特征向量的类型，在所述样本图像向量库中确定第一特征向量集合，所述第一特征向量集合中的特征向量的类型与所述第一图像的特征向量的类型相同；

将所述第一图像的特征向量与所述第一特征向量集合中的特征向量进行匹配处理，以确定所述目标特征向量。

一种可能的实现方式中，所述处理模块1402具体用于：

通过第一模型对所述至少一张图像进行处理，得到所述至少一张图像的特征向量；其中，所述第一模型为对多组第一训练数据学习得到的，每组第一训练数据包括训练图像和在所述训练图像中提取的训练特征向量。

一种可能的实现方式中，所述处理模块1402具体用于：

获取所述至少一段音频的特征向量；

将所述至少一段音频的特征向量与样本音频向量库中的样本音频的特征向量进行匹配处理，以确定所述至少一段音频对应的第二匹配视频。

一种可能的实现方式中，所述处理模块1402具体用于：

将每段音频的特征向量与所述样本音频向量库中的样本音频的特征向量进行匹配处理，以在所述样本音频向量库中确定每段音频对应的目标特征向量，其中，每段音频对应的目标特征向量与该段音频的特征向量的相似度大于或等于第一阈值；

根据所述每段音频对应的目标特征向量，确定所述至少一段音频对应的第二匹配视频。

一种可能的实现方式中，所述处理模块1402具体用于：

获取每个目标特征向量对应的样本视频；

根据所述每个目标特征向量对应的样本视频，确定所述至少一段音频对应的第二匹配视频。

一种可能的实现方式中，针对至少一段音频中的任意一张第一音频；所述处理模块1402具体用于：

根据所述第一音频的特征向量的类型，在所述样本音频向量库中确定第一特征向量集合，所述第一特征向量集合中的特征向量的类型与所述第一音频的特征向量的类型相同；

将所述第一音频的特征向量与所述第一特征向量集合中的特征向量进行匹配处理，以确定所述目标特征向量。

一种可能的实现方式中，所述处理模块1402具体用于：

通过第二模型对所述至少一段音频进行处理，得到所述至少一段音频的特征向量；其中，所述第二模型为对多组第二训练数据学习得到的，每组第二训练数据包括训练音频和在所述训练音频中提取的训练特征向量。

一种可能的实现方式中，所述确定模块1403具体用于：

获取所述第一匹配视频和第二匹配视频的交集，得到目标匹配视频；

将所述目标匹配视频的类型确定为所述第一视频的视频类型。

一种可能的实现方式中，所述样本图像为违规视频中的图像，所述样本音频为违规视频中的音频；

所述确定模块1403具体用于：

若所述第一匹配视频和所述第二匹配视频的交集为空，则确定所述第一视频的类型为合规视频。

本实施例提供的视频处理的装置，可用于执行上述任一方法实施例中的视频处理的方法，其实现原理和技术效果类似，此处不作赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质，图15是用来实现本申请实施例的视频处理的方法的电子设备的框图。

如图15所示，是根据本申请实施例的视频处理的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图15所示，该电子设备包括：一个或多个处理器1501、存储器1502，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图15中以一个处理器1501为例。

存储器1502即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的视频处理的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的视频处理的方法。

存储器1502作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的视频处理的方法对应的程序指令/模块(例如，附图14所示的提取模块1401、处理模块1402和确定模块1403)。处理器1501通过运行存储在存储器1502中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的视频处理的方法。

存储器1502可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据视频处理的电子设备的使用所创建的数据等。此外，存储器1502可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1502可选包括相对于处理器1501远程设置的存储器，这些远程存储器可以通过网络连接至视频处理的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

视频处理的方法的电子设备还可以包括：输入装置1503和输出装置1504。处理器1501、存储器1502、输入装置1503和输出装置1504可以通过总线或者其他方式连接，图15中以通过总线连接为例。

输入装置1503可接收输入的数字或字符信息，以及产生与视频处理的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1504可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算机程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算机程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，有效提升了确定的视频类型的效率和准确率。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种视频处理的方法，包括：

在第一视频中提取至少一张图像和至少一段音频；

2.根据权利要求1所述的方法，其中，将所述至少一张图像与样本图像进行匹配处理，以确定所述至少一张图像对应的第一匹配视频，包括：

获取所述至少一张图像的特征向量；

3.根据权利要求2所述的方法，其中，将所述至少一张图像的特征向量与样本图像向量库中的样本图像的特征向量进行匹配处理，以确定所述至少一张图像对应的第一匹配视频，包括：

4.根据权利要求3所述的方法，其中，根据所述每张图像对应的目标特征向量，确定所述至少一张图像对应的第一匹配视频，包括：

获取每个目标特征向量对应的样本视频；

5.根据权利要求3或4所述的方法，其中，针对至少一张图像中的任意一张第一图像；将所述第一图像的特征向量与样本图像向量库中的样本图像的特征向量进行匹配处理，以在所述样本图像向量库中确定所述第一图像对应的目标特征向量，包括：

6.根据权利要求2-5任一项所述的方法，其中，获取所述至少一张图像的特征向量，包括：

7.根据权利要求1-6任一项所述的方法，其中，将所述至少一段音频与样本音频进行匹配处理，以确定所述至少一段音频对应的第二匹配视频，包括：

获取所述至少一段音频的特征向量；

8.根据权利要求7所述的方法，其中，将所述至少一段音频的特征向量与样本音频向量库中的样本音频的特征向量进行匹配处理，以确定所述至少一段音频对应的第二匹配视频，包括：

9.根据权利要求8所述的方法，其中，根据所述每段音频对应的目标特征向量，确定所述至少一段音频对应的第二匹配视频，包括：

获取每个目标特征向量对应的样本视频；

10.根据权利要求8或9所述的方法，其中，针对至少一段音频中的任意一张第一音频；将所述第一音频的特征向量与样本音频向量库中的样本音频的特征向量进行匹配处理，以在所述样本音频向量库中确定所述第一音频对应的目标特征向量，包括：

11.根据权利要求7-10任一项所述的方法，其中，获取所述至少一段音频的特征向量，包括：

12.根据权利要求1-11任一项所述的方法，其中，根据所述至少一张图像对应的第一匹配视频和所述至少一段音频对应的第二匹配视频，确定所述第一视频的视频类型，包括：

13.根据权利要求1-12任一项所述的方法，其中，所述样本图像为违规视频中的图像，所述样本音频为违规视频中的音频；

根据所述至少一张图像对应的第一匹配视频和所述至少一段音频对应的第二匹配视频，确定所述第一视频的视频类型，包括：

14.一种视频处理的装置，包括：

15.根据权利要求14所述的装置，其中，所述处理模块具体用于：

获取所述至少一张图像的特征向量；

16.根据权利要求15所述的装置，其中，所述处理模块具体用于：

17.根据权利要求16所述的装置，其中，所述处理模块具体用于：

获取每个目标特征向量对应的样本视频；

18.根据权利要求16或17所述的装置，其中，针对至少一张图像中的任意一张第一图像；所述处理模块具体用于：

19.根据权利要求15-18任一项所述的装置，其中，所述处理模块具体用于：

20.根据权利要求14-19任一项所述的装置，其中，所述处理模块具体用于：

获取所述至少一段音频的特征向量；

21.根据权利要求20所述的装置，其中，所述处理模块具体用于：

22.根据权利要求21所述的装置，其中，所述处理模块具体用于：

获取每个目标特征向量对应的样本视频；

23.根据权利要求21或22所述的装置，其中，针对至少一段音频中的任意一张第一音频；所述处理模块具体用于：

24.根据权利要求20-23任一项所述的装置，其中，所述处理模块具体用于：

25.根据权利要求14-24任一项所述的装置，其中，所述确定模块具体用于：

26.根据权利要求14-25任一项所述的装置，其中，所述样本图像为违规视频中的图像，所述样本音频为违规视频中的音频；

所述确定模块具体用于：

27.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-13中任一项所述的方法。

28.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-13中任一项所述的方法。