CN111738769A

CN111738769A - 视频处理方法及装置

Info

Publication number: CN111738769A
Application number: CN202010589886.3A
Authority: CN
Inventors: 杨杰; 宋施恩; 杨根星; 金义彬; 卢海波
Original assignee: Hunan Happly Sunshine Interactive Entertainment Media Co Ltd
Current assignee: Hunan Happly Sunshine Interactive Entertainment Media Co Ltd
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2020-10-02
Anticipated expiration: 2040-06-24
Also published as: CN111738769B

Abstract

本发明提供了一种视频处理方法及装置，该方法包括：确定待处理的各个目标品牌；获取训练数据集训练目标检测模型；对目标视频进行拆帧，获得各个视频帧；应用目标检测模型及处理规则，标注出各个视频帧中各个目标品牌的展示内容，并确定标注区域；提取每个视频帧中的所人像区域及角标区域；基于标注区域对已标注的展示内容进行马赛克处理；将各个人像区域及角标区域与各个视频帧进行合成，并基于合成后的视频帧生成最终的目标视频。应用该方法，通过训练目标检测模型，对各个视频帧中目标品牌的展示内容进行标注，并在提取出各个视频帧的人像区域和角标区域后，对目标品牌的展示内容进行马赛克处理，加快对视频处理的速度，也提高视频处理的效率。

Description

视频处理方法及装置

技术领域

本发明涉及计算机视觉技术领域，特别是涉及一种视频处理方法及装置。

背景技术

随着网络的普及，人们越来越习惯通过网络来进行社交娱乐。为此，广告商也越来越看重在网络平台上投放自家产品的广告以提高产品的知名度。特别是随着网络视频点播技术的发展，广告商会与节目平台签订广告合约，以保证节目平台在录制节目时，将节目平台与广告商的合约产品投放到节目视频中，以提高合约产品的曝光率，从而提高合约产品的知名度。

在将节目视频进行播放前，为了避免视频中出现与合约产品具有竞争关系的竞品品牌及其他未签订广告合约的非合约产品的曝光，需要对节目视频中出现的非合约产品的展示内容进行规避处理。目前对节目视频中非合约产品进行规避处理的方式是由后期人员通过视频处理软件对节目视频进行逐帧处理。但是，现有技术中对节目视频进行处理的方式不仅增加了后期人员的工作量，而且需要消耗大量的时间进行处理，导致对节目视频的处理效率过低。

发明内容

有鉴于此，本发明提供一种视频处理方法，通过该方法，对视频中未签订广告合约的广告产品进行规避，提高视频处理的速度。

本发明还提供了一种视频处理装置，用以保证上述方法在实际中的实现及应用。

一种视频处理方法，包括：

当需要对目标视频进行处理时，确定所述目标视频中待处理的各个目标品牌，所述目标品牌为所述目标视频中未签订广告合约的广告产品；

获取每个所述目标品牌对应的训练数据集，并通过各个所述训练数据集对预先设置的目标检测模型进行训练，获得已完成训练的目标检测模型；

对所述目标视频进行拆帧，获得所述目标视频对应的各个视频帧；

应用所述已完成训练的目标检测模型及预先设置的处理规则，标注出各个所述视频帧中各个所述目标品牌的展示内容，并确定在各个所述视频帧中每个所述目标品牌对应的标注区域；

确定各个所述视频帧中的人像区域及角标区域，并对每个所述视频帧中的所人像区域及角标区域进行提取，获得各个第一处理视频帧；

基于每个所述目标品牌对应的标注区域，对各个所述第一处理视频帧中已标注的各个目标品牌的展示内容进行马赛克处理，获得各个第二处理视频帧；

将已提取的各个所述人像区域及角标区域，与各个所述第二处理视频帧进行合成，获得各个第三处理视频帧，并基于各个所述第三处理视频帧生成最终的目标视频。

上述的方法，可选的，所述获取每个所述目标品牌对应的训练数据集，包括：

获取每个所述目标品牌对应的样本数据集，每个所述样本数据集中包含其对应的目标品牌的多个样本图片，每个所述样本图片包含其对应的目标品牌的目标框；

确定每个所述样本图片中目标框的坐标，并按照预先设置的调整格式，对每个所述样本图片中的目标框的坐标及尺寸进行调整；

将各个已调整的样本图片进行数据增强处理，获得每个所述目标品牌对应的各个训练数据，并基于每个所述目标品牌对应的各个训练数据，生成每个所述目标品牌对应的训练数据集。

上述的方法，可选的，所述获取每个所述目标品牌对应的样本数据集，包括：

获取用户预先上传的各个样本视频，及每个所述样本视频对应的品牌信息；

基于每个所述样本视频对应的品牌信息，分别判断是否存在包含每个所述目标品牌的展示内容的样本视频；

若存在包含当前的目标品牌的展示内容的样本视频，则将包含所述当前的目标品牌的展示内容的样本视频确定为目标样本视频，并将所述目标样本视频拆帧后向所述用户进行发送，以使所述用户对所述目标样本视频中，包含所述当前目标品牌的展示内容的各个样本视频帧标注目标框；当接收到用户发送的各个已标注的样本视频帧时，将各个所述已标注的视频帧作为所述当前的目标品牌对应的样本图片，获得所述当前的目标品牌对应的样本数据集；

若不存在包含所述当前的目标品牌的展示内容的样本视频，则从网络中获取多个背景图及所述当前的目标品牌对应的品牌图片；将各个所述背景图与各个所述品牌图片合成，记录每个所述品牌图片在其对应的合成图片的坐标，并基于各个所述品牌图片的坐标，对各个所述合成图片标注目标框，并将已标注的合成图片作为所述当前的目标品牌对应的样本图片，并获得所述当前的目标品牌对应的样本数据集。

上述的方法，可选的，所述通过各个所述训练数据集对预先设置的目标检测模型进行训练，获得已完成训练的目标检测模型，包括：

将各个所述训练数据集中的各个所述训数据输入所述目标检测模型中，以使所述目标检测模型进行模型训练，直至所述目标检测模型的模型参数满足预先设置的训练条件；

其中，在将每个所述训练数据输入所述目标检测模型进行模型训练时，获取当前输入的训练数据对应的训练结果；调用预先设置的损失函数，对所述训练结果与当前输入所述目标检测模型的训练数据对应的目标框进行计算，得到损失函数值；依据所述损失函数值，判断所述目标检测模型的模型参数是否满足所述训练条件；若不满足，则依据所述损失函数值调整所述目标检测模型的模型参数；若满足，则获得已完成训练的目标检测模型。

上述的方法，可选的，所述应用所述已完成训练的目标检测模型及预先设置的处理规则，标注出各个所述视频帧中各个所述目标品牌的展示内容，包括：

确定各个所述视频帧的排列顺序，并基于所述排列顺序将各个所述视频帧中的奇数帧依次输入所述已完成训练的目标检测模型中，触发所述目标检测模型检测当前输入的奇数帧中是否包含任意的目标品牌的展示内容，并在确定所述当前输入的奇数帧中包含任意的目标品牌的展示内容时，对所述当前输入的奇数帧包含的目标品牌的展示内容进行标注；

获取所述已完成训练的目标检测模型当前输出的已标注的奇数帧，并确定所述已标注的奇数帧对应的标注区域的区域坐标；

依据所述排列顺序，确定所述已标注的奇数帧的下一视频帧，并依据所述区域坐标对所述已标注的奇数帧的下一视频帧进行标注。

上述的方法，可选的，所述确定各个所述视频帧中的人像区域及角标区域，并对每个所述视频帧中的人像区域及角标区域进行提取，包括：

基于所述排列顺序，将各个所述视频帧中的奇数帧依次输入预先训练完成的人像语义分割模型中，触发所述人像语义分割模型将各个所述奇数帧转换成二值图；所述二值图中包含人像区域和非人像区域；

确定每个所述二值图中的人像区域的坐标，并将所述人像区域的坐标作为每个奇数帧的下一视频帧的人像区域的坐标；

获取预先设置的角标位置信息，并基于所述角标位置信息确定每个所述视频帧中的角标区域及每个角标区域的坐标；

基于各个所述视频帧中的人像区域的坐标及角标区域的坐标，对每个所述视频帧中的人像区域及角标区域进行提取。

上述的方法，可选的，人像语义分割模型的训练过程，包括：

获取人像图片数据集；所述人像图片数据集中包含多个人像图片，及每个所述人像图片对应的二值图；

依次将各个所述人像图片输入预先设置的待训练的人像语义分割模型，以使所述人像语义分割模型依据各个所述人像图片进行模型训练；

当所述人像语义分割模型输出各个所述人像图片对应的训练图时，分别计算各个所述人像图片对应的训练图及二值图之间的重合度；判断各个所述重合度是否达到预先设置的重合阈值；若各个所述重合度未达到预先设置的重合阈值，则对所述人像语义分割模型进行模型参数的调整，并重新训练所述人像语义分割模型，直至当前输入的各个所述人像图片对应的训练图，与其对应的二值图的重合度达到所述重合阈值，完成对所述人像语义分割模型的训练。

一种视频处理装置，包括：

确定单元，用于当需要对目标视频进行处理时，确定所述目标视频中待处理的各个目标品牌，所述目标品牌为所述目标视频中未签订广告合约的广告产品；

第一训练单元，用于获取每个所述目标品牌对应的训练数据集，并通过各个所述训练数据集对预先设置的目标检测模型进行训练，获得已完成训练的目标检测模型；

拆帧单元，用于对所述目标视频进行拆帧，获得所述目标视频对应的各个视频帧；

标注单元，用于应用所述已完成训练的目标检测模型及预先设置的处理规则，标注出各个所述视频帧中各个所述目标品牌的展示内容，并确定在各个所述视频帧中每个所述目标品牌对应的标注区域；

第一处理单元，用于确定各个所述视频帧中的人像区域及角标区域，并对每个所述视频帧中的所人像区域及角标区域进行提取，获得各个第一处理视频帧；

第二处理单元，用于基于每个所述目标品牌对应的标注区域，对各个所述第一处理视频帧中已标注的各个目标品牌的展示内容进行马赛克处理，获得各个第二处理视频帧；

第三处理单元，用于将已提取的各个所述人像区域及角标区域，与各个所述第二处理视频帧进行合成，获得各个第三处理视频帧，并基于各个所述第三处理视频帧生成最终的目标视频。

上述的装置，可选的，所述第一训练单元，包括：

第一获取子单元，用于获取每个所述目标品牌对应的样本数据集，每个所述样本数据集中包含其对应的目标品牌的多个样本图片，每个所述样本图片包含其对应的目标品牌的目标框；

调整子单元，用于确定每个所述样本图片中目标框的坐标，并按照预先设置的调整格式，对每个所述样本图片中的目标框的坐标及尺寸进行调整；

生成子单元，用于将各个已调整的样本图片进行数据增强处理，获得每个所述目标品牌对应的各个训练数据，并基于每个所述目标品牌对应的各个训练数据，生成每个所述目标品牌对应的训练数据集。

上述的装置，可选的，所述标注单元，包括：

第一输入子单元，用于确定各个所述视频帧的排列顺序，并基于所述排列顺序将各个所述视频帧中的奇数帧依次输入所述已完成训练的目标检测模型中，触发所述目标检测模型检测当前输入的奇数帧中是否包含任意的目标品牌的展示内容，并在确定所述当前输入的奇数帧中包含任意的目标品牌的展示内容时，对所述当前输入的奇数帧包含的目标品牌的展示内容进行标；

确定子单元，用于获取所述已完成训练的目标检测模型当前输出的已标注的奇数帧，并确定所述已标注的奇数帧对应的标注区域的区域坐标；

标注子单元，用于依据所述排列顺序，确定所述已标注的奇数帧的下一视频帧，并依据所述区域坐标对所述已标注的奇数帧的下一视频帧进行标注。

一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行上述的视频处理方法。

一种电子设备，包括存储器，以及一个或者一个以上的指令，其中一个或者一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行上述的视频处理方法。

与现有技术相比，本发明包括以下优点：

本发明提供了一种视频处理方法，包括：当需要对目标视频进行处理时，确定待处理的各个目标品牌；获取每个目标品牌对应的训练数据集，并通过各个训练数据集目标检测模型进行训练，获得已完成训练的目标检测模型；对目标视频进行拆帧，获得目标视频对应的各个视频帧；应用已完成训练的目标检测模型及处理规则，标注出各个视频帧中各个目标品牌的展示内容，并确定在各个视频帧中每个所述目标品牌对应的标注区域；对每个视频帧中的所人像区域及角标区域进行提取，获得各个第一处理视频帧；基于每个所述目标品牌对应的标注区域，对各个所述第一处理视频帧中已标注的各个目标品牌的展示内容进行马赛克处理，获得各个第二处理视频帧；将已提取的各个人像区域及角标区域，与各个第二处理视频帧进行合成，获得各个第三处理视频帧，并基于各个第三处理视频帧生成最终的目标视频。应用本发明提供的方法，通过训练目标检测模型，对各个视频帧中目标品牌的展示内容进行标注，并在提取出各个视频帧的人像区域和角标区域后，对目标品牌的展示内容进行马赛克处理，从而可以规避掉目标视频中未签订合约的产品。通过该方法不仅加快了对视频处理的速度，也提高视频处理的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种视频处理方法的方法流程图；

图2为本发明实施例提供的一种视频处理方法的又一方法流程图；

图3为本发明实施例提供的一种视频处理方法的再一方法流程图；

图4为本发明实施例提供的一种视频处理方法的又再一方法流程图；

图5为本发明实施例提供的一种视频处理装置的装置结构图；

图6为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明可用于众多通用或专用的计算装置环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。

本发明实施例提供了一种视频处理方法，该方法可以应用在多种系统平台，其执行主体可以为计算机终端或各种移动设备的处理器，所述方法的方法流程图如图1所示，具体包括：

S101：当需要对目标视频进行处理时，确定所述目标视频中待处理的各个目标品牌，所述目标品牌为所述目标视频中未签订广告合约的广告产品；

在本发明实施例中，目标视频是由用户上传至处理器中需要进行处理的视频，目标视频在进行播放前，需要将其中未签订合约的各个目标品牌进行规避。其中，用户在向处理器上传目标视频后，会向处理器发送待处理的各个目标品牌对应的处理信息，以使处理器在接收到目标视频后，确定目标视频需要进行处理的各个目标品牌。

S102：获取每个所述目标品牌对应的训练数据集，并通过各个所述训练数据集对预先设置的目标检测模型进行训练，获得已完成训练的目标检测模型；

在本发明实施例中，每个目标品牌分别对应一个训练数据集，该训练数据集中包含多个训练数据，每个训练数据可以是在不同状态、不同角度和不同背景下的目标品牌的图片。通过每个目标品牌对应的训练数据集对目标检测模型进行训练，以使该目标检测模型能够学习识别出各个目标品牌。当结束对目标检测模型的训练时，获得已完成训练的目标检测模型。

需要说明的是，该目标检测模型是深度学习模型中的一个重要的应用，可以将图片中物体的位置进行识别。通过各个训练数据集训练该目标检测模型，可以使该目标检测模型学习如何识别各个训练数据中的各个目标品牌，并且能够确定每个目标品牌在各个训练数据中的位置。

S103：对所述目标视频进行拆帧，获得所述目标视频对应的各个视频帧；

在本发明实施例中，目标视频由多个视频帧组成，每个视频帧相当于一张图片。为规避目标视频中的各个目标品牌，需要将目标视频进行拆帧，获得各个视频帧。

S104：应用所述已完成训练的目标检测模型及预先设置的处理规则，标注出各个所述视频帧中各个所述目标品牌的展示内容，并确定在各个所述视频帧中每个所述目标品牌对应的标注区域；

在本发明实施例中，当目标检测模型完成训练后，根据预先设置的处理规则并应用已完成训练的目标检测模型，对每个视频帧中出现的目标品牌的展示内容进行标注。即，通过已完成训练的目标检测模型识别出每个视频帧中出现的各个目标品牌的展示内容，并确定每个目标品牌在各个视频帧中的位置。当标注出各个目标品牌的展示内容后，可以确定在每个视频帧中每个目标品牌对应的标注区域。

需要说明的是，每个视频帧中不一定有各个目标品牌的展示内容，因此，通过目标检测模型进行标注后，并非所有的视频帧都已进行标注。除此之外，一个视频帧中可以存在至少一个目标品牌的展示内容，因此，在目标检测模型进行标注后，会存在一个视频帧对应多个标注区域的情况。

S105：确定各个所述视频帧中的人像区域及角标区域，并对每个所述视频帧中的所人像区域及角标区域进行提取，获得各个第一处理视频帧；

在本发明实施例中，角标区域中包含固定于各个视频帧中的角标，该角标可以是目标视频对应的节目的台标，也可以是常驻在目标视频任意一个角落的标志符。为避免在对各个目标品牌的展示内容进行处理时将各个视频帧中的人像和角标进行处理，需要确定每个视频帧中的人像区域和角标区域。并将人像区域和角标区域提取出各个视频帧，此时获得的各个第一处理视频帧中不会包含人像和角标。

S106：基于每个所述目标品牌对应的标注区域，对各个所述第一处理视频帧中已标注的各个目标品牌的展示内容进行马赛克处理，获得各个第二处理视频帧；

在本发明实施例中，由于第一处理视频帧中已经将人像和角标提取出去，因此，可根据原先进行标注的各个标注区域，对各个视频帧中的目标品牌的展示内容进行马赛克处理。将该标注区域打上马赛克，以实现对各个目标品牌的规避处理，获得第二处理视频帧。

S107：将已提取的各个所述人像区域及角标区域，与各个所述第二处理视频帧进行合成，获得各个第三处理视频帧，并基于各个所述第三处理视频帧生成最终的目标视频。

在本发明实施例中，在对各个目标品牌的展示内容打上马赛克后，为保证目标视频的完整性，需要将原先提取的各个人像区域和角标区域按照原位置与各个第二处理视频帧进行合成，如此，便得到各个已对目标品牌进行规避处理的第三处理视频帧。将各个第三处理视频帧进行合成，获得最终的目标，完成对目标视频的处理。

本发明实施例提供的视频处理方法中，当处理器需要对目标视频进行处理时，先确定待处理的各个目标品牌，并获取每个目标品牌对应的训练数据集，通过各个训练数据集训练目标检测模型。在将目标视频帧进行拆帧后，由已完成训练的目标检测模型及预先设置的处理规则对各个视频帧中的目标品牌进行识别，并标注出每个视频帧中的目标品牌的展示内容，确定各个视频帧中每个品牌对应的标注区域。其中，该标注区域为其对应的目标品牌需要进行规避处理的区域。在确定各个视频帧中的标注区域后，为避免在对各个标注区域进行马赛克处理时影响人像及角标的展示，预先将各个视频帧中的人像区域和角标区域提取出来，获得各个第一处理视频帧。在将人像区域和角标区域提取出来后，可根据各个标注区域对各个目标品牌的展示内容打上马赛克，以实现对各个目标品牌的规避处理，获得第二处理视频帧。最终再将原先已提取的人像区域和角标区域按照原位置与各个第二处理视频帧进行合成，获得各个第三处理视频帧，通过各个第三处理视频帧生成最终的目标视频。

可选的，在本发明实施例提供的方法中，为了避免在对目标品牌进行规避处理时影响视频中人像和角标的展示，需要预先将人像区域和角标区域进行提取。除了可以提取人像区域和角标区域之外，本发明实施例的方法还可根据用户的需求对动物区域、已签订广告合约的广告产品等区域进行提取，并在合成最终的目标视频时，将各个已提取的区域按照原位置进行合成。具体提取过程参考上述步骤S105至S107的过程，此处将不复赘述。

进一步地，本发明实施例提供的方法中，除了可以对目标品牌进行规避处理以外，还可以根据用户的需求对目标视频中其他展示内容进行马赛克处理。如果需要对多个视频进行处理，由于每个视频中需要进行规避的内容不同，因此在每次需要对视频进行处理时，都要根据规避的内容重新获取新的训练数据集对目标检测模型进行训练，以使训练完成的目标检测模型能够识别出各个视频帧中需要进行规避的内容。

应用本发明实施例提供的方法，通过训练目标检测模型，对各个视频帧中目标品牌的展示内容进行标注，并在提取出各个视频帧的人像区域和角标区域后，对目标品牌的展示内容进行马赛克处理，加快对视频处理的速度，也提高视频处理的效率。

本发明实施例提供的方法中，基于上述步骤S102的内容，在确定各个目标品牌后，需要获取每个目标品牌对应的训练数据集，以通过各个训练数据集训练目标检测模型。其中，获取各个训练数据集的过程如图2，具体可以包括：

S201：获取每所述目标品牌对应的样本数据集；

其中，每个所述样本数据集中包含其对应的目标品牌的多个样本图片，每个所述样本图片包含其对应的目标品牌的目标框；

在本发明实施例中，每个样本数据中的各个样本图片可以是由用户提供的品牌图片，也可以是处理器利用网络爬虫从网络中获取的品牌图片，也可以是从其他视频的视频帧中，包含任意目标品牌的视频帧。每个样本图片中均包含其对应的目标品牌，因此，每个样本图片均标注了其对应的目标品牌的目标框，样本图片中的目标框是其对应的目标品牌的展示内容的展示区域。

S202：确定每个所述样本图片中目标框的坐标，并按照预先设置的调整格式，对每个所述样本图片中的目标框的坐标及尺寸进行调整；

在本发明实施例中，目标检测模型在进行训练时，对训练数据的格式有一定的要求，因此为保证能够应用各个样本图片训练目标检测模型，需要按照目标检测模型对应的调整格式，调整样本图片中目标框的坐标和尺寸。

具体的，目标框的坐标采用中心点及尺寸的格式，具体为：class_idcenterXcenterY sizeW sizeH。在调整各个目标框后，将各个样本图片的图片尺寸，按照视频帧的帧图尺寸进行归一化处理。其中，class_id为样本图片对应的id，centerX和centerY分别代表目标框在样本图片中的坐标，sizeW和sizeH分别代表目标框在样本图片中的宽度和高度。

S203：将各个已调整的样本图片进行数据增强处理，获得每个所述目标品牌对应的各个训练数据，并基于每个所述目标品牌对应的各个训练数据，生成每个所述目标品牌对应的训练数据集。

在本发明实施例中，数据增强处理的方式包括：剪裁、平移、旋转、镜像、改变亮度、加噪声等。在对各个已调整的样本图片进行数据增强处理时，对各个样本图片进行平滑处理，获得最终的训练数据。在获得每个目标品牌对应的各个训练数据后，由每个目标品牌的训练数据生成对应的训练数据集。

本发明实施例提供的视频处理方法中，获取每个目标品牌对应的样本数据集，样本数据集中包含多个样本图片，每个样本图片中均标注有其对应的目标品牌的目标框。在训练目标检测模型之前，需要保证训练目标检测模型的训练数据能够符合目标检测模型的需求，因此需要对各个样本图片中的目标框的坐标和尺寸进行调整，以保证各个样本图片中的目标框能够满足目标检测模型的训练需求。在调整好各个样本图片中的目标框后，对已调整的样本图片进行数据增强，以保证各个样本图片的平衡。在结束数据增强后获得的各个样本图片则为训练数据。根据每个目标品牌对应的各个训练数据生成对应的训练数据集。通过对各个样本图片的处理，以获得满足目标检测模型训练条件的训练数据集，保证目标检测模型的准确度。

基于上述实施例提供的方法，在步骤S201中，需要先获取样本数据集，通过样本数据中的各个样本图片进行处理后才能获得最终的训练数据。其中，获取各个样本数据集的过程，具体可以包括：

若存在包含当前的目标品牌的展示内容的样本视频，则将该样本视频确定为目标样本视频，并将所述目标样本视频拆帧后向所述用户进行发送，以使所述用户对所述目标样本视频中，包含所述当前目标品牌的展示内容的各个样本视频帧标注目标框；当接收到用户发送的各个已标注的样本视频帧时，将各个所述已标注的视频帧作为所述当前的目标品牌对应的样本图片，获得所述当前的目标品牌对应的样本数据集；

本发明实施例提供的视频处理方法中，处理器需要训练目标检测模型时，需要先获取样本图片。其中，该样本图片可以通过用户预先提供的各个样本视频中获得。在确定需要规避的各个目标品牌后，获取用户预先上传的各个样本视频，及每个样本视频对应的品牌信息。其中，每个样本视频对应的品牌信息包含其对应的样本视频中各个品牌的品牌名称、以及每个品牌所在的样本视频帧。通过各个品牌信息，分别判断存在任意的样本视频中是否包含当前的目标品牌的展示内容。若存在任意的样本视频包含当前的目标品牌的展示内容，则可以通过对该样本视频进行拆帧后，由用户标注出各个样本视频帧当中包含当前的目标品牌的目标框。例如，样本视频A中包含目标品牌a的展示内容，则对样本视频A进行拆帧，获得各个样本视频帧A1。用户根据当前的目标品牌在各个样本视频帧A1的区域标注目标框，并将各个已标注目标框的样本视频帧A1上传至处理器，处理器将用户上传的各个已标注目标框的样本视频帧A1确定为当前的目标品牌对应的样本图片。若不存在包含该当前的目标品牌的展示内容的样本视频，则需要从网络上获取多个背景图与多个该当前的目标品牌对应的品牌图片，其中，背景图与品牌图片的数量可以一致。将各个品牌图片分别合成至各个背景图中，并在合成时记录品牌图片在背景图中合成的坐标，基于品牌图片在合成图片中的坐标，标注出合成图片中的目标框，将已标注目标框的合成图片作为样本图片。

具体的，在将各个背景图与各个品牌图片进行合成时，可以是一个品牌图片合成至一个背景图中，也可以是多个品牌图片合成至一个背景图中。可以将品牌图片经过压缩、剪裁等操作后进行合成。在确定各个品牌图片在合成图片的坐标时，可以以原背景图的任意一个交作为坐标原点建立直角坐标系，以通过直角坐标系确定品牌图片的坐标。

应用本发明实施例提供的方法，可以在通过用户提供的样本视频获得每个目标品牌对应的样本图片，或通过合成图片的方式获得样本图片，由每个目标品牌对应的各个样本图片获得该目标品牌对应的样本数据集。

本发明实施例提供的方法中，在获得每个目标品牌对应的样本数据集后，对样本数据集的各个样本数据进行调整和数据增强，以获得对目标检测模型进行训练的各个训练数据集。其中，通过各个训练数据集对目标检测模型进行训练，获得已完成训练的目标检测模型的过程，具体可以包括：

本发明实施例提供的视频处理方法中，将各个训练数据输入至目标检测模型当中，目标检测模型根据各个训练数据中的目标框进行深度学习，并对每个训练数据进行检测，输出当前输入的训练数据对应的训练结果。由于该训练数据为已标注目标框的样本图片，因此，该训练数据对应的训练结果为标记有目标框和检测框的样本图片。其中，该检测框是目标检测模型在进行训练过程中，对训练数据中的目标进行识别并进行标注的区域。根据预先设置的损失函数，计算目标框与检测框之间的重合度，以确定损失函数值。通过该损失函数值确定该目标检测模型的模型参数是否达到训练条件，若未达到训练条件，则需要调整该目标检测模型的模型参数，以使目标检测模型在进行下一次训练时，能够提高目标框和检测框之间的重合度。因此，在调整模型参数后，再对目标检测模型参数进行训练，直至当前训练的目标检测模型的模型参数满足训练条件，则结束对目标检测模型的训练，获得已完成训练的目标检测模型。

需要说明的是，该目标检测模型应用retinanet目标检测算法对目标品牌进行识别和定位，retinanet目标检测算法为一个一阶段的采用focalloss为损失函数的目标检测算法。

应用本发明实施例的方法，通过该训练目标检测模型，以根据该目标检测模型识别出各个视频帧中的各个目标品牌。

本发明实施例提供的方法中，在完成对目标检测模型的训练后，需要应用已完成训练的目标检测模型及处理规则，对各个视频帧中的目标品牌的展示内容进行标注，具体参考图3，具体过程包括：

S301：确定各个所述视频帧的排列顺序，并基于所述排列顺序将各个所述视频帧中的奇数帧依次输入所述已完成训练的目标检测模型中，触发所述目标检测模型检测当前输入的奇数帧中是否包含任意的目标品牌的展示内容，并在确定所述当前输入的奇数帧中包含任意的目标品牌的展示内容时，对所述当前输入的奇数帧包含的目标品牌的展示内容进行标注；

在本发明实施例中，在将目标视频拆帧后，根据目标视频的视频播放顺序，确定各个视频帧的排列顺序，且每个视频帧都有对应的编号。将各个视频帧中的奇数帧输入到已完成训练的目标检测模型当中，由已完成训练的目标检测模型检测各个奇数帧中是否包含各个目标品牌对应的展示内容。若已完成训练的目标检测模型识别出当前输入的奇数帧中包含任意目标品牌的展示内容，则对该展示内容进行标注。

需要说明的是，并非所有的奇数帧都包含目标品牌的展示内容，若存在奇数帧不包含任何目标品牌的展示内容，则该已完成训练的目标检测模型将不会对该奇数帧进行标注。

S302：获取所述已完成训练的目标检测模型当前输出的已标注的奇数帧，并确定所述已标注的奇数帧对应的标注区域的区域坐标；

在本发明实施例中，当已完成训练的目标检测模型输出已标注的奇数帧时，确定该目标检测模型所进行标注的标注区域，并确定该标注区域在该奇数帧中的区域坐标。通过该区域坐标可以确定目标品牌的展示内容在该奇数帧中的具体位置。

S303：依据所述排列顺序，确定所述已标注的奇数帧的下一视频帧，并依据所述区域坐标对所述已标注的奇数帧的下一视频帧进行标注。

在本发明实施例中，在通过目标检测模型对各个包含目标品牌的奇数帧进行标注后，为了能够加快对各个视频帧进行标注的过程，可以根据各个已标注的奇数帧对应的区域坐标，对每个已标注的奇数帧的下一视频帧进行标注。即，在各个视频帧的偶数帧中，标注出与其对应的上一视频帧的相同区域坐标的标注区域。例如，第一奇数帧中的标注区域的区域坐标为(0,1)、(0,2)、(1,1)、(1,2)；则该第一奇数帧的下一视频帧的区域坐标也为(0,1)、(0,2)、(1,1)、(1,2)。

需要说明的是，由于目标视频中，每一秒视频由多个视频帧组成，因此，若视频中出现目标品牌的展示内容时，会连续有多个视频帧都有该目标品牌的展示内容。若存在任意的偶数帧不包含任何目标品牌的展示内容，而其对应的奇数帧包含任意的目标品牌的展示内容，则依旧对该偶数帧进行标注。或，若存在任意的偶数帧包含任意的目标品牌的展示内容，而其对应的奇数帧不包含任何的目标品牌的展示内容，则该偶数帧无需进行标注。即使在对目标视频处理结束后，播放该目标视频时，由于每一帧视频的播放速度极快，即使存在任意一帧没有对目标品牌进行马赛克处理，用户基本也不会感知，也不影响用户的观看目标视频的观看体验。

本发明实施例提供的视频处理方法中，先通过已完成训练的目标检测模型对各个视频帧中的奇数帧进行标注，再由偶数帧根据已标注的奇数帧对应的区域坐标进行标注，以此能够加快对各个视频帧进行标注的过程。

本发明实施例提供的方法中，在对各个包含目标品牌的展示内容的视频帧进行标注后，需要将各个视频帧中的人像区域和角标区域进行提取，以保证在对各个目标品牌的展示内容进行马赛克处理时，不会影响视频帧中任务和角标的展示。参考图4，对各个视频帧中的人向区域和角标区域进行提取的过程，具体可以包括：

S401：基于所述排列顺序，将各个所述视频帧中的奇数帧依次输入预先训练完成的人像语义分割模型中，触发所述人像语义分割模型将各个所述奇数帧转换成二值图；所述二值图中包含人像区域和非人像区域；

在本发明实施例中，人像语义分割模型是应用deeplabv3+的语义分割算法完成对各个奇数帧中的人像进行分割。该语义分割算法引入语义分割常用的encoder-decoder架构。在encoder-decoder架构中引入可任意控制编码器提取特征的分辨率，通过空洞卷积平衡精度和耗时。在应用人像语义分割模型执行语义分割任务时，采用Xception模型，在ASPP解码和解码模块使用depthwise separable convolution，提高编码器-解码器网络的运行速率和健壮性。

需要说明的是，由人像语义分割模型对各个视频帧中的人像进行分割后转换成二值图，该二值图中可以根据设定的颜色区分出人像区域和非人像区域。

S402：确定每个所述二值图中的人像区域的坐标，并将所述人像区域的坐标作为每个奇数帧的下一视频帧的人像区域的坐标；

在本发明实施例中，与上述实施例步骤S302过程相似，在通过人像语义分割模型将各个奇数帧转换成二值图，并确定各个人像区域的坐标后，可以根据每个奇数帧中人像区域的坐标确定其对应的下一视频帧的人像区域的坐标。

S403：获取预先设置的角标位置信息，并基于所述角标位置信息确定每个所述视频帧中的角标区域及每个角标区域的坐标；

在本发明实施例中，目标视频中的角标可以是固定在各个视频帧的同一个位置，也可以根据用户的设定，设置于各个视频帧的不同位置，根据用户预先设定的角标位置信息，确定每个视频帧中的角标区域及每个角标区域的坐标。

S404：基于各个所述视频帧中的人像区域的坐标及角标区域的坐标，对每个所述视频帧中的人像区域及角标区域进行提取。

在本发明实施例中，根据各个人像区域的坐标及各个角标区域的坐标，可以精准地确定各个人像和角标在各个视频帧中的位置，并将各个人像区域和角标区域从各个视频帧中提取出来。

本发明实施例提供的视频处理方法中，一方面，通过人像语义分割模型识别出每个视频帧中出现的人像。在应用人像语义分割模型对人像进行分割获得二值图的过程中，按照各个视频帧的排列顺序，将各个视频帧的奇数帧输入到该人像语义分割模型，由该人像语义分割模型对各个奇数帧中的人像进行分割，输出每个奇数帧对应的二值图。对于各个视频帧中的偶数帧，需根据其对应的上一视频帧中人像区域的坐标，确定偶数帧中人像区域的坐标。另一方面，通过预先设置的角标位置信息，确定各个视频帧中的角标区域以及每个角标区域的坐标。在确定各个视频帧中人像区域的坐标及角标区域的坐标后，基于人像区域的坐标和角标区域的坐标，对各个视频帧中的人像区域和角标区域进行提取。

应用本发明实施例提供的方法，通过人像语义分割模型区分各个各个视频帧中的人像区域和非人像区域，再结合角标位置信息确定各个视频帧中的角标区域。通过提取各个人像区域和角标区域，避免在对各个目标品牌进行马赛克处理时，影响到人像及角标在各个视频帧的显示。

本发明实施例提供的方法，在将各个奇数帧输入人像语义分割模型之前，需要对该人像语义分割模型进行模型训练，具体过程可以包括：

本发明实施例提供的视频处理方法中，若需要对各个视频帧中的人像进行分割，需要先对人像语义分割模型进行训练。可以通过网络爬虫从网络中获取多个人像图片，及每个人像图片对应的二值图。通过各个人像图片及其对应的二值图组成人像图片数据集。将各个人像图片输入值待训练的人像语义分割模型当中，人像语义分割模型基于语义分割算法进行训练，以区分出各个人像图片中的人像区域和非人像区域。当人像语义分割模型输出各个人像图片的训练图时，需要确定各个人像图片对应的训练图与二值图之间的重合度。其中，训练图与二值图之间的重合度可以是将训练图中的人像区域和二值图中的人像区域进行比较，通过比较两个人像区域之间的差值，确定训练图与二值图之间的重合度。若重合度没有达到预先设置的重合阈值，则表征该人像语义分割模型对人像的分割还不够准确，需要调整人像语义分割模型中的模型参数，以提高该人像语义分割模型对人像进行分割的准确度，并重新对该人像语义分割模型进行训练，直至当前输入的各个人像图片对应的训练图与二值图的重合度达到重合阈值，完成对人像语义分割模型的训练。

应用本发明实施例提供的方法，通过训练人像语义分割模型，以保证能够更加准确地区分出各个人像图片中的人像区域和非人像区域。

上述各个实施例的具体实施过程及其衍生方式，均在本发明的保护范围之内。

与图1所述的方法相对应，本发明实施例还提供了一种视频处理装置，用于对图1中方法的具体实现，本发明实施例提供的视频处理装置可以应用计算机终端或各种移动设备中，其结构示意图如图5所示，具体包括：

确定单元501，用于当需要对目标视频进行处理时，确定所述目标视频中待处理的各个目标品牌，所述目标品牌为所述目标视频中未签订广告合约的广告产品；

第一训练单元502，用于获取每个所述目标品牌对应的训练数据集，并通过各个所述训练数据集对预先设置的目标检测模型进行训练，获得已完成训练的目标检测模型；

拆帧单元503，用于对所述目标视频进行拆帧，获得所述目标视频对应的各个视频帧；

标注单元504，用于应用所述已完成训练的目标检测模型及预先设置的处理规则，标注出各个所述视频帧中各个所述目标品牌的展示内容，并确定在各个所述视频帧中每个所述目标品牌对应的标注区域；

第一处理单元505，用于确定各个所述视频帧中的人像区域及角标区域，并对每个所述视频帧中的所人像区域及角标区域进行提取，获得各个第一处理视频帧；

第二处理单元506，用于基于每个所述目标品牌对应的标注区域，对各个所述第一处理视频帧中已标注的各个目标品牌的展示内容进行马赛克处理，获得各个第二处理视频帧；

第三处理单元507，用于将已提取的各个所述人像区域及角标区域，与各个所述第二处理视频帧进行合成，获得各个第三处理视频帧，并基于各个所述第三处理视频帧生成最终的目标视频。

本发明实施例提供的视频处理装置中，当需要对目标视频进行处理时，由确定单元确定需要处理的各个目标品牌，第一训练单元则根据各个目标品牌对应的各个训练数据集训练目标检测模型。拆帧单元对目标视频进行拆帧后，获得各个视频帧，由标注单元通过已完成训练的目标检测模型及处理规则对各个视频帧中各个目标品牌的展示内容进行标注，以确定各个展示内容对应的标注区域。再由第一处理单元提取出各个视频帧中的人像区域和角标区域，获得第一处理视频帧，第二处理单元对各个第一处理视频帧中各个展示内容对应的标注区域进行马赛克处理，获得第二处理视频帧。最终第三处理单元将原先的人像区域和角标区域，按照原位置合成至各个第二处理视频帧获得各个第三处理视频帧后，将各个第三处理视频帧合成最终的目标视频。

应用本发明提供的装置，通过训练目标检测模型，对各个视频帧中目标品牌的展示内容进行标注，并在提取出各个视频帧的人像区域和角标区域后，对目标品牌的展示内容进行马赛克处理，加快对视频处理的速度，也提高视频处理的效率。

本发明实施例提供的装置中，所述第一训练单元502，包括：

本发明实施例提供的装置中，所述第一获取子单元，还用于：

本发明实施例提供的装置中，所述第一训练单元502，包括：

训练子单元，用于将各个所述训练数据集中的各个所述训数据输入所述目标检测模型中，以使所述目标检测模型进行模型训练，直至所述目标检测模型的模型参数满足预先设置的训练条件；其中，在将每个所述训练数据输入所述目标检测模型进行模型训练时，获取当前输入的训练数据对应的训练结果；调用预先设置的损失函数，对所述训练结果与当前输入所述目标检测模型的训练数据对应的目标框进行计算，得到损失函数值；依据所述损失函数值，判断所述目标检测模型的模型参数是否满足所述训练条件；若不满足，则依据所述损失函数值调整所述目标检测模型的模型参数；若满足，则获得已完成训练的目标检测模型。

本发明实施例提供的装置中，所述标注单元504，包括：

第一输入子单元，用于确定各个所述视频帧的排列顺序，并基于所述排列顺序将各个所述视频帧中的奇数帧依次输入所述已完成训练的目标检测模型中，触发所述目标检测模型检测当前输入的奇数帧中是否包含任意的目标品牌的展示内容，并在确定所述当前输入的奇数帧中包含任意的目标品牌的展示内容时，对所述当前输入的奇数帧包含的目标品牌的展示内容进行标注；

本发明实施例提供的装置中，所述第一处理单元505，包括：

第二输入子单元，用于基于所述排列顺序，将各个所述视频帧中的奇数帧依次输入预先训练完成的人像语义分割模型中，触发所述人像语义分割模型将各个所述奇数帧转换成二值图；所述二值图中包含人像区域和非人像区域；

第二确定子单元，用于确定每个所述二值图中的人像区域的坐标，并将所述人像区域的坐标作为每个奇数帧的下一视频帧的人像区域的坐标；

第三确定子单元，用于获取预先设置的角标位置信息，并基于所述角标位置信息确定每个所述视频帧中的角标区域及每个角标区域的坐标；

处理子单元，用于基于各个所述视频帧中的人像区域的坐标及角标区域的坐标，对每个所述视频帧中的人像区域及角标区域进行提取。

本发明实施例提供的装置中，还包括：

第二训练单元，用于获取人像图片数据集；所述人像图片数据集中包含多个人像图片，及每个所述人像图片对应的二值图；依次将各个所述人像图片输入预先设置的待训练的人像语义分割模型，以使所述人像语义分割模型依据各个所述人像图片进行模型训练；当所述人像语义分割模型输出各个所述人像图片对应的训练图时，分别计算各个所述人像图片对应的训练图及二值图之间的重合度；判断各个所述重合度是否达到预先设置的重合阈值；若各个所述重合度未达到预先设置的重合阈值，则对所述人像语义分割模型进行模型参数的调整，并重新训练所述人像语义分割模型，直至当前输入的各个所述人像图片对应的训练图，与其对应的二值图的重合度达到所述重合阈值，完成对所述人像语义分割模型的训练。

以上本发明实施例公开的视频处理装置中各个单元及子单元的具体工作过程，可参见本发明上述实施例公开的视频处理方法中的对应内容，这里不再进行赘述。

本发明实施例还提供了一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行上述视频处理方法。

本发明实施例还提供了一种电子设备，其结构示意图如图6所示，具体包括存储器601，以及一个或者一个以上的指令602，其中一个或者一个以上指令602存储于存储器601中，且经配置以由一个或者一个以上处理器603执行所述一个或者一个以上指令602进行以下操作：

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现。

为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种视频处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取每个所述目标品牌对应的训练数据集，包括：

3.根据权利要求2所述的方法，其特征在于，所述获取每个所述目标品牌对应的样本数据集，包括：

4.根据权利要求2所述的方法，其特征在于，所述通过各个所述训练数据集对预先设置的目标检测模型进行训练，获得已完成训练的目标检测模型，包括：

5.根据权利要求1所述的方法，其特征在于，所述应用所述已完成训练的目标检测模型及预先设置的处理规则，标注出各个所述视频帧中各个所述目标品牌的展示内容，包括：

6.根据权利要求5所述的方法，其特征在于，所述确定各个所述视频帧中的人像区域及角标区域，并对每个所述视频帧中的人像区域及角标区域进行提取，包括：

7.根据权利要求6所述的方法，其特征在于，人像语义分割模型的训练过程，包括：

8.一种视频处理装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述第一训练单元，包括：

10.根据权利要求8所述的装置，其特征在于，所述标注单元，包括：