CN112601068B

CN112601068B - 视频数据增广方法、装置及计算机可读介质

Info

Publication number: CN112601068B
Application number: CN202011469190.3A
Authority: CN
Inventors: 段强; 李锐; 王建华
Original assignee: Shandong Inspur Scientific Research Institute Co Ltd
Current assignee: Shandong Inspur Scientific Research Institute Co Ltd
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2023-01-24
Anticipated expiration: 2040-12-15
Also published as: CN112601068A

Abstract

本发明提供了视频数据增广方法、装置及计算机可读介质，包括：将目标视频的每帧转化为依序排列的帧图像；S1：保存顺序最前的第一帧图像并将其作为目标帧图像放入比较区；S2：确定目标帧图像后一顺序的第二帧图像并将其作为比较图像放入比较区；S3：确定目标帧图像与比较图像的相似度，大于阈值执行S4，否则执行S5；S4：将第二帧图像后一顺序的第三帧图像作为比较图像放入比较区，执行S3；S5：保存比较图像，判断当前已保存的图像数量是否达到预设的数量上限，若否，执行S7，若是，执行S6；S6：将当前保存的比较图像作为目标帧图像放入比较区，执行S2；S7：根据已保存的图像生成3D张量。本发明的方案能够充分利用视频数据来进行3D张量的转化。

Description

视频数据增广方法、装置及计算机可读介质

技术领域

本发明涉及视频处理技术领域，特别涉及视频数据增广方法、装置及计算机可读介质。

背景技术

目前，将视频段转为3D张量的方式通常为将视频段中的连续固定帧合成一个3D张量，最为常见的是取视频中的连续16帧进行3D张量的合成。

然而，在事故录像回放中，当视频的时间较长时，视频的总帧数也会随之增加，可能会出现几十帧甚至上百帧的情况，此时只取连续的16帧会导致较大的误差，可能会错过视频中的关键部分，导致有限的视频数据没有被充分利用。

因此，需要一种方法来充分利用视频数据来进行3D张量的转化。

发明内容

本发明实施例提供了视频数据增广方法、装置及计算机可读介质，能够充分利用视频数据来进行3D张量的转化。

第一方面，本发明实施例提供了视频数据增广方法，包括：

将目标视频的每帧转化为依序排列的帧图像，还包括：

S1：保存所述帧图像中顺序最前的第一帧图像并作为目标帧图像放入预设的比较区；

S2：确定所述比较区中的所述目标帧图像后一顺序的第二帧图像，将所述第二帧图像作为比较图像放入比较区；

S3：确定所述比较区中所述目标帧图像与所述比较图像的相似度，当所述相似度大于预设的阈值时，执行S4，当所述相似度不大于所述阈值时，执行S5；

S4：将所述第二帧图像后一顺序的第三帧图像作为所述比较图像放入所述比较区，执行S3；

S5：保存所述比较图像，判断当前已保存的图像数量是否达到预设的数量上限，若否，执行S7，若是，执行S6；

S6：将当前保存的所述比较图像作为所述目标帧图像放入所述比较区，执行S2；

S7：根据已保存的图像生成3D张量。

可选地，

步骤S2中，所述确定所述比较区中所述目标帧图像与所述比较图像的相似度，包括：

将所述目标帧图像和所述比较图像进行等比例缩小；

按照相同的横向采样间隔和/或纵向采样间隔，分别对等比例缩小后的所述目标帧图像和所述比较图像进行线条采样，得到所述多个第一线条和所述多个第二线条；

从多个所述第一线条和多个所述第二线条中确定出多对待比对线条，其中，每对待比对线条包括具有相同位置的一个第一线条和一个第二线条；

对每对所述待比对线条中的所述第一线条与所述第二线条的每个相同位置的两个像素点进行RGB值比较，获得每对所述待比对线条的RGB值比较结果；

根据多对所述待比对线条的RGB值比较结果，计算所述目标帧图像与所述比较图像之间的相似度。

可选地，

在所述S1之前，还包括：对每张所述帧图像，均执行：

确定当前帧图像每个像素点的灰度值；

根据所述当前帧图像每个像素点的灰度值，确定所述当前帧图像的全局均值，其中，所述全局均值为所述当前帧图像各个像素点的灰度值的灰度值的平均值；

针对所述当前帧图像的每个像素点，均执行：

判断当前像素点的灰度值是否小于所述全局均值；

当所述当前像素点的灰度值小于所述全局均值时，确定所述当前像素点的局部均值，其中，所述局部均值为以所述当前像素点为中心的预设范围内的各个像素点的灰度值的平均值；

判断所述当前像素点的灰度值是否小于所述局部均值；

当所述当前像素点的灰度值小于所述局部均值时，确定所述当前像素点的邻域中值，其中，所述邻域中值为以所述当前像素点为中心的预设范围内的各个像素点的灰度值的中值；

根据所述当前像素点的邻域中值修改所述当前像素点的灰度值。

可选地，

在所述S4中将所述第二帧图像后一顺序的第三帧图像作为所述比较图像放入所述比较区之后，还包括：

在所述目标帧图像和所述第二帧图像中进行随机选择；

若选择结果为所述第二帧图像，则将所述第二帧图像作为所述目标帧图像放入所述比较区并替换已保存的所述目标帧图像。

可选地，

在所述S7之后，还包括：

判断所述目标视频的剩余帧图像数是否大于预设值；

当大于预设值时，对剩余的帧图像执行所述S1。

第二方面，本发明实施例提供了基于上述第一方面中任一提供的视频数据增广方法的视频数据增广装置，包括：

转化单元和处理单元；

所述转化单元，用于将目标视频的每帧转化为依序排列的帧图像；

所述处理单元，用于执行：

S7：根据已保存的图像生成3D张量。

可选地，

所述处理单元在执行所述确定所述比较区中所述目标帧图像与所述比较图像的相似度时，具体执行：

将所述目标帧图像和所述比较图像进行等比例缩小；

可选地，

还包括：滤波单元；

所述滤波单元，用于对每张所述帧图像，均执行：

确定当前帧图像每个像素点的灰度值；

针对所述当前帧图像的每个像素点，均执行：

判断当前像素点的灰度值是否小于所述全局均值；

判断所述当前像素点的灰度值是否小于所述局部均值；

第三方面，本发明实施例提供了视频数据增广装置，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行上述第一方面中任一提供的方法。

第四方面，本发明实施例提供了计算机可读介质，所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行上述第一方面中任一提供的方法。

本发明实施例提供了视频数据增广方法、装置及计算机可读介质。由上述技术方案可知，首先将待处理的目标视频的所有帧按照顺序转换为帧图像。保存所述帧图像中顺序最前的第一帧图像并作为目标帧图像放入预设的比较区；确定所述比较区中的所述目标帧图像后一顺序的第二帧图像，将所述第二帧图像作为比较图像放入比较区与作为比较图像的第一帧图像进行比较；确定所述比较区中所述目标帧图像与所述比较图像的相似度，当所述相似度大于预设的阈值时，确定两者相似，则继续用下一帧进行相似度的确定。若不相似则进行保存，直到达到数量的要求。最后根据已保存的图像生成3D张量。由此可见，本发明提供的方案通过相邻帧的图像相似度评价，设定阈值过滤相似相邻帧，基于帧间差异性的视频采样，使用图像相似度指标判断连续帧的相似性，仅当前后两帧图像有一定区分度时，才将图像保留。最后将保留的图像进行3D张量的生成，因此能够充分利用视频数据来进行3D张量的转化。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种视频数据增广方法的流程图；

图2是本发明一实施例提供的一种视频数据增广装置的示意图；

图3是本发明一实施例提供的另一种视频数据增广装置的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如前所述，目前，将视频段转为3D张量的方式通常为将视频段中的连续固定帧合成一个3D张量，最为常见的是取视频中的连续16帧进行3D张量的合成。这样针对一个发生极快(0.5s及以下)的动作有效，但是现实生活中很少有这种场景，如交通事故视频识别，打架斗殴识别等，事件发生的时间基本在2-4s，这样少则几十帧，多则上百帧的情况，只取其中连续16帧会导致较大的误差，可能会错过关键的时间点。

为了保证整段训练视频都可以被学习，通常还会均匀的从所有帧中进行采样，但这样导致训练集数量显著减少，一段视频只能提取出一组训练数据。因此本专利提出一种基于帧间差异性采样的用于视频内容识别模型训练的数据增广方法。基于帧间差异性的视频采样，并在一定范围内通过相似采样帧的随机组合进行数据增广，可以使有限的视频数据被充分利用。

下面结合附图对本发明各个实施例提供的视频数据增广方法、装置及计算机可读介质作详细的说明。

如图1所示，本发明一实施例提供了视频数据增广方法，该方法包括以下步骤：

步骤100：将目标视频的每帧转化为依序排列的帧图像；

步骤101：保存所述帧图像中顺序最前的第一帧图像并作为目标帧图像放入预设的比较区；

步骤102：确定所述比较区中的所述目标帧图像后一顺序的第二帧图像，将所述第二帧图像作为比较图像放入比较区；

步骤103：确定所述比较区中所述目标帧图像与所述比较图像的相似度是否大于预设的阈值，若是，执行步骤104，若否，执行步骤105；

步骤104：将所述第二帧图像后一顺序的第三帧图像作为所述比较图像放入所述比较区，执行步骤103；

步骤105：保存所述比较图像，判断当前已保存的图像数量是否达到预设的数量上限，若否，执行步骤107，若是，执行步骤106；

步骤106：将当前保存的所述比较图像作为所述目标帧图像放入所述比较区，执行步骤102；

步骤107：根据已保存的图像生成3D张量。

由上述技术方案可知，首先将待处理的目标视频的所有帧按照顺序转换为帧图像。

保存所述帧图像中顺序最前的第一帧图像并作为目标帧图像放入预设的比较区；确定所述比较区中的所述目标帧图像后一顺序的第二帧图像，将所述第二帧图像作为比较图像放入比较区与作为比较图像的第一帧图像进行比较；确定所述比较区中所述目标帧图像与所述比较图像的相似度，当所述相似度大于预设的阈值时，确定两者相似，则继续用下一帧进行相似度的确定。若不相似则进行保存，直到达到数量的要求。最后根据已保存的图像生成3D张量。由此可见，本发明提供的方案通过相邻帧的图像相似度评价，设定阈值过滤相似相邻帧，基于帧间差异性的视频采样，使用图像相似度指标判断连续帧的相似性，仅当前后两帧图像有一定区分度时，才将图像保留。最后将保留的图像进行3D张量的生成，因此能够充分利用视频数据来进行3D张量的转化。

在本发明一实施例中，步骤102中，所述确定所述比较区中所述目标帧图像与所述比较图像的相似度，包括：

将所述目标帧图像和所述比较图像进行等比例缩小；

分别对目标帧图像和比较图像进行等比例缩小，按照相同的横向采样间隔和/或纵向采样间隔，分别对等比例缩小后的目标帧图像和比较图像进行线条采样，得到多个第一线条和多个第二线条。其中，横向采样间隔、纵向采样间隔可以根据实际需要进行设定。当按照相同的横向采样间隔对等比例缩小后的目标帧图像和比较图像进行线条采样，可以得等比例缩小后的目标帧图像中的多个第一横向线条以及等比例缩小后的比较图像中的多个第二横向线条，当按照相同的纵向采样间隔对等比例缩小后的目标帧图像和比较图像进行线条采样，可以得等比例缩小后的目标帧图像中的多个第一纵向线条以及等比例缩小后的比较图像中的多个第二纵向线条。在实际应用中，可以将图片尺寸相同的目标帧图像和比较图像分别进行等比例缩小为720x540，并按照宽度间隔为20像素，纵向采样间隔为30像素进行线条采样，得到多个第一线条和多个第二线条，多个第一线条和多个第二线条中均包含横向线条和纵向线条。通过在对图片尺寸相同的目标帧图像和比较图像进行线条采样前，对目标帧图像和比较图像进行等比例缩小，能够极大地节省计算时间和计算资源；另外，通过对等比例缩小后的目标帧图像和比较图像进行线条采样，得到多个第一线条和多个第二线条，便于后续直接利用多个第一线条的像素点和多个第二线条上的像素点进行图片相似度计算，能够进一步地节省计算时间和计算资源。

可以根据各个第一线条在目标帧图像中的位置信息和各个第二线条在比较图像中的位置信息，确定出每对待比对线条中所包括的具有相同位置的一个第一线条和一个第二线条。本实施例中，目标帧图像和比较图像具有相同尺寸，目标帧图像的每个第一线条和比较图像中的每个第二线条一一对应，一一对应的目标帧图像的第一线条和比较图像的第二线条具有相同位置，具有相同位置的目标帧图像的第一线条和比较图像的第二线条形成一对待比对线条。

针对每对待比对线条中的第一线条与第二线条的每个相同位置，对相同位置的两个像素点的RGB值进行差值计算，当相同位置的两个像素点的RGB值对应的差值中至少有一个超过预设差值时，则确定该相同位置的两个像素点的RGB值不同，否则，则确定该相同位置的两个像素点的RGB值相同；对每对待比对线条中的RGB值相同的像素点数量和RGB值不同的像素点数量进行统计，以获取每对待比对线条的RGB值比较结果。

其中，在每对待比对线条中，第一线条上的每个像素点与第二线条上的每个像素点一一对应，一一对应的第一线条上的像素点和第二线条上的像素点具有相同位置。

具体地，可以对每对待比对线条中第一线条和第二线条每个相同位置的像素点进行遍历，针对每个相同位置，获取该相同位置的两个像素点之间的RGB值差值。

示例性地，对每个相同位置的两个像素点的RGB值进行差值计算时，根据该相同位置的两个像素点各自的R值、G值、B值，对该相同位置的两个像素点的RGB值进行差值计算，为了便于描述，可以将第一线条和第二线条上的某个相同位置的两个像素点分别记为D1和D2，像素点D1的RGB值分别为R1、G1、B1，像素点D2的RGB值分别为R2、G2、B2，那么像素点D1和像素点D2的RGB值对应的差值分别为|R1-R2|、|G1-G2|、|B1-B2|。当|R1-R2|、|G1-G2|、|B1-B2|中至少有一个超过预设差值时，则确定该相同位置的两个像素点的RGB值不同，并对该相同位置标记为0，否则，则确定该相同位置的两个像素点的RGB值相同，对该相同位置标记为1。

根据每对待比对线条中的RGB值相同的像素点数量和RGB值不同的像素点数量，计算目标帧图像与比较图像之间的相似度。

更为具体地，根据每对待比对线条中的RGB值相同的像素点数量，统计出RGB值相同的像素点的总数量，根据每对待比对线条中的RGB值相同的像素点数量和RGB值不同的像素点数量，统计所有像素点的总数量，计算RGB值相同的像素点的总数量与所有像素点的总数量之间的比值，将计算得到的比值作为目标帧图像与比较图像之间的相似度。

在本发明一实施例中，在步骤101之前，还包括：对每张所述帧图像，均执行：

确定当前帧图像每个像素点的灰度值；

针对所述当前帧图像的每个像素点，均执行：

判断当前像素点的灰度值是否小于所述全局均值；

判断所述当前像素点的灰度值是否小于所述局部均值；

具体的，将视频所有帧转换为图像之后，需要对所有的图像做统一的预处理。为了使图像更清晰，在处理之前通常会进行滤波。图像滤波，即在尽量保留图像细节特征的条件下对目标图像的噪声进行抑制，是图像预处理中不可缺少的操作，其处理效果的好坏将直接影响到后续图像处理和分析的有效性和可靠性。在本发明实施例中，通过逐像素点比较局部均值和全局均值判断该像素点是否为噪声，修改该像素点灰度，从而得到降噪后的图像，能够在滤除图像噪声的同时能够保护图像的边缘不被模糊，更好图像滤波的效果，提高信噪比。

在本发明一实施例中，在步骤104中将所述第二帧图像后一顺序的第三帧图像作为所述比较图像放入所述比较区之后，还包括：

在所述目标帧图像和所述第二帧图像中进行随机选择；

具体地，基于帧间差异性的视频采样，使用图像相似度指标判断连续帧的相似性，仅当前后两帧图像有一定区分度时，才将图像保留。如果相似度高于一定程度，可以认为两张图像的内容基本相同，因此二者可以互相进行取代，由此，在这里引入随机性，能够提高数据增光的效果。

在本发明一实施例中，在所述步骤107之后，还包括：

判断所述目标视频的剩余帧图像数是否大于预设值；

当大于预设值时，对剩余的帧图像执行步骤101。

具体来说，通常保存的图片为16张，然而，如果视频包含的帧数较多且内容的差异性较大，因此在实际操作中，有可能保存了16张图片后，原视频仍然还有很多内容没有被利用到，因此，可以用原视频剩下的内容再进行一次上述处理，从而更好地利用视频数据。

如图2所示，本发明一实施例提供了基于上述实施例中任一提供的视频数据增广方法的视频数据增广装置，包括：

转化单元201和处理单元202；

所述转化单元201，用于将目标视频的每帧转化为依序排列的帧图像；

所述处理单元202，用于执行：

S7：根据已保存的图像生成3D张量。

在本发明一实施例中，所述处理单元202在执行所述确定所述比较区中所述目标帧图像与所述比较图像的相似度时，具体执行：

将所述目标帧图像和所述比较图像进行等比例缩小；

如图3所示，在本发明一实施例中，该装置还包括：滤波单元301；

所述滤波单元301，用于对每张所述帧图像，均执行：

确定当前帧图像每个像素点的灰度值；

根据所述当前帧图像每个像素点的灰度值，确定所述当前帧图像的全局均值，其中，所述全局均值为所述当前帧图像各个像素点的灰度值的平均值；

针对所述当前帧图像的每个像素点，均执行：

判断当前像素点的灰度值是否小于所述全局均值；

判断所述当前像素点的灰度值是否小于所述局部均值；

可以理解的是，本发明实施例示意的结构并不构成对视频数据增广装置的具体限定。在本发明的另一些实施例中，视频数据增广装置可以包括比图示更多或者更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。

上述视频数据增广装置内的各单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

本发明还提供了一种计算机可读介质，存储用于使一计算机执行如本文所述的视频数据增广方法的指令。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。

此外，可以理解的是，将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。

需要说明的是，上述各流程和各系统结构图中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。上述各实施例中描述的系统结构可以是物理结构，也可以是逻辑结构，即，有些模块可能由同一物理实体实现，或者，有些模块可能分由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

以上各实施例中，硬件单元可以通过机械方式或电气方式实现。例如，一个硬件单元可以包括永久性专用的电路或逻辑(如专门的处理器，FPGA或ASIC)来完成相应操作。硬件单元还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器)，可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。

上文通过附图和优选实施例对本发明进行了详细展示和说明，然而本发明不限于这些已揭示的实施例，基于上述多个实施例本领域技术人员可以知晓，可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例，这些实施例也在本发明的保护范围之内。

Claims

1.视频数据增广方法，其特征在于，包括：

将目标视频的每帧转化为依序排列的帧图像，还包括：

S7：根据已保存的图像生成3D张量；

将所述目标帧图像和所述比较图像进行等比例缩小；

按照相同的横向采样间隔和/或纵向采样间隔，分别对等比例缩小后的所述目标帧图像和所述比较图像进行线条采样，得到多个第一线条和多个第二线条；

根据多对所述待比对线条的RGB值比较结果，计算所述目标帧图像与所述比较图像之间的相似度；

在所述S1之前，进一步包括：对每张所述帧图像，均执行：

确定当前帧图像每个像素点的灰度值；

针对所述当前帧图像的每个像素点，均执行：

判断当前像素点的灰度值是否小于所述全局均值；

判断所述当前像素点的灰度值是否小于所述局部均值；

根据所述当前像素点的邻域中值修改所述当前像素点的灰度值；

在所述S4中将所述第二帧图像后一顺序的第三帧图像作为所述比较图像放入所述比较区之后，进一步包括：

在所述目标帧图像和所述第二帧图像中进行随机选择；

若选择结果为所述第二帧图像，则将所述第二帧图像作为所述目标帧图像放入所述比较区并替换已保存的所述目标帧图像；

在所述S7之后，进一步包括：

判断所述目标视频的剩余帧图像数是否大于预设值；

当大于预设值时，对剩余的帧图像执行所述S1。

2.基于权利要求1中所述的视频数据增广方法的视频数据增广装置，其特征在于，包括：

转化单元和处理单元；

所述处理单元，用于执行：

S7：根据已保存的图像生成3D张量；

将所述目标帧图像和所述比较图像进行等比例缩小；

进一步包括：滤波单元；

所述滤波单元，用于对每张所述帧图像，均执行：

确定当前帧图像每个像素点的灰度值；

针对所述当前帧图像的每个像素点，均执行：

判断当前像素点的灰度值是否小于所述全局均值；

判断所述当前像素点的灰度值是否小于所述局部均值；

3.视频数据增广装置，其特征在于，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行权利要求1中所述的方法。

4.计算机可读介质，其特征在于，所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行权利要求1中所述的方法。