CN113344884A

CN113344884A - 一种视频图形区域检测及压缩方法、装置及介质

Info

Publication number: CN113344884A
Application number: CN202110656669.6A
Authority: CN
Inventors: 陈映庭; 陈勇平; 郑倩萍; 俞翔
Original assignee: Shenzhen Focus Digital Technology Co ltd; Guangzhou Huiyi Culture Technology Co ltd
Current assignee: Shenzhen Focus Digital Technology Co ltd; Guangzhou Huiyi Culture Technology Co ltd
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2021-09-03
Anticipated expiration: 2041-06-11
Also published as: CN113344884B

Abstract

本发明公开了一种视频图形区域检测方法，其包括：S1，获取视频图像；S2，对所述视频图像进行分割获取视频块，并对所述分割后视频块使用预设的神经网络进行检测，输出图像区域以及图形区域；所述预设的卷积神经网络包括：输入层，第一卷积中间层，第一卷积层，第二卷积中间层，第二卷积层；全连接层以及输出层。其中第一卷积层的步长大于第一卷积中间层步长，第二卷积层的步长大于第二卷积中间层的步长。此外，进一步公开了一种视频压缩方法，设置第一卷积层的步长大于第一卷积中间层的步长，第二卷积层的步长大于第二卷积中间层的步长，避免使用最大池化层，避免了在卷积之后有最大池化层带来的较多效率下降。

Description

一种视频图形区域检测及压缩方法、装置及介质

技术领域

本发明涉及视频编解码技术领域，具体来说，涉及一种视频图形区域检测及压缩方法、装置及介质。

背景技术

网络上的视频内容越来越丰富，图像和图形结合的形式或者仅仅只有图形的视频内容也多了起来。图像是指通过摄像机捕获的真实世界画面，如电视新闻画面、非动画类电影电视剧；图形是指计算机生成的画面，如操作系统界面、游戏和动画。传统的视频压缩算法并不区分图形和图像，主要通过离散余弦变换(Discrete Cosine Transform，DCT)进行空间域到频域的变换，再消除掉高频信息，形成大片连续分量，从而实现帧内的压缩。

使用现有的压缩方式时，对于一般的真实世界的图像，画面边缘本身过渡就比较平缓，高频部分不多，图像整体给人观感清晰度下降不明显，压缩效果好。但是计算机生成的图形，比如字体边缘，UI界面对话框等，黑白分明，边缘锐利，在经过压缩后边缘马赛克效应就非常明显。

例如在使用主播的形式来解说游戏时，使用现有的压缩方式，主播的画面的清晰度相对较好，但对于游戏画面，在窗体、文字等边缘锐利的画面元素，就比较模糊。

本文提供的背景描述用于总体上呈现本公开的上下文的目的。除非本文另外指示，在该章节中描述的资料不是该申请的权利要求的现有技术并且不要通过包括在该章节内来承认其成为现有技术。

发明内容

针对相关技术中的上述技术问题，本发明提出一种视频图形区域检测方法，其包括：

S1，获取视频图像；

S2，对所述视频图像进行分割获取视频块，并对所述分割后视频块使用预设的神经网络进行检测，输出图像区域以及图形区域；

所述预设的卷积神经网络包括：输入层，第一卷积中间层，第一卷积层，第二卷积中间层，第二卷积层；全连接层以及输出层。其中第一卷积层的步长大于第一卷积中间层步长，第二卷积层的步长大于第二卷积中间层的步长。

进一步的，所述第一卷积中间层、所述第二卷积中间层的步长均为1，所述第一卷积层、所述第二卷积层的步长均为2。

另一方面，本发明还提供了一种视频压缩的方法，其包括如下步骤：

S1，获取视频图像；

S2，获取所述视频图像中的所有帧图像；

S3，对所述帧图像进行分割获取视频块，并对所述分割后视频块使用预设的神经网络进行检测，输出图像区域以及图形区域；

S4，对识别出的图像区域使用第一压缩方式进行压缩，图形区域使用第二压缩方式进行压缩。

具体的，所述第一卷积中间层、所述第二卷积中间层的步长均为1，所述第一卷积层、所述第二卷积层的步长均为2。

具体的，还包括步骤S5,获取所述第一压缩方式压缩后的区域以及所述第二压缩方式压缩后的区域，将所述压缩后的文件进行合并。

第三方面，本发明的实施例提供了一种视频图形区域检测装置，其包括：

视频图像获取模块，用于获取视频图像；

图像及图形检测模块，用于对所述视频图像进行分割获取视频块，并对所述分割后视频块使用预设的神经网络进行检测，输出图像区域以及图形区域；

第四方面，本发明的实施例提供了一种视频压缩装置，其包括如下模块：

视频获取模块，用于获取视频图像；

帧图像获取模块，用于获取所述视频图像中的所有帧图像；

压缩模块，用于对识别出的图像区域使用第一压缩方式进行压缩，图形区域使用第二压缩方式进行压缩。

具体的，所述装置还包括：

合并模块，用于获取所述第一压缩方式压缩后的区域以及所述第二压缩方式压缩后的区域，将所述压缩后的文件进行合并。

第五方面，本发明的实施例提供了一种计算机存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时执行上述视频图形区域检测方法或者上述视频图像压缩方法。

本发明通过设置第一卷积层的步长大于第一卷积中间层的步长，第二卷积层的步长大于第二卷积中间层的步长，实现了一定的最大池化层(MaxPooling)效果，从而可以不使用MaxPooling层，避免了在卷积之后带来的Maxpooling由于效率低下的内存交换，带来较多效率下降。另一方面，本发明分别对图像和图形区域采用两种不同的压缩方式，从而避免了采用一种压缩方式，例如H.264带来的对图形区域，例如对于游戏画面，在窗体、文字等边缘锐利的画面元素，比较模糊的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种视频图形区域检测方法的流程示意图；

图2是本发明实施例的卷积神经网络示意图；

图3是本发明实施例提供另一卷积神经网络示意图；

图4是本发明实施例提供的一种视频压缩的方法流程示意图；

图5是本发明实施例提供的一种视频的图形区域检测装置结构示意图；

图6是本发明实施例提供的一种视频压缩的结构示意图；

图7是本发明实施例提供的一种视频的图形区域检测装置示意图；

图8是本发明实施例提供的一种视频压缩设备示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

参考附图1，本实施例实现了一种视频图形区域检测方法，其包括：

S1，获取视频图像；

所述视频图像一般包括图像和图像混合的视频图像，其中图像是指通过摄像机捕获的真实世界画面，如电视新闻画面、非动画类电影电视剧；图形是指计算机生成的画面，如操作系统界面、游戏和动画。

本实施例获取的视频图像可以是由摄像机直接获取的，例如摄像机直接获取相应的真实世界的画面，其中真实世界的画面中含有图形区域，例如摄像机直接录制主播在显示器上解说的游戏视频。另一方面，本实施例也可以分别获取图像视频和图形视频，例如摄像机获取主播画面，并将主播的画面叠加到图形视频流中。

参考图2，本步骤对视频图像进行检测使用预设的卷积神经网络，所述预设的卷积神经网络包括：输入层，第一卷积中间层，第一卷积层，第二卷积中间层，第二卷积层；全连接层以及输出层。其中第一卷积层的步长大于第一卷积中间层步长，第二卷积层的步长大于第二卷积中间层的步长。

在一个实施例中第一卷积中间层、第二卷积中间层的步长为1，第一卷积层、第二卷积层的步长为2。

本实施例通过设置第一卷积层的步长大于第一卷积中间层的步长，第二卷积层的步长大于第二卷积中间层的步长，实现了一定的最大池化层(MaxPooling)效果，从而可以不使用MaxPooling层，避免了在卷积之后带来的Maxpooling由于效率低下的内存交换，带来较多效率下降。此外，MaxPooling层消耗的时间可能比计算量更大的卷积层多5倍以上，本实施例的卷积神经网络将MaxPooling层替换为带了2步长的conv层，其效率大大提高，精度却没有下降。

参考图3，对本实施例使用的卷积神经网络进行图像和图形区域检测做进一步说明：

输入层是28*28的RGB位图，上下左右各padding 2个像素得到32*32的3通道图层。

第2层是经5*5*3卷积核和Relu激活的12通道卷积层，共32*32*5*5*3*12＝921600个连接，5*5*3*12＝900个参数(bias参数不计入)。

第3层是经3*3*12卷积核和Relu激活的24通道卷积层，加上padding，共32*32*3*3*12*24＝2654208个连接，3*3*12*24＝2592个参数(bias参数不计入)。

其中第2层、第3层是本实施例的第一卷积中间层。

第4层是经3*3*12卷积核和Relu激活的24通道卷积层，加上padding，共32*32*3*3*12*24＝2654208个连接，3*3*12*24＝2592个参数(bias参数不计入)。由于移动的步长增加到了2，因此有了一定的MaxPooling效果。

第4层是本实施例中的第一卷积层。

第5层是经3*3*24卷积核和Relu激活的48通道卷积层，加上padding，共18*18*3*3*24*48＝3359232个连接，3*3*24*48＝10368个参数(bias参数不计入)。

第6层是经3*3*48卷积核和Relu激活的96通道卷积层，加上padding，共18*18*3*3*48*96＝13436928个连接，3*3*24*48＝41472个参数(bias参数不计入)。

第5层、第6层是本实施例中的第二卷积中间层。

第7层是经3*3*48卷积核和Relu激活的96通道卷积层，加上padding，共32*32*3*3*12*24＝2654208个连接，3*3*12*24＝2592个参数(bias参数不计入)。由于移动的步长增加到了2，因此有了一定的MaxPooling效果。

第7层是本实施例中的第二卷积层。

第8层是一个1024个神经元的全连接层，一共有7*7*96*1024＝4816896个连接，以及相同数量的参数。

第9层是一个256个神经元的全连接层，一共有1024*256＝262144个连接，以及相同数量的参数。

第8层、第9层是本实施例中的全连接层。

第10层是一个2个节点输出的输出层，其含义是图像和图形的相似度，如果向量接近(1.0,0.0)表示图形，向量接近(0.0,1.0)表示分类为图像。

第10层是本实施例的输出层。

实施例二

参考图4，本实施例实现了一种视频压缩的方法，其包括如下步骤：

S1，获取视频图像；

S2，获取所述视频图像中的所有帧图像；

视频图像包括很多帧图像，例如对于一个1S的视频其包含24帧图像。

S4，对识别出的图像区域使用第一压缩方式进行压缩，图形区域使用第二压缩方式进行压缩；

其中第一压缩方式可以采用适用于与图像的压缩方式，例如H.264/265进行压缩；

第二压缩方式可以采用更适合图形特征的压缩算法进行编码；例如可以在压缩的时候设置更低的压缩率或者采用非压缩的方式。

本实施例分别对图像和图形区域采用两种不同的压缩方式，从而避免了采用一种压缩方式，例如H.264带来的对图形区域，例如对于游戏画面，在窗体、文字等边缘锐利的画面元素，比较模糊的问题。

进一步的，本实施例还包括步骤S5，获取所述第一压缩方式压缩后的区域以及所述第二压缩方式压缩后的区域，将所述压缩后的文件进行合并。

具体的在合并后的文件中可以指示采用的压缩方式，例如在文件中预留一个区域用于表示采用的不同的压缩方式，或者是将不同的压缩方式的文件分别进行存储，例如第一压缩方式的文件存储为第一文件，第二压缩方式的文件才存为第二文件，在解码时将所述第一文件和第二文件分别进行解码，经将解码后的文件进行合并，以获取完整的视频图像。

实施例三

参考图5，本实施例公开了一种视频图形区域检测装置，其包括：

视频图像获取模块，用于获取视频图像；

所述图像及图形检测模块对视频图像进行检测使用预设的卷积神经网络，所述预设的卷积神经网络包括：输入层，第一卷积中间层，第一卷积层，第二卷积中间层，第二卷积层；全连接层以及输出层。其中第一卷积层的步长大于第一卷积中间层步长，第二卷积层的步长大于第二卷积中间层的步长。

实施例四

参考图6，本实施例公开了一种视频压缩装置，其包括如下模块：

视频获取模块，用于获取视频图像；

帧图像获取模块，用于获取所述视频图像中的所有帧图像；

图像及图形区域检测模块，用于对所述帧图像进行分割获取视频块，并对所述分割后视频块使用预设的神经网络进行检测，输出图像区域以及图形区域；

参考图2，所述图像及图形区域检测模块，对视频图像进行检测使用预设的卷积神经网络，所述预设的卷积神经网络包括：输入层，第一卷积中间层，第一卷积层，第二卷积中间层，第二卷积层；全连接层以及输出层。其中第一卷积层的步长大于第一卷积中间层步长，第二卷积层的步长大于第二卷积中间层的步长。

压缩模块，用于对识别出的图像区域使用第一压缩方式进行压缩，图形区域使用第二压缩方式进行压缩；

进一步的，本实施例的视频压缩装置还包括：

实施例五

参考附图7，本实施例提供了一种视频图形区域检测设备20的结构示意图。该实施例的视频图形区域检测设备20包括处理器21、存储器22以及存储在所述存储器22中并可在所述处理器21上运行的计算机程序。所述处理器21执行所述计算机程序时实现上述视频图形区域检测方法实施例中的步骤。或者，所述处理器21执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器22中，并由所述处理器21执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述视频图形区域检测设备20中的执行过程。

所述视频图形区域检测设备20可包括，但不仅限于，处理器21、存储器22。本领域技术人员可以理解，所述示意图仅仅是视频图形区域检测设备20的示例，并不构成对视频图形区域检测设备20的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述视频图形区域检测设备20还可以包括输入输出设备、网络接入设备、总线等。

所述处理器21可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器21是所述视频图形区域检测设备20的控制中心，利用各种接口和线路连接整个视频图形区域检测设备20的各个部分。

所述存储器22可用于存储所述计算机程序和/或模块，所述处理器21通过运行或执行存储在所述存储器22内的计算机程序和/或模块，以及调用存储在存储器22内的数据，实现所述视频图形区域检测设备20的各种功能。所述存储器22可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述视频图形区域检测设备20集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器21执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

实施例六

参考图8，本实施例提供了一种视频压缩设备30的结构示意图。该实施例的视频压缩设备30包括处理器31、存储器32以及存储在所述存储器32中并可在所述处理器31上运行的计算机程序。所述处理器31执行所述计算机程序时实现上述视频压缩方法实施例中的步骤。或者，所述处理器31执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器32中，并由所述处理器31执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述视频压缩设备30中的执行过程。

所述视频压缩设备30可包括，但不仅限于，处理器31、存储器32。本领域技术人员可以理解，所述示意图仅仅是视频压缩设备30的示例，并不构成对视频压缩设备30的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述视频压缩设备30还可以包括输入输出设备、网络接入设备、总线等。

所述处理器31可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器31是所述视频压缩设备30的控制中心，利用各种接口和线路连接整个视频压缩设备30的各个部分。

所述存储器32可用于存储所述计算机程序和/或模块，所述处理器31通过运行或执行存储在所述存储器32内的计算机程序和/或模块，以及调用存储在存储器32内的数据，实现所述视频压缩设备30的各种功能。所述存储器32可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述视频压缩设备30集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器31执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频图形区域检测方法，其包括：

S1，获取视频图像；

2.根据权利要求1所述的方法，所述第一卷积中间层、所述第二卷积中间层的步长均为1，所述第一卷积层、所述第二卷积层的步长均为2。

3.一种视频压缩的方法，其包括如下步骤：

S1，获取视频图像；

S2，获取所述视频图像中的所有帧图像；

4.根据权利要求3所述的方法，所述第一卷积中间层、所述第二卷积中间层的步长均为1，所述第一卷积层、所述第二卷积层的步长均为2。

5.根据权利要求3所述的方法，还包括步骤S5,获取所述第一压缩方式压缩后的区域以及所述第二压缩方式压缩后的区域，将所述压缩后的文件进行合并。

6.一种视频图形区域检测装置，其包括：

视频图像获取模块，用于获取视频图像；

7.根据权利要求6所述的方法，所述第一卷积中间层、所述第二卷积中间层的步长均为1，所述第一卷积层、所述第二卷积层的步长均为2。

8.一种视频压缩装置，其包括如下模块：

视频获取模块，用于获取视频图像；

帧图像获取模块，用于获取所述视频图像中的所有帧图像；

9.根据权利要求8所述的装置，所述第一卷积中间层、所述第二卷积中间层的步长均为1，所述第一卷积层、所述第二卷积层的步长均为2。

10.根据权利要求8所述的装置，所述装置还包括：

11.一种计算机存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时执行如权利要求1-2任一项所述视频图形区域检测方法或者如权利要求3-5任一项所述视频图像压缩方法。