CN109168006A

CN109168006A - 一种图形和图像共存的视频编解码方法

Info

Publication number: CN109168006A
Application number: CN201811030179.XA
Authority: CN
Inventors: 胡颖; 俞翔; 黄仝宇; 汪刚; 宋兵; 宋一兵; 侯玉清; 刘双广
Original assignee: Gosuncn Technology Group Co Ltd
Current assignee: Gosuncn Technology Group Co Ltd
Priority date: 2018-09-05
Filing date: 2018-09-05
Publication date: 2019-01-08

Abstract

本发明属于视频编解码技术领域，具体涉及一种图形与图像共存的视频编解码方法，基于深度学习检测出文字、图形区域，剩余未检测出的部分，作为图像区域处理；然后，对图形区域和图像区域进行分别解码和解码，图像区域，采用传统的编解码方式；图形区域，采用矢量图的方式存储，其好处在于大大降低视频存储空间。本方案还可以大大节省解码时间，提高解码效率，并且在视频分辨率降低的同时，清晰度也不会下降。

Description

一种图形和图像共存的视频编解码方法

技术领域

本发明属于视频编解码技术领域，具体涉及一种图形与图像共存的视频编解码方法。

背景技术

计算机开启了信息处理的数字化时代，使得各种类型的数据都可以通过数字化利用计算机进行处理，但数字化过程中的过采样也引入了大量的数据冗余.特别是视频数据，未经压缩的原始视频数据量之大至今仍是存储和传输难以承受的，因此视频压缩一直是多媒体领域的热门研究问题之一。

目前，普通视频编解码技术中，大多都是基于一种图像格式进行编解码，压缩成H.264、H.265或MPEG格式，再解压成源图像格式进行播放，其编解码过程占用的资源多，带宽高，效率低，有一定损失，并且视频中的一些有效信息并不能记录在视频中，只能通过人眼去识别。

发明内容

本发明的目的是提出一种图形与图像共存的视频编解码方法，以解决现有技术中基于一种图像格式进行编解码从而导致编解码耗时长、占用的资源多以及效率低的问题。

本发明通过以下技术方案实现：

一种图形和图像共存的视频编解码方法，在图形与图像共存的视频画面中，基于深度学习检测出文字、图形区域，剩余未检测出的部分，作为图像区域处理；具体包括如下步骤：

(1)基于深度学习的图形文字检测方法，以中文字体库和基础图形库作为特征模板，对画面进行特征提取，并与特征模板匹配，对识别出的文字、图形进行分类、分块；

(2)对图形区域和图像区域分别进行编码；其中，对识别出的图形区域进行矢量格式编码，未识别出的区域作为图像区域，对该区域还进行传统图像格式编码；

(3)对图形区域和图像区域分别进行解码；其中，对图形区域的矢量格式解码，还原出原来的图形，对于原本的实时视频图像，以传统图像格式解码。

优选的，所述的步骤(1)中，基于深度学习的图形文字检测方法包括步骤：

A.图像预处理：图像转为灰度图，灰度值归一化，图像缩放；

B.特征提取：对待处理的图像，通过深度卷积自编码网络提取特征图；

C.分块识别：对步骤A中提取到的所有特征图进行分块，通过稀疏字典对分块进行匹配、识别和分类；

D.融合定位：对步骤B中的分块根据区域和分类进行融合，并记录其在图像中的位置、大小。

优选的，中文字体库包含各种中文字体的汉字库，基础图形库包含圆形、矩形、三角形和平行四边形基础图形。

优选的，所述的步骤(2)还包括，基于上述检测方法，对检测出来的文字、图形区域使用矢量格式编码，并记录文字、图形区域所在的位置、大小。

优选的，所述的步骤(2)还包括，对当前帧和上一帧的对应图形区域做匹配，记录每块图形区域持续的时间长度。

优选的，所述的步骤(2)还包括，提取识别的文字、图形，并以文字描述其内容、大小、字体、颜色及其他图形组成特征。

优选的，所述的步骤(2)还包括，传统图像格式编码采用H.264或H.265。

优选的，所述的步骤(3)还包括，根据各图形区域的持续时间，帧间相同图形，只做一次解码。

优选的，所述的步骤(3)还包括，视频关键字搜索时，匹配编码时的画面内容文字描述，定位到含有关键字的视频帧或视频段。

优选的，所述的步骤(3)还包括，解码时，可根据需求对图形编码的分辨率进行缩小或扩大。

与现有技术相比，本发明至少具有下述的有益效果或优点：

本发明提供的这种图形与图像共存的视频编解码方法，大大降低了视频存储空间，节省解码时间，并且提高了解码效率。解码时，本发明可以将本来分辨率较大的视频，图像区域分辨率保持不变，图形区分辨率减小，因为矢量图的清晰度不会随分辨率减小而失真，故而，在视频分辨率降低的同时，清晰度不会下降。还可以提取出图形中的文字、图形、颜色等信息，可以对视频内容在一定程度上进行描述；且在搜索视频时，匹配视频内容，即可定位到某一帧画面或某一段视频画面。

附图说明

以下将结合附图对本发明做进一步详细说明；

图1是本发明的整体流程图；

图2是本发明的基于深度学习的图形文字检测方法的流程图；

图3是本发明的一个以PPT为背景的实施方式图；

图4是对图3的背景PPT分辨率同比扩大后的图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种图形与图像共存的视频编解码方法，整体流程如图1所示。

首先，在录制过程中，使用深度学习识别出文字、图形和图像的位置、大小，再对识别出来的文字、图形进行颜色匹配，记录每个图形的颜色。

基于深度学习的图形文字检测方法，首先，通过图形、文字样本训练深度卷积自编码网络，然后通过已标记的样本，通过稀疏字典进行分类。将文字字体库、基础图形库作为特征模板，文字字体库包含各种中文字体的汉字库，基础图形库包含圆形、矩形、三角形、平行四边形等各种基础图形；对文字和基础图形设定不同大小，使用分层训练的方式学习特征模板，然后对已有的标记样本，使用深度网络学习得到的特征模板进行特征提取。最后把提取的特征以单个作为识别单位，训练稀疏字典以及分类器。识别时，对待处理的图像，只用特征模板提取特征，再使用稀疏字典进行分类获取结果。

基于深度学习的图形文字检测方法，如图2所示，包括以下步骤：

1.图像预处理：图像转为灰度图，灰度值归一化，图像缩放；

需要说明的是，图像灰度值归一化是为了增加对比度，让图像更加清晰，图像缩放是为统一图像固定高度，缩放时会尽量保持原始图像的宽高比；

2.特征提取：对待处理的图像，通过深度卷积自编码网络提取特征图；

3.分块识别：对步骤1中提取到的所有特征图进行分块，通过稀疏字典对分块匹配、识别、分类；

4.融合定位：对步骤2中的分块根据区域和分类进行融合，并记录其在图像中的位置、大小。

然后，对图形和图像区域分别编码；

编码时，基于上述检测方法，对检测出来的文字、图形区域使用矢量方式编码，并记录文字、图形区域所在的位置、大小；

编码时，因为图形区域的内容一般会持续一段时间再更换，所以，我们根据此特征进行优化，将每一帧画面与上一帧画面进行对比，对不变的图形区域进行记录，直到该区域内容变化为止，计算该图形的持续时间，在此时间的帧内图形区域，不进行重复编码，提高编码效率，减少编码时间，降低编码成本；

编码时，用上述的基于深度学习的图形文字检测方法，检测出来的文字、图形，均可以文字描述，编码时，将描述的文字编入视频中，可以为搜索视频时提供依据；

编码时，未识别出的区域作为图像区域，对该区域还进行传统图像格式编码，例如H.264或H.265，本文中只列举这两种格式，不代表只局限于这两种编码格式。

最后，对图形和图像区域分别解码。

解码时，对图形区域的矢量编码格式解码，还原出原来的图形，速度快；

解码时，根据各图形所携带的持续时间进行解码，带宽小，成本低；

解码时，因为图形编码不受分辨率的影响，将矢量图形的宽高同比拉伸或压缩，都不会使其产生形变，也不会降低其清晰度，故解码时，可根据需求对其分辨率进行缩小或扩大。例如，以PPT为背景的、上面有实时视频的图像，如图3所示，由于PPT大多都以文字、图形构成，所以将背景按需同比缩小或放大分辨率，都不会对整体造成太大的影响，图4展示了背景PPT分辨率同比扩大，图像分辨率不变的效果；

解码时，由于编码时以文字记录了每帧的内容，所以视频搜索时，可以对视频的内容进行文字搜索，并能精确定位到分布的视频帧或视频段；

解码时，对于原本的实时视频图像，还以传统图像格式解码。

应用场景举例：

直播授课的视频图像中，通常背景为授课的PPT，授课老师的实时动态画面在图像中的某一矩形区域内，授课的PPT大多由文字、图形和图案组成，这时候，采用上述深度学习的图形文字检测方法，检测出文字、图形，及由图形构成的简单图案，将它们与实时图像做出区分，再分别编解码，可大大提高编解码效率，降低编解码带宽。

综上所述，本方案对于图像区域，依然采用传统的编解码方式；图形区域，我们采用矢量图的方式存储，其大大降低视频存储空间。

因为大部分时间中，图形区域的画面阶段性不变，只要在编码时记录该图形区域的持续时间，在该段持续时间的开始时刻，只解码一次，后面的时间中都采用该解码图片显示，这样便大大节省解码时间，提高解码效率。

解码时，本案可以将本来分辨率较大的视频，图像区域分辨率保持不变，图形区分辨率减小，因为矢量图的清晰度不会随分辨率减小而失真，故而，在视频分辨率降低的同时，清晰度不会下降。

本方案可以提取出图形中的文字、图形、颜色等信息，可以对视频内容在一定程度上进行描述。且在搜索视频时，匹配视频内容，即可定位到某一帧画面或某一段视频画面。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。在不脱离本发明之精神和范围内，所做的任何修改、等同替换、改进等，同样属于本发明的保护范围之内。

Claims

1.一种图形和图像共存的视频编解码方法，其特征在于，包括步骤：

2.根据权利要求1所述的图形和图像共存的视频编解码方法，其特征在于，所述的步骤(1)中，基于深度学习的图形文字检测方法包括步骤：

A.图像预处理：图像转为灰度图，灰度值归一化；

3.根据权利要求1所述的图形和图像共存的视频编解码方法，其特征在于，中文字体库包含各种中文字体的汉字库，基础图形库包含圆形、矩形、三角形和平行四边形基础图形。

4.根据权利要求2所述的图形和图像共存的视频编解码方法，其特征在于，所述的步骤(2)还包括，基于上述检测方法，对检测出来的文字、图形区域使用矢量格式编码，并记录文字、图形区域所在的位置、大小。

5.根据权利要求2所述的图形和图像共存的视频编解码方法，其特征在于，所述的步骤(2)还包括，对当前帧和上一帧的对应图形区域做匹配，记录每块图形区域持续的时间长度。

6.根据权利要求2所述的图形和图像共存的视频编解码方法，其特征在于，所述的步骤(2)还包括，提取识别的文字、图形，并以文字描述其内容、大小、字体、颜色及其他图形组成特征。

7.根据权利要求2所述的图形和图像共存的视频编解码方法，其特征在于，所述的步骤(2)还包括，传统图像格式编码采用H.264或H.265。

8.根据权利要求1所述的图形和图像共存的视频编解码方法，其特征在于，所述的步骤(3)还包括，根据各图形区域的持续时间，帧间相同图形，只做一次解码。

9.根据权利要求1所述的图形和图像共存的视频编解码方法，其特征在于，所述的步骤(3)还包括，视频关键字搜索时，匹配编码时的画面内容文字描述，定位到含有关键字的视频帧或视频段。

10.根据权利要求1所述的图形和图像共存的视频编解码方法，其特征在于，所述的步骤(3)还包括，解码时，可根据需求对图形编码的分辨率进行缩小或扩大。