CN113242428B - 视频会议场景下基于roi区域的后处理加速方法 - Google Patents
视频会议场景下基于roi区域的后处理加速方法 Download PDFInfo
- Publication number
- CN113242428B CN113242428B CN202110406286.3A CN202110406286A CN113242428B CN 113242428 B CN113242428 B CN 113242428B CN 202110406286 A CN202110406286 A CN 202110406286A CN 113242428 B CN113242428 B CN 113242428B
- Authority
- CN
- China
- Prior art keywords
- roi
- frame
- region
- video
- post
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012805 post-processing Methods 0.000 title claims abstract description 64
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000001133 acceleration Effects 0.000 title claims abstract description 45
- 238000012545 processing Methods 0.000 claims abstract description 25
- 230000002708 enhancing effect Effects 0.000 claims abstract description 8
- 238000012937 correction Methods 0.000 claims description 35
- 238000004590 computer program Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 abstract description 15
- 230000008569 process Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 19
- 238000012360 testing method Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
- H04N19/137—Motion inside a coding unit, e.g. average field, frame or block difference
- H04N19/139—Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/154—Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/167—Position within a video image, e.g. region of interest [ROI]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明公开了一种视频会议场景下基于ROI区域的后处理加速方法,包括:若当前帧为第一帧,对视频的第一帧进行人脸识别处理得到人脸区域;将所述人脸区域进行扩展以得到ROI区域,对所述ROI区域进行图像质量增强;若当前帧不为第一帧,获取所述当前帧在前一帧的所述ROI区域内的运动矢量信息,根据所述运动矢量信息在所述当前帧对所述ROI区域进行位移,对位移后的所述ROI区域进行图像质量增强。针对视频会议场景的特点,借助人脸识别网络与视频编解码过程得到的运动矢量信息获取ROI区域,然后对此ROI区域进行后处理,输入质量增强网络就可以实现视频的部分增强,提升了后处理的运算效率,从而减少后处理的算法耗时。
Description
技术领域
本发明涉及视频编解码与深度学习技术领域,特别涉及一种视频会议场景下基于ROI区域的后处理加速方法。
背景技术
在工作中常常会应用到视频会议,视频会议场景下,一般会包含背景和与会人员两种内容,前者的信息通常并不被重视,因此单独获取与会人员信息并进行质量增强提高其表现是非常重要的,相关技术中对于与会人员的视频质量增强的方法常常都是算法复杂度较高,且图像质量增强的效果也不是很好,并没有得到很好地应用。
发明内容
本发明旨在至少解决现有技术中存在的技术问题。为此,本发明提出一种视频会议场景下基于ROI区域的后处理加速方法,能够降低视频后处理算法复杂度,减少视频后处理质量增强技术的运算时间,提升数据处理的速度。
本发明还提出一种具有上述视频会议场景下基于ROI区域的后处理加速方法的视频会议场景下基于ROI区域的后处理加速系统。
本发明还提出一种计算机可读存储介质。
第一方面,本实施例提供了一种视频会议场景下基于ROI区域的后处理加速方法,包括以下步骤:
若当前帧为第一帧,对视频的第一帧进行人脸识别处理得到人脸区域;
将所述人脸区域进行扩展以得到ROI区域,对所述ROI区域进行图像质量增强;
若当前帧不为第一帧,获取所述当前帧在前一帧的所述ROI区域内的运动矢量信息,根据所述运动矢量信息在所述当前帧对所述ROI区域进行位移,对位移后的所述ROI区域进行图像质量增强。
根据本发明实施例的视频会议场景下基于ROI区域的后处理加速方法,至少具有如下有益效果:
本实施例针对视频会议场景的特点,借助人脸识别网络与视频编解码过程得到的运动矢量信息获取ROI区域(Region of Interest,感兴趣区域),然后对此ROI区域进行后处理,输入质量增强网络就可以实现视频的部分增强,提升了后处理的运算效率,从而减少后处理的算法耗时。
首先对视频当前帧进行判断,若当前帧为视频的第一帧,借助人脸识别网络对第一帧进行人脸识别处理,获得人脸区域,人脸区域的数量可以是一个、两个或者多个,但是会有一个主要的人脸区域,再将人脸区域进行扩展以得到ROI区域,再对ROI区域进行图像质量增强处理;若当前帧不是视频的第一帧,可以是第2帧、第3帧或者其它帧,获取所述当前帧的所述ROI区域内的全部运动矢量信息,根据运动矢量信息对ROI区域进行位移,在对位移后的ROI区域进行图像质量增强处理,直到处理到视频的最后一帧。
常规的H.265/HEVC标准发布不久,算法复杂度较高,目前网络直播,电视点播等实时应用技术普遍采用H.264/AVC标准,而卷积神经网络模型又十分复杂,计算复杂度高,所以基于深度学习网络的HEVC视频编解码及后处理的实时需求研究存在空白。
本实施例提供的视频会议场景下基于ROI区域的后处理加速方法,能够有效降低算法复杂度,提升视频会议场景中与会人员信息的图像质量,减少视频后处理的算法耗时,具有很好的实用价值。
根据本发明的一些实施例,在所述视频每间隔设定数量的视频帧之间设置一个校正帧,对所述校正帧进行人脸识别处理得到所述人脸区域,将所述人脸区域进行扩展以得到ROI区域,以对所述ROI区域进行校正。对视频每N帧使用一次人脸识别的人脸区域进行校正,后续N-1帧使用基于运动矢量计算位移得到的ROI区域。
根据本发明的一些实施例,所述对视频第一帧进行人脸识别处理得到人脸区域,包括步骤:对所述视频所述第一帧使用YOLO网络进行人脸识别处理得到所述人脸区域。YOLO(You Only Look Once)是一种基于深度神经网络的目标定位与识别算法,可以判断输入图像中的物体位置与其种类,输出此物体所在的方框坐标与具体类别。
根据本发明的一些实施例,所述将所述人脸区域进行扩展以得到ROI区域,包括步骤:将所述人脸区域向左右分别扩展一个所述人脸区域的宽度,向上扩展半个所述人脸区域的长度,向下扩展至图像下沿,以得到所述ROI区域。针对每一个YOLO网络所识别出的区域,对其向左右两侧各扩充一个识别框的大小,向上方扩充半个识别框的大小,向下则取至图像下沿,因为考虑到视频会议通常仅包含人员半身;然后将所有区域合并为一个,取能包含全部区域的公共最大区域为最终ROI区域。
根据本发明的一些实施例,所述ROI区域大小为8的整数倍。由于STDF网络对输入图像尺寸的要求,需要增加区域大小判断机制,使ROI区域的大小为8的整数倍。
根据本发明的一些实施例,在所述对所述校正帧进行人脸识别处理得到所述人脸区域之前,包括步骤:根据所述校正帧的前一帧的所述ROI区域,获取所述校正帧在所述ROI区域内的运动矢量信息,根据所述校正帧的运动矢量信息获得所述校正帧的粗略ROI区域。
根据本发明的一些实施例,所述根据所述校正帧的运动矢量信息获得所述校正帧的所述粗略ROI区域,包括步骤:计算所述校正帧的运动矢量信息的每一列和;对所述校正帧从左到右判断,当此列和大于阈值且当前列位置距离图像左边沿超过四分之一图像宽度,设置当前位置为所述粗略ROI区域左边界;对所述校正帧从右到左判断,当此列和大于所述阈值且当前列位置距离所述图像右边沿超过四分之一图像宽度,设置当前位置为所述粗略ROI区域右边界。
第二方面,本实施例提供了一种视频会议场景下基于ROI区域的后处理加速系统,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的视频会议场景下基于ROI区域的后处理加速方法。
根据本发明实施例的视频会议场景下基于ROI区域的后处理加速系统,至少具有如下有益效果:视频会议场景下基于ROI区域的后处理加速系统应用了如第一方面所述的视频会议场景下基于ROI区域的后处理加速方法,针对视频会议场景的特点,借助人脸识别网络与视频编解码过程得到的运动矢量信息获取ROI区域(Region of Interest,感兴趣区域),然后对此ROI区域进行后处理,输入质量增强网络就可以实现视频的部分增强,提升了后处理的运算效率,从而减少后处理的算法耗时。
第三方面,本实施例提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如第一方面所述的视频会议场景下基于ROI区域的后处理加速方法。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中摘要附图要与说明书附图的其中一幅完全一致:
图1是本发明一个实施例提供的视频会议场景下基于ROI区域的后处理加速方法的流程图;
图2本发明另一个实施例提供的基于运动矢量信息的ROI区域判断准确率图;
图3是本发明另一个实施例提供的视频会议场景下基于ROI区域的后处理加速方法获取的人脸区域图;
图4是本发明另一个实施例提供的视频会议场景下基于ROI区域的后处理加速方法扩展得到的ROI区域图;
图5是本发明另一个实施例提供的视频会议场景下基于ROI区域的后处理加速方法运动矢量数值大小示意图;
图6是本发明另一个实施例提供的视频会议场景下基于ROI区域的后处理加速方法的流程图;
图7是本发明另一个实施例提供的实验配置信息图;
图8是本发明另一个实施例提供的测试序列图,图9是本发明另一个实施例提供的测试结果图;
图9是本发明另一个实施例提供的测试结果图;
图10是本发明另一个实施例提供的视频会议场景下基于ROI区域的后处理加速方法的原始图像;
图11是本发明另一个实施例提供的视频会议场景下基于ROI区域的后处理加速方法的部分增强后图像。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
需要说明的是,虽然在系统示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于系统中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
相关技术中对图像质量增强的技术有STDF技术,STDF模型由时空变形卷积模块STDC和质量增强模块QE两个模块构成,在STDC模块中,首先对图像进行3次下采样,使得在相同的搜索步长条件下,实际搜索范围更大,提高卷积偏移量的精度,再进行3次上采样把所得偏移量恢复到原始图片大小,得到前后各3个相邻帧和当前帧共(2×3+1)个帧的偏移量,这些偏移量用于时空可变卷积的计算。通过时空可变卷积的计算,将当前帧空间和时间上的信息融合得到时空特征图,再经过QE模块,其中包含输入、输出、隐藏层共8层网络,每一层网络的维度为48-64层不等,用以提取恢复更深层次的细节特征,最终得到残差图,将此残差图与原始帧相加得到质量增强后的新图像,该网络计算复杂度高,耗时较大。
本发明提供了一种视频会议场景下基于ROI区域的后处理加速方法,针对视频会议场景的特点,减少视频后处理质量增强技术的运算时间,能够满足实时应用的需求。
下面结合附图,对本发明实施例作进一步阐述。
参照图1和图2,图1是本发明一个实施例提供的视频会议场景下基于ROI区域的后处理加速方法的流程图,图2本发明另一个实施例提供的基于运动矢量信息的ROI区域判断准确率图。
视频会议场景下基于ROI区域的后处理加速方法包括但不仅限于步骤S110至步骤S130。
步骤S110,若当前帧为第一帧,对视频的第一帧进行人脸识别处理得到人脸区域;
步骤S120,将人脸区域进行扩展以得到ROI区域,对ROI区域进行图像质量增强;
步骤S130,若当前帧不为第一帧,获取当前帧在前一帧的ROI区域内的运动矢量信息,根据运动矢量信息在当前帧对ROI区域进行位移,对位移后的ROI区域进行图像质量增强。
在一实施例中,获取待处理的视频会议场景下的视频,将视频分为一帧一帧的图片进行处理,对视频的第一帧进行人脸识别处理得到人脸区域,容易想到的是,在视频会议中,识别出来的人脸数据可以是有多个人脸的,也会有多个人脸区域的识别框,在对人脸区域进行扩展以得到ROI区域,由于是视频会议的场景,主要是包括背景和与会人员的信息,而在视频会议中背景信息通常都是固定的,主要的信息则是与会人员的图像信息,包括人物的脸部动作和身体的图片信息,而ROI区域主要就是包括与会人员的图像信息,对ROI区域进行图像质量增强即可满足视频会议的图像质量需求,相较于全图图像质量增强的方式,本实施例大幅减少了数据计算量,降低了视频后处理复杂度,缩短了数据处理的时间,具有很好的实用性。
当视频处理的当前帧不是第一帧的情况下,获取当前帧的ROI区域内的运动矢量信息,根据ROI区域内的运动矢量信息,分别计算出其水平与垂直方向的运动矢量数值和,以这两个数值对ROI区域进行位移,视为当前帧的ROI区域,再对当前帧的ROI区域进行图像质量增强。根据上述的视频会议场景下基于ROI区域的后处理加速方法包括即可对视频的所有帧进行图像质量增强处理,相较于常规的图像质量增强方法,本实施例具有计算量少、数据处理简单的特点。
在一实施例中,在视频每间隔设定数量的视频帧设置一个校正帧,对校正帧进行人脸识别处理得到所述人脸区域,将人脸区域进行扩展以得到ROI区域,以对ROI区域进行校正。对视频每N帧使用一次人脸识别人脸区域进行校正,后续N-1帧使用基于运动矢量计算位移得到的ROI区域。
在一实施例中,对视频第一帧使用YOLO网络进行人脸识别处理得到所述人脸区域,YOLO(You Only Look Once)是一种基于深度神经网络的目标定位与识别算法,可以判断输入图像中的物体位置与其种类,输出此物体所在的方框坐标与具体类别。
在视频会议场景下,可以视为包含背景和与会人员两种内容,前者的信息通常并不被重视,因此单独获取与会人员信息并进行质量增强提高其表现是一种可以利用的后处理加速方法。借由使用YOLO网络进行人脸识别,可以得到当前会议中与会人员的位置信息,将此区域扩大并作为ROI区域,输入质量增强网络就可以实现视频的部分增强,提升了后处理的运算效率。但对视频每一帧使用YOLO网络仍需要大量的计算,首先提出一种基于MV的粗略ROI区域选择算法,减少YOLO网络的输入大小,然后使用编解码过程中得到的运动矢量信息来代替部分帧的YOLO网络判断。具体来说,对视频每隔N帧使用一次YOLO网络进行区域校正,其余N-1帧则依据运动矢量信息计算区域的位移,节省YOLO网络耗时。
参照图3和图4,图3是本发明另一个实施例提供的视频会议场景下基于ROI区域的后处理加速方法获取的人脸区域图,图4是本发明另一个实施例提供的视频会议场景下基于ROI区域的后处理加速方法扩展得到的ROI区域图。
在一实施例中,将人脸区域进行扩展以得到ROI区域,包括步骤:将人脸区域向左右分别扩展一个人脸区域的宽度,向上扩展半个人脸区域的长度,向下扩展至图像下沿,以得到ROI区域。针对每一个YOLO网络所识别出的区域,对其向左右两侧各扩充一个识别框的大小,向上方扩充半个识别框的大小,向下则取至图像下沿,因为考虑到视频会议通常仅包含人员半身;然后将所有区域合并为一个,取能包含全部区域的公共最大区域为最终ROI区域。
需要说明的是,本实施例提到的将人脸区域扩展以得到ROI区域的方式仅是一个示例,目的是增强与会人员上半身的图像质量,ROI区域扩展的方式也可以与本实施例有一些区别,如将人脸区域向左右分别扩展半个识别框,向上扩展半个识别框,向下扩展到图像下沿,本实施例对ROI区域的扩展方式不构成限制,能实现对与会人员的图像质量增强即可。
在一实施例中,ROI区域大小为8的整数倍。由于STDF网络对输入图像尺寸的要求,需要增加区域大小判断机制,使ROI区域的大小为8的整数倍。
参考图5,图5是本发明另一个实施例提供的视频会议场景下基于ROI区域的后处理加速方法运动矢量数值大小示意图。
在一实施例中,完成第一帧的ROI区域获取并增强之后,考虑到YOLO网络的耗时,对后续数帧依靠MV信息进行ROI区域的动态判断。获取校正帧的ROI区域内的运动矢量信息,根据校正帧的运动矢量信息获得校正帧的粗略ROI区域。
可以理解的是,计算所述校正帧的运动矢量信息的每一列和;对所述校正帧从左到右判断,当此列和大于阈值且当前列位置距离图像左边沿超过四分之一图像宽度,设置当前位置为所述粗略ROI区域左边界;对所述校正帧从右到左判断,当此列和大于所述阈值且当前列位置距离所述图像右边沿超过四分之一图像宽度,设置当前位置为所述粗略ROI区域右边界。
基于MV信息的粗略ROI区域获取算法包含以下步骤:
1.首先统计输入MV信息(WxH)的每一列和;
2.自左至右判断此列和是否大于阈值T或当前列位置已经超过1/4图像宽,若是,则当前位置视为ROI区域左边界;
3.自右至左判断此列和是否大于阈值T或当前列位置已经小于3/4图像宽,若是,则当前位置视为ROI区域右边界;以此获得一个粗略的ROI区域用于YOLO网络的识别。
本发明还提供了一种视频会议场景下基于ROI区域的后处理加速系统,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的视频会议场景下基于ROI区域的后处理加速方法。
视频会议场景下基于ROI区域的后处理加速系统应用了上述的视频会议场景下基于ROI区域的后处理加速方法,针对视频会议场景的特点,借助人脸识别网络与视频编解码过程得到的运动矢量信息获取ROI区域(Region of Interes t,感兴趣区域),然后对此ROI区域进行后处理,输入质量增强网络就可以实现视频的部分增强,提升了后处理的运算效率,从而减少后处理的算法耗时。
参考图6,图6是本发明另一个实施例提供的视频会议场景下基于ROI区域的后处理加速方法的流程图。
在一实施例中,首先对视频帧进行判断,当视频帧为视频的第一帧,对第一帧使用YOLO网络识别出人脸区域,在对人脸区域进行扩展以得到ROI区域,对ROI区域内的图像进行图像质量增强;处理后续的视频帧,当视频帧不是第一帧,对当前帧进行判断,若当前帧是校正帧,基于运动矢量信息选取粗略的ROI区域,再对当前帧使用YOLO网络识别出人脸区域,在对人脸区域进行扩展以得到ROI区域,对ROI区域内的图像进行图像质量增强;若视频帧不是校正帧,获取当前帧的ROI区域内的运动矢量信息,根据ROI区域内的运动矢量信息,分别计算出其水平与垂直方向的运动矢量数值和,以这两个数值对ROI区域进行位移,视为当前帧的ROI区域,再对当前帧的ROI区域进行图像质量增强。直到视频的所有帧处理完毕,本视频的基于ROI区域的后处理结束。
参考图7和图8和图9,图7是本发明另一个实施例提供的实验配置信息图,图8是本发明另一个实施例提供的测试序列图,图9是本发明另一个实施例提供的测试结果图。
参考图10和图11,图10是本发明另一个实施例提供的视频会议场景下基于ROI区域的后处理加速方法的原始图像,图11是本发明另一个实施例提供的视频会议场景下基于ROI区域的后处理加速方法的部分增强后图像。
(1)实验环境
本发明实施例整个模型的训练和测试平台的软硬件具体配置如图7所示。
本实验基于“Spatio-Temporal Deformable Convolution for CompressedVideo Quality Enhancement”中给出的公开未压缩的130个原始视频序列数据与HM测试序列集,选取其中的16个类视频会议场景序列作为测试视频序列集。这些测试序列包括了352x288、640x360、1280x720等多种分辨率。本实验用H.265/HEVC的参考编码器HM-16.18+SCM-8.7在Low Delay P(LDP)的配置下,量化参数(QP)设置为37。
(2)实验结果
dPSNRall是指对原始图像取ROI区域并部分增强后整张图像PSNR(Peak Signalto Noise Ratio,峰值信噪比的增加值),dPSNRpar是指对原始图像取ROI区域并部分增强后此区域PSNR的增加值,N=0代表不使用本算法,直接对整帧进行质量增强,TS是指使用本文方法所得的运算时间相对于不使用本算法的运算时间节省的百分比。
由此表可以看出本文方法在全帧PSNR增益减少0.3db的基础上,获得了约45%的时间节省。并且,在所选的ROI区域,保留了原始增强效果,其实际效果如图10和图11所示。
此外,本发明的一个实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个控制处理器执行,例如,控制处理器能够执行图1中的方法步骤S110至步骤S130。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本发明权利要求所限定的范围内。
Claims (6)
1.一种视频会议场景下基于ROI区域的后处理加速方法,其特征在于,包括以下步骤:
若当前帧为第一帧,对视频的第一帧进行人脸识别处理得到人脸区域;
将所述人脸区域进行扩展以得到ROI区域,对所述ROI区域进行图像质量增强;
若当前帧不为第一帧,获取所述当前帧在前一帧的所述ROI区域内的运动矢量信息,根据所述运动矢量信息在所述当前帧对所述ROI区域进行位移,对位移后的所述ROI区域进行图像质量增强;
还包括步骤:
在所述视频每间隔设定数量的视频帧之间设置一个校正帧,对所述校正帧进行人脸识别处理得到所述人脸区域,将所述人脸区域进行扩展以得到ROI区域,以对所述ROI区域进行校正;
在所述对所述校正帧进行人脸识别处理得到所述人脸区域之前,包括步骤:
根据所述校正帧的前一帧的所述ROI区域,获取所述校正帧在所述ROI区域内的运动矢量信息,根据所述校正帧的运动矢量信息获得所述校正帧的粗略ROI区域,对所述粗略ROI区域进行人脸识别得到人脸区域,所述根据所述校正帧的运动矢量信息获得所述校正帧的粗略ROI区域为:
统计校正帧的运动矢量信息的每一列和;
自校正帧的左至右判断此列和是否大于阈值T或当前列位置已经超过1/4图像宽,若是,则当前位置视为粗略ROI区域左边界;
自校正帧的右至左判断此列和是否大于阈值T或当前列位置已经小于3/4图像宽,若是,则当前位置视为粗略ROI区域右边界。
2.根据权利要求1所述的视频会议场景下基于ROI区域的后处理加速方法,其特征在于,所述对视频的第一帧进行人脸识别处理得到人脸区域,包括步骤:
对所述视频所述第一帧使用YOLO网络进行人脸识别处理得到所述人脸区域。
3.根据权利要求1所述的视频会议场景下基于ROI区域的后处理加速方法,其特征在于,所述将所述人脸区域进行扩展以得到ROI区域,包括步骤:
将所述人脸区域向左右分别扩展一个所述人脸区域的宽度,向上扩展半个所述人脸区域的长度,向下扩展至图像下沿,以得到所述ROI区域。
4.根据权利要求3所述的视频会议场景下基于ROI区域的后处理加速方法,其特征在于,所述ROI区域大小为8的整数倍。
5.一种视频会议场景下基于ROI区域的后处理加速系统,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中任意一项所述的视频会议场景下基于ROI区域的后处理加速方法。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至4任意一项所述的视频会议场景下基于ROI区域的后处理加速方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110406286.3A CN113242428B (zh) | 2021-04-15 | 2021-04-15 | 视频会议场景下基于roi区域的后处理加速方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110406286.3A CN113242428B (zh) | 2021-04-15 | 2021-04-15 | 视频会议场景下基于roi区域的后处理加速方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113242428A CN113242428A (zh) | 2021-08-10 |
CN113242428B true CN113242428B (zh) | 2024-03-15 |
Family
ID=77128142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110406286.3A Active CN113242428B (zh) | 2021-04-15 | 2021-04-15 | 视频会议场景下基于roi区域的后处理加速方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113242428B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114339222A (zh) * | 2021-12-20 | 2022-04-12 | 杭州当虹科技股份有限公司 | 视频编码方法 |
CN115578777B (zh) * | 2022-11-10 | 2023-03-14 | 成都智元汇信息技术股份有限公司 | 一种基于空间映射获得目标的识图方法及装置 |
CN115457644B (zh) * | 2022-11-10 | 2023-04-28 | 成都智元汇信息技术股份有限公司 | 一种基于扩展空间映射获得目标的识图方法及装置 |
CN115661903B (zh) * | 2022-11-10 | 2023-05-02 | 成都智元汇信息技术股份有限公司 | 一种基于空间映射协同目标过滤的识图方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008306708A (ja) * | 2007-05-09 | 2008-12-18 | Sony Corp | 画像記録装置、画像記録方法、画像処理装置、画像処理方法、音声記録装置および音声記録方法 |
CN105760826A (zh) * | 2016-02-03 | 2016-07-13 | 歌尔声学股份有限公司 | 一种人脸跟踪方法、装置和智能终端 |
CN108664853A (zh) * | 2017-03-30 | 2018-10-16 | 北京君正集成电路股份有限公司 | 人脸检测方法及装置 |
CN109218695A (zh) * | 2017-06-30 | 2019-01-15 | 中国电信股份有限公司 | 视频图像增强方法、装置、分析系统及存储介质 |
CN109598211A (zh) * | 2018-11-16 | 2019-04-09 | 恒安嘉新(北京)科技股份公司 | 一种实时动态人脸识别方法及系统 |
CN111368593A (zh) * | 2018-12-25 | 2020-07-03 | 北京右划网络科技有限公司 | 一种马赛克处理方法、装置、电子设备及存储介质 |
CN111652070A (zh) * | 2020-05-07 | 2020-09-11 | 南京航空航天大学 | 一种基于监控视频的人脸序列协同识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9715622B2 (en) * | 2014-12-30 | 2017-07-25 | Cognizant Technology Solutions India Pvt. Ltd. | System and method for predicting neurological disorders |
-
2021
- 2021-04-15 CN CN202110406286.3A patent/CN113242428B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008306708A (ja) * | 2007-05-09 | 2008-12-18 | Sony Corp | 画像記録装置、画像記録方法、画像処理装置、画像処理方法、音声記録装置および音声記録方法 |
CN105760826A (zh) * | 2016-02-03 | 2016-07-13 | 歌尔声学股份有限公司 | 一种人脸跟踪方法、装置和智能终端 |
CN108664853A (zh) * | 2017-03-30 | 2018-10-16 | 北京君正集成电路股份有限公司 | 人脸检测方法及装置 |
CN109218695A (zh) * | 2017-06-30 | 2019-01-15 | 中国电信股份有限公司 | 视频图像增强方法、装置、分析系统及存储介质 |
CN109598211A (zh) * | 2018-11-16 | 2019-04-09 | 恒安嘉新(北京)科技股份公司 | 一种实时动态人脸识别方法及系统 |
CN111368593A (zh) * | 2018-12-25 | 2020-07-03 | 北京右划网络科技有限公司 | 一种马赛克处理方法、装置、电子设备及存储介质 |
CN111652070A (zh) * | 2020-05-07 | 2020-09-11 | 南京航空航天大学 | 一种基于监控视频的人脸序列协同识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113242428A (zh) | 2021-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113242428B (zh) | 视频会议场景下基于roi区域的后处理加速方法 | |
EP2135457B1 (en) | Real-time face detection | |
US9183617B2 (en) | Methods, devices, and computer readable mediums for processing a digital picture | |
US7916965B2 (en) | Detection of artifacts resulting from image signal decompression | |
US8582915B2 (en) | Image enhancement for challenging lighting conditions | |
CN104219533B (zh) | 一种双向运动估计方法和视频帧率上转换方法及系统 | |
US20060262853A1 (en) | Low complexity motion compensated frame interpolation method | |
US20150138441A1 (en) | System and method for spatio temporal video image enhancement | |
US20190188829A1 (en) | Method, Apparatus, and Circuitry of Noise Reduction | |
US8705896B2 (en) | Processing a super-resolution target image | |
US7463688B2 (en) | Methods and apparatus for removing blocking artifacts of MPEG signals in real-time video reception | |
CN112672149B (zh) | 一种视频处理方法、装置、存储介质及服务器 | |
US20040022320A1 (en) | Image matching device and method for motion pictures | |
CN110620924A (zh) | 编码数据的处理方法、装置、计算机设备及存储介质 | |
CN109949234B (zh) | 基于深度网络的视频复原模型训练方法及视频复原方法 | |
CN112584158B (zh) | 视频质量增强方法和系统 | |
CN113824943A (zh) | 低照度视频处理方法、设备和存储介质 | |
CN113313635A (zh) | 图像处理方法、模型训练方法、装置及设备 | |
US8184706B2 (en) | Moving picture coding apparatus and method with decimation of pictures | |
US8582882B2 (en) | Unit for and method of segmentation using average homogeneity | |
Wang et al. | Region of interest oriented fast mode decision for depth map coding in DIBR | |
CN116012272A (zh) | 一种基于重建流场的压缩视频质量增强方法 | |
CN115866295A (zh) | 一种面向变流站端子排的视频关键帧二次提取方法及系统 | |
Kang | Adaptive luminance coding-based scene-change detection for frame rate up-conversion | |
CN104902256B (zh) | 一种基于运动补偿的双目立体图像编解码方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |