CN109698957B - 图像编码方法、装置、计算设备及存储介质 - Google Patents

图像编码方法、装置、计算设备及存储介质 Download PDF

Info

Publication number
CN109698957B
CN109698957B CN201710999141.2A CN201710999141A CN109698957B CN 109698957 B CN109698957 B CN 109698957B CN 201710999141 A CN201710999141 A CN 201710999141A CN 109698957 B CN109698957 B CN 109698957B
Authority
CN
China
Prior art keywords
region
interest
level
image frame
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710999141.2A
Other languages
English (en)
Other versions
CN109698957A (zh
Inventor
徐叙远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710999141.2A priority Critical patent/CN109698957B/zh
Publication of CN109698957A publication Critical patent/CN109698957A/zh
Application granted granted Critical
Publication of CN109698957B publication Critical patent/CN109698957B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本申请公开了图像编码方法、装置、计算设备及存储介质。其中,图像编码方法包括:获取一个图像帧;确定图像帧中至少一个感兴趣区域和每个感兴趣区域中对象的类型;根据每个感兴趣区域在该图像帧中面积占比、位置信息和该感兴趣区域中对象的类型中至少一个,确定该感兴趣区域对应的编码等级;根据每个感兴趣区域的编码等级所对应的编码策略,对该图像帧进行编码。

Description

图像编码方法、装置、计算设备及存储介质
技术领域
本申请涉及图像处理领域,尤其涉及图像编码方法、装置、计算设备及存储介质。
背景技术
随着互联网的发展,视频传输的数据量也在快速增长。为了降低视频的数据量,视频应用方案需要对视频进行编码。例如,一种编码策略是对图像中感兴趣区域进行优先处理。现有的感兴趣区域检测技术,通常以人脸特征(肤色特征或运动信息等)为基础,以确定图像中背景区域和非背景区域。
发明内容
根据本申请一个方面,提供一种图像编码方法,包括:获取一个图像帧;确定所述图像帧中至少一个感兴趣区域和每个感兴趣区域中对象的类型;根据每个感兴趣区域在该图像帧中面积占比、位置信息和该区域中对象的类型中至少一个,确定该感兴趣区域对应的编码等级;根据每个感兴趣区域的编码等级所对应的编码策略,对该图像帧进行编码。
在一些实施例中,所述获取一个图像帧的步骤包括:从视频中提取一帧并将其作为所述图像帧。
在一些实施例中,所述确定所述图像帧中至少一个感兴趣区域和每个感兴趣区域中对象的类型的步骤包括:基于预设的对象检测算法,确定所述图像帧中至少一个边框区域和每个边框区域中对象的类型,以便将所述每个边框区域作为一个感兴趣区域。
在一些实施例中,所述确定所述图像帧中至少一个感兴趣区域和每个感兴趣区域中对象的类型的步骤包括:基于预设的对象检测算法,确定所述图像帧中至少一个边框区域和每个边框区域中对象的类型;对于所确定每个边框区域,基于与其对应的滑动窗口对该边框区域进行平滑处理,以便将平滑处理得到的边框区域作为一个感兴趣区域,其中,所述滑动窗口包括所述图像帧,还包括所述图像帧所属视频流中处于所述图像帧之前的第一预定数量的图像帧和\或处于所述图像帧之后的第二预定数量的图像帧。
在一些实施例中,所述对于每个边框区域,基于与其对应的滑动窗口对其进行平滑处理的步骤包括:确定该边框区域中对象在所述滑动窗口中每个图像帧内的边框区域;分别计算该对象所对应各图像帧内的边框区域的高度均值和宽度均值;以及确定该对象在所述获取的图像帧中感兴趣区域,其中,该感兴趣区域以所述高度均值为高度,以所述宽度均值为宽度。
在一些实施例中,所述确定该感兴趣区域对应的编码等级的步骤包括:对于所述每个感兴趣区域,在确定该感兴趣区域的面积占比大于阈值时,确定该感兴趣区域的编码等级为第一等级;在确定该感兴趣区域的面积占比小于所述阈值时,确定该感兴趣区域的编码等级为第二等级。
在一些实施例中,所述确定该感兴趣区域对应的编码等级的步骤包括:对于所述每个感兴趣区域,在确定该感兴趣区域的面积占比大于阈值时,确定该感兴趣区域的编码等级为第一等级;在确定该感兴趣区域的面积占比小于所述阈值并且处于所述图像帧画面的预定区域时,确定该感兴趣区域的编码等级为第一等级;在确定该感兴趣区域的面积占比小于所述阈值并且未处于所述预定区域时,确定该感兴趣区域的编码等级为第二等级。
在一些实施例中,所述预定区域为以所述图像帧的中心点为中心,高度和宽度分别为所述图像帧的预定比例的区域。
在一些实施例中,所述确定该感兴趣区域对应的编码等级的步骤包括:对于所述每个感兴趣区域,在确定该感兴趣区域的面积占比大于阈值时,确定该感兴趣区域的编码等级为第一等级;在确定该感兴趣区域的面积占比小于所述阈值,并且该感兴趣区域中对象属于预定类型范围时,确定该感兴趣区域的编码等级为第一等级;在确定该感兴趣区域的面积占比小于所述阈值,并且该感兴趣区域中对象不属于所述预定类型范围时,确定该感兴趣区域的编码等级为第二等级。第一等级对应的编码质量要求高于所述第二等级对应的编码质量要求。
根据本申请又一个方面,提供一种图像编码装置,包括获取单元、区域确定单元、区域分级单元和编码单元。获取单元用于获取一个图像帧。区域确定单元用于确定所述图像帧中至少一个感兴趣区域和每个感兴趣区域中对象的类型。区域分级单元用于根据每个感兴趣区域在该图像帧中面积占比、位置信息和该区域中对象的类型中至少一个,确定该感兴趣区域对应的编码等级。编码单元用于根据每个感兴趣区域的编码等级所对应的编码策略,对该图像帧进行编码。
在一些实施例中,所述获取单元用于根据下述方式获取一个图像帧:从视频中提取一帧并将其作为所述图像帧。
在一些实施例中,所述区域确定单元用于根据下述方式确定所述图像帧中至少一个感兴趣区域和每个感兴趣区域中对象的类型:基于预设的对象检测算法,确定所述图像帧中至少一个边框区域和每个边框区域中对象的类型,以便将所述每个边框区域作为一个感兴趣区域。
在一些实施例中,所述区域确定单元用于根据下述方式确定所述图像帧中至少一个感兴趣区域和每个感兴趣区域中对象的类型:基于预设的对象检测算法,确定所述图像帧中至少一个边框区域和每个边框区域中对象的类型;对于所确定每个边框区域,基于与其对应的滑动窗口对该边框区域进行平滑处理,以便将平滑处理得到的边框区域作为一个感兴趣区域,其中,所述滑动窗口包括所述图像帧,还包括所述图像帧所属视频流中处于所述图像帧之前的第一预定数量的图像帧和\或处于所述图像帧之后的第二预定数量的图像帧。
在一些实施例中,所述区域确定单元用于根据下述方式确定所述图像帧中至少一个感兴趣区域和每个感兴趣区域中对象的类型:确定该边框区域中对象在所述滑动窗口中每个图像帧内的边框区域;分别计算该对象所对应各图像帧内的边框区域的高度均值和宽度均值;以及确定该对象在所述获取的图像帧中感兴趣区域,其中,该感兴趣区域以所述高度均值为高度,以所述宽度均值为宽度。
在一些实施例中,所述区域分级单元用于根据下述方式确定该感兴趣区域对应的编码等级:对于所述每个感兴趣区域,在确定该感兴趣区域的面积占比大于阈值时,确定该感兴趣区域的编码等级为第一等级;在确定该感兴趣区域的面积占比小于阈值时,确定该感兴趣区域的编码等级为第二等级。
在一些实施例中,所述区域分级单元用于根据下述方式确定该感兴趣区域对应的编码等级:对于所述每个感兴趣区域,在确定该感兴趣区域的面积占比大于阈值时,确定该感兴趣区域的编码等级为第一等级;在确定该感兴趣区域的面积占比小于所述阈值并且处于所述图像帧画面的预定区域时,确定该感兴趣区域的编码等级为第一等级;在确定该感兴趣区域的面积占比小于所述阈值并且未处于所述预定区域时,确定该感兴趣区域的编码等级为第二等级。
在一些实施例中,所述预定区域为以所述图像帧的中心点为中心,高度和宽度分别为所述图像帧的预定比例的区域。
在一些实施例中,所述区域分级单元用于根据下述方式确定该感兴趣区域对应的编码等级:对于所述每个感兴趣区域,在确定该感兴趣区域的面积占比大于阈值时,确定该感兴趣区域的编码等级为第一等级;在确定该感兴趣区域的面积占比小于所述阈值,并且该感兴趣区域中对象属于预定类型范围时,确定该感兴趣区域的编码等级为第一等级;以及在确定该感兴趣区域的面积占比小于所述阈值,并且该感兴趣区域中对象不属于所述预定类型范围时,确定该感兴趣区域的编码等级为第二等级。
在一些实施例中,所述第一等级对应的编码质量要求高于所述第二等级对应的编码质量要求。
根据本申请又一个方面,提供一种计算设备,包括:一个或多个处理器、存储器以及一个或多个程序。一个或多个程序存储在该存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行本申请的图像编码方法的指令。
根据本申请又一个方面,提供一种存储介质,存储有一个或多个程序,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行本申请的图像编码方法。
综上,根据本申请的图像编码方法可以根据感兴趣区域在图像帧中面积占比、位置信息和该区域中对象的类型中至少一个,对感兴趣区域的编码等级进行划分,从而可以按照编码等级对感兴趣区域进行编码,而不是对所有感兴趣区域进行相同质量的编码。
附图说明
为了更清楚地说明本申请实例中的技术方案,下面将对实例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本申请一些实施例的应用场景100的示意图;
图2示出了根据本申请一些实施例的图像编码方法200的流程图;
图3示出了根据本申请一个实施例的滑动窗口的示意图;
图4示出了根据本申请一个实施例的确定感兴趣区域的编码等级的方法400的流程图;
图5示出了根据本申请一个实施例的确定感兴趣区域的编码等级的方法500的流程图;
图6示出了根据本发明一些实施例的图像编码装置600的示意图;以及
图7示出了一个计算设备的组成结构图。
具体实施方式
下面将结合本申请实例中的附图,对本申请实例中的技术方案进行清楚、完整地描述,显然,所描述的实例仅是本申请一部分实例,而不是全部的实例。基于本申请中的实例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实例,都属于本申请保护的范围。
图1示出了根据本申请一些实施例的应用场景100的示意图。如图1所示,应用场景100包括视频服务系统110和终端设备120。终端设备120例如为台式电脑、电视、移动终端或平板电脑等各种设备。终端设备120例如可以安装视频应用121。视频应用121可以从视频服务系统110获取视频内容并播放。这里,视频服务系统110可以被配置为对视频内容进行图像编码,以提供一种或多种码率的视频内容。这里,视频服务系统110可以被实现为单台物理服务器,也可以被实现为分布式服务器系统,本申请对此不做限制。需要说明的是,本申请提出的图像编码方法并不限于在视频服务系统110中执行,还可以其他各种需要进行图像编码的设备中执行。
图2示出了根据本申请一些实施例的图像编码方法200的流程图。方法200可以在图像编码应用中执行。图像编码应用可以驻留在视频服务系统110或者终端设备120中。
方法200始于步骤S201,获取一个图像帧。这里,所获取的图像帧例如可以是从已解码的视频中所提取的图像。又例如,所获取的图像帧可以是从网络实时接收的一个图像帧。
针对步骤S201所获取的图像帧,方法200可以执行步骤S202。在步骤S202中,确定图像帧中至少一个感兴趣区域和每个感兴趣区域中对象的类型。这里,感兴趣区域(ROI)可以通过预设的对象(目标)检测算法来确定。
在一个实施例中,步骤S202基于单选多框探测器(single shot multiboxdetector,简称SSD)算法,确定至少一个边框区域和每个边框区域中对象的类型,以便将每个边框区域作为一个感兴趣区域。这里,对象的类型例如可以包括人、汽车、字幕和广告牌等,但不限于此。具体而言,步骤S202可以通过经训练的对象检测器,确定图像帧中边框区域和每个边框区域中对象的类型。这里,对象检测器是利用图像样本集合对SSD模型进行训练而得到的分类器。图像样本集合包括多个图像样本,每个图像样本的标签包括该图像样本中该感兴趣区域对应的边框和每个边框中对象的类型。SSD模型是一个前向传播的卷积神经网络(Convolutional Neural Network Features,简称CNN),这里不再赘述。另外说明的是,本申请中SSD模型可以根据检测速度的需求而被调整。例如,SSD模型的输入图像的尺寸(图像分辨率)可以被减小。另外,SSD模型的卷积层的层数也可以被减少。通过减小输入图像的尺寸和减少卷积层的层数,步骤S202可以提高检测速度。
在又一个实施例中,步骤S202首先基于单选多框探测器(single shot multiboxdetector,简称SSD)算法,确定至少一个边框区域和每个边框区域中对象的类型。在本实施例中,确定边框区域的方式与上一个实施例一致,这里不再赘述。对于每个边框区域,步骤S202还可以基于滑动窗口对该边框区域进行平滑处理,以便将平滑处理得到的边框区域作为一个感兴趣区域。其中,滑动窗口包括本次执行方法200所针对的图像帧(即步骤S201中获取的图像帧),还包括处于该图像帧之前的第一预定数量的图像帧和\或处于该图像帧之后的第二预定数量的图像帧。换言之,滑动窗口是一个图像帧序列。第一预定数量和第二预定数量均可以根据需要进行确定。步骤S202对边框区域进行平滑处理的过程例如为:根据滑动窗口中每个图像帧内的边框区域,分别计算该对象所对应边框区域的高度均值和宽度均值。在此基础上,步骤S202可以确定该对象在图像帧中感兴趣区域。该感兴趣区域以高度均值为高度,以宽度均值为宽度。应当理解,步骤S202还可以采用其他公知方式对边框区域进行平滑处理,而这些方式都应落入本申请的保护范围。综上,本实施例通过对边框区域进行平滑处理,可以极大减少视频播放的鬼影效果(Ghost effects)。在图像帧序列被逐帧播放时,如果一个对象的感兴趣区域尺寸变化频繁,那么该感兴趣区域边缘部分的清晰度变化较频繁(相应地,观看者可以感受到该边缘部分闪动,即视频播放的鬼影效果)。图3示出了根据本申请一个实施例的滑动窗口的示意图。如图3所示,滑动窗口包括三个图像帧,分别为P-1、P0和P1。其中,图像帧P0为步骤S101获取的图像帧。图像帧P-1为P0之前的图像帧(即上文中第一预定数量的图像帧,第一预定数量被设置为1),图像帧P1为P0之后的图像帧(即上文中第二预定数量的图像帧,第二预定数量被设置为1)。P0中边框区域B0对应的对象为汽车。该汽车在P-1中边框区域为B-1,在P1中边框区域为B1。对边框区域B0进行平滑处理而得到的区域以B0的中心点为中心,高为P-1、P0和P1的高度均值,宽为P-1、P0和P1的宽度均值。
在又一个实施例中,步骤S202还可以基于卷积神经网络区域(Regions withConvolutional Neural Network Features,简称R-CNN)算法,确定至少一个边框区域和每个边框区域中对象的类型,以便将每个边框区域作为一个感兴趣区域。这里,R-CNN算法包括4个阶段,第一阶段是候选区域生成:对一个图像帧生成1K~2K个候选区域。第二阶段是对每个候选区域,使用深度卷积网络提取特征(CNN)。第三个阶段是将每个候选区域的特征送入每一类的SVM分类器,判别是否属于该类,以便确定候选区域中对象的类型。第四个阶段是使用回归器精细修正候选区域的位置。
在又一个实施例中,步骤S202还可以采用只看一次(You Only Look Once,简称YOLO)算法确定至少一个边框区域和确定每个边框区域中对象的类型。YOLO算法可以一次性预测多个边框区域和每个边框区域中对象的类型,能够实现端到端的对象检测和识别,这里不再赘述。综上,步骤S202可以采用多种对象检测算法来确定至少一个边框区域和每个边框区域中对象的类型,从而确定感兴趣区域。
针对步骤S202所确定的每个感兴趣区域,方法200可以执行步骤S203。在步骤S203中,根据每个感兴趣区域在图像帧中面积占比、位置信息和该区域中对象的类型中至少一个,确定该感兴趣区域对应的编码等级。这里,步骤S203可以采用多种预定策略确定感兴趣区域的编码等级。例如。预定策略可以基于来自眼动仪的数据而确定。眼动仪可以检测用户在观看视频(图像帧序列)时的眼动轨迹数据。眼动轨迹数据可用于从其中提取诸如注视点,注视时间和注视次数等信息。所提取的信息可用于统计用户对大量图像帧中不同对象的关注程度(即感兴趣程度)。这里,图像帧中与感兴趣程度相关的对象参数例如可以包括对象的类型、对象的面积占比和对象在图像帧中位置,但不限于此。换言之,感兴趣区域的受关注程度与该区域中对象的类型、区域面积占比和区域位置信息有关。在本申请的实施例中,将感兴趣区域的受关注程度与编码等级相关联。通常而言,受关注程度越高,编码等级(编码质量要求)越高。
在一个实施例中,对于每个感兴趣区域,步骤S203在确定该感兴趣区域的面积占比大于阈值时,确定该感兴趣区域的编码等级为第一等级。这里,阈值例如为20%,但不限于此。在确定该感兴趣区域的面积占比小于阈值时,步骤S203确定该感兴趣区域的编码等级为第二等级。这里,第一等级对应的编码质量要求高于第二等级对应的编码质量要求。编码质量要求越高,图像失真度越低和\或图像清晰度越高。
在又一个实施例中,对于每个感兴趣区域,步骤S203在确定该感兴趣区域处于预定区域时,确定该感兴趣区域的编码等级为第一等级。例如,在感兴趣区域中超过预定面积比例(例如为60%)的部分区域处于预定区域时,步骤S203确定感兴趣区域处于预定区域。这里,预定区域例如是指以图像帧的中心点为中心,高度和宽度分别为图像帧的预定比例(例如为50%)尺寸的区域。在确定该感兴趣区域不属于预定区域时,步骤S203确定该感兴趣区域的编码等级为第二等级。
在又一个实施例中,对于每个感兴趣区域,步骤S203在确定该感兴趣区域中对象属于预定类型范围时,确定该感兴趣区域为第一等级。在感兴趣区域中对象不属于预定类型范围时,确定该感兴趣区域为第二等级。
在又一个实施例中,对于每个感兴趣区域,步骤S203可以通过执行方法400确定感兴趣区域的编码等级。
在步骤S401中,在确定该感兴趣区域的面积占比大于阈值时,确定该感兴趣区域为第一等级。这里,阈值例如为20%,但不限于此。
在步骤S402中,在确定该感兴趣区域的面积占比小于阈值并且处于图像帧画面的预定区域时,确定该感兴趣区域的编码等级为第一等级。这里,预定区域例如是指以图像帧的中心点为中心,高度和宽度分别为图像帧的预定比例(例如为50%)的区域。
在步骤S403中,在确定该感兴趣区域的面积占比小于阈值并且未处于预定区域时,确定该感兴趣区域的编码等级为第二等级。这里,第一等级对应的编码质量高于第二等级对应的编码质量。另外说明的是,图像帧中不属于感兴趣区域的部分可以被认为是背景区域。背景区域的编码等级例如为第三等级。背景区域的编码质量要求通常低于感兴趣区域的编码质量要求。
在又一个实施例中,对于每个感兴趣区域,步骤S203可以通过执行方法500确定感兴趣区域的编码等级。
在步骤S501中,在确定该感兴趣区域的面积占比大于阈值(阈值例如为20%)时,确定该感兴趣区域为第一等级。
在步骤S502中,在确定该感兴趣区域的面积占比小于阈值,并且该感兴趣区域中对象属于预定类型范围(预定类型范围例如可以包括字幕、人和汽车)时,确定该感兴趣区域的编码等级为第一等级。
在步骤S503中,在确定该感兴趣区域的面积占比小于阈值,并且该感兴趣区域中对象不属于预定类型范围时,确定该感兴趣区域的编码等级为第二等级。另外,背景区域的编码等级例如为第三等级。第一等级的编码质量要求大于第二等级。第二等级的编码质量要求大于第三等级。应当理解,确定感兴趣区域的编码等级的方式并不限于上述实施例,还可以被实现为基于感兴趣区域属性(即感兴趣区域在图像帧中面积占比、位置信息和该区域中对象的类型等属性中至少一个)的其他判断方式,而这些判断方式都应落入本申请的保护范围。
在步骤S203中确定每个感兴趣区域的编码等级时,方法200可以执行步骤S204,对该图像帧进行编码。这里,每种编码等级的感兴趣区域都有对应的编码策略。例如,第一等级对应区域的编码质量要求高于第二等级对应区域的编码质量,第二等级对应区域的编码质量要求高于背景区域的编码质量要求。这里,一个区域的编码质量越高,该区域的图像失真度越低和/或清晰度越高。在一个实施例中,步骤S204对图像帧进行H.264(或者H.265)规格的编码。编码质量主要由宏模块树(MBTREE)的量化参数(QP)决定。QP值表示对色度(或亮度)的量化步长,QP值越小表示编码质量越高。例如,第一等级对应的编码策略包括按照第一量化参数值对相应的区域进行编码。第二等级对应的编码策略包括按照第二量化参数值对相应的区域进行编码。第三等级对应的编码策略包括按照第三量化参数值对相应的区域进行编码。这里,第一量化参数值小于第二量化参数值。第二量化参数值小于第三量化参数值。另外说明的是,在不同编码等级的一些感兴趣区域存在重叠部分时,该重叠部分的编码等级可以被确定为与这些感兴趣区域中一个区域相同。
综上,根据本申请的方法200可以根据感兴趣区域在图像帧中面积占比、位置信息和该区域中对象的类型中至少一个,对感兴趣区域的编码等级进行划分,从而可以按照编码等级对感兴趣区域进行编码,而不是对所有感兴趣区域进行相同质量的编码。在一个实施例中,在所要求的码率变小时,方法200可以提高各编码等级对应的量化参数值(QP),以便降低各编码等级的编码策略所对应的编码质量要求。在又一个实施例中,在所要求的码率变小时,方法200可以保持第一和第二等级对应的编码策略,而降低第三等级的编码策略对应的编码质量要求(即提高量化参数值)。这样,在码率需求不同时,方法200可以灵活地调节对图像帧的编码策略,从而极大提高提高用户观看视频内容的体验度。
图6示出了根据本发明一些实施例的图像编码装置600的示意图。装置600可以驻留在例如视频服务系统(110)或者终端设备(120)中。如图6所示,装置600包括获取单元601、区域确定单元602、区域分级单元603和编码单元604。
获取单元601用于获取一个图像帧。例如,获取单元601可以从视频中提取一个图像帧。又例如,获取单元601可以从网络实时接收一个图像帧。
区域确定单元602用于确定图像帧中至少一个感兴趣区域和每个感兴趣区域中对象的类型。这里,区域确定单元602可以采用预设的对象检测算法确定感兴趣区域和感兴趣区域中对象的类型。在一个实施例中,区域确定单元602可以基于单选多框探测器算法,确定至少一个边框区域和每个边框区域中对象的类型,以便将每个边框区域作为一个感兴趣区域。
在又一个实施例中,区域确定单元602可以基于单选多框探测器(SSD)算法,确定至少一个边框区域和每个边框区域中对象的类型。对于所确定每个边框区域,区域确定单元602可以基于与该边框区域对应的滑动窗口对该边框区域进行平滑处理,以便将平滑处理得到的边框区域作为一个感兴趣区域。其中,滑动窗口包括获取单元601所确定的图像帧,还包括处于该图像帧之前的第一预定数量的图像帧和\或处于该图像帧之后的第二预定数量的图像帧。例如,区域确定单元602根据该边框区域中对象在滑动窗口中每个图像帧内的边框区域,分别计算该对象所对应各图像帧中的边框区域的高度均值和宽度均值。这样,区域确定单元602可以确定该对象在所获取的图像帧中感兴趣区域。其中,该感兴趣区域以高度均值为高度,以宽度均值为宽度。
在又一个实施例中,区域确定单元602可以基于卷积神经网络区域(R-CNN)算法,确定至少一个边框区域和每个边框区域中对象的类型,以便将每个边框区域作为一个感兴趣区域。
在又一个实施例中,区域确定单元602可以基于只看一次(YOLO)算法,确定所述至少一个边框区域和每个边框区域中对象的类型,以便将所述每个边框区域作为一个感兴趣区域。
对于区域确定单元602所确定的边框区域,区域分级单元603用于根据每个感兴趣区域在该图像帧中面积占比、位置信息和该区域中对象的类型中至少一个,确定该感兴趣区域对应的编码等级。
在一个实施例中,对于所述每个感兴趣区域,区域分级单元603在确定该感兴趣区域的面积占比大于阈值时,确定该感兴趣区域的编码等级为第一等级。在确定该感兴趣区域的面积占比小于阈值时,区域分级单元603确定该感兴趣区域的编码等级为第二等级。
在一个实施例中,对于所述每个感兴趣区域,区域分级单元603在确定该感兴趣区域的面积占比大于阈值时,确定该感兴趣区域的编码等级为第一等级。在确定该感兴趣区域的面积占比小于阈值并且处于图像帧画面的预定区域时,区域分级单元603确定该感兴趣区域的编码等级为第一等级。在确定该感兴趣区域的面积占比小于阈值并且未处于预定区域时,区域分级单元603确定该感兴趣区域的编码等级为第二等级。其中,预定区域为以图像帧的中心点为中心,高度和宽度分别为所获取的图像帧的预定比例的区域。第一等级对应的编码质量要求高于第二等级对应的编码质量要求。
在又一个实施例中,对于所述每个感兴趣区域,区域分级单元603在确定该感兴趣区域的面积占比大于阈值时,确定该感兴趣区域的编码等级为第一等级。在确定该感兴趣区域的面积占比小于所述阈值,并且该感兴趣区域中对象属于预定类型范围时,区域分级单元603确定该感兴趣区域的编码等级为第一等级。在确定该感兴趣区域的面积占比小于阈值,并且该感兴趣区域中对象不属于预定类型范围时,区域分级单元603确定该感兴趣区域的编码等级为第二等级。
编码单元604用于根据每个感兴趣区域的编码等级所对应的编码策略,对该图像帧进行编码。装置600更具体的实施方式与方法200一致,这里不再赘述。
图7示出了一个计算设备的组成结构图。如图7所示,该计算设备包括一个或者多个处理器(CPU)702、通信模块704、存储器706、用户接口710,以及用于互联这些组件的通信总线708。
处理器702可通过通信模块704接收和发送数据以实现网络通信和/或本地通信。
用户接口710包括一个或多个输出设备712,其包括一个或多个扬声器和/或一个或多个可视化显示器。用户接口710也包括一个或多个输入设备714。用户接口710例如可以接收遥控器的指令,但不限于此。
存储器706可以是高速随机存取存储器,诸如DRAM、SRAM、DDR RAM、或其他随机存取固态存储设备;或者非易失性存储器,诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备,或其他非易失性固态存储设备。
存储器706存储处理器702可执行的指令集,包括:
操作系统716,包括用于处理各种基本系统服务和用于执行硬件相关任务的程序;
应用718,包括用于实现上述图像编码方法的各种程序,这种程序能够实现上述各实例中的处理流程,比如可以包括图6的图像编码装置600。
另外,本申请的每一个实例可以通过由数据处理设备如计算机执行的数据处理程序来实现。显然,数据处理程序构成了本发明。此外,通常存储在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和或内存)中执行。因此,这样的存储介质也构成了本发明。存储介质可以使用任何类型的记录方式,例如纸张存储介质(如纸带等)、磁存储介质(如软盘、硬盘、闪存等)、光存储介质(如CD-ROM等)、磁光存储介质(如MO等)等。
因此本申请还公开了一种非易失性存储介质,其中存储有数据处理程序,该数据处理程序用于执行本申请上述方法的任何一种实例。
另外,本申请所述的方法步骤除了可以用数据处理程序来实现,还可以由硬件来实现,例如,可以由逻辑门、开关、专用集成电路(ASIC)、可编程逻辑控制器和嵌微控制器等来实现。因此这种可以实现本申请所述方法的硬件也可以构成本申请。
以上所述仅为本申请的较佳实例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (12)

1.一种图像编码方法,其特征在于包括:
获取一个图像帧;
确定所述图像帧中至少一个感兴趣区域和每个感兴趣区域中对象的类型;
对于每个感兴趣区域,在确定该感兴趣区域的面积占比大于阈值时,确定该感兴趣区域的编码等级为第一等级;
在确定该感兴趣区域的面积占比小于所述阈值时,在该感兴趣区域处于所述图像帧画面的预定区域时确定该感兴趣区域的编码等级为第一等级,在未处于所述预定区域时,确定该感兴趣区域的编码等级为第二等级;或者,在确定该感兴趣区域的面积占比小于所述阈值时,在该感兴趣区域中对象属于预定类型范围时确定该感兴趣区域的编码等级为第一等级,在该感兴趣区域中对象不属于预定类型范围时,确定该感兴趣区域的编码等级为第二等级;
根据每个感兴趣区域的编码等级所对应的编码策略,对该图像帧进行编码。
2.如权利要求1所述的方法,其中,所述获取一个图像帧的步骤包括:
从视频中提取一帧并将其作为所述图像帧。
3.如权利要求1所述的方法,其中,所述确定所述图像帧中至少一个感兴趣区域和每个感兴趣区域中对象的类型的步骤包括:
基于预设的对象检测算法,确定所述图像帧中至少一个边框区域和每个边框区域中对象的类型,以便将所述每个边框区域作为一个感兴趣区域。
4.如权利要求1所述的方法,所述确定所述图像帧中至少一个感兴趣区域和每个感兴趣区域中对象的类型的步骤包括:
基于预设的对象检测算法,确定所述图像帧中至少一个边框区域和每个边框区域中对象的类型;
对于所确定每个边框区域,基于与其对应的滑动窗口对该边框区域进行平滑处理,以便将平滑处理得到的边框区域作为一个感兴趣区域,其中,所述滑动窗口包括所述图像帧,还包括所述图像帧所属视频流中处于所述图像帧之前的第一预定数量的图像帧和/或处于所述图像帧之后的第二预定数量的图像帧。
5.如权利要求4所述的方法,其中,所述对于每个边框区域,基于与其对应的滑动窗口对其进行平滑处理的步骤包括:
确定该边框区域中对象在所述滑动窗口中每个图像帧内的边框区域;
分别计算该对象所对应各图像帧内的边框区域的高度均值和宽度均值;以及
确定该对象在所述获取的图像帧中感兴趣区域,其中,该感兴趣区域以所述高度均值为高度,以所述宽度均值为宽度。
6.如权利要求1所述的方法,其中,所述预定区域为以所述图像帧的中心点为中心,高度和宽度分别为所述图像帧的预定比例的区域。
7.如权利要求1所述的方法,其中,所述第一等级对应的编码质量要求高于所述第二等级对应的编码质量要求。
8.一种图像编码装置,其特征在于包括:
获取单元,用于获取一个图像帧;
区域确定单元,用于确定所述图像帧中至少一个感兴趣区域和每个感兴趣区域中对象的类型;
区域分级单元,用于:对于每个感兴趣区域,在确定该感兴趣区域的面积占比大于阈值时,确定该感兴趣区域的编码等级为第一等级;在确定该感兴趣区域的面积占比小于所述阈值时,在该感兴趣区域处于所述图像帧画面的预定区域时确定该感兴趣区域的编码等级为第一等级,在未处于所述预定区域时,确定该感兴趣区域的编码等级为第二等级;或者,在确定该感兴趣区域的面积占比小于所述阈值时,在该感兴趣区域中对象属于预定类型范围时确定该感兴趣区域的编码等级为第一等级,在该感兴趣区域中对象不属于预定类型范围时,确定该感兴趣区域的编码等级为第二等级;以及
编码单元,用于根据每个感兴趣区域的编码等级所对应的编码策略,对该图像帧进行编码。
9.如权利要求8所述的装置,其中,所述获取单元用于根据下述方式获取一个图像帧:
从视频中提取一帧并将其作为所述图像帧。
10.如权利要求8所述的装置,其中,所述区域确定单元用于根据下述方式确定所述图像帧中至少一个感兴趣区域和每个感兴趣区域中对象的类型:
基于预设的对象检测算法,确定所述图像帧中至少一个边框区域和每个边框区域中对象的类型,以便将所述每个边框区域作为一个感兴趣区域。
11.一种计算设备,其特征在于包括:
一个或多个处理器;
存储器;以及
一个或多个程序,存储在该存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行权利要求1-7中任一项所述方法的指令。
12.一种存储介质,存储有一个或多个程序,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行如权利要求1-7中任一项所述的方法。
CN201710999141.2A 2017-10-24 2017-10-24 图像编码方法、装置、计算设备及存储介质 Active CN109698957B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710999141.2A CN109698957B (zh) 2017-10-24 2017-10-24 图像编码方法、装置、计算设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710999141.2A CN109698957B (zh) 2017-10-24 2017-10-24 图像编码方法、装置、计算设备及存储介质

Publications (2)

Publication Number Publication Date
CN109698957A CN109698957A (zh) 2019-04-30
CN109698957B true CN109698957B (zh) 2022-03-29

Family

ID=66227573

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710999141.2A Active CN109698957B (zh) 2017-10-24 2017-10-24 图像编码方法、装置、计算设备及存储介质

Country Status (1)

Country Link
CN (1) CN109698957B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112543372A (zh) * 2019-09-20 2021-03-23 珠海格力电器股份有限公司 分配视频码率的方法、装置及存储介质
CN111131825A (zh) * 2019-10-28 2020-05-08 华为技术有限公司 一种视频处理方法及相关装置
CN111027390B (zh) * 2019-11-11 2023-10-10 北京三快在线科技有限公司 对象类别的检测方法、装置、电子设备和存储介质
CN113011210B (zh) * 2019-12-19 2022-09-16 北京百度网讯科技有限公司 视频处理方法和装置
CN112070718A (zh) * 2020-08-06 2020-12-11 北京博雅慧视智能技术研究院有限公司 一种区域量化参数的确定方法、装置、存储介质及终端
CN113630599B (zh) * 2021-07-08 2023-09-08 微梦创科网络科技(中国)有限公司 一种基于roi的视频码率控制方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101494785A (zh) * 2008-12-19 2009-07-29 无锡亿普得科技有限公司 一种h.264感兴趣区域编码的方法
CN102780882A (zh) * 2011-05-12 2012-11-14 佳能株式会社 图像处理设备和图像处理方法
CN104065964A (zh) * 2014-06-19 2014-09-24 上海交通大学 感兴趣区域信息的编解码方法以及视频编解码装置
CN104782121A (zh) * 2012-12-18 2015-07-15 英特尔公司 多区域视频会议编码
CN106162177A (zh) * 2016-07-08 2016-11-23 腾讯科技(深圳)有限公司 视频编码方法和装置
CN106791856A (zh) * 2016-12-28 2017-05-31 天津天地伟业生产力促进有限公司 一种基于自适应感兴趣区域的视频编码方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10771801B2 (en) * 2012-09-14 2020-09-08 Texas Instruments Incorporated Region of interest (ROI) request and inquiry in a video chain
GB201312382D0 (en) * 2013-07-10 2013-08-21 Microsoft Corp Region-of-interest aware video coding

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101494785A (zh) * 2008-12-19 2009-07-29 无锡亿普得科技有限公司 一种h.264感兴趣区域编码的方法
CN102780882A (zh) * 2011-05-12 2012-11-14 佳能株式会社 图像处理设备和图像处理方法
CN104782121A (zh) * 2012-12-18 2015-07-15 英特尔公司 多区域视频会议编码
CN104065964A (zh) * 2014-06-19 2014-09-24 上海交通大学 感兴趣区域信息的编解码方法以及视频编解码装置
CN106162177A (zh) * 2016-07-08 2016-11-23 腾讯科技(深圳)有限公司 视频编码方法和装置
CN106791856A (zh) * 2016-12-28 2017-05-31 天津天地伟业生产力促进有限公司 一种基于自适应感兴趣区域的视频编码方法

Also Published As

Publication number Publication date
CN109698957A (zh) 2019-04-30

Similar Documents

Publication Publication Date Title
CN109698957B (zh) 图像编码方法、装置、计算设备及存储介质
US10977809B2 (en) Detecting motion dragging artifacts for dynamic adjustment of frame rate conversion settings
CN104096362B (zh) 基于游戏者关注区域改进视频流的码率控制比特分配
US9117112B2 (en) Background detection as an optimization for gesture recognition
AU2006252195B2 (en) MPEG noise reduction
CN112312231B (zh) 一种视频图像编码方法、装置、电子设备及介质
US10354394B2 (en) Dynamic adjustment of frame rate conversion settings
CN110944200B (zh) 一种评估沉浸式视频转码方案的方法
US10936877B2 (en) Methods, systems, and media for detecting two-dimensional videos placed on a sphere in abusive spherical video content by tiling the sphere
GB2558644A (en) Video encoding
CN106664404A (zh) 视频编码中的块分割方式处理方法和相关装置
US11917163B2 (en) ROI-based video coding method and device
CN108985244B (zh) 一种电视节目类型识别方法及装置
Xian et al. A content-oriented no-reference perceptual video quality assessment method for computer graphics animation videos
CN116261009A (zh) 智能转化影视受众的视频检测方法、装置、设备及介质
US11880966B2 (en) Image quality assessment apparatus and image quality assessment method thereof
US10764578B2 (en) Bit rate optimization system and method
CN108989905B (zh) 媒体流控制方法、装置、计算设备及存储介质
CN113613024A (zh) 视频预处理方法及设备
CN112533024A (zh) 一种人脸视频处理方法、装置及存储介质
US20160314569A1 (en) Method to select best keyframes in online and offline mode
Wijnants et al. Split & Dual Screen Comparison of Classic vs Object-based Video
CN114567778B (zh) 一种视频编码方法及系统
CN112749614B (zh) 一种多媒体内容的识别方法、装置、电子设备和存储介质
US10848772B2 (en) Histogram-based edge/text detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant