CN112771859A - 基于感兴趣区域的视频数据编码方法、装置和存储介质 - Google Patents

基于感兴趣区域的视频数据编码方法、装置和存储介质 Download PDF

Info

Publication number
CN112771859A
CN112771859A CN201980063787.7A CN201980063787A CN112771859A CN 112771859 A CN112771859 A CN 112771859A CN 201980063787 A CN201980063787 A CN 201980063787A CN 112771859 A CN112771859 A CN 112771859A
Authority
CN
China
Prior art keywords
region
image quality
roi
size
video data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980063787.7A
Other languages
English (en)
Inventor
朱磊
赵文军
苏文艺
赵亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SZ DJI Technology Co Ltd
Original Assignee
SZ DJI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SZ DJI Technology Co Ltd filed Critical SZ DJI Technology Co Ltd
Publication of CN112771859A publication Critical patent/CN112771859A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64CAEROPLANES; HELICOPTERS
    • B64C39/00Aircraft not otherwise provided for
    • B64C39/02Aircraft not otherwise provided for characterised by special use
    • B64C39/024Aircraft not otherwise provided for characterised by special use of the remote controlled vehicle type, i.e. RPV
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64UUNMANNED AERIAL VEHICLES [UAV]; EQUIPMENT THEREFOR
    • B64U10/00Type of UAV
    • B64U10/10Rotorcrafts
    • B64U10/13Flying platforms
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64UUNMANNED AERIAL VEHICLES [UAV]; EQUIPMENT THEREFOR
    • B64U2101/00UAVs specially adapted for particular uses or applications
    • B64U2101/20UAVs specially adapted for particular uses or applications for use as communications relays, e.g. high-altitude platforms
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64UUNMANNED AERIAL VEHICLES [UAV]; EQUIPMENT THEREFOR
    • B64U2101/00UAVs specially adapted for particular uses or applications
    • B64U2101/30UAVs specially adapted for particular uses or applications for imaging, photography or videography

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

一种无人机,包括:本体,与多个动力系统和成像装置耦合;编码器,用于对由成像装置生成的视频数据进行编码,以及无线通信系统,用于发送编码视频数据。编码器包括ROI控制模块,其在视频数据的图像帧内确定第一区域和第二区域,该ROI控制模块还设置指示用于对第一区域内的每个宏块进行编码的量化参数的最大值的第一限度、指示第一区域的最大尺寸的第二限度和指示第二区域的最小尺寸的第三限度。编码器还包括ROI监控模块,其耦合到ROI控制模块,用于估计第一区域的第一图像质量和第二区域的第二图像质量,并且ROI控制模块根据第一图像质量和第二图像质量来调整第一区域和第二区域的尺寸。本申请还涉及在编码器中实现的编码方法。

Description

基于感兴趣区域的视频数据编码方法、装置和存储介质
技术领域
本公开总体上涉及视频处理,更具体地,涉及视频编码。
背景技术
为了视觉感知和记录,具有高清(HD)、超高清(UHD)甚至更高分辨率的成像装置已被广泛地包含到许多其他系统中。具有高清成像装置的系统的示例包括计算机、平板电脑、电话、普通摄影系统、监视系统、家庭安全系统和无人机。在许多应用中,由成像装置捕获的视频数据经由有线或无线网络流式发送到远程终端,以进行实时检测和控制。视频流传输应用要求以可接受的图像质量进行低延时发送。由于视频数据的发送即使被压缩,有时也可能超过网络(尤其是无线网络)的比特率的容量,因此使用适当的速率控制技术对视频数据进行编码,例如,基于感兴趣区域(ROI)的技术,以便以比非ROI更高的质量对ROI进行编码。以此方式,可以实现延时要求和经编码的视频数据的图像质量之间的平衡。
基于ROI的编码方法引起了空中侦查和监视领域的极大兴趣,这主要是因为这些任务必须依靠无线网络以低延时来发送视频数据。例如,配备有高清成像装置的无人机(“UAV”)被广泛用于从监视到跟踪、遥感、搜寻及救援、科学研究等任务。在典型的操作中,操作员控制UAV在相关区域上方飞行,同时UAV持续利用它的成像装置捕获视频并将捕获的视频无线发送给操作员的终端进行检查。重要的是,以非常低的延时和高质量发送视频数据,以便操作员可以依靠所发送的视频做出即时决策。但是有些时侯,由于无线通信信道中可用带宽的限制,以低延时发送高清的整个图像是一种挑战。克服这一挑战的一种方法是将图像分为ROI(操作员感兴趣的区域)和非ROI(操作员不感兴趣的区域),并以较高质量发送ROI,同时以较低质量发送非ROI。
在FPV(第一人称视角)无人机竞速的应用中,头戴式显示器用于实时显示竞速无人机流式发送的视频,而参赛者则依靠头戴式显示器在需要绕障碍物急转弯的高速追逐中决定如何控制小型飞行器。由于竞速无人机的速度可以达到每小时几百公里,因此向参赛者显示的视频需要以小于一帧速率的延时发送,以使播放不会因延迟的视频而被误导。例如,当无人机以360km/hr的速度行驶时,仅需0.01秒即可行驶一米。为了控制这种高速无人机,不仅需要图像捕获装置的帧速率非常高(例如,120帧/秒),而且需要视频数据的编码和视频数据的发送都在一个短于一帧速率的周期内。否则,参赛者在显示器上看到的内容可能已经与竞速无人机的实际位置相距数米。
传统的ROI编码方法通常会建立固定的ROI,然后在ROI和非ROI之间设置质量差异。这种ROI编码方法会导致一些缺点。例如,这些方法通常将ROI的质量设置为相对高于非ROI,但是不能保证ROI具有满足特定应用需求的质量。另外,当无线通信信道的带宽由于距离、干扰和景观的改变而波动时,这些传统方法不能进行必要的调整以使ROI适应无线通信信道的当前状态。此外,ROI可能并不总是包括具有复杂情景的图像区域。当ROI具有简单的情景而非ROI具有相对复杂的情景时,传统的基于ROI的编码方法有时会对非ROI产生阻塞效应,这几乎不会产生非ROI的细节,因为非ROI被迫比ROI的质量低一定数量。
发明内容
本申请的目的是提供一种视频编码方法,该方法确保以可以稳健地抵抗由于带宽波动而导致的质量上的任何负面影响的高质量地对ROI进行编码。本申请的另一个目的是减少非ROI所编码的数据中的潜在阻塞效应。另一个目的是在可用带宽的限制下产生尽可能大的ROI,以使显示的图像帧具有高图像质量的大区域。
本申请通过设置ROI的量化参数的上限来确保ROI的质量,使得ROI具有相对稳定的图像质量。本申请还能够动态地调整ROI的其他参数(例如,ROI的尺寸),以平衡整个图像上的质量。以这种方式,当非ROI仍然具有可接受的图像质量时扩大ROI。当非ROI的图像质量非常低时,可以减小ROI的尺寸以节省更多的比特率用于非ROI。是否调整ROI的尺寸取决于ROI与非ROI之间图像质量的比较。
根据一方面,本申请涉及一种用于编码视频数据的方法。该方法包括:接收由成像装置生成的视频数据,在所述视频数据的图像帧内确定第一区域和第二区域。设置第一限度、第二限度和第三限度,第一限度指示用于对第一区域内的每个宏块进行编码的量化参数的最大值,第二限度指示第一区域的最大尺寸,第三限度指示第二区域的最小尺寸;估计所述第一区域的编码视频数据的第一图像质量和所述第二区域的编码视频数据的第二图像质量;根据所述第一图像质量和所述第二图像质量来调整所述第一区域和所述第二区域的尺寸;以及对所述视频数据进行编码。
根据各实施例,该编码方法还包括基于所述第一区域内的每个宏块的量化参数来计算第一统计值作为所述第一图像质量,并且基于所述第二区域内的每个宏块的量化参数来计算第二统计值作为所述第二图像质量。当所述第二图像质量大于所述第一图像质量时,该编码方法将所述第一区域的尺寸增加预定长度。当所述第一区域的尺寸达到所述第二限度并且所述第二图像质量大于所述第一图像质量时,该编码方法将所述第一限度减小预定量。
根据各实施例,当所述第二图像质量比所述第一图像质量低预定阈值时,该编码方法将所述第一区域的尺寸减小预定长度。当所述第一区域的尺寸达到所述第三限度并且所述第二图像质量比所述第一图像质量低所述预定阈值时,该编码方法将所述第一限度增加预定量。当所述第二图像质量不比所述第一图像质量低预定阈值时,该编码方法保持所述第一区域的尺寸和所述第一限度不变。
根据另一实施例,所述第一区域表示包围所述图像帧的中心的预定尺寸的矩形,所述第一区域和所述第二区域的组合占据完整图像帧。
根据另一实施例,该编码方法还执行对象识别算法以确定所述第一区域,估计与所述第一区域相对应的所述编码数据的第一比特率,基于所述第一比特率和所述无线通信系统的可用带宽来计算所述第二区域的第二比特率;以及对所述第二区域的视频数据进行编码以适合目标比特率。
本申请的另一方面涉及一种存储可执行程序的非暂时性存储介质,所述指令在被执行时使处理器执行本申请中阐述的编码方法。
本申请的另一方面涉及一种无人载运工具系统,包括本体,所述本体与动力系统和成像装置耦合,编码器,用于对所述成像装置生成的视频数据进行编码,以及无线通信系统,用于发送由所述编码器编码的所述视频数据。所述编码器执行本申请中阐述的编码方法。
附图说明
根据结合附图对实施例的以下详细描述,本公开中阐述的各实施例的以上和其他目的、特征以及优点将更显而易见。
图1示出了根据本申请实施例的视频编码系统。
图2示出了根据本申请实施例的可移动物体的示例性结构。
图3示出了根据本申请实施例的编码器。
图4示出了根据本申请实施例的编码器。
图5示出了根据本申请实施例的ROI监控方法。
图6示出了根据本申请实施例的ROI控制方法。
图7示出了根据本申请实施例的编码方法的工作示例。
图7A示出了根据本申请实施例的具有ROI区域的原始图像。
图7B示出了根据本申请实施例的通过基于ROI的方法的ROI中的图像质量相对于传统方法的改进。
图7C示出了根据本申请实施例的基于ROI的方法和传统编码方法之间的非ROI的图像质量调整。
图8示出了根据本申请实施例的ROI的尺寸的调整。
图9示出了根据本申请实施例的用于实现编码方法的电子装置。
具体实施方式
本领域普通技术人员应理解,以上的简要描述和以下的详细描述是示例性的(即,说明性的),并且是对本公开中阐述的主题的解释,但并不旨在对其进行限制或限制本公开在各种实施例中可以实现的优点。
应当注意,在本公开中,尤其是在权利要求和/或段落中,诸如“包括”、“包括了”、“包括有”等术语可以具有在美国专利法中赋予它的含义,例如,它们可以意指“包含”、“包含了”、“包含有”等。
图1示出了根据本申请实施例的视频发送系统。该视频发送系统包括电子装置150、通信网络190和远程装置152。电子装置150可以是能够处理视频数据的任何装置,例如计算机、服务器、终端、平板电脑、电话、具有相机的无人载运工具以及具有相机的UAV。远程装置152可以是移动终端,例如电话、平板电脑、具有显示器的遥控器或具有显示器的可穿戴式护目镜。通信网络190可以包括有线通信信道和无线通信信道。当使用无线通信信道时,它可以部署诸如无线局域网(WLAN)(例如,WiFiTM)、蓝牙和第三/第四/第五代(3G/4G/5G)蜂窝网络等技术。
电子装置150包括与视频编码器102连接的成像装置,例如相机104。相机104捕获图像和/或视频,该图像和/或视频进一步被视频编码器102编码,然后输出以用于发送。尽管在图1中仅示出了一个相机,但是应当理解,电子装置150可以与多个相机一起工作。在一个实施例中,所捕获的图像和/或视频被编码并存储在电子装置150处。可以基于若干触发事件来将所存储的视频/图像发送给另一个装置(例如,远程装置152),例如基于调度策略、操作员的请求(例如,电子装置150的操作员)和/或网络特性(例如,有线连接和/或可用连接的带宽)。在另一个实施例中,经由无线通信信道将所捕获的图像和/或视频流式发送给远程装置152。在一个优选实施例中,流式视频的延时需要接近或小于视频数据的一帧速率,以允许操作员基于所接收的视频数据做出实时决策。本申请中使用的术语“延时”指代从捕获帧图像到在远程终端上显示帧图像的时间段,包括捕获、编码、发送、解码和显示图像帧的过程。
应当注意,用于编码视频数据的编码技术也适用于编码图像数据,因为视频数据被理解为由多个图像帧形成,每个图像帧都是图像。因此,除非另有说明,否则本说明书中公开的对视频数据执行的操作也适用于静止图像数据。另外,相机可以捕获音频数据、位置数据以及图片数据。如本说明书中所讨论的,视频数据还可以包括视频数据、音频数据、位置数据以及由一个或多个相机捕获的其他信息。
编码数据通过通信网络190发送给远程装置152。在远程装置152处,由视频解码器112对编码数据进行解码。然后可以在远程装置152的显示器114上示出解码数据。当编码数据包括音频数据时,可以单独地从扬声器(未示出)收听解码音频数据,或与显示器一起。
视频编码器102和视频解码器112经常一起被称为编解码器系统。编解码器系统可以支持一个或多个视频压缩协议。例如,图1的视频通信环境中的编解码器可以支持以下项中的一个或多个:H.265高效视频编码(HEVC)、H.264高级视频编码(AVC)、H.263、H.262、Apple ProRes、Windows Media Video(WMV)、微软(MS)移动图像专家组(MPEG)-4v3、VP6-VP9、Sorenson、RealVideo、Cinepak和Indeo。本申请的实施例不限于特定的视频压缩协议,并且可应用于支持瓦片(slice)编码的视频压缩协议。
在一个实施例中,电子装置150是移动装置。例如,电子装置150可以是可穿戴电子装置、手持电子装置或可移动物体,例如UAV。当电子装置150是UAV时,相机104可以是机载相机,其拍摄用于诸如工业/农业检测、实况活动广播、科学研究、竞速等各种目的的航拍照片和视频。
相机104能够提供具有4096×2160或3840×2160像素的4K分辨率的视频数据。本申请的实施例也可以以其他分辨率对视频数据进行编码,其他分辨率诸如标清(SD)(例如,480行交错、576行交错),全高清(FHD)(例如,1920×1080像素)、5K UHD(例如,5120×2880像素、5120×3840像素、5120×2700像素)和8K UHD(例如,7680×4320像素、8192×5120像素、10240×4320像素)。
在一个实施例中,相机104能够以诸如60Hz、120Hz或180Hz之类的高帧速率生成视频数据。电子装置150被配置为实时或接近实时地对所生成的视频数据进行编码。在一个实施例中,该编码方法能够以非常低的延时(例如,大约100ms或20ms)对视频数据进行编码。可以根据编码过程的应用和所捕获的视频数据的帧速率来设计目标延时。例如,如果编码过程用于实况视频的流式发送,则用于发送视频数据的目标延时需要接近或小于帧速率。如果延时比帧速率长得多,则操作员将不得不依靠延迟过多的视频图像来控制UAV,由此使得UAV摔坏的可能性较高。根据一个实施例,当所捕获的视频的帧速率为120Hz时,本申请可获得的延时可以低至20ms。
虽然仅示出了一个视频编码器,但电子装置150可以包括多个视频编码器,多个编码器对来自相机104或另一个相机的视频数据进行编码。视频编码器102的编码过程将在本申请的以下部分中详细公开。
图2示出了作为可移动物体150的示例性空中系统200的实施例。空中系统200可以是具有固定翼或旋转螺旋桨的飞行器。空中系统可以具有飞行员,或者可以是由操作员远程控制的UAV。UAV的示例可以是DJI制造的Phantom无人机或Mavic无人机。空中系统可以携带有效载荷202。在一个实施例中,有效载荷202包括成像装置,例如图1所示的相机104。载体204可以用于将有效载荷202附接到空中系统200的本体220。在一个实施例中,载体204包括三轴云台。
空中系统200可以包括多个推进机构206、感测系统208、通信系统210以及容纳在天线系统的本体220内部的多个电子部件218。在一个实施例中,多个电子部件218包括如图1所示的视频编码器102。在另一个实施例中,视频编码器可以放置在有效载荷202内部。
推进机构206可以包括旋翼、螺旋桨、叶片、引擎、电机、轮子、轴、磁体或喷嘴中的一个或多个。在一些实施例中,推进机构206可以使空中系统200能够垂直地从表面起飞或垂直地着陆在表面上,而不需要空中系统200的任何水平移动(例如,无需沿着跑道行进)。感测系统208可以包括可感测空中系统200(例如,相对于高达三个平移度和高达三个旋转度)的空间布置、速度和/或加速度的一个或多个传感器。一个或多个传感器可以包括全球定位系统(GPS)传感器、运动传感器、惯性传感器、距离传感器或图像传感器。
通信系统210能够经由无线信道216与具有通信系统214的终端212进行通信。通信系统210和214可以包括适合于无线通信的任意数量的发射机、接收机和/或收发器。
图3示出了根据本申请的编码系统的实施例。如图3所示,编码器包括在图中由实线箭头连接的“前向路径”和由虚线箭头连接的“逆向路径”。“前向路径”包括对整个图像帧、图像帧的区域或图像帧的块(例如,宏块(MB))进行编码过程。“逆向路径”包括实施重构过程,其生成用于预测下一图像帧或下一图像帧的下一块的情景301。在下文中,术语“帧”、“图像”和“图像帧”可互换使用。
可以根据选择的编码标准来确定图像帧的宏块。例如,覆盖16×16像素的固定尺寸的MB是H.264标准中采用的基本语法和处理单元。H.264还允许将MB细分为较小的子块,尺寸可减小到4×4像素,以进行运动补偿预测。MB可以用以下四种方式之一拆分为子块:16×16、16×8、8×16或8×8。8×8子块可以用以下四种方式之一进一步拆分:8×8、8×4、4×8或4×4。因此,当使用H.264标准时,图像帧的块的尺寸可以在16×16至4×4的范围内,并且在如上所述的两者之间进行很多选择。
在一些实施例中,如图3所示,“前向路径”包括预测模块302、变换模块303、量化模块304和熵编码模块305。在预测模块302中,可以根据预测模式来生成预测块。可以从所采用的视频编码标准所支持的多个帧内预测模式和/或多个帧间预测模式中选择预测模式。以H.264为例,它支持亮度4×4和8×8块的九种帧内预测模式,包括八个定向模式和作为非定向模式的帧内直接分量(DC)模式。对于亮度16×16块,H.264支持四种帧内预测模式,例如垂直模式、水平模式、DC模式和平面模式。此外,H.264支持帧间预测模式的所有可能组合,例如用于帧间运动预估的可变块尺寸(即16×16、16×8、8×16、8×8、8×4、4×8、4×4)、不同的帧间运动预估模式(即,使用整数、二分之一或四分之一像素运动估计)和多个参考帧。
在多个帧内预测模式中,使用来自当前帧的先前编码的块来创建预测块。在多个帧间预测模式中,来自过去的帧或未来的帧(相邻帧)的先前编码的块被存储在情景301中,并被用作帧间预测的参考。在一些实施例中,可以将来自一个或多个过去的帧和/或一个或多个未来的帧的两个或多个先前编码的块的加权和存储在情景301中以用于帧间预测。从块中减去预测块以生成残差块。
在变换模块303中,将残差块变换为空间频域(也称为空间频谱域)中的表示,其中可以依据多个空间频域分量(例如,X和Y方向上的每空间单位的周期数)来表示残差块。与空间频域表达式中的空间频域分量相关联的系数也称为变换系数。在此可以使用任何合适的变换方法,例如,离散余弦变换(DCT)、小波变换等。以H.264为例,使用从DCT导出的4×4或8×8整数变换对残差块进行变换。
在量化模块304中,可以通过将变换系数除以量化步长(Qstep)来获得量化的变换系数,以将变换后的系数与一组有限的量化步长相关联。由于量化步长不是整数,因此使用量化参数QP来指示关联的Qstep。根据不同的编码标准,量化参数QP的值和量化步长Qstep之间的关系可以是线性的或指数的。以H.263为例,QP的值与Qstep之间的关系为Qstep~2×QP。以H.264为另一例,QP的值与Qstep之间的关系为Qstep~2QP/6
可以理解,编码过程,尤其是量化模块,会影响图像帧或块的图像质量。图像质量通常由对应图像或块的比特率指示。较高的比特率表明编码图像或块的图像质量较高。根据一个实施例,本申请通过控制编码视频数据的比特率来调整编码图像或块的图像质量。
可以通过调整诸如量化参数之类的编码参数的值来进一步实现比特率的调整。量化参数QP的较小值与较小的量化步长Qstep相关联,可以更准确地近似残差块的空间频谱,即可以保留更多的空间细节,由此在编码数据流中产生更多的比特和更高的比特率。较大的QP值表示粗略地近似残差块的空间频谱的较粗的步长,使得残差块的较少的空间细节可以反映在编码数据中。即,随着QP的值增加,聚合一些空间细节,这使空间细节丢失或被阻塞,从而导致比特率和图像质量的降低。
例如,H.264允许总共52个量化参数QP的可能值,即0、1、2、...、51,并且QP每增加一个单位,Qstep延长12%,并且比特率粗略降低12%。在一个实施例中,编码器确定与每个宏块的每个变换系数相对应的量化参数QP的值,以控制目标质量和/或比特率。在另一个实施例中,编码器为ROI中的每个宏块分配量化参数QP的最大值,以确保ROI的质量。一旦设置了QP的最大值,就可以保护编码数据的图像质量不受其他因素(例如,可用带宽和图像帧情景)的影响。在另一个实施例中,编码器根据带宽和视频的情景的改变来调整ROI中每个宏块的QP的最大值。
在熵编码模块305中,对量化的变换系数进行熵编码。在一些实施例中,量化的变换系数可以在熵编码之前重新排序(未示出)。熵编码可以将符号转换成可以容易地存储和发送的二进制码,例如,数据流或比特流。例如,在H.264标准中使用了上下文自适应可变长度编码(CAVLC)来生成数据流。要进行熵编码的符号包括但不限于量化的变换系数、用于使解码器能够重新创建预测的信息(例如,选择的预测模式、分区尺寸等)、关于数据流的结构的信息、关于完整序列的信息(例如,MB头)等。
在一些实施例中,如图3所示,“逆向路径”包括逆量化模块306、逆变换模块307和重构模块308。对量化的变换系数进行逆量化和逆变换以生成重构的残差块。逆量化也称为重新缩放过程,其中量化的变换系数分别乘以Qstep以获得重新缩放的系数。将经重新缩放的系数逆变换以生成重构的残差块。这里可以使用与在变换模块303中使用的变换方法相对应的逆变换方法。将重构的残差块添加到重构模块308中的预测块以创建重构块,该重构块被存储在情景301中作为预测下一个块的参考。
图4示出了根据本申请实施例的编码器。与图3相比,图4中的编码系统包括几个附加模块,例如,ROI监控模块310、ROI控制模块312和速率控制模块314。ROI监控模块310从预测模块、DCT模块、量化模块和熵编码模块接收编码参数,估计ROI和非ROI的图像质量,并将估计的图像质量输出给ROI控制模块。ROI控制模块根据从ROI监控模块输入的估计的图像质量来调整ROI和/或非ROI的参数,并将调整后的参数输出给速率控制模块314。速率控制模块314被配置为在诸如可用带宽之类的网络条件的约束下,根据图像的复杂性、来自操作员的输入和/或ROI控制模块312,来向ROI和非ROI分配比特率。
ROI监控模块310被设计为监控经编码的帧图像的质量,并且耦合到编码系统的多个处理模块,包括预测模块、变换模块、量化模块和熵编码模块,以收集每个模块使用的编码参数。例如,ROI监控模块可以从预测模块接收关于预测模式以及宏块的类型和尺寸的参数。在一个实施例中,ROI监控模块310接收ROI的参数,例如,ROI的位置、尺寸和形状以及在ROI中的宏块的标识。在另一个实施例中,ROI监控模块从变换模块接收关于变换函数的参数,从量化模块接收每个宏块的量化参数,并且从熵编码模块接收用于编码的算法和经编码的帧图像的比特率。
ROI监控模块310被配置为基于从其他模块接收的编码参数来估计ROI和非ROI的图像质量,然后将估计的图像质量提供给ROI控制模块309以调整ROI。ROI监控模块310的功能是利用统计算法来处理图像帧的ROI和非ROI的编码参数,并计算统计值作为ROI和非ROI图像质量的指示符。在一个实施例中,ROI监控模块310将量化参数QP视为ROI图像质量的指示符。ROI监控模块310首先根据非ROI和ROI将那些量化参数进行分组,并且比较这两组经分组的量化参数。在一个实施例中,ROI监控模块310在每个组上执行统计算法并比较所获得的统计结果。例如,ROI监控模块310可以计算每个组中的量化参数的平均值、算数平均值、中位数或加权平均值。在一个实施例中,ROI监控模块310利用加权或未加权直方图来计算每个组中的量化参数的平均值。在另一个实施例中,计算每个组中的聚合量化参数以指示图像质量。本申请不仅限于一个ROI和/或一个非ROI,而是同样适用于多个ROI和/或多个非ROI。
ROI控制模块312从ROI监控模块310接收估计的图像质量,并相应地调整ROI及其编码参数。在一个实施例中,ROI的编码参数包括ROI的尺寸、位置和形状。在另一个实施例中,ROI的编码参数还包括ROI尺寸的上限和下限以及ROI量化参数的上限和下限。ROI尺寸的上限可以是完整图像帧。ROI尺寸的下限可以基于编码装置的应用来确定。例如,当具有编码装置的UAV用于高速无人机竞速时,下限可以是图像帧的大约20%,这覆盖了图像帧中间区域的很大一部分。量化参数的上限和下限可以根据编码装置所使用的编码标准来确定。
调整ROI的目的是确保视频数据的图像质量在ROI和非ROI之间达到平衡,并保证ROI的高质量。分配给量化参数QP的上限要求量化步长不大于使经编码的ROI的图像质量不会轻易受到图像帧的情景和网络条件(例如,带宽)影响的最大值。由于ROI的图像质量是因量化参数的限度而相对设置的,因此ROI的调整将首先调整ROI的尺寸,以平衡ROI和非ROI之间的图像质量。当ROI的尺寸达到各限度时,如果需要在ROI和非ROI之间进一步重新分配比特率,则ROI控制模块312会调整量化参数的限度。
在一个实施例中,ROI控制模块312确定图像帧中的ROI的尺寸、形状和位置。ROI控制模块312接收视频数据并将视频数据显示在显示屏上,以供操作员指示其感兴趣的区域。操作员可以选择一个或多个区域作为ROI。在一个实施例中,ROI控制模块312在接收视频数据之后,检测图像帧中的多个对象,并向用户指示这些对象以用于选择ROI。这些对象可以包括图像帧中的任何可识别特征,例如人、动物、独特的颜色等。该ROI设置方法可以适用于例如监视、搜寻及救援、对象跟踪和避障等应用。用于基于图像的对象检测和重组的算法在本领域中是公知,将不再在本申请中详细说明。
在另一个实施例中,ROI控制模块312将围绕图像帧中心的预定尺寸的区域分配为ROI作为默认ROI。图像帧的中心区域很可能是操作员自然聚焦的区域,尤其是在无人机竞速期间。在另一个实施例中,ROI控制模块312可以对操作员的眼睛的凝视进行检测,并且将操作员凝视点周围的区域分配为ROI。在另一个实施例中,当允许无人机竞速选手在实际竞速事件之前对飞行赛道进行测试时,ROI控制模块312能够识别沿着飞行赛道的障碍物并将围绕那些检测到的障碍物的区域分配为ROI。
在另一个实施例中,ROI的形状不限于任何特定形状。它可以是诸如矩形或圆形之类的简单形状。它可以是操作员在显示屏上绘制的形状。它可以是紧密跟踪检测物体轮廓的任何形状。在另一个实施例中,ROI的尺寸具有下限和上限。例如,下限可以是图像帧尺寸的大约20%,上限可以是图像帧的完整尺寸。ROI的尺寸可以以宏块为单位。例如,对于具有1280×720像素的图像帧,可以将图像帧划分为80×45个宏块,其中每个宏块由16×16像素形成。预定的ROI可以是围绕图像中心的矩形区域并由40×22的宏块形成。在另一个实施例中,ROI控制模块309根据多个预定标准来调整ROI的尺寸,这将稍后在本申请中进行描述。
除了调整ROI的位置、尺寸和形状之外,ROI控制模块还调整与编码数据相关联的编码参数,以平衡ROI和非ROI之间的质量。在一个实施例中,ROI控制模块调整ROI和非ROI的量化参数QP。量化参数的调整至少基于ROI监控模块310的数据和诸如带宽之类的网络条件。
在一个实施例中,ROI监控模块310和ROI控制模块312都具有不同的处理速率。例如,一旦诸如变换模块和量化模块之类的其他模块完成了它们在各图像帧上的处理,ROI监控模块就只需更新其对图像质量的估计。因此,可以接受ROI监控模块以视频数据的帧速率更新其处理,该帧速率与其他部件的速率近似相同。在一个实施例中,ROI控制模块具有比帧速率更高的处理速率,以便实时地实现对ROI和编码参数的调整。例如,如果视频数据的帧速率为120Hz,则ROI控制模块的处理速率可以至少为1200Hz甚至更高。
速率控制模块314被设计为根据ROI和非ROI的编码参数来分配比特率。为了分配比特率,速率控制模块314将接收来自操作员的输入,该操作员可以手动调整ROI,来自预测模块的关于预测模式和图像情景的输入,来自ROI控制模块的关于经调整的ROI的输入,以及来自网络装置的关于网络条件的输入。在一个实施例中,速率控制模块首先基于经调整的ROI和来自预测模块的输入来计算ROI的比特率。在一个实施例中,速率控制模块314在将比特率分配给ROI的过程期间不需要考虑网络条件。在一个实施例中,速率控制模块314将ROI的量化参数与对应的限度进行比较,并且如果该量化参数在限度之外,则将量化参数重置为下限或上限。对于非ROI,它们的比特率被速率控制模块314设置为可用带宽与ROI的比特率之间的差,速率控制模块314还确定量化参数,以生成非ROI的目标比特率。速率控制模块314将速率分配和计算的量化参数输出给预测模块,以便在随后的编码过程中使用它们。
图5示出了ROI监控模块310的ROI监控方法的实施例。在步骤502处,ROI监控方法从包括预测模块、变换模块、量化模块和熵编码模块的多个源接收编码参数。在一个实施例中,编码参数包括ROI的信息,例如,ROI的位置、形状、尺寸以及这些ROI内的宏块。编码参数还包括每个宏块的量化参数。在步骤504处,ROI监控方法提取ROI的信息及ROI的量化参数QP。在步骤506处,ROI监控方法根据ROI对所提取的量化参数进行分组。在一个实施例中,将所有非ROI的量化参数放置在一个组中,将所有ROI的量化参数放置在另一个组中。在步骤508处,利用统计算法处理分组后的量化参数以计算统计值。统计值可以是从量化参数的平均值、加权平均值、中位数、算数平均值、最小值和最大值的组中选择的任意一个。在另一个实施例中,步骤508可以处理多个统计值以计算每个组的图像质量的综合指示符。步骤508还将统计值、ROI的信息和估计的图像质量输出给ROI控制模块312。
图6示出了根据本申请的ROI控制模块312的ROI控制方法的实施例。在步骤602处,ROI控制方法根据多种方法设置初始ROI。例如,步骤602可以接收操作员在显示屏的输入,并根据操作员的输入来设置初始ROI。该输入可以是操作员在显示屏上绘制的区域、操作员输入的坐标或由操作员指示的图像帧中的物体。为了检测图像帧的物体,步骤602可以实施多种自动识别算法以识别图像帧中的物体和人物,并将那些识别出的物体和人物指定为初始ROI。识别算法的示例包括边缘匹配、灰度匹配、梯度匹配、姿态聚类、尺度不变特征变换和类似算法。在另一实施例中,步骤602还可以将围绕帧的中心点的区域设置为初始ROI。该实施例被设计为将图像帧的固定且自然聚焦的部分指定为ROI,这避免了由于ROI从一个图像帧动态地移动到另一图像帧而对操作员造成的不必要的干扰。在无人机竞速的应用中,这种中心定位的ROI可能是优选的,因为参赛者的注意力会集中在显示屏的中心。在另一个实施例中,步骤602根据UAV的应用来选择可以应用哪种ROI确定方法。例如,当UAV用于消防救援和侦察时,操作员可能不知道哪个物体可能是感兴趣的。因此,步骤602使用识别算法来检测图像帧中的物体并将这些物体设置为ROI。当UAV用于跟踪应用时,步骤602将依赖于操作员的输入来将物体指定为ROI。当UAV用于无人机竞速时,步骤602可以使用中心定位的区域作为ROI。
在步骤604处,为ROI设置多个预定限度。在一个实施例中,将量化参数的预定上限分配给初始ROI。该上限将使ROI每个宏块的量化参数QP不大于预定值。如前所述,量化参数QP可以控制ROI的图像质量。较低的QP将生成较高的图像质量。因此,采用的量化参数的上限还设置了ROI的最小图像质量,并且使ROI的图像质量免受网络条件和图像情景的变化的影响。该预定上限可以通过几种方法来确定。在一个示例中,该上限基于带宽和ROI的尺寸来确定。例如,当ROI的尺寸是图像帧的大约20%时,步骤604可以选择使大约30%的带宽被分配给ROI的限度的值。在另一个示例中,ROI的QP限度可以被设置为不大于20。
如前所述,ROI的尺寸也具有上限和下限,其在步骤604处设置。当将通过ROI控制方法动态调整的ROI的尺寸达到尺寸的上限或下限时,指示需要对除ROI的尺寸以外的其他进行调整以生成具有可接受的质量的编码图像数据。在一个实施例中,当ROI达到其尺寸限度时,将调整ROI的量化参数的预定限度。例如,当ROI达到了尺寸的上限时,可以降低量化参数的上限以继续增加ROI的比特率的趋势。另一方面,当ROI达到了尺寸的下限时,可以增加量化参数的上限以继续降低ROI的比特率的趋势。
在步骤606处,ROI控制方法接收来自ROI监控模块的数据606,并发起多个处理以确定是否调整ROI的尺寸或是否调整关于ROI的量化参数的限度。所接收的数据包括ROI和非ROI的估计的图像质量、量化参数的统计值以及ROI的信息。
在步骤608处,首先确定非ROI的图像质量是否优于ROI的图像质量。如果对步骤608的回答为“是”,则表明已向非ROI分配了不必要的高比特率,这表明需要重新分配比特率,以使ROI具有更高的图像质量。然后在步骤612处,将ROI的尺寸增加预定步长。以这种方式,ROI被放大以具有更大的图像区域以进行更高质量的编码。ROI尺寸的增加将为操作员提供更好的视觉呈现。在ROI的尺寸增加之后,在步骤618处进一步确定ROI的尺寸是否已经达到其最大值或上限,例如,完整图像帧。如果对步骤618的回答为“是”,则表明ROI的尺寸可能不再增加。因此,在步骤620处,可以调整其他参数以增加ROI的图像质量。例如,可以减小量化参数的限度以增加ROI的图像质量。如果对步骤618的回答为“否”,则调整后的ROI的尺寸是可接受的,并且可以在步骤622处将其输出给量化模块。
如果对步骤608的回答为“否”,则表明非ROI的质量已经比ROI的质量低。尽管通常公认的是,非ROI具有较低的图像质量,但是可能会存在非ROI的图像质量过低而对整个图像帧的视觉效果产生负面影响的情况。因此,根据本申请的实施例,ROI控制方法还被设计为将非ROI和ROI之间的质量差保持在预定阈值Th内,以确保非ROI的图像质量也是可接受的。在步骤612处,通过预定阈值Th确定非ROI的图像质量是否低于ROI的图像质量。如果对步骤612的回答为“否”,则意味着ROI和非ROI的图像质量彼此之间的差距不太大并且是可接受的。因此,在步骤614处,不需要调整ROI或编码参数。
但是,如果对步骤612的回答为“是”,则表明与ROI相比,非ROI的图像质量可能太低。因此,根据本申请的实施例,为了提高非ROI的质量,在步骤616处,减小ROI的尺寸以节省更多比特率以用于非ROI。由于ROI的尺寸减小,因此步骤624确定ROI的尺寸是否已经达到下限。如果尺寸已经达到ROI的下限,则步骤628增加ROI的量化参数的限度,以允许将更多的比特率从ROI重新分配给非ROI。但是如果ROI的尺寸尚未达到下限,则ROI的尺寸和编码参数是可接受的,并且在步骤626处将其输出给量化模块。
图7示出了根据实施例的具有ROI的图像帧。图像帧702具有1280×720的分辨率。在编码期间,图像帧702被划分成多个宏块,每个宏块具有16×16像素。因此,图像帧可以被理解为由80(1280/16=80)×45(720/16=45)个宏块的矩阵形成。初始ROI 704被设置为在图像帧中中心定位的矩形,并由40x22个宏块形成,这大约是图像帧面积的25%。ROI的上限被设置为完整图像帧,并且ROI的下限被设置为20x10个宏块,其大约为图像帧面积的1/16。将最大量化参数进一步分配给ROI,例如QP<=20,而将非ROI 706的量化参数留给编码算法分配。编码算法将首先对ROI进行编码,并基于分配的量化参数确定ROI的近似比特率,该比特率不能超过分配的最大值。在对ROI进行编码后,编码算法计算目标比特率,该目标比特率是基于可用带宽和ROI比特率之间的差异确定的,然后将目标比特率分配给非ROI,然后对非ROI进行编码以生成目标比特率。
在对图像帧702进行编码之后,相应地提取ROI 704和非ROI 706的量化参数并进行分组。分别根据以下用于ROI和非ROI的方程来计算加权平均量化参数WQP。
(1)分别获得ROI和非ROI量化参数的直方图。
对于非ROI中的qpj,Out_Histogram[qpj]=Out_Histogram[qpj]+1;
对于ROI中的qpj,In_Histogram[qpj]=In_Histogram[qpj]+1;
(2)分别计算ROI和非ROI的加权平均量化参数wqp。
对于每个0<=qpj<=51(H.264中的QP值),
qpSum=qpSum+Histogram[qpj]xqpj
nSum=nSum+Histrogram[qpj]
加权平均量化参数wqp=qpSum/nSum。
(3)根据加权平均wqp调整ROI和量化参数。
加权平均wqp的值在图7中示出为Ain,非ROI的wqp值为Aout。图8示出了根据本申请实施例的对ROI的尺寸的调整。如果Aout小于Ain,则认为非ROI具有高于ROI的图像质量,这需要进行调整以将更多比特率分配给ROI。因此,可以将ROI的尺寸增加预定步长,例如两个宏块,这将初始ROI的尺寸从40×22个宏块增加到42×24个宏块。ROI的增加可以持续到ROI达到完整图像为止。在这种情况下,可以将ROI的量化参数的最大值降低预定值,例如3,以进一步增加ROI的图像质量。
但是,如果Aout在Ain和Ain+阈值之间,则表明非ROI的图像质量低于ROI,并且在ROI的预定阈值之内,则编码结果是可以接受的,不需要调整。
但是,如果Aout比Ain+阈值Th还大,则表明非ROI的图像质量比ROI差得多,对编码参数进行调整是得当的。在一个实施例中,阈值Th根据编码系统采用的编码标准来选择。选定的阈值Th可以指示加倍的图像质量。在一个实施例中,本申请的编码系统实现H.264编码标准,并且Ain/Aout是ROI/非ROI的量化参数的算术平均值。因此,阈值Th被选择为6,表示加倍的图像质量,或12,表示四倍的图像质量。当ROI和非ROI之间的图像质量存在巨大差距时,调整ROI的尺寸将具有比其他方式更高的优先级,以平衡ROI和非ROI的图像质量。例如,可以将尺寸减小预定步长,例如两个宏块,这导致新ROI为38x20个宏块。当新ROI达到预设的下限(例如,20x10个宏块)时,将ROI中的量化参数的最大值增加预定量(例如3),以进一步节省更多的比特率以用于非ROI。在一个实施例中,可以仅调整一次帧图像中的ROI的尺寸,以避免ROI的任何突然的改变。在另一实施例中,可以多次调整一帧图像中的ROI的尺寸,直到ROI和非ROI中的图像质量满足本申请中阐述的标准的要求。
图7A至图7C示出了根据本申请实施例的工作示例。图7A示出了尚未被编码或压缩的原始图像。原始图像中物体的精细细节仍然可以辨认,例如,图像中心处的树上的叶子和阴影。图像中的白框示出了ROI所在的位置。
图7B示出了在ROI区域中,根据本申请的编码方法比传统编码方法更好地保存了图像质量。中心处的图像显示的是原始图像的ROI区域。中心图像左侧和右侧的图像示出的是根据本申请的方法和传统方法的经编码的ROI区域,其中,中心图像右侧的图像中示出了由基于ROI的编码方法编码的ROI区域,中心图像左侧的图像中示出了由传统方法编码的ROI区域。如图7B所示,与传统编码方法720相比,基于ROI的编码图像724中树的叶子和阴影保留了更多的细节。ROI724还紧密跟踪原始图像722中显示的内容。因此,与传统方法相比,根据本申请的基于ROI的编码方法在ROI区域中生成了更优的图像质量。
图7C示出了在基于ROI的编码方法和传统方法之间的非ROI区域的图像质量。中心处的图像示出了原始图像的右侧部分区域,该区域是非ROI区域。中心图像左侧和右侧的图像示出了根据本申请的方法和传统方法的经编码的非ROI区域,其中,中心图像右侧的图像示出了由基于ROI的编码方法编码的非ROI区域,中心图像左侧的图像示出了由传统方法编码的非ROI区域。如图7C所示,与经传统编码的图像730相比,基于ROI的编码图像734中树的叶子和阴影丢失了更多的细节。这些图像显示,在此特定情况下,根据本申请的基于ROI的编码方法从非ROI区域到ROI区域重新分配了更多比特率。
通常,本申请中公开的编码器的功能可以通过硬件、软件或它们的组合来实现。例如,那些编码模块的操作可以全部或部分地由软件来执行,该软件配置编码器的处理器以实现如本申请中阐述的编码方法。根据本文的描述,合适的软件对于本领域技术人员将是显而易见的。由于操作速度的原因,通常优选使用硬连线逻辑电路来实现编码功能。
图9示出了能够实现根据本申请的编码方法的示例性电子装置。电子装置902包括通过总线910互连的CPU 904,内置RAM 906和内置ROM 908。各种功能部分也经由输入/输出接口920连接到总线910。电子装置902的功能部分包括输入部分912、输出部分914、通信部分916和辅助存储部分918。输入部分912的示例包括键盘、鼠标、扫描仪、麦克风或触摸感应显示屏。输出部分914的示例包括显示器、扬声器、打印机或绘图仪。通信部分916的示例包括USB接口、IEEE 1394接口、蓝牙接口或IEEE 802.11a/b/g接口。辅助存储部分918的示例包括光盘、磁盘、磁光盘或半导体存储器。FAT文件系统可以用于电子装置902的辅助存储部分918中包括的每个存储介质,并且以相同的方式将数据记录到每个存储介质。电子装置的示例可以是计算机、服务器、客户终端、移动电子装置、台式机或电话。
在本申请中用于存储可执行程序的非暂时性存储介质可以包括适合于存储数字数据的任何介质,例如,磁盘、光盘、磁光盘、闪存或EEPROM、SDSC(标准容量)卡(SD卡)或半导体存储器。存储介质还可以具有用于与另一电子装置耦合的接口,使得存储在该存储介质上的数据可以被其他电子装置访问和/或执行。
尽管已经结合上述的特定实施例描述了本发明,但是显而易见的是,对于本领域的普通技术人员来说,许多备选方案、修改和变型将是显而易见的。因此,本发明的上述实施例的意图是说明性的,而不是限制性的。在不脱离如所附权利要求所限定的本发明的精神和范围的情况下,可以进行各种改变。

Claims (30)

1.一种无人机,包括:
本体,所述本体与动力系统和成像装置耦合;
编码器,用于对由所述成像装置生成的视频数据进行编码,所述编码器包括:
ROI控制模块,在所述视频数据的图像帧内确定第一区域和第二区域,所述ROI控制模块还设置第一限度、第二限度和第三限度,所述第一限度指示用于对所述第一区域内的每个宏块进行编码的量化参数的最大值,所述第二限度指示所述第一区域的最大尺寸,所述第三限度指示所述第二区域的最小尺寸;以及
ROI监控模块,耦合到所述ROI控制模块,所述ROI监控模块估计所述第一区域的编码视频数据的第一图像质量和所述第二区域的编码视频数据的第二图像质量;以及
无线通信系统,用于发送由所述编码器编码的视频数据,
其中,所述ROI控制模块根据所述第一图像质量和所述第二图像质量来调整所述第一区域和所述第二区域的尺寸。
2.根据权利要求1所述的无人机,其中,所述ROI监控模块基于所述第一区域内的每个宏块的量化参数来计算第一统计值作为所述第一图像质量,以及基于所述第二区域内的每个宏块的量化参数来计算第二统计值作为所述第二图像质量。
3.根据权利要求2所述的无人机,其中,当所述第二图像质量大于所述第一图像质量时,所述ROI控制模块将所述第一区域的尺寸增加预定长度。
4.根据权利要求3所述的无人机,其中,当所述第一区域的尺寸达到所述第二限度并且所述第二图像质量大于所述第一图像质量时,所述ROI控制模块将所述第一限度减小预定量。
5.根据权利要求2所述的无人机,其中,当所述第二图像质量比所述第一图像质量低预定阈值时,所述ROI控制模块将所述第一区域的尺寸减小预定长度。
6.根据权利要求5所述的无人机,其中,当所述第一区域的尺寸达到所述第三限度并且所述第二图像质量比所述第一图像质量低所述预定阈值时,所述ROI控制模块将所述第一限度增加预定量。
7.根据权利要求5所述的无人机,其中,当所述第二图像质量不比所述第一图像质量低所述预定阈值时,所述ROI控制模块保持所述第一区域的尺寸和所述第一限度不变。
8.根据权利要求1所述的无人机,其中,所述第一区域表示包围所述图像帧的中心的预定尺寸的矩形,并且所述第一区域和第二区域的组合占据完整图像帧。
9.根据权利要求1所述的无人机,其中,所述ROI控制模块执行对象识别算法以确定所述第一区域。
10.根据权利要求1所述的无人机,其中,所述编码器通过对所述第一区域进行编码来估计与所述第一区域相对应的编码数据的第一比特率,基于所述第一比特率和所述无线通信系统的可用带宽来计算所述第二区域的第二比特率,以及对所述第二区域的视频数据进行编码以适合目标比特率。
11.一种用于对视频数据进行编码的方法,包括:
接收由成像装置生成的视频数据,
在所述视频数据的图像帧内确定第一区域和第二区域;
设置第一限度、第二限度和第三限度,所述第一限度指示用于对所述第一区域内的每个宏块进行编码的量化参数的最大值,所述第二限度指示所述第一区域的最大尺寸,所述第三限度指示所述第二区域的最小尺寸;
估计所述第一区域的编码视频数据的第一图像质量和所述第二区域的编码视频数据的第二图像质量;
根据所述第一图像质量和所述第二图像质量来调整所述第一区域和所述第二区域的尺寸;以及
对所述视频数据进行编码。
12.根据权利要求11所述的方法,还包括:
基于所述第一区域内的每个宏块的量化参数来计算第一统计值作为所述第一图像质量,以及基于所述第二区域内的每个宏块的量化参数来计算第二统计值作为所述第二图像质量。
13.根据权利要求12所述的方法,还包括:
当所述第二图像质量大于所述第一图像质量时,将所述第一区域的尺寸增加预定长度。
14.根据权利要求13所述的方法,还包括:
当所述第一区域的尺寸达到所述第二限度并且所述第二图像质量大于所述第一图像质量时,将所述第一限度减小预定量。
15.根据权利要求12所述的方法,还包括:
当所述第二图像质量比所述第一图像质量低预定阈值时,将所述第一区域的尺寸减小预定长度。
16.根据权利要求15所述的方法,还包括:
当所述第一区域的尺寸达到所述第三限度并且所述第二图像质量比所述第一图像质量低所述预定阈值时,将所述第一限度增加预定量。
17.根据权利要求15所述的方法,还包括:
当所述第二图像质量不比所述第一图像质量低所述预定阈值时,保持所述第一区域的尺寸和所述第一限度不变。
18.根据权利要求11所述的无人机,其中,所述第一区域表示包围所述图像帧的中心的预定尺寸的矩形,并且所述第一区域和第二区域的组合占据完整图像帧。
19.根据权利要求11所述的方法,还包括:
执行对象识别算法以确定所述第一区域。
20.根据权利要求11所述的方法,还包括:
通过对所述第一区域进行编码来估计与所述第一区域相对应的编码数据的第一比特率;
基于所述第一比特率和所述无线通信系统的可用带宽来计算所述第二区域的第二比特率;以及
对所述第二区域的视频数据进行编码以适合目标比特率。
21.一种存储可执行程序的非暂时性存储介质,所述可执行程序在被执行时,使处理器执行用于对视频数据进行编码的方法,所述方法包括:
接收由成像装置生成的视频数据,
在所述视频数据的图像帧内确定第一区域和第二区域;
设置第一限度、第二限度和第三限度,所述第一限度指示用于对所述第一区域内的每个宏块进行编码的量化参数的最大值,所述第二限度指示所述第一区域的最大尺寸,所述第三限度指示所述第二区域的最小尺寸;
估计所述第一区域的编码视频数据的第一图像质量和所述第二区域的编码视频数据的第二图像质量;
根据所述第一图像质量和所述第二图像质量来调整所述第一区域和所述第二区域的尺寸;以及
对所述视频数据进行编码。
22.根据权利要求21所述的非暂时性存储介质,还包括:
基于所述第一区域内的每个宏块的量化参数来计算第一统计值作为所述第一图像质量,以及基于所述第二区域内的每个宏块的量化参数来计算第二统计值作为所述第二图像质量。
23.根据权利要求22所述的非暂时性存储介质,还包括:
当所述第二图像质量大于所述第一图像质量时,将所述第一区域的尺寸增加预定长度。
24.根据权利要求23所述的非暂时性存储介质,还包括:
当所述第一区域的尺寸达到所述第二限度并且所述第二图像质量大于所述第一图像质量时,将所述第一限度减小预定量。
25.根据权利要求22所述的非暂时性存储介质,还包括:
当所述第二图像质量比所述第一图像质量低预定阈值时,将所述第一区域的尺寸减小预定长度。
26.根据权利要求25所述的非暂时性存储介质,还包括:
当所述第一区域的尺寸达到所述第三限度并且所述第二图像质量比所述第一图像质量低所述预定阈值时,将所述第一限度增加预定量。
27.根据权利要求25所述的非暂时性存储介质,还包括:
当所述第二图像质量不比所述第一图像质量低所述预定阈值时,保持所述第一区域的尺寸和所述第一限度不变。
28.根据权利要求21所述的非暂时性存储介质,其中,所述第一区域表示包围所述图像帧的中心的预定尺寸的矩形,并且所述第一区域和第二区域的组合占据完整图像帧。
29.根据权利要求21所述的非暂时性存储介质,还包括:
执行对象识别算法以确定所述第一区域。
30.根据权利要求21所述的非暂时性存储介质,还包括:
通过对所述第一区域进行编码来估计与所述第一区域相对应的编码数据的第一比特率;
基于所述第一比特率和所述无线通信系统的可用带宽来计算所述第二区域的第二比特率;以及
对所述第二区域的视频数据进行编码以适合目标比特率。
CN201980063787.7A 2019-06-04 2019-06-04 基于感兴趣区域的视频数据编码方法、装置和存储介质 Pending CN112771859A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2019/089989 WO2020243906A1 (en) 2019-06-04 2019-06-04 Method, device, and storage medium for encoding video data base on regions of interests

Publications (1)

Publication Number Publication Date
CN112771859A true CN112771859A (zh) 2021-05-07

Family

ID=73652724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980063787.7A Pending CN112771859A (zh) 2019-06-04 2019-06-04 基于感兴趣区域的视频数据编码方法、装置和存储介质

Country Status (4)

Country Link
US (1) US20210168376A1 (zh)
EP (1) EP3777152A4 (zh)
CN (1) CN112771859A (zh)
WO (1) WO2020243906A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024077799A1 (en) * 2022-10-11 2024-04-18 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method and system for image data processing

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220345721A1 (en) * 2019-09-30 2022-10-27 Sony Interactive Entertainment Inc. Image data transfer apparatus, image display system, and image compression method
US10939126B1 (en) * 2019-12-09 2021-03-02 Guangzhou Zhijing Technology Co., Ltd Method of adding encoded range-of-interest location, type and adjustable quantization parameters per macroblock to video stream
EP3954123A4 (en) * 2020-06-30 2023-01-11 E-Con Systems India Private Limited SYSTEM AND METHOD FOR IMPLEMENTING REGION OF INTEREST BASED STREAMING
US20220021887A1 (en) * 2020-07-14 2022-01-20 Wisconsin Alumni Research Foundation Apparatus for Bandwidth Efficient Video Communication Using Machine Learning Identified Objects Of Interest
US20230028426A1 (en) * 2021-07-15 2023-01-26 Teraki Gmbh Method and system for optimizing image and video compression for machine vision
CN114584834B (zh) * 2022-01-27 2024-02-13 百果园技术(新加坡)有限公司 视频质量优化方法、装置、设备和存储介质
CN114422788A (zh) * 2022-03-30 2022-04-29 浙江智慧视频安防创新中心有限公司 数字视网膜视频联合编码方法、译码方法、装置及电子设备
CN117692649B (zh) * 2024-02-02 2024-04-19 广州中海电信有限公司 基于图像特征匹配的船舶远程监控视频高效传输方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101945275A (zh) * 2010-08-18 2011-01-12 镇江唐桥微电子有限公司 一种基于感兴趣区域的视频编码方法
CN104754340A (zh) * 2015-03-09 2015-07-01 南京航空航天大学 一种无人机侦察图像压缩方法
CN104980740A (zh) * 2014-04-08 2015-10-14 富士通株式会社 图像处理方法、装置和电子设备
US20160100166A1 (en) * 2014-10-03 2016-04-07 Microsoft Technology Licensing, Llc Adapting Quantization
US20190050664A1 (en) * 2016-04-22 2019-02-14 SZ DJI Technology Co., Ltd. Systems and methods for processing image data based on region-of-interest (roi) of a user

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8160364B2 (en) * 2007-02-16 2012-04-17 Raytheon Company System and method for image registration based on variable region of interest
CN102006472A (zh) * 2010-11-18 2011-04-06 无锡中星微电子有限公司 视频码率控制系统及其方法
CN103974071A (zh) * 2013-01-29 2014-08-06 富士通株式会社 基于感兴趣区域的视频编码方法和设备
US9584715B2 (en) * 2015-02-16 2017-02-28 Cognex Corporation Vision system with swappable camera having an alignment indicator, and methods of making and using the same
CN105744271B (zh) * 2016-02-17 2018-06-26 浙江大华技术股份有限公司 一种视频编码方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101945275A (zh) * 2010-08-18 2011-01-12 镇江唐桥微电子有限公司 一种基于感兴趣区域的视频编码方法
CN104980740A (zh) * 2014-04-08 2015-10-14 富士通株式会社 图像处理方法、装置和电子设备
US20160100166A1 (en) * 2014-10-03 2016-04-07 Microsoft Technology Licensing, Llc Adapting Quantization
CN104754340A (zh) * 2015-03-09 2015-07-01 南京航空航天大学 一种无人机侦察图像压缩方法
US20190050664A1 (en) * 2016-04-22 2019-02-14 SZ DJI Technology Co., Ltd. Systems and methods for processing image data based on region-of-interest (roi) of a user

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024077799A1 (en) * 2022-10-11 2024-04-18 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method and system for image data processing

Also Published As

Publication number Publication date
EP3777152A1 (en) 2021-02-17
WO2020243906A1 (en) 2020-12-10
EP3777152A4 (en) 2021-02-17
US20210168376A1 (en) 2021-06-03

Similar Documents

Publication Publication Date Title
US20210168376A1 (en) Method, device, and storage medium for encoding video data base on regions of interests
US10911750B2 (en) System and methods for feedback-based data transmission
US9871995B2 (en) Object of interest based image processing
US10178394B2 (en) Transcoding techniques for alternate displays
US20190007678A1 (en) Generating heat maps using dynamic vision sensor events
EP2809073A1 (en) Bit-Rate control for video coding using object-of-interest data
US20230082561A1 (en) Image encoding/decoding method and device for performing feature quantization/de-quantization, and recording medium for storing bitstream
US20190238848A1 (en) Method and apparatus for calculating quantization parameters to encode and decode an immersive video
KR102432804B1 (ko) Mjpeg 압축방식을 이용하는 영상촬영장치
US20210014486A1 (en) Image transmission
CN113630600A (zh) 人类视觉系统自适应视频编码
US10142664B2 (en) Method and device for determining properties of a graphical overlay for a video stream
JP6995083B2 (ja) 原映像ストリームから有意映像ストリームを生成するプログラム、装置及び方法
JP7143263B2 (ja) 符号化パラメータを用いて対象識別位置を決定する対象識別方法、装置及びプログラム
WO2020019279A1 (zh) 视频压缩的方法、装置、计算机系统和可移动设备
KR102183895B1 (ko) 가상 현실 비디오 스트리밍에서의 관심영역 타일 인덱싱
WO2021062624A1 (zh) 可移动平台的图像处理方法、装置、可移动平台及介质
US20140269910A1 (en) Method and apparatus for user guided pre-filtering
US11233999B2 (en) Transmission of a reverse video feed
Cheok et al. Analytics-modulated coding of surveillance video
KR20150086385A (ko) 관심 객체 기반 이미지 처리
WO2023055266A1 (en) Rate-control using machine vision performance
WO2014155471A1 (ja) 符号化方法および符号化装置
CN117440176A (zh) 用于视频传输的方法、装置、设备和介质
Quast et al. Spatial Scalable JPEG2000 Transcoding and Tracking of Regions of Interest for Video Surveillance.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210507

WD01 Invention patent application deemed withdrawn after publication