CN111447449A

CN111447449A - 基于roi的视频编码方法和系统以及视频传输和编码系统

Info

Publication number: CN111447449A
Application number: CN202010249206.3A
Authority: CN
Inventors: 王宇; 宗文
Original assignee: Beijing Aowei Video Technology Co ltd
Current assignee: Beijing Aowei Video Technology Co ltd
Priority date: 2020-04-01
Filing date: 2020-04-01
Publication date: 2020-07-24
Anticipated expiration: 2040-04-01
Also published as: CN111447449B

Abstract

本发明公开了一种基于ROI的视频编码方法，包括：S101：获取待编码视频的视频帧；S102：通过神经网络模型提取所述视频帧的ROI区域；S103：针对所述视频帧的ROI区域，采用第一编码方式进行编码；针对所述视频帧的非ROI区域，采用第二编码方式进行编码，其中第一编码方式的编码图像质量等级高于所述第二编码方式的编码图像质量等级。本发明还公开了一种基于ROI的视频编码装置以及视频传输和编码系统。

Description

基于ROI的视频编码方法和系统以及视频传输和编码系统

技术领域

本发明大致涉及图像处理技术领域，尤其涉及一种基于ROI的视频编码方法、基于ROI的视频编码系统以及视频传输和编码系统。

背景技术

作为目前主流的视频编码技术，混合视频编码将变换编码与预测编码组合在一起，就构成新的一类所谓混合编码，通常使用DCT、小波变换等频域变换进行空间冗余度的压缩，用帧内预测、带有运动补偿的帧间预测等技术进行时间冗余度的压缩，从而实现对视频数据更高的压缩效率。早期的ITU会议电视和电视电话图像压缩编码标准建议H.261以及后续ISO/IEC的MPEG-1、MPEG-2、MPEG-4、H.264、HEVC以及国内视频编码标准AVS等视频压缩编码标准都采用了这一混合编码方案。

与混合视频编码技术不同，基于感兴趣区域(Region of Interest,ROI)的视频编码技术更侧重于针对特定应用场景进行编码优化，其核心思想是将一帧图像划分为ROI区域及非ROI区域，针对ROI区域适当提高其编码后的视频质量。ROI视频编码技术通常应用在对带宽或存储容量敏感的应用场景，例如视频监控、视频会议、体育赛事直播等场景，从理论上将可以大幅提升视频编码的率失真(Rate-Distortion，R-D)性能。但是，在实际应用当中，如何在一帧视频图像中选取ROI至今仍是一个开放问题。有些视频监控应用系统会在系统设置阶段手动选取ROI，例如选取画面中心部分。但这样的ROI选取结果有如下缺点：首先，固定的ROI区域与随时间变化的视频图像中应用所关注的ROI并不完全一致，不能达到提升画面主观视觉质量的目的；其次，固定的ROI区域反而在视频播放中降低用户的视觉体验。因此，能够根据视频画面内容的变化自适应生成ROI是真正实现ROI视频编码技术优势的关键所在。然而，基于传统图像分割技术及目标跟踪、目标识别技术的ROI区域选取在实际视频编码应用中并不能达到满意效果。

背景技术部分的内容仅仅是发明人所知晓的技术，并不当然代表本领域的现有技术。

发明内容

本发明提供一种基于ROI的视频编码方法、基于ROI的视频编码系统以及一种基于ROI的视频编码和传输系统。

根据本发明实施例的基于ROI的视频编码方法包括：

S101：获取待编码视频的视频帧；

S102：通过神经网络模型提取所述视频帧的ROI区域；

S103：针对所述视频帧的ROI区域，采用第一编码方式进行编码；针对所述视频帧的非ROI区域，采用第二编码方式进行编码，其中第一编码方式的编码图像质量等级高于所述第二编码方式的编码图像质量等级。

根据本发明的一个方面，所述视频编码方法还包括：判断所述视频帧采用帧内编码方式或帧间编码方式；

其中所述神经网络模型包括第一神经网络模型和第二神经网络模型，所述第一神经网络模型为无运动估计信息的深度神经网络模型，所述第二神经网络模型为结合运动估计信息的深度神经网络模型，

所述步骤S102包括：当所述视频帧采用的是帧内编码方式时，根据第一神经网络模型，对所述视频帧提取ROI区域；当所述视频帧采用的是帧间编码方式时，根据第二神经网络模型，对所述视频帧提取ROI区域。

根据本发明的一个方面，所述的视频编码方法还包括：

选择所述第一神经网络模型和第二神经网络模型和训练框架；

建立标注ROI的第一训练集、和标注ROI及运动估计信息的第二训练集；

利用所述第一训练集和第二训练集，分别对所述第一神经网络模型和第二神经网络模型进行训练，输出所述第一神经网络模型和第二神经网络模型。

根据本发明的一个方面，所述的视频编码方法还包括：

对所述ROI区域进行判断，获得识别错误率；

当所述错误率高于阈值时，对所述神经网络模型进行迭代训练，直到所述错误率低于所述阈值。

根据本发明的一个方面，所述第一训练集包括以视频为单位的多帧，所述第二训练集包括以视频为单位的多帧。

根据本发明的一个方面，所述第一训练集包括每一帧图像的ROI区域；所述第二训练集包括每一帧图像的ROI区域、以及每一帧与参考帧的运动估计信息，其中参考帧通过以下方式中的任一种选择：

i)对于每个视频，第i帧都以第(i-d)帧为参考帧，第1到第d帧不纳入训练集，其中i与d均为整数，1≤d<i；

ii)当前帧与参考帧之间具有不固定的间隔，对于无法获得参考帧的图像帧不纳入训练集。

根据本发明的一个方面，所述选择第一神经网络模型和第二神经网络模型包括：根据应用场景、计算能力来选择所述第一神经网络模型和第二神经网络模型。

根据本发明的一个方面，所述步骤S101包括：通过摄像头实时采集图像，作为待编码的视频；

所述视频编码方法还包括：

判断所述ROI区域是否在预设区域内；

如果所述ROI区域不在所述预设区域内，调节所述摄像头的角度和/或焦距，以使得所述ROI区域位于所述预设区域内。

本发明还提供一种基于ROI的视频编码装置，包括：

视频帧获取单元，配置成可获取待编码视频的视频帧；

ROI区域识别单元，配置成可通过神经网络模型提取所述视频帧的ROI区域；

编码单元，所述编码单元配置成针对所述视频帧的ROI区域，采用第一编码方式进行编码；针对所述视频帧的非ROI区域，采用第二编码方式进行编码，其中第一编码方式的编码图像质量等级高于所述第二编码方式的编码图像质量等级。

根据本发明的一个方面，所述视频编码装置还包括判断单元，所述判断单元配置成可判断所述视频帧采用帧内编码方式或帧间编码方式；

所述ROI区域识别单元配置成：当所述视频帧采用的是帧内编码方式时，根据第一神经网络模型，对所述视频帧提取ROI区域；当所述视频帧采用的是帧间编码方式时，根据第二神经网络模型，对所述视频帧提取ROI区域。

根据本发明的一个方面，所述的视频编码装置还包括模型建立单元，所述模型建立单元配置成可执行以下操作：

建立标注ROI区域的第一训练集、和标注ROI区域及运动估计信息的第二训练集；

根据本发明的一个方面，所述的视频编码装置还包括：验证单元，所述验证单元配置成可对所述ROI区域进行判断，获得识别错误率；

当所述错误率高于阈值时，所述模型建立单元对所述神经网络模型进行迭代训练，直到所述错误率低于所述阈值。

i)对于每个短视频，第i帧都以第(i-d)帧为参考帧，第1到第d帧不纳入训练集，其中i与d均为正数，1≤d<i；

ii)当前帧与参考帧的间隔不固定，对于无法获得参考帧的图像帧不纳入训练集。

根据本发明的一个方面，所述模型建立单元配置成根据应用场景、计算能力来选择所述第一神经网络模型和第二神经网络模型。

本发明还涉及一种视频传输和编码系统，包括：

摄像头，配置成可实时采集图像；

如上所述的视频编码装置，其中所述视频编码装置的视频帧获取单元与所述摄像头通讯，以获得所述摄像头实时采集的图像，作为待编码的视频。

根据本发明的一个方面，所述视频传输和编码系统，还包括摄像头控制机构，所述摄像头控制机构与所述摄像头连接，并可控制所述摄像头的角度和/或焦距，

其中所述频编码装置的ROI区域识别单元配置成可判断所述ROI区域是否在预设区域内；当所述ROI区域不在所述预设区域内时，所述摄像头控制机构配置成可调节所述摄像头的角度和/或焦距，以使得所述ROI区域位于所述预设区域内。

附图说明

构成本公开的一部分的附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。在附图中：

图1示出了根据本发明一个实施例的基于ROI的视频编码方法；

图2示出了基于DNN的视频ROI区域提取模型生成步骤图；

图3示出了基于DNN的自适应提取ROI的视频编码系统；

图4示出了模型推理结果的实时反馈及在线训练；

图5示出了根据本发明一个实施例的基于ROI的视频编码装置；

图6示出了根据本发明的实施例一的实时视频编码方法；

图7示出了根据本发明的优选实施例二的视频传输和编码系统；

图8示出了根据本发明的优选实施例二的视频传输和编码方法；和

图9示出了图像中目标区域位置标定方法。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

在本发明的描述中，需要理解的是，术语"中心"、"纵向"、"横向"、"长度"、"宽度"、"厚度"、"上"、"下"、"前"、"后"、"左"、"右"、"坚直"、"水平"、"顶"、"底"、"内"、"外"、"顺时针"、"逆时针"等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语"第一"、"第二"仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有"第一"、"第二"的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中，"多个"的含义是两个或两个以上，除非另有明确具体的限定。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语"安装"、"相连"、"连接"应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接:可以是机械连接，也可以是电连接或可以相互通讯；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征之"上"或之"下"可以包括第一和第二特征直接接触，也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且，第一特征在第二特征"之上"、"上方"和"上面"包括第一特征在第二特征正上方和斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征"之下"、"下方"和"下面"包括第一特征在第二特征正上方和斜上方，或仅仅表示第一特征水平高度小于第二特征。

下文的公开提供了许多不同的实施方式或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。当然，它们仅仅为示例，并且目的不在于限制本发明。此外，本发明可以在不同例子中重复参考数字和/或参考字母，这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施方式和/或设置之间的关系。此外，本发明提供了的各种特定的工艺和材料的例子，但是本领域普通技术人员可以意识到其他工艺的应用和/或其他材料的使用。

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明的实施例涉及一种视频混合编码系统与装置，在国际视频编码标准H.264以及HEVC或者国内视频编码标准AVS等混合编码框架的基础之上，针对实时视频通讯中低带宽、高画质、低延时的应用需求，通过前置一个深度神经网络提取视频内容的ROI区域，调整混合编码框架的编码参数和编码策略，达到提升率失真性能、降低码流带宽波动、提高主观视觉质量的目的。编码器输出码流可以是符合H.264、HEVC、AVS等视频编码标准的码流，也可以是符合私有视频编码标准的码流，满足不同应用场景的需求。

针对在对带宽或存储容量有一定限制要求的视频编码应用场景，本发明提出了一种自适应提取ROI的视频编码方法，具体说来，通过前置一个深度神经网络(Deep NeuralNetwork,DNN)模型提取视频内容的ROI区域，对图像中的ROI区域及非ROI区域给予不同的编码参数和编码策略，达到提升R-D性能、降低码流带宽波动、提高主观视觉质量的目的。前置的DNN模型基于视频内容进行训练，模型拓扑结构中包含与混合编码视频编码中的预测技术相对应的层结构。该视频编码方法可以完全与主流视频编码标准兼容，输出符合H.264、HEVC、AVS等视频编码标准的码流，也可以与私有视频编码标准相结合，满足不同应用场景的需求。本文并给出根据该方法，针对不同视频应用场景下的视频编码装置。

本发明实施例提出的自适应提取ROI的视频编码方法分为两个部分：生成基于DNN的视频ROI区域提取模型；利用该模型提取的图像ROI区域进行视频编码。通过离线模型训练来建立模型，然后通过在线的实时视频编码来运用该模型。这两个部分可以独立完成，也可以集成为一个系统工作，实现模型推理结果的实时反馈及在线训练(增强学习)，以下分别阐述。

图1示出了根据本发明一个实施例的基于ROI的视频编码方法100，下面参考图1详细描述。

在步骤S101：获取待编码视频的视频帧。

待编码的视频例如为通过摄像头实时采集的连续视频，例如视频会议、视频直播、视频监控、新闻播报、远程医疗及计算机辅助远程教学等各种类型的视频。对于连续的视频，获取其中的一帧视频帧。

在步骤S102：通过神经网络模型提取所述视频帧的ROI区域。

该神经网络模型例如可以为专门针对视频帧的ROI区域的提取而建立和优化的。模型的输入为视频帧以及必要的该视频帧的相关信息，输出为该视频帧的场景化信息，包括感兴趣区域ROI。本领域技术人员容易理解，本发明可以采用各种类型的神经网络模型，神经网络模型可以针对各种编码方式进行训练，本发明不限于特定类型的编码方式和神经网络类型。具体的神经网络类型以及训练方式将在下文的优选实施例中详细描述。

在步骤S103：针对所述视频帧的ROI区域，采用第一编码方式进行编码；针对所述视频帧的非ROI区域，采用第二编码方式进行编码，其中第一编码方式的编码图像质量等级高于所述第二编码方式的编码图像质量等级。本领域技术人员理解，本发明中，“编码图像质量等级”可以采用各种方式来评估，包括但不限于分辨率、色彩深度、图像失真等各种因素中的一种或多种，而不限于特定的评价标准。

在识别出该视频帧的ROI区域后，可以对ROI区域和非ROI区域进行分别编码，给予不同的编码参数和编码策略，达到提升R-D性能、降低码流带宽波动、提高主观视觉质量的效果。例如用于ROI区域的第一编码方式的编码图像质量等级高于用于非ROI区域的第二编码方式的编码图像质量等级。通过这样的编码方式，可以确保对于ROI区域采用较高质量等级的编码，对于非ROI区域，可以采用较低质量等级的编码，在确保关键区域的清晰度的同时，降低了对于传输带宽和存储容量的要求。

对于原始的待编码视频，其中的视频帧可能采用帧内编码方式，也可能采用帧间编码方式。因此根据本发明的一个实施方式，所述视频编码方法100还包括：判断所述视频帧采用帧内编码方式还是帧间编码方式。相应的，神经网络模型可包括第一神经网络模型和第二神经网络模型，其中第一神经网络模型为无运动估计信息的深度神经网络模型，适用于帧内编码的视频帧；第二神经网络模型为结合运动估计信息的深度神经网络模型，适用于帧间编码的视频帧。上述的步骤S102包括：当判断所述视频帧采用的是帧内编码方式时，使用第一神经网络模型对视频帧提取ROI区域；当判断所述视频帧采用的是帧间编码方式时，使用第二神经网络模型对所述视频帧提取ROI区域。

通过根据帧内编码和帧间编码来区分神经网络模型，每个模型可以分别针对帧内编码和帧间编码进行优化，从而提高识别的速度和准确性。

根据本发明的一个优选实施方式，所述的视频编码方法100还包括建立和训练所述第一神经网络模型和第二神经网络模型的过程，如图2所示。具体如下。

步骤一：选择所述第一神经网络模型和第二神经网络模型以及训练框架。

首先可以根据不同的应用场景(包括场景化信息的具体内容、场景化信息的多样性及复杂度、用于模型推理的算力等参数)及用于模型训练的算力来选择基本DNN模型及训练框架。基本DNN模型可以选择R-CNN、Fast R-CNN、SSD、YOLO/YOLOv3等适用于目标检测的模型；训练框架可以选择TensorFlow、Caffe/Caffe2、Darknet等。

然后建立无运动估计信息的第一神经网络(例如深度神经网络DNN)模型以及结合运动估计信息的第二神经网络(例如深度神经网络DNN)模型。根据提取ROI区域的需要，基本DNN模型应包含proposal层，该层的输出为一系列矩形信息(bounding box，Bbox)。在本发明中，基本DNN模型根据proposal层的输出生成方法的不同分为两类：

第一类为无运动估计信息的DNN模型，这一类模型的proposal层的输出由预先定义的一组矩形信息组成，即：

Bbox1＝{Ret(x_i，y_iw_i，h_i)}，

其中Rec(x_i，y_i，w_i，h_i)为所选择的bounding box，其中x_i，y_i分别表示矩形左上角的横坐标与纵坐标，w_i，h_i分别表示矩形的宽与高。Proposal层的输出是ROI区域的候选，最终ROI区域是从这些bounding box中选出的一个或几个最佳结果。

第二类为结合运动估计信息的DNN模型，这一类模型的proposal层的输出是根据运动估计的信息对第一类DNN模型中定义的一组矩形信息筛选出的一部分，即：

Bbox2＝Bbox1∩{MV_k＝(Δx_k，Δy_k)，k＝1,…，K}，

不失一般性，在主流的混合视频编码系统中，将视频画面划分为若干宏块(Macroblock，MB)，每一宏块的运动估计信息即为根据运动估计计算出的该宏块与其在参考帧中对应宏块的相对位移矢量，即运动矢量(Motion Vector，MV)，表示为{MV_k＝(Δx_k，Δy_k)}。BBox是ROI的候选区域，是视频画面的一部分，是一个矩形；MB是将视频画面进行分割后得到的若干个矩形块(一般是正方形)。设视频图像一共被划分为K个宏块。具体筛选方法包括但不限于下述方法：

对Bbox1中的每一个矩形Rec(x_i，y_i，w_i，h_i)进行如下操作：

计算出该矩形的中心坐标

然后在当前帧的所有运动估计宏块中找到一个其中心坐标最接近于上述矩形中心坐标的宏块k，记其运动矢量为{MV_k＝(Δx_k，Δy_k)}。

以宏块MBk为种子，以宏块为单位进行4-邻域或者8-邻域区域生长，生长停止的条件为待选宏块MBj与邻域中已生长宏块的运动矢量的1-norm差大于给定阈值σ，即|Δx_k-Δx_j|+|Δy_k-Δy_j|＞σ。计算生长区域S与Rec(x_i，y_i，w_i，h_i)的交并比(Intersection-over-Union，IoU)，当IoU大于给定阈值

的时候，认为Rec(x_i，y_i，w_i，h_i)是一个可能的ROI，将其加入Bbox2，否则将其丢弃。通过上述遍历得到Bbox2。上述处理的基本思路是：同一个ROI区域假定为一个刚体，它应该具有一个统一的运动矢量。因此，如果一个矩形Rec所包含的宏块具有相近的运动矢量，则认为这个矩形可能是一个ROI，予以保留。如果不是，则认为该矩形不是一个ROI区域，从候选集里剔除。

步骤二：建立标注ROI区域的第一训练集、和标注ROI区域及运动估计信息的第二训练集。

首先根据应用场景选择原始训练集。传统的DNN训练集一般是以图片为基本单位的，本发明的模型最终是要应用到视频编码中，模型的训练也需要结合视频编码的相关技术，因此训练集以视频或短视频为基本单位，对短视频中每一帧图像标注ROI区域和/或运动估计信息。

与上面两种DNN模型相对应，在原始训练集的基础之上生成两种不同的训练集：第一种训练集与无运动估计信息的DNN模型相对应，对视频中的每一帧图像都标注ROI区域，即以Bbox的形式标准ROI。第二种训练集与结合运动估计信息的DNN模型相对应，不但要标注每一帧图像的ROI区域，还要标注当前帧与参考帧的运动估计信息，即{MV_k＝(Δx_k，Δy_k)，k＝1，…，K}。选择参考帧的方法是开放性的，包括但不限于：

ii)当前帧与参考帧的间隔不固定，需要设定；需保证：对于无法获得参考帧的图像帧不纳入训练集。

根据选取参考帧的方法的不同可生成不同的标注ROI区域及运动估计信息的训练集，也可以把这些不同的训练集合并组成一个增强训练集。

步骤三：利用所述第一训练集和第二训练集，分别对所述第一神经网络模型和第二神经网络模型进行训练，输出所述第一神经网络模型和第二神经网络模型。

这个步骤包含两个独立的训练过程。用无运动估计信息的DNN模型训练标注ROI区域的训练集。模型中的proposal层的输出由预先定义的一组矩形信息组成。以及用结合运动估计信息的DNN模型训练标注ROI区域及运动估计信息的训练集。模型中的proposal层的输出是根据运动估计信息对第一类DNN模型中定义的一组矩形信息筛选出的一部分，具体方法参见上文。

将训练好的第一神经网络模型和第二神经网络模型应用于混合编码的视频编码系统时，包括以下步骤：

1)将训练好的DNN模型应用于指定的原始视频输入信号的某一帧或某些帧，推理得出所需要的图像ROI区域。如何选定应用DNN模型进行推理的方法包括但不限于：

i)当前帧不应用帧间编码的情况下(即为I帧或者IDR帧)，应用无运动估计信息的DNN模型完成推理，输出ROI区域。

ii)当前帧应用帧间编码的情况下(即为P帧或者B帧)，应用结合运动估计信息的DNN模型完成推理，需要结合运动估计信息，利用上文中的方法计算proposal层的输出，最后输出ROI区域。

2)利用提取到的ROI区域对编码参数和编码过程进行优化，不失一般性，以图3为例：图3中实线的部分代表了基于H.265/HEVC的视频编码系统框图，虚线的部分代表了提取ROI区域以及利用ROI区域优化编码参数及编码过程的方法，包括但不限于：

i)变换与量化

ii)运动估计

iii)帧内估计

iiii)帧内/帧间编码模式选择

根据本发明的一个实施例，上述模型的建立、训练和模型的应用可以集成在一起工作，从而可以实现模型推理结果的实时反馈及在线训练(增强学习)，具体步骤如下(参见图4)：

1)神经网络模型训练系统以及基于DNN的自适应提取ROI的视频编码系统同时在线；

2)根据第一数据集和第二数据集，对两个DNN模型进行训练；

3)将首次训练好的DNN模型应用于原始视频输入信号，提取ROI区域，并按上文的步骤进行编码；

4)将3)中输出的视频ROI区域进行人工判别或者机器辨别，计算错误率；当错误率达到某一阈值δ时，则对DNN模型进行迭代训练,直到错误率稳定保持在δ之下，则将此时的DNN模型输出。

5)DNN模型的迭代训练的启动条件以及终止条件可以根据应用需求进行调整。

如图4所示，所述的视频编码方法100还包括对于神经网络模型的反馈和训练。例如在通过所述神经网络提取ROI区域之后，对所述ROI区域进行判断，获得识别错误率，并且当所述错误率高于阈值时，对所述神经网络模型进行迭代训练，直到所述错误率低于所述阈值。例如当识别出的ROI区域有误时，可以对该视频帧进行手工标注，并利用标注的结果对第一神经网络模型和/或第二神经网络模型进行训练，训练后的模型重新对该视频帧进行识别，如此迭代，直到对于该视频帧的识别结果正确为止。

图5示出了根据本发明一个实施例的基于ROI的视频编码装置300，包括视频帧获取单元301、ROI区域识别单元302以及编码单元303。其中视频帧获取单元301配置成可获取待编码视频的视频帧，ROI区域识别单元302配置成可通过神经网络模型提取所述视频帧的ROI区域、获取所述视频帧的ROI区域，编码单元303配置成针对所述视频帧的ROI区域，采用第一编码方式进行编码；针对所述视频帧的非ROI区域，采用第二编码方式进行编码，其中第一编码方式的编码图像质量等级高于所述第二编码方式的编码图像质量等级。

根据本发明的一个实施例，所述的视频编码装置300还包括判断单元，所述判断单元配置成可判断所述视频帧采用帧内编码方式或帧间编码方式；其中所述神经网络模型包括第一神经网络模型和第二神经网络模型，所述第一神经网络模型为无运动估计信息的深度神经网络模型，所述第二神经网络模型为结合运动估计信息的深度神经网络模型，所述ROI区域识别单元配置成：当所述视频帧采用的是帧内编码方式时，根据第一神经网络模型，对所述视频帧提取ROI区域；当所述视频帧采用的是帧间编码方式时，根据第二神经网络模型，对所述视频帧提取ROI区域。

根据本发明的一个实施例，所述的视频编码装置300还包括模型建立单元，所述模型建立单元配置成可执行以下操作：

根据本发明的一个实施例，所述的视频编码装置300还包括验证单元，所述验证单元配置成可对所述ROI区域进行判断，获得识别错误率；当所述错误率高于阈值时，所述模型建立单元对所述神经网络模型进行迭代训练，直到所述错误率低于所述阈值。

根据本发明的一个实施例，所述第一训练集包括以视频为单位的多帧，所述第二训练集包括以视频为单位的多帧。

根据本发明的一个实施例，所述第一训练集包括每一帧图像的ROI区域；所述第二训练集包括每一帧图像的ROI区域、以及每一帧与参考帧的运动估计信息，其中参考帧通过以下方式中的任一种选择：

根据本发明的一个实施例，所述模型建立单元配置成根据应用场景、计算能力来选择所述第一神经网络模型和第二神经网络模型。

本发明还涉及一种视频传输和编码系统，包括：

摄像头，配置成可实时采集图像；

如上所述的视频编码装置300，其中所述视频编码装置的视频帧获取单元与所述摄像头通讯，以获得所述摄像头实时采集的图像，作为待编码的视频。

根据本发明的一个实施例，所述的视频传输和编码系统还包括摄像头控制机构，所述摄像头控制机构与所述摄像头连接，并可控制所述摄像头的角度和/或焦距，其中所述频编码装置的ROI区域识别单元配置成可判断所述ROI区域是否在预设区域内；当所述ROI区域不在所述预设区域内时，所述摄像头控制机构配置成可调节所述摄像头的角度和/或焦距，以使得所述ROI区域位于所述预设区域内。

【实施例一】

图6示出了根据本发明的实施例一的实时视频编码方法400。该系统为自适应提取ROI的具有下述特点的实时视频通讯/录制系统：背景相对固定，全景以头肩序列或其他活动目标为主。该方法400包括：

在步骤S401，选择基本DNN模型及训练框架，根据基本模型DNN建立无运动估计信息的DNN模型以及结合运动估计信息的DNN模型。

在步骤S402，选择下述类型的短视频构成原始训练集：视频会议内容、视频直播内容、视频监控内容、新闻播报内容；标注前景与背景。以原始训练集为基础，建立标注ROI区域的训练集和标注ROI区域及运动估计信息的训练集；运动估计信息的获得可参考主流视频编码技术中运动估计的相关算法。

在步骤S403，根据选择好的模型和训练框架对训练进行训练，输出模型拓扑及参数，具体方法参见上文描述。

在步骤S404，将训练好的DNN模型应用于指定的原始视频输入信号的某一帧或某些帧，推理得出所需要的图像前景(ROI区域)及背景，具体方法参见上文描述。

在步骤S405，利用提取到的前景及背景对编码参数和编码过程进行优化，优化的重点是在CBR码率控制的前提下，在变化与量化环节分配更多的比特数给前景，同时在帧内/帧间编码模式选择环节，对前景调高小分割的权重，对后景调高大分割的权重。

在步骤S406，输出码流，用于传输或者存储。

【实施例二】

图7示出了根据本发明的优选实施例二，具体涉及一种视频传输和编码系统500，其中包括摄像头501以及如上所述的视频编码装置300。摄像头501配置成可实时采集图像，视频编码装置300的视频帧获取单元301与所述摄像头501通讯，以获得所述摄像头实时采集的图像，作为待编码的视频，并通过神经网络模型对该图像进行ROI识别和提取，并根据ROI提取结果进行编码，然后用于传输或者存储。另外优选的，该视频传输和编码系统500还可包括摄像头控制机构502，所述摄像头控制机构与所述摄像头连接，并可控制所述摄像头的角度和/或焦距。例如可以在摄像头501的视场中设定一预设区域，例如中央区域，所述视频编码装置300的ROI区域识别单元302配置成可判断所述ROI区域是否在该预设区域内；当所述ROI区域不在所述预设区域内时，所述摄像头控制机构502可以调节所述摄像头的角度和/或焦距，以使得所述ROI区域位于所述预设区域内。通过这样的方式，可以确保ROI区域处于摄像头501的视场中的预设区域例如中央区域内，中央区域图像采集的质量高，光学素质好，因此有利于确保高质量地采集关键区域的图像数据。

图7所示的视频传输和编码系统500可以应用到各种场合。以自适应提取ROI的远程超声系统为例进行说明。远程超声系统是远程医疗及计算机辅助远程教学中的一个重要场景。一般系统会配置两路视频，一路视频通过云台摄像机实时拍摄超声手法，同时动态检测人手以及超声探头并且进行实时的跟踪(调整云台摄像机的焦距，角度等参数)；另一路视频接超声影像输出。两路视频均进行实时编码及传输。实施例二针对第一路视频采用自适应提取ROI的视频编码技术，通过图7所示的视频传输和编码系统500，执行视频传输和编码方法600，如图8所示，具体包括以下步骤。

步骤601：选择基本模型及训练框架；根据基本模型DNN建立无运动估计信息的DNN模型(第一神经网络模型)以及结合运动估计信息的DNN模型(第二神经网络模型)；

步骤602：选择超声检查及超声手术的视频作为原始训练集(第一训练集)并标记人手和超声探头；以原始训练集为基础，建立标注ROI区域的训练集和标注ROI区域及运动估计信息的训练集(第二训练集)；运动估计信息的获得可参考主流视频编码技术中运动估计的相关算法。

步骤603：根据选择好的模型和训练框架对训练进行训练，输出模型拓扑及参数，具体方法如上所述。

步骤604：将训练好的DNN模型应用于指定的原始视频输入信号的某一帧或某些帧，检测人手及超声探头信息(包括目标类别、目标位置、目标尺寸等参数)，具体方法如上所述。

步骤605：以检测到的人手及超声探头位置及尺寸信息作为ROI区域，对编码参数和编码过程进行优化，对ROI区域采用更高的编码图像质量等级，具体优化步骤如上所述。

步骤606：除了优化编码参数以及编码过程，根据检测到的人手及超声探头信息调整云台摄像机的焦距、变备、角度等参数，目的是将人手及超声探头的图像调整到视频画面的中心位置并调整画面清晰度到最佳。调整云台摄像机角度的算法如下所述：

i)设图像的大小为WxH，其中W为图像宽度，H为图像高度，按照数字图像处理技术的惯例设图像左上角为坐标原点，横坐标以向右为正方向，纵坐标以向下为正方向，则图像中任意一个矩形区域的位置信息可以用四元组(x,y,w,h)来描述，其中(x,y)为矩形左上角的坐标，w,h分别为矩形的宽度和高度，例如图9中矩形区域可以分别表示为(x1,y1,w1,h1)及·(x2,y2,w2,h2)

ii)对于步骤604)中检测到的人手及超声探头模型分别用上述矩形区域来表述其位置信息：Hand(x1,y1,w1,h1)及Probe(x2,y2,w2,h2)。系统预设一个有效区域，如图9中的虚线矩形区域。计算两个ROI中心C1和C2的坐标：

如果所有ROI的中心位置均在有效区域之内，则无需调整摄像机的角度；如果有任何一个ROI的中心位置在有效区域之外，例如图9中的(x2,y2,w2,h2)，则系统需发送指令给云台调整摄像机的角度。本领域技术人员容易理解，本发明中，可以选择使得ROI区域的中心位置位于有效区域内，或者使得ROI区域的全部都位于有效区域内，这些都在本发明的保护范围内。

iii)为了确保摄像机拍摄的画面不会出现剧烈晃动，摄像机的角度每次均进行微调，经过多次微调后将ROI调整到画面的有效区域之内。

用同样的原理也可以调整摄像机的焦距。

在步骤S607：输出码流，用于传输或者存储。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种基于ROI的视频编码方法，包括：

S101：获取待编码视频的视频帧；

S102：通过神经网络模型提取所述视频帧的ROI区域；

2.如权利要求1所述的视频编码方法，还包括：判断所述视频帧采用帧内编码方式或帧间编码方式；

3.如权利要求2所述的视频编码方法，还包括：

4.如权利要求1-3中任一项所述的视频编码方法，还包括：

对所述ROI区域进行判断，获得识别错误率；

5.如权利要求3所述的视频编码方法，其中所述第一训练集包括以视频为单位的多帧，所述第二训练集包括以视频为单位的多帧。

6.如权利要求5所述的视频编码方法，其中所述第一训练集包括每一帧图像的ROI区域；所述第二训练集包括每一帧图像的ROI区域、以及每一帧与参考帧的运动估计信息，其中参考帧通过以下方式中的任一种选择：

i)对于每个视频，第i帧以第(i-d)帧为参考帧，第1到第d帧不纳入训练集，其中i与d均为整数，1≤d<i；

7.如权利要求3所述的视频编码方法，其中所述选择第一神经网络模型和第二神经网络模型包括：根据应用场景、计算能力来选择所述第一神经网络模型和第二神经网络模型。

8.如权利要求1-7中任一项所述的视频编码方法，其中所述步骤S101包括：通过摄像头实时采集图像，作为待编码的视频；

所述视频编码方法还包括：

判断所述ROI区域是否在预设区域内；

9.一种基于ROI的视频编码装置，包括：

视频帧获取单元，配置成可获取待编码视频的视频帧；

10.如权利要求9所述的视频编码装置，还包括判断单元，所述判断单元配置成可判断所述视频帧采用帧内编码方式或帧间编码方式；

11.如权利要求10所述的视频编码装置，还包括模型建立单元，所述模型建立单元配置成可执行以下操作：

12.如权利要求11所述的视频编码装置，还包括：验证单元，所述验证单元配置成可对所述ROI区域进行判断，获得识别错误率；

13.如权利要求11所述的视频编码装置，其中所述第一训练集包括以视频为单位的多帧，所述第二训练集包括以视频为单位的多帧。

14.如权利要求13所述的视频编码装置，其中所述第一训练集包括每一帧图像的ROI区域；所述第二训练集包括每一帧图像的ROI区域、以及每一帧与参考帧的运动估计信息，其中参考帧通过以下方式中的任一种选择：

i)对于每个短视频，第i帧都以第(i-d)帧为参考帧，第1到第d帧不纳入训练集，其中i与d均为整数，1≤d<i；

15.如权利要求11所述的视频编码装置，其中所述模型建立单元配置成根据应用场景、计算能力来选择所述第一神经网络模型和第二神经网络模型。

16.一种视频传输和编码系统，包括：

摄像头，配置成可实时采集图像；

如权利要求9-15中任一项所述的视频编码装置，其中所述视频编码装置的视频帧获取单元与所述摄像头通讯，以获得所述摄像头实时采集的图像，作为待编码的视频。

17.如权利要求16所述的视频传输和编码系统，还包括摄像头控制机构，所述摄像头控制机构与所述摄像头连接，并可控制所述摄像头的角度和/或焦距，