CN102541494A

CN102541494A - 一种面向显示终端的视频尺寸转换系统与方法

Info

Publication number: CN102541494A
Application number: CN2011100337806A
Authority: CN
Inventors: 高丽; 王东辉; 洪缨; 刘明刚; 侯朝焕
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2010-12-30
Filing date: 2011-01-31
Publication date: 2012-07-04
Anticipated expiration: 2031-01-31
Also published as: CN102541494B

Abstract

本发明提供了一种面向显示终端的视频尺寸转换方法，该方法首先根据用户交互式的选择，通过设计感知窗口模型，计算出感兴趣窗口的尺寸；而后检测到远景镜头，对每个远景镜头中的每一帧图像通过采用基于知识的模糊推理决策系统融合人眼观看视频的多种因素，自动识别到感兴趣区域，将感兴趣区域裁减出来，作为显示终端显示的内容；之后，对镜头内识别到的所有感兴趣区域中心点进行时间域平滑处理，从而保证感兴趣区域时间域的一致性和连贯性。另外，本发明还提供了基于该方法的面向显示终端的视频尺寸转换系统。本发明从视频片源格式转换技术角度出发，提供的技术方案能自适应将普通视频格式转换成小尺寸终端可播放的目标视频格式。

Description

一种面向显示终端的视频尺寸转换系统与方法

技术领域

本发明涉及多媒体技术领域，具体涉及一种面向显示终端的视频尺寸自适应转换系统与方法。

背景技术

随着第三代移动无线通信协议的发展与成熟，使得无线通信网络带宽日益增大，能够满足用户的多媒体业务对带宽的需求。因此越来越多的移动终端(如：手机、PDA、Pocket PCs等手持便携设备)用户喜欢通过手机观看各种各样视频。这种日益成熟的通信技术更加方便用户随时随地享受多媒体业务，更加丰富人们的娱乐生活，同时也体现出多媒体业务服务日趋多元化的特点。人们不再被绑定在家用电视机前或者公众影剧院才能享受各种节目带来的娱乐，而是可以随时随地在他们有时间或者有心情享受多媒体业务的时候，便可以使用便携移动终端来满足这种需求。另外，在新的数字环境下，用户对高质量视频体验的期望值仍在继续增长，无论他们是在电视机或大荧幕前观看，还是在因特网或在最近出现的移动便携设备中观看，用户的期望都是一样的。由于不同多媒体显示设备之间存在物理条件的差异(譬如显示屏幕的物理尺寸和显示分辨率)，适合大屏幕的普通视频片源转换到小尺寸的手机屏幕上观看时，在视觉理解和感受上很容易导致人眼的不舒适感，很大程度上降低了人们对手机视频的视觉体验。因此，面对日益流行的移动多媒体业务，迫切需要从多个层面(例如：视频片源格式的转换软件、硬件显示设备与软件算法等)入手，研究一些能够专门针对手机小屏幕视频显示的相应方法，从而提高人们在小屏幕上观看视频的体验度。

首先，由于视频的远景镜头内包含大量信息，因此试图将所有原始信息完整地在物理条件相当有限的显示终端上显示很难，而且很难通过特定方法自然地提高人眼的视觉体验。现有技术采用两种策略：一种思路是将背景信息与前景目标分离，针对两种信息的尺寸缩减尺度有所不同。背景信息的缩减尺度较大，保证将所有背景信息完整显示；而前景目标的缩减尺度相对较小，保证缩减之后的尺寸仍然处于人眼容忍极限以内。第二种思路是将每一帧视频图像化分成若干个感兴趣区域，而后利用快速序列视觉呈现范式(RSVP)技术对每一帧图像进行所有感兴趣区域的依次显示。第一种思路是基于空间域的处理，而第二种则是基于时间域的处理，它们的初衷都是希望尽可能降低原始信息损失量，但是，两种思路分别在空间域和时间域上违背了原始信息。前者导致空间域上前景目标之间以及前景与背景之间在大小和位置的相对性上发生改变，而后者不仅在时间上导致了相对性改变，同时很容易导致前后相邻图像帧之间的不连贯性视觉体验，这些因素都很容易导致人眼不舒适的视觉体验，很难被人眼所接受。

然后，当普通视频转换到移动终端等相对较小的显示终端上进行观看，需要根据终端的屏幕尺寸对普通视频进行下采样处理，从而满足移动终端屏幕的分辨率的播放条件。现有技术直接对源视频进行均匀下采样实现从源视频到目标视频的分辨率转换。但是，这样做存在的问题是，一些重要的信息可能会丢失，影响人眼的观看体验度。具体到广播足球比赛视频，以远景镜头居多，而这些远景镜头中，足球和各个球员尺寸比较小，当它们经过下采样转换到目标分辨率的视频后，这些足球和球员的尺寸会更小，以至于影响到对这些重要物体的辨别，严重影响到用户的视觉体验。即现有技术当源视频文件从较大屏幕的显示终端转换到较小屏幕的显示终端上进行播放时只有一个选择，即从源视频分辨率直接均匀下采样到目标分辨率。

而视觉生理学方面的研究表明，人在观察一幅图片时，只有少部分特定的关注信息进入大脑并得到进一步处理，这少部分特定信息被称为视频感兴趣区域。因此如果视觉感知窗口裁减了部分原始视频信息，但是只要能够在有限的窗口内充分显示视频图像中的人眼最为关注区域，比较符合原始拍摄者的初衷的情况下，并不会给人们对原始视频信息的感知带来太大的影响，相比较小屏幕糟糕的视觉感知情况，反而会增加观众观看比赛的视觉体验性。具体到足球比赛视频为例，重要的是需要结合足球比赛的特点，研究人们观看比赛时的关注兴趣点，并且如何利用这些关注点作为先验知识，建立关注兴趣点与图像视觉信息二者之间的联系。由于观看比赛时的关注兴趣点具有多样化，因此需要在感兴趣区域提取时能够合理地融合各种感兴趣因素，从图像画面中自动识别到人眼对足球比赛视频的感兴趣区域，使得该区域能尽可能包含用户感兴趣点，尽可能接近原始信息的观看感知度。另外，视频与图片的区别在于，视频同时具有空间域和时间域两种属性，而图片只具有空间域属性。因此，除了保证视频在空间域的视觉感知，同时还要保证视频在时间域上的视觉一致性和连贯性。

发明内容

本发明的目的在于，为克服现有技术当源视频文件从大屏幕显示终端移动到相对较小屏幕的显示终端进行显示时，均采用直接从源视频均匀下采样到小屏幕显示终端的目标视频的分辨率，但是这样做会导致一些重要的信息丢失且有时严重影响人眼的观看体验度，为此本发明提供一种面向显示终端的视频尺寸转换系统及方法。

为实现上述目的，本发明提供的一种面向显示终端的视频尺寸转换系统，包括：裁剪窗口尺寸计算模块，用于确定裁减窗口尺寸；裁剪窗口位置确定模块，用于确定裁剪窗口位置；目标视频转换模块，用于根据所述裁剪窗口尺寸和裁剪窗口位置，对源视频进行裁剪，得到裁剪视频；若所述裁剪窗口尺寸等于显示终端的分辨率，则输出所述裁剪视频为目标视频；若所述裁剪窗口尺寸大于显示终端的分辨率，则按照显示终端的分辨率对所述裁剪视频进行下采样，得到目标视频并输出。

上述技术方案中，所述裁剪窗口尺寸由下式确定：

r = \min (\frac{{Width}_{S}}{{Width}_{C}}, \frac{{Height}_{S}}{{Height}_{C}})

其中，比例系数r根据对所述目标视频中目标大小的感知喜好确定；Width_S和Height_S分别表示所述显示终端的水平分辨率和垂直分辨率，Width_C和Height_C分别表示所述裁剪窗口的水平尺寸和垂直尺寸，min表示取最小值。

上述技术方案中，所述裁剪窗口位置确定模块包含：镜头分割和远景镜头判断模块，用于将所述源视频进行镜头分割，提取远景镜头；摄像机参数估计和感兴趣目标提取模块，用于对所述远景镜头中每一帧图像的若干摄像机参数进行估计并提取所述远景镜头的每一帧图像中的感兴趣目标；视觉感知特征计算模块，用于计算所述每一帧图像中每个感兴趣目标的若干视觉感知特征；视觉感知度计算模块，用于根据所述每一帧图像中每个感兴趣目标的若干视觉感知特征计算其视觉感知度；裁剪窗口初步位置确定模块，用于对每一帧图像中所有所述感兴趣目标的视觉感知度按照从大到小排序，并根据所述感兴趣目标的排序和裁剪窗口尺寸确定每一帧图像的裁剪窗口的初步位置；裁剪位置最终确定模块，用于对所述远景镜头包含的每一帧图像的裁剪窗口的初步位置进行时间域平滑处理，最终确定每一帧图像的裁剪窗口位置。其中，所述摄像机参数包括：摄像机的聚焦运动参数、摄像机左摇或右摇的运动参数和摄像机上倾或下倾的运动参数。

上述技术方案中，所述视觉感知度计算模块包含：模糊化计算模块，用于对所述视觉感知特征进行模糊化计算，得到模糊特征；模糊推理模块，用于根据若干模糊推理准则，对所述模糊特征进行模糊推理，得到若干推理准则结果；和反模糊化计算模块，用于对所述若干推理准则结果进行反模糊化计算，得到目标的视觉感知度。

上述技术方案中，所述裁剪位置最终确定模块采用多项式拟合对所述远景镜头中每一帧图像的裁剪窗口的初步位置进行所述时间域平滑处理。

本发明还提供一种面向显示终端的视频尺寸转换方法，该方法基于上述面向显示终端的视频尺寸转换系统，包含步骤：确定裁减窗口尺寸；确定裁剪窗口位置；根据所述裁剪窗口尺寸和所述裁剪窗口位置，对源视频进行裁剪，得到裁剪视频，若所述裁剪窗口尺寸等于显示终端的分辨率，则输出所述裁剪视频为目标视频；若所述裁剪窗口尺寸大于显示终端的分辨率，则按照显示终端的分辨率对所述裁剪视频进行下采样，得到目标视频并输出。

上述技术方案中，所述确定裁剪窗口位置进一步包含步骤：对所述源视频进行镜头分割，得到当前镜头；判断所述当前镜头是否是远景镜头，如果否，则返回到上一步骤；如果是，则继续以下步骤；估计所述远景镜头中每一帧图像的若干摄像机参数和提取所述远景镜头的每一帧图像中的所有感兴趣目标；计算所述每一帧图像中每个感兴趣目标的若干视觉感知特征；根据所述每个感兴趣目标的若干视觉感知特征计算其视觉感知度；对每一帧图像中所有所述感兴趣目标的视觉感知度按照从大到小排序，并根据所述感兴趣目标的排序和裁剪窗口尺寸确定每一帧图像的裁剪窗口的初步位置；将所述远景镜头中每一帧图像的裁剪窗口的初步位置进行时间域平滑处理，得到每帧图像最终的裁剪窗口位置。其中，所述摄像机参数包括：摄像机的聚焦运动参数、摄像机左摇或右摇的运动参数和摄像机上倾或下倾的运动参数。

上述技术方案中，所述计算每个感兴趣目标的视觉感知度进一步包括步骤：对所述每个感兴趣目标的若干视觉感知特征进行模糊化计算，得到模糊特征；根据若干模糊推理准则，对所述模糊特征进行模糊推理，得到若干推理准则结果；对所述若干推理结果进行反模糊化计算，得到目标的视觉感知度。

上述技术方案中，所述时间域平滑是采用多项式拟合对所述远景镜头中每一帧图像的裁剪窗口的初步位置进行拟合。

将得到的远景镜头中每一帧图像的裁剪窗口的初步位置，进行时间域平滑处理，得到裁剪窗口位置。上述技术方案中，所述计算每个感兴趣目标的视觉感知度的步骤进一步包括如下子步骤：

对视觉感知特征进行模糊化计算，得到模糊特征；其中，所述模糊特征即采用模糊语言集和隶属度函数对提取的每个感兴趣目标的若干视觉感知特征进行模糊化；根据若干模糊推理准则，对模糊特征进行模糊推理，得到若干推理准则结果；对若干推理结果进行反模糊化计算，得到当前帧的所有感兴趣目标的视觉感知度。

本发明的优点在于，从视频片源格式转换技术角度出发，针对目前最为流行的视频在小屏幕显示终端上的播放，提出一种智能视频片源格式自动转换方法，它可以自适应将普通视频格式转换成小尺寸显示终端可播放的目标视频格式，并且充分满足了人眼对小屏幕的视觉体验，明显提高了在小屏幕显示终端上观看视频文件的效果。

附图说明

图1是本发明的面向显示终端的视频尺寸自适应转换系统的框图；

图2是本发明的面向显示终端的视频尺寸自适应转换系统中裁剪窗口位置确定模块的框图；

图3是本发明的面向显示终端的视频尺寸自适应转换系统中视觉感知度计算模块的框图；

图4是本发明的面向显示终端的视频尺寸转换方法的流程图；

图5是本发明的面向显示终端的视频尺寸转换方法中的确定裁剪窗口位置的流程图；

图6是本发明的面向显示终端的视频尺寸转换方法中的计算视觉感知度的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细描述。

首先对面向显示终端的视频尺寸转换系统进行说明。

图1是本发明的面向显示终端的视频尺寸转换系统的框图。如图1所示，该转换系统包括：裁剪窗口尺寸计算模块101、裁剪窗口位置确定模块102和目标视频转换模块103。

裁剪窗口尺寸计算模块101，用于确定裁减窗口尺寸；

裁剪窗口尺寸计算模块101确定裁剪窗口尺寸是要确定对源视频进行裁剪的矩形的长和宽的尺寸。用户根据对目标视频中物体大小的感知喜好，通过交互式的方式给定比例系数r，通过给定的比例系数r确定裁减窗口尺寸。比例系数r、裁减窗口尺寸和显示终端分辨率的关系为：

r = \min (\frac{{Width}_{S}}{{Width}_{C}}, \frac{{Height}_{S}}{{Height}_{C}})

其中，Width_S和Height_S分别表示显示终端的水平分辨率和垂直分辨率，Width_C和Height_C分别表示裁剪窗口的水平尺寸和垂直尺寸。比例系数r、Width_S和Height_S是已知参数，根据这些已知参数，计算裁减窗口尺寸，即Width_C和Height_C。裁剪窗口尺寸的范围为：最大值为源视频的分辨率大小，最小值是显示终端的分辨率大小，min表示取和

两个值中的最小值。

裁剪窗口位置定位模块102，用于确定裁剪窗口位置；其中确定裁剪窗口位置是要确定对源视频进行裁剪的矩形的位置。

目标视频转换模块103，用于根据裁剪窗口尺寸和裁剪窗口位置，对源视频进行裁剪，得到裁剪视频，若裁剪窗口尺寸等于显示终端的分辨率，则输出裁剪视频为目标视频；若裁剪窗口尺寸大于显示终端的分辨率，则按照显示终端的分辨率对裁剪视频进行下采样，得到目标视频并输出。由于裁剪窗口尺寸介于源视频和显示终端的分辨率大小之间，因此要根据裁剪窗口尺寸是否等于显示终端视频的分辨率，来确定是否对裁剪后的裁剪视频进行下采样，使得目标视频可以在显示终端正确显示。

图2是本发明的面向显示终端的视频尺寸自适应转换系统中裁剪窗口位置确定模块的框图，如图2所示，裁剪窗口位置确定模块102进一步包括：镜头分割和远景镜头判断模块201、摄像机参数估计和感兴趣目标提取模块202、视觉感知特征计算模块203、视觉感知度计算模块204、裁剪窗口初步位置确定模块205和裁剪位置最终确定模块206。

镜头分割和远景镜头判断模块201，用于将源视频文件进行镜头分割，提取当前视频中的远景镜头；

镜头分割和远景镜头判断模块201参考申请号是200910090794.4的发明专利：“一种压缩域视频镜头突变与渐变联合自动分割方法及系统”和“An Intelligent displayscheme of soccer video on mobile devices”，IEEE Trans.Circuits Sys.Video Technol.，vo1.17，no.10，pp.1395-1401，2007分别进行镜头分割和远景镜头提取。

摄像机参数估计和感兴趣目标提取模块202，用于对拍摄源文件的摄像机的若干参数进行估计并提取源视频文件中用户感兴趣的目标物体；

摄像机参数估计和感兴趣目标提取模块202提取的摄像机参数包括：摄像机的聚焦运动参数、摄像机左摇或右摇的运动参数、摄像机上倾或下倾的运动参数等。估计当前远景镜头中每一帧图像的摄像机参数可以参考文献：“Rapid estimation ofcamera motion from compressed video with application to video annotation，”IEEE Trans.Circuits Sys.Video Technol.，vol.10，no.1，2000。

其中，摄像机参数估计和感兴趣目标提取模块202提取的图像中感兴趣的目标是在该视频图像中用户感兴趣需要特别关注的目标。以足球比赛视频广播为例，感兴趣目标包括足球、球场上分布的球员。

视觉感知特征计算模块203，用于计算每一帧图像中每个感兴趣目标的视觉感知特征；

以足球比赛视频广播为例，摄像机参数估计和感兴趣目标提取模块202提取球场上感兴趣的目标包括足球和球场上所有的球员，视觉感知特征计算模块203再提取能够反映感兴趣目标的视觉感知特征及相应计算公式，包括：

(1)球场上各感兴趣目标到足球的位置，计算公式为：

Dist_B＝[DB_ball，DB_p1，DB_p2，…，DB_pk，…，DB_pm]^T

公式中，DB_pk＝((x_k-i_b)²+(y_k-j_b)²)^1/2，x_k和y_k分别代表第k个目标的水平和垂直方向的坐标，同时，(i_b，j^b)^T则代表足球的在水平方向和垂直方向的坐标；

(2)球场上各感兴趣目标到足球和球场上的所有球员质心的的距离，计算公式为：

Dist_C＝[DC_ball，DC_p1，DC_p2，…，DC_pk，…，DC_pm]^T

Dist_C = {[\begin{matrix} {DC}_{ball}, & {DC}_{pl}, & {DC}_{p 2}, & . . ., & {DC}_{pk}, & . . ., & {DC}_{pm} \end{matrix}]}^{T}

其中，DC_pk＝((x_k-i_c)²+(y_k-j_c)²)^1/2，同时，(i_c，j_c)^T则代表球场上所有目标的质心；

(3)各感兴趣目标与摄像机的夹角，公式为：

ANGLE＝[A_ball，A₁，A₂，……，A_m]^T

进一步，每一个感兴趣目标与摄像机的夹角，即A_k的计算方法如下：

首先，摄像机在水平方向和垂直方向的位移分别计算为：

mx＝q₄/s，my＝-q₃/s

其中，s代表摄像机的聚焦运动参数，-q₃代表摄像机左摇或右摇的运动参数，q₄代表摄像机上倾或下倾的运动参数。

然后，根据这三个参数，摄像机运动的角度计算如下：

angle_c = π * [1 - \frac{1}{2} sign (my) (1 + sign (mx))]

+ a \tan (\frac{my}{mx})

假设angle_o_k代表第k个感兴趣目标在以足球为中心的坐标系下的夹角，它的计算公式如下：

angle_o_{k} = π * [1 - \frac{1}{2} sign (y_{k} - j_{b}) (1 + sign (x_{k} - i_{b}))]

+ a \tan (\frac{y_{k} - j_{b}}{x_{k} - i_{b}})

最后，球场上每一个感兴趣目标与摄像机的夹角计算公式如下：

A_k＝π*[1+sign((angle_o_k-angle_c)-π)]

+sign(angle_o_k-angle_c)*||angle_o_k-angle_c||

视觉感知度计算模块204，用于根据每个感兴趣目标的视觉感知特征计算其视觉感知度。

裁剪窗口初步位置确定模块205，用于在每一帧图像中，对所有感兴趣目标的视觉感知度按照从大到小排序，并根据该感兴趣目标的排序和裁剪窗口尺寸确定每一帧图像的裁剪窗口的初步位置。

作为一个具体实施例，裁剪窗口初步位置确定模块205用于按照一帧图像中所有感兴趣目标的视觉感知度从大到小的排序，采用与裁剪窗口尺寸相同的矩形区域依次增加覆盖感兴趣目标，所能覆盖最多感兴趣目标的该矩形区域的位置即是裁剪窗口的初步位置。

在每帧图像中，按照所有感兴趣目标的排序，采用一个在水平和垂直方向分别与裁剪窗口尺寸相同的矩形区域首先覆盖视觉感知度最大的感兴趣目标，然后根据需要挪动该矩形区域，使矩形区域覆盖视觉感知度最大和次之的感兴趣目标，之后再挪动矩形区域，使矩形区域按照视觉感知度从大到小的顺序覆盖更多感兴趣目标，直到不能覆盖更多感兴趣目标为止，这时该矩形区域的位置就是裁剪窗口的初步位置。

作为另一个具体实施例，裁剪窗口初步位置确定模块205用于按照一帧图像中所有感兴趣目标的排序依次选择感兴趣目标放入堆栈，当堆栈中有感兴趣目标时，每选择一个感兴趣目标放入堆栈之前，计算当前堆栈中所有感兴趣目标和该选择的感兴趣目标在图像中的位置构成的外接矩形的尺寸，例如：以足球比赛视频广播为例，当前堆栈中所有感兴趣目标包括足球、球员A，选择放入的感兴趣目标是球员B，在图像中，设定图像左上角的位置是(0，0)；足球的位置是(5，7)，表示足球在图像中的位置是距离图像左上角水平5像素，垂直7像素；球员A的位置是(6，8)，球员B的位置是(12，9)；那么，当前堆栈中所有感兴趣目标和选择放入的感兴趣目标在图像中的位置组成的外接矩形的尺寸是水平7像素，垂直2像素。然后将计算得到的外接矩形尺寸与裁减窗口的尺寸进行比较，如果外接矩形尺寸小于裁剪窗口尺寸，则将该选择的感兴趣目标放入堆栈，如果外接矩形尺寸等于裁剪窗口尺寸，则将该选择的感兴趣目标放入堆栈，并计算堆栈中所有感兴趣目标构成的外接矩形的位置，就是该帧图象的裁剪窗口的初步位置；如果外接矩形尺寸大于裁剪窗口尺寸，则不将该选择的感兴趣目标放入堆栈，并计算堆栈中所有感兴趣目标构成的外接矩形的位置，就是该帧图象的裁剪窗口的初步位置。其中将外接矩形尺寸与裁剪窗口尺寸进行比较是分别比较两者的水平尺寸和垂直尺寸，当外接矩形的水平尺寸和垂直尺寸均分别小于裁剪窗口的水平尺寸和垂直尺寸时，则外接矩形尺寸小于裁剪窗口尺寸；当外接矩形的水平尺寸和垂直尺寸均分别等于裁剪窗口的水平尺寸和垂直尺寸时，则外接矩形尺寸等于裁剪窗口尺寸；否则，外接矩形尺寸大于裁剪窗口尺寸。

裁剪位置最终确定模块206，用于将得到的远景镜头中每帧图像的裁剪窗口的初步位置，进行时间域平滑处理，得到裁剪窗口的最终位置。

裁剪位置最终确定模块206对远景镜头中每一帧图像的裁剪窗口的初步位置进行时间域平滑处理，可以在充分逼近实际点的情况下，很好地平滑每帧感兴趣窗口的位置，使得根据感兴趣窗口裁减后的图像可以平滑流畅的播放，帧与帧之间进行平滑地过渡，符合人眼在时间域的观看习惯。

图3是本发明的面向显示终端的视频尺寸自适应转换系统中视觉感知度计算模块的框图，如图3所示，视觉感知度计算模块204进一步包括模糊化计算模块301、模糊推理模块302和反模糊化计算模块303。

模糊化计算模块301，用于对视觉感知特征进行模糊化计算，得到模糊特征；

模糊化计算模块301根据模糊语言集和隶属度函数对视觉感知特征进行模糊化得到模糊特征。

以足球比赛视频广播为例，模糊化计算模块301为上述三个视觉感知特征，即球场上各感兴趣目标到足球的位置Dist_B、球场上各感兴趣目标到足球和球场上所有球员的质心的距离Dist_C和各感兴趣目标与摄像机的夹角ANGLE分别设计了三个模糊语言集，即

对应视觉感知特征Dist_B的模糊语言集是L₁＝{small，middle，large}。其中，元素“small”表示感兴趣目标与足球间的距离小；元素“middle”表示感兴趣目标与足球间的距离中等；元素“large”表示感兴趣目标与足球间的距离大。

对应视觉感知特征Dist_C的模糊语言集是L₂＝{small，middle，large}。其中，元素“small”表示感兴趣目标与所有目标质心间的距离小；元素“middle”表示感兴趣目标与所有目标质心间的距离中等；元素“large”表示感兴趣目标与所有目标质心间的距离大。

对应视觉感知特征ANGLE的模糊语言集是L₃＝{small，large}。其中，元素“small”表示感兴趣目标与摄像机运动方向夹角小；元素“large”表示感兴趣目标与摄像机运动方向夹角大。

此外，为上述模糊语言集中的每一个元素设计了隶属度函数，该隶属度函数是三角函数，如下式表示：

上式中，a、b和c三个参数表示三角函数进行分段计算时的分段区间的上限和下限，其中，a表示第一个分段区间的上限，b表示第一个分段区间的下限，同时又表示第二个分段区间的上限，c表示第二个分段区间的下限。这两个分段区间以外则属于其它的情况，x表示进行模糊化计算的输入的视觉感知特征，u(x)表示模糊化计算之后得到的隶属度。

对上式中的a、b和c三个参数选取不同的数值即构成上述三个模糊语言集中每一个元素的隶属度函数。

将某一个要进行模糊化计算的视觉感知特征，例如球场上各感兴趣目标到足球的位置Dist_B，输入到对应模糊语言集的三个元素的三个隶属度函数中进行计算，得到三个隶属度，即u₁(x)、u₂(x)和u₃(x)，这三个隶属度构成该视觉感知特征的模糊特征。同样，对球场上各感兴趣目标到足球和球场上所有球员的质心的距离Dist_C和各感兴趣目标与摄像机的夹角ANGLE进行模糊化计算，分别得到相应的三个隶属度u₄(x)、u₅(x)、u₆(x)构成的模糊特征和两个隶属度u₇(x)、u₈(x)构成的模糊特征。

当然在对视觉感知特征进行模糊化计算时，在也可以采用其它形式的隶属度函数和模糊语言集。

模糊推理模块302，用于根据若干模糊推理准则，对模糊特征进行模糊推理，得到若干推理准则结果；以足球广播视频为例，模糊推理模块302通过对观看足球广播视频的感兴趣目标进行总结，为模糊推理模块抽象和设计得到18个模糊推理准则，这18个准则是模糊推理的核心决策。根据这18个模糊推理准则，对得到的足球广播视频的三个模糊特征进行模糊推理，得到18个推理准则结果。

反模糊化计算模块303，用于对若干推理准则结果进行反模糊化计算，得到目标的视觉感知度。对上一步骤得到的推理准则结果进行反模糊化计算，计算结果即为每个感兴趣目标的视觉感知度。

以足球比赛视频广播为例，反模糊化计算模块303可以采用重心(Center ofGravity)方法进行反模糊化计算，即

{AV}_{i} = \frac{Σ_{j = 1}^{S} u_{L, i}^{'} (y_{j}) y_{j}}{Σ_{j = 1}^{S} u_{L, i}^{'} (y_{j})}, i = 1,2, . . . M,

其中，AV_i代表每个感兴趣目标的视觉感知度。除了重心反模糊化计算方法，也可以采用其它反模糊化计算方法。

下面对面向显示终端的视频尺寸转换方法进行说明。

图4是本发明的面向显示终端的视频尺寸转换方法的流程图。如图4所示，本发明的视频尺寸自适应转换方法包括如下步骤：

在步骤401中，确定裁减窗口尺寸。确定裁剪窗口尺寸是要确定对源视频进行裁剪的矩形的长和宽的尺寸。用户根据对目标视频中物体大小的感知喜好，通过交互式的方式给定比例系数r，通过给定的比例系数r确定裁减窗口尺寸。比例系数r、裁减窗口尺寸和显示终端分辨率的关系为：

r = \min (\frac{{Width}_{S}}{{Width}_{C}}, \frac{{Height}_{S}}{{Height}_{C}})

其中，Width_S和Height_S分别表示显示终端的水平分辨率和垂直分辨率，Width_C和Height_C分别表示裁剪窗口的水平方向和垂直方向尺寸。比例系数r、Width_S和Height_S是已知参数，根据这些已知参数，计算裁减窗口尺寸，即Width_C和Height_C。裁剪窗口尺寸的范围为：最大值为源视频的分辨率大小，最小值是显示终端的分辨率大小，min表示取

和

两个值中的最小值。

如图4所示，接着进入步骤402，确定裁剪窗口位置。确定裁剪窗口位置是要确定对源视频进行裁剪的矩形的位置。

如图4所示，最后是步骤403，根据裁剪窗口尺寸和裁剪窗口位置，对源视频进行裁剪，得到裁剪视频，若裁剪窗口尺寸等于显示终端的分辨率，则输出裁剪视频为目标视频；若裁剪窗口尺寸大于显示终端的分辨率，则按照显示终端的分辨率对裁剪视频进行下采样，得到目标视频并输出。由于裁剪窗口尺寸介于源视频和显示终端的分辨率大小之间，因此要根据裁剪窗口尺寸是否等于显示终端视频的分辨率，来确定是否对裁剪后的裁剪视频进行下采样，使得目标视频可以在显示终端正确显示。

图5是本发明的面向显示终端的视频尺寸转换方法中的确定裁剪窗口位置的流程图。如图5所示，上述确定裁剪窗口位置的步骤402进一步包括如下步骤：

在步骤501中，对源视频进行镜头分割，得到当前镜头；

对源视频进行镜头分割的方法可以参考申请号是200910090794.4的发明专利：“一种压缩域视频镜头突变与渐变联合自动分割方法及系统”。

接着是步骤502，判断当前镜头是否是远景镜头，如果否，则返回到上一步骤501；如果是，则继续以下步骤；

判断当前镜头是否是远景镜头即识别远景镜头，远景镜头的识别方法可以参考文献：“An Intelligent display scheme of soccer video on mobile devices”，IEEE Trans.Circuits Sys.Video Technol.，vol.17，no.10，pp.1395-1401，2007。

步骤503中，估计远景镜头中每一帧图像的摄像机参数和提取每一帧图像中的所有感兴趣目标；

摄像机参数包括：摄像机的聚焦运动参数、摄像机左摇或右摇的运动参数、摄像机上倾或下倾的运动参数等。估计远景镜头中每一帧图像的摄像机参数可以参考文献：“Rapid estimation of camera motion from compressed video with application tovideo annotation，”IEEE Trans.Circuits Sys.Video Technol.，vol.10，no.1，2000。

其中，图像中感兴趣的目标是在该图像中用户感兴趣需要特别关注的目标。

以足球比赛视频广播为例，感兴趣目标包括足球、球场上分布的球员。

接着进入步骤504，计算每一帧图像中每个感兴趣目标的视觉感知特征；

同样，以足球比赛视频广播为例，球场上感兴趣的目标包括足球和球场上所有的球员，能够反映感兴趣目标的视觉感知特征包括：

(1)球场上各感兴趣目标到足球的位置，计算公式为：

Dist_B＝[DB_ball，DB_p1，DB_p2，…，DB_pk，…，DB_pm]^T

公式中，DB_pk＝((x_k-i_b)²+(y_k-j_b)²)^1/2，x_k和y_k分别代表第k个目标的水平和垂直方向的坐标，同时，(i_b，j_b)^T则代表足球的在水平方向和垂直方向的坐标；

Dist_C＝[DC_ball，DC_p1，DC_p2，…，DC_pk，…，DC_pm]^T

(3)各感兴趣目标与摄像机的夹角，公式为：

ANGLE＝[A_ball，A₁，A₂，……，A_m]^T

首先，摄像机在水平方向和垂直方向的位移分别计算为：

mx＝q₄/s，my＝-q₃/s

然后，根据这三个参数，摄像机运动的角度计算如下：

angle_c = π * [1 - \frac{1}{2} sign (my) (1 + sign (mx))]

+ a \tan (\frac{my}{mx})

angle_o_{k} = π * [1 - \frac{1}{2} sign (y_{k} - j_{b}) (1 + sign (x_{k} - i_{b}))]

+ a \tan (\frac{y_{k} - j_{b}}{x_{k} - i_{b}})

A_k＝π*[1+sign((angle_o_k-angle_c)-π)]

+sign(angle_o_k-angle_c)*||angle_o_k-angle_c||

步骤505中，根据每个感兴趣目标的视觉感知特征计算其视觉感知度，得到每一帧图像中每个感兴趣目标的视觉感知度。

图6是本发明的面向显示终端的视频尺寸转换方法中的计算视觉感知度的流程图。如图6所示，计算每个感兴趣目标的视觉感知度进一步包括如下步骤：

首先是步骤601，对视觉感知特征进行模糊化计算，得到模糊特征。模糊特征是根据模糊语言集和隶属度函数对视觉感知特征进行模糊化计算后得到的。

以足球比赛视频广播为例，为上述三个视觉感知特征，即球场上各感兴趣目标到足球的位置Dist_B、球场上各感兴趣目标到足球和球场上所有球员的质心的距离Dist_C和各感兴趣目标与摄像机的夹角ANGLE分别设计了三个模糊语言集，即

接着进入步骤602，根据若干模糊推理准则，对模糊特征进行模糊推理，得到若干推理准则结果。

以足球广播视频为例，通过对观看足球广播视频的感兴趣目标进行总结，为模糊推理模块抽象和设计得到18个模糊推理准则，这18个准则是模糊推理的核心决策。根据这18个模糊推理准则，对得到的足球广播视频的三个模糊特征进行模糊推理，得到18个推理准则结果。

最后在步骤603中，对若干推理准则结果进行反模糊化计算，得到目标的视觉感知度。

对上一步骤得到的推理准则结果进行反模糊化计算，计算结果即为每个感兴趣目标的视觉感知度。

以足球比赛视频广播为例，可以采用重心(Center of Gravity)方法进行反模糊化计算，即

{AV}_{i} = \frac{Σ_{j = 1}^{S} u_{L, i}^{'} (y_{j}) y_{j}}{Σ_{j = 1}^{S} u_{L, i}^{'} (y_{j})}, i = 1,2, . . . M,

在步骤505中获得了远景镜头的每帧图像中所有感兴趣目标的视觉感知度后，进入步骤506，对每一帧图像中所有感兴趣目标的视觉感知度按照从大到小排序，并根据该感兴趣目标的排序和裁剪窗口尺寸确定每一帧图像的裁剪窗口的初步位置。

作为一个具体实施例，在每帧图像中，按照所有感兴趣目标的视觉感知度从大到小的排序，采用与裁剪窗口尺寸相同的矩形区域依次增加覆盖感兴趣目标，确定该矩形区域所能覆盖最多感兴趣目标的位置即是裁剪窗口的初步位置。

作为另一个具体实施例，按照一帧图像中所有感兴趣目标的排序，依次选择感兴趣目标放入堆栈，当堆栈中有感兴趣目标时，每选择一个感兴趣目标放入堆栈之前，进行如下计算：计算当前堆栈中所有感兴趣目标和该选择的感兴趣目标在图像中的位置构成的外接矩形的尺寸，例如：以足球比赛视频广播为例，当前堆栈中所有感兴趣目标包括足球、球员A，选择放入的感兴趣目标是球员B，在图像中，设定图像左上角的位置是(0，0)；足球的位置是(5，7)，表示足球在图像中的位置是距离图像左上角水平5像素，垂直7像素；球员A的位置是(6，8)，球员B的位置是(12，9)；那么，当前堆栈中所有感兴趣目标和选择放入的感兴趣目标在图像中的位置组成的外接矩形的尺寸是水平7像素，垂直2像素。然后将计算得到的外接矩形尺寸与裁减窗口的尺寸进行比较，如果外接矩形尺寸小于裁剪窗口尺寸，则将该选择的感兴趣目标放入堆栈，如果外接矩形尺寸等于裁剪窗口尺寸，则将该选择的感兴趣目标放入堆栈，并计算堆栈中所有感兴趣目标构成的外接矩形的位置，就是该帧图象的裁剪窗口的初步位置；如果外接矩形尺寸大于裁剪窗口尺寸，则不将该选择的感兴趣目标放入堆栈，并计算堆栈中所有感兴趣目标构成的外接矩形的位置，就是该帧图象的裁剪窗口的初步位置。其中将外接矩形尺寸与裁剪窗口尺寸进行比较是分别比较两者的水平尺寸和垂直尺寸，当外接矩形的水平尺寸和垂直尺寸均分别小于裁剪窗口的水平尺寸和垂直尺寸时，外接矩形尺寸小于裁剪窗口尺寸；当外接矩形的水平尺寸和垂直尺寸均分别等于裁剪窗口的水平尺寸和垂直尺寸时，外接矩形尺寸等于裁剪窗口尺寸；否则，外接矩形尺寸大于裁剪窗口尺寸。

最后在步骤507中，将得到的远景镜头中每一帧图像的裁剪窗口的初步位置，进行时间域平滑处理，得到裁剪窗口位置；

对远景镜头中每一帧图像的裁剪窗口的初步位置进行时间域平滑处理，可以在充分逼近实际点的情况下，很好地平滑每帧感兴趣窗口的位置，使得根据感兴趣窗口裁减后的图像可以平滑流畅的播放，帧与帧之间进行平滑地过渡，符合人眼在时间域的观看习惯。

例如，采用多项式拟合的方法对远景镜头中每一帧图像的裁剪窗口的初步位置进行拟合，拟合后的各点将作为对应图像帧的裁剪窗口位置。

需要说明的是，以上介绍的本发明的实施方案而并非限制。本领域的技术人员应当理解，任何对本发明技术方案的修改或者等同替代都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围内。

Claims

1.一种面向显示终端的视频尺寸转换系统，包括：

裁剪窗口尺寸计算模块，用于确定裁减窗口尺寸；

裁剪窗口位置确定模块，用于确定裁剪窗口位置；和

目标视频转换模块，用于根据所述裁剪窗口尺寸和裁剪窗口位置，对源视频进行裁剪，得到裁剪视频；若所述裁剪窗口尺寸等于显示终端的分辨率，则输出所述裁剪视频为目标视频；若所述裁剪窗口尺寸大于显示终端的分辨率，则按照显示终端的分辨率对所述裁剪视频进行下采样，得到目标视频并输出。

2.根据权利要求1所述的面向显示终端的视频尺寸转换系统，其特征在于，所述裁剪窗口尺寸由下式确定：

r = \min (\frac{{Width}_{S}}{{Width}_{C}}, \frac{{Height}_{S}}{{Height}_{C}})

3.根据权利要求1所述的面向显示终端的视频尺寸转换系统，其特征在于，所述裁剪窗口位置确定模块包含：

镜头分割和远景镜头判断模块，用于将所述源视频进行镜头分割，提取远景镜头；

摄像机参数估计和感兴趣目标提取模块，用于对所述远景镜头中每一帧图像的若干摄像机参数进行估计并提取所述远景镜头的每一帧图像中的感兴趣目标；

视觉感知特征计算模块，用于计算所述每一帧图像中每个感兴趣目标的若干视觉感知特征；

视觉感知度计算模块，用于根据所述每一帧图像中每个感兴趣目标的若干视觉感知特征计算其视觉感知度；

裁剪窗口初步位置确定模块，用于对每一帧图像中所有所述感兴趣目标的视觉感知度按照从大到小排序，并根据所述感兴趣目标的排序和裁剪窗口尺寸确定每一帧图像的裁剪窗口的初步位置；

裁剪位置最终确定模块，用于对所述远景镜头包含的每一帧图像的裁剪窗口的初步位置进行时间域平滑处理，最终确定每一帧图像的裁剪窗口位置。

4.根据权利要求3所述的面向显示终端的视频尺寸转换系统，其特征在于，所述摄像机参数包括：摄像机的聚焦运动参数、摄像机左摇或右摇的运动参数和摄像机上倾或下倾的运动参数。

5.根据权利要求3所述的面向显示终端的视频尺寸转换系统，其特征在于，所述视觉感知度计算模块包含：

模糊化计算模块，用于对所述视觉感知特征进行模糊化计算，得到模糊特征；

模糊推理模块，用于根据若干模糊推理准则，对所述模糊特征进行模糊推理，得到若干推理准则结果；和

反模糊化计算模块，用于对所述若干推理准则结果进行反模糊化计算，得到目标的视觉感知度。

6.根据权利要求3所述的面向显示终端的视频尺寸转换系统，其特征在于，所述裁剪窗口初步位置确定模块用于采用与所述裁剪窗口尺寸相同的矩形区域，按照所述感兴趣目标的排序依次增加覆盖所述感兴趣目标，所述矩形区域所能覆盖最多感兴趣目标的位置即是裁剪窗口的初步位置。

7.根据权利要求3所述的面向显示终端的视频尺寸转换系统，其特征在于，所述裁剪窗口初步位置确定模块用于：按照所述感兴趣目标排序依次选择感兴趣目标放入堆栈，每放入所述堆栈之前，计算所述堆栈中所有感兴趣目标和所述选择的感兴趣目标构成的外接矩形的尺寸；将所述外接矩形尺寸与所述裁减窗口的尺寸进行比较，如果所述外接矩形尺寸小于所述裁剪窗口尺寸，则将所述选择的感兴趣目标放入所述堆栈；如果所述外接矩形尺寸等于所述裁剪窗口尺寸，则将所述选择的感兴趣目标放入所述堆栈，并计算所述堆栈中所有感兴趣目标构成的外接矩形的位置，就是裁剪窗口的初步位置；否则不将所述选择的感兴趣目标放入所述堆栈，并计算所述堆栈中所有感兴趣目标构成的外接矩形的位置，就是裁剪窗口的初步位置。

8.根据权利要求3所述的面向显示终端的视频尺寸转换系统，其特征在于，所述裁剪位置最终确定模块用于对所述远景镜头中每一帧图像的裁剪窗口的初步位置采用多项式拟合来进行所述时间域平滑。

9.根据权利要求5所述的面向显示终端的视频尺寸转换系统，其特征在于，所述模糊化计算模块用于根据模糊语言集和隶属度函数对所述每个感兴趣目标的视觉感知特征进行模糊化计算。

10.根据权利要求3、4、5、6、7、8或9所述的面向显示终端的视频尺寸转换系统，其特征在于，所述源视频是足球比赛视频时，所述感兴趣目标包括足球和球场上的球员；所述视觉感知特征包括：所述感兴趣目标到所述足球的距离、所述感兴趣目标到所述足球和球场上的球员质心的的距离和所述感兴趣目标与所述摄像机的夹角。

11.一种面向显示终端的视频尺寸转换方法，包含步骤：

确定裁减窗口尺寸；

确定裁剪窗口位置；

根据所述裁剪窗口尺寸和所述裁剪窗口位置，对源视频进行裁剪，得到裁剪视频，若所述裁剪窗口尺寸等于显示终端的分辨率，则输出所述裁剪视频为目标视频；若所述裁剪窗口尺寸大于显示终端的分辨率，则按照显示终端的分辨率对所述裁剪视频进行下采样，得到目标视频并输出。

12.根据权利要求11所述的面向显示终端的视频尺寸转换方法，其特征在于，所述确定裁减窗口尺寸进一步包含步骤：

根据对所述目标视频中目标大小的感知喜好给定比例系数r，根据该比例系数r确定所述裁减窗口尺寸，公式如下：

r = \min (\frac{{Width}_{S}}{{Width}_{C}}, \frac{{Height}_{S}}{{Height}_{C}})

其中，Width_S和Height_S分别表示显示终端的水平分辨率和垂直分辨率，Width_C和Height_C分别表示所述裁剪窗口的水平尺寸和垂直尺寸，min表示取最小值。

13.根据权利要求11所述的面向显示终端的视频尺寸转换方法，其特征在于，所述确定裁剪窗口位置进一步包含步骤：

对所述源视频进行镜头分割，得到当前镜头；

判断所述当前镜头是否是远景镜头，如果否，则返回到上一步骤；如果是，则继续以下步骤；

估计所述远景镜头中每一帧图像的若干摄像机参数和提取所述远景镜头的每一帧图像中的所有感兴趣目标；

计算所述每一帧图像中每个感兴趣目标的若干视觉感知特征；

根据所述每个感兴趣目标的若干视觉感知特征计算其视觉感知度；

对每一帧图像中所有所述感兴趣目标的视觉感知度按照从大到小排序，并根据所述感兴趣目标的排序和裁剪窗口尺寸确定每一帧图像的裁剪窗口的初步位置；

将所述远景镜头中每一帧图像的裁剪窗口的初步位置进行时间域平滑处理，得到每帧图像最终的裁剪窗口位置。

14.根据权利要求13所述的面向显示终端的视频尺寸转换方法，其特征在于，所述摄像机参数包括：摄像机的聚焦运动参数、摄像机左摇或右摇的运动参数和摄像机上倾或下倾的运动参数。

15.根据权利要13所述的面向显示终端的视频尺寸转换方法，其特征在于，所述计算每个感兴趣目标的视觉感知度进一步包括步骤：

对所述每个感兴趣目标的若干视觉感知特征进行模糊化计算，得到模糊特征；

根据若干模糊推理准则，对所述模糊特征进行模糊推理，得到若干推理准则结果；

对所述若干推理结果进行反模糊化计算，得到目标的视觉感知度。

16.根据权利要求13所述的面向显示终端的视频尺寸转换方法，其特征在于，所述确定每一帧图像的裁剪窗口的初步位置进一步包括：采用与所述裁剪窗口尺寸相同的矩形区域，按照所述感兴趣目标的排序依次增加覆盖所述感兴趣目标，所述矩形区域所能覆盖最多感兴趣目标的位置即是裁剪窗口的初步位置。

17.根据权利要求13所述的面向显示终端的视频尺寸转换方法，其特征在于，所述确定每一帧图像的裁剪窗口的初步位置进一步包括：

在每一帧图像中，按照所有所述感兴趣目标的视觉感知度从大到小的顺序，依次选择感兴趣目标，当堆栈中没有感兴趣目标时，则把所述选择的感兴趣目标放入所述堆栈，重复这一步骤；当堆栈中有感兴趣目标时，计算所述堆栈中所有感兴趣目标和所述选择的感兴趣目标构成的外接矩形的尺寸；

将所述外接矩形尺寸与所述裁减窗口的尺寸进行比较，如果所述外接矩形尺寸小于所述裁剪窗口尺寸，则将所述选择的感兴趣目标放入所述堆栈，返回上一步骤；如果所述外接矩形尺寸小于所述裁剪窗口尺寸，则将所述选择的感兴趣目标放入所述堆栈，并计算堆栈中所有感兴趣目标构成的外接矩形的位置，就是该帧图象的裁剪窗口的初步位置；否则不将所述选择的感兴趣目标放入所述堆栈，并计算堆栈中所有感兴趣目标构成的外接矩形的位置，就是该帧图象的裁剪窗口的初步位置。

18.根据权利要求13所述的面向显示终端的视频尺寸转换方法，其特征在于，所述时间域平滑是采用多项式拟合对所述远景镜头中每一帧图像的裁剪窗口的初步位置进行拟合。

19.根据权利要求15所述的面向显示终端的视频尺寸转换方法，其特征在于，根据模糊语言集和隶属度函数对所述每个感兴趣目标的视觉感知特征进行模糊化计算。

20.根据权利要求13、14、15、16、17、18或19所述的面向显示终端的视频尺寸转换方法，其特征在于，所述源视频是足球比赛视频时，所述感兴趣目标包括足球和球场上的球员；所述视觉感知特征包括所述感兴趣目标到所述足球的距离、所述感兴趣目标到所述足球和球场上的球员质心的的距离和所述感兴趣目标与所述摄像机的夹角。