CN102541494A - 一种面向显示终端的视频尺寸转换系统与方法 - Google Patents

一种面向显示终端的视频尺寸转换系统与方法 Download PDF

Info

Publication number
CN102541494A
CN102541494A CN2011100337806A CN201110033780A CN102541494A CN 102541494 A CN102541494 A CN 102541494A CN 2011100337806 A CN2011100337806 A CN 2011100337806A CN 201110033780 A CN201110033780 A CN 201110033780A CN 102541494 A CN102541494 A CN 102541494A
Authority
CN
China
Prior art keywords
video
crop window
size
target
display terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011100337806A
Other languages
English (en)
Other versions
CN102541494B (zh
Inventor
高丽
王东辉
洪缨
刘明刚
侯朝焕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS filed Critical Institute of Acoustics CAS
Priority to CN201110033780.6A priority Critical patent/CN102541494B/zh
Publication of CN102541494A publication Critical patent/CN102541494A/zh
Application granted granted Critical
Publication of CN102541494B publication Critical patent/CN102541494B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明提供了一种面向显示终端的视频尺寸转换方法,该方法首先根据用户交互式的选择,通过设计感知窗口模型,计算出感兴趣窗口的尺寸;而后检测到远景镜头,对每个远景镜头中的每一帧图像通过采用基于知识的模糊推理决策系统融合人眼观看视频的多种因素,自动识别到感兴趣区域,将感兴趣区域裁减出来,作为显示终端显示的内容;之后,对镜头内识别到的所有感兴趣区域中心点进行时间域平滑处理,从而保证感兴趣区域时间域的一致性和连贯性。另外,本发明还提供了基于该方法的面向显示终端的视频尺寸转换系统。本发明从视频片源格式转换技术角度出发,提供的技术方案能自适应将普通视频格式转换成小尺寸终端可播放的目标视频格式。

Description

一种面向显示终端的视频尺寸转换系统与方法
技术领域
本发明涉及多媒体技术领域,具体涉及一种面向显示终端的视频尺寸自适应转换系统与方法。
背景技术
随着第三代移动无线通信协议的发展与成熟,使得无线通信网络带宽日益增大,能够满足用户的多媒体业务对带宽的需求。因此越来越多的移动终端(如:手机、PDA、Pocket PCs等手持便携设备)用户喜欢通过手机观看各种各样视频。这种日益成熟的通信技术更加方便用户随时随地享受多媒体业务,更加丰富人们的娱乐生活,同时也体现出多媒体业务服务日趋多元化的特点。人们不再被绑定在家用电视机前或者公众影剧院才能享受各种节目带来的娱乐,而是可以随时随地在他们有时间或者有心情享受多媒体业务的时候,便可以使用便携移动终端来满足这种需求。另外,在新的数字环境下,用户对高质量视频体验的期望值仍在继续增长,无论他们是在电视机或大荧幕前观看,还是在因特网或在最近出现的移动便携设备中观看,用户的期望都是一样的。由于不同多媒体显示设备之间存在物理条件的差异(譬如显示屏幕的物理尺寸和显示分辨率),适合大屏幕的普通视频片源转换到小尺寸的手机屏幕上观看时,在视觉理解和感受上很容易导致人眼的不舒适感,很大程度上降低了人们对手机视频的视觉体验。因此,面对日益流行的移动多媒体业务,迫切需要从多个层面(例如:视频片源格式的转换软件、硬件显示设备与软件算法等)入手,研究一些能够专门针对手机小屏幕视频显示的相应方法,从而提高人们在小屏幕上观看视频的体验度。
首先,由于视频的远景镜头内包含大量信息,因此试图将所有原始信息完整地在物理条件相当有限的显示终端上显示很难,而且很难通过特定方法自然地提高人眼的视觉体验。现有技术采用两种策略:一种思路是将背景信息与前景目标分离,针对两种信息的尺寸缩减尺度有所不同。背景信息的缩减尺度较大,保证将所有背景信息完整显示;而前景目标的缩减尺度相对较小,保证缩减之后的尺寸仍然处于人眼容忍极限以内。第二种思路是将每一帧视频图像化分成若干个感兴趣区域,而后利用快速序列视觉呈现范式(RSVP)技术对每一帧图像进行所有感兴趣区域的依次显示。第一种思路是基于空间域的处理,而第二种则是基于时间域的处理,它们的初衷都是希望尽可能降低原始信息损失量,但是,两种思路分别在空间域和时间域上违背了原始信息。前者导致空间域上前景目标之间以及前景与背景之间在大小和位置的相对性上发生改变,而后者不仅在时间上导致了相对性改变,同时很容易导致前后相邻图像帧之间的不连贯性视觉体验,这些因素都很容易导致人眼不舒适的视觉体验,很难被人眼所接受。
然后,当普通视频转换到移动终端等相对较小的显示终端上进行观看,需要根据终端的屏幕尺寸对普通视频进行下采样处理,从而满足移动终端屏幕的分辨率的播放条件。现有技术直接对源视频进行均匀下采样实现从源视频到目标视频的分辨率转换。但是,这样做存在的问题是,一些重要的信息可能会丢失,影响人眼的观看体验度。具体到广播足球比赛视频,以远景镜头居多,而这些远景镜头中,足球和各个球员尺寸比较小,当它们经过下采样转换到目标分辨率的视频后,这些足球和球员的尺寸会更小,以至于影响到对这些重要物体的辨别,严重影响到用户的视觉体验。即现有技术当源视频文件从较大屏幕的显示终端转换到较小屏幕的显示终端上进行播放时只有一个选择,即从源视频分辨率直接均匀下采样到目标分辨率。
而视觉生理学方面的研究表明,人在观察一幅图片时,只有少部分特定的关注信息进入大脑并得到进一步处理,这少部分特定信息被称为视频感兴趣区域。因此如果视觉感知窗口裁减了部分原始视频信息,但是只要能够在有限的窗口内充分显示视频图像中的人眼最为关注区域,比较符合原始拍摄者的初衷的情况下,并不会给人们对原始视频信息的感知带来太大的影响,相比较小屏幕糟糕的视觉感知情况,反而会增加观众观看比赛的视觉体验性。具体到足球比赛视频为例,重要的是需要结合足球比赛的特点,研究人们观看比赛时的关注兴趣点,并且如何利用这些关注点作为先验知识,建立关注兴趣点与图像视觉信息二者之间的联系。由于观看比赛时的关注兴趣点具有多样化,因此需要在感兴趣区域提取时能够合理地融合各种感兴趣因素,从图像画面中自动识别到人眼对足球比赛视频的感兴趣区域,使得该区域能尽可能包含用户感兴趣点,尽可能接近原始信息的观看感知度。另外,视频与图片的区别在于,视频同时具有空间域和时间域两种属性,而图片只具有空间域属性。因此,除了保证视频在空间域的视觉感知,同时还要保证视频在时间域上的视觉一致性和连贯性。
发明内容
本发明的目的在于,为克服现有技术当源视频文件从大屏幕显示终端移动到相对较小屏幕的显示终端进行显示时,均采用直接从源视频均匀下采样到小屏幕显示终端的目标视频的分辨率,但是这样做会导致一些重要的信息丢失且有时严重影响人眼的观看体验度,为此本发明提供一种面向显示终端的视频尺寸转换系统及方法。
为实现上述目的,本发明提供的一种面向显示终端的视频尺寸转换系统,包括:裁剪窗口尺寸计算模块,用于确定裁减窗口尺寸;裁剪窗口位置确定模块,用于确定裁剪窗口位置;目标视频转换模块,用于根据所述裁剪窗口尺寸和裁剪窗口位置,对源视频进行裁剪,得到裁剪视频;若所述裁剪窗口尺寸等于显示终端的分辨率,则输出所述裁剪视频为目标视频;若所述裁剪窗口尺寸大于显示终端的分辨率,则按照显示终端的分辨率对所述裁剪视频进行下采样,得到目标视频并输出。
上述技术方案中,所述裁剪窗口尺寸由下式确定:
r = min ( Width S Width C , Height S Height C )
其中,比例系数r根据对所述目标视频中目标大小的感知喜好确定;WidthS和HeightS分别表示所述显示终端的水平分辨率和垂直分辨率,WidthC和HeightC分别表示所述裁剪窗口的水平尺寸和垂直尺寸,min表示取最小值。
上述技术方案中,所述裁剪窗口位置确定模块包含:镜头分割和远景镜头判断模块,用于将所述源视频进行镜头分割,提取远景镜头;摄像机参数估计和感兴趣目标提取模块,用于对所述远景镜头中每一帧图像的若干摄像机参数进行估计并提取所述远景镜头的每一帧图像中的感兴趣目标;视觉感知特征计算模块,用于计算所述每一帧图像中每个感兴趣目标的若干视觉感知特征;视觉感知度计算模块,用于根据所述每一帧图像中每个感兴趣目标的若干视觉感知特征计算其视觉感知度;裁剪窗口初步位置确定模块,用于对每一帧图像中所有所述感兴趣目标的视觉感知度按照从大到小排序,并根据所述感兴趣目标的排序和裁剪窗口尺寸确定每一帧图像的裁剪窗口的初步位置;裁剪位置最终确定模块,用于对所述远景镜头包含的每一帧图像的裁剪窗口的初步位置进行时间域平滑处理,最终确定每一帧图像的裁剪窗口位置。其中,所述摄像机参数包括:摄像机的聚焦运动参数、摄像机左摇或右摇的运动参数和摄像机上倾或下倾的运动参数。
上述技术方案中,所述视觉感知度计算模块包含:模糊化计算模块,用于对所述视觉感知特征进行模糊化计算,得到模糊特征;模糊推理模块,用于根据若干模糊推理准则,对所述模糊特征进行模糊推理,得到若干推理准则结果;和反模糊化计算模块,用于对所述若干推理准则结果进行反模糊化计算,得到目标的视觉感知度。
上述技术方案中,所述裁剪位置最终确定模块采用多项式拟合对所述远景镜头中每一帧图像的裁剪窗口的初步位置进行所述时间域平滑处理。
本发明还提供一种面向显示终端的视频尺寸转换方法,该方法基于上述面向显示终端的视频尺寸转换系统,包含步骤:确定裁减窗口尺寸;确定裁剪窗口位置;根据所述裁剪窗口尺寸和所述裁剪窗口位置,对源视频进行裁剪,得到裁剪视频,若所述裁剪窗口尺寸等于显示终端的分辨率,则输出所述裁剪视频为目标视频;若所述裁剪窗口尺寸大于显示终端的分辨率,则按照显示终端的分辨率对所述裁剪视频进行下采样,得到目标视频并输出。
上述技术方案中,所述确定裁剪窗口位置进一步包含步骤:对所述源视频进行镜头分割,得到当前镜头;判断所述当前镜头是否是远景镜头,如果否,则返回到上一步骤;如果是,则继续以下步骤;估计所述远景镜头中每一帧图像的若干摄像机参数和提取所述远景镜头的每一帧图像中的所有感兴趣目标;计算所述每一帧图像中每个感兴趣目标的若干视觉感知特征;根据所述每个感兴趣目标的若干视觉感知特征计算其视觉感知度;对每一帧图像中所有所述感兴趣目标的视觉感知度按照从大到小排序,并根据所述感兴趣目标的排序和裁剪窗口尺寸确定每一帧图像的裁剪窗口的初步位置;将所述远景镜头中每一帧图像的裁剪窗口的初步位置进行时间域平滑处理,得到每帧图像最终的裁剪窗口位置。其中,所述摄像机参数包括:摄像机的聚焦运动参数、摄像机左摇或右摇的运动参数和摄像机上倾或下倾的运动参数。
上述技术方案中,所述计算每个感兴趣目标的视觉感知度进一步包括步骤:对所述每个感兴趣目标的若干视觉感知特征进行模糊化计算,得到模糊特征;根据若干模糊推理准则,对所述模糊特征进行模糊推理,得到若干推理准则结果;对所述若干推理结果进行反模糊化计算,得到目标的视觉感知度。
上述技术方案中,所述时间域平滑是采用多项式拟合对所述远景镜头中每一帧图像的裁剪窗口的初步位置进行拟合。
将得到的远景镜头中每一帧图像的裁剪窗口的初步位置,进行时间域平滑处理,得到裁剪窗口位置。上述技术方案中,所述计算每个感兴趣目标的视觉感知度的步骤进一步包括如下子步骤:
对视觉感知特征进行模糊化计算,得到模糊特征;其中,所述模糊特征即采用模糊语言集和隶属度函数对提取的每个感兴趣目标的若干视觉感知特征进行模糊化;根据若干模糊推理准则,对模糊特征进行模糊推理,得到若干推理准则结果;对若干推理结果进行反模糊化计算,得到当前帧的所有感兴趣目标的视觉感知度。
本发明的优点在于,从视频片源格式转换技术角度出发,针对目前最为流行的视频在小屏幕显示终端上的播放,提出一种智能视频片源格式自动转换方法,它可以自适应将普通视频格式转换成小尺寸显示终端可播放的目标视频格式,并且充分满足了人眼对小屏幕的视觉体验,明显提高了在小屏幕显示终端上观看视频文件的效果。
附图说明
图1是本发明的面向显示终端的视频尺寸自适应转换系统的框图;
图2是本发明的面向显示终端的视频尺寸自适应转换系统中裁剪窗口位置确定模块的框图;
图3是本发明的面向显示终端的视频尺寸自适应转换系统中视觉感知度计算模块的框图;
图4是本发明的面向显示终端的视频尺寸转换方法的流程图;
图5是本发明的面向显示终端的视频尺寸转换方法中的确定裁剪窗口位置的流程图;
图6是本发明的面向显示终端的视频尺寸转换方法中的计算视觉感知度的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细描述。
首先对面向显示终端的视频尺寸转换系统进行说明。
图1是本发明的面向显示终端的视频尺寸转换系统的框图。如图1所示,该转换系统包括:裁剪窗口尺寸计算模块101、裁剪窗口位置确定模块102和目标视频转换模块103。
裁剪窗口尺寸计算模块101,用于确定裁减窗口尺寸;
裁剪窗口尺寸计算模块101确定裁剪窗口尺寸是要确定对源视频进行裁剪的矩形的长和宽的尺寸。用户根据对目标视频中物体大小的感知喜好,通过交互式的方式给定比例系数r,通过给定的比例系数r确定裁减窗口尺寸。比例系数r、裁减窗口尺寸和显示终端分辨率的关系为:
r = min ( Width S Width C , Height S Height C )
其中,WidthS和HeightS分别表示显示终端的水平分辨率和垂直分辨率,WidthC和HeightC分别表示裁剪窗口的水平尺寸和垂直尺寸。比例系数r、WidthS和HeightS是已知参数,根据这些已知参数,计算裁减窗口尺寸,即WidthC和HeightC。裁剪窗口尺寸的范围为:最大值为源视频的分辨率大小,最小值是显示终端的分辨率大小,min表示取
Figure BDA0000046366270000062
两个值中的最小值。
裁剪窗口位置定位模块102,用于确定裁剪窗口位置;其中确定裁剪窗口位置是要确定对源视频进行裁剪的矩形的位置。
目标视频转换模块103,用于根据裁剪窗口尺寸和裁剪窗口位置,对源视频进行裁剪,得到裁剪视频,若裁剪窗口尺寸等于显示终端的分辨率,则输出裁剪视频为目标视频;若裁剪窗口尺寸大于显示终端的分辨率,则按照显示终端的分辨率对裁剪视频进行下采样,得到目标视频并输出。由于裁剪窗口尺寸介于源视频和显示终端的分辨率大小之间,因此要根据裁剪窗口尺寸是否等于显示终端视频的分辨率,来确定是否对裁剪后的裁剪视频进行下采样,使得目标视频可以在显示终端正确显示。
图2是本发明的面向显示终端的视频尺寸自适应转换系统中裁剪窗口位置确定模块的框图,如图2所示,裁剪窗口位置确定模块102进一步包括:镜头分割和远景镜头判断模块201、摄像机参数估计和感兴趣目标提取模块202、视觉感知特征计算模块203、视觉感知度计算模块204、裁剪窗口初步位置确定模块205和裁剪位置最终确定模块206。
镜头分割和远景镜头判断模块201,用于将源视频文件进行镜头分割,提取当前视频中的远景镜头;
镜头分割和远景镜头判断模块201参考申请号是200910090794.4的发明专利:“一种压缩域视频镜头突变与渐变联合自动分割方法及系统”和“An Intelligent displayscheme of soccer video on mobile devices”,IEEE Trans.Circuits Sys.Video Technol.,vo1.17,no.10,pp.1395-1401,2007分别进行镜头分割和远景镜头提取。
摄像机参数估计和感兴趣目标提取模块202,用于对拍摄源文件的摄像机的若干参数进行估计并提取源视频文件中用户感兴趣的目标物体;
摄像机参数估计和感兴趣目标提取模块202提取的摄像机参数包括:摄像机的聚焦运动参数、摄像机左摇或右摇的运动参数、摄像机上倾或下倾的运动参数等。估计当前远景镜头中每一帧图像的摄像机参数可以参考文献:“Rapid estimation ofcamera motion from compressed video with application to video annotation,”IEEE Trans.Circuits Sys.Video Technol.,vol.10,no.1,2000。
其中,摄像机参数估计和感兴趣目标提取模块202提取的图像中感兴趣的目标是在该视频图像中用户感兴趣需要特别关注的目标。以足球比赛视频广播为例,感兴趣目标包括足球、球场上分布的球员。
视觉感知特征计算模块203,用于计算每一帧图像中每个感兴趣目标的视觉感知特征;
以足球比赛视频广播为例,摄像机参数估计和感兴趣目标提取模块202提取球场上感兴趣的目标包括足球和球场上所有的球员,视觉感知特征计算模块203再提取能够反映感兴趣目标的视觉感知特征及相应计算公式,包括:
(1)球场上各感兴趣目标到足球的位置,计算公式为:
Dist_B=[DBball,DBp1,DBp2,…,DBpk,…,DBpm]T
公式中,DBpk=((xk-ib)2+(yk-jb)2)1/2,xk和yk分别代表第k个目标的水平和垂直方向的坐标,同时,(ib,jb)T则代表足球的在水平方向和垂直方向的坐标;
(2)球场上各感兴趣目标到足球和球场上的所有球员质心的的距离,计算公式为:
Dist_C=[DCball,DCp1,DCp2,…,DCpk,…,DCpm]T
Dist _ C = DC ball , DC pl , DC p 2 , . . . , DC pk , . . . , DC pm T
其中,DCpk=((xk-ic)2+(yk-jc)2)1/2,同时,(ic,jc)T则代表球场上所有目标的质心;
(3)各感兴趣目标与摄像机的夹角,公式为:
ANGLE=[Aball,A1,A2,……,Am]T
进一步,每一个感兴趣目标与摄像机的夹角,即Ak的计算方法如下:
首先,摄像机在水平方向和垂直方向的位移分别计算为:
mx=q4/s,my=-q3/s
其中,s代表摄像机的聚焦运动参数,-q3代表摄像机左摇或右摇的运动参数,q4代表摄像机上倾或下倾的运动参数。
然后,根据这三个参数,摄像机运动的角度计算如下:
angle _ c = π * [ 1 - 1 2 sign ( my ) ( 1 + sign ( mx ) ) ]
+ a tan ( my mx )
假设angle_ok代表第k个感兴趣目标在以足球为中心的坐标系下的夹角,它的计算公式如下:
angle _ o k = π * [ 1 - 1 2 sign ( y k - j b ) ( 1 + sign ( x k - i b ) ) ]
+ a tan ( y k - j b x k - i b )
最后,球场上每一个感兴趣目标与摄像机的夹角计算公式如下:
Ak=π*[1+sign((angle_ok-angle_c)-π)]
+sign(angle_ok-angle_c)*||angle_ok-angle_c||
视觉感知度计算模块204,用于根据每个感兴趣目标的视觉感知特征计算其视觉感知度。
裁剪窗口初步位置确定模块205,用于在每一帧图像中,对所有感兴趣目标的视觉感知度按照从大到小排序,并根据该感兴趣目标的排序和裁剪窗口尺寸确定每一帧图像的裁剪窗口的初步位置。
作为一个具体实施例,裁剪窗口初步位置确定模块205用于按照一帧图像中所有感兴趣目标的视觉感知度从大到小的排序,采用与裁剪窗口尺寸相同的矩形区域依次增加覆盖感兴趣目标,所能覆盖最多感兴趣目标的该矩形区域的位置即是裁剪窗口的初步位置。
在每帧图像中,按照所有感兴趣目标的排序,采用一个在水平和垂直方向分别与裁剪窗口尺寸相同的矩形区域首先覆盖视觉感知度最大的感兴趣目标,然后根据需要挪动该矩形区域,使矩形区域覆盖视觉感知度最大和次之的感兴趣目标,之后再挪动矩形区域,使矩形区域按照视觉感知度从大到小的顺序覆盖更多感兴趣目标,直到不能覆盖更多感兴趣目标为止,这时该矩形区域的位置就是裁剪窗口的初步位置。
作为另一个具体实施例,裁剪窗口初步位置确定模块205用于按照一帧图像中所有感兴趣目标的排序依次选择感兴趣目标放入堆栈,当堆栈中有感兴趣目标时,每选择一个感兴趣目标放入堆栈之前,计算当前堆栈中所有感兴趣目标和该选择的感兴趣目标在图像中的位置构成的外接矩形的尺寸,例如:以足球比赛视频广播为例,当前堆栈中所有感兴趣目标包括足球、球员A,选择放入的感兴趣目标是球员B,在图像中,设定图像左上角的位置是(0,0);足球的位置是(5,7),表示足球在图像中的位置是距离图像左上角水平5像素,垂直7像素;球员A的位置是(6,8),球员B的位置是(12,9);那么,当前堆栈中所有感兴趣目标和选择放入的感兴趣目标在图像中的位置组成的外接矩形的尺寸是水平7像素,垂直2像素。然后将计算得到的外接矩形尺寸与裁减窗口的尺寸进行比较,如果外接矩形尺寸小于裁剪窗口尺寸,则将该选择的感兴趣目标放入堆栈,如果外接矩形尺寸等于裁剪窗口尺寸,则将该选择的感兴趣目标放入堆栈,并计算堆栈中所有感兴趣目标构成的外接矩形的位置,就是该帧图象的裁剪窗口的初步位置;如果外接矩形尺寸大于裁剪窗口尺寸,则不将该选择的感兴趣目标放入堆栈,并计算堆栈中所有感兴趣目标构成的外接矩形的位置,就是该帧图象的裁剪窗口的初步位置。其中将外接矩形尺寸与裁剪窗口尺寸进行比较是分别比较两者的水平尺寸和垂直尺寸,当外接矩形的水平尺寸和垂直尺寸均分别小于裁剪窗口的水平尺寸和垂直尺寸时,则外接矩形尺寸小于裁剪窗口尺寸;当外接矩形的水平尺寸和垂直尺寸均分别等于裁剪窗口的水平尺寸和垂直尺寸时,则外接矩形尺寸等于裁剪窗口尺寸;否则,外接矩形尺寸大于裁剪窗口尺寸。
裁剪位置最终确定模块206,用于将得到的远景镜头中每帧图像的裁剪窗口的初步位置,进行时间域平滑处理,得到裁剪窗口的最终位置。
裁剪位置最终确定模块206对远景镜头中每一帧图像的裁剪窗口的初步位置进行时间域平滑处理,可以在充分逼近实际点的情况下,很好地平滑每帧感兴趣窗口的位置,使得根据感兴趣窗口裁减后的图像可以平滑流畅的播放,帧与帧之间进行平滑地过渡,符合人眼在时间域的观看习惯。
图3是本发明的面向显示终端的视频尺寸自适应转换系统中视觉感知度计算模块的框图,如图3所示,视觉感知度计算模块204进一步包括模糊化计算模块301、模糊推理模块302和反模糊化计算模块303。
模糊化计算模块301,用于对视觉感知特征进行模糊化计算,得到模糊特征;
模糊化计算模块301根据模糊语言集和隶属度函数对视觉感知特征进行模糊化得到模糊特征。
以足球比赛视频广播为例,模糊化计算模块301为上述三个视觉感知特征,即球场上各感兴趣目标到足球的位置Dist_B、球场上各感兴趣目标到足球和球场上所有球员的质心的距离Dist_C和各感兴趣目标与摄像机的夹角ANGLE分别设计了三个模糊语言集,即
对应视觉感知特征Dist_B的模糊语言集是L1={small,middle,large}。其中,元素“small”表示感兴趣目标与足球间的距离小;元素“middle”表示感兴趣目标与足球间的距离中等;元素“large”表示感兴趣目标与足球间的距离大。
对应视觉感知特征Dist_C的模糊语言集是L2={small,middle,large}。其中,元素“small”表示感兴趣目标与所有目标质心间的距离小;元素“middle”表示感兴趣目标与所有目标质心间的距离中等;元素“large”表示感兴趣目标与所有目标质心间的距离大。
对应视觉感知特征ANGLE的模糊语言集是L3={small,large}。其中,元素“small”表示感兴趣目标与摄像机运动方向夹角小;元素“large”表示感兴趣目标与摄像机运动方向夹角大。
此外,为上述模糊语言集中的每一个元素设计了隶属度函数,该隶属度函数是三角函数,如下式表示:
Figure BDA0000046366270000101
上式中,a、b和c三个参数表示三角函数进行分段计算时的分段区间的上限和下限,其中,a表示第一个分段区间的上限,b表示第一个分段区间的下限,同时又表示第二个分段区间的上限,c表示第二个分段区间的下限。这两个分段区间以外则属于其它的情况,x表示进行模糊化计算的输入的视觉感知特征,u(x)表示模糊化计算之后得到的隶属度。
对上式中的a、b和c三个参数选取不同的数值即构成上述三个模糊语言集中每一个元素的隶属度函数。
将某一个要进行模糊化计算的视觉感知特征,例如球场上各感兴趣目标到足球的位置Dist_B,输入到对应模糊语言集的三个元素的三个隶属度函数中进行计算,得到三个隶属度,即u1(x)、u2(x)和u3(x),这三个隶属度构成该视觉感知特征的模糊特征。同样,对球场上各感兴趣目标到足球和球场上所有球员的质心的距离Dist_C和各感兴趣目标与摄像机的夹角ANGLE进行模糊化计算,分别得到相应的三个隶属度u4(x)、u5(x)、u6(x)构成的模糊特征和两个隶属度u7(x)、u8(x)构成的模糊特征。
当然在对视觉感知特征进行模糊化计算时,在也可以采用其它形式的隶属度函数和模糊语言集。
模糊推理模块302,用于根据若干模糊推理准则,对模糊特征进行模糊推理,得到若干推理准则结果;以足球广播视频为例,模糊推理模块302通过对观看足球广播视频的感兴趣目标进行总结,为模糊推理模块抽象和设计得到18个模糊推理准则,这18个准则是模糊推理的核心决策。根据这18个模糊推理准则,对得到的足球广播视频的三个模糊特征进行模糊推理,得到18个推理准则结果。
反模糊化计算模块303,用于对若干推理准则结果进行反模糊化计算,得到目标的视觉感知度。对上一步骤得到的推理准则结果进行反模糊化计算,计算结果即为每个感兴趣目标的视觉感知度。
以足球比赛视频广播为例,反模糊化计算模块303可以采用重心(Center ofGravity)方法进行反模糊化计算,即
AV i = Σ j = 1 S u L , i ′ ( y j ) y j Σ j = 1 S u L , i ′ ( y j ) , i = 1,2 , . . . M ,
其中,AVi代表每个感兴趣目标的视觉感知度。除了重心反模糊化计算方法,也可以采用其它反模糊化计算方法。
下面对面向显示终端的视频尺寸转换方法进行说明。
图4是本发明的面向显示终端的视频尺寸转换方法的流程图。如图4所示,本发明的视频尺寸自适应转换方法包括如下步骤:
在步骤401中,确定裁减窗口尺寸。确定裁剪窗口尺寸是要确定对源视频进行裁剪的矩形的长和宽的尺寸。用户根据对目标视频中物体大小的感知喜好,通过交互式的方式给定比例系数r,通过给定的比例系数r确定裁减窗口尺寸。比例系数r、裁减窗口尺寸和显示终端分辨率的关系为:
r = min ( Width S Width C , Height S Height C )
其中,WidthS和HeightS分别表示显示终端的水平分辨率和垂直分辨率,WidthC和HeightC分别表示裁剪窗口的水平方向和垂直方向尺寸。比例系数r、WidthS和HeightS是已知参数,根据这些已知参数,计算裁减窗口尺寸,即WidthC和HeightC。裁剪窗口尺寸的范围为:最大值为源视频的分辨率大小,最小值是显示终端的分辨率大小,min表示取
Figure BDA0000046366270000113
Figure BDA0000046366270000114
两个值中的最小值。
如图4所示,接着进入步骤402,确定裁剪窗口位置。确定裁剪窗口位置是要确定对源视频进行裁剪的矩形的位置。
如图4所示,最后是步骤403,根据裁剪窗口尺寸和裁剪窗口位置,对源视频进行裁剪,得到裁剪视频,若裁剪窗口尺寸等于显示终端的分辨率,则输出裁剪视频为目标视频;若裁剪窗口尺寸大于显示终端的分辨率,则按照显示终端的分辨率对裁剪视频进行下采样,得到目标视频并输出。由于裁剪窗口尺寸介于源视频和显示终端的分辨率大小之间,因此要根据裁剪窗口尺寸是否等于显示终端视频的分辨率,来确定是否对裁剪后的裁剪视频进行下采样,使得目标视频可以在显示终端正确显示。
图5是本发明的面向显示终端的视频尺寸转换方法中的确定裁剪窗口位置的流程图。如图5所示,上述确定裁剪窗口位置的步骤402进一步包括如下步骤:
在步骤501中,对源视频进行镜头分割,得到当前镜头;
对源视频进行镜头分割的方法可以参考申请号是200910090794.4的发明专利:“一种压缩域视频镜头突变与渐变联合自动分割方法及系统”。
接着是步骤502,判断当前镜头是否是远景镜头,如果否,则返回到上一步骤501;如果是,则继续以下步骤;
判断当前镜头是否是远景镜头即识别远景镜头,远景镜头的识别方法可以参考文献:“An Intelligent display scheme of soccer video on mobile devices”,IEEE Trans.Circuits Sys.Video Technol.,vol.17,no.10,pp.1395-1401,2007。
步骤503中,估计远景镜头中每一帧图像的摄像机参数和提取每一帧图像中的所有感兴趣目标;
摄像机参数包括:摄像机的聚焦运动参数、摄像机左摇或右摇的运动参数、摄像机上倾或下倾的运动参数等。估计远景镜头中每一帧图像的摄像机参数可以参考文献:“Rapid estimation of camera motion from compressed video with application tovideo annotation,”IEEE Trans.Circuits Sys.Video Technol.,vol.10,no.1,2000。
其中,图像中感兴趣的目标是在该图像中用户感兴趣需要特别关注的目标。
以足球比赛视频广播为例,感兴趣目标包括足球、球场上分布的球员。
接着进入步骤504,计算每一帧图像中每个感兴趣目标的视觉感知特征;
同样,以足球比赛视频广播为例,球场上感兴趣的目标包括足球和球场上所有的球员,能够反映感兴趣目标的视觉感知特征包括:
(1)球场上各感兴趣目标到足球的位置,计算公式为:
Dist_B=[DBball,DBp1,DBp2,…,DBpk,…,DBpm]T
公式中,DBpk=((xk-ib)2+(yk-jb)2)1/2,xk和yk分别代表第k个目标的水平和垂直方向的坐标,同时,(ib,jb)T则代表足球的在水平方向和垂直方向的坐标;
(2)球场上各感兴趣目标到足球和球场上的所有球员质心的的距离,计算公式为:
Dist_C=[DCball,DCp1,DCp2,…,DCpk,…,DCpm]T
其中,DCpk=((xk-ic)2+(yk-jc)2)1/2,同时,(ic,jc)T则代表球场上所有目标的质心;
(3)各感兴趣目标与摄像机的夹角,公式为:
ANGLE=[Aball,A1,A2,……,Am]T
进一步,每一个感兴趣目标与摄像机的夹角,即Ak的计算方法如下:
首先,摄像机在水平方向和垂直方向的位移分别计算为:
mx=q4/s,my=-q3/s
其中,s代表摄像机的聚焦运动参数,-q3代表摄像机左摇或右摇的运动参数,q4代表摄像机上倾或下倾的运动参数。
然后,根据这三个参数,摄像机运动的角度计算如下:
angle _ c = π * [ 1 - 1 2 sign ( my ) ( 1 + sign ( mx ) ) ]
+ a tan ( my mx )
假设angle_ok代表第k个感兴趣目标在以足球为中心的坐标系下的夹角,它的计算公式如下:
angle _ o k = π * [ 1 - 1 2 sign ( y k - j b ) ( 1 + sign ( x k - i b ) ) ]
+ a tan ( y k - j b x k - i b )
最后,球场上每一个感兴趣目标与摄像机的夹角计算公式如下:
Ak=π*[1+sign((angle_ok-angle_c)-π)]
+sign(angle_ok-angle_c)*||angle_ok-angle_c||
步骤505中,根据每个感兴趣目标的视觉感知特征计算其视觉感知度,得到每一帧图像中每个感兴趣目标的视觉感知度。
图6是本发明的面向显示终端的视频尺寸转换方法中的计算视觉感知度的流程图。如图6所示,计算每个感兴趣目标的视觉感知度进一步包括如下步骤:
首先是步骤601,对视觉感知特征进行模糊化计算,得到模糊特征。模糊特征是根据模糊语言集和隶属度函数对视觉感知特征进行模糊化计算后得到的。
以足球比赛视频广播为例,为上述三个视觉感知特征,即球场上各感兴趣目标到足球的位置Dist_B、球场上各感兴趣目标到足球和球场上所有球员的质心的距离Dist_C和各感兴趣目标与摄像机的夹角ANGLE分别设计了三个模糊语言集,即
对应视觉感知特征Dist_B的模糊语言集是L1={small,middle,large}。其中,元素“small”表示感兴趣目标与足球间的距离小;元素“middle”表示感兴趣目标与足球间的距离中等;元素“large”表示感兴趣目标与足球间的距离大。
对应视觉感知特征Dist_C的模糊语言集是L2={small,middle,large}。其中,元素“small”表示感兴趣目标与所有目标质心间的距离小;元素“middle”表示感兴趣目标与所有目标质心间的距离中等;元素“large”表示感兴趣目标与所有目标质心间的距离大。
对应视觉感知特征ANGLE的模糊语言集是L3={small,large}。其中,元素“small”表示感兴趣目标与摄像机运动方向夹角小;元素“large”表示感兴趣目标与摄像机运动方向夹角大。
此外,为上述模糊语言集中的每一个元素设计了隶属度函数,该隶属度函数是三角函数,如下式表示:
Figure BDA0000046366270000141
上式中,a、b和c三个参数表示三角函数进行分段计算时的分段区间的上限和下限,其中,a表示第一个分段区间的上限,b表示第一个分段区间的下限,同时又表示第二个分段区间的上限,c表示第二个分段区间的下限。这两个分段区间以外则属于其它的情况,x表示进行模糊化计算的输入的视觉感知特征,u(x)表示模糊化计算之后得到的隶属度。
对上式中的a、b和c三个参数选取不同的数值即构成上述三个模糊语言集中每一个元素的隶属度函数。
将某一个要进行模糊化计算的视觉感知特征,例如球场上各感兴趣目标到足球的位置Dist_B,输入到对应模糊语言集的三个元素的三个隶属度函数中进行计算,得到三个隶属度,即u1(x)、u2(x)和u3(x),这三个隶属度构成该视觉感知特征的模糊特征。同样,对球场上各感兴趣目标到足球和球场上所有球员的质心的距离Dist_C和各感兴趣目标与摄像机的夹角ANGLE进行模糊化计算,分别得到相应的三个隶属度u4(x)、u5(x)、u6(x)构成的模糊特征和两个隶属度u7(x)、u8(x)构成的模糊特征。
当然在对视觉感知特征进行模糊化计算时,在也可以采用其它形式的隶属度函数和模糊语言集。
接着进入步骤602,根据若干模糊推理准则,对模糊特征进行模糊推理,得到若干推理准则结果。
以足球广播视频为例,通过对观看足球广播视频的感兴趣目标进行总结,为模糊推理模块抽象和设计得到18个模糊推理准则,这18个准则是模糊推理的核心决策。根据这18个模糊推理准则,对得到的足球广播视频的三个模糊特征进行模糊推理,得到18个推理准则结果。
最后在步骤603中,对若干推理准则结果进行反模糊化计算,得到目标的视觉感知度。
对上一步骤得到的推理准则结果进行反模糊化计算,计算结果即为每个感兴趣目标的视觉感知度。
以足球比赛视频广播为例,可以采用重心(Center of Gravity)方法进行反模糊化计算,即
AV i = Σ j = 1 S u L , i ′ ( y j ) y j Σ j = 1 S u L , i ′ ( y j ) , i = 1,2 , . . . M ,
其中,AVi代表每个感兴趣目标的视觉感知度。除了重心反模糊化计算方法,也可以采用其它反模糊化计算方法。
在步骤505中获得了远景镜头的每帧图像中所有感兴趣目标的视觉感知度后,进入步骤506,对每一帧图像中所有感兴趣目标的视觉感知度按照从大到小排序,并根据该感兴趣目标的排序和裁剪窗口尺寸确定每一帧图像的裁剪窗口的初步位置。
作为一个具体实施例,在每帧图像中,按照所有感兴趣目标的视觉感知度从大到小的排序,采用与裁剪窗口尺寸相同的矩形区域依次增加覆盖感兴趣目标,确定该矩形区域所能覆盖最多感兴趣目标的位置即是裁剪窗口的初步位置。
在每帧图像中,按照所有感兴趣目标的排序,采用一个在水平和垂直方向分别与裁剪窗口尺寸相同的矩形区域首先覆盖视觉感知度最大的感兴趣目标,然后根据需要挪动该矩形区域,使矩形区域覆盖视觉感知度最大和次之的感兴趣目标,之后再挪动矩形区域,使矩形区域按照视觉感知度从大到小的顺序覆盖更多感兴趣目标,直到不能覆盖更多感兴趣目标为止,这时该矩形区域的位置就是裁剪窗口的初步位置。
作为另一个具体实施例,按照一帧图像中所有感兴趣目标的排序,依次选择感兴趣目标放入堆栈,当堆栈中有感兴趣目标时,每选择一个感兴趣目标放入堆栈之前,进行如下计算:计算当前堆栈中所有感兴趣目标和该选择的感兴趣目标在图像中的位置构成的外接矩形的尺寸,例如:以足球比赛视频广播为例,当前堆栈中所有感兴趣目标包括足球、球员A,选择放入的感兴趣目标是球员B,在图像中,设定图像左上角的位置是(0,0);足球的位置是(5,7),表示足球在图像中的位置是距离图像左上角水平5像素,垂直7像素;球员A的位置是(6,8),球员B的位置是(12,9);那么,当前堆栈中所有感兴趣目标和选择放入的感兴趣目标在图像中的位置组成的外接矩形的尺寸是水平7像素,垂直2像素。然后将计算得到的外接矩形尺寸与裁减窗口的尺寸进行比较,如果外接矩形尺寸小于裁剪窗口尺寸,则将该选择的感兴趣目标放入堆栈,如果外接矩形尺寸等于裁剪窗口尺寸,则将该选择的感兴趣目标放入堆栈,并计算堆栈中所有感兴趣目标构成的外接矩形的位置,就是该帧图象的裁剪窗口的初步位置;如果外接矩形尺寸大于裁剪窗口尺寸,则不将该选择的感兴趣目标放入堆栈,并计算堆栈中所有感兴趣目标构成的外接矩形的位置,就是该帧图象的裁剪窗口的初步位置。其中将外接矩形尺寸与裁剪窗口尺寸进行比较是分别比较两者的水平尺寸和垂直尺寸,当外接矩形的水平尺寸和垂直尺寸均分别小于裁剪窗口的水平尺寸和垂直尺寸时,外接矩形尺寸小于裁剪窗口尺寸;当外接矩形的水平尺寸和垂直尺寸均分别等于裁剪窗口的水平尺寸和垂直尺寸时,外接矩形尺寸等于裁剪窗口尺寸;否则,外接矩形尺寸大于裁剪窗口尺寸。
最后在步骤507中,将得到的远景镜头中每一帧图像的裁剪窗口的初步位置,进行时间域平滑处理,得到裁剪窗口位置;
对远景镜头中每一帧图像的裁剪窗口的初步位置进行时间域平滑处理,可以在充分逼近实际点的情况下,很好地平滑每帧感兴趣窗口的位置,使得根据感兴趣窗口裁减后的图像可以平滑流畅的播放,帧与帧之间进行平滑地过渡,符合人眼在时间域的观看习惯。
例如,采用多项式拟合的方法对远景镜头中每一帧图像的裁剪窗口的初步位置进行拟合,拟合后的各点将作为对应图像帧的裁剪窗口位置。
需要说明的是,以上介绍的本发明的实施方案而并非限制。本领域的技术人员应当理解,任何对本发明技术方案的修改或者等同替代都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围内。

Claims (20)

1.一种面向显示终端的视频尺寸转换系统,包括:
裁剪窗口尺寸计算模块,用于确定裁减窗口尺寸;
裁剪窗口位置确定模块,用于确定裁剪窗口位置;和
目标视频转换模块,用于根据所述裁剪窗口尺寸和裁剪窗口位置,对源视频进行裁剪,得到裁剪视频;若所述裁剪窗口尺寸等于显示终端的分辨率,则输出所述裁剪视频为目标视频;若所述裁剪窗口尺寸大于显示终端的分辨率,则按照显示终端的分辨率对所述裁剪视频进行下采样,得到目标视频并输出。
2.根据权利要求1所述的面向显示终端的视频尺寸转换系统,其特征在于,所述裁剪窗口尺寸由下式确定:
r = min ( Width S Width C , Height S Height C )
其中,比例系数r根据对所述目标视频中目标大小的感知喜好确定;WidthS和HeightS分别表示所述显示终端的水平分辨率和垂直分辨率,WidthC和HeightC分别表示所述裁剪窗口的水平尺寸和垂直尺寸,min表示取最小值。
3.根据权利要求1所述的面向显示终端的视频尺寸转换系统,其特征在于,所述裁剪窗口位置确定模块包含:
镜头分割和远景镜头判断模块,用于将所述源视频进行镜头分割,提取远景镜头;
摄像机参数估计和感兴趣目标提取模块,用于对所述远景镜头中每一帧图像的若干摄像机参数进行估计并提取所述远景镜头的每一帧图像中的感兴趣目标;
视觉感知特征计算模块,用于计算所述每一帧图像中每个感兴趣目标的若干视觉感知特征;
视觉感知度计算模块,用于根据所述每一帧图像中每个感兴趣目标的若干视觉感知特征计算其视觉感知度;
裁剪窗口初步位置确定模块,用于对每一帧图像中所有所述感兴趣目标的视觉感知度按照从大到小排序,并根据所述感兴趣目标的排序和裁剪窗口尺寸确定每一帧图像的裁剪窗口的初步位置;
裁剪位置最终确定模块,用于对所述远景镜头包含的每一帧图像的裁剪窗口的初步位置进行时间域平滑处理,最终确定每一帧图像的裁剪窗口位置。
4.根据权利要求3所述的面向显示终端的视频尺寸转换系统,其特征在于,所述摄像机参数包括:摄像机的聚焦运动参数、摄像机左摇或右摇的运动参数和摄像机上倾或下倾的运动参数。
5.根据权利要求3所述的面向显示终端的视频尺寸转换系统,其特征在于,所述视觉感知度计算模块包含:
模糊化计算模块,用于对所述视觉感知特征进行模糊化计算,得到模糊特征;
模糊推理模块,用于根据若干模糊推理准则,对所述模糊特征进行模糊推理,得到若干推理准则结果;和
反模糊化计算模块,用于对所述若干推理准则结果进行反模糊化计算,得到目标的视觉感知度。
6.根据权利要求3所述的面向显示终端的视频尺寸转换系统,其特征在于,所述裁剪窗口初步位置确定模块用于采用与所述裁剪窗口尺寸相同的矩形区域,按照所述感兴趣目标的排序依次增加覆盖所述感兴趣目标,所述矩形区域所能覆盖最多感兴趣目标的位置即是裁剪窗口的初步位置。
7.根据权利要求3所述的面向显示终端的视频尺寸转换系统,其特征在于,所述裁剪窗口初步位置确定模块用于:按照所述感兴趣目标排序依次选择感兴趣目标放入堆栈,每放入所述堆栈之前,计算所述堆栈中所有感兴趣目标和所述选择的感兴趣目标构成的外接矩形的尺寸;将所述外接矩形尺寸与所述裁减窗口的尺寸进行比较,如果所述外接矩形尺寸小于所述裁剪窗口尺寸,则将所述选择的感兴趣目标放入所述堆栈;如果所述外接矩形尺寸等于所述裁剪窗口尺寸,则将所述选择的感兴趣目标放入所述堆栈,并计算所述堆栈中所有感兴趣目标构成的外接矩形的位置,就是裁剪窗口的初步位置;否则不将所述选择的感兴趣目标放入所述堆栈,并计算所述堆栈中所有感兴趣目标构成的外接矩形的位置,就是裁剪窗口的初步位置。
8.根据权利要求3所述的面向显示终端的视频尺寸转换系统,其特征在于,所述裁剪位置最终确定模块用于对所述远景镜头中每一帧图像的裁剪窗口的初步位置采用多项式拟合来进行所述时间域平滑。
9.根据权利要求5所述的面向显示终端的视频尺寸转换系统,其特征在于,所述模糊化计算模块用于根据模糊语言集和隶属度函数对所述每个感兴趣目标的视觉感知特征进行模糊化计算。
10.根据权利要求3、4、5、6、7、8或9所述的面向显示终端的视频尺寸转换系统,其特征在于,所述源视频是足球比赛视频时,所述感兴趣目标包括足球和球场上的球员;所述视觉感知特征包括:所述感兴趣目标到所述足球的距离、所述感兴趣目标到所述足球和球场上的球员质心的的距离和所述感兴趣目标与所述摄像机的夹角。
11.一种面向显示终端的视频尺寸转换方法,包含步骤:
确定裁减窗口尺寸;
确定裁剪窗口位置;
根据所述裁剪窗口尺寸和所述裁剪窗口位置,对源视频进行裁剪,得到裁剪视频,若所述裁剪窗口尺寸等于显示终端的分辨率,则输出所述裁剪视频为目标视频;若所述裁剪窗口尺寸大于显示终端的分辨率,则按照显示终端的分辨率对所述裁剪视频进行下采样,得到目标视频并输出。
12.根据权利要求11所述的面向显示终端的视频尺寸转换方法,其特征在于,所述确定裁减窗口尺寸进一步包含步骤:
根据对所述目标视频中目标大小的感知喜好给定比例系数r,根据该比例系数r确定所述裁减窗口尺寸,公式如下:
r = min ( Width S Width C , Height S Height C )
其中,WidthS和HeightS分别表示显示终端的水平分辨率和垂直分辨率,WidthC和HeightC分别表示所述裁剪窗口的水平尺寸和垂直尺寸,min表示取最小值。
13.根据权利要求11所述的面向显示终端的视频尺寸转换方法,其特征在于,所述确定裁剪窗口位置进一步包含步骤:
对所述源视频进行镜头分割,得到当前镜头;
判断所述当前镜头是否是远景镜头,如果否,则返回到上一步骤;如果是,则继续以下步骤;
估计所述远景镜头中每一帧图像的若干摄像机参数和提取所述远景镜头的每一帧图像中的所有感兴趣目标;
计算所述每一帧图像中每个感兴趣目标的若干视觉感知特征;
根据所述每个感兴趣目标的若干视觉感知特征计算其视觉感知度;
对每一帧图像中所有所述感兴趣目标的视觉感知度按照从大到小排序,并根据所述感兴趣目标的排序和裁剪窗口尺寸确定每一帧图像的裁剪窗口的初步位置;
将所述远景镜头中每一帧图像的裁剪窗口的初步位置进行时间域平滑处理,得到每帧图像最终的裁剪窗口位置。
14.根据权利要求13所述的面向显示终端的视频尺寸转换方法,其特征在于,所述摄像机参数包括:摄像机的聚焦运动参数、摄像机左摇或右摇的运动参数和摄像机上倾或下倾的运动参数。
15.根据权利要13所述的面向显示终端的视频尺寸转换方法,其特征在于,所述计算每个感兴趣目标的视觉感知度进一步包括步骤:
对所述每个感兴趣目标的若干视觉感知特征进行模糊化计算,得到模糊特征;
根据若干模糊推理准则,对所述模糊特征进行模糊推理,得到若干推理准则结果;
对所述若干推理结果进行反模糊化计算,得到目标的视觉感知度。
16.根据权利要求13所述的面向显示终端的视频尺寸转换方法,其特征在于,所述确定每一帧图像的裁剪窗口的初步位置进一步包括:采用与所述裁剪窗口尺寸相同的矩形区域,按照所述感兴趣目标的排序依次增加覆盖所述感兴趣目标,所述矩形区域所能覆盖最多感兴趣目标的位置即是裁剪窗口的初步位置。
17.根据权利要求13所述的面向显示终端的视频尺寸转换方法,其特征在于,所述确定每一帧图像的裁剪窗口的初步位置进一步包括:
在每一帧图像中,按照所有所述感兴趣目标的视觉感知度从大到小的顺序,依次选择感兴趣目标,当堆栈中没有感兴趣目标时,则把所述选择的感兴趣目标放入所述堆栈,重复这一步骤;当堆栈中有感兴趣目标时,计算所述堆栈中所有感兴趣目标和所述选择的感兴趣目标构成的外接矩形的尺寸;
将所述外接矩形尺寸与所述裁减窗口的尺寸进行比较,如果所述外接矩形尺寸小于所述裁剪窗口尺寸,则将所述选择的感兴趣目标放入所述堆栈,返回上一步骤;如果所述外接矩形尺寸小于所述裁剪窗口尺寸,则将所述选择的感兴趣目标放入所述堆栈,并计算堆栈中所有感兴趣目标构成的外接矩形的位置,就是该帧图象的裁剪窗口的初步位置;否则不将所述选择的感兴趣目标放入所述堆栈,并计算堆栈中所有感兴趣目标构成的外接矩形的位置,就是该帧图象的裁剪窗口的初步位置。
18.根据权利要求13所述的面向显示终端的视频尺寸转换方法,其特征在于,所述时间域平滑是采用多项式拟合对所述远景镜头中每一帧图像的裁剪窗口的初步位置进行拟合。
19.根据权利要求15所述的面向显示终端的视频尺寸转换方法,其特征在于,根据模糊语言集和隶属度函数对所述每个感兴趣目标的视觉感知特征进行模糊化计算。
20.根据权利要求13、14、15、16、17、18或19所述的面向显示终端的视频尺寸转换方法,其特征在于,所述源视频是足球比赛视频时,所述感兴趣目标包括足球和球场上的球员;所述视觉感知特征包括所述感兴趣目标到所述足球的距离、所述感兴趣目标到所述足球和球场上的球员质心的的距离和所述感兴趣目标与所述摄像机的夹角。
CN201110033780.6A 2010-12-30 2011-01-31 一种面向显示终端的视频尺寸转换系统与方法 Expired - Fee Related CN102541494B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110033780.6A CN102541494B (zh) 2010-12-30 2011-01-31 一种面向显示终端的视频尺寸转换系统与方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201010623321 2010-12-30
CN201010623321.9 2010-12-30
CN201110033780.6A CN102541494B (zh) 2010-12-30 2011-01-31 一种面向显示终端的视频尺寸转换系统与方法

Publications (2)

Publication Number Publication Date
CN102541494A true CN102541494A (zh) 2012-07-04
CN102541494B CN102541494B (zh) 2016-01-06

Family

ID=46348476

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110033780.6A Expired - Fee Related CN102541494B (zh) 2010-12-30 2011-01-31 一种面向显示终端的视频尺寸转换系统与方法

Country Status (1)

Country Link
CN (1) CN102541494B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103248855A (zh) * 2012-02-07 2013-08-14 北京同步科技有限公司 基于固定机位的课程录制系统、视频处理装置和录课方法
CN103607629A (zh) * 2013-11-22 2014-02-26 乐视网信息技术(北京)股份有限公司 一种多媒体文件播放方法及电子终端
CN103838543A (zh) * 2014-03-27 2014-06-04 成都睿明医疗信息技术有限公司 屏幕画面共享方法及其系统
CN103903221A (zh) * 2012-12-24 2014-07-02 腾讯科技(深圳)有限公司 一种图片生成方法、装置和系统
CN104038798A (zh) * 2014-05-09 2014-09-10 青岛海信电器股份有限公司 一种图像处理的方法、设备及系统
CN104301596A (zh) * 2013-07-11 2015-01-21 炬芯(珠海)科技有限公司 一种视频处理方法及装置
CN105898175A (zh) * 2014-09-18 2016-08-24 青岛海尔电子有限公司 一种模板文件的制作方法和装置
CN106791483A (zh) * 2016-12-20 2017-05-31 北京小米移动软件有限公司 图像传输方法及装置、电子设备
CN108055568A (zh) * 2017-12-07 2018-05-18 北京奇虎科技有限公司 一种电子设备中的视频播放方法和装置
CN108898604A (zh) * 2018-06-28 2018-11-27 上海连尚网络科技有限公司 用于处理图像的方法和设备
CN108986117A (zh) * 2018-07-18 2018-12-11 北京优酷科技有限公司 视频图像分割方法及装置
CN109040780A (zh) * 2018-08-07 2018-12-18 北京优酷科技有限公司 一种视频处理方法及服务器
CN109117813A (zh) * 2018-08-24 2019-01-01 北京新界教育科技有限公司 视频处理方法及装置
CN109690471A (zh) * 2016-11-17 2019-04-26 谷歌有限责任公司 使用取向元数据的媒体渲染
CN110611787A (zh) * 2019-06-10 2019-12-24 青岛海信电器股份有限公司 一种显示器及图像处理方法
CN110708606A (zh) * 2019-09-29 2020-01-17 新华智云科技有限公司 一种智能剪辑视频的方法
CN111523403A (zh) * 2020-04-03 2020-08-11 咪咕文化科技有限公司 图片中目标区域的获取方法及装置、计算机可读存储介质
CN111815645A (zh) * 2020-06-23 2020-10-23 广州筷子信息科技有限公司 一种广告视频画面裁剪的方法和系统
CN112423021A (zh) * 2020-11-18 2021-02-26 北京有竹居网络技术有限公司 视频的处理方法、装置、可读介质和电子设备
CN112929693A (zh) * 2021-01-26 2021-06-08 广州欢网科技有限责任公司 视频展示方法、装置及设备、存储介质
WO2022116772A1 (zh) * 2020-12-02 2022-06-09 北京有竹居网络技术有限公司 视频裁剪方法、装置、存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1632748A (zh) * 2003-12-23 2005-06-29 财团法人资讯工业策进会 动态调整视窗元件大小与位置的方法
CN1858843A (zh) * 2005-08-12 2006-11-08 深圳华为移动通信技术有限公司 移动终端中图像自适应缩放的系统及其方法
CN101242474A (zh) * 2007-02-09 2008-08-13 中国科学院计算技术研究所 一种照片在小尺寸屏幕设备上的动态视频浏览方法
CN101853158A (zh) * 2010-05-11 2010-10-06 中兴通讯股份有限公司 Widget窗口调整的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1632748A (zh) * 2003-12-23 2005-06-29 财团法人资讯工业策进会 动态调整视窗元件大小与位置的方法
CN1858843A (zh) * 2005-08-12 2006-11-08 深圳华为移动通信技术有限公司 移动终端中图像自适应缩放的系统及其方法
CN101242474A (zh) * 2007-02-09 2008-08-13 中国科学院计算技术研究所 一种照片在小尺寸屏幕设备上的动态视频浏览方法
CN101853158A (zh) * 2010-05-11 2010-10-06 中兴通讯股份有限公司 Widget窗口调整的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHAOKE PEI,ET AL.: "《Intelligent Information Technology Application》", 22 November 2009 *

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103248855A (zh) * 2012-02-07 2013-08-14 北京同步科技有限公司 基于固定机位的课程录制系统、视频处理装置和录课方法
CN103903221A (zh) * 2012-12-24 2014-07-02 腾讯科技(深圳)有限公司 一种图片生成方法、装置和系统
CN103903221B (zh) * 2012-12-24 2018-04-27 腾讯科技(深圳)有限公司 一种图片生成方法、装置和系统
CN104301596A (zh) * 2013-07-11 2015-01-21 炬芯(珠海)科技有限公司 一种视频处理方法及装置
CN103607629A (zh) * 2013-11-22 2014-02-26 乐视网信息技术(北京)股份有限公司 一种多媒体文件播放方法及电子终端
CN103607629B (zh) * 2013-11-22 2017-02-08 乐视网信息技术(北京)股份有限公司 一种多媒体文件播放方法及电子终端
CN103838543A (zh) * 2014-03-27 2014-06-04 成都睿明医疗信息技术有限公司 屏幕画面共享方法及其系统
CN104038798A (zh) * 2014-05-09 2014-09-10 青岛海信电器股份有限公司 一种图像处理的方法、设备及系统
CN104038798B (zh) * 2014-05-09 2017-12-19 青岛海信电器股份有限公司 一种图像处理的方法、设备及系统
CN105898175A (zh) * 2014-09-18 2016-08-24 青岛海尔电子有限公司 一种模板文件的制作方法和装置
CN109690471A (zh) * 2016-11-17 2019-04-26 谷歌有限责任公司 使用取向元数据的媒体渲染
CN106791483A (zh) * 2016-12-20 2017-05-31 北京小米移动软件有限公司 图像传输方法及装置、电子设备
CN106791483B (zh) * 2016-12-20 2020-07-10 北京小米移动软件有限公司 图像传输方法及装置、电子设备
CN108055568A (zh) * 2017-12-07 2018-05-18 北京奇虎科技有限公司 一种电子设备中的视频播放方法和装置
CN108898604A (zh) * 2018-06-28 2018-11-27 上海连尚网络科技有限公司 用于处理图像的方法和设备
CN108986117A (zh) * 2018-07-18 2018-12-11 北京优酷科技有限公司 视频图像分割方法及装置
CN108986117B (zh) * 2018-07-18 2021-06-04 阿里巴巴(中国)有限公司 视频图像分割方法及装置
CN109040780A (zh) * 2018-08-07 2018-12-18 北京优酷科技有限公司 一种视频处理方法及服务器
CN109117813A (zh) * 2018-08-24 2019-01-01 北京新界教育科技有限公司 视频处理方法及装置
CN110611787A (zh) * 2019-06-10 2019-12-24 青岛海信电器股份有限公司 一种显示器及图像处理方法
US11856322B2 (en) 2019-06-10 2023-12-26 Hisense Visual Technology Co., Ltd. Display apparatus for image processing and image processing method
CN110708606A (zh) * 2019-09-29 2020-01-17 新华智云科技有限公司 一种智能剪辑视频的方法
CN111523403A (zh) * 2020-04-03 2020-08-11 咪咕文化科技有限公司 图片中目标区域的获取方法及装置、计算机可读存储介质
CN111523403B (zh) * 2020-04-03 2023-10-20 咪咕文化科技有限公司 图片中目标区域的获取方法及装置、计算机可读存储介质
CN111815645A (zh) * 2020-06-23 2020-10-23 广州筷子信息科技有限公司 一种广告视频画面裁剪的方法和系统
CN111815645B (zh) * 2020-06-23 2021-05-11 广州筷子信息科技有限公司 一种广告视频画面裁剪的方法和系统
CN112423021A (zh) * 2020-11-18 2021-02-26 北京有竹居网络技术有限公司 视频的处理方法、装置、可读介质和电子设备
US11922597B2 (en) 2020-11-18 2024-03-05 Beijing Youzhuju Network Technology Co., Ltd. Video processing method and apparatus, readable medium, and electronic device
WO2022116772A1 (zh) * 2020-12-02 2022-06-09 北京有竹居网络技术有限公司 视频裁剪方法、装置、存储介质及电子设备
CN112929693A (zh) * 2021-01-26 2021-06-08 广州欢网科技有限责任公司 视频展示方法、装置及设备、存储介质

Also Published As

Publication number Publication date
CN102541494B (zh) 2016-01-06

Similar Documents

Publication Publication Date Title
CN102541494A (zh) 一种面向显示终端的视频尺寸转换系统与方法
US9298986B2 (en) Systems and methods for video processing
US8345102B2 (en) Image processing system and method for object tracking
Luo et al. Towards extracting semantically meaningful key frames from personal video clips: from humans to computers
US8466913B2 (en) User interface for accessing virtual viewpoint animations
US8154633B2 (en) Line removal and object detection in an image
US8073190B2 (en) 3D textured objects for virtual viewpoint animations
WO2017131071A1 (ja) 仮想環境構築装置、映像提示装置、モデル学習装置、最適奥行き決定装置、それらの方法、およびプログラム
US11956546B2 (en) Selecting spectator viewpoints in volumetric video presentations of live events
CN102257827B (zh) 从图像创建深度图
CN103609105A (zh) 用于生成用于显示器的信号的方法和设备
EP2643972A1 (en) Improved method and system for creating three-dimensional viewable video from a single video stream
EP4072147A1 (en) Video stream processing method, apparatus and device, and medium
CN105763829A (zh) 一种图像处理方法及电子设备
CN107945255A (zh) 一种虚拟人物表情驱动方法及系统
CN201674596U (zh) 一种电视机及电视机网络系统
CN106231349A (zh) 主播类互动平台服务器场景切换方法及其装置、服务器
CN102455906B (zh) 播放器皮肤变换的方法和系统
CN112287848A (zh) 基于直播的图像处理方法、装置、电子设备和存储介质
CN112492231A (zh) 远程交互方法、装置、电子设备和计算机可读存储介质
CN106231411A (zh) 主播类互动平台客户端场景切换、加载方法及装置、客户端
Kiess et al. SeamCrop: Changing the size and aspect ratio of videos
CN109523297A (zh) 一种体育比赛中实现虚拟广告的方法
JP2017103613A (ja) 情報取得装置、情報取得方法及び情報取得プログラム
CN108419127A (zh) 一种预防儿童近视的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160106

Termination date: 20190131

CF01 Termination of patent right due to non-payment of annual fee