CN106162363B - 传输视频的方法和装置 - Google Patents

传输视频的方法和装置 Download PDF

Info

Publication number
CN106162363B
CN106162363B CN201510207760.4A CN201510207760A CN106162363B CN 106162363 B CN106162363 B CN 106162363B CN 201510207760 A CN201510207760 A CN 201510207760A CN 106162363 B CN106162363 B CN 106162363B
Authority
CN
China
Prior art keywords
human eye
video frame
mass
caching
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510207760.4A
Other languages
English (en)
Other versions
CN106162363A (zh
Inventor
陈宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Shanghai Bell Co Ltd
Original Assignee
Nokia Shanghai Bell Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Shanghai Bell Co Ltd filed Critical Nokia Shanghai Bell Co Ltd
Priority to PCT/IB2016/000262 priority Critical patent/WO2016139532A1/en
Publication of CN106162363A publication Critical patent/CN106162363A/zh
Application granted granted Critical
Publication of CN106162363B publication Critical patent/CN106162363B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4728End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440263Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the spatial resolution, e.g. for displaying on a connected PDA

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明提供了一种在通信设备中用于传输视频的方法和装置。包括:从视频服务器接收编码后的视频帧;对接收到的视频帧进行解码;对解码后的视频帧进行缓存;从用户设备接收人眼追踪信息;基于所述人眼追踪信息,确定预测的人眼注视的第一区域;以第一质量对所述第一区域中的缓存的视频帧进行重编码,以及以第四质量对所述区域之外的缓存的视频帧进行重编码,其中所述第一质量优于所述第四质量;将重编码后的视频帧发送至所述用户设备。

Description

传输视频的方法和装置
技术领域
本发明一般地涉及通信系统,特别地,涉及基于人眼追踪技术的视频传输。
背景技术
对人眼的研究可以追溯到很久以前,甚至早于镜子的发明。这一方向最重要的研究成果是发现视网膜的结构。视网膜覆盖在眼球的后部,连接晶状体和神经。在视网膜上有成百上千万的视觉感光细胞,这其中分为两种,杆状细胞和锥状细胞。锥状细胞比杆状细胞小,但对视觉来说更重要。大部分锥状细胞都位于黄斑区域,一个靠近盲点的地方。视网膜上一共有大约九千万个杆状细胞和四百五十万个锥状细胞。杆状细胞主要负责夜晚或弱光环境下的视觉且杆状细胞无法区分颜色。而锥状细胞负责光照条件较好的环境下的视觉。而在普通室内光线下,锥状和杆状细胞都有可能起左右。另外杆状细胞需要30秒左右才能适应光线强弱的变化,要远远慢于锥状细胞,因此在观看视频的时候,主要是锥状细胞起作用。
视觉感光细胞在视网膜上的分布是不均匀的。比如说杆状细胞,密度最大的地方大约在距离视网膜中心20度的区域,并随着角度的增加而逐渐衰减。而锥状细胞基本都位于视网膜的中心,锥状细胞集中的地方叫做视觉小凹,大约只有1.5mm宽,这一点点区域正是人类视觉的核心区域,有趣的是,在视觉小凹上没有杆状细胞。杆状细胞和锥状细胞在视网膜上的分布如图1所示。人类的视觉就这样被囚禁在了这个只有1~2度的小小范围内,每次只能看清楚1~2度的事物,也就是说人类的视觉是很有限的。可为什么人们平时并不会注意到这一点呢?因为人的眼球总是在转动,人的大脑会将一段时间看到的东西合成在一起,形成一幅完整的画面。
基于以上的发现,人们会很容易想到,在传输视频的时候,如果只传输人眼注视的区域,就会节省很大的资源。然而问题是,人眼移动的速度非常快,约为每秒钟400度。这就要求系统要在极短的时间内作出响应。例如,以目前的平板电脑来看,人眼从一端移动到另一段,只需要几十毫秒。因此人眼注视区域的识别,追踪和响应,必须要在几十毫秒内完成。这对现有的通信系统带来了很大的困难,大部分系统都无法保证如此低的时延。因此,可以把关注点放在下一代通信系统5G上。5G通信系统大约会在2020年部署,会提供更高的速率和更短的时延。这些重要的技术改进对应运基于人眼位置的视频传输至关重要,然而一些重要的技术难题仍然有待解决。
发明内容
经过一代又一代科学家的不懈努力,人眼的视觉特性与图像传输之间的关系逐渐明朗。在论文“Robert-Inacio,F.;Scaramuzzino,R.;Stainer,Q.;Kussener-Combier,E.,Biologically inspired image sampling for electronic eye,Biomedical Circuitsand Systems Conference(BioCAS),2010,pages:246-249”中,作者针对电子眼提出了一种图像采集方案。这一方案基于一种六边形结构进行采样,六边形的大小决定了画面的精细程度,六边形随着采样区域到视觉中心距离的增加而增大。在另一篇论文“Laura MuirIain,Iain Richardson,Steven Leaper,Gaze Tracking and Its Application to VideoCoding for Sign Language,Picture Coding Symposium 2003,pages 32-325”中,作者研究了画面中哪些元素更容易被人所注视。Mohsen M.在他的文章“Mohsen M.Farid,FatihKurugollu,Fionn D.Murtaghk,Adaptive wavelet eye-gaze-based video compression,Proc.SPIE 4877,Opto-Ireland 2002:Optical Metrology,Imaging,and MachineVision,255(March 17,2003)”提出了一种基于人眼焦点追踪的实时视频传输系统。在这一系统中,系统根据人眼焦点的位置对视频按照子块进行编码。但是这一系统是在实验室中在几台计算机之间实现了,没有考虑到真实网络中的某些限制,而这些限制会导致时延的增加,以及时延的抖动,这些反而是实现人眼追踪视频传输系统的主要障碍。目前对人眼视觉方面的研究,主要的成果发表于论文“Robert-Inacio,F.;Scaramuzzino,R.;Stainer,Q.;Kussener-Combier,E.,Biologically inspired image sampling for electroniceye,Biomedical Circuits and Systems Conference(BioCAS),2010,pages:246-249”,不过这篇论文并没有考虑到人眼的转动,也没有考虑到时延方面的影响。
在5G中应用基于人眼追踪的视频传输,一种可能的方案是,用户设备向基站反馈人眼焦点的位置信息,基站将此信息转发到核心网络,再上传到视频服务器;视频服务器根据人眼追踪的信息,对视频进行编码,然后将编码后的视频发到移动网络,进入基站后,由基站转发给用户设备。这样的方案最大的问题是时延。一般的网络架构如图2所示。基于这样的架构,本发明的发明人对总的时延进行分析,细分的项目总结于表1。从表1可以看出,基于这样的架构,系统的时延大约为106ms。如果使用频率更高的人眼追踪器,也许可以减少时延,但即便这样,总的时延仍然是难以接受的。因此需要对端到端的时延进行优化,尤其是网络内的时延。
表1时延分析
基于上述考量,本发明的发明目的在于提供基于人眼追踪的视频传输系统,该系统能够减少系统时延并且节省资源。
根据本发明的一个方面,提供了一种在通信设备中用于传输视频的方法,所述方法包括以下步骤:从视频服务器接收编码后的视频帧;对接收到的视频帧进行解码;对解码后的视频帧进行缓存;从用户设备接收人眼追踪信息;基于所述人眼追踪信息,确定预测的人眼注视的第一区域;以第一质量对所述第一区域中的缓存的视频帧进行重编码,以及以第四质量对所述区域之外的缓存的视频帧进行重编码,其中所述第一质量优于所述第四质量;将重编码后的视频帧发送至所述用户设备。
在一个例子中,所述方法还包括以下步骤:基于缓存的视频帧和所述人眼追踪信息,确定预测的人眼注视的第二区域;以及以第二质量对所述第二区域中的缓存的视频帧进行重编码,其中所述第一质量优于所述第二质量,所述第二质量优于所述第四质量。
在一个例子中,所述方法还包括以下步骤:基于缓存的视频帧和所述人眼追踪信息,确定预测的人眼扫视区域;以及以第三质量对所述人眼扫视区域中的缓存的视频帧进行重编码,其中所述第一质量优于所述第三质量,所述第三质量优于所述第四质量。
根据本发明的另一个方面,提供了一种在通信设备中用于传输视频的方法,所述方法包括以下步骤:
-从视频服务器接收编码后的视频帧;
-对接收到的视频帧进行解码;
-对解码后的视频帧进行缓存;
-从用户设备接收人眼追踪信息;
-基于所述人眼追踪信息,确定人眼状态;
-如果所述人眼状态为注视状态,则使用分辨率y对缓存的视频帧进行重编码;
其中t∈[t1,+∞),x表示所述用户设备的屏幕上的一点的位置,g(x)表示从所述 点至焦点中心的距离,t1表示系统时延,s表示所述焦点的直径,从方 程中获取,以及arg为用于根据输入公式计算适合的x的函数;
-如果所述人眼状态为扫视状态,则使用分辨率y对缓存的视频帧进行重编码;
其中Δx表示人眼追踪器的分辨率,v表示人眼运动速度,x表示所述用户 设备的屏幕上的一点的位置,f(x)表示从所述点至估计的人眼运动轨迹的最小距离,g(x)表示从所述点至预测的注视区域i的中心 的距离,ki≤1为用于控制所述预测的注视区域i的分辨率的参数;
-将重编码后的视频帧发送至所述用户设备。
本发明的各个方面将通过下文中的具体实施例的说明而更加清晰。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更加明显:
图1示出了杆状细胞和锥状细胞在视网膜上的分布示意图;
图2示出了基于人眼追踪的视频传输的一般的网络架构图;
图3示出了一张相同可读性的图表;
图4示出了视觉的分辨力的示意图;
图5示出了根据本发明的一个实施例的基于人眼追踪的视频传输系统的示意图;
图6示出了根据本发明的一个实施例的基于人眼追踪技术传输视频的方法流程图;以及
图7示出了适于人眼的视频信息的示意图。
在图中,相同或类似的附图标记表示相同或相对应的部件或特征。
具体实施方式
首先,对人的视觉系统描述如下。
人类的视觉分辨能力主要和锥状细胞的密度有关,这一假设被大部分学术研究所采纳。当然,还有一些其它因素会影响人的视觉分辨力,比如神经节细胞的数量,因为多个视觉感光细胞会连接到一个神经节细胞上,并且越靠近视网膜边缘,一个神经节细胞连接的视觉感光细胞的数量就越多。鉴于问题的复杂性,人的视觉分辨率主要还是通过实验来测定。在论文“Anstis SM.A chart demonstrating variations in acuity with retinalposition(Letter).Vision Res.1974;14:589-592”中,作者给出了人眼视觉分辨能力门限的公式和一张相同可读性的图表。如图3所示,当人眼注视这张图表的中心,所有的字母尽管大小不同,但它们都有相同的可读性。这在另一方面证明了人眼中心区域的视觉要远远好于边缘。Anstis给出的视觉门限公式如下:
y=0.046x-0.031 (1)
其中x代表视网膜的某一点到中心小凹的角度,单位是度。Anstis指出,公式中的负数项,可能是由实验误差造成的,因此这里使用通用的公式参数。考虑到信息量,人眼视觉的分辨率可以表示为门限的倒数而其中的变量是视网膜上某一点到中心小凹的角度的平方,即与面积成正比。公式如下:
当人观察一段视频,或随便某些景物时,人眼的行为过程包括两种状态,扫视和注视,并且两者是交替进行的。注视的焦点从一处移到另一处后,人眼需要一段时间适应,同时也需要积攒足够的光线以便看清楚。这意味着,如果一段视频的画面不发生改变,人眼在移动到这一画面时,需要一段时间的预热,当人刚刚转动到某个新的焦点的刹那,是难以识别画面的,尽管预热的时间非常短,但这一过程却很重要。因此人眼观察事物主要受到两个因素的影响,时间和角度。
在研究眼球震颤疾病的时候,人们发现,人的视觉能力与时间呈现某种指数关系。具体的论述发表于“Mario Cesarelli,Paolo Bifulco,Luciano Loffredo,MarcelloBracale,Relationship between visual acuity and eye position variabilityduring foveations in congenital nystagmus,Documenta Ophthalmologica,July2000,Volume 101,Issue 1,pp 59-72”。将这一结论和前面介绍的视觉与角度的关系相结合,最终可以得到一个新的视觉分辨力模型:
这里t代表画面进入视觉小凹的时间,其中33.3是Mario Cesarelli论文中定义的参数,单位是毫秒。如果设定a1=0.046,a2=a3=0,在0~100ms内考察距视网膜中心小凹2~15度的范围的视觉分辨力,可以基于公式(3)绘制出图4。视觉的分辨力随着时间的推移而增加,但几十毫秒以后增加的就不那么明显了。主导视觉分辨力的仍然是角度,在8度以外,视觉分辨力的衰减十分明显。
人眼的转动可以用一个两步模型表示,包括注视和扫视过程。在扫视的时候,人的视觉分辨力非常低,因为人眼运动的速度可达每秒400度。因此注视的过程更加重要一些。对两状态的模型来说,马尔可夫过程是较好的建模方法。另外,扫视的过程较为模式化,可以用三个阶段来概括:初始准备,快速转动和最终调整,其中第二步取决于目标点到当前注视位置的角度。综合以上,人眼扫视所需的时间可以表示为:
D(r)=δ1+S(r)+δ2 (4)
其中r是屏幕的尺寸,δ1是准备过程的时延,δ2是最终调整所需的时间,而S(r)是第二步的时延。通常总的时延在20ms到200ms之间。建立这样的模型的意义是,人眼在扫视的时候分辨力较低,因此也较有可能节省视频传输所需的资源。
注视过程的时间可以用一个对数正太或指数分布建模,详见“ArthurLugtigheid,Distributions of fixation durations and visual acquisition rates,Lugtigheid,A.J.P.,2007”。持续时间与画面内容有关,不过通常在数百毫秒左右。这就意味着人眼1/3的时间都不是用来注视的,这就有可能节省30%的资源。
基于以上描述的人的视觉系统以及新的视觉分辨力模型,将在下文中对本发明的各实施例进行详细描述。
参照图5,基于人眼追踪的视频传输系统包括视频服务器101,3个通信设备102a,102b和102c,以及用户设备103。通信设备可以是例如基站或eNode B等。用户设备可以是例如手机或平板电脑等。
以下将以通信设备102a为主小区(Pcell),通信设备102b和102c分别为从小区(Scells)为例,对根据本发明的一个实施例的基于人眼追踪技术传输视频的方法进行描述。参照图6,在步骤S201中,Pcell 102a从视频服务器101处接收编码后的视频帧。然后,在步骤S202中,Pcell 102a对接收到的视频帧进行解码。例如,视频帧可以通过视频服务器101中的低解码复杂度的编码器进行编码,从而使得Pcell 102a能够更容易地进行转码(也即,解码和再编码)。接着,在步骤S203中,Pcell 102a对解码后的视频帧进行缓存。
此外,在步骤S204中,Pcell 102a从用户设备103处接收人眼追踪信息。人眼追踪信息可以包括例如人眼焦点位置信息和/或人眼移动方向信息。由于人眼运动较为模式化,包括注视和扫视过程,因此当扫视运动刚开始时,可以对注视区域进行预测。扫视运动具有发射特性,而在发射区域中感兴趣的注视区域通常是可以预测的,例如通常为其中的运动物体,人物,色彩鲜明的目标物等。因此,基于缓存的视频帧和人眼追踪信息,在步骤S205中,Pcell 102a确定至少一个预测的人眼注视区域。例如,Pcell 102a可以确定两个预测的人眼注视区域,例如,预测的人眼注视的第一区域和预测的人眼注视的第二区域。
对于两个预测的人眼注视区域,在步骤S206中,Pcell 102a以第一质量对第一区域中的缓存的视频帧进行重编码,以第二质量对第二区域中的缓存的视频帧进行重编码,以及以第四质量对第一和第二区域之外的区域中的缓存的视频帧进行重编码。有利地,第一质量和第二质量要优于第四质量。第一质量可以等同于第二质量,或者如果第一区域更接近于人眼,那么第一质量也可以优于第二质量。此处的质量可以例如是分辨率。
此外,Pcell 102a还可以基于缓存的视频帧和人眼追踪信息,确定预测的人眼扫视区域。对于该人眼扫视区域,Pcell 102a以第三质量对该人眼扫视区域中的缓存的视频帧进行重编码。有利地,第一质量和第二质量要优于第三质量,第三质量要优于第四质量。
然后,在步骤S207中,Pcell 102a将重编码后的视频帧发送至用户设备103。
对于多小区传输的场景,例如COMP,Pcell 102a会发送视频内容至Scells 102b和102c。在一个例子中,Pcell 102a可以将解码后的视频帧分别发送至Scells 102b和102c。在另一个例子中,Pcell 102a在接收到来自视频服务器101的编码后的视频帧后,可以直接将编码后的视频帧发送至Scells 102b和102c。Pcell 102a和Scells 102b,102c可以使用视频控制协议来确保视频帧以相同的方式被重编码,从而使得其能够在用户设备103处进行组合。视频控制协议可以定义视频编码器和解码器的类型及其版本。视频控制协议还可以定义编码器参数,例如方程式(3)中的量化配置和参数。视频控制协议还可以包括用于待被重编码的视频帧的定时信息。此外,对于每次传输,Pcell 102a还将发送人眼追踪信息至Scells 102b和120c。然后,每个小区基于该信息,能够进行相同的视频重编码。
此外,对于复杂度,视频内容被分发给相关的小区并且解码和缓存一段时间以吸收延时变化,因此,基于人眼追踪的视频编码器仅需要执行编码过程,而不需要转码(解码后再编码)。由于解码后的视频内容将被缓存一段时间,例如1秒,因此这对于平滑解码和编码的计算需求是非常有用的。
此外,可以使用一个缩短的帧结构来进行传输,该帧结构的颗粒度为一个时隙,也即0.5ms。这可以将一次传输加上一次重传的时延从16ms减少到8ms。假设视频重编码的时延可以减少到5ms并且基站之间信令的时延可以减少到2ms,那么系统的总时延将会是25ms。进一步地,可能的时延减少还可以包括缩短HARQ重传周期,减少重编码时延和人眼追踪处理时延。
在另一个实施例中,在接收到来自用户设备103的人眼追踪信息后,Pcell 102a基于该人眼追踪信息确定人眼状态。
如果人眼状态为注视状态,则Pcell 102a使用以下分辨率y对缓存的视频帧进行重编码;
其中t∈[t1,+∞),x表示用户设备103的屏幕上的一点的位置,g(x)表示从该点至焦点中心的距离,t1表示系统时延,s表示焦点的直径,从方程中获取,以及arg为用于根据输入公式计算适合的x的函数。
如果人眼状态为扫视状态,则Pcell 102a使用以下分辨率y对缓存的视频帧进行重编码:
其中Δx表示人眼追踪器的分辨率,v表示人眼运动速度,x表示用户设备 103的屏幕上的一点的位置,f(x)表示从该点至估计的人眼运动轨迹的最小距离,g(x)表示从该点至预测的注视区域i的中心的 距离,ki≤1为用于控制预测的注视区域i的分辨率的参数。例如,对于预测的人眼注视的第 一区域,k1可以设置为1。预测的第一区域是最接近先前焦点的区域。当人眼移过该预测的 第一区域后,预测的第二区域被升级为第一区域,以此类推。接着,移过的预测的区域被删 除。预测的人眼注视的区域可以是0个,1个或多个。
然后,Pcell 102a将重编码后的视频帧发送至用户设备103。
端到端的时延取决于多种因素。因此,可以进行自适应时延补偿。首先设置系统时延的门限,并基于方程式(3)设置高分辨率区域的大小。如果系统时延超过设置的门限,系统将切换至非人眼追踪模式。此外,可以使用类似的缓慢启动传输来吸收时延变化。错误地估计系统时延可能会影响用户体验,因此可以设置目标,例如配置应当在99%情况下起作用,然后基于端到端的时延统计,基站能够具有最优的配置。
下文中,基于提出的模型对增益的仿真进行描述。
基于提出的模型,也即方程式(3),对不同终端的增益进行测试。假定最大的端到端时延为25ms,假定手机与人眼之间的距离为60cm,人眼运动的方式为扫视->注视->扫视…。每次测试时选取手机屏幕上的一个随机位置,并且人眼从当前位置至下一位置进行扫视运动。在新的位置,基于论文“Adrian Staub,Ashley Benatar,Individualdifferences in fixation duration distributions in reading,PsychonomicBulletin&Review,December 2013,Volume 20,Issue 6,pp 1304-1311”,注视被模型化为ex-Guassian过程。
考虑端到端的时延以确保当人眼开始扫视运动时,观察者不会注意到视频质量的变化。这需要扩大高分辨率的区域。效果如图7中所示。25ms端到端时延对应于大约12°,其表现为2阶梯形的分辨率分布图。
仿真结果如下表2所示。从表中可以看出,对于不同类型的终端设备,本发明的实施例能够节省55.5%-80.6%的资源。更大的屏幕将具有更高的性能增益。
表2仿真结果
设备名称 屏幕尺寸 节省的资源
Iphone 6plus 5.5’ 55.5%
Ipad mini 7’ 63.8%
Amazon Kindle fire HDx 9.7’ 72.6%
Microsoft Surface 3 12’ 80.6%
在一个或多个示例性设计中,可以用硬件、软件、固件或它们的任意组合来实现本申请所述的功能。如果用软件来实现,则可以将所述功能作为一个或多个指令或代码存储在计算机可读介质上,或者作为计算机可读介质上的一个或多个指令或代码来传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括有助于计算机程序从一个地方传递到另一个地方的任意介质。存储介质可以是通用或专用计算机可访问的任意可用介质。这种计算机可读介质可以包括,例如但不限于,RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁存储设备,或者可用于以通用或专用计算机或者通用或专用处理器可访问的指令或数据结构的形式来携带或存储希望的程序代码模块的任意其它介质。并且,任意连接也可以被称为是计算机可读介质。例如,如果软件是使用同轴电缆、光纤光缆、双绞线、数字用户线(DSL)或诸如红外线、无线电和微波之类的无线技术来从网站、服务器或其它远程源传输的,那么同轴电缆、光纤光缆、双绞线、DSL或诸如红外线、无线电和微波之类的无线技术也包括在介质的定义中。
可以用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或者晶体管逻辑、分立硬件组件或用于执行本文所述的功能的任意组合来实现或执行结合本公开所描述的各种示例性的逻辑块、模块和电路。通用处理器可以是微处理器,或者,处理器也可以是任何常规的处理器、控制器、微控制器或者状态机。处理器也可以实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、一个或多个微处理器与DSP内核的结合,或者任何其它此种结构。
本领域普通技术人员还应当理解,结合本申请的实施例描述的各种示例性的逻辑块、模块、电路和算法步骤可以实现成电子硬件、计算机软件或二者的组合。为了清楚地表示硬件和软件之间的这种可互换性,上文对各种示例性的部件、块、模块、电路和步骤均围绕其功能进行了一般性描述。至于这种功能是实现成硬件还是实现成软件,取决于特定的应用和施加在整个系统上的设计约束条件。本领域技术人员可以针对每种特定应用,以变通的方式实现所描述的功能,但是,这种实现决策不应解释为背离本发明的保护范围。
本公开的以上描述用于使本领域的任何普通技术人员能够实现或使用本发明。对于本领域普通技术人员来说,本公开的各种修改都是显而易见的,并且本文定义的一般性原理也可以在不脱离本发明的精神和保护范围的情况下应用于其它变形。因此,本发明并不限于本文所述的实例和设计,而是与本文公开的原理和新颖性特性的最广范围相一致。

Claims (15)

1.一种在通信设备中用于传输视频的方法,所述方法包括以下步骤:
-从视频服务器接收编码后的视频帧;
-对接收到的视频帧进行解码;
-对解码后的视频帧进行缓存;
-从用户设备接收人眼追踪信息;
-基于所述人眼追踪信息,确定预测的人眼注视的第一区域;
-以第一质量对所述第一区域中的缓存的视频帧进行重编码,以及以第四质量对所述区域之外的缓存的视频帧进行重编码,其中所述第一质量优于所述第四质量;
-将重编码后的视频帧发送至所述用户设备。
2.根据权利要求1所述的方法,其特征在于,还包括以下步骤:
-基于缓存的视频帧和所述人眼追踪信息,确定预测的人眼注视的第二区域,所述人眼注视的第二区域与所述人眼注视的第一区域不同;
-以第二质量对所述第二区域中的缓存的视频帧进行重编码,其中所述第一质量优于所述第二质量,所述第二质量优于所述第四质量。
3.根据权利要求1所述的方法,其特征在于,还包括以下步骤:
-基于缓存的视频帧和所述人眼追踪信息,确定预测的人眼扫视区域;
-以第三质量对所述人眼扫视区域中的缓存的视频帧进行重编码,其中所述第一质量优于所述第三质量,所述第三质量优于所述第四质量。
4.根据权利要求1所述的方法,其特征在于,还包括以下步骤:
-将编码后的视频帧发送至一个或多个其他通信设备,或者将解码后的视频帧发送至所述一个或多个其他通信设备;
-将所述人眼追踪信息发送至所述一个或多个其他通信设备。
5.根据权利要求1所述的方法,其特征在于,所述人眼追踪信息包括人眼焦点位置信息和/或人眼移动方向信息。
6.根据权利要求1所述的方法,其特征在于,所述通信设备为基站或eNode B。
7.一种在通信设备中用于传输视频的方法,所述方法包括以下步骤:
-从视频服务器接收编码后的视频帧;
-对接收到的视频帧进行解码;
-对解码后的视频帧进行缓存;
-从用户设备接收人眼追踪信息;
-基于所述人眼追踪信息,确定人眼状态;
-如果所述人眼状态为注视状态,则使用分辨率y对缓存的视频帧进行重编码:
其中t∈[t1,+∞),x表示所述用户设备的屏幕上的一点的位置,g(x)表示从所述点至焦点中心的距离,t1表示系统时延,s表示所述焦点的直径,从方程中获取,以及arg为用于根据输入公式计算适合的x的函数;
-如果所述人眼状态为扫视状态,则使用分辨率y对缓存的视频帧进行重编码:
其中Δx表示人眼追踪器的分辨率,v表示人眼运动速度,x表示所述用户设备的屏幕上的一点的位置,f(x)表示从所述点至估计的人眼运动轨迹的最小距离,g(x)表示从所述点至预测的注视区域i的中心的距离,ki≤1为用于控制所述预测的注视区域i的分辨率的参数;
-将重编码后的视频帧发送至所述用户设备。
8.根据权利要求7所述的方法,其特征在于,所述人眼追踪信息包括人眼焦点位置信息和/或人眼移动方向信息。
9.一种在通信设备中用于传输视频的装置,所述装置包括:
接收器,其被配置为从视频服务器接收编码后的视频帧以及从用户设备接收人眼追踪信息;
解码器,其被配置为对接收到的视频帧进行解码;
缓冲器,其被配置为对解码后的视频帧进行缓存;
确定单元,其被配置为基于所述人眼追踪信息,确定预测的人眼注视的第一区域;
编码器,其被配置为以第一质量对所述第一区域中的缓存的视频帧进行重编码,以及以第四质量对所述区域之外的缓存的视频帧进行重编码,其中所述第一质量优于所述第四质量;
发射器,其被配置为将重编码后的视频帧发送至所述用户设备。
10.根据权利要求9所述的装置,其特征在于,所述确定单元进一步被配置为:基于缓存的视频帧和所述人眼追踪信息,确定预测的人眼注视的第二区域,所述人眼注视的第二区域与所述人眼注视的第一区域不同;以及
所述编码器进一步被配置为:以第二质量对所述第二区域中的缓存的视频帧进行重编码,其中所述第一质量优于所述第二质量,所述第二质量优于所述第四质量。
11.根据权利要求9所述的装置,其特征在于,所述确定单元进一步被配置为:基于缓存的视频帧和所述人眼追踪信息,确定预测的人眼扫视区域;以及
所述编码器进一步被配置为:以第三质量对所述人眼扫视区域中的缓存的视频帧进行重编码,其中所述第一质量优于所述第三质量,所述第三质量优于所述第四质量。
12.根据权利要求9所述的装置,其特征在于,所述发射器进一步被配置为:将编码后的视频帧发送至一个或多个其他通信设备,或者将解码后的视频帧发送至所述一个或多个其他通信设备;以及将所述人眼追踪信息发送至所述一个或多个其他通信设备。
13.根据权利要求9所述的装置,其特征在于,所述人眼追踪信息包括人眼焦点位置信息和/或人眼移动方向信息。
14.根据权利要求9所述的装置,其特征在于,所述通信设备为基站或eNode B。
15.一种在通信设备中用于传输视频的装置,所述装置包括:
接收器,其被配置为从视频服务器接收编码后的视频帧以及从用户设备接收人眼追踪信息;
解码器,其被配置为对接收到的视频帧进行解码;
缓冲器,其被配置为对解码后的视频帧进行缓存;
确定单元,其被配置为基于所述人眼追踪信息,确定人眼状态;
编码器,其被配置为如果所述人眼状态为注视状态,则使用分辨率y对缓存的视频帧进行重编码:
其中t∈[t1,+∞),x表示所述用户设备的屏幕上的一点的位置,g(x)表示从所述点至焦点中心的距离,t1表示系统时延,s表示所述焦点的直径,从方程中获取,以及arg为用于根据输入公式计算适合的x的函数;
以及如果所述人眼状态为扫视状态,则使用分辨率y对缓存的视频帧进行重编码:
其中Δx表示人眼追踪器的分辨率,v表示人眼运动速度,x表示所述用户设备的屏幕上的一点的位置,f(x)表示从所述点至估计的人眼运动轨迹的最小距离,g(x)表示从所述点至预测的注视区域i的中心的距离,ki≤1为用于控制所述预测的注视区域i的分辨率的参数;
发射器,其被配置为将重编码后的视频帧发送至所述用户设备。
CN201510207760.4A 2015-03-03 2015-04-27 传输视频的方法和装置 Active CN106162363B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/IB2016/000262 WO2016139532A1 (en) 2015-03-03 2016-01-26 Method and apparatus for transmitting a video

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201510094975 2015-03-03
CN201510094975X 2015-03-03

Publications (2)

Publication Number Publication Date
CN106162363A CN106162363A (zh) 2016-11-23
CN106162363B true CN106162363B (zh) 2019-07-02

Family

ID=57347896

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510207760.4A Active CN106162363B (zh) 2015-03-03 2015-04-27 传输视频的方法和装置

Country Status (1)

Country Link
CN (1) CN106162363B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115278195B (zh) * 2017-12-06 2024-04-16 杜比实验室特许公司 位置零时延
CN108551436A (zh) * 2018-03-12 2018-09-18 联想(北京)有限公司 数据传输方法和装置
CN110324679B (zh) * 2018-03-29 2022-03-22 阿里巴巴(中国)有限公司 一种视频数据处理方法及装置
US11295709B2 (en) 2018-06-04 2022-04-05 Beijing Boe Optoelectronics Technology Co., Ltd. Method for processing image data with reduced transmission bandwidth for display
CN114244884B (zh) * 2021-12-21 2024-01-30 北京蔚领时代科技有限公司 应用于云游戏的基于眼球跟踪的视频编码方法
CN116074585B (zh) * 2023-03-03 2023-06-23 乔品科技(深圳)有限公司 基于ai和注意力机制的超高清视频编解码方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6028608A (en) * 1997-05-09 2000-02-22 Jenkins; Barry System and method of perception-based image generation and encoding
CN103249352A (zh) * 2010-12-08 2013-08-14 索尼电脑娱乐公司 利用视线跟踪的自适应显示
CN103440038A (zh) * 2013-08-28 2013-12-11 中国人民大学 一种基于眼部识别的信息采集系统及其应用

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6028608A (en) * 1997-05-09 2000-02-22 Jenkins; Barry System and method of perception-based image generation and encoding
CN103249352A (zh) * 2010-12-08 2013-08-14 索尼电脑娱乐公司 利用视线跟踪的自适应显示
CN103440038A (zh) * 2013-08-28 2013-12-11 中国人民大学 一种基于眼部识别的信息采集系统及其应用

Also Published As

Publication number Publication date
CN106162363A (zh) 2016-11-23

Similar Documents

Publication Publication Date Title
CN106162363B (zh) 传输视频的方法和装置
EP3494695B1 (en) Single depth tracked accommodation-vergence solutions
CN111479112B (zh) 一种视频编码方法、装置、设备和存储介质
CN108270997A (zh) 注视控制的比特率
Li et al. Visual attention guided bit allocation in video compression
CN104067628B (zh) 用于支持对观看条件自适应的视频传输的方法和系统
CN109523617A (zh) 一种基于单目摄像机的光照估计方法
CN105340279A (zh) 用于近眼显示器的显示更新时间缩减
JP2016129416A (ja) 引き続くアプリケーションを容易にするためにビデオ画像パラメータを動的に適合させるための方法
CN105684453B (zh) 用于观看环境中视觉信息的自适应递送的观看条件估计
CN107909037B (zh) 信息输出方法和装置
CN107211081A (zh) 基于独立编码的背景更新的视频传输
Melo et al. Evaluation of Tone‐Mapping Operators for HDR Video Under Different Ambient Luminance Levels
JP7443325B2 (ja) フォービエイションおよびhdr
CN110365911A (zh) 一种移动终端拍摄照片的方法、移动终端及服务器
CN106231380A (zh) 依据网络速率调整视频广告的接收方法及系统
CN116074585B (zh) 基于ai和注意力机制的超高清视频编解码方法和装置
Li et al. Utility-driven joint caching and bitrate allocation for real-time immersive videos
CN116400601A (zh) 一种环境变化设备场景自适应控制方法、系统和存储介质
Xie et al. Perceptually optimized quality adaptation of viewport-dependent omnidirectional video streaming
Huang et al. A Survey on Video Streaming for Next-Generation Vehicular Networks
CN111258414A (zh) 用于调整屏幕的方法和装置
Mounts et al. Design of Quantizers for Real‐Time Hadamard‐Transform Coding of Pictures
Nguyen et al. Gaze tracking for region of interest coding in JPEG 2000
WO2016139532A1 (en) Method and apparatus for transmitting a video

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 201206 Pudong New Area Jinqiao Ning Road, Shanghai, No. 388

Applicant after: Shanghai NOKIA Baer Limited by Share Ltd

Address before: 201206 Pudong New Area Jinqiao Ning Road, Shanghai, No. 388

Applicant before: Shanghai Alcatel-Lucent Co., Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant