CN106105211A - 用于使用模型减少视频传递中的延时的系统和方法 - Google Patents

用于使用模型减少视频传递中的延时的系统和方法 Download PDF

Info

Publication number
CN106105211A
CN106105211A CN201580009931.0A CN201580009931A CN106105211A CN 106105211 A CN106105211 A CN 106105211A CN 201580009931 A CN201580009931 A CN 201580009931A CN 106105211 A CN106105211 A CN 106105211A
Authority
CN
China
Prior art keywords
data
information data
original video
video data
model information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201580009931.0A
Other languages
English (en)
Inventor
K·N·马修斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alcatel Lucent SAS
Original Assignee
Alcatel Lucent SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alcatel Lucent SAS filed Critical Alcatel Lucent SAS
Publication of CN106105211A publication Critical patent/CN106105211A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/18Image warping, e.g. rearranging pixels individually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • G06T7/344Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/70Media network packetisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/15Data rate or code amount at the encoder output by monitoring actual compressed data size at the memory before deciding storage at the transmission buffer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/537Motion estimation other than block-based
    • H04N19/54Motion estimation other than block-based using feature points or meshes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Abstract

一种用于产生低延时视频以便通过网络进行传输的系统和方法。该低延时视频可以通过对原始视频数据的选择部分进行建模并且将该模型的当前帧与该模型的之前帧进行比较以便估计该原始视频数据的选择部分而被创建。所估计的该原始视频数据的选择部分可以与其余的原始视频数据的其余(诸如背景图像)进行组合以便产生该低延时视频。模型数据和原始视频数据能够使用不同路径而通过网络进行传送,以便确保该模型数据尽可能快地进行传送,由此允许变形器在将该模型与原始视频数据进行组合之前有足够的时间对该模型数据进行处理。

Description

用于使用模型减少视频传递中的延时的系统和方法
技术领域
示例实施例总体上涉及无线通信,尤其涉及一种用于减少无线(和/或有线)网络上的双向视频对话中的延时的系统和/或方法。由于网络延迟和视频编/解码引起的延时所导致的抖动可以通过将视频图像的多个部分建模为该视频的低延时版本并且利用传统(大延时)视频对该低延时版本进行变形而被减少。
背景技术
在双向视频对话期间,网络延迟以及视频编/解码所需的时间可能会导致延时和抖动。还可能会发生由于明显的往返延迟所导致的可辨识暂停,这使得视频会议令人不快或感到困扰。
视频传输延迟由于以下的组合所导致:a)预编码画面分析,b)编码时间,c)被设计为对可变大小的压缩帧的传输进行平滑的大的先进先出(FIFO)缓冲器(VBV),和d)解码时间,以及相机获取和显示时间所导致的固有延迟。这些延迟可能共同作用而在视频会议的两侧进行传送和接收的视频中形成持续时间占到一秒钟的一大部分(高达半秒)的延迟。虽然该延迟的一些组成部分可以进行工程处理从而变得稍小,但是在包括图像质量、系统复杂度、处理功率以及对输入信号变化的易损性在内的多种因素之间存在着权衡。
网络传输时间是构成视频传输延迟的另一种延迟。网络传输时间问题可以包括传输延时和抖动的组合。由于视频以固定帧率以不同方式进行编码,所以每个帧在常规上必须在开始下一帧之前被接收并解码(否则最终图像中会出现错误)。出于该原因,在分组到达解码器之前引入了另外的缓冲延迟水平。如果缓冲数量被减少,则视频中由于抖动所导致的可辨识错误的频率会有所增加。减少网络延时和抖动的常规方法是使用更高服务质量(QoS)的网络路径(如果其存在),其例如可以在4G网络中提供。然而,这样的高QOS路径在网络资源和管理配置方面通常是相对有限且高成本的。
虽然音频流通常并不受到视频流所体验到的高延时问题的相同效应的影响,但是所接收到的音视频流可能会收到“口型同步”问题的影响,其中讲话人的图像与音频信道并非精确匹配。
近年来,已经形成了在人体的计算机分析中取得了很大进展。例如,公知的3D相机或2D图像加深度相机可以在小于一帧的时间内生成主体脸部的详细模型(使用超过100个脸部“界标(landmark)”)和骨骼身体位置。图1示出了常规技术的示例,其中人脸的原始图像100被指定以界标102(由1至86的标记数字所指示)。还如图2所示,依据常规方法,还可以从原始视频100收集模型信息从而使用该模型信息产生人脸104的模型。如图3所示,人体位置也可以通过使用该常规方法向人的骨骼关节指定界标而进行建模106。
图6示出了对二维物体进行变形和纹理映射的常规方法。特别地,二维物体500可以从原始图像中进行提取,并且图像500随后可以被形变为另一种形状(即,变形物体500a),其可以被适配至背景图像502上。变形物体500a的纹理也可以进行调节和/或与背景502进行混合(因此,产生经变形/纹理映射的图像500a)。经变形/纹理映射的图像500a也可以被称作“扭曲图像”。
发明内容
示例实施例提供了一种用于通过对视频画面的多个部分进行建模而减小无线网络上的双向视频对话中的延时的系统和方法。建模可以通过创建视频画面的少量形状信息来完成,上述信息仅对视频的一部分进行表述(或者可替换地,建模可以被用于整个视频)。该模型信息数据的传输可以通过低延时网络路径进行。可以使用变形来将以常规方式传送的(大延时)视频与该模型信息数据(其表述视频的一部分)进行融合从而创建最终的低延时视频。
至少一个实施例包括一种产生低延时视频的方法,包括由一个或多个处理器以逐个帧为基础对原始视频数据的选择部分进行建模以产生模型信息,并且将该原始视频数据和模型信息数据通过网络进行传送。
至少另一个实施例包括一种产生低延时视频的方法,包括接收原始视频数据和模型信息数据,该模型信息数据是以逐个帧为基础的原始视频数据的选择部分的模型信息,由一个或多个处理器基于该模型信息数据的当前帧以及该模型信息数据的一个或多个先前帧生成差异信息数据,并且基于该差异信息数据产生低延时视频。
至少另一个实施例包括一种系统,后者包括:相机,其被配置为生成原始视频数据以便通过网络的第一信道进行传输;和建模器,其被配置为以逐个帧为基础对该原始视频数据的所选择部分进行建模从而产生模型信息以便通过网络的第二信道进行传输,其中该第二信道具有比第一信道更高的服务质量(QoS)。
至少另一个实施例包括一种设备,包括变形器和控制器,后者被配置为使得该变形器接收原始视频数据和模型信息数据,该模型信息数据是以逐个帧为基础的原始视频数据的选择部分的模型信息,基于该模型信息数据的当前帧以及该模型信息数据的一个或多个先前帧生成差异信息数据,并且基于该差异信息数据产生低延时视频。
至少另一个实施例包括一种非瞬态计算机可读介质,其具有包括用于使得计算机执行以上所描述的任意方法的指令的程序。
至少另一个实施例涉及一种计算机程序,其适于执行之前所提到的方法实施例。
附图说明
示例实施例的以上和其它特征和优势将通过参考附图对示例实施例进行详细描述而是显而易见的。附图意在描绘处示例实施例而并不应当被解释为对权利要求的预期范围加以限制。除非明确指出,否则附图并不被认为依比例绘制。
图1是使用常规方法的人脸的原始视频图像,其具有针对该图像所指定的叠加界标;
图2是使用常规方法的人脸模型旁的原始视频图像的图像;
图3是使用常规方法的人的骨骼位置的模型;
图4A是依据示例实施例的用于产生低延时视频的系统;
图4B是依据示例实施例的用于产生低延时视频的另一个系统;
图4C是依据示例实施例的用于产生低延时视频的另一个系统;
图5是依据示例实施例的使用定义非重叠三角形区域的图像pel位置的人脸模型;
图6描绘了对二维图像进行变形和纹理映射的常规方法;
图7是依据示例实施例的产生低延时视频的方法的流程图;和
图8是依据示例实施例的产生低延时视频的方法的另一个流程图。
具体实施方式
虽然示例实施例支持各种修改和可替换形式,但是其实施例通过示例在附图中被示出并且将在这里被详细描述。然而,应当理解的是,并非意在将示例实施例限制为所公开的特定形式,而是与之相反,示例实施例要覆盖落入权利要求范围之内的所有修改、等同和替换形式。同样的数字在附图的描述中始终指代同样的要素。
在更为详细地讨论示例实施例之前,注意到一些示例实施例被描述为处理器或者方法被描绘为流程图。虽然流程图将操作表述为顺序处理,但是许多操作可以并行、同时或同步地执行。此外,操作的顺序可以重新排列。处理可以在它们的操作完成时终止,但是也可以具有并未包括在图中的另外的步骤。该处理可以对应于方法、功能、过程、子例程、子程序等。
以下所讨论的方法—其中的一些由流程图进行图示—可以由硬件、软件、固件、中间件、伪代码、硬件描述语言或者它们的任意组合来实施。当以软件、固件、中间件或伪代码实施时,用来执行必要任务的程序代码或代码分段可以被存储在机器或计算机可读介质中,诸如存储介质,诸如非瞬态存储介质。(多个)处理器可以执行该必要任务。
这里所公开的具体结构和功能细节出于描述示例实施例的目的而仅是代表性的。然而,本发明可以以许多可替换形式来体现而并不应当被理解为仅局限于这里所给出的实施例。
将要理解的是,虽然这里使用了术语第一、第二等来描述各种要素,但是这些要素并不应当被这些术语所限制。这些术语经被用来将一个要素与另一要素区分开来。例如,第一要素可以被称之为第二要素,并且类似地,第二要素可以被称之为第一要素,而并不背离示例实施例的范围。如这里所使用的,术语“和/或”包括一个或多个相关联的所列出事项的任意且全部的组合。
将要理解的是,当要素被称作被“连接”或“耦合”至另一个要素时,其能够直接连接或耦合至其它要素,或者可能存在中间要素。作为比较,当要素被称作“直接连接”或“直接耦合”至另一个要素时,并不存在中间要素。用来描述要素之间的关系的其它单词应当以同样的方式进行解释(例如,“处于…之间”相比“直接处于…之间”,“相邻”相比“直接相邻”,等等)。
术语在这里仅是出于描述特定实施例的目的被使用而并非意在作为示例实施例的限制。如这里所使用的,除非上下文明确另外指出,否则单数形式“一”、“一个”以及“这个”意在也包括复数形式。将要进一步理解的是,当在这里使用时,术语“包括”、“包含”、“包括有”和/或“包括了”指存在所提到的特征、整数、步骤、操作、要素和/或组件,但是并不排除存在或添加一个或多个其它特征、整数、步骤、操作、要素、组件和/或其群组。
还应当注意的是,在一些可替换实施方式中,所提到的功能/动作可以以图中所提到的以外的顺序发生。例如,根据所涉及的功能/动作,连续示出的两幅图实际上可以同时执行或者有时可以以逆序执行。
除非另外有所定义,否则这里所使用的全部术语(包括技术和科学术语)具有与示例实施例所属领域的技术人员所普遍理解的相同的含义。将要进一步理解的是,例如在普遍使用的字典中所定义的那些术语应当被解释为具有与它们在相关领域的环境中相一致的含义,而并不应当以理想化或过度正式的含义进行解释,除非这里明确如此定义。
示例实施例的多个部分和相对应的详细描述在软件或者对计算机存储器内的数据比特进行的运算的算法和符号表示形式的方面被给出。这些描述和表示形式是本领域技术人员通过其将其工作实质有效传递至本领域其它技术人员的描述和表示形式。作为这里所使用的术语并且如其一般所使用的,算法被认为是导致所期望结果的自洽式(self-consistent)序列。步骤是要求对物理量进行物理操控的那些步骤。通常,虽然并非必然如此,但是这些量采用能够被存储、传输、组合、比较以及以其它方式进行操控的光、电或磁信号的形式。已经多次证明,原则上处于普遍使用的理由而将这些信号称之为比特、数值、要素、符号、字符、项、数字等是便利的。
在以下描述中,将参考(例如,流程图形式的)动作以及操作的符号表示形式对说明性实施例进行描述,上述操作可以被实施为程序模块或功能处理,包括执行特定任务或实施特定抽象数据类型的例程、程序、对象、组件、数据结构等,并且可以使用现有网络部件处的现有硬件来实施。这样的现有硬件可以包括一个或多个中央处理器(CPU)、数字信号处理器(DSP)、应用特定集成电路、现场可编程门阵列(FPGA)计算机等。
然而应当牢记的是,所有这些和类似术语要与适当的物理量相关联并且仅是应用于这些量的便利标记。除非以其它方式特别指出,或者从本公开显而易见的,否则诸如“处理”或“计算”或“运算”或“确定”或“显示”等的术语是指计算机系统或类似电子计算设备对在计算机系统的寄存器和存储器内被表示为物理、电子量的数据进行操控并将其变换为其它数据的动作和处理,上述其它数据在计算机系统的存储器或寄存器或者其它这样的信息存储、传输或显示设备内类似地被表示为物理量。
而且还注意到,软件实施的示例实施例的方面通常在一些形式的程序存储介质上进行编码或者在一些类型的传输介质上实施。程序存储介质可以是任意的非瞬态存储介质,诸如磁性(例如,软盘或硬盘)或光学(例如,紧凑盘只读存储器或“CD ROM”),并且可以是只读的或随机访问的。类似地,传输介质可以是双绞线、同轴线缆、光纤,或者本领域已知的一些其它适当传输介质。示例实施例并不被任何给定实施方式的这些方面所限制。
图4A是依据示例实施例的用于产生低延时视频的系统。该系统可以包括视频相机200,其可以在时间t产生原始视频图像200。该原始视频可以被划分为两个基本路径以便通过网络204(其可以是无线网络)进行传输:1)正常路径206,其可以包括正常网络信道上的传统(大延时)视频数据,以及2)快速路径208,其可以包括在网络204的更快网络信道上的从原始视频202所收集的模型信息数据。该更快网络信道可以是与正常信道相比更高服务质量(QoS)的信道,这意味着该更快网络信道可以具有更高带宽,可以使用更大传输功率进行传送,可以以更大的传输速率进行传送,或者一般可能比正常信道更为可靠。正常路径206可以包括视频编码器210,其(使用诸如H.264的压缩标准)对原始视频的像素数据进行编码和压缩。可以作为先进先出(FIFO)缓冲器的压缩视频缓冲器212可以接收经编码的视频以便准备通过正常路径206传输原始视频数据。在接收侧,正常路径206可以包括FIFO压缩视频缓冲器214。来自压缩视频缓冲器214的缓冲视频数据可以被发送至视频解码器216,后者对原始视频数据进行解码和解压缩。延时Lt是原始视频数据202离开相机200并且在离开解码器216之前沿正常路径206行进的持续时间。因此,在时间t+Lt所解码的离开解码器的经解码的原始视频217是(最初经由相机200在时间t所捕捉的)原始视频的视频图像。
快速路径208可以包括建模处理器(建模器)218,其对原始视频202的像素数据进行分析以对原始视频数据指定界标(诸如图1所示的界标)。建模器218例如可以是脸部分析建模器,其聚焦于原始视频数据202中所可能包括的人脸。作为脸部分析建模器的替换,建模器218可以另外被设计为聚焦于整体原始视频数据202中的其它具体部分(人脸以外的,或者除了可能还聚焦于多个人脸之外)。
离开建模器218的模型信息220可以以多种形式进行传送。首先,该模型信息220可以是使用x/y轴坐标所描述的图像pel位置(即,x/y轴位置)。第二,模型信息220可以为使用x/y/z轴坐标的三维空间位置的形式,如果能够获得相机参数(分辨率、方位、焦距)的信息,则上述坐标能够使用基本几何形状而被转换为图像pel位置。第三,该模型信息220可以为脸部模型参数(其可以通过动画单元AU和形状单元SU使用公知方法进行定义,诸如在http://www.icg.isy.liu.se/candide/所定义的建模方法)的列表的形式,其能够被重新解释为面部界标的三维空间位置,后者随后被转换为图像pel位置。给定面部界标的位置,非重叠的三角形区域300n(其中n可以是从1至N的整数,其中N是三角形区域的总数)可以被用来定义人脸(例如,如果人的整个脸都被建模),如图5所示。图5中的每个三角形区域300n由三个图像pel位置302m所定义(其中m是从1至M的整数,其中M是图像pel位置的总数),以便对人的脸部区域进行完全建模。
建模器218可以将模型信息数据220输出至打包器222,后者有选择地仅对在处于人脸的整体模型信息数据220内所找到的涉及到人的嘴部形状的数据进行打包。打包器222可替换地可以对整体模型信息数据220中人的嘴部的形状以外的(或者除了人的嘴部形状之外还对)其它选择部分进行打包,诸如人的眼睛、其头部、手部或者人体其余部分的移动。此外,打包器222可以对所有涉及人脸或者甚至其整个身体的全部模型信息数据220进行打包(而人体之后的背景可能需要进行建模或者无需建模),所理解的是,针对由打包器222所打包并传送的更大数量的模型信息数据可能需要更大带宽的延迟周期(虽然模型信息通常明显小于IP分组的大小,并且因此可能被要求的任何附加带宽都将对于导致额外延迟具有相当微不足道的影响)。
离开打包器222的数据可以经由快速路径208在网络204上进行传送。快速路径208可以是与正常路径206相比更为可靠、更低延时的路径。此外,快速路径208并不包括编/解码器和视频缓冲器(不同于正常路径206),由此进一步提高了沿快速路径208的数据传输的速度。在快速路径208上传送的数据可以被拆包器224进行拆包,于是模型信息可以随后被发送至形状缓冲器228,经建模的形状信息可以在那里以先进先出(FIFO)的基础进行缓冲。由于存在与通过打包器222、快速路径208和拆包器224处理视频相关联的延时时间段lt,所以离开拆包器224的模型信息226在时间t+lt从拆包器224进行传送。应当理解的是,由于快速路径208可以比正常路径206更快地传送数据,并且由于在快速路径208上传送的数据总量可以小于在正常路径206上传送的数据量(由此减少了编/解码时间),所以延时lt(快速路径延时)可以小于延时Lt(正常路径延时)。形状FIFO228可以存储最近可用的模型信息232(对应于时间t+Lt)以便由变形处理器(变形器)230所使用。
非线性图像构造变形器230(使用变形/纹理映射的公知方法,诸如在TomasAkenine-Moller&Eric Haines的“Real-Time Rendering”第二版,2002(ISBN 1-56881-182-9,第5章,p.117-180)中所描述的方法)随后可以被用来产生低延时视频250(针对变形/纹理映射的示例参见图6)。低延时视频250是实际原始视频数据217与该原始视频的选择部分(在模型226、232的比较中找到的)的逐帧估计的融合。因此,变形器230的作用是通过使用利用建模信息数据所进行的当前和先前模型(或图像模型)的比较来生成视频数据的一部分的估计。特别地,变形器230通过将原始视频数据的先前图像(离开解码器216的图像(t+Lt)217)与有关原始图像的选择部分的信息进行组合而产生低延时视频250的每个逐帧低延时图像,上述信息通过确定关键脸部界标在一个或多个之前所建模图像(例如,离开缓冲器228的模型(t+Lt)232)与当前建模图像(离开拆包器224的模型(t+lt)226)中的位置之间的差异而获得。该原始数据的选择部分的差异信息仅允许逐帧图像的该选择部分(仅人的头部或者人的嘴唇)经由“扭曲”(变形和纹理映射)操作而进行估计,这产生了对应于当前脸部界标所定义的三角形区域的所估计pel位置的集合(参见以上所描述的关于图5对pel的讨论)。该“扭曲”操作(其常规地在计算机图形的纹理映射中被使用,其中源图像发生形变从而表示物体的表面)因此由起始和结束的三角形区域所定义,其可以被表示为对应于二维斜交连同二维转换一起的矩阵变换。变形器230因此将视频(经由使用模型信息数据)的估计部分与所解码的原始视频217进行组合从而产生低延时视频250。
图4B是依据示例实施例的用于产生低延时视频的另一个系统。图4B几乎与图4A相同,并且为此,出于简明的原因,这里不再对图4B的冗余要素进行描述。然而,图4B的实施例在视频解码器216之前并不包括视频缓冲器(作为比较,参见图4A的视频缓冲器214)。通过去除该缓冲器,与收集和排序视频数据分组(通过FIFO缓冲器的正常动作)相关联的延迟可以被避免。因此,视频数据从编码器210通过解码器216(沿正常路径206)的流动可以更快地进行,具有更小的整体延时。由于视频数据沿正常路径206的流动一般经历比沿快速路径208行进的模型信息数据更大的延时,所以经由去除缓冲器214(如图4A所示)而有所提高的视频数据传输的速度为低延时视频250的总体产生提供了更小的延时延迟。然而,视频250的整体延时的减小包括可能的权衡,因为去除缓冲器214在沿正常路径206的传播问题导致明显更多的错序视频数据分组实例到达解码器216的情况下(因为缓冲器214正常情况下将通过对所接收到的分组重新排序而减少抖动)可能使得视频250中并未被建模的部分的质量出现退化。但是,视频250中被建模的部分并不被抖动所影响,从而视频250的整体质量取决于预计有多少视频250被建模。
图4C是依据示例实施例的用于产生低延时视频的另一个系统。图4C几乎与图4B相同,并且为此出于简明的原因,这里不再对图4C的冗余要素进行描述。然而,图4C的实施例并不包括通过网络204行进的单独快速路径(参见图4B的快速路径208)。相反,打包器222通过正常路径206传送模型信息数据并且随后将其传送至拆包器224上。该实施例即使在网络204并未提供更为可靠的高服务质量(QoS)快速路径(类似于图4A/B的快速路径208)的情况下也允许对原始视频图像202的选择部分进行建模。通过去除快速路径,从打包器222所传送的模型信息数据更慢且不太可靠地到达变形器230。然而,由于模型信息数据可以是更小数量的数据信息(与通从编码器210过解码器216行进的视频数据相比),并且由于该模型信息并不经过编/解码器和视频缓冲器(不同于并未被建模的视频部分),所以模型信息数据仍然在视频数据之前到达变形器230。因此,该实施例仍然允许对低延时视频250的选择部分进行估计(其可以使用离开拆包器224的模型数据信息进行估计)。
图4C的实施例可选地可以包括处于视频解码器216上游的视频缓冲器(类似于图4A中的视频缓冲器214),以便进一步减小否则可能在低延时视频250中出现的抖动的可能性(在解码器216处接收到相当数量的错序视频数据的情况下)。
图7是依据示例实施例的产生低延时视频的方法的流程图。该方法可以包括(在图4A的建模器218)对原始视频数据的选择部分进行建模以产生模型信息数据(模型(t)220)的步骤S400。该建模以逐个帧的基础而完成。在步骤S402,原始视频数据和模型信息数据可以通过网络进行传送。原始视频数据和模型信息数据的传输可以在相同的网络信道上进行(如图4C中所示),或者通过两条单独信道进行(如图4A/B中所示)。在使用两条单独信道的情况下,模型信息数据的传输可以通过与被用来传送原始视频数据的信道相比具有更高QoS的信道进行发送。
图7是依据示例实施例的产生低延时视频的方法的另一个流程图。该方法包括(在变形器230)接收原始视频数据和模型信息数据的步骤S500,其中该模型信息数据可以是该原始视频数据的选择部分的模型(以逐个帧为基础)。该方法还可以包括(在变形器230)基于该模型信息数据的当前帧(模型(t+It)226)以及该模型信息数据的一个或多个先前帧(模型(t+Lt)232)生成差异信息数据的步骤S502。在步骤S504(在变形器230),低延时视频250可以基于该差异信息而产生。
如以上所提到的,图7和8的方法可以被修改从而对所有视频数据进行建模(也就是说,视频数据的选择部分可以包括所有视频数据)。
已经对示例实施例进行了描述,显然其可以以许多方式而有所变化。这样的变化并非被认为背离示例实施例的预期精神和范围,并且对于本领域技术人员而言将会显而易见的所有这样的修改都意在被包括在以下权利要求的范围之内。

Claims (10)

1.一种产生低延时视频的方法,包括:
由一个或多个处理器(218)以逐个帧为基础对原始视频数据(202)的选择部分进行建模以产生模型信息(220);并且
将该原始视频数据和模型信息数据通过网络(204)进行传送。
2.根据权利要求1所述的方法,其中:
该原始视频数据的传送通过该网络第一信道(206)完成,
该模型信息数据的传送通过该网络的第二信道(208)完成。
3.根据权利要求2所述的方法,其中该第二信道具有比第一信道更高的服务质量(QoS)。
4.根据权利要求2所述的方法,其中该第一信道和第二信道是相同的信道。
5.根据权利要求2所述的方法,进一步包括:
在通过该网络的第一信道传送该原始视频数据之前对该原始视频数据进行编码(210)和缓冲(212),
其中该模型信息数据在通过该网络的第二信道传送该模型信息数据之前并不进行编码和缓冲,
其中该原始视频数据的选择部分的建模包括:
对该原始视频数据的像素数据进行分析,
向该像素数据指定界标,
将该视频数据的选择部分划分为由图像pel位置所定义的一个或多个非重叠模型区域。
6.一种产生低延时视频的方法,包括:
接收原始视频数据(202)和模型信息数据(220),该模型信息数据是以逐个帧为基础的原始视频数据的选择部分的模型信息;
由一个或多个处理器(230)基于该模型信息数据的当前帧(226)以及该模型信息数据的一个或多个先前帧(232)生成差异信息数据;并且
基于该差异信息数据产生低延时视频(250)。
7.根据权利要求6所述的方法,其中产生该低延时视频进一步包括:
基于该差异信息数据对该原始视频数据的选择部分进行估计从而针对该视频数据的选择部分产生估计信息数据;并且
由一个或多个处理器将该估计信息数据与原始视频数据进行组合从而产生该低延时视频,
其中该模型信息数据包括一个或多个非重叠模型区域,其中的每一个均由图像pel位置所定义。
8.一种系统,包括:
相机(200),其被配置为生成原始视频数据(202)以便通过网络(204)的第一信道(206)进行传输;和
建模器(218),其被配置为以逐个帧为基础对该原始视频数据的所选择部分进行建模从而产生模型信息(220)以便通过网络的第二信道(208)进行传输,
其中该第二信道具有比第一信道更高的服务质量(QoS)。
9.一种设备,包括:
变形器(230);和
控制器(230),其被配置为使得该变形器
接收原始视频数据(202)和模型信息数据(220),该模型信息数据是以逐个帧为基础的原始视频数据的选择部分的模型信息,
基于该模型信息数据的当前帧(226)以及该模型信息数据的一个或多个先前帧(232)生成差异信息数据,并且
基于该差异信息数据产生低延时视频(250)。
10.根据权利要求9所述的设备,其中该控制器进一步被配置为:
基于该差异信息数据对该原始视频数据的选择部分进行估计从而针对该视频数据的选择部分产生估计信息数据;
将该估计信息数据与原始视频数据进行组合从而产生该低延时视频。
CN201580009931.0A 2014-02-25 2015-01-21 用于使用模型减少视频传递中的延时的系统和方法 Withdrawn CN106105211A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/188,868 2014-02-25
US14/188,868 US9258525B2 (en) 2014-02-25 2014-02-25 System and method for reducing latency in video delivery
PCT/US2015/012117 WO2015130412A1 (en) 2014-02-25 2015-01-21 System and method for reducing latency in video delivery using model

Publications (1)

Publication Number Publication Date
CN106105211A true CN106105211A (zh) 2016-11-09

Family

ID=52463166

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580009931.0A Withdrawn CN106105211A (zh) 2014-02-25 2015-01-21 用于使用模型减少视频传递中的延时的系统和方法

Country Status (6)

Country Link
US (1) US9258525B2 (zh)
EP (1) EP3111646A1 (zh)
JP (1) JP6328784B2 (zh)
KR (1) KR20160124891A (zh)
CN (1) CN106105211A (zh)
WO (1) WO2015130412A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108965889A (zh) * 2017-05-26 2018-12-07 Line株式会社 图像压缩方法、图像恢复方法及计算机可读记录介质
CN109302598A (zh) * 2018-09-30 2019-02-01 Oppo广东移动通信有限公司 一种数据处理方法、终端、服务器和计算机存储介质
CN112052074A (zh) * 2020-09-29 2020-12-08 上海兆芯集成电路有限公司 处理器建模系统及处理器建模方法
CN113411632A (zh) * 2020-03-17 2021-09-17 本田技研工业株式会社 信息处理装置、信息处理系统、信息处理方法以及存储介质

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10708545B2 (en) 2018-01-17 2020-07-07 Duelight Llc System, method, and computer program for transmitting face models based on face data points
WO2018105771A1 (ko) * 2016-12-07 2018-06-14 주식회사 이에스엠연구소 실시간 동영상 재생파일 전송장치 및 방법
US10225516B2 (en) 2017-06-23 2019-03-05 Cisco Technology, Inc. Latency mitigation through intelligent extrapolation in multimedia systems
US11200786B1 (en) 2018-04-13 2021-12-14 Objectvideo Labs, Llc Canine assisted home monitoring
GB2584637B (en) * 2019-06-03 2021-12-29 Surrey Satellite Tech Ltd Communication system and method
US11373406B2 (en) * 2019-06-28 2022-06-28 Intel Corporation Transmission, caching, and searching of video streams based on frame dependencies and content
US20240029345A1 (en) * 2019-11-18 2024-01-25 Wolfprint 3D Oü Methods and system for generating 3d virtual objects

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1732687A (zh) * 2002-12-30 2006-02-08 摩托罗拉公司 用于远程临场通信的方法、系统和装置
CN101103364A (zh) * 2004-11-17 2008-01-09 欧几里得发现有限责任公司 用来处理视频数据的装置和方法
CN102172026A (zh) * 2008-10-07 2011-08-31 欧几里得发现有限责任公司 基于特征的视频压缩

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02196585A (ja) * 1989-01-26 1990-08-03 Ricoh Co Ltd 音声信号通信装置
JPH05316491A (ja) * 1992-05-07 1993-11-26 Seiko Epson Corp 顔画像符号化方式
US5861920A (en) 1996-11-08 1999-01-19 Hughes Electronics Corporation Hierarchical low latency video compression
US7084877B1 (en) 2000-06-06 2006-08-01 General Instrument Corporation Global motion estimation for sprite generation
US6774869B2 (en) * 2000-12-22 2004-08-10 Board Of Trustees Operating Michigan State University Teleportal face-to-face system
US6771303B2 (en) * 2002-04-23 2004-08-03 Microsoft Corporation Video-teleconferencing system with eye-gaze correction
WO2010022351A2 (en) * 2008-08-22 2010-02-25 University Of Virginia Patent Foundation System and method for low bandwidth image transmission
US8633963B2 (en) * 2010-04-27 2014-01-21 Lifesize Communications, Inc. Determining buffer size based on retransmission latency
EP2490179B1 (en) 2011-02-18 2018-05-09 Alcatel Lucent Method and apparatus for transmitting and receiving a panoramic video stream
US8917322B2 (en) 2011-04-01 2014-12-23 Lockheed Martin Corporation Method and apparatus for digital video latency reduction by real-time warping
US20140201329A1 (en) * 2012-06-11 2014-07-17 Intel Corporation Distribution of layered multi-media streams over multiple radio links

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1732687A (zh) * 2002-12-30 2006-02-08 摩托罗拉公司 用于远程临场通信的方法、系统和装置
CN101103364A (zh) * 2004-11-17 2008-01-09 欧几里得发现有限责任公司 用来处理视频数据的装置和方法
CN102172026A (zh) * 2008-10-07 2011-08-31 欧几里得发现有限责任公司 基于特征的视频压缩

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DAEWON SONG ET AL.: "Scalable H.264/AVC Video Transmission Over MIMO Wireless Systems With Adaptive Channel Selection Based on Partial Channel Information", 《 IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108965889A (zh) * 2017-05-26 2018-12-07 Line株式会社 图像压缩方法、图像恢复方法及计算机可读记录介质
CN108965889B (zh) * 2017-05-26 2021-09-10 Line株式会社 图像压缩方法、图像恢复方法及计算机可读记录介质
CN113691806A (zh) * 2017-05-26 2021-11-23 Line 株式会社 图像压缩方法、图像恢复方法及计算机可读记录介质
CN109302598A (zh) * 2018-09-30 2019-02-01 Oppo广东移动通信有限公司 一种数据处理方法、终端、服务器和计算机存储介质
CN113411632A (zh) * 2020-03-17 2021-09-17 本田技研工业株式会社 信息处理装置、信息处理系统、信息处理方法以及存储介质
CN113411632B (zh) * 2020-03-17 2023-11-07 本田技研工业株式会社 信息处理装置、信息处理系统、信息处理方法以及存储介质
CN112052074A (zh) * 2020-09-29 2020-12-08 上海兆芯集成电路有限公司 处理器建模系统及处理器建模方法
CN112052074B (zh) * 2020-09-29 2024-05-03 上海兆芯集成电路股份有限公司 处理器建模系统及处理器建模方法

Also Published As

Publication number Publication date
JP6328784B2 (ja) 2018-05-23
US20150244980A1 (en) 2015-08-27
JP2017512420A (ja) 2017-05-18
KR20160124891A (ko) 2016-10-28
EP3111646A1 (en) 2017-01-04
US9258525B2 (en) 2016-02-09
WO2015130412A1 (en) 2015-09-03

Similar Documents

Publication Publication Date Title
CN106105211A (zh) 用于使用模型减少视频传递中的延时的系统和方法
JP6283108B2 (ja) 画像処理方法及び装置
CN110830802B (zh) 基于机器学习的视频压缩
TWI462052B (zh) Information processing system, information processing device, image capturing device and information processing method
CN113940066A (zh) 选择性地增强经压缩的数字内容
TWI479318B (zh) Information processing apparatus, information processing method and location information
TW201926992A (zh) 用於數位實境之影像壓縮
CN111316650A (zh) 三维模型编码装置、三维模型解码装置、三维模型编码方法、以及三维模型解码方法
EP2169619A2 (en) Conversion method and apparatus with depth map generation
CN115409940A (zh) 终端、接收方法、分发装置及分发方法
KR101643205B1 (ko) 투명도 정보 채널을 가지는 비디오 스트림을 인코딩하기 위한 방법 및 장치
WO2023005140A1 (zh) 视频数据处理方法、装置、设备以及存储介质
JP2013542505A (ja) 画像内のコンテンツの検閲処理を行うための方法および装置
JP6613749B2 (ja) 視差画像生成方法及び視差画像生成装置
US11989919B2 (en) Method and apparatus for encoding and decoding volumetric video data
KR20170065208A (ko) 3d 이미지 처리 방법 및 장치, 및 그래픽 처리 장치
CN104982032B (zh) 3d图像数据分割的方法和装置
US9171357B2 (en) Method, apparatus and computer-readable recording medium for refocusing photographed image
CN105612748A (zh) 活动图像编码方法、活动图像解码方法、活动图像编码装置、活动图像解码装置、活动图像编码程序、以及活动图像解码程序
Eisert et al. Volumetric video–acquisition, interaction, streaming and rendering
Cho et al. Depth image processing technique for representing human actors in 3DTV using single depth camera
JP7389565B2 (ja) 符号化装置、復号装置、及びプログラム
EP3588963A1 (en) Transmitting apparatus, transmitting method, receiving apparatus, receiving method, and programs
KR101372463B1 (ko) 입체 영상 처리 장치, 휴대용 단말기 및 이를 이용한 입체 영상 시스템
JP5686412B2 (ja) 3次元形状推定装置、3次元形状推定方法及び3次元形状推定プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20161109