CN117640946A - 传输和接收图像帧的系统和方法 - Google Patents

传输和接收图像帧的系统和方法 Download PDF

Info

Publication number
CN117640946A
CN117640946A CN202311059237.2A CN202311059237A CN117640946A CN 117640946 A CN117640946 A CN 117640946A CN 202311059237 A CN202311059237 A CN 202311059237A CN 117640946 A CN117640946 A CN 117640946A
Authority
CN
China
Prior art keywords
frame
image
potential
interest
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311059237.2A
Other languages
English (en)
Inventor
塞维特·耶尔利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TMRW Foundation IP and Holding SARL
Original Assignee
TMRW Foundation IP and Holding SARL
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TMRW Foundation IP and Holding SARL filed Critical TMRW Foundation IP and Holding SARL
Publication of CN117640946A publication Critical patent/CN117640946A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/587Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal sub-sampling or interpolation, e.g. decimation or subsequent interpolation of pictures in a video sequence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234381Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering the temporal resolution, e.g. decreasing the frame rate by frame skipping
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440281Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the temporal resolution, e.g. by frame skipping
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Image Processing (AREA)

Abstract

一种用于传输和接收数据的系统,包括:一个发送单元,配置为接收感兴趣的对象的帧,所述发送单元包括:一个帧选择器,以设定的间隔从感兴趣的对象的帧中选择帧来创建所选帧,未被帧选择器选中的帧保留在所述发送单元上;一个编码器,从所选帧生成所选帧潜在向量,所述所选帧潜在向量是感兴趣的对象的帧的压缩表示;所述发送单元将所述所选帧潜在向量发送到接收单元。所述接收单元被配置为接收所选帧潜在向量,包括:插值器,通过插值在两个连续的所选帧潜在向量之间重建若干中间潜在向量;所述插值器将接收到的所选帧潜在向量和重建的中间潜在向量发送到解码器;所述解码器对接收到的所选帧潜在向量和重建的中间潜在向量进行解码并生成帧。

Description

传输和接收图像帧的系统和方法
技术领域
本公开涉及数据压缩和传输领域。具体而言,本公开涉及一种发送和接收数据的系统和方法,以及相应的发送和接收单元及其计算机可读媒体。
背景技术
自从互联网出现以来,全球传输的数据量大幅增加。视频内容的传输在数据传输中所占据的比例越来越大。尤其时当冠状病毒出现以后更是如此。越来越多的人居家办公。使用视频会议的需求大大增加。这包括距离很远的人需要通过视频的方式相互交流。
然而,视频通信需要传输大量数据。这同样要求传输和接收设施具有较大的带宽。这就使得视频图像的传输费用很高。因此,为了减少视频图像和音频传输阶段所需的带宽,就需要对视频和音频进行压缩。需要一种用于图像或视频和音频传输的系统和方法,以减少视频图像和音频传输过程中所需的带宽。
发明内容
本概述以简化的形式介绍了一些概念,这些概念将在下文的详细说明中进一步阐述。本概述并非旨在确定要求保护的主题的关键特征,也不是用于帮助确定所要求保护的主题的范围。
一方面,系统包括由处理器和存储器组成的发送单元,所述发送单元被配置成接收感兴趣的对象的图像帧,所述发送单元被编程为执行模块,其包括:一帧选择器,配置为以设定的间隔从感兴趣对象的图像帧中选择图像帧;以及一编码器,配置为从所选帧中生成所选帧潜在向量,所选帧潜在向量是感兴趣对象的图像帧的压缩表示;其中,所述发送单元被进一步编程为将所述所选帧潜在向量发送到接收单元,所述接收单元包括处理器和存储器。该接收单元被配置为接收所选择的帧潜在向量,并被编程以实现包含插值器的模块,该插值器被配置为通过在两个连续选择的帧潜在向量之间插值来重建若干中间潜在向量;其中所述插值器配置为将接收到的所选帧潜在向量和重构的中间潜在向量发送到解码器;所述解码器配置为对接收到的所选帧潜在向量和重构的中间潜在向量进行解码,并从所选帧潜在向量和中间潜在向量中生成感兴趣对象的图像帧,包括与未被帧选择器选择的感兴趣对象的图像帧对应的图像帧。在一些实施例中,所述解码器的输出提供了流畅的展示,就像所有帧都是从所述编码器发送的一样。
重建的中间潜在向量的数量可以与未被帧选择器选择的图像帧相同,或者重建的中间潜在向量的数量可以与未被帧选择器选择的图像帧不同。
所述发送单元还可以被编程为实现图像缩减器,该图像缩减器被配置为减小图像帧的图像尺寸。所述图像缩减器可能被进一步配置成,通过从所述图像帧中移除背景来减小图像大小。(即这样就只有所述感兴趣的对象保持在所述帧中)。所述图像缩减器可被进一步配置成,通过在帧中分离所述感兴趣的对象和背景来减小图像尺寸;以及通过在每个图像帧中对所述感兴趣的对象实施高分辨率的压缩和在每个图像帧中对背景实施低分辨率的压缩来实现不同种类的压缩,这样就实现了图像尺寸的减少,同时将更大的分辨率分配给典型的观察者更感兴趣的东西,在这种情况下,目标处于更高的分辨率,而背景处于更低的分辨率。
所述发送单元也可以进一步编程以实现配置为增强图像帧的图像的图像增强器。所述图像增强器可被进一步配置成,通过检测所述图像帧中所述感兴趣的对象来增强图像;以及在所述发送单元中放大所述感兴趣的对象的尺寸,其中这种放大包括增加所述感兴趣的对象的分辨率。所述发送单元可将带有经放大的所述感兴趣的对象的图像帧发送到所述接收单元。然后,可在所述接收单元中缩小经放大的所述感兴趣的对象的尺寸。
所述接收单元可具有一个附加的潜在向量生成器,该生成器可位于数据处理流中的内插器之前,配置为生成附加的替换向量以替换所述接收单元未接收到的损坏或丢失的潜在向量。
所述系统可包括多个发送单元和接收单元,其中所述多个发送单元通过一个选择性转发单元(SFU)向所述多个接收单元发送相应的多个所选帧潜在向量,所述SFU被配置成:接收所述多个所选帧潜在向量;选择哪些接收单元发送所述多个所选帧潜在向量;以及将相应的潜在的帧潜在向量转发到所选接收单元。
在另一方面,发送单元包括处理器和存储器,所述发送单元被配置成接收所述感兴趣的对象的帧,所述发送单元被编程为执行模块,包括:帧选择器,被配置成以设定的间隔从所述感兴趣的对象的帧中选择图像帧;编码器,配置为从所选帧生成所选帧潜在向量,所选帧潜在向量是感兴趣对象的帧的压缩表示;其中,发送单元进一步编程,将所选帧潜在向量发送到目的地。
所述目的地可以是一个存储介质,所述所选帧潜在向量可以存储在所述存储介质上。所述发送单元可以进一步编程以实现减少图像帧的图像大小的图像缩减器。也可以对发送单元进一步编程以实现用于增强图像帧的图像的图像增强器。
在一个实施例中,当使用该系统来压缩和传输多个发送和接收单元之间的数据时,例如,在10和20个参与者之间,该系统使用选择性转发单元(SFU)架构。该SFU架构可以作为存储在至少一个与网络上的发送和接收单元相连的服务器计算机的内存中的计算机程序来实现,并且可以由至少一个服务器计算机的至少一个处理器执行。在本实施例中,所述SFU从所述多个发送单元接收包括被编码后的潜在向量流,选择发送每个媒体流的接收单元,并将相应的媒体流转发至所选接收单元。其余的流程可按前面所述的在所述接收单元中继续进行。通过使用SFU架构,当前公开的系统可能会将其功能从仅仅几个用户扩展到更大的数量,而不是仅仅适用于一个点对点体系结构。
在另一个实施例中,当所述系统用于在所述多个发送和接收单元(例如超过20个参与者)之间压缩和传输数据时,所述系统采用一种媒体组合单元(MCU)结构。MCU架构可以作为存储在至少一个与网络上的发送和接收单元相连的服务器计算机的内存中的计算机程序来实现,并且可以由至少一个服务器计算机的至少一个处理器执行。在此实施例中,MCU接收来自多个发送单元的包括编码潜向量的流,解码媒体流,重新缩放它们,并从所有接收流组成一个新流,然后发送到相应的接收单元。其余的过程可以在接收单元继续,如前所述。通过采用MCU架构,本公开系统可以用于大量的参与者,如20个以上的参与者。
在另一方面,接收单元包括处理器和存储器,所述接收单元被编程为接收所选帧潜在向量以及执行模块,所述模块包括:插值器,配置为通过在两个连续选择的帧潜在向量之间插值一些中间潜在向量来重构,并将接收到的选择的帧潜在向量和重构的中间潜在向量都发送到解码器;以及所述解码器,被配置成解码所述接收的所选帧潜在向量和重建的中间潜在向量,并且从所述所选潜在向量帧和所述中间潜在向量中生成感兴趣的对象的图像帧。
通过插值重建的中间潜在向量的数量可能与未被所述帧选择器选中的帧的帧数相同,或者通过插值重建的中间潜在向量的数量可能与未被所述帧选择器选中的帧的帧数不相同。所选的帧潜在向量可以存储在存储介质上,并且接收单元可以通过从存储介质检索所选的帧潜向量来接收所选的帧潜在向量。在一些实施例中,从发送单元接收所选择的帧潜在向量。
在另一方面,由包含一个或多个计算设备的计算机系统所执行的方法包括:接收感兴趣的对象的图像帧;以设定的间隔从所述感兴趣的对象的图像帧中选择图像帧;从所选帧中生成所选帧潜在向量,所选帧潜在向量是所述感兴趣的对象的图像帧的压缩表示;通过在两个连续选择的帧潜向量之间插值一些中间潜向量来重建;对接收到的所选帧潜在向量和重建后的中间潜在向量进行解码,并生成帧;从选定的帧潜向量和中间潜向量生成感兴趣目标的图像帧,包括在选择步骤中未选择的感兴趣目标的图像帧对应的图像帧。
所述生成的中间潜在向量的数量可以与未选中的帧的帧数相同,或者插值生成的中间潜在向量的数量可能与未选中的帧的帧数不同。
在另一方面,非暂时的计算机可读存储介质存储指令,当这些指令由计算机系统的一个或多个处理器执行时,使计算机系统执行操作包括:接收感兴趣的对象的图像帧;以设定的间隔从感兴趣的对象的图像帧中选择图像帧;从所选帧中生成所选帧潜在向量;所选帧潜在向量是所述感兴趣的对象的图像帧的压缩表示;通过在两个连续选择的帧潜向量之间插值一些中间潜向量来重建;对接收到的所选帧潜在向量和重建后的中间潜在向量进行解码,并生成帧;从所选帧潜在向量和所述中间潜在向量中生成所述感兴趣的对象的图像帧,包括在选择操作中未选中的感兴趣对象的图像帧对应的图像帧。
通过插值生成的中间潜在向量的数量可能与未选中的帧的帧数不同。
进一步公开的是包含多个发送和接收单元的系统,这些发送和接收单元用于在多个发送和接收单元之间压缩和传输数据。
上述概述不包括本公开所有方面的详尽列表。可以设想,本公开包括可以从以上概述的各个方面的所有合适的组合以及在下面的具体实施方式中公开的并且在与本申请一起提交的权利要求中特别指出的那些方面来实践的所有系统和方法。这样的组合具有以上概述中未具体叙述的优点。本发明的其它特征和优点将从附图和下面的详细描述中显而易见。
附图说明
通过以下说明和附图,可以更好地理解本申请的具体特征、方面和优点,其中:
图1是编码器-解码器组合的框图。
图2是根据一实施例的发送单元的流程图。
图3是根据一实施例的接收单元的流程图。
图4是根据一实施例的包括发送单元和接收单元的系统的流程图。
图5是所述发送单元的另一实施例的流程图。
图6是所述接收单元的另一实施例的流程图。
图7是根据一实施例的包括发送单元和接收单元的系统的流程图。
图8是所述发送单元的另一实施例的流程图。
图9是所述接收单元的另一实施例的流程图。
图10是包括所述发送单元和所述接收单元的系统的另一实施例的流程图。
图11是所述发送单元的另一实施例的流程图。
图12是所述接收单元的另一实施例的流程图。
图13是包含所述发送单元和所述接收单元的系统的另一实施例的流程图。
图14是根据一实施例的一方法的流程图。
具体实施方式
在下面的描述中,参考了用于说明各种实施例的附图。此外,将通过参考几个示例来描述各种实施例。应理解,这些实施例可能包括设计和结构的变化,但不超出所要求保护的主题的范围。
所描述的实施例利用了两个图像之间的插值。两幅图像之间的插值发生在潜在或隐藏空间中。隐空间可以用编码器-解码器系统来描述。在一些实施例中,编码器和解码器都由神经网络组成。编码器将数据从高维输入带到瓶颈层,其中神经元的数量最小。潜空间是指瓶颈层中数据所在的空间。有时也有人说编码器将数据转换或映射到潜空间。然后,解码器接收编码后的输入并将其转换回原始输入形状。例如,一个自动编码器由一个编码器和一个解码器组成。
通常,自动编码器被训练成输出任何输入,充当恒等函数。因此,编码器将所有输入数据编码为压缩表示。可以说,编码器因此将输入数据从较高维度的输入编码为较低维度或压缩表示。在压缩表示中必须有足够的信息,以便解码器重建所述输入数据。为了表现良好,所述神经网络必须学会提取最相关的特征。这就是在潜在空间中的压缩表示。一个对象在潜在空间中的表示就是一个潜在表示。一个对象的潜在表示可以是潜在空间中的数据点。潜在空间中的数据点可以表示为向量。潜在空间中的这些向量就是所谓的潜在向量。在潜在空间中,相似的数据点将倾向于聚集在一起。
在潜在空间中的数据点可以用潜在变量来定义。潜在变量是不能直接观察到的变量。潜在变量可以用潜在向量表示。
例如,为了识别手写数字,在网络的输入是由从0到9的手写数字像素组成的矩阵组成的图像,并将其输入网络。这个像素矩阵可以称为像素空间。在输出端,网络指出它接收到的图像的数字。简而言之,首先训练网络识别手写数字。这是通过向网络提供大量手写数字的图像并告诉网络它得到的答案是正确还是错误来实现的。如果网络得到错误的答案,网络通过反向传播调整网络中神经元的权值。这将持续下去,直到网络足够好,可以准确地识别手写数字到可接受的水平。
在一个演示场景中,当编码器在像素空间中接收到例如“1”的图像时,它对所述图像进行编码并将所述图像转换或映射到潜在空间中。在潜在空间中,所述图像有一个潜在表示,即一个潜在的数据点。潜在点可以用潜在变量来描述。潜在点可以用潜在向量表示。在学习过程中,所述编码器为在像素空间中接收到的“1”的图像在潜在空间中分配一个数据点。所述编码器对从0到9的所有10个手写数字图像进行这个分配。当研究潜在空间时,然后发现不同的数字聚集在一起,这意味着所有手写的0是潜在空间中的给定点,其占据潜在空间中的特定区域。对于所有其他手写数字也是如此。这意味着所有的1、2、3等都聚集在潜在空间中的某个区域中。每个手写数字,从0到9,在潜在空间中给定一定的区域。
对于矢量运算和插值计算,潜在空间具有可用的结构。在潜在空间中可以进行点之间的插值,也可以进行点之间的矢量运算。这个结果对生成的图像具有有意义和针对性的影响。
矢量运算
矢量运算可以用图像来完成。一个典型的例子是一个戴眼镜的男人的图像,一个不戴眼镜的男人的图像和一个不戴眼镜的女人的图像。通过编码器将像素空间中戴眼镜的男人的图像转换为潜在空间。对于不戴眼镜的男人的图像也是如此,因为它也由编码器从像素空间转换到潜在空间中。两个图像的潜在空间中的表示彼此相减。如上所述,潜在空间中的表示可以是可以表示为潜在向量的潜在数据点。在减法之后,剩下的是眼镜在潜在空间中的表示。现在,不戴眼镜的女人的图像通过编码器转换为潜在空间中的潜在表示。在潜在空间中,将眼镜的表示添加到不戴眼镜的女人的潜在表示中,从而得到带眼镜的女人的潜在表示。然后用解码器将结果从潜在空间转移到像素空间。最终的结果是像素空间中一个戴眼镜的女人的图像。
插值
如前所述,特定的图像具有特定的潜在表示,即潜在空间中的特定点(或向量)。例如,有两幅原始图像,其中第一幅图像的人看起来稍稍向右,第二幅图像的人看起来稍稍向左,这两幅图像中的每一幅都可以用编码器转换到潜在空间,每个图像在潜在空间中都具有特定的点。潜在空间中两点之间的线性路径上可以产生一系列的点。这些点可以表示为潜在向量。这些就是所述的中间潜在向量。该结果是在潜在空间中两点之间的插值。这些插值点序列可以被输入解码器。
这些点生成了一系列图像,显示了两个原始图像之间的过渡,从而得到一系列图像,从第一个人稍微向右看的图像开始,到一系列中间图像,直到第二个图像(一个人稍微向左看的图像)结束。更具体地说,在一系列中间图像中,第一张图像旁边的人稍微向右看,脸开始稍微向左转。在随后的每张图像中,人脸都更偏向左侧。朝向中间(两个原始图像的中间),脸可能或多或少是直视前方的。最后,在一系列中间图像中,人脸可能开始面向左侧。
在一些实施例中,解码器将潜在空间中的潜在变量转换或映射为可观察变量。例如,解码器在潜在空间中获取图像的潜在变量的潜在表示,并将它们转换为像素空间中的图像(可观察变量)。
在一些实施例中,编码器将可观察变量转换或映射成潜在空间中潜在变量的潜在表示。例如,编码器在像素空间(可观察变量)中获取图像的像素,并将其转换为潜在空间中的潜在表示。这种潜在表示可以是潜在变量。所述潜在变量可以表示为潜在空间中的潜在数据点。所述潜在数据点可以表示为潜在向量。
所述编码器的输入可称为高维输入。在图像的情况下,它也被称为环境空间或像素空间。可以说,编码器从高维输入中获取可观测变量,并将其作为潜变量映射到潜在空间中的低维输出。
这里所说的“插值”是指对两幅原始图像之间的数据点进行数学估计的一种方法。在一些实施例中,采用插值将每个原始图像通过编码器转换为潜在空间中的特定点。可以在潜在空间两点之间的线性路径上创建一系列点。这一系列点可以输入解码器。这些点生成一系列显示两个原始图像之间的过渡的图像,通过插值生成两个原始图像之间的图像。
通过插值,可以在潜在空间中两点之间的线性路径上创建一系列点。这一系列点是插值点。这一系列的插值点可以用向量表示,也可以称为插值向量(interpolationvector)或插值向量(interpolated vector)。
一些实施例使用压缩潜在数据的表示,其中相似的数据点在潜在空间中更接近。这种表示可以称为潜在表示。在一些实施例中,编码器将所述数据从高维输入(例如,在像素空间中的由像素组成的对象,如图像)带到神经网络的瓶颈层,那里的神经元的数量最少。潜在空间是瓶颈层中数据所在的位置。因此,可以说所述编码器将输入数据从高维输入编码为低维或压缩表示。所述对象的潜在表示可以是代表潜在数据点的潜在变量。所述潜在空间中的数据点可以用潜在向量来表示。
在一些实施例中,编码器将数据转换进潜在空间,将可观察变量转换或映射为潜在变量。数据的潜在表示是数据的压缩表示,并出现在潜在空间中。这种潜在表示可以是潜在变量,可以表示为潜在空间中的潜在点。潜在点可以表示为潜在向量。
在本文中,“像素空间”与“潜在空间”相对。在一些实施例中,编码器将由像素组成的对象(例如图像)从像素空间转换为潜在空间中的潜在表示。在一些实施例中,解码器(经过插值等数学处理)将潜在表示从潜在空间转换回像素空间,作为像素空间中的可观察变量。
所描述的实施例利用了人工智能(AI)和机器学习,例如包括编码器-解码器组合的AI训练模型。这种编码器-解码器组合如图1所示。可以看到,所述编码器-解码器组合100由编码器110和解码器130组成。编码器110和解码器130可以由神经网络组成。
所述编码器110和解码器130之间有一个潜在空间120。编码器110接收输入140。解码器130生成输出150。编码器110和解码器130联合训练,以在输出150处生成在输入处140输入的数据的高质量重建。合适的神经网络可以包括生成对抗网络(GAN),可用于编码器110和解码器130的训练,使解码器130在输入140处生成尽可能与输入数据相对应的高质量输出150。所述输入数据可以是视频数据或音频数据,或两者都有。在接下来的论述中,重点将放在视频数据或图像上。
一旦训练后,所述编码器110在输入140处接收图像数据。所述编码器110之后根据图像数据生成潜在空间120中的潜在表示。所述解码器130接收作为潜在变量的所述潜在表示。所述潜在变量可以是潜在空间120中表示为潜在向量的潜在数据点。然后,所述解码器130在输出150生成潜在表示的重建。因此可以说,所述编码器110和所述解码器130形成了一对受过训练的编码器-解码器。
图2是发送单元200的流程图。图3是接收单元300的流程图。发送单元200有一个编码器220。接收单元300有一个解码器320。编码器220和解码器320形成一个训练过的编码器-解码器对,正如前面讨论的编码器110和解码器130。
图2显示了配置成向目标230发送数据的发送单元200。这些数据可以包含视频和音频,也可以只包含视频或音频。发送单元200由帧选择器210和上述编码器220组成。所述编码器220连接到目标230。所述发送单元200能够接收进入帧选择器210的感兴趣的对象的帧205。如接下来所示,感兴趣的对象可以是人的脸、手臂、身体或其组合,而所述帧205可以是感兴趣的对象的图像。帧选择器210通过以设定间隔从帧205中选择帧来创建所选帧215。例如,如果所述帧205是每秒60帧的视频帧,而所述帧选择器210以每秒10帧的设定间隔选择帧,则会产生每秒6帧的所选帧215。这意味着帧205的9个中间帧没有被选择。所述中间帧或未被帧选择器210选中的帧可能保留在所述发送单元200上,或被丢弃或发送到其他位置,而所述所选帧215则被发送至编码器220。然后,所述编码器220对所述所选帧250进行编码,并从所述所选帧215生成所选帧潜在向量225,发送到目标230。所述所选帧潜在向量225是来自所述所选帧215的潜在向量。
以每秒6帧的速率发送所选帧潜在向量225到目标230所需的带宽要比以每秒60帧的速率发送视频帧205到目标230所需的带宽少得多,这导致了通过网络发送数据的优化和高效方式。因此,所选帧潜在向量225的潜在表示是感兴趣的对象的帧205的压缩表示。
如后面所示,目标230可以是一个接收单元。接收单元也可以是视频会议中使用的接收单元。目标230还可以是存储介质,用于存储视频和音频记录,或者通过使用接收单元稍后进行播放。
图3显示的是接收单元的流程图。在图3中,接收单元300具有一个插值器310和一个解码器320。所述接收单元300被配置为接收所选帧潜在向量305。所述接收到的所选帧潜在向量305被发送到所述插值器310。所述潜在向量305是潜在表示。图2中的编码器220已经将所述所选帧215转换至潜在空间。如前所述,这些潜在表示可以是潜在变量。这些潜在变量可以表示为潜在空间中的潜在数据点。因此,两个连续的所选帧215可以转化为潜在空间中的两个潜在数据点。在潜在空间中,所述插值器310在潜在空间两点之间的线性路径上创建一系列点。这一系列点就是插值点。这一系列插值点可以用插值向量来表示。因此可以说,所述插值器310通过插值,在两个连续所选帧潜在向量305之间重建若干中间潜在向量。两个连续所选帧潜在向量305之间的这些中间潜在向量被称为插值向量。
总潜在向量315是接收到的所选帧潜在向量305和由插值器310重建的潜在向量。总潜在向量315被发送到解码器320。
所述重建的中间潜在向量的数量可以与发送单元200中未被帧选择器210选中的帧的帧数相同。在先前的示例中,其中一系列帧205处于每秒60帧的速率,并且帧选择器210每隔第10帧选择一个帧,从而导致所选择的帧215处于每秒6帧的速率,帧选择器210不选择9个中间帧。因此,所述插值器310必须在两个连续的接收到的所选帧潜在向量305之间通过插值生成或重建9个重建的中间潜在向量,以补偿这9个未被选中的中间帧。解码器320然后解码接收到的所选帧潜在向量305以及通过插值器310进行插值重建的中间潜在向量。这将使解码器320的输出恢复到每秒60帧的初始帧速率,这些帧是解码后的帧325。不过,应该理解的是,本发明并不局限于中间潜在向量的数量必须与帧选择器210未选中的帧数相同。可以认为,即使最初的所述一系列的帧205的速率是每秒60帧,但经过所述插值器310的重建后,总潜在向量315仅为每秒30个向量。这将会使解码器320的输出端以每秒30帧的速率输出解码帧325。同样,即使所述初始系列帧205的速率为例如每秒30帧,在经过所述插值器310的重建后,所述总潜在向量315的速率也可以达到每秒60个向量。这将会使解码器320的输出端以每秒60帧的速度产生解码帧325。
如果图像帧205是视频图像,而所感兴趣的对象在周围动态得移动,那么所述帧选择器210所选择的图像帧215的数量就必须相对较多,以便更准确地描绘所感兴趣的对象。
然而,在某些情况下,例如视频会议(VC),在相对一致的情况下传输感兴趣的单个对象的大量镜头,为了相对准确地描绘感兴趣的对象,帧选择器210选择的帧数215可以相对较低。例如,如果所选帧215的速率为每秒6帧,则所选帧215之间的时间间隔为166.7毫秒。在166.7毫秒的时间内,一个感兴趣的对象(例如,一个人的脸)在视频对话中不会发生太多显著的变化。
图4是用于传输和接收数据的系统400的一个实施例的示意图。数据包括视频或音频或视频和音频数据。系统400具有发送单元200,其通过网络410连接到接收单元300。网络410可以是,例如,互联网或局域网(LAN)等。它还包括通过电缆、电话线、无线电波、卫星、红外光束或任何其他方式连接发送和接收单元(200、300)的任何设备。这种实施方式可以用于视频会议。
图5是包括编码器220的发送单元200A的另一个实施例的流程图。图6是包括解码器320的接收单元300A的另一个实施例的流程图。编码器220和解码器320形成如上所述的经训练的编码器-解码器组合。所述编码器220和所述解码器320可以分别是编码器-解码器组合中的神经网络,它们经过联合训练后生成输入图像高质量的重建。
所述编码器220和解码器320最初是通过向所述编码器220输送大量(如1000张)图像(如人脸图像)来训练的。在训练期间,通过反向传播更新编码器220和解码器320的权重。训练继续进行,直到解码器320在编码器220的输入端成功地重建原始人脸。
参见图5,发送单元200A与图2中的发送单元200有一些相似之处,因为它也有帧选择器210和编码器220。此外,图5中的发送单元200A还包括捕捉设备510,用于捕获感感兴趣的对象500的图像。捕捉设备510可以是独立的摄像头,也可以是安装在台式机、笔记本电脑、平板电脑、智能手机或任何其他类似电子设备中的摄像头。感兴趣的对象500可以是一个人的脸,或者帧中包含的任何其他对象,如一个人的身体、躯干、手臂、手等。捕捉设备510以一定的帧率生成感兴趣的对象500的图像帧515,例如每秒60帧。
所述捕捉设备510连接到一个子组件,即所述帧选择器210。所述帧选择器210按设定的间隔从帧515中选择一个图像帧。例如,所述帧选择器210可以从图像帧515中每隔十帧选择一个图像帧。当捕捉设备510和帧选择器210选择每10帧时产生每秒60帧的帧率时,所选的结果帧525的帧率为每秒6帧图像。同样,没有被帧选择器210选择的帧可能会留在发送单元200A上,或者被丢弃或发送到其他目的地。
在一个实施例中,所述所选帧525由所述帧选择器210发送到图像缩减器530。所述图像缩减器530的子组件可通过多种方式实现图像尺寸的缩放。
首先,在一个实施例中,可以通过移除背景来缩小图像尺寸。当所述感兴趣的对象500是所述图像帧515中的脸部和身体时,背景就会被移除,这样所述缩小后的图像帧535中就只剩下脸部和身体了。
其次,在另一实施例中,图像尺寸的减小可以通过分离每个所选帧525中的感兴趣对象500和背景,然后执行不同种类的压缩,例如,通过对每个所选帧525中的感兴趣对象500执行较高分辨率的压缩以及对每个所选帧525中的背景执行较低分辨率的压缩。以这种方式,可以通过图像缩减器530来实现所选帧525的图像尺寸的缩减,从而产生具有缩减尺寸的缩减帧535,同时将较高分辨率分配给感兴趣对象并将较低分辨率分配给背景,其中压缩伪影将不太明显。
在另一个实施例中,还提供了另一个子组件,即图像增强器540。所述图像缩减器530与所述图像增强器540相连。因此,所述图像缩减器530会将缩小尺寸的缩减帧535发送给所述图像增强器540。所述图像增强器540会增强所述缩减帧535中感兴趣的对象500的图像。感兴趣的对象500的图像增强是通过在所述发送单元200A中放大感兴趣的对象500的尺寸来完成的。随后,在所述接收单元300A中将感兴趣的对象500的尺寸缩小。首先,使用快速检测算法来检测是否在缩减的帧535中存在感兴趣的对象500。如果在缩减的帧535中存在感兴趣的对象500,则通过缩放或放大感兴趣的对象500进行变换。通过这种方式,感兴趣的对象500包含更多信息,提高了感兴趣对象的图像质量和分辨率。放大或缩放后的感兴趣对象通过网络410发送到图6中的接收单元300A。在一个实施例中,感兴趣的对象是整个对象的一部分。例如,如果目标是一个人,他的图像在视频会议期间被摄像头捕捉并传输到接收单元,则感兴趣的对象可能是这个人的脸部。因此,所述图像增强器540会选择人的面部,然后将其放大,而身体(如躯干和手)则不做任何修改。接收单元300A接收到感兴趣对象500的放大或缩放后的图像,以及不是感兴趣对象500(即身体和手臂)的其他部分和感兴趣对象500的位置信息。接收单元300A应用反向变换,将感兴趣对象500恢复到处理之前的原始比例。然后,在接收单元300A中以更高的分辨率查看感兴趣对象500的原始比例。图像增强器540连接到子组件编码器220。
如前所述,所述编码器220接收所述增强帧545,并将所述增强帧545从高维输入传输至神经元数量最少的瓶颈层。这个瓶颈层就是潜在空间。所述编码器220将所述图像帧545从像素空间转换到潜在空间。所述潜在空间包括所述增强帧545的压缩潜在表示。所述编码器220接收所述图像帧545并将所述图像帧545转化为潜在空间中的潜在表示。所述潜在表示是一些潜在变量。所述潜在变量可以表示为潜在空间中的潜在点。所述潜在点可以表示为潜在向量555。这些潜在向量555可用来在潜在空间中进行线性插值。
如图4所示,发送单元200通过网络410与接收单元300相连。同样,如前所述,如图6所示,图5所示的潜在向量555通过网络410传输到所述接收单元300A。通过这种方式,不是每秒传输所有60帧图像515,而是以每秒6个潜在向量555的速率进行传输。因此,潜在向量555是图像帧515的压缩表示。以每秒6帧的速率传输潜在向量555所需的带宽比通过网络410传输每秒60帧的情况要小得多。这种方法降低了传输所需的带宽,因为所述潜在向量555以一个降低的带宽传输。帧选择器210未选择的图像帧,即选定图像帧525之间的非选定的中间图像帧,不会被传输,因此仍然保留在发送单元200A上。因此,通过当前披露的实施方式实现了数据的高效传输,同时提供了感兴趣对象图像的增强质量,这可以提高用户在视频会议中的体验质量,同时减少硬件要求或防止网络拥塞。
当前披露的实施方式的示例应用程序可以从上述所描述的好处中受益,包括远程会议、学习、购物、游戏和工作等需要一定水平的远程协作和用户交互的视频会议。这种视频会议的一个特定应用可以是在3D虚拟环境中进行的会议,其中用户的虚拟剪影可以实时插入到虚拟环境中。由于数据的高效传输和图像的增强质量,3D虚拟环境中的视频会议参与者可以享受到流畅的体验,他们的图像可以高效地传输到虚拟环境中,并由其他用户相应地查看。
在图5中,显示了一种特殊的排列方式,即按照帧选择器210、图像缩减器530、图像增强器540和编码器220的子组件顺序排列。应该理解的是,本发明并不局限于这种特定的子组件顺序。图像缩减器530、图像增强器540、帧选择器210和编码器220的子组件序列也属于本发明的范围。任何可行的子组件序列都属于本发明的范围。
如前所述,图6是接收单元300A的另一个实施例的流程图。如图6所示,潜在向量555通过网络410传输到接收单元300A,并以潜在向量620的形式到达。接收单元300A类似于图3中的接收单元300,因为它也具有插值器310和解码器320。正如前面提到的,作为编码器220的输出通过网络410发送的潜在向量555作为潜在向量620进入接收单元300A。
潜在向量620被发送到附加的潜在向量发生器630。在这个实施例中,所述附加的潜在向量发生器630只需将所述接收到的潜在向量620传递到其输出端,将其作为潜在向量635转发到插值器310。然而,当图5中的一个或多个潜在向量555被损坏或丢弃,例如由于网络拥塞,因而未被所述接收单元300A接收到,所述附加的潜在向量发生器630可以生成附加的替代潜在向量,以替换损坏或丢失的潜在向量555。附加的潜在向量生成器630确保在所需的间隔内,例如每秒6个潜在向量,将潜在向量635呈现在其输出上,正如发送单元200A所传输的一样。
潜在向量635进入插值器310。这些可以是接收到的潜在向量620,也可以是接收到的潜在向量620加上由附加的潜在向量生成器630生成的附加的替换潜在向量,其产生了潜在向量635。如图3所讨论的,在潜在空间中,可以通过插值在两个连续的潜在向量之间生成中间的潜在向量(插值向量)。因此,插值器310选择两个连续的潜在向量,并在两个连续的潜在向量之间进行插值中间潜在向量。参照图5,通过插值生成的中间潜在向量因此补偿了未被帧选择器210选择、未被编码器220编码、未被发送单元200A传输、未被接收单元300A接收的未被选择的图像帧。
如上所述,通过插值生成的中间潜在向量将补偿帧选择器210未选中的图像帧和未传输的潜在向量。这意味着通过插值产生的中间潜在向量的数量将与未被选中的图像帧的帧数相同。这使得能够以图5中捕捉设备510所生成的图像帧515系列的帧速率重建图像。但是,如前所述,情况并非总是如此。可以生成更多的插值向量。例如,所述捕捉设备510可以以每秒30帧的速率生成图像帧515。根据图6所示,然而,在插值器310通过插值生成了中间潜在向量之后,总共的潜在向量645可能以每秒60个潜在向量的速率出现。也可以决定生成较少的插值向量。例如,参考图5,捕获设备510可以以每秒60帧的速率生成图像帧515。然而,参考图6,在插值器310通过插值生成的中间潜在向量的数量完成后,总共的潜在向量645可能以每秒30个潜在向量的速率出现。
在插值器310发送给解码器320的输出端,会出现以下总潜在向量645:
1.潜在向量635,加上
2.在潜在向量635之间通过插值重建的中间潜在向量。
解码器320对所述总潜在向量645进行解码并生成图像655。所述解码器320通过生成图像655将潜在向量645从潜在空间带回像素空间。然后将所述图像655显示在显示器660上。
因此,在一些实施例中,本公开的系统和相应的发送和接收数据的方法在实践中是这样实现的:
1.首先,对编码器进行训练,使其能够通过生成潜在表示,例如潜在向量,对人脸进行编码。这意味着编码器将像素空间中的人脸图像转移到潜在空间。
2.其次,对解码器进行训练来解码潜在表示例如潜在向量。这意味着解码器会将潜在空间中的人脸图像转回像素空间。
3.然后将编码器安装到发送单元上,例如从互联网上下载安装。
4.解码器也安装在接收单元上,例如从互联网上下载安装。
存储发送单元的输出可能也是有用的,例如,可以录制视频会议,以便以后可以检索录制的内容。当使用帧选择和编码来减小图像的存储空间时,所述图像将通过一组或多组计算机本地存储在存储介质上。存储后,所述图像可由接收单元检索。图7中所示的这种数据存储和检索系统为系统400A。系统400A类似于图4中的系统400,但图4中的网络410被在图7中系统400A的存储介质700取代。在图7所示的这些实施例中,所述系统400A具有一个发送单元200(图2)或200A(图5),该单元在存储介质700上存储或记录帧潜在向量225(图2)或555(图5)。
一旦存储,存储介质700上的记录可以被接收单元访问,例如接收单元300(图3)或300A(图6)。存储介质700可以是计算机上的硬盘、数字多用途光盘(DVD)、磁带、存储卡或任何其他可以存储、记录和再次检索数字信息的介质。
图8显示了发送单元另一个实施例的流程图。在图8中,发送单元200C与图2中的发送单元200有些相似,但图8中的发送单元200C没有图2中的编码器220。在图8中传输到目标位置230的不是所选的帧潜在向量225,而是所选的帧215。由帧选择器210未选择的帧可能会留在发送单元200C上。
在使用图8中的布置进行说明性场景时,如在图2的讨论中提到的例子,帧205的速率为每秒60帧。帧选择器210再次以每秒10帧的速率选择帧。所选的帧215以每秒6帧的速率传输。不是每秒传输所有60帧205,而是以每秒6帧的速率传输所选的帧215到目标230。
以每秒6帧的速率传输所选的帧215,而不是以每秒60帧的速率传输帧205到目标230,可以减少所需的传输带宽。所选的帧215以每秒6帧的速率传输,因此是帧205每秒60帧的压缩表示。与帧205每秒60帧速率传输的情况相比,所选的帧215以降低的带宽进行传输。
图9是接收单元300C的另一个实施例的流程图。所述接收单元300C可以与图8所示的发送单元200C配合使用。该接收单元300C与图3所示的接收单元300有一些相似之处,因为接收单元300C也有一个插值器310和解码器320。在图3中,接收单元300接收所选帧潜在向量305。而在图9中,接收单元300C接收所选帧302,这可能与图8中的所选帧215相对应。在图9中,编码器220是接收单元300C的所配置一部分。图9中接收到的所选帧302被发送到编码器220。因此,在特定实施例中,接收所选帧潜在向量305的生成由编码器220完成,并位于接收单元300C上。图9中其余步骤与图3中所述的插值器310和解码器320相似。解码器320将总潜在向量315解码为解码帧325。
图9中插值器310通过插值生成的中间潜在向量的数量可以与图8中发送单元200C中帧选择器210未被选中的帧数相同。在图2中的示例中,帧序列205的速率为每秒60帧,帧选择器210选择了每十帧中的一帧。这将产生一系列每秒6帧的所选帧215。同样的原理也适用于图8。在图8中,如果我们使用发送单元200C开始以每秒60帧的速率发送帧205,并且帧选择器210以每秒选择10个帧的速率进行选择,那么最终在图8中我们将得到每秒6个被选择的帧215的系列。图9所示的接收单元300C将以每秒6帧的速度接收所选帧215,也以每秒6帧的速度接收所选帧302。接收到的一系列所选帧302以每秒6帧的速率传送到编码器220。编码器220对其进行编码,并以每秒6个潜在向量的速度输出接收到的所选帧潜在向量305。在这个示例中,编码器220位于接收单元300C上,这意味着9个中间帧不会被选中。因此,图9中的所述插值器310必须在两个连续接收的所选帧潜在向量305之间通过插值生成或重建9个重建的中间潜在向量,以补偿这9个未被选中的中间帧。这将使所述帧速率恢复到图8所示发送单元200C中帧205的初始帧速率60帧/秒。但应再次理解的是,本发明并不局限于这种配置。本发明并不限于中间潜在向量数量必须与图8中的帧选择器210中选择的非选定帧的帧数相同。可以认为,即使所述初始帧205的速率为每秒60帧,但经过所述插值器310重建后,所述总潜在向量315仅为每秒30个向量。同样,即使所述初始帧205的速率例如为每秒30帧,在经过所述插值器310重建后,所述总潜在向量315的速率也可以为每秒60个潜在向量。解码器320将每秒60个潜在向量的所述总潜在向量315解码为以每秒60帧的速率的解码帧325。
图10是发送和接收数据的系统1000的另一个实施例的流程图。它与图4所示类似。系统1000具有发送单元200C,其通过网络410连接到接收单元300C。如前所述,网络410可以是例如互联网或局域网(LAN)。它还包括通过电缆、电话线、无线电波、卫星或红外光束或任何其他方式连接发送和接收单元(200C、300C)的任何设备。本实施例可用于视频会议。
图11是发送单元的另一个实施例的流程图。发送单元200D与图8中的发送单元200C有一些相似之处,因为它也有帧选择器210。发送单元200D也与图5中的发送单元200A相似。不过,与图5中的发送单元200A相比,图11中的发送单元200D没有编码器220。如图11所示,通过所述网络410发送的是增强帧545。这些增强帧545是经过图像缩减器530和图像增强器540处理的所选帧525。未通过网络410发送的是潜在向量555,如图5所示。正如稍后在图12中更清楚地显示的那样,编码器220现已位于接收单元300D中。
在图11中,帧选择器210、图像缩减器530和图像增强器540的功能和产生的输出与之前所述的类似。如前所述,增强帧545是捕捉设备510产生的图像帧515的压缩表示。需要再次说明的是,本发明并不局限于图11所示的子组件序列。任何可行的子组件序列都属于本发明的范围。
图12是接收单元另一个实施例的流程图。接收单元300D可以与图8中的发送单元200C和图11中的发送单元200D配合使用。接收单元300D与图9中的接收单元300C类似,因为它也有一个编码器220、一个插值器310和一个解码器320。接收单元300D也与图6中的接收单元300A类似。不过,与图6中的接收单元300A相比,图12中的接收单元300D在附加潜在向量发生器630之前也有一个编码器220。接收单元300D能够接收经过图像缩减器530和图像增强器540处理后的增强帧545。因此,与图12中一样,编码器220从图像帧545中生成所选帧潜在向量555。
所选帧潜在向量555被发送到所述附加的潜在向量发生器630中。如前所述,所述附加的潜在向量发生器630只需将所述接收的潜在向量620传递到其输出端,作为潜在向量635转发到插值器310。在这种情况下,如果一个或多个图像帧545损坏或丢失,例如由于网络拥塞,因此编码器220要么未收到这些图像帧,要么由于其他原因无法从图像帧545生成所选帧潜在向量555,这将导致没有所选帧潜在向量555被发送到附加潜在向量生成器630。在这种情况下,如果附加的潜在向量生成器630没有收到选定帧潜在向量555,它可以生成额外的替代选定帧潜在向量来代替损坏或丢失的选定帧潜在向量555。所述附加潜在向量发生器630确保潜在向量635按照所述发送单元200A传输所需的间隔出现在其输出端和插值器310的输入端。例如,在我们的例子中,以每秒6个潜在向量的速度。
在图12中,插值器310通过插值重新构建了两个连续潜在向量635之间的一些中间潜在向量。通过插值生成的中间潜在向量的数量可以与在图11中的发送单元200D中的未被帧选择器210选择的帧数相同。这是为了弥补发送单元200D未发送的未选择图像帧,如前面所讨论的。
如前所述,图12中插值器310插值生成的中间潜在向量的数量也可能与图11中帧选择器210未选中的图像帧数不同。
如图12所示,所述插值器310将所述总潜在向量645发送到解码器320。总潜在向量645是:
1.编码器220从图像帧545生成的所选帧潜在向量555;加上
2.由附加光和向量生成器630生成的任何替换向量;加上
3.由插值器310通过插值生成的中间潜在向量。
解码器320接收和解码总共的潜向量645,并生成帧作为图像655。图像655然后显示在显示器660上。
图13是数据存储或记录和检索系统的流程图。参照图13,系统1300与图7中的系统400A类似。当使用帧选择来减少图像的存储空间时,图像可以被存储起来,以便在后续阶段进行检索。系统1300有一个发送单元,如图8中的发送单元200C或图11中的发送单元200D,它将图8中的所选帧215或图11中的增强帧545存储或记录在存储介质700上。图11中的进一步增强帧545是经过图像缩减器535缩小或图像增强器540增强的所选帧515。一旦存储在存储介质700上,所选帧215就可以通过图12中的接收单元300D或图9中的300C进行检索。
与之前一样,存储介质700可以是计算机上的硬盘,数字多功能光盘(DVD),磁带或者存储数字信息的记忆棒或其他任何能够存储或记录并再次检索数字信息的设备。
图14是根据一个实施例的一方法的流程图。方法1400的步骤可以由包括本文所述发送单元和接收单元的计算机系统执行,也可以由其他计算设备或系统执行。步骤1410中,计算机系统接收感兴趣的对象的图像帧。步骤1420中,计算机系统以设定的间隔从感兴趣的对象的图像帧中选择图像帧。步骤1430中,计算机系统从所选帧中生成所选帧潜在向量,所选帧潜在向量是感兴趣的对象的图像帧的压缩表示。步骤1440中,计算机系统通过插值在两个连续的所选帧潜在向量之间重建若干中间潜在向量。步骤1450中,计算机系统对接收到的所选帧潜在向量和重建的中间潜在向量进行解码。步骤1460中,计算机系统根据所选帧潜在向量和中间潜在向量生成感兴趣的对象的图像帧,包括与在选择步骤中未选中的感兴趣的对象的图像帧相对应的图像帧。
在上述讨论中,所选帧选择器的帧选择速率为每秒10帧。这样做只是为了方便说明。应该理解的是,任何帧选择速率都属于本发明的范围。
应当理解,实施本发明实施例的方法也属于本发明的范围。此外,应当理解的是,本发明的实施例可以通过硬件或软件实现,也可以部分通过硬件或部分通过软件实现。
虽然特定的实施方式已经在附图中描述和展示,但要理解这些实施方式仅仅是对广泛发明的说明,而不是对所示出和描述的具体结构和布局的限制,因为本领域技术人员可能会做出各种其他修改。因此,应该将本描述视为说明性的,而不是限制性的。

Claims (20)

1.一种系统,包括:
发送单元,包括处理器和存储器,所述发送单元被配置为接收感兴趣的对象的图像帧,所述发送单元被编程为执行模块,包括:
帧选择器,被配置为以设定的间隔从感兴趣的对象的图像帧中选择图像帧;以及
编码器,被配置为从所选帧中生成所选帧潜在向量,所述所选帧潜在向量是所述感兴趣的对象的图像帧的压缩表示形式;
其中所述发送单元被进一步编程为将所述所选帧潜在向量发送到接收单元,所述接收单元包括处理器和存储器;以及
所述接收单元被配置为接收所述所选帧潜在向量,所述接收单元被编程为执行模块,包括:
插值器,被配置为通过插值在两个连续所选帧潜在向量之间重建一些数量的中间潜在向量;
其中所述插值器配置为将接收到的所述所选帧潜在向量和重建的中间潜在向量发送到解码器;以及
所述解码器被配置为对接收到的所述所选帧潜在向量和重建的中间潜在向量进行解码,并从所述所选帧潜在向量和中间潜在向量中生成所感兴趣的对象的图像帧,包括与未被所述帧选择器选中的所述所感兴趣的对象的图像帧相对应的图像帧。
2.如权利要求1所述系统,其中,所述重建的中间潜在向量的数量和未被所述帧选择器选中的图像帧的数量相同。
3.如权利要求1所述系统,其中,所述重建的中间潜在向量的数量和未被所述帧选择器选中的图像帧的数量不同。
4.如权利要求1所述系统,其中,所述发送单元进一步编程以实现配置为减少图像帧的图像尺寸的图像缩减器。
5.如权利要求4所述系统,其中,所述图像缩减器进一步配置为通过从图像帧中去除背景来减小图像尺寸。
6.如权利要求4所述系统,其中,所述图像缩减器进一步被配置为通过分离所述帧中的所述感兴趣对象和背景来缩减所述图像尺寸;以及
对每个图像帧中感兴趣的对象进行高分辨率的压缩,并对每个图像帧中的背景进行低分辨率的压缩,从而实现图像尺寸的减小。
7.如权利要求1所述系统,其中,所述发送单元进一步编程以实现配置为用于增强所述图像帧图像的图像增强器。
8.如权利要求7所述的系统,其中,所述图像增强器进一步被配置为增强所述图像,通过:
在所述图像帧中检测感兴趣的对象;以及
在所述发送单元中放大所述感兴趣的对象的尺寸,其中这种放大包括提高所述感兴趣的对象在所述图像帧中的分辨率;以及
其中所述接收单元进一步配置为接收来自放大的感兴趣的对象的图像,并缩小放大的感兴趣的对象。
9.如权利要求1所述的系统,其中,所述接收单元有一个附加的潜在向量生成器,用于生成附加的替换向量,以替换所述接收单元没有接收到的损坏或丢失的潜在向量。
10.如权利要求1所述的系统,包括多个发送单元和接收单元,其中所述多个发送单元通过选择转发单元(SFU)向所述多个接收单元发送相应的多个所选帧潜在向量,所述SFU被配置为:
接收所述多个所选帧潜在向量;
选择向哪些接收单元发送所述多个所选帧潜在向量;
并将相应的潜在帧潜在向量转发到所选接收单元。
11.一个发送单元,包括处理器和存储器,所述发送单元被编程为执行以下模块:
帧选择器,配置为以设定的间隔从所述感兴趣的对象的帧中选择图像帧;以及
编码器,配置为从所述所选帧中生成所选帧潜在向量,所选帧潜在向量是所述感兴趣的对象的压缩表示形式;
其中所述发送单元被进一步编程为将所选帧潜在向量发送到一个目标。
12.如权利要求11所述发送单元,其中,所述目标是一存储介质,且其中所述所选帧潜在向量存储在所述存储介质上。
13.如权利要求11所述发送单元,其中,所述发送单元还被编程为实现一图像缩减器,所述图像缩减器缩减所述图像帧的图像尺寸。
14.如权利要求11所述发送单元,其中,所述发送单元进一步编程以实现用于增强所述图像帧的图像的图像增强器。
15.一种接收单元,包括处理器和存储器,所述接收单元被编程为,至少:
接收所选帧潜在向量;以及
执行模块,包括:
插值器,被配置为通过插值在两个连续的所选帧潜在向量之间重建一些数量的中间潜在向量,并将所述接收的所选帧潜在向量和重建的中间潜在向量发送到解码器;以及
所述解码器,被配置为对接收到的所选帧潜在向量和重建的中间潜在向量进行解码,并从选定的帧潜在向量和中间潜在向量生成感兴趣对象的图像帧。
16.如权利要求15所述接收单元,其中从发送单元接收所选择的帧潜在向量。
17.如权利要求15所述接收单元,其中所选择的帧潜在向量存储在存储介质上,并且所述接收单元通过从所述存储介质检索来接收所选择的帧潜在向量。
18.一种由计算机系统执行的方法,所述计算机系统包括一个或多个计算设备,所述计算设备包括处理器和存储器,该方法包括:
接收感兴趣的对象的图像帧;
以设定的间隔从感兴趣的对象的图像帧中选择图像帧;
从所选帧中生成所选帧潜在向量,所述所选帧潜在向量是所述感兴趣的对象的图像帧的压缩表示;
通过插值在两个连续的所选帧潜在向量之间重建一些数量的中间潜在向量;
对所述接收到的所选帧潜在向量和重建的中间潜在向量进行解码;以及
从所选帧潜在向量和中间潜在向量生成所感兴趣的对象的图像帧,包括与在选择步骤中未选中的感兴趣的对象的图像帧相对应的图像帧。
19.如权利要求18所述的方法,其中,所述生成的中间潜在向量的数量与未被选中的帧的数量相同。
20.一种存储指令的非暂时性计算机可读存储介质,所述指令在由计算机系统的一个或多个处理器执行时使所述计算机系统执行操作,所述操作包括:
接收感兴趣的对象的图像帧;
以设定的间隔从感兴趣的对象的图像帧中选择图像帧;
从所选帧中生成所选帧潜在向量,所述所选帧潜在向量是所述感兴趣的对象的图像帧的压缩表示;
通过插值在两个连续的所选帧潜在向量之间重建一些数量的中间潜在向量;
对接收到的所选帧潜在向量和重建的中间潜在向量进行解码;以及
从所选帧潜在向量和中间潜在向量生成所感兴趣的对象的图像帧,包括与在选择步骤中未选中的感兴趣的对象的图像帧相对应的图像帧。
CN202311059237.2A 2022-08-23 2023-08-22 传输和接收图像帧的系统和方法 Pending CN117640946A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/894,083 2022-08-23
US17/894,083 US20240070806A1 (en) 2022-08-23 2022-08-23 System and method for transmission and receiving of image frames

Publications (1)

Publication Number Publication Date
CN117640946A true CN117640946A (zh) 2024-03-01

Family

ID=87575873

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311059237.2A Pending CN117640946A (zh) 2022-08-23 2023-08-22 传输和接收图像帧的系统和方法

Country Status (5)

Country Link
US (1) US20240070806A1 (zh)
EP (1) EP4329301A1 (zh)
JP (1) JP2024031838A (zh)
KR (1) KR20240027542A (zh)
CN (1) CN117640946A (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10798386B2 (en) * 2019-01-25 2020-10-06 At&T Intellectual Property I, L.P. Video compression with generative models
JP2020129276A (ja) * 2019-02-08 2020-08-27 キヤノン株式会社 画像処理装置、画像処理方法、およびプログラム
US20210304357A1 (en) * 2020-03-27 2021-09-30 Alibaba Group Holding Limited Method and system for video processing based on spatial or temporal importance

Also Published As

Publication number Publication date
KR20240027542A (ko) 2024-03-04
US20240070806A1 (en) 2024-02-29
EP4329301A1 (en) 2024-02-28
JP2024031838A (ja) 2024-03-07

Similar Documents

Publication Publication Date Title
US10846888B2 (en) Systems and methods for generating and transmitting image sequences based on sampled color information
CN111970513A (zh) 一种图像处理方法、装置、电子设备及存储介质
CN111402399B (zh) 人脸驱动和直播方法、装置、电子设备及存储介质
CN112950471A (zh) 视频超分处理方法、装置、超分辨率重建模型、介质
CN102685441A (zh) 用于提供个人视频服务的系统和方法
US11816795B2 (en) Photo-video based spatial-temporal volumetric capture system for dynamic 4D human face and body digitization
WO2024078243A1 (zh) 视频生成模型的训练方法、装置、存储介质及计算机设备
CN114979672A (zh) 视频编码方法、解码方法、电子设备及存储介质
US20220398692A1 (en) Video conferencing based on adaptive face re-enactment and face restoration
WO2023050720A1 (zh) 图像处理方法、图像处理装置、模型训练方法
CN113747242A (zh) 图像处理方法、装置、电子设备及存储介质
CN117640946A (zh) 传输和接收图像帧的系统和方法
Chen et al. Estimating the resize parameter in end-to-end learned image compression
WO2023133888A1 (zh) 图像处理方法、装置、遥控设备、系统及存储介质
JP3859989B2 (ja) 画像マッチング方法およびその方法を利用可能な画像処理方法と装置
CN112533026A (zh) 基于卷积神经网络的视频插帧方法
US11948275B2 (en) Video bandwidth optimization within a video communications platform
CN115358916B (zh) 换脸图像的生成方法、装置、计算机设备及可读存储介质
US20230025378A1 (en) Task-driven machine learning-based representation and compression of point cloud geometry
CN117474956B (zh) 基于运动估计注意力的光场重建模型训练方法及相关设备
WO2023133889A1 (zh) 图像处理方法、装置、遥控设备、系统及存储介质
LU et al. Ultra-Lightweight Face Animation Method for Ultra-Low Bitrate Video Conferencing
CN117896552A (zh) 视频会议的处理方法、视频会议系统以及相关装置
CN116017059A (zh) 视频处理方法、生成视频流的方法、装置、介质及设备
CN113873247A (zh) 一种数字视频数据编码及解码装置及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication