CN116711310A - 恢复图像特征 - Google Patents
恢复图像特征 Download PDFInfo
- Publication number
- CN116711310A CN116711310A CN202180088226.XA CN202180088226A CN116711310A CN 116711310 A CN116711310 A CN 116711310A CN 202180088226 A CN202180088226 A CN 202180088226A CN 116711310 A CN116711310 A CN 116711310A
- Authority
- CN
- China
- Prior art keywords
- feature
- feature set
- image data
- bit stream
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims description 38
- 238000012545 processing Methods 0.000 claims description 33
- 238000004891 communication Methods 0.000 claims description 23
- 238000001514 detection method Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 4
- 230000006835 compression Effects 0.000 description 11
- 238000007906 compression Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 11
- 230000000007 visual effect Effects 0.000 description 8
- 238000000605 extraction Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000007429 general method Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
- G06V20/47—Detecting features for summarising video content
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/127—Prioritisation of hardware or computational resources
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/172—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/184—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/70—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
视频数据解码,包括:获取图像比特流;获取特征比特流,特征比特流指示残差特征集,残差特征集是通过从原始图像数据中检测到的第一特征集中减去从原始图像数据通过编码生成的编码图像数据中检测到的第二特征集而获得的;从解码的图像比特流中,检索解码的特征集;以及根据解码的特征集与从特征比特流解码获取的残差特征集,恢复指示输入图像数据中检测的特征的第一特征集。
Description
技术领域
本发明涉及图像和/或视频处理技术领域,尤其涉及图像、图片、图片流和视频的编解码、解码或编码。更具体地,本发明涉及图像和从这些图像中提取的特征的联合编码和解码。在具体方面中,本发明涉及相应的方法和设备。
背景技术
视频压缩是一项具有挑战性的技术,尤其是对于无线传输非常重要。传统的视频和图像压缩是独立于图像特征和视频特征的编码而发展起来的。这种方法对于当代应用来说似乎是低效的,当代应用需要在基于视频的系统的各个位置进行高级视频分析,例如,联网车辆、高级物流、智能城市、智能视频监控、包括汽车、无人机、无人驾驶卡车和拖拉机在内的自动驾驶车辆、以及与物联网(IoT)及增强和虚拟现实系统相关的许多其他应用。由于物理、技术和经济的限制,大多数这样的系统使用有限容量的传输链路,尤其是展现出有限吞吐量的无线链路。因此,压缩技术对于这些应用至关重要。
在上述应用中,视频或图像通常不是由人类使用,而是由不同类型的机器使用,例如,导航系统、自动识别和分类系统、排序系统、事故预防系统、安全系统、监视系统、访问控制系统、交通控制系统、防火和防爆系统以及许多其他系统。在此类应用中,压缩技术应通过这样的方式设计,即当使用解压缩的图像或视频时,自动视频分析不会受到阻碍。
传统的图像/视频压缩模式是减少比特数,同时保留人类感知的相对良好的解码图像/视频质量。在上述应用中,对人类感知的良好图像/视频质量的要求不是对视频/图像质量的唯一要求。同样重要、甚至更重要的是基于解压缩图像或视频的高级视频分析的效率和准确性。如开始所提到的,即将到来的实际应用将需要图像/视频与视觉特征(即从视觉信息中提取的特征)的同时编码和解码。本发明与该任务相关。
编解码通常包括编码和解码。编码是压缩图像或视频内容并可能改变图像或视频内容的格式的过程。编码很重要,因为它减少了在有线或无线网络上传输图像或视频所需的带宽。另一方面,解码是对编码或压缩的图像或视频进行解码或解压缩的过程。由于编码和解码适用于不同的设备,因此已经开发了称为编解码器(codec)的编码和解码标准。编解码器通常是用于对图像和视频进行编码和解码的算法。
通常,图像数据在编码器侧被编码以生成比特流。这些比特流通过数据通信被传送到解码侧,在解码侧这些比特流被解码以便重建图像数据。因此,图像、图像和视频可以以比特流的形式通过数据通信从编码器(发射侧)移动到解码器(接收侧),并且所述数据通信的任何限制都可能导致比特流中的数据丢失和/或延迟,这最终可能导致解码和接收侧的图像质量降低。虽然图像数据编解码和特征检测已经为通信提供了大量的数据简化,但是传统的技术仍然存在各种缺点。
因此,需要一种用于对图像或视频以及视觉特征进行联合编解码的有效技术。在相同的总比特率下,解码后的图像或视频和视觉特征相比对图像或视频以及视觉特征进行独立编解码而言应当保持更好的质量。
发明内容
所提到的问题和缺点由独立权利要求的主题来解决。在从属权利要求中限定了进一步的优选实施例。具体地,本发明的实施例可以提供的实质性益处是:在接收侧重建的图像或视频数据的质量和保真度,同时仍然保持或者甚至降低用于传送比特流所涉及的数据通信所需的数据吞吐量。进一步的优点还可以包括:在编码/发射侧和解码/接收侧中的任何一处,减少数据处理。
根据本发明的一个方面,提供了一种视频数据解码的方法,包括以下步骤:获取图像比特流;获取特征比特流,特征比特流指示残差特征集;从解码的图像比特流中,检索解码的特征集;以及根据解码的特征集与残差特征集,获取恢复的特征集,其中,残差特征集是从特征比特流解码获取的。
根据本发明的另一个方面,提供了一种视频数据编码的方法,包括以下步骤:对输入的图像数据进行编码,以获得编码的图像数据,编码的图像数据作为生成图像比特流的基础;对输入的图像数据执行特征检测,以获得第一特征集;对编码的图像数据执行特征检测,以获得第二特征集;以及将第一特征集和第二特征集结合,以获得特征增强数据。
根据本发明的另一个方面,提供了一种视频数据解码设备,包括处理资源和存储资源,处理资源访问存储资源以获取代码,代码指示处理资源在操作期间执行以下步骤:获取图像比特流;获取特征比特流,特征比特流指示残差特征集;从解码的图像比特流中,检索解码的特征集;以及根据解码的特征集与残差特征集,获取恢复的特征集,其中,残差特征集是从特征比特流解码获取的。
根据本发明的另一个方面,提供了一种视频数据编码设备,包括处理资源和存储资源,处理资源访问存储资源以获取代码,代码指示处理资源在操作期间执行以下步骤:对输入的图像数据进行编码,以获得编码的图像数据,编码的图像数据作为生成图像比特流的基础;对输入的图像数据执行特征检测,以获得第一特征集;对编码的图像数据执行特征检测,以获得第二特征集;以及将第一特征集和第二特征集结合,以获得特征增强数据。
根据本发明的另一个方面,提供了一种计算机程序,包括代码,代码指示处理资源在操作期间执行以下步骤:对输入的图像数据进行编码,以获得编码的图像数据,编码的图像数据作为生成图像比特流的基础;对输入的图像数据执行特征检测,以获得第一特征集;对编码的图像数据执行特征检测,以获得第二特征集;以及将第一特征集和第二特征集结合,以获得特征增强数据。
根据本发明的一个方面,提供了一种计算机程序,包括代码,代码指示处理资源在操作期间执行以下步骤:获取图像比特流;获取特征比特流,特征比特流指示残差特征集;从解码的图像比特流中,检索解码的特征集;以及根据解码的特征集与残差特征集,获取恢复的特征集,其中,残差特征集是从特征比特流解码获取的。
附图说明
现在将参考附图描述本发明的实施例,这些实施例是为了更好地理解本发明的概念而提出的,但不应被视为限制本发明。
图1A示出了一般常规配置的示意图。
图1B示出了传统技术的一般用例以及采用本发明实施例的环境的示意图。
图2A和图2B示出了本发明的实施例的配置示意图。
图3A示出了根据本发明实施例的用于编码侧的通用设备实施例的示意图。
图3B示出了根据本发明实施例的用于解码侧的通用设备实施例的示意图。
图4A和图4B示出了本发明的一般方法实施例的流程图。
具体实施方式
图1A示出了对图像(在整个公开中,应同义地理解为:视频、视觉信息或图像数据形式的图像流)和视觉特征(即,从这些图像或视觉信息中提取的特征)进行单独编码和解码的传统配置的示意图。通常,原始图像和提取的特征都被编码(压缩),并以两个独立比特流的形式传输到解码侧。在解码侧,对编码后的原始图像和编码后的提取特征进行解码,以获得重建图像和重建特征。通常,本发明的实施例可以考虑在编码侧,从以图像数据的形式提供的视频中提取特征,并以特征比特流的形式对视频的残差数据进行编码;在解码侧,从以接收到的图像数据的形式提供的视频中提取特征,并对接收到的特征比特流形式的视频的残差数据进行解码,以便恢复和重建原始图像数据。
更具体地,在编码侧1,对形成图像31、图像流或视频或作为图像31、图像流或视频的一部分的输入图像数据41(或也称为原始图像数据)进行处理。图像数据41被输入到编码器11和产生原始特征数据42的特征提取器12。通过特征编码器13对原始特征数据42进行编码,从而在编码侧1产生两个比特流,即图像比特流45和特征比特流46。在一些实施例中,两个比特流进一步被分开传送。而在另一些实施例中,可以将两个比特流复用/混合成一个比特流,例如,特征比特流可以嵌入到图像比特流中。通常,在本公开的上下文中,术语“图像数据”应包括:包含、指示和/或可以被处理以获得图片、图像、图像流/图片流、视频、电影等的所有数据;尤其是,流、视频或电影可以包含一个或多个图像。
这两个比特流45、46通过例如任何类型的合适的数据连接、通信基础设施以及适用的协议,从编码侧1传送到解码侧2。例如,比特流45、46由服务器提供,并通过互联网和一个或多个通信网络传送到移动设备,在移动设备中对比特流进行解码,并生成相应的显示数据,以便用户可以在该移动设备的显示设备上观看图像。
在解码侧2,接收并恢复这两个比特流。图像流解码器21对图像比特流45进行解码,以便生成一个或多个重建图像。特征解码器22对特征比特流46进行解码,以便生成一个或多个重建特征。图像和特征构成了用于生成要在解码侧2使用、处理以及显示的相应图像数据32的基础。
图1B示出了传统技术的一般用例以及采用本发明实施例的环境的示意图。在解码侧1,布置有设备51,例如数据中心、服务器、处理设备、数据存储器等,被布置成存储图像数据并生成图像比特流45和特征比特流46。比特流45、46经由任何合适的网络和数据通信基础设施60向解码侧2传送,在解码侧2,例如,移动设备52接收比特流45、46,对它们进行解码,并进一步根据图像比特流和指示恢复的图像数据的恢复的第一特征集生成重建数据。可以使用适当的解码和处理,以生成用于在(目标)移动设备52的显示器53上显示的一个或多个图像的显示数据。
如上所述,在编码侧,对图像数据进行编码以生成比特流。这些比特流通过数据通信传送到解码侧,在解码侧,对这些比特流进行解码以便重建图像数据。很明显,图像以比特流的形式通过数据通信从编码器(发射侧)移动到解码器(接收侧),并且所述数据通信的任何限制都可能导致比特流中的数据丢失和/或延迟,这最终可能导致解码和接收侧的图像质量降低。虽然图像数据编解码和特征检测已经为通信提供了大量的数据简化,但是传统的技术仍然存在各种缺点,并且在接收器处重建的图像数据的质量仍然不令人满意。
图2A示出了可以实现本发明的实施例的配置示意图。一般而言,本发明有专注于编码侧的实施例,也有专注于解码侧的实施例。虽然这些实施例是独立要求保护的,但它们可以以类似于插头和插座的组件的通用形式进行交互。根据侧重于编码侧的实施例,从原始图像数据以及经编码然后解码的图像数据检测特征,使得比特流可以从编码侧1传输到解码侧2。在解码侧2,对编码的原始图像和编码的提取特征进行解码,以获得重建图像和重建特征。
更具体地,在编码侧1,对输入图像数据31进行处理,图像数据31形成图像、图像流或视频,或作为图像、图像流或视频的一部分。通常,术语“输入图像数据”可以指要经过编码并通过网络传输的原始图像数据。在某种意义上,原始图像数据可以形成作为相对无损失和高质量图像数据的基础输入数据。将图像数据31输入到编码器11以及产生原始特征数据42的特征提取器12。根据该实施例,编码的图像数据45在解码器16处再次被解码,该解码器16优选地也位于编码侧1,以便获得重建的图像数据,该重建的图像数据可以包括先前通过编码器11呈现的压缩或编码的特征和/或特性。因此,产生经解码的编码图像数据43,其被馈送到另一个特征提取器14,该特征提取器14产生另一个特征数据43,该特征数据43可以包括和/或指示从可能较低质量的经解码的编码图像数据43提取的特征。
特征数据42以及另一个特征数据43都被馈送到预测器15,在该预测器15处,出现从原始输入图像数据41中提取12的相对高质量的特征42以及从编码的视频/图片图像数据45中提取14的相对低质量的特征43,编码的视频/图片图像数据45将至少以某种形式在解码侧也可用。在预测器15中,从输入图像数据中检测到的第一特征集42的特征中减去编码图像数据中检测到的第二特征集43中的特征,该编码图像数据是通过编码从输入图像数据生成的。以这种方式,获得残差特征集,该残差特征集形成用于生成特征比特流46的基础,该特征比特流46指示作为减法结果的残差特征集。
通过这种方式,可以避免在特征比特流中传输可以在解码侧从已有的数据中获得的内容(在图像和视频的一般数据意义上),因为相对低质量特征集可以在解码侧获得。因此,在该实施例中,基于相对低质量的特征预测相对高质量的特征集。
在一个实施例中,相应的预测包括:例如在下面的公式中提出的对应特征的值的减法:
结果特征=高质量特征-低质量特征
(result_feature=high_quality_feature–low_quality_feature)。
可以对所有对应的特征执行该公式。在替选方案中,预测特征集,使得通过从相对高质量的特征集中减去相对低质量的特征集来获得结果特征集,如下所示:
结果特征集=高质量特征集-低质量特征集
(result_feature_set=high_quality_feature_set–low_quality_feature_set)。
通常,所提到的减法意味着在相对高质量的特征集中删除已经存在于相对低质量的特征集中的元素。
在另一个实施例中,特征数据42和另一个特征数据43被选择性地复用以产生特征增强数据44。仅保留关于原始图像数据中的特征以及关于经解码的编码图像数据中的特征的一部分信息,以便在解码侧解码时使用。例如,同时存在于这两个图像数据中的特征可以被省略,因为该特征显然已经通过图像比特流45被充分地传送到解码侧。在这样的实施例中,预测器15可以充当加法器,特征数据42被增加(+)并且另一个特征数据43被减去(-)。
换句话说,在解码侧从被编码在所传输的图像比特流中的图像中提取相对低质量的特征,并且在所传输的特征比特流中添加和编码增强数据,从而可以重建特征。因此,与特征相关的编码数据仅由有限的增强数据组成,而不是所有的特征,尤其不是能通过其他图像比特流传送的特征。通过这种方式,相对于现有的替代方案的优点包括:1)减小所涉及的比特流的大小,因为直接传输所有图像特征需要编码更多的信息,因此具有更大的比特流;2)与完全不传输图像特征以及在解码侧提取特征相比,保持甚至提高了质量,因为前者由于解码的图像很可能失真而导致只有低质量的特征。
通过特征编码器13对特征增强数据44进行编码,使得在编码侧1产生两个比特流,即图像比特流45和特征比特流46。这两个比特流45、46通过例如任何类型的合适的数据连接、通信基础设施以及适用的协议,从编码侧1传送到解码侧2。例如,比特流45、46由服务器提供,并通过互联网和一个或多个通信网络传送到移动设备,在移动设备中对比特流进行解码,并生成相应的显示数据,以便用户可以在该移动设备的显示设备上观看图像。
根据专注于解码侧的实施例,在解码侧2获得图像比特流45和特征比特流46。特征比特流46指示残差特征集,并且可以通过对图像比特流45进行解码来获得解码的特征集,即借助于解码器21获得解码的图像比特流48。可以根据解码的特征集49和从特征比特流46解码的残差特征集47获得恢复的特征集50,通过解码器22对特征比特流46进行解码获得残差特征集47。
在其他实施例中,应用以下选项中的任何一个。首先,可以潜在地在编码侧通过编码从输入图像数据生成所获得的图像比特流。第二,通过从输入图像数据中检测到的特征集中减去从输入图像数据通过编码生成的编码图像数据中检测到的特征集来获得残差特征集。潜在地,可以在编码侧获得残差特征集。第三,恢复的特征集可以指示在输入图像数据中检测到的特征。第四,可以根据选择性预测生成特征比特流。仅通过特征比特流传送没有从编码的图像数据中预测的特征。通常,术语“输入图像数据”可以指要经过编码并通过网络传输的原始图像数据。在某种意义上,原始图像数据可以形成作为相对无损失和高质量图像数据的基础输入数据。
换句话说,可以在编码侧通过编码从输入图像数据生成图像比特流45,并且可以例如通过数据通信(例如互联网、移动网络等)来接收图像比特流45。特征比特流46指示残差特征集,残差特征集是通过从输入图像数据中检测到的特征集中减去从输入图像数据通过编码生成的编码图像数据中检测到的特征集而获得的。在某种程度上,通过特征比特流46传送特征的压缩差分集。
在图像解码器21中,图像比特流45被解码,以产生解码图像比特流48,该解码图像比特流48被进一步处理以产生要在解码侧显示的图像数据32。解码图像数据48进一步被馈送到特征提取器48,以便以特征集49的形式实际再现相对低质量的特征集43。在特征解码器22中,特征比特流46被解码以获得残差特征集47。在25中,特征集50被恢复,该特征集实际上指示或包括从解码的特征集中检测到的输入图像数据中的特征49和从特征比特流解码的残差特征集47。以这种方式,可以在解码侧再现如最初在编码侧1以特征集42的形式提供的相对高质量的整个特征集,同时减少传输特征比特流46所需的数据量。通常,从原始图像数据以及编码后再解码的图像数据中检测特征,使得比特流可以从编码侧1传输到解码侧2。在解码侧2,对编码的原始图像和编码的提取特征进行解码,以获得重建图像和重建特征。
换句话说,在解码侧2,基于对特征的预测(在解码器24处提取的相对低质量的特征)以及在特征比特流46中传输的预测误差的种类来重建图像特征。
因此,本发明的实施例可以提供一个或多个优点,其中,通过还从先编码再解码的视频中提取特征而提高了特征检测的准确性。当在传送各个比特流期间视频传输的比特率较低时,这些特征可能严重失真。以这种方式,可以通过特征的编码增强数据的附加流来提高特征保真度,如结合图2举例说明的特征比特流46’。这尤其比特征的联播(simulcast)压缩更有效。
因此,本发明的实施例考虑从原始图像提取的特征的编解码,包括基于从重建图像提取的特征对这些特征进行预测。通常,本发明的实施例考虑单色和彩色图像/视频、静止和运动图像(视频)、各种适用的特征提取和检测方法,包括但不限于线性滤波、非线性滤波、特别强调基于神经网络的特征提取方法的滤波。这种特征提取方法可以产生离散特征,例如尺寸不变特征变换(SIFT)、用于视频分析的紧凑描述符(CDVA)和用于视觉搜索的紧凑描述符(CDVS)。
此外,本发明的实施例可以应用于各种适用的视频编解码器中的任何一个中,包括但不限于,如JPEG、JPEG 2000、JPEG XR、PNG、MPEG-2(H.262)、AVC(H.264)、AVS(任何版本)、HEVC(H.265)、VC-1、HEVC(H.266)、AV 1、EVC、VVC等。此外,实施例可以不依赖于实际采用的压缩技术,例如,在任何编码器/解码器11、11’、13、21、22中采用的用于图像和视频压缩以及编码和压缩特征的增强数据的压缩技术。
图2B示出了本发明的另一配置实施例的示意图。除了采用了一个本身提供重建图像的编码器11’,因此不需要在编码侧1使用解码器(例如图2A的解码器16)之外,其他方面和元件与结合图2A公开和描述的那些方面和元件相同或类似。在该实施例中,可以将编码的图像数据直接馈送到另一个特征提取器14,用于生成另一个特征数据43。
图3A示出了根据本发明实施例的用于编码侧的通用设备实施例的示意图。编码设备70包括处理资源71、存取存储器72以及接口73。所述存取存储器72可以存储代码或可以访问代码,该代码指示处理资源71执行如结合本公开所描述和解释的本发明的任何方法实施例的一个或多个步骤。
具体地,代码可以指示处理资源71通过通信接口73获取待编码的图像数据31,对该图像数据31进行编码以获得编码的图像数据,作为生成图像比特流45的基础,该图像比特流可以经由通信接口73向解码侧输出。可选地,可以存在执行对编码数据的进行解码的代码。从被编码或被解码的编码图像数据中执行特征检测以获得第二特征集。如果编码本身具有重建图像,则可以省略解码。对所获得的图像数据进一步进行特征检测,以获得第一特征集。通过组合第一特征集和第二特征集来将第一特征集和第二特征集结合,以获得特征增强数据46’,该数据可以输出为另一个比特流。
处理资源可以实施为一个或多个处理单元,例如中央处理单元(CPU),或者也可以通过分布式和/或共享处理能力来提供,例如存在于数据中心中或者以所谓的云计算的形式。类似的考虑适用于可以由本地存储器实施的访问存储器,包括但不限于,硬盘驱动器(HDD)、固态驱动器(SSD)、随机存取存储器(RAM)、闪存。同样,分布式和/或共享存储器存储也可以应用,例如数据中心和/或云存储器存储。
图3B示出了根据本发明实施例的用于解码侧的通用设备实施例的示意图。解码装置80包括处理资源81、存取存储器82以及接口83。存取存储器82可以存储代码或可以访问代码,该代码指示处理资源81执行如结合本公开所描述和解释的本发明的任何方法实施例的一个或多个步骤。此外,设备80可以包括显示单元84,显示单元84可以从处理资源81接收显示数据,以显示与图像数据一致的内容。设备80通常可以是计算机、个人计算机、平板计算机、笔记本计算机、智能手机、移动电话、视频播放器、电视机顶盒、接收器等,如在本领域中已知的那样。
具体地,代码可以指示处理资源81通过通信接口83获取图像比特流45和特征比特流46。特征比特流可以指示残差特征集,该残差特征集是通过从输入或原始图像数据中检测到的特征集中减去从输入或原始图像数据通过编码生成的编码图像数据中检测到的特征集而获得的。代码可以指示处理资源81进一步从解码的图像比特流中检索解码的特征集,并根据解码的特征集和从特征比特流解码的残差特征集获得恢复的特征集。代码还可以指示处理资源81生成要在显示单元84上显示的显示数据。
图4A示出了本发明的一般方法实施例的流程图。具体地,示出了一种视频数据编码的方法,该方法包括可选步骤S1:获取待编码的输入图像数据。该输入图像数据在步骤S2中被编码以获得编码的图像数据,该编码的图像数据作为生成图像比特流的基础。可选地,在步骤S3中对该编码的图像数据进行解码,并且在步骤S4中对解码的图像数据执行特征检测以获得第二特征集。如果步骤S2中的编码其本身具有重建图像,则可以省略步骤S3的解码,并且该方法可以直接进行到步骤S3之后的步骤S4。在步骤S5中,进一步对输入的图像数据进行特征检测,以获得第一特征集。在步骤S6中使用第一特征集以及第二特征集生成残差特征集,如在本公开的其他地方更详细描述的那样。
图4B示出了本发明的一般方法实施例的流程图。具体地,示出了一种视频数据解码的方法,该方法包括:步骤S11:获取可以通过编码从输入/原始图像数据生成的图像比特流,以及步骤S13:获取特征比特流。特征比特流可以指示残差特征集,该残差特征集是通过从输入或原始图像数据中检测到的特征集中减去从输入或原始图像数据通过编码生成的编码图像数据中检测到的特征集而获得的。在步骤S14中,可以对特征比特流进行解码,以获得残差特征集。该方法还包括步骤S12:解码图像比特流,和步骤S15:从解码的图像比特流中检索解码的特征集。在步骤S16中,根据解码的特征集和从特征比特流解码的残差特征集获得恢复的特征集。
尽管已经描述了详细的实施例,但这些实施例仅用于提供对由独立权利要求限定的本发明的更好的理解,而不应被视为限制本发明。
Claims (26)
1.一种用于视频数据解码的方法,包括以下步骤:
获取图像比特流;
获取特征比特流,所述特征比特流指示残差特征集;
从解码的所述图像比特流中,检索解码的特征集;以及
根据所述解码的特征集与所述残差特征集,获取恢复的特征集,其中,所述残差特征集是从所述特征比特流解码获取的。
2.根据权利要求1所述的方法,其中,所述恢复的特征集由所述解码的特征集与从所述特征比特流解码的所述残差特征集的和获取。
3.根据权利要求1或2所述的方法,还包括步骤:
对所述特征比特流进行解压缩和解码,以获得所述残差特征集。
4.根据权利要求1至3中任一项所述的方法,还包括步骤:
根据所述图像比特流与所述恢复的特征集,生成重建数据。
5.根据权利要求1至4中任一项所述的方法,还包括步骤:
对所述图像比特流进行解码。
6.根据权利要求1至5中任一项所述的方法,还包括步骤:
对所述特征比特流进行解码。
7.一种用于视频数据编码的方法,包括以下步骤:
对输入的图像数据进行编码,以获得编码的图像数据,所述编码的图像数据作为生成图像比特流的基础;
对所述输入的图像数据执行特征检测,以获得第一特征集;
对所述编码的图像数据执行特征检测,以获得第二特征集;以及
将所述第一特征集和所述第二特征集结合,以获得特征增强数据。
8.根据权利要求7所述的方法,还包括步骤:
对所述编码的图像数据进行解码,以获得经解码的编码图像数据,然后对所述经解码的编码图像数据执行特征检测,以获得所述第二特征集。
9.根据权利要求7或8所述的方法,还包括步骤:
根据所述编码的图像数据,生成图像比特流。
10.根据权利要求7至9中任一项所述的方法,还包括步骤:
根据所述特征增强数据,生成特征比特流。
11.根据权利要求10所述的方法,其中,生成所述特征比特流包括:对所述特征增强数据进行编码。
12.根据权利要求7至11中任一项所述的方法,还包括步骤:
复用比特流,以向解码侧传送编码形式的所述图像数据。
13.根据权利要求7至12中任一项所述的方法,其中,将所述第一特征集和所述第二特征集结合包括:将所述第一特征集和所述第二特征集拼接,以生成所述特征增强数据。
14.根据权利要求7至13中任一项所述的方法,其中,将所述第一特征集和所述第二特征集结合包括:选择所述第一特征集和所述第二特征集中的特征,以使所选择的特征用于生成所述特征增强数据。
15.根据权利要求7至14中任一项所述的方法,其中,将所述第一特征集和所述第二特征集结合包括:省略在第一特征集和所述第二特征集中均存在的特征。
16.根据权利要求7至15中任一项所述的方法,其中,所述图像数据包括:包含、指示和/或能够被处理以获得图片、图像、图像流/图片流、视频、电影的数据;其中,流、视频或电影包含一个或多个图像。
17.根据权利要求7至16中任一项所述的方法,还包括步骤:
获得待编码的图像数据。
18.根据权利要求7至17中任一项所述的方法,其中,所有步骤都在编码侧执行。
19.一种视频数据解码设备,包括:处理资源和存储资源,所述处理资源访问所述存储资源以获取代码,所述代码指示所述处理资源在操作期间执行以下步骤:
获取图像比特流;
获取特征比特流,其中,所述特征比特流指示残差特征集;
从解码的所述图像比特流中,检索解码的特征集;以及
根据所述解码的特征集与所述残差特征集,获取恢复的特征集,其中,所述残差特征集是从所述特征比特流解码获取的。
20.根据权利要求19所述的视频数据解码设备,包括通信接口,所述通信接口被配置为:通过通信网络接收传送所述图像比特流和所述特征比特流的通信数据。
21.根据权利要求20所述的视频数据解码设备,其中,所述通信接口适于通过无线移动网络执行通信。
22.根据权利要求19至21中任一项所述的视频数据解码设备,还包括显示单元,所述显示单元被配置为:显示基于所获取的所述图像比特流和所述特征比特流生成的内容。
23.一种视频数据编码设备,包括处理资源和存储资源,所述处理资源访问所述存储资源以获取代码,所述代码指示所述处理资源在操作期间执行以下步骤:
对输入的图像数据进行编码,以获得编码的图像数据,所述编码的图像数据作为生成图像比特流的基础;
对所述输入的图像数据执行特征检测,以获得第一特征集;
对所述编码的图像数据执行特征检测,以获得第二特征集;以及
将所述第一特征集和所述第二特征集结合,以获得特征增强数据。
24.一种计算机程序,包括代码,所述代码指示处理资源在操作期间执行以下步骤:
对输入的图像数据进行编码,以获得编码的图像数据,所述编码的图像数据作为生成图像比特流的基础;
对所述输入的图像数据执行特征检测,以获得第一特征集;
对所述编码的图像数据执行特征检测,以获得第二特征集;以及
将所述第一特征集和所述第二特征集结合,以获得特征增强数据。
25.一种计算机程序,包括代码,所述代码指示处理资源在操作期间执行以下步骤:
获取图像比特流;
获取特征比特流,所述特征比特流指示残差特征集;
从解码的所述图像比特流中,检索解码的特征集;以及
根据所述解码的特征集与所述残差特征集,获取恢复的特征集,其中,所述残差特征集是从所述特征比特流解码获取的。
26.权利要求19、23、24和25中任一项所述的主题,适于执行根据权利要求2至6和8至18中任一项所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP21461504.9 | 2021-01-04 | ||
EP21461504 | 2021-01-04 | ||
PCT/CN2021/074426 WO2022141734A1 (en) | 2021-01-04 | 2021-01-29 | Recovering picture features |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116711310A true CN116711310A (zh) | 2023-09-05 |
Family
ID=74141425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180088226.XA Pending CN116711310A (zh) | 2021-01-04 | 2021-01-29 | 恢复图像特征 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20230362385A1 (zh) |
EP (1) | EP4272443A1 (zh) |
JP (1) | JP2024502101A (zh) |
KR (1) | KR20230129064A (zh) |
CN (1) | CN116711310A (zh) |
MX (1) | MX2023007991A (zh) |
WO (1) | WO2022141734A1 (zh) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020055279A1 (en) * | 2018-09-10 | 2020-03-19 | Huawei Technologies Co., Ltd. | Hybrid video and feature coding and decoding |
CN111988609B (zh) * | 2019-05-22 | 2024-07-16 | 富士通株式会社 | 图像编码装置、概率模型生成装置和图像解码装置 |
-
2021
- 2021-01-29 WO PCT/CN2021/074426 patent/WO2022141734A1/en active Application Filing
- 2021-01-29 CN CN202180088226.XA patent/CN116711310A/zh active Pending
- 2021-01-29 KR KR1020237026472A patent/KR20230129064A/ko unknown
- 2021-01-29 JP JP2023540789A patent/JP2024502101A/ja active Pending
- 2021-01-29 MX MX2023007991A patent/MX2023007991A/es unknown
- 2021-01-29 EP EP21705418.8A patent/EP4272443A1/en active Pending
-
2023
- 2023-07-03 US US18/217,753 patent/US20230362385A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230362385A1 (en) | 2023-11-09 |
KR20230129064A (ko) | 2023-09-05 |
EP4272443A1 (en) | 2023-11-08 |
MX2023007991A (es) | 2023-07-18 |
JP2024502101A (ja) | 2024-01-17 |
WO2022141734A1 (en) | 2022-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210203997A1 (en) | Hybrid video and feature coding and decoding | |
CN109547786B (zh) | 视频编码、以及视频解码的方法、装置 | |
US10764588B2 (en) | Deep quality enhancement of adaptive downscaled coding for image compression | |
GB2513303A (en) | Method and device for partitioning an image | |
WO2017191749A1 (ja) | 画像処理装置及び画像処理方法 | |
US11418802B2 (en) | Video decoder memory optimization | |
KR20210134992A (ko) | 안정성 정보 및 트랜션트/확률적 정보의 구별되는 인코딩 및 디코딩 | |
JP2023546392A (ja) | マルチレイヤ信号符号化の分散解析 | |
JP2024520151A (ja) | 特徴データ符号化および復号方法および装置 | |
CN114257818B (zh) | 视频的编、解码方法、装置、设备和存储介质 | |
KR102238091B1 (ko) | 3d 모델 압축 및 압축해제 시스템 및 방법 | |
JP2005519543A (ja) | レイヤ映像符合化のための方法及びシステム | |
US20130039429A1 (en) | Computer display content coding method and system | |
WO2022057746A1 (zh) | 一种图像处理方法、装置、设备及计算机可读存储介质 | |
US20110142137A1 (en) | Video processing | |
CN110474867A (zh) | 一种多媒体数据的传输方法、系统及设备 | |
JP2024501738A (ja) | 特徴抽出及び画像合成に基づくビデオ符号化 | |
WO2023225808A1 (en) | Learned image compress ion and decompression using long and short attention module | |
CN116711310A (zh) | 恢复图像特征 | |
KR20060043050A (ko) | 영상 신호의 인코딩 및 디코딩 방법 | |
US10666986B1 (en) | Sub-block based entropy coding for embedded image codec | |
WO2022247000A1 (en) | Reconstruction of panoramic view using panoramic maps of features | |
WO2022246999A1 (en) | Multiview video encoding and decoding | |
KR101606121B1 (ko) | 동영상 파일 조각화 방법 및 그 장치 | |
CN106954073B (zh) | 一种视频数据输入和输出方法、装置与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |