CN112866715B - 一种支持人机混合智能的通用视频压缩编码系统 - Google Patents

一种支持人机混合智能的通用视频压缩编码系统 Download PDF

Info

Publication number
CN112866715B
CN112866715B CN202110011758.5A CN202110011758A CN112866715B CN 112866715 B CN112866715 B CN 112866715B CN 202110011758 A CN202110011758 A CN 202110011758A CN 112866715 B CN112866715 B CN 112866715B
Authority
CN
China
Prior art keywords
data
semantic
representation information
code stream
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110011758.5A
Other languages
English (en)
Other versions
CN112866715A (zh
Inventor
陈志波
金鑫
孙思萌
冯若愚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202110011758.5A priority Critical patent/CN112866715B/zh
Publication of CN112866715A publication Critical patent/CN112866715A/zh
Application granted granted Critical
Publication of CN112866715B publication Critical patent/CN112866715B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/91Entropy coding, e.g. variable length coding [VLC] or arithmetic coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种支持人机混合智能的通用视频压缩编码系统,包括:编码端:对输入的视频或者图像数据进行数据表征解析,获得语义表征信息与像素表征信息,建立两类表征信息的语义关联,构建出数据的语义拓扑关系,对语义表征信息、像素表征信息以及语义拓扑关系进行编码,封装为结构化码流;解码端:对结构化码流进行解封装,提取出与机器智能分析相关的码流并进行解析后,用于机器智能分析,同时进行数据解码,重构出视频或者图像数据。该系统可以实现针对各个任务所需视频/图像数据的编码,从而既能提高智能任务分析准确性,减轻数据传输压力,支持边缘分析计算,又能同时支持人眼视觉研判,确保系统的鲁棒性、准确性、安全性等未来的需求。

Description

一种支持人机混合智能的通用视频压缩编码系统
技术领域
本发明涉及视频/图像压缩编码技术领域,尤其涉及一种支持人机混合智能的通用视频压缩编码系统。
背景技术
以图像、视频为代表的多媒体数据产业迅速发展,下一代移动网络的出现将给传统多媒体产业带来更大的机遇和挑战,同时伴随人类社会从信息化向智能化迈进,愈来愈多的图像视频智能分析被应用在公共安全监控、无人辅助驾驶、远程机器操控、互联网医疗、军事国防等领域。
上述诸多开放性场景中需要确保智能分析结果的可解释性和鲁棒性,因此需引入人机智能交互协同、混合增强智能等全新范式,这是未来人工智能的重要发展趋势。传统数据编码如MPEG-2或者H.264、H.265和H.266虽然通过对压缩码流进行数据解码重建也可以支撑人机混合智能任务,但是带宽利用率低、解码复杂度高是制约其被广泛应用的关键问题。
近期的特征编码方案如视觉搜索紧凑描述子国际标准(CDVS,CompactDescriptorsforVisualSearch)可以以较小的存储和传输带宽支持特定的智能分析任务如检索等,但是在支持多任务的泛化能力和支持人机协同研判的场景方面还是有所不足。因此探索新的高效数据表征与压缩方法,支持各类人机混合智能应用场景,具有重要的意义。
发明内容
本发明的目的是提供一种支持人机混合智能的通用视频压缩编码系统,可以实现针对各个任务所需视频/图像数据的编码,从而既能提高智能任务分析准确性,减轻数据传输压力,支持边缘分析计算,又能同时支持人眼视觉研判,确保系统的鲁棒性、准确性、安全性等未来的需求。
本发明的目的是通过以下技术方案实现的:
一种支持人机混合智能的通用视频压缩编码系统,包括:
编码端:对输入的视频或者图像数据进行数据表征解析,获得语义表征信息与像素表征信息,建立语义表征信息与像素表征信息的语义关联,构建出数据的语义拓扑关系,对语义表征信息、像素表征信息以及数据的语义拓扑关系各自进行编码,并封装为结构化码流;
解码端:对结构化码流进行解封装,提取出与机器智能分析相关的码流并进行解析后,用于机器智能分析,同时进行数据解码,重构出相应的视频或者图像数据。
由上述本发明提供的技术方案可以看出,1)能够支持多种现有甚至未来可能出现的各类智能任务以及人机混合智能应用场景,应用范围广泛,具有较强的实际应用价值。2)针对人机混合智能分析任务进行压缩,将会得到能够实现更为高效的结构化码流生产,提高带宽的利用率,提升解码端智能分析任务的执行效率。3)结构化码流的部分数据能够直接应用于机器智能分析任务,不需要额外解码和处理,减少计算量,加速机器分析任务的进行,支持边缘计算的实现。同时也可以进行解码生成重建图像或者视频,供人眼视觉进行研判分析。综上所述,本发明提供的技术方案能够使得面向人机混合智能应用场景进行视频/图像压缩这一过程更加的通用、灵活、高效。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种支持人机混合智能的通用视频压缩编码系统的框架图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种支持人机混合智能的通用视频压缩编码系统,如图1所示,提供了该系统的编码框架,包含编码与解码两个部分,主要如下:
一、编码端。
前端设有数据表征解析提取模块,可以进行高效的数据表征学习;通过数据表征解析提取模块,对输入的视频或者图像数据进行数据表征解析,获得语义表征信息与像素表征信息
本发明实施例中,输入的视频或者图像数据被解析为两个部分:一部分为中高层语义表征信息,主要包括:目标区域和/或目标属性的表征;另一部分为低层像素表征信息,主要包括:原始像素和/或预测残差的表征。
之后,建立语义表征信息与像素表征信息的语义关联,构建出数据的语义拓扑关系;再对语义表征信息、像素表征信息以及数据的语义拓扑关系各自进行编码,并封装为结构化码流。
结构化压缩码流可以根据后端的任务类型需求进行自适应的传输适配,选取合适的部分或全部码流进行传输以提高带宽利用效率。
示例性的,如果机器智能分析任务主要是进行行人识别,则可以只将码流中包含行人的部分码流传输到解码端,其他数据无需传输,进而大幅提高带宽利用效率。
二、解码端。
对结构化码流进行解封装,对结构化码流进行解封装,提取出与机器智能分析相关的码流并进行解析后,用于机器智能分析,同时进行数据解码,重构出相应的视频或者图像数据,进而通过显示设备显示。
本发明实施例中,实际应用中,编码端可以发送全部码流至解码端,也可以按照前文提到的自适应传输方式发送只包含了与机器智能分析相关的码流。如果是后者,由于接收到的码流即为只包含了与机器智能分析相关的码流,因此,提取全部码流做后续的解析与数据解码操作;如果是前者,则可以按照需求提取相关码流再进行后续解析与数据解码操作。当然,在实际应用中解析与数据解码操作所涉及的具体码流可以根据实际情况自行来选定。
示例性的,如果是进行行人重识别的分析,则可以将行人部分码流进行熵解码之后直接送入深度神经网络进行行人重识别分析,充分降低解码的复杂度。同时,这部分码流还可以进行数据解码,重构对应部分的行人图像进行显示,支持人眼的分析研判。
本领域技术人员可以理解,熵解码是码流解析的一部分,熵解码之后,会将解码完的数据送给下游任务,做进一步分析,这些操作统称码流解析,当然,码流解析可以理解为码流分析。数据解码是编码领域的专用名词,它是指从码流数据中恢复出原始数据(即完成从码流到原始数据的重建过程)。上述码流解析、数据解码都可以使用现有的方案来实现。
本发明实施例上述方案主要获得如下有益效果:
1)能够支持多种现有甚至未来可能出现的各类智能任务以及人机混合智能应用场景,应用范围广泛,具有较强的实际应用价值。
2)针对人机混合智能分析任务进行压缩,将会得到能够实现更为高效的结构化码流生产,提高带宽的利用率,提升解码端智能分析任务的执行效率。
3)结构化码流的部分数据能够直接应用于机器智能分析任务,不需要额外解码和处理,减少计算量,加速机器分析任务的进行,支持边缘计算的实现。同时也可以进行解码生成重建图像或者视频,供人眼视觉进行研判分析。
综上所述,本发明提供的技术方案能够使得面向人机混合智能应用场景进行视频/图像压缩这一过程更加的通用、灵活、高效。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (2)

1.一种支持人机混合智能的通用视频压缩编码系统,其特征在于,包括:
编码端:对输入的视频或者图像数据进行数据表征解析,获得语义表征信息与像素表征信息,建立语义表征信息与像素表征信息的语义关联,构建出数据的语义拓扑关系,对语义表征信息、像素表征信息以及数据的语义拓扑关系各自进行编码,并封装为结构化码流;所述编码端采用自适应传输方式将结构化码流传输至所述解码端;
解码端:对结构化码流进行解封装,提取出与机器智能分析相关的码流并进行解析后,用于机器智能分析,同时进行数据解码,重构出相应的视频或者图像数据。
2.根据权利要求1所述的一种支持人机混合智能的通用视频压缩编码系统,其特征在于,
所述语义表征信息包括:目标区域和/或目标属性的表征;
所述像素表征信息包括:原始像素和/或预测残差的表征。
CN202110011758.5A 2021-01-06 2021-01-06 一种支持人机混合智能的通用视频压缩编码系统 Active CN112866715B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110011758.5A CN112866715B (zh) 2021-01-06 2021-01-06 一种支持人机混合智能的通用视频压缩编码系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110011758.5A CN112866715B (zh) 2021-01-06 2021-01-06 一种支持人机混合智能的通用视频压缩编码系统

Publications (2)

Publication Number Publication Date
CN112866715A CN112866715A (zh) 2021-05-28
CN112866715B true CN112866715B (zh) 2022-05-13

Family

ID=76004103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110011758.5A Active CN112866715B (zh) 2021-01-06 2021-01-06 一种支持人机混合智能的通用视频压缩编码系统

Country Status (1)

Country Link
CN (1) CN112866715B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113660486A (zh) * 2021-07-28 2021-11-16 阿里巴巴(中国)有限公司 图像编码、解码、重建、分析方法、系统及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101877007A (zh) * 2010-05-18 2010-11-03 南京师范大学 融合空间方位关系语义的遥感图像检索方法
CN102724485A (zh) * 2012-06-26 2012-10-10 公安部第三研究所 采用双核处理器对输入视频进行结构化描述的装置和方法
CN103379266A (zh) * 2013-07-05 2013-10-30 武汉烽火众智数字技术有限责任公司 一种具有视频语义分析功能的高清网络摄像机
US9158847B1 (en) * 2011-07-19 2015-10-13 Kyndi Inc. Cognitive memory encoding networks for fast semantic indexing storage and retrieval
CN105049790A (zh) * 2015-06-18 2015-11-11 中国人民公安大学 视频监控系统图像获取方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9736349B2 (en) * 2014-12-24 2017-08-15 Intel Corporation Adaptive video end-to-end network with local abstraction
US10908616B2 (en) * 2017-05-05 2021-02-02 Hrl Laboratories, Llc Attribute aware zero shot machine vision system via joint sparse representations
CN111645073B (zh) * 2020-05-29 2022-04-19 武汉理工大学 一种机器人视觉语义导航方法、装置及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101877007A (zh) * 2010-05-18 2010-11-03 南京师范大学 融合空间方位关系语义的遥感图像检索方法
US9158847B1 (en) * 2011-07-19 2015-10-13 Kyndi Inc. Cognitive memory encoding networks for fast semantic indexing storage and retrieval
CN102724485A (zh) * 2012-06-26 2012-10-10 公安部第三研究所 采用双核处理器对输入视频进行结构化描述的装置和方法
CN103379266A (zh) * 2013-07-05 2013-10-30 武汉烽火众智数字技术有限责任公司 一种具有视频语义分析功能的高清网络摄像机
CN105049790A (zh) * 2015-06-18 2015-11-11 中国人民公安大学 视频监控系统图像获取方法及装置

Also Published As

Publication number Publication date
CN112866715A (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
US20150281715A1 (en) Object tracking in encoded video streams
CN114363623A (zh) 图像处理方法、装置、介质及电子设备
US20230090590A1 (en) Speech recognition and codec method and apparatus, electronic device and storage medium
CN116506622B (zh) 模型训练方法及视频编码参数优化方法和装置
CN115345968B (zh) 虚拟对象驱动方法、深度学习网络的训练方法及装置
WO2023093339A1 (zh) 一种基于智能数字视网膜的视频处理方法和装置
CN112866715B (zh) 一种支持人机混合智能的通用视频压缩编码系统
WO2019047663A1 (zh) 一种基于视频格式的端到端自动驾驶数据的存储方法及装置
Lu et al. Preprocessing enhanced image compression for machine vision
Zhang et al. Gms-3dqa: Projection-based grid mini-patch sampling for 3d model quality assessment
Dai et al. HEVC Video Steganalysis Based on PU Maps and Multi-Scale Convolutional Residual Network
RU2236751C2 (ru) Способы и устройство для сжатия и восстановления траектории анимации с использованием линейной аппроксимации
US11928855B2 (en) Method, device, and computer program product for video processing
WO2023124461A1 (zh) 面向机器视觉任务的视频编解码方法、装置、设备及介质
Osman et al. Tamformer: Multi-modal transformer with learned attention mask for early intent prediction
CA2921884C (en) Multi-level spatial resolution increase of video
CN116091978A (zh) 一种基于高级语义信息特征编码的视频描述方法
CN116156218A (zh) 视频插帧模型的确定方法及装置、视频插帧方法及装置
CN112967188A (zh) 结合结构化语义码流的空间自适应图像超分辨重建方法
CN111953973B (zh) 支持机器智能的通用视频压缩编码方法
CN117176979B (zh) 多源异构视频的内容帧提取方法、装置、设备及存储介质
CN116996695B (zh) 一种全景图像压缩方法、装置、设备及介质
CN116229332B (zh) 一种视频预训练模型的训练方法、装置、设备及存储介质
CN116634178B (zh) 一种极低码率的安防场景监控视频编解码方法及系统
CN116781912B (zh) 视频传输方法、装置、计算机设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant