CN112866715A - 一种支持人机混合智能的通用视频压缩编码系统 - Google Patents
一种支持人机混合智能的通用视频压缩编码系统 Download PDFInfo
- Publication number
- CN112866715A CN112866715A CN202110011758.5A CN202110011758A CN112866715A CN 112866715 A CN112866715 A CN 112866715A CN 202110011758 A CN202110011758 A CN 202110011758A CN 112866715 A CN112866715 A CN 112866715A
- Authority
- CN
- China
- Prior art keywords
- data
- semantic
- representation information
- code stream
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/42—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/44—Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/90—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
- H04N19/91—Entropy coding, e.g. variable length coding [VLC] or arithmetic coding
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种支持人机混合智能的通用视频压缩编码系统,包括:编码端:对输入的视频或者图像数据进行数据表征解析,获得语义表征信息与像素表征信息,建立两类表征信息的语义关联,构建出数据的语义拓扑关系,对语义表征信息、像素表征信息以及语义拓扑关系进行编码,封装为结构化码流;解码端:对结构化码流进行解封装,提取出与机器智能分析相关的码流并进行解析后,用于机器智能分析,同时进行数据解码,重构出视频或者图像数据。该系统可以实现针对各个任务所需视频/图像数据的编码,从而既能提高智能任务分析准确性,减轻数据传输压力,支持边缘分析计算,又能同时支持人眼视觉研判,确保系统的鲁棒性、准确性、安全性等未来的需求。
Description
技术领域
本发明涉及视频/图像压缩编码技术领域,尤其涉及一种支持人机混合智能的通用视频压缩编码系统。
背景技术
以图像、视频为代表的多媒体数据产业迅速发展,下一代移动网络的出现将给传统多媒体产业带来更大的机遇和挑战,同时伴随人类社会从信息化向智能化迈进,愈来愈多的图像视频智能分析被应用在公共安全监控、无人辅助驾驶、远程机器操控、互联网医疗、军事国防等领域。
上述诸多开放性场景中需要确保智能分析结果的可解释性和鲁棒性,因此需引入人机智能交互协同、混合增强智能等全新范式,这是未来人工智能的重要发展趋势。传统数据编码如MPEG-2或者H.264、H.265和H.266虽然通过对压缩码流进行数据解码重建也可以支撑人机混合智能任务,但是带宽利用率低、解码复杂度高是制约其被广泛应用的关键问题。
近期的特征编码方案如视觉搜索紧凑描述子国际标准(CDVS,CompactDescriptorsforVisualSearch)可以以较小的存储和传输带宽支持特定的智能分析任务如检索等,但是在支持多任务的泛化能力和支持人机协同研判的场景方面还是有所不足。因此探索新的高效数据表征与压缩方法,支持各类人机混合智能应用场景,具有重要的意义。
发明内容
本发明的目的是提供一种支持人机混合智能的通用视频压缩编码系统,可以实现针对各个任务所需视频/图像数据的编码,从而既能提高智能任务分析准确性,减轻数据传输压力,支持边缘分析计算,又能同时支持人眼视觉研判,确保系统的鲁棒性、准确性、安全性等未来的需求。
本发明的目的是通过以下技术方案实现的:
一种支持人机混合智能的通用视频压缩编码系统,包括:
编码端:对输入的视频或者图像数据进行数据表征解析,获得语义表征信息与像素表征信息,建立语义表征信息与像素表征信息的语义关联,构建出数据的语义拓扑关系,对语义表征信息、像素表征信息以及数据的语义拓扑关系各自进行编码,并封装为结构化码流;
解码端:对结构化码流进行解封装,提取出与机器智能分析相关的码流并进行解析后,用于机器智能分析,同时进行数据解码,重构出相应的视频或者图像数据。
由上述本发明提供的技术方案可以看出,1)能够支持多种现有甚至未来可能出现的各类智能任务以及人机混合智能应用场景,应用范围广泛,具有较强的实际应用价值。2)针对人机混合智能分析任务进行压缩,将会得到能够实现更为高效的结构化码流生产,提高带宽的利用率,提升解码端智能分析任务的执行效率。3)结构化码流的部分数据能够直接应用于机器智能分析任务,不需要额外解码和处理,减少计算量,加速机器分析任务的进行,支持边缘计算的实现。同时也可以进行解码生成重建图像或者视频,供人眼视觉进行研判分析。综上所述,本发明提供的技术方案能够使得面向人机混合智能应用场景进行视频/图像压缩这一过程更加的通用、灵活、高效。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种支持人机混合智能的通用视频压缩编码系统的框架图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种支持人机混合智能的通用视频压缩编码系统,如图1所示,提供了该系统的编码框架,包含编码与解码两个部分,主要如下:
一、编码端。
前端设有数据表征解析提取模块,可以进行高效的数据表征学习;通过数据表征解析提取模块,对输入的视频或者图像数据进行数据表征解析,获得语义表征信息与像素表征信息
本发明实施例中,输入的视频或者图像数据被解析为两个部分:一部分为中高层语义表征信息,主要包括:目标区域和/或目标属性的表征;另一部分为低层像素表征信息,主要包括:原始像素和/或预测残差的表征。
之后,建立语义表征信息与像素表征信息的语义关联,构建出数据的语义拓扑关系;再对语义表征信息、像素表征信息以及数据的语义拓扑关系各自进行编码,并封装为结构化码流。
结构化压缩码流可以根据后端的任务类型需求进行自适应的传输适配,选取合适的部分或全部码流进行传输以提高带宽利用效率。
示例性的,如果机器智能分析任务主要是进行行人识别,则可以只将码流中包含行人的部分码流传输到解码端,其他数据无需传输,进而大幅提高带宽利用效率。
二、解码端。
对结构化码流进行解封装,对结构化码流进行解封装,提取出与机器智能分析相关的码流并进行解析后,用于机器智能分析,同时进行数据解码,重构出相应的视频或者图像数据,进而通过显示设备显示。
本发明实施例中,实际应用中,编码端可以发送全部码流至解码端,也可以按照前文提到的自适应传输方式发送只包含了与机器智能分析相关的码流。如果是后者,由于接收到的码流即为只包含了与机器智能分析相关的码流,因此,提取全部码流做后续的解析与数据解码操作;如果是前者,则可以按照需求提取相关码流再进行后续解析与数据解码操作。当然,在实际应用中解析与数据解码操作所涉及的具体码流可以根据实际情况自行来选定。
示例性的,如果是进行行人重识别的分析,则可以将行人部分码流进行熵解码之后直接送入深度神经网络进行行人重识别分析,充分降低解码的复杂度。同时,这部分码流还可以进行数据解码,重构对应部分的行人图像进行显示,支持人眼的分析研判。
本领域技术人员可以理解,熵解码是码流解析的一部分,熵解码之后,会将解码完的数据送给下游任务,做进一步分析,这些操作统称码流解析,当然,码流解析可以理解为码流分析。数据解码是编码领域的专用名词,它是指从码流数据中恢复出原始数据(即完成从码流到原始数据的重建过程)。上述码流解析、数据解码都可以使用现有的方案来实现。
本发明实施例上述方案主要获得如下有益效果:
1)能够支持多种现有甚至未来可能出现的各类智能任务以及人机混合智能应用场景,应用范围广泛,具有较强的实际应用价值。
2)针对人机混合智能分析任务进行压缩,将会得到能够实现更为高效的结构化码流生产,提高带宽的利用率,提升解码端智能分析任务的执行效率。
3)结构化码流的部分数据能够直接应用于机器智能分析任务,不需要额外解码和处理,减少计算量,加速机器分析任务的进行,支持边缘计算的实现。同时也可以进行解码生成重建图像或者视频,供人眼视觉进行研判分析。
综上所述,本发明提供的技术方案能够使得面向人机混合智能应用场景进行视频/图像压缩这一过程更加的通用、灵活、高效。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (3)
1.一种支持人机混合智能的通用视频压缩编码系统,其特征在于,包括:
编码端:对输入的视频或者图像数据进行数据表征解析,获得语义表征信息与像素表征信息,建立语义表征信息与像素表征信息的语义关联,构建出数据的语义拓扑关系,对语义表征信息、像素表征信息以及数据的语义拓扑关系各自进行编码,并封装为结构化码流;
解码端:对结构化码流进行解封装,提取出与机器智能分析相关的码流并进行解析后,用于机器智能分析,同时进行数据解码,重构出相应的视频或者图像数据。
2.根据权利要求1所述的一种支持人机混合智能的通用视频压缩编码系统,其特征在于,
所述语义表征信息包括:目标区域和/或目标属性的表征;
所述像素表征信息包括:原始像素和/或预测残差的表征。
3.根据权利要求1所述的一种支持人机混合智能的通用视频压缩编码系统,其特征在于,所述编码端采用自适应传输方式将结构化码流传输至所述解码端。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110011758.5A CN112866715B (zh) | 2021-01-06 | 2021-01-06 | 一种支持人机混合智能的通用视频压缩编码系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110011758.5A CN112866715B (zh) | 2021-01-06 | 2021-01-06 | 一种支持人机混合智能的通用视频压缩编码系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112866715A true CN112866715A (zh) | 2021-05-28 |
CN112866715B CN112866715B (zh) | 2022-05-13 |
Family
ID=76004103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110011758.5A Active CN112866715B (zh) | 2021-01-06 | 2021-01-06 | 一种支持人机混合智能的通用视频压缩编码系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112866715B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113660486A (zh) * | 2021-07-28 | 2021-11-16 | 阿里巴巴(中国)有限公司 | 图像编码、解码、重建、分析方法、系统及电子设备 |
CN115297327A (zh) * | 2022-08-03 | 2022-11-04 | 中国科学技术大学 | 基于语义结构化编码的语义先验编解码方法与系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101877007A (zh) * | 2010-05-18 | 2010-11-03 | 南京师范大学 | 融合空间方位关系语义的遥感图像检索方法 |
CN102724485A (zh) * | 2012-06-26 | 2012-10-10 | 公安部第三研究所 | 采用双核处理器对输入视频进行结构化描述的装置和方法 |
CN103379266A (zh) * | 2013-07-05 | 2013-10-30 | 武汉烽火众智数字技术有限责任公司 | 一种具有视频语义分析功能的高清网络摄像机 |
US9158847B1 (en) * | 2011-07-19 | 2015-10-13 | Kyndi Inc. | Cognitive memory encoding networks for fast semantic indexing storage and retrieval |
CN105049790A (zh) * | 2015-06-18 | 2015-11-11 | 中国人民公安大学 | 视频监控系统图像获取方法及装置 |
US20160191779A1 (en) * | 2014-12-24 | 2016-06-30 | Shao-Wen Yang | Adaptive Video End-To-End Network with Local Abstraction |
US20190025848A1 (en) * | 2017-05-05 | 2019-01-24 | Hrl Laboratories, Llc | Attribute aware zero shot machine vision system via joint sparse representations |
CN111645073A (zh) * | 2020-05-29 | 2020-09-11 | 武汉理工大学 | 一种机器人视觉语义导航方法、装置及系统 |
-
2021
- 2021-01-06 CN CN202110011758.5A patent/CN112866715B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101877007A (zh) * | 2010-05-18 | 2010-11-03 | 南京师范大学 | 融合空间方位关系语义的遥感图像检索方法 |
US9158847B1 (en) * | 2011-07-19 | 2015-10-13 | Kyndi Inc. | Cognitive memory encoding networks for fast semantic indexing storage and retrieval |
CN102724485A (zh) * | 2012-06-26 | 2012-10-10 | 公安部第三研究所 | 采用双核处理器对输入视频进行结构化描述的装置和方法 |
CN103379266A (zh) * | 2013-07-05 | 2013-10-30 | 武汉烽火众智数字技术有限责任公司 | 一种具有视频语义分析功能的高清网络摄像机 |
US20160191779A1 (en) * | 2014-12-24 | 2016-06-30 | Shao-Wen Yang | Adaptive Video End-To-End Network with Local Abstraction |
CN105049790A (zh) * | 2015-06-18 | 2015-11-11 | 中国人民公安大学 | 视频监控系统图像获取方法及装置 |
US20190025848A1 (en) * | 2017-05-05 | 2019-01-24 | Hrl Laboratories, Llc | Attribute aware zero shot machine vision system via joint sparse representations |
CN111645073A (zh) * | 2020-05-29 | 2020-09-11 | 武汉理工大学 | 一种机器人视觉语义导航方法、装置及系统 |
Non-Patent Citations (1)
Title |
---|
刘洋: "基于语义拓扑关系的用例图检索", 《中国优秀硕士学位论文全文数据库(电子期刊)》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113660486A (zh) * | 2021-07-28 | 2021-11-16 | 阿里巴巴(中国)有限公司 | 图像编码、解码、重建、分析方法、系统及电子设备 |
CN113660486B (zh) * | 2021-07-28 | 2024-10-01 | 阿里巴巴(中国)有限公司 | 图像编码、解码、重建、分析方法、系统及电子设备 |
CN115297327A (zh) * | 2022-08-03 | 2022-11-04 | 中国科学技术大学 | 基于语义结构化编码的语义先验编解码方法与系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112866715B (zh) | 2022-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9589363B2 (en) | Object tracking in encoded video streams | |
CN114363623A (zh) | 图像处理方法、装置、介质及电子设备 | |
US20230090590A1 (en) | Speech recognition and codec method and apparatus, electronic device and storage medium | |
CN111163318A (zh) | 一种基于反馈优化的人机视觉编码方法和装置 | |
CN116506622B (zh) | 模型训练方法及视频编码参数优化方法和装置 | |
WO2023093339A1 (zh) | 一种基于智能数字视网膜的视频处理方法和装置 | |
CN112866715B (zh) | 一种支持人机混合智能的通用视频压缩编码系统 | |
CN116797896A (zh) | 面向深度伪造音视频的多模态融合检测方法 | |
CN116091978A (zh) | 一种基于高级语义信息特征编码的视频描述方法 | |
Osman et al. | Tamformer: Multi-modal transformer with learned attention mask for early intent prediction | |
CA2921884C (en) | Multi-level spatial resolution increase of video | |
WO2023124461A1 (zh) | 面向机器视觉任务的视频编解码方法、装置、设备及介质 | |
RU2236751C2 (ru) | Способы и устройство для сжатия и восстановления траектории анимации с использованием линейной аппроксимации | |
US11928855B2 (en) | Method, device, and computer program product for video processing | |
CN115690238A (zh) | 图像生成及模型训练方法、装置、设备和存储介质 | |
CN112967188A (zh) | 结合结构化语义码流的空间自适应图像超分辨重建方法 | |
CN111953973B (zh) | 支持机器智能的通用视频压缩编码方法 | |
Ma et al. | 3D Attention Network for Face Forgery Detection | |
CN117176979B (zh) | 多源异构视频的内容帧提取方法、装置、设备及存储介质 | |
CN116996695B (zh) | 一种全景图像压缩方法、装置、设备及介质 | |
CN113627341B (zh) | 一种视频样例比对的方法、系统、设备及存储介质 | |
CN115567720B (zh) | 视频传输方法、装置、存储介质和设备 | |
CN116229332B (zh) | 一种视频预训练模型的训练方法、装置、设备及存储介质 | |
CN116634178B (zh) | 一种极低码率的安防场景监控视频编解码方法及系统 | |
CN114257817B (zh) | 一种多任务数字视网膜特征流的编码方法及解码方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |