CN112866715B

CN112866715B - 一种支持人机混合智能的通用视频压缩编码系统

Info

Publication number: CN112866715B
Application number: CN202110011758.5A
Authority: CN
Inventors: 陈志波; 金鑫; 孙思萌; 冯若愚
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-01-06
Filing date: 2021-01-06
Publication date: 2022-05-13
Anticipated expiration: 2041-01-06
Also published as: CN112866715A

Abstract

本发明公开了一种支持人机混合智能的通用视频压缩编码系统，包括：编码端：对输入的视频或者图像数据进行数据表征解析，获得语义表征信息与像素表征信息，建立两类表征信息的语义关联，构建出数据的语义拓扑关系，对语义表征信息、像素表征信息以及语义拓扑关系进行编码，封装为结构化码流；解码端：对结构化码流进行解封装，提取出与机器智能分析相关的码流并进行解析后，用于机器智能分析，同时进行数据解码，重构出视频或者图像数据。该系统可以实现针对各个任务所需视频/图像数据的编码，从而既能提高智能任务分析准确性，减轻数据传输压力，支持边缘分析计算，又能同时支持人眼视觉研判，确保系统的鲁棒性、准确性、安全性等未来的需求。

Description

一种支持人机混合智能的通用视频压缩编码系统

技术领域

本发明涉及视频/图像压缩编码技术领域，尤其涉及一种支持人机混合智能的通用视频压缩编码系统。

背景技术

以图像、视频为代表的多媒体数据产业迅速发展，下一代移动网络的出现将给传统多媒体产业带来更大的机遇和挑战，同时伴随人类社会从信息化向智能化迈进，愈来愈多的图像视频智能分析被应用在公共安全监控、无人辅助驾驶、远程机器操控、互联网医疗、军事国防等领域。

上述诸多开放性场景中需要确保智能分析结果的可解释性和鲁棒性，因此需引入人机智能交互协同、混合增强智能等全新范式，这是未来人工智能的重要发展趋势。传统数据编码如MPEG-2或者H.264、H.265和H.266虽然通过对压缩码流进行数据解码重建也可以支撑人机混合智能任务，但是带宽利用率低、解码复杂度高是制约其被广泛应用的关键问题。

近期的特征编码方案如视觉搜索紧凑描述子国际标准(CDVS，CompactDescriptorsforVisualSearch)可以以较小的存储和传输带宽支持特定的智能分析任务如检索等，但是在支持多任务的泛化能力和支持人机协同研判的场景方面还是有所不足。因此探索新的高效数据表征与压缩方法，支持各类人机混合智能应用场景，具有重要的意义。

发明内容

本发明的目的是提供一种支持人机混合智能的通用视频压缩编码系统，可以实现针对各个任务所需视频/图像数据的编码，从而既能提高智能任务分析准确性，减轻数据传输压力，支持边缘分析计算，又能同时支持人眼视觉研判，确保系统的鲁棒性、准确性、安全性等未来的需求。

本发明的目的是通过以下技术方案实现的：

一种支持人机混合智能的通用视频压缩编码系统，包括：

编码端：对输入的视频或者图像数据进行数据表征解析，获得语义表征信息与像素表征信息，建立语义表征信息与像素表征信息的语义关联，构建出数据的语义拓扑关系，对语义表征信息、像素表征信息以及数据的语义拓扑关系各自进行编码，并封装为结构化码流；

解码端：对结构化码流进行解封装，提取出与机器智能分析相关的码流并进行解析后，用于机器智能分析，同时进行数据解码，重构出相应的视频或者图像数据。

由上述本发明提供的技术方案可以看出，1)能够支持多种现有甚至未来可能出现的各类智能任务以及人机混合智能应用场景，应用范围广泛，具有较强的实际应用价值。2)针对人机混合智能分析任务进行压缩，将会得到能够实现更为高效的结构化码流生产，提高带宽的利用率，提升解码端智能分析任务的执行效率。3)结构化码流的部分数据能够直接应用于机器智能分析任务，不需要额外解码和处理，减少计算量，加速机器分析任务的进行，支持边缘计算的实现。同时也可以进行解码生成重建图像或者视频，供人眼视觉进行研判分析。综上所述，本发明提供的技术方案能够使得面向人机混合智能应用场景进行视频/图像压缩这一过程更加的通用、灵活、高效。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种支持人机混合智能的通用视频压缩编码系统的框架图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种支持人机混合智能的通用视频压缩编码系统，如图1所示，提供了该系统的编码框架，包含编码与解码两个部分，主要如下：

一、编码端。

前端设有数据表征解析提取模块，可以进行高效的数据表征学习；通过数据表征解析提取模块，对输入的视频或者图像数据进行数据表征解析，获得语义表征信息与像素表征信息

本发明实施例中，输入的视频或者图像数据被解析为两个部分：一部分为中高层语义表征信息，主要包括：目标区域和/或目标属性的表征；另一部分为低层像素表征信息，主要包括：原始像素和/或预测残差的表征。

之后，建立语义表征信息与像素表征信息的语义关联，构建出数据的语义拓扑关系；再对语义表征信息、像素表征信息以及数据的语义拓扑关系各自进行编码，并封装为结构化码流。

结构化压缩码流可以根据后端的任务类型需求进行自适应的传输适配，选取合适的部分或全部码流进行传输以提高带宽利用效率。

示例性的，如果机器智能分析任务主要是进行行人识别，则可以只将码流中包含行人的部分码流传输到解码端，其他数据无需传输，进而大幅提高带宽利用效率。

二、解码端。

对结构化码流进行解封装，对结构化码流进行解封装，提取出与机器智能分析相关的码流并进行解析后，用于机器智能分析，同时进行数据解码，重构出相应的视频或者图像数据，进而通过显示设备显示。

本发明实施例中，实际应用中，编码端可以发送全部码流至解码端，也可以按照前文提到的自适应传输方式发送只包含了与机器智能分析相关的码流。如果是后者，由于接收到的码流即为只包含了与机器智能分析相关的码流，因此，提取全部码流做后续的解析与数据解码操作；如果是前者，则可以按照需求提取相关码流再进行后续解析与数据解码操作。当然，在实际应用中解析与数据解码操作所涉及的具体码流可以根据实际情况自行来选定。

示例性的，如果是进行行人重识别的分析，则可以将行人部分码流进行熵解码之后直接送入深度神经网络进行行人重识别分析，充分降低解码的复杂度。同时，这部分码流还可以进行数据解码，重构对应部分的行人图像进行显示，支持人眼的分析研判。

本领域技术人员可以理解，熵解码是码流解析的一部分，熵解码之后，会将解码完的数据送给下游任务，做进一步分析，这些操作统称码流解析，当然，码流解析可以理解为码流分析。数据解码是编码领域的专用名词，它是指从码流数据中恢复出原始数据(即完成从码流到原始数据的重建过程)。上述码流解析、数据解码都可以使用现有的方案来实现。

本发明实施例上述方案主要获得如下有益效果：

1)能够支持多种现有甚至未来可能出现的各类智能任务以及人机混合智能应用场景，应用范围广泛，具有较强的实际应用价值。

2)针对人机混合智能分析任务进行压缩，将会得到能够实现更为高效的结构化码流生产，提高带宽的利用率，提升解码端智能分析任务的执行效率。

3)结构化码流的部分数据能够直接应用于机器智能分析任务，不需要额外解码和处理，减少计算量，加速机器分析任务的进行，支持边缘计算的实现。同时也可以进行解码生成重建图像或者视频，供人眼视觉进行研判分析。

综上所述，本发明提供的技术方案能够使得面向人机混合智能应用场景进行视频/图像压缩这一过程更加的通用、灵活、高效。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种支持人机混合智能的通用视频压缩编码系统，其特征在于，包括：

编码端：对输入的视频或者图像数据进行数据表征解析，获得语义表征信息与像素表征信息，建立语义表征信息与像素表征信息的语义关联，构建出数据的语义拓扑关系，对语义表征信息、像素表征信息以及数据的语义拓扑关系各自进行编码，并封装为结构化码流；所述编码端采用自适应传输方式将结构化码流传输至所述解码端；

2.根据权利要求1所述的一种支持人机混合智能的通用视频压缩编码系统，其特征在于，

所述语义表征信息包括：目标区域和/或目标属性的表征；

所述像素表征信息包括：原始像素和/或预测残差的表征。