CN117981309A - 编解码方法、码流、编码器、解码器、存储介质和系统 - Google Patents

编解码方法、码流、编码器、解码器、存储介质和系统 Download PDF

Info

Publication number
CN117981309A
CN117981309A CN202180102716.0A CN202180102716A CN117981309A CN 117981309 A CN117981309 A CN 117981309A CN 202180102716 A CN202180102716 A CN 202180102716A CN 117981309 A CN117981309 A CN 117981309A
Authority
CN
China
Prior art keywords
network
feature
data
node
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180102716.0A
Other languages
English (en)
Inventor
虞露
王超
王东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Zhejiang University ZJU
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU, Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Zhejiang University ZJU
Publication of CN117981309A publication Critical patent/CN117981309A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本申请实施例公开了一种编解码方法、码流、编码器、解码器、存储介质和系统,该方法包括:解析码流,确定重建特征数据;利用智能任务网络对所述重建特征数据进行特征分析,确定目标结果。这样,不仅能够更好地学习到智能任务网络所需的图像信息,而且由于解码网络无需还原到图像维度即可执行智能任务网络的处理,还降低了智能任务网络的复杂度,进而提升了智能任务网络的精度和速度。

Description

编解码方法、码流、编码器、解码器、存储介质和系统 技术领域
本申请实施例涉及智能编码技术领域,尤其涉及一种编解码方法、码流、编码器、解码器、存储介质和系统。
背景技术
目前,图像及视频的编解码处理可以包括传统方法和基于神经网络的智能方法。其中,传统方法是对于输入数据进行去冗余处理,比如图像或视频编解码流程是利用每帧图像的空间相关性以及多帧图像之间的时间相关性进行去冗余;而智能方法则是利用神经网络进行图像信息处理,并进行特征数据的提取。
在相关技术中,一般是将经过编解码处理过程得到的解码数据直接作为智能任务网络的输入数据。然而,解码数据中可能包括智能任务网络不需要的大量冗余信息,这些冗余信息的传输将会导致带宽的浪费或智能任务网络的效率降低;另外,端到端的编解码过程与智能任务网络之间几乎不存在相关性,使得编解码处理过程并无法实现对智能任务网络的优化。
发明内容
本申请实施例提供一种编解码方法、码流、编码器、解码器、存储介质和系统,不仅能够更好地学习到智能任务网络所需的图像信息,而且还能够降低智能任务网络的复杂度,进而提升智能任务网络的精度和速度。
本申请实施例的技术方案可以如下实现:
第一方面,本申请实施例提供了一种解码方法,该方法包括:
解析码流,确定重建特征数据;
利用智能任务网络对重建特征数据进行特征分析,确定目标结果。
第二方面,本申请实施例提供了一种编码方法,该方法包括:
利用智能任务网络对输入图像数据进行特征提取,得到初始特征数据;
利用编码网络对初始特征数据进行编码处理,并将得到的编码比特写入码流。
第三方面,本申请实施例提供了一种码流,该码流是根据待编码信息进行比特编码生成的;其中,待编码信息至少包括初始特征数据,初始特征数据是通过智能任务网络对输入图像数据进行特征提取得到的。
第四方面,本申请实施例提供了一种编码器,该编码器包括第一特征提取单元和编码单元;其中,
第一特征提取单元,配置为利用智能任务网络对输入图像数据进行特征提取,得到初始特征数据;
编码单元,配置为利用编码网络对初始特征数据进行编码处理,并将得到的编码比特写入码流。
第五方面,本申请实施例提供了一种编码器,该编码器包括第一存储器和第一处理器;其中,
第一存储器,用于存储能够在第一处理器上运行的计算机程序;
第一处理器,用于在运行计算机程序时,执行如第二方面的方法。
第六方面,本申请实施例提供了一种解码器,该解码器包括解析单元和特征分析单元;其中,
解析单元,配置为解析码流,确定重建特征数据;
特征分析单元,配置为利用智能任务网络对重建特征数据进行特征分析,确定目标结果。
第七方面,本申请实施例提供了一种解码器,该解码器包括第二存储器和第二处理器;其中,
第二存储器,用于存储能够在第二处理器上运行的计算机程序;
第二处理器,用于在运行计算机程序时,执行如第一方面的方法。
第八方面,本申请实施例提供了一种计算机存储介质,该计算机存储介质存储有计算机程序,计算机程序被执行时实现如第一方面的方法、或者实现如第二方面的方法。
第九方面,本申请实施例提供了一种智能分析系统,该智能分析系统至少包括如第四方面或第五方面的编码器和如第六方面或第七方面的解码器。
本申请实施例提供了一种编解码方法、码流、编码器、解码器、存储介质和系统,在编码器侧,利用智能任务网络对输入图像数据进行特征提取,得到初始特征数据;利用编码网络对初始特征数据进行编码处理,并将得到的编码比特写入码流。在解码器侧,通过解析码流,确定重建特征数据;利用智能任务网络对重建特征数据进行特征分析,确定目标结果。这样,以智能任务网络的特征提取作为编码网络的输入,不仅能够更好地学习到智能任务网络所需的图像信息,而且还能够节省相关技术中的图像恢复及提取恢复图像特征数据的流程,从而使得解码网络无需还原到图像维度即可执行智能任务网络的处理,大大降低了智能任务网络的复杂度,进而提升了智能任务网络的精度和速度。
附图说明
图1为一种编解码系统的整体框架示意图;
图2为一种智能任务网络的整体框架示意图;
图3为一种编解码系统和智能任务网络级联的整体框架示意图;
图4A为本申请实施例提供的一种编码器的详细框架示意图;
图4B为本申请实施例提供的一种解码器的详细框架示意图;
图5为本申请实施例提供的一种编码方法的流程示意图;
图6为本申请实施例提供的一种解码方法的流程示意图;
图7为本申请实施例提供的一种智能融合网络模型的流程框图示意图;
图8为本申请实施例提供的一种端到端的编解码网络的结构示意图;
图9A为本申请实施例提供的一种注意力机制模块的结构示意图;
图9B为本申请实施例提供的一种残差块的结构示意图;
图10为本申请实施例提供的一种智能任务网络的结构示意图;
图11为本申请实施例提供的一种智能融合网络模型的结构示意图;
图12A为本申请实施例提供的一种Lee网络模型的结构示意图;
图12B为本申请实施例提供的一种Duan网络模型的结构示意图;
图13A为本申请实施例提供的一种yolo_v3网络模型的结构示意图;
图13B为本申请实施例提供的另一种yolo_v3网络模型的结构示意图;
图13C为本申请实施例提供的一种ResNet-FPN网络模型的结构示意图;
图13D为本申请实施例提供的一种Mask-RCNN网络模型的结构示意图;
图14为本申请实施例提供的一种编码器的组成结构示意图;
图15为本申请实施例提供的一种编码器的具体硬件结构示意图;
图16为本申请实施例提供的一种解码器的组成结构示意图;
图17为本申请实施例提供的一种解码器的具体硬件结构示意图;
图18为本申请实施例提供的一种智能分析系统的组成结构示意图。
具体实施方式
为了能够更加详尽地了解本申请实施例的特点与技术内容,下面结合附图对本申请实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本申请实施例。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。还需要指出,本申请实施例所涉及的术语“第一\第二\第三”仅是用于区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
目前,图像及视频的编解码处理可以包括传统方法和基于神经网络进行处理的智能方法。其中,传统方法是对于输入数据进行去冗余处理,比如图像或视频编解码流程是利用每帧图像的空间相关 性以及多帧图像之间的时间相关性进行去冗余;而智能方法则是利用神经网络进行图像信息处理,并进行特征数据的提取。
在一种具体的实施例中,对于图像而言,基于图像的编解码处理可以分为传统方法和基于神经网络的智能方法。其中,传统方法即利用像素的空间相关性,对图像进行去冗余处理,通过变换,量化和熵编码等得到码流并进行传输。而智能方法则是使用神经网络进行编解码处理,目前基于神经网络的图像编解码方法提出了许多高效的神经网络结构,其能够用于图像的特征信息提取。在这里,卷积神经网络(Convolutional Neural Networks,CNN)是最早用于图像编解码的网络结构;在CNN的基础上,衍生了许多改良的神经网络结构以及概率估计模型,以神经网络结构为例,可以包括有:生成对抗网络(Generative Adversarial Networks,GAN)、循环神经网络(Recurrent Neural Networks,RNN)等网络结构,这些都可以提升基于神经网络的端到端图像压缩性能。其中,基于GAN的图像编解码方法在提升图像主观质量上取得了明显效果。
在另一种具体的实施例中,对于视频而言,基于视频的编解码处理同样可以分为传统方法和基于神经网络的智能方法。其中,传统方法即通过帧内或帧间预测编码,变换、量化、熵编码以及环路滤波等进行视频的编解码处理。而智能方法目前主要集中于三个方面:混合式神经网络编码(即将神经网络代替传统编码模块嵌入到视频框架)、神经网络率失真优化编码以及端到端视频编码。在这里,混合式神经网络编码一般以帧间预测模块、环路滤波模块和熵编码模块应用较多;神经网络率失真优化编码则是利用神经网络高度非线性特点,将神经网络训练成为高效的判别器与分类器,例如应用于视频编码模式的决策环节;端到端视频编码目前一般分为使用CNN替换传统编码方法的所有模块,或者是扩大神经网络的输入维度对所有帧进行端到端压缩。
在相关技术中,参见图1,其示出了一种编解码系统的整体框架示意图。如图1所示,针对输入的待编码数据,编码方法由E1和E2组成;其中,E1是指提取特征数据的流程及编码流程,经过E1之后可以得到特征数据;E2是指对特征数据进行处理并得到码流的流程,即经过E2之后可以得到码流。相对应地,解码方法由D1和D2组成;其中,D2是指接收码流并将码流解析为特征数据的流程,即经过D2之后可以得到重建特征数据;D1是指将重建特征数据通过传统方法或基于神经网络变换为解码数据的流程,即经过D1之后可以得到解码数据(具体是指“解码图像”)。
另外,在本申请实施例中,智能任务网络一般通过对图像或视频进行分析,从而完成目标检测、目标跟踪或者是行为识别等任务目标。其中,智能任务网络的输入为通过编码方法和解码方法所得到的解码数据,智能任务网络的处理流程一般由A1和A2组成;其中,A1是指对于输入的解码数据针对智能任务网络的目标进行特征提取并得到特征数据的流程,A2则是指对特征数据进行处理并得到结果的流程。具体地,参见图2,其示出了一种智能任务网络的整体框架示意图。如图2所示,针对输入的解码数据,在经过A1之后可以得到特征数据,而特征数据在经过A2之后可以得到目标结果。
可以理解地,智能任务网络的输入数据,一般为经过编码方法和解码方法得到的解码数据,并直接将解码数据作为智能任务网络的输入。参见图3,其示出了一种编解码系统和智能任务网络级联的整体框架示意图。如图3所示,编码方法和解码方法组成编解码系统,在经过编码方法和解码方法获得到解码数据之后,将直接输入到A1中,经过A1可以得到特征数据;然后利用A2对特征数据进行处理,从而得到智能任务网络输出的目标结果。
这样,经过编码方法和解码方法获得到的解码数据,直接输入智能任务网络中,一方面,解码数据可能包括智能任务网络不需要的大量冗余信息,这些冗余信息的传输导致带宽的浪费或智能任务网络的效率降低;另一方面,端到端的编解码流程与智能任务网络的相关性几乎为零,导致编解码流程并无法针对智能任务网络进行优化。
基于此,本申请实施例提供了一种编码方法,应用于编码器。利用智能任务网络对输入图像数据进行特征提取,得到初始特征数据;利用编码网络对所述初始特征数据进行编码处理,并将得到的编码比特写入码流。
本申请实施例还提供了一种解码方法,应用于解码器。解析码流,确定重建特征数据;利用智能任务网络对所述重建特征数据进行特征分析,确定目标结果。
这样,以智能任务网络的特征提取作为编码网络的输入,不仅能够更好地学习到智能任务网络所需的图像信息,而且还能够节省相关技术中的图像恢复及提取恢复图像特征数据的流程,从而使得解码网络无需还原到图像维度即可执行智能任务网络的处理,大大降低了智能任务网络的复杂度,进而提升了智能任务网络的精度和速度。
下面将结合附图对本申请各实施例进行详细说明。
参见图4A,其示出了本申请实施例提供的一种编码器的详细框架示意图。如图4A所示,该编码器10包括变换与量化单元101、帧内估计单元102、帧内预测单元103、运动补偿单元104、运动估计单元105、反变换与反量化单元106、滤波器控制分析单元107、滤波单元108、编码单元109和解码图像缓存单元110等,其中,滤波单元108可以实现DBF滤波/SAO滤波/ALF滤波,编码单元109可以实现头信息编码及基于上下文的自适应二进制算术编码(Context-based Adaptive Binary Arithmetic Coding,CABAC)。针对输入的原始视频信号,通过编码树单元(Coding Tree Unit,CTU)的划分可以得到一个视频编码块,然后对经过帧内或帧间预测后得到的残差像素信息通过变换与量化单元101对该视频编码块进行变换,包括将残差信息从像素域变换到变换域,并对所得的变换系数进行量化,用以进一步减少比特率;帧内估计单元102和帧内预测单元103是用于对该视频编码块进行帧内预测;明确地说,帧内估计单元102和帧内预测单元103用于确定待用以编码该视频编码块的帧内预测模式;运动补偿单元104和运动估计单元105用于执行所接收的视频编码块相对于一或多个参考帧中的一或多个块的帧间预测编码以提供时间预测信息;由运动估计单元105执行的运动估计为产生运动向量的过程,所述运动向量可以估计该视频编码块的运动,然后由运动补偿单元104基于由运动估计单元105所确定的运动向量执行运动补偿;在确定帧内预测模式之后,帧内预测单元103还用于将所选择的帧内预测数据提供到编码单元109,而且运动估计单元105将所计算确定的运动向量数据也发送到编码单元109;此外,反变换与反量化单元106是用于该视频编码块的重构建,在像素域中重构建残差块,该重构建残差块通过滤波器控制分析单元107和滤波单元108去除方块效应伪影,然后将该重构残差块添加到解码图像缓存单元110的帧中的一个预测性块,用以产生经重构建的视频编码块;编码单元109是用于编码各种编码参数及量化后的变换系数,在基于CABAC的编码算法中,上下文内容可基于相邻编码块,可用于编码指示所确定的帧内预测模式的信息,输出该视频信号的码流;而解码图像缓存单元110是用于存放重构建的视频编码块,用于预测参考。随着视频图像编码的进行,会不断生成新的重构建的视频编码块,这些重构建的视频编码块都会被存放在解码图像缓存单元110中。
参见图4B,其示出了本申请实施例提供的一种解码器的详细框架示意图。如图4B所示,该解码器20包括解码单元201、反变换与反量化单元202、帧内预测单元203、运动补偿单元204、滤波单元205和解码图像缓存单元206等,其中,解码单元201可以实现头信息解码以及CABAC解码,滤波单元205可以实现DBF滤波/SAO滤波/ALF滤波。输入的视频信号经过图4A的编码处理之后,输出该视频信号的码流;该码流输入视频解码系统20中,首先经过解码单元201,用于得到解码后的变换系数;针对该变换系数通过反变换与反量化单元202进行处理,以便在像素域中产生残差块;帧内预测单元203可用于基于所确定的帧内预测模式和来自当前帧或图片的先前经解码块的数据而产生当前视频解码块的预测数据;运动补偿单元204是通过剖析运动向量和其他关联语法元素来确定用于视频解码块的预测信息,并使用该预测信息以产生正被解码的视频解码块的预测性块;通过对来自反变换与反量化单元202的残差块与由帧内预测单元203或运动补偿单元204产生的对应预测性块进行求和,而形成解码的视频块;该解码的视频信号通过滤波单元205以便去除方块效应伪影,可以改善视频质量;然后将经解码的视频块存储于解码图像缓存单元206中,解码图像缓存单元206存储用于后续帧内预测或运动补偿的参考图像,同时也用于视频信号的输出,即得到了所恢复的原始视频信号。
在本申请的一实施例中,参见图5,其示出了本申请实施例提供的一种编码方法的流程示意图。如图5所示,该方法可以包括:
S501:利用智能任务网络对输入图像数据进行特征提取,得到初始特征数据。
S502:利用编码网络对初始特征数据进行编码处理,并将得到的编码比特写入码流。
需要说明的是,该编码方法应用于编码器。在本申请实施例中,编码器可以包括有智能任务网络和编码网络。其中,智能任务网络用于实现对输入图像数据的特征提取,编码网络则用于实现对得到的初始特征数据进行编码处理。这样,使用智能任务网络的特征提取作为编码网络的输入,可以有助于编码网络更好的学习到智能任务网络所需的图像信息。
还需要说明的是,在编码器中,智能任务网络在提取到初始特征数据之后,将不会执行智能任务网络的后续处理流程,而是直接使用维度相同的编码节点对其进行编码处理;以便后续在解码器中,通过解码网络确定出重建特征数据之后,可以对重建特征数据执行智能任务网络的后续处理流程。这样,不仅能够更好地学习到智能任务网络所需的图像信息,而且还能够节省相关技术中的图像恢复及提取恢复图像特征数据的流程,使得解码网络无需还原到图像维度即可执行智能任务网络 的处理,大大降低了智能任务网络的复杂度,
在一些实施例中,对于智能任务网络而言,智能任务网络至少可以包括特征提取子网络,所述利用智能任务网络对输入图像数据进行特征提取,确定初始特征数据,可以包括:利用特征提取子网络对输入图像数据进行特征提取,得到第一特征节点处的初始特征数据。
进一步地,在一些实施例中,特征提取子网络可以包括N个特征提取层,N为大于或等于1的整数。相应地,所述利用特征提取子网络对输入图像数据进行特征提取,得到第一特征节点处的初始特征数据,可以包括:
当N等于1时,利用特征提取层对输入图像数据进行特征提取,得到第一特征节点处的初始特征数据;
当N大于1时,利用N个特征提取层对输入图像数据进行特征提取,得到第一特征节点处的初始特征数据。
需要说明的是,第一特征节点可以是不同特征提取层对应的特征节点,针对哪一个特征提取层,其根据实际情况进行具体确定。例如,当在智能任务网络中确定出在某特征提取层之后需要进行编码和解码处理时,那么该特征提取层对应的特征节点即为第一特征节点,这些特征提取层组成特征提取子网络,而且经过该特征提取层之后提取得到的初始特征数据将会输入到编码网络中。
也就是说,针对第一特征节点处的初始特征数据,其可以是由一特征提取层进行特征提取得到的,也可以是由两个或者更多个特征提取层进行特征提取得到的,本申请实施例不作具体限定。
示例性地,如果是在第一个特征提取层之后即需要进行编码和解码处理,那么第一特征节点即为第一个特征提取层对应的特征节点,这时候提取得到的特征数据即为待输入编码网络的初始特征数据,特征提取子网络仅为第一个特征提取层;如果是在第二个特征提取层之后需要进行编码和解码处理,那么第一特征节点即为第二个特征提取层对应的特征节点,这时候提取得到的特征数据即为待输入编码网络的初始特征数据,特征提取子网络为第一个特征提取层和第二特征提取层。
进一步地,在得到第一特征节点处的初始特征数据之后,其对应编码网络中的哪一个编码节点处的待编码特征数据,其与两者的维度相关。因此,在一些实施例中,该方法还可以包括:
当编码网络中的第一编码节点与第一特征节点的数据维度匹配时,将第一特征节点处的初始特征数据确定为第一编码节点处的待编码特征数据;或者,
当编码网络中的第一编码节点与第一特征节点的数据维度不匹配时,利用适配网络对第一特征节点处的初始特征数据进行数据维度转换,得到第一编码节点处的待编码特征数据。
需要说明的是,在本申请实施例中,当第一特征节点处的特征空间通道数和分辨率等参数与第一编码节点处的特征空间通道数和分辨率等参数完全一致时,可以确定智能任务网络中的第一特征节点与编码网络中的第一编码节点的数据维度匹配。也就是说,在根据智能任务网络提取得到第一特征节点处的初始特征数据之后,可以直接使用编码网络中对应数据维度相同的第一编码节点进行编码处理;即将初始特征数据输入到编码网络中的第一编码节点,利用该编码网络对初始特征数据进行编码处理,然后将得到的编码比特写入码流中。
还需要说明的是,在本申请实施例中,当第一特征节点处的特征空间通道数和分辨率等参数与编码网络中的第一编码节点的特征空间通道数和分辨率等参数不完全一致时,即可能存在智能任务网络中的第一特征节点与编码网络中的第一编码节点的数据维度不匹配的现象。这时候可以利用适配网络对第一特征节点处的初始特征数据进行数据维度转换,得到第一编码节点处的待编码特征数据。这样,所述利用编码网络对初始特征数据进行编码处理,并将得到的编码比特写入码流,可以包括:将待编码特征数据输入到编码网络中的第一编码节点,利用编码网络对待编码特征数据进行编码处理,并将得到的编码比特写入码流。
还需要说明的是,在本申请实施例中,这里的适配网络可以包括一层或多层网络结构,而且该网络结构可以使用但不限于上采样、下采样、选择或者重复部分通道等等。也就是说,在智能任务网络与编码网络的级联上,还会有输入分析网络的特征图和重建特征图的空间分辨率或通道数不匹配的问题,在此基础上可以增加单层或多层网络结构作为适配器,进行特征的维度转换处理,从而对两部分网络的级联进行适配。在这里,适配器的网络结构可以使用但不限于上采样,下采样,选择或重复部分通道等,对此并不作任何限定。
可以理解的是,本申请实施例主要是提供了一种端到端的编解码网络与智能任务网络级联的智能融合网络模型。这里,端到端的编解码网络包括编码网络和解码网络;也就是说,智能融合网络模型可以包括编码网络、解码网络和智能任务网络。其中,智能任务网络的一部分和编码网络是在编码器中使用,智能任务网络的另一部分和解码网络是在解码器中使用。
在本申请实施例中,对于智能融合网络模型的训练,可以是在编码器中进行训练,也可以是在解码器中进行训练,甚至也可以是在编码器和解码器中都进行训练,这里不作任何限定。
在一种可能的实现方式中,对于智能融合网络模型的训练,该方法还可以包括:
确定至少一个训练样本;
利用至少一个训练样本对预设网络模型进行训练;其中,预设网络模型包括初始编码网络、初始解码网络和初始智能任务网络,且初始编码网络和初始解码网络与初始智能任务网络通过节点连接;
当预设网络模型对应的损失函数收敛到预设阈值时,将训练后得到的模型确定为智能融合网络模型;其中,智能融合网络模型包括编码网络、解码网络和智能任务网络。
在一种具体的实施例中,对于预设网络模型对应的损失函数来说,可以分为两部分:编解码网络的损失函数和智能任务网络的损失函数。具体地,在一些实施例中,该方法还可以包括:
确定智能任务网络的第一率失真权衡参数、智能任务网络的损失值、编解码网络的第二率失真权衡参数和编解码网络的失真值和码流比特率;
根据第一率失真权衡参数、第二率失真权衡参数以及智能任务网络的损失值、编解码网络的失真值和码流比特率,确定出预设网络模型对应的损失函数。
也就是说,本申请实施例的智能融合网络模型的重训练方法,可以是将初始智能任务网络和初始编解码网络通过节点连接起来形成的融合网络进行联合训练。示例性地,损失函数可以如下所示,
其中,R表示编解码网络的码流比特率,λ 1、λ 2表示率失真权衡参数,而且不同的λ 1、λ 2对应不同的模型,即不同的总比特率;loss task表示智能任务网络的损失值, 表示输入图像和解码图像之间的失真值。这里,x和 分别表示编解码网络使用的编码节点和重建节点处的数据而非是图像数据;另外,这里的失真值可以是使用均方误差(Mean Squared Error,MSE)进行失真值度量。
对于式(1)而言,其可以看作两部分:λ 1·loss task表示智能任务网络的损失函数, 表示编解码网络的损失函数;也就是说,智能融合网络模型的损失函数可以是由智能任务网络的损失函数和编解码网络的损失函数共同得到的。其中,λ 1、λ 2的取值根据实际情况进行具体设定,示例性地,λ 1的取值为0.3,λ 2的取值为0.7,但是并不作任何限定。
需要说明的是,本申请实施例的智能融合网络模型的重训练方法,也可以是分步进行训练的。例如,可以先将λ 2的取值设置为零,λ 1的取值设置为任意值,此时针对智能任务网络进行训练;然后再将λ 1的取值设置为零,λ 2的取值为任意值,此时针对编解码网络(包括编码网络和解码网络)进行训练;最后再进行联合训练等,这里针对训练方法并不作任何限定,还可以是其他多种训练方法,甚至也可以是多种不同训练方法组合使用等等。
还需要说明的是,对于智能任务网络而言,智能任务网络可以包括特征提取子网络和特征分析子网络;其中,特征提取子网络,可以用于对输入图像数据进行特征提取,确定出初始特征数据,然后由编码网络对其进行编码处理。而特征分析子网络,可以用于对输入的特征数据进行特征分析,以确定出目标结果;这里可以是指完成目标检测、目标跟踪或者行为识别等任务目标。
这样,在训练得到智能任务网络之后,在一些实施例中,该方法还可以包括:
利用特征提取子网络对输入图像数据进行特征提取,得到初始特征数据;
利用特征分析子网络对初始特征数据进行特征分析,确定目标结果。
也就是说,训练后已经完成训练的智能任务网络,可以直接对输入图像数据进行特征提取以及特征分析处理,这时候不再需要经过编码网络和解码网络,也能够确定出目标结果。示例性地,对于本地图像的处理,这时候就不需要再经过端到端的编解码网络进行数据传输;这时候,在训练得到智能任务网络(包括特征提取子网络和特征分析子网络)之后,同样可以应用于图像的分析处理以得到智能任务的目标结果。
本实施例提供了一种编码方法,应用编码器。通过利用智能任务网络对输入图像数据进行特征提取,得到初始特征数据;利用编码网络对所述初始特征数据进行编码处理,并将得到的编码比特写入码流。这样,以智能任务网络的特征提取作为编码网络的输入,不仅能够更好地学习到智能任务网络所需的图像信息,而且还能够节省相关技术中的图像恢复及提取恢复图像特征数据的流程,大大降低了智能任务网络的复杂度,进而提升了智能任务网络的精度和速度。
在本申请的另一实施例中,本申请实施例提供了一种码流,该码流是根据待编码信息进行比特编码生成的。
在本申请实施例中,待编码信息至少包括初始特征数据,所述初始特征数据是通过智能任务网络对输入图像数据进行特征提取得到的。这样,编码器在生成码流后,可以传输到解码器,以便后续解码器通过解析码流即可获得重建特征数据。
在本申请的又一实施例中,参见图6,其示出了本申请实施例提供的一种解码方法的流程示意图。如图6所示,该方法可以包括:
S601:解析码流,确定重建特征数据。
S602:利用智能任务网络对所述重建特征数据进行特征分析,确定目标结果。
需要说明的是,该解码方法应用于解码器。在本申请实施例中,解码器中可以包括解码网络。这样,对于S601来说,所述解析码流,确定重建特征数据,还可包括:利用解码网络对码流进行解析,确定重建特征数据。
还需要说明的是,在本申请实施例中,解码器不仅具有解码功能,还可以具有智能分析功能;也就是说,除了解码网络之外,本申请实施例中的解码器还包括有智能任务网络。这样,在解码器中,无需重构到解码图像,而是在重构到特征空间,即解码获得重建特征数据之后,即可以利用智能任务网络对重建特征数据进行特征分析,从而确定出目标结果,这里可以是指完成目标检测、目标跟踪或者行为识别等任务目标。
在一些实施例中,所述解析码流,确定重建特征数据,可以包括:
解析码流,当所述智能任务网络中的第一特征节点与第一重建节点的数据维度匹配时,将所述第一重建节点处的候选重建特征数据确定为所述重建特征数据;或者,
解析码流,当所述智能任务网络中的第一特征节点与第一重建节点的数据维度不匹配时,利用适配网络对所述第一重建节点处的候选重建特征数据进行数据维度转换,得到所述重建特征数据。
需要说明的是,针对解码获得的重建特征数据并非全部都是满足需求的,其与智能任务网络中的特征节点的数据维度相关。具体而言,当智能任务网络中的第一特征节点与第一重建节点的数据维度匹配时,这时候可以将第一重建节点处的候选重建特征数据确定为智能任务网络中的第一特征节点处的重建特征数据。也就是说,在本申请实施例中,当第一特征节点处的特征空间通道数和分辨率等参数与第一重建节点处的特征空间通道数和分辨率等参数完全一致时,可以确定智能任务网络中的第一特征节点与解码网络中的第一重建节点的数据维度匹配。
还需要说明的是,在本申请实施例中,当智能任务网络中的第一特征节点处的特征空间通道数和分辨率等参数与第一重建节点处的特征空间通道数和分辨率等参数不完全一致时,即可能存在智能任务网络中的第一特征节点与第一重建节点的数据维度不匹配的现象。这时候需要利用适配网络对第一重建节点处的候选重建特征数据进行数据维度转换,得到所述重建特征数据。
还需要说明的是,这里的适配网络可以包括一层或多层网络结构,而且该网络结构可以使用但不限于上采样、下采样、选择或者重复部分通道等等。也就是说,在智能任务网络与解码网络的级联上,还会有输入分析网络的特征图和重建特征图的空间分辨率或通道数不匹配的问题,在此基础上可以增加单层或多层网络结构作为适配器,进行特征的维度转换处理,从而对两部分网络的级联进行适配。在这里,适配器的网络结构可以使用但不限于上采样,下采样,选择或重复部分通道等,对此并不作任何限定。
进一步地,在确定出重建特征数据之后,在一些实施例中,对于S602来说,所述利用智能任务网络对重建特征数据进行特征分析,确定目标结果,可以包括:
将重建特征数据输入到智能任务网络中的第一特征节点,并利用智能任务网络对重建特征数据进行特征分析,得到目标结果。
需要说明的是,第一特征节点可以是不同特征提取层对应的特征节点,针对哪一个特征提取层,其根据实际情况进行具体确定。例如,当在智能任务网络中确定出在某特征提取层之后需要进行编码和解码处理时,那么该特征提取层对应的特征节点即为第一特征节点,而经过该特征提取层之后提取得到的初始特征数据将会经过编码网络和解码网络进行处理,使得能够得到第一特征节点处的重建特征数据,进而分析得到目标结果。
可以理解的是,对于智能任务网络而言,智能任务网络可以包括特征提取子网络和特征分析子网络;相应地,在一些实施例中,在一种具体的实施例中,所述利用智能任务网络对所述重建特征数据进行特征分析,确定目标结果,可以包括:
当第一特征节点为经过特征提取子网络后得到的特征节点时,将重建特征数据输入到第一特征节点,并利用特征分析子网络对重建特征数据进行特征分析,得到目标结果。
需要说明的是,特征提取子网络可以包括若干个特征提取层;而这里的第一特征节点可以是经过一特征提取层得到的,也可以是经过两个或更多个特征提取层得到的,本申请实施例不作具体限定。
示例性地,如果在智能任务网络中确定在第四个特征提取层之后需要进行编码和解码处理,即第一特征节点为第四个特征提取层对应的特征节点时,这时候特征提取子网络包括四个特征提取层,而且第四个特征提取层之后所得到的重建特征数据将输入到特征分析子网络进行特征分析,可以得到目标结果。如果在智能任务网络中确定在第二个特征提取层之后需要进行编码和解码处理,即第一特征节点为第二个特征提取层对应的特征节点,那么这时候特征提取子网络包括两个特征提取层,而且第二个特征提取层之后所得到的重建特征数据将输入到特征分析子网络进行特征分析,即可得到目标结果。
还需要说明的是,对于特征分析子网络而言,在一些实施例中,特征分析子网络可以包括区域生成网络(Region Proposal Network,RPN)和感兴趣区域头部网络(Region Of Interest_Heads,ROI_Heads)。其中,区域生成网络的输出端与感兴趣区域头部网络的输入端连接,区域生成网络的输入端也与感兴趣区域头部网络连接,而感兴趣区域头部网络的输出端用于输出目标结果。
相应地,在一些实施例中,利用特征分析子网络对重建特征数据进行特征分析,得到目标结果,可以包括:
通过区域生成网络对重建特征数据进行处理,得到目标区域;
通过感兴趣区域头部网络对重建特征数据和目标区域进行智能分析,得到目标结果。
也就是说,对于成功将特征数据,首先通过区域生成网络对其进行处理,得到目标区域;然后通过感兴趣区域头部网络对重建特征数据和目标区域进行智能分析,从而可以得到目标结果。
还可以理解的是,本申请实施例主要是提供了一种端到端的编解码网络与智能任务网络级联的智能融合网络模型,其目标是经过该智能融合网络模型的处理和重训练可以使得智能任务网络达到最优性能。其中,端到端的编解码网络包括编码网络和解码网络;也就是说,智能融合网络模型可以包括编码网络、解码网络和智能任务网络。在这里,智能任务网络的一部分和编码网络是在编码器中使用,智能任务网络的另一部分和解码网络是在解码器中使用。
进一步地,对于智能融合网络模型的训练,在一些实施例中,该方法还可以包括:
确定至少一个训练样本;
利用至少一个训练样本对预设网络模型进行训练;其中,预设网络模型包括初始编码网络、初始解码网络和初始智能任务网络,且初始编码网络和初始解码网络与初始智能任务网络通过节点连接;
当预设网络模型对应的损失函数收敛到预设阈值时,将训练后得到的模型确定为智能融合网络模型;其中,智能融合网络模型包括编码网络、解码网络和智能任务网络。
在一种具体的实施例中,对于预设网络模型对应的损失函数来说,可以分为两部分:编解码网络的损失函数和智能任务网络的损失函数。具体地,在一些实施例中,该方法还可以包括:
确定智能任务网络的第一率失真权衡参数、智能任务网络的损失值、编解码网络的第二率失真权衡参数和编解码网络的失真值和码流比特率;
根据第一率失真权衡参数、第二率失真权衡参数以及智能任务网络的损失值、编解码网络的失真值和码流比特率,确定出预设网络模型对应的损失函数。
也就是说,本申请实施例的智能融合网络模型的重训练方法,可以是将初始智能任务网络和初始编解码网络通过节点连接起来形成的融合网络进行联合训练。示例性地,损失函数可以如上述的式(1)所示。
对于式(1)而言,其可以看作两部分:λ 1·loss task表示智能任务网络的损失函数, 表示编解码网络的损失函数;也就是说,智能融合网络模型的损失函数可以是由智能任务网络的损失函数和编解码网络的损失函数共同得到的。其中,λ 1、λ 2的取值根据实际情况进行具体设定,示例性地,λ 1的取值为0.3,λ 2的取值为0.7,但是并不作任何限定。
还需要说明的是,本申请实施例的智能融合网络模型的重训练方法,也可以是分步进行训练的。例如,可以先将λ 2的取值设置为零,λ 1的取值设置为任意值,此时针对智能任务网络进行训练;然后再将λ 1的取值设置为零,λ 2的取值为任意值,此时针对编解码网络(包括编码网络和解码网络)进行训练;最后再进行联合训练等,这里针对训练方法并不作任何限定,还可以是其他多种训练方法,甚至也可以是多种不同训练方法组合使用等等。
本实施例还提供了一种解码方法,应用于解码器。通过解析码流,确定重建特征数据;利用智 能任务网络对所述重建特征数据进行特征分析,确定目标结果。这样,不仅能够更好地学习到智能任务网络所需的图像信息,而且还能够节省相关技术中的图像恢复及提取恢复图像特征数据的流程,使得解码网络无需还原到图像维度即可执行智能任务网络的处理,大大降低了智能任务网络的复杂度,进而提升了智能任务网络的精度和速度。
在本申请的又一实施例中,针对输入图像数据,在编码器中,首先可以是由智能任务网络对其进行特征提取,然后将提取得到的初始特征数据输入到编码网络中;也就是说,以智能任务网络的特征提取部分作为编码网络的前置处理流程,即利用智能任务网络的特征提取作为编码网络的输入,可以有助于编解码网络更好的学习到智能任务网络所需的图像信息。然后在利用编码网络对初始特征数据进行编码处理得到码流后,当码流传输到解码器中时,可以通过解析码流得到重建特征数据,将重建特征数据再输入到智能任务网络中进行特征分析,即以智能任务网络的分析处理部分作为解码网络的后续处理流程,从而使得解码网络无需还原到图像维度即可执行智能任务网络的分析处理,大大降低了智能任务网络的复杂度。
参见图7,其示出了本申请实施例提供的一种智能融合网络模型的流程框图示意图。如图7所示,针对输入的待编码数据(即输入图像数据),在经过A1的特征提取之后,可以得到特征数据;然后特征数据经过E2的编码处理之后可以得到码流;码流在输入D2进行解码处理之后,可以得到重建特征数据,而重建特征数据输入A2进行特征分析之后,可以得到目标结果。其中,A1和A2属于智能任务网络,E2和D2属于编解码网络;在这里,A1是指对于输入的待编码数据针对智能任务网络的目标进行特征提取并得到特征数据的流程,E2是指对特征数据进行处理并得到码流的流程,D2是指接收码流并将码流解析为重建特征数据的流程,A2则是指对重建特征数据进行处理并得到结果的流程。
根据图7可以明显看出,解码处理时无需重构到解码图像,而只需要重建到特征空间,之后将特征空间作为智能任务网络的输入而不使用解码图像。也就是说,将经过智能任务网络A1提取的特征数据,采用E2和D2进行编码和解码,然后将D2解码后的重建特征数据使用A2进行分析可以直接得到目标结果。
在本申请实施例中,这里所使用的编解码网络和智能任务网络,其中,编解码网络可以分为编码网络和解码网络。具体而言,编码网络可以使用智能任务网络的特征提取子网络以及端到端的编码网络的部分节点,输入图像数据通过智能任务网络进行特征提取,可以到某个特征节点后不再执行智能任务网络而是直接使用对应维度相同的编码节点的端到端图像压缩网络进行压缩。解码网络同样在解码执行到对应与编码节点维度相同的重建节点后,将重建节点处的重建特征数据输入到智能任务网络,并进行智能任务网络的后续处理流程。
另外,在本申请实施例中,这里所使用的编解码网络和智能任务网络,可以是各种常用的端到端的编解码网络和智能任务网络,其与具体的网络结构和类型无关。例如,编解码网络本身可以使用CNN、RNN以及GAN等多种神经网络结构的变种;智能任务网络针对所执行的任务目标和网络结构同样也不作任何限定,可以是目标检测、目标跟踪、行为识别、模式识别等涉及图像处理的任务目标。
示例性地,参见图8,其示出了本申请实施例提供的一种端到端的编解码网络的结构示意图。如图8所示,可以包括编码网络和解码网络。其中,“Conv”为卷积(Convolution)的缩写,“1×1”、“3×3”、“5×5”均表示卷积核的大小;“N”表示卷积核的数量(即该卷积层的输出通道数),“/2”表示2倍的下采样处理,使得输入尺寸减半;“×2”表示2倍的上采样处理,使得输入尺寸扩大一倍。由于编码网络中进行了2倍的下采样处理,那么在解码网络中,对应需要进行2倍的上采样处理。
还需要说明的是,在图8的编解码网络中,还包括有注意力机制模块,图9A示出了本申请实施例提供的一种注意力机制模块的结构示意图。如图9A所示,其可以包括由残差块(Residual Block,RB)、1×1的卷积层(用1×1 Conv表示)和激活函数、乘法器和加法器组成。其中,激活函数可以用Sigmoid函数表示,其是一种常见的S型函数,也称为S型生长曲线。Sigmoid函数常被用作神经网络的激活函数,将变量映射到0与1之间。图9B示出了本申请实施例提供的一种残差块的结构示意图。如图9B所示,残差块可以是由第一卷积层、第二卷积层和第三卷积层等三个卷积层组成,其中,第一卷积层为1×1的卷积核尺寸,N/2的输出通道数,可以用1×1 Conv,N/2表示;第二卷积层为3×3的卷积核尺寸,N/2的输出通道数,可以用3×3 Conv,N/2表示;第三卷积层为1×1的卷积核尺寸,N的输出通道数,可以用1×1 Conv,N表示。
参见图10,其示出了本申请实施例提供的一种智能任务网络的结构示意图。如图10所示,智能任务网络可以包括特征提取子网络和特征分析子网络。其中,F0表示输入,其为输入图像数据。特征提取子网络包括四个特征提取层:第一卷积模块对应第一个特征提取层,其对应的特征节点用F1表示;第二卷积模块对应第二个特征提取层,其对应的特征节点用F2表示;第三卷积模块对应第三个特征提取层,其对应的特征节点用F3表示;第四卷积模块对应第四个特征提取层,其对应的特征节点用F4表示。特征分析子网络可以包括区域生成网络(RPN)和感兴趣区域头部网络(ROI_Heads),最终的输出为目标结果。
基于图8示出的端到端的编解码网络和图10示出的智能任务网络为例,图11示出了本申请实施例提供的一种智能融合网络模型的结构示意图。如图11所示,这里示出了一种融合端到端的编解码网络与智能任务网络的联合网络,目标是经过该联合网络的处理和重训练使得智能任务网络达到最优性能。
在图11中,编码网络中设置有e0、e1、e2、e3、e4、e5、e6、e7、e8、e9等编码节点,解码网络中设置有d0、d1、d2、d3、d4、d5、d6、d7、d8、d9、d10等重建节点,智能任务网络中设置有F0、F1、F2、F3、F4等特征节点。其中,e0和d0为端到端的编解码的输入节点和输出节点,F0为智能任务网络的输入节点。对于输入尺寸来说,其为W×H×3;而经过第一卷积模块之后,由于尺寸减半,这时候为 在经过第二卷积模块之后,由于尺寸继续减半,这时候为 在经过第三卷积模块之后,由于尺寸继续减半,这时候为 在经过第四卷积模块之后,由于尺寸继续减半,这时候为
也就是说,本申请实施例的智能融合网络模型如图11所示,在相关技术中,原始处理流程中端到端的编解码网络的输入节点和输出节点分别为e0、d0,智能任务网络的输入节点为FO(即经过端到端的编解码网络的解码图像)。在本申请实施例中,可以探索F1、F2、F3、F4等特征节点的融合网络性能,以F1节点为例,首先将智能任务网络的F1节点处的初始特征数据作为编码网络中的e1节点处的输入并通过解码网络得到d2节点处的重建特征数据,可以将其作为F1节点处的特征数据,然后进行后续的智能任务网络处理流程。
还需要说明的是,图11所示的不同特征层数对应的d节点、e节点处提取的特征空间通道数和分辨率与智能任务网络对应的F节点需要完全一致,因此,本申请实施例需要对d节点、e节点处的数据与F节点处数据维度进行匹配。
还需要说明的是,本申请实施例所述的编解码网络,可以是诸如传统的视频编解码、智能端到端图像编解码、传统视频编解码的部分智能化以及视频的端到端编解码等等,这里并不作任何限定。此外,本申请实施例提出的智能任务网络和端到端的编解码网络,同样可以使用其他常见的网络结构来代替。例如,在端到端的编解码领域,可以使用Lee网络和Duan网络来具体实施。其中,Lee网络采用迁移学习的方法提升网络重建图像的质量;Duan网络则使用高层的语义图增强低级的视觉特征,并且验证了这种方法可以有效的提升图像压缩的码率-精度-失真性能。在这里,Lee网络模型的组成结构如图12A所示,Duan网络模型的组成结构如图12B所示。
相应地,在智能任务网络领域,可以使用目标识别网络yolo_v3来具体实施,其网络模型的组成结构如图13A和图13B所示;此外,也可以使用目标检测网络ResNet-FPN以及实例分割网络Mask-RCNN,其中,目标检测网络模型的组成结构如图13C所示,实例分割网络模型的组成结构如图13D所示。
综上可知,将编解码网络的特征空间向量而非原始图像输入智能任务网络,从而能够节省图像恢复并提取恢复图像特征流程,更好的提升智能任务网络的精度和速度。同时使用智能任务网络的特征提取作为端到端图像编解码网络的输入有助于编解码网络更好的学习到智能任务网络所需的图像信息。这样,本申请实施例以智能任务网络的特征提取部分作为端到端编码网络的前置处理流程,以智能任务网络的分析处理部分作为图像端到端解码网络的后续处理流程,从而使得解码网络无需还原到图像维度即可执行智能任务网络的处理,大大降低了智能任务网络的复杂度。
本实施例对前述实施例的具体实现进行了详细阐述,根据前述实施例的技术方案,从中可以看出,不仅能够更好地学习到智能任务网络所需的图像信息,而且还能够降低智能任务网络的复杂度,进而提升智能任务网络的精度和速度。
在本申请的再一实施例中,基于前述实施例相同的发明构思,参见图14,其示出了本申请实施例提供的一种编码器140的组成结构示意图。如图14所示,该编码器140可以包括:第一特征提取 单元1401和编码单元1402;其中,
第一特征提取单元1401,配置为利用智能任务网络对输入图像数据进行特征提取,得到初始特征数据;
编码单元1402,配置为利用编码网络对初始特征数据进行编码处理,并将得到的编码比特写入码流。
在一些实施例中,智能任务网络至少包括特征提取子网络,相应地,第一特征提取单元1401,具体配置为利用特征提取子网络对输入图像数据进行特征提取,得到第一特征节点处的初始特征数据。
在一些实施例中,特征提取子网络包括N个特征提取层,N为大于或等于1的整数;相应地,第一特征提取单元1401,还配置为当N等于1时,利用特征提取层对输入图像数据进行特征提取,得到第一特征节点处的初始特征数据;以及当N大于1时,利用N个特征提取层对输入图像数据进行特征提取,得到第一特征节点处的初始特征数据。
在一些实施例中,参见图14,编码器140还可以包括第一维度转换单元1403;其中,
编码单元1402,还配置为当所述编码网络中的第一编码节点与所述第一特征节点的数据维度匹配时,将所述第一特征节点处的初始特征数据确定为所述第一编码节点处的待编码特征数据;或者,当所述编码网络中的第一编码节点与所述第一特征节点的数据维度不匹配时,通过第一维度转换单元1403,利用适配网络对所述第一特征节点处的初始特征数据进行数据维度转换,得到所述第一编码节点处的待编码特征数据。
在一些实施例中,编码单元1402,具体配置为将所述待编码特征数据输入到所述编码网络中的所述第一编码节点,利用所述编码网络对所述待编码特征数据进行编码处理,并将得到的编码比特写入码流。
在一些实施例中,适配网络包括一层或多层网络结构。
在一些实施例中,参见图14,编码器140还可以包括第一训练单元1404,配置为确定至少一个训练样本;以及利用至少一个训练样本对预设网络模型进行训练;其中,预设网络模型包括初始编码网络、初始解码网络和初始智能任务网络,且初始编码网络和初始解码网络与初始智能任务网络通过节点连接;以及当预设网络模型对应的损失函数收敛到预设阈值时,将训练后得到的模型确定为智能融合网络模型;其中,智能融合网络模型包括编码网络、解码网络和智能任务网络。
在一些实施例中,智能任务网络包括特征提取子网络和特征分析子网络。参见图14,编码器140还可以包括第一特征分析单元1405;
第一特征提取单元1401,还配置为利用所述特征提取子网络对输入图像数据进行特征提取,得到初始特征数据;
第一特征分析单元1405,配置为利用所述特征分析子网络对所述初始特征数据进行特征分析,确定目标结果。
可以理解地,在本申请实施例中,“单元”可以是部分电路、部分处理器、部分程序或软件等等,当然也可以是模块,还可以是非模块化的。而且在本实施例中的各组成部分可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时,可以存储在一个计算机可读取存储介质中,基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或processor(处理器)执行本实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
因此,本申请实施例提供了一种计算机存储介质,应用于编码器140,该计算机存储介质存储有计算机程序,所述计算机程序被第一处理器执行时实现前述实施例中任一项所述的方法。
基于上述编码器140的组成以及计算机存储介质,参见图15,其示出了本申请实施例提供的一种编码器140的具体硬件结构示意图。如图15所示,可以包括:第一通信接口1501、第一存储器1502和第一处理器1503;各个组件通过第一总线系统1504耦合在一起。可理解,第一总线系统1504用于实现这些组件之间的连接通信。第一总线系统1504除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图15中将各种总线都标为第一总线系统1504。 其中,
第一通信接口1501,用于在与其他外部网元之间进行收发信息过程中,信号的接收和发送;
第一存储器1502,用于存储能够在第一处理器1503上运行的计算机程序;
第一处理器1503,用于在运行所述计算机程序时,执行:
利用智能任务网络对输入图像数据进行特征提取,得到初始特征数据;
利用编码网络对初始特征数据进行编码处理,并将得到的编码比特写入码流。
可以理解,本申请实施例中的第一存储器1502可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。本申请描述的系统和方法的第一存储器1502旨在包括但不限于这些和任意其它适合类型的存储器。
而第一处理器1503可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过第一处理器1503中的硬件的集成逻辑电路或者软件形式的指令完成。上述的第一处理器1503可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于第一存储器1502,第一处理器1503读取第一存储器1502中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本申请描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(Application Specific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(Programmable Logic Device,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。对于软件实现,可通过执行本申请所述功能的模块(例如过程、函数等)来实现本申请所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
可选地,作为另一个实施例,第一处理器1503还配置为在运行所述计算机程序时,执行前述实施例中任一项所述的方法。
本实施例提供了一种编码器,在该编码器中,以智能任务网络的特征提取作为编码网络的输入,不仅能够更好地学习到智能任务网络所需的图像信息,而且还能够节省相关技术中的图像恢复及提取恢复图像特征数据的流程,从而使得解码网络无需还原到图像维度即可执行智能任务网络的处理,大大降低了智能任务网络的复杂度,进而提升了智能任务网络的精度和速度。
在本申请的再一实施例中,基于前述实施例相同的发明构思,参见图16,其示出了本申请实施例提供的一种解码器160的组成结构示意图。如图16所示,该解码器160可以包括:解析单元1601和第二特征分析单元1602;其中,
解析单元1601,配置为解析码流,确定重建特征数据;
第二特征分析单元1602,配置为利用智能任务网络对重建特征数据进行特征分析,确定目标结果。
在一些实施例中,在一些实施例中,参见图16,解码器160还可以包括第二维度转换单元1603;其中,
解析单元1601,还配置为解析码流,当所述智能任务网络中的第一特征节点与第一重建节点的数据维度匹配时,将所述第一重建节点处的候选重建特征数据确定为所述重建特征数据;或者,解析码流,当所述智能任务网络中的第一特征节点与第一重建节点的数据维度不匹配时,通过第二维度转换单元1603,利用适配网络对所述第一重建节点处的候选重建特征数据进行数据维度转换,得到所述重建特征数据。。
在一些实施例中,第二特征分析单元1602,具体配置为将所述重建特征数据输入到所述智能任务网络中的所述第一特征节点,并利用所述智能任务网络对所述重建特征数据进行特征分析,得到所述目标结果。
在一些实施例中,适配网络包括一层或多层网络结构。
在一些实施例中,智能任务网络包括特征提取子网络和特征分析子网络;相应地,第二特征分析单元1602,具体配置为当所述第一特征节点为经过所述特征提取子网络后得到的特征节点时,将所述重建特征数据输入到所述第一特征节点,并利用所述特征分析子网络对所述重建特征数据进行特征分析,得到所述目标结果。。
在一些实施例中,特征分析子网络包括区域生成网络和感兴趣区域头部网络;相应地,第二特征分析单元1602,具体配置为通过区域生成网络对重建特征数据进行处理,得到目标区域;以及通过感兴趣区域头部网络对重建特征数据和目标区域进行智能分析,得到目标结果。
在一些实施例中,解析单元1601,还配置为利用解码网络对码流进行解析,确定重建特征数据。
在一些实施例中,参见图16,解码器160还可以包括第二训练单元1604,配置为确定至少一个训练样本;以及利用至少一个训练样本对预设网络模型进行训练;其中,预设网络模型包括初始编码网络、初始解码网络和初始智能任务网络,且初始编码网络和初始解码网络与初始智能任务网络通过节点连接;以及当预设网络模型对应的损失函数收敛到预设阈值时,将训练后得到的模型确定为智能融合网络模型;其中,智能融合网络模型包括编码网络、解码网络和智能任务网络。
可以理解地,在本实施例中,“单元”可以是部分电路、部分处理器、部分程序或软件等等,当然也可以是模块,还可以是非模块化的。而且在本实施例中的各组成部分可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本实施例提供了一种计算机存储介质,应用于解码器160,该计算机存储介质存储有计算机程序,所述计算机程序被第二处理器执行时实现前述实施例中任一项所述的方法。
基于上述解码器160的组成以及计算机存储介质,参见图17,其示出了本申请实施例提供的一种解码器160的具体硬件结构示意图。如图17所示,可以包括:第二通信接口1701、第二存储器1702和第二处理器1703;各个组件通过第二总线系统1704耦合在一起。可理解,第二总线系统1704用于实现这些组件之间的连接通信。第二总线系统1704除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图17中将各种总线都标为第二总线系统1704。其中,
第二通信接口1701,用于在与其他外部网元之间进行收发信息过程中,信号的接收和发送;
第二存储器1702,用于存储能够在第二处理器1703上运行的计算机程序;
第二处理器1703,用于在运行所述计算机程序时,执行:
解析码流,确定重建特征数据;
利用智能任务网络对重建特征数据进行特征分析,确定目标结果。
可选地,作为另一个实施例,第二处理器1703还配置为在运行所述计算机程序时,执行前述实施例中任一项所述的方法。
可以理解,第二存储器1702与第一存储器1502的硬件功能类似,第二处理器1703与第一处理器1503的硬件功能类似;这里不再详述。
本实施例提供了一种解码器,该解码器可以包括解析单元和特征分析单元。这样,不仅能够更好地学习到智能任务网络所需的图像信息,而且还能够节省相关技术中的图像恢复及提取恢复图像特征数据的流程,从而使得解码网络无需还原到图像维度即可执行智能任务网络的处理,大大降低了智能任务网络的复杂度,进而提升了智能任务网络的精度和速度。
在本申请的再一实施例中,参见图18,其示出了本申请实施例提供的一种智能分析系统的组成 结构示意图。如图18所示,智能分析系统180可以包括编码器1801和解码器1802;其中,编码器1801可以为前述实施例中任一项所述的编码器,解码器1802可以为前述实施例中任一项所述的解码器。
在本申请实施例中,智能分析系统180中具有智能融合网络模型,且智能融合网络模型可以包括编码网络、解码网络和智能任务网络。其中,智能任务网络的一部分和编码网络是在编码器1801中使用,智能任务网络的另一部分和解码网络是在解码器1802中使用。这样,以智能任务网络的特征提取作为编码网络的输入,不仅能够更好地学习到智能任务网络所需的图像信息,而且还能够节省相关技术中的图像恢复及提取恢复图像特征数据的流程,从而使得解码网络无需还原到图像维度即可执行智能任务网络的处理,大大降低了智能任务网络的复杂度,进而提升了智能任务网络的精度和速度。
需要说明的是,在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本申请所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本申请所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
本申请所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
工业实用性
本申请实施例中,在编码器侧,利用智能任务网络对输入图像数据进行特征提取,得到初始特征数据;利用编码网络对初始特征数据进行编码处理,并将得到的编码比特写入码流。在解码器侧,通过解析码流,确定重建特征数据;利用智能任务网络对重建特征数据进行特征分析,确定目标结果。这样,以智能任务网络的特征提取作为编码网络的输入,不仅能够更好地学习到智能任务网络所需的图像信息,而且还能够节省相关技术中的图像恢复及提取恢复图像特征数据的流程,从而使得解码网络无需还原到图像维度即可执行智能任务网络的处理,大大降低了智能任务网络的复杂度,进而提升了智能任务网络的精度和速度。

Claims (23)

  1. 一种解码方法,所述方法包括:
    解析码流,确定重建特征数据;
    利用智能任务网络对所述重建特征数据进行特征分析,确定目标结果。
  2. 根据权利要求1所述的方法,其中,所述解析码流,确定重建特征数据,包括:
    解析码流,当所述智能任务网络中的第一特征节点与第一重建节点的数据维度匹配时,将所述第一重建节点处的候选重建特征数据确定为所述重建特征数据;或者,
    解析码流,当所述智能任务网络中的第一特征节点与第一重建节点的数据维度不匹配时,利用适配网络对所述第一重建节点处的候选重建特征数据进行数据维度转换,得到所述重建特征数据。
  3. 根据权利要求2所述的方法,其中,所述利用智能任务网络对所述重建特征数据进行特征分析,确定目标结果,包括:
    将所述重建特征数据输入到所述智能任务网络中的所述第一特征节点,并利用所述智能任务网络对所述重建特征数据进行特征分析,得到所述目标结果。
  4. 根据权利要求3所述的方法,其中,所述适配网络包括一层或多层网络结构。
  5. 根据权利要求3所述的方法,其中,所述智能任务网络包括特征提取子网络和特征分析子网络;
    相应地,所述利用智能任务网络对所述重建特征数据进行特征分析,确定目标结果,包括:
    当所述第一特征节点为经过所述特征提取子网络后得到的特征节点时,将所述重建特征数据输入到所述第一特征节点,并利用所述特征分析子网络对所述重建特征数据进行特征分析,得到所述目标结果。
  6. 根据权利要求5所述的方法,其中,所述特征分析子网络包括区域生成网络和感兴趣区域头部网络;
    所述利用所述特征分析子网络对所述重建特征数据进行特征分析,得到所述目标结果,包括:
    通过所述区域生成网络对所述重建特征数据进行处理,得到目标区域;
    通过所述感兴趣区域头部网络对所述重建特征数据和所述目标区域进行智能分析,得到所述目标结果。
  7. 根据权利要求1至6任一项所述的方法,其中,所述解析码流,确定重建特征数据,还包括:利用解码网络对所述码流进行解析,确定所述重建特征数据。
  8. 根据权利要求7所述的方法,其中,所述方法还包括:
    确定至少一个训练样本;
    利用所述至少一个训练样本对预设网络模型进行训练;其中,所述预设网络模型包括初始编码网络、初始解码网络和初始智能任务网络,且所述初始编码网络和所述初始解码网络与所述初始智能任务网络通过节点连接;
    当所述预设网络模型对应的损失函数收敛到预设阈值时,将训练后得到的模型确定为智能融合网络模型;其中,所述智能融合网络模型包括编码网络、所述解码网络和所述智能任务网络。
  9. 一种编码方法,所述方法包括:
    利用智能任务网络对输入图像数据进行特征提取,得到初始特征数据;
    利用编码网络对所述初始特征数据进行编码处理,并将得到的编码比特写入码流。
  10. 根据权利要求9所述的方法,其中,所述智能任务网络至少包括特征提取子网络,所述利用智能任务网络对输入图像数据进行特征提取,确定初始特征数据,包括:
    利用所述特征提取子网络对输入图像数据进行特征提取,得到第一特征节点处的所述初始特征数据。
  11. 根据权利要求10所述的方法,其中,所述特征提取子网络包括N个特征提取层,N为大于或等于1的整数;
    所述利用所述特征提取子网络对输入图像数据进行特征提取,得到第一特征节点处的所述初始特征数据,包括:
    当N等于1时,利用所述特征提取层对输入图像数据进行特征提取,得到所述第一特征节点处的所述初始特征数据;
    当N大于1时,利用所述N个特征提取层对输入图像数据进行特征提取,得到所述第一特征节点处的所述初始特征数据。
  12. 根据权利要求11所述的方法,其中,所述方法还包括:
    当所述编码网络中的第一编码节点与所述第一特征节点的数据维度匹配时,将所述第一特征节点处的初始特征数据确定为所述第一编码节点处的待编码特征数据;或者,
    当所述编码网络中的第一编码节点与所述第一特征节点的数据维度不匹配时,利用适配网络对所述第一特征节点处的初始特征数据进行数据维度转换,得到所述第一编码节点处的待编码特征数据。
  13. 根据权利要求12所述的方法,其中,所述利用编码网络对所述初始特征数据进行编码处理,并将得到的编码比特写入码流,包括:
    将所述待编码特征数据输入到所述编码网络中的所述第一编码节点,利用所述编码网络对所述待编码特征数据进行编码处理,并将得到的编码比特写入码流。
  14. 根据权利要求12所述的方法,其中,所述适配网络包括一层或多层网络结构。
  15. 根据权利要求9所述的方法,其中,所述方法还包括:
    确定至少一个训练样本;
    利用所述至少一个训练样本对预设网络模型进行训练;其中,所述预设网络模型包括初始编码网络、初始解码网络和初始智能任务网络,且所述初始编码网络和所述初始解码网络与所述初始智能任务网络通过节点连接;
    当所述预设网络模型对应的损失函数收敛到预设阈值时,将训练后得到的模型确定为智能融合网络模型;其中,所述智能融合网络模型包括所述编码网络、解码网络和所述智能任务网络。
  16. 根据权利要求15所述的方法,其中,所述智能任务网络包括特征提取子网络和特征分析子网络,所述方法还包括:
    利用所述特征提取子网络对输入图像数据进行特征提取,得到初始特征数据;
    利用所述特征分析子网络对所述初始特征数据进行特征分析,确定目标结果。
  17. 一种码流,所述码流是根据待编码信息进行比特编码生成的;其中,所述待编码信息至少包括初始特征数据,所述初始特征数据是通过智能任务网络对输入图像数据进行特征提取得到的。
  18. 一种编码器,所述编码器包括第一特征提取单元和编码单元;其中,
    所述第一特征提取单元,配置为利用智能任务网络对输入图像数据进行特征提取,得到初始特征数据;
    所述编码单元,配置为利用编码网络对所述初始特征数据进行编码处理,并将得到的编码比特写入码流。
  19. 一种编码器,所述编码器包括第一存储器和第一处理器;其中,
    所述第一存储器,用于存储能够在所述第一处理器上运行的计算机程序;
    所述第一处理器,用于在运行所述计算机程序时,执行如权利要求9至16任一项所述的方法。
  20. 一种解码器,所述解码器包括解析单元和特征分析单元;其中,
    所述解析单元,配置为解析码流,确定重建特征数据;
    所述特征分析单元,配置为利用智能任务网络对所述重建特征数据进行特征分析,确定目标结果。
  21. 一种解码器,所述解码器包括第二存储器和第二处理器;其中,
    所述第二存储器,用于存储能够在所述第二处理器上运行的计算机程序;
    所述第二处理器,用于在运行所述计算机程序时,执行如权利要求1至8任一项所述的方法。
  22. 一种计算机存储介质,其中,所述计算机存储介质存储有计算机程序,所述计算机程序被执行时实现如权利要求1至9任一项所述的方法、或者实现如权利要求9至16任一项所述的方法。
  23. 一种智能分析系统,其中,所述智能分析系统至少包括如权利要求18或19所述的编码器和如权利要求20或21所述的解码器。
CN202180102716.0A 2021-09-30 2021-09-30 编解码方法、码流、编码器、解码器、存储介质和系统 Pending CN117981309A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2021/122480 WO2023050439A1 (zh) 2021-09-30 2021-09-30 编解码方法、码流、编码器、解码器、存储介质和系统

Publications (1)

Publication Number Publication Date
CN117981309A true CN117981309A (zh) 2024-05-03

Family

ID=85781230

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180102716.0A Pending CN117981309A (zh) 2021-09-30 2021-09-30 编解码方法、码流、编码器、解码器、存储介质和系统

Country Status (2)

Country Link
CN (1) CN117981309A (zh)
WO (1) WO2023050439A1 (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111193929B (zh) * 2013-12-16 2022-04-12 浙江大学 一种前向双假设编码图像块的编解码方法和装置
EP3315006A1 (en) * 2016-10-31 2018-05-02 Carnegie Mellon University Control arrangement and method for controlling a position of a transfer device of a harvesting machine
CN109862315B (zh) * 2019-01-24 2021-02-09 华为技术有限公司 视频处理方法、相关设备及计算机存储介质
CN111325252B (zh) * 2020-02-12 2022-08-26 腾讯科技(深圳)有限公司 图像处理方法、装置、设备、介质
CN112866697B (zh) * 2020-12-31 2022-04-05 杭州海康威视数字技术股份有限公司 视频图像编解码方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2023050439A1 (zh) 2023-04-06

Similar Documents

Publication Publication Date Title
Minnen et al. Joint autoregressive and hierarchical priors for learned image compression
Lombardo et al. Deep generative video compression
US20230062752A1 (en) A method, an apparatus and a computer program product for video encoding and video decoding
Wu et al. Learned block-based hybrid image compression
EP3583777A1 (en) A method and technical equipment for video processing
CN110971901B (zh) 卷积神经网络的处理方法、装置、设备及存储介质
TW202337211A (zh) 條件圖像壓縮
Chamain et al. End-to-end image classification and compression with variational autoencoders
Han et al. Deep generative video compression
Klopp et al. Utilising low complexity cnns to lift non-local redundancies in video coding
Rhee et al. Channel-wise progressive learning for lossless image compression
CN117441333A (zh) 用于输入图像数据处理神经网络的辅助信息的可配置位置
CN113261285A (zh) 编码方法、解码方法、编码器、解码器以及存储介质
CN117981309A (zh) 编解码方法、码流、编码器、解码器、存储介质和系统
CN115914654A (zh) 一种用于视频编码的神经网络环路滤波方法及装置
CN116939218A (zh) 区域增强层的编解码方法和装置
CN114422804A (zh) 数字视网膜视频流和特征流联合编解码方法、装置及系统
CN117321989A (zh) 基于神经网络的图像处理中的辅助信息的独立定位
CN116803078A (zh) 编解码方法、码流、编码器、解码器以及存储介质
US20230239470A1 (en) Video encoding and decoding methods, encoder, decoder, and storage medium
Mital et al. Deep stereo image compression with decoder side information using wyner common information
WO2023024115A1 (zh) 编码方法、解码方法、编码器、解码器和解码系统
US20240236378A1 (en) Encoding method, decoding method, and decoder
Ahonen Image coding for machines: Deep learning based post-processing filters
CN113556567B (zh) 帧间预测的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication