CN105049871B

CN105049871B - 一种基于hevc的音频信息嵌入方法及提取和重构方法

Info

Publication number: CN105049871B
Application number: CN201510409325.XA
Authority: CN
Inventors: 王晓东; 徐辉; 王让定; 蒋刚毅; 章联军; 叶庆卫; 周宇; 汪朝林; 王含章; 陈超
Original assignee: Ningbo University
Current assignee: Ningbo University
Priority date: 2015-07-13
Filing date: 2015-07-13
Publication date: 2018-03-09
Anticipated expiration: 2035-07-13
Also published as: CN105049871A

Abstract

本发明涉及一种基于HEVC的音频信息嵌入方法及提取和重构方法，在音频信息嵌入部分通过分HEVC编解码结构，在帧内预测编码过程中，选取纹理复杂度较高的4×4的预测单元，利用拉格朗日率失真模型选取最优预测模式，并根据相邻预测模式相关性，在最优预测模式确定的前提下，将具有相近预测效果的4个预测模式分为1组，建立预测模式组与变长码组之间的动态双映射关系，根据待嵌入的音频信息长度变化，改变标志位，对应调制预测模式，完成音频2比特或3比特信息的嵌入，大大提升了嵌入音频信息的容量。在提取和重构过程中，只需根据双映射关系对码流中的预测模式解码即可，实现了音频信息完整无误的嵌入和提取，很好的保证了音、视频的主客观质量。

Description

一种基于HEVC的音频信息嵌入方法及提取和重构方法

技术领域

本发明涉及一种基于HEVC的音频信息嵌入方法及提取和重构方法。

背景技术

随着数字多媒体通信与传输技术的发展，视频会议、远程教学、视频点播等多媒体服务已经广泛应用于我们生活的各个方面。然而由于网络传输中的延迟、抖动和网络拥塞等，以及发送端的发送速度与接收端的接收速度不匹配等问题，导致多媒体出现不同步的现象，而音视频同步作为其中的一个关键性技术越来越多的受到人们的关注。为了解决音视频同步问题，目前有两类方法，一种是非嵌入式的音视频同步方法，另一种是嵌入式的方法。

传统的非嵌入式的音视频同步方案有基于时间戳和同步标记来实现的，即在解码端恢复出与编码端一致的时钟，将相同时间标记的单元同时播放从而实现同步，然而该方案对解码器有较高要求，且对接收端缓冲区域的容量要求比较大，不能满足多个发送端的应用需求；也有借助多线程和多路复用思想，只需在接收端把音视频流分开即可，但该方案对复用后的音视频流解码会使得音视频流的质量严重下降；国际上，针对视频会议和可视电话等应用中的唇同步问题，相关学者提出了包括语音辅助视频插补、交叉模式预测编码及同步视频帧自动生成等方法，但该类算法中人的嘴部定位较难，需要人参与，且算法复杂度很高。

上述提及的几种非嵌入式的音视频同步方案对解码器要求较高，且算法复杂度较高，针对这些问题，近几年有很多学者借鉴基于H.264的信息隐藏和视频水印的思想，将音频信息嵌入视频中进行同步编码，在解码端提取音频编码数据并重构音频，最终实现同步。如通过修改变换域DCT系数实现音频嵌入，但该方案没有充分考虑嵌入开销和视频比特率的变化，视频码率失真较大。为了解决这个问题，有提出在H.264运动估计的过程中利用1/4像素精度的运动搜索点与音频信息之间的对应关系，通过调整最优匹配点将音频信息嵌入视频中，从而降低对视频质量的影响，但是这种方案会引起帧间失真漂移；也有通过修改CAVLC熵编码高频拖尾系数和非零系数将音频嵌入其中，该方法可以保持码率稳定，但仍会因误差累计而造成视频质量下降，导致音频信息无法正确提取。为避免对视频质量造成较大影响，基于帧间预测模式嵌入音频的算法被提出，但该算法嵌入数据容量较小，平均每个宏块只有2比特。为此，最近又提出一种可变尺寸块嵌入音频编码数据的方法，平均每个宏块嵌入2.67bit数据量，提升了嵌入容量，也保证了音频数据准确性。

以上方法主要针对标清视频而言，但随着人们对高清、超高清视频需求的增加，H.264/AVC标准已无法得到满意的压缩性能，现有的这些方法对高清以及超高清视频的音视频同步处理效果不佳。HEVC(英文全拼为：HighEfficiency Video Coding)是由国际信息组织和移动视频专家组制定的新一代视频压缩编码标准，旨在H.264/AVC的基础上提高编码效率，尤其在处理高清视频时具有显著优势，高效的压缩性能和并行化处理能力，将使其在高清、超高清等视频应用领域发挥重要作用，故基于HEVC的音视频同步方法的研究具有理论价值和现实意义，而HEVC的音视频同步方法中最主要的就是音频信息的嵌入方法及提取和重构方法。

发明内容

本发明所要解决的第一个技术问题是针对上述现有技术提供一种基于HEVC的音频信息嵌入方法。

本发明所要解决的第二个技术问题是针对上述现有技术提供一种基于HEVC的音频信息信息提取和重构方法。

本发明解决上述第一个技术问题所采用的技术方案为：一种基于HEVC的音频信息嵌入方法，其特征在于：包括以下步骤：

步骤1-1、将待嵌音频信息进行G.729压缩编码，将压缩编码后的待嵌音频信息转化为二进制音频数据流，用Au_i表示，其中1≤i≤Len，i的初始值为1，Len表示二进制音频数据流的长度；

步骤1-2、在编码端，将待嵌音频信息的原始HEVC视频当前待编码帧定义为当前编码帧，当前编码帧进行帧内预测时，将当前编码帧中正在处理的第m个预测单元定义为当前预测单元，其中1≤m≤I,m的初始值为1，I表示当前编码帧帧内预测时包含的预测单元的总个数；

步骤1-3、判断当前预测单元的尺寸是否为4×4，如果是，则执行步骤1-4；否则，对当前预测单元不处理，然后令m＝m+1,再执行步骤1-11，其中m＝m+1中的“＝”为赋值符号；

步骤1-4、利用拉格朗日率失真优化函数计算出当前4×4预测单元的最优预测模式，用Best_M_j表示，j＝(0,1,2…34)表示预测模式编号；

步骤1-5、在帧内预测模式相关性分析的基础上，统计在最优预测模式Best_M_j确定的情况下，次优预测模式的概率分布，次优预测模式用Sub_opt_M_n(n＝0,1,2,…34)表示，然后选取次优预测模式出现概率在50％以上的四个模式，用Sub_opt_M₀，Sub_opt_M₁，Sub_opt_M₂，Sub_opt_M₃表示，然后将Sub_opt_M₀，Sub_opt_M₁，Sub_opt_M₂，Sub_opt_M₃与当前最优预测模式Best_M_j构成一个集合S_j(_j＝0,1,2,…34)，由于最优预测模式Best_M_j有35种可选值，因此Sub_opt_M₀，Sub_opt_M₁，Sub_opt_M₂，Sub_opt_M₃与当前最优预测模式Best_M_j构成的集合也存在35个，根据集合的运算规则，将这35个集合中的任意4个集合之间进行相与得到共同元素，如果任意4个集合之间进行相与后得到的集合中的预测模式达到4个时，就将此4个具有相近预测效果的预测模式N_a(a＝0,1,2,3)划分为一个预测模式组Class_b＝{N₀,N₁,N₂,N₃}，最后根据预测模式相关性将35种帧内预测模式分为11个预测模式组，其中预测模式组用Class_b＝{N₀,N₁,N₂,N₃}表示，b＝1,2,3……11；N₀,N₁,N₂,N₃为预测模式组中4个预测效果相近的预测模式编号；

步骤1-6、将步骤1-4中得到的最优预测模式Best_M_j，对照步骤1-5中得到的预测模式组，确定该最优预测模式Best_M_j所在的预测模式分组Class_b＝{N₀,N₁,N₂,N₃}，即式Best_M_j∈Class_b＝{N₀,N₁,N₂,N₃}；

步骤1-7、依次读取二进制音频数据流Au_i，其中1≤i≤L，L表示二进制音频数据流长度，读取的规则为：首先读取3比特音频数据，然后根据读取音频信息的长度标志位flag值的变换读取2比特或3比特音频数据，当flag＝0时读取2比特音频数据用F_i表示，当flag＝1时读取3比特音频数据用M_i表示，当最后剩下二进制音频数据长度等于1时，即音频只剩下单比特数据，将读取位置向前移动1位后停止读取，然后输出一个音频读取结束标志fin＝0并将其传给解码端；当剩下音频数据长度Len＝0时，停止读取二进制音频数据，此时所有二进制音频数据读取完毕；本步骤中提及的读取音频信息的长度标志位flag值取值为0或1；当所有二进制音频数据读取完毕后，将读取音频信息的长度标志位flag值顺序发送给接收端；在后续对二进制音频数据进行嵌入时，按照前述读取顺序，一组一组依次嵌入；

步骤1-8、建立待嵌音频信息与预测模式之间的映射规则，进而根据映射规则判断当前待嵌音频信息与最优预测模式Best_M_j是否匹配，如果匹配则不对预测模式进行修改，然后利用最优预测模式Best_M_j将当前待嵌音频信息嵌入进当前预测单元；否则，用预测模式组Class_b＝{N₀,N₁,N₂,N₃}中满足映射规则的次优预测模式替换当前最优预测模式Best_M_j，然后利用替代后的次优预测模式将当前待嵌音频信息嵌入进当前预测单元；

步骤1-9、按照步骤1-4到步骤1-8的方式，将待嵌音频信息依次嵌入进分割后包含当前4×4预测单元的一个8×8编码单元中其余三个连续的4×4预测单元中；

步骤1-10、判断已经嵌入过音频信息的4个连续的4×4预测单元的率失真代价值总和J(CU₄)与包含该4个连续4×4块的一个8×8编码单元的率失真代价值J(CU₃)进行比较，如果J(CU₄)<J(CU₃)，则保留嵌入的四组音频信息，否则不保留，在下一个分割成四个连续的4×4预测单元的编码单元内重新嵌入前述四组音频信息；

步骤1-11、读取下一个4×4预测单元，并将读取的第m+1预测单元作为当前预测单元，然后返回步骤1-4继续执行，直至当前编码帧中的所有预测单元处理完毕；

步骤1-12、将原始HEVC视频的下一帧待编码的帧作为当前编码帧，然后返回步骤1-2继续执行，当读取到音频数据结尾时，如果余下单比特数据，则根据预测模式的奇偶对应关系进行映射，当结尾数据为0时，预测模式为偶模式，则将结尾数据0直接嵌入；预测模式为奇模式，则选取预测模式组Class_b中为偶的次优预测模式替换，然后利用替代后的次优预测模式将结尾数据0嵌入进当前编码单元；当结尾数据为1时，预测模式为奇模式，则将结尾数据1直接嵌入，预测模式为偶模式，则选取预测模式组Class_b中为奇的次优预测模式替换，然后利用替代后的次优预测模式将结尾数据1嵌入进当前编单元，此时所有音频信息全部嵌入完毕。

作为改进，所述步骤1-7中在读取二进制音频数据流过程中，读取音频信息的长度标志位flag值由以下方式获得：

步骤1-7-a、首先读取长度3比特的音频信息，然后将这3比特的音频信息转换成十进制数值，判断这个十进制数值是否大于十进制数值(011)₁₀，如果大于，下一个读取音频信息的长度标志位flag值赋值为0，并进入步骤1-7-b；否则，下一个读取音频信息的长度标志位flag值赋值为1，并进入步骤1-7-c；

步骤1-7-b、读入2bit比特的音频信息，然后下一个读取音频信息的长度标志位flag值赋值为1，进入步骤1-7-c；

步骤1-7-c、读入3bit比特的音频信息，然后将这3比特的音频信息转换成十进制数值，判断这个十进制数值是否大于十进制数值(011)₁₀，如果大于，下一个读取音频信息的长度标志位flag值赋值为0，否则，下一个读取音频信息的长度标志位flag值赋值为1。

再改进，所述步骤1-8中，建立待嵌音频信息与预测模式之间的映射规则方式为：

当读取的音频信息长度为2时，2比特长度的音频信息可建立的信息分组为:F_i＝{00,01,10,11}，然后进行F_i→N_i映射，即建立00→N₀、01→N₁、10→N₂、11→N₃的音频信息和预测模式映射关系；

当读取音频信息长度为3时，3比特长度的音频信息可建立的信息分组为：M_i＝{000,001,010,011}；进行M_i→N_i映射，即建立000→N₀、001→N₁、010→N₂、011→N₃的音频信息和预测模式映射关系。

本发明解决上述第二个技术问题所采用的技术方案为：一种基于HEVC的音频信息信息提取和重构方法，其特征在于：发送端采用上述音频信息嵌入方法将音频信息嵌入进HEVC视频码流中，而在解码端，则利用HEVC标准解码器对其接收的含有音频信息的HEVC视频码流进行解码，具体方法为：

步骤2-1、对当前解码帧进行帧内预测解码时，将含有音频信息的HEVC视频码流中解码得到的第k个预测单元定义为当前预测单元，其中1≤k≤N，k的初始值为1，N表示含音频信息的HEVC视频码流中包含的预测单元的总个数；

步骤2-2、判断当前预测单元的尺寸是否为4×4，如果是，解码当前块，执行步骤2-3；否则，不对当前预测单元进行音频信息提取，然后执行步骤2-4；

步骤2-3、读取当前4×4块的预测模式和读取音频信息的长度标志位flag值，对照预测模式和音频信息之间的映射规则提取音频信息，当读取音频信息的长度标志位flag值＝0时，根据映射关系N₀→00、N₁→01、N₂→10、N₃→11，判断当前预测模式N_i所对应的音频信息，并提取该音频信息组；当读取音频信息的长度标志位flag值＝1时，根据映射关系N₀→000、N₁→001、N₂→010、N₃→011，判断当前预测模式N_i所对应的音频信息，并提取该音频信息组；然后令k＝k+1，再执行步骤2-4；

步骤2-4、读取下一个预测单元，然后返回执行步骤2-2，当音频信息只剩下单比特数据时，根据结尾数据奇偶对应关系进行提取，如果当前预测模式N_i为偶模式，则提取音频信息为0，否则，提取音频信息为1，此时所有音频信息全部提取出来；

步骤2-5、将提取的音频信息按照先后顺序进行组合得二进制音频数据流，然后将该二进制音频数据流转化成压缩编码音频文件，最后再将压缩编码音频文件通过音频解码器重构成音频信号。

与现有技术相比，本发明的优点在于：

1)本发明方法通过分析HEVC编解码结构，在编码端，针对纹理比较复杂的4×4块亮度块预测模式，建立预测模式和音频码组之间的双映射关系，根据匹配关系修改帧内预测模式来嵌入音频信息；在解码端，音频提取过程只需根据双映射关系对码流中的预测模式解码即可，针对音频剩下单比特数据的情况，则根据预测模式的奇偶对应关系进行映射，最后再对音频进行重构和恢复；采用这种音频嵌入和提取恢复实现音视频同步的方式，保证了音频数据的正确性和完整性；

2)、本发明方法利用相邻预测模式的相关性进行预测模式分组，建立预测模式组与音频信息之间的动态映射关系，将音频信息进行动态分组，通过标志位flag值变化实时读取3比特或2比特数据，大大提升了嵌入音频数据的容量；

3)、本发明方法根据相邻预测模式相关性进行统计分析，在最优预测模式确定的前提下，将具有相近预测效果的4个预测模式分为1组，进行预测模式替换，使修改后的视频质量接近原始视频的质量，很好的保证了音、视频的主客观质量，大大降低了因嵌入音频信息而对视频码率的影响，实现了较小的嵌入开销。

附图说明

图1为本发明实施例中基于HEVC的音频信息嵌入方法的流程图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提供了一种基于HEVC的音频信息嵌入方法和基于HEVC的音频信息信息提取和重构方法。下面首先对HEVC视频压缩标准进行一下简单的介绍：

HEVC视频压缩标准采用和H.264类似的混合编码框架，帧内编码采用了基于四叉树结构的编码技术和多角度预测技术，与H.264/AVC不同的是HEVC视频压缩标准使用编码单元CU、预测单元PU和变化单元TU三种更灵活的编码元素来描述整个编码过程。编码单元CU是每一帧视频编码的基本单元，编码单元CU的尺寸按四叉树递归的方式，根据深度的不同可以分为64×64、32×32、16×16、8×8，每个深度的码单元CU中，可以分割成多个尺寸的预测单元PU进行预测，而预测单元PU又包含多个尺寸的变化单元TU。编码单元CU四叉树的划分过程中，每一深度编码单元CU可以被划分为较小的编码单元CU，例如当depth为n的CU，且划分标志位flag为1，则继续划分为depth为n+1的4个较小编码单元CU，每个较小编码单元CU尺寸为上一深度编码单元CU尺寸的1/4；当编码单元CU达到最小尺寸8×8，此时进行预测编码，8×8的编码单元CU可以进一步划分为4个4×4的预测单元PU。

和H.264/AVC帧内预测原理类似，HEVC利用像素点在空间上的相关性，当前块的像素值通过相邻已编码并重建块的边界像素值进行预测。但与H.264/AVC帧内4×4亮度块9种预测模式相比，HEVC将预测模式扩展到了35种，预测模式的增多使帧内预测更加准确，并减少了空间冗余，为了从35种预测模式中，有效选择最优预测模式，HEVC采用了基于拉格朗日优化算法的率失真优化模型实现预测模式的选择，通过遍历所有预测模式选择出率失真代价最小的模式作为最佳预测模式，代价函数定义如下：

J(s,c,IMODE|QP,λ_MODE)＝D(s,c,IMODE|QP)+λ_MODE·R(s,c,IMODE|QP)

其中：QP代表量化参数；λ_MODE为拉格朗日乘数；S、C分别代表原始块和重建块；R为视频流码率；D为输出比特流的失真度。

本发明中基于HEVC的音频信息嵌入方法，其特征在于：包括以下步骤：

下表给出了最优预测模式确定前提下，部分次优预测模式的分布

Best_M_j	Sub_opt_M₀	Sub_opt_M₁	Sub_opt_M₂	Sub_opt_M₃
					5	6	7	0	4
10	11	8	9	1
					15	0	16	14	17
20	21	22	0	19
					25	26	24	27	28
30	29	31	28	1

而下表具体给出了35种帧内预测模式的11个预测模式分组情况

Class	N₀	N₁	N₂	N₃
					Class₁	0	2	3	4
Class₂	5	6	7	8
					Class₃	1	9	10	11
Class₄	0	12	13	14
					Class₅	0	1	15	16
Class₆	1	17	18	19
					Class₇	0	20	21	22
Class₈	0	23	24	25
					Class₉	0	26	27	28
Class₁₀	1	29	30	31
					Class₁₁	0	32	33	34

步骤1-12、将原始HEVC视频的下一帧待编码的帧作为当前编码帧，然后返回步骤1-2继续执行，当读取到音频数据结尾时，如果余下单比特数据，则根据预测模式的奇偶对应关系进行映射，当结尾数据为0时，预测模式为偶模式，则将结尾数据0直接嵌入；预测模式为奇模式，则选取预测模式组Class_b中为偶的次优预测模式替换，然后利用替代后的次优预测模式将结尾数据0嵌入进当前编码帧；当结尾数据为1时，预测模式为奇模式，则将结尾数据1直接嵌入，预测模式为偶模式，则选取预测模式组Class_b中为奇的次优预测模式替换，然后利用替代后的次优预测模式将结尾数据1嵌入进当前编码帧，此时所有音频信息全部嵌入完毕。

而在前述步骤1-7中在读取二进制音频数据流过程中，读取音频信息的长度标志位flag值由以下方式获得：

步骤1-7-b、读入2bit比特的音频信息，然后将下一个读取音频信息的长度标志位flag值赋值为1，然后进入步骤1-7-c；

在前述步骤1-8中，建立待嵌音频信息与预测模式之间的映射规则方式为：

基于HEVC的音频信息信息提取和重构方法，其特征在于：发送端采用如权利要求1所述音频信息嵌入方法将音频信息嵌入进HEVC视频码流中，而在解码端，则利用HEVC标准解码器对其接收的含有音频信息的HEVC视频码流进行解码，具体方法为：

步骤2-3、读取当前4×4块的预测模式和读取音频信息的长度标志位flag值，对照预测模式和音频信息之间的映射规则提取音频信息，当读取音频信息的长度标志位flag＝0时，根据映射关系N₀→00、N₁→01、N₂→10、N₃→11，判断当前预测模式N_i所对应的音频信息，并提取该音频信息组；当读取音频信息的长度标志位flag＝1时，根据映射关系N₀→000、N₁→001、N₂→010、N₃→011，判断当前预测模式N_i所对应的音频信息，并提取该音频信息组；然后令k＝k+1，再执行步骤2-4；

采用本发明提供的音频信息嵌入方法和音频信息信息提取和重构方法，即可实现音视频同步。

Claims

1.一种基于HEVC的音频信息嵌入方法，其特征在于：包括以下步骤：

本步骤中，在读取二进制音频数据流过程中，读取音频信息的长度标志位flag值由以下方式获得：

步骤1-7-c、读入3bit比特的音频信息，然后将这3比特的音频信息转换成十进制数值，判断这个十进制数值是否大于十进制数值(011)₁₀，如果大于，下一个读取音频信息的长度标志位flag值赋值为0，否则，下一个读取音频信息的长度标志位flag值赋值为1；

步骤1-8、建立待嵌音频信息与预测模式之间的映射规则，进而根据映射规则判断当前待嵌音频信息与最优预测模式Best_M_j是否匹配，如果匹配则不对预测模式进行修改，然后利用最优预测模式Best_M_j将当前待嵌音频信息嵌入进当前预测单元；否则，用预测模式组Class_b＝{N₀,N₁,N₂,N₃}中满足映射规则的次优预测模式替换当前最优预测模式Best_M_j，然后利用替代后的次优预测模式将当前待嵌音频信息嵌入进当前预测单元；本步骤中，建立待嵌音频信息与预测模式之间的映射规则方式为：

当读取音频信息长度为3时，3比特长度的音频信息可建立的信息分组为：M_i＝{000,001,010,011}；进行M_i→N_i映射，即建立000→N₀、001→N₁、010→N₂、011→N₃的音频信息和预测模式映射关系；

2.一种基于HEVC的音频信息信息提取和重构方法，其特征在于：发送端采用如权利要求1所述音频信息嵌入方法将音频信息嵌入进HEVC视频码流中，而在解码端，则利用HEVC标准解码器对其接收的含有音频信息的HEVC视频码流进行解码，具体方法为：