CN1655616A

CN1655616A - 音视频混合信号同步压缩中的音频嵌入视频及其提取方法

Info

Publication number: CN1655616A
Application number: CN 200510016589
Authority: CN
Inventors: 陈贺新; 赵岩; 齐丽风
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2005-02-25
Filing date: 2005-02-25
Publication date: 2005-08-17
Anticipated expiration: 2025-02-25
Also published as: CN100341330C

Abstract

本发明涉及信号的嵌入与提取技术，尤其涉及用于音视频混合信号同步压缩中的音频嵌入视频及其提取犯法。具体步骤为：4×4子块分割步骤、数字音频信号嵌入视频步骤、4×4子块边缘匹配程度检测步骤、图象数据恢复步骤。具体装置为：4×4子块分割单元、数字音频信号嵌入视频单元、4×4子块边缘匹配程度检测单元、图象数据恢复单元。本发明将音频信息比特嵌入视频中每个灰度帧的4×4子块，在嵌入较多比特数的同时尽量使嵌入的信息对视频的影响达到最小，并利用边缘匹配检测提取出接近无失真的音频数据，为音视频混合信号同步压缩系统提供关键的技术支持。

Description

音视频混合信号同步压缩中的音频嵌入视频及其提取方法

技术领域：

本发明涉及信号的嵌入与提取技术，尤其涉及用于音视频混合信号同步压缩中的音频嵌入视频及其提取技术。

背景技术：

目前，信号的嵌入与提取技术主要应用于信息安全中的水印处理。水印处理中需要将水印信息嵌入到多媒体数据中。在视频水印技术中，目前的几种视频水印嵌入与提取技术如下：

应用直接序列扩展频谱模型的视频水印方案。一段视频是由一些帧组成的，而每一帧可以看作是由数个比特面(bit planes)组成的，这样，这段视频就可以看作是在时间轴上的以比特面为单位的一维序列。一个{0，1}m-序列作用于这个一维序列，大部分比特面保持不变，而有少数比特面的更改并不能影响视觉效果，这些位置就可用来嵌入水印。

在运动矢量中嵌入水印，将水印嵌入在幅度值大且相角变化小的运动矢量中。在MPEG压缩算法中，运动补偿预测技术用于减少帧间的时间冗余度，只有预测到有误差的图像才被编码。在MPEG视频序列中，大部分的帧是运动补偿预测编码帧，所以，在运动矢量中隐藏水印信息可以更有效的利用视频比特流中的信息。可以通过微量修改运动矢量中的数据序列来隐藏水印信息，可使水印检测非常容易。

在MPEG-1和MPEG-2压缩视频流中嵌入可视水印的方案。Arena等人提出了将水印直接嵌入在MPEG-2比特流域中，从而避免了将水印嵌入在像素域中所必需的将视频码流解码与再编码的繁重的运算。在此方案中水印只嵌入在视频中的I帧，不修改P帧和B帧，这是基于减小算法复杂度和对帧跳跃与帧删除鲁棒性的考虑(因为I帧不可以被跳跃或删除)。为了更容易的依据MPEG-2语法结构来处理，方案选择宏块而不是像素作为比特流的操作单位，将水印信息的每一个比特位扩展到一定数量的宏块中。

在DCT域嵌入水印的方案。许多学者考虑与MPEG等标准的兼容性，提出了在离散余弦变换后的系数上嵌入水印信息的技术。考虑人眼视觉特性，通过对特定位置系数进行修改以实现水印的嵌入。例如，一种在DCT域嵌入水印的方案为：(1)将原视频流V的每一帧I从RGB色彩表示转换为YUV色彩模式，对Y分量进行DCT变换得到系数F＝{f₁，f₂，…f_Len}，其中Len＝Height*Width，Width为原图像的宽度，Height为原图像的高度。为了便于算法描述，我们取Width和Height相等，并等于2ⁿ，n为自然数；(2)将变换系数F用Zig-Zag扫描进行重新排序，设重排后的DCT系数为F′；(3)因F′可以近似看成按频率由低到高排列的，为了达到水印鲁棒性和透明性的平衡，我们跳过前L个DCT系数，从L+1个系数开始按公式①加入水印：

F″[I]＝F′[I]+α*|F′[I]|*X[I] ①

其中α为水印强度参数，X是满足N(0，1)分布的，由P，K计算出来的密钥产生的实数伪随机序列。在α一定的情况下，为了提高水印的鲁棒性，我们对按①式中加入的水印信息量的大小进行了限定，即

α*|F′[I]|*X[I]＞T ②

其中T为一个给定的阈值，既如果当前处理的DCT系数F′[I]和水印序列中X[I]值满足②式，则进行水印嵌入；否则，当前DCT系数F′[I]和X[I]都不处理，跳到下一个。如此重复，一直到长度为M的水印序列全部嵌入到DCT系数中为止；(4)对嵌入水印后的DCT系数进行逆Zig-Zag排列；(5)对经过逆Zig-Zag排列的DCT系数进行逆DCT变换，得到嵌入水印后的Y分量；最后将此帧从YUV色彩模式变换回RGB模式，得到加入水印后视频帧I′；(6)对此视频流中的每一帧都进行以上加水印操作，得到加入水印后的视频流V′。

技术内容：

本发明的目的在于提供一种用于音视频混合信号同步压缩中的音频嵌入视频及其提取技术。该技术与水印处理中的嵌入与提取技术有不同的目的。水印处理中，要求水印的嵌入具有安全性，鲁棒性，不可感知性，抗攻击性等特点，其目的只是能够检测水印存在与否，并不要求提取出无失真或接近无失真的原始水印信息，而且需要嵌入的水印信息比特通常数量很少。而用于音视频混合信号同步压缩中的音频嵌入技术，不要求具有安全性，鲁棒性，不可感知性，抗攻击性等的特点，其目的是能够提取出已嵌入的无失真或接近无失真的音频信息，而且需嵌入的比特较多。因此，本发明的嵌入技术考虑其应用目的，采用基于边缘匹配的方法。

音视频混合信号同步压缩中的音频嵌入视频及其提取方法是：待嵌入的音频信号为未经压缩的原始数字音频信号，视频信号为彩色数字视频信号，每幅彩色图象由红、绿、兰三帧灰度图象组成，第一步是音频嵌入视频：

a.将每帧灰度图象划分为m×m子块，m为正整数；

b.按m×m子块为单位进行音频嵌入，除每帧灰度图象的最上面m行和最左面m列不嵌入音频外，数字音频信号的比特按顺序分别嵌入红、绿、兰三帧灰度图象中除最上面m行和最左面m列的各m×m子块内，若当前数字音频信号的比特为1，则视频信号中相应的m×m子块内所有像素的灰度值均加上一个常数值，若当前音频信号的比特为0，则视频信号中相应的m×m子块内所有像素的灰度值均保持不变；

c.按上述方法嵌入音频后的音视频混合信号经基于四维矩阵离散余弦变换的视频压缩方法压缩编码；

第二步音视频混合信号中音频信号提取：

a.解码后的音视频混合信号，将每帧的红、绿、兰三个单色帧数据，除最上面m行和最左面m列的m×m子块外，检测每个m×m子块及将该子块的所有像素均减去一个与在音频嵌入时加入的相同常数值后的m×m子块与其上面和左边相邻子块的边缘匹配程度，若未减去固定值的m×m子块比减去固定值的m×m子块边缘匹配的好，则提取的音频比特为0，否则提取的音频比特为1；

b.若提取的音频比特为1，则将减去固定值的m×m子块替换原m×m子块，以得到该子块的恢复图象数据，若提取的音频比特为0，则将该m×m子块即为恢复图象数据。

下面结合附图所示实施方式对本发明做进一步的说明。

附图说明：

图1、本发明所指的数字音频信号嵌入数字视频的流程图；

图2、本发明所指的音视频混合信号中音频信号提取的流程图；

图3、本发明中音频信号嵌入视频单元示意图；

图4、本发明中4×4子块边缘匹配程度检测单元示意图；

具体实施方式：本发明的核心内容是用于音视频混合信号同步压缩中的音频嵌入视频及其提取技术。在现有的嵌入与提取技术中，其主要应用是信息安全中的水印处理，所需嵌入的信息较少，且其目的只是检测出水印的存在与否，其技术要求信息的嵌入具有安全性，鲁棒性，不可感知性，抗攻击性等特点。本发明的嵌入及提取技术是为了应用于音视频混合信号同步压缩系统中的，因此，所嵌入的信息比特数多且要求接近无失真地提取出所嵌入的信息比特为0或1。

为了嵌入较多的比特数同时尽量对视频的影响达到最小，本发明以采用将音频信息比特嵌入每个灰度帧4×4子块的方法为例说明如下。

在上述技术内容中，数字音频信号嵌入视频步骤(单元)的具体方法为：除最上面4行和最左面4列的各4×4子块不嵌入音频信号外，若当前数字音频信号的比特为1，则数字视频信号中相应的4×4子块内所有像素的灰度值均加上一个常数(如：20)；若当前数字音频信号的比特为0，则数字视频信号中相应的4×4子块内所有像素的灰度值均保持不变。设P(i，j)为未嵌入音频比特的4×4子块图象数据，P′(i，j)为已嵌入音频比特的4×4子块图象数据，其中i＝0，1，2，3；j＝0，1，2，3，其嵌入过程可用公式表示为：

P′(i，j)＝P(i，j)+CX

其中：C为常数(如取10或20)，X为嵌入的音频比特。

在4×4子块边缘匹配程度检测步骤(单元)可以利用图象数据的范围限定在[0-255]之间的特点，采用简化的检测方法：对解码后的音视频混合信号，将每帧的红、绿、兰三个单色帧数据，除最上面4行和最左面4列的4×4子块外，检测每个4×4子块及将该子块的所有像素均减去一个常数值(同前，如：20)后的4×4子块的数据范围，若4×4子块的数据范围超出[0-255]，则提取的音频比特为1，不必进行边缘匹配检测；若减去常数值后的4×4子块的数据范围超出[0-255]，则提取的音频比特为0，也不必进行边缘匹配检测。

具体实施步骤为：

4×4子块分割步骤：将数字彩色视频每个帧的红、绿、兰三个单色帧图像划分为4×4子块；

数字音频信号嵌入视频步骤：除最上面4行和最左面4列的各4×4子块不嵌入音频信号外，若当前数字音频信号的比特为1，则数字视频信号中相应的4×4子块内所有像素的灰度值均加上一个常数值(如：20)；若当前数字音频信号的比特为0，则数字视频信号中相应的4×4子块内所有像素的灰度值均保持不变。

4×4子块边缘匹配程度检测步骤：对解码后的音视频混合信号，将每帧的红、绿、兰三个单色帧数据，除最上面4行和最左面4列的4×4子块外，检测每个4×4子块及将该子块的所有像素均减去一个常数值(同前，如：20)后的4×4子块与其上面和左边相邻子块的边缘匹配程度，若未减去固定值的4×4子块比减去固定值的4×4子块边缘匹配的好，则提取的音频比特为0，否则提取的音频比特为1；图象数据恢复步骤：若提取的音频比特为1，则将减去固定值的4×4子块替换原4×4子块，以得到该子块的恢复图象数据，若提取的音频比特为0，则将该4×4子块即为恢复图象数据。

Claims

1.音视频混合信号同步压缩中的音频嵌入视频及其提取方法，其特征在于：待嵌入的音频信号为未经压缩的原始数字音频信号，视频信号为彩色数字视频信号，每幅彩色图象由红、绿、兰三帧灰度图象组成，第一步是音频嵌入视频：

a.将每帧灰度图象划分为m×m子块，m为正整数；

第二步音视频混合信号中音频信号提取：