CN104299617A

CN104299617A - 一种在音频中嵌入与检测数字信息的方法

Info

Publication number: CN104299617A
Application number: CN201410626999.0A
Authority: CN
Inventors: 张立; 陈亮; 康凯
Original assignee: JIANGSU DREAMVOC TECHNOLOGY Co Ltd
Current assignee: Jiangsu Changjiang Media Co., Ltd.
Priority date: 2014-11-10
Filing date: 2014-11-10
Publication date: 2015-01-21
Anticipated expiration: 2034-11-10
Also published as: CN104299617B

Abstract

本发明公开一种在音频中嵌入与检测数字信息的方法，包括：将载体音频和水印信息分帧，得到分帧的载体音频和分帧的水印信息；计算得到每一帧可嵌入所述水印信息的功率系数；对所述分帧的水印信息进行处理，得到幅度处理后的分帧的水印信息；将所述幅度处理后的分帧的水印信息叠加在所述分帧的载体音频上，得到最终的输出音频。直接利用18000～20000Hz的频段，无需对载体音频进行分析，计算复杂度低，且不影响载体音质。可用运算能力和电池容量有限的便携设备，如手机、平板电脑等可穿戴电子设备的麦克风接收声音，通过运行在可穿戴电子设备上的应用软件恢复出水印，并且识别能力可以抵抗正常室内、车载等环境噪声的影响。

Description

一种在音频中嵌入与检测数字信息的方法

技术领域

本发明属于数字信号处理技术领域，尤其涉及一种在音频中嵌入与检测数字信息的方法，适合于数字电视、数字广播、互联网音视频。

背景技术

广播电视以及互联网多媒体视听服务中，要利用音频传递信息，通常采用：

1、声纹技术，即预先提取音频的频率与时间特征，通常称为“声纹”，存储在声纹数据库中，客户端接收音频时，提取音频的声纹，在声纹数据库中进行匹配和索引，得到相应的信息。此种声纹技术不在载体声音信号中加入任何信号，但是需要对识别的音频预先提取频率与时间特征，并维护一个庞大的特征数据库，步骤繁琐复杂，此外声纹技术受外部环境噪音影响较大。

2、利用人耳的听觉掩蔽效应，包括频域掩蔽效应和时域掩蔽效应，在音频中人耳不敏感的频段或时间段嵌入信息，也称为水印，并在接收端进行检测，该技术占用频段窄，只适合窄带音频系统应用，如调频广播、电话等，并且实现较复杂，计算过程繁琐并且需要对载体音频进行分析。

除此之外，现有的广播音频水印技术在检测端需要使用专用设备，无法应用于运算能力和电池容量有限的便携设备，如手机、平板电脑等可穿戴电子设备上。

发明内容

有鉴于此，本发明提供一种在音频中嵌入与检测数字信息的方法，以解决目前音频水印技术实现较复杂，计算过程繁琐，需要对载体音频进行分析，且在检测端需要使用专用设备，无法应用于运算能力和电池容量有限的可穿戴电子设备上的技术问题。

技术方案：一种在音频中嵌入与检测数字信息的方法，包括：将载体音频和水印信息分帧，得到分帧的载体音频和分帧的水印信息；自所述分帧的载体音频的每一帧中读取出每一帧的最大幅度值，计算得到每一帧可嵌入所述水印信息的功率系数；将所述分帧的载体音频和分帧的水印信息按帧对齐，对所述分帧的水印信息进行处理，得到幅度处理后的分帧的水印信息；将所述幅度处理后的分帧的水印信息叠加在所述分帧的载体音频上，得到最终的输出音频。

进一步的，对所述分帧的水印信息进行处理的过程包括：将所述分帧的水印信息的每一帧数据的幅度，与相对应的载体帧内计算得到的所述功率系数相乘，从而得到所述幅度处理后的分帧的水印信息。

进一步的，所述在音频中嵌入与检测数字信息的方法还包括：将以二进制数字表示的需要传递的信息进行二进制相移检控 (BPSK，Binary Phase Shift Keying)调制，将调制后的所述需要传递的信息按照载波的采样率进行保存，得到所述水印信息。

进一步的，所述载波的采样率不低于44100赫兹，若所述载波的采样率低于44100赫兹，则对所述载波进行重采样，将所述载波的采样率转换为44100赫兹。

进一步的，所述载波的时间长度大于等于所述水印信息的时间长度。

进一步的，所述在音频中嵌入与检测数字信息的方法还包括：接收端设备的麦克风采用44100赫兹的采样率对所述输出音频进行录制，并分为时间长度为1秒的帧。

进一步的，所述在音频中嵌入与检测数字信息的方法还包括所述接收端设备将所述录制的输出音频数据与19000赫兹的载频相乘，完成下变频；所述接收端设备对所述下变频处理后的输出音频进行BPSK解调，得到嵌入的所述水印信息。

进一步的，所述接收端设备为智能手机或平板电脑。

本发明所带来的有益效果：仅根据频域掩蔽效应，直接利用18000～20000Hz的频段，无需对载体音频进行分析，嵌入与检测的计算复杂度低，运算简单，适合于数字电视、数字广播、互联网音视频等系统，且不影响载体音质，使嵌入的信息不被人耳感知。可用运算能力和电池容量有限的便携设备，如手机、平板电脑等可穿戴电子设备的麦克风接收声音，通过运行在可穿戴电子设备上的应用软件恢复出水印，并且识别能力可以抵抗正常室内、车载等环境噪声的影响。

附图说明

图1是本发明一种在音频中嵌入与检测数字信息的方法的流程示意图。

具体实施方式

以下描述和附图充分地示出本发明的具体实施方案，以使本领域的技术人员能够实践它们。实施例仅代表可能的变化。除非明确要求，否则单独的部件和功能是可选的，并且操作的顺序可以变化。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。

为了更好的理解本发明，下面简述掩蔽效应，掩蔽效应指人的耳朵只对最明显的声音反应敏感，而对于不敏感的声音，反应则较不为敏感。例如在声音的整个频率谱中，如果某一个频率段的声音比较强，则人就对其它频率段的声音不敏感了。一个强纯音会掩蔽在其附近同时发声的弱纯音，这种特性称为频域掩蔽，除了同时发出的声音之间有掩蔽现象之外，在时间上相邻的声音之间也有掩蔽现象，称为时域掩蔽，产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间。

人耳对不同频段的声音的敏感程度是不同的，例如，对于20KHz的声音，响度要达到70dB左右，人耳听起来的响度才相当于频率为1KHz响度为5dB的声音，所以在0至3KHz范围内的较小的声音就可以容易地掩蔽15KHz以上的声音。本篇技术方案就利用了时域掩蔽效应，不需要对载体音频进行分析，直接在18KHz以上嵌入水印信息。

在一些说明性的实施例中，如图1所示，提供一种在音频中嵌入与检测数字信息的方法，包括：

101：对所述需要传递的信息进行BPSK调制，BPSK为把模拟信号转换成数据值的转换方式之一，利用偏离相位的复数波浪组合来表现信息键控移相方式。其中，需要传递的信息以二进制数字表示，一帧数据长度为80bit，速率为200bps，一帧长度400ms，每帧重复发送10次，即一次发送800bit数据，持续时间4s。BPSK调制过程为：将所述需要传递的信息经过成型滤波器滤波后，输入混频器，与频率为19000Hz的载波相乘。调制过程用软件方式完成，所述成型滤波器和混频器基础采样率为44100Hz，所述需要传递的信息和载波也都经过44100Hz采样后输入系统。所述成型滤波器是平方根升余弦型滤波器，长度为10，归一化后的截止频率为0.22。所述混频器是将所述需要传递的信息和载波直接相乘并输出结果，重采样将混频后采样率为44100Hz的信号进行插值，得到所需采样率，通常采用的方法为线性插值。

调制所需的载波频率为19000Hz，将调制后所述需要传递的信息按照载波的采样率进行保存，即存储为与所述载波相同的采样率，得到待嵌入的水印信息。所述载波的采样率不低于44100Hz，若所述载波的采样率低于44100Hz，则需对所述载波进行重采样，将所述载波的采样率转换为44100Hz。

并且，所述载波的时间长度大于等于所述水印信息的时间长度，否则无法利用本发明所提供的方法嵌入所述水印信息。

102：将载体音频分帧，每一帧是长度为400ms的一段音频，帧与帧之间无重叠，得到分帧的载体音频A[n]，则A[1]、A[2]、A[3]…都是长度为400ms的一段音频。并且，将水印信息分帧，得到分帧的水印信息W[n]，则W[1]、W[2]、W[3]...也都是长度为400ms的音频。

103：完整的读取所述分帧的载体音频A[n]的每一帧，寻找帧内声音幅度的最大值Amax[n]，计算得到每一帧可嵌入所述水印信息的功率系数C[n]，计算过程如下所示：

C[n]=1-Amax[n]

因此，由于Amax [n]是A[n]这段载体音频的最大幅度值，并且功率系数C[n]由Amax[n]计算得到，所以A[1]对应Amax[1]和C[1]，A[2]对应Amax[2]和C[2]...

104：将所述分帧的载体音频A[n]和分帧的水印信息W[n]按帧对齐，对所述分帧的水印信息W[n]进行处理，其中，所述处理过程包括：将所述分帧的水印信息W[n]的每一帧数据的幅度，与相对应的载体帧内计算得到的所述功率系数C[n]相乘，则可以得到幅度处理后的分帧的水印信息W[n]×C[n]。

105：将所述幅度处理后的分帧的水印信息W[n]×C[n]叠加在所述分帧的载体音频A[n]上，得到最终的输出音频：A[n]+W[n]×C[n]，即所述最终的输出音频包含所述载体音频和水印信息。

计算机处理的过程中，所述载体音频也是被数字化的，所以实际上每一帧载体音频也是以一组数据的形式存储的。以采样率为48000Hz为例，400ms长度的载体音频，包含有48000×0.4=19200个数据，即每个A[n]和W[n]都同样包含19200个数据，在一帧的长度之内，C[n]是一个计算得到的系数。这样，求和计算A[n]+W[n]×C[n] 得到的是包含有19200个数据，采样率为48000Hz，长度400ms的一段新的数据，即得到作为一帧新的音频的所述最终的输出音频。

106：接收端设备的麦克风采用44100赫兹的采样率对所述输出音频进行录制，并分为时间长度为1秒的帧。

107：所述接收端设备将所述录制的输出音频数据与19000赫兹的载频相乘，完成下变频；

108：所述接收端设备对所述下变频处理后的输出音频进行BPSK解调，得到嵌入的所述水印信息。所述BPSK解调过程基本为所述BPSK调制的逆过程，19000Hz载波由接收信号重建而来，接收到的信号与19000Hz载波混频后，经低通滤波器、抽样判决得到解调的数据即所述水印信息。

在一些说明性的实施例中，所述接收端设备为手机或平板电脑。通过运行在可穿戴电子设备上的应用软件恢复出水印信息，在检测端无需使用专用设备，使得广播音频水印技术应用于运算能力和电池容量有限的便携设备，如手机、平板电脑等可穿戴电子设备上。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他任何未背离本发明的精神实质与原理下所做的改变，修饰，替代，组合，简化，均应为等效的置换方式，都应包含在本发明的保护范围内。

Claims

1.一种在音频中嵌入与检测数字信息的方法，其特征在于，包括：

将载体音频和水印信息分帧，得到分帧的载体音频和分帧的水印信息；

自所述分帧的载体音频的每一帧中读取出每一帧的最大幅度值，计算得到每一帧可嵌入所述水印信息的功率系数；

将所述分帧的载体音频和分帧的水印信息按帧对齐，对所述分帧的水印信息进行处理，得到幅度处理后的分帧的水印信息；

将所述幅度处理后的分帧的水印信息叠加在所述分帧的载体音频上，得到最终的输出音频。

2.根据权利要求1所述一种在音频中嵌入与检测数字信息的方法，其特征在于，对所述分帧的水印信息进行处理的过程包括：

将所述分帧的水印信息的每一帧数据的幅度，与相对应的载体帧内计算得到的所述功率系数相乘，从而得到所述幅度处理后的分帧的水印信息。

3.根据权利要求1所述一种在音频中嵌入与检测数字信息的方法，其特征在于，还包括：

将以二进制数字表示的需要传递的信息进行二进制相移检控调制，将调制后的所述需要传递的信息按照载波的采样率进行保存，得到所述水印信息。

4.根据权利要求3所述一种在音频中嵌入与检测数字信息的方法，其特征在于，

所述载波的采样率不低于44100赫兹，若所述载波的采样率低于44100赫兹，则对所述载波进行重采样，将所述载波的采样率转换为44100赫兹。

5.根据权利要求1所述一种在音频中嵌入与检测数字信息的方法，其特征在于，

所述载波的时间长度大于等于所述水印信息的时间长度。

6.根据权利要求1所述一种在音频中嵌入与检测数字信息的方法，其特征在于，还包括：

接收端设备的麦克风采用44100赫兹的采样率对所述输出音频进行录制，并分为时间长度为1秒的帧。

7.根据权利要求6所述一种在音频中嵌入与检测数字信息的方法，其特征在于，还包括：

所述接收端设备将所述录制的输出音频数据与19000赫兹的载频相乘，完成下变频；

所述接收端设备对所述下变频处理后的输出音频进行二进制相移检控解调，得到嵌入的所述水印信息。

8.根据权利要求6或7所述一种在音频中嵌入与检测数字信息的方法，其特征在于，所述接收端设备为智能手机或平板电脑。