CN114743555A - 一种实现音频水印的方法及装置 - Google Patents

一种实现音频水印的方法及装置 Download PDF

Info

Publication number
CN114743555A
CN114743555A CN202110016428.5A CN202110016428A CN114743555A CN 114743555 A CN114743555 A CN 114743555A CN 202110016428 A CN202110016428 A CN 202110016428A CN 114743555 A CN114743555 A CN 114743555A
Authority
CN
China
Prior art keywords
audio
frame
frequency domain
watermark
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110016428.5A
Other languages
English (en)
Inventor
杨锐
刘永亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN202110016428.5A priority Critical patent/CN114743555A/zh
Publication of CN114743555A publication Critical patent/CN114743555A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

本申请公开了一种实现音频水印的方法及装置,一方面,通过长度较短的频域变换保证了音频处理的高实时性,实现了低复杂度、低延时的水印嵌入;通过符号序列调制实现水印嵌入,抵消了载体失真的影响;另一方面,通过相关性提取水印,大大提升了解码的鲁棒性。本申请提供的实现音频水印的方法,满足了抗翻录要求。

Description

一种实现音频水印的方法及装置
技术领域
本申请涉及但不限于音视频处理技术,尤指一种实现音频水印的方法及装置。
背景技术
随着互联网的飞速发展,音视频内容的获得变得日益便捷。但是,如果在线播放的音频内容被非法利用录音设备采集,会使得这些音视频内容的版权得不到好的保护;尤其是要求保密的音视频会议场景更是面临存在通过对会议进行录音而对外泄密的风险。
在这种背景下,能够有效地进行版权保护的数字水印(digital watermarking)技术应运而生。相关技术中数字音频水印系统如图1所示,数字音频水印技术就是在不影响原始音频质量的条件下向其中嵌入具有特定意义且易于提取的信息(如图1中的附加数据)的过程。根据应用目的不同,被嵌入的信息可以包括如:版权标识符、作品序列号、文字(如艺术家和歌曲的名字),甚至是一个小的图像或一小段音频等。水印与原始音频数据紧密结合并隐藏在其中,通常是不可听到的,而且能够抵抗一般音频信号处理和盗版者的某些恶意攻击。
近年来,数字水印技术在音视频版权保护领域取得了一定的成果,特别是由于音频水印相对于视频水印的低复杂度、低成本,音频水印被广泛应用于音视频版权保护及盗版溯源的场景。
相关技术中,盗版或泄密内容的制作通常使用外放翻录,因此,如何让音频水印具备抗翻录特性尤为重要。
发明内容
本申请提供一种实现音频水印的方法及装置,能够满足抗翻录要求。
本发明实施例提供了一种实现音频水印的方法,包括:
对待处理音频信号进行分帧并进行频域变换处理,每帧中包括小于预设数量个采样点;
从分帧后的音频帧中选取m段区域作为嵌入区域,m段区域对应m个频域变换构成的向量ci,m为大于1的整数;
根据通过长度为m的符号序列调制后的水印信息和通过密钥生成的m个正交向量,对m个频域变换构成的向量进行叠加处理得到包含水印的音频信号。
在一种示例性实例中,所述选取m段区域作为嵌入区域之前,还包括:对所述分帧后的音频帧进行分析,选取感知弱的频段。
在一种示例性实例中,所述选取感知弱的频段,包括:
利用人耳频域掩蔽效应对分帧后的音频帧进行分析,选取频域掩蔽阈值以下的频段作为感知弱的频段。
在一种示例性实例中,所述方法还包括:根据所述嵌入区域的特性确定所述嵌入区域的嵌入强度β。
在一种示例性实例中,所述根据所述嵌入区域的特性确定所述嵌入区域的嵌入强度β,包括:
对所述分帧后的每帧音频分别计算其频域掩蔽阈值,将所述嵌入强度β设置为计算得到的各频域掩蔽阈值中的最大值。
在一种示例性实例中,所述方法还包括:通过密钥生成所述m个正交向量wi;
通过素数长度为m的符号序列对所述水印信息进行调制,获得所述调制后的水印信息。
在一种示例性实例中,所述对m个频域变换构成的向量进行叠加处理得到包含水印的音频信号,包括:
对所述连续的m个频域变换构成的向量ci进行水印嵌入:
利用得到的ci'替换所述频域变换构成的向量ci;
对每帧的频域变换系数进行反频域变换,得到所述包含水印的音频信号。
在一种示例性实例中,所述预设数量为256。
本申请实施例还提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述任一项所述的实现音频水印的方法。
本申请实施例又提供一种实现音频水印的设备,包括存储器和处理器,其中,存储器中存储有以下可被处理器执行的指令:用于执行上述任一项所述的实现音频水印的方法的步骤。
本申请实施例还提供另一种实现音频水印的方法,包括:
对待检测音频进行分帧,每帧中包括小于预设数量个采样点;
根据帧平均能量和预先设置的能量阈值定位非静音的音频段,并对定位到的非静音的音频段应用不同偏移进行分帧频域变换处理;
从分帧后的音频帧中选取m段区域作为嵌入区域,m段区域对应m个频域变换构成的向量ci;利用长度为m的符号序列计算相邻帧的相关值;
根据计算出的相邻帧的相关值中的最大值对应的偏移,应用最大值对应的偏移对所有音频进行分帧频域变换处理;
对连续m段频域变换系数构成向量ci计算相邻帧的相关值并求和,根据计算得到的和值确定水印信息。
在一种示例性实例中,所述根据帧平均能量和预先设置的能量阈值定位非静音的音频段,包括:
对长度为预设长度L的所述分帧后的音频帧统计样本值的平方和,计算平均值得到帧平均能量;
比较计算得到的帧平均能量和所述能量阈值,将不小于所述能量阈值的音频帧确定为所述非静音帧。
在一种示例性实例中,所述对定位到的非静音的音频段应用不同偏移进行分帧频域变换处理,包括:
应用N个偏移量样本对L个所述非静音帧分别进行频域变换处理,获取对应的频域变换系数向量;
分别计算每个频域变换系数向量与相邻片段的频域变换系数向量的相关值,获取连续P个帧的相关值;
对于每个偏移量,分别计算P个相关值的绝对值的平均值;
在N个平均值中取最大值,如果该最大值大于或等于预设阈值T2,将对应的偏移值作为正确的偏移值;如果该最大值小于预设阈值T2,根据检测实时性要求确定是否继续尝试不同的音频段,对于检测实时性要求高的场景,结束本流程;对于实时性要求不高的场景,继续尝试对不同的音频段尝试应用不同偏移进行所述分帧频域变换处理,直至音频结束或找到满足所述平均值大于或等于阈值T2对应的偏移值。
在一种示例性实例中,所述利用预先设置的长度为m的符号序列,计算相邻帧的相关值,包括:
某一帧的系数向量为ci与该帧相邻m/2帧的系数向量cj之间的频域变换系数向量的相关值Corr=<ci,cj>,其中,运算符号<>表示计算点乘的和;
其中,与某一帧的相邻帧为m/2帧,j=i+m/2。
在一种示例性实例中,所述根据计算得到的和值确定水印信息,包括:
所述和值为正值,所述确定水印信息的比特为1;
所述和值为正值,所述确定水印信息的比特为0。
在一种示例性实例中,所述预设数量为256。
本申请实施例还提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述任一项所述的另一种实现音频水印的方法。
本申请实施例再提供一种实现音频水印的设备,包括存储器和处理器,其中,存储器中存储有以下可被处理器执行的指令:用于执行上述任一项所述的另一种实现音频水印的方法的步骤。
本申请实施例,一方面,通过长度较短的频域变换(即分帧后的每帧中包括小于预设数量个采样点),计算量相对可控,能够确保计算的实时性,从而保证了音频处理的高实时性,实现了低复杂度、低延时的水印嵌入;通过符号序列调制实现水印嵌入,抵消了载体失真的影响;另一方面,通过相关性提取水印,大大提升了解码的鲁棒性。本申请提供的实现音频水印的方法,满足了抗翻录要求。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为相关技术中数字音频水印系统架构图;
图2为本申请实施例中一种实现音频水印的方法的流程示意图;
图3为本申请一种实现音频水印的方法的应用实施例的流程示意图;
图4为本申请实施例中另一种实现音频水印的方法的流程示意图;
图5为本申请另一种实现音频水印的方法的应用实施例的流程示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下文中将结合附图对本申请的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在本申请一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请发明人发现,相关技术中的音频水印方案,在翻录场景下的鲁棒性不理想,特别是低端设备非高质量的外放翻录场景下,由于外放翻录而出现的音频失真严重并混入大量噪声,导致音频水印通常无法正确提取。另外,相关技术中的抗翻录音频水印算法的复杂度非常高,所需运算量非常大,无法满足音频水印实时嵌入和提取的要求,使得应用场景非常受限,难以部署到移动端。
本申请实施例中,通过长度较短的频域变换处理保证音频处理的高实时性,实现低复杂度、低延时的水印嵌入;通过符号序列调制实现水印嵌入,可以抵消载体失真的影响,通过相关提取大大提升解码的鲁棒性。
图2为本申请实施例中一种实现音频水印的方法的流程示意图,如图2所示,包括:
步骤200:对待处理音频信号进行分帧并进行频域变换处理,每帧中包括小于预设数量个采样点。
在一种示例性实例中,频域变换可以包括但不限于如:离散傅里叶变换(DFT,Discrete Fourier Transforms)、离散余弦变换(DCT,Discrete Cosine Transforms)、离散小波变换(DWT,Discrete Wavelet Transforms)等。
在一种示例性实例中,预设数量可以包括如256个左右采样点、512个、1024个等2的n次幂个采样点。在一种实施例中,预设数量为256。
本申请实施例中,对每帧音频帧中的采样点数量进行了限定,通过提供较短频域变换,保证了音频处理的高实时性,为低复杂度、低延时的水印嵌入提供了保障。
步骤201:从分帧后的音频帧中选取预设数字m段区域作为嵌入区域,m段区域对应m个频域变换构成的向量ci。
在一种示例性实例中,步骤201之前还可以包括:
对分帧后的音频帧进行分析,选取感知弱的频段。
在一种示例性实例中,对分帧后的音频帧进行分析,选取感知弱的频段,可以包括:
利用人耳频域掩蔽效应对分帧后的音频帧进行分析,选取频域掩蔽阈值以下的频段作为感知弱的频段。
这里,一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳掩蔽效应。一个强纯音会掩蔽在其附近同时发声的弱纯音,这种特性称为频域掩蔽效应。
在一种示例性实例中,作为嵌入区域的m段区域属于感知弱的频段,频域变换系数的长度为预设长度L的区域。
在一种示例性实例中,m的取值最小为4,也可以取4的倍数的值。
在一种示例性实例中,作为嵌入区域的m段区域可以是连续的频段,也可以是按照预设的间隔或规律获取的频段,比如每隔2段区域取1段区域作为选取的嵌入区域。
在一种示例性实例中,预设长度L的值可以取如16~32之间的值,以避免L值太长而影响听觉质量。需要说明的是,这里仅是举例对L值的取值进行了说明,并不用于限定本申请的保护范围。
在一种示例性实例中,步骤201还可以包括:
确定嵌入区域的嵌入强度β。
在一种示例性实例中,嵌入区域的嵌入强度β可以是预先设置好的默认值。
在一种实行实例中,还包括:
根据嵌入区域的特性调整嵌入区域的嵌入强度β。这样,实现了对嵌入区域的嵌入强度的自适应调整,从而保证了不可感知性情况下的最大嵌入强度,达到了更强水印鲁棒性。
在一种实行实例中,根据嵌入区域的特性调整嵌入区域的嵌入强度β,可以包括:
对分帧后的每帧音频分别计算其频域掩蔽阈值,将嵌入强度β设置为计算得到的各频域掩蔽阈值中的最大值,从而实现最优水印嵌入效果。
步骤202:根据通过长度为m的符号序列调制后的水印信息和通过密钥生成的m个正交向量,对m个频域变换构成的向量进行叠加处理得到包含水印的音频信号。
在一种示例性实例中,步骤202之前还可以包括:通过密钥生成m个正交向量,可以包括:
根据预先设置的密钥K,利用如格拉姆-施密特正交化(Gram-Schmidt)方法等生成m个归一化的正交向量wi。这样,就产生了可控的噪声。
在一种示例性实例中,步骤202之前还可以包括:通过长度为m的符号序列对水印信息进行调制,获得调制后的水印信息,可以包括:
分别使用长度为m的符号序列如SP(+1)和SN(-1),对水印信息进行调制,将水印信息转化为比特流。比如:m=4时,可以预设SP=[+1,+1,-1,+1],SN=[-1,-1,+1,-1],满足<SP,SP>=4,<SP,SN>=-4。
在一种示例性实例中,对m个频域变换构成的向量进行叠加处理得到包含水印的音频信号,可以包括:
为了实现嵌入操作,先计算向量ci在预设归一化噪声wi的投影分量,然后使用调制后的自适应强度的预设噪声替换上述投影分量;为了区分嵌入比特为0或1,分别使用预设的符号序列SN和SP进行调制m个向量。按照下面关系,对m个频域变换构成的向量ci进行水印嵌入:
当嵌入1时,ci'=ci-<ci,wi>wi+SPi*β*|ci|*wi;其中,i=1~m;
当嵌入0时,ci'=ci-<ci,wi>wi+SNi*β*|ci|*wi;
利用得到的ci'替换频域变换构成的向量ci;
对每帧的频域变换系数进行反频域变换,得到包含水印的音频信号。
在一种示例性实例中,反频域变换可以包括但不限于如:反离散傅里叶变换(IDFT)、反离散余弦变换(IDCT)、反离散小波变换(IDWT)等。
本申请提供的实现音频水印的方法,通过较短频域变换保证了音频处理的高实时性,实现了低复杂度、低延时的水印嵌入;通过符号序列调制实现水印嵌入,抵消了载体失真的影响。
本申请还提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述图2所示任一项的实现音频水印的方法。
本申请再提供一种实现音频水印的设备,包括存储器和处理器,其中,存储器中存储有以下可被处理器执行的指令:用于执行上述图2所示任一项所述的实现音频水印的方法的步骤。
下面以音频内容A为在线播放的付费音频,希望对其嵌入用户id进行盗版溯源为例,本实施例中,采用DCT作为频域变换的方式,如图3所示,对音频内容A实现水印嵌入,包括:
步骤300~步骤301:对服务器上的音频内容A进行分帧,每帧的采样点即样本数为N,本实施例中,可以取N=256;对分帧后得到的音频帧进行DCT处理。
步骤302:对音频帧进行分析,选取嵌入区域并确定嵌入强度。
本实施例中,可以根据该音频帧的频域掩蔽阈值选取感知弱的频段;从感知弱的频段中选取连续的m段区域作为嵌入区域,m段区域对应m个DCT构成的向量ci。
本实施例中,可以根据嵌入区域的特性确定嵌入区域的嵌入强度β。
步骤3011~步骤3013:根据用户ID生成水印信息;通过长度为m的符号序列对水印信息进行调制,获得调制后的水印信息。
需要说明的是,步骤3011~步骤3013只要在步骤303之前完成就可以。
步骤303:根据调制后的水印信息和通过密钥生成的m个归一化正交向量,对m个DCT构成的向量进行叠加处理即通过相关正交处理实现水印嵌入。
本实施例中,可以按照下面关系,对连续的m个DCT构成的向量ci进行水印嵌入:
当嵌入1时,ci'=ci-<ci,wi>wi+SPi*β*|ci|*wi;其中,i=1~m;
当嵌入0时,ci'=ci-<ci,wi>wi+SNi*β*|ci|*wi;
利用得到的ci'替换DCT构成的向量ci;
步骤304~步骤305:对正交处理后的每帧的DCT系数进行IDCT变换,得到包含用户ID水印信息的音频内容。
图4为本申请实施例中另一种实现音频水印的方法的流程示意图,如图4所示,包括:
步骤400:对待检测音频进行分帧,每帧中包括小于预设数量个采样点。
步骤401:根据分帧后的音频帧的平均能量和预先设置的能量阈值定位非静音的音频段,并对定位到的非静音的音频段应用不同偏移进行分帧频域变换处理。
在一种示例性实例中,频域变换可以包括但不限于如:DFT、DCT、DWT等。
在一种示例性实例中,预设数量可以包括如256个左右采样点、512个、1024个等2的n次幂个采样点。在一种实施例中,预设数量为256。
在一种示例性实例中,根据分帧后的音频帧的帧平均能量和预先设置的能量阈值定位非静音的音频段,可以包括:
对长度为预设长度L的音频帧统计样本值的平方和,计算平均值得到帧平均能量;比较计算得到的帧平均能量和能量阈值T1,将小于该能量阈值T1的音频帧确定为静音帧,不小于该能量阈值T1的音频帧确定为非静音帧。
在一种示例性实例中,对定位到的非静音的音频段应用不同偏移进行分帧频域变换处理,可以包括:
应用N个偏移量样本(比如:N的值可以取16等)对非静音帧(如L个)进行频域变换处理,获取对应的频域变换系数向量,分别为L*0/N,L*1/N,……,L*(N-1)/N;
计算每个频域变换系数向量与相邻片段的频域变换系数向量的相关值Corr;
对于每个偏移量,通过上述操作获取连续P个帧的相关值,计算P个相关值绝对值的平均值;
在N个平均值中取最大值,如果该最大值大于或等于预设阈值T2,则确定该片段含有水印,并将对应的偏移值作为正确的偏移值;如果该最大值小于预设阈值T2,则确定该片段不含水印,根据检测实时性要求确定是否进一步尝试不同的音频段,对于检测实时性要求高的场景,不继续尝试,水印提取到此结束;对于实时性要求不高的场景,继续尝试对不同的音频段尝试应用不同偏移,直至音频结束或找到满足上述均值大于或等于阈值T2对应的偏移值。
本步骤通过不同的偏移值来试探嵌入水印的位置,找出了正确的偏移,从而得到了嵌入水印的正确位置。
步骤402:从分帧后的音频帧中选取m段区域作为嵌入区域,m段区域对应m个频域变换构成的向量ci;利用长度为m的符号序列计算相邻帧的相关值。
在一种示例性实例中,作为嵌入区域的m段区域可以是连续的频段,也可以是按照预设的间隔或规律获取的频段,比如每隔2段区域取1段区域作为选取的嵌入区域。
在一种示例性实例中,预设长度L的值可以取如16~32之间的值,以避免L值太长而影响听觉质量。需要说明的是,这里仅是举例对L值的取值进行了说明,并不用于限定本申请的保护范围。
在一种示例性实例中,步骤402中的利用预先设置的长度为m的符号序列,计算相邻帧的相关值,可以包括:
设某一帧的系数向量为ci,选择与该帧相邻m/2帧的系数向量cj(j=i+m/2),那么,某一帧的系数向量为ci与该帧相邻m/2帧的系数向量cj之间的频域变换系数向量的相关值Corr=<ci,cj>,其中,运算符号<>表示计算点乘的和。
步骤403:根据计算出的相邻帧的相关值中的最大值对应的偏移,应用最大值对应的偏移对所有音频进行分帧频域变换处理。
这里,相邻帧的相关值中的最大值对应的偏移为最佳偏移。
步骤404:对m段频域变换系数构成向量ci计算相邻帧的相关值并求和,根据计算得到的和值确定水印信息。
在一种示例性实例中,如果和值大于预设阈值T,那么,确定水印信息的比特为1,如果和值为小于预设阈值-T,那么,确定水印信息的比特为0,其它情况判定该片段不含水印。
本申请实施例中的提取水印的方法,由于含水印的音频在经过翻录或其它攻击后,相邻片段的受到的失真变形往往是相近的,同时相邻片段的信号具有相似性,因此,本申请通过相邻片段计算相关性并求和来提取水印,保留了水印信号的相关性,大大提升了解码的鲁棒性。。
本申请还提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述图4所示任一项的实现音频水印的方法。
本申请再提供一种实现音频水印的设备,包括存储器和处理器,其中,存储器中存储有以下可被处理器执行的指令:用于执行上述图4所示任一项的实现音频水印的方法的步骤。
下面以在盗版途径捞回的音频文件为例,本实施例中,采用DCT作为频域变换的方式,如图5所示,对音频中嵌入的水印的提取,包括:
步骤500~步骤501:对待检测音频进行分帧,本实施例中,每帧的样本数为N=256。
步骤501~步骤502:分帧快速定位潜在含水印的频段:通过帧平均能量与阈值比较定位到非静音的音频段,这些定位到的音频段应用不同偏移进行分帧DCT处理。
步骤503~步骤504:从分帧后的音频帧中选取m段区域作为嵌入区域,m段区域对应m个DCT构成的向量ci;利用长度为m的符号序列计算相邻帧的相关值;从计算出的相关值中找出最大值,相邻帧的相关值中的最大值对应的偏移为最佳偏移,应用最佳偏移对所有音频进行分帧DCT处理。
步骤505~步骤506:对连续m段DCT系数构成向量ci计算相邻帧的相关值并求和,如果和值大于预设阈值T,那么,确定水印信息的比特为1,如果和值小于预设阈值-T,那么,确定水印信息的比特为0。
本申请实施例提供的实现音频水印的技术方案可以应用于如音视频版权检测等场景。比如:利用本申请实施例提供的音频水印提取方法,通过检测播放的音视频是否包含有采用本申请实施例提供的音频水印嵌入方法嵌入的水印,实现对该音视频版权的检测。进一步地,还可以在播放加了水印的音视频时,选择是否同步在界面上显示该音视频是否含有正版水印信息,或者提示该音视频不存在水印信息,可能为盗版等提示信息,以便使用者对使用的音视频的状况有更全面的了解。
虽然本申请所揭露的实施方式如上,但所述的内容仅为便于理解本申请而采用的实施方式,并非用以限定本申请。任何本申请所属领域内的技术人员,在不脱离本申请所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本申请的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (18)

1.一种实现音频水印的方法,包括:
对待处理音频信号进行分帧并进行频域变换处理,每帧中包括小于预设数量个采样点;
从分帧后的音频帧中选取m段区域作为嵌入区域,m段区域对应m个频域变换构成的向量ci,m为大于1的整数;
根据通过长度为m的符号序列调制后的水印信息和通过密钥生成的m个正交向量,对m个频域变换构成的向量进行叠加处理得到包含水印的音频信号。
2.根据权利要求1所述的方法,所述选取m段区域作为嵌入区域之前,还包括:对所述分帧后的音频帧进行分析,选取感知弱的频段。
3.根据权利要求2所述的方法,其中,所述选取感知弱的频段,包括:
利用人耳频域掩蔽效应对分帧后的音频帧进行分析,选取频域掩蔽阈值以下的频段作为感知弱的频段。
4.根据权利要求1所述的方法,所述方法还包括:根据所述嵌入区域的特性确定所述嵌入区域的嵌入强度β。
5.根据权利要求4所述的方法,其中,所述根据所述嵌入区域的特性确定所述嵌入区域的嵌入强度β,包括:
对所述分帧后的每帧音频分别计算其频域掩蔽阈值,将所述嵌入强度β设置为计算得到的各频域掩蔽阈值中的最大值。
6.根据权利要求5所述的方法,所述方法还包括:通过密钥生成所述m个正交向量wi;
通过素数长度为m的符号序列对所述水印信息进行调制,获得所述调制后的水印信息。
7.根据权利要求6所述的方法,其中,所述对m个频域变换构成的向量进行叠加处理得到包含水印的音频信号,包括:
对所述连续的m个频域变换构成的向量ci进行水印嵌入:
利用得到的ci'替换所述频域变换构成的向量ci;
对每帧的频域变换系数进行反频域变换,得到所述包含水印的音频信号。
8.根据权利要求1~7任一项所述的方法,其中,所述预设数量为256。
9.一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1~权利要求8任一项所述的实现音频水印的方法。
10.一种实现音频水印的设备,包括存储器和处理器,其中,存储器中存储有以下可被处理器执行的指令:用于执行权利要求1~权利要求8任一项所述的实现音频水印的方法的步骤。
11.一种实现音频水印的方法,包括:
对待检测音频进行分帧,每帧中包括小于预设数量个采样点;
根据帧平均能量和预先设置的能量阈值定位非静音的音频段,并对定位到的非静音的音频段应用不同偏移进行分帧频域变换处理;
从分帧后的音频帧中选取m段区域作为嵌入区域,m段区域对应m个频域变换构成的向量ci;利用长度为m的符号序列计算相邻帧的相关值;
根据计算出的相邻帧的相关值中的最大值对应的偏移,应用最大值对应的偏移对所有音频进行分帧频域变换处理;
对连续m段频域变换系数构成向量ci计算相邻帧的相关值并求和,根据计算得到的和值确定水印信息。
12.根据权利要求11所述的方法,其中,所述根据帧平均能量和预先设置的能量阈值定位非静音的音频段,包括:
对长度为预设长度L的所述分帧后的音频帧统计样本值的平方和,计算平均值得到帧平均能量;
比较计算得到的帧平均能量和所述能量阈值,将不小于所述能量阈值的音频帧确定为所述非静音帧。
13.根据权利要求11所述的方法,其中,所述对定位到的非静音的音频段应用不同偏移进行分帧频域变换处理,包括:
应用N个偏移量样本对L个所述非静音帧分别进行频域变换处理,获取对应的频域变换系数向量;
分别计算每个频域变换系数向量与相邻片段的频域变换系数向量的相关值,获取连续P个帧的相关值;
对于每个偏移量,分别计算P个相关值的绝对值的平均值;
在N个平均值中取最大值,如果该最大值大于或等于预设阈值T2,将对应的偏移值作为正确的偏移值;如果该最大值小于预设阈值T2,根据检测实时性要求确定是否继续尝试不同的音频段,对于检测实时性要求高的场景,结束本流程;对于实时性要求不高的场景,继续尝试对不同的音频段尝试应用不同偏移进行所述分帧频域变换处理,直至音频结束或找到满足所述平均值大于或等于阈值T2对应的偏移值。
14.根据权利要求11所述的方法,其中,所述利用预先设置的长度为m的符号序列,计算相邻帧的相关值,包括:
某一帧的系数向量为ci与该帧相邻m/2帧的系数向量cj之间的频域变换系数向量的相关值Corr=<ci,cj>,其中,运算符号<>表示计算点乘的和;
其中,与某一帧的相邻帧为m/2帧,j=i+m/2。
15.根据权利要求11所述的方法,其中,所述根据计算得到的和值确定水印信息,包括:
所述和值为正值,所述确定水印信息的比特为1;
所述和值为正值,所述确定水印信息的比特为0。
16.根据权利要求11~15任一项所述的方法,其中,所述预设数量为256。
17.一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求11~权利要求16任一项所述的实现音频水印的方法。
18.一种实现音频水印的设备,包括存储器和处理器,其中,存储器中存储有以下可被处理器执行的指令:用于执行权利要求11~权利要求16任一项所述的实现音频水印的方法的步骤。
CN202110016428.5A 2021-01-07 2021-01-07 一种实现音频水印的方法及装置 Pending CN114743555A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110016428.5A CN114743555A (zh) 2021-01-07 2021-01-07 一种实现音频水印的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110016428.5A CN114743555A (zh) 2021-01-07 2021-01-07 一种实现音频水印的方法及装置

Publications (1)

Publication Number Publication Date
CN114743555A true CN114743555A (zh) 2022-07-12

Family

ID=82274039

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110016428.5A Pending CN114743555A (zh) 2021-01-07 2021-01-07 一种实现音频水印的方法及装置

Country Status (1)

Country Link
CN (1) CN114743555A (zh)

Similar Documents

Publication Publication Date Title
EP1814105B1 (en) Audio processing
US7562228B2 (en) Forensic for fingerprint detection in multimedia
US6839673B1 (en) Digital watermarking method and apparatus for audio data
US8032361B2 (en) Audio processing apparatus and method for processing two sampled audio signals to detect a temporal position
US20100057231A1 (en) Audio watermarking apparatus and method
Wang et al. A robust digital audio watermarking based on statistics characteristics
JP4504681B2 (ja) 補助データを情報信号に埋め込む方法及びデバイス
US20080273707A1 (en) Audio Processing
JP2005513543A (ja) マルチメディア信号のqimデジタルウォーターマーキング
KR100355033B1 (ko) 선형예측 분석을 이용한 워터마크 삽입/추출 장치 및 그방법
Khan et al. Steganography between silence intervals of audio in video content using chaotic maps
US20020184503A1 (en) Watermarking
Yang et al. A robust digital audio watermarking using higher-order statistics
CN114743555A (zh) 一种实现音频水印的方法及装置
He et al. A high capacity watermarking technique for stereo audio
KR20030016381A (ko) 워터마킹
Patil et al. Audio watermarking: A way to copyright protection
CN115831131B (zh) 一种基于深度学习的音频水印嵌入提取的方法
Lalitha et al. An efficient audio watermarking based on SVD and Cartesian-Polar transformation with synchronization
Lalitha et al. Robust audio watermarking scheme with synchronization code and QIM
Reddy et al. Audio Watermarking Technique to Resist Desynchronization Attacks
Suneel et al. Effective usage of audio watermarking with the fibonacci series in shielding the digital multimedia from malicious attacks
Garlapati et al. A symbol based watermarking approach for spread spectrum audio watermarking methods
Hu et al. A novel numeric embedding scheme for hiding full-color images into audio
KR20020053980A (ko) 오디오 워터마크 삽입 장치 및 그 방법과 그의 검출 장치및 그방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination