CN116110408A - 基于对数底可调频域对数极坐标的实时稳健语音水印方法 - Google Patents

基于对数底可调频域对数极坐标的实时稳健语音水印方法 Download PDF

Info

Publication number
CN116110408A
CN116110408A CN202310129081.4A CN202310129081A CN116110408A CN 116110408 A CN116110408 A CN 116110408A CN 202310129081 A CN202310129081 A CN 202310129081A CN 116110408 A CN116110408 A CN 116110408A
Authority
CN
China
Prior art keywords
sequence
watermark
amplitude
logarithmic
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310129081.4A
Other languages
English (en)
Inventor
康显桂
童天瑶
周杰英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202310129081.4A priority Critical patent/CN116110408A/zh
Publication of CN116110408A publication Critical patent/CN116110408A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

本发明提出一种基于对数底可调频域对数极坐标的实时稳健语音水印方法,涉及多媒体信号处理的技术领域,针对现有语音无法实时嵌入大容量水印,且水印嵌入后的不可感知性和鲁棒性差的问题,利用互相配合的水印实时嵌入过程与水印提取过程,在帧级别的实时音频片段中根据对数坐标上幅值的特点完成水印的嵌入,通过归一化频率相关值融合的方式完成水印的提取,提升了水印提取的准确率以及不可察觉性。

Description

基于对数底可调频域对数极坐标的实时稳健语音水印方法
技术领域
本发明涉及多媒体信号处理的技术领域,更具体地,涉及一种基于对数底可调频域对数极坐标的实时稳健语音水印方法。
背景技术
语音是人类交流中最重要的形式,它携带着关于说话者是谁/什么/如何说话的有价值的信息。目前,将语音信号应用于计算机科学的主要原因有三个:(1)语音易于产生、捕获和传输;(2)语音信号可以远距离获取;(3)语音还携带着其他类型的信息,如情感、年龄和性别。
数字水印是利用数字媒体信息(图像、视频、音频、文本等)中存在的冗余信息和人类感知特性,在不影响原始媒体质量的前提下把额外的信息(水印)隐藏于其中的技术。数字水印的初始目的及主要用途是保护数字作品的版权,随着多年的研究与发展,如今已经扩展到访问控制、数字指纹、内容认证、隐含标注等众多应用场合。数字语音水印是数字水印的一种,随着移动无线和互联网网络电话等先进的通信技术越来越多地应用于我们的日常生活中,数字语音水印对保障语音信号的安全变得非常重要。
近年来,已有学者对数字语音水印技术展开了研究。由于音频信号的特殊性,去同步攻击会导致攻击后含水印音频的分帧和攻击前不同步,使水印不能被正确地提取。为了抵抗去同步攻击,常用的方法是在音频各帧信号中嵌入标识信息,在水印检测时,首先检测各帧的标识信息,以定位相应帧的内容。然而在目前的研究中,往往仅能在音频文件中嵌入可识别的标识信息,但无法做到水印的实时嵌入。水印的实时嵌入要求一次性可嵌入的音频时长极短,只有几毫秒,为水印嵌入带来极高的难度。
现有技术公开了一种基于傅立叶离散对数坐标变换的稳健音频水印方法,在音频的离散傅立叶幅度系数中嵌入水印,通过傅立叶幅度系数的离散对数坐标确定嵌入的傅立叶幅度系数。该方法能够保证音频的鲁棒性和水印提取的正确性,但应用在人的语音上时,不可感知性很差,无法做到实时的帧级别的嵌入,且嵌入信息容量较小。
发明内容
为解决当前语音无法实时嵌入大容量水印,且水印嵌入后的不可感知性和鲁棒性差的问题,本发明提出一种基于对数底可调频域对数极坐标的实时稳健语音水印方法,扩大了嵌入信息的容量,实现了实时的帧级别的嵌入,提升了水印提取的准确率以及不可察觉性。
为了达到上述技术效果,本发明的技术方案如下:
一种基于对数底可调频域对数极坐标的实时稳健语音水印方法,所述方法包括0.1~0.2秒长度的帧级别的稳健语音水印实时嵌入过程和水印提取过程,所述水印实时嵌入过程将水印在帧级别的实时音频片段中根据对数底可调的对数坐标上幅值的特点,将多比特信息嵌入宿主音频;水印提取过程基于所述水印实时嵌入过程,对已嵌入水印且经攻击的宿主音频通过归一化频率相关值融合的方式进行水印提取操作,提取宿主音频中已嵌入的水印信息。
所述实时嵌入指人通过设备说话的同时进行水印的嵌入,并将已嵌入水印的音频进行播放。音视频数据在设备端上的延时可达到30~200ms,因此本技术方案中的水印嵌入以200ms以内的音频片段进行嵌入。
本技术方案中提出的基于对数底可调频域对数极坐标的实时稳健语音水印方法,针对现有语音无法实时嵌入大容量水印,且水印嵌入后的不可感知性和鲁棒性差的问题,利用互相配合的水印实时嵌入过程与水印提取过程,在帧级别的实时音频片段中根据对数坐标上幅值的特点完成水印的嵌入,通过归一化频率相关值融合的方式完成水印的提取,提升了水印提取的准确率以及不可察觉性。
优选地,所述水印实时嵌入过程至少包括:
S1.根据所需嵌入的水印比特信息序列的比特数,确定伪随机调制序列和模板序列的长度,结合密钥随机生成双极性的伪随机调制序列和模板序列,基于双极性的伪随机调制序列对水印比特信息序列的每一比特进行扩频计算,并结合模板序列得到待嵌入的水印序列;
S2.确定从设备中实时输出的宿主音频,对极短帧级别的宿主语音音频进行预加重操作,得到确定的宿主音频,并对确定的宿主音频进行扩展;
S3.根据扩展后的宿主音频的帧长,自适应地在1到2之间确定对数底可调频域对数坐标变换的对数底的值,以保证水印嵌入的实时性;
S4.对扩展后的宿主音频段进行一维离散傅立叶变换,将变换后的直流成分移动到傅立叶幅度谱中央,将傅立叶幅度谱的右半部分作为嵌入区域,将嵌入区域内点的坐标映射到对数极坐标,根据幅值特点嵌入水印序列;
S5.对水印比特信息序列的每一比特进行扩频,对扩频后得到的序列所对应的傅立叶幅度谱区域,分别计算嵌入+1、-1以及扩频后得到的序列对应位置上的傅立叶幅度平均值,根据3个幅度平均值,分情况嵌入水印的比特信息;
S6.基于傅立叶幅度谱的中心对称性,将右半部分对称的系数复制到左半部分,然后进行逆傅立叶变换,水印嵌入过程结束,将整段音频进行去加重操作,得到加水印的音频,所述去加重操作与预加重操作过程相反。
优选地,步骤S1的过程包括:
S101.设定双极性伪随机调制序列和模板序列的长度,分别记为Lps和LTS;设密钥为key,利用密钥key生成双极性伪随机调制序列ps和模板序列TS:
ps={psi;1≤i≤Lps,psi∈{-1,1}}
TS={TSj;1≤j≤LTS,TSj∈{-1,1}}
其中,psi、TSj分别表示双极性伪随机调制序列的第i个元素、模板序列的第j个元素;
S102.设长度为Lms的水印比特信息序列为ms:
ms={msi;1≤i≤Lms,msi∈{-1,1}}
其中,msi表示水印比特信息序列的第i个元素;
利用双极性伪随机调制序列ps对每一比特msi进行扩频调制:若msi=1,则将其扩频调制为ps的同相序列,即Wi=+1×ps;若msi=-1,则将其扩频调制为ps的反相序列,即Wi=-1×ps,最终得到有意义的水印信息数组W={Wi;1≤i≤Lms,Wi∈{-ps,ps}};
S103.将得到的有意义的水印信息数组W={Wi;1≤i≤Lms,Wi∈{-ps,ps}}和模板序列TS按顺序排成一个长度为M=Lms×Lps+LTS的序列WT={WTi;1≤i≤M},作为待嵌入水印序列,其中,WT中的元素WTi由“1”和“-1”构成,将模板序列TS按顺序存放在水印序列WT的最后LTS个位置。
优选地,步骤S2的过程包括:
S201.设宿主音频的语音信号为S={St;1≤t≤L},其中,St表示第t个样本点,L表示信号S的长度,对其进行预加重操作,预加重操作的表达式为:
Figure BDA0004083169830000041
其中,
Figure BDA0004083169830000042
为预加重后的语音信号,α=0.97;
S202.设宿主音频的语音时长为x毫秒,则进行预加重后的语音信号时长也为x毫秒;在进行水印嵌入之前,将预加重后的语音信号中x毫秒的
Figure BDA0004083169830000043
扩展成y毫秒的片段:初始化一个长度为y毫秒的全零矩阵,将x毫秒的音频片段存放在全零矩阵的最后x毫秒矩阵区域,将扩展后的y毫秒矩阵作为待嵌入的片段,得到矩阵J。
优选地,步骤S4中,对y毫秒矩阵J做长度为d的一维离散傅立叶变换,将变换后的直流成分移动到傅立叶幅度谱中央,并将傅立叶幅度谱中心作为直角坐标系原点,在傅立叶幅度谱的右半部分中嵌入水印,嵌入区域位于傅立叶系数幅度谱的归一化频率值fn附近;
将嵌入区域内点的坐标映射到对数极坐标上的过程如下:将嵌入区域的傅立叶系数的直角坐标r变换为离散对数极坐标lρ,变换公式为:
Figure BDA00040831698300000410
Figure BDA00040831698300000411
其中,a是一个大于1而接近于1的常数,fn×d是对数坐标的原点,offset是一个保证离散对数坐标不小于零的偏移常数,floor()函数表示向下取整函数,平衡水印的鲁棒性和不可见性。
优选地,步骤S5的过程包括:
S501.对于每一个信息比特msi,扩频调制为ps的同相序列或反向序列Wi,在水印嵌入前,计算Wi中对应的直角坐标区域的幅值平均值ampavg,再分别计算Wi对应的直角坐标区域中嵌入+1和-1的位置上傅立叶系数的幅值平均值,分别记为
Figure BDA0004083169830000044
Figure BDA0004083169830000045
S502.当
Figure BDA0004083169830000046
时,对Wi对应的直角坐标区域采用的嵌入公式如下:
Figure BDA0004083169830000047
Figure BDA0004083169830000048
时,对Wi对应的直角坐标区域采用的嵌入公式如下:
Figure BDA0004083169830000049
其中,amp0k为原始音频的傅立叶系数幅值,ampwk为嵌入水印后的音频傅立叶系数幅值,β=0.00001,δ为水印嵌入强度,wk表示直角坐标k映射到对数坐标上所要嵌入的水印比特为“1”或者“-1”。
优选地,所述水印提取过程至少包括:
SA.确定待测音频,对整段待测音频进行预加重操作,并将预加重后的音频进行截取,得到音频段的集合;
SB.对预加重后的音频以及进一步截取后得到的音频段的集合分别进行一维离散傅立叶变换,将变换后的直流成分移动到傅立叶幅度谱中央;以幅度谱中心作为直角坐标系原点,在傅立叶系数幅度谱的右半部分提取水印,将提取范围内幅度系数的直角坐标映射到对数极坐标上,对经过映射后拥有相同对数极坐标的幅度系数进行求和,将其作为傅立叶幅度系数序列的一个元素;
SC.根据相位相关原理,将原始的模板序列与傅立叶幅度系数序列进行快速匹配计算,初步确定嵌入水印的同步位置,将同步后的幅度系数序列从中心位置截取幅度矩阵,根据邻域搜索的方法进一步确定最终同步位置;
SD.利用伪随机调制序列对幅度矩阵进行解扩频调制并集成子片段相关值,提取水印信息。
优选地,步骤SA包括以下步骤:
SA01.设输入的嵌入水印的语音信号为SW:
SW={SWt;1≤t≤L}
其中,SWt表示第t个样本点,L′表示信号SW的长度;对SWt进行预加重操作,得到预加重后的嵌入水印的语音信号SW*
SA02.对SW*以z2毫秒的步长和y毫秒的窗口长度进行截取,直到滑动窗口达到尾端,将音频片段记为
Figure BDA0004083169830000051
k表示滑动截取时的第k个片段。
优选地,步骤SB包括以下步骤:
SB01.对SW*
Figure BDA0004083169830000052
分别进行一维离散傅立叶变换,并将直流成分移动到傅立叶幅度谱中央;以幅度谱中心作为直角坐标系原点,把傅立叶系数幅度谱的右半平面归一化频率为fn附近的傅立叶系数的直角坐标r′变换到离散对数坐标lρ′,变换公式为:
Figure BDA0004083169830000053
Figure BDA0004083169830000054
其中,M′=λM,λ≥1,offset′是一个保证离散对数坐标不小于零的偏移常数,floor()函数表示向下取整函数;
SB02.初始化一个长度为M″=λ×μ×M的全零矩阵amp,其中,μ为不小于1的正整数;将直角坐标映射到对数极坐标系中,对具有相同离散对数坐标lρ′的傅立叶系数幅值进行求和,作为傅立叶系数幅度序列amplρ′的一个元素,从而得到一个傅立叶系数幅度序列amp。
优选地,步骤SC包括以下步骤:
SC01.使用与嵌入算法相同的密钥key,生成长度为LTS的模板序列TS={TSi;1≤i≤LTS,TSi∈{-1,1}},将每个TSi扩展成μ个TSi,得到TS1;初始化长度为M″的全零矩阵TSm,将TS1存放到TSm的后半部分,得到同步模板TSm
SC02.通过相位相关快速匹配计算获取平移相位相关值,计算平移相位相关值的公式为:
Figure BDA0004083169830000064
其中,X(k)是相关值序列,φamp(u)是amp(u)的相角,G*(u)=(DFT(TSm(i)))*是同步模板TSm的一维傅立叶变换系数的共轭复数,“*”表示复数共轭;
根据相关值序列X(k)的最大值初步确定嵌入水印WT在幅度序列amp中的位置,记为kmax
SC03.将kmax的左右邻域的位置,以及k=1作为同步位置的备选序列col={1,kmax-1,kmax,kmax+1},取同步位置coli,将幅度序列amp中的前coli-1个位置移动到幅度序列amp的末尾,得到同步后的幅度序列,并将同步后的幅度序列从中心位置截取出长度为μ×M的幅度矩阵,记为
Figure BDA0004083169830000061
SC04.计算
Figure BDA0004083169830000062
中每μ个位置的非零幅值的均值,按顺序存放在长度为M的幅度矩阵amp2中;
SC05.计算col中每个同步位置coli所对应的幅度矩阵amp2与模板序列TS的相关值Y(i),计算公式如下:
Figure BDA0004083169830000063
根据相关值序列Y(i)的最大值确定最终同步位置,记为colf
优选地,步骤SD包括以下步骤:
SD01.用原始伪随机调制序列ps对幅度矩阵amp2进行解扩频调制,并计算每个信息比特对应的归一化相关值,过程如下:
按顺序从amp2中取出Lms段不重叠且长度为Lps的序列W′i
Figure BDA0004083169830000071
计算有意义信息序列对应的幅值与原始伪随机调制序列ps的归一化相关值Q,计算公式为:
Figure BDA0004083169830000072
Q={Qi;1≤i≤Lms}
计算同步模板序列对应的幅值与模板序列TS的归一化相关值H,计算公式为:
Figure BDA0004083169830000073
SD02.根据步骤SD01,计算得到SW*
Figure BDA0004083169830000074
的归一化相关值Q1、Q2k,以及模板序列TS的归一化相关值H、H2k,其中,k=0,…,K-1;
SD03.筛选出音频片段
Figure BDA0004083169830000075
中对应的模板序列归一化相关值H大于阈值的片段,得到新的片段集合
Figure BDA0004083169830000076
其中,1≤c≤C,C为满足条件的片段数量;将
Figure BDA0004083169830000077
的相关值与总片段SW*的相关值进行集成,计算每个信息比特的集成相关值,集成相关值计算公式如下:
Figure BDA0004083169830000078
其中,qi为第i个信息比特的相关值,i=1,…,L,N1是音频片段集合
Figure BDA0004083169830000079
中同步序列归一化相关值大于0的片段数量;
若qi>0,则判决嵌入信息比特为‘1’,否则,判决嵌入信息比特‘-1’,水印提取过程结束。
与现有技术相比,本发明技术方案的有益效果是:
本发明提出一种基于对数底可调频域对数极坐标的实时稳健语音水印方法,针对现有语音无法实时嵌入大容量水印,且水印嵌入后的不可感知性和鲁棒性差的问题,利用互相配合的水印实时嵌入过程与水印提取过程,在帧级别的实时音频片段中根据对数坐标上幅值的特点完成水印的嵌入,通过归一化频率相关值融合的方式完成水印的提取,提升了水印提取的准确率以及不可察觉性。
附图说明
图1表示本发明实施例1中提出的基于对数底可调频域对数极坐标的实时稳健语音水印方法的整体流程示意图;
图2表示本发明实施例1中提出的基于对数底可调频域对数极坐标的实时稳健语音水印方法的水印实时嵌入流程示意图;
图3表示本发明实施例1中提出的基于对数底可调频域对数极坐标的实时稳健语音水印方法的水印提取流程示意图;
图4表示本发明实施例2中提出的基于对数底可调频域对数极坐标的实时稳健语音水印方法的水印实时嵌入框架示意图;
图5表示本发明实施例2中提出的基生成的水印序列WT的排列示意图;
图6表示本发明实施例3中提出的基于对数底可调频域对数极坐标的实时稳健语音水印方法的水印提取框架示意图;
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好地说明本实施例,附图某些部位会有省略、放大或缩小,并不代表实际尺寸;
对于本领域技术人员来说,附图中某些公知内容说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
附图中描述位置关系的仅用于示例性说明,不能理解为对本专利的限制;
实施例1
如图1所示,本实施例提出一种基于对数底可调频域对数极坐标的实时稳健语音水印方法,所述方法包括0.1~0.2秒长度的帧级别的稳健语音水印实时嵌入过程和水印提取过程,所述水印实时嵌入过程将水印在帧级别的实时音频片段中根据对数底可调的对数坐标上幅值的特点,将多比特信息嵌入宿主音频;水印提取过程基于所述水印实时嵌入过程,对已嵌入水印且经攻击的宿主音频通过归一化频率相关值融合的方式进行水印提取操作,提取宿主音频中已嵌入的水印信息。
具体地,参见图2,所述水印嵌入过程至少包括:
S1.根据所需嵌入的水印比特信息序列的比特数,确定伪随机调制序列和模板序列的长度,结合密钥随机生成双极性的伪随机调制序列和模板序列,基于双极性的伪随机调制序列对水印比特信息序列的每一比特进行扩频计算,并结合模板序列得到待嵌入的水印序列;
S2.确定从设备中实时输出的宿主音频,对极短帧级别的宿主语音音频进行预加重操作,得到确定的宿主音频,并对确定的宿主音频进行扩展;在实际实施时,实时输出的宿主音频一般很短,水印嵌入难度较大,扩展操作有利于水印的嵌入极短的宿主音频;
S3.根据扩展后的宿主音频的帧长,自适应地在1到2之间确定对数底可调频域对数坐标变换的对数底的值,以保证水印嵌入的实时性;
S4.对扩展后的宿主音频段进行一维离散傅立叶变换,将变换后的直流成分移动到傅立叶幅度谱中央,在傅立叶系数幅度谱的右半部分将嵌入区域内点的坐标映射到对数极坐标,根据幅值特点嵌入水印序列;在现有技术中,频域对数坐标变换的对数底一般固定为2,而本方法的对数底根据极短音频嵌入帧的长度,如0.1~0.2秒,自适应地在1到2之间的选择对数底的值,如选择1.3;
S5.对水印比特信息序列的每一比特进行扩频,对扩频后得到的序列所对应的傅立叶幅度谱区域,分别计算嵌入+1、-1以及扩频后得到的序列对应位置上的傅立叶幅度平均值,根据3个幅度平均值,分情况嵌入水印的比特信息;
S6.基于傅立叶幅度谱的中心对称性,将右半部分对称的系数复制到左半部分,然后进行逆傅立叶变换,水印嵌入过程结束,将整段音频进行去加重操作,得到加水印的音频,所述去加重操作与预加重操作过程相反。
参见图3,所述水印提取过程至少包括:
SA.确定待测音频,对整段待测音频进行预加重操作,并将预加重后的音频进行截取,得到音频段的集合;
SB.对预加重后的音频以及进一步截取后得到的音频段的集合分别进行一维离散傅立叶变换,将变换后的直流成分移动到傅立叶幅度谱中央;以幅度谱中心作为直角坐标系原点,在傅立叶系数幅度谱的右半部分提取水印,将提取范围内幅度系数的直角坐标映射到对数极坐标上,对经过映射后拥有相同对数极坐标的幅度系数进行求和,将其作为傅立叶幅度系数序列的一个元素;
SC.根据相位相关原理,将原始的模板序列与傅立叶幅度系数序列进行快速匹配计算,初步确定嵌入水印的同步位置,将同步后的幅度系数序列从中心位置截取幅度矩阵,根据邻域搜索的方法进一步确定最终同步位置;
SD.利用伪随机调制序列对幅度矩阵进行解扩频调制并集成子片段相关值,提取水印信息。
实施例2
基于实施例1,如图4所示在本实施例中,水印实时嵌入过程包括:
S101.设定双极性伪随机调制序列和模板序列的长度,在本实施例中,根据所需嵌入的多比特有意义信息的比特数128,确定伪随机调制序列和模板序列长度分别为2和128,分别记为Lps和LTS;设密钥为key,利用密钥key生成长度为Lps=2双极性伪随机调制序列ps和长度为LTS=128的模板序列TS:
ps={psi;1≤i≤Lps,psi∈{-1,1}}
TS={TSj;1≤j≤LTS,TSj∈{-1,1}}
其中,psi、TSj分别表示双极性伪随机调制序列的第i个元素、模板序列的第j个元素;
S102.设长度Lms=128的水印比特信息序列为ms:
ms={msi;1≤i≤Lms,msi∈{-1,1}}
其中,msi表示水印比特信息序列的第i个元素;
利用双极性伪随机调制序列ps对每一比特msi进行扩频调制:若msi=1,则将其扩频调制为ps的同相序列,即Wi=+1×ps;若msi=-1,则将其扩频调制为ps的反相序列,即Wi=-1×ps,最终得到有意义的水印信息数组W={Wi;1≤i≤Lms,Wi∈{-ps,ps}};
S103.将得到的有意义的水印信息数组W={Wi;1≤i≤Lms,Wi∈{-ps,ps}}和模板序列TS按顺序排成一个长度为M=Lms×Lps+LTS的序列WT={WTi;1≤i≤M},作为待嵌入水印序列,其中,WT中的元素WTi由“1”和“-1”构成,将模板序列TS按顺序存放在水印序列WT的最后LTS个位置,参见图5。
S201.确定从设备中实时输出的时长为128ms宿主音频,设宿主音频的语音信号为S={St;1≤t≤L},其中,St表示第t个样本点,L表示信号S的长度,对其进行预加重操作,预加重操作的表达式为:
Figure BDA0004083169830000101
其中,
Figure BDA0004083169830000102
为预加重后的语音信号,α=0.97;
S202.在本实施例中,宿主音频的语音时长为128毫秒,该宿主音频为极短的音频,对水印嵌入的实时性要求较高;进行预加重后的语音信号时长也为128毫秒;在进行水印嵌入之前,将预加重后的语音信号中128毫秒的
Figure BDA0004083169830000111
扩展成256毫秒的片段:初始化一个长度为256毫秒的全零矩阵,将128毫秒的音频片段存放在全零矩阵的最后128毫秒矩阵区域,将扩展后的256毫秒矩阵作为待嵌入的片段,得到矩阵J。
S3.根据扩展后的宿主音频的帧长,自适应地在1到2之间确定对数底可调频域对数坐标变换的对数底的值,在本实施例中,对数底的值为1.55。
S4.对256毫秒矩阵J做长度为d的一维离散傅立叶变换,将变换后的直流成分移动到傅立叶幅度谱中央,将傅立叶幅度谱的右半部分作为嵌入区域,将嵌入区域内点的坐标映射到对数极坐标,嵌入区域位于傅立叶系数幅度谱的归一化频率值fn附近;
将嵌入区域内点的坐标映射到对数极坐标上的过程如下:将嵌入区域的傅立叶系数的直角坐标r变换为离散对数极坐标lρ,变换公式为:
Figure BDA0004083169830000118
Figure BDA0004083169830000119
其中,a是一个大于1而接近于1的常数
Figure BDA00040831698300001110
在本实施例中,a=1.55,fn×d是对数坐标的原点,offset是一个保证离散对数坐标不小于零的偏移常数,floor()函数表示向下取整函数,平衡水印的鲁棒性和不可见性。
S501.对于每一个信息比特msi,扩频调制为ps的同相序列或反向序列Wi,在水印嵌入前,计算Wi中对应的直角坐标区域的幅值平均值ampavh,再分别计算Wi对应的直角坐标区域中嵌入+1和-1的位置上傅立叶系数的幅值平均值,分别记为
Figure BDA0004083169830000112
Figure BDA0004083169830000113
S502.当
Figure BDA0004083169830000114
时,对Wi对应的直角坐标区域采用的嵌入公式如下:
Figure BDA0004083169830000115
Figure BDA0004083169830000116
时,对Wi对应的直角坐标区域采用的嵌入公式如下:
Figure BDA0004083169830000117
其中,amp0k为原始音频的傅立叶系数幅值,ampwk为嵌入水印后的音频傅立叶系数幅值,β=0.00001,δ为水印嵌入强度,wk表示直角坐标k映射到对数坐标上所要嵌入的水印比特为“1”或者“-1”。
S6.基于傅立叶幅度谱的中心对称性,将右半部分对称的系数复制到左半部分,然后进行逆傅立叶变换,水印嵌入过程结束,将整段音频进行去加重操作,得到加水印的音频。
实施例3
基于实施例2,参见图6,在本实施例中,水印提取过程包括:
SA01.设输入的嵌入水印的语音信号为SW:
SW={SWt;1≤t≤L′}
其中,SWt表示第t个样本点,L′表示信号SW的长度;对SWt进行预加重操作,得到预加重后的嵌入水印的语音信号SW*
SA02.对SW*以128毫秒的步长和256毫秒的窗口长度进行截取,直到滑动窗口达到尾端,将音频片段记为
Figure BDA0004083169830000121
k表示滑动截取时的第k个片段。
SB01.对SW*
Figure BDA0004083169830000122
分别进行一维离散傅立叶变换,并将直流成分移动到傅立叶幅度谱中央;以幅度谱中心作为直角坐标系原点,把傅立叶系数幅度谱的右半平面归一化频率为fn附近的傅立叶系数的直角坐标r′变换到离散对数坐标lρ′,变换公式为:
Figure BDA0004083169830000123
Figure BDA0004083169830000124
其中,M′=λM,λ≥1,offset′是一个保证离散对数坐标不小于零的偏移常数,floor()函数表示向下取整函数;
SB02.初始化一个长度为M″=λ×μ×M的全零矩阵amp,其中,μ为不小于1的正整数;将直角坐标映射到对数极坐标系中,对具有相同离散对数坐标lρ′的傅立叶系数幅值进行求和,作为傅立叶系数幅度序列amplρ′的一个元素,从而得到一个傅立叶系数幅度序列amp。
SC01.使用与嵌入算法相同的密钥key,生成长度为LTS的模板序列TS={TSi;1≤i≤LTS,TSi∈{-1,1}},将每个TSi扩展成μ个TSi,得到TS1;初始化长度为M″的全零矩阵TSm,将TS1存放到TSm的后半部分,得到同步模板TSm
SC02.通过相位相关快速匹配计算获取平移相位相关值,计算平移相位相关值的公式为:
Figure BDA0004083169830000136
其中,X(k)是相关值序列,φamp(u)是amp(u)的相角,G*(u)=(DFT(TSm(i)))*是同步模板TSm的一维傅立叶变换系数的共轭复数,“*”表示复数共轭;
根据相关值序列X(k)的最大值初步确定嵌入水印WT在幅度序列amp中的位置,记为kmax
SC03.将kmax的左右邻域的位置,以及k=1作为同步位置的备选序列col={1,kmax-1,kmax,kmax+1},取同步位置coli,将幅度序列amp中的前coli-1个位置移动到幅度序列amp的末尾,得到同步后的幅度序列,并将同步后的幅度序列从中心位置截取出长度为μ×M的幅度矩阵,记为
Figure BDA0004083169830000131
SC04.计算
Figure BDA0004083169830000132
中每μ个位置的非零幅值的均值,按顺序存放在长度为M的幅度矩阵amp2中;
SC05.计算col中每个同步位置coli所对应的幅度矩阵amp2与模板序列TS的相关值Y(i),计算公式如下:
Figure BDA0004083169830000133
根据相关值序列Y(i)的最大值确定最终同步位置,记为colf
SD01.用原始伪随机调制序列ps对幅度矩阵amp2进行解扩频调制,并计算每个信息比特对应的归一化相关值,过程如下:
按顺序从amp2中取出Lms段不重叠且长度为Lps的序列W′i
Figure BDA0004083169830000134
计算有意义信息序列对应的幅值与原始伪随机调制序列ps的归一化相关值Q,计算公式为:
Figure BDA0004083169830000135
Q={Qi;1≤i≤Lms}
计算同步模板序列对应的幅值与模板序列TS的归一化相关值H,计算公式为:
Figure BDA0004083169830000141
SD02.根据步骤SD01,计算得到SW*
Figure BDA0004083169830000142
的归一化相关值Q1、Q2k,以及模板序列TS的归一化相关值H、H2k,其中,k=0,…,K-1;
SD03.筛选出音频片段
Figure BDA0004083169830000143
中对应的模板序列归一化相关值H大于阈值的片段,得到新的片段集合
Figure BDA0004083169830000144
其中,1≤c≤C,C为满足条件的片段数量;将
Figure BDA0004083169830000145
的相关值与总片段SW*的相关值进行集成,计算每个信息比特的集成相关值,集成相关值计算公式如下:
Figure BDA0004083169830000146
其中,qi为第i个信息比特的相关值,i=1,…,L,N1是音频片段集合
Figure BDA0004083169830000147
中同步序列归一化相关值大于0的片段数量;
若qi>0,则判决嵌入信息比特为‘1’,否则,判决嵌入信息比特‘-1’,水印提取过程结束。
显然,本发明的上述实施例仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于对数底可调频域对数极坐标的实时稳健语音水印方法,其特征在于,所述方法包括0.1~0.2秒长度的帧级别的稳健语音水印实时嵌入过程和水印提取过程,所述水印实时嵌入过程将水印在帧级别的实时音频片段中根据对数底可调的对数坐标上幅值的特点,将多比特信息嵌入宿主音频;水印提取过程基于所述水印实时嵌入过程,对已嵌入水印且经攻击的宿主音频通过归一化频率相关值融合的方式进行水印提取操作,提取宿主音频中已嵌入的水印信息。
2.根据权利要求1所述的基于对数底可调频域对数极坐标的实时稳健语音水印方法,其特征在于,所述水印实时嵌入过程至少包括:
S1.根据所需嵌入的水印比特信息序列的比特数,确定伪随机调制序列和模板序列的长度,结合密钥随机生成双极性的伪随机调制序列和模板序列,基于双极性的伪随机调制序列对水印比特信息序列的每一比特进行扩频计算,并结合模板序列得到待嵌入的水印序列;
S2.确定从设备中实时输出的宿主音频,对极短帧级别的宿主语音音频进行预加重操作,得到确定的宿主音频,并对确定的宿主音频进行扩展;
S3.根据扩展后的宿主音频的帧长,自适应地在1到2之间确定对数底可调频域对数坐标变换的对数底的值,以保证水印嵌入的实时性;
S4.对扩展后的宿主音频进行一维离散傅立叶变换,将变换后的直流成分移动到傅立叶幅度谱中央,将傅立叶幅度谱的右半部分作为嵌入区域,将嵌入区域内点的坐标映射到对数极坐标,根据幅值特点嵌入水印序列;
S5.对水印比特信息序列的每一比特进行扩频,对扩频后得到的序列所对应的傅立叶幅度谱区域,分别计算嵌入+1、-1以及扩频后得到的序列对应位置上的傅立叶幅度平均值,根据3个幅度平均值,分情况嵌入水印的比特信息;
S6.基于傅立叶幅度谱的中心对称性,将右半部分对称的系数复制到左半部分,然后进行逆傅立叶变换,水印嵌入过程结束,将整段音频进行去加重操作,得到加水印的音频。
3.根据权利要求2所述的基于对数底可调频域对数极坐标的实时稳健语音水印方法,其特征在于,步骤S1的过程包括:
S101.设定双极性伪随机调制序列和模板序列的长度,分别记为Lps和LTS;设密钥为key,利用密钥key生成双极性伪随机调制序列ps和模板序列TS:
ps={psi;1≤i≤Lps,psi∈{-1,1}}
TS={TSj;1≤j≤LTS,TSj∈{-1,1}}
其中,psi、TSj分别表示双极性伪随机调制序列的第i个元素、模板序列的第j个元素;
S102.设长度为Lms的水印比特信息序列为ms:
ms={msi;1≤i≤Lms,msi∈{-1,1}}
其中,msu表示水印比特信息序列的第i个元素;
利用双极性伪随机调制序列ps对每一比特msi进行扩频调制:若msi=1,则将其扩频调制为ps的同相序列,即Wi=+1×ps;若msi=-1,则将其扩频调制为ps的反相序列,即Wi=-1×ps,最终得到有意义的水印信息数组W={Wi;1≤i≤Lms,Wi∈{-ps,ps}};
S103.将得到的有意义的水印信息数组W={Wi;1≤i≤Lms,Wi∈{-ps,ps}}和模板序列TS按顺序排成一个长度为M=Lms×Lps+LTS的序列WT={WTi;1≤i≤M},作为待嵌入水印序列,其中,WT中的元素WTi由“1”和“-1”构成,将模板序列TS按顺序存放在水印序列WT的最后LTS个位置。
4.根据权利要求3所述的基于对数底可调频域对数极坐标的实时稳健语音水印方法,其特征在于,步骤S2的过程包括:
S201.设宿主音频的语音信号为S={St;1≤t≤L},其中,St表示第t个样本点,L表示信号S的长度,对其进行预加重操作,预加重操作的表达式为:
Figure FDA0004083169820000021
其中,
Figure FDA0004083169820000022
为预加重后的语音信号,α=0.97;
S202.设宿主音频的语音时长为x毫秒,则进行预加重后的语音信号时长也为x毫秒;在进行水印嵌入之前,将预加重后的语音信号中x毫秒的
Figure FDA0004083169820000023
扩展成y毫秒的片段:初始化一个长度为y毫秒的全零矩阵,将x毫秒的音频片段存放在全零矩阵的最后x毫秒矩阵区域,将扩展后的y毫秒矩阵作为待嵌入的片段,得到矩阵J。
5.根据权利要求4所述的基于对数底可调频域对数极坐标的实时稳健语音水印方法,其特征在于,步骤S4中,对y毫秒矩阵J做长度为d的一维离散傅立叶变换,将变换后的直流成分移动到傅立叶幅度谱中央,并将傅立叶幅度谱中心作为直角坐标系原点,在傅立叶幅度谱的右半部分中嵌入水印,嵌入区域位于傅立叶系数幅度谱的归一化频率值fn附近;
将嵌入区域内点的坐标映射到对数极坐标上的过程如下:将嵌入区域的傅立叶系数的直角坐标r变换为离散对数极坐标lρ,变换公式为:
Figure FDA0004083169820000031
Figure FDA0004083169820000032
其中,a是一个大于1而接近于1的常数,fn×d是对数坐标的原点,offset是一个保证离散对数坐标不小于零的偏移常数,floor()函数表示向下取整函数。
6.根据权利要求5所述的基于对数底可调频域对数极坐标的实时稳健语音水印方法,其特征在于,步骤S5的过程包括:
S501.对于每一个信息比特msi,扩频调制为ps的同相序列或反向序列Wi,在水印嵌入前,计算Wi中对应的直角坐标区域的幅值平均值ampavg,再分别计算Wi对应的直角坐标区域中嵌入+1和-1的位置上傅立叶系数的幅值平均值,分别记为
Figure FDA0004083169820000033
Figure FDA0004083169820000034
S502.当
Figure FDA0004083169820000035
时,对Wi对应的直角坐标区域采用的嵌入公式如下:
Figure FDA0004083169820000036
Figure FDA0004083169820000037
时,对Wi对应的直角坐标区域采用的嵌入公式如下:
Figure FDA0004083169820000038
其中,amp0k为原始音频的傅立叶系数幅值,ampwk为嵌入水印后的音频傅立叶系数幅值,β=0.00001,δ为水印嵌入强度,wk表示直角坐标k映射到对数坐标上所要嵌入的水印比特为“1”或者“-1”。
7.根据权利要求2所述的基于对数底可调频域对数极坐标的实时稳健语音水印方法,其特征在于,所述水印提取过程至少包括:
SA.确定待测音频,对整段待测音频进行预加重操作,并将预加重后的音频进行截取,得到音频段的集合;
SB.对预加重后的音频以及进一步截取后得到的音频段的集合分别进行一维离散傅立叶变换,将变换后的直流成分移动到傅立叶幅度谱中央;以幅度谱中心作为直角坐标系原点,在傅立叶系数幅度谱的右半部分提取水印,将提取范围内幅度系数的直角坐标映射到对数极坐标上,对经过映射后拥有相同对数极坐标的幅度系数进行求和,将其作为傅立叶幅度系数序列的一个元素;
SC.根据相位相关原理,将原始的模板序列与傅立叶幅度系数序列进行快速匹配计算,初步确定嵌入水印的同步位置,将同步后的幅度系数序列从中心位置截取幅度矩阵,根据邻域搜索的方法进一步确定最终同步位置;
SD.利用伪随机调制序列对幅度矩阵进行解扩频调制并集成子片段相关值,提取水印信息。
8.根据权利要求7所述的基于对数底可调频域对数极坐标的实时稳健语音水印方法,其特征在于,步骤SA包括以下步骤:
SA01.设输入的嵌入水印的语音信号为SW:
SW={SWt;1≤t≤L′}
其中,SWt表示第t个样本点,L′表示信号SW的长度;对SWt进行预加重操作,得到预加重后的嵌入水印的语音信号SW*
SA02.对SW*以z2毫秒的步长和y毫秒的窗口长度进行截取,直到滑动窗口达到尾端,将音频片段记为
Figure FDA0004083169820000041
k表示滑动截取时的第k个片段。
9.根据权利要求8所述的基于对数底可调频域对数极坐标的实时稳健语音水印方法,其特征在于,步骤SB包括以下步骤:
SB01.对SW*
Figure FDA0004083169820000042
分别进行一维离散傅立叶变换,并将直流成分移动到傅立叶幅度谱中央;以幅度谱中心作为直角坐标系原点,把傅立叶系数幅度谱的右半平面归一化频率为fn附近的傅立叶系数的直角坐标r′变换到离散对数坐标lρ′,变换公式为:
Figure FDA0004083169820000043
Figure FDA0004083169820000044
其中,M′=λM,λ≥1,offset′是一个保证离散对数坐标不小于零的偏移常数,floor()函数表示向下取整函数;
SB02.初始化一个长度为M″=λ×μ×M的全零矩阵amp,其中,μ为不小于1的正整数;将直角坐标映射到对数极坐标系中,对具有相同离散对数坐标lρ′的傅立叶系数幅值进行求和,作为傅立叶系数幅度序列amplρ′的一个元素,从而得到一个傅立叶系数幅度序列amp。
步骤SC包括以下步骤:
SC01.使用与嵌入算法相同的密钥key,生成长度为LTS的模板序列TS={TSi;1≤i≤LTS,TSi∈{-1,1}},将每个TSi扩展成μ个TSi,得到TS1;初始化长度为M″的全零矩阵TSm,将TS1存放到TSm的后半部分,得到同步模板TSm
SC02.通过相位相关快速匹配计算获取平移相位相关值,计算平移相位相关值的公式为:
Figure FDA0004083169820000051
其中,X(k)是相关值序列,φamp(u)是amp(u)的相角,G*(u)=(DFT(TSm(i)))*是同步模板TSm的一维傅立叶变换系数的共轭复数,“*”表示复数共轭;
根据相关值序列X(k)的最大值初步确定嵌入水印WT在幅度序列amp中的位置,记为kmax
SC03.将kmax的左右邻域的位置,以及k=1作为同步位置的备选序列col={1,kmax-1,kmax,kmax+1},取同步位置coli,将幅度序列amp中的前coli-1个位置移动到幅度序列amp的末尾,得到同步后的幅度序列,并将同步后的幅度序列从中心位置截取出长度为μ×M的幅度矩阵,记为
Figure FDA0004083169820000052
SC04.计算
Figure FDA0004083169820000053
中每μ个位置的非零幅值的均值,按顺序存放在长度为M的幅度矩阵amp2中;
SC05.计算col中每个同步位置coli所对应的幅度矩阵amp2与模板序列TS的相关值Y(i),计算公式如下:
Figure FDA0004083169820000054
根据相关值序列Y(i)的最大值确定最终同步位置,记为colf
10.根据权利要求9所述的基于对数底可调频域对数极坐标的实时稳健语音水印方法,其特征在于,步骤SD包括以下步骤:
SD01.用原始伪随机调制序列ps对幅度矩阵amp2进行解扩频调制,并计算每个信息比特对应的归一化相关值,过程如下:
按顺序从amp2中取出Lms段不重叠且长度为Lps的序列W′i
Figure FDA0004083169820000055
计算有意义信息序列对应的幅值与原始伪随机调制序列ps的归一化相关值Q,计算公式为:
Figure FDA0004083169820000061
Q={Qi;1≤i≤Lms}
计算同步模板序列对应的幅值与模板序列TS的归一化相关值H,计算公式为:
Figure FDA0004083169820000062
SD02.根据步骤SD01,计算得到SW*
Figure FDA0004083169820000063
的归一化相关值Q1、Q2k,以及模板序列TS的归一化相关值H、H2k,其中,k=0,…,K-1;
SD03.筛选出音频片段
Figure FDA0004083169820000064
中对应的模板序列归一化相关值H大于阈值的片段,得到新的片段集合
Figure FDA0004083169820000065
其中,1≤c≤C,C为满足条件的片段数量;将
Figure FDA0004083169820000066
的相关值与总片段SW*的相关值进行集成,计算每个信息比特的集成相关值,集成相关值计算公式如下:
Figure FDA0004083169820000067
其中,qi为第i个信息比特的相关值,i=1,…,L,N1是音频片段集合
Figure FDA0004083169820000068
中同步序列归一化相关值大于0的片段数量;
若qi>0,则判决嵌入信息比特为‘1’,否则,判决嵌入信息比特‘-1’,水印提取过程结束。
CN202310129081.4A 2023-02-15 2023-02-15 基于对数底可调频域对数极坐标的实时稳健语音水印方法 Pending CN116110408A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310129081.4A CN116110408A (zh) 2023-02-15 2023-02-15 基于对数底可调频域对数极坐标的实时稳健语音水印方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310129081.4A CN116110408A (zh) 2023-02-15 2023-02-15 基于对数底可调频域对数极坐标的实时稳健语音水印方法

Publications (1)

Publication Number Publication Date
CN116110408A true CN116110408A (zh) 2023-05-12

Family

ID=86254053

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310129081.4A Pending CN116110408A (zh) 2023-02-15 2023-02-15 基于对数底可调频域对数极坐标的实时稳健语音水印方法

Country Status (1)

Country Link
CN (1) CN116110408A (zh)

Similar Documents

Publication Publication Date Title
US7562228B2 (en) Forensic for fingerprint detection in multimedia
US6625297B1 (en) Self-orienting watermarks
EP2642483B1 (en) Extracting features of video&audio signal content to provide reliable identification of the signals
US5848155A (en) Spread spectrum watermark for embedded signalling
KR100456629B1 (ko) 웨이블릿 기반에서 디지털 워터마크 삽입/추출장치 및 방법
KR100333163B1 (ko) 디지털 워터마킹 방법 및 장치
US20090125310A1 (en) Apparatus and method for inserting/extracting capturing resistant audio watermark based on discrete wavelet transform, audio rights protection system using the same
US20090172404A1 (en) Method and Apparatus for Hybrid Watermarking
JP2006505821A (ja) 指紋情報付マルチメディアコンテンツ
Nguyen et al. A simple ICA-based digital image watermarking scheme
CN107578362B (zh) 基于纹理合成在图像中嵌入秘密信息的方法
Budiman et al. QIM-based audio watermarking with combined techniques of SWT-DST-QR-CPT using SS-based synchronization
Huang et al. A reversible acoustic steganography for integrity verification
Baranwal et al. Comparative study of spread spectrum based audio watermarking techniques
CN116110408A (zh) 基于对数底可调频域对数极坐标的实时稳健语音水印方法
Radhakrishnan et al. Audio content authentication based on psycho-acoustic model
Tsai et al. Adaptive signal-dependent audio watermarking based on human auditory system and neural networks
Nguyen-Thanh et al. Multiple Watermarking with Biometric Data Using Discrete Curvelets and Contourlets
Joshi et al. Watermarking of audio signals using iris data for protecting intellectual property rights of multiple owners
Nguyen-Thanh et al. Study on Improved Cooperative Spread Spectrum Based Robust Blind Image Watermarking
Khan et al. A new audio watermarking method based on discrete cosine transform with a gray image
Alief et al. Optimizing multibit spread spectrum audio watermarking for Internet of things
Elshazly et al. C11. An efficient Fractional Fourier Transform approach for digital image watermarking
Esmaili et al. A novel spread spectrum audio watermarking scheme based on time-frequency characteristics
Dhavale et al. High capacity lossless semi-fragile audio watermarking in the time domain

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination