CN1987998A

CN1987998A - 一种保护声音著作权的倒频谱声音水印嵌入及萃取方法

Info

Publication number: CN1987998A
Application number: CNA2005101323538A
Authority: CN
Inventors: 刘适程; 林信锋
Original assignee: Individual
Current assignee: Individual
Priority date: 2005-12-21
Filing date: 2005-12-21
Publication date: 2007-06-27

Abstract

本发明关于一种保护声音著作权的倒频谱声音水印嵌入及萃取方法，主要是将声音信号转换为数字音框，又将每一音框转换至倒频谱域，并计算其系数的统计平均值作为一门坎值；另一方面以公司标志影像作为水印图案，并以产品的序列号码登录顾客交易纪录，上述数据以私钥打乱，再重新以通讯技术编码后转换为一维资料，根据音框系数高低而调降或调高其系数的作法，将前述一维资料嵌入各个音框，随即在声音档案中产生声音水印；利用前述技术制作的声音水印，具有极高的强韧性，可有效抵抗音讯攻击。

Description

一种保护声音著作权的倒频谱声音水印嵌入及萃取方法

技术领域

本发明关于一种保护各种声音著作权而利用编码技术嵌入及萃取声音水印的方法，尤指音乐制作公司标志影像及购买音乐者的交易数据重新编码后转换成一维数据，并嵌入数字音框内，以产生声音水印的技术。

背景技术

近年来盗版活动猖獗，尤其是非法下载的情况不受控制，直接降低歌迷购买合法音乐的意愿，估计音乐制作业界因此损失数千亿元。虽然世界各大音乐制作公司不断投资新科技和改变销售模式加以因应，但道高一尺、魔高一丈，盗版事件仍难见有效方法遏止，已严重危害音乐创作者的生存空间。

科技界希望发展出“声音水印”嵌入技术对于表彰权利及验证合法使用者方面具有积极的意义，研究者无不以达到高透明度(transparency)和高强韧度(robustness)为努力的目标。因为水印的嵌入媒体数据时，如果破坏了原音或者无法有效抵御蓄意的攻击，则水印即毫无意义，也无推广价值。直至本发明以前，仍未有优越的技术开发出来。

发明内容

本发明是在媒体数据作品中嵌入序列(sequence)、文字(text)、或标志图像(logo image)等版权信息(copyright information)来保障智能财产权的水印技术，广泛地受到大家的重视。原始的媒体数据在嵌入水印后，人类的听视觉感官不会察觉水印的存在，也不影响原始数据的正常使用。我们的“声音水印技术”利用人类视觉与听觉的特性，将信息隐藏于媒体中。以音乐档案来说，利用声音心理学(psychoacoustics)，可在音文件里插入一些信息，而人耳却不易察觉。这些人类感官的“缺点”造成了隐藏信息的余度(redundancy)，其应用可用来验证数字声音其合法的持有者(ownership)，进而保护智慧财产权(copyright protection)。

当原始音乐经由本发明技术嵌入声音水印后仍足以抵抗音讯的攻击，使得音乐传播时，其版权更能受到更完备的保护。

为达成前述目的采取的主要技术手段为令前述声音水印嵌入方法包括下列步骤：

将模拟声音信号转换为数字音框(digital audio frame)。

将每一音框转换至倒频谱域(cepstrum domain)，并计算其系数的统计平均值，作为萃取水印时的门坎值；前述音框的倒频谱域转换包括下列步骤：

傅立叶转换(Fourier transform)；

取自然对数(logarithm)；

傅立叶逆转换(inverse Fourier transform)。

在前述步骤后，将作为水印图案的影像以私钥打乱，重新以通讯技术编码方式进行编码，并转换成由1或0组成的一维数据比特流。

将作为交易纪录的序列数字以私钥打乱，重新以通讯技术编码方式进行编码，并转换成由1或0组成的一维数据比特流。

判断每一倒频谱域音框的系数大小，作为嵌入1或0的依据，而将前述比特流一一嵌入各个音框。

将每一个音框转回时域，而完成水印的嵌入。

前述音框转回时域，包括下列步骤：

傅立叶转换(Fourier transform)；

取指数幂方(exponentiation)；

傅立叶逆转换(inverse Fourier transform)。

在前述水印嵌入方法中运用倒频谱域分析及通讯编码技术，前者拥有攻击不变量的特性(attacked-invariant)，后者则具备自动更正错误位的功能，故经有效整合倒频谱分析技术与通讯技术编码，可有效抵抗对于声音水印的攻击。

本发明另一目的在提供一种声音水印的萃取方法，包括下列步骤：

读取已经嵌入水印的声音信号，储存成数字音讯，撷取固定数量的样本为一音框，各个音框之间无交错。

将每一音框转换至倒频谱域，并计算每一音框的系数平均值；前述的倒频谱域转换包括下列步骤：

傅立叶转换(Fourier transform)。

取自然对数(logarithm)；

傅立叶逆转换(inverse Fourier transform)。

完成前述步骤后，再将读取音框的系数平均值与前述的门坎值比较，并根据比较结果，判断该音框嵌入位为1或0。

将所有嵌入位合成为比特流(bits stream)。

将比特流分成公司标志影像数据及顾客交易纪录数据，并重新通讯技术方式进行译码(decode)，再以私钥(private key)还原先前数据，而完成声音水印的萃取及得到顾客数据。

附图说明

图1是本发明转换公司标志影像为一维数据及顾客交易数据为一维数据的工作流程图；

图2是本发明嵌入公司标志影像及顾客数据的工作流程图；

图3是本发明在倒频谱域音框中嵌入两段一维资料的工作流程图；

图4是本发明萃取公司标志影像及顾客数据的工作流程图；

图5是本发明的测试数据英文表。

图6是图5的测试数据英文表的中文译文表。

具体实施方式

本发明包括了声音水印的嵌入方法及该水印的萃取方法，在以下的实施例中，是以在音乐文件中嵌入及萃取水印为例说明：

水印嵌入技术包含两大部分，其中一部分为影像的处理及购买交易纪录，另一部分为倒频谱域分析、嵌入及萃取部分，首先影像的处理，为嵌入的水印图案进行前置作业，如图1所示，其具体流程100、200包括下列步骤：

读取公司标志影像(Logo image)101，使用私钥(private key)打乱该影像102，并重新以通讯技术编码技术进行编码103，以取得新的二维矩阵，每一列(row)数据即代表一个编码字(codeword)；将前述矩阵转成一维的比特流(Bits stream)104，供嵌入至音档中以产生声音水印。

读取顾客交易纪录(customer record)201，使用私钥(private key)打乱该数据202，并重新以通讯技术编码技术进行编码203，并将编码后数据转成一维的比特流(Bits stream)204，供嵌入至音乐文件中以产生声音水印。

又如图2所示，以倒频谱分析技术进行嵌入部分则包含下列步骤：

读取声音信号，以固定频率(hertz)取样，再以固定的样本(samples)为单位切割成1个音框，且各音框之间无交错301；

将每一音框转换到倒频谱域(cepstrum domain)302，本实施例中，该倒频谱域转换经过下列过程：傅立叶转换(Fourier transform)302A、取自然对数(logarithm)302B及傅立叶逆转换(inverse Fourier transform)302C；

接着计算每一倒频谱域音框的系数的统计平均值SM(statistical-mean)303，并移除每一倒频谱域音框的偏移量(remove biasof SM)；接着计算并储存每一倒频谱域音框的系数平均值以作为一门坎值(Threshold)304；而经过倒频谱域转换的音框则接着进行水印数据嵌入305；

将流程100及流程200所完成的一维数据比特流，一一嵌入前述的倒频谱域音框。一种可行的嵌入方式请参阅图3所示，在倒频谱域音框嵌入一维资料比特流A、B后401、402，即先判断每一倒频谱域音框的系数高于0或低于0，403、404，再据以决定嵌入比特流中的1或0，其原则如下：

嵌入“0”时：当倒频谱域音框的系数大于零，则减去一调整参数405，小于等于零时406，系数维持不变409A。

嵌入“1”时：当倒频谱域音框的系数小于零，则加上一调整参数407，大于等于零时408，系数维持不变409B。

在前述原则下，意味着一倒频谱域音框的系数被调高一参数，即代表嵌入该音框的资料为“1”；相反的，若一倒频谱域音框的系数被调降一参数，即代表嵌入该音框的资料为“0”。

仍请参阅图2所示，在嵌入资料后，接着将前述倒频谱域音框转回时域(time domain)306，其转换过程依序为傅立叶转换306A、取指数幂方(exponentiation)306B、傅立叶逆转换306C。由于本实施例中是采用complex cepstrum，故可完全掌握住相位角(phase angle)的信息，进而可以完全返回时域讯号序列。

由上述说明可了解本发明在音档中嵌入水印的具体方法，该等技术是以通讯技术编码为基础对影像及序列文字进行编码，当水印遭受攻击时，即如同通讯信号在传递时受到干扰一般，译码端必须将错误的位予以更正；又配合倒频谱分析技术拥有攻击不变量的特性(attacked-invariant)，使本发明具有极高的强韧性(robustness)，可以有效抵抗音讯的攻击。

又本发明另一目的在提供一种对应于前述嵌入方法的水印萃取方法，如图4所示，其包含下列步骤：

读取已经嵌入水印的声音讯号，重新以原固定频率取样、再以固定数量的样本(samples)为单位切割成一个一个的音框501，且音框之间无交错；

将每个音框转换到倒频谱域，其转换过程与嵌入流程中的步骤302是相同的，藉此可以得到倒频谱域音框502；

计算每个倒频谱域音框的系数平均值CM(coefficient mean)503；

比对前述系数平均值(CM)与在嵌入流程中产生的门坎值(Threshold)504，若系数平均值(CM)大于门坎值，表示该音框被嵌入的资料为“1”；若系数平均值小于门坎值，则代表该音框被嵌入的资料为“0”；接着整并前述被解出的“1”与“0”，使其合成一维数据比特流；

接着将前述一维数据比特流505分成A与B，505A、505B，重新以通讯技术译码506，得到公司标志影像数据(Logo image)与顾客交易纪录(customer record)的序列文字，再以私钥(Private Key)重组先前打乱的影像数据507A及序列文字507B，即可萃取出水印影像508A、508B及得到顾客数据509A、509B。

利用上述方法可将音档中嵌入的水印影像取出，当萃取的影像就视觉上清晰可见时，即可用来证明版权拥有者。当萃取的序列文字找到交易纪录时，即可知道顾客数据。

为进一步验证该水印对于攻击的强韧度，可将前述所萃取的水印影像，转成一维数据比特流，再与先前流程100中步骤104产生的一维数据比特流比对508A，并计算出NC值508B，计算出的NC值愈趋近1，显示抵抗攻击的强韧度愈高。

为进一步验证本发明的水印嵌入方法具有极高的攻击强韧度，本发明采用了选定StirMark Benchmark作为音讯水印测试标准，以期得到客观的测试结果。

如图5、图6所示，其测试对象为台湾原住民音乐“TarokoMan”，音讯档案格式为wav档案，嵌入的数据如表一所示。而前述音乐档案萃取水印及交易的序列文字记录后，可从实验结果中得知代表“强韧度”的NC值为1，意即成功的萃取公司标志图案；以及该首音乐为何人购买。

目前网络上泛滥的MP3音乐及唱片公司发行的CD音乐，如果引用本发明的一种保护声音著作权的倒频谱声音水印嵌入及萃取方法，把公司的版权数据与顾客数据嵌入音乐里，对于盗版音乐行为就有反制的能力，使执法部门可以知道非法盗版音乐从何而来。如果受到采用，将带给音乐创作者及唱片业者生存的空间，鼓舞他们不断地创作出美好的音乐，丰富我们的生活。

综上所述，本发明运用倒频谱域分析及通讯编码技术以执行声音水印的嵌入，由于倒频谱域分析拥有攻击不变量的特性(attacked-invariant)，通讯技术编码则具备自动更正错误位的功能(Error bit correction)，故经整合倒频谱分析技术与通讯技术编码，可有效抵抗对于水印的蓄意攻击。

Claims

1、一种保护声音著作权的倒频谱声音水印嵌入的方法，其特征在于，先将公司标志影像(Logo image)及顾客交易数据(customer record)利用通讯技术进行编码(communication code)，并转换为一维数据比特流(bits stream)，供嵌入至声音档案中，其嵌入方法包括下列步骤：

将声音信号转换为数字音框(frame)；

将每一音框转换至倒频谱域，并计算其系数的统计平均值SM(statistical-mean)：

移除每一倒频谱域音框的偏移量(remove bias of SM)；

计算并储存每一倒频谱域音框的系数平均值以作为一门坎值(Threshold)；

根据每一倒频谱域音框的系数大小，作为嵌入前述一维资料比特流的1或0的依据，并将公司标志影像(Logo image)及顾客数据(customerrecord)的比特流一维资料(one-dimensional data)一一嵌入各个音框(audioframes)；

将每一个音框转回时域(time domain)，而完成水印的嵌入。

2、如权利要求1所述的保护声音著作权的倒频谱声音水印嵌入的方法，其特征在于，前述公司标志影像及顾客数据转换成一维数据的方法为先以私钥(private key)打乱，再重新以通讯技术编码方式进行编码，并转换成由1或0组成的一维数据比特流(bits stream)。

3、如权利要求2所述的保护声音著作权的倒频谱声音水印嵌入的方法，其特征在于，该一维数据比特流嵌入倒频谱域音框的方法为：

当倒频谱域音框(audio frame in cepstrum domain)的系数(coefficient)小于零(smaller than zero)，加上一调整参数(parameter)，代表嵌入资料为“1”；

当倒频谱域音框(audio frame in cepstrum domain)的系数(coefficient)大于零(greater than zero)，令其系数维持不变，代表嵌入资料为“1”；

当倒频谱域音框的系数(coefficient)大于零(greater than zero)，即减去一调整参数(parameter)，代表嵌入资料为“0”。

当倒频谱域音框的系数(coefficient)小于零(smaller than zero)，令其系数维持不变，代表嵌入资料为“0”。

4、如权利要求1至3中任一项所述的保护声音著作权的倒频谱声音水印嵌入的方法，其特征在于，该音框的倒频谱域转换包括下列步骤：

傅立叶转换(Fourier transform)；

取自然对数(logarithm)；

傅立叶逆转换(inverse Fourier transform)。

5、如权利要求1至3中任一项所述的保护声音著作权的倒频谱声音水印嵌入的方法，其特征在于，该倒频谱域音框转回时域(time domain)的过程为：

傅立叶转换(Fourier transform)；

取指数幂方(exponentiation)；

傅立叶逆转换(inverse Fourier transform)。

6、一种保护声音著作权的倒频谱声音水印萃取方法，其特征在于，包括下列步骤：

读取已经嵌入水印的声音信号，储存成数字音讯(digital audioframe)，撷取固定的取样值(sample rate)为一音框，各个音框之间无交错(non-overlap)；

将每一音框转换至倒频谱域(transform to cepstrum domain)；

计算每一音框的系数平均值CM(coefficient mean)；

读取音框的系数平均值与嵌入水印时产生的门坎值(threshold)比较，并根据比较结果，判断该音框嵌入位为1或0；

将所有萃取出的位(bit)合成为比特流(bits stream)；

将比特流分成公司标志影像(Logo image)及顾客数据(Customerrecord)的比特流一维数据(one-dimensional data)，重新以通讯编码技术进行译码(The communication code decoding)，再以私钥(private key)还原数据，而完成声音水印及顾客数据的萃取。

7、如权利要求6所述的保护声音著作权的倒频谱声音水印萃取方法，其特征在于，其判断倒频谱域音框嵌入位的方式为比对前述系数平均值(coefficient mean)与在嵌入水印时产生的门坎值(threshold)，若系数平均值大于门坎值，表示该音框被嵌入的资料为“1”；若系数平均值小于门坎值，则代表该音框被嵌入的资料为“0”。

8、如权利要求6所述的保护声音著作权的倒频谱声音水印萃取方法，其特征在于，前述的倒频谱域转换(transform to cepstrum domain)包括下列步骤：

傅立叶转换(Fourier transform)；

取自然对数(1ogarithm)；

傅立叶逆转换(inverse Fourier transform)。

9、如权利要求6所述的保护声音著作权的倒频谱声音水印萃取方法，其特征在于，萃取的公司标志影像(Extracted logo image)进一步转换成一维数据比特流，再与原公司标志影像(Original logo image)所转换原始的一维数据比特流比对，可计算出其强韧度(robustness)的正确率(Normalized Correlation)。

10、如权利要求6所述的保护声音著作权的倒频谱声音水印萃取方法，其特征在于，萃取出的顾客数据(Customer record)，与交易数据库比对找出完整的顾客资料，使执法部门可以知道非法盗版音乐从何而来。