CN107430865A

CN107430865A - 用于在声场的高保真度立体声响复制表示中嵌入和恢复水印的方法和装置

Info

Publication number: CN107430865A
Application number: CN201680017752.6A
Authority: CN
Inventors: 陈晓明; 乌尔里希·格里斯; 彼得·乔治·鲍姆; 迈克尔·阿诺德
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2015-03-24
Filing date: 2016-02-18
Publication date: 2017-12-01
Also published as: EP3073488A1; WO2016150624A1; JP2018511083A; US20180075852A1; EP3274990A1; TW201635275A; KR20170130495A

Abstract

作为下一代音频的潜在格式，已经提出了用于在声场的较高阶高保真度立体声响复制(HOA)表示中嵌入数字水印的技术。本发明的嵌入方法适于对声场的二维或三维高保真度立体声响复制表示加水印，其中高保真度立体声响复制表示被分解为方向信号和环境分量，并且包括估计的主导方向，并且其中环境分量的阶数可以被降低，并且其中水印信息数据被嵌入在方向信号中，并且在接收机侧从加水印的方向信号中被恢复出来。

Description

用于在声场的高保真度立体声响复制表示中嵌入和恢复水印的方法和装置

技术领域

本发明涉及一种用于在声场的二维或三维高保真度立体声响复制(ambisonics)表示中嵌入和恢复水印的方法和装置。

背景技术

作为下一代音频的潜在格式，已经提出了用于在声场的较高阶高保真度立体声响复制(HOA)表示中嵌入数字水印的技术。在[7]中，水印被嵌入在合成/记录的音频信号或声场的高保真度立体声响复制表示中。在水印信号是由原始主机信号和该原始主机信号的加权和定向旋转版本组成情况下，采用加性水印。然而，在高保真度立体声响复制域中，旋转仅被考虑用于第一阶(B-格式)。由于HOA域中的旋转也可以如[8]中所示，因此通过旋转的嵌入也可以扩展到HOA格式。然而，不同的方向对旋转有不同的感知敏感性。因此，为了保持感知保真度，高保真度立体声响复制信号仅允许非常小的旋转。

为了直接嵌入在记录/合成的音频信号中，将不同的水印嵌入在各个单独的音频信号中。对于水印检测(所谓的半盲检测)，必须知道源方向和旋转后的方向两者。这里的问题在于，各个单独的源方向需要调谐处理，以通过单独地旋转不同的源方向来执行感知质量和嵌入强度之间的折衷。将不同水印嵌入到各个单独的信号中增加了可以被传输的数据速率。另一方面，这种嵌入策略对于HOA压缩来说可能是非鲁棒的。

发明内容

WO2013/171083 A1[9]中示出了HOA压缩，在WO2013/171083 A1[9]中声场的高保真度立体声响复制表示被分解为方向信号和环境分量。方向信号及其相关联的方向被传输的同时仅传输环境分量的降阶表示。因此，如果嵌入在各个单独的音频信号中的一些水印在压缩之前被嵌入，则不能检测到这些水印，参见[7]。这个问题可以通过在各个单独的音频信号中嵌入相同的水印来克服，然而这将导致加水印数据信道的可用数据速率降低。

本发明要解决的问题是改进2D或3D高保真度立体声响复制声场表示的加水印。这个问题通过权利要求1中所公开的嵌入方法和权利要求8所公开的恢复方法来解决。在权利要求2和9中公开了利用这些方法的装置。

各个从属权利要求中公开了本发明的有益的附加实施例。

以下描述公开了基于将高保真度立体声响复制表示分解为主导方向信号和环境或残差分量，在声场的2D或3D高保真度立体声响复制表示中嵌入和检测数字水印。水印数据信号通过在基带信号中操作的任何PCM音频加水印技术被嵌入在主导方向信号中。

水印检测可以作为数字传输后的高保真度立体声响复制解码处理的一部分而被执行。备选地，可以在记录渲染后的声场之后执行水印检测。如果球形麦克风是可用的，则可以再次估计方向信号，以便提高嵌入的水印的鲁棒性。

有利地，将水印信息嵌入在这样的方向信号中提供了保真度和针对HOA压缩的鲁棒性之间的较好折衷，这是因为方向信号在感知上是主导的，并且可以使用相对较高的嵌入强度而不降低所得到的感知保真度。此外，由于方向信号是在HOA压缩之后被无任何改变地传送的，因此确保了嵌入的水印的高鲁棒性。

原则上，本发明的嵌入方法适于对声场的二维或三维高保真度立体声响复制表示加水印，其中所述高保真度立体声响复制表示被分解为方向信号和环境分量，并且包括估计的主导方向，并且其中所述环境分量的阶数可以被降低，并且其中水印信息数据被嵌入在所述方向信号中。

原则上，本发明的嵌入装置适于对声场的二维或三维高保真度立体声响复制表示加水印，所述装置适于：

-将所述高保真度立体声响复制表示分解为方向信号和环境分量和估计的主导方向，其中，所述环境分量的阶数可以被降低；

-将水印信息数据嵌入在所述方向信号中。

原则上，本发明的恢复方法适于恢复水印信息数据，所述水印信息数据根据上述嵌入方法而被嵌入在声场的二维或三维高保真度立体声响复制表示中，所述方法包括：

-将所述加水印的高保真度立体声响复制表示分解为所述方向信号、所述估计的主导方向和所述环境分量；

-在所述加水印的方向信号中执行水印检测。

原则上，本发明的恢复装置适于恢复水印信息数据，所述水印信息数据根据上述嵌入方法而被嵌入在声场的二维或三维高保真度立体声响复制表示中，所述装置适于：

-在所述加水印的方向信号中执行水印检测。

附图说明

参考附图描述了本发明的示例性实施例，附图中示出了：

图1具有倾角θ和方位角φ的球面坐标系；

图2对方向信号加水印；

图3 HOA编码器内的水印嵌入器；

图4如[1]中公开的专用于HOA方向信号的基于相位的水印嵌入处理；

图5 HOA中的感知编码器内的水印嵌入器；

图6根据加水印的高保真度立体声响复制系数的水印检测；

图7 HOA解码内的水印检测；

图8独立的水印检测；

图9在通过诸如Eigenmike的球面麦克风记录后的水印检测；

图10如[1]中公开的专用于加水印的HOA方向信号的基于相位的水印检测处理。

具体实施方式

虽然没有明确描述，但是也可以以任意组合或子组合的形式采用以下实施例。

更高阶高保真度立体声响复制(HOA)

高保真度立体声响复制采用缺省的球谐函数展开式(方程(1)中高达N阶)来表示声场：

其中X(kr；θ，φ)表示球面上的任意方向(θ，φ)的压力。图1示出了具有倾角θ和方位角φ的球面坐标系，并且r是距收听点(作为坐标系的原点(最佳点))的距离。

角波数由表示，其中f和λ分别表示频率和波长。球谐函数(SH)由表示，并且是展开(高保真度立体声响复制)系数。经由SH展开式表示声场的复杂度和空间分辨率之间的折衷是通过展开阶数(expansion order)N来控制的。在三维情况下，存在O＝(N+1)²个展开系数，然而，在二维情况下(即，θ≡0)，存在2N+1个系数。HOA是指阶数N＞1的SH展开式。因此，展开系数被称为HOA系数，并且阶数也被称为HOA阶数。代替直接传输记录或合成的音频信号及其关联的位置，SH展开系数被传送用于在高保真度立体声响复制的上下文中渲染。

给出了HOA系数和特定扬声器设置的情况下，渲染器试图通过扬声器再现被传送的声场。换句话说，HOA的灵活性(其可以应用于不同的扬声器设置)是以各个单独的扬声器设置所需的解码为代价的。关于HOA和用于HOA的解码的更多详述可以在WO2011/117399 A1[10]或[3]中找到。

经由分解HOA系数的HOA压缩

用于传输没有压缩的HOA系数的数据速率可以被评价为O·f_s·b比特/秒，其中O是每个时间索引的HOA系数的数目(见上文)，f_s是采样频率，并且b是表示每个HOA系数的比特的数目。HOA压缩旨在降低数据速率，而不牺牲感知保真度。

[9]示出了出于压缩的目的如何降低所传输的HOA系数的数据速率。基本假设为：表示声场的HOA系数可以被分解为方向信号和残差环境分量，并且已经证实：较低HOA阶数(比如，N_a＜N)足以表示残差或环境分量。如果存在D个方向信号，并且N_a用于表示环境分量，则所得的数据速率是((N_a+1)²+D)·f_s·b比特/秒。因此，由于HOA系数的分解和经由较低HOA阶数表示环境分量而导致的压缩增益是这可以通过改变N_a和D参数来调整。

因为需要传输方向信号的方向信息，因此这是近似的压缩增益。通常，参数D是预定义的。

在方向信号中嵌入水印

将水印信息数据嵌入在方向信号中，不考虑高保真度立体声响复制阶数并且不考虑二维或三维高保真度立体声响复制。

图2示出了通过修改高保真度立体声响复制系数来进行水印嵌入，高保真度立体声响复制系数是根据记录或合成的音频信号而计算出的或者从任何已知的高保真度立体声响复制格式的高保真度立体声响复制音频文件中提取出的，参见[4]。高保真度立体声响复制系数在步骤或阶段21中被分解为方向信号和对应估算的主导方向信息数据、和残差环境分量或信号。[9]中公开了HOA系数的一种可能分解，该分解也适于一阶高保真度立体声响复制。方向信号可以被解译为多个PCM信号。因此，方向信号可以用于任意PCM音频水印技术(参见示例[1])。对于要加水印的每个方向信号，可以使用单个掩蔽曲线来限制水印嵌入强度。

在水印嵌入步骤或阶段22中，一个或多个水印被嵌入在一个或多个方向信号中。加水印的方向信号、环境信号和方向信息数据在高保真度立体声响复制组合步骤或阶段23中被组合，产生加水印的高保真度立体声响复制系数。

加水印的方向信号及其关联估计的主导方向用于评价对应的高保真度立体声响复制表示，高保真度立体声响复制表示用于将最终的高保真度立体声响复制表示与在分解期间获得的残差环境分量相组合。在HOA解压缩的上下文下，[9]中描述了类似的组合处理。因此，嵌有水印信号的修改后的高保真度立体声响复制信号可以用于诸如如[9]或[11]中所示的压缩的处理。

图3示出了如何在HOA压缩的构架内执行水印嵌入。该处理也可以应用于一阶高保真度立体声响复制，但是HOA潜在地比一阶高保真度立体声响复制具有更宽泛的应用。HOA转换步骤或阶段31根据所接收到的记录或合成的音频信号和对应的位置信息项、并且基于HOA阶数N来计算HOA系数。在HOA转换之后，HOA系数在步骤或阶段32中被分解为方向信号和环境信号或分量以及相关估计的主导方向信息数据，如[9]中所示。在步骤或阶段33中，利用任何PCM音频水印技术对方向信号执行水印(参见示例[1])。对于要加水印的每个方向信号，可以使用单独掩蔽曲线来限制水印嵌入强度。环境信号通过降阶步骤或阶段34。

加水印的方向信号和降阶后的环境HOA分量通过步骤或阶段35中的感知编码被进一步压缩。这种感知编码的示例是AAC、mp3、或USAC(统一语音和音频编码)。

对应信号的方向信息在步骤/阶段36中与感知编码后的比特流复用，以便形成加水印的HOA比特流。

由于存在D个方向信号，因此可以在各个方向信号中嵌入不同的水印信号，以便实现用于水印传输的高数据速率。备选地，如果需要，可以在不同的方向信号中嵌入相同的水印信号，以实现针对潜在信号处理和声路传输的高鲁棒性。此外，可以采用扩频技术和纠错码来进一步增加鲁棒性，参见[1]。

图4示出了使用如[1]中公开的音频信号相位修改来进行水印嵌入的示例。方向信号通过用于分段、加窗和DFT的步骤或阶段41到达相位调制步骤或阶段42。基于秘密密钥和相关水印符号字母大小，秘密密钥用于随机相位生成步骤或阶段44和步骤或阶段45中的例如16384个样本长度的参考图案的对应生成。根据要被嵌入的水印符号，选择参考图案来在步骤/阶段42中修改HOA分解后的一个方向信号的相位。对于要加水印的每个方向信号，可以使用单个掩蔽曲线来限制水印嵌入强度。因此，方向信号的掩蔽曲线被确定，使得相位修改不会引起任何感知劣化。随后的IDFT、加窗和重叠添加步骤或阶段43输出加水印的方向信号。加水印的方向信号被处理以重新组合HOA系数(如图2所示)或者获得最终HOA比特流(见图3)。

可以通过纠错来保护水印有效载荷。水印信息数据嵌入42中，每个水印符号与一种参考图案45相对应。

嵌入的水印的鲁棒性和加水印的方向信号的质量通过连续感知编码器来改变。因此，为了实现更好地控制水印鲁棒性、压缩和质量之间的折衷的另一种可能性，也可以将水印嵌入步骤直接集成在感知编码器中，如图5所示。记录或合成的音频信号、关于位置的数据和HOA阶数的值N被提供至HOA转换器51。HOA表示信号被馈送至HOA分解步骤或阶段52，HOA分解步骤或阶段52输出方向信号数据、相关估计的主导方向数据、和环境信号数据。优选地，在降阶步骤或阶段54中降低环境信号的阶数。方向信号数据和降阶后的环境信号数据在步骤或阶段55中被感知编码，从而嵌入水印数据。AAC和AC-3的音频水印的示例可以分别在[6]和[5]中找到。感知编码后的方向信号数据和降阶后的环境信号数据以及方向数据在复用器步骤或阶段56中被复用，复用器步骤或阶段56输出加水印的HOA比特流。

水印检测

如果能够在不同的信号处理过程之后获得加水印的高保真度立体声响复制系数(其可以从高保真度立体声响复制音频文件中提取或从通过诸如Eigenmike(参见http：//www.mhaeoustics.com/products#eigenmikel)的球形麦克风阵列所记录的音频信号转换而来)，则可以通过提取方向信号来执行步骤或阶段62中的水印检测，如图6所示。使用例如[9]中所述的处理，在进行水印嵌入时，在与步骤/阶段21或步骤/阶段32中的处理相对应的步骤或阶段61中执行高保真度立体声响复制系数的分解。[12]中描述了将由球形麦克风阵列记录的信号转换为高保真度立体声响复制表示的示例。

如果压缩的架构中已经存在水印嵌入(如图5所示)，则可以在如图7所示的数字传输环境(例如，机顶盒)中的HOA解码的架构内执行水印检测。输入的HOA比特流在解复用器步骤或阶段76中被拆分成用于感知解码的比特流和HOA系数的方向信号的方向信息数据。步骤或阶段75中的感知解码传送加水印的方向信号和可以降阶的环境HOA分量。然后，在水印检测步骤或阶段73中从加水印的方向信号中检测和提取水印。在HOA组合步骤或阶段72中使用加水印的方向信号和(在阶数展开步骤或阶段74中阶数展开到N之后的)环境HOA分量以及方向信息数据，以恢复原始声场的HOA表示。恢复后的HOA系数用于HOA渲染步骤或阶段71以进行渲染，以便再现原始声场的扬声器信号。

在与图5相关的备选实施例中，步骤/阶段73被省略，并且水印检测在所述感知解码步骤/阶段75中执行。

备选地，水印检测可以独立于HOA解码而执行，如图8所示。加水印的HOA比特流在步骤或阶段81中被HOA解码并在步骤或阶段82中被HOA渲染，产生对应的扬声器信号。这种表示的声场可以在声场重新编码步骤或阶段83中被记录。(声场重新编码的)扬声器信号被馈送至水印检测步骤或阶段84，水印检测步骤或阶段84提供检测到的水印数据。

基于估计的方向信号，可以检测到水印，如图9所示。在全向麦克风记录步骤或阶段97中，诸如Eigenmike的全向麦克风或麦克风阵列记录由扬声器再现的声场，随后根据需要进行后处理，以在步骤或阶段98中将所记录的麦克风信号变换为HOA系数。

在通过全向麦克风执行记录的情况下，所记录的信号用于步骤或阶段92中的水印检测。在这种情况下，所记录的信号是渲染后的方向信号和环境分量的叠加。如果在方向信号中嵌入相同的水印，则基于相关的水印检测器将由于来自不同扬声器的时间延迟而在相关阵列中显示出若干峰。可以利用这一点来聚合峰中包含的水印能量，如[2]所示。

在通过球形麦克风阵列记录声场的情况下，可以在步骤/阶段98中导出高保真度立体声响复制表示，如[12]所示。现在，可以在诸如HOA编码的HOA分解步骤或阶段91中估计方向信号，参见经由HOA系数分解的部分HOA压缩或参见[9]。然后，将方向信号传递到水印检测步骤或阶段92。

图10中示出了水印检测的详细示例。在图8的处理中或在全向麦克风的情况下(图9的第一实施例)中，仅加水印的音频信号可用于水印检测。在其它所述情况下，加水印的方向信号可用于水印检测。

方向信号或加水印的方向信号通过白化步骤或阶段101。基于秘密密钥和相关水印符号字母大小，秘密密钥用于步骤或阶段104中的随机相位生成和步骤或阶段105中的例如16384个样本长度的参考图案的对应生成。从步骤/阶段105中选择候选参考图案，以用于在相关步骤/阶段102中与白化后的加水印的输入信号的对应部分交叉相关。根据步骤/阶段102的输出信号，在符号检测步骤或阶段103中检测并输出嵌入的水印符号。可以基于相关值来进行水印符号估计，如[1]所述。

所描述的处理可以由单个处理器或电子电路或者由并行操作和/或在成套加工的不同部分上操作的若干处理器或电子电路执行。

用于根据所述处理操作处理器的指令可以存储在一个或多个存储器中。然后，至少一个处理器被配置为执行这些指令。

参考文献

[1]M.Arnold，X.M Chen，P.G.Baum，U.Gries，G.″A Phase-based AudioWatermarking System Robust to Acoustic Path Propagation″，IEEE Transactions OnInformation Forensics and Security，vol.9，pp.411-425，March 2014.

[2]M.Arnold，X.M.Chen，P.G.Baum；″Robust Detection of Audio Watermarksafter Acoustic Path Transmission″，Proceedings of the ACM Workshop onMultimedia and Security，pp.117-126，September 2010.

[3]J.Boehm，″Decoding for 3-D″，130th Convention of the Audio Eng.Soc.，London，UK，May 2011.

[4]M.Chapman，W.Ritsch，Th.Musil，J.H.Pomberger，F.Zotter，A.Sontacchi，″A standard for interchange of ambisonic signal sets including afile standard with metadata″，Proceedings of the Ambisonics Symposium 2009，2009.

[5]X.M.Chen，M.Arnold，P.G.Baum，G.″AC-3 Bit StreamWatermarking″，Proceedings of IEEE International Workshop on InformationForensics and Security，pp.181-186，December 2012.

[6]Ch.Neubauer，J.Herre，″Audio watermarking of MPEG-2 AAC bitstreams″，Audio Engineering Society Convention 108，2000.

[7]R.Nishimura，″Audio watermarking using spatial masking andambisonics″，IEEE Transactions on Audio，Speech，and Language Processing，vol.20(9)，pp.2461-2469，November 2012.

[8]F.Zotter，″Analysis and Synthesis of Sound Radiation with SphericalArrays″，PhD thesis，Institute of Electronic Music and Acoustics，University ofMusic and Performing Arts Graz，2009.

[9]WO2013/171083 A1

[10]WO2011/117399 A1

[11]EP 2469742 A1

[12]WO2013/068283 A1

Claims

1.一种用于对声场的二维或三维高保真度立体声响复制表示加水印的方法，其中，所述高保真度立体声响复制表示被分解(21，32)为方向信号和环境分量，并且包括估计的主导方向，并且所述环境分量的阶数能够被降低(34)，其特征在于：

-将水印信息数据嵌入(22，33，41-45)在所述方向信号中。

2.一种用于对声场的二维或三维高保真度立体声响复制表示加水印的装置，所述装置适于：

-将所述高保真度立体声响复制表示分解(21，32)为方向信号和环境分量和估计的主导方向，其中，所述环境分量的阶数能够被降低(34)；

-将水印信息数据嵌入(22，33，41-45)在所述方向信号中。

3.根据权利要求1所述的方法或根据权利要求2所述的装置，其中，所述加水印的方向信号和可能已降阶的环境分量被感知编码(35)。

4.根据权利要求1或3所述的方法或根据权利要求2或3所述的装置，其中，所述方法还包括将不同的水印信息数据嵌入到各个单独的方向信号中。

5.根据权利要求1或3所述的方法或根据权利要求2或3所述的装置，其中，所述方法还包括将相同的水印信息数据嵌入到各个单独的方向信号中。

6.根据权利要求1和3至5中的任一项所述的方法，或根据权利要求2至5中的任一项所述的装置，其中，对于要加水印的每个方向信号，使用单独的掩蔽曲线来限制水印嵌入强度。

7.根据权利要求1和3至6中的任一项所述的方法，或根据权利要求2至6中的任一项所述的装置，其中，通过纠错来保护水印有效载荷，并且在所述水印信息数据嵌入(22，33，42)中，每个水印符号与参考图案(44)相对应。

8.一种用于恢复水印信息数据的方法，所述水印信息数据根据权利要求1和4至7中任一项所述的方法而被嵌入在声场的二维或三维高保真度立体声响复制表示中，所述方法包括：

-将所述加水印的高保真度立体声响复制表示分解(61)为所述方向信号、所述估计的主导方向和所述环境分量；

-在所述加水印的方向信号中执行(62)水印检测。

9.一种用于恢复水印信息数据的装置，所述水印信息数据根据权利要求2和4至7中任一项所述的方法而被嵌入在声场的二维或三维高保真度立体声响复制表示中，所述装置适于：

-在所述加水印的方向信号中执行(62)水印检测。

10.一种用于恢复水印信息数据的方法，所述水印信息数据根据权利要求3至7中任一项所述的方法而被嵌入在声场的二维或三维高保真度立体声响复制表示中，所述方法包括：

-从所述加水印的高保真度立体声响复制表示中解复用出(76)所述估计的主导方向；

-对所述被感知编码的方向信号和所述可能已降阶的环境分量进行感知解码(75)；

-在所述加水印的方向信号中执行(73)水印检测；

-如果所述环境分量的阶数被降低(34)，则对应地展开所述降阶的环境分量；

-使用所述估计的主导方向来组合(72)所述环境分量和所述方向信号。

11.一种用于恢复水印信息数据的装置，所述水印信息数据根据权利要求3至7中任一项所述的装置而被嵌入在声场的二维或三维高保真度立体声响复制表示中，所述装置适于：

-在所述加水印的方向信号中执行(73)水印检测；

12.一种用于恢复水印信息数据的方法，所述水印信息数据被嵌入在声场的二维或三维高保真度立体声响复制表示中，其中，所述水印检测(84)是根据所述声场的HOA解码后(81)、渲染后(82)和扬声器信号记录后(83)的版本而执行的，并且所述声场的所述记录后的版本是通过全向麦克风生成的，所述方法包括：

-在所述记录后的声场信号中执行(84)水印检测。

13.一种用于从声场扬声器信号中恢复水印信息数据的方法，所述水印信息数据被嵌入在所述声场的二维或三维高保真度立体声响复制表示中，所述方法包括：

-使用球形麦克风捕获(97)所述扬声器信号；

-根据所述球形麦克风的信号生成(98)HOA系数；

-将所述HOA系数分解(91)为方向信号和环境分量；

-在所述方向信号中执行(92)水印检测。

14.一种数字音频信号，根据权利要求1和3至7中的任一项所述的方法而被编码。

15.一种存储介质，例如光盘或预记录存储器，所述存储介质包含或存储或其上记录有根据权利要求14所述的数字音频信号。

16.一种计算机程序产品，包括当在计算机上执行时执行根据权利要求1和3至7中的任一项所述的方法的指令。

17.一种计算机程序，包括当在计算机上执行时执行根据权利要求1和3至7中的任一项所述的方法的计算机可执行指令。