CN104700840B

CN104700840B - 用于音频编码/解码/转码的频率域中水印插入

Info

Publication number: CN104700840B
Application number: CN201410705283.XA
Authority: CN
Inventors: 杨奇; 冯杰
Original assignee: ViXS Systems Inc
Current assignee: ViXS Systems Inc
Priority date: 2013-12-04
Filing date: 2014-11-28
Publication date: 2020-01-17
Anticipated expiration: 2034-11-28
Also published as: EP2881942B1; US20150154972A1; CN104700840A; EP2881942A1; US9620133B2

Abstract

本公开涉及用于音频编码/解码/转码的频率域中水印插入。一种音频处理设备，包括基于输入音频数据生成频率系数流的初始处理模块，把数字水印嵌到频率系数流中以生成经修改的频率系数流的加水印模块，以及处理经修改的频率系数流以生成输出音频数据的最终处理模块。在一些实现中，输入音频数据包括未编码的音频数据，初始处理模块包括执行时间到频率域变换以生成未编码的音频数据的频率域变换模块，并且输出音频数据是经编码的音频数据。在其它情况下，输入音频数据包括经编码的音频数据，初始处理模块包括部分地解码经编码的音频数据以生成频率系数流的初始解码模块，并且输出音频数据是经解码的音频数据。

Description

用于音频编码/解码/转码的频率域中水印插入

技术领域

本公开内容一般而言涉及音频处理，并且更具体而言涉及音频处理期间的水印插入。

背景技术

水印作为一种类型的数字标记，常常被嵌到音频数据中，以为了版权保护目的来识别音频数据的所有者或来源，或者以传送其它非音频信息。通常，水印在编码之前或编码之后被添加到音频数据中。但是，这种方法使水印相当容易被检测和修改，并且因此容易被未授权的实体篡改或去除。

发明内容

本公开内容的实施例涉及用于水印插入的方法和设备。在一些实施例中，阐述了用于水印插入的方法。该方法包括：在音频处理设备处，基于输入音频数据生成频率系数流；将数字水印嵌到所述频率系数流中，以生成经修改的频率系数流；以及处理经修改的频率系数流，以生成输出音频数据。

在其它实施例中，阐述了一种音频处理设备。该音频处理设备包括：初始处理模块，用来基于输入音频数据生成频率系数流；加水印模块，用来将数字水印嵌到所述频率系数流中，以生成经修改的频率系数流；以及最终处理模块，用来处理经修改的频率系数流，以生成输出音频数据。

在又一些其它实施例中，阐述了一种非暂时性计算机可读存储介质。该非暂时性计算机可读存储介质存储指令集合，该指令集合操纵至少一个处理器执行本公开内容中所描述的方法。

附图说明

通过参考附图，本公开内容可以得到更好的理解，并且其众多特征和优点将对本领域技术人员变得明晰。

图1是根据本公开内容的至少一个实施例的说明在频率域中实现加水印的音频处理设备的框图。

图2是根据本公开内容的至少一个实施例的说明在音频编码处理期间用于加水印的音频处理设备的操作的流程图。

图3是根据本公开内容的至少一个实施例的说明在音频解码处理期间用于加水印的音频处理设备的操作的流程图。

图4是根据本公开内容的至少一个实施例的说明使用线性相加操作的示例加水印处理的流程图，其中该线性相加操作使用来自时间到频率变换处理的频率系数。

具体实施方式

图1-4说明了用于在音频数据作为时间到频率域变换处理的结果而被表示为频率域中的频率系数时给音频数据加水印的示例技术。在至少一个实施例中，初始处理模块从输入音频数据生成频率系数集合。通过基于水印数据修改每个集合的至少一些频率系数以生成经修改的频率系数集合，水印数据被嵌到音频数据中。最终处理模块接着用经修改的频率系数集合来完成音频数据的处理，以生成具有这样嵌入的水印数据的输出数据。在编码的上下文中，输入音频数据是未编码的音频数据并且初始处理模块包括频率域变换模块，该频率域变换模块对未编码的音频数据执行时间到频率域变换处理，以生成频率系数集合。在这种上下文中的最终处理模块包括使用经修改的频率系数集合完成音频数据编码的最终编码过程，并且因此生成经编码的音频数据作为输出音频数据。时间到频率域变换处理可以包括基于离散余弦变换(DCT)的变换处理，诸如改进的DCT(MDCT)处理，或者基于傅立叶的处理，诸如快速傅立叶变换(FFT)处理。在解码的上下文中，输入音频数据包括经编码的音频数据并且初始处理模块可以包括从经编码的多媒体数据提取频率系数集合的初始解码模块，并且最终处理模块包括使用经修改的频率系数集合完成音频解码处理的最终解码模块。在转码操作中，用于加水印的滤波器系数的修改可以在输入的经编码音频数据的解码期间或者在要输出的作为结果的音频数据的编码期间发生。

在一些实施例中，通过基于水印数据的对应位来修改频率系数集合的至少一个子集，水印数据嵌在频率系数集合中。这种修改可以包括，例如，如果对应的位值是0则是一个值的线性相加，以及如果对应的位值是1则是一个不同的值的线性相加。集合的每个频率系数都可以这样被修改，或者只有该集合的频率系数的一个子集可以被修改。通过以这种方式以逐个集合为基础地修改频率系数，水印可以按照以下方式嵌到音频数据中：允许使用例如本领域中已知的平均检测器或最似然(most-likelihood)检测器来检测水印的存在，同时还比常规的时间域加水印技术对未授权的篡改更有弹性(resilient)。

图1以框图形式说明了根据本公开内容的至少一个实施例的音频处理设备100。音频处理设备100可以代表其中音频的编码、解码或转码可以被有利使用的任何多种多样的音频处理设备。为了说明，音频处理设备100可以实现为用来与对应视频内容关联地编码、解码或转码音频数据的多媒体处理系统的一部分。另选地，音频处理设备可以实现为用来生成独立于任何视频内容的经处理的音频内容的独立系统，其中音频内容诸如代表音乐歌曲、有声读物等的音频内容。

在所绘出的例子中，音频处理设备100包括输入缓冲区102、初始处理模块104、加水印模块106、最终处理模块108以及输出缓冲区110。初始处理模块104、加水印模块106和最终处理模块108每个都可以完全以硬编码逻辑(即，硬件)实现，实现为存储在非暂时性计算机可读存储介质(例如，存储器114)中的软件112和访问并执行该软件的一个或多个处理器116的组合，或者实现为硬编码逻辑和软件执行的功能的组合。为了说明，在一个实施例中，音频处理设备100实现为片上系统(SOC)，由此模块104、106和108的部分实现为硬件逻辑，其它部分经存储在SOC处并且被SOC的处理器116执行的固件(软件112的一个实施例)来实现。

音频处理设备100的硬件可以使用单个处理器116或多个处理器116实现。这种处理器116可以包括中央处理单元(CPU)、图形处理单元(GPU)、微控制器、数字信号处理器、现场可编程门阵列、可编程逻辑设备、状态机、逻辑电路系统、模拟电路系统、数字电路系统、或者基于存储在存储器114或其它非暂时性计算机可读存储介质中的操作指令来操纵信号(模拟的和/或数字的)的任何设备。存储器114可以是单个存储器设备或者多个存储器设备。这种存储器设备可以包括硬盘驱动器或者其它盘驱动器、只读存储器、随机存取存储器、易失性存储器、非易失性存储器、静态存储器、动态存储器、闪存存储器、高速缓存存储器、和/或存储数字信息的任何设备。应当指出，当处理模块经状态机、模拟电路系统、数字电路系统和/或逻辑电路系统实现其一个或多个功能时，存储对应的操作指令的存储器可以嵌在包括该状态机、模拟电路系统、数字电路系统和/或逻辑电路系统的电路系统中或者在该电路系统外面。

作为一般性的操作概述，音频处理设备100从音频源(例如，现场录音、来自CD或DVD的脉冲编码调制的音频数据等)接收输入音频数据120，并且在输入音频数据120被接收到时将其缓冲在输入缓冲区102处。接着，初始处理模块104处理缓冲的输入音频数据120，以生成代表音频数据120的至少一部分的时间到频率变换的频率系数集合。频率系数集合的这种输出在本文被称为频率系数的流122。接着，通过修改流122的一些或全部集合的一些或全部频率系数以生成经修改的频率系数集合(在本文中被称为“经修改的频率系数流126”)，加水印模块106嵌入水印数据124。接着，经修改的频率系数流126被最终处理模块108用来生成输出音频数据128，该输出音频数据128在被传输到中间或最终目的地之前可以被缓冲在输出缓冲区110中。

在一些实施例中，这种处理在音频处理设备100作为编码系统的上下文中被执行，使得输入音频数据120是未编码的音频数据(例如，表示原始模拟音频波形的脉冲编码调制(PCM)数据)并且输出音频数据128是经编码的音频数据，诸如根据一个版本的高级音频编码(AAC)标准、一个版本的运动图片专家组(MPEG)2音频级别3(MP3)标准等当中的一个或多个而编码的音频数据。在这种实现中，初始处理模块104包括频率域变换模块134，该频率域变换模块134对输入音频数据120执行时间到频率域变换，以生成频率系数流122。因而，频率域变换模块134可以应用例如基于离散余弦变换(DCT)的变换(诸如改进的DCT(MDCT)处理)、基于傅立叶的处理(诸如快速傅立叶变换(FFT)处理)等等。另外，对于基于编码的实现，最终处理模块108包括最终编码模块138，该最终编码模块138使用采用时间到频率域变换的任何多种多样的音频编码技术(诸如以上提到的AAC和MP3标准)，从经修改的频率系数流126生成作为输出音频数据128的经编码的音频流。

在其它实施例中，音频处理设备100的处理针对解码上下文，使得输入音频数据120是经编码的音频数据，诸如AAC编码或MP3编码的音频数据，并且输出音频数据128是经解码的音频数据(例如，PCM音频数据)。在解码实现中，输入音频数据120已经包括频率系数，但是是以某种编码形式的，并且因此初始处理模块104包括初始解码模块144，该初始解码模块144执行足以从经编码的输入音频数据120提取频率系数流122的初始解码。获得这些频率系数所必需的解码依赖于输入音频数据120被编码的方式。另外，最终处理模块108包括最终解码模块148，该最终解码模块148根据用来编码输入音频数据的编码标准使用经修改的频率系数流126来执行最终解码处理，以生成经解码的输出音频数据128。

在还有的其它实施例中，音频处理设备100的处理针对转码上下文，使得输入音频数据120是经编码的音频数据并且输出音频数据128是经编码的音频数据，由此音频处理设备100修改输入音频数据120的分辨率、位速率或格式，以生成输出音频数据。在这样的情况下，由于这种转码涉及至少部分解码并且随后至少部分重新编码，因此数字加水印处理可以在编码处理或解码处理中的任一者或两者中采用，如以下更具体描述的。

图2说明了根据至少一个实施例的图1的音频处理设备100在编码上下文中的操作的示例方法200。要嵌在音频数据中的水印数据124由位的集合组成，诸如一个或多个字节的信息。这些位可以代表例如与音频数据的来源关联的唯一值或者其它唯一标识符、地理区域的指示符、加密/解密密钥等。如以下更具体描述的，水印数据124的每一位嵌在对应的音频数据块(即，“音频块”)的频率系数中，其中音频块包括例如固定持续时间的音频数据(例如，20毫秒的音频数据)。相应地，在方法200的第一次迭代中，在框202处，加水印模块106选择水印数据124的第一位值。在框204处，音频处理设备100接收并缓冲输入音频数据120的音频块，由此该音频块包括未编码的音频文件或其它流的对应部分(例如，PCM数据块)。在框206处，频率域变换模块134执行频率域变换(即，从时间域到频率域的变换)，以便从该音频块生成要包括在提供给加水印模块106的频率系数流122中的频率系数集合。频率域变换可以包括例如MDCT处理、FFT处理等。由初始解码模块144采用的频率域变换可以遵照由一个或多个音频编码标准(诸如AAC、MP3等)规定的时间到频率域变换处理。

接下来，在框208处，该集合的频率系数被选择并且加水印模块106使用选定的频率系数与第一值和第二值之一来执行线性相加，其中第一值和第二值是依赖于在框202处选定的水印数据124的位值是“0”还是“1”来选择的。为了说明，如果水印数据124的位值是“0”，则线性相加操作可以把“-1”加到频率系数，而如果水印数据124的位值是“1”，则线性相加操作可以把“+1”加到频率系数。在基于水印位值的线性相加操作中所使用的值对的任何布置都可以使用，而不是“-1,+1”，诸如像“-10,+10”或者“-3,+6”等。作为结果的经修改的频率系数作为经修改的频率系数流126的一部分输出。在一些实施例中，该集合的每个滤波器(filter)系数都以这种方式被修改。在其它实施例中，只有滤波器系数的一个子集被修改。例如，加水印模块106可以被配置为只修改该集合的滤波器系数的四分之一或一半。没有被选择修改的那些滤波器系数不加修改地输出，作为经修改的滤波器系数流126的一部分。相应地，在框210处，加水印模块106确定它是否已经修改了音频块要被修改的全部滤波器系数。如果还没有，则方法流返回到框208，以便选择该集合中要修改的下一个频率系数。如果音频块的滤波器系数集合的加水印已经完成，则方法200返回到框202，以便使用水印数据124的下一位值对下一个音频块重复加水印处理。

同时，在框212处，最终编码模块138使用经修改的流126中经修改的频率系数集合，而不是从音频块生成的原始频率系数集合，完成音频块的编码。这种编码可以包括根据所应用的音频编码标准的任何多种多样的众所周知的编码处理，诸如使用心理声学模型的经修改的频率系数集合的量化、作为结果的量化频率系数的冗余消除编码、纠错编码，等等。用于音频块的作为结果的经编码音频数据在输出缓冲区110处缓冲，接着被包括为传输到目的地设备的输出音频数据128的一部分以用于存储或后续解码。

图3说明根据至少一个实施例的图1的音频处理设备100在解码上下文中的操作的示例方法300。就像以上的编码方法200，在方法300的第一次迭代中，在框302处，加水印模块106选择水印数据124的第一位值。在框304处，音频处理设备100接收并缓冲输入音频数据120的音频数据集，由此音频数据集包括经编码的音频文件或其它流的对应部分(例如，AAC或MP3编码的数据块)。该数据集包括用于对应的未编码音频块的编码的频率系数集合。相应地，在框306处，初始解码模块144执行部分解码处理，以获得未编码形式的频率系数集合，用于包括在提供给加水印模块106的频率系数流122中。

接下来，在框308处，该集合的频率系数被选择并且加水印模块106使用选定的频率系数与第一值和第二值(例如，“-1”或“+1”)之一执行线性相加，其中第一值和第二值是依赖于在框302处选定的水印数据124的位值是“0”还是“1”来选择的。作为结果的经修改的频率系数作为经修改的频率系数流126的一部分被输出。如以上相似地指出的，这种修改处理可以应用到集合中的每个频率系数或者只应用到选定的子集。没有被选择修改的那些滤波器系数不加修改地输出，作为经修改的滤波器系数流126的一部分。相应地，在框310处，加水印模块106确定它是否已经修改了该集合中要被修改的全部滤波器系数。如果还没有，则方法流返回到框308，以便选择该集合中要修改的下一个频率系数。如果滤波器系数集合的加水印已经完成，则方法300返回到框302，以便使用水印数据124的下一位值对下一个音频数据集重复加水印处理。

同时，在框312处，最终解码模块148使用经修改的流126中的经修改的频率系数集合，而不是从音频块生成的原始频率系数集合，完成音频数据集的解码。这种解码可以包括根据所应用的音频解码标准的任何多种多样的众所周知的解码处理，诸如频率到时间域变换处理、纠错，等等。作为结果的用于音频数据集的未编码的音频数据在输出缓冲区110处被缓冲，接着作为传输到目的地设备的输出音频数据128的未编码音频块被输出以用于存储或重放。

图4说明了被加水印模块106用来基于水印数据124生成经修改的频率系数流126的水印嵌入处理的例子。如以上指出的，水印数据124包括位值的串或集合。在所描绘出的例子中，水印数据124包括8位的值：10011101b。另外，在这个例子中，对于在水印数据124的位位置处的位值“0”，线性相加操作把“-1”值加到选定的频率系数，以生成经修改的频率系数集合，并且对于在位位置处的位值“1”，线性相加操作加上值“+1”。

因而，在所说明的例子中，对于第一音频块401(也表示为“块A”)，加水印模块106实现时间到频率域变换，以生成四个频率系数411、412、413和414的集合(应当指出，一般基本上会生成多于四个频率系数，但是这个例子为了方便说明而限制于四个)。在这个例子中，最低三个频带的频率系数(即，频率系数411、412、413)被选择进行修改，因而线性相加操作421、422和423分别使用频率系数411、412和413来执行，以生成经修改的频率系数431、432和433。在这个例子中，水印数据124的第一位值要嵌在从音频块401生成的频率系数中。因为该第一位值是“1”，所以线性相加操作421、422和423把值“+1”分别加到频率系数411、412和413的值。接着，这些经修改的频率系数431、432和433以及未经修改的频率系数414作为经修改的流126(图1)的经修改的频率系数集合434传递。

对于第二音频块402(也表示为“块B”)，加水印模块106实现时间到频率域变换，以生成四个频率系数441、442、443和444的集合。就像第一音频块401的处理，最低三个频带的频率系数(即，频率系数441、442、443)被选择进行修改，因而线性相加操作451、452和453分别使用频率系数441、442和443来执行，以生成经修改的频率系数461、462和463。在这个例子中，水印数据124的第二个位值要嵌在从音频块402生成的频率系数中。因为该第二位值是“0”，所以线性相加操作451、452和453把值“-1”分别加到频率系数441、442和443的值。接着，这些经修改的频率系数461、462和463以及未经修改的频率系数444作为经修改的流126(图1)的经修改的频率系数集合464传递。

在一些实施例中，以上所描述的技术的某些方面可以由执行软件的处理系统的一个或多个处理器实现。软件包括存储在非暂时性计算机可读存储介质上或者以别的方式在非暂时性计算机可读存储介质上有形地实现的一个或多个可执行指令集。软件可以包括指令和某些数据，当指令和数据被一个或多个处理器执行时，操纵这一个或多个处理器执行以上所描述的技术的一个或多个方面。非暂时性计算机可读存储介质可以包括例如磁或光盘存储设备、诸如闪存存储器的固态存储设备、高速缓存、随机存取存储器(RAM)或者其它一种或多种非易失性存储器设备，等等。存储在非暂时性计算机可读存储介质上的可执行指令可以是源代码、汇编语言代码、目标代码、或者由一个或多个处理器解释或以别的方式可执行的其它指令格式。

在本文档中，诸如“第一”和“第二”等的关系术语可以仅仅是用来区分一个实体或动作与另一个实体或动作，而不一定需要或暗示这种实体或动作之间的任何实际关系或次序或者这种实体与要求保护的元素之间的任何实际关系或次序。如在本文所使用的，“另一个”一词定义为至少第二个或更多。如在本文所使用的，术语“包括”、“具有”或者其任何变体定义为包含。

从对本文所公开的公开内容的说明书和实践的考虑，本公开内容的其它实施例、用途和优点对本领域技术人员将是明晰的。说明书和附图应当被认为仅仅是例子，并且相应地本公开内容的范围旨在仅由权利要求及其等同物来限定。

应当指出，不是以上在一般描述中描述过的所有活动或元素都必需，可以不需要具体活动或设备的一部分，并且，除描述过的那些之外，还可以执行一个或多个另外的行为或者包括一个或多个另外的元素。还有，活动被列出的次序不一定是它们被执行的次序。

而且，已经参考具体的实施例描述了概念。但是，本领域普通技术人员应当认识到，在不背离如权利要求中所阐述的本公开内容范围的情况下，可以进行各种修改和变型。因此，说明书和附图被视为是说明性而不是限制性的，并且所有此类修改都旨在包括在本公开内容的范围之内。

以上关于具体的实施例描述了益处、其它优点以及对问题的解决方案。但是，益处、优点、对问题的解决方案以及可以使任何益处、优点或解决方案发生或变得更显著的任何特征都不应当被认为是任何或全部权利要求的关键、必需或根本的特征。

Claims

1.一种音频处理方法，包括：

在音频处理设备的处理器处，基于输入音频数据生成频率系数流；

在所述处理器处，将包括位值的集合的数字水印嵌入到所述频率系数流中，以生成经修改的频率系数流，其中嵌入数字水印包括：

对于位值集合中的每个位值，基于该位值修改频率系数流的对应的频率系数集合，以生成对应的经修改的频率系数流集合，其中基于位值修改对应的频率系数集合包括：

对于该集合的每个频率系数：

响应于该位值包括一(1)而执行频率系数和非零的第一值的线性相加，以生成对应的经修改的频率系数；以及

响应于该位值包括零(0)而执行频率系数和非零的第二值的线性相加，以生成对应的经修改的频率系数；

其中所述非零的第一值与所述非零的第二值不同，以及

在所述处理器处，处理经修改的频率系数流，以生成输出音频数据。

2.如权利要求1所述的音频处理方法，其中：

所述输入音频数据包括未编码的音频数据；

生成频率系数流包括对所述未编码的音频数据执行时间到频率域变换；以及

所述输出音频数据是经编码的音频数据。

3.如权利要求2所述的音频处理方法，其中时间到频率域变换包括以下至少一个：改进的离散余弦变换(MDCT)以及快速傅立叶变换(FFT)。

4.如权利要求1所述的音频处理方法，其中：

所述输入音频数据包括经编码的音频数据；

生成频率系数流包括部分地解码所述经编码的音频数据，以生成频率系数流；以及

所述输出音频数据是经解码的音频数据。

5.如权利要求1至4中任一项所述的音频处理方法，还包括：

检测所述输出音频数据中数字水印的存在。

6.如权利要求5所述的音频处理方法，其中检测数字水印的存在包括使用平均检测器和最似然检测器当中的至少一个来检测数字水印的存在。

7.一种音频处理设备，包括：

存储可执行指令集合的非暂时性存储介质；和

耦合到所述存储介质的至少一个处理器，所述至少一个处理器执行所述可执行指令集合，其中所述可执行指令集合在被所述至少一个处理器执行时操纵所述至少一个处理器进行以下操作：

基于输入音频数据生成频率系数流；

将包括位值的集合的数字水印嵌入到所述频率系数流中，以生成经修改的频率系数流；

处理经修改的频率系数流，以生成输出音频数据；

其中所述可执行指令集合将通过操纵所述处理器进行以下操作来操纵所述至少一个处理器嵌入数字水印：对于位值集合中的每个位值，基于该位值来修改频率系数流的对应的频率系数集合，以生成对应的经修改的频率系数流集合；并且

其中所述可执行指令集合将通过操纵所述至少一个处理器进行以下操作来操纵所述至少一个处理器基于位值来修改对应的频率系数集合：

对于频率系数集合的每个频率系数：

响应于该位值包括零(0)而执行频率系数和非零的第二值的线性相加，以生成对应的经修改的频率系数；并且

其中所述非零的第一值与所述非零的第二值不同。

8.如权利要求7所述的音频处理设备，其中：

所述输入音频数据包括未编码的音频数据；

所述可执行指令集合将操纵所述至少一个处理器执行时间到频率域变换，以生成所述未编码的音频数据；以及

所述输出音频数据是经编码的音频数据。

9.如权利要求8所述的音频处理设备，其中时间到频率域变换包括以下至少一个：改进的离散余弦变换(MDCT)以及快速傅立叶变换(FFT)。

10.如权利要求7所述的音频处理设备，其中：

所述输入音频数据包括经编码的音频数据；

所述可执行指令集合将操纵所述至少一个处理器部分地解码所述经编码的音频数据，以生成频率系数流；以及

所述输出音频数据是经解码的音频数据。

11.一种存储指令集合的非暂时性计算机可读存储介质，该指令集合操纵至少一个处理器以执行根据权利要求1至6中任一项所述的音频处理方法。