CN113453039B

CN113453039B - 视频文件处理与水印提取的方法和装置

Info

Publication number: CN113453039B
Application number: CN202010215301.1A
Authority: CN
Inventors: 刘永亮; 杨锐
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2023-04-18
Anticipated expiration: 2040-03-24
Also published as: WO2021190372A1; CN113453039A

Abstract

公开了一种视频文件处理与水印提取的方法和装置，所述视频文件处理方法包括：获取所述视频文件的视频数据和音频数据；向所述视频数据中嵌入第一水印信息；向所述音频数据中关联嵌入第二水印信息；以及获取嵌入水印的视频文件。本发明利用视频中包含视频序列和音频数据在时间和空间上的关联性，向视频文件添加彼此关联的音视频水印，从而提升了视频文件的水印覆盖范围。另外，通过音视频双水印之间的彼此验证，提升了嵌入水印对抗恶意篡改的鲁棒性。

Description

视频文件处理与水印提取的方法和装置

技术领域

本公开涉及一种数字媒体处理技术，尤其涉及一种视频文件处理与水印提取的方法和装置。

背景技术

随着互联网的飞速发展，视频的制作和观看变得日益便捷与流行。在利益驱使下，视频的盗版问题也逐渐凸显。某些第三方会通过一些技术手段窃取视频生成方的展示视频。例如，短视频平台上很多UP主通过简单编辑他人视频生成伪原创视频来获取利益。上述问题扰乱了视频及其相关产业的发展。

为此，需要一种能够更好地确认视频版权的方法。

发明内容

为了解决如上至少一个问题，本公开提供了一种视频文件处理以及相应的水印提取方法。该方法利用视频中包含视频序列和音频数据在时间和空间上的关联性，向视频文件添加彼此关联的音视频水印，从而提升了视频文件的水印覆盖面。另外，通过音视频双水印之间的彼此验证，提升了嵌入水印对抗恶意篡改的鲁棒性。

根据本公开的第一个方面，提供了一种视频文件处理方法，包括：获取所述视频文件的视频数据和音频数据；向所述视频数据中嵌入第一水印信息；向所述音频数据中关联嵌入第二水印信息；以及获取嵌入水印的视频文件。

根据本公开的第二个方面，提供了一种视频水印提取方法，包括：获取根据第一个方面所述的嵌入水印的视频文件；从所述嵌入水印的视频文件中抽取视频数据和音频数据；提取所述视频数据中嵌入的第一水印信息；以及提取所述音频数据中嵌入的第二水印信息。

根据本公开的第三个方面，提供了一种流媒体水印提取方法，包括：获取嵌入水印的流媒体数据，所述流媒体数据由第一方面所述的嵌入水印的视频文件生成；从所述嵌入水印的流媒体数据中抽取视频数据和音频数据；提取所述视频数据中嵌入的第一水印信息；以及提取所述音频数据中嵌入的第二水印信息。

根据本公开的第四个方面，提供了一种流媒体数据处理方法，包括：获取所述流媒体数据的视频数据和音频数据；向所述视频数据中嵌入第一水印信息；向所述音频数据中关联嵌入第二水印信息；以及获取嵌入水印的流媒体数据。

根据本公开的第五个方面，提供了一种视频文件处理装置，包括：视频解析单元，用于获取所述视频文件中的视频数据和音频数据；视频水印嵌入单元，用于向所述视频数据中嵌入第一水印信息；音频水印嵌入单元，用于向所述音频数据中关联嵌入第二水印信息；以及视频混合单元，用于混合嵌入第一水印信息的所述视频数据和嵌入第二水印信息的所述音频数据，以获取嵌入水印的视频文件。

根据本公开的第六个方面，提供了一种视频水印提取装置，包括：视频解析单元，用于获取根据第一个方面所述的嵌入水印的视频文件中的视频数据和音频数据；视频水印提取单元，用于从所述视频数据中提取第一水印信息；以及音频水印提取单元，用于从所述音频数据中提取嵌入第二水印信息。

根据本公开的第七个方面，提供了一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当可执行代码被处理器执行时，使处理器执行如上述第一至第四方面所述的方法。

根据本公开的第八个方面，提供了一种非暂时性机器可读存储介质，其上存储有可执行代码，当可执行代码被电子设备的处理器执行时，使处理器执行如上述第一至第四方面所述的方法。

本发明对视频文件同时嵌入音频水印和视频水印，两者互不干扰，相互补充，提取水印时可将音视频水印提取信息进行自适应融合，从而大幅提高视频文件水印的鲁棒性，特别是对抗针对视频内容的恶意编辑攻击。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了根据本发明的一种视频文件处理方法的示意性流程图。

图2示出了为视频序列和音频码流分别嵌入水印信息的一个例子。

图3示出了根据本发明的联合水印嵌入流程的一个例子。

图4示出了根据本发明一个实施例的视频水印提取方法的示意性流程图。

图5示出了根据本发明的联合水印提取流程的一个例子。

图6示出了本发明水印嵌入和提取操作的简要方案示意图。

图7示出了根据本发明一实施例可用于实现上述视频处理和水印提取方法的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

近年来，数字水印技术在视频版权保护领域取得一定的成果。该技术能够将水印信息嵌入载体信息(例如，冗余信息)中，从而对视频版权进行保护。目前常见平台上的视频通常都包含视频序列和音频数据两部分，很多数字水印的应用都是将音视频作为一个整体进行处理。第三方会在盗版视频制作过程中针对其中局部视频序列或局部音频进行编辑伪造(例如去除logo水印、增加新logo水印、插入广告、修改分辨率等)，这些编辑操作的组合对原视频信号引入严重失真，导致该局部对水印信息无法提取，因此仅针对视频序列或音频数据嵌入单一水印的方案并不能保证视频更高级别的版权保护要求。

为此，本发明提出了一种音视频联合水印方案。视频中包含的不同数据内容(视频序列和音频数据)在时间和空间上有很强的关联性，彼此制约。现有的视频水印算法多数都是只对视频码流做嵌入提取处理，没有利用音视频之间的关联性，或是根本就没有考虑到音频数据的存在。本发明通过将音视频数据之间的关联性引入视频水印处理，使得视频水印更为精确和鲁棒，由此版权保护和数字内容鉴定能够取得更好的效果。

本发明首先可以实现为一种向音视频添加水印的方案。上述方案首先可以实现为一种视频文件处理方法。图1示出了根据本发明的一种视频文件处理方法的示意性流程图。在此，“视频文件”指代通常包括视频和音频两种信息的文件。换句话说，视频文件既包括图像内容，也包括声音内容。

在步骤S110，获取所述视频文件的视频数据和音频数据。对于待嵌入水印的视频文件，可以利用现有工具进行音视频分离。例如，可以利用视频文件解析工具对待嵌入水印的视频文件进行操作，以分别抽取视频数据(通常为视频序列)和音频数据(通常为音频码流)。

在步骤S120，向所述视频数据中嵌入第一水印信息。在步骤S130，向所述音频数据中关联嵌入第二水印信息。应该了解的是，上述视频水印和音频水印的插入步骤，也可以是同时，或是音频水印插入在先。只要视频和音箱的水印嵌入存在关联性即可。后续在水印提取时，可以利用上述关联性，进行音频和视频水印的关联验证，由此提升水印的抗篡改能力。

在某些实施例中，上述关联性可以是时间上的关联，即，向所述音频数据嵌入第二水印信息的时间可以与向所述视频数据嵌入第一水印信息的时间相关联。作为替换或者补充，上述关联性也可以是内容上的关联性，即，向所述音频数据嵌入第二水印信息的内容可以与向所述视频数据嵌入第一水印信息的内容相关联。在一个优选实施例中，音频和视频水印添加的时间和内容可以都有预先确定的关联关系，以方便在后续针对提取的音视频水印信息的相互验证。

上述时间和内容上的关联性可以是彼此相同。例如，可以在视频和音频时间轴的相同位置上分别添加音频和视频水印。考虑到水印数据的长度往往需要涉及一个时间段内的持续添加，并且同样时长的视频序列和音频码流存在嵌入容量差异(即可能只需要7秒时长视频序列可完成嵌入64比特，而可能需要10秒时长音频码流才能完成64比特的嵌入)，因此上述时间上的相同可以是嵌入的初始时间相同。于是，在一个实施例中，向所述音频数据嵌入第二水印信息的起始时间可以与向所述视频数据嵌入第一水印信息的起始时间相同。由此，在双水印提取时，方便音视频水印的彼此对齐和相互验证。

虽然在某些实施例中，音视频的水印内容可以基于一定的映射关系彼此关联，而非完全相同。但是为了提升视频发布后抵御篡改的鲁棒性，优选音视频具有相同的水印内容。换句话说，向所述音频数据嵌入第二水印信息的内容可以与向所述视频数据嵌入第一水印信息的内容相同。由此，进一步提升水印提取时音视频水印相互验证的鲁棒性。

由于视频文件通常都具有一定的时长，为了防止通过简单的截取文件部分内容进行盗取(例如，选取一个3分钟视频中精华的30秒进行发布)，可以向一个视频文件中的视频序列和音频码流多次添加水印信息以增强保护。为此，向所述视频数据中嵌入第一水印信息可以包括：以第一预定时间间隔，向所述视频数据中嵌入多个第一水印信息。相应地，向所述音频数据中嵌入关联的第二水印信息包括：以第二预定时间间隔，向所述音频数据中嵌入多个第二水印信息。如前所述，为了提升鲁棒性并方便对齐，优选以相同的时间间隔进行音频和视频的水印嵌入。另外，虽然预定时间间隔可以是非均匀的时间间隔，例如，前一分钟每10秒嵌入一个，后一分钟每15秒嵌入一个，但是仍然优选以均匀的预定时间间隔进行水印插入，以提升水印的抗篡改能力。

另外，如前所述，由于水印数据的长度往往需要涉及一个时间段内的持续添加，并且同样时长的视频序列和音频码流存在嵌入容量差异(即可能只需要7秒时长视频序列可完成嵌入64比特，而可能需要10秒时长音频码流才能完成64比特的嵌入)，因此在重复设置多个水印的情况下还需要考虑嵌入提取时音视频水印设置同步。为此，所述多个第一水印信息中的每个第一水印信息可以包括：第一排序数据和第一水印数据。相应地，所述多个第二水印信息中的每个第二水印信息可以包括：第二排序数据和第二水印数据。换句话说，实际添加的水印信息可以包括排序码以及水印信息本身，并且按照一定的时间间隔重复。

图2示出了为视频序列和音频码流分别嵌入水印信息的一个例子。如图所示，可以在时间轴对齐的视频序列和音频码流中，以10秒的时间间隔重复插入相同的水印信息。每个时间间隔内插入的水印信息包括同步码以及单周期水印信息。

在此，“同步码”可以是在音频或是视频内部用来为添加的单周期水印信息进行排序计数的码。例如，在第一个时间间隔的起始时刻(即，第0秒)添加的单周期水印信息是“000……0000”，在第二个时间间隔的起始时刻(即，第10秒)添加的单周期水印信息可以加1，变为“000……0001”，在第三个时间间隔的起始时刻(即，第20秒)添加的单周期水印信息可以加1，变为“000……0010”，并以此类推。进一步地，“同步码”的“同步”可以指代视频序列和音频码流之间的同步。即，在后续的水印提取阶段，视频序列和音频码流可以借助恢复出来的同步码进行时间上的对齐。

在此，“单周期水印信息”可以指代用于唯一表示视频身份或是视频制作者身份(或是视频发布方身份)的识别码，例如图中示出的“48位的一个周期的完整水印信息”，由此与整个音频或视频中插入的所有水印相关信息(包括不断增大的同步码和其后一直重复的水印识别码)相区别。

如图2所示，同步码和单周期水印信息都是由0和1表示的二进制数据，与实际音视频处理中的数据进制相同。

由于同样时长的视频序列和音频码流存在嵌入容量差异，只需要7秒时长视频序列就可完成嵌入64比特，而需要10秒时长音频码流才能完成64比特的嵌入，因此重复插入水印的间隔应该不小于10秒时长。虽然在本例中示出了以10秒为预定间隔持续进行水印插入，但应该理解的是，在其他实施例中，也可以以更长的时间间隔进行水印插入，例如，每20秒插入一次。类似地，每一次嵌入的同步码和单周期水印信息也可以具有不同的位数，例如，同步码32位，水印信息32位等，并且同步码与水印信息的整体长度也可以是64位之外的其他长度。

在各自完成了水印插入之后，在步骤S140，可以获取嵌入水印的视频文件。具体地，可以将含有相同水印信息的视频序列与音频数据进行码流混合，得到含双水印的视频文件。上述嵌入双水印的视频文件随后可以发布，并在需要时，基于预定方法进行水印提取和恢复。

在不同的实施例中，可以选择不同的音频和视频水印嵌入方法进行分别针对音频和视频的水印数据插入，只要其嵌入存在关联性即可。

在一个实施例中，为了防止水印嵌入对视听效果的影响，可以基于音频和视频数据各自的属性，选择相应的区域进行嵌入操作。为此，向所述视频数据中嵌入第一水印信息可以包括：向所述视频数据中视频帧的非显著区域添加所述第一水印信息。优选地，可以提取视频关键帧，并进行内容分析，以选取非显著区域用于水印信息的添加。作为替换或者补充，向所述音频数据中嵌入第二水印信息包括：向所述音频数据中音频帧的听觉不敏感区域添加所述第二水印信息。优选地，对音频进行分帧处理，以选取每帧音频中频带听觉不敏感的区域用于水印信息的添加。

在具体嵌入时，可以选择进行能量水印的嵌入。在此，“能量水印”指代通过调整媒体内容某个变换域相邻区域的能量关系而实现嵌入的水印算法。在水印信息包括较多比特数的情况下，每一个完整水印的插入通常需要针对一系列的视频帧和音频帧持续进行。为此，向所述视频数据中嵌入第一水印信息可以包括：通过调整所述视频数据中视频帧变换域相邻区域的能量关系，嵌入所述第一水印信息。进一步地，通过调整所述视频数据中视频帧变换域相邻区域的能量关系，嵌入所述第一水印信息可以包括：选取视频序列中的一系列特定视频帧，所述视频数据是视频序列；以及调整所述一系列特定视频帧的变换域相邻区域的能量关系，并逐一嵌入所述第一水印信息的组成比特信息。在此，选取视频序列中的一系列特定视频帧可以包括：选取所述视频序列中的视频关键帧。例如，每个关键帧内嵌入64比特信息中的1个比特，最终在这64个连续的关键帧内完成同步码和单周期水印信息的嵌入。

相应地，向所述音频数据中嵌入关联的第二水印信息可以包括：调整相邻音频帧的能量关系，嵌入所述第二水印信息。进一步地，调整相邻音频帧的能量关系，嵌入所述第二水印信息可以包括：调整所述一系列相邻音频帧的相邻频带的能量关系，并逐一嵌入所述第二水印信息的组成比特信息。例如，可以调整相邻两个频带之间的能量关系，并嵌入64比特信息中的1个比特，最终在65个连续的相邻帧之间完成同步码和单周期水印信息的嵌入。

本发明的上述视频处理方法尤其适于实现为一种音视频联合水印添加的方案。图3示出了根据本发明的联合水印嵌入流程的一个例子。对于要进行水印添加的视频文件，可以首先利用视频文件解析工具分别抽取视频序列和音频数据。随后，如图所示，流程分为两个并列的分支。

针对抽取的视频序列，提取视频关键帧，并进行内容分析选取非显著区域。针对选取的非显著区域，可以基于相邻块的能量关系嵌入同步码和水印比特，得到含水印信息的视频序列。结合图2的例子说明，可以提取10秒至17秒时段内的视频关键帧，进行内容分析选取非显著区域，随后进行诸如DCT(离散余弦变换)的变换得到其变换域，在通过变换域相邻区域的能量关系的调整，进行水印信息的嵌入，例如，一个关键帧的选定非显著区域，嵌入一个比特，从而使得64个连续关键帧包含64位的同步码和单周期水印信息，以方便后续提取流程中通过关键帧提取、非显著区域选取和相邻区域能量关系查找来定位水印信息。

另一方面，可以对音频进行分帧处理，并选取每帧音频中频带听觉不敏感的区域。对选取的听觉不敏感的区域，基于相邻频带的能量关系嵌入同步码和水印比特，得到含水印信息的音频。结合图2的例子说明，可以提取10秒至20秒时段内的音频帧，选取听觉不敏感的频带，随后进行诸如DCT(离散余弦变换)的变换得到其变换域，在通过变换域相邻频带的能量关系的调整，进行水印信息的嵌入，例如，两个相邻帧之间选定听觉不敏感的区域，嵌入一个比特，从而使得65个连续帧之间包含64位的同步码和单周期水印信息，以方便后续提取流程中通过音频分帧、听觉不敏感区域选取和能量关系查找来定位水印信息。

在对视频和视频都进行了水印添加执行之后，可以将含有相同水印信息的视频序列与音频数据进行码流混合，得到含双水印的视频文件。

随后，添加了上述音视频双水印的视频文件可以被发布，以供观看和使用。由于在视频文件被发布后，可能会遭受篡改并作为伪原创视频进行二次发布，此时，可以对这些视频进行水印提取操作，以明确该视频的初始发布者身份。

为此，本发明还可以实现位一种视频水印提取方法。图4示出了根据本发明一个实施例的视频水印提取方法的示意性流程图。

在步骤S410，获取嵌入水印的视频文件。在此，嵌入水印的视频文件可以是如上结合图1-3描述的经处理的视频文件，所述视频文件可以是嵌入了音视频双水印的视频文件。水印的嵌入除了能在视频无篡改的时候验证视频的身份，在很多情况下还需要在视频被攻击和篡改时仍能保证被提取。为此，步骤S410获取的可以是经篡改的嵌入水印的视频文件。

随后在步骤S420，从所述嵌入水印的视频文件中抽取视频数据和音频数据。类似地，对于待提取水印的视频文件，可以利用现有工具进行音视频分离。例如，可以利用视频文件解析工具对待提取水印的视频文件进行操作，以分别抽取视频数据(通常为视频序列)和音频数据(通常为音频码流)。

在步骤430，提取所述视频数据中嵌入的第一水印信息。在步骤S440，提取所述音频数据中嵌入的第二水印信息。应该了解的是，上述视频水印和音频水印的提取步骤，也可以是同时，或是音频水印提取在先。提取后的水印可以利用在前水印添加时的关联性，进行音频和视频水印的相互验证，以提升水印的抗篡改能力。

由上可知，上述关联性可以是时间上的关联，也可以是内容上的关联性。优选地，上述时间和内容上的关联性可以是彼此相同。为了提升鲁棒性，可以对待嵌入的视频文件进行按时间轴分段处理，相同时间点的视频序列和音频数据嵌入相同水印信息，以方便提取时相同时间点的视频水印信息和音频水印信息的相互验证。

为此，本发明的水印提取方法还可以包括根据提取的所述第一水印信息和所述第二水印信息，生成所述视频文件的提取水印。最终提取水印的生成，可以基于预先获取的音视频水印之间的相关性来确定。具体地，在确定第一水印信息和所述第二水印信息包括相同的水印数据的情况下，可以对所述第一水印信息和所述第二水印信息中各自包括的水印数据进行加权求和，生成所述视频文件的提取水印。具体地，可以根据置信度，调整所述第一水印信息和所述第二水印信息中各自包括的水印数据的权值。

如前所述，为了对视频的整个时长都加以保护，添加的第一水印信息可以包括含有第一排序数据和第一水印数据的多组水印数据，并且添加的第二水印信息则可包括含有第二排序数据和第二水印数据的多组水印数据。为此，提取所述视频数据中嵌入的第一水印信息可以包括：基于提取的第一排序数据，确定后续的第一水印数据，并且提取所述视频数据中嵌入的第二水印信息可以包括：基于提取的第二排序数据，确定后续的第二水印数据。换句话说，可以通过对更容易分辨出的排序数据的定位，来进一步定位水印信息的存在。例如，通过找出如图2所示的同步码“000……0001”，来定位其后续紧跟的单周期同步码。

具体在进行水印提取时，可以针对音视频数据的特定部分进行。为此，提取所述视频数据中嵌入的第一水印信息包括：确定所述视频数据中包含所述第一水印信息的视频帧和/或视频区域，并且提取所述音频数据中嵌入的第二水印信息包括：确定所述音频数据中包含所述第二水印信息的音频帧和/或音频区域。上述区域的确定可以是基于水印嵌入时的区域而反推。例如，选取关键视频帧的非显著区域，和/或选择相邻音频帧中的频带听觉不敏感区域。

水印比特的提取，则同样可以基于嵌入算法进行反推。在嵌入水印为“能量水印”时，可以从确定的一系列视频帧和/或视频区域中提取符合预定能量关系的所述第一水印信息的组成比特信息；并将提取的所述组成比特信息组合成所述第一水印信息。另外，对于音频水印，则可以从确定的一系列音频帧和/或音频区域中提取符合预定能量关系的所述第二水印信息的组成比特信息；以及将提取的所述组成比特信息组合成所述第二水印信息。

图5示出了根据本发明的联合水印提取流程的一个例子。图5的水印提取流程可以看作是图3的水印嵌入流程的对应操作。

对于要进行水印提取的视频文件，可以首先利用视频文件解析工具分别抽取视频序列和音频数据。随后，如图所示，流程分为两个并列的分支。

对于视频分支，可以提取视频关键帧，并进行内容分析选取非显著区域。随后，对视频序列基于相邻块的能量关系提取同步码和水印比特，得到水印信息wm1。在此，水印信息wm1可以看作是图2示例中向视频序列添加的单周期水印信息。

对于音频分支，可以对音频进行分帧处理，并选取每帧音频中频带听觉不敏感的区域。随后，对音频基于相邻频带的能量关系提取同步码和水印比特，得到水印信息wm2。在此，水印信息wm1可以看作是图2示例中向音频码流添加的单周期水印信息。

可以利用同步码将音频水印信息和视频水印进行对齐操作，将对齐后两个来源的水印信息进行加权相加，权重a1、a2根据当前时间轴位置能否成功提取水印进行自适应调整，当视频水印攻击相对强时a1变小，当音频水印攻击相对强时a2变小，除了音视频水印同时提取失败外，保持a1+a2＝1，wm＝a1*wm1+a2*wm2，最终得到水印信息wm。

图6示出了本发明水印嵌入和提取操作的简要方案示意图。如方案示意图所示，对待保护的视频文件进行按时间轴分段处理，相同时间点的视频序列和音频数据嵌入相同水印信息。为简化原理描述，图中将水印信息示出为在每个分段开始时刻嵌入的0或1。而在更为实际的操作中，考虑到同样时长的视频序列和音频码流，存在嵌入容量差异，即可能只需要7秒时长视频序列可完成嵌入64比特，而可能需要10秒时长音频码流才完成嵌入64比特，需要考虑嵌入提取时音视频水印设置同步。为此，可以如图2所示，在初始时间相同的持续时间段内，根据水印算法，嵌入更长位数的同步码和水印信息。

在视频文件遭受恶意编辑攻击后，需要证明该视频的版权信息时，可以进行水印提取操作。如图6右侧所示，可以基于相同的时间轴分段提取出在前嵌入的视频水印wm1和音频水印wm2，并通过加权求和wm＝a1*wm1+a2*wm2来获取最终提取的水印信息。

如下将结合一个具体实施例来描述水印嵌入和关联提取方案。A是一个待嵌入水印的视频文件(例如影视作品)。为了保护A的版权，可以为其嵌入联合水印。首先，利用视频文件解析工具对待嵌入水印的视频文件分别抽取视频序列和音频数据。随后，在视频分支，可以提取视频关键帧，并基于密钥及内容分析选取嵌入区域。选取一种视频水印算法对视频序列(即，上一步骤中选取的嵌入区域)嵌入同步码和水印比特，得到含水印信息的视频序列。在音频分支，则可对音频进行分帧处理，并基于密钥选取每帧音频中嵌入区域。选取一种音频水印算法对音频嵌入同步码和水印比特，得到含水印信息的音频。最后，将含有相同水印信息的视频序列与音频数据进行码流混合，得到含双水印的视频文件。

在后续需要验证A的版权时，进行的联合水印的提取过程则可包括与如上嵌入过程相对应的操作。首先，同样可以利用视频文件解析工具对含水印的视频文件分别抽取视频序列和音频数据。随后，在视频分支，可以提取视频关键帧，并基于密钥及内容分析选取提取区域。选取对应视频水印算法对视频序列提取同步码和水印比特w1。在音频分支，则可对音频进行分帧处理，并基于密钥选取每帧音频的提取区域。选取对应音频水印算法对音频提取同步码和水印比特wm2。最后，可以利用同步码将音频水印信息和视频水印进行对齐操作，将对齐后两个来源的水印信息进行加权相加，权重a1、a2根据当前时间轴位置包含音视频水印的置信度进行自适应调整。

另外，在无法同时提取音视频水印的情况下(例如，替换了音频或视频)，也可以根据单独的音频或视频提取水印进行版权验证。

根据本发明图1-3所述实施例生成的添加了音视频联合水印的视频文件可以被直接(或是经过第三方篡改后)发布至视频网站上。视频文件被发布至视频网站上之后，可以以流媒体的方式被网页访问者获取。在此，流媒体是指将一连串的多媒体数据经过互联网分段发送(通常经压缩的数据)，在互联网上即时传输影音以供观赏的一种技术与过程。流媒体数据则可以指经互联网分段发送的多媒体数据。此技术使得数据数据包得以像流水一样发送并被持续观看，而无需在使用前下载整个媒体文件。

在进行水印提取时，可以针对完整的视频文件进行水印提取，也可以对流媒体形式的视频流进行水印提取。为此，本发明还可以实现为一种流媒体水印提取方法，包括：获取嵌入水印的流媒体数据，所述流媒体数据由如上述的嵌入水印的视频文件生成；从所述嵌入水印的流媒体数据中抽取视频数据和音频数据；提取所述视频数据中嵌入的第一水印信息；以及提取所述音频数据中嵌入的第二水印信息。

在一些实施例中，可以累积获取一定时长的流媒体数据(例如，30秒或1分钟)，并对着一定时长内的流媒体数据(可以看作是视频数据片段)进行音视频数据抽取以及第一和第二水印信息的提取。在其他实施例中，也可以对实时获取的流媒体数据进行音视频数据的流式抽取以及第一和第二水印信息的流式提取。本发明对此不做限制。

进一步地，在更为广义的实施例中，水印的嵌入也可以针对流媒体形式的视频文件进行。为此，本发明还可以实现为一种流媒体数据处理方法，包括：获取所述流媒体数据的视频数据和音频数据；向所述视频数据中嵌入第一水印信息；向所述音频数据中关联嵌入第二水印信息；以及获取嵌入水印的流媒体数据。类似地，上述操作可以是针对累积获取的一定时长的流媒体数据(可以看作是视频数据片段)进行，也可以针对实时获取的流媒体数据进行流式嵌入，本发明对此不做限制。

传统视频水印方案在下采样重压缩的鲁棒性非常不理想，因为下采样重压缩导致视频关键帧、分块、局部内容等发生剧烈变化，导致对应位置的视频水印信息无法提取。本方案通过在音频相同时间轴位置嵌入相同水印信息，形成互补，再提取水印阶段进行视频水印与音频水印加权相加，这样成功避免传统视频水印在下采样重压缩后容易失效的缺点。

此外，本发明还可以实现为一种视频文件处理装置，包括：视频解析单元，用于获取所述视频文件中的视频数据和音频数据；视频水印嵌入单元，用于向所述视频数据中嵌入第一水印信息；音频水印嵌入单元，用于向所述音频数据中关联嵌入第二水印信息；以及视频混合单元，用于混合嵌入第一水印信息的所述视频数据和嵌入第二水印信息的所述音频数据，以获取嵌入水印的视频文件。在一个实施例中，视频解析单元可以针对流媒体形式的视频文件进行解析，例如，实时解析。

相应地，本发明还可以实现为一种视频水印提取装置，包括：视频解析单元，用于获取如上所述的嵌入水印的视频文件中的视频数据和音频数据；视频水印提取单元，用于从所述视频数据中提取第一水印信息；以及音频水印提取单元，用于从所述音频数据中提取嵌入第二水印信息。该装置还可以包括：水印信息生成单元，用于对所述第一水印信息和所述第二水印信息中各自包括的水印数据进行加权求和，生成所述视频文件的提取水印。类似地，在一个实施例中，视频解析单元可以针对流媒体形式的视频文件进行解析，例如，实时解析。

参见图7，计算设备700包括存储器710和处理器720。

处理器720可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器720可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中，处理器720可以使用定制的电路实现，例如特定用途集成电路(ASIC，Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA，Field Programmable Gate Arrays)。

存储器710可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器720或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器710可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器710可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器710上存储有可执行代码，当可执行代码被处理器720处理时，可以使处理器720执行上文述及的视频处理以及水印提取方法。

上文中已经参考附图详细描述了根据本发明的视频处理以及水印频提方法和装置。本发明对视频文件同时嵌入音频水印和视频水印，两者互不干扰，相互补充，提取水印时可将音视频水印提取信息进行自适应融合，从而大幅提高视频文件水印的鲁棒性，特别是对抗针对视频内容的恶意编辑攻击。具体地，基于音视频双水印融合的自适应思想，音频水印和视频水印的权重可以根据各自可靠性动态调整，保证融合后水印的可靠性。另外，针对相同内容的音频水印和视频水印存在不同步情况，可以利用分段同步码方式实现双水印同步。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种视频文件处理方法，包括：

获取所述视频文件的视频数据和音频数据；

向所述视频数据中嵌入第一水印信息，并

向所述音频数据中关联嵌入第二水印信息；以及

获取嵌入水印的视频文件，

其中，向所述视频数据中嵌入第一水印信息，并向所述音频数据中关联嵌入第二水印信息包括：

在时间轴对齐的视频序列和音频码流中，以相同的时间间隔重复插入相同的水印信息，每个时间间隔内插入的水印信息包括同步码以及单周期水印信息，

其中，所述同步码用于解码时视频序列和音频码流的对齐以定位所述同步码后续紧跟的所述单周期水印信息，从所述视频序列和从所述音频码流提取的所述单周期水印信息被加权求和以生成所述视频文件的提取水印。

2.如权利要求1所述的方法，其中，向所述音频数据中关联嵌入第二水印信息包括如下至少一项：

向所述音频数据嵌入第二水印信息的时间与向所述视频数据嵌入第一水印信息的时间相关联；以及

向所述音频数据嵌入第二水印信息的内容与向所述视频数据嵌入第一水印信息的内容相关联。

3.如权利要求2所述的方法，其中，向所述音频数据中嵌入关联的第二水印信息包括如下至少一项：

向所述音频数据嵌入第二水印信息的起始时间与向所述视频数据嵌入第一水印信息的起始时间相同；以及

向所述音频数据嵌入第二水印信息的内容与向所述视频数据嵌入第一水印信息的内容相同。

4.如权利要求1所述的方法，其中，向所述视频数据中嵌入第一水印信息包括：

以第一预定时间间隔，向所述视频数据中嵌入多个第一水印信息，并且

向所述音频数据中嵌入关联的第二水印信息包括：

以第二预定时间间隔，向所述音频数据中嵌入多个第二水印信息。

5.如权利要求4所述的方法，其中，所述多个第一水印信息中的每个第一水印信息包括：

第一排序数据和第一水印数据，并且

所述多个第二水印信息中的每个第二水印信息包括：

第二排序数据和第二水印数据。

6.如权利要求1所述的方法，其中，向所述视频数据中嵌入第一水印信息包括：

向所述视频数据中视频帧的非显著区域添加所述第一水印信息。

7.如权利要求1所述的方法，其中，向所述音频数据中嵌入第二水印信息包括：

向所述音频数据中音频帧的听觉不敏感区域添加所述第二水印信息。

8.如权利要求1所述的方法，其中，向所述视频数据中嵌入第一水印信息包括：

通过调整所述视频数据中视频帧变换域相邻区域的能量关系，嵌入所述第一水印信息。

9.如权利要求8所述的方法，其中，通过调整所述视频数据中视频帧变换域相邻区域的能量关系，嵌入所述第一水印信息包括：

选取视频序列中的一系列特定视频帧，所述视频数据是视频序列；

调整所述一系列特定视频帧的变换域相邻区域的能量关系，并逐一嵌入所述第一水印信息的组成比特信息。

10.如权利要求9所述的方法，其中，选取视频序列中的一系列特定视频帧包括：

选取所述视频序列中的视频关键帧。

11.如权利要求1所述的方法，其中，向所述音频数据中嵌入关联的第二水印信息包括：

调整相邻音频帧的能量关系，嵌入所述第二水印信息。

12.如权利要求11所述的方法，其中，调整相邻音频帧的能量关系，嵌入所述第二水印信息包括：

调整一系列相邻音频帧的相邻频带的能量关系，并逐一嵌入所述第二水印信息的组成比特信息。

13.如权利要求1所述的方法，其中，向所述视频数据中嵌入第一水印信息包括：

基于第一密码选取所述视频数据的视频帧中用于添加所述第一水印信息的第一添加区域，和/或

向所述音频数据中嵌入关联的第二水印信息包括：

基于第二密码选取所述音频数据的音频帧中用于添加所述第二水印信息的第二添加区域。

14.一种视频水印提取方法，包括：

获取如权利要求1-13中任一项所述的嵌入水印的视频文件；

从所述嵌入水印的视频文件中抽取视频数据和音频数据；

提取所述视频数据中嵌入的第一水印信息；以及

提取所述音频数据中嵌入的第二水印信息。

15.如权利要求14所述的方法，还包括：

根据提取的所述第一水印信息和所述第二水印信息，生成所述视频文件的提取水印。

16.如权利要求15所述的方法，其中，根据提取的所述第一水印信息和所述第二水印信息，生成所述视频文件的提取水印包括：

确定第一水印信息和所述第二水印信息包括相同的水印数据；以及

对所述第一水印信息和所述第二水印信息中各自包括的水印数据进行加权求和，生成所述视频文件的提取水印。

17.如权利要求16所述的方法，其中，根据提取的所述第一水印信息和所述第二水印信息，生成所述视频文件的提取水印还包括：

根据置信度，调整所述第一水印信息和所述第二水印信息中各自包括的水印数据的权值。

18.如权利要求16所述的方法，其中，所述第一水印信息包括含有第一排序数据和第一水印数据的多组水印数据，所述第二水印信息包括含有第二排序数据和第二水印数据的多组水印数据，

其中，提取所述视频数据中嵌入的第一水印信息包括：

基于提取的第一排序数据，确定后续的第一水印数据，并且

提取所述视频数据中嵌入的第二水印信息包括：

基于提取的第二排序数据，确定后续的第二水印数据。

19.如权利要求14所述的方法，其中，提取所述视频数据中嵌入的第一水印信息包括：

确定所述视频数据中包含所述第一水印信息的视频帧和/或视频区域，并且

提取所述音频数据中嵌入的第二水印信息包括：

确定所述音频数据中包含所述第二水印信息的音频帧和/或音频区域。

20.如权利要求19所述的方法，其中，提取所述视频数据中嵌入的第一水印信息还包括：

从确定的一系列视频帧和/或视频区域中提取符合预定能量关系的所述第一水印信息的组成比特信息；

将提取的所述组成比特信息组合成所述第一水印信息，以及

提取所述音频数据中嵌入的第二水印信息还包括：

从确定的一系列音频帧和/或音频区域中提取符合预定能量关系的所述第二水印信息的组成比特信息；以及

将提取的所述组成比特信息组合成所述第二水印信息。

21.如权利要求20所述的方法，其中，所述视频帧和/或视频区域基于如下至少一项确定：

所述视频帧和/或视频区域的内容；

所述视频帧和/或视频区域的选取密码，

并且，所述音频帧和/或音频区域基于如下至少一项确定：

所述音频帧和/或音频区域的频谱内容；

所述音频帧和/或音频区域的选取密码。

22.一种流媒体水印提取方法，包括：

获取嵌入水印的流媒体数据，所述流媒体数据由如权利要求1-13任一项所述的嵌入水印的视频文件生成；

从所述嵌入水印的流媒体数据中抽取视频数据和音频数据；

提取所述视频数据中嵌入的第一水印信息；以及

提取所述音频数据中嵌入的第二水印信息。

23.一种流媒体数据处理方法，包括：

获取所述流媒体数据的视频数据和音频数据；

向所述视频数据中嵌入第一水印信息，并且向所述音频数据中关联嵌入第二水印信息；以及

获取嵌入水印的流媒体数据，

其中，所述同步码用于解码时视频序列和音频码流的对齐以定位所述同步码后续紧跟的所述单周期水印信息，从所述视频序列和从所述音频码流提取的所述单周期水印信息被加权求和以生成视频文件的提取水印。

24.一种视频文件处理装置，包括：

视频解析单元，用于获取所述视频文件中的视频数据和音频数据；

视频水印嵌入单元，用于向所述视频数据中嵌入第一水印信息；

音频水印嵌入单元，用于向所述音频数据中关联嵌入第二水印信息；以及

视频混合单元，用于混合嵌入第一水印信息的所述视频数据和嵌入第二水印信息的所述音频数据，以获取嵌入水印的视频文件，

其中，在时间轴对齐的视频序列和音频码流中，以相同的时间间隔重复插入相同的水印信息，每个时间间隔内插入的水印信息包括同步码以及单周期水印信息，

25.一种视频水印提取装置，包括：

视频解析单元，用于获取如权利要求1-13中任一项所述的嵌入水印的视频文件中的视频数据和音频数据；

视频水印提取单元，用于从所述视频数据中提取第一水印信息；以及

音频水印提取单元，用于从所述音频数据中提取嵌入第二水印信息。

26.如权利要求25所述的装置，还包括：

水印信息生成单元，用于对所述第一水印信息和所述第二水印信息中各自包括的水印数据进行加权求和，生成所述视频文件的提取水印。

27.一种计算设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1-23中任一项所述的方法。

28.一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1-23中任一项所述的方法。