CN109657098B

CN109657098B - 一种视频指纹提取方法及装置

Info

Publication number: CN109657098B
Application number: CN201811600084.7A
Authority: CN
Inventors: 宋鹏举; 包英明; 王奇飞
Original assignee: Beijing Topsec Technology Co Ltd; Beijing Topsec Network Security Technology Co Ltd; Beijing Topsec Software Co Ltd
Current assignee: Beijing Topsec Technology Co Ltd; Beijing Topsec Network Security Technology Co Ltd; Beijing Topsec Software Co Ltd
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2023-11-10
Anticipated expiration: 2038-12-26
Also published as: CN109657098A

Abstract

本发明公开了一种视频指纹提取方法及装置，其中，该方法包括：获取原始视频数据；至少基于所述原始视频数据构建第一视频指纹和不同于所述第一视频指纹的第二视频指纹；至少基于所述第一视频指纹和所述第二视频指纹生成复合视频指纹。本发明实施例的视频指纹提取方法所提取的复合视频指纹，基于采用不同构建方法构建的多个视频指纹而生成，能够从不同维度表征原始视频数据的数据特征，即使对原始视频数据进行简单的伪装或变换仍能够对其进行有效识别，鲁棒性较好。

Description

一种视频指纹提取方法及装置

技术领域

本发明涉及数字视频技术领域，特别涉及一种视频指纹提取方法及装置。

背景技术

数据的价值只有在充分使用过程中才能够得以充分体现，但数据使用过程中又不得不面临数据安全问题，随着企业数据保护意识的提高，数据安全越来越受到企业的关注，如何能够在有效保护数据安全的前提下充分使用数据，成为企业的迫切需要。

移动互联网的发展，视频设备(包括摄像头、手机、无人机等)得到了长足的发展和应用，视频资料呈现爆发式增长。同时，视频相比于其他媒体包含了更丰富的内容，既有空间内容，又具有时间信息。伴随着视频资料提供丰富内容的同时，又不得不面对新的问题：视频资料如何保护，既要达到视频数据的方便使用，又要确保视频数据的安全性。为解决上述技术问题，现有技术中通常采用构建视频指纹的方式对视频数据进行保护，但现有的视频指纹存在鲁棒性较差的问题，对视频数据进行简单的伪装、变换，通过视频指纹即无法有效识别。

发明内容

本发明提供了一种视频指纹提取方法及装置，利用该方法提取的视频指纹鲁棒性较好。

为了解决上述技术问题，本发明的实施例采用了如下技术方案：

一种视频指纹的提取方法，其包括：

获取原始视频数据；

至少基于所述原始视频数据构建第一视频指纹和不同于所述第一视频指纹的第二视频指纹；

至少基于所述第一视频指纹和所述第二视频指纹生成复合视频指纹。

在一些实施例中，至少基于所述原始视频数据构建第一视频指纹和不同于所述第一视频指纹的第二视频指纹；至少基于所述第一视频指纹和所述第二视频指纹生成复合视频指纹，包括：

至少基于所述原始视频数据构建所述第一视频指纹、不同于所述第一视频指纹的第二视频指纹及不同于所述第一视频指纹和所述第二视频指纹的第三视频指纹；

至少基于所述第一视频指纹、所述第二视频指纹及所述第三视频指纹生成所述复合视频指纹。

在一些实施例中，所述基于所述原始视频数据构建第一视频指纹，包括：

提取所述原始视频数据的第一特征数据；

对所述第一特征数据进行密码散列函数计算以获得所述第一视频指纹。

在一些实施例中，所述基于所述原始视频数据构建第二视频指纹，包括：

对所述原始视频数据进行切片处理，以形成由多个视频片段组成的视频片段序列；

对所述视频片段进行小波变换处理以获取所述视频片段的模糊指纹；

组合所述视频片段序列的多个所述模糊指纹以形成所述第二视频指纹。

在一些实施例中，所述基于所述原始视频数据构建第三视频指纹，包括：

对所述原始视频数据进行特征提取以获得至少一个第二特征数据；

对所述第二特征数据进行语义描述处理以获得语义描述数据；

基于所述语义描述数据生成所述第三视频指纹。

一种视频指纹的提取装置，其包括：

获取模块，用于获取原始视频数据；

构建模块，用于至少基于所述原始视频数据构建第一视频指纹和不同于所述第一视频指纹的第二视频指纹；

生成模块，用于至少基于所述第一视频指纹和所述第二视频指纹生成复合视频指纹。

在一些实施例中，所述构建模块进一步用于，至少基于所述原始视频数据构建所述第一视频指纹、不同于所述第一视频指纹的第二视频指纹及不同于所述第一视频指纹和所述第二视频指纹的第三视频指纹；

所述生成模块进一步用于，至少基于所述第一视频指纹、所述第二视频指纹及所述第三视频指纹生成所述复合视频指纹。

在一些实施例中，所述构建模块进一步用于：

提取所述原始视频数据的第一特征数据；

在一些实施例中，所述构建模块进一步用于：

基于所述语义描述数据生成所述第三视频指纹。

本发明实施例的有益效果在于：

本发明实施例的视频指纹提取方法所提取的复合视频指纹，基于采用不同构建方法构建的多个视频指纹而生成，能够从不同维度表征原始视频数据的数据特征，即使对原始视频数据进行简单的伪装或变换仍能够对其进行有效识别，鲁棒性较好。

附图说明

图1为本发明实施例的视频指纹的提取方法的第一种实施例的流程图；

图2为本发明实施例的视频指纹的提取方法的第二种实施例的流程图；

图3为本发明实施例的视频指纹的提取装置的第一种实施例的结构框图；

图4为本发明实施例的视频指纹的提取装置的第二种实施例的结构框图；

附图标记说明：

10-获取模块；20-构建模块；21-第一子构建模块；22-第二子构建模块；23-第三子构建模块；30-生成模块。

具体实施方式

此处参考附图描述本发明的各种方案以及特征。

应理解的是，可以对此处发明的实施例做出各种修改。因此，上述说明书不应该视为限制，而仅是作为实施例的范例。本领域的技术人员将想到在本发明的范围和精神内的其他修改。

包含在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且与上面给出的对本发明的大致描述以及下面给出的对实施例的详细描述一起用于解释本发明的原理。

通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述，本发明的这些和其它特性将会变得显而易见。

还应当理解，尽管已经参照一些具体实例对本发明进行了描述，但本领域技术人员能够确定地实现本发明的很多其它等效形式，它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。

当结合附图时，鉴于以下详细说明，本发明的上述和其他方面、特征和优势将变得更为显而易见。

此后参照附图描述本发明的具体实施例；然而，应当理解，所发明的实施例仅仅是本发明的实例，其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本发明模糊不清。因此，本文所发明的具体的结构性和功能性细节并非意在限定，而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本发明。

本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”，其均可指代根据本发明的相同或不同实施例中的一个或多个。

图1为本发明实施例的视频指纹的提取方法的第一种实施例的流程图，参见图1所示，本发明实施例的视频指纹的提取方法具体包括如下步骤：

S1，获取原始视频数据。

其中，原始视频数据是指需要保护的视频数据，例如享有著作权的视频数据。该原始视频数据可以是各种动态影像的存储格式，如：MPEG、MPG、DAT、AVI、RA、RM、RAM、WMV、RMVB、FLV、MP4及其他格式。

S2，基于原始视频数据至少构建第一视频指纹和不同于第一视频指纹的第二视频指纹。

其中，第一视频指纹可以是通过数码散列函数计算获得视频指纹，也可使基于小波变化处理获得的模糊指纹，也可以是语义描述数据生成语义指纹。该第二视频指纹也可以是通过数码散列函数计算获得视频指纹，也可使基于小波变化处理获得的模糊指纹，也可以是语义描述数据生成语义指纹。但第二视频指纹不同于第一视频指纹，即第二视频指纹是采用不同第一视频指纹的构建方法构建的视频指纹，这样，第一视频指纹和第二视频指纹能够体现出原始视频数据不同维度的数据特征，从不同维度来表征原始视频数据。

S3，至少基于第一视频指纹和第二视频指纹生成复合视频指纹。

该复合视频指纹的可以是由第一视频指纹和第二视频指纹的组合而成，也可以是基于第一视频指纹和第二视频指纹经进一步进行的数据处理而生成。

本发明实施例的视频指纹提取方法所提取复合视频指纹，至少基于采用不同构建方法构建的第一视频指纹和第二视频指纹而生成，能够从不同维度表征原始视频数据的数据特征，即使对原始视频数据进行简单的伪装或变换仍能够对其进行有效识别，鲁棒性较好。

图2为本发明实施例的视频指纹的提取方法的第二种实施例的流程图，参见图2所示，本发明实施例的视频指纹的提取方法具体包括如下步骤：

S1，获取原始视频数据。

S2，基于原始视频数据至少构建第一视频指纹、不同于第一视频指纹的第二视频指纹及不同于第一视频指纹和第二视频指纹的第三视频指纹。

其中，第一视频指纹可以是通过数码散列函数计算获得视频指纹，也可使基于小波变化处理获得的模糊指纹，也可以是语义描述数据生成语义指纹。该第二视频指纹也可以是通过数码散列函数计算获得视频指纹，也可使基于小波变化处理获得的模糊指纹，也可以是语义描述数据生成语义指纹。该第三视频指纹也可以是通过数码散列函数计算获得视频指纹，也可使基于小波变化处理获得的模糊指纹，也可以是语义描述数据生成语义指纹。但第二视频指纹需不同于第一视频指纹，即第二视频指纹是采用不同第一视频指纹的构建方法构建的视频指纹，第三视频指纹需不同于第一视频指纹和第二视频指纹，即第三视频指纹是采用不同于第一视频指纹和第二视频指纹的构建方法构建的视频指纹，这样，第一视频指纹、第二视频指纹及第三视频指纹能够体现出原始视频数据不同维度的数据特征，从不同的维度来表征原始视频数据。需要说明的是，基于原始视频数据不仅限于构建第一视频指纹、第二视频指纹及第三视频指纹，也可基于原始视频数据构建更多的视频指纹，以从多个维度来表征原始视频数据。

S3，至少基于第一视频指纹、第二视频指纹及第三视频指纹生成复合视频指纹。

该复合视频指纹的可以是由第一视频指纹、第二视频指纹及第三视频指纹的组合而成，也可以是基于第一视频指纹、第二视频指纹及第三视频指纹经进一步进行的数据处理而生成。需要说明的是，该复合指纹不仅限于基于第一视频指纹、第二视频指纹及第三视频指纹而生成，也可基于更多的视频指纹而生成，以使该复合指纹能够表征原始视频数据更多维度的数据特征。

本发明实施例的视频指纹提取方法所提取复合视频指纹，至少基于采用不同构建方法构建的第一视频指纹、第二视频指纹及第三视频指纹而生成，能够从不同维度表征原始视频数据的数据特征，即使对原始视频数据进行简单的伪装或变换仍能够对其进行有效识别，鲁棒性较好。

在一些实施例中，所述基于原始视频数据构建第一视频指纹，包括：

提取原始视频数据的第一特征数据。其中，该第一特征数据可为原始视频数据的关键帧、关键视频片段或Y通道信息等数据。以关键帧为例，可以依据视频帧内容的差异来提取原始视频数据中的多个关键帧，也可基于时间分布来提取原始视频数据中的多个关键帧。当该第一特征数据为关键视频片段时，首先可对原始视频数据进行切割，例如基于视频帧内容的差异来完成视频数据的切片以形成多个视频片段，然后再从多个视频片段中选取多个关键视频片段形成第一特征数据。该第一特征数据还可为Y通道信息，在YUV颜色空间中，Y通道信息决定了颜色的明亮度，可首先从原始视频数据中提取其YUV颜色空间信息，然后在从YUV颜色空间信息中获取其Y通道信息。也可获取该原始视频数据的其他颜色空间信息，然后将其他颜色空间信息转化成YUV颜色空间信息。提取到Y通道信息后还可将提取的Y通道信息分为三个逐渐细化的层次信息，该三个逐渐细化的层次信息分别为视频片段信息、帧图片信息及运动对象级信息。

对第一特征数据进行密码散列函数计算以获得第一视频指纹。该密码散列函数可为SM3函数、SHA256函数或MD5函数等散列函数。当该第一特征数据为多个关键帧时，可通过密码散列函数分别对多个关键帧进行计算，以分别获取到多个关键帧哈希码，然后将多个关键帧哈希码进行集合化处理以形成关键帧哈希码集合，并将该关键帧哈希码集合作为第一视频指纹。当该第一特征数据为多个关键视频片段时，可通过密码散列函数分别对多个关键视频片段进行计算，以分别获取多个关键视频片段哈希码，然后将多个关键视频片段哈希码进行集合化处理以形成关键视频片段哈希码集合，并将该关键视频片段哈希码集合作为第一视频指纹。当该第一特征数据为Y通道信息时，可通过密码散列函数分别对视频片段信息、帧图片信息及运动对象级信息进行计算，以分别获取到视频片段信息哈希码、帧图片信息哈希码及运动对象级信息哈希码，然后将视频片段信息哈希码、帧图片信息哈希码及运动对象级信息哈希码进行集合化处理以形成Y通道信息哈希码集合，并将该Y通道信息哈希码集合作为第一视频指纹。需要说明的是，也可通过密码散列函数对原始视频数据进行散列函数计算，并将获取的相应的哈希码作为第一视频指纹。这样，该第一视频指纹能够表征完整的原始视频数据的数据特征，通过该第一视频指纹能够有效识别到完整的原始视频数据。

在一些实施例中，所述基于原始视频数据构建第二视频指纹，包括：

对原始视频数据进行切片处理，以形成由多个视频片段组成的视频片段序列。该切片处理可依据原始视频数据中，视频帧内容的差异，完成视频数据切片，以形成多个视频帧内容差异较大的视频片段。例如，当视频中的一段视频片段处于同一场景时，帧之间的差异通常较小，当视频中出现镜头变化时，则镜头变化前后的两帧内容就会差异较大，此时，可在两帧内容差异较大处将视频切断，从而形成多个视频片段，然后将多个视频片段组合成视频片段序列。该切片处理也可依据时间序列将将原始视频数据切割成多个视频片段，并将多个视频片段组合成视频片段序列。该时间序列可以是等时间序列，也可以是利用特定函数计算得出的非等时间序列。当然，也可采用其他切片处理方法对原始视频进行切片处理。

对视频片段进行小波变换处理以获取视频片段的模糊指纹。例如，可对视频片段进行离线小波变换，在变换后的空间上，依据维度的重要程度，将低权重的维度剔除后，保留高权重的维度的数据集合，作为视频片断的模糊指纹。

组合视频片段序列的多个模糊指纹以形成第二视频指纹。即将上述的多个视频片段的模糊指纹组合成模糊指纹集合就形成了第二视频指纹。这样，第二视频指纹能够满足原始视频数据切分后的视频片段的标识。

在一些实施例中，所述基于原始视频数据构建第三视频指纹，包括：

对原始视频数据进行特征提取以获得至少一个第二特征数据。其中，该第二特征数据可为原始视频数据的关键帧或关键视频片段等数据。以关键帧为例，可以依据视频帧内容的差异来提取原始视频数据中的多个关键帧，也可基于时间分布来提取原始视频数据中的多个关键帧。该第二特征数据也可为关键视频片段数据，首先可对原始视频数据进行切割，例如基于视频帧内容的差异来完成视频数据的切片以形成多个视频片段，然后再从多个视频片段中选取多个关键视频片段形成第二特征数据。

对第二特征数据进行语义描述处理以获得语义描述数据。该语义描述处理可基于卷积神经网络(CNN)、局域卷积神经网络(RCNN)及长短记忆网络(LSTM)等模型进行。例如当第二特征数据为多个关键帧时，可提取关键帧的特征向量，并将特征向量输入到卷积神经网络模型中，该卷积神经网络模型能够输出对该关键帧的语义描述数据，该语义描述数据可包括对该关键帧内容的描述。当该第二特征数据为多个视频片段时，可提取视频片段的特征向量，并将特征向量输入到局域卷积神经网络模型中，该局域卷积神经网络模型能够输入对该视频片段内容的语义描述数据。

基于语义描述数据生成第三视频指纹。该第三视频指纹可为上述多个关键帧的语义描述数据的集合。该第三指纹也可为上述多个视频片段的语义描述数据的集合。该第三指纹还也可为基于上述语义描述数据进行进一步数据处理后获取的视频指纹。这样，第三视频指纹可标识具有相似视频内容的视频数据。

图3为本发明实施例的视频指纹的提取装置的第一种实施例的结构框图，参见图3所示，本发明实施例的视频指纹的提取装置，包括：

获取模块10，用于获取原始视频数据。

构建模块20，用于基于原始视频数据至少构建第一视频指纹和不同于第一视频指纹的第二视频指纹。

该构建模块20至少包括第一子构建模块21和不同于第一子构建模块21的第二子构建模块22，其中第一子构建模块21用于基于原始视频数据构件第一视频指纹，第一视频指纹可以是通过数码散列函数计算获得视频指纹，也可使基于小波变化处理获得的模糊指纹，也可以是语义描述数据生成语义指纹。该第二子构建模块22用于基于原始视频数据构建第二视频指纹。该第二视频指纹也可以是通过数码散列函数计算获得视频指纹，也可使基于小波变化处理获得的模糊指纹，也可以是语义描述数据生成语义指纹。但第二视频指纹不同于第一视频指纹，即第二视频指纹是采用不同第一视频指纹的构建方法构建的视频指纹，这样，第一视频指纹和第二视频指纹能够体现出原始视频数据不同维度的数据特征，从不同维度来表征原始视频数据。

生成模块30，用于至少基于第一视频指纹和第二视频指纹生成复合视频指纹。

本发明实施例的视频指纹提取装置所提取复合视频指纹，至少基于采用不同构建模块构建的第一视频指纹和第二视频指纹而生成，能够从不同维度表征原始视频数据的数据特征，即使对原始视频数据进行简单的伪装或变换仍能够对其进行有效识别，鲁棒性较好。

图4为本发明实施例的视频指纹的提取装置的第二种实施例的结构框图，参见图4所示，本发明实施例的视频指纹的提取装置具体包括如下步骤：

获取模块10，用于获取原始视频数据。

构建模块20，用于基于原始视频数据至少构建第一视频指纹、不同于第一视频指纹的第二视频指纹及不同于第一视频指纹和第二视频指纹的第三视频指纹。

该构建模块20至少包括第一子构建模块21、不同于第一子构建模块21的第二子构建模块22以及不同于第一子构建模块21和第二子构建模块22的第三子构建模块23，其中第一子构建模块21用于基于原始视频数据构件第一视频指纹，第一视频指纹可以是通过数码散列函数计算获得视频指纹，也可使基于小波变化处理获得的模糊指纹，也可以是语义描述数据生成语义指纹。第二子构建模块22用于构建第二视频指纹，该第二视频指纹也可以是通过数码散列函数计算获得视频指纹，也可使基于小波变化处理获得的模糊指纹，也可以是语义描述数据生成语义指纹。第三子构建模块23用于构建第三视频指纹，该第三视频指纹也可以是通过数码散列函数计算获得视频指纹，也可使基于小波变化处理获得的模糊指纹，也可以是语义描述数据生成语义指纹。但第二视频指纹需不同于第一视频指纹，即第二视频指纹是采用不同第一视频指纹的构建方法构建的视频指纹，第三视频指纹需不同于第一视频指纹和第二视频指纹，即第三视频指纹是采用不同于第一视频指纹和第二视频指纹的构建方法构建的视频指纹，这样，第一视频指纹、第二视频指纹及第三视频指纹能够体现出原始视频数据不同维度的数据特征，从不同的维度来表征原始视频数据。需要说明的是，基于原始视频数据不仅限于构建第一视频指纹、第二视频指纹及第三视频指纹，也可基于原始视频数据构建更多的视频指纹，以从多个维度来表征原始视频数据。

生成模块30，用于至少基于第一视频指纹、第二视频指纹及第三视频指纹生成复合视频指纹。

本发明实施例的视频指纹的提取装置所提取复合视频指纹，至少基于采用不同构建模块构建的第一视频指纹、第二视频指纹及第三视频指纹而生成，能够从不同维度表征原始视频数据的数据特征，即使对原始视频数据进行简单的伪装或变换仍能够对其进行有效识别，鲁棒性较好。

在一些实施例中，所述第一子构建模块21用于：提取原始视频数据的第一特征数据；对第一特征数据进行密码散列函数计算以获得第一视频指纹。其中，该第一特征数据可为原始视频数据的关键帧、关键视频片段或Y通道信息等数据。以关键帧为例，可以依据视频帧内容的差异来提取原始视频数据中的多个关键帧，也可基于时间分布来提取原始视频数据中的多个关键帧。当该第一特征数据为关键视频片段时，首先可对原始视频数据进行切割，例如基于视频帧内容的差异来完成视频数据的切片以形成多个视频片段，然后再从多个视频片段中选取多个关键视频片段形成第一特征数据。该第一特征数据还可为Y通道信息，在YUV颜色空间中，Y通道信息决定了颜色的明亮度，可首先从原始视频数据中提取其YUV颜色空间信息，然后在从YUV颜色空间信息中获取其Y通道信息。也可获取该原始视频数据的其他颜色空间信息，然后将其他颜色空间信息转化成YUV颜色空间信息。提取到Y通道信息后还可将提取的Y通道信息分为三个逐渐细化的层次信息，该三个逐渐细化的层次信息分别为视频片段信息、帧图片信息及运动对象级信息。

该密码散列函数可为SM3函数、SHA256函数或MD5函数等散列函数。当该第一特征数据为多个关键帧时，可通过密码散列函数分别对多个关键帧进行计算，以分别获取到多个关键帧哈希码，然后将多个关键帧哈希码进行集合化处理以形成关键帧哈希码集合，并将该关键帧哈希码集合作为第一视频指纹。当该第一特征数据为多个关键视频片段时，可通过密码散列函数分别对多个关键视频片段进行计算，以分别获取多个关键视频片段哈希码，然后将多个关键视频片段哈希码进行集合化处理以形成关键视频片段哈希码集合，并将该关键视频片段哈希码集合作为第一视频指纹。当该第一特征数据为Y通道信息时，可通过密码散列函数分别对视频片段信息、帧图片信息及运动对象级信息进行计算，以分别获取到视频片段信息哈希码、帧图片信息哈希码及运动对象级信息哈希码，然后将视频片段信息哈希码、帧图片信息哈希码及运动对象级信息哈希码进行集合化处理以形成Y通道信息哈希码集合，并将该Y通道信息哈希码集合作为第一视频指纹。需要说明的是，也可通过密码散列函数对原始视频数据进行散列函数计算，并将获取的相应的哈希码作为第一视频指纹。这样，该第一视频指纹能够表征完整的原始视频数据的数据特征，通过该第一视频指纹能够有效识别到完整的原始视频数据。

在一些实施例中，该第二子构建模块22用于：对原始视频数据进行切片处理，以形成由多个视频片段组成的视频片段序列。对视频片段进行小波变换处理以获取视频片段的模糊指纹。组合视频片段序列的多个模糊指纹以形成第二视频指纹。该切片处理可依据原始视频数据中，视频帧内容的差异，完成视频数据切片，以形成多个视频帧内容差异较大的视频片段。例如，当视频中的一段视频片段处于同一场景时，帧之间的差异通常较小，当视频中出现镜头变化时，则镜头变化前后的两帧内容就会差异较大，此时，可在两帧内容差异较大处将视频切断，从而形成多个视频片段，然后将多个视频片段组合成视频片段序列。该切片处理也可依据时间序列将将原始视频数据切割成多个视频片段，并将多个视频片段组合成视频片段序列。该时间序列可以是等时间序列，也可以是利用特定函数计算得出的非等时间序列。当然，也可采用其他切片处理方法对原始视频进行切片处理。可对视频片段进行离线小波变换，在变换后的空间上，依据维度的重要程度，将低权重的维度剔除后，保留高权重的维度的数据集合，作为视频片断的模糊指纹。然后将上述的多个视频片段的模糊指纹组合成模糊指纹集合就形成了第二视频指纹。这样，第二视频指纹能够满足原始视频数据切分后的视频片段的标识。

在一些实施例中，该第三子构建模块23用于：对原始视频数据进行特征提取以获得至少一个第二特征数据；对第二特征数据进行语义描述处理以获得语义描述数据；基于语义描述数据生成第三视频指纹。

其中，该第二特征数据可为原始视频数据的关键帧或关键视频片段等数据。以关键帧为例，可以依据视频帧内容的差异来提取原始视频数据中的多个关键帧，也可基于时间分布来提取原始视频数据中的多个关键帧。该第二特征数据也可为关键视频片段数据，首先可对原始视频数据进行切割，例如基于视频帧内容的差异来完成视频数据的切片以形成多个视频片段，然后再从多个视频片段中选取多个关键视频片段形成第二特征数据。

该语义描述处理可基于卷积神经网络(CNN)、局域卷积神经网络(RCNN)及长短记忆网络(LSTM)等模型进行。例如当第二特征数据为多个关键帧时，可提取关键帧的特征向量，并将特征向量输入到卷积神经网络模型中，该卷积神经网络模型能够输出对该关键帧的语义描述数据，该语义描述数据可包括对该关键帧内容的描述。当该第二特征数据为多个视频片段时，可提取视频片段的特征向量，并将特征向量输入到局域卷积神经网络模型中，该局域卷积神经网络模型能够输入对该视频片段内容的语义描述数据。

该第三视频指纹可为上述多个关键帧的语义描述数据的集合。该第三指纹也可为上述多个视频片段的语义描述数据的集合。该第三指纹还也可为基于上述语义描述数据进行进一步数据处理后获取的视频指纹。这样，第三视频指纹可标识具有相似视频内容的视频数据。

本发明实施例的视频指纹的提取装置所提取的复合视频指纹，基于采用不同构建模块构建的多个视频指纹而生成，能够从不同维度表征原始视频数据的数据特征，即使对原始视频数据进行简单的伪装或变换仍能够对其进行有效识别，鲁棒性较好。

以上实施例仅为本发明的示例性实施例，不用于限制本发明，本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。

Claims

1.一种视频指纹的提取方法，其特征在于，包括：

获取原始视频数据；

至少基于所述原始视频数据构建第一视频指纹、不同于所述第一视频指纹的第二视频指纹及不同于所述第一视频指纹和所述第二视频指纹的第三视频指纹；

至少基于所述第一视频指纹、所述第二视频指纹及所述第三视频指纹生成复合视频指纹；

其中，所述基于所述原始视频数据构建第一视频指纹，包括：

提取所述原始视频数据的第一特征数据；其中，所述第一特征数据包括所述原始视频数据的多个关键帧、多个关键视频片段或多个Y通道信息；

对所述第一特征数据的多个关键帧、多个关键视频片段或多个Y通道信息，进行密码散列函数计算以获得多个哈希码，将多个哈希码组合形成所述第一视频指纹；

其中，所述基于所述原始视频数据构建第二视频指纹，包括：

基于视频帧内容的差异或时序序列，对所述原始视频数据进行切片处理，以形成由多个视频片段组成的视频片段序列；

对所述视频片段进行小波变换处理，在变换后的空间上，依据维度的重要程度，剔除部分维度，通过所保留维度的数据集合形成所述视频片段的模糊指纹；其中，所剔除维度的重要程度低于所保留维度的重要程度；

组合所述视频片段序列的多个所述模糊指纹以形成所述第二视频指纹；

其中，所述基于所述原始视频数据构建第三视频指纹，包括：

对所述原始视频数据进行特征提取以获得至少一个第二特征数据；其中，所述第二特征数据包括原始视频数据的关键帧或关键视频片段；

对所述第二特征数据的关键帧或关键视频片段进行特征提取，获取该关键帧或该关键视频片段的特征向量，将所述特征向量输入模型，通过该模型基于所述特征向量进行语义描述处理，以获得该关键帧或该关键视频片段的语义描述数据；

基于所述语义描述数据的集合，生成所述第三视频指纹。

2.一种视频指纹的提取装置，其特征在于，包括：

获取模块，用于获取原始视频数据；

构建模块，用于至少基于所述原始视频数据构建第一视频指纹、不同于所述第一视频指纹的第二视频指纹及不同于所述第一视频指纹和所述第二视频指纹的第三视频指纹；

生成模块，用于至少基于所述第一视频指纹、所述第二视频指纹和所述第三视频指纹生成复合视频指纹；

其中，所述构建模块进一步用于：

基于所述语义描述数据的集合，生成所述第三视频指纹。