CN112200001A

CN112200001A - 一种指定场景下深度伪造视频识别方法

Info

Publication number: CN112200001A
Application number: CN202010955588.1A
Authority: CN
Inventors: 杨理想; 王云甘; 张侨; 王银瑞; 暴利花
Original assignee: Nanjing Xingyao Intelligent Technology Co ltd
Current assignee: Nanjing Xingyao Intelligent Technology Co ltd
Priority date: 2020-09-11
Filing date: 2020-09-11
Publication date: 2021-01-08

Abstract

本发明提供了一种指定场景下深度伪造视频识别方法，具体的步骤：为对场景深度伪造视频中的目标与非目标利掩膜区域卷积神经网络方法进行检测分割并进行识别；基于视觉特征提取的算法对装备目标和背景分别进行视觉特征提取；采用基于场景中目标尺度的不一致性对伪造视频进行识别；采用高斯混合模型–通用背景模型对不同装备进行声音识别，通过音频信息的匹配情况判断视频真伪。本发明中这一识别方法是解决特定业务场景下伪造视频的高准确率识别，以及对不同业务场景的迁移。

Description

一种指定场景下深度伪造视频识别方法

技术领域

本发明属于人工智能、视频伪造技术领域，特别涉及一种指定场景下深度伪造视频识别方法。

背景技术

人脸识别，是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流，并自动在图像中检测和跟踪人脸，进而对检测到的人脸进行识别的一系列相关技术，通常也叫做人像识别、面部识别。

通常在进行识别过程中，当对视频中目标与非目标进行分割处理时，仍存在这样的问题，一方面，目前目标分割的许多方法都是基于segment proposals，例如Fast R-CNN、DeepMask等，其中DeepMask是通过学习提出分割候选，然后使用Fast R-CNN分类。在这些方法中，分割先于识别，如此既慢又不太准确。

另一方面，人脸真伪识别技术对于特定场景深度伪造视频在进行识别与针对人脸伪造识别具有不同的特点，特定场景中的目标可能具有更大的尺寸，在图像纹理等特征上面就与人脸不同，不同装备的尺寸变化不一，并且装备的声音差异明显，容易造成现在的使得人脸识别与目标识别之间的迁移效果不好。

发明内容

为了解决上述如何在特定业务场景下伪造视频的高准确率识别，以及对不同业务场景的迁移上述的技术难题，本发明提供了一种指定场景下深度伪造视频识别方法，技术方案具体步骤为：

步骤1对场景深度伪造视频中的目标与非目标利用Mask R-CNN方法进行检测分割并进行识别；

步骤2基于视觉特征提取的算法对装备目标和背景分别进行视觉特征提取；

步骤3采用基于场景中目标尺度的不一致性对伪造视频进行识别；

步骤4采用高斯混合模型–通用背景模型对不同装备进行声音识别，通过音频信息的匹配情况判断视频真伪。

作为改进，步骤1中，是基于卷积神经网络对目标物体的特征进行学习，得到特征表达，采用Mask R-CNN方法对场景中的目标进行检测分割并进行识别的，依次进行采用ResNet-FPN(残差网络-特征金字塔网络)的架构特征提取、加一个Mask(掩码)预测分支进行分割预测，其中预测时设置为掩码和类标签的预测方式。

作为改进，采用掩膜区域卷积神经网络方法具体步骤为：

(1)通过区域推荐网络区域推荐网络生成候选区域；

(2)目标区域对齐使用双线性插值来获得每个块对应的特征；

(3)利用目标区域对齐之后的头部分，扩大目标区域对齐的输出维度；

(4)按照每一个类都输出一张输出预测图，进行输出K个掩码预测图，并采用平均二元交叉熵损失训练，K为正整数；

(5)对于目标框的坐标和目标类别，使用和快速区域卷积神经网络相同的损失函数进行训练，其中掩码区域卷积神经网络的训练损失函数：

L_final＝L_cls+L_box+L_mask

其中，L_cls为分类损失函数，L_box为回归损失函数，L_mask为分割损失函数。

(6)通过最后的三个分支的输出，在掩码区域卷积神经网络预测目标的类别、目标的边界框和目标的掩码；

(7)根据目标类别，将目标与背景物体区分开来。

作为改进，步骤2中采用视觉特征提取算法进行装备目标和背景的视觉特征提取，其中采用深度可分离卷积代替原始算法里的卷积操作，并且设置残差学习的结构来加快收敛速度。

作为改进，步骤2中，提取视觉特征后，接着对抽取出来的特征进行双线性变换后，使用二分类方法判断装备和图像背景之间纹理是否一致，进行伪造视频识别。

作为改进，步骤2中，还包括将人脸检测场景应用到场景中，模型先通过运动放大来增强目标微动作，然后提取方向光流直方图和动态纹理特征来捕获目标帧间差异，基于目标帧间不一致性来判断视频是否伪造。

作为改进，步骤3中基于通过掩码区域卷积神经网络方法获取到目标的类别和边框，对不同目标之间的比例进行对比，具体为：

(1)构建多组指定场景中目标和非指定场景中目标的尺寸数据库；

(2)采用Canny算法进行边缘检测和基于霍夫曼变换的直线识别，基于识别出的直线延长线的交互点，找出透视焦点，依据透视原理，将物体的尺寸进行矫正；

(3)针对指定场景伪造视频中的目标需要通过这些标准数据进行校验比较。

作为改进，步骤4中，对不同装备进行声音识别的具体步骤为：

(1)在训练阶段，首先对发动机声音进行预处理之后，提取出发动机声音的梅尔频率倒谱系数特征；

(2)然后用部分声音训练统一背景模型，构建通用背景模型模型；

(3)再通过最大后验准则训练来得到在通用背景模型的每个高斯分量上进行自适应得到高斯混合模型-通用背景模型，其中采用自适应方法是映射自适应算法；

(4)在识别阶段，把待测试语音的特征，与训练好的高斯混合模型-通用背景模型结构模型匹配，最终的输出评分为高斯混合模型和通用背景模型的输出评分之差。

有益效果：本发明提供的指定场景下深度伪造视频识别方法，通过对场景深度伪造视频中的目标与非目标利用Mask R-CNN方法进行检测分割并进行识别；XceptionNet对装备目标和背景分别进行视觉特征提取；采用基于场景中目标尺度的不一致性对伪造视频进行识别；采用高斯混合模型–通用背景模型对不同装备进行声音识别，通过音频信息的匹配情况判断视频真伪，是解决特定业务场景下伪造视频的高准确率识别，以及对不同业务场景的迁移。

附图说明

图1为本发明的GMM-UBM结构模型图。

具体实施方式

下面对本发明附图结合实施例作出进一步说明。

一种指定场景下深度伪造视频识别方法，具体的步骤为

步骤1对场景深度伪造视频中的目标与非目标利用掩膜区域卷积神经网络方法Mask R-CNN方法进行检测分割并进行识别；

步骤2基于视觉特征提取的算法XceptionNet对装备目标和背景分别进行视觉特征提取；

步骤4采用高斯混合模型–通用背景模型，即Gaussian mixture model-universalbackground model，GMM-UBM模型，对不同装备进行声音识别，通过音频信息的匹配情况判断视频真伪。

作为本发明的具体实施方式，步骤1中，是针对指定场景中目标检测分割与识别技术，是基于卷积神经网络对目标物体的特征进行学习，得到特征表达，采用掩膜区域卷积神经网络方法Mask R-CNN方法对场景中的目标进行检测分割并进行识别的，依次进行采用ResNet-FPN(残差网络-特征金字塔网络)的架构特征提取、加一个Mask(掩码)预测分支进行分割预测，其中预测时设置为掩码和类标签的预测方式。

采用Mask R-CNN方法具体步骤为：

(1)通过区域推荐网络(RPN)(区域推荐网络)生成候选区域；

(2)ROI Align(目标区域对齐)使用双线性插值来获得每个块对应的特征；

(3)利用ROI Align之后的head部分，扩大ROI Align的输出维度；

(4)按照每一个类都输出一张输出预测图，进行输出K个Mask预测图，并采用average binary cross-entropy loss(平均二元交叉熵损失)训练，K为正整数；

(5)对于目标框的坐标和目标类别，使用和Faster-RCNN相同的损失函数进行训练，其中Mask R-CNN的训练损失函数：

L_final＝L_cls+L_box+L_mask

(6)通过最后的三个分支的输出，在Mask R-CNN预测目标的类别、目标的边界框和目标的掩码；

(7)根据目标类别，将目标与背景物体区分开来。

步骤2中，采用XceptionNet进行装备目标和背景的视觉特征提取，其中采用深度可分离卷积代替原始Inception v3(一种GoogleNet)里的卷积操作，并且设置Residuallearning(残差学习)的结构来加快收敛速度。

步骤2中，提取视觉特征后，接着对抽取出来的特征进行双线性变换后，使用二分类方法判断装备和图像背景之间纹理是否一致，进行伪造视频识别。

还包括将人脸检测场景应用到场景中，模型先通过运动放大来增强目标微动作，然后提取方向光流直方图HOOF和动态纹理LBP-TOP特征来捕获目标帧间差异，基于目标帧间不一致性来判断视频是否伪造。

步骤3中基于通过Mask R-CNN方法获取到目标的类别和边框，对不同目标之间的比例进行对比，具体为：

步骤4中，对不同装备进行声音识别的具体步骤为：

(1)在训练阶段，首先对发动机声音进行预处理之后，提取出发动机声音的MFCC(梅尔频率倒谱系数)特征；

(2)然后用部分声音训练统一背景模型，构建UBM模型；

(3)再通过最大后验准则训练来得到在通用背景模型的每个高斯分量上进行自适应得到GMM-BUM模型，其中采用自适应方法是MAP自适应算法；

(4)在识别阶段，把待测试语音的特征，与训练好的GMM-UBM结构模型匹配，最终的输出评分为GMM和UBM的输出评分之差。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种指定场景下深度伪造视频识别方法，其特征在于：具体的步骤为

步骤1对场景深度伪造视频中的目标与非目标利用掩膜区域卷积神经网络方法进行检测分割并进行识别；

2.根据权利要求1所述指定场景下深度伪造视频识别方法，其特征在于：步骤1中，是基于卷积神经网络对目标物体的特征进行学习，得到特征表达，采用掩膜区域卷积神经网络方法对场景中的目标进行检测分割并进行识别的，依次进行采用残差网络-特征金字塔网络的架构特征提取、加一个掩膜预测分支进行分割预测，其中预测时设置为掩码和类标签的预测方式。

3.根据权利要求2所述指定场景下深度伪造视频识别方法，其特征在于：采用掩膜区域卷积神经网络方法具体步骤为：

(1)通过区域推荐网络区域推荐网络生成候选区域；

(2)目标区域对齐使用双线性插值来获得每个块对应的特征；

L_final＝L_cls+L_box+L_mask

(7)根据目标类别，将目标与背景物体区分开来。

4.根据权利要求1所述指定场景下深度伪造视频识别方法，其特征在于：步骤2中采用视觉特征提取算法进行装备目标和背景的视觉特征提取，其中采用深度可分离卷积代替原始算法里的卷积操作，并且设置残差学习的结构来加快收敛速度。

5.根据权利要求4所述指定场景下深度伪造视频识别方法，其特征在于：步骤2中，提取视觉特征后，接着对抽取出来的特征进行双线性变换后，使用二分类方法判断装备和图像背景之间纹理是否一致，进行伪造视频识别。

6.根据权利要求5所述指定场景下深度伪造视频识别方法，其特征在于：步骤2中，还包括将人脸检测场景应用到场景中，模型先通过运动放大来增强目标微动作，然后提取方向光流直方图和动态纹理特征来捕获目标帧间差异，基于目标帧间不一致性来判断视频是否伪造。

7.根据权利要求1所述指定场景下深度伪造视频识别方法，其特征在于：步骤3中基于通过掩码区域卷积神经网络方法获取到目标的类别和边框，对不同目标之间的比例进行对比，具体为：

8.根据权利要求1所述指定场景下深度伪造视频识别方法，其特征在于：步骤4中，对不同装备进行声音识别的具体步骤为：