CN117058567A - 视频鉴伪方法、相关装置及存储介质 - Google Patents

视频鉴伪方法、相关装置及存储介质 Download PDF

Info

Publication number
CN117058567A
CN117058567A CN202310777488.8A CN202310777488A CN117058567A CN 117058567 A CN117058567 A CN 117058567A CN 202310777488 A CN202310777488 A CN 202310777488A CN 117058567 A CN117058567 A CN 117058567A
Authority
CN
China
Prior art keywords
video
face
user
features
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310777488.8A
Other languages
English (en)
Inventor
请求不公布姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Real AI Technology Co Ltd
Original Assignee
Beijing Real AI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Real AI Technology Co Ltd filed Critical Beijing Real AI Technology Co Ltd
Priority to CN202310777488.8A priority Critical patent/CN117058567A/zh
Publication of CN117058567A publication Critical patent/CN117058567A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/40Spoof detection, e.g. liveness detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本申请实施例涉及视频鉴伪技术领域,公开了一种视频鉴伪方法、相关装置及存储介质。该视频鉴伪方法包括:获取待鉴伪的用户视频,按照多种预设方式分别对用户视频多张视频帧中的人脸特征进行解耦,得到多张视频帧中的用户独有特征;对多张视频帧中的用户独有特征分别进行时序编码,以生成整段用户视频的身份与人脸行为特征;对身份与人脸行为特征进行融合处理,生成用户视频的视频融合特征;根据预设的人脸先验知识和视频融合特征进行视频鉴伪,得到视频鉴伪结果。本申请实施例针对人脸伪造类型数据检测能力强,人脸鉴伪检测准确率高,鉴伪类型更加丰富,因此,本申请实施例可以发挥出理想的人脸鉴伪效果,能够很好地限制人脸伪造等行为。

Description

视频鉴伪方法、相关装置及存储介质
技术领域
本申请涉及视频鉴伪技术领域,更具体地涉及一种视频鉴伪方法、相关装置及存储介质。
背景技术
深度伪造技术已经取得了很大的进步,能够将一张人脸替换成另一张图像中的其他人,生成令人难以置信的逼真的假图像。深度伪造的恶意使用和传播引起了严重的社会关注,而且使得我们对网络媒体越来越缺乏信任。
目前针对某种具体的人脸伪造类型数据检测能力较弱,人脸鉴伪检测准确率低。
发明内容
本申请实施例提供一种视频鉴伪方法、相关装置及存储介质,针对人脸伪造类型数据检测能力强,人脸鉴伪检测准确率高,本申请实施例得到的人脸鉴伪结果,可以发挥出理想的人脸鉴伪效果,能够很好地限制人脸伪造等行为。
第一方面,本申请实施例提供一种视频鉴伪方法,包括:
获取待鉴伪的用户视频,所述用户视频为包括单一用户的人脸视频;
按照多种预设方式分别对所述用户视频多张视频帧中的人脸特征进行解耦,得到多张视频帧中的用户独有特征,所述用户独有特征包括人脸身份特征、人脸表情特征、人脸纹理特征、人脸姿态特征和人脸五官位置特征;
对多张视频帧中的用户独有特征分别进行时序编码,以生成整段所述用户视频的身份与人脸行为特征;
对所述身份与人脸行为特征进行融合处理,生成所述用户视频的视频融合特征;
根据预设的人脸先验知识和所述视频融合特征进行视频鉴伪,得到视频鉴伪结果。
在一个实施方式中,所述获取待鉴伪的用户视频,包括:
获取预设网络平台的原始网络视频;
获取所述原始网络视频的关联用户信息;
根据所述关联用户信息,确定所述原始网络视频是否包括预设特定用户的人脸图像;
若所述原始网络视频包括预设特定用户的人脸图像,根据所述原始网络视频,确定待鉴伪的用户视频。
在一个实施方式中,所述原始网络视频的关联用户信息为所述原始网络视频的关联视频关键词;
所述根据所述关联用户信息,确定所述原始网络视频是否包括预设特定用户的人脸图像,包括:
若所述关联视频关键词与所述预设特定用户的名称关键词匹配,则确定原始网络视频包括预设特定用户的人脸图像。
在一个实施方式中,所述原始网络视频的关联用户信息为所述原始网络视频中的人脸图像;
所述获取所述原始网络视频的关联用户信息,包括:
对所述原始网络视频中的视频帧进行人脸识别,得到所述原始网络视频中的人脸图像;
所述根据所述关联用户信息,确定所述原始网络视频是否包括预设特定用户的人脸图像,包括:
确定所述原始网络视频中的人脸图像与所述预设特定用户的人脸图像是否匹配;
若所述原始网络视频中的人脸图像,存在与所述预设特定用户的人脸图像匹配的人脸图像,则确定所述原始网络视频包括预设特定用户的人脸图像。
第二方面,本申请实施例提供一种视频鉴伪装置,具有实现对应于上述第一方面提供的视频鉴伪方法的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。
在一个实施方式中,所述视频鉴伪装置包括:
输入输出模块,用于获取待鉴伪的用户视频,所述用户视频为包括单一用户的人脸视频;
处理模块,用于按照多种预设方式分别对所述用户视频多张视频帧中的人脸特征进行解耦,得到多张视频帧中的用户独有特征,所述用户独有特征包括人脸身份特征、人脸表情特征、人脸纹理特征、人脸姿态特征和人脸五官位置特征;对多张视频帧中的用户独有特征分别进行时序编码,以生成整段所述用户视频的身份与人脸行为特征;对所述身份与人脸行为特征进行融合处理,生成所述用户视频的视频融合特征;根据预设的人脸先验知识和所述视频融合特征进行视频鉴伪,得到视频鉴伪结果。
在一个实施方式中,所述人脸先验知识包括预设特定用户的人脸特征、人脸表情特征的第一变化趋势信息和人脸姿态特征的第二变化趋势信息;
所述处理模块具体用于:
确定所述预设特定用户的人脸特征和所述视频融合特征是否匹配;
确定所述视频融合特征中的人脸表情特征,是否匹配所述第一变化趋势信息;
确定所述视频融合特征中的人脸姿态特征,是否匹配所述第二变化趋势信息;
若所述预设特定用户的人脸特征和所述视频融合特征不匹配,且所述视频融合特征中的人脸表情特征与所述第一变化趋势信息不匹配,且所述视频融合特征中的人脸姿态特征与所述第二变化趋势信息不匹配,则确定所述视频鉴伪结果为伪造视频。
在一个实施方式中,所述处理模块还用于:
当所述视频鉴伪结果为真实视频时,提取所述用户视频中存在用户图像的真实视频帧;
将所述真实视频帧输入深度合成模型,得到所述预设特定用户在至少一种预设特定场景下的至少一种合成视频。
在一个实施方式中,所述视频鉴伪装置应用于已训练的视频鉴伪模型;
所述视频鉴伪模型包括特征解耦模块和特征处理模块,所述特征处理模块包括时序模块、融合模块和鉴伪模块;
所述特征解耦模块用于按照多种预设方式分别对所述用户视频多张视频帧中的人脸特征进行解耦,得到多张视频帧中预设特定用户的用户独有特征,所述用户独有特征包括人脸身份特征、人脸表情特征、人脸纹理特征、人脸姿态特征和人脸五官位置特征;
所述时序模块用于对多张视频帧中的用户独有特征分别进行时序编码,以生成整段所述用户视频的身份与人脸行为特征;
所述融合模块用于对所述时序模块得到的所述身份与人脸行为特征进行融合处理,生成所述用户视频的视频融合特征;
所述鉴伪模块用于根据预设的人脸先验知识和所述视频融合特征进行视频鉴伪,得到视频鉴伪结果。
在一个实施方式中,所述处理模块具体还用于:
获取采集的至少一个样本视频和预设特定用户的标签,所述样本视频为所述预设特定用户的人脸视频;
根据所述至少一个样本视频和所述预设特定用户的标签对预设的人脸鉴伪初始模模型进行训练,得到所述视频鉴伪模型。
在一个实施方式中,所述输入输出模块具体用于:
获取预设网络平台的原始网络视频;
获取所述原始网络视频的关联用户信息;
根据所述关联用户信息,确定所述原始网络视频是否包括预设特定用户的人脸图像;
若所述原始网络视频包括预设特定用户的人脸图像,根据所述原始网络视频,确定待鉴伪的用户视频。
在一个实施方式中,所述原始网络视频的关联用户信息为所述原始网络视频的关联视频关键词;
所述输入输出模块具体用于:
若所述关联视频关键词与所述预设特定用户的名称关键词匹配,则确定原始网络视频包括预设特定用户的人脸图像。
在一个实施方式中,所述原始网络视频的关联用户信息为所述原始网络视频中的人脸图像;
所述输入输出模块具体用于:
对所述原始网络视频中的视频帧进行人脸识别,得到所述原始网络视频中的人脸图像;
所述根据所述关联用户信息,确定所述原始网络视频是否包括预设特定用户的人脸图像,包括:
确定所述原始网络视频中的人脸图像与所述预设特定用户的人脸图像是否匹配;
若所述原始网络视频中的人脸图像,存在与所述预设特定用户的人脸图像匹配的人脸图像,则确定所述原始网络视频包括预设特定用户的人脸图像。
第三方面,本申请实施例提供一种计算设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现第一方面所述的视频鉴伪方法。
第四方面,本申请实施例提供一种计算机可读存储介质,其包括指令,当其在计算机上运行时,使得计算机执行如第一方面所述的视频鉴伪方法。
第五方面,本申请实施例提供一种芯片,该芯片中包括与终端设备的收发器耦合的处理器,用于执行本申请实施例第一方面提供的技术方案。
第六方面,本申请实施例提供一种芯片系统,该芯片系统包括:
通信接口,用于输入和/或输出信息;
处理器,用于执行计算机可执行程序,使得安装有所述芯片系统的设备执行如第一方面中任一项所述的视频鉴伪方法。
在一种可能的设计中,上述芯片系统还包括存储器,该存储器用于保存终端必需的程序指令和数据。该芯片系统可以由芯片构成,也可以包含芯片和其他分立器件。
第七方面,本申请实施例提供一种包含指令的计算机程序产品,所述计算机程序产品包括程序指令,当所述程序指令在计算机或处理器上运行时,使得所述计算机或所述处理器执行如第一方面中任意一项所述的视频鉴伪方法。
相较于现有技术,本申请实施例中对于待鉴伪的用户视频,是按照多种预设方式分别对用户视频多张视频帧中的人脸特征进行解耦,得到多张视频帧中的用户独有特征,然后对多张视频帧中的用户独有特征分别进行时序编码及融合处理后进行鉴伪,由于每个视频帧用户独有特征是按照多种预设方式解耦出来的,用户独有特征包括人脸身份特征、人脸表情特征、人脸纹理特征、人脸姿态特征和人脸五官位置特征等多维人脸特征,因此单一人脸伪造类型的视频无法伪造出这多维人脸特征,从而可以针对不同人脸伪造类型的视频进行鉴伪,而不是现有技术中仅针对单一类型的人脸伪造类型进行鉴伪,因此,采用本申请实施例针对人脸伪造类型视频进行人脸鉴伪的准确率更高,鉴伪类型更加丰富,可以发挥出理想的人脸鉴伪效果,能够很好地限制人脸伪造等行为。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的视频鉴伪系统的场景示意图;
图2是本申请实施例中提供的视频鉴伪方法的一个实施例流程示意图;
图3是本申请实施例中预设特定用户的鉴伪框架示意图;
图4是本申请实施例中提供的根据预设的人脸先验知识和视频融合特征进行视频鉴伪,得到视频鉴伪结果一个实施例流程示意图;
图5是本申请实施例中提供的视频鉴伪模型的一个架构示意图;
图6为本申请实施例的视频鉴伪装置的结构示意图;
图7为本申请实施例的计算设备的一种结构示意图;
图8为本申请实施例中手机的一种结构示意图;
图9为本申请实施例中服务器的一种结构示意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在以下的说明中,本申请的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明,除非另有说明。因此,这些步骤及操作将有数次提到由计算机执行,本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处,其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置,其具有由该数据格式所定义的特定特性。但是,本申请原理以上述文字来说明,其并不代表为一种限制,本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
本文所使用的术语“模块”或“单元”可看做为在该运算系统上执行的软件对象。本文所述的不同组件、模块、引擎及服务可看做为在该运算系统上的实施对象。而本文所述的装置及方法优选的以软件的方式进行实施,当然也可在硬件上进行实施,均在本申请保护范围之内。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本申请实施例提供一种视频鉴伪方法、相关装置及存储介质。
请参阅图1,图1为本申请实施例所提供的视频鉴伪系统的场景示意图,该视频鉴伪系统可以包括计算设备100,计算设备100通过网络连接,计算设备100中集成有视频鉴伪装置。本申请实施例中,计算设备100可以是终端设备或者服务器。计算设备100可以与采集待鉴权视频的用户终端200网络连接。
本申请实施例中,在计算设备100为服务器的情况下,该服务器可以是独立的服务器,也可以是服务器组成的服务器网络或服务器集群,例如,本申请实施例中所描述的服务器,其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云服务器。其中,云服务器由基于云计算(Cloud Computing)的大量计算机或网络服务器构成。本申请的实施例中,服务器与客户端之间可通过任何通信方式实现通信,包括但不限于,基于第三代合作伙伴计划(3rd Generation Partnership Project,3GPP)、长期演进(Long Term Evolution,LTE)、全球互通微波访问(Worldwide Interoperability forMicrowave Access,WiMAX)的移动通信,或基于TCP/IP协议族(TCP/IP Protocol Suite,TCP/IP)、用户数据报协议(User Datagram Protocol,UDP)协议的计算机网络通信等。
可以理解的是,当本申请实施例中所使用的计算设备100为终端设备时,终端设备可以是既包括接收硬件和发射硬件的设备,即具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种终端设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备。具体的计算设备100具体可以是台式终端或移动终端,计算设备100具体可以手机、平板电脑、笔记本电脑等中的一种。
本申请实施例涉及的终端设备,还可以是指向用户提供语音和/或数据连通性的设备,具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。例如移动电话(或称为“蜂窝”电话)和具有移动终端的计算机,例如,可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置,它们与无线接入网交换语音和/或数据。例如,个人通信业务(英文全称:Personal Communication Service,英文简称:PCS)电话、无绳电话、会话发起协议(SIP)话机、无线本地环路(Wireless Local Loop,英文简称:WLL)站、个人数字助理(英文全称:Personal Digital Assistant,英文简称:PDA)等设备。
本领域技术人员可以理解,图1中示出的应用环境,仅仅是与本申请方案一种应用场景,并不构成对本申请方案应用场景的限定,其他的应用环境还可以包括比图1中所示更多或更少的计算设备,或者计算设备网络连接关系,例如图1中仅示出1个计算设备,可以理解的,该视频鉴伪系统还可以包括一个或多个其他计算设备,或/且一个或多个与计算设备100网络连接的其他计算设备,具体此处不作限定。
另外,如图1所示,该视频鉴伪系统还可以包括存储器300,用于存储数据,如存储人脸数据,待鉴伪的视频数据,已鉴伪的视频数据等。
需要说明的是,图1所示的视频鉴伪系统的场景示意图仅仅是一个示例,本申请实施例描述的视频鉴伪系统以及场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着视频鉴伪系统的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本申请实施例提供的方案涉及人工智能(Artificial Intelligence,AI)、计算机视觉技术(Computer Vision,CV)、机器学习(Machine Learning,ML)等技术,具体通过如下实施例进行说明:
其中,AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
AI技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
CV是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括对抗扰动生成、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
现有技术中,视频中人脸的伪造类型主要包括人脸替换与表情驱动。人脸替换是指一个人的视频被替换成另外一个人,比如一个普通人的视频被替换成某些重要人物的视频。表情驱动是指驱动目标人物做出相应的面部表情或头部动作等。应对这种日益增长的威胁,现有技术从不同角度进行鉴伪检测,比如基于人脸先验信息的,利用人脸中的生理信号如眨眼频率心跳频率等进行鉴伪;基于数字图像信号的,利用数字信号特征如频域的统计信号、频域滤波后的信号或噪声信号等进行鉴伪;基于表观信息的,通过检测伪造过程中带来的伪影如光照不一致、人脸轮廓不一致或视频时序特征不一致等进行鉴伪。基于高层语义的身份信息,利用五官特征与背景特征是否一致作为鉴伪特征。
上述方法并未对不同伪造类型生成的伪造数据进行细粒度划分进而分析其差异性,而是将其混为一谈,通过优化模型提取不同伪造类型数据的共性特征,造成针对某种具体的伪造类型数据检测能力较弱。但不同伪造类型如换脸或表情操纵,具有自己独特的伪造特征,若将其视作一类伪造数据,会造成伪造类别中的数据特征类内差异性较大,模型不易学到同一类别中数据的表征,使得与真实类别特征难以有效区分。
一个相关技术中,提供一种鉴伪技术方案,认为许多伪造方法只修改五官区域而保持背景不变,为此伪造图像或视频中的人脸内部五官特征的身份信息与人脸外部轮廓的身份信息是不一致的。该技术通过设计一个基于Transformer的模型,能够同时提取内外脸的身份信息,通过衡量两者的相似性进行鉴伪。该技术方案只是针对人脸替换的伪造类型具有一定的鉴别能力,而针对表情操纵的伪造类型,人脸的内外身份特征是相同的,该技术方案不能很好的解决该伪造类型的鉴伪。
另一个相关技术中,认为特定人会有某种特征的面部表情或头部姿态,该方案对具体人物说话时面部表情和头部运动模式进行建模(20种面部运动单元的相关性),通过判断视频中人物所表现的说话模式是否与所建立的模型一致来判断是否是伪造视频。该技术方案针对特定人的面部表情与头部运动变化具有一定的鉴别能力,而针对人脸替换的伪造类型是保留了目标人脸的表情与姿态,会导致该方案对这种伪造类型缺乏一定的鉴伪能力。
本申请实施例中通过对图像或视频特征进行解耦,分别提取针对不同伪造类型的人脸特征进行提取,将其结果进行融合鉴伪,以解决现有技术中针对某种具体的伪造类型数据检测能力较弱的问题。
下面结合具体实施例进行详细说明。
在本实施例中,将从视频鉴伪装置的角度进行描述,该视频鉴伪装置具体可以集成在计算设备100中。
本申请提供一种视频鉴伪方法,该视频鉴伪方法包括:获取组织在工作平台的注册信息;获取待鉴伪的用户视频,用户视频为包括单一用户的人脸视频;按照多种预设方式分别对用户视频多张视频帧中的人脸特征进行解耦,得到多张视频帧中的用户独有特征,用户独有特征包括人脸身份特征、人脸表情特征、人脸纹理特征、人脸姿态特征和人脸五官位置特征;对多张视频帧中的用户独有特征分别进行时序编码,以生成整段用户视频的身份与人脸行为特征;对身份与人脸行为特征进行融合处理,生成用户视频的视频融合特征;根据预设的人脸先验知识和视频融合特征进行视频鉴伪,得到视频鉴伪结果。
请参阅图2,为本申请实施例中本申请实施例中视频鉴伪方法的一个实施例流程示意图,该视频鉴伪方法包括如下步骤201~205:
201、获取待鉴伪的用户视频。
其中,待鉴伪的用户视频为包括单一用户的人脸视频,例如仅包括用户A的人脸视频。
在本申请实施例中获取待鉴伪的用户视频的方式有多种,可以通过在获得预设网络平台的原始网络视频后,可以获取原始网络视频的关联用户信息,来从中筛选出待鉴伪的用户视频。
具体的,获取待鉴伪的用户视频,包括:获取预设网络平台的原始网络视频;获取原始网络视频的关联用户信息;根据原始网络视频的关联用户信息,确定所始网络视频是否包括预设特定用户的人脸图像;若原始网络视频包括预设特定用户的人脸图像,根据原始网络视频,确定待鉴伪的用户视频。
其中,预设网络平台可以是互联网平台,也可以是通信运营商的平台,例如,A视频网络平台,B运营商服务平台等。
关联用户信息可以为原始网络视频的关联视频关键词,或者原始网络视频中的人脸图像。此时,即可以根据关联用户信息进行人脸识别或者关键词识别等方式,来筛选出预设特定用户的人脸视频。
下面分别举例说明获取待鉴伪的用户视频的方式,具体如下:
(1)原始网络视频的关联用户信息为原始网络视频的关联视频关键词
此时,根据关联用户信息,确定原始网络视频是否包括预设特定用户的人脸图像,包括:若关联视频关键词与预设特定用户的名称关键词匹配,则确定原始网络视频包括预设特定用户的人脸图像。
其中,关联视频关键词可以是原始网络视频的视频标题,视频标签等。例如,某用户在在预设网络平台上传原始网络视频1,同时会设置视频标题或视频标签,如,如视频标题为奥A的搞笑视频,视频标签“奥A”、“搞笑”等,这些即为关联视频关键词,若预设特定用户的名称关键词为奥A,则关联视频关键词与预设特定用户的名称关键词(奥A)匹配,则确定原始网络视频包括奥A的人脸图像。
本实施例中,通过关键词匹配筛选需要鉴伪的视频,由于关键词是文本,运算速度极快,因此可以快速的筛选出需要鉴伪的视频,提高鉴伪效率。
(2)原始网络视频的关联用户信息为原始网络视频中的人脸图像
此时,获取所述原始网络视频的关联用户信息,包括:对原始网络视频中的视频帧进行人脸识别,得到原始网络视频中的人脸图像;
具体的,根据关联用户信息,确定原始网络视频是否包括预设特定用户的人脸图像,包括:确定原始网络视频中的人脸图像与预设特定用户的人脸图像是否匹配;若原始网络视频中的人脸图像,存在与预设特定用户的人脸图像匹配的人脸图像,则确定原始网络视频包括预设特定用户的人脸图像。
例如,某用户在在预设网络平台上传原始网络视频1,原始网络视频1为包含人脸图像的视频,对原始网络视频1中的视频帧进行人脸识别,得到原始网络视频1中的人脸图像1,假设预设特定用户的名称关键词为奥A,若人脸图像1中包括与奥A的人脸图像匹配的人脸图像,则确定原始网络视频包括奥A的人脸图像。
本实施例中,通过人脸识别原始网络视频,可以提高原始网络视频的鉴伪准确度。
需要说明的是,上面举例的是分别通过关键词和人脸识别来确定原始网络视频是否包括预设特定用户的人脸图像,可以理解的是,在实际应用场景中,还可以通过结合上述两种方式来确定原始网络视频是否包括预设特定用户的人脸图像,具体的,如下实施方式(3)。
(3)原始网络视频的关联用户信息包括原始网络视频的关联视频关键词和原始网络视频中的人脸图像。
此时,获取原始网络视频的关联用户信息,包括:对原始网络视频中的视频帧进行人脸识别,得到原始网络视频中的人脸图像;
根据关联用户信息,确定原始网络视频是否包括预设特定用户的人脸图像,包括:确定原始网络视频中的人脸图像与预设特定用户的人脸图像是否匹配;若原始网络视频中的人脸图像,存在与预设特定用户的人脸图像匹配的人脸图像,且关联视频关键词与预设特定用户的名称关键词匹配,则确定原始网络视频包括预设特定用户的人脸图像。
由于在用户上传视频时,可能包括一个或多个用户的人脸图像,因此,为了确保待鉴伪的视频仅包括单一用户的人脸图像,当原始网络视频包括多个用户的人脸图像时,就需要对原始网络视频进行处理,以得到仅包括单一用户的人脸图像。
具体的,在通过上述方式确定原始网络视频包括预设特定用户的人脸图像后,根据原始网络视频,确定待鉴伪的用户视频。
本申请实施例中,根据原始网络视频,确定待鉴伪的用户视频可以包括:获取预设特定用户的人脸图像,根据预设特定用户的人脸图像,对原始网络视频进行分割,以提取出包含预设特定用户的视频帧;根据包含预设特定用户的视频帧合成待鉴伪的用户视频。
202、按照多种预设方式分别对用户视频多张视频帧中的人脸特征进行解耦,得到多张视频帧中用户的用户独有特征。
其中,用户独有特征包括人脸身份特征、人脸表情特征、人脸纹理特征、人脸姿态特征和人脸五官位置特征。人脸身份特征用于表征当前用户人脸身份,人脸表情特征用于表征当前用户人脸表情,人脸纹理特征
203、对多张视频帧中的用户独有特征分别进行时序编码,以生成整段所述用户视频的身份与人脸行为特征。
由于多张视频帧在用户视频中是存在时序的,因此从每张视频帧中解耦出的用户独有特征,可以按照时序进行编码,生成整段用户视频的身份与人脸行为特征。
204、对身份与人脸行为特征进行融合处理,生成用户视频的视频融合特征。
205、根据预设的人脸先验知识和视频融合特征进行视频鉴伪,得到视频鉴伪结果。
本申请实施例中的技术方案可以应用于预设特定用户的鉴伪场景,如图3所示为所示的预设特定用户的鉴伪框架。其中,用户视频的多张视频帧具有从t=0到t=T开始的时序通过多种预设方式分别对用户视频多张视频帧中的人脸特征进行解耦,得到用户独有特征,用户独有特征包括人脸身份特征、人脸表情特征、人脸纹理特征、人脸姿态特征和人脸五官位置特征,再按照时序进行编码,生成整段用户视频的身份与人脸行为特征按照时序进行编码,生成整段用户视频的身份与人脸行为特征,并按照时序进行编码,生成整段用户视频的身份与人脸行为特征,通过时序编码后这样整段用户视频的身份与人脸行为特征中,就包括了多张视频帧对应的用户独有特征的时序关系,然后对身份与人脸行为特征进行融合处理,生成用户视频的视频融合特征后,进行鉴伪,得到视频鉴伪结果。
相较于现有技术,本申请实施例中对于待鉴伪的用户视频,是按照多种预设方式分别对用户视频多张视频帧中的人脸特征进行解耦,得到多张视频帧中的用户独有特征,然后对多张视频帧中的用户独有特征分别进行时序编码及融合处理后进行鉴伪,由于每个视频帧用户独有特征是按照多种预设方式解耦出来的,用户独有特征包括人脸身份特征、人脸表情特征、人脸纹理特征、人脸姿态特征和人脸五官位置特征等多维人脸特征,因此单一人脸伪造类型的视频无法伪造出这多维人脸特征,从而可以针对不同人脸伪造类型的视频进行鉴伪,而不是现有技术中仅针对单一类型的人脸伪造类型进行鉴伪,因此,采用本申请实施例针对人脸伪造类型视频进行人脸鉴伪的准确率更高,鉴伪类型更加丰富,可以发挥出理想的人脸鉴伪效果,能够很好地限制人脸伪造等行为。
在本申请一个实施例中,人脸先验知识可以包括预设特定用户的人脸特征、人脸表情特征的第一变化趋势信息和人脸姿态特征的第二变化趋势信息。
此时,如图4所示,举例说明结合人脸先验知识的方式和视频融合特征进行视频鉴伪的方式,具体的,根据预设的人脸先验知识和视频融合特征进行视频鉴伪,得到视频鉴伪结果,可以进一步包括如下步骤401~404:
401、确定预设特定用户的人脸特征和视频融合特征是否匹配。
其中,预设特定用户为预设的需要鉴伪的用户,例如“奥A”。由于视频融合特征中融合了人脸身份特征,确定预设特定用户的人脸特征和视频融合特征是否匹配包括:判断预设特定用户的人脸特征与视频融合特征中的人脸身份特征是否匹配,若是,则确定预设特定用户的人脸特征和视频融合特征匹配,若否,则预设特定用户的人脸特征和视频融合特征不匹配。
例如,预设特定用户为“奥A”,若视频融合特征中的人脸身份特征与“奥A”的人脸特征匹配,确定预设特定用户的人脸特征和视频融合特征是否匹配。
402、确定视频融合特征中的人脸表情特征,是否匹配第一变化趋势信息。
本申请实施例中,第一变化趋势信息用于表征预设特定用户在预设多帧视频帧中的人脸表情变化趋势。具体的,确定视频融合特征中的人脸表情特征,是否匹配第一变化趋势信息可以包括:确定视频融合特征中各视频帧对应的人脸表情特征,是否匹配预设特定用户在预设多帧视频帧中的表情变化趋势,若是,则确定视频融合特征中的人脸表情特征,是否匹配第一变化趋势信息,通过人脸表情特征的比对,可以鉴别出一部分人脸表情异常的伪造视频。
例如,预设特定用户为“奥A”,用户视频中包括视频帧1,视频帧2,视频帧3,第一变化趋势信息中,“奥A”嘴巴在笑时是慢慢张开的,第一变化趋势信息中“奥A”嘴巴也是逐渐张大,而若“奥A”在视频帧1,视频帧2,视频帧3中嘴巴的状态一直维持不变,没有一个嘴巴变化趋势,则视频融合特征中的人脸表情特征与第一变化趋势信息不匹配。
需要说明的是,上面仅以人脸中的嘴巴举例,可以理解的是,人脸表情不限于人脸中一个固定器官,在实际应用场景中,可以结合多个人脸中的五官进行表情变化趋势判断,例如眉毛变化趋势,眼睛变化趋势等,具体此处不作限定。
403、确定视频融合特征中的人脸姿态特征,是否匹配第二变化趋势信息。
本申请实施例中,第二变化趋势信息用于表征预设特定用户在预设多帧视频帧中的人脸姿态变化趋势。具体的,确定视频融合特征中的人脸姿态特征,是否匹配第二变化趋势信息可以包括:确定视频融合特征中各视频帧对应的人脸姿态特征,是否匹配预设特定用户在预设多帧视频帧中的人脸姿态变化趋势,若是,则确定视频融合特征中的人脸姿态特征,是否匹配第二变化趋势信息。通过人脸姿态特征的比对,可以鉴别出一部分人脸姿态异常的伪造视频。
例如,预设特定用户为“奥A”,用户视频中包括视频帧1,视频帧2,视频帧3,第二变化趋势信息中,“奥A”在转身时人脸面积是逐渐变大或变小的,第二变化趋势信息中“奥A”人脸面积是逐渐变大或变小的,而若确定“奥A”当前是在转身时,在视频帧1,视频帧2,视频帧3中人脸面积一直维持不变,没有人脸面积变化趋势,则视频融合特征中的人脸姿态特征与第二变化趋势信息不匹配。
同样的,上面仅以人脸姿态是人脸转身时人脸面积变化举例,可以理解的是,人脸姿态可以不限于人脸转身,在实际应用场景中,还可以是人脸点头等,具体此处不作限定。
404、若预设特定用户的人脸特征和所述视频融合特征不匹配,且视频融合特征中的人脸表情特征与所述第一变化趋势信息不匹配,且视频融合特征中的人脸姿态特征与第二变化趋势信息不匹配,则确定视频鉴伪结果为伪造视频。
本实施例中通过结合人脸先验知识和视频融合特征进行多维度特征匹配,一方面,由于所述人脸先验知识包括预设特定用户的人脸特征、人脸表情特征的第一变化趋势信息和人脸姿态特征的第二变化趋势信息,第一变化趋势信息能够表征预设特定用户在预设多帧视频帧中的人脸表情变化趋势,第二变化趋势信息能够表征预设特定用户在预设多帧视频帧中的人脸姿态变化趋势,那么,当基于人脸先验知识和视频融合特征进行多维度特征匹配,以对用户视频进行鉴伪时,由于人脸先验知识和视频融合特征都包括多维人脸特征,可以基于多维人脸特征进行匹配,因此单一人脸伪造类型的视频无法伪造出这多维人脸特征,从而可以针对不同人脸伪造类型的视频进行鉴伪,相较于现有技术中仅针对单一类型的人脸伪造类型进行鉴伪而言,采用本申请实施例的视频鉴伪方案进行人脸鉴伪的准确率更高,鉴伪类型更加丰富,可以发挥出理想的人脸鉴伪效果,能够更好地限制人脸伪造等行为。
在一个实施方式中,视频鉴伪方法应用于已训练的视频鉴伪模型;视频鉴伪模型包括特征解耦模块和时序模块。
其中,该视频鉴伪模型的训练过程如下包括:获取采集的至少一个样本视频和预设特定用户的标签,所述样本视频为所述预设特定用户的人脸视频;根据所述至少一个样本视频和所述预设特定用户的标签对预设的人脸鉴伪初始模模型进行训练,得到所述视频鉴伪模型。
本申请实施例中,特征解耦模块用于按照多种预设方式分别对用户视频多张视频帧中的人脸特征进行解耦,得到多张视频帧中的用户独有特征,用户独有特征包括人脸身份特征、人脸表情特征、人脸纹理特征、人脸姿态特征和人脸五官位置特征;时序模块用于对多张视频帧中的用户独有特征分别进行时序编码,以生成整段用户视频的身份与人脸行为特征;对身份与人脸行为特征进行融合处理,生成用户视频的视频融合特征;根据预设的人脸先验知识和视频融合特征进行视频鉴伪,得到视频鉴伪结果。
如图5所示,为视频鉴伪模型的一个架构示意图,该视频鉴伪模型包括人脸行为视频鉴伪模型包括特征解耦模块和特征处理模块,所述特征处理模块包括时序模块、融合模块和鉴伪模块,用户视频中包括不同时刻的视频帧,如t=0时刻,t=t,t=T等不同时刻的视频帧,每个视频帧对应一个特征解耦模块,用于提取对应视频帧中的人脸身份特征、人脸表情特征、人脸纹理特征、人脸姿态特征和人脸五官位置特征,时序模块用于对多张视频帧中的用户独有特征分别进行时序编码,以生成整段用户视频的身份与人脸行为特征;融合模块用于对时序模块得到的身份与人脸行为特征进行融合处理,生成用户视频的视频融合特征;鉴伪模块用于根据预设的人脸先验知识和视频融合特征进行视频鉴伪,得到视频鉴伪结果。
本申请实施例中,当视频鉴伪结果为真实视频时,还可以利用真实视频作为用于视频合成的视频深度合成模型的样本,去训练初始深度学习模型,以得到训练后的深度合成模型,也可以直接利用真实视频帧合成预设特定场景下的视频,因此,在本申请的一个实施方式中,所述方法还可以包括:
当所述视频鉴伪结果为真实视频时,提取所述用户视频中存在用户图像的真实视频帧;将所述真实视频帧输入深度合成模型,得到所述预设特定用户在至少一种预设特定场景下的至少一种合成视频。其中,预设特定场景的合成视频是授权合法的视频,例如可以是教学视频,演讲视频等。
为便于更好的实施本申请实施例提供的视频鉴伪方法,本申请实施例还提供一种基于上述视频鉴伪方法的装置。其中名词的含义与上述视频鉴伪方法中相同,具体实现细节可以参考视频鉴伪方法实施例中的说明。
本申请实施例中视频鉴伪装置,具有实现对应于上述实施例中提供的视频鉴伪方法的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。
请参阅图6,图6为本申请实施例提供的视频鉴伪装置的结构示意图,该视频鉴伪装置可应用于需要进行视频鉴伪场景下的计算设备中,具体的,该视频鉴伪装置600可以包括输入输出模块601和处理模块602,其中:
输入输出模块601,用于获取待鉴伪的用户视频,所述用户视频为包括单一用户的人脸视频;
处理模块602,用于按照多种预设方式分别对所述用户视频多张视频帧中的人脸特征进行解耦,得到多张视频帧中的用户独有特征,所述用户独有特征包括人脸身份特征、人脸表情特征、人脸纹理特征、人脸姿态特征和人脸五官位置特征;对多张视频帧中的用户独有特征分别进行时序编码,以生成整段所述用户视频的身份与人脸行为特征;对所述身份与人脸行为特征进行融合处理,生成所述用户视频的视频融合特征;根据预设的人脸先验知识和所述视频融合特征进行视频鉴伪,得到视频鉴伪结果。
在一个实施方式中,所述人脸先验知识包括预设特定用户的人脸特征、人脸表情特征的第一变化趋势信息和人脸姿态特征的第二变化趋势信息;
所述处理模块602具体用于:
确定所述预设特定用户的人脸特征和所述视频融合特征是否匹配;
确定所述视频融合特征中的人脸表情特征,是否匹配所述第一变化趋势信息;
确定所述视频融合特征中的人脸姿态特征,是否匹配所述第二变化趋势信息;
若所述预设特定用户的人脸特征和所述视频融合特征不匹配,且所述视频融合特征中的人脸表情特征与所述第一变化趋势信息不匹配,且所述视频融合特征中的人脸姿态特征与所述第二变化趋势信息不匹配,则确定所述视频鉴伪结果为伪造视频。
在一个实施方式中,所述处理模块602还用于:
当所述视频鉴伪结果为真实视频时,提取所述用户视频中存在用户图像的真实视频帧;
将所述真实视频帧输入深度合成模型,得到所述预设特定用户在至少一种预设特定场景下的至少一种合成视频。
在一个实施方式中,所述视频鉴伪装置应用于已训练的视频鉴伪模型;
所述视频鉴伪模型包括特征解耦模块和特征处理模块,所述特征处理模块包括时序模块、融合模块和鉴伪模块;
所述特征解耦模块用于按照多种预设方式分别对所述用户视频多张视频帧中的人脸特征进行解耦,得到多张视频帧中预设特定用户的用户独有特征,所述用户独有特征包括人脸身份特征、人脸表情特征、人脸纹理特征、人脸姿态特征和人脸五官位置特征;
所述时序模块用于对多张视频帧中的用户独有特征分别进行时序编码,以生成整段所述用户视频的身份与人脸行为特征;
所述融合模块用于对所述时序模块得到的所述身份与人脸行为特征进行融合处理,生成所述用户视频的视频融合特征;
所述鉴伪模块用于根据预设的人脸先验知识和所述视频融合特征进行视频鉴伪,得到视频鉴伪结果。
在一个实施方式中,所述处理模块602具体还用于:
获取采集的至少一个样本视频和预设特定用户的标签,所述样本视频为所述预设特定用户的人脸视频;
根据所述至少一个样本视频和所述预设特定用户的标签对预设的人脸鉴伪初始模模型进行训练,得到所述视频鉴伪模型。
在一个实施方式中,所述输入输出模块601具体用于:
获取预设网络平台的原始网络视频;
获取所述原始网络视频的关联用户信息;
根据所述关联用户信息,确定所述原始网络视频是否包括预设特定用户的人脸图像;
若所述原始网络视频包括预设特定用户的人脸图像,根据所述原始网络视频,确定待鉴伪的用户视频。
在一个实施方式中,所述原始网络视频的关联用户信息为所述原始网络视频的关联视频关键词;
所述输入输出模块601具体用于:
若所述关联视频关键词与所述预设特定用户的名称关键词匹配,则确定原始网络视频包括预设特定用户的人脸图像。
在一个实施方式中,所述原始网络视频的关联用户信息为所述原始网络视频中的人脸图像;
所述输入输出模块601具体用于:
对所述原始网络视频中的视频帧进行人脸识别,得到所述原始网络视频中的人脸图像;
所述根据所述关联用户信息,确定所述原始网络视频是否包括预设特定用户的人脸图像,包括:
确定所述原始网络视频中的人脸图像与所述预设特定用户的人脸图像是否匹配;
若所述原始网络视频中的人脸图像,存在与所述预设特定用户的人脸图像匹配的人脸图像,则确定所述原始网络视频包括预设特定用户的人脸图像。
本申请实施例中,通过输入输出模块601获取待鉴伪的用户视频,处理模块602按照多种预设方式分别对用户视频多张视频帧中的人脸特征进行解耦,得到多张视频帧中的用户独有特征;对多张视频帧中的用户独有特征分别进行时序编码,以生成整段用户视频的身份与人脸行为特征;对身份与人脸行为特征进行融合处理,生成用户视频的视频融合特征;根据预设的人脸先验知识和视频融合特征进行视频鉴伪,得到视频鉴伪结果。由于本申请实施例中对于待鉴伪的用户视频,是同时提取多种人脸身份和面部特征进行鉴伪,因此可以针对不同伪造类型的视频进行融合鉴伪,而不是现有技术中针对单一类型的人脸伪造类型进行鉴伪,因此,本申请实施例针对人脸伪造类型数据检测能力强,人脸鉴伪检测准确率高。由于可以针对不同伪造类型的视频进行融合鉴伪,鉴伪类型更加丰富,因此,本申请实施例得到的人脸鉴伪结果,可以发挥出理想的人脸鉴伪效果,能够很好地限制人脸伪造等行为。
上面从模块化功能实体的角度对本申请实施例中的视频鉴伪装置进行了描述,下面从硬件处理的角度分别对本申请实施例中的视频鉴伪装置进行描述。
需要说明的是,图6所示的输入输出模块601对应的实体设备可以为收发器、射频电路、通信模块和输入/输出(I/O)接口等,处理模块602对应的实体设备可以为处理器。
图6所示的装置均可以具有如图7所示的结构,当图7所示的视频鉴伪装置具有如图7所示的结构时,图7中的处理器和收发器能够实现前述对应该装置的装置实施例提供的处理模块602和输入输出模块601相同或相似的功能,图8中的存储器存储处理器执行上述视频鉴伪方法时需要调用的计算机程序。
当本申请实施例中计算设备为终端设备时,本申请实施例还提供了一种终端设备,如图8所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、销售终端设备(Point of Sales,POS)、车载电脑等任意终端设备,以终端设备为手机为例:
图8示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图8,手机包括:射频(Radio Frequency,RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(wireless fidelity,WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解,图8中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图8对手机的各个构成部件进行具体的介绍:
RF电路1010可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1080处理;另外,将设计上行的数据发送给基站。通常,RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(LowNoiseAmplifier,LNA)、双工器等。此外,RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication,GSM)、通用分组无线服务(General PacketRadioService,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
存储器1020可用于存储软件程序以及模块,处理器1080通过运行存储在存储器1020的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1020可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1030可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1080,并能接收处理器1080发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031,输入单元1030还可以包括其他输入设备1032。具体地,其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041,可选的,可以采用液晶显示器(LiquidCrystalDisplay,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1041。进一步的,触控面板1031可覆盖显示面板1041,当触控面板1031检测到在其上或附近的触摸操作后,传送给处理器1080以确定触摸事件的类型,随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图8中,触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1050,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1041和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1060、扬声器1061,传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号,传输到扬声器1061,由扬声器1061转换为声音信号输出;另一方面,传声器1062将收集的声音信号转换为电信号,由音频电路1060接收后转换为音频数据,再将音频数据输出处理器1080处理后,经RF电路1010以发送给比如另一手机,或者将音频数据输出至存储器1020以便进一步处理。
Wi-Fi属于短距离无线传输技术,手机通过Wi-Fi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图8示出了Wi-Fi模块1070,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1080是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1020内的软件程序和/或模块,以及调用存储在存储器1020内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1080可包括一个或多个处理单元;可选的,处理器1080可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1080中。
手机还包括给各个部件供电的电源1090(比如电池),可选的,电源可以通过电源管理系统与处理器1080逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该手机所包括的处理器1080还具有控制执行以上由视频鉴伪装置执行的视频鉴伪方法流程。
本申请实施例还提供了一种服务器,请参阅图9,图9是本申请实施例提供的一种服务器结构示意图,该服务器1100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(英文全称:central processing units,英文简称:CPU)1122(例如,一个或一个以上处理器)和存储器1132,一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中,存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图中未示出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1122可以设置为与存储介质1130通信,在服务器1100上执行存储介质1130中的一系列指令操作。
服务器1100还可以包括一个或一个以上电源1126,一个或一个以上有线或无线网络接口1150,一个或一个以上输入输出接口1158,和/或,一个或一个以上操作系统1141,例如Windows Server,Mac OS X,Unix,Linux,FreeBSD等等。
上述实施例中视频鉴伪方法中的步骤可以基于该图9所示的服务器1100的结构。例如,所述中央处理器1122通过调用存储器1132中的指令,执行以下操作:
通过输入输出接口1158取待鉴伪的用户视频,所述用户视频为包括单一用户的人脸视频;按照多种预设方式分别对所述用户视频多张视频帧中的人脸特征进行解耦,得到多张视频帧中用户的用户独有特征,所述用户独有特征包括人脸身份特征、人脸表情特征、人脸纹理特征、人脸姿态特征和人脸五官位置特征;对多张视频帧中的用户独有特征分别进行时序编码,以生成整段所述用户视频的身份与人脸行为特征;对所述身份与人脸行为特征进行融合处理,生成所述用户视频的视频融合特征;对每张视频帧中用户的人脸身份特征和人脸表情特征进行时序融合处理,得到所述用户视频的视频融合特征;根据预设的人脸先验知识和所述视频融合特征进行视频鉴伪,得到视频鉴伪结果。
在一个实施方式中,所述人脸先验知识包括预设特定用户的人脸特征、人脸表情特征的第一变化趋势信息和人脸姿态特征的第二变化趋势信息;
还可以通过输入输出接口1158确定所述预设特定用户的人脸特征和所述视频融合特征是否匹配;确定所述视频融合特征中的人脸表情特征,是否匹配所述第一变化趋势信息;确定所述视频融合特征中的人脸姿态特征,是否匹配所述第二变化趋势信息;若所述预设特定用户的人脸特征和所述视频融合特征不匹配,且所述视频融合特征中的人脸表情特征与所述第一变化趋势信息不匹配,且所述视频融合特征中的人脸姿态特征与所述第二变化趋势信息不匹配,则确定所述视频鉴伪结果为伪造视频。
在一个实施方式中,还可以通过输入输出接口1158当所述视频鉴伪结果为真实视频时,提取所述用户视频中存在用户图像的真实视频帧;将所述真实视频帧输入深度合成模型,得到所述预设特定用户在至少一种预设特定场景下的至少一种合成视频。
在一个实施方式中,所述视频鉴伪方法应用于已训练的视频鉴伪模型;所述视频鉴伪模型包括特征解耦模块和时序模块;所述特征解耦模块用于按照多种预设方式分别对所述用户视频多张视频帧中的人脸特征进行解耦,得到多张视频帧中的用户独有特征,所述用户独有特征包括人脸身份特征、人脸表情特征、人脸纹理特征、人脸姿态特征和人脸五官位置特征;所述时序模块用于对多张视频帧中的用户独有特征分别进行时序编码,以生成整段所述用户视频的身份与人脸行为特征;对所述身份与人脸行为特征进行融合处理,生成所述用户视频的视频融合特征;根据预设的人脸先验知识和所述视频融合特征进行视频鉴伪,得到视频鉴伪结果。
在一个实施方式中,还可以通过输入输出接口1158获取采集的至少一个样本视频和预设特定用户的标签,所述样本视频为所述预设特定用户的人脸视频;根据所述至少一个样本视频和所述预设特定用户的标签对预设的人脸鉴伪初始模模型进行训练,得到所述视频鉴伪模型。
在一个实施方式中,还可以通过输入输出接口1158获取预设网络平台的原始网络视频;获取所述原始网络视频的关联用户信息;根据所述关联用户信息,确定所述原始网络视频是否包括预设特定用户的人脸图像;若所述原始网络视频包括预设特定用户的人脸图像,根据所述原始网络视频,确定待鉴伪的用户视频。
在一个实施方式中,所述原始网络视频的关联用户信息为所述原始网络视频的关联视频关键词;还可以通过输入输出接口1158若所述关联视频关键词与所述预设特定用户的名称关键词匹配,则确定原始网络视频包括预设特定用户的人脸图像。
在一个实施方式中,所述原始网络视频的关联用户信息为所述原始网络视频中的人脸图像;还可以通过输入输出接口1158对所述原始网络视频中的视频帧进行人脸识别,得到所述原始网络视频中的人脸图像;确定所述原始网络视频中的人脸图像与所述预设特定用户的人脸图像是否匹配;若所述原始网络视频中的人脸图像,存在与所述预设特定用户的人脸图像匹配的人脸图像,则确定所述原始网络视频包括预设特定用户的人脸图像。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请实施例所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请实施例各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
以上对本申请实施例所提供的技术方案进行了详细介绍,本申请实施例中应用了具体个例对本申请实施例的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请实施例的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请实施例的限制。

Claims (10)

1.一种视频鉴伪方法,其特征在于,包括:
获取待鉴伪的用户视频,所述用户视频为包括单一用户的人脸视频;
按照多种预设方式分别对所述用户视频多张视频帧中的人脸特征进行解耦,得到多张视频帧中的用户独有特征,所述用户独有特征包括人脸身份特征、人脸表情特征、人脸纹理特征、人脸姿态特征和人脸五官位置特征;
对多张视频帧中的用户独有特征分别进行时序编码,以生成整段所述用户视频的身份与人脸行为特征;
对所述身份与人脸行为特征进行融合处理,生成所述用户视频的视频融合特征;
根据预设的人脸先验知识和所述视频融合特征进行视频鉴伪,得到视频鉴伪结果。
2.根据权利要求1所述的视频鉴伪方法,其特征在于,所述人脸先验知识包括预设特定用户的人脸特征、人脸表情特征的第一变化趋势信息和人脸姿态特征的第二变化趋势信息;
所述根据预设的人脸先验知识和所述视频融合特征进行视频鉴伪,得到视频鉴伪结果,包括:
确定所述预设特定用户的人脸特征和所述视频融合特征是否匹配;
确定所述视频融合特征中的人脸表情特征,是否匹配所述第一变化趋势信息;
确定所述视频融合特征中的人脸姿态特征,是否匹配所述第二变化趋势信息;
若所述预设特定用户的人脸特征和所述视频融合特征不匹配,且所述视频融合特征中的人脸表情特征与所述第一变化趋势信息不匹配,且所述视频融合特征中的人脸姿态特征与所述第二变化趋势信息不匹配,则确定所述视频鉴伪结果为伪造视频。
3.根据权利要求1所述的视频鉴伪方法,其特征在于,所述方法还包括:
当所述视频鉴伪结果为真实视频时,提取所述用户视频中存在用户图像的真实视频帧;
将所述真实视频帧输入深度合成模型,得到所述预设特定用户在至少一种预设特定场景下的至少一种合成视频。
4.根据权利要求1至3中任一项所述的视频鉴伪方法,其特征在于,所述视频鉴伪方法应用于已训练的视频鉴伪模型;
所述视频鉴伪模型包括特征解耦模块和特征处理模块,所述特征处理模块包括时序模块、融合模块和鉴伪模块;
所述特征解耦模块用于按照多种预设方式分别对所述用户视频多张视频帧中的人脸特征进行解耦,得到多张视频帧中预设特定用户的用户独有特征,所述用户独有特征包括人脸身份特征、人脸表情特征、人脸纹理特征、人脸姿态特征和人脸五官位置特征;
所述时序模块用于对多张视频帧中的用户独有特征分别进行时序编码,以生成整段所述用户视频的身份与人脸行为特征;
所述融合模块用于对所述时序模块得到的所述身份与人脸行为特征进行融合处理,生成所述用户视频的视频融合特征;
所述鉴伪模块用于根据预设的人脸先验知识和所述视频融合特征进行视频鉴伪,得到视频鉴伪结果。
5.根据权利要求4中所述的视频鉴伪方法,其特征在于,所述方法还包括:
获取采集的至少一个样本视频和预设特定用户的标签,所述样本视频为所述预设特定用户的人脸视频;
根据所述至少一个样本视频和所述预设特定用户的标签对预设的人脸鉴伪初始模模型进行训练,得到所述视频鉴伪模型。
6.一种视频鉴伪装置,其特征在于,该装置包括:
输入输出模块,用于获取待鉴伪的用户视频,所述用户视频为包括单一用户的人脸视频;
处理模块,用于按照多种预设方式分别对所述用户视频多张视频帧中的人脸特征进行解耦,得到多张视频帧中的用户独有特征,所述用户独有特征包括人脸身份特征、人脸表情特征、人脸纹理特征、人脸姿态特征和人脸五官位置特征;对多张视频帧中的用户独有特征分别进行时序编码,以生成整段所述用户视频的身份与人脸行为特征;对所述身份与人脸行为特征进行融合处理,生成所述用户视频的视频融合特征;根据预设的人脸先验知识和所述视频融合特征进行视频鉴伪,得到视频鉴伪结果。
7.一种计算设备,其特征在于,其包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的视频鉴伪方法。
8.一种计算机可读存储介质,其特征在于,其包括指令,当其在计算机上运行时,使得所述计算机执行如权利要求1至5中任一项所述的视频鉴伪方法。
9.一种包含指令的计算机程序产品,所述计算机程序产品包括程序指令,当所述程序指令在计算机或处理器上运行时,使得所述计算机或所述处理器执行如权利要求1至5中任意一项所述的视频鉴伪方法。
10.一种芯片系统,其特征在于,该芯片系统包括:
通信接口,用于输入和/或输出信息;
处理器,用于执行计算机可执行程序,使得安装有所述芯片系统的设备执行如权利要求1至5中任一项所述的视频鉴伪方法。
CN202310777488.8A 2023-06-28 2023-06-28 视频鉴伪方法、相关装置及存储介质 Pending CN117058567A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310777488.8A CN117058567A (zh) 2023-06-28 2023-06-28 视频鉴伪方法、相关装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310777488.8A CN117058567A (zh) 2023-06-28 2023-06-28 视频鉴伪方法、相关装置及存储介质

Publications (1)

Publication Number Publication Date
CN117058567A true CN117058567A (zh) 2023-11-14

Family

ID=88667001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310777488.8A Pending CN117058567A (zh) 2023-06-28 2023-06-28 视频鉴伪方法、相关装置及存储介质

Country Status (1)

Country Link
CN (1) CN117058567A (zh)

Similar Documents

Publication Publication Date Title
CN111652121B (zh) 一种表情迁移模型的训练方法、表情迁移的方法及装置
WO2020199932A1 (zh) 模型训练方法、人脸识别方法、装置、设备及存储介质
EP3965003A1 (en) Image processing method and device
CN110704661B (zh) 一种图像分类方法和装置
CN112269853B (zh) 检索处理方法、装置及存储介质
CN111177180A (zh) 一种数据查询方法、装置以及电子设备
CN111339737B (zh) 实体链接方法、装置、设备及存储介质
WO2017088434A1 (zh) 人脸模型矩阵训练方法、装置及存储介质
CN115859220B (zh) 数据处理方法、相关装置及存储介质
CN111507094B (zh) 基于深度学习的文本处理模型训练方法、装置及设备
CN114722937A (zh) 一种异常数据检测方法、装置、电子设备和存储介质
CN116758362A (zh) 图像处理方法、装置、计算机设备及存储介质
CN116778306A (zh) 伪造对象检测方法、相关装置及存储介质
CN115171196B (zh) 人脸图像处理方法、相关装置及存储介质
CN117058567A (zh) 视频鉴伪方法、相关装置及存储介质
CN116453005A (zh) 一种视频封面的提取方法以及相关装置
CN111597823B (zh) 中心词提取方法、装置、设备及存储介质
CN115526772A (zh) 视频处理方法、装置、设备和存储介质
CN114973352A (zh) 人脸识别方法、装置、设备及存储介质
CN113569043A (zh) 一种文本类别确定方法和相关装置
CN116074577B (zh) 视频处理方法、相关装置及存储介质
CN115412726B (zh) 视频真伪检测方法、装置及存储介质
CN117011649B (zh) 一种模型训练方法和相关装置
CN111756705B (zh) 活体检测算法的攻击测试方法、装置、设备及存储介质
CN116708918B (zh) 一种视频换脸的处理方法、相关装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination