CN114902217A

CN114902217A - 用于认证数字内容的系统

Info

Publication number: CN114902217A
Application number: CN202180007809.5A
Authority: CN
Inventors: M·A·法雷·吉乌; E·C·德雷克; A·M·阿卡尔多; M·阿拉纳
Original assignee: Disney Enterprises Inc
Current assignee: Disney Enterprises Inc
Priority date: 2020-02-11
Filing date: 2021-01-04
Publication date: 2022-08-12
Also published as: EP4104081A4; US20210250346A1; JP7505001B2; US20220345455A1; WO2021162803A1; JP2024096819A; US11711363B2; US11425120B2; EP4104081A1; JP2023511832A

Abstract

一种用于认证数字内容的系统，包括：具有硬件处理器和存储软件代码的存储器的计算平台。根据一个实施方式，硬件处理器执行软件代码以：接收数字内容；识别数字内容中描绘的人的图像；确定图像中描绘的人的耳朵形状参数；确定图像中描绘的人的另一生物特征参数；以及，计算图像中描绘的人的耳朵形状参数与图像中描绘的人的生物特征参数的比率。硬件处理器还被配置为执行软件代码以：执行计算出的比率与预定值的比较；以及基于计算出的比率与预定值的比较，来确定图像中描绘的人是否是该人的真实描绘。

Description

用于认证数字内容的系统

背景技术

机器学习的进步使得人们能够对一个人的图像或声音进行逼真但伪造的再现，称为“深度伪造”，这是因为使用了深度人工神经网络进行创作。深度伪造可以在未经被使用图像或声音的人的同意的情况下制作，并可能使被代表的人似乎说了或做了他们实际上没有说过或做过的事情。因此，深度伪造操纵的数字内容可能被恶意用于传播错误信息。

由于娱乐和新闻发行中数字内容的广泛流行，对该内容的有效认证和管理对其创作者、所有者和发行者都很重要。然而，随着机器学习解决方案的不断改进，深度伪造是并且将继续是很难被检测到的。因此，在违反合同协议或监管限制的情况下，可能会无意中播放或以其他方式分发被巧妙操纵甚至完全伪造的数字内容，从而使内容所有者和/或分发者面临潜在的法律风险。

发明内容

本文提供了用于认证数字内容的系统，基本上如至少一个附图所示和/或结合至少一个附图所描述地，并且在权利要求中更完整地阐述。

附图说明

图1示出了根据一种实施方式的用于认证数字内容的示例性系统的示意图；

图2示出了用于认证数字内容的系统的另一示例性实施方式；

图3示出了适用于由图1和图2所示系统的硬件处理器执行的真实性分析软件代码的示例图；

图4是表示根据一种实施方式的由用于认证数字内容的系统使用的示例性方法的流程图；

图5是表示根据另一实施方式的由用于认证数字内容的系统使用的示例性方法的流程图；以及

图6是表示根据又一实施方式的由用于认证数字内容的系统使用的示例性方法的流程图。

具体实施方式

以下描述包括与本公开中的实施方式相关的特定信息。本领域技术人员将认识到，本公开可以以不同于本文具体讨论的方式来实施。本申请中的附图及其附随的详细描述仅针对示例性实施方式。除非另有说明，否则附图中相同或相应的元件可以用相同或相应的附图标记来表示。此外，本申请中的附图和图示通常不按比例绘制，并且不旨在对应于实际的相对尺寸。

本申请公开了用于认证数字内容的系统，其克服了传统技术中的缺点和不足。应注意的是，在一些实施方式中，本内容认证解决方案可以作为基本自动化的过程由基本自动化的系统来执行。应注意的是，如本申请中所使用的，术语“自动化”、“自动化的”和“自动化操作”指的是不需要人类用户(例如系统管理员)参与的系统和过程。尽管在一些实施方式中，人工系统操作员或管理员可以检查由本文描述的自动化系统做出的真实性确定，但是人工参与是可选的。因此，本申请中描述的方法可以在所公开的自动化系统的硬件处理组件的控制下执行。

图1示出了根据一种实施方式的用于认证数字内容的示例性系统的示意图。如下所述，系统100可以使用可通过局域网(LAN)访问的计算机服务器来实施，或者可以实施为基于云的系统。如图1所示，系统100包括：具有硬件处理器104的计算平台102；实施为非暂时性存储设备的系统存储器106；以及，显示器108。根据本示例性实施方式，系统存储器106存储有：包括生物特征简档122a和122b的生物特征数据库120；包括语言简档126a和126b以及脚本127a和127b的语言数据库124；以及，提供关于数字内容136的真实性确定138的真实性分析软件代码110。

同样如图1所示，系统100被实施在以下的使用环境，该使用环境包括：具有网络通信链路132的通信网络130；和，包括显示器148的用户系统140。用户128通过使用用户系统140与系统100交互。应注意的是，通信网络130和网络通信链路132使得：系统100能够接收由内容贡献者134或用户128提供的数字内容136，并输出真实性确定138以呈现在用户系统140的显示器148上。替代地，或附加地，在一些实施方式中，真实性确定138可以呈现在系统100的显示器108上。

总体而言，系统100可以被实施为在线性电视(TV)节目流中提供音频-视频(AV)内容的媒体实体的质量控制(QC)资源，媒体实体，例如包括：具有嵌入的音频、字幕、时间码和其他辅助元数据(例如评级和/或父母指导方针)的高清晰度(HD)或超HD(UHD)基带视频信号。替代地，或附加地，包括系统100作为QC资源的媒体实体可以经由无线电或卫星无线电广播分发AV内容。

根据图1所示的示例性实施方式，系统100被配置为：从内容贡献者134或用户系统140接收数字内容136，并使用由硬件处理器104执行的真实性分析软件代码110来确定数字内容136的真实性。内容贡献者134可以是另一个媒体实体、专业新闻采集者或者业余内容贡献者；专业新闻采集者例如是包括系统100的媒体实体的授权现场记者；业余内容贡献者可以使用个人通信设备或其他通信系统生成的家庭视频或其他AV内容的方式提供数字内容136。在一些实施方式中，内容贡献者134可以利用这样的通信系统，经由通信网络130和网络通信链路132，向系统100提交数字内容136。然而，在其他实施方式中，内容贡献者134可以利用通信系统，向用户128利用的用户系统140提交数字内容136。在那些后面的实施方式中，用户128可以进一步利用用户系统140，向系统100提交数字内容136，以用于真实性确定，或者，可以使用用户系统140进行真实性确定，如下文更详细讨论地。

数字内容136可以采取没有音频的视频内容、没有视频的音频内容或AV内容的形式，例如：电影；包括电视节目系列、网络系列和/或视频日志的连载内容；体育内容；新闻内容；广告内容或视频游戏内容等等。替代地，在一些实施方式中，数字内容136可以采取数字照片的形式。

应注意的是，尽管为了概念清晰，本申请涉及将真实性分析软件代码110、生物特征数据库120和语言数据库124存储在系统存储器106中，但是更一般地，系统存储器106可以采取任何计算机可读非暂时性存储介质的形式。本申请中使用的表述“计算机可读非暂时性存储介质”指的是任何介质，不包括向计算平台102的硬件处理器104或用户系统140的硬件处理器(图1中未示出用户系统140的硬件处理器)提供指令的载波或其他暂时性信号。因此，计算机可读非暂时性介质可以对应于各种类型的介质，例如易失性介质和非易失性介质。易失性介质可以包括动态存储器，例如动态随机存取存储器(动态RAM)；而非易失性存储器可以包括光、磁或静电存储设备。计算机可读非暂时性介质的常见形式包括例如光盘、RAM、可编程只读存储器(PROM)、可擦除PROM(EPROM)和闪存。

还应注意的是，尽管图1将真实性分析软件代码110、生物特征数据库120和语言数据库124描绘为共同位于系统存储器106中，但该表示也仅仅是为了概念清晰而提供的。更一般地，系统100可以包括一个或多个计算平台102，例如计算机服务器；它们可以位于同一位置，或者，可以形成呈交互链接但分布式的系统，例如基于云的系统。

结果是，硬件处理器104和系统存储器106可以对应于系统100内的分布式处理器和存储器资源。因此，应当理解，生物特征数据库120和/或语言数据库124、以及真实性分析软件代码110的各种特征(例如下文参照图3描述的一个或多个特征)，可以使用系统100的分布式存储器和/或处理器资源来存储和/或执行。

根据图1所示的实施方式，用户128可以利用用户系统140，通过通信网络130与系统100进行交互，以确定数字内容136的真实性。在一个这样的实施方式中，计算平台102可以对应于通过诸如因特网的分组交换网络来访问的一个或多个基于网络的计算机服务器。替代地，计算平台102可以对应于支持广域网(WAN)、LAN或被包括在另一种类型的有限分布或专用网络中的一个或多个计算机服务器。

还应注意的是，尽管图1将用户系统140描绘为移动通信设备，例如智能手机或平板电脑，但是这种表示也仅仅是示例性的。更一般地，用户系统140可以是实现足以提供用户界面、支持到通信网络130的连接、并实现归属于本文的用户系统140的功能的数据处理能力的任何合适的系统。在其他实施方式中，用户系统140可以采用台式计算机、膝上型计算机、游戏控制台或诸如智能电视的智能设备的形式等等。

关于用户系统140的显示器148，显示器148可以物理地与用户系统140集成，或者可以通信地连接到用户系统140但与用户系统140物理分离。例如，在用户系统140被实施为智能手机、膝上型计算机、平板计算机或智能电视的情况下，显示器148通常将与用户系统140集成。相比之下，在用户系统140被实施为台式计算机的情况下，显示器148可以采用与计算机塔形式的设备用户系统140分离的监视器形式。类似地，如图1所示，系统100的显示器108可以与系统100的计算平台102物理集成，或者可以通信地连接到计算平台102但与计算平台102物理分离。显示器108和148可以被实现为液晶显示器(LCD)、发光二极管(LED)显示器、有机发光二极管(OLED)显示器或者执行信号到光的物理转换的任何其他合适的显示屏。

图2示出了用于认证数字内容的系统的另一示例性实施方式。根据图2所示的示例性实施方式，用户系统240通过网络通信链路232交互地连接到系统200。系统200的计算平台202包括硬件处理器204和系统存储器206，系统存储器206存储有：包括生物特征简档222a和122b的生物特征数据库220；包括语言简档226a和126b以及脚本227a和127b的语言数据库224；以及，提供真实性确定238的真实性分析软件代码210a。另外，图2示出了系统200的显示器208。

如图2所示，系统240包括：具有收发器243、硬件处理器244和存储器246的计算平台242；且存储器246被实施为存储真实性分析软件代码210b的非暂时性存储设备。根据图2所示的示例性实施方式，真实性分析软件代码210b提供真实性确定238，用于呈现在用户系统240的显示器248上。应注意的是，真实性确定238可以共享归属于本公开图1中的真实性确定138的任何相应特性。

网络通信链路232和包括具有硬件处理器204、系统存储器206和显示器208的计算平台202的系统200通常分别对应于图1中的网络通信链路132和包括具有硬件处理器104、系统存储器106和显示器108的计算平台102的系统100。此外，真实性分析软件代码210a、生物特征数据库220和语言数据库224通常分别对应于图1中的真实性分析软件代码110、生物特征数据库120和语言数据库124。因此，生物特征数据库220、语言数据库224和真实性分析软件代码210a可以共享本公开归属于生物特征数据库120、语言数据库124和真实性分析软件代码110的任何相应特性，反之亦然。

此外，包括在生物特征数据库220中的生物特征简档222a和222b、存储在语言数据库224中的语言简档226a和226b以及存储在语言数据库224中的脚本227a和227b通常分别对应于图1中的生物特征简档122a和122b、语言简档126a和126b以及脚本127a和127b。也就是说，生物特征简档222a和222b、语言简档226a和226b以及脚本227a和227b可以共享本公开归属于生物特征简档122a和122b、语言简档126a和126b以及脚本127a和127b的任何相应特性，反之亦然。

图2中的用户系统240和显示器248通常对应于图1中的用户系统140和显示器148，并且对应的特征可以共享归属于本公开任一相应特征的任何特性。因此，类似于用户系统140，用户系统240可以采取例如智能电视、台式计算机、膝上型计算机、平板计算机、游戏控制台或智能手机的形式。附加地，尽管图1中未示出，但用户系统140可以包括对应于计算平台242、收发器243、硬件处理器244和存储真实性分析软件代码210b的存储器246的多个特征。此外，类似于显示器108和148，相应的显示器208和248可以被实施为LCD、LED显示器、OLED显示器或者执行信号到光的物理转换的任何其他合适的显示屏。

收发器243可以被实施为无线通信单元，使得用户系统240能够经由网络通信链路232与计算平台202交换数据。例如，收发器243可以被实施为第四代(4G)无线收发器，或者被实施为被配置为满足由国际电信联盟(ITU)建立的IMT-2020要求的5G无线收发器。关于真实性分析软件代码210b，结合图2并参照图1，应注意的是，在一些实施方式中，真实性分析软件代码210b可以是瘦客户端应用，其仅可用于向系统100/200提交数字内容136，并用于呈现从系统100/200接收的真实性确定138/238。

然而，在其他实施方式中，真实性分析软件代码210b可以是包括真实性分析软件代码210a的所有特征的软件应用，并且能够执行所有相同的功能。也就是说，在一些实施方式中，真实性分析软件代码210b对应于图1中的真实性分析软件代码110，并且可以共享归属于本公开的相应特征的任何特性。

根据图2所示的示例性实施方式，真实性分析软件代码210b位于存储器246中，并且由用户系统240经由网络通信链路232从计算平台202或真实性分析软件代码210b的授权第三方源接收。在一个实施方式中，网络通信链路232使得真实性分析软件代码210b能够通过分组交换网络(例如因特网)传输。

一旦被传送，例如通过网络通信链路232下载，真实性分析软件代码210b可以永久地被存储在存储器246中，并且可以由硬件处理器244在用户系统240上本地执行。例如，硬件处理器244可以是用户系统240的中央处理单元(CPU),其中硬件处理器244运行用户系统240的操作系统并执行真实性分析软件代码210b。

应注意的是，如图1所示，在一些实施方式中，用于认证数字内容的系统100的计算平台102可以采取一个或多个基于网络的计算机服务器的形式。然而，如图2所示，在其他实施方式中，用户系统240可以被配置为提供系统200的基本上所有功能。因此，在一些实施方式中，用于认证数字内容的系统的计算平台可以由用户系统240的计算平台242提供。也就是说，在一些实施方式中，用于认证数字内容的用户系统240的计算平台242可以采取移动通信设备计算平台的形式，例如智能手机或平板电脑。

图3示出了根据一个实施方式的适于由系统100/200的硬件处理器104/204或者用户系统240的硬件处理器244执行的真实性分析软件代码310的示例图。如图3所示，真实性分析软件代码310可以包括：内容接收和识别模块312、生物特征比较模块314、语言比较模块316和认证模块318。此外，图3示出了接收的数字内容336作为真实性分析软件代码310的输入，输入至生物特征比较354、语言习惯比较356和独白或对话比较358，以及作为真实性分析软件代码310的输出的真实性确定338。图3中还示出了包括生物特征简档322a和322b的生物特征数据库320，以及包括语言简档326a和326b以及脚本327a和327b的语言数据库324。

数字内容336通常对应于图1中的数字内容136，并且对应的特征可以共享归属于本公开任一特征的任何特性。图3中的真实性确定338、生物特征数据库320、生物特征简档322a和322b、语言数据库324、语言简档326a和326b以及脚本327a和327b通常分别对应于图1和图2中的真实性确定138/238、生物特征数据库120/220、生物特征简档122a/222a和122b/222b、语言数据库124/224、语言简档126a/226a和126b/226b以及脚本127a/227a和127b/227b，并且可以共享归属于本公开的相应特征的任何特性。

图3中的真实性分析软件代码310通常对应于图1和2中的真实性分析软件代码110/210a，并且在一些实施方式中，可以对应于图2中的真实性分析软件代码210b。换言之，真实性分析软件代码110/210a和真实性分析软件代码210b可以共享归属于本公开的真实性分析软件代码310的任何特性，反之亦然。因此，类似于真实性分析软件代码310，真实性分析软件代码110/210a和真实性分析软件代码210b可以包括分别对应于内容接收和识别模块312、生物特征比较模块314、语言比较模块316和认证模块318的多个模块。

将结合图1、图2和图3并参照图4、图5和图6，进一步地描述真实性分析软件代码110/210a/310和真实性分析软件代码210b/310的功能。图4是表示根据一种实施方式的由用于认证数字内容的系统使用的示例性方法的流程图460；而图5是表示根据另一实施方式的由用于认证数字内容的系统使用的示例性方法的流程图570。图6是表示根据又一实施方式的由用于认证数字内容的系统使用的示例性方法的流程图680。关于图4、图5和图6中概述的方法，应注意的是，为了不混淆本申请中对发明特征的讨论，在各个流程图460、570和680中省略了某些细节和特征。

结合图1、图2和图3并参照图4，流程图460开始于：接收数字内容136/336(动作461)。如上所述，在一些实施方式中，数字内容136/136可以采取没有音频的视频内容或AV内容的形式，例如：电影；包括电视节目系列、网络系列和/或视频日志的连载内容；体育内容；新闻内容；广告内容或视频游戏内容等等。替代地，在一些实施方式中，数字内容136可以采取数字照片的形式。

如图1所示，在一个实施方式中，系统100可以经由通信网络130和网络通信链路132从内容贡献者134或用户系统140接收数字内容136。在那些实施方式中，数字内容136/336可以由真实性分析软件代码110/210a/310接收，该真实性分析软件代码110/210a/310由计算平台102/202的硬件处理器104/204执行，并且使用内容接收和识别模块312。然而，结合图1地参照图2，在另一实施方式中，用户系统140/240可以使用收发器243从内容贡献者134接收数字内容136/336。在那些实施方式中，数字内容136/336可以由真实性分析软件代码210b/310接收，该真实性分析软件代码210b/310由用户系统140/240的硬件处理器244执行，并且使用内容接收和识别模块312。

流程图460继续，识别数字内容136/336中描绘的人的图像(动作462)。在一些实施方式中，数字内容136/336可以是包括广为人知的人(例如名人运动员、演员或政治家)的图像的数字照片、视频或AV内容。然而，更一般地，在数字内容136/336中被描绘并在动作462中被识别的人可以是具有一个或多个对应的生物特征简档(例如存储在生物特征数据库120/220/320中的生物特征简档122a/222a/322a和/或生物特征简档122b/222b/322b)的任何人。例如，这样的人可以是演员、记者、新闻播音员或包括系统100/200作为QC资源的媒体实体雇用的其他人才。

应注意的是，同一个人可能具有存储在生物特征数据库120/220/320中的多个生物特征简档。例如，随着年龄的增长，演员在其职业生涯的不同阶段可能具有不同的生物特征简档。替代地，或附加地，演员可以对他们扮演的每个角色或他们参与的每个电影或其他AV特征具有不同的生物特征简档。此外，在一些实施方式中，对于一个人来说，具有多个生物特征简档，每个特征关注一个或多个特定的生物特征参数，可能是有利的或被期望的。也就是说，例如，同一个人可能具有随时间变化的用于耳朵形状参数的第一生物特征简档、随时间变化的用于眼睛形状参数的第二生物特征简档、随时间变化的用于面部对称性的第三生物特征简档等等。

在由系统100/200在动作461中接收数字内容136/336的实施方式中，对包括在数字内容136/336中的图像中描绘的人的识别可以由真实性分析软件代码110/210a/310进行；该真实性分析软件代码110/210a/310由计算平台102/202的硬件处理器104/204执行，并且使用内容接收和识别模块312。然而，在由用户系统140/240在动作461中接收数字内容136/336的实施方式中，对包括在数字内容136/336中的图像中描绘的人的识别可以由真实性分析软件代码210b/310进行；该真实性分析软件代码210b/310由用户系统140/240的硬件处理器244执行，并且使用内容接收和识别模块312。

流程图460继续，确定图像中描绘的并在动作462中识别的人的耳朵形状参数(动作463)。在动作463中确定的耳朵形状参数可以是单个参数(例如图像中描绘的人的耳朵的单个维度)或者耳朵维度的组合(例如两个或更多耳朵维度的总和，或者两个或更多耳朵维度的哈希值)。与在动作463中确定的耳朵形状参数相关的耳朵尺寸可以包括耳朵长度(即从耳朵顶部到耳朵底部的距离)，在垂直于耳朵长度的方向上的耳朵宽度，耳垂形状(例如尖的、圆的、正方形的)，和/或耳朵相对于图像中描绘的人的一个或多个颅界标的旋转角度。应注意的是，耳朵形状参数对于认证身份可能特别有用，因为耳朵形状对于不同的个体可能是非常独特和不同的。

在由系统100/200在动作461中接收数字内容136/336的实施方式中，对在动作462中识别的图像中描绘的人的耳朵形状参数的确定可以由真实性分析软件代码110/210a/310来进行；该真实性分析软件代码110/210a/310由计算平台102/202的硬件处理器104/204执行，并且使用生物特征比较模块314。然而，在由用户系统140/240在动作461中接收数字内容136/336的实施方式中，对在动作462中识别的图像中描绘的人的耳朵形状参数的确定可以由真实性分析软件代码210b/310来进行；该真实性分析软件代码210b/310由用户系统140/240的硬件处理器244执行，并且使用生物特征比较模块314。

流程图460继续，确定在动作462中识别的图像中描绘的人的生物特征参数，该生物特征参数不同于上述的耳朵形状参数(动作464)。在一些实施方式中，在动作464中确定的生物特征参数可以是单个面部参数，例如图像中描绘的人的双眼间距(以下称为“两眼间距”)或嘴巴形状或眼睛形状参数。然而，在其他实施方式中，在动作464中确定的生物特征参数可以是这样的面部参数的组合，例如两个或更多面部参数的总和，或者两个或更多面部参数的哈希值。

在由系统100/200在动作461中接收数字内容136/336的实施方式中，对图像中描绘并在动作462中识别的人的生物特征参数的确定可以由真实性分析软件代码110/210a/310来进行；该真实性分析软件代码110/210a/310由计算平台102/202的硬件处理器104/204执行，并且使用生物特征比较模块314。然而，在由用户系统140/240在动作461中接收数字内容136/336的实施方式中，对在动作462中识别的图像中描绘的人的生物特征参数的确定可以由真实性分析软件代码210b/310来进行；该真实性分析软件代码210b/310由用户系统140/240的硬件处理器244执行，并且使用生物特征比较模块314。

流程图460继续，计算在动作463中确定的图像中描绘的人的耳朵形状参数与在动作464中确定的图像中描绘的人的生物特征参数的比率(动作465)。在动作465中计算的比率可以表示为无量纲的、纯数字的比率，表示为包括维度单位的比率，或者表示为哈希值。在由系统100/200在动作461中接收数字内容136/336的实施方式中，图像中描绘的人的耳朵形状参数与图像中描绘的人的生物特征参数的比率的计算可以由真实性分析软件代码110/210a/310来进行；该真实性分析软件代码110/210a/310由计算平台102/202的硬件处理器104/204执行，并且使用生物特征比较模块314。然而，在由用户系统140/240在动作461中接收数字内容136/336的实施方式中，图像中描绘的人的耳朵形状参数与图像中描绘的人的生物特征参数的比率的计算可以由真实性分析软件代码210b/310来进行；该真实性分析软件代码210b/310由用户系统140/240的硬件处理器244执行，并且使用生物特征比较模块314。

举例来说，生物特征比较模块314可以包括使用神经网络(NN)实施的多个特征分类器，例如耳朵分类器以及其他生物特征分类器。这些分类器可以用耳朵和其他生物特征来训练，并且在耳朵分类器的情况下，每个NN将学习特征来区分样本，例如耳朵长度、耳朵宽度、耳垂形状等。为了比较耳朵，例如，可以计算每个耳朵样本的特征向量以及这些向量之间的距离。一个耳朵样本与另一个耳朵样本越相似，它们各自的特征向量之间的距离就越近。

流程图460继续，对在动作465中计算出的比率与预定值进行比较(动作466)。例如，在被识别为在图像中被描绘的人是演员、记者、新闻播音员或包括系统100/200作为QC资源的媒体实体所雇用的其他人才的情况下，可以为每个这样的个人，在生物特征数据库120/220/320中存储在动作465中计算的比率的预定值，例如作为生物特征简档122a/222a/322a或122b/222b/322b之一的一部分。

在由系统100/200在动作461中接收数字内容136/336的实施方式中，对在动作465中计算的比率与存储在生物特征数据库120/220/320中的预定值的比较可以由真实性分析软件代码110/210a/310来进行；该真实性分析软件代码110/210a/310由计算平台102/202的硬件处理器104/204执行，并且使用生物特征比较模块314。然而，在由用户系统140/240在动作461中接收数字内容136/336的实施方式中，在动作465中计算的比率与存储在生物特征数据库120/220/320中的预定值的比较可以由真实性分析软件代码210b/310来进行；该真实性分析软件代码110/210a/310由用户系统140/240的硬件处理器244执行，并且使用生物特征比较模块314。例如，在那些后面的实施方式中，用户系统140/240可以利用收发器243和通信网络130来访问存储在系统100/200的计算平台102/202上的生物特征数据库120/220/320。应注意的是，动作466导致生物特征比较354被生物特征比较模块314作为输入，提供给真实性分析软件代码110/210a/310或真实性分析软件代码210b/310的认证模块318。

流程图460概述的示例性方法可以结束于：基于在动作465中计算的比率与存储在生物特征数据库120/220/320中的预定值的生物特征比较354，来确定图像中描绘的人是否是该人的真实描绘(动作467)。例如，在生物特征比较354显示了在动作465中计算的比率与存储在生物特征数据库120/220/320中的预定值之间的匹配的情况下，真实性确定138/238/338将图像中描绘的人识别为该人的真实描绘。此外，在一些实施方式中，动作467可以包括：当基于计算出的比率与预定值的比较，确定图像中描绘的人是该人的真实描绘的结果时，确定数字内容136/336是真实的。

应注意的是，如为了本公开的目的所定义的，术语“匹配”指的是在预定容差内基本相同或相似的值的比较结果。作为特定示例，在预定百分之十(10％)方差的容限的情况下，每当在动作465中计算的比率是存储在生物特征数据库120/220/320中的预定值的90％到110％时，在动作465中计算的比率和存储在生物特征数据库120/220/320中的预定值之间的“匹配”就可能发生。

在由系统100/200在动作461中接收数字内容136/336的实施方式中，动作467可以由真实性分析软件代码110/210a/310进行；该真实性分析软件代码110/210a/310由计算平台102/202的硬件处理器104/204执行，并且使用认证模块318来输出真实性确定138/238/338。然而，在由用户系统140/240在动作461中接收数字内容136/336的实施方式中，动作467可以由真实性分析软件代码210b/310进行；该真实性分析软件代码210b/310由用户系统140/240的硬件处理器244执行，并且使用认证模块318来输出真实性确定138/238/338。

应注意的是，在一些实施方式中，硬件处理器104/204可以执行真实性分析软件代码110/210a/310，或者用户系统140/240的硬件处理器244可以执行真实性分析软件代码210b/310，以在可以省略人工参与的自动化过程中执行动作461、462、463、464、465、466和467。

现在结合图1、图2和图3并参照图5，如上所述，图5示出了根据另一实施方式的由用于认证数字内容的系统使用的示例性方法的流程图570。流程图570开始于：接收具有包括独白和/或对话的音轨的数字内容136/336(动作571)。如上所述，在一些实施方式中，数字内容136/136可以采取AV内容的形式，例如：电影；包括电视节目系列、网络系列和/或视频日志的连载内容；体育内容；新闻内容；广告内容或具有包括独白和/或对话的音轨的视频游戏内容等等。

流程图570继续，识别数字内容136/336中描绘的人的图像，其中描绘包括图像中描绘的人对独白和/或对话的参与(动作572)。在一些实施方式中，数字内容136/336可以是AV内容，包括广为人知的人的图像，例如名人运动员、演员或政治家。然而，更一般地，在数字内容136/336中被描绘并在动作572中被识别的人可以是具有一个或多个对应的语言简档(例如存储在语言数据库124/224/320中的语言简档122a/226a/326a和/或语言简档122b/226b/326b)的任何人。例如，这样的人可以是演员、记者、新闻播音员或包括系统100/200作为QC资源的媒体实体雇用的其他人才。

应注意的是，在数字内容136/336包括不止一个人作为参与者，但仅对一个人的身份认证感兴趣的实施方式中，包括在数字内容136/336中的音轨可以被分割成不同的音频信号，从而隔离每个参与者，例如使用声纹分割聚类算法。一旦每个人的语音的音频被分离到其自己的音频文件中，流程图570所概述的动作可以对与感兴趣的人相对应的音频数据执行，但不能对其他人执行。

还应注意的是，同一个人可以具有存储在语言数据库124/224/324中的多个语言简档。例如，随着年龄的增长，演员在其职业生涯的不同阶段可能具有不同的语言简档。替代地，或附加地，演员可以对他们扮演的每个角色或他们参与的每个电影或其他音频表演具有不同的语言简档。此外，在一些实施方式中，对于一个人来说，具有多个语言简档，每个特征关注不同的语言习惯或属性，可能是有利的或被期望的。也就是说，例如，同一个演员可能具有针对他们随着时间的推移而具有、克服或描绘的语音缺陷的第一语言简档，针对他们随着时间的推移而呈现的口音的第二生物特征简档等等。

在由系统100/200在动作571中接收数字内容136/336的实施方式中，对包括在数字内容136/336中的图像中描绘的人的识别可以由真实性分析软件代码110/210a/310进行；该真实性分析软件代码110/210a/310由计算平台102/202的硬件处理器104/204执行，并且使用内容接收和识别模块312。然而，在由用户系统140/240在动作571中接收数字内容136/336的实施方式中，对包括在数字内容136/336中的图像中描绘的人的识别可以由真实性分析软件代码210b/310进行；该真实性分析软件代码210b/310由用户系统140/240的硬件处理器244执行，并且使用内容接收和识别模块312。

流程图570继续，基于对独白和/或对话的参与，检测在动作572中识别的图像中描绘的人的至少一种语言习惯(动作573)。在动作573中检测到的一种或多种语言习惯可以包括：图像中描绘的人的语音缺陷、语音做作、语音节奏、地方口音或地方方言中的一种或多种等等。在由系统100/200在动作571中接收数字内容136/336的实施方式中，对在动作572中识别的图像中描绘的人一种或多种语言习惯的检测可以由真实性分析软件代码110/210a/310进行；该真实性分析软件代码110/210a/310由计算平台102/202的硬件处理器104/204执行，并且使用语言比较模块316。然而，在由用户系统140/240在动作571中接收数字内容136/336的实施方式中，对在动作572中识别的图像中描绘的人的一种或多种语言习惯的检测可以由真实性分析软件代码210b/310进行；该真实性分析软件代码210b/310由用户系统140/240的硬件处理器244执行，并且使用语言比较模块316。

流程图570继续，获取图像中描绘的并且在动作572中识别的人的语言简档126a/226a/326a或126b/226b/326b之一，其中语言简档包括图像中描绘的人的一个或多个预定语言习惯(动作574)。在由系统100/200在动作571中接收数字内容136/336的实施方式中，从语言数据库124/224/324中获得语言简档126a/226a/326a或126b/226b/326b之一可以由真实性分析软件代码110/210a/310进行；该真实性分析软件代码110/210a/310由计算平台102/202的硬件处理器104/204执行，并且使用语言比较模块316。

然而，在由用户系统140/240在动作571中接收数字内容136/336的实施方式中，从语言数据库124/224/324中获得语言简档126a/226a/326a或126b/226b/326b之一可以由真实性分析软件代码210b/310进行；该真实性分析软件代码210b/310由用户系统140/240的硬件处理器244执行，并且使用语言比较模块316。例如，在后面的那些实施方式中，用户系统140/240可以利用收发器243和通信网络130来访问存储在系统100/200的计算平台102/202上的语言数据库124/224/324，以获得语言简档126a/226a/326a或126b/226b/326b之一。

流程图570继续，对在动作573中检测到的一个或多个语言习惯与包括在语言简档126a/226a/326a或126b/226b/326b之一中的一个或多个预定语言习惯进行比较(动作575)。例如，在被识别为在图像中被描绘的人是演员、记者、新闻播音员或包括系统100/200作为QC资源的媒体实体所雇用的其他人才的情况下，包括每个这样的个人的一个或多个语言习惯的语言简档可以被存储在语言数据库124/224/324中，例如作为语言简档126a/226a/326a或126b/226b/326b之一的一部分。动作575可以通过以下方式来执行：使用语音到文本算法翻译音频，并与其他人相比识别来自该人的重复词汇。可以在动作575中使用的度量是本领域已知的术语频率-逆文档频率(TF-IDF)。

在由系统100/200在动作571中接收数字内容136/336的实施方式中，在动作573中检测到的一个或多个语言习惯与包括在语言简档126a/226a/326a或126b/226b/326b之一中的一个或多个预定语言习惯的比较可以由真实性分析软件代码110/210a/310进行；该真实性分析软件代码110/210a/310由计算平台102/202的硬件处理器104/204执行，并且使用语言比较模块330。然而，在由用户系统140/240在动作571中接收数字内容136/336的实施方式中，在动作573中检测到的一个或多个语言习惯与包括在语言简档126a/226a/326a或126b/226b/326b之一中的一个或多个预定语言习惯的比较可以由真实性分析软件代码210b/310进行；该真实性分析软件代码210b/310由用户系统140/240的硬件处理器244执行，并且使用语言比较模块316。应注意的是，动作575导致语言习惯比较356被语言比较模块316作为输入，提供给真实性分析软件代码110/210a/310或真实性分析软件代码210b/310的认证模块318。

在身份被认证的人是演员或其他类型的表演者的实施方式中，将该人“在角色中”时的预定语言习惯与他们作为真实的自己说话时展示的预定语言习惯区分开，可能是有利的或被期望的。例如，这种区分将有助于识别深度伪造的数字内容，其中，作为真实自我说话的表演者展示了他们过去所扮演的人物(character)或角色(role)的语言习惯。这种区分还将有助于识别深度伪造的数字内容，其中，深度伪造生成器是基于对作为其真实自我的表演者的采访来训练的，但是深度伪造将人物描绘成好像在表演角色。

流程图570概述的示例性方法可以结束于：基于动作573中检测到的一个或多个语言习惯与包括在语言简档126a/226a/326a或126b/226b/326b之一中的一个或多个预定语言习惯的语言习惯比较356，来确定图像中描绘的人是否是该人的真实描绘(动作576)。例如，当语言习惯比较356显示在动作573中检测到的一个或多个语言习惯与包括在语言简档126a/226a/326a或126b/226b/326b之一中的一个或多个预定语言习惯之间的匹配在预定容限内时，真实性确定138/238/338将图像中描绘的人识别为该人的真实描绘。此外，在一些实施方式中，动作576可以包括：当基于一个或多个检测到的语言习惯与一个或多个预定语言习惯的比较，图像中描绘的人匹配该人的真实描绘时，确定数字内容136/336是真实的。

在由系统100/200在动作571中接收数字内容136/336的实施方式中，动作576可以由真实性分析软件代码110/210a/310进行；该真实性分析软件代码110/210a/310由计算平台102/202的硬件处理器104/204执行，并且使用认证模块318来输出真实性确定138/238/338。然而，在由用户系统140/240在动作571中接收数字内容136/336的实施方式中，动作576可以由真实性分析软件代码210b/310进行；该真实性分析软件代码210b/310由用户系统140/240的硬件处理器244执行，并且使用认证模块318来输出真实性确定138/238/338。

应注意的是，在一些实施方式中，硬件处理器104/204可以执行真实性分析软件代码110/210a/310，或者用户系统140/240的硬件处理器244可以执行真实性分析软件代码210b/310，以在可以省略人工参与的自动化过程中执行动作571、572、573、574、575和576。

现在结合图1、图2和图3并参考图6，如上所述，图6是表示根据又一实施方式的由用于认证数字内容的系统使用的示例性方法的流程图680。流程图680开始于：接收具有包括独白和/或对话的音轨的数字内容136/336(动作681)。如上所述，在一些实施例中，数字内容136/136可以采取没有视频的音频或者AV内容的形式，例如：电影；包括电视节目系列、网络系列和/或视频日志的连载内容；体育内容；新闻内容；广告内容或具有包括独白和/或对话的音轨的视频游戏内容等等。

流程图680继续，将数字内容136/336识别为具有存储在语言数据库124/224/324中的对应脚本的预先存在的内容(动作682)。在一些实施方式中，数字内容136/336可以是例如先前制作的电影、电视节目、新闻广播、体育广播、采访、广告或视频游戏形式的AV内容。然而，更一般地，在动作682中被识别为预先存在的内容的数字内容136/336可以是包括独白和/或对话的任何数字内容，其中相应的脚本(例如，脚本127a/227a/327a或127b/227b/327b)被存储在语言数据库124/224/324中。

在由系统100/200在动作681中接收数字内容136/336的实施方式中，将数字内容136/336识别为具有存储在语言数据库124/224/324中的对应脚本的预先存在的内容可以由真实性分析软件代码110/210a/310进行；该真实性分析软件代码110/210a/310由计算平台102/202的硬件处理器104/204执行，并且使用内容接收和识别模块312。然而，在由用户系统140/240在动作681中接收数字内容136/336的实施方式中，将数字内容136/336识别为具有存储在语言数据库124/224/324中的对应脚本的预先存在的内容可以由真实性分析软件代码210b/310进行；该真实性分析软件代码210b/310由用户系统140/240的硬件处理器244执行，并且使用内容接收和识别模块312。

流程图680继续，提取包括在数字内容136/336中的独白和/或对话的样本(动作683)。取决于特定的使用情况，动作683可以包括采样数字内容136/336中包括的全部独白和/或对话，或者少于全部独白和/或对话。例如，在对少于全部独白和/或对话进行采样的使用情况下，可以从数字内容136/336中提取单个样本或多个样本。当提取多个样本时，这些样本可以从数字内容136/336中以随机间隔提取，或者在预定位置提取或以预定间隔提取，例如时间码位置或时间码间隔，或者帧号或帧间隔。

在由系统100/200在动作681中接收数字内容136/336的实施方式中，从数字内容136/336中提取一个或多个独白和/或对话样本可以由真实性分析软件代码110/210a/310进行；该真实性分析软件代码110/210a/310由计算平台102/202的硬件处理器104/204执行，并且使用语言比较模块316。然而，在由用户系统140/240在动作681中接收数字内容136/336的实施方式中，从数字内容136/336中提取一个或多个独白和/或对话样本可以由真实性分析软件代码210b/310进行；该真实性分析软件代码210b/310由用户系统140/240的硬件处理器244执行，并且使用内容接收和识别模块316。

流程图680继续，对于在动作683中提取的独白和/或对话样本与来自脚本127a/227a/327a或127b/227b/327b之一的相应样本，执行比较(动作684)。例如，在数字内容136/336是由媒体实体使用系统100/200作为QC资源制作或拥有的内容的情况下，由媒体实体制作或拥有的每个数字内容136/336的项目中所包括的所有独白和/或对话和/或隐藏字幕(CC)文件包括在脚本中，该脚本可以存储在语言数据库124/224/324中。

动作684可以通过以下方式来执行：使用语音到文本算法翻译音频，并将该翻译与脚本127a/227a/327a或127b/227b/327b中之一的等同部分进行比较。应注意的是，动作684可以包括将语音到文本的翻译与脚本对准，以识别脚本的等同部分。

在由系统100/200在动作681中接收数字内容136/336的实施方式中，在动作683中提取的独白和/或对话样本与脚本127a/227a/327a或127b/227b/327b之一的相应样本的比较可以由真实性分析软件代码110/210a/310进行；该真实性分析软件代码110/210a/310由计算平台102/202的硬件处理器104/204执行，并且使用语言比较模块316。然而，在由用户系统140/240在动作681中接收数字内容136/336的实施方式中，在动作683中提取的独白和/或对话样本与脚本127a/227a/327a或127b/227b/327b之一的相应样本的比较可以由真实性分析软件代码210b/310进行；该真实性分析软件代码210b/310由用户系统140/240的硬件处理器244执行，并且使用语言比较模块316。例如，在那些后面的实施方式中，用户系统140/240可以利用收发器243和通信网络130来访问存储在系统100/200的计算平台102/202上的语言数据库124/224/324，以获得脚本127a/227a/327a或127b/227b/327b之一或其样本。应注意的是，动作684导致独白和/或对话比较358被语言比较模块316作为输入，提供给真实性分析软件代码110/210a/310或真实性分析软件代码210b/310的认证模块318。

流程图680概述的示例性方法可以结束于：基于在动作683中提取的独白和/或对话的样本与脚本127a/227a/327a或127b/227b/327b之一的相应样本的独白和/或对话比较358，确定数字内容136/336中包括的独白和/或对话是否真实(动作685)。例如，当独白和/或对话比较358显示在动作683中提取的独白和/或对话的样本与脚本127a/227a/327a或127b/227b/327b之一的相应样本之间的匹配在预定容限内时，真实性确定138/238/338将数字内容136/336中包括的独白和/或对话识别为真实的。此外，在一些实施方式中，动作685可以包括：基于提取的独白和/或对话样本与脚本127a/227a/327a或127b/227b/327b之一的相应样本的比较，来确定数字内容136/336是真实的，其中这样的相应样本可以包括独白和/或对话和/或CC文件的内容。

在由系统100/200在动作681中接收数字内容136/336的实施方式中，动作685可以由真实性分析软件代码110/210a/310进行；该真实性分析软件代码110/210a/310由计算平台102/202的硬件处理器104/204执行，并且使用认证模块318来输出真实性确定138/238/338。然而，在由用户系统140/240在动作681中接收数字内容136/336的实施方式中，动作685可以由真实性分析软件代码210b/310进行；该真实性分析软件代码210b/310由用户系统140/240的硬件处理器244执行，并且使用认证模块318来输出真实性确定138/238/338。

应注意的是，在一些实施方式中，硬件处理器104/204可以执行真实性分析软件代码110/210a/310，或者用户系统140/240的硬件处理器244可以执行真实性分析软件代码210b/310，以在可以省略人工参与的自动化过程中执行动作681、682、683、684和685。还应注意的是，在上述图4、图5和图6中的方法可以组合使用以认证数字内容。换言之，在一些实施方式中，流程图460和570所述的方法可以一起被执行以确定数字内容的真实性；而在其他实施方式中，流程图460和680所述的方法可以作为真实性评估的一部分一起被执行。在其他实施方式中，流程图570和680所述的方法可以一起执行。在又一实施方式中，流程图460、570和680所述的方法可以一起被执行，以确定数字内容的真实性。

因此，本申请公开了用于认证数字内容的系统，其克服了传统技术中的缺点和不足。根据以上描述，很明显，在不脱离本申请中描述的概念的范围的情况下，可以使用各种技术来实现这些概念。此外，尽管已经具体参照某些实施方式描述了这些概念，但是本领域普通技术人员将认识到，在不脱离这些概念的范围的情况下，可以在形式和细节上进行改变。因此，所描述的实施方式在所有方面都被认为是说明性的而非限制性的。还应当理解，本申请不限于本文描述的特定实施方式，而是可以进行许多重新布置、修改和替换且不背离本公开的范围。

Claims

1.一种用于认证数字内容的系统，该系统包括：

包括硬件处理器和系统存储器的计算平台；

存储在所述系统存储器中的软件代码；

所述硬件处理器被配置为执行所述软件代码以：

接收数字内容；

识别数字内容中描绘的人的图像；

确定图像中描绘的人的耳朵形状参数；

确定图像中描绘的人的生物特征参数，该生物特征参数不同于所述耳朵形状参数；

计算图像中描绘的人的耳朵形状参数与图像中描绘的人的生物特征参数的比率；

将计算出的比率与预定值进行比较；以及

基于计算出的比率与预定值的比较，确定图像中描绘的人是否是该人的真实描绘。

2.根据权利要求1所述的系统，其中，所述硬件处理器还被配置为执行软件代码以：

当基于计算出的比率与预定值的比较，确定图像中描绘的人是该人的真实描绘时，确定数字内容是真实的。

3.根据权利要求1所述的系统，其中，图像中描绘的人的生物特征参数包括：图像中描绘的人的眼睛的两眼间距。

4.根据权利要求1所述的系统，其中，图像中描绘的人的生物特征参数包括：图像中描绘的人的眼睛形状参数或嘴巴形状参数中的至少一种。

5.根据权利要求1所述的系统，其中，接收的数字内容包括：体育内容、电视节目内容、电影内容、广告内容或视频游戏内容中的至少一者。

6.根据权利要求1所述的系统，其中，计算平台包括至少一个基于网络的计算机服务器。

7.根据权利要求1所述的系统，其中，计算平台包括移动通信设备。

8.一种用于认证数字内容的系统，该系统包括：

包括硬件处理器和系统存储器的计算平台；

存储在所述系统存储器中的软件代码；

所述硬件处理器被配置为执行所述软件代码以：

接收具有音轨的数字内容，所述音轨包括独白或对话中的至少一个；

识别数字内容中描绘的人的图像，该描绘包括由图像中描绘的人对于独白或对话中的至少一者的参与；

基于对独白或对话中的至少一者的参与，检测图像中描绘的人的至少一种语言习惯；

获得图像中描绘的人的语言简档，所述语言简档包括图像中描绘的人的至少一种预定语言习惯；

将至少一种检测到的语言习惯与至少一种预定语言习惯进行比较；以及

基于至少一种检测到的语言习惯与至少一种预定语言习惯的比较，确定图像中描绘的人是否是该人的真实描绘。

9.根据权利要求8所述的系统，其中，所述硬件处理器还被配置为执行软件代码以：

当基于至少一种检测到的语言习惯与至少一种预定语言习惯的比较，确定图像中描绘的人是该人的真实描绘时，确定数字内容是真实的。

10.根据权利要求8所述的系统，其中，至少一种预定语言习惯包括：图像中所描绘的人的语音缺陷或语音做作中的至少一种。

11.根据权利要求8所述的系统，其中，至少一种预定语言习惯包括：图像中描绘的人的语音节奏、地方口音或地方方言中的至少一种。

12.根据权利要求8所述的系统，其中，接收的数字内容包括：体育内容、电视节目内容、电影内容、广告内容或视频游戏内容中的至少一者。

13.根据权利要求8所述的系统，其中，计算平台包括至少一个基于网络的计算机服务器。

14.根据权利要求8所述的系统，其中，计算平台包括移动通信设备。

15.一种用于认证数字内容的系统，该系统包括：

包括硬件处理器和系统存储器的计算平台；

存储在所述系统存储器中的软件代码；

所述硬件处理器被配置为执行所述软件代码以：

接收具有音轨的数字内容，该音轨包括独白或对话中的至少一个；

将数字内容识别为具有存储在语言数据库中的相应脚本的预先存在的内容；

提取包括在接收的数字内容中的独白或对话中的至少一个的样本；

将包括在接收的数字内容中的独白或对话中的至少一个的提取样本与相应的脚本样本进行比较；以及

基于独白或对话中的至少一个的提取样本与相应的脚本样本的比较，确定独白或对话中的至少一个是否真实。

16.根据权利要求15所述的系统，其中，所述硬件处理器还被配置为执行软件代码以：

当基于独白或对话中的至少一个的提取样本与相应的脚本样本的比较，确定独白或对话中的至少一个为真实时，确定数字内容是真实的。

17.根据权利要求15所述的系统，其中独白或对话中的至少一个的提取样本包括：由接收的数字内容的音轨中的独白或对话中的至少一个组成的整体。

18.根据权利要求15所述的系统，其中，接收的数字内容包括：体育内容、电视节目内容、电影内容、广告内容或视频游戏内容中的至少一者。

19.根据权利要求15所述的系统，其中，计算平台包括至少一个基于网络的计算机服务器。

20.根据权利要求15所述的系统，其中，计算平台包括移动通信设备。