CN113269123B

CN113269123B - 证件识别方法和系统

Info

Publication number: CN113269123B
Application number: CN202110640336.4A
Authority: CN
Inventors: 黄江波
Original assignee: Alipay Labs Singapore Pte Ltd
Current assignee: Alipay Labs Singapore Pte Ltd
Priority date: 2020-07-01
Filing date: 2021-06-08
Publication date: 2022-07-29
Anticipated expiration: 2041-06-08
Also published as: US11295122B2; US20220004754A1; CN113269123A; EP3933676B1; EP3933676A1; SG10202006357UA

Abstract

本申请提供了一种证件识别方法和证件识别系统。该方法包括：使用图像帧提取设备，从视频剪辑提取图像帧序列，该视频剪辑拍摄有对象对表面的作用；使用音频信号提取设备，从该视频剪辑提取音频信号流；使用处理设备，利用经训练的证件识别模型，基于所述图像帧序列生成第一得分并基于所述音频信号流生成第二得分。该证件识别模型是利用多个历史视频剪辑来训练的，多个历史视频剪辑中的每一个拍摄有证件对表面的作用。该方法还包括：使用处理设备，基于所述第一得分和所述第二得分生成识别得分；以及使用所述处理设备，基于所述识别得分与识别阈值之间的比较来识别该视频剪辑中的对象是否为证件。

Description

证件识别方法和系统

技术领域

本公开总体上涉及一种证件识别方法以及一种证件识别系统。

背景技术

当某人未经他人允许使用他人的身份(ID)信息(例如，姓名、身份证号、信用卡号等)来进行欺诈或其它犯罪时，就会发生身份盗用。商业实体和服务提供商执行电子化了解你的客户(eKYC)(一种数字尽职调查流程)来减少身份盗用并验证其用户的身份。eKYC流程包括在商业实体或服务提供商与用户之间的关系的初始阶段进行的一系列检查，以认证用户的身份。eKYC流程中的其中一项检查通常包括用户提交其官方ID证件(例如，身份证、驾照、护照等)的扫描或照片副本作为认证流程的一部分，以验证固有因素(即，用户是否是他/她声称的人)和所有权因素(即，用户是否拥有实际的物理证件)。通常对提交的证件进行进一步分析以对用户进行认证。

但是，可能难以通过官方ID证件的扫描或照片副本来验证所有权因素。商业实体或服务提供商用来验证所有权因素的方法通常包括使用计算机视觉算法检测和识别证件。然而，这些计算机视觉算法可能不容易识别被操控或伪造的ID证件，并且通常需要较大的训练数据集、资源和时间来实现较低的识别错误率。此外，试图使计算机视觉算法无效的恶意行为人可能会在eKYC流程中使用真实ID证件的扫描/照片副本来进行身份盗用。计算机视觉算法可以识别出这些提交的证件在视觉上对应于实际的物理证件，并在满足所有权因素要求的基础上允许用户认证流程进一步进行。因此，可能难以用计算机视觉算法证明用户拥有实际的物理证件。

发明内容

在实施例中，提供了一种证件识别方法。该方法包括：使用图像帧提取设备，从视频剪辑提取图像帧序列，所述视频剪辑拍摄有对象对表面的作用；使用音频信号提取设备，从视频剪辑提取音频信号流；以及使用处理设备，利用经训练的证件识别模型，基于图像帧序列生成第一得分并基于音频信号流生成第二得分。所述证件识别模型是通过多个历史视频剪辑来训练的，多个历史视频剪辑中的每一个都拍摄有证件对表面的作用。该方法还包括：使用处理设备，基于第一得分和第二得分生成识别得分；以及使用处理设备，基于识别得分与识别阈值之间的比较来识别视频剪辑中的对象是否为证件。

在另一实施例中，提供了一种证件识别系统。该证件识别系统包括：图像帧提取设备，被配置为从视频剪辑提取图像帧序列，所述视频剪辑拍摄有对象对表面的作用；以及音频信号提取设备，被配置为从视频剪辑提取音频信号流。该证件识别系统还包括：处理设备，被配置为利用经训练的证件识别模型，基于图像帧序列生成第一得分并基于音频信号流生成第二得分；基于第一得分和第二得分生成识别得分；以及基于识别得分与识别阈值之间的比较来识别视频剪辑中的对象是否为证件。通过多个历史视频剪辑来训练证件识别模型，多个历史视频剪辑中的每一个都拍摄有证件对表面的作用。

在附图和以下描述中对本说明书的主题的一个或多个实施例的细节进行阐述。结合本公开的附图和背景技术，从后续的描述和所附权利要求书中，其它期望的特征和特性将变得明显。

附图说明

仅以示例的方式并结合附图，根据以下书面描述，对本领域普通技术人员而言，实施例将得到更好地理解并且更加显而易见，其中：

图1示出根据本公开实施例的用于识别证件的方法的流程图。

图2示出根据本公开实施例的用于训练证件识别模型的方法的流程图。

图3示出根据本公开实施例的证件识别模型的示例的示意图。

图4示出根据本公开实施例的证件识别系统的示例的示意图。

图5示出用于实现图4的系统的计算设备的示意图。

技术人员将理解，图中的元件是为了简单和清楚而示出的，并且不一定是按比例绘制的。例如，相对于其它元件，可能夸大了图示、框图或流程图中的一些元件的尺寸，以帮助提高对本实施例的理解。

具体实施方式

参考附图仅以示例的方式对本公开的实施例进行描述。附图中相同的附图标记和字符表示相同的元件或等同物。

以下描述的某些部分是根据对计算机存储器内的数据进行操作的算法和功能或符号表示法来显性或隐性呈现的。这些算法描述和功能或符号表示法是数据处理领域的技术人员用来将其工作的实质最有效地传达给本领域其它技术人员的手段。这里，算法通常被认为是导致所需结果的自相一致的步骤序列。这些步骤是需要对物理量，例如，能够存储、传送、组合、比较以及以其它方式操控的电、磁或光信号等进行物理操控的步骤。

除非另有特别说明，并且从以下内容显而易见，否则应当理解，在整个本说明书中，利用诸如“关联”、“计算”、“比较”、“确定”、“提取”、“转发”、“生成”、“识别”、“包括”、“插入”、“修饰”、“接收”、“记录”、“替换”、“扫描”、“发送”、“更新”等之类的术语进行的讨论是指计算机系统或类似电子设备对表示为计算机系统内的物理量的数据进行操控并转换为类似地表示为计算机系统内或其它信息存储、传输或显示设备内的物理量的其它数据的行为和流程。

本说明书还公开了用于执行方法的操作的装置。这样的装置可以具体构造为用于所需目的，或者可以包括由存储在其中的计算机程序选择性地激活或重新配置的计算机或其它计算设备。本文提出的算法和显示器与任何特定的计算机或其它装置都不是固有相关的。根据本文的教导，各种机器都可以与程序一起使用。可替代地，用于执行所需方法步骤的更专门的装置的构造可能是合适的。以下描述中将出现计算机的结构。

另外，本说明书还隐含地公开了一种计算机程序，因为对于本领域技术人员而言显而易见的是，可以通过计算机代码来实施本文描述的方法的各个步骤。计算机程序不旨在限于任何特定的编程语言及其实施方式。应当理解，各种编程语言及其编码可以用于实现本文所包含的本公开的教导。而且，计算机程序不旨在限于任何特定的控制流程。计算机程序还有许多其它变体，其在不背离本公开的精神或范围的情况下可以使用不同的控制流程。

此外，计算机程序的一个或多个步骤可以并行而不是顺序地执行。这样的计算机程序可以存储在任何计算机可读介质上。计算机可读介质可以包括诸如磁盘或光盘等存储设备、存储芯片、或适合与计算机接口的其它存储设备。计算机可读介质还可以包括诸如在因特网系统中例示的硬连线介质，或者诸如在移动电话系统中例示的无线介质。计算机程序当加载在计算机上并在计算机上执行时，有效地导致了实现优选方法的步骤的装置。

在本公开的实施例中，术语“服务器”的使用可以表示单个计算设备或一起操作以执行特定功能的互连的计算设备的至少一个计算机网络。换句话说，服务器可以包含在单个硬件单元内，或者分布在几个或许多不同的硬件单元之间。

在说明书中，术语“配置为”与系统、装置和计算机程序组件结合使用。对于将配置为执行特定操作或动作的一个或多个计算机的系统，意味着该系统已在其上安装了软件、固件、硬件或其组合，这些软件、固件、硬件或其组合在操作中使系统执行这些操作或动作。对于将配置为执行特定操作或动作的一个或多个计算机程序，意味着该一个或多个程序包括指令，该指令在由数据处理装置执行时，使该装置执行这些操作或动作。对于将配置为执行特定操作或动作的专用逻辑电路，意味着该电路具有执行这些操作或动作的电子逻辑。

电子化了解你的客户(eKYC)是由商业实体或服务提供商执行的数字尽职调查流程，用于验证其用户的身份，检测身份盗用并防止身份欺诈。身份欺诈是他人未经授权使用某人的个人信息，从而构成犯罪或者欺骗或欺诈某人或第三方。对用户的认证可以被视为一种检测形式，通过该形式，可以验证用户的合法性，并且实现在欺诈行为前识别潜在的欺诈者。有效的认证可以增强商业实体或服务提供商的系统的安全性，并减少身份欺诈。

在典型的eKYC流程中，要求用户拍摄其身份(ID)证件(例如，身份证、驾照、护照等)的照片作为认证流程的一部分，以验证所有权因素(即，用户是否拥有实际的物理证件)和固有因素(即，用户是否是他/她声称的人)。目前在eKYC流程中用于验证所有权因素的方法包括，使用实际的ID证件和欺诈性的ID证件的图像来训练计算机视觉算法，使用经训练的计算机视觉算法对呈现的图像在视觉上是否对应于实际的证件进行分类，并将分类结果与所有权因素的指示相关联。例如，指示所呈现的图像对应于实际证件的分类结果将与验证后的所有权因素相关联。但是，诸如身份盗用等的恶意行为人可能会在eKYC流程中使用真实证件的扫描/照片副本。此类证件可能会使计算机视觉算法无效，因为计算机视觉算法可以识别出这些证件在视觉上对应于实际的物理证件，用户拥有该物理证件并允许进一步进行eKYC流程。

实施例试图提供一种证件识别方法和一种证件识别系统，其可以使用来自视频剪辑的视频和音频数据来识别对象是否为物理证件，在该视频剪辑中拍摄有对象对表面的作用。因此，所述证件识别方法和系统可以提供用于在eKYC流程中验证所有权因素的替代方法。在实施例中，所述证件识别方法和系统包括经训练的证件识别模型。eKYC流程中的用户会记录在视频剪辑中证件对表面的作用。可以从视频剪辑中提取图像帧和音频信号，并且经训练的证件识别模型可以使用提取的图像帧和音频信号来识别视频剪辑中的对象是否为eKYC流程中所需的证件。

说明书中描述的技术产生了一种或多种技术效果。特别地，如果视频剪辑中的对象是实际的物理证件，则使用从拍摄对象对表面的作用的视频剪辑中提取的图像帧和音频信号两者进行识别的证件识别方法的实施方式，与使用传统的计算机视觉算法相比，可以在eKYC流程中对所有权因素(即，用户拥有实际的物理证件)进行更可靠且更有效地验证。

图1示出根据本公开实施例的一种用于识别证件的方法100的流程图。方法100可以由图4所示的证件识别系统400实现，证件识别系统400包括图像帧提取设备402、音频信号提取设备404和处理设备406。方法100一般包括步骤102：使用图像帧提取设备402，从视频剪辑中提取图像帧序列，视频剪辑拍摄有对象对表面的作用，以及步骤104：使用音频信号提取设备404，从视频剪辑中提取音频信号流。方法100还包括步骤106：使用处理设备406，利用经训练的证件识别模型，基于图像帧序列生成第一得分并基于音频信号流生成第二得分。经训练的证件识别模型是利用多个历史视频剪辑来训练的，多个历史视频剪辑中的每一个都拍摄有证件对表面的作用。方法100还包括步骤108：使用处理设备406，基于第一得分和第二得分生成识别得分，以及步骤110：使用处理设备406，基于识别得分和识别阈值之间的比较，识别视频剪辑中的对象是否为证件。

在实施例中，方法100可以包括接收视频剪辑，该视频剪辑拍摄有对象对表面的作用。用户可以使用移动设备记录视频剪辑以进行eKYC流程，这需要用户将身份(ID)证件(例如，身份证、驾照、护照等)投至表面上。在实施方式中，表面可以是台面。在步骤102中，可以通过用于图像和视频处理的编程功能库，使用图像帧提取设备402，从视频剪辑中提取图像帧序列。示例库为OpenCV。在步骤104中，可以通过用于音频处理的编程功能库，使用音频信号提取设备404从视频剪辑中提取音频信号流。示例库为MoviePy。

在步骤106中，使用处理装置406，利用经训练的证件识别模型，基于图像帧序列生成第一得分。在实施方式中，经训练的证件识别模型可以包括经训练的卷积神经子网络。在实施方式中，图像帧的大小可以是H×W，并且连续图像帧的数量可以是C₀。图像帧序列可以连接成多维张量(例如，大小为H×W×C₀的特征图)，并用作经训练的卷积神经子网络的输入以生成第一得分。换句话说，卷积神经子网络可以对对象进行分类，并基于图像帧序列输出分类结果。经训练的卷积神经子网络可以包括完全连接的神经层作为神经网络的最后一层，并且可以通过完全连接的神经层来生成第一得分作为分类结果。第一得分可以是从0到1的得分，并且可以表示在图像帧序列中拍摄的对象是否为证件(例如，eKYC流程所需的身份证、驾照、护照等)的概率。换句话说，第一得分是由经训练的证件识别模型基于视频中的图像数据生成的，并且指示在视频中作用于表面上的对象是否为证件。训练卷积神经子网络的过程以及用于卷积神经子网络的训练数据集将在本公开的后半部分中参考图2进行更详细地描述，图2为示出了用于训练证件识别模型的方法200的流程图。

在步骤106中，使用处理设备406，利用经训练的证件识别模型，基于音频信号流来生成第二得分。在实施方式中，经训练的证件识别模型可以包括经训练的递归神经子网络。音频信号流可以通过音频处理库进行预处理并连接成另一个多维张量(例如，大小为H×W×C₁的特征图)，并且多维张量可以用作经训练的递归神经子网络的输入以生成第二得分。换句话说，递归神经子网络可以对对象进行分类，并基于音频信号流输出分类结果。经训练的递归神经子网络可以包括完全连接的神经层作为神经网络的最后一层，并且可以通过完全连接的神经层来生成第二得分作为分类结果。第二得分可以是从0到1的得分，并且可以表示基于与视频中对象对表面的作用相关联的音频信号对象是否为证件(例如，eKYC流程所需的身份证、驾照、护照等)的概率。在实施方式中，第二得分可以指示视频中作用于表面的对象的材料类型。递归神经子网络的训练数据集可以包括来自多个历史视频剪辑中的每一个的历史音频信号流。训练递归神经子网络的过程以及用于递归神经子网络的训练数据集将在本公开的后半部分中参考图2进行更详细地描述，图2为示出了用于训练证件识别模型的方法200的流程图。

在步骤108中，识别得分是由处理设备406利用经训练的证件识别模型基于第一得分和第二得分来生成的。识别得分表示视频中的对象是否为证件的组合概率。在实施方式中，识别得分可以是第一得分和第二得分的加权和。

在替代的实施方式中，经训练的卷积神经子网络和经训练的递归神经子网络可以不输出第一得分和第二得分作为分类结果。而是，经训练的卷积神经子网络可以配置为输出图像帧序列的表示(例如，图像帧序列的输出特征图)，并且经训练的递归神经子网络可以配置为输出音频信号流的表示(例如，音频信号流的输出特征图)。可以将这两幅输出特征图连接起来，并用作一个或多个神经网络层的输入，以生成识别得分，该识别得分表示视频中的对象是否为证件的组合概率。

在步骤110中，使用处理装置406，基于识别得分和识别阈值之间的比较，如果对象是证件，则识别视频剪辑中的对象。可以基于应用需求来改变识别阈值(例如，对于需要相对较高准确率的应用，可以将识别阈值设置得更高)。可以基于验证数据集(例如，拍摄证件对表面的作用的多个历史视频剪辑)来确定阈值。多个历史视频剪辑可以包括(i)作用于表面的物理ID证件的正面类别的历史视频剪辑，以及(ii)作用于表面的物理ID证件以外的对象的负面类别的历史视频剪辑。负面类别的历史视频剪辑还可以包括不具有图像数据的视频剪辑、不具有音频数据的视频剪辑以及音频数据指示对表面作用的对象而在视频中没有对象的视频剪辑。可以根据验证数据建立受试者操作特性(ROC)曲线。在实施方式中，根据ROC曲线，当FAR(错误接受率)等于0.01或0.001时设置阈值。

图2为示出根据本公开实施例的用于训练证件识别模型的方法200的流程图。方法200包括步骤202：提供拍摄有证件对表面的作用的多个历史视频剪辑。在实施方式中，可以将多个历史视频剪辑视为用于证件识别模型的训练数据。多个历史视频剪辑可以包括(i)作用于表面的物理ID证件的正面类别的历史视频剪辑，以及(ii)作用于表面的物理ID证件以外的对象的负面类别的历史视频剪辑。(i)中的物理ID证件可包括来自不同司法管辖区的ID证件，例如但不限于：身份证、驾照、出生证和护照。(ii)中除物理ID证件以外的对象可以包括但不限于：ID证件、卡纸板、名片、支付卡和小册子等的影印件。负面类别的历史视频剪辑还可以包括不具有图像数据的视频剪辑、不具有音频数据的视频剪辑以及音频数据指示对表面作用的对象而在视频中没有对象的视频剪辑。(i)和(ii)中使用的历史视频剪辑的范围，即，对象和ID证件的种类，可以提高证件识别模型的鲁棒性。

方法200包括步骤204：使用图像帧提取设备402，从多个历史视频剪辑的每一个中提取历史图像帧序列。类似于步骤102，可以通过用于图像和视频处理的编程功能库，例如，OpenCV，从多个历史视频剪辑中提取历史图像帧序列。然后在步骤206中，使用所提取的历史图像帧序列来训练第一神经网络。在实施方式中，第一神经网络可以是卷积神经网络，并且通过历史图像帧序列来训练第一神经网络的步骤206可以包括将历史图像帧的每个序列连接成多维张量，并将连接的多维张量用作输入来训练卷积神经网络。

方法200还包括步骤208：使用音频信号提取设备404，从多个历史视频剪辑的每一个中提取历史音频信号流。类似于步骤104，可以通过用于音频处理的编程功能库，例如，MoviePy，从多个历史视频剪辑中提取历史音频信号流。然后，在步骤208中，将所提取的历史音频信号流用于训练第二神经网络。在实施方式中，第二神经网络可以是递归神经网络，并且通过历史音频信号流来训练第二神经网络的步骤210可以包括将每个历史音频信号流连接成多维张量，并将连接的多维张量用作输入来训练递归神经网络。

图3为示出根据本公开实施例的证件识别模型300的示例的示意图。证件识别模型300可以使用来自视频剪辑302的视频数据和音频数据来识别对象是否为物理证件，并生成指示该识别的输出304，视频剪辑302拍摄有对象对表面的作用。证件识别模型300可以包括图像帧编码器子网络306、音频信号编码器子网络308、经训练的卷积神经子网络310、经训练的递归神经子网络312以及输出子网络314。

在实施例中，图像帧编码器子网络306可以通过视频剪辑302生成图像帧序列的特征表示。将该特征表示用作经训练的卷积神经子网络310的输入以生成第一得分。在图3中，将卷积神经子网络310描绘为两个或更多个卷积神经网络层318、320的群组316。虽然示出了两个卷积神经网络层318、320，但是可以理解，经训练的卷积神经子网络310通常可以包括多个卷积神经网络层和池化层(未示出)。每个卷积神经网络层可以从先前的卷积神经网络层接收输入，或者如果卷积神经网络层是第一层，则可以从图像帧编码器子网络306接收输入，并生成层输出。也就是说，图像帧序列的特征表示可以由每个卷积神经网络层318、320处理以生成输出。卷积神经子网络310还可以包括神经网络层322，其配置为基于由卷积神经网络层320生成的表示来输出最终表示(例如，矢量)。在实施方式中，输出的表示可以是指示在图像帧序列中拍摄的对象是否为证件的第一得分。

在实施例中，音频信号编码器子网络308可以生成音频信号流的特征表示，以输入到经训练的递归神经子网络312。例如，该表示可以包括多个声学序列，每个声学序列包括对应于音频信号流中特定时步的音频信号。递归神经子网络312可以包括一个或更多个递归神经网络层324。在图3中，虽然示出了两个递归神经网络层324，但是应当理解，经训练的递归神经子网络312通常可以包括按照从第一递归层到最后一个递归层的顺序布置的多个递归神经网络层。每个递归神经网络层324可以从先前的递归神经网络层接收输入，或者，如果递归神经网络层是第一层，则从音频信号编码器子网络308接收输入，并且可以为每个特定时步生成层输出。递归神经子网络312还可以包括输出层326，其配置为接收由递归神经子网络312生成的每个递归输出，并生成另一输出表示。在实施方式中，输出表示可以是指示在视频中作用于表面的对象是否为证件的第二得分。

证件识别模型300中的输出子网络314可以接收由神经网络层322和输出层326生成的各个输出表示，并且基于各个输出表示来生成识别得分，该识别得分与视频中拍摄的对象是否为证件的概率相关联。输出子网络314可以进一步将识别得分与识别阈值进行比较，并且基于该比较来生成输出304，该输出304指示该识别。

图5描绘了计算设备500，在下文中可互换地称为计算机系统500，其中一个或更多个这样的计算设备500可以用于执行图1的方法100和图2的方法200。计算设备500的一个或多个组件还可以用于实现系统400以及图像帧提取设备402、音频信号提取设备404和处理设备406。仅通过示例的方式提供了计算设备500的以下描述，并且以下描述并不旨在进行限制。

如图5所示，示例计算设备500包括用于执行软件例程的处理器507。尽管为了清楚起见示出了单个处理器，但是计算设备500还可以包括多处理器系统。处理器507连接到通信基础设施506，用于与计算设备500的其它组件进行通信。通信基础设施506可以包括例如通信总线、交叉条或网络。

计算设备500还包括诸如随机存取存储器(RAM)等的主存储器508和辅助存储器510。辅助存储器510可以包括例如存储驱动器512和/或可移动存储驱动器517，其中存储驱动器512可以是硬盘驱动器、固态驱动器或混合驱动器，可移动存储驱动器517可包括磁带驱动器、光盘驱动器、固态存储驱动器(例如，USB闪存驱动器、闪存设备、固态驱动器或存储卡)等。可移动存储驱动器517以众所周知的方式从可移动存储介质577读取和/或写入可移动存储介质577。可移动存储介质577可以包括磁带、光盘、非易失性存储介质等，其由可移动存储驱动器517读取和写入。如所属领域的技术人员将了解的那样，可移动存储介质577包括其中存储有计算机可执行程序代码指令和/或数据的计算机可读存储介质。

在替代的实施方式中，辅助存储器510可以附加地或替代地包括用于允许将计算机程序或其它指令加载到计算设备500中的其它类似装置。这种装置可以包括例如可移动存储单元522和接口550。可移动存储单元522和接口550的示例包括程序盒式存储器和盒式接口(例如，在视频游戏控制台设备中找到的那种)、可移动存储芯片(例如，EPROM或PROM)和相关联的插槽、可移动固态存储驱动器(例如，USB闪存驱动器、闪存设备、固态驱动器或存储卡)以及允许将软件和数据从可移动存储单元522传送到计算机系统500的其它可移动存储单元522和接口550。

计算设备500还包括至少一个通信接口527。通信接口527允许软件和数据经由通信路径526在计算设备500和外部设备之间传送。在本公开的实施例中，通信接口527允许数据在计算设备500和诸如公用数据或专用数据通信网络等的数据通信网络之间传送。通信接口527可以用于在不同的计算设备500之间交换数据，这些计算设备500形成互连的计算机网络的一部分。通信接口527的示例可以包括调制解调器、网络接口(例如，以太网卡)、通信端口(例如，串行端口、并行端口、打印机、GPIB、IEEE1394、RJ45、USB)、具有相关电路的天线等。通信接口527可以是有线的或者可以是无线的。经由通信接口527传送的软件和数据具有信号的形式，该信号可以是电子信号、电磁信号、光信号或能够被通信接口527接收的其它信号。这些信号经由通信路径526被提供给通信接口。

如图5所示，计算设备500还包括：显示接口502，其执行用于将图像呈现到相关联的显示器555的操作；以及音频接口552，其执行用于经由相关联的扬声器557播放音频内容的操作。

如本文中所使用的，术语“计算机程序产品”可以部分地指代可移动存储介质577、可移动存储单元522、安装在存储驱动器512中的硬盘或通过通信路径526(无线链路或电缆)将软件运送到通信接口527的载波。计算机可读存储介质指代将记录的指令和/或数据提供给计算设备500以便执行和/或处理的任何非暂时性、非易失性有形存储介质。此类存储介质的示例包括磁带、CD-ROM、DVD、Blu-ray^TM光盘、硬盘驱动器、ROM或集成电路、固态存储驱动器(例如，USB闪存驱动器、闪存设备、固态驱动器或存储卡)、混合驱动器、磁光盘或诸如PCMCIA卡之类的计算机可读卡，无论此类设备是在计算设备500的内部还是外部。还可以参与向计算设备500提供软件、应用程序、指令和/或数据的暂时性或非有形计算机可读传输介质的示例包括无线电或红外传输通道以及与另一台计算机或网络设备连接的网络，和包括电子邮件传输和网站等上面记录有信息的互联网或内联网。

计算机程序(也称为计算机程序代码)存储在主存储器508和/或辅助存储器510中。计算机程序也可以通过通信接口527来接收。这样的计算机程序在执行时使计算设备500能够执行本文讨论的实施例的一个或多个特征。在实施例中，计算机程序在执行时使处理器507能够执行上述实施例的特征。因此，这样的计算机程序表示计算机系统500的控制器。

可以使用可移动存储驱动器517、存储驱动器512或接口550将软件存储在计算机程序产品中并加载到计算设备500中。计算机程序产品可以是非暂时性计算机可读介质。可替代地，可以通过通信路径526将计算机程序产品下载到计算机系统500。软件在由处理器507执行时，使计算设备500执行必要的操作以执行方法100、200，如图1和图2所示。

应当理解，仅通过示例的方式给出了图5的实施例，以解释系统500的操作和结构。因此，在一些实施例中，可以省略计算设备500的一个或多个特征。而且，在一些实施例中，计算设备500的一个或多个特征可以被组合在一起。另外，在一些实施例中，计算设备500的一个或多个特征可以被分成一个或多个组成部分。

应当理解，图5所示的元件用以提供用于执行如以上实施例中所述的系统的各种功能和操作的装置。

当计算设备500配置为实现系统400时，系统100将具有在其上存储有应用程序的非暂时性计算机可读介质，该应用程序在执行时使系统400执行以下步骤：使用图像帧提取设备，从视频剪辑中提取图像帧序列，该视频剪辑拍摄有对象对表面的作用；使用音频信号提取设备，从视频剪辑中提取音频信号流；使用处理设备，利用经训练的证件识别模型，基于图像帧序列生成第一得分并基于音频信号流生成第二得分，该模型通过多个历史视频剪辑来训练，在多个历史视频剪辑的每一个中都拍摄有证件对表面的作用；使用处理设备，基于第一得分和第二得分生成识别得分；以及使用处理设备，基于识别得分与识别阈值之间的比较来识别视频剪辑中的对象是否为证件。

在实施例中，计算设备可以包括至少一个处理器507和耦接到至少一个处理器507并且存储有用于由至少一个处理器507执行的编程指令的非暂时性计算机可读存储介质512。编程指令可以指示至少一个处理器507：从视频剪辑中提取图像帧序列，视频剪辑拍摄对象对表面的作用；从视频剪辑中提取音频信号流；并利用经训练的证件识别模型，基于图像帧序列生成第一得分并基于音频信号流生成第二得分。通过多个历史视频剪辑来训练证件识别模型，多个历史视频剪辑的每一个都拍摄有证件对表面的作用。编程指令可以指示至少一个处理器507基于第一得分和第二得分生成识别得分，以及基于识别得分与识别阈值之间的比较来识别视频剪辑中的对象是否为证件。

在实施例中，编程指令可以指示至少一个处理器507，在识别得分大于识别阈值的情况下，将视频剪辑中的对象识别为证件。在实施例中，编程指令可以指示至少一个处理器507基于第一得分和第二得分的加权和来确定识别得分。

在实施例中，编程指令可以指示至少一个处理器507：从多个历史视频剪辑的每一个中提取历史图像帧序列，从多个历史视频剪辑的每一个中提取历史音频信号流，并通过历史图像帧序列和历史音频信号流训练证件识别模型。

在实施例中，证件识别模型包括卷积神经子网络，并且编程指令可以指示至少一个处理器507通过来自多个历史视频剪辑的每一个的历史图像帧序列来训练卷积神经子网络。

在实施例中，证件识别模型包括递归神经子网络，并且编程指令可以指示至少一个处理器507通过来自多个历史视频剪辑的每一个的历史音频信号流来训练递归神经子网络。

在实施例中，经训练的证件识别模型包括经训练的卷积神经子网络，并且编程指令可以指示至少一个处理器507利用经训练的卷积神经子网络基于图像帧序列生成第一得分。在实施例中，经训练的证件识别模型包括经训练的递归神经子网络，并且编程指令可以指示至少一个处理器507利用经训练的递归神经子网络基于音频信号流生成第二得分。

在实施例中，编程指令可以指示至少一个处理器507通过一个或更多个神经网络层的群组来处理第一得分和第二得分，以生成识别得分。

本领域技术人员将理解，在不脱离本公开总体描述的精神或范围的情况下，如特定实施例中所示，可以对本公开进行多种变化和/或修饰。因此，本实施例在所有方面都应被认为是说明性的而不是限制性的。

Claims

1.一种证件识别方法，包括：

使用图像帧提取设备，从视频剪辑提取图像帧序列，所述视频剪辑通过对对象投到指定物体表面的过程进行视频采集得到；

使用音频信号提取设备，从所述视频剪辑提取音频信号流；

使用处理设备，利用经训练的证件识别模型中的卷积神经子网络，输出所述图像帧序列的特征图，利用经训练的证件识别模型中的递归神经子网络，输出所述音频信号流的特征图，所述证件识别模型是利用多个历史视频剪辑来训练的，所述多个历史视频剪辑中的每一个历史视频剪辑通过对证件投到指定物体表面的过程进行视频采集得到；

使用所述处理设备，将所述图像帧序列的特征图和所述音频信号流的特征图连接，基于连接后的特征图得到识别得分；以及

使用所述处理设备，基于所述识别得分与识别阈值之间的比较来识别所述视频剪辑中的对象是否为证件。

2.根据权利要求1所述的方法，其中，在所述识别得分大于所述识别阈值的情况下，将所述视频剪辑中的所述对象识别为证件。

3.根据权利要求1所述的方法，还包括：

使用所述图像帧提取设备，从所述多个历史视频剪辑的每一个中提取历史图像帧序列；

使用所述音频信号提取设备，从所述多个历史视频剪辑的每一个中提取历史音频信号流；以及

使用所述处理设备，利用所述历史图像帧序列和所述历史音频信号流训练所述证件识别模型。

4.根据权利要求3所述的方法，其中，

训练所述证件识别模型包括利用来自所述多个历史视频剪辑中的每一个的历史图像帧序列训练所述卷积神经子网络。

5.根据权利要求3或4所述的方法，其中，

训练所述证件识别模型包括利用来自所述多个历史视频剪辑中的每一个的历史音频信号流训练递归神经子网络。

6.根据权利要求1所述的方法，其中，生成所述识别得分包括：

通过一个或多个神经网络层的群组基于连接后的特征图生成所述识别得分。

7.一种证件识别系统，包括：

图像帧提取设备，配置为从视频剪辑提取图像帧序列，所述视频剪辑通过对对象投到指定物体表面的过程进行视频采集得到；

音频信号提取设备，配置为从所述视频剪辑提取音频信号流；以及

处理设备，配置为：利用经训练的证件识别模型中的卷积神经子网络，输出所述图像帧序列的特征图，利用经训练的证件识别模型中的递归神经子网络，输出所述音频信号流的特征图，所述证件识别模型是利用多个历史视频剪辑来训练的，所述多个历史视频剪辑中的每一个历史视频剪辑通过对证件投到指定物体表面的过程进行视频采集得到；将所述图像帧序列的特征图和所述音频信号流的特征图连接，基于连接后的特征图得到识别得分；以及

基于所述识别得分与识别阈值之间的比较来识别所述视频剪辑中的对象是否为证件。

8.根据权利要求7所述的系统，其中，在所述识别得分大于所述识别阈值的情况下，将所述视频剪辑中的对象识别为证件。

9.根据权利要求7所述的系统，其中，

所述图像帧提取设备还被配置为从所述多个历史视频剪辑的每一个提取历史图像帧序列；

所述音频信号提取设备还被配置为从所述多个历史视频剪辑的每一个提取历史音频信号流；以及

所述处理设备被配置为利用所述历史图像帧序列和所述历史音频信号流训练所述证件识别模型。

10.根据权利要求9所述的系统，其中，

所述处理设备被配置为利用来自所述多个历史视频剪辑中的每一个的所述历史图像帧序列训练所述卷积神经子网络。

11.根据权利要求9或10所述的系统，其中，

所述处理设备被配置为利用来自所述多个历史视频剪辑中的每一个的所述历史音频信号流训练所述递归神经子网络。

12.根据权利要求8所述的系统，其中，所述处理设备被配置为通过一个或多个神经网络层的群组基于连接后的特征图生成所述识别得分。