CN111091132A

CN111091132A - 基于人工智能的图像识别方法、装置、计算机设备及介质

Info

Publication number: CN111091132A
Application number: CN202010197154.XA
Authority: CN
Inventors: 郭梓铿
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-19
Filing date: 2020-03-19
Publication date: 2020-05-01
Anticipated expiration: 2040-03-19
Also published as: CN111091132B

Abstract

本申请提供了一种基于人工智能的图像识别方法、装置、计算机设备及介质，属于图像处理技术领域。本申请基于数据增强处理后的每个第二样本图像预处理得到的至少两个第三样本图像进行训练，得到证件照识别模型，可以在样本图像数量较少的情况下，通过训练得到识别结果较为准确的证件照识别模型，通过证件照识别模型中输入尺度不同的至少两个深度神经网络分别对原始图像预处理后得到的至少两个预处理图像并行进行预测处理，可以综合尺度不同的深度神经网络的识别结果进行判断，避免单个深度神经网络误判，在目标概率符合第一预设条件的情况下，将原始图像识别为证件照图像，无需识别原始图像中的字符，避免背景中的字符影响识别，提高识别准确率。

Description

基于人工智能的图像识别方法、装置、计算机设备及介质

技术领域

本申请涉及图像处理技术领域，特别涉及一种基于人工智能的图像识别方法、装置、计算机设备及介质。

背景技术

在开放式的网络环境中，作为网络安全的第一道防线，身份认证有着至关重要的作用，但在现实生活中，人们可能不会随时携带着相关证件，从而可能会导致无法及时进行身份认证，进而导致有些需要进行身份认证的才能使用的功能无法使用。因此，亟需一种图像识别方法，来从终端获取到的图像中识别出属于证件照的图像，以便用户保存到终端的本地存储中以供下次需要进行身份识别时使用。

目前主要是通过利用光学字符识别（Optical Character Recognition，OCR）技术，来对图像中的字符进行识别，从而根据识别出的字符判断该图像是否属于证件照图像，从而实现从大量图像中识别出证件照图像。

运用OCR技术通过识别字符来对证件照进行识别时，如果证件照图像的背景中包含与身份信息或证件照相关的字符，可能会对证件照的识别造成影响，导致识别准确率较低。

发明内容

本申请实施例提供了一种基于人工智能的图像识别方法、装置、计算机设备及介质，可以大大提高证件照识别的准确性。该技术方案如下：

一方面，提供了一种基于人工智能的图像识别方法，该方法包括：

获取至少一个第一样本图像和所述至少一个第一样本图像的标签，所述标签用于指示所述第一样本图像是否属于证件照图像；

对所述至少一个第一样本图像进行数据增强处理，得到所述第一样本图像对应的至少两个第二样本图像，所述数据增强处理包括裁剪、旋转和添加高斯白噪声中的至少一项；

对所述至少一个第一样本图像以及所述至少两个第二样本图像进行预处理，得到每个所述第一样本图像和所述第二样本图像对应的尺度不同的至少两个第三样本图像；

基于所述尺度不同的至少两个第三样本图像进行训练，得到证件照识别模型，所述证件照识别模型中包括输入尺度不同的至少两个深度神经网络；

获取待识别的原始图像，对该原始图像进行预处理后，将经过预处理得到的至少两个预处理图像输入证件照识别模型，通过该证件照识别模型中的输入尺度不同的至少两个深度神经网络分别对该至少两个预处理图像进行证件照图像预测处理，得到与该至少两个预处理图像分别对应的至少两个预测概率；其中，该预测概率用于指示图像为该证件照图像的概率；

在该至少两个预测概率对应的目标概率符合第一预设条件的情况下，将该原始图像识别为该证件照图像。

一方面，提供了一种基于人工智能的图像识别装置，该装置包括：

样本获取模块，用于获取至少一个第一样本图像和所述至少一个第一样本图像的标签，所述标签用于指示所述第一样本图像是否属于证件照图像；

数据增强处理模块，用于对所述至少一个第一样本图像进行数据增强处理，得到所述第一样本图像对应的至少两个第二样本图像，所述数据增强处理包括裁剪、旋转和添加高斯白噪声中的至少一项；

样本预处理模块，用于对所述至少一个第一样本图像以及所述至少两个第二样本图像进行预处理，得到每个所述第一样本图像和所述第二样本图像对应的尺度不同的至少两个第三样本图像；

训练模块，用于基于所述尺度不同的至少两个第三样本图像进行训练，得到证件照识别模型，所述证件照识别模型中包括输入尺度不同的至少两个深度神经网络；

获取模块，用于获取待识别的原始图像；

输入模块，用于对所述原始图像进行预处理后，将经过预处理得到的至少两个预处理图像输入证件照识别模型；

预测模块，用于通过该证件照识别模型中的输入尺度不同的至少两个深度神经网络分别对该至少两个预处理图像进行证件照图像预测处理，得到与该至少两个预处理图像分别对应的至少两个预测概率；其中，该预测概率用于指示图像为该证件照图像的概率；

识别模块，用于在该至少两个预测概率对应的目标概率符合第一预设条件的情况下，将该原始图像识别为该证件照图像。

在一种可能的实现方式中，该装置还包括：

样本预测模块，用于对于该初始模型中的任一个初始深度神经网络，通过该初始深度神经网络，对与该初始深度神经网络的输入尺度对应的第三样本图像进行证件照图像预测处理，确定该第三样本图像属于证件照图像的概率；

损失函数值确定模块，用于根据该第三样本图像属于证件照图像的概率与该第一样本图像的标签，确定损失函数值；

调整模块，用于根据该损失函数值，通过梯度下降法，对该初始深度神经网络的参数进行调整，直至调整后的初始深度神经网络满足第二预设条件，将满足该第二预设条件的初始深度神经网络作为该证件照识别模型中的深度神经网络。

在一种可能的实现方式中，该装置还包括：

样本缩放模块，用于根据该至少两个初始深度神经网络对应的输入尺度，对该至少一个第一样本图像以及该至少两个第二样本图像进行缩放，得到尺度符合该至少两个初始深度神经网络的输入尺度的至少两个第三样本图像。

在一种可能的实现方式中，该装置还包括：

裁剪模块，用于对该第一样本图像进行裁剪，得到大小不同的至少两个第二样本图像，该第一样本图像为获取到的原始样本图像；

旋转模块，用于对该第一样本图像进行旋转，得到旋转角度后的至少两个第二样本图像；

添加模块，用于在该第一样本图像中添加高斯白噪声，得到至少两个第二样本图像。

一方面，提供了一种计算机设备，该计算机设备包括一个或多个处理器和一个或多个存储器，该一个或多个存储器中存储有至少一条程序代码，该程序代码由该一个或多个处理器加载并执行以实现该基于人工智能的图像识别方法所执行的操作。

一方面，提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，该程序代码由处理器加载并执行以实现该基于人工智能的图像识别方法所执行的操作。

本申请提供的方案，通过基于数据增强处理后的每个第二样本图像预处理得到的至少两个第三样本图像进行训练，得到证件照识别模型，可以在样本图像数量较少的情况下，通过训练得到识别结果较为准确的证件照识别模型，通过证件照识别模型中输入尺度不同的至少两个深度神经网络分别对原始图像预处理后得到的至少两个预处理图像并行进行证件照图像预测处理，计算得到与至少两个预处理图像分别对应的至少两个预测概率，可以综合尺度不同的至少两个深度神经网络的识别结果，来对原始图像是否属于证件照图像进行判断，避免单个深度神经网络发生误判，提高证件照图像的识别准确率，在至少两个预测概率对应的目标概率符合第一预设条件的情况下，将原始图像识别为证件照图像，无需识别原始图像中的字符，从而避免了原始图像背景部分中的字符对图像识别造成影响，识别准确率较高。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种基于人工智能的图像识别方法的实施环境示意图；

图2是本申请实施例提供的一种基于人工智能的图像识别方法的流程图；

图3是本申请实施例提供的一种基于人工智能的图像识别方法的基本流程图；

图4是本申请实施例提供的一种基于人工智能的图像识别方法的流程图；

图5是本申请实施例提供的一种深度神经网络的结构示意图；

图6是本申请实施例提供的一种深度神经网络的结构示意图；

图7是本申请实施例提供的一种深度神经网络的结构示意图；

图8是本申请实施例提供的一种初始模型训练过程的基本流程图；

图9是本申请实施例提供的一种初始深度神经网络的训练过程的流程图；

图10是本申请实施例提供的一种初始深度神经网络的训练过程的流程图；

图11是本申请实施例提供的一种初始深度神经网络的训练过程的流程图；

图12是本申请实施例提供的一种初始模型训练过程的流程图；

图13是本申请实施例提供的一种居中裁剪的结果示意图；

图14是本申请实施例提供的一种随机裁剪的结果示意图；

图15是本申请实施例提供的一种随机旋转的结果示意图；

图16是本申请实施例提供的一种添加高斯白噪声的结果示意图；

图17是本申请实施例提供的一种基于人工智能的图像识别装置的结构示意图；

图18是本申请实施例提供的一种终端的结构示意图；

图19是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

云技术（Cloud Technology）是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

云计算（Cloud Computing）是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。

作为云计算的基础能力提供商，会建立云计算资源池（简称云平台，一般称为基础设施即服务（Infrastructure as a Service，IaaS）平台），在资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备（为虚拟化机器，包含操作系统）、存储设备、网络设备。

按照逻辑功能划分,在IaaS层上可以部署平台即服务（Platform as a Service，PaaS）层，PaaS层之上再部署软件即服务（Software as a Service， SaaS）层，也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台，如数据库、web容器等。SaaS为各式各样的业务软件，如全球广域网（World Wide Web，Web）门户网站、短信群发器等。一般来说，SaaS和PaaS相对于IaaS是上层。

所谓人工智能云服务，一般也被称作是人工智能即服务（ArtificialIntelligence as a Service，AIaaS）。这是目前主流的一种人工智能平台的服务方式，具体来说AIaaS平台会把几类常见的人工智能（Artificial Intelligence，AI）服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城：所有的开发者都可以通过应用程序编程接口（Application Programming Interface，API）的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。

人工智能（Artificial Intelligence，AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习（Machine Learning，ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

计算机视觉技术（Computer Vision，CV）计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

光学字符识别（Optical Character Recognition，OCR）：是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。

图像多尺度：图像多尺度表达是一种以多分辨率来解释图像的有效但概念简单的结构，多尺度表达是将原始图片按照不同尺度缩放操作后生成的一系列图像集。

卷积神经网络（Convolutional Neural Network，CNN）：是一类主要包含卷积计算的前馈神经网络，具有强大的深层表征学习能力，常用于计算机视觉常见任务。

分类卷积神经网络：使用卷积神经网络学习任务中的表征，用于解决分类任务。

正负样本：机器学习术语，正样本表示所需类别的样本，负样本表示非所需类别的样本。

梯度下降算法：机器学习术语，常见机器学习优化算法，应用于深度网络优化算法。

柔性最大值传输（Softmax）函数：机器学习术语，用于分类网络训练的常见指导函数。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能云服务的图像识别等技术，具体通过如下实施例进行说明：

图1是本申请实施例提供的一种基于人工智能的图像识别方法的实施环境示意图，参见图1，该实施环境包括：终端101和服务器102。

终端101可以为智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、游戏主机、电子书阅读器、MP3（Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3）播放器、MP4（Moving Picture Experts Group AudioLayer IV，动态影像专家压缩标准音频层面4）播放器和膝上型便携计算机等，但并不局限于此。用户可以将待识别的原始图像输入至终端101，终端101还可以通过摄像头组件来进行待识别的原始图像的获取，并对原始图像进行预处理，得到尺度不同的至少两个预处理图像，进而通过证件照识别模型中输入尺度不同的至少两个深度神经网络对这至少两个预处理图像进行识别，根据输入尺度不同的至少两个深度神经网络预测得到的至少两个预测概率，确定原始图像属于证件照图像的目标概率，在目标概率符合第一预设条件的情况下，将原始图像识别为证件照图像。可选地，终端101以及服务器102可以通过有线或无线通信方式进行直接或间接地连接，以便终端101将获取到的原始图像发送给服务器102，由服务器102对接收到的原始图像进行识别，并接收服务器102发送的识别结果。

终端101可以泛指多个终端中的一个，本实施例仅以终端101来举例说明。本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量，本申请实施例对终端的数量和设备类型不加以限定。

服务器102可以为独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content Delivery Network，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器102以及终端101可以通过有线或无线通信方式进行直接或间接地连接，以便服务器102接收终端101发送的原始图像，并对原始图像进行预处理，得到尺度不同的至少两个预处理图像，进而通过证件照识别模型中输入尺度不同的至少两个深度神经网络对这至少两个预处理图像进行识别，根据输入尺度不同的至少两个深度神经网络预测得到的至少两个预测概率，确定原始图像属于证件照图像的目标概率，在目标概率符合第一预设条件的情况下，将原始图像识别为证件照图像，并将识别结果发送给终端101。可选地，上述服务器的数量可以更多或更少，本申请实施例对此不加以限定。当然，服务器102还可以包括其他功能服务器，以便提供更全面且多样化的服务。

图2是本申请实施例提供的一种基于人工智能的图像识别方法的流程图，参见图2，该方法包括：

201、计算机设备获取待识别的原始图像；

202、计算机设备对该原始图像进行预处理，得到尺度不同的至少两个预处理图像；

203、计算机设备将该至少两个预处理图像输入证件照识别模型，通过该证件照识别模型中的输入尺度不同的至少两个深度神经网络分别对该至少两个预处理图像进行证件照图像预测处理，得到与该至少两个预处理图像分别对应的至少两个预测概率，其中，该预测概率用于指示该预处理图像为该证件照图像的概率；

204、计算机设备根据该至少两个预测概率的统计值，确定该原始图像属于该证件照图像的目标概率；

205、在该目标概率符合第一预设条件的情况下，计算机设备将该原始图像识别为该证件照图像。

本申请实施例提供的方案，通过获取待识别的原始图像，对原始图像进行预处理，得到尺度不同的至少两个预处理图像，将至少两个预处理图像输入证件照识别模型，通过输入尺度不同的至少两个深度神经网络分别对至少两个预处理图像并行进行证件照图像预测处理，计算得到与至少两个预处理图像分别对应的至少两个预测概率，进而确定原始图像属于证件照图像的目标概率，可以综合尺度不同的至少两个深度神经网络的识别结果，来对原始图像是否属于证件照图像进行判断，避免单个深度神经网络发生误判，提高证件照图像的识别准确率，在目标概率符合第一预设条件的情况下，将原始图像识别为证件照图像，无需识别原始图像中的字符，从而避免了原始图像背景部分中的字符对图像识别造成影响，识别准确率较高。

在一种可能的实现方式中，该通过该证件照识别模型中的输入尺度不同的至少两个深度神经网络分别对该至少两个预处理图像进行证件照图像预测处理，得到与该至少两个预处理图像分别对应的至少两个预测概率包括：

对于该证件照识别模型中的任一个深度神经网络，通过该深度神经网络的卷积层，提取与该深度神经网络的输入尺度对应的预处理图像的特征图；

通过该深度神经网络的特征采样层，对该特征图进行采样；

通过该深度神经网络的特征拼接层，对该卷积层输出的和采样得到的特征进行融合，得到卷积特征；

对该卷积特征进行归一化处理，根据归一化处理的结果确定与该深度神经网络的输入尺度对应的预处理图像的预测概率。

在一种可能的实现方式中，该对该原始图像进行预处理，得到尺度不同的至少两个预处理图像包括：

根据该至少两个深度神经网络对应的输入尺度，对该原始图像进行缩放，得到尺度符合该至少两个深度神经网络的输入尺度的至少两个预处理图像。

在一种可能的实现方式中，该根据该至少两个预测概率的统计值，确定该原始图像属于该证件照图像的目标概率包括：

根据该至少两个预测概率，确定该至少两个预测概率的平均概率；

将该平均概率确定为该目标概率。

在一种可能的实现方式中，该证件识别模型的训练过程包括:

获取至少一个第一样本图像和该至少一个第一样本图像的标签，该标签用于指示该第一样本图像是否属于证件照图像；

对该至少一个第一样本图像进行数据增强处理，得到该第一样本图像对应的至少两个第二样本图像，该数据增强处理包括裁剪、旋转和添加高斯白噪声中的至少一项；

对该至少一个第一样本图像以及该至少两个第二样本图像进行预处理，得到每个该第一样本图像和该第二样本图像对应的尺度不同的至少两个第三样本图像；

将该至少两个第三样本图像输入初始模型，该初始模型中包括输入尺度不同的至少两个初始深度神经网络；

基于该至少两个第三样本图像和该至少一个第一样本图像的标签，对该输入尺度不同的至少两个初始深度神经网络分别进行训练，得到用于进行证件照识别的证件识别模型。

在一种可能的实现方式中，该基于该至少两个第三样本图像和该至少一个第一样本图像的标签，对该输入尺度不同的至少两个初始深度神经网络分别进行训练包括：

对于该初始模型中的任一个初始深度神经网络，通过该初始深度神经网络，对与该初始深度神经网络的输入尺度对应的第三样本图像进行证件照图像预测处理，确定该第三样本图像属于证件照图像的概率；

根据该第三样本图像属于证件照图像的概率与该第一样本图像的标签，确定损失函数值；

根据该损失函数值，通过梯度下降法，对该初始深度神经网络的参数进行调整，直至调整后的初始深度神经网络满足第二预设条件，将满足该第二预设条件的初始深度神经网络作为该证件照识别模型中的深度神经网络。

在一种可能的实现方式中，该对该第二样本图像进行预处理，得到尺度不同的至少两个第三样本图像包括：

根据该至少两个初始深度神经网络对应的输入尺度，对该第二样本图像进行缩放，得到尺度符合该至少两个初始深度神经网络的输入尺度的至少两个第三样本图像。

在一种可能的实现方式中，该对该第一样本图像进行数据增强处理，得到至少两个第二样本图像包括下述至少一项：

对该第一样本图像进行裁剪，得到大小不同的至少两个第二样本图像，该第一样本图像为获取到的原始样本图像；

对该第一样本图像进行旋转，得到旋转角度后的至少两个第二样本图像；

在该第一样本图像中添加高斯白噪声，得到至少两个第二样本图像。

通过上述图2所示的方法来对待识别的原始图像进行识别时，可以通过终端实现，也可以通过服务器实现，当通过终端来对待识别的原始图像进行识别时，该方法的具体过程可以参见图3，图3是本申请实施例提供的一种基于人工智能的图像识别方法的基本流程图，以包括三个输入尺度分别为448*448、224*224、112*112的深度神经网络的证件照识别模型为例，终端可以根据这三个深度神经网络的输入尺度对原始图像301进行缩放，进而将缩放得到的三个图像分别输入至对应的深度神经网络302、304和306，来对这三个图像为证件照图像的概率进行预测，得到该原始图像属于证件照图像的概率303、305和307，基于预测得到的概率，通过步骤308，确定最终的证件照预测概率，再通过步骤309，根据最终的证件照预测概率与目标阈值的大小关系，来判断该原始图像是否为证件照图像。

上述图3所示仅为本申请的一种基本流程，下面基于一种具体的实现过程，来对本申请提供的方案进行进一步阐述，图4是本申请实施例提供的一种基于人工智能的图像识别方法的流程图，参见图4，该方法可以参见下述步骤401至步骤409。

401、终端获取待识别的原始图像。

在一种可能的实现方式中，终端可以通过摄像头组件，来进行待识别的原始图像的获取，该摄像头组件可以内置于终端中，还可以外接于终端，本申请实施例对此不加以限定。在另一种可能的实现方式中，用户可以将待识别的原始图像输入到终端中，终端可以获取用户输入的原始图像。

402、终端根据证件照识别模型中至少两个深度神经网络对应的输入尺度，对原始图像进行缩放，得到尺度符合该至少两个深度神经网络的输入尺度的至少两个预处理图像。

需要说明的是，该证件照识别模型可以用于对图像是否属于证件照图像进行判断。该证件照识别模型中可以包括多个输入尺度不同的深度神经网络，每个深度神经网络均由卷积层、特征采样层和特征拼接层构成，这些深度神经网络可以并行对与其输入尺度对应的图像进行处理，来得到与其输入尺度对应的图像属于证件照图像的概率，本申请实施例对证件照识别模型中深度神经网络的数量不加以限定。

其中，该证件照识别模型中的深度神经网络均可以由至少一个第一样本图像训练得到，具体训练过程可以参见图12所示的实施例，此处不再赘述。

在一种可能的实现方式中，终端可以根据证件照识别模型中各个深度神经网络的输入尺度，对获取到的原始图像进行缩放，将原始图像缩放到与各个深度神经网络的输入尺度对应的尺寸，得到与各个深度神经网络的输入尺度对应的多个预处理图像。

其中，在对原始图像进行缩放后，终端还可以将缩放后的图像的像素都除以255，来对图像的像素值进行归一化处理，以便增强图像的明暗对比度和黑白对比度，进而可以提高特征提取的准确性。

下面将以该证件照识别模型中包括三个输入尺度分别为448*448、224*224、112*112的深度神经网络为例进行说明，对于输入尺度为448*448的深度神经网络CNN1，参见图5，图5是本申请实施例提供的一种深度神经网络的结构示意图，深度神经网络CNN1由9层卷积网络层（501、503、505以及507至512）、3层特征采样层（502、504、506）、单层特征拼接层（513）组合而成，该深度神经网络CNN1的输入尺度为448*448，终端可以根据该深度神经网络CNN1的输入尺度，将原始图像缩放发到448*448这个固定尺寸上，以得到尺寸为448*448的、可以直接输入至深度神经网络CNN1的预处理图像。对于输入尺度为224*224的深度神经网络CNN2，参见图6，图6是本申请实施例提供的一种深度神经网络的结构示意图，深度神经网络CNN2由8层卷积网络层（601、603、605以及607至611）、3层特征采样层（602、604、606）、单层特征拼接层（612）组合而成，该深度神经网络CNN1的输入尺度为224*224，对于输入尺度为112*112的深度神经网络CNN3，参见图7，图7是本申请实施例提供的一种深度神经网络的结构示意图，深度神经网络 CNN3由7层卷积网络层（701、703、705以及707至710）、3层特征采样层（702、704、706）、单层特征拼接层（711）组合而成，该深度神经网络CNN1的输入尺度为112*112，根据深度神经网络CNN2和CNN3的输入尺度，对原始图像进行缩放的过程与根据深度神经网络CNN1的输入尺度对原始图像进行缩放的过程同理，此处不再赘述。

需要说明的是，该证件照识别模型中的各个深度神经网络都属于小型轻量级网络，每个深度神经网络大小均约为1兆（MByte，MB），运行速度较快，开销小，适合部署在终端侧，可以提高证件照识别的识别速度和识别效率。

403、终端将该至少两个预处理图像输入证件照识别模型，对于该证件照识别模型中的任一个深度神经网络，通过该深度神经网络的卷积层，提取与该深度神经网络的输入尺度对应的预处理图像的特征图。

在一种可能的实现方式中，终端可以将步骤402中缩放得到的至少两个预处理图像输入至对应的至少两个深度神经网络中，通过各个深度神经网络的卷积层，对输入其中的预处理图像进行卷积处理，以提取各个尺度不同的预处理图像的特征图。

以证件照识别模型中输入尺度分别为448*448、224*224、112*112的深度神经网络为例，终端可以将缩放后尺寸为448*448的预处理图像输入至CNN1中，通过CNN1的卷积层，对尺寸为448*448的预处理图像进行卷积处理，提取尺寸为448*448的预处理图像的特征图，同理，将缩放后尺寸为224*224的预处理图像输入至CNN2中，将缩放后尺寸为112*112的预处理图像输入至CNN3中，来对各个尺寸的预处理图像分别进行卷积处理，提取各个尺寸的预处理图像的特征图。

404、终端通过该深度神经网络的特征采样层，对该特征图进行采样。

需要说明的是，通过特征采样层在对特征图进行采样时，可以采用最大值采样或均值采样，可选地，还可以采用其他采样方式，本申请实施例对具体采用哪种方式不加以限定。通过对特征图进行采样，可以降低特征的维度，并保留有效信息，从而可以一定程度上避免过拟合，提高识别结果的准确性。

在一种可能的实现方式中，终端可以采用最大值采样的方式，通过各个深度神经网络的特征采样层，根据预设的模板，选出模板对应的区域的特征值中的最大特征值，以实现对特征图的采样。例如，终端可以在预设的模板上，如2*2的区域上，选取这4个位置的最大特征作为这个区域的典型特征，忽略其他位置的特征，来对特征图进行采样。通过最大值采样，可以帮助深度神经网络迅速抓取到关键特征，忽略大量不相干特征，提高深度神经网络的处理速度。

在另一种可能的实现方式中，终端可以采用均值采样的方式，通过各个深度神经网络的特征采样层，根据预设的模板，计算模板对应的区域的特征值的平均值，以实现对特征图的采样。例如，终端可以在预设的模板上，如2*2的区域上，计算这4个位置的特征的平均值，将计算出的平均值作为该区域的典型特征，来对特征图进行采样。通过均值采样，可以帮助深度神经网络根据固定区域内的所有特征，得到较为均衡的特征，减少需要处理的特征，提高深度神经网络的处理速度。

405、终端通过该深度神经网络的特征拼接层，对该卷积层输出的和采样得到的特征进行融合，得到卷积特征。

需要说明的是，以一个深度神经网络为例，一个深度神经网络中可能包括多个卷积层，有的卷积层可能没有级联特征采样层，则在进行特征拼接时，需要将特征采样层输出的特征和未级联有特征采样层的卷积层输出的特征一起进行拼接，以保证最终拼接得到的卷积特征的完整性。

在一种可能的实现方式中，终端可以通过各个深度神经网络的特征拼接层，将各个卷积层输出的以及采样得到的多个通道的特征进行拼接，以实现将特征平铺展开，进而实现特征融合，得到向量形式的卷积特征。

406、终端对该卷积特征进行归一化处理，根据归一化处理的结果确定与该深度神经网络的输入尺度对应的预处理图像的预测概率，该预测概率用于指示该预处理图像为该证件照图像的概率。

在一种可能的实现方式中，终端可以向量形式的卷积特征进行归一化处理，即可得到归一化后的一维向量，该一维向量即可以表示输入图像与证件照图像中各个特征的相似度，通过该一维向量，即可以确定出该预处理图像属于证件照图像的预测概率。

需要说明的是，上述归一化处理可以通过归一化（Softmax）层实现。通过归一化处理，终端可以确定出深度神经网络CNN1、CNN2、CNN3分别对应的预测概率P1、P2、P3，进而可以通过后续步骤407至步骤408，来进行最终的预测。

407、终端根据证件照识别模型中的输入尺度不同的至少两个深度神经网络预测得到的与该至少两个预处理图像分别对应的至少两个预测概率，确定该至少两个预测概率的平均概率。

在一种可能的实现方式中，终端可以对步骤406确定出的预测概率P1、P2、P3叠加后取平均值，来得到这三个预测概率的平均概率。

在另一种可能的实现方式中，对于各个深度神经网络预测出的预测概率，可以预先设置有不同的权重，终端可以根据步骤406确定出的预测概率P1、P2、P3及各个预测概率对应的权重，计算这三个预测概率的加权平均概率，将该加权平均概率作为这三个预测概率的平均概率。

通过对各个深度神经网络预测出的预测概率预先设置不同的权重，可以结合不同尺度的深度神经网络的重要性以及不同尺度的深度神经网络对预测概率的影响，来进行平均概率的确定，提高平均概率的准确性。此外，还可以根据预测情况对权重进行实时调整，以提高模型识别结果的准确性。

408、终端将该平均概率确定为该目标概率。

409、在该目标概率符合第一预设条件的情况下，终端将该原始图像识别为该证件照图像。

需要说明的是，该第一预设条件可以为目标概率大于预设阈值T，T可以为大于等于0且小于等于1的任意值，本申请实施例对T的具体取值不加以限定。可选地，该第一预设条件还可以为其他条件，本申请实施例对此不加以限定。

在一种可能的实现方式中，终端可以将该目标概率与预设阈值T进行比较，如果该目标概率大于预设阈值T，则终端可以将该原始图像识别为证件照图像，如果该目标概率小于或等于大于预设阈值T，则终端可以将该原始图像识别为非证件照图像。

需要说明的是，在实际应用过程中，可以根据实际业务背景对预设阈值的大小进行调整，如果实际业务背景要求识别结果的准确率较高，而对识别结果的召回率要求较低，也即是，实际业务背景不对识别出的证件照图像的数量进行要求，但要求识别出的证件照图像较为准确，则终端可以将预设阈值设置为较高的取值；如果实际业务背景要求识别结果的召回率较高，而对识别结果的准确率要求较低，也即是，实际业务背景要求识别出的证件照图像达到一定的数量，且允许识别出的证件照图像中存在一定的误差，则终端可以将预设阈值设置为较低的取值。

需要说明的是，上述步骤407至步骤409仅为一种可能的实现方式，在其他可能的实现方式中，终端还可以直接根据各个深度神经网络预测得到的预测概率，确定该原始图像是否为证件照图像，具体地，对于M个深度神经网络预测得到的M个预测概率，终端可以将这M个预测概率分别与预设阈值进行比较，若这M个预测概率中有多于M/2个预测概率大于预设阈值，则终端可以确定该原始图像是证件照图像，无需进行平均概率的确定，其中，M为大于等于2的正整数。例如，对于步骤406确定出的预测概率P1、P2、P3，终端可以将预测概率P1、P2、P3直接与预设阈值进行比较，若有2个预测概率大于预设阈值，则终端可以确定该原始图像是证件照图像，否则，该原始图像是为非证件照图像，本申请实施例对具体采用哪种方式不加以限定。

需要说明的是，上述过程仅以终端通过部署在终端侧的证件照识别模型来对原始图像进行识别为例进行说明的，在其他可能的实现方式中，还可以通过服务器侧部署的证件照识别模型来对从终端处接收到的原始图像进行识别，并将识别结果发送给终端，通过服务器进行证件照图像的识别的过程与上述过程同理，此处不再赘述。

本申请实施例提供的方案，通过获取待识别的原始图像，对原始图像进行预处理，得到尺度不同的至少两个预处理图像，将至少两个预处理图像输入证件照识别模型，通过输入尺度不同的至少两个深度神经网络分别对至少两个预处理图像并行进行证件照图像预测处理，计算得到与至少两个预处理图像分别对应的至少两个预测概率，进而确定原始图像属于该证件照图像的目标概率，可以综合尺度不同的至少两个深度神经网络的识别结果，来对原始图像是否属于证件照图像进行判断，可以避免单个深度神经网络发生误判，提高证件照图像的识别准确率，在目标概率符合第一预设条件的情况下，将原始图像识别为证件照图像，无需识别原始图像中的字符，从而避免了原始图像背景部分中的字符对图像识别造成影响，识别准确率较高。此外，证件照识别模型中使用的深度神经网络均为小型卷积网络，运行速度快，开销小，可以部署在终端中，提高证件照识别速度，减小设备开销，提高识别效率。

上述图4所示的过程仅为通过证件照识别模型来对待识别的原始图像进行识别的过程，在此之前，需要对初始模型进行训练，来得到用于图像识别的证件照识别模型。该初始模型中可以包括多个初始深度神经网络，终端可以通过收集的图像，来对初始模型中的各个初始深度神经网络进行训练，以实现对整个初始模型的训练，参见图8，图8是本申请实施例提供的一种初始模型训练过程的基本流程图，该训练过程基本包括：相关技术人员可以通过步骤801，对图像进行收集，并根据图像是否属于证件照图像来对图像的标签进行标定，证件照图像的标签记为1，非证件照图像的标签记为0，还可以通过步骤802，对收集到的图像进行增强处理，以增加样本图像的数量，用于对初始模型中的初始深度神经网络进行训练，在对CNN1进行训练时，可以先通过步骤803，将样本图像缩放到448*448，再通过步骤804，将缩放后的图像输入CNN1，通过步骤805来对样本图像的标签进行预测，通过步骤806，计算预测结果的损失值，通过步骤807，根据计算的损失值对CNN1网络进行更新，实现对初始深度神经网络CNN1的训练。CNN1网络的具体训练过程可以参见图9，图9是本申请实施例提供的一种初始深度神经网络的训练过程的流程图，通过步骤901将训练时所用的样本图像，也即是，固定大小为448*448训练图片输入至CNN1网络902，通过CNN1网络获取训练图片的卷积特征903，进而结合训练图片的标签904，通过步骤905来计算损失函数，进而通过步骤906的梯度下降法，来实现步骤907中对CNN1网络的更新。初始深度神经网络CNN2和CNN3的训练过程与CNN1同理，在对CNN2进行训练时，可以先通过步骤808，将样本图像缩放到224*224，再通过步骤809，将缩放后的图像输入CNN2，通过步骤810来对样本图像的标签进行预测，通过步骤811，计算预测结果的损失值，通过步骤812，根据计算的损失值对CNN2网络进行更新，实现对初始深度神经网络CNN2的训练。CNN2网络的具体训练过程可以参见图10，图10是本申请实施例提供的一种初始深度神经网络的训练过程的流程图，通过步骤1001将训练时所用的样本图像，也即是，固定大小为224*224的训练图片输入至CNN2网络1002，通过CNN2网络获取训练图片的卷积特征1003，进而结合训练图片的标签1004，通过步骤1005来计算损失函数，进而通过步骤1006的梯度下降法，来实现步骤1007中对CNN2网络的更新。在对CNN3进行训练时，可以先通过步骤813，将样本图像缩放到112*112，再通过步骤814，将缩放后的图像输入CNN3，通过步骤815来对样本图像的标签进行预测，通过步骤816，计算预测结果的损失值，通过步骤817，根据计算的损失值对CNN3网络进行更新，实现对初始深度神经网络CNN3的训练。CNN3网络的具体的训练过程可以参见图11，图11是本申请实施例提供的一种初始深度神经网络的训练过程的流程图，通过步骤1101将训练时所用的样本图像，也即是，固定大小为112*112的训练图片输入至CNN3网络1102，通过CNN3网络获取训练图片的卷积特征1103，进而结合训练图片的标签1104，通过步骤1105来计算损失函数，进而通过步骤1106的梯度下降法，来实现步骤1107中对CNN3网络的更新。通过对各个初始深度神经网络进行训练，即可以实现对包括各个初始深度神经网络的初始模型的训练，以得到用于进行证件照图像识别的证件照识别模型。

上述图8所示仅为对初始模型进行训练的基本流程，下面基于一种具体的训练过程，来对本申请提供的方案进行进一步阐述，图12是本申请实施例提供的一种初始模型训练过程的流程图，参见图12，该训练过程可以参见下述步骤1201至步骤1207。

1201、服务器获取至少一个第一样本图像和该至少一个第一样本图像的标签，该标签用于指示该第一样本图像是否属于证件照图像。

需要说明的是，相关技术人员可以预先根据用户反馈对证件照图像进行收集，如身份证、银行卡和其他类型的证件照等，作为模型训练使用的正样本图像，还可以对常见场景图像进行收集，作为模型训练使用的负样本图像，服务器可以维护有一个样本图像数据库，用于存储收集到的正样本图像和负样本图像以及这些图像对应的标签。

在一种可能的实现方式中，服务器可以从样本图像数据库中获取多个正样本图像和多个负样本图像，作为第一样本图像，并从样本图像数据库中获取到这些图像对应的标签，用于对初始模型进行训练。

1202、服务器对该第一样本图像进行数据增强处理，得到至少两个第二样本图像，该数据增强处理包括裁剪、旋转和添加高斯白噪声中的至少一项。

需要说明的是，由于收集的证件照图像的数量有限，服务器可以将从数据库中获取到的多个正样本图像和多个负样本图像作为第一样本图像，并对该第一样本图像进行数据增强处理，来得到可以用于模型训练的多个第二样本图像。

其中，对该第一样本图像进行数据增强处理可以有如下几种具体方式：

在一种可能的实现方式中，服务器可以对第一样本图像进行裁剪，得到大小不同的至少两个第二样本图像。

需要说明的是，对图像进行裁剪可以有多种裁剪方式，如居中裁剪、随机裁剪，可选地，还可以有其他的裁剪方式，本申请实施例对具体采用哪种裁剪方式不加以限定。

其中，居中裁剪一般是围绕图像中心设定一个裁剪比例w，裁剪比例w大于0且小于1的任意值，一般裁剪比例w取大于等于0.4且小于等于0.9的值较为合适，例如裁剪比例为0.5，表示裁剪出长宽为原图长宽的0.5倍的区域，且裁剪区域的中心与原始图像中心重合，具体的裁剪方式可以参见图13，图13是本申请实施例提供的一种居中裁剪的结果示意图，通过对原始样本图像1301进行居中裁剪，可以得到1302、1303、1304三个数据增强后的样本图像。而随机裁剪一般是设定一个固定尺寸大小的模板，在原始图像上按照固定大小的模板进行随机切割，保留下来的图像尺寸和设定的固定尺寸一样，例如，可以设定裁剪长度为680，宽度为560，那么服务器可以在原始图像中随机裁剪下680*560的区域，具体的裁剪方式可以参见图14，图14是本申请实施例提供的一种随机裁剪的结果示意图，通过对原始样本图像1401进行随机裁剪，可以得到1402、1403、1404三个数据增强后的样本图像。需要强调的是，随机裁剪中可以预先设置有多个不同固定尺寸大小的模板，服务器可以根据设置的不同模板来进行裁剪，模板的长度、宽度可以根据实际情况进行设置，例如，可以预先设置十组不同模板，具体包括680*560、1280*960、640*480、480*320、720*640、560*680、960*1280、480*640、320*480、640*720这十组模板，服务器可以从这十组模板中随机选择一组或几组，并按照所选择的目标对图像进行裁剪，可选地，模板的长度、宽度还可以有其他取值，本申请实施例对此不加以限定。

在另一种可能的实现方式中，服务器可以对该第一样本图像进行旋转，得到旋转角度后的至少两个第二样本图像。

需要说明的是，对图像进行旋转可以包括顺时针旋转和逆时针旋转两种方式，本申请实施例对具体采用哪种方式不加以限定。不管采用哪种方式，在旋转时，一般都是围绕图像中心旋转0-30度范围内较为合适，也即是，以图像中心为原点，按照给定角度将图像整体进行旋转，具体的旋转方式可以参见图15，图15是本申请实施例提供的一种随机旋转的结果示意图，通过对原始样本图像1501进行旋转，可以得到1502、1503、1504三个数据增强后的样本图像。一张原始样本图像分别旋转若干角度可以得到若干个增强样本，这些增强样本都可以用于对初始模型进行训练。

在另一种可能的实现方式中，服务器可以在该第一样本图像中添加高斯白噪声，得到至少两个第二样本图像。

需要说明的是，高斯噪声是常见白噪声，对训练深度神经网络非常有效，在其他可能的实现方式中，还可以采用其他噪声，来对第三样本图像进行数据增强处理，本申请实施例对此不加以限定。在本申请实施例提供的方案中，可以选用均值为0、方差为0.1的高斯白噪声，来对第三样本图像进行随机扰动，按照随机概率0.1的方式进行随机采样，具体实现过程如下：

（1）在给定位置上产生一个0到1的随机数字，如果随机数字小于0.1，那么该位置的图片像素需要添加扰动，扰动大小范围为-13到13，此时随机抽取数字，例如抽到8，那么在原始像素基础上增加8像素，如果抽到-7，那么在原始像素基础上减少7像素，最后需要保证所有位置像素值不能小于0，也不能大于255；

（2）如果随机数字大于或者等于0.1，那么该位置的像素值保持不变。

在该第三样本图像中添加高斯白噪声得到的第一样本图像的结果可以参见图16，图16是本申请实施例提供的一种添加高斯白噪声的结果示意图，通过在原始样本图像1601中添加高斯白噪声，可以得到1602、1603、1604三个数据增强后的样本图像。

需要说明的是，上述三种对图像进行数据增强处理的方式可以单独使用，也可以任意结合起来进行使用，本申请实施例对此不加以限定。例如，服务器可以对原始样本图像进行裁剪和旋转两种操作，分别得到裁剪后和旋转后的样本图像，还可以对原始样本图像进行裁剪、旋转和添加高斯白噪声三种操作，分别得到裁剪后、旋转后和添加高斯白噪声后的样本图像，可选地，还可以有其他结合方式来对原始样本图像进行数据增强处理，本申请实施例对具体采用哪种结合方式不加以限定。通过对该第三样本图像进行数据增强处理，可以得到用于模型训练的多个第一样本图像，增加训练样本数量，提高正样本图像的召回率，提高模型训练的准确性。

由于能够作为样本图像的证件照图像数量较少且难以获取，因而可以通过该步骤102，来对已有样本进行扩充，从而得到更多且更具有干扰性的样本图像，再通过下述步骤1203，即可以利用所得到的样本图像，获取适用于对包括不同尺度的至少两个深度神经网络的样本图像，从而基于最终得到的大量的、且具有不同尺度的样本图像来进行模型训练，以提高训练后的证件照识别模型的准确性。

1203、服务器根据该至少两个初始深度神经网络对应的输入尺度，对该至少一个第一样本图像以及该至少两个第二样本图像进行缩放，得到尺度符合该至少两个初始深度神经网络的输入尺度的至少两个第三样本图像。

需要说明的是，该步骤1202与上述步骤402同理，此处不再赘述。

1204、服务器将该至少两个第三样本图像输入初始模型，该初始模型中包括输入尺度不同的至少两个初始深度神经网络。

1205、对于该初始模型中的各个初始深度神经网络，服务器分别通过各个初始深度神经网络，对与各个初始深度神经网络的输入尺度对应的第三样本图像进行证件照图像预测处理，确定该第三样本图像属于证件照图像的概率。

其中，该初始模型中包括多个初始深度神经网络，服务器可以通过获取到的第三样本图像，来对初始模型中的各个初始深度神经网络进行训练，以实现对初始模型的训练，得到可以用于证件照图像识别的证件照识别模型。

需要说明的是，步骤1203至步骤1204与上述步骤403至步骤406同理，此处不再赘述。

1206、服务器根据该第三样本图像属于证件照图像的概率与该第一样本图像的标签，确定各个初始深度神经网络的损失函数值。

需要说明的是，计算损失函数值是指将预测结果与获取样本图像时获取到的真实标签进行比对，计算预测结果与真实标签的距离，该距离即为损失函数值，损失函数可以采用Softmax函数，可选地，该损失函数还可以采用其他函数，本申请实施例对此不加以限定。

在一种可能的实现方式中，服务器可以根据Softmax函数，计算步骤1204中该第三样本图像属于证件照图像的概率与该第三样本图像对应的第一样本图像的标签的差值。

1207、服务器根据各个初始深度神经网络的损失函数值，通过梯度下降法，对各个初始深度神经网络的参数进行调整，直至调整后的初始深度神经网络满足第二预设条件，将满足该第二预设条件的初始深度神经网络作为该证件照识别模型中的深度神经网络，得到用于进行证件照识别的证件识别模型。

在一种可能的实现方式中，服务器可以根据损失函数值，计算损失函数值对网络的梯度，利用梯度修正网络，来对初始模型中的各个初始深度神经网络的参数分别进行调整，进而使当前所训练的深度神经网络下一次的预测值与真实标签更接近，当对参数进行一定次数的调整后，网络模型参数不会再大幅度变化，且经过参数调整后的模型在证件照测试样本上表现性能优异，也即是，调整后的初始深度神经网络满足第二预设条件，此时停止训练，保存各个初始深度神经网络的参数，将最终保存的参数对应的各个深度神经网络作为该证件照识别模型中的输入尺度不同的深度神经网络。

需要说明的是，该第二预设条件可以为该预测结果的准确性满足迭代截止条件，还可以为损失函数值满足迭代截止条件，还可以为迭代次数达到预设次数，本申请实施例对具体采用哪种条件作为第二预设条件不加以限定。

通过上述过程，可以实现初始模型中各个不同尺度的初始深度神经网络的训练，得到用于构成证件照识别模型的各个不同尺度的深度神经网络，进而通过该证件照识别模型中各个不同尺度的深度神经网络，来对待识别的原始图像是否属于证件照图像进行识别，综合尺度不同的深度神经网络的识别结果，可以避免单个深度神经网络发生误判，提高证件照图像的识别准确率。此外，通过证件照识别模型对原始图像进行识别，无需识别原始图像中的字符，从而避免了原始图像背景部分中的字符对图像识别造成影响，识别准确率较高。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

图17是本申请实施例提供的一种基于人工智能的图像识别装置的结构示意图，参见图17，该装置包括：

样本获取模块1701，用于获取至少一个第一样本图像和该至少一个第一样本图像的标签，该标签用于指示该第一样本图像是否属于证件照图像；

数据增强处理模块1702，用于对所述至少一个第一样本图像进行数据增强处理，得到所述第一样本图像对应的至少两个第二样本图像，所述数据增强处理包括裁剪、旋转和添加高斯白噪声中的至少一项；

样本预处理模块1703，用于对所述至少一个第一样本图像以及所述至少两个第二样本图像进行预处理，得到每个所述第一样本图像和所述第二样本图像对应的尺度不同的至少两个第三样本图像；

训练模块1704，用于基于该尺度不同的至少两个第三样本图像进行训练，得到证件照识别模型，该证件照识别模型中包括输入尺度不同的至少两个深度神经网络；

获取模块1705，用于获取待识别的原始图像；

输入模块1706，用于对该原始图像进行预处理后，将经过预处理得到的至少两个预处理图像输入证件照识别模型；

预测模块1707，用于通过该证件照识别模型中的输入尺度不同的至少两个深度神经网络分别对该至少两个预处理图像进行证件照图像预测处理，得到与该至少两个预处理图像分别对应的至少两个预测概率；其中，该预测概率用于指示图像为该证件照图像的概率；

识别模块1708，用于在该至少两个预测概率对应的目标概率符合第一预设条件的情况下，将该原始图像识别为该证件照图像。

本申请实施例提供的装置，通过基于数据增强处理后的每个第二样本图像预处理得到的至少两个第三样本图像进行训练，得到证件照识别模型，可以在样本图像数量较少的情况下，通过训练得到识别结果较为准确的证件照识别模型，通过证件照识别模型中输入尺度不同的至少两个深度神经网络分别对原始图像预处理后得到的至少两个预处理图像并行进行证件照图像预测处理，计算得到与至少两个预处理图像分别对应的至少两个预测概率，可以综合尺度不同的至少两个深度神经网络的识别结果，来对原始图像是否属于证件照图像进行判断，避免单个深度神经网络发生误判，提高证件照图像的识别准确率，在至少两个预测概率对应的目标概率符合第一预设条件的情况下，将原始图像识别为证件照图像，无需识别原始图像中的字符，从而避免了原始图像背景部分中的字符对图像识别造成影响，识别准确率较高。

在一种可能的实现方式中，该装置还包括：

提取模块，用于对于该证件照识别模型中的任一个深度神经网络，通过该深度神经网络的卷积层，提取与该深度神经网络的输入尺度对应的预处理图像的特征图；

采样模块，用于通过该深度神经网络的特征采样层，对该特征图进行采样；

融合模块，用于通过该深度神经网络的特征拼接层，对该卷积层输出的和采样得到的特征进行融合，得到卷积特征；

归一化处理模块，用于对该卷积特征进行归一化处理；

确定模块，用于根据归一化处理的结果确定与该深度神经网络的输入尺度对应的预处理图像的预测概率。

在一种可能的实现方式中，该装置还包括：

缩放模块，用于根据该至少两个深度神经网络对应的输入尺度，对该原始图像进行缩放，得到尺度符合该至少两个深度神经网络的输入尺度的至少两个预处理图像；

该输入模块，还用于将该至少两个预处理图像输入该证件照识别模型。

在一种可能的实现方式中，该确定模块，还用于根据该至少两个预测概率，确定该至少两个预测概率的平均概率；

该确定模块，还用于将该平均概率确定为该目标概率。

在一种可能的实现方式中，该装置还包括：

样本输入模块，用于将该至少两个第三样本图像输入初始模型，该初始模型中包括输入尺度不同的至少两个初始深度神经网络；

该训练模块，还用于基于该至少两个第三样本图像和该至少一个第一样本图像的标签，对该输入尺度不同的至少两个初始深度神经网络分别进行训练，得到用于进行证件照识别的证件识别模型。

在一种可能的实现方式中，该装置还包括：

需要说明的是：上述实施例提供的基于人工智能的图像识别装置在识别原始图像是否为证件照图像时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将终端的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于人工智能的图像识别装置与基于人工智能的图像识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在示例性实施例中，本申请提供了一种计算机设备，该计算机设备可以包括终端和服务器，下面对终端和服务器的结构分别进行阐述。

图18是本申请实施例提供的一种终端的结构示意图。该终端1800可以是：智能手机、平板电脑、MP3播放器（Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3）、MP4（Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4）播放器、笔记本电脑或台式电脑。终端1800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1800包括有：一个或多个处理器1801和一个或多个存储器1802。

处理器1801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1801可以采用DSP（Digital Signal Processing，数字信号处理）、FPGA（Field－Programmable Gate Array，现场可编程门阵列）、PLA（Programmable Logic Array，可编程逻辑阵列）中的至少一种硬件形式来实现。处理器1801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU（Central ProcessingUnit，中央处理器）；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1801可以在集成有GPU（Graphics Processing Unit，图像处理器），GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1801还可以包括AI（Artificial Intelligence，人工智能）处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1802中的非暂态的计算机可读存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器1801所执行以实现本申请中方法实施例提供的基于人工智能的图像识别方法。

在一些实施例中，终端1800还可选包括有：外围设备接口1803和至少一个外围设备。处理器1801、存储器1802和外围设备接口1803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1803相连。具体地，外围设备包括：射频电路1804、显示屏1805、摄像头1806、音频电路1807、定位组件1808和电源1809中的至少一种。

外围设备接口1803可被用于将I/O（Input /Output，输入/输出）相关的至少一个外围设备连接到处理器1801和存储器1802。在一些实施例中，处理器1801、存储器1802和外围设备接口1803被集成在同一芯片或电路板上；在一些其他实施例中，处理器1801、存储器1802和外围设备接口1803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1804用于接收和发射RF（Radio Frequency，射频）信号，也称电磁信号。射频电路1804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1804包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络（2G、3G、4G及5G）、无线局域网和/或WiFi(Wireless Fidelity，无线保真）网络。在一些实施例中，射频电路1804还可以包括NFC（Near Field Communication，近距离无线通信）有关的电路，本申请对此不加以限定。

显示屏1805用于显示UI（User Interface，用户界面）。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1805是触摸显示屏时，显示屏1805还具有采集在显示屏1805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1801进行处理。此时，显示屏1805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1805可以为一个，设置终端1800的前面板；在另一些实施例中，显示屏1805可以为至少两个，分别设置在终端1800的不同表面或呈折叠设计；在再一些实施例中，显示屏1805可以是柔性显示屏，设置在终端1800的弯曲表面上或折叠面上。甚至，显示屏1805还可以设置成非矩形的不规则图形，也即异形屏。显示屏1805可以采用LCD（Liquid Crystal Display，液晶显示屏）、OLED（Organic Light-Emitting Diode，有机发光二极管）等材质制备。

摄像头组件1806用于采集图像或视频。可选地，摄像头组件1806包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR（Virtual Reality，虚拟现实）拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1801进行处理，或者输入至射频电路1804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1801或射频电路1804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1807还可以包括耳机插孔。

定位组件1808用于定位终端1800的当前地理位置，以实现导航或LBS（LocationBased Service，基于位置的服务）。定位组件1808可以是基于美国的GPS（GlobalPositioning System，全球定位系统）、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源1809用于为终端1800中的各个组件进行供电。电源1809可以是交流电、直流电、一次性电池或可充电电池。当电源1809包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1800还包括有一个或多个传感器1810。该一个或多个传感器1810包括但不限于：加速度传感器1811、陀螺仪传感器1812、压力传感器1813、指纹传感器1814、光学传感器1815以及接近传感器1816。

加速度传感器1811可以检测以终端1800建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1811可以用于检测重力加速度在三个坐标轴上的分量。处理器1801可以根据加速度传感器1811采集的重力加速度信号，控制显示屏1805以横向视图或纵向视图进行用户界面的显示。加速度传感器1811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1812可以检测终端1800的机体方向及转动角度，陀螺仪传感器1812可以与加速度传感器1811协同采集用户对终端1800的3D动作。处理器1801根据陀螺仪传感器1812采集的数据，可以实现如下功能：动作感应（比如根据用户的倾斜操作来改变UI）、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1813可以设置在终端1800的侧边框和/或显示屏1805的下层。当压力传感器1813设置在终端1800的侧边框时，可以检测用户对终端1800的握持信号，由处理器1801根据压力传感器1813采集的握持信号进行左右手识别或快捷操作。当压力传感器1813设置在显示屏1805的下层时，由处理器1801根据用户对显示屏1805的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1814用于采集用户的指纹，由处理器1801根据指纹传感器1814采集到的指纹识别用户的身份，或者，由指纹传感器1814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1801授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1814可以被设置终端1800的正面、背面或侧面。当终端1800上设置有物理按键或厂商Logo时，指纹传感器1814可以与物理按键或厂商Logo集成在一起。

光学传感器1815用于采集环境光强度。在一个实施例中，处理器1801可以根据光学传感器1815采集的环境光强度，控制显示屏1805的显示亮度。具体地，当环境光强度较高时，调高显示屏1805的显示亮度；当环境光强度较低时，调低显示屏1805的显示亮度。在另一个实施例中，处理器1801还可以根据光学传感器1815采集的环境光强度，动态调整摄像头组件1806的拍摄参数。

接近传感器1816，也称距离传感器，通常设置在终端1800的前面板。接近传感器1816用于采集用户与终端1800的正面之间的距离。在一个实施例中，当接近传感器1816检测到用户与终端1800的正面之间的距离逐渐变小时，由处理器1801控制显示屏1805从亮屏状态切换为息屏状态；当接近传感器1816检测到用户与终端1800的正面之间的距离逐渐变大时，由处理器1801控制显示屏1805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图18中示出的结构并不构成对终端1800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图19是本申请实施例提供的一种服务器的结构示意图，该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器（Central Processing Units，CPU）1901和一个或多个的存储器1902，其中，该一个或多个存储器1902中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器1901加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器1900还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器1900还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括程序代码的存储器，上述程序代码可由处理器执行以完成上述实施例中的基于人工智能的图像识别方法。例如，该计算机可读存储介质可以是只读存储器（Read-Only Memory, ROM）、随机存取存储器（Random Access Memory，RAM）、只读光盘 (Compact Disc Read-Only Memory，CD-ROM）、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来程序代码相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于人工智能的图像识别方法，其特征在于，所述方法包括：

获取待识别的原始图像，对所述原始图像进行预处理后，将经过预处理得到的至少两个预处理图像输入证件照识别模型，通过所述证件照识别模型中的输入尺度不同的至少两个深度神经网络分别对所述至少两个预处理图像进行证件照图像预测处理，得到与所述至少两个预处理图像分别对应的至少两个预测概率；其中，所述预测概率用于指示所述预处理图像为所述证件照图像的概率；

在所述至少两个预测概率对应的目标概率符合第一预设条件的情况下，将所述原始图像识别为所述证件照图像。

2.根据权利要求1所述的方法，其特征在于，所述通过所述证件照识别模型中的输入尺度不同的至少两个深度神经网络分别对所述至少两个预处理图像进行证件照图像预测处理，得到与所述至少两个预处理图像分别对应的至少两个预测概率包括：

对于所述证件照识别模型中的任一个深度神经网络，通过所述深度神经网络的卷积层，提取与所述深度神经网络的输入尺度对应的预处理图像的特征图；

通过所述深度神经网络的特征采样层，对所述特征图进行采样；

通过所述深度神经网络的特征拼接层，对所述卷积层输出的和采样得到的特征进行融合，得到卷积特征；

对所述卷积特征进行归一化处理，根据归一化处理的结果确定与所述深度神经网络的输入尺度对应的预处理图像的预测概率。

3.根据权利要求1所述的方法，其特征在于，所述对所述原始图像进行预处理后，将经过预处理得到的至少两个预处理图像输入证件照识别模型包括：

根据所述至少两个深度神经网络对应的输入尺度，对所述原始图像进行缩放，得到尺度符合所述至少两个深度神经网络的输入尺度的至少两个预处理图像；

将所述至少两个预处理图像输入所述证件照识别模型。

4.根据权利要求1所述的方法，其特征在于，所述通过所述证件照识别模型中的输入尺度不同的至少两个深度神经网络分别对所述至少两个预处理图像进行证件照图像预测处理，得到与所述至少两个预处理图像分别对应的至少两个预测概率之后，所述方法还包括：

根据所述至少两个预测概率，确定所述至少两个预测概率的平均概率；

将所述平均概率确定为所述目标概率。

5.根据权利要求1所述的方法，其特征在于，所述基于所述尺度不同的至少两个第三样本图像进行训练，得到证件照识别模型包括：

将所述至少两个第三样本图像输入初始模型，所述初始模型中包括输入尺度不同的至少两个初始深度神经网络；

基于所述至少两个第三样本图像和所述至少一个第一样本图像的标签，对所述输入尺度不同的至少两个初始深度神经网络分别进行训练，得到用于进行证件照识别的证件识别模型。

6.根据权利要求5所述的方法，其特征在于，所述基于所述至少两个第三样本图像和所述至少一个第一样本图像的标签，对所述输入尺度不同的至少两个初始深度神经网络分别进行训练包括：

对于所述初始模型中的任一个初始深度神经网络，通过所述初始深度神经网络，对与所述初始深度神经网络的输入尺度对应的第三样本图像进行证件照图像预测处理，确定所述第三样本图像属于证件照图像的概率；

根据所述第三样本图像属于证件照图像的概率与所述第一样本图像的标签，确定损失函数值；

根据所述损失函数值，通过梯度下降法，对所述初始深度神经网络的参数进行调整，直至调整后的初始深度神经网络满足第二预设条件，将满足所述第二预设条件的初始深度神经网络作为所述证件照识别模型中的深度神经网络。

7.根据权利要求1所述的方法，其特征在于，所述对所述至少一个第一样本图像以及所述至少两个第二样本图像进行预处理，得到每个所述第一样本图像和所述第二样本图像对应的尺度不同的至少两个第三样本图像包括：

根据所述至少两个初始深度神经网络对应的输入尺度，对所述至少一个第一样本图像以及所述至少两个第二样本图像进行缩放，得到尺度符合所述至少两个初始深度神经网络的输入尺度的至少两个第三样本图像。

8.根据权利要求1所述的方法，其特征在于，所述对所述至少一个第一样本图像进行数据增强处理，得到所述第一样本图像对应的至少两个第二样本图像包括下述至少一项：

对所述第一样本图像进行裁剪，得到大小不同的至少两个第二样本图像，所述第一样本图像为获取到的原始样本图像；

对所述第一样本图像进行旋转，得到旋转角度后的至少两个第二样本图像；

在所述第一样本图像中添加高斯白噪声，得到至少两个第二样本图像。

9.一种基于人工智能的图像识别装置，其特征在于，所述装置包括：

获取模块，用于获取待识别的原始图像；

预测模块，用于通过所述证件照识别模型中的输入尺度不同的至少两个深度神经网络分别对所述至少两个预处理图像进行证件照图像预测处理，得到与所述至少两个预处理图像分别对应的至少两个预测概率；其中，所述预测概率用于指示图像为所述证件照图像的概率；

识别模块，用于在所述至少两个预测概率对应的目标概率符合第一预设条件的情况下，将所述原始图像识别为所述证件照图像。

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：

提取模块，用于对于所述证件照识别模型中的任一个深度神经网络，通过所述深度神经网络的卷积层，提取与所述深度神经网络的输入尺度对应的预处理图像的特征图；

采样模块，用于通过所述深度神经网络的特征采样层，对所述特征图进行采样；

融合模块，用于通过所述深度神经网络的特征拼接层，对所述卷积层输出的和采样得到的特征进行融合，得到卷积特征；

归一化处理模块，用于对所述卷积特征进行归一化处理；

确定模块，用于根据归一化处理的结果确定与所述深度神经网络的输入尺度对应的预处理图像的预测概率。

11.根据权利要求9所述的装置，其特征在于，所述装置还包括：

缩放模块，用于根据所述至少两个深度神经网络对应的输入尺度，对所述原始图像进行缩放，得到尺度符合所述至少两个深度神经网络的输入尺度的至少两个预处理图像；

所述输入模块，还用于将所述至少两个预处理图像输入所述证件照识别模型。

12.根据权利要求9所述的装置，其特征在于，所述确定模块，还用于根据所述至少两个预测概率，确定所述至少两个预测概率的平均概率；

所述确定模块，还用于将所述平均概率确定为所述目标概率。

13.根据权利要求9所述的装置，其特征在于，所述装置还包括：

样本输入模块，用于将所述至少两个第三样本图像输入初始模型，所述初始模型中包括输入尺度不同的至少两个初始深度神经网络；

所述训练模块，还用于基于所述至少两个第三样本图像和所述至少一个第一样本图像的标签，对所述输入尺度不同的至少两个初始深度神经网络分别进行训练，得到用于进行证件照识别的证件识别模型。

14.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述程序代码由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求7任一项所述的基于人工智能的图像识别方法所执行的操作。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现如权利要求1至权利要求7任一项所述的基于人工智能的图像识别方法所执行的操作。