CN110533097B

CN110533097B - 一种图像清晰度识别方法、装置、电子设备及存储介质

Info

Publication number: CN110533097B
Application number: CN201910797576.8A
Authority: CN
Inventors: 余亭浩; 曹霖
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2023-01-06
Anticipated expiration: 2039-08-27
Also published as: CN110533097A

Abstract

本发明提供了一种图像清晰度识别方法、装置、电子设备及存储介质，涉及计算机视觉技术，神经网络模型包括：场景特征提取器、清晰度特征提取器、全连接层和最大似然函数层；方法包括：通过场景特征提取器对图像进行场景特征提取，得到图像的场景特征；通过清晰度特征提取器，对图像进行清晰度特征提取，得到图像的清晰度特征；将图像的场景特征和清晰度特征进行拼接，通过全连接层将图像的场景特征和清晰度特征融合处理，得到融合特征；通过最大似然函数层对融合特征进行分类处理，得到图像对应多个清晰度类别的概率；将具有最大概率的清晰度类别确定为图像的清晰度类别。本发明能够有效识别各类图像的清晰度。

Description

一种图像清晰度识别方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能的计算机视觉技术，尤其涉及一种基于神经网络模型的图像清晰度识别方法、装置、电子设备及存储介质。

背景技术

人工智能(AI，Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。

计算机视觉技术(CV，Computer Vision)是人工智能的重要应用，其研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。典型的计算机视觉技术通常包括图像处理。

随着互联网技术的飞速发展，图文信息流或者视频信息流等图像形式的媒体数据已经成为了大数据的主体，其中包括一些质量较差的视频以及照片，打压低质量图像对提高用户体验至关重要，因此，用户对于图像的质量要求也日益提高，其中，除了对于图像内容要求之外，用户对于图像的清晰度的要求也日益增高。

发明内容

本发明实施例提供一种基于神经网络模型的图像清晰度识别方法、装置、电子设备及存储介质，能够融合清晰度特征与其他图像特征，从而有效的识别各种类型图像的清晰度。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种基于神经网络模型的图像清晰度识别方法，

所述神经网络模型包括：场景特征提取器、清晰度特征提取器、全连接层和最大似然函数层；

所述方法包括：

通过所述场景特征提取器对图像进行场景特征提取，以得到所述图像的场景特征；

通过所述清晰度特征提取器，对所述图像进行清晰度特征提取，以得到所述图像的清晰度特征；

将所述图像的场景特征以及清晰度特征进行拼接，并通过所述全连接层将所述图像的场景特征以及清晰度特征融合处理，得到融合特征；

通过所述最大似然函数层对所述融合特征进行分类处理，得到所述图像对应多个清晰度类别的概率；

将具有最大概率的清晰度类别确定为所述图像的清晰度类别。

本发明实施例提供一种基于神经网络模型的图像清晰度识别装置，

所述装置包括：

场景特征提取模块，用于通过所述场景特征提取器对图像进行场景特征提取，以得到所述图像的场景特征；

清晰度特征提取模块，用于通过所述清晰度特征提取器，对所述图像进行清晰度特征提取，以得到所述图像的清晰度特征；

特征融合模块，用于将所述图像的场景特征以及清晰度特征进行拼接，并通过所述全连接层将所述图像的场景特征以及清晰度特征融合处理，得到融合特征；

融合特征分类模块，用于通过所述最大似然函数层对所述融合特征进行分类处理，得到所述图像对应多个清晰度类别的概率；

清晰度类别确定模块，用于将具有最大概率的清晰度类别确定为所述图像的清晰度类别。

在上述方案中，所述装置还包括：

前置训练模块，用于：

构建训练样本集合；

基于所述训练样本集合，对所述神经网络模型中的场景特征提取器进行前置训练，并对所述神经网络模型中的清晰度特征提取器进行前置训练；

模型训练模块，用于基于所述训练样本集合，训练所述神经网络模型。

在上述方案中，所述模型训练模块还用于：

初始化所述神经网络模型的输入层、中间层和输出层，并初始化包括输入样本、输出结果、以及神经网络模型参数的损失函数；

在所述神经网络模型每次迭代训练过程中执行以下处理：

以所述训练样本集合包括的场景数据样本以及清晰度数据样本为所述输入样本，并以所述清晰度类别为所述输出结果，将所述输入样本和所述输出结果代入所述损失函数，以确定所述损失函数取得最小值时对应的神经网络模型参数；

根据所确定的神经网络模型参数更新所述神经网络模型。

在上述方案中，所述前置训练模块还用于：

初始化所述场景特征提取器的输入层、中间层和输出层，并初始化包括输入样本、输出结果、以及场景特征提取器参数的损失函数；

在所述场景特征提取器每次迭代训练过程中执行以下处理：

以所述训练样本集合包括的场景数据样本为所述输入样本，以场景类别为所述输出结果，将所述输入样本和所述输出结果代入所述损失函数，以确定所述损失函数取得最小值时对应的场景特征提取器参数；

根据所确定的场景特征提取器参数更新所述场景特征提取器。

在上述方案中，所述前置训练模块还用于：

将两个相同的清晰度特征提取器构造为孪生神经网络模型；

初始化所述孪生神经网络模型的输入层、中间层和输出层，并初始化包括输入样本、输出结果、以及孪生神经网络模型参数的损失函数；

在所述孪生神经网络模型每次迭代训练过程中，

将所述训练样本集合中的图像对作为所述输入样本，对应输入到所述孪生神经网络模型中的两个清晰度特征提取器中，得到所述孪生神经网络模型输出的图像对的清晰度作为所述输出结果；

当所述清晰度的排序与所述图像对的实际清晰度的排序不一致时，根据所述图像对和损失函数计算所述损失函数的梯度，并基于所述梯度更新所述两个清晰度特征提取器的参数。

在上述方案中，所述装置还包括：

图像对获取模块，还用于：

从所述训练样本集合中获取多个内容一致且清晰度不同的图像序列；

将所述图像序列中的多个图像划分为多对内容一致、且清晰度不同的图像对；

其中，所述图像对按照清晰度高低依次排列。

在上述方案中，所述前置训练模块还用于：

获取所述孪生神经网络模型的权重；

获取图像历史审核数据集，并提取所述图像历史审核数据集的清晰样本数据以及模糊样本数据；

基于所述清晰样本数据、所述模糊样本数据以及所述孪生神经网络模型的权重，对所述清晰度特征提取器进行训练。

在上述方案中，所述神经网络模型还包括：类型特征提取器以及美感特征提取器，所述特征融合模块，还用于：

通过所述类型特征提取器对所述图像进行类型特征提取，以得到所述图像的类型特征；

通过所述美感特征提取器对所述图像进行美感特征提取，以得到所述图像的美感特征；

将所述图像的场景特征、清晰度特征、类型特征以及美感特征进行拼接，并通过所述全连接层将所述图像的场景特征、清晰度特征、类型特征以及美感特征融合处理，得到所述融合特征。

在上述方案中，所述装置还包括：

视频判断模块，用于：

从视频中解码得到多帧所述图像；

当所述图像的清晰度类别符合清晰度异常标准时，将所述图像确定为异常图像；

当解码得到的多帧所述图像中属于所述异常图像的数目大于异常阈值时，对所述视频进行拦截处理。

本发明实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的基于神经网络模型的图像清晰度识别方法。

本发明实施例提供一种存储介质，存储有可执行指令，用于引起处理器执行时，实现本发明实施例提供的基于神经网络模型的图像清晰度识别方法。

本发明实施例具有以下有益效果：

通过对图像的场景特征和清晰度特征进行融合，在考虑到场景特征对于清晰度评价的影响后，对清晰度评价问题做了更全面更准确的建模，从而可以识别各种图像的清晰度。

附图说明

图1A-1C是相关技术中清晰度识别方法中神经网络模型的可选的架构图；

图2是本发明实施例提供的清晰度识别系统架构在实际应用中的一个可选的结构示意图；

图3是本发明实施例提供的基于神经网络模型的图像清晰度识别电子设备的一个可选的结构示意图；

图4A-4B是本发明实施例提供的神经网络模型的架构图；

图5A-5E是本发明实施例提供的基于神经网络模型的图像清晰度识别方法的可选的流程示意图；

图6是本发明实施例提供的场景特征提取器的可选网络模型结构的示意图；

图7是本发明实施例提供的清晰度特征模块的流程示意图；

图8是本发明实施例提供的清晰度特征模块的可选网络模型结构的示意图；

图9是本发明实施例提供的图像清晰度识别方法的应用界面示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)图像质量评价(IQA，Image Quality Assessment)：图像清晰度识别属于图像质量评价，对于图像质量进行评价，主要包含三种：全参考(FR-IQA，Full Reference-IQA)、半参考(RR-IQA，Reduced Reference-IQA)和无参考(NR-IQA，No Reference-IQA)。

2)全参考：同时有原始(无失真)参考图像和失真图像，其核心是对比两副图像的信息量或者特征相似度，实现难度较低，是研究比较成熟的方向，在图像压缩方面有较多应用。

3)半参考：有原始图像的部分信息或从参考图像中提取的部分特征作为半参考，此类方法介于FR-IQA和NR-IQA之间。

4)无参考：只有失真图像，实现难度较高，是近些年的研究热点，也是IQA中最有挑战的问题。

5)视觉美学分析(AVA，aesthetic visual analysis)图像美感评价数据库：西班牙巴塞罗那自治大学计算机视觉中心构建了一个面向图像视觉美学质量分析与度量的大规模图像数据库，采用了从在线图像分享打分网站下载收集的打分方法，数据集包含255530幅有效图像，每一幅图像都由多个网站注册的人类艺术家会员评分(1～10分)，每幅图被评分的人数范围为78～539，平均210人参与评分。该数据集是图像美学评价领域公认的基准测试集，目前有200余篇论文引用了该数据集。其标注数据质量较高，能够支持美感分类、美感评分、美感分布的学习，并且超过60种内容的摄影样式语义标记。然而该数据库并没有考虑图像的拍摄场景、相机参数以及后期处理带来的影响。

相关技术提供的无参考图像清晰度识别方法主要有以下两大类：

一类是传统的方法，主要有基于边缘分析的方法，如使用索博尔(Sobel)算子、肯尼(Canny)边缘检测技术提取图像的边缘，或者基于变换域的方法，如使用离散余弦变换进行模糊评价，或者使用像素统计信息的方法，如统计图像协方差矩阵的最大的前几个特征值的迹作为图像锐度的估计。上述这类方法主要是用以特定类型的质量问题的判定，具有一定局限性，不能应对多样的失真类型。

另一类是基于深度学习的方法，这类方法主要将清晰度识别转换为分类或者回归问题，然后构建深度学习模型来训练识别。比较典型的几类方法有如下三种：

第一种，直接构建一个卷积神经网络模型来进行分类，图1A是该方法提供的卷积神经网络模型的可选的架构图。如图1A所示，该方法输入32*32大小的图像块，使用局部归一化、结合全局最大池化、最小池化、非线性激活层，选择支持向量回归(SVR，SupportVactor Regerssion)损失函数，使用带动量的随机梯度下降算法(SGD，StochasticGradient Descent)来训练模型。这类方法的缺点是，模型太过简单，虽然在公开的清晰度评价数据集上有较好的效果，但是难以应对现实世界中更多场景、更丰富类型的图片清晰度识别。

第二种，采用7层的卷积神经网络模型(CNN，Convolutional Neural Network)模型，图1B是该方法提供的卷积神经网络模型的可选的架构图，如图1B所示，该方案还结合图像的视觉显著性，考虑人视觉上对于图像的不同区域敏感性不同，该方案计算图像的显著性区域和轮廓，结合显著性区域和轮廓计算出每个块的视觉显著性权重。预测时，同样将图像切分为32*32的块，经过7层的CNN模型预测出质量打分，然后计算各个块质量分的加权平均。

第三种，结合有参考的图片清晰度评价方法来提升识别结果，图1C是该方法提供的图片清晰度评价模型的可选的架构图，如图1C所示，该方案的图像处理中自动生成不同级别的低质量图像，然后使用孪生网络来学习生成数据排序关系的表示特征，接着把学习到的表示特征迁移到类似上述两种方案的CNN模型中，估算单个模型的绝对图像质量，这里的孪生网络可以选用多种CNN模型。在孪生网络中，每次都有有成对的图像输入，两张图像一对一分别对应输入孪生网络模型中的两个相同的卷积神经网络模型中，两个卷积神经网络模型实际权重是共享的，也就是一摸一样，所以叫孪生，其核心在于将两张图像通过CNN模型之后获取对比损失。

这些方案在公开的一些测试集上可以取得一些比较好的识别结果，但是这些数据集类型相对比较单一、场景不够丰富、噪声类型不够多样，面对更加复杂的现实场景，该类方案无法很好应对，在图文信息流和视频信息流产品中，图片内容场景等丰富多样，现有的技术方法忽略了场景特点、主体类型、美感度等因素对图片清晰度评价的影响。因此，无法满足信息流产品中清晰度识别的要求，难以满足业务要求的准确效果。为了将现实中的场景中的场景特征、类型特征、美感特征等特征对清晰度的影响纳入清晰度评价中，本发明实施例提供了一种融合场景特征、主体类型特征、美感特征的识别方案，对清晰度评价问题做了更全面更准确的建模，可以有效的识别各种类型图片的清晰度，识别准确率优于现有方案。

本发明实施例提供一种基于神经网络模型的图像清晰度识别方法、装置、电子设备和存储介质，能够融合清晰度特征与其他图像特征，从而有效的识别各种类型图像的清晰度，下面说明本发明实施例提供的电子设备的示例性应用，本发明实施例提供的设备可以实施为笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的用户终端，也可以实施为服务器。下面，将说明电子设备实施为服务器时示例性应用。

参见图2，图2是本发明实施例提供的基于神经网络模型的图像清晰度识别应用系统100的一个可选的架构示意图，终端400通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。

应用系统100包括服务器200、终端400、图像推荐系统500以及图像拦截数据库600，服务器200可以获取终端400上传的照片或者视频，当服务器200接收到终端400上传的图像时，对图像进行清晰度识别，得出图像属于的清晰度类别，图像的清晰度可以分为三种类别，清晰、一般和模糊，当识别出图像清晰度类别属于清晰或者一般时，即图像属于正常图像，将图像发送至图像推荐系统500，由图像推荐系统500按照清晰度的类别采取不同的推荐策略，对于清晰度类别为清晰的图像在推荐系统中的优先级高于清晰度类别为一般的图像在推荐系统中的优先级，当识别出图像清晰度类别属于模糊时，结合图像的内容类别以及特征规则，直接对图像执行拦截处理，并将图像发送至图像拦截数据库600。这里，清晰、一般以及模糊这三类清晰度类别的区分标准是经过不断实验预先设定的，同时对于清晰度的类别不限于三类。通过实验可以确定多个清晰度阈值，例如高清晰度阈值和低清晰度阈值，清晰度高于高清晰度阈值时，将图像类别设定为清晰，当清晰度低于低清晰度阈值时，将图像类别设定为模糊，当清晰度高于低清晰度阈值且低于高清晰度阈值时，将图像类别设定为一般。

继续以本发明实施例提供的电子设备为服务器为例，说明电子设备的结构。参见图3，图3是本发明实施例提供的基于神经网络模型的图像清晰度识别服务器200的结构示意图，可以理解地，图3中所示出的服务器200结构示意图可以是适用于终端，并根据实际需求有选择性实施其中的组件。图3所示的服务器200包括：至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。服务器200中的各个组件通过总线系统240耦合在一起。可理解，总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图3中将各种总线都标为总线系统240。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器250可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本发明实施例描述的存储器250旨在包括任意适合类型的存储器。

在一些实施例中，存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统251，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块252，用于经由一个或多个(有线或无线)网络接口220到达其他计算设备，示例性的网络接口220包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块253，用于经由一个或多个与用户接口230相关联的输出装置231(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块254，用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本发明实施例提供的装置可以采用软件方式实现，图3示出了存储在存储器250中的图像清晰度识别装置255，其可以是程序和插件等形式的软件，包括以下软件模块：场景特征提取模块2551、清晰度特征提取模块2552、特征融合模块2553、融合特征分类模块2554、清晰度类别确定模块2555、前置训练模块2556、模型训练模块2557、图像对获取模块2558和视频判断模块2559，其可以嵌入各种客户端中，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分，将在下文中具体说明各个模块的功能。

在另一些实施例中，本发明实施例提供的基于神经网络模型的图像清晰度识别装置可以采用硬件方式实现，作为示例，本发明实施例提供的基于神经网络模型的图像清晰度识别装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的基于神经网络模型的图像清晰度识别方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-ProgrammableGate Array)或其他电子元件。

下面将结合本发明实施例提供的电子设备的示例性应用和实施，说明本发明实施例提供的基于神经网络模型的图像清晰度识别方法。

参见图4A，图4A是本发明实施例提供的神经网络模型的可选的结构示意图。神经网络模型包括：场景特征提取器、清晰度特征提取器、全连接层和最大似然函数层。图像经过场景特征提取器和清晰度特征提取器被提取出场景特征和清晰度特征，经过特征拼接之后，经过全连接层和最大似然函数(softmax)层得到最终的清晰度类别结果。

参见图5A，图5A是本发明实施例提供的基于神经网络模型的图像清晰度识别方法的可选的流程示意图。下面将结合图5A示出的步骤进行说明，下述方法的步骤可以在上述任意类型的电子设备(例如终端或者服务器)实现。

以电子设备为服务器为例，服务器会接收用户上传的图像，并对用户上传的图像进行清晰度识别。

在步骤101中，通过场景特征提取器对图像进行场景特征提取，以得到图像的场景特征。

在一些实施例中，这里的场景特征提取器可以是一个卷积神经网络模型，通过卷积神经网络模型的池化层输出隐层特征，即场景特征。场景特征可以区分不同的场景，例如，图像的场景是白天场景和夜间场景，图像的场景是运动场景和静态场景，这里场景类别数目由训练样本来决定，训练样本主要区分有运动场景、风景场景、人物写真场景以及其他场景，在这四类场景中，每类又区分有白天场景和夜晚场景，所以一共是八类场景，基于八类场景的训练数据，最后可以提取到基于训练数据的场景特征，这里不对场景的区分方式和区分数目做限制。

在步骤102中，通过清晰度特征提取器，对图像进行清晰度特征提取，以得到图像的清晰度特征。

在一些实施例中，这里的清晰度特征提取器实际上也是卷积神经网络模型，对图像进行清晰度特征提取，从而得到图像的清晰度特征。

在步骤103中，将图像的场景特征以及清晰度特征进行拼接，并通过全连接层将图像的场景特征以及清晰度特征融合处理，得到融合特征。

在一些实施例中，对场景特征和清晰度特征执行特征拼接操作，进而通过全连接层将图像的场景特征以及清晰度特征融合处理以得到融合特征，这里的融合特征是综合了清晰度特征和场景特征得到的，对于清晰度评价而言，融合特征考虑到了场景特征对于清晰度特征的影响。

在步骤104中，通过最大似然函数层对融合特征进行分类处理，得到图像对应多个清晰度类别的概率。

这里，通过softmax函数对融合特征进行分类处理，把融合特征归一化转换到每一个对应分类的概率。

在步骤105中，将具有最大概率的清晰度类别确定为图像的清晰度类别。

在神经网络模型中，将具有最大概率的清晰度类别确定为图像的清晰度类别，清晰度类别是根据先验训练样本设定的，清晰度类别可以划分为三档或者更多。

参见图5B，基于图5A，图5B是本发明实施例提供的方法的一个可选的流程示意图，在执行步骤101通过场景特征提取器对图像进行场景特征提取，以得到图像的场景特征之前，还可以执行步骤106-108。

在步骤106中，构建训练样本集合。

在步骤107中，基于训练样本集合，对神经网络模型中的场景特征提取器进行前置训练，并对神经网络模型中的清晰度特征提取器进行前置训练。

在步骤108中，基于训练样本集合，训练神经网络模型。

在一些实施例中，在利用神经网络模型获得图像的清晰度类别之前，会进行神经网络模型的训练，在进行神经网络模型训练之前，还会对神经网络模型中的场景特征提取器和清晰度特征提取器进行前置训练，以使得场景特征提取器和清晰度特征提取器可以准确提取出图像的场景特征和清晰度特征。无论是对神经网络模型进行训练，还是对场景特征提取器和清晰度特征提取器进行训练，都需要基于训练样本集合进行，训练样本集合中具有丰富的图像资源，针对不同模型的训练过程，会提取训练样本集合中不同的样本数据进行有针对的训练。

参见图5C，基于图5B，图5C是本发明实施例提供的方法的一个可选的流程示意图，步骤107中基于训练样本集合，训练神经网络模型，还可以具体通过步骤1071-1073来实现。

在步骤1071中，初始化神经网络模型的输入层、中间层和输出层，并初始化包括输入样本、输出结果、以及神经网络模型参数的损失函数。

在步骤1072中，在神经网络模型每次迭代训练过程中执行以下处理：

以训练样本集合包括的场景数据样本以及清晰度数据样本为输入样本，并以清晰度类别为输出结果，将输入样本和输出结果代入损失函数，以确定损失函数取得最小值时对应的神经网络模型参数。

在步骤1073中，根据所确定的神经网络模型参数更新神经网络模型。

在一些实施例中，对于整体神经网络模型的训练而言，首先初始化神经网络模型的输入层、中间层和输出层，并初始化包括输入样本、输出结果、以及神经网络模型参数的损失函数，输入层、中间层以及输出层是抽象的概念，神经网络模型不仅有三层，将中间的各层全部抽象为中间层。

在神经网络模型每次迭代训练过程中执行以下处理：提取训练样本集合的场景数据样本以及清晰度数据样本为输入样本，以清晰度类别为输出结果，将输入样本和输出结果代入损失函数，在每次迭代的过程中，包括前向反馈和逆向反馈的过程，前向反馈的过程是从输入层到输出层的过程，逆向反馈是从最后一层即输出层开始的，在第一次前向反馈时，整个网络的权重和偏置都是初始化的，因此需要调整网络的参数，即权重值和偏置值，而调整的依据就是网络的输出层的输出值与真实值之间的差异，通过调整参数来缩小这个差异，这就是神经网络的优化目标。

在一些实施例中，中间的隐藏层并不直接与数据样本的类别有关联，而是通过下一层的所有结点误差按权重累加，首先对于权重的更新而言，学习速率设置得大，训练收敛更快，但容易陷入局部最优解，学习速率设置得比较小的话，收敛速度较慢，但能一步步逼近全局最优解。更新完权重后，还需要更新偏置，在完成了一次神经网络的训练过程之后，通过不断的使用所有数据样本进行训练，进行不断地迭代，每一轮训练都使用数据集的所有样本，停止条件有下面两种：设置最大迭代次数，比如使用数据集迭代100次后停止训练；计算训练集在网络上的预测准确率，达到一定门限值后停止训练。

参见图5D，基于图5B，图5D是本发明实施例提供的方法的一个可选的流程示意图，步骤106中基于训练样本集合，对场景特征提取器进行前置训练，可以具体通过步骤1061-1063来实现。

在步骤1061中，初始化场景特征提取器的输入层、中间层和输出层，并初始化包括输入样本、输出结果、以及场景特征提取器参数的损失函数。

在步骤1062中，在场景特征提取器每次迭代训练过程中执行以下处理：

以训练样本集合包括的场景数据样本为输入，以场景类别为输出，将输入和输出代入损失函数，以确定损失函数取得最小值时对应的场景特征提取器参数。

在步骤1063中，根据所确定的场景特征提取器参数更新场景特征提取器。

在一些实施例中，在场景特征提取器的前置训练过程中，首先是初始化神经网络模型的输入层、中间层和输出层，并初始化包括输入样本、输出结果、以及神经网络模型参数的损失函数，输入层、中间层以及输出层是抽象的概念，神经网络模型不仅有三层，将中间的各层全部抽象为中间层，进而获取场景数据样本为输入样本，场景数据样本来源于训练样本集合，经过CNN网络进行一次正向分类后，再通过反向传播来不断更新CNN模型的参数，其中，优化器包括但不限于：批量梯度下降算法(SGD，Stochastic Gradient Descent)、均方根反向传播算法(RMSprop，Root Mean Square Prop)、适应性矩估计算法(Adam，adaptive moment estimation)等。

参见图6，图6是本发明实施例提供的场景特征提取器的可选网络模型结构的示意图，本发明实施例中提供的场景特征提取器的结构为MobileNets，隐层特征从池化层(AvgPool)输出，其特征维度是1024。这里的卷积神经网络模型也可以使用其他CNN网络类型，包括但不限于：VGG19、ResNet50、InceptionV3、Xception和InceptionResNetV2等。

参见图5E，基于图5B，图5E是本发明实施例提供的方法的一个可选的流程示意图，步骤106中基于训练样本集合，对清晰度特征提取器进行前置训练，可以具体通过步骤1064-1067来实现。

在步骤1064中，将两个相同的清晰度特征提取器构造为孪生神经网络模型。

在步骤1065中，初始化孪生神经网络模型的输入层、中间层和输出层，并初始化包括输入样本、输出结果、以及孪生神经网络模型参数的损失函数。

在步骤1066中，在孪生神经网络模型每次迭代训练过程中，

将训练样本集合中的图像对作为输入样本，对应输入到孪生神经网络模型中的两个清晰度特征提取器中，得到孪生神经网络模型输出的图像对的清晰度作为输出结果。

在步骤1067中，当清晰度的排序与图像对的实际清晰度的排序不一致时，根据图像对和损失函数计算损失函数的梯度，并基于梯度更新两个清晰度特征提取器的参数。

在一些实施例中，参见图7，图7是本发明实施例提供的清晰度特征模块的流程示意图。在孪生网络的架构中，存在两个一模一样的CNN模型，这两个CNN模型的结构是一样的，权重是一样的，将图像对中的两个图像一对一分别对应输入到这两个CNN模型中，两个CNN模型会分别输出对应图像的清晰度，从而得到两个图像的清晰度排序。

在一些实施例中，利用一些开源的图像质量评价数据集和机器构造的模糊图像作为清晰度数据样本，机器构造的图像是在图像上施加不同程度的高斯模糊而得到的，图像质量评价数据集中也包括大量内容相同，且清晰度不同的图像。在清晰度特征提取器的前置训练的过程中，将清晰度不同但是图像内容相同的两张图像作为图像对，输入到孪生网络中的两个清晰度特征提取器中，其中，一张图像输入到一个清晰度特征提取器中，两个清晰度特征提取器分别输出对应图像的清晰度，由于图像的内容一样，只有清晰度不同，模型会更容易学习清晰度的排序，另外，图像对输入到孪生网络的排序是按照清晰度从高到低或者清晰度从低到高的顺序。

这里的CNN网络模型可以为GoogleNet网络结构，也可以为VGG19、ResNet50、InceptionV3、Xception和InceptionResNetV2等其他的网络结构。参见图8，图8是本发明实施例提供的清晰度特征模块的可选网络模型结构的示意图，这里的网络模型结构为GoogleNet网络结构，图8中的“#3x3降维”，“#5x5降维”表示在3x3，5x5卷积操作之前使用了1x1卷积的数量。原始的输入图像为224x224x3，且都进行了零均值化的预处理操作，即图像中的每个像素减去均值；第一层为卷积层，使用7x7的卷积核，滑动步长为2，具有64通道，输出为112x112x64，卷积后通过线性整流函数(ReLU)，再经过3x3的最大池化(max pooling)，步长为2，输出为((112-3+1)/2)+1＝56，即56x56x64，再进行ReLU；第二层为卷积层，使用3x3的卷积核，滑动步长为1，具有192通道，输出为56x56x192，卷积后进行ReLU，经过3x3的max pooling，步长为2，输出为((56-3+1)/2)+1＝28，即28x28x192，再进行ReLU；在第三层的Inception 3a层中，分为四个分支，采用不同尺度的卷积核来进行处理，(1)64个1x1的卷积核，然后经过RuLU，输出28x28x64，(2)96个1x1的卷积核，作为3x3卷积核之前的降维，变为28x28x96，然后进行ReLU，再进行128个3x3的卷积，输出28x28x128，(3)16个1x1的卷积核作为5x5卷积核之前的降维，变成28x28x16后，进行ReLU计算后，再进行32个5x5的卷积，输出为28x28x32，(4)池化层，使用3x3的核，输出28x28x192，然后进行32个1x1的卷积，输出28x28x32，将四个结果进行连接，对这四部分输出结果的第三维并联，最终输出28x28x256；在第三层的Inception 3b层中，(1)128个1x1的卷积核，然后经过RuLU激活函数，输出图像为28x28x128，(2)128个1x1的卷积核，作为3x3卷积核之前的降维，变成28x28x128，进行ReLU，再进行192个3x3的卷积，输出图像为28x28x192，(3)32个1x1的卷积核，作为5x5卷积核之前的降维，变成28x28x32，进行ReLU激活函数计算后，再进行96个5x5的卷积，输出图像为28x28x96，(4)池化层，使用3x3的核，输出为28x28x256，然后进行64个1x1的卷积，输出为28x28x64。将四个结果进行连接，对这四部分输出结果的第三维并联，最终输出为28x28x480，其他的inception层与上述类似，这里不重复赘述。Inception层的作用就是替代了人工确定卷积层中过滤器的类型或者是否创建卷积层和池化层，让网络自己学习它具体需要什么参数。

在一些实施例中，在进行清晰度特征提取器的前置训练之前，会从训练样本集合中获取用于进行清晰度特征提取器的前置训练的样本数据，具体实现过程如下：从训练样本集合中获取多个内容一致且清晰度不同的图像序列；将图像序列中的多个图像划分为多对内容一致且清晰度不同的图像对，其中，图像对按照清晰度高低依次排列。保持内容的一致和清晰度不同是为了便于清晰度特征提取器能够学习到清晰度的概念，将图像对按照清晰度高低依次排列，也是为了便于清晰度特征提取器学习到清晰度的排序。

在一些实施例中，在执行完步骤1067中，获取孪生神经网络模型的权重；获取图像历史审核数据集，并提取图像历史审核数据集的清晰样本数据以及模糊样本数据；基于清晰样本数据、模糊样本数据以及孪生神经网络模型的权重，对清晰度特征提取器进行训练。参见图7，图7是本发明实施例提供的清晰度特征模块的流程示意图，获取步骤1067中得到的孪生网络分支权重，在此基础上，使用封面图历史审核数据中的清晰样本数据和模糊样本数据作为训练数据，对步骤1067中的清晰度特征提取器进行微调，即进行迁移学习，从而得到最终的清晰度特征提取模型，以优化清晰度特征的提取。

参见图4B，图4B是本发明实施例提供的神经网络模型的架构图，神经网络模型还包括：类型特征提取器以及美感特征提取器，步骤103中将图像的场景特征以及清晰度特征进行拼接，并通过全连接层将图像的场景特征以及清晰度特征融合处理，得到融合特征，具体可以通过以下步骤实现：通过类型特征提取器对图像进行类型特征提取，以得到图像的类型特征；通过美感特征提取器，对图像进行美感特征提取，以得到图像的美感特征；将图像的场景特征、清晰度特征、类型特征以及美感特征进行拼接，并通过全连接层将图像的场景特征、清晰度特征、类型特征以及美感特征融合处理，得到融合特征。这里美感特征提取器和类型特征提取器的训练方法和场景特征提取器的训练方法类似，在此不做赘述。

在一些实施例中，从视频中解码得到多帧图像；当图像的清晰度类别符合清晰度异常标准时，将图像确定为异常图像；当解码得到的多帧图像中属于异常图像的数目大于异常阈值时，对视频进行拦截。

下面，将说明本发明实施例在一个实际的应用场景中的示例性应用。

本发明提出的图像清晰度识别方法，主要包含多特征提取和特征融合两大部分。首先，构建多特征提取器，主要包含场景特征提取器、类型特征提取器、美感特征提取器和清晰度特征提取器；接着将得到特征拼接到一起，经过全连接层和softmax函数得到最终的清晰度类别识别结果。多特征提取模块包含场景特征提取器、类型特征提取器、美感特征提取器和清晰度特征提取器。场景特征、类型特征和美感特征这三类特征的构建方法类似，只是训练数据不同。构建好多种类别的训练数据后，经过一个CNN网络进行分类，通过优化器优化分类的效果，优化器的选用，包括但不限于：SGD、RMSprop和Adam等。

以上均是特征提取器的训练过程，利用训练好的特征提取器提取模型的隐层特征(hidden features)做为对应的特征，例如，对于场景特征，先进行场景分类，然后提取这个场景分类模型的隐层特征来使用。这里CNN网络可以为MobileNets，提取的隐层特征是对应平均池化层(Avg Pool)的输出，特征维度是1024，这里是基于一定的训练任务，从而得到目标特征的过程。

场景特征提取模块主要目的是为了区分不同的场景，最基本的是可以区分出白天图像和夜间图像，以及运动场景和静态场景，这里类别数目根据数据的丰富程度确定，训练数据主要区分有运动场景、风景、人物写真和其他，这4类场景中，每类又区分白天场景和夜晚场景，所以一共是8类场景。通过网络抓取的形式可以构建8个类别的训练数据。

类型特征提取模块主要目的是为了区分图片的不同类型，包含简单线条类，例如简笔画、表情包、图表文字类和历史老照片类。

美感特征提取模块主要目的是为了得到图片整体构图美感度的评价，这里利用开源的AVA数据集，将分数取整得到1-10分这10个类别，从而进行多分类，这里的数据集也可以使用其他类似的图片美感评价数据集，或者主动获取标注。

清晰度特征模块与上述模块有些差异，这里结合的有参考的清晰度评价方式，并且将学到的基础特征进行迁移学习，继续强化清晰度特征。孪生网络的架构，就是有两个CNN模型，分别接受一个图片输入。他们是一模一样的，结构一样，权重一样。由于输入有两个，可以看作是一个孪生结构。

清晰度特征模块中涉及到两个部分的训练过程，第一部分：利用开源的图像质量评价数据集和机器构造的模糊图片构成有序的图像对，机器构造的模糊图像是在图像上加不同程度高斯模糊后得到的图像，图像对中两个图像内容一模一样，但是清晰度不同，经过孪生网络得到的是清晰度评分，在损失计算的时候，就让清晰图像的清晰度评分大于不清晰的图像的清晰度评分，从而优化这个问题。由于图像内容一样，只有清晰度不同，模型会更容易学习，将这样构造的成对图片数据，送入GoogleNet网络结构，这里也可以使用其他CNN网络类型，包括但不限于：VGG19、ResNet50、InceptionV3、Xception和InceptionResNetV2等的孪生网络中训练。这样有参考的图像数据，可以让模型更容易的学习到清晰度的概念，第二部分：获取第一部分的孪生网络的分支权重，在此基础上，使用封面图历史审核数据中的“清晰样本数据”和“模糊样本数据”作为训练数据，对GoogleNet网络进行微调，得到最终的清晰度特征提取模型，从而优化清晰度的识别。需要说明的是，如果缺乏大量的清晰样本数据或者模糊样本数据，第二部分可以省略。第一部分得到的模型可以直接作为清晰度特征提取模型使用。

参见图9，图9是本发明实施例提供的图像清晰度识别方法的应用界面示意图，其展示了视频标准化系统的局部界面，图像展示界面901中展示了从客户端上传的图像，封面质量字段902中显示了通过本发明实施例提供的方法对图像进行自动识别得到的清晰度类别，虚线框标识的字段表征了图像的清晰度，视频封面的清晰度分为清晰、一般和模糊三个档位，模糊部分结合一些内容类别和特征规则，直接对其进行拦截处理，其他部分根据清晰度质量不同，采取不同的推荐策略，比如加权或者打压。

在一些实施例中，在进行特征融合的过程可以采用中央网络(CentralNet)结构多模态融合的方法以及具有模态特定因子的低阶多模态融合(LMF，Lowr-ank MultimodalFusion)等特征融合方式。在中心网络结构多模态融合的方法中，是通过整合来自多种媒体的信息来产生最佳决策，假设每个模态可以由分离的深度卷积网络处理，允许独立于每种模态做出决策，引入了连接模态特定网络的中央网络后，该中央网络不仅提供嵌入的共同特征，而且通过使用多任务学习来规范特定于模态的网络。

下面继续说明本发明实施例提供的基于神经网络模型的图像清晰度识别装置255的实施为软件模块的示例性结构，在一些实施例中，神经网络模型包括：场景特征提取器、清晰度特征提取器、全连接层和最大似然函数层；如图3所示，存储在存储器250的基于神经网络模型的图像清晰度识别装置255中的软件模块可以包括：

场景特征提取模块2551，用于通过场景特征提取器对图像进行场景特征提取，以得到图像的场景特征；

清晰度特征提取模块2552，用于通过清晰度特征提取器，对图像进行清晰度特征提取，以得到图像的清晰度特征；

特征融合模块2553，用于将图像的场景特征以及清晰度特征进行拼接，并通过全连接层将图像的场景特征以及清晰度特征融合处理，得到融合特征；

融合特征分类模块2554，用于通过最大似然函数层对融合特征进行分类处理，得到图像对应多个清晰度类别的概率；

清晰度类别确定模块2555，用于将具有最大概率的清晰度类别确定为图像的清晰度类别。

在一些实施例中，装置还包括：

前置训练模块2556，用于构建训练样本集合，基于训练样本集合，对神经网络模型中的场景特征提取器进行前置训练，并对神经网络模型中的清晰度特征提取器进行前置训练；

模型训练模块2557，用于基于训练样本集合，训练神经网络模型。

在一些实施例中，模型训练模块2557还用于：

初始化神经网络模型的输入层、中间层和输出层，并初始化包括输入样本、输出结果、以及神经网络模型参数的损失函数；

在神经网络模型每次迭代训练过程中执行以下处理：

以训练样本集合包括的场景数据样本以及清晰度数据样本为输入样本，并以清晰度类别为输出结果，将输入样本和输出结果代入损失函数，以确定损失函数取得最小值时对应的神经网络模型参数；

根据所确定的神经网络模型参数更新神经网络模型。

在一些实施例中，前置训练模块2556还用于：

初始化场景特征提取器的输入层、中间层和输出层，并初始化包括输入样本、输出结果、以及场景特征提取器参数的损失函数；

在场景特征提取器每次迭代训练过程中执行以下处理：

以训练样本集合包括的场景数据样本为输入样本，以场景类别为输出结果，将输入样本和输出结果代入损失函数，以确定损失函数取得最小值时对应的场景特征提取器参数；

根据所确定的场景特征提取器参数更新场景特征提取器。

在一些实施例中，前置训练模块2556还用于：

将两个相同的清晰度特征提取器构造为孪生神经网络模型；

初始化孪生神经网络模型的输入层、中间层和输出层，并初始化包括输入样本、输出结果、以及孪生神经网络模型参数的损失函数；

在孪生神经网络模型每次迭代训练过程中，

将训练样本集合中的图像对作为输入样本，对应输入到孪生神经网络模型中的两个清晰度特征提取器中，得到孪生神经网络模型输出的图像对的清晰度作为输出结果；

当清晰度的排序与图像对的实际清晰度的排序不一致时，根据图像对和损失函数计算损失函数的梯度，并基于梯度更新两个清晰度特征提取器的参数。

在一些实施例中，装置还包括：

图像对获取模块2558，还用于：

从训练样本集合中获取多个内容一致且清晰度不同的图像序列；

将图像序列中的多个图像划分为多对内容一致且清晰度不同的图像对，

其中，图像对按照清晰度高低依次排列。

在一些实施例中，前置训练模块2556还用于：

获取孪生神经网络模型的权重；

获取图像历史审核数据集，并提取图像历史审核数据集的清晰样本数据以及模糊样本数据；

基于清晰样本数据、模糊样本数据以及孪生神经网络模型的权重，对清晰度特征提取器进行训练。

在一些实施例中，神经网络模型还包括：类型特征提取器以及美感特征提取器，特征融合模块2553，还用于：

通过类型特征提取器对图像进行类型特征提取，以得到图像的类型特征；

通过美感特征提取器，对图像进行美感特征提取，以得到图像的美感特征；

将图像的场景特征、清晰度特征、类型特征以及美感特征进行拼接，并通过全连接层将图像的场景特征、清晰度特征、类型特征以及美感特征融合处理，得到融合特征。

在一些实施例中，装置还包括：

视频判断模块2559，用于：

从视频中解码得到多帧图像；

当图像的清晰度类别符合清晰度异常标准时，将图像确定为异常图像；

当解码得到的多帧图像中属于异常图像的数目大于异常阈值时，对视频进行拦截。

本发明实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本发明实施例提供的基于神经网络模型的图像清晰度识别方法，例如，如图5A-5D示出的方法。

在一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，通过本发明实施例对图像的场景特征和清晰度特征进行融合，在考虑到场景特征对于清晰度评价的影响后，对清晰度评价问题做了更全面更准确的建模，从而可以识别各种图像的清晰度。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种基于神经网络模型的图像清晰度识别方法，其特征在于，

所述神经网络模型包括：场景特征提取器、清晰度特征提取器、类型特征提取器、美感特征提取器、全连接层和最大似然函数层；

所述方法包括：

将所述图像的场景特征、清晰度特征、类型特征以及美感特征进行拼接，并通过所述全连接层将所述图像的场景特征、清晰度特征、类型特征以及美感特征融合处理，得到融合特征；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

构建训练样本集合；

基于所述训练样本集合，对所述神经网络模型中的场景特征提取器进行前置训练，并对所述神经网络模型中的清晰度特征提取器进行前置训练。

3.根据权利要求2所述的方法，其特征在于，所述对所述神经网络模型中的场景特征提取器进行前置训练，包括：

在所述场景特征提取器每次迭代训练过程中执行以下处理：

4.根据权利要求2所述的方法，其特征在于，所述对所述神经网络模型中的清晰度特征提取器进行前置训练，包括：

将两个相同的清晰度特征提取器构造为孪生神经网络模型；

在所述孪生神经网络模型每次迭代训练过程中，

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

其中，所述图像对按照清晰度高低依次排列。

6.根据权利要求4所述的方法，其特征在于，所述方法还包括：

获取所述孪生神经网络模型的权重；

7.根据权利要求1-6中任一项所述的方法，其特征在于，所述方法还包括：

从视频中解码得到多帧所述图像；

8.一种基于神经网络模型的图像清晰度识别装置，其特征在于，

所述装置包括：

类型特征提取模块，用于通过所述类型特征提取器对所述图像进行类型特征提取，以得到所述图像的类型特征；

美感特征提取模块，用于通过所述美感特征提取器对所述图像进行美感特征提取，以得到所述图像的美感特征；

特征融合模块，用于将所述图像的场景特征、清晰度特征、类型特征以及美感特征进行拼接，并通过所述全连接层将所述图像的场景特征、清晰度特征、类型特征以及美感特征融合处理，得到融合特征；

9.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至7任一项所述的基于神经网络模型的图像清晰度识别方法。

10.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时实现权利要求1至7任一项所述的基于神经网络模型的图像清晰度识别方法。