CN115115875A - 图像分类方法、装置、电子设备和存储介质 - Google Patents

图像分类方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN115115875A
CN115115875A CN202210682094.XA CN202210682094A CN115115875A CN 115115875 A CN115115875 A CN 115115875A CN 202210682094 A CN202210682094 A CN 202210682094A CN 115115875 A CN115115875 A CN 115115875A
Authority
CN
China
Prior art keywords
pixel
image
initial
target
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210682094.XA
Other languages
English (en)
Inventor
龚丽君
黄晗
李志锋
刘威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210682094.XA priority Critical patent/CN115115875A/zh
Publication of CN115115875A publication Critical patent/CN115115875A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及人工智能领域,具体而言,涉及一种图像分类方法、装置、电子设备和存储介质,可应用于广告视频的封面选取。本申请实施例提供的图像分类方法,包括:获取待分类图像;对待分类图像进行特征提取,获得初始特征图,初始特征图包括多个初始特征像素;根据多个初始特征像素之间的相关性,对初始特征图进行增强处理,获得目标特征图;基于目标特征图,获得待分类图像的清晰度类别。本申请实施例提供的图像分类方法、装置、电子设备和存储介质,可以提升针对待分类图像的清晰度分类结果的准确性。

Description

图像分类方法、装置、电子设备和存储介质
技术领域
本申请涉及人工智能领域,具体涉及一种图像分类方法、装置、电子设备和存储介质。
背景技术
图像的清晰度是衡量图像质量优劣的重要指标之一。在一些实际图像业务中,会存在大量的图像(例如,千万数量级图像)、且需要对这些图像的进行清晰度分类,并根据清晰度分类结果,筛选合适的图像做后续处理。目前,图像清晰度的分类通常是基于边缘检测技术实现的,例如,采用Sobel边缘检测算法、Canny边缘检测算法等,边缘检测技术是基于图像中各个像素点的方差,计算图像的边缘和极值点,方差越小,则表征图像的边缘和极值点越少,也即,图像包含的纹理越少,那么,该图像存在模糊的概率也就越大。
然而,基于边缘检测技术实现图像清晰度分类的方法中,由于主要评估因子是图像中各个像素点的方差,因此,清晰度分类结果的准确性较低。例如,若整个图像都是纯色图像,则方差为0,图像不包含纹理,但却是清晰的,并不存在模糊。
发明内容
本申请实施例提供一种图像分类方法、装置、电子设备和存储介质,可以提升针对待分类图像的清晰度分类结果的准确性。
本申请实施例提供一种图像分类方法,包括:
获取待分类图像;
对待分类图像进行特征提取,获得初始特征图,初始特征图包括多个初始特征像素;
根据多个初始特征像素之间的相关性,对初始特征图进行增强处理,获得目标特征图;
基于目标特征图,获得待分类图像的清晰度类别。
相应地,本申请实施例还提供一种图像分类装置,包括:
图像获取单元,用于获取待分类图像;
特征图获取单元,用于对待分类图像进行特征提取,获得初始特征图,初始特征图包括多个初始特征像素;
增强处理单元,用于根据多个初始特征像素之间的相关性,对初始特征图进行增强处理,获得目标特征图;
分类单元,用于基于目标特征图,获得待分类图像的清晰度类别。
在一些实施例中,增强处理单元可以包括:
第一获取子单元,用于分别获取待处理特征像素与每个初始特征像素之间的相关性系数,待处理特征像素为任一初始特征像素;
增强处理子单元,用于根据相关性系数,对待处理特征像素进行增强处理,获得目标特征像素;
第二获取子单元,用于获得目标特征图,目标特征图包括所有目标特征像素。
在一些实施例中,第一获取子单元可以包括:
第三获取子单元,用于根据待处理特征像素在初始特征图中的位置信息,获取待处理特征像素的第一像素表征值;
第四获取子单元,用于根据初始特征图中,每个初始像素特征的位置信息,获取每个初始特征像素的第二像素表征值;
第五获取子单元,用于基于第一像素表征值和所有第二像素表征值,获得对应于每个初始像素特征的相关性系数。
在一些实施例中,第五获取子单元可以包括:
第一计算子单元,用于基于第一像素表征值和目标像素表征值,获得第一计算结果,目标像素表征值为任一第二像素表征值;
第二计算子单元,用于基于第一像素表征值和所有第二像素表征值,获得第二计算结果;
第三计算子单元,用于获取第一计算结果与第二计算结果的比值,作为对应于目标像素表征值的相关性系数。
在一些实施例中,第一计算子单元具体用于:
获取第一像素表征值的转置结果;
通过第一预设激活函数,对转置结果进行激活处理,获得第一激活结果;
通过第二预设激活函数,对目标像素表征值进行激活处理,获得第二激活结果;
计算出第一激活结果与第二激活结果的第一乘积结果;
获取以目标数值为底,以第一乘积结果为自变量的指数函数运算结果,作为第一计算结果。
在一些实施例中,第二计算子单元具体用于:
获取第一像素表征值的转置结果;
通过第一预设激活函数,对转置结果进行激活处理,获得第一激活结果;
通过第二预设激活函数,对每个第二像素表征值进行激活处理,获得第三激活结果;
分别计算出第一激活结果与每个第三激活结果的第二乘积结果;
分别获取以目标数值为底,以每个第二乘积结果为自变量的指数函数运算结果,作为中间计算结果;
对所有中间计算结果进行求和处理,获得第二计算结果。
在一些实施例中,增强处理子单元可以包括:
第六获取子单元,用于根据初始特征图中,每个初始像素特征的位置信息,获取每个初始特征像素的第二像素表征值;
第四计算子单元,用于计算出对应于第二像素表征值的相关性系数与第二像素表征值的乘积结果;
第五计算子单元,用于对所有乘积结果进行求和处理,获得求和结果,作为目标特征像素。
在一些实施例中,分类单元可以包括:
第七获取子单元,用于通过分类输出层,利用目标特征图,获取多个待定类别所对应的预测概率值,多个待定类别包括清晰、局部模糊和全局模糊;
概率值确定子单元,用于从多个预测概率值中,确定出数值最大的目标概率值;
分类子单元,用于将对应于目标概率值的待定类别,作为清晰度类别。
在一些实施例中,特征图获取单元可以包括:
图像输入子单元,用于将待识别图像输入轻量级特征提取网络;
特征图输出子单元,用于通过轻量级特征提取网络,对待识别图像进行特征提取,输出初始特征图。
本申请实施例还提供一种电子设备,包括存储器存储有多条指令;
所述处理器从所述存储器中加载指令,以执行本申请实施例所提供的任一种图像分类方法中的步骤。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本申请实施例所提供的任一种图像分类方法中的步骤。
本申请实施例可以获取待分类图像;对待分类图像进行特征提取,获得初始特征图,初始特征图包括多个初始特征像素;根据多个初始特征像素之间的相关性,对初始特征图进行增强处理,获得目标特征图;基于目标特征图,获得待分类图像的清晰度类别。
在本申请中,通过对待分类图像进行特征提取,获得包括多个初始特征像素的初始特征图,再根据多个初始特征像素之间相关性,对初始特征图进行增强处理,获得目标特征图,也即,通过关注多个初始特征像素之间相关性,引入待分类图像高维特征之间的关系,以增强目标特征图的表达能力,那么,在待分类图像中存在模糊区域时,便能够提高针对模糊区域的注意力,从而提升针对待分类图像的清晰度分类结果的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的图像分类方法的场景示意图;
图1b是本申请实施例提供的图像分类方法的流程示意图;
图1c是本申请实施例提供的图像分类方法的辅助性说明图;
图1d是本申请实施例提供的图像分类方法的辅助性说明图;
图1e是本申请实施例提供的图像分类方法的辅助性说明图;
图1f是本申请实施例提供的图像分类方法的辅助性说明图;
图1g是本申请实施例提供的图像分类方法的辅助性说明图;
图1h是本申请实施例提供的图像分类方法的辅助性说明图;
图1i是本申请实施例提供的图像分类方法的辅助性说明图;
图2是本申请实施例提供的图像分类方法的另一种流程示意图;
图3是本申请实施例提供的图像分类装置的结构示意图;
图4是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面,简单介绍一下本申请实施例可能用到的技术。
人工智能(Artificial Intelligence,AI)是一种利用数字计算机来模拟人类感知环境、获取知识并使用知识的技术,该技术可以使机器具有类似于人类的感知、推理与决策的功能。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如,常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
自动驾驶技术通常包括高精地图、环境感知、行为决策、路径规划、运动控制等技术,自定驾驶技术有着广泛的应用前景。
本申请实施例提供一种图像分类方法、装置、电子设备和存储介质。
其中,图像分类装置具体可以集成在电子设备中,该电子设备可以为终端、服务器等设备。其中,终端包括,但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等设备,且其可以搭载Android或Ios系统,服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群。
在一些实施例中,图像分类装置还可以集成在多个电子设备中,例如,图像分类装置可以集成在多个服务器中,由多个服务器来实现本申请的图像分类方法。
需要说明的是,本申请实施例提供的图像分类方法可以是在终端上独立执行的,也可以是在服务器上独立执行,还可以由终端和服务器共同执行的,本申请实施例对此不作具体限制。
请参考图1a,以服务器11执行该图像分类方法为例。
如图1a所示,服务器11和终端12可以通过有线或无线通信方式进行直接或间接地连接,本申请对此不作具体限制。服务器11可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN),以及大数据和人工智能平台等基础云计算服务的云服务器。服务器11用于为终端12运行的应用程序提供后台服务。
终端12可以是手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等设备,但并不局限于此,且其可以搭载Android或Ios系统。服务器11可以安装和运行有支持数据上传的应用程序。该应用程序可以是涉及广告播放的应用程序(例如,视频播放程序、音乐播放程序等)、相册类应用程序、社交类应用程序、购物类应用程序等。示意性的,服务器11可以是用户使用的终端,服务器11中运行的应用程序内登录有用户账户。
服务器11可以承担主要图像分类工作,终端12承担次要图像分类工作,或服务器11承担次要图像分类工作,终端12承担主要图像分类工作,或服务器11或终端12也可以各自单独承担图像分类工作。
终端12可以泛指多个终端中的一个,本实施例仅以终端12来举例说明。本领域技术人员可以知晓,上述终端的数量可以更多或更少。比如上述终端可以仅为一个,或者上述终端为几十个或几百个,或者更多数量,此时上述图像分类方法的实施环境还包括其他终端。本申请实施例对终端的数量和设备类型不加以限定。
可选的,上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络,包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中,使用包括超文本标记语言(Hyper Text Mark-up Language,HTML)、可扩展标记语言(ExtensibleMarkupLanguage,XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer,SSL)、传输层安全(Transport Layer Security,TLS)、虚拟专用网络(Virtual Private Network,VPN)、网际协议安全(InternetProtocolSecurity,IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
如图1a所示的,服务器11可以单独承担图像分类工作,则其可以用于:
获取待分类图像;
对待分类图像进行特征提取,获得初始特征图,初始特征图包括多个初始特征像素;
根据多个初始特征像素之间的相关性,对初始特征图进行增强处理,获得目标特征图;
基于目标特征图,获得待分类图像的清晰度类别。
再以服务器承担主要图像分类工作,终端12承担次要图像分类工作为例,终端12可以获取待分类图像至服务器11,服务器11接收待分类图像;对待分类图像进行特征提取,获得初始特征图,初始特征图包括多个初始特征像素;根据多个初始特征像素之间的相关性,对初始特征图进行增强处理,获得目标特征图;基于目标特征图,获得待分类图像的清晰度类别,再将清晰度类别发送给终端12,具体如图1a所示。
在一种可选地实现方式中,本申请实施例提供的图像分类方法,能够应用于广告视频的封面选取,以下对该应用场景进行介绍。
首先,从广告视频中截取多张广告图像,再获取待分类图像,待分类图像为任一广告图像,此后,对待分类图像进行特征提取,获得初始特征图,初始特征图包括多个初始特征像素,并根据多个初始特征像素之间的相关性,对初始特征图进行增强处理,获得目标特征图,接着,基于目标特征图,获得待分类图像的清晰度类别。
最后,从清晰度类别为清晰的所有广告图像中,选取一张广告图像,作为广告视频的封面。
在一种可选地实现方式中,本申请实施例提供的图像分类方法,能够应用于带摄像头的手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等设备所拍摄图像的质量评分,以下该对应用场景进行介绍。
首先,获取设备通过摄像头拍摄的待分类图像,此后,对待分类图像进行特征提取,获得初始特征图,初始特征图包括多个初始特征像素,并根据多个初始特征像素之间的相关性,对初始特征图进行增强处理,获得目标特征图,接着,基于目标特征图,获得待分类图像的清晰度类别。
最后,若待分类图像的清晰度类别为清晰,则保存待分类图像;
若待分类图像的清晰度类别为局部模糊,则生成问询信息,并显示,若接收到指示保存待分类图像的第一指示信息,则保存待分类图像,若接收到删除待分类图像的第二指示信息,则删除待分类图像;
若待分类图像的清晰度类别为全局模糊,则删除待分类图像。
以下,将结合图1b所示,对本申请实施例提供的一种涉及人工智能的图像分类方法的具体流程进行说明。需说明的是,以下实施例的序号不作为对本申请实施例优选顺序的限定。
110、获取待分类图像。
其中,待分类图像可以是任意需要获得清晰度类别的图像。
以图像分类方法应用于广告视频的封面选取为例,待分类图像可以从广告视频中截取。示例性地,在获取到广告视频之后,可以从广告视频中,每间隔目标数量张广告图像,截取一张广告图像,作为待分类图像。其中,目标数量可以根据实际应用需求设定,本申请实施例对此不作具体限制。
再以图像分类方法应用于带摄像头的手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等设备所拍摄图像的质量评分为例,设备通过摄像头拍摄的图像即为待分类图像,在检测到设备通过摄像头拍摄到待分类图像之后,即可获取该待分类图像。
120、对待分类图像进行特征提取,获得初始特征图,初始特征图包括多个初始特征像素。
其中,初始特征图(Feature Map)可以是待分类图像通过人工神经网络进行卷积等处理之后,产生的处理结果,表征神经网络空间内的一种图像特征。初始特征图可以通过一个一维向量表征,或是多张尺寸非1*1的二维特征图叠加形成的三维特征图。若初始特征图通过一个一维向量表征,则该一维向量中,每个向量元素可以表征一个初始特征像素,若初始特征图为一个三维特征图,则可以将该三维特征图中,位置对应的多个像素点共同作为一个初始特征像素。
示例性地,图1c中,初始特征图为一维向量,尺寸为1*48,那么,该一维向量中,每个向量元素可以表征一个初始特征像素。
示例性地,图1d中,初始特征图为一个三维特征图,尺寸为4*4*3,那么,可以将该三维特征图中,位置对应的多个像素点共同作为一个初始特征像素,例如,为方便描述,在图1d中虚拟出坐标系O-XYZ,那么,可以将图1d中X轴坐标和Y轴坐标均相同的三个像素点共同作为一个初始特征像素。
在一些实施例中,人工神经网络可以是轻量级特征提取网络,以提高图像分类效率,例如,MobileNetV1、MobileNetV2、MobileNetV3、Xception、ShuffleNetV1、ShuffleNetV2等特征提取网络。
基于以上描述,本申请实施例中,步骤120可以包括:
将待识别图像输入轻量级特征提取网络;
通过轻量级特征提取网络,对待识别图像进行特征提取,输出初始特征图。
实际实施时,为进一步提高图像分类效率,本申请实施例中,还可以对轻量级特征提取网络的网络结构进行进一步的简化。
以采用的轻量级特征提取网络为MobileNetV2为例,可以将其网络结构进一步简化为表1所示。
表1
Figure BDA0003696663540000101
也即,简化后的网络结构可以包括串联的卷积层2d-1、瓶颈层集合、卷积层2d-2、平均池化层和卷积层2d-3,其中,瓶颈层集合可以包括串联的多个瓶颈层,例如,串联的6个瓶颈层。待分类图像输入上述网络结构之后,依次通过卷积层2d-1、瓶颈层集合、卷积层2d-2、平均池化层和卷积层2d-3处理,进行特征提取,并输出初始特征图,如表1所示,该初始特征图的尺寸为1*1*320,也即,大小为1*1,通道数量为320,可以表征为1*320的一维向量。当然,如前所述的,输出的初始特征图也可以是一个三维特征图,例如,尺寸为8*8*5的三维特征图,也即,大小为8*8,通道数量为5。
实际实施时,为了提高网络效果,每个卷积层之后都可以依次连接一个第一激活层和一个批量归一化(Batch Normalization,BN)层,例如,卷积层2d-1之后连接一个第一激活层和一个BN层,然后,才连接第一个瓶颈层,再例如,卷积层2d-2之后连接一个第一激活层和一个BN层,然后,才连接平均池化层,又例如,卷积层2d-3之后连接一个第一激活层和一个BN层。其中,第一激活层可以通过ReLU激活函数实现,ReLU激活函数用于将处理对象调整至固定范围[0,+∞]。
此外,请结合图1e,瓶颈层可以包括串联的一个扩展层(Expansion Layer)、一个深度卷积层(Depthwise Convolution)和一个逐点卷积层(Projection Layer),其中,扩展层用于对输入特征进行逐点卷积,也即,在深度方向上,对输入特征进行加权组合,生成新的特征图像,深度卷积层中,一个卷积核负责一个通道,一个通道的输入特征只被深度卷积层中的一个卷积核处理,逐点卷积层同样用于对输入特征进行逐点卷积,也即,在深度方向上,对输入特征进行加权组合,生成新的特征图像。
扩展层的卷积核参数可以是1*1*N1*N2,深度卷积层的卷积核参数可以是3*3*N3,逐点卷积层的卷积核参数可以是1*1*N4*N5,其中,N1与扩展层的输入通道数量相等,N2用于表征扩展层期望的输出通道数量,N3与深度卷积层的输入通道数量相等,N4与逐点卷积层的输入通道数量相等,N5用于表征逐点卷积层期望的输出通道数量。
示例性地,某一瓶颈层中,扩展层的输入通道数量为3,则N1=3,扩展层期望的输出通道数量为5,则N2=5,深度卷积层的输入通道数量为5,则N3=5,逐点卷积层的输入通道数量为5,则N4=5,逐点卷积层期望的输出通道数量为4,则N5=4。结合该示例,前述瓶颈层对输入特征的处理流程如图1f所示。此外,可以理解的是,本身申请实施例中,N1、N2、N3、N4和N5的具体数值可以根据实际应用需求设定,本申请实施例对此不作具体限制。
此外,请结合图1g,本申请实施例中,为了进一步提高网络效果,瓶颈层中,扩展层之后可以依次连接一个BN层和一个第二激活层,然后,再连接深度卷积层,同样,深度卷积层之后可以依次连接一个BN层和一个第二激活层,然后,再连接逐点卷积层,逐点卷积层之后可以连接一个BN层。其中,第二激活层可以通过ReLU6激活函数实现。
此外,需要说明的是,瓶颈层集合中,可能会存在部分瓶颈层的输入特征和输出特征具有相同尺寸的情况,例如,表1所示的网络结构可以进一步细化,细化后如表2所示。
表2
Figure BDA0003696663540000121
Figure BDA0003696663540000131
其中,瓶颈层5的输入特征与输出特征具有相同尺寸,也即,相同大小和通道数量,则可以将瓶颈层5中,扩展层的输入特征与逐点卷积层的输出特征进行矩阵加法运算,再将运算结果作为瓶颈层5的输出特征,也即,瓶颈层5的网络结构可以如图1h所示。其他瓶颈层(瓶颈层1、瓶颈层2、瓶颈层3、瓶颈层4和瓶颈层6)的网络结构可以依然如图1e或图1f所示。
此外,需要说明的是表1和表2中,平均池化层可以替换为最大池化层(Max Pool),本申请实施例对此不作具体限制。
130、根据多个初始特征像素之间的相关性,对初始特征图进行增强处理,获得目标特征图。
对于图像处理而言,任意图像中每个像素点都不可能是孤立的,其一定和该图像中其他像素点关联,大量像素点的相互关联才产生了该图像中的各种物体。本申请实施例中,多个初始特征像素之间的相关性也就用于表征待分类图像中,各个像素点的相互关联。
实际实施时,多个初始特征像素之间的相关性可以包括,任一初始特征像素与所有初始特征像素之间的相关性。在获得多个初始特征像素之间的相关性之后,便可以根据多个初始特征像素之间的相关性,对初始特征图进行增强处理,获得目标特征图。其中,对初始特征图进行增强处理可以理解为:对初始特征图中的每个初始特征像素进行增强处理,也即,对于每个初始特征像素而言,在其本身存在的像素特征的基础上,叠加上其与所有初始特征像素之间的相关性特征。
基于以上描述,本申请实施例中,将在用于“对待分类图像进行特征提取,获得初始特征图”的人工神经网络之后,添加一个自相关特征层,用于根据多个初始特征像素之间的相关性,对初始特征图进行增强处理,获得目标特征图。
以人工神经网络为通过对MobileNetV2的网络结构进行进一步简化,获得的网络结构(具体如表1所示)为例,在其后添加自相关特征层之,获得如表3所示的网络结构。
表3
Figure BDA0003696663540000141
进一步地,本申请实施例中,步骤S130具体可以包括:
分别获取待处理特征像素与每个初始特征像素之间的相关性系数,待处理特征像素为任一初始特征像素;
根据相关性系数,对待处理特征像素进行增强处理,获得目标特征像素;
获得目标特征图,目标特征图包括所有目标特征像素。
其中,“分别获取待处理特征像素与每个初始特征像素之间的相关性系数”可以理解为:针对多个初始特征像素中的任何一个初始特征像素,都要将其作为待处理特征像素,再分别获取待处理特征像素与每个初始特征像素之间的相关性系数。进一步地,本申请实施例中,“分别获取待处理特征像素与每个初始特征像素之间的相关性系数”具体可以包括:
根据待处理特征像素在初始特征图中的位置信息,获取待处理特征像素的第一像素表征值;
根据初始特征图中,每个初始像素特征的位置信息,获取每个初始特征像素的第二像素表征值;
基于第一像素表征值和所有第二像素表征值,获得对应于每个初始像素特征的相关性系数。
例如,初始特征图的尺寸为1*1*48,也即,大小为1*1,通道数量为48,可以表征为1*48的一维向量,具体如图1c所示。那么,若待处理特征像素在初始特征图中的位置信息为01,则可以根据该位置信息,映射到初始特征图中的第一个向量元素,作为待处理特征像素,再将其像素值作为第一像素表征值,也即,此时,第一像素表征值仅包括一个向量元素值。同理,可以根据初始特征图中,每个初始像素特征的位置信息,获取每个初始特征像素的第二像素表征值。
再例如,初始特征图的尺寸为4*4*3,也即,大小为4*4,通道数量为3,具体如图1d所示。那么,若待处理特征像素在初始特征图中的位置信息为X=1,Y=1,则可以根据该位置信息,映射到初始特征图中,X轴坐标和Y轴坐标均为1的三个像素点,共同作为一个初始特征像素,再将这三个像素点分别对应的像素值共同作为第一像素表征值,也即,此时,第一像素表征值包括三个像素值。同理,可以根据初始特征图中,每个初始像素特征的位置信息,获取每个初始特征像素的第二像素表征值。
进一步地,本申请实施例中,“基于第一像素表征值和所有第二像素表征值,获得对应于每个初始像素特征的相关性系数”具体可以包括:
基于第一像素表征值和目标像素表征值,获得第一计算结果,目标像素表征值为任一第二像素表征值;
基于第一像素表征值和所有第二像素表征值,获得第二计算结果;
获取第一计算结果与第二计算结果的比值,作为对应于目标像素表征值的相关性系数。
进一步地,本申请实施例中,“基于第一像素表征值和目标像素表征值,获得第一计算结果”,具体可以包括:
获取第一像素表征值的转置结果;
通过第一预设激活函数,对转置结果进行激活处理,获得第一激活结果;
通过第二预设激活函数,对目标像素表征值进行激活处理,获得第二激活结果。
计算出第一激活结果与第二激活结果的第一乘积结果;
获取以目标数值为底,以第一乘积结果为自变量的指数函数运算结果,作为第一计算结果。
其中,第一预设激活函数可以是ReLU、ReLU6和Sigmoid等激活函数中的任意一者,同样,第二预设激活函数可以是ReLU、ReLU6和Sigmoid等激活函数中的任意一者。其中,ReLU激活函数用于将处理对象调整至固定范围[0,+∞],ReLU6激活函数用于将处理对象调整至固定范围[0,6],Sigmoid激活函数用于将处理对象调整至固定范围[0,1]。
目标数值可以是e,也即,2.71828……
进一步地,本申请实施例中,“基于第一像素表征值和所有第二像素表征值,获得第二计算结果”,具体可以包括:
获取第一像素表征值的转置结果;
通过第一预设激活函数,对转置结果进行激活处理,获得第一激活结果;
通过第二预设激活函数,对每个第二像素表征值进行激活处理,获得第三激活结果;
分别计算出第一激活结果与每个第三激活结果的第二乘积结果;
分别获取以目标数值为底,以每个第二乘积结果为自变量的指数函数运算结果,作为中间计算结果;
对所有中间计算结果进行求和处理,获得第二计算结果。
如前所述的,第一预设激活函数可以是ReLU、ReLU6和Sigmoid等激活函数中的任意一者,同样,第二预设激活函数可以是ReLU、ReLU6和Sigmoid等激活函数中的任意一者。
目标数值可以是e,也即,2.71828……
结合以上描述,“获取第一计算结果与第二计算结果的比值,作为对应于目标像素表征值的相关性系数”的运算过程可以通过公式(1)表示:
Figure BDA0003696663540000171
其中,分子部分为第一计算结果,分母部分为第二计算结果,具体地,α表示第一预设激活函数,p表示待处理特征像素在初始特征图中的位置信息,fp表示待处理特征像素的第一像素表征值,β表示第二预设激活函数,i表示初始特征图中,某个初始像素特征的位置信息,i的取值范围为:初始特征图中第一个初始像素特征的位置信息,至初始特征图中最后一个初始像素特征的位置信息,以图1c所示初始特征图为例,i的取值为01~48,fi表征位置信息为i时,初始特征像素的第二像素表征值。
需要说明的是,本申请实施例中,若初始特征图为一维向量,例如,初始特征图的尺寸为1*1*48,也即,大小为1*1,通道数量为48,可以表征为1*48的一维向量,具体如图1c所示,则第一像素表征值仅包括一个向量元素值,那么,其的转置结果为其本身。
若初始特征图为一个三维特征图,例如,初始特征图的尺寸为4*4*3,也即,大小为4*4,通道数量为3,具体如图1d所示。继续以待处理特征像素在初始特征图中的位置信息为X=1,Y=1为例,则可以将X轴坐标和Y轴坐标均为1的三个像素点分别对应的像素值表征为行向量(A1、A2、A3),并共同作为第一像素表征值,则其转置结果为行向量(A1、A2、A3)所对应的列向量。
进一步地,本申请实施例中,“根据相关性系数,对待处理特征像素进行增强处理,获得目标特征像素”,具体可以包括:
根据初始特征图中,每个初始像素特征的位置信息,获取每个初始特征像素的第二像素表征值;
计算出对应于第二像素表征值的相关性系数与第二像素表征值的乘积结果;
对所有乘积结果进行求和处理,获得求和结果,作为目标特征像素。
本申请实施例中,在执行“分别获取待处理特征像素与每个初始特征像素之间的相关性系数”的步骤时,已经根据初始特征图中,每个初始像素特征的位置信息,获取每个初始特征像素的第二像素表征值,因此,在执行“根据相关性系数,对待处理特征像素进行增强处理,获得目标特征像素”时,可以复用已经获取的第二像素表征值,以提高图像分类效率。
进一步地,目标特征像素的获取过程可以通过公式(2)表示:
Figure BDA0003696663540000181
其中,i表示初始特征图中,某个初始像素特征的位置信息,i的取值范围为:初始特征图中第一个初始像素特征的位置信息,至初始特征图中最后一个初始像素特征的位置信息,以图1c所示初始特征图为例,i的取值为01~48,fi表征位置信息为i时,初始特征像素的第二像素表征值,fi表征位置信息为i时,初始特征像素的第二像素表征值,Wpi表征对应于第二像素表征值fi的相关性系数,例如,Wp01表征对应于第二像素表征值f01的相关性系数。
140、基于目标特征图,获得待分类图像的清晰度类别。
本申请实施例中,待分类图像的清晰度类别可以是清晰、局部模糊和全局模糊中的任意一者。
其中,清晰表示待分类图像中不存在模糊,局部模糊用于表征待分类图像中存在模糊,且模糊区域并未完全覆盖待分类图像,也即,待分类图像中仅部分区域存在模糊,全局模糊用于表征待分类图像中存在模糊,且模糊区域完全覆盖待分类图像,也即,整个待分类图像均为模糊状态。
实际实施时,可以将目标特征图输入分类输出层,再基于分类输出层的输出结果,获得待分类图像的清晰度类别。基于此,本申请实施例中,“基于目标特征图,获得待分类图像的清晰度类别”具体可以包括:
通过分类输出层,利用目标特征图,获取多个待定类别所对应的预测概率值,多个待定类别包括清晰、局部模糊和全局模糊;
从多个预测概率值中,确定出数值最大的目标概率值;
将对应于目标概率值的待定类别,作为清晰度类别。
其中,分类输出层可以是全连接网络,且全连接网络的最后一层为尺寸为1*1*3的全连接层。在图像分类模型(包括轻量级特征提取网络、自相关特征层和分类输出层)的训练过程中,可以采用方差0.01、均值为0的高斯分布对全连接网络进行初始化。
此外,本申请实施例中,多个待定类别所对应的预测概率值之和为1。示例性地,清晰所对应的预测概率值为0.8,局部模糊所对应的预测概率值为0.2,全局模糊所对应的预测概率值为0,则目标概率值为0.8,可以将对应于目标概率值0.8的待定类别,作为清晰度类别,也即,将清晰作为待分类图像的清晰度类别。
由于目标特征图中包括所有目标特征像素是经过增强处理的,可以更好的表达模糊区域与清晰区域的不同,尤其是模糊区域与清晰区域的边界部分,使得图像分类模型可以通过关注多个初始特征像素之间相关性,引入待分类图像高维特征之间的关系,以进一步关注到模糊区域,增强目标特征图的表达能力,从而提高针对模糊区域的注意力。
最后,需要说明的是,本申请实施例提供中,图像分类模型可以是预先训练好的,请结合图1i,以本申请实施例提供的图像分类方法应用于广告视频的封面选取为例,通过图像分类模型,可以输出待分类图像的清晰度类别,可以是清晰、局部模糊和全局模糊中的任意一者。
继续以图像分类方法应用于广告视频的封面选取为例,图像分类模型的训练过程中,使用的训练数据集可以来自广告场景,例如,从每个广告视频均匀抽取30张广告图像,再对每张广告图像是否有存在模糊区域进行清晰度标注,清晰度标注内容可以是:清晰、全局模糊、局部模糊。其中,清晰的广告图像可以是2000张,局部模糊的广告图像可以是1890张,全局模糊的广告图像可以是600张,本申请实施例对此不作具体限制。
进一步地,对图像分类模型的训练过程中,可以使用交叉熵损失函数优化网络参数。
交叉熵损失函数的数学表达式为:
L=-[ylogy′+(1-y)log(1-y′)]
其中,y为清晰度标注,y’为图像分类模型的训练过程中,预测的某一待定类别所对应的概率值,交叉熵损失函数可以使得图像分类模型预测一张待分类图像属于正确待定类别的概率值最大,从而提高训练效率。
此外,本申请实施例中,可以通过基于随机梯度下降(Stochastic GradientDescent,SGD),求解图像分类模型中各个卷积核(例如,前述卷积层2d-1、卷积层2d-2、卷积层2d-3,以及瓶颈层中扩展层、深度卷积层和逐点卷积层中包括的卷积核)的模板参数w和偏置参数b,在每次迭代过程中,计算预测结果误差,并反向传播到图像分类模型,计算梯度,并更图像分类模型中各个卷积核的模板参数w和偏置参数b。
本申请实施例中,通过对待分类图像进行特征提取,获得包括多个初始特征像素的初始特征图,再根据多个初始特征像素之间相关性,对初始特征图进行增强处理,获得目标特征图,也即,通过关注多个初始特征像素之间相关性,引入待分类图像高维特征之间的关系,以增强目标特征图的表达能力,那么,在待分类图像中存在模糊区域时,便能够提高针对模糊区域的注意力,从而提升针对待分类图像的清晰度分类结果的准确性。
根据上述实施例所描述的图像分类方法,以下将作进一步详细说明。
在本申请实施例中,将以图像分类装置集成在图1a所示的服务器11为例,对本申请实施例提供的图像分类方法进行详细说明。
如图2所示,一种图像分类方法具体流程如下:
210、获取待分类图像。
其中,待分类图像可以是任意需要获得清晰度类别的图像。
220、通过轻量级特征提取网络,具体为MobileNetV2,对待分类图像进行特征提取,获得初始特征图,初始特征图包括多个初始特征像素。
可以获取ImageNet数据集上预训练获得的MobileNetV2,作为轻量级特征提取网络,对待分类图像进行特征提取,获得初始特征图。
230、根据待处理特征像素在初始特征图中的位置信息,获取待处理特征像素的第一像素表征值,根据初始特征图中,每个初始像素特征的位置信息,获取每个初始特征像素的第二像素表征值,并基于第一像素表征值和目标像素表征值,获得第一计算结果,目标像素表征值为任一第二像素表征值,基于第一像素表征值和所有第二像素表征值,获得第二计算结果,再获取第一计算结果与第二计算结果的比值,作为对应于目标像素表征值的相关性系数。
进一步地,本申请实施例中,“基于第一像素表征值和目标像素表征值,获得第一计算结果”,具体可以包括:
获取第一像素表征值的转置结果;
通过第一预设激活函数,对转置结果进行激活处理,获得第一激活结果;
通过第二预设激活函数,对目标像素表征值进行激活处理,获得第二激活结果。
计算出第一激活结果与第二激活结果的第一乘积结果;
获取以目标数值为底,以第一乘积结果为自变量的指数函数运算结果,作为第一计算结果。
其中,第一预设激活函数可以是ReLU、ReLU6和Sigmoid等激活函数中的任意一者,同样,第二预设激活函数可以是ReLU、ReLU6和Sigmoid等激活函数中的任意一者。其中,ReLU激活函数用于将处理对象调整至固定范围[0,+∞],ReLU6激活函数用于将处理对象调整至固定范围[0,6],Sigmoid激活函数用于将处理对象调整至固定范围[0,1]。
目标数值可以是e,也即,2.71828……
进一步地,本申请实施例中,“基于第一像素表征值和所有第二像素表征值,获得第二计算结果”,具体可以包括:
获取第一像素表征值的转置结果;
通过第一预设激活函数,对转置结果进行激活处理,获得第一激活结果;
通过第二预设激活函数,对每个第三像素表征值进行激活处理,获得第三激活结果;
分别计算出第一激活结果与每个第二激活结果的第二乘积结果;
分别获取以目标数值为底,以每个第二乘积结果为自变量的指数函数运算结果,作为中间计算结果;
对所有中间计算结果进行求和处理,获得第二计算结果。
如前所述的,第一预设激活函数可以是ReLU、ReLU6和Sigmoid等激活函数中的任意一者,同样,第二预设激活函数可以是ReLU、ReLU6和Sigmoid等激活函数中的任意一者。
目标数值可以是e,也即,2.71828……
240、根据初始特征图中,每个初始像素特征的位置信息,获取每个初始特征像素的第二像素表征值,并计算出对应于第二像素表征值的相关性系数与第二像素表征值的乘积结果,再对所有乘积结果进行求和处理,获得求和结果,作为目标特征像素。
250、通过分类输出层,利用目标特征图,获取多个待定类别所对应的预测概率值,多个待定类别包括清晰、局部模糊和全局模糊,从多个预测概率值中,确定出数值最大的目标概率值,并将对应于目标概率值的待定类别,作为清晰度类别。
其中,分类输出层可以是全连接网络,且全连接网络的最后一层为尺寸为1*1*3的全连接层。在图像分类模型(包括轻量级特征提取网络、自相关特征层和分类输出层)的训练过程中,可以采用方差0.01、均值为0的高斯分布对全连接网络进行初始化。
此外,本申请实施例中,多个待定类别所对应的预测概率值之和为1。示例性地,清晰所对应的预测概率值为0.8,局部模糊所对应的预测概率值为0.2,全局模糊所对应的预测概率值为0,则目标概率值为0.8,可以将对应于目标概率值0.8的待定类别,作为清晰度类别,也即,将清晰作为待分类图像的清晰度类别。
由于目标特征图中包括所有目标特征像素是经过增强处理的,可以更好的表达模糊区域与清晰区域的不同,尤其是模糊区域与清晰区域的边界部分,使得图像分类模型可以通过关注多个初始特征像素之间相关性,引入待分类图像高维特征之间的关系,以进一步关注到模糊区域,增强目标特征图的表达能力,从而提高针对模糊区域的注意力。
本申请实施例中,通过对待分类图像进行特征提取,获得包括多个初始特征像素的初始特征图,再根据多个初始特征像素之间相关性,对初始特征图进行增强处理,获得目标特征图,也即,通过关注多个初始特征像素之间相关性,引入待分类图像高维特征之间的关系,以增强目标特征图的表达能力,那么,在待分类图像中存在模糊区域时,便能够提高针对模糊区域的注意力,从而提升针对待分类图像的清晰度分类结果的准确性。
为了更好地实施以上图像分类方法,本申请实施例还提供一种图像分类装置,该图像分类装置具体可以集成在电子设备中,该电子设备可以为终端、服务器等设备。其中,终端可以是手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等设备,且其可以搭载Android或Ios系统,服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群。
例如,在本申请实施例中,将以图像分类装置具体集成在服务器为例,对本申请实施例的方法进行详细说明。
例如,如图3所示,该图像分类装置300可以包括:
图像获取单元310,用于获取待分类图像;
特征图获取单元320,用于对待分类图像进行特征提取,获得初始特征图,初始特征图包括多个初始特征像素;
增强处理单元330,用于根据多个初始特征像素之间的相关性,对初始特征图进行增强处理,获得目标特征图;
分类单元,用于基于目标特征图,获得待分类图像的清晰度类别。
在一些实施例中,增强处理单元330可以包括:
第一获取子单元,用于分别获取待处理特征像素与每个初始特征像素之间的相关性系数,待处理特征像素为任一初始特征像素;
增强处理子单元,用于根据相关性系数,对待处理特征像素进行增强处理,获得目标特征像素;
第二获取子单元,用于获得目标特征图,目标特征图包括所有目标特征像素。
在一些实施例中,第一获取子单元可以包括:
第三获取子单元,用于根据待处理特征像素在初始特征图中的位置信息,获取待处理特征像素的第一像素表征值;
第四获取子单元,用于根据初始特征图中,每个初始像素特征的位置信息,获取每个初始特征像素的第二像素表征值;
第五获取子单元,用于基于第一像素表征值和所有第二像素表征值,获得对应于每个初始像素特征的相关性系数。
在一些实施例中,第五获取子单元可以包括:
第一计算子单元,用于基于第一像素表征值和目标像素表征值,获得第一计算结果,目标像素表征值为任一第二像素表征值;
第二计算子单元,用于基于第一像素表征值和所有第二像素表征值,获得第二计算结果;
第三计算子单元,用于获取第一计算结果与第二计算结果的比值,作为对应于目标像素表征值的相关性系数。
在一些实施例中,第一计算子单元具体用于:
获取第一像素表征值的转置结果;
通过第一预设激活函数,对转置结果进行激活处理,获得第一激活结果;
通过第二预设激活函数,对目标像素表征值进行激活处理,获得第二激活结果;
计算出第一激活结果与第二激活结果的第一乘积结果;
获取以目标数值为底,以第一乘积结果为自变量的指数函数运算结果,作为第一计算结果。
在一些实施例中,第二计算子单元具体用于:
获取第一像素表征值的转置结果;
通过第一预设激活函数,对转置结果进行激活处理,获得第一激活结果;
通过第二预设激活函数,对每个第二像素表征值进行激活处理,获得第三激活结果;
分别计算出第一激活结果与每个第二激活结果的第二乘积结果;
分别获取以目标数值为底,以每个第二乘积结果为自变量的指数函数运算结果,作为中间计算结果;
对所有中间计算结果进行求和处理,获得第二计算结果。
在一些实施例中,增强处理子单元可以包括:
第六获取子单元,用于根据初始特征图中,每个初始像素特征的位置信息,获取每个初始特征像素的第二像素表征值;
第四计算子单元,用于计算出对应于第二像素表征值的相关性系数与第二像素表征值的乘积结果;
第五计算子单元,用于对所有乘积结果进行求和处理,获得求和结果,作为目标特征像素。
在一些实施例中,分类单元可以包括:
第七获取子单元,用于通过分类输出层,利用目标特征图,获取多个待定类别所对应的预测概率值,多个待定类别包括清晰、局部模糊和全局模糊;
概率值确定子单元,用于从多个预测概率值中,确定出数值最大的目标概率值;
分类子单元,用于将对应于目标概率值的待定类别,作为清晰度类别。
在一些实施例中,特征图获取单元320可以包括:
图像输入子单元,用于将待识别图像输入轻量级特征提取网络;
特征图输出子单元,用于通过轻量级特征提取网络,对待识别图像进行特征提取,输出初始特征图。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由上可知,本申请实施例的图像分类装置300可以由图像获取单元310获取待分类图像;由特征图获取单元320对待分类图像进行特征提取,获得初始特征图,初始特征图包括多个初始特征像素;由增强处理单元330根据多个初始特征像素之间的相关性,对初始特征图进行增强处理,获得目标特征图;由分类单元基于目标特征图,获得待分类图像的清晰度类别。
本申请实施例中,通过对待分类图像进行特征提取,获得包括多个初始特征像素的初始特征图,再根据多个初始特征像素之间相关性,对初始特征图进行增强处理,获得目标特征图,也即,通过关注多个初始特征像素之间相关性,引入待分类图像高维特征之间的关系,以增强目标特征图的表达能力,那么,在待分类图像中存在模糊区域时,便能够提高针对模糊区域的注意力,从而提升针对待分类图像的清晰度分类结果的准确性。
本申请实施例还提供一种电子设备,该电子设备可以为终端、服务器等设备。其中,终端可以是手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等设备,且其可以搭载Android或Ios系统,服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群,等等。
在一些实施例中,该图像分类装置还可以集成在多个电子设备中,例如,图像分类装置可以集成在多个服务器中,由多个服务器来实现本申请的图像分类方法。
在本申请实施例中,将以本申请实施例的电子设备为例进行详细描述,例如,如图4所示,其示出了本申请实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403、输入模块404以及通信模块405等部件。本领域技术人员可以理解,图4中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或组合某些部件,或不同的部件布置。其中:
处理器401是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据。在一些实施例中,处理器401可包括一个或多个处理核心;在一些实施例中,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(例如,声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
电子设备还包括给各个部件供电的电源403,在一些实施例中,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入模块404,该输入模块404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或轨迹球信号输入。
该电子设备还可包括通信模块405,在一些实施例中通信模块405可以包括无线模块,电子设备可以通过该通信模块405的无线模块进行短距离无线传输,从而为用户提供了无线的宽带互联网访问。例如,该通信模块405可以用于帮助用户收发电子邮件、浏览网页和访问流式媒体等。
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本申请实施例中,电子设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取待分类图像;
对待分类图像进行特征提取,获得初始特征图,初始特征图包括多个初始特征像素;
根据多个初始特征像素之间的相关性,对初始特征图进行增强处理,获得目标特征图;
基于目标特征图,获得待分类图像的清晰度类别。
在一些实施例中,还提出一种计算机程序产品,包括计算机程序或指令,该计算机程序或指令被处理器执行时实现上述任一种图像分类方法中的步骤。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
本申请实施例中,通过对待分类图像进行特征提取,获得包括多个初始特征像素的初始特征图,再根据多个初始特征像素之间相关性,对初始特征图进行增强处理,获得目标特征图,也即,通过关注多个初始特征像素之间相关性,引入待分类图像高维特征之间的关系,以增强目标特征图的表达能力,那么,在待分类图像中存在模糊区域时,便能够提高针对模糊区域的注意力,从而提升针对待分类图像的清晰度分类结果的准确性。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种图像分类方法中的步骤。例如,该指令可以执行如下步骤:
获取待分类图像;
对待分类图像进行特征提取,获得初始特征图,初始特征图包括多个初始特征像素;
根据多个初始特征像素之间的相关性,对初始特征图进行增强处理,获得目标特征图;
基于目标特征图,获得待分类图像的清晰度类别。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中提供任一种图像分类方法。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种图像分类方法中的步骤,因此,可以实现本申请实施例所提供的任一种图像分类方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种图像分类方法、装置、电子设备和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (13)

1.一种图像分类方法,其特征在于,包括:
获取待分类图像;
对所述待分类图像进行特征提取,获得初始特征图,所述初始特征图包括多个初始特征像素;
根据所述多个初始特征像素之间的相关性,对所述初始特征图进行增强处理,获得目标特征图;
基于所述目标特征图,获得所述待分类图像的清晰度类别。
2.如权利要求1所述的图像分类方法,其特征在于,所述根据所述多个初始特征像素之间的相关性,对所述初始特征图进行增强处理,获得目标特征图,包括:
分别获取待处理特征像素与每个所述初始特征像素之间的相关性系数,所述待处理特征像素为任一所述初始特征像素;
根据所述相关性系数,对所述待处理特征像素进行增强处理,获得目标特征像素;
获得所述目标特征图,所述目标特征图包括所有所述目标特征像素。
3.如权利要求2所述的图像分类方法,其特征在于,所述分别获取待处理特征像素与每个所述初始特征像素之间的相关性系数,包括:
根据所述待处理特征像素在所述初始特征图中的位置信息,获取所述待处理特征像素的第一像素表征值;
根据所述初始特征图中,每个所述初始像素特征的位置信息,获取每个所述初始特征像素的第二像素表征值;
基于所述第一像素表征值和所有所述第二像素表征值,获得对应于每个所述初始像素特征的相关性系数。
4.如权利要求3所述的图像分类方法,其特征在于,所述基于所述第一像素表征值和所有所述第二像素表征值,获得对应于每个所述初始像素特征的相关性系数,包括:
基于所述第一像素表征值和目标像素表征值,获得第一计算结果,所述目标像素表征值为任一所述第二像素表征值;
基于所述第一像素表征值和所有所述第二像素表征值,获得第二计算结果;
获取所述第一计算结果与所述第二计算结果的比值,作为对应于所述目标像素表征值的相关性系数。
5.根据权利要求4所述的图像分类方法,其特征在于,所述基于所述第一像素表征值和目标像素表征值,获得第一计算结果,包括:
获取所述第一像素表征值的转置结果;
通过第一预设激活函数,对所述转置结果进行激活处理,获得第一激活结果;
通过第二预设激活函数,对所述目标像素表征值进行激活处理,获得第二激活结果;
计算出所述第一激活结果与所述第二激活结果的第一乘积结果;
获取以目标数值为底,以所述第一乘积结果为自变量的指数函数运算结果,作为第一计算结果。
6.根据权利要求4所述的图像分类方法,其特征在于,所述基于所述第一像素表征值和所有所述第二像素表征值,获得第二计算结果,包括:
获取所述第一像素表征值的转置结果;
通过第一预设激活函数,对所述转置结果进行激活处理,获得第一激活结果;
通过第二预设激活函数,对每个所述第二像素表征值进行激活处理,获得第三激活结果;
分别计算出所述第一激活结果与每个所述第三激活结果的第二乘积结果;
分别获取以目标数值为底,以每个所述第二乘积结果为自变量的指数函数运算结果,作为中间计算结果;
对所有所述中间计算结果进行求和处理,获得第二计算结果。
7.如权利要求2所述的图像分类方法,其特征在于,所述根据所述相关性系数,对所述待处理特征像素进行增强处理,获得目标特征像素,包括:
根据所述初始特征图中,每个所述初始像素特征的位置信息,获取每个所述初始特征像素的第二像素表征值;
计算出对应于所述第二像素表征值的相关性系数与所述第二像素表征值的乘积结果;
对所有所述乘积结果进行求和处理,获得求和结果,作为目标特征像素。
8.如权利要求1所述的图像分类方法,其特征在于,所述基于所述目标特征图,获得所述待分类图像的清晰度类别,包括:
通过分类输出层,利用所述目标特征图,获取多个待定类别所对应的预测概率值,所述多个待定类别包括清晰、局部模糊和全局模糊;
从多个所述预测概率值中,确定出数值最大的目标概率值;
将对应于所述目标概率值的所述待定类别,作为所述清晰度类别。
9.如权利要求1所述的图像分类方法,其特征在于,所述对所述待识别图像进行特征提取,获得初始特征图,包括:
将所述待识别图像输入轻量级特征提取网络;
通过所述轻量级特征提取网络,对所述待识别图像进行特征提取,输出所述初始特征图。
10.一种图像分类装置,其特征在于,包括:
图像获取单元,用于获取待分类图像;
特征图获取单元,用于对所述待分类图像进行特征提取,获得初始特征图,所述初始特征图包括多个初始特征像素;
增强处理单元,用于根据所述多个初始特征像素之间的相关性,对所述初始特征图进行增强处理,获得目标特征图;
分类单元,用于基于所述目标特征图,获得所述待分类图像的清晰度类别。
11.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有多条指令;
所述处理器从所述存储器中加载指令,以执行如权利要求1~9中任一项所述的图像分类方法中的步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1~9中任一项所述的图像分类方法中的步骤。
13.一种计算机程序产品,包括计算机程序或指令,其特征在于,所述计算机程序或指令被处理器执行时实现权利要求1~9中任一项所述的图像分类方法中的步骤。
CN202210682094.XA 2022-06-15 2022-06-15 图像分类方法、装置、电子设备和存储介质 Pending CN115115875A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210682094.XA CN115115875A (zh) 2022-06-15 2022-06-15 图像分类方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210682094.XA CN115115875A (zh) 2022-06-15 2022-06-15 图像分类方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN115115875A true CN115115875A (zh) 2022-09-27

Family

ID=83329272

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210682094.XA Pending CN115115875A (zh) 2022-06-15 2022-06-15 图像分类方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN115115875A (zh)

Similar Documents

Publication Publication Date Title
US10943145B2 (en) Image processing methods and apparatus, and electronic devices
CN108229479B (zh) 语义分割模型的训练方法和装置、电子设备、存储介质
CN111279362B (zh) 胶囊神经网络
WO2022083536A1 (zh) 一种神经网络构建方法以及装置
EP3968179A1 (en) Place recognition method and apparatus, model training method and apparatus for place recognition, and electronic device
US20230153615A1 (en) Neural network distillation method and apparatus
WO2016197046A1 (en) Spatial transformer modules
CN111666919B (zh) 一种对象识别方法、装置、计算机设备和存储介质
US20220375211A1 (en) Multi-layer perceptron-based computer vision neural networks
CN113449700B (zh) 视频分类模型的训练、视频分类方法、装置、设备及介质
CN111008631B (zh) 图像的关联方法及装置、存储介质和电子装置
CN113761153A (zh) 基于图片的问答处理方法、装置、可读介质及电子设备
EP4318313A1 (en) Data processing method, training method for neural network model, and apparatus
EP3899806A1 (en) Convolutional neural networks with soft kernel selection
CN113343982A (zh) 多模态特征融合的实体关系提取方法、装置和设备
CN110807379A (zh) 一种语义识别方法、装置、以及计算机存储介质
CN113536970A (zh) 一种视频分类模型的训练方法及相关装置
CN113343981A (zh) 一种视觉特征增强的字符识别方法、装置和设备
CN116310318A (zh) 交互式的图像分割方法、装置、计算机设备和存储介质
JP2023131117A (ja) 結合感知モデルのトレーニング、結合感知方法、装置、機器および媒体
CN113838134B (zh) 图像关键点检测方法、装置、终端和存储介质
CN112069412B (zh) 信息推荐方法、装置、计算机设备及存储介质
CN113627163A (zh) 一种注意力模型、特征提取方法及相关装置
CN113793341A (zh) 一种自动驾驶场景语义分割方法、电子设备及可读介质
CN113537267A (zh) 对抗样本的生成方法和装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination