CN116894974A - 图像分类方法、装置、计算机设备及其存储介质 - Google Patents
图像分类方法、装置、计算机设备及其存储介质 Download PDFInfo
- Publication number
- CN116894974A CN116894974A CN202310836359.1A CN202310836359A CN116894974A CN 116894974 A CN116894974 A CN 116894974A CN 202310836359 A CN202310836359 A CN 202310836359A CN 116894974 A CN116894974 A CN 116894974A
- Authority
- CN
- China
- Prior art keywords
- classified
- style
- image
- features
- visual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 230000000007 visual effect Effects 0.000 claims abstract description 260
- 238000000605 extraction Methods 0.000 claims abstract description 218
- 230000015654 memory Effects 0.000 claims description 47
- 238000004590 computer program Methods 0.000 claims description 43
- 238000012545 processing Methods 0.000 claims description 42
- 238000001514 detection method Methods 0.000 claims description 29
- 238000010586 diagram Methods 0.000 claims description 13
- 230000007787 long-term memory Effects 0.000 claims description 12
- 230000006403 short-term memory Effects 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000012549 training Methods 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 6
- 238000011176 pooling Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 239000013589 supplement Substances 0.000 description 3
- 239000000463 material Substances 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000011284 combination treatment Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种图像分类方法、装置、计算机设备及其存储介质,涉及人工智能技术领域。所述方法包括:基于特征提取网络,获取待分类图像的风格增强视觉特征;基于文本语义提取网络,获取待分类图像的模糊文本语义特征;基于目标分类器,根据风格增强视觉特征和模糊文本语义特征,对待分类图像进行分类处理,得到待分类图像的目标分类结果。本申请实现了当不同的图像数据具有较高的相似度时,依旧能够准确的对图像数据进行分类处理,防止对图像数据进行分类处理的过程受到干扰,提高了对图像数据进行分类处理的准确性。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种图像分类方法、装置、计算机设备及其存储介质。
背景技术
随着社会经济的不断发展,很多企业的规模与产量均大幅度增加,随之产生的相关数据也越来越多(例如带有文本信息的图像数据);为更好的对企业的经营情况进行管理和储存,现有技术中,可通过光学字符识别和自然语言处理技术,识别图像数据中的文本语义特征,进而根据文本语义特征对图像数据进行分类处理。
其中,当对图像数据进行分类管理时,如果不同的图像数据具有较高相似度的文本语义特征时,可能会导致现有技术无法准确区分不同图像数据的文本语义特征,进而,导致现有技术无法准确的对图像数据进行分类处理。
发明内容
基于此,有必要针对上述技术问题,提供一种能够的准确的对图像数据进行分类处理的图像分类方法、装置、计算机设备及其存储介质。
第一方面,本申请提供了一种图像分类方法。该方法包括:
基于特征提取网络,获取待分类图像的风格增强视觉特征;
基于文本语义提取网络,获取待分类图像的模糊文本语义特征;
基于目标分类器,根据风格增强视觉特征和模糊文本语义特征,对待分类图像进行分类处理,得到待分类图像的目标分类结果。
在其中一个实施例中,目标分类结果包括类别分类结果和重要性分类结果,目标分类器包括类别分类器和重要性分类器;
相应的,基于目标分类器,根据风格增强视觉特征和模糊文本语义特征,对待分类图像进行分类处理,得到待分类图像的目标分类结果,包括:
基于类别分类器,根据风格增强视觉特征,对待分类图像进行图像类别分类,得到待分类图像的类别分类结果;
基于重要性分类器,根据风格增强视觉特征和模糊文本语义特征,对待分类图像进行图像重要性分类,得到待分类图像的重要性分类结果。
在其中一个实施例中,基于重要性分类器,对风格增强视觉特征和模糊文本语义特征进行图像重要性分类,得到待分类图像的重要性分类结果,包括:
基于重要性分类器,对风格增强视觉特征和模糊文本语义特征进行特征拼接处理,得到重要性分级特征;并基于重要性分级特征,对待分类图像进行图像重要性分类,得到重要性分类结果。
在其中一个实施例中,基于特征提取网络,获取待分类图像的风格增强视觉特征,包括:
基于特征提取网络,获取待分类图像的视觉特征和风格特征;
基于风格特征对视觉特征进行风格增强处理,得到待分类图像的风格增强视觉特征。
在其中一个实施例中,特征提取网络包括视觉提取网络和风格提取网络;视觉提取网络的视觉提取层与风格提取网络的风格提取层的数量相同,且一一对应;
相应的,基于特征提取网络,获取待分类图像的视觉特征和风格特征,包括:
将待分类图像输入至视觉提取网络,得到各视觉提取层输出的子视觉特征;并对各视觉提取层输出的子视觉特征进行融合,得到待分类图像的视觉特征;
将各视觉提取层输出的子视觉特征输入至各视觉提取层对应的风格提取层,得到各视觉提取层输出的子风格特征,并对各视觉提取层输出的子风格特征进行融合,得到待分类图像的风格特征。
在其中一个实施例中,对各视觉提取层输出的子风格特征进行融合,得到待分类图像的风格特征,包括:
对各视觉提取层输出的子风格特征进行融合,得到待分类图像的中间特征图;
对中间特征图进行特征转换,得到待分类图像的风格特征。
在其中一个实施例中,基于文本语义提取网络,获取待分类图像的模糊文本语义特征,包括:
基于文本语义提取网络中的文本区域检测网络,对待分类图像进行文本区域检测,得到待分类图像的文本区域切片;
基于文本语义提取网络中的文本解析网络,确定文本区域切片的文本特征图;
基于文本语义提取网络中的长短期记忆网络,对文本特征图进行文本语义提取,得到待分类图像的模糊文本语义特征。
第二方面,本申请还提供了一种图像分类装置。该装置包括:
第一获取模块,用于基于特征提取网络,获取待分类图像的风格增强视觉特征;
第二获取模块,用于基于文本语义提取网络,获取待分类图像的模糊文本语义特征;
分类模块,用于基于目标分类器,根据风格增强视觉特征和模糊文本语义特征,对待分类图像进行分类处理,得到待分类图像的目标分类结果。
第三方面,本申请还提供了一种计算机设备。计算机设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
基于特征提取网络,获取待分类图像的风格增强视觉特征;
基于文本语义提取网络,获取待分类图像的模糊文本语义特征;
基于目标分类器,根据风格增强视觉特征和模糊文本语义特征,对待分类图像进行分类处理,得到待分类图像的目标分类结果。
第四方面,本申请还提供了一种计算机可读存储介质。计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
基于特征提取网络,获取待分类图像的风格增强视觉特征;
基于文本语义提取网络,获取待分类图像的模糊文本语义特征;
基于目标分类器,根据风格增强视觉特征和模糊文本语义特征,对待分类图像进行分类处理,得到待分类图像的目标分类结果。
第五方面,本申请还提供了一种计算机程序产品。计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
基于特征提取网络,获取待分类图像的风格增强视觉特征;
基于文本语义提取网络,获取待分类图像的模糊文本语义特征;
基于目标分类器,根据风格增强视觉特征和模糊文本语义特征,对待分类图像进行分类处理,得到待分类图像的目标分类结果。
上述图像分类方法、装置、计算机设备及其存储介质,通过获取待分类图像的风格增强视觉特征和模糊文本语义特征,进而,根据风格增强视觉特征和模糊文本语义特征,确定待分类图像的目标分类结果。由于上述过程中的风格增强视觉特征指的是经过风格特征进行风格增强处理后的视觉特性,因此,在根据风格增强视觉特征和模糊文本语义特征,确定目标分类结果的过程中,实现从整体的角度衡量图像风格,为视觉特征提供了风格信息的补充;实现了当不同的图像数据具有较高的相似度时,依旧能够准确的对图像数据进行分类处理,防止对图像数据进行分类处理的过程受到干扰,提高了对图像数据进行分类处理的准确性。
附图说明
图1为本申请实施例提供的一种图像分类方法的应用环境图;
图2为本申请实施例提供的一种图像分类方法的流程图;
图3为本申请实施例提供的一种确定目标分类结果的步骤流程图;
图4为本申请实施例提供的一种确定风格增强视觉特征的步骤流程图;
图5为本申请实施例提供的一种确定视觉特征和风格特征的流程框图;
图6为本申请实施例提供的一种确定模糊文本语义特征的步骤流程图;
图7为本申请实施例提供的一种确定文本区域切片的示意图;
图8为本申请实施例提供的一种确定模糊文本语义特征的流程框图;
图9为本申请实施例提供的一种长短期记忆网络的训练流程框图;
图10为本申请实施例提供的另一种图像分类方法的流程图;
图11为本申请实施例提供的一种确定目标分类结果的流程框图;
图12为本申请实施例提供的第一种图像分类装置的结构框图;
图13为本申请实施例提供的第二种图像分类装置的结构框图;
图14为本申请实施例提供的第三种图像分类装置的结构框图;
图15为本申请实施例提供的第四种图像分类装置的结构框图;
图16为本申请实施例提供的第五种图像分类装置的结构框图;
图17为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。在本申请的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
基于上述情况,本申请实施例提供的图像分类方法,可以应用于如图1所示的应用环境中。在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储图像分类方法的获取数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像分类方法。
本申请公开了一种图像分类方法、装置、计算机设备及其存储介质,计算机设备通过获取待分类图像的风格增强视觉特征和模糊文本语义特征,进而,根据风格增强视觉特征和模糊文本语义特征,对待分类图像进行分类处理,得到待分类图像的目标分类结果。
在一个实施例中,如图2所示,图2为本申请实施例提供的一种图像分类方法的流程图,提供了一种图像分类方法,图1中的计算机设备执行的图像分类方法可以包括以下步骤:
步骤201,基于特征提取网络,获取待分类图像的风格增强视觉特征。
其中,风格增强视觉特征指的是经过风格增强处理的视觉特征。
需要说明的是,当需要确定待分类图像的视觉特征时,可将待分类图像输入至特征提取网络的视觉提取网络,获取视觉提取网络的输出结果,该输出结果即为待分类图像的视觉特征。
在本申请的一种实施例中,视觉提取网络中包含多个串联的视觉提取层(即为卷积层),各视觉提取层将输入的待分类图像划分为多个重叠的子视觉特征(即为矩形感觉区域),进而,通过对各子视觉特征中的像素值进行加权组合处理,得到待分类图像的视觉特征。
进一步说明,当对视觉特征进行风格增强处理之前,可预先通过特征提取网络的风格提取网络,确定待分类图像的风格特征,进而,根据风格特征对视觉特征进行风格增强处理,得到待分类图像的风格增强视觉特征。
在本申请的一种实施例中,风格提取网络中包含多个并联的风格提取层,可将待分类图像输入至风格提取网络,风格提取层获取输入的待分类图像对应的子风格特征,并对子风格特征进行融合,得到待分类图像的风格特征。
进一步说明,在对视觉特征进行风格增强处理时,可对待分类图像的视觉特征和待分类图像的风格特征进行特征拼接处理,从而得到待分类图像的风格增强视觉特征。
步骤202,基于文本语义提取网络,获取待分类图像的模糊文本语义特征。
其中,模糊文本语义特征指的是包含待分类图像中所有文本信息的特征;
需要说明的是,当需要确定待分类图像的模糊文本语义特征时,可基于预先对待分类图像进行文本区域检测,确定待分类图像中带有文本信息的文本区域切片;对文本区域切片进行文本解析,确定文本区域切片的文本特征图;对文本特征图进行文本语义提取,得到待分类图像的模糊文本语义特征。
进一步说明,可通过文本语义提取网络中的文本区域检测网络,对待分类图像进行文本区域检测;具体的,将待分类图像输入至文本区域检测网络,并获取文本区域检测网络的输出结果,该输出结果即为待分类图像中带有文本信息的文本区域切片。
进一步说明,可通过文本语义提取网络中的文本解析网络,对文本区域切片进行文本解析时;具体的,文本区域切片输入至文本解析网络,以使文本解析网络将文本区域切片转换为大小为(w,h,c)的文本特征图,其中w、h、c分别表示文本特征图的宽、高、通道数。
进一步说明,可通过文本语义提取网络中的长短期记忆网络,确定待分类图像的模糊文本语义特征;具体的,对大小为(w,h,c)的文本特征图进行平均池化,得到大小为(w,1,c)的文本特征图,将大小为(w,1,c)的文本特征图视为一个长为w的时间序列,并将该时间序列输入至长短期记忆网络,获取最终时刻的长短期记忆网络输出的记忆单元特征,该记忆单元特征即为待分类图像的模糊文本语义特征。
步骤203,基于目标分类器,根据风格增强视觉特征和模糊文本语义特征,对待分类图像进行分类处理,得到待分类图像的目标分类结果。
需要说明的是,目标分类结果包括类别分类结果和重要性分类结果;其中,类别分类结果用于表示待分类图像中内容的类别,例如,类别分类结果可以包括但不限于:表格、网络拓扑图、系统架构图、logo标志等。重要性分类结果用于表征待分类图像中的是否包含重要信息,例如,重要性分类结果可以包括但不限于:重要图像、非重要图像等。
在本申请的一种实施例中,可基于目标分类器中的类别分类器,确定待分类图像对应的类别分类结果;具体的,将风格增强视觉特征输入至类别分类器中,并获取类别分类器的输出结果,该输出结果即为待分类图像的类别分类结果。
其中,类别分类器,可实现基于待分类图像的风格增强视觉特征,确定待分类图像的类别分类结果,并且,类别分类器可以为MLP(Multilayer Perceptron,多层感知机)分类器。
在本申请的一种实施例中,可基于目标分类器中的重要性分类器,确定待分类图像对应的重要性分类结果;具体的,将风格增强视觉特征和模糊文本语义特征输入至重要性分类器,并获取重要性分类器的输出结果,该输出结果即为待分类图像的重要性分类结果。
其中,重要性分类器,可实现基于待分类图像的风格增强视觉特征和模糊文本语义特征,确定待分类图像的重要性分类结果,并且,重要性分类器可以为MLP(MultilayerPerceptron,多层感知机)分类器。
上述图像分类方法,通过获取待分类图像的风格增强视觉特征和模糊文本语义特征,进而,根据风格增强视觉特征和模糊文本语义特征,确定待分类图像的目标分类结果。由于上述过程中的风格增强视觉特征指的是经过风格特征进行风格增强处理后的视觉特性,因此,在根据风格增强视觉特征和模糊文本语义特征,确定目标分类结果的过程中,实现从整体的角度衡量图像风格,并为视觉特征提供了风格信息的补充;实现了当不同的图像数据具有较高的相似度时,依旧能够准确的对图像数据进行分类处理,防止对图像数据进行分类处理的过程受到干扰,提高了对图像数据进行分类处理的准确性。
随着企业的规模与产量的不断增加,随之产生的相关数据也越来越多,例如带有文本信息的图像数据,但是,当不同的图像数据具有较高的相似度时,则会导致无法通过常规的计算机视觉技术对图像数据进行分类处理,为了防止因上述问题导致无法对对图像数据进行分类处理,本实施例的计算机设备可以通过如图3所示的方式,其中,目标分类结果包括类别分类结果和重要性分类结果,目标分类器包括类别分类器和重要性分类器;相应的,基于目标分类器,根据风格增强视觉特征和模糊文本语义特征,对待分类图像进行分类处理,得到待分类图像的目标分类结果,具体包括如下步骤:
步骤301,基于类别分类器,根据风格增强视觉特征,对待分类图像进行图像类别分类,得到待分类图像的类别分类结果。
在本申请的一种实施例中,当需要确定待分类图像的类别分类结果时,可将风格增强视觉特征输入至类别分类器,并获取类别分类器的输出结果,该输出结果即为待分类图像的类别分类结果。
需要说明的是,在根据类别分类器确定待分类图像的类别分类结果之前,需要根据分类训练样本,对类别分类器进行训练操作,以保证类别分类器能够根据风格增强视觉特征,确定待分类图像的类别分类结果。
其中,分类训练样本可以为:样本图像的风格增强视觉特征,以及该样本视觉特征对应的类别分类结果。
其中,对类别分类器进行训练操作的过程既可以为有监督训练,又可以为无监督训练,在此不对类别分类器的训练方法进行限定。
步骤302,基于重要性分类器,根据风格增强视觉特征和模糊文本语义特征,对待分类图像进行图像重要性分类,得到待分类图像的重要性分类结果。
需要说明的是,当需要确定待分类图像的重要性分类结果时,具体可包括以下内容:基于重要性分类器,对风格增强视觉特征和模糊文本语义特征进行特征拼接处理,得到重要性分级特征;并基于重要性分级特征,对待分类图像进行图像重要性分类,得到重要性分类结果。
进一步说明,对风格增强视觉特征和模糊文本语义特征进行特征拼接处理,即为对风格增强视觉特征和模糊文本语义特征进行维度扩展拼接,可理解为:风格增强视觉特征的维度为dx,即模糊文本语义特征的维度为dy,即/>因此拼接后的重要性分级特征的维度为:dz=dx+dy。
例如,若风格增强视觉特征和模糊文本语义特征均为5维特征,即风格增强视觉特征=[1,1,1,1,1],模糊文本语义特征=[2,2,2,2,2],因此,拼接后的重要性分级特征=[1,1,1,1,1,2,2,2,2,2]。
又如,若风格增强视觉特征为512维特征,模糊文本语义特征为256维特征,因此,拼接后的重要性分级特征的维度为512+256=768维。
在本申请的一种实施例中,当需要确定待分类图像的重要性分类结果时,可将重要性分级特征输入至重要性分类器,并获取重要性分类器的输出结果,该输出结果即为待分类图像的目标分类结果。
进一步说明,在根据重要性分类器确定待分类图像的重要性分类结果之前,可预先获取重要性训练样本,对重要性分类器进行训练操作,以保证重要性分类器能够根据风格增强视觉特征和模糊文本语义特征,确定待分类图像的重要性分类结果。
其中,重要性训练样本可以为:样本图像的风格增强视觉特征、样本图像的模糊文本语义特征,以及该样本视觉特征对应的重要性分类结果。
上述图像分类方法,通过类别分类器和重要性分类器,实现了根据风格增强视觉特征和模糊文本语义特征,确定待分类图像的类别分类结果和重要性分类结果,实现了获取待分类图像的所属类别,以及待分类图像的重要性,实现准确的对图像数据进行分类处理。
在一个实施例中,可通过风格特征对视觉特征进行风格增强处理,以保证能够根据待分类图像的风格增强视觉特征,确定待分类图像的目标分类结果,具体的,基于特征提取网络,获取待分类图像的风格增强视觉特征的过程,如图4所示,该方法包括:
步骤401,基于特征提取网络,获取待分类图像的视觉特征和风格特征。
其中,特征提取网络包括视觉提取网络和风格提取网络;视觉提取网络的视觉提取层与风格提取网络的风格提取层的数量相同,且一一对应。
需要说明的是,当需要获取待分类图像的视觉特征和风格特征时,具体可包括以下内容:将待分类图像输入至视觉提取网络,得到各视觉提取层输出的子视觉特征;并对各视觉提取层输出的子视觉特征进行融合,得到待分类图像的视觉特征;将各视觉提取层输出的子视觉特征输入至各视觉提取层对应的风格提取层,得到各视觉提取层输出的子风格特征,并对各视觉提取层输出的子风格特征进行融合,得到待分类图像的风格特征。
在本申请的一种实施例中,如图5所示,其中,视觉提取网络中的卷积层1、最大池化层、残差结构1、残差结构2、残差结构3和残差结构4即为视觉提取网络的视觉提取层;风格提取网络中的风格提取层1、风格提取层2、风格提取层3、风格提取层4、风格提取层5和风格提取层6,即为风格提取网络中与视觉提取网络的视觉提取层一一对应的风格提取层。具体的,将待分类图像输入至视觉提取网络,其中,视觉提取网络的视觉提取层输出待分类图像的子视觉特征,通过平均池化层和展开+全连接层对子视觉特征中的像素值进行加权组合处理,得到待分类图像的视觉特征;并且,将各视觉提取层输出的子视觉特征输入至各视觉提取层对应的风格提取层后,对各视觉提取层输出的子风格特征进行融合,得到待分类图像的中间特征图;通过残差结构、平均池化层和展开+全连接层对中间特征图进行处理所得到的结果即为风格特征。
作为一种实现方式,卷积处理后的子视觉特征时大小为(w,h,c)的特征图,其中,w为特征图的宽,h分别为特征图的高,c为特征图的通道数。将每个通道(共i个通道)的特征图进行展平处理,实现将每个通道的特征图展平为w*h维的特征向量,记为Fi,i∈{1,2,...,c},因此,子风格特征(即为通过格拉姆矩阵运算后得到的格拉姆矩阵)即为:
其中,G表示子风格特征,即为格拉姆矩阵;Sij表示特征向量Fi与Fj的内积;c为卷积处理后的子视觉特征的通道数。
进一步说明,当需要对各视觉提取层输出的子风格特征进行融合,得到待分类图像的风格特征时,具体可包括以下内容:对各视觉提取层输出的子风格特征进行融合,得到待分类图像的中间特征图;对中间特征图进行特征转换,得到待分类图像的风格特征。
作为一种示例,对子风格特征进行融合,即为对格拉姆矩阵进行通道拼接处理,具体的:如图5所示,共包含六个子风格特征,将每一子风格特征扩张一次维度,即为,将子风格特征G从(c,c)扩张为(c,c,1),并在扩展维度上进行拼接处理,得到的中间特征图大小为(c,c,6),其中c为卷积处理后的子视觉特征的通道数。
需要说明的是,不同种类的视觉提取网络和不同种类的风格提取网络,对应的子风格特征的数量(即格拉姆矩阵的数量)也不相同,例如:若视觉提取网络为ResNet-18(一种深度神经网络),则子风格特征的数量为六个。
步骤402,基于风格特征对视觉特征进行风格增强处理,得到待分类图像的风格增强视觉特征。
需要说明的是,当需要基于风格特征对视觉特征进行风格增强处理时,则对风格特征和视觉特征进行特征拼接,即为,对风格特征和视觉特征进行维度扩展拼接。
例如,若风格特征和视觉特征均为5维特征,即风格特征=[3,3,3,3,3],视觉特征=[4,4,4,4,4],因此,拼接后的风格增强视觉特征=[3,3,3,3,3,4,4,4,4,4]。
上述图像分类方法,通过获取待分类图像的视觉特征和风格特征,实现了根据风格特征对视觉特征进行风格增强处理,得到风格增强视觉特征,保证了当不同的图像数据具有较高的相似度时,依旧能够准确的对图像数据进行分类处理,防止对图像数据进行分类处理的过程受到干扰,提高了对图像数据进行分类处理的准确性。
在一个实施例中,可通过文本语义提取网络中的文本区域检测网络、文本解析网络和长短期记忆网络,得到待分类图像的模糊文本语义特征,具体的,基于文本语义提取网络,获取待分类图像的模糊文本语义特征的过程,如图6所示,该方法包括:
步骤601,基于文本语义提取网络中的文本区域检测网络,对待分类图像进行文本区域检测,得到待分类图像的文本区域切片。
其中,文本区域切片指的是待分类图像中带有文本信息的区域切片。
需要说明的是,待分类图像中可能存在多个文本区域切片,如图7所示,将待分类图像A输入至文本区域检测网络中,并获取文本区域检测网络的输出结果,该输出结果即为待分类图像的文本区域切片,如图7所示,待分类图像A共包含四个文本区域切片。
其中,文本区域检测网络指的是能够识别输入图像的中包含文本信息的区域,并对包含文本信息的区域进行切分处理的网络,文本区域检测网络可以包括但不限于:CRAFT文字检测网络、CRNN(一种循环卷积神经网络模型)等。
步骤602,基于文本语义提取网络中的文本解析网络,确定文本区域切片的文本特征图。
需要说明的是,当需要确定文本区域切片的文本特征图时,可将文本区域切片输入至文本解析网络中,使得文本解析网络将文本区域切片转化为大小为(w,h,c)的文本特征图,其中,w为文本特征图的宽,h分别为文本特征图的高,c为文本特征图的通道数。
进一步说明,若待分类图像的文本区域切片为多个时,则分别将每个文本区域切片输入至文本解析网络中,使得文本解析网络将每一文本区域切片转化为大小为(w,h,c)的文本特征图。
步骤603,基于文本语义提取网络中的长短期记忆网络,对文本特征图进行文本语义提取,得到待分类图像的模糊文本语义特征。
需要说明的是,当需要确定待分类图像的模糊文本语义特征时,可将文本区域切片的大小为(w,h,c)的文本特征图通过平均池化处理,转换为大小为(w,1,c)的文本特征图,其中,w为文本特征图的宽,c为文本特征图的通道数。并将该文本特征图视为一个长度为w的时间序列,表示为{X1,...,Xt,...,Xw},其中,Xt表示特征图中的第t个c维特征向量。随后将时间序列输入至长短期记忆网络,获取最终时刻的长短期记忆网络输出的记忆单元特征,该记忆单元特征即为待分类图像的模糊文本语义特征。
进一步说明,若待分类图像的文本区域切片为多个,则分别确定每一文本区域切片模糊文本语义特征,并对每一文本区域切片模糊文本语义特征进行均值运算,所得到的结果即为待分类图像的模糊文本语义特征。
在本申请的一种实施例中,当需要确定待分类图像的模糊文本语义特征时,具体可包括以下内容:如图8所示,将待分类图像输入至文本区域检测网络,得到至少一个文本区域切片,将各文本区域切片输入至文本解析网络,确定各文本区域切片的文本特征图,并将各文本区域切片的文本特征图输入至长短期记忆网络,得到长短期记忆网络输出的各文本区域切片的模糊文本语义特征,对各文本区域切片的模糊文本语义特征进行均值运算,所得到的结果即为待分类图像的模糊文本语义特征。
需要说明的是,可通过向长短期记忆网络中输入样本数据集,获取长短期记忆网络的时序输出特征Yt,进而根据时序输出特征Yt对长短期记忆网络进行分类训练,得到训练后的长短期记忆网络。
其中,样本数据集可以为文本分类数据集,进一步的,文本分类数据集可以包括但不限于:IMDB影评情感分析数据集、SMS Spam Collection垃圾短信分类数据集等。
在本申请的一种实施例中,当需要对长短期记忆网络进行训练时,可包括以下内容:如图9所示,通过文本解析网络,确定样本数据集的文本特征图;将样本数据集的文本特征图通过平均池化处理后,输入至长短期记忆网络,并获取长短期记忆网络的时序输出特征,将时序输出特征作为分类依据,对长短期记忆网络进行分类训练,得到训练后的长短期记忆网络。
上述图像分类方法,通过待分类图像的文本区域切片,进而确定文本区域切片的文本特征图,实现根据文本区域切片的文本特征图,确定待分类图像的模糊文本语义特征;由于上述过程中的模糊文本语义特征是从文本区域切片中确定的,因此,防止由于光学字符识别结果不准确,而导致无法准确获取待分类图像的重要性分类结果。保证了当需要确定待分类图像的重要性分类结果,能够根据风格增强视觉特征和模糊文本语义特征,对待分类图像进行图像重要性分类,进而,确定待分类图像的重要性分类结果。
在一个实施例中,当需要确定待分类图像的目标分类结果时,如图10所示,该方法包括如下步骤:
步骤1001,将待分类图像输入至视觉提取网络,得到各视觉提取层输出的子视觉特征;并对各视觉提取层输出的子视觉特征进行融合,得到待分类图像的视觉特征。
步骤1002,将各视觉提取层输出的子视觉特征输入至各视觉提取层对应的风格提取层,得到各视觉提取层输出的子风格特征。
步骤1003,对各视觉提取层输出的子风格特征进行融合,得到待分类图像的中间特征图。
步骤1004,对中间特征图进行特征转换,得到待分类图像的风格特征。
步骤1005,基于风格特征对视觉特征进行风格增强处理,得到待分类图像的风格增强视觉特征。
步骤1006,基于文本语义提取网络中的文本区域检测网络,对待分类图像进行文本区域检测,得到待分类图像的文本区域切片。
步骤1007,基于文本语义提取网络中的文本解析网络,确定文本区域切片的文本特征图。
步骤1008,基于文本语义提取网络中的长短期记忆网络,对文本特征图进行文本语义提取,得到待分类图像的模糊文本语义特征。
步骤1009,基于类别分类器,根据风格增强视觉特征,对待分类图像进行图像类别分类,得到待分类图像的类别分类结果。
步骤1010,基于重要性分类器,对风格增强视觉特征和模糊文本语义特征进行特征拼接处理,得到重要性分级特征;并基于重要性分级特征,对待分类图像进行图像重要性分类,得到重要性分类结果。
在本申请的一种实施例中,如图11所示,当需要确定待分类图像的目标分类结果时,可将待分类图像输入至视觉提取网络,进而根据视觉提取网络和风格提取网络,得到风格增强视觉特征;基于类别分类器,根据风格增强视觉特征,对待分类图像进行图像类别分类,得到待分类图像的类别分类结果。将待分类图像输入至文本区域检测网络,得到文本区域切片;将文本区域切片输入至文本解析网络,得到文本区域切片的文本特征图,将文本区域切片的文本特征图输入至长短期记忆网络,得到待分类图像的模糊文本语义特征,对模糊文本语义特征和风格增强视觉特征进行特征拼接,得到重要性分级特征,基于重要性分类器,根据重要性分级特征,对待分类图像进行图像重要性分类,得到重要性分类结果。
上述图像分类方法,通过获取待分类图像的风格增强视觉特征和模糊文本语义特征,进而,根据风格增强视觉特征和模糊文本语义特征,确定待分类图像的目标分类结果。由于上述过程中的风格增强视觉特征指的是经过风格特征进行风格增强处理后的视觉特性,因此,在根据风格增强视觉特征和模糊文本语义特征,确定目标分类结果的过程中,实现从整体的角度衡量图像风格,并为视觉特征提供了风格信息的补充;实现了当不同的图像数据具有较高的相似度时,依旧能够准确的对图像数据进行分类处理,防止对图像数据进行分类处理的过程受到干扰,提高了对图像数据进行分类处理的准确性。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的图像分类方法的图像分类装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个图像分类装置实施例中的具体限定可以参见上文中对于图像分类方法的限定,在此不再赘述。
在一个实施例中,如图12所示,提供了一种图像分类装置,包括:第一获取模块10、第二获取模块20和分类模块30,其中:
第一获取模块10,用于基于特征提取网络,获取待分类图像的风格增强视觉特征。
第二获取模块20,用于基于文本语义提取网络,获取待分类图像的模糊文本语义特征。
分类模块30,用于基于目标分类器,根据风格增强视觉特征和模糊文本语义特征,对待分类图像进行分类处理,得到待分类图像的目标分类结果。
上述图像分类装置,通过获取待分类图像的风格增强视觉特征和模糊文本语义特征,进而,根据风格增强视觉特征和模糊文本语义特征,确定待分类图像的目标分类结果。由于上述过程中的风格增强视觉特征指的是经过风格特征进行风格增强处理后的视觉特性,因此,在根据风格增强视觉特征和模糊文本语义特征,确定目标分类结果的过程中,实现从整体的角度衡量图像风格,并为视觉特征提供了风格信息的补充;实现了当不同的图像数据具有较高的相似度时,依旧能够准确的对图像数据进行分类处理,防止对图像数据进行分类处理的过程受到干扰,提高了对图像数据进行分类处理的准确性。
在一个实施例中,如图13所示,提供了一种图像分类装置,该图像分类装置中分类模块30包括:第一分类单元31和第二分类单元32,其中:
第一分类单元31,用于基于类别分类器,根据风格增强视觉特征,对待分类图像进行图像类别分类,得到待分类图像的类别分类结果。
第二分类单元32,用于基于重要性分类器,根据风格增强视觉特征和模糊文本语义特征,对待分类图像进行图像重要性分类,得到待分类图像的重要性分类结果。
第二分类单元具体用于:基于重要性分类器,对风格增强视觉特征和模糊文本语义特征进行特征拼接处理,得到重要性分级特征;并基于重要性分级特征,对待分类图像进行图像重要性分类,得到重要性分类结果。
在一个实施例中,如图14所示,提供了一种图像分类装置,该图像分类装置中第一获取模块10包括:获取单元11和处理单元12,其中:
获取单元11,用于基于特征提取网络,获取待分类图像的视觉特征和风格特征。
处理单元12,用于基于风格特征对视觉特征进行风格增强处理,得到待分类图像的风格增强视觉特征。
在一个实施例中,如图15所示,提供了一种图像分类装置,该图像分类装置中获取单元11包括:第一提取子单元111和第二提取子单元112,其中:
第一提取子单元111,用于将待分类图像输入至视觉提取网络,得到各视觉提取层输出的子视觉特征;并对各视觉提取层输出的子视觉特征进行融合,得到待分类图像的视觉特征。
第二提取子单元112,用于将各视觉提取层输出的子视觉特征输入至各视觉提取层对应的风格提取层,得到各视觉提取层输出的子风格特征,并对各视觉提取层输出的子风格特征进行融合,得到待分类图像的风格特征。
第二提取子单元具体用于:对各视觉提取层输出的子风格特征进行融合,得到待分类图像的中间特征图;对中间特征图进行特征转换,得到待分类图像的风格特征。
在一个实施例中,如图16所示,提供了一种图像分类装置,该图像分类装置中第二获取模块20包括:检测单元21、解析单元22和提取单元23,其中:
检测单元21,用于基于文本语义提取网络中的文本区域检测网络,对待分类图像进行文本区域检测,得到待分类图像的文本区域切片。
解析单元22,用于基于文本语义提取网络中的文本解析网络,确定文本区域切片的文本特征图。
提取单元23,用于基于文本语义提取网络中的长短期记忆网络,对文本特征图进行文本语义提取,得到待分类图像的模糊文本语义特征。
上述图像分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图17所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种图像分类方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图17中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
基于特征提取网络,获取待分类图像的风格增强视觉特征;
基于文本语义提取网络,获取待分类图像的模糊文本语义特征;
基于目标分类器,根据风格增强视觉特征和模糊文本语义特征,对待分类图像进行分类处理,得到待分类图像的目标分类结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
基于类别分类器,根据风格增强视觉特征,对待分类图像进行图像类别分类,得到待分类图像的类别分类结果;
基于重要性分类器,根据风格增强视觉特征和模糊文本语义特征,对待分类图像进行图像重要性分类,得到待分类图像的重要性分类结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
基于重要性分类器,对风格增强视觉特征和模糊文本语义特征进行特征拼接处理,得到重要性分级特征;并基于重要性分级特征,对待分类图像进行图像重要性分类,得到重要性分类结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
基于特征提取网络,获取待分类图像的视觉特征和风格特征;
基于风格特征对视觉特征进行风格增强处理,得到待分类图像的风格增强视觉特征。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将待分类图像输入至视觉提取网络,得到各视觉提取层输出的子视觉特征;并对各视觉提取层输出的子视觉特征进行融合,得到待分类图像的视觉特征;
将各视觉提取层输出的子视觉特征输入至各视觉提取层对应的风格提取层,得到各视觉提取层输出的子风格特征,并对各视觉提取层输出的子风格特征进行融合,得到待分类图像的风格特征。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
对各视觉提取层输出的子风格特征进行融合,得到待分类图像的中间特征图;
对中间特征图进行特征转换,得到待分类图像的风格特征。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
基于文本语义提取网络中的文本区域检测网络,对待分类图像进行文本区域检测,得到待分类图像的文本区域切片;
基于文本语义提取网络中的文本解析网络,确定文本区域切片的文本特征图;
基于文本语义提取网络中的长短期记忆网络,对文本特征图进行文本语义提取,得到待分类图像的模糊文本语义特征。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
基于特征提取网络,获取待分类图像的风格增强视觉特征;
基于文本语义提取网络,获取待分类图像的模糊文本语义特征;
基于目标分类器,根据风格增强视觉特征和模糊文本语义特征,对待分类图像进行分类处理,得到待分类图像的目标分类结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
基于类别分类器,根据风格增强视觉特征,对待分类图像进行图像类别分类,得到待分类图像的类别分类结果;
基于重要性分类器,根据风格增强视觉特征和模糊文本语义特征,对待分类图像进行图像重要性分类,得到待分类图像的重要性分类结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
基于重要性分类器,对风格增强视觉特征和模糊文本语义特征进行特征拼接处理,得到重要性分级特征;并基于重要性分级特征,对待分类图像进行图像重要性分类,得到重要性分类结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
基于特征提取网络,获取待分类图像的视觉特征和风格特征;
基于风格特征对视觉特征进行风格增强处理,得到待分类图像的风格增强视觉特征。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将待分类图像输入至视觉提取网络,得到各视觉提取层输出的子视觉特征;并对各视觉提取层输出的子视觉特征进行融合,得到待分类图像的视觉特征;
将各视觉提取层输出的子视觉特征输入至各视觉提取层对应的风格提取层,得到各视觉提取层输出的子风格特征,并对各视觉提取层输出的子风格特征进行融合,得到待分类图像的风格特征。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对各视觉提取层输出的子风格特征进行融合,得到待分类图像的中间特征图;
对中间特征图进行特征转换,得到待分类图像的风格特征。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
基于文本语义提取网络中的文本区域检测网络,对待分类图像进行文本区域检测,得到待分类图像的文本区域切片;
基于文本语义提取网络中的文本解析网络,确定文本区域切片的文本特征图;
基于文本语义提取网络中的长短期记忆网络,对文本特征图进行文本语义提取,得到待分类图像的模糊文本语义特征。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
基于特征提取网络,获取待分类图像的风格增强视觉特征;
基于文本语义提取网络,获取待分类图像的模糊文本语义特征;
基于目标分类器,根据风格增强视觉特征和模糊文本语义特征,对待分类图像进行分类处理,得到待分类图像的目标分类结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
基于类别分类器,根据风格增强视觉特征,对待分类图像进行图像类别分类,得到待分类图像的类别分类结果;
基于重要性分类器,根据风格增强视觉特征和模糊文本语义特征,对待分类图像进行图像重要性分类,得到待分类图像的重要性分类结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
基于重要性分类器,对风格增强视觉特征和模糊文本语义特征进行特征拼接处理,得到重要性分级特征;并基于重要性分级特征,对待分类图像进行图像重要性分类,得到重要性分类结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
基于特征提取网络,获取待分类图像的视觉特征和风格特征;
基于风格特征对视觉特征进行风格增强处理,得到待分类图像的风格增强视觉特征。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将待分类图像输入至视觉提取网络,得到各视觉提取层输出的子视觉特征;并对各视觉提取层输出的子视觉特征进行融合,得到待分类图像的视觉特征;
将各视觉提取层输出的子视觉特征输入至各视觉提取层对应的风格提取层,得到各视觉提取层输出的子风格特征,并对各视觉提取层输出的子风格特征进行融合,得到待分类图像的风格特征。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对各视觉提取层输出的子风格特征进行融合,得到待分类图像的中间特征图;
对中间特征图进行特征转换,得到待分类图像的风格特征。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
基于文本语义提取网络中的文本区域检测网络,对待分类图像进行文本区域检测,得到待分类图像的文本区域切片;
基于文本语义提取网络中的文本解析网络,确定文本区域切片的文本特征图;
基于文本语义提取网络中的长短期记忆网络,对文本特征图进行文本语义提取,得到待分类图像的模糊文本语义特征。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分类的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (11)
1.一种图像分类方法,其特征在于,所述方法包括:
基于特征提取网络,获取待分类图像的风格增强视觉特征;
基于文本语义提取网络,获取待分类图像的模糊文本语义特征;
基于目标分类器,根据所述风格增强视觉特征和所述模糊文本语义特征,对所述待分类图像进行分类处理,得到所述待分类图像的目标分类结果。
2.根据权利要求1所述的方法,其特征在于,所述目标分类结果包括类别分类结果和重要性分类结果,所述目标分类器包括类别分类器和重要性分类器;
相应的,基于目标分类器,根据所述风格增强视觉特征和所述模糊文本语义特征,对所述待分类图像进行分类处理,得到所述待分类图像的目标分类结果,包括:
基于所述类别分类器,根据所述风格增强视觉特征,对所述待分类图像进行图像类别分类,得到待分类图像的所述类别分类结果;
基于所述重要性分类器,根据所述风格增强视觉特征和所述模糊文本语义特征,对所述待分类图像进行图像重要性分类,得到待分类图像的所述重要性分类结果。
3.根据权利要求2所述的方法,其特征在于,所述基于所述重要性分类器,对所述风格增强视觉特征和所述模糊文本语义特征进行图像重要性分类,得到待分类图像的所述重要性分类结果,包括:
基于所述重要性分类器,对所述风格增强视觉特征和所述模糊文本语义特征进行特征拼接处理,得到重要性分级特征;并基于所述重要性分级特征,对所述待分类图像进行图像重要性分类,得到所述重要性分类结果。
4.根据权利要求1所述的方法,其特征在于,所述基于特征提取网络,获取待分类图像的风格增强视觉特征,包括:
基于特征提取网络,获取待分类图像的视觉特征和风格特征;
基于所述风格特征对所述视觉特征进行风格增强处理,得到所述待分类图像的风格增强视觉特征。
5.根据权利要求4所述的方法,其特征在于,所述特征提取网络包括视觉提取网络和风格提取网络;所述视觉提取网络的视觉提取层与风格提取网络的风格提取层的数量相同,且一一对应;
相应的,所述基于特征提取网络,获取待分类图像的视觉特征和风格特征,包括:
将所述待分类图像输入至所述视觉提取网络,得到各视觉提取层输出的子视觉特征;并对各视觉提取层输出的子视觉特征进行融合,得到待分类图像的视觉特征;
将各视觉提取层输出的子视觉特征输入至各视觉提取层对应的风格提取层,得到各视觉提取层输出的子风格特征,并对各视觉提取层输出的子风格特征进行融合,得到所述待分类图像的风格特征。
6.根据权利要求5所述的方法,其特征在于,所述对各视觉提取层输出的子风格特征进行融合,得到所述待分类图像的风格特征,包括:
对各视觉提取层输出的子风格特征进行融合,得到所述待分类图像的中间特征图;
对所述中间特征图进行特征转换,得到待分类图像的风格特征。
7.根据权利要求1所述的方法,其特征在于,所述基于文本语义提取网络,获取待分类图像的模糊文本语义特征,包括:
基于文本语义提取网络中的文本区域检测网络,对所述待分类图像进行文本区域检测,得到所述待分类图像的文本区域切片;
基于文本语义提取网络中的文本解析网络,确定所述文本区域切片的文本特征图;
基于文本语义提取网络中的长短期记忆网络,对所述文本特征图进行文本语义提取,得到所述待分类图像的模糊文本语义特征。
8.一种图像分类装置,其特征在于,所述装置包括:
第一获取模块,用于基于特征提取网络,获取待分类图像的风格增强视觉特征;
第二获取模块,用于基于文本语义提取网络,获取待分类图像的模糊文本语义特征;
分类模块,用于基于目标分类器,根据所述风格增强视觉特征和所述模糊文本语义特征,对所述待分类图像进行分类处理,得到所述待分类图像的目标分类结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
11.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310836359.1A CN116894974A (zh) | 2023-07-07 | 2023-07-07 | 图像分类方法、装置、计算机设备及其存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310836359.1A CN116894974A (zh) | 2023-07-07 | 2023-07-07 | 图像分类方法、装置、计算机设备及其存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116894974A true CN116894974A (zh) | 2023-10-17 |
Family
ID=88310255
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310836359.1A Pending CN116894974A (zh) | 2023-07-07 | 2023-07-07 | 图像分类方法、装置、计算机设备及其存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116894974A (zh) |
-
2023
- 2023-07-07 CN CN202310836359.1A patent/CN116894974A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112396002A (zh) | 一种基于SE-YOLOv3的轻量级遥感目标检测方法 | |
CN111104962A (zh) | 图像的语义分割方法、装置、电子设备及可读存储介质 | |
CN111368636B (zh) | 目标分类方法、装置、计算机设备和存储介质 | |
US11983903B2 (en) | Processing images using self-attention based neural networks | |
CN111582409A (zh) | 图像标签分类网络的训练方法、图像标签分类方法及设备 | |
CN116580257A (zh) | 特征融合模型训练及样本检索方法、装置和计算机设备 | |
Zhao et al. | A novel two-stage scene classification model based on feature variable significance in high-resolution remote sensing | |
CN115952346A (zh) | 利用稀疏特征编码的推荐系统 | |
CN116310308A (zh) | 图像分割方法、装置、计算机设备和存储介质 | |
CN116894974A (zh) | 图像分类方法、装置、计算机设备及其存储介质 | |
CN116452702B (zh) | 信息图表快速设计方法、装置、计算机设备和存储介质 | |
Ahmed et al. | A CNN-based novel approach for the detection of compound Bangla handwritten characters | |
CN114898339B (zh) | 驾驶行为预测模型的训练方法、装置、设备、存储介质 | |
CN117938951B (zh) | 信息推送方法、装置、计算机设备和存储介质 | |
CN116204422A (zh) | 问题分类模型的训练方法、装置、计算机设备和存储介质 | |
CN116030301A (zh) | 图像内容分类方法、装置、设备、介质和产品 | |
Wang et al. | Visualize and compress single logo recognition neural network | |
CN115661465A (zh) | 图像的多标签分割方法、装置、计算机设备及存储介质 | |
CN118038457A (zh) | 一种图像文本的生成方法、计算设备及存储介质 | |
CN117197827A (zh) | 票据信息识别方法、装置、计算机设备和存储介质 | |
Liang et al. | Saliency aggregation: multifeature and neighbor based salient region detection for social images | |
CN116932761A (zh) | 文本数据标注模型的构建方法、装置和计算机设备 | |
CN117152428A (zh) | 模型训练方法、装置、计算机设备及计算机可读存储介质 | |
CN112131416A (zh) | 一种基于大数据下的视频图像智能搜索方法及系统 | |
CN116994085A (zh) | 图像样本筛选方法、模型训练方法、装置和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |