CN113140012B - 图像处理方法、装置、介质及电子设备 - Google Patents
图像处理方法、装置、介质及电子设备 Download PDFInfo
- Publication number
- CN113140012B CN113140012B CN202110530208.4A CN202110530208A CN113140012B CN 113140012 B CN113140012 B CN 113140012B CN 202110530208 A CN202110530208 A CN 202110530208A CN 113140012 B CN113140012 B CN 113140012B
- Authority
- CN
- China
- Prior art keywords
- image
- model
- sub
- training
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 9
- 238000012549 training Methods 0.000 claims abstract description 260
- 238000012545 processing Methods 0.000 claims abstract description 194
- 238000000034 method Methods 0.000 claims abstract description 57
- 230000008569 process Effects 0.000 claims abstract description 26
- 238000010586 diagram Methods 0.000 claims abstract description 16
- 238000013508 migration Methods 0.000 claims description 64
- 230000005012 migration Effects 0.000 claims description 64
- 238000013145 classification model Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 16
- 238000002372 labelling Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 description 8
- 241001465754 Metazoa Species 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本公开涉及一种图像处理方法、装置、介质及电子设备,所述方法包括:接收待处理图像;根据图像编码模型对待处理图像进行编码,获得待处理图像对应的目标特征图;基于目标特征图对待处理图像进行识别;图像编码模型为图像处理模型的子模型中的任一者,图像处理模型的子模型包括处理子模型和多个图像子模型,每一图像子模型对应于不同的图像分类,图像处理模型通过多个图像子模型和处理子模型联合训练获得,在图像处理模型的训练过程中,每一图像子模型中用于确定分类特征图的模型参数和处理子模型中用于确定训练特征图的模型参数相同。由此,可以获得该待处理图像更准确、更全面的特征,为后续进行图像处理提供有效的数据支持。
Description
技术领域
本公开涉及图像处理领域,具体地,涉及一种图像处理方法、装置、介质及电子设备。
背景技术
随着计算机技术的发展,用户对图像识别的需要也越来越多。例如新闻类文章中通常会包含对应的配图,而贴合用户的使用需求,在不同类型的新闻中通常需要不同形式的配图,例如在重大新闻中一般表情包图像相对较少,从而保证该新闻的严肃性,而在娱乐新闻中则可以添加较多表情包图像以增加趣味性。又如为了提高图像识别的精度,不仅需要对动物进行区分,可能还需要对动物品种进行区分。在上述应用场景中,需要区分的图像之间是相近的,现有技术中通常需要是直接通过对多种分类的图像进行标注,以基于该图像训练一个图像识别模型,然而由于不同类的图像之间的差异较小,通过上述过程难以学习到图像中的有效特征,导致图像识别的准确性不足。
发明内容
提供该发明内容部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
第一方面,本公开提供一种图像处理方法,所述方法包括:
接收待处理图像;
根据图像编码模型对所述待处理图像进行编码,获得所述待处理图像对应的目标特征图;
基于所述目标特征图对所述待处理图像进行识别;
其中,所述图像编码模型为图像处理模型的子模型中的任一者,所述图像处理模型的子模型包括处理子模型和多个图像子模型,每一所述图像子模型对应于不同的图像分类,所述图像处理模型通过所述多个图像子模型和所述处理子模型联合训练获得,在所述图像处理模型的训练过程中,每一所述图像子模型中用于确定分类特征图的模型参数和所述处理子模型中用于确定训练特征图的模型参数相同。
可选地,所述图像编码模型通过如下方式获得:
获取训练样本集,以及与每一所述图像子模型的图像分类对应的分类图像集,其中,所述训练样本集中的每一训练样本包括训练图像、所述训练图像的标注分类;
将所述训练图像输入所述处理子模型,以及针对每一所述图像子模型,从该图像子模型对应的分类图像集中获取一分类图像,并将该分类图像输入该图像子模型;
基于所述处理子模型输出的训练特征图和每一所述图像子模型输出的分类特征图,对所述图像处理模型进行训练;
在所述图像处理模型训练完成后,将所述图像处理模型的子模型中的任一者确定为所述图像编码模型。
可选地,所述基于所述处理子模型输出的训练特征图和每一所述图像子模型输出的分类特征图,对所述图像处理模型进行训练,包括:
确定所述训练特征图与每一所述分类特征图之间的相似度,并将确定出的与所述训练特征图最相似的分类特征图对应的图像分类确定为所述训练图像的训练分类;
基于所述训练分类与所述训练图像的标注分类确定目标损失;
在未满足训练停止条件的情况下,基于所述目标损失对所述处理子模型的模型参数进行调整;
将每一所述图像子模型的模型参数更新为调整后的所述处理子模型的模型参数,并重新返回执行所述将所述训练图像输入所述处理子模型,以及针对每一所述图像子模型,从该图像子模型对应的分类图像集中获取一分类图像,并将该分类图像输入该图像子模型的步骤,直至满足所述训练停止条件。
可选地,所述多个图像子模型包括第一图像子模型和第二图像子模型,所述第一图像子模型对应的图像分类为表情包类型,所述第二图像子模型对应的图像分类为非表情包类型;
所述基于所述目标特征图对所述待处理图像进行识别包括:
基于训练后的第一图像子模型,获得表情包图像对应的第一特征图;
基于训练后的第二图像子模型,获得非表情包图像对应的第二特征图;
根据所述目标特征图、所述第一特征图和所述第二特征图确定所述待处理图像对应的识别结果,其中,所述识别结果用于指示所述待处理图像是否为表情包类型的图像。
可选地,所述图像编码模型的输出与全连接层的输入耦合,以形成图像分类模型,所述图像分类模型通过以下方式训练获得:
获取迁移训练样本集,其中,所述迁移训练样本集中的每一所述迁移训练样本包含迁移训练图像以及所述迁移训练图像对应的标注结果;
通过所述图像编码模型对所述迁移训练图像进行编码,获得迁移特征图;
将所述迁移特征图输入所述全连接层,获得训练结果;
基于所述训练结果和所述标注结果之间的差异对所述全连接层的参数进行调整,以对所述图像分类模型进行迁移训练。
可选地,所述图像编码模型基于残差网络实现。
第二方面,本公开提供一种图像处理装置,所述装置包括:
接收模块,用于接收待处理图像;
第一编码模块,用于根据图像编码模型对所述待处理图像进行编码,获得所述待处理图像对应的目标特征图;
识别模块,用于基于所述目标特征图对所述待处理图像进行识别;
其中,所述图像编码模型为图像处理模型的子模型中的任一者,所述图像处理模型的子模型包括处理子模型和多个图像子模型,每一所述图像子模型对应于不同的图像分类,所述图像处理模型通过所述多个图像子模型和所述处理子模型联合训练获得,在所述图像处理模型的训练过程中,每一所述图像子模型中用于确定分类特征图的模型参数和所述处理子模型中用于确定训练特征图的模型参数相同。
第三方面,本公开提供一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现第一方面所述方法的步骤。
第四方面,本公开提供一种电子设备,包括:
存储装置,其上存储有计算机程序;
处理装置,用于执行所述存储装置中的所述计算机程序,以实现第一方面所述方法的步骤。
通过上述技术方案,可以基于图像编码模型对待处理图像进行准确编码,从而可以获得该待处理图像更准确、更全面的特征,为后续进行图像处理提供有效的数据支持。并且,在本公开实施例中,可以同时基于多个图像子模型和处理子模型进行联合训练以获得该图像编码模型,从而可以进一步保证该图像编码模型的准确性,以提高提取出的目标特征图中的图像特征的有效性,提高该图像编码模型的适用范围和可扩展性,提升用户使用体验。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。在附图中:
图1是根据本公开的一种实施方式提供的图像处理方法的流程图;
图2是根据本公开的一种实施方式提供的图像处理模型的结构示意图;
图3是根据本公开的一种实施方式提供的表情包识别模型的结构示意图;
图4是根据本公开的一种实施方式提供的图像分类模型的结构示意图;
图5是根据本公开的一种实施方式提供的图像处理装置的框图;
图6示出了适于用来实现本公开实施例的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
图1所示,为根据本公开的一种实施方式提供的图像处理方法的流程图,如图1所示,所述方法可以包括:
在步骤11中,接收待处理图像,该待处理图像即为需要进行图像识别、或者图像检测、或者图像分类的图像,相应地,对该待处理图像的处理可以是图像识别、检测或者分类等,可以根据具体的使用需求确定。
在步骤12中,根据图像编码模型对待处理图像进行编码,获得待处理图像对应的目标特征图。其中,所述目标特征图用于对待处理图像进行分类或识别等。示例地,该目标特征图可以是向量的表征形式,也可以是Feature Map的表征形式,以用于表示该待处理图像的特征,本公开对此不进行限定。由此,通过上述方式可以将待处理图像转化为特征的表现形式,以便于对待处理图像的后续处理。
其中,在本公开实施例中,所述图像编码模型为图像处理模型的子模型中的任一者,所述图像处理模型的子模型包括处理子模型和多个图像子模型,每一所述图像子模型对应于不同的图像分类,所述图像处理模型通过所述多个图像子模型和所述处理子模型联合训练获得,在所述图像处理模型的训练过程中,每一所述图像子模型中用于确定分类特征图的模型参数和所述处理子模型中用于确定训练特征图的模型参数相同。
在一种可能的实施例中,所述图像编码模型可以基于残差网络实现(ResNet),即图像处理模型中的处理子模型和图像子模型可以基于残差网络实现。在残差网络中可以引入跳跃连接,从而可以使得上一个残差块的信息没有阻碍的流入到下一个残差块,从而提高了信息流通,同时也可以避免了由于网络过深所引起的消失梯度问题和退化问题。在本公开实施例中,该残差网络对应的特征图的维度和残差网络的层数可以根据实际使用场景进行设置,本公开对此不进行限定。
如背景技术中所述,现有技术中在进行图像分类或识别时,通常会基于标注好的多个分类下的图像训练一个深度卷积网络,从而获得图像识别模型。但是在多分类下的图像中的差异可能较少的场景下,该深度卷积网络直接进行分类判定时难以学习到多分类下图像的有效特征,导致模型输出结果的准确性较低。
如图2所示,为该图像处理模型的结构示意图。示例地,该图像处理模型可以是用于识别某一动物A的不同品种的模型。如图2所示,该图像处理模型可以包含n个图像子模型,每一所述图像子模型对应于不同的图像分类,如分别对应于n个品种。作为示例,图像子模型A1对应的图像分类可以为动物A的品种1,图像子模型A2对应的图像分类可以为动物A的品种2,图像子模型An对应的图像分类可以为动物A的品种n。处理子模型用于接收训练样本集中的训练样本并进行处理。
在该图像处理模型的训练过程中,通过对应于每一品种分类的图像子模型和该处理子模型进行联合训练,示例地,该多个图像子模型和所述处理子模型可以进行并行联合训练。在该实施例中,在所述图像处理模型的训练过程中,每一所述图像子模型中用于确定分类特征图的模型参数和所述处理子模型中用于确定训练特征图的模型参数相同,由此既可以对每一图像子模型和处理子模型中的图像进行同时处理,又可以保证以同样的方式进行图像特征提取,从而可以保证特征提取的一致性,进而保证后续进行特征对比以获得处理结果的准确性,可以有效避免如现有技术中通过单一处理模型进行训练所导致的有效特征提取不准确的问题。
在步骤13中,基于目标特征图对待处理图像进行识别。由上文所述,该目标特征图可以对待处理图像中的特征进行全面且准确的描述,从而直接基于该目标特征图进行图像处理,提高图像识别结果的准确性。
由此,通过上述技术方案,可以基于图像编码模型对待处理图像进行准确编码,从而可以获得该待处理图像更准确、更全面的特征,为后续进行图像处理提供有效的数据支持。并且,在本公开实施例中,可以同时基于多个图像子模型和处理子模型进行联合训练以获得该图像编码模型,从而可以进一步保证该图像编码模型的准确性,以提高提取出的目标特征图中的图像特征的有效性,提高该图像编码模型的适用范围和可扩展性,提升用户使用体验。
为了使本领域技术人员更加理解本公开实施例提供的技术方案,下面对上述步骤进行详细的说明。
在一种可能的实施例中,所述图像编码模型可以通过如下方式获得:
获取训练样本集,以及与每一所述图像子模型的图像分类对应的分类图像集,其中,所述训练样本集中的每一训练样本包括训练图像、所述训练图像的标注分类,与每一所述图像子模型的图像分类对应的分类图像集中则包含该图像分类下的分类图像。
示例地,如图2所述示例,可以获取训练样本集,在该训练样本集中的训练样本中可以包含标注了品种1、品种2以及品种n等的不同的训练图像,并且,可以获得品种1、品种2以及品种n等分别对应的分类图像集C1、C2、Cn等。在品种1对应的分类图像集C1中均为该品种1对应的分类图像。
将所述训练图像输入所述处理子模型,以及针对每一所述图像子模型,从该图像子模型对应的分类图像集中获取一分类图像,并将该分类图像输入该图像子模型。
示例地,可以从训练样本集p中获取一训练图像输入处理子模型P,从分类图像集C1中获取一分类图像输入图像子模型A1,从分类图像集C2中获取一分类图像输入图像子模型A2,从分类图像集Cn中获取一分类图像输入图像子模型An,从而可以获得该处理子模型和每一图像子模型分别输出的特征图。
之后,基于所述处理子模型输出的训练特征图和每一所述图像子模型输出的分类特征图,对所述图像处理模型进行训练,并在所述图像处理模型训练完成后,将所述图像处理模型的子模型中的任一者确定为所述图像编码模型,即可以从该处理子模型和图像子模型中的选择一者作为图像编码模型。
因此,通过上述技术方案,在对图像处理模型进行训练的过程中,通过提取每种图像分类下的特征和训练图像的特征进行模型训练,一方面可以保证训练过程中图像提取的一致性,另一方面,基于分类图像和训练图像的特征图进行训练,从而可以进一步保证该图像处理结果的准确性,以进一步提高基于该图像处理结果进行参数调整的处理模型的准确性。另外,可以在每一次学习训练的过程中学习到更多的有效特征,从而可以在一定程度上降低训练所需的次数,提高训练的效率。
在一种可能的实施例中,基于所述处理子模型输出的训练特征图和每一所述图像子模型输出的分类特征图,对所述图像处理模型进行训练的示例性实现方式如下,该步骤可以包括:
确定训练特征图与每一分类特征图之间的相似度,并将确定出的与训练特征图最相似的分类特征图对应的图像分类确定为训练图像的训练分类。
作为示例,确定训练特征图和分类特征图之间的相似度可以是确定两者之间的距离,相应地确定出的与训练特征图最相似的分类特征图为与该训练特征图之间的距离最小的分类特征图。
作为示例,确定训练特征图和分类特征图之间的相似度可以是确定两者之间的余弦值,相应地确定出的与训练特征图最相似的分类特征图为与该训练特征图之间的余弦值最大的分类特征图。
其中,确定向量之间的距离和余弦值的方式为本领域中的公知算法,在此不再赘述。
因此,在本公开实施例中在确定训练图像的预测分类时,是通过训练图像的特征图与已知分类的每一分类图像的特征图之间的相似度进行确定的,并且在本公开实施例中,在基于不同的子模型对输入的图像进行图像特征提取时对应的模型参数是相同的,因此可以基于特征图对比的方式实现对相近图像之间的准确区分,与现有技术基于单一特征图进行预测相比,本公开实施例可以提高图像识别的准确性。
基于训练分类与训练图像的标注分类确定目标损失;
在未满足训练停止条件的情况下,基于目标损失对处理子模型的模型参数进行调整。其中,可以采用本领域中通用的损失函数进行计算以确定该目标损失,本公开对此不进行限定。
作为示例,该训练停止条件可以是训练的次数达到预设次数,该预设次数可以根据实际使用场景进行设置,在训练的次数达到预设次数时可以确定训练次数足够多,该图像处理模型可以学习到足够的有效特征。
作为另一示例,该训练停止条件可以是目标损失小于预设阈值,该预设阈值可以根据实际使用场景进行设置。在目标损失小于该预设阈值的情况下,可以认为该图像处理模型的准确率满足要求,能够对多分类下的图像进行准确分类。
需要进行说明的是,图像处理模型中包含多个图像子模型和该处理子模型,在本公实施例中,为了保证图像特征编码的统一性,在基于目标损失进行梯度反向传播的过程中,只对该处理子模型中的模型参数进行调整,图像子模型中的模型参数不因该梯度反向传播而变化。
之后,将每一图像子模型的模型参数更新为调整后的处理子模型的模型参数,并重新返回执行所述将所述训练图像输入所述处理子模型,以及针对每一所述图像子模型,从该图像子模型对应的分类图像集中获取一分类图像,并将该分类图像输入该图像子模型的步骤,直至满足所述训练停止条件。
如上文所述,在梯度反向传播的过程中只对处理子模型中的模型参数进行了模型参数更新,同时为了保证图像子模型与处理子模型中进行图像特征编码的一致性,可以将该每一图像子模型中的模型参数同步成与该处理子模型调整后的模型参数相同的参数值,从而可以保证后续训练过程中基于新的训练图像进行训练的过程中,可以采用同样的编码方式对图像特征进行提取并表征,从而可以提高图像处理模型的输出结果的准确性,同时可以提高图像处理模型的训练效率。
示例地,在将每一图像子模型的模型参数更新为调整后的处理子模型的模型参数后,则重新返回执行所述将所述训练图像输入所述处理子模型,以及针对每一所述图像子模型,从该图像子模型对应的分类图像集中获取一分类图像,并将该分类图像输入该图像子模型的步骤及其之后的步骤,至直至满足所述训练停止条件,确定训练完成。在该图像处理模型训练完成后,则可以从该图像处理模型的图像子模型和处理子模型中任选一者作为该图像编码模型,以实现对输入的图像进行特征编码,从而获得准确且全面的图像特征。
由此,通过上述技术方案,在待处理图像之间的差异特征较小时,为了避免通过单一特征图进行预测的结果的不准确性,本公开中通过将训练子模型和每一图像分类对应的图像子模型进行联合训练,并且通过训练子模型中训练图像的特征图与每一图像分类下的分类图像的特征图进行相似度计算,从而可以提高图像处理模型输出结果的准确度,在一定程度上保证基于该输出结果进行梯度反向传播时对训练子模型中的模型参数调整的准确性,使得该图像处理模型的训练过程中,该训练子模型中可以学习到更准确更全面的用于区分差异的有效特征,进而提高图像编码模型的准确性和适应性,并且使得该图像编码模型便于扩展,进一步提升用户使用体验。
在具体的应用场景中,如新闻报道场景中需要对表情包类型的图像和非表情包类型的图像进行准确区分,从而对新闻报道中的表情包类型的图像进行准确监控。而表情包类型的图像和非表情包类型的图像其对应的底片之间可能会比较相似,甚至为同一张底片,因此,基于现有技术中的图像识别模型难以对表情包类型的图像进行识别分类,从而可能出现新闻类应用程序或网页中出现过多表情包类型的图像,导致用户对该新闻真实性的怀疑,不便于用户使用。而若通过人工对表情包类型的图像进行检测,则需要极大的人工工作量。
基于此,本公开还提供以下实施例。在一种可能的实施例中,所述图像处理模型为表情包识别模型,所述多个图像子模型包括第一图像子模型和第二图像子模型,相应地,如图3所示,所述表情包识别模型30则可以包括第一图像子模型31、第二图像子模型32和所述图像编码模型33,所述第一图像子模型对应的图像分类为表情包类型,所述第二图像子模型对应的图像分类为非表情包类型,在步骤13中基于目标特征图对待处理图像进行识别的示例性实现方式如下,该步骤可以包括:
基于训练后的第一图像子模型,获得表情包图像对应的第一特征图;
基于训练后的第二图像子模型,获得非表情包图像对应的第二特征图。
其中,可以将表情包图像输入该第一图像子模型,该第一图像子模型已经训练完成,则可以基于该第一图像子模型对该表情包图像进行编码处理,从而获得表情包图像对应的第一特征图。相应地,非表情包图像对应的第二特征图可以采用同样的方式获得。
在一种可能的实施例中,可以对表情包图像和非表情包图像进行预处理并进行预先存储,例如可以预先从网站或者社交应用程序中获取大量的表情包图像存储为第一图像集,并获得大量的非表情包图像存储为第二图像集,从而在进行表情包识别时,可以直接从相应的图像集中直接读取表情包图像和非表情包图像,提高图像处理的效率。
示例地,可以在根据图像编码模型对所述待处理图像进行编码的同时,将基于训练后的第一图像子模型对表情包图像进行处理,基于训练后的第二图像子模型对非表情包图像进行处理,从而则可以提高获得目标特征图、第一特征图和第二特征图的效率。
之后,可以根据所述目标特征图、所述第一特征图和所述第二特征图确定所述待处理图像对应的识别结果,其中,所述识别结果用于指示所述待处理图像是否为表情包类型的图像。
示例地,可以计算目标特征图与第一特征之间的第一相似度,以及目标特征图与第二特征图之间的第二相似度,从而基于第一相似度和第二相似度确定待处理图像对应的识别结果。其中,第一相似度和第二相似度的计算方式相同,可以采用上文所述的计算方式,在此不再赘述。
在本公开实施例中,若根据第一相似度和第二相似度确定出与该目标特征图最相似的特征图为该第一特征图,则可以将第一特征图对应的图像分类确定为待处理图像对应的识别结果,即该待处理图像对应的识别结果为表情包类型。
由此,通过上述技术方案,针对图像差异较小的表情包图像和非表情包图像可以通过本公开所提供的表情包识别模型进行准确识别,从而可以对新闻文章、社交文章中的表情包类型的图像进行准确检测,便于根据具体的使用情况对文章中的表情包类型的图像进行检测和监控,既可以便于规范文章书写者的文章书写规范的检测,又可以避免与应用场景不符的文章公开给用户带来的波动,为用户提供合适、准确的文章提供数据支持,进一步提升用户使用体验。
在一种可能的实施例中,如图4所示,所述图像编码模型41的输出与全连接层42的输入耦合,以形成图像分类模型40,其中该全连接层42可以为一层或多层,本公开对此不进行限定。相应地,所述图像分类模型可以通过以下方式训练获得:
获取迁移训练样本集,其中,所述迁移训练样本集中的每一所述迁移训练样本包含迁移训练图像以及所述迁移训练图像对应的标注结果。
其中,该迁移训练图像可以是在某一场景下需要分类或识别的图像,例如,该迁移训练图像可以是动画图和真实图,如该真实图为对实物进行拍摄所得的图像,动画图可以是用户进行绘画所得的图像或者基于图像转手绘的应用程序进行转化所得的图像。
又如,该迁移训练图像可以是包含文字的图像和未包含文字的图像,从而可以对图像是是否包含文字进行识别,从而可以用于辅助OCR(Optical Character Recognition,光学字符识别),例如可以先通过进行迁移训练后的模型确定是否包含文字,在确定图像中包含文字的情况下,才会对该图像进行OCR识别,由于是否包含文字的识别与直接对字符进行识别相比,其所需的数据量通常是更小的,因此可以提高字符识别的效率,并且降低数据处理量。
之后,通过图像编码模型对迁移训练图像进行编码,获得迁移特征图。示例地,可以直接将该迁移训练图像输入图像编码模型,该图像编码模型输出的结果即为该迁移特征图。
将所述迁移特征图输入所述全连接层,获得训练结果。示例地,可以基于全连接层将迁移特征图进行映射,从而可以基于最后一个全连接层的输出进行softmax处理,以将多个神经元的输出映射到(0,1)区间内,以基于softmax处理后的结果确定该迁移特征图的输出结果。
基于所述训练结果和所述标注结果之间的差异对所述全连接层的参数进行调整,以对所述图像分类模型进行迁移训练。
示例地,可以基于训练结果和标注结果之间的差异确定损失,从而可以基于该损失进行反向传播,以对全连接层的参数进行调整。其中,确定损失的方式以及对参数进行调整的方式可以采用本领域中的常用方式进行操作,本公开对此不进行限定。
示例地,在损失大于迁移阈值的情况下,可以重复执行上述通过图像编码模型对迁移训练图像进行编码,获得迁移特征图的步骤及将所述迁移特征图输入所述全连接层,获得训练结果的步骤,以及基于所述训练结果和所述标注结果之间的差异对所述全连接层的参数进行调整的步骤,直至确定出的损失小于或等于迁移阈值,从而完成图像分类模型进行迁移训练。
示例地,该迁移训练图像也可以是表情包图像和非表情包图像,从而可以通过少量训练数据的迁移训练获得用于对表情包图像和非表情包图像进行有效且准确区分的模型,通过上述过程对图像编码模型之后连接的全连接层进行参数调节,从而在图像编码模型提取出目标特征图后可以基于迁移训练完成的全连接层确定该目标特征图对应的分类,即确定输入的图像是否为表情包类型的图像,从而提高表情包图像识别的准确率,并简化模型的训练复杂度。
需要进行说明的是,图像编码模型的获得方式已在上文进行详述,在此不再赘述。在该图像编码模型的训练过程中,是通过训练子模型以及多个分类的图像子模型进行联合训练获得的,因此,基于图像编码模型可以获得准确的用于进行分类的有效特征,而在该实施例中,通过与不同的全连接层连接形成图像分类模型,从而可以基于少量的迁移训练样本实现对该图像分类模型的训练。在该过程中只需要对全连接层的参数进行调整即可,拓宽图像编码模型的适用范围,同时可以有效提高图像分类模型的构建和训练效率。
本公开还提供一种图像处理装置,如图5所示,所述装置50包括:
接收模块501,用于接收待处理图像;
第一编码模块502,用于根据图像编码模型对所述待处理图像进行编码,获得所述待处理图像对应的目标特征图;
识别模块503,用于基于所述目标特征图对所述待处理图像进行识别;
其中,所述图像编码模型为图像处理模型的子模型中的任一者,所述图像处理模型的子模型包括处理子模型和多个图像子模型,每一所述图像子模型对应于不同的图像分类,所述图像处理模型通过所述多个图像子模型和所述处理子模型联合训练获得,在所述图像处理模型的训练过程中,每一所述图像子模型中用于确定分类特征图的模型参数和所述处理子模型中用于确定训练特征图的模型参数相同。
可选地,所述图像编码模型通过第一训练装置获得,所述第一训练装置包括:
第一获取模块,用于获取训练样本集,以及与每一所述图像子模型的图像分类对应的分类图像集,其中,所述训练样本集中的每一训练样本包括训练图像、所述训练图像的标注分类;
第一输入模块,用于将所述训练图像输入所述处理子模型,以及针对每一所述图像子模型,从该图像子模型对应的分类图像集中获取一分类图像,并将该分类图像输入该图像子模型;
第一训练模块,用于基于所述处理子模型输出的训练特征图和每一所述图像子模型输出的分类特征图,对所述图像处理模型进行训练;
在所述图像处理模型训练完成后,将所述图像处理模型的子模型中的任一者确定为所述图像编码模型。
可选地,所述第一训练模块包括:
第一确定子模块,用于确定所述训练特征图与每一所述分类特征图之间的相似度,并将确定出的与所述训练特征图最相似的分类特征图对应的图像分类确定为所述训练图像的训练分类;
第二确定子模块,用于基于所述训练分类与所述训练图像的标注分类确定目标损失;
调整子模块,用于在未满足训练停止条件的情况下,基于所述目标损失对所述处理子模型的模型参数进行调整;
更新模块,用于将每一所述图像子模型的模型参数更新为调整后的所述处理子模型的模型参数,并触发第一输入模块执行所述将所述训练图像输入所述处理子模型,以及针对每一所述图像子模型,从该图像子模型对应的分类图像集中获取一分类图像,并将该分类图像输入该图像子模型,直至满足所述训练停止条件。
可选地,所述图像处理模型为表情包识别模型,所述多个图像子模型包括第一图像子模型和第二图像子模型,所述第一图像子模型对应的图像分类为表情包类型,所述第二图像子模型对应的图像分类为非表情包类型,所述识别模块包括:
第一特征图获取子模块,用于基于训练后的第一图像子模型,获得所述表情包图像对应的第一特征图;
第二特征图获取子模块,用于基于训练后的第二图像子模型,获得所述非表情包图像对应的第二特征图;
识别子模块,用于根据所述目标特征图、所述第一特征图和所述第二特征图确定所述待处理图像对应的识别结果,其中,所述识别结果用于指示所述待处理图像是否为表情包类型的图像。
可选地,所述图像编码模型的输出与全连接层的输入耦合,以形成图像分类模型,所述图像分类模型通过第二训练装置训练获得,所述第二训练装置包括:
第二获取模块,用于获取迁移训练样本集,其中,所述迁移训练样本集中的每一所述迁移训练样本包含迁移训练图像以及所述迁移训练图像对应的标注结果;
第二编码模块,用于通过所述图像编码模型对所述迁移训练图像进行编码,获得迁移特征图;
第二输入模块,用于将所述迁移特征图输入所述全连接层,获得训练结果;
第二训练模块,用于基于所述训练结果和所述标注结果之间的差异对所述全连接层的参数进行调整,以对所述图像分类模型进行迁移训练。
可选地,所述图像编码模型基于残差网络实现。
下面参考图6,其示出了适于用来实现本公开实施例的电子设备600的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图6示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备600,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从ROM 602被安装。在该计算机程序被处理装置601执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:接收待处理图像;根据图像编码模型对所述待处理图像进行编码,获得所述待处理图像对应的目标特征图;基于所述目标特征图对所述待处理图像进行识别;其中,所述图像编码模型为图像处理模型的子模型中的任一者,所述图像处理模型的子模型包括处理子模型和多个图像子模型,每一所述图像子模型对应于不同的图像分类,所述图像处理模型通过所述多个图像子模型和所述处理子模型联合训练获得,在所述图像处理模型的训练过程中,每一所述图像子模型中用于确定分类特征图的模型参数和所述处理子模型中用于确定训练特征图的模型参数相同。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该模块本身的限定,例如,接收模块还可以被描述为“接收待处理图像的模块”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
根据本公开的一个或多个实施例,示例1提供了一种图像处理方法,其中,所述方法包括:
接收待处理图像;
根据图像编码模型对所述待处理图像进行编码,获得所述待处理图像对应的目标特征图;
基于所述目标特征图对所述待处理图像进行识别;
其中,所述图像编码模型为图像处理模型的子模型中的任一者,所述图像处理模型的子模型包括处理子模型和多个图像子模型,每一所述图像子模型对应于不同的图像分类,所述图像处理模型通过所述多个图像子模型和所述处理子模型联合训练获得,在所述图像处理模型的训练过程中,每一所述图像子模型中用于确定分类特征图的模型参数和所述处理子模型中用于确定训练特征图的模型参数相同。
根据本公开的一个或多个实施例,示例2提供了示例1的方法,其中,所述图像编码模型通过如下方式获得:
获取训练样本集,以及与每一所述图像子模型的图像分类对应的分类图像集,其中,所述训练样本集中的每一训练样本包括训练图像、所述训练图像的标注分类;
将所述训练图像输入所述处理子模型,以及针对每一所述图像子模型,从该图像子模型对应的分类图像集中获取一分类图像,并将该分类图像输入该图像子模型;
基于所述处理子模型输出的训练特征图和每一所述图像子模型输出的分类特征图,对所述图像处理模型进行训练;
在所述图像处理模型训练完成后,将所述图像处理模型的子模型中的任一者确定为所述图像编码模型。
根据本公开的一个或多个实施例,示例3提供了示例2的方法,其中,所述基于所述处理子模型输出的训练特征图和每一所述图像子模型输出的分类特征图,对所述图像处理模型进行训练,包括:
确定所述训练特征图与每一所述分类特征图之间的相似度,并将确定出的与所述训练特征图最相似的分类特征图对应的图像分类确定为所述训练图像的训练分类;
基于所述训练分类与所述训练图像的标注分类确定目标损失;
在未满足训练停止条件的情况下,基于所述目标损失对所述处理子模型的模型参数进行调整;
将每一所述图像子模型的模型参数更新为调整后的所述处理子模型的模型参数,并重新返回执行所述将所述训练图像输入所述处理子模型,以及针对每一所述图像子模型,从该图像子模型对应的分类图像集中获取一分类图像,并将该分类图像输入该图像子模型的步骤,直至满足所述训练停止条件。
根据本公开的一个或多个实施例,示例4提供了示例1的方法,其中,
所述多个图像子模型包括第一图像子模型和第二图像子模型,所述第一图像子模型对应的图像分类为表情包类型,所述第二图像子模型对应的图像分类为非表情包类型;
所述基于所述目标特征图对所述待处理图像进行识别包括:
基于训练后的第一图像子模型,获得表情包图像对应的第一特征图;
基于训练后的第二图像子模型,获得非表情包图像对应的第二特征图;
根据所述目标特征图、所述第一特征图和所述第二特征图确定所述待处理图像对应的识别结果,其中,所述识别结果用于指示所述待处理图像是否为表情包类型的图像。
根据本公开的一个或多个实施例,示例5提供了示例1的方法,其中,所述图像编码模型的输出与全连接层的输入耦合,以形成图像分类模型,所述图像分类模型通过以下方式训练获得:
获取迁移训练样本集,其中,所述迁移训练样本集中的每一所述迁移训练样本包含迁移训练图像以及所述迁移训练图像对应的标注结果;
通过所述图像编码模型对所述迁移训练图像进行编码,获得迁移特征图;
将所述迁移特征图输入所述全连接层,获得训练结果;
基于所述训练结果和所述标注结果之间的差异对所述全连接层的参数进行调整,以对所述图像分类模型进行迁移训练。
根据本公开的一个或多个实施例,示例6提供了示例1-示例5中任一示例的方法,其中,所述图像编码模型基于残差网络实现。
根据本公开的一个或多个实施例,示例7提供了一种图像处理装置,其中,所述装置包括:
接收模块,用于接收待处理图像;
第一编码模块,用于根据图像编码模型对所述待处理图像进行编码,获得所述待处理图像对应的目标特征图;
识别模块,用于基于所述目标特征图对所述待处理图像进行识别;
其中,所述图像编码模型为图像处理模型的子模型中的任一者,所述图像处理模型的子模型包括处理子模型和多个图像子模型,每一所述图像子模型对应于不同的图像分类,所述图像处理模型通过所述多个图像子模型和所述处理子模型联合训练获得,在所述图像处理模型的训练过程中,每一所述图像子模型中用于确定分类特征图的模型参数和所述处理子模型中用于确定训练特征图的模型参数相同。
根据本公开的一个或多个实施例,示例8提供了示例7的装置,其中,
所述图像处理模型为表情包识别模型,所述多个图像子模型包括第一图像子模型和第二图像子模型,所述第一图像子模型对应的图像分类为表情包类型,所述第二图像子模型对应的图像分类为非表情包类型,所述识别模块包括:
第一特征图获取子模块,用于基于训练后的第一图像子模型,获得所述表情包图像对应的第一特征图;
第二特征图获取子模块,用于基于训练后的第二图像子模型,获得所述非表情包图像对应的第二特征图;
识别子模块,用于根据所述目标特征图、所述第一特征图和所述第二特征图确定所述待处理图像对应的识别结果,其中,所述识别结果用于指示所述待处理图像是否为表情包类型的图像。
根据本公开的一个或多个实施例,示例9提供了一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理装置执行时实现示例1-6中任一示例所述方法的步骤。
根据本公开的一个或多个实施例,示例10提供了一种电子设备,其中,包括:
存储装置,其上存储有计算机程序;
处理装置,用于执行所述存储装置中的所述计算机程序,以实现示例1-6中任一示例所述方法的步骤。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
Claims (10)
1.一种图像处理方法,其特征在于,所述方法包括:
接收待处理图像;
根据图像编码模型对所述待处理图像进行编码,获得所述待处理图像对应的目标特征图;
基于所述目标特征图对所述待处理图像进行识别;
其中,所述图像编码模型为图像处理模型的子模型中的任一者,所述图像处理模型的子模型包括处理子模型和多个图像子模型,每一所述图像子模型对应于不同的图像分类,所述图像处理模型通过所述多个图像子模型和所述处理子模型联合训练获得,所述联合训练中基于所述处理子模型输出的训练特征图和每一所述图像子模型输出的分类特征图,对所述图像处理模型进行训练,在所述图像处理模型的训练过程中,每一所述图像子模型中用于确定分类特征图的模型参数和所述处理子模型中用于确定训练特征图的模型参数相同。
2.根据权利要求1所述的方法,其特征在于,所述图像编码模型通过如下方式获得:
获取训练样本集,以及与每一所述图像子模型的图像分类对应的分类图像集,其中,所述训练样本集中的每一训练样本包括训练图像和所述训练图像的标注分类;
将所述训练图像输入所述处理子模型,以及针对每一所述图像子模型,从该图像子模型对应的分类图像集中获取一分类图像,并将该分类图像输入该图像子模型;
基于所述处理子模型输出的训练特征图和每一所述图像子模型输出的分类特征图,对所述图像处理模型进行训练;
在所述图像处理模型训练完成后,将所述图像处理模型的子模型中的任一者确定为所述图像编码模型。
3.根据权利要求2所述的方法,其特征在于,所述基于所述处理子模型输出的训练特征图和每一所述图像子模型输出的分类特征图,对所述图像处理模型进行训练,包括:
确定所述训练特征图与每一所述分类特征图之间的相似度,并将确定出的与所述训练特征图最相似的分类特征图对应的图像分类确定为所述训练图像的训练分类;
基于所述训练分类与所述训练图像的标注分类确定目标损失;
在未满足训练停止条件的情况下,基于所述目标损失对所述处理子模型的模型参数进行调整;
将每一所述图像子模型的模型参数更新为调整后的所述处理子模型的模型参数,并重新返回执行所述将所述训练图像输入所述处理子模型,以及针对每一所述图像子模型,从该图像子模型对应的分类图像集中获取一分类图像,并将该分类图像输入该图像子模型的步骤,直至满足所述训练停止条件。
4.根据权利要求1所述的方法,其特征在于,所述图像处理模型为表情包识别模型,所述多个图像子模型包括第一图像子模型和第二图像子模型,所述第一图像子模型对应的图像分类为表情包类型,所述第二图像子模型对应的图像分类为非表情包类型;
所述基于所述目标特征图对所述待处理图像进行识别包括:
基于训练后的第一图像子模型,获得表情包图像对应的第一特征图;
基于训练后的第二图像子模型,获得非表情包图像对应的第二特征图;
根据所述目标特征图、所述第一特征图和所述第二特征图确定所述待处理图像对应的识别结果,其中,所述识别结果用于指示所述待处理图像是否为表情包类型的图像。
5.根据权利要求1所述的方法,其特征在于,所述图像编码模型的输出与全连接层的输入耦合,以形成图像分类模型,所述图像分类模型通过以下方式训练获得:
获取迁移训练样本集,其中,所述迁移训练样本集中的每一所述迁移训练样本包含迁移训练图像以及所述迁移训练图像对应的标注结果;
通过所述图像编码模型对所述迁移训练图像进行编码,获得迁移特征图;
将所述迁移特征图输入所述全连接层,获得训练结果;
基于所述训练结果和所述标注结果之间的差异对所述全连接层的参数进行调整,以对所述图像分类模型进行迁移训练。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述图像编码模型基于残差网络实现。
7.一种图像处理装置,其特征在于,所述装置包括:
接收模块,用于接收待处理图像;
第一编码模块,用于根据图像编码模型对所述待处理图像进行编码,获得所述待处理图像对应的目标特征图;
识别模块,用于基于所述目标特征图对所述待处理图像进行识别;
其中,所述图像编码模型为图像处理模型的子模型中的任一者,所述图像处理模型的子模型包括处理子模型和多个图像子模型,每一所述图像子模型对应于不同的图像分类,所述图像处理模型通过所述多个图像子模型和所述处理子模型联合训练获得,所述联合训练中基于所述处理子模型输出的训练特征图和每一所述图像子模型输出的分类特征图,对所述图像处理模型进行训练,在所述图像处理模型的训练过程中,每一所述图像子模型中用于确定分类特征图的模型参数和所述处理子模型中用于确定训练特征图的模型参数相同。
8.根据权利要求7所述的装置,其特征在于,所述图像处理模型为表情包识别模型,所述多个图像子模型包括第一图像子模型和第二图像子模型,所述第一图像子模型对应的图像分类为表情包类型,所述第二图像子模型对应的图像分类为非表情包类型,所述识别模块包括:
第一特征图获取子模块,用于基于训练后的第一图像子模型,获得表情包图像对应的第一特征图;
第二特征图获取子模块,用于基于训练后的第二图像子模型,获得非表情包图像对应的第二特征图;
识别子模块,用于根据所述目标特征图、所述第一特征图和所述第二特征图确定所述待处理图像对应的识别结果,其中,所述识别结果用于指示所述待处理图像是否为表情包类型的图像。
9.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理装置执行时实现权利要求1-6中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储装置,其上存储有计算机程序;
处理装置,用于执行所述存储装置中的所述计算机程序,以实现权利要求1-6中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110530208.4A CN113140012B (zh) | 2021-05-14 | 2021-05-14 | 图像处理方法、装置、介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110530208.4A CN113140012B (zh) | 2021-05-14 | 2021-05-14 | 图像处理方法、装置、介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113140012A CN113140012A (zh) | 2021-07-20 |
CN113140012B true CN113140012B (zh) | 2024-05-31 |
Family
ID=76817929
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110530208.4A Active CN113140012B (zh) | 2021-05-14 | 2021-05-14 | 图像处理方法、装置、介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113140012B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113920404A (zh) * | 2021-11-09 | 2022-01-11 | 北京百度网讯科技有限公司 | 训练方法、图像处理方法、装置、电子设备以及存储介质 |
CN114120364B (zh) * | 2021-11-23 | 2024-10-01 | 北京字节跳动网络技术有限公司 | 图像处理方法、图像分类方法、装置、介质及电子设备 |
CN114494817A (zh) * | 2022-01-26 | 2022-05-13 | 北京百度网讯科技有限公司 | 图像处理方法、模型训练方法、相关装置及电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108665457A (zh) * | 2018-05-16 | 2018-10-16 | 腾讯科技(深圳)有限公司 | 图像识别方法、装置、存储介质及计算机设备 |
CN109753978A (zh) * | 2017-11-01 | 2019-05-14 | 腾讯科技(深圳)有限公司 | 图像分类方法、装置以及计算机可读存储介质 |
CN110543895A (zh) * | 2019-08-08 | 2019-12-06 | 淮阴工学院 | 一种基于VGGNet和ResNet的图像分类方法 |
CN111325726A (zh) * | 2020-02-19 | 2020-06-23 | 腾讯医疗健康(深圳)有限公司 | 模型训练方法、图像处理方法、装置、设备及存储介质 |
CN111832642A (zh) * | 2020-07-07 | 2020-10-27 | 杭州电子科技大学 | 一种基于vgg16在昆虫分类学上的图像识别方法 |
CN112288012A (zh) * | 2020-10-30 | 2021-01-29 | 杭州海康威视数字技术股份有限公司 | 图像识别方法、装置及存储介质 |
WO2021057174A1 (zh) * | 2019-09-26 | 2021-04-01 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、电子设备、存储介质和计算机程序 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2631872A4 (en) * | 2010-10-18 | 2015-10-28 | Univ Osaka | CHARACTER EXTRACTION DEVICE, CHARACTER EXTRACTION METHOD AND PROGRAM THEREFOR |
-
2021
- 2021-05-14 CN CN202110530208.4A patent/CN113140012B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109753978A (zh) * | 2017-11-01 | 2019-05-14 | 腾讯科技(深圳)有限公司 | 图像分类方法、装置以及计算机可读存储介质 |
CN108665457A (zh) * | 2018-05-16 | 2018-10-16 | 腾讯科技(深圳)有限公司 | 图像识别方法、装置、存储介质及计算机设备 |
CN110543895A (zh) * | 2019-08-08 | 2019-12-06 | 淮阴工学院 | 一种基于VGGNet和ResNet的图像分类方法 |
WO2021057174A1 (zh) * | 2019-09-26 | 2021-04-01 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、电子设备、存储介质和计算机程序 |
CN111325726A (zh) * | 2020-02-19 | 2020-06-23 | 腾讯医疗健康(深圳)有限公司 | 模型训练方法、图像处理方法、装置、设备及存储介质 |
CN111832642A (zh) * | 2020-07-07 | 2020-10-27 | 杭州电子科技大学 | 一种基于vgg16在昆虫分类学上的图像识别方法 |
CN112288012A (zh) * | 2020-10-30 | 2021-01-29 | 杭州海康威视数字技术股份有限公司 | 图像识别方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113140012A (zh) | 2021-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113313064B (zh) | 字符识别方法、装置、可读介质及电子设备 | |
CN113470619B (zh) | 语音识别方法、装置、介质及设备 | |
CN113140012B (zh) | 图像处理方法、装置、介质及电子设备 | |
CN109145828B (zh) | 用于生成视频类别检测模型的方法和装置 | |
CN112883968B (zh) | 图像字符识别方法、装置、介质及电子设备 | |
CN112364829B (zh) | 一种人脸识别方法、装置、设备及存储介质 | |
CN110084317B (zh) | 用于识别图像的方法和装置 | |
CN113033682B (zh) | 视频分类方法、装置、可读介质、电子设备 | |
CN112712795B (zh) | 标注数据确定方法、装置、介质及电子设备 | |
CN113723341B (zh) | 视频的识别方法、装置、可读介质和电子设备 | |
CN112766284B (zh) | 图像识别方法和装置、存储介质和电子设备 | |
CN114494709A (zh) | 特征提取模型的生成方法、图像特征提取方法和装置 | |
CN117633228A (zh) | 模型训练方法和装置 | |
CN115294501A (zh) | 视频识别方法、视频识别模型训练方法、介质及电子设备 | |
CN113033707B (zh) | 视频分类方法、装置、可读介质及电子设备 | |
CN113033680B (zh) | 视频分类方法、装置、可读介质及电子设备 | |
CN118071428A (zh) | 用于多模态监测数据的智能处理系统及方法 | |
CN110674813B (zh) | 汉字识别方法、装置、计算机可读介质及电子设备 | |
CN114625876B (zh) | 作者特征模型的生成方法、作者信息处理方法和装置 | |
CN113051400B (zh) | 标注数据确定方法、装置、可读介质及电子设备 | |
CN113222050B (zh) | 图像分类方法、装置、可读介质及电子设备 | |
CN116244431A (zh) | 文本分类方法、装置、介质及电子设备 | |
CN116092092A (zh) | 匹配方法、装置、介质及电子设备 | |
CN114120364B (zh) | 图像处理方法、图像分类方法、装置、介质及电子设备 | |
CN116343905B (zh) | 蛋白质特征的预处理方法、装置、介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |