CN112070093A - 生成图像分类模型的方法、图像分类方法、装置和设备 - Google Patents

生成图像分类模型的方法、图像分类方法、装置和设备 Download PDF

Info

Publication number
CN112070093A
CN112070093A CN202011003484.7A CN202011003484A CN112070093A CN 112070093 A CN112070093 A CN 112070093A CN 202011003484 A CN202011003484 A CN 202011003484A CN 112070093 A CN112070093 A CN 112070093A
Authority
CN
China
Prior art keywords
image
image classification
model
layer
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011003484.7A
Other languages
English (en)
Inventor
崔若璇
魏凯峰
李雨珂
杨卫强
朱浩齐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Netease Zhiqi Technology Co Ltd
Original Assignee
Netease Hangzhou Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Hangzhou Network Co Ltd filed Critical Netease Hangzhou Network Co Ltd
Priority to CN202011003484.7A priority Critical patent/CN112070093A/zh
Publication of CN112070093A publication Critical patent/CN112070093A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Abstract

本申请的实施方式提供了一种生成图像分类模型的方法、图像分类方法、装置和设备,该方法包括:基于第一图像训练数据集训练第一神经网络,提取第一神经网络在至少一个目标层上的第一网络参数作为第一目标特征,保持该层的第一网络参数不变,并迭代后续层上的其他网络参数,以获得第一图像分类子模型;基于第二图像训练数据集训练第二神经网络,获得第二图像分类子模型;将第一图像分类子模型和第二图像分类子模型融合形成目标图像分类模型。利用本申请实施例生成的图像分类模型能够对待检测的图像进行分类。

Description

生成图像分类模型的方法、图像分类方法、装置和设备
技术领域
本申请的实施方式涉及计算机视觉技术领域,具体地,本申请的实施方式涉及生成图像分类模型的方法、图像分类方法、装置、设备和非易失性计算机可读存储介质。
背景技术
本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
为加强网络内容安全和反垃圾自动审核,通常需对广告图像进行精准高效的过滤,目前常用的广告图像识别检测方案主要包括两大类:第一类是基于OCR(OpticalCharacter Recognition,光学字符识别)技术对图像中的文字信息进行语义分析,第二类是基于图像分类或检测算法提取图像的全局或局部特征进行分析判断。
但是,第一类方案中OCR处理过程耗时较长,算法速度明显受限,且算法容易受到艺术字、变形文字广告的攻击,容易引起漏判。第二类方案是从图像角度出发,若采用单一的分类或检测模型处理,所提取的图像特征不够全面;若采用多模型先单独训练再进行整合的方式来处理,又会成倍增加算法计算时间,处理效率低;若采用多任务学习(Multi-task learning)的方式同时训练多个分支,还存在标注难度增大、模型训练效果不可控、增添或删减任务分支不灵活等问题。
发明内容
本申请期望提供一种生成图像分类模型的方法、图像分类方法、装置、设备和非易失性计算机可读存储介质,以至少解决部分上述技术问题。
本申请实施例提供一种生成图像分类模型的方法,包括:
基于第一图像训练数据集训练第一神经网络,提取第一神经网络在至少一个目标层上的第一网络参数作为第一目标特征,保持该层的第一网络参数不变,并迭代后续层上的其他网络参数,以获得第一图像分类子模型;
基于第二图像训练数据集训练第二神经网络,所述第二神经网络具有与所述第一神经网络的至少一个目标层相对应的层,在该对应的层上同样提取第一网络参数作为第二目标特征,保持该层的第一网络参数不变,并迭代后续层上的其他网络参数,以获得第二图像分类子模型;
将所述第一图像分类子模型和所述第二图像分类子模型融合形成目标图像分类模型,所述目标图像分类模型用于对待检测的图像进行分类。
本申请实施例提供一种生成图像分类模型的装置,包括:
第一训练模块,用于基于第一图像训练数据集训练第一神经网络,提取第一神经网络在至少一个目标层上的第一网络参数作为第一目标特征,保持该层的第一网络参数不变,并迭代后续层上的其他网络参数,以获得第一图像分类子模型;
第二训练模块,用于基于第二图像训练数据集训练第二神经网络,所述第二神经网络具有与所述第一神经网络的至少一个目标层相对应的层,在该对应的层上同样提取第一网络参数作为第二目标特征,保持该层的第一网络参数不变,并迭代后续层上的其他网络参数,以获得第二图像分类子模型;
融合处理模块,用于将所述第一图像分类子模型和所述第二图像分类子模型融合形成目标图像分类模型,所述目标图像分类模型用于对待检测的图像进行分类。
本申请实施例提供一种图像分类装置,所述图像分类装置包括由以上所述的生成图像分类模型的方法所生成的图像分类模型。
本申请实施例提供一种图像分类装置,所述图像分类装置基于由以上所述的生成图像分类模型的方法所生成的图像分类模型,所述图像分类装置包括图像接收模块、图像分类模型和分析处理模块,其中,
所述图像接收模块用于接收待检测图像,并将所述待检测图像发送给所述图像分类模型中的所述至少一个目标层,
所述图像分类模型中的所述第一图像分类子模型和所述第二图像分类子模型共用所述至少一个目标层,
所述分析处理模块用于按照预设规则对所述第一图像分类子模型的输出和所述第二图像分类子模型的输出进行分析处理,以得到所述待检测图像的分类结果。
本申请实施例提供一种图像分类方法,所述图像分类方法基于以上所述的图像分类装置,所述图像分类方法包括:
图像接收模块接收待检测图像,并将所述待检测图像输入所述图像分类模型的所述至少一个目标层,
图像分类模型接收所述第一图像分类子模型的输出和所述第二图像分类子模型的输出;
分析处理模块按照预设规则对所述第一图像分类子模型的输出和所述第二图像分类子模型的输出进行分析处理,以得到所述待检测图像的分类结果。
本申请实施例提供一种生成图像分类模型的方法,包括:
基于第一图像训练数据集训练第一神经网络,提取第一神经网络在至少第一目标层上的第一网络参数作为第一目标特征,保持该层的第一网络参数不变,并迭代后续层上的其他网络参数,以获得第一图像分类子模型;
基于第二图像训练数据集训练第二神经网络,所述第二神经网络具有与所述第一神经网络的至少第一目标层相对应的层,在该对应的层上同样提取第一网络参数作为第二目标特征,保持该层的第一网络参数不变,并迭代后续层上的其他网络参数,以获得第二图像分类子模型;
基于第三图像训练数据集训练第三神经网络,所述第三神经网络具有与所述第二神经网络的至少第一目标层和第二目标层相对应的层,在该对应的层上以所述第二图像分类子模型的网络参数作为初始化参数,保持该对应的层的网络参数不变,并迭代后续层上的其他网络参数,以获得第三图像分类子模型;
基于第四图像训练数据集训练第四神经网络,所述第四神经网络具有与所述第二神经网络的至少第一目标层和第二目标层相对应的层,在该对应的层上以所述第二图像分类子模型的网络参数作为初始化参数,保持该对应的层的网络参数不变,并迭代后续层上的其他网络参数,以获得第四图像分类子模型;
将所述第一图像分类子模型、所述第二图像分类子模型、所述第三图像分类子模型和所述第四图像分类子模型融合形成目标图像分类模型,所述目标图像分类模型用于对待检测的图像进行分类。
本申请实施例提供一种生成图像分类模型的装置,包括:
第一训练模块,用于基于第一图像训练数据集训练第一神经网络,提取第一神经网络在至少第一目标层上的第一网络参数作为第一目标特征,保持该层的第一网络参数不变,并迭代后续层上的其他网络参数,以获得第一图像分类子模型;
第二训练模块,用于基于第二图像训练数据集训练第二神经网络,所述第二神经网络具有与所述第一神经网络的至少第一目标层相对应的层,在该对应的层上同样提取第一网络参数作为第二目标特征,保持该层的第一网络参数不变,并迭代后续层上的其他网络参数,以获得第二图像分类子模型;
第三训练模块,用于基于第三图像训练数据集训练第三神经网络,所述第三神经网络具有与所述第二神经网络的至少第一目标层和第二目标层相对应的层,在该对应的层上以所述第二图像分类子模型的网络参数作为初始化参数,保持该对应的层的网络参数不变,并迭代后续层上的其他网络参数,以获得第三图像分类子模型;
第四训练模块,用于基于第四图像训练数据集训练第四神经网络,所述第四神经网络具有与所述第二神经网络的至少第一目标层和第二目标层相对应的层,在该对应的层上以所述第二图像分类子模型的网络参数作为初始化参数,保持该对应的层的网络参数不变,并迭代后续层上的其他网络参数,以获得第四图像分类子模型;
融合处理模块,用于将所述第一图像分类子模型、所述第二图像分类子模型、所述第三图像分类子模型和所述第四图像分类子模型融合形成目标图像分类模型,所述目标图像分类模型用于对待检测的图像进行分类。
本申请实施例提供一种图像分类装置,所述图像分类装置包括由以上所述的生成图像分类模型的方法所生成的图像分类模型。
本申请实施例提供一种图像分类装置,所述图像分类装置基于由以上所述的生成图像分类模型的方法所生成的图像分类模型,所述图像分类装置包括图像接收模块、图像分类模型和分析处理模块,其中,
所述图像接收模块用于接收待检测图像,并将所述待检测图像发送给所述图像分类模型中的所述至少第一目标层,
所述图像分类模型中的所述第一图像分类子模型、所述第二图像分类子模型、所述第三图像分类子模型和所述第四图像分类子模型共用所述至少第一目标层,并且,所述第二图像分类子模型、所述第三图像分类子模型和所述第四图像分类子模型共用所述至少第一目标层和第二目标层;
所述分析处理模块用于按照预设规则对所述第一图像分类子模型的输出、所述第二图像分类子模型的输出、所述第三图像分类子模型的输出和所述第四图像分类子模型的输出进行分析处理,以得到所述待检测图像的分类结果。
本申请实施例提供一种图像分类方法,所述图像分类方法基于以上所述的图像分类装置,所述图像分类方法包括:
图像接收模块接收待检测图像,并将所述待检测图像输入所述图像分类模型的所述至少第一目标层,
图像分类模型接收所述第一图像分类子模型的输出、所述第二图像分类子模型的输出、所述第三图像分类子模型的输出和所述第四图像分类子模型的输出;
分析处理模块按照预设规则对所述第一图像分类子模型的输出、所述第二图像分类子模型的输出、所述第三图像分类子模型的输出和所述第四图像分类子模型的输出进行分析处理,以得到所述待检测图像的分类结果。
本申请实施例提供一种计算设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使所述一个或多个处理器实现以上所述的生成图像分类模型的方法或图像分类方法。
本申请实施例提供一种非易失性计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现以上所述的生成图像分类模型的方法或图像分类方法。
利用本申请实施例训练多个神经网络,采用的多个训练数据集可以相互独立,图像中标注有一类信息即可作为对应神经网络的训练数据使用,不需要在一个图像数据上同时标注所有分类任务的标签,可降低多任务标签的标注复杂度,降低标注成本;由于训练时多个神经网络的对应网络层参数不变,使得训练得到的子模型能够共享该网络层上的中间结果,还可以压缩训练过程和前向推理过程的耗时,从整体上提高训练效率。
附图说明
通过参考附图阅读下文的详细描述,本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本申请的若干实施方式,其中:
图1示意性地示出了本申请一个实施例的生成图像分类模型的方法的流程图;
图2示意性地示出了本申请一个实施例的图像分类方法的流程图;
图3示意性地示出了本申请另一实施例的生成图像分类模型的方法流程图;
图4示意性地示出了本申请另一实施例的图像分类方法的流程图;
图5示意性地示出了基于本申请图3实施例的生成图像分类模型的方法训练神经网络的过程示意图;
图6示意性地示出了本申请实施例中逻辑规则一的处理过程示意图;
图7示意性地示出了本申请实施例中逻辑规则二的处理过程示意图;
图8示意性地示出了本申请实施例的应用实例的效果示意图;
图9示意性地示出了本申请实施例的计算机可读存储介质的示意图;
图10示意性地示出了本申请一个实施例的生成图像分类模型的装置的结构框图;
图11示意性地示出了本申请一个实施例的图像分类装置的结构框图;
图12示意性地示出了本申请另一实施例的生成图像分类模型的装置的结构框图;
图13示意性地示出了本申请另一实施例的图像分类装置的结构框图;
图14示意性地示出了本申请实施例的计算设备结构示意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本申请的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本申请,而并非以任何方式限制本申请的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本申请的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本申请的实施方式,提出了一种生成图像分类模型的方法、图像分类方法、装置、设备和非易失性计算机可读存储介质。
在本文中,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本申请若干代表性实施方式,详细阐释本申请的原理和精神。
发明概述
如前文所述,基于已有的广告图像识别检测方案,存在计算处理过程耗时长、效率低、训练数据标注难度大等问题,并且除广告图像识别场景之外,实际应用中还存在多种类别属性的图像识别场景,例如对网络传播的色情图片、盗版图片等的识别过滤。
鉴于此,本申请发明人提出一种可应用于神经网络训练及使用过程中的分段共享的思想,在对多个神经网络的训练迭代过程中,令指定层的网络参数固定,训练得到的多个模型可共享该指定层,由此可将多个模型融合为一个模型,多个模型可分别作为不同的分类任务分支,如此,不仅可以缩短训练时长,提高模型处理效率,并且由于不同的分类任务分支的模型为独立训练,因此一个图像中包含至少一种分类任务标签即可作为训练数据使用,而不需要在一个图像上将全部分类任务的标签一次性标出,大幅降低训练数据标注难度,可降低标注成本。
在介绍了本申请的基本思想之后,下面具体介绍本申请的各种非限制性实施方式。
示例性方法
本申请实施例首先提供一种生成图像分类模型的方法,利用该方法可对神经网络进行训练,训练完成后可得到图像分类模型,图像分类模型用于对图像进行分类,例如,如果该方法的训练数据包括针对广告图像的标注数据,则训练得到的模型可将图像分为广告类图像或非广告类图像;又例如,如果该方法的训练数据包括针对某种违法图像例如色情图像的标注数据,则训练得到的模型可将图像分为色情类图像或非色情类图像,等等。图1示意性地示出了本申请实施例的生成图像分类模型的方法的实现流程图,包括以下步骤:
S101:基于第一图像训练数据集训练第一神经网络,提取第一神经网络在至少一个目标层上的第一网络参数作为第一目标特征,保持该层的第一网络参数不变,并迭代后续层上的其他网络参数,以获得第一图像分类子模型;
S102:基于第二图像训练数据集训练第二神经网络,所述第二神经网络具有与所述第一神经网络的至少一个目标层相对应的层,在该对应的层上同样提取第一网络参数作为第二目标特征,保持该层的第一网络参数不变,并迭代后续层上的其他网络参数,以获得第二图像分类子模型;以及,
S103:将所述第一图像分类子模型和所述第二图像分类子模型融合形成目标图像分类模型,所述目标图像分类模型用于对待检测的图像进行分类。
根据本申请的实施例,基于第一图像训练数据集训练第一神经网络,基于第二图像训练数据集训练第二神经网络,其中第一神经网络的至少一个网络层与第二神经网络的至少一个网络层相对应,训练时保持第一神经网络中该层的网络参数不变,迭代后续层上的其他网络参数,类似地,保持第二神经网络中该层的网络参数不变,迭代后续层上的其他网络参数,第一神经网络和第二神经网络分别训练完成后,得到第一图像分类子模型和第二图像分类子模型,将两个子模型融合形成目标图像分类模型,用于对图像进行分类。
在本申请的实施例中,由于训练过程中第一神经网络和第二神经网络中至少一个目标层的网络参数均保持不变,因此得到的第一图像分类子模型和第二图像分类子模型中该至少一个目标层上的网络参数相同,那么对于同一个待检测图像的处理,两个子模型在该至少一个目标层上提取的图像特征相同,因此,两个子模型可以共用在该至少一个目标层上提取的图像特征,然后,在后续的网络层上分别继续处理,可得到两个子模型输出的两个预测结果(如预测的概率值),通过本申请实施例对两个子模型的融合处理,可基于两个子模型的两个预测结果得到最终的图像分类结果。
可见,由于训练时第一神经网络和第二神经网络的至少一个网络层的参数不变,一方面可以使得到的子模型能够共享该至少一个网络层上的中间结果,另一方面还可以压缩训练过程和前向推理过程的耗时,从整体上提高训练效率。
并且,利用本申请的实施例训练多个神经网络(如第一神经网络、第二神经网络),采用的多个训练数据集(如第一图像训练数据集、第二图像训练数据集)可以互不相同、相互独立,举例来讲,第一图像训练数据集可以仅标注第一类信息,第二图像训练数据集可以仅标注第二类信息,两个训练数据集相互独立,标注人员不需要对同一个图像既标注第一类信息又标注第二类数据,换句话说,只要图像中标注有其中一类信息,即可作为对应的神经网络的训练数据使用,而不需要在一个图像数据上同时标注所有分类任务的标签,这实际上达到了对数据解耦的效果,可降低多任务标签的标注复杂度,扩大可用训练数据的范围,可降低标注成本。
当然,第一图像训练数据集和第二图像训练数据集也可以是相同的训练数据集,即每个图像上均标注有所有分类任务的标签;或者,两个数据集中的一部分图像相同、一部分图像不同,只要是携带有至少一种分类任务的标注数据,即可作为对应的训练数据使用。
在本申请的实施例中,所述第一图像训练数据集包括经过标注的图像,标注数据用于表征图像中是否包括第一类信息;所述第二图像训练数据集包括经过标注的图像,标注数据用于表征图像中是否包括第二类信息。如此,训练好的模型能够判断图像中是否存在第一类信息和第二类信息,基于此可完成对图像的分类。
在本申请的一种实施方式中,所述第一图像训练数据集包括经过标注的图像,标注数据用于表征图像中是否包括联系方式信息;所述第二图像训练数据集包括经过标注的图像,标注数据用于表征以下至少一项:图像中是否包括广告图标信息、图像中是否包括广告文本信息、图像中是否包括图像篡改信息。如此,训练好的模型能够判断图像中是否存在与广告相关的信息,基于此可确定图像是否为广告图像,能够辅助网络内容维护人员对商业广告图像及时采取处置措施。
在本申请的另一种实施方式中,所述第一图像训练数据集包括经过标注的图像,标注数据用于表征图像中是否包括色情部位;所述第二图像训练数据集包括经过标注的图像,标注数据用于表征以下至少一项:图像中是否包括裸露部位、图像中是否包括情趣用品、图像中是否包括液体。如此,训练好的模型能够判断图像中是否存在色情信息,基于此可确定图像是否为色情图像,能够辅助网络内容维护人员对色情图像及时采取处置措施。
在本申请的其他实施方式中,还可以对其他属性的图像信息进行检测识别,例如涉及暴恐信息的图像或涉及其他感兴趣信息的图像。
在本申请的实施例中,将所述第一图像分类子模型和所述第二图像分类子模型融合形成目标图像分类模型,可以通过以下处理实现:
所述第一图像分类子模型和所述第二图像分类子模型共用所述至少一个目标层;以及,按照预设规则对所述第一图像分类子模型的输出和所述第二图像分类子模型的输出进行分析处理,以得到所述目标图像分类模型的分类结果。
本申请实施例的两个子模型共用该至少一个目标层,因此能够共享该至少一个网络层上的处理结果,还可以减少训练过程和前向推理过程的耗时,通过预设规则对两个子模型分别输出的两个预测结果进行处理从而得到最终的图像分类结果。
关于所述的预设规则,在本申请的实施例中,所述第一图像分类子模型的输出为图像中包括联系方式信息的概率P1,所述第二图像分类子模型的输出为图像中包括广告图标信息、广告文本信息和图像篡改信息中的至少一项的概率P2;
所述按照预设规则对所述第一图像分类子模型的输出和所述第二图像分类子模型的输出进行处理,可以通过以下处理实现:将P1与第一阈值比较,得到第一比较结果;将P2与第二阈值比较,得到第二比较结果;根据所述第一比较结果和所述第二比较结果确定所述待检测的图像中是否包含商业广告信息。
其中,两个子模型输出的概率P1和概率P2均为0到1之间的数值,通过设置合适的阈值可以确定图像中是否包含商业广告信息或者说图像是否为广告,例如,如果P1和P2均大于0.5时确定图像为广告,或者,P1大于0.5、P2大于0.4时确定图像为广告,等等。实际应用中可根据需求设置阈值的大小。
在本申请的实施例中,所述第一神经网络和/或所述第二神经网络包括深度残差网络Resnet。可选地,可通过计算机视觉系统图像识别数据集ImageNet预训练的参数对所述第一神经网络和/或所述第二神经网络进行初始化。
在本申请的一种实施方式中,第一神经网络和第二神经网络可均采用Resnet50,Resnet50基础网络的特征提取阶段共包含stg1-4四个阶段,在分别对第一神经网络和第二神经网络的训练过程中,固定Resnet50网络特征提取的stg1-2阶段(四个阶段中的前两个阶段)的所有网络参数不变,其余所有层(除stg1-2之外的所有网络层)的网络参数跟随训练迭代进行更新,分别训练完成后得到两个子模型,将这两个子模型融合,融合的方式是令两个子模型共用或者说共享stg1-2阶段的中间结果,两个子模型的其余网络层作为两个分支,该中间结果分别由两个分支的stg3-4和后续网络层继续处理,两个子模型输出P1和P2后按照上述的预设规则处理得到最终的分类结果。
利用本申请实施例的生成图像分类模型的方法训练至少两个神经网络可得到图像分类模型,基于图像分类模型可得到图像分类装置。
在本申请的实施例中,所述图像分类装置包括图像接收模块、图像分类模型和分析处理模块,其中,所述图像接收模块用于接收待检测图像,并将所述待检测图像发送给所述图像分类模型中的所述至少一个目标层;所述图像分类模型中的所述第一图像分类子模型和所述第二图像分类子模型共用所述至少一个目标层;所述分析处理模块用于按照预设规则对所述第一图像分类子模型的输出和所述第二图像分类子模型的输出进行分析处理,以得到所述待检测图像的分类结果。
在本申请的实施例中,所述第一图像分类子模型用于预测图像中是否包括第一类信息;所述第二图像分类子模型用于预测图像中是否包括第二类信息。
在本申请的实施例中,所述第一图像分类子模型用于预测图像中是否包括联系方式信息;所述第二图像分类子模型用于预测图像中是否包括以下至少一项:广告图标信息、广告文本信息、图像篡改信息。
在本申请的实施例中,所述第一图像分类子模型的输出为图像中包括联系方式信息的概率P1;所述第二图像分类子模型的输出为图像中包括以下至少一项的概率P2:广告图标信息、广告文本信息、图像篡改信息;所述分析处理模块用于将P1与第一阈值比较,得到第一比较结果;所述分析处理模块还用于将P2与第二阈值比较,得到第二比较结果;所述分析处理模块还用于根据所述第一比较结果和所述第二比较结果确定所述待检测的图像中是否包含商业广告信息。
可以看到,本申请实施例为两个子模型输出的预测结果P1和P2设置了对应的阈值,根据P1、P2的值与第一阈值、第二阈值的比较结果确定最后的分类结果,实际应用中,通过设置合适的第一阈值、第二阈值,可满足不同的识别、过滤精度要求。
举例来说,对于广告图像而言,可认为其中的联系方式信息是主要表征其广告属性的信息,比较而言,其中的广告图标信息、广告文本信息和/或图像篡改信息属于次要的广告属性信息,则可将P1对应的第一阈值设置为大于或等于0.5,将P2对应的第二阈值设置为可以低于0.5(例如为0.4),如此,在第一图像分类子模型预测图像中包括联系方式信息的概率P1大于或等于0.5时,以及在第二图像分类子模型预测图像中包括广告图标信息、广告文本信息和/或图像篡改信息的概率P2大于或等于0.4时,图像分类模型即确定并输出预测结果:图像中包含商业广告信息,或者说该图像为广告图像。
不同地,在其他应用场合中,如果认为联系方式信息与广告图标信息、广告文本信息和/或图像篡改信息的重要程度相当,或者希望提高模型的设备精度,则可设置第一阈值和第二阈值均为0.5,则两个子模型的预测概率P1、P2均大于或等于0.5时才会将图像识别为广告图像。利用本神奇的实施例,可通过灵活配置阈值调整图像分类模型的处理精度。
参考图2,基于本申请实施例的图像分类装置,可实现一种图像分类方法,包括如下步骤:
S201,图像接收模块接收待检测图像,并将所述待检测图像输入所述图像分类模型的所述至少一个目标层,
S202,图像分类模型接收所述第一图像分类子模型的输出和所述第二图像分类子模型的输出;
S203,分析处理模块按照预设规则对所述第一图像分类子模型的输出和所述第二图像分类子模型的输出进行分析处理,以得到所述待检测图像的分类结果。
利用本申请实施例的图像分类方法处理待检测图像,能够检测图像中的特定信息例如商业广告信息或色情图像信息等,处理过程用时短效率高。
以上描述了利用本申请实施例训练至少两个神经网络的方法以及生成的图像分类模型。进一步地,以下描述利用本申请实施例训练至少四个神经网络的方法以及生成的图像分类模型。
参考图3,本申请实施例还提供一种生成图像分类模型的方法,包括如下步骤:
S301,基于第一图像训练数据集训练第一神经网络,提取第一神经网络在至少第一目标层上的第一网络参数作为第一目标特征,保持该层的第一网络参数不变,并迭代后续层上的其他网络参数,以获得第一图像分类子模型;
S302,基于第二图像训练数据集训练第二神经网络,所述第二神经网络具有与所述第一神经网络的至少第一目标层相对应的层,在该对应的层上同样提取第一网络参数作为第二目标特征,保持该层的第一网络参数不变,并迭代后续层上的其他网络参数,以获得第二图像分类子模型;
S303,基于第三图像训练数据集训练第三神经网络,所述第三神经网络具有与所述第二神经网络的至少第一目标层和第二目标层相对应的层,在该对应的层上以所述第二图像分类子模型的网络参数作为初始化参数,保持该对应的层的网络参数不变,并迭代后续层上的其他网络参数,以获得第三图像分类子模型;
S304,基于第四图像训练数据集训练第四神经网络,所述第四神经网络具有与所述第二神经网络的至少第一目标层和第二目标层相对应的层,在该对应的层上以所述第二图像分类子模型的网络参数作为初始化参数,保持该对应的层的网络参数不变,并迭代后续层上的其他网络参数,以获得第四图像分类子模型;
S305,将所述第一图像分类子模型、所述第二图像分类子模型、所述第三图像分类子模型和所述第四图像分类子模型融合形成目标图像分类模型,所述目标图像分类模型用于对待检测的图像进行分类。
本实施例对四个神经网络进行训练后实施融合,并且在前述的训练两个神经网络的方法实施例基础上,本实施例提出“分段共用”的思想,体现在训练过程中具体为:对于第一神经网络中的至少第一目标层、第二神经网络中的至少第一目标层、第三神经网络中的至少第一目标层和第二目标层、第四神经网络中的至少第一目标层和第二目标层,在训练过程中,保持以上各神经网络中的目标层的网络参数不变,对各神经网络中的后续层上的其他网络参数进行迭代更新,第一神经网络训练完成后得到的第一图像分类子模型,第二神经网络训练完成后得到的第二图像分类子模型,并且进一步地,在第二神经网络训练完成得到的第二图像分类子模型之后,才开始训练第三神经网络和第四神经网络,并以第二图像分类子模型的网络参数作为第三神经网络和第四神经网络的初始化参数,在分别训练第三神经网络和第四神经网络时,保持其中的至少第一目标层和第二目标层的网络参数不变,对后续层上的其他网络参数迭代更新,达到迭代停止条件时训练完成,分别得到第三图像分类子模型和第四图像分类子模型。
可以看到,对于得到的四个图像分类子模型,它们的至少第一目标层的网络参数一致,因此四个图像分类子模型可共用该至少第一目标层;进一步地,第二、第三和第四图像分类子模型的至少第二目标层的网络参数一致,因此第二、第三和第四图像分类子模型除可共用至少第一目标层之外,还可进一步共用该至少第二目标层,形成“分段共用”。
关于训练数据集,由于四个神经网络对应四种分类任务,因此采用的四个训练数据集(第一、第二、第三和第四图像训练数据集)可以互不相同、相互独立,当然它们中的任意多个图像训练数据集也可以相同,或者一部分相同、一部分不同,只要携带有至少一种分类任务的标注标签,即可作为对应的训练数据使用,达到训练数据解耦的效果,可降低多任务标签的标注复杂度,扩大可用训练数据的范围,降低标注成本。
在本申请的实施例中,所述第一图像训练数据集包括经过标注的图像,标注数据用于表征图像中是否包括第一类信息,例如用于表征图像中是否包括联系方式信息;
所述第二图像训练数据集包括经过标注的图像,标注数据用于表征图像中是否包括第二类信息,例如用于表征图像中是否包括广告图标信息;
所述第三图像训练数据集包括经过标注的图像,标注数据用于表征图像中是否包括第三类信息,例如用于表征图像中是否包括广告文本信息;
所述第四图像训练数据集包括经过标注的图像,标注数据用于表征图像中是否包括第四类信息,例如用于表征图像中是否包括图像篡改信息。
在本申请的实施例中,将第一、第二、第三和第四图像分类子模型融合形成目标图像分类模型,可通过如下处理实现:
第一、第二、第三和第四图像分类子模型共用所述至少第一目标层;
第二、第三和第四图像分类子模型共用所述至少第一目标层和第二目标层;以及,
按照预设规则对第一、第二、第三和第四图像分类子模型的输出进行分析处理,以得到所述目标图像分类模型的分类结果。
在本申请的实施例中,所述第一图像分类子模型的输出为图像中包括联系方式信息的概率P1;所述第二图像分类子模型的输出为图像中包括广告图标信息的概率P2;所述第三图像分类子模型的输出为图像中包括广告文本信息的概率P3;所述第四图像分类子模型的输出为图像中包括图像篡改信息的概率P4;
在本申请的实施例中,按照预设规则对第一、第二、第三和第四图像分类子模型的输出进行分析处理,可通过如下处理实现:
a)如果P2属于第一区间、P3小于或等于第三阈值,则将P2修改为小于0.5的数值;
b)如果P2属于第一区间、P3大于所述第三阈值,则不修改P2;
c)如果P2属于第一区间、P4大于或等于第四阈值,则将P2修改为大于0.5的数值;
d)如果P2属于第一区间、P4小于所述第四阈值,则不修改P2;
e)如果P2不属于第一区间,则不修改P2;
f)如果修改后的P2属于第二区间、P1大于或等于第一阈值,则将P2修改为大于0.5的数值;
g)如果修改后的P2属于第三区间、P1小于或等于第一阈值,则将P2修改为小于0.5的数值;
其中,所述第二区间中的各个数值小于所述第三区间中的各个数值,根据得到的P2值可以确定所述待检测的图像中是否包含商业广告信息。
利用本申请实施例的生成图像分类模型的方法训练至少四个神经网络可得到图像分类模型,基于图像分类模型可得到图像分类装置。
在本申请的实施例中,所述图像分类装置包括图像接收模块、图像分类模型和分析处理模块,其中,所述图像接收模块用于接收待检测图像,并将所述待检测图像发送给所述图像分类模型中的所述至少第一目标层;所述图像分类模型中的所述第一图像分类子模型、所述第二图像分类子模型、所述第三图像分类子模型和所述第四图像分类子模型共用所述至少第一目标层,并且,所述第二图像分类子模型、所述第三图像分类子模型和所述第四图像分类子模型共用所述至少第一目标层和第二目标层;所述分析处理模块用于按照预设规则对所述第一图像分类子模型的输出、所述第二图像分类子模型的输出、所述第三图像分类子模型的输出和所述第四图像分类子模型的输出进行分析处理,以得到所述待检测图像的分类结果。
在本申请的实施例中,所述第一图像分类子模型用于预测图像中是否包括联系方式信息;所述第二图像分类子模型用于预测图像中是否包括广告图标信息;所述第二图像分类子模型用于预测图像中是否包括广告文本信息;所述第二图像分类子模型用于预测图像中是否包括图像篡改信息。
参考图4,基于本申请上述实施例的图像分类装置可实现一种图像分类方法,包括如下步骤:
S401,图像接收模块接收待检测图像,并将所述待检测图像输入所述图像分类模型的所述至少第一目标层,
S402,图像分类模型接收所述第一图像分类子模型的输出、所述第二图像分类子模型的输出、所述第三图像分类子模型的输出和所述第四图像分类子模型的输出;
S403,分析处理模块按照预设规则对所述第一图像分类子模型的输出、所述第二图像分类子模型的输出、所述第三图像分类子模型的输出和所述第四图像分类子模型的输出进行分析处理,以得到所述待检测图像的分类结果。
以上描述了利用本申请实施例训练至少四个神经网络的方法,以下通过具体的例子,详细描述本申请实施例的具体处理过程。
图5示意性地示出了利用本申请实施例的生成图像分类模型的方法训练四个神经网络的过程示意图,训练的基础网络为resnet50,在训练过程中,对四个分支依次单独训练,通过固定某些网络层参数不变,实现不同分支间的特征共享。如图5所示,在特征提取阶段1-2之后分为两个分支,两个分支分别负责执行多任务分类和检测。图5中特征提取阶段1-2和特征提取阶段3-4体现分段特征共享原则,并通过算法末尾的两处逻辑判断(逻辑判断一和逻辑判断二)将多个任务分支的处理结果进行融合,得到最终输出的分类结果。以下对训练数据集、训练过程等内容进行详细描述。
首先,关于训练样本的标注数据集,可标注四个独立的数据集,分别为:联系方式检测数据集、广告二分类数据集、文本二分类数据集、图片篡改二分类数据集。其中,联系方式检测数据集中需标注图片中是否存在联系方式信息(例如固定电话号码、QQ号、手机号码、其他联系号码、app用户名等);三个分类任务(广告二分类、文本二分类、图片篡改二分类)的数据集分别需要标注图片中是否有广告图标信息、是否有广告文字信息、是否有图片篡改信息(例如图片中的PS篡改痕迹)。
此外,根据实际需求,还可标注联系方式信息出现的位置和/或尺寸等信息,则生成的模型可检测并输出联系方式信息在图片中的位置和/或尺寸等信息,这样处理的原因在于,对于广告图片而言,为了尽量扩大其广而告之的效果,其中的联系方式信息位于靠近图片中央区域的可能性高于其位于边缘区域的可能性,且联系方式信息占据大尺寸的可能性亦较高,因此,获取图片中联系方式信息的位置和/或尺寸等信息,不仅能够定位图片中的联系方式信息,如果该联系方式信息出现在靠近图片中央区域的位置和/或占据较大尺寸的面积,说明该图片为广告图片的概率较高。
其中,对于训练算法的联系方式检测分支,该检测分支的骨干网络为resnet50,可以以ImageNet数据集上预训练的参数进行初始化,使用标注好的联系方式检测数据集进行训练。Resnet50基础网络共包含特征提取的stg1-4四个阶段,该检测分支还包含其他专属网络层,在训练过程中,固定resnet50网络特征提取的stg1-2阶段的所有网络参数不变,其余所有层(除了stg1-2之外的所有网络层)的网络参数跟随训练迭代进行更新。相对于一般的对网络中的所有参数都进行更新的迭代方式,本申请实施例的分段共享机制可缩短训练周期。
其中,对于训练算法的三个分类分支,三个分类分支的基础网络一致,也采用resnet50,三个分类分支分别为广告图标二分类、广告文本二分类和图片篡改二分类,具体来看,
首先,在广告数据集上训练广告图标二分类分支,网络特征提取阶段采用resnet50的网络结构设计,以ImageNet数据集上预训练的参数进行初始化。训练过程中,固定resnet50网络特征提取的stg1-2阶段所有网络参数不变,其余所有层的网络参数跟随训练迭代更新。
其次,训练广告文本二分类分支,网络特征提取阶段同样采用resnet50的网络结构设计,其中特征提取stg1-4阶段,以广告分支训练得到的网络参数作为初始化参数,在训练过程中固定这部分参数不变,广告文本二分类分支其余所有层的参数在随机初始化后随训练迭代更新。
再次,训练图片篡改二分类分支,训练方式与广告文本二分类分支一致,以广告图标分支的stg1-4阶段参数进行初始化,并固定这部分参数不变,其余所有层参数在随机初始化后随训练迭代更新。
基于上述训练方式,训练过程中,各分支单独训练,训练数据可以解耦,不需要为每个训练图像标注所有的检测、分类任务标签,可依次训练联系方式检测分支、广告图标二分类分支、广告文本二分类分支、PS篡改二分类分支。并且,训练时采用了先预训练,再参数初始化,再固定某些层参数不变的方式,四个任务共享resnet50特征提取stg1-2的参数进行通用特征提取,三个分类任务分支共享stg3-4的参数进行分类特征提取,每个分支的其余层参数随各自训练过程迭代更新。训练完成后,得到四个子模型可分段共用基础网络参数的训练结果,1-2阶段参数为四个子模型共用,以及3-4阶段参数为三个分类分支的子模型共用。
训练完成后,将检测分支与三个分类分支生成的子模型融合。整个算法的四个任务分支在特征提取阶段都采用resnet50的网络结构设计,四个分支的stg1-2阶段参数共享,三个分类任务分支的stg3-4阶段参数共享。对四个分支进行融合,将参数共享的stg1-2、stg3-4阶段进行融合拼接,也就是,将4个模型拼成一个模型,其中,基础网络的1-2阶段为四个子模型全部融合,基础网络的3-4阶段为后三个分类子模型融合,并且各个子模型的其余部分均是分开的。如此,四个分支形成一个统一的广告图像分类模型,可用于对图像进行检测、识别、分类、过滤等处理,例如对网络环境中的图像进行检测识别,如果图像中含有联系方式、广告图标(如商号logo)、广告文本(如商品宣传语)和/或PS篡改痕迹,该模型能够将这些图像分类为广告图像,需要时可将广告图像过滤掉。
对于生成的统一的广告图像分类模型,其中还包括两级逻辑判断的处理,用于对四个分支的子模型的四个预测概率进行逻辑判断处理,得到统一的广告图像分类模型的分类结果。
通过以下实施例描述两级逻辑判断的处理方式。
(1)服务端收到图像广告识别请求。
(2)对待识别的图像进行预处理,例如,将图像的大小统一转换到预定尺寸H×W,还可对待识别图像做去均值处理。
(3)前向推理计算:将预处理后的数据输入到广告图像分类模型,经过分段共享的stg1-2和stg3-4提取并分析特征,分别送往检测分支和多任务分类分支。检测分支可输出图像中存在某种联系方式的概率PTel,多任务分类分支可分别输出图像中有广告图标的概率PAD、有广告文字的概率PText以及有PS篡改添加的概率PPS
(4)四个概率值分段通过逻辑规则判断,输出最终分类结果。
关于分段逻辑规则判断,图像经过模型算法的前向推理过程后,可获得一个检测结果和三个分类结果(含有某种联系方式的概率PTel、含有广告图标的概率PAD、含有广告文字的概率PText、含有PS篡改的概率PPS),四种概率结果均在0到1之间。利用逻辑规则一处理三个分类结果PAD、PText和PPS,可得到初步的分类分支结果,再利用逻辑规则二处理该初步的分类分支结果与概率PTel,可得出最终的分类标签。
A.关于逻辑规则一
由于广告信息经常以文本形式存在,并且多是以PS篡改的形式添加在原图中,因此,可以综合考虑图像广告图标分类、广告文本分类和PS篡改分类的结果,对图像得出更准确的广告判定标签,多任务分类分支的逻辑规则一如图6所示。
具体地,可通过统计具体任务中数据分布情况,设定以下多个阈值:
a)广告图标二分类分支的概率PAD对应的阈值区间D1=[TAD1,TAD2],
b)广告文本二分类分支的概率PText对应的阈值TText
c)PS篡改二分类的概率PPS对应的阈值TPS
根据逻辑规则一执行如下处理:
1)如果PAD不属于D1范围,即认为广告图标二分类子模型的结果置信度较高,则对PAD不做修改;否则,依次考虑PText和PPS
2)如果PText小于TText,即认为图像中存在广告文字的概率较小,可认为图像中存在广告信息的概率较小,因此将PAD修改为较低的概率值,应低于0.5,例如将PAD修改为0.2;如果PText大于TText,则对PAD不做修改;
3)如果PPS大于TPS,即认为图像中存在PS篡改的概率较大,可认为图像中存在广告信息的概率较大,将PAD修改为较高的概率值,应高于0.5,例如将PAD修改为0.7;如果PPS小于TPS,则对PAD不做修改。
B.逻辑规则二
由于广告信息通常以联系方式的形式存在,因此,可综合考虑广告分类结果和联系方式检测结果,对图像得出更准确的广告判定标签,检测分支和多任务分类分支融合后的逻辑规则二如图7所示。
具体地,可通过统计具体任务中数据分布情况,设定以下多个阈值:
a)多任务分类分支的概率PAD对应的阈值区间D2=[TAD3,0.5)和D3=[0.5,TAD4],
b)检测分支的概率PTel对应的阈值TTel
根据逻辑规则一执行如下处理:
1)如果PAD属于D2,且PTel大于TTel,则认为算法对输入图像初判为非广告,并且图中存在联系方式的概率很大,因此,将PAD修改为较高的概率值,应高于0.5,例如将PAD修改为0.51;
2)如果PAD属于D3,且PTel小于TTel,则认为算法对输入图像初判为广告,且图中存在联系方式的概率很小,因此,将PAD修改为较低的概率值,应低于0.5,例如将PAD修改为0.49。
基于以上描述的逻辑规则一和逻辑规则二,并结合前文阐述的联系方式信息在广告图像中为主要的属性表征信息,可以看到,本申请实施例中设置的两级逻辑判断处理中,将联系方式信息对应的判断过程(对概率PTel的处理)放置在第二级逻辑判断环节(逻辑规则二),如此,在其余分支的预测概率符合逻辑规则一的基础上,再通过逻辑规则二分析联系方式信息对应的概率PTel,基于此得到分类结果,具体地根据逻辑规则二,如果图中存在联系方式的概率很大,将PAD修改为0.51,而如果图中存在联系方式的概率很小,将PAD修改为0.49,图像分类模型输出的结果为PAD代表的结果。通过上述方式,将实际中广告图像的属性与模型的判断结果关联起来,模型的逻辑处理结果与实际情况、应用需求相适应,能够更准确、快速地对大量图像进行识别,用于实现对特定图像的筛选过滤。
为了便于更直观地理解本申请的实施例,图8中示意性地示出一个具体应用实例的效果图,输入图像经过图像分类模型前向推理过程,计算得出PAD为0.4392,PText为0.9762,PPS为0.7890,PTel为0.9071,三个二分类任务分支经过逻辑规则一处理,得出PAD为0.7000,结合联系方式检测结果,经过逻辑规则二处理,得出图像最终判断为广告的概率PAD为0.5100,图像分类模型输出的标签为“广告”。
本申请的实施例将多个分类和检测任务融合为一个统一的广告图像过滤算法,从多个任务角度出发提取图像多方面特征,计算准确率高;采用的多段特征共享方式可以提高中间层特征利用率,提升算法性能;训练过程中数据标签解耦,各分支单独训练,可降低标注成本,简化训练难度,维护算法整体增添或删减任务分支的灵活性。
示例性介质
在介绍了本发明示例性实施方式的方法之后,接下来,参考图9对本发明示例性实施方式的介质进行说明。
在一些可能的实施方式中,本发明的各个方面还可以实现为一种计算机可读介质,其上存储有程序,当所述程序被处理器执行时用于实现本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的生成图像分类模型的方法中的步骤。
上述处理器执行上述程序时用于实现如下步骤:
基于第一图像训练数据集训练第一神经网络,提取第一神经网络在至少一个目标层上的第一网络参数作为第一目标特征,保持该层的第一网络参数不变,并迭代后续层上的其他网络参数,以获得第一图像分类子模型;
基于第二图像训练数据集训练第二神经网络,所述第二神经网络具有与所述第一神经网络的至少一个目标层相对应的层,在该对应的层上同样提取第一网络参数作为第二目标特征,保持该层的第一网络参数不变,并迭代后续层上的其他网络参数,以获得第二图像分类子模型;以及,
将所述第一图像分类子模型和所述第二图像分类子模型融合形成目标图像分类模型,所述目标图像分类模型用于对待检测的图像进行分类。
需要说明的是:上述的介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
如图9所示,描述了根据本发明的实施方式的介质60,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序,并可以在设备上运行。然而,本发明不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于:电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算设备。
示例性装置
在介绍了本申请示例性实施方式的介质之后,接下来,参考图10对本申请示例性实施方式的生成图像分类模型的装置100进行说明,包括:
第一训练模块101,用于基于第一图像训练数据集训练第一神经网络,提取第一神经网络在至少一个目标层上的第一网络参数作为第一目标特征,保持该层的第一网络参数不变,并迭代后续层上的其他网络参数,以获得第一图像分类子模型;
第二训练模块102,用于基于第二图像训练数据集训练第二神经网络,第二神经网络具有与第一神经网络的至少一个目标层相对应的层,在该对应的层上同样提取第一网络参数作为第二目标特征,保持该层的第一网络参数不变,并迭代后续层上的其他网络参数,以获得第二图像分类子模型;
融合处理模块103,用于将第一图像分类子模型和第二图像分类子模型融合形成目标图像分类模型,目标图像分类模型用于对待检测的图像进行分类。
如图11所示,本申请实施例还提供一种图像分类装置110,其基于前述的生成图像分类模型的方法所生成的图像分类模型,图像分类装置110包括图像接收模块111、图像分类模型112和分析处理模块113,其中,
图像接收模块111用于接收待检测图像,并将待检测图像发送给图像分类模型中的至少一个目标层,
图像分类模型112中的第一图像分类子模型和第二图像分类子模型共用至少一个目标层,
分析处理模块113用于按照预设规则对第一图像分类子模型的输出和第二图像分类子模型的输出进行分析处理,以得到待检测图像的分类结果。
在一种实施方式中,第一图像分类子模型用于预测图像中是否包括第一类信息;第二图像分类子模型用于预测图像中是否包括第二类信息。
在一种实施方式中,第一图像分类子模型用于预测图像中是否包括联系方式信息;第二图像分类子模型用于预测图像中是否包括以下至少一项:广告图标信息、广告文本信息、图像篡改信息。
在一种实施方式中,第一图像分类子模型的输出为图像中包括联系方式信息的概率P1;第二图像分类子模型的输出为图像中包括以下至少一项的概率P2:广告图标信息、广告文本信息、图像篡改信息;
分析处理模块113用于将P1与第一阈值比较,得到第一比较结果,
分析处理模块113还用于将P2与第二阈值比较,得到第二比较结果,
分析处理模块113还用于根据第一比较结果和第二比较结果确定待检测的图像中是否包含商业广告信息。
如图12所示,本申请实施例还提供一种生成图像分类模型的装置130,包括:
第一训练模块131,用于基于第一图像训练数据集训练第一神经网络,提取第一神经网络在至少第一目标层上的第一网络参数作为第一目标特征,保持该层的第一网络参数不变,并迭代后续层上的其他网络参数,以获得第一图像分类子模型;
第二训练模块132,用于基于第二图像训练数据集训练第二神经网络,第二神经网络具有与第一神经网络的至少第一目标层相对应的层,在该对应的层上同样提取第一网络参数作为第二目标特征,保持该层的第一网络参数不变,并迭代后续层上的其他网络参数,以获得第二图像分类子模型;
第三训练模块133,用于基于第三图像训练数据集训练第三神经网络,第三神经网络具有与第二神经网络的至少第一目标层和第二目标层相对应的层,在该对应的层上以第二图像分类子模型的网络参数作为初始化参数,保持该对应的层的网络参数不变,并迭代后续层上的其他网络参数,以获得第三图像分类子模型;
第四训练模块134,用于基于第四图像训练数据集训练第四神经网络,第四神经网络具有与第二神经网络的至少第一目标层和第二目标层相对应的层,在该对应的层上以第二图像分类子模型的网络参数作为初始化参数,保持该对应的层的网络参数不变,并迭代后续层上的其他网络参数,以获得第四图像分类子模型;
融合处理模块135,用于将第一图像分类子模型、第二图像分类子模型、第三图像分类子模型和第四图像分类子模型融合形成目标图像分类模型,目标图像分类模型用于对待检测的图像进行分类。
如图13所示,本申请实施例还提供一种图像分类装置140,其基于前述的生成图像分类模型的方法所生成的图像分类模型,图像分类装置140包括图像接收模块141、图像分类模型142和分析处理模块143,其中,
图像接收模块141用于接收待检测图像,并将待检测图像发送给图像分类模型中的至少第一目标层,
图像分类模块142中的第一图像分类子模型、第二图像分类子模型、第三图像分类子模型和第四图像分类子模型共用至少第一目标层,并且,第二图像分类子模型、第三图像分类子模型和第四图像分类子模型共用至少第一目标层和第二目标层;
分析处理模块143用于按照预设规则对第一图像分类子模型的输出、第二图像分类子模型的输出、第三图像分类子模型的输出和第四图像分类子模型的输出进行分析处理,以得到待检测图像的分类结果。
在一种实施方式中,第一图像训练数据集包括经过标注的图像,标注数据用于表征图像中是否包括第一类信息;
第二图像训练数据集包括经过标注的图像,标注数据用于表征图像中是否包括第二类信息;
第三图像训练数据集包括经过标注的图像,标注数据用于表征图像中是否包括第三类信息;
第四图像训练数据集包括经过标注的图像,标注数据用于表征图像中是否包括第四类信息。
在一种实施方式中,第一图像训练数据集包括经过标注的图像,标注数据用于表征图像中是否包括联系方式信息;
第二图像训练数据集包括经过标注的图像,标注数据用于表征图像中是否包括广告图标信息;
第一图像训练数据集包括经过标注的图像,标注数据用于表征图像中是否包括广告文本信息;
第二图像训练数据集包括经过标注的图像,标注数据用于表征图像中是否包括图像篡改信息。
在一种实施方式中,第一图像分类子模型用于预测图像中是否包括联系方式信息;
第二图像分类子模型用于预测图像中是否包括广告图标信息;
第二图像分类子模型用于预测图像中是否包括广告文本信息;
第二图像分类子模型用于预测图像中是否包括图像篡改信息。
在一种实施方式中,第一图像分类子模型的输出为图像中包括联系方式信息的概率P1,
第二图像分类子模型的输出为图像中包括广告图标信息的概率P2;
第三图像分类子模型的输出为图像中包括广告文本信息的概率P3;
第四图像分类子模型的输出为图像中包括图像篡改信息的概率P4;
按照预设规则对第一图像分类子模型、第二图像分类子模型、第三图像分类子模型和第四图像分类子模型的输出进行分析处理,包括:
如果P2属于第一区间、P3小于或等于第三阈值,则将P2修改为小于0.5的数值;
如果P2属于第一区间、P3大于第三阈值,则不修改P2;
如果P2属于第一区间、P4大于或等于第四阈值,则将P2修改为大于0.5的数值;
如果P2属于第一区间、P4小于第四阈值,则不修改P2;
如果P2不属于第一区间,不修改P2;
如果修改后的P2属于第二区间、P1大于或等于第一阈值,则将P2修改为大于0.5的数值;
如果修改后的P2属于第三区间、P1小于或等于第一阈值,则将P2修改为小于0.5的数值;
其中,第二区间中的各个数值小于第三区间中的各个数值;
根据得到的P2值确定待检测的图像中是否包含商业广告信息。
示例性计算设备
在介绍了本申请示例性实施方式的方法、介质和装置之后,接下来,参考图14对本申请示例性实施方式的计算设备进行说明。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在一些可能的实施方式中,根据本申请实施方式的计算设备可以至少包括至少一个处理单元以及至少一个存储单元。其中,所述存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本申请的各种示例性实施方式的模拟接口配置方法中的步骤。
下面参照图14来描述根据本申请的这种实施方式的计算设备80。图14显示的计算设备80仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图14所示,计算设备80以通用计算设备的形式表现。计算设备80的组件可以包括但不限于:上述至少一个处理单元801、上述至少一个存储单元802,连接不同系统组件(包括处理单元801和存储单元802)的总线803。
总线803包括数据总线、控制总线和地址总线。
存储单元802可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)8021和/或高速缓存存储器8022,可以进一步包括非易失性存储器形式的可读介质,例如只读存储器(ROM)8023。
存储单元802还可以包括具有一组(至少一个)程序模块8024的程序/实用工具8025,这样的程序模块8024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算设备80也可以与一个或多个外部设备804(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口805进行。并且,计算设备80还可以通过网络适配器806与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图8所示,网络适配器806通过总线803与计算设备80的其它模块通信。应当理解,尽管图中未示出,可以结合计算设备80使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了模拟接口配置装置的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本申请的精神和原理,但是应该理解,本申请并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本申请旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (10)

1.一种生成图像分类模型的方法,其特征在于,包括:
基于第一图像训练数据集训练第一神经网络,提取第一神经网络在至少一个目标层上的第一网络参数作为第一目标特征,保持该层的第一网络参数不变,并迭代后续层上的其他网络参数,以获得第一图像分类子模型;
基于第二图像训练数据集训练第二神经网络,所述第二神经网络具有与所述第一神经网络的至少一个目标层相对应的层,在该对应的层上同样提取第一网络参数作为第二目标特征,保持该层的第一网络参数不变,并迭代后续层上的其他网络参数,以获得第二图像分类子模型;
将所述第一图像分类子模型和所述第二图像分类子模型融合形成目标图像分类模型,所述目标图像分类模型用于对待检测的图像进行分类。
2.根据权利要求1所述的方法,其特征在于,
所述第一图像训练数据集包括经过标注的图像,标注数据用于表征图像中是否包括联系方式信息;
所述第二图像训练数据集包括经过标注的图像,标注数据用于表征以下至少一项:图像中是否包括广告图标信息、图像中是否包括广告文本信息、图像中是否包括图像篡改信息。
3.一种生成图像分类模型的装置,其特征在于,包括:
第一训练模块,用于基于第一图像训练数据集训练第一神经网络,提取第一神经网络在至少一个目标层上的第一网络参数作为第一目标特征,保持该层的第一网络参数不变,并迭代后续层上的其他网络参数,以获得第一图像分类子模型;
第二训练模块,用于基于第二图像训练数据集训练第二神经网络,所述第二神经网络具有与所述第一神经网络的至少一个目标层相对应的层,在该对应的层上同样提取第一网络参数作为第二目标特征,保持该层的第一网络参数不变,并迭代后续层上的其他网络参数,以获得第二图像分类子模型;
融合处理模块,用于将所述第一图像分类子模型和所述第二图像分类子模型融合形成目标图像分类模型,所述目标图像分类模型用于对待检测的图像进行分类。
4.一种图像分类装置,其特征在于,所述图像分类装置基于由权利要求3所述的方法生成的图像分类模型,所述图像分类装置包括图像接收模块、图像分类模型和分析处理模块,其中,
所述图像接收模块用于接收待检测图像,并将所述待检测图像发送给所述图像分类模型中的所述至少一个目标层,
所述图像分类模型中的所述第一图像分类子模型和所述第二图像分类子模型共用所述至少一个目标层,
所述分析处理模块用于按照预设规则对所述第一图像分类子模型的输出和所述第二图像分类子模型的输出进行分析处理,以得到所述待检测图像的分类结果。
5.一种图像分类方法,其特征在于,所述图像分类方法基于如权利要求4所述的图像分类装置,所述图像分类方法包括:
图像接收模块接收待检测图像,并将所述待检测图像输入所述图像分类模型的所述至少一个目标层,
图像分类模型接收所述第一图像分类子模型的输出和所述第二图像分类子模型的输出;
分析处理模块按照预设规则对所述第一图像分类子模型的输出和所述第二图像分类子模型的输出进行分析处理,以得到所述待检测图像的分类结果。
6.一种生成图像分类模型的方法,其特征在于,包括:
基于第一图像训练数据集训练第一神经网络,提取第一神经网络在至少第一目标层上的第一网络参数作为第一目标特征,保持该层的第一网络参数不变,并迭代后续层上的其他网络参数,以获得第一图像分类子模型;
基于第二图像训练数据集训练第二神经网络,所述第二神经网络具有与所述第一神经网络的至少第一目标层相对应的层,在该对应的层上同样提取第一网络参数作为第二目标特征,保持该层的第一网络参数不变,并迭代后续层上的其他网络参数,以获得第二图像分类子模型;
基于第三图像训练数据集训练第三神经网络,所述第三神经网络具有与所述第二神经网络的至少第一目标层和第二目标层相对应的层,在该对应的层上以所述第二图像分类子模型的网络参数作为初始化参数,保持该对应的层的网络参数不变,并迭代后续层上的其他网络参数,以获得第三图像分类子模型;
基于第四图像训练数据集训练第四神经网络,所述第四神经网络具有与所述第二神经网络的至少第一目标层和第二目标层相对应的层,在该对应的层上以所述第二图像分类子模型的网络参数作为初始化参数,保持该对应的层的网络参数不变,并迭代后续层上的其他网络参数,以获得第四图像分类子模型;
将所述第一图像分类子模型、所述第二图像分类子模型、所述第三图像分类子模型和所述第四图像分类子模型融合形成目标图像分类模型,所述目标图像分类模型用于对待检测的图像进行分类。
7.一种图像分类装置,其特征在于,所述图像分类装置基于由权利要求6所述的方法生成的图像分类模型,所述图像分类装置包括图像接收模块、图像分类模型和分析处理模块,其中,
所述图像接收模块用于接收待检测图像,并将所述待检测图像发送给所述图像分类模型中的所述至少第一目标层,
所述图像分类模型中的所述第一图像分类子模型、所述第二图像分类子模型、所述第三图像分类子模型和所述第四图像分类子模型共用所述至少第一目标层,并且,所述第二图像分类子模型、所述第三图像分类子模型和所述第四图像分类子模型共用所述至少第一目标层和第二目标层;
所述分析处理模块用于按照预设规则对所述第一图像分类子模型的输出、所述第二图像分类子模型的输出、所述第三图像分类子模型的输出和所述第四图像分类子模型的输出进行分析处理,以得到所述待检测图像的分类结果。
8.一种图像分类方法,其特征在于,所述图像分类方法基于如权利要求7所述的图像分类装置,所述图像分类方法包括:
图像接收模块接收待检测图像,并将所述待检测图像输入所述图像分类模型的所述至少第一目标层,
图像分类模型接收所述第一图像分类子模型的输出、所述第二图像分类子模型的输出、所述第三图像分类子模型的输出和所述第四图像分类子模型的输出;
分析处理模块按照预设规则对所述第一图像分类子模型的输出、所述第二图像分类子模型的输出、所述第三图像分类子模型的输出和所述第四图像分类子模型的输出进行分析处理,以得到所述待检测图像的分类结果。
9.一种计算设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1、2、5和8中任一项所述的方法。
10.一种非易失性计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1、2、5和8中任一项所述的方法。
CN202011003484.7A 2020-09-22 2020-09-22 生成图像分类模型的方法、图像分类方法、装置和设备 Pending CN112070093A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011003484.7A CN112070093A (zh) 2020-09-22 2020-09-22 生成图像分类模型的方法、图像分类方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011003484.7A CN112070093A (zh) 2020-09-22 2020-09-22 生成图像分类模型的方法、图像分类方法、装置和设备

Publications (1)

Publication Number Publication Date
CN112070093A true CN112070093A (zh) 2020-12-11

Family

ID=73682414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011003484.7A Pending CN112070093A (zh) 2020-09-22 2020-09-22 生成图像分类模型的方法、图像分类方法、装置和设备

Country Status (1)

Country Link
CN (1) CN112070093A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569894A (zh) * 2021-02-09 2021-10-29 腾讯科技(深圳)有限公司 图像分类模型的训练方法、图像分类方法、装置及设备
WO2023045149A1 (zh) * 2021-09-26 2023-03-30 上海闻泰电子科技有限公司 图像融合方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447259A (zh) * 2018-09-21 2019-03-08 北京字节跳动网络技术有限公司 多任务处理及多任务处理模型训练方法、装置和硬件装置
US20200026910A1 (en) * 2017-03-31 2020-01-23 Beijing Sensetime Technology Development Co., Ltd. Gesture identification, control, and neural network training methods and apparatuses, and electronic devices
CN110879949A (zh) * 2018-09-05 2020-03-13 北京市商汤科技开发有限公司 基于融合神经网络的图像处理及网络的生成方法和装置
WO2020083073A1 (zh) * 2018-10-23 2020-04-30 苏州科达科技股份有限公司 非机动车图像多标签分类方法、系统、设备及存储介质
CN111259823A (zh) * 2020-01-19 2020-06-09 人民中科(山东)智能技术有限公司 一种基于卷积神经网络的色情图像识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200026910A1 (en) * 2017-03-31 2020-01-23 Beijing Sensetime Technology Development Co., Ltd. Gesture identification, control, and neural network training methods and apparatuses, and electronic devices
CN110879949A (zh) * 2018-09-05 2020-03-13 北京市商汤科技开发有限公司 基于融合神经网络的图像处理及网络的生成方法和装置
CN109447259A (zh) * 2018-09-21 2019-03-08 北京字节跳动网络技术有限公司 多任务处理及多任务处理模型训练方法、装置和硬件装置
WO2020083073A1 (zh) * 2018-10-23 2020-04-30 苏州科达科技股份有限公司 非机动车图像多标签分类方法、系统、设备及存储介质
CN111259823A (zh) * 2020-01-19 2020-06-09 人民中科(山东)智能技术有限公司 一种基于卷积神经网络的色情图像识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569894A (zh) * 2021-02-09 2021-10-29 腾讯科技(深圳)有限公司 图像分类模型的训练方法、图像分类方法、装置及设备
CN113569894B (zh) * 2021-02-09 2023-11-21 腾讯科技(深圳)有限公司 图像分类模型的训练方法、图像分类方法、装置及设备
WO2023045149A1 (zh) * 2021-09-26 2023-03-30 上海闻泰电子科技有限公司 图像融合方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
US11288551B2 (en) Edge-based adaptive machine learning for object recognition
US11188789B2 (en) Detecting poisoning attacks on neural networks by activation clustering
US20230237088A1 (en) Automatically detecting user-requested objects in digital images
US20200004815A1 (en) Text entity detection and recognition from images
US11538236B2 (en) Detecting backdoor attacks using exclusionary reclassification
CN109918513B (zh) 图像处理方法、装置、服务器及存储介质
US11487963B2 (en) Automatically determining whether an activation cluster contains poisonous data
CN113064964A (zh) 文本分类方法、模型训练方法、装置、设备以及存储介质
CN116049397B (zh) 基于多模态融合的敏感信息发现并自动分类分级方法
CN110046279B (zh) 视频文件特征的预测方法、介质、装置和计算设备
CN111931859A (zh) 一种多标签图像识别方法和装置
CN114330588A (zh) 一种图片分类方法、图片分类模型训练方法及相关装置
CN112070093A (zh) 生成图像分类模型的方法、图像分类方法、装置和设备
CN114419363A (zh) 基于无标注样本数据的目标分类模型训练方法及装置
CN112883990A (zh) 数据分类方法及装置、计算机存储介质、电子设备
US20220284343A1 (en) Machine teaching complex concepts assisted by computer vision and knowledge reasoning
US11321397B2 (en) Composition engine for analytical models
CN115546824B (zh) 禁忌图片识别方法、设备及存储介质
US11615618B2 (en) Automatic image annotations
CN112801960B (zh) 图像处理方法及装置、存储介质、电子设备
CN115017385A (zh) 一种物品搜索方法、装置、设备和存储介质
CN115565201B (zh) 禁忌图片识别方法、设备及存储介质
CN116886991B (zh) 生成视频资料的方法、装置、终端设备以及可读存储介质
US20230153971A1 (en) Detecting unacceptable detection and segmentation algorithm output
CN115482436B (zh) 图像筛选模型的训练方法、装置以及图像筛选方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20211011

Address after: 310052 Room 408, building 3, No. 399, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant after: Hangzhou Netease Zhiqi Technology Co.,Ltd.

Address before: 310052 Building No. 599, Changhe Street Network Business Road, Binjiang District, Hangzhou City, Zhejiang Province, 4, 7 stories

Applicant before: NETEASE (HANGZHOU) NETWORK Co.,Ltd.