CN111476309B - 图像处理方法、模型训练方法、装置、设备及可读介质 - Google Patents

图像处理方法、模型训练方法、装置、设备及可读介质 Download PDF

Info

Publication number
CN111476309B
CN111476309B CN202010286499.2A CN202010286499A CN111476309B CN 111476309 B CN111476309 B CN 111476309B CN 202010286499 A CN202010286499 A CN 202010286499A CN 111476309 B CN111476309 B CN 111476309B
Authority
CN
China
Prior art keywords
image
model
cross entropy
loss
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010286499.2A
Other languages
English (en)
Other versions
CN111476309A (zh
Inventor
赵金强
胡晓军
张允嘉
黄戎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Douyin Vision Co Ltd
Original Assignee
Douyin Vision Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Douyin Vision Co Ltd filed Critical Douyin Vision Co Ltd
Priority to CN202010286499.2A priority Critical patent/CN111476309B/zh
Publication of CN111476309A publication Critical patent/CN111476309A/zh
Application granted granted Critical
Publication of CN111476309B publication Critical patent/CN111476309B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本公开实施例提供了一种图像处理方法、模型训练方法、装置、电子设备及计算机可读介质,该方法包括:获取待识别的第一图像;将第一图像输入第一模型,获得第一模型输出的第一分类概率;其中,第一模型是以图像作为输入,以图像属于不良图像类型的分类概率作为输出的神经网络模型;第一模型是基于具有多层级分类标签的样本数据,通过包含多层级分类的交叉熵损失和度量学习损失的损失函数训练生成;当第一分类概率大于第一预设阈值时,确定第一图像为不良图像。该方法通过预训练的第一模型进行识别,该第一模型基于多层级分类和度量学习的方式进行图像识别,尤其对于类别内部分布差异较大的图像,能够提高识别精度。

Description

图像处理方法、模型训练方法、装置、设备及可读介质
技术领域
本公开涉及计算机技术领域,具体而言,本公开涉及一种图像处理方法、模型训练方法、装置、电子设备及计算机可读介质。
背景技术
随着互联网的普及,信息的传递越来越便捷,但是互联网上存在不良图像例如色情图片,为了清理网络信息,需要智能识别网络上的不良图像;传统方案基于交叉熵的图片识别算法进行识别,该方法在类别内部分布差异过大的时候,存在识别精度低的问题。
发明内容
提供该发明内容部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
仅描述独权方案即可,不用描述从权方案。
本公开针对现有的方式的缺点,提出一种图像处理方法、模型训练方法、装置、电子设备及计算机可读介质,用以解决如何提升识别不良图像的识别精度的问题。
第一方面,本公开提供了一种图像处理方法,包括:
获取待识别的第一图像;
将第一图像输入第一模型,获得第一模型输出的第一分类概率;其中,第一模型是以图像作为输入,以图像属于不良图像类型的分类概率作为输出的神经网络模型;第一模型是基于具有多层级分类标签的样本数据,通过包含多层级分类的交叉熵损失和度量学习损失的损失函数训练生成;
当第一分类概率大于第一预设阈值时,确定第一图像为不良图像。
第二方面,本公开提供了一种模型训练方法,包括:
获取样本数据集,样本数据集中每个样本数据包括具有多个层级的分类标签的图像;多个层级的分类标签用于表征图像是否为不良图像;
基于样本数据集,通过包含多层级分类的交叉熵损失和度量学习损失的损失函数对预设的模型进行训练,获得满足训练结束条件的模型。
第三方面,本公开提供了一种图像处理装置,包括:
第一处理模块,用于获取待识别的第一图像;
第二处理模块,用于将第一图像输入第一模型,获得第一模型输出的第一分类概率;其中,第一模型是以图像作为输入,以图像属于不良图像类型的分类概率作为输出的神经网络模型;第一模型是基于具有多层级分类标签的样本数据,通过包含多层级分类的交叉熵损失和度量学习损失的损失函数训练生成;
第三处理模块,用于当第一分类概率大于第一预设阈值时,确定第一图像为不良图像。
第四方面,本公开提供了一种模型训练装置,包括:
第四处理模块,用于获取样本数据集,样本数据集中每个样本数据包括具有多个层级的分类标签的图像;多个层级的分类标签用于表征图像是否为不良图像;
第五处理模块,用于基于样本数据集,通过包含多层级分类的交叉熵损失和度量学习损失的损失函数对预设的模型进行训练,获得满足训练结束条件的模型。
第五方面,本公开提供了一种电子设备,包括:处理器、存储器和总线;
总线,用于连接处理器和存储器;
存储器,用于存储操作指令;
处理器,用于通过调用操作指令,执行本公开第一方面或者第二方面的方法。
第六方面,本公开提供了一种计算机可读介质,存储有计算机程序,计算机程序被用于执行本公开第一方面或者第二方面的方法。
本公开实施例提供的技术方案,至少具有如下有益效果:
获取待识别的第一图像;将第一图像输入第一模型,获得第一模型输出的第一分类概率;其中,第一模型是以图像作为输入,以图像属于不良图像类型的分类概率作为输出的神经网络模型;第一模型是基于具有多层级分类标签的样本数据,通过包含多层级分类的交叉熵损失和度量学习损失的损失函数训练生成;当第一分类概率大于第一预设阈值时,确定第一图像为不良图像。在本公开提供的图像处理方法中,通过预训练的第一模型进行识别,该第一模型基于多层级分类和度量学习的方式进行图像识别,尤其对于类别内部分布差异较大的图像,通过多层级分类能够提高识别精度;另外,该第一模型的训练不需要关注具体敏感部位,而关注层级分类,如此降低了样本数据的收集压力提高了模型训练的周期效率。
本公开附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本公开的实践了解到。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
为了更清楚地说明本公开实施例中的技术方案,下面将对本公开实施例描述中所需要使用的附图作简单地介绍。
图1为本公开实施例提供的一种图像处理方法的流程示意图;
图2为本公开实施例提供的一种模型训练方法的流程示意图;
图3为本公开实施例提供的一种图像处理装置的结构示意图;
图4为本公开实施例提供的一种模型训练装置的结构示意图;
图5为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对装置、模块或单元进行区分,并非用于限定这些装置、模块或单元一定为不同的装置、模块或单元,也并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
本公开实施例中提供了一种图像处理方法,该方法的流程示意图如图1所示,该方法包括:
S101,获取待识别的第一图像。
本公开实施例中,可以针对线上图像进行实时识别,以实时识别出图像是否为不良图像,也可以针对线下图像库中的图像进行识别;例如:当某平台或者网站需要针对平台上的图像进行识别时,则可以直接从该平台或者网站获取图像,将获取到的任一图像作为待识别的第一图像。当某应用需要对用户上传的图像进行识别时,则可以直接获取用户通过应用上传的图像,作为待识别的第一图像。当然,也可以针对特定存储空间中存储的图像进行识别,例如从预先指定的存储地址中获取图像,将获取的图像作为待识别的第一图像。
S102,将第一图像输入第一模型,获得第一模型输出的第一分类概率;其中,第一模型是以图像作为输入,以图像属于不良图像类型的分类概率作为输出的神经网络模型;第一模型是基于具有多层级分类标签的样本数据,通过包含多层级分类的交叉熵损失和度量学习损失的损失函数训练生成。本公开实施例中,第一模型的特征提取网络采用移动端神经网络MobileNet或者混洗网络ShuffleNet。
本公开实施例中,Mobilenet旨在充分利用移动设备和嵌入式应用的有限的资源,有效地最大化模型的准确性,以满足有限资源下的各种应用案例;Mobilenet可以用于分类、检测、嵌入和分割等任务提取图像卷积特征。使用分组卷积Group convolution和通道混洗Channel shuffle改进残差网络ResNet,得到ShuffleNet,ShuffleNet是ResNet的压缩版本。Mobilenet和ShuffleNet都是轻量级网络结构,降低了存储空间和计算开销,从而提升了识别速度。
本公开实施例中,第一分类概率用于表征第一模型将第一图像预测为不良图像的概率。
S103,当第一分类概率大于第一预设阈值时,确定第一图像为不良图像。
本公开实施例中,第一模型通过包含多层级分类的交叉熵损失和度量学习损失的损失函数训练生成,同时第一模型的特征提取网络采用轻量级网络,例如MobileNet、ShuffleNet等,保证了第一模型具有速度快的特点;第一预设阈值设置较低,保证了第一模型具有召回率高的特点。因此,通过第一模型进行识别,尤其对于类别内部分布差异较大的图像,在保证识别精度的同时,提升了识别速度。
本公开实施例中,当第一分类概率大于第一预设阈值时,确定第一图像为不良图像之后,还包括:
将第一图像输入第二模型,获得第二模型输出的第二分类概率,其中,第二模型是以图像作为输入,以图像属于不良图像类型的分类概率作为输出的神经网络模型;第二模型是基于具有多层级分类标签的样本数据,通过包含多层级分类的交叉熵损失和度量学习损失的损失函数训练生成的;第二模型的网络结构复杂度高于第一模型;
当第二分类模型大于第二预设阈值时,确定第一图像为不良图像;其中,第二预设阈值高于第一预设阈值。
本公开实施例中,第二模型的特征提取网络采用残差网络ResNet或者初始网络InceptionNet。
本公开实施例中,ResNet和InceptionNet是不同的深度卷积神经网络,ResNet和InceptionNet可以代表非常复杂的函数,ResNet和InceptionNet可以从多个不同层次的抽象中学习特征,并进行特征提取,从而保证了识别精度。本公开实施例中,第二分类概率用于表征第二模型将第一图像预测为不良图像的概率。
本公开实施例中,第二模型通过包含多层级分类的交叉熵损失和度量学习损失的损失函数训练生成,第二模型的特征提取网络采用ResNet、InceptionNet等,同时第二预设阈值设置较高,例如第二预设阈值高于第一预设阈值,从而保证了第二模型具有准确率高和召回率高的特点。因此,在经过第一模型的初步识别之后,再通过第二模型进行识别进一步提高识别准确度,尤其对于类别内部分布差异较大的图像,保证了比第一模型更高的识别精度。由于不良图像的分布占比相对较小,通过多种识别相结合的方式,即采用第一模型进行识别后,再采用第二模型进行识别,尤其对于类别内部分布差异较大的图像,不仅提升了识别速度而且还保证了更高的识别精度。
本公开实施例中,在将第一图像输入第一模型之前,还包括:
对第一图像进行肤色检测,统计第一图像中像素属于人体皮肤的比例;
当比例高于第三预设阈值时,确定第一图像为人体图像,再执行将第一图像输入第一模型。
本公开实施例中,将第一图像进行肤色检测,将第一图像的像素从RGB空间转换到YCrCb空间,利用皮肤颜色在YCrCb空间内呈椭圆聚合形态的特点,拟合出椭圆轨迹方程,并判断各个像素点是否在椭圆轨迹内,当各个像素点在椭圆轨迹内,则表示该像素点属于人体皮肤,统计第一图像中像素属于人体皮肤的比例。当第一图像中像素属于人体皮肤的比例高于第三预设阈值,确定第一图像为人体图像。
需要说明的是,肤色检测为皮肤检测;图像处理中,三维RGB空间是一种图像颜色空间,RGB中的R代表单色红,G代表单色绿,B代表单色蓝,图像是RGB空间的一个数组。二维YCrCb空间是另一种图像颜色空间,YCrCb即YUV,其中,Y表示明亮度,也就是灰阶值,U和V表示的则是色度,用于描述影像色彩及饱和度,以及指定像素的颜色;明亮度是透过RGB输入信号来建立的,即将RGB信号的特定部分叠加到一起;色度则定义了颜色的色调与饱和度,分别用Cr和Cb来表示,其中,Cr反映的是RGB输入信号红色部分与RGB信号亮度值之间的差异,Cb反映的是RGB输入信号蓝色部分与RGB信号亮度值之间的差异。在RGB空间里人体的肤色受明亮度影响大,所以肤色点很难从非肤色点中分离出来,将RGB空间转换到YCrCb空间,由于YCrCb空间受明亮度影响很小,肤色会产生很好的类聚。
本公开实施例中,不良图像是存在人体的图像,由于不良图像几乎都是正常拍摄的彩色图像,通过肤色检测可以快速的过滤掉没有人体出现的图像,例如纯文字的图片、风景照等。对于大量的待识别的第一图像,通过肤色检测可以快速的筛选出存在人体的第一图像,同时过滤掉没有人体出现的第一图像,从而大大降低了后续第一模型识别的工作量,提升了识别速度。
本公开实施例中提供了一种模型训练方法,该方法的流程示意图如图2所示,该方法包括:
S201,获取样本数据集,样本数据集中每个样本数据包括具有多个层级的分类标签的图像;多个层级的分类标签用于表征图像是否为不良图像。
本公开实施例中,每个样本数据包括图像以及两层级的分类标签,两层级的分类标签包括父类标签以及与父类关联的一级子类标签。
本公开实施例中,对样本数据进行数据标注,将样本数据的类型划分为三个父类,分别是色情图片、轻微色情图片和正常图片;将父类划分为多个子类,例如,色情图片划分为男性敏感信息图片、女性敏感信息图片、动漫色情图片以及其他色情图片等,其中,男性敏感信息图片、女性敏感信息图片、动漫色情图片以及其他色情图片都为子类;轻微色情图片划分为男性轻微色情图片和女性轻微色情图片等,其中,男性轻微色情图片和女性轻微色情图片都为子类;正常图片划分为正常人类图片和其他图片等,其中,正常人类图片和其他图片都为子类。每个样本数据包括图像以及两层级的分类标签,例如,一个样本数据包括色情图像以及两层级的分类标签,其中,两层级的分类标签包括父类标签以及与父类关联的一级子类标签,父类标签标识该样本数据为色情图片,一级子类标签标识该样本数据为男性敏感信息图片。将样本数据进行两层级分类,并使用分类标签对样本数据的两层级分类进行标识,从而实现模型的训练不需要关注具体敏感部位,而关注层级分类,如此降低了样本数据的收集压力提高了模型训练的周期效率。
S202,基于样本数据集,通过包含多层级分类的交叉熵损失和度量学习损失的损失函数对预设的模型进行训练,获得满足训练结束条件的模型。
本公开实施例中,损失函数包括:第一交叉熵损失、第二交叉熵损失和度量学习损失,其中,第一交叉熵损失用于表征父类层级的交叉熵损失;第二交叉熵损失用于表征子类层级的交叉熵损失;度量学习损失用于表征子类层级的度量损失。
本公开实施例中,通过包含多层级分类的交叉熵损失和度量学习损失的损失函数对预设的模型进行训练,获得满足训练结束条件的模型,从而使满足训练结束条件的模型能够基于多层级分类和度量学习的方式进行图像识别,尤其对于类别内部分布差异较大的图像,能够提高识别精度。
本公开实施例中,第二交叉熵损失通过以下方式生成:
通过归一化指数函数softmax确定各父类之间的概率值以及与同一父类关联的各子类之间的概率值;
根据各父类之间的概率值以及各子类之间的概率值,得到第二交叉熵损失。
本公开实施例中,根据各父类之间的损失Loss值,确定第一交叉熵损失,样本数据的类型划分为三个父类,分别是色情图片、轻微色情图片和正常图片。通过softmax函数计算各父类之间的概率值,以及与同一父类关联的各子类之间的概率值,将各父类之间的概率值分别与各自关联的子类之间的概率值相乘,根据各父类之间的概率值分别与各自关联的子类之间的概率值的相乘结果,确定第二交叉熵损失。为进一步区分各个子类的类别,利用度量学习的方式,将各个子类的特征向量featurevector输入至度量学习损失函数,例如,度量学习损失函数为MarginLoss,确定度量学习损失,并实现了在高维空间中进一步区分各个子类的界限,提升了分类效果。将第一交叉熵损失、第二交叉熵损失和度量学习损失按照权重系数进行相加,根据第一交叉熵损失、第二交叉熵损失和度量学习损失之间按照权重系数的相加结果,确定损失函数。确定损失函数后,采用随机梯度下降(Stochasticgradient descent,SGD)算法优化预设的模型。
本公开实施例中,预设的模型为深度卷积网络CNN模型。深度卷积网络CNN模型的头部采用类似深度卷积网络Bnneck的网络结构。CNN模型包括特征提取网络、隐藏层、BN(Batch Normalization,批量归一化)层和全连接层。BN层可以大幅提高模型训练速度。完全连接层的输出类别数目为父类类别数目和子类类别数目之和。
需要说明的是,损失函数是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的风险或损失的函数;损失函数通常作为学习准则与优化问题相联系,即通过最小化损失函数求解和评估模型。学习的对象通常是样本特征向量的距离,度量学习的方式的目的是通过训练和学习,减小或限制同类样本之间的距离,同时增大不同类别样本之间的距离。softmax函数为归一化指数函数,是逻辑函数的一种推广。
基于相同的发明构思,本公开实施例还提供了一种图像处理装置,该装置的结构示意图如图3所示,图像处理装置40,包括第一处理模块401、第二处理模块402和第三处理模块403。
第一处理模块401,用于获取待识别的第一图像;
第二处理模块402,用于将第一图像输入第一模型,获得第一模型输出的第一分类概率;其中,第一模型是以图像作为输入,以图像属于不良图像类型的分类概率作为输出的神经网络模型;第一模型是基于具有多层级分类标签的样本数据,通过包含多层级分类的交叉熵损失和度量学习损失的损失函数训练生成;
第三处理模块403,用于当第一分类概率大于第一预设阈值时,确定第一图像为不良图像。
本公开实施例中,当第一分类概率大于第一预设阈值时,确定第一图像为不良图像之后,还包括:
将第一图像输入第二模型,获得第二模型输出的第二分类概率,其中,第二模型是以图像作为输入,以图像属于不良图像类型的分类概率作为输出的神经网络模型;第二模型是基于具有多层级分类标签的样本数据,通过包含多层级分类的交叉熵损失和度量学习损失的损失函数训练生成的;第二模型的网络结构复杂度高于第一模型;
当第二分类模型大于第二预设阈值时,确定第一图像为不良图像;其中,第二预设阈值高于第一预设阈值。
本公开实施例中,在将第一图像输入第一模型之前,还包括:
对第一图像进行肤色检测,统计第一图像中像素属于人体皮肤的比例;
当比例高于第三预设阈值时,确定第一图像为人体图像,再执行将第一图像输入第一模型。
本公开实施例中,第一模型的特征提取网络采用移动端神经网络MobileNet或者混洗网络ShuffleNet。
本公开实施例中,第二模型的特征提取网络采用残差网络ResNet或者初始网络InceptionNet。
应用本公开实施例,至少具有如下有益效果:
通过预训练的第一模型进行识别,该第一模型基于多层级分类和度量学习的方式进行图像识别,尤其对于类别内部分布差异较大的图像,能够提高识别精度;另外,该第一模型的训练不需要关注具体敏感部位,而关注层级分类,如此降低了样本数据的收集压力提高了模型训练的周期效率。
本公开实施例提供的图像处理装置中未详述的内容,可参照上述实施例提供的图像处理方法,本公开实施例提供的图像处理装置能够达到的有益效果与上述实施例提供的图像处理方法相同,在此不再赘述。
基于相同的发明构思,本公开实施例还提供了一种模型训练装置,该装置的结构示意图如图4所示,模型训练装置50,包括第四处理模块501和第五处理模块502。
第四处理模块501,用于获取样本数据集,样本数据集中每个样本数据包括具有多个层级的分类标签的图像;多个层级的分类标签用于表征图像是否为不良图像;
第五处理模块502,用于基于样本数据集,通过包含多层级分类的交叉熵损失和度量学习损失的损失函数对预设的模型进行训练,获得满足训练结束条件的模型。
本公开实施例中,损失函数包括:第一交叉熵损失、第二交叉熵损失和度量学习损失,其中,第一交叉熵损失用于表征父类层级的交叉熵损失;第二交叉熵损失用于表征子类层级的交叉熵损失;度量学习损失用于表征子类层级的度量损失。
本公开实施例中,第二交叉熵损失通过以下方式生成:
通过归一化指数函数softmax确定各父类之间的概率值以及与同一父类关联的各子类之间的概率值;
根据各父类之间的概率值以及各子类之间的概率值,得到第二交叉熵损失。
本公开实施例中,每个样本数据包括图像以及两层级的分类标签,两层级的分类标签包括父类标签以及与父类关联的一级子类标签。
应用本公开实施例,至少具有如下有益效果:
本公开实施例中,通过包含多层级分类的交叉熵损失和度量学习损失的损失函数对预设的模型进行训练,获得满足训练结束条件的模型,从而使满足训练结束条件的模型能够基于多层级分类和度量学习的方式进行图像识别,尤其对于类别内部分布差异较大的图像,能够提高识别精度;另外,该模型的训练不需要关注具体敏感部位,而关注层级分类,如此降低了样本数据的收集压力提高了模型训练的周期效率。
本公开实施例提供的模型训练装置中未详述的内容,可参照上述实施例提供的模型训练方法,本公开实施例提供的模型训练装置能够达到的有益效果与上述实施例提供的模型训练方法相同,在此不再赘述。
下面参考图5,其示出了适于用来实现本公开实施例的电子设备800的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图5示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
电子设备包括:存储器以及处理器,其中,这里的处理器可以称为下文所述的处理装置801,存储器可以包括下文中的只读存储器(ROM)802、随机访问存储器(RAM)803以及存储装置808中的至少一项,具体如图5所示:
电子设备800可以包括处理装置(例如中央处理器、图形处理器等)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储装置808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有电子设备800操作所需的各种程序和数据。处理装置801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
通常,以下装置可以连接至I/O接口805:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置806;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置807;包括例如磁带、硬盘等的存储装置808;以及通信装置809。通信装置809可以允许电子设备800与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备800,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置809从网络上被下载和安装,或者从存储装置808被安装,或者从ROM 802被安装。在该计算机程序被处理装置801执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取待识别的第一图像;将第一图像输入第一模型,获得第一模型输出的第一分类概率;其中,第一模型是以图像作为输入,以图像属于不良图像类型的分类概率作为输出的神经网络模型;第一模型是基于具有多层级分类标签的样本数据,通过包含多层级分类的交叉熵损失和度量学习损失的损失函数训练生成;当第一分类概率大于第一预设阈值时,确定第一图像为不良图像。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取样本数据集,样本数据集中每个样本数据包括具有多个层级的分类标签的图像;多个层级的分类标签用于表征图像是否为不良图像;基于样本数据集,通过包含多层级分类的交叉熵损失和度量学习损失的损失函数对预设的模型进行训练,获得满足训练结束条件的模型。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块或单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块或单元的名称在某种情况下并不构成对该单元本身的限定。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
根据本公开的一个或多个实施例,实施例提供了一种图像处理方法,包括:
获取待识别的第一图像;
将第一图像输入第一模型,获得第一模型输出的第一分类概率;其中,第一模型是以图像作为输入,以图像属于不良图像类型的分类概率作为输出的神经网络模型;
第一模型是基于具有多层级分类标签的样本数据,通过包含多层级分类的交叉熵损失和度量学习损失的损失函数训练生成;当第一分类概率大于第一预设阈值时,确定第一图像为不良图像。
本公开实施例中,当第一分类概率大于第一预设阈值时,确定第一图像为不良图像之后,还包括:
将第一图像输入第二模型,获得第二模型输出的第二分类概率,其中,第二模型是以图像作为输入,以图像属于不良图像类型的分类概率作为输出的神经网络模型;第二模型是基于具有多层级分类标签的样本数据,通过包含多层级分类的交叉熵损失和度量学习损失的损失函数训练生成的;第二模型的网络结构复杂度高于第一模型;
当第二分类模型大于第二预设阈值时,确定第一图像为不良图像;其中,第二预设阈值高于第一预设阈值。
本公开实施例中,在将第一图像输入第一模型之前,还包括:
对第一图像进行肤色检测,统计第一图像中像素属于人体皮肤的比例;
当比例高于第三预设阈值时,确定第一图像为人体图像,再执行将第一图像输入第一模型。
本公开实施例中,第一模型的特征提取网络采用移动端神经网络MobileNet或者混洗网络ShuffleNet。
本公开实施例中,第二模型的特征提取网络采用残差网络ResNet或者初始网络InceptionNet。
根据本公开的一个或多个实施例,实施例提供了一种模型训练方法,包括:
获取样本数据集,样本数据集中每个样本数据包括具有多个层级的分类标签的图像;多个层级的分类标签用于表征图像是否为不良图像;
基于样本数据集,通过包含多层级分类的交叉熵损失和度量学习损失的损失函数对预设的模型进行训练,获得满足训练结束条件的模型。
本公开实施例中,损失函数包括:第一交叉熵损失、第二交叉熵损失和度量学习损失,其中,第一交叉熵损失用于表征父类层级的交叉熵损失;第二交叉熵损失用于表征子类层级的交叉熵损失;度量学习损失用于表征子类层级的度量损失。
本公开实施例中,第二交叉熵损失通过以下方式生成:
通过归一化指数函数softmax确定各父类之间的概率值以及与同一父类关联的各子类之间的概率值;
根据各父类之间的概率值以及各子类之间的概率值,得到第二交叉熵损失。
本公开实施例中,每个样本数据包括图像以及两层级的分类标签,两层级的分类标签包括父类标签以及与父类关联的一级子类标签。
根据本公开的一个或多个实施例,实施例提供了一种图像处理装置,包括:
第一处理模块,用于获取待识别的第一图像;
第二处理模块,用于将第一图像输入第一模型,获得第一模型输出的第一分类概率;其中,第一模型是以图像作为输入,以图像属于不良图像类型的分类概率作为输出的神经网络模型;第一模型是基于具有多层级分类标签的样本数据,通过包含多层级分类的交叉熵损失和度量学习损失的损失函数训练生成;
第三处理模块,用于当第一分类概率大于第一预设阈值时,确定第一图像为不良图像。
本公开实施例中,当第一分类概率大于第一预设阈值时,确定第一图像为不良图像之后,还包括:
将第一图像输入第二模型,获得第二模型输出的第二分类概率,其中,第二模型是以图像作为输入,以图像属于不良图像类型的分类概率作为输出的神经网络模型;第二模型是基于具有多层级分类标签的样本数据,通过包含多层级分类的交叉熵损失和度量学习损失的损失函数训练生成的;第二模型的网络结构复杂度高于第一模型;
当第二分类模型大于第二预设阈值时,确定第一图像为不良图像;其中,第二预设阈值高于第一预设阈值。
本公开实施例中,在将第一图像输入第一模型之前,还包括:
对第一图像进行肤色检测,统计第一图像中像素属于人体皮肤的比例;
当比例高于第三预设阈值时,确定第一图像为人体图像,再执行将第一图像输入第一模型。
本公开实施例中,第一模型的特征提取网络采用移动端神经网络MobileNet或者混洗网络ShuffleNet。
本公开实施例中,第二模型的特征提取网络采用残差网络ResNet或者初始网络InceptionNet。
根据本公开的一个或多个实施例,实施例提供了一种模型训练装置,包括:
第四处理模块,用于获取样本数据集,样本数据集中每个样本数据包括具有多个层级的分类标签的图像;多个层级的分类标签用于表征图像是否为不良图像;
第五处理模块,用于基于样本数据集,通过包含多层级分类的交叉熵损失和度量学习损失的损失函数对预设的模型进行训练,获得满足训练结束条件的模型。
本公开实施例中,损失函数包括:第一交叉熵损失、第二交叉熵损失和度量学习损失,其中,第一交叉熵损失用于表征父类层级的交叉熵损失;第二交叉熵损失用于表征子类层级的交叉熵损失;度量学习损失用于表征子类层级的度量损失。
本公开实施例中,第二交叉熵损失通过以下方式生成:
通过归一化指数函数softmax确定各父类之间的概率值以及与同一父类关联的各子类之间的概率值;
根据各父类之间的概率值以及各子类之间的概率值,得到第二交叉熵损失。
本公开实施例中,每个样本数据包括图像以及两层级的分类标签,两层级的分类标签包括父类标签以及与父类关联的一级子类标签。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (11)

1.一种图像处理方法,其特征在于,包括:
获取待识别的第一图像;
将所述第一图像输入第一模型,获得所述第一模型输出的第一分类概率;其中,所述第一模型是以图像作为输入,以所述图像属于不良图像类型的分类概率作为输出的神经网络模型;所述第一模型是基于具有多层级分类标签的样本数据,通过包含多层级分类的交叉熵损失函数和度量学习损失的损失函数训练生成;所述交叉熵损失函数包括第一交叉熵损失函数、第二交叉熵损失函数;所述第一交叉熵损失用于表征父类层级的交叉熵损失,根据所述样本数据的多个父类之间的损失Loss值确定,所述第二交叉熵损失用于表征子类层级的交叉熵损失,根据各父类之间的概率值以及同一父类关联的各子类之间的概率值得到,其中所述各父类之间的概率值以及与所述同一父类关联的各子类之间的概率值通过归一化指数函数softmax确定,所述度量学习损失的损失函数用于表征子类层级的度量损失;
当所述第一分类概率大于第一预设阈值时,确定所述第一图像为不良图像。
2.根据权利要求1所述的方法,其特征在于,当所述第一分类概率大于第一预设阈值时,确定所述第一图像为不良图像之后,所述方法还包括:
将所述第一图像输入第二模型,获得所述第二模型输出的第二分类概率,其中,所述第二模型是以图像作为输入,以所述图像属于不良图像类型的分类概率作为输出的神经网络模型;所述第二模型是基于具有多层级分类标签的样本数据,通过包含多层级分类的交叉熵损失和度量学习损失的损失函数训练生成的;所述第二模型的网络结构复杂度高于所述第一模型;
当所述第二分类概率大于第二预设阈值时,确定所述第一图像为不良图像;其中,所述第二预设阈值高于所述第一预设阈值。
3.根据权利要求1或2所述的方法,其特征在于,在所述将所述第一图像输入第一模型之前,所述方法还包括:
对所述第一图像进行肤色检测,统计所述第一图像中像素属于人体皮肤的比例;
当所述比例高于第三预设阈值时,确定所述第一图像为人体图像,再执行所述将所述第一图像输入第一模型。
4.根据权利要求1所述的方法,其特征在于,所述第一模型的特征提取网络采用移动端神经网络MobileNet或者混洗网络ShuffleNet。
5.根据权利要求2所述的方法,其特征在于,所述第二模型的特征提取网络采用残差网络ResNet或者初始网络InceptionNet。
6.一种模型训练方法,其特征在于,包括:
获取样本数据集,所述样本数据集中每个样本数据包括具有多个层级的分类标签的图像;所述多个层级的分类标签用于表征图像是否为不良图像;
基于所述样本数据集,通过包含多层级分类的交叉熵损失函数和度量学习损失的损失函数对预设的模型进行训练,获得满足训练结束条件的模型;所述交叉熵损失函数包括第一交叉熵损失函数、第二交叉熵损失函数;所述第一交叉熵损失用于表征父类层级的交叉熵损失,根据所述样本数据的多个父类之间的损失Loss值确定,所述第二交叉熵损失用于表征子类层级的交叉熵损失,根据各父类之间的概率值以及同一父类关联的各子类之间的概率值得到,其中所述各父类之间的概率值以及与所述同一父类关联的各子类之间的概率值通过归一化指数函数softmax确定,所述度量学习损失的损失函数用于表征子类层级的度量损失。
7.根据权利要求6所述方法,其特征在于,所述每个样本数据包括图像以及两层级的分类标签,所述两层级的分类标签包括父类标签以及与父类关联的一级子类标签。
8.一种图像处理装置,其特征在于,包括:
第一处理模块,用于获取待识别的第一图像;
第二处理模块,用于将所述第一图像输入第一模型,获得所述第一模型输出的第一分类概率;其中,所述第一模型是以图像作为输入,以所述图像属于不良图像类型的分类概率作为输出的神经网络模型;所述第一模型是基于具有多层级分类标签的样本数据,通过包含多层级分类的交叉熵损失函数和度量学习损失的损失函数训练生成;所述交叉熵损失函数包括第一交叉熵损失函数、第二交叉熵损失函数;所述第一交叉熵损失用于表征父类层级的交叉熵损失,根据所述样本数据的多个父类之间的损失Loss值确定,所述第二交叉熵损失用于表征子类层级的交叉熵损失,根据各父类之间的概率值以及同一父类关联的各子类之间的概率值得到,其中所述各父类之间的概率值以及与所述同一父类关联的各子类之间的概率值通过归一化指数函数softmax确定,所述度量学习损失的损失函数用于表征子类层级的度量损失;
第三处理模块,用于当所述第一分类概率大于第一预设阈值时,确定所述第一图像为不良图像。
9.一种模型训练装置,其特征在于,包括:
第四处理模块,用于获取样本数据集,所述样本数据集中每个样本数据包括具有多个层级的分类标签的图像;所述多个层级的分类标签用于表征图像是否为不良图像;
第五处理模块,用于基于所述样本数据集,通过包含多层级分类的交叉熵损失函数和度量学习损失的损失函数对预设的模型进行训练,获得满足训练结束条件的模型;所述交叉熵损失函数包括第一交叉熵损失函数、第二交叉熵损失函数;所述第一交叉熵损失用于表征父类层级的交叉熵损失,根据所述样本数据的多个父类之间的损失Loss值确定,所述第二交叉熵损失用于表征子类层级的交叉熵损失,根据各父类之间的概率值以及同一父类关联的各子类之间的概率值得到,其中所述各父类之间的概率值以及与所述同一父类关联的各子类之间的概率值通过归一化指数函数softmax确定,所述度量学习损失的损失函数用于表征子类层级的度量损失。
10.一种电子设备,其特征在于,包括:处理器、存储器;
所述存储器,用于存储计算机程序;
所述处理器,用于通过调用所述计算机程序,执行如上述权利要求1-7中任一项所述的方法。
11.一种计算机可读介质,其特征在于,存储有计算机程序,所述计算机程序用于被处理器执行时实现如权利要求1-7中任一项所述的方法。
CN202010286499.2A 2020-04-13 2020-04-13 图像处理方法、模型训练方法、装置、设备及可读介质 Active CN111476309B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010286499.2A CN111476309B (zh) 2020-04-13 2020-04-13 图像处理方法、模型训练方法、装置、设备及可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010286499.2A CN111476309B (zh) 2020-04-13 2020-04-13 图像处理方法、模型训练方法、装置、设备及可读介质

Publications (2)

Publication Number Publication Date
CN111476309A CN111476309A (zh) 2020-07-31
CN111476309B true CN111476309B (zh) 2023-05-23

Family

ID=71751937

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010286499.2A Active CN111476309B (zh) 2020-04-13 2020-04-13 图像处理方法、模型训练方法、装置、设备及可读介质

Country Status (1)

Country Link
CN (1) CN111476309B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259823A (zh) * 2020-01-19 2020-06-09 人民中科(山东)智能技术有限公司 一种基于卷积神经网络的色情图像识别方法
CN112070123B (zh) * 2020-08-14 2023-11-24 五邑大学 小样本sar图像识别方法、装置及存储介质
CN111914814A (zh) * 2020-09-01 2020-11-10 平安国际智慧城市科技股份有限公司 小麦锈病检测方法、装置及计算机设备
CN112241761B (zh) * 2020-10-15 2024-03-26 北京字跳网络技术有限公司 模型训练方法、装置和电子设备
CN112418220A (zh) * 2020-12-02 2021-02-26 浙江诺诺网络科技有限公司 一种单字检测方法、装置、设备及介质
CN113052189B (zh) * 2021-03-30 2022-04-29 电子科技大学 一种基于改进的MobileNetV3特征提取网络
CN113111968B (zh) * 2021-04-30 2024-03-22 北京大米科技有限公司 图像识别模型训练方法、装置、电子设备和可读存储介质
CN112990147A (zh) * 2021-05-06 2021-06-18 北京远鉴信息技术有限公司 一种涉政图像的识别方法、装置、电子设备及存储介质
CN113240027A (zh) * 2021-05-24 2021-08-10 北京有竹居网络技术有限公司 图像分类方法、装置、可读介质及电子设备
CN113361593B (zh) * 2021-06-03 2023-12-19 阿波罗智联(北京)科技有限公司 生成图像分类模型的方法、路侧设备及云控平台
CN113449814B (zh) * 2021-07-20 2022-10-04 曲阜师范大学 一种图片层级分类方法及系统
CN113780469A (zh) * 2021-09-28 2021-12-10 杭州网易智企科技有限公司 图像识别模型的训练方法、介质、装置和计算设备
CN114372974B (zh) * 2022-01-12 2024-03-08 抖音视界有限公司 图像检测方法、装置、设备及存储介质
CN114494709A (zh) * 2022-01-26 2022-05-13 北京字跳网络技术有限公司 特征提取模型的生成方法、图像特征提取方法和装置
CN114419400B (zh) * 2022-03-28 2022-07-29 北京字节跳动网络技术有限公司 图像识别模型的训练方法、识别方法、装置、介质和设备
CN115546824B (zh) * 2022-04-18 2023-11-28 荣耀终端有限公司 禁忌图片识别方法、设备及存储介质
CN116028880B (zh) * 2023-02-07 2023-07-04 支付宝(杭州)信息技术有限公司 训练行为意图识别模型的方法、行为意图识别方法及装置
CN116493290B (zh) * 2023-06-28 2023-09-05 苏州吉玛环保科技有限公司 一种用于塑料颗粒生产的智能分选方法及系统
CN116758359A (zh) * 2023-08-16 2023-09-15 腾讯科技(深圳)有限公司 图像识别方法、装置及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017134519A1 (en) * 2016-02-01 2017-08-10 See-Out Pty Ltd. Image classification and labeling
CN108256082A (zh) * 2018-01-22 2018-07-06 北京邮电大学 一种基于深度多相似度哈希的多标签图像检索方法
CN108875934A (zh) * 2018-05-28 2018-11-23 北京旷视科技有限公司 一种神经网络的训练方法、装置、系统及存储介质
WO2018232378A1 (en) * 2017-06-16 2018-12-20 Markable, Inc. Image processing system
WO2019085793A1 (zh) * 2017-11-01 2019-05-09 腾讯科技(深圳)有限公司 图像分类方法、计算机设备及计算机可读存储介质
WO2019176806A1 (ja) * 2018-03-16 2019-09-19 富士フイルム株式会社 機械学習装置および方法
CN110929802A (zh) * 2019-12-03 2020-03-27 北京迈格威科技有限公司 基于信息熵的细分类识别模型训练、图像识别方法及装置
CN110969191A (zh) * 2019-11-07 2020-04-07 吉林大学 基于相似性保持度量学习方法的青光眼患病概率预测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10467501B2 (en) * 2017-10-30 2019-11-05 Sap Se Computer vision architecture with machine learned image recognition models
EP4361947A2 (en) * 2018-03-23 2024-05-01 Memorial Sloan-Kettering Cancer Center Systems and methods for multiple instance learning for classification and localization in biomedical imagining

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017134519A1 (en) * 2016-02-01 2017-08-10 See-Out Pty Ltd. Image classification and labeling
WO2018232378A1 (en) * 2017-06-16 2018-12-20 Markable, Inc. Image processing system
WO2019085793A1 (zh) * 2017-11-01 2019-05-09 腾讯科技(深圳)有限公司 图像分类方法、计算机设备及计算机可读存储介质
CN108256082A (zh) * 2018-01-22 2018-07-06 北京邮电大学 一种基于深度多相似度哈希的多标签图像检索方法
WO2019176806A1 (ja) * 2018-03-16 2019-09-19 富士フイルム株式会社 機械学習装置および方法
CN108875934A (zh) * 2018-05-28 2018-11-23 北京旷视科技有限公司 一种神经网络的训练方法、装置、系统及存储介质
CN110969191A (zh) * 2019-11-07 2020-04-07 吉林大学 基于相似性保持度量学习方法的青光眼患病概率预测方法
CN110929802A (zh) * 2019-12-03 2020-03-27 北京迈格威科技有限公司 基于信息熵的细分类识别模型训练、图像识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于交叉熵的用户行为异常检测;彭小兰等;《东莞理工学院学报》;第16卷(第05期);全文 *

Also Published As

Publication number Publication date
CN111476309A (zh) 2020-07-31

Similar Documents

Publication Publication Date Title
CN111476309B (zh) 图像处理方法、模型训练方法、装置、设备及可读介质
CN112184738B (zh) 一种图像分割方法、装置、设备及存储介质
CN112258512B (zh) 点云分割方法、装置、设备和存储介质
CN110991373A (zh) 图像处理方法、装置、电子设备及介质
CN112766284B (zh) 图像识别方法和装置、存储介质和电子设备
CN113449070A (zh) 多模态数据检索方法、装置、介质及电子设备
CN114494298A (zh) 对象分割方法、装置、设备及存储介质
CN113256339B (zh) 资源投放的方法、装置、存储介质及电子设备
WO2022012178A1 (zh) 用于生成目标函数的方法、装置、电子设备和计算机可读介质
CN111783632B (zh) 针对视频流的人脸检测方法、装置、电子设备及存储介质
CN110619602B (zh) 一种图像生成方法、装置、电子设备及存储介质
CN112800276A (zh) 视频封面确定方法、装置、介质及设备
CN110288691B (zh) 渲染图像的方法、装置、电子设备和计算机可读存储介质
CN111353536B (zh) 图像的标注方法、装置、可读介质和电子设备
CN111737575B (zh) 内容分发方法、装置、可读介质及电子设备
CN111680754B (zh) 图像分类方法、装置、电子设备及计算机可读存储介质
CN112801997B (zh) 图像增强质量评估方法、装置、电子设备及存储介质
CN114187557A (zh) 确定关键帧的方法、装置、可读介质及电子设备
CN117115070A (zh) 图像评估方法、装置、设备、存储介质和程序产品
CN110704679B (zh) 视频分类方法、装置及电子设备
CN114648713A (zh) 视频分类方法、装置、电子设备及计算机可读存储介质
CN113222050B (zh) 图像分类方法、装置、可读介质及电子设备
CN113610034B (zh) 识别视频中人物实体的方法、装置、存储介质及电子设备
CN111814807B (zh) 用于处理图像的方法、装置、电子设备和计算机可读介质
CN111539524B (zh) 轻量级自注意力模块和神经网络构架的搜索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Applicant after: Tiktok vision (Beijing) Co.,Ltd.

Address before: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Applicant before: BEIJING BYTEDANCE NETWORK TECHNOLOGY Co.,Ltd.

Address after: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Applicant after: Douyin Vision Co.,Ltd.

Address before: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Applicant before: Tiktok vision (Beijing) Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant