CN106611193A - 一种基于特征变量算法的图像内容信息分析方法 - Google Patents

一种基于特征变量算法的图像内容信息分析方法 Download PDF

Info

Publication number
CN106611193A
CN106611193A CN201611181751.3A CN201611181751A CN106611193A CN 106611193 A CN106611193 A CN 106611193A CN 201611181751 A CN201611181751 A CN 201611181751A CN 106611193 A CN106611193 A CN 106611193A
Authority
CN
China
Prior art keywords
difference
confidence
level
image content
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611181751.3A
Other languages
English (en)
Inventor
李慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiji Computer Corp Ltd
Original Assignee
Taiji Computer Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiji Computer Corp Ltd filed Critical Taiji Computer Corp Ltd
Priority to CN201611181751.3A priority Critical patent/CN106611193A/zh
Publication of CN106611193A publication Critical patent/CN106611193A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及图像内容信息分析技术领域,特别是一种基于特征变量算法的图像内容信息分析方法,包括以下步骤,(1)将所有的训练样本集图片根据需求分为多个一级大类,并在一级大类基础上二次划分为多个一级类;(2)使用训练完成的深度网络模型对图片进行分类,模型计算得出的各类别置信度Pi,通过对比置信度差值P=PTOP1‑PTOP2与阈值Th的关系,若P小于阈值Th,则根据PTOP1和PTOP2类别,进行相应的优化策略调整;若P大于阈值Th,则认为分类结果可信,不做调整,直接输出。采用上述方法后,本发明应用多层级分类策略,增加深度学习网络对图片特征的认识能力,提高整体识别精准度。

Description

一种基于特征变量算法的图像内容信息分析方法
技术领域
本发明涉及图像内容信息分析技术领域,特别是一种基于特征变量算法的图像内容信息分析方法。
背景技术
随着互联网技术的发展,信息传播速度越来越快,在能够获取大量信息的同时,网络上肆意传播的低俗内容图片污染网络环境,如何能够快速准确地识别出含有低俗内容的图片是亟待解决的问题。目前的图片低俗成人检出方法,一般分为两类方法。一种是人工检测,此种方法需要人力成本大,检测速度慢,标准不一致,对于大量的互联网信息,效果并不理想;另一种方法是通过整幅图像的颜色进行简单判别,此类方法误判性高,使用效果差。
深度学习是机器学习里面的一个热门领域,起源于多层人工神经网络,目前已成功应用于计算机视觉。其中卷积神经网络在图像识别领域已经取得了令人瞩目的成就,相比传统的图片内容识别方法方法有了很大的提升。
简单的训练方法和结果处理模式并不能够满足多样的低俗图片内容检测需求,因此,研究一种适应于深度网络模型低俗内容的层级分类方法及结果优化策略对于低俗内容检测领域具有重要的研究价值和应用前景。
发明内容
本发明需要解决的技术问题是提供一种基于特征变量算法的图像内容信息分析方法。
为解决上述的技术问题,本发明的一种基于特征变量算法的图像内容信息分析方法,包括以下步骤,
(1)将所有的训练样本集图片根据需求分为多个一级大类,并在一级大类基础上二次划分为多个一级类;
(2)使用训练完成的深度网络模型对图片进行分类,模型计算得出的各类别置信度Pi,通过对比置信度差值P=PTOP1-PTOP2与阈值Th的关系,若P小于阈值Th,则根据PTOP1和PTOP2类别,进行相应的优化策略调整;若P大于阈值Th,则认为分类结果可信,不做调整,直接输出。
进一步的,步骤(1)中确定每个一级类下多个二级类的方法为应用聚类算法,提去样本图片的颜色信息和纹理信息作为聚类依据,确定最为合理地二级类分类方法。
进一步的,步骤(2)中阈值Th的计算方法为对于所有一级大类测试样本的分类结果,存在正确分类样本和错误分类样本,将所有正确分类样本置信度结果的前两位做差值并求和取平均得到正确分类样本的平均置信度差值;同样的,将所有错误分类样本置信度结果的前两位和做差值并求和取平均得到错误分类样本的平均置信度差值;分别计算正确分类样本的平均置信度差值和错误分类样本的平均置信度差值与惩罚系数的乘积,将两结果相加得到阈值。
更进一步的,步骤(2)中阈值Th的计算公式为:其中,为正确分类样本的平均置信度差值,为错误分类样本的平均置信度差值,α为错误惩罚系数。
更进一步的,确定所述平均置信度差值的公式为:其中,为样本的平均置信度差值,PTOP1为样本的置信度结果最高值,PTOP2为样本的置信度结果次高值,N为样本数量。
采用上述方法后,本发明应用多层级分类策略,将简单的正样本和负样本的二类划分方法细化,并使用聚类算法优化划分结果,得到二级类间距最大的划分方式,有助于加大类间区别,增加深度学习网络对图片特征的认识能力,提高整体识别精准度。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明层级分类及优化策略流程图。
图2为本发明阈值计算流程图。
具体实施方式
考虑到目前网络中有大量低俗和限制内容图片无法被精确快速检出过滤的问题,本发明使用了深度学习网络模型对图片内容进行识别分类,并引入层级分类以及结果优化策略对网络模型进行优化,大大提高了检测精度。
如图1所示,本发明一种基于特征变量算法的图像内容信息分析方法,在使用数据对深度网络模型进行训练之前,先对训练样本集进行层级分类处理,具体步骤如下:
(1)将所有的训练样本集图片根据需求分为多个一级大类,并在一级大类基础上二次划分为多个一级类;
(2)使用训练完成的深度网络模型对图片进行分类,模型计算得出的各类别置信度Pi,通过对比置信度差值P=PTOP1-PTOP2与阈值Th的关系,若P小于阈值Th,则根据PTOP1和PTOP2类别,进行相应的优化策略调整;若P大于阈值Th,则认为分类结果可信,不做调整,直接输出。
步骤(1)中确定每个一级类下多个二级类的方法为应用聚类算法,提去样本图片的颜色信息和纹理信息作为聚类依据,确定最为合理地二级类分类方法。训练样本集层级分类处理结束后,使用分好类的16000张训练集图片对深度学习网络模型进行训练得到适用于低俗内容检测的分类模型。
使用低俗内容检测分类模型进行图片低俗内容识别时,提取网络模型中“Softmax”层数据,对结果进行优化处理,具体步骤为:
1.提取置信度最高值PTOP1和置信度次高值PTOP2
2.计算PTOP1和PTOP2差值P。
3.将P和阈值Th比较,进行相应的结果优化调整并输出。
其中,阈值的计算流程图如图2所示,具体步骤为:
1.使用10000张测试图片对得到的网络进行测试,得到测试结果。
2.将一级类测试结果分为正确分类和错误分类两大类。
3.提取每个样本的PTOP1和PTOP2
4.计算置信度差值P=PTOP1-PTOP2
5.分别求所有正确分类样本的平均置信度差值和错误分类样本的平均置信度差值 的计算公式为:其中,为样本的平均置信度差值,PTOP1为样本的置信度结果最高值,PTOP2为样本的置信度结果次高值,N为样本数量。
本范例中,如图2所示,使用得到的优化策略如下:
1.低俗大类和限制内容大类的类别阈值Thd-x为0.10,即PTOP1和PTOP2所属二级类别分别为低俗内容二级类和限制内容二级类时,P小于0.10则认为是低俗内容。
2.限制内容大类和正常内容大类的类别阈值Thx-z为0.15,即PTOP1和PTOP2所属二级类别分别为正常内容二级类和限制内容二级类时,P小于0.15则认为是限制内容。
3.低俗大类和正常内容大类的类别阈值Thd-z为0.20,即PTOP1和PTOP2所属二级类别分别为正常内容二级类和低俗内容二级类时,P小于0.25则认为是低俗内容。
4.置信度差值P为0.5以上,则认为是置信度最高的二级类所述一级类为最终分类结果。
5.置信度最高PTOP1低于0.4时,且与置信度次高值PTOP2相差在0.15以下时,不论最高分值类别,归为正常内容一级类。
虽然以上描述了本发明的具体实施方式,但是本领域熟练技术人员应当理解,这些仅是举例说明,可以对本实施方式作出多种变更或修改,而不背离本发明的原理和实质,本发明的保护范围仅由所附权利要求书限定。

Claims (5)

1.一种基于特征变量算法的图像内容信息分析方法,其特征在于,包括以下步骤,
(1)将所有的训练样本集图片根据需求分为多个一级大类,并在一级大类基础上二次划分为多个一级类;
(2)使用训练完成的深度网络模型对图片进行分类,模型计算得出的各类别置信度Pi,通过对比置信度差值P=PTOP1-PTOP2与阈值Th的关系,若P小于阈值Th,则根据PTOP1和PTOP2类别,进行相应的优化策略调整;若P大于阈值Th,则认为分类结果可信,不做调整,直接输出。
2.按照权利要求1所述的一种基于特征变量算法的图像内容信息分析方法,其特征在于:步骤(1)中确定每个一级类下多个二级类的方法为应用聚类算法,提去样本图片的颜色信息和纹理信息作为聚类依据,确定最为合理地二级类分类方法。
3.按照权利要求1所述的一种基于特征变量算法的图像内容信息分析方法,其特征在于:步骤(2)中阈值Th的计算方法为对于所有一级大类测试样本的分类结果,存在正确分类样本和错误分类样本,将所有正确分类样本置信度结果的前两位做差值并求和取平均得到正确分类样本的平均置信度差值;同样的,将所有错误分类样本置信度结果的前两位和做差值并求和取平均得到错误分类样本的平均置信度差值;分别计算正确分类样本的平均置信度差值和错误分类样本的平均置信度差值与惩罚系数的乘积,将两结果相加得到阈值。
4.按照权利要求3所述的一种基于特征变量算法的图像内容信息分析方法,其特征在于:步骤(2)中阈值Th的计算公式为:其中,为正确分类样本的平均置信度差值,为错误分类样本的平均置信度差值,α为错误惩罚系数。
5.按照权利要求3或4所述的一种基于特征变量算法的图像内容信息分析方法,其特征在于:确定所述平均置信度差值的公式为:其中,为样本的平均置信度差值,PTOP1为样本的置信度结果最高值,PTOP2为样本的置信度结果次高值,N为样本数量。
CN201611181751.3A 2016-12-20 2016-12-20 一种基于特征变量算法的图像内容信息分析方法 Pending CN106611193A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611181751.3A CN106611193A (zh) 2016-12-20 2016-12-20 一种基于特征变量算法的图像内容信息分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611181751.3A CN106611193A (zh) 2016-12-20 2016-12-20 一种基于特征变量算法的图像内容信息分析方法

Publications (1)

Publication Number Publication Date
CN106611193A true CN106611193A (zh) 2017-05-03

Family

ID=58636526

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611181751.3A Pending CN106611193A (zh) 2016-12-20 2016-12-20 一种基于特征变量算法的图像内容信息分析方法

Country Status (1)

Country Link
CN (1) CN106611193A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729944A (zh) * 2017-10-23 2018-02-23 百度在线网络技术(北京)有限公司 一种低俗图片的识别方法、装置、服务器及存储介质
CN108229566A (zh) * 2018-01-05 2018-06-29 厦门华联电子股份有限公司 一种层次性分类方法及装置
WO2018150243A1 (en) * 2017-02-16 2018-08-23 International Business Machines Corporation Image recognition with filtering of image classification output distribution
CN109740335A (zh) * 2018-11-27 2019-05-10 武汉极意网络科技有限公司 验证码操作轨迹的分类方法及装置
CN110147709A (zh) * 2018-11-02 2019-08-20 腾讯科技(深圳)有限公司 车辆属性模型的训练方法、装置、终端及存储介质
CN110147780A (zh) * 2019-05-28 2019-08-20 山东大学 基于层级地形的实时性野外机器人地形识别方法及系统
WO2020082724A1 (zh) * 2018-10-26 2020-04-30 华为技术有限公司 一种对象分类的方法与装置
CN112465002A (zh) * 2020-11-23 2021-03-09 应急管理部天津消防研究所 一种火灾现场铜导线熔痕智能识别方法及装置
CN112508080A (zh) * 2020-12-03 2021-03-16 广州大学 基于经验回放的车辆型号识别方法、装置、设备及介质
CN114495291A (zh) * 2022-04-01 2022-05-13 杭州魔点科技有限公司 活体检测的方法、系统、电子装置和存储介质

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018150243A1 (en) * 2017-02-16 2018-08-23 International Business Machines Corporation Image recognition with filtering of image classification output distribution
US10275687B2 (en) 2017-02-16 2019-04-30 International Business Machines Corporation Image recognition with filtering of image classification output distribution
GB2572733B (en) * 2017-02-16 2021-10-27 Ibm Image recognition with filtering of image classification output distribution
GB2572733A (en) * 2017-02-16 2019-10-09 Ibm Image recognition with filtering of image classification output distribution
CN107729944B (zh) * 2017-10-23 2021-05-07 百度在线网络技术(北京)有限公司 一种低俗图片的识别方法、装置、服务器及存储介质
CN107729944A (zh) * 2017-10-23 2018-02-23 百度在线网络技术(北京)有限公司 一种低俗图片的识别方法、装置、服务器及存储介质
CN108229566A (zh) * 2018-01-05 2018-06-29 厦门华联电子股份有限公司 一种层次性分类方法及装置
CN108229566B (zh) * 2018-01-05 2020-06-05 厦门华联电子股份有限公司 一种层次性分类方法及装置
WO2020082724A1 (zh) * 2018-10-26 2020-04-30 华为技术有限公司 一种对象分类的方法与装置
CN110147709A (zh) * 2018-11-02 2019-08-20 腾讯科技(深圳)有限公司 车辆属性模型的训练方法、装置、终端及存储介质
CN109740335A (zh) * 2018-11-27 2019-05-10 武汉极意网络科技有限公司 验证码操作轨迹的分类方法及装置
CN110147780B (zh) * 2019-05-28 2021-01-01 山东大学 基于层级地形的实时性野外机器人地形识别方法及系统
CN110147780A (zh) * 2019-05-28 2019-08-20 山东大学 基于层级地形的实时性野外机器人地形识别方法及系统
CN112465002A (zh) * 2020-11-23 2021-03-09 应急管理部天津消防研究所 一种火灾现场铜导线熔痕智能识别方法及装置
CN112465002B (zh) * 2020-11-23 2023-08-15 应急管理部天津消防研究所 一种火灾现场铜导线熔痕智能识别方法及装置
CN112508080A (zh) * 2020-12-03 2021-03-16 广州大学 基于经验回放的车辆型号识别方法、装置、设备及介质
CN112508080B (zh) * 2020-12-03 2024-01-12 广州大学 基于经验回放的车辆型号识别方法、装置、设备及介质
CN114495291A (zh) * 2022-04-01 2022-05-13 杭州魔点科技有限公司 活体检测的方法、系统、电子装置和存储介质

Similar Documents

Publication Publication Date Title
CN106611193A (zh) 一种基于特征变量算法的图像内容信息分析方法
CN110348319B (zh) 一种基于人脸深度信息和边缘图像融合的人脸防伪方法
CN111461038B (zh) 一种基于分层多模式注意力机制的行人再识别方法
CN104330721B (zh) 集成电路硬件木马检测方法和系统
CN103136504B (zh) 人脸识别方法及装置
CN101359372B (zh) 分类器的训练方法及装置、识别敏感图片的方法及装置
CN104463101B (zh) 用于文字性试题的答案识别方法及系统
CN108229580A (zh) 一种基于注意力机制及特征融合的眼底图中糖网特征分级装置
CN110147732A (zh) 指静脉识别方法、装置、计算机设备及存储介质
CN103903004B (zh) 一种人脸识别多特征权值融合方法与装置
CN107122375A (zh) 基于图像特征的图像主体的识别方法
CN105205501B (zh) 一种多分类器联合的弱标注图像对象检测方法
CN105303179A (zh) 指纹识别方法、装置
CN104077560B (zh) 指纹比对方法
CN102567744B (zh) 基于机器学习的虹膜图像质量确定方法
CN109284779A (zh) 基于深度全卷积网络的物体检测方法
CN102129568B (zh) 利用改进的高斯混合模型分类器检测图像垃圾邮件的方法
CN101893704A (zh) 一种基于粗糙集的雷达辐射源信号识别方法
CN104408481A (zh) 基于深度小波神经网络的极化sar图像分类方法
CN109615616A (zh) 一种基于abc-pcnn的裂缝识别方法及系统
CN101251896B (zh) 一种基于多分类器的物体检测系统及方法
CN108960142B (zh) 基于全局特征损失函数的行人再识别方法
CN109086794B (zh) 一种基于t-lda主题模型的驾驶行为模式识方法
CN109039503A (zh) 一种频谱感知方法、装置、设备及计算机可读存储介质
CN110472652A (zh) 基于语义引导的少量样本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170503

WD01 Invention patent application deemed withdrawn after publication