CN106599938A - 一种基于深度网络模型敏感旗帜内容的层次分类方法 - Google Patents
一种基于深度网络模型敏感旗帜内容的层次分类方法 Download PDFInfo
- Publication number
- CN106599938A CN106599938A CN201611251691.8A CN201611251691A CN106599938A CN 106599938 A CN106599938 A CN 106599938A CN 201611251691 A CN201611251691 A CN 201611251691A CN 106599938 A CN106599938 A CN 106599938A
- Authority
- CN
- China
- Prior art keywords
- flag
- sample
- training
- network model
- method based
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/192—Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
- G06V30/194—References adjustable by an adaptive method, e.g. learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度网络模型敏感旗帜内容的层次分类方法,在常规的样本类别划分方法上做出了调整,对训练样本进行了多角度、多层次的精细化划分,应用层级分类策略,在简单的正、负样本二类划分的基础上进行细化,得到类间差异更大、类内相似性更小的样本类别。实验结果证明,这样的训练数据有助于增加深度学习网络对图片特征的学习能力,在很大程度上提高深度学习网络模型对于敏感旗帜图片的识别能力,能够使模型更好的完成对敏感旗帜图片的识别任务,有效减少了分类错误的情况。
Description
技术领域
本发明涉及深度学习和图像识别领域,特别涉及一种基于深度网络模型敏感旗帜内容的层次分类方法。
背景技术
随着互联网技术的发展,信息的传播速度越来越快。图像数据是互联网数据中最重要的组成元素之一,它可以从空间等维度上更逼真地记录更多细节内容。但是,网络中海量的数据信息给人们带来方便的同时,也带来了很多负面的影响。一些包含敏感内容的图片在互联网中的广泛传播严重威胁了网络安全,危害了互联网用户的用网安全。为了保障网络环境的健康,需要从海量的数据中筛选出这些包含有敏感内容的图片。
针对包含有敏感内容图片的筛选,目前经常采用的方法有下面几种:
(1)人工检测
人工检测的方法是最原始的图片筛选方法,该方法唯一的优点就是精度高,缺点是该方法需要的人力成本大,检测速度慢,标准存在差异,面对海量的互联网图片数据,效果并不理想。
(2)MD5匹配
利用图片的MD5值进行含有敏感内容图片的查找,能够精准的根据已有的敏感图片在网络里的海量图片数据中筛选出和这些已有图片相同的数据,而且速度比较快。这种方法的缺点是:只能从网络中的海量数据中筛选出和已经拥有的敏感图片完全相同的图片,只要两张图片间存在一点差异,基于MD5的筛选方法就不能生效。
发明内容
本发明要解决的技术问题:本发明的目的是为了解决现有技术中的不足,提供一种可满足多样的敏感旗帜图片内容检测需求,且对网络数据进行筛选时速度快,精度高而且召回率高的一种基于深度网络模型敏感旗帜内容的层次分类方法。
本发明的技术方案:本发明所述的一种基于深度网络模型敏感旗帜内容的层次分类方法,包括以下步骤:
a.从训练样本数据集合中的海量网络数据文件中获取足够多的训练样本,形成训练数据集合,输送至图像二分类模块中;
b.在所述图像二分类模块中,将所述训练数据集合中的训练样本分为正样本Y和负样本N两个类别,输送至图像细化分模块中;
c.在所述图像细化分模块中,将得到的所述正样本和负样本两类训练样本划分为更细的类别,将细分好的训练数据用于模型的训练,最终形成深度网络模型。
作为优选的技术方案,所述图像数据二分类模块将训练样本分为正、负样本两个类别的标准是:所述训练样本中是否含有敏感组织的旗帜;若训练样本中含有敏感组织的旗帜,那么我们将其划分为正样本Y;否则,我么将其划分为负样本N。
作为优选的技术方案,所述图像细化分模块对正、负样本集合进行细划分的标准是:关于正样本Y,根据训练样本中含有敏感主义旗帜的种类对其进行更细的划分;关于负样本N,根据训练样本中是否含有旗帜对其进行更细的划分。最后,可以对负样本细化分之后得到的类别进行更细的划分。
作为优选的技术方案,所述正样本Y中含有敏感组织的旗帜分别为两种黑色旗帜和一种蓝色旗帜。
作为优选的技术方案,所述两种黑色旗帜和一种蓝色旗帜分别标记为黑色旗帜0、黑色旗帜1和蓝色旗帜2。
作为优选的技术方案,所述负样本N中含有敏感组织的旗帜分别为普通旗帜3、不包含普通旗帜4。
本发明与现有技术相比的有益效果:本发明采用一种有效的深度学习网络图片训练样本分类规划方法,在常规的样本类别划分方法上做出了调整,对训练样本进行了多角度、多层次的精细化划分,应用层级分类策略,在简单的正、负样本二类划分的基础上进行细化,得到类间差异更大、类内相似性更小的样本类别。实验结果证明,这样的训练数据有助于增加深度学习网络对图片特征的学习能力,在很大程度上提高深度学习网络模型对于敏感旗帜图片的识别能力,能够使模型更好的完成对敏感旗帜图片的识别任务,有效减少了分类错误的情况。
附图说明
图1为本发明的层次分类方法流程图。
具体实施方式
为了加深本发明的理解,下面我们将结合附图对本发明作进一步详述,该实施例仅用于解释本发明,并不构成对本发明保护范围的限定。
如图1示出了本发明一种基于深度网络模型敏感旗帜内容的层次分类方法的实施方式,包括以下步骤:
a.从训练样本数据集合中的海量网络数据文件中获取足够多的训练样本,形成训练数据集合101,输送至图像二分类模块102中;
b.在所述图像二分类模块102中,将所述训练数据集合中的训练样本分为正样本Y和负样本N两个类别,输送至图像细化分模块103中;
c.在所述图像细化分模块103中,将得到的所述正样本和负样本两类训练样本划分为更细的类别,将细分好的训练数据用于模型的训练,最终形成深度网络模型104。
在本实施例中,图像数据二分类模块102将训练样本分为正、负样本两个类别的标准是:训练样本中是否含有敏感组织的旗帜;若训练样本中含有敏感组织的旗帜,那么我们将其划分为正样本Y;否则,我么将其划分为负样本N;图像数据细划分模块103对正、负样本集合进行细划分的标准是:关于正样本Y,根据训练样本中含有敏感主义旗帜的种类对其进行更细的划分;关于负样本N,根据训练样本中是否含有旗帜对其进行更细的划分。最后,可以对负样本细化分之后得到的类别进行更细的划分;正样本Y中含有敏感组织的旗帜分别为两种黑色旗帜和一种蓝色旗帜;两种黑色旗帜和一种蓝色旗帜分别标记为黑色旗帜0、黑色旗帜1和蓝色旗帜2;负样本N中含有敏感组织的旗帜分别为普通旗帜3、不包含普通旗帜4。
本发明的工作原理:本发明提出的基于深度网络模型的敏感旗帜内容的层次分类方法主要由两个模块构成:图像二分类模块、图像细划分模块。下面结合实例分别说明每个模块的工作原理。
(1)图像数据二分类模块102
首先对将要用于训练的图片数据根据其关键特征进行分析。根据图片是否包含关键特征,训练数据可以分为包含待识别关键特征的正样本以及不包含待识别关键特征的负样本。
具体的,现在有6000张用于敏感旗帜分类模型的训练样本。将训练样本按照图片的内容做标准分为正样本和负样本两个类别。
将图片分为正、负两个类别的标准是:图片中是否含有敏感组织的旗帜。
(a)如果图片中含有敏感组织的旗帜,那么将其划分为正样本Y;
(b)如果图片中不含有敏感组织的旗帜,我么将其划分为负样本N。
(2)图像数据细划分模块103
通过观察分析,由图像数据二分类模块根据图片数据是否包含待识别关键特征而得到的二分类样本集中,图片形式依旧十分复杂,在正样本中,待识别的关键特征可能之间同样存在较大差异。针对包含有有敏感旗帜的内容,正样本中待识别关键特征中存在的最明显差异就是旗帜的种类,而旗帜作为一种非刚体物体,同一类别的旗帜在形状上也存在较大差异。而在负样本中,图片数据的特征更是复杂多样,负样本是不包含有待检测关键特征的数据集合,但这类样本中除了和正样本差异较大的样本之外,还包含有具有和待检测关键特征相似的特征内容。
具体的,在模块图像数据二分类模块中,6000张用于敏感旗帜分类模型的训练样本经过二分类得到了正、负样本集合。关于正样本,根据图片中含有敏感旗帜的种类对其进行更细的划分;关于负样本,根据图片中是否含有与敏感旗帜相似的特征对其进行更细的划分。
具体的划分标准为:
(a)在本例中正样本Y中,含有的敏感组织旗帜一共有三类,分别为两种黑色旗帜和一种蓝色旗帜,所以将其按照旗帜的类别划分为3个小类别,分别记为黑色旗帜0、黑色旗帜1、蓝色旗帜2。
(b)对负样本N则根据图片中是否含有普通旗帜将其分成2个小类别,分别记为包含有普通旗帜3、不包含普通旗帜4。
6000张训练数据由图像数据二分类模块、图像数据细划分模块处理后,得到了五类样本集合,分别为:黑色旗帜0、黑色旗帜1、蓝色旗帜2、包含有普通旗帜3、不包含普通旗帜4。对这五类样本集合分别进行观察分析,可以发现经过细划分之后,相对于二分类得到的正、负样本集合而言,数据集的类内差距大大减小、而类间差距更为明显。这更有利于帮助深度网络学习到每个数据集的特征,从而更好的实现对数据的分类。
当实验环境、筛选标准、训练数据集规模、关键特征的种类等参数信息产生变化时,类别划分的过程和结果也会产生相应变化。以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。
Claims (6)
1.一种基于深度网络模型敏感旗帜内容的层次分类方法,包括以下步骤:
a.从训练样本数据集合中的海量网络数据文件中获取足够多的训练样本,形成训练数据集合,输送至图像二分类模块中;
b.在所述图像二分类模块中,将所述训练数据集合中的训练样本分为正样本Y和负样本N两个类别,输送至图像细化分模块中;
c.在所述图像细化分模块中,将得到的所述正样本和负样本两类训练样本划分为更细的类别,将细分好的训练数据用于模型的训练,最终形成深度网络模型。
2.根据权利要求1中所述的一种基于深度网络模型敏感旗帜内容的层次分类方法,其特征在于:所述图像二分类模块将训练样本分为正、负样本两个类别的标准是:所述训练样本中是否含有敏感组织的旗帜;若训练样本中含有敏感组织的旗帜,那么我们将其划分为正样本Y;否则,我么将其划分为负样本N。
3.根据权利要求1中所述的一种基于深度网络模型敏感旗帜内容的层次分类方法,其特征在于:所述图像细化分模块对正、负样本集合进行细划分的标准是:关于正样本Y,根据训练样本中含有敏感主义旗帜的种类对其进行更细的划分;关于负样本N,根据训练样本中是否含有旗帜对其进行更细的划分。最后,可以对负样本细化分之后得到的类别进行更细的划分。
4.根据权利要求1或3中所述的一种基于深度网络模型敏感旗帜内容的层次分类方法,其特征在于:所述正样本Y中含有敏感组织的旗帜分别为两种黑色旗帜和一种蓝色旗帜。
5.根据权利要求4中所述的一种基于深度网络模型敏感旗帜内容的层次分类方法,其特征在于:所述两种黑色旗帜和一种蓝色旗帜分别标记为黑色旗帜0、黑色旗帜1和蓝色旗帜2。
6.根据权利要求1或3中所述的一种基于深度网络模型敏感旗帜内容的层次分类方法,其特征在于:所述负样本N中含有敏感组织的旗帜分别为普通旗帜3和不包含普通旗帜4。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611251691.8A CN106599938A (zh) | 2016-12-30 | 2016-12-30 | 一种基于深度网络模型敏感旗帜内容的层次分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611251691.8A CN106599938A (zh) | 2016-12-30 | 2016-12-30 | 一种基于深度网络模型敏感旗帜内容的层次分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106599938A true CN106599938A (zh) | 2017-04-26 |
Family
ID=58605276
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611251691.8A Pending CN106599938A (zh) | 2016-12-30 | 2016-12-30 | 一种基于深度网络模型敏感旗帜内容的层次分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106599938A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460396A (zh) * | 2017-09-20 | 2018-08-28 | 腾讯科技(深圳)有限公司 | 负采样方法和装置 |
CN112528947A (zh) * | 2020-12-24 | 2021-03-19 | 山东仕达思生物产业有限公司 | 一种通过增加方向维度的假菌丝检测方法、设备及存储介质 |
CN113052244A (zh) * | 2021-03-30 | 2021-06-29 | 歌尔股份有限公司 | 一种分类模型训练方法和一种分类模型训练装置 |
CN114429577A (zh) * | 2022-01-27 | 2022-05-03 | 西安交通大学 | 一种基于高置信标注策略的旗帜检测方法及系统及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6904168B1 (en) * | 2001-03-29 | 2005-06-07 | Fotonation Holdings, Llc | Workflow system for detection and classification of images suspected as pornographic |
CN1892675A (zh) * | 2005-06-30 | 2007-01-10 | 康佳集团股份有限公司 | 具色情图像过滤功能的移动终端及其方法 |
CN101290660A (zh) * | 2008-06-02 | 2008-10-22 | 中国科学技术大学 | 一种用于行人检测的树状组合分类方法 |
CN102201064A (zh) * | 2010-03-25 | 2011-09-28 | 北京中星微电子有限公司 | 一种敏感视频过滤方法及装置 |
CN103679132A (zh) * | 2013-07-15 | 2014-03-26 | 北京工业大学 | 一种敏感图像识别方法及系统 |
-
2016
- 2016-12-30 CN CN201611251691.8A patent/CN106599938A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6904168B1 (en) * | 2001-03-29 | 2005-06-07 | Fotonation Holdings, Llc | Workflow system for detection and classification of images suspected as pornographic |
CN1892675A (zh) * | 2005-06-30 | 2007-01-10 | 康佳集团股份有限公司 | 具色情图像过滤功能的移动终端及其方法 |
CN101290660A (zh) * | 2008-06-02 | 2008-10-22 | 中国科学技术大学 | 一种用于行人检测的树状组合分类方法 |
CN102201064A (zh) * | 2010-03-25 | 2011-09-28 | 北京中星微电子有限公司 | 一种敏感视频过滤方法及装置 |
CN103679132A (zh) * | 2013-07-15 | 2014-03-26 | 北京工业大学 | 一种敏感图像识别方法及系统 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460396A (zh) * | 2017-09-20 | 2018-08-28 | 腾讯科技(深圳)有限公司 | 负采样方法和装置 |
CN108460396B (zh) * | 2017-09-20 | 2021-10-15 | 腾讯科技(深圳)有限公司 | 负采样方法和装置 |
CN112528947A (zh) * | 2020-12-24 | 2021-03-19 | 山东仕达思生物产业有限公司 | 一种通过增加方向维度的假菌丝检测方法、设备及存储介质 |
CN112528947B (zh) * | 2020-12-24 | 2023-05-23 | 山东仕达思生物产业有限公司 | 一种通过增加方向维度的假菌丝检测方法、设备及存储介质 |
CN113052244A (zh) * | 2021-03-30 | 2021-06-29 | 歌尔股份有限公司 | 一种分类模型训练方法和一种分类模型训练装置 |
CN114429577A (zh) * | 2022-01-27 | 2022-05-03 | 西安交通大学 | 一种基于高置信标注策略的旗帜检测方法及系统及设备 |
CN114429577B (zh) * | 2022-01-27 | 2024-03-08 | 西安交通大学 | 一种基于高置信标注策略的旗帜检测方法及系统及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10565479B1 (en) | Identifying and excluding blurred areas of images of stained tissue to improve cancer scoring | |
CN106815604B (zh) | 基于多层信息融合的注视点检测方法 | |
CN107977682B (zh) | 基于极坐标变换数据增强的淋巴类细胞分类方法及其装置 | |
CN105608456B (zh) | 一种基于全卷积网络的多方向文本检测方法 | |
CN106599938A (zh) | 一种基于深度网络模型敏感旗帜内容的层次分类方法 | |
CN103518224B (zh) | 用于分析微生物生长的方法 | |
CN103577475B (zh) | 一种图片自动化分类方法、图片处理方法及其装置 | |
CN109918971B (zh) | 监控视频中人数检测方法及装置 | |
WO2019000653A1 (zh) | 一种图像目标识别方法及装置 | |
CN104408449B (zh) | 智能移动终端场景文字处理方法 | |
US20140294291A1 (en) | Image Sign Classifier | |
CN104966085A (zh) | 一种基于多显著特征融合的遥感图像感兴趣区域检测方法 | |
CN111563445A (zh) | 一种基于卷积神经网络的显微镜下岩性识别方法 | |
CN105069774B (zh) | 基于多示例学习与图割优化的目标分割方法 | |
CN110599463B (zh) | 一种基于轻量级联神经网络的舌像检测及定位算法 | |
CN108764302A (zh) | 一种基于颜色特征和词袋特征的票据图像分类方法 | |
CN106611193A (zh) | 一种基于特征变量算法的图像内容信息分析方法 | |
CN104834890B (zh) | 一种对书法作品中文字神采信息的提取方法 | |
CN107330365A (zh) | 基于最大稳定极值区域和svm的交通标志识别方法 | |
CN109858570A (zh) | 图像分类方法及系统、计算机设备及介质 | |
CN106056161B (zh) | 一种针对平面旋转目标的视觉检测方法 | |
CN105913463A (zh) | 一种基于位置先验的纹理-颜色特征全局显著性检测方法 | |
Yingthawornsuk et al. | Automatic Thai Coin Calculation System by Using SIFT | |
KR20220033940A (ko) | 기계학습을 이용한 미세플라스틱 분석 방법 | |
CN110990617B (zh) | 一种图片标记方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170426 |