CN106599938A

CN106599938A - 一种基于深度网络模型敏感旗帜内容的层次分类方法

Info

Publication number: CN106599938A
Application number: CN201611251691.8A
Authority: CN
Inventors: 丁琴
Original assignee: Nanjing Ruiguan Information Technology Co ltd
Current assignee: Nanjing Ruiguan Information Technology Co ltd
Priority date: 2016-12-30
Filing date: 2016-12-30
Publication date: 2017-04-26

Abstract

本发明公开了一种基于深度网络模型敏感旗帜内容的层次分类方法，在常规的样本类别划分方法上做出了调整，对训练样本进行了多角度、多层次的精细化划分，应用层级分类策略，在简单的正、负样本二类划分的基础上进行细化，得到类间差异更大、类内相似性更小的样本类别。实验结果证明，这样的训练数据有助于增加深度学习网络对图片特征的学习能力，在很大程度上提高深度学习网络模型对于敏感旗帜图片的识别能力，能够使模型更好的完成对敏感旗帜图片的识别任务，有效减少了分类错误的情况。

Description

一种基于深度网络模型敏感旗帜内容的层次分类方法

技术领域

本发明涉及深度学习和图像识别领域，特别涉及一种基于深度网络模型敏感旗帜内容的层次分类方法。

背景技术

随着互联网技术的发展，信息的传播速度越来越快。图像数据是互联网数据中最重要的组成元素之一，它可以从空间等维度上更逼真地记录更多细节内容。但是，网络中海量的数据信息给人们带来方便的同时，也带来了很多负面的影响。一些包含敏感内容的图片在互联网中的广泛传播严重威胁了网络安全，危害了互联网用户的用网安全。为了保障网络环境的健康，需要从海量的数据中筛选出这些包含有敏感内容的图片。

针对包含有敏感内容图片的筛选，目前经常采用的方法有下面几种：

(1)人工检测

人工检测的方法是最原始的图片筛选方法，该方法唯一的优点就是精度高，缺点是该方法需要的人力成本大，检测速度慢，标准存在差异，面对海量的互联网图片数据，效果并不理想。

(2)MD5匹配

利用图片的MD5值进行含有敏感内容图片的查找，能够精准的根据已有的敏感图片在网络里的海量图片数据中筛选出和这些已有图片相同的数据，而且速度比较快。这种方法的缺点是：只能从网络中的海量数据中筛选出和已经拥有的敏感图片完全相同的图片，只要两张图片间存在一点差异，基于MD5的筛选方法就不能生效。

发明内容

本发明要解决的技术问题：本发明的目的是为了解决现有技术中的不足，提供一种可满足多样的敏感旗帜图片内容检测需求，且对网络数据进行筛选时速度快，精度高而且召回率高的一种基于深度网络模型敏感旗帜内容的层次分类方法。

本发明的技术方案：本发明所述的一种基于深度网络模型敏感旗帜内容的层次分类方法，包括以下步骤：

a.从训练样本数据集合中的海量网络数据文件中获取足够多的训练样本，形成训练数据集合，输送至图像二分类模块中；

b.在所述图像二分类模块中，将所述训练数据集合中的训练样本分为正样本Y和负样本N两个类别，输送至图像细化分模块中；

c.在所述图像细化分模块中，将得到的所述正样本和负样本两类训练样本划分为更细的类别，将细分好的训练数据用于模型的训练，最终形成深度网络模型。

作为优选的技术方案，所述图像数据二分类模块将训练样本分为正、负样本两个类别的标准是：所述训练样本中是否含有敏感组织的旗帜；若训练样本中含有敏感组织的旗帜，那么我们将其划分为正样本Y；否则，我么将其划分为负样本N。

作为优选的技术方案，所述图像细化分模块对正、负样本集合进行细划分的标准是：关于正样本Y，根据训练样本中含有敏感主义旗帜的种类对其进行更细的划分；关于负样本N，根据训练样本中是否含有旗帜对其进行更细的划分。最后，可以对负样本细化分之后得到的类别进行更细的划分。

作为优选的技术方案，所述正样本Y中含有敏感组织的旗帜分别为两种黑色旗帜和一种蓝色旗帜。

作为优选的技术方案，所述两种黑色旗帜和一种蓝色旗帜分别标记为黑色旗帜0、黑色旗帜1和蓝色旗帜2。

作为优选的技术方案，所述负样本N中含有敏感组织的旗帜分别为普通旗帜3、不包含普通旗帜4。

本发明与现有技术相比的有益效果：本发明采用一种有效的深度学习网络图片训练样本分类规划方法，在常规的样本类别划分方法上做出了调整，对训练样本进行了多角度、多层次的精细化划分，应用层级分类策略，在简单的正、负样本二类划分的基础上进行细化，得到类间差异更大、类内相似性更小的样本类别。实验结果证明，这样的训练数据有助于增加深度学习网络对图片特征的学习能力，在很大程度上提高深度学习网络模型对于敏感旗帜图片的识别能力，能够使模型更好的完成对敏感旗帜图片的识别任务，有效减少了分类错误的情况。

附图说明

图1为本发明的层次分类方法流程图。

具体实施方式

为了加深本发明的理解，下面我们将结合附图对本发明作进一步详述，该实施例仅用于解释本发明，并不构成对本发明保护范围的限定。

如图1示出了本发明一种基于深度网络模型敏感旗帜内容的层次分类方法的实施方式，包括以下步骤：

a.从训练样本数据集合中的海量网络数据文件中获取足够多的训练样本，形成训练数据集合101，输送至图像二分类模块102中；

b.在所述图像二分类模块102中，将所述训练数据集合中的训练样本分为正样本Y和负样本N两个类别，输送至图像细化分模块103中；

c.在所述图像细化分模块103中，将得到的所述正样本和负样本两类训练样本划分为更细的类别，将细分好的训练数据用于模型的训练，最终形成深度网络模型104。

在本实施例中，图像数据二分类模块102将训练样本分为正、负样本两个类别的标准是：训练样本中是否含有敏感组织的旗帜；若训练样本中含有敏感组织的旗帜，那么我们将其划分为正样本Y；否则，我么将其划分为负样本N；图像数据细划分模块103对正、负样本集合进行细划分的标准是：关于正样本Y，根据训练样本中含有敏感主义旗帜的种类对其进行更细的划分；关于负样本N，根据训练样本中是否含有旗帜对其进行更细的划分。最后，可以对负样本细化分之后得到的类别进行更细的划分；正样本Y中含有敏感组织的旗帜分别为两种黑色旗帜和一种蓝色旗帜；两种黑色旗帜和一种蓝色旗帜分别标记为黑色旗帜0、黑色旗帜1和蓝色旗帜2；负样本N中含有敏感组织的旗帜分别为普通旗帜3、不包含普通旗帜4。

本发明的工作原理：本发明提出的基于深度网络模型的敏感旗帜内容的层次分类方法主要由两个模块构成：图像二分类模块、图像细划分模块。下面结合实例分别说明每个模块的工作原理。

(1)图像数据二分类模块102

首先对将要用于训练的图片数据根据其关键特征进行分析。根据图片是否包含关键特征，训练数据可以分为包含待识别关键特征的正样本以及不包含待识别关键特征的负样本。

具体的，现在有6000张用于敏感旗帜分类模型的训练样本。将训练样本按照图片的内容做标准分为正样本和负样本两个类别。

将图片分为正、负两个类别的标准是：图片中是否含有敏感组织的旗帜。

(a)如果图片中含有敏感组织的旗帜，那么将其划分为正样本Y；

(b)如果图片中不含有敏感组织的旗帜，我么将其划分为负样本N。

(2)图像数据细划分模块103

通过观察分析，由图像数据二分类模块根据图片数据是否包含待识别关键特征而得到的二分类样本集中，图片形式依旧十分复杂，在正样本中，待识别的关键特征可能之间同样存在较大差异。针对包含有有敏感旗帜的内容，正样本中待识别关键特征中存在的最明显差异就是旗帜的种类，而旗帜作为一种非刚体物体，同一类别的旗帜在形状上也存在较大差异。而在负样本中，图片数据的特征更是复杂多样，负样本是不包含有待检测关键特征的数据集合，但这类样本中除了和正样本差异较大的样本之外，还包含有具有和待检测关键特征相似的特征内容。

具体的，在模块图像数据二分类模块中，6000张用于敏感旗帜分类模型的训练样本经过二分类得到了正、负样本集合。关于正样本，根据图片中含有敏感旗帜的种类对其进行更细的划分；关于负样本，根据图片中是否含有与敏感旗帜相似的特征对其进行更细的划分。

具体的划分标准为：

(a)在本例中正样本Y中，含有的敏感组织旗帜一共有三类，分别为两种黑色旗帜和一种蓝色旗帜，所以将其按照旗帜的类别划分为3个小类别，分别记为黑色旗帜0、黑色旗帜1、蓝色旗帜2。

(b)对负样本N则根据图片中是否含有普通旗帜将其分成2个小类别，分别记为包含有普通旗帜3、不包含普通旗帜4。

6000张训练数据由图像数据二分类模块、图像数据细划分模块处理后，得到了五类样本集合，分别为：黑色旗帜0、黑色旗帜1、蓝色旗帜2、包含有普通旗帜3、不包含普通旗帜4。对这五类样本集合分别进行观察分析，可以发现经过细划分之后，相对于二分类得到的正、负样本集合而言，数据集的类内差距大大减小、而类间差距更为明显。这更有利于帮助深度网络学习到每个数据集的特征，从而更好的实现对数据的分类。

当实验环境、筛选标准、训练数据集规模、关键特征的种类等参数信息产生变化时，类别划分的过程和结果也会产生相应变化。以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于深度网络模型敏感旗帜内容的层次分类方法，包括以下步骤：

2.根据权利要求1中所述的一种基于深度网络模型敏感旗帜内容的层次分类方法，其特征在于：所述图像二分类模块将训练样本分为正、负样本两个类别的标准是：所述训练样本中是否含有敏感组织的旗帜；若训练样本中含有敏感组织的旗帜，那么我们将其划分为正样本Y；否则，我么将其划分为负样本N。

3.根据权利要求1中所述的一种基于深度网络模型敏感旗帜内容的层次分类方法，其特征在于：所述图像细化分模块对正、负样本集合进行细划分的标准是：关于正样本Y，根据训练样本中含有敏感主义旗帜的种类对其进行更细的划分；关于负样本N，根据训练样本中是否含有旗帜对其进行更细的划分。最后，可以对负样本细化分之后得到的类别进行更细的划分。

4.根据权利要求1或3中所述的一种基于深度网络模型敏感旗帜内容的层次分类方法，其特征在于：所述正样本Y中含有敏感组织的旗帜分别为两种黑色旗帜和一种蓝色旗帜。

5.根据权利要求4中所述的一种基于深度网络模型敏感旗帜内容的层次分类方法，其特征在于：所述两种黑色旗帜和一种蓝色旗帜分别标记为黑色旗帜0、黑色旗帜1和蓝色旗帜2。

6.根据权利要求1或3中所述的一种基于深度网络模型敏感旗帜内容的层次分类方法，其特征在于：所述负样本N中含有敏感组织的旗帜分别为普通旗帜3和不包含普通旗帜4。