CN106874936B

CN106874936B - 图像传播监测方法及装置

Info

Publication number: CN106874936B
Application number: CN201710031063.7A
Authority: CN
Inventors: 余宗桥
Original assignee: Tencent Technology Shanghai Co Ltd
Current assignee: Tencent Technology Shanghai Co Ltd
Priority date: 2017-01-17
Filing date: 2017-01-17
Publication date: 2023-07-11
Anticipated expiration: 2037-01-17
Also published as: CN106874936A

Abstract

本发明公开了一种图像传播监测方法及装置，属于图像识别领域。所述图像传播监测方法包括：识别图像样本集，得到所述图像样本集中的非法图像；对所述非法图像进行聚类分析，得到聚类数量多于第一阈值的传播图片；根据所述传播图片更新传播图片库；比对待监测的目标图像与传播图片库中的传播图片；若所述目标图像与传播图片的相似度高于第二阈值，则对所述目标图像进行传播追踪分析。本发明通过主动识别网络图片，将识别结果聚类，得到为图像传播监测提供依据的传播图片库，具有监测范围广、检测时效性高、人力成本低的优点，有效阻止非法图像的恶意传播。

Description

图像传播监测方法及装置

技术领域

本发明涉及图像识别领域，特别涉及一种图像传播监测方法及装置。

背景技术

互联网作为一种现代化通信技术，在世界范围内迅速普及，网络传播途径遍布世界的每一个角落。由于网络世界是一个虚拟空间，人与人之间缺少日常社会的道德、伦理约束，使得一些不文明行为在网络上肆意传播，尤其是传播对感官刺激强烈的色情图像，诱发青少年犯罪，严重影响未成年人的健康成长，对社会治安产生了不良影响。

为了预防及控制恶意图片借助互联网广泛散播，现有途径主要依靠部门抽查、民众举报或者媒体报道，目前，为了过滤色情等网上有害信息，近年来市场上也出现了大量的过滤软件与系统，其技术手段是用人工手段将已知的色情网址或域名归入“黑名单”地址库中，封锁浏览者登陆的“黑名单”中所列的网址与相关信息，对于大量未发现的和新增加的以及变换面貌的色情网址无能为力，不能实时地智能地发现并归入黑名单，而且文字比对时也受不同国家文字的限制，造成监控始终处于被动过滤状态。

发明内容

为了解决现有技术的问题，本发明提供了一种图像传播监测方法及装置，监控时效性好，人力成本低，有效预防和及时制止恶意图片传播。所述技术方案如下：

一方面，本发明提供了一种图像传播监测方法，所述方法包括：

识别图像样本集，得到所述图像样本集中的非法图像；

对所述非法图像进行聚类分析，得到聚类数量多于第一阈值的传播图片；

根据所述传播图片更新传播图片库；

比对待监测的目标图像与传播图片库中的传播图片；

若所述目标图像与传播图片的相似度高于第二阈值，则对所述目标图像进行传播追踪分析。

进一步地，识别图像样本集之前还包括：建立图像识别分类模型，通过所述图像识别分类模型识别出所述非法图像，所述图像识别分类模型包括基于深度学习的神经网络分类模型和基于支持向量机的分类模型。

具体地，所述对所述目标图像进行传播追踪分析包括：查询所述目标图像的发表来源信息和发表时间信息，并记录与目标图像对应的传播图片的匹配次数，进而获取所述目标图像的传播途径及传播范围信息。

具体地，所述对所述非法图像进行聚类分析包括：获取图像特征信息，通过聚类分析算法将相似度高的图片聚为一类；所述聚类数量为聚为一类的图片的数量，所述传播图片为聚类数量达到第一阈值的图片。

具体地，所述比对待监测的目标图像与传播图片库中的传播图片包括：利用文件指纹算法获取目标图像的图像指纹，基于所述图像指纹，检索判断目标图像是否与传播图片库中的传播图片相同或相似。

另一方面，本发明提供了一种图像传播监测装置，所述装置包括：

识别模块，用于识别图像样本集，得到所述图像样本集中的非法图像；

聚类模块，用于对所述非法图像进行聚类分析，得到聚类数量多于第一阈值的传播图片；

传播库模块，用于根据所述传播图片更新传播图片库；

比对模块，用于比对待监测的目标图像与传播图片库中的传播图片；

追踪模块，用于在目标图像与传播图片的相似度高于第二阈值的情况下，对所述目标图像进行传播追踪分析。

进一步地，本发明提供的图像传播监测装置还包括模型模块，用于建立图像识别分类模型，通过所述图像识别分类模型识别出所述非法图像，所述图像识别分类模型包括基于深度学习的神经网络分类模型和基于支持向量机的分类模型。

具体地，所述追踪模块查询所述目标图像的发表来源信息和发表时间信息，并记录与目标图像对应的传播图片的匹配次数，进而获取所述目标图像的传播途径及传播范围信息。

具体地，所述聚类模块获取图像特征信息，通过聚类分析算法将相似度高的图片聚为一类；所述聚类数量为聚为一类的图片的数量，所述传播图片为聚类数量达到预设的聚类阈值的图片。

具体地，所述比对模块利用文件指纹算法获取目标图像的图像指纹，基于所述图像指纹，检索判断目标图像是否与传播图片库中的传播图片相同或相似。

本发明提供的技术方案带来的有益效果如下：将发现的高传播恶意图片即时添加到被动识别系统的检索库中，以比对待监测的目标图像，实时监测恶意图片的高传播趋势，提高监控时效。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的图像传播监测方法及装置的实施环境示意图；

图2是本发明实施例提供的图像传播监测方法的流程图；

图3是本发明实施例提供的监控色情图像传播的操作流程图；

图4是本发明实施例提供的分类模型的训练方法流程图；

图5是本发明实施例提供的图像传播监测装置的模块架构框图；

图6是本发明实施例提供的图像传播监测装置的计算机终端的硬件结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明提供了一种图像传播监测方法及装置，参考图1可以看出，其示出了本发明实施例提供的图像传播监测方法及装置所涉及的实施环境的结构示意图。该实施环境包括配置有用户终端101、图像传播监测装置102和数据库103。

其中，图像传播监测装置102如下面装置实施例所述，每个用户终端101通过图像传播监测装置102进行图像传播的监测。图像传播监测装置102可以配置在用户终端101中，也可以独立于用户终端101而配置。实施环境中可以有一至多个图像传播监测装置102，组成一个图像传播监测装置的集群，当需要进行图像传播监测的用户终端101的个数较多时，多个图像传播监测装置102可以并行监测操作，从而提高图像传播监测的速度。

数据库103中存储有图像传播监测装置102在监测图像传播过程中所需的数据，如待监测的图片对象等。

数据库103除了可以独立于图像传播监测装置102和用户终端101配置之外，还可以配置在图像传播监测装置102中，使得图像传播监测装置102可以直接从自身配置的数据库中获取所需的数据，或者数据库103还可以配置在用户终端101中，使得图像传播监测装置102从用户终端101配置的数据库中获取所需的数据，本发明实施例在此不对数据库103的配置方式进行具体限定。

用户终端101与图像传播监测装置102之间通过网络进行通信，图像传播监测装置102与数据库103之间也通过网络进行通信，该网络可以为无线网络或有线网络，本发明实施例在此不对通信方式进行具体限定。

在本发明的一个实施例中，提供了一种图像传播监测方法，参见图2，方法流程包括：

S201、识别图像样本集，得到非法图像。

具体地，所述图像样本集包括多张图像，所述图像样本集来源于传播监测场景，比如，对全网/特定网站进行图像传播监测，则所述图像样本集来源于全网/特定网站的图片，将多张全网/特定网站的图片组成图像样本集，进一步地，所述图像样本集的图像数量可以为全网/特定网站的全部图片，也可以将所述全网/特定网站的全部图片分为若干个图像样本集，并进行一一识别。

识别的过程如下：依次从所述图像样本集中获取单张图像，对其进行主动识别，按照设定的识别规则，比如，按照预先定义的色情特征，识别出的色情图片即为所述非法图像，未识别为色情图片即为合法图像，抛弃合法图像，保留非法图像。

S202、对非法图像进行聚类分析，得到传播图片。

本发明实施例是对恶意图像的泛滥传播进行监测，所谓泛滥传播，可定义为一张/一系列图像被上传/转载/发送次数超过一定阈值。对上述识别得到的非法图像进行聚类分析，即基于特定的图像特征，将相似的图像聚在一起，作为一聚类图像组，若聚类图像组的图像数量多于第一阈值，则判定所述聚类图像组为传播图像组，所述第一阈值为预设聚类阈值，具体为根据实际监测场景规模自定义的一个整数数量，比如，监测场景为全因特网，则所述第一阈值可以定义为10000甚至更高，比如，监测场景仅为一个知名度不高的论坛，则所述第一阈值可以定义为500甚至更低，本发明对所述第一阈值的预设方法和预设值不作具体限定。针对主动识别发现的色情恶意图像，实时聚类分析，发现潜在的高传播趋势恶意图片，在图片传播泛滥之前对其进行有效控制，起到防微杜渐的监控效果。

进一步地，所述传播图像组中的一张或多张或全部图像即为传播图片。

S203、更新传播图片库。

具体的更新步骤包括将传播图片加入传播图片库，优选地，针对一传播图像组，可以选取其中一张或多张图像作为代表图像加入到传播图片库，加入到所述传播图片库的数量越多，下述的比对结果就越准确，但同时，所述传播图片库所占的内存也越多，对比对速度将产生一定的影响，因此，可以根据实际场景选择适合数量的传播图片加入到传播图片库，比如，传播图像组的图片数量为10000，可以选择其中5张图片加入到传播图片库，若传播图像组的图片数量小于500，则可以仅选择1张图片加入到所述传播图片库，本发明对加入传播图片库的传播图片的具体数量不作限定。

更新操作除了上述的新增操作，还可以包括其他操作，比如：设定新旧时限，将传播图片库中处于该时限之前的(即已经“过气”的)传播图片删除，还比如：设定整合周期，在每个周期内，对传播图片库内的传播图片进行一次聚类分析，将聚类数量多的一类图片进行精简等等，本发明对其他传播图片库的更新操作不作具体限定。

S204、比对待监测的目标图像与传播图片库中的传播图片。

具体地，依次将单张待检测的目标图像与传播图片库中的传播图片进行一一比对，直至匹配到某一张传播图片即可停止所述目标图像的比对过程，继而进行下一张目标图像的比对操作，至于将一张目标图像与传播图片库中的所有传播图片进行一一比对，最后产生比对结果同样也能实现以上技术方案，本发明对比对的具体方式不作限定。

所述待检测的目标图像可以为上述图像样本集中的图像，也可以是脱离所述图像样本集而在传播监测场景内的图像，本发明对所述目标图像的具体选定方式不作限定。

S205、对匹配的目标图像进行传播追踪分析。

具体地，所述匹配的目标对象即为与所述传播图片库中的某一张传播图片比对的结果为匹配的目标图像，若所述目标图像与传播图片的相似度高于第二阈值，则判定所述比对结果为匹配，所述第二阈值为预设相似阈值，比如设定相似阈值为60％，本发明对第二阈值的具体设定方式和设定值不作具体限定。

与传播图片比对为匹配，则认为所述目标图像为至少具有泛滥传播趋势的恶意图像，须对其进行追踪分析，具体的追踪方法可以包括：查询所述目标图像的发表来源信息和发表时间信息，并记录与目标图像对应的传播图片的匹配次数，进而获取所述目标图像的传播途径及传播范围信息，分析恶意图片的传播途径和范围，能够监控恶意图片传播的起源、传播发展及波及范围，不仅可以追溯恶意传播者，还可以定位大量的恶意传播者。

在本发明的一个实施例中，提供了监控图像传播的具体操作流程，参见图3，流程包括：

S301、训练分类模型。

具体地，图像识别分类模型为基于深度学习的卷积神经网络分类模型，其训练方法参见图4可知，首先，通过人工标定的方式，获取色情图片集和非色情图片集，并将其组合形成训练图片，作为预训练学习模型的素材，最终训练得到图像识别分类模型。其中，所述训练图片包括训练集和训练校正集，训练的方法流程包括：对训练集、训练校正集进行有效训练区域获取与数据增强，其中，有效训练区域的获取步骤包括：

a.将图片的短边缩放为固定像素M，另一边按原始图像比例变化，每一幅图片都变为M*N或N*M像素的图像，这里将短边缩放可以保证有效区域提取的快速进行；

b.对于非色情图片，随机选取10个M*M的方形子图像作为待增强训练图像；对于色情图片，以事先标定的色情区域为基准，随机裁剪10个M*M像素的子图像作为有效区域，且保证所裁减的子图像和标定的色情区域的重合度大于90％。

针对有效训练图像的数据增强，包括以下步骤：对上一步获得的所有方形图像均进行多种变换以增强训练数据的个数，具体方法为：对图像进行转置和水平镜像翻转；在0.5-1.5之间随机选取4个值作为方差对图像进行高斯模糊，再随机选择4个值作为因子乘以所有像素进行亮度变换；进行图像增强，轻微地依次改变原图像R，G，B三个通道的值；对图片添加随机噪声等方式。

完成以上有效训练区域获取与数据增强之后，再设计深层卷积神经网络结构，设计方法如下：将深层卷积神经网络分为5个卷积层，4个全连接层和1个softmax层，每一层的参数描述如下：

卷积层1：包括96组卷积核，每组卷积核的尺寸为11*11*3(11*11表示卷积核的长宽，3表示要卷积的图像的通道)，卷积的步长为4；卷积得到的96幅特征图像经过RELU非线性映射和一个核为3*3，步长为2的下采样，再经过一次正则化后得到的96幅特征图送往卷积层2；

卷积层2：步骤和卷积层1相同，不同的是：有256组滤波核，每组尺寸为5*5*96，卷积步长为1，其它参数和卷积层1相同，输出送往卷积层3；

卷积层3：步骤和卷积层1相同，不同的是：有384组滤波核，每组尺寸为3*3*256，卷积步长为1，其它参数和卷积层1相同，输出送往卷积层4；

卷积层4：步骤和卷积层1相同，不同的是：有384组滤波核，每组尺寸为3*3*384，卷积步长为1，其它参数和卷积层1相同输出送往卷积层5；

卷积层5：步骤和卷积层1相同，不同的是：有256组滤波核，每组尺寸为3*3*384，卷积步长为1，其它参数和卷积层1相同，输出送往全连接层1；

全连接层1：包括4096个节点，每个节点都进行一个概率为50％的dropout，每个节点的输出都进行一次RELU非线性映射作为最终输出，结果送往全连接层2；

全连接层2：包括4096个节点，操作同全连接层1，结果送往全连接层3；

全连接层3：包括4096个节点，只进行一次全连接，没有dropout及非线性映射操作，结果送往全连接层4；

全连接层4：包括2048个节点，操作同全连接层3，结果送往softmax层；

Softmax分类层：包括2个输出，分别代表色情和非色情。

以上深层卷积神经网络结构的网络训练策略为：

1)为了解决训练数据不足可能会对检测结果造成影响的问题，本发明将网络训练分为两个模块，将前八层(5个卷积层，3个全连接层)网络作为现有的图像大分类公开数据集的分类模型进行分类，即当前八层网络对于其它大分类数据集效果满足要求时，直接把这八层网络的参数迁移到色情图像检测的网络上(同时采用前述获得的彩色色情图像数据集作为输入)进行参数微调；

2)当网络损失函数收敛时，将训练得到的模型在验证集上进行测试，对于检测错误的结果进行分析，根据错误的图像的类型在训练校正集中找到一些对应类型的图像添加到训练集中，对网络继续进行训练；

3)重复2)，直至网络损失函数收敛或在验证集上的检测结果稳定，这时的网络参数即为训练好的具有检测色情图像功能的深层卷积神经网络的参数，可以在测试集上进行测试。

使用基于深度学习的机器学习技术构造主动识别算法，主动发现网络上的色情恶意图像，相比较人工审核，覆盖全网络范围图片，且即时响应，降低人力成本和时间成本；除了上述的基于深度学习的卷积神经网络分类模型，所述分类模型也可以为基于支持向量机的分类模型，通过所述图像识别分类模型识别出所述非法图像。在机器学习中，支持向量机(Support Vector Machine，SVM)是与相关的学习算法有关的监督学习模型，可以分析数据，识别模式，用于分类和回归分析，即给定一组训练样本，每个标记为属于两类，一个SVM训练算法建立了一个模型，分配新的实例为一类或其他类，使其成为非概率二元线性分类。可见，采用支持向量机的学习算法，同样可以建立所述分类模型，本发明对所述分类模型的建立方法不作具体限定。

S302、网络图片输入分类模型。

这里的网络图片为批量输入的多张图片，并由分类模型依次对其一一识别分类。

S303、判断网络图片是否为色情图像，上述分类模型的识别结果包括色情图片和非色情图片，若判断为非色情图像，则抛弃该图片。

S304、色情图像加入待聚类图像集。

将识别结果为色情的色情图片加入到待聚类图像集，上述的网络图片数量越多，使得待聚类图像集的素材越丰富，就越有利于下述的聚类操作。

S305、判断是否对所有网络图片完成分类，若是，则执行S306，若否，则返回S302继续执行。

S306、图像聚类。

本发明实施例中采用K-均值聚类算法对待聚类图像集中的图像进行聚类，对于数据样本集X＝{x1,x2,…,xn}，n为样本数，设拟划分为k个聚类V＝{v1,v2,…,vk}，先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。一旦全部对象都被分配了，每个聚类的聚类中心会根据聚类中现有的对象被重新计算，这个过程将不断重复，直至聚类中心不再变化，算法终止。在本实施例中，对于待聚类图像集中的每一张图片，计算其在深度卷积神经网络分类模型中的中间层响应向量V作为该图片的描述特征，然后使用K-均值聚类算法。

本发明不限定使用K-均值聚类法进行聚类，本发明也可以使用其他图像聚类算法，比如均值漂移(Mean Shift)算法，其算法原理是，在样本中随机选择一圆心为o，半径为h的区域，得出这个区域中所有样本点的平均值，圆心处的样本密度必然比均值处的样本密度小或者相等，将均值定为新的圆心重复以上步骤，直到收敛到密度极大值点。或者采用模糊C均值聚类算法，其工作原理是，算法将n个样本分为c个组，得到各个组的聚类中心，最终让非相似性指标的目标函数达到最小，算法给各个样本点赋予0～1之间的隶属度，通过隶属度的值来判断样本归属于各个分类的程度，或者采用层次聚类算法等等，当聚类样本小的情况下，甚至可以采用人工方式进行聚类。

S307、判断图像聚类数量是否大于第一阈值，若是，执行S308，若否，则抛弃聚类的图像。

本发明实施例监控的对象是在网上泛滥传播(或者具有泛滥传播趋势的)色情图像，因此，当聚类数量较小时，比如就寥寥几张图片聚为一类时，则判定这几张图片的传播量还没到达监控指标，可以不对其进行监控。

所述第一阈值为一个预设的数量值阈值，所述第一阈值是根据实际监测场景的规模认为预设的，上述图像聚类的结果可能为没有聚类到或者聚类到一组或多组图像，在一组或多组图像中选择图片数量达到第一阈值的作为高传播图片组，表示该组中的图像为高传播图片。

S308、选取一张图像加入传播图片库。

针对每一个高传播图片组，选取一张图像加入到传播图片库，对于多个高传播图片组，则选取相应多张图像加入到传播图片库，具体选定一张图像的方式可以为随机选定任意一张作为该组的传播图片，也可以采用其他任意方式进行选定，本发明对此不作具体限定。

S309、目标图像与传播图片库比对。

获取待监测的目标图像，将其与传播图片库中的传播图片进行比对，比对的方式可以通过相似度计算方法计算两张图片的相似度，具体为，基于特定的图像指纹，采用如md5、sha等一般文件指纹算法，也可以为phash等专用于图像的感知散列算法。在计算两两图片的相似度时，基于上述聚类算法时计算图片在深度卷积神经网络上的中间层响应向量V，取两张图片特征的余弦距离，以上仅作为本发明优选的计算相似度方法，而不限定本发明比对方法的保护范围，任何可以得到比对结果的方法都属于本发明保护的范围。

S310、判断比对结果是否匹配，若匹配，则执行S311，若不匹配，则抛弃不与传播图片库匹配的目标图像。

本申请实施例中，匹配的指标为第二阈值，所述第二阈值为预设的百分数阈值，比如设定第二阈值为85％，则表示，当目标图像与传播图片库中某一张图片的相似度为85％或以上时，则表明所述目标图像与传播图片库的比对结果为匹配的。对比方式可以一一比对，并将所述目标图像映射到与之相似度最高的一张传播图片。

S311、在传播图片库中标记传播次数。

在传播图片库中增加传播次数信息，在匹配的情况下，匹配的目标图像所映射的传播图片对应的传播次数加1，这样就可以体现该传播图片或该目标图像的传播次数。

S312、查询目标图像的来源和时间。

每一个网络图片，都关联有其对应的发表地址和发表时间，通过发表地址可以追溯图像的来源。

S313、获取目标图像的传播途径和范围。

通过匹配查询，可以得到与同一张传播图片相匹配的多张目标图像的传播来源和传播时间，就可以获取相应的传播途径，通过传播次数，可以估测相应的传播范围。

本发明实施例是对色情图像高传播的监测方法，同时，本发明的技术方法不局限于色情图像这一监控目标，对于其他特征图片，比如暴力图片或者群体性恶意事件亦可采用本发明的技术方案得以实现。

在本发明的一个实施例中，提供了一种图像传播监测装置，所述装置的模块架构参见图5，所述装置包括以下模块：

模型模块510，用于建立图像识别分类模型；

识别模块520，用于通过所述分类模型识别图像样本集，得到所述图像样本集中的非法图像；

聚类模块530，用于对所述非法图像进行聚类分析，得到聚类数量多于第一阈值的传播图片，聚类的具体方式为：采用K-均值聚类算法对待聚类图像集中的图像进行聚类，对于数据样本集X＝{x1,x2,…,xn}，n为样本数，设拟划分为k个聚类V＝{v1,v2,…,vk}，先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。一旦全部对象都被分配了，每个聚类的聚类中心会根据聚类中现有的对象被重新计算，这个过程将不断重复，直至聚类中心不再变化，算法终止。在本实施例中，对于待聚类图像集中的每一张图片，计算其在深度卷积神经网络分类模型中的中间层响应向量V作为该图片的描述特征，然后使用K-均值聚类算法；

传播库模块540，用于根据所述传播图片更新传播图片库，具体为：从聚为一类的图片中随机选取一张或多张加入到传播图片库中；

比对模块550，用于比对待监测的目标图像与传播图片库中的传播图片，具体为，利用文件指纹算法获取目标图像的图像指纹，基于所述图像指纹，检索判断目标图像是否与传播图片库中的传播图片相同或相似，具体方法为：基于特定的图像指纹，采用如md5、sha等一般文件指纹算法，也可以为phash等专用于图像的感知散列算法。在计算两两图片的相似度时，基于上述聚类算法时计算图片在深度卷积神经网络上的中间层响应向量V，取两张图片特征的余弦距离；

追踪模块560，用于在目标图像与传播图片的相似度高于第二阈值的情况下，对所述目标图像进行传播追踪分析，具体操作为：查询所述目标图像的发表来源信息和发表时间信息，并记录与目标图像对应的传播图片的匹配次数，进而获取所述目标图像的传播途径及传播范围信息。

其中，所述模型模块510构建的分类模型包括但不限定于基于深度学习的神经网络分类模型和基于支持向量机的分类模型，以卷积神经网络分类模型为例，将深层卷积神经网络分为5个卷积层，4个全连接层和1个softmax层，每一层的参数描述如下：

Softmax分类层：包括2个输出，分别代表色情和非色情。

以上深层卷积神经网络结构的网络训练策略为：

3)重复2)，直至网络损失函数收敛或在验证集上的检测结果稳定，这时的网络参数即为训练好的具有检测色情图像功能的深层卷积神经网络的参数，可以在测试集上进行测试，直至达到满意的准确率。

在此说明，本发明实施例中提供的聚类算法及相似度计算方法仅为本发明的优选实施例，其他可以实现聚类和相似度计算的方法都属于本发明保护的范围，而不限定于以上优选实施例。

需要说明的是：上述实施例提供的图像传播监测装置在进行监测时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将图像传播监测装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，本实施例提供的图像传播监测装置实施例与上述实施例提供图像传播监测方法属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本发明实施例提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。在本发明的一个实施例中，以运行在计算机终端上为例，图6是本发明实施例的图像传播监测装置的计算机终端的硬件结构框图。如图6所示，终端800可以包括RF(RadioFrequency，射频)电路110、包括有一个或一个以上计算机可读存储介质的存储器120、输入单元130、显示单元140、传感器150、音频电路160、WiFi(wireless fidelity，无线保真)模块170、包括有一个或者一个以上处理核心的处理器180、以及电源190等部件。本领域技术人员可以理解，图6中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路110可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器180处理；另外，将涉及上行的数据发送给基站。通常，RF电路110包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier，低噪声放大器)、双工器等。此外，RF电路110还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯系统)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA(CodeDivision Multiple Access，码分多址)、WCDMA(Wideband Code Division MultipleAccess,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(ShortMessaging Service，短消息服务)等。

存储器120可用于存储软件程序以及模块，处理器180通过运行存储在存储器120的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端800的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器120还可以包括存储器控制器，以提供处理器180和输入单元130对存储器120的访问。

输入单元130可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元130可包括触敏表面131以及其他输入设备132。触敏表面131，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面131上或在触敏表面131附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面131可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器180，并能接收处理器180发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面131。除了触敏表面131，输入单元130还可以包括其他输入设备132。具体地，其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端800的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元140可包括显示面板141，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板141。进一步的，触敏表面131可覆盖显示面板141，当触敏表面131检测到在其上或附近的触摸操作后，传送给处理器180以确定触摸事件的类型，随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图6中，触敏表面131与显示面板141是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面131与显示面板141集成而实现输入和输出功能。

终端800还可包括至少一种传感器150，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板141的亮度，接近传感器可在终端800移动到耳边时，关闭显示面板141和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端800还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路160、扬声器161，传声器162可提供用户与终端800之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号，传输到扬声器161，由扬声器161转换为声音信号输出；另一方面，传声器162将收集的声音信号转换为电信号，由音频电路160接收后转换为音频数据，再将音频数据输出处理器180处理后，经RF电路110以发送给比如另一终端，或者将音频数据输出至存储器120以便进一步处理。音频电路160还可能包括耳塞插孔，以提供外设耳机与终端800的通信。

WiFi属于短距离无线传输技术，终端800通过WiFi模块170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图6示出了WiFi模块170，但是可以理解的是，其并不属于终端800的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器180是终端800的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器120内的软件程序和/或模块，以及调用存储在存储器120内的数据，执行终端800的各种功能和处理数据，从而对终端进行整体监控。可选的，处理器180可包括一个或多个处理核心；优选地，处理器180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器180中。

终端800还包括给各个部件供电的电源190(比如电池)，优选的，电源可以通过电源管理系统与处理器180逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源190还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端800还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，终端的显示单元是触摸屏显示器，终端还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行述一个或者一个以上程序包含用于进行以下操作的指令：

识别图像样本集，得到所述图像样本集中的非法图像；

根据所述传播图片更新传播图片库；

比对待监测的目标图像与传播图片库中的传播图片；

具体地，终端的处理器还用于执行以下操作的指令：建立图像识别分类模型，通过所述图像识别分类模型识别出所述非法图像，所述图像识别分类模型包括基于深度学习的神经网络分类模型和基于支持向量机的分类模型。

具体地，终端的处理器还用于执行以下操作的指令：查询所述目标图像的发表来源信息和发表时间信息，并记录与目标图像对应的传播图片的匹配次数，进而获取所述目标图像的传播途径及传播范围信息。

具体地，终端的处理器还用于执行以下操作的指令：获取图像特征信息，通过聚类分析算法将相似度高的图片聚为一类；所述聚类数量为聚为一类的图片的数量，所述传播图片为聚类数量达到第一阈值的图片。

具体地，终端的处理器还用于执行以下操作的指令：利用文件指纹算法获取目标图像的图像指纹，基于所述图像指纹，检索判断目标图像是否与传播图片库中的传播图片相同或相似。

通过以上实施方式的描述，本领域的技术人员可以清楚地了解到本发明提供的图像传播监测技术方案可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

在本发明的一个实施例中，提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，一个或者一个以上程序被一个或者一个以上的处理器用来执行图像传播监测的方法，所述方法包括：

识别图像样本集，得到所述图像样本集中的非法图像；

根据所述传播图片更新传播图片库；

比对待监测的目标图像与传播图片库中的传播图片；

上述本发明实施例的先后顺序仅仅为了描述，而不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图像传播监测方法，其特征在于，所述方法包括：

识别图像样本集，得到所述图像样本集中的非法图像；

将预设数量的所述传播图片加入传播图片库；

比对待监测的目标图像与传播图片库中的传播图片；

2.根据权利要求1所述的图像传播监测方法，其特征在于，识别图像样本集之前还包括：

建立图像识别分类模型，通过所述图像识别分类模型识别出所述非法图像，所述图像识别分类模型包括基于深度学习的神经网络分类模型和基于支持向量机的分类模型。

3.根据权利要求1所述的图像传播监测方法，其特征在于，所述对所述目标图像进行传播追踪分析包括：

查询所述目标图像的发表来源信息和发表时间信息，并记录与目标图像对应的传播图片的匹配次数，进而获取所述目标图像的传播途径及传播范围信息。

4.根据权利要求3所述的图像传播监测方法，其特征在于，还包括：

根据预设时限，删除所述传播图片库中处于所述预设时限之前的传播图片。

5.根据权利要求1所述的图像传播监测方法，其特征在于，

所述对所述非法图像进行聚类分析包括：获取图像特征信息，通过聚类分析算法将相似度高的图片聚为一类；

所述聚类数量为聚为一类的图片的数量，

所述传播图片为聚类数量达到第一阈值的图片。

6.根据权利要求1-5中任意一项所述的图像传播监测方法，其特征在于，所述比对待监测的目标图像与传播图片库中的传播图片包括：

利用文件指纹算法获取目标图像的图像指纹，基于所述图像指纹，检索判断目标图像是否与传播图片库中的传播图片相同或相似。

7.一种图像传播监测装置，其特征在于，包括：

传播库模块，用于将预设数量的所述传播图片加入传播图片库；

8.根据权利要求7所述的图像传播监测装置，其特征在于，还包括模型模块，用于建立图像识别分类模型，通过所述图像识别分类模型识别出所述非法图像，所述图像识别分类模型包括基于深度学习的神经网络分类模型和基于支持向量机的分类模型。

9.根据权利要求7所述的图像传播监测装置，其特征在于，所述追踪模块查询所述目标图像的发表来源信息和发表时间信息，并记录与目标图像对应的传播图片的匹配次数，进而获取所述目标图像的传播途径及传播范围信息。

10.根据权利要求7所述的图像传播监测装置，其特征在于，

所述聚类模块获取图像特征信息，通过聚类分析算法将相似度高的图片聚为一类；

所述聚类数量为聚为一类的图片的数量，

所述传播图片为聚类数量达到预设的聚类阈值的图片。

11.根据权利要求7-10中任意一项所述的图像传播监测装置，其特征在于，所述比对模块利用文件指纹算法获取目标图像的图像指纹，基于所述图像指纹，检索判断目标图像是否与传播图片库中的传播图片相同或相似。