CN108171264A

CN108171264A - 一种利用深度学习结合哈希编码对图片侵权内容的提取识别技术

Info

Publication number: CN108171264A
Application number: CN201711432928.7A
Authority: CN
Inventors: 沈家云; 王松; 吴泽锋
Original assignee: Beijing Non Dipper Data Technology Development Co Ltd
Current assignee: Beijing Non Dipper Data Technology Development Co Ltd
Priority date: 2017-12-26
Filing date: 2017-12-26
Publication date: 2018-06-15

Abstract

本发明涉及专门适用于利用技术手段实现侵权资源的提取及识别比对，防止图片内容的侵权复制与扩散方法技术领域，特别是涉及保护图片内容的版权问题方法。本发明采用的技术方法可分为三个步骤：步骤一、图片资源爬取；步骤二、利用深度学习对图片特征提取并用哈希编码对图片进行编码；步骤三、利用二层哈希编码定位技术对图片编码比对识别内容是否为侵权内容。

Description

一种利用深度学习结合哈希编码对图片侵权内容的提取识别技术

技术领域

本发明涉及专门适用于利用技术手段实现侵权资源的提取及识别比对，防止图片内容的侵权复制与扩散方法技术领域，特别是涉及保护图片内容的版权问题方法。

背景技术

随着人们图片权益物化意识的增强，版权纠纷案件迭起。国家版权局发布的《2015年中国网络版权保护年度报告》指出：我国版权归属、交叉授权等方式混乱，权力人间的版权纠纷愈来愈多发，各种乱象亟待行业规范。据统计，2015年国内各省市政府开展的保护知识产权专项行动中，共查处涉及数字版权纠纷的行政案件383件，行政罚款450万元，移送司法机关刑事处理59件。法院受理的著作权案件中，网络著作权纠纷案件高达50％。每年因盗版导致的损失在10亿元左右。基于此类问题，利用技术手段提取网络中图片侵权内容，及时防止侵权内容进一步传播扩散对版权所有人或单位构成所有权侵犯，图片内容的保护显得尤为重要。

目前我国对互联网环境下图片权益保护的认识及处置技术的研究还处于初级阶段，国民经济、技术等方面的综合水平较低，使得我国在数字图片权益保护方面具有迫切性和必要性。我国已有的版权监测系统的建设规模与网络规模相比来说还是捉襟见肘，且大部分的版权检测采用传统方法进行数据的采集和分析。局限性体现在采用网页文字爬取方式，根据关键字对网页进行搜索，对网页中的内容无法进行监测，遇到标题与内容不符的情况下，无法自动判定；自行研发的特征值提取算法，精度与效率无法得到有效保障；检测业务被动，需要用户登录至监测平台中，单独提交一份申请监测作品的资料，才能够进行版权监测。

当下，深度学习的应用日趋广泛，利用深度学习技术完成大规模数据量的智能化处理分析应用已经十分成熟。相比较目前火热的机器学习用大量数据训练模型替代专家经验的方法，深度学习只需要学习训练数据来修改模型参数即可达到令人满意的处理效果，深度学习网络典型模型为深度卷积网络，其在图像识别领域受到了广泛重视。在对侵权资源的识别提取过程中，利用深度学习的方法对图片的特征向量进行并行式多维度提取，将深层卷积神经网络与LSH、SH、SKLSH、ITQ、PCA-RR、DSH六种哈希编码策略进行结合，构建新的编码策略对图片多维度特征向量进行编码。采用一种基于哈希编码定位技术的二层对比方法并结合权属信息或权威时间源，将疑似侵权资源的编码与母带的编码进行对比，计算其相似度以判定是否确实侵权及实现篡改部位的提取。再利用机器学习对侵权图片侵权使用的内容类型、用户类型、传播途径进行数据分析，挖掘其扩散特点及受众特点，为防止图片侵权内容进一步传播所制定保护方法提供了可靠地参考来源，提高了网络图属性管理的科学性并加强了权利人合法权益的保护。

发明内容

本发明的主要目的是为了防止图片侵权内容进一步传播，保护图片版权所属人正当权益不受侵害，提供了一种基于数据驱动的对侵权图片资源的比对、识别、提取技术并对数字侵权传播使用的用户、渠道、传播方式进行分析，为图片的有效监管提供准确的受众分类模型。

通过深度学习对图片进行并行式多维度特征提取，按照不同的应用场景对不同维度的特征重要性进行排序；制定哈希编码策略，将特征向量进行编码生成图片唯一身份码，为图片的准确辨识提供科学依据；将图片的编码与权属信息或权威时间源绑定，利用二层哈希编码定位技术对图片的编码进行定位、比对、辨识以实现侵权图片及其篡改部位的准确识别，为图片的合法使用提供技术支持；。该项技术能够大幅地提高对图片侵权内容的取证效率，同时能够实现对侵权图片进行准确识别，比对侵权内容来源，从源头上监管图片内容，防止非法传播，真正从技术层面上为图片内容版权保护提供了有力保障。

为了实现上述目的，本发明采用的技术方法可分为三个步骤：

步骤一、图片资源爬取；

步骤二、利用深度学习对图片特征提取并用哈希编码对图片进行编码；

步骤三、利用二层哈希编码定位技术对图片编码比对识别内容是否为侵权内容；

本发明的优点在于：

1.本发明建立了一套完整地对图片内容进行检索、识别比对、分析地技术方法，为国内关于图片版权保护领域提供了有力的技术保障与技术支持。

2.本发明将深度学习中的CNN卷积神经网络模型成功与LSH、SH、SKLSH、ITQ、PCA-RR、DSH六种哈希编码技术相结合，构建了一种新的编码策略对图片特征向量的并行提取。建立了科学的图像特征比对方法，实现了对图片是否涉及侵权的智能识别，并对图片涉及篡改部分内容进行准确提取。

3.本发明为版权保护相关部门尤其是对图片版权保护相关部门提供了基于事实依据地客观参考，同时为相关部门规范图片版权内容保护提供了政策依据。

附图说明

图1是本发明的整体技术路线示意图；

图2是本发明关于图片特征提取编码说明图；

图3是本发明关于图片编码比对识别内容是否侵权的说明图。

具体实施方式

下面结合附图和实施例对本发明进行详细说明。

一种利用深度学习结合哈希编码对图片侵权内容的提取识别技术，系统框图如图1所示，具体包括步骤如下：

步骤一、在对涉及侵权内容的图片进行比对识别时，需要给定一个样本输入。样本的选取范围可以选定在各大中型门户网站，利用图片爬取技术获取大量图片资源用来识别比对。

步骤二、利用深度学习对图片特征提取并用哈希编码对图片进行编码。此步骤的主要基于深度学习CNN卷积神经网络结合哈希编码对涉及图片版权内容进行比对与识别。具体的方法示意图为图2所示。然后对提取到的图片特征用LSH、SH、SKLSH、ITQ、PCA-RR、DSH六种哈希编码对其编码，类似独一无二的身份证号，被编码的图片也是唯一的。传统的图片编码技术为串行式处理，从网上爬取整个图片后，再对图片进行滤波、提取、编码对比，时间较长，处理速度较慢。本发明则提出结合深度学习中的卷积核神经网络对图片(特征向量)进行并行式提取并利用哈希编码对其编码，在爬取图片资源的同时，对图片进行滤波、提取、编码和对比，由此缩短计算时间，克服现有技术处理速度较慢的问题，达到图片快速提取编码的目的。

步骤三、在分别将版权图片即原版图片以及网上获取的图片经过特征提取与哈希编码后进行特征比对与识别，首先利用汉明距离计算方法对两组编码进行相似度初筛，得到相似度较高的部分再利用欧氏距离进行进一步的比对识别，设定相似度阈值，到达该阈值的两部分图片特征界定为内容基本一致或涉及侵权。具体方法示意图如图3所示。

实施例一

该实例实现对侵权内容的识别技术包含三个部分：

步骤一、图片资源的获取。根据图片关键词、检索范围、检索资源上传时间在网站中搜索匹配度高的资源。在对涉及图片版权侵权的内容的检索前，面对互联网海量的图片信息，没有目的的检索犹如大海捞针。因此，为实现此次目的首先要对检索的图片内容进行筛选，筛选的条件有涉及图片的内容的关键词、资源检索(爬取)范围限定、资源的上传时间等关键筛选条件。资源检索的主要对象主要为各大中型门户网站，利用爬虫技术对涉及图片版权侵权内容匹配度高的资源进行爬取，在资源的爬取过程中应当建立对一些网站中使用的常用反爬虫策略实现自动判别与破解其限制；

步骤二、图片特征提取与哈希编码。该部分运行在python语言环境下，图片的特征提取与编码均在caffe(Convolutional Architecture for Fast Feature Embedding,caffe)深度学习框架中得以实现。在对大中型网站图片进行爬取后，针对得到的原始图片利用卷积神经网络对图片内容进行特征向量的并行提取。同时，对原版图片进行特征向量的并行提取。由于卷积神经网络其本身的卷积和池化计算的特性，提取输出的特征向量大小控制整体模型的拟合能力，使得提取到的特征更不容易出现拟合的情况；且其本身有平移不变性，不需要对输入样本图片进行变造。具体操作首先在caffe框架中训练深度神经网络CNN即卷积神经网络模型，模型的输出为编码后的特征图像，输出的前一层为CNN提取后的特征图像。随后输入获取到的样本图片，图片经过多个卷积层及降采样层后，将得到的每个特征向量进行映射，映射采取的策略结合LSH、SH、SKLSH、ITQ、PCA-RR、DSH六种哈希编码技术，映射后每个图像特征对应得到一组二进制数，即完成了图片的哈希编码。故特征提取及哈希编码整个过程在caffe框架中实现。

步骤三、版权图片的内容比对识别。利用二层哈希编码定位技术对图片编码比对识别内容是否为侵权内容。包括图片特征提取、图片编码、编码比对等组件，依据编码与获取的网络资源进行对比，检测网络资源是否构成侵权。该方法第一层基于汉明距离对疑似资源进行初筛，将剩下的资源作为第二层的候选数据源，利用欧式距离再次筛选。在该部分利用基于多粒度相似度矩阵的定位策略实现侵权图片识别。首先将原始资源与疑似侵权资源进行相同的分段，在此基础上构建相似度矩阵。也即是在图片内容被侵权使用并篡改后，通过与编码后的原版权图片对比，设立相似度阈值，提取出被篡改的图片部分，判别该图片内容是否涉及侵权。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，均同理包括在本发明的专利保护范围内。

Claims

1.本发明涉及专门适用于利用技术手段实现侵权资源的提取及识别比对，防止图片内容的侵权复制与扩散方法技术领域，特别是涉及保护图片内容的版权问题方法。本发明采用的技术方法可分为三个步骤：

步骤一、图片资源爬取；

步骤三、利用二层哈希编码定位技术对图片编码比对识别内容是否为侵权内容。

2.根据权利要求1所述的方法，其特征在于：在步骤二中，利用深度学习对图片特征提取并用哈希编码对图片进行编码。此步骤的主要基于深度学习CNN卷积神经网络结合哈希编码对涉及图片版权内容进行比对与识别。具体的方法示意图为图2所示。然后对提取到的图片特征用LSH、SH、SKLSH、ITQ、PCA-RR、DSH六种哈希编码对其编码，类似独一无二的身份证号，被编码的图片也是唯一的。传统的图片编码技术为串行式处理，从网上爬取整个图片后，再对图片进行滤波、提取、编码对比，时间较长，处理速度较慢。本发明则提出结合深度学习中的卷积核神经网络对图片(特征向量)进行并行式提取并利用哈希编码对其编码，在爬取图片资源的同时，对图片进行滤波、提取、编码和对比，由此缩短计算时间，克服现有技术处理速度较慢的问题，达到图片快速提取编码的目的。

3.根据权利要求1所述的方法，其特征在于：在步骤三中，在分别将版权图片即原版图片以及网上获取的图片经过特征提取与哈希编码后进行特征比对与识别，首先利用汉明距离计算方法对两组编码进行相似度初筛，得到相似度较高的部分再利用欧氏距离进行进一步的比对识别，设定相似度阈值，到达该阈值的两部分图片特征界定为内容基本一致或涉及侵权。具体方法示意图如图3所示。