CN104462873A - 一种图片处理方法和装置 - Google Patents

一种图片处理方法和装置 Download PDF

Info

Publication number
CN104462873A
CN104462873A CN201310418197.6A CN201310418197A CN104462873A CN 104462873 A CN104462873 A CN 104462873A CN 201310418197 A CN201310418197 A CN 201310418197A CN 104462873 A CN104462873 A CN 104462873A
Authority
CN
China
Prior art keywords
picture
feature code
fisrt feature
print
gray
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310418197.6A
Other languages
English (en)
Inventor
魏杰
聂运富
宋法山
汪滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
FOUNDER DIGITAL PUBLISHING TECHNOLOGY (SHANGHAI) CO LTD
Founder Information Industry Holdings Co Ltd
Peking University Founder Group Co Ltd
Original Assignee
FOUNDER DIGITAL PUBLISHING TECHNOLOGY (SHANGHAI) CO LTD
Founder Information Industry Holdings Co Ltd
Peking University Founder Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by FOUNDER DIGITAL PUBLISHING TECHNOLOGY (SHANGHAI) CO LTD, Founder Information Industry Holdings Co Ltd, Peking University Founder Group Co Ltd filed Critical FOUNDER DIGITAL PUBLISHING TECHNOLOGY (SHANGHAI) CO LTD
Priority to CN201310418197.6A priority Critical patent/CN104462873A/zh
Publication of CN104462873A publication Critical patent/CN104462873A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Technology Law (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种图片处理方法和装置,所述方法包括:获取待识别的第一图片;计算所述第一图片的第一特征码;将所述第一特征码与预先存储的第二图片对应的第二特征码进行对比,得到作为所述第一图片与所述第二图片相似度的对比结果;当所述对比结果达到预设数值时,保存所述第一图片的相关信息。本发明能在现有海量的数字图片数据库中快速查找出相似的图片,可以轻易的辨别出获取的图片是否侵犯了原图的版权,对于数字图片的版权保护非常有利。

Description

一种图片处理方法和装置
技术领域
本发明涉及多媒体识别领域,特别涉及一种图片处理方法和装置。
背景技术
数字图片在网络上的传播非常广泛,使人们在想使用某一图片时,可以非常方便快捷的找到某一图片并进行使用,但是如何保护数字图片在网络传播中的版权是亟需解决的问题。
现有技术的不足之处在于:在图片等数字作品流传和交流的过程中,数字图片存在容易复制修改、原件与副本很难辨识的问题。在这种情况下,一张数字图片传播到网上并被广泛转载后,如果产生版权纠纷,很难判断到是否涉及到侵权,甚至图片被修改加工后,与原图风格相差很大,通过人工很难判断出加工后的图片是否侵犯了原图的版权。这对于数字图片的版权保护非常不利。
发明内容
为克服上述缺陷,本发明提供一种图片处理方法和装置。
第一方面,本发明提供一种图片处理方法,包括:
获取待识别的第一图片;
计算所述第一图片的第一特征码;
将所述第一特征码与预先存储的第二图片对应的第二特征码进行对比,得到作为所述第一图片与所述第二图片相似度的对比结果;
当所述对比结果达到预设数值时,保存所述第一图片的相关信息。
优选的,所述计算第一图片的第一特征码的步骤具体包括:
将所述第一图片转换成M×N像素大小的灰度图片;
计算所述灰度图片中所有像素的灰度平均值;
判断所述灰度图片中各像素的灰度值与所述灰度平均值的大小,得到一判断结果;
根据所述判断结果获取所述第一特征码;
其中,所述第一特征码包括M×N个元素,每一个元素对应于所述灰度图片中的一个像素,所述灰度图片中,灰度值大于或等于所述灰度平均值的像素对应的元素的数值为1,否则为0;
所述第一图片与所述第二图片相似度具体为对应的元素数值相同的像素数量。
优选的,所述将所述第一特征码与预先存储的所述第二图片对应的第二特征码进行对比,得到作为所述第一图片与所述第二图片相似度的对比结果具体包括:
对所述第一特征码和所述第二特征码中对应位置的数值进行异或运算,得到一计算结果;
统计所述计算结果中0的数量,作为所述对比结果。
优选的,当所述第一图片的数量为多个时,将所述第一特征码与预先存储的第二图片对应的第二特征码进行对比,得到作为所述第一图片与所述第二图片相似度的对比结果的步骤中,采用分布式计算方式得到所述第一图片与每一个所述第二图片的对比结果。
优选的,在计算所述第一图片的第一特征码之前,所述方法还包括:
判断能否获取所述第一图片的第一数字指纹,获取第一判断结果;
当第一判断结果指示能获取所述第一图片的第一数字指纹时,判断所述第一数字指纹与预先存储的第二图片的第二数字指纹是否一致,获取第二判断结果,否则进入计算所述第一图片的第一特征码的步骤;
当第二判断结果指示所述第一数字指纹与所述第二数字指纹一致时,获取并保存所述第一图片的相关信息,否则进入计算所述第一图片的第一特征码的步骤。
优选的,所述获取待识别的第一图片具体包括:
从URL数据库中选择目标URL;
基于Http协议获取目标URL的页面数据;
从所述页面数据中提取得到所述待识别的第一图片;
利用页面数据获取所述第一图片的相关信息。
优选的,所述相关信息包括所述URL、正文摘要、页面快照和站点信息中的至少一个。
第二方面,本发明提供一种图片处理装置,包括:
获取模块,用于获取待识别的第一图片;
第一计算模块,用于计算所述第一图片的第一特征码;
第二计算模块,用于将所述第一特征码与预先存储的第二图片对应的第二特征码进行对比,得到作为所述第一图片与所述第二图片相似度的对比结果;
存储模块,用于当所述对比结果达到预设数值时,保存所述第一图片的相关信息。
优选的,所述第一计算模块具体用于:
将所述第一图片转换成M×N像素大小的灰度图片;
计算所述灰度图片中所有像素的灰度平均值;
判断所述灰度图片中各像素的灰度值与所述灰度平均值的大小,得到一判断结果;
根据所述判断结果获取所述第一特征码;
其中,所述第一特征码包括M×N个元素,每一个元素对应于所述灰度图片中的一个像素,所述灰度图片中,灰度值大于或等于所述灰度平均值的像素对应的元素的数值为1,否则为0;
所述第一图片与所述第二图片相似度具体为对应的元素数值相同的像素数量。
优选的,所述第二计算模块包括:
计算单元,用于对所述第一特征码和所述第二特征码中对应位置的数值进行异或运算,得到一计算结果;
统计单元,用于统计所述计算结果中0的数量,作为所述对比结果。
优选的,当所述第一图片的数量为多个时,所述第二计算模块,采用分布式计算方式得到所述第一图片与每一个所述第二图片的对比结果。
优选的,在所述第一计算单元之前,所述装置还包括:
第一判断模块,用于判断能否获取所述第一图片的第一数字指纹,获取第一判断结果;
第二判断模块,用于当第一判断结果指示能获取所述第一图片的第一数字指纹时,判断所述第一数字指纹与预先存储的第二图片的第二数字指纹是否一致,获取第二判断结果,否则进入计算所述第一图片的第一特征码的步骤;
第三判断模块,当第二判断结果指示所述第一数字指纹与所述第二数字指纹一致时,获取并保存所述第一图片的相关信息,否则进入计算所述第一图片的第一特征码的步骤。
优选的,所述获取模块具体用于:
从URL数据库中选择目标URL;
基于Http协议获取目标URL的页面数据;
从所述页面数据中提取得到所述待识别的第一图片;
利用页面数据获取所述第一图片的相关信息。
优选的,所述相关信息包括所述URL、正文摘要、页面快照和站点信息中的至少一个。
本发明实施例提供的图片处理方法和装置,从网络获取第一图片以及第一图片的相关信息,将获取的第一图片转换为灰度图片,并计算灰度图片的图片特征码,在通过计算得到第一图片的图片特征码后,与存储的第二图片的特征码进行对比,得到一对比结果,在得到的对比结果大于等于预先设定的数值时,记录第一图片的相关信息,即使第一图片在传播过程中被修改,也可轻易的辨认出第一图片的与存储的第二图片是否相似,因此可以在现有海量的数字图片数据库中快速查找出相似的图片;从而可以轻易的辨别出获取的图片是否侵犯了原图的版权,对于数字图片的版权保护非常有利。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1表示本发明图片处理方法实施例的示意图。
图2表示本发明图片处理方法另一实施例的示意图。
图3表示本发明图片处理方法另一实施例中图片比对过程流程图。
图4表示本发明图片处理方法另一实施例中图片侵权处理的示意图。
图5表示本发明图片处理方法另一实施例中图片特征码比对的Map阶段示意图。
图6表示本发明图片处理方法另一实施例中图片特征码比对的Reduce阶段示意图。
图7表示本发明图片处理装置实施例的结构示意图。
图8表示本发明图片处理装置另一实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例的图片处理方法的流程图如图1所示,所述方法包括如下步骤:
步骤100.获取待识别的第一图片;
步骤101.计算所述第一图片的第一特征码;
步骤102.将所述第一特征码与预先存储的第二图片对应的第二特征码进行对比,得到作为所述第一图片与所述第二图片相似度的对比结果;
步骤103.当所述对比结果达到预设数值时,保存所述第一图片的相关信息。
在本实施例中,通过计算得到第一图片的第一特征码,将第一特征码与存储的第二图片的第二特征码进行对比,得到第一图片与所述第二图片相似度,所以通过上述操作可轻易的辨认出第一图片的与存储的第二图片是否相似,因此可以在现有海量的数字图片数据库中快速查找出相似的图片。
本实施例可以用于各种场合,如图片搜索、图片版权侵犯处理等,简要说明如下:
在用户进行图片搜索时,搜索网站可以根据用户输入的搜索信息,获取待识别的第一图片,通过计算得到第一图片的第一特征码,将第一特征码与存储的第二图片的第二特征码进行对比,得到第一图片与所述第二图片相似度,当认为第一图片与第二图片相似时,可以保存所述第一图片的相关信息,并通过网络链接的形式表现出来,以供用户选择;因此,通过以上方式,可以快捷方便的向用户推荐图片。
在图片版权侵犯处理中,执法人员可以先获取待识别的第一图片,通过计算得到第一图片的第一特征码,将第一特征码与存储的第二图片的第二特征码进行对比,得到第一图片与所述第二图片相似度,当认为第一图片与第二图片相似时,则说明第一图片侵犯了第二图片的版权,保存所述第一图片的相关信息,并根据保存的第一图片的相关信息,进行后续的版权侵权处理。因此,通过上述操作方式,执法人员可以轻易的辨别出数字图片是否侵犯了原图的版权。
在本实施例中,可以通过各种场合对获取图片,如:线上图片和网页图片等。
现有在计算图片相似度的过程中,需要利用整个图片色块的RGB分量和线性灰度值,才能计算图像的特征向量,所以在图片很大时,处理的速度会非常慢,而且采用的算法复杂,会进一步降低图片相似度的计算速度;所以,本实施例通过如下的方式计算图片的特征值;在步骤101中,
将所述第一图片转换成M×N像素大小的灰度图片;
计算所述灰度图片中所有像素的灰度平均值;
判断所述灰度图片中各像素的灰度值与所述灰度平均值的大小,得到一判断结果;
根据所述判断结果获取所述第一特征码;
其中,所述第一特征码包括M×N个元素,每一个元素对应于所述灰度图片中的一个像素,所述灰度图片中,灰度值大于或等于所述灰度平均值的像素对应的元素的数值为1,否则为0;
所述第一图片与所述第二图片相似度具体为对应的元素数值相同的像素数量。
本申请通过上述的操作,计算获取数字图片的图片特征码,将数字图片缩放为一定长宽的图片,将缩放后的图片转为灰度化的图片,然后计算灰度图片中所有像素点的灰度平均值,将每个像素的灰度,与平均值进行比较,大于或等于平均值,记为1;小于平均值,记为0,最后组合像素点标记的0和1,以二进制数的形式构成数字图片的图片特征码;通过对图片进行了缩放,加快了处理速度,而且采用了简单的计算方法,可以大大提高图片相似度的计算速度。
现有的计算图片的相似度时,会对得到的多个特征向量值进行复杂运算,得到一个比对结果,所以计算的速度会非常慢,所以在本申请中,采用如下方式进行图片相似度的计算。
所述步骤102具体包括:
对所述第一特征码和所述第二特征码中对应位置的数值进行异或运算,得到一计算结果;
统计所述计算结果中0的数量,作为所述对比结果。
通过以上的方式,以一种非常简单的计算方式,就可以得到对比结果。
现有进行的数值比对工作,一般采用串行的方式,当图片的数量较多时,只能在对比完一张图片和存储图片的特征值后,才能继续对比下一张图片与存储图片的特征值,这样做大大降低了数值比对的速度,例如对20个图片特征值(特征值一般是100位)的数值按位进行比对运算,总过需要200秒的时间。
所以在本实施例中,当所述第一图片的数量为多个时,采用分布式计算方式得到所述第一图片与每一个所述第二图片的对比结果。
通过采用分布式的方式对所述各个第一图片的第一特征码和所述第二特征码中对应位置的数值进行异或运算,可以同时进行各个第一图片的第一特征码和所述第二特征码的比对工作,提高了数值比对的速度,当对20个图片特征值的数值按照分布式运算的方式进行计算时,在系统允许的情况下,也就时用40秒的时间。
进一步地,在本实施例中,可以将第一图片和第二图片的特征码发送到分布式文件系统的多个云节点中通过Map-Reduce的并行方式第一图片的图片特征码与存储的第二的图片特征码的数值比对运算,得到作为第一图片和第二图片的相似度的对比结果。
当然,也可以利用网络中的其他计算机进行分布式计算,这里不再一一举例说明。
可选地,在本实施例中,如果需要比对的图片数量较少,比如只有5个,那么也可以采用非分布式的方式对数值按位进行异或运算。
现有判断二图片是否相似的过程中,都是先计算二图片的特征值,然后再通过二图片间特征值来判断是否一致,但是计算的过程往往比较复杂,会浪费大量的时间。
所以本实施例中,在将所述第一特征码与预先存储的所述第二图片对应的第二特征码进行对比之前,所述方法还包括:
判断能否获取所述第一图片的第一数字指纹,获取第一判断结果;
当第一判断结果指示能获取所述第一图片的第一数字指纹时,判断所述第一数字指纹与预先存储的第二图片的第二数字指纹是否一致,获取第二判断结果,否则进入计算所述第一图片的第一特征码的步骤。
通过以上的操作方式,可先通过比对第一图片和第二图片的数字指纹,可以直接得到第一图片和第二图片是否一致的结论,可以大大提高比对速度。
所述数字指纹为全局唯一标识符(GUID,Globally Unique Identifier),使用GUID的原因是:GUID本质上是一个16字节(128位)的二进制数;任何计算机和计算机集群都不会生成两个相等的GUID,在保证全局唯一的情况下便于图片的比对、存储和查找,将生成的数字指纹会写入原图片,处理后的图片就可以用于网络的发布和传播。数字指纹除了会写入原图片外,还在本地数据库中建立与原图片数据上的关联。如果一幅图片的数字指纹与另一幅图片的数字指纹相同,那么不论两幅图片在视觉上有多么大的反差,也可以说明一幅图片是另一幅图片的复制品。
现有在获取图片的过程中,仅仅会获取当前网页存在的图片,而没有获取图片的相关信息,但是在对图片的侵权认证的过程中,仅仅获取图片是不够的。因此,在本实施例中,采用如下方式获取图片。
具体地,所述获取待识别的第一图片具体包括:
从URL数据库中选择目标URL;
基于Http协议获取目标URL的页面数据;
从所述页面数据中提取得到所述待识别的第一图片;
利用页面数据获取所述第一图片的相关信息。
进一步地,所述相关信息包括所述URL、正文摘要、页面快照和站点信息中的至少一个。
在本实施例中,通过获取的第一图片的相关信息,可以生成对第二图片侵权趋势的分析报告,使人们可以直观的了解对存储的第二图片的侵权状态,为后续的版权保护工作做准备。
进一步地,在获取第一图片及其相关信息的同时,将页面数据中除所述第一图片对应的网络链接之外的其他网络链接信息进行存储。
现有在获取网页时,往往不会获取网页上的其他网络链接并进行存储,所以不能快速的找到其他的、与存储图片相似的图片,对于图片的版权保护来说是大大不利的;而在本实施例中,在获取数字图片相关信息的同时,还要获取网页上的其他网络链接并进行存储,这样可以快捷的找出在其他网页上的、与存储图片相似的数字图片,这对于图片的版权保护来说是有利的。
现有的在版权侵权的处理过程中,一般是通过人工进行图片是否侵权的判断,效率低下,而且,不能对现有的侵权状况有明确的认识。
所以,所述图片处理方法还包括如下步骤:
a.根据存储的所述第一图片的相关信息,生成分析报告,报告内容包含:第一图片的相关信息和表示第一图片与第二图片相似度的数值;
b.将分析报告发送专业审核人员,进一步判断第一图片与第二图片是否一致,并采取相应手段进行版权维权。
通过获取的第一图片的相关信息,可以生成对第二图片侵权趋势的分析报告,使人们可以直观的了解对存储的第二图片的侵权状态,为后续的版权保护工作做准备;而且,实现了图片数字作品的增值服务,提供更有价值的侵权作品搜索服务和报告服务,更好的服务于版权,为数字化作品版权产业的发展保驾护航。
基于上述描述,本实施例提供的图片处理方法,从网络获取第一图片以及第一图片的相关信息,将获取的第一图片转换为灰度化的图片,并计算灰度图片的图片特征码,在通过计算得到第一图片的图片特征码后,与存储的第二图片的特征码进行对比,得到一对比结果,在得到的对比结果大于等于预先设定的数值时,记录第一图片的相关信息,即使第一图片在传播过程中被修改,也可轻易的辨认出第一图片的与初始的第二图片是否相似,因此可以在现有海量的数字图片数据库中快速查找出相似的图片;从而可以轻易的辨别出数字图片是否侵犯了原图的版权,对于数字图片的版权保护非常有利;再者,通过获取的第一图片的相关信息,可以生成对第二图片侵权趋势的分析报告,使人们可以直观的了解对存储的第二图片的侵权状态,为后续的版权保护工作做准备。
通过以下实施例对图片处理方法作进一步描述。
以图片侵权处理为例,对图片处理方法作进一步描述,如图2、3、4所示,所述方法包括:
步骤200.在本地数据库中,先获取图片a对应的网络链接,根据所述网络链接,下载所述图片a所在网页的页面数据,从下载的所述页面数据中选择图片a以及图片a的相关信息,并结构化存储图片a的相关信息,并向图片a分配数据库标识;
步骤201.判断能否获取图片a的数字指纹,若获取了图片a的数字指纹,则判断图片a的数字指纹与预先存储的图片b的数字指纹是否一致,如果一致则存储图片a的相关信息;
步骤202.如果不能提取图片a的数字指纹,则生成图片a的特征码,将生成的图片a的特征码和预先存储的图片b的特征码发送到分布式文件系统的各个云节点,通过Map-Reduce的并行方式对比图片a的特征码与图片b的特征码的相似度,获取一判断结果;
步骤203.如果判断结果指示图片a与图片b相似,则分布式文件系统获取图片a的相关信息;
步骤204.生成分析报告,并将生成的分析报告归档,报告内容包含:图片a的相关信息和表示图片a与图片b的相似度的数值;
步骤205.将分析报告发送专业审核人员,进一步判断抓取的图片是否与元图一致,并采取相应手段进行版权维权。
通过以上的操作,本可以在现有登记作品的基础上从海量的图片库中快速查找出相似的图片及其相关信息,生成格式统一的搜索报告;搜索的高效性体现在使用分布式云计算的方式比对本地资源中的海量数据信息、存储空间利用率及数据管理操作执行效率等多个方面;实现了图片数字作品的增值服务,提供更有价值的侵权作品搜索服务,报告服务,更好的服务于版权,为数字化作品版权产业的发展保驾护航。
具体地,在步骤200中,利用垂直爬虫方式从线上数据中或者网页数据中获取图片a,本地数据库设置在缓存引擎Redis中。这样做提高了数据的存取速度,更适合集群的同步操作。
在本实施例中,垂直抓取的过程可并行运行,大大提高了抓取的可用性、扩展性,在分布式的并行架构下展现出更好的性能优势;而且,引入缓存引擎Redis及与之配合的数据更新策略,保证缓存命中率的前提下,提高了内存空间的利用率和较高的执行效率。
在步骤200还包括:
存储所述页面数据中除图片a对应的网络链接之外的其他网络链接信息。
可选的,分布式文件系统采用Hadoop分布式文件系统。
具体地,在步骤201中生成图片a的特征码的过程包括:
先将图片a转换为PNG格式,将图片a缩放为宽10像素、高10像素大小,将缩放后的图片a转为100级的灰度图片,用100种灰度颜色来表示所有像素点,计算所有像素点的灰度平均值,将每个像素的灰度,与平均值进行比较,大于或等于平均值,记为1;小于平均值,记为0,得到10×10的数值矩阵;然后先按左到右的顺序,组合矩阵中每行的数值,再按从上到下的顺序将每行的数值组合,构成一个100位的图片特征码,记录生成的图片a的特征码。
具体地,在步骤202中,使用图片b的特征码与图片a的特征码,按位做异或运算,即0^0=0,1^0=1,0^1=1,1^1=0,结果中存有N个0,就表示两张图片的相似度为N%,N如果大于等于92(即相似度大于等于92%)就会被认定为相似。
进一步地,Map-Reduce的并行过程包括:
Hadoop分布式文件系统从本地数据库中获取图片a的数据,每条图片a的数据包括:数据库标识,特征码和图片a地址链接,其中,每条数据记录为一行,便于数据读取;将获取的图片a数据逐条转换为图片a的信息,图片a的信息包括特征码和数据库标识,将获取的图片a数据逐条转换为图片a的信息的过程如图5所示;
各个云节点获取Hadoop分布式文件系统中存储的图片b的特征码和图片a的信息;
如图6所示,各个云节点根据得到的图片a的特征码和图片b的特征码,分布式的完成特征码比对工作,记录相似度大于等于92%的图片a的数据库标识,形成数据库标识集合并输出。
通过上述方式,Map-Reduce并行过程通过把对数据集的大规模操作分发给网络上的每个节点实现过程的可靠性;每个节点会周期性的把完成的工作和状态的更新报告回来,而且大大提高数值比对的效率。
在步骤205中,对图片b的版权维权的过程包括:
对分析报告中的内容进行确认,由图片b的版权拥有人或者版权拥有人的代理机构发起维权,要求涉及侵权的网站移除图片a或者进行协商解决。
通过上述的方式,向版权拥有人提供了更有价值的侵权作品搜索服务和报告服务,更好的服务于版权保护,为数字化作品版权产业的发展保驾护航。
通过本实施例的处理方式,可以在现有登记作品的基础上从海量的图片库中快速查找出相似的图片及其相关信息,生成格式统一的搜索报告;搜索的高效性体现在使用分布式云计算的方式比对本地资源中的海量数据信息、存储空间利用率及数据管理操作执行效率等多个方面;实现图片数字作品的增值服务,提供更有价值的侵权作品搜索服务,报告服务,更好的服务于版权,为数字化作品版权产业的发展保驾护航。
图7为图片处理装置的实施例结构示意图,如图7所示,所述装置包括:
获取模块10,用于获取待识别的第一图片;
第一计算模块20,用于计算所述第一图片的第一特征码;
第二计算模块30,用于将所述第一特征码与预先存储的第二图片对应的第二特征码进行对比,得到作为所述第一图片与所述第二图片相似度的对比结果;
存储模块40,用于当所述对比结果达到预设数值时,保存所述第一图片的相关信息。
具体地,所述第一计算模块20具体用于:
将所述第一图片转换成M×N像素大小的灰度图片;
计算所述灰度图片中所有像素的灰度平均值;
判断所述灰度图片中各像素的灰度值与所述灰度平均值的大小,得到一判断结果;
根据所述判断结果获取所述第一特征码;
其中,所述第一特征码包括M×N个元素,每一个元素对应于所述灰度图片中的一个像素,所述灰度图片中,灰度值大于或等于所述灰度平均值的像素对应的元素的数值为1,否则为0;
所述第一图片与所述第二图片相似度具体为对应的元素数值相同的像素数量。
具体地,所述第二计算模块30包括:
计算单元,用于对所述第一特征码和所述第二特征码中对应位置的数值进行异或运算,得到一计算结果;
统计单元,用于统计所述计算结果中0的数量,作为所述对比结果。
优选的,当所述第一图片的数量为多个时,所述第二计算模块,采用分布式计算方式得到所述第一图片与每一个所述第二图片的对比结果。
进一步地,在所述第一计算单元20之前,所述装置还包括:
第一判断模块,用于判断能否获取所述第一图片的第一数字指纹,获取第一判断结果;
第二判断模块,用于当第一判断结果指示能获取所述第一图片的第一数字指纹时,判断所述第一数字指纹与预先存储的第二图片的第二数字指纹是否一致,获取第二判断结果,否则进入计算所述第一图片的第一特征码的步骤;
第三判断模块,当第二判断结果指示所述第一数字指纹与所述第二数字指纹一致时,获取并保存所述第一图片的相关信息,否则进入计算所述第一图片的第一特征码的步骤。
具体地,所述获取模块10具体用于:
从URL数据库中选择目标URL;
基于Http协议获取目标URL的页面数据;
从所述页面数据中提取得到所述待识别的第一图片;
利用页面数据获取所述第一图片的相关信息。
可选地,所述相关信息包括所述URL、正文摘要、页面快照和站点信息中的至少一个。
通过以下实施例对图片处理装置作进一步描述。
如图8所示,图片处理装置包括:本地数据库和分布式文件系统;其中,本地数据库包括:
URL数据库,用于管理链接搜集、分发,向下载组件推送URL,同时接收提取组件返回的的待抓取URL,URL数据库保存在缓存引擎Redis中,按键值对的类型存储所有的URL,这样做提高了数据的存取速度,更适合集群的同步操作;
下载组件,用于从URL数据库中选择目标URL,并基于Http协议以垂直抓取的方式获取目标URL的页面数据;
提取组件,用于从所述页面数据中提取得到待识别的第一图片;
获取组件,利用页面数据获取所述第一图片的相关信息,并存储所述第一图片的相关信息,并计算第一图片的特征码;其中获取组件预先存储有第二图片的特征码。
本地数据库中各个组件相互独立,可并行运行,大大提高了抓取的可用性、扩展性,在分布式的架构下展现出更好的性能优势;并且引入了缓存引擎Redis及与之配合的数据更新策略,保证缓存命中率的前提下,提高了内存空间的利用率和较高的执行效率。而且,本地数据库的各组件间不存在两个组件间的直接双向数据交互,所以设计采用了多线程同步式消息队列完成数据流的传输。组件间采用对外提供服务接口的方式获取其他模块的输入数据,输出数据采用推送的方式传递给下一个组件;组件内部采用同步式消息队列的方式存储上一模块推送的输入数据,由各组件内的线程池主动从消息队列中获取输入的数据,由支持多线程的实现方法完成对数据的获取、提取后推送给下一个组件,不仅提高了数据加工的效率,同时保证了数据的安全性,确保同一数据不会由多个线程同时处理。
分布式文件系统包括:
Hadoop分布式文件子系统,用于将从获取组件中获取的第一图片的特征码和第二图片的特征码发送到分析器,并根据分析器的获取指令获取锁死获取组件中存储的第一图片的相关信息;
分析器,包括多个云节点,用于根据第一图片的特征码和第二图片的特征码、通过Map-Reduce并行方式对第一图片和第二图片的相似性进行分析,当认定第一图片与第二图片相似时,向Hadoop分布式文件子系统发出获取指令。
Map-Reduce并行过程通过把对数据集的大规模操作分发给网络上的每个节点实现过程的可靠性;每个节点会周期性的把完成的工作和状态的更新报告回来,而且大大提高数值比对的效率。
基于上述描述,本实施例提供的图片处理装置,从网络获取第一图片以及第一图片的相关信息,将获取的第一图片转换为灰度图片,并计算灰度图片的图片特征码,在通过计算得到第一图片的图片特征码后,与存储的第二图片的特征码进行对比,得到一对比结果,在得到的对比结果大于等于预先设定的数值时,记录第一图片的相关信息,即使第一图片在传播过程中被修改,也可轻易的辨认出第一图片的与初始的第二图片是否相似,因此可以在现有海量的数字图片数据库中快速查找出相似的图片;从而可以轻易的辨别出数字图片是否侵犯了原图的版权,对于数字图片的版权保护非常有利;再者,通过获取的第一图片的相关信息,可以生成对第二图片侵权趋势的分析报告,使人们可以直观的了解对存储的第二图片的侵权状态,为后续的版权保护工作做准备。
本领域普通技术人员可以理解:实现上述方法各实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (14)

1.一种图片处理方法,其特征在于,包括:
获取待识别的第一图片;
计算所述第一图片的第一特征码;
将所述第一特征码与预先存储的第二图片对应的第二特征码进行对比,得到作为所述第一图片与所述第二图片相似度的对比结果;
当所述对比结果达到预设数值时,保存所述第一图片的相关信息。
2.根据权利要求1所述的图片处理方法,其特征在于,所述计算第一图片的第一特征码的步骤具体包括:
将所述第一图片转换成M×N像素大小的灰度图片;
计算所述灰度图片中所有像素的灰度平均值;
判断所述灰度图片中各像素的灰度值与所述灰度平均值的大小,得到一判断结果;
根据所述判断结果获取所述第一特征码;
其中,所述第一特征码包括M×N个元素,每一个元素对应于所述灰度图片中的一个像素,所述灰度图片中,灰度值大于或等于所述灰度平均值的像素对应的元素的数值为1,否则为0;
所述第一图片与所述第二图片相似度具体为对应的元素数值相同的像素数量。
3.根据权利要求2所述的图片处理方法,其特征在于,所述将所述第一特征码与预先存储的所述第二图片对应的第二特征码进行对比,得到作为所述第一图片与所述第二图片相似度的对比结果具体包括:
对所述第一特征码和所述第二特征码中对应位置的数值进行异或运算,得到一计算结果;
统计所述计算结果中0的数量,作为所述对比结果。
4.根据权利要求1所述的图片处理方法,其特征在于,当所述第一图片的数量为多个时,将所述第一特征码与预先存储的第二图片对应的第二特征码进行对比,得到作为所述第一图片与所述第二图片相似度的对比结果的步骤中,采用分布式计算方式得到所述第一图片与每一个所述第二图片的对比结果。
5.根据权利要求1所述的图片处理方法,其特征在于,在计算所述第一图片的第一特征码之前,所述方法还包括:
判断能否获取所述第一图片的第一数字指纹,获取第一判断结果;
当第一判断结果指示能获取所述第一图片的第一数字指纹时,判断所述第一数字指纹与预先存储的第二图片的第二数字指纹是否一致,获取第二判断结果,否则进入计算所述第一图片的第一特征码的步骤;
当第二判断结果指示所述第一数字指纹与所述第二数字指纹一致时,获取并保存所述第一图片的相关信息,否则进入计算所述第一图片的第一特征码的步骤。
6.根据权利要求1所述的图片处理方法,其特征在于,所述获取待识别的第一图片具体包括:
从URL数据库中选择目标URL;
基于Http协议获取目标URL的页面数据;
从所述页面数据中提取得到所述待识别的第一图片;
利用页面数据获取所述第一图片的相关信息。
7.根据权利要求6所述的图片处理方法,其特征在于,所述相关信息包括所述URL、正文摘要、页面快照和站点信息中的至少一个。
8.一种图片处理装置,其特征在于,包括:
获取模块,用于获取待识别的第一图片;
第一计算模块,用于计算所述第一图片的第一特征码;
第二计算模块,用于将所述第一特征码与预先存储的第二图片对应的第二特征码进行对比,得到作为所述第一图片与所述第二图片相似度的对比结果;
存储模块,用于当所述对比结果达到预设数值时,保存所述第一图片的相关信息。
9.根据权利要求8所述的图片处理装置,其特征在于,所述第一计算模块具体用于:
将所述第一图片转换成M×N像素大小的灰度图片;
计算所述灰度图片中所有像素的灰度平均值;
判断所述灰度图片中各像素的灰度值与所述灰度平均值的大小,得到一判断结果;
根据所述判断结果获取所述第一特征码;
其中,所述第一特征码包括M×N个元素,每一个元素对应于所述灰度图片中的一个像素,所述灰度图片中,灰度值大于或等于所述灰度平均值的像素对应的元素的数值为1,否则为0;
所述第一图片与所述第二图片相似度具体为对应的元素数值相同的像素数量。
10.根据权利要求9所述的图片处理装置,其特征在于,所述第二计算模块包括:
计算单元,用于对所述第一特征码和所述第二特征码中对应位置的数值进行异或运算,得到一计算结果;
统计单元,用于统计所述计算结果中0的数量,作为所述对比结果。
11.根据权利要求8所述的图片处理装置,其特征在于,当所述第一图片的数量为多个时,所述第二计算模块,采用分布式计算方式得到所述第一图片与每一个所述第二图片的对比结果。
12.根据权利要求8所述的图片处理装置,其特征在于,在所述第一计算单元之前,所述装置还包括:
第一判断模块,用于判断能否获取所述第一图片的第一数字指纹,获取第一判断结果;
第二判断模块,用于当第一判断结果指示能获取所述第一图片的第一数字指纹时,判断所述第一数字指纹与预先存储的第二图片的第二数字指纹是否一致,获取第二判断结果,否则进入计算所述第一图片的第一特征码的步骤;
第三判断模块,当第二判断结果指示所述第一数字指纹与所述第二数字指纹一致时,获取并保存所述第一图片的相关信息,否则进入计算所述第一图片的第一特征码的步骤。
13.根据权利要求8所述的图片处理装置,其特征在于,所述获取模块具体用于:
从URL数据库中选择目标URL;
基于Http协议获取目标URL的页面数据;
从所述页面数据中提取得到所述待识别的第一图片;
利用页面数据获取所述第一图片的相关信息。
14.根据权利要求13所述的图片处理装置,其特征在于,所述相关信息包括所述URL、正文摘要、页面快照和站点信息中的至少一个。
CN201310418197.6A 2013-09-13 2013-09-13 一种图片处理方法和装置 Pending CN104462873A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310418197.6A CN104462873A (zh) 2013-09-13 2013-09-13 一种图片处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310418197.6A CN104462873A (zh) 2013-09-13 2013-09-13 一种图片处理方法和装置

Publications (1)

Publication Number Publication Date
CN104462873A true CN104462873A (zh) 2015-03-25

Family

ID=52908901

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310418197.6A Pending CN104462873A (zh) 2013-09-13 2013-09-13 一种图片处理方法和装置

Country Status (1)

Country Link
CN (1) CN104462873A (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105225134A (zh) * 2015-10-28 2016-01-06 廖劲松 一种可定制的创意艺术图案处理方法和系统
CN105243638A (zh) * 2015-09-25 2016-01-13 腾讯科技(深圳)有限公司 一种上传图像的方法和装置
CN105930495A (zh) * 2016-05-06 2016-09-07 长沙市麓智信息科技有限公司 产品侵权监控系统及其监控方法
CN106227746A (zh) * 2016-07-14 2016-12-14 看见网络科技(上海)有限公司 网络信息处理方法及系统
CN106599919A (zh) * 2016-12-13 2017-04-26 毛荣军 一种增强现实钻石画的制作及其展示方法
CN106730845A (zh) * 2017-02-13 2017-05-31 淘金科技投资(北京)股份有限公司 游戏方法及系统
CN107832384A (zh) * 2017-10-28 2018-03-23 北京安妮全版权科技发展有限公司 侵权检测方法、装置、存储介质和电子设备
CN107871305A (zh) * 2016-09-27 2018-04-03 深圳正品创想科技有限公司 一种图片质量评级方法、装置及终端设备
CN108052969A (zh) * 2017-12-08 2018-05-18 奕响(大连)科技有限公司 一种dct像素灰度图片相似判定方法
CN108564155A (zh) * 2018-04-23 2018-09-21 捷德(中国)信息科技有限公司 智能卡定制方法、装置及服务器
CN109815652A (zh) * 2018-12-18 2019-05-28 浙江工业大学 一种基于Spark的实时主动性图片跟踪保护方法
CN109978078A (zh) * 2019-04-10 2019-07-05 厦门元印信息科技有限公司 字体版权检测方法、介质、计算机设备及装置
CN111046345A (zh) * 2019-10-23 2020-04-21 上海突进网络科技有限公司 一种图片验证和反盗用方法及系统
CN111651674A (zh) * 2020-06-03 2020-09-11 北京妙医佳健康科技集团有限公司 双向搜索方法、装置及电子设备
CN111753265A (zh) * 2020-06-16 2020-10-09 哈尔滨工业大学 一种基于区块链的原创作品登记与保护方法及系统
CN111881998A (zh) * 2020-08-04 2020-11-03 天元大数据信用管理有限公司 一种白屏检测方法
CN112149744A (zh) * 2020-09-25 2020-12-29 浙江数秦科技有限公司 一种侵权图片快速识别方法
CN112182329A (zh) * 2020-09-14 2021-01-05 浙江数秦科技有限公司 一种网络图片侵权监控及自动取证方法
CN113268624A (zh) * 2020-02-17 2021-08-17 北京沃东天骏信息技术有限公司 针对图片的处理方法、服务器以及电子设备和介质
CN113747222A (zh) * 2021-09-07 2021-12-03 湖南五凌电力科技有限公司 一种基于边缘计算的画面同步传输方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0935003A (ja) * 1995-07-13 1997-02-07 Suzuki Motor Corp 文字認識装置
CN101211341A (zh) * 2006-12-29 2008-07-02 上海芯盛电子科技有限公司 图像智能模式识别搜索方法
CN102629325A (zh) * 2012-03-13 2012-08-08 深圳大学 图像特征提取方法和装置及图像拷贝检测方法和系统
CN102722709A (zh) * 2012-05-23 2012-10-10 杭州朗和科技有限公司 一种垃圾图片识别方法和装置
CN102932430A (zh) * 2012-10-11 2013-02-13 北京小米科技有限责任公司 一种连接终端设备的方法、装置及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0935003A (ja) * 1995-07-13 1997-02-07 Suzuki Motor Corp 文字認識装置
CN101211341A (zh) * 2006-12-29 2008-07-02 上海芯盛电子科技有限公司 图像智能模式识别搜索方法
CN102629325A (zh) * 2012-03-13 2012-08-08 深圳大学 图像特征提取方法和装置及图像拷贝检测方法和系统
CN102722709A (zh) * 2012-05-23 2012-10-10 杭州朗和科技有限公司 一种垃圾图片识别方法和装置
CN102932430A (zh) * 2012-10-11 2013-02-13 北京小米科技有限责任公司 一种连接终端设备的方法、装置及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
江明: "图像二值化技术的研究", 《软件导刊》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105243638B (zh) * 2015-09-25 2019-11-15 腾讯科技(深圳)有限公司 一种上传图像的方法和装置
CN105243638A (zh) * 2015-09-25 2016-01-13 腾讯科技(深圳)有限公司 一种上传图像的方法和装置
CN105225134A (zh) * 2015-10-28 2016-01-06 廖劲松 一种可定制的创意艺术图案处理方法和系统
CN105930495A (zh) * 2016-05-06 2016-09-07 长沙市麓智信息科技有限公司 产品侵权监控系统及其监控方法
CN106227746A (zh) * 2016-07-14 2016-12-14 看见网络科技(上海)有限公司 网络信息处理方法及系统
CN107871305A (zh) * 2016-09-27 2018-04-03 深圳正品创想科技有限公司 一种图片质量评级方法、装置及终端设备
CN106599919A (zh) * 2016-12-13 2017-04-26 毛荣军 一种增强现实钻石画的制作及其展示方法
CN106599919B (zh) * 2016-12-13 2020-04-28 毛荣军 一种增强现实钻石画的制作及其展示方法
CN106730845A (zh) * 2017-02-13 2017-05-31 淘金科技投资(北京)股份有限公司 游戏方法及系统
CN107832384A (zh) * 2017-10-28 2018-03-23 北京安妮全版权科技发展有限公司 侵权检测方法、装置、存储介质和电子设备
CN108052969A (zh) * 2017-12-08 2018-05-18 奕响(大连)科技有限公司 一种dct像素灰度图片相似判定方法
CN108564155A (zh) * 2018-04-23 2018-09-21 捷德(中国)信息科技有限公司 智能卡定制方法、装置及服务器
CN109815652B (zh) * 2018-12-18 2020-12-25 浙江工业大学 一种基于Spark的实时主动性图片跟踪保护方法
CN109815652A (zh) * 2018-12-18 2019-05-28 浙江工业大学 一种基于Spark的实时主动性图片跟踪保护方法
CN109978078A (zh) * 2019-04-10 2019-07-05 厦门元印信息科技有限公司 字体版权检测方法、介质、计算机设备及装置
CN109978078B (zh) * 2019-04-10 2022-03-18 厦门元印信息科技有限公司 字体版权检测方法、介质、计算机设备及装置
CN111046345A (zh) * 2019-10-23 2020-04-21 上海突进网络科技有限公司 一种图片验证和反盗用方法及系统
CN113268624A (zh) * 2020-02-17 2021-08-17 北京沃东天骏信息技术有限公司 针对图片的处理方法、服务器以及电子设备和介质
CN111651674A (zh) * 2020-06-03 2020-09-11 北京妙医佳健康科技集团有限公司 双向搜索方法、装置及电子设备
CN111651674B (zh) * 2020-06-03 2023-08-25 北京妙医佳健康科技集团有限公司 双向搜索方法、装置及电子设备
CN111753265A (zh) * 2020-06-16 2020-10-09 哈尔滨工业大学 一种基于区块链的原创作品登记与保护方法及系统
CN111881998A (zh) * 2020-08-04 2020-11-03 天元大数据信用管理有限公司 一种白屏检测方法
CN112182329B (zh) * 2020-09-14 2023-04-18 浙江数秦科技有限公司 一种网络图片侵权监控及自动取证方法
CN112182329A (zh) * 2020-09-14 2021-01-05 浙江数秦科技有限公司 一种网络图片侵权监控及自动取证方法
CN112149744A (zh) * 2020-09-25 2020-12-29 浙江数秦科技有限公司 一种侵权图片快速识别方法
CN112149744B (zh) * 2020-09-25 2022-09-16 浙江数秦科技有限公司 一种侵权图片快速识别方法
CN113747222A (zh) * 2021-09-07 2021-12-03 湖南五凌电力科技有限公司 一种基于边缘计算的画面同步传输方法及系统

Similar Documents

Publication Publication Date Title
CN104462873A (zh) 一种图片处理方法和装置
CN108595583A (zh) 动态图表类页面数据爬取方法、装置、终端及存储介质
CN109643318B (zh) 商标图像的基于内容的搜索和检索
US9361343B2 (en) Method for parallel mining of temporal relations in large event file
CN104281626A (zh) 基于图片化处理的网页展示方法及网页展示装置
CN114138784B (zh) 基于存储库的信息溯源方法、装置、电子设备及介质
CN106708443A (zh) 数据读写方法及装置
CN113220657B (zh) 数据处理方法、装置及计算机设备
CN113343312B (zh) 基于前端埋点技术的页面防篡改方法及系统
CN106534784A (zh) 一种用于视频分析数据结果集的采集分析存储统计系统
CN108197621A (zh) 企业信息获取方法及系统和信息处理方法及系统
CN107291827A (zh) 一种数据比对方法和系统
CN114780370A (zh) 基于日志的数据修正方法、装置、电子设备及存储介质
CN107357794A (zh) 优化键值数据库的数据存储结构的方法和装置
CN109697240A (zh) 一种基于特征的图像检索方法及装置
CN114049185A (zh) 成本的核算方法、装置、计算机设备和存储介质
CN110020297A (zh) 一种网页内容的加载方法、装置及系统
CN117093619A (zh) 一种规则引擎处理方法、装置、电子设备及存储介质
CN110012013A (zh) 一种基于knn的虚拟平台威胁行为分析方法及系统
Rochmadi et al. Digital evidence identification of Android device using live forensics acquisition on cloud storage (iDrive)
CN111611322A (zh) 一种用户信息关联的方法及系统
CN109033196A (zh) 一种分布式数据调度系统及方法
CN111125087A (zh) 数据的存储方法及装置
CN114518993A (zh) 基于业务特征的系统性能监控方法、装置、设备及介质
CN114218250A (zh) 一种数据血缘展示方法、系统、装置及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150325

WD01 Invention patent application deemed withdrawn after publication