CN105404631B - 图片识别方法和装置 - Google Patents

图片识别方法和装置 Download PDF

Info

Publication number
CN105404631B
CN105404631B CN201410468582.6A CN201410468582A CN105404631B CN 105404631 B CN105404631 B CN 105404631B CN 201410468582 A CN201410468582 A CN 201410468582A CN 105404631 B CN105404631 B CN 105404631B
Authority
CN
China
Prior art keywords
picture
seed
identified
library
deleted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410468582.6A
Other languages
English (en)
Other versions
CN105404631A (zh
Inventor
袁丽娜
郭计伟
周进
张少愚
林耀城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201410468582.6A priority Critical patent/CN105404631B/zh
Publication of CN105404631A publication Critical patent/CN105404631A/zh
Application granted granted Critical
Publication of CN105404631B publication Critical patent/CN105404631B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种图片识别方法和装置。其中,该方法包括:接收客户端指示的待识别图片和标识;判断标识是否指示对待识别图片进行识别;若判断出标识指示对待识别图片进行识别,则将待识别图片与图片库中记录的需要删除的图片的种子图片进行比较;如果图片库中存在与待识别图片相同的种子图片,则丢弃待识别图片;如果图片库中不存在与待识别图片相同的种子图片、但存在与待识别图片的相似度大于第一预定阈值的种子图片,则将待识别图片作为需要删除的图片的种子图片存储在图片库中。通过本发明,解决了收集非法图片的种子图片的效率比较低的技术问题。

Description

图片识别方法和装置
技术领域
本发明涉及互联网领域,具体而言,涉及一种图片识别方法和装置。
背景技术
互联网的信息传播速度非常快,一旦出现色情广告等非法图片,如果不能采用有效的方法遏制其传播,可能造成非法图片的泛滥,极大地损害互联网服务的体验。互联网中传播的非法图片通常相近,甚至来源于固定的种子图片,通过这些种子图片能够查找互联网中传播的相同或相似非法图片,并对其删除。现有技术主要依靠人工巡检去发现这些种子图片,并收集这些种子图片以进行互联网中非法图片的删除。收集种子图片的过程需要投入大量的人力,并且由于互联网信息量庞大,通过人工巡检的方法收集非法图片的速度较慢,无法有效遏制互联网中非法图片的传播。
针对上述的收集非法图片的种子图片的效率比较低的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种图片识别方法和装置,以至少解决收集非法图片的种子图片的效率比较低的技术问题。
根据本发明实施例的一个方面,提供了一种图片识别方法,包括:接收客户端指示的待识别图片和标识;判断所述标识是否指示对所述待识别图片进行识别;若判断出所述标识指示对所述待识别图片进行识别,则将所述待识别图片与图片库中记录的需要删除的图片的种子图片进行比较;如果所述图片库中存在与所述待识别图片相同的所述种子图片,则丢弃所述待识别图片;如果所述图片库中不存在与所述待识别图片相同的所述种子图片、但存在与所述待识别图片的相似度大于第一预定阈值的所述种子图片,则将所述待识别图片作为需要删除的图片的种子图片存储在所述图片库中。
根据本发明实施例的另一方面,还提供了一种图片识别装置,包括:接收单元,用于接收客户端发送的待识别图片和标识;第一判断单元,用于判断所述标识是否指示对所述待识别图片进行识别;比较单元,用于在判断出所述标识指示对所述待识别图片进行识别时,将所述待识别图片与图片库中记录的需要删除的图片的种子图片进行比较;丢弃单元,用于在所述图片库中存在与所述待识别图片相同的所述种子图片时,丢弃所述待识别图片;第一存储单元,用于在所述图片库中不存在与所述待识别图片相同的所述种子图片、但存在与所述待识别图片的相似度大于第一预定阈值的所述种子图片时,将所述待识别图片作为需要删除的图片的种子图片存储在所述图片库中。
在本发明实施例中,通过接收客户端指示的待识别图片,并根据待识别图片与图片库中存储的种子图片进行比较,当待识别图片与种子图片的相似度大于第一预定阈值时,将待识别图片存储在图片库中。由于待识别图片由客户端发送,客户端又分布在互联网的各个地方,因此通过接收客户端的待识别图片来收集种子图片的速度远远大于人工巡检发现种子图片的速度,提高了收集种子图片的效率。另外,在将待识别图片存储在图片库中之前先进行去重处理,避免了在图片库中重复存储图片,从而解决了收集非法图片的种子图片的效率比较低的技术问题,进而达到了提高收集种子图片的效率的技术效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的硬件结构图;
图2是根据本发明实施例的图片识别方法的流程图;
图3是根据本发明实施例的举报图片a的界面图;
图4是根据本发明实施例的将待识别图片与图片库中记录的需要删除图片的种子图片进行比较的流程图;
图5是根据本发明实施例的系统架构模块图:
图6是根据本发明实施例的图片识别装置的示意图;
图7是根据本发明实施例的执行单元的示意图;以及
图8是根据本发明实施例的服务器的结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
名词解释:
非法图片包括网络传播的色情广告、诈骗广告等有损互联网环境的不合法的图片。
种子图片包括互联网中传播的非法图片通常相近,能够表征与其他一个或者多个图片为相同或者相似的图片。
实施例1
根据本发明实施例,提供了一种可以通过本申请装置实施例执行的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组可执行指令的服务器中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本发明实施例,提供了一种图片的识别方法。
可选地,在本实施例中,上述图片的识别方法可以应用于如图1所示的终端101和服务器102构成的硬件环境中。如图1所示,终端101通过网络与服务器102进行连接,上述网络包括但不限于:广域网、城域网或局域网,终端101可以是手机、PC、笔记本或者平板电脑等,在终端101上安装的浏览器、即时通讯工具、微博等应用程序可以作为本实施例中的客户端。
图2是根据本发明实施例的图片的识别方法的流程图。如图所示,该图片的识别方法包括如下步骤:
步骤S202,接收客户端指示的待识别图片和标识;
步骤S204,判断标识是否指示对待识别图片进行识别;
步骤S206,若判断出标识指示对待识别图片进行识别,则将待识别图片与图片库中记录的需要删除的图片的种子图片进行比较;
步骤S208,如果图片库中存在与待识别图片相同的种子图片,则丢弃待识别图片;
步骤S210,如果图片库中不存在与待识别图片相同的种子图片、但存在与待识别图片的相似度大于第一预定阈值的种子图片,则将待识别图片作为需要删除的图片的种子图片存储在图片库中。
在本实施例中,通过接收客户端指示的待识别图片,并根据待识别图片与图片库中存储的种子图片进行比较,当待识别图片与种子图片的相似度大于第一预定阈值时,将待识别图片存储在图片库中。由于待识别图片由客户端发送,客户端又分布在互联网的各个地方,因此通过接收客户端的待识别图片来收集种子图片的速度远远大于人工巡检发现种子图片的速度,提高了收集种子图片的效率。另外,在将待识别图片存储在图片库中之前先进行去重处理,也就是先判断图片库中是否已经存储由该待识别图片,如果图片库中已经存在与该待识别图片相同的种子图片,则不再将该待识别图片存储在图片库中,如果图片库中没有,并且该待识别图片与图片库中的种子图片的相似度大于第一预定阈值,则将该待识别图片存储在图片库中,避免了在图片库中重复存储相同的图片作为种子图片。
具体地,接收客户端发送的待识别图片和标识包括:接收安装在PC上的浏览器客户端、安装在PC上的应用客户端、安装在移动终端上的浏览器客户端、安装在移动终端上的应用客户端中的一个发送的待识别图片的网址和标识;按照网址从服务器中获取待识别图片。
通过网络在客户端中传播的图片都会具有一个对应到服务器的网址,将该网址发送给服务器后,服务器会根据网址查找待识别图片,客户端向服务器传输网址而不是图片本身能够节省网络资源,另外,由于待识别图片就存储在服务器中,服务器按照网址查找即可,避免接收客户端发送的图片再存储在服务器中,造成同一图片的重复存储,从而避免服务器的缓存空间被过多占用。
具体地,图片库可以存储在服务器102中,客户端可以提供发送待识别图片的入口,通过该入口客户端将待识别图片发送给服务器102,以便于服务器判断是否将该待识别图片存储在图片库中。该入口可以发送多种图片,并不是所有的图片都需要存储在图片库中,通过标识可以判断是否需要对该待识别图片进行识别,并进一步判断是否将该待识别图片存储在图片库中。如果图片库中不存在于该待识别图片相同的种子图片,但是存在与该待识别图片的相似度大于第一预定阈值的种子图片,说明该待识别图片为可以存储在图片库中的图片,则将该待识别图片存储在图片库中。在计算待识别图片与种子图片的相似度时,可以通过对比两张图片的像素来进行相似度的判断,当然,本实施例还可以采用其他方式进行相似度的判断,本实施例并不限于上述相似度判断的方式。
客户端在展示图片时,通常具有举报、点赞、评论等功能作为发送图片的入口,客户端可以将举报、点赞、评论等信息都发送给服务器,为了使得服务器从这些信息中区分哪些是可以被识别并存储在图片库中的图片。对客户端发送给服务器的信息设置标识,如被举报的信息的标识为R,被评论的信息的标识为C,被点赞的信息的标识为P。当服务器102接收到图片和标识“R”之后,即确定该接收到的图片为被举报的图片,也即接收到了对接收到的图片进行识别的指示。
例如,图片库中存储了色情暴力图片的种子图片,客户端展示的图片为图片a,该图片a被客户端举报给服务器102,服务器102从接收到的信息中接收到图片a和标识“R”,服务器102将图片a与图片库中的种子图片进行比较。如果图片库中有一张图片与图片a相同,为了不重复存储相同的图片,将图片a丢弃;如果图片库中没有与图片a相同的图片,但是图片a与图片库中的一张种子图片的相似度大于90%,则确定该图片a为色情暴力图片,并将图片a存储在图片库中作为色情暴力图片的种子图片。需要说明的是,如果服务器具有删除图片a的权限,当确定图片a与图片库中的一张图片相同时,可以将图片a删除,使图片a不再通过网络传播。
具体地,客户端向服务器举报图片a时可以显示如图3所示的界面,在该界面上展示有被举报的图片a的图片类型,如色情暴力、骚扰谩骂、广告欺诈、病毒木马、反动政治和其他。在服务器中可以有一个图片库存储有多种不同类型的图片,也可以将不同类型的图片分别存储在不同的图片库中。客户端向服务器举报图片a时,可以选择不同的图片类型,便于服务器在图片库中查找相应的种子图片,提高查找并对比种子图片与待识别图片的相似度的效率。
可选地,将接收到的待识别图片与图片库中的种子图片比较后,如果图片库中没有与待识别图片相同的种子图片,也不存在与待识别的图片的相似度大于第一预定阈值的种子图片,则判断接收到的存储指令是否指示将待识别图片作为需要删除的图片的种子图片存储在图片库中;若判断出存储指令指示将待识别图片作为需要删除的种子图片存储在图片库,则将待识别图片作为需要删除的图片的种子图片存储在图片库。
图片库中没有与待识别图片相同的种子图片,也不存在与待识别的图片的相似度大于第一预定阈值的种子图片,并不能确定该待识别图片不能作为种子图片,为了保证不遗漏图片,在初步判断出图片库中没有与待识别图片的相似度大于第一预定阈值的种子图片后,判断接收到的存储指令是否指示存储该待识别图片。在存储指令指示存储该待识别图片后,将该待识别图片存储在图片库中。
例如,在图片库中没有与图片a的相似度大于第一预定阈值的种子图片,不能直接确定图片a不是色情暴力等非法图片。接收到的存储指令可以是通过人工判断得到的指令,在服务器没有将图片a判断为非法图片时,如果人工判断图片a为非法图片,服务器102接收到的存储指令指示将图片a存储在图片库,则服务器102将图片a存储在图片库中。
通过对存储指令的判断实现了对待识别图片的二次判断,第一次判断为将待识别图片与图片库中的种子图片的相似度的判断,第二次判断为对存储指令的判断,在第一次判断没有把待识别图片存储在图片库中作为种子图片后,增加了第二次判断来确定是否将待识别图片存储在图片库中,以避免待识别图片可以作为种子图片存储时却无法存储在图片库中,提高了将待识别图片作为种子图片的准确性。
如图4所示,将待识别图片与图片库中记录的需要删除图片的种子图片进行比较包括:执行以下步骤直至判断出图片库中存在与待识别图片相同的种子图片,或者,判断出存在与待识别图片的相似度大于第一预定阈值的种子图片,或者,遍历完图片库中的每个种子图片:
步骤S402,从图片库中选择一个尚未与待识别图片执行比较操作的种子图片作为当前种子图片;
步骤S404,判断待识别图片是否与当前种子图片相同;
步骤S406,若待识别图片与当前种子图片相同,则判断出图片库中存在与待识别图片相同的种子图片;
步骤S408,若待识别图片与当前种子图片不同,则判断待识别图片与当前种子图片的相似度是否大于第一预定阈值;
步骤S410,若判断待识别图片与当前种子图片的相似度大于第一预定阈值,则判断出存在与待识别图片的相似度大于第一预定阈值的种子图片;
步骤S412,若判断待识别图片与当前种子图片的相似度小于等于第一预定阈值,则将当前种子图片标记为已与待识别图片执行比较操作的种子图片。
在将待识别图片与图片库中记录的需要删除图片的种子图片进行比较的过程中,将待识别图片依次与图片库中记录的种子图片进行比较,直到遍历图片库中的所有种子图片,或者判断出图片库中存在与待识别图片相同的种子图片,或者判断出存在与待识别图片的相似度大于第一预定阈值的种子图片。如果判断出图片库中存在与待识别图片相同的种子图片,为了避免重复存储,丢弃该待识别图片,或者将该待识别图片删除,比较结束;如果判断出存在与待识别图片的相似度大于第一预定阈值的种子图片,则将该待识别图片存储在图片库中作为种子图片,则比较结束;如果既没有找到与待识别图片相同的种子图片,也没有与该待识别图片的相似度大于第一预定阈值的种子图片,并且已经遍历完图片库中的所有种子图片,则比较结束。
可选地,判断待识别图片与当前种子图片的相似度是否大于第一预定阈值包括:接收表征待识别图片与当前图片的相似度的多个维度值;依次计算每个维度和与维度对应的比重的乘积,得到多个维度的乘积;将多个维度的乘积之和作为待识别图片与当前种子图片的相似度。
表征待识别图片与当前图片的相似度的多个维度值,多个维度值所对应的比重之和为1,也就是通过占有不同比重的多个维度来计算待识别图片与当前种子图片的相似度。例如,多个维度包括图片a被举报的次数、接收到的图片a的非法值、服务器通过对比图片a与种子图片的像素的相似度等,上述几个维度所对应的维度值分别为dim1、dim2、dim3,每个维度对应的比重为p1、p2、p3,其中,p1、p2和p3之和为1,则待识别图片与当前种子图片的相似度为dim1*p1+dim2*p2+dim3*p3。需要说明的是,在本实施例中仅以三个维度为例进行说明,应该理解的是,本实施例还可以采用多个维度计算待识别图片与当前种子图片的相似度,并且每个维度所占的比重可以根据不同类型的图片进行适应性的调整。通过多个维度来衡量待识别图片与当前种子图片的相似度,在判断待识别图片是否能够被存储在图片库中时更加准确。
可选地,在通过上述实施例得到图片库之后,可以利用该图片库对互联网中传播的图片进行处理,例如删除和标记。下面以删除为例对本实施例进行说明,在将待识别图片作为需要删除的图片的种子图片存储在图片库中之后,本实施例所提供的方法还包括:执行以下步骤直至遍历完服务器上的待删除图片集合中的所有图片:
S1:从待删除图片集合中选择一张没有与图片库中的种子图片进行比较的图片作为当前待删除图片;
S2:判断图片库中是否存在与当前待删除图片的相似度大于第二预定阈值的种子图片;
S3:如果图片库中存在与当前待删除图片的相似度大于第二预定阈值的种子图片,则从待删除图片集合中删除当前待删除图片;
S4:如果图片库中不存在与当前待删除图片的相似度大于第二预定阈值的种子图片,则将当前待删除图片标记为已经与图片库中的种子图片进行比较的图片。
在得到上述图片库之后,可以用图片库中的种子图片与在互联网上传播的图片进行比较,以判断出哪些是与这些种子图片相似的图片,并将这些与种子图片相似的图片从服务器中删除,以遏制这些图片的传播。具体地,将服务器中的待删除图片与待识别图片进行对比,判断待删除图片与待识别图片的相似度是否大于第二预定阈值,如果待删除图片与待识别图片的相似度大于第二预定阈值,则确定当前待删除图片为非法图片,将该当前待删除图片从服务器中删除;如果待删除图片与待识别图片的相似度小于等于第二预定阈值,则将待删除图片标记为已经与待识别图片进行比较的图片。
图片库中记录了多个种子图片,在一个种子图片遍历完服务器上待删除图片集合中的所有图片之后,用下一个种子图片去遍历服务器中待删除图片集合中的所有的图片,直至图片库中的所有种子图片都已经与服务器上的待删除图片集合中的所有图片进行过比较。用图片库中的种子图片与服务器上待删除图片集合中的图片进行相似度的比较,能够及时发现与种子图片相似的图片,由于种子图片本身就是非法图片,那么与种子图片的相似度大于第二预定阈值的图片也是非法图片,不应该在互联网中传播,需要在被发现后及时删除。
上述图片库可以对存储在不同服务器中的图片进行识别,并在发现与该图片库中的种子图片的相似度大于第二预定阈值时,删除该图片。这样,无论有多少个服务器,也无论服务器处于什么地方,只要利用该图片库中的种子图片在服务器中进行相似度的对比就能查找到非法图片。应该理解的是,通过网络在客户端中传播的图片都会被记录在为该客户端提供服务的服务器中,因此,删除服务器中的图片就能够遏制非法图片在网络中的传播。
以下结合图5的系统架构图对本实施例进行说明。
如图5所示,该系统包括用户举报系统100、非法图片判定系统200、种子库300、图片相似度系统400和互联网非法图片500。其中,通过用户举报系统100接收来自客户端的图片,非法图片判定系统200判断接收到的图片是否为非法图片,如果判断出接收到的图片为非法图片,则将该非法图片作为种子图片存储在种子库300中。然后经过图片相似度系统400利用种子库300中的种子图片与服务器102中的图片进行相似度的判断,发现互联网中传播的非法图片500,实现对互联网中的非法图片的删除,以遏制互联网中非法图片的传播。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
根据本发明实施例,还提供了一种用于实施上述图片识别方法的图片识别装置,该图片识别装置主要用于执行本发明实施例上述内容所提供的图片识别方法,以下对本发明实施例所提供的图片识别装置做具体介绍:
可选地,在本实施例中,上述图片的识别方法可以应用于如图1所示的终端101和服务器102构成的硬件环境中。如图1所示,终端101通过网络与服务器102进行连接,上述网络包括但不限于:广域网、城域网或局域网,终端101可以是手机、PC、笔记本或者平板电脑等,在终端101上安装的浏览器、即时通讯工具、微博等应用程序可以作为本实施例中的客户端。
图6是根据本发明实施例的图片识别装置的示意图。如图所示,该图片识别装置包括:接收单元10、第一判断单元30、比较单元50、丢弃单元70和第一存储单元90。
接收单元10用于接收客户端发送的待识别图片和标识;
第一判断单元30用于判断所述标识是否指示对所述待识别图片进行识别;
比较单元50用于在判断出所述标识指示对所述待识别图片进行识别时,将所述待识别图片与图片库中记录的需要删除的图片的种子图片进行比较;
丢弃单元70用于在所述图片库中存在与所述待识别图片相同的所述种子图片时,丢弃所述待识别图片;
第一存储单元90用于在所述图片库中不存在与所述待识别图片相同的所述种子图片、但存在与所述待识别图片的相似度大于第一预定阈值的所述种子图片时,将所述待识别图片作为需要删除的图片的种子图片存储在所述图片库中。
在本实施例中,通过接收客户端指示的待识别图片,并根据待识别图片与图片库中存储的种子图片进行比较,当待识别图片与种子图片的相似度大于第一预定阈值时,将待识别图片存储在图片库中。由于待识别图片由客户端发送,客户端又分布在互联网的各个地方,因此通过接收客户端的待识别图片来收集种子图片的速度远远大于人工巡检发现种子图片的速度,提高了收集种子图片的效率。另外,在将待识别图片存储在图片库中之前先进行去重处理,也就是先判断图片库中是否已经存储由该待识别图片,如果图片库中已经存在与该待识别图片相同的种子图片,则不再将该待识别图片存储在图片库中,如果图片库中没有,并且该待识别图片与图片库中的种子图片的相似度大于第一预定阈值,则将该待识别图片存储在图片库中。
具体地,接收单元10包括:接收子单元,用于接收来自电脑网页、移动终端网页、电脑上的应用程序和移动终端上的应用程序中的任意一个或者多个客户端的待识别图片的网址;查找子单元,用于按照网址从服务器中查找待识别图片。通过网络在客户端中传播的图片都会具有一个对应到服务器的网址,将该网址发送给服务器后,服务器会根据网址查找待识别图片,客户端向服务器传输网址而不是图片本身能够节省网络资源,另外,由于待识别图片就存储在服务器中,服务器按照网址查找即可,避免接收客户端发送的图片再存储在服务器中,造成同一图片的重复存储,从而避免服务器的缓存空间被过多占用。
具体地,图片库可以存储在服务器102中,客户端可以提供发送待识别图片的入口,通过该入口客户端将待识别图片发送给服务器102,以便于服务器判断是否将该待识别图片存储在图片库中。该入口可以发送多种图片,并不是所有的图片都需要存储在图片库中,通过标识可以判断是否需要对该待识别图片进行识别,并进一步判断是否将该待识别图片存储在图片库中。如果图片库中不存在于该待识别图片相同的种子图片,但是存在与该待识别图片的相似度大于第一预定阈值的种子图片,说明该待识别图片为可以存储在图片库中的图片,则将该待识别图片存储在图片库中。在计算待识别图片与种子图片的相似度时,可以通过对比两张图片的像素来进行相似度的判断,当然,本实施例还可以采用其他方式进行相似度的判断,本实施例并不限于上述相似度判断的方式。
客户端在展示图片时,通常具有举报、点赞、评论等功能作为发送图片的入口,客户端可以将举报、点赞、评论等信息都发送给服务器,为了使得服务器从这些信息中区分哪些是可以被识别并存储在图片库中的图片。对客户端发送给服务器的信息设置标识,如被举报的信息的标识为R,被评论的信息的标识为C,被点赞的信息的标识为P。当服务器102接收到图片和标识“R”之后,即确定该接收到的图片为被举报的图片,也即接收到了对接收到的图片进行识别的指示。
例如,图片库中存储了色情暴力图片的种子图片,客户端展示的图片为图片a,该图片a被客户端举报给服务器102,服务器102从接收到的信息中接收到图片a和标识“R”,服务器102将图片a与图片库中的种子图片进行比较。如果图片库中有一张图片与图片a相同,为了不重复存储相同的图片,将图片a丢弃;如果图片库中没有与图片a相同的图片,但是图片a与图片库中的一张种子图片的相似度大于90%,则确定该图片a为色情暴力图片,并将图片a存储在图片库中作为色情暴力图片的种子图片。需要说明的是,如果服务器具有删除图片a的权限,当确定图片a与图片库中的一张图片相同时,可以将图片a删除,使图片a不再通过网络传播。
具体地,客户端向服务器举报图片a时可以显示如图3所示的界面,在该界面上展示有被举报的图片a的图片类型,如色情暴力、骚扰谩骂、广告欺诈、病毒木马、反动政治和其他。在服务器中可以有一个图片库存储有多种不同类型的图片,也可以将不同类型的图片分别存储在不同的图片库中。客户端向服务器举报图片a时,可以选择不同的图片类型,便于服务器在图片库中查找相应的种子图片,提高查找并对比种子图片与待识别图片的相似度的效率。
可选地,将接收到的待识别图片与图片库中的种子图片比较后,如果图片库中没有与待识别图片相同的种子图片,也不存在与待识别的图片的相似度大于第一预定阈值的种子图片,则第二判断单元判断接收到的存储指令是否指示将待识别图片作为需要删除的图片的种子图片存储在图片库中;第二存储单元,用于在判断出存储指令指示将待识别图片作为需要删除的图片的种子图片存储在图片库时,将待识别图片作为需要删除的种子图片存储在图片库。
图片库中没有与待识别图片相同的种子图片,也不存在与待识别的图片的相似度大于第一预定阈值的种子图片,并不能确定该待识别图片不能作为种子图片,为了保证不遗漏图片,在初步判断出图片库中没有与待识别图片的相似度大于第一预定阈值的种子图片后,判断接收到的存储指令是否指示存储该待识别图片。在存储指令指示存储该待识别图片后,将该待识别图片存储在图片库中。
例如,在图片库中没有与图片a的相似度大于第一预定阈值的种子图片,不能直接确定图片a不是色情暴力等非法图片。接收到的存储指令可以是通过人工判断得到的指令,在服务器没有将图片a判断为非法图片时,如果人工判断图片a为非法图片,服务器102接收到的存储指令指示将图片a存储在图片库,则服务器102将图片a存储在图片库中。
通过对存储指令的判断实现了对待识别图片的二次判断,第一次判断为将待识别图片与图片库中的种子图片的相似度的判断,第二次判断为对存储指令的判断,在第一次判断没有把待识别图片存储在图片库中作为种子图片后,增加了第二次判断来确定是否将待识别图片存储在图片库中,以避免待识别图片可以作为种子图片存储时却无法存储在图片库中,提高了将待识别图片作为种子图片的准确性。
如图7所示,比较单元50包括:执行子单元,用于执行以下步骤直至判断出图片库中存在与待识别图片相同的种子图片,或者,判断出存在与待识别图片的相似度大于第一预定阈值的种子图片,或者,遍历完图片库中的每个种子图片,包括:
选择模块5021用于从图片库中选择一个尚未与待识别图片执行比较操作的种子图片作为当前种子图片;
第一判断模块5022用于判断待识别图片是否与当前种子图片相同;
第一确定模块5023用于在待识别图片与当前种子图片相同时,判断出图片库中存在与待识别图片相同的种子图片;
第二判断模块5024用于在待识别图片与当前种子图片不同时,判断待识别图片与当前种子图片的相似度是否大于第一预定阈值;
第二确定模块5025用于在判断待识别图片与当前种子图片的相似度大于第一预定阈值时,判断出存在与待识别图片的相似度大于第一预定阈值的种子图片;
标记模块5026用于在判断待识别图片与当前种子图片的相似度小于等于第一预定阈值时,将当前种子图片标记为已与待识别图片执行比较操作的种子图片。
在将待识别图片与图片库中记录的需要删除图片的种子图片进行比较的过程中,将待识别图片依次与图片库中记录的种子图片进行比较,直到遍历图片库中的所有种子图片,或者判断出图片库中存在与待识别图片相同的种子图片,或者判断出存在与待识别图片的相似度大于第一预定阈值的种子图片。如果判断出图片库中存在与待识别图片相同的种子图片,为了避免重复存储,丢弃该待识别图片,或者将该待识别图片删除,比较结束;如果判断出存在与待识别图片的相似度大于第一预定阈值的种子图片,则将该待识别图片存储在图片库中作为种子图片,则比较结束;如果既没有找到与待识别图片相同的种子图片,也没有与该待识别图片的相似度大于第一预定阈值的种子图片,并且已经遍历完图片库中的所有种子图片,则比较结束。
可选地,第二判断模块5024包括:接收子模块,用于接收表征待识别图片与当前种子图片的相似度的多个维度值;计算子模块,用于依次计算每个维度和与维度对应的比重的乘积,得到多个维度的乘积;确定子模块,用于将多个维度的乘积之和作为待识别图片与当前种子图片的相似度。
表征待识别图片与当前图片的相似度的多个维度值,多个维度值所对应的比重之和为1,也就是通过占有不同比重的多个维度来计算待识别图片与当前种子图片的相似度。例如,多个维度包括图片a被举报的次数、接收到的图片a的非法值、服务器初步识别出的图片a与种子图片的相似度等,上述几个维度所对应的维度值分别为dim1、dim2、dim3,每个维度对应的比重为p1、p2、p3,其中,p1、p2和p3之和为1,则待识别图片与当前种子图片的相似度为dim1*p1+dim2*p2+dim3*p3。需要说明的是,在本实施例中仅以三个维度为例进行说明,应该理解的是,本实施例还可以采用多个维度计算待识别图片与当前种子图片的相似度,并且每个维度所占的比重可以根据不同类型的图片进行适应性的调整。通过多个维度来衡量待识别图片与当前种子图片的相似度,在判断待识别图片是否能够被存储在图片库中时更加准确。
可选地,在通过上述实施例得到图片库之后,可以利用该图片库对互联网中传播的图片进行处理,例如删除和标记。下面以删除为例对本实施例进行说明,本实施例中所提供的装置还包括:执行单元,用于在将待识别图片作为需要删除的图片的种子图片存储在图片库中之后,执行以下步骤直至遍历完服务器上的所有图片:从服务器中选择一张没有与待识别图片进行比较的图片作为当前待删除图片;判断待识别图片与当前待删除图片的相似度是否大于第二预定阈值;如果待识别图片与当前待删除图片的相似度大于第二预定阈值,则删除当前待删除图片;如果待识别图片与当前待删除图片的相似度小于等于第二预定阈值,则将当前待删除图片标记为已经与待识别图片进行比较的图片。
在得到上述图片库之后,可以用图片库中的种子图片与在互联网上传播的图片进行比较,以判断出哪些是与这些种子图片相似的图片,并将这些与种子图片相似的图片从服务器中删除,以遏制这些图片的传播。具体地,将服务器中的待删除图片与待识别图片进行对比,判断待删除图片与待识别图片的相似度是否大于第二预定阈值,如果待删除图片与待识别图片的相似度大于第二预定阈值,则确定当前待删除图片为非法图片,将该当前待删除图片从服务器中删除;如果待删除图片与待识别图片的相似度小于等于第二预定阈值,则将待删除图片标记为已经与待识别图片进行比较的图片。
图片库中记录了多个种子图片,在一个种子图片遍历完服务器上待删除图片集合中的所有图片之后,用下一个种子图片去遍历服务器中待删除图片集合中的所有的图片,直至图片库中的所有种子图片都已经与服务器上的待删除图片集合中的所有图片进行过比较。用图片库中的种子图片与服务器上待删除图片集合中的图片进行相似度的比较,能够及时发现与种子图片相似的图片,由于种子图片本身就是非法图片,那么与种子图片的相似度大于第二预定阈值的图片也是非法图片,不应该在互联网中传播,需要在被发现后及时删除。
上述图片库可以对存储在不同服务器中的图片进行识别,并在发现与该图片库中的种子图片的相似度大于第二预定阈值时,删除该图片。这样,无论有多少个服务器,也无论服务器处于什么地方,只要利用该图片库中的种子图片在服务器中进行相似度的对比就能查找到非法图片。应该理解的是,通过网络在客户端中传播的图片都会被记录在为该客户端提供服务的服务器中,因此,删除服务器中的图片就能够遏制非法图片在网络中的传播。
实施例3
根据本发明实施例,还提供了一种用于实施上述图片识别方法的服务器102,如图8所示,该服务器包括:
处理器601、用户接口602、存储器603和网络接口604。
存储器603主要用于存储上述图片识别方法的程序代码,还可以存储种子图片和服务器中传播的图片。存储器603可以是集成在服务器102中的存储器,也可以是通过数据传输线外接的存储器,本实施例不对存储器603做限制。
用户接口602用于连接终端101,传输由终端101中的客户端指示给服务器102的待识别图片和标识。
处理器601主要用于执行如下操作:接收客户端指示的待识别图片和标识;判断标识是否指示对待识别图片进行识别;若判断出标识指示对待识别图片进行识别,则将待识别图片与图片库中记录的需要删除的图片的种子图片进行比较;如果图片库中存在与待识别图片相同的种子图片,则丢弃待识别图片;如果图片库中不存在与待识别图片相同的种子图片、但存在与待识别图片的相似度大于第一预定阈值的种子图片,则将待识别图片作为需要删除的图片的种子图片存储在图片库中。
在本实施例中,通过接收客户端指示的待识别图片,并根据待识别图片与图片库中存储的种子图片进行比较,当待识别图片与种子图片的相似度大于第一预定阈值时,将待识别图片存储在图片库中。由于待识别图片由客户端发送,客户端又分布在互联网的各个地方,因此通过接收客户端的待识别图片来收集种子图片的速度远远大于人工巡检发现种子图片的速度,提高了收集种子图片的效率。另外,在将待识别图片存储在图片库中之前先进行去重处理,也就是先判断图片库中是否已经存储由该待识别图片,如果图片库中已经存在与该待识别图片相同的种子图片,则不再将该待识别图片存储在图片库中,如果图片库中没有,并且该待识别图片与图片库中的种子图片的相似度大于第一预定阈值,则将该待识别图片存储在图片库中,避免了在图片库中重复存储相同的图片作为种子图片。
处理器601还用于在将待识别图片与图片库中记录的需要删除的图片的种子图片进行比较之后,还包括:如果图片库中不存在与待识别图片相同的种子图片、且不存在与待识别图片的相似度大于第一预定阈值的种子图片,则判断接收到的存储指令是否指示将待识别图片作为需要删除的图片的种子图片存储在图片库中;若判断出存储指令指示将待识别图片作为需要删除的图片的种子图片存储在图片库,则将待识别图片作为需要删除的种子图片存储在图片库。
处理器601还用于将待识别图片与图片库中记录的需要删除的图片的种子图片进行比较包括:执行以下步骤直至判断出图片库中存在与待识别图片相同的种子图片,或者,判断出存在与待识别图片的相似度大于第一预定阈值的种子图片,或者,遍历完图片库中的每个种子图片:从图片库中选择一个尚未与待识别图片执行比较操作的种子图片作为当前种子图片;判断待识别图片是否与当前种子图片相同;若待识别图片与当前种子图片相同,则判断出图片库中存在与待识别图片相同的种子图片;若待识别图片与当前种子图片不同,则判断待识别图片与当前种子图片的相似度是否大于第一预定阈值;若判断待识别图片与当前种子图片的相似度大于第一预定阈值,则判断出存在与待识别图片的相似度大于第一预定阈值的种子图片;若判断待识别图片与当前种子图片的相似度小于等于第一预定阈值,则将当前种子图片标记为已与待识别图片执行比较操作的种子图片。
处理器601还用于判断待识别图片与当前种子图片的相似度是否大于第一预定阈值包括:接收表征待识别图片与当前种子图片的相似度的多个维度值;依次计算每个维度和与维度对应的比重的乘积,得到多个维度的乘积;将多个维度的乘积之和作为待识别图片与当前种子图片的相似度。
处理器601还用于在将待识别图片作为需要删除的图片的种子图片存储在图片库中之后,执行以下步骤直至遍历完服务器上的待删除图片集合中的所有图片:从待删除图片集合中选择一张没有与图片库中的种子图片进行比较的图片作为当前待删除图片;判断图片库中是否存在与当前待删除图片的相似度大于第二预定阈值的种子图片;如果图片库中存在与当前待删除图片的相似度大于第二预定阈值的种子图片,则从待删除图片集合中删除当前待删除图片;如果图片库中不存在与当前待删除图片的相似度大于第二预定阈值的种子图片,则将当前待删除图片标记为已经与图片库中的种子图片进行比较的图片。
可选地,本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例,本实施例在此不再赘述。
实施例4
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以位于广域网、局域网和无线网络的网络中的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
S1,接收客户端指示的待识别图片和标识;
S2,判断标识是否指示对待识别图片进行识别;
S3,若判断出标识指示对待识别图片进行识别,则将待识别图片与图片库中记录的需要删除的图片的种子图片进行比较;
S4,如果图片库中存在与待识别图片相同的种子图片,则丢弃待识别图片;
S5,如果图片库中不存在与待识别图片相同的种子图片、但存在与待识别图片的相似度大于第一预定阈值的种子图片,则将待识别图片作为需要删除的图片的种子图片存储在图片库中。
在本实施例中,通过接收客户端指示的待识别图片,并根据待识别图片与图片库中存储的种子图片进行比较,当待识别图片与种子图片的相似度大于第一预定阈值时,将待识别图片存储在图片库中。由于待识别图片由客户端发送,客户端又分布在互联网的各个地方,因此通过接收客户端的待识别图片来收集种子图片的速度远远大于人工巡检发现种子图片的速度,提高了收集种子图片的效率。另外,在将待识别图片存储在图片库中之前先进行去重处理,也就是先判断图片库中是否已经存储由该待识别图片,如果图片库中已经存在与该待识别图片相同的种子图片,则不再将该待识别图片存储在图片库中,如果图片库中没有,并且该待识别图片与图片库中的种子图片的相似度大于第一预定阈值,则将该待识别图片存储在图片库中,避免了在图片库中重复存储相同的图片作为种子图片。
可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行:在将待识别图片与图片库中记录的需要删除的图片的种子图片进行比较之后,如果图片库中不存在与待识别图片相同的种子图片、且不存在与待识别图片的相似度大于第一预定阈值的种子图片,则判断接收到的存储指令是否指示将待识别图片作为需要删除的图片的种子图片存储在图片库中;若判断出存储指令指示将待识别图片作为需要删除的图片的种子图片存储在图片库,则将待识别图片作为需要删除的种子图片存储在图片库。
可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行:执行以下步骤直至判断出图片库中存在与待识别图片相同的种子图片,或者,判断出存在与待识别图片的相似度大于第一预定阈值的种子图片,或者,遍历完图片库中的每个种子图片:从图片库中选择一个尚未与待识别图片执行比较操作的种子图片作为当前种子图片;判断待识别图片是否与当前种子图片相同;若待识别图片与当前种子图片相同,则判断出图片库中存在与待识别图片相同的种子图片;若待识别图片与当前种子图片不同,则判断待识别图片与当前种子图片的相似度是否大于第一预定阈值;若判断待识别图片与当前种子图片的相似度大于第一预定阈值,则判断出存在与待识别图片的相似度大于第一预定阈值的种子图片;若判断待识别图片与当前种子图片的相似度小于等于第一预定阈值,则将当前种子图片标记为已与待识别图片执行比较操作的种子图片。
可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行:接收表征待识别图片与当前种子图片的相似度的多个维度值;依次计算每个维度和与维度对应的比重的乘积,得到多个维度的乘积;将多个维度的乘积之和作为待识别图片与当前种子图片的相似度。
可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行:在将待识别图片作为需要删除的图片的种子图片存储在图片库中之后,执行以下步骤直至遍历完服务器上的待删除图片集合中的所有图片:从待删除图片集合中选择一张没有与图片库中的种子图片进行比较的图片作为当前待删除图片;判断图片库中是否存在与当前待删除图片的相似度大于第二预定阈值的种子图片;如果图片库中存在与当前待删除图片的相似度大于第二预定阈值的种子图片,则从待删除图片集合中删除当前待删除图片;如果图片库中不存在与当前待删除图片的相似度大于第二预定阈值的种子图片,则将当前待删除图片标记为已经与图片库中的种子图片进行比较的图片。
可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行:接收客户端指示的待识别图片和标识包括:接收安装在PC上的浏览器客户端、安装在PC上的应用客户端、安装在移动终端上的浏览器客户端、安装在移动终端上的应用客户端中的一个发送的待识别图片的网址和标识;按照网址从服务器中获取待识别图片。
可选地,本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例,本实施例在此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (14)

1.一种图片识别方法,其特征在于,包括:
接收客户端指示的待识别图片所对应的网址信息和标识,其中,通过所述客户端对所述待识别图片标注标识,并通过对应所述标识的入口传输所述待识别图片;
判断所述标识是否指示对所述待识别图片进行识别;
若判断出所述标识指示对所述待识别图片进行识别,则根据所述网址信息查找到所述待识别图片,根据所述待识别图片的标识选择图片库,并将所述待识别图片与所述图片库中记录的需要删除的图片的种子图片进行比较;
如果所述图片库中存在与所述待识别图片相同的所述种子图片,则删除所述待识别图片;
如果所述图片库中不存在与所述待识别图片相同的所述种子图片、但存在与所述待识别图片的相似度大于第一预定阈值的所述种子图片,则将所述待识别图片作为需要删除的图片的种子图片存储在所述图片库中。
2.根据权利要求1所述的方法,其特征在于,在将所述待识别图片与图片库中记录的需要删除的图片的种子图片进行比较之后,还包括:
如果所述图片库中不存在与所述待识别图片相同的所述种子图片、且不存在与所述待识别图片的相似度大于所述第一预定阈值的所述种子图片,则判断接收到的存储指令是否指示将所述待识别图片作为需要删除的图片的种子图片存储在所述图片库中;
若判断出所述存储指令指示将所述待识别图片作为需要删除的图片的种子图片存储在所述图片库,则将所述待识别图片作为需要删除的种子图片存储在所述图片库。
3.根据权利要求1所述的方法,其特征在于,所述将所述待识别图片与图片库中记录的需要删除的图片的种子图片进行比较包括:
执行以下步骤直至判断出所述图片库中存在与所述待识别图片相同的所述种子图片,或者,判断出存在与所述待识别图片的相似度大于第一预定阈值的所述种子图片,或者,遍历完所述图片库中的每个种子图片:
从所述图片库中选择一个尚未与所述待识别图片执行比较操作的种子图片作为当前种子图片;
判断所述待识别图片是否与所述当前种子图片相同;
若所述待识别图片与所述当前种子图片相同,则判断出所述图片库中存在与所述待识别图片相同的所述种子图片;
若所述待识别图片与所述当前种子图片不同,则判断所述待识别图片与所述当前种子图片的相似度是否大于所述第一预定阈值;
若判断所述待识别图片与所述当前种子图片的相似度大于所述第一预定阈值,则判断出存在与所述待识别图片的相似度大于第一预定阈值的所述种子图片;
若判断所述待识别图片与所述当前种子图片的相似度小于等于所述第一预定阈值,则将所述当前种子图片标记为已与所述待识别图片执行比较操作的种子图片。
4.根据权利要求3所述的方法,其特征在于,判断所述待识别图片与所述当前种子图片的相似度是否大于所述第一预定阈值包括:
接收表征所述待识别图片与所述当前种子图片的相似度的多个维度值;
依次计算每个维度和与所述维度对应的比重的乘积,得到多个维度的乘积;
将所述多个维度的乘积之和作为所述待识别图片与所述当前种子图片的相似度。
5.根据权利要求1所述的方法,其特征在于,在将所述待识别图片作为需要删除的图片的种子图片存储在所述图片库中之后,所述方法还包括:
执行以下步骤直至遍历完服务器上的待删除图片集合中的所有图片:
从所述待删除图片集合中选择一张没有与所述图片库中的所述种子图片进行比较的图片作为当前待删除图片;
判断所述图片库中是否存在与所述当前待删除图片的相似度大于第二预定阈值的种子图片;
如果所述图片库中存在与所述当前待删除图片的相似度大于第二预定阈值的种子图片,则从所述待删除图片集合中删除所述当前待删除图片;
如果所述图片库中不存在与所述当前待删除图片的相似度大于第二预定阈值的种子图片,则将所述当前待删除图片标记为已经与所述图片库中的所述种子图片进行比较的图片。
6.根据权利要求1所述的方法,其特征在于,接收客户端指示的待识别图片和标识包括:
接收安装在PC上的浏览器客户端、安装在PC上的应用客户端、安装在移动终端上的浏览器客户端、安装在移动终端上的应用客户端中的一个发送的所述待识别图片的网址和所述标识;
按照所述网址从服务器中获取所述待识别图片。
7.一种图片识别装置,其特征在于,包括:
接收单元,用于接收客户端发送的待识别图片所对应的网址信息和标识其中,通过所述客户端对所述待识别图片标注标识,并通过对应所述标识的入口传输所述待识别图片;
第一判断单元,用于判断所述标识是否指示对所述待识别图片进行识别;
比较单元,用于在判断出所述标识指示对所述待识别图片进行识别时,根据所述网址信息查找到所述待识别图片,根据所述待识别图片的标识选择图片库,并将将所述待识别图片与所述图片库中记录的需要删除的图片的种子图片进行比较;
丢弃单元,用于在所述图片库中存在与所述待识别图片相同的所述种子图片时,删除所述待识别图片;
第一存储单元,用于在所述图片库中不存在与所述待识别图片相同的所述种子图片、但存在与所述待识别图片的相似度大于第一预定阈值的所述种子图片时,将所述待识别图片作为需要删除的图片的种子图片存储在所述图片库中。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第二判断单元,用于在将所述待识别图片与图片库中记录的需要删除的图片的种子图片进行比较之后,如果所述图片库中不存在与所述待识别图片相同的所述种子图片、且不存在与所述待识别图片的相似度大于所述第一预定阈值的所述种子图片,则判断接收到的存储指令是否指示将所述待识别图片作为需要删除的图片的种子图片存储在所述图片库中;
第二存储单元,用于在判断出所述存储指令指示将所述待识别图片作为需要删除的图片的种子图片存储在所述图片库时,将所述待识别图片作为需要删除的种子图片存储在所述图片库。
9.根据权利要求7所述的装置,其特征在于,所述比较单元包括:
执行子单元,用于执行以下步骤直至判断出所述图片库中存在与所述待识别图片相同的所述种子图片,或者,判断出存在与所述待识别图片的相似度大于第一预定阈值的所述种子图片,或者,遍历完所述图片库中的每个种子图片,包括:
选择模块,用于从所述图片库中选择一个尚未与所述待识别图片执行比较操作的种子图片作为当前种子图片;
第一判断模块,用于判断所述待识别图片是否与所述当前种子图片相同;
第一确定模块,用于在所述待识别图片与所述当前种子图片相同时,判断出所述图片库中存在与所述待识别图片相同的所述种子图片;
第二判断模块,用于在所述待识别图片与所述当前种子图片不同时,判断所述待识别图片与所述当前种子图片的相似度是否大于所述第一预定阈值;
第二确定模块,用于在判断所述待识别图片与所述当前种子图片的相似度大于所述第一预定阈值时,判断出存在与所述待识别图片的相似度大于第一预定阈值的所述种子图片;
标记模块,用于在判断所述待识别图片与所述当前种子图片的相似度小于等于所述第一预定阈值时,将所述当前种子图片标记为已与所述待识别图片执行比较操作的种子图片。
10.根据权利要求9所述的装置,其特征在于,所述第二判断模块包括:
接收子模块,用于接收表征所述待识别图片与所述当前种子图片的相似度的多个维度值;
计算子模块,用于依次计算每个维度和与所述维度对应的比重的乘积,得到多个维度的乘积;
确定子模块,用于将所述多个维度的乘积之和作为所述待识别图片与所述当前种子图片的相似度。
11.根据权利要求7所述的装置,其特征在于,所述装置还包括:
执行单元,用于执行以下步骤直至遍历完服务器上的待删除图片集合中的所有图片:
从所述待删除图片集合中选择一张没有与所述图片库中的所述种子图片进行比较的图片作为当前待删除图片;
判断所述图片库中是否存在与所述当前待删除图片的相似度大于第二预定阈值的种子图片;
如果所述图片库中存在与所述当前待删除图片的相似度大于第二预定阈值的种子图片,则从所述待删除图片集合中删除所述当前待删除图片
如果所述图片库中不存在与所述当前待删除图片的相似度大于第二预定阈值的种子图片,则将所述当前待删除图片标记为已经与所述图片库中的所述种子图片进行比较的图片。
12.根据权利要求7所述的装置,其特征在于,所述接收单元包括:
接收子单元,用于接收安装在PC上的浏览器客户端、安装在PC上的应用客户端、安装在移动终端上的浏览器客户端、安装在移动终端上的应用客户端中的一个发送的所述待识别图片的网址和所述标识;
获取子单元,用于按照所述网址从服务器中获取所述待识别图片。
13.一种服务器,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至6任一项中所述的方法。
14.一种存储介质,所述存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至6任一项中所述的方法。
CN201410468582.6A 2014-09-15 2014-09-15 图片识别方法和装置 Active CN105404631B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410468582.6A CN105404631B (zh) 2014-09-15 2014-09-15 图片识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410468582.6A CN105404631B (zh) 2014-09-15 2014-09-15 图片识别方法和装置

Publications (2)

Publication Number Publication Date
CN105404631A CN105404631A (zh) 2016-03-16
CN105404631B true CN105404631B (zh) 2021-01-29

Family

ID=55470121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410468582.6A Active CN105404631B (zh) 2014-09-15 2014-09-15 图片识别方法和装置

Country Status (1)

Country Link
CN (1) CN105404631B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105847717B (zh) * 2016-05-30 2019-06-04 武汉斗鱼网络科技有限公司 一种弹幕举报的方法、客户端及服务器
CN106203514B (zh) * 2016-07-12 2019-02-12 腾讯科技(深圳)有限公司 图像识别回调通知的方法和装置
CN106776864A (zh) * 2016-11-29 2017-05-31 努比亚技术有限公司 一种图片搜索方法及服务器
CN112866652B (zh) * 2017-06-08 2024-05-17 三菱电机株式会社 影像信息存储装置
CN109491970B (zh) * 2018-10-11 2024-05-10 平安科技(深圳)有限公司 面向云存储的不良图片检测方法、装置及存储介质
CN109947756A (zh) * 2019-03-18 2019-06-28 成都好享你网络科技有限公司 用于增广数据的数据清洗方法、装置和设备
CN112115958A (zh) * 2019-06-20 2020-12-22 腾讯科技(深圳)有限公司 一种图片识别方法、装置、电子设备和存储介质
CN112257768B (zh) * 2020-10-19 2023-01-31 广州金融科技股份有限公司 一种非法金融图片的识别方法、装置、计算机存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101324888A (zh) * 2007-06-13 2008-12-17 北京恒金恒泰信息技术有限公司 基于ie的过滤色情软件插件
CN101901346A (zh) * 2010-05-06 2010-12-01 复旦大学 一种对彩色数字图像进行不良内容识别的方法
CN102110122A (zh) * 2009-12-24 2011-06-29 阿里巴巴集团控股有限公司 一种建立样本图片索引表和图片过滤、搜索方法及装置
CN102117413A (zh) * 2011-03-01 2011-07-06 金华就约我吧网络科技有限公司 基于多层特征的不良图像自动过滤方法
CN102567319A (zh) * 2010-12-10 2012-07-11 腾讯科技(深圳)有限公司 网页图片过滤方法及系统
CN103198073A (zh) * 2012-01-06 2013-07-10 腾讯科技(深圳)有限公司 图片处理方法及系统
CN104036285A (zh) * 2014-05-12 2014-09-10 新浪网技术(中国)有限公司 垃圾图片识别方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050050150A1 (en) * 2003-08-29 2005-03-03 Sam Dinkin Filter, system and method for filtering an electronic mail message
CN101303734B (zh) * 2008-06-25 2011-06-22 深圳市腾讯计算机系统有限公司 图片检测系统及方法
US20120232987A1 (en) * 2011-03-10 2012-09-13 Everingham James R Image-based search interface
CN102306287B (zh) * 2011-08-24 2017-10-10 百度在线网络技术(北京)有限公司 一种用于识别敏感图像的方法与设备
CN102722709B (zh) * 2012-05-23 2014-10-29 杭州朗和科技有限公司 一种垃圾图片识别方法和装置
CN103294813A (zh) * 2013-06-07 2013-09-11 北京捷成世纪科技股份有限公司 一种敏感图片搜索方法和装置
CN103544482A (zh) * 2013-10-25 2014-01-29 北京奇虎科技有限公司 特征图片的识别方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101324888A (zh) * 2007-06-13 2008-12-17 北京恒金恒泰信息技术有限公司 基于ie的过滤色情软件插件
CN102110122A (zh) * 2009-12-24 2011-06-29 阿里巴巴集团控股有限公司 一种建立样本图片索引表和图片过滤、搜索方法及装置
CN101901346A (zh) * 2010-05-06 2010-12-01 复旦大学 一种对彩色数字图像进行不良内容识别的方法
CN102567319A (zh) * 2010-12-10 2012-07-11 腾讯科技(深圳)有限公司 网页图片过滤方法及系统
CN102117413A (zh) * 2011-03-01 2011-07-06 金华就约我吧网络科技有限公司 基于多层特征的不良图像自动过滤方法
CN103198073A (zh) * 2012-01-06 2013-07-10 腾讯科技(深圳)有限公司 图片处理方法及系统
CN104036285A (zh) * 2014-05-12 2014-09-10 新浪网技术(中国)有限公司 垃圾图片识别方法及系统

Also Published As

Publication number Publication date
CN105404631A (zh) 2016-03-16

Similar Documents

Publication Publication Date Title
CN105404631B (zh) 图片识别方法和装置
CN107679211B (zh) 用于推送信息的方法和装置
CN110198310B (zh) 一种网络行为反作弊方法、装置及存储介质
US10410128B2 (en) Method, device, and server for friend recommendation
CA2859135C (en) System and methods for spam detection using frequency spectra of character strings
CN112543176A (zh) 一种异常网络访问检测方法、装置、存储介质及终端
CN108304426B (zh) 标识的获取方法及装置
US9866454B2 (en) Generating anonymous data from web data
CN105426759A (zh) Url的合法性识别方法及装置
CN103279710A (zh) Internet信息系统恶意代码的检测方法和系统
CN107204956A (zh) 网站识别方法及装置
KR20180079434A (ko) 바이러스 데이터베이스 획득 방법 및 기기, 장비, 서버 그리고 시스템
CN110209921B (zh) 媒体资源的推送方法和装置、以及存储介质和电子装置
CN103744941A (zh) 一种基于网站属性信息确定网站评测结果的方法和装置
CN108804501B (zh) 一种检测有效信息的方法及装置
CN108334778B (zh) 病毒检测方法、装置、存储介质及处理器
CN106612283B (zh) 一种识别下载文件来源的方法及装置
CN110825947B (zh) Url去重方法、装置、设备与计算机可读存储介质
CN107332856B (zh) 地址信息的检测方法、装置、存储介质和电子装置
CN116089962A (zh) 一种高性能的Iast外部检测方法、装置、电子设备及介质
CN106803830B (zh) 识别上网终端的方法、装置和系统、及uim卡
CN113127767B (zh) 手机号码提取方法、装置、电子设备及存储介质
CN109919197B (zh) 随机森林模型训练方法及装置
CN110891010B (zh) 用于发送信息的方法和装置
CN114070819B (zh) 恶意域名检测方法、设备、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant