CN102902675A - 图片内容审核方法和装置 - Google Patents

图片内容审核方法和装置 Download PDF

Info

Publication number
CN102902675A
CN102902675A CN2011102102491A CN201110210249A CN102902675A CN 102902675 A CN102902675 A CN 102902675A CN 2011102102491 A CN2011102102491 A CN 2011102102491A CN 201110210249 A CN201110210249 A CN 201110210249A CN 102902675 A CN102902675 A CN 102902675A
Authority
CN
China
Prior art keywords
picture
pending picture
audit
described pending
examination server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011102102491A
Other languages
English (en)
Other versions
CN102902675B (zh
Inventor
刘致远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201110210249.1A priority Critical patent/CN102902675B/zh
Publication of CN102902675A publication Critical patent/CN102902675A/zh
Application granted granted Critical
Publication of CN102902675B publication Critical patent/CN102902675B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种图片内容审核方法和装置,通过应用本发明实施例的技术方案,可以根据待审核图片的反向链接确定相应的锚文本,并根据锚文本的内容确定该待审核图片是否通过审核,这样的审核标准利用了图片与锚文本之间内容的关联性,从而,实现了图片审核的自动化操作,降低了图片审核流程中的人力成本投入,提高了图片审核的处理效率。

Description

图片内容审核方法和装置
技术领域
本发明涉及通信技术领域,特别涉及一种图片内容审核方法和装置。
背景技术
随着HTML(Hyper Text Mark-up Language,超文本标记语言)技术的日益完善,网页不再仅仅是以文字和超链接的形式展现。现有的网页中,包含了许多的多媒体的元素(声音,文字,图片,动画,视频等)。使得用户在浏览网页的同时能得到高强互动的用户体验。
其中,图片对于用户来说是接触面最广,最频繁的。
网络中的图片都是通过引用图片的URL(Uniform Resoure Locator,统一资源定位符)地址(即上传图片到网页),来实现用户对图片的浏览的。
但是,由于图片的抽象化,主观化,使得无法通过仅对图片本身的数据计算就得到图片本身的属性。由于法律法规的限制,存在许多非法的,敏感的图片被浏览器所引用。只有通过对上传图片审核,过滤或修改一些非法的、黄色的、与政治相关的图片,才能保持网页的正常运行。
但是,现有技术的图片的审核流程都是基于人力进行的。即在图片上传至网页后,并不能立即被网页所引用,在此过程中需要通过一个审核系统,通过工作人员对图片进行浏览,判断并过滤敏感、非法的图片。
在实现本发明实施例的过程中,申请人发现现有技术至少存在以下问题:
由于互联网中存在海量的图片需要审核,因此,人工审核图片存在许多缺点:
效率低,每一张图片都要经过一个人工的过程才能完成审核;
耗费人力资源,每个审核系统都需要一定数量的工作人员来完成,大大增加了人力投入成本。
发明内容
本发明实施例提供一种图片内容审核方法和装置,解决在现有技术中图片审核操作繁琐且需要依赖人工操作来完成所带来的审核效率低,投入成本高的问题。
为达到上述目的,本发明实施例一方面提供了一种图片内容审核方法,包括:
图片审核服务器根据待审核图片的反向链接确定相应的锚文本;
所述图片审核服务器根据所述锚文本中所包含的敏感词的情况,确定所述待审核图片是否通过审核。
另一方面,本发明实施例还提供了一种图片审核服务器,包括:
确定模块,用于根据所审核图片的反向链接确定相应的锚文本;
审核模块,用于根据所述确定模块所确定的锚文本中所包含的敏感词的情况,确定所述待审核图片是否通过审核。
与现有技术相比,本发明实施例具有以下优点:
通过应用本发明实施例的技术方案,可以根据待审核图片的反向链接确定相应的锚文本,并根据锚文本的内容确定该待审核图片是否通过审核,这样的审核标准利用了图片与锚文本之间内容的关联性,从而,实现了图片审核的自动化操作,降低了图片审核流程中的人力成本投入,提高了图片审核的处理效率。
附图说明
图1为本发明实施例提出的一种图片内容审核方法的流程示意图;
图2为本发明实施例提出的一种具体应用场景的系统结构示意图;
图3为本发明实施例提出的一种具体应用场景中的图片内容审核方法的流程示意图;
图4为本发明实施例提出的一种图片审核服务器的结构示意图。
具体实施方式
如图1所示,为本发明实施例提出的一种图片内容审核方法的流程示意图,利用图片的反向链接确定相应的锚文本,再通过特定的算法对图片的锚文本进行统计,从而,对图片的内容进行动态的,自动的审核操作。
该方法具体包括以下步骤:
步骤S101、图片审核服务器根据待审核图片的反向链接确定相应的锚文本。
为了实现审核效率的进一步提高,避免对相同内容的图片的重复审核,在本步骤之前,还可以将待审核图片与存储有已完成审核的图片的信息的数据库中的信息进行匹配,如果匹配成功,则根据相应的已完成审核的结果确定当前图片的审核结果,而如果匹配不成功,则继续执行步骤S102,依据锚文本进行审核。
具体的,上述的匹配过程可以为图片审核服务器分别将待审核图片所对应的链接信息和/或内容信息与通过审核数据库和未通过审核数据库中的数据信息进行匹配。
如果待审核图片所对应的链接信息和/或内容信息与通过审核数据库中的数据信息匹配成功,则图片审核服务器确定待审核图片通过审核。
如果待审核图片所对应的链接信息和/或内容信息与未通过审核数据库中的数据信息匹配成功,则图片审核服务器确定待审核图片未通过审核。
如果待审核图片所对应的链接信息和/或内容信息与通过审核数据库和未通过审核数据库中的数据信息都没有匹配成功,则图片审核服务器执行步骤S102,触发根据待审核图片的反向链接确定相应的锚文本的操作。
需要说明的是,上述的待审核图片所对应的链接信息具体指URL信息等能够唯一标识该待审核图片在网络上的页面位置的信息,而待审核图片的内容信息则是根据相应的算法对该图片进行计算后所得到的数据信息,即将图片内容数据化,从而,方便进行内容匹配,具体的算法可以是MD5算法或者其他能够达到相同技术效果的算法,具体算法的变化并不会影响本发明的保护范围。
步骤S102、图片审核服务器根据锚文本中所包含的敏感词的情况,确定待审核图片是否通过审核。
在具体的实施场景中,本步骤的处理过程具体包括:
(1)图片审核服务器分别将待审核图片所对应的各锚文本中的内容与预设的敏感词库进行匹配,得到相应的敏感词评分,其中,具体的处理过程如下:
图片审核服务器分别将各锚文本中所包含的词语分别与预设的敏感词库中所包含的词语进行匹配,敏感词库中所包含的词语分别对应不同的敏感分值。
当图片审核服务器确定一个词语与预设的敏感词库中所包含的词语匹配成功时,图片审核服务器将匹配成功的词语所对应的敏感分值记录到待审核图片所对应的分值记录中,当图片审核服务器确定一个词语与预设的敏感词库中所包含的所有词语均没有匹配成功时,图片审核服务器将预设的缺省分值记录到待审核图片所对应的分值记录中。
(2)图片审核服务器根据待审核图片所对应的全部锚文本中的敏感词评分,确定待审核图片的敏感度评分。
具体的确定方法包括两种:
方法一、当图片审核服务器确定待审核图片所对应的全部锚文本中所包含的所有词语都与预设的敏感词库中所包含的词语完成匹配时,图片审核服务器根据当前待审核图片所对应的全部分值记录和各分值所对应的权值,确定待审核图片所对应的全部分值记录的加权平均数,并将加权平均数的结果确定为待审核图片的敏感度评分。
需要指出的是,之所以采用加权平均数,主要是为了突显高敏感度词语(敏感分值较高的词语)的影响,毕竟在具有一定长度的文字内容中,低敏感度词语的数量一般都会远远多于高敏感度词语,甚至存在许多非敏感词语,但正是高敏感度词语才最终决定了相应内容的敏感度。
因此,对于高敏感度的词语,相对应的权值也会更大,从而,使其对内容敏感度的影响更加明显,相反,低敏感度词语的权值会设置的更小,避免因为大量低敏感度词语对内容敏感度评定的弱化影响,甚至对于非敏感词语或匹配不到敏感度的词语,可以将其权值设置为0,从而消除这样的数据对评定结果的影响。
当然,具体的权值数值可以根据实际的需要进行设置,具体数值大小的变化并不会影响本发明的保护范围。
方法二、当图片审核服务器确定待审核图片所对应的全部锚文本中所包含的所有词语都与预设的敏感词库中所包含的词语完成匹配时,图片审核服务器确定待审核图片所对应的全部分值记录的算术平均值,并将算术平均值的结果确定为待审核图片的敏感度评分。
这里采用算术平均数,虽然不具有加权平均数方案中突显高敏感词语的效果,但是算术平均数的算法简单,且能够一定程度上反映广泛的内容分布情况,因此,在满足系统实际要求的前提下,此种方案可以简化相应的算法处理流程。
在实际应用中,具体采用上述哪种方法可以根据实际的需要进行选择,这样的变化并不影响本发明的保护范围。
(3)图片审核服务器判断敏感度评分是否达到预设的门限值,如果达到,图片审核服务器确定待审核图片没有通过审核,如果没有达到,图片审核服务器确定待审核图片通过审核。
需要进一步指出的是,与前述的步骤S101中所描述的存在存储有已完成审核的图片的信息的数据库的应用场景相对应,在本步骤中对图片审核完成后,同样可以根据审核结果将该图片的信息加入到相应的数据库中,以便在后续对于重复图片进行审核时作为参考,具体的处理过程为: 
当图片审核服务器确定待审核图片没有通过审核时,图片审核服务器将待审核图片所对应的链接信息和/或内容信息添加到未通过审核数据库中;
当图片审核服务器确定待审核图片通过审核时,图片审核服务器将待审核图片所对应的链接信息和/或内容信息添加到通过审核数据库中。
与现有技术相比,本发明实施例具有以下优点:
通过应用本发明实施例的技术方案,可以根据待审核图片的反向链接确定相应的锚文本,并根据锚文本的内容确定该待审核图片是否通过审核,这样的审核标准利用了图片与锚文本之间内容的关联性,从而,实现了图片审核的自动化操作,降低了图片审核流程中的人力成本投入,提高了图片审核的处理效率。
下面,结合具体的应用场景,对本发明实施例所提出的技术方案进行说明。
本发明实施例所提出的技术方案使用自动审核的办法,添加敏感度匹配进程,对图片进行敏感度计算,快速高效的对图片进行审核过滤。
在相应的处理流程中,根据待审核图片的反向链接,确定其所对应的锚文本,在对锚文本进行敏感词匹配,根据最终的敏感度评分确定图片是否审核通过,这样的处理利用锚文本确定页面内容敏感度,并且反过来通过页面内容与图片内容的关联性,确定图片内容是否可以通过审核。
进一步的,本发明实施例所提出的技术方案还增加了相应的审核结果数据库对完成审核的图片的信息进行记录,对于已经完成审核的图片,则在二次上传时无需再进行审核,而直接采用前次的审核结果,如果前次审核通过,则本次上传时直接确定为审核通过,如果前次审核未通过,则直接拒绝当前图片的上传。
为了保证审核结果数据库中信息的准确性,每个维护周期(例如一个月),可以对所有审核结果数据库中的图片重新进行审核,刷新数据,使得审核结果数据库中的数据更加精确。
在具体的实施场景中,可以对图片进行MD5计算,对图片内容数据化,如果两张不同URL的图片的MD5值相同,则记为同一张图片,以防止恶意上传以及重复审核所带来的资源浪费。
基于上述的技术思路,本发明通过以下实施例对于存在审核结果数据库的具体应用场景中的图片审核处理过程进行说明,相应的图片审核系统的结构示意图如图2所示。
该系统由敏感词库,审核通过数据库,审核未通过数据库,反向链接库,以及具体的图片审核服务器组成,其中的图片审核服务器包括上传接口、图片数据库和审核接口组成。在图片审核服务器上运行一个独立的自动审核程序,控制个数据库之间的信息传输。
当然,上述的系统组成结构只是为了便于说明而给出的一种具体示例,上述结构中的各设备是逻辑独立关系,在实际操作中,完全可以分别通过不同的服务器来承担相应的逻辑功能,也可以通过同一个服务器来继承多个甚至全部的逻辑功能,这样的变化并不影响本发明的保护范围。
对上述的系统结构中的各组成部分进行说明如下:
(1)敏感数据库是人工整理的词库,其中包含了与政治,黄色,非法信息等敏感词。
具体的,可以将敏感词根据严重性分为9组,分别对应1-9分,这些敏感词是用来对锚文本进行评估打分的标准。
(2)图片数据库存放待审核的图片,并可以实现图片信息的分析,每一张图片以G(1,N)的关系对应N个反向链接,每个反向链接对应0个或1个锚文本。
之所以可能存在对应0个锚文本的情况,主要是因为反向链接有可能只是对应一个网络链接本身,而该链接本身并不对应任何的内容信息。
(3)审核通过数据库和审核未通过数据库中存放的是已经审核通过的图片。
图片与其URL和图片的MD5值是一一对应的关系。
初始情况下,审核通过数据库和审核未通过数据库为空。
(4)上传接口用以接收图片上传,并返回审核结果。
(5)审核接口则是将根据反向链接库查找到的锚文本的内容与敏感词库的信息进行比对的地方,由此确定相应的审核结果。
基于上述的系统结构,相应的流程示意图如图3所示,具体包括以下步骤:
步骤S301、上传接口接收到上传的待审核图片。
步骤S302、上传接口将待审核图片存入图片数据库。
图片存入图片数据库后,需要对图片进行分析,分析其对应的URL信息,并通过MD5算法对该图片进行计算,即将图片内容进行数据化。
步骤S303、同时将待审核图片的信息与审核通过数据库以及审核未通过数据库中的信息进行匹配。
当然,在实际操作中,也可以将上述的两个数据库合并为一个审核结果数据库,并在每个图片数据中标注相应的审核结果信息。
如果图片的URL或者MD5值与审核通过数据库中的任何一个信息匹配成功,则表示该图片(或与该图片完全相同的图片)已经进行过审核,并且审核结果为通过,因此,执行步骤S306;
如果图片的URL或者MD5值与审核未通过数据库中的任何一个信息匹配成功,则表示该图片(或与该图片完全相同的图片)已经进行过审核,并且审核结果为未通过,因此,执行步骤S308;
如果与两个数据库中的信息都没有匹配成功,则执行步骤S304。
步骤S304、将待审核图片的新发发送给审核接口,根据其所对应的锚文本进行敏感词匹配,完成图片内容的审核。
首先,根据该待审核图片所对应的反向链接,在反向链接库中查询其所对应的锚文本。
依次读取图片的各反向链接,如果图片的一个反向链接存在锚文本,则对锚文本进行取词处理。
然后,将该锚文本中所取到的各词语依次与敏感词库进行匹配,如果当前所取到的词语与敏感词库中的敏感词匹配,则对该词语进行敏感分数打分。
其中,得分等于以当前敏感词所在分组的分值(1-9分),得分越高表示词语越具有严重性。
如果当前所取到的词语不能与敏感词库中的所有词语匹配,则记为0分(即前述的缺省分数)。
重复上述的步骤,对下一个锚文本进行取词,如此循环,直至该待审核图片所对应的所有锚文本的词语都与敏感词库中的词语完成匹配,并得到了相应的分数。
在对待审核图片所对应的所有的锚文本中的词语都完成了相应的匹配处理后,将该待审核图片的所得到的所有分数进行加权平均数的计算,其中,分值越高对应的权值越大,例如9分对应的权值为9,1分对应的权值为1,0分则直接对应权值0,求得的加权平均数即为该图片的敏感度评分。
之后,根据相应的敏感度分数是否超过门限门限确定该图片是否通过审核,如果其分数超过门限分数,就说明该图片存在一定的问题,不能通过审核,执行步骤S307,相反,如果没有超过门限分数,则可以通过审核,执行步骤S305。
步骤S305、将该图片的信息发送给审核通过数据库进行存储。
步骤S306、审核通过数据库向上传接口发送指示消息,确认该图片审核通过,并允许网页对该图片的引用。
之后,执行步骤S309。
步骤S307、将该图片的信息发送给审核未通过数据库进行存储。
步骤S308、审核未通过数据库向上传接口发送指示消息,确认该图片审核未通过,禁止网页对该图片的引用,删除相应的引用链接。
之后,执行步骤S309。
步骤S309、上传接口反馈审核结果。
与现有技术相比,本发明实施例具有以下优点:
通过应用本发明实施例的技术方案,可以根据待审核图片的反向链接确定相应的锚文本,并根据锚文本的内容确定该待审核图片是否通过审核,这样的审核标准利用了图片与锚文本之间内容的关联性,从而,实现了图片审核的自动化操作,降低了图片审核流程中的人力成本投入,提高了图片审核的处理效率。
为了实现本发明实施例的技术方案,本发明实施例还提供了一种软件测试装置,其结构示意图如图4所示,具体包括:
确定模块41,用于根据所审核图片的反向链接确定相应的锚文本;
审核模块42,用于根据确定模块41所确定的锚文本中所包含的敏感词的情况,确定待审核图片是否通过审核。
需要指出的是该图片审核服务器还包括匹配模块43,用于分别将待审核图片所对应的链接信息和/或内容信息与通过审核数据库和未通过审核数据库中的数据信息进行匹配;
如果待审核图片所对应的链接信息和/或内容信息与通过审核数据库中的数据信息匹配成功,则确定待审核图片通过审核;
如果待审核图片所对应的链接信息和/或内容信息与未通过审核数据库中的数据信息匹配成功,则确定待审核图片未通过审核;
如果待审核图片所对应的链接信息和/或内容信息与通过审核数据库和未通过审核数据库中的数据信息都没有匹配成功,则通知确定模块41开始根据待审核图片的反向链接确定相应的锚文本的操作。
在具体的实施场景中,审核模块42,具体包括:
匹配子模块421,用于分别将待审核图片所对应的各锚文本中的内容与预设的敏感词库进行匹配,得到相应的敏感词评分;
评分子模块422,用于根据匹配子模块421所确定的待审核图片所对应的全部锚文本中的敏感词评分,确定待审核图片的敏感度评分;
判断子模块423,用于判断评分子模块422所确定的待审核图片的敏感度评分是否达到预设的门限值,如果达到,则确定待审核图片没有通过审核,如果没有达到,则确定待审核图片通过审核。
其中,匹配子模块421,具体用于:
分别将各锚文本中所包含的词语分别与预设的敏感词库中所包含的词语进行匹配,敏感词库中所包含的词语分别对应不同的敏感分值;
当确定一个词语与预设的敏感词库中所包含的词语匹配成功时,将匹配成功的词语所对应的敏感分值记录到待审核图片所对应的分值记录中;
当确定一个词语与预设的敏感词库中所包含的所有词语均没有匹配成功时,将预设的缺省分值记录到待审核图片所对应的分值记录中。
进一步的,评分子模块422,具体用于:
当确定待审核图片所对应的全部锚文本中所包含的所有词语都与预设的敏感词库中所包含的词语完成匹配时,根据当前待审核图片所对应的全部分值记录和各分值所对应的权值,确定待审核图片所对应的全部分值记录的加权平均数,并将加权平均数的结果确定为待审核图片的敏感度评分;或,
当确定待审核图片所对应的全部锚文本中所包含的所有词语都与预设的敏感词库中所包含的词语完成匹配时,确定待审核图片所对应的全部分值记录的算术平均值,并将算术平均值的结果确定为待审核图片的敏感度评分。
另一方面,审核模块42,还用于:
当待审核图片没有通过审核时,将待审核图片所对应的链接信息和/或内容信息添加到未通过审核数据库中;
当待审核图片通过审核时,将待审核图片所对应的链接信息和/或内容信息添加到通过审核数据库中。
与现有技术相比,本发明实施例具有以下优点:
通过应用本发明实施例的技术方案,可以根据待审核图片的反向链接确定相应的锚文本,并根据锚文本的内容确定该待审核图片是否通过审核,这样的审核标准利用了图片与锚文本之间内容的关联性,从而,实现了图片审核的自动化操作,降低了图片审核流程中的人力成本投入,提高了图片审核的处理效率。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明实施例可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本发明实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或网络设备等)执行本发明实施例各个实施场景所述的方法。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本发明实施例所必须的。
本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本发明实施例序号仅仅为了描述,不代表实施场景的优劣。
以上公开的仅为本发明实施例的几个具体实施场景,但是,本发明实施例并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明实施例的业务限制范围。

Claims (13)

1.一种图片内容审核方法,其特征在于,包括:
图片审核服务器根据待审核图片的反向链接确定相应的锚文本;
所述图片审核服务器根据所述锚文本中所包含的敏感词的情况,确定所述待审核图片是否通过审核。
2.如权利要求1所述的方法,其特征在于,所述图片审核服务器根据待审核图片的反向链接确定相应的锚文本之前,还包括:
所述图片审核服务器分别将待审核图片所对应的链接信息和/或内容信息与通过审核数据库和未通过审核数据库中的数据信息进行匹配;
如果所述待审核图片所对应的链接信息和/或内容信息与所述通过审核数据库中的数据信息匹配成功,则所述图片审核服务器确定所述待审核图片通过审核;
如果所述待审核图片所对应的链接信息和/或内容信息与所述未通过审核数据库中的数据信息匹配成功,则所述图片审核服务器确定所述待审核图片未通过审核;
如果所述待审核图片所对应的链接信息和/或内容信息与所述通过审核数据库和所述未通过审核数据库中的数据信息都没有匹配成功,则所述图片审核服务器触发根据所述待审核图片的反向链接确定相应的锚文本的操作。
3.如权利要求2所述的方法,其特征在于,
所述待审核图片所对应的链接信息,具体为所述待审核图片所对应的URL信息;
所述待审核图片所对应的内容信息,具体为将所述待审核图片通过MD5算法计算后得到的信息。
4.如权利要求1所述的方法,其特征在于,所述图片审核服务器根据所述锚文本中所包含的敏感词的情况,确定所述待审核图片是否通过审核,具体包括:
所述图片审核服务器分别将所述待审核图片所对应的各锚文本中的内容与预设的敏感词库进行匹配,得到相应的敏感词评分;
所述图片审核服务器根据所述待审核图片所对应的全部锚文本中的敏感词评分,确定所述待审核图片的敏感度评分;
所述图片审核服务器判断所述敏感度评分是否达到预设的门限值,如果达到,所述图片审核服务器确定所述待审核图片没有通过审核,如果没有达到,所述图片审核服务器确定所述待审核图片通过审核。
5.如权利要求4所述的方法,其特征在于,所述图片审核服务器分别将所述待审核图片所对应的各锚文本中的内容与预设的敏感词库进行匹配,得到相应的敏感词评分,具体包括:
所述图片审核服务器分别将各锚文本中所包含的词语分别与所述预设的敏感词库中所包含的词语进行匹配,所述敏感词库中所包含的词语分别对应不同的敏感分值;
当所述图片审核服务器确定一个词语与所述预设的敏感词库中所包含的词语匹配成功时,所述图片审核服务器将匹配成功的词语所对应的敏感分值记录到所述待审核图片所对应的分值记录中,当所述图片审核服务器确定一个词语与所述预设的敏感词库中所包含的所有词语均没有匹配成功时,所述图片审核服务器将预设的缺省分值记录到所述待审核图片所对应的分值记录中。
6.如权利要求4所述的方法,其特征在于,所述图片审核服务器根据所述待审核图片所对应的全部锚文本中的敏感词评分,确定所述待审核图片的敏感度评分,具体包括:
当所述图片审核服务器确定所述待审核图片所对应的全部锚文本中所包含的所有词语都与所述预设的敏感词库中所包含的词语完成匹配时,所述图片审核服务器根据当前所述待审核图片所对应的全部分值记录和各分值所对应的权值,确定所述待审核图片所对应的全部分值记录的加权平均数,并将所述加权平均数的结果确定为所述待审核图片的敏感度评分;或,
当所述图片审核服务器确定所述待审核图片所对应的全部锚文本中所包含的所有词语都与所述预设的敏感词库中所包含的词语完成匹配时,所述图片审核服务器确定所述待审核图片所对应的全部分值记录的算术平均值,并将所述算术平均值的结果确定为所述待审核图片的敏感度评分。
7.如权利要求1所述的方法,其特征在于,所述图片审核服务器根据所述锚文本中所包含的敏感词的情况,确定所述待审核图片是否通过审核之后,所述方法还包括:
当所述图片审核服务器确定所述待审核图片没有通过审核时,所述图片审核服务器将所述待审核图片所对应的链接信息和/或内容信息添加到未通过审核数据库中;
当所述图片审核服务器确定所述待审核图片通过审核时,所述图片审核服务器将所述待审核图片所对应的链接信息和/或内容信息添加到通过审核数据库中。
8.一种图片审核服务器,其特征在于,包括:
确定模块,用于根据所审核图片的反向链接确定相应的锚文本;
审核模块,用于根据所述确定模块所确定的锚文本中所包含的敏感词的情况,确定所述待审核图片是否通过审核。
9.如权利要求8所述的图片审核服务器,其特征在于,还包括匹配模块,用于分别将待审核图片所对应的链接信息和/或内容信息与通过审核数据库和未通过审核数据库中的数据信息进行匹配;
如果所述待审核图片所对应的链接信息和/或内容信息与所述通过审核数据库中的数据信息匹配成功,则确定所述待审核图片通过审核;
如果所述待审核图片所对应的链接信息和/或内容信息与所述未通过审核数据库中的数据信息匹配成功,则确定所述待审核图片未通过审核;
如果所述待审核图片所对应的链接信息和/或内容信息与所述通过审核数据库和所述未通过审核数据库中的数据信息都没有匹配成功,则通知所述确定模块开始根据所述待审核图片的反向链接确定相应的锚文本的操作。
10.如权利要求8所述的图片审核服务器,其特征在于,所述审核模块,具体包括:
匹配子模块,用于分别将所述待审核图片所对应的各锚文本中的内容与预设的敏感词库进行匹配,得到相应的敏感词评分;
评分子模块,用于根据所述匹配子模块所确定的所述待审核图片所对应的全部锚文本中的敏感词评分,确定所述待审核图片的敏感度评分;
判断子模块,用于判断所述评分子模块所确定的所述待审核图片的敏感度评分是否达到预设的门限值,如果达到,则确定所述待审核图片没有通过审核,如果没有达到,则确定所述待审核图片通过审核。
11.如权利要求10所述的图片审核服务器,其特征在于,所述匹配子模块,具体用于:
分别将各锚文本中所包含的词语分别与所述预设的敏感词库中所包含的词语进行匹配,所述敏感词库中所包含的词语分别对应不同的敏感分值;
当确定一个词语与所述预设的敏感词库中所包含的词语匹配成功时,将匹配成功的词语所对应的敏感分值记录到所述待审核图片所对应的分值记录中;
当确定一个词语与所述预设的敏感词库中所包含的所有词语均没有匹配成功时,将预设的缺省分值记录到所述待审核图片所对应的分值记录中。
12.如权利要求10所述的图片审核服务器,其特征在于,所述评分子模块,具体用于:
当确定所述待审核图片所对应的全部锚文本中所包含的所有词语都与所述预设的敏感词库中所包含的词语完成匹配时,根据当前所述待审核图片所对应的全部分值记录和各分值所对应的权值,确定所述待审核图片所对应的全部分值记录的加权平均数,并将所述加权平均数的结果确定为所述待审核图片的敏感度评分;或,
当确定所述待审核图片所对应的全部锚文本中所包含的所有词语都与所述预设的敏感词库中所包含的词语完成匹配时,确定所述待审核图片所对应的全部分值记录的算术平均值,并将所述算术平均值的结果确定为所述待审核图片的敏感度评分。
13.如权利要求8所述的图片审核服务器,其特征在于,所述审核模块,还用于:
当所述待审核图片没有通过审核时,将所述待审核图片所对应的链接信息和/或内容信息添加到未通过审核数据库中;
当所述待审核图片通过审核时,将所述待审核图片所对应的链接信息和/或内容信息添加到通过审核数据库中。
CN201110210249.1A 2011-07-26 2011-07-26 图片内容审核方法和装置 Active CN102902675B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110210249.1A CN102902675B (zh) 2011-07-26 2011-07-26 图片内容审核方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110210249.1A CN102902675B (zh) 2011-07-26 2011-07-26 图片内容审核方法和装置

Publications (2)

Publication Number Publication Date
CN102902675A true CN102902675A (zh) 2013-01-30
CN102902675B CN102902675B (zh) 2017-10-10

Family

ID=47574915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110210249.1A Active CN102902675B (zh) 2011-07-26 2011-07-26 图片内容审核方法和装置

Country Status (1)

Country Link
CN (1) CN102902675B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116752A (zh) * 2013-02-25 2013-05-22 新浪网技术(中国)有限公司 图片审核方法和系统
CN103617165A (zh) * 2013-10-22 2014-03-05 小米科技有限责任公司 一种加载图片的方法、装置及终端
CN104918066A (zh) * 2014-03-11 2015-09-16 上海数字电视国家工程研究中心有限公司 视频内容审核方法及系统
CN105808630A (zh) * 2014-12-31 2016-07-27 广州市动景计算机科技有限公司 一种安卓应用的审核方法及装置
CN106250491A (zh) * 2016-08-01 2016-12-21 北京金和网络股份有限公司 文章自动化审核的方法及其系统
CN107807941A (zh) * 2016-09-09 2018-03-16 腾讯科技(深圳)有限公司 信息处理方法和装置
CN108339273A (zh) * 2017-12-29 2018-07-31 网易(杭州)网络有限公司 一种设置玩家头像的方法及客户端、服务端、系统
CN108470028A (zh) * 2017-02-23 2018-08-31 北京唱吧科技股份有限公司 一种图片审核方法和装置
CN108765085A (zh) * 2018-05-30 2018-11-06 杭州骑轻尘信息技术有限公司 车辆订单审核方法、装置及可读存储介质
CN111612284A (zh) * 2019-02-25 2020-09-01 阿里巴巴集团控股有限公司 数据的处理方法、装置及设备
CN112131376A (zh) * 2019-06-24 2020-12-25 北京华雨天成文化传播有限公司 一种审核方法及装置
CN112597400A (zh) * 2021-03-04 2021-04-02 中南大学 一种人群的特定倾向性感知方法和系统
CN113378205A (zh) * 2021-07-07 2021-09-10 公安部第一研究所 一种数据跨安全域反向传输的方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1396533A (zh) * 2001-07-16 2003-02-12 友立资讯股份有限公司 色情文件判断系统及方法
CN1761205A (zh) * 2005-11-18 2006-04-19 郑州金惠计算机系统工程有限公司 基于内容的网络色情图像和不良图像检测系统
CN101226531A (zh) * 2007-12-28 2008-07-23 腾讯科技(北京)有限公司 一种镜像网页的查找方法及查找系统
CN101303734A (zh) * 2008-06-25 2008-11-12 腾讯科技(深圳)有限公司 图片检测系统及方法
CN101330406A (zh) * 2008-08-01 2008-12-24 中国联合通信有限公司 一种监测wap不良图片的系统及方法
US20090024700A1 (en) * 2007-07-19 2009-01-22 Google Inc. Ad targeting using reference page information
CN101877704A (zh) * 2010-06-02 2010-11-03 中兴通讯股份有限公司 一种进行网络访问控制的方法及服务网关
CN101996180A (zh) * 2009-08-12 2011-03-30 升东网络科技发展(上海)有限公司 图片审核过滤系统及方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1396533A (zh) * 2001-07-16 2003-02-12 友立资讯股份有限公司 色情文件判断系统及方法
CN1761205A (zh) * 2005-11-18 2006-04-19 郑州金惠计算机系统工程有限公司 基于内容的网络色情图像和不良图像检测系统
US20090024700A1 (en) * 2007-07-19 2009-01-22 Google Inc. Ad targeting using reference page information
CN101226531A (zh) * 2007-12-28 2008-07-23 腾讯科技(北京)有限公司 一种镜像网页的查找方法及查找系统
CN101303734A (zh) * 2008-06-25 2008-11-12 腾讯科技(深圳)有限公司 图片检测系统及方法
CN101330406A (zh) * 2008-08-01 2008-12-24 中国联合通信有限公司 一种监测wap不良图片的系统及方法
CN101996180A (zh) * 2009-08-12 2011-03-30 升东网络科技发展(上海)有限公司 图片审核过滤系统及方法
CN101877704A (zh) * 2010-06-02 2010-11-03 中兴通讯股份有限公司 一种进行网络访问控制的方法及服务网关

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
方育柯: ""基于主题网络爬虫的不良网页的发现与识别"", 《郑州大学学报(理学版)》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116752A (zh) * 2013-02-25 2013-05-22 新浪网技术(中国)有限公司 图片审核方法和系统
CN103617165B (zh) * 2013-10-22 2017-02-15 小米科技有限责任公司 一种加载图片的方法、装置及终端
CN103617165A (zh) * 2013-10-22 2014-03-05 小米科技有限责任公司 一种加载图片的方法、装置及终端
CN104918066A (zh) * 2014-03-11 2015-09-16 上海数字电视国家工程研究中心有限公司 视频内容审核方法及系统
CN104918066B (zh) * 2014-03-11 2018-02-27 上海数字电视国家工程研究中心有限公司 视频内容审核方法及系统
CN105808630A (zh) * 2014-12-31 2016-07-27 广州市动景计算机科技有限公司 一种安卓应用的审核方法及装置
CN105808630B (zh) * 2014-12-31 2020-03-31 广州市动景计算机科技有限公司 一种安卓应用的审核方法及装置
CN106250491A (zh) * 2016-08-01 2016-12-21 北京金和网络股份有限公司 文章自动化审核的方法及其系统
CN107807941A (zh) * 2016-09-09 2018-03-16 腾讯科技(深圳)有限公司 信息处理方法和装置
CN107807941B (zh) * 2016-09-09 2019-07-02 腾讯科技(深圳)有限公司 信息处理方法和装置
CN108470028A (zh) * 2017-02-23 2018-08-31 北京唱吧科技股份有限公司 一种图片审核方法和装置
CN108470028B (zh) * 2017-02-23 2020-08-18 北京唱吧科技股份有限公司 一种图片审核方法和装置
CN108339273A (zh) * 2017-12-29 2018-07-31 网易(杭州)网络有限公司 一种设置玩家头像的方法及客户端、服务端、系统
CN108339273B (zh) * 2017-12-29 2022-03-04 网易(杭州)网络有限公司 一种设置玩家头像的方法及客户端、服务端、系统
CN108765085A (zh) * 2018-05-30 2018-11-06 杭州骑轻尘信息技术有限公司 车辆订单审核方法、装置及可读存储介质
CN111612284A (zh) * 2019-02-25 2020-09-01 阿里巴巴集团控股有限公司 数据的处理方法、装置及设备
CN111612284B (zh) * 2019-02-25 2023-06-20 阿里巴巴集团控股有限公司 数据的处理方法、装置及设备
CN112131376A (zh) * 2019-06-24 2020-12-25 北京华雨天成文化传播有限公司 一种审核方法及装置
CN112597400A (zh) * 2021-03-04 2021-04-02 中南大学 一种人群的特定倾向性感知方法和系统
CN113378205A (zh) * 2021-07-07 2021-09-10 公安部第一研究所 一种数据跨安全域反向传输的方法

Also Published As

Publication number Publication date
CN102902675B (zh) 2017-10-10

Similar Documents

Publication Publication Date Title
CN102902675A (zh) 图片内容审核方法和装置
WO2018036272A1 (zh) 新闻内容的推送方法、电子装置及计算机可读存储介质
US20070256033A1 (en) System and method for flagging information content
CN104766014A (zh) 用于检测恶意网址的方法和系统
JP4429356B2 (ja) 属性抽出処理方法及び装置
WO2014107682A1 (en) Method and apparatus for generating webpage content
CN103685307A (zh) 基于特征库检测钓鱼欺诈网页的方法及系统、客户端、服务器
CN107241914B (zh) 用于搜索查询重写的系统和方法
CN100412866C (zh) 一种网络内容引用自动发现的方法
CN103530365A (zh) 获取资源的下载链接的方法及系统
CN106230835B (zh) 基于Nginx日志分析和IPTABLES转发的反恶意访问的方法
CN111324370B (zh) 用于对待上线小程序进行风险处理的方法及装置
CN101763394A (zh) 计算机系统涉密文件搜索方法
CN103744941A (zh) 一种基于网站属性信息确定网站评测结果的方法和装置
CN109033286B (zh) 数据统计方法和装置
CN104023025A (zh) 基于业务规则的网站安全漏洞检测方法及装置
KR101566153B1 (ko) 포렌식 시스템 및 포렌식 방법 및 포렌식 프로그램
CN109726290B (zh) 投诉分类模型的确定方法及装置、计算机可读存储介质
WO2015149550A1 (zh) 确定网站内链接等级的方法及装置
CN110191124B (zh) 基于web前端开发数据的网站鉴别方法、装置及存储设备
CN104899320A (zh) 网页修复方法、终端、服务器及系统
CN104391982B (zh) 信息推荐方法和信息推荐系统
CN108038233B (zh) 一种采集文章的方法、装置、电子设备及存储介质
KR100968545B1 (ko) 연관 컨텐츠 제공 방법
CN107329956B (zh) 一种项目信息标准化方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant