CN103617261A - 图片内容属性识别方法和系统 - Google Patents

图片内容属性识别方法和系统 Download PDF

Info

Publication number
CN103617261A
CN103617261A CN201310632631.0A CN201310632631A CN103617261A CN 103617261 A CN103617261 A CN 103617261A CN 201310632631 A CN201310632631 A CN 201310632631A CN 103617261 A CN103617261 A CN 103617261A
Authority
CN
China
Prior art keywords
picture
bunch
homology
reprinting
pictures
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310632631.0A
Other languages
English (en)
Other versions
CN103617261B (zh
Inventor
陶哲
张扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201310632631.0A priority Critical patent/CN103617261B/zh
Publication of CN103617261A publication Critical patent/CN103617261A/zh
Priority to PCT/CN2014/087109 priority patent/WO2015081748A1/zh
Application granted granted Critical
Publication of CN103617261B publication Critical patent/CN103617261B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明的提供了一种图片内容属性识别方法和系统,方法包括:对收集到的图片进行相似图片识别,将图片聚合为多个同源图片簇;计算多个同源图片簇对于特定资源站点的相对转载数;根据相对转载数识别对应的同源图片簇中的图片内容属性。本发明的优点在于,根据图片在网络上被转载或传播的数据可以识别图片的内容属性,尤其可以用于判断其是否为广告图片。

Description

图片内容属性识别方法和系统
技术领域
本发明涉及图像识别领域,具体涉及一种图片内容属性识别方法和系统。
背景技术
在网络中很多类型的资源站点上,都会出现一些广告图片,这些广告图片的种类非常丰富,其包括各类商品的广告(例如,关于奶粉、衣服的广告),和实体商店的广告,以及一些其他类型的广告。
这些广告图片不但会出现在商家的站点上,也会出现在其他资源站点的页面上,例如,在允许用户上传图片的社区(论坛、图片站等),会有一些用户上传广告图片。大量广告图片的存在,往往对用户造成干扰,甚至用户进行图片搜索时,也会出现与用户需求无关的广告图片。
从图片的图像内容角度来看,不同广告图片是没有特别多的相似点的,所以基于目前的图像识别技术,难以对图片的图片内容属性进行识别,即难以识别出哪些图片为广告图片,也就无法对广告图片进行针对性的处理,用户的体验必然受到广告图片的影响。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种图片内容属性识别方法和系统。
依据本发明的一个方面,提供了一种图片内容属性识别方法,其包括:对收集到的图片进行相似图片识别,将图片聚合为多个同源图片簇;计算多个同源图片簇对于特定资源站点的相对转载数;根据相对转载数识别对应的同源图片簇中的图片内容属性。
可选地,计算多个同源图片簇对于特定资源站点的相对转载数的步骤包括:对于多个同源图片簇中的一个同源图片簇,将同源图片簇中的图片在特定资源站点上的转载数,与在多个资源站点上的转载数相比较,得到同源图片簇对于特定资源站点的相对转载数,多个资源站点包括特定资源站点。
可选地,将同源图片簇中的图片在特定资源站点上的转载数,与在多个资源站点上的转载数相比较的步骤包括:计算特定资源站点上的图片的第一平均转载数;计算多个资源站点上的图片的第二平均转载数;取同源图片簇中的图片在特定资源站点上的转载数与第一平均转载数的第一差值,以及取同源图片簇中的图片在多个资源站点上的转载数与第二平均转载数的第二差值,将第一差值和第二差值对比得到同源图片簇对于特定资源站点的相对转载数。
可选地,计算特定资源站点上的图片的第一平均转载数的步骤包括:取多个同源图片簇的图片中位于特定资源站点上的多个图片,将多个图片的数量与多个图片对应的同源图片簇的数量进行对比,得到第一平均转载数。
可选地,计算多个资源站点上的图片的第二平均转载数的步骤包括:将多个同源图片簇的图片的数量,与多个同源图片簇的数量进行比较,得到第二平均转载数。
可选地,在将同源图片簇中的图片在特定资源站点上的转载数,与在多个资源站点上的转载数相比较的步骤之前,还包括:抓取多个资源站点上出现的图片链接;检测图片链接与同源图片簇的图片对应的链接是否相同,和/或检测图片链接对应的图片的校验信息与同源图片簇的图片的校验信息是否相同,和/或检测图片链接对应的图片与同源图片簇的图片是否存在一个或多个相同的图像特征;根据检测结果,确定图片链接是否为同源图片簇的图片的转载,并统计同源图片簇的图片的转载数。
可选地,特定资源站点为多个同源图片簇中转载每个同源图片簇的图片最多的资源站点。
可选地,每个同源图片簇的图片对应同一源图片,且每个同源图片簇的图片与其对应的源图片具有一个或多个相同的图像特征。
可选地,所述方法进一步包括:提取所述同源图片簇中包含的图片的格式特征和/或图片的链接特征,在所述相对转载数的基础上进一步结合目标图片簇中包含的图片的格式特征和/或图片的链接特征,来识别同源图片簇中的图片内容属性。
可选地,所述图片的格式特征包括但不限于以下中的一种或几种组合:图片的长/宽,图片的大小,图片的清晰度,
可选地,所述图片的链接特征包括但不限于以下中的一种或几种组合:图片链接是否和网页同站,图片跳转链接是否站外。
依据本发明的另一方面,还提供了一种图片内容属性识别系统,其包括:图片聚合模块,用于对收集到的图片进行相似图片识别,将图片聚合为多个同源图片簇;相对转载数计算模块,用于计算多个同源图片簇对于特定资源站点的相对转载数;图片内容属性识别模块,用于根据相对转载数识别对应的同源图片簇中的图片内容属性。
可选地,相对转载数计算模块对于多个同源图片簇中的一个同源图片簇,将同源图片簇中的图片在特定资源站点上的转载数,与在多个资源站点上的转载数相比较,得到同源图片簇对于特定资源站点的相对转载数,多个资源站点包括特定资源站点。
可选地,还包括:第一平均转载数计算模块,用于计算特定资源站点上的图片的第一平均转载数;第二平均转载数计算模块,用于计算多个资源站点上的图片的第二平均转载数;相对转载数计算模块取同源图片簇中的图片在特定资源站点上的转载数与第一平均转载数的第一差值,以及取同源图片簇中的图片在多个资源站点上的转载数与第二平均转载数的第二差值,将第一差值和第二差值对比得到同源图片簇对于特定资源站点的相对转载数。
可选地,第一平均转载数计算模块取多个同源图片簇的图片中位于特定资源站点上的多个图片,将多个图片的数量与多个图片对应的同源图片簇的数量进行对比,得到第一平均转载数。
可选地,第二平均转载数计算模块将多个同源图片簇的图片的数量,与多个同源图片簇的数量进行比较,得到第二平均转载数。
可选地,还包括:图片链接抓取模块,用于抓取多个资源站点上出现的图片链接;图片链接检测模块,用于检测图片链接与同源图片簇的图片对应的链接是否相同,和/或检测图片链接对应的图片的校验信息与同源图片簇的图片的校验信息是否相同,和/或检测图片链接对应的图片与同源图片簇的图片是否存在一个或多个相同的图像特征;图片转载数统计模块,用于根据检测结果,确定图片链接是否为同源图片簇的图片的转载,并统计同源图片簇的图片的转载数。
可选地,特定资源站点为多个同源图片簇中转载每个同源图片簇的图片最多的资源站点。
可选地,每个同源图片簇的图片对应同一源图片,且每个同源图片簇的图片与其对应的源图片具有一个或多个相同的图像特征。
根据本发明的图片内容属性识别方法和系统,将相似的图片聚合到同一同源图片簇中,对于一个同源图片簇而言,如果其中一张图片为广告图片,则其余图片也必然为广告图片,所以本发明的技术方案中以图片簇为单位进行图片内容属性的识别,以判断每个同源图片簇中的图片是否为广告图片,用于进行图片属性识别的数据选用相对转载数,这是因为相对转载数是能够反映图片在特定资源站点的站内站外比例的数据,而作为广告的图片的一个主要特点在于:在某一资源站点上转载的次数非常高,而在互联网范围内其他资源站点上转载的次数会相对地明显变少,因此相对转载数的大小可以用于区分别图片是否作为广告进行传播,利用相对转载数对图片的图片内容属性进行识别,可以准确地判断图片是否为广告图片。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明的一个实施例的图片内容识别方法的流程图;
图2示出了根据本发明的一个实施例的图片内容识别方法的部分流程图;
图3示出了根据本发明的一个实施例的图片内容识别方法的流程图;
图4示出了根据本发明的一个实施例的图片内容识别系统的框图;
图5示出了根据本发明的一个实施例的图片内容识别系统的框图;
图6示出了根据本发明的一个实施例的图片内容识别系统的框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,本发明的一个实施例中提供了一种图片内容属性识别方法,其包括:步骤110,对收集到的图片进行相似图片识别,将图片聚合为多个同源图片簇,本实施例中将相似的图片聚合到同一同源图片簇中,对于一个同源图片簇而言,如果其中一张图片为广告图片,则其余图片也必然为广告图片,所以本实施例中以图片簇为单位进行图片内容属性的识别,以判断每个同源图片簇中的图片是否为广告图片,基于目前的图像识别技术可以识别相似图片,本实施例不对相似图片的识别技术进行限定;步骤120,计算多个同源图片簇对于特定资源站点的相对转载数,相对转载数是一种能够反映同源图片簇的图片在特定资源站点站内站外的转载比例的数据,相对转载数的计算方式较多,本实施例中不对相对转载数的计算方式进行限制;步骤130,根据相对转载数识别对应的同源图片簇中的图片内容属性,通过对广告图片的研究发现,广告图片有以下特点:广告图片生产成本高,很多广告图片都是商户花费金钱、花费时间制作的,因为广告图片的生产成本高,所以商户会将一张广告图片传播很多次,但是这些广告图片基本上只有商户会进行传播,而其他的用户则基本不会传播广告图片,广告图片在传播上的这种差别最终会体现在资源站点上的转载数上:在特定的资源站点上转载的次数非常多(商户故意传播),而在互联网其他站点上的转载的次数相对少的多(其他用户并不传播),也即广告图片在特定资源站点站内站外的转载比例会比较高,所以相对转载数可以作为区分广告图片和非广告图片的一种数据,因此本实施例的技术方案能够识别同源图片簇中的图片是否为广告图片,有利于对广告图片进行过滤等处理,避免广告图片对用户的体验造成影响,假设同源图片簇为对应图片搜索请求的一组图片,则根据本实施例的技术方案,可以从其中识别出广告图片并进行过滤,从而将非广告图片作为搜索结果提供给用户,从而保证用户的使用体验。
在实际应用中,在本发明提出的相对转载数之外,还同时考虑到其他的特征,例如图片的长/宽,图片的大小,图片的清晰度,图片链接是否和网页同站,或图片跳转链接是否站外等特征。在同源图片簇识别时,也会考虑上述这些其他特征中的一个或多个来进行筛选并识别是否为广告图片。在实际应用的另一实施例中,也可以先经过SVM模型去学习和训练,将相对转载数以及上述其他特征中的一个或多个的组合作为参数对分类器进行训练,并且在最后识别时也使用训练后的SVM模型及对应特征作为参数去识别。
本发明的另一实施例提出一种图片内容属性识别方法,与上述实施例相比,本实施例的图片内容属性识别方法,步骤120可以包括:对于多个同源图片簇中的一个同源图片簇,将同源图片簇中的图片在特定资源站点上的转载数,例如在图片站A上转载了30次,与在多个资源站点上的转载数相比较,例如在10个图片站(包括图片站A)上共转载了35次,得到同源图片簇对于特定资源站点的相对转载数,多个资源站点包括特定资源站点,本实施例中提供了计算相对转载数的可行方式,且不对具体的比较方式进行限定,例如,取30/35、30/(35-30)作为相对转载数都是可以的。
如图2所示,本发明的另一实施例提出一种图片内容属性识别方法,与上述实施例相比,本实施例的图片内容属性识别方法,步骤120包括:步骤121,计算特定资源站点上的图片的第一平均转载数,例如假设图片站A的第一平均转载数为5;步骤122,计算多个资源站点上的图片的第二平均转载数,例如假设10个图片站(包括图片站A)的第二平均转载数为20;步骤123,取同源图片簇中的图片在特定资源站点上的转载数与第一平均转载数的第一差值,则第一差值实际上可反映同源图片簇的图片与其他图片在特定资源站点上的转载差异,差值越大则表示同源图片簇为广告图片的可能性越大,结合前述的实施例可知第一差值为30-5=25,以及取同源图片簇中的图片在多个资源站点上的转载数与第二平均转载数的第二差值,则第二差值实际上可反映同源图片簇的图片与其他图片在多个资源站点上的转载差异,差值越大表示同源图片簇为广告图片的可能性越小,结合前述的实施例可知第二差值为35-20=15,将第一差值和第二差值对比得到同源图片簇对于特定资源站点的相对转载数,本实施例中提供了另一种计算相对转载数的方式,且考虑到同源图片簇的图片与其他图片的转载差异,使得相对转载数能更好地反映图片是否为广告图片,本实施例中不对第一差值和第二差值对比方式进行限定,例如,取25/15,(25±a)/(15±b)都是可以的,a、b为常数。
本发明的另一实施例提出一种图片内容属性识别方法,与上述实施例相比,本实施例的图片内容属性识别方法,步骤121包括:取多个同源图片簇的图片中位于特定资源站点上的多个图片,将多个图片的数量与多个图片对应的同源图片簇的数量进行对比,得到第一平均转载数,例如图片站A上有100张图片,该100张图片位于20个图片簇中,则第一平均转载数为100/20=5,本实施例的技术方案中提供了一种快速高效得到平均转载数的方式。
本发明的另一实施例提出一种图片内容属性识别方法,与上述实施例相比,本实施例的图片内容属性识别方法,步骤122包括:将多个同源图片簇的图片的数量,与多个同源图片簇的数量进行比较,得到第二平均转载数,例如10个图片站(包括图片站A)上有1000张图片,该1000张图片可聚类为50个图片簇,则第二平均转载数为1000/50=20,本实施例的技术方案中提供了一种快速高效得到平均转载数的方式。
如图3所示,本发明的另一实施例提出一种图片内容属性识别方法,与上述实施例相比,本实施例的图片内容属性识别方法,步骤120之前,还包括:步骤111,抓取多个资源站点上出现的图片链接(URL);步骤112,检测图片链接与同源图片簇的图片对应的链接是否相同,这反映了一张图片是否以不同的URL被转载,和/或检测图片链接对应的图片的校验信息与同源图片簇的图片的校验信息(包括但不限于MD5值)是否相同,这反映了是否存在多张相同的图片,和/或检测图片链接对应的图片与同源图片簇的图片是否存在一个或多个相同的图像特征,这反映了多张图片是否相同,或由同一张图片修改得到,本实施例中的图像特征包括但不限于轮廓特征、颜色特征、直方图特征等;步骤113,根据检测结果,确定图片链接是否为同源图片簇的图片的转载,并统计同源图片簇的图片的转载数,则本实施例中提供了一种可全面统计图片转载数的技术方案,其中步骤111与步骤110的顺序不限。
本发明的另一实施例提出一种图片内容属性识别方法,与上述实施例相比,本实施例的图片内容属性识别方法,特定资源站点为多个同源图片簇中转载每个同源图片簇的图片最多的资源站点,转载图片最多次数的站点很可能为广告图片的商户进行传播的站点,该站点对应的转载数最能够有效地反映出图片是否为广告图片。
本发明的另一实施例提出一种图片内容属性识别方法,与上述实施例相比,本实施例的图片内容属性识别方法,每个同源图片簇的图片对应同一源图片,且每个同源图片簇的图片与其对应的源图片具有一个或多个相同的图像特征,则在本实施例的技术方案中,每个同源图片簇的图片相同,或可以同一图片修改得到,本实施例中的图像特征包括但不限于轮廓特征、颜色特征、直方图特征等。
如图4所示,本发明的一个实施例中提供了一种图片内容属性识别系统,其包括:图片聚合模块210,用于对收集到的图片进行相似图片识别,将图片聚合为多个同源图片簇,本实施例中将相似的图片聚合到同一同源图片簇中,对于一个同源图片簇而言,如果其中一张图片为广告图片,则其余图片也必然为广告图片,所以本实施例中以图片簇为单位进行图片内容属性的识别,以判断每个同源图片簇中的图片是否为广告图片,基于目前的图像识别技术可以识别相似图片,本实施例不对相似图片的识别技术进行限定;相对转载数计算模块220,用于计算多个同源图片簇对于特定资源站点的相对转载数,相对转载数是一种能够反映同源图片簇的图片在特定资源站点站内站外的转载比例的数据,相对转载数的计算方式较多,本实施例中不对相对转载数的计算方式进行限制;图片内容属性识别模块230,用于根据相对转载数识别对应的同源图片簇中的图片内容属性。通过对广告图片的研究发现,广告图片有以下特点:广告图片生产成本高,很多广告图片都是商户花费金钱、花费时间制作的,因为广告图片的生产成本高,所以商户会将一张广告图片传播很多次,但是这些广告图片基本上只有商户会进行传播,而其他的用户则基本不会传播广告图片,广告图片在传播上的这种差别最终会体现在资源站点上的转载数上:在特定的资源站点上转载的次数非常多(商户故意传播),而在互联网其他站点上的转载的次数相对少的多(其他用户并不传播),也即广告图片在特定资源站点站内站外的转载比例会比较高,所以相对转载数可以作为区分广告图片和非广告图片的一种数据,因此本实施例的技术方案能够识别同源图片簇中的图片是否为广告图片,有利于对广告图片进行过滤等处理,避免广告图片对用户的体验造成影响,假设同源图片簇为对应图片搜索请求的一组图片,则根据本实施例的技术方案,可以从其中识别出广告图片并进行过滤,从而将非广告图片作为搜索结果提供给用户,从而保证用户的使用体验。
另外,实际应用中所述系统进一步包括:图片格式特征模块310和/或图片链接特征模块320;所述图片格式特征模块310,适于提取同源图片簇中包含的图片的格式特征;所述图片链接特征模块320,适于提取同源图片簇中包含的图片的链接特征;图片内容属性识别模块230,进一步适于根据同源图片簇对应的相对转载数以及对应的图片格式特征和/或图片链接特征对同源图片簇进行筛选,识别同源图片簇中的图片内容属性。
在实际应用中,在本发明提出的相对转载数之外,还考虑到其他的特征,例如图片的长/宽,图片的大小,图片的清晰度,图片链接是否和网页同站,或图片跳转链接是否站外等特征。在同源图片簇识别时,也会考虑上述这些其他特征中的一个或多个来进行筛选并识别是否为广告图片。在实际应用的另一实施例中,也可以先经过SVM模型去学习和训练,将相对转载数以及上述其他特征中的一个或多个的组合作为参数对分类器进行训练,并且在最后识别时也使用训练后的SVM模型去识别。
本发明的另一实施例提出一种图片内容属性识别系统,与上述实施例相比,本实施例的图片内容属性识别系统,相对转载数计算模块210对于多个同源图片簇中的一个同源图片簇,将同源图片簇中的图片在特定资源站点上的转载数,例如在图片站A上转载了30次,与在多个资源站点上的转载数相比较,例如在10个图片站(包括图片站A)上共转载了35次,得到同源图片簇对于特定资源站点的相对转载数,多个资源站点包括特定资源站点,本实施例中提供了计算相对转载数的可行方式,且不对具体的比较方式进行限定,例如,取30/35、30/(35-30)作为相对转载数都是可以的。
如图5所示,本发明的另一实施例提出一种图片内容属性识别系统,与上述实施例相比,本实施例的图片内容属性识别系统,还包括:第一平均转载数计算模块240,用于计算特定资源站点上的图片的第一平均转载数,例如假设图片站A的第一平均转载数为5;第二平均转载数计算模块250,用于计算多个资源站点上的图片的第二平均转载数,例如假设10个图片站(包括图片站A)的第二平均转载数为20;相对转载数计算模块220取同源图片簇中的图片在特定资源站点上的转载数与第一平均转载数的第一差值,则第一差值实际上可反映同源图片簇的图片与其他图片在特定资源站点上的转载差异,差值越大则表示同源图片簇为广告图片的可能性越大,结合前述的实施例可知第一差值为30-5=25,以及取同源图片簇中的图片在多个资源站点上的转载数与第二平均转载数的第二差值,则第二差值实际上可反映同源图片簇的图片与其他图片在多个资源站点上的转载差异,差值越大表示同源图片簇为广告图片的可能性越小,结合前述的实施例可知第二差值为35-20=15,将第一差值和第二差值对比得到同源图片簇对于特定资源站点的相对转载数,本实施例中提供了另一种计算相对转载数的方式,且考虑到同源图片簇的图片与其他图片的转载差异,使得相对转载数能更好地反映图片是否为广告图片,本实施例中不对第一差值和第二差值对比方式进行限定,例如,取25/15,(25±a)/(15±b)都是可以的,a、b为常数。
本发明的另一实施例提出一种图片内容属性识别系统,与上述实施例相比,本实施例的图片内容属性识别系统,第一平均转载数计算模块240取多个同源图片簇的图片中位于特定资源站点上的多个图片,将多个图片的数量与多个图片对应的同源图片簇的数量进行对比,得到第一平均转载数,例如图片站A上有100张图片,该100张图片位于20个图片簇中,则第一平均转载数为100/20=5,本实施例的技术方案中提供了一种快速高效得到平均转载数的方式。
本发明的另一实施例提出一种图片内容属性识别系统,与上述实施例相比,本实施例的图片内容属性识别系统,第二平均转载数计算模块250将多个同源图片簇的图片的数量,与多个同源图片簇的数量进行比较,得到第二平均转载数,例如10个图片站(包括图片站A)上有1000张图片,该1000张图片可聚类为50个图片簇,则第二平均转载数为1000/50=20,本实施例的技术方案中提供了一种快速高效得到平均转载数的方式。
如图6所示,本发明的另一实施例提出一种图片内容属性识别系统,与上述实施例相比,本实施例的图片内容属性识别系统,还包括:图片链接抓取模块260,用于抓取多个资源站点上出现的图片链接(URL);图片链接检测模块270,用于检测图片链接与同源图片簇的图片对应的链接是否相同,这反映了一张图片是否以不同的URL被转载,和/或检测图片链接对应的图片的校验信息与同源图片簇的图片的校验信息(包括但不限于MD5值)是否相同,这反映了是否存在多张相同的图片,和/或检测图片链接对应的图片与同源图片簇的图片是否存在一个或多个相同的图像特征,这反映了多张图片是否相同,或由同一张图片修改得到,本实施例中的图像特征包括但不限于轮廓特征、颜色特征、直方图特征等;图片转载数统计模块280,用于根据检测结果,确定图片链接是否为同源图片簇的图片的转载,并统计同源图片簇的图片的转载数,则本实施例中提供了一种可全面统计图片转载数的技术方案。
本发明的另一实施例提出一种图片内容属性识别系统,与上述实施例相比,本实施例的图片内容属性识别系统,特定资源站点为多个同源图片簇中转载每个同源图片簇的图片最多的资源站点,转载图片最多次数的站点很可能为广告图片的商户进行传播的站点,该站点对应的转载数最能够有效地反映出图片是否为广告图片。
本发明的另一实施例提出一种图片内容属性识别系统,与上述实施例相比,本实施例的图片内容属性识别系统,每个同源图片簇的图片对应同一源图片,且每个同源图片簇的图片与其对应的源图片具有一个或多个相同的图像特征,则在本实施例的技术方案中,每个同源图片簇的图片相同,或可以同一图片修改得到,本实施例中的图像特征包括但不限于轮廓特征、颜色特征、直方图特征等。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的图片内容属性识别系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种图片内容属性识别方法,其包括:
对收集到的图片进行相似图片识别,将图片聚合为多个同源图片簇;
计算多个同源图片簇对于特定资源站点的相对转载数;
根据所述相对转载数识别对应的同源图片簇中的图片内容属性。
2.根据权利要求1所述的图片内容属性识别方法,其中,所述计算多个同源图片簇对于特定资源站点的相对转载数的步骤包括:
对于所述多个同源图片簇中的一个同源图片簇,将所述同源图片簇中的图片在特定资源站点上的转载数,与在多个资源站点上的转载数相比较,得到所述同源图片簇对于所述特定资源站点的相对转载数,所述多个资源站点包括所述特定资源站点。
3.根据权利要求2所述的图片内容属性识别方法,其中,所述将所述同源图片簇中的图片在所述特定资源站点上的转载数,与在多个资源站点上的转载数相比较的步骤包括:
计算所述特定资源站点上的图片的第一平均转载数;
计算所述多个资源站点上的图片的第二平均转载数;
取所述同源图片簇中的图片在所述特定资源站点上的转载数与所述第一平均转载数的第一差值,以及取所述同源图片簇中的图片在所述多个资源站点上的转载数与所述第二平均转载数的第二差值,将所述第一差值和所述第二差值对比得到所述同源图片簇对于所述特定资源站点的相对转载数。
4.根据权利要求3所述的图片内容属性识别方法,其中,所述计算所述特定资源站点上的图片的第一平均转载数的步骤包括:
取所述多个同源图片簇的图片中位于所述特定资源站点上的多个图片,将所述多个图片的数量与所述多个图片对应的同源图片簇的数量进行对比,得到所述第一平均转载数。
5.根据权利要求3所述的图片内容属性识别方法,其中,所述计算所述多个资源站点上的图片的第二平均转载数的步骤包括:
将所述多个同源图片簇的图片的数量,与所述多个同源图片簇的数量进行比较,得到所述第二平均转载数。
6.根据权利要求2所述的图片内容属性识别方法,其中,在所述将所述同源图片簇中的图片在特定资源站点上的转载数,与在多个资源站点上的转载数相比较的步骤之前,还包括:
抓取所述多个资源站点上出现的图片链接;
检测所述图片链接与所述同源图片簇的图片对应的链接是否相同,和/或检测所述图片链接对应的图片的校验信息与所述同源图片簇的图片的校验信息是否相同,和/或检测所述图片链接对应的图片与所述同源图片簇的图片是否存在一个或多个相同的图像特征;
根据检测结果,确定所述图片链接是否为所述同源图片簇的图片的转载,并统计所述同源图片簇的图片的转载数。
7.根据权利要求2所述的图片内容属性识别方法,其中,
所述特定资源站点为所述多个同源图片簇中转载每个同源图片簇的图片最多的资源站点。
8.根据权利要求1至7中任一项所述的图片内容属性识别方法,其中,
每个同源图片簇的图片对应同一源图片,且每个同源图片簇的图片与其对应的源图片具有一个或多个相同的图像特征。
9.一种图片内容属性识别系统,其包括:
图片聚合模块,用于对收集到的图片进行相似图片识别,将图片聚合为多个同源图片簇;
相对转载数计算模块,用于计算多个同源图片簇对于特定资源站点的相对转载数;
图片内容属性识别模块,用于根据所述相对转载数识别对应的同源图片簇中的图片内容属性。
10.根据权利要求9所述的图片内容属性识别系统,其中,
所述相对转载数计算模块对于所述多个同源图片簇中的一个同源图片簇,将所述同源图片簇中的图片在特定资源站点上的转载数,与在多个资源站点上的转载数相比较,得到所述同源图片簇对于所述特定资源站点的相对转载数,所述多个资源站点包括所述特定资源站点。
CN201310632631.0A 2013-12-02 2013-12-02 图片内容属性识别方法和系统 Active CN103617261B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201310632631.0A CN103617261B (zh) 2013-12-02 2013-12-02 图片内容属性识别方法和系统
PCT/CN2014/087109 WO2015081748A1 (zh) 2013-12-02 2014-09-22 图片内容属性识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310632631.0A CN103617261B (zh) 2013-12-02 2013-12-02 图片内容属性识别方法和系统

Publications (2)

Publication Number Publication Date
CN103617261A true CN103617261A (zh) 2014-03-05
CN103617261B CN103617261B (zh) 2017-03-08

Family

ID=50167964

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310632631.0A Active CN103617261B (zh) 2013-12-02 2013-12-02 图片内容属性识别方法和系统

Country Status (1)

Country Link
CN (1) CN103617261B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015081748A1 (zh) * 2013-12-02 2015-06-11 北京奇虎科技有限公司 图片内容属性识别方法和系统
CN106709063A (zh) * 2017-01-17 2017-05-24 维沃移动通信有限公司 查看图片的方法及移动终端
CN107193904A (zh) * 2017-05-11 2017-09-22 浙江唯见科技有限公司 一种图书vr和ar体验交互系统
CN107451180A (zh) * 2017-06-13 2017-12-08 百度在线网络技术(北京)有限公司 识别站点同源关系的方法、装置、设备和计算机存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7340079B2 (en) * 2002-09-13 2008-03-04 Sony Corporation Image recognition apparatus, image recognition processing method, and image recognition program
CN101071433B (zh) * 2007-05-10 2010-08-18 腾讯科技(深圳)有限公司 一种图片下载系统及方法
CN102419777B (zh) * 2012-01-10 2013-10-02 凤凰在线(北京)信息技术有限公司 一种互联网图片广告过滤系统及其过滤方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015081748A1 (zh) * 2013-12-02 2015-06-11 北京奇虎科技有限公司 图片内容属性识别方法和系统
CN106709063A (zh) * 2017-01-17 2017-05-24 维沃移动通信有限公司 查看图片的方法及移动终端
CN107193904A (zh) * 2017-05-11 2017-09-22 浙江唯见科技有限公司 一种图书vr和ar体验交互系统
CN107451180A (zh) * 2017-06-13 2017-12-08 百度在线网络技术(北京)有限公司 识别站点同源关系的方法、装置、设备和计算机存储介质

Also Published As

Publication number Publication date
CN103617261B (zh) 2017-03-08

Similar Documents

Publication Publication Date Title
CN107168854B (zh) 互联网广告异常点击检测方法、装置、设备及可读存储介质
CN110020122B (zh) 一种视频推荐方法、系统及计算机可读存储介质
CN108124184A (zh) 一种直播互动的方法及装置
CN108694223A (zh) 一种用户画像库的构建方法及装置
CN106164959A (zh) 行为事件测量系统和相关方法
CN108959329B (zh) 一种文本分类方法、装置、介质及设备
CN103617262A (zh) 图片内容属性识别方法和系统
US8850305B1 (en) Automatic detection and manipulation of calls to action in web pages
CN104462553A (zh) 问答页面相关问题推荐方法及装置
CN103514282A (zh) 一种视频搜索结果展示方法及装置
CN104463177A (zh) 相似人脸图片获取方法和装置
CN103617261A (zh) 图片内容属性识别方法和系统
CN113407773A (zh) 一种短视频智能推荐方法、系统、电子设备及存储介质
CN109978580A (zh) 对象推荐方法、装置以及计算机可读存储介质
CN105138907A (zh) 一种主动探测被攻击网站的方法和系统
CN103838880A (zh) 一种网页广告过滤方法及装置
CN112100221A (zh) 一种资讯推荐方法、装置、推荐服务器及存储介质
CN114422211A (zh) 基于图注意力网络的http恶意流量检测方法及装置
CN106777201B (zh) 搜索结果页上的推荐数据的排序方法及装置
CN104408193B (zh) 数据可视化模型的处理方法及装置
CN103473358A (zh) 一种搜索引擎抓取网页开放式摘要信息的方法及装置
CN103929339B (zh) 一种web数据采集方法和系统
CN103412880A (zh) 一种用于确定多媒体资源间隐式关联信息的方法与设备
CN102902792B (zh) 列表页识别系统及方法
CN111160410A (zh) 一种物体检测方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220725

Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.