CN111428179A - 图片监测方法、装置及电子设备 - Google Patents

图片监测方法、装置及电子设备 Download PDF

Info

Publication number
CN111428179A
CN111428179A CN202010195753.8A CN202010195753A CN111428179A CN 111428179 A CN111428179 A CN 111428179A CN 202010195753 A CN202010195753 A CN 202010195753A CN 111428179 A CN111428179 A CN 111428179A
Authority
CN
China
Prior art keywords
picture
monitored
webpage
monitoring
characteristic data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010195753.8A
Other languages
English (en)
Other versions
CN111428179B (zh
Inventor
张丹
张冉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN202010195753.8A priority Critical patent/CN111428179B/zh
Publication of CN111428179A publication Critical patent/CN111428179A/zh
Application granted granted Critical
Publication of CN111428179B publication Critical patent/CN111428179B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请提供一种图片监测方法、装置及电子设备。该方法包括:用户子服务器发送采集目标给中心服务器,中心服务器通过预设网络爬虫技术以及待监测门户网站确定包括待监测图片的网页,然后,再根据待监测图片确定网页元数据以及第一特征数据,并将网页元数据以及对应的第一特征数据发送至用户子服务器,用户子服务器接收并存储网页元数据以及对应的第一特征数据,并根据任务图片以及第一特征数据确定目标监测数据,目标监测数据对应的待监测图片则为目标图片,从而实现了对图片全面又可靠的监测,有效降低了用户端图片监测系统的建设成本,扩大了监测范围,避免了共享监测规则所带来的安全风险。

Description

图片监测方法、装置及电子设备
技术领域
本申请涉及数据处理技术,尤其涉及一种图片监测方法、装置及电子设备。
背景技术
随着互联网的飞速发展,多媒体逐渐成为了互联网信息传播中主流的信息呈现方式,图片信息的发布量逐年上升。以一款社交媒体平台为例,每天网民在其上发布的图片量可能高达千万张。如何对图片进行有效监测和管理,自然成为互联网管理工作的重要内容。
目前,现有的图片监测方法有两种,一种是根据需要搜索的信息输入关键词,利用爬虫技术爬取相关图片作为训练样本,对样本中的图像进行标注后,再进行模式训练,得到具备识别目标图像的识别引擎,再利用全网爬虫技术搜索相关信息并进行识别,基于全网寻找纯图片、图片以及文字、纯文字的舆情信息。另一种是获取信息来源及监控实体,从信息来源获取实时流数据,分别对流数据中的每张图片进行预定内容识别,得到识别结果,根据识别结果确定图片与监控实体是否相匹配,若匹配,则生成图片对应的舆情信息并存储。
基于现有的图片监测方法,能够形成每个用户独立安装部署的图片监测系统或者多用户共享的图片监测云服务平台。然而,两者均存在诸多问题。例如,对于每个用户的独立系统而言,存在系统投入成本过高,每个独立系统之间无法有效共享,导致重复占用带宽资源以及数据监测范围有限的问题。对于多用户共享的监测云服务平台而言,需要共享业务规则,导致监测结果存在一定的安全风险。
发明内容
本申请提供一种图片监测方法、装置及电子设备,用以解决现有图片监测方法中系统投入成本过高、监测范围有限、监测规则存在安全风险等技术问题。
第一方面,本申请提供一种图片监测方法,应用于用户子服务器,所述方法包括:
发送采集目标,所述采集目标包括待监测门户网站;
接收并存储网页元数据以及对应的第一特征数据,所述网页元数据用于表征待监测图片所属网页的属性,所述第一特征数据用于表征所述待监测图片的特征;
根据任务图片以及所述第一特征数据确定目标监测数据,所述目标监测数据对应的所述待监测图片为目标图片。
在一种可能的设计中,在所述接收并存储网页元数据以及第一特征数据之后,还包括:
对所述网页元数据设置第一索引,以根据所述第一索引对所述网页元数据进行检索,所述第一索引包括所述待监测图片所属网页的网页发布时间、网页链接、网页标题、网页作者以及网页所属网站中的至少一项;
对所述第一特征数据设置第二索引,以根据所述第二索引对所述第一特征数据进行检索,所述第二索引包括所述待监测图片对应的发布时间、图片链接、图片内容以及图片关键词中的至少一项。
在一种可能的设计中,所述根据任务图片以及所述第一特征数据确定目标监测数据,包括:
提取所述任务图片的第二特征数据,所述第二特征数据用于表征所述任务图片的特征;
比较所述第一特征数据以及所述第二特征数据的相似度;
若所述相似度大于预设相似度,则确定对应的所述第一特征数据为所述目标监测数据。
在一种可能的设计中,在所述根据所述任务图片以及所述第一特征数据确定所述目标监测数据之后,还包括:
将所述任务图片按照预设分类原则进行归类以获得归类标签;
按照所述归类标签对所述目标监测数据进行存储以得到存储结果;
推送所述存储结果至展示页面,以使用户对所述存储结果进行浏览。
在一种可能的设计中,所述图片监测方法,还包括:
根据所述任务图片确定订阅规则,所述订阅规则包括所述任务图片的关键词;
根据所述订阅规则对所述第一特征数据进行检索以判断是否存在未发送的第一特征数据;
若存在,存储对应的检索结果,并推送所述检索结果至所述展示页面,以使用户对所述检索结果进行浏览。
可选地,所述图片监测方法,还包括:
根据所述图片链接从中心服务器读取图片详情信息。
第二方面,本申请还提供一种图片监测方法,应用于中心服务器,所述方法包括:
接收采集目标,所述采集目标包括待监测门户网站;
通过预设网络爬虫技术以及所述待监测门户网站确定网页,所述网页包括待监测图片;
根据所述待监测图片确定网页元数据以及第一特征数据,所述网页元数据用于表征待监测图片所属网页的属性,所述第一特征数据用于表征所述待监测图片的特征;
发送所述网页元数据以及对应的所述第一特征数据。
在一种可能的设计中,所述图片监测方法,还包括:
当所述采集目标包括重复的待监测门户网站,对所述重复的待监测门户网站进行合并以得到目标监测门户网站;
所述通过预设网络爬虫技术以及所述待监测门户网站确定网页,包括:
通过所述预设网络爬虫技术以及所述目标监测门户网站确定所述网页。
在一种可能的设计中,所述根据所述待监测图片确定网页元数据以及第一特征数据,包括:
根据所述网页提取所述网页元数据,所述网页元数据包括网页标题、网页发布时间、网页作者信息以及网页所属门户网站中的至少一项;
通过预设特征提取算法提取所述待监测图片的特征以获得所述第一特征数据,所述第一特征数据包括图片全局特征数据、图片链接以及图片局部特征数据,所述图片局部特征数据包括图片关键词、人脸特征以及物品特征中的至少一项;
将所述网页元数据与对应的所述第一特征数据进行关联。
在一种可能的设计中,在所述根据所述待监测图片确定网页元数据以及第一特征数据之后,还包括:
存储所述待监测图片以及对应的所述网页元数据获得资源池,以根据所述图片链接获取图片详情信息。
第三方面,本申请还提供一种图片监测装置,应用于用户子服务器,所述装置包括:
第一发送模块,用于发送采集目标,所述采集目标包括待监测门户网站;
第一接收模块,用于接收并存储网页元数据以及对应的第一特征数据,所述网页元数据用于表征待监测图片所属网页的属性信息,所述第一特征数据用于表征所述待监测图片的特征;
第一处理模块,用于根据任务图片以及所述第一特征数据确定目标监测数据,所述目标监测数据对应的所述待监测图片为目标图片。
在一种可能的设计中,所述图片监测装置,还包括:
第二处理模块,所述第二处理模块,用于:
对所述网页元数据设置第一索引,以根据所述第一索引对所述网页元数据进行检索,所述第一索引包括所述待监测图片所属网页的网页发布时间、网页链接、网页标题、网页作者以及网页所属网站中的至少一项;
对所述第一特征数据设置第二索引,以根据所述第二索引对所述第一特征数据进行检索,所述第二索引包括所述待监测图片对应的发布时间、图片链接、图片内容以及图片关键词中的至少一项。
在一种可能的设计中,所述第一处理模块,具体用于:
提取所述任务图片的第二特征数据,所述第二特征数据用于表征所述任务图片的特征;
比较所述第一特征数据以及所述第二特征数据的相似度;
若所述相似度大于预设相似度,则确定对应的所述第一特征数据为所述目标监测数据。
在一种可能的设计中,所述图片监测装置,还包括:
第三处理模块,所述第三处理模块,用于:
将所述任务图片按照预设分类原则进行归类以获得归类标签;
按照所述归类标签对所述目标监测数据进行存储以得到存储结果;
推送所述存储结果至展示页面,以使用户对所述存储结果进行浏览。
在一种可能的设计中,所述图片监测装置,还包括:
第四处理模块,所述第四处理模块,用于:
根据所述任务图片确定订阅规则,所述订阅规则包括所述任务图片的关键词;
根据所述订阅规则对所述第一特征数据进行检索以判断是否存在未发送的第一特征数据;
若存在,则存储对应的检索结果,并推送所述检索结果至所述展示页面,以使用户对所述检索结果进行浏览。
可选地,所述图片监测装置,还包括:
读取模块,用于根据所述图片链接从中心服务器读取图片详情信息。
第四方面,本申请还提供一种图片监测装置,应用于中心服务器,所述装置包括:
第二接收模块,用于接收采集目标,所述采集目标包括待监测门户网站;
网页确定模块,用于通过预设网络爬虫技术以及所述待监测门户网站确定网页,所述网页包括待监测图片;
特征确定模块,用于根据所述待监测图片确定网页元数据以及第一特征数据,所述网页元数据用于表征待监测图片所属网页的属性,所述第一特征数据用于表征所述待监测图片的特征;
第二发送模块,用于发送所述网页元数据以及对应的所述第一特征数据。
在一种可能的设计中,所述图片监测装置,还包括:
合并模块,所述合并模块,用于:
当所述采集目标包括重复的待监测门户网站,对所述重复的待监测门户网站进行合并以得到目标监测门户网站;
所述网页确定模块,用于通过所述预设网络爬虫技术以及所述目标监测门户网站确定所述网页。
在一种可能的设计中,所述特征确定模块,具体用于:
根据所述网页提取所述网页元数据,所述网页元数据包括网页标题、网页发布时间、网页作者信息以及网页所属门户网站中的至少一项;
通过预设特征提取算法提取所述待监测图片的特征以获得所述第一特征数据,所述第一特征数据包括图片全局特征数据、图片链接以及图片局部特征数据,所述图片局部特征数据包括图片关键词、人脸特征以及物品特征中的至少一项;
将所述网页元数据与对应的所述第一特征数据进行关联。
在一种可能的设计中,所述图片监测装置,还包括:
存储模块,用于存储所述待监测图片以及对应的所述网页元数据与所述第一特征数据获得图片资源池,以根据所述图片链接获取图片详情信息。
第五方面,本申请还提供一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面及可选的方案涉及的图片监测方法。
第六方面,本申请还提供一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第二方面及可选的方案涉及的图片监测方法。
第七方面,本申请还提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行第一方面及可选的方案涉及的图片监测方法。
第八方面,本申请还提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行第二方面及可选的方案涉及的图片监测方法。
本申请提供的图片监测方法、装置及电子设备,用户子服务器发送采集目标给中心服务器,中心服务器通过预设网络爬虫技术在采集目标所包括的待监测门户网站中确定网页,其中,网页中包括待监测图片,然后,再根据待监测图片确定网页元数据以及第一特征数据,并发送网页元数据以及对应的第一特征数据至用户子服务器,用户子服务器接收并存储网页元数据以及对应的第一特征数据,再根据任务图片以及第一特征数据确定目标监测数据,目标监测数据对应的待监测图片则为目标图片,从而通过用户子服务器与中心服务器的交互实现对图片全面又可靠的监测,有效降低了用户端图片监测系统的建设成本,扩大了监测范围,避免了共享监测规则所带来的安全风险。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1为本申请实施例提供的一种图片监测方法的应用场景图;
图2为本申请实施例提供的一种图片监测方法的流程示意图;
图3为本申请实施例提供的一种确定网页元数据以及第一特征数据的流程示意图;
图4为本申请实施例提供的另一种图片监测方法的流程示意图;
图5为本申请实施例提供的再一种图片监测方法的流程示意图;
图6为本申请实施例提供的又一种图片监测方法的流程示意图;
图7为本申请实施例提供的一种图片监测装置的结构示意图;
图8为本申请实施例提供的另一种图片监测装置的结构示意图;
图9为本申请实施例提供的再一种图片监测装置的结构示意图;
图10为本申请实施例提供的一种电子设备的结构示意图;
图11为本申请实施例提供的另一种电子设备的结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的方法和装置的例子。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
随着互联网的飞速发展,多媒体成为了互联网信息传播中主流的信息呈现方式,图片信息的发布量逐年上升。如何对图片进行有效监测和管理,自然成为互联网管理工作的重要内容。现有技术中,图片监测方法有两种,一种是根据需要搜索的信息输入关键词,利用爬虫爬取相关图片作为训练样本,对样本中的图像进行标注后,再进行模式训练,得到具备识别目标图像的识别引擎,再利用全网爬虫搜索相关信息并进行识别,基于全网寻找纯图片、图片以及文字、纯文字的舆情信息。另一种是获取信息来源及监控实体,从信息来源获取实时流数据,分别对流数据中的每张图片进行预定内容识别,得到识别结果,根据识别结果确定图片与监控实体是否相匹配,若匹配,则生成图片对应的舆情信息并存储。
而基于现有的任意一种图片监测方法,都能够形成每个用户独立安装部署的图片监测系统或者多用户共享的图片监测云服务平台。然而,两者均存在各种问题。例如,对于用户的独立系统而言,用户根据需求搭建整套图片监测系统需要的建设成本过高,并且,每个独立系统都需要消耗独立的带宽资源对图片进行采集以实现监测,独立系统之间无法有效共享资源,以及所监测的范围有限。而对于多用户共享的监测云服务平台而言,若要进行图片监测,则需要将用户的监测规则上传至云服务平台,则会给用户的监测带来一定安全风险。
针对现有技术中的上述技术问题,对于互联网资源的图片进行有效监测与管理,本申请实施例提供了一种图片监测方法、装置及电子设备。其中,本申请实施例提供的图片监测方法,首先每个用户子服务器发送采集目标至中心服务器,中心服务器通过预设网络爬虫技术在采集目标所包括的待监测门户网站中确定网页,而网页中包括待监测图片,然后,中心服务器根据待监测图片确定网页元数据以及第一特征数据,并发送网页元数据以及对应的第一特征数据至用户子服务器,用户子服务器接收并存储网页元数据以及对应的第一特征数据之后,根据任务图片以及第一特征数据确定目标监测数据,目标监测数据对应的待监测图片则为目标图片,从而通过用户子服务器与中心服务器的交互实现了对互联网资源中的图片全面又可靠的监测,用户子服务器无需根据采集目标进行图片的采集以及存储,有效降低了用户端图片监测系统的建设成本,并扩大了监测范围。而中心服务器根据采集目标对待监测图片进行采集,无需获知用户的监测规则,避免了共享监测规则所带来的安全风险。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1为本申请实施例提供的一种图片监测方法的应用场景图。如图1所示,用户子服务器被布置于需要执行图片监测的用户端,例如用户子服务器100、用户子服务器200,中心服务器300被布置于云端数据中心,每个子服务器与中心服务器300之间通过无线通信连接。每个用户子服务器与中心服务器300之间可以通过身份鉴权进行登录认证。值得说明的是,对于可以通过本申请实施例提供的图片监测方法进行图片监测的用户端的数量本申请实施例不作限定,为了描述方便,图1中以用户子服务器100和200为例示出。可以理解的是,每个用户子服务器之间为独立单元,不涉及任何连接关系。
对于互联网资源中成千上万的图片,每个用户子服务器,例如用户子服务器100与用户子服务器200都需要进行图片监测,但若各自独立根据采集目标于待监测门户进行图片监测,势必需要较大成本的硬件投入才能进行图片的采集、识别以及存储。从而会出现系统投入成本过高、监测范围有限等问题。而若多用户通过共享的监测云服务平台进行图片监测,势必需要将各自的监测规则共享至监测云服务平台,对于每个用户端,则存在一定的安全风险。
为了解决上述问题,参照图1,本申请实施例提供的图片监测方法,通过布置于每个用户端的用户子服务器与云端的中心服务器300之间的交互,对于互联网资源中的图片根据各自的监测规则进行监测,其中,中心服务器300进行图片的采集,并获取图片对应的网页元数据以及表征图片特征的第一特征数据,将网页元数据以及第一特征数据发送给对应的用户子服务器,用户子服务器于本地对网页元数据以及第一特征数据进行识别,确定出与任务图片具有相似度的识别结果,从而实现对目标图片的监测。本申请实施例提供的图片监测方法,通过用户子服务器与中心服务器的交互实现对图片全面又可靠的监测,使得用户子服务器无需进行图片的采集以及存储,有效降低了用户端图片监测系统的建设成本,并扩大了监测范围。而中心服务器对待监测图片进行采集,无需获知用户的监测规则,避免了共享监测规则所带来的安全风险。
图2为本申请实施例提供的一种图片监测方法的流程示意图。如图2所示,本实施例提供的图片监测方法,包括:
S201:发送采集目标。
其中,采集目标包括待监测门户网站。
用户子服务器向中心服务器发送采集目标,采集目标中包括用户需要监测的待监测门户网站,其中,待监测门户网站可以例如论坛、社交媒体平台、资讯平台等其中的任意一款或多款门户网站。相应地,中心服务器接收用户子服务器发送的采集目标。
一种可能的设计中,当采集目标中包括重复的待监测门户网站,对重复的待监测门户网站进行合并得到目标监测门户网站。
每个用户子服务器都可以向中心服务器发送各自的采集目标,当中心服务器接收到的采集目标中包括重复的待监测门户网站,中心服务器对重复的待监测门户网站进行合并得到目标监测门户网站。具体地,将重复的待监测门户网站进行合并,将合并之后的待监测门户网站以及未重复的待监测门户网站确定为目标监测门户网站。
S202:通过预设网络爬虫技术以及待监测门户网站确定网页。
其中,网页包括待监测图片。
中心服务器接收到用户子服务器发送的采集目标后,通过预设网络爬虫技术于采集目标对应的待监测门户网站确定网页,所确定的网页包括待监测图片,上述内容可以理解为,中心服务器通过预设网络爬虫技术于待监测门户网站中获取包含图片的网页。
例如,中心服务器通过预设网络爬虫技术从待监测门户网站中采集所有网页数据,对网页数据进行抽取,以获得包含图片链接的网页数据,从而确定出本申请实施例中包含待监测图片的网页。可见,本申请实施例中的待监测图片为待监测门户网站中的所有图片。值得理解的是,中心服务器的数量可以根据对应的用户的数量以及所涉及的待监测门户网站的门类进行确定,可以为一个也可以为多个,当为多个时,可以将所要执行的采集任务进行分配,以加快确定网页的效率。
一种可能的设计中,当采集目标包括重复的待监测门户网站,通过预设网络爬虫技术以及待监测门户网站确定网页,则为通过预设网络爬虫技术以及目标监测门户网站确定网页,其中,目标监测门户网站包括合并之后的待监测门户网站以及未重复的待监测门户网站。
其中,预设网络爬虫技术可以是通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫中的一种或几种的结合,对此,本申请实施例不作限定。
S203:根据待监测图片确定网页元数据以及第一特征数据。
其中,网页元数据用于表征待监测图片所属网页的属性,第一特征数据用于表征待监测图片的特征。
当中心服务器确定出包含待监测图片的网页之后,根据待监测图片确定网页元数据以及第一特征数据,其中,网页元数据是指能够表征待监测图片所属网页属性的数据,第一特征数据则指能够表征待监测图片特征的数据。
一种可能的设计中,中心服务器根据待监测图片确定网页元数据以及第一特征数据的实现方式如图3所示,图3为本申请实施例提供的一种确定网页元数据以及第一特征数据的流程示意图,该方式包括:
S2031:根据网页提取网页元数据。
其中,网页元数据包括网页标题、网页发布时间、网页作者信息以及网页所属门户网站中的至少一项。
在中心服务器通过预设网络爬虫技术于待监测门户网站中确定了包括待监测图片的网页之后,提取网页对应的网页元数据。其中,网页元数据包括网页标题、网页发布时间、网页作者信息以及网页所属门户网站中的至少一项,值得被理解的是,网页所属门户网站即为待监测门户网站或目标监测门户网站中的一种。而对于提取网页元数据的具体方式,本申请实施例不作限定。
S2032:通过预设特征提取算法提取待监测图片的特征以获得第一特征数据。
其中,第一特征数据包括图片全局特征数据、图片链接以及图片局部特征数据,图片局部特征数据包括图片关键词、人脸特征以及物品特征中的至少一项。
在中心服务器确定了包含待监测图片的网页之后,则可以提取网页所包括的待监测图片,从而获得待监测图片。然后通过预设特征提取算法提取待监测图片的特征,即可获得第一特征数据。其中,第一特征数据包括图片全局特征数据、图片链接以及图片局部特征数据。
图片全局特征数据是指例如10KB等数据表征每张待监测图片的基础特征的数据。图片链接是指待监测图片的统一资源定位符(Uniform Resource Locator,简称URL),即该图片在互联网上唯一的网络地址。图片局部特征数据包括图片关键词、人脸特征以及物品特征中的至少一项。其中,图片关键词是指待监测图片上包含的文字内容,人脸特征是指待监测图片中包含的人脸的特征,例如,待监测图片中包含了人物,则通过相应的预设特征提取算法提取人脸特征。物品特征是指待监测图片中包含的除过人脸之外的其他任意物品的特征,例如,待监测图片中包含车的标识、电视台标识、旗帜等除过人物之外的物品,则通过相应的预设特征提取算法提取物品的特征。可以理解的是图片局部特征数据包括图片关键词、人脸特征以及物品特征中的一种还是多种则由待监测图片本身所呈现的图片内容信息决定。根据待监测图片所包括的图片内容信息决定相应的预设特征提取算法进行特征提取,对此,本申请实施例不作限定。
S2033:将网页元数据与对应的第一特征数据进行关联。
将网页元数据与对应的第一特征数据进行关联,可以理解为,针对每张待监测图片,将该待监测图片所属网页的网页元数据与待监测图片的第一特征数据进行关联。
本实施例提供的中心服务器根据待监测图片确定网页元数据以及第一特征数据,其中,网页元数据指表征待监测图片所属网页的属性的数据,第一特征数据指表征待监测图片自身特征的数据。并且,对于每张待监测图片,中心服务器将网页元数据与对应的第一特征数据进行了关联,以便于后续的存储管理。
进一步地,中心服务器在根据待监测图片确定网页元数据以及第一特征数据之后,还包括:
存储待监测图片以及对应的网页元数据与第一特征数据获得图片资源池,以根据图片链接获取图片详情信息。
中心服务器在确定了网页元数据以及第一特征数据之后,将待监测图片、待监测图片对应的网页元数据以及第一特征数据进行存储,从而可以获得图片资源池,通过网页链接可以实现对图片详情信息的访问。可以理解的是,图片详情信息则指对应的待监测图片本身、待监测图片所属的网页以及网页元数据、待监测图片的第一特征数据等能够表征待监测图片的所有信息,具体地,本领域技术人员可以根据具体的工况进行设置,对此,本申请实施例不作限定。
S204:发送网页元数据以及对应的第一特征数据。
中心服务器在确定了每张待监测图片所属网页的网页元数据以及对应的第一特征数据之后,将网页元数据与对应的第一特征数据发送至用户子服务器。
例如,中心服务器可以将属于同一个待监测门户网站的网页元数据以及对应的第一特征数据归类为一组,以独立的文件形式存储,然后根据每个用户子服务器提交的采集目标发送至对应的用户端。
相应地,用户子服务器接收到网页元数据以及对应的第一特征数据,并在本地以文件的形式对其进行存储。
对于用户子服务器而言,无需对待监测图片进行采集以及存储。对于中心服务器而言,无需发送待监测图片至用户子服务器。可见,与现有技术相比,有效减少了用户子服务器对于数据的处理量,以及中心服务器的数据推送量。
S205:根据任务图片以及第一特征数据确定目标监测数据,目标监测数据对应的待监测图片为目标图片。
用户子服务器接收以及在本地对网页元数据以及对应的第一特征数据进行存储之后,每个用户子服务器可以根据各自的任务图片以及第一特征数据确定目标监测数据,目标监测数据对应的待监测图片即为目标图片。
任务图片为每个用户端于待监测门户网站上需要进行图片监测的样例图片,其中,任务图片可以包括同一个主题内容的多张不同呈现角度的图片,也可以包括多个不同主题内容的一张或多张不同呈现角度的图片,任务图片的主题内容可以理解为用户的一种监测规则。对于任务图片的形式、数量以及主题内容等信息,本申请实施例不作限定。
用户子服务器根据任务图片以及所接收的第一特征数据可以确定出目标监测数据,例如,用户子服务器从第一特征数据中识别出与任务图片具有一定关联性的第一特征数据,将识别出的第一特征数据确定为目标监测数据,故而,目标监测数据对应的待监测图片则为目标图片,其中,关联性可以理解为相同或相似。
进一步地,用户子服务器可以在用户端通过图片链接从中心服务器读取图片详情信息。当确定了目标监测数据之后,则可以通过对应的图片链接读取目标图片的图片详情信息。
可选地,用户子服务器也可以根据实际工况从中心服务器下载所需的图片详情信息,于用户端本地将其进行存储管理。可以理解的是,在读取了目标图片的图片详情信息之后,也可以对目标图片进行下载以及本地存储管理。对此,本申请实施例不作限定。
本申请实施例提供的图片监测方法,首先每个用户子服务器发送采集目标至中心服务器,其中,采集目标包括待监测门户网站,然后中心服务器通过预设网络爬虫技术以及待监测门户网站确定出包括待监测图片网页,再提取待监测图片所属网页的网页元数据以及待监测图片的第一特征数据,并将网页元数据以及对应的第一特征数据按照采集目标发送至对应的用户子服务器,用户子服务器接收并存储网页元数据以及对应的第一特征数据之后,根据本地存储的任务图片以及第一特征数据确定目标监测数据,目标监测数据对应待监测图片则为目标图片。从而通过用户子服务器与中心服务器的交互实现了对互联网资源中的图片全面又可靠的监测,用户子服务器无需根据采集目标进行图片的采集以及存储,而只需接收中心服务器发送的网页元数据以及第一特征数据并从中确定出目标监测数据,有效降低了用户端图片监测系统的建设成本,每个用户端可以根据需求提交多个待监测门户网站,则扩大了监测范围。中心服务器根据采集目标对待监测图片进行采集,无需获知用户的监测规则,避免了共享监测规则所带来的安全风险。
在上述实施例的基础上,可选地,在用户子服务器接收并存储了中心服务器发送的网页元数据以及对应的第一特征数据之后,本申请实施例提供的图片监测方法,还包括:
对网页元数据设置第一索引,以根据第一索引对网页元数据进行检索。
其中,第一索引包括待监测图片所属网页的网页发布时间、网页链接、网页标题、网页作者以及网页所属网站中的至少一项。
对第一特征数据设置第二索引,以根据第二索引对第一特征数据进行检索。
其中,第二索引包括待监测图片对应的发布时间、图片链接、图片内容以及图片关键词中的至少一项。
每个用户子服务器接收网页元数据以及对应的第一特征数据并将其于本地进行存储之后,则分别对网页元数据以及第一特征数据建立索引,以能够通过索引进行检索。
例如,对网页元数据设置第一索引,所设置的第一索引可以包括待监测图片所属网页的网页发布时间、网页链接、网页标题、网页作者以及网页所属网站等中的至少一项,通过第一索引对网页元数据进行检索。若要查询网页元数据所属网页,则可以通过网页链接对所属网页进行查询访问,以获得全网页。
例如,对第一特征数据设置第二索引,所设置的第二索引可以包括待监测图片对应的发布时间、图片链接、图片内容以及图片关键词等查询条件中的一项或多项的组合,在用户端通过第二索引对第一特征数据进行检索。
本实施例提供的图片监测方法,用户子服务器在接收并存储网页元数据以及对应的第一特征数据之后,分别对网页元数据以及第一特征数据设置第一索引以及第二索引,以能够通过第一索引以及第二索引对其进行检索管理。
图4为本申请实施例提供的另一种图片监测方法的流程示意图,如图4所示,本实施例提供的图片监测方法,包括:
S401:发送采集目标。
采集目标包括待监测门户网站。
S402:通过预设网络爬虫技术以及待监测门户网站确定网页。
其中,网页包括待监测图片。
S403:根据待监测图片确定网页元数据以及第一特征数据。
其中,网页元数据用于表征待监测图片所属网页的属性,第一特征数据用于表征待监测图片的特征。
S404:发送网页元数据以及对应的第一特征数据。
相应地,用户子服务器接收并存储网页元数据以及对应的第一特征数据。
步骤S401至S404与图2所示实施例中的步骤S201至S204具有相同的实现方式和原理,具体可参考前述详细描述,在此不再赘述。
S405:提取任务图片的第二特征数据。
其中,第二特征数据用于表征任务图片的特征。
用户子服务器针对各自的任务图片进行特征提取,得到第二特征数据。例如,任务图片包括人物,则进行人脸特征提取。任务图片包括除人物外的其他物品,则对物品的特征进行提取。其中,对于特征的提取方式本申请实施例不作限定。
S406:比较第一特征数据以及第二特征数据的相似度。
将任务图片对应的第二特征数据与所有的第一特征数据进行比较,得到两者的相似度。
S407:若相似度大于预设相似度,则确定对应的第一特征数据为目标监测数据。
将第一特征数据与第二特征数据进行比较得到两者相似度之后,将该相似度与预设相似度进行比较,若前者大于后者,则将相似度对应的第一特征数据确定为目标监测数据。
S408:将目标监测数据对应的待监测图片确定为目标图片。
用户子服务器通过对相似度的比较,确定出目标监测数据,则目标监测数据对应的待监测图片即可确定为目标图片。并可以通过目标图片对应的图片链接从中心服务器处读取图片详情信息,或者进一步下载目标图片、目标图片所属网页等信息,将信息于本地进行存储以备后续管理。
本申请实施例提供的图片监测方法,每个用户子服务器将包括待监测门户网站的采集目标发送至中心服务器,中心服务器通过预设网络爬虫技术以及待监测门户网站确定出包括待监测图片的网页,并提取网页元数据以及第一特征数据之后,将网页元数据以及对应的第一特征数据按照采集目标发送至对应的用户子服务器,用户子服务器接收并存储网页元数据以及对应的第一特征数据,并提取任务图片的第二特征数据,将第一特征数据与第二特征数据进行比较,得到两者的相似度,将相似度大于预设相似度所对应的第一特征数据确定为目标监测数据,目标监测数据对应的待监测图片则被确定为目标图片,从而实现对图片的监测。与现有技术相比,用户子服务器无需进行图片的采集以及存储,而只需接收中心服务器发送的网页元数据以及第一特征数据,在每个用户的本地端,根据各自的任务图片进行目标监测数据的确定,有效降低了用户端图片监测系统的建设成本。同时,中心服务器根据采集目标对待监测图片进行采集,不进行目标监测数据的确定,则无需获知用户的任务图片,即监测规则,避免了共享监测规则所带来的安全风险。
在上述实施例的基础上,用户子服务器在根据任务图片以及第一特征数据确定目标监测数据之后,还可以包括如图5所示的步骤,图5为本申请实施例提供的再一种图片监测方法的流程示意图,包括:
S501:将任务图片按照预设分类原则进行归类以获得归类标签。
S502:按照归类标签对目标监测数据进行存储以得到存储结果。
S503:推送存储结果至展示页面,以使用户对存储结果进行浏览。
用户子服务器确定了目标监测数据之后,将任务图片按照预设分类原则进行归类,例如,任务图片包括不同主题内容,则可以按照不同主题内容将任务图片进行归类,预设分类原则可以理解为不同主题内容,每一类都对应有归类标签,例如某某人物、某某物品等等,对于归类标签的具体内容不作限定。
在获得归类标签之后,将目标监测数据按照归类标签进行分类存储,可以理解为,将与归类标签具有相同和/或相似关键词的目标监测数据按照同类进行存储,以得到存储结果。再将存储结果推送至各自的展示页面,例如用户子服务器对应的浏览器页面,以使用户可以对存储结果进行浏览。其中,对于展示页面所包含的展示模块以及如何展示,本申请实施例不作限定,可根据具体工况进行设置。
可选地,在展示页面进行展示的同时,也可以设置预警提示,例如对某个特定的归类标签设置预警标识,当存储结果被存储到该归类标签时,进行预警提示。
本实施例提供的图片监测方法,每个用户子服务器在确定了目标监测数据之后,对目标监测数据进行归类存储管理,并将存储结果推送至展示页面进行展示,以使用户能够对监测数据进行及时获知及浏览。
在上述实施例的基础上,可选地,图6为本申请实施例提供的又一种图片监测方法的流程示意图,如图6所示,本实施例提供的图片监测方法,还包括:
S601:根据任务图片确定订阅规则,订阅规则包括任务图片的关键词。
S602:根据订阅规则对第一特征数据进行检索以判断是否存在未发布的第一特征数据。
S603:若存在,则存储对应的检索结果,并推送检索结果至展示页面,以使用户对检索结果进行浏览。
互联网资源实时进行更新,在其上可以源源不断地进行图片的发布。因而,用户子服务器可以在本地系统提供订阅功能,以及时获知最新的待监测图片。
例如,用户子服务器首先可以根据各自的任务图片确定订阅规则,其中,订阅规则可以包括任务图片的关键词、任务图片的主题内容等信息,然后再根据订阅规则通过检索引擎对中心服务器中的第一特征数据进行检索,判断是否存在符合订阅规则,且还未发送至用户子服务器的第一特征数据,若存在,则该第一特征数据对应的待监测图片属于互联网资源上最新的发布数据,相应地,将检索结果进行本地存储并推送至展示页面以使用户及时浏览。其中,检索结果可以根据订阅规则进行对应的设置,本申请实施例不作限定。
本实施例提供的图片监测方法,用户子服务器于本地可以设置订阅模块,通过检索引擎对中心服务器中第一特征数据进行检索,以及时获知互联网资源上最新的待监测图片对应的数据。
图7为本申请实施例提供的一种图片监测装置的结构示意图。如图7所示,本实施例提供的图片监测装置700,包括:
第一发送模块701,用于发送采集目标,其中,采集目标包括待监测门户网站。
第一接收模块702,用于接收并存储网页元数据以及对应的第一特征数据,其中,网页元数据用于表征待监测图片所属网页的属性,第一特征数据用于表征待监测图片的特征。
第一处理模块703,用于根据任务图片以及第一特征数据确定目标监测数据,其中,目标监测数据对应的待监测图片为目标图片。
在图7所示实施例的基础上,图8为本申请实施例提供的另一种图片监测装置的结构示意图。如图8所示,本实施例提供的图片监测装置700,还包括:
第二处理模块704,用于:
对网页元数据设置第一索引,以根据第一索引对网页元数据进行检索,第一索引包括待监测图片所属网页的网页发布时间、网页链接、网页标题、网页作者以及网页所属网站中的至少一项;
对第一特征数据设置第二索引,以根据第二索引对第一特征数据进行检索,第二索引包括待监测图片对应的发布时间、图片链接、图片内容以及图片关键词中的至少一项。
一种可能的设计中,第一处理模块703,具体用于:
提取任务图片的第二特征数据,第二特征数据用于表征任务图片的特征;
比较第一特征数据以及第二特征数据的相似度;
若相似度大于预设相似度,则确定对应的第一特征数据为目标监测数据。
一种可能的设计中,本申请实施例提供的图片监测装置700,还包括:
第三处理模块,用于:
将任务图片按照预设分类原则进行归类以获得归类标签;
按照归类标签对目标监测数据进行存储以得到存储结果;
推送存储结果至展示页面,以使用户对存储结果进行浏览。
一种可能的设计中,本申请实施例提供的图片监测装置700,还包括:
第四处理模块,用于:
根据任务图片确定订阅规则,订阅规则包括任务图片的关键词;
根据订阅规则对第一特征数据进行检索以判断是否存在未发送的第一特征数据;
若存在,则存储对应的检索结果,并推送检索结果至展示页面,以使用户对检索结果进行浏览。
可选地,本申请实施例提供的图片监测装置700,还包括:
读取模块,用于根据图片链接从中心服务器读取图片详情信息。
在本申请上述图片监测装置700实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,又或是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
值得说明的是,上述各实施例所示的图片监测装置700,可用于执行上述任一实施例提供的图片监测方法中用户子服务器侧的步骤,具体实现方式和技术效果类似,这里不再赘述。
图9为本申请实施例提供的再一种图片监测装置的结构示意图。如图9所示,本实施例提供的图片监测装置800,包括:
第二接收模块801,用于接收采集目标,其中,采集目标包括待监测门户网站;
网页确定模块802,用于通过预设网络爬虫技术以及待监测门户网站确定网页,其中,网页包括待监测图片;
特征确定模块803,用于根据待监测图片确定网页元数据以及第一特征数据,其中,网页元数据用于表征待监测图片所属网页的属性,第一特征数据用于表征待监测图片的特征;
第二发送模块804,用于发送网页元数据以及对应的第一特征数据。
一种可能的设计中,本申请实施例提供的图片监测装置800,还包括:
合并模块,用于:
当采集目标包括重复的待监测门户网站,对重复的待监测门户网站进行合并以得到目标监测门户网站。
相应地,网页确定模块802,用于通过预设网络爬虫技术以及目标监测门户网站确定所属网页。
一种可能的设计中,特征确定模块803,具体用于:
根据网页提取网页元数据,网页元数据包括网页标题、网页发布时间、网页作者信息以及网页所属门户网站中的至少一项;
通过预设特征提取算法提取待监测图片的特征以获得第一特征数据,第一特征数据包括图片全局特征数据、图片链接以及图片局部特征数据,图片局部特征数据包括图片关键词、人脸特征以及物品特征中的至少一项;
将网页元数据与对应的第一特征数据进行关联。
可选地,本申请实施例提供的图片监测装置800,还包括:
存储模块,用于存储待监测图片以及对应的网页元数据与第一特征数据获得图片资源池,以根据图片链接获取图片详情信息。
在本申请上述图片监测装置800实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,又或是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
值得说明的是,上述各实施例所示的图片监测装置800,可用于执行上述任一实施例提供的图片监测方法中的中心服务器侧的步骤,具体实现方式和技术效果类似,这里不再赘述。
图10为本申请实施例提供的一种电子设备的结构示意图。如图10所示,本实施例提供的电子设备900,包括:
至少一个处理器901;以及
与至少一个处理器901通信连接的存储器902;其中,
存储器902存储有可被至少一个处理器901执行的指令,指令被至少一个处理器901执行,以使至少一个处理器901能够执行上述方法实施例中用户子服务器侧的图片监测方法的各个步骤,具体可以参考前述方法实施例中的相关描述。
可选地,存储器902既可以是独立的,也可以跟处理器901集成在一起。
当存储器902是独立于处理器901之外的器件时,电子设备900,还可以包括:
总线903,用于连接处理器901以及存储器902。
本申请实施例提供一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行上述各实施例用户子服务器侧的图片监测方法的各个步骤。例如,可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图11为本申请实施例提供的另一种电子设备的结构示意图。如图11所示,本实施例提供的电子设备1000,包括:
至少一个处理器1001;以及
与至少一个处理器1001通信连接的存储器1002;其中,
存储器1002存储有可被至少一个处理器1001执行的指令,指令被至少一个处理器1001执行,以使至少一个处理器1001能够执行上述方法实施例中的中心服务器侧的图片监测方法的各个步骤,具体可以参考前述方法实施例中的相关描述。
可选地,存储器1002既可以是独立的,也可以跟处理器1001集成在一起。
当存储器1002是独立于处理器1001之外的器件时,电子设备1000,还可以包括:
总线1003,用于连接处理器1001以及存储器1002。
本申请实施例提供一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行上述各实施例中的中心服务器侧的图片监测方法的各个步骤。例如,可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求书指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims (14)

1.一种图片监测方法,其特征在于,应用于用户子服务器,所述方法包括:
发送采集目标,所述采集目标包括待监测门户网站;
接收并存储网页元数据以及对应的第一特征数据,所述网页元数据用于表征待监测图片所属网页的属性,所述第一特征数据用于表征所述待监测图片的特征;
根据任务图片以及所述第一特征数据确定目标监测数据,所述目标监测数据对应的所述待监测图片为目标图片。
2.根据权利要求1所述的图片监测方法,其特征在于,在所述接收并存储网页元数据以及第一特征数据之后,还包括:
对所述网页元数据设置第一索引,以根据所述第一索引对所述网页元数据进行检索,所述第一索引包括所述待监测图片所属网页的网页发布时间、网页链接、网页标题、网页作者以及网页所属网站中的至少一项;
对所述第一特征数据设置第二索引,以根据所述第二索引对所述第一特征数据进行检索,所述第二索引包括所述待监测图片对应的发布时间、图片链接、图片内容以及图片关键词中的至少一项。
3.根据权利要求2所述的图片监测方法,其特征在于,所述根据任务图片以及所述第一特征数据确定目标监测数据,包括:
提取所述任务图片的第二特征数据,所述第二特征数据用于表征所述任务图片的特征;
比较所述第一特征数据以及所述第二特征数据的相似度;
若所述相似度大于预设相似度,则确定对应的所述第一特征数据为所述目标监测数据。
4.根据权利要求1-3中任一项所述的图片监测方法,其特征在于,在所述根据所述任务图片以及所述第一特征数据确定所述目标监测数据之后,还包括:
将所述任务图片按照预设分类原则进行归类以获得归类标签;
按照所述归类标签对所述目标监测数据进行存储以得到存储结果;
推送所述存储结果至展示页面,以使用户对所述存储结果进行浏览。
5.根据权利要求4所述的图片监测方法,其特征在于,还包括:
根据所述任务图片确定订阅规则,所述订阅规则包括所述任务图片的关键词;
根据所述订阅规则对所述第一特征数据进行检索以判断是否存在未发送的第一特征数据;
若存在,则存储对应的检索结果,并推送所述检索结果至所述展示页面,以使用户对所述检索结果进行浏览。
6.根据权利要求5所述的图片监测方法,其特征在于,还包括:
根据所述图片链接从中心服务器读取图片详情信息。
7.一种图片监测方法,其特征在于,应用于中心服务器,所述方法包括:
接收采集目标,所述采集目标包括待监测门户网站;
通过预设网络爬虫技术以及所述待监测门户网站确定网页,所述网页包括待监测图片;
根据所述待监测图片确定网页元数据以及第一特征数据,所述网页元数据用于表征待监测图片所属网页的属性,所述第一特征数据用于表征所述待监测图片的特征;
发送所述网页元数据以及对应的所述第一特征数据。
8.根据权利要求7所述的图片监测方法,其特征在于,还包括:
当所述采集目标包括重复的待监测门户网站,对所述重复的待监测门户网站进行合并以得到目标监测门户网站;
所述通过预设网络爬虫技术以及所述待监测门户网站确定网页,包括:
通过所述预设网络爬虫技术以及所述目标监测门户网站确定所述网页。
9.根据权利要求7或8所述的图片监测方法,其特征在于,所述根据所述待监测图片确定网页元数据以及第一特征数据,包括:
根据所述网页提取所述网页元数据,所述网页元数据包括网页标题、网页发布时间、网页作者信息以及网页所属门户网站中的至少一项;
通过预设特征提取算法提取所述待监测图片的特征以获得所述第一特征数据,所述第一特征数据包括图片全局特征数据、图片链接以及图片局部特征数据,所述图片局部特征数据包括图片关键词、人脸特征以及物品特征中的至少一项;
将所述网页元数据与对应的所述第一特征数据进行关联。
10.根据权利要求9所述的图片监测方法,其特征在于,在所述根据所述待监测图片确定网页元数据以及第一特征数据之后,还包括:
存储所述待监测图片以及对应的所述网页元数据与所述第一特征数据获得图片资源池,以根据所述图片链接获取图片详情信息。
11.一种图片监测装置,其特征在于,应用于用户子服务器,所述装置包括:
第一发送模块,用于发送采集目标,所述采集目标包括待监测门户网站;
第一接收模块,用于接收并存储网页元数据以及对应的第一特征数据,所述网页元数据用于表征待监测图片所属网页的属性,所述第一特征数据用于表征所述待监测图片的特征;
第一处理模块,用于根据任务图片以及所述第一特征数据确定目标监测数据,所述目标监测数据对应的所述待监测图片为目标图片。
12.一种图片监测装置,其特征在于,应用于中心服务器,所述装置包括:
第二接收模块,用于接收采集目标,所述采集目标包括待监测门户网站;
网页确定模块,用于通过预设网络爬虫技术以及所述待监测门户网站确定网页,所述网页包括待监测图片;
特征确定模块,用于根据所述待监测图片确定网页元数据以及第一特征数据,所述网页元数据用于表征待监测图片所属网页的属性,所述第一特征数据用于表征所述待监测图片的特征;
第二发送模块,用于发送所述网页元数据以及对应的所述第一特征数据。
13.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至6中任一项所述的图片监测方法。
14.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求7至10中任一项所述的图片监测方法。
CN202010195753.8A 2020-03-19 2020-03-19 图片监测方法、装置及电子设备 Active CN111428179B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010195753.8A CN111428179B (zh) 2020-03-19 2020-03-19 图片监测方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010195753.8A CN111428179B (zh) 2020-03-19 2020-03-19 图片监测方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN111428179A true CN111428179A (zh) 2020-07-17
CN111428179B CN111428179B (zh) 2023-09-19

Family

ID=71548161

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010195753.8A Active CN111428179B (zh) 2020-03-19 2020-03-19 图片监测方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN111428179B (zh)

Citations (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050144158A1 (en) * 2003-11-18 2005-06-30 Capper Liesl J. Computer network search engine
WO2007011672A2 (en) * 2005-07-15 2007-01-25 Saudi Arabian Oil Company System, program product, and methods for managing contract procurement
US20070128899A1 (en) * 2003-01-12 2007-06-07 Yaron Mayer System and method for improving the efficiency, comfort, and/or reliability in Operating Systems, such as for example Windows
CN102110122A (zh) * 2009-12-24 2011-06-29 阿里巴巴集团控股有限公司 一种建立样本图片索引表和图片过滤、搜索方法及装置
CN102663049A (zh) * 2012-03-29 2012-09-12 奇智软件(北京)有限公司 一种更新搜索引擎网址库方法及装置
CN103064845A (zh) * 2011-10-20 2013-04-24 北京中搜网络技术股份有限公司 网页信息处理装置和网页信息处理方法
CN103139256A (zh) * 2011-11-30 2013-06-05 北大方正集团有限公司 一种多租户网络舆情监控方法及系统
CN103500172A (zh) * 2013-09-04 2014-01-08 苏州荣越网络技术有限公司 一种图片搜索系统
CN103516794A (zh) * 2013-09-24 2014-01-15 武汉誉德合同能源管理有限公司 一种分布式服务器的网络架构及其实现方法
CN103995848A (zh) * 2014-05-06 2014-08-20 百度在线网络技术(北京)有限公司 图片搜索方法及装置
CN104980309A (zh) * 2014-04-11 2015-10-14 北京奇虎科技有限公司 网站安全检测方法及装置
CN105335511A (zh) * 2015-10-30 2016-02-17 百度在线网络技术(北京)有限公司 网页的访问方法及装置
CN105589943A (zh) * 2015-12-15 2016-05-18 广州神马移动信息科技有限公司 搜索结果页面的图片适应性处理的方法、装置和服务器
CN105912547A (zh) * 2015-12-15 2016-08-31 乐视网信息技术(北京)股份有限公司 一种基于网络爬虫实现数据快速处理的方法和装置
CN106294368A (zh) * 2015-05-15 2017-01-04 阿里巴巴集团控股有限公司 网络爬虫识别方法和装置
CN106411578A (zh) * 2016-09-12 2017-02-15 国网山东省电力公司电力科学研究院 一种适应于电力行业的网站监控系统及方法
CN107122450A (zh) * 2017-04-26 2017-09-01 广州图匠数据科技有限公司 一种网络图片舆情监测方法
CN107403005A (zh) * 2017-07-24 2017-11-28 浙江极赢信息技术有限公司 一种网站监控方法及装置
CN108028909A (zh) * 2016-08-08 2018-05-11 深圳秦云网科技有限公司 智慧监控云转码平台
CN109861951A (zh) * 2017-11-30 2019-06-07 北京安云世纪科技有限公司 一种网站访问方法、装置、系统
CN109918554A (zh) * 2019-02-13 2019-06-21 平安科技(深圳)有限公司 网页数据爬取方法、装置、系统及计算机可读存储介质
CN110020046A (zh) * 2017-10-20 2019-07-16 中移(苏州)软件技术有限公司 一种数据抓取方法及装置
CN110516139A (zh) * 2019-09-05 2019-11-29 上海携程商务有限公司 爬虫系统及方法
CN110827524A (zh) * 2018-08-09 2020-02-21 航天信息股份有限公司 一种无线监控系统及监控方法

Patent Citations (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070128899A1 (en) * 2003-01-12 2007-06-07 Yaron Mayer System and method for improving the efficiency, comfort, and/or reliability in Operating Systems, such as for example Windows
US20050144158A1 (en) * 2003-11-18 2005-06-30 Capper Liesl J. Computer network search engine
WO2007011672A2 (en) * 2005-07-15 2007-01-25 Saudi Arabian Oil Company System, program product, and methods for managing contract procurement
CN102110122A (zh) * 2009-12-24 2011-06-29 阿里巴巴集团控股有限公司 一种建立样本图片索引表和图片过滤、搜索方法及装置
CN103064845A (zh) * 2011-10-20 2013-04-24 北京中搜网络技术股份有限公司 网页信息处理装置和网页信息处理方法
CN103139256A (zh) * 2011-11-30 2013-06-05 北大方正集团有限公司 一种多租户网络舆情监控方法及系统
CN102663049A (zh) * 2012-03-29 2012-09-12 奇智软件(北京)有限公司 一种更新搜索引擎网址库方法及装置
CN103500172A (zh) * 2013-09-04 2014-01-08 苏州荣越网络技术有限公司 一种图片搜索系统
CN103516794A (zh) * 2013-09-24 2014-01-15 武汉誉德合同能源管理有限公司 一种分布式服务器的网络架构及其实现方法
CN104980309A (zh) * 2014-04-11 2015-10-14 北京奇虎科技有限公司 网站安全检测方法及装置
CN103995848A (zh) * 2014-05-06 2014-08-20 百度在线网络技术(北京)有限公司 图片搜索方法及装置
CN106294368A (zh) * 2015-05-15 2017-01-04 阿里巴巴集团控股有限公司 网络爬虫识别方法和装置
CN105335511A (zh) * 2015-10-30 2016-02-17 百度在线网络技术(北京)有限公司 网页的访问方法及装置
CN105589943A (zh) * 2015-12-15 2016-05-18 广州神马移动信息科技有限公司 搜索结果页面的图片适应性处理的方法、装置和服务器
CN105912547A (zh) * 2015-12-15 2016-08-31 乐视网信息技术(北京)股份有限公司 一种基于网络爬虫实现数据快速处理的方法和装置
CN108028909A (zh) * 2016-08-08 2018-05-11 深圳秦云网科技有限公司 智慧监控云转码平台
CN106411578A (zh) * 2016-09-12 2017-02-15 国网山东省电力公司电力科学研究院 一种适应于电力行业的网站监控系统及方法
CN107122450A (zh) * 2017-04-26 2017-09-01 广州图匠数据科技有限公司 一种网络图片舆情监测方法
CN107403005A (zh) * 2017-07-24 2017-11-28 浙江极赢信息技术有限公司 一种网站监控方法及装置
CN110020046A (zh) * 2017-10-20 2019-07-16 中移(苏州)软件技术有限公司 一种数据抓取方法及装置
CN109861951A (zh) * 2017-11-30 2019-06-07 北京安云世纪科技有限公司 一种网站访问方法、装置、系统
CN110827524A (zh) * 2018-08-09 2020-02-21 航天信息股份有限公司 一种无线监控系统及监控方法
CN109918554A (zh) * 2019-02-13 2019-06-21 平安科技(深圳)有限公司 网页数据爬取方法、装置、系统及计算机可读存储介质
CN110516139A (zh) * 2019-09-05 2019-11-29 上海携程商务有限公司 爬虫系统及方法

Also Published As

Publication number Publication date
CN111428179B (zh) 2023-09-19

Similar Documents

Publication Publication Date Title
Alam et al. Processing social media images by combining human and machine computing during crises
CN109033387B (zh) 一种融合多源数据的物联网搜索系统、方法及存储介质
US9672283B2 (en) Structured and social data aggregator
KR102102013B1 (ko) 사용자 제출물들에 기초한 컨텐트 배달의 조절
CN106383887B (zh) 一种环保新闻数据采集和推荐展示的方法及系统
US8630972B2 (en) Providing context for web articles
US8682879B2 (en) Marker search system for augmented reality service
CN107862553A (zh) 广告实时推荐方法、装置、终端设备及存储介质
CN102200980B (zh) 一种提供网络资源的方法及系统
US8682882B2 (en) System and method for automatically identifying classified websites
CN102119383A (zh) 便利内容检索服务系统内本体和语言模型生成的信息获取和汇聚方法及子系统
US20180144059A1 (en) Animated snippets for search results
CN101930444A (zh) 影像搜寻系统及方法
US7962523B2 (en) System and method for detecting templates of a website using hyperlink analysis
US20100011025A1 (en) Transfer learning methods and apparatuses for establishing additive models for related-task ranking
US8572073B1 (en) Spam detection for user-generated multimedia items based on appearance in popular queries
CN111723256A (zh) 一种基于信息资源库的政务用户画像构建方法及其系统
CN113297457A (zh) 一种高精准性的信息资源智能推送系统及推送方法
CN116362684A (zh) 一种基于图书馆集群的图书管理方法、装置、设备及存储介质
CN114385821A (zh) 资源检索方法和装置、存储介质及电子设备
CN101542467A (zh) 聚合联合平台
CN111428179B (zh) 图片监测方法、装置及电子设备
CN114706948A (zh) 新闻处理方法、装置、存储介质以及电子设备
CN112632352A (zh) 一种基于大数据的定向搜索系统
KR20220022065A (ko) 사용자가 검색한 이미지의 군집화 및 공유 방법과 구현 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230625

Address after: 3007, Hengqin International Financial Center Building, No. 58 Huajin Street, Hengqin New District, Zhuhai City, Guangdong Province, 519030

Applicant after: New founder holdings development Co.,Ltd.

Applicant after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871, Beijing, Haidian District, Cheng Fu Road, No. 298, Zhongguancun Fangzheng building, 9 floor

Applicant before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Applicant before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant