CN112131448A - 网络信息获取方法、装置和电子设备 - Google Patents

网络信息获取方法、装置和电子设备 Download PDF

Info

Publication number
CN112131448A
CN112131448A CN202010784498.0A CN202010784498A CN112131448A CN 112131448 A CN112131448 A CN 112131448A CN 202010784498 A CN202010784498 A CN 202010784498A CN 112131448 A CN112131448 A CN 112131448A
Authority
CN
China
Prior art keywords
webpage
url
target
picture
storage unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010784498.0A
Other languages
English (en)
Inventor
杨硕
官延斌
王庚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yicun Beijing Information Technology Co ltd
Original Assignee
Yicun Beijing Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yicun Beijing Information Technology Co ltd filed Critical Yicun Beijing Information Technology Co ltd
Priority to CN202010784498.0A priority Critical patent/CN112131448A/zh
Publication of CN112131448A publication Critical patent/CN112131448A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网络信息获取方法、装置和电子设备。该获取方法包括:获取目标网页的统一资源定位器URL,其中,目标网页为当前需要进行网络信息采集的网页;根据所述URL,下载目标网页进行缓存;根据目标网页,生成目标网页对应的网页图片;对网页图片进行图像识别,以获取目标网页携带的页面元素和页面元素对应的内容。本发明实施例的获取方法,能够将目标网页转化成图片,并对图片进行图像识别以获取目标网页携带的页面元素及其对应的内容,以实现网页信息的获取,相较于相关技术中开发人员根据不同的网页编写不同的爬虫代码,该方法适用于万维网中所有网页的信息获取,节省了大量的人力和时间成本,程序开发效率较高。

Description

网络信息获取方法、装置和电子设备
技术领域
本发明涉及计算机应用技术领域,特别涉及一种网络信息获取方法、装置、电子设备和计算机可读存储介质。
背景技术
目前,随着互联网技术的蓬勃发展,网络上存在着大量的信息。相关技术中大多采用爬虫技术来采集网络上的信息,爬虫技术是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,提高了获取网络信息的效率,然而由于网页类型、结构、内容的不同,导致开发人员需要根据不同的网页编写不同的爬虫代码,耗费较大的时间和精力,爬虫程序开发效率较低。
发明内容
本发明旨在至少在一定程度上解决上述技术中的技术问题之一。为此,本发明的一个目的在于提出一种网络信息获取方法,能够将目标网页转化成图片,并对图片进行图像识别以获取目标网页携带的页面元素及其对应的内容,以实现网页信息的获取,相较于相关技术中开发人员根据不同的网页编写不同的爬虫代码,该方法适用于万维网中所有网页的信息获取,节省了大量的人力和时间成本,程序开发效率较高。
本发明的第二个目的在于提出一种网络信息获取装置。
本发明的第三个目的在于提出一种电子设备。
本发明的第四个目的在于提出一种计算机可读存储介质。
为达到上述目的,本发明第一方面实施例提出了一种网络信息获取方法,包括:获取目标网页的统一资源定位器URL,其中,所述目标网页为当前需要进行网络信息采集的网页;根据所述URL,下载所述目标网页进行缓存;根据所述目标网页,生成所述目标网页对应的网页图片;对所述网页图片进行图像识别,以获取所述目标网页携带的页面元素和所述页面元素对应的内容。
根据本发明实施例的网络信息获取方法,能够将目标网页转化成图片,并对图片进行图像识别以获取目标网页携带的页面元素及其对应的内容,以实现网页信息的获取,相较于相关技术中开发人员根据不同的网页编写不同的爬虫代码,该方法适用于万维网中所有网页的信息获取,节省了大量的人力和时间成本,程序开发效率较高。
另外,根据本发明上述实施例提出的网络信息获取方法还可以具有如下附加的技术特征:
在本发明的一个实施例中,所述对所述网页图片进行图像识别,以获取所述目标网页携带的页面元素和所述页面元素对应的内容,包括:将所述网页图片输入训练好的目标机器学习模型中,由所述目标机器学习模型对所述网页图片进行图像特征提取,并根据提取的所述图像特征,获取所述页面元素和所述页面元素对应的内容。
在本发明的一个实施例中,在获取所述页面元素对应的内容后,还包括:由所述目标机器学习模型对所述页面元素的内容进行关键词提取,根据提取的所述关键词进行内容类型识别,获取所述页面元素的内容对应的目标类型。
在本发明的一个实施例中,在获取所述页面元素对应的内容后,还包括:对所述页面元素对应的内容进行敏感信息识别,对所述敏感信息进行过滤。
在本发明的一个实施例中,所述获取目标网页的统一资源定位器URL,包括:从URL存储单元中按序或随机读取所述URL,并将当前读取的所述URL所标识的网页作为所述目标网页。
在本发明的一个实施例中,所述URL存储单元中缓存的所述URL采用如下方式获取:对所述目标网页所在网站的首个网页进行URL抓取,将抓取的所述URL缓存至所述URL存储单元中;每当获取到所述目标网页后,对所述目标网页继续进行URL爬取,以获取所述目标网页所链接的下一个网页的URL,并利用所述下一个网页的URL更新所述URL存储单元。
在本发明的一个实施例中,所述利用所述下一个网页的URL更新所述URL存储单元,包括:识别所述下一个网页的URL与所述URL存储单元已缓存的URL是否重复;若所述下一个网页的URL与所述URL存储单元已缓存的URL未重复,则将所述下一个网页的URL缓存至所述URL存储单元,以更新所述URL存储单元。
在本发明的一个实施例中,所述方法还包括:收集所述目标机器学习模型识别失败的所述目标网页的网页图片,作为训练网页图片;对所述训练网页图片进行标记,利用标记后的所述训练网页图片对所述目标机器学习模型进行优化。
为达到上述目的,本发明第二方面实施例提出了一种网络信息获取装置,包括:第一获取模块,用于获取目标网页的统一资源定位器URL,其中,所述目标网页为当前需要进行网络信息采集的网页;缓存模块,用于根据所述URL,下载所述目标网页进行缓存;图片生成模块,用于根据所述目标网页,生成所述目标网页对应的网页图片;图像识别模块,用于对所述网页图片进行图像识别,以获取所述目标网页携带的页面元素和所述页面元素对应的内容。
本发明实施例的网络信息获取装置,能够将目标网页转化成图片,并对图片进行图像识别以获取目标网页携带的页面元素及其对应的内容,以实现网页信息的获取,相较于相关技术中开发人员根据不同的网页编写不同的爬虫代码,该方法适用于万维网中所有网页的信息获取,节省了大量的人力和时间成本,程序开发效率较高。
另外,根据本发明上述实施例提出的网络信息获取装置还可以具有如下附加的技术特征:
在本发明的一个实施例中,所述图像识别模块,具体用于:将所述网页图片输入训练好的目标机器学习模型中,由所述目标机器学习模型对所述网页图片进行图像特征提取,并根据提取的所述图像特征,获取所述页面元素和所述页面元素对应的内容。
在本发明的一个实施例中,所述装置还包括:第二获取模块,所述第二获取模块,用于:在获取所述页面元素对应的内容后,由所述目标机器学习模型对所述页面元素的内容进行关键词提取,根据提取的所述关键词进行内容类型识别,获取所述页面元素的内容对应的目标类型。
在本发明的一个实施例中,所述装置还包括:过滤模块,所述过滤模块,用于:在获取所述页面元素对应的内容后,对所述页面元素对应的内容进行敏感信息识别,对所述敏感信息进行过滤。
在本发明的一个实施例中,所述第一获取模块,具体用于:从URL存储单元中按序或随机读取所述URL,并将当前读取的所述URL所标识的网页作为所述目标网页。
在本发明的一个实施例中,所述第一获取模块,具体用于:对所述目标网页所在网站的首个网页进行URL抓取,将抓取的所述URL缓存至所述URL存储单元中;每当获取到所述目标网页后,对所述目标网页继续进行URL爬取,以获取所述目标网页所链接的下一个网页的URL,并利用所述下一个网页的URL更新所述URL存储单元。
在本发明的一个实施例中,所述第一获取模块,还用于:识别所述下一个网页的URL与所述URL存储单元已缓存的URL是否重复;若所述下一个网页的URL与所述URL存储单元已缓存的URL未重复,则将所述下一个网页的URL缓存至所述URL存储单元,以更新所述URL存储单元。
在本发明的一个实施例中,所述装置还包括:模型优化模块,所述模型优化模块,具体用于:收集所述目标机器学习模型识别失败的所述目标网页的网页图片,作为训练网页图片;对所述训练网页图片进行标记,利用标记后的所述训练网页图片对所述目标机器学习模型进行优化。
为达到上述目的,本发明第三方面实施例提出了一种电子设备,包括存储器、处理器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现本发明第一方面实施例所述的网络信息获取方法。
本发明实施例的电子设备,通过处理器执行存储在存储器上的计算机程序,能够将目标网页转化成图片,并对图片进行图像识别以获取目标网页携带的页面元素及其对应的内容,以实现网页信息的获取,相较于相关技术中开发人员根据不同的网页编写不同的爬虫代码,该方法适用于万维网中所有网页的信息获取,节省了大量的人力和时间成本,程序开发效率较高。
为达到上述目的,本发明第四方面实施例提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,该程序被处理器执行时实现本发明第一方面实施例所述的网络信息获取方法。
本发明实施例的计算机可读存储介质,通过存储计算机程序并被处理器执行,能够将目标网页转化成图片,并对图片进行图像识别以获取目标网页携带的页面元素及其对应的内容,以实现网页信息的获取,相较于相关技术中开发人员根据不同的网页编写不同的爬虫代码,该方法适用于万维网中所有网页的信息获取,节省了大量的人力和时间成本,程序开发效率较高。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的网络信息获取方法的流程图;
图2为根据本发明一个实施例的网络信息获取方法中获取URL的流程图;
图3为根据本发明一个实施例的网络信息获取方法中利用下一个网页的URL更新URL存储单元的流程图;
图4为根据本发明一个实施例的网络信息获取方法中目标机器学习模型识别失败的流程图;
图5为根据本发明一个具体示例的网络信息获取方法的流程图;
图6为根据本发明一个实施例的网络信息获取装置的方框示意图;
图7为根据本发明另一个实施例的网络信息获取装置的方框示意图;以及
图8为根据本发明一个实施例的电子设备的方框示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面结合附图来描述本发明实施例的网络信息获取方法、装置、电子设备和计算机可读存储介质。
图1为根据本发明一个实施例的网络信息获取方法的流程图。
如图1所示,本发明实施例的网络信息获取方法,包括以下步骤:
S101,获取目标网页的统一资源定位器URL,其中,目标网页为当前需要进行网络信息采集的网页。
需要说明的是,本公开的网络信息获取方法的执行主体为服务器。本公开实施例的网络信息获取方法可以由本公开实施例的网络信息获取装置执行,本公开实施例的网络信息获取装置可以配置在任意服务器中,以执行本公开实施例的网络信息获取方法。
本公开的实施例中,网络信息获取方法可采用Java、Python等编程语言,这里不做过多限定。
本公开的实施例中,目标网页可为万维网(World Wide Web,WWW)中的所有网页。
本公开的实施例中,目标网页的统一资源定位器(Uniform Resource Locator,URL)可依靠人工或者爬虫算法来获取。其中,爬虫算法包括但不限于通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)等。例如,用户可确定当前需要进行网络信息采集的网页,将其作为目标网页,并将目标网页的统一资源定位器输入服务器中。
S102,根据URL下载目标网页进行缓存。
可以理解的是,网页与URL存在一一对应的关系,可根据URL确定唯一的目标网页,并可根据URL下载目标网页进行缓存,且可将目标网页缓存至服务器的存储空间中。
S103,根据目标网页生成目标网页对应的网页图片。
在具体实施中,可采用截图工具对目标网页进行截图,以生成目标网页对应的网页图片。其中,截图工具包括但不限于Chromium(浏览器)中的Surface View组件、基于图像处理工具(Python Image Library,PIL)的Selenium(自动化测试工具)等,截图工具可预先设置在服务器的存储空间中。
S104,对网页图片进行图像识别,以获取目标网页携带的页面元素和页面元素对应的内容。
本公开的实施例中,可采用图像识别算法对网页图片进行图像识别。其中,图像识别算法可根据实际情况进行标定,例如,图像识别算法可为一种深度学习算法Region-CNN(简称“R-CNN”),并预先设置在服务器的存储空间中。
本公开的实施例中,目标网页携带的页面元素的类型包括但不限于文本、图片等,这里不做过多限定。
例如,若目标网页为博客类网页,则目标网页携带的页面元素包括但不限于文章的标题、内容、作者、发表的时间、文章的来源等;若目标网页为购物类网页,则目标网页携带的页面元素包括但不限于商品的名称、图片、价格、优惠信息、卖家的名称、发货地点等。
综上,根据本发明实施例的网络信息获取方法,能够将目标网页转化成图片,并对图片进行图像识别以获取目标网页携带的页面元素及其对应的内容,以实现网页信息的获取,相较于相关技术中开发人员根据不同的网页编写不同的爬虫代码,该方法适用于万维网中所有网页的信息获取,节省了大量的人力和时间成本,程序开发效率较高。
在上述任一实施例的基础上,步骤S101中获取目标网页的统一资源定位器URL,可包括从URL存储单元中按序或随机读取URL,并将当前读取的URL所标识的网页作为目标网页。
本公开的实施例中,可预先在服务器的存储空间中设置URL存储单元,用于存储待信息采集的网页的URL。
可选的,可将URL存储单元中的URL按照一定的排序逻辑进行排序,则此时可从URL存储单元中按序读取URL。例如,可将URL存储单元中的URL按照网页信息采集的时间由早到晚进行排序,则可从URL存储单元中按序读取URL,以实现网页的信息采集按照预先设置的时间依次进行。
可选的,可将URL存储单元中的URL随机进行排序,则此时可从URL存储单元中随机读取URL。
由此,该方法可从URL存储单元中按序或随机读取URL,以实现目标网页的URL的获取。
在上述任一实施例的基础上,如图2所示,URL存储单元中缓存的URL可采用如下方式获取:
S201,对目标网页所在网站的首个网页进行URL抓取,将抓取的URL缓存至URL存储单元中。
可以理解的是,目标网页中可能携带其他网页(目标网页以外)的链接信息。例如,门户类网页中往往携带大量的其他网页的链接信息。
本公开的实施例中,目标网页所在网站的首个网页指的是目标网页的URL唯一对应的网页,可先对目标网页所在网站的首个网页进行URL抓取,将抓取的URL缓存至URL存储单元中。
S202,每当获取到目标网页后,对目标网页继续进行URL爬取,以获取目标网页所链接的下一个网页的URL,并利用下一个网页的URL更新URL存储单元。
本公开的实施例中,可采用爬虫算法对目标网页继续进行URL爬取。
例如,假设对目标网页A继续进行URL爬取,获取的目标网页A所链接的下一个网页B的URL,可将下一个网页B的URL缓存至URL存储单元中,以更新URL存储单元。
由此,该方法可对目标网页进行URL抓取和URL爬取,以获取待信息采集的网页的URL,并可根据待信息采集的网页的URL更新URL存储单元。
可选的,如图3所示,步骤S202中利用下一个网页的URL更新URL存储单元,可包括:
S301,识别下一个网页的URL与URL存储单元已缓存的URL是否重复。
可以理解的是,URL存储单元中可存储多个待信息采集网页的URL,则目标网页所链接的下一个网页的URL可能会与URL存储单元中已缓存的URL重复。
S302,若下一个网页的URL与URL存储单元已缓存的URL未重复,则将下一个网页的URL缓存至URL存储单元,以更新URL存储单元。
本公开的实施例中,若下一个网页的URL与URL存储单元已缓存的URL未重复,表明URL存储单元中不存在下一个网页的URL,为了对下一个网页进行信息采集,此时可将下一个网页的URL缓存至URL存储单元,以更新URL存储单元。
作为另一种可能的实施方式,若下一个网页的URL与URL存储单元已缓存的URL重复,表明URL存储单元中已存在下一个网页的URL,为了避免对下一个网页重复进行信息采集,此时可不将下一个网页的URL缓存至URL存储单元。
由此,该方法可保证URL存储单元中不存在重复的URL,有效避免重复采集网页。
在上述任一实施例的基础上,步骤S104中对网页图片进行图像识别,以获取目标网页携带的页面元素和页面元素对应的内容,可包括将网页图片输入训练好的目标机器学习模型中,由目标机器学习模型对网页图片进行图像特征提取,并根据提取的图像特征,获取页面元素和页面元素对应的内容。
本公开的实施例中,目标机器学习模型可根据实际情况进行标定,并可预先设置在服务器的存储空间中。
在具体实施中,目标机器学习模型可基于tensorflow(一种机器学习系统)进行构建,目标机器学习模型可包括卷积神经网络(Convolutional Neural Networks,CNN),可根据卷积神经网络对网页图片进行图像特征提取。
由此,该方法可通过目标机器学习模型对网页图片进行图像特征提取,并可根据提取的图像特征获取页面元素和页面元素对应的内容。
可选的,目标机器学习模型对网页图片进行图像特征提取之后,可将提取的图像特征与模型中预设的目标特征库进行匹配,可根据匹配成功的图像特征获取页面元素和页面元素对应的内容。其中,目标特征库为需要从网页中提取的目标特征的集合,可根据实际情况进行标定。
例如,假设目标网页为博客类网页,且目标特征库标定为文章的标题、内容、作者,则在目标机器学习模型对网页图片进行图像特征提取之后,可将提取的图像特征与文章的标题、内容、作者分别进行匹配,若提取的图像特征与文章的标题、内容、作者的其中一个匹配成功,则可根据匹配成功的图像特征获取页面元素和页面元素对应的内容,进而可根据匹配成功的图像特征获取文章的标题、内容、作者这些页面元素及其对应的内容。
可以理解的是,若提取的图像特征为广告类的图像特征,则可知广告类的图像特征不能与文章的标题、内容、作者中的任一目标特征匹配成功,则可识别广告类的图像特征匹配失败。
由此,该方法可根据提取的图像特征和预设的目标特征库是否匹配,并利用匹配成功的图像特征获取页面元素和页面元素对应的内容,从而可仅采集特定类型的网络信息,可有效避免广告等垃圾信息的干扰,有助于提高网络信息获取的准确性和灵活性。
在上述任一实施例的基础上,如图4所示,在目标机器学习模型对网页图片进行图像特征提取的过程中,可包括:
S401,收集目标机器学习模型识别失败的目标网页的网页图片,作为训练网页图片。
本公开的实施例中,目标机器学习模型识别失败的判定方法有如下两种可能的实施方式:
方式1、识别目标机器学习模型无法对网页图片进行图像特征提取。
可以理解的是,由于网页类型、结构、内容的复杂性,目标机器学习模型有可能无法对网页图片进行图像特征提取,进而也无法获取页面元素和页面元素对应的内容,此时可判定目标机器学习模型识别失败。
方式2、识别提取的图像特征均与模型中预设的目标特征库匹配失败。
可以理解的是,目标机器学习模型对网页图片进行图像特征提取之后,一方面提取的图像特征有可能存在不准确、不全面等原因,另一方面目标特征库有可能存在目标特征不准确等原因,以上两个方面均会导致提取的图像特征均与模型中预设的目标特征库匹配失败,即此时不存在匹配成功的图像特征,进而也无法获取页面元素和页面元素对应的内容,此时可判定目标机器学习模型识别失败。
S402,对训练网页图片进行标记,利用标记后的训练网页图片对目标机器学习模型进行优化。
可选的,用户可对训练网页图片进行标记,以将训练网页图片与其他网页图片进行区分。
可选的,可采用深度学习算法对目标机器学习模型进行优化。
由此,该方法在判定目标机器学习模型识别失败之后,还可收集识别失败的目标网页的网页图片作为训练网页图片,用于对目标机器学习模型进行优化,进而可提高目标机器学习模型对不同网页的识别成功率。
在上述任一实施例的基础上,步骤S104中在获取页面元素对应的内容后,还可由目标机器学习模型对页面元素的内容进行关键词提取,根据提取的关键词进行内容类型识别,获取页面元素的内容对应的目标类型。
在具体实施中,目标机器学习模型还可包括线性分类器(Linear classifier),可根据线性分类器对页面元素的内容进行关键词提取。其中,线性分类器可为支持向量机(Support Vector Machine,SVM)。
例如,假设目标网页为博客类网页,获取的页面元素为文章的标题、内容、作者,文章的来源,则可由目标机器学习模型对文章的标题、内容、作者,文章的来源中的至少一个页面元素的内容进行关键词提取,若从文章的标题、内容中提取的关键词包括互联网、5G,则可获取文章的标题、内容对应的目标类型为网络,进而可获取文章对应的目标类型为网络;若从文章的来源中提取的关键词包括自动化、杂志,则可获取文章的来源对应的目标类型为自动化,进而可获取文章对应的目标类型为自动化。由此,该方法可对博客类网页中的文章的类型进行识别。
例如,假设目标网页为购物类网页,获取的页面元素为商品的名称、功能、卖家的名称,则可由目标机器学习模型对商品的名称、功能、卖家的名称中的至少一个页面元素的内容进行关键词提取,若从商品的名称、功能中提取的关键词包括红茶、提神,则可获取商品的名称、功能对应的目标类型为茶叶,进而可获取商品对应的目标类型为茶叶;若从卖家的名称中提取的关键词包括空调、旗舰店,则可获取卖家的名称对应的目标类型为空调,进而可获取商品对应的目标类型为空调。由此,该方法可对购物类网页中的商品的类型进行识别。
由此,该方法可通过目标机器学习模型对页面元素的内容进行关键词提取,并可根据提取的关键词获取页面元素的内容对应的目标类型,从而可实现页面元素的内容的分类。
在上述任一实施例的基础上,步骤S104中在获取页面元素对应的内容后,还可对页面元素对应的内容进行敏感信息识别,对敏感信息进行过滤。
本公开的实施例中,敏感信息包括但不限于文本、图片等,可根据实际情况进行标定,并预先设置在服务器的存储空间中。
在具体实施中,敏感信息包括但不限于含有不文明、暴力、血腥、敏感政治倾向等信息。
由此,该方法可将敏感信息从页面元素对应的内容中去除,增强了页面元素的内容的可读性。
在上述任一实施例的基础上,步骤S102中根据URL下载目标网页进行缓存之后,还可将缓存的目标网页备份至原始网页数据库中。
本公开的实施例中,可预先在服务器的存储空间中设置原始网页数据库,用于存储所有需要进行信息采集的网页。
由此,该方法可根据原始网页数据库查询任一目标网页,便于数据的维护和更新,以及后续出现问题时进行排查追溯,还有助于目标机器学习模型的训练。
为使本领域技术人员更清楚地了解本发明,图5为根据本发明一个具体示例的网络信息获取方法的流程图,如图5所示,该获取方法可包括以下步骤:
S501,获取目标网页的URL。
S502,根据URL下载目标网页进行缓存。
S503,将缓存的目标网页备份至原始网页数据库中。
S504,生成目标网页对应的网页图片。
S505,通过目标机器学习模型对网页图片进行图像特征提取。
S506,识别目标机器学习模型是否识别成功。
如果是,则执行步骤S507;如果否,则执行步骤S508。
S507,根据提取的图像特征,获取页面元素和页面元素对应的内容。
S508,将目标机器学习模型识别失败的目标网页的网页图片,作为训练网页图片。
S509,对训练网页图片进行标记,利用标记后的训练网页图片对目标机器学习模型进行优化。
其中,步骤S501可包括步骤S5011~S5015。
S5011,对目标网页所在网站的首个网页进行URL抓取。
S5012,对目标网页继续进行URL爬取。
S5013,更新URL存储单元。
S5014,从URL存储单元中读取URL。
S5015,根据URL确定目标网页。
步骤的具体介绍参见上述实施例中相关内容的记载,此处不再赘述。
图6为根据本发明一个实施例的网络信息获取装置的方框示意图。
如图6所示,本发明实施例的网络信息获取装置100,包括:第一获取模块11、缓存模块12、图片生成模块13、图像识别模块14。
第一获取模块11用于获取目标网页的统一资源定位器URL,其中,所述目标网页为当前需要进行网络信息采集的网页。
缓存模块12用于根据所述URL,下载所述目标网页进行缓存。
图片生成模块13用于根据所述目标网页,生成所述目标网页对应的网页图片。
图像识别模块14用于对所述网页图片进行图像识别,以获取所述目标网页携带的页面元素和所述页面元素对应的内容。
在本发明的一个实施例中,所述图像识别模块14具体用于将所述网页图片输入训练好的目标机器学习模型中,由所述目标机器学习模型对所述网页图片进行图像特征提取,并根据提取的所述图像特征,获取所述页面元素和所述页面元素对应的内容。
在本发明的一个实施例中,如图7所示,所述装置100还包括:第二获取模块15,所述第二获取模块15用于在获取所述页面元素对应的内容后,由所述目标机器学习模型对所述页面元素的内容进行关键词提取,根据提取的所述关键词进行内容类型识别,获取所述页面元素的内容对应的目标类型。
在本发明的一个实施例中,如图7所示,所述装置100还包括:过滤模块16,所述过滤模块16用于在获取所述页面元素对应的内容后,对所述页面元素对应的内容进行敏感信息识别,对所述敏感信息进行过滤。
在本发明的一个实施例中,所述第一获取模块11具体用于从URL存储单元中按序或随机读取所述URL,并将当前读取的所述URL所标识的网页作为所述目标网页。
在本发明的一个实施例中,所述第一获取模块11具体用于对所述目标网页所在网站的首个网页进行URL抓取,将抓取的所述URL缓存至所述URL存储单元中;每当获取到所述目标网页后,对所述目标网页继续进行URL爬取,以获取所述目标网页所链接的下一个网页的URL,并利用所述下一个网页的URL更新所述URL存储单元。
在本发明的一个实施例中,所述第一获取模块11还用于识别所述下一个网页的URL与所述URL存储单元已缓存的URL是否重复;若所述下一个网页的URL与所述URL存储单元已缓存的URL未重复,则将所述下一个网页的URL缓存至所述URL存储单元,以更新所述URL存储单元。
在本发明的一个实施例中,如图7所示,所述装置100还包括:模型优化模块17,所述模型优化模块17具体用于收集所述目标机器学习模型识别失败的所述目标网页的网页图片,作为训练网页图片;对所述训练网页图片进行标记,利用标记后的所述训练网页图片对所述目标机器学习模型进行优化。
需要说明的是,本发明实施例的网络信息获取装置中未披露的细节,请参照本发明上述实施例中的网络信息获取方法所披露的细节,这里不再赘述。
综上,本发明实施例的网络信息获取装置,能够将目标网页转化成图片,并对图片进行图像识别以获取目标网页携带的页面元素及其对应的内容,以实现网页信息的获取,相较于相关技术中开发人员根据不同的网页编写不同的爬虫代码,该方法适用于万维网中所有网页的信息获取,节省了大量的人力和时间成本,程序开发效率较高。
为了实现上述实施例,本发明还提出一种电子设备200,如图8所示,该电子设备200包括存储器21、处理器22。其中,处理器22通过读取存储器21中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于实现上述网络信息获取方法。
本发明实施例的电子设备,通过处理器执行存储在存储器上的计算机程序,能够将目标网页转化成图片,并对图片进行图像识别以获取目标网页携带的页面元素及其对应的内容,以实现网页信息的获取,相较于相关技术中开发人员根据不同的网页编写不同的爬虫代码,该方法适用于万维网中所有网页的信息获取,节省了大量的人力和时间成本,程序开发效率较高。
为了实现上述实施例,本发明还提出一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现上述网络信息获取方法。
本发明实施例的计算机可读存储介质,通过存储计算机程序并被处理器执行,能够将目标网页转化成图片,并对图片进行图像识别以获取目标网页携带的页面元素及其对应的内容,以实现网页信息的获取,相较于相关技术中开发人员根据不同的网页编写不同的爬虫代码,该方法适用于万维网中所有网页的信息获取,节省了大量的人力和时间成本,程序开发效率较高。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (11)

1.一种网络信息获取方法,其特征在于,包括:
获取目标网页的统一资源定位器URL,其中,所述目标网页为当前需要进行网络信息采集的网页;
根据所述URL,下载所述目标网页进行缓存;
根据所述目标网页,生成所述目标网页对应的网页图片;
对所述网页图片进行图像识别,以获取所述目标网页携带的页面元素和所述页面元素对应的内容。
2.根据权利要求1所述的方法,其特征在于,所述对所述网页图片进行图像识别,以获取所述目标网页携带的页面元素和所述页面元素对应的内容,包括:
将所述网页图片输入训练好的目标机器学习模型中,由所述目标机器学习模型对所述网页图片进行图像特征提取,并根据提取的所述图像特征,获取所述页面元素和所述页面元素对应的内容。
3.根据权利要求2所述的方法,其特征在于,在获取所述页面元素对应的内容后,还包括:
由所述目标机器学习模型对所述页面元素的内容进行关键词提取,根据提取的所述关键词进行内容类型识别,获取所述页面元素的内容对应的目标类型。
4.根据权利要求1所述的方法,其特征在于,在获取所述页面元素对应的内容后,还包括:
对所述页面元素对应的内容进行敏感信息识别,对所述敏感信息进行过滤。
5.根据权利要求1-3任一项所述的方法,其特征在于,所述获取目标网页的统一资源定位器URL,包括:
从URL存储单元中按序或随机读取所述URL,并将当前读取的所述URL所标识的网页作为所述目标网页。
6.根据权利要求5所述的方法,其特征在于,所述URL存储单元中缓存的所述URL采用如下方式获取:
对所述目标网页所在网站的首个网页进行URL抓取,将抓取的所述URL缓存至所述URL存储单元中;
每当获取到所述目标网页后,对所述目标网页继续进行URL爬取,以获取所述目标网页所链接的下一个网页的URL,并利用所述下一个网页的URL更新所述URL存储单元。
7.根据权利要求6所述的方法,其特征在于,所述利用所述下一个网页的URL更新所述URL存储单元,包括:
识别所述下一个网页的URL与所述URL存储单元已缓存的URL是否重复;
若所述下一个网页的URL与所述URL存储单元已缓存的URL未重复,则将所述下一个网页的URL缓存至所述URL存储单元,以更新所述URL存储单元。
8.根据权利要求2所述的方法,其特征在于,所述方法还包括:
收集所述目标机器学习模型识别失败的所述目标网页的网页图片,作为训练网页图片;
对所述训练网页图片进行标记,利用标记后的所述训练网页图片对所述目标机器学习模型进行优化。
9.一种网络信息获取装置,其特征在于,包括:
第一获取模块,用于获取目标网页的统一资源定位器URL,其中,所述目标网页为当前需要进行网络信息采集的网页;
缓存模块,用于根据所述URL,下载所述目标网页进行缓存;
图片生成模块,用于根据所述目标网页,生成所述目标网页对应的网页图片;
图像识别模块,用于对所述网页图片进行图像识别,以获取所述目标网页携带的页面元素和所述页面元素对应的内容。
10.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时,实现如权利要求1-8中任一项所述的网络信息获取方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一项所述的网络信息获取方法。
CN202010784498.0A 2020-08-06 2020-08-06 网络信息获取方法、装置和电子设备 Pending CN112131448A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010784498.0A CN112131448A (zh) 2020-08-06 2020-08-06 网络信息获取方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010784498.0A CN112131448A (zh) 2020-08-06 2020-08-06 网络信息获取方法、装置和电子设备

Publications (1)

Publication Number Publication Date
CN112131448A true CN112131448A (zh) 2020-12-25

Family

ID=73850755

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010784498.0A Pending CN112131448A (zh) 2020-08-06 2020-08-06 网络信息获取方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN112131448A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113360737A (zh) * 2021-08-11 2021-09-07 腾讯科技(深圳)有限公司 页面内容采集方法、装置、电子设备和可读介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103986731A (zh) * 2014-05-30 2014-08-13 北京奇虎科技有限公司 通过图片匹配来检测钓鱼网页的方法及装置
CN106599001A (zh) * 2015-10-20 2017-04-26 中国电信股份有限公司 网页内容获取方法和系统
CN109947967A (zh) * 2017-10-10 2019-06-28 腾讯科技(深圳)有限公司 图像识别方法、装置、存储介质和计算机设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103986731A (zh) * 2014-05-30 2014-08-13 北京奇虎科技有限公司 通过图片匹配来检测钓鱼网页的方法及装置
CN106599001A (zh) * 2015-10-20 2017-04-26 中国电信股份有限公司 网页内容获取方法和系统
CN109947967A (zh) * 2017-10-10 2019-06-28 腾讯科技(深圳)有限公司 图像识别方法、装置、存储介质和计算机设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113360737A (zh) * 2021-08-11 2021-09-07 腾讯科技(深圳)有限公司 页面内容采集方法、装置、电子设备和可读介质
CN113360737B (zh) * 2021-08-11 2021-12-14 腾讯科技(深圳)有限公司 页面内容采集方法、装置、电子设备和可读介质

Similar Documents

Publication Publication Date Title
US20210303641A1 (en) Artificial intelligence for product data extraction
JP7387432B2 (ja) ネットワーク化環境における不正コンテンツに関連するデータを収集するためのシステムおよび方法
US20070198727A1 (en) Method, apparatus and system for extracting field-specific structured data from the web using sample
CA2917256C (en) Screenshot-based e-commerce
WO2016201511A1 (en) Methods and systems for object recognition
Gentile et al. Unsupervised wrapper induction using linked data
CN101192231A (zh) 基于上下文的书签
CN106547749B (zh) 网页数据采集的方法和装置
CN107294918B (zh) 一种钓鱼网页检测方法及装置
US20100185684A1 (en) High precision multi entity extraction
CN103678511A (zh) 根据可视化模板进行网页内容抽取的方法及装置
US20220058227A1 (en) Artificial intelligence for product data extraction
US20150058339A1 (en) Method for automating search engine optimization for websites
CN106547803B (zh) 爬取网站增量资源的方法和装置
JP7290391B2 (ja) 情報処理装置及びプログラム
US9001147B2 (en) System and method for using an image to provide search results
CN112131448A (zh) 网络信息获取方法、装置和电子设备
CN106991117B (zh) 快照处理方法、快照显示方法、服务器、浏览器和系统
Wanjari et al. Automatic news extraction system for Indian online news papers
CN109948015B (zh) 一种元搜索列表结果抽取方法及系统
CN115186240A (zh) 基于关联性信息的社交网络用户对齐方法、装置、介质
CN102541913A (zh) 面向Web的VSM分类器训练、OSSP页面识别及OSS资源提取方法
JP6578693B2 (ja) 情報抽出装置、情報抽出方法、及び、表示制御システム
CN113434748A (zh) 基于模板标注的分布式爬虫方法、装置、计算机装置及计算机可读存储介质
CN103744876A (zh) 一种用于提供搜索结果的方法与设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination