CN115269949A - 网页爬取方法、装置、设备及计算机程序 - Google Patents

网页爬取方法、装置、设备及计算机程序 Download PDF

Info

Publication number
CN115269949A
CN115269949A CN202110478522.2A CN202110478522A CN115269949A CN 115269949 A CN115269949 A CN 115269949A CN 202110478522 A CN202110478522 A CN 202110478522A CN 115269949 A CN115269949 A CN 115269949A
Authority
CN
China
Prior art keywords
image
target
determined
target image
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110478522.2A
Other languages
English (en)
Inventor
齐希
王坤
朱骏
袁文军
施文驰
孙宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Zhejiang Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Zhejiang Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Zhejiang Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202110478522.2A priority Critical patent/CN115269949A/zh
Publication of CN115269949A publication Critical patent/CN115269949A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种网页爬取方法、装置、设备及计算机程序,通过获取从目标网址中爬取的图像,调用图像学习模型,以从图像中筛选出满足第一筛选规则的第一目标图像,对第一目标图像进行文字识别,以获得第一目标图像的文字信息;存储第一目标图像的文字信息和目标网址,对获取到的图像进行筛选,从而可以过滤掉广告等与网页内容无关的图像,降低了数据存储量,提升了数据质量;同时,基于图像学习模型对图像进行筛选,提升了筛选精度;并且,存储从第一目标图像中识别出的文字信息和目标网址,使得可以基于文字信息查找到目标网址从而查找到第一目标图像,从而方便用户查找图像,还进一步降低了数据存储量,提升了数据的质量。

Description

网页爬取方法、装置、设备及计算机程序
技术领域
本发明涉及数据处理领域,尤其涉及一种网页爬取方法、装置、设备及计算机程序。
背景技术
随着互联网技术的发展,各种网络信息也越来越庞杂,为便于网页信息的收集、查询和检索,通常采用爬虫对网页进行自动爬取。
但是现有技术中,对网页进行爬取后,获取的数据较多,存储量大,存储成本高。
发明内容
本发明的主要目的在于提供一种网页爬取方法、装置、设备及计算机程序序,旨在解决现有网页爬取后,获取的数据量大,存储量大,存储成本高的问题。
为实现上述目的,本发明提供一种网页爬取方法,包括:
获取从目标网址中爬取的图像;
调用图像学习模型,以从所述图像中筛选出满足第一筛选规则的第一目标图像;
对所述第一目标图像进行文字识别,以获得所述第一目标图像的文字信息;
存储所述第一目标图像的文字信息和所述目标网址。
可选的,所述调用图像学习模型,以从所述图像中筛选出满足第一筛选规则的第一目标图像的步骤,包括:
调用图像学习模型,以从所述图像中筛选出满足第一筛选规则的第一目标图像以及满足第二筛选规则的待确定图像;
所述调用图像学习模型,以从所述图像中筛选出满足第一筛选规则的第一目标图像的步骤之后,还包括:
基于预设图像筛选规则,对所述待确定图像进行筛选,以确定第二目标图像;
所述存储所述第一目标图像的文字信息和所述目标网址的步骤,包括:
存储所述第一目标图像的文字信息、所述目标网址以及从所述第二目标图像中识别出的文字信息。
可选的,所述基于预设图像筛选规则,对所述待确定图像进行筛选,以确定第二目标图像的步骤,包括:
对所述待确定图像进行文字识别,以获得所述待确定图像的文字信息;
判断所述待确定图像的文字信息长度是否大于预设文字长度阈值;
若是,则判定所述待确定图像为第二目标图像。
可选的,所述基于预设图像筛选规则,对所述待确定图像进行筛选,以确定第二目标图像的步骤,包括:
获取所述待确定图像的方向梯度直方图特征和所述第一目标图像的方向梯度直方图特征;
将所述待确定图像的方向梯度直方图特征与所述第一目标图像的方向梯度直方图特征进行对比,以判断所述待确定图像与所述第一目标图像是否匹配。
可选的,所述获取所述待确定图像的方向梯度直方图特征和所述第一目标图像的方向梯度直方图特征的步骤,包括:
将所述第一目标图像划分为至少两个第一图像单元,其中,相邻的N个所述第一图像单元构成一个第一图像块;所述N为大于等于2的整数;
获取各所述第一图像单元的第一方向梯度直方图;
基于各所述第一方向梯度直方图,确定各所述第一图像单元的特征向量;
基于各所述第一图像单元的特征向量,确定各所述第一图像块的特征向量;
基于各所述第一图像块的特征向量,确定所述第一目标图像的特征向量;
将所述待确定图像划分为至少两个第二图像单元,其中,相邻的N个所述第二图像单元构成一个第二图像块;
获取各所述第二图像单元的第二方向梯度直方图;
基于各所述第二方向梯度直方图,确定各所述第二图像单元的特征向量;
基于各所述第二图像单元的特征向量,确定各所述第二图像块的特征向量;
基于各所述第二图像块的特征向量,确定所述待确定图像的特征向量;
所述将所述待确定图像的方向梯度直方图特征与所述第一目标图像的方向梯度直方图特征进行对比,以判断所述待确定图像与所述第一目标图像是否匹配的步骤,包括:
将所述待确定图像的特征向量与所述第一目标图像的特征向量进行对比,以判断所述待确定图像与所述第一目标图像是否匹配。
可选的,所述基于预设图像筛选规则,对所述待确定图像进行筛选,以确定第二目标图像的步骤之后,还包括:
将所述第二目标图像输入所述图像学习模型,以使所述图像学习模型基于所述第二目标图像进行优化。
可选的,所述存储所述第一目标图像的文字信息和所述目标网址的步骤之前,还包括:
获取从所述目标网址中爬取的文字信息,以得到网页文字信息;
所述存储所述第一目标图像的文字信息和所述目标网址的步骤,包括:
存储所述第一目标图像的文字信息、所述目标网址以及所述网页文字信息。
此外,为实现上述目的,本发明还提出一种网页爬取装置,所述网页爬取装置包括:
获取模块,用于获取从目标网址中爬取的图像;
筛选模块,用于调用图像学习模型,以从所述图像中筛选出满足第一筛选规则的第一目标图像;
识别模块,用于对所述第一目标图像进行文字识别,以获得所述第一目标图像的文字信息;
存储模块,用于存储所述第一目标图像的文字信息和所述目标网址。
此外,为实现上述目的,本发明还提出一种网页爬取设备,所述网页爬取设备包括:存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述任一项所述的网页爬取方法的步骤。
此外,为实现上述目的,本发明还提出一种计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的网页爬取方法的步骤。
本发明提供的技术方案,获取从目标网址中爬取的图像,调用图像学习模型,以从图像中筛选出满足第一筛选规则的第一目标图像,对第一目标图像进行文字识别,以获得第一目标图像的文字信息;存储第一目标图像的文字信息和目标网址,也就是说,在获取到从目标网址的网页爬取的图像后,会对获取到的图像进行筛选,从而可以过滤掉广告等与网页内容无关的图像,降低了数据存储量,提升了数据质量;同时,基于图像学习模型对图像进行筛选,提升了筛选精度;并且,存储从第一目标图像中识别出的文字信息和目标网址,使得可以基于文字信息查找到目标网址从而查找到第一目标图像,从而方便用户查找图像,还进一步降低了数据存储量,提升了数据的质量。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的网页爬取设备结构示意图;
图2为本发明网页爬取方法第一实施例的流程示意图;
图3为本发明网页爬取方法第二实施例的流程示意图;
图4为本发明网页爬取方法第六实施例的流程示意图;
图5为本发明网页爬取装置的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的网页爬取设备结构示意图。
网页爬取设备可以是移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA)、平板电脑(PAD)等用户设备(User Equipment,UE)、手持设备、车载设备、可穿戴设备、计算设备、监控设备、服务器或连接到无线调制解调器的其它处理设备、移动台(Mobile station,MS)等。
通常,网页爬取设备包括:至少一个处理器101、存储器102以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序配置为实现如下任一实施例所述的网页爬取方法的步骤。
处理器101可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器101可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器101也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(CentralProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器101可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。处理器101还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关网页爬取方法操作,使得网页爬取方法模型可以自主训练学习,提高效率和准确度。
存储器102可以包括一个或多个存储介质,该存储介质可以是非暂态的。存储器102还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器102中的非暂态的存储介质用于存储至少一个指令,该至少一个指令用于被处理器101所执行以实现本申请中方法实施例提供的网页爬取方法的步骤。
在一些实施例中,网页爬取设备还可选包括有:通信接口103和至少一个外围设备。处理器101、存储器102和通信接口103之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与通信接口103相连。具体地,外围设备包括:射频电路104、显示屏105和电源106中的至少一种。
通信接口103可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器101和存储器102。在一些实施例中,处理器101、存储器102和通信接口103被集成在同一芯片或电路板上;在一些其他实施例中,处理器101、存储器102和通信接口103中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路104用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路104通过电磁信号与通信网络以及其他通信设备进行通信。射频电路104将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路104包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路104可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WIFI(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路104还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏105用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏105是触摸显示屏时,显示屏105还具有采集在显示屏105的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器101进行处理。此时,显示屏105还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏105可以为一个,电子设备的前面板;在另一些实施例中,显示屏105可以为至少两个,分别设置在电子设备的不同表面或呈折叠设计;在再一些实施例中,显示屏105可以是柔性显示屏,设置在电子设备的弯曲表面上或折叠面上。甚至,显示屏105还可以设置成非矩形的不规则图形,也即异形屏。显示屏105可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
电源106用于为电子设备中的各个组件进行供电。电源106可以是交流电、直流电、一次性电池或可充电电池。当电源106包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。本领域技术人员可以理解,图1中示出的结构并不构成对网页爬取设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
现有网页爬取方法中,从网页中爬取数据后,将爬取的所有数据均进行存储,导致存储量大,存储成本高,且存储的数据中存在大量与网页内容无关的数据,导致存储的数据质量低;并且,从网页中爬取图像后,直接存储图像,在图像数量较多时,不方便查找对应的图像。
为了解决上述技术问题,基于上述硬件结构,提出本发明的各实施例。
网页爬取方法实施例:
参照图2,图2为本发明网页爬取方法第一实施例的流程示意图。本发明实施例中,网页爬取方法包括以下步骤:
步骤S21:获取从目标网址中爬取的图像。
需要说明的是,目标网址为需要爬取数据的目标网页的网址。
本发明实施例中,获取从目标网址中爬取的图像。
其中,可以基于目标网址,确定目标网址对应的目标网页,从目标网页中爬取图像,以获取从目标网址中爬取的图像。
在一些实施方式中,可以通过分析目标网页的网页架构,从而从目标网页中爬取图像。
在一些实施方式中,可以通过爬虫装置,基于目标网址,从目标网址对应的目标网页中爬取图像,以获取从目标网址中爬取的图像。
步骤S22:调用图像学习模型,以从图像中筛选出满足第一筛选规则的第一目标图像。
图像学习模型为基于预先获取的训练样本,对深度学习模型进行训练,从而得到的用于对图像进行筛选的图像学习模型。
其中,第一目标图像为需要保留的图像;第一筛选规则为图像学习模型基于训练样本进行训练得出的筛选出第一目标图像的规则。
本发明实施例中,在获取从目标网址中爬取的图像之后,调用图像学习模型,以从图像中筛选出满足第一筛选规则的第一目标图像。
可以理解的是,图像学习模型可以基于图像的尺寸、颜色、亮度、对比度等图像特征中的至少一种对图像进行筛选。例如,在一个示例中,考虑到广告图像、推荐图像等与网页内容无关的图像通常尺寸较小,图像学习模型可以基于图像的尺寸进行对图像进行筛选,当图像的尺寸大于第一阈值时,将其判定为第一目标图像。当然,图像信息模型还可以基于图像的其他特征对图像进行筛选。
考虑到图像的噪声、方向等会影响筛选的准确性,在一些实施方式中,在步骤S22之前,还可以对图像进行预处理。即获取从目标网址中爬取的图像之后,先对图像进行预处理,再调用图像学习模型,以从图像中筛选出满足第一筛选规则的第一目标图像。
其中,对图像进行预处理的方式包括但不限于:对图像进行平行移动、调整图像的角度、对图像进行缩小或放大以使不同图像的尺寸标准化、对图像进行滤波处理以去除图像中的噪声等中的至少一种。
步骤S23:对第一目标图像进行文字识别,以获得第一目标图像的文字信息。
本发明实施例中,在筛选出第一目标图像之后,对第一目标图像进行文字识别,以获取第一目标图像的文字信息。
其中,可以基于OCR(optical character recognition,光学字符识别)技术对第一目标图像进行文字识别,以得到文本内容。
步骤S24:存储第一目标图像的文字信息和目标网址。
在获取第一目标图像的文字信息之后,存储第一目标图像的文字信息和目标网址。
需要说明的是,存储第一目标图像的文字信息和目标网址时,可以关联存储第一目标图像的文字信息和目标网址,以方便用户基于文字信息,查找到第一目标图像,即基于用户输入的文字,查找到与其匹配的第一目标图像的文字信息,从而得到目标网址,访问目标网址即可查看到第一目标图像。
本发明实施例提供的网页爬取方法,通过获取从目标网址中爬取的图像,调用图像学习模型,以从图像中筛选出满足第一筛选规则的第一目标图像,对第一目标图像进行文字识别,以获得第一目标图像的文字信息;存储第一目标图像的文字信息和目标网址,也就是说,在获取到从目标网址的网页爬取的图像后,会对获取到的图像进行筛选,从而可以过滤掉广告等与网页内容无关的图像,降低了数据存储量,提升了数据质量,同时,基于图像学习模型对图像进行筛选,提升了筛选精度;并且,存储从第一目标图像中识别出的文字信息和目标网址,使得可以基于文字信息查找到目标网址从而查找到第一目标图像,从而方便用户查找图像,还进一步降低了数据存储量,提升了数据的质量。
基于第一实施例,提出本发明网页爬取方法第二实施例。本发明实施例中,为了提升筛选的准确率,参见图3所示,步骤S22包括:调用图像学习模型,以从图像中筛选出满足第一筛选规则的第一目标图像以及满足第二筛选规则的待确定图像。
其中,待确定图像为需要进一步确定是否保留的图像;第二筛选规则为图像学习模型基于训练样本进行训练得出的筛选出待确定图像的规则。
本发明实施例中,在获取从目标网址中爬取的图像之后,调用图像学习模型,以从图像中筛选出满足第一筛选规则的第一目标图像和满足第二筛选规则的待确定图像。
可以理解的是,预设图像学习模型可以基于图像的尺寸、颜色、亮度、对比度等图像特征中的至少一种对图像进行筛选。例如,在一个示例中,考虑到广告图像、推荐图像等与网页内容无关的图像通常尺寸较小,预设图像学习模型可以基于图像的尺寸进行对图像进行筛选,当图像的尺寸大于第一阈值时,将其判定为第一目标图像,当图像的尺寸小于第二阈值时,将其判定为待删除图像(即,需要删除的图像),当图像的尺寸处于第一阈值和第二阈值之间时,将其判定为待确定图像,其中,第一阈值大于第二阈值,第一阈值和第二阈值基于训练样本对深度学习模型进行训练得到。当然,预设图像学习模型还可以基于图像的其他特征对图像进行筛选。
在一些实施方式中,调用图像学习模型,以从图像中筛选出满足第一筛选规则的第一目标图像以及满足第二筛选规则的待确定图像之后,可以基于图像的类型,设置该图像的标签,以方便后续根据标签确定该图像的类型,以对该图像进行处理。
为了方便后续过程中,确定该图像所属的网页等,标签中还可以包括目标网址、目标网页的标题等信息。
其中,标签可以是JSON(JavaScript Object Notation,JS对象简谱)串形式,例如,第一目标图像的标签可以是:
JSON-1:
{
"type":"1",
"title":"贵州...",
"url":"https://www.toutiao.com……",
...
}
待确定图像的标签可以是:
JSON-2:
{
"type":"2",
"title":"贵州...",
"url":"https://www.toutiao.com……",
...
}
其中,"type":"1"表示该图像的类型为第一类型,即第一目标图像;"type":"2"表示该图像的类型为第二类型,即待确定图像。"title"为目标网页的标题;"url"为目标网址。
本发明实施例中,步骤S22之后,还可以包括:
步骤S25:基于预设图像筛选规则,对待确定图像进行筛选,以确定第二目标图像。
预设图像筛选规则可以根据实际需要灵活设置。
第二目标图像为需要保留的图像。
本发明实施例中,在确定第一目标图像和待确定图像之后,基于预设图像筛选规则对待确定图像进行筛选,以确定第二目标图像。
需要说明的是,对待确定图像进行筛选的具体方式可以根据实际需要灵活设置。例如,在一个示例中,步骤S25可以包括:对待确图像进行文字识别,以得到文字信息,判断文字信息中是否存在预设关键词,若不存在,则判定待确定图像为第二目标图像;若存在,则判定待确定图像为需要删除的图像。预设关键词可以根据实际需要灵活设置,例如,为了将广告图像、推荐图像筛选出去,预设关键词可以包括“广告”、“推荐”等。应当理解的是,此处的示例仅是对待确定图像进行筛选的一种实施方式,对待确定图像进行筛选的实施方式包括但不限于该示例。
本发明实施例中,在确定第一目标图像和第二目标图像之后,步骤S24包括:存储第一目标图像的文字信息、目标网址以及从第二目标图像中识别出的文字信息。
其中,若步骤S25中,对第二目标图像进行文字识别,已得到第二目标图像的文字信息,则步骤S24中,可以直接获取第二目标图像的文字信息,并存储第一目标图像的文字信息、目标网址以及第二目标图像的文字信息;若步骤S25中,未对第二目标图像进行文字识别,则步骤S24中,先对第二目标图像进行文字识别,以得到第二目标图像的文字信息,然后,存储第一目标图像的文字信息、目标网址以及第二目标图像的文字信息。
其中,可以关联存储第一目标图像的文字信息、目标网址以及第二目标图像的文字信息,以方便基于文字信息快速查找到目标网址。
本发明实施例提供的网页爬取方法,通过获取从目标网址中爬取的图像,调用图像学习模型,以从图像中筛选出满足第一筛选规则的第一目标图像和满足第二筛选规则的待确定图像,对第一目标图像进行文字识别,以获得第一目标图像的文字信息,基于预设图像筛选规则对待确定图像进行筛选,以确定第二目标图像,存储第一目标图像的文字信息、目标网址以及从第二目标图像中识别出的文字信息,通过两次筛选,提升了筛选的准确度,降低了数据存储量,降低了存储成本,提升了数据质量。
基于第二实施例,提出本发明网页爬取方法第三实施例。本发明实施例中,为了提升筛选的准确率,步骤S25包括:
步骤一:对待确定图像进行文字识别,以获得待确定图像的文字信息。
本发明实施例中,确定待确定图像之后,对待确定图像进行文字识别,以得到待确定图像的文字信息。
其中,可以基于OCR(optical character recognition,光学字符识别)技术对待确定图像进行文字识别,以得到待确定图像的文字信息。
步骤二:判断待确定图像的文字信息长度是否大于预设文字长度阈值。
文字信息长度为该文字信息包括的文字的个数。
预设文字长度阈值可以根据实际需要灵活设置,例如,可以设置为10、20、30等。
考虑到广告图像、推荐图像等中,通常不会包括太多的文字,而图像格式的政府公告文件等中,会包括大量的文字。因此,本发明实施例中,在得到待确定图像的文字信息之后,判断待确定图像的文字信息长度是否大于预设文字长度阈值,从而判断待确定图像是否为第二目标图像。
步骤三:若是,则判定待确定图像为第二目标图像。
若待确定图像的文字信息长度大于预设文字长度阈值,则判定待确定图像为第二目标图像;若待确定图像的文字信息长度小于等于预设文字长度阈值,则判定待确定图像为需要删除的图像。
本发明实施例提供的网页爬取方法,对待确定图像进行文字识别,以得到待确定图像的文字信息,判断待确定图像的文字信息长度是否大于预设文字长度阈值,若是,则判定待确定图像为第二目标图像,从而提升了筛选的准确性,保留了图像格式的文本文件,例如图像格式的政府公告文件、文本的扫描件等。
基于第二实施例,提出本发明网页爬取方法第四实施例。本发明实施例中,为了提升筛选的准确率,步骤S25包括:
步骤S31:获取待确定图像的图像特征和第一目标图像的图像特征。
需要说明的是,图像特征包括图像的颜色特征、纹理特征、形状特征、空间关系特征等中的至少一种。
考虑到无关图像(即,与目标网页内容无关的图像,例如广告图像、推荐图像等)与目标网页本身包括的图像关联度较低,目标网页本身包括的图像之间的关联度较大,因此,本发明实施例中,确定待确定图像和第一目标图像之后,可以获取待确定图像的图像特征和第一目标图像的图像特征。
步骤S32:基于待确定图像的图像特征和第一目标图像的图像特征,判断待确定图像与第一目标图像是否匹配。
本发明实施例中,在获取待确定图像的图像特征和第一目标图像的图像特征之后,将待确定图像的图像特征和第一目标图像的图像特征进行比对,从而判断待确定图像与第一目标图像是否匹配。
其中,若第一目标图像的张数大于等于2,则可以从第一目标图像中选择一张图像作为与待确定图像进行比对的图像,基于图像特征判断二者是否匹配,若匹配,则判定待确定图像为第二目标图像;或者,也可以基于图像特征,将待确定图像分别与各第一目标图像进行比对,若存在至少一张第一目标图像与待确定图像匹配,则判定待确定图像为第二目标图像。
例如,假设目标网址为网址A,从网址A对应的网页中,爬取到a1、a2、a3、a4、a5共5张图像,调用图像学习模型,对a1、a2、a3、a4、a5进行筛选后,第一目标图像为a1、a2,待确定图像为a3、a4。其中,可以获取a1、a3、a4的图像特征,将a3的图像特征与a1的图像特征进行比对,以判断a3与a1是否匹配,若a3与a1匹配,则判定a3为第二目标图像;将a4的图像特征与a1的图像特征进行比对,以判断a4与a1是否匹配,若a4与a1匹配,则判定a4为第二目标图像。或者,将a3的图像特征分别与a1的图像特征、a2的图像特征进行比对,以判断a3与a1是否匹配,a3与a2是否匹配,若a3与a1匹配,或,a3与a2匹配,则判定a3为第二目标图像;若a3与a1不匹配,且a3与a2不匹配,则判定a3非第二目标图像,a3为需要删除的图像;将a4的图像特征分别与a1的图像特征、a2的图像特征进行比对,以判断a4与a1是否匹配,a4与a2是否匹配,若a4与a1匹配,或,a4与a2匹配,则判定a4为第二目标图像;若a4与a1不匹配,且a4与a2不匹配,则判定a4非第二目标图像,a4为需要删除的图像。
步骤S33:若是,判定待确定图像为第二目标图像。
若待确定图像与第一目标图像匹配,则判定待确定图像为第二目标图像;若待确定图像与第一目标图像不匹配,则判定待确定图像为需要删除的图像。
本发明实施例提供的网页爬取方法,获取待确定图像的图像特征和第一目标图像的图像特征,基于待确定图像的图像特征和第一目标图像的图像特征,判断待确定图像与第一目标图像是否匹配,若是,判定待确定图像为第二目标图像,即,基于已确定第一目标图像的图像特征,来判断待确定图像是否为需要保存对应信息的图像,避免同一网页的相关图像因为不确定而导致删除的情况,提升了判断的准确度。
基于第四实施例,提出本发明网页爬取方法第五实施例。本发明实施例中,图像特征为方向梯度直方图特征,则步骤S31包括:获取待确定图像的方向梯度直方图特征和第一目标图像的方向梯度直方图特征。步骤S32包括:将待确定图像的方向梯度直方图特征与第一目标图像的方向梯度直方图特征进行对比,以判断待确定图像与第一目标图像是否匹配。
其中,获取待确定图像的方向梯度直方图特征和第一目标图像的方向梯度直方图特征的具体方式可以根据实际需要灵活设置。
例如,在一些实施方式中,步骤S31包括:
步骤S310:将第一目标图像划分为至少两个第一图像单元。
确定第一目标图像之后,将第一目标图像划分为至少两个第一图像单元。其中,第一图像单元的个数、尺寸可以根据实际需要灵活设置,不同第一图像单元的尺寸相同。
步骤S311:获取各第一图像单元的第一方向梯度直方图。
方向梯度直方图(Histogram of oriented gradient,简称HOG)是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。
本发明实施例中,对第一目标图像进行划分得到至少两个第一图像单元之后,针对各第一图像单元,获取其方向梯度直方图,以得到各第一图像单元对应的第一方向梯度直方图。
其中,可以将图像梯度划分为多个图像梯度区间(例如,9个区间),确定各第一图像单元中各像素的图像梯度,基于各像素的图像梯度以及图像梯度区间,确定各第一图像单元的第一方向梯度直方图。
步骤S312:基于各第一方向梯度直方图,确定各第一图像单元的特征向量。
在确定各第一方向梯度直方图之后,基于各第一方向梯度直方图,确定各第一图像单元的特征向量。
需要说明的是,一个图像梯度区间,对应一个特征向量,假设将图像梯度划分为9个图像梯度区间,则一个第一图像单元包括9维特征向量。
步骤S313:基于各第一图像单元的特征向量,确定各第一图像块的特征向量。
需要说明的是,第一图像块由相邻的N个第一图像单元组成,即相邻的N个第一图像单元构成一个第一图像块。不同的第一图像块,对应的形状、大小相同。N为大于等于2的整数,N的具体取值可以根据实际需要灵活设置。例如,N可以为2、4、9等。
为了提高比对的准确度,可以以第一图像块为单位对第一目标图像进行扫描,扫描步长为一个第一图像单元,即可以由任意相邻的N个第一图像单元组成,相邻的两个第一图像块包括的第一图像单元部分相同。例如,假设第一目标图像被划分为9个第一图像单元,这9个第一图像单元为3*3的矩阵排布,记为
Figure BDA0003047609460000161
假设4个呈2*2矩阵排布的第一图像单元构成一个第一图像块,则包括4个第一图像块,分别为:
Figure BDA0003047609460000171
Figure BDA0003047609460000172
本发明实施例中,在确定各第一图像单元的特征向量之后,基于各第一图像单元的特征向量,确定各第一图像块的特征向量。
其中,第一图像块的特征向量的维度=第一图像单元的特征向量的维度*N。例如,假设第一图像单元包括9维特征向量,N为4,则第一图像块包括36维特征向量。
步骤S314:基于各第一图像块的特征向量,确定第一目标图像的特征向量。
本发明实施例中,在确定各第一图像块的特征向量之后,基于各第一图像块的特征向量,确定第一目标图像的特征向量。
其实,第一目标图像的特征向量的维度=第一图像块的特征向量的维度*第一图像块的个数。
步骤S315:将待确定图像划分为至少两个第二图像单元。
确定待确定图像之后,将待确定图像划分为至少两个第二图像单元。其中,第二图像单元的个数、尺寸可以根据实际需要灵活设置,不同第二图像单元的尺寸相同。
第一图像单元和第二图像单元的大小、尺寸可以相同。当然,在一些实施方式中,第一图像单元和第二图像单元的大小、尺寸也可以不同。
本发明实施例中,对步骤S310和步骤S315的先后顺序不做限定,其中,可以先执行步骤S310,再执行步骤S315;或者,可以先执行步骤S315,再执行步骤S310;或者,步骤S310和步骤S315同时执行。
步骤S316:获取各第二图像单元的第二方向梯度直方图。
本发明实施例中,对待确定图像进行划分得到至少两个第二图像单元之后,针对各第二图像单元,获取其方向梯度直方图,以得到各第二图像单元对应的第二方向梯度直方图。
其中,可以将图像梯度划分为多个图像梯度区间(例如,9个区间),确定各第二图像单元中各像素的图像梯度,基于各像素的图像梯度以及图像梯度区间,确定各第二图像单元的第二方向梯度直方图。
需要说明的是,步骤S311和步骤S316中,划分的图像梯度区间相同。
步骤S317:基于各第二方向梯度直方图,确定各第二图像单元的特征向量。
在确定各第二方向梯度直方图之后,基于各第二方向梯度直方图,确定各第二图像单元的特征向量。
需要说明的是,一个图像梯度区间,对应一个特征向量,假设将图像梯度划分为9个图像梯度区间,则一个第二图像单元包括9维特征向量。
步骤S318:基于各第二图像单元的特征向量,确定各第二图像块的特征向量。
需要说明的是,第二图像块由相邻的N个第二图像单元组成,即相邻的N个第二图像单元构成一个第二图像块。不同的第二图像块,对应的形状、大小相同。
为了提高比对的准确度,可以以第二图像块为单位对待确定图像进行扫描,扫描步长为一个第二图像单元,即可以由任意相邻的N个第二图像单元组成,相邻的两个第二图像块包括的第二图像单元部分相同。具体的,可以参见步骤S313,此处不再赘述。
本发明实施例中,在确定各第二图像单元的特征向量之后,基于各第二图像单元的特征向量,确定各第二图像块的特征向量。
其中,第二图像块的特征向量的维度=第二图像单元的特征向量的维度*N。例如,假设第二图像单元包括9维特征向量,N为4,则第二图像块包括36维特征向量。
步骤S319:基于各第二图像块的特征向量,确定待确定图像的特征向量。
本发明实施例中,确定各第二图像块的特征向量之后,基于各第二图像块的特征向量,确定待确定图像的特征向量。
其实,待确定图像的特征向量的维度=第二图像块的特征向量的维度*第二图像块的个数。
确定第一目标图像的特征向量和待确定图像的特征向量之后,步骤S32包括:将待确定图像的特征向量与第一目标图像的特征向量进行对比,以判断待确定图像与第一目标图像是否匹配。
上述步骤S310-步骤S319中,基于“将图像划分为多个图像单元,获取每一图像单元的方向梯度直方图,基于各图像单元的方向梯度直方图,确定各图像单元的特征向量,然后,以N个相邻的图像单元组成一个图像块,以图像块为单位对图像进行扫描,扫描步长为一个图像单元,从而得到各图像块的特征向量,以确定图像的特征向量”这种方式,获取第一目标图像的特征向量和待确定图像的特征向量,从而可以获取到图像的更多特征,将第一目标图像的特征向量和待确定图像的特征向量进行对比,从而判断第一目标图像和待确定图像是否匹配,提升判断的准确性。
需要说明的是,步骤S31的具体实施方式包括但不限于上述示例步骤S310-步骤S319,本发明实施例中,步骤S31还可以通过其他方式实现。
本发明实施例提供的网页爬取方法,获取待确定图像的方向梯度直方图特征和第一目标图像的方向梯度直方图特征,将待确定图像的方向梯度直方图特征与第一目标图像的方向梯度直方图特征进行对比,以判断待确定图像与第一目标图像是否匹配,即通过方向梯度直方图特征,来判断待确定图像与第一目标图像是否匹配,从而提升了判断的准确度。
基于第二实施例,提出本发明网页爬取方法第六实施例。参见图4所示为了不断完善图像学习模型,本发明实施例中,在步骤S25之后,还包括:
步骤S26:将第二目标图像输入图像学习模型,以使图像学习模型基于第二目标图像进行优化。
本发明实施例中,基于预设图像筛选规则对待确定图像进行筛选,以确定第二目标图像之后,将第二目标图像传输至图像学习模型,作为图像学习模型的样本,以使图像学习模型基于第二目标图像进行优化。
在一些实施方式中,待确定图像包括第二目标图像和需要删除的图像,步骤S25中,基于预设图像筛选规则,对待确定图像进行筛选之后,会确定出第二目标图像,则待确定图像中,除第二目标图像外的图像为需要删除的图像,步骤S25之后,还可以将需要删除的图像输入图像学习模型,作为图像学习模型的样本,以使图像学习模型基于需要删除的图像进行优化。
需要说明的是,本发明实施例中,对步骤S24和步骤S26的先后顺序不做限定,其中,可以先执行步骤S24,再执行步骤S246;或者,可以先执行步骤S26,再执行步骤S24;或者,步骤S24和步骤S26同时执行。
本发明实施例提供的网页爬取方法,在获取从目标网址中爬取的图像后,自动调用图像学习模型,以从图像中筛选出满足第一筛选规则的第一目标图像以及满足第二筛选规则的待确定图像,基于预设图像筛选规则,对待确定图像进行筛选,以确定第二目标图像,将第二目标图像输入图像学习模型,以使图像学习模型基于第二目标图像进行优化,使得图像学习模型不断完善,提高筛选精度。
基于前述实施例,提出本发明网页爬取方法第七实施例。本发明实施例中,步骤S24之前,还包括:
步骤S27:获取从目标网址中爬取的文字信息,以得到网页文字信息。
在确定目标网址之后,还可以从目标网址中爬取文字(例如标题、作者、正文等),以得到网页文字信息。
在得到网页文字信息之后,步骤S24包括:存储第一目标图像的文字信息、目标网址以及网页文字信息。
在得到网页文字信息之后,将第一目标图像的文字信息、目标网址以及网页文字信息关联存储,使得可以基于网页文字信息、或第一目标图像的文本内容,查找到目标网址,从而访问目标网页。
其中,存储网页文字信息之前,还可以将网页文字信息进行数据格式标准化处理,从而方便存储。其中,标准化处理的方式包括但不限于:清除网页文字信息的数据格式,将网页文字信息的数据格式设置为标准数据格式。
若步骤S24之前,还确定出第二目标图像,步骤S24包括:存储第一目标图像的文字信息、第二目标图像的文字信息、目标网址以及网页文字信息。其中,具体方式可以根据实际需要灵活设置。例如,在一个示例中,可以将第一目标图像的文字信息、第二目标图像的文字信息、目标网址、网页文字信息以及四者之间的对应关系,存储至对应的数字字典内,以便于后续查询。
本发明实施例提供的网页爬取方法,获取从目标网址中爬取的文字信息,以得到网页文字信息,存储第一目标图像的文字信息、目标网址以及网页文字信息,使得可以基于网页文字信息、或第一目标图像的文本内容,查找到目标网址,从而访问目标网页,方便用户查找。
网页爬取装置实施例:
参照图5,图5为本发明网页爬取装置的结构框图,其中,网页爬取装置包括:
获取模块51,用于获取从目标网址中爬取的图像。
筛选模块52,用于调用图像学习模型,以从图像中筛选出满足第一筛选规则的第一目标图像。
识别模块53,用于对第一目标图像进行文字识别,以获得第一目标图像的文字信息。
存储模块54,用于存储第一目标图像的文字信息和目标网址。
需要说明的是,网页爬取装置还可选的包括有对应的模块,以实施上述网页爬取方法中的其他步骤。
计算机程序实施例
本发明还提供一种计算机程序,所述计算机程序被处理器执行时实现上述网页爬取方法中的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备执行本发明各个实施例所述的方法。
以上所述仅为本发明的可选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims (10)

1.一种网页爬取方法,其特征在于,包括:
获取从目标网址中爬取的图像;
调用图像学习模型,以从所述图像中筛选出满足第一筛选规则的第一目标图像;
对所述第一目标图像进行文字识别,以获得所述第一目标图像的文字信息;
存储所述第一目标图像的文字信息和所述目标网址。
2.如权利要求1所述的网页爬取方法,其特征在于,所述调用图像学习模型,以从所述图像中筛选出满足第一筛选规则的第一目标图像的步骤,包括:
调用图像学习模型,以从所述图像中筛选出满足第一筛选规则的第一目标图像以及满足第二筛选规则的待确定图像;
所述调用图像学习模型,以从所述图像中筛选出满足第一筛选规则的第一目标图像的步骤之后,还包括:
基于预设图像筛选规则,对所述待确定图像进行筛选,以确定第二目标图像;
所述存储所述第一目标图像的文字信息和所述目标网址的步骤,包括:
存储所述第一目标图像的文字信息、所述目标网址以及从所述第二目标图像中识别出的文字信息。
3.如权利要求2所述的网页爬取方法,其特征在于,所述基于预设图像筛选规则,对所述待确定图像进行筛选,以确定第二目标图像的步骤,包括:
对所述待确定图像进行文字识别,以获得所述待确定图像的文字信息;
判断所述待确定图像的文字信息长度是否大于预设文字长度阈值;
若是,则判定所述待确定图像为第二目标图像。
4.如权利要求2所述的网页爬取方法,其特征在于,所述基于预设图像筛选规则,对所述待确定图像进行筛选,以确定第二目标图像的步骤,包括:
获取所述待确定图像的方向梯度直方图特征和所述第一目标图像的方向梯度直方图特征;
将所述待确定图像的方向梯度直方图特征与所述第一目标图像的方向梯度直方图特征进行对比,以判断所述待确定图像与所述第一目标图像是否匹配。
5.如权利要求4所述的网页爬取方法,其特征在于,所述获取所述待确定图像的方向梯度直方图特征和所述第一目标图像的方向梯度直方图特征的步骤,包括:
将所述第一目标图像划分为至少两个第一图像单元,其中,相邻的N个所述第一图像单元构成一个第一图像块;所述N为大于等于2的整数;
获取各所述第一图像单元的第一方向梯度直方图;
基于各所述第一方向梯度直方图,确定各所述第一图像单元的特征向量;
基于各所述第一图像单元的特征向量,确定各所述第一图像块的特征向量;
基于各所述第一图像块的特征向量,确定所述第一目标图像的特征向量;
将所述待确定图像划分为至少两个第二图像单元,其中,相邻的N个所述第二图像单元构成一个第二图像块;
获取各所述第二图像单元的第二方向梯度直方图;
基于各所述第二方向梯度直方图,确定各所述第二图像单元的特征向量;
基于各所述第二图像单元的特征向量,确定各所述第二图像块的特征向量;
基于各所述第二图像块的特征向量,确定所述待确定图像的特征向量;
所述将所述待确定图像的方向梯度直方图特征与所述第一目标图像的方向梯度直方图特征进行对比,以判断所述待确定图像与所述第一目标图像是否匹配的步骤,包括:
将所述待确定图像的特征向量与所述第一目标图像的特征向量进行对比,以判断所述待确定图像与所述第一目标图像是否匹配。
6.如权利要求2所述的网页爬取方法,其特征在于,所述基于预设图像筛选规则,对所述待确定图像进行筛选,以确定第二目标图像的步骤之后,还包括:
将所述第二目标图像输入所述图像学习模型,以使所述图像学习模型基于所述第二目标图像进行优化。
7.如权利要求1-6任一项所述的网页爬取方法,其特征在于,所述存储所述第一目标图像的文字信息和所述目标网址的步骤之前,还包括:
获取从所述目标网址中爬取的文字信息,以得到网页文字信息;
所述存储所述第一目标图像的文字信息和所述目标网址的步骤,包括:
存储所述第一目标图像的文字信息、所述目标网址以及所述网页文字信息。
8.一种网页爬取装置,其特征在于,所述网页爬取装置包括:
获取模块,用于获取从目标网址中爬取的图像;
筛选模块,用于调用图像学习模型,以从所述图像中筛选出满足第一筛选规则的第一目标图像;
识别模块,用于对所述第一目标图像进行文字识别,以获得所述第一目标图像的文字信息;
存储模块,用于存储所述第一目标图像的文字信息和所述目标网址。
9.一种网页爬取设备,其特征在于,所述网页爬取设备包括:存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-7任一项所述的网页爬取方法的步骤。
10.一种计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的网页爬取方法的步骤。
CN202110478522.2A 2021-04-29 2021-04-29 网页爬取方法、装置、设备及计算机程序 Pending CN115269949A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110478522.2A CN115269949A (zh) 2021-04-29 2021-04-29 网页爬取方法、装置、设备及计算机程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110478522.2A CN115269949A (zh) 2021-04-29 2021-04-29 网页爬取方法、装置、设备及计算机程序

Publications (1)

Publication Number Publication Date
CN115269949A true CN115269949A (zh) 2022-11-01

Family

ID=83745222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110478522.2A Pending CN115269949A (zh) 2021-04-29 2021-04-29 网页爬取方法、装置、设备及计算机程序

Country Status (1)

Country Link
CN (1) CN115269949A (zh)

Similar Documents

Publication Publication Date Title
CN111242273B (zh) 一种神经网络模型训练方法及电子设备
CN112685578B (zh) 一种多媒体信息内容提供方法及装置
CN112861717B (zh) 视频相似度检测方法、装置、终端设备以及存储介质
CN109726726B (zh) 视频中的事件检测方法及装置
CN113079123B (zh) 一种恶意网站的检测方法、装置及电子设备
CN104408394A (zh) 一种二维码信息的处理方法及通信终端
CN112883036B (zh) 索引创建方法、装置、存储服务器以及存储介质
CN112215227B (zh) 图像目标检测模型攻击方法、装置、终端设备及存储介质
CN105095253A (zh) 网页显示方法及装置
CN114723987B (zh) 图像标签分类网络的训练方法、图像标签分类方法及设备
CN114782716A (zh) 图像匹配方法及装置
CN112200623A (zh) 产品推荐方法、装置、设备及存储介质
CN112150396B (zh) 高光谱图像降维方法、装置、终端设备及存储介质
CN115269949A (zh) 网页爬取方法、装置、设备及计算机程序
CN111652878A (zh) 图像检测方法、装置、计算机设备及存储介质
CN113282925B (zh) 恶意文件检测方法、装置、终端设备以及存储介质
CN111223166A (zh) 图像显示方法、装置、电子设备及介质
CN113269072B (zh) 图片处理方法、装置、设备及计算机程序
CN112508627B (zh) 广告地址确定方法、装置、设备以及存储介质
CN113032658A (zh) 违规词检测方法、装置、设备及计算机可读存储介质
CN114926807A (zh) 车辆事件识别方法、装置、设备及存储介质
CN111899042B (zh) 恶意曝光广告行为的检测方法、装置、存储介质及终端
CN112765445A (zh) 生僻字识别方法及装置
CN111859240A (zh) 一种图片导出的方法、相关装置及存储介质
CN113806533B (zh) 比喻句式特征词语提取方法、装置、介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination