CN111475699A - 网站数据爬取方法和装置、电子设备、及可读存储介质 - Google Patents

网站数据爬取方法和装置、电子设备、及可读存储介质 Download PDF

Info

Publication number
CN111475699A
CN111475699A CN202010154421.5A CN202010154421A CN111475699A CN 111475699 A CN111475699 A CN 111475699A CN 202010154421 A CN202010154421 A CN 202010154421A CN 111475699 A CN111475699 A CN 111475699A
Authority
CN
China
Prior art keywords
picture
website
long screenshot
sub
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010154421.5A
Other languages
English (en)
Other versions
CN111475699B (zh
Inventor
吴飞鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
MIGU Culture Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
MIGU Culture Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, MIGU Culture Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202010154421.5A priority Critical patent/CN111475699B/zh
Publication of CN111475699A publication Critical patent/CN111475699A/zh
Application granted granted Critical
Publication of CN111475699B publication Critical patent/CN111475699B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例涉及网络数据领域,公开了一种网站数据爬取方法和装置、电子设备、及计算机可读存储介质。所述网站数据爬取方法,包括:通过训练,生成图片识别模型,所述图片识别模型用于识别输入模型中的图片的网站模板类型;所述网站模板类型携带有网站的长截图中包含的元素类型以及各个元素类型在长截图中的位置;根据选择的话题,获取至少一个网站中与所述话题相关的文章链接的长截图;利用所述图片识别模型,从所述至少一个网站的所述长截图中提取出与所述话题相关的各个元素类型的内容数据。本发明无需针对网站改版修改爬取规则,提高了爬取效率,降低了维护成本。

Description

网站数据爬取方法和装置、电子设备、及可读存储介质
技术领域
本发明实施例涉及网络数据领域,特别涉及网站数据爬取方法和装置、电子设备、及计算机可读存储介质。
背景技术
现有技术中,为了将相同话题在不同网站如微博、微信上的热度统一起来进行分析,我们需要将各个网站对同一个热度话题的数据获取到并分析。现有基于网络爬虫爬取不同网站渠道信息的方式,是分别单独对每个网站热度进行内容爬取。由于每个网站的网页格式不一致,相同含义的数据表述方式也不一样,需要使用不同的爬取脚本规则对不同网站进行数据爬取。
其中,网络爬虫(又被称为网页蜘蛛,网络机器人,网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
发明人发现,相关技术具有以下问题:如果网站进行改版,爬取规则也需要同步进行修改,否则无法爬取到需要的数据,因此维护的人工成本比较高。
发明内容
本发明实施方式的目的在于提供一种网站数据爬取方法和装置、电子设备、及计算机可读存储介质,降低了网站数据爬取人工维护成本。
为解决上述技术问题,本发明的实施方式提供了一种网站数据爬取方法,包括:
通过训练,生成图片识别模型,所述图片识别模型用于识别输入模型中的图片的网站模板类型;所述网站模板类型携带有网站的长截图中包含的元素类型以及各个元素类型在长截图中的位置;
根据选择的话题,获取至少一个网站中与所述话题相关的文章链接的长截图;
利用所述图片识别模型,从所述至少一个网站的所述长截图中提取出与所述话题相关的各个元素类型的内容数据。
本发明的实施方式还提供了一种网站数据爬取装置,包括:
训练单元,用于通过训练,生成图片识别模型,所述图片识别模型用于识别输入模型中的图片的网站模板类型;所述网站模板类型携带有网站的长截图中包含的元素类型以及各个元素类型在长截图中的位置;
获取单元,用于根据选择的话题,获取至少一个网站中与所述话题相关的文章链接的长截图;
提取单元,用于利用所述图片识别模型,从所述至少一个网站的所述长截图中提取出与所述话题相关的各个元素类型的内容数据。
本发明的实施方式还提供了一种电子设备,包括:
至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述的网站数据爬取方法。
本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现所述的网站数据爬取方法。
本发明实施例相对于现有技术而言,通过训练,生成图片识别模型,所述图片识别模型用于识别输入模型中的图片的网站模板类型;所述网站模板类型携带有网站的长截图中包含的元素类型以及各个元素类型在长截图中的位置;根据选择的话题,获取至少一个网站中与所述话题相关的文章链接的长截图;利用所述图片识别模型,从所述至少一个网站的所述长截图中提取出与所述话题相关的各个元素类型的内容数据。当网站排版风格变化时,仅仅需要重新训练图片识别模型,因此无需针对每次网站改版人工修改爬取规则,提高了自动化程序,降低了人工维护的成本。
另外,所述通过训练,生成图片识别模型的步骤包括:获取至少一个所述网站中不同话题的文章链接的长截图;使用图片标注工具,对所述长截图中的各元素类型的位置进行标注,确定所述长截图的网站模板类型;将已标注的所述长截图输入到神经网络模型中进行训练,生成图片识别模型;计算所述图片识别模型识别出的所述长截图网站模板类型与实际的所述长截图网站模板类型之间的匹配率;当所述匹配率大于预定值时,结束模型训练,完成所述图片识别模型的训练。以上训练图片识别模型的方式为自动化实现方式,降低了人工维护成本。
所述利用所述图片识别模型,从所述至少一个网站的所述长截图中提取出与所述话题相关的各个元素类型的内容数据的步骤包括:利用所述图片识别模型,对所述长截图的至少一个元素类型进行识别,确定所述长截图的网站模板类型;对应所述网站模板类型携带的长截图中各个元素类型和各个元素类型在图片中的位置,将所述长截图分成至少一个子图片,并获取各个所述子图片对应的元素类型;将所述子图片作为对应的所述元素类型的内容数据,并存储。上述实施例中,可以以图片的形式从网站抓取到与话题相关的内容数据,方便后续的处理和作为数据保存。
所述将所述子图片作为对应的所述元素类型的内容数据,并存储的步骤包括:通过文字识别方式OCR,识别所述子图片的文字内容;将所述子图片的文字内容,作为所述子图片对应的所述元素类型的内容数据,并存储。上述实施例中,可以以文字的形式从网站抓取到与话题相关的内容数据,方便后续的处理和作为数据保存。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是根据本发明一实施方式中的基于图片识别的网站数据爬取方法流程示意图;
图2是根据本发明一实施方式中的基于图片识别的网站数据爬取方法中的S11的流程示意图;
图3是根据本发明一实施方式中的基于图片识别的网站数据爬取方法中的S13的流程示意图;
图4是根据本发明实施方式中的一长截图的示意图;
图5是根据本发明实施方式中的智能移动终端的操作界面图的示意图;
图6是根据本发明第四实施方式中的网站数据爬取装置的架构示意图;
图7是根据本发明第四实施方式中的电子设备的架构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便,不应对本发明的具体实现方式构成任何限定,各个实施例在不矛盾的前提下可以相互结合相互引用。
本发明的第一实施方式涉及一种基于图片识别的网站数据爬取方法。其流程如图1所示,具体如下:
S11,通过训练,生成图片识别模型,所述图片识别模型用于识别输入模型中的图片的网站模板类型;所述网站模板类型携带有网站的长截图中包含的元素类型以及各个元素类型在长截图中的位置。所述位置可以为区域范围,以坐标轴表示。元素类型可以包括但是不限于:网站标识、网站名称、文章标题、文章内容、评论数量、发布时间、点赞数量和/或转发数量。长截图可以是来自于网站链接的截图。
网站模板类型也就是本文中的图片类型,是由网站的排版风格确定,不同的网站由于网站设计不同,会形成不同的排版风格,一种网站排版风格对应一种图片类型。网站排版风格可以根据网站名称命名确定,例如可以包括有微博排版风格、新浪排版风格、知乎排版风格、微信排版风格等,相应的,通过这些网站链接所获取的长截图的图片类型对应有微博图片类型、新浪图片类型、知乎图片类型、微信图片类型等。
一般说来,由于同一网站排版风格在该网站的不同网页中会存在通用性和延续性,因此,相同图片类型的网站截图往往对应着相同的网站名称,网站名称在图片中的相同位置,文章标题在图片中的相同位置,相同字体大小,转发、评论、点赞等文字或者符号在图片中的相同位置等。而针对不同网站而言,为了形成自己独有的风格进而达到培养用户使用习惯的目的等,不同网站的网页排版往往存在较大差异,这就使得不同图片类型的网站截图之间会存在上述内容及内容位置的差异性。本实施例基于上述原理,通过训练生成图片识别模型。
S12,根据选择的话题,获取至少一个网站中与所述话题相关的文章链接的长截图;例如,图4为通过微博网站链接获取的长截图,该图片所展示的内容来自于网站展示的内容的截图。
S13,利用所述图片识别模型,从所述至少一个网站的所述长截图中提取出与所述话题相关的各个元素类型的内容数据。所述元素类型包括:文章标题子图片、文章内容、评论数、发布时间或转发数。例如,图4中,
Figure DEST_PATH_IMAGE001
为网站标识、
Figure BDA0002403580220000042
为网站名称、“【任正非流泪了!】”为文章标题、
Figure BDA0002403580220000043
为点赞量等;网站标识和网站名称位于整个图片的顶部位置处,文章的标题是位于文章内容头部;发布时间、转发数量、点赞量均在图片的底部等。因此,从图4 的长截图中的不同位置,可以提取出话题的不同元素类型的内容数据。
本发明实施例中,通过训练生成图片识别模型;根据选择的话题,获取至少一个网站中与所述话题相关的文章链接的长截图;根据所述图片识别模型,从所述至少一个网站的所述长截图中提取出与所述话题相关的不同元素类型的内容数据,由于本发明针对图片进行处理,并且通过训练生成图片识别模型,当网站排版风格变化时,仅仅需要重新训练图片识别模型,无需针对每次网站改版修改爬取规则。提高了自动化程序,提高了爬取效率,降低了人工维护成本。
在一个实施例中,步骤12包括:在至少一个网站中搜索与所述话题相关的文章,并获取与所述话题相关的文章的链接;将所述文章的链接输入到长截图工具中,以获取所述文章的链接对应的长截图;或者为:在至少一个网站中搜索与所述话题相关的文章,并点击所述网站中的生成长截图的菜单,以获取所述网站中与所述话题相关的文章长截图。
在一个实施例中,其中,如图2所示,所述S11包括:
S111,获取至少一个所述网站中不同话题的文章链接的长截图;所述网站可以包括:搜狐、新浪、微博、腾讯、微信、百度、知乎等等。
S112,使用图片标注工具,对所述长截图中的各元素类型的位置进行标注,确定所述长截图的网站模板类型;该步骤具体为:使用图片标注工具,对所述长截图中的元素类型进行区域划分,以确定所述长截图的划分后的各区域的位置;元素类型的识别可以依据划分后的区域中的图文内容,图文内容可以为图片、文字等,可以基于人工智能图像识别技术识别图片内容。例如,
Figure DEST_PATH_IMAGE002
为网站标识的特征。位置信息可以通过每个区域边界的坐标值界定。
S113,将已标注的所述长截图输入到神经网络模型中进行训练,生成图片识别模型;
S114,计算所述图片识别模型识别出的所述长截图网站模板类型与实际的所述长截图网站模板类型之间的匹配率;
S115,当所述匹配率大于预定值时,结束模型训练,完成所述图片识别模型的训练。
上述训练图片识别模型的方式可以基于人工智能识别技术进行实现。
在一个实施例中,其中,如图3所示,所述S13包括:
S131,用所述图片识别模型,对所述长截图的至少一个元素类型进行识别,确定所述长截图的网站模板类型;例如,识别出图4为新浪排版模板类型。
S132,对应所述网站模板类型携带的长截图中各个元素类型和各个元素类型在图片中的位置,将所述长截图分成至少一个子图片,并获取各个所述子图片对应的元素类型;例如,将图4中分成各个子图片,每个子图片对应一个元素类型。为了有选择的对长截图中的预定的元素类型进行提取,该步骤可以为:对应所述网站模板类型携带的长截图中各个元素类型和各个元素类型在图片中的位置,从所述长截图中提取预定的元素类型所对应的子图片,并获取提取出的所述子图片对应的元素类型。
S133,将所述子图片作为对应的所述元素类型的内容数据,并存储。为了有选择的对长截图中的预定的元素类型进行提取,该步骤可以为:将提取出的所述子图片作为对应的所述元素类型的内容数据,并存储。
上述实施例中,可以以图片的形式从网站抓取到与话题相关的内容数据。
在一个实施例中,可选的,所述S133包括:
S1331、通过文字识别方式OCR,识别所述子图片的文字内容;
S1332、将所述子图片的文字内容,作为所述子图片对应的所述元素类型的内容数据。
上述实施例中,将所述子图片的文字内容,作为所述子图片对应的所述元素类型的内容数据,并存储。
本发明提供了一种基于图片识别来爬取不同网站数据的方法,能够爬取同一话题在不同网站上的评论、点赞、转发数据。针对需要分析的不同网站的话题文章,通过截图的方式获取包含话题的文章标题、点赞、转发和评论等内容的图片,并将获取的图片输入到预先训练的图片识别模型中,由图片识别模型识别不同网站长截图图片中的点赞、转发、评论等内容,以将同一话题在不同网站表述不一样但意义一致的数据对应上,从而自动实现对不同网站的相同话题的数据的爬取,不依赖网站网页格式。
以下描述本发明的应用场景。
本发明具体包括两部分内容,一是图片识别模型的训练,二是通过训练形成的图片识别模型进行图片识别判断。下面具体说明:
1、图片识别模型训练,包括:
图片识别模型是用来判断输入模型中的图片属于那种图片类型,也就是网站模板类型。
图片类型是由网站的排版风格确定,不同的网站由于网站设计不同,会形成不同的排版风格,一种网站排版风格对应一种图片类型。网站排版风格可以根据网站名称命名确定,例如可以包括有微博排版风格、新浪排版风格、知乎排版风格、微信排版风格等,相应的,通过这些网站链接所获取的长截图的图片类型对应有微博图片类型、新浪图片类型、知乎图片类型、微信图片类型等。
一般说来,由于同一网站排版风格在该网站的不同网页中会存在通用性和延续性,因此,相同图片类型的网站截图往往对应着相同的网站名称,网站名称在图片中的相同位置,文章标题在图片中的相同位置,相同字体大小,转发、评论、点赞等文字或者符号在图片中的相同位置等。不同图片的相同位置是否具有相同的网站名称可以通过图像识别技术实现。
而针对不同网站而言,为了形成自己独有的风格进而达到培养用户使用习惯的目的等,不同网站的网页排版往往存在较大差异,这就使得不同图片类型的网站截图之间会存在上述内容及内容位置的差异性。
举例来说,图4为通过微博网站链接获取的长截图,该图片所展示的内容与网站展示的内容相应。可以通过确定图片类型以识别出该图片的网站来源,了解到图片是来源于哪个网站。
鉴于网站排版方式的上述特点,本发明中采用的图片识别模型的训练过程可以如下:
S21、列举出所需要爬取的网站,比如,这些网站可以包括搜狐、新浪、微博、腾讯、微信、百度、知乎等等;
S22、从所列举的不同网站获取大量不同话题的文章链接,并获取对应的文章长截图作为模型的训练样本;不同话题的文章链接可以包括:同一话题在搜狐、新浪、微博、腾讯、微信等不同网站的文章链接,以及同一网站中关于不同话题的文章链接。
具体的,可以通过点击进入到不同的网站中,搜索相关话题文章并获取该话题文章的文章链接,然后再通过将文章链接输入到长截图工具中,以获取该文章链接对应的文章长截图。
对于一些设备终端(如手机终端)或网站,也可以直接获取到相关话题文章的文章长截图。具体可以通过点击网站文章正文页右上角的菜单栏图标以打开菜单栏,直接选取生成长截图,即可获取该网站的文章链接的文章长截图。图5为一种智能移动终端的操作界面图,展示了点击正文页右上侧的菜单栏图标后呈现的页面,可以看出,可以直接选择菜单栏中的“生成长图”,获取当前网站对于当前话题的文章长截图。
图4是根据文章链接所获取的文章长截图示例,包括了网站中的所有元素类型,有网站标识、网站名称、文章标题、文章内容、评论数量、转发数量、发布时间等。可以看出,在该图片中,网站标识和网站名称位于整个图片的顶部位置处,文章的标题是位于文章内容头部,并以“【】”方式与文章内容独立;发布时间、转发数量、点赞量均在图片的底部,并分别以
Figure BDA0002403580220000071
等不同的方式独立显示。对于同一网站,其对所有话题文章的展示都具有相同的特征,即,网站标识和网站名称都是显示在图片的顶部位置处,文章的标题都是位于文章内容头部,并以“【】”方式与文章内容独立等。对于不同的网站,由于网站设计的差异,则对相关或相同话题的文章的展示会存在元素类型的不同和展示位置、展示方式的不同。
S23、对所获取到的图片通过图片标注工具(例如,LabelImg图片标注工具),对图片中所包括的元素类型进行标注训练,通过边框的方式对图片中的元素类型进行界定。然后依次完成对样本集中所有图片的标注,从而得到图片识别数据输入集;
S24、将数据输入集作为输入参数,输入到神经网络模型中进行学习,经过多次大量反复的学习操作以得到图片识别模型,经过该过程所形成的图片识别模型则可以判断出图片的所属类型。当输入一张文章截图至该图片识别模型后,该模型输出的图片类型和人为标注确认的图片类型的匹配正确率达到99.9%以上,即可结束模型训练,并将最终训练得到的模型确定为本方案进行图片识别所使用的图片识别模型。
例如,通过标注,可以确定
Figure DEST_PATH_IMAGE003
为网站标识、
Figure BDA0002403580220000082
为网站名称、“【任正非流泪了!】”为文章标题、
Figure BDA0002403580220000083
为点赞量等;网站标识和网站名称位于整个图片的顶部位置处,文章的标题是位于文章内容头部;发布时间、转发数量、点赞量均在图片的底部等。
2、图片识别步骤,包括:
S31、根据需要爬取的话题,获取不同网站待爬取文章链接的长截图。
S32、根据预先训练的图片识别模型对待识别图片进行图片识别,确定待识别的截图的图片类型;
具体的,将待识别图片输入到图片识别模型中,模型首先会识别元素类型可能出现的位置是否包含相应的元素类型。例如,图片顶部位置处是否包含网站名称
Figure BDA0002403580220000084
或网站标识
Figure DEST_PATH_IMAGE004
如果图片顶部位置处未识别出相应元素类型时,可以依次识别文章起始位置、所使用的字体大小,转发、评论、点赞等文字或符号出现的位置,从而确定文章截图是属于哪个图片类型(网站排版风格,或者网站模板类型)。
S33、根据图片类型将待识别图片按照元素类型拆分成若干子图片;
如,当确定图片是属于“微信”排版风格,那么可以确定该图片的某一特定位置是文章标题内容,又一特定位置是点赞量内容。从而可以实现根据元素类型对图片进行拆分。
一种图片类型是唯一对应着一组网站名称信息、文章标题位置、使用字体大小、转发、评论、点赞等文字或者符号的位置等。当确定了待识别图片的类型后,则也唯一的确定了待识别图片中的元素类型在图片中的相应位置,从而,就可以按照S32中确定的图片类型中元素类型的相应位置,将待识别图片的元素类型拆分为若干个独立的子图片。在该步骤中,不用识别出子图片中的内容具体是什么,而只需要根据图片类型就可直接完成对图片进行拆分。
S34、对拆分后得到的若干子图片进行标记,文章标题子图片为A,文章内容为B,评论数为C,发布时间为D,转发数E等。
对拆分后的图片添加标记,从而可以清楚地识别出该子图片对应的是哪一元素类型,也就是确定出子图片的元素类型,从而对应的获取该主题的内容数据。
S35、遍历划分出来的子图片,根据文字识别方式(OCR)识别这篇文章评论、转发、点赞等子图片中信息,提取数据存入数据库,用作后续分析。
在S34中对有拆分的子图片进行标记,从而可以根据标记对不同的子图片进行管理,当需要获取某一类型的图片数据,则只需要抓取同一标记的所有子图片,然后进行S35,根据文字识别方式(OCR)识别出图片中的信息,并存入数据库中。
OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。OCR文字识别方式是图片识别的常用技术,故不再详细赘述。
本实施例中,将需要爬取数据的网站文章进行截图,然后通过识别图片内容实现对网站数据的爬取;采用图片标注训练,形成图片识别模型,实现对图片类型风格的判断和元素类型的判断;通过将获取网站的文章先转换为图片,然后输入到经过训练的图片识别模型中,模型可以直接输出图片的图片类型,然后就可以根据图片类型,对输入的图片按照元素类型的确定位置,对图片进行拆分,并对拆分后的子图片进行标记,从而可以根据标记确定图片中的元素类型,直接从子图片中获取需要元素类型对应的数据。
本实施例中,神经网络模型的训练过程,是模型的已知输入和输出(标签),通过将模型的输入参数输入到模型,得到一个输出,得到的输出与已知的输出(标签)进行损失计算,得到损失概率,通过调整损失概率的大小,实现模型训练的过程,并在损失概率最小时,结束模型训练过程。
本实施例具有以下有益效果:
无需针对网站改版修改爬取规则,提高了爬取效率,降低了维护成本。
对于采取了反爬措施的网站,同样可以爬取到网站内容。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
图6为本发明实施例所述的一种网站数据爬取装置,包括:
训练单元,用于通过训练,生成图片识别模型,所述图片识别模型用于识别输入模型中的图片的网站模板类型;所述网站模板类型携带有网站的长截图中包含的元素类型以及各个元素类型在长截图中的位置;
获取单元,用于根据选择的话题,获取至少一个网站中与所述话题相关的文章链接的长截图;
提取单元,用于利用所述图片识别模型,从所述至少一个网站的所述长截图中提取出与所述话题相关的各个元素类型的内容数据。
其中,所述提取单元包括:
识别模块,利用所述图片识别模型,对所述长截图的至少一个元素类型进行识别,确定所述长截图的网站模板类型;
划分模块,对应所述网站模板类型携带的长截图中各个元素类型和各个元素类型在图片中的位置,将所述长截图分成至少一个子图片,并获取各个所述子图片对应的元素类型;
存储模块,将所述子图片作为对应的所述元素类型的内容数据,并存储。
值得一提的是,本实施方式中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本发明的创新部分,本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入,但这并不表明本实施方式中不存在其它的单元。
上述实施例中,将需要爬取数据的网站文章进行截图,然后通过识别图片内容实现对网站数据的爬取;采用图片标注训练,形成图片识别模型,实现对图片类型风格的判断和元素类型的判断;通过将获取网站的文章先转换为图片,然后输入到经过训练的图片识别模型中,模型可以直接输出图片的图片类型,然后就可以根据图片类型,对输入的图片按照元素类型的确定位置,对图片进行拆分,并对拆分后的子图片进行标记,从而可以根据标记确定图片中的元素类型,直接从子图片中获取需要元素类型对应的数据。无需针对网站改版修改爬取规则,提高了爬取效率,降低了维护成本。对于采取了反爬措施的网站,同样可以爬取到网站内容。
图7为本发明实施例所述的一种电子设备,包括:
至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述的网站数据爬取方法。
其中,存储器和处理器采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器。
处理器负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。
本发明另一实施方式涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

Claims (10)

1.一种网站数据爬取方法,其特征在于,包括:
通过训练,生成图片识别模型,所述图片识别模型用于识别输入模型中的图片的网站模板类型;所述网站模板类型携带有网站的长截图中包含的元素类型以及各个元素类型在长截图中的位置;
根据选择的话题,获取至少一个网站中与所述话题相关的文章链接的长截图;
利用所述图片识别模型,从所述至少一个网站的所述长截图中提取出与所述话题相关的各个元素类型的内容数据。
2.根据权利要求1所述的方法,其特征在于,所述通过训练,生成图片识别模型的步骤包括:
获取至少一个所述网站中不同话题的文章链接的长截图;
使用图片标注工具,对所述长截图中的各元素类型的位置进行标注,确定所述长截图的网站模板类型;
将已标注的所述长截图输入到神经网络模型中进行训练,生成图片识别模型;
计算所述图片识别模型识别出的所述长截图网站模板类型与实际的所述长截图网站模板类型之间的匹配率;
当所述匹配率大于预定值时,结束模型训练,完成所述图片识别模型的训练。
3.根据权利要求1所述的方法,其特征在于,所述利用所述图片识别模型,从所述至少一个网站的所述长截图中提取出与所述话题相关的各个元素类型的内容数据的步骤包括:
利用所述图片识别模型,对所述长截图的至少一个元素类型进行识别,确定所述长截图的网站模板类型;
对应所述网站模板类型携带的长截图中各个元素类型和各个元素类型在图片中的位置,将所述长截图分成至少一个子图片,并获取各个所述子图片对应的元素类型;
将所述子图片作为对应的所述元素类型的内容数据,并存储。
4.根据权利要求3所述的方法,其特征在于,
所述对应所述网站模板类型携带的长截图中各个元素类型和各个元素类型在图片中的位置,将所述长截图分成至少一个子图片,并获取各个所述子图片对应的元素类型的步骤包括:对应所述网站模板类型携带的长截图中各个元素类型和各个元素类型在图片中的位置,从所述长截图中提取预定的元素类型所对应的子图片,并获取提取出的所述子图片对应的元素类型;
所述将所述子图片作为对应的所述元素类型的内容数据,并存储的步骤包括:将提取出的所述子图片作为对应的所述元素类型的内容数据,并存储。
5.根据权利要求3所述的方法,其特征在于,所述将所述子图片作为对应的所述元素类型的内容数据,并存储的步骤包括:
通过文字识别方式OCR,识别所述子图片的文字内容;
将所述子图片的文字内容,作为所述子图片对应的所述元素类型的内容数据,并存储。
6.根据权利要求1所述的方法,其特征在于,所述元素类型包括:网站标识、网站名称、文章标题、文章内容、评论数量、发布时间、点赞数量和/或转发数量。
7.一种网站数据爬取装置,其特征在于,包括:
训练单元,用于通过训练,生成图片识别模型,所述图片识别模型用于识别输入模型中的图片的网站模板类型;所述网站模板类型携带有网站的长截图中包含的元素类型以及各个元素类型在长截图中的位置;
获取单元,用于根据选择的话题,获取至少一个网站中与所述话题相关的文章链接的长截图;
提取单元,用于利用所述图片识别模型,从所述至少一个网站的所述长截图中提取出与所述话题相关的各个元素类型的内容数据。
8.根据权利要求7所述的装置,其特征在于,所述提取单元包括:
识别模块,利用所述图片识别模型,对所述长截图的至少一个元素类型进行识别,确定所述长截图的网站模板类型;
划分模块,对应所述网站模板类型携带的长截图中各个元素类型和各个元素类型在图片中的位置,将所述长截图分成至少一个子图片,并获取各个所述子图片对应的元素类型;
存储模块,将所述子图片作为对应的所述元素类型的内容数据,并存储。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至6中任一所述的网站数据爬取方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的网站数据爬取方法。
CN202010154421.5A 2020-03-07 2020-03-07 网站数据爬取方法和装置、电子设备、及可读存储介质 Active CN111475699B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010154421.5A CN111475699B (zh) 2020-03-07 2020-03-07 网站数据爬取方法和装置、电子设备、及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010154421.5A CN111475699B (zh) 2020-03-07 2020-03-07 网站数据爬取方法和装置、电子设备、及可读存储介质

Publications (2)

Publication Number Publication Date
CN111475699A true CN111475699A (zh) 2020-07-31
CN111475699B CN111475699B (zh) 2023-09-08

Family

ID=71747203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010154421.5A Active CN111475699B (zh) 2020-03-07 2020-03-07 网站数据爬取方法和装置、电子设备、及可读存储介质

Country Status (1)

Country Link
CN (1) CN111475699B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114821567A (zh) * 2022-06-23 2022-07-29 北京百炼智能科技有限公司 一种用于社交软件截图的点赞个数提取方法及装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090083275A1 (en) * 2007-09-24 2009-03-26 Nokia Corporation Method, Apparatus and Computer Program Product for Performing a Visual Search Using Grid-Based Feature Organization
CN101937438A (zh) * 2009-06-30 2011-01-05 富士通株式会社 网页内容提取方法和装置
US8380693B1 (en) * 2011-09-07 2013-02-19 Google Inc. System and method for automatically identifying classified websites
CN103544176A (zh) * 2012-07-13 2014-01-29 百度在线网络技术(北京)有限公司 用于生成多个页面所对应的页面结构模板的方法和设备
CN106649392A (zh) * 2015-11-03 2017-05-10 任子行网络技术股份有限公司 一种基于所见即所得技术获取信息的方法及装置
CN107862050A (zh) * 2017-11-08 2018-03-30 国网四川省电力公司信息通信公司 一种网站内容安全检测系统及方法
CN108595583A (zh) * 2018-04-18 2018-09-28 平安科技(深圳)有限公司 动态图表类页面数据爬取方法、装置、终端及存储介质
US20190236095A1 (en) * 2018-01-26 2019-08-01 Walmart Apollo, Llc Automatic personalized image-based search
CN110442823A (zh) * 2019-08-06 2019-11-12 北京智游网安科技有限公司 网站分类方法、网站类型判断方法、存储介质及智能终端
WO2019237548A1 (zh) * 2018-06-11 2019-12-19 平安科技(深圳)有限公司 图片识别方法、装置、计算机设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090083275A1 (en) * 2007-09-24 2009-03-26 Nokia Corporation Method, Apparatus and Computer Program Product for Performing a Visual Search Using Grid-Based Feature Organization
CN101937438A (zh) * 2009-06-30 2011-01-05 富士通株式会社 网页内容提取方法和装置
US8380693B1 (en) * 2011-09-07 2013-02-19 Google Inc. System and method for automatically identifying classified websites
CN103544176A (zh) * 2012-07-13 2014-01-29 百度在线网络技术(北京)有限公司 用于生成多个页面所对应的页面结构模板的方法和设备
CN106649392A (zh) * 2015-11-03 2017-05-10 任子行网络技术股份有限公司 一种基于所见即所得技术获取信息的方法及装置
CN107862050A (zh) * 2017-11-08 2018-03-30 国网四川省电力公司信息通信公司 一种网站内容安全检测系统及方法
US20190236095A1 (en) * 2018-01-26 2019-08-01 Walmart Apollo, Llc Automatic personalized image-based search
CN108595583A (zh) * 2018-04-18 2018-09-28 平安科技(深圳)有限公司 动态图表类页面数据爬取方法、装置、终端及存储介质
WO2019237548A1 (zh) * 2018-06-11 2019-12-19 平安科技(深圳)有限公司 图片识别方法、装置、计算机设备及存储介质
CN110442823A (zh) * 2019-08-06 2019-11-12 北京智游网安科技有限公司 网站分类方法、网站类型判断方法、存储介质及智能终端

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JINGTIAN JIANG; XINYING SONG; NENGHAI YU; CHIN-YEW LIN: "FoCUS: Learning to Crawl Web Forums Publisher: IEEE Cite This PDF", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING 》, pages 1293 - 1306 *
汤佳杰,曹永忠,顾浩: "基于文本标点密度连续和的网页正文抽取", 《 计算机时代》, pages 69 - 72 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114821567A (zh) * 2022-06-23 2022-07-29 北京百炼智能科技有限公司 一种用于社交软件截图的点赞个数提取方法及装置

Also Published As

Publication number Publication date
CN111475699B (zh) 2023-09-08

Similar Documents

Publication Publication Date Title
CN109271401B (zh) 一种题目搜索、批改方法、装置、电子设备和存储介质
KR101861198B1 (ko) 디지털 이미지의 시맨틱 태그의 획득 방법 및 장치
US20230119593A1 (en) Method and apparatus for training facial feature extraction model, method and apparatus for extracting facial features, device, and storage medium
CN110796204B (zh) 视频标签确定方法、装置和服务器
CN108319888B (zh) 视频类型的识别方法及装置、计算机终端
CN104915420B (zh) 知识库数据处理方法及系统
CN111984589A (zh) 文档处理方法、文档处理装置和电子设备
CN108334508A (zh) 网页信息的提取方法和装置
CN104199805B (zh) 文本拼接方法及装置
CN112347997A (zh) 一种试题检测识别方法、装置、电子设备及介质
CN106169065A (zh) 一种信息处理方法及电子设备
CN111475699B (zh) 网站数据爬取方法和装置、电子设备、及可读存储介质
CN104142955A (zh) 一种推荐学习课程的方法和终端
CN113283231B (zh) 获取签章位的方法、设置系统、签章系统及存储介质
CN114511696A (zh) 控件定位方法、装置、电子设备及可读存储介质
CN108319703A (zh) 一种基于互联网的教育信息快速获取装置
CN114254231A (zh) 网页内文抽取方法
US11604920B2 (en) Visual parsing for annotation extraction
KR20210037485A (ko) 유사 패션 상품 데이터 검색 및 제공 방법과 그를 위한 컴퓨팅 장치
CN111143643B (zh) 元素识别方法、装置、可读存储介质和电子设备
CN116958729A (zh) 对象分类模型的训练、对象分类方法、装置及存储介质
CN115565193A (zh) 问卷信息录入方法、装置、电子设备及存储介质
CN115641592A (zh) 一种基于对比度优化的电力光学字符识别方法及系统
CN115063784A (zh) 票据图像的信息提取方法和装置、存储介质及电子设备
CN111860526B (zh) 基于图像的判题方法、装置、电子设备和计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant