CN113505288B - 一种基于统计和桩定位视觉的快速检测和定位方法 - Google Patents

一种基于统计和桩定位视觉的快速检测和定位方法 Download PDF

Info

Publication number
CN113505288B
CN113505288B CN202110718272.5A CN202110718272A CN113505288B CN 113505288 B CN113505288 B CN 113505288B CN 202110718272 A CN202110718272 A CN 202110718272A CN 113505288 B CN113505288 B CN 113505288B
Authority
CN
China
Prior art keywords
elements
abscissa
page
coordinates
effective
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110718272.5A
Other languages
English (en)
Other versions
CN113505288A (zh
Inventor
李俊
刘晓涛
严骅
申富饶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202110718272.5A priority Critical patent/CN113505288B/zh
Publication of CN113505288A publication Critical patent/CN113505288A/zh
Application granted granted Critical
Publication of CN113505288B publication Critical patent/CN113505288B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种基于统计和桩定位视觉的快速检测和定位方法,包括:步骤1:统计网站库中所有网站的词频;步骤2,建立页面的视觉坐标系,并采集网页内容;步骤3,探测网页中关键词元素的坐标,作为桩标志;步骤4,抓取页面内所有元素的坐标,得到有效纵坐标区域;步骤5,筛选页面中处于有效纵坐标区域内的元素,称为靶元素;步骤6,对靶元素的横坐标进行统计分析,并且划分区间;步骤7,根据筛选策略,选出小于且最接近于桩标志的横有效横坐标区间。步骤8,在页面视觉坐标系中,横坐标落在有效横坐标区间内的元素即为有效元素。然后结合桩标志,实现对列表的目标检测,从而快速定位列表的元素,从而加快网页信息的采集。

Description

一种基于统计和桩定位视觉的快速检测和定位方法
技术领域
本发明涉及计算机视觉,自然语言处理和网页爬虫技术领域,特别涉及一种基于统计和桩定位视觉的快速检测和定位方法。
背景技术
近年来,随着计算机技术和爬虫信息采集方法迅猛发展,推动了数据驱动的深度学习的发展,催生了大量数据积累的需求。至此,如何从海量的网络数据中快速获取有效数据成为一个关键的问题。使用网络爬虫可以针对特定网页,手动设计特定的规则,从而抓取万维网中的数据。
然而,不同的网站具有不同的页面结构(即网页的dom-tree各不相同)。使用同一套固定设计的爬虫规则无法采集不同来源的网站的信息。显然,针对每一个网站设计一个特定的数据采集规则是行不通的。同时,针对一个具有公告列表的网页,页面本身存在大量无用的链接,直接爬取页面所有链接需要消耗大量的资源,会导致元素采集质量太低。因此,如何针对来源不同,结构不同的具有公告列表的网站,快速定位到网页中列表的元素,从而筛选出有用信息是一个关键的问题。
发明内容
发明目的:本设计目标在于快速定位多个结构不同的网页的列表元素的位置,从而快速采集出元素的信息。针对多个结构不同,来源不同的网站,本发明以计算机视觉作为出发点,在网页中对网站中的列表进行目标检测。本发明的关键操作为:在网页中建立网页页面视觉坐标系,统计词频,抽取关键词作为桩标志并在每个页面中打下标志,,根据桩标志和有效横纵坐标对公告列表进行目标检测,快速定位网页中公告列表的位置,从而加快网页爬取速度,大大提升了信息抓取的质量,避免爬取大量的无效链接的资源消耗。
为了解决上述技术问题,本发明公开了一种针对结构,不同网页的网页列表快速检测和元素定位的方法,该方法借鉴了目标检测的思想,采用了“桩”标志的思路,根据word2vec抽取关键词作为“桩”,对列表进行目标检测,从而快速定位列表元素。本方法可以在多个不同结构的网站成功检测公告列表,具有良好的泛化能力。方法包括以下步骤:
步骤1,统计网站库中所有网站的词频,抽取关键词,分析列表网站可以作为桩标志的关键词(实验结果为“下一页”,“下页”等);
步骤2,从网站库获取一条网址,建立视觉坐标系,并采集网页内容;
步骤3,探测网页内“下一页”等关键词元素的坐标,作为“桩”标志;
步骤3,抓取页面内所有元素的坐标,对所有元素纵坐标进行统计分析,获得元素坐标的中位数,并且以中位数为中心上下探查,得到有效纵坐标区域;
步骤5,根据有效纵坐标范围筛选页面中处于有效纵坐标区域的元素,得到“靶元素”;
步骤6,对“靶元素”的横坐标进行统计分析,并且按一定间隔划分区间;
步骤7,选出小于并且最接近“桩”标志的横坐标区间,横坐标落在该区间内的为有效横坐标;
步骤8,根据有效横纵坐标的区间,结合桩标志,对列表实现目标检测,从而快速定位列表的元素,加快信息采集速度。
本发明针对不同的公告网站,使用上述8个步骤,可以快速检测到公告列表目标的位置和定位到列表元素的位置,从而实现快速筛选并采集公告元素。
步骤1包括:使用自然语言处理中的Word2Vec词聚类算法对网址库中的所有网站做词频统计,抽取文本关键词,根据文本关键词分析所有具有列表的网站的特点,选择能够作为桩标志的关键词,实验显示关键词可以为“下一页”,“下页”等词。
步骤2中,从网址库中获取网页网址,建立视觉坐标系O,视觉坐标系O体为:以页面左上角为原点,横向即为横轴,纵向即为纵轴,分别记横轴和纵轴为x和y。
步骤3中,在视觉坐标系O中,获取步骤1得到的关键词元素的坐标,作为页面的桩标志(xz,yz),其中xz,yz分别表示桩标志的横坐标、纵坐标。
步骤4中,使用网络爬虫抓取页面中所有元素的坐标(X,Y),其中X,Y分别表示网页元素的横坐标和纵坐标;根据元素的坐标(X,Y),计算页面视觉坐标系中的元素纵坐标的中位数ymid,并且取中位数上下10个像素,得到有效纵坐标范围[ymid-p,ymid+p],其中p是指扩宽的像素个数。
步骤5中,根据有效纵坐标范围[ymid-p,ymid+p],筛选页面元素处于该范围的元素,记为“靶元素”。
步骤6中,统计获取“靶元素”的横坐标[x1,x2,…,xn],n表示筛选后元素的数量,并且按一定间隔(比如每5个像素)划分横坐标区间。
步骤7包括:根据步骤3得到桩坐标(xz,yz)进行有效横坐标的筛选。筛选的策略为:目标元素的起始坐标必定位于“桩”标志的左边,并且最接近于它。也就是,需要筛选出小于桩标志并且最接近桩标志的横坐标,即为有效横坐标xvalid
xvalid=max[(xi<xz),i=1,2,…,n]。
其中,xi表示表示第i个页面元素的坐标。
步骤8中,根据有效横坐标xvalid所在的坐标区间,获得列表第一个元素的起始坐标(x1,y1)。借鉴计算机视觉任务目标检测的思想,结合桩坐标(xt,yt)对列表做目标检测,从而快速定位列表中元素的位置,方便进行信息采集和统计等操作。目标检测框设计为:检测框左上角的坐标为(x1,y1),右下角坐标为(2xt-x1,yt)。
有益效果:本发明将目标检测应用到网页定位中,不需要训练神经网络模型,就可以定位到公告列表,从而方便信息采集。本方法的显著优点是提高了爬虫的泛化能力,可以爬取多个具有不同页面结构的网页的公告信息。对一个网页而言,页面存在大量无用的链接,本发明可以对公告列表进行目标检测,并且快速定位到列表元素的位置,从而进行公告信息采集。使用本发明,可以快速检测并定位到来源不同,结构不同的网页的列表元素的位置,提高网页数据采集速度,并且大大提升了信息采集的质量,避免爬取大量的无效链接的资源消耗。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1为本发明快速定位公告列表的流程图。
图2a为目标检测任务基本示意图。
图2b为“桩”标志示意图。
图3a为公告列表位左栏和上栏都存在无效链接的网页结构。
图3b为公告列表右栏和上栏都存在无效链接的网页结构。
图3c为公告列表左右两栏都没有无效链接的网页结构。
图4为表示有效横纵坐标计算过程简单图示。
图5表示实施例网站的示意图。
具体实施方式
图1是本发明快速定位公告列表位置的流程图,包括8个步骤。
在第一个步骤中,统计网站库中网页的词频,并使用词聚类算法抽取关键词,分析选择适合作为“桩标志”的关键词。本场景得到的是“下一页”,“下页”等关键词。
在第二个步骤中,从网站库获取网址,对网页建立视觉坐标系O,并采集网页视觉信息等页面内容。
在第三个步骤中,探测网页内下一页等类似关键词元素的坐标作为“桩”标志。“桩”标志的坐标设置为(xz,yz),桩标志取横坐标如图4中的比较长的竖线所示。
在第四个步骤中,根据步骤2中的结果,采集页面内所有元素的坐标[X,Y]。然后对所有元素纵坐标进行统计分析,获得其中位数ymid(如图4横实线所示),并且以其为中心上下探查p个像素(p取值为10),得到有效纵坐标区域[ymid-p,ymid+p],如图4横虚线所示。
这里使用统计学和设计学的思想。通过大量的实验和统计,结果显示在公告列表的网站中,所有页面元素的纵坐标中位数必然处于公告列表中。因此可以通过纵坐标中位数初步定位到列表位置。
在第五个步骤中使用的方法,根据有效纵坐标区域,筛选页面中处于有效纵坐标区域的元素,即为“靶元素”,如图4中横虚线包围的元素。
在第六个步骤中,统计获取“靶元素”的横坐标[x1,x2,…,xn],n表示筛选后元素的数量,并且将它们按每5个像素为间隔划分区间。
在第七个步骤中,选出小于并且最接近“桩”标志的横坐标区间,横坐标落在该区间内的元素即为有效元素。具体的方法如下:
步骤7-1,对于第i个元素的坐标xi,首先判断其是否小于“桩”标志的坐标xz。对于符合上述条件的坐标,加入候选集中;
步骤7-2,对于候选集中的坐标,选择其中最大的坐标,即为有效横坐标xvalid
因此,这一步骤的整体计算公式如下:
xvalid=max[(xi<xz),i=1,2,…,n]。
在第八个步骤中,根据有效横纵坐标的区间,结合桩标志的标志的坐标(xt,yt)对列表做目标检测,从而快速定位列表中元素的位置。目标检测框设计为:检测框左上角坐标为(x1,y1),右下角坐标为(2xt-x1,yt)。图2是目标检测任务的基本示例,以及公告列表目标检测中“桩”标志的示例。
图3a、图3b、图3c是本发明针对的公告列表网站的示例图中展示了三种不同结构的公告列表网站,基本上代表了各种公告列表网站的布局模式。可以看到,无论哪种模式,页面都存在一个“桩”标志(下一页或者下页按钮),列表元素的横坐标始终位于“桩”标志左侧并且最接近于“桩”的位置。
图4展示了本发明设计中的重要关键点。其中,在获取网页内容之后,可以根据“下一页”,“下页”等关键词给网页打一个“桩”。对页面元素统计分析之后,计算出页面全部元素的纵坐标的中位数。然后以其为中心在上下各取一定范围,为有效纵坐标区域。在该纵坐标区域内,选择在“桩”左侧,并且距离“桩”最近的元素的横坐标,从而确定有效横坐标区域。
实施例
为了验证算法的有效性,在不同的网站上进行了实例验证。其中网站设计政府类招标网站,企业类网站以及其余类别网站,实验例证结果证明本设计可以非常快速且准确地检测和定位到公告列表。
以招标采购导航网的招标公告页面(https://www.okcis.cn/bn/)为例,如图5。对于页面中列表的元素,按照以下步骤快速准确定位到列表的位置,从而实现元素的采集:
1、从网站库统计公告网站的词频信息,使用word2vec词聚类方法抽取关键词,并分析得到“下一页”,“下页”等可以作为桩标志关键词。
2、从网址库中获取招标采购导航网的网址,并且进入到招标公告页面,以页面左上角的位置作为原点建立视觉坐标系O,并且采集页面内容和元素。
3、使用下一页”或者“下页”等关键词探查本网页中关键词元素的坐标,作为“桩”标志,“桩”标志的坐标设置为(xz,yz),见图5中的“下一页按钮”所在长实线。
4、根据步骤2中的结果,采集页面内所有元素的坐标[X,Y],包括列表中的每一项,右侧信息栏的链接等。并且对所有元素纵坐标进行统计分析,获得其中位数ymid(如图5横实线所示),并且以其为中心上下探查p个像素,得到有效纵坐标区域[ymid-p,ymid+p](如图5横虚线范围所示)。
5、根据步骤4得到的有效纵坐标区域,筛选页面中处于有效纵坐标区域的元素,记为“靶元素”。
6、根据步骤5结果,统计获取“靶元素”的横坐标[x1,x2,…,xn],n表示筛选后元素的数量,并且将它们按每5个像素点为间隔划分区间。
7、选出小于“桩”标志的横坐标并且最接近“桩”标志的横坐标区间,横坐标落在该区间内的元素即为有效元素,也就是在图5横虚线范围内的元素,位于“桩”标志(下一页)左边的,并且最接近它的横坐标。
xvalid=max[(xi<xz),i=1,2,…,n],
如图5所示,箭头标志的位置即是得到的有效横坐标的位置。
8.以有效横坐标xvalid所在的区间作为探查列表第一个元素(x1,y1)。结合桩标志的标志的坐标(xt,yt)对列表做目标检测,从而快速定位列表中元素的位置。目标检测框设计为:检测框左上角坐标为(x1,y1),右下角坐标为(2xt-x1,yt)。
在多个结构不同,来源不同的网站上的进行了实验验证,结果表明,本发明在可以快速而准确地检测到列表位置,并且定位到列表中的元素,从而方便列表元素的采集。一方面,本发明在速度上得到极大的提升,同时避免了对其他大量无用连接的访问,大大减少了资源的消耗;另一面,本发明适用了大量不同结构的列表网站,不需要为特定网页设计固定规则,具有比较高的泛化性能。
本发明启发于计算机目标检测任务(如图2)。在目标检测的任务是检测出图像中目标物体所在的位置。因此,深度学习模型往往是回归出目标物体的中心点(x,y)位置作为“桩”,再结合拟合的目标框的宽度w和高度h,从而框出目标物体,画出目标的边界框(bounding box)。
针对多个结构不同的具有公告列表的网站,如何快速检测并定位到网站中列表的位置是本发明的主旨。受到上述目标检测任务中的启发,本发明对网页建立视觉上的坐标系O,创造性地使用网页元素的坐标(x,y)进行设计,还引入了目标检测任务中“桩”的思想,并针对本任务进行了适当的调整。使用词聚类算法分析出将公告列表网页中固有的“下一页”或“下页”等关键词,并以此作为“桩标志”。对于“桩”的设计,根据调研统计(如图3所示,是典型的具有公告列表的网页结构),“桩”始终位于公告列表下方,因此,可以作为后续坐标判断的依据。
本发明提供了一种基于统计和桩定位视觉的快速检测和定位方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (7)

1.一种基于统计和桩定位视觉的快速检测和定位方法,其特征在于,包括如下步骤:
步骤1,统计网站库中所有网站的词频,抽取关键词,并分析列表网站可以作为桩标志的关键词;
步骤2,从网站库获取一条网址,建立视觉坐标系,并且采集网页内容;
步骤3,探测网页内关键词元素的坐标,作为列表目标检测的桩标志;
步骤4,抓取页面内所有元素的坐标,对所有元素的纵坐标进行统计分析,获得其中位数,并且以中位数为中心上下探查,得到页面视觉范围内的有效纵坐标区域;
步骤5,根据有效纵坐标范围,筛选页面中处于有效纵坐标区域的元素,称为靶元素;
步骤6,对靶元素的横坐标进行统计分析,并且按一定间隔划分区间;
步骤7,选出小于桩标志的,并且最接近桩标志的横坐标区间,横坐标落在该区间内的为有效横坐标;
步骤8,根据有效横纵坐标的区间和桩标志,完成对网站列表的目标检测和元素快速定位;
步骤2中,从网址库中获取网页网址,建立视觉坐标系O,视觉坐标系O为:以页面左上角为原点,横向即为横轴,纵向即为纵轴,分别记横轴和纵轴为x和y;
步骤8中,根据有效横坐标xvalid所在的坐标区间,获得列表第一个元素的起始坐标(x1,y1),结合桩坐标(xt,yt)对列表做目标检测,目标检测框设计为:检测框左上角的坐标为(x1,y1),右下角坐标为(2xt-x1,yt),从而快速定位列表中元素的位置。
2.根据权利要求1所述的方法,其特征在于,步骤1包括:使用自然语言处理中的Word2Vec词聚类算法对网址库中的所有网站做词频统计,抽取文本关键词,根据文本关键词分析所有具有列表的网站的特点,选择能够作为桩标志的关键词。
3.根据权利要求2所述方法,其特征在于,步骤3中,在视觉坐标系O中,获取步骤1得到的关键词元素的坐标,作为页面的桩标志(xz,yz),其中xz,yz分别表示桩标志的横坐标、纵坐标。
4.根据权利要求3所述的方法,其特征在于,步骤4中,使用网络爬虫抓取页面中所有元素的坐标(X,Y),其中X,Y分别表示网页元素的横坐标和纵坐标;根据元素的坐标(X,Y),计算页面视觉坐标系中的元素纵坐标的中位数ymid,并且取中位数上下10个像素,得到有效纵坐标范围[ymid-p,ymid+p],其中p是指扩宽的像素个数。
5.根据权利要求4所述的方法,其特征在于,步骤5中,根据有效纵坐标范围[ymid-p,ymid+p]筛选页面元素处于该范围的元素,记为靶元素。
6.根据权利要求5所述的方法,其特征在于,步骤6中,获取靶元素的横坐标[x1,x2,…,xn],n表示筛选后元素的数量,并且按一定间隔划分坐标区间。
7.根据权利要求6所述的方法,其特征在于,步骤7包括:根据步骤3得到桩坐标(xz,yz)进行有效横坐标的筛选,筛选的策略为:目标元素的起始坐标必定位于桩标志的左边,并且最接近于它,需要筛选出小于桩标志并且最接近桩标志的横坐标,即为有效横坐标xvalid
xvalid=max[(xi<xz),i=1,2,…,n]
其中,xi表示第i个页面元素的坐标。
CN202110718272.5A 2021-06-28 2021-06-28 一种基于统计和桩定位视觉的快速检测和定位方法 Active CN113505288B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110718272.5A CN113505288B (zh) 2021-06-28 2021-06-28 一种基于统计和桩定位视觉的快速检测和定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110718272.5A CN113505288B (zh) 2021-06-28 2021-06-28 一种基于统计和桩定位视觉的快速检测和定位方法

Publications (2)

Publication Number Publication Date
CN113505288A CN113505288A (zh) 2021-10-15
CN113505288B true CN113505288B (zh) 2023-08-01

Family

ID=78011270

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110718272.5A Active CN113505288B (zh) 2021-06-28 2021-06-28 一种基于统计和桩定位视觉的快速检测和定位方法

Country Status (1)

Country Link
CN (1) CN113505288B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8341176B1 (en) * 2008-10-08 2012-12-25 Google Inc. Structure-based expansion of user element selection
CN105550279A (zh) * 2015-12-10 2016-05-04 天津海量信息技术有限公司 基于视觉的列表页识别方法
CN107368580A (zh) * 2017-07-21 2017-11-21 维沃移动通信有限公司 一种网页显示方法及移动终端
CN108090104A (zh) * 2016-11-23 2018-05-29 百度在线网络技术(北京)有限公司 用于获取网页信息的方法和装置
CN109271145A (zh) * 2018-09-03 2019-01-25 科大国创软件股份有限公司 基于pythonQT及智能算法的快速规则定制方法
CN110046072A (zh) * 2019-03-13 2019-07-23 平安城市建设科技(深圳)有限公司 页面的监控方法、装置、终端及可读存储介质
CN110347469A (zh) * 2019-07-12 2019-10-18 北大方正集团有限公司 交互处理方法和装置
CN112052368A (zh) * 2020-08-11 2020-12-08 北京新橙科技有限公司 自动提取列表数据的方法、系统、存储介质及电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080098300A1 (en) * 2006-10-24 2008-04-24 Brilliant Shopper, Inc. Method and system for extracting information from web pages
CA2629909A1 (en) * 2007-04-26 2008-10-26 Bowe Bell + Howell Company Apparatus, method and programmable product for identification of a document with feature analysis

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8341176B1 (en) * 2008-10-08 2012-12-25 Google Inc. Structure-based expansion of user element selection
CN105550279A (zh) * 2015-12-10 2016-05-04 天津海量信息技术有限公司 基于视觉的列表页识别方法
CN108090104A (zh) * 2016-11-23 2018-05-29 百度在线网络技术(北京)有限公司 用于获取网页信息的方法和装置
CN107368580A (zh) * 2017-07-21 2017-11-21 维沃移动通信有限公司 一种网页显示方法及移动终端
CN109271145A (zh) * 2018-09-03 2019-01-25 科大国创软件股份有限公司 基于pythonQT及智能算法的快速规则定制方法
CN110046072A (zh) * 2019-03-13 2019-07-23 平安城市建设科技(深圳)有限公司 页面的监控方法、装置、终端及可读存储介质
CN110347469A (zh) * 2019-07-12 2019-10-18 北大方正集团有限公司 交互处理方法和装置
CN112052368A (zh) * 2020-08-11 2020-12-08 北京新橙科技有限公司 自动提取列表数据的方法、系统、存储介质及电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A new web information extracting method based on multi-coordinate;Min Huang 等;《2009 International Conference on Machine Learning and Cybernetics》;1488-1492 *
一个自动发现确定主题下资源的系统;朱炜 等;《计算机应用研究》(第11期);87-90 *
基于文字识别与页面布局的APP控件识别算法;丁世举 等;《计算机工程》;第45卷(第06期);89-95 *

Also Published As

Publication number Publication date
CN113505288A (zh) 2021-10-15

Similar Documents

Publication Publication Date Title
CN104252410B (zh) 一种对页面中的控件进行测试的方法和设备
CN101556606B (zh) 一种基于Web数值表格抽取的数据挖掘方法
CN102567300B (zh) 图片文档的处理方法及装置
US8819028B2 (en) System and method for web content extraction
CN102317937A (zh) 用于聚集来自多个web站点的数据的系统和方法
US20200004792A1 (en) Automated website data collection method
KR20080098232A (ko) 키워드 비교를 이용한 광고 검수 방법 및 시스템
CN105608454A (zh) 基于文字结构部件检测神经网络的文字检测方法及系统
CN109635687B (zh) 基于时序点集计算的汉字文本行书写质量自动评价方法和系统
CN102903136A (zh) 一种手写笔迹电子化方法和系统
CN110245697A (zh) 一种表面脏污检测方法、终端设备及存储介质
CN108596952A (zh) 基于候选区域筛选的快速深度学习遥感图像目标检测方法
CN106874502A (zh) 一种视频搜索的方法、装置及终端
CN109389050A (zh) 一种流程图连接关系识别方法
CN113505288B (zh) 一种基于统计和桩定位视觉的快速检测和定位方法
CN104156458B (zh) 一种信息的提取方法及装置
CN114429577A (zh) 一种基于高置信标注策略的旗帜检测方法及系统及设备
TW201705021A (zh) 利用網頁視覺特徵及網頁語法特徵之資訊擷取系統與方法
Can et al. Postal address detection fromweb documents
US10043070B2 (en) Image-based quality control
CN112612990A (zh) 网页解析方法、系统及计算机可读存储介质
CN110046209B (zh) 一种基于高斯模型的轨迹停止点提取方法
CN115019310B (zh) 图文识别方法及设备
CN105550279A (zh) 基于视觉的列表页识别方法
CN108021900A (zh) 版面分栏方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant