CN106156236B - 视觉网页分析系统与方法 - Google Patents

视觉网页分析系统与方法 Download PDF

Info

Publication number
CN106156236B
CN106156236B CN201510204481.2A CN201510204481A CN106156236B CN 106156236 B CN106156236 B CN 106156236B CN 201510204481 A CN201510204481 A CN 201510204481A CN 106156236 B CN106156236 B CN 106156236B
Authority
CN
China
Prior art keywords
block
web page
picture
tile
hyperlink
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510204481.2A
Other languages
English (en)
Other versions
CN106156236A (zh
Inventor
李光耀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of CN106156236A publication Critical patent/CN106156236A/zh
Application granted granted Critical
Publication of CN106156236B publication Critical patent/CN106156236B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明有关于一种视觉网页分析系统,包括一影像分析单元、一区块分析单元、一视觉认知单元及一输出单元。该影像分析单元加载一网页的数据并基于视觉特征将该网页的内容分割为多个区块。该区块分析单元基于每一区块的属性将所述区块分类。该视觉认知单元比较每一区块的至少一相对特征来判断该网页上每一区块的功能。该输出单元将所述区块与其功能汇集于一信息界面,并输出该信息界面。

Description

视觉网页分析系统与方法
技术领域
本发明是关于一种网页分析系统及方法,尤指一种基于视觉来分析网页的系统与方法。
背景技术
浏览网页已成为现代人的生活习惯,而网页上的数据种类众多且复杂,所述数据往往是没有组织的,因此常造成阅读与整合数据方面的困扰。目前有一些方法是用来搜索页上的数据,也有用来撷取网页上特定的数据格式,但是效果往往不甚良好。
目前网络数据的撷取或搜寻技术大多是由计算机读取网页的数据,例如HTML、DOM等,再经由搜寻关键词的方式撷取与该关键词相关的数据,然而此技术受限于文字分析的困难,因此造成结果不精准。
进一步,目前有些网页分析运用到视觉上的数据,但大多只限于撷取某一类数据,而无法达成整个网页数据分析,其并不具备广泛的适用性,因此需要一种改良的视觉网页分析系统与方法,来解决现有的问题。
发明内容
本发明的目的在于提供一视觉网页分析系统与方法,其是基于视觉来分析整个网页数据。
依据本发明的一特色,提供一种视觉网页分析系统,用于视觉分析一网页上的数据,该系统包括:一影像分析单元,用以加载一网页数据,并基于至少一视觉特征来划分该网页上的区块;一区块分析单元,基于每一区块的至少一属性将所述区块归类;一视觉认知单元,比对每一区块的至少一相对特征来判断每一区块于该网页上的功能;一输出单元,将所述区块与其功能汇集于一信息界面,并输出该信息界面;其中,该影像分析单元、该区块分析单元、该视觉认知单元及该输出单元通过一微处理器进行处理,据以分析出网页上的物件及所述物件的功能,并显示于该信息界面上。由此,整个网页上的物件与各物件的功能皆可以被分析并呈现。
依据本发明的另一特色,提供一种视觉网页分析方法,其是透过一微处理器执行并用于视觉分析一网页上的数据,包括步骤:(a)加载一网页数据;(b)基于至少一视觉特征以划分该网页上的区块;(c)基于每一区块的至少一属性将所述区块归类;(d)比对每一区块的至少一相对特征来判断每一区块于该网页上的功能;(e)将所述区块与其功能汇集于一信息界面,并输出该信息界面。由此,整个网页上的物件与各物件的功能皆可以被分析并呈现。
本发明的其它目的、优点以及新颖特色将在之后与图式一并更详细地描述。
附图说明
图1是本发明一种视觉网页分析系统的架构示意图。
图2是本发明一种视觉网页分析方法的一实施例的主要流程图。
图3是图2的步骤S22的详细流程图。
图4是图2的步骤S23的详细流程图。
图5是图2的步骤S24的一实施例的详细流程图。
图6是本发明一实施例的网页区块示意图。
图7是本发明一种视觉网页分析方法的另一实施例的流程图。
图8(a)是本发明的一输入字段的一示意图。
图8(b)是本发明的一下拉式选单的一示意图。
符号说明
视觉网页分析系统1 步骤S21~S25
影像分析单元11 步骤S31~S35
区块分析单元12 步骤S41~S44
视觉认知单元13 步骤S51~S
输出单元14 步骤S71~S75
微处理器15
影像处理单元16
影像分割及组合单元17
区块检查单元18
主要内容区块61
广告区块62
导引选单区块63
空白区域81
分隔线82
提示文字83
指示箭头85
具体实施方式
图1是本发明一种视觉网页分析系统1的架构示意图,该视觉网页分析系统1包括一影像分析单元11、一区块分析单元12、一视觉认知单元13及一输出单元14。此外,该视觉网页分析系统1还具有一微处理器15,用以链接所述单元并控制该影像分析单元11、该区块分析单元12、该视觉认知单元13及该输出单元14的执行。较佳地,所述单元可以是一计算机中可各自独立执行的主程序或是一程序中相互链接的多个子程序,也可以是内建执行程序的多个硬件装置,并透过一计算机或计算机中的微处理器15链接各硬件装置进行处理,本发明并无特别限定。
该影像分析单元11是用以使该系统1的硬件装置加载一网页数据,并基于至少一视觉特征来划分该网页上的区块,该影像分析单元11还包括一影像处理单元16及一影像分割及组合单元17。该影像处理单元16可进行影像处理,来区别出该网页上的文字与图片,该影像分割及组合单元17可依照网页上文字与图片的关联度,将相关的文字与图片组成一区块,由此将网页分割为多个区块。该影像分析单元11还包括一区块检查单元18,用以检查所述区块的划分是否正确。
该影像分析单元11将该网页划分出所述区块,而该区块分析单元12用以根据每一区块的属性,例如是否具有超链接或单纯为文字或图片等,将所述区块进行归类。该视觉认知单元13则用以辨识所述区块于该网站上的功能,例如所述区块是属于广告或是导引选单等。该输出单元14则用以将所述区块的信息与功能输出。
图2是本发明一种视觉网页分析方法的一实施例的主要流程图。在此实施例中该视觉网页分析方法是使用于图1的该视觉网页分析系统1,并透过该微处理器15来执行,须注意的是,此实施例只是举例,本发明不限于此。首先进行步骤S21,使该视觉网页分析系统1取得一网页数据,由此取得该网页上的视觉信息;接着进行步骤S22,利用该影像分析单元11将该网页上的信息划分为多个区块;之后进行步骤S23,利用该区块分析单元12将所述区块进行归类;之后进行步骤S24,通过该视觉认知单元13分析所述归类后的区块来判断所述区块于网页上的功能。最后进行步骤S25,通过该输出单元14将分析的结果输出。所述步骤将于之后还进一步说明。
于步骤S21中,较佳是由该系统1接收一外部输入的网页数据,该数据可以是一网页本身、一网页的网址、甚至是包含一网址的一批处理文件;即该系统1可被设计为联机至网络去取得网页数据或从浏览器取得网页的信息,但本发明不限于此。更详细地说明,该系统1可以通过网页浏览器取得网页上的数据,或是系统1先取得一网址,之后发送一指令使网页浏览器连上该网址,由此取得网页上的数据。其中该系统1较佳是使用该影像分析单元11取得该网页的数据,但不限于此。
步骤S22是用以将网页划分为多个区块,其是通过该影像分析单元11执行。图3是步骤S22的详细流程图,请一并参照图2及图3,首先进行步骤S31,使用该影像分析单元11的该影像处理单元16对该网页进行影像处理,用以判别出网页上的物件(文字及图片),该影像处理可使用如边缘侦测(edge detection)或光学特性辨识(optical characterrecognition)等影像处理技术,并通过算法执行,来辨识出文字的数量、大小、图片、网页上的空白区域、背景颜色以及分隔线等特征,并将每一特征视为一视觉特征。
之后进行步骤S32,该影像分析单元11的该影像分割及组合单元17依照所述视觉特征,将具有相关联视觉特征的所述物件组成一区块,由此将该网页分割成多个区块,其中,所述的视觉特征的关联程度在此可定义为物件之间位置、物件的颜色、距离远近、空白区域的大小或背景颜色,或是多个特征的组合。由此,构成所述区块中的许多失误可以被减少,例如不会将距离过远的两物件组合。
之后进行步骤S33,该影像分析单元11再次使用该影像处理单元16判断出网页页面上的分隔物件,例如水平线、颜色分界线或连续的空白部分等,接着比对所述分隔物件是否有穿越所述区块,假如有,则该影像分析单元11使用该影像分割及组合单元17将所述被穿越的区块再次分割。
之后进行步骤S34,该影像分析单元11的该区块检查单元18根据一设定条件对每一区块进行检查。假如检查到不符合该设定条件的区块,则重复执行步骤S33,该影像分割及组合单元17对该区块进行再次分割,其中该设定条件是使用者预先设定的条件,例如区块的大小,但本发明不限于此,任何可以用来判断区块的方式都可以被设定为预设条件。
此外,在其它实施例里,步骤S34除了该区块检查单元18根据该默认条件来检查分割是否正确外,该影像分割及组合单元17也可以根据网页上的所述水平线、分隔线或空白区块来合并所述区块,举例来说,假如二区块之间没有任何分隔线存在,且该二区块的大小符合该默认条件,则该影像分割及组合单元17可合并该二区块。
此外,步骤S34也可被设定为在步骤S32及S33之后,从外部接收一用户指令来执行该检查及分割,举例来说,所述区块可以由使用者来检查,且该使用者在检查后可以传送指令来控制该影像分割及组合单元17来执行分割及合并的动作。换句话说,所述区块分割的情形可以完全由使用者来决定。
之后进行步骤S35,该影像分析单元11将分割后的网页数据(区块)传送至该区块分析单元12。此外,该影像分析单元11亦可于传送之前先将所述区块进行整理,较佳是以分层方式将所述区块排列为该区块分析单元12可读取的形式,例如一区块树状信息,该树状信息亦可通过该输出单元14直接输出给用户。
图4是步骤S23的详细流程图,该区块分析单元12基于至少一属性将所述区块进行初步分析,用以辅助判断所述区块的基本功能,此步骤的结果将使用于后续的分析,并使分析结果更为精准。
于此步骤中,该区块分析单元12分析每一区块的属性的强度,并依照下列算式进行分析,该分析是计算每一区块中各属性所占据的程度:
Figure BDA0000706745780000061
其中该文字标签是指HTML里的语法,其为任何可用以显示文字的语法指令,例如<h1>、<p>等,该领域者可知本系统于取得该网页数据时即可取得所述语法数量。另外,该文字超链接是指以文字形式呈现的超链接,举例来说,“back to homepage”即是一个文字超链接。该文字超链接程度是用以呈现一区块里的文字中属于超链接的百分比,假如该程度约高表示该区块中有越多文字超链接。
Figure BDA0000706745780000062
其中该图片标签是指HTML里的语法,其为任何可用以显示图片的语法指令,例如<img>、<canvas>...等,另外,该图片超链接是指以图片形式呈现的超链接。该图片超链接程度是用以呈现一区块里的图片中属于超链接的百分比。
其中字符数量即为文字数量,例如“character”的字符数量即为9。该文字比例是用以呈现一区块中文字数量与整个网页文字数量的比例,该文字比例越高表示该区块于该网页上也越重要。
Figure BDA0000706745780000064
其中该图片文字比值用于计算该区块中图片标签数量与文字标签数量的比值,假如该图片文字比例高时表示该区块是以图片为主。
Figure BDA0000706745780000065
其中该同网域文字超链接是指所述文字超链接都链接于相同的网域,例如雅虎新闻、雅虎购物即属于相同的网域。
其中该同网域图片超链接是指所述图片超链接都链接于相同的网域。
定义完算式后,开始执行步骤S41,所述算式各自被设定一门槛值,值得注意的是,所述算式在此为由该区块分析单元12执行程序来运算或该区块分析单元12本身具备所述算式的算法而可供执行。
之后进行步骤S42,使用该区块分析单元12进行各区块的该图片文字比例运算,用以检查该区块的图片文字比例是否超过该被设定的门槛值,假如超过,则将该区块归类为一图片区块;反之则将其归类为一文字区块。
之后进行步骤S43,使用该区块分析单元12进行所述前一步骤中被归类的区块的文字超链接程度或图片超链接程度运算,若被运算的区块是文字区块,则该区块分析单元12进行文字超链接程度运算,反之,则进行图片超链接程度运算;若该区块的文字超链接程度或图片超链接程度超过门槛值,则该区块被归类为一文字超链接区块或图片超链接区块。
之后执行步骤S44,使用该区块分析单元12进行所述前一步骤中被归类的区块的同网域文字超链接程度或同网域图片超链接程度运算,若被运算的区块是文字超链接区块,则该区块分析单元12进行同网域文字超链接程度运算,反之,则进行同网域图片超链接程度运算;若该区块的同网域文字超链接程度或同网域图片超链接程度超过门槛值,则该区块被归类为一同网域文字超链接区块或同网域图片超链接区块,反之则归类为外部网域文字超链接区块或外部网域图片超链接区块。
在其它实施例里,更多的网页语言(HTML)标签可以被使用。举例来说,“<input>=inputbox”标签的有无可以被用来判断该区块是否是输入字段(inputbox),“<select>=dropdown menu”标签的有无可以被用来判断该区块是否是下拉式选单(dropdown menu),或假如该区块里没有HTML标签,则该区块将被认定为是几乎无数据的一噪声区块。
完成步骤S44后,所述区块可以被初步分类,该初步分类的结果可用于后续的步骤,用以辅助该视觉认知单元13分析各区块的功能。
图5是步骤S24的一实施例的详细流程图,该视觉认知单元13比对每一区块的至少一相对位置特征来判断每一区块于该网页上的功能,其中所述功能较佳可分为主内容、副内容、广告及导引选单功能。
首先进行步骤S51,该视觉认知单元13比较所述区块于该网页上的一位置特征,并判断每一区块是位于该网页上相对中间、相对边缘或相对两侧位置。判断区块的相对位置是由于一网页上最重要的主内容通常是集中在中间部分,而广告则是位于边缘部分,另外导引选单则常以垂直方式位于网页的两侧或是以水平方式位于顶端。
之后进行步骤S52,该视觉认知单元13比较所述区块的一大小特征,并决定每一区块的相对大小。判断区块的相对大小是由于一网页上的主内容通常是位于较大区块,而广告与导引选单通常位于较小区块。
之后进行步骤S53,该视觉认知单元13判断所述区块于网页上的功能。其中若该区块相对较大且位于网页中相对中间的位置,则该区块被该视觉认知单元13定义为主要内容区块,另外若该区块位于该网页的顶端且具有较高的该文字比例,则该区块亦可被定义为主要内容区块;若该区块相对小于该主要内容区块,且位于网页的边缘位置,则该区块被定义为广告区块;若该区块位于网页的左右侧并垂直排列,或是位于网页顶端或底部并水平排列,则定义该区块为导引选单区块。
另外,该视觉认知单元13亦可采用不同的特征进行判断,在另一实施例里,该视觉认知单元13比较所述区块的一数据表现特征,并判断每一区块的相对表现方式。其中,主内容里的文字通常是较相似的字体与字号,如图6的一网页示意图所示,一主要内容区块61里的字体与字号皆相同;而广告为了与主内容区别,其字体与字号常与主要内容区块不同,如一广告区块62所示;而导引选单里的字体与字体大小则常与主内容里的表现相似,为区分该导引选单与该主要内容区块,亦可将所述数据表现特征与步骤S51或S52组合,使其分别出该导引选单与主要内容区块,如一导引选单区块63所示,该导引选单内的字体与字体大小相似,但区块排列于该网页的左侧,故本实施利可用以精准地判断所述区块于网页上的功能。
在其它实施例中,该视觉认知单元13亦可通过一图案认知方法来分析所述区块的功能,其中该图案认知方法用以比较该网页上所述物件的配置。举例来说,一导引选单通常是有多个具有相关的视觉特征的物件所组成,其中所述物件规律地配置在该网页上。由此,具有一系列相同大小及颜色的文字交替地配置于该网页上的区块将可以被视为一导引选单。
由此可知该视觉认知单元13可基于所述区块的位置、区块的大小、区块中物件的配置情形、区块中物件的颜色等来判断所述区块的功能。前述关于判断的方法的说明只是举例,并非限定。
之后该输出单元14将所述区块与所述区块的功能的汇集于一信息界面,并输出该信息界面给用户。该信息界面可以为一网页文件格式(HTML)或一图片文件,但也可以是其它格式的档案,于本发明并无限制。
由此,该系统可以基于用户视觉上的习惯来分析网页的数据以及功能,且提升准确率,由此完成整个网页的分析,且允许分析方法可以被扩展。
图7是本发明的视觉网页分析方法的另一实施例的流程图。在此实施例里,该视觉网页分析方法是使用于图1的该视觉网页分析系统1上,并且由该微处理器15来执行。在此方法下,首先执行步骤S71,该视觉网页分析系统1可读取一网页的数据来取得该网页的视觉数据。接着进行步骤S72,通过该影像分析单元11将该网页分割为多个区块。接着进行步骤S73,使用该区块分析单元12依照所述区块的视觉特征将所述区块第一次分类。接着进行步骤S74,通过视觉认知单元13来分析所述被分类的区块,由此判断所述区块于该网页上的功能。之后执行步骤S75,通过该输出单元14将分析结果输出。每一步骤在之后将会详细说明。
在步骤S71里,较佳地,该系统1由一外部输入接收网页数据,且该数据可以是一网页的一影像,但并非限制。更明确地,该系统1可由一外部的摄影机取得该网页的影像,或该系统1可执行程序来撷取该网页的影像。在此实施例里,该系统1较佳但不限于使用该影像分析单元11来取得该网页的影像。
步骤S72用以使用该影像分析单元11将该网页分割为多个区块,其细节与步骤S22相同。
步骤S73是将所述区块第一次分类,以基于视觉特征来判断是否所述区块是输入字段、下拉式选单或噪声区块。请一并参考图8(a)及图8(b),该区块分析单元12是使用目前的边缘特征或特征侦测技术,并且依照下列条件来判断所述区块的属性:
所述区块是矩形并包括一些空白区域81,且所述空白区域81是矩形;
所述矩形空白区域81的周围具有明显的分隔线82;
所述区块里具有提示文字83;以及
所述区块里具有可以点选的按钮的影像。
较佳地,假如一区块符合至少一前述条件,该区块分析单元12判断该区块为一输入字段,如图8(a)所示。
假如该区块是输入字段,则执行步骤(e),判断所述矩形空白区域81是否具有至少一指示箭头85,假如有,则该区块分析单元12判断该区块是一下拉式选单,如图8(b)所示。
假如该区块分析单元12使用目前的边缘侦测或特征侦测技术,但在区块里未有找出任何文字或图案,或者所述文字或图案的数量或大小为小于一设定值,或该区块的大小过小,则该区块分析单元12判断该区块是一噪声区块。
由此,完成步骤S73,至少三种网页区块的属性可以被判断,使得整个分析可以更加准确。
步骤S74是用以判断该网页里每一区块的功能。此步骤是通过该视觉认知单元13来比较该网页上每一区块的至少一相对特征,其中所述功能较佳是分类为主要内容、广告以及导引功能。如同图5所示,该视觉认知单元13比较该网页里每一区块的位置特征来判断每一区块的相对位置。所述相对位置可分为一相对中心位置、一相对边缘位置或一相对侧边位置。由于重要的主要内容通常位于一网页的中心,而广告通常在网页的边缘位置,以及导引选单通常位于网页的两侧,故此步骤使用所述区块的位置作为判断的基础。之后,该视觉认知单元13比较每一区块的大小特征来判断每一区块的相对大小。因为一较大的区块通常由主要内容所构成,而一较小的区块通常由广告或导引选单所构成,此步骤亦使用区块大小作为判断的基础。之后,该视觉认知单元13判断该网页里所述区块的功能。假如该区块相对较大且位于该网页里相对中心的位置,则该视觉认知单元13定义该区块为主要内容区块。此外,假如该区块具有较高的文字比例并位于该网页的顶部位置,则该区块亦被定义为主要内容区块。假如该区块是小于该主要文件区块,且位于该网页的边缘,则该区块被定义为广告区块。假如该区块是垂直地位于该网页的左侧或右侧,或者水平地位于该网页的顶端或底端,该区块被定义为导引选单区块。
此外,在步骤S74里,其可根据步骤S73来使用更多影像认知规则以判断每一区块的功能。举例来说,假如该输入字段是位于该网页的上方,该输入字段可以被视为一搜寻功能区块。由此,假如更多的分类可以在步骤S73被决定,则步骤S74可以判断更多区块的功能。
此外,该视觉认知单元13可使用不同的特征来判断。根据其它实施例,该视觉认知单元13比较每一区块的数据呈现特征来判断每一区块的相对呈现形式。通常地,主要内容区块里文字的字体及字体大小是相同的。如图6所示的一网页的示意图,该主要内容区块61里文字的字体和字体大小相同。为了区别主要内容区块,该广告区块通常与主要内容区块具有不同的字体与字体大小,例如图6所示的一广告区块62。导引区块通常具有与主要内容区块相同的字体与字体大小,为了区别导引区块与主要内容区块,此实施例可以组合步骤S51或S52来区别。如同图6里的导引选单区块63,其具有相同的字体与字体大小,并且位于该网页的左侧。因此,此实施例可用以准确地判断该网页里所述区块的功能。
在其它实施例中,该视觉认知单元13亦可通过一图案认知方法来分析所述区块的功能,其中该图案认知方法用以比较该网页上所述物件的配置。举例来说,一导引选单通常是由多个具有相关的视觉特征的物件所组成,其中所述物件规律地配置在该网页上。由此,具有一系列相同大小及颜色的文字交替地配置于该网页上的区块将可以被视为一导引选单。
之后,执行步骤S75,后该输出单元14将所述区块与所述区块的功能汇集于一信息界面,并输出该信息界面给用户。该信息界面可以为一网页文件格式(HTML)或一图片文件,但也可以是其它格式的档案,于本发明并无限制。
由此,该系统可以基于用户视觉上的习惯来分析网页的数据以及功能,且提升准确率,由此完成整个网页的分析,且允许分析方法可以被扩展。
上述实施例仅是为了方便说明而举例而已,本发明所主张的权利范围自应以权利要求范围所述为准,而非仅限于上述实施例。

Claims (20)

1.一种视觉网页分析系统,用于视觉分析一网页上的数据,其特征在于,该系统包括:
一影像分析单元,用以加载一网页数据,由外部的摄影机拍摄,或执行程序撷取整个该网页成为一影像,并基于该网页的该影像的至少一视觉特征来划分该网页上的区块;
一区块分析单元,基于每一区块的至少一属性将所述区块归类,用以辅助判断所述区块的基本功能;
一视觉认知单元,比对每一区块的至少一相对特征来判断每一区块于该网页上的功能;以及
一输出单元,将所述区块与其功能汇集于一信息界面,并输出该信息界面;
其中,影像分析单元、区块分析单元、视觉认知单元和输出单元是通过一微处理器进行处理,据以分析出网页上的物件及所述物件的功能,并显示于该信息界面上;
其中,该影像分析单元将依区块分割后的网页数据传送至该区块分析单元,所述区块分析单元是透过一图片超链接程度、一文字比例、一图片文字比值、一同网域文字超链接程度及一同网域图片超链接程度其中至少之一者对每一区块进行属性分析及归类,或者所述区块分析单元是透过所述图片超链接程度、所述文字比例、所述图片文字比值、所述同网域文字超链接程度、所述同网域图片超链接程度及一文字超链接程度其中至少之二者对每一区块进行属性分析及归类;
文字超链接程度=该区块中的文字超链接数量/该区块中的文字标签数量,
其中该文字标签是指HTML里的语法,其为任何用以显示文字的语法指令;
图片超链接程度=该区块中的超链接图片数量/该区块中的图片标签数量,
其中该图片标签是指HTML里的语法,其为任何用以显示图片的语法指令;
文字比例=该区块中的字符数量/整个网页中的字符数量,
其中字符数量即为文字数量;
图片文字比值=该区块中的图片标签数量/该区块中的文字标签数量,
其中该图片文字比值用于计算该区块中图片标签数量与文字标签数量的比值;
同网域文字超链接程度=该区块中的同网域文字超链接数量/该区块中的文字超链接数量,其中该同网域文字超链接是指所述文字超链接都链接于相同的网域;
同网域图片超链接程度=该区块中的同网域图片超链接数量/该区块中的图片超链接数量,其中该同网域图片超链接是指所述图片超链接都链接于相同的网域。
2.如权利要求1所述的视觉网页分析系统,其特征在于,该影像分析单元具备一影像处理单元,用以进行影像处理来区别出该网页上的文字与图片。
3.如权利要求2所述的视觉网页分析系统,其特征在于,该影像分析单元具备一影像分割及组合单元,该影像分割及组合单元基于至少一视觉特征,将具有相关联视觉特征的所述文字或图片组成一区块。
4.如权利要求2所述的视觉网页分析系统,其特征在于,该影像分析单元还具备一区块检查单元,通过一辅助物件的位置来检查所述区块的划分是否正确。
5.如权利要求4所述的视觉网页分析系统,其特征在于,该辅助物件为网页上的分隔线。
6.如权利要求1所述的视觉网页分析系统,其特征在于,该区块分析单元根据所述区块的网页语言(HTML)来判断每一区块的属性。
7.如权利要求1所述的视觉网页分析系统,其特征在于,该区块分析单元根据所述区块的视觉特征来判断是否每一区块的属性是属于输入字段或下拉式选单。
8.如权利要求1所述的视觉网页分析系统,其特征在于,所述区块于网页上的相对位置。
9.如权利要求8所述的视觉网页分析系统,其特征在于,还包括所述区块的大小。
10.如权利要求1所述的视觉网页分析系统,其特征在于,包括所述区块上所述物件的配置方式。
11.如权利要求1所述的视觉网页分析系统,其特征在于,包括所述区块上所述物件的视觉特征。
12.一种视觉网页分析方法,是透过一微处理器执行并用于视觉分析一网页上的数据,包括步骤:
(a)由影像分析单元加载一网页的数据,由外部的摄影机拍摄,或执行程序撷取整个该网页成为一影像;
(b)由影像分析单元基于该网页的该影像的至少一视觉特征以划分该网页上的区块;
(c)由区块分析单元基于每一区块的至少一属性将所述区块归类,用以辅助判断所述区块的基本功能;
(d)由视觉认知单元比对每一区块的至少一相对特征来判断每一区块于该网页上的功能;以及
(e)由输出单元将所述区块与其功能汇集于一信息界面,并输出该信息界面;
其中,该影像分析单元将依区块分割后的网页数据传送至该区块分析单元,基于每一区块的至少一属性将所述区块归类的步骤是透过一图片超链接程度、一文字比例、一图片文字比值、一同网域文字超链接程度及一同网域图片超链接程度其中至少之一者对每一区块进行属性分析及归类,或者基于每一区块的至少一属性将所述区块归类的步骤是透过所述图片超链接程度、所述文字比例、所述图片文字比值、所述同网域文字超链接程度、所述同网域图片超链接程度及一文字超链接程度其中至少之二者对每一区块进行属性分析及归类;
文字超链接程度=该区块中的文字超链接数量/该区块中的文字标签数量,
其中该文字标签是指HTML里的语法,其为任何用以显示文字的语法指令;
图片超链接程度=该区块中的超链接图片数量/该区块中的图片标签数量,
其中该图片标签是指HTML里的语法,其为任何用以显示图片的语法指令;
文字比例=该区块中的字符数量/整个网页中的字符数量,
其中字符数量即为文字数量;
图片文字比值=该区块中的图片标签数量/该区块中的文字标签数量,
其中该图片文字比值用于计算该区块中图片标签数量与文字标签数量的比值;
同网域文字超链接程度=该区块中的同网域文字超链接数量/该区块中的文字超链接数量,其中该同网域文字超链接是指所述文字超链接都链接于相同的网域;
同网域图片超链接程度=该区块中的同网域图片超链接数量/该区块中的图片超链接数量,其中该同网域图片超链接是指所述图片超链接都链接于相同的网域。
13.如权利要求12所述的视觉网页分析方法,其特征在于,该步骤(b)还包括进行影像处理来区别出该网页上的文字与图片。
14.如权利要求13所述的视觉网页分析方法,其特征在于,该步骤(b)还包括将具有相关联视觉特征的所述文字或图片组成一区块。
15.如权利要求12所述的视觉网页分析方法,其特征在于,该步骤(b)还包括通过一辅助物件的位置来检查所述区块的划分是否正确。
16.如权利要求12所述的视觉网页分析方法,其特征在于,辅助物件是一网页分隔线。
17.如权利要求12所述的视觉网页分析方法,其特征在于,该步骤(d)中所述区块于网页上的相对位置。
18.如权利要求12所述的视觉网页分析方法,其特征在于,还包括所述区块的大小。
19.如权利要求12所述的视觉网页分析方法,其特征在于,被输出的该信息界面是一图片。
20.如权利要求12所述的视觉网页分析方法,其特征在于,被输出的该信息界面是一网页。
CN201510204481.2A 2014-10-28 2015-04-27 视觉网页分析系统与方法 Active CN106156236B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/525,282 US10664647B2 (en) 2014-10-28 2014-10-28 Visual web page analysis system and method
US14/525,282 2014-10-28

Publications (2)

Publication Number Publication Date
CN106156236A CN106156236A (zh) 2016-11-23
CN106156236B true CN106156236B (zh) 2020-01-31

Family

ID=55792127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510204481.2A Active CN106156236B (zh) 2014-10-28 2015-04-27 视觉网页分析系统与方法

Country Status (3)

Country Link
US (1) US10664647B2 (zh)
CN (1) CN106156236B (zh)
TW (1) TWI615766B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108205544A (zh) * 2016-12-16 2018-06-26 腾讯科技(深圳)有限公司 网页内容识别方法、装置、服务器
CN108399167B (zh) * 2017-02-04 2022-04-29 百度在线网络技术(北京)有限公司 网页信息提取方法和装置
CN110020038A (zh) * 2017-08-01 2019-07-16 阿里巴巴集团控股有限公司 网页信息提取方法、装置、系统及电子设备
US11462037B2 (en) 2019-01-11 2022-10-04 Walmart Apollo, Llc System and method for automated analysis of electronic travel data
US11080025B2 (en) 2019-07-08 2021-08-03 International Business Machines Corporation Back-end application code stub generation from a front-end application wireframe
US11392758B2 (en) * 2020-04-20 2022-07-19 Microsoft Technology Licensing, Llc Visual parsing for annotation extraction
CN111767492B (zh) * 2020-06-30 2023-04-11 中国平安财产保险股份有限公司 图片加载方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937438A (zh) * 2009-06-30 2011-01-05 富士通株式会社 网页内容提取方法和装置
CN102135958A (zh) * 2010-01-21 2011-07-27 宏碁股份有限公司 网页撷取方法及网页撷取系统
CN102236658A (zh) * 2010-04-26 2011-11-09 富士通株式会社 网页内容提取方法和装置
CN102799638A (zh) * 2012-06-25 2012-11-28 浙江大学 一种面向网页内容无障碍访问的页内导航生成方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6014679A (en) * 1995-12-01 2000-01-11 Matsushita Electric Industrial Co., Ltd. Item selecting apparatus in a system for browsing items for information
US6226407B1 (en) * 1998-03-18 2001-05-01 Microsoft Corporation Method and apparatus for analyzing computer screens
US6373985B1 (en) * 1998-08-12 2002-04-16 Lucent Technologies, Inc. E-mail signature block analysis
US6470094B1 (en) * 2000-03-14 2002-10-22 Intel Corporation Generalized text localization in images
US6473522B1 (en) * 2000-03-14 2002-10-29 Intel Corporation Estimating text color and segmentation of images
US7783500B2 (en) * 2000-07-19 2010-08-24 Ijet International, Inc. Personnel risk management system and methods
EP1958090A4 (en) * 2005-12-07 2008-12-03 3Dlabs Inc Ltd METHOD FOR MANIPULATING WEBSITES
US8448015B2 (en) * 2008-06-17 2013-05-21 My Computer Works, Inc. Remote computer diagnostic system and method
US8320665B2 (en) * 2009-05-13 2012-11-27 Tata Consultancy Services Ltd. Document image segmentation system
US8423900B2 (en) * 2009-08-20 2013-04-16 Xerox Corporation Object based adaptive document resizing
US20140372873A1 (en) * 2010-10-05 2014-12-18 Google Inc. Detecting Main Page Content
WO2014024197A1 (en) * 2012-08-09 2014-02-13 Winkapp Ltd. A method and system for linking printed objects with electronic content
CN103631796A (zh) * 2012-08-22 2014-03-12 纬创资通股份有限公司 网址分类管理方法及电子装置
US8943468B2 (en) * 2012-08-29 2015-01-27 Kamesh Sivaraman Balasubramanian Wireframe recognition and analysis engine

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937438A (zh) * 2009-06-30 2011-01-05 富士通株式会社 网页内容提取方法和装置
CN102135958A (zh) * 2010-01-21 2011-07-27 宏碁股份有限公司 网页撷取方法及网页撷取系统
CN102236658A (zh) * 2010-04-26 2011-11-09 富士通株式会社 网页内容提取方法和装置
CN102799638A (zh) * 2012-06-25 2012-11-28 浙江大学 一种面向网页内容无障碍访问的页内导航生成方法

Also Published As

Publication number Publication date
TWI615766B (zh) 2018-02-21
TW201616329A (zh) 2016-05-01
CN106156236A (zh) 2016-11-23
US20160117292A1 (en) 2016-04-28
US10664647B2 (en) 2020-05-26

Similar Documents

Publication Publication Date Title
CN106156236B (zh) 视觉网页分析系统与方法
US10223345B2 (en) Interactively predicting fields in a form
US7937338B2 (en) System and method for identifying document structure and associated metainformation
US8762873B2 (en) Graphical user interface component identification
US20140143721A1 (en) Information processing device, information processing method, and computer program product
JP4945813B2 (ja) 印刷構造化文書
EP2506218B1 (en) Method, terminal, and computer-readable recording medium for trimming a piece of image content
KR20160132842A (ko) 플로우 문서를 생성하기 위한 이미지 문서 컴포넌트 검출 및 추출 기법
US20190220481A1 (en) System and method for feature recognition and document searching based on feature recognition
CN110516221A (zh) 提取pdf文档中图表数据的方法、设备和存储介质
CN113255501B (zh) 生成表格识别模型的方法、设备、介质及程序产品
US20150154718A1 (en) Information processing apparatus, information processing method, and computer-readable medium
RU2605078C2 (ru) Сегментация изображения для верификации данных
CN113657361A (zh) 页面异常检测方法、装置及电子设备
CN113688872A (zh) 一种基于多模态融合的文档版面分类方法
CN103942211A (zh) 一种正文页的识别方法及装置
JP2006309347A (ja) 対象文書からキーワードを抽出する方法、システムおよびプログラム
CN116246287B (zh) 目标对象识别方法、训练方法、装置以及存储介质
US20190332859A1 (en) Method for identifying main picture in web page
CN114254231A (zh) 网页内文抽取方法
US9378428B2 (en) Incomplete patterns
CN116109874A (zh) 一种检测方法、装置、电子设备和存储介质
CN113033333B (zh) 实体词识别方法、装置、电子设备和存储介质
CN115223173A (zh) 对象识别方法、装置、电子设备及存储介质
US8077977B2 (en) Image processing system, image processing method, computer readable medium and computer data signal

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant