CN108021600A - 网页数据捕获设备及其网页数据撷取方法 - Google Patents

网页数据捕获设备及其网页数据撷取方法 Download PDF

Info

Publication number
CN108021600A
CN108021600A CN201611000331.0A CN201611000331A CN108021600A CN 108021600 A CN108021600 A CN 108021600A CN 201611000331 A CN201611000331 A CN 201611000331A CN 108021600 A CN108021600 A CN 108021600A
Authority
CN
China
Prior art keywords
data
web
web page
page joint
capture device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611000331.0A
Other languages
English (en)
Inventor
黄奕翔
邱育贤
萧晖议
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute for Information Industry
Original Assignee
Institute for Information Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute for Information Industry filed Critical Institute for Information Industry
Publication of CN108021600A publication Critical patent/CN108021600A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/457Network directories; Name-to-address mapping containing identifiers of data entities on a computer, e.g. file names

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种网页数据捕获设备及其网页数据撷取方法。网页数据捕获设备执行:根据网页数据的URL的地址关联性,将网页数据分为URL群组;自URL群组的网页数据中挑选第一网页数据以及第二网页数据;解析第一网页数据以及第二网页数据得网页节点数据集合;根据网页节点数据集合的网页节点数据的XML路径语言的路径关联性以及文字内容的文字关联性,将网页节点数据集合的网页节点数据分为多个网页节点数据群组;分别计算各网页节点数据群组的一文字内容总和;根据文字内容总和,判断网页节点数据群组的主要网页节点数据群组;根据主要网页节点数据群组包含的网页节点数据的XML路径语言决定网页主要内容撷取信息。

Description

网页数据捕获设备及其网页数据撷取方法
技术领域
本发明系关于一种网页数据捕获设备及其网页数据撷取方法;更具体而言,本发明系关于一种自动化的网页数据捕获设备及其网页数据撷取方法。
背景技术
随着因特网应用发展,各式各样的信息皆可从不同的网页获取,因此,当有特定数据分析需求时,便可针对相关网站的网页,撷取其主要内容后分析处理。
而习知的网页主要内容撷取方式中,多采人工抓取分析进行,然而,以人工的方式针对不同网站的不同网页进行主要内容判断,其效率相当不理想。据此,为提升网页主要内容撷取效率,便有以客工艺式为主,针对网页的各种样板(templates)及其排版(layout)作为训练数据(training data),进行网页分析及主要内容撷取的技术。
惟此种客工艺式的方式,仅能针对特定网页的样板及排版进行处理,因此,当网页改版或其语法结构稍微调整,若不针对客工艺式进行相应的调整,将会导致分析及撷取的结果发生明显错误。
更者,因网页格式排版日趋复杂,因此网页信息量亦大幅大幅增加,单一网页的网页节点(webpage node)可能高达近千个,据此,当网页的结构或型态发生更动时,客工艺式调整的复杂程度将更显困难,甚至可能需要重新撰写客工艺式,如此,同样导致网页主要内容判断的效率不佳。
因此,如何改进习知网页主要内容撷取效率不佳的缺点,乃业界须共同努力的目标。
发明内容
本发明的主要目的系提供一种用于网页数据捕获设备的网页数据撷取方法。网页数据捕获设备自网页服务器接收多个网页数据。网页数据撷取方法包含:(a)令网页数据捕获设备根据多个网页数据的多个统一资源寻址器(uniform resource locator,URL)的地址关联性,将多个网页数据分为至少一URL群组。其中,至少一URL群组包含第一URL群组,第一URL群组包含至少部分多个网页数据;(b)令网页数据捕获设备自第一URL群组的部分多个网页数据中,挑选第一网页数据以及第二网页数据;(c)令网页数据捕获设备解析第一网页数据以及第二网页数据得网页节点数据集合。其中,网页节点数据集合包含多个网页节点数据,各网页节点数据报含相对应的XML路径语言(XML Path Language)以及文字内容。
前述网页数据撷取方法进一步包含:(d)令网页数据捕获设备根据网页节点数据集合的多个网页节点数据的多个XML路径语言的路径关联性以及多个文字内容的文字关联性,将网页节点数据集合的多个网页节点数据分为多个网页节点数据群组。其中,各网页节点数据群组至少包含部分多个网页节点数据;(e)令网页数据捕获设备分别计算各网页节点数据群组的部分多个网页节点数据的文字内容总和;(f)令网页数据捕获设备根据多个文字内容总和,判断多个网页节点数据群组的至少一主要网页节点数据群组;(g)令网页数据捕获设备根据至少一主要网页节点数据群组包含的部分多个网页节点数据的多个XML路径语言,决定网页主要内容撷取信息。
为达上述目的,本发明揭露一种网页数据捕获设备,包含接收单元以及处理单元。接收单元用以自网页服务器接收多个网页数据。处理单元用以:根据多个网页数据的多个URL的地址关联性,将多个网页数据分为至少一URL群组。其中,至少一URL群组包含第一URL群组,第一URL群组包含至少部分多个网页数据;自第一URL群组的部分多个网页数据中,挑选第一网页数据以及第二网页数据;解析第一网页数据以及第二网页数据得网页节点数据集合。其中,网页节点数据集合包含多个网页节点数据,各网页节点数据报含相对应的XML路径语言以及文字内容。
前述处理单元进一步用以:根据网页节点数据集合的多个网页节点数据的多个XML路径语言的路径关联性以及多个文字内容的文字关联性,将网页节点数据集合的多个网页节点数据分为多个网页节点数据群组。其中,各网页节点数据群组至少包含部分多个网页节点数据;分别计算各网页节点数据群组的部分多个网页节点数据的文字内容总和;根据多个文字内容总和,判断多个网页节点数据群组的至少一主要网页节点数据群组;根据至少一主要网页节点数据群组包含的部分多个网页节点数据的多个XML路径语言,决定网页主要内容撷取信息。
此外在参阅图式及随后描述的实施方式后,本领域普通技术人员便可了解本发明的其他目的,以及本发明的技术手段及实施态样。
附图说明
图1A系本发明第一实施例的网页数据撷取操作示意图;
图1B系本发明第一实施例的网页数据捕获设备的方块图;
图2A系本发明第二实施例的网页数据撷取操作示意图;
图2B系本发明第二实施例的网页数据捕获设备的方块图;
图3系本发明第三实施例的网页数据撷取方法的流程图;以及
图4系本发明第四实施例的网页数据撷取方法的流程图。
符号说明
1、2 网页数据捕获设备
11、21 接收单元
13、23 处理单元
wp 网页数据
ul 统一资源寻址器
ug 至少一URL群组
UL1 第一URL群组
WP1 第一网页数据
WP2 第二网页数据
ND 网页节点数据
NDX XML 路径语言
NDT 文字内容
wpg 网页节点数据集合
ndg 网页节点数据群组
MNDG 至少一主要网页节点数据群组
MX 网页主要内容撷取信息
具体实施方式
下将透过实施方式来解释本发明的内容。须说明者,本发明的实施例并非用以限制本发明须在如实施例所述的任何特定的环境、应用或特殊方式方能实施。因此,有关实施例的说明仅为阐释本发明的目的,而非用以限制本发明,且本案所请求的范围,以权利要求为准。除此之外,于以下实施例及图式中,与本发明非直接相关的元件已省略而未绘示,且以下图式中各元件间的尺寸关系仅为求容易了解,非用以限制实际比例。
请参考图1A~图1B。图1A系本发明第一实施例的网页数据撷取操作示意图,图1B系本发明第一实施例的一网页数据捕获设备1的方块图。网页数据捕获设备1包含一接收单元11以及一处理单元13,并透过接收单元11与一网页服务器9连接。元件间的互动将于下文中进一步阐述。
首先,当需要分析网页服务器9的网页时,网页数据捕获设备1的接收单元11自网页服务器9接收多个网页数据wp。其中,基于因特网使用原则,各网页数据wp皆有其相应的统一资源寻址器(uniform resource locator,URL)ul。
接着,网页数据捕获设备1的处理单元13便根据多个网页数据wp的多个URL ul的地址关联性,将多个网页数据wp分为至少一URL群组ug。其中,至少一URL群组ul包含一第一URL群组UL1,而第一URL群组UL1包含至少部分网页数据wp。
须说明,此分群用意在于,初步地根据URL特性,将网页内容相似度较高的网页进行分类,以利后续比对分析。换言之,由于相同样板及排版的网页,其URL地址的形式通常较为相近,因此,根据网页数据的URL的地址关联性,便可进行初步分群。
随后,网页数据捕获设备1的处理单元13自第一URL群组UL1的部分网页数据中,挑选一第一网页数据WP1以及一第二网页数据WP2,并解析第一网页数据WP1以及第二网页数据WP2得一网页节点数据集合wpg。
详言之,由于单一网页中包含多个网页节点(webpage node),因此,解析第一网页数据WP1以及第二网页数据WP2的语法便可得到包含多个网页节点数据ND的网页节点数据集合wpg。其中,各网页节点数据ND包含相对应的一XML路径语言(XML Path Language)NDX以及一文字内容NDT。
据此,网页数据捕获设备1的处理单元13便可根据网页节点数据集合wpg的多个网页节点数据ND的多个XML路径语言NDX的路径关联性以及多个文字内容NDT的文字关联性,将网页节点数据集合wpg的多个网页节点数据ND分为多个网页节点数据群组ndg。其中,各网页节点数据群组ndg至少包含部分网页节点数据ND。
须说明,类似地,此分群用意在于,根据XML语法以及文字内容的特性,将内容相似度较高的网页节点进行分类,以利后续主要内容的判断。换言之,即根据网页节点的XML路径语言的路径关联性,将XML语法相似度较高的网页节点分群,另一方面,亦可根据网页节点的文字内容的文字关联性,将内容相似度较高的网页节点分群。
接着,网页数据捕获设备1的处理单元13分别计算各网页节点数据群组ndg的部分网页节点数据ND的一文字内容总和(未绘示),即计算同一网页节点数据群组ndg的网页节点数据ND的文字总长度,并根据多个文字内容总和,判断多个网页节点数据群组ndg的至少一主要网页节点数据群组MNDG。
具体而言,由于同一网络页面中,具有主要内容的网页节点数据通常具有数据量较大的文字内容,因此,前述分群主要系根据同一网页节点数据群组的网页节点数据的文字内容总和,将具有主要内容的网页节点数据与不具有主要内容的网页节点数据进行划分。
据此,网页数据捕获设备1的处理单元13便可根据至少一主要网页节点数据群组MNDG包含的部分网页节点数据ND的XML路径语言NDX,决定一网页主要内容撷取信息MX。更进一步来说,网页主要内容撷取信息MX主要系XML路径语言NDX的集合。
如此一来,在前述URL群组具有相同性质(例如样板及排版)网页的情况下,网页数据捕获设备1的处理单元13后续便可直接根据此XML路径语言NDX的集合,于URL群组中直接选择具有主要内容的网页节点,以便后续主要内容的分析及利用。
请参考图2A-图2B。图2A系本发明第二实施例的网页数据撷取操作示意图,图2B系本本发明第二实施例的一网页数据捕获设备2的方块图。网页数据捕获设备2包含一接收单元21以及一处理单元23,并透过接收单元21与网页服务器9连接。第二实施例主要系进一步用范例解释网页数据捕获设备2撷取分析网页的细节。
同样地,当需要分析网页服务器9的网页时,网页数据捕获设备2的接收单元21自网页服务器9接收多个网页数据wp,而基于因特网使用原则,各网页数据wp皆有其相应的URL ul,其中,网页数据wp及相对应的URL ul如下表格绘示:
wp URL
1 http://www.aaaaa.com/item1.html
2 http://www.aaaaa.com/item2.html
3 http://www.aaaaa.com/item3.html
4 http://www.aaaaa.com/list1.html
5 http://www.aaaaa.com/list2.html
接着,网页数据捕获设备2的处理单元23便根据多个网页数据wp的多个URL ul的地址关联性,将多个网页数据wp分为至少一URL群组ug。其中,至少一URL群组ul包含第一URL群组UL1,而第一URL群组UL1包含至少部分网页数据WP。须说明,第二实施例中,此处的URL分群组主要系基于最小编辑距离(Minimum Edit Distance,MED)完成。
详言之,网页数据捕获设备2的处理单元23将多个网页数据wp的多个URL ul两两进行最小编辑距离计算,得结果如下表:
MED值 item1.html item2.html item3.html list1.html list2.html
item1.html 0 1 1 4 5
item2.html 0 1 5 4
item3.html 0 5 5
list1.html 0 1
list2.html 0
据此,网页数据捕获设备2的处理单元23可根据上表内容,将MED值小于一URL门槛值的网页数据配对加至同一URL群组中。以第二实施例来说,URL门槛值为2,因此,MED值为1的网页配对将分在同一URL群组。
详言之,第一URL群组UL1所包含的至少部分网页数据WP即为http://www.aaaaa.com/item1~3.html。另外,至少一URL群组ul亦可包含一第二URL群组(未绘示),且第二URL群组包含至少部分网页数据WP,即http://www.aaaaa.com/list1~2.html,惟相同URL群组的操作相同,后续将仅以第一URL群组UL1为主。
接着,网页数据捕获设备2的处理单元23自第一URL群组UL1的部分网页数据中,挑选数据量(即网页数据的HTML size)最高的第一网页数据WP1以及数据量第二高的第二网页数据WP2,并解析第一网页数据WP1以及第二网页数据WP2得网页节点数据集合wpg。
详言之,由于单一网页中包含多个网页节点,因此,解析第一网页数据WP1以及第二网页数据WP2的语法便可得到包含多个网页节点数据ND的网页节点数据集合wpg。其中,各网页节点数据ND包含相对应的XML路径语言NDX以及文字内容NDT,内容详如下表:
随后,于第二实施例中,可进一步将重复或无效的网页节点数据ND自网页节点数据集合wpg中删除。具体而言,网页数据捕获设备2的处理单元23根据上述表格,自文字内容NDT中挑选至少一无效文字内容以及至少一重复节点数据。以前述表格为例,无效文字内容为‘0’以及’null’,重复节点数据为’html/body/div[1]/div[2]/div[2]/div[3]/div[3]/div[6]||返回首页’。因此,调整后的网页节点数据集合wpg的网页节点数据ND内容如下表所示:
NDX NDT
html/body/div[1]/div[2]/p[2] …选择讨论…
html/body/div[1]/main[1]/article[1] …影音配备…
html/body/div[1]/main[1]/article[2] …价钱太贵…
html/body/div[1]/main[1]/article[1] …分享信息…
html/body/div[1]/main[1]/article[1]/div[1]/div[2] …影音配备…
html/body/div[1]/main[1]/article[2]/div[1]/div[2] …价钱太贵…
html/body/div[1]/main[1]/article[1]/div[1]/div[2] …分享信息…
随即,网页数据捕获设备2的处理单元23便可根据网页节点数据集合wpg的多个网页节点数据ND的多个XML路径语言NDX的路径关联性以及多个文字内容NDT的文字关联性,将网页节点数据集合wpg的多个网页节点数据ND分为多个网页节点数据群组ndg。
更详细而言,第二实施例中,此处的网页节点数据分群组的技术主要可分为两部分进行。首先,第一部分,类似地,将前述表格的网页节点数据ND的XML路径语言NDX两两进行最小编辑距离计算,并将MED值小于一XML门槛值(未绘示)的网页节点数据ND配对加至同一路径群组XG中。以第二实施例来说,分组状况如下表所示:
接着,第二部分,于各路径群组XG中,针对网页节点数据ND的文字内容NDT进行TF-IDF(term frequency–inverse document frequency)计算,得相应的多个用语频率向量,并计算两两文字内容的用语频率向量间的余弦值,若大于一文字内容门槛值(未绘示),则将其加至同一网页节点数据群组ndg中。以第二实施例来说,分组状况如下表所示:
如此一来,整合前述二部分的分组方式,便形成网页节点数据群组ndg,如下表所示:
须说明,利用关键词针对文字内容进行TF-IDF计算得相关向量,并计算两两向量的余弦值以判断向量间的关联性的技术,应为本领域技术人员透过习知技术可轻易理解的内容,于此不再赘述,本发明主要系将其用于分组的关联性依据。
接着,网页数据捕获设备2的处理单元23分别计算各网页节点数据群组ndg的部分网页节点数据ND的文字内容总和,即计算同一网页节点数据群组ndg的网页节点数据ND的文字总长度,详如下表:
接着,网页数据捕获设备2的处理单元23将相应于不同网页节点数据群组ndg的文字内容总和排序成一文字内容总和序列,如下表所示:
ndg 4-2 ndg 9-2 ndg 4-3 ndg 9-3 ndg 1-2 ndg X-X
76 75 73 72 28 27
随后,网页数据捕获设备2的处理单元23计算排序后的文字总和序列中,相邻文字内容总和的差值:1、2、1、44、1,并挑选最大差值,即44。据此,同样地,由于同一网络页面中,具有主要内容的网页节点数据通常具有数据量较大的文字内容,因此,最大差值出现之处,即为主要内容的网页节点数据与不具有主要内容的网页节点数据的分界。
因此,网页数据捕获设备2的处理单元23便可根据最大差值,将文字内容总和序列分为一主要区域以及一次要区域,并根据主要区域,判断网页节点数据群组ndg的至少一主要网页节点数据群组MNDG,如下表所示:
因此,于第二实施例中,主要网页节点数据群组MNDG包含的部分网页节点数据ND的XML路径语言NDX如下表所示:
ndg NDX
4-2 html/body/div[1]/main[1]/article[1]
4-2 html/body/div[1]/main[1]/article[2]
4-3 html/body/div[1]/main[1]/article[1]
9-2 html/body/div[1]/main[1]/article[1]/div[1]/div[2]
9-2 html/body/div[1]/main[1]/article[2]/div[1]/div[2]
9-3 html/body/div[1]/main[1]/article[1]/div[1]/div[2]
随后,网页数据捕获设备2的处理单元23便可针对主要网页节点数据群组MNDG包含的部分网页节点数据ND的XML路径语言NDX,进行最长共同子序列(Longest CommonSubsequence)算法,决定网页主要内容撷取信息MX。于第二实施例中,网页主要内容撷取信息MX为:’html/body/div[1]/main[1]/article[[0-9]+].*’。
如此一来,在前述URL群组(即http://www.aaaaa.com/item1~3.html)具有相同性质(例如样板及排版)网页的情况下,网页数据捕获设备2的处理单元23后续便可选择具有相同主要内容撷取信息MX(即html/body/div[1]/main[1]/article[[0-9]+].*)的网页节点,以便后续主要内容的分析及利用。
本发明的第三实施例为网页数据撷取方法,其流程图请参考图3。第三实施例的方法系用于一网页数据捕获设备(例如前述实施例的网页数据捕获设备1)。网页数据捕获设备自一网页服务器接收多个网页数据。第三实施例的详细步骤如下所述。
首先,执行步骤301,令网页数据捕获设备根据多个网页数据的多个URL的地址关联性,将多个网页数据分为至少一URL群组。其中,至少一URL群组包含一第一URL群组,第一URL群组包含至少部分网页数据。执行步骤302,令网页数据捕获设备自第一URL群组的部分网页数据中,挑选一第一网页数据以及一第二网页数据。
执行步骤303,令网页数据捕获设备解析第一网页数据以及第二网页数据得一网页节点数据集合。其中,网页节点数据集合包含多个网页节点数据,各网页节点数据报含相对应的一XML路径语言以及一文字内容。
执行步骤304,令网页数据捕获设备根据网页节点数据集合的网页节点数据的XML路径语言的路径关联性以及文字内容的文字关联性,将网页节点数据集合的多个网页节点数据分为多个网页节点数据群组。其中,各网页节点数据群组至少包含部分网页节点数据。
执行步骤305,令网页数据捕获设备分别计算各网页节点数据群组的部分网页节点数据的一文字内容总和。执行步骤306,令网页数据捕获设备根据多个文字内容总和,判断多个网页节点数据群组的至少一主要网页节点数据群组。最后,执行步骤307,令网页数据捕获设备根据至少一主要网页节点数据群组包含的部分网页节点数据的XML路径语言,决定一网页主要内容撷取信息。
本发明的第四实施例为网页数据撷取方法,其流程图请参考图4。第四实施例的方法系用于一网页数据捕获设备(例如前述实施例的网页数据捕获设备2)。网页数据捕获设备自一网页服务器接收多个网页数据。第四实施例的详细步骤如下所述。
首先,执行步骤401,令网页数据捕获设备根据多个网页数据的多个URL的地址关联性,将多个网页数据分为至少一URL群组。其中,至少一URL群组包含一第一URL群组,第一URL群组包含至少部分网页数据,且第一URL群组中,部分网页数据的URL间的最小编辑距离皆小于一URL门槛值。
执行步骤402,令网页数据捕获设备自第一URL群组的部分网页数据中,挑选数据量最高的一第一网页数据以及数据量第二高的一第二网页数据。执行步骤403,令网页数据捕获设备解析第一网页数据以及第二网页数据得一网页节点数据集合。其中,网页节点数据集合包含多个网页节点数据,各网页节点数据报含相对应的一XML路径语言以及一文字内容。
执行步骤404,令网页数据捕获设备自文字内容中挑选至少一无效文字内容以及至少一重复节点数据,并将相对应于至少一无效文字内容以及至少一重复节点数据的网页节点自网页节点数据集合中删除。
执行步骤405,令网页数据捕获设备根据网页节点数据集合的多个网页节点数据的XML路径语言的路径关联性,将网页节点数据集合的多个网页节点数据分为多个路径群组。其中,各路径群组的部分网页节点数据的XML路径语言间的最小编辑距离皆小于一XML门槛值。
执行步骤406,令网页数据捕获设备针对各路径群组,根据部分网页节点数据的文字内容的文字关联性,将各路径群组分为多个网页节点数据群组。其中,各路径群组中,部分网页节点数据的各文字内容具有一用语频率向量,且各路径群组中,各网页节点数据群组的部分网页节点数据的文字内容的用语频率向量间的余弦值大于一文字内容门槛值。
执行步骤407,令网页数据捕获设备将多个文字内容总和排序成一文字内容总和序列。执行步骤408,令网页数据捕获设备计算文字内容总和序列中相邻文字内容总和的多个差值。执行步骤409,令网页数据捕获设备挑选多个差值的一最大差值。执行步骤410,令网页数据捕获设备根据最大差值,将文字内容总和序列分为一主要区域以及一次要区域。
执行步骤411,令网页数据捕获设备根据主要区域,判断多个网页节点数据群组的至少一主要网页节点数据群组。执行步骤412,令网页数据捕获设备针对至少一主要网页节点数据群组包含的部分网页节点数据的XML路径语言,进行最长共同子序列算法。执行步骤413,令网页数据捕获设备根据步骤412的结果,决定网页主要内容撷取信息。
综合上述,本发明的网页数据捕获设备及其网页数据撷取方法,主要可自动地分析不同网页群组的样板及排版的语法,并且据以自动地找出具有主要内容的网页节点。如此一来,便可更有效率地完成网页数据的撷取,使利于进行后续相关数据分析。
惟上述实施例仅为例示性说明本发明的实施态样,以及阐释本发明的技术特征,并非用来限制本发明的保护范畴。本领域普通技术人员可轻易完成的改变或均等性的安排均属于本发明所主张的范围,本发明的权利保护范围应以权利要求为准。

Claims (14)

1.一种用于网页数据捕获设备的网页数据撷取方法,该网页数据捕获设备自一网页服务器接收多个网页数据,该网页数据撷取方法包含:
(a)令该网页数据捕获设备根据该等网页数据的多个统一资源寻址器URL的地址关联性,将该等网页数据分为至少一URL群组,其中,该至少一URL群组包含一第一URL群组,该第一URL群组包含至少部分该等网页数据;
(b)令该网页数据捕获设备自该第一URL群组的部分该等网页数据中,挑选一第一网页数据以及一第二网页数据;
(c)令该网页数据捕获设备解析该第一网页数据以及该第二网页数据得一网页节点数据集合,其中,该网页节点数据集合包含多个网页节点数据,各该网页节点数据报含相对应的一XML路径语言以及一文字内容;
(d)令该网页数据捕获设备根据该网页节点数据集合的该等网页节点数据的该等XML路径语言的路径关联性以及该等文字内容的文字关联性,将该网页节点数据集合的该等网页节点数据分为多个网页节点数据群组,其中,各该网页节点数据群组至少包含部分该等网页节点数据;
(e)令该网页数据捕获设备分别计算各该网页节点数据群组的部分该等网页节点数据的一文字内容总和;
(f)令该网页数据捕获设备根据该等文字内容总和,判断该等网页节点数据群组的至少一主要网页节点数据群组;
(g)令该网页数据捕获设备根据该至少一主要网页节点数据群组包含的部分该等网页节点数据的该等XML路径语言,决定一网页主要内容撷取信息。
2.如权利要求1所述的网页数据撷取方法,其特征在于,该第一URL群组中,部分该等网页数据的该等URL间的最小编辑距离皆小于一URL门槛值。
3.如权利要求1所述的网页数据撷取方法,其特征在于,步骤(b)更包含:
(b1)令该网页数据捕获设备自该第一URL群组的部分该等网页数据中,挑选数据量最高的该第一网页数据以及数据量第二高的该第二网页数据。
4.如权利要求1所述的网页数据撷取方法,其特征在于,步骤(c)后更包含:
(c1)令该网页数据捕获设备自该等文字内容中挑选至少一无效文字内容以及至少一重复节点数据,并将相对应于该至少一无效文字内容以及至少一重复节点数据的网页节点自该网页节点数据集合中删除。
5.如权利要求1所述的网页数据撷取方法,其特征在于,步骤(d)更包含:
(d1)令网页数据捕获设备根据该网页节点数据集合的该等网页节点数据的该等XML路径语言的路径关联性,将该网页节点数据集合的该等网页节点数据分为多个路径群组,其中,各该路径群组的部分该等网页节点数据的该等XML路径语言间的最小编辑距离皆小于一XML门槛值;
(d2)令该网页数据捕获设备针对各该路径群组,根据部分该等网页节点数据的该等文字内容的文字关联性,将各该路径群组分为该等网页节点数据群组;
其中,各该路径群组中,部分该等网页节点数据的各该文字内容具有一用语频率向量;
其中,各该路径群组中,各该网页节点数据群组的部分该等网页节点数据的该等文字内容的该等用语频率向量间的余弦值大于一文字内容门槛值。
6.如权利要求1所述的网页数据撷取方法,其特征在于,步骤(f)更包含:
(f1)令该网页数据捕获设备将该等文字内容总和排序成一文字内容总和序列;
(f2)令该网页数据捕获设备计算该文字内容总和序列中相邻文字内容总和的多个差值;
(f3)令该网页数据捕获设备挑选该等差值的一最大差值;
(f4)令该网页数据捕获设备根据该最大差值,将该文字内容总和序列分为一主要区域以及一次要区域;
(f5)令该网页数据捕获设备根据该主要区域,判断该等网页节点数据群组的该至少一主要网页节点数据群组。
7.如权利要求1所述的网页数据撷取方法,其特征在于,步骤(g)更包含:
(g1)令该网页数据捕获设备针对该至少一主要网页节点数据群组包含的部分该等网页节点数据的该等XML路径语言,进行最长共同子序列算法;
(g2)令网页数据捕获设备根据步骤(g1)的结果,决定该网页主要内容撷取信息。
8.一种网页数据捕获设备,包含:
一接收单元,用以自一网页服务器接收多个网页数据;以及
一处理单元,用以:
根据该等网页数据的多个统一资源寻址器URL的地址关联性,将该等网页数据分为至少一URL群组,其中,该至少一URL群组包含一第一URL群组,该第一URL群组包含至少部分该等网页数据;
自该第一URL群组的部分该等网页数据中,挑选一第一网页数据以及一第二网页数据;
解析该第一网页数据以及该第二网页数据得一网页节点数据集合,其中,该网页节点数据集合包含多个网页节点数据,各该网页节点数据报含相对应的一XML路径语言以及一文字内容;
根据该网页节点数据集合的该等网页节点数据的该等XML路径语言的路径关联性以及该等文字内容的文字关联性,将该网页节点数据集合的该等网页节点数据分为多个网页节点数据群组,其中,各该网页节点数据群组至少包含部分该等网页节点数据;
分别计算各该网页节点数据群组的部分该等网页节点数据的一文字内容总和;
根据该等文字内容总和,判断该等网页节点数据群组的至少一主要网页节点数据群组;
根据该至少一主要网页节点数据群组包含的部分该等网页节点数据的该等XML路径语言,决定一网页主要内容撷取信息。
9.如权利要求8所述的网页数据捕获设备,其特征在于,该第一URL群组中,部分该等网页数据的该等URL间的最小编辑距离皆小于一URL门槛值。
10.如权利要求8所述的网页数据捕获设备,其特征在于,该处理单元更用以:
自该第一URL群组的部分该等网页数据中,挑选数据量最高的该第一网页数据以及数据量第二高的该第二网页数据。
11.如权利要求8所述的网页数据捕获设备,其特征在于,该处理单元更用以:
自该等文字内容中挑选至少一无效文字内容以及至少一重复节点数据,并将相对应于该至少一无效文字内容以及至少一重复节点数据的网页节点自该网页节点数据集合中删除。
12.如权利要求8所述的网页数据捕获设备,其特征在于,该处理单元更用以:
根据该网页节点数据集合的该等网页节点数据的该等XML路径语言的路径关联性,将该网页节点数据集合的该等网页节点数据分为多个路径群组,其中,各该路径群组的部分该等网页节点数据的该等XML路径语言间的最小编辑距离皆小于一XML门槛值;
针对各该路径群组,根据部分该等网页节点数据的该等文字内容的文字关联性,将各该路径群组分为该等网页节点数据群组;
其中,各该路径群组中,部分该等网页节点数据的各该文字内容具有一用语频率向量;
其中,各该路径群组中,各该网页节点数据群组的部分该等网页节点数据的该等文字内容的该等用语频率向量间的余弦值大于一文字内容门槛值。
13.如权利要求8所述的网页数据捕获设备,其特征在于,该处理单元更用以:
将该等文字内容总和排序成一文字内容总和序列;
计算该文字内容总和序列中相邻文字内容总和的多个差值;
挑选该等差值的一最大差值;
根据该最大差值,将该文字内容总和序列分为一主要区域以及一次要区域;
根据该主要区域,判断该等网页节点数据群组的该至少一主要网页节点数据群组。
14.如权利要求8所述的网页数据捕获设备,其特征在于,该处理单元更用以:
针对该至少一主要网页节点数据群组包含的部分该等网页节点数据的该等XML路径语言,进行最长共同子序列算法;
根据最长共同子序列算法的结果,决定该网页主要内容撷取信息。
CN201611000331.0A 2016-11-03 2016-11-14 网页数据捕获设备及其网页数据撷取方法 Pending CN108021600A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW105135730 2016-11-03
TW105135730A TWI611308B (zh) 2016-11-03 2016-11-03 網頁資料擷取裝置及其網頁資料擷取方法

Publications (1)

Publication Number Publication Date
CN108021600A true CN108021600A (zh) 2018-05-11

Family

ID=61728282

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611000331.0A Pending CN108021600A (zh) 2016-11-03 2016-11-14 网页数据捕获设备及其网页数据撷取方法

Country Status (3)

Country Link
US (1) US20180121558A1 (zh)
CN (1) CN108021600A (zh)
TW (1) TWI611308B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6697123B2 (ja) * 2017-03-03 2020-05-20 日本電信電話株式会社 プロファイル生成装置、攻撃検知装置、プロファイル生成方法、および、プロファイル生成プログラム
US10977289B2 (en) * 2019-02-11 2021-04-13 Verizon Media Inc. Automatic electronic message content extraction method and apparatus
CN110134901B (zh) * 2019-04-30 2023-06-16 哈尔滨英赛克信息技术有限公司 一种基于流量分析的多链路网页篡改判定方法
CN110704761A (zh) * 2019-09-25 2020-01-17 恩亿科(北京)数据科技有限公司 网页信息的获取方法和计算机存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201030542A (en) * 2008-11-18 2010-08-16 Yahoo Inc System and method for URL based query for retrieving data related to a context
CN102298638A (zh) * 2011-08-31 2011-12-28 北京中搜网络技术股份有限公司 使用网页标签聚类提取新闻网页内容的方法和系统
CN102314497A (zh) * 2011-08-26 2012-01-11 百度在线网络技术(北京)有限公司 一种用于识别标记语言文件主体内容的方法和设备
US20150067476A1 (en) * 2013-08-29 2015-03-05 Microsoft Corporation Title and body extraction from web page
US20150324091A1 (en) * 2012-04-28 2015-11-12 Li-Mei Jiao Detecting valuable sections in webpage
CN106021582A (zh) * 2016-06-02 2016-10-12 腾讯科技(深圳)有限公司 位置信息过滤的方法、提取有效网页信息的方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8020206B2 (en) * 2006-07-10 2011-09-13 Websense, Inc. System and method of analyzing web content
KR20070090858A (ko) * 2007-03-15 2007-09-06 세창인스트루먼트(주) 접근 웹사이트에 연동된 인터넷 서비스 시스템 및 그 방법
US20090063538A1 (en) * 2007-08-30 2009-03-05 Krishna Prasad Chitrapura Method for normalizing dynamic urls of web pages through hierarchical organization of urls from a web site
US8655805B2 (en) * 2010-08-30 2014-02-18 International Business Machines Corporation Method for classification of objects in a graph data stream
KR102133486B1 (ko) * 2014-06-26 2020-07-13 구글 엘엘씨 최적화된 브라우저 렌더링 프로세스
CN105843965B (zh) * 2016-04-20 2019-06-04 广东精点数据科技股份有限公司 一种基于url主题分类的深层网络爬虫表单填充方法和装置
US10148700B2 (en) * 2016-06-30 2018-12-04 Fortinet, Inc. Classification of top-level domain (TLD) websites based on a known website classification

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201030542A (en) * 2008-11-18 2010-08-16 Yahoo Inc System and method for URL based query for retrieving data related to a context
CN102314497A (zh) * 2011-08-26 2012-01-11 百度在线网络技术(北京)有限公司 一种用于识别标记语言文件主体内容的方法和设备
CN102298638A (zh) * 2011-08-31 2011-12-28 北京中搜网络技术股份有限公司 使用网页标签聚类提取新闻网页内容的方法和系统
US20150324091A1 (en) * 2012-04-28 2015-11-12 Li-Mei Jiao Detecting valuable sections in webpage
US20150067476A1 (en) * 2013-08-29 2015-03-05 Microsoft Corporation Title and body extraction from web page
CN106021582A (zh) * 2016-06-02 2016-10-12 腾讯科技(深圳)有限公司 位置信息过滤的方法、提取有效网页信息的方法及装置

Also Published As

Publication number Publication date
TW201818268A (zh) 2018-05-16
TWI611308B (zh) 2018-01-11
US20180121558A1 (en) 2018-05-03

Similar Documents

Publication Publication Date Title
CN108021600A (zh) 网页数据捕获设备及其网页数据撷取方法
US8239387B2 (en) Structural clustering and template identification for electronic documents
US7660804B2 (en) Joint optimization of wrapper generation and template detection
CN101650715B (zh) 一种筛选网页上链接的方法和装置
CN106951438A (zh) 一种面向开放域的事件抽取系统及方法
CN101984422B (zh) 一种容错文本查询的方法和设备
CN102314497B (zh) 一种用于识别标记语言文件主体内容的方法和设备
JP4226261B2 (ja) 構造化文書種別判定システム及び構造化文書種別判定方法
CN104881488A (zh) 基于关系表的可配置信息抽取方法
CN103874994A (zh) 用于自动概括电子文档的内容的方法和装置
CN101281521A (zh) 一种基于多分类器融合的敏感网页过滤方法及系统
US20160314348A1 (en) Mathematical formula learner support system
US10860792B2 (en) Detecting compatible layouts for content-based native ads
CN105528422A (zh) 一种主题爬虫处理方法及装置
CN102662969A (zh) 一种基于网页结构语义的互联网信息对象定位方法
CN108762808A (zh) 接口文档的生成方法及系统
CN102402566A (zh) 基于中文网页自动分类技术的Web用户行为分析方法
CN103246732A (zh) 一种在线Web新闻内容的抽取方法及系统
CN102004772A (zh) 一种用于根据检索词进行搜索结果排序的方法及设备
CN108959580A (zh) 一种标签数据的优化方法及系统
CN104408180A (zh) 内存数据的查询方法和装置
CN105117434A (zh) 一种网页分类方法和系统
CN104428763B (zh) 将结构化及非结构化数据实现在xml文件的方法
CN104881428A (zh) 一种信息图网页的信息图提取、检索方法和装置
CN112287272A (zh) 一种网站列表页面的分类方法、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180511