CN101251855A - 一种互联网网页清洗方法、系统及设备 - Google Patents
一种互联网网页清洗方法、系统及设备 Download PDFInfo
- Publication number
- CN101251855A CN101251855A CNA2008100664327A CN200810066432A CN101251855A CN 101251855 A CN101251855 A CN 101251855A CN A2008100664327 A CNA2008100664327 A CN A2008100664327A CN 200810066432 A CN200810066432 A CN 200810066432A CN 101251855 A CN101251855 A CN 101251855A
- Authority
- CN
- China
- Prior art keywords
- webpage
- text
- type
- block
- web page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004140 cleaning Methods 0.000 title claims abstract description 35
- 238000004458 analytical method Methods 0.000 claims abstract description 45
- 230000000875 corresponding Effects 0.000 claims abstract description 17
- 239000000284 extract Substances 0.000 claims description 23
- 238000003066 decision tree Methods 0.000 claims description 12
- 239000000126 substance Substances 0.000 claims description 11
- 230000000007 visual effect Effects 0.000 claims description 10
- 238000010926 purge Methods 0.000 claims description 6
- 239000008187 granular material Substances 0.000 claims description 5
- 238000004891 communication Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 abstract description 7
- 238000011086 high cleaning Methods 0.000 abstract 1
- 238000000034 method Methods 0.000 description 9
- 239000002245 particle Substances 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 229920001690 polydopamine Polymers 0.000 description 2
- IGLNJRXAVVLDKE-UHFFFAOYSA-N rubidium Chemical compound data:image/svg+xml;base64,PD94bWwgdmVyc2lvbj0nMS4wJyBlbmNvZGluZz0naXNvLTg4NTktMSc/Pgo8c3ZnIHZlcnNpb249JzEuMScgYmFzZVByb2ZpbGU9J2Z1bGwnCiAgICAgICAgICAgICAgeG1sbnM9J2h0dHA6Ly93d3cudzMub3JnLzIwMDAvc3ZnJwogICAgICAgICAgICAgICAgICAgICAgeG1sbnM6cmRraXQ9J2h0dHA6Ly93d3cucmRraXQub3JnL3htbCcKICAgICAgICAgICAgICAgICAgICAgIHhtbG5zOnhsaW5rPSdodHRwOi8vd3d3LnczLm9yZy8xOTk5L3hsaW5rJwogICAgICAgICAgICAgICAgICB4bWw6c3BhY2U9J3ByZXNlcnZlJwp3aWR0aD0nMzAwcHgnIGhlaWdodD0nMzAwcHgnIHZpZXdCb3g9JzAgMCAzMDAgMzAwJz4KPCEtLSBFTkQgT0YgSEVBREVSIC0tPgo8cmVjdCBzdHlsZT0nb3BhY2l0eToxLjA7ZmlsbDojRkZGRkZGO3N0cm9rZTpub25lJyB3aWR0aD0nMzAwLjAnIGhlaWdodD0nMzAwLjAnIHg9JzAuMCcgeT0nMC4wJz4gPC9yZWN0Pgo8dGV4dCB4PScxMzguMCcgeT0nMTcwLjAnIGNsYXNzPSdhdG9tLTAnIHN0eWxlPSdmb250LXNpemU6NDBweDtmb250LXN0eWxlOm5vcm1hbDtmb250LXdlaWdodDpub3JtYWw7ZmlsbC1vcGFjaXR5OjE7c3Ryb2tlOm5vbmU7Zm9udC1mYW1pbHk6c2Fucy1zZXJpZjt0ZXh0LWFuY2hvcjpzdGFydDtmaWxsOiMzQjQxNDMnID5SPC90ZXh0Pgo8dGV4dCB4PScxNjUuNicgeT0nMTcwLjAnIGNsYXNzPSdhdG9tLTAnIHN0eWxlPSdmb250LXNpemU6NDBweDtmb250LXN0eWxlOm5vcm1hbDtmb250LXdlaWdodDpub3JtYWw7ZmlsbC1vcGFjaXR5OjE7c3Ryb2tlOm5vbmU7Zm9udC1mYW1pbHk6c2Fucy1zZXJpZjt0ZXh0LWFuY2hvcjpzdGFydDtmaWxsOiMzQjQxNDMnID5iPC90ZXh0Pgo8cGF0aCBkPSdNIDE4OC40LDE1MC4wIEwgMTg4LjQsMTQ5LjggTCAxODguNCwxNDkuNyBMIDE4OC40LDE0OS41IEwgMTg4LjMsMTQ5LjMgTCAxODguMywxNDkuMiBMIDE4OC4yLDE0OS4wIEwgMTg4LjEsMTQ4LjkgTCAxODguMCwxNDguNyBMIDE4Ny45LDE0OC42IEwgMTg3LjcsMTQ4LjUgTCAxODcuNiwxNDguNCBMIDE4Ny41LDE0OC4zIEwgMTg3LjMsMTQ4LjIgTCAxODcuMiwxNDguMSBMIDE4Ny4wLDE0OC4xIEwgMTg2LjgsMTQ4LjAgTCAxODYuNywxNDguMCBMIDE4Ni41LDE0OC4wIEwgMTg2LjMsMTQ4LjAgTCAxODYuMSwxNDguMCBMIDE4Ni4wLDE0OC4xIEwgMTg1LjgsMTQ4LjEgTCAxODUuNiwxNDguMiBMIDE4NS41LDE0OC4yIEwgMTg1LjMsMTQ4LjMgTCAxODUuMiwxNDguNCBMIDE4NS4xLDE0OC41IEwgMTg0LjksMTQ4LjcgTCAxODQuOCwxNDguOCBMIDE4NC43LDE0OC45IEwgMTg0LjcsMTQ5LjEgTCAxODQuNiwxNDkuMiBMIDE4NC41LDE0OS40IEwgMTg0LjUsMTQ5LjYgTCAxODQuNSwxNDkuNyBMIDE4NC40LDE0OS45IEwgMTg0LjQsMTUwLjEgTCAxODQuNSwxNTAuMyBMIDE4NC41LDE1MC40IEwgMTg0LjUsMTUwLjYgTCAxODQuNiwxNTAuOCBMIDE4NC43LDE1MC45IEwgMTg0LjcsMTUxLjEgTCAxODQuOCwxNTEuMiBMIDE4NC45LDE1MS4zIEwgMTg1LjEsMTUxLjUgTCAxODUuMiwxNTEuNiBMIDE4NS4zLDE1MS43IEwgMTg1LjUsMTUxLjggTCAxODUuNiwxNTEuOCBMIDE4NS44LDE1MS45IEwgMTg2LjAsMTUxLjkgTCAxODYuMSwxNTIuMCBMIDE4Ni4zLDE1Mi4wIEwgMTg2LjUsMTUyLjAgTCAxODYuNywxNTIuMCBMIDE4Ni44LDE1Mi4wIEwgMTg3LjAsMTUxLjkgTCAxODcuMiwxNTEuOSBMIDE4Ny4zLDE1MS44IEwgMTg3LjUsMTUxLjcgTCAxODcuNiwxNTEuNiBMIDE4Ny43LDE1MS41IEwgMTg3LjksMTUxLjQgTCAxODguMCwxNTEuMyBMIDE4OC4xLDE1MS4xIEwgMTg4LjIsMTUxLjAgTCAxODguMywxNTAuOCBMIDE4OC4zLDE1MC43IEwgMTg4LjQsMTUwLjUgTCAxODguNCwxNTAuMyBMIDE4OC40LDE1MC4yIEwgMTg4LjQsMTUwLjAgTCAxODYuNCwxNTAuMCBaJyBzdHlsZT0nZmlsbDojMDAwMDAwO2ZpbGwtcnVsZTpldmVub2RkO2ZpbGwtb3BhY2l0eToxO3N0cm9rZTojMDAwMDAwO3N0cm9rZS13aWR0aDowLjBweDtzdHJva2UtbGluZWNhcDpidXR0O3N0cm9rZS1saW5lam9pbjptaXRlcjtzdHJva2Utb3BhY2l0eToxOycgLz4KPC9zdmc+Cg== data:image/svg+xml;base64,PD94bWwgdmVyc2lvbj0nMS4wJyBlbmNvZGluZz0naXNvLTg4NTktMSc/Pgo8c3ZnIHZlcnNpb249JzEuMScgYmFzZVByb2ZpbGU9J2Z1bGwnCiAgICAgICAgICAgICAgeG1sbnM9J2h0dHA6Ly93d3cudzMub3JnLzIwMDAvc3ZnJwogICAgICAgICAgICAgICAgICAgICAgeG1sbnM6cmRraXQ9J2h0dHA6Ly93d3cucmRraXQub3JnL3htbCcKICAgICAgICAgICAgICAgICAgICAgIHhtbG5zOnhsaW5rPSdodHRwOi8vd3d3LnczLm9yZy8xOTk5L3hsaW5rJwogICAgICAgICAgICAgICAgICB4bWw6c3BhY2U9J3ByZXNlcnZlJwp3aWR0aD0nODVweCcgaGVpZ2h0PSc4NXB4JyB2aWV3Qm94PScwIDAgODUgODUnPgo8IS0tIEVORCBPRiBIRUFERVIgLS0+CjxyZWN0IHN0eWxlPSdvcGFjaXR5OjEuMDtmaWxsOiNGRkZGRkY7c3Ryb2tlOm5vbmUnIHdpZHRoPSc4NS4wJyBoZWlnaHQ9Jzg1LjAnIHg9JzAuMCcgeT0nMC4wJz4gPC9yZWN0Pgo8dGV4dCB4PSczNS4wJyB5PSc1My42JyBjbGFzcz0nYXRvbS0wJyBzdHlsZT0nZm9udC1zaXplOjIzcHg7Zm9udC1zdHlsZTpub3JtYWw7Zm9udC13ZWlnaHQ6bm9ybWFsO2ZpbGwtb3BhY2l0eToxO3N0cm9rZTpub25lO2ZvbnQtZmFtaWx5OnNhbnMtc2VyaWY7dGV4dC1hbmNob3I6c3RhcnQ7ZmlsbDojM0I0MTQzJyA+UjwvdGV4dD4KPHRleHQgeD0nNTEuMCcgeT0nNTMuNicgY2xhc3M9J2F0b20tMCcgc3R5bGU9J2ZvbnQtc2l6ZToyM3B4O2ZvbnQtc3R5bGU6bm9ybWFsO2ZvbnQtd2VpZ2h0Om5vcm1hbDtmaWxsLW9wYWNpdHk6MTtzdHJva2U6bm9uZTtmb250LWZhbWlseTpzYW5zLXNlcmlmO3RleHQtYW5jaG9yOnN0YXJ0O2ZpbGw6IzNCNDE0MycgPmI8L3RleHQ+CjxwYXRoIGQ9J00gNjYuNCw0Mi4wIEwgNjYuNCw0MS45IEwgNjYuNCw0MS44IEwgNjYuNCw0MS43IEwgNjYuMyw0MS42IEwgNjYuMyw0MS41IEwgNjYuMiw0MS40IEwgNjYuMiw0MS4zIEwgNjYuMSw0MS4zIEwgNjYuMSw0MS4yIEwgNjYuMCw0MS4xIEwgNjUuOSw0MS4xIEwgNjUuOCw0MS4wIEwgNjUuNyw0MS4wIEwgNjUuNiw0MC45IEwgNjUuNSw0MC45IEwgNjUuNSw0MC45IEwgNjUuNCw0MC44IEwgNjUuMyw0MC44IEwgNjUuMiw0MC44IEwgNjUuMSw0MC45IEwgNjUuMCw0MC45IEwgNjQuOSw0MC45IEwgNjQuOCw0MC45IEwgNjQuNyw0MS4wIEwgNjQuNiw0MS4wIEwgNjQuNSw0MS4xIEwgNjQuNCw0MS4yIEwgNjQuNCw0MS4yIEwgNjQuMyw0MS4zIEwgNjQuMiw0MS40IEwgNjQuMiw0MS41IEwgNjQuMiw0MS42IEwgNjQuMSw0MS43IEwgNjQuMSw0MS44IEwgNjQuMSw0MS45IEwgNjQuMSw0Mi4wIEwgNjQuMSw0Mi4wIEwgNjQuMSw0Mi4xIEwgNjQuMSw0Mi4yIEwgNjQuMSw0Mi4zIEwgNjQuMiw0Mi40IEwgNjQuMiw0Mi41IEwgNjQuMiw0Mi42IEwgNjQuMyw0Mi43IEwgNjQuNCw0Mi44IEwgNjQuNCw0Mi44IEwgNjQuNSw0Mi45IEwgNjQuNiw0My4wIEwgNjQuNyw0My4wIEwgNjQuOCw0My4xIEwgNjQuOSw0My4xIEwgNjUuMCw0My4xIEwgNjUuMSw0My4xIEwgNjUuMiw0My4yIEwgNjUuMyw0My4yIEwgNjUuNCw0My4yIEwgNjUuNSw0My4xIEwgNjUuNSw0My4xIEwgNjUuNiw0My4xIEwgNjUuNyw0My4wIEwgNjUuOCw0My4wIEwgNjUuOSw0Mi45IEwgNjYuMCw0Mi45IEwgNjYuMSw0Mi44IEwgNjYuMSw0Mi43IEwgNjYuMiw0Mi43IEwgNjYuMiw0Mi42IEwgNjYuMyw0Mi41IEwgNjYuMyw0Mi40IEwgNjYuNCw0Mi4zIEwgNjYuNCw0Mi4yIEwgNjYuNCw0Mi4xIEwgNjYuNCw0Mi4wIEwgNjUuMiw0Mi4wIFonIHN0eWxlPSdmaWxsOiMwMDAwMDA7ZmlsbC1ydWxlOmV2ZW5vZGQ7ZmlsbC1vcGFjaXR5OjE7c3Ryb2tlOiMwMDAwMDA7c3Ryb2tlLXdpZHRoOjAuMHB4O3N0cm9rZS1saW5lY2FwOmJ1dHQ7c3Ryb2tlLWxpbmVqb2luOm1pdGVyO3N0cm9rZS1vcGFjaXR5OjE7JyAvPgo8L3N2Zz4K [Rb] IGLNJRXAVVLDKE-UHFFFAOYSA-N 0.000 description 2
- 229910052701 rubidium Inorganic materials 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005755 formation reaction Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006011 modification reaction Methods 0.000 description 1
- 230000003068 static Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
Abstract
本发明适用于互联网信息处理领域,提供了一种互联网网页清洗方法、系统及设备,所述方法包括下述步骤:分析输入的网页,对网页标签内容自动纠错,建立文档对象模型树;保留所述文档对象模型树中具有表示内容的HTML的块元素结点,生成与所述文档对象模型树对应的结构块树;在所述结构块树的基础上按照定义的网页类型对输入的网页进行分类;根据输入的网页所属的网页类型,对其进行语义块分析,提取并输出重要块及其文本信息。本发明可以实现任意网页的清洗,清洗准确率高,可以应用于移动终端浏览、搜索引擎、面向主题的信息收集、自动信息提取和垂直搜索等方面。
Description
一种互联网网页清洗方法、系统及i殳备技术领域本发明属于互联网信息处理领域,尤其涉及一种互联网网页清洗方法、系 统及设备。背景技术随着互联网的快速发展,Web已经成为信息发布和信息共享的基础平台, 其中以HTML格式的Web网页是主要的信息载体。目前,Web网页已经从最 初的手工编辑的静态网页发展成为由数据库和模板生成的动态网页,Web网页 中包含的内容也越来越复杂,除了正文内容外,还包含广告、标语、导航信息、 版权信息等噪声信息。网页清洗类似于数据挖掘中的数据清洗,通过Web挖掘和机器学习技术将 Web网页的数据进^f亍清洗、净化,提取有用的信息,去除噪声信息。网页清洗 可以为搜索引擎、移动电话浏览、Web信息提取和信息收集等应用的提供基础。 在互联网搜索中,在去除广告等噪声信息基础上建立的索引可以有效地提高搜 索的准确率;通过仅将页面中的正文信息块或片段显示出来,而忽略广告、导 航链接等其它的信息块,为移动用户移动电话浏览提供更好的用户体验;在 Web信息提取中,只有去掉网页的噪声信息,才能更好的提取出所需要的结构 化和纯文本信息,v^人而为自然语言处理、分类、聚类和文摘等系统提供文本资 源。在面向主题的信息收集,通过判断哪些信息块与指定的主题相关,可以有 选择地收集与特定主题相关的信息。现有的网页清洗方案基本上针对特定类型网页或者特定沖莫板网页,能够清 洗的网页有限。同时,网页清洗准确率较低,不能正确去除各种噪声信息。发明内容本发明实施例的目的在于提供一种互联网网页清洗方法,旨在解决现有的 网页清洗方案能够清洗的网页有限,清洗准确率较低的问题。本发明实施例是这样实现的, 一种互联网网页清洗方法,所述方法包括下述步骤:分析输入的网页,对网页标签内容自动纠错,建立文档对象模型树; 保留所述文档对象模型树中具有表示内容的HTML的块元素结点,生成与所述文档对象模型树对应的结构块树;在所述结构块树的基础上按照定义的网页类型对输入的网页进行分类; 根据输入的网页所属的网页类型,对其进行语义块分析,提取并输出重要块及其文本信息。本发明实施例的另 一 目的在于提供一种互联网网页清洗系统,所述系统包括:网页分析单元,用于分析输入的网页,对网页标签内容自动纠错,建立文 档对象模型树;结构块树生成单元,用于保留所述文档对象模型树中具有表示内容的 HTML的块元素结点,生成与所述文档对象模型树对应的结构块树;网页分类单元,用于在所述结构块树的基础上按照定义的网页类型对输入 的网页进行分类;以及网页清洗单元,用于根据输入的网页所属的网页类型,对其进行语义块分 析,提取并输出重要块及其文本信息。本发明实施例的另 一 目的在于提供一种包含上述互联网网页清洗系统的通 信设备。本发明实施例基于网页分类策略,将网页分为语义内聚的合适粒度大小的 块,对每个块进行分析识别,有效地提取出重要块及其信息,可以实现任意网 页的清洗,清洗准确率高,可以应用于移动终端浏览、搜索引擎、面向主题的信息收集、自动信息提取和垂直搜索等方面。 附图说明图1是本发明实施例提供的互联网网页清洗方法的实现流程图; 图2是本发明实施例提供的语义块分割示意图; 图3是本发明实施例提供的内容型网页文本内容提取的实现流程图; 图4是本发明实施例提供的多块文本型网页文本提取的实现流程图; 图5是本发明实施例提供的互联网网页清洗系统的结构图。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅 仅用以解释本发明,并不用于限定本发明。本发明实施例基于网页分类策略,将网页分为语义内聚的合适粒度大小的 语义块,对每个语义块进行分析识别,有效地提取出重要块及其信息,可以实 现对任意网页的清洗,包括内容型网页的正文提取、多块文本型网页的内容提 取、索引型网页重要块自动提取,以及BBS/Blog型网页的内容提取等,清洗 准确率高。图1示出了本发明实施例提供的互联网网页清洗方法的实现流程,详述如下:在步骤101中,分析输入的网页,对网页标签内容自动纠错,建立DOM树;在本发明实施例中,网页分析的目的是利用HTML网页语义定义标准进4亍 上下文句法约束,实现网页标签内容的自动纠错,建立一个正确的文档对象模 型(Document Object Model, DOM)树,以便于后续分析。DOM树是一个树结构,具有便于操作访问、以及重新恢复原始网页的优点。由于网页在手工编辑过程中的编辑错误以及使用不规范的格式,会导致网 页标签内容的错误以及语义模糊,给机器自动处理带来很大困难。本发明实施例中,在DOM树的分析过程中,重点解决常见的HTML网页错误以及格式不 规范等问题,具体可以包括:1. 元素省略或者结束标记的省略,例如:<HTML> <body>text</body></HTML> ,该例中将HTML元素下的<head> 省略。在分析过程中从HTML格式的完整性出发,需要发现省略元素,自动生 成补全;<UL> <Li> a <Li>b</UL>,该例是结束标记的省略,省略了 </0>标记。 通常标记TD,TH,LI,DD等将结束标记省略,但省略标记后,后面结点是儿 子结点还是兄弟结点存在二义性,需要根据标签的上下文语义来决定。2. 标签犬牙交错,例如〈b〉bold <i> bold italic</b> bold </i>,斜体〈b〉和黑 体O标注属于犬牙交错,相互包含。3. 元素标记错误,例如〈Hl〉heacK/H2〉,结束标记为<氾1>,错标为</112>。4. 内容模型错误,在HTML4.01语义规范中,规定每个标签下能够包含的 标签和不能够包含的标签,例如HTML标签只能包含title、 body,如果包含一 个table标签,则是4普误的。针对上述的网页错误或者格式不规范等问题, 一般可以采用基于HTML网 页语义定义标准进行上下文句法约束的方式解决,利用有限状态机进行词法分 析,将开始和结束标记作为状态转移的触发条件,对每个标签和内容进行分析, 得到一系列标记(token),再利用语义约束方式进行自顶向下句法分析过程对 整个文档进行分析,自动纠正网页错误,规范HTML格式,可以生成鲁棒的 DOM树。在步骤S102中,保留DOM树中具有表示内容的HTML的块元素结点, 生成与DOM树对应的结构块树;在语法上,HTML文档中的元素可以分为块元素(block-level elements )和内联元素(Inline elements )两种类型。块元素和内联元素的区别主要体现在两 个方面,在内容模型方面,块元素可以包含其它块元素或者内联元素,而内联 元素通常只能够包含内联元素或者数据。因此,块元素通常表示了比内联元素 更大的结构;在展现格式方面,块元素通常在新的一行上开始显示,而内联元 素并不是这样的。在HTML规范中,常见的块元素如下表所示:Moc吸"o:rfi: | fo應| |潔丄五| |爿dz)腐s"〉〈豐777T % //W '肌I OZ/'〉 <ABV777T% pr^brma"gd 〃尸i?五〃〉_在这些块元素中,如table,tr,td,th是用来绘制表格的,ol,ul是表示列表的。 本发明实施例中,根据上述网页分析生成的DOM树,从网页结构的角度对信 息块进行定义,DOM树包括叶子结点和根结点,叶子结点通常对应内联元素, 而非叶子结点对应块元素。才艮据统计观察,在Web网页中,如果一个块元素类 型的HTML元素是表示内容的块元素结点,例如〈tablexdivxulxtrxtd〉的结 点,那么该元素及其包含的内容为一个结构块,而对于其它元素标记,通常包 含于这几个元素之中。因此,在本发明实施例中,查找DOM树中表示内容的 HTML的块元素结点,保留相应的表示内容的HTML的块元素结点,不展现其 它结点。由于每个结构块可能是相互包含,结构块的父结点或者子结点还是一 个块元素类型块,这样根据结构块的结点之间的关系,各个结构块组合就生成 一个树型结构。在该结构块树中,可以根据相邻的块结构分析,确定相邻块是 否是语义聚敛的,也可以根据父结点与子结点上下文文本增益来判断主要内容 块。因此,在结构块树中,可以方便的进行接下来的语义块分析,即对各结点 进行合并和组合形成新的内容收敛的语义块。在步骤S103中,根据网页内部特征,在结构块树的&出上按照定义的网页 类型对网页进行分类;在本发明实施例中,网页类型定义是网页内部特征来定义的,而不是按照 内容形式划分的,具体的网页类型可以根据实现需要进行相应划分。作为本发明的一个实施例,将网页分为内容型网页、多块文本型网页、索引型网页,以 及非明显特征型网页。内容型网页中具有大段的文本,包含的链接文本相对少,文本一般处于网 页的中间位置,链接等信息处于两边成独立的状态,例如导航块,广告块等。内容型网页包括新闻网页的内容页面,BBS的内容网页等。多块文本型网页中具有多段文本,且每段文本在DOM树上是分割开的, 没有一个统一结点可以包含这些文本结点,文本块与文本块之间的大小差异不 大,没有特别突出的块,在处理时需要将这些块内容提取^^并作为输出结果。索引型网页包含链接的文本比较多,很少具有不包含链接的大段文本,大 多数都是链接文本,难以通过文本/链接比例的标准判断是否是噪声信息块。在 该类网页中,又包括两种子类型, 一类是BBS/Blog型网页,该类网页具有大 段包含链接的索引文本,但由于该类网页具有的特征基本上与内容型网页没有 太大差别,可以归结为内容型网页。另一类为导^^型网页,该类网页具有明显 的块,且包含链接的文本多,而不包含链接的文本很少。对于系统无法识别具有有效特征的非明显特征型网页,既没有明显的块信 息,也没有大段文本信息,可以不作处理,直接对其标签进行规范后输出结果。根据上述网页类型的定义,本发明实施例中,利用ID3决策树分类器 (Quinlan J R. Induction of decision trees. Machine Learning)的方法对网页进4亍 分类。决策树分类器的训练数据是通过手工标注一定数量具有代表性的网页, 每个类别包含100个左右。然后,利用统计的方法从中选出具有代表性的特征, 输入判别特征包括文本个数信息、链接文本个数信息、文本语义信息,以及标 签信息等,输入特征的每个属性代表决策树分类器输入矢量的一个分量,利用 该训练数据训练出ID3决策树分类器,统计的特征包括:1) 最大文本块的包含文本长度是否大于150;2) 最大文本块和次最大文本块的比例是否小于1.3;3) 次文本块包含的文本长度是否大于400;4) 次最大文本块是不是版权信息;5) 最大文本块和次最大文本块是否是父子结点关系;6) 块文本是否包含标点符号信息"。";7) 块文本包含标签符号的个数;8) 最大文本块是否包含〈p、 <^>结点,以及包含的个数; 9 )整个body结点块文本和链接文本比例是否大于2;10) 最大文本和整个网页链接文本的比例是否小于0.08;11) 最大文本和整个网页链接文本的比例是否大于0.05,且包含p的文本 块大于75;12) 网页无明显的块信息,而且最大文本块小于一定的阈值;13) 网页中无块信息,也没有包含p的文本。经过上述训练出的决策树分类器,利用该决策树分类器对网页进行分类。 输入是通过前面已经分析得到的结构块树,从中提取上述特征对应的属性值, 然后组合成特征矢量,输入到决策树分类器,最后输出是定义内容型网页、多 块文本型网页、索引型网页、非明显特征型网页等四个类别网页中的某一类别。在对网页分类时,需要统计各块包含的文本大小、最大文本块和次最大文 本块大小。在本发明实施中,可以采用自底向上的后序遍历统计方法,在遍历 过程中,通过在结构块子树中设定是否被包含的标志位,从而能够有效的统计 出各块包含的文本大小,以及最大文本块和次最大文本块,具体算法的实现示 例如下:int TraversePostNode(Node* tnod, int& nNum, int& nLinkNum ){〃返回>=1表示包含table和div, 0为不包含初始化结点包含的文本数nNum为0,链接文本数nLinkNum为0;获到指针tnod的最左儿子结点tempnode;if(最左儿子结点为空){统计叶子结点包含的文本数如果该叶子结点是链接,设定链接文本氺t nLinkNum等于nNum; else {while(结点tempnode不等于空){递归调用TraversePostNode(tempnode, nTempNum, nTempLinkNum), 并 返回是否包含结构块标识nval;累力口 nval , 并寸呆存在nlnclude; 累力口 nTempNum并寸呆存在nNum; 累力口 nTempLinkNum并 <呆存在 nLinkNum;对下 一个兄弟结点进4亍处理,tempnode = GetNext(tempnode );if(结点是包含20个字以上的有效结构块){if(标志nlnclude为0 ) {if(结构块是文本块) 统计最大文本块,同时统计次最大文本块}返回包含结构块信息标志1;if(标志nlnclude大于0) 返回包含结构块信息标志1;;返回包含结构块信息标志0;在步骤S104中,4艮据输入的网页所属的网页类型,对其进4亍语义块分析, 提取并输出重要块及其文本信息„在本发明实施例中,语义块是在结构块基础上定义的。由于语义块二义性 和主观性,很难定义。因此,需要从机器能够识别的角度去进行定义和分析。 本发明实施例中,语义块定义为:1 )该元素中包含一个或者若干个结构块,即若干个相邻的结构块聚集在该元素中;2) 语义块包含的文字达到一定的数值,且能够通过网页表示出来;3) 除了有明显的区分点,例如子标题等视觉特征,否则尽量将相邻的块合并。在进行语义块分析时,可以采用在已经构建的结构块树中寻找一个合适基 本覆盖所有叶子结点的切割方法,例如在图2中,结点l, 2,…,8分别代表结 构块,但由于6, 7, 8语义聚敛,合并为一个语义结点3,因此,最终块4, 5, 3即为所要求的语义块。由于结构块树是一个递归的结构,需要判断在哪个结点进行分割,如果在 比较底层分割,可能导致分割粒度太小,如果在高层分割,可能导致分割的粒 度太大。本发明实施例中根据结构块内部的微结构相似或者相同的原则进行块 合并,并自动确定语义块的粒度大小。作为本发明的一个实施例,语义块分析 所利用的特征主要有基于URL结构相似性、基于标签的结构相似性、基于视觉 特征和基于上下文文本的信息增益四个方面:l.基于URL结构相似性在具有块的网页中,网页是由块所组成,在每个块的内部,它的URL结构 基本上是相同或者是相近的。因为在由网页模板块生成的网页分析中,通常变 化的部分为内容,例如新闻块(news)、娱乐块(ent)等,为了能够机器自动 处理,减少人的手工编辑工作量,通常URL都是按照一定规律生成,例如一般 目录结构相同,只是最后的文件名(用一定规律数字表示)不同,而且URL表 示都具有一定语义的含义,相对不变的部分可能是广告、导航等信息,而这些 信息变化相对不太频繁,它们的URL也没有新闻块URL结构变化有规律。因 此,本发明实施例中可以利用URL结构相似性作为特征进行语义分块,结构相 似性包括语义块中URL结构是否规律性变化,以及URL结构中是否包含标志 性语义特征。块的URL为: http:〃news.qq.com/a/20080108細688.htm http:〃news.qq.com/a/20080108/001413 .htm http:〃news.qq.com/a/20080108/000572.htm由此可见,这些URL前面的部分完全相同,而有-见律变化的是最后部分用 数字表示的文件名。在本发明实施例中,基于URL结构相似性分析的算法如下:1) 在每个块中,提取块中包含的所有URL;2) 将每个URL看作是一个字符串,去除http:〃头信息,然后利用分割标 记"/."对其进行分割;3) 在分割的字符串基础上,对每个块统计出频繁出现的URL的标志性 token等语义特征,这些token组成该块的语义中心;4) 对于每个块,计算相邻的两块的语义中心距离,如果大于一定阈值,则 合并相邻的两块。设两个块的语义中心分别表示为fl^A^, 6AA&, a, ^是属于统计出的 token,语义中心距离A,定义为A,-^^,其中,《=1 "' = /。2. 基于标签的结构相似性标签的结构相似性主要是指在某块的子树下,该子树标签组成后的序列具 有重复的特征,例如对于标签〈p〉 <br>
<br>
<br>
<br>
<br> 〈p〉〈br〉序列,将会可能形成一个块,或者由多个p, tr, td, li等组成的单元 也可能是一个连续的语义块。在对标签的结构相似性进行判断时,首先统计子 树下出现最频繁的标签符号,然后以这些标签为中心前后扩展,并验证该序列 是否结构相似。该方法比现有技术中直接利用通过后缀树的方法统计最大重复 子串的效率高,且能够达到同样的效果。3. 基于视觉的特征由于网页每个块之间具有很强的视觉差异,对于网页的首页,人凭肉眼可 以很方便的将其分块,例如当一块中有标题存在、字体大小的变化、背景变化 这些都会导致被认为是块与块之间的分割标记。本发明实施例中,利用^L觉特征来确定分割标记时:1) 确定勤出的块,该块一般是符合一定条件的结构块,块包含的文本大小 大于一定的阈值;2) 利用视觉特征对该结构块向前和向后扩展。向前扩展时,判断当前块的前段单元是否是该段的标题,是则加入该单元, 并停止向前扩展,结束;否则判断是否有字体的变化,字号颜色的变化和背景 颜色变化等,有则停止扩展,结束;向后扩展时,判断是否有字体的变化,字号颜色的变化和背景颜色变化等, 有则停止向后扩展。4.基于上下文文本的信息增益本发明实施例中,上下文文本的信息增益Ow/w/C^f/J定义为 C0"fe„Co"fe"^"("》,其中表示当前结点包含的文本长度,Co她"^"(^)表示在块结点树上该结点的父亲结点包含文本的长度。由于结构块树是一个相 互嵌套的块,对于最底层的结构块,由于其包含的信息可能被上层的结点信息 所包含,因此,如果上下文文本的信息增益小于一定阈值,则将结点向其父结 点扩展,直到不能扩展为止,即将该节点的父节点设为当前节点,再进^f亍上下 文文本的信息增益计算,如果所得值小于一定阈值,则继续,直到上下文文本 的信息增益值不小于阈值。基于上下文文本的信息增益通常与视觉特征相结合使用,可以达到更为准 确的效果。本发明实施例中,在对网页进行清洗时,当输入的网页为内容型网页时,提取其主要文本块;当输入的网页为多块文本型网页时,获取每个文本块的内容,输出合并后的多块文本;当输入的网页为索引型网页时,利用统一资源定 位符(Uniform Resource Location, URL)结构相似性、DOM树标签的相似性 和视觉特征来进行语义块分析,在分析的语义块上输出重要的语义块单元;当 输入的网页为非明显特征型网页时,直接对网页的标签进行规范后输出。对不 同类型的网页进行清洗后,将网页清洗的结果输出。对于内容型网页,由于网页中具有大段的文本,其中包含链接的文本相对 少,因此,首先利用自底向上的方法寻找包含最大文本结点的结点,在寻找到 的最大文本结点上,综合利用结构块内部进行分析,最后提取正文,实现流程 如图3所示,详述如下:在步骤S301中,统计有效的最大文本块,判断最大文本块是否是版权信息 块,如果是,则用次最大文本块或者包含p结点的文本块代替作为最大文本块。在步骤S302中,扩展最大文本块的结点;由于统计的最大文本的结点未能包含全部文本内容,需要对其进行扩展, 一直向其父结点进行扩展。扩展的规则主要是根据上下文文本的信息增益和文 本增益和链接文本增益的比例特征来判断,如果文本的信息增益小于一定阔值 (如0.65)且文本增益和链接文本增益的比例大于一定阈值(0.5),则在结构 块树中向其父亲结点扩展。在步骤S303中,最大文本块内部分析,去除其中的噪声信息; 在最大文本块的内部,自顶向下进行分析,寻找包含儿子节点最多的子树, 即最大扇出子树结点,然后对每个扇出子树结点进行分析,分别判断每个子树 块是否是链接块,每个子树是否具有连续的结构符号等,去除噪声信息。每个 子树块是否是链接块的判断根据块文本和链接文本比例确定,如果块文本和链 接文本的比例大于2则是链接块,删除该链接块。每个子树是否具有连续的结 构符号根据标签结构相似性判断,如果有连续的结构符号表示文本是内聚的, 是正文,予以保留。连续标签信息部分大多数都是语义内聚,不包含噪声信息。 由于开始的部分和结尾续,包含噪音信息。根据标签符号连续性以及包含字数多少等一系列启发式规 则判断开头和结尾部分的标签是否属于正文文本内容,如果不属于则删除,如 果属于则^f呆留。在步骤S304中,去除最大文本块中的图像与图像标题信息; 在文本块中,根据图像的标签信息IMG为触发条件,然后在DOM中寻找 相应的文本结点,并判断是否是图像标题信息,是则去除图像和图像标题信息。 在步骤S305中,获取标题与时间信息;在文本块中,标题信息主要是通过视觉信息来判断,例如该结点块是否比 当前的字体大,字体是否是黑体,该结点块的背景颜色是否不同于当前的背景 等。时间信息主要是通过时间模板的格式来获取。在步骤S306中,输出对应的文本内容。对于多块文本型网页,首先对该网页进行语义分析,获取大小粒度合适的 相应语义块,对于每个语义块,根据文本/链接文本的比例,判断其是否是文本 块,对于文本块,则按照上述内容型网页的分析方式,获取该文本块的文本内 容,合并输出文本块内容,处理完所有文本块以后,合并输出所有文本块的文 本内容,合并后的文本内容就是最终的输出文本,具体实现如图4所示:在步骤S401中,网页进行语义分析,获取大小粒度合适的相应语义块;在步骤S402中,对于每个语义块,根据文本/链接文本的比例,判断是否 是文本块,对于文本块进行内容型网页分析,获取该文本块的文本内容;在步骤S403中,合并输出文本块内容;在步骤S404中,判断是否所有的文本块已经分析完毕,是则执行步骤S405, 否则执行步骤S402;在步骤S405中,合并输出所有文本块的文本内容。对于索引型网页,通过对索引型网页进行语义分析,获取粒度大小合适的 语义块,然后再根据URL结构特征和语义特征获取重要的块信息。根据URL 结构分析,可以判定哪些块中包含变化规律的URL结构。另外,对于每块中的URL,通过统计URL包含的符号,并提取包含类似news, ent等标志性的语义 特征。如果URL变化规律,且包含所定义的标志性的语义特征,粒度大小合适, 提取其为重要块。并按照预先定义语义特征权值按照重要程度大小输出,删除 噪声等无关信息块。图5示出了本发明实施例提供的互联网网页清洗系统的结构,为了便于说 明仅示出了与本发明实施例相关的部分。该系统可以用于对网页进行各种处理的通信设备,例如Web服务器、搜索 引擎等,也可以用于具备网页处理能力的各种终端设备,例如计算机、笔记本 电脑、个人数字助理(Personal Digital Assistant, PDA)等,可以是运行于这些 设备内的软件单元、硬件单元或者软硬件相结合的单元,也可以作为独立的挂 件集成到这些设备中或者运行于这些设备的应用系统中,其中:网页分析单元51分析输入的网页,对网页标签内容自动纠错,建立DOM 树。在本发明实施例中,网页分析单元51对输入的网页进行分析时,采用HTML 网页语义定义标准进行上下文句法约束方式,实现网页标签内容的自动纠错。结构块树生成单元52保留所述文档对象模型树中具有表示内容的HTML 的块元素结点,生成与DOM树对应的结构块树。网页分类单元53在结构块树的基础上按照定义的网页类型对输入的网页 进行分类。在本发明实施例中,网页类型根据网页的内部特征定义,而不是按 照内容形式划分的,对网页进行分类时采用决策树分类器实现,决策树分类器 的输入判别特征包括文本个数信息、链接文本个数信息、文本语义信息,以及 标签信息等。作为本发明的一个实施例,将网页的类型分为内容型网页、多块 文本型网页、索引型网页和非明显特征型网页,具体的网页定义和分类过程如 上所述,不再赘述。网页清洗单元54根据输入的网页所属的网页类型,对其进行语义块分析, 提取并输出重要块及其文本信息。在本发明实施例中,当输入的网页为内容型 网页时,网页清洗单元54^是取网页的主要文本块;输入的网页为多块文本型网页时,网页清洗单元54对输入的网页进行语义块分析,获取相应语义块,对于 每个语义块分别获取文本块内容,合并后输出文本信息;当输入的网页为索引 型网页时,网页清洗单元54对进行语义分析,获取粒度大小合适的语义块,根 据URL结构特征和语义特征等语义块分析特征获取重要的块信息;当输入的网 页为非明显特征型网页时,网页清洗单元54对网页的标签进4亍*见范后输出。在 对不同类型的网页进行清洗时的具体实现方式如上所述,不再赘述。在本发明实施例中,语义块分析所利用的特征包括URL结构相似性,标签 的结构相似性,视觉特征,或者上下文文本的信息增益,具体实现如上所述, 不再赘述。本发明实施例基于网页分类策略,将网页分为语义内聚的合适粒度大小的 块,对每个块进行分析识别,有效地提取出重要块及其信息,可以实现任意网 页的清洗,不仅可以解决内容型网页的主要文本内容的提取,而且可以提供其 它类型网页如索引型网页,BBS/Blog型网页的重要块提取以及噪声信息去除, 清洗准确率高。对于移动电话和PDA等电子终端的用户来说,由于终端的显示 屏幕有限,通过分块显示大大提高系统的可用性。在搜索引擎方面,经过通用 网页的清洗,在此基础上建立索引可以消除噪声信息的影响,能够显著提高搜 索的准确性和性能。同时,本发明实施例通过将网页分成语义内聚的块,提取重要块,去除噪 声块,可以将以网页为检索单元转化成按照语义块为检索单元,从而能够更准 确搜索和定位搜索信息块,这对于在移动设备上搜索和浏览显得尤为重要。同 样对于面向主题的信息收集,系统通过判断哪些信息块与指定的主题相关,然 后将这些主题块中包含的超链加入到下载队列中进行下载,可以大大提高信息 收集效率。另外,本发明实施例为自动信息提取和垂直搜索奠定了基础,通过有效地 进行网页清洗,提取出Web网页的主要内容,可以更好的将半结构化信息转化 成所需要的结构化信息。在自然语言处理、分类、聚类和文摘等系统中,网页清洗也是利用Web网页作为语料的处理基础。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发 明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明 的保护范围之内。
Claims (18)
1、一种互联网网页清洗方法,其特征在于,所述方法包括下述步骤: 分析输入的网页,对网页标签内容自动纠错,建立文档对象模型树; 保留所述文档对象模型树中具有表示内容的HTML的块元素结点,生成与所述文档对象模型树对应的结构块树; 在所述结构块树的基础上按照定义的网页类型对输入的网页进行分类; 根据输入的网页所属的网页类型,对其进行语义块分析,提取并输出重要块及其文本信息。
2、 如权利要求l所述的方法,其特征在于,在对输入的网页进行分析时, 采用HTML网页语义定义标准进行上下文句法约束方式,实现网页标签内容的 自动纠错。
3、 如权利要求l所述的方法,其特征在于,对输入的网页进行分类时采用 决策树分类器实现。
4、 如权利要求3所述的方法,其特征在于,所述决策树分类器的输入判别 特征包括文本个数信息、链接文本个数信息、文本语义信息,以及标签信息。
5、 如权利要求l、 3或4所述的方法,其特征在于,所述网页类型根据网 页的内部特征定义。
6、 如权利要求5所述的方法,其特征在于,所述网页类型包括内容型网页、 多块文本型网页、索引型网页或者非明显特征型网页。
7、 如权利要求6所述的方法,其特征在于,当所述输入的网页为内容型网 页时,所述根据输入的网页所属的网页类型,对其进行语义块分析,提取并输 出重要块及其文本信息的步骤具体为:统计有效的最大文本块,判断最大文本块是否是版权信息块,是则用次最 大文本块或者包含p结点的文本块代替作为最大文本块;扩展最大文本块,利用上下文文本信息增益和文本增益和链接文本增益的 比例特征去扩展所述最大文本块的结点;块内部分析,对所述最大文本块进行内部分析,去除其中的噪声信息。
8、 如权利要求6所述的方法,其特征在于,当所述输入的网页为多块文本 型网页时,所述根据输入的网页所属的网页类型,对其进行语义块分析,提取 并输出重要块及其文本信息的步骤具体为:对输入的网页进4亍语义块分析,获拟目应语义块; 对于每个语义块分别获取文本块内容,合并后输出文本信息。
9、 如权利要求6所述的方法,其特征在于,当所述输入的网页为索引型网 页时,所述根据输入的网页所属的网页类型,对其进行语义块分析,提取并输 出重要块及其文本信息的步骤具体为:对进行语义分析,获取粒度大小合适的语义块; 根据语义块分析特征获取重要的块信息。
10、 如权利要求l、 7、 8或9所述的方法,其特征在于,所述语义块分析 所利用的特征包括URL结构相似性,标签的结构相似性,视觉特征,或者上下 文文本的信息增益。
11、 如权利要求IO所述的方法,其特征在于,所述的URL结构相似性包 括语义块中URL结构是否规律性变化,以及URL结构中是否包含标志性语义 特征。
12、 一种互联网网页清洗系统,其特征在于,所述系统包括: 网页分析单元,用于分析输入的网页,对网页标签内容自动纠错,建立文档对象模型树;结构块树生成单元,用于保留所述文档对象模型树中具有表示内容的 HTML的块元素结点,生成与所述文档对象才莫型树对应的结构块树;网页分类单元,用于在所述结构块树的基础上按照定义的网页类型对输入 的网页进行分类;以及网页清洗单元,用于根据输入的网页所属的网页类型,对其进行语义块分 析,提取并输出重要块及其文本信息。
13、 如权利要求12所述的系统,其特征在于,所述网页分析单元对输入的 网页进行分析时,采用t[TML网页语义定义标准进^f亍上下文句法约束方式,实 现网页标签内容的自动纠错。
14、 如权利要求12所述的系统,其特征在于,所述网页分类单元对输入的 网页进行分类时采用决策树分类器实现。
15、 如权利要求12或14所述的系统,其特征在于,所述网页类型根据网 页的内部特4正定义。
16、 如权利要求15所述的系统,其特征在于,所述网页类型包括内容型网 页、多块文本型网页、索引型网页或者非明显特征型网页。
17、 如权利要求12所述的系统,其特征在于,所述语义块分析所利用的特 征包括URL结构相似性,标签的结构相似性,— 见觉特征,或者上下文文本的信 息增益。
18、 一种包含权利要求12的互联网网页清洗系统的通信设备。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008100664327A CN101251855B (zh) | 2008-03-27 | 2008-03-27 | 一种互联网网页清洗方法、系统及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008100664327A CN101251855B (zh) | 2008-03-27 | 2008-03-27 | 一种互联网网页清洗方法、系统及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101251855A true CN101251855A (zh) | 2008-08-27 |
CN101251855B CN101251855B (zh) | 2010-12-22 |
Family
ID=39955246
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008100664327A Active CN101251855B (zh) | 2008-03-27 | 2008-03-27 | 一种互联网网页清洗方法、系统及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101251855B (zh) |
Cited By (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101908071A (zh) * | 2010-08-10 | 2010-12-08 | 厦门市美亚柏科信息股份有限公司 | 一种提高搜索引擎搜索效率的方法及其系统 |
CN102253979A (zh) * | 2011-06-23 | 2011-11-23 | 天津海量信息技术有限公司 | 基于视觉的web页面萃取方法 |
CN102270206A (zh) * | 2010-06-03 | 2011-12-07 | 北京迅捷英翔网络科技有限公司 | 一种有效网页内容的抓取方法及装置 |
CN102298614A (zh) * | 2011-07-29 | 2011-12-28 | 百度在线网络技术(北京)有限公司 | 一种确定网页收藏信息的收藏分类的方法、装置和设备 |
CN102486792A (zh) * | 2010-12-06 | 2012-06-06 | 腾讯科技(深圳)有限公司 | 一种将通用论坛页面重新组织和显示的方法及系统 |
CN102622333A (zh) * | 2011-01-18 | 2012-08-01 | 微软公司 | 提取文本以转换成音频 |
CN102637172A (zh) * | 2011-02-10 | 2012-08-15 | 北京百度网讯科技有限公司 | 网页分块标注方法与系统 |
CN102650999A (zh) * | 2011-02-28 | 2012-08-29 | 株式会社理光 | 一种从网页中抽取对象属性值信息的方法和系统 |
CN102663023A (zh) * | 2012-03-22 | 2012-09-12 | 浙江盘石信息技术有限公司 | 一种提取网页内容的实现方法 |
CN102117289B (zh) * | 2009-12-30 | 2012-10-10 | 北京大学 | 一种从网页中抽取评论内容的方法和装置 |
CN102812456A (zh) * | 2010-02-04 | 2012-12-05 | 爱立信(中国)通信有限公司 | 用于内容叠合的方法 |
CN102890717A (zh) * | 2012-09-29 | 2013-01-23 | 北京奇虎科技有限公司 | 网页类别知识库的建立系统及方法 |
CN102902794A (zh) * | 2012-09-29 | 2013-01-30 | 北京奇虎科技有限公司 | 网页分类系统及方法 |
CN102902791A (zh) * | 2012-09-29 | 2013-01-30 | 北京奇虎科技有限公司 | 网页分类存储系统及方法 |
CN102902792A (zh) * | 2012-09-29 | 2013-01-30 | 北京奇虎科技有限公司 | 列表页识别系统及方法 |
CN102902793A (zh) * | 2012-09-29 | 2013-01-30 | 北京奇虎科技有限公司 | 网页类别知识库的建立系统及方法 |
CN102902790A (zh) * | 2012-09-29 | 2013-01-30 | 北京奇虎科技有限公司 | 网页分类系统及方法 |
CN102929948A (zh) * | 2012-09-29 | 2013-02-13 | 北京奇虎科技有限公司 | 列表页识别系统及方法 |
CN102999576A (zh) * | 2012-11-13 | 2013-03-27 | 北京百度网讯科技有限公司 | 用于确定目标页面所对应的页面描述信息的方法和设备 |
CN103164423A (zh) * | 2011-12-09 | 2013-06-19 | 百度在线网络技术(北京)有限公司 | 一种用于确定渲染网页的浏览器内核类型的方法与设备 |
CN103166981A (zh) * | 2011-12-08 | 2013-06-19 | 腾讯科技(深圳)有限公司 | 一种无线网页转码方法及装置 |
CN101866342B (zh) * | 2009-04-16 | 2013-09-11 | 富士通株式会社 | 生成或显示网页标注的方法和装置以及信息共享系统 |
CN103309862A (zh) * | 2012-03-07 | 2013-09-18 | 腾讯科技(深圳)有限公司 | 一种网页类型识别方法和系统 |
CN103412881A (zh) * | 2013-07-17 | 2013-11-27 | 北京奇虎科技有限公司 | 提供搜索结果的方法及系统 |
CN103440239A (zh) * | 2013-05-14 | 2013-12-11 | 百度在线网络技术(北京)有限公司 | 一种基于功能区域识别的网页切分方法及装置 |
CN103440315A (zh) * | 2013-08-27 | 2013-12-11 | 北京工业大学 | 一种基于主题的Web页面清洗方法 |
CN103473338A (zh) * | 2013-09-22 | 2013-12-25 | 北京奇虎科技有限公司 | 网页内容抽取方法和网页内容抽取系统 |
CN103488743A (zh) * | 2013-09-22 | 2014-01-01 | 北京奇虎科技有限公司 | 网页元素抽取方法和网页元素抽取系统 |
WO2014000571A1 (zh) * | 2012-06-25 | 2014-01-03 | 北京奇虎科技有限公司 | 一种网页中非正文文本的识别系统及方法 |
CN103577547A (zh) * | 2013-10-12 | 2014-02-12 | 优视科技有限公司 | 网页类型识别方法及装置 |
CN103605724A (zh) * | 2013-11-15 | 2014-02-26 | 清华大学 | 基于网页文本语义特征的在线零售额计算方法 |
CN104657422A (zh) * | 2015-01-16 | 2015-05-27 | 北京邮电大学 | 一种基于分类决策树的内容发布智能分类方法 |
CN104834685A (zh) * | 2015-04-17 | 2015-08-12 | 百度国际科技(深圳)有限公司 | 一种对评论类网页中的评论信息块进行处理的方法与装置 |
CN105069112A (zh) * | 2015-08-11 | 2015-11-18 | 浪潮软件集团有限公司 | 一种行业垂直搜索引擎系统 |
CN105183814A (zh) * | 2015-08-27 | 2015-12-23 | 湖南人文科技学院 | 一种物联网数据清洗方法 |
CN106407218A (zh) * | 2015-07-31 | 2017-02-15 | 北京国双科技有限公司 | 导航网页的检测方法和装置 |
CN106611008A (zh) * | 2015-10-26 | 2017-05-03 | 中国移动通信集团公司 | 一种互联网内容标签的管理方法及装置 |
CN108228641A (zh) * | 2016-12-21 | 2018-06-29 | 中国移动通信集团辽宁有限公司 | 网页数据分析的方法、设备和系统 |
CN108573031A (zh) * | 2018-03-26 | 2018-09-25 | 上海万行信息科技有限公司 | 一种基于内容的投诉分类方法和系统 |
CN109344355A (zh) * | 2018-09-26 | 2019-02-15 | 北京因特睿软件有限公司 | 针对网页变化的自动回归检测与块匹配自适应方法和装置 |
CN109683906A (zh) * | 2018-12-25 | 2019-04-26 | 北京小米移动软件有限公司 | 处理html代码片段的方法及装置 |
CN110516710A (zh) * | 2019-07-25 | 2019-11-29 | 湖南星汉数智科技有限公司 | 网页分类方法、装置、计算机装置及计算机可读存储介质 |
CN111079192A (zh) * | 2018-10-18 | 2020-04-28 | 宏碁股份有限公司 | 网页内容自我保护方法以及服务器 |
CN111176772A (zh) * | 2019-12-24 | 2020-05-19 | 安克创新科技股份有限公司 | 用于状态切换的方法、装置以及机器人 |
CN113505120A (zh) * | 2021-09-10 | 2021-10-15 | 西南交通大学 | 一种大规模人脸数据集的双阶段噪声清洗方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102262624A (zh) * | 2011-08-08 | 2011-11-30 | 中国科学院自动化研究所 | 基于多模态辅助的实现跨语言沟通系统及方法 |
-
2008
- 2008-03-27 CN CN2008100664327A patent/CN101251855B/zh active Active
Cited By (73)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101866342B (zh) * | 2009-04-16 | 2013-09-11 | 富士通株式会社 | 生成或显示网页标注的方法和装置以及信息共享系统 |
CN102117289B (zh) * | 2009-12-30 | 2012-10-10 | 北京大学 | 一种从网页中抽取评论内容的方法和装置 |
CN102812456A (zh) * | 2010-02-04 | 2012-12-05 | 爱立信(中国)通信有限公司 | 用于内容叠合的方法 |
CN102270206A (zh) * | 2010-06-03 | 2011-12-07 | 北京迅捷英翔网络科技有限公司 | 一种有效网页内容的抓取方法及装置 |
CN101908071A (zh) * | 2010-08-10 | 2010-12-08 | 厦门市美亚柏科信息股份有限公司 | 一种提高搜索引擎搜索效率的方法及其系统 |
CN101908071B (zh) * | 2010-08-10 | 2012-09-05 | 厦门市美亚柏科信息股份有限公司 | 一种提高搜索引擎搜索效率的方法及其系统 |
CN102486792B (zh) * | 2010-12-06 | 2014-04-16 | 腾讯科技(深圳)有限公司 | 一种将通用论坛页面重新组织和显示的方法及系统 |
CN102486792A (zh) * | 2010-12-06 | 2012-06-06 | 腾讯科技(深圳)有限公司 | 一种将通用论坛页面重新组织和显示的方法及系统 |
CN102622333A (zh) * | 2011-01-18 | 2012-08-01 | 微软公司 | 提取文本以转换成音频 |
CN102637172A (zh) * | 2011-02-10 | 2012-08-15 | 北京百度网讯科技有限公司 | 网页分块标注方法与系统 |
CN102637172B (zh) * | 2011-02-10 | 2013-11-27 | 北京百度网讯科技有限公司 | 网页分块标注方法与系统 |
CN102650999A (zh) * | 2011-02-28 | 2012-08-29 | 株式会社理光 | 一种从网页中抽取对象属性值信息的方法和系统 |
CN102650999B (zh) * | 2011-02-28 | 2015-08-05 | 株式会社理光 | 一种从网页中抽取对象属性值信息的方法和系统 |
CN102253979B (zh) * | 2011-06-23 | 2013-07-24 | 天津海量信息技术有限公司 | 基于视觉的web页面萃取方法 |
CN102253979A (zh) * | 2011-06-23 | 2011-11-23 | 天津海量信息技术有限公司 | 基于视觉的web页面萃取方法 |
CN102298614A (zh) * | 2011-07-29 | 2011-12-28 | 百度在线网络技术(北京)有限公司 | 一种确定网页收藏信息的收藏分类的方法、装置和设备 |
CN103166981B (zh) * | 2011-12-08 | 2017-12-12 | 腾讯科技(深圳)有限公司 | 一种无线网页转码方法及装置 |
CN103166981A (zh) * | 2011-12-08 | 2013-06-19 | 腾讯科技(深圳)有限公司 | 一种无线网页转码方法及装置 |
CN103164423B (zh) * | 2011-12-09 | 2017-11-03 | 百度在线网络技术(北京)有限公司 | 一种用于确定渲染网页的浏览器内核类型的方法与设备 |
CN103164423A (zh) * | 2011-12-09 | 2013-06-19 | 百度在线网络技术(北京)有限公司 | 一种用于确定渲染网页的浏览器内核类型的方法与设备 |
CN103309862A (zh) * | 2012-03-07 | 2013-09-18 | 腾讯科技(深圳)有限公司 | 一种网页类型识别方法和系统 |
CN103309862B (zh) * | 2012-03-07 | 2017-05-17 | 腾讯科技(深圳)有限公司 | 一种网页类型识别方法和系统 |
CN102663023A (zh) * | 2012-03-22 | 2012-09-12 | 浙江盘石信息技术有限公司 | 一种提取网页内容的实现方法 |
CN102663023B (zh) * | 2012-03-22 | 2014-09-17 | 浙江盘石信息技术有限公司 | 一种提取网页内容的实现方法 |
WO2014000571A1 (zh) * | 2012-06-25 | 2014-01-03 | 北京奇虎科技有限公司 | 一种网页中非正文文本的识别系统及方法 |
CN102902793A (zh) * | 2012-09-29 | 2013-01-30 | 北京奇虎科技有限公司 | 网页类别知识库的建立系统及方法 |
CN102929948B (zh) * | 2012-09-29 | 2017-03-08 | 北京奇虎科技有限公司 | 列表页识别系统及方法 |
CN102902791B (zh) * | 2012-09-29 | 2016-08-03 | 北京奇虎科技有限公司 | 网页分类存储系统及方法 |
CN105183843B (zh) * | 2012-09-29 | 2018-09-14 | 北京奇虎科技有限公司 | 列表页识别系统及方法 |
CN102902791A (zh) * | 2012-09-29 | 2013-01-30 | 北京奇虎科技有限公司 | 网页分类存储系统及方法 |
CN102902794A (zh) * | 2012-09-29 | 2013-01-30 | 北京奇虎科技有限公司 | 网页分类系统及方法 |
CN102902792A (zh) * | 2012-09-29 | 2013-01-30 | 北京奇虎科技有限公司 | 列表页识别系统及方法 |
CN105183843A (zh) * | 2012-09-29 | 2015-12-23 | 北京奇虎科技有限公司 | 列表页识别系统及方法 |
CN102902793B (zh) * | 2012-09-29 | 2016-12-21 | 北京奇虎科技有限公司 | 网页类别知识库的建立系统及方法 |
CN102890717A (zh) * | 2012-09-29 | 2013-01-23 | 北京奇虎科技有限公司 | 网页类别知识库的建立系统及方法 |
CN102902790A (zh) * | 2012-09-29 | 2013-01-30 | 北京奇虎科技有限公司 | 网页分类系统及方法 |
CN102929948A (zh) * | 2012-09-29 | 2013-02-13 | 北京奇虎科技有限公司 | 列表页识别系统及方法 |
CN102902794B (zh) * | 2012-09-29 | 2016-08-03 | 北京奇虎科技有限公司 | 网页分类系统及方法 |
CN102890717B (zh) * | 2012-09-29 | 2016-09-28 | 北京奇虎科技有限公司 | 网页类别知识库的建立系统及方法 |
CN102902792B (zh) * | 2012-09-29 | 2015-10-21 | 北京奇虎科技有限公司 | 列表页识别系统及方法 |
CN102999576B (zh) * | 2012-11-13 | 2016-08-17 | 北京百度网讯科技有限公司 | 用于确定目标页面所对应的页面描述信息的方法和设备 |
CN102999576A (zh) * | 2012-11-13 | 2013-03-27 | 北京百度网讯科技有限公司 | 用于确定目标页面所对应的页面描述信息的方法和设备 |
CN103440239A (zh) * | 2013-05-14 | 2013-12-11 | 百度在线网络技术(北京)有限公司 | 一种基于功能区域识别的网页切分方法及装置 |
CN103440239B (zh) * | 2013-05-14 | 2016-08-10 | 百度在线网络技术(北京)有限公司 | 一种基于功能区域识别的网页切分方法及装置 |
CN103412881A (zh) * | 2013-07-17 | 2013-11-27 | 北京奇虎科技有限公司 | 提供搜索结果的方法及系统 |
CN103412881B (zh) * | 2013-07-17 | 2016-09-28 | 北京奇虎科技有限公司 | 提供搜索结果的方法及系统 |
CN103440315B (zh) * | 2013-08-27 | 2016-08-10 | 北京工业大学 | 一种基于主题的Web页面清洗方法 |
CN103440315A (zh) * | 2013-08-27 | 2013-12-11 | 北京工业大学 | 一种基于主题的Web页面清洗方法 |
CN103473338A (zh) * | 2013-09-22 | 2013-12-25 | 北京奇虎科技有限公司 | 网页内容抽取方法和网页内容抽取系统 |
CN103488743A (zh) * | 2013-09-22 | 2014-01-01 | 北京奇虎科技有限公司 | 网页元素抽取方法和网页元素抽取系统 |
CN103488743B (zh) * | 2013-09-22 | 2016-10-05 | 北京奇虎科技有限公司 | 网页元素抽取方法和网页元素抽取系统 |
CN103473338B (zh) * | 2013-09-22 | 2016-10-05 | 北京奇虎科技有限公司 | 网页内容抽取方法和网页内容抽取系统 |
CN103577547A (zh) * | 2013-10-12 | 2014-02-12 | 优视科技有限公司 | 网页类型识别方法及装置 |
CN103605724A (zh) * | 2013-11-15 | 2014-02-26 | 清华大学 | 基于网页文本语义特征的在线零售额计算方法 |
CN104657422A (zh) * | 2015-01-16 | 2015-05-27 | 北京邮电大学 | 一种基于分类决策树的内容发布智能分类方法 |
CN104657422B (zh) * | 2015-01-16 | 2018-05-15 | 北京邮电大学 | 一种基于分类决策树的内容发布智能分类方法 |
CN104834685A (zh) * | 2015-04-17 | 2015-08-12 | 百度国际科技(深圳)有限公司 | 一种对评论类网页中的评论信息块进行处理的方法与装置 |
CN106407218B (zh) * | 2015-07-31 | 2020-03-03 | 北京国双科技有限公司 | 导航网页的检测方法和装置 |
CN106407218A (zh) * | 2015-07-31 | 2017-02-15 | 北京国双科技有限公司 | 导航网页的检测方法和装置 |
CN105069112A (zh) * | 2015-08-11 | 2015-11-18 | 浪潮软件集团有限公司 | 一种行业垂直搜索引擎系统 |
CN105183814A (zh) * | 2015-08-27 | 2015-12-23 | 湖南人文科技学院 | 一种物联网数据清洗方法 |
CN106611008A (zh) * | 2015-10-26 | 2017-05-03 | 中国移动通信集团公司 | 一种互联网内容标签的管理方法及装置 |
CN106611008B (zh) * | 2015-10-26 | 2020-06-12 | 中国移动通信集团公司 | 一种互联网内容标签的管理方法及装置 |
CN108228641A (zh) * | 2016-12-21 | 2018-06-29 | 中国移动通信集团辽宁有限公司 | 网页数据分析的方法、设备和系统 |
CN108573031A (zh) * | 2018-03-26 | 2018-09-25 | 上海万行信息科技有限公司 | 一种基于内容的投诉分类方法和系统 |
CN109344355B (zh) * | 2018-09-26 | 2022-03-15 | 北京因特睿软件有限公司 | 针对网页变化的自动回归检测与块匹配自适应方法和装置 |
CN109344355A (zh) * | 2018-09-26 | 2019-02-15 | 北京因特睿软件有限公司 | 针对网页变化的自动回归检测与块匹配自适应方法和装置 |
CN111079192A (zh) * | 2018-10-18 | 2020-04-28 | 宏碁股份有限公司 | 网页内容自我保护方法以及服务器 |
CN109683906A (zh) * | 2018-12-25 | 2019-04-26 | 北京小米移动软件有限公司 | 处理html代码片段的方法及装置 |
CN110516710A (zh) * | 2019-07-25 | 2019-11-29 | 湖南星汉数智科技有限公司 | 网页分类方法、装置、计算机装置及计算机可读存储介质 |
CN111176772A (zh) * | 2019-12-24 | 2020-05-19 | 安克创新科技股份有限公司 | 用于状态切换的方法、装置以及机器人 |
CN113505120A (zh) * | 2021-09-10 | 2021-10-15 | 西南交通大学 | 一种大规模人脸数据集的双阶段噪声清洗方法 |
CN113505120B (zh) * | 2021-09-10 | 2021-12-21 | 西南交通大学 | 一种大规模人脸数据集的双阶段噪声清洗方法 |
Also Published As
Publication number | Publication date |
---|---|
CN101251855B (zh) | 2010-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101251855B (zh) | 一种互联网网页清洗方法、系统及设备 | |
Sun et al. | Dom based content extraction via text density | |
CN101593200B (zh) | 基于关键词频度分析的中文网页分类方法 | |
CN103049435B (zh) | 文本细粒度情感分析方法及装置 | |
CN101246494B (zh) | 一种互联网网页转换方法、系统及设备 | |
CN103544255A (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN102591612B (zh) | 一种基于标点连续性的通用网页正文提取方法及其系统 | |
US20050267915A1 (en) | Method and apparatus for recognizing specific type of information files | |
CN102253930B (zh) | 一种文本翻译的方法及装置 | |
CN102270206A (zh) | 一种有效网页内容的抓取方法及装置 | |
CN101833554B (zh) | 产生抽取模板的方法、设备和抽取网页内容的方法和设备 | |
CN102298638A (zh) | 使用网页标签聚类提取新闻网页内容的方法和系统 | |
CN102609427A (zh) | 舆情垂直搜索分析系统及方法 | |
CN103309961B (zh) | 基于马尔可夫随机场的网页正文提取方法 | |
CN103678412A (zh) | 一种文档检索的方法及装置 | |
CN102915361B (zh) | 一种基于文字分布特征的网页正文提取方法 | |
CN104331438B (zh) | 对小说网页内容选择性抽取方法和装置 | |
CN103064845B (zh) | 网页信息处理装置和网页信息处理方法 | |
CN103810251A (zh) | 一种文本提取方法及装置 | |
CN103246732A (zh) | 一种在线Web新闻内容的抽取方法及系统 | |
CN104978332A (zh) | 用户生成内容标签数据生成方法、装置及相关方法和装置 | |
CN104503988A (zh) | 搜索方法及装置 | |
WO2014000130A1 (en) | Method or system for automated extraction of hyper-local events from one or more web pages | |
CN104156458A (zh) | 一种信息的提取方法及装置 | |
CN103064966A (zh) | 一种从单记录网页中抽取规律噪音的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
C06 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
C10 | Entry into substantive examination | ||
GR01 | Patent grant | ||
C14 | Grant of patent or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20151223 Address after: The South Road in Guangdong province Shenzhen city Fiyta building 518057 floor 5-10 Nanshan District high tech Zone Patentee after: Shenzhen Tencent Computer System Co., Ltd. Address before: Shenzhen Futian District City, Guangdong province 518044 Zhenxing Road, SEG Science Park 2 East Room 403 Patentee before: Tencent Technology (Shenzhen) Co., Ltd. |
|
C41 | Transfer of patent application or patent right or utility model |