CN105550278A - 基于深度学习的网页区域识别算法 - Google Patents

基于深度学习的网页区域识别算法 Download PDF

Info

Publication number
CN105550278A
CN105550278A CN201510910397.2A CN201510910397A CN105550278A CN 105550278 A CN105550278 A CN 105550278A CN 201510910397 A CN201510910397 A CN 201510910397A CN 105550278 A CN105550278 A CN 105550278A
Authority
CN
China
Prior art keywords
vector
web page
text
page area
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201510910397.2A
Other languages
English (en)
Inventor
李志杰
周祖胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TIANJIN HYLANDA INFORMATION TECHNOLOGY CO LTD
Original Assignee
TIANJIN HYLANDA INFORMATION TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TIANJIN HYLANDA INFORMATION TECHNOLOGY CO LTD filed Critical TIANJIN HYLANDA INFORMATION TECHNOLOGY CO LTD
Priority to CN201510910397.2A priority Critical patent/CN105550278A/zh
Publication of CN105550278A publication Critical patent/CN105550278A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

一种基于深度学习的网页区域识别算法,包括以下步骤:A、以格式化文本,网页的超文本标记语言HTML的源码作为算法输入;B、通过HTML2XML算法提取出网页区域的视觉特征向量;C、通过HTML2XML算法提取出网页区域的文本内容,并通过神经网络语言模型学习出文本特征向量;D、以堆叠降噪自动编码器SDAE作为特征学习方法,将上述特征向量作为SDAE的输入向量;E、使用分类算法对SDAE的输出向量进行分类,对向量的分类结果即为该向量所对应的网页区域的识别结果。通过本发明可对网页内的标题区、正文区、导航区等视觉区域进行准确识别,识别准确率达99.99%-100%。

Description

基于深度学习的网页区域识别算法
技术领域
本发明涉及互联网信息采集的技术领域,具体说是一种基于深度学习的网页区域识别算法。
背景技术
网页区域识别对搜索引擎构建、网络信息检索、网络数据采集及网络知识发现至关重要。目前,网页区域识别通常采取如下方法:人工设定识别规则对网页区域进行识别或者基于其他非深度学习的机器学习方法对网页区域进行识别。
对网页区域识别而言,区域内文本的视觉特征(文字的大小、颜色、是否加粗等)及区域本身的视觉特征(位置、底色、是否有边框等)至关重要。纯文本无法反映这些视觉特征,且自然语言具有高度抽象性,仅对纯文本进行特征提取及模式识别,难以提取出足够的特征,获得理想的识别效果。
发明内容
本发明要解决的技术问题是提供一种基于深度学习的网页区域识别算法。
本发明为解决公知技术中存在的技术问题所采取的技术方案是:
本发明的基于深度学习的网页区域识别算法,包括以下步骤:
A、格式化文本:以网页的HTML源码作为算法输入;
B、视觉特征处理:
将HTML转化为XML,提取网页内不同区域的视觉特征;选择上述视觉特征,得到视觉特征向量;将视觉特征向量进行归一化,得到归一化后的视觉特征向量;
C、文本特征处理:
将HTML转化为XML,提取网页区域内的文本;通过分词算法将文本特征序列化;通过神经网络语言模型学习出文本特征向量;
D、将堆叠降噪自动编码器SDAE作为特征学习方法,将上述处理后的特征向量作为输入向量;
E、将堆叠降噪自动编码器SDAE的输出向量作为分类算法的输入,使用分类算法对上述输出向量进行分类,对向量的分类结果即为该特征向量所对应的网页区域的识别结果。
本发明还可以采用以下技术措施:
步骤B中,通过选择全部视觉特征,得到未经归一化的视觉特征向量。
步骤B中,通过选择部分视觉特征,得到未经归一化的视觉特征向量。
使用Min-MaxNormalization的归一化方法对视觉特征向量进行归一化,得到归一化后的视觉特征向量。
步骤C中,通过海量分词算法对文本进行分词。
步骤C中,通过结巴分词算法对文本进行分词。
步骤C中,通过Paragraph2Vec算法学习出文本特征向量。
步骤D中,将视觉特征向量作为堆叠降噪自动编码器SDAE的输入向量。
步骤D中,将视觉特征向量与文本特征向量拼接后作为堆叠降噪自动编码器SDAE的输入向量,对拼接后的向量选择性进行归一化处理。
步骤E中,使用分类算法SoftmaxRegression对学习到的特征向量进行分类。
本发明具有的优点和积极效果是:
本发明的基于深度学习的网页区域识别算法中,以网页的HTML源码作为算法输入,并将HTML转化为XML,提取视觉特征和文本内容,并对相应的视觉特征进行归一化处理、对文本内容通过神经网络语言模型进行特征学习,分别得到初步的视觉特征向量和文本特征向量,通过堆叠降噪自动编码器SDAE对初步的视觉特征向量和文本特征向量进行进一步的学习,得到代表相应网页区域的网页区域特征向量,并通过分类算法对网页区域特征向量进行分类处理,即得到网页区域的识别结果。本发明可对网页内的标题区、正文区、导航区等视觉区域进行准确识别,识别准确率达99.99%-100%。
具体实施方式
以下通过具体实施例对本发明进行详细说明。
本发明的基于深度学习的网页区域识别算法,包括以下步骤:
A、格式化文本:以网页的HTML源码作为算法输入;
B、视觉特征处理:
将HTML转化为XML,提取网页内不同区域的视觉特征,视觉特征包括区域坐标、区域底色、区域边框粗细、区域文字密度、区域文字字体、区域文字大小、区域文字颜色等;通过选择全部或部分视觉特征,得到未经归一化的视觉特征向量;使用Min-MaxNormalization的归一化方法对视觉特征向量进行归一化,得到归一化后的视觉特征向量;
C、文本特征处理:
将HTML转化为XML,提取网页区域内的文本;通过海量分词算法或者结巴分词算法对文本进行分词;通过神经网络语言模型的Paragraph2Vec算法学习出文本特征向量;
D、将堆叠降噪自动编码器SDAE作为特征学习方法,将上述处理后的特征向量作为输入向量,其中SDAE的输入向量由视觉特征向量与文本特征向量拼接而成,或仅使用视觉特征向量充当输入向量,而对拼接后的向量进行或不进行归一化处理;
E、将堆叠降噪自动编码器SDAE的输出向量作为分类算法的输入,使用分类算法SoftmaxRegression对上述输出向量进行分类,对向量的分类结果即为该特征向量所对应的网页区域的识别结果。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例公开如上,然而,并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当然会利用揭示的技术内容作出些许更动或修饰,成为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均属于本发明技术方案的范围内。

Claims (10)

1.一种基于深度学习的网页区域识别算法,包括以下步骤:
A、格式化文本:以网页的HTML源码作为算法输入;
B、视觉特征处理:
将HTML转化为XML,提取网页内不同区域的视觉特征;选择上述视觉特征,得到视觉特征向量;将视觉特征向量进行归一化,得到归一化后的视觉特征向量;
C、文本特征处理:
将HTML转化为XML,提取网页区域内的文本;对文本进行分词;通过神经网络语言模型学习出文本特征向量;
D、以堆叠降噪自动编码器SDAE作为特征学习算法,将上述处理后的特征向量作为SDAE的输入向量;
E、使用分类算法对堆叠降噪自动编码器SDAE学习得到的特征向量进行分类,对向量的分类结果即为该特征向量所对应的网页区域的识别结果。
2.根据权利要求1所述的基于深度学习的网页区域识别算法,其特征在于:步骤B中,通过选择全部视觉特征,得到未经归一化的视觉特征向量。
3.根据权利要求1所述的基于深度学习的网页区域识别算法,其特征在于:步骤B中,通过选择部分视觉特征,得到未经归一化的视觉特征向量。
4.根据权利要求2或3所述的基于深度学习的网页区域识别算法,其特征在于:使用Min-MaxNormalization的归一化方法对视觉特征向量进行归一化,得到归一化后的视觉特征向量。
5.根据权利要求4所述的基于深度学习的网页区域识别算法,其特征在于:步骤C中,通过海量分词算法对文本进行分词。
6.根据权利要求4所述的基于深度学习的网页区域识别算法,其特征在于:步骤C中,通过结巴分词算法对文本进行分词。
7.根据权利要求5或6所述的基于深度学习的网页区域识别算法,其特征在于:步骤C中,通过Paragraph2Vec算法学习出文本特征向量。
8.根据权利要求5或6所述的基于深度学习的网页区域识别算法,其特征在于:步骤D中,将视觉特征向量作为堆叠降噪自动编码器SDAE的输入向量。
9.根据权利要求5或6所述的基于深度学习的网页区域识别算法,其特征在于:步骤D中,将视觉特征向量与文本特征向量拼接后作为堆叠降噪自动编码器SDAE的输入向量,对拼接后的向量选择性进行归一化处理。
10.根据权利要求1所述的基于深度学习的网页区域识别算法,其特征在于:步骤E中,使用分类算法SoftmaxRegression对学习到的特征向量进行分类。
CN201510910397.2A 2015-12-10 2015-12-10 基于深度学习的网页区域识别算法 Withdrawn CN105550278A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510910397.2A CN105550278A (zh) 2015-12-10 2015-12-10 基于深度学习的网页区域识别算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510910397.2A CN105550278A (zh) 2015-12-10 2015-12-10 基于深度学习的网页区域识别算法

Publications (1)

Publication Number Publication Date
CN105550278A true CN105550278A (zh) 2016-05-04

Family

ID=55829467

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510910397.2A Withdrawn CN105550278A (zh) 2015-12-10 2015-12-10 基于深度学习的网页区域识别算法

Country Status (1)

Country Link
CN (1) CN105550278A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106850314A (zh) * 2016-12-20 2017-06-13 上海掌门科技有限公司 一种用于确定用户属性模型及用户属性信息的方法与设备
CN108108366A (zh) * 2016-11-24 2018-06-01 腾讯科技(深圳)有限公司 一种网页类别识别方法及装置
CN108205544A (zh) * 2016-12-16 2018-06-26 腾讯科技(深圳)有限公司 网页内容识别方法、装置、服务器
CN108664474A (zh) * 2018-05-21 2018-10-16 众安信息技术服务有限公司 一种基于深度学习的简历解析方法
CN108804472A (zh) * 2017-05-04 2018-11-13 腾讯科技(深圳)有限公司 一种网页内容抽取方法、装置及服务器
CN109685137A (zh) * 2018-12-24 2019-04-26 上海仁静信息技术有限公司 一种题目分类方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090234816A1 (en) * 2005-06-15 2009-09-17 Orin Russell Armstrong System and method for indexing and displaying document text that has been subsequently quoted
CN101937438A (zh) * 2009-06-30 2011-01-05 富士通株式会社 网页内容提取方法和装置
CN102306204A (zh) * 2011-09-28 2012-01-04 武汉大学 基于文本结构权重的主题区域识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090234816A1 (en) * 2005-06-15 2009-09-17 Orin Russell Armstrong System and method for indexing and displaying document text that has been subsequently quoted
CN101937438A (zh) * 2009-06-30 2011-01-05 富士通株式会社 网页内容提取方法和装置
CN102306204A (zh) * 2011-09-28 2012-01-04 武汉大学 基于文本结构权重的主题区域识别方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108108366A (zh) * 2016-11-24 2018-06-01 腾讯科技(深圳)有限公司 一种网页类别识别方法及装置
CN108205544A (zh) * 2016-12-16 2018-06-26 腾讯科技(深圳)有限公司 网页内容识别方法、装置、服务器
CN106850314A (zh) * 2016-12-20 2017-06-13 上海掌门科技有限公司 一种用于确定用户属性模型及用户属性信息的方法与设备
CN106850314B (zh) * 2016-12-20 2021-06-15 上海掌门科技有限公司 一种用于确定用户属性模型及用户属性信息的方法与设备
CN108804472A (zh) * 2017-05-04 2018-11-13 腾讯科技(深圳)有限公司 一种网页内容抽取方法、装置及服务器
CN108664474A (zh) * 2018-05-21 2018-10-16 众安信息技术服务有限公司 一种基于深度学习的简历解析方法
CN109685137A (zh) * 2018-12-24 2019-04-26 上海仁静信息技术有限公司 一种题目分类方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN105550278A (zh) 基于深度学习的网页区域识别算法
CN111783394B (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN105302884B (zh) 基于深度学习的网页模式识别方法及视觉结构学习方法
WO2018032937A1 (zh) 一种文本信息分类方法及其装置
CN108664474B (zh) 一种基于深度学习的简历解析方法
CN107526799A (zh) 一种基于深度学习的知识图谱构建方法
CN104199972A (zh) 一种基于深度学习的命名实体关系抽取与构建方法
RU2016113791A (ru) Способ и устройство для построения шаблона и способ и устройство для идентификации информации
CN109145180B (zh) 一种基于增量聚类的企业热点事件挖掘方法
CN103605794A (zh) 一种网站分类方法
CN110750977B (zh) 一种文本相似度计算方法及系统
CN104142912A (zh) 一种精确的语料类别标注方法及装置
CN112307130B (zh) 一种文档级远程监督关系抽取方法及系统
CN110992988B (zh) 一种基于领域对抗的语音情感识别方法及装置
CN112733549B (zh) 一种基于多重语义融合的专利价值信息分析方法、装置
CN105095196A (zh) 文本中新词发现的方法和装置
CN107402916A (zh) 中文文本的分词方法及装置
CN111984790B (zh) 一种实体关系抽取方法
CN114170411A (zh) 一种融合多尺度信息的图片情感识别方法
CN105389303B (zh) 一种异源语料自动融合方法
CN106649264B (zh) 一种基于篇章信息的中文水果品种信息抽取方法及装置
Toyozumi et al. A study of symbol segmentation method for handwritten mathematical formula recognition using mathematical structure information
CN107480128A (zh) 中文文本的分词方法及装置
CN103699568A (zh) 一种从维基中抽取领域术语间上下位关系的方法
CN114021561A (zh) 一种数学公式相似度计算方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 300020 Tianjin Heping District, South Road, No. 11 International Building 23 purchase of Wheat

Applicant after: Tianjin mass information technology Limited by Share Ltd

Address before: 300020 Tianjin Heping District, South Road, No. 11 International Building 23 purchase of Wheat

Applicant before: Tianjin Hylanda Information Technology Co.,Ltd.

COR Change of bibliographic data
WW01 Invention patent application withdrawn after publication

Application publication date: 20160504

WW01 Invention patent application withdrawn after publication