CN105302884B - 基于深度学习的网页模式识别方法及视觉结构学习方法 - Google Patents
基于深度学习的网页模式识别方法及视觉结构学习方法 Download PDFInfo
- Publication number
- CN105302884B CN105302884B CN201510670711.4A CN201510670711A CN105302884B CN 105302884 B CN105302884 B CN 105302884B CN 201510670711 A CN201510670711 A CN 201510670711A CN 105302884 B CN105302884 B CN 105302884B
- Authority
- CN
- China
- Prior art keywords
- source code
- webpage
- text source
- deep learning
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
一种基于深度学习的网页模式识别方法,包括以下步骤:以非格式化文本,网页的超文本标记语言的Text源码作为算法输入;将上述源码进行分词;设计堆叠降噪自动编码器,作为网页的特征学习算法;采用神经网络语言模型对SDAE的输入进行初始化;采用分类算法对通过SDAE学习到的文本特征向量进行分类;将上述分类结果进行输出。一种网页视觉结构学习方法,用机器学习的方法学习HTML的Text源码的结构,并以此学习网页的视觉结构。本发明用自然语言处理的方法处理人工语言,用深度学习的方法及神经网络语言模型对HTML的Text源码进行特征学习,通过本发明可对各类型网站,如博客、论坛、资讯等的网页模式进行精确识别。
Description
技术领域
本发明涉及互联网的技术领域,具体说是一种基于深度学习的网页模式识别方法及视觉结构学习方法。
背景技术
网页识别是数据采集系统及搜索引擎中的关键步骤。目前,对网页识别大多采取如下方法:人工设定识别规则对网页进行识别或者基于其他非深度学习的机器学习方法对网页进行识别。
但出于自然语言具有高度抽象性,机器对纯文本的模式识别难以获得理想的识别效果。
发明内容
本发明要解决的技术问题是提供一种基于深度学习的网页模式识别方法及视觉结构学习方法。
本发明为解决公知技术中存在的技术问题所采取的技术方案是:
本发明的基于深度学习的网页模式识别方法,包括以下步骤:
A、非格式化文本,以网页HTML的Text源码作为算法输入;
B、将上述网页HTML的Text源码进行预处理;
C、设计堆叠降噪自动编码器SDAE,作为网页特征的深度学习算法;采用神经网络语言模型对堆叠降噪自动编码器SDAE的输入进行初始化,上一步骤中得到的输出作为本步骤中神经网络语言模型的输入,得到Text源码的初始特征向量输出,并将此初始特征向量作为堆叠降噪自动编码器SDAE的输入,得到相应网页的特征向量;
D、采用Softmax回归对通过堆叠降噪自动编码器SDAE学习到的文本特征向量进行分类,特征向量的分类结果即为相应网页的识别结果;
E、将上述分类结果进行输出。
本发明还可以采用以下技术措施:
步骤B中,使用Text源码中的HTML语言标签作为原始文本进行机器学习。
步骤B中,使用包含所有自然语言内容及HTML语言标签的Text源码作为原始文本进行机器学习时,对Text源码进行分词处理。
步骤B中,使用包含自然语言内容及部分HTML语言标签的Text源码作为原始文本进行机器学习时,对Text源码进行分词处理。
步骤B中,使用Text源码的自然语言内容作为原始文本进行机器学习时,对Text源码进行分词处理。
采用海量分词算法对网页HTML的Text源码进行分词。
采用结巴分词算法对网页HTML的Text源码进行分词。
步骤C中,采用神经网络语言模型的文段转向量算法Paragraph2Vec对堆叠降噪自动编码器SDAE的输入向量进行初始化。
步骤D中采用L2正则随机梯度下降逻辑回归分类器对通过堆叠降噪自动编码器SDAE学习到的特征向量进行分类。
本发明的基于深度学习的网页视觉结构学习方法,用机器学习的方法学习HTML的Text源码的结构,并以此学习网页的视觉结构。
本发明具有的优点和积极效果是:
本发明的基于深度学习的网页模式识别方法及视觉结构学习方法中,用自然语言处理的方法处理Text源码,更为关注网页HTML的Text源码的结构而非内容,用深度学习的方法进行文本特征学习,对深度算法SDAE初始化方法的改进:使用Paragraph2Vec算法作为SDAE输入向量的初始化算法,从而取代SDAE惯用的随机初始化方法。从而可以最大化保留文本特征,减少特征丢失,有利于避免SDAE进入局部最优解,有效地保证SDAE的收敛。
本发明用自然语言处理(Natural Language Processing,简称NLP)的方法处理人工语言(Artificial Language,简称AL),用深度学习(Deep Learning,DL)的方法及神经网络语言模型对HTML的Text源码进行特征学习,通过本发明的方法可对各类型网站,如博客、论坛、资讯等的网页模式进行精确识别,识别准确率达99.99%-100%,识别率达全球顶尖水平。
具体实施方式
以下对本技术方案进行详细说明:
本发明的基于深度学习的网页模式识别方法,包括以下步骤:
A、非格式化文本,以网页超文本语言(Hypertext Markup Language)即HTML的Text源码作为算法输入;
B、将上述网页HTML的Text源码进行预处理;
C、设计堆叠降噪自动编码器(Stacking Denoising Autoencoders), 简称SDAE,作为网页特征的深度学习算法;采用神经网络语言模型(Neural Network LanguageModel),简称NNLM,对堆叠降噪自动编码器SDAE的输入进行初始化,上一步骤中得到的输出作为神经网络语言模型NNLM的输入,得到Text源码的初始特征向量输出,并将此初始特征向量作为堆叠降噪自动编码器SDAE的输入,得到相应网页的特征向量;
D、采用Softmax回归对通过堆叠降噪自动编码器SDAE学习到的文本特征向量进行分类,特征向量的分类结果即为相应网页的识别结果;
E、将上述分类结果进行输出。
在保留自然语言内容的预处理步骤中,需要使用分词,而在仅保留HTML语言标签时,无需分词。
步骤B中,使用Text源码中的HTML语言标签作为原始文本进行机器学习,此时无需分词,无需使用分词算法。
步骤B中,使用包含所有自然语言内容及HTML语言标签的Text源码作为原始文本进行机器学习时,对Text源码进行分词处理。
步骤B中,使用包含自然语言内容及部分HTML语言标签的Text源码作为原始文本进行机器学习时,对Text源码进行分词处理。
步骤B中,使用Text源码的自然语言内容作为原始文本进行机器学习时,对Text源码进行分词处理。
采用海量分词算法对网页HTML的Text源码进行分词。
采用结巴分词算法对网页HTML的Text源码进行分词。
选用海量分词算法或结巴分词算法对最终结果影响不大。
步骤C中,采用神经网络语言模型NNLM的文段转向量算法Paragraph2Vec对堆叠降噪自动编码器SDAE的输入向量进行初始化。
步骤D中采用L2正则随机梯度下降逻辑回归分类器(L2-Stochastic GradientDescent Logistic Regression)对通过堆叠降噪自动编码器SDAE学习到的特征向量进行分类。上述逻辑回归分类器是Softmax回归(n分类)分类中当n=2时的特殊形式。
步骤D中设置为二分类模式,两种类别分别对应于网页是导航页或非导航页。如果是多分类模式,如论坛页面/资讯页面/微博页面等等,则采用Softmax回归进行多类别分类。
本发明的基于深度学习的网页视觉结构学习方法,用机器学习的方法学习HTML的Text源码的结构,并以此学习网页的视觉结构。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例公开如上,然而,并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当然会利用揭示的技术内容作出些许更动或修饰,成为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均属于本发明技术方案的范围内。
Claims (8)
1.一种基于深度学习的网页模式识别方法,包括以下步骤:
A、采用非格式化文本,以网页HTML的Text源码作为算法输入;
B、将上述网页HTML的Text源码进行预处理;
C、设计堆叠降噪自动编码器SDAE作为网页特征的深度学习算法;采用神经网络语言模型对堆叠降噪自动编码器SDAE的输入进行初始化,将对网页HTML的Text源码进行预处理的结果作为本步骤中神经网络语言模型的输入,得到Text源码的初始特征向量输出,并将此初始特征向量作为堆叠降噪自动编码器SDAE的输入,得到相应网页的特征向量;其中,采用神经网络语言模型的文段转向量算法Paragraph2Vec对堆叠降噪自动编码器SDAE的输入向量进行初始化;
D、采用Softmax回归对通过堆叠降噪自动编码器SDAE学习到的文本特征向量进行分类,特征向量的分类结果即为相应网页的识别结果;
E、将上述分类结果进行输出。
2.根据权利要求1所述的基于深度学习的网页模式识别方法,其特征在于:步骤B中,使用Text源码中的HTML语言标签作为原始文本进行机器学习。
3.根据权利要求1所述的基于深度学习的网页模式识别方法,其特征在于:步骤B中,使用包含所有自然语言内容及HTML语言标签的Text源码作为原始文本进行机器学习时,对Text源码进行分词处理。
4.根据权利要求1所述的基于深度学习的网页模式识别方法,其特征在于:步骤B中,使用包含自然语言内容及部分HTML语言标签的Text源码作为原始文本进行机器学习时,对Text源码进行分词处理。
5.根据权利要求1所述的基于深度学习的网页模式识别方法,其特征在于:步骤B中,使用Text源码的自然语言内容作为原始文本进行机器学习时,对Text源码进行分词处理。
6.根据权利要求3、4或5所述的基于深度学习的网页模式识别方法,其特征在于:采用海量分词算法对网页HTML的Text源码进行分词。
7.根据权利要求3、4或5所述的基于深度学习的网页模式识别方法,其特征在于:采用结巴分词算法对网页HTML的Text源码进行分词。
8.根据权利要求1所述的基于深度学习的网页模式识别方法,其特征在于:步骤D中采用L2正则随机梯度下降逻辑回归分类器对通过堆叠降噪自动编码器SDAE学习到的特征向量进行分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510670711.4A CN105302884B (zh) | 2015-10-19 | 2015-10-19 | 基于深度学习的网页模式识别方法及视觉结构学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510670711.4A CN105302884B (zh) | 2015-10-19 | 2015-10-19 | 基于深度学习的网页模式识别方法及视觉结构学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105302884A CN105302884A (zh) | 2016-02-03 |
CN105302884B true CN105302884B (zh) | 2019-02-19 |
Family
ID=55200154
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510670711.4A Active CN105302884B (zh) | 2015-10-19 | 2015-10-19 | 基于深度学习的网页模式识别方法及视觉结构学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105302884B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106161209B (zh) * | 2016-07-21 | 2019-09-20 | 康佳集团股份有限公司 | 一种基于深度自学习的垃圾短信过滤方法及系统 |
CN106503066B (zh) * | 2016-09-29 | 2019-10-15 | 北京百度网讯科技有限公司 | 基于人工智能的处理搜索结果方法和装置 |
US11144718B2 (en) * | 2017-02-28 | 2021-10-12 | International Business Machines Corporation | Adaptable processing components |
CN107665248A (zh) * | 2017-09-22 | 2018-02-06 | 齐鲁工业大学 | 基于深度学习混合模型的文本分类方法和装置 |
CN108984694B (zh) * | 2018-07-04 | 2019-07-30 | 龙马智芯(珠海横琴)科技有限公司 | 网页的处理方法及装置、存储介质、电子装置 |
CN109241383B (zh) * | 2018-07-20 | 2019-06-21 | 北京开普云信息科技有限公司 | 一种基于深度学习的网页类型智能识别方法及系统 |
US10824794B2 (en) | 2019-04-08 | 2020-11-03 | Paypal, Inc. | Process for creating a fixed length representation of a variable length input |
CN110275958B (zh) * | 2019-06-26 | 2021-07-27 | 北京市博汇科技股份有限公司 | 网站信息识别方法、装置和电子设备 |
CN112966263A (zh) * | 2021-02-25 | 2021-06-15 | 中国银联股份有限公司 | 目标信息获取方法、装置及计算机可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567337A (zh) * | 2010-12-15 | 2012-07-11 | 盛乐信息技术(上海)有限公司 | 一种通过链接快速识别网页类型的方法及系统 |
CN103309862A (zh) * | 2012-03-07 | 2013-09-18 | 腾讯科技(深圳)有限公司 | 一种网页类型识别方法和系统 |
CN103544210A (zh) * | 2013-09-02 | 2014-01-29 | 烟台中科网络技术研究所 | 一种识别网页类型的系统和方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103870487B (zh) * | 2012-12-13 | 2017-07-25 | 腾讯科技(深圳)有限公司 | 网页文件处理方法及移动终端 |
-
2015
- 2015-10-19 CN CN201510670711.4A patent/CN105302884B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567337A (zh) * | 2010-12-15 | 2012-07-11 | 盛乐信息技术(上海)有限公司 | 一种通过链接快速识别网页类型的方法及系统 |
CN103309862A (zh) * | 2012-03-07 | 2013-09-18 | 腾讯科技(深圳)有限公司 | 一种网页类型识别方法和系统 |
CN103544210A (zh) * | 2013-09-02 | 2014-01-29 | 烟台中科网络技术研究所 | 一种识别网页类型的系统和方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105302884A (zh) | 2016-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105302884B (zh) | 基于深度学习的网页模式识别方法及视觉结构学习方法 | |
CN103942550B (zh) | 一种基于稀疏编码特征的场景文本识别方法 | |
CN107203511A (zh) | 一种基于神经网络概率消歧的网络文本命名实体识别方法 | |
CN110569508A (zh) | 融合词性和自注意力机制的情感倾向性分类方法及系统 | |
CN107038480A (zh) | 一种基于卷积神经网络的文本情感分类方法 | |
CN106874410A (zh) | 基于卷积神经网络的中文微博文本情绪分类方法及其系统 | |
CN107908715A (zh) | 基于Adaboost和分类器加权融合的微博情感极性判别方法 | |
CN104573013A (zh) | 结合类别权重的集成学习分类方法 | |
CN110825850B (zh) | 一种自然语言主题分类方法及装置 | |
CN103034726B (zh) | 文本过滤系统及方法 | |
CN111522908A (zh) | 一种基于BiGRU和注意力机制的多标签文本分类方法 | |
CN106126502A (zh) | 一种基于支持向量机的情感分类系统及方法 | |
CN112395417A (zh) | 基于深度学习的网络舆情演化仿真方法及系统 | |
CN105550278A (zh) | 基于深度学习的网页区域识别算法 | |
CN110502757B (zh) | 一种自然语言情感分析方法 | |
CN105975497A (zh) | 微博话题自动推荐方法及装置 | |
Selvaperumal et al. | A short message classification algorithm for tweet classification | |
CN109299464B (zh) | 基于网络链接和文档内容的主题嵌入、文档表示方法 | |
CN111859983A (zh) | 基于人工智能的自然语言标注方法及相关设备 | |
Kembuan et al. | Convolutional neural network (CNN) for image classification of indonesia sign language using tensorflow | |
CN109858008A (zh) | 基于深度学习的文书判决结果倾向性的方法及装置 | |
CN115630156A (zh) | 一种融合Prompt和SRU的蒙古语情感分析方法与系统 | |
CN110110846A (zh) | 基于卷积神经网络的辅助驾驶人车交互方法 | |
CN114942991A (zh) | 一种基于隐喻识别的情感分类模型构建方法 | |
CN112948588B (zh) | 一种用于情报快速整编的中文文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 300020 Tianjin Heping District, South Road, No. 11 International Building 23 purchase of Wheat Applicant after: Tianjin mass information technology Limited by Share Ltd Address before: 300020 Tianjin Heping District, South Road, No. 11 International Building 23 purchase of Wheat Applicant before: Tianjin Hylanda Information Technology Co.,Ltd. |
|
COR | Change of bibliographic data | ||
GR01 | Patent grant | ||
GR01 | Patent grant |