CN108108366A - 一种网页类别识别方法及装置 - Google Patents

一种网页类别识别方法及装置 Download PDF

Info

Publication number
CN108108366A
CN108108366A CN201611050781.0A CN201611050781A CN108108366A CN 108108366 A CN108108366 A CN 108108366A CN 201611050781 A CN201611050781 A CN 201611050781A CN 108108366 A CN108108366 A CN 108108366A
Authority
CN
China
Prior art keywords
webpage
identified
visual
classification
signature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611050781.0A
Other languages
English (en)
Inventor
赵铭鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201611050781.0A priority Critical patent/CN108108366A/zh
Publication of CN108108366A publication Critical patent/CN108108366A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Abstract

本发明实施例提供了一种网页类别识别方法及装置,其中方法包括:获取待识别网页的特征标识,根据该特征标识确定待识别网页,提取该待识别网页的视觉信息,并根据该待识别网页的视觉信息获取该待识别网页的视觉特征,从而利用该待识别网页的视觉特征识别该待识别网页的网页类别。通过本发明实施例可以高效、准确地对网页的类别进行识别。

Description

一种网页类别识别方法及装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种网页类别识别方法及装置。
背景技术
随着互联网技术的飞速发展,网页的类别越来越多样化,常见的网页类别包括电商类、视频类、新闻博客类、论坛类、图片类等等。
目前,主要基于自然语言处理(Natural Language Processing,NLP)采用的文本方法对网页的类别进行识别,例如,人工筛选出一批种子词,做一个种子词库,对词库所在的网页进行分类标注,利用词向量获取工具word2vec扩展种子词,形成一个更大的种子词库,作为词袋的基础数据,将已经分类标注好的网页利用词袋生成稀疏向量,再根据机器学习的方法进行训练,后续利用训练结果对网页进行类别识别。然而,上述网页类别识别方法对于文字内容较少的网页的识别结果准确率很低。可见,上述网页类别识别方法的识别结果准确率偏低,识别效果不够理想。
发明内容
本发明实施例提供了一种网页类别识别方法及装置,可以高效、准确地对网页的类别进行识别。
本发明实施例第一方面提供了一种网页类别识别方法,包括:
获取待识别网页的特征标识,根据所述特征标识确定所述待识别网页。
提取所述待识别网页的视觉信息,并根据所述待识别网页的视觉信息获取所述待识别网页的视觉特征。
利用所述待识别网页的视觉特征对所述待识别网页的网页类别进行识别。
本发明实施例第二方面提供了一种网页类别识别装置,包括:
获取模块,用于获取待识别网页的特征标识。
确定模块,用于根据所述特征标识确定所述待识别网页。
所述获取模块,还用于提取所述待识别网页的视觉信息,并根据所述待识别网页的视觉信息获取所述待识别网页的视觉特征。
识别模块,用于利用所述待识别网页的视觉特征对所述待识别网页的网页类别进行识别。
通过本发明实施例可以根据待识别网页的特征标识确定待识别网页,提取出该待识别网页的视觉信息,并根据该待识别网页的视觉信息获取该待识别网页的视觉特征,进而利用该待识别网页的视觉特征识别该待识别网页的网页类别,从而可以高效、准确地对网页的类别进行识别。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种网页类别识别方法的第一实施例流程示意图;
图2是本发明实施例提供的一种网页类别识别方法的第二实施例流程示意图;
图3是本发明实施例提供的一种网页类别识别装置的结构示意图;
图4是本发明实施例提供的一种服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例例如可以应用在进行网络爬虫下载时对大量混杂在一起的各种网页进行分类的场景中,对于本发明实施例的具体应用场景不做限定,需要对网页进行分类的场景都适用。
请参阅图1,为本发明实施例提供的一种网页类别识别方法的第一实施例流程示意图。本实施例中所描述的网页类别识别方法,包括以下步骤:
101、服务器获取待识别网页的特征标识,根据所述特征标识确定所述待识别网页。
其中,特征标识具体可以是统一资源定位符(Uniform Resource Locator,URL)或名称等,特征标识用于唯一标识一个网页。
具体实现中,可以是用户通过提供的交互界面向服务器提交待识别网页的特征标识,也可以是其它服务器、业务平台等向服务器提交待识别网页的特征标识。可以向服务器一次提交一个待识别网页的特征标识,也可以向服务器一次提交多个待识别网页的特征标识以进行批量处理,服务器基于特征标识确定需进行类别识别的待识别网页。
102、所述服务器提取所述待识别网页的视觉信息,并根据所述待识别网页的视觉信息获取所述待识别网页的视觉特征。
其中,一个网页的视觉信息为网页区块的长宽、固定网页宽度的情况下网页区块的相对坐标、网页区块内字体的大小、网页区块内字体的粗细、网页区块内字体的颜色、网页区块内字体的对齐情况、网页区块的背景颜色、网页区块的边框颜色、网页区块内的横线和网页标签等的原始数据。一个网页的视觉特征即为能够表示该网页视觉层面的主要特征,可以包括网页区块的长宽、固定网页宽度的情况下网页区块的相对坐标、网页区块内字体的大小、网页区块内字体的粗细、网页区块内字体的颜色、网页区块内字体的对齐情况、网页区块的背景颜色、网页区块的边框颜色、网页区块内的横线和网页标签等中的一种或多种。
具体实现中,webkit作为一个无界面浏览器的内核,具有解析层叠样式表(Cascading Style Sheets,CSS)并自动渲染界面的功能,服务器可以利用webkit的上述功能提取待识别网页的视觉信息,再利用特征工程的方法对待识别网页的视觉信息进行加工处理,得到待识别网页的视觉特征。
103、所述服务器利用所述待识别网页的视觉特征对所述待识别网页的网页类别进行识别。
具体实现中,不同类别的网页各自具有较为鲜明的视觉特征,可以通过人工标定的方式预先对不同的视觉特征进行网页类别的标定,将待识别网页的视觉特征与标定结果进行匹配,从而识别出该待识别网页的网页类别。
举例来说,假设预先进行的标定结果为:视觉特征a、b、c对应网页类别1,视觉特征b、d、e对应网页类别2,视觉特征b、c、f对应网页类别3,如果服务器得到的待识别网页的视觉特征为b、c、f,则可以确定待识别网页的类别为网页类别3。
本发明实施例中,服务器根据待识别网页的特征标识确定待识别网页,提取出该待识别网页的视觉信息,并根据该待识别网页的视觉信息获取该待识别网页的视觉特征,进而利用该待识别网页的视觉特征识别该待识别网页的网页类别,从而利用网页的视觉特征可以高效、准确地对网页的类别进行识别。
请参阅图2,为本发明实施例提供的一种网页类别识别方法的第二实施例流程示意图。本实施例中所描述的网页类别识别方法,包括以下步骤:
201、服务器提取训练用网页的视觉信息,并根据所述训练用网页的视觉信息获取所述训练用网页的视觉特征。
其中,一个网页的视觉特征即为能够表示该网页视觉层面的主要特征,可以包括网页区块的长宽、固定网页宽度的情况下网页区块的相对坐标、网页区块内字体的大小、网页区块内字体的粗细、网页区块内字体的颜色、网页区块内字体的对齐情况、网页区块的背景颜色、网页区块的边框颜色、网页区块内的横线和网页标签等中的一种或多种。
具体实现中,服务器可以利用webkit提取训练用网页的视觉信息,再利用特征工程的方法对训练用网页的视觉信息进行加工处理,得到训练用网页的视觉特征。
在一些可行的实施方式中,可以预设一视觉信息库,视觉信息库存储有关键信息的模板,服务器利用视觉信息库中的关键信息的模板对训练用网页的视觉信息进行筛选,从而得到训练用网页的视觉信息中的关键信息,并利用特征工程的方法对关键信息进行加工处理,得到训练用网页的视觉特征。
其中,关键信息即为视觉信息中的有用信息,利用视觉信息中的有用信息获取网页的视觉特征,可以减小数据处理的负担,快速得到网页的视觉特征。
202、所述服务器利用所述训练用网页的视觉特征,转换得到所述训练用网页的视觉特征向量。
具体实现中,服务器对训练用网页的视觉特征进行向量转换,得到可被机器学习识别的视觉特征向量。其中,训练用网页的视觉特征一般包括数值型特征和非数值型特征。
对于数值型特征,例如网页区块的长、宽,在训练用网页的视觉特征向量中,以一位表示一种数值型特征,具体可以是:对于每一种数值型特征进行数值统计,再等量的划分成若干份,例如10份,分别映射到0~0.1,0.1~0.2,0.2~0.3,0.3~0.4,0.4~0.5,0.5~0.6,0.6~0.7,0.7~0.8,0.8~0.9,0.9~1.0这10个区间中。对于非数值型特征,可以利用上述视觉信息库以one-hot representation方式表示。
其中,one-hot representation是一种最简单的词向量表示方式,即用一个长向量来表示一个词,向量的长度为词典的大小,向量的分量只有一个“1”,其它全为“0”,“1”的位置对应该词在词典中的位置。
例如,将“话筒”表示为[0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0… …],“麦克”表示为[0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0… …],可见,每个词都是很多个“0”中的一个“1”。
又例如,网页标签为“img”,每一个网页标签对应固定的位置,视觉信息库里存储的表情有N种,则转换为one-hot representation方式时,对应向量的长度为N,且“img”占用的那一位是“1”,其它位都是“0”。
203、所述服务器设定所述训练用网页的网页类别,建立所述训练用网页的视觉特征向量与所述训练用网页的网页类别之间的对应关系。
具体实现中,对于每一个训练用网页,均已知其网页类别,可以人工对训练用网页的网页类别进行标定,服务器根据人工标定设定训练用网页的网页类别,并建立每一个训练用网页的视觉特征向量与每一个训练用网页的网页类别之间的对应关系,包括一种视觉特征向量对应一种网页类别,以及多种视觉特征向量对应一种网页类别。
204、所述服务器获取待识别网页的特征标识,根据所述特征标识确定所述待识别网页。
其中,特征标识具体可以是URL或名称等,特征标识用于唯一标识一个网页。
具体实现中,可以是用户通过提供的交互界面向服务器提交待识别网页的特征标识,也可以是其它服务器、业务平台等向服务器提交待识别网页的特征标识。可以向服务器一次提交一个待识别网页的特征标识,也可以向服务器一次提交多个待识别网页的特征标识以进行批量处理,服务器基于特征标识确定需进行类别识别的待识别网页。
205、所述服务器提取所述待识别网页的视觉信息。
206、所述服务器利用预设的视觉信息库对所述待识别网页的视觉信息进行筛选,得到所述待识别网页的视觉信息中的关键信息,并根据所述关键信息确定所述待识别网页的视觉特征。
具体实现中,服务器可以利用webkit提取待识别网页的视觉信息,利用上述视觉信息库中的关键信息的模板对待识别网页的视觉信息进行筛选,从而得到待识别网页的视觉信息中的关键信息,并利用特征工程的方法对关键信息进行加工处理,得到待识别网页的视觉特征。
其中,关键信息即为视觉信息中的有用信息,利用视觉信息中的有用信息获取网页的视觉特征,可以减小数据处理的负担,快速得到网页的视觉特征。
207、所述服务器利用所述待识别网页的视觉特征,转换得到所述待识别网页的视觉特征向量,利用预先建立的网页的视觉特征向量与网页类别之间的对应关系,确定所述待识别网页的视觉特征向量对应的目标网页类别。
208、所述服务器确定所述待识别网页的网页类别为所述目标网页类别作。
具体实现中,服务器对待识别网页的视觉特征进行向量转换,得到可被机器学习识别的视觉特征向量。其中,待识别网页的视觉特征一般包括数值型特征和非数值型特征。对于数值型特征,例如网页区块的长、宽,在待识别网页的视觉特征向量中,以一位表示一种数值型特征。对于非数值型特征,可以利用上述视觉信息库以one-hot representation方式表示。
进一步地,服务器从步骤203中建立的视觉特征向量与网页类别之间的对应关系中,查询待识别网页的视觉特征向量对应的目标网页类别,从而将目标网页类别作为待识别网页的网页类别。
本发明实施例中,服务器利用获取的训练用网页的视觉特征,转换得到训练用网页的视觉特征向量,建立训练用网页的视觉特征向量与设定的训练用网页的网页类别之间的对应关系。服务器根据待识别网页的视觉信息中的关键信息确定待识别网页的视觉特征,再转换得到待识别网页的视觉特征向量,从而利用预先建立的视觉特征向量与网页类别之间的对应关系,即可确定待识别网页的视觉特征向量对应的目标网页类别,从而利用网页的视觉特征可以高效、准确地对网页的类别进行识别。
请参阅图3,为本发明实施例提供的一种网页类别识别装置的结构示意图。本实施例中所描述的网页类别识别装置,包括:
获取模块301,用于获取待识别网页的特征标识。
其中,特征标识具体可以是URL或名称等,特征标识用于唯一标识一个网页。
具体实现中,可以是用户通过提供的交互界面向服务器提交待识别网页的特征标识,也可以是其它服务器、业务平台等向服务器提交待识别网页的特征标识。可以向服务器一次提交一个待识别网页的特征标识,也可以向服务器一次提交多个待识别网页的特征标识以进行批量处理,获取模块301基于特征标识确定需进行类别识别的待识别网页。
确定模块302,用于根据所述特征标识确定所述待识别网页。
所述获取模块301,还用于提取所述待识别网页的视觉信息,并根据所述待识别网页的视觉信息获取所述待识别网页的视觉特征。
具体实现中,获取模块301可以利用webkit提取待识别网页的视觉信息,再利用特征工程的方法对待识别网页的视觉信息进行加工处理,得到待识别网页的视觉特征。
识别模块303,用于利用所述待识别网页的视觉特征对所述待识别网页的网页类别进行识别。
在一些可行的实施方式中,所述识别模块303包括:
转换单元3030,用于利用所述待识别网页的视觉特征,转换得到所述待识别网页的视觉特征向量。
第一确定单元3031,用于利用预先建立的网页的视觉特征向量与网页类别之间的对应关系,确定所述待识别网页的视觉特征向量对应的目标网页类别。
所述第一确定单元3031,还用于确定所述待识别网页的网页类别为所述目标网页类别作。
具体实现中,转换单元3030对待识别网页的视觉特征进行向量转换,得到可被机器学习识别的视觉特征向量。其中,待识别网页的视觉特征一般包括数值型特征和非数值型特征。
对于数值型特征,例如网页区块的长、宽,在待识别网页的视觉特征向量中,以一位表示一种数值型特征,具体可以是:对于每一种数值型特征进行数值统计,再等量的划分成若干份,例如10份,分别映射到0~0.1,0.1~0.2,0.2~0.3,0.3~0.4,0.4~0.5,0.5~0.6,0.6~0.7,0.7~0.8,0.8~0.9,0.9~1.0这10个区间中。对于非数值型特征,可以利用视觉信息库以one-hot representation方式表示。
其中,one-hot representation是一种最简单的词向量表示方式,即用一个长向量来表示一个词,向量的长度为词典的大小,向量的分量只有一个“1”,其它全为“0”,“1”的位置对应该词在词典中的位置。
在一些可行的实施方式中,所述获取模块301,还用于提取训练用网页的视觉信息,并根据所述训练用网页的视觉信息获取所述训练用网页的视觉特征。
所述转换单元3030,还用于利用所述训练用网页的视觉特征,转换得到所述训练用网页的视觉特征向量。
其中,所述装置还包括:
建立模块304,用于设定所述训练用网页的网页类别,建立所述训练用网页的视觉特征向量与所述训练用网页的网页类别之间的对应关系。
具体实现中,对于每一个训练用网页,均已知其网页类别,可以人工对训练用网页的网页类别进行标定,建立模块304根据人工标定设定训练用网页的网页类别,并建立每一个训练用网页的视觉特征向量与每一个训练用网页的网页类别之间的对应关系,包括一种视觉特征向量对应一种网页类别,以及多种视觉特征向量对应一种网页类别。
在一些可行的实施方式中,所述获取模块301包括:
筛选单元3010,用于利用预设的视觉信息库对所述待识别网页的视觉信息进行筛选,得到所述待识别网页的视觉信息中的关键信息。
第二确定单元3011,用于根据所述关键信息确定所述待识别网页的视觉特征。
其中,视觉信息库存储有关键信息的模板,筛选单元3010利用视觉信息库中的关键信息的模板对训练用网页的视觉信息进行筛选,从而得到训练用网页的视觉信息中的关键信息,第二确定单元3011利用特征工程的方法对关键信息进行加工处理,得到训练用网页的视觉特征。
其中,关键信息即为视觉信息中的有用信息,利用视觉信息中的有用信息获取网页的视觉特征,可以减小数据处理的负担,快速得到网页的视觉特征。
在一些可行的实施方式中,所述视觉特征包括网页区块的尺寸、字体大小和网页标签中的一种或多种。
可以理解的是,本实施例的网页类别识别装置的各功能模块、单元的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
本发明实施例中,转换单元3030利用获取的训练用网页的视觉特征,转换得到训练用网页的视觉特征向量,建立模块304建立训练用网页的视觉特征向量与设定的训练用网页的网页类别之间的对应关系。第二确定单元3011根据待识别网页的视觉信息中的关键信息确定待识别网页的视觉特征,转换单元3030转换得到待识别网页的视觉特征向量,从而第一确定单元3031利用预先建立的视觉特征向量与网页类别之间的对应关系,即可确定待识别网页的视觉特征向量对应的目标网页类别,从而利用网页的视觉特征可以高效、准确地对网页的类别进行识别。
请参阅图4,为本发明实施例提供的一种服务器的结构示意图。本实施例中所描述的服务器,包括:处理器401、网络接口402及存储器403。其中,处理器401、网络接口402及存储器403可通过总线或其他方式连接,本发明实施例以通过总线连接为例。
其中,处理器401(或称中央处理器(Central Processing Unit,CPU))是服务器的计算核心以及控制核心。网络接口402可选的可以包括标准的有线接口、无线接口(如WI-FI、移动通信接口等),受处理器401的控制用于收发消息。存储器403(Memory)是服务器的记忆设备,用于存放程序和数据。可以理解的是,此处的存储器403可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器401的存储装置。存储器403提供存储空间,该存储空间存储了服务器的操作系统和可执行程序代码,可包括但不限于:Windows系统(一种操作系统)、Linux(一种操作系统)系统等等,本发明对此并不作限定。
在本发明实施例中,处理器401通过运行存储器403中的可执行程序代码,执行如下操作:
网络接口402,用于获取待识别网页的特征标识。
处理器401,用于根据所述特征标识确定所述待识别网页。
所述处理器401,还用于提取所述待识别网页的视觉信息,并根据所述待识别网页的视觉信息获取所述待识别网页的视觉特征。
所述处理器401,还用于利用所述待识别网页的视觉特征对所述待识别网页的网页类别进行识别。
在一些可行的实施方式中,所述处理器401具体用于:
利用所述待识别网页的视觉特征,转换得到所述待识别网页的视觉特征向量。
利用预先建立的网页的视觉特征向量与网页类别之间的对应关系,确定所述待识别网页的视觉特征向量对应的目标网页类别。
确定所述待识别网页的网页类别为所述目标网页类别作。
在一些可行的实施方式中,所述待识别网页的视觉特征包括数值型特征和非数值型特征,其中:
在所述待识别网页的视觉特征向量中,以一位表示一种所述数值型特征,以词向量表示方式one-hot representation表示所述非数值型特征。
在一些可行的实施方式中,所述处理器401,还用于提取训练用网页的视觉信息,并根据所述训练用网页的视觉信息获取所述训练用网页的视觉特征。
所述处理器401,还用于利用所述训练用网页的视觉特征,转换得到所述训练用网页的视觉特征向量。
所述处理器401,还用于设定所述训练用网页的网页类别,建立所述训练用网页的视觉特征向量与所述训练用网页的网页类别之间的对应关系。
在一些可行的实施方式中,所述处理器401具体用于:
利用预设的视觉信息库对所述待识别网页的视觉信息进行筛选,得到所述待识别网页的视觉信息中的关键信息。
根据所述关键信息确定所述待识别网页的视觉特征。
在一些可行的实施方式中,所述视觉特征包括网页区块的尺寸、字体大小和网页标签中的一种或多种。
具体实现中,本发明实施例中所描述的处理器401、网络接口402及存储器403可执行本发明实施例提供的一种网页类别识别方法的第一实施例和第二实施例中所描述的服务器的实现方式,也可执行本发明实施例提供的一种网页类别识别装置中所描述的网页类别识别装置的实现方式,在此不再赘述。
本发明实施例中,服务器利用获取的训练用网页的视觉特征,转换得到训练用网页的视觉特征向量,建立训练用网页的视觉特征向量与设定的训练用网页的网页类别之间的对应关系。服务器根据待识别网页的视觉信息中的关键信息确定待识别网页的视觉特征,再转换得到待识别网页的视觉特征向量,从而利用预先建立的视觉特征向量与网页类别之间的对应关系,即可确定待识别网页的视觉特征向量对应的目标网页类别,从而利用网页的视觉特征可以高效、准确地对网页的类别进行识别。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上对本发明实施例公开的一种网页类别识别方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (12)

1.一种网页类别识别方法,其特征在于,包括:
获取待识别网页的特征标识,根据所述特征标识确定所述待识别网页;
提取所述待识别网页的视觉信息,并根据所述待识别网页的视觉信息获取所述待识别网页的视觉特征;
利用所述待识别网页的视觉特征对所述待识别网页的网页类别进行识别。
2.根据权利要求1所述的方法,其特征在于,所述利用所述待识别网页的视觉特征对所述待识别网页的网页类别进行识别,包括:
利用所述待识别网页的视觉特征,转换得到所述待识别网页的视觉特征向量;
利用预先建立的网页的视觉特征向量与网页类别之间的对应关系,确定所述待识别网页的视觉特征向量对应的目标网页类别;
确定所述待识别网页的网页类别为所述目标网页类别作。
3.根据权利要求2所述的方法,其特征在于,所述待识别网页的视觉特征包括数值型特征和非数值型特征,其中:
在所述待识别网页的视觉特征向量中,以一位表示一种所述数值型特征,以词向量表示方式one-hot representation表示所述非数值型特征。
4.根据权利要求2所述的方法,其特征在于,所述获取待识别网页的特征标识,根据所述特征标识确定所述待识别网页之前,所述方法还包括:
提取训练用网页的视觉信息,并根据所述训练用网页的视觉信息获取所述训练用网页的视觉特征;
利用所述训练用网页的视觉特征,转换得到所述训练用网页的视觉特征向量;
设定所述训练用网页的网页类别,建立所述训练用网页的视觉特征向量与所述训练用网页的网页类别之间的对应关系。
5.根据权利要求1~4中任一项所述的方法,其特征在于,所述根据所述待识别网页的视觉信息获取所述待识别网页的视觉特征,包括:
利用预设的视觉信息库对所述待识别网页的视觉信息进行筛选,得到所述待识别网页的视觉信息中的关键信息;
根据所述关键信息确定所述待识别网页的视觉特征。
6.根据权利要求1所述的方法,其特征在于,
所述视觉特征包括网页区块的长宽、固定网页宽度的情况下网页区块的相对坐标、网页区块内字体的大小、网页区块内字体的粗细、网页区块内字体的颜色、网页区块内字体的对齐情况、网页区块的背景颜色、网页区块的边框颜色、网页区块内的横线和网页标签中的一种或多种。
7.一种网页类别识别装置,其特征在于,包括:
获取模块,用于获取待识别网页的特征标识;
确定模块,用于根据所述特征标识确定所述待识别网页;
所述获取模块,还用于提取所述待识别网页的视觉信息,并根据所述待识别网页的视觉信息获取所述待识别网页的视觉特征;
识别模块,用于利用所述待识别网页的视觉特征对所述待识别网页的网页类别进行识别。
8.根据权利要求7所述的装置,其特征在于,所述识别模块包括:
转换单元,用于利用所述待识别网页的视觉特征,转换得到所述待识别网页的视觉特征向量;
第一确定单元,用于利用预先建立的网页的视觉特征向量与网页类别之间的对应关系,确定所述待识别网页的视觉特征向量对应的目标网页类别;
所述第一确定单元,还用于确定所述待识别网页的网页类别为所述目标网页类别作。
9.根据权利要求8所述的装置,其特征在于,所述待识别网页的视觉特征包括数值型特征和非数值型特征,其中:
在所述待识别网页的视觉特征向量中,以一位表示一种所述数值型特征,以词向量表示方式one-hot representation表示所述非数值型特征。
10.根据权利要求8所述的装置,其特征在于,
所述获取模块,还用于提取训练用网页的视觉信息,并根据所述训练用网页的视觉信息获取所述训练用网页的视觉特征;
所述转换单元,还用于利用所述训练用网页的视觉特征,转换得到所述训练用网页的视觉特征向量;
其中,所述装置还包括:
建立模块,用于设定所述训练用网页的网页类别,建立所述训练用网页的视觉特征向量与所述训练用网页的网页类别之间的对应关系。
11.根据权利要求7~10中任一项所述的装置,其特征在于,所述获取模块包括:
筛选单元,用于利用预设的视觉信息库对所述待识别网页的视觉信息进行筛选,得到所述待识别网页的视觉信息中的关键信息;
第二确定单元,用于根据所述关键信息确定所述待识别网页的视觉特征。
12.根据权利要求7所述的装置,其特征在于,
所述视觉特征包括网页区块的长宽、固定网页宽度的情况下网页区块的相对坐标、网页区块内字体的大小、网页区块内字体的粗细、网页区块内字体的颜色、网页区块内字体的对齐情况、网页区块的背景颜色、网页区块的边框颜色、网页区块内的横线和网页标签中的一种或多种。
CN201611050781.0A 2016-11-24 2016-11-24 一种网页类别识别方法及装置 Pending CN108108366A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611050781.0A CN108108366A (zh) 2016-11-24 2016-11-24 一种网页类别识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611050781.0A CN108108366A (zh) 2016-11-24 2016-11-24 一种网页类别识别方法及装置

Publications (1)

Publication Number Publication Date
CN108108366A true CN108108366A (zh) 2018-06-01

Family

ID=62204963

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611050781.0A Pending CN108108366A (zh) 2016-11-24 2016-11-24 一种网页类别识别方法及装置

Country Status (1)

Country Link
CN (1) CN108108366A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114463730A (zh) * 2021-07-15 2022-05-10 荣耀终端有限公司 一种页面识别方法及终端设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729354A (zh) * 2012-10-10 2014-04-16 腾讯科技(深圳)有限公司 网页信息处理方法及装置
CN103870486A (zh) * 2012-12-13 2014-06-18 深圳市世纪光速信息技术有限公司 确定网页类型的方法和装置
CN103942233A (zh) * 2013-01-21 2014-07-23 腾讯科技(深圳)有限公司 目录型网页的介绍页识别方法及装置
CN104809125A (zh) * 2014-01-24 2015-07-29 腾讯科技(深圳)有限公司 一种网页类别的识别方法和装置
CN105550278A (zh) * 2015-12-10 2016-05-04 天津海量信息技术有限公司 基于深度学习的网页区域识别算法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729354A (zh) * 2012-10-10 2014-04-16 腾讯科技(深圳)有限公司 网页信息处理方法及装置
CN103870486A (zh) * 2012-12-13 2014-06-18 深圳市世纪光速信息技术有限公司 确定网页类型的方法和装置
CN103942233A (zh) * 2013-01-21 2014-07-23 腾讯科技(深圳)有限公司 目录型网页的介绍页识别方法及装置
CN104809125A (zh) * 2014-01-24 2015-07-29 腾讯科技(深圳)有限公司 一种网页类别的识别方法和装置
CN105550278A (zh) * 2015-12-10 2016-05-04 天津海量信息技术有限公司 基于深度学习的网页区域识别算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵海千: "《网络营销 电子商务专业适用》", 30 April 2011, 中央广播电视大学出版社 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114463730A (zh) * 2021-07-15 2022-05-10 荣耀终端有限公司 一种页面识别方法及终端设备

Similar Documents

Publication Publication Date Title
CN105027121B (zh) 对本机应用的应用页面建索引
CN107153716B (zh) 网页内容提取方法和装置
CA2918840C (en) Presenting fixed format documents in reflowed format
US11030389B2 (en) Acquisition of a font portion using a compression mechanism
KR20170090345A (ko) 디지털 이미지의 시맨틱 태그의 획득 방법 및 장치
CN104025085A (zh) 用于提供关于包括在内容页面中的语义实体的信息的系统和方法
CN103605502B (zh) 表单页面显示方法及服务器
CN104462131A (zh) 信息发布页面的处理方法及装置
CN106664463A (zh) 任意大小内容条目生成
CN108595697B (zh) 网页集成方法、装置及系统
CN102314494B (zh) 一种用于处理网页内容的方法和设备
CN103870486A (zh) 确定网页类型的方法和装置
CN110019163A (zh) 对象特征的预测、推荐的方法、系统、设备和存储介质
CN101963992A (zh) 提高网页显示速度的方法及浏览器
CN104679824B (zh) 网络平台的网页生成方法及系统
CN103136259B (zh) 一种基于内容块标识处理网页内容的方法与设备
CN108804472A (zh) 一种网页内容抽取方法、装置及服务器
CN114724166A (zh) 一种标题抽取模型的生成方法、装置及电子设备
CN104156421B (zh) 页面的展现方法、装置及系统
CN115983227A (zh) 一种文案生成方法、装置、设备及存储介质
CN110750958A (zh) 一种文本显示方法、装置、电子设备及介质
CN105247481A (zh) 网页输出选择
CN106383857A (zh) 一种信息处理方法及电子设备
CN108920955A (zh) 一种网页后门检测方法、装置、设备及存储介质
CN108108366A (zh) 一种网页类别识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination