CN110442807A - 一种网页类型识别方法、装置、服务器及存储介质 - Google Patents

一种网页类型识别方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN110442807A
CN110442807A CN201910718614.6A CN201910718614A CN110442807A CN 110442807 A CN110442807 A CN 110442807A CN 201910718614 A CN201910718614 A CN 201910718614A CN 110442807 A CN110442807 A CN 110442807A
Authority
CN
China
Prior art keywords
webpage
identified
matching
target
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910718614.6A
Other languages
English (en)
Inventor
周菲
张融
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910718614.6A priority Critical patent/CN110442807A/zh
Publication of CN110442807A publication Critical patent/CN110442807A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种网页类型识别方法包括:获取目标网页的统一资源定位符,并根据目标归属区域对目标网页的统一资源定位符进行第一匹配处理;根据匹配规则集合对第一匹配处理的匹配结果进行第二匹配处理,以实现获取待识别网页;根据待识别网页的统一资源定位符,获取与待识别网页相对应的网页图像;通过卷积神经网络模型从网页图像中提取视觉特征,以实现对待识别网页的网页类型进行识别。本发明还提供了一种网页类型识别装置、服务器及存储介质。本发明能够实现了针对不同的用户需求对相应的网页类型进行灵活性和针对性更强的识别,同时短了网页页面类型的识别周期,节省了检测时间实现了对目标网页类型的有效。

Description

一种网页类型识别方法、装置、服务器及存储介质
技术领域
本发明涉及测网页类型识别技术,尤其涉及网页类型识别方法、装置、服务器及存储介质。
背景技术
网页类型识别是实现对网页内容进行监督的关键步骤。相关技术实现对网页类型的识别主要采用:1)寻找构成页面的html或css等代码方面的规则。2)依靠是页面本身包含的文字、图像等信息,通过关键词或其他算法完成识别。3)解析http请求报文,通过获取报文信息达到识别的目的。但是上述三种方案中,单纯的页面代码方面的规则很难同时保证较高的准确率和召回率,而仅仅获取页面中的文字、图像很难结合算法对视频类网页进行有效的识别,直接获取页面中的视频流又难以确定该视频是否占据页面主要内容且该页面是否具有完整的视频播放展示,而且直接获取视频流需要较长的等待时间,难以应用在海量数据的基础上,同时直接解析http请求报文同样存在无法判断所获得的是否是浏览网页者真实看到的内容的这一问题。
发明内容
有鉴于此,本发明实施例提供一种网页类型识别方法、装置、服务器及存储介质,能够缩短了网页页面类型的识别周期,节省了检测时间,同时针对不同的用户需求对相应的网页类型进行识别,灵活性更强。
本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种网页类型识别方法,所述方法包括:
获取目标网页的统一资源定位符,并根据目标归属区域对所述目标网页的统一资源定位符进行第一匹配处理;
根据匹配规则集合对所述第一匹配处理的匹配结果进行第二匹配处理,以实现获取待识别网页;
根据所述待识别网页的统一资源定位符,获取与所述待识别网页相对应的网页图像;
通过卷积神经网络模型从所述网页图像中提取视觉特征,以实现对所述待识别网页的网页类型进行识别。
本发明实施例还提供了一种网页类型识别装置,所述装置包括:
信息处理模块,用于获取目标网页的统一资源定位符,并根据目标归属区域对所述目标网页的统一资源定位符进行第一匹配处理;
所述信息处理模块,用于根据匹配规则集合对所述第一匹配处理的匹配结果进行第二匹配处理,以实现获取待识别网页;
所述信息处理模块,用于根据所述待识别网页的统一资源定位符,获取与所述待识别网页相对应的网页图像;
识别模块,用于通过卷积神经网络模型从所述网页图像中提取视觉特征,以实现对所述待识别网页的网页类型进行识别。
上述方案中,
所述信息处理模块,用于确定与所述待识别网页相对应的网页图像的图像格式信息;
所述信息处理模块,用于对与所述待识别网页相对应的网页图像的图像格式进行调整,以实现将所述网页图像的图像格式调整为标准色彩格式图像。
上述方案中,
所述识别模块,用于通过卷积神经网络模型的卷积层和最大值池化层对所述网页图像交叉进行处理,得到所述网页图像的降采样结果;
所述识别模块,用于通过所述卷积神经网络模型的平均池化层对所述降采样结果进行处理,得到所述网页图像的视觉特征;
所述识别模块,用于通过所述卷积神经网络模型的分类层对所述网页图像的视觉特征进行分类,以实现对所述待识别网页的网页类型进行识别。
上述方案中,
所述识别模块,用于获取网页图像样本、所述网页图像样本的分类标签以及待与识别网页相匹配的缩放比例;
所述识别模块,用于基于网页图像样本、以及所述网页图像样本的分类标签,对用于从所述网页图像中提取视觉特征的卷积神经网络模型进行训练,以实现确定与所述卷积神经网络模型相适配的模型参数。
本发明实施例还提供了一种服务器,所述服务器包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现前序的网页类型识别方法。
本发明实施例还提供了一种计算机可读存储介质,存储有可执行指令,其特征在于,所述可执行指令被处理器执行时实现前序的网页类型识别方法。
本发明实施例具有以下有益效果:
通过获取目标网页的统一资源定位符,并根据目标归属区域对所述目标网页的统一资源定位符进行第一匹配处理;根据匹配规则集合对所述第一匹配处理的匹配结果进行第二匹配处理,以实现获取待识别网页;根据所述待识别网页的统一资源定位符,获取与所述待识别网页相对应的网页图像;通过卷积神经网络模型从所述网页图像中提取视觉特征,以实现对所述待识别网页的网页类型进行识别,由此,实现了针对不同的用户需求对相应的网页类型进行灵活性和针对性更强的识别,同时短了网页页面类型的识别周期,节省了检测时间实现了对目标网页的有效监测。
附图说明
图1为本发明实施例提供的网页类型识别方法的使用场景示意图;
图2为本发明实施例提供的服务器的组成结构示意图;
图3为本发明实施例提供的网页类型识别方法一个可选的流程示意图;
图3A为本发明实施例中与网页对应的一种标签示意图;
图3B为本发明实施例中与网页对应的一种标签示意图;
图3C为本发明实施例中卷积神经网络模型的一个可选结构;
图4A为本发明实施例提供的网页类型识别方法一个可选的流程示意图;
图4B为本发明实施例提供的网页类型识别方法一个可选的流程示意图;
图5为通过激活函数(Activation Function)在卷积层和池化层处理图像的示意图;
图6为本发明实施例中对卷积神经网络模型训练时的前端显示示意图;
图7为本发明实施例提供的网页类型识别方法一个可选的流程示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)响应于,用于表示所执行的操作所依赖的条件或者状态,当满足所依赖的条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的延迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限制。
2)下采样处理,对于一个样值序列间隔几个样值取样一次,这样得到新序列就是原序列的下采样,例如:对于一幅图像I尺寸为M*N,对其进行s倍下采样,即得到(M/s)*(N/s)尺寸的得分辨率图像,其中s应该是M和N的公约数
3)压缩处理:指以以较少的比特有损或无损地表示原来的像素矩阵的技术。
4)卷积神经网络(CNN Convolutional Neural Networks)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deeplearning)的代表算法之一。卷积神经网络具有表征学习(representation learning)能力,能够按其阶层结构对输入信息进行平移不变分类(shift-invariantclassification)。
5)模型训练,对图像数据集进行多分类学习。该模型可采用TensorFlow、torch等深度学习框架进行构建,使用CNN等神经网络层的多层结合组成多分类模型。模型的输入为图像经过openCV等工具读取形成的三通道或原通道矩阵,模型输出为多分类概率,通过softmax等算法最终输出网页类别。在训练时,模型通过交叉熵等目标函数向正确趋势逼近。
图1为本发明实施例提供的网页类型识别方法的使用场景示意图,参见图1,终端(包括终端10-1和终端10-2)上设置有能够执行不同功能相应客户端其中,所属客户端为终端(包括终端10-1和终端10-2)通过网络300从相应的服务器200中获取不同的网页进行浏览,终端通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线链路实现数据传输,其中,终端(包括终端10-1和终端10-2)通过网络300从相应的服务器200中所获取的网页类型并不相同,例如:终端(包括终端10-1和终端10-2)既可以通过网络300从相应的服务器200中获取视频网页(即网页中携带视频信息或相应的视频链接),也可以通过网络300从相应的服务器200中获取仅包括文字或图像的相应网页进行浏览。服务器200中可以保存有不同类型的网页。在本发明的一些实施例中,服务器200中所保存的不同类型的网页可以是在不同编程语言的软件代码中所编写的,代码对象可以是不同类型的代码实体。例如,在C语言的软件代码中,一个代码对象可以是一个函数。在JAVA语言的软件代码中,一个代码对象可以是一个类,IOS端OC语言中可以是一段目标代码。在C++语言的软件代码中,一个代码对象可以是一个类或一个函数。其中本申请中不再对不同类型的网页的1编译环境进行区分。
服务器200通过网络300向终端(终端10-1和/或终端10-2)发送不同类型的网页的过程中服务器400需要对不同类型的网页进行监控,因此。作为一个事例,服务器400用于获取目标网页的统一资源定位符,并根据目标归属区域对所述目标网页的统一资源定位符进行第一匹配处理;根据匹配规则集合对所述第一匹配处理的匹配结果进行第二匹配处理,以实现获取待识别网页;根据所述待识别网页的统一资源定位符,获取与所述待识别网页相对应的网页图像;通过卷积神经网络模型从所述网页图像中提取视觉特征,以实现对所述待识别网页的网页类型进行识别。
下面对本发明实施例的服务器的结构做详细说明,服务器可以各种形式来实施,如带有多媒体信息处理功能的专用终端,也可以为带有多媒体信息处理功能的服务器,例如前述图1中的服务器400。图2为本发明实施例提供的服务器的组成结构示意图,可以理解,图2仅仅示出了服务器的示例性结构而非全部结构,根据需要可以实施图2示出的部分结构或全部结构。
本发明实施例提供的服务器20包括:至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。服务器20中的各个组件通过总线系统205耦合在一起。可以理解,总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统205。
其中,用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。
可以理解,存储器202可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括:用于在终端(如10-1)上操作的任何计算机程序,如操作系统和应用程序。其中,操作系统包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。
在一些实施例中,本发明实施例提供的网页类型识别装置可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的网页类型识别装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的网页类型识别方法。例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
作为本发明实施例提供的网页类型识别装置采用软硬件结合实施的示例,本发明实施例所提供的网页类型识别装置可以直接体现为由处理器201执行的软件模块组合,软件模块可以位于存储介质中,存储介质位于存储器202,处理器201读取存储器202中软件模块包括的可执行指令,结合必要的硬件(例如,包括处理器201以及连接到总线205的其他组件)完成本发明实施例提供的网页类型识别方法。
作为示例,处理器201可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
作为本发明实施例提供的网页类型识别装置采用硬件实施的示例,本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成,例如,被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件执行实现本发明实施例提供的网页类型识别方法。
本发明实施例中的存储器202用于存储各种类型的数据以支持服务器20的操作。这些数据的示例包括:用于在服务器20上操作的任何可执行指令,如可执行指令,实现本发明实施例的从网页类型识别方法的程序可以包含在可执行指令中。
在另一些实施例中,本发明实施例提供的网页类型识别装置可以采用软件方式实现,图2示出了存储在存储器202中的网页类型识别装置2020,其可以是程序和插件等形式的软件,并包括一系列的模块,作为存储器202中存储的程序的示例,可以包括网页类型识别装置2020,网页类型识别装置2020中包括以下的软件模块:信息处理模块2081,识别模块2082。当网页类型识别装置2020中的软件模块被处理器201读取到RAM中并执行时,将实现本发明实施例提供的网页类型识别方法,下面对网页类型识别装置2020中各个软件模块的功能进行介绍:
信息处理模块2081,用于获取目标网页的统一资源定位符,并根据目标归属区域对所述目标网页的统一资源定位符进行第一匹配处理;
所述信息处理模块2081,用于根据匹配规则集合对所述第一匹配处理的匹配结果进行第二匹配处理,以实现获取待识别网页;
所述信息处理模块2081,用于根据所述待识别网页的统一资源定位符,获取与所述待识别网页相对应的网页图像;
识别模块2082,用于通过卷积神经网络模型从所述网页图像中提取视觉特征,以实现对所述待识别网页的网页类型进行识别。
结合图2示出的服务器20说明本发明实施例提供的网页类型识别方法,参见图3,图3为本发明实施例提供的网页类型识别方法一个可选的流程示意图,可以理解地,图3所示的步骤可以由运行网页类型识别装置的各种服务器执行,例如可以是如带有网页类型识别功能的专用终端、服务器或者服务器集群。下面针对图3示出的步骤进行说明。
步骤301:获取目标网页的统一资源定位符(URL),并根据目标归属区域对所述目标网页的统一资源定位符进行第一匹配处理。
在本发明的一些实施例中,根据目标归属区域对所述目标网页的统一资源定位符进行第一匹配处理,可以通过以下方式实现:
获取与所述目标网页的统一资源定位符对应的所述目标网页域名参数;获取与所述目标网页域名参数相对应的所述目标网页持有者的归属区域信息;根据所述目标网页持有者的归属区域信息和目标归属区域,对所述目标网页的统一资源定位符进行第一匹配处理,以实现获取与所述目标归属区域相匹配的统一资源定位符。其中,由于直接获取url的属地信息较为繁琐,因此可以提取每个url的域名,然后通过连接域名和持有者的对应表,间接得知url和持有者的对应关系。因此可以过滤出相应归属地的持有者,查找出这些持有者对应的域名及其域名对应的url链接,由此得到全量的目标url。
步骤302:根据匹配规则集合对所述第一匹配处理的匹配结果进行第二匹配处理,以实现获取待识别网页。
在本发明的一些实施例中,根据匹配规则集合对所述第一匹配处理的匹配结果进行第二匹配处理,可以通过以下方式实现:
解析所述匹配规则集合,以确定与所述目标网页相适配的超文本标记语言标记标签规则和词语参数匹配规则,响应于所述超文本标记语言标记标签规则和词语参数匹配规则对所述第一匹配处理的匹配结果进行第二匹配处理,以实现获取相应的待识别网页。其中,以网页类型为视频网页为例,大部分包含可播放的视频的页面中视频部分对应的html标签都是<video>标签,<video>标签中包含的内容是播放视频的主体。
参考图3A,图3A为本发明实施例中与网页对应的一种标签示意图;如图3A所示,<video>标签正确代表了网页中视频的主体部分。但是有一些情况下有video标签但没有视频播放主体。
进一步地,参考图3B,图3B为本发明实施例中与网页对应的一种标签示意图;如图3B所示。而且<video>标签并不能涵盖所有可能包含视频的页面,因为有一些视频页面可能采用其他标签比如<object>、<embed>标签等,或仅仅采用视频链接嵌入方式,点击播放会跳转到其他链接。因此<video>标签只能筛选出一部分网页。为了对前序实施例中的视频网页的类型和数量进行补充,采用了基于网页标题的关键词匹配规则来增加所覆盖的视频网页的数量。可以理解为匹配<title>中包含视频类关键词的页面。通过本实施例所示的技术方案可以显著增加视频类网页的覆盖度。即,通过步骤302的处理,使用前序两种规则(匹配规则集合也可以保存其他的匹配规则)结合,视频网页的召回覆盖度可达到90%以上,同时待检测网页数量降低了3个数量级。
步骤303:根据所述待识别网页的统一资源定位符,获取与所述待识别网页相对应的网页图像。
在本发明的一些实施例中,根据所述待识别网页的统一资源定位符,获取与所述待识别网页相对应的网页图像,可以通过以下方式实现:
根据所述待识别网页的统一资源定位符,确定相应的待截图的待识别网页;确定与所述待截图的待识别网页相匹配的缩放比例;根据与所述缩放比例对所述待截图的待识别网页进行图像截取,以实现获得与所述待识别网页相对应的网页图像。
在本发明的一些实施例中,网页图像的获取还包括以下方式:
确定与所述待识别网页相对应的网页图像的图像格式信息;对与所述待识别网页相对应的网页图像的图像格式进行调整,以实现将所述网页图像的图像格式调整为标准色彩格式图像。其中,由于有一些目标网页中视频部分可能位于网页页面的中线偏下部分,在这种情况下浏览器采用100%或更大缩放比例的话,截屏所截取的内容不包含或不能完整包含整体视频内容,因此可选的待识别网页相匹配的缩放比例为67%,将截屏的网页图片保存为RGB三通道图像有利于后续通过卷积神经网络模型对网页的类型进行识别。
步骤304:通过卷积神经网络模型从所述网页图像中提取视觉特征,以实现对所述待识别网页的网页类型进行识别。
在本发明的一些实施例中,通过卷积神经网络模型从所述网页图像中提取视觉特征,以实现对所述待识别网页的网页类型进行识别可以通过以下方式实现:
通过卷积神经网络模型的卷积层和最大值池化层对所述网页图像交叉进行处理,得到所述网页图像的降采样结果;通过所述卷积神经网络模型的平均池化层对所述降采样结果进行处理,得到所述网页图像的视觉特征;通过所述卷积神经网络模型的分类层对所述网页图像的视觉特征进行分类,以实现对所述待识别网页的网页类型进行识别。
其中,参考图3C,图3C为本发明实施例中卷积神经网络模型的一个可选结构,其中,卷积神经网络模型输入的为一张三通道的RGB的网页图像卷积神经网络模型后面连接的结构分别是3*3的64通道的卷积层、3*3步长为2的最大池化层、3*3的32通道的卷积层、3*3步长为2的最大池化层、3*3的16通道的卷积层、3*3步长为2的最大池化层、两个相同的128的全连接层、一个由归一化指数函数(Softmax)构成的分类层。其中每个卷积层都经过一个线性整流函数(ReLU,Rectified Linear Unit)进行处理,每个最大池化层都经过一个局部响应标准化函数(LRN,local response normalization)进行处理,其中卷积神经网络模型的输出值为1表征目标网页的类型为视频网页,输出为0表征标网页的类型为不是视频网页,至此,就可以根据其输出结果是0或1来判断其是否是以视频为主要内容的网页。
结合图2示出的服务器20说明本发明实施例提供的网页类型识别方法,参见图4A,图4A为本发明实施例提供的网页类型识别方法一个可选的流程示意图,可以理解地,图4A所示的步骤可以由运行网页类型识别装置的各种服务器执行,例如可以是如带有网页类型识别功能的专用终端、服务器或者服务器集群。下面针对图4A示出的步骤进行说明。
其中,获取与所述待识别网页相对应的网页图像的过程如前序图3中实施例所示的步骤,不再赘述。
步骤401:获取网页图像样本、所述网页图像样本的分类标签以及待与识别网页相匹配的缩放比例。
其中,由于网页在编辑过程中,不通网页特征的排列具有不确定性,因此,用户需要调整网页的显示位置,才能够确定相应的信息,例如:由于有一些目标网页中视频部分可能位于网页页面的中线偏下部分,在这种情况下浏览器采用100%或更大缩放比例的话,截屏所截取的内容不包含或不能完整包含整体视频内容,因此可选的待识别网页相匹配的缩放比例对待识别的网页进行缩放,其中对视频网页的缩放比例可以是60%;或者,有一些目标网页中图片部分可能位于网页页面的最后一部分,在这种情况下浏览器采用100%或更大缩放比例的话,截屏所截取的内容不包含或不能完整包含网页中的图片,因此可选的对待识别网页按照一定的缩放比例进行缩小,其中对图片网页的缩小比例可以是30%(以实现对页面较长的网页进行缩小后呢能够获得完整的图像信息)。
步骤402:基于网页图像样本、以及所述网页图像样本的分类标签,对用于从所述网页图像中提取视觉特征的卷积神经网络模型进行训练,以实现确定与所述卷积神经网络模型相适配的模型参数。
步骤403:通过卷积神经网络模型的卷积层和最大值池化层对所述网页图像交叉进行处理,得到所述网页图像的降采样结果。
其中,通过激活函数在卷积层和池化层分别对相应的原始尺寸的图像进行卷积处理和池化处理,得到所述图像的视觉特征。其中,可选的,在通过卷积层和池化层分别对相应的原始尺寸的图像进行处理之可以对原始图像进行归一化处理,以实现对原始图像的尺寸进行统一,可选的,将原始尺寸的图像归一化为256像素*256像素的图像。
步骤404:通过所述卷积神经网络模型的平均池化层对所述降采样结果进行处理,得到所述网页图像的视觉特征。
步骤405:通过所述卷积神经网络模型的分类层对所述网页图像的视觉特征进行分类。
至此,通过步骤401-405实现对待识别网页的网页类型进行识别。
结合图2示出的服务器20说明本发明实施例提供的网页类型识别方法,参见图4B,图4B为本发明实施例提供的网页类型识别方法一个可选的流程示意图,可以理解地,图4B所示的步骤可以由运行网页类型识别装置的各种服务器执行,例如可以是如带有网页类型识别功能的专用终端、服务器或者服务器集群用于识别出网络资源中视频网页(包含可播放的视频的页面中视频部分对应的html标签都是<video>标签的网页,<object>、<embed>标签类型的网页等,或仅采用视频链接嵌入方式,点击播放会跳转到其他链接的网页)。下面针对图4B示出的步骤进行说明。
步骤501:获取网络资源中的目标网页的URL,并根据目标归属区域对目标网页的统一资源定位符进行第一匹配处理。
步骤502:根据匹配规则集合对所述第一匹配处理的匹配结果进行第二匹配处理,获取html标签为<video>标签的待识别网页。
在本发明的一些实施例中,当通过对所述第一匹配处理的匹配结果进行第二匹配处理,未获取相应的待识别网页时,还可以通过以下方式确定相应的带识别网页:
确定所述目标网页的关键词;根据所述目标网页的关键词确定与所述目标网页相适配的超文本标记语言标记标签规则和词语参数匹配规则;响应于所述超文本标记语言标记标签规则和词语参数匹配规则对所述第一匹配处理的匹配结果进行第三匹配处理,以实现获取相应的待识别网页,由此,通过前序两种规则(匹配规则集合也可以保存其他的匹配规则)结合,有效提升了视频网页的召回率。
步骤503:确定与待截图的待识别网页相匹配的缩放比例,根据与缩放比例对待截图的待识别网页进行图像截取,获得与待识别网页相对应的网页图像。
步骤504:基于网页图像样本、以及所述网页图像样本的分类标签,对用于从网页图像中提取视觉特征的卷积神经网络模型进行训练。
其中,卷积神经网络模型包括卷积层和池化层,通过激活函数在卷积层和池化层分别对相应的原始尺寸的图像进行卷积处理和池化处理,得到所述图像的视觉特征。其中,可选的,在通过卷积层和池化层分别对相应的原始尺寸的图像进行处理之可以对原始图像进行归一化处理,以实现对原始图像的尺寸进行统一,可选的,将原始尺寸的图像归一化为256像素*256像素的图像。
步骤505:完成训练后,确定从网页图像中提取视觉特征的卷积神经网络模型的参数,并通过卷积神经网络模型的卷积层和最大值池化层对所述网页图像交叉进行处理,得到待识别网页的网页图像的降采样结果。
步骤506:通过卷积神经网络模型的平均池化层对所述降采样结果进行处理,得到所述网页图像的视觉特征。
步骤507:待识别网页为视频网页时,卷积神经网络模型输出结果为1,非视频网页输出为0。
参考图5,图5为通过激活函数(Activation Function)在卷积层和池化层处理图像的示意图,其中,通过图3所示的实施例,所获取的网页图像的规格256像素*256像素,如图5所示,通过激活函数在卷积层和池化层分别对原始尺寸为256像素*256像素的图像进行卷积处理和池化处理,得到所述图像的视觉特征。通过本实施例所示的技术方案,经过所述卷积神经网络模型的卷积层和最大值池化层的交叉处理,实现了卷积层将神经网络中的每一小块进行更加深入地分析从而得到抽象程度更高的特征同时又可以缩小矩阵的大小,进一步缩小最后全连接层中节点的个数,从而达到减少整个神经网络中参数的目的。
参考图6,图6为本发明实施例中对卷积神经网络模型训练时的前端显示示意图,可以理解地,其中,为实现卷积神经网络模型使用环境的模拟,
卷积神经网络模型的批处理参数(batch size)可选值为32或64,卷积神经网络模型的优化器选择自适应优化器(adam)的初始学习率可选值为0.0001,随机失活(dropout)可选值为0.8。经过10000次迭代训练后,训练集和测试集准确率均稳定在98%以上,说明模型和该任务场景相匹配,能取得较为理想的训练效果并固定该状态下的卷积神经网络模型的所有参数。
下面以识别归属地为“深圳”的,网页类型为视频网页的过程,对本发明实施例所提供的网页类型识别方法进行说明。
参见图7,图7为本发明实施例提供的网页类型识别方法一个可选的流程示意图,可以理解地,图7所示的步骤可以由运行网页类型识别装置的各种服务器执行,例如可以是如带有网页类型识别功能的专用终端、服务器或者服务器集群。下面针对图7示出的步骤进行说明。
步骤701:监测服务器从网站服务器A和B中分别获取目标网页的统一资源定位符。
步骤702:监测服务器根据目标网页持有者的归属区域信息和目标归属区域,对目标网页的统一资源定位符进行匹配处理。
至此,通过步骤702所筛选的待检测目标url可以归属于同一属地(全部归属深圳地区),之后通过过滤得到相应数量的待检测的url,最后通过视频网页截屏及CNN识别模块对相应的url做精细化识别分,以实现对网页类型的识别。
步骤703:监测服务器解析匹配规则集合,根据超文本标记语言标记标签规则和词语参数匹配规则对目标网页进行处匹配理。
步骤704:监测服务器根据相应的缩放比例对待识别网页进行图像截取。
由此以实现获得与所述待识别网页相对应的网页图像。
在本发明的一些实施例中,执行步骤704之前,通过浏览器插件采集网页截图等方式获取网页图像并进行标注,将相关信息存储于数据库中。在采集数据时,可以使用headless Chrome、phantomJS等渲染引擎对网页进行图像抓取。在抓取图像之前,可以考虑对网页进行如下预处理:根据给定规则去除广告、移除position标记为fixed的浮动对象、移除iframe等会对网页图像造成重大视觉干扰的元素,并可对文本域、图像域进行不同的颜色覆盖,使得网页视觉结构信息得以最大化保留。
步骤705:通过卷积神经网络模型从网页图像中提取视觉特征。
其中,卷积神经网络模型可以由相应的服务器进行训练,并部署于检测服务器中,其中,卷积神经网络模型输入的为一张三通道的RGB的网页图像卷积神经网络模型后面连接的结构分别是3*3的64通道的卷积层、3*3步长为2的最大池化层、3*3的32通道的卷积层、3*3步长为2的最大池化层、3*3的16通道的卷积层、3*3步长为2的最大池化层、两个相同的128的全连接层、一个由归一化指数函数(Softmax)构成的分类层。其中每个卷积层都经过一个线性整流函数(ReLU,Rectified Linear Unit)进行处理,每个最大池化层都经过一个局部响应标准化函数(LRN,local response normalization)进行处理。
在本发明的一些实施例中,inception结构可以3个不同尺寸的卷积,即1×1卷积层、3×3卷积层、5×5卷积层以及3×3最大池化层,去除了最后的全连接层,而使用全局平均池化层(将网页图片尺寸变为1×1)取代全连接层。要想增强网络能力,可以增加网络深度,增加网络宽度。但是为了减少过拟合,也要减少自由参数。因此,在inception结构的同一层里中,有卷积1×1卷积层、3×3卷积层和5×5卷积层三个不同的卷积模板,他们可以在不同尺寸下做特征提取,也是一种混合模型。因为最大池化层本身也有特征提取的作用,而且和卷积不同,没有参数不会过拟合,也作为一个分支。但是直接这样做,整个网络计算量会较大,且层次并没有变深,因此,在3×3卷积和5×5卷积前面先做1×1的卷积,降低输入的通道的数量,这样既使得网络变深,同时计算量反而小了。
步骤706:通过卷积神经网络模型的分类层对网页图像的视觉特征进行分类,如果为视频网页,执行步骤707,否则,执行步骤708。
步骤707:卷积神经网络模型的输出值为1。
其中,输出值为1表征目标网页的类型为视频网页。
步骤708:卷积神经网络模型的输出值为0。
输出为0表征标网页的类型为不是视频网页,至此,就可以根据其输出结果是0或1来判断其是否是以视频为主要内容的网页。
通过本实施例所示的技术方案,监测服务器能够对不同网页服务器中的网页类型进行识别,并能够对所识别出的归属地区为“深圳”的视频网页进行监测。
本发明具有以下有益技术效果:
1)对于复杂场景的网页显示环境和数量巨大的不同网页,能够有效地缩短网页页面类型的识别周期,节省了检测时间。
2)同时针对不同的用户需求,灵活的调整所需要识别的网页类型,对相应的网页类型进行识别,灵活性更强。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (15)

1.一种网页类型识别方法,其特征在于,所述方法包括:
获取目标网页的统一资源定位符,并根据目标归属区域对所述目标网页的统一资源定位符进行第一匹配处理;
根据匹配规则集合对所述第一匹配处理的匹配结果进行第二匹配处理,以实现获取待识别网页;
根据所述待识别网页的统一资源定位符,获取与所述待识别网页相对应的网页图像;
通过卷积神经网络模型从所述网页图像中提取视觉特征,以实现对所述待识别网页的网页类型进行识别。
2.根据权利要求1所述的方法,其特征在于,所述根据目标归属区域对所述目标网页的统一资源定位符进行第一匹配处理,包括:
获取与所述目标网页的统一资源定位符对应的所述目标网页域名参数;
获取与所述目标网页域名参数相对应的所述目标网页持有者的归属区域信息;
根据所述目标网页持有者的归属区域信息和目标归属区域,对所述目标网页的统一资源定位符进行第一匹配处理,以实现获取与所述目标归属区域相匹配的统一资源定位符。
3.根据权利要求1所述的方法,其特征在于,所述根据匹配规则集合对所述第一匹配处理的匹配结果进行第二匹配处理,包括:
解析所述匹配规则集合,以确定与所述目标网页相适配的超文本标记语言标记标签规则和词语参数匹配规则,
响应于所述超文本标记语言标记标签规则和词语参数匹配规则对所述第一匹配处理的匹配结果进行第二匹配处理,以实现获取相应的待识别网页。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
当通过对所述第一匹配处理的匹配结果进行第二匹配处理,未获取相应的待识别网页时,确定所述目标网页的关键词;
根据所述目标网页的关键词确定与所述目标网页相适配的超文本标记语言标记标签规则和词语参数匹配规则;
响应于所述超文本标记语言标记标签规则和词语参数匹配规则对所述第一匹配处理的匹配结果进行第三匹配处理,以实现获取相应的待识别网页。
5.根据权利要求1所述的方法,其特征在于,所述根据所述待识别网页的统一资源定位符,获取与所述待识别网页相对应的网页图像,包括:
根据所述待识别网页的统一资源定位符,确定相应的待截图的待识别网页;
确定与所述待截图的待识别网页相匹配的缩放比例;
根据与所述缩放比例对所述待截图的待识别网页进行图像截取,以实现获得与所述待识别网页相对应的网页图像。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
确定与所述待识别网页相对应的网页图像的图像格式信息;
对与所述待识别网页相对应的网页图像的图像格式进行调整,以实现将所述网页图像的图像格式调整为标准色彩格式图像。
7.根据权利要求1所述的方法,其特征在于,所述通过卷积神经网络模型从所述网页图像中提取视觉特征,以实现对所述待识别网页的网页类型进行识别,包括:
通过卷积神经网络模型的卷积层和最大值池化层对所述网页图像交叉进行处理,得到所述网页图像的降采样结果;
通过所述卷积神经网络模型的平均池化层对所述降采样结果进行处理,得到所述网页图像的视觉特征;
通过所述卷积神经网络模型的分类层对所述网页图像的视觉特征进行分类,以实现对所述待识别网页的网页类型进行识别。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
获取网页图像样本、所述网页图像样本的分类标签以及待与识别网页相匹配的缩放比例;
基于网页图像样本、以及所述网页图像样本的分类标签,对用于从所述网页图像中提取视觉特征的卷积神经网络模型进行训练,以实现确定与所述卷积神经网络模型相适配的模型参数。
9.一种网页类型识别装置,其特征在于,所述装置包括:
信息处理模块,用于获取目标网页的统一资源定位符,并根据目标归属区域对所述目标网页的统一资源定位符进行第一匹配处理;
所述信息处理模块,用于根据匹配规则集合对所述第一匹配处理的匹配结果进行第二匹配处理,以实现获取待识别网页;
所述信息处理模块,用于根据所述待识别网页的统一资源定位符,获取与所述待识别网页相对应的网页图像;
识别模块,用于通过卷积神经网络模型从所述网页图像中提取视觉特征,以实现对所述待识别网页的网页类型进行识别。
10.根据权利要求9所述的装置,其特征在于,
所述信息处理模块,用于获取与所述目标网页的统一资源定位符对应的所述目标网页域名参数;
所述信息处理模块,用于获取与所述目标网页域名参数相对应的所述目标网页持有者的归属区域信息;
所述信息处理模块,用于根据所述目标网页持有者的归属区域信息和目标归属区域,对所述目标网页的统一资源定位符进行第一匹配处理,以实现获取与所述目标归属区域相匹配的统一资源定位符。
11.根据权利要求9所述的装置,其特征在于,
所述信息处理模块,用于解析所述匹配规则集合,以确定与所述目标网页相适配的超文本标记语言标记标签规则和词语参数匹配规则,
所述信息处理模块,用于响应于所述超文本标记语言标记标签规则和词语参数匹配规则对所述第一匹配处理的匹配结果进行第二匹配处理,以实现获取相应的待识别网页。
12.据权利要求11所述的装置,其特征在于,
所述信息处理模块,用于当通过对所述第一匹配处理的匹配结果进行第二匹配处理,未获取相应的待识别网页时,确定所述目标网页的关键词;
所述信息处理模块,用于根据所述目标网页的关键词确定与所述目标网页相适配的超文本标记语言标记标签规则和词语参数匹配规则;
所述信息处理模块,用于响应于所述超文本标记语言标记标签规则和词语参数匹配规则对所述第一匹配处理的匹配结果进行第三匹配处理,以实现获取相应的待识别网页。
13.根据权利要求9所述的装置,其特征在于,
所述信息处理模块,用于根据所述待识别网页的统一资源定位符,确定相应的待截图的待识别网页;
所述信息处理模块,用于确定与所述待截图的待识别网页相匹配的缩放比例;
所述信息处理模块,用于根据与所述缩放比例对所述待截图的待识别网页进行图像截取,以实现获得与所述待识别网页相对应的网页图像。
14.一种服务器,其特征在于,所述服务器包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现权利要求1至8任一项所述的网页类型识别方法。
15.一种计算机可读存储介质,存储有可执行指令,其特征在于,所述可执行指令被处理器执行时实现权利要求1至8任一项所述的网页类型识别方法。
CN201910718614.6A 2019-08-05 2019-08-05 一种网页类型识别方法、装置、服务器及存储介质 Pending CN110442807A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910718614.6A CN110442807A (zh) 2019-08-05 2019-08-05 一种网页类型识别方法、装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910718614.6A CN110442807A (zh) 2019-08-05 2019-08-05 一种网页类型识别方法、装置、服务器及存储介质

Publications (1)

Publication Number Publication Date
CN110442807A true CN110442807A (zh) 2019-11-12

Family

ID=68433343

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910718614.6A Pending CN110442807A (zh) 2019-08-05 2019-08-05 一种网页类型识别方法、装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN110442807A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112036412A (zh) * 2020-08-28 2020-12-04 绿盟科技集团股份有限公司 一种网页识别方法、装置、设备及存储介质
CN112131506A (zh) * 2020-09-24 2020-12-25 厦门市美亚柏科信息股份有限公司 一种网页分类方法、终端设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544210A (zh) * 2013-09-02 2014-01-29 烟台中科网络技术研究所 一种识别网页类型的系统和方法
US20180157386A1 (en) * 2016-12-05 2018-06-07 Jiawen Su System and Method for detection, exploration, and interaction of graphic application interface
CN108921184A (zh) * 2018-04-18 2018-11-30 中国科学院信息工程研究所 一种通用的网页类型判定方法
CN109947967A (zh) * 2017-10-10 2019-06-28 腾讯科技(深圳)有限公司 图像识别方法、装置、存储介质和计算机设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544210A (zh) * 2013-09-02 2014-01-29 烟台中科网络技术研究所 一种识别网页类型的系统和方法
US20180157386A1 (en) * 2016-12-05 2018-06-07 Jiawen Su System and Method for detection, exploration, and interaction of graphic application interface
CN109947967A (zh) * 2017-10-10 2019-06-28 腾讯科技(深圳)有限公司 图像识别方法、装置、存储介质和计算机设备
CN108921184A (zh) * 2018-04-18 2018-11-30 中国科学院信息工程研究所 一种通用的网页类型判定方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112036412A (zh) * 2020-08-28 2020-12-04 绿盟科技集团股份有限公司 一种网页识别方法、装置、设备及存储介质
CN112131506A (zh) * 2020-09-24 2020-12-25 厦门市美亚柏科信息股份有限公司 一种网页分类方法、终端设备及存储介质

Similar Documents

Publication Publication Date Title
CN111400591B (zh) 资讯信息推荐方法、装置、电子设备及存储介质
CN108595583B (zh) 动态图表类页面数据爬取方法、装置、终端及存储介质
CN110413786B (zh) 基于网页文本分类的数据处理方法、智能终端及存储介质
CN109831572A (zh) 聊天图片控制方法、装置、计算机设备及存储介质
CN108229341A (zh) 分类方法和装置、电子设备、计算机存储介质、程序
CN106951925A (zh) 数据处理方法、装置、服务器及系统
CN107168992A (zh) 基于人工智能的文章分类方法及装置、设备与可读介质
CN105138312B (zh) 一种表格生成方法及装置
CN108733764A (zh) 基于机器学习的广告过滤规则生成方法和广告过滤系统
CN110363084A (zh) 一种上课状态检测方法、装置、存储介质及电子
CN104050240A (zh) 一种确定搜索查询词类别属性的方法和装置
CN112416806B (zh) 一种基于标准文档分析的js引擎模糊测试方法
CN110209862A (zh) 文本配图方法、电子装置及计算机可读存储介质
CN110442807A (zh) 一种网页类型识别方法、装置、服务器及存储介质
CN104881428A (zh) 一种信息图网页的信息图提取、检索方法和装置
CN109858024A (zh) 一种基于word2vec的房源词向量训练方法及装置
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN106446123A (zh) 一种网页中验证码元素识别方法
CN112861750B (zh) 基于拐点检测的视频提取方法、装置、设备及介质
CN113345052A (zh) 基于相似显著性的分类数据多视图可视化着色方法及系统
CN116016365B (zh) 一种加密流量下基于数据包长度信息的网页识别方法
CN113610080B (zh) 基于跨模态感知的敏感图像识别方法、装置、设备及介质
CN111209394A (zh) 文本分类处理方法和装置
CN116318974A (zh) 站点风险识别方法、装置、计算机可读介质及电子设备
CN106951540B (zh) 文件目录的生成方法、装置、服务器及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination