CN108804469A - 一种网页识别方法以及电子设备 - Google Patents

一种网页识别方法以及电子设备 Download PDF

Info

Publication number
CN108804469A
CN108804469A CN201710308227.6A CN201710308227A CN108804469A CN 108804469 A CN108804469 A CN 108804469A CN 201710308227 A CN201710308227 A CN 201710308227A CN 108804469 A CN108804469 A CN 108804469A
Authority
CN
China
Prior art keywords
webpage
target
node
characteristic information
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710308227.6A
Other languages
English (en)
Other versions
CN108804469B (zh
Inventor
黄明辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710308227.6A priority Critical patent/CN108804469B/zh
Publication of CN108804469A publication Critical patent/CN108804469A/zh
Application granted granted Critical
Publication of CN108804469B publication Critical patent/CN108804469B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例公开了一种网页识别方法以及电子设备,本发明实施例方法包括:将已接收到的网页渲染为文档对象模型树,对所述文档对象模型树进行遍历,以识别出所述文档对象模型树所包括的任一所述节点的属性,根据所述节点的属性提取出所述网页的特征信息,将所述网页的特征信息输入至预设的训练模型中,以使所述训练模型对所述网页的特征信息进行识别以输出所述网页的预测信息。可见,在识别的过程中,引入了网页在视觉上面的特性,从而提升了对网页进行识别的准确性和效率,避免因文本过少而无法正确对网页进行识别的情况的出现。

Description

一种网页识别方法以及电子设备
技术领域
本发明涉及通信技术领域,尤其涉及的是一种网页识别方法以及电子设备。
背景技术
随着互联网技术的发展,通过网页浏览信息也逐渐成为喜闻乐见的信息获取方式。其中,在网页上可以浏览到的信息主要包括文字、图片、音频或者视频等,从而丰富了人们的日常生活,为了避免用户浏览到作弊网页,则需要对作弊网页进行识别,作弊网页一般为涉及黄赌毒的网页等。
现有技术一般通过文字去建模以识别出作弊网页,通过文字所建立的模型为词袋模型,词袋模型是指基于词出现的频率以用来当作训练分类器的特征,广泛应用在文本分类领域中。在创建词袋模型的过程中,可对网页进行分割,以将网页的文本内容进行切词,建立词的模型,利用网页中出现频繁的一些作弊、垃圾以及广告相关的一些关键词进行训练,最终即可获取到词袋模型,在对新的网页进行识别的过程中,即可通过词袋模型对网页进行识别,即可识别出网页是否为作弊网页。
但是,为了防止作弊网页被识别出来,则会在作弊网页中模拟正常文章的内容,例如,在网页的头部有作弊信息,作弊信息可为文字、图片或视频等,但是网页第一屏后的为正常的文字内容,由于正常文字内容过多,用一般的词袋模型无法识别出作弊的网页,大大的降低了识别网页的准确性。
发明内容
本发明提供了一种能够提升网元识别准确性的网页识别方法以及电子设备。
本发明实施例第一方面提供了一种网页识别方法,包括:
将已接收到的网页渲染为文档对象模型树,所述文档对象模型树包括多个节点;
对所述文档对象模型树进行遍历,以识别出所述文档对象模型树所包括的任一所述节点的属性,所述节点的属性为所述节点在所述网页中的所展现的视觉形式;
根据所述节点的属性提取出所述网页的特征信息;
将所述网页的特征信息输入至预设的训练模型中,以使所述训练模型对所述网页的特征信息进行识别以输出所述网页的预测信息。
本发明实施例第二方面提供了一种网页识别方法,包括:
接收训练网页,所述训练网页包括指示标识,所述指示标识用于指示所述训练网页的预测信息;
将所述训练网页渲染为文档对象模型树,所述文档对象模型树包括多个节点;
对所述文档对象模型树进行遍历,以识别出所述文档对象模型树所包括的任一所述节点的属性,所述节点的属性为所述节点在所述训练网页中的所展现的视觉形式;
根据所述节点的属性提取出所述训练网页的特征信息;
根据所述指示标识和所述训练网页的特征信息获取训练模型,所述训练模型用于对网页进行识别。
本发明实施例第三方面提供了一种电子设备,包括:
第一渲染单元,用于将已接收到的网页渲染为文档对象模型树,所述文档对象模型树包括多个节点;
第一遍历单元,用于对所述文档对象模型树进行遍历,以识别出所述文档对象模型树所包括的任一所述节点的属性,所述节点的属性为所述节点在所述网页中的所展现的视觉形式;
第一提取单元,用于根据所述节点的属性提取出所述网页的特征信息;
第一输入单元,用于将所述网页的特征信息输入至预设的训练模型中,以使所述训练模型对所述网页的特征信息进行识别以输出所述网页的预测信息。
本发明实施例第四方面提供了一种电子设备,包括:
接收单元,用于接收训练网页,所述训练网页包括指示标识,所述指示标识用于指示所述训练网页的预测信息;
第二渲染单元,用于将所述训练网页渲染为文档对象模型树,所述文档对象模型树包括多个节点;
第二遍历单元,用于对所述文档对象模型树进行遍历,以识别出所述文档对象模型树所包括的任一所述节点的属性,所述节点的属性为所述节点在所述训练网页中的所展现的视觉形式;
第二提取单元,用于根据所述节点的属性提取出所述训练网页的特征信息;
第二输入单元,用于根据所述指示标识和所述训练网页的特征信息获取训练模型,所述训练模型用于对网页进行识别。
本发明实施例第五方面提供了一种电子设备,包括:
一个或多个处理器、存储器、总线系统、以及一个或多个程序,所述处理器和所述存储器通过所述总线系统相连;
其中所述一个或多个程序被存储在所述存储器中,所述一个或多个程序包括指令,所述指令当被所述电子设备执行时使所述电子设备执行如本发明实施例第一方面所述的方法。
本发明实施例第六方面提供了一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当被电子设备执行时使所述电子设备执行如本发明实施例第一方面所述的方法。
本发明实施例第七方面提供了一种电子设备,包括:
一个或多个处理器、存储器、总线系统、以及一个或多个程序,所述处理器和所述存储器通过所述总线系统相连;
其中所述一个或多个程序被存储在所述存储器中,所述一个或多个程序包括指令,所述指令当被所述电子设备执行时使所述电子设备执行如本发明实施例第二方面所述的方法。
本发明实施例第八方面提供了一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当被电子设备执行时使所述电子设备执行如本发明实施例第二方面所述的方法。
采用本发明实施例所示的网页识别方法以及电子设备,能够将已接收到的网页渲染为文档对象模型树,对所述文档对象模型树进行遍历,以识别出所述文档对象模型树所包括的任一所述节点的属性,根据所述节点的属性提取出所述网页的特征信息,将所述网页的特征信息输入至预设的训练模型中,以使所述训练模型对所述网页的特征信息进行识别以输出所述网页的预测信息。可见,在识别的过程中,引入了网页在视觉上面的特性,从而提升了对网页进行识别的准确性和效率,避免因文本过少而无法正确对网页进行识别的情况的出现。
附图说明
图1为本发明所提供的电子设备的一种实施例结构示意图;
图2为本发明所提供的网页识别方法的一种实施例步骤流程图;
图3本发明所提供网页渲染的一种实施例流程示意图;
图4为本发明所提供的网页识别方法的另一种实施例步骤流程图;
图5为本发明所提供的应用场景的一种实施例执行示意图;
图6为本发明所提供的电子设备的另一种实施例结构示意图;
图7为本发明所提供的电子设备的另一种实施例结构示意图;
图8为本发明所提供的电子设备的另一种实施例结构示意图。
具体实施方式
本发明实施例提供了一种网页识别方法,为更好的理解本发明实施例所示的网页识别方法,则以下首先结合图1所示对能够实现本实施例所示的识别方法的电子设备的具体结构进行说明:
以下结合图1所示对本实施例所示的电子设备的具体结构进行说明,其中,图1为本发明所提供的电子设备的一种实施例结构示意图。
所述电子设备包括输入单元105、处理器103、输出单元101、通信单元107、存储器104、射频电路108等组件。
这些组件通过一条或多条总线进行通信。本领域技术人员可以理解,图1中示出的电子设备的结构并不构成对本发明的限定,它既可以是总线形结构,也可以是星型结构,还可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
在本发明实施方式中,所述电子设备可以是服务器或任何移动或便携式电子设备;
若为移动或便携式电子设备,则所述电子设备可包括但不限于智能手机、移动电脑、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、媒体播放器、智能电视等。
所述电子设备包括:
输出单元101,用于输出待显示的图像。
具体的,所述输出单元101包括但不限于影像输出单元1011和声音输出单元1012。
所述影像输出单元1011用于输出文字、图片和/或视频。所述影像输出单元1011可包括显示面板,例如采用液晶显示器(英文全称:Liquid Crystal Display,英文简称:LCD)、有机发光二极管(英文全称:Organic Light-Emitting Diode,英文简称:OLED)、场发射显示器(英文全称:field emission display,英文简称FED)等形式来配置的显示面板。或者所述影像输出单元1011可以包括反射式显示器,例如电泳式(electrophoretic)显示器,或利用光干涉调变技术(英文全称:Interferometric Modulation of Light)的显示器。
所述影像输出单元1011可以包括单个显示器或不同尺寸的多个显示器。在本发明的具体实施方式中,触摸屏亦可同时作为输出单元101的显示面板。
例如,当触摸屏检测到在其上的触摸或接近的手势操作后,传送给处理器103以确定触摸事件的类型,随后处理器103根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图1中,输入单元105与输出单元101是作为两个独立的部件来实现电子设备的输入和输出功能,但是在某些实施例中,可以将触摸屏与显示面板集成一体而实现电子设备的输入和输出功能。例如,所述影像输出单元1011可以显示各种图形化用户接口(英文全称:Graphical User Interface,英文简称GUI)以作为虚拟控制组件,包括但不限于窗口、卷动轴、图标及剪贴簿,以供用户通过触控方式进行操作。
在本发明具体实施方式中,所述影像输出单元1011包括滤波器及放大器,用来将处理器103所输出的视频滤波及放大。声音输出单元1012包括数字模拟转换器,用来将处理器103所输出的音频信号从数字格式转换为模拟格式。
处理器103,用于运行相应的代码,对接收信息进行处理,以生成并输出相应的界面。
具体的,所述处理器103为电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器内的软件程序和/或模块,以及调用存储在存储器内的数据,以执行电子设备的各种功能和/或处理数据。所述处理器103可以由集成电路(英文全称:Integrated Circuit,英文简称:IC)组成,例如可以由单颗封装的IC所组成,也可以由连接多颗相同功能或不同功能的封装IC而组成。
举例来说,所述处理器103可以仅包括中央处理器(英文全称:CentralProcessing Unit,英文简称:CPU),也可以是图形处理器(英文全称:Graphics ProcessingUnit,英文简称:GPU),数字信号处理器(英文全称:Digital Signal Processor,英文简称:DSP)、及通信单元中的控制芯片(例如基带芯片)的组合。在本发明实施方式中,CPU可以是单运算核心,也可以包括多运算核心。
存储器104,用于存储代码和数据,代码供处理器103运行。
具体的,存储器104可用于存储软件程序以及模块,处理器103通过运行存储在存储器104的软件程序以及模块,从而执行电子设备的各种功能应用以及实现数据处理。存储器104主要包括程序存储区和数据存储区,其中,程序存储区可存储操作系统、至少一个功能所需的应用程序,比如声音播放程序、图像播放程序等等;数据存储区可存储根据电子设备的使用所创建的数据(比如音频数据、电话本等)等。
在本发明具体实施方式中,存储器104可以包括易失性存储器,例如非挥发性动态随机存取内存(英文全称:Nonvolatile Random Access Memory,英文简称NVRAM)、相变化随机存取内存(英文全称:Phase Change RAM,英文简称PRAM)、磁阻式随机存取内存(英文全称:Magetoresistive RAM,英文简称MRAM)等,还可以包括非易失性存储器,例如至少一个磁盘存储器件、电子可擦除可编程只读存储器(英文全称:Electrically ErasableProgrammable Read-Only Memory,英文简称EEPROM)、闪存器件,例如反或闪存(英文全称:NOR flash memory)或是反及闪存(英文全称:NAND flash memory)。
非易失存储器储存处理器103所执行的操作系统及应用程序。所述处理器103从所述非易失存储器加载运行程序与数据到内存并将数字内容储存于大量储存装置中。所述操作系统包括用于控制和管理常规系统任务,例如内存管理、存储设备控制、电源管理等,以及有助于各种软硬件之间通信的各种组件和/或驱动器。
在本发明实施方式中,所述操作系统可以是Google公司的Android系统、Apple公司开发的iOS系统或Microsoft公司开发的Windows操作系统等,或者是Vxworks这类的嵌入式操作系统。
所述应用程序包括安装在电子设备上的任何应用,包括但不限于浏览器、电子邮件、即时消息服务、文字处理、键盘虚拟、窗口小部件(Widget)、加密、数字版权管理、语音识别、语音复制、定位(例如由全球定位系统提供的功能)、音乐播放等等。
输入单元105,用于实现用户与电子设备的交互和/或信息输入到电子设备中。
例如,所述输入单元105可以接收用户输入的数字或字符信息,以产生与用户设置或功能控制有关的信号输入。在本发明具体实施方式中,输入单元105可以是触摸屏,也可以是其他人机交互界面,例如实体输入键、麦克风等,还可是其他外部信息撷取装置,例如摄像头等。
本发明实施例所示的触摸屏,可收集用户在其上触摸或接近的操作动作。比如用户使用手指、触笔等任何适合的物体或附件在触摸屏上或接近触摸屏的位置的操作动作,并根据预先设定的程式驱动相应的连接装置。可选的,触摸屏可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸操作,并将检测到的触摸操作转换为电信号,以及将所述电信号传送给触摸控制器;触摸控制器从触摸检测装置上接收所述电信号,并将它转换成触点坐标,再送给所述处理器103。
所述触摸控制器还可以接收处理器103发来的命令并执行。此外,所述触摸屏可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触摸屏。
在本发明的其他实施方式中,所述输入单元105所采用的实体输入键可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。麦克风形式的输入单元105可以收集用户或环境输入的语音并将其转换成电信号形式的、处理器103可执行的命令。
在本发明的其他一些实施方式中,所述输入单元105还可以是各类传感器件,例如霍尔器件,用于侦测电子设备的物理量,例如力、力矩、压力、应力、位置、位移、速度、加速度、角度、角速度、转数、转速以及工作状态发生变化的时间等,转变成电量来进行检测和控制。其他的一些传感器件还可以包括重力感应计、三轴加速计、陀螺仪、电子罗盘、环境光传感器、接近传感器、温度传感器、湿度传感器、压力传感器、心率传感器、指纹识别器等。
通信单元107,用于建立通信信道,使电子设备通过所述通信信道以连接至远程服务器,并从所述远程服务器下媒体数据。所述通信单元107可以包括无线局域网(英文全称:Wireless Local Area Network,英文简称:wireless LAN)模块、蓝牙模块、基带模块等通信模块,以及所述通信模块对应的射频(英文全称:Radio Frequency,英文简称:RF)电路,用于进行无线局域网络通信、蓝牙通信、红外线通信及/或蜂窝式通信系统通信,例如宽带码分多重接入(英文全称:Wideband Code Division Multiple Access,英文简称:W-CDMA)及/或高速下行封包存取(英文全称:High Speed Downlink Packet Access,英文简称HSDPA)。所述通信模块用于控制电子设备中的各组件的通信,并且可以支持直接内存存取。
在本发明的不同实施方式中,所述通信单元107中的各种通信模块一般以集成电路芯片(英文全称:Integrated Circuit Chip)的形式出现,并可进行选择性组合,而不必包括所有通信模块及对应的天线组。例如,所述通信单元107可以仅包括基带芯片、射频芯片以及相应的天线以在一个蜂窝通信系统中提供通信功能。经由所述通信单元107建立的无线通信连接,例如无线局域网接入或WCDMA接入,所述电子设备可以连接至蜂窝网(英文全称:Cellular Network)或因特网。在本发明的一些可选实施方式中,所述通信单元107中的通信模块,例如基带模块可以集成到处理器103中,典型的如高通(Qualcomm)公司提供的APQ+MDM系列平台。
射频电路108,用于信息收发或通话过程中接收和发送信号。例如,将基站的下行信息接收后,给处理器103处理;另外,将设计上行的数据发送给基站。通常,所述射频电路108包括用于执行这些功能的公知电路,包括但不限于天线系统、射频收发机、一个或多个放大器、调谐器、一个或多个振荡器、数字信号处理器、编解码(Codec)芯片组、用户身份模块(SIM)卡、存储器等等。此外,射频电路108还可以通过无线通信与网络和其他设备通信。
所述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(英文全称:Global System of Mobile communication,英文简称:GSM)、通用分组无线服务(英文全称:General Packet Radio Service,英文简称:GPRS)、码分多址(英文全称:Code Division Multiple Access,英文简称:CDMA)、宽带码分多址(英文全称:WidebandCode Division Multiple Access,英文简称:WCDMA)、高速上行行链路分组接入技术(英文全称:High Speed Uplink Packet Access,英文简称:HSUPA)、长期演进(英文全称:LongTerm Evolution,英文简称:LTE)、电子邮件、短消息服务(英文全称:Short MessagingService,英文简称:SMS)等。
电源109,用于给电子设备的不同部件进行供电以维持其运行。作为一般性理解,所述电源109可以是内置的电池,例如常见的锂离子电池、镍氢电池等,也包括直接向电子设备供电的外接电源,例如AC适配器等。在本发明的一些实施方式中,所述电源109还可以作更为广泛的定义,例如还可以包括电源管理系统、充电系统、电源故障检测电路、电源转换器或逆变器、电源状态指示器(如发光二极管),以及与电子设备的电能生成、管理及分布相关联的其他任何组件。
基于图1所示的电子设备,以下首先结合图2所示对本实施例所提供的网页识别方法的一种实施例的执行流程进行说明,其中,图2为本发明所提供的网页识别方法的一种实施例步骤流程图。
步骤201、接收训练网页。
本实施例所示的电子设备接收用户输入的用于进行模型训练的训练网页。
具体的,所述训练网页为用户已标注的网页,更具体的,用户已标注的训练网页包括有指示标识,所述指示标识用于指示所述训练网页的预测信息。
本实施例所述训练网页的预测信息可用于指示所述训练网页为作弊网页,即所述训练网页为涉及黄赌毒的网页,或所述训练网页设置有大量的搜索关键字,但是却没有设置与搜索关键字对应的内容,所述训练网页的预测信息可用于指示所述训练网页为广告网页,或所述训练网页的预测信息可用于指示所述训练网页为广告网页、垃圾网页等。
可见,本实施例所示的电子设备在接收到包括有所述指示标识的所述训练网页即可确定出所述训练网页的预测信息。
步骤202、将所述训练网页渲染为文档对象模型树。
具体的,本实施例所示的所述电子设备的webkit浏览器引擎能够将所述训练网页渲染为文档对象模型DOM树。
所述webkit浏览器引擎是一种用来让网页浏览器绘制网页的排版引擎。
本实施例所示的DOM树理解为网页的应用程序编程接口API。DOM树将网页中的各个元素都看作一个个对象,从而使网页中的元素也可以被计算机语言获取或者编辑。例如Javascript就可以利用HTML DOM动态地修改网页。
具体的,网页渲染的主要目的就是从一个网页的URL(英文全称:UniformResource Locator,中文全称:统一资源定位符)开始,经过网页渲染的过程,变成一个可视化的结果。
为更好的理解本发明实施例,以下对训练网页渲染的过程进行说明:
如图3所示,其中,图3为本发明所提供的网页渲染过程的一种实施例流程示意图。
本实施例所示的所述训练网页渲染过程为,所述电子设备的webkit浏览器引擎接收URL输入资源,具体的,与URL输入资源可为:超级文本标记语言HTML,或层叠样式表CSS,或一种直译式脚本语言JavaScript。
所述webkit浏览器引擎能够根据URL输入资源基于训练网页渲染过程输出可视化图像。
所述webkit浏览器的HTML文本解析器301用于将HTML文本解释成DOM模型;
所述webkit浏览器的层叠样式表CSS对象解析器302用于加载并解析训练网页样式,并形成CSS对象模型。
所述webkit浏览器在DOM模型和CSS对象模型的基础之上,即可创建一颗DOM树。
本实施例所示的所述DOM树存储至所述电子设备的内存中。
以下对本实施例所示的所述DOM树的具体结构进行说明:
本实施例所示的所述DOM树包括多个节点,且位于所述DOM树中的节点彼此之间拥有层级关系。
本实施例所示的DOM树把HTML网页呈现为带有元素、属性和文本的树结构。
具体的,所述DOM树所包括的节点具体包括根节点、父节点以及子节点。
在DOM树中,顶端节点被称为根节点,除了根节点之外,每个节点都有父节点,多个同胞子节点可拥有相同的父节点。
本实施例所示的DOM树中的每个节点都拥有包含着关于节点的属性。所述节点的属性是:节点名称nodeName、节点值nodeValue以及节点类型nodeType。
步骤203、识别出所述文档对象模型树所包括的任一所述节点的属性。
具体的,本实施例所述浏览器引擎可对所述文档对象模型树进行遍历。
更具体的,所述浏览器引擎从DOM树的根节点开始检测,所述DOM树中的每个节点均被执行检查,从而识别出所述DOM树中所包括的每一个节点的属性。
本实施例所示的所述节点的属性为所述节点蕴含的信息的种类,即所述节点的属性为所述节点在所述训练网页中的所展现的视觉形式。
例如,所述节点的属性可为文本信息,即所述节点所蕴含的信息为文本信息。又如,所述节点的属性可为图片信息,即所述节点所蕴含的信息为图片信息。又如,所述节点的属性可为视频信息,即所述节点所蕴含的信息为视频信息。
可选的,本实施例所示的浏览器引擎可预先设置有标签,则所述浏览器引擎即可通过标签对DOM树进行检测。
本实施例对所述标签不做限定,只要能够识别出所述DOM树的中任一节点的属性即可。
可选的,本实施例所示的浏览器引擎可通过广度遍历的方式对所述DOM树中的每一个节点进行检测以识别出属性。
本实施例以广度遍历的方式为示例性说,具体的遍历方式不做限定,只要能够识别出所述DOM树的中任一节点的属性即可。
步骤204、根据所述节点的属性提取出所述训练网页的特征信息。
本实施例对所述训练网页的特征信息不做限定,只要所述训练网页的特征信息能够用于指示所述训练网页的预测信息即可。
即根据所述训练网页的特征信息能够确定出训练网页是否是作弊网页,是否是广告网页等。
可选的,所述训练网页的特征信息可为与文本相关的信息:如正文高度、总字数、文字总高度、文字行数、鲜艳颜色字数、鲜艳背景颜色字数、斜体字的字数、下划线字数、一共有几种文字的颜色、链接数、少于20个字符的文字行行数、光学字符识别结果、最大连续空白行高度、空白行的总高度。
可选的,所述训练网页的特征信息可为与图片相关的信息:图片大小大于预设阈值的图片的个数,图片大小小于或等于预设阈值的图片的个数,图片大小大于预设阈值的图像互换格式的个数、图片大小大于预设阈值的图像的总高度、首张图在首屏还是尾部、是否疑似作弊图片、图片格式类型、性感置信度、图片宽、图片高、近一周在所有文章出现次数。
可选的,所述训练网页的特征信息可为与视频相关的信息:视频个数、视频标题、频道、视频名、视频持续时长、视频上传时间、一个月内出现同种视频的次数,一个月内出现同种视频的天数。
步骤205、根据所述指示标识和所述训练网页的特征信息获取训练模型。
具体的,本实施例所示的浏览器引擎能够根据所述指示标识和所述训练网页的特征信息获取到用于对网页进行识别的训练模型,即通过本实施例所示的训练模型能够获取到网页的预测信息,从而根据所述网页的预测信息确定网页是否为作弊网页等。
本实施例对所述训练模型不做限定,只要所述训练模型能够根据网页输出网页的预测信息即可。
可选的,本实施例所示的所述训练模型可为逻辑回归LR模型。
步骤201至步骤205所示说明了如何对训练模型进行创建的过程,以下步骤说明了基于已创建的所述训练模型如何实现对网页的识别。
步骤206、接收网页。
本实施例所示电子设备所接收的网页为待识别的网页。
步骤207、将已接收到的所述网页渲染为文档对象模型树。
所述电子设备的浏览器引擎能够将待识别的网页渲染为文档对象模型DOM树。
本实施例所示的所述电子设备的浏览器引擎将待识别的所述网页渲染为所述DOM树的具体过程,请详见上述步骤所示的将所述训练网页渲染为DOM树的具体过程,具体在本步骤中不做赘述。
步骤208、识别出所述文档对象模型树所包括的任一所述节点的属性。
具体的,所述节点的属性为所述节点在所述网页中的所展现的视觉形式。
本实施例所示的所述浏览器引擎获取待识别网页的DOM树所包括的任一节点的属性的具体过程,请详见上述步骤所示,所述浏览器引擎获取训练网页的DOM树所包括的任一节点的属性的具体过程,具体在本步骤中不做赘述。
步骤209、根据所述节点的属性提取出所述网页的特征信息。
本实施例所示的所述浏览器引擎获取所述网页的特征信息的具体过程,请详见上述步骤所示,所述浏览器引擎获取所述训练网页的特征信息的具体过程,具体在本步骤中不做赘述。
步骤210、将所述网页的特征信息输入至预设的训练模型中以获取所述网页的预测信息。
具体的,本实施例所示的所述浏览器引擎能够将所述网页的特征信息输入至经由上述步骤训练完成的所述训练模型中,以使本实施例所示的所述训练模型能够对所述网页的特征信息进行识别以输出所述网页的预测信息。
本实施例所示的所述网页的预测信息可用于指示所述网页为作弊网页,即所述网页为涉及黄赌毒的网页,或所述网页设置有大量的搜索关键字,但是却没有设置与搜索关键字对应的内容,所述网页的预测信息可用于指示所述网页为广告网页,或所述网页的预测信息可用于指示所述网页为广告网页等。
可见,通过所述网页的预测信息即可识别出所述网页是否为作弊网页,是否为广告网页等。
本实施例对所述网页的预测信息所指示的网页的类别不做限定,本实施例以所述网页的预测信息指示出所述网页为作弊网页为例,则所述浏览器引擎即可将已识别出的所述作弊网页进行过滤。
可见,采用本实施例所示的识别方法,即便网页所包含的文本信息内容很少,则采用本实施例所示的方法能够对网页所包含的所有节点的属性进行分析,从而获取所述网页中各所述节点在所述网页中所展现的视觉形式,即在识别的过程中,引入了网页在视觉上面的特性,从而根据各节点的属性能够分析出网页的特征信息,即可将所述网页的特征信息输入至已训练完成的训练模型中,以使所述训练模型即可根据所述网页的特征信息进行识别,以识别出所述网页的预测信息,从而提升了对网页进行识别的准确性和效率,避免因文本过少而无法正确对网页进行识别的情况的出现。
基于图2所示的识别方法,以下结合图4所示对如何进一步提升网页识别效率的网页识别方法进行详细说明:
如图4所示,本实施例所提供的网页识别方法具体包括如下步骤:
步骤401、接收训练网页。
步骤402、将所述训练网页渲染为文档对象模型树。
步骤403、识别出所述文档对象模型树所包括的任一所述节点的属性。
本实施例所示的步骤401至步骤403的具体执行过程,请详见图3所示的步骤301至步骤303,具体执行过程在本实施例中不做赘述。
步骤404、创建多个具有不同类型的训练类型集合。
具体的,本实施例所示的浏览器引擎能够创建多个训练类型集合,且不同的训练类型集合具有不同的类型。
可选的,本实施例所示的所述训练类型集合所具有的类型可为文字类型、图片类型、视频类型、音频类型以及空白类型等。
本实施例对所创建的所述训练类型集合所具有的类型的说明为可选的示例,不做限定,只要通过所创建的所述训练类型集合能够准确的对所述DOM树中的各节点进行分类即可。
步骤405、将目标节点存储至所述目标训练类型集合中。
本实施例所示的所述浏览器引擎在所述文档对象模型DOM树所包括的任一所述节点中确定所述目标节点,其中,所述目标节点的属性与目标训练类型集合的类型相匹配,所述目标训练类型集合为多个所述训练类型集合中的任一训练类型集合。
例如,若所述目标训练类型集合的类型为文字类型,则与类型为文字类型的目标训练类型集合相匹配的目标节点的属性为文本信息,又如,若所述目标训练类型集合的类型为视频类型,则与类型为视频类型的目标训练类型集合相匹配的目标节点的属性为视频信息。
步骤406、判断所述目标节点是否已预先存储至数据库中,若是,则执行步骤407,若否,则执行步骤408。
具体的,本实施例所示的所述数据库用于存储所述节点以及所述节点的特征信息。
本实施例所示的节点的特征信息可为与所述节点在所述训练网页上视觉上的特征。
例如,若所述节点所具有的属性为文字,则所述节点的特征信息可为正文高度、总字数、文字总高度、文字行数、鲜艳颜色字数、鲜艳背景颜色字数、斜体字的字数、下划线字数、一共有几种文字的颜色、文字在训练网页中的面积,文字在训练网页中的位置,文字在训练网页中的层级、字体、背景、文字颜色,文字占训练网页的面积比率等信息;
又如,若所述节点所具有的属性为图片,则所述节点的特征信息可为图片在训练网页中的面积,图片在训练网页中的位置,图片在训练网页中的层级等。
需明确的是,本实施例对所述节点的特征信息所包括的具体内容不做限定,只要能够获取到位于所述目标训练类型集合中的所有所述节点的特征信息即可。
本实施例中,若所述目标节点已存储至所述数据库中,则无需重复获取所述目标节点的特征信息,若所述目标节点未存储至所述数据库中,则可执行用于获取所述目标节点的特征信息的步骤。
可见,采用本实施例所示的方法,能够避免对目标节点的特性信息的重复获取,从而进一步的提升了网页识别的效率。
步骤407、获取存储在所述数据库中的所述目标节点的特征信息。
具体的,若本实施例所示的浏览器引擎确定出所述目标节点已存储至所述数据库中,则直接获取存储在所述数据库中的所述目标节点的特征信息即可,而无需重复所述目标节点的特征信息的获取过程。
步骤408、在所述目标训练类型集合中,确定所述目标节点的特征信息。
具体的,本实施例所示的浏览器引擎在确定出所述目标节点未存储至所述数据库中,则说明所述浏览器引擎未获取过所述目标节点的特性信息,则所述浏览器引擎即可在所述目标训练类型集合中,确定所述目标节点的特征信息。
在通过步骤407或步骤408确定出所述目标节点的特征信息后,即可执行本实施例所示的步骤409。
步骤409、根据所述目标训练类型集合所包括的所有所述目标节点的特征信息确定所述目标训练类型集合的特征信息。
本实施例所创建的所述训练类型集合包括多个训练标识,不同的所述训练标识用于与所述节点所具有的不同的特征对应。
本实施例结合表1所示对所述训练类型集合进行说明:
表1
表1
如表1所示,本实施所示的所述训练标识为“特征1”、“特征2”、“特征3”、“特征4”、“特征5”以及“特征6”。
在类型为文字的目标训练类型集合中,与训练标识“特征1”对应的特征为面积,与训练标识“特征2”对应的特征为位置,具体请详见表1所示,具体不做赘述。
在类型为图片的目标训练类型集合中,与训练标识“特征1”对应的特征为面积,与训练标识“特征2”对应的特征为位置,具体请详见表1所示,具体不做赘述。
具体的,基于本实施例所示的所述目标训练类型集合,则所述浏览器引擎首先需要确定目标训练标识,所述目标训练标识为所述目标训练类型集合所包括的任一训练标识;
以表1所示为例,则所述目标训练标识可为“特征1”、“特征2”、“特征3”、“特征4”、“特征5”以及“特征6”中的任一个。
随后,根据所述目标训练标识提取出所述目标节点所具有的目标训练特征,所述目标训练特征为与所述目标训练标识对应的特征。
例如,以表1所示为例,以所述目标训练类型集合的类型为“文字”为例,则确定出所述目标训练标识“特征1”对应的特征为面积,则所述浏览器引擎即可提取位于所述目标训练类型集合内的所有所述目标节点所具有的目标训练特征,所述目标训练特征为与面积对应的特征,如正文高度、总字数、文字总高度、文字行数等。
以所述目标训练类型集合的类型为“图片”为例,则确定出所述目标训练标识“特征4”对应的特征为格式,则所述浏览器引擎即可提取位于所述目标训练类型集合内的所有所述目标节点所具有的目标训练特征,所述目标训练特征为与格式对应的特征,如图片格式类型等。
步骤410、根据各所述目标训练类型集合的特征信息提取出所述训练网页的特征信息。
本实施例所示的浏览器引擎能够获取到所有所述目标训练类型集合的特征信息,即可获取到所述训练网页的特征信息。
对根据所述目标训练类型集合以获取所述训练网页的特征信息的具体过程的说明,请详见图2所示的实施例,具体在本实施例中不做赘述。
可见,采用本实施例所示的方法,所述目标训练类型集合设置有多个训练标识和与训练标识对应的不同特征,从而使得各所述目标节点根据所述训练标识所指示的特征,对与所述训练标识对应的所述目标训练特征进行提取,即位于所述目标训练类型集合中的与各训练标识对应的特征为用于获取网页的特征信息的特征,则在获取网页的特征信息的过程中,只需要提取出所述目标节点的所述目标训练特征即可,从而避免了对目标节点不必要的特征的提取,提升了获取所述训练网页的特征信息的效率以及准确性。
步骤411、接收网页。
步骤412、将已接收到的所述网页渲染为文档对象模型树。
步骤413、识别出所述文档对象模型树所包括的任一所述节点的属性。
本实施例所示的步骤411至步骤413的具体执行过程,请详见图2所示的实施例的步骤206至步骤209所示,具体执行过程在本实施例中不做赘述。
步骤414、创建多个具有不同类型的类型集合。
具体的,本实施例所示的浏览器引擎创建所述具有不同类型的类型集合的具体过程,请详见步骤404所示的,所述浏览器引擎创建多个具有不同类型的训练类型集合的具体过程,具体在本实施例中不做赘述。
步骤415、将目标节点存储至所述目标类型集合中。
本实施例所示的所述浏览器引擎在所述文档对象模型DOM树所包括的任一所述节点中确定所述目标节点,其中,所述目标节点的属性与目标类型集合的类型相匹配,所述目标类型集合为多个所述类型集合中的任一类型集合。
例如,若所述目标类型集合的类型为文字类型,则与类型为文字类型的目标类型集合相匹配的目标节点的属性为文本信息,又如,若所述目标类型集合的类型为视频类型,则与类型为视频类型的目标类型集合相匹配的目标节点的属性为视频信息。
步骤416、判断所述目标节点是否已预先存储至数据库中,若是,则执行步骤417,若否,则执行步骤418。
步骤417、获取存储在所述数据库中的所述目标节点的特征信息。
本实施例所示的步骤416至步骤417的具体执行过程,请详见上述实施例所示的步骤406至步骤407所示,具体在本实施例中不做赘述。
步骤418、在所述目标训练集合中,确定所述目标节点的特征信息。
具体的,本实施例所示的浏览器引擎在确定出所述目标节点未存储至所述数据库中,则说明所述浏览器引擎未获取过所述目标节点的特性信息,则所述浏览器引擎即可在所述目标类型集合中,确定所述目标节点的特征信息。
在通过步骤417或步骤418确定出所述目标节点的特征信息后,即可执行本实施例所示的步骤419。
步骤419、根据所述目标类型集合所包括的所有所述目标节点的特征信息确定所述目标训练类型集合的特征信息。
本实施例所创建的所述类型集合包括多个标识,不同的所述标识用于与所述节点所具有的不同的特征对应。
如所述表1所示,本实施所示的所述标识为“特征1”、“特征2”、“特征3”、“特征4”、“特征5”以及“特征6”。
在类型为文字的目标类型集合中,与标识“特征1”对应的特征为面积,与标识“特征2”对应的特征为位置,具体请详见表1所示,具体不做赘述。
在类型为图片的目标类型集合中,与标识“特征1”对应的特征为面积,与标识“特征2”对应的特征为位置,具体请详见表1所示,具体不做赘述。
具体的,基于本实施例所示的所述目标类型集合,则所述浏览器引擎首先需要确定目标标识,所述目标标识为所述目标类型集合所包括的任一标识;
以表1所示为例,则所述目标标识可为“特征1”、“特征2”、“特征3”、“特征4”、“特征5”以及“特征6”中的任一个。
随后,根据所述目标标识提取出所述目标节点所具有的目标特征,所述目标特征为与所述目标标识对应的特征。
例如,以表1所示为例,以所述目标类型集合的类型为“文字”为例,则确定出所述目标标识“特征1”对应的特征为面积,则所述浏览器引擎即可提取位于所述目标类型集合内的所有所述目标节点所具有的目标特征,所述目标特征为与面积对应的特征,如正文高度、总字数、文字总高度、文字行数等。
以所述目标类型集合的类型为“图片”为例,则确定出所述目标标识“特征4”对应的特征为格式,则所述浏览器引擎即可提取位于所述目标类型集合内的所有所述目标节点所具有的目标特征,所述目标特征为与格式对应的特征,如图片格式类型等。
步骤420、根据各所述目标类型集合的特征信息提取出所述网页的特征信息。
本实施例所示的浏览器引擎能够获取到所有所述目标类型集合的特征信息,即可获取到所述网页的特征信息。
对根据所述目标类型集合以获取所述网页的特征信息的具体过程的说明,请详见图2所示的实施例,具体在本实施例中不做赘述。
可见,采用本实施例所示的方法,所述目标类型集合设置有多个标识和与标识对应的不同特征,从而使得各所述目标节点根据所述标识所指示的特征,对与所述标识对应的所述目标特征进行提取,即位于所述目标类型集合中的与各标识对应的特征为用于获取网页的特征信息的特征,则在获取网页的特征信息的过程中,只需要提取出所述目标节点的所述目标特征即可,从而避免了对目标节点不必要的特征的提取,提升了获取所述网页的特征信息的效率以及准确性。
为更好的理解本发明实施例所提供的网页识别方法,以下结合图5所示的对本发明实施例所提供的应用场景进行详细说明:
本实施例所示的浏览器引擎设置有网页特征提取服务模块501,所述网页特征提取服务模块501用于对网页的特征信息进行提取。
以下结合图6所示对本实施例所提供的所述网页特征提取服务模块501的数据流向进行说明:
在所述网页特征提取服务模块501中,创建数据库,本实施例所示的浏览器引擎能够离线每天统计网页的相关信息,以存储所述节点以及所述节点的特征信息。
在接收到网页的URL时,则所述述网页特征提取服务模块501即可执行加载URL,渲染所述网页以生成文档对象模型树,生成所述文档对象模型树的具体过程,请详见上述实施例所示,具体在本应用场景中不做赘述;
对所述文档对象模型树进行遍历,以识别出所述文档对象模型树所包括的任一所述节点的属性,具体执行过程,请详见上述实施例所示;
在所述目标类型集合中,确定所述目标节点的特征信息;
判断所述目标节点是否已预先存储至数据库中,若所述目标节点已存储至所述数据库中,则获取存储在所述数据库中的所述目标节点的特征信息;
若所述目标节点未存储至所述数据库中,则确定所述目标节点的特征信息;
提取出所述网页的特征信息,上述所述网页特征提取服务模块501在对网页的特征信息进行提取的具体过程,请详见上述实施例所示,具体在本应用场景中不做赘述。
所述浏览器引擎设置有模型训练模块502、所述模型训练模块502在对训练模型进行训练的过程中,所述模型训练模块502接收训练网页,所述训练网页包括用于指示所述训练网页预测信息的指示标识,对所述训练网页的具体说明请详见上述实施例所示,具体在本实施例中不做赘述。
所述模型训练模块502将所述训练网页的URL发送到所述网页特征提取服务模块501,以使被调用的所述网页特征提取服务模块501能够基于所述训练网页的URL实现对所述训练网页的特征信息的获取,具体获取过程请详见上述实施例所示。
在所述网页特征提取服务模块501获取到所述训练网页的特征信息后,所述网页特征提取服务模块501即可将所述训练网页的特征信息返回给所述模型训练模块502;
所述模型训练模块502将所述训练网页的特征信息输入至待训练后的模型中,随后即可得到训练后的所述训练模型,对所述训练模型的具体训练过程,请详见上述实施例所示,具体在本实施例中不做赘述。
所述浏览器引擎设置有网页预测模块503、所述网页预测模块503在对网页进行训练的过程中,本实施例所示的所述浏览器引擎的所述网页预测模块503能够接收到新生成的网页,在本应用场景中,可为微信端向所述浏览器引擎推送网页,所述网页预测模块503即可将微信端所推送的网页推送至本地进行存储;
所述网页预测模块503将网页的URL发送到所述网页特征提取服务模块501,以使被调用的所述网页特征提取服务模块501能够基于所述网页的URL实现对所述网页的特征信息的获取,具体获取过程请详见上述实施例所示。
在所述网页特征提取服务模块501获取到所述网页的特征信息后,所述网页特征提取服务模块501即可将所述网页的特征信息返回给所述网页预测模块503;
所述网页预测模块503将所述网页的特征信息输入至所述模型训练模块502已训练完成所述的训练模型中,并接收所述训练模型返回的预测信息;
所述网页预测模块503即可根据所述预测信息决定是否所述网页是否进入索引。
例如,若所述训练模型返回的预测信息用于指示所述网页为安全的网页,则所述浏览器引擎即可将所述网页进行设置以进入索引,以使进入到索引的所述网页能够被用户基于关键字搜索以被搜索到。
若所述训练模型返回的预测信息用于指示所述网页为不安全的网页,即所述网页为作弊网页,为垃圾网页,为广告网页等,则所述浏览器引擎即可不将所述网页进行设置以进入索引,则未进入到索引的所述网页不能够被用户搜索到。
又如,若所述网页被确定为不安全的网页,则所述浏览器引擎在本应用场景中,可对发送所述网页的公众号进行封号处理,或降低所述网页的搜索权重,即降低所述网页被搜索到的优先级等措施,具体措施在本应用场景中不做限定。
如采用现有技术所示的网页识别方法,即单纯通过网页的文本对网页进行识别的过程中,正类准确率为418/1347=0.31,负类准确率为2130/3652=0.583;
而采用本实施例所示的方法对网页进行识别的过程中,正类准确率为1478/2500=0.591,负类准确率为2038/2500=0.815。
可见,采用本实施例所示的方法,网页识别优化后准确率正类提升28%,负类提升29.8%。整体准确率有了较大的提升。
以下结合图7所示对本发明实施例所提供的电子设备的具体结构进行详细说明,具体的,本实施例所示的电子设备包括:
第一渲染单元701,用于将已接收到的网页渲染为文档对象模型树,所述文档对象模型树包括多个节点;
第一遍历单元702,用于对所述文档对象模型树进行遍历,以识别出所述文档对象模型树所包括的任一所述节点的属性,所述节点的属性为所述节点在所述网页中的所展现的视觉形式;
第一提取单元703,用于根据所述节点的属性提取出所述网页的特征信息;
第一输入单元704,用于将所述网页的特征信息输入至预设的训练模型中,以使所述训练模型对所述网页的特征信息进行识别以输出所述网页的预测信息。
可选的,所述第一提取单元703还用于:
创建多个具有不同类型的类型集合;
在所述文档对象模型树所包括的任一所述节点中确定目标节点,所述目标节点的属性与目标类型集合的类型相匹配,所述目标类型集合为多个所述类型集合中的任一类型集合;
将所述目标节点存储至所述目标类型集合中。
可选的,所述第一提取单元703在根据所述节点的属性提取出所述网页的特征信息时,还用于:
在所述目标类型集合中,确定所述目标节点的特征信息;
根据所述目标类型集合所包括的所有所述目标节点的特征信息确定所述目标类型集合的特征信息;
根据各所述目标类型集合的特征信息提取出所述网页的特征信息。
可选的,所述第一提取单元703还用于:
判断所述目标节点是否已预先存储至数据库中,所述数据库用于存储所述节点以及所述节点的特征信息;
若所述目标节点已存储至所述数据库中,则获取存储在所述数据库中的所述目标节点的特征信息;
若所述目标节点未存储至所述数据库中,则触发执行所述第一提取单元在根据所述节点的属性提取出所述网页的特征信息。
可选的,所述目标类型集合包括多个标识,不同的所述标识用于与所述目标节点所具有的不同的特征对应,则所述第一提取单元703在在根据所述目标类型集合所包括的所有所述目标节点的特征信息确定所述目标类型集合的特征信息时,还用于:
确定目标标识,所述目标标识为所述目标类型集合所包括的任一标识;
根据所述目标标识提取出所述目标节点所具有的目标特征,所述目标特征为与所述目标标识对应的特征;
根据所述目标类型集合所包括的所有所述目标特征获取所述目标类型集合的特征信息。
本实施例所示的电子设备能够实现网页识别过程,所述网页识别过程请详见上述实施例所示,具体在本实施例中不做赘述。
本实施例所示的电子设备在实现网页识别过程的有益效果,请详见上述实施例所示,具体在本实施例中不做赘述。
以下结合图8所示对本发明实施例所提供的电子设备的具体结构进行详细说明,具体的,本实施例所示的电子设备包括:
接收单元801,用于接收训练网页,所述训练网页包括指示标识,所述指示标识用于指示所述训练网页的预测信息;
第二渲染单元802,用于将所述训练网页渲染为文档对象模型树,所述文档对象模型树包括多个节点;
第二遍历单元803,用于对所述文档对象模型树进行遍历,以识别出所述文档对象模型树所包括的任一所述节点的属性,所述节点的属性为所述节点在所述训练网页中的所展现的视觉形式;
第二提取单元804,用于根据所述节点的属性提取出所述训练网页的特征信息;
第二输入单元805,用于根据所述指示标识和所述训练网页的特征信息获取训练模型,所述训练模型用于对网页进行识别。
可选的,所述第二提取单元804还用于:
创建多个具有不同类型的训练类型集合;
在所述文档对象模型树所包括的任一所述节点中确定目标节点,所述目标节点的属性与目标训练类型集合的类型相匹配,所述目标训练类型集合为多个所述训练类型集合中的任一训练类型集合;
将所述目标节点存储至所述目标训练类型集合中。
可选的,所述第二提取单元804在根据所述节点的属性提取出所述训练网页的特征信息时,还用于:
在所述目标训练类型集合中,确定所述目标节点的特征信息;
根据所述目标训练类型集合所包括的所有所述目标节点的特征信息确定所述目标训练类型集合的特征信息;
根据各所述目标训练类型集合的特征信息提取出所述训练网页的特征信息。
可选的,所述第二提取单元804还用于:
判断所述目标节点是否已预先存储至数据库中,所述数据库用于存储所述节点以及所述节点的特征信息;
若所述目标节点已存储至所述数据库中,则获取存储在所述数据库中的所述目标节点的特征信息;
若所述目标节点未存储至所述数据库中,则触发执行所述第二提取单元确定所述目标节点的特征信息的步骤。
可选的,所述目标训练类型集合包括多个训练标识,不同的所述训练标识用于与所述目标节点所具有的不同的特征对应,则所述第二提取单元804在根据所述目标训练类型集合所包括的所有所述目标节点的特征信息确定所述目标训练类型集合的特征信息时,还用于:
确定目标训练标识,所述目标训练标识为所述目标训练类型集合所包括的任一训练标识;
根据所述目标训练标识提取出所述目标节点所具有的目标训练特征,所述目标训练特征为与所述目标训练标识对应的特征;
根据所述目标训练类型集合所包括的所有所述目标训练特征获取所述目标训练类型集合的特征信息。
本实施例所示的电子设备能够执行上述实施例所示的训练模型的创建过程,所述训练模型的创建过程请详见上述实施例所示,具体在本实施例中不做赘述。
基于图1所示的电子设备,本实施例所示的所述一个或多个程序被存储在所述存储器104中,所述一个或多个程序包括指令,所述指令当被所述电子设备执行时使所述电子设备执行如上述实施例所示的网页识别方法。
基于图1所示的电子设备,所述一个或多个程序包括指令,所述指令当被电子设备执行时使所述电子设备执行如上述实施例所示的网页识别方法。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (15)

1.一种网页识别方法,其特征在于,包括:
将已接收到的网页渲染为文档对象模型树,所述文档对象模型树包括多个节点;
对所述文档对象模型树进行遍历,以识别出所述文档对象模型树所包括的任一所述节点的属性,所述节点的属性为所述节点在所述网页中的所展现的视觉形式;
根据所述节点的属性提取出所述网页的特征信息;
将所述网页的特征信息输入至预设的训练模型中,以使所述训练模型对所述网页的特征信息进行识别以输出所述网页的预测信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述节点的属性提取出所述网页的特征信息之前,所述方法还包括:
创建多个具有不同类型的类型集合;
在所述文档对象模型树所包括的任一所述节点中确定目标节点,所述目标节点的属性与目标类型集合的类型相匹配,所述目标类型集合为多个所述类型集合中的任一类型集合;
将所述目标节点存储至所述目标类型集合中。
3.根据权利要求2所述的方法,其特征在于,所述根据所述节点的属性提取出所述网页的特征信息包括:
在所述目标类型集合中,确定所述目标节点的特征信息;
根据所述目标类型集合所包括的所有所述目标节点的特征信息确定所述目标类型集合的特征信息;
根据各所述目标类型集合的特征信息提取出所述网页的特征信息。
4.根据权利要求3所述的方法,其特征在于,所述在所述目标类型集合中,确定所述目标节点的特征信息之前,所述方法包括;
判断所述目标节点是否已预先存储至数据库中,所述数据库用于存储所述节点以及所述节点的特征信息;
若所述目标节点已存储至所述数据库中,则获取存储在所述数据库中的所述目标节点的特征信息;
若所述目标节点未存储至所述数据库中,则触发执行所述确定所述目标节点的特征信息的步骤。
5.根据权利要求2至4任一项所述的方法,其特征在于,所述目标类型集合包括多个标识,不同的所述标识用于与所述目标节点所具有的不同的特征对应,所述根据所述目标类型集合所包括的所有所述目标节点的特征信息确定所述目标类型集合的特征信息包括:
确定目标标识,所述目标标识为所述目标类型集合所包括的任一标识;
根据所述目标标识提取出所述目标节点所具有的目标特征,所述目标特征为与所述目标标识对应的特征;
根据所述目标类型集合所包括的所有所述目标特征获取所述目标类型集合的特征信息。
6.一种网页识别方法,其特征在于,包括:
接收训练网页,所述训练网页包括指示标识,所述指示标识用于指示所述训练网页的预测信息;
将所述训练网页渲染为文档对象模型树,所述文档对象模型树包括多个节点;
对所述文档对象模型树进行遍历,以识别出所述文档对象模型树所包括的任一所述节点的属性,所述节点的属性为所述节点在所述训练网页中的所展现的视觉形式;
根据所述节点的属性提取出所述训练网页的特征信息;
根据所述指示标识和所述训练网页的特征信息获取训练模型,所述训练模型用于对网页进行识别。
7.根据权利要求6所述的方法,其特征在于,所述根据所述节点的属性提取出所述训练网页的特征信息之前,所述方法还包括:
创建多个具有不同类型的训练类型集合;
在所述文档对象模型树所包括的任一所述节点中确定目标节点,所述目标节点的属性与目标训练类型集合的类型相匹配,所述目标训练类型集合为多个所述训练类型集合中的任一训练类型集合;
将所述目标节点存储至所述目标训练类型集合中。
8.根据权利要求7所述的方法,其特征在于,所述根据所述节点的属性提取出所述训练网页的特征信息包括:
在所述目标训练类型集合中,确定所述目标节点的特征信息;
根据所述目标训练类型集合所包括的所有所述目标节点的特征信息确定所述目标训练类型集合的特征信息;
根据各所述目标训练类型集合的特征信息提取出所述训练网页的特征信息。
9.根据权利要求8所述的方法,其特征在于,所述在所述目标训练类型集合中,确定所述目标节点的特征信息之前,所述方法还包括:
判断所述目标节点是否已预先存储至数据库中,所述数据库用于存储所述节点以及所述节点的特征信息;
若所述目标节点已存储至所述数据库中,则获取存储在所述数据库中的所述目标节点的特征信息;
若所述目标节点未存储至所述数据库中,则触发执行所述确定所述目标节点的特征信息的步骤。
10.根据权利要求7至9任一项所述的方法,其特征在于,所述目标训练类型集合包括多个训练标识,不同的所述训练标识用于与所述目标节点所具有的不同的特征对应,所述根据所述目标训练类型集合所包括的所有所述目标节点的特征信息确定所述目标训练类型集合的特征信息包括:
确定目标训练标识,所述目标训练标识为所述目标训练类型集合所包括的任一训练标识;
根据所述目标训练标识提取出所述目标节点所具有的目标训练特征,所述目标训练特征为与所述目标训练标识对应的特征;
根据所述目标训练类型集合所包括的所有所述目标训练特征获取所述目标训练类型集合的特征信息。
11.一种电子设备,其特征在于,包括:
第一渲染单元,用于将已接收到的网页渲染为文档对象模型树,所述文档对象模型树包括多个节点;
第一遍历单元,用于对所述文档对象模型树进行遍历,以识别出所述文档对象模型树所包括的任一所述节点的属性,所述节点的属性为所述节点在所述网页中的所展现的视觉形式;
第一提取单元,用于根据所述节点的属性提取出所述网页的特征信息;
第一输入单元,用于将所述网页的特征信息输入至预设的训练模型中,以使所述训练模型对所述网页的特征信息进行识别以输出所述网页的预测信息。
12.一种电子设备,其特征在于,包括:
接收单元,用于接收训练网页,所述训练网页包括指示标识,所述指示标识用于指示所述训练网页的预测信息;
第二渲染单元,用于将所述训练网页渲染为文档对象模型树,所述文档对象模型树包括多个节点;
第二遍历单元,用于对所述文档对象模型树进行遍历,以识别出所述文档对象模型树所包括的任一所述节点的属性,所述节点的属性为所述节点在所述训练网页中的所展现的视觉形式;
第二提取单元,用于根据所述节点的属性提取出所述训练网页的特征信息;
第二输入单元,用于根据所述指示标识和所述训练网页的特征信息获取训练模型,所述训练模型用于对网页进行识别。
13.一种电子设备,其特征在于,包括:
一个或多个处理器、存储器、总线系统、以及一个或多个程序,所述处理器和所述存储器通过所述总线系统相连;
其中所述一个或多个程序被存储在所述存储器中,所述一个或多个程序包括指令,所述指令当被所述电子设备执行时使所述电子设备执行如权利要求1至5任一项所述的方法。
14.一种存储一个或多个程序的计算机可读存储介质,其特征在于,所述一个或多个程序包括指令,所述指令当被电子设备执行时使所述电子设备执行如权利要求1至5任一项所述的方法。
15.一种电子设备,其特征在于,包括:
一个或多个处理器、存储器、总线系统、以及一个或多个程序,所述处理器和所述存储器通过所述总线系统相连;
其中所述一个或多个程序被存储在所述存储器中,所述一个或多个程序包括指令,所述指令当被所述电子设备执行时使所述电子设备执行如权利要求6至10任一项所述的方法。
CN201710308227.6A 2017-05-04 2017-05-04 一种网页识别方法以及电子设备 Active CN108804469B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710308227.6A CN108804469B (zh) 2017-05-04 2017-05-04 一种网页识别方法以及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710308227.6A CN108804469B (zh) 2017-05-04 2017-05-04 一种网页识别方法以及电子设备

Publications (2)

Publication Number Publication Date
CN108804469A true CN108804469A (zh) 2018-11-13
CN108804469B CN108804469B (zh) 2021-10-29

Family

ID=64054586

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710308227.6A Active CN108804469B (zh) 2017-05-04 2017-05-04 一种网页识别方法以及电子设备

Country Status (1)

Country Link
CN (1) CN108804469B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109901869A (zh) * 2019-01-25 2019-06-18 中国电子科技集团公司第三十研究所 一种基于词袋模型的计算机程序分类方法
CN110222319A (zh) * 2019-06-19 2019-09-10 北京百度网讯科技有限公司 用于挖掘数据的方法和装置
CN111381909A (zh) * 2018-12-27 2020-07-07 北京字节跳动网络技术有限公司 一种页面展示方法、装置、终端设备及存储介质
CN112395527A (zh) * 2019-08-13 2021-02-23 腾讯科技(武汉)有限公司 一种网页连接识别方法、装置及存储介质
CN114218516A (zh) * 2021-12-27 2022-03-22 北京百度网讯科技有限公司 网页处理方法、装置、电子设备以及存储介质
CN116049597A (zh) * 2023-01-10 2023-05-02 北京百度网讯科技有限公司 网页的多任务模型的预训练方法、装置及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101826105A (zh) * 2010-04-02 2010-09-08 南京邮电大学 基于匈牙利匹配算法的钓鱼网页检测方法
CN102650999A (zh) * 2011-02-28 2012-08-29 株式会社理光 一种从网页中抽取对象属性值信息的方法和系统
CN102662959A (zh) * 2012-03-07 2012-09-12 南京邮电大学 利用空间混合索引机制检测钓鱼网页的方法
CN104462540A (zh) * 2014-12-24 2015-03-25 中国科学院声学研究所 网页信息抽取方法
CN104809125A (zh) * 2014-01-24 2015-07-29 腾讯科技(深圳)有限公司 一种网页类别的识别方法和装置
US20160381077A1 (en) * 2014-11-04 2016-12-29 Patternex, Inc. Method and apparatus for identifying and detecting threats to an enterprise or e-commerce system
CN106354836A (zh) * 2016-08-31 2017-01-25 南威软件股份有限公司 一种广告页面的预测方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101826105A (zh) * 2010-04-02 2010-09-08 南京邮电大学 基于匈牙利匹配算法的钓鱼网页检测方法
CN102650999A (zh) * 2011-02-28 2012-08-29 株式会社理光 一种从网页中抽取对象属性值信息的方法和系统
CN102662959A (zh) * 2012-03-07 2012-09-12 南京邮电大学 利用空间混合索引机制检测钓鱼网页的方法
CN104809125A (zh) * 2014-01-24 2015-07-29 腾讯科技(深圳)有限公司 一种网页类别的识别方法和装置
US20160381077A1 (en) * 2014-11-04 2016-12-29 Patternex, Inc. Method and apparatus for identifying and detecting threats to an enterprise or e-commerce system
CN104462540A (zh) * 2014-12-24 2015-03-25 中国科学院声学研究所 网页信息抽取方法
CN106354836A (zh) * 2016-08-31 2017-01-25 南威软件股份有限公司 一种广告页面的预测方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
谢方立: "基于节点类型标注的网页主题信息提取技术研究", 《万方在线出版》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111381909A (zh) * 2018-12-27 2020-07-07 北京字节跳动网络技术有限公司 一种页面展示方法、装置、终端设备及存储介质
CN109901869A (zh) * 2019-01-25 2019-06-18 中国电子科技集团公司第三十研究所 一种基于词袋模型的计算机程序分类方法
CN109901869B (zh) * 2019-01-25 2022-03-18 中国电子科技集团公司第三十研究所 一种基于词袋模型的计算机程序分类方法
CN110222319A (zh) * 2019-06-19 2019-09-10 北京百度网讯科技有限公司 用于挖掘数据的方法和装置
CN112395527A (zh) * 2019-08-13 2021-02-23 腾讯科技(武汉)有限公司 一种网页连接识别方法、装置及存储介质
CN112395527B (zh) * 2019-08-13 2022-07-08 腾讯科技(武汉)有限公司 一种网页连接识别方法、装置及存储介质
CN114218516A (zh) * 2021-12-27 2022-03-22 北京百度网讯科技有限公司 网页处理方法、装置、电子设备以及存储介质
CN114218516B (zh) * 2021-12-27 2023-03-10 北京百度网讯科技有限公司 网页处理方法、装置、电子设备以及存储介质
CN116049597A (zh) * 2023-01-10 2023-05-02 北京百度网讯科技有限公司 网页的多任务模型的预训练方法、装置及电子设备
CN116049597B (zh) * 2023-01-10 2024-04-19 北京百度网讯科技有限公司 网页的多任务模型的预训练方法、装置及电子设备

Also Published As

Publication number Publication date
CN108804469B (zh) 2021-10-29

Similar Documents

Publication Publication Date Title
CN108804469A (zh) 一种网页识别方法以及电子设备
CN106155686B (zh) 界面生成方法、装置和系统
CN106730827B (zh) 一种对象显示的方法以及终端设备
CN103959282B (zh) 用于文本识别系统的选择性反馈
US8468145B2 (en) Indexing of URLs with fragments
CN107491383A (zh) 应用崩溃操作日志的捕获方法、装置及移动终端
US10719791B2 (en) Topic-based place of interest discovery feed
CN111488186B (zh) 数据处理方法、装置、电子设备及计算机存储介质
CN112528616B (zh) 业务表单生成方法、装置、电子设备及计算机存储介质
CN111310693A (zh) 图像中文本的智能标注方法、装置及存储介质
CN111240669B (zh) 界面生成方法、装置、电子设备及计算机存储介质
US20140380191A1 (en) Method and apparatus for design review collaboration across multiple platforms
CN106951495A (zh) 用于呈现信息的方法和装置
CN103927309A (zh) 一种对业务对象标注信息标签的方法及装置
US20140245119A1 (en) Automatic Creation of Multiple Rows in a Table
CN103491116A (zh) 正文相关的结构化数据的处理方法及装置
CN103838862A (zh) 一种视频搜索的方法、装置及终端
Feng et al. Gallery dc: Auto-created gui component gallery for design search and knowledge discovery
CN114398138B (zh) 界面生成方法、装置、计算机设备和存储介质
CN107423291A (zh) 一种数据翻译方法以及客户端设备
CN108255895A (zh) 一种使用上下文环境规则的网页数据获取方法
CN108133029B (zh) 地图元素的调整方法、装置、设备及计算机可读存储介质
CN116954414A (zh) 信息显示方法、装置、电子设备、存储介质及程序产品
CN109948015B (zh) 一种元搜索列表结果抽取方法及系统
Chai et al. Amex: Android multi-annotation expo dataset for mobile gui agents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant