CN113836899A - 一种网页识别方法、装置及电子设备和存储介质 - Google Patents

一种网页识别方法、装置及电子设备和存储介质 Download PDF

Info

Publication number
CN113836899A
CN113836899A CN202111137046.4A CN202111137046A CN113836899A CN 113836899 A CN113836899 A CN 113836899A CN 202111137046 A CN202111137046 A CN 202111137046A CN 113836899 A CN113836899 A CN 113836899A
Authority
CN
China
Prior art keywords
target
webpage
text content
type
html text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111137046.4A
Other languages
English (en)
Inventor
王晓波
位凯志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN202111137046.4A priority Critical patent/CN113836899A/zh
Publication of CN113836899A publication Critical patent/CN113836899A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/221Parsing markup language streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种网页识别方法、装置及一种电子设备和计算机可读存储介质,该方法包括:确定目标网页类型和所述目标网页类型对应的目标匹配规则;其中,所述目标匹配规则为基于关键字进行匹配的规则;获取目标网页的HTML文本内容,并利用所述目标匹配规则对所述HTML文本内容进行匹配;若所述HTML文本内容命中所述目标匹配规则,则判定所述目标网页符合所述目标网页类型。由此可见,本申请提供的网页识别方法,使用匹配规则判断目标网页是否符合目标网页类型,提高了页面识别的速度和准确度。

Description

一种网页识别方法、装置及电子设备和存储介质
技术领域
本申请涉及计算机技术领域,更具体地说,涉及一种网页识别方法、装置及一种电子设备和一种计算机可读存储介质。
背景技术
在web账号审计中,网页类型的识别十分重要。在相关技术中,根据HTML文本采用传统机器学习或者NLP(自然语言处理技术)识别,传统的机器学习方法包括但不局限于Han和Textcnn模型,NLP技术主要包含基于Bert的文本分类。但是,上述方案在面对大量的url网站时,处理的速度较慢或者准确率不好,无法满足实际的应用需求。
因此,如何提高页面识别的速度和准确度是本领域技术人员需要解决的技术问题。
发明内容
本申请的目的在于提供一种网页识别方法、装置及一种电子设备和一种计算机可读存储介质,提高了页面识别的速度和准确度。
为实现上述目的,本申请提供了一种网页识别方法,包括:
确定目标网页类型和所述目标网页类型对应的目标匹配规则;其中,所述目标匹配规则为基于关键字进行匹配的规则;
获取目标网页的HTML文本内容,并利用所述目标匹配规则对所述HTML文本内容进行匹配;
若所述HTML文本内容命中所述目标匹配规则,则判定所述目标网页符合所述目标网页类型。
其中,所述获取目标网页的HTML文本内容,包括:
根据所述目标网页的地址获取HTML文件,并对所述HTML文件进行文本处理得到HTML文本内容。
其中,若所述HTML文本内容包含与所述目标网页类型的功能相关的目标关键字,则所述HTML文本内容命中所述目标匹配规则。
其中,若所述HTML文本内容包括预设标签,且所述预设标签对应的内容包含预设属性,且所述预设属性为目标关键字,则所述HTML文本内容命中所述目标匹配规则;其中,所述目标关键字为与所述目标网页类型的功能相关的关键字。
其中,所述目标网页类型包括登录类型。
为实现上述目的,本申请提供了一种网页识别装置,包括:
确定模块,用于确定目标网页类型和所述目标网页类型对应的目标匹配规则;其中,所述目标匹配规则为基于关键字进行匹配的规则;
匹配模块,用于获取目标网页的HTML文本内容,并利用所述目标匹配规则对所述HTML文本内容进行匹配;
判定模块,用于当所述HTML文本内容命中所述目标匹配规则时,判定所述目标网页符合所述目标网页类型。
其中,所述判定模块具体为当所述HTML文本内容包含与所述目标网页类型的功能相关的目标关键字时,判定所述目标网页符合所述目标网页类型的模块。
其中,所述判定模块具体为当所述HTML文本内容包括预设标签,且所述预设标签对应的内容包含预设属性,且所述预设属性为目标关键字时,判定所述目标网页符合所述目标网页类型的模块;其中,所述目标关键字为与所述目标网页类型的功能相关的关键字。
为实现上述目的,本申请提供了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述网页识别方法的步骤。
为实现上述目的,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述网页识别方法的步骤。
通过以上方案可知,本申请提供的一种网页识别方法,包括:确定目标网页类型和所述目标网页类型对应的目标匹配规则;其中,所述目标匹配规则为基于关键字进行匹配的规则;获取目标网页的HTML文本内容,并利用所述目标匹配规则对所述HTML文本内容进行匹配;若所述HTML文本内容命中所述目标匹配规则,则判定所述目标网页符合所述目标网页类型。
本申请提供的网页识别方法,针对不同的网页类型设计了不同的匹配规则,若目标网页的HTML文本内容命中某一条目标网页类型对应的目标匹配规则,则判定目标网页符合目标网页类型。由此可见,本申请提供的网页识别方法,使用匹配规则判断目标网页是否符合目标网页类型,提高了页面识别的速度和准确度。本申请还公开了一种网页识别装置及一种电子设备和一种计算机可读存储介质,同样能实现上述技术效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1为根据一示例性实施例示出的一种网页识别方法的流程图;
图2为根据一示例性实施例示出的一种网页识别装置的结构图;
图3为根据一示例性实施例示出的一种电子设备的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。另外,在本申请实施例中,“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例公开了一种网页识别方法,提高了页面识别的速度和准确度。
参见图1,根据一示例性实施例示出的一种网页识别方法的流程图,如图1所示,包括:
S101:确定目标网页类型和所述目标网页类型对应的目标匹配规则;其中,所述目标匹配规则为基于关键字进行匹配的规则;
本实施例的目的为识别目标网页是否符合目标网页类型。具体的,本实施例针对不同的网页类型设计了不同的匹配规则,若目标网页的HTML文本内容命中某一条目标网页类型对应的目标匹配规则,则判定目标网页符合目标网页类型。
在本步骤中,首先确定需要识别的目标网页类型,可以包括登录类型等,在此不进行具体限定。其次确定目标网页类型对应的目标匹配规则,针对不同网页类型的不同功能在HTML文本内容中的不同表现进行对应匹配规则的设计。HTML(超文本标记语言)是一种包括一系列标签的标记语言,通过这些标签可以将网络上的文档格式统一,使分散的网络资源连接为一个逻辑整体。
S102:获取目标网页的HTML文本内容,并利用所述目标匹配规则对所述HTML文本内容进行匹配;
在本步骤中,首先获取待识别的目标网页的HTML文本内容。作为一种可行的实施方式,所述获取目标网页的HTML文本内容,包括:根据所述目标网页的地址获取HTML文件,并对所述HTML文件进行文本处理得到HTML文本内容。在具体实施中,根据目标网站的URL地址爬取目标网页的HTML文件,HTML文件是由HTML命令组成的描述性文本,HTML命令可以说明文字,图形、动画、声音、表格、链接等。对爬取到的HTML文件进行文本处理,从其中获得HTML文本内容。
其次,利用目标网页类型对应的目标匹配规则对HTML文本内容进行匹配,判断HTML文本内容是否命中某一条或某几条目标匹配规则。在具体实施中,若目标网页类型对应的多条目标目标匹配规则,可以在HTML文本内容命中某一条目标匹配规则就完成匹配操作,也可以将每条目标匹配规则依次与对HTML文本内容进行匹配,确定HTML文本内容命中的所有目标匹配规则,本实施例不进行具体限定。
S103:若所述HTML文本内容命中所述目标匹配规则,则判定所述目标网页符合所述目标网页类型。
在具体实施中,若目标网页的HTML文本内容命中某一条目标网页类型对应的目标匹配规则,则判定目标网页符合目标网页类型。
作为一种可行的实施方式,若所述HTML文本内容包含与所述目标网页类型的功能相关的目标关键字,则所述HTML文本内容命中所述目标匹配规则。在具体实施中,目标匹配规则包括与目标网页类型的功能相关的目标关键字,目标网页的HTML文本内容命中目标匹配规则,说明HTML文本内容包含上述目标关键字,判定目标网页符合目标网页类型。
作为另一种可行的实施方式,若所述HTML文本内容包括预设标签,且所述预设标签对应的内容包含预设属性,且所述预设属性为目标关键字,则所述HTML文本内容命中所述目标匹配规则;其中,所述目标关键字为与所述目标网页类型的功能相关的关键字。在具体实施中,目标匹配规则包括预设标签、预设属性和与目标网页类型的功能相关的目标关键字,目标网页的HTML文本内容命中目标匹配规则,说明HTML文本内容包含上述预设标签,且该预设标签对应的内容包含预设属性,且该预设属性为目标关键字,判定目标网页符合目标网页类型。
若所述目标网页类型为登录类型,则对应的目标匹配规则可以包括如下几种情况:
规则1:若HTML文本内容包括input标签,且input标签对应的内容包含type属性,且type属性为password,则HTML文本内容命中目标匹配规则。
在具体实施中,对HTML文本内容关键词进行关键词匹配,若匹配到input关键词,说明其input标签。若存在“type=password”的语句,其中password不用区分大小写,则判定是登录页面。
规则2:若HTML文本内容包括input标签、且input标签对应的内容包含ltype属性,且ltype属性为password,则HTML文本内容命中目标匹配规则;
在具体实施中,对HTML文本内容关键词进行关键词匹配,若匹配到input关键词,说明其input标签。若存在“ltype=password”的语句,其中password不用区分大小写,则判定是登录页面。
规则3:若HTML文本内容包括input标签,且input标签对应的内容包含type属性和value属性,且type属性为submit、value属性为登录,则HTML文本内容命中目标匹配规则;
在具体实施中,对HTML文本内容关键词进行关键词匹配,若匹配到input关键词,说明其input标签。若存在“type=submit”和“value=登录”的语句,其中submit不用区分大小写,登录不用区分中间是否有空格,则判定是登录页面。
规则4:若HTML文本内容包括input标签,且input标签对应的内容包含type属性和id属性,且type属性为submit、id属性为signin,则HTML文本内容命中目标匹配规则;
在具体实施中,对HTML文本内容关键词进行关键词匹配,若匹配到input关键词,说明其input标签。若存在“type=submit”和“id=signin”的语句,其中submit和signin不用区分大小写,则判定是登录页面。
规则5:若HTML文本内容包括input标签,且input标签对应的内容包含class属性、type属性和value属性,且class属性为login、type属性为submit、value属性为获取或reset,则HTML文本内容命中目标匹配规则;
在具体实施中,对HTML文本内容关键词进行关键词匹配,若匹配到input关键词,说明其input标签。若存在“class=login”和“type=submit”的语句,并且存在“value=获取”或“value=reset”的语句,其中login、submit和reset不用区分大小写,获取不用区分中间是否有空格,则判定是登录页面。
规则6:若HTML文本内容包括input标签,且input标签对应的内容包含id属性、name属性和placeholder属性,且id属性为password、name属性为password、placeholder属性为密码,则HTML文本内容命中目标匹配规则;
在具体实施中,对HTML文本内容关键词进行关键词匹配,若匹配到input关键词,说明其input标签。若存在“id=password”、“name=password”和“placeholder=密码”的语句,其中password不用区分大小写,密码不用区分中间是否有空格,则判定是登录页面。
规则7:若HTML文本内容包括input标签,且input标签对应的内容包含id属性和class属性,且id属性为password、class属性为password,则HTML文本内容命中目标匹配规则。
在具体实施中,对HTML文本内容关键词进行关键词匹配,若匹配到input关键词,说明其input标签。若存在“id=password”和“class=password”的语句,其中password不用区分大小写,则判定是登录页面。
规则8:若HTML文本内容包括button标签,且button标签对应的内容包含type属性和class属性且type属性为submit、class属性为login,则HTML文本内容命中目标匹配规则;
在具体实施中,对HTML文本内容关键词进行关键词匹配,若匹配到button关键词,说明其button标签。若存在“type=submit”和“class=login”的语句,其中submit和login不用区分大小写,则判定是登录页面。
规则9:若HTML文本内容包括button标签,且button标签对应的内容包含type属性和span属性且type属性为submit、span属性为登录,则HTML文本内容命中目标匹配规则。
在具体实施中,对HTML文本内容关键词进行关键词匹配,若匹配到button关键词,说明其button标签。若存在“type=submit”和“span=登录”的语句,其中submit和login不用区分大小写,登录不用区分中间是否有空格,则判定是登录页面。
在实际测试过程中,对于一个具体的测试数据集,总共32665个样本,其中登录页面13558个样本,非登录页面19107个样本,测试结果如表1所示:
表1
正报率 漏报率 处理速度(每秒处理页面数量)
传统机器学习 100% 24.54% 100+
NLP技术 99.27% 2.7% 60+
匹配规则 99.45% 2.46% 300+
可见,本实施例基于匹配规则的登录页面识别方法,在处理速度和准确率上得到了权衡,速度每秒可处理300+的数量,正报率可高达99%,漏报率可控制在3%以内,准确率和处理速度相对于相关技术显著提高。
本申请实施例提供的网页识别方法,针对不同的网页类型设计了不同的匹配规则,若目标网页的HTML文本内容命中某一条目标网页类型对应的目标匹配规则,则判定目标网页符合目标网页类型。由此可见,本申请实施例提供的网页识别方法,使用匹配规则判断目标网页是否符合目标网页类型,提高了页面识别的速度和准确度。
下面对本申请实施例提供的一种网页识别装置进行介绍,下文描述的一种网页识别装置与上文描述的一种网页识别方法可以相互参照。
参见图2,根据一示例性实施例示出的一种网页识别装置的结构图,如图2所示,包括:
确定模块201,用于确定目标网页类型和所述目标网页类型对应的目标匹配规则;其中,所述目标匹配规则为基于关键字进行匹配的规则;
匹配模块202,用于获取目标网页的HTML文本内容,并利用所述目标匹配规则对所述HTML文本内容进行匹配;
判定模块203,用于当所述HTML文本内容命中所述目标匹配规则时,判定所述目标网页符合所述目标网页类型。
本申请实施例提供的网页识别装置,针对不同的网页类型设计了不同的匹配规则,若目标网页的HTML文本内容命中某一条目标网页类型对应的目标匹配规则,则判定目标网页符合目标网页类型。由此可见,本申请实施例提供的网页识别装置,使用匹配规则判断目标网页是否符合目标网页类型,提高了页面识别的速度和准确度。
在上述实施例的基础上,作为一种优选实施方式,所述匹配模块202包括:
获取单元,用于根据所述目标网页的地址获取HTML文件,并对所述HTML文件进行文本处理得到HTML文本内容;
匹配单元,用于利用所述目标匹配规则对所述HTML文本内容进行匹配的模块。
在上述实施例的基础上,作为一种优选实施方式,所述判定模块203具体为当所述HTML文本内容包含与所述目标网页类型的功能相关的目标关键字时,判定所述目标网页符合所述目标网页类型的模块。
在上述实施例的基础上,作为一种优选实施方式,所述判定模块203具体为当所述HTML文本内容包括预设标签,且所述预设标签对应的内容包含预设属性,且所述预设属性为目标关键字时,判定所述目标网页符合所述目标网页类型的模块;其中,所述目标关键字为与所述目标网页类型的功能相关的关键字。
在上述实施例的基础上,作为一种优选实施方式,所述目标网页类型包括登录类型。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
基于上述程序模块的硬件实现,且为了实现本申请实施例的方法,本申请实施例还提供了一种电子设备,图3为根据一示例性实施例示出的一种电子设备的结构图,如图3所示,电子设备包括:
通信接口1,能够与其它设备比如网络设备等进行信息交互;
处理器2,与通信接口1连接,以实现与其它设备进行信息交互,用于运行计算机程序时,执行上述一个或多个技术方案提供的网页识别方法。而所述计算机程序存储在存储器3上。
当然,实际应用时,电子设备中的各个组件通过总线系统4耦合在一起。可理解,总线系统4用于实现这些组件之间的连接通信。总线系统4除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图3中将各种总线都标为总线系统4。
本申请实施例中的存储器3用于存储各种类型的数据以支持电子设备的操作。这些数据的示例包括:用于在电子设备上操作的任何计算机程序。
可以理解,存储器3可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random AccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本申请实施例描述的存储器2旨在包括但不限于这些和任意其它适合类型的存储器。
上述本申请实施例揭示的方法可以应用于处理器2中,或者由处理器2实现。处理器2可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器2中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器2可以是通用处理器、DSP,或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器2可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器3,处理器2读取存储器3中的程序,结合其硬件完成前述方法的步骤。
处理器2执行所述程序时实现本申请实施例的各个方法中的相应流程,为了简洁,在此不再赘述。
在示例性实施例中,本申请实施例还提供了一种存储介质,即计算机存储介质,具体为计算机可读存储介质,例如包括存储计算机程序的存储器3,上述计算机程序可由处理器2执行,以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种网页识别方法,其特征在于,包括:
确定目标网页类型和所述目标网页类型对应的目标匹配规则;其中,所述目标匹配规则为基于关键字进行匹配的规则;
获取目标网页的HTML文本内容,并利用所述目标匹配规则对所述HTML文本内容进行匹配;
若所述HTML文本内容命中所述目标匹配规则,则判定所述目标网页符合所述目标网页类型。
2.根据权利要求1所述登录网页识别方法,其特征在于,所述获取目标网页的HTML文本内容,包括:
根据所述目标网页的地址获取HTML文件,并对所述HTML文件进行文本处理得到HTML文本内容。
3.根据权利要求1所述登录网页识别方法,其特征在于,若所述HTML文本内容包含与所述目标网页类型的功能相关的目标关键字,则所述HTML文本内容命中所述目标匹配规则。
4.根据权利要求1所述登录网页识别方法,其特征在于,若所述HTML文本内容包括预设标签,且所述预设标签对应的内容包含预设属性,且所述预设属性为目标关键字,则所述HTML文本内容命中所述目标匹配规则;其中,所述目标关键字为与所述目标网页类型的功能相关的关键字。
5.根据权利要求1所述登录网页识别方法,其特征在于,所述目标网页类型包括登录类型。
6.一种网页识别装置,其特征在于,包括:
确定模块,用于确定目标网页类型和所述目标网页类型对应的目标匹配规则;其中,所述目标匹配规则为基于关键字进行匹配的规则;
匹配模块,用于获取目标网页的HTML文本内容,并利用所述目标匹配规则对所述HTML文本内容进行匹配;
判定模块,用于当所述HTML文本内容命中所述目标匹配规则时,判定所述目标网页符合所述目标网页类型。
7.根据权利要求6所述网页识别装置,其特征在于,所述判定模块具体为当所述HTML文本内容包含与所述目标网页类型的功能相关的目标关键字时,判定所述目标网页符合所述目标网页类型的模块。
8.根据权利要求6所述网页识别装置,其特征在于,所述判定模块具体为当所述HTML文本内容包括预设标签,且所述预设标签对应的内容包含预设属性,且所述预设属性为目标关键字时,判定所述目标网页符合所述目标网页类型的模块;其中,所述目标关键字为与所述目标网页类型的功能相关的关键字。
9.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至5任一项所述网页识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述网页识别方法的步骤。
CN202111137046.4A 2021-09-27 2021-09-27 一种网页识别方法、装置及电子设备和存储介质 Pending CN113836899A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111137046.4A CN113836899A (zh) 2021-09-27 2021-09-27 一种网页识别方法、装置及电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111137046.4A CN113836899A (zh) 2021-09-27 2021-09-27 一种网页识别方法、装置及电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN113836899A true CN113836899A (zh) 2021-12-24

Family

ID=78970955

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111137046.4A Pending CN113836899A (zh) 2021-09-27 2021-09-27 一种网页识别方法、装置及电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113836899A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115333858A (zh) * 2022-10-11 2022-11-11 北京华云安信息技术有限公司 登录页面破解方法、装置、设备以及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110650110A (zh) * 2018-06-26 2020-01-03 深信服科技股份有限公司 一种登录页面识别方法及相关设备
CN110781925A (zh) * 2019-09-29 2020-02-11 支付宝(杭州)信息技术有限公司 软件页面的分类方法、装置、电子设备及存储介质
CN113297525A (zh) * 2021-06-17 2021-08-24 恒安嘉新(北京)科技股份公司 网页分类方法、装置、电子设备、及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110650110A (zh) * 2018-06-26 2020-01-03 深信服科技股份有限公司 一种登录页面识别方法及相关设备
CN110781925A (zh) * 2019-09-29 2020-02-11 支付宝(杭州)信息技术有限公司 软件页面的分类方法、装置、电子设备及存储介质
CN113297525A (zh) * 2021-06-17 2021-08-24 恒安嘉新(北京)科技股份公司 网页分类方法、装置、电子设备、及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115333858A (zh) * 2022-10-11 2022-11-11 北京华云安信息技术有限公司 登录页面破解方法、装置、设备以及存储介质

Similar Documents

Publication Publication Date Title
CN109190110B (zh) 一种命名实体识别模型的训练方法、系统及电子设备
CN113110988B (zh) 利用定义的输入格式来测试应用
CN112860841B (zh) 一种文本情感分析方法、装置、设备及存储介质
CN102262765B (zh) 一种发布商品信息的方法及装置
CN110602045B (zh) 一种基于特征融合和机器学习的恶意网页识别方法
US9514113B1 (en) Methods for automatic footnote generation
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN110263155B (zh) 数据分类方法、数据分类模型的训练方法及系统
US8676791B2 (en) Apparatus and methods for providing assistance in detecting mistranslation
CN111506595B (zh) 一种数据查询方法、系统及相关设备
JP7254925B2 (ja) 改良されたデータマッチングのためのデータレコードの字訳
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN1987847A (zh) 用于验证文档中的统一资源定位符的方法和装置
CN113836899A (zh) 一种网页识别方法、装置及电子设备和存储介质
CN106095674A (zh) 一种网站自动化测试方法和装置
CN111339457A (zh) 用于从网页抽取信息的方法和设备及存储介质
WO2021183661A1 (en) Search engine optimization test tool
CN111125704B (zh) 一种网页挂马识别方法及系统
KR102299525B1 (ko) 제품 평가 마이닝 방법 및 이를 수행하는 장치
CN109902309B (zh) 翻译方法、装置、设备和存储介质
CN104281671A (zh) 一种对搜索结果的详情页进行处理的方法和装置
CN111754352A (zh) 一种观点语句正确性的判断方法、装置、设备和存储介质
CN116860311A (zh) 脚本分析方法、装置、计算机设备及存储介质
CN114528811B (zh) 文章内容抽取方法、装置、设备及存储介质
CN111949916B (zh) 一种网页分析方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination