CN116248375B

CN116248375B - 一种网页登录实体识别方法、装置、设备和存储介质

Info

Publication number: CN116248375B
Application number: CN202310118909.6A
Authority: CN
Inventors: 王广清; 方铁城; 申彦龙; 刘颖; 陈宇翀; 郝堃; 周树杰; 刘嫣
Original assignee: Beijing Gas Group Co Ltd
Current assignee: Beijing Gas Group Co Ltd
Priority date: 2023-02-01
Filing date: 2023-02-01
Publication date: 2023-12-15
Anticipated expiration: 2043-02-01
Also published as: CN116248375A

Abstract

本发明提供了一种网页登录实体识别方法、装置、设备和存储介质，所述方法包括：抽取登录实体模板构建登录实体模板库；利用登录实体模板库框定候选网页标签集中与登录实体模板重合的网页标签序列；结合上下文特征对框定的网页标签序列进行特征提取，得到登录实体特征；将登录实体特征输入训练好的Bayes识别模型中，通过Bayes识别模型估计网页中登录实体类别在网页标签中的概率分布，选择概率值最大的登录实体类别最为最终的识别结果。本发明基于登录实体模板可以排除与登录实体识别不相关的网页标签，减少了大量的冗余信息，使得登录实体的识别速度提高；在登录实体识别过程中充分利用了网页标签的上下文特征信息，有效的提高了模型的识别效果。

Description

一种网页登录实体识别方法、装置、设备和存储介质

技术领域

本发明涉及网页登录实体识别技术领域，具体涉及一种网页登录实体识别方法、装置设备和存储介质。

背景技术

网页登录实体是一类重要的攻击面，它是网站自动化渗透测试过程不可缺少的一个环节。登录实体识别技术用来识别目标网页中登录相关的网页标签，进而抽取登录相关信息进行自动登录。具体的登录实体包括用户名、密码、验证码登录、验证码图片、登录这5类实体及登录token标签。

传统识别方法主要针对不同的登录实体的特征，相对独立的从特征类型的网页标签提取登录实体识别中依赖的多出关键位置信息，然后根据不同的登录实体设计各种规则、特征，最后判断某种登录实体的关键特征是否存在于信息中，根据具体识别技术返回识别的结果，但传统识别方法依然存在有待改进的地方。传统登录实体识别由于无法确定哪些网页标签对待识别的登录实体有帮助，往往会保留大量的网页标签用来获取特征，这种半规则化的网页数据对特征的设计带来了很大困难，往往导致大量的冗余特征，使得登录实体的识别成本提高。由于网页标签信息的不确定性，在识别登录实体时无法规整所有登录入口相关信息作为单个登录实体的识别特征，这导致登录实体的识别正确率降低。

发明内容

鉴于上述问题，本发明实施例一种网页登录实体识别方法及装置，解决现有的技术问题。

为解决上述技术问题，本发明提供以下技术方案：

第一方面，本发明提供一种网页登录实体识别方法，所述方法包括：

抽取登录实体模板构建登录实体模板库；

利用登录实体模板库框定候选网页标签集中与登录实体模板重合的网页标签序列；

结合上下文特征对框定的网页标签序列进行特征提取，得到登录实体特征；

将登录实体特征输入训练好的Bayes识别模型中，通过Bayes识别模型估计网页中登录实体类别在网页标签中的概率分布，选择概率值最大的登录实体类别最为最终的识别结果。

一实施例中，所述抽取登录实体模板构建登录实体模板库包括：

在网页Dom Tree序列化时优先遍历根节点对应的网页标签，得到网页标签序列；

以password网页标签为中心统计网页标签序列；

对不同网络标签序列依据出现频次降序排列；

采用人工标注的方式依次排除每个网页标签序列中与登录实体不相关的网页标签，得到登录实体模板；

将全部登录实体模板保存，得到登录实体模板库。

一实施例中，所述利用登录实体模板库框定候选网页标签集中与登录实体模板重合的网页标签序列包括：

统计不同网页标签类型序列，得到不同登录模式的候选网页标签序列集合；

筛选各个不同登录模式中最长的网页标签序列与登录实体模板库中的登录实体模板对照，选择与登录实体模板重合的部分，排除与登录实体识别不相关的网页标签。

一实施例中，所述结合上下文特征对框定的网页标签序列进行特征提取，得到登录实体特征包括：

基于文本分词对网页标签序列的属性值切分；

利用网页标签名称-标签属性名称-属性值关键字的特征模板，生成网页标签对应的特征词；

统计各个特征词在当前网页数据中出现的频次，得到登录实体特征。

一实施例中，统计各个特征词在当前网页数据中出现的频次时使用TF-IDF方法。

一实施例中，在将登录实体特征输入训练好的Bayes识别模型中，通过Bayes识别模型估计网页中登录实体类别的概率分布，得到目标网页中的登录实体类别之前，所述方法还包括：

识别每个登录实体类别在训练样本中的出现频率和指定登录实体类别条件时特征词出现的概率，来优化Bayes识别模型的训练参数，得到训练好的Bayes识别模型。

一实施例中，在估计模型训练过程中利用拉普拉斯平滑方法对估计模型的训练参数进行平滑处理。

第二方面，本发明提供一种网页登录实体识别装置，所述装置包括：

登录实体模板库构建模块：用于抽取登录实体模板构建登录实体模板库；

网页标签序列框定模块：用于利用登录实体模板库框定候选网页标签集中与登录实体模板重合的网页标签序列；

登录实体特征提取模块：用于结合上下文特征对框定的网页标签序列进行特征提取，得到登录实体特征；

Bayes识别模块：用于将登录实体特征输入训练好的Bayes识别模型中，通过Bayes识别模型估计网页中登录实体类别在网页标签中的概率分布，选择概率值最大的登录实体类别最为最终的识别结果。

一实施例中，所述登录实体模板库构建模块包括：

以password网页标签为中心统计网页标签序列；

对不同网络标签序列依据出现频次降序排列；

将全部登录实体模板保存，得到登录实体模板库。

一实施例中，所述网页标签序列框定模块包括：

一实施例中，所述登录实体特征提取模块包括：

基于文本分词对网页标签序列的属性值切分；

一实施例中，所述装置还包括：

Bayes识别模型训练模块：用于识别每个登录实体类别在训练样本中的出现频率和指定登录实体类别条件时特征词出现的概率，来优化Bayes识别模型的训练参数，得到训练好的Bayes识别模型。

第三方面，本发明提供一种电子设备，包括：

处理器、存储器、与网关通信的接口；

存储器用于存储程序和数据，所述处理器调用存储器存储的程序，以执行第一方面提供的一种网页登录实体识别方法。

第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质包括程序，所述程序在被处理器执行时用于执行第一方面任一项提供的一种网页登录实体识别方法。

从上述描述可知，本发明通过抽取登录实体模板构建登录实体模板库；利用登录实体模板库框定候选网页标签集中与登录实体模板重合的网页标签序列，基于登录实体模板可以排除与登录实体识别不相关的网页标签，减少了大量的冗余信息，使得登录实体的识别速度提高；并结合上下文特征对框定的网页标签序列进行特征提取，得到登录实体特征；将登录实体特征输入训练好的Bayes识别模型中，通过Bayes识别模型估计网页中登录实体类别在网页标签中的概率分布，选择概率值最大的登录实体类别最为最终的识别结果，在登录实体识别过程中充分利用了网页标签的上下文特征信息，有效的提高了模型的识别效果。

附图说明

图1所示为本发明一实施例提供方法的流程示意图；

图2所示为本发明一实施例提供装置的结构示意图；

图3所示为本发明一实施例提供电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明白，以下结合附图及具体实施方式对本发明作进一步说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

首先需要说明的是：登录实体识别中登录实体类别主要分为用户名、密码、验证码输入、验证码图片以及登录这些实体。登录实体的相互组合构成不同的登录模式。每种登录实体均对应着自身的网页标签，例如：用户名对应的网页标签类型为text；密码对应的网页标签类型为password。在网页中存在大量的网页标签，一些与登录实体相关，一些与登录实体无关。

本发明实施例提供的一种网页登录实体识别方法的具体实施方式，如图1所示，该方法具体如下步骤包括：

S110：抽取登录实体模板构建登录实体模板库。

具体地，登录实体模板抽取过程如下：

首先，在网页Dom Tree序列化时优先遍历根节点对应的网页标签，得到网页标签序列；

然后，以password网页标签为中心统计网页标签序列；

之后，对不同网络标签序列依据出现频次降序排列；

再之后，采用人工标注的方式依次排除每个网页标签序列中与登录实体不相关的网页标签，得到登录实体模板；

得到的登录实体模板有以下几类：

1.…[text]->[password]->[button]…

2.…[text]->[password]->[submit]…

3.…[text]->[password]->[text]->[img]->[submit]…；

最后，将全部登录实体模板保存，得到登录实体模板库。

S120：利用登录实体模板库框定候选网页标签集中与登录实体模板重合的网页标签序列；

具体地，首先，统计不同网页标签类型序列，得到不同登录模式的候选网页标签序列集合；

然后，筛选各个不同登录模式中最长的网页标签序列与登录实体模板库中的登录实体模板对照，选择与登录实体模板重合的部分，排除与登录实体识别不相关的网页标签，将第登录实体的识别难度。

例如：一个网页对应的网页标签序列的最长网页标签序列为：…->[text]->[text]->[password]->[button]->[button]->…,选择与登录实体模板重合部分[text]->[password]->[button]，使得最终框定的网页标签都是与登录实体相关的网页标签。

S130：结合上下文特征对框定的网页标签序列进行特征提取，得到登录实体特征。

具体地，基于文本分词对网页标签序列的属性值切分；

并在统计各个特征词在当前网页数据中出现的频次时使用TF-IDF方法。更为具体地，TF-IDF(term frequency-inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency)，IDF是逆文本频率指数(InverseDocument Frequency)。TF-IDF用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。实验证明上述的特征提取方法可以有效的提高模型的效果。

S140：将登录实体特征输入训练好的Bayes识别模型中，通过Bayes识别模型估计网页中登录实体类别在网页标签中的概率分布，选择概率值最大的登录实体类别最为最终的识别结果。

在发明名实施例中，在S140之前，还包括：

识别每个登录实体类别在训练样本中的出现频率和指定登录实体类别条件时特征词出现的概率(即统计用户名、密码、验证码输入、验证码图片、登录这5类登录实体在训练集的出现频次及所有特征词在5类登录实体数据中出现的频次)，来优化Bayes识别模型的训练参数，得到训练好的Bayes识别模型。并在估计模型训练过程中利用拉普拉斯平滑方法对估计模型的训练参数进行平滑处理，通过平滑处理可以解决因数据稀疏导致的模型训练参数无法估计的问题。

综上可知，本发明基于登录实体模板可以排除与登录实体识别不相关的网页标签，减少了大量的冗余信息，使得登录实体的识别速度提高；并结合上下文特征对框定的网页标签序列进行特征提取，将登录实体特征输入训练好的Bayes识别模型中，通过Bayes识别模型估计网页中登录实体类别在网页标签中的概率分布，最后选择概率值最大的登录实体类别最为最终的识别结果，在登录实体识别过程中充分利用了网页标签的上下文特征信息，基于网页标签名称-标签属性名称-属性值关键字的特征模板的特征提取方法,可以有效的区分不同网页标签关键词所对应的网页标签类型及关键词所属的网页标签属性类型，进而Bayes识别模型可以量化不同网页标签类型以及不同网页标签属性与登录实体的相关性，有效的提高了模型的识别效果。

基于同一发明构思，本申请实施例还提供了一种网页登录实体识别装置，可以用于实现上述实施例所描述的方法，如下面的实施例所述。由于装置解决问题的原理与方法相似，因此装置的实施可以参见方法实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本发明提供的一种网页登录实体识别装置，如图2所示。在图2中该装置包括：

登录实体模板库构建模块210：用于抽取登录实体模板构建登录实体模板库；

网页标签序列框定模块220：用于利用登录实体模板库框定候选网页标签集中与登录实体模板重合的网页标签序列；

登录实体特征提取模块230：用于结合上下文特征对框定的网页标签序列进行特征提取，得到登录实体特征；

Bayes识别模块240：用于将登录实体特征输入训练好的Bayes识别模型中，通过Bayes识别模型估计网页中登录实体类别在网页标签中的概率分布，选择概率值最大的登录实体类别最为最终的识别结果。

在本发明一实施例中，所述登录实体模板库构建模块210包括：

以password网页标签为中心统计网页标签序列；

对不同网络标签序列依据出现频次降序排列；

将全部登录实体模板保存，得到登录实体模板库。

在本发明一实施例中，所述网页标签序列框定模块220包括：

在本发明一实施例中，所述登录实体特征提取模块230包括：

基于文本分词对网页标签序列的属性值切分；

在本发明一实施例中，统计各个特征词在当前网页数据中出现的频次时使用TF-IDF方法。

在本发明一实施例中，所述装置还包括：

在本发明一实施例中，在估计模型训练过程中利用拉普拉斯平滑方法对估计模型的训练参数进行平滑处理。

本申请的实施例还提供能够实现上述实施例中的方法中全部步骤的一种电子设备的具体实施方式，参见图3，电子设备300具体包括如下内容：

处理器310、存储器320、通信单元330和总线340；

其中，处理器310、存储器320、通信单元330通过总线340完成相互间的通信；通信单元330用于实现服务器端设备以及终端设备等相关设备之间的信息传输。

处理器310用于调用存储器320中的计算机程序，处理器执行计算机程序时实现上述实施例中的方法中的全部步骤。

本领域普通技术人员应理解：存储器可以是，但不限于，随机存取存储器(RandomAccess Memory，简称：RAM)，只读存储器(Read Only Memory，简称：ROM)，可编程只读存储器(Programmable Read-OnlyMemory，简称：PROM)，可擦除只读存储器(ErasableProgrammable Read-Only Memory，简称：EPROM)，电可擦除只读存储器(ElectricErasable Programmable Read-Only Memory，简称：EEPROM)等。其中，存储器用于存储程序，处理器在接收到执行指令后，执行程序。进一步地，上述存储器内的软件程序以及模块还可包括操作系统，其可包括各种用于管理系统任务(例如内存管理、存储设备控制、电源管理等)的软件组件和/或驱动，并可与各种硬件或软件组件相互通信，从而提供其他软件组件的运行环境。

处理器可以是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称：CPU)、网络处理器(NetworkProcessor，简称：NP)等。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质包括程序，所述程序在被处理器执行时用于执行前述任一方法实施例提供的方法。

本领域普通技术人员应理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质，具体的介质类型本申请不做限制。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种网页登录实体识别方法，其特征在于，所述方法包括：

抽取登录实体模板构建登录实体模板库；

所述抽取登录实体模板构建登录实体模板库包括：

以password网页标签为中心统计网页标签序列；

对不同网络标签序列依据出现频次降序排列；

将全部登录实体模板保存，得到登录实体模板库；

2.如权利要求1所述的一种网页登录实体识别方法，其特征在于，所述利用登录实体模板库框定候选网页标签集中与登录实体模板重合的网页标签序列包括：

3.如权利要求1所述的一种网页登录实体识别方法，其特征在于，所述结合上下文特征对框定的网页标签序列进行特征提取，得到登录实体特征包括：

基于文本分词对网页标签序列的属性值切分；

4.如权利要求3所述的一种网页登录实体识别方法，其特征在于，统计各个特征词在当前网页数据中出现的频次时使用TF-IDF方法。

5.如权利要求1所述的一种网页登录实体识别方法，其特征在于，在将登录实体特征输入训练好的Bayes识别模型中，通过Bayes识别模型估计网页中登录实体类别的概率分布，得到目标网页中的登录实体类别之前，所述方法还包括：

6.如权利要求5所述的一种网页登录实体识别方法，其特征在于，在估计模型训练过程中利用拉普拉斯平滑方法对估计模型的训练参数进行平滑处理。

7.一种网页登录实体识别装置，其特征在于，所述装置包括：

所述登录实体模板库构建模块包括：

以password网页标签为中心统计网页标签序列；

对不同网络标签序列依据出现频次降序排列；

将全部登录实体模板保存，得到登录实体模板库；

8.一种电子设备，其特征在于，包括：

处理器、存储器、与网关通信的接口；

存储器用于存储程序和数据，所述处理器调用存储器存储的程序，以执行权利要求1至6任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括程序，所述程序在被处理器执行时用于执行权利要求1至6任一项所述的方法。