CN116248375B - 一种网页登录实体识别方法、装置、设备和存储介质 - Google Patents
一种网页登录实体识别方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN116248375B CN116248375B CN202310118909.6A CN202310118909A CN116248375B CN 116248375 B CN116248375 B CN 116248375B CN 202310118909 A CN202310118909 A CN 202310118909A CN 116248375 B CN116248375 B CN 116248375B
- Authority
- CN
- China
- Prior art keywords
- login
- entity
- webpage
- login entity
- web page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000000605 extraction Methods 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims description 24
- 238000009499 grossing Methods 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 4
- 238000012795 verification Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/08—Network architectures or network communication protocols for network security for authentication of entities
- H04L63/0815—Network architectures or network communication protocols for network security for authentication of entities providing single-sign-on or federations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/20—Network architectures or network communication protocols for network security for managing network security; network security policies in general
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提供了一种网页登录实体识别方法、装置、设备和存储介质,所述方法包括:抽取登录实体模板构建登录实体模板库;利用登录实体模板库框定候选网页标签集中与登录实体模板重合的网页标签序列;结合上下文特征对框定的网页标签序列进行特征提取,得到登录实体特征;将登录实体特征输入训练好的Bayes识别模型中,通过Bayes识别模型估计网页中登录实体类别在网页标签中的概率分布,选择概率值最大的登录实体类别最为最终的识别结果。本发明基于登录实体模板可以排除与登录实体识别不相关的网页标签,减少了大量的冗余信息,使得登录实体的识别速度提高;在登录实体识别过程中充分利用了网页标签的上下文特征信息,有效的提高了模型的识别效果。
Description
技术领域
本发明涉及网页登录实体识别技术领域,具体涉及一种网页登录实体识别方法、装置设备和存储介质。
背景技术
网页登录实体是一类重要的攻击面,它是网站自动化渗透测试过程不可缺少的一个环节。登录实体识别技术用来识别目标网页中登录相关的网页标签,进而抽取登录相关信息进行自动登录。具体的登录实体包括用户名、密码、验证码登录、验证码图片、登录这5类实体及登录token标签。
传统识别方法主要针对不同的登录实体的特征,相对独立的从特征类型的网页标签提取登录实体识别中依赖的多出关键位置信息,然后根据不同的登录实体设计各种规则、特征,最后判断某种登录实体的关键特征是否存在于信息中,根据具体识别技术返回识别的结果,但传统识别方法依然存在有待改进的地方。传统登录实体识别由于无法确定哪些网页标签对待识别的登录实体有帮助,往往会保留大量的网页标签用来获取特征,这种半规则化的网页数据对特征的设计带来了很大困难,往往导致大量的冗余特征,使得登录实体的识别成本提高。由于网页标签信息的不确定性,在识别登录实体时无法规整所有登录入口相关信息作为单个登录实体的识别特征,这导致登录实体的识别正确率降低。
发明内容
鉴于上述问题,本发明实施例一种网页登录实体识别方法及装置,解决现有的技术问题。
为解决上述技术问题,本发明提供以下技术方案:
第一方面,本发明提供一种网页登录实体识别方法,所述方法包括:
抽取登录实体模板构建登录实体模板库;
利用登录实体模板库框定候选网页标签集中与登录实体模板重合的网页标签序列;
结合上下文特征对框定的网页标签序列进行特征提取,得到登录实体特征;
将登录实体特征输入训练好的Bayes识别模型中,通过Bayes识别模型估计网页中登录实体类别在网页标签中的概率分布,选择概率值最大的登录实体类别最为最终的识别结果。
一实施例中,所述抽取登录实体模板构建登录实体模板库包括:
在网页Dom Tree序列化时优先遍历根节点对应的网页标签,得到网页标签序列;
以password网页标签为中心统计网页标签序列;
对不同网络标签序列依据出现频次降序排列;
采用人工标注的方式依次排除每个网页标签序列中与登录实体不相关的网页标签,得到登录实体模板;
将全部登录实体模板保存,得到登录实体模板库。
一实施例中,所述利用登录实体模板库框定候选网页标签集中与登录实体模板重合的网页标签序列包括:
统计不同网页标签类型序列,得到不同登录模式的候选网页标签序列集合;
筛选各个不同登录模式中最长的网页标签序列与登录实体模板库中的登录实体模板对照,选择与登录实体模板重合的部分,排除与登录实体识别不相关的网页标签。
一实施例中,所述结合上下文特征对框定的网页标签序列进行特征提取,得到登录实体特征包括:
基于文本分词对网页标签序列的属性值切分;
利用网页标签名称-标签属性名称-属性值关键字的特征模板,生成网页标签对应的特征词;
统计各个特征词在当前网页数据中出现的频次,得到登录实体特征。
一实施例中,统计各个特征词在当前网页数据中出现的频次时使用TF-IDF方法。
一实施例中,在将登录实体特征输入训练好的Bayes识别模型中,通过Bayes识别模型估计网页中登录实体类别的概率分布,得到目标网页中的登录实体类别之前,所述方法还包括:
识别每个登录实体类别在训练样本中的出现频率和指定登录实体类别条件时特征词出现的概率,来优化Bayes识别模型的训练参数,得到训练好的Bayes识别模型。
一实施例中,在估计模型训练过程中利用拉普拉斯平滑方法对估计模型的训练参数进行平滑处理。
第二方面,本发明提供一种网页登录实体识别装置,所述装置包括:
登录实体模板库构建模块:用于抽取登录实体模板构建登录实体模板库;
网页标签序列框定模块:用于利用登录实体模板库框定候选网页标签集中与登录实体模板重合的网页标签序列;
登录实体特征提取模块:用于结合上下文特征对框定的网页标签序列进行特征提取,得到登录实体特征;
Bayes识别模块:用于将登录实体特征输入训练好的Bayes识别模型中,通过Bayes识别模型估计网页中登录实体类别在网页标签中的概率分布,选择概率值最大的登录实体类别最为最终的识别结果。
一实施例中,所述登录实体模板库构建模块包括:
在网页Dom Tree序列化时优先遍历根节点对应的网页标签,得到网页标签序列;
以password网页标签为中心统计网页标签序列;
对不同网络标签序列依据出现频次降序排列;
采用人工标注的方式依次排除每个网页标签序列中与登录实体不相关的网页标签,得到登录实体模板;
将全部登录实体模板保存,得到登录实体模板库。
一实施例中,所述网页标签序列框定模块包括:
统计不同网页标签类型序列,得到不同登录模式的候选网页标签序列集合;
筛选各个不同登录模式中最长的网页标签序列与登录实体模板库中的登录实体模板对照,选择与登录实体模板重合的部分,排除与登录实体识别不相关的网页标签。
一实施例中,所述登录实体特征提取模块包括:
基于文本分词对网页标签序列的属性值切分;
利用网页标签名称-标签属性名称-属性值关键字的特征模板,生成网页标签对应的特征词;
统计各个特征词在当前网页数据中出现的频次,得到登录实体特征。
一实施例中,统计各个特征词在当前网页数据中出现的频次时使用TF-IDF方法。
一实施例中,所述装置还包括:
Bayes识别模型训练模块:用于识别每个登录实体类别在训练样本中的出现频率和指定登录实体类别条件时特征词出现的概率,来优化Bayes识别模型的训练参数,得到训练好的Bayes识别模型。
一实施例中,在估计模型训练过程中利用拉普拉斯平滑方法对估计模型的训练参数进行平滑处理。
第三方面,本发明提供一种电子设备,包括:
处理器、存储器、与网关通信的接口;
存储器用于存储程序和数据,所述处理器调用存储器存储的程序,以执行第一方面提供的一种网页登录实体识别方法。
第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质包括程序,所述程序在被处理器执行时用于执行第一方面任一项提供的一种网页登录实体识别方法。
从上述描述可知,本发明通过抽取登录实体模板构建登录实体模板库;利用登录实体模板库框定候选网页标签集中与登录实体模板重合的网页标签序列,基于登录实体模板可以排除与登录实体识别不相关的网页标签,减少了大量的冗余信息,使得登录实体的识别速度提高;并结合上下文特征对框定的网页标签序列进行特征提取,得到登录实体特征;将登录实体特征输入训练好的Bayes识别模型中,通过Bayes识别模型估计网页中登录实体类别在网页标签中的概率分布,选择概率值最大的登录实体类别最为最终的识别结果,在登录实体识别过程中充分利用了网页标签的上下文特征信息,有效的提高了模型的识别效果。
附图说明
图1所示为本发明一实施例提供方法的流程示意图;
图2所示为本发明一实施例提供装置的结构示意图;
图3所示为本发明一实施例提供电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明白,以下结合附图及具体实施方式对本发明作进一步说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
首先需要说明的是:登录实体识别中登录实体类别主要分为用户名、密码、验证码输入、验证码图片以及登录这些实体。登录实体的相互组合构成不同的登录模式。每种登录实体均对应着自身的网页标签,例如:用户名对应的网页标签类型为text;密码对应的网页标签类型为password。在网页中存在大量的网页标签,一些与登录实体相关,一些与登录实体无关。
本发明实施例提供的一种网页登录实体识别方法的具体实施方式,如图1所示,该方法具体如下步骤包括:
S110:抽取登录实体模板构建登录实体模板库。
具体地,登录实体模板抽取过程如下:
首先,在网页Dom Tree序列化时优先遍历根节点对应的网页标签,得到网页标签序列;
然后,以password网页标签为中心统计网页标签序列;
之后,对不同网络标签序列依据出现频次降序排列;
再之后,采用人工标注的方式依次排除每个网页标签序列中与登录实体不相关的网页标签,得到登录实体模板;
得到的登录实体模板有以下几类:
1.…[text]->[password]->[button]…
2.…[text]->[password]->[submit]…
3.…[text]->[password]->[text]->[img]->[submit]…;
最后,将全部登录实体模板保存,得到登录实体模板库。
S120:利用登录实体模板库框定候选网页标签集中与登录实体模板重合的网页标签序列;
具体地,首先,统计不同网页标签类型序列,得到不同登录模式的候选网页标签序列集合;
然后,筛选各个不同登录模式中最长的网页标签序列与登录实体模板库中的登录实体模板对照,选择与登录实体模板重合的部分,排除与登录实体识别不相关的网页标签,将第登录实体的识别难度。
例如:一个网页对应的网页标签序列的最长网页标签序列为:…->[text]->[text]->[password]->[button]->[button]->…,选择与登录实体模板重合部分[text]->[password]->[button],使得最终框定的网页标签都是与登录实体相关的网页标签。
S130:结合上下文特征对框定的网页标签序列进行特征提取,得到登录实体特征。
具体地,基于文本分词对网页标签序列的属性值切分;
利用网页标签名称-标签属性名称-属性值关键字的特征模板,生成网页标签对应的特征词;
统计各个特征词在当前网页数据中出现的频次,得到登录实体特征。
并在统计各个特征词在当前网页数据中出现的频次时使用TF-IDF方法。更为具体地,TF-IDF(term frequency-inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(InverseDocument Frequency)。TF-IDF用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。实验证明上述的特征提取方法可以有效的提高模型的效果。
S140:将登录实体特征输入训练好的Bayes识别模型中,通过Bayes识别模型估计网页中登录实体类别在网页标签中的概率分布,选择概率值最大的登录实体类别最为最终的识别结果。
在发明名实施例中,在S140之前,还包括:
识别每个登录实体类别在训练样本中的出现频率和指定登录实体类别条件时特征词出现的概率(即统计用户名、密码、验证码输入、验证码图片、登录这5类登录实体在训练集的出现频次及所有特征词在5类登录实体数据中出现的频次),来优化Bayes识别模型的训练参数,得到训练好的Bayes识别模型。并在估计模型训练过程中利用拉普拉斯平滑方法对估计模型的训练参数进行平滑处理,通过平滑处理可以解决因数据稀疏导致的模型训练参数无法估计的问题。
综上可知,本发明基于登录实体模板可以排除与登录实体识别不相关的网页标签,减少了大量的冗余信息,使得登录实体的识别速度提高;并结合上下文特征对框定的网页标签序列进行特征提取,将登录实体特征输入训练好的Bayes识别模型中,通过Bayes识别模型估计网页中登录实体类别在网页标签中的概率分布,最后选择概率值最大的登录实体类别最为最终的识别结果,在登录实体识别过程中充分利用了网页标签的上下文特征信息,基于网页标签名称-标签属性名称-属性值关键字的特征模板的特征提取方法,可以有效的区分不同网页标签关键词所对应的网页标签类型及关键词所属的网页标签属性类型,进而Bayes识别模型可以量化不同网页标签类型以及不同网页标签属性与登录实体的相关性,有效的提高了模型的识别效果。
基于同一发明构思,本申请实施例还提供了一种网页登录实体识别装置,可以用于实现上述实施例所描述的方法,如下面的实施例所述。由于装置解决问题的原理与方法相似,因此装置的实施可以参见方法实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本发明提供的一种网页登录实体识别装置,如图2所示。在图2中该装置包括:
登录实体模板库构建模块210:用于抽取登录实体模板构建登录实体模板库;
网页标签序列框定模块220:用于利用登录实体模板库框定候选网页标签集中与登录实体模板重合的网页标签序列;
登录实体特征提取模块230:用于结合上下文特征对框定的网页标签序列进行特征提取,得到登录实体特征;
Bayes识别模块240:用于将登录实体特征输入训练好的Bayes识别模型中,通过Bayes识别模型估计网页中登录实体类别在网页标签中的概率分布,选择概率值最大的登录实体类别最为最终的识别结果。
在本发明一实施例中,所述登录实体模板库构建模块210包括:
在网页Dom Tree序列化时优先遍历根节点对应的网页标签,得到网页标签序列;
以password网页标签为中心统计网页标签序列;
对不同网络标签序列依据出现频次降序排列;
采用人工标注的方式依次排除每个网页标签序列中与登录实体不相关的网页标签,得到登录实体模板;
将全部登录实体模板保存,得到登录实体模板库。
在本发明一实施例中,所述网页标签序列框定模块220包括:
统计不同网页标签类型序列,得到不同登录模式的候选网页标签序列集合;
筛选各个不同登录模式中最长的网页标签序列与登录实体模板库中的登录实体模板对照,选择与登录实体模板重合的部分,排除与登录实体识别不相关的网页标签。
在本发明一实施例中,所述登录实体特征提取模块230包括:
基于文本分词对网页标签序列的属性值切分;
利用网页标签名称-标签属性名称-属性值关键字的特征模板,生成网页标签对应的特征词;
统计各个特征词在当前网页数据中出现的频次,得到登录实体特征。
在本发明一实施例中,统计各个特征词在当前网页数据中出现的频次时使用TF-IDF方法。
在本发明一实施例中,所述装置还包括:
Bayes识别模型训练模块:用于识别每个登录实体类别在训练样本中的出现频率和指定登录实体类别条件时特征词出现的概率,来优化Bayes识别模型的训练参数,得到训练好的Bayes识别模型。
在本发明一实施例中,在估计模型训练过程中利用拉普拉斯平滑方法对估计模型的训练参数进行平滑处理。
本申请的实施例还提供能够实现上述实施例中的方法中全部步骤的一种电子设备的具体实施方式,参见图3,电子设备300具体包括如下内容:
处理器310、存储器320、通信单元330和总线340;
其中,处理器310、存储器320、通信单元330通过总线340完成相互间的通信;通信单元330用于实现服务器端设备以及终端设备等相关设备之间的信息传输。
处理器310用于调用存储器320中的计算机程序,处理器执行计算机程序时实现上述实施例中的方法中的全部步骤。
本领域普通技术人员应理解:存储器可以是,但不限于,随机存取存储器(RandomAccess Memory,简称:RAM),只读存储器(Read Only Memory,简称:ROM),可编程只读存储器(Programmable Read-OnlyMemory,简称:PROM),可擦除只读存储器(ErasableProgrammable Read-Only Memory,简称:EPROM),电可擦除只读存储器(ElectricErasable Programmable Read-Only Memory,简称:EEPROM)等。其中,存储器用于存储程序,处理器在接收到执行指令后,执行程序。进一步地,上述存储器内的软件程序以及模块还可包括操作系统,其可包括各种用于管理系统任务(例如内存管理、存储设备控制、电源管理等)的软件组件和/或驱动,并可与各种硬件或软件组件相互通信,从而提供其他软件组件的运行环境。
处理器可以是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称:CPU)、网络处理器(NetworkProcessor,简称:NP)等。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质包括程序,所述程序在被处理器执行时用于执行前述任一方法实施例提供的方法。
本领域普通技术人员应理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质,具体的介质类型本申请不做限制。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (9)
1.一种网页登录实体识别方法,其特征在于,所述方法包括:
抽取登录实体模板构建登录实体模板库;
所述抽取登录实体模板构建登录实体模板库包括:
在网页Dom Tree序列化时优先遍历根节点对应的网页标签,得到网页标签序列;
以password网页标签为中心统计网页标签序列;
对不同网络标签序列依据出现频次降序排列;
采用人工标注的方式依次排除每个网页标签序列中与登录实体不相关的网页标签,得到登录实体模板;
将全部登录实体模板保存,得到登录实体模板库;
利用登录实体模板库框定候选网页标签集中与登录实体模板重合的网页标签序列;
结合上下文特征对框定的网页标签序列进行特征提取,得到登录实体特征;
将登录实体特征输入训练好的Bayes识别模型中,通过Bayes识别模型估计网页中登录实体类别在网页标签中的概率分布,选择概率值最大的登录实体类别最为最终的识别结果。
2.如权利要求1所述的一种网页登录实体识别方法,其特征在于,所述利用登录实体模板库框定候选网页标签集中与登录实体模板重合的网页标签序列包括:
统计不同网页标签类型序列,得到不同登录模式的候选网页标签序列集合;
筛选各个不同登录模式中最长的网页标签序列与登录实体模板库中的登录实体模板对照,选择与登录实体模板重合的部分,排除与登录实体识别不相关的网页标签。
3.如权利要求1所述的一种网页登录实体识别方法,其特征在于,所述结合上下文特征对框定的网页标签序列进行特征提取,得到登录实体特征包括:
基于文本分词对网页标签序列的属性值切分;
利用网页标签名称-标签属性名称-属性值关键字的特征模板,生成网页标签对应的特征词;
统计各个特征词在当前网页数据中出现的频次,得到登录实体特征。
4.如权利要求3所述的一种网页登录实体识别方法,其特征在于,统计各个特征词在当前网页数据中出现的频次时使用TF-IDF方法。
5.如权利要求1所述的一种网页登录实体识别方法,其特征在于,在将登录实体特征输入训练好的Bayes识别模型中,通过Bayes识别模型估计网页中登录实体类别的概率分布,得到目标网页中的登录实体类别之前,所述方法还包括:
识别每个登录实体类别在训练样本中的出现频率和指定登录实体类别条件时特征词出现的概率,来优化Bayes识别模型的训练参数,得到训练好的Bayes识别模型。
6.如权利要求5所述的一种网页登录实体识别方法,其特征在于,在估计模型训练过程中利用拉普拉斯平滑方法对估计模型的训练参数进行平滑处理。
7.一种网页登录实体识别装置,其特征在于,所述装置包括:
登录实体模板库构建模块:用于抽取登录实体模板构建登录实体模板库;
所述登录实体模板库构建模块包括:
在网页Dom Tree序列化时优先遍历根节点对应的网页标签,得到网页标签序列;
以password网页标签为中心统计网页标签序列;
对不同网络标签序列依据出现频次降序排列;
采用人工标注的方式依次排除每个网页标签序列中与登录实体不相关的网页标签,得到登录实体模板;
将全部登录实体模板保存,得到登录实体模板库;
网页标签序列框定模块:用于利用登录实体模板库框定候选网页标签集中与登录实体模板重合的网页标签序列;
登录实体特征提取模块:用于结合上下文特征对框定的网页标签序列进行特征提取,得到登录实体特征;
Bayes识别模块:用于将登录实体特征输入训练好的Bayes识别模型中,通过Bayes识别模型估计网页中登录实体类别在网页标签中的概率分布,选择概率值最大的登录实体类别最为最终的识别结果。
8.一种电子设备,其特征在于,包括:
处理器、存储器、与网关通信的接口;
存储器用于存储程序和数据,所述处理器调用存储器存储的程序,以执行权利要求1至6任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括程序,所述程序在被处理器执行时用于执行权利要求1至6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310118909.6A CN116248375B (zh) | 2023-02-01 | 2023-02-01 | 一种网页登录实体识别方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310118909.6A CN116248375B (zh) | 2023-02-01 | 2023-02-01 | 一种网页登录实体识别方法、装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116248375A CN116248375A (zh) | 2023-06-09 |
CN116248375B true CN116248375B (zh) | 2023-12-15 |
Family
ID=86630773
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310118909.6A Active CN116248375B (zh) | 2023-02-01 | 2023-02-01 | 一种网页登录实体识别方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116248375B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106951422A (zh) * | 2016-01-07 | 2017-07-14 | 腾讯科技(深圳)有限公司 | 网页训练的方法和装置、搜索意图识别的方法和装置 |
WO2017167067A1 (zh) * | 2016-03-30 | 2017-10-05 | 阿里巴巴集团控股有限公司 | 网页文本分类的方法和装置,网页文本识别的方法和装置 |
CN109657135A (zh) * | 2018-11-13 | 2019-04-19 | 华南理工大学 | 一种基于神经网络的学者用户画像信息抽取方法及模型 |
CN110287409A (zh) * | 2019-06-05 | 2019-09-27 | 新华三信息安全技术有限公司 | 一种网页类型识别方法及装置 |
WO2021051871A1 (zh) * | 2019-09-18 | 2021-03-25 | 平安科技(深圳)有限公司 | 文本抽取方法、装置、设备及存储介质 |
CN114579834A (zh) * | 2022-03-11 | 2022-06-03 | 北京墨云科技有限公司 | 网页登录实体识别方法、装置、电子设备及存储介质 |
-
2023
- 2023-02-01 CN CN202310118909.6A patent/CN116248375B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106951422A (zh) * | 2016-01-07 | 2017-07-14 | 腾讯科技(深圳)有限公司 | 网页训练的方法和装置、搜索意图识别的方法和装置 |
WO2017167067A1 (zh) * | 2016-03-30 | 2017-10-05 | 阿里巴巴集团控股有限公司 | 网页文本分类的方法和装置,网页文本识别的方法和装置 |
CN109657135A (zh) * | 2018-11-13 | 2019-04-19 | 华南理工大学 | 一种基于神经网络的学者用户画像信息抽取方法及模型 |
CN110287409A (zh) * | 2019-06-05 | 2019-09-27 | 新华三信息安全技术有限公司 | 一种网页类型识别方法及装置 |
WO2021051871A1 (zh) * | 2019-09-18 | 2021-03-25 | 平安科技(深圳)有限公司 | 文本抽取方法、装置、设备及存储介质 |
CN114579834A (zh) * | 2022-03-11 | 2022-06-03 | 北京墨云科技有限公司 | 网页登录实体识别方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于Bayes算法的网页文本分类研究;刘啸啸;;数字技术与应用(第12期);138-139 * |
Also Published As
Publication number | Publication date |
---|---|
CN116248375A (zh) | 2023-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3819785A1 (en) | Feature word determining method, apparatus, and server | |
CN110929145B (zh) | 舆情分析方法、装置、计算机装置及存储介质 | |
CN109376291B (zh) | 一种基于网络爬虫的网站指纹信息扫描的方法及装置 | |
CN109408821B (zh) | 一种语料生成方法、装置、计算设备及存储介质 | |
CN108268635B (zh) | 用于获取数据的方法和装置 | |
US20120150825A1 (en) | Cleansing a Database System to Improve Data Quality | |
CN102375847B (zh) | 形成用于生成文档模板的合并树的方法以及装置 | |
CN111859093A (zh) | 敏感词处理方法、装置及可读存储介质 | |
CN113986864A (zh) | 日志数据处理方法、装置、电子设备及存储介质 | |
EP1677215A1 (en) | Methods and apparatus for the evalution of aspects of a web page | |
CN113392303A (zh) | 后台爆破方法、装置、设备和计算机可读存储介质 | |
CN113381963A (zh) | 一种域名检测方法、装置和存储介质 | |
CN106446123A (zh) | 一种网页中验证码元素识别方法 | |
CN113239256B (zh) | 生成网站签名的方法、识别网站的方法及装置 | |
CN111125704B (zh) | 一种网页挂马识别方法及系统 | |
CN116248375B (zh) | 一种网页登录实体识别方法、装置、设备和存储介质 | |
CN113806647A (zh) | 识别开发框架的方法及相关设备 | |
WO2019085118A1 (zh) | 基于主题模型的关联词分析方法、电子装置及存储介质 | |
CN115757994A (zh) | 商户名确定方法、装置、设备、介质及产品 | |
JP2024507029A (ja) | ウェブページ識別方法、装置、電子機器、媒体およびコンピュータプログラム | |
CN110413909B (zh) | 基于机器学习的大规模嵌入式设备在线固件智能识别方法 | |
CN111597453B (zh) | 用户画像方法、装置、计算机设备及计算机可读存储介质 | |
CN114528908A (zh) | 网络请求数据分类模型训练方法、分类方法及存储介质 | |
CN115481240A (zh) | 一种数据资产质量检测方法和检测装置 | |
CN113157857A (zh) | 面向新闻的热点话题检测方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |