CN116484133A - 网页标识处理方法、装置、计算机设备以及可读存储介质 - Google Patents
网页标识处理方法、装置、计算机设备以及可读存储介质 Download PDFInfo
- Publication number
- CN116484133A CN116484133A CN202310128454.6A CN202310128454A CN116484133A CN 116484133 A CN116484133 A CN 116484133A CN 202310128454 A CN202310128454 A CN 202310128454A CN 116484133 A CN116484133 A CN 116484133A
- Authority
- CN
- China
- Prior art keywords
- webpage
- identified
- resource request
- web page
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 73
- 238000003860 storage Methods 0.000 title claims abstract description 22
- 230000003068 static effect Effects 0.000 claims abstract description 204
- 238000000034 method Methods 0.000 claims abstract description 46
- 238000012545 processing Methods 0.000 claims abstract description 46
- 230000002452 interceptive effect Effects 0.000 claims abstract description 36
- 238000013507 mapping Methods 0.000 claims abstract description 35
- 238000009877 rendering Methods 0.000 claims abstract description 19
- 230000006870 function Effects 0.000 claims description 25
- 238000004891 communication Methods 0.000 claims description 18
- 238000000926 separation method Methods 0.000 claims description 18
- 238000006243 chemical reaction Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 10
- 238000005516 engineering process Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 13
- 238000013473 artificial intelligence Methods 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 238000013515 script Methods 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 241000700605 Viruses Species 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 241000565357 Fraxinus nigra Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- ZXQYGBMAQZUVMI-GCMPRSNUSA-N gamma-cyhalothrin Chemical compound CC1(C)[C@@H](\C=C(/Cl)C(F)(F)F)[C@H]1C(=O)O[C@H](C#N)C1=CC=CC(OC=2C=CC=CC=2)=C1 ZXQYGBMAQZUVMI-GCMPRSNUSA-N 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
- G06F40/143—Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请实施例公开了一种网页标识处理方法、装置、计算机设备以及可读存储介质,包括:获取待识别网页的动态资源请求,动态资源请求用于向服务器请求获取实时更新的动态网页资源,并用于渲染为待识别网页对应的交互网页内容;获取待识别网页的静态资源请求,静态资源请求用于向服务器请求静态网页资源,并用于渲染为待识别网页的初始网页内容;基于动态资源请求及静态资源请求生成待识别资源请求集合,并基于待识别资源请求集合中各个资源请求包括的请求字段获取资源请求文本;将资源请求文本映射为待识别网页的标识特征序列,并基于标识特征序列生成待识别网页的网页标识。采用本申请,可以提高获取网页标识的准确性,适用性高。
Description
技术领域
本申请涉及互联网技术领域,尤其涉及一种网页标识处理方法、装置、计算机设备以及可读存储介质。
背景技术
互联网技术的快速发展给人们生活带来越来越多的便利,与此同时互联网的安全形势也不容乐观。比如,各类黑灰产网站模仿正常网站盗取对象帐号密码,不仅侵犯了操作对象等相关主体的合法权益,也污染了互联网生态。为此,现代互联网技术衍生出了网页标识检测技术,通过获取各类网站的网页标识,可以在大量网站中筛查出与恶意网站的网页标识相似的疑似恶意网站,从而在对象访问疑似恶意网站时输出风险提示。
一般来说,可以通过网页的超文本标记语言(HyperText Mark-up Language,HTML)文件提取网页的文档对象模型(Document Object Model,DOM)结构来构建网页标识,且DOM结构越丰富,根据网页的DOM结构获取的网页标识越可靠。然而当前很多恶意网站通过动态嵌入网站来实现最终页面显示的效果,浏览器根据网页的DOM结构获取网页标识的准确性降低,在对不同网页进行对比时误判概率高,适用性差。
发明内容
本申请实施例提供一种网页标识处理方法、装置、计算机设备以及可读存储介质,可以提高获取网页标识的准确性,适用性高。
第一方面,本申请实施例提供了一种网页标识处理方法,包括:
获取待识别网页的动态资源请求,上述动态资源请求用于向服务器请求获取实时更新的动态网页资源,上述动态网页资源用于渲染为上述待识别网页对应的交互网页内容;
获取上述待识别网页的静态资源请求,上述静态资源请求用于向上述服务器请求静态网页资源,上述静态网页资源用于渲染为上述待识别网页的初始网页内容;
基于待识别网页的动态资源请求及静态资源请求生成上述待识别网页的待识别资源请求集合,并基于上述待识别资源请求集合中各个资源请求中包括的请求字段获取上述待识别网页的资源请求文本;
将上述待识别网页的资源请求文本映射为上述待识别网页的标识特征序列,并基于上述标识特征序列生成上述待识别网页的网页标识。
在一种可能的实现方式中,上述获取待识别网页的动态资源请求包括:
获取待识别网页的多个初始动态资源请求,并获取各个初始动态资源请求的状态码,将上述多个初始动态资源请求中状态码等于预设状态码的初始动态资源请求确定为上述待识别网页的动态资源请求。
在一种可能的实现方式中,上述获取上述待识别网页的静态资源请求包括:
获取上述待识别网页的多个初始静态资源请求,并获取各个初始静态资源请求的状态码,将上述多个初始静态资源请求中状态码等于预设状态码的初始静态资源请求确定为上述待识别网页的静态资源请求。
在一种可能的实现方式中,上述将上述待识别网页的资源请求文本映射为上述待识别网页的标识特征序列,包括:
对上述待识别网页的资源请求文本进行特征词提取以得到多个特征词语;
获取上述多个特征词语中各个特征词语的权重系数,并基于上述各个特征词语的权重系数将上述多个特征词语映射为多个加权实数序列;
对上述多个加权实数序列进行累加以得到上述待识别网页的累加实数序列,并对上述累加实数序列进行二进制转换,以得到上述资源请求文本对应的标识特征序列。
在一种可能的实现方式中,上述对上述待识别网页的资源请求文本进行特征词提取以得到多个特征词语,包括:
对上述待识别网页的资源请求文本中的分隔字符串进行识别,并基于识别出的分隔字符串将上述资源请求文本划分为多个词语;
对上述多个词语进行分类以得到多个分类词语,其中,一个分类词语中包括多个相同类别的词语;
基于每个分类词语中包括的词语个数获取上述每个分类词语的出现频次,从上述多个分类词语中确定出现频次较高的K个分类词语,其中,K为正整数;
将上述K个分类词语确定为上述资源请求文本的多个特征词语。
在一种可能的实现方式中,上述获取上述多个特征词语中各个特征词语的权重系数,并基于上述各个特征词语的权重系数将上述多个特征词语映射为多个加权实数序列,包括:
查找上述多个特征词语中各个特征词语在语料库中的逆向文件频率;
基于上述各个特征词语的出现频次获取上述各个特征词语的词频,并基于上述各个特征词语的词频以及逆向文件频率获取上述各个特征词语的权重系数;
将上述多个特征词语中的任一特征词语映射为二进制序列,并基于上述任一特征词语的权重系数对上述任一特征词语的二进制序列进行加权,以得到任一特征词语的加权实数序列;
基于上述各个特征词语的加权实数序列获得上述多个特征词语映射得到的多个加权实数序列。
在一种可能的实现方式中,上述将上述多个特征词语中的任一特征词语映射为二进制序列,并基于上述任一特征词语的权重系数对上述任一特征词语的二进制序列进行加权,包括:
基于哈希函数将上述多个特征词语中的任一特征词语映射为预设长度的二进制序列,上述任一特征词语映射得到的二进制序列中包括多个二进制数值;
将上述任一特征词语的权重系数分别与上述任一特征词语映射得到的二进制序列中的多个二进制数相乘以对上述任一特征词语的二进制序列进行加权。
在一种可能的实现方式中,上述累加实数序列中包括多个累加实数,上述对上述累加实数序列进行二进制转换,包括:
将上述累加实数序列中大于0的累加实数置换为1,并将上述累加实数序列中小于或者等于0的累加实数置换为0,将累加实数置换后得到的累加实数序列确定为上述资源请求文本对应的标识特征序列以对上述累加实数序列进行二进制转换。
在一种可能的实现方式中,上述基于上述标识特征序列生成上述待识别网页的网页标识之后,上述方法还包括:
基于上述待识别网页的网页标识在网页识别数据库中查找与上述待识别网页的相似度小于预设阈值的目标网页,并基于上述目标网页的分类标识对上述待识别网页进行归类;其中,上述网页识别数据库中的各个网页均具备有分类标识,任一网页的分类标识用于对上述任一网页进行归类。
第二方面,本申请实施例还提供了一种网页标识处理装置,包括:
资源请求获取模块,用于获取待识别网页的动态资源请求,上述动态资源请求用于向服务器请求获取实时更新的动态网页资源,上述动态网页资源用于渲染为上述待识别网页对应的交互网页内容;
上述资源请求获取模块还用于获取上述待识别网页的静态资源请求,上述静态资源请求用于向上述服务器请求静态网页资源,上述静态网页资源用于渲染为上述待识别网页的初始网页内容;
请求文本获取模块,用于基于待识别网页的动态资源请求及静态资源请求生成上述待识别网页的待识别资源请求集合,并基于上述待识别资源请求集合中各个资源请求中包括的请求字段获取上述待识别网页的资源请求文本;
生成模块,用于将上述待识别网页的资源请求文本映射为上述待识别网页的标识特征序列,并基于上述标识特征序列生成上述待识别网页的网页标识。
其中,上述资源请求获取模块包括:
动态资源请求获取单元,用于获取待识别网页的多个初始动态资源请求,并获取各个初始动态资源请求的状态码,将上述多个初始动态资源请求中状态码等于预设状态码的初始动态资源请求确定为上述待识别网页的动态资源请求。
其中,上述资源请求获取模块还包括:
静态资源请求获取单元,用于获取上述待识别网页的多个初始静态资源请求,并获取各个初始静态资源请求的状态码,将上述多个初始静态资源请求中状态码等于预设状态码的初始静态资源请求确定为上述待识别网页的静态资源请求。
其中,上述生成模块包括:
特征词提取单元,用于对上述待识别网页的资源请求文本进行特征词提取以得到多个特征词语;
加权单元,用于获取上述多个特征词语中各个特征词语的权重系数,并基于上述各个特征词语的权重系数将上述多个特征词语映射为多个加权实数序列;
标识特征序列生成单元,用于对上述多个加权实数序列进行累加以得到上述待识别网页的累加实数序列,并对上述累加实数序列进行二进制转换,以得到上述资源请求文本对应的标识特征序列。
其中,上述特征词提取单元包括:
词语划分子单元,用于对上述待识别网页的资源请求文本中的分隔字符串进行识别,并基于识别出的分隔字符串将上述资源请求文本划分为多个词语;
分类子单元,用于对上述多个词语进行分类以得到多个分类词语,其中,一个分类词语中包括多个相同类别的词语;
词频获取子单元,用于基于每个分类词语中包括的词语个数获取上述每个分类词语的出现频次,从上述多个分类词语中确定出现频次较高的K个分类词语,其中,K为正整数;
特征词语确定子单元,用于将上述K个分类词语确定为上述资源请求文本的多个特征词语。
其中,上述加权单元包括:
查找子单元,用于查找上述多个特征词语中各个特征词语在语料库中的逆向文件频率;
权重系数获取子单元,用于基于上述各个特征词语的出现频次获取上述各个特征词语的词频,并基于上述各个特征词语的词频以及逆向文件频率获取上述各个特征词语的权重系数;
加权实数获取子单元,用于将上述多个特征词语中的任一特征词语映射为二进制序列,并基于上述任一特征词语的权重系数对上述任一特征词语的二进制序列进行加权,以得到任一特征词语的加权实数序列;
加权实数序列获取子单元,用于基于上述各个特征词语的加权实数序列获得上述多个特征词语映射得到的多个加权实数序列。
其中,上述加权实数获取子单元还用于:
基于哈希函数将上述多个特征词语中的任一特征词语映射为预设长度的二进制序列,上述任一特征词语映射得到的二进制序列中包括多个二进制数值;
将上述任一特征词语的权重系数分别与上述任一特征词语映射得到的二进制序列中的多个二进制数相乘以对上述任一特征词语的二进制序列进行加权。
其中,上述标识特征序列生成单元还用于:
将上述累加实数序列中大于0的累加实数置换为1,并将上述累加实数序列中小于或者等于0的累加实数置换为0,将累加实数置换后得到的累加实数序列确定为上述资源请求文本对应的标识特征序列以对上述累加实数序列进行二进制转换。
其中,上述装置还包括:
归类模块,用于基于上述待识别网页的网页标识在网页识别数据库中查找与上述待识别网页的相似度小于预设阈值的目标网页,并基于上述目标网页的分类标识对上述待识别网页进行归类;其中,上述网页识别数据库中的各个网页均具备有分类标识,任一网页的分类标识用于对上述任一网页进行归类。
第三方面,本申请实施例还提供了一种计算机设备,该计算机设备包括:处理器、存储器以及网络接口;
上述处理器与上述存储器、上述网络接口相连,其中,上述网络接口用于提供数据通信功能,上述存储器用于存储程序代码,上述处理器用于调用上述程序代码,以执行本申请实施例中的方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序包括程序指令,上述程序指令被处理器执行时,执行本申请实施例中的方法。
本申请实施例提供的网页标识处理方法可以获取待识别网页的静态资源请求以及动态资源请求,其中,待识别网页的静态资源请求用于向服务器请求静态网页资源,该待识别网页的动态资源请求用于请求获取实时更新的动态网页资源。上述静态网页资源可以在终端设备的解析渲染下生成待识别网页的初始网页内容,上述动态网页资源可以在终端设备的解析渲染下生成待识别网页的交互网页内容。可以理解的是,当不同待识别网页的网页内容相同时,不同待识别网页的初始网页内容和交互网页内容相同,并且由于静态资源请求或者动态资源请求相同时,其请求获得的网页内容(初始网页内容和交互网页内容)也是相同的,因此,当不同待识别网页的网页内容相同时,不同待识别网页的静态资源请求和动态资源请求也是相同的。为此,本申请实施例可以通过待识别网页的静态资源请求和动态资源请求获得待识别网页的网页标识,不同待识别网页的网页标识可以用于表征不同待识别网页的相似度。进一步的,可以基于待识别网页的动态资源请求及静态资源请求生成待识别网页的待识别资源请求集合,将待识别网页的资源请求文本映射为待识别网页的标识特征序列,并基于标识特征序列生成待识别网页的网页标识。可以理解的是,当不同待识别网页的网页内容相同时,不同待识别网页的待识别资源请求也是相同的,为此,通过将待识别网页的资源请求文本进行映射得到的标识特征序列,可以用于表征待识别网页的网页标识。本申请实施例的网页标识处理方法通过基于待识别网页的动态资源请求及静态资源请求获取待识别网页的网页标识,可以在网站通过动态嵌入网页的方式加载待识别网页时,提高获取待识别网页的网页标识的准确度,提高判断不同待识别网页的相似度的准确率,适用性高。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种系统架构示意图;
图2是本申请实施例提供的网页标识处理方法的一种应用场景示意图;
图3是本申请实施例提供的网页标识处理方法的一种流程示意图;
图4是本申请实施例提供的网页标识处理方法的另一种流程示意图;
图5是本申请实施例提供的网页标识处理方法的另一种流程示意图;
图6是本申请实施例提供的网页标识处理方法的另一种流程示意图;
图7是本申请实施例提供的网页标识处理方法的一种计算原理示意图;
图8是本申请实施例提供的网页标识处理装置的一种结构示意图;
图9是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
本申请实施例提供的方案涉及人工智能的自然语言处理技术以及深度学习等技术,具体通过如下实施例进行说明,请参阅图1,图1是本申请实施例提供的一种系统架构示意图。如图1所示,该系统架构可以包括业务服务器100以及终端集群,终端集群可以包括:终端设备200a、终端设备200b、终端设备200c、……、终端设备200n等终端设备。其中,上述业务服务器100可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云数据库、云服务、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备(包括终端设备200a、终端设备200b、终端设备200c、……、终端设备200n)可以是掌上电脑、智能手机、笔记本电脑、台式计算机、平板电脑、移动互联网设备(mobile internet device,MID)、可穿戴设备(例如智能手表、智能手环等)、智能电脑、智能车载等智能终端,但并不局限于此。其中,业务服务器100与终端集群中的各终端设备可以建立通信连接,终端集群中的各终端设备之间也可建立通信连接。换句话说,业务服务器100可与终端设备200a、终端设备200b、终端设备200c、……、终端设备200n中的各终端设备建立通信连接,例如终端设备200a与业务服务器100之间可建立通信连接。终端设备200a与终端设备200b之间可建立通信连接,终端设备200a与终端设备200c之间也可建立通信连接。其中,上述通信连接不限定连接方式,可以通过有线通信方式进行直接或间接地连接,也可以通过无线通信方式进行直接或间接地连接等,具体可根据实际应用场景确定,本申请在此不做限制。
应该理解,如图1所示的终端集群中的每个终端设备均可以安装有应用客户端,当该应用客户端运行于各终端设备中时,可以分别与上述图1所示的业务服务器100之间进行数据交互,使得业务服务器100可以接收来自于每个终端设备的业务数据,或者业务服务器100向各终端设备推送业务数据(比如网页资源)。其中,上述应用客户端可以为浏览器应用、新闻应用、学习应用、社交应用、即时通信应用、直播应用、短视频应用、视频应用、音乐应用、购物应用、小说应用、支付应用等具有显示文字、图像以及视频等数据信息功能的应用客户端,具体可根据实际应用场景需求确定,在此不做限制。其中,该应用客户端可以为独立的客户端,也可以为集成在某客户端(例如浏览器客户端、社交客户端等)中的嵌入式子客户端,具体可根据实际应用场景确定,在此不做限定。为方便描述,以浏览器客户端为例,各操作对象在通过终端设备使用浏览器客户端的过程中,可以通过终端设备查看、点击、收藏、分享目标应用中的网页多媒体资源。可以理解,上述网页多媒体资源可以为任意一种多媒体数据,具体可以包括但不限于音频、图片或者视频等,具体可根据实际应用场景确定,在此不做限制。业务服务器100作为向浏览器客户端提供网页多媒体资源的服务器,可以为包括该应用客户端对应的后台服务器、数据处理服务器等多个服务器的集合。业务服务器100可以接收到来自每个终端设备的网页资源请求,并基于每个终端设备的网页资源请求在业务服务器100的网页资源数据库中查找与该网页资源请求相匹配的网页资源,业务服务器100可以将匹配的网页资源返回给请求网页资源的终端设备。上述浏览器客户端可以为用于向操作对象展示网页的应用客户端。具体的,该应用客户端可以基于操作对象针对目标网址的点击操作生成相应的网页资源请求并发送给上述业务服务器100,进一步的,上述应用客户端还可以接收业务服务器100返回的网页资源,并基于该网页资源对目标网址的页面内容进行渲染,以将操作对象点击的目标网址对应的目标网页展示给操作对象。
可以理解的是,在操作对象访问互联网的过程中,恶意网址可以通过伪装的网站服务内容诱导操作对象访问该恶意网址对应的恶意网站,一旦操作对象操作终端设备进入这些恶意网站,便会触发恶意网站内种植下的木马、病毒等程序,导致终端设备被感染,面临丢失账号或者隐私信息等危险。为此,上述业务服务器100中可以构建有恶意网址标识数据库,该恶意网址标识数据库存储有经过验证的恶意网址的网页标识(或者同时存储有经过验证的安全网网址的网页标识或恶意网址的网页标识),在终端设备访问业务服务器100时,业务服务器100可以基于该恶意网址标识数据库对终端设备请求访问的网址进行检测,以判断终端设备请求访问的网址是否为恶意网址。具体的,当操作对象在终端设备上应用客户端的地址栏中输入目标网址或者直接对目标网址进行点击时,终端设备可以进行域名系统(Domain Name System,DNS)解析,将目标网址的域名映射到相应的互联网协议地址(Internet Protocol Address,IP地址),并基于该目标网址的IP地址向业务服务器100发送网页资源请求,其中,该网页资源请求可以是超文本传输协议(Hyper Text TransferProtocol,HTTP)请求或者HTTPS(全Hypertext Transfer Protocol Secure)请求,该网页资源请求可以理解为用于向业务服务器100请求获取上述目标网址加载显示所用的网页资源。进一步的,业务服务器100可以基于上述网页资源请求对目标网址相对应的目标网页资源进行下载,在目标网页资源下载失败时,可以认为当前目标网址是非恶意网址,则将业务服务器100结束对目标网址的检测并返回相应的安全指示给终端设备,终端设备可以基于安全指令进一步对目标网址进行访问。
可以理解的是,当上述业务服务器100基于上述网页资源请求对目标网址相对应的目标网页资源进行下载,在目标网页资源下载成功时,业务服务器100可以将下载的目标网页资源发送给网页标识处理装置,以对目标网页资源的网页标识进行识别和处理。具体的,网页标识处理装置可以基于目标网页资源生成唯一的目标网页标识。由于相似的网站通常具有相似的网页标识,为此,业务服务器100通过在上述恶意网址标识数据库中查找与该目标网址的目标网页标识相同类别的恶意网址标识,以判断该目标网址是否为恶意网址。当业务服务器100在上述恶意网址标识数据库中查找到与该目标网址的目标网页标识相同类别的恶意网址标识时,业务服务器100确定该目标网址为恶意网址,并返回相应的风险提示给终端设备,终端设备可以根据返回的风险提示停止对该目标网址访问,从而避免终端设备被恶意网址携带的病毒攻击。此外,当业务服务器100在上述恶意网址标识数据库中查找到与该目标网址的目标网页标识相同类别的安全网址标识,或者未查找到与该目标网址的目标网页标识相同类别的恶意网址标识时,业务服务器100确定该目标网址为安全网址,并返回下载完成的目标网页资源给终端设备,终端设备可以根据返回的目标网页资源对该网站进行渲染,以显示目标网址对应的网页内容。
可以理解的是,为了实现对恶意网址的有效拦截,可以采用具有良好的区分性和鲁棒性的网页标识处理方法对操作对象访问的目标网址对应的网页标识进行获取和处理,以保证获取网址对应的网页标识并判别是否为恶意网址的准确性。其中,区分性可以理解为上述网页标识处理方法针对不同的网页可以生成不同的网页标识,鲁棒性(即抗干扰性)可以理解为在网页的内容发生轻度变化时,不会影响上述网页标识处理方法生成的网页标识。例如,在一些应用场景中,新闻网站上的新闻内容会发生频繁的更新,但是新闻网站的基本结构保持不变,此时,具有较好的鲁棒性的网页标识处理方法生成的该新闻网站的网页标识应当不发生变化。
在一些可行的实施方式中,可以通过对目标网址的HTML文件的DOM结构进行提取以构建目标网址的网页标识。其中,HTML文件指的是可以被多种应用客户端(例如网页浏览器)读取,产生网页以传递各类网页资源(即上述网页多媒体资源)的文件。通常的,HTML文件存储在分布于各个服务器的硬盘上,通过传输协议应用客户端可以远程获取这些HTML文件所传达的网页多媒体资源。应用客户端可以解释HTML文件以显示网页内容,例如,当操作对象使用网页浏览器在互联网上浏览网页时,网页浏览器可以自动完成HTML文件到网页的转换。具体的,HTML文件可以作为网页资源中的静态网页资源被转换为网页的初始网页内容。其中,静态网页资源可以理解为是一种标准的HTML文件,静态网页资源的文件扩展名为.HTML或者.htm,静态网页资源可以包括HTML标签、文本、插件程序以及应用客户端脚本等,且不包括任何服务器端脚本,静态网页资源中的每一行HTML代码都是由网页设计人员编写并上传到上述各个服务器的硬盘上,并且在上传到服务器后不再发生更改。由此可见,当终端设备向业务服务器100发送网页资源请求以请求获取目标网址对应的网页资源时,若该目标网址请求的网页资源为静态网页资源,则业务服务器100可以基于该网页资源请求返回相应的HTML文件,该HTML文件中包括目标网址请求的静态网页资源。终端设备可以对该HTML文件进行解释,以得到相应的静态网页。可以理解的是,当对上述静态网页的网页内容进行更改时,可以重新编写新的静态网页资源对应的HTML文件,并上传到各个服务器中,以使不同的终端设备可以调用更新后的HTML文件,从而对该目标网址的网页内容进行更新。
可以理解的是,网站除了采用上述静态网页进行展示之外,还可以通过向服务器请求获取动态网页资源进行展示。具体的,上述动态网页资源可以被终端设备进行解析渲染为网站的动态页面。由上述内容可知,随着网页对应的HTML代码编写完成并上传HTML文件至服务器,网页页面的内容和显示效果就不会发生变化,只有当设计人员修改网页的HTML代码,才能对网页的页面进行更改。而动态网页则不然,动态网页的页面代码虽然没有变,但是显示的内容却是可以随着时间、环境或者数据库操作的结果而发生改变。此外,动态网页和静态网页的区别可以通过是否采用动态网站技术生成,而与网页内容无关,即与网页上的各种动画、滚动字幕等视觉上的动态效果没有直接关系,动态网页和静态网页都可以展示文字和图像信息。具体的,动态网页可以通过与后台的服务器与操作对象进行交互,以完成操作对象查询、提交等操作。动态网页根据服务器上运行的服务器端脚本可以实现对网页页面的自动更新,并根据操作对象的要求和选择而动态响应,具有较强的交互性。
在一些可行的实施方式中,网页浏览器可以将上述HTML文件解析成一个树形结构,并且在此基础上定义访问和操作HTML文件的标准,根据万维网联盟(World Wide WebConsortium,W3C)标准可以将该树形结构称之为DOM结构。具体的,请参阅图2,图2是本申请实施例网页标识处理方法提供的一种应用场景示意图。如图2所示,首先可以接收目标网址www.xxx.com,并通过网址内容提取程序对目标网址www.xxx.com对应的HTML文件进行提取,以获得目标网址的HTML文件index.HTML。然后可以对目标网址的HTML文件index.HTML进行解析,得到该目标网址的DOM结构如图2所示。进一步的,可以基于该目标网址的DOM结构获取相应的DOM序列。通过对该DOM序列进行处理可以生成上述目标网址的网页标识,例如,对DOM序列“HTML head mata title body divdiv”进行处理可以得到网页标识“1110010001001101101100111011110111001011001011011100100001110010”。
可以理解的是,服务器通过对该网页标识进行识别和查找,可以确定该目标网址是否为恶意网址,或者确定该目标网址的分类类别,以实现网页推荐功能。然而,由上述内容可知,上述目标网址可以获取静态页面资源,即相应的HTML文件以生成静态页面,此外,上述目标网址还可以向服务器请求获取相应的动态网页资源,以生成动态网页。由此可见,可以采用不同网页资源(动态页面资源、静态网页资源以及动态网页资源与静态网页资源相结合的网页资源)展示相同的网页页面,即多个相同网页页面的目标网址可以具有不同HTML文件,相应的,每个目标网址对应的DOM结构也不相同。进一步的,根据上述HTML文件的DOM结构对目标网址的网页标识进行获取时,若目标网址的DOM结构较为复杂,则基于该目标网址的DOM结构获取的网页标识也更加准确。若上述目标网址的DOM结构较简单,则基于该目标网址的DOM结构获取的网页标识准确度较低,在对目标网址的网页标识与恶意网址标识数据库中的恶意网址标识进行比较时容易产生误判。同理的,在网址推荐的应用场景中,业务服务器100可以基于不同网址的网页标识之间的相似度,向操作对象推荐符合其历史兴趣爱好的网页。然而,当网站采用动态嵌入的网页资源方式获取得到目标网址的网页页面时,该目标网址对应的HTML文件只用于请求静态网页资源。因此,通过目标网址的HTML文件对应的DOM结构不能用于表征目标网址的动态网页资源。由此可见,通过目标网址的HTML文件的DOM结构获取目标网址对应的网页标识的准确性低,在比较不同网址的网页标识相似度时容易造成误判,从而影响对恶意网址的识别以及网页推荐的效果。
可以理解的是,在本申请的具体实施方式中,涉及到对象信息等相关的数据,当本申请实施例运用到具体产品或技术中时,需要获得对象许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本申请实施例提供的网页标识处理方法适用于基于应用程序(比如上述目标客户端)中的网页标识处理。可以理解的是,上述网页标识处理方法所适用的终端设备包括但不限于智能手机、计算机、平板电脑、个人数码助理(personal digital assistant,PDA)、移动互联网设备(mobile Internet device,MID)以及可穿戴设备等。可选的,终端设备也可为上述智能手机、计算机、平板电脑、PDA、MID以及可穿戴设备对应的服务器等,具体可根据实际应用场景确定,在此不做限制。对应的,本申请实施例提供的网页标识处理装置包括但不限于智能手机、计算机、平板电脑、PDA、MID以及可穿戴设备等。为方便描述,本申请实施例提供的网页标识处理装置和/或终端设备将以智能手机(或简称手机)为例进行说明。
可以理解的是,本申请实施例提供的网页标识处理方法可以由如图1所示的业务服务器100执行,也可以由终端设备(如图1所示的终端设备200a、终端设备200b、……、终端设备200n中的任意一个)执行,还可以由终端设备和业务服务器共同执行,具体可根据实际应用场景确定,此处不做限制。为便于后续理解和说明,本申请实施例可以在图1所示的终端设备集群中选择一个终端设备作为目标终端设备,例如以终端设备200b作为目标终端设备。
本申请实施例提供的网页标识处理方法可以获取待识别网页的静态资源请求以及动态资源请求,其中,待识别网页的静态资源请求用于向服务器请求静态网页资源,该待识别网页的动态资源请求用于请求获取实时更新的动态网页资源。上述静态网页资源可以在终端设备的解析渲染下生成待识别网页的初始网页内容,上述动态网页资源可以在终端设备的解析渲染下生成待识别网页的交互网页内容。可以理解的是,当不同待识别网页的网页内容相同时,不同待识别网页的初始网页内容和交互网页内容相同,并且由于静态资源请求或者动态资源请求相同时,其请求获得的网页内容(初始网页内容和交互网页内容)也是相同的,因此,当不同待识别网页的网页内容相同时,不同待识别网页的静态资源请求和动态资源请求也是相同的。为此,本申请实施例可以通过待识别网页的静态资源请求和动态资源请求获得待识别网页的网页标识,不同待识别网页的网页标识可以用于表征不同待识别网页的相似度。进一步的,可以基于待识别网页的动态资源请求及静态资源请求生成待识别网页的待识别资源请求集合,将待识别网页的资源请求文本映射为待识别网页的标识特征序列,并基于标识特征序列生成待识别网页的网页标识。可以理解的是,当不同待识别网页的网页内容相同时,不同待识别网页的待识别资源请求也是相同的,为此,通过将待识别网页的资源请求文本进行映射得到的标识特征序列,可以用于表征待识别网页的网页标识。本申请实施例的网页标识处理方法通过基于待识别网页的动态资源请求及静态资源请求获取待识别网页的网页标识,可以在网站通过动态嵌入网页的方式加载待识别网页时,提高获取待识别网页的网页标识的准确度,提高判断不同待识别网页的相似度的准确率,适用性高。
本申请实施例提供的网页标识处理方法可适用于多种类型的网页标识处理的应用,其中,上述针对多种类型的网页标识处理的应用包括但不限于:多媒体类应用、浏览器类应用、游戏类应用、购物类应用、工具类应用、社交类应用、旅行类应用以及教育类应用等具有处理多媒体资源功能的应用客户端,在此不做限制。其中,上述同一个类型的应用中可包括多款应用,在此不做限制。例如,上述多媒体类应用可包括影视播放器、音乐播放器、摄影应用、美图应用以及音频录入应用等。上述购物类应用包括但不限于影视购票应用、美食订位应用以及生活必需品购置应用等。上述工具类应用包括但不限于文件编辑、邮件、闹钟、日历、相册、设置以及指南针等。
进一步的,请参阅图3,图3是本申请实施例网页标识处理方法提供的一种流程示意图。为了便于理解,本申请实施例以终端设备为例进行说明,即以图1中的终端设备200b为例进行叙述,业务服务器可以为上述图1所对应实施例的业务服务器100。本申请实施例可应用于各种场景,包括但不限于云技术、人工智能等。在图3所示的网页标识处理方法中,网页标识处理的各个步骤可由上述图1中的终端设备200b上来执行,如图3所示,该网页标识处理方法至少可以包括以下步骤S101-步骤S104。
步骤S101、获取待识别网页的动态资源请求。
在一些可行的实施方式中,上述动态资源请求可以理解为用于向服务器请求获取实时更新的动态网页资源,上述动态网页资源可以渲染为上述待识别网页对应的交互网页内容。待识别网页的交互网页内容可以理解为不同操作对象通过终端设备的应用客户端在不同时间、地点访问该待识别网页时可能会加载显示为不同的网页内容,操作对象可以通过与应用客户端的交互,更新待识别网页的交互网页内容。由上述内容可知,动态网页资源可以被终端设备进行解析渲染为网站的动态页面,该动态页面由上述交互网页内容组成。具体的,终端设备可以对应用客户端的地址栏进行检测,并在检测到目标网址输入时,接收该目标地址并发起DNS解析请求,以将目标网址的域名转换为IP地址。进一步的,终端设备构建HTTP请求或者HTTPS的报文发送给业务服务器100,该HTTP请求或者HTTPS请求可以理解为待识别网页的动态资源请求。业务服务器100接收动态资源请求并基于该动态资源请求在存储的数据库中调用实时更新的动态网页资源返回给终端设备,终端设备对该动态网页资源进行解析渲染以得到实时更新的待识别网页的交互网页内容。此外,在对动态网页资源进行解析时,若终端设备遇到新的动态资源请求,则再次如上述内容将该动态资源请求发送给服务器以查找对应的动态网页资源,并对该动态网页资源进行解析获得待识别网页的动态页面。可以理解的是,由于终端设备可以基于动态资源请求向服务器请求调用数据库中实时更新的动态网页资源,以得到待识别网页的交互网页内容,因此,操作对象可以通过待识别网页的交互网页内容实现操作对象注册、操作对象登录、在线调查、对象管理、订单管理等丰富的交互功能。
为便于理解,本申请实施例以待识别网页为新闻发布网站的网页为例在以下内容中进行简单说明。可以理解的是,新闻发布网站可以理解为用于向操作对象提供实时更新的新闻资讯的网站,由此可见,新闻发布网站的网页页面上包括实时更新的新闻文字内容。当不同的操作对象在访问该新闻发布网站时,新闻发布网站可以基于操作对象的历史行为向操作对象推荐感兴趣的新闻,并且当操作对象在不同的时间访问该新闻发布网站时,该新闻发布网站还可以对网页中新闻文字内容进行实时更新,以向操作对象提供热点新闻。可以理解的是,为了对网页中的新闻文字内容进行实时更新,可以将该新闻发布网站页面上的新闻文字内容作为新闻发布网站页面的交互网页内容,通过向服务器发送动态资源请求,使服务器基于动态资源请求在数据库中调用实时更新的动态网页资源返回给终端设备,终端设备对该动态网页资源进行解析渲染以得到新闻发布网站实时更新的新闻文字内容,即上述交互网页内容。此外,操作对象还可以在新闻发布网站的网页上登录个人账户,为此,新闻发布网站的网页页面上还可以包括登录信息内容。具体的,操作对象可以在新闻发布网站页面的登录框中输入登录信息,以使终端设备基于新闻发布网站页面上输入的登录信息内容向服务器发送动态资源请求。进一步的,服务器可以基于该动态资源请求在数据库中进行查找,以确定该操作对象输入的登录信息是否存储在数据库中。若服务器的数据库中存在该操作输入的登录信息,则服务器可以返回“登录成功”的指令给终端设备,以使终端设备将新闻发布网站页面的登录信息内容更新为操作对象的登录信息,即操作对象已在当前新闻发布网站进行登录。
步骤S102、获取待识别网页的静态资源请求。
在一些可行的实施方式中,上述静态资源请求可以理解为用于向上述服务器请求静态网页资源,上述静态网页资源可以渲染为上述待识别网页的初始网页内容。待识别网页的初始网页内容可以理解为不同操作对象通过终端设备的应用客户端在不同时间、地点访问该待识别网页时都会加载显示的相同的网页内容。由上述内容可知,静态网页资源可以被终端设备进行解析渲染为网站的静态页面,该静态页面由上述初始网页内容组成。具体的,终端设备可以对应用客户端的地址栏进行检测,并在检测到目标网址输入时,接收该目标地址并发起DNS解析请求,以将目标网址的域名转换为IP地址。进一步的,终端设备构建HTTP请求或者HTTPS请求的报文发送给业务服务器100,该HTTP请求或者HTTPS请求可以理解为待识别网页的静态资源请求。该业务服务器100接收终端设备发送的静态资源请求并进行解析,进一步的,业务服务器100可以对基于该静态资源请求返回相应的HTML文件(即静态网页资源)给终端设备,该终端设备可以基于HTML文件进行解析渲染以生成待识别页面的初始网页内容(即静态页面)。由于静态页面可以由终端设备直接基于HTML文件解析得到,而无需访问动态服务器的数据库,减少了对数据库访问的压力,因此静态页面中初始网页内容的加载速度较快。此外,由于终端设备可以对目标网址的静态网页资源进行缓存,即在终端设备离线的状态下,终端设备仍可查询缓存的静态网页资源以显示目标网址的初始网页内容。可以理解的是,在操作对象对目标地址进行访问时,为了提高操作对象的访问体验,可以将网页中首先展示给操作对象,并且不需要频繁进行更新的网页内容通过静态网页资源加载得到,即将该网页内容作为网站的初始网页内容。
为便于理解,本申请实施例以待识别网页为新闻发布网站的网页为例在以下内容中进行简单说明。可以理解的是,由上述内容可知,为了对网页中的新闻文字内容进行实时更新,可以将该新闻发布网站页面上的新闻文字内容作为新闻发布网站页面的交互网页内容,通过向服务器发送动态资源请求,使服务器基于动态资源请求在数据库中调用实时更新的动态网页资源返回给终端设备,终端设备对该动态网页资源进行解析渲染以得到新闻发布网站实时更新的新闻文字内容。然而,由于网页上新闻文字内容的获取需要对服务器的数据库进行大量访问,使得网页页面加载的效率较低,同时增加了服务器数据库的访问压力。为了提高新闻发布网站的网页加载速度,以改善操作对象访问该新闻发布网站的体验,可以将新闻发布网站上除了新闻文字内容以外的网页内容作为初始网页内容,以静态资源请求的方式生成初始网页内容,减少对数据库的访问。可以理解的是,上述新闻发布网站上除了新闻文字内容以外的网页内容可以是新闻发布网站的待识别页面上的商标、导航栏、网页页面字体、网页页面背景等网页内容,通常的,商标、导航栏、网页页面字体、网页页面背景等网页内容不会随着访问对象、时间、地点的变化而发生改变,即不同操作对象在不同时间地点访问该新闻发布网站时,终端设备加载得到的上述网页内容是相同的。因此,可以将不需要进行频繁更新的网页内容作为待识别页面的初始网页内容。具体的,终端设备可以在检测到新闻发布网站对应的目标网址输入时,接收该目标地址并发起DNS解析请求,以将目标网址的域名转换为IP地址。进一步的,终端设备生成该目标网址的静态资源请求并发送给业务服务器100,该业务服务器100接收终端设备发送的静态资源请求并进行解析,进一步的,业务服务器100可以对基于该静态资源请求返回相应的HTML文件(即静态网页资源)给终端设备,该终端设备可以基于HTML文件进行解析渲染以生成待识别页面的商标、导航栏、网页页面字体、网页页面背景等初始网页内容。此外,终端设备可以将获取的静态网页资源存储在本地缓存中,以在操作对象再次对该新闻发布网站的目标网址进行访问时,在本地缓存中调用相应的静态网页资源进行解析渲染,以提高网页加载的速度。
在一些可行的实施方式中,由上述内容可知,当网站采用动态嵌入的网页资源方式获取得到待识别网页时,该待识别网页对应的HTML文件只用于请求静态网页资源。因此,通过待识别网页的HTML文件对应的DOM结构不能用于表征待识别网页的动态网页资源。由此可见,通过待识别网页的HTML文件的DOM结构获取待识别网页的网页标识的准确性低,在比较不同待识别网页的网页标识相似度时容易造成误判,从而影响对恶意网址的识别以及网页推荐的效果。为了提高获取待识别网页的网页标识的准确度,本申请实施例中网页标识处理方法通过获取待识别网页的动态资源请求及静态资源请求,可以基于待识别网页的动态资源请求及静态资源请求获取待识别网页的网页标识。可以理解的是,上述待识别网页的动态资源请求可以理解为用于向服务器请求待识别网页的动态网页资源,静态资源请求可以理解为用于向服务器请求待识别网页的静态网页资源。当网站采用动态嵌入的网页资源方式获取得到待识别网页时,该待识别网页对应的动态资源请求可以用于请求动态网页资源。可以理解的是,通过相同的动态资源请求可以获取得到相同的动态网页资源,即不同的网站可以通过向服务器发送相同的动态资源请求获取相同的动态网页资源,以在不同的网站上加载显示出相同的交互网页内容。由此可见,待识别网页的动态资源请求可以用于表征待识别网页的交互网页内容。同理的,通过相同的静态资源请求可以获取得到相同的静态网页资源,即不同的网站可以通过向服务器发送相同的静态资源请求获取相同的静态网页资源,以在不同的网站上加载显示出相同的初始网页内容。由此可见,待识别网页的静态资源请求可以用于表征待识别网页的初始网页内容。
在一些可行的实施方式中,可以理解的是,若不同的待识别网页的网页内容相同,即不同的待识别网页的初始网页内容和交互网页内容都是相同的,由上述内容可知,则不同待识别网页中各个待识别网页用于表征待识别网页的初始网页内容的静态资源请求,以及用于表征待识别网页的交互网页内容的动态资源请求也是相同的。同理的,当不同网站展示的网页内容的相似度较高时,则不同网站在显示为待识别页面的过程中加载的动态资源请求和静态资源请求的相似度也是较高的。由此可见,本申请实施例通过获取待识别网页的静态资源请求和动态资源请求获取待识别网页的网页标识,可以提高网页标识处理的准确性。
在一些可行的实施方式中,可以理解的是,终端设备在获取待识别页面的网页资源时会发送多次网页资源请求给服务器,在请求的过程中,可能会存在连接失败、网页资源发生移动、错误请求等请求网页资源失败的情况,此时,终端设备未获得服务器返回的网页资源。为了保证待识别网页的网页标识处理的准确度,本申请实施例可以将请求网页资源失败的网页资源请求过滤掉,而只保留请求网页资源成功的网页资源请求。具体的,当服务器接收到终端设备发送的网页资源请求(静态资源请求或者动态资源请求)时,服务器基于该网页资源请求获取存储的网页资源或者在动态运行后生成的网页资源,并且执行响应动作,生成响应报文,响应报文中可以包括状态码、响应首部、主体内容等。当终端设备对待识别网页加载显示完成时,可以在日志文件中添加一个条目来表征已经执行的网页资源请求的状态码,其中,该网页资源请求的状态码可以理解为用于表征服务器对该网页资源请求响应状态的3位数字代码。例如,当网页资源请求对应的状态码为200时,表征服务器已成功处理该次网页资源请求,并向终端设备提供了请求的网页资源;当网页资源请求对应的状态码为400时,表征服务器不理解该次网页资源请求的语法,无法向终端设备提供了请求的网页资源;当网页资源请求对应的状态码为500时,表征服务器发生了内部错误,无法完成该次网页资源请求。为此,本申请实施例中网页标识处理方法可以基于网页资源请求的状态对请求成功的网页资源请求进行筛选。
在一些可行的实施方式中,当待识别网页加载完成时,可以查询日志文件中的网页资源请求历史记录,并获取网页资源请求历史记录中待识别网页的多个初始动态资源请求,并获取各个初始动态资源请求的状态码。可以理解的是,上述多个初始动态资源请求中可以包括成功请求到动态资源的初始动态资源请求、未成功请求到动态资源的初始动态资源请求。由上述内容可知,可以基于各个初始动态资源请求的状态码确定多个初始动态资源请求中成功请求到动态资源的初始动态资源请求为上述动态资源请求。具体的,将上述多个初始动态资源请求中状态码等于预设状态码的初始动态资源请求为上述待识别网页的动态资源请求。例如,将上述多个初始动态资源请求中状态码等于200的初始动态资源请求为上述待识别网页的动态资源请求。
在一些可行的实施方式中,当待识别网页加载完成时,可以查询日志文件中的网页资源请求历史记录,并获取网页资源请求历史记录中待识别网页的多个初始静态资源请求,并获取各个初始静态资源请求的状态码。可以理解的是,上述多个初始静态资源请求中可以包括成功请求到静态资源的初始静态资源请求、未成功请求到静态资源的初始静态资源请求。由上述内容可知,可以基于各个初始静态资源请求的状态码确定多个初始静态资源请求中成功请求到静态资源的初始静态资源请求为上述静态资源请求。具体的,将上述多个初始静态资源请求中状态码等于预设状态码的初始静态资源请求为上述待识别网页的静态资源请求。例如,将上述多个初始静态资源请求中状态码等于200的初始静态资源请求为上述待识别网页的静态资源请求。
步骤S103、基于待识别网页的动态资源请求及静态资源请求生成待识别网页的待识别资源请求集合,并基于待识别资源请求集合中各个资源请求中包括的请求字段获取待识别网页的资源请求文本。
在一些可行的实施例中,本申请实施例在对多个网页资源请求进行筛选后可以得到待识别网页的动态资源请求和静态资源请求,进一步的,可以将待识别网页的动态资源请求和静态资源请求进行组合以生成待识别网页的待识别资源请求集合,其中,动态资源请求和静态资源请求组合的方式可以是根据各个网页资源请求发生的时间进行排序组合。为便于理解,本申请实施例以待识别网页的目标网址为www.xxx.com为例进行简单说明。具体的,请参阅表1,表1为待识别网页的待识别资源请求集合的表,具体如下所示:
表1
在一些可行的实施方式中,如待识别资源请求集合的表1中编号1所示,当终端设备接收到目标网址时,终端设备可以将该目标网址www.xxx.com发送给DNS服务器进行查询以获得相应的IP地址,随后,如待识别资源请求集合的表1中编号2所示,终端设备可以向服务器发送ssl.captcha.mm.com/TCaptcha.js请求以进行操作对象的验证操作,进一步的,终端设备还可以发送如编号3至17所示的请求,以对待识别网页的静态资源和动态资源进行请求,例如直译式脚本语言(JavaScript,JS)文件、层叠样式表(Cascading Style Sheets,CSS)文件、对象身份标识等。在终端设备访问目标网址以加载显示待识别网页的过程中,终端设备可以如上述待识别资源请求集合所示,向服务器发送动态资源请求以获取待识别网页的交互网页内容,或者向服务器发送静态资源请求以获取待识别网页的初始网页内容。
在一些可行的实施方式中,本申请实施例提供的网页标识处理方法可以基于待识别资源请求集合中各个资源请求中包括的请求字段获取待识别网页的资源请求文本。其中,上述各个资源请求中包括的请求字段指的是各个资源请求中包括具有区分性的有效字段。例如,待识别网页的网址中可以以http字段开头,或者以https字段开头,其中,http字段或者https字段均可以理解为一种传输协议,终端设备可以采用http字段或者https字段的传输协议与服务器进行通信。可以理解的是,在所有待识别页面加载的过程中动态资源请求和静态资源请求都会包括http字段或者https字段,即http字段或者https字段针对不同待识别页面不具有区分性,这种字段可以称之为干扰字段。因此,为了避免干扰字段对获取网页标识准确性的影响,本申请实施例的网页标识处理方法可以将待识别资源请求集合中各个资源请求中的干扰字段进行去除,并将具有区分性的有效字段确定为请求字段,并基于待识别资源请求集合中各个资源请求中包括的请求字段获取待识别网页的资源请求文本。具体的,以上述表1中的待识别资源请求集合为例,通过将多个待识别资源请求集合中各个资源请求中包括的干扰字段,即除了第一个发送的目标网址www.xxx.com以外,各个资源请求中的www.xxx.com进行去除,可以得到由各个资源请求中包括的请求字段组成的待识别网页的资源请求文本,具体的,请参阅表2,表2为待识别网页的资源请求文本的表:
表2
在一些可行的实施方式中,对如表1所示的待识别资源请求集合中各个资源请求的请求字段进行筛选后,可以得到如表2所示的资源请求文本。可以理解的是,本申请实施例提供的网页标识处理方法还可以将各个资源请求中的其他字段筛选为请求字段,具体可以根据实际应用场景确定,本申请在此不作限定。
步骤S104、将待识别网页的资源请求文本映射为待识别网页的标识特征序列,并基于标识特征序列生成待识别网页的网页标识。
在一些可行的实施方式中,在基于上述动态资源请求和静态资源请求获取待识别网页的资源请求文本后,本申请实施例提供的网页标识处理方法还可以通过哈希算法将待识别网页的资源请求文本映射为待识别网页的标识特征序列,并基于标识特征序列生成待识别网页的网页标识。可以理解的是,哈希算法是一种安全散列算法,通过哈希算法可以将任意长度的资源请求文本映射为固定长度的二进制数值,这个固定长度的二进制数值为哈希值,即上述待识别网页的标识特征序列。可以理解的是,哈希值是一段数据唯一且极其紧凑的数值表示形式,如果资源请求文本中发生更改,更改后的资源请求文本经过哈希运算后的标识特征序列也会改变。为此,可以将上述资源请求文本映射为待识别网页的标识特征序列,并将该标识特征序列确定为待识别网页的网页标识。由上述内容可知,网页内容不同的待识别网页,其资源请求文本也会不同。为此,可以通过哈希算法将上述资源请求文本映射为待识别网页的标识特征序列(即哈希值),则网页内容不同的待识别网页,其资源请求文本经过哈希算法映射后得到的标识特征序列也不同,即通过哈希算法将上述资源请求文本进行映射得到标识特征序列可以用于表征不同待识别网页的网页内容差异。因此,可以将待识别网页的标识特征序列确定为待识别网页的网页标识,通过比较不同网页的网页标识的相似度,可以确定不同网页的网页内容的相似度,从而可以实现恶意网址的有效识别拦截,或者提高网页推荐的准确度。
在一些可行的实施方式中,本申请实施例的网页标识处理方法可以根据以下步骤将上述待识别网页的资源请求文本映射为上述待识别网页的标识特征序列。具体的,请参阅图4,图4是本申请实施例提供的网页标识处理方法的另一种流程示意图。如图4所示,本申请实施例提供的网页标识处理方法经过步骤S201-步骤S203获得待识别网页的资源请求文本后,将上述待识别网页的资源请求文本映射为上述待识别网页的标识特征序列,其中,步骤S201-步骤S203获取待识别网页的资源请求文本的具体实施方式可以参阅上述步骤S101-步骤S103提供的实施方式,本申请在此不再进行赘述。进一步的,上述将上述待识别网页的资源请求文本映射为上述待识别网页的标识特征序列的实现可包括以下步骤:
步骤S204、对待识别网页的资源请求文本进行特征词提取以得到多个特征词语。
在一些可行的实施方式中,由上述内容可知,若不同的待识别网页的网页内容相同,即不同的待识别网页的初始网页内容和交互网页内容都是相同的,则不同待识别网页中各个待识别网页用于表征待识别网页的初始网页内容的静态资源请求,以及用于表征待识别网页的交互网页内容的动态资源请求也是相同的。具体的,可以通过计算不同待识别网页的动态资源请求以及静态资源请求的文本相似度,以确定不同待识别网页的网页内容的相似度。具体的,如上述表1或者表2所示,待识别网页的动态资源请求和静态资源请求可以由多个特征词语组成,例如,如表2中编号6所示的静态资源请求/static/js/manifest.8bfaa74c.js?1665392849615,其中,该静态资源请求包括特征词语static、js、manifest、8bfaa74c、js、1665392849615。当任一终端客户发起的资源请求的特征词中同样包括上述多个特征词语static、js、manifest、8bfaa74c、js、1665392849615时,该任一终端客户发起的资源请求所请求的网页资源与上述表2所示的资源请求文本中编号6的资源请求所请求的网页资源相同。可以理解的是,若不同待识别网页的网页资源请求相同,则相应的不同待识别网页的网页资源请求包括的特征词语是相同的。因此,可以通过提取待识别网页的资源请求文本中的多个特征词语,确定待识别网页的网页标识,以根据该网页标识判断不同待识别网页的相似度。同理的,可以对上述表2的资源请求文本中的多个资源请求的特征词语进行获取,以得到待识别网页的多个特征词语。
在一些可行的实施方式中,本申请实施例可以根据以下内容对上述待识别网页的资源请求文本进行特征词提取以得到多个特征词语。为便于理解,申请实施例提供的网页标识处理方法以对表2所示的待识别网页的资源请求文本进行特征词提取为例进行简单说明。具体的,例如,如表2所示的资源请求文本中编号3的资源请求为andun1.oss-accelerate.aliiiiis.com/vcaptcha.min.js。该资源请求中包括词语andun1、oss-accelerate、aliiiiis、com、vcaptcha、min、js,以及分隔字符串“.”、“/”,其中,分隔字符串可以理解为用于对网页资源请求的词语进行分隔,以表征网页资源请求的根目录或者当前目录等。可以理解的是,为了对资源请求文本中的词语进行提取,本申请实施例提供的网页标识处理方法可以对资源请求文本中的分隔字符串进行识别,以得到多个词语。例如,如表2所示的资源请求文本中编号3的资源请求为andun1.oss-accelerate.aliiiiis.com/vcaptcha.min.js,通过对该资源请求的分隔字符串进行识别,可以在识别到分隔字符串“.”时提取到词语andun1、oss-accelerate、aliiiiis、min、js,并且在识别到分隔字符串“/”时提取到词语com、vcaptcha。可以理解的是,该资源请求包括多个词语andun1、oss-accelerate、aliiiiis、com、vcaptcha、min、js。同理的,可以对表2所示的待识别网页的资源请求文本中多个资源请求的分隔字符串进行识别,以得到待识别网页的多个词语。
在一些可行的实施方式中,在对资源请求文本中的分隔串字符进行识别以得到多个词语后,本申请实施例提供的网页标识处理方法还可以对上述多个词语进行分类以得到多个分类词语,其中,一个分类词语中包括多个相同类别的词语。进一步的,根据每个分类词语中包括的词语个数获取上述每个分类词语的出现频次,从上述多个分类词语中确定出现频次较高的K个分类词语,并将上述K个分类词语确定为上述资源请求文本的多个特征词语。具体的,如表2所示的资源请求文本所示,不同编号的资源请求可以包括相同的词语,例如,编号6至8、编号10的资源请求中均包括词语static、js,编号11至13的资源请求中均包括词语media、png,即词语可以在资源请求文本中多次出现,且资源请求文本中不同词语出现的次数可以不同。可以理解的是,不同待识别网页的资源请求文本中可以出现相同的词语,当不同待识别网页在资源请求文本中出现最多次数的词语相同,可以理解为不同待识别网页的资源请求文本的相似度高,即不同待识别网页的网页内容相似度高。为此,本申请实施例提供的网页标识处理方法可以对待识别网页的资源请求文本中多个词语的出现次数进行统计,并将出现次数较高的多个词语确定为待识别网页的特征词语。
在一些可行的实施方式中,本申请实施例提供的网页标识处理方法可以对待识别网页的资源请求文本中多个词语进行分类以得到多个分类词语,并得到每个分类词语的出现频次(即出现次数)。其中,上述多个分类词语可以理解为资源请求文本中出现的不同词语。例如,如表2所示的资源请求文本中编号5到8的多个资源请求中均包括词语static,由此可以将编号5到8的多个资源请求中的词语static分类为一个分类词语static,且该分类词语static在编号5到8的多个资源请求中的出现频次为4,即分类词语static在编号5到8的多个资源请求中出现了4次。此外,编号6到8的多个资源请求中均包括词语js,由此可以将编号6到8的多个资源请求中的词语js分类为一个分类词语js,且该分类词语js在编号6到8的多个资源请求中的出现频次为6,即分类词语static在编号6到8的多个资源请求中出现了6次。同理的,可以对表2所示的资源请求文本中的多个词语进行分类,并获取每个分类词语的出现频次。进一步的,由于针对相同或者相似度高的不同待识别网页,其资源请求文本可以存在差异性。因此,若在不同待识别网页的每个分类词语都相同时才确定不同待识别网页相同或者相似度高,容易降低网页标识处理的鲁棒性。为此,本申请实施例提供的网页标识处理方法可以将待识别网页的所有分类词语中出现频次较高的K个分类词语确定为用于进行获取待识别网页的网页标识的K个特征词语,以提高网页标识处理的鲁棒性。其中,K为正整数,K的具体取值可以根据实际应用场景进行确定,本申请在此不作限定。由此可见,当不同待识别网页在资源请求文本中出现较高出现频次的多个特征词语相同,可以理解为不同待识别网页的资源请求文本的相似度高,即不同待识别网页的网页内容相似度高。为便于理解,本申请实施例提供的网页标识处理方法可以表2所示的资源请求文本为例,通过对表2中的多个词语进行分类,以得到多个分类词语以及每个分类词语的出现频次,并根据每个分类词语的出现频次确定待识别网页的多个特征词语,以及每个特征词语的出现频次,具体的,请参阅表3,表3为待识别网页特征词语的出现频次的表:
表3
步骤S205、获取多个特征词语中各个特征词语的权重系数,并基于各个特征词语的权重系数将多个特征词语映射为多个加权实数序列。
在一些可行的实施方式中,可以理解的是,由上述内容可知,基于待识别网页的资源请求文本中出现频次较高的多个词语获得的多个特征词语,在一定程度上可以对待识别网页的网页标识进行表征。然而,由于不同特征词语含有的信息量不同,即每个特征词语相对于待识别网页的重要程度不同,因此,为了提高待识别网页的网页标识处理的准确性,在获取待识别网页的多个特征词语后,进一步的,可以获取上述多个特征词语中各个特征词语的权重系数,并基于上述各个特征词语的权重系数对相应的特征词语进行加权。其中,上述各个特征词语的权重系数可以理解为用于表征各个特征词相对于待识别网页的网页标识的重要程度,任一特征词语的权重系数越高,则该特征词语相比于其他特征词语对于获取待识别网页的网页标识更加重要。为便于理解,本申请实施例以表3的多个特征词语为例进行简单说明。具体的,假设在待识别网页的四个特征词语js、static、com以及1665392849615中,特征词语com在不同网站加载待识别网页的网页资源请求中出现较多,即该特征词语区分性相比于其他的特征词语js、static、com的区分性更差,为此,在待识别网页的四个特征词语js、static、com以及1665392849615中特征词语com的权重系数最低。同理的,特征词语1665392849615在不同网站加载待识别网页的网页资源请求中出现较少,因此,该特征词语区分性相比于其他的特征词语js、static、com的区分性更好,为此,在待识别网页的四个特征词语js、static、com中特征词语1665392849615的权重系数最高。具体的,确定每个特征词语的权重系数的方法可以根据实际应用场景进行确定,本申请在此不作限定。进一步的,可以对表3中的所有特征词语的权重系数进行获取,以得到每个特征词语的权重系数分布,具体的,请参阅表4,表4为待识别网页特征词语的权重系数的表:
表4
可以理解的是,由表4中待识别网页的各个特征词语的权重系数可以得知,js、static、com、1665392849615、member等权重系数较高的特征词语对于获取待识别网页的网页标识的重要程度更高,权重系数较低的特征词语对于获取待识别网页的网页标识的重要程度比较低。通过对待识别网页的各个特征词语赋予相应的权重系数,可以提高待识别网页的网页标识处理的准确度。
在一些可行的实施方式中,本申请实施例提供的网页标识处理方法可以根据以下内容获取上述多个特征词语中各个特征词语的权重系数。具体的,首先,可以查找上述多个特征词语中各个特征词语在语料库中的逆向文件频率,其中任一特征词语在语料库中的逆向文件频率可以理解为是一种用于表征该特征词语的普遍重要性的度量。任一特征词语在语料库中的逆向文件频率可以通过包含该特征词语的文件数与语料库中文件总数的比值计算得到。可以理解的是,若任一特征词语在待识别网页的资源请求文本(即语料库的一个文件)中多次出现,而在其他网页的资源请求文本中很少出现,该特征词语在语料库中的逆向文件频率较低,则该特征词语具有较好的类别区分能力,适合用来区分不同待识别网页的资源请求文本,即对于获取待识别网页的网页标识的重要程度较高,相应的,该特征词语的权重系数更高。因此,本申请实施例提供的网页标识处理方法可以通过各个特征词语在语料库中的逆向文件频率获取各个特征词语的权重系数。进一步的,各个特征词语的权重系数与特征词语在语料库中的逆文件频率成反比,同时还与特征词语在待识别网页的资源请求文本中的出现频次成正比。为此,本申请实施例提供的网页标识处理方法还可以基于上述各个特征词语的出现频次获取上述各个特征词语的词频,并基于上述各个特征词语的词频以及逆向文件频率获取上述各个特征词语的权重系数。其中,各个特征词语的词频可以理解为特征词语在资源请求文本中的出现次数。若任一特征词语的词频越高,该特征词语在资源请求文本中的出现次数越多,则该特征词语的重要程度越高。可以理解的是,任一特征词语的词频与该特征词语的权重系数成正比。进一步的,可以计算上述任一特征词语的词频与该特征词语的逆文件频率的乘积,得到该特征词语的权重系数。同理的,本申请实施例提供的网页标识处理方法可以基于上述内容计算得到资源请求文本中所有特征词语的权重系数。
在一些可行的实施方式中,由上述内容可知,在获取待识别网页的多个特征词语后,可以基于上述各个特征词语的权重系数将上述多个特征词语映射为多个加权实数序列。为此,本申请实施例提供的网页标识处理方法将待识别网页的多个特征词语分别映射为多个二进制序列,并基于上述任一特征词语的权重系数对上述任一特征词语的二进制序列进行加权,以得到任一特征词语的加权实数序列。具体的,本申请实施例提供的网页标识处理方法可以通过哈希函数对表4中的多个特征词语进行映射,以得到如表5所示多个特征词语的二进制序列,具体的,请参阅表5,表5为待识别网页多个特征词语的二进制序列的表:
表5
可以理解的是,上述多个特征词语在经过哈希函数计算之后,可以得到多个具有固定长度的二进制序列,其中,每个二进制序列中均包括多个二进制数值,任一二进制序列中二进制数值的个数即为该二进制序列的长度。可以理解的是,各个特征词语的二进制序列中多个二进制数值的排列顺序各不相同,任一特征词语的二进制序列是该特征词语的唯一标识。进一步的,在获得如表5所示的多个特征词语的权重系数和二进制序列后,由上述内容可知,待识别网页的各个特征词语的重要程度不同,为此,为了提高网页标识处理的准确度,本申请实施例提供的网页标识方法可以基于上述任一特征词语的权重系数对上述任一特征词语的二进制序列进行加权。具体的,如表5中所示的特征词语js的权重系数为0.130435,特征词语js的二进制序列为0000000000110000001101000001100100100110111011101100110011001111,若对特征词语js的二进制序列进行加权,则基于特征词语js的权重系数0.130435分别对特征词语js的二进制序列中的二进制数值进行加权。具体的,当二进制序列的二进制数值为0时,上述基于权重系数对该二进制数值进行加权即为使权重系数0.130435乘以﹣1得到﹣0.130435,当二进制序列的二进制数值为1时,上述基于权重系数对该二进制数值进行加权即为使权重系数0.130435乘以1得到0.130435,同理的,基于特征词语js的权重系数对二进制序列中的所有二进制数值进行加权,即可得到该特征词语js的加权实数序列。可以理解的是,根据上述内容,本申请实施例提供的网页标识处理方法可以基于如表5所示的多个特征词语的权重系数对该其二进制序列进行加权,以得到多个特征词语对应的多个加权实数序列如表6所示,具体的,请参阅表6,表6为待识别网页多个特征词语对应的多个加权实数序列的表:
表6
步骤S206、对多个加权实数序列进行累加以得到待识别网页的累加实数序列,并对累加实数序列进行二进制转换,以得到资源请求文本对应的标识特征序列。
在一些可行的实施例中,本申请实施例提供的网页标识处理方法在基于上述内容获取待识别网页的多个加权实数序列后,还可以对待识别网页的多个加权实数序列进行累加以得到待识别网页的累加实数序列。具体的,如表6所示,对待识别网页的特征词语js和特征词语static的加权实数序列进行累加时,由于每个特征词语的加权实数序列都包括了固定长度的加权实数,在累加的过程中,可以将特征词语js的加权实数序列中的第一个加权实数-0.1304和特征词语static的加权实数序列中的第一个加权实数0.0869相加,以得到特征词语js和特征词语static的加权实数序列累加得到的第一个累加实数。并将特征词语js的加权实数序列中的第二个加权实数-0.1304和特征词语static的加权实数序列中的第二个加权实数-0.0869相加,以得到特征词语js和特征词语static的加权实数序列累加得到的第二个累加实数。同理的,可以按照同样的方式将特征词语js的加权实数序列中的第N个加权实数和特征词语static的加权实数序列中的第N个加权实数相加,直至将特征词语js和特征词语static的加权实数序列中的每个加权实数进行累加。可以理解的是,本申请实施例可以根据上述内容对如表6所示的待识别网页的多个加权实数序列进行累加,以得到如表6所示的累加实数序列SUM。
在一些可行的实施方式中,为了简化网页标识的处理,可以对上述累加实数序列进行二进制转换。具体的,可以将上述累加实数序列中大于0的累加实数置换为1,并将上述累加实数序列中小于或者等于0的累加实数置换为0,从而实现对待识别网页的累加实数序列进行二进制转换。例如,本申请实施例以对如表6所示的待识别网页的累加实数序列SUM进行二进制转换为例进行说明。具体的,表6所示的待识别网页的累加实数序列SUM中包括多个累加实数-1.304e-01、-1.304e-01、0.000e+0、-1.387e-17、…,通过将多个累加实数中小于或者等于0的累加实数置换为0,可以将多个累加实数-1.304e-01、-1.304e-01、0.000e+0、-1.387e-17、…置换为0000…,以得到该待识别网页的标识特征序列,具体的,请参阅表7,表7为待识别网页的标识特征序列的表:
编号 | 累加实数 | 置换结果 |
1 | -1.304e-01 | 0 |
2 | -1.304e-01 | 0 |
3 | 0.000e+0 | 0 |
4 | -1.387e-17 | 0 |
5 | -4.130e-01 | 0 |
6 | -2.826e-01 | 0 |
7 | -2.391e-01 | 0 |
8 | -3.478e-01 | 0 |
9 | 1.304e-01 | 1 |
10 | -1.086e-01 | 0 |
11 | 0.000e+0 | 0 |
12 | 2.826e-01 | 1 |
13 | 1.739e-01 | 1 |
14 | -3.260e-01 | 0 |
15 | -3.913e-01 | 0 |
16 | -6.521e-02 | 0 |
… | … | … |
60 | 6.521e-02 | 1 |
61 | 6.521e-02 | 1 |
62 | 4.347e-02 | 1 |
63 | 4.347e-02 | 1 |
64 | -6.521e-02 | 0 |
可以理解的是,本申请实施例提供的网页标识处理方法可以根据上述内容获取上述目标网址www.xxx.com对应的待识别网页的标识特征序列为0000000010011000000101000000100100000110110001101110110010011110。为便于理解,本申请以图5所示的流程为例对获取上述目标网址www.xxx.com对应的待识别网页的标识特征序列的过程进行简单说明。具体的,请参阅图5,图5是本申请实施例提供的网页标识处理方法的另一种流程示意图。如图5所示,本申请实施例提供的网页标识处理方法在基于目标网址对应的待识别网页的动态资源请求和静态资源请求得到待识别网页的资源请求文本后,可以根据上述分隔字符串对资源请求文本中的词语进行提取,以得到待识别网页的多个词语,从而实现对资源请求文本的分词。在经过上述分词处理得到多个词语之后,可以对多个词语进行分类得到分类词语,并且计算每个分类词语的词频,从而根据每个分类词语的词频计算得到各个分类词语的权重系数。随后可以根据各个分类词语的权重系数获取重要程度最高的K个分类词语作为待识别网页的K个特征词语(即TOP-K特征词语)。在获取待识别网页的多个特征词语后,可以将上述多个特征词语分别映射为固定长度的二进制序列,并且基于上述任一特征词语的权重系数对上述任一特征词语的二进制序列进行加权,以得到任一特征词语的加权实数序列,从而得到上述目标网址www.xxx.com对应的网址实数向量(即上述累加实数序列)。进一步的,通过对目标网址的网址实数向量进行二进制转换,可以得到该目标网址的标识特征序列,即该目标网址对应的待识别网页的网页标识。
可以理解的是,将该待识别网页的标识特征序列可以理解为用于表征待识别网页的网页内容,即不同待识别网页的网页内容相似度越高,不同待识别网页的标识特征序列的相似度越高。为此,可以直接将上述待识别网页的标识特征序列确定为该待识别网页的网页标识,即目标网址www.xxx.com对应的待识别网页的网页标识为0000000010011000000101000000100100000110110001101110110010011110。此外,还可以根据实际应用场景的需要对待识别网页的标识特征序列进一步处理,以得到待识别网页的网页标识,本申请在此不作限定。
在一些可行的实施方式中,由上述内容可知,在获得待识别网页的网页标识之后,本申请实施例提供的网页标识处理还可以基于待识别网页的网页标识,对该待识别网页进行归类。可以理解的,本申请实施例可以基于上述待识别网页的网页标识在网页识别数据库中查找与上述待识别网页的相似度小于预设阈值的目标网页。若上述网页识别数据库中存在与待识别网页的网页标识的相似度小于预设阈值的网页,则将该与待识别网页的网页标识的相似度小于预设阈值的网页确定为目标网页,并且基于网页识别数据库中的各个网页的分类标识,对待识别网页进行归类,即将待识别网页归类为目标网页的分类。其中,任一网页的分类标识用于对上述任一网页进行归类。若上述网页识别数据库中不存在与待识别网页的网页标识的相似度小于预设阈值的网页,则将该待识别网页的网页标识存储至网页识别数据库以方便再次查找。可以理解的是,若上述网页识别数据库中存在与待识别网页的网页标识的相似度小于预设阈值的网页,表征该网页的网页内容与待识别网页的网页内容的相似度小于预设阈值,即该网页与待识别网页可能为相似网页,因此,可以将待识别网页划分为与该网页相同类别的网页。
在一些可行的实施方式中,本申请实施例提供的网页标识处理方法可以通过计算待识别网页的网页标识与任一其他网页的网页标识的海明距离,以确定待识别网页与任一其他网页的相似度。具体的,请参阅图6,图6是本申请实施例提供的网页标识处理方法的另一种流程示意图。如图6所示,根据上述内容获取第一目标网址www.xxx.com的待识别网页的网页标识为第一网页标识,以及上述任一其他网页,例如第二目标网址www.yyy.com的网页标识为第二网页标识。具体的,如图6所示,本申请实施例提供的网页标识处理方法在基于第一目标网址www.xxx.com对应的待识别网页的动态资源请求和静态资源请求得到待识别网页的资源请求文本后,可以根据上述分隔字符串对资源请求文本中的词语进行提取,以得到待识别网页的多个词语,从而实现对资源请求文本的分词。在经过上述分词处理得到多个词语之后,可以对多个词语进行分类得到分类词语,并且计算每个分类词语的词频,从而根据每个分类词语的词频计算得到各个分类词语的权重系数。随后可以根据各个分类词语的权重系数获取重要程度最高的K个分类词语作为待识别网页的K个特征词语(即TOP-K特征词语)。在获取待识别网页的多个特征词语后,可以将上述多个特征词语分别映射为固定长度的二进制序列,并且基于上述任一特征词语的权重系数对上述任一特征词语的二进制序列进行加权,以得到任一特征词语的加权实数序列,从而得到上述目标网址www.xxx.com对应的网址实数向量(即上述累加实数序列)。进一步的,通过对目标网址的网址实数向量进行二进制转换,可以得到该第一目标网址的标识特征序列,即该第一目标网址对应的待识别网页的第一网页标识。同理的,如图6所示,本申请实施例提供的网页标识处理方法在基于第二目标网址www.yyy.com对应的待识别网页的动态资源请求和静态资源请求得到待识别网页的资源请求文本后,可以根据上述分隔字符串对资源请求文本中的词语进行提取,以得到待识别网页的多个词语,从而实现对资源请求文本的分词。在经过上述分词处理得到多个词语之后,可以对多个词语进行分类得到分类词语,并且计算每个分类词语的词频,从而根据每个分类词语的词频计算得到各个分类词语的权重系数。随后可以根据各个分类词语的权重系数获取重要程度最高的K个分类词语作为待识别网页的K个特征词语(即TOP-K特征词语)。在获取待识别网页的多个特征词语后,可以将上述多个特征词语分别映射为固定长度的二进制序列,并且基于上述任一特征词语的权重系数对上述任一特征词语的二进制序列进行加权,以得到任一特征词语的加权实数序列,从而得到上述目标网址www.yyy.com对应的网址实数向量(即上述累加实数序列)。进一步的,通过对目标网址的网址实数向量进行二进制转换,可以得到该第二目标网址的标识特征序列,即该第二目标网址对应的待识别网页的第二网页标识。
可以理解的是,基于上述步骤获得第一目标网址的第一网页标识以及第二目标网址的第二网页标识后,进一步的,如图6所示,可以通过计算第一网页标识和第二网页标识的海明距离获得第一目标网址的待识别网页和第二目标网址的待识别网页的相似度。其中,若第一网页标识和第二网页标识的海明距离大于3(即预设阈值),则第一目标网址对应的待识别网页和第二目标网址对应的待识别网页的相似度高,可以将第二目标网址对应的待识别网页确定为上述目标网页。若第一网页标识和第二网页标识的海明距离小于或者等于3,则待识别网页和网页的相似度低,不能将该第二目标网址对应的待识别网页确定为目标网页。为便于理解,本申请实施例以上述第一网页标识为0000000010011000000101000000100100000110110001101110110010011110,第二网页标识为0001000010011000000101000000100100000110110001101110110010011110为例进行说明。具体的,请参阅图7,图7是本申请实施例提供的网页标识处理方法的一种计算原理示意图。如图7所示,可以对第一网页标识和第二网页标识进行异或计算,以获取海明距离,其中,海明距离等于第一网页标识和第二网页标识进行异或计算后“1”的个数,由此可见,第一网页标识和第二网页标识的海明距离等于1,即待识别网页与该网页的相似度较高,可以将该网页确定为目标网页。
本申请实施例提供的网页标识处理方法可以获取待识别网页的静态资源请求以及动态资源请求,其中,待识别网页的静态资源请求用于向服务器请求静态网页资源,该待识别网页的动态资源请求用于请求获取实时更新的动态网页资源。上述静态网页资源可以在终端设备的解析渲染下生成待识别网页的初始网页内容,上述动态网页资源可以在终端设备的解析渲染下生成待识别网页的交互网页内容。可以理解的是,当不同待识别网页的网页内容相同时,不同待识别网页的初始网页内容和交互网页内容相同,并且由于静态资源请求或者动态资源请求相同时,其请求获得的网页内容(初始网页内容和交互网页内容)也是相同的,因此,当不同待识别网页的网页内容相同时,不同待识别网页的静态资源请求和动态资源请求也是相同的。为此,本申请实施例可以通过待识别网页的静态资源请求和动态资源请求获得待识别网页的网页标识,不同待识别网页的网页标识可以用于表征不同待识别网页的相似度。进一步的,可以基于待识别网页的动态资源请求及静态资源请求生成待识别网页的待识别资源请求集合,将待识别网页的资源请求文本映射为待识别网页的标识特征序列,并基于标识特征序列生成待识别网页的网页标识。可以理解的是,当不同待识别网页的网页内容相同时,不同待识别网页的待识别资源请求也是相同的,为此,通过将待识别网页的资源请求文本进行映射得到的标识特征序列,可以用于表征待识别网页的网页标识。本申请实施例的网页标识处理方法通过基于待识别网页的动态资源请求及静态资源请求获取待识别网页的网页标识,可以在网站通过动态嵌入网页的方式加载待识别网页时,提高获取待识别网页的网页标识的准确度,提高判断不同待识别网页的相似度的准确率,适用性高。
基于上述网页标识处理方法实施例的描述,本申请实施例还公开了一种网页标识处理装置。该网页标识处理装置可以被应用于图1至图7所示实施例的网页标识处理方法中,以用于执行网页标识处理方法中的步骤。这里网页标识处理装置可以是上述图1至图7所示实施例中的业务服务器或者终端设备,即该网页标识处理装置可以为上述图1至图7所示实施例中网页标识处理方法的执行主体。请参阅图8,图8是本申请实施例提供的网页标识处理装置的一种结构示意图。在本申请实施例中,该装置可运行如下模块:
资源请求获取模块1,用于获取待识别网页的动态资源请求,上述动态资源请求用于向服务器请求获取实时更新的动态网页资源,上述动态网页资源用于渲染为上述待识别网页对应的交互网页内容;
上述资源请求获取模块1还用于获取待识别网页的静态资源请求,上述静态资源请求用于向上述服务器请求静态网页资源,上述静态网页资源用于渲染为上述待识别网页的初始网页内容;
请求文本获取模块2,用于基于待识别网页的动态资源请求及静态资源请求生成上述待识别网页的待识别资源请求集合,并基于上述待识别资源请求集合中各个资源请求中包括的请求字段获取上述待识别网页的资源请求文本;
生成模块3,用于将上述待识别网页的资源请求文本映射为上述待识别网页的标识特征序列,并基于上述标识特征序列生成上述待识别网页的网页标识。
根据上述图3所对应的实施例,图3所示的网页标识处理方法中步骤S101至S104所描述的实现方式可由图8所示的装置的各个模块执行。例如,上述图3所示的网页标识处理方法中步骤S101所描述的实现方式可由图7所示的装置中资源请求获取模块1来执行,步骤S102所描述的实现方式可由图7所示的装置中资源请求获取模块1来执行,步骤S103所描述的实现方式可由请求文本获取模块2来执行,步骤S104所描述的实现方式可由生成模块3来执行,其中,上述资源请求获取模块1、请求文本获取模块2、以及生成模块3所执行的实现方式可参见上述图3所对应的实施例中各个步骤所提供的实现方式,在此不再赘述。
其中,上述资源请求获取模块1包括:
动态资源请求获取单元11,用于获取待识别网页的多个初始动态资源请求,并获取各个初始动态资源请求的状态码,将上述多个初始动态资源请求中状态码等于预设状态码的初始动态资源请求确定为上述待识别网页的动态资源请求。
其中,上述资源请求获取模块1还包括:
静态资源请求获取单元12,用于获取上述待识别网页的多个初始静态资源请求,并获取各个初始静态资源请求的状态码,将上述多个初始静态资源请求中状态码等于预设状态码的初始静态资源请求确定为上述待识别网页的静态资源请求。
其中,上述生成模块3包括:
特征词提取单元31,用于对上述待识别网页的资源请求文本进行特征词提取以得到多个特征词语;
加权单元32,用于获取上述多个特征词语中各个特征词语的权重系数,并基于上述各个特征词语的权重系数将上述多个特征词语映射为多个加权实数序列;
标识特征序列生成单元33,用于对上述多个加权实数序列进行累加以得到上述待识别网页的累加实数序列,并对上述累加实数序列进行二进制转换,以得到上述资源请求文本对应的标识特征序列。
其中,上述特征词提取单元31包括:
词语划分子单元311,用于对上述待识别网页的资源请求文本中的分隔字符串进行识别,并基于识别出的分隔字符串将上述资源请求文本划分为多个词语;
分类子单元312,用于对上述多个词语进行分类以得到多个分类词语,其中,一个分类词语中包括多个相同类别的词语;
词频获取子单元313,用于基于每个分类词语中包括的词语个数获取上述每个分类词语的出现频次,从上述多个分类词语中确定出现频次较高的K个分类词语,其中,K为正整数;
特征词语确定子单元314,用于将上述K个分类词语确定为上述资源请求文本的多个特征词语。
其中,上述加权单元32包括:
查找子单元321,用于查找上述多个特征词语中各个特征词语在语料库中的逆向文件频率;
权重系数获取子单元322,用于基于上述各个特征词语的出现频次获取上述各个特征词语的词频,并基于上述各个特征词语的词频以及逆向文件频率获取上述各个特征词语的权重系数;
加权实数获取子单元323,用于将上述多个特征词语中的任一特征词语映射为二进制序列,并基于上述任一特征词语的权重系数对上述任一特征词语的二进制序列进行加权,以得到任一特征词语的加权实数序列;
加权实数序列获取子单元324,用于基于上述各个特征词语的加权实数序列获得上述多个特征词语映射得到的多个加权实数序列。
其中,上述加权实数获取子单元323还用于:
基于哈希函数将上述多个特征词语中的任一特征词语映射为预设长度的二进制序列,上述任一特征词语映射得到的二进制序列中包括多个二进制数值;
将上述任一特征词语的权重系数分别与上述任一特征词语映射得到的二进制序列中的多个二进制数相乘以对上述任一特征词语的二进制序列进行加权。
其中,上述标识特征序列生成单元33还用于:
将上述累加实数序列中大于0的累加实数置换为1,并将上述累加实数序列中小于或者等于0的累加实数置换为0,将累加实数置换后得到的累加实数序列确定为上述资源请求文本对应的标识特征序列以对上述累加实数序列进行二进制转换。
其中,上述装置还包括:
归类模块4,用于基于上述待识别网页的网页标识在网页识别数据库中查找与上述待识别网页的相似度小于预设阈值的目标网页,并基于上述目标网页的分类标识对上述待识别网页进行归类;其中,上述网页识别数据库中的各个网页均具备有分类标识,任一网页的分类标识用于对上述任一网页进行归类。
本申请实施例提供的网页标识处理方法可以获取待识别网页的静态资源请求以及动态资源请求,其中,待识别网页的静态资源请求用于向服务器请求静态网页资源,该待识别网页的动态资源请求用于请求获取实时更新的动态网页资源。上述静态网页资源可以在终端设备的解析渲染下生成待识别网页的初始网页内容,上述动态网页资源可以在终端设备的解析渲染下生成待识别网页的交互网页内容。可以理解的是,当不同待识别网页的网页内容相同时,不同待识别网页的初始网页内容和交互网页内容相同,并且由于静态资源请求或者动态资源请求相同时,其请求获得的网页内容(初始网页内容和交互网页内容)也是相同的,因此,当不同待识别网页的网页内容相同时,不同待识别网页的静态资源请求和动态资源请求也是相同的。为此,本申请实施例可以通过待识别网页的静态资源请求和动态资源请求获得待识别网页的网页标识,不同待识别网页的网页标识可以用于表征不同待识别网页的相似度。进一步的,可以基于待识别网页的动态资源请求及静态资源请求生成待识别网页的待识别资源请求集合,将待识别网页的资源请求文本映射为待识别网页的标识特征序列,并基于标识特征序列生成待识别网页的网页标识。可以理解的是,当不同待识别网页的网页内容相同时,不同待识别网页的待识别资源请求也是相同的,为此,通过将待识别网页的资源请求文本进行映射得到的标识特征序列,可以用于表征待识别网页的网页标识。本申请实施例的网页标识处理方法通过基于待识别网页的动态资源请求及静态资源请求获取待识别网页的网页标识,可以在网站通过动态嵌入网页的方式加载待识别网页时,提高获取待识别网页的网页标识的准确度,提高判断不同待识别网页的相似度的准确率,适用性高。
在本申请实施例中,上述图所示的装置中的各个模块可以分别或全部合并为一个或若干个另外的模块来构成,或者其中的某个(些)模块还可以再拆分为功能上更小的多个模块来构成,这可以实现同样的操作,而不影响本申请实施例的技术效果的实现。上述模块是基于逻辑功能划分的,在实际应用中,一个模块的功能也可以由多个模块来实现,或者多个模块的功能由一个模块实现。在本申请的其它可行的实现方式中,上述装置也可以包括其它模块,在实际应用中,这些功能也可以由其它模块协助实现,并且可以由多个模块协作实现,在此不做限制。
请参阅图9,图9是本申请实施例提供的计算机设备的一种结构示意图。如图9所示,该计算机设备1000可以为上述图1-图7所对应实施例中的终端设备。该计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,该计算机设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图9所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
其中,该计算机设备1000中的网络接口1004还可以与上述图1所对应实施例中的终端200b进行网络连接,且可选用户接口1003还可以包括显示屏(Display)、键盘(Keyboard)。在图9所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为开发人员提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现前文图3所对应实施例中网页标识处理方法。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图3所对应实施例中对网页标识处理方法的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时实现图3中各个步骤所提供的网页标识处理方法,具体可参见上述图3各个步骤所提供的实现方式,在此不再赘述。
上述计算机可读存储介质可以是前述任一实施例提供的网页标识处理装置或者上述计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (12)
1.一种网页标识处理方法,其特征在于,包括:
获取待识别网页的动态资源请求,所述动态资源请求用于向服务器请求获取实时更新的动态网页资源,所述动态网页资源用于渲染为所述待识别网页对应的交互网页内容;
获取所述待识别网页的静态资源请求,所述静态资源请求用于向所述服务器请求静态网页资源,所述静态网页资源用于渲染为所述待识别网页的初始网页内容;
基于待识别网页的动态资源请求及静态资源请求生成所述待识别网页的待识别资源请求集合,并基于所述待识别资源请求集合中各个资源请求中包括的请求字段获取所述待识别网页的资源请求文本;
将所述待识别网页的资源请求文本映射为所述待识别网页的标识特征序列,并基于所述标识特征序列生成所述待识别网页的网页标识。
2.根据权利要求1所述的方法,其特征在于,所述获取待识别网页的动态资源请求包括:
获取待识别网页的多个初始动态资源请求,并获取各个初始动态资源请求的状态码,将所述多个初始动态资源请求中状态码等于预设状态码的初始动态资源请求确定为所述待识别网页的动态资源请求。
3.根据权利要求1所述的方法,其特征在于,所述获取所述待识别网页的静态资源请求包括:
获取所述待识别网页的多个初始静态资源请求,并获取各个初始静态资源请求的状态码,将所述多个初始静态资源请求中状态码等于预设状态码的初始静态资源请求确定为所述待识别网页的静态资源请求。
4.根据权利要求1所述的方法,其特征在于,所述将所述待识别网页的资源请求文本映射为所述待识别网页的标识特征序列,包括:
对所述待识别网页的资源请求文本进行特征词提取以得到多个特征词语;
获取所述多个特征词语中各个特征词语的权重系数,并基于所述各个特征词语的权重系数将所述多个特征词语映射为多个加权实数序列;
对所述多个加权实数序列进行累加以得到所述待识别网页的累加实数序列,并对所述累加实数序列进行二进制转换,以得到所述资源请求文本对应的标识特征序列。
5.根据权利要求4所述的方法,其特征在于,所述对所述待识别网页的资源请求文本进行特征词提取以得到多个特征词语,包括:
对所述待识别网页的资源请求文本中的分隔字符串进行识别,并基于识别出的分隔字符串将所述资源请求文本划分为多个词语;
对所述多个词语进行分类以得到多个分类词语,其中,一个分类词语中包括多个相同类别的词语;
基于每个分类词语中包括的词语个数获取所述每个分类词语的出现频次,从所述多个分类词语中确定出现频次较高的K个分类词语,其中,K为正整数;
将所述K个分类词语确定为所述资源请求文本的多个特征词语。
6.根据权利要求5所述的方法,其特征在于,所述获取所述多个特征词语中各个特征词语的权重系数,并基于所述各个特征词语的权重系数将所述多个特征词语映射为多个加权实数序列,包括:
查找所述多个特征词语中各个特征词语在语料库中的逆向文件频率;
基于所述各个特征词语的出现频次获取所述各个特征词语的词频,并基于所述各个特征词语的词频以及逆向文件频率获取所述各个特征词语的权重系数;
将所述多个特征词语中的任一特征词语映射为二进制序列,并基于所述任一特征词语的权重系数对所述任一特征词语的二进制序列进行加权,以得到任一特征词语的加权实数序列;
基于所述各个特征词语的加权实数序列获得所述多个特征词语映射得到的多个加权实数序列。
7.根据权利要求6所述的方法,其特征在于,所述将所述多个特征词语中的任一特征词语映射为二进制序列,并基于所述任一特征词语的权重系数对所述任一特征词语的二进制序列进行加权,包括:
基于哈希函数将所述多个特征词语中的任一特征词语映射为预设长度的二进制序列,所述任一特征词语映射得到的二进制序列中包括多个二进制数值;
将所述任一特征词语的权重系数分别与所述任一特征词语映射得到的二进制序列中的多个二进制数相乘以对所述任一特征词语的二进制序列进行加权。
8.根据权利要求4所述的方法,其特征在于,所述累加实数序列中包括多个累加实数,所述对所述累加实数序列进行二进制转换,包括:
将所述累加实数序列中大于0的累加实数置换为1,并将所述累加实数序列中小于或者等于0的累加实数置换为0,将累加实数置换后得到的累加实数序列确定为所述资源请求文本对应的标识特征序列以对所述累加实数序列进行二进制转换。
9.根据权利要求1-8任一项所述的方法,其特征在于,所述基于所述标识特征序列生成所述待识别网页的网页标识之后,所述方法还包括:
基于所述待识别网页的网页标识在网页识别数据库中查找与所述待识别网页的相似度小于预设阈值的目标网页,并基于所述目标网页的分类标识对所述待识别网页进行归类;其中,所述网页识别数据库中的各个网页均具备有分类标识,任一网页的分类标识用于对所述任一网页进行归类。
10.一种网页标识处理装置,其特征在于,包括:
资源请求获取模块,用于获取待识别网页的动态资源请求,所述动态资源请求用于向服务器请求获取实时更新的动态网页资源,所述动态网页资源用于渲染为所述待识别网页对应的交互网页内容;
所述资源请求获取模块还用于获取所述待识别网页的静态资源请求,所述静态资源请求用于向所述服务器请求静态网页资源,所述静态网页资源用于渲染为所述待识别网页的初始网页内容;
请求文本获取模块,用于基于待识别网页的动态资源请求及静态资源请求生成所述待识别网页的待识别资源请求集合,并基于所述待识别资源请求集合中各个资源请求中包括的请求字段获取所述待识别网页的资源请求文本;
确定模块,用于将所述待识别网页的资源请求文本映射为所述待识别网页的标识特征序列,并基于所述标识特征序列生成所述待识别网页的网页标识。
11.一种计算机设备,其特征在于,包括:处理器、存储器以及网络接口;
所述处理器与所述存储器、所述网络接口相连,其中,所述网络接口用于提供数据通信功能,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行权利要求1至9中任一项所述方法的步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,执行权利要求1至9中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310128454.6A CN116484133A (zh) | 2023-02-06 | 2023-02-06 | 网页标识处理方法、装置、计算机设备以及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310128454.6A CN116484133A (zh) | 2023-02-06 | 2023-02-06 | 网页标识处理方法、装置、计算机设备以及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116484133A true CN116484133A (zh) | 2023-07-25 |
Family
ID=87222008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310128454.6A Pending CN116484133A (zh) | 2023-02-06 | 2023-02-06 | 网页标识处理方法、装置、计算机设备以及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116484133A (zh) |
-
2023
- 2023-02-06 CN CN202310128454.6A patent/CN116484133A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Aljofey et al. | An effective detection approach for phishing websites using URL and HTML features | |
CN104766014B (zh) | 用于检测恶意网址的方法和系统 | |
CN107204960B (zh) | 网页识别方法及装置、服务器 | |
CN103888490B (zh) | 一种全自动的web客户端人机识别的方法 | |
CN108566399B (zh) | 钓鱼网站识别方法及系统 | |
US20150295942A1 (en) | Method and server for performing cloud detection for malicious information | |
CN106095979B (zh) | Url合并处理方法和装置 | |
CN102957664B (zh) | 一种识别钓鱼网站的方法及装置 | |
CN104156490A (zh) | 基于文字识别检测可疑钓鱼网页的方法及装置 | |
CN101853300A (zh) | 一种视频下载服务网站的识别、评估方法及系统 | |
CN107153716B (zh) | 网页内容提取方法和装置 | |
CN104239582A (zh) | 基于特征向量模型识别钓鱼网页的方法及装置 | |
Roy Choudhary et al. | Cross-platform feature matching for web applications | |
CN104158828A (zh) | 基于云端内容规则库识别可疑钓鱼网页的方法及系统 | |
CN113918794B (zh) | 企业网络舆情效益分析方法、系统、电子设备及存储介质 | |
CN115757991A (zh) | 一种网页识别方法、装置、电子设备和存储介质 | |
CN107786529B (zh) | 网站的检测方法、装置及系统 | |
CN114157568B (zh) | 一种浏览器安全访问方法、装置、设备及存储介质 | |
WO2018056299A1 (ja) | 情報収集システム、情報収集方法、及び、記録媒体 | |
CN115801455B (zh) | 一种基于网站指纹的仿冒网站检测方法及装置 | |
US20130230248A1 (en) | Ensuring validity of the bookmark reference in a collaborative bookmarking system | |
CN115437930B (zh) | 网页应用指纹信息的识别方法及相关设备 | |
CN108595453B (zh) | Url标识映射获取方法及装置 | |
CN111125704A (zh) | 一种网页挂马识别方法及系统 | |
CN110825976B (zh) | 网站页面的检测方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40090373 Country of ref document: HK |