CN115022284A - 网页中外链识别方法、系统和电子设备 - Google Patents

网页中外链识别方法、系统和电子设备 Download PDF

Info

Publication number
CN115022284A
CN115022284A CN202210622679.2A CN202210622679A CN115022284A CN 115022284 A CN115022284 A CN 115022284A CN 202210622679 A CN202210622679 A CN 202210622679A CN 115022284 A CN115022284 A CN 115022284A
Authority
CN
China
Prior art keywords
domain name
character string
character
legal
suspected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210622679.2A
Other languages
English (en)
Inventor
杨国良
李伟波
石琳皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Reyzar Technology Co ltd
Original Assignee
Reyzar Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Reyzar Technology Co ltd filed Critical Reyzar Technology Co ltd
Priority to CN202210622679.2A priority Critical patent/CN115022284A/zh
Publication of CN115022284A publication Critical patent/CN115022284A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9027Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种网页中外链识别方法、系统和电子设备,应用于IPv6服务端,IPv6服务端部署在IPv6客户端和IPv4的HTTP站点之间,包括:获取网页中的HTTP响应报文中的顶级域名字符串;从所述查找到的顶级域名字符串中提取上下文信息,并获取所在完整域名字符串;基于预设的语法规则对所述上下文信息进行判断,以确定所述域名字符串是否为合法外链。该方式中,基于外链中的域名特性和网页中的基本逻辑结构,通过多模式匹配算法识别网页中的顶级域名字符串,并基于预设语法规则对顶级域名字符串的上下文进行判断,从而查找外链,以提升外链查找的效率和精准性,从而提升用户体验。

Description

网页中外链识别方法、系统和电子设备
技术领域
本发明涉及通讯技术领域,尤其是涉及一种网页中外链识别方法、系统和电子设备。
背景技术
IPv4网络的网站升级到IPv6网络的网站后,网站页面会有其他网站的链接,即外链。如果外链网站没有IPv6网络,那么IPv6客户端在升级网站中点击该外链,就会访问失败。所以IPv6网站在将网页返回给客户端之前,需要将页面内的外链识别出来,以便对外链域名进行一定格式的转换。现有技术方法并不能实现对外链的快速查找,也不能准确的判断查找到的是否是外链。
发明内容
有鉴于此,本发明的目的在于提供一种网页中外链识别方法、系统和电子设备,以缓解现有技术中不能实现对外链的快速查找,也不能准确的判断查找到的链接是否是外链的技术问题。
第一方面,本发明实施例提供了一种网页中外链识别方法,应用于IPv6服务端,IPv6服务端部署在IPv6客户端和IPv4的HTTP站点之间,该方法包括:获取网页中的HTTP响应报文中的顶级域名字符串;其中,HTTP响应报文为在IPv6客户端向IPv4的HTTP站点发送HTTP请求后,从IPv4的HTTP站点响应的HTTP响应报文中得到的;从查找到的顶级域名字符串中提取上下文信息,并获取所在完整域名字符串;基于预设的语法规则对上下文信息进行判断,以确定域名字符串是否为合法外链。
进一步的,获取网页中的HTTP响应报文中的顶级域名字符串的步骤,包括:通过字符串匹配算法在HTTP响应报文中快速查找到顶级域名字符串,通过多模式匹配算法将HTTP响应报文与预设字典树进行匹配,以确定HTTP响应报文中的顶级域名字符串;其中,字典树预先基于常用顶级域名名词作为关键词构建。
这里,字典树是由IPv6服务端预先使用常见的顶级域名名字构建的,包括:“.com”、“.cn”、“.net”和“.org”等。
进一步的,从HTTP响应报文中提取顶级域名字符串的上下文信息的步骤,包括:提取顶级域名字符串的前序域名字符串和顶级域名字符串之后的字符串;将前序域名字符串和顶级域名字符串之后的字符串确定为顶级域名字符串的上下文信息。
进一步的,基于预设的语法规则对上下文信息进行判断,以确定域名字符串是否为合法外链的步骤,包括:判断前序域名字符串中的字符是否属于合法域名字符,如果否,确定域名字符串不是合法外链;如果是,确定前序域名字符串为前序合法域名字符串;判断前序合法域名字符串中是否包含指定字符,如果是,确定域名字符串不是合法外链;指定字符包括:“@”字符、连续的“.”字符、连续的“-”字符;如果否,将域名字符串确定为疑似外链,并基于顶级域名字符串之后的字符串确定疑似外链是否为疑似合法外链。
进一步的,基于顶级域名字符串之后的字符串确定疑似外链是否为疑似合法外链的步骤,包括:S1:判断顶级域名字符串之后的字符串中的第一个字符是否为“:”字符,如果是,执行S2;如果否,执行S3;S2:判断“:”字符后面是否有连续数字字符,且连续数字字符的数值在0-65535之间,如果是,执行S3;如果否,确定疑似外链不是疑似合法外链;S3:判断连续数字字符之后的下一个字符是否为“?”字符或者“/”字符或者“#”字符,如果是,确定疑似外链是疑似合法外链;如果否,执行S4;S4:确定连续数字字符之后的第一个非空格类字符,判断非空格类字符是否为“””字符,或者“’”字符,或者“`”字符,如果是,确定疑似外链是疑似合法外链;如果否,确定疑似外链不是疑似合法外链。
进一步的,在确定连续数字字符之后的第一个非空格类字符,判断非空格类字符是否为“””字符,或者“’”字符,或者“`”字符,如果是,确定疑似外链是疑似合法外链的步骤之后,方法还包括:获取疑似合法外链的域名;判断域名是否为网页域名;如果不是,确定疑似合法外链是合法外链。
进一步的,该方法还包括:如果接收到IPv6客户端针对HTTP外链的访问请求,将HTTP响应报文封装成IPv6响应报文发送给IPv6客户端。
第二方面,本发明实施例提供了一种网页中外链识别系统,应用于IPv6服务端,IPv6服务端部署在IPv6客户端和IPv4的HTTP站点之间,该系统包括:获取模块,用于获取网页中的HTTP响应报文中的顶级域名字符串;其中,HTTP响应报文为在IPv6客户端向IPv4的HTTP站点发送HTTP请求后,从IPv4的HTTP站点响应的HTTP响应报文中得到的;上下文提取模块,用于从查找到的顶级域名字符串中提取上下文信息,并获取所在完整域名字符串;判断模块,用于基于预设的语法规则对上下文信息进行判断,以确定域名字符串是否为合法外链。
第三方面,本发明实施例提供了电子系统,包括处理设备和存储装置;存储装置上存储有计算机程序,计算机程序在被处理设备运行时执行上述任一项的外链识别方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理设备运行时执行如上述任一项的外链识别方法的步骤。
本发明实施例提供了一种网页中外链识别方法、系统和电子设备,应用于IPv6服务端,IPv6服务端部署在IPv6客户端和IPv4的HTTP站点之间,包括:获取网页中的HTTP响应报文中的顶级域名字符串;从所述查找到的顶级域名字符串中提取上下文信息,并获取所在完整域名字符串;基于预设的语法规则对所述上下文信息进行判断,以确定所述域名字符串是否为合法外链。该方式中,基于外链中的域名特性和网页中的基本逻辑结构,通过多模式匹配算法对网页中的外链进行查找,以提升外链查找的效率和精准性,从而提升用户体验。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的网页中外链识别方法流程图;
图2为本发明实施例一提供的基于顶级域名字符串之后的字符串确定疑似外链是否为疑似合法外链流程图;
图3为本发明实施例二提供的网页中外链识别系统示意图。
图标:1-获取模块;2-上下文提取模块;3-判断模块。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为便于对本实施例进行理解,下面对本发明实施例进行详细介绍。
实施例一:
IPv4网络的网站升级到IPv6网络的网站后,其网站页面会有外链,如果外链网站没有IPv6网络,那么IPv6客户端在升级网站中点击该外链就会访问失败。目前,现有的网页中外链识别方法不能做到快速准确的识别出外链,也不能在IPv6客户端点击外链之前将外链地址进行转换。
为了解决上述问题,本发明提供了一种思路是:IPv6服务端在IPv6网站将网页返回给客户端之前,将网页中的外链识别出来,并对外链域名进行格式的转换。在IPv6客户端点击转换后的外链域名时,就会访问到支持IPv6的代理服务器,从而访问成功。
为了详细描述本发明的技术方法,本发明实施例提供了一种网页中外链识别方法,参照图1,该方法可以应用于IPv6服务端,IPv6服务端部署在IPv6客户端和IPv4的HTTP站点之间,该方法包括以下步骤:
步骤S101,获取网页中的HTTP响应报文中的顶级域名字符串;其中,HTTP响应报文为在IPv6客户端向IPv4的HTTP站点发送HTTP请求后,从IPv4的HTTP站点响应的HTTP响应报文中得到的;
步骤S102,从查找到的顶级域名字符串中提取上下文信息,并获取所在完整域名字符串;
步骤S103,基于预设的语法规则对上下文信息进行判断,以确定域名字符串是否为合法外链。
这里,HTTP响应报文为IPv6客户端向IPv4服务器发送源站资源请求报文后,IPv4服务器所生成的请求响应报文。在获取HTTP响应报文中的域名字符串后,基于域名的特性查找出网页中的顶级域名字符串,并根据网页逻辑判断顶级域名字符串的上下文是域名还是代码片段,从而识别出合法外链。
进一步的,获取网页中的HTTP响应报文中的顶级域名字符串的步骤,包括:
通过字符串匹配算法在HTTP响应报文中快速查找到顶级域名字符串,通过多模式匹配算法将HTTP响应报文与预设字典树进行匹配,以确定HTTP响应报文中的顶级域名字符串;其中,字典树预先基于常用顶级域名名词作为关键词构建。
具体地,使用多模式匹配算法,按顺序将网页中的域名字符串与字典树进行匹配,如果当前域名字符串与字典树匹配成功,则确定当前域名字符串为常用顶级域名名词;如果当前域名字符串与字典树匹配失败,则确定当前域名字符串不是常用顶级域名名词。如果当前域名字符串不是页面中最后一个域名字符串,则将下一个域名字符串与字典树进行匹配直至页面中没有未进行匹配的域名字符串。
进一步的,从HTTP响应报文中提取顶级域名字符串的上下文信息的步骤,包括:
提取顶级域名字符串的前序域名字符串和顶级域名字符串之后的字符串;
将前序域名字符串和顶级域名字符串之后的字符串确定为顶级域名字符串的上下文信息。
这里,顶级域名字符串的前序域名字符串指的是顶级域名字符串之前的所有连续域名组成的字符串。
进一步的,基于预设的语法规则对上下文信息进行判断,以确定域名字符串是否为合法外链的步骤,包括:
判断前序域名字符串中的字符是否属于合法域名字符,如果否,确定域名字符串不是合法外链;
如果是,确定前序域名字符串为前序合法域名字符串;
判断前序合法域名字符串中是否包含指定字符,如果是,确定域名字符串不是合法外链;指定字符包括:“@”字符、连续的“.”字符、连续的“-”字符;
如果否,将域名字符串确定为疑似外链,并基于顶级域名字符串之后的字符串确定疑似外链是否为疑似合法外链。
具体地,在查找到顶级域名字符串后,逐个字符判断前序域名字符串中的字符,来获取一条疑似外链。如果前序域名字符串中的字符是属于合法的域名字符,即数字字符、英文字母字符、“-”字符和“.”字符,那么当前字符就属于疑似外链的字符,直到遇到第一个不是合法域名字符的字符,则判断结束,获取到一条疑似外链。如果第一个不合法域名的字符是“@”字符,则说明该字符串是邮箱域名,也不是外链。
在逐个字符获取疑似外链的过程中,“-”字符和“.”字符不能相邻存在,比如:“-.”,并且“-”字符或“.”字符不能有相同的相邻,比如:“--”或“..”,如果不满足上述条件,则当前域名字符串不是疑似外链。
进一步的,参照图2所示的基于顶级域名字符串之后的字符串确定疑似外链是否为疑似合法外链流程图,基于第二非域名字符串确定疑似外链是否为合法外链的步骤可以通过下述步骤S1-S4实现:
S1:判断顶级域名字符串之后的字符串中的第一个字符是否为“:”字符,如果是,执行S2;如果否,执行S3;
S2:判断“:”字符后面是否有连续数字字符,且连续数字字符的数值在0-65535之间,如果是,执行S3;如果否,确定疑似外链不是疑似合法外链;
S3:判断连续数字字符之后的下一个字符是否为“?”字符或者“/”字符或者“#”字符,如果是,确定疑似外链是疑似合法外链;如果否,执行S4;
S4:确定连续数字字符之后的第一个非空格类字符,判断非空格类字符是否为“””字符,或者“’”字符,或者“`”字符,如果是,确定疑似外链是疑似合法外链;如果否,确定疑似外链不是疑似合法外链。
具体地,如果当前域名字符串确定为疑似外链,则基于顶级域名字符串之后的字符串确定疑似外链是否为合法外链。按顺序获取顶级域名字符串之后的字符串中的字符,并逐个字符的判断其是否符合html(超文本标记语言)对域名格式的要求,判断顶级域名字符串之后的字符串中是否存在端口号,端口号的格式是否正确。如果顶级域名字符串之后的字符串中的第一个字符是“:”字符,根据URL(uniform resource locator,统一资源定位系统)规则,顶级域名字符串之后的字符串中存在端口号。获取“:”字符后的字符,并判断其中是否有连续数字字符,且连续数字字符的数值在0-65535之间,如果没有则疑似外链不是疑似合法外链。
如果“:”字符后面是否有连续数字字符,且连续数字字符的数值在0-65535之间,则判断下一个字符是否为“?”字符或“/”字符或“#”字符中的一个,如果是,则说明疑似外链是疑似合法外链。
如果不是,则从当前字符开始逐个判断后面的字符是否为空格类字符,如“”字符、“\n”字符、“\r”字符、“\t”字符,直至找到第一个非空格类字符。如果该非空格类字符是“””字符或“’”字符或“`”字符,则疑似外链是疑似合法外链,否则疑似外链不是疑似合法外链。
进一步的,在确定连续数字字符之后的第一个非空格类字符,判断非空格类字符是否为“””字符,或者“’”字符,或者“`”字符,如果是,确定疑似外链是疑似合法外链的步骤之后,方法还包括:
获取疑似合法外链的域名;
判断域名是否为网页域名;
如果不是,确定疑似合法外链是合法外链。
这里,如果当前合法外链的域名不是本网站的域名,则确定当前疑似合法外链是合法外链。
进一步的,网页中外链识别方法还包括:
如果接收到IPv6客户端针对HTTP外链的访问请求,将HTTP响应报文封装成IPv6响应报文发送给IPv6客户端。
这里,根据HTTPS外链的查找结果,对外链域名进行格式的转换。在IPv6客户端点击转换后的外链域名时,就会访问到支持IPv6的代理服务器,从而访问成功。
本发明实施例提供了一种网页中外链识别方法,应用于IPv6服务端,IPv6服务端部署在IPv6客户端和IPv4的HTTP站点之间,方法包括:获取网页中的HTTP响应报文中的顶级域名字符串;从所述查找到的顶级域名字符串中提取上下文信息,并获取所在完整域名字符串;基于预设的语法规则对所述上下文信息进行判断,以确定所述域名字符串是否为合法外链。该方式中,基于外链中的域名特性和网页中的基本逻辑结构,通过多模式匹配算法识别网页中的顶级域名字符串,并基于预设语法规则对顶级域名字符串的上下文进行判断,从而查找外链,以提升外链查找的效率和精准性,从而提升用户体验。
实施例二:
图3为本发明实施例二提供的网页中外链识别系统示意图。
参照图3,网页中外链识别系统应用于IPv6服务端,IPv6服务端部署在IPv6客户端和IPv4的HTTP站点之间,系统包括:
获取模块1,用于获取网页中的HTTP响应报文中的顶级域名字符串;其中,HTTP响应报文为在IPv6客户端向IPv4的HTTP站点发送HTTP请求后,从IPv4的HTTP站点响应的HTTP响应报文中得到的;
上下文提取模块2,用于从查找到的顶级域名字符串中提取上下文信息,并获取所在完整域名字符串;
判断模块3,用于基于预设的语法规则对上下文信息进行判断,以确定域名字符串是否为合法外链。
本发明实施例提供了一种网页中外链识别系统,应用于IPv6服务端,IPv6服务端部署在IPv6客户端和IPv4的HTTP站点之间,系统包括:获取网页中的HTTP响应报文中的顶级域名字符串;从所述查找到的顶级域名字符串中提取上下文信息,并获取所在完整域名字符串;基于预设的语法规则对所述上下文信息进行判断,以确定所述域名字符串是否为合法外链。该系统中,通过多模式匹配算法对网页中的外链进行查找,以提升外链查找的效率和精准性,从而提升用户体验。
本发明实施例还提供一种电子系统,包括处理设备和存储装置;存储装置上存储有计算机程序,计算机程序在被处理设备运行时实现上述实施例提供的网页中外链识别方法的步骤。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理设备运行时执行上述实施例的网页中外链识别方法的步骤。
本发明实施例所提供的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种网页中外链识别方法,其特征在于,应用于IPv6服务端,所述IPv6服务端部署在IPv6客户端和IPv4的HTTP站点之间,所述方法包括:
获取网页中的HTTP响应报文中的顶级域名字符串;其中,所述HTTP响应报文为在所述IPv6客户端向所述IPv4的HTTP站点发送HTTP请求后,从所述IPv4的HTTP站点响应的HTTP响应报文中得到的;
从查找到的所述顶级域名字符串中提取上下文信息,并获取所在完整域名字符串;
基于预设的语法规则对所述上下文信息进行判断,以确定所述域名字符串是否为合法外链。
2.根据权利要求1所述的网页中外链识别方法,其特征在于,获取网页中的HTTP响应报文中的顶级域名字符串的步骤,包括:
通过字符串匹配算法在HTTP响应报文中快速查找到顶级域名字符串,通过多模式匹配算法将所述HTTP响应报文与预设字典树进行匹配,以确定所述HTTP响应报文中的顶级域名字符串;其中,所述字典树预先基于常用顶级域名名词作为关键词构建。
3.根据权利要求1所述的网页中外链识别方法,其特征在于,从所述HTTP响应报文中提取所述顶级域名字符串的上下文信息的步骤,包括:
提取所述顶级域名字符串的前序域名字符串和所述顶级域名字符串之后的字符串;
将所述前序域名字符串和所述顶级域名字符串之后的所述字符串确定为所述顶级域名字符串的上下文信息。
4.根据权利要求3所述的网页中外链识别方法,其特征在于,基于预设的语法规则对所述上下文信息进行判断,以确定所述域名字符串是否为合法外链的步骤,包括:
判断所述前序域名字符串中的字符是否属于合法域名字符,如果否,确定所述域名字符串不是合法外链;
如果是,确定所述前序域名字符串为前序合法域名字符串;
判断所述前序合法域名字符串中是否包含指定字符,如果是,确定所述域名字符串不是合法外链;所述指定字符包括:“@”字符、连续的“.”字符、连续的“-”字符;
如果否,将所述域名字符串确定为疑似外链,并基于所述顶级域名字符串之后的所述字符串确定所述疑似外链是否为疑似合法外链。
5.根据权利要求4所述的网页中外链识别方法,其特征在于,基于所述顶级域名字符串之后的所述字符串确定所述疑似外链是否为疑似合法外链的步骤,包括:
S1:判断所述顶级域名字符串之后的所述字符串中的第一个字符是否为“:”字符,如果是,执行S2;如果否,执行S3;
S2:判断“:”字符后面是否有连续数字字符,且所述连续数字字符的数值在0-65535之间,如果是,执行S3;如果否,确定所述疑似外链不是所述疑似合法外链;
S3:判断所述连续数字字符之后的下一个字符是否为“?”字符或者“/”字符或者“#”字符,如果是,确定所述疑似外链是所述疑似合法外链;如果否,执行S4;
S4:确定所述连续数字字符之后的第一个非空格类字符,判断所述非空格类字符是否为“””字符,或者“’”字符,或者“`”字符,如果是,确定所述疑似外链是所述疑似合法外链;如果否,确定所述疑似外链不是所述疑似合法外链。
6.根据权利要求5所述的网页中外链识别方法,其特征在于,在确定所述连续数字字符之后的第一个非空格类字符,判断所述非空格类字符是否为“””字符,或者“’”字符,或者“`”字符,如果是,确定所述疑似外链是所述疑似合法外链的步骤之后,所述方法还包括:
获取所述疑似合法外链的域名;
判断所述域名是否为网页域名;
如果不是,确定所述疑似合法外链是所述合法外链。
7.根据权利要求6所述的网页中外链识别方法,其特征在于,所述方法还包括:
如果接收到所述IPv6客户端针对所述HTTP外链的访问请求,将所述HTTP响应报文封装成IPv6响应报文发送给所述IPv6客户端。
8.一种网页中外链识别系统,其特征在于,应用于IPv6服务端,所述IPv6服务端部署在IPv6客户端和IPv4的HTTP站点之间,所述系统包括:
获取模块,用于获取网页中的HTTP响应报文中的顶级域名字符串;其中,所述HTTP响应报文为在所述IPv6客户端向所述IPv4的HTTP站点发送HTTP请求后,从所述IPv4的HTTP站点响应的HTTP响应报文中得到的;
上下文提取模块,用于从查找到的所述顶级域名字符串中提取上下文信息,并获取所在完整域名字符串;
判断模块,用于基于预设的语法规则对所述上下文信息进行判断,以确定所述域名字符串是否为合法外链。
9.一种电子系统,其特征在于,所述电子系统包括:处理设备和存储装置;
所述存储装置上存储有计算机程序,所述计算机程序在被所述处理设备运行时执行如权利要求1至7任一项所述的外链识别方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理设备运行时执行如权利要求1至7任一项所述的外链识别方法的步骤。
CN202210622679.2A 2022-06-01 2022-06-01 网页中外链识别方法、系统和电子设备 Pending CN115022284A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210622679.2A CN115022284A (zh) 2022-06-01 2022-06-01 网页中外链识别方法、系统和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210622679.2A CN115022284A (zh) 2022-06-01 2022-06-01 网页中外链识别方法、系统和电子设备

Publications (1)

Publication Number Publication Date
CN115022284A true CN115022284A (zh) 2022-09-06

Family

ID=83072318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210622679.2A Pending CN115022284A (zh) 2022-06-01 2022-06-01 网页中外链识别方法、系统和电子设备

Country Status (1)

Country Link
CN (1) CN115022284A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106161352A (zh) * 2015-03-31 2016-11-23 阿里巴巴集团控股有限公司 一种匹配方法和客户端,服务器以及匹配设备
CN106790503A (zh) * 2016-12-16 2017-05-31 广东睿哲科技股份有限公司 一种基于HTTP反向代理实现无天窗的IPv4网站应用向IPv6升级的装置
CN109451097A (zh) * 2019-01-02 2019-03-08 北京宏图佳都通信设备有限公司 IPv4/IPv6地址转换系统
CN109586962A (zh) * 2018-11-29 2019-04-05 睿哲科技股份有限公司 IPv4升级到IPv6的HTTPS外链问题的处理装置、方法及电子设备
CN111107056A (zh) * 2019-11-22 2020-05-05 睿哲科技股份有限公司 外链url资源调用的方法、装置及协议转换服务器
CN112866439A (zh) * 2021-04-02 2021-05-28 中国工商银行股份有限公司 数据处理方法、装置及系统
CN113055503A (zh) * 2021-02-28 2021-06-29 新华三信息安全技术有限公司 IPv6网页链接处理方法、装置、设备及可读存储介质
CN113347177A (zh) * 2021-05-31 2021-09-03 中国工商银行股份有限公司 钓鱼网站检测方法、检测系统、电子设备及可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106161352A (zh) * 2015-03-31 2016-11-23 阿里巴巴集团控股有限公司 一种匹配方法和客户端,服务器以及匹配设备
CN106790503A (zh) * 2016-12-16 2017-05-31 广东睿哲科技股份有限公司 一种基于HTTP反向代理实现无天窗的IPv4网站应用向IPv6升级的装置
CN109586962A (zh) * 2018-11-29 2019-04-05 睿哲科技股份有限公司 IPv4升级到IPv6的HTTPS外链问题的处理装置、方法及电子设备
CN109451097A (zh) * 2019-01-02 2019-03-08 北京宏图佳都通信设备有限公司 IPv4/IPv6地址转换系统
CN111107056A (zh) * 2019-11-22 2020-05-05 睿哲科技股份有限公司 外链url资源调用的方法、装置及协议转换服务器
CN113055503A (zh) * 2021-02-28 2021-06-29 新华三信息安全技术有限公司 IPv6网页链接处理方法、装置、设备及可读存储介质
CN112866439A (zh) * 2021-04-02 2021-05-28 中国工商银行股份有限公司 数据处理方法、装置及系统
CN113347177A (zh) * 2021-05-31 2021-09-03 中国工商银行股份有限公司 钓鱼网站检测方法、检测系统、电子设备及可读存储介质

Similar Documents

Publication Publication Date Title
US9218482B2 (en) Method and device for detecting phishing web page
CN102663000B (zh) 恶意网址数据库的建立方法、恶意网址的识别方法和装置
US20160063541A1 (en) Method for detecting brand counterfeit websites based on webpage icon matching
CN107341399B (zh) 评估代码文件安全性的方法及装置
US7917523B2 (en) Method and system for providing improved URL mangling performance using fast re-write
CN103810268B (zh) 加载搜索结果推荐信息、网址检测的方法、装置和系统
CN108900554B (zh) Http协议资产检测方法、系统、设备及计算机介质
US11431749B2 (en) Method and computing device for generating indication of malicious web resources
CN103793508B (zh) 一种加载推荐信息、网址检测的方法、装置和系统
CN101727471A (zh) 网站内容检索系统及方法
CN110929257B (zh) 一种网页中携带恶意代码的检测方法和装置
JP2012053893A (ja) 検索結果提供方法及びシステム
CN115022284A (zh) 网页中外链识别方法、系统和电子设备
CN109710860B (zh) 一种url分类匹配的方法及装置
CN105516114A (zh) 一种基于网页哈希值扫描漏洞的方法、装置及电子设备
CN108200191B (zh) 利用微扰法的客户端动态url相关脚本字符串检测系统
CN114553825B (zh) 一种网页地址转短地址的方法及系统
CN106161427B (zh) 一种网页处理方法、网络分析器及http服务器
CN113992390A (zh) 一种钓鱼网站的检测方法及装置、存储介质
CN113065419A (zh) 一种基于流量高频内容的模式匹配算法及系统
CN116821548B (zh) 一种网页分页方法、装置及计算机可读存储介质
CN114172723B (zh) 一种暴力破解检测方法及装置
CN113886132B (zh) web端错误智能修复方法、设备及计算机可读存储介质
CN110851747B (zh) 一种信息匹配方法和装置
WO2008048061A1 (en) Method for processing native language internet address and storage medium for saving program of executing the same

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination