CN115955458A - 一种内容分发网络地址的识别方法及装置 - Google Patents

一种内容分发网络地址的识别方法及装置 Download PDF

Info

Publication number
CN115955458A
CN115955458A CN202211269220.5A CN202211269220A CN115955458A CN 115955458 A CN115955458 A CN 115955458A CN 202211269220 A CN202211269220 A CN 202211269220A CN 115955458 A CN115955458 A CN 115955458A
Authority
CN
China
Prior art keywords
network address
similarity
domain name
address
website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211269220.5A
Other languages
English (en)
Inventor
李祉岐
胡威
党芳芳
王利斌
孙强
程杰
尹琴
夏昂
闫丽景
郭晨萌
李宁
焦艳斌
林婷婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Siji Network Security Beijing Co ltd
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
Information and Telecommunication Branch of State Grid Henan Electric Power Co Ltd
Original Assignee
State Grid Siji Network Security Beijing Co ltd
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
Information and Telecommunication Branch of State Grid Henan Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Siji Network Security Beijing Co ltd, State Grid Corp of China SGCC, State Grid Information and Telecommunication Co Ltd, Information and Telecommunication Branch of State Grid Henan Electric Power Co Ltd filed Critical State Grid Siji Network Security Beijing Co ltd
Priority to CN202211269220.5A priority Critical patent/CN115955458A/zh
Publication of CN115955458A publication Critical patent/CN115955458A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请实施例提供一种内容分发网络地址的识别方法及装置,包括:在发送探测报文后,获取对应的响应数据包;对所述响应数据包进行解析,得到网络信息;其中,所述网络信息包括网络地址、域名和服务类型;统计同一网络地址对应的多个域名和服务类型,并基于统计结果计算网络地址与各域名之间的网络地址相似度;根据所述网络地址相似度,确定该网络地址是否为内容分发网络地址。利用本申请的方法,能够准确识别内容分发网地址。

Description

一种内容分发网络地址的识别方法及装置
技术领域
本申请实施例涉及网络技术领域,尤其涉及一种内容分发网络地址的识别方法及装置。
背景技术
内容分发网络(Content Delivery Network,CDN)能够就近为用户提供所需内容,降低网络拥塞,提高响应速度。基于网络流量识别内容分发网络地址,能够为网络监管提供支持。目前可采用一些常用的系统命令获取网络流量的相关信息,通过分析确定是否为内容分发网络地址,或者通过查询已经构建的CDN地址数据库查询是否为内容分发网络地址;然而,这些方式确定的结果不够准确全面,存在误报和漏报。
发明内容
有鉴于此,本申请实施例的目的在于提出一种内容分发网络地址的识别方法及装置,能够准确识别内容分发网络地址。
基于上述目的,本申请实施例提供了一种内容分发网络地址的识别方法,包括:
在发送探测报文后,获取对应的响应数据包;
对所述响应数据包进行解析,得到网络信息;其中,所述网络信息包括网络地址、域名和服务类型;
统计同一网络地址对应的多个域名和服务类型,并基于统计结果计算网络地址与各域名之间的网络地址相似度;
根据所述网络地址相似度,确定该网络地址是否为内容分发网络地址。
可选的,所述网络信息还包括用于标识网站特征的标签内容;根据所述网络地址相似度,确定该网络地址是否为内容分发网络地址,包括:
在所述网络地址相似度大于预设的地址相似度阈值时,根据所述标签内容及预设的网站识别模型,确定网站相似度;
根据所述网站相似度,确定该网络地址是否为内容分发网络地址;
在所述网络地址相似度小于所述地址相似度阈值时,计算该网络地址到与该网络地址对应的各域名的平均距离;
在所述平均距离大于预设的距离阈值时,将该网络地址作为内容分发网络地址。
可选的,根据所述网站相似度,确定该网络地址是否为内容分发网络地址,包括:
在所述网站相似度小于预设的网站相似度阈值时,利用预设指令获取该网络地址对应的各域名所属的组织,如果各域名所属的组织均不同,将该网络地址作为内容分发网络地址。
可选的,所述网络地址包括IP地址和端口号;统计同一网络地址对应的多个域名和服务类型,包括:
根据同一IP地址对应的多个端口号和服务类型,与每个域名对应的端口号和服务类型,确定该IP地址对应的各端口号和服务类型,与每个域名对应的端口号和服务类型的交集,统计各交集中元素的个数;确定该IP地址对应的各端口号和服务类型,与所有域名对应的端口号和服务类型的并集,统计并集中元素的个数;
根据同一网络地址对应的多个域名和服务类型,计算网络地址相似度,包括:
根据所述各交集中元素的个数、并集中元素的个数和域名数量,计算所述网络地址相似度。
可选的,计算所述网络地址相似度的方法为:
根据公式:
Figure BDA0003894479160000021
计算所述网络地址相似度;
其中,Similarity为所述网络地址相似度,Pi为第i个交集中元素的个数,Q为所述并集中元素的个数,n为所述域名数量,
Figure BDA0003894479160000022
表示计算第i个交集中元素的个数与所述并集中元素的个数的比值。
可选的,所述计算该网络地址到与该网络地址对应的各域名的平均距离,包括:
计算该网络地址到每个域名的距离;
根据该网络地址到每个域名的距离,计算所述平均距离。
可选的,所述计算该网络地址到每个域名的距离的方法为:
Figure BDA0003894479160000031
其中,d为所述网络地址到域名的距离,R为地球半径,lat1为该网络地址对应的纬度,lat2为域名对应的纬度,lon1为该网络地址对应的经度,lon2为该域名对应的经度。
可选的,所述计算该网络地址到每个域名的距离之前,还包括:
根据该网络地址及各域名,查询预设的地理信息库;
在查询到该网络地址及各域名所对应的地理位置信息时,根据所述地理位置信息计算该网络地址到每个域名的距离;其中,所述地理位置信息包括经度和纬度;
在未查询到所述地理位置信息时,根据所述标签内容及利用预设的网站识别模型,确定网站相似度。
可选的,所述标签内容包括标题和描述;根据所述标签内容,利用预设的网站识别模型,确定网站相似度,包括:
将所述标题和描述作为网站特征,输入所述网站识别模型,由所述网站识别模型输出所述网站相似度。
本申请实施例还提供一种内容分发网络地址的识别装置,包括:
获取模块,用于在发送探测报文后,获取对应的响应数据包;
解析模块,用于对所述响应数据包进行解析,得到网络信息;其中,所述网络信息包括网络地址、域名和服务类型;
统计模块,用于统计同一网络地址对应的多个域名和服务类型,得到统计结果;
计算模块,用于基于统计结果,计算网络地址与各域名之间的网络地址相似度;
识别模块,用于根据所述网络地址相似度,确定该网络地址是否为内容分发网络地址。
可选的,网络信息还包括用于标识网站特征的标签内容;
识别模块,用于在网络地址相似度大于预设的地址相似度阈值时,根据标签内容及预设的网站识别模型,确定网站相似度;根据网站相似度,确定该网络地址是否为内容分发网络地址;在网络地址相似度小于地址相似度阈值时,计算该网络地址到与该网络地址对应的各域名的平均距离;在平均距离大于预设的距离阈值时,将该网络地址作为内容分发网络地址。
可选的,识别模块,用于在网站相似度小于预设的网站相似度阈值时,通过预设指令获取该网络地址对应的各域名所属的组织,如果各域名所属的组织均不同,将该网络地址作为内容分发网络地址。
可选的,网络地址包括IP地址和端口号;
统计模块,用于根据同一IP地址对应的多个端口号和服务类型,与每个域名对应的端口号和服务类型,确定该IP地址对应的各端口号和服务类型,与每个域名对应的端口号和服务类型的交集,统计各交集中元素的个数;确定该IP地址对应的各端口号和服务类型,与所有域名对应的端口号和服务类型的并集,统计并集中元素的个数;
计算模块,用于根据各交集中元素的个数、并集中元素的个数和域名数量,计算网络地址相似度。
可选的,计算所述网络地址相似度的方法为:
根据公式:
Figure BDA0003894479160000041
计算所述网络地址相似度;
其中,Similarity为所述网络地址相似度,Pi为第i个交集中元素的个数,Q为所述并集中元素的个数,n为所述域名数量,
Figure BDA0003894479160000042
表示计算第i个交集中元素的个数与所述并集中元素的个数的比值。
可选的,识别模块,用于计算该网络地址到每个域名的距离;根据该网络地址到每个域名的距离,计算平均距离。
可选的,所述计算该网络地址到每个域名的距离的方法为:
Figure BDA0003894479160000043
其中,d为所述网络地址到域名的距离,R为地球半径,lat1为该网络地址对应的纬度,lat2为域名对应的纬度,lon1为该网络地址对应的经度,lon2为该域名对应的经度。
可选的,识别模块,还用于根据该网络地址及各域名,查询预设的地理信息库;在查询到该网络地址及各域名所对应的地理位置信息时,根据所述地理位置信息计算该网络地址到每个域名的距离;其中,地理位置信息包括经度和纬度;在未查询到所述地理位置信息时,根据标签内容及网站识别模型,确定网站相似度。
可选的,标签内容包括标题和描述;
识别模块,用于将标题和描述作为网站特征,输入网站识别模型,由网站识别模型输出相似度。
基于同一构思,本申请还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述任意一项所述的方法。
基于同一构思,本申请还提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行如上所述任意一项所述的方法。
从上面所述可以看出,本申请实施例提供的内容分发网络地址的识别方法及装置,在发送探测报文后,获取对应的响应数据包,对响应数据包进行解析,得到网络信息,统计同一网络地址对应的多个域名和服务类型,计算网络地址相似度,根据网络地址相似度,确定该网络地址是否为内容分发网络地址。本申请能够准确、全面地识别内容分发网地址,为网络监管提供技术支持。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的方法流程示意图;
图2为本申请另一实施例的方法流程示意图;
图3为本申请实施例的装置结构示意图;
图4为本申请实施例的电子设备结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
需要说明的是,除非另外定义,本申请实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
如图1、2所示,本申请实施例提供一种内容分发网络地址的识别方法,包括:
S101:在发送探测报文后,获取对应的响应数据包;
本实施例中,电子设备按照一定的时间间隔向网络发送探测报文,并接收与探测报文对应的响应数据包。探测报文可以根据协议类型和探测内容进行选择,例如,可以发送探测web服务器的http get报文,发送探测ftp服务器的ftp探测报文或探测命令等,探测报文的具体形式不做限定。
S102:对响应数据包进行解析,得到网络信息;其中,网络信息包括网络地址、域名和服务类型;
本实施例中,获取响应数据包之后,对所有响应数据包进行解析,获得每个响应数据包的网络信息。一些方式中,从响应数据包中可解析获得的网络信息包括网络地址、域名、服务类型、负载内容、应用数据等,具体内容不做限定。其中,网络地址可以包括源IP地址、目的IP地址、源端口号、目的端口号。
对于响应数据包,通过端口号可以判断发送响应数据包的服务器所能提供的服务类型,例如,端口号21为FTP服务,端口号23为Telnet服务,端口号1433为SQL服务等,端口号25为SMTP服务,端口号53为DNS服务;标识字段GET/POST HTTP为web服务,标识字段FINS为FINS服务,标识字段rtsp://RTSP为RTSP服务等等。
S103:统计同一网络地址对应的多个域名和服务类型,得到统计结果;
本实施例中,解析得到所有响应数据包的网络信息之后,按照网络地址对网络信息进行统计分析,统计同一网络地址所对应的所有域名和服务类型。其中,网络地址包括IP地址和端口号,在服务器中,同一个IP地址可能开放多个不同的端口,由各个端口提供不同的服务,同一个IP地址可能配置了多个域名,因而,在解析出的网络信息基础上,统计每个IP地址对应的多个端口号、多个域名和多个服务类型,对于响应数据包,统计每个响应的IP地址及其对应的多个端口号、多个域名和多个服务类型。例如,根据RFC 3232约定,通常情况下,IP地址A所开放的端口和服务信息都有默认约束,例如IP地址A开放端口号21、提供FTP服务,开放端口号22、提供SSH服务,开放端口号23、提供TELNET服务,开放端口号80、提供HTTP服务,开放端口号443、提供HTTPS服务,IP地址A对应两个以上的子域名。
S104:根据统计结果,计算网络地址与各域名之间的网络地址相似度;
本实施例中,统计出同一个网络地址所对应的多个域名和服务类型之后,根据该网络地址与其对应的多个域名和服务类型,计算网络地址相似度。
一些实施例中,统计同一网络地址对应的多个域名和服务类型,包括:
根据同一IP地址对应的多个端口号和服务类型,与每个域名对应的端口号和服务类型,确定该IP地址对应的各端口号和服务类型,与每个域名对应的端口号和服务类型的交集,统计各交集中元素的个数;确定该IP地址对应的各端口号和服务类型,与所有域名对应的端口号和服务类型的并集,统计并集中元素的个数;
根据同一网络地址对应的多个域名和服务类型,计算网络地址相似度,包括:根据交集中元素的个数、并集中元素的个数和域名数量,计算网络地址相似度。
其中,计算网络地址相似度Similarity的方法为:
Figure BDA0003894479160000071
其中,Pi为第i个交集中元素的个数,Q为并集中元素的个数,n为域名数量,
Figure BDA0003894479160000072
表示计算第i个交集中元素的个数与所述并集中元素的个数的比值。
具体的,对于特定的IP地址,统计该IP地址对应的多个端口号和服务类型,统计该IP地址对应的多个域名,该IP地址所对应的域名的数量为n,统计每个域名对应的多个端口号和服务类型;之后,确定该IP地址对应的端口号和服务类型,与每个域名对应的端口号和服务类型之间的交集,并统计每个交集中元素的个数P;同时,确定该IP地址对应的端口号和服务类型,与所有域名对应的端口号和服务类型之间的并集,并统计并集中元素的个数Q;然后,按照公式(1)计算网络地址相似度Similarity。
举例来说,IP地址A开放的端口号包括80,81,82,83,84,88,1433,IP地址A开放的服务类型包括DHCP、DNS、FTP、Telnet、SMTP;IP地址A对应域名1和域名2;域名1开放的端口号包括80,83,84,85,88,1433,域名1开放的服务类型包括DHCP、DNS、FTP、Telnet、WINS;域名2开放的端口号包括80,81,82,84,88,1433,域名2开放的服务类型包括DHCP、DNS、FTP、Telnet、SMTP。统计IP地址A与域名1的交集为A1={80,83,84,88,1433,DHCP,DNS,FTP,Telnet},交集A1中元素的个数为9;统计IP地址A与域名2的交集为A2={80,81,82,84,88,1433,DHCP,DNS,FTP,Telnet,SMTP},交集A2中元素的个数为11;统计IP地址A与域名1、域名2的并集为A3={80,81,82,83,84,85,88,1433,DHCP,DNS,FTP,Telnet,SMTP,WINS},并集A3中元素的个数为14,域名数量为2;将各项统计结果带入公式(1),得到:
Figure BDA0003894479160000081
即,经过统计分析与计算,得到网络地址相似度为71.4%。
S105:根据网络地址相似度,确定该网络地址是否为内容分发网络地址。
本实施例中,计算出网络地址相似度之后,基于该网络地址相似度分析确定网络地址是否为内容分发网络地址。
一些实施例中,网络信息还包括用于标识网站特征标签内容;根据网络地址相似度,确定该网络地址是否为内容分发网络地址,包括:
在网络地址相似度大于预设的地址相似度阈值时,根据标签内容及预设的网站识别模型,确定网站相似度;
根据网站相似度,确定该网络地址是否为内容分发网络地址;
在网络地址相似度小于所述地址相似度阈值时,计算该网络地址到与该网络地址对应的各域名的平均距离;
在平均距离大于预设的距离阈值时,将该网络地址作为内容分发网络地址。
结合图2所示,本实施例中,在计算得到网络地址相似度之后,判断网络地址相似度是否大于地址相似度阈值,如果大于地址相似度阈值,再根据解析出的标签内容,确定网站相似度,进一步根据网站相似度判断是否为内容分发网络地址。如果小于地址相似度阈值,计算网络地址到其对应的各域名的平均距离,如果平均距离大于距离阈值,可以确定该网络地址为内容分发网络地址,如果平均距离小于距离阈值,可以确定该网络地址不属于内容分发网络地址。
一些方式中,计算根据网络地址到与其对应的各域名的平均距离,包括:计算该网络地址到每个域名的距离;根据该网络地址到每个域名的距离,计算平均距离。即,先计算网络地址到每个域名的距离,然后根据到每个域名的距离和域名数量,计算网络地址到各域名的平均距离。
其中,计算该网络地址到每个域名的距离d的方法为:
Figure BDA0003894479160000091
其中,R为地球半径,取值为6378km,lat1为网络地址对应的纬度,lat2为与该网络地址关联的某个域名对应的纬度,lon1为网络地址对应的经度,lon2为该域名对应的经度。
一些实施例中,计算该网络地址到每个域名的距离之前,还包括:
根据该网络地址及各域名,查询预设的地理信息库;
在查询到该网络地址及各域名所对应的地理位置信息时,计算该网络地址到每个域名的距离;其中,地理位置信息包括经度和纬度;
在未查询到所述地理位置信息时,根据所述标签内容及预设的网站识别模型,确定网站相似度。
本实施例中,为计算网络地址到域名之间的距离,需要先获得网络地址和与其关联的各域名的地理位置信息,其中,地理位置信息包括经度和纬度。利用预先构建的地理信息库保存网络地址和域名及其对应的地理位置信息,计算距离前,先根据IP地址查询地理信息库,获得该IP地址对应的地理位置信息,根据域名查询地理信息库,获得该域名对应的地理位置信息,然后根据公式(3),计算网络地址到每个域名的距离。如图2所示,如果地理信息库中未查询到网络地址和/或域名的地理位置信息,则无需计算距离,后续根据网站相似度确定是否为内容分发网络地址。
根据公式(3)计算出网络地址到每个域名的距离之后,计算平均距离,公式为:
Figure BDA0003894479160000101
其中,d(i)为网络地址到第i个域名的距离。
一些实施例中,解析出的标签内容包括标题和描述;根据标签内容,利用预设的网站识别模型,确定网站相似度,包括:
将标题和描述作为网站特征,输入网站识别模型,由网站识别模型输出网站相似度。
本实施例中,当网络地址相似度大于地址相似度阈值时,将各项标签内容作为网站特征,输入预先训练的网站识别模型,由网站识别模型输出网站相似度,其中,网站识别模型的最后一层采用余弦相似度计算网站相似度。可选的,网站识别模型基于ERNIE-Doc模型经过训练得到。
一些实施例中,根据网站相似度,确定该网络地址是否为内容分发网络地址,包括:
在网站相似度小于预设的网站相似度阈值时,利用预设指令获取该网络地址对应的各域名所属的组织,如果各域名所属的组织均不同,将该网络地址作为内容分发网络地址。
本实施例中,在确定网站相似度之后,将网站相似度与网站相似度阈值进行比较,如果小于网站相似度阈值,进一步利用预设指令查询网络地址对应的各域名所属的组织,如果各域名所属的组织不相同,可以确定该网络地址为内容分发网络地址,如果各域名所属的组织相同,则该网络地址不属于内容分发网络地址。可选的,利用whois指令查询域名所属的组织。
本申请实施例提供一种内容分发网络地址的识别方法,获取网络流量后进行解析,得到网络信息,根据网络信息统计同一个IP地址所对应的多个域名、端口号和服务类型,统计每个域名所对应的端口号和服务类型;根据统计结果计算网络地址相似度。当判断网络地址相似度大于等于地址相似度阈值时,再根据标签内容确定网站相似度,如果网站相似度小于网站相似度阈值,通过特定指令获取每个域名所属的组织,如果各域名所属的组织不同,则可以确定该IP地址为内容分发网络地址;当判断网络地址相似度小于地址相似度阈值时,计算IP地址与各域名的平均距离,如果平均距离大于距离阈值,可以确定该IP地址为内容分发网络地址。
本申请能够从网络地址、平均距离和网站相似度维度,综合判断网络地址是否为内容分发服务。从网络层面,根据开放的服务和端口评估IP地址与其关联的域名之间的相似度;从物理层面,若IP地址与其关联的域名在网络层面相似度较大且IP地址与域名之间的平均距离较大,可判定为内容分发网络地址;从应用层面,考虑不同IP地址的网站内容不同,结合网站相似度判断是否为内容分发网络地址。通过综合全面的分析判断,能够得到准确、全面的识别结果,在此基础上,能够支持网络地址的动态识别,并基于识别结果丰富现有的CDN地址数据库,为网络监管提供技术支持。
需要说明的是,本申请实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
如图3所示,本申请实施例还提供一种内容分发网络地址的识别装置,包括:
获取模块,用于在发送探测报文后,获取对应的响应数据包;
解析模块,用于对响应数据包进行解析,得到网络信息;其中,网络信息包括网络地址、域名和服务类型;
统计模块,用于统计同一网络地址对应的多个域名和服务类型,得到统计结果;
计算模块,用于根据基于统计结果计算网络地址相似度;
识别模块,用于根据网络地址相似度,确定该网络地址是否为内容分发网络地址。
一些实施例中,网络信息还包括用于标识网站特征的标签内容;
识别模块,用于在网络地址相似度大于预设的地址相似度阈值时,根据标签内容及预设的网站识别模型,确定网站相似度;根据网站相似度,确定该网络地址是否为内容分发网络地址;在网络地址相似度小于地址相似度阈值时,计算该网络地址到与该网络地址对应的各域名的平均距离;在平均距离大于预设的距离阈值时,将该网络地址作为内容分发网络地址。
一些实施例中,识别模块,用于在网站相似度小于预设的网站相似度阈值时,通过预设指令获取该网络地址对应的各域名所属的组织,如果各域名所属的组织均不同,将该网络地址作为内容分发网络地址。
一些实施例中,网络地址包括IP地址和端口号;
统计模块,用于根据同一IP地址对应的多个端口号和服务类型,与每个域名对应的端口号和服务类型,确定该IP地址对应的各端口号和服务类型,与每个域名对应的端口号和服务类型的交集,统计各交集中元素的个数;确定该IP地址对应的各端口号和服务类型,与所有域名对应的端口号和服务类型的并集,统计并集中元素的个数;
计算模块,用于根据各交集中元素的个数、并集中元素的个数和域名数量,计算网络地址相似度。
一些实施例中,利用公式(1)计算网络地址相似度。
一些实施例中,识别模块,用于计算该网络地址到每个域名的距离;根据该网络地址到每个域名的距离,计算平均距离。
一些实施例中,利用公式(3)计算网络地址到每个域名的距离。
一些实施例中,识别模块,还用于根据该网络地址及各域名,查询预设的地理信息库;在查询到该网络地址及各域名所对应的地理位置信息时,根据所述地理位置信息计算该网络地址到每个域名的距离;其中,地理位置信息包括经度和纬度;在未查询到所述地理位置信息时,根据标签内容及网站识别模型,确定网站相似度。
一些实施例中,标签内容包括标题和描述;
识别模块,用于将标题和描述作为网站特征,输入网站识别模型,由网站识别模型输出相似度。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
图4示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本申请实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本申请实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本申请实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本申请实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种内容分发网络地址的识别方法,其特征在于,包括:
在发送探测报文后,获取对应的响应数据包;
对所述响应数据包进行解析,得到网络信息;其中,所述网络信息包括网络地址、域名和服务类型;
统计同一网络地址对应的多个域名和服务类型,并基于统计结果计算网络地址与各域名之间的网络地址相似度;
根据所述网络地址相似度,确定该网络地址是否为内容分发网络地址。
2.根据权利要求1所述的方法,其特征在于,所述网络信息还包括用于标识网站特征的标签内容;根据所述网络地址相似度,确定该网络地址是否为内容分发网络地址,包括:
在所述网络地址相似度大于预设的地址相似度阈值时,根据所述标签内容及预设的网站识别模型,确定网站相似度;
根据所述网站相似度,确定该网络地址是否为内容分发网络地址;
在所述网络地址相似度小于所述地址相似度阈值时,计算该网络地址到与该网络地址对应的各域名的平均距离;
在所述平均距离大于预设的距离阈值时,将该网络地址作为内容分发网络地址。
3.根据权利要求2所述的方法,其特征在于,根据所述网站相似度,确定该网络地址是否为内容分发网络地址,包括:
在所述网站相似度小于预设的网站相似度阈值时,通过预设指令获取该网络地址对应的各域名所属的组织,如果各域名所属的组织均不同,将该网络地址作为内容分发网络地址。
4.根据权利要求1-3中任意一项所述的方法,其特征在于,所述网络地址包括IP地址和端口号;统计同一网络地址对应的多个域名和服务类型,包括:
根据同一IP地址对应的多个端口号和服务类型,与每个域名对应的端口号和服务类型,确定该IP地址对应的各端口号和服务类型,与每个域名对应的端口号和服务类型的交集,统计各交集中元素的个数;确定该IP地址对应的各端口号和服务类型,与所有域名对应的端口号和服务类型的并集,统计并集中元素的个数;
根据同一网络地址对应的多个域名和服务类型,计算网络地址相似度,包括:
根据所述各交集中元素的个数、并集中元素的个数和域名数量,计算所述网络地址相似度。
5.根据权利要求4所述的方法,其特征在于,计算所述网络地址相似度的方法为:
根据公式
Figure FDA0003894479150000021
计算所述网络地址相似度;
其中,Similarity为所述网络地址相似度,Pi为第i个交集中元素的个数,Q为所述并集中元素的个数,n为所述域名数量,
Figure FDA0003894479150000022
表示计算第i个交集中元素的个数与所述并集中元素的个数的比值。
6.根据权利要求2所述的方法,其特征在于,所述计算该网络地址到与该网络地址对应的各域名的平均距离,包括:
计算该网络地址到每个域名的距离;
根据该网络地址到每个域名的距离,计算所述平均距离。
7.根据权利要求6所述的方法,其特征在于,所述计算该网络地址到每个域名的距离的方法为:
Figure FDA0003894479150000023
其中,d为所述网络地址到域名的距离,R为地球半径,lat1为该网络地址对应的纬度,lat2为域名对应的纬度,lon1为该网络地址对应的经度,lon2为该域名对应的经度。
8.根据权利要求7所述的方法,其特征在于,所述计算该网络地址到每个域名的距离之前,还包括:
根据该网络地址及各域名,查询预设的地理信息库;
在查询到该网络地址及各域名所对应的地理位置信息时,根据所述地理位置信息计算该网络地址到每个域名的距离;其中,所述地理位置信息包括经度和纬度;
在未查询到所述地理位置信息时,根据所述标签内容及所述网站识别模型,确定网站相似度。
9.根据权利要求2所述的方法,其特征在于,所述标签内容包括标题和描述;根据所述标签内容,利用预设的网站识别模型,确定网站相似度,包括:
将所述标题和描述作为网站特征,输入所述网站识别模型,由所述网站识别模型输出所述网站相似度。
10.一种内容分发网络地址的识别装置,其特征在于,包括:
获取模块,用于在发送探测报文后,获取对应的响应数据包;
解析模块,用于对所述响应数据包进行解析,得到网络信息;其中,所述网络信息包括网络地址、域名和服务类型;
统计模块,用于统计同一网络地址对应的多个域名和服务类型,得到统计结果;
计算模块,用于基于所述统计结果,计算网络地址与各域名之间的网络地址相似度;
识别模块,用于根据所述网络地址相似度,确定该网络地址是否为内容分发网络地址。
CN202211269220.5A 2022-10-17 2022-10-17 一种内容分发网络地址的识别方法及装置 Pending CN115955458A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211269220.5A CN115955458A (zh) 2022-10-17 2022-10-17 一种内容分发网络地址的识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211269220.5A CN115955458A (zh) 2022-10-17 2022-10-17 一种内容分发网络地址的识别方法及装置

Publications (1)

Publication Number Publication Date
CN115955458A true CN115955458A (zh) 2023-04-11

Family

ID=87290349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211269220.5A Pending CN115955458A (zh) 2022-10-17 2022-10-17 一种内容分发网络地址的识别方法及装置

Country Status (1)

Country Link
CN (1) CN115955458A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116708369A (zh) * 2023-08-02 2023-09-05 闪捷信息科技有限公司 网络应用信息合并方法、装置、电子设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116708369A (zh) * 2023-08-02 2023-09-05 闪捷信息科技有限公司 网络应用信息合并方法、装置、电子设备和存储介质
CN116708369B (zh) * 2023-08-02 2023-10-27 闪捷信息科技有限公司 网络应用信息合并方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
US20230231926A1 (en) Method and system for predicting a geographic location of a network entity
US10015243B2 (en) Optimized content distribution based on metrics derived from the end user
TWI654867B (zh) Method and device for determining the location of a terminal
CN104703125B (zh) 基于即时通信的信息推荐方法、装置和终端
GB2500936A (en) Identifying the physical location of internet service providers using geo-location data provided by devices requesting data
WO2015043212A1 (en) Address information input method,acquisition method, apparatus,device and system
US10735370B1 (en) Name based internet of things (IoT) data discovery
CN109672980A (zh) 确定兴趣点对应的无线局域网热点的方法、装置及存储介质
CN115955458A (zh) 一种内容分发网络地址的识别方法及装置
CN114448849B (zh) 网站IPv6网络支持模式检测方法及电子设备
CN111447292A (zh) 一种IPv6地理位置定位方法、装置、设备及存储介质
US9900739B2 (en) Method and apparatus for identifying a target geographic area
CN113055420B (zh) Https业务识别方法、装置及计算设备
CN109905486B (zh) 一种应用程序识别展示方法和装置
CN108011936A (zh) 用于推送信息的方法和装置
CN116614550A (zh) 用于确定终端画像的方法、系统和计算机可读介质
CN113127767B (zh) 手机号码提取方法、装置、电子设备及存储介质
US20170169454A1 (en) Identifying business online social presence with name and address using spatial filters
US9826496B2 (en) Navigation system with location mechanism and method of operation thereof
CN111159196A (zh) 基于分片的区块链数据存储、获取方法及装置
CN115473835B (zh) 流量统计方法及相关设备
US10282478B2 (en) Density modified search results
CN114070581B (zh) 域名系统隐藏信道的检测方法及装置
JP7126977B2 (ja) 交通流導出装置、交通流導出方法、及びコンピュータプログラム
CN114765738B (zh) 基于无线网络地址的地理位置确定方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination