CN113992625A - 域名源站探测方法、系统、计算机及可读存储介质 - Google Patents

域名源站探测方法、系统、计算机及可读存储介质 Download PDF

Info

Publication number
CN113992625A
CN113992625A CN202111203501.6A CN202111203501A CN113992625A CN 113992625 A CN113992625 A CN 113992625A CN 202111203501 A CN202111203501 A CN 202111203501A CN 113992625 A CN113992625 A CN 113992625A
Authority
CN
China
Prior art keywords
address
source code
target
file
code file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111203501.6A
Other languages
English (en)
Inventor
李功海
范渊
黄进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DBAPPSecurity Co Ltd
Original Assignee
DBAPPSecurity Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DBAPPSecurity Co Ltd filed Critical DBAPPSecurity Co Ltd
Priority to CN202111203501.6A priority Critical patent/CN113992625A/zh
Publication of CN113992625A publication Critical patent/CN113992625A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Abstract

本申请涉及一种域名源站探测方法、系统、计算机及可读存储介质,该方法包括:对目标URL进行DNS解析得到若干IP地址;判断IP地址是否为CDN网络的IP地址;若是,则对每个IP地址对应的目标文件建立索引,形成哈希链表;将源码文件进行LSH计算,获取源码文件对应的目标哈希桶;将目标哈希桶内所有的目标文件与源码文件进行相似度比对,获取与源码文件相似度最高的目标文件对应的IP地址,并标注为真实IP地址。通过本申请,有效的降低了在进行网址溯源查找时的数据处理量;并且通过LSH计算在确保数据处理过程中准确性;提升了针对CDN服务下网址溯源查找的精准率以及效率。

Description

域名源站探测方法、系统、计算机及可读存储介质
技术领域
本申请涉及计算机通信技术领域,特别是涉及域名源站探测方法、系统、计算机及可读存储介质。
背景技术
在数据解析工作中,数据的溯源一直是个值得关注的内容,其在网络管理和网络安全中,处于相当关键的部分。
随着互联网技术的发展,为了缓解本身服务器的压力,已经给用户带来更好的访问体验,节约用户的网络带宽,越来越多的网站将服务器的访问分发交给了CDN(ContentDelivery Network或Content Distribution Network),其中CDN 是指一种透过互联网互相连接的电脑网络系统,利用最靠近每位用户的服务器,更快、更可靠地将音乐、图片、视频、应用程序及其他文件发送给用户,来提供高性能、可扩展性及低成本的网络内容传递给用户。
然而,经过CDN会隐藏自身真实的源站ip,即使通过DNS解析访问URL,得到也是CDN的访问IP,而CDN服务器上时时刻刻都有巨量的流量在访问,海量的数据在不断累积,通过一般的常规手段去识别海量数据,效率十分低下。
发明内容
本申请实施例提供了一种及域名源站探测方法、系统、计算机及可读存储介质,以至少解决相关技术中无法针对海量的数据进行溯源探测的问题。
第一方面,本申请实施例提供了一种域名源站探测方法,该方法包括:方法包括:
获取目标URL的源码文件,通过DNS解析得到若干IP地址;
判断所述IP地址是否为CDN网络的IP地址;(若经过DNS解析后得到的 IP地址存在多个,则判定当前解析的IP地址为CDN网络的IP地址,)
若是,则对每个所述IP地址对应的目标文件建立索引,形成哈希链表;其中,所述哈希链表包括多个哈希桶,所述IP地址对应的目标文件通过LSH计算,使所述目标文件映射到多个哈希桶内;相邻的所述目标文件被映射至同一个哈希桶内;
将所述源码文件进行LSH计算,获取所述源码文件对应的目标哈希桶;
将所述目标哈希桶内所有的目标文件与所述源码文件进行相似度比对,获取与所述源码文件相似度最高的目标文件对应的IP地址,并标注为真实IP地址。
在其中一些实施例中,所述LSH计算的步骤包括:
对所述源码文件或所述目标文件中的文本数据进行分词,并提取关键词;
对每个所述关键词进行权重分配以及hash计算,得到关于所述关键词的权重值以及对应的字符串;
对所述关键词的权重值和对应的字符串进行加权计算,得到关于所述关键词的加权字符串;
将所述加权字符串降维处理,使得所述加权字符串中,大于0的字符串变成1,小于0的字符串变成0;其中,经过降维处理后的字符串为对应所述源码文件或所述目标文件的特征字符串。
在其中一些实施例中,将所述加权字符串降维处理的步骤之后,包括:
计算所述目标文件与所述源码文件的特征字符串的海明距离;
判断所述目标文件与所述源码文件的海明距离是否小于预设值;
若是,则查询所述目标文件对应的IP地址,并标注为真实IP地址。
在其中一些实施例中,所述判断所述目标文件与所述源码文件的海明距离是否小于预设值的方法包括:
将所述源码文件的特征字符串作为输入参数;
循环计算每个目标文件的特征字符串;
判断所述输入参数与当前目标文件的特征字符串是否满足海明距离小于预设值的条件;
若否,则循环计算下一个目标文件的特征字符串是否满足海明距离小于预设值的条件;
当目标文件与源码文件的特征字符串满足海明距离小于预设值时,则停止循环。
在其中一些实施例中,所述通过相似度计算获取与所述源码文件相似度最高的若干个文档所采用的相似度计算方法为欧式距离、编辑距离、余弦距离、 Jaccard距离中的一种方式。
第二方面,本申请实施例提供了一种域名源站探测系统,所述系统包括:
提取模块:用于获取目标URL的源码文件;
DNS解析模块:用于通过DNS解析得到若干IP地址;
判断模块:用于判断所述IP地址是否为CDN网络的IP地址;
建立索引模块:用于当判断所述IP地址为CDN网络的IP地址时,对所述 IP地址对应的目标文件建立索引,形成哈希链表;其中,所述哈希链表包括多个哈希桶,所述IP地址对应的目标文件通过LSH计算,使所述目标文件映射到多个哈希桶内;相邻的所述目标文件被映射至同一个哈希桶内;
目标确定模块:用于将所述源码文件进行LSH计算,获取所述源码文件对应的目标哈希桶;
比对模块:用于将所述目标哈希桶内所有的目标文件与所述源码文件进行相似度比对,获取与所述源码文件相似度最高的目标文件对应的IP地址,并标注为真实IP地址。
在其中一些实施例中,分词提取单元:用于对所述源码文件或所述目标文件中的文本数据进行分词,并提取关键词;
权重计算单元:用于对每个所述关键词进行权重分配以及hash计算,得到关于所述关键词的权重值以及对应的字符串;
加权单元:用于对所述关键词的权重值和对应的字符串进行加权计算,得到关于所述关键词的加权字符串;
降维单元:用于将所述加权字符串降维处理,使得所述加权字符串中,大于0的字符串变成1,小于0的字符串变成0;其中,经过降维处理后的字符串为对应所述源码文件或所述目标文件的特征字符串。
在其中一些实施例中,所述系统还包括:计算单元:用于计算所述目标文件与所述源码文件的特征字符串的海明距离;
比较单元:用于判断所述目标文件与所述源码文件的海明距离是否小于预设值;
标注单元:用于当判断到所述目标文件与所述源码文件的海明距离小于预设值时,查询所述目标文件对应的IP地址,并标注为真实IP地址。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的域名源站探测方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的域名源站探测方法。
相比于相关技术,本申请实施例提供的域名源站探测方法,通过对目标URL 进行DNS解析以获取解析后的目标URL的IP地址;可以理解的,当解析后只存在一个IP地址,则说明通过DNS解析直接获取了目标URL的真实IP地址,然而,现阶段几乎所有网站都是经过CDN网络的,必然存在多个IP地址。对此,当若经过DNS解析后得到的IP地址存在多个,则判定当前解析的IP地址为CDN网络的IP地址。本申请通过对多个所述IP地址对应的目标文件建立索引,并将所述IP地址对应的目标文件进行LSH(Locality Sensitive Hashing:局部敏感哈希)计算,使所述目标文件映射到多个哈希桶内;相邻的所述目标文件被映射至同一个哈希桶内;再将所述源码文件进行LSH计算,获取所述源码文件对应的目标哈希桶;两者进行相似度匹配以获取与所述源码文件相似度最高的目标文件对应的IP地址,并标注为真实IP地址。通过该方式可针对CDN 网络下海量数据先通过建立索引并以哈希桶作为单位进行分类,并LSH计算来获取源码文件对应的目标哈希桶。针对目标哈希桶的目标文件进行相似度比对来确定源码文件的真实IP地址。有效的降低了在进行网址溯源查找时的数据处理量。并且通过LSH计算确保数据处理过程中的准确性。提升了针对CDN服务下网址溯源查找的精准率以及效率。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本发明第一实施例提出的域名源站探测方法的流程图;
图2是本发明第一实施例提出的域名源站探测方法中LSH计算方法的流程图;
图3是本发明第一实施例提出的域名源站探测方法中将加权字符串降维处理的步骤之后的流程图;
图4是本发明第一实施例提出的域名源站探测方法中判断目标文件与所述源码文件的海明距离是否小于预设值的流程图;
图5是本发明第二实施例提出的域名源站探测系统的结构框图;
图6为本发明实施例的计算机设备的硬件结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在 A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本申请第一实施例提供了一种域名源站探测方法。图1是根据本申请第一实施例的域名源站探测方法的流程图,如图1所示,该流程包括如下步骤:
步骤S11,获取目标URL的源码文件,通过DNS解析得到若干IP地址。
其中,URL(统一资源定位符,英文全称:Uniform Resource Locator)是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。
DNS(域名系统,英文全称:Domain Name System)是互联网的一项服务,其作为将域名和IP地址相互映射的一个分布式数据库,能够使人更方便地访问互联网,域名与IP地址之间是多对一的关系,一个IP地址不一定只对应一个域名,且一个域名只可以对应一个ip地址,它们之间的转换工作称为域名解析 (DNS解析)。当前,对于每一级域名长度的限制是63个字符,域名总长度则不能超过253个字符。
CDN(内容分发网络,英语全称:Content Delivery Network或ContentDistribution Network)是指一种透过互联网互相连接的电脑网络系统,利用最靠近每位用户的服务器,更快、更可靠地将音乐、图片、视频、应用程序及其他文件发送给用户,来提供高性能、可扩展性及低成本的网络内容传递给用户。
本发明实施例中,目标URL的源码文件包括目标URL的IP地址以及目标 URL中的数据(即文档)。在进行DNS解析时,根据目标URL的IP地址来查询真实IP地址。
步骤S12,判断IP地址是否为CDN网络的IP地址。
可以理解的,由于CDN服务器上时时刻刻都有巨量的流量在访问,海量的数据在不断累积,当目标URL的网站将服务器的访问分发交给了CDN服务器,则隐藏了真实IP地址,对应的进行DNS解析时,也会获取到多个IP地址,这种情况下即判定为当前解析得到的IP地址是CDN网络的IP地址。
步骤S13,若是,则对每个IP地址对应的目标文件建立索引,形成哈希链表。
其中,所述哈希链表包括多个哈希桶,所述IP地址对应的目标文件通过LSH 计算,使所述目标文件映射到多个哈希桶内;相邻的所述目标文件被映射至同一个哈希桶内。
本发明实施例中,针对CDN网络建立索引,形成哈希链表,针对IP地址对应的目标文件进行LSH计算,其中,LSH计算为局部敏感哈希(Locality Sensitive Hashing)计算,通过将目标文件进行局部敏感哈希计算,通过一个哈希函数(Hash function)将目标文件的数据映射到一个哈希桶(Hash Table),通过哈希桶的索引,来使搜索时间从线性搜索的O(N)降到O(1)。且针对相似性文件,其哈希值也相对接近,使得相邻的目标文件映射至一个哈希桶内。以便于后续可通过哈希值来索引对应的哈希桶来查找相邻的目标文件。
步骤S14,将源码文件进行LSH计算,获取源码文件对应的目标哈希桶。
本发明实施例中,通过对源码文件进行LSH计算的具体计算方式为simhash 计算。可实现对于源码文件中海量数据内容的去重效果,并对特征向量降维,提升了计算的精确性以及处理数据高效的技术效果。
步骤S15,将目标哈希桶内所有的目标文件与源码文件进行相似度比对,获取与源码文件相似度最高的目标文件对应的IP地址,并标注为真实IP地址。
综上,通过上述方法,本申请通过对多个所述IP地址对应的目标文件建立索引,并将所述IP地址对应的目标文件进行LSH计算,使所述目标文件映射到多个哈希桶内;相邻的所述目标文件被映射至同一个哈希桶内;再将所述源码文件进行LSH计算,获取所述源码文件对应的目标哈希桶;两者进行相似度匹配以获取与所述源码文件相似度最高的目标文件对应的IP地址,并标注为真实 IP地址。通过该方式可针对CDN网络下海量数据先通过建立索引并以哈希桶作为单位进行分类,并LSH计算来获取源码文件对应的目标哈希桶。针对目标哈希桶的目标文件进行相似度比对来确定源码文件的真实IP地址。有效的降低了在进行网址溯源查找时的数据处理量。并且通过LSH计算在确保数据处理过程中准确性。提升了针对CDN服务下网址溯源查找的精准率以及效率。
具体的,请参阅图2,为本发明第一实施例中LSH计算方法的流程图,该流程方法包括:
步骤S21,对源码文件或目标文件中的文本数据进行分词,并提取关键词。
本发明实施例中,会具体根据业务需求,从源码文件或目标文件中提取出文本,并对文本中的内容进行分词以及提取关键词。
步骤S22,对每个关键词进行权重分配以及hash计算,得到关于关键词的权重值以及对应的字符串。
步骤S23,对关键词的权重值和对应的字符串进行加权计算,得到关于关键词的加权字符串。
步骤S24,将加权字符串降维处理,使得加权字符串中,大于0的字符串变成1,小于0的字符串变成0。
其中,经过降维处理后的字符串为对应源码文件或目标文件的特征字符串。
为了便于技术方案的理解,LSH计算的具体实现方式可参见如下所示的例子:
对源码文件的网页中存在如下一句话:“我是中国人,我生活在浙江”,那么,分词后关键词提取的输出结果为:“中国、浙江”。针对关键词再进行权重分配,如“中国(1)、浙江(2)”,其中,括号内的数值(权重值)越大,则表示分配的权重越多。然后对每个关键词进行hash计算得到每个关键词的hash值 (字符串),其中,“中国”为100101,“浙江”为101011,对应的加权计算后,“中国”的加权字符串为“4-4-44-44”,“浙江”的加权字符串为“5-55 -555”。那么,针对这句话的加权字符串即为两个加权字符串合并之后的序列,即为“4+5-4+-5-4+54+-5-4+54+5”=“9-91-119”。通常关于文本的 hash值(也称之为hash标签)为预设位数的01串,对此,需要对合并后的加权字符串进行降维处理,以使得hash值满足01串的要求。降维的具体条件是,在加权字符串中,对于大于0的字符串变成1,小于0的字符串变成0。那么,加权字符串“9-91-119”经过降维后则变成“101011”的hash值,最终,“我是中国人,我生活在浙江”经过LSH计算后形成了64位的特征字符串。
综上,通过采用上述LSH计算方式,在针对海量的文件数据时,可有效的实现针对相似但不同的文件数据进行有效的处理,通过采用提取关键词并进行权重分配的方式有效的避免了由于文本内容的轻微变化而导致最终hash值的发生很大的变化。并且在进行海量数据计算处理时,通过对字符串降维处理使其变成01串还为后期hash值比对过程降低了工作量,提升了整体效率。
具体的,请参阅图3,为本发明第一实施例中将加权字符串降维处理的步骤之后的流程图,该流程方法包括:
步骤S31,计算目标文件与源码文件的特征字符串的海明距离。
可以理解的,在获取到目标文件与源码文件的特征字符串之后,通过比对两者的特征字符串即可计算出两者的海明距离,其计算方法为将两个特征字符串进行异或操作,并计算出异或运算结果中1的个数。
例如:两个特征字符串“101011”与“101101”的异或结果中,第四位和第五位不同,那么1的个数为2,对应的海明距离即为2。
步骤S32,判断目标文件与源码文件的海明距离是否小于预设值。
示例而非限定的,本发明实施例中,预设值为3。海明距离越大,则说明两者的特征字符串的区别越大,对应的说明两者的区别越大,反之,海明距离越小,则说明两者的相似性越高。
步骤S33,若是,则查询目标文件对应的IP地址,并标注为真实IP地址。
本发明实施例中,具体通过海明距离来判断目标文件与源码文件的相识度,进而实现对于查找源码文件的真实IP地址的目的。可以理解的,本发明实施例中通过采用计算海明距离来判断相似度的方式仅仅作为一种较为优选的技术方案,本申请不做具体限定,在本发明其他实施例中,采用的相似度计算方法还可以为欧式距离、编辑距离、余弦距离、Jaccard距离中的任意一种。以达到比对文件相似度的技术目的。
请参阅图4,为本发明第一实施例中判断目标文件与所述源码文件的海明距离是否小于预设值的流程图,该流程方法包括:
步骤S41,将源码文件的特征字符串作为输入参数。
其中,所述输入参数为循环网络神经算法的输入层,以实现面对海量的CDN 数据,实时的进行LSH计算以及海明距离的比较。
步骤S42,循环计算每个目标文件的特征字符串。
可以理解的,本发明实施例中通过LSH计算方式计算目标文件的特征字符串。
步骤S43,判断输入参数与当前目标文件的特征字符串是否满足海明距离小于预设值的条件。
步骤S44,若否,则循环计算下一个目标文件的特征字符串是否满足海明距离小于预设值的条件。
步骤S45,当目标文件与源码文件的特征字符串满足海明距离小于预设值时,则停止循环。
通过上述方法,采用循环网络神经算法(RNN),可针对CDN数据存在海量的数据信息进行有效的数据处理的目的。由于循环之间是有联系的,不是相互独立的。在循环处理某个带有关联关系时会大大提高效率。本发明实施例中通过取得源码文件的特征字符串,并将此作为循环算法的输入参数,循环计算同一个CDN节点中,每一个IP地址中目标文件的hash值(特征字符串),再和输入参数进行海明距离的计算,判断其是否满足条件,如果满足则表示此IP大概率是目标url真实ip,否则继续循环。
综上,本发明提供的域名源站探测方法,通过对目标URL进行DNS解析以获取解析后的目标URL的IP地址;当若经过DNS解析后得到的IP地址存在多个,则判定当前解析的IP地址为CDN网络的IP地址。本申请通过对多个所述IP地址对应的目标文件建立索引,并将所述IP地址对应的目标文件进行LSH 计算,使所述目标文件映射到多个哈希桶内;相邻的所述目标文件被映射至同一个哈希桶内;再将所述源码文件进行LSH计算,获取所述源码文件对应的目标哈希桶;两者进行相似度匹配以获取与所述源码文件相似度最高的目标文件对应的IP地址,并标注为真实IP地址。通过该方式可针对CDN网络下海量数据先通过建立索引并以哈希桶作为单位进行分类,并LSH计算来获取源码文件对应的目标哈希桶。针对目标哈希桶的目标文件进行相似度比对来确定源码文件的真实IP地址。有效的降低了在进行网址溯源查找时的数据处理量。并且通过LSH计算在确保数据处理过程中准确性。提升了针对CDN服务下网址溯源查找的精准率以及效率。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例还提供了一种域名源站探测系统,该系统用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图5是根据本申请实施例第二实施例提出的域名源站探测系统的结构框图,如图5所示,该系统包括:
提取模块10:用于获取目标URL的源码文件。
DNS解析模块20:用于通过DNS解析得到若干IP地址。
判断模块30:用于判断所述IP地址是否为CDN网络的IP地址。
建立索引模块40:用于当判断所述IP地址为CDN网络的IP地址时,对所述IP地址对应的目标文件建立索引,形成哈希链表;其中,所述哈希链表包括将所述IP地址对应的目标文件进行LSH计算,使所述目标文件映射到多个哈希桶内;相邻的所述目标文件被映射至同一个哈希桶内。
目标确定模块50:用于将所述源码文件进行LSH计算,获取所述源码文件对应的目标哈希桶。
比对模块60:用于将所述目标哈希桶内所有的目标文件与所述源码文件进行相似度比对,获取与所述源码文件相似度最高的目标文件对应的IP地址,并标注为真实IP地址。
进一步的,该域名源站探测系统还包括:
分词提取单元:用于对所述源码文件或所述目标文件中的文本数据进行分词,并提取关键词。
权重计算单元:用于对每个所述关键词进行权重分配以及hash计算,得到关于所述关键词的权重值以及对应的字符串。
加权单元:用于对所述关键词的权重值和对应的字符串进行加权计算,得到关于所述关键词的加权字符串。
降维单元:用于将所述加权字符串降维处理,使得所述加权字符串中,大于0的字符串变成1,小于0的字符串变成0。
其中,经过降维处理后的字符串为对应所述源码文件或所述目标文件的特征字符串。
计算单元:用于计算所述目标文件与所述源码文件的特征字符串的海明距离。
比较单元:用于判断所述目标文件与所述源码文件的海明距离是否小于预设值。
标注单元:用于当判断到所述目标文件与所述源码文件的海明距离小于预设值时,查询所述目标文件对应的IP地址,并标注为真实IP地址。
通过上述域名源站探测系统,用以执行上述的域名源站探测方法的相应步骤,通过对目标URL进行DNS解析以获取解析后的目标URL的IP地址;当若经过DNS解析后得到的IP地址存在多个,则判定当前解析的IP地址为CDN网络的IP地址。本申请通过对多个所述IP地址对应的目标文件建立索引,并将所述IP地址对应的目标文件进行LSH计算,使所述目标文件映射到多个哈希桶内;相邻的所述目标文件被映射至同一个哈希桶内;再将所述源码文件进行LSH计算,获取所述源码文件对应的目标哈希桶;两者进行相似度匹配以获取与所述源码文件相似度最高的目标文件对应的IP地址,并标注为真实IP地址。通过该方式可针对CDN网络下海量数据先通过建立索引并以哈希桶作为单位进行分类,并LSH计算来获取源码文件对应的目标哈希桶。针对目标哈希桶的目标文件进行相似度比对来确定源码文件的真实IP地址。有效的降低了在进行网址溯源查找时的数据处理量。并且通过LSH计算在确保数据处理过程中准确性。提升了针对CDN服务下网址溯源查找的精准率以及效率。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
另外,结合图1描述的本申请实施例域名源站探测方法可以由计算机设备来实现。图6为根据本申请实施例的计算机设备的硬件结构示意图,该计算机设备可以包括处理器81以及存储有计算机程序指令的存储器82。
具体地,上述处理器81可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器82可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器82可在数据处理装置的内部或外部。在特定实施例中,存储器82是非易失性(Non-Volatile)存储器。在特定实施例中,存储器82包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM 可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(ElectricallyAlterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器81所执行的可能的计算机程序指令。
处理器81通过读取并执行存储器82中存储的计算机程序指令,以实现上述实施例中的任意一种域名源站探测方法。
在其中一些实施例中,计算机设备还可包括通信接口83和总线80。其中,如图6所示,处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。
通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信接口83还可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
总线80包括硬件、软件或两者,将计算机设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一:数据总线(DataBus)、地址总线(Address Bus)、控制总线(ControlBus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线80可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(FrontSide Bus,简称为FSB)、超传输(HyperTransport,简称为HT)互连、工业标准架构(IndustryStandard Architecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(LowPin Count,简称为LPC)总线、存储器总线、微信道架构(Micro Channel Architecture,简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SerialAdvanced Technology Attachment,简称为SATA)总线、视频电子标准协会局部(Video Electronics Standards AssociationLocal Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
该计算机设备可以基于获取到的数据信息,执行本申请实施例中的域名源站探测方法,从而实现结合图1描述的域名源站探测方法。
另外,结合上述实施例中的域名源站探测方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种域名源站探测方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种域名源站探测方法,其特征在于,所述方法包括:
获取目标URL的源码文件,通过DNS解析得到若干IP地址;
判断所述IP地址是否为CDN网络的IP地址;
若是,则对每个所述IP地址对应的目标文件建立索引,形成哈希链表;其中,所述哈希链表包括多个哈希桶,所述IP地址对应的目标文件通过LSH计算,使所述目标文件映射到多个哈希桶内;相邻的所述目标文件被映射至同一个哈希桶内;
将所述源码文件进行LSH计算,获取所述源码文件对应的目标哈希桶;
将所述目标哈希桶内所有的目标文件与所述源码文件进行相似度比对,获取与所述源码文件相似度最高的目标文件对应的IP地址,并标注为真实IP地址。
2.根据权利要求1所述的域名源站探测方法,其特征在于,所述LSH计算的步骤包括:
对所述源码文件或所述目标文件中的文本数据进行分词,并提取关键词;
对每个所述关键词进行权重分配以及hash计算,得到关于所述关键词的权重值以及对应的字符串;
对所述关键词的权重值和对应的字符串进行加权计算,得到关于所述关键词的加权字符串;
将所述加权字符串降维处理,使得所述加权字符串中,大于0的字符串变成1,小于0的字符串变成0;其中,经过降维处理后的字符串为对应所述源码文件或所述目标文件的特征字符串。
3.根据权利要求2所述的域名源站探测方法,其特征在于,将所述加权字符串降维处理的步骤之后,包括:
计算所述目标文件与所述源码文件的特征字符串的海明距离;
判断所述目标文件与所述源码文件的海明距离是否小于预设值;
若是,则查询所述目标文件对应的IP地址,并标注为真实IP地址。
4.根据权利要求3所述的域名源站探测方法,其特征在于,所述判断所述目标文件与所述源码文件的海明距离是否小于预设值的方法包括:
将所述源码文件的特征字符串作为输入参数;
循环计算每个目标文件的特征字符串;
判断所述输入参数与当前目标文件的特征字符串是否满足海明距离小于预设值的条件;
若否,则循环计算下一个目标文件的特征字符串是否满足海明距离小于预设值的条件;
当目标文件与源码文件的特征字符串满足海明距离小于预设值时,则停止循环。
5.根据权利要求1所述的域名源站探测方法,其特征在于,所述通过相似度计算获取与所述源码文件相似度最高的若干个文档所采用的相似度计算方法为欧式距离、编辑距离、余弦距离、Jaccard距离中的一种方式。
6.一种域名源站探测系统,其特征在于,所述系统包括:
提取模块:用于获取目标URL的源码文件;
DNS解析模块:用于通过DNS解析得到若干IP地址;
判断模块:用于判断所述IP地址是否为CDN网络的IP地址;
建立索引模块:用于当判断所述IP地址为CDN网络的IP地址时,对所述IP地址对应的目标文件建立索引,形成哈希链表;其中,所述哈希链表包括多个哈希桶,所述IP地址对应的目标文件通过LSH计算,使所述目标文件映射到多个哈希桶内;相邻的所述目标文件被映射至同一个哈希桶内;
目标确定模块:用于将所述源码文件进行LSH计算,获取所述源码文件对应的目标哈希桶;
比对模块:用于将所述目标哈希桶内所有的目标文件与所述源码文件进行相似度比对,获取与所述源码文件相似度最高的目标文件对应的IP地址,并标注为真实IP地址。
7.根据权利要求6所述的域名源站探测系统,其特征在于,所述系统还包括:
分词提取单元:用于对所述源码文件或所述目标文件中的文本数据进行分词,并提取关键词;
权重计算单元:用于对每个所述关键词进行权重分配以及hash计算,得到关于所述关键词的权重值以及对应的字符串;
加权单元:用于对所述关键词的权重值和对应的字符串进行加权计算,得到关于所述关键词的加权字符串;
降维单元:用于将所述加权字符串降维处理,使得所述加权字符串中,大于0的字符串变成1,小于0的字符串变成0;其中,经过降维处理后的字符串为对应所述源码文件或所述目标文件的特征字符串。
8.根据权利要求7所述的域名源站探测系统,其特征在于,所述系统还包括:
计算单元:用于计算所述目标文件与所述源码文件的特征字符串的海明距离;
比较单元:用于判断所述目标文件与所述源码文件的海明距离是否小于预设值;
标注单元:用于当判断到所述目标文件与所述源码文件的海明距离小于预设值时,查询所述目标文件对应的IP地址,并标注为真实IP地址。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的域名源站探测方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至5中任一项所述的域名源站探测方法。
CN202111203501.6A 2021-10-15 2021-10-15 域名源站探测方法、系统、计算机及可读存储介质 Pending CN113992625A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111203501.6A CN113992625A (zh) 2021-10-15 2021-10-15 域名源站探测方法、系统、计算机及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111203501.6A CN113992625A (zh) 2021-10-15 2021-10-15 域名源站探测方法、系统、计算机及可读存储介质

Publications (1)

Publication Number Publication Date
CN113992625A true CN113992625A (zh) 2022-01-28

Family

ID=79738830

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111203501.6A Pending CN113992625A (zh) 2021-10-15 2021-10-15 域名源站探测方法、系统、计算机及可读存储介质

Country Status (1)

Country Link
CN (1) CN113992625A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116346473A (zh) * 2023-03-29 2023-06-27 贝壳找房(北京)科技有限公司 调用链路的识别方法、设备、存储介质及计算机程序产品

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140344401A1 (en) * 2012-12-13 2014-11-20 Level 3 Communications, Llc Content Delivery Framework having Origin Services
CN107465666A (zh) * 2017-07-12 2017-12-12 北京潘达互娱科技有限公司 一种客户端ip获取方法与装置
CN107784110A (zh) * 2017-11-03 2018-03-09 北京锐安科技有限公司 一种索引建立方法及装置
CN108737423A (zh) * 2018-05-24 2018-11-02 国家计算机网络与信息安全管理中心 基于网页关键内容相似性分析的钓鱼网站发现方法及系统
CN109451094A (zh) * 2018-12-20 2019-03-08 北京奇安信科技有限公司 一种获取源站ip地址方法、系统、电子设备和介质
CN109788050A (zh) * 2018-12-29 2019-05-21 北京奇安信科技有限公司 一种获取源站ip地址方法、系统、电子设备和介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140344401A1 (en) * 2012-12-13 2014-11-20 Level 3 Communications, Llc Content Delivery Framework having Origin Services
CN107465666A (zh) * 2017-07-12 2017-12-12 北京潘达互娱科技有限公司 一种客户端ip获取方法与装置
CN107784110A (zh) * 2017-11-03 2018-03-09 北京锐安科技有限公司 一种索引建立方法及装置
CN108737423A (zh) * 2018-05-24 2018-11-02 国家计算机网络与信息安全管理中心 基于网页关键内容相似性分析的钓鱼网站发现方法及系统
CN109451094A (zh) * 2018-12-20 2019-03-08 北京奇安信科技有限公司 一种获取源站ip地址方法、系统、电子设备和介质
CN109788050A (zh) * 2018-12-29 2019-05-21 北京奇安信科技有限公司 一种获取源站ip地址方法、系统、电子设备和介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
蒋巍;: "基于位置敏感哈希的海量文本数据查询算法研究", 科技通报, no. 10, 15 October 2013 (2013-10-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116346473A (zh) * 2023-03-29 2023-06-27 贝壳找房(北京)科技有限公司 调用链路的识别方法、设备、存储介质及计算机程序产品
CN116346473B (zh) * 2023-03-29 2024-03-26 贝壳找房(北京)科技有限公司 调用链路的识别方法、设备、存储介质及计算机程序产品

Similar Documents

Publication Publication Date Title
US11799823B2 (en) Domain name classification systems and methods
CN106055574B (zh) 一种识别非法统一资源标识符url的方法与装置
KR101656245B1 (ko) 문장 추출 방법 및 시스템
JP2018518788A (ja) ウェブページトレーニング方法及び装置、検索意図識別方法及び装置
CN107784110B (zh) 一种索引建立方法及装置
CN109376277B (zh) 确定设备指纹同源性的方法及装置
CN111869176B (zh) 用于恶意软件签名生成的系统和方法
CN106534268B (zh) 一种数据共享方法及装置
US10911477B1 (en) Early detection of risky domains via registration profiling
US20170309298A1 (en) Digital fingerprint indexing
CN114598597B (zh) 多源日志解析方法、装置、计算机设备及介质
CN107786529B (zh) 网站的检测方法、装置及系统
CN112199344A (zh) 一种日志分类的方法和装置
CN113810375B (zh) webshell检测方法、装置、设备及可读存储介质
CN113992625A (zh) 域名源站探测方法、系统、计算机及可读存储介质
CN111177719A (zh) 地址类别判定方法、装置、计算机可读存储介质及设备
CN105468972B (zh) 一种移动终端文件检测方法
CN105243327A (zh) 一种文件安全处理方法
WO2016101737A1 (zh) 搜索查询方法和装置
CN105099996B (zh) 网站验证方法及装置
CN115544283A (zh) 一种图片检测方法、装置、计算设备及存储介质
CN111556042B (zh) 恶意url的检测方法、装置、计算机设备和存储介质
CN109145220B (zh) 数据处理方法、装置及电子设备
CN113139374A (zh) 一种文档相似段落的标记查询方法、系统、设备及存储介质
US10803115B2 (en) Image-based domain name system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination