CN110858852B - 一种注册域名的获取方法及装置 - Google Patents

一种注册域名的获取方法及装置 Download PDF

Info

Publication number
CN110858852B
CN110858852B CN201810966518.9A CN201810966518A CN110858852B CN 110858852 B CN110858852 B CN 110858852B CN 201810966518 A CN201810966518 A CN 201810966518A CN 110858852 B CN110858852 B CN 110858852B
Authority
CN
China
Prior art keywords
level domain
domain name
matched
processed
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810966518.9A
Other languages
English (en)
Other versions
CN110858852A (zh
Inventor
赖华贵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201810966518.9A priority Critical patent/CN110858852B/zh
Publication of CN110858852A publication Critical patent/CN110858852A/zh
Application granted granted Critical
Publication of CN110858852B publication Critical patent/CN110858852B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/30Managing network names, e.g. use of aliases or nicknames
    • H04L61/3015Name registration, generation or assignment

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种注册域名的获取方法及装置,其中方法包括:获取待处理URL;从待处理URL中提取主域部分;从主域部分确定目标顶级域名;目标顶级域名为待定目标顶级域名中与主域部分匹配的字段数目最大的顶级域名;待定目标顶级域名为主域部分包含的所有存在于预设的多个顶级域名中的顶级域名;一个字段为主域部分中以点号所隔开的一个字符串;依据目标顶级域名,确定待处理URL的注册域名。本申请可以从待处理URL中准确的提取出注册域名。

Description

一种注册域名的获取方法及装置
技术领域
本发明涉及域名处理领域,特别是涉及一种注册域名的获取方法及装置。
背景技术
注册域名为个人或者机构在顶级域名下注册的域名。以顶级域名为“.com”为例,“baidu.com”和“taobao.com”就是顶级域名“.com”下的注册域名。
在实际应用中,注册域名的具体内容具有重要意义。例如,将企业名称、产品名称、商标名称和品牌名称中任意一个名称和顶级域名,组合为注册域名,此时,注册域名有助于实现企业的营销目标。由于注册域名与企业名称、产品名称、商标名称和品牌名称间的密切关系,在实际应用中,可以通过从统一资源定位符(Uniform Resource Locator,URL)中提取出注册域名,进而可以对所提取出的注册域名进行分析,获取有关企业、产品、商标或者品牌等相关信息,以便管理人员基于所获取的相关信息进行决策。
从URL中提取注册域名的准确性,对后续基于注册域名所获取的信息准确性具有重要影响。因此,需要准确从URL中提取注册域名。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种注册域名的获取方法及装置。
其中,一种注册域名的获取方法,包括:
获取待处理URL;
从所述待处理URL中提取主域部分;
从所述主域部分确定目标顶级域名;所述目标顶级域名为待定目标顶级域名中与所述主域部分匹配的字段数目最大的顶级域名;所述待定目标顶级域名为所述主域部分包含的所有存在于预设的多个顶级域名中的顶级域名;一个所述字段为所述主域部分中以点号所隔开的一个字符串;
依据所述目标顶级域名,确定所述待处理URL的注册域名。
其中,所述从所述主域部分确定目标顶级域名,包括:
基于所述主域部分的结尾字段,按照从后向前的顺序,对字段进行多次累加拼接,得到目标数量个待匹配信息段,其中目标数量为所述主域部分所包含的字段的总数量;
从所有所述待匹配信息段中,检测满足预设条件的待匹配信息段;所述预设条件包括存在于所述预设的多个顶级域名中;
将满足所述预设条件的待匹配信息段中字段数目最大的待匹配信息段,确定为所述目标顶级域名。
其中,在所述从所有待匹配信息段中,检测满足预设条件的待匹配信息段之前,还包括:
以所述预设的多个顶级域名的字符串长度和所述预设的多个顶级域名的首字母为键、以所述预设的多个顶级域名相应的字符串为值,建立所述预设的多个顶级域名对应的二级哈希表。
其中,所述从所有待匹配信息段中,检测满足预设条件的待匹配信息段,具体包括:
将所述待匹配信息段中的任意一个待匹配信息段作为当前待匹配信息段;
确定当前待匹配信息段的字符串长度和首字母;
检测所述二级哈希表中是否存在与所述当前待匹配信息段匹配的数据;
若存在,则将所述当前待匹配信息段,确定为满足所述预设条件的待匹配信息段;
若不存在,则从未检测过的待匹配信息段中任选一个待匹配信息段作为当前待匹配信息段;
返回执行所述确定当前待匹配信息段的字符串长度和首字母的步骤,直至全部待匹配信息段检测完毕。
其中,所述方法还包括:
将所述预设的多个顶级域名按照字段数目的大小进行排序,得到排序后的多个顶级域名。
其中,所述从所述主域部分确定目标顶级域名,包括:
将排序后的多个顶级域名中字段数目最大一端的顶级域名作为当前待处理顶级域名;
检测所述主域部分是否包含当前待处理顶级域名;
若所述主域部分包含当前待处理顶级域名,则将当前待处理顶级域名确定为所述目标顶级域名;
若所述主域部分不包含当前待处理顶级域名,则将排序后的多个顶级域名中与当前待处理顶级域名相邻的未检测顶级域名作为新的当前待处理顶级域名,返回执行所述检测所述主域部分是否包含当前待处理顶级域名的步骤,直至排序后的全部顶级域名检测完毕。
其中,所述依据所述目标顶级域名,确定所述待处理URL的注册域名,包括:
确定目标字段,所述目标字段为所述主域部分中位于所述目标顶级域名的左侧,且与所述目标顶级域名相邻的一个字段;
将所述主域部分中从所述目标字段到所述目标顶级域名的部分,确定为所述待处理URL的注册域名。
一种注册域名的获取装置,包括:
获取单元,用于获取待处理URL;
提取单元,用于从所述待处理URL中提取主域部分;
第一确定单元,用于从所述主域部分确定目标顶级域名;所述目标顶级域名为待定目标顶级域名中与所述主域部分匹配的字段数目最大的顶级域名;所述待定目标顶级域名为所述主域部分包含的所有存在于预设的多个顶级域名中的顶级域名;一个所述字段为所述主域部分中以点号所隔开的一个字符串;
第二确定单元,用于依据所述目标顶级域名,确定所述待处理URL的注册域名。
其中,所述第一确定单元,包括:
拼接子单元,用于基于所述主域部分的结尾字段,按照从后向前的顺序,对字段进行多次累加拼接,得到目标数量个待匹配信息段,其中目标数量为所述主域部分所包含的字段的总数量;
检测子单元,用于从所有所述待匹配信息段中,检测满足预设条件的待匹配信息段;所述预设条件包括存在于所述预设的多个顶级域名中;
第一确定子单元,用于将满足所述预设条件的待匹配信息段中字段数目最大的待匹配信息段,确定为所述目标顶级域名。
其中,该第一确定单元还包括:
建立子单元,用于在所述检测子单元从所有待匹配信息段中,检测满足预设条件的待匹配信息段之前,以所述预设的多个顶级域名的字符串长度和所述预设的多个顶级域名的首字母为键、以所述预设的多个顶级域名相应的字符串为值,建立所述预设的多个顶级域名对应的二级哈希表。
其中,所述检测子单元,具体用于将所述待匹配信息段中的任意一个待匹配信息段作为当前待匹配信息段;
确定当前待匹配信息段的字符串长度和首字母;
检测所述二级哈希表中是否存在与所述当前待匹配信息段匹配的数据;
若存在,则将所述当前待匹配信息段,确定为满足所述预设条件的待匹配信息段;
若不存在,则从未检测过的待匹配信息段中任选一个待匹配信息段作为当前待匹配信息段;
返回执行所述确定当前待匹配信息段的字符串长度和首字母的步骤,直至全部待匹配信息段检测完毕。
其中,该装置还包括:
排序单元,用于将所述预设的多个顶级域名按照字段数目的大小进行排序,得到排序后的多个顶级域名。
其中,所述第一确定单元,具体用于:
将排序后的多个顶级域名中字段数目最大一端的顶级域名作为当前待处理顶级域名;
检测所述主域部分是否包含当前待处理顶级域名;
若所述主域部分包含当前待处理顶级域名,则将当前待处理顶级域名确定为所述目标顶级域名;
若所述主域部分不包含当前待处理顶级域名,则将排序后的多个顶级域名中与当前待处理顶级域名相邻的未检测顶级域名作为新的当前待处理顶级域名,返回执行所述检测所述主域部分是否包含当前待处理顶级域名的步骤,直至排序后的全部顶级域名检测完毕。
其中,所述第二确定单元,包括:
第二确定子单元,用于确定目标字段,所述目标字段为所述主域部分中位于所述目标顶级域名的左侧,且与所述目标顶级域名相邻的一个字段;
第三确定子单元,用于将所述主域部分中从所述目标字段到所述目标顶级域名的部分,确定为所述待处理URL的注册域名。
一种存储介质,所述存储介质上存储有程序,所述程序被处理器执行上述任意一项所述的注册域名的获取方法。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述任意一项所述的注册域名的获取方法。
借由上述技术方案,本发明提供的方案的有益效果为:
在本申请实施例中,待定目标顶级域名为主域部分所有存在于预设的多个顶级域名中的顶级域名,并且本领域技术人员可以将预设的多个顶级域名具体为现有的所有顶级域名,因此,待定目标顶级域名就是主域部分所有存在于现有顶级域名中的顶级域名;并且,本领域技术人员公知当一个URL中存在多个顶级域名时,正确的顶级域名字段数目最大;因此,在本申请实施例中,从待处理URL的主域部分所包含的所有顶级域名中寻找字段数目最大的顶级域名,此时,所确定出的目标顶级域名一定是准确的顶级域名;进而,本申请实施例中,依据准确的目标顶级域名所确定出的注册域名是准确的。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本申请中一种注册域名的获取方法实施例的流程图;
图2示出了本申请中一种从主域部分提取目标顶级域名的方法实施例的流程图;
图3示出了本申请中又一种从主域部分提取目标顶级域名的方法实施例的流程图;
图4为本申请中一种注册域名的获取装置实施例的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1为本申请中一种注册域名的获取方法可以包括以下步骤:
步骤101:获取待处理URL。
待处理URL例如可以为http://www.example.com.cn/1.html。
步骤102:从待处理URL中提取主域部分。
在本步骤中,URL由资源类型、存放资源的主机域名和资源文件名三部分组成,URL格式为:protocol://hostname[:port]/path/[;parameters][?query]#fragment,其中,protocol表示协议,hostname表示主机名,port表示端口号,path表示路径,parameters用于指定特殊参数的可选项,query用于给动态网页传递参数,fragment用于指定网络资源中的片断。其中,主机名部分就是主域部分。
因此,在实际应用中,从待处理URL中提取主域部分可以包括:根据URL的格式对URL进行拆分,然后提取出主域部分。
例如,待处理URL为http://www.example.com.cn/1.html时,主域部分为www.example.com.cn。
步骤103:从主域部分中确定目标顶级域名。
在本步骤中,目标顶级域名为待定目标顶级域名中字段数目最大的顶级域名。其中,待定目标顶级域名为在预设的多个顶级域名中主域部分所包含的顶级域名。预设的多个顶级域名为现有的所有顶级域名。一个字段为主域部分中以点号隔开的一个字段串。例如,在主域部分为www.example.com.cn中,www是一个字段,example是一个字段,com是一个字段,以及cn是一个字段。
在实际应用中,主域部分包含多个顶级域名,然而主域部分所包含的顶级域名中的目标顶级域名只有一个。例如,主域部分为www.example.com.cn,该主域部分包含的顶级域名包括:.com.cn和.cn。其中只有.com.cn才是该主域部分的目标顶级域名。
具体的,本申请实施例给出了两种从主域部分提取目标顶级域名的方式。分别为图2和图3所对应的从主域部分提取目标顶级域名的方法,详细细节请参考图2与图3所公开的方法实施例,这里不再赘述。
步骤104:依据目标顶级域名,确定待处理URL的注册域名。
在本步骤中,依据目标顶级域名确定待处理URL的注册域名的过程可以包括步骤A1~步骤A2:
步骤A1:确定目标字段。
在本步骤中,目标字段为主域部分中位于目标顶级域名的左侧,且与目标顶级域名相邻的一个字段。例如,以主域部分为www.example.com.cn为例,在该主域部分中顶级域名为.com.cn,因此,位于目标顶级域名的左侧,且与目标顶级域名相邻的一个字段为example,在本实施例中,将example确定为www.example.com.cn的目标字段。
步骤A2:将主域部分中从目标字段到目标顶级域名的部分,确定为待处理URL的注册域名。
在确定出主域部分中的目标顶级域名与目标字段后,在本步骤中,将主域部分中从目标字段到目标顶级域名的部分,确定为待处理URL的注册域名。在主域部分为www.example.com.cn为例,在该主域部分中目标字段为example,目标顶级域名为.com.cn,因此,该主域部分中从目标字段到目标顶级域名的部分为example.com.cn。
图2为本申请公开的一种从主域部分提取目标顶级域名的方法可以包括以下步骤:
步骤201:基于主域部分的结尾字段,按照从后向前的顺序,对字段进行多次累加拼接,得到目标数量个待匹配信息段。
在本步骤中,主域部分的结尾字段为主域部分左起的最后一个字段。每次累加拼接指在上一次得到的待匹配信息段的基础上,按照主域部分字段从后向前的顺序,在上一次得到的待匹配信息段的前面拼接一个字段,得到当前累加拼接的新待匹配信息段。结尾字段为第一个待匹配信息段,基于第一个待匹配信息段得到第二个待匹配信息段的过程是:按照字段从后向前的顺序,在第一个待匹配信息段的基础上添加一个字段,得到第二个待匹配信息段;依次类推,得到最后一个待匹配信息段(主域部分)。在本步骤中,目标数量为主域部分所包含的字段的总数量。
例如,以主域部分为www.example.com.cn为例,其中,cn为结尾字段,为第一个待匹配信息段;按照主域部分字段从后向前的顺序,在结尾字段的前面添加一个字段,得到第二个待匹配字段com.cn;在第二个待匹配信息段的前面添加一个字段,得到第三个待匹配信息段(example.com.cn);在第三个待匹配信息段的前面添加一个字段,得到第四个待匹配信息段(www.example.com.cn),此时,得到4个待匹配信息段。
步骤202:以预设的多个顶级域名的字符串长度和预设的多个顶级域名的首字母为键、以预设的多个顶级域名相应的字符串为值,建立预设的多个顶级域名对应的二级哈希表。
例如,在本实施例中,预设的多个顶级域名分别为.cn、.com、.com.cn、.net、.net.cn、.gov、.gov.cn和.org。其中,预设的多个顶级域名对应的字符串长度依次为3、4、7、4、7、4、7和4,对应的首字母依次为c、c、c、n、n、g、g和o,相应的字符串依次为cn、com、com.cn、net、net.cn、gov、gov.cn和org。因此,所建立的二级哈希表如下图所示。
Figure BDA0001775108880000091
需要说明的是,上述步骤201与步骤202的没有执行顺序上的限制。
步骤203:从待匹配信息段中,检测满足预设条件的待匹配信息段。
在本步骤中,预设条件为存在于预设的多个顶级域名中。即在本步骤中,从待匹配信息段中检测存在于预设的多个顶级域名的待匹配信息段。
主域部分为www.example.com.cn的待匹配信息段分别为cn、com.cn、example.com.cn和www.example.com.cn。在本步骤中,分别检测存在于预设的多个顶级域名中的待匹配信息段,可以看出,待匹配信息中cn和com.cn是存在于预设的多个顶级域名中的待匹配信息段。因此,满足预设条件的待匹配信息段为cn和com.cn。
具体的,从待匹配信息段中,检测满足预设条件的待匹配信息段的过程,可以包括步骤B1~步骤B3:
步骤B1:确定当前待匹配信息段。
在本实施例中,为了描述方便,将未被匹配过的待匹配信息段中的任意一个待匹配信息段称为当前待匹配信息段。
以主域部分为www.example.com.cn的待匹配信息段分别为cn、com.cn、example.com.cn和www.example.com.cn为例,在第一次执行本步骤时,当前待匹配信息段为cn、com.cn、example.com.cn和www.example.com.cn中的任意一个待匹配信息段。
步骤B2:检测二级哈希表中是否存在与当前待匹配信息段匹配的数据。
在本步骤中,具体可以从已建立的二级哈希表中检测是否存在当前待匹配信息段的字符串长度、首字母和字符串。若二级哈希表中存在该当前待匹配信息段的字符串长度、首字母相应的键,且二级哈希表中存在与当前待匹配信息段相同的字符串的值,即二级哈希表中存在与当前待匹配信息段匹配的键值对,则认为二级哈希表中存在与当前待匹配信息段匹配的数据。以当前待匹配信息段为cn为例,此时所确定出的当前待匹配信息段的字符串长度为3,首字母为c,字符串为cn,则执行步骤B3,否则,若二级哈希表中不存在当前待匹配信息段的字符串长度、或存在当前待匹配信息段的字符串长度但不存在当前待匹配信息段的首字母、或存在当前待匹配信息段的字符串长度与首字母但不存在与当前待匹配信息段相同的字符串,则执行步骤B1的动作,直至将所确定出的待匹配信息段都在已建立的二级哈希表中检测过。
步骤B3:将该当前待匹配信息段确定为满足预设条件的待匹配信息段。接着,重复执行步骤B1。
最终,得到满足预设条件的待匹配信息段为cn和com.cn。
步骤204:将满足预设条件的待匹配信息段中字段数目最大的待匹配信息段,确定为目标顶级域名。
在确定出满足预设条件的待匹配信息段后,将字段数目最大的待匹配信息段确定为目标顶级域名。例如,满足预设条件的待匹配信息段为cn和com.cn,由于com.cn的字段数目为2,cn的字段数目为1,因此,在本步骤中,将.com.cn确定为目标顶级域名。
图3为本申请公开的又一种从主域部分提取目标顶级域名的方法可以包括以下步骤:
步骤301:确定预设的多个顶级域名的字段数目的大小顺序。
在本步骤中,将预设的多个顶级域名按照字段数目从大到小的顺序进行排序,其中,对于字段数目相同的顶级域名间的先后顺序可以不限定。当然,在实际应用中,对于字段数目相同并且由英文字母所组成的顶级域名可以首先考虑首字母,若首字母相同,则进一步考虑第二位字母,若第二位字母相同则再进一步考虑第三位字母。
对于字段数目相同的顶级域名可以按照字符串长度进行排序;或者,对于字段数目相同的顶级域名可以按照首字符的ASCII码进行排序。当然,在实际应用中,还可以同时上述字母、字符串长度以及首字符的ASCII码等多种方式的组合进行排序。
例如,预设的多个顶级域名分别为.cn、.com、.com.cn、.net、.net.cn、.gov、.gov.cn和.org,在本步骤中按照字段数目从大到小进行排序的结果可以为:.com.cn、.net.cn、.gov.cn、.cn、.com、.net、.gov和.org。
步骤302:将排序后的多个顶级域名中字段数目最大一端的顶级域名,作为当前待处理顶级域名。
在本实施例中,字段数目最大一端的顶级域名为排序后的多个顶级域名中,位于字段数目最大的一端的最靠边的顶级域名。若对预设的多个顶级域名按照字段数目从大到小的顺序进行排列,则字段数目最大一端的顶级域名为第一个顶级域名;若对预设的多个顶级域名按照字段数目从小到大的顺序进行排列,则字段数目最大一端的顶级域名为最后一个顶级域名。
例如,在第一次执行本步骤的动作时,当前待处理顶级域名为预设的多个顶级域名中字段数目最大的顶级域名。还以步骤301中的例子为例,此时,当前待处理顶级域名为.com.cn。
步骤303:判断主域部分是否包含当前待处理顶级域名。
在获取到当前待处理顶级域名后,在本步骤中,检测待处理URL的主域部分是否包含该当前待处理顶级域名,以主域部分为www.example.com.cn为例,在本步骤中,检测该主域部分中是否存在当前待处理顶级域名.com.cn。
若主域部分中存在当前待处理顶级域名,则执行步骤304的动作,否则,执行步骤305的动作,直至排序后的顶级域名全部判断完毕。
步骤304:将当前待处理顶级域名确定为目标顶级域名。
步骤305:将排序后的多个顶级域名中与当前待处理顶级域名相邻的未检测顶级域名作为新的当前待处理顶级域名,直至排序后的全部顶级域名检测完毕。
还以步骤301中的例子为例,此时当前待处理顶级域名为.net.cn。并返回执行步骤303,直至排序后的全部顶级域名检测完毕。
图4为一种注册域名的获取装置实施例的结构示意图,可以包括:
获取单元,用于获取待处理URL;
提取单元,用于从所述待处理URL中提取主域部分;
第一确定单元,用于从所述主域部分确定目标顶级域名;所述目标顶级域名为待定目标顶级域名中与所述主域部分匹配的字段数目最大的顶级域名;所述待定目标顶级域名为所述主域部分包含的所有存在于预设的多个顶级域名中的顶级域名;一个所述字段为所述主域部分中以点号所隔开的一个字符串;
第二确定单元,用于依据所述目标顶级域名,确定所述待处理URL的注册域名。
其中,所述第一确定单元,可以包括:
拼接子单元,用于基于所述主域部分的结尾字段,按照从后向前的顺序,对字段进行多次累加拼接,得到目标数量个待匹配信息段,其中目标数量为所述主域部分所包含的字段的总数量;
检测子单元,用于从所有所述待匹配信息段中,检测满足预设条件的待匹配信息段;所述预设条件包括存在于所述预设的多个顶级域名中;
第一确定子单元,用于将满足所述预设条件的待匹配信息段中字段数目最大的待匹配信息段,确定为所述目标顶级域名。
其中,该第一确定单元还可以包括:
建立子单元,用于在所述检测子单元从所有待匹配信息段中,检测满足预设条件的待匹配信息段之前,以所述预设的多个顶级域名的字符串长度和所述预设的多个顶级域名的首字母为键、以所述预设的多个顶级域名相应的字符串为值,建立所述预设的多个顶级域名对应的二级哈希表。
其中,所述检测子单元,具体用于将所述待匹配信息段中的任意一个待匹配信息段作为当前待匹配信息段;
确定当前待匹配信息段的字符串长度和首字母;
检测所述二级哈希表中是否存在与所述当前待匹配信息段匹配的数据;
若存在,则将所述当前待匹配信息段,确定为满足所述预设条件的待匹配信息段;
若不存在,则从未检测过的待匹配信息段中任选一个待匹配信息段作为当前待匹配信息段;
返回执行所述确定当前待匹配信息段的字符串长度和首字母的步骤,直至全部待匹配信息段检测完毕。
其中,该装置实施例还可以包括:
排序单元,用于将所述预设的多个顶级域名按照字段数目的大小进行排序,得到排序后的多个顶级域名。
其中,所述第一确定单元,具体用于:
将排序后的多个顶级域名中字段数目最大一端的顶级域名作为当前待处理顶级域名;
检测所述主域部分是否包含当前待处理顶级域名;
若所述主域部分包含当前待处理顶级域名,则将当前待处理顶级域名确定为所述目标顶级域名;
若所述主域部分不包含当前待处理顶级域名,则将排序后的多个顶级域名中与当前待处理顶级域名相邻的未检测顶级域名作为新的当前待处理顶级域名,返回执行所述检测所述主域部分是否包含当前待处理顶级域名的步骤,直至排序后的全部顶级域名检测完毕。
其中,所述第二确定单元,可以包括:
第二确定子单元,用于确定目标字段,所述目标字段为所述主域部分中位于所述目标顶级域名的左侧,且与所述目标顶级域名相邻的一个字段;
第三确定子单元,用于将所述主域部分中从所述目标字段到所述目标顶级域名的部分,确定为所述待处理URL的注册域名。
所述注册域名的获取装置包括处理器和存储器,上述获取单元、提取单元、第一确定单元和第二确定单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来从待处理URL中提取注册域名。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述注册域名的获取方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述注册域名的获取方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
获取待处理URL;
从所述待处理URL中提取主域部分;
从所述主域部分确定目标顶级域名;所述目标顶级域名为待定目标顶级域名中与所述主域部分匹配的字段数目最大的顶级域名;所述待定目标顶级域名为所述主域部分包含的所有存在于预设的多个顶级域名中的顶级域名;一个所述字段为所述主域部分中以点号所隔开的一个字符串;
依据所述目标顶级域名,确定所述待处理URL的注册域名。
其中,所述从所述主域部分确定目标顶级域名,包括:
基于所述主域部分的结尾字段,按照从后向前的顺序,对字段进行多次累加拼接,得到目标数量个待匹配信息段,其中目标数量为所述主域部分所包含的字段的总数量;
从所有所述待匹配信息段中,检测满足预设条件的待匹配信息段;所述预设条件包括存在于所述预设的多个顶级域名中;
将满足所述预设条件的待匹配信息段中字段数目最大的待匹配信息段,确定为所述目标顶级域名。
其中,在所述从所有待匹配信息段中,检测满足预设条件的待匹配信息段之前,还包括:
以所述预设的多个顶级域名的字符串长度和所述预设的多个顶级域名的首字母为键、以所述预设的多个顶级域名相应的字符串为值,建立所述预设的多个顶级域名对应的二级哈希表。
其中,所述从所有待匹配信息段中,检测满足预设条件的待匹配信息段,具体包括:
将所述待匹配信息段中的任意一个待匹配信息段作为当前待匹配信息段;
检测所述二级哈希表中是否存在与所述当前待匹配信息段匹配的数据;
若存在,则将所述当前待匹配信息段,确定为满足所述预设条件的待匹配信息段;
若不存在,则从未检测过的待匹配信息段中任选一个待匹配信息段作为当前待匹配信息段;
返回执行所述确定当前待匹配信息段的字符串长度和首字母的步骤,直至全部待匹配信息段检测完毕。
其中,所述方法还包括:
将所述预设的多个顶级域名按照字段数目的大小进行排序,得到排序后的多个顶级域名。
其中,所述从所述主域部分确定目标顶级域名,包括:
将排序后的多个顶级域名中字段数目最大一端的顶级域名作为当前待处理顶级域名;
检测所述主域部分是否包含当前待处理顶级域名;
若所述主域部分包含当前待处理顶级域名,则将当前待处理顶级域名确定为所述目标顶级域名;
若所述主域部分不包含当前待处理顶级域名,则将排序后的多个顶级域名中与当前待处理顶级域名相邻的未检测顶级域名作为新的当前待处理顶级域名,返回执行所述检测所述主域部分是否包含当前待处理顶级域名的步骤,直至排序后的全部顶级域名检测完毕。
其中,所述依据所述目标顶级域名,确定所述待处理URL的注册域名,包括:
确定目标字段,所述目标字段为所述主域部分中位于所述目标顶级域名的左侧,且与所述目标顶级域名相邻的一个字段;
将所述主域部分中从所述目标字段到所述目标顶级域名的部分,确定为所述待处理URL的注册域名。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
获取待处理URL;
从所述待处理URL中提取主域部分;
从所述主域部分确定目标顶级域名;所述目标顶级域名为待定目标顶级域名中与所述主域部分匹配的字段数目最大的顶级域名;所述待定目标顶级域名为所述主域部分包含的所有存在于预设的多个顶级域名中的顶级域名;一个所述字段为所述主域部分中以点号所隔开的一个字符串;
依据所述目标顶级域名,确定所述待处理URL的注册域名。
其中,所述从所述主域部分确定目标顶级域名,包括:
基于所述主域部分的结尾字段,按照从后向前的顺序,对字段进行多次累加拼接,得到目标数量个待匹配信息段,其中目标数量为所述主域部分所包含的字段的总数量;
从所有所述待匹配信息段中,检测满足预设条件的待匹配信息段;所述预设条件包括存在于所述预设的多个顶级域名中;
将满足所述预设条件的待匹配信息段中字段数目最大的待匹配信息段,确定为所述目标顶级域名。
其中,在所述从所有待匹配信息段中,检测满足预设条件的待匹配信息段之前,还包括:
以所述预设的多个顶级域名的字符串长度和所述预设的多个顶级域名的首字母为键、以所述预设的多个顶级域名相应的字符串为值,建立所述预设的多个顶级域名对应的二级哈希表。
其中,所述从所有待匹配信息段中,检测满足预设条件的待匹配信息段,具体包括:
将所述待匹配信息段中的任意一个待匹配信息段作为当前待匹配信息段;
确定当前待匹配信息段的字符串长度和首字母;
检测所述二级哈希表中是否存在与所述当前待匹配信息段匹配的数据;
若存在,则将所述当前待匹配信息段,确定为满足所述预设条件的待匹配信息段;
若不存在,则从未检测过的待匹配信息段中任选一个待匹配信息段作为当前待匹配信息段;
返回执行所述确定当前待匹配信息段的字符串长度和首字母的步骤,直至全部待匹配信息段检测完毕。
其中,所述方法还包括:
将所述预设的多个顶级域名按照字段数目的大小进行排序,得到排序后的多个顶级域名。
其中,所述从所述主域部分确定目标顶级域名,包括:
将排序后的多个顶级域名中字段数目最大一端的顶级域名作为当前待处理顶级域名;
检测所述主域部分是否包含当前待处理顶级域名;
若所述主域部分包含当前待处理顶级域名,则将当前待处理顶级域名确定为所述目标顶级域名;
若所述主域部分不包含当前待处理顶级域名,则将排序后的多个顶级域名中与当前待处理顶级域名相邻的未检测顶级域名作为新的当前待处理顶级域名,返回执行所述检测所述主域部分是否包含当前待处理顶级域名的步骤,直至排序后的全部顶级域名检测完毕。
其中,所述依据所述目标顶级域名,确定所述待处理URL的注册域名,包括:
确定目标字段,所述目标字段为所述主域部分中位于所述目标顶级域名的左侧,且与所述目标顶级域名相邻的一个字段;
将所述主域部分中从所述目标字段到所述目标顶级域名的部分,确定为所述待处理URL的注册域名。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (7)

1.一种注册域名的获取方法,其特征在于,包括:
获取待处理URL;
从所述待处理URL中提取主域部分;
从所述主域部分确定目标顶级域名;所述目标顶级域名为待定目标顶级域名中与所述主域部分匹配的字段数目最大的顶级域名;所述待定目标顶级域名为所述主域部分包含的所有存在于预设的多个顶级域名中的顶级域名;一个所述字段为所述主域部分中以点号所隔开的一个字符串;
依据所述目标顶级域名,确定所述待处理URL的注册域名;
将所述预设的多个顶级域名按照字段数目的大小进行排序,得到排序后的多个顶级域名;
其中,所述从所述主域部分确定目标顶级域名,包括:
将排序后的多个顶级域名中字段数目最大一端的顶级域名作为当前待处理顶级域名;
检测所述主域部分是否包含当前待处理顶级域名;
若所述主域部分包含当前待处理顶级域名,则将当前待处理顶级域名确定为所述目标顶级域名;
若所述主域部分不包含当前待处理顶级域名,则将排序后的多个顶级域名中与当前待处理顶级域名相邻的未检测顶级域名作为新的当前待处理顶级域名,返回执行所述检测所述主域部分是否包含当前待处理顶级域名的步骤,直至排序后的全部顶级域名检测完毕。
2.根据权利要求1所述的方法,其特征在于,所述从所述主域部分确定目标顶级域名,包括:
基于所述主域部分的结尾字段,按照从后向前的顺序,对字段进行多次累加拼接,得到目标数量个待匹配信息段,其中目标数量为所述主域部分所包含的字段的总数量;
从所有所述待匹配信息段中,检测满足预设条件的待匹配信息段;所述预设条件包括存在于所述预设的多个顶级域名中;
将满足所述预设条件的待匹配信息段中字段数目最大的待匹配信息段,确定为所述目标顶级域名。
3.根据权利要求2所述的方法,其特征在于,在所述从所有待匹配信息段中,检测满足预设条件的待匹配信息段之前,还包括:
以所述预设的多个顶级域名的字符串长度和所述预设的多个顶级域名的首字母为键、以所述预设的多个顶级域名相应的字符串为值,建立所述预设的多个顶级域名对应的二级哈希表。
4.根据权利要求3所述的方法,其特征在于,所述从所有待匹配信息段中,检测满足预设条件的待匹配信息段,具体包括:
将所述待匹配信息段中的任意一个待匹配信息段作为当前待匹配信息段;
检测所述二级哈希表中是否存在与所述当前待匹配信息段匹配的数据;
若存在,则将所述当前待匹配信息段,确定为满足所述预设条件的待匹配信息段;
若不存在,则从未检测过的待匹配信息段中任选一个待匹配信息段作为当前待匹配信息段;
返回执行所述确定当前待匹配信息段的字符串长度和首字母的步骤,直至全部待匹配信息段检测完毕。
5.根据权利要求1~4任意一项所述的方法,其特征在于,所述依据所述目标顶级域名,确定所述待处理URL的注册域名,包括:
确定目标字段,所述目标字段为所述主域部分中位于所述目标顶级域名的左侧,且与所述目标顶级域名相邻的一个字段;
将所述主域部分中从所述目标字段到所述目标顶级域名的部分,确定为所述待处理URL的注册域名。
6.一种注册域名的获取装置,其特征在于,包括:
获取单元,用于获取待处理URL;
提取单元,用于从所述待处理URL中提取主域部分;
第一确定单元,用于从所述主域部分确定目标顶级域名;所述目标顶级域名为待定目标顶级域名中与所述主域部分匹配的字段数目最大的顶级域名;所述待定目标顶级域名为所述主域部分包含的所有存在于预设的多个顶级域名中的顶级域名;一个所述字段为所述主域部分中以点号所隔开的一个字符串;
第二确定单元,用于依据所述目标顶级域名,确定所述待处理URL的注册域名;
所述注册域名的获取装置,还用于将所述预设的多个顶级域名按照字段数目的大小进行排序,得到排序后的多个顶级域名;
其中,所述从所述主域部分确定目标顶级域名,包括:
将排序后的多个顶级域名中字段数目最大一端的顶级域名作为当前待处理顶级域名;
检测所述主域部分是否包含当前待处理顶级域名;
若所述主域部分包含当前待处理顶级域名,则将当前待处理顶级域名确定为所述目标顶级域名;
若所述主域部分不包含当前待处理顶级域名,则将排序后的多个顶级域名中与当前待处理顶级域名相邻的未检测顶级域名作为新的当前待处理顶级域名,返回执行所述检测所述主域部分是否包含当前待处理顶级域名的步骤,直至排序后的全部顶级域名检测完毕。
7.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1~5任意一项权利要求所述的注册域名的获取方法。
CN201810966518.9A 2018-08-23 2018-08-23 一种注册域名的获取方法及装置 Active CN110858852B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810966518.9A CN110858852B (zh) 2018-08-23 2018-08-23 一种注册域名的获取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810966518.9A CN110858852B (zh) 2018-08-23 2018-08-23 一种注册域名的获取方法及装置

Publications (2)

Publication Number Publication Date
CN110858852A CN110858852A (zh) 2020-03-03
CN110858852B true CN110858852B (zh) 2022-05-10

Family

ID=69636012

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810966518.9A Active CN110858852B (zh) 2018-08-23 2018-08-23 一种注册域名的获取方法及装置

Country Status (1)

Country Link
CN (1) CN110858852B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114710468B (zh) * 2022-03-31 2024-05-14 绿盟科技集团股份有限公司 一种域名生成和识别方法、装置、设备及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018001078A1 (zh) * 2016-06-29 2018-01-04 中兴通讯股份有限公司 一种url匹配方法、装置及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006084693A1 (en) * 2005-02-09 2006-08-17 Dns Holding Sa A method and a device for recomposing an url
US7689666B2 (en) * 2006-08-31 2010-03-30 Richard Commons System and method for restricting internet access of a computer
CN102045360B (zh) * 2010-12-27 2014-04-02 华为数字技术(成都)有限公司 恶意网址库的处理方法及装置
CN102664926B (zh) * 2012-03-29 2015-07-01 北京奇虎科技有限公司 用户信息共享方法及系统
CN103500190B (zh) * 2012-03-31 2017-05-03 北京世界星辉科技有限责任公司 一种图标内容更新方法及更新装置
CN103077208B (zh) * 2012-12-28 2016-01-27 华为技术有限公司 统一资源定位符匹配处理方法及装置
CN107291727A (zh) * 2016-03-31 2017-10-24 北京国双科技有限公司 一种爬虫的爬取方法及装置
CN106202235B (zh) * 2016-06-28 2020-04-14 微梦创科网络科技(中国)有限公司 一种数据处理方法及装置
US20180173799A1 (en) * 2016-12-21 2018-06-21 Verisign, Inc. Determining a top level domain from a domain name

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018001078A1 (zh) * 2016-06-29 2018-01-04 中兴通讯股份有限公司 一种url匹配方法、装置及存储介质

Also Published As

Publication number Publication date
CN110858852A (zh) 2020-03-03

Similar Documents

Publication Publication Date Title
US11463476B2 (en) Character string classification method and system, and character string classification device
WO2022051663A1 (en) Domain name processing systems and methods
CN104866478B (zh) 恶意文本的检测识别方法及装置
US11665135B2 (en) Domain name processing systems and methods
CN105224600B (zh) 一种样本相似度的检测方法及装置
CN110866091B (zh) 一种数据检索方法及装置
CN106372202B (zh) 文本相似度计算方法及装置
US20160350265A1 (en) Page jumps based on text hiding
US20230205755A1 (en) Methods and systems for improved search for data loss prevention
CN109743309B (zh) 一种非法请求识别方法、装置及电子设备
US20230131759A1 (en) Processing messages for value extraction
CN110855635B (zh) Url识别方法、装置及数据处理设备
CN107423285B (zh) 一种基于文本规则的公司简称识别方法及系统
CN110858852B (zh) 一种注册域名的获取方法及装置
CN115801455B (zh) 一种基于网站指纹的仿冒网站检测方法及装置
CN108595453B (zh) Url标识映射获取方法及装置
CN114884686B (zh) 一种php威胁识别方法及装置
CN108984572B (zh) 网站信息推送方法及装置
CN110781375A (zh) 一种用户状态标识确定方法及装置
CN105512145A (zh) 信息分类方法及装置
CN109840294B (zh) 电子元件配套资料查询方法、存储介质及终端
CN110971578B (zh) 一种用户身份的确认方法及装置
CN112152966B (zh) 非法ssl证书的识别方法及装置
CN111488622A (zh) 一种网页篡改行为的检测方法、装置及相关组件
CN110929049B (zh) 一种用户账号识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant