CN114254069A - 域名相似度的检测方法、装置和存储介质 - Google Patents

域名相似度的检测方法、装置和存储介质 Download PDF

Info

Publication number
CN114254069A
CN114254069A CN202011003143.XA CN202011003143A CN114254069A CN 114254069 A CN114254069 A CN 114254069A CN 202011003143 A CN202011003143 A CN 202011003143A CN 114254069 A CN114254069 A CN 114254069A
Authority
CN
China
Prior art keywords
character
domain name
similarity
matched
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011003143.XA
Other languages
English (en)
Inventor
施丽佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN202011003143.XA priority Critical patent/CN114254069A/zh
Publication of CN114254069A publication Critical patent/CN114254069A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种域名相似度的检测方法、装置和存储介质,涉及信息安全领域。域名相似度的检测方法包括:搜索源域名和目标域名的最大公共字符串,其中,在搜索的过程中,在源域名中待匹配的第一字符与目标域名中待匹配的第二字符不同、但第一字符和第二字符的图像相似度大于阈值的情况下,将第一字符添加到最大公共字符串中;根据最大公共字符串的长度度量值,确定源域名和目标域名的相似度。从而,本发明的实施例考虑到了用户在使用域名时,视觉相似性会对用户造成欺骗的情况,因此提高了域名相似度判定的准确性,有利于更准确地确定存在安全风险的网站。

Description

域名相似度的检测方法、装置和存储介质
技术领域
本发明涉及信息安全领域,特别涉及一种域名相似度的检测方法、装置和存储介质。
背景技术
互联网上存在一些恶意的网页,通过在URL(Uniform Resource Locator,统一资源定位符)中嵌入与他人域名相同或相似的字符串,起到混淆、仿冒他人域名甚至钓鱼欺诈的目的。为了提高网络安全,经常通过计算可疑域名与目标域名的相似度来发现钓鱼网站等不安全的网站。
在相关技术中,通常采用编辑距离算法、RKR-GST(Running Karp Rabin GreedyString Tiling,卡普拉宾匹配和贪婪的字符串拼接)等算法计算域名相似度。
发明内容
发明人对相关技术进行分析后发现,编辑距离算法的计算量较大;RKR-GST算法属于无序匹配算法,当需要计算网站域名这类有实际含义的字符串时,检出效率较低。
本发明实施例所要解决的一个技术问题是:如何高效、准确地计算域名相似度。
根据本发明一些实施例的第一个方面,提供一种域名相似度的检测方法,包括:搜索源域名和目标域名的最大公共字符串,其中,在搜索的过程中,在源域名中待匹配的第一字符与目标域名中待匹配的第二字符不同、但第一字符和第二字符的图像相似度大于阈值的情况下,将第一字符添加到最大公共字符串中;根据最大公共字符串的长度度量值,确定源域名和目标域名的相似度。
在一些实施例中,检测方法还包括:以预设的字体和字号,将字符库中的字符转换为相同尺寸的字符图像;计算每两个字符图像的相似度,作为相应两个字符的图像相似度。
在一些实施例中,字符图像为二值图像,并且计算每两个字符图像的相似度包括:对于每两个字符图像,计算两个字符图像中重合的目标颜色像素数,其中,目标颜色像素是指图像中字符所在的像素;将目标颜色像素数、与两个字符图像中目标颜色像素数的最大值的比值,确定为两个字符图像的相似度。
在一些实施例中,在搜索的过程中:在源域名中待匹配的第一字符与目标域名中待匹配的第二字符相同的情况下,将第一字符添加到最大公共字符串中,并将最大公共字符串的长度度量值加1;以及在源域名中待匹配的第一字符与目标域名中待匹配的第二字符不同、但第一字符和第二字符的图像相似度大于阈值的情况下,将第一字符添加到最大公共字符串中,并将最大公共字符串的长度度量值加上相似度、作为更新后的长度度量值。
在一些实施例中,根据最大公共字符串的长度度量值,确定源域名和目标域名的相似度包括:将最大公共字符串的长度度量值与目标域名的字符串长度的比值,确定为源域名和目标域名的相似度。
在一些实施例中,在源域名中待匹配的第一字符与目标域名中待匹配的第二字符不同、但第一字符和第二字符的图像相似度大于阈值的情况下,将第一字符替换为第二字符。
在一些实施例中,检测方法还包括:在源域名和目标域名的相似度大于预设值的情况下,将源域名确定为钓鱼网站。
根据本发明一些实施例的第二个方面,提供一种域名相似度的检测装置,包括:搜索模块,被配置为搜索源域名和目标域名的最大公共字符串,其中,在搜索的过程中,在源域名中待匹配的第一字符与目标域名中待匹配的第二字符不同、但第一字符和第二字符的图像相似度大于阈值的情况下,将第一字符添加到最大公共字符串中;确定模块,被配置为根据最大公共字符串的长度度量值,确定源域名和目标域名的相似度。
在一些实施例中,检测装置还包括:图像相似度计算模块,被配置为以预设的字体和字号,将字符库中的字符转换为相同尺寸的字符图像;以及,计算每两个字符图像的相似度,作为相应两个字符的图像相似度。
在一些实施例中,检测装置还包括:钓鱼网站确定模块,被配置为在源域名和目标域名的相似度大于预设值的情况下,将源域名确定为钓鱼网站。
根据本发明一些实施例的第三个方面,提供一种域名相似度的检测装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器中的指令,执行前述任意一种域名相似度的检测方法。
根据本发明一些实施例的第四个方面,提供一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现前述任意一种域名相似度的检测方法。
上述发明中的一些实施例具有如下优点或有益效果:本发明的实施例对传统的LCS算法进行了改进。在进行字符匹配时,除了将完全相同的字符认定为匹配以外,还将图像相似度高的字符认定为匹配。从而,考虑到了用户在使用域名时,视觉相似性会对用户造成欺骗的情况,因此提高了域名相似度判定的准确性,有利于更准确地确定存在安全风险的网站。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本发明一些实施例的域名相似度的检测方法的流程示意图。
图2示出了根据本发明一些实施例的图像相似度确定方法的流程示意图。
图3示出了根据本发明一些实施例的域名相似度的检测装置的结构示意图。
图4示出了根据本发明另一些实施例的域名相似度的检测装置的结构示意图。
图5示出了根据本发明又一些实施例的域名相似度的检测装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
发明人经过进一步分析后发现,最长公共子串算法也可以用于域名相似度的检测。并且,传统的最长公共子串算法通过判断字符是否完全相同,来检测最长公共子串。例如,目标域名为“www.abc123.com”,可疑域名为“www.abci23.com”。如果使用传统的最长公共子串算法,匹配到的最长公共子串为“www.abc”。
然而,发明人通过观察可疑域名发现,很多可疑域名将目标域名中的部分字符替换为了视觉上相近的字符。例如,对于上述例子,可疑域名通过将目标域名中的“1”替换为了“i”使得两个域名在整体视觉上高度相似,来达到混淆用户的目的。但是如果通过传统的最长公共子串算法,仅有前半部分匹配。
因此,发明人对传统的最长公共子串算法进行了改进,在匹配字符时考虑字符间的图像相似度,以提高相似度确定的准确度。下面参考图1描述本发明域名相似度的检测方法的实施例。
图1示出了根据本发明一些实施例的域名相似度的检测方法的流程示意图。如图1所示,该实施例的域名相似度的检测方法包括步骤S102~S104。
在步骤S102中,搜索源域名和目标域名的最大公共字符串,其中,在搜索的过程中,在源域名中待匹配的第一字符与目标域名中待匹配的第二字符不同、但第一字符和第二字符的图像相似度大于阈值的情况下,将第一字符添加到最大公共字符串中。
在传统的LCS算法中,需要判断源字符串中的字符和目标字符串中的字符的匹配情况、并进行记录。例如,利用一个矩阵记录,矩阵的一个维度代表源字符串、另一个维度代表目标字符串,矩阵中的每个元素标识源字符串和目标字符串中相应位置的字符的匹配结果。如果字符相同,则该元素的值为1,否则为0。然后基于该矩阵,计算对角线最长的1序列,其对应的位置就是最长匹配子串的位置。即,传统的LCS算法完全依靠字符是否一致来确定字符间的匹配结果。
本申请在匹配的过程中考虑了视觉相似度。从而,对于不同的两个字符,例如“1”和“i”,如果二者的图像相似度大于阈值,则也认为其是匹配的。例如,在匹配矩阵中,也将其值置为1、或者置为图像相似度值。并且在基于矩阵确定最大公共字符串时,依据不为0的元素进行搜索。
在一些实施例中,在源域名中待匹配的第一字符与目标域名中待匹配的第二字符不同、但第一字符和第二字符的图像相似度大于阈值的情况下,将第一字符替换为第二字符。从而,可以进一步降低对原LCS算法流程的影响。
通过上述匹配方式,当源域名、即可疑域名为“www.abci23.com”,目标域名为“www.abc123.com”时,如果“1”和“i”的图像相似度大于阈值,则源域名和目标域名的最大公共字符串为“www.abc123.com”,从而检出了高度相似的源域名。
在步骤S104中,根据最大公共字符串的长度度量值,确定源域名和目标域名的相似度。
在一些实施例中,最大公共字符串的长度度量值为最大公共字符串的字符串长度,在这种度量方式下,“www.abc123.com”的字符串长度度量值为14。
在一些实施例中,最大公共字符串的长度度量值为最大公共字符串中,完全相同的字符的数量、与通过图像相似度匹配的字符对应的相似度之和。例如,对于前述例子中的“www.abc123.com”,“www.abc”与“23.com”中的字符是源域名和目标域名中的相同字符,其中的字符数量为13;而字符“1”是通过图像相似度匹配的字符,设“1”与“i”的相似度为0.75。那么在这种度量方式下,“www.abc123.com”的字符串长度度量值为13.75。
在一些实施例中,在匹配字符的过程中记录每个匹配结果对应的长度度量值。例如,在源域名中待匹配的第一字符与目标域名中待匹配的第二字符相同的情况下,将第一字符添加到最大公共字符串中,并将最大公共字符串的长度度量值加1;以及,在源域名中待匹配的第一字符与目标域名中待匹配的第二字符不同、但第一字符和第二字符的图像相似度大于阈值的情况下,将第一字符添加到最大公共字符串中,并将最大公共字符串的长度度量值加上相似度、作为更新后的长度度量值。
通过这种方式,能够更准确地衡量源域名与目标域名的视觉相似程度,从而更准确地反映了域名相似度。
在一些实施例中,将最大公共字符串的长度度量值与源域名的字符串长度的比值,确定为源域名和目标域名的相似度。从而,通过归一化处理的方式能够便于横向比较,从而更准确地反映域名之间的相似度。
在一些实施例中,在源域名和目标域名的相似度大于预设值的情况下,将源域名确定为钓鱼网站。
上述实施例的方法对传统的LCS算法进行了改进。在进行字符匹配时,除了将完全相同的字符认定为匹配以外,还将图像相似度高的字符认定为匹配。从而,考虑到了用户在使用域名时,视觉相似性会对用户造成欺骗的情况,因此提高了域名相似度判定的准确性,有利于更准确地确定存在安全风险的网站。
下面参考图2描述字符的图像相似度确定方法的实施例。
图2示出了根据本发明一些实施例的图像相似度确定方法的流程示意图。如图2所示,该实施例的图像相似度确定方法包括步骤S202~S204。
在步骤S202中,以预设的字体和字号,将字符库中的字符转换为相同尺寸的字符图像。
在步骤S204中,计算每两个字符图像的相似度,作为相应两个字符的图像相似度。
在一些实施例中,采用以下方式确定字符图像的相似度:对于每两个字符图像,计算两个字符图像中重合的目标颜色像素数,其中,目标颜色像素是指图像中字符所在的像素;将目标颜色像素数、与两个字符图像中目标颜色像素数的最大值的比值,确定为两个字符图像的相似度。重合的像素是指在两幅图像的相同坐标对应的像素、并且这两个像素都是字符所在的像素。通过统计字符所占的像素重合度的方式,可以高效、准确地确定两个字符的图像相似度。
在确定每两个字符间的图像相似度后,可以存储这些相似度信息,以便在检测域名相似度时使用这些预先计算的相似度信息。
下面参考图3描述本发明域名相似度的检测装置的实施例。
图3示出了根据本发明一些实施例的域名相似度的检测装置的结构示意图。如图3所示,该实施例的域名相似度的检测装置30包括:搜索模块310,被配置为搜索源域名和目标域名的最大公共字符串,其中,在搜索的过程中,在源域名中待匹配的第一字符与目标域名中待匹配的第二字符不同、但第一字符和第二字符的图像相似度大于阈值的情况下,将第一字符添加到最大公共字符串中;确定模块320,被配置为根据最大公共字符串的长度度量值,确定源域名和目标域名的相似度。
在一些实施例中,检测装置30还包括:图像相似度计算模块330,被配置为以预设的字体和字号,将字符库中的字符转换为相同尺寸的字符图像;以及,计算每两个字符图像的相似度,作为相应两个字符的图像相似度。
在一些实施例中,图像相似度计算模块330进一步被配置为对于每两个字符图像,计算两个字符图像中重合的目标颜色像素数,其中,目标颜色像素是指图像中字符所在的像素;将目标颜色像素数、与两个字符图像中目标颜色像素数的最大值的比值,确定为两个字符图像的相似度。
在一些实施例中,搜索模块310进一步被配置为在搜索的过程中:在源域名中待匹配的第一字符与目标域名中待匹配的第二字符相同的情况下,将第一字符添加到最大公共字符串中,并将最大公共字符串的长度度量值加1;以及在源域名中待匹配的第一字符与目标域名中待匹配的第二字符不同、但第一字符和第二字符的图像相似度大于阈值的情况下,将第一字符添加到最大公共字符串中,并将最大公共字符串的长度度量值加上相似度、作为更新后的长度度量值。
在一些实施例中,搜索模块310进一步被配置为将最大公共字符串的长度度量值与目标域名的字符串长度的比值,确定为源域名和目标域名的相似度。
在一些实施例中,搜索模块310进一步被配置为在源域名中待匹配的第一字符与目标域名中待匹配的第二字符不同、但第一字符和第二字符的图像相似度大于阈值的情况下,将第一字符替换为第二字符。
在一些实施例中,检测装置30还包括:钓鱼网站确定模块340,被配置为在源域名和目标域名的相似度大于预设值的情况下,将源域名确定为钓鱼网站。
图4示出了根据本发明另一些实施例的域名相似度的检测装置的结构示意图。如图4所示,该实施例的域名相似度的检测装置40包括:存储器410以及耦接至该存储器410的处理器420,处理器420被配置为基于存储在存储器410中的指令,执行前述任意一个实施例中的域名相似度的检测方法。
其中,存储器410例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。
图5示出了根据本发明又一些实施例的域名相似度的检测装置的结构示意图。如图5所示,该实施例的域名相似度的检测装置50包括:存储器510以及处理器520,还可以包括输入输出接口530、网络接口540、存储接口550等。这些接口530,540,550以及存储器510和处理器520之间例如可以通过总线560连接。其中,输入输出接口530为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口540为各种联网设备提供连接接口。存储接口550为SD卡、U盘等外置存储设备提供连接接口。
本发明的实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现前述任意一种域名相似度的检测方法。
本领域内的技术人员应当明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种域名相似度的检测方法,包括:
搜索源域名和目标域名的最大公共字符串,其中,在搜索的过程中,在所述源域名中待匹配的第一字符与所述目标域名中待匹配的第二字符不同、但所述第一字符和所述第二字符的图像相似度大于阈值的情况下,将所述第一字符添加到最大公共字符串中;
根据所述最大公共字符串的长度度量值,确定所述源域名和所述目标域名的相似度。
2.根据权利要求1所述的检测方法,还包括:
以预设的字体和字号,将字符库中的字符转换为相同尺寸的字符图像;
计算每两个字符图像的相似度,作为相应两个字符的图像相似度。
3.根据权利要求2所述的检测方法,其中,所述字符图像为二值图像,并且所述计算每两个字符图像的相似度包括:
对于每两个字符图像,计算所述两个字符图像中重合的目标颜色像素数,其中,目标颜色像素是指图像中字符所在的像素;
将所述目标颜色像素数、与所述两个字符图像中目标颜色像素数的最大值的比值,确定为所述两个字符图像的相似度。
4.根据权利要求1所述的检测方法,其中,在搜索的过程中:
在所述源域名中待匹配的第一字符与所述目标域名中待匹配的第二字符相同的情况下,将所述第一字符添加到最大公共字符串中,并将所述最大公共字符串的长度度量值加1;以及
在所述源域名中待匹配的第一字符与所述目标域名中待匹配的第二字符不同、但所述第一字符和所述第二字符的图像相似度大于阈值的情况下,将所述第一字符添加到最大公共字符串中,并将所述最大公共字符串的长度度量值加上所述相似度、作为更新后的长度度量值。
5.根据权利要求1所述的检测方法,其中,所述根据所述最大公共字符串的长度度量值,确定所述源域名和所述目标域名的相似度包括:
将所述最大公共字符串的长度度量值与所述目标域名的字符串长度的比值,确定为所述源域名和所述目标域名的相似度。
6.根据权利要求1所述的检测方法,其中,在所述源域名中待匹配的第一字符与所述目标域名中待匹配的第二字符不同、但所述第一字符和所述第二字符的图像相似度大于阈值的情况下,将所述第一字符替换为所述第二字符。
7.根据权利要求1所述的检测方法,还包括:
在所述源域名和所述目标域名的相似度大于预设值的情况下,将所述源域名确定为钓鱼网站。
8.一种域名相似度的检测装置,包括:
搜索模块,被配置为搜索源域名和目标域名的最大公共字符串,其中,在搜索的过程中,在所述源域名中待匹配的第一字符与所述目标域名中待匹配的第二字符不同、但所述第一字符和所述第二字符的图像相似度大于阈值的情况下,将所述第一字符添加到最大公共字符串中;
确定模块,被配置为根据所述最大公共字符串的长度度量值,确定所述源域名和所述目标域名的相似度。
9.根据权利要求8所述的检测装置,还包括:
图像相似度计算模块,被配置为以预设的字体和字号,将字符库中的字符转换为相同尺寸的字符图像;以及,计算每两个字符图像的相似度,作为相应两个字符的图像相似度。
10.根据权利要求8所述的检测装置,还包括:
钓鱼网站确定模块,被配置为在所述源域名和所述目标域名的相似度大于预设值的情况下,将所述源域名确定为钓鱼网站。
11.一种域名相似度的检测装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1~7中任一项所述的域名相似度的检测方法。
12.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1~7中任一项所述的域名相似度的检测方法。
CN202011003143.XA 2020-09-22 2020-09-22 域名相似度的检测方法、装置和存储介质 Pending CN114254069A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011003143.XA CN114254069A (zh) 2020-09-22 2020-09-22 域名相似度的检测方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011003143.XA CN114254069A (zh) 2020-09-22 2020-09-22 域名相似度的检测方法、装置和存储介质

Publications (1)

Publication Number Publication Date
CN114254069A true CN114254069A (zh) 2022-03-29

Family

ID=80788434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011003143.XA Pending CN114254069A (zh) 2020-09-22 2020-09-22 域名相似度的检测方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN114254069A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114710468A (zh) * 2022-03-31 2022-07-05 绿盟科技集团股份有限公司 一种域名生成和识别方法、装置、设备及介质
CN116896479A (zh) * 2023-08-29 2023-10-17 北京火山引擎科技有限公司 域名检测方法、设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114710468A (zh) * 2022-03-31 2022-07-05 绿盟科技集团股份有限公司 一种域名生成和识别方法、装置、设备及介质
CN114710468B (zh) * 2022-03-31 2024-05-14 绿盟科技集团股份有限公司 一种域名生成和识别方法、装置、设备及介质
CN116896479A (zh) * 2023-08-29 2023-10-17 北京火山引擎科技有限公司 域名检测方法、设备及存储介质

Similar Documents

Publication Publication Date Title
US8868569B2 (en) Methods for detecting and removing duplicates in video search results
KR101337874B1 (ko) 파일 유전자 지도를 이용하여 파일의 악성코드 포함 여부를 판단하는 방법 및 시스템
US8838657B1 (en) Document fingerprints using block encoding of text
WO2020000743A1 (zh) 一种webshell检测方法及相关设备
CN110245469B (zh) 网页的水印生成方法、水印解析方法、装置及存储介质
CN105224600B (zh) 一种样本相似度的检测方法及装置
CA2656425A1 (en) Recognizing text in images
CN112214984A (zh) 内容抄袭识别方法、装置、设备及存储介质
CN111597309A (zh) 相似企业推荐方法、装置、电子设备及介质
WO2015135286A1 (zh) 提取pe文件特征的方法及装置
CN110222511A (zh) 恶意软件家族识别方法、装置及电子设备
CN109697240B (zh) 一种基于特征的图像检索方法及装置
CN114254069A (zh) 域名相似度的检测方法、装置和存储介质
CN109933502B (zh) 电子装置、用户操作记录的处理方法和存储介质
US11899715B2 (en) Deduplication of media files
CN112148305A (zh) 一种应用检测方法、装置、计算机设备和可读存储介质
CN107786529B (zh) 网站的检测方法、装置及系统
CN108388556B (zh) 同类实体的挖掘方法及系统
KR20120078030A (ko) 비 pe파일의 악성 컨텐츠 포함 여부를 판단하는 방법 및 시스템
CN113076961A (zh) 一种图像特征库更新方法、图像检测方法和装置
CN115801455B (zh) 一种基于网站指纹的仿冒网站检测方法及装置
CN110598115A (zh) 一种基于人工智能多引擎的敏感网页识别方法及系统
WO2022105120A1 (zh) 图片文字检测方法、装置、计算机设备及存储介质
CN114707026A (zh) 网络模型训练方法、字符串检测方法、装置及电子设备
CN108009233B (zh) 一种图像还原方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination