CN103428307B - 仿冒域名检测方法及设备 - Google Patents
仿冒域名检测方法及设备 Download PDFInfo
- Publication number
- CN103428307B CN103428307B CN201310346713.9A CN201310346713A CN103428307B CN 103428307 B CN103428307 B CN 103428307B CN 201310346713 A CN201310346713 A CN 201310346713A CN 103428307 B CN103428307 B CN 103428307B
- Authority
- CN
- China
- Prior art keywords
- domain name
- key word
- chinese character
- similarity value
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种仿冒域名检测方法及设备。该仿冒域名检测方法包括:获取待检测域名;将所述待检测域名的关键词的各中文字符,分别与预先获取的目标域名的关键词的各中文字符组成匹配对;根据各匹配对内两个中文字符的语音和/或字形,确定所述各匹配对的相似度值;根据所述各匹配对的相似度值,确定所述待检测域名的关键词与所述目标域名的关键词的相似度值;若所述待检测域名的关键词与所述目标域名的关键词的相似度值,大于等于预设关键词相似度阈值,则判定所述待检测域名为所述目标域名的仿冒域名。本发明提供的仿冒域名检测方法及设备能够实现仿冒中文域名的有效检测。
Description
技术领域
本发明涉及信息处理技术,尤其涉及一种仿冒域名检测方法及设备,属于网络安全技术领域。
背景技术
随着科技的普及化,网络通讯技术以不可取代的地位深入各个领域,而网络安全问题也日益严峻,其中以网络钓鱼问题尤为突出。
网络钓鱼,是指通过发送垃圾电子邮件等方式,将收信用户引诱到一个通过精心设计与目标组织的网站非常相似的钓鱼网站上,并获取收信人在此网站上输入的个人敏感信息的网络犯罪行为。随着电子商务和互联网应用的普及和发展,网络钓鱼造成的损失日益严重。由于域名是网站面向终端用户的入口,网络钓鱼者行为常常要采用和目标域名相似的域名,来使得用户误以为钓鱼网站为正规的目标网站。因此,域名仿冒行为是钓鱼攻击的一个重要特征,所以在进行钓鱼网站和邮件的检测时,需要进行URL的域名部分的相似性分析,即仿冒域名检测。
目前的仿冒域名检测,主要是通过计算两个英文域名的字符串的编辑距离来实现的。但随着国际化域名(InternationalDomainNames,IDN)的兴起,域名注册字符集进一步扩大,不可避免地将出现大量的相似性字符。中文域名是国际化域名的重要组成部分。汉字较大的字库空间以及象形、形声的造字规则产生了大量的相似字符,而网络钓鱼常常会利用这些相似字符来构造仿冒域名,对网络用户进行欺骗。目前针对英文域名的相似性检测方法无法有效检测出中文域名的仿冒域名。
发明内容
针对现有技术中的缺陷,本发明提供一种仿冒域名检测方法及设备,用以实现仿冒中文域名的有效检测。
根据本发明实施例的一方面,提供一种仿冒域名检测方法,包括:
获取待检测域名;
将所述待检测域名的关键词的各中文字符,分别与预先获取的目标域名的关键词的各中文字符组成匹配对;
根据各匹配对内两个中文字符的语音和/或字形,确定所述各匹配对的相似度值;
根据所述各匹配对的相似度值,确定所述待检测域名的关键词与所述目标域名的关键词的相似度值;
若所述待检测域名的关键词与所述目标域名的关键词的相似度值,大于等于预设关键词相似度阈值,则判定所述待检测域名为所述目标域名的仿冒域名。
进一步地,在上述实施例的仿冒域名检测方法中,所述根据各匹配对内两个中文字符的语音相似度和/或字形相似度,确定所述各匹配对的相似度值,包括对所述各匹配对分别执行以下操作:
根据预设语音相似度算法,计算所述匹配对内两个中文字符的语音相似度值;
若所述语音相似度值大于等于预设语音相似度阈值,则将所述语音相似度值确定为所述匹配对的相似度值;
若所述语音相似度值小于所述预设语音相似度阈值,则根据预设字形相似度算法,计算所述匹配对内两个中文字符的字形相似度值,并将所述字形相似度值确定为所述匹配对的相似度值。
进一步地,在上述实施例的仿冒域名检测方法中,所述根据预设语音相似度算法,计算所述匹配对内两个中文字符的语音相似度值,包括:
获取所述两个中文字符的拼音序列字符串;
计算所述两个中文字符的拼音序列字符串的编辑距离;
根据所述编辑距离确定所述两个中文字符的语音相似度值。
进一步地,在上述实施例的仿冒域名检测方法中,所述根据预设字形相似度算法,计算所述匹配对内两个中文字符的字形相似度值,包括:
获取所述两个中文字符的Unicode编码;
根据所述Unicode编码,从点阵字库中获取分别与所述两个中文字符对应的0-1矩阵;
根据所述0-1矩阵确定所述两个中文字符的特征向量V=(特征值C,特征值E,特征值Cp,特征值G,特征值S),其中特征值C为所述中文字符的连通域,特征值E为所述中文字符的端点个数,特征值Cp为所述中文字符的交点个数,特征值G为所述中文字符的亏格数,特征值S为所述中文字符的笔划数;
根据所述两个中文字符的特征向量中相同特征值的差值,确定所述两个中文字符的字形相似度值。
进一步地,在上述实施例的仿冒域名检测方法中,所述根据所述各匹配对的相似度值,确定所述待检测域名的关键词与所述目标域名的关键词的相似度值,包括:
初始化编辑距离矩阵:
其中,m为所述待检测域名的关键词的字符长度,n为所述目标域名的关键词的字符长度,i,j,m,n均为正整数,且满足0<i≤m+1,0<j≤n+1;
按照以下公式对所述编辑距离矩阵的各元素进行赋值:
d0,0=0,di,0=i,d0,j=j,
其中,sim(i,j)为所述待检测域名的关键词中第i个中文字符和所述目标域名的关键词的第j个中文字符组成的匹配对的相似度值;
将dm+1,n+1的值确定所述待检测域名的关键词与所述目标域名的关键词的编辑距离,并根据所述待检测域名的关键词与所述目标域名的关键词的编辑距离,确定所述待检测域名的关键词与所述目标域名的关键词的相似度值,其中所述待检测域名的关键词与所述目标域名的关键词的编辑距离与相似度值呈反比关系。
根据本发明实施例的另一方面,提供一种仿冒域名检测设备,包括:
获取模块,用于获取待检测域名;
预处理模块,用于将所述待检测域名的关键词的各中文字符,分别与预先获取的目标域名的关键词的各中文字符组成匹配对;
第一相似度计算模块,用于根据各匹配对内两个中文字符的语音和/或字形,确定所述各匹配对的相似度值;
第二相似度计算模块,用于根据所述各匹配对的相似度值,确定所述待检测域名的关键词与所述目标域名的关键词的相似度值;
判定模块,用于若所述待检测域名的关键词与所述目标域名的关键词的相似度值,大于等于预设关键词相似度阈值,则判定所述待检测域名为所述目标域名的仿冒域名。
进一步地,在上述实施例的仿冒域名检测设备中,所述第一相似度计算模块具体包括:
语音相似度计算单元,用于计算所述匹配对内两个中文字符的语音相似度值;
确定单元,用于若所述语音相似度值大于等于预设语音相似度阈值,则将所述语音相似度值确定为所述匹配对的相似度值;
字形相似度计算单元,用于若所述语音相似度值小于所述预设语音相似度阈值,则根据预设字形相似度算法,计算所述匹配对内两个中文字符的字形相似度值;
所述确定单元还用于将所述字形相似度值确定为所述匹配对的相似度值。
进一步地,在上述实施例的仿冒域名检测设备中,所述语音相似度计算单元具体用于:
获取所述两个中文字符的拼音序列字符串;
计算所述两个中文字符的拼音序列字符串的编辑距离;
根据所述编辑距离确定所述两个中文字符的语音相似度值。
进一步地,在上述实施例的仿冒域名检测设备中,所述字形相似度计算单元具体用于:
获取所述两个中文字符的Unicode编码;
根据所述Unicode编码,从点阵字库中获取分别与所述两个中文字符对应的0-1矩阵;
根据所述0-1矩阵确定所述两个中文字符的特征向量V=(特征值C,特征值E,特征值Cp,特征值G,特征值S),其中特征值C为所述中文字符的连通域,特征值E为所述中文字符的端点个数,特征值Cp为所述中文字符的交点个数,特征值G为所述中文字符的亏格数,特征值S为所述中文字符的笔划数;
根据所述两个中文字符的特征向量中相同特征值的差值,确定所述两个中文字符的字形相似度值。
进一步地,在上述实施例的仿冒域名检测设备中,所述第二相似度计算模块具体用于:
初始化编辑距离矩阵:
其中,m为所述待检测域名的关键词的字符长度,n为所述目标域名的关键词的字符长度,i,j,m,n均为正整数,且满足0<i≤m+1,0<j≤n+1;
按照以下公式对所述编辑距离矩阵的各元素进行赋值:
d0,0=0,di,0=i,d0,j=j,
其中,sim(i,j)为所述待检测域名的关键词中第i个中文字符和所述目标域名的关键词的第j个中文字符组成的匹配对的相似度值;
将dm+1,n+1的值确定所述待检测域名的关键词与所述目标域名的关键词的编辑距离,并根据所述待检测域名的关键词与所述目标域名的关键词的编辑距离,确定所述待检测域名的关键词与所述目标域名的关键词的相似度值,其中所述待检测域名的关键词与所述目标域名的关键词的编辑距离与相似度值呈反比关系。
根据本发明实施例提供的仿冒域名检测方法及设备,由于将待检测域名的关键词的各中文字符分别与目标域名的关键词的各中文字符组成匹配对,计算各匹配对的相似度值,从而能够确定待检测域名的关键词的各中文字符与目标域名的关键词的各中文字符的语音和/或字形的相似度;此外,由于根据能够表征各中文字符相似度的各匹配对的相似度值,来计算待检测域名的关键词与目标域名的关键词的相似度值,从而还能够确定待检测域名的关键词的中文字符串与目标域名的关键词的中文字符串的相似度。因此,根据本发明实施例提供的仿冒域名检测方法及设备,能够有效判断不同中文域名的相似度,从而实现仿冒中文域名的有效检测。
附图说明
图1为本发明实施例的仿冒域名检测方法的流程示意图;
图2为本发明实施例中计算语音相似度值的一个示例的流程示意图;
图3为一个中文字符的12×12的点阵图像的示例;
图4为本发明实施例的仿冒域名检测设备的结构示意图。
具体实施方式
本发明实施例的仿冒域名检测方法例如由设置在网络中的仿冒域名检测设备来执行。
图1为本发明实施例的仿冒域名检测方法的流程示意图。如图1所示,该方法包括以下步骤:
步骤101,获取待检测域名;
其中,该待检测域名例如为疑为钓鱼网站的域名,可根据用户举报或基于已有的可疑钓鱼网站检测方法获得,例如包括启发式特征检测技术和模式识别检测技术等。该待检测域名还可以是经过查询获知未包含在已知钓鱼网站黑名单中的疑为钓鱼网站的域名。
步骤102,将所述待检测域名的关键词的各中文字符,分别与预先获取的目标域名的关键词的各中文字符组成匹配对;
其中,该目标域名例如为知名度较高的网络域名、用户点击量较大的网站域名或曾被仿冒的网站域名等。域名的关键词为域名中用于与其他域名相区分、作为该目标域名特殊标识的字段,例如域名“http://www.新浪.com”的关键词为“新浪”,目标域名“http://www.百度.com”的关键词为“百度”。此外,组建匹配对仅针对关键词中的中文字符。例如,待检测域名为“http://www.新*浪.com”,提取其关键词“新*浪”,并进一步提取关键词中的中文字符“新”和“浪”来与目标域名组建匹配对。
各匹配对包括两个中文字符,其中一个为待检测域名的关键词的中文字符,另一个为目标域名的关键词的中文字符。若待检测域名的关键词的长度,即待检测域名的关键词所包括的中文字符的个数为m,目标域名的关键词的长度为m,则组成m×n个匹配对。
例如,待检测域名的关键词为“康帅父”,目标域名的关键词为“康师傅”,则在步骤102中组成如下九个匹配对:(康,康)、(康,师)、(康,傅)、(帅,康)、(帅,师)、(帅,傅)、(父,康)、(父,师)、(父,傅)。
步骤103,根据各匹配对内两个中文字符的语音和/或字形,确定所述各匹配对的相似度值;
具体地,可以仅根据各匹配对内两个中文字符的语音,即汉语拼音,来计算同一匹配对内两个中文字符之间的相似度值,即匹配对的相似度值;也可以仅根据各匹配对内两个中文字符的字形来计算匹配对的相似度值;还可以综合匹配对内两个中文字符的语音和字形来计算匹配对的相似度值,本实施例中对此不做限制。并且,本实施例中对于如何根据语音来计算两个中文字符的相似度,以及如果根据字形来计算两个中文字符的相似度,均不做限制,其可以采用任意方式来实现。
例如,待检测域名的关键词为“康帅父”,目标域名的关键词为“康师傅”,计算出如上所述的九个匹配对各自的相似度值。
步骤104,根据所述各匹配对的相似度值,确定所述待检测域名的关键词与所述目标域名的关键词的相似度值;
具体地,可以通过任意预设算法来基于步骤103获得的各匹配对的相似度值,来计算待检测域名的关键词与目标域名的关键词的整体相似度,本实施例中不进行限制。例如,通过计算各匹配对的相似度值的均值来计算待检测域名的关键词与目标域名的关键词的相似度值,或者采用任意其它方式。
步骤105,若所述待检测域名的关键词与所述目标域名的关键词的相似度值,大于等于预设关键词相似度阈值,则判定所述待检测域名为所述目标域名的仿冒域名。
其中,该预设阈值可根据需要进行设定,或通过统计已知使用仿冒域名的钓鱼网站与其所仿冒的目标网站的域名关键词之间的相似度值进行设定。
根据上述实施例的仿冒域名检测方法,由于将待检测域名的关键词的各中文字符分别与目标域名的关键词的各中文字符组成匹配对,计算各匹配对的相似度值,从而能够确定待检测域名的关键词的各中文字符与目标域名的关键词的各中文字符的语音和/或字形的相似度;此外,由于根据能够表征各中文字符相似度的各匹配对的相似度值,来计算待检测域名的关键词与目标域名的关键词的相似度值,从而还能够确定待检测域名的关键词的中文字符串与目标域名的关键词的中文字符串的相似度。因此,根据上述实施例的仿冒域名检测方法,能够有效判断不同中文域名的相似度,从而实现仿冒中文域名的有效检测。
进一步地,在上述实施例的仿冒域名检测方法中,所述根据各匹配对内两个中文字符的语音相似度和/或字形相似度,确定所述各匹配对的相似度值,包括对所述各匹配对分别执行以下操作:
根据预设语音相似度算法,计算所述匹配对内两个中文字符的语音相似度值;
若所述语音相似度值大于等于预设语音相似度阈值,则将所述语音相似度值确定为所述匹配对的相似度值;
若所述语音相似度值小于所述预设语音相似度阈值,则根据预设字形相似度算法,计算所述匹配对内两个中文字符的字形相似度值,并将所述字形相似度值确定为所述匹配对的相似度值。
其中,语音相似度阈值和字形相似度阈值可以根据需要,或者根据统计进行设置。
根据上述实施例的仿冒域名检测方法,既能够有效检测出通过语音间的相似性进行域名仿冒的中文域名,又能有效检测出通过视觉相似性进行域名仿冒的中文域名。其中,通过视觉相似性进行域名仿冒的方式,例如在中文域名的关键词中添加插入一些如*、%、之类的特殊字符,或者替换形近字,或者拆分汉字重组等,均能够利用上述实施例的仿冒域名检测方法实现有效检测。
进一步地,在上述实施例的仿冒域名检测方法中,所述根据预设语音相似度算法,计算所述匹配对内两个中文字符的语音相似度值,包括:
获取所述两个中文字符的拼音序列字符串;
计算所述两个中文字符的拼音序列字符串的编辑距离;
根据所述编辑距离确定所述两个中文字符的语音相似度值。
具体地,图2为本发明实施例中计算语音相似度值的一个示例的流程示意图。如图2所示,计算中文字符的语音相似度值包括以下步骤:
步骤201,获取待比较相似度值的两个中文字符对应的拼音序列字符串;
具体地,例如使用已有的拼音开发工具包或者拼音汉字对照表等来获取拼音序列字符串。
步骤202,利用预设的编辑距离算法计算两个拼音序列字符串之间的编辑距离;
其中,编辑距离,又称为Levenshtein距离,是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数。更具体地,编辑操作包括将一个字符替换成另一个字符,插入一个字符和删除一个字符。例如:当将拼音序列字符串“shuai”转化为拼音序列字符串“shi”时,至少需进行以下两次编辑操作:将“shuai”中的“u”和“a”删除。因此拼音序列字符串“shuai”与拼音序列字符串“shi”之间的编辑距离为2。
步骤203,将编辑距离与一个预设的判定标准值进行比较,若编辑距离大于等于预设的判定标准值,则将语音相似度值置为1,若编辑距离小于预设的判定标准值,则将语音相似度值置为0。
具体地,例如将判定标准值设置为两个拼音序列字符串中较长的拼音序列字符串的长度的一半,即:1/2*Max(字符串长度)。以上述计算“shuai”和“shi”的编辑距离为例,其中“shuai”为较长的拼音序列字符串,其长度的一半为2.5,由于步骤202计算得出的编辑距离为2,小于判定标准值,所以将语音相似度值置为0。
在此种设置下,预设语音相似度阈值例如设置为1或设置为大于0且小于等于1的任意数值。
进一步地,在上述实施例的仿冒域名检测方法中,所述根据预设字形相似度算法,计算所述匹配对内两个中文字符的字形相似度值,包括:
获取所述两个中文字符的Unicode编码;
根据所述Unicode编码,从点阵字库中获取分别与所述两个中文字符对应的0-1矩阵;
根据所述0-1矩阵确定所述两个中文字符的特征向量V=(特征值C,特征值E,特征值Cp,特征值G,特征值S),其中特征值C为所述中文字符的连通域,特征值E为所述中文字符的端点个数,特征值Cp为所述中文字符的交点个数,特征值G为所述中文字符的亏格数,特征值S为所述中文字符的笔划数;
根据所述两个中文字符的特征向量中相同特征值的差值,确定所述两个中文字符的字形相似度值。
具体地,对于中文字符,通过查表等方式获取该中文字符的Unicode编码,并通过所获得的Unicode编码,获得相应中文字符的点阵信息,并转化为相应的0-1矩阵。
更为具体地,设F(x,y)表示一个汉字的图像。图3为一个中文字符的12×12的点阵图像的示例。如图3所示,根据点阵字库中存储的中文字符对应的图像,如果(x,y)位置处为黑色像素,则F(x,y)取值为1;否则为0。由此即可得到一个汉字字形对应的0-1矩阵。
在获得0-1矩阵后,从0-1矩阵中抽取汉字的特征向量,该特征向量例如包括特征值C、特征值E、特征值Cp、特征值G和特征值S。其中,特征值C为汉字的连通域,即构成汉字的黑像素点构成的连通区域的个数;特征值E为汉字的端点个数,包括构成汉字的开始点或末端点的个数;特征值Cp为汉字的交点个数,包括汉字两个笔划的连接点和交叉点的个数;特征值G为汉字的亏格数,即汉字的笔划将点阵划分的区域个数;特征值S为所述汉字的笔划数。以图3中所示的“我”字为例,其对应的特征向量V=(特征值C,特征值E,特征值Cp,特征值G,特征值S)=(2,11,8,7,7)。需要说明的是,特征向量中也可包括除上述五个特征值之外的其它特征值,或者仅包括上述五个特征值中的部分特征值。
获得两个需要进行比较的中文字符的特征向量V1(x1,x2,…,xd)和V2(y1,y2,…,yd)后,可以按照下述字形相似度计算公式计算字形相似度值:
其中,d表示特征向量的维数,当按照上述实施例设置特征向量时,维数为5;e为调整指数,用来突出差异程度,例如取值为1。通过上述公式,能够反映出中文字符的特征向量差异值与坐标原点的偏离程度。其中|xi-yi|e反映差异程度。当差异度增大,相似值减小;当两个中文字符的特征向量相同时,相似值为1。
进一步地,在上述实施例的仿冒域名检测方法中,所述根据所述各匹配对的相似度值,确定所述待检测域名的关键词与所述目标域名的关键词的相似度值,包括:
初始化编辑距离矩阵:
其中,m为所述待检测域名的关键词的字符长度,n为所述目标域名的关键词的字符长度,i,j,m,n均为正整数,且满足0<i≤m+1,0<j≤n+1;
按照以下公式对所述编辑距离矩阵的各元素进行赋值:
d0,0=0,di,0=i,d0,j=j,
其中,sim(i,j)为所述待检测域名的关键词中第i个中文字符和所述目标域名的关键词的第j个中文字符组成的匹配对的相似度值;
将dm+1,n+1的值确定所述待检测域名的关键词与所述目标域名的关键词的编辑距离,并根据所述待检测域名的关键词与所述目标域名的关键词的编辑距离,确定所述待检测域名的关键词与所述目标域名的关键词的相似度值,其中所述待检测域名的关键词与所述目标域名的关键词的编辑距离与相似度值呈反比关系。
下面以一个具体示例来对上述确定待检测域名的关键词与目标域名的关键词的相似度值的过程进行更为清楚的说明。
例如,待检测域名的关键词为“康帅父”,目标域名的关键词为“康师傅”,组成如下九个匹配对:(康,康)、(康,师)、(康,傅)、(帅,康)、(帅,师)、(帅,傅)、(父,康)、(父,师)、(父,傅)。
针对上述九个匹配对计算语音相似度值,其中,(康,康)和(父,傅)的语音相似度值为1,则sim(康,康)=1,sim(父,傅)=1,其余七个匹配对的语音相似度值为0,进一步计算其余七个匹配对的字形相似度值,得到sim(康,师)=0.585、sim(康,傅)=0.652、sim(帅,康)=0.484、sim(帅,师)=0.823等。
初始化如下4×4的编辑距离矩阵,还可在矩阵中清楚地表示各中文字符与矩阵的对应关系:
Null | 康 | 师 | 傅 | |
Null | 0 | 1 | 2 | 3 |
康 | 1 | |||
帅 | 2 | |||
父 | 3 |
根据以下公式对上述编辑距离矩阵中的其余元素进行赋值:
完成赋值后的矩阵如下所示:
Null | 康 | 师 | 傅 | |
Null | 0 | 1 | 2 | 3 |
康 | 1 | 0 | 1 | 2 |
帅 | 2 | 1 | 0.177 | 1.177 |
父 | 3 | 2 | 1.177 | 1.177 |
因此,确定关键词“康帅父”与关键词“康师傅”的编辑距离为1.177。以两个关键词的相似度值=1/两个关键词的编辑距离为例,则两个关键词的相似度值=0.8496。例如预设关键词相似度阈值为0.5,则确定关键词“康帅父”的中文域名为关键词为“康师傅”的中文域名的仿冒域名。
根据上述实施例的仿冒域名检测方法,对现有的应用于英文字符串的编辑距离地了改进,从而使其适用于中文字符串,并且能够更准确地衡量两个字符串之间的相似程度。
图4为本发明实施例的仿冒域名检测设备的结构示意图。如图4所示,该仿冒域名检测设备包括:
获取模块41,用于获取待检测域名;
预处理模块42,用于将所述待检测域名的关键词的各中文字符,分别与预先获取的目标域名的关键词的各中文字符组成匹配对;
第一相似度计算模块43,用于根据各匹配对内两个中文字符的语音和/或字形,确定所述各匹配对的相似度值;
第二相似度计算模块44,用于根据所述各匹配对的相似度值,确定所述待检测域名的关键词与所述目标域名的关键词的相似度值;
判定模块45,用于若所述待检测域名的关键词与所述目标域名的关键词的相似度值,大于等于预设关键词相似度阈值,则判定所述待检测域名为所述目标域名的仿冒域名。
本发明实施例的仿冒域名检测设备执行仿冒域名检测的流程与前述实施例的仿冒域名检测方法相同,故此处不再赘述。
根据上述实施例的仿冒域名检测设备,由于将待检测域名的关键词的各中文字符分别与目标域名的关键词的各中文字符组成匹配对,计算各匹配对的相似度值,从而能够确定待检测域名的关键词的各中文字符与目标域名的关键词的各中文字符的语音和/或字形的相似度;此外,由于根据能够表征各中文字符相似度的各匹配对的相似度值,来计算待检测域名的关键词与目标域名的关键词的相似度值,从而还能够确定待检测域名的关键词的中文字符串与目标域名的关键词的中文字符串的相似度。因此,根据本发明实施例提供的仿冒域名检测设备,能够有效判断不同中文域名的相似度,从而实现仿冒中文域名的有效检测。
进一步地,在上述实施例的仿冒域名检测设备中,所述第一相似度计算模块具体包括:
语音相似度计算单元,用于计算所述匹配对内两个中文字符的语音相似度值;
确定单元,用于若所述语音相似度值大于等于预设语音相似度阈值,则将所述语音相似度值确定为所述匹配对的相似度值;
字形相似度计算单元,用于若所述语音相似度值小于所述预设语音相似度阈值,则根据预设字形相似度算法,计算所述匹配对内两个中文字符的字形相似度值;
所述确定单元还用于将所述字形相似度值确定为所述匹配对的相似度值。
根据上述实施例的仿冒域名检测设备,既能够有效检测出通过语音间的相似性进行域名仿冒的中文域名,又能有效检测出通过视觉相似性进行域名仿冒的中文域名。其中,通过视觉相似性进行域名仿冒的方式,例如在中文域名的关键词中添加插入一些如*、%、之类的特殊字符,或者替换形近字,或者拆分汉字重组等,均能够利用上述实施例的仿冒域名检测设备实现有效检测。
进一步地,在上述实施例的仿冒域名检测设备中,所述语音相似度计算单元具体用于:
获取所述两个中文字符的拼音序列字符串;
计算所述两个中文字符的拼音序列字符串的编辑距离;
根据所述编辑距离确定所述两个中文字符的语音相似度值。
进一步地,在上述实施例的仿冒域名检测设备中,所述字形相似度计算单元具体用于:
获取所述两个中文字符的Unicode编码;
根据所述Unicode编码,从点阵字库中获取分别与所述两个中文字符对应的0-1矩阵;
根据所述0-1矩阵确定所述两个中文字符的特征向量V=(特征值C,特征值E,特征值Cp,特征值G,特征值S),其中特征值C为所述中文字符的连通域,特征值E为所述中文字符的端点个数,特征值Cp为所述中文字符的交点个数,特征值G为所述中文字符的亏格数,特征值S为所述中文字符的笔划数;
根据所述两个中文字符的特征向量中相同特征值的差值,确定所述两个中文字符的字形相似度值。
进一步地,在上述实施例的仿冒域名检测设备中,所述第二相似度计算模块具体用于:
初始化编辑距离矩阵:
其中,m为所述待检测域名的关键词的字符长度,n为所述目标域名的关键词的字符长度,i,j,m,n均为正整数,且满足0<i≤m+1,0<j≤n+1;
按照以下公式对所述编辑距离矩阵的各元素进行赋值:
d0,0=0,di,0=i,d0,j=j,
其中,sim(i,j)为所述待检测域名的关键词中第i个中文字符和所述目标域名的关键词的第j个中文字符组成的匹配对的相似度值;
将dm+1,n+1的值确定所述待检测域名的关键词与所述目标域名的关键词的编辑距离,并根据所述待检测域名的关键词与所述目标域名的关键词的编辑距离,确定所述待检测域名的关键词与所述目标域名的关键词的相似度值,其中所述待检测域名的关键词与所述目标域名的关键词的编辑距离与相似度值呈反比关系。
根据上述实施例的仿冒域名检测设备,对现有的应用于英文字符串的编辑距离地了改进,从而使其适用于中文字符串,并且能够更准确地衡量两个字符串之间的相似程度。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (6)
1.一种仿冒域名检测方法,其特征在于,包括:
获取待检测域名;
将所述待检测域名的关键词的各中文字符,分别与预先获取的目标域名的关键词的各中文字符组成匹配对;
根据各匹配对内两个中文字符的语音和/或字形,确定所述各匹配对的相似度值;
根据所述各匹配对的相似度值,确定所述待检测域名的关键词与所述目标域名的关键词的相似度值;
若所述待检测域名的关键词与所述目标域名的关键词的相似度值,大于等于预设关键词相似度阈值,则判定所述待检测域名为所述目标域名的仿冒域名;
所述根据各匹配对内两个中文字符的语音相似度和/或字形相似度,确定所述各匹配对的相似度值,包括对所述各匹配对分别执行以下操作:
根据预设语音相似度算法,计算所述匹配对内两个中文字符的语音相似度值;
若所述语音相似度值大于等于预设语音相似度阈值,则将所述语音相似度值确定为所述匹配对的相似度值;
若所述语音相似度值小于所述预设语音相似度阈值,则根据预设字形相似度算法,计算所述匹配对内两个中文字符的字形相似度值,并将所述字形相似度值确定为所述匹配对的相似度值;
其中,所述根据预设字形相似度算法,计算所述匹配对内两个中文字符的字形相似度值,包括:
获取所述两个中文字符的Unicode编码;
根据所述Unicode编码,从点阵字库中获取分别与所述两个中文字符对应的0-1矩阵;
根据所述0-1矩阵确定所述两个中文字符的特征向量V=(特征值C,特征值E,特征值Cp,特征值G,特征值S),其中特征值C为所述中文字符的连通域,特征值E为所述中文字符的端点个数,特征值Cp为所述中文字符的交点个数,特征值G为所述中文字符的亏格数,特征值S为所述中文字符的笔划数;
根据所述两个中文字符的特征向量中相同特征值的差值,确定所述两个中文字符的字形相似度值。
2.根据权利要求1所述的仿冒域名检测方法,其特征在于,所述根据预设语音相似度算法,计算所述匹配对内两个中文字符的语音相似度值,包括:
获取所述两个中文字符的拼音序列字符串;
计算所述两个中文字符的拼音序列字符串的编辑距离;
根据所述编辑距离确定所述两个中文字符的语音相似度值。
3.根据权利要求1或2所述的仿冒域名检测方法,其特征在于,所述根据所述各匹配对的相似度值,确定所述待检测域名的关键词与所述目标域名的关键词的相似度值,包括:
初始化编辑距离矩阵:
其中,m为所述待检测域名的关键词的字符长度,n为所述目标域名的关键词的字符长度,i,j,m,n均为正整数,且满足0<i≤m+1,0<j≤n+1;
按照以下公式对所述编辑距离矩阵的各元素进行赋值:
d0,0=0,di,0=i,d0,j=j,
其中,sim(i,j)为所述待检测域名的关键词中第i个中文字符和所述目标域名的关键词的第j个中文字符组成的匹配对的相似度值;
将dm+1,n+1的值确定所述待检测域名的关键词与所述目标域名的关键词的编辑距离,并根据所述待检测域名的关键词与所述目标域名的关键词的编辑距离,确定所述待检测域名的关键词与所述目标域名的关键词的相似度值,其中所述待检测域名的关键词与所述目标域名的关键词的编辑距离与相似度值呈反比关系。
4.一种仿冒域名检测设备,其特征在于,包括:
获取模块,用于获取待检测域名;
预处理模块,用于将所述待检测域名的关键词的各中文字符,分别与预先获取的目标域名的关键词的各中文字符组成匹配对;
第一相似度计算模块,用于根据各匹配对内两个中文字符的语音和/或字形,确定所述各匹配对的相似度值;
第二相似度计算模块,用于根据所述各匹配对的相似度值,确定所述待检测域名的关键词与所述目标域名的关键词的相似度值;
判定模块,用于若所述待检测域名的关键词与所述目标域名的关键词的相似度值,大于等于预设关键词相似度阈值,则判定所述待检测域名为所述目标域名的仿冒域名;
所述第一相似度计算模块具体包括:
语音相似度计算单元,用于计算所述匹配对内两个中文字符的语音相似度值;
确定单元,用于若所述语音相似度值大于等于预设语音相似度阈值,则将所述语音相似度值确定为所述匹配对的相似度值;
字形相似度计算单元,用于若所述语音相似度值小于所述预设语音相似度阈值,则根据预设字形相似度算法,计算所述匹配对内两个中文字符的字形相似度值;
所述确定单元还用于将所述字形相似度值确定为所述匹配对的相似度值;
其中,所述字形相似度计算单元具体用于:
获取所述两个中文字符的Unicode编码;
根据所述Unicode编码,从点阵字库中获取分别与所述两个中文字符对应的0-1矩阵;
根据所述0-1矩阵确定所述两个中文字符的特征向量V=(特征值C,特征值E,特征值Cp,特征值G,特征值S),其中特征值C为所述中文字符的连通域,特征值E为所述中文字符的端点个数,特征值Cp为所述中文字符的交点个数,特征值G为所述中文字符的亏格数,特征值S为所述中文字符的笔划数;
根据所述两个中文字符的特征向量中相同特征值的差值,确定所述两个中文字符的字形相似度值。
5.根据权利要求4所述的仿冒域名检测设备,其特征在于,所述语音相似度计算单元具体用于:
获取所述两个中文字符的拼音序列字符串;
计算所述两个中文字符的拼音序列字符串的编辑距离;
根据所述编辑距离确定所述两个中文字符的语音相似度值。
6.根据权利要求4或5所述的仿冒域名检测设备,其特征在于,所述第二相似度计算模块具体用于:
初始化编辑距离矩阵:
其中,m为所述待检测域名的关键词的字符长度,n为所述目标域名的关键词的字符长度,i,j,m,n均为正整数,且满足0<i≤m+1,0<j≤n+1;
按照以下公式对所述编辑距离矩阵的各元素进行赋值:
d0,0=0,di,0=i,d0,j=j,
其中,sim(i,j)为所述待检测域名的关键词中第i个中文字符和所述目标域名的关键词的第j个中文字符组成的匹配对的相似度值;
将dm+1,n+1的值确定所述待检测域名的关键词与所述目标域名的关键词的编辑距离,并根据所述待检测域名的关键词与所述目标域名的关键词的编辑距离,确定所述待检测域名的关键词与所述目标域名的关键词的相似度值,其中所述待检测域名的关键词与所述目标域名的关键词的编辑距离与相似度值呈反比关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310346713.9A CN103428307B (zh) | 2013-08-09 | 2013-08-09 | 仿冒域名检测方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310346713.9A CN103428307B (zh) | 2013-08-09 | 2013-08-09 | 仿冒域名检测方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103428307A CN103428307A (zh) | 2013-12-04 |
CN103428307B true CN103428307B (zh) | 2016-07-20 |
Family
ID=49652470
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310346713.9A Active CN103428307B (zh) | 2013-08-09 | 2013-08-09 | 仿冒域名检测方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103428307B (zh) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104809142B (zh) * | 2014-01-29 | 2018-03-23 | 北京瑞天科技有限公司 | 商标查询系统和方法 |
CN103957191A (zh) * | 2014-04-03 | 2014-07-30 | 中国科学院计算机网络信息中心 | 一种中文域名仿冒攻击的检测方法 |
CN104301322A (zh) * | 2014-10-23 | 2015-01-21 | 北京知道创宇信息技术有限公司 | 基于中文域名的网络安全检测方法与设备 |
CN105138513B (zh) * | 2015-08-17 | 2018-09-11 | 福建天晴数码有限公司 | 确定汉语词汇相似度的方法和装置 |
CN106850500A (zh) * | 2015-12-03 | 2017-06-13 | 中国移动通信集团公司 | 钓鱼网站处理方法及装置 |
CN106407179B (zh) * | 2016-08-26 | 2019-03-26 | 福建网龙计算机网络信息技术有限公司 | 汉字字形相似度计算方法及其系统 |
CN106375288B (zh) * | 2016-08-29 | 2019-06-25 | 中国科学院信息工程研究所 | 一种中文域名相似度计算方法及仿冒域名检测方法 |
CN106170002B (zh) * | 2016-09-08 | 2019-07-02 | 中国科学院信息工程研究所 | 一种中文仿冒域名检测方法及系统 |
CN108270761A (zh) * | 2017-01-03 | 2018-07-10 | 中国移动通信有限公司研究院 | 一种域名合法性检测方法及装置 |
CN107609059B (zh) * | 2017-08-28 | 2020-10-20 | 昆明理工大学 | 一种基于j-w距离的中文域名相似度量方法 |
CN108629046B (zh) * | 2018-05-14 | 2023-08-18 | 平安科技(深圳)有限公司 | 一种字段匹配方法及终端设备 |
CN108768982B (zh) * | 2018-05-17 | 2021-04-27 | 江苏通付盾信息安全技术有限公司 | 钓鱼网站的检测方法、装置、计算设备及计算机存储介质 |
CN109889616B (zh) * | 2018-05-21 | 2020-06-05 | 新华三信息安全技术有限公司 | 一种识别域名的方法及装置 |
CN109299726A (zh) * | 2018-08-01 | 2019-02-01 | 昆明理工大学 | 一种基于特征向量和笔顺编码的汉字字形相似算法 |
CN109344834A (zh) * | 2018-09-06 | 2019-02-15 | 昆明理工大学 | 一种基于图像处理的残缺汉字识别方法 |
CN109359227A (zh) * | 2018-09-10 | 2019-02-19 | 平安科技(深圳)有限公司 | 近似商标的获取方法、装置、计算机设备和存储介质 |
CN110336770A (zh) * | 2019-04-04 | 2019-10-15 | 平安科技(深圳)有限公司 | 远程监测漏洞的方法、装置、设备和存储介质 |
CN111832554A (zh) * | 2019-04-15 | 2020-10-27 | 顺丰科技有限公司 | 一种图像检测方法、装置及存储介质 |
CN110059481A (zh) * | 2019-04-23 | 2019-07-26 | 中国人民解放军战略支援部队信息工程大学 | 一种恶意网页检测方法及系统 |
CN111191087B (zh) * | 2019-12-31 | 2023-11-07 | 歌尔股份有限公司 | 字符匹配方法、终端设备及计算机可读存储介质 |
CN111541683B (zh) * | 2020-04-20 | 2022-04-19 | 杭州安恒信息技术股份有限公司 | 风险网站宣传主体检测方法、装置、设备、介质 |
CN111654472B (zh) * | 2020-05-14 | 2022-05-24 | 亚信科技(成都)有限公司 | 一种域名检测方法及装置 |
CN113807087B (zh) * | 2020-06-16 | 2023-11-28 | 中国电信股份有限公司 | 网站域名相似度检测方法和装置 |
CN112507176A (zh) * | 2020-12-03 | 2021-03-16 | 平安科技(深圳)有限公司 | 域名侵权的自动化判定方法、装置、电子设备和存储介质 |
CN114070819B (zh) * | 2021-10-09 | 2022-11-18 | 北京邮电大学 | 恶意域名检测方法、设备、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102184195A (zh) * | 2011-04-20 | 2011-09-14 | 北京百度网讯科技有限公司 | 用于获取字符串间相似度的方法、装置和设备 |
CN102193993A (zh) * | 2011-04-20 | 2011-09-21 | 北京百度网讯科技有限公司 | 用于确定字符串信息间相似度信息的方法、装置和设备 |
CN102393850A (zh) * | 2011-07-22 | 2012-03-28 | 镇江诺尼基智能技术有限公司 | 一种汉字字形认知相似度计算方法 |
CN102801709A (zh) * | 2012-06-28 | 2012-11-28 | 北京奇虎科技有限公司 | 一种钓鱼网站识别系统及方法 |
-
2013
- 2013-08-09 CN CN201310346713.9A patent/CN103428307B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102184195A (zh) * | 2011-04-20 | 2011-09-14 | 北京百度网讯科技有限公司 | 用于获取字符串间相似度的方法、装置和设备 |
CN102193993A (zh) * | 2011-04-20 | 2011-09-21 | 北京百度网讯科技有限公司 | 用于确定字符串信息间相似度信息的方法、装置和设备 |
CN102393850A (zh) * | 2011-07-22 | 2012-03-28 | 镇江诺尼基智能技术有限公司 | 一种汉字字形认知相似度计算方法 |
CN102801709A (zh) * | 2012-06-28 | 2012-11-28 | 北京奇虎科技有限公司 | 一种钓鱼网站识别系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103428307A (zh) | 2013-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103428307B (zh) | 仿冒域名检测方法及设备 | |
Le et al. | URLNet: Learning a URL representation with deep learning for malicious URL detection | |
CN108965245B (zh) | 基于自适应异构多分类模型的钓鱼网站检测方法和系统 | |
US10033757B2 (en) | Identifying malicious identifiers | |
CN109005145B (zh) | 一种基于自动特征抽取的恶意url检测系统及其方法 | |
CN102930055B (zh) | 结合内部聚合度和外部离散信息熵的网络新词发现方法 | |
CA2743273C (en) | Method and device for intercepting junk mail | |
Li et al. | Projection & probability-driven black-box attack | |
US20160063541A1 (en) | Method for detecting brand counterfeit websites based on webpage icon matching | |
CN112242984B (zh) | 检测异常网络请求的方法、电子设备和计算机程序产品 | |
CN102722709A (zh) | 一种垃圾图片识别方法和装置 | |
CN104536956A (zh) | 一种基于微博平台的事件可视化方法及系统 | |
CN112241530B (zh) | 恶意pdf文档的检测方法及电子设备 | |
CN104866558A (zh) | 一种社交网络账号映射模型训练方法及映射方法和系统 | |
CN104504335A (zh) | 基于页面特征和url特征的钓鱼app检测方法及系统 | |
CN106789871B (zh) | 攻击检测方法、装置、网络设备及终端设备 | |
CN113221032A (zh) | 链接风险检测方法、装置以及存储介质 | |
Luo et al. | A Convolution-Based System for Malicious URLs Detection. | |
Wang et al. | IoTTracker: An enhanced engine for discovering internet-of-thing devices | |
CN112329012B (zh) | 针对包含JavaScript的恶意PDF文档的检测方法及电子设备 | |
Varol et al. | Comparision of string matching algorithms on spam email detection | |
CN111654504A (zh) | 一种dga域名检测方法及装置 | |
CN105721467A (zh) | 社交网络Sybil群体检测方法 | |
CN111066295A (zh) | 邮件检查装置、邮件检查方法和邮件检查程序 | |
Hao et al. | Optimal malicious attack construction and robust detection in smart grid cyber security analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20210203 Address after: 100190 room 506, building 2, courtyard 4, South 4th Street, Zhongguancun, Haidian District, Beijing Patentee after: CHINA INTERNET NETWORK INFORMATION CENTER Address before: 100190 No. four, four South Street, Haidian District, Beijing, Zhongguancun Patentee before: Computer Network Information Center, Chinese Academy of Sciences |
|
TR01 | Transfer of patent right |