CN106170002B

CN106170002B - 一种中文仿冒域名检测方法及系统

Info

Publication number: CN106170002B
Application number: CN201610809596.9A
Authority: CN
Inventors: 王利明; 李丹
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2016-09-08
Filing date: 2016-09-08
Publication date: 2019-07-02
Anticipated expiration: 2036-09-08
Also published as: CN106170002A

Abstract

本发明公开了一种中文仿冒域名检测方法及系统，适用于检测利用形近字构造的中文仿冒域名。主要包括：用于统计每个输入域名的长度和总笔画数的域名预处理模块；对比待检测域名与目标域名的长度和总笔画数，过滤出可能被仿冒的目标域名集合的目标域名过滤模块；将待检测域名与过滤出的目标域名对应拆分为单个汉字的域名拆分模块；将汉字转化为笔画顺序的字符串并基于字符串编辑距离计算单字相似度的单字相似度计算模块；基于单字相似度计算整体域名相似度的域名相似度计算模块；基于域名相似度判定并输出最可能被仿冒的目标域名的仿冒域名决策模块。通过以上方法及系统可有效识别利用形近字构造的中文仿冒域名，在网络安全领域具有广泛的应用前景。

Description

一种中文仿冒域名检测方法及系统

技术领域

本发明属于网络安全技术领域，具体涉及一种中文仿冒域名的检测方法及系统。

背景技术

近年来随着在线金融、电子商务的发展，钓鱼网站呈爆发式增长，严重威胁公共财产安全和信息安全。域名仿冒是网络钓鱼中一种常见的技术，攻击者通过注册一个与目标域名相似的域名来欺骗用户，进而盗取用户的个人敏感信息。

传统的域名系统只能使用63个ASCII字符("a-z"，"A-Z"，"0-9"，"-")。随着互联网在非英语国家的迅速发展，国际化域名日渐兴起，域名可使用的字符集已扩展到上百种语言字符。中文域名是国际化域名的重要组成部分。

汉字作为一种象形文字，其笔画类型及书写顺序可表征该文字的视觉特征，特殊的造字规则使其产生了大量的形近字。但目前的仿冒域名检测方法主要针对英文域名，难以适用于字形复杂多变的中文域名。

发明内容

本发明针对利用中文形近字在视觉上的相似性进行的域名仿冒，提出一种中文仿冒域名检测方法及系统,基于汉字的笔画顺序字符串的相似度计算单个汉字的相似度,并基于单字相似度计算整体域名相似度，从而能够有效地检测出被仿冒的中文域名。

为了实现上述目的，本发明采用以下技术方案：

一种中文仿冒域名检测方法，包括以下步骤：

1)分别统计待测域名Domain_det和目标域名集合DomainSet₁中每个域名的域名长度和总笔画数；

2)通过对比待测域名与目标域名集合DomainSet₁中每个目标域名的域名长度和总笔画数，过滤出与待测域名长度相同且总笔画数差值百分比小于设定阈值T₁的可能被仿冒的目标域名集合DomainSet₂；

3)将待测域名与可能被仿冒的目标域名集合DomainSet₂中的每个目标域名分别对应拆分为单个汉字，将单个汉字按照其书写的笔画顺序转化为字符串，并基于该字符串的编辑距离计算单字相似度；

4)基于步骤3)得到的单字相似度计算对应的整体域名的相似度，判定与待测域名相似度最高且相似度值超过设定阈值T₂的目标域名为被仿冒域名，输出被仿冒域名。

进一步地，步骤1)中，通过从汉字笔画数据库中请求每个域名中每个汉字的笔画数，求和得每个域名的总笔画数。

进一步地，步骤2)中，总笔画数差值百分比(D_pct)的计算方法如下：

其中，StrokeTotalNum_det为待测域名的总笔画数，StrokeTotalNum_target为目标域名的总笔画数。

进一步地，步骤2)中，阈值T₁设置得越小，则在该步骤中被过滤掉的目标域名数量越多，后续的计算量越小。但若该阈值设置过小，可能导致最终检测结果的漏报率增大，即被仿冒域名在该步骤中直接被过滤掉。因此，该阈值的设定可根据实际需要设定，例如统计当前已知的仿冒域名与目标域名的总笔画数差值百分比，将阈值设置为统计结果的均值或最大值。

进一步地，步骤3)中首先去除待测域名与可能被仿冒的目标域名集合DomainSet₂中的每个目标域名中的非汉字字符，再将待测域名与可能被仿冒的目标域名集合DomainSet₂中的每个目标域名分别对应拆分为单个汉字。

进一步地，步骤3)中所述字符串使用英文字符表示汉字的每个基本笔画类别。

进一步地，步骤3)中，计算单字相似度(CharSim(c₁，c₂))的方法为：

其中c₁，c₂为待计算的两单字对应的笔画顺序字符串，EditDis(c₁，c₂)为字符串c₁，c₂的编辑距离，StrokeNum₁，StrokeNum₂为单字的笔画数，即字符串c₁，c₂的长度。

进一步地，步骤4)中，基于单字的相似度(CharSim(c₁，c₂))计算整体域名的相似度(DomainDim(s₁，s₂))的方法为：

其中待测域名与目标域名的长度均为n，CharSim_i表示域名对应的单字字符的相似度,i为1～n的整数。即CharSim_i依次为CharSim₁，CharSim₂，…，CharSim_n。

进一步地，步骤4)中，阈值T₂设置过大，将导致最终检测结果的漏报率增加，若设置过小，将导致误报率增加。因此，该阈值的设定可根据实际需要设定，例如统计当前已知的仿冒域名与目标域名的相似度值，将阈值设置为统计结果的均值或最小值。

一种中文仿冒域名检测系统，包括：

域名预处理模块，用于统计输入的待测域名Domain_det和目标域名集合DomainSet₁中每个域名的域名长度和总笔画数；

目标域名过滤模块，用于通过对比待测域名和目标域名集合DomainSet₁中每个目标域名的域名长度和总笔画数，过滤出与待测域名长度相同且总笔画数差值百分比小于设定阈值T₁的可能被仿冒的目标域名集合DomainSet₂；

域名拆分模块，用于将待测域名与可能被仿冒的目标域名集合DomainSet₂中的每个目标域名分别对应拆分为单个汉字；

单字相似度计算模块，用于将单个汉字按照其书写的笔画顺序转化为字符串，并基于该字符串的编辑距离计算单字相似度；

域名相似度计算模块，用于根据单字相似度计算对应的整体域名的相似度；

仿冒域名决策模块，用于将与待测域名相似度最高且相似度值超过设定阈值T₂的目标域名判定为被仿冒域名并输出被仿冒域名。

进一步地，所述域名预处理模块又包括：

域名长度统计子模块，用于统计输入的待测域名Domain_det和目标域名集合DomainSet₁中每个域名的域名长度，即每个域名包含的汉字个数。

域名总笔画数统计子模块，用于统计输入的待测域名和目标域名集合DomainSet₁中每个域名的总笔画数。该子模块从汉字笔画数据库中请求域名中每个汉字的笔画数，求和得域名的总笔画数。

进一步地，所述可能被仿冒的目标域名集合DomainSet₂的元素个数小于等于DomainSet₁的元素个数。

进一步地，所述目标域名过滤模块又包括：

长度过滤子模块，用于依次对比待测域名和目标域名集合DomainSet₁中各域名的长度，输出包含与待测域名长度相同的所有目标域名的集合DomainSet_tmp。

总笔画数过滤子模块，用于依次对比待测域名和经长度过滤得到的集合DomainSet_tmp中各域名的总笔画数，输出包含与待测域名的域名总笔画数的差值百分比小于设定阈值T₁的所有目标域名的集合DomainSet₂。总笔画数的差值百分比D_pct的计算方法如下：

其中，SrokeTotalNum_det为待测域名的总笔画数，SrokeTotalNum_target为目标域名的总笔画数。

进一步地，所述域名拆分模块用于先去除待测域名与目标域名中的非汉字字符，再将待测域名与目标域名分别对应拆分为单个汉字。由于DomainSet₂中各域名的长度与待测域名的长度相同，故拆分后的汉字可一一对应以作为单字相似度计算模块的输入。

进一步地，所述单字相似度计算模块又包括：

单字转换笔画子模块，用于输入一个汉字，输出其对应的笔画顺序字符串，该字符串使用英文字符表示汉字的每个基本笔画类别。

字符串相似度计算子模块，用于根据单字笔画顺序字符串的编辑距离计算单字相似度，单字相似度CharSim(c₁，c₂)具体计算方法为：

进一步地，所述域名相似度计算模块用于根据单字的相似度计算整体域名的相似度，域名相似度DomainSim(s₁，s₂)的具体计算方法为：

其中待测域名与目标域名的长度均为n，对应字符的相似度依次为CharSim₁，CharSim₂，…，CharSim_n。

本发明的有益效果在于：

本发明针对利用形近字构造中文仿冒域名，提出了基于汉字笔画判断单字相似度，并基于单字相似度计算整体域名相似度的检测方法。本发明的核心是利用组成汉字的笔画基本类型及其书写顺序来计算单个汉字的相似度。该中文域名仿冒检测方法通过实验验证，表明了其有效性。该中文域名仿冒检测系统易于通过计算机实现，其中所需汉字笔画数、笔顺字符串可直接从现有的汉字笔画数据库获取。

附图说明

图1为本发明的流程示意图；

图2为所述域名预处理模块结构示意图；

图3为目标域名过滤模块结构示意图；

图4为单字相似度计算模块结构示意图。

具体实施方式

下面结合附图和实施示例，对本发明的具体实施方式作进一步详细描述。以下实施示例用于说明本发明，但不限制本发明的范围。

本发明首先对中文域名仿冒可能出现的方式进行了研究和分类，共分三大类十小类，如表1。

表1中文域名仿冒方式分类

本发明针对的是视觉仿冒中的形近字仿冒。

如图1，本发明包括域名预处理模块10、目标域名过滤模块20、域名拆分模块30、单字相似度计算模块40、域名相似度计算模块50和仿冒域名决策模块60。

所述域名预处理模块10的输入为待测域名Domain_det和目标域名集合DomainSet₁，该模块统计输入的每个域名的域名长度和每个域名的总笔画数。

如图2，所述域名预处理模块10包含域名长度统计子模块11和域名总笔画数统计子模块12。

所述域名长度统计子模块11，统计输入的待测域名和目标域名集合中每个域名的域名长度，即每个域名包含的汉字个数。

所述域名总笔画数统计子模块12，统计输入的待测域名和目标域名集合中每个域名的总笔画数。该子模块从汉字笔画数据库中请求域名中每个汉字的笔画数，求和得域名的总笔画数。

例如：待测域名Domain_det＝“屈臣氏”，目标域名集合DomainSet₁＝{“洽洽香瓜子”，“中国移动”，“屈臣氏”，“心相印”}。统计结果如表2：

表2域名预处理结果

所述目标域名过滤模块20输出可能被仿冒的目标域名集合DomainSet₂，DomainSet₂的元素个数小于等于DomainSet₁的元素个数。

如图3，所述目标域名过滤模块20包括长度过滤子模块21和总笔画数过滤子模块22。

所述长度过滤子模块21，依次对比待测域名和目标域名集合中各域名的长度，将与待测域名的域名长度相同的目标域名写入集合DomainSet_tmp，最后输出DomainSet_tmp。

所述总笔画数过滤子模块22，依次对比待测域名和集合DomainSet_tmp中各域名的总笔画数，将与待测域名的域名总笔画数的差值百分比小于阈值T₁的目标域名写入集合DomainSet₂，最后输出DomainSet₂。其中差值百分比的计算方法如下：

例如：差值百分比阈值T₁设置为0.5，则经目标域名过滤模块处理可得DomainSet₂＝{“屈臣氏”，“心相印”}

所述域名拆分模块30，首先去除待测域名与目标域名集合DomainSet₂中的非汉字字符，如“.”、“-”等；再将待测域名与目标域名拆分为单个汉字并一一对应。

例如：

待测域名Domain_det＝“屈巨氏”，目标域名集合DomainSet₂＝{“屈臣氏”，“心相印”}。

将待测域名与目标域名对应拆分，即分别拆分得(“屈屈”、“巨臣”、“氏氏”)、(“屈心”、“巨相”、“氏印”)。

所述单字相似度计算模块40，将汉字按照其书写的笔画顺序转化为字符串，并基于该字符串的编辑距离计算单字相似度。

如图4，所述单字相似度计算模块40包括单字转换笔画子模块41和字符串相似度计算子模块42。

所述单字转换笔画子模块41，该子模块输入一个汉字，输出其对应的笔画顺序字符串，该字符串使用英文字符表示汉字的每个基本笔画类别。

笔画作为汉字的最小构成单位，可分为横、竖、撇、点、捺、提、折共七个基本类别，并可对应使用英文字符表示各类别名，具体对应规则如表3。

表3笔画基本类别名与字符的对应关系表

基本类别名

横

竖

撇

点

捺

提

折

英文字符

A

B

C

D

E

F

G

例如“巨”的笔画顺序为“横–折–横–折”，“臣”的笔画顺序为“横–竖–折–横–竖–折”。则根据表3，“巨”可转换为字符串“AGAG”，“臣”可转换为字符串“ABGABG”。在具体实施时，可直接通过查询汉字笔画数据库获取每个汉字对应的笔画字符串。

所述字符串相似度计算子模块42，该子模块基于单字笔画顺序字符串的编辑距离计算单字相似度，具体计算方法为：

其中c₁，c₂为待计算的两单字对应的笔画顺序字符串，EditDis(c₁，c₂)为字符串c₁，c₂的编辑距离，SrokeNum₁，StrokeNum₂为单字的笔画数，即字符串c₁，c₂的长度。

例如：示例计算结果如表4。

表4单字相似度

所述域名相似度计算模块50，基于单字的相似度计算整体域名的相似度，具体计算方法为：

例如：示例计算结果如表5。

表5整体域名相似度

所述仿冒域名决策模块60，该模块判定与待检测相似度最高且相似度值超过阈值的目标域名为被仿冒域名。

例如：预设相似度阈值为0.8，则可判定目标域名“屈臣氏”被待测域名“屈巨氏”仿冒，输出被仿冒域名“屈臣氏”。

综上所述，本发明针对利用形近字构造中文仿冒域名，提出了基于汉字笔画判断单字相似度，并基于单字相似度计算整体域名相似度的检测方法。该方法通过实验验证，表明了其有效性。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴。

Claims

1.一种中文仿冒域名检测方法，包括以下步骤：

3)去除待测域名与可能被仿冒的目标域名集合DomainSet₂中的每个目标域名中的非汉字字符，然后将待测域名与可能被仿冒的目标域名集合DomainSet₂中的每个目标域名分别对应拆分为单个汉字，将单个汉字按照其书写的笔画顺序转化为字符串，并基于该字符串的编辑距离计算单字相似度；所述字符串使用英文字符表示汉字的每个基本笔画类别；其中，单字相似度为c₁，c₂为待计算的两单字对应的笔画顺序字符串，EditDis(c₁，c₂)为字符串c₁，c₂的编辑距离，StrokeNum₁，StrokeNum₂为单字的笔画数；

4)基于步骤3)得到的单字相似度计算对应的整体域名的相似度，判定与待测域名相似度最高且相似度值超过设定阈值T₂的目标域名为被仿冒域名，输出被仿冒域名；其中，整体域名的相似度为待测域名与目标域名的长度均为n，CharSim_i表示域名对应的单字字符的相似度，i为1～n的整数。

2.如权利要求1所述的中文仿冒域名检测方法，其特征在于，步骤1)中，通过从汉字笔画数据库中请求每个域名中每个汉字的笔画数，求和得每个域名的总笔画数。

3.如权利要求1所述的中文仿冒域名检测方法，其特征在于，步骤2)中，总笔画数差值百分比的计算方法如下：

4.一种中文仿冒域名检测系统，包括：

目标域名过滤模块，包括长度过滤子模块和总笔画数过滤子模块，其中，长度过滤子模块，用于依次对比待测域名和目标域名集合DomainSet₁中各域名的长度，输出包含与待测域名长度相同的所有目标域名的集合DomainSet_tmp；总笔画数过滤子模块，用于依次对比待测域名和经长度过滤得到的集合DomainSet_tmp中各域名的总笔画数，输出包含与待测域名的域名总笔画数的差值百分比小于设定阈值T₁的所有目标域名的集合DomainSet₂；

单字相似度计算模块，包括单字转换笔画子模块和字符串相似度计算子模块；其中，单字转换笔画子模块，用于输入一个汉字，输出其对应的笔画顺序字符串，该字符串使用英文字符表示汉字的每个基本笔画类别；字符串相似度计算子模块，用于根据单字笔画顺序字符串的编辑距离计算单字相似度，单字相似度CharSim(c₁，c₂)具体计算方法为：

c₁，c₂为待计算的两单字对应的笔画顺序字符串，EditDis(c₁，c₂)为字符串c₁，c₂的编辑距离，StrokeNum₁，StrokeNum₂为单字的笔画数；

5.如权利要求4所述的中文仿冒域名检测系统，其特征在于，所述域名预处理模块又包括：

域名长度统计子模块，用于统计输入的待测域名Domain_det和目标域名集合DomainSet₁中每个域名的域名长度；

域名总笔画数统计子模块，用于统计输入的待测域名和目标域名集合DomainSet₁中每个域名的总笔画数。