发明内容
本发明的目的在于,针对所存在的不足,提出了一种基于人工智能的涉诈网址检测系统。
本发明采用如下技术方案:
一种基于人工智能的涉诈网址检测系统,包括域名信息采集预处理模块、特征向量智能转换模块、涉诈研判模型模块和结果反馈模块;
所述域名信息采集预处理模块用于采集域名信息并判断是否为新增域名,所述特征向量智能转换模块用于获取新增域名的相对链接特征向量,所述涉诈研判模型模块用于对相对链接特征向量进行研究判断处理并输出检测结果,所述结果反馈模块基于检测结果进行对应的反馈处理;
所述域名信息采集预处理模块包括域名信息库存储单元、域名识别采集单元和对照分析单元,所述域名信息库存储单元用于保存已知的域名信息,所述域名识别采集单元用于从对外访问信息中识别并采集域名信息,所述对照分析单元用于将采集的域名信息与已知的域名信息进行对照;
所述特征向量智能转换模块包括域名直接解析单元、域名深入解析单元和向量生成单元,所述域名直接解析单元用于直接对域名文本信息进行分析,所述域名深入解析单元用于对域名的关联信息进行分析,所述向量生成单元基于分析结果生成相对链接特征向量;
所述涉诈研判模型模块包括数据输入单元和模型训练单元,所述数据输入单元用于接收相对链接特征向量,所述模型训练单元用于对相对链接特征向量进行处理并输出涉诈判断结果;
所述结果反馈模块包括正向反馈处理单元和负向反馈处理单元,所述正向反馈处理单元用于对普通域名进行处理,所述负向反馈处理单元用于对涉诈域名进行处理;
进一步的,所述域名直接解析单元包括域名预处理器、基础特征处理器和结构特征处理器,所述域名预处理器用于分离顶级域名和次级域名,所述基础特征处理器用于对次级域名的基础特征进行统计,所述结构特征处理器用于对次级域名的结构特征进行分析;
所述基础特征处理器统计的基础特征项包括域名长度、特殊字符数量和域名层数;
所述结构特征处理器分析得到的信息包括至少2个结构向量;
进一步的,所述域名深入解析单元包括时间信息分析处理器和IP信息分析处理器,所述时间信息分析处理器用于获取域名的注册时间信息T1和到期时间信息T2并进行分析处理,所述IP信息分析处理器用于获取域名对应的IP地址历史数量nIP并进行分析处理;
所述时间信息分析处理器根据下式计算出时间可信值CT:
;
其中,Tnow表示当前时间信息,T0表示时间基数,表示运行可信系数,/>表示盈余可信系数;
所述IP信息分析处理器根据下式计算出IP可信值CI:
;
进一步的,所述向量生成单元包括基础数据寄存器、相对检索处理器和向量生成处理器,所述基础数据寄存器用于保存普通域名的特征数据,所述相对检索处理器用于从所述基础数据寄存器中检索出用于参考的特征数据,所述向量生成处理器基于参考的特征数据生成新增域名的相对链接特征向量;
进一步的,所述向量生成处理器根据下式处理得到基础差异向量V1:
;
其中,N1、N2、N3为目标特征数据的三个基础特征项值,N1r、N2r、N3r为参考特征数据的单个基础特征项值;
所述向量生成处理器根据下式处理得到结构差异向量V2:
;
;
其中,表示参考特征数据的第i个结构向量,m为结构向量的数量;
所述向量生成处理器根据下式处理得到相对链接特征向量Vx:
;
。
本发明所取得的有益效果是:
本系统能够对新增域名进行分析得到相对链接特征向量,进而对域名是否涉诈进行判断,提高了能够保护的范围,在分析得到相对链接特征向量中,采用了直接解析和深入解析两个步骤来对域名进行分析,分别获取域名文本的解析结果和域名服务器的解析结果,将直接解析结果与正常的域名信息进行对比,将深入解析结果对对比信息进行调整得到最终的相对链接特征向量,能够更全面地体现出域名的特征信息,从而提高后续判断模型的准确性。
为使能更进一步了解本发明的特征及技术内容,请参阅以下有关本发明的详细说明与附图,然而所提供的附图仅用于提供参考与说明,并非用来对本发明加以限制。
具体实施方式
以下是通过特定的具体实施例来说明本发明的实施方式,本领域技术人员可由本说明书所公开的内容了解本发明的优点与效果。本发明可通过其他不同的具体实施例加以施行或应用,本说明书中的各项细节也可基于不同观点与应用,在不悖离本发明的精神下进行各种修饰与变更。另外,本发明的附图仅为简单示意说明,并非依实际尺寸的描绘,事先声明。以下的实施方式将进一步详细说明本发明的相关技术内容,但所公开的内容并非用以限制本发明的保护范围。
实施例一:本实施例提供了一种基于人工智能的涉诈网址检测系统,结合图1,包括域名信息采集预处理模块、特征向量智能转换模块、涉诈研判模型模块和结果反馈模块;
所述域名信息采集预处理模块用于采集域名信息并判断是否为新增域名,所述特征向量智能转换模块用于获取新增域名的相对链接特征向量,所述涉诈研判模型模块用于对相对链接特征向量进行研究判断处理并输出检测结果,所述结果反馈模块基于检测结果进行对应的反馈处理;
所述域名信息采集预处理模块包括域名信息库存储单元、域名识别采集单元和对照分析单元,所述域名信息库存储单元用于保存已知的域名信息,所述域名识别采集单元用于从对外访问信息中识别并采集域名信息,所述对照分析单元用于将采集的域名信息与已知的域名信息进行对照;
所述特征向量智能转换模块包括域名直接解析单元、域名深入解析单元和向量生成单元,所述域名直接解析单元用于直接对域名文本信息进行分析,所述域名深入解析单元用于对域名的关联信息进行分析,所述向量生成单元基于分析结果生成相对链接特征向量;
所述涉诈研判模型模块包括数据输入单元和模型训练单元,所述数据输入单元用于接收相对链接特征向量,所述模型训练单元用于对相对链接特征向量进行处理并输出涉诈判断结果;
所述结果反馈模块包括正向反馈处理单元和负向反馈处理单元,所述正向反馈处理单元用于对普通域名进行处理,所述负向反馈处理单元用于对涉诈域名进行处理;
所述域名直接解析单元包括域名预处理器、基础特征处理器和结构特征处理器,所述域名预处理器用于分离顶级域名和次级域名,所述基础特征处理器用于对次级域名的基础特征进行统计,所述结构特征处理器用于对次级域名的结构特征进行分析;
所述基础特征处理器统计的基础特征项包括域名长度、特殊字符数量和域名层数;
所述结构特征处理器分析得到的信息包括至少2个结构向量;
所述域名深入解析单元包括时间信息分析处理器和IP信息分析处理器,所述时间信息分析处理器用于获取域名的注册时间信息T1和到期时间信息T2并进行分析处理,所述IP信息分析处理器用于获取域名对应的IP地址历史数量nIP并进行分析处理;
所述时间信息分析处理器根据下式计算出时间可信值CT:
;
其中,Tnow表示当前时间信息,T0表示时间基数,表示运行可信系数,/>表示盈余可信系数;
所述IP信息分析处理器根据下式计算出IP可信值CI:
;
所述向量生成单元包括基础数据寄存器、相对检索处理器和向量生成处理器,所述基础数据寄存器用于保存普通域名的特征数据,所述相对检索处理器用于从所述基础数据寄存器中检索出用于参考的特征数据,所述向量生成处理器基于参考的特征数据生成新增域名的相对链接特征向量;
所述向量生成处理器根据下式处理得到基础差异向量V1:
;
其中,N1、N2、N3为目标特征数据的三个基础特征项值,N1r、N2r、N3r为参考特征数据的单个基础特征项值;
所述向量生成处理器根据下式处理得到结构差异向量V2:
;
;
其中,表示参考特征数据的第i个结构向量,m为结构向量的数量;
所述向量生成处理器根据下式处理得到相对链接特征向量Vx:
;
。
实施例二:本实施例包含了实施例一中的全部内容,提供了一种基于人工智能的涉诈网址检测系统,包括域名信息采集预处理模块、特征向量智能转换模块、涉诈研判模型模块和结果反馈模块;
所述域名信息采集预处理模块用于采集域名信息并判断是否为新增域名,所述特征向量智能转换模块用于获取新增域名的相对链接特征向量,所述涉诈研判模型模块用于对相对链接特征向量进行研究判断处理并输出检测结果,所述结果反馈模块基于检测结果进行对应的反馈处理;
所述域名信息采集预处理模块包括域名信息库存储单元、域名识别采集单元和对照分析单元,所述域名信息库存储单元用于保存已知的域名信息,所述域名识别采集单元用于从对外访问信息中识别并采集域名信息,所述对照分析单元用于将采集的域名信息与已知的域名信息进行对照;
结合图2,所述特征向量智能转换模块包括域名直接解析单元、域名深入解析单元和向量生成单元,所述域名直接解析单元用于直接对域名文本信息进行分析,所述域名深入解析单元用于对域名的关联信息进行分析,所述向量生成单元基于分析结果生成相对链接特征向量;
所述涉诈研判模型模块包括数据输入单元和模型训练单元,所述数据输入单元用于接收相对链接特征向量,所述模型训练单元用于对相对链接特征向量进行处理并输出涉诈判断结果;
所述结果反馈模块包括正向反馈处理单元和负向反馈处理单元,所述正向反馈处理单元用于对普通域名进行处理,所述负向反馈处理单元用于对涉诈域名进行处理;
所述域名信息库存储单元包括白名单寄存器和黑名单寄存器,所述白名单寄存器用于保存普通的域名信息,所述黑名单寄存器用于保存涉诈的域名信息;
所述域名识别采集单元包括请求监测处理器、字段识别处理器和域名提取处理器,所述请求监测处理器用于捕获对外访问请求信息,所述字段识别处理器用于识别出请求信息中的目标字段,所述域名提取处理器从目标字段中提取出域名信息;
所述对照分析单元包括域名缓存处理器和检索对照处理器,所述域名缓存处理器用于临时保存提取出的域名信息,所述检索对照处理器基于提取出的域名信息在域名信息库存储单元中进行检索并输出检索结果;
当域名信息在域名信息库存储单元中能够检索到时,将检索结果发送给所述结果反馈模块,当域名信息在域名信息库存储单元中未能检索到时,将域名信息作为新域名发送给所述特征向量智能转换模块;
结合图3,所述域名直接解析单元包括域名预处理器、基础特征处理器和结构特征处理器,所述域名预处理器用于分离顶级域名和次级域名,所述基础特征处理器用于对次级域名的基础特征进行统计,所述结构特征处理器用于对次级域名的结构特征进行分析;
所述基础特征处理器统计的基础特征项包括域名长度、特殊字符数量和域名层数;
所述结构特征处理器对次级域名的结构特征进行分析的过程包括如下步骤:
S1、除去域名信息中的特殊字符;
S2、识别域名信息中的关键词,并基于识别的关键词将域名信息拆分成多个字段;
S3、基于拆分的字段转换成一个二进制数表示的结构值,结构值中的1表示关键词字段,结构值中的0表示非关键词字段,结构值的位数表示拆分的字段数量;
S4、根据下式处理得到m个结构向量作为结构特征信息:
;
;
其中,wi表示第i个非关键词字段在结构值中的位数序号,L为结构值的位数,ni为第i个非关键词字段的长度,N为除去特殊字符后的域名信息的长度,m为非关键词字段的数量;
结合图4,所述域名深入解析单元包括时间信息分析处理器和IP信息分析处理器,所述时间信息分析处理器用于获取域名的注册时间信息T1和到期时间信息T2并进行分析处理,所述IP信息分析处理器用于获取域名对应的IP地址历史数量nIP并进行分析处理;
所述时间信息分析处理器根据下式计算出时间可信值CT:
;
其中,Tnow表示当前时间信息,T0表示时间基数,表示运行可信系数,/>表示盈余可信系数;
所述IP信息分析处理器根据下式计算出IP可信值CI:
;
结合图5,所述向量生成单元包括基础数据寄存器、相对检索处理器和向量生成处理器,所述基础数据寄存器用于保存普通域名的特征数据,所述相对检索处理器用于从所述基础数据寄存器中检索出用于参考的特征数据,所述向量生成处理器基于参考的特征数据生成新增域名的相对链接特征向量;
所述特征数据包括基础特征项、结构向量、时间可信值和IP可信值;
所述相对检索处理器从基础数据寄存器中检索出特征数据的过程包括如下步骤:
S22、根据下式计算出每组特征数据与目标特征数据的结构参考值Vr:
;
其中,表示一组特征数据中的第i个结构向量;
S23、筛选出结构参考值小于结构阈值的特征数据;
S24、根据下式计算出综合参考值Vc:
;
其中,、/>、/>表示一组特征数据中的三个基础特征项值,N10、N20、N30表示三个基础特征项的标准值,k1表示/>在基础数据寄存器中所有域名长度中所占的比例值,k2表示/>在基础数据寄存器中所有特殊字符数量中所占的比例值,k3表示/>在基础数据寄存器中所有域名层数中所占的比例值;
S25将综合参考值最小的特征数据作为参考特征数据;
所述目标特征数据指新增域名的特征数据;
所述向量生成处理器根据下式处理得到基础差异向量V1:
;
其中,N1、N2、N3为目标特征数据的三个基础特征项值,N1r、N2r、N3r为参考特征数据的单个基础特征项值;
所述向量生成处理器根据下式处理得到结构差异向量V2:
;
;
其中,表示参考特征数据的第i个结构向量;
所述向量生成处理器根据下式处理得到相对链接特征向量Vx:
;
;
所述模型训练单元采用现有技术中的支持向量机建立模型并进行训练;
所述正向反馈处理单元将判断为非涉诈域名的新增域名添加进白名单寄存器中并继续访问该域名,所述负向反馈处理单元将判断为涉诈域名的新增域名添加进黑名单寄存器中并中断访问该域名;
上文中出现的i和j均为用于表示序号的序数。
以上所公开的内容仅为本发明的优选可行实施例,并非因此局限本发明的保护范围,所以凡是运用本发明说明书及附图内容所做的等效技术变化,均包含于本发明的保护范围内,此外,随着技术发展其中的元素可以更新的。