CN112667943A

CN112667943A - 一种非法网站识别和锁定方法

Info

Publication number: CN112667943A
Application number: CN202011247322.8A
Authority: CN
Inventors: 邓昌智; 孙桂川
Original assignee: Zhongke Jinsheng Beijing Technology Co ltd
Current assignee: Zhongke Jinsheng Beijing Technology Co ltd
Priority date: 2020-11-10
Filing date: 2020-11-10
Publication date: 2021-04-16

Abstract

本发明属于网站识别和锁定技术领域，提供了一种非法网站识别和锁定方法，包括以下步骤：S101：关键词监控和采集，根据神经网络算法建立训练样本；S102：特征词提取；S103：对待识别网站中的关键词进行文本识别；S104：根据匹配概率和相似度，计算待识别网站属于每一类型的概率。本发明的一种非法网站识别和锁定方法，提高目标锁定的准确度。

Description

一种非法网站识别和锁定方法

技术领域

本发明涉及网站识别和锁定技术领域，具体涉及一种非法网站识别和锁定方法及系统。

背景技术

随着互联网的高速发展，网站自身的开放性以及电子支付的普遍性使得网站安全问题日益突出，通过各类网站平台非法从事多种金融交易的活动增多，带来了较大的金融和社会风险隐患，涉及的经济犯罪日益增多。网站违法交易行为性质多样化，当前发现的网络交易违法行为主要集中在网上非法集资和虚拟货币交易网站等方面。

这些非法的互联网及移动互联网软件往往具有合法的形式与外观，具有较强的迷惑性和欺骗性，大大超出了普通网民及互联网金融消费者的辨识能力，导致互联网经济犯罪大、要案件频发，造成公私财产损失巨大且难以挽回。通过技术手段主动识别非法的平台软件，促使工作中心前移，及时化解互联网经济犯罪风险，精准打击互联网经济犯罪显得尤为重要。非法软件识别锁定技术，就是依托互联网与大数据，总结提炼非法平台软件的表现特征，构建非法网站软件的识别特征库，采用主动学习算法对其进行自动识别；并采用IP地址识别、路由跟踪等技术对其进行锁定，以实现涉案线索自动识别与发现，涉案电子数据的智能锁定，主动、提前进行犯罪防控。

但是，现有的非法软件识别技术在进行目标锁定时，对非法网站中的信息提取有局限性，目标锁定的精确度不高。

发明内容

针对现有技术中的缺陷，本发明提供的一种非法网站识别和锁定方法，提高目标锁定的准确度。

为了解决上述技术问题，本发明提供以下技术方案：

一种非法网站识别和锁定方法，包括以下步骤：

S101：关键词监控和采集，根据神经网络算法建立训练样本；

S102：特征词提取：首先，从训练样本中获取非法网站的类型，使用tf-idf 算法计算每一类型非法网站中关键词的权重，然后，对每一类型中关键词的权重进行排序，选取权重较大的N个关键词作为该类型非法网站的特征词，最后，对N个关键词的权重进行归一化处理；URL特征提取：首先，从训练样本中获取非法网站的类型，然后，从训练样本中获取与非法网站类型相关的样本数据，最后，从样本数据中提取不同非法网站类型的URL信息；

S103：对待识别网站中的关键词进行文本识别：首先，对待识别的文本进行向量化，将文本中的关键词与每一类型的非法网站的关键词通过朴素贝叶斯公式进行匹配计算，分别得到该文本中第i个关键词与每一类型的非法网站的关键词的匹配概率

对待识别网站中的关键词进行URL信息对比：通过公式

将待识别网站中第i个URL信息与非法网站每一类型中第j个URL信息分别进行相似度计算，得到待识别网站中所有URL信息与非法网站的URL信息指间的相似度，取相似度最大的前5个相似度计算平均值并归一化，得到待识别网站与每一类型的非法网站之间的相似度

其中，s_i,j为待识别网站中第i 个URL信息与非法网站每一类型中第j个URL信息的相似度，n为待识别网站中第i个URL信息与非法网站每一类型中第j个URL信息中匹配的字符数；

S104：根据匹配概率

和相似度

计算待识别网站属于每一类型的概率p_j，其中，

ω₁和ω₂分别为匹配概率

和相似度

的权重值。

进一步地，所述步骤S102中使用tf-idf算法计算每一类型非法网站中关键词权重的过程包括：

S10201：对训练样本中的关键词进行去重，删除停用词和常用词；

S10202：针对每一非法网站的类型进行关键词重要性tf_i,j统计，其中， tf_i,j＝n_i,j/∑_kn_i,j，n_i,j是第i个关键词在文件d_j中的出现次数，∑_kn_i,j是在文件d_j中所有关键词的出现次数之和；

S10203：针对每一非法网站的类型进行关键词普遍重要性idf_i的统计，其中，

S10204：计算每一个关键词i的重要程度tfidf_i,j，其中，tfidf_i,j＝tf_i,j×idf_i，将每一类型中所有关键词的重要程度tfidf_i,j进行累加，选取权重较大的N个关键词作为该类型非法网站中的特征词。

进一步地，所述步骤S102和步骤S103中非法网站的类型包括非法集资和虚拟货币类型。

进一步地，所述语料库用于存储包含关键词的文件。

进一步地，包括监控模块、存储词库、修改模块、分析模块和输出模块，

所述监控模块用于对网站中的关键词进行检测，将检测到的关键词添加到存储词库中；

所述存储词库用于存储网站中的关键词并构建训练样本，对训练样本中的关键词进行去重，关键词的类别包括理财、众筹、私募、期权、金融创新、网络借贷、虚拟货币、金融互动和爱心慈善；

所述修改模块用于对存储词库中的关键词进行增加、修改或删除；

所述分析模块用于将待识别网站的关键词与存储词库中的关键词进行计算，得到待识别网站属于每一类型的概率；

所述输出模块用于对待识别网站属于每一类型的概率进行显示。

由上述技术方案可知，本发明的有益效果：首先，通过对非法网站中的特征词和URL特征进行提取，根据特征词对待识别网站中的关键词进行文本识别，确定待识别网站中关键词与每一类型的非法网站的关键词的匹配概率，根据 URL特征计算待识别网站中URL信息的相似度，根据匹配概率和相似度，计算待识别网站属于每一类型的概率，充分考虑特征词和URL特征之间两个方面的因素，提高待识别网站目标锁定的准确度。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1为本发明的流程图；

图2为本发明步骤S102中使用tf-idf算法计算每一类型非法网站中关键词权重的流程图；

图3本发明的系统模块图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只作为示例，而不能以此来限制本发明的保护范围。

参阅图1所示，本实施例提供的一种非法网站识别和锁定方法，包括以下步骤：

S101：关键词监控和采集，根据神经网络算法建立训练样本；

对待识别网站中的关键词进行URL信息对比：通过公式

S104：根据匹配概率

和相似度

计算待识别网站属于每一类型的概率p_j，其中，

ω₁和ω₂分别为匹配概率

和相似度

的权重值。

在实际使用中，首先，通过对非法网站中的特征词和URL特征进行提取，根据特征词对待识别网站中的关键词进行文本识别，确定待识别网站中关键词与每一类型的非法网站的关键词的匹配概率，根据URL特征计算待识别网站中 URL信息的相似度，根据匹配概率和相似度，计算待识别网站属于每一类型的概率，充分考虑特征词和URL特征之间两个方面的因素，提高待识别网站目标锁定的准确度。

参阅图2所示，所述步骤S102中使用tf-idf算法计算每一类型非法网站中关键词权重的过程包括：

S10202：针对每一非法网站的类型进行关键词重要性tf_i,j统计，其中，tf_i,j＝n_i,j/∑_kn_i,j，n_i,j是第i个关键词在文件d_j中的出现次数，∑_kn_i,j是在文件d_j中所有关键词的出现次数之和，在实际使用中，tf_i,j的意义为某一个给定的词语在该文件中出现的频率，用来表示关键词的重要性；

在实际使用中，idf_i是一个关键词普遍重要性的度量；

在实际使用中，首先，对每一个关键词进行重要程度计算，然后，针对每一类的每一个关键词进行重要程度计算，选取权重较大的N个关键词作为非法网站的特征词，能够全面考虑非法网站中出现的所有关键词，保证在非法网站确定过程中不遗漏关键信息。

在本实施例中，所述步骤S102和步骤S103中非法网站的类型包括非法集资和虚拟货币类型等。

在本实施例中，所述语料库用于存储包含关键词的文件。

参阅图3所示，包括监控模块、存储词库、修改模块、分析模块和输出模块，

所述存储词库用于存储网站中的关键词并构建训练样本，对训练样本中的关键词进行去重，关键词的类别包括理财、众筹、私募、期权、金融创新、网络借贷、虚拟货币、金融互动和爱心慈善等；

所述输出模块用于对待识别网站属于每一类型的概率进行显示，便于直观展示待识别网站所属类型的计算结果。

在实际使用中，通过监控模块对网站中的关键词进行实时监控，将检测到的关键词添加到存储词库中，不断丰富存储词库，另外，还可以通过手动增加、修改或删除的方式对存储词库中的关键词进行增加和修订，不断封堵存储词库，使存储词库的信息具有完整的特点，然后，将待识别网站的关键词与存储词库中的关键词进行计算，得到待识别网站属于每一类型的概率，基于存储词库的信息完善的基础上，有利于提高待识别网站属于每一类型的概率，提高目标锁定的准确率。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种非法网站识别和锁定方法，其特征在于，包括以下步骤：

S101：关键词监控和采集，根据神经网络算法建立训练样本；

S102：特征词提取：首先，从训练样本中获取非法网站的类型，使用tf-idf算法计算每一类型非法网站中关键词的权重，然后，对每一类型中关键词的权重进行排序，选取权重较大的N个关键词作为该类型非法网站的特征词，最后，对N个关键词的权重进行归一化处理；URL特征提取：首先，从训练样本中获取非法网站的类型，然后，从训练样本中获取与非法网站类型相关的样本数据，最后，从样本数据中提取不同非法网站类型的URL信息；