CN112667943A - 一种非法网站识别和锁定方法 - Google Patents

一种非法网站识别和锁定方法 Download PDF

Info

Publication number
CN112667943A
CN112667943A CN202011247322.8A CN202011247322A CN112667943A CN 112667943 A CN112667943 A CN 112667943A CN 202011247322 A CN202011247322 A CN 202011247322A CN 112667943 A CN112667943 A CN 112667943A
Authority
CN
China
Prior art keywords
website
keywords
illegal
type
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011247322.8A
Other languages
English (en)
Inventor
邓昌智
孙桂川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Jinsheng Beijing Technology Co ltd
Original Assignee
Zhongke Jinsheng Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Jinsheng Beijing Technology Co ltd filed Critical Zhongke Jinsheng Beijing Technology Co ltd
Priority to CN202011247322.8A priority Critical patent/CN112667943A/zh
Publication of CN112667943A publication Critical patent/CN112667943A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于网站识别和锁定技术领域,提供了一种非法网站识别和锁定方法,包括以下步骤:S101:关键词监控和采集,根据神经网络算法建立训练样本;S102:特征词提取;S103:对待识别网站中的关键词进行文本识别;S104:根据匹配概率和相似度,计算待识别网站属于每一类型的概率。本发明的一种非法网站识别和锁定方法,提高目标锁定的准确度。

Description

一种非法网站识别和锁定方法
技术领域
本发明涉及网站识别和锁定技术领域,具体涉及一种非法网站识别和锁定 方法及系统。
背景技术
随着互联网的高速发展,网站自身的开放性以及电子支付的普遍性使得网 站安全问题日益突出,通过各类网站平台非法从事多种金融交易的活动增多, 带来了较大的金融和社会风险隐患,涉及的经济犯罪日益增多。网站违法交易 行为性质多样化,当前发现的网络交易违法行为主要集中在网上非法集资和虚 拟货币交易网站等方面。
这些非法的互联网及移动互联网软件往往具有合法的形式与外观,具有较 强的迷惑性和欺骗性,大大超出了普通网民及互联网金融消费者的辨识能力, 导致互联网经济犯罪大、要案件频发,造成公私财产损失巨大且难以挽回。通 过技术手段主动识别非法的平台软件,促使工作中心前移,及时化解互联网经 济犯罪风险,精准打击互联网经济犯罪显得尤为重要。非法软件识别锁定技术, 就是依托互联网与大数据,总结提炼非法平台软件的表现特征,构建非法网站 软件的识别特征库,采用主动学习算法对其进行自动识别;并采用IP地址识别、 路由跟踪等技术对其进行锁定,以实现涉案线索自动识别与发现,涉案电子数 据的智能锁定,主动、提前进行犯罪防控。
但是,现有的非法软件识别技术在进行目标锁定时,对非法网站中的信息 提取有局限性,目标锁定的精确度不高。
发明内容
针对现有技术中的缺陷,本发明提供的一种非法网站识别和锁定方法,提 高目标锁定的准确度。
为了解决上述技术问题,本发明提供以下技术方案:
一种非法网站识别和锁定方法,包括以下步骤:
S101:关键词监控和采集,根据神经网络算法建立训练样本;
S102:特征词提取:首先,从训练样本中获取非法网站的类型,使用tf-idf 算法计算每一类型非法网站中关键词的权重,然后,对每一类型中关键词的权 重进行排序,选取权重较大的N个关键词作为该类型非法网站的特征词,最后, 对N个关键词的权重进行归一化处理;URL特征提取:首先,从训练样本中获 取非法网站的类型,然后,从训练样本中获取与非法网站类型相关的样本数据, 最后,从样本数据中提取不同非法网站类型的URL信息;
S103:对待识别网站中的关键词进行文本识别:首先,对待识别的文本进 行向量化,将文本中的关键词与每一类型的非法网站的关键词通过朴素贝叶斯 公式进行匹配计算,分别得到该文本中第i个关键词与每一类型的非法网站的关 键词的匹配概率
Figure BDA0002770461900000021
对待识别网站中的关键词进行URL信息对比:通过公式
Figure BDA0002770461900000022
将待识别网站中第i个URL信息与非法网站每一类型中第j个URL信息 分别进行相似度计算,得到待识别网站中所有URL信息与非法网站的URL信息 指间的相似度,取相似度最大的前5个相似度计算平均值并归一化,得到待识 别网站与每一类型的非法网站之间的相似度
Figure BDA0002770461900000023
其中,si,j为待识别网站中第i 个URL信息与非法网站每一类型中第j个URL信息的相似度,n为待识别网站中 第i个URL信息与非法网站每一类型中第j个URL信息中匹配的字符数;
S104:根据匹配概率
Figure BDA0002770461900000024
和相似度
Figure BDA0002770461900000025
计算待识别网站属于每一类型的概 率pj,其中,
Figure BDA0002770461900000026
ω1和ω2分别为匹配概率
Figure BDA0002770461900000027
和相似度
Figure BDA0002770461900000028
的权 重值。
进一步地,所述步骤S102中使用tf-idf算法计算每一类型非法网站中关 键词权重的过程包括:
S10201:对训练样本中的关键词进行去重,删除停用词和常用词;
S10202:针对每一非法网站的类型进行关键词重要性tfi,j统计,其中, tfi,j=ni,j/∑kni,j,ni,j是第i个关键词在文件dj中的出现次数,∑kni,j是在文件dj中 所有关键词的出现次数之和;
S10203:针对每一非法网站的类型进行关键词普遍重要性idfi的统计,其中,
Figure BDA0002770461900000031
S10204:计算每一个关键词i的重要程度tfidfi,j,其中,tfidfi,j=tfi,j×idfi,将每一类型中所有关键词的重要程度tfidfi,j进行累加,选取权重较大的N个关键词 作为该类型非法网站中的特征词。
进一步地,所述步骤S102和步骤S103中非法网站的类型包括非法集资和 虚拟货币类型。
进一步地,所述语料库用于存储包含关键词的文件。
进一步地,包括监控模块、存储词库、修改模块、分析模块和输出模块,
所述监控模块用于对网站中的关键词进行检测,将检测到的关键词添加到 存储词库中;
所述存储词库用于存储网站中的关键词并构建训练样本,对训练样本中的 关键词进行去重,关键词的类别包括理财、众筹、私募、期权、金融创新、网 络借贷、虚拟货币、金融互动和爱心慈善;
所述修改模块用于对存储词库中的关键词进行增加、修改或删除;
所述分析模块用于将待识别网站的关键词与存储词库中的关键词进行计 算,得到待识别网站属于每一类型的概率;
所述输出模块用于对待识别网站属于每一类型的概率进行显示。
由上述技术方案可知,本发明的有益效果:首先,通过对非法网站中的特 征词和URL特征进行提取,根据特征词对待识别网站中的关键词进行文本识别, 确定待识别网站中关键词与每一类型的非法网站的关键词的匹配概率,根据 URL特征计算待识别网站中URL信息的相似度,根据匹配概率和相似度,计算 待识别网站属于每一类型的概率,充分考虑特征词和URL特征之间两个方面的 因素,提高待识别网站目标锁定的准确度。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将 对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附 图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分 并不一定按照实际的比例绘制。
图1为本发明的流程图;
图2为本发明步骤S102中使用tf-idf算法计算每一类型非法网站中关键 词权重的流程图;
图3本发明的系统模块图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例 仅用于更加清楚地说明本发明的技术方案,因此只作为示例,而不能以此来限 制本发明的保护范围。
参阅图1所示,本实施例提供的一种非法网站识别和锁定方法,包括以下 步骤:
S101:关键词监控和采集,根据神经网络算法建立训练样本;
S102:特征词提取:首先,从训练样本中获取非法网站的类型,使用tf-idf 算法计算每一类型非法网站中关键词的权重,然后,对每一类型中关键词的权 重进行排序,选取权重较大的N个关键词作为该类型非法网站的特征词,最后, 对N个关键词的权重进行归一化处理;URL特征提取:首先,从训练样本中获 取非法网站的类型,然后,从训练样本中获取与非法网站类型相关的样本数据, 最后,从样本数据中提取不同非法网站类型的URL信息;
S103:对待识别网站中的关键词进行文本识别:首先,对待识别的文本进 行向量化,将文本中的关键词与每一类型的非法网站的关键词通过朴素贝叶斯 公式进行匹配计算,分别得到该文本中第i个关键词与每一类型的非法网站的关 键词的匹配概率
Figure BDA0002770461900000051
对待识别网站中的关键词进行URL信息对比:通过公式
Figure BDA0002770461900000052
将待识别网站中第i个URL信息与非法网站每一类型中第j个URL信息 分别进行相似度计算,得到待识别网站中所有URL信息与非法网站的URL信息 指间的相似度,取相似度最大的前5个相似度计算平均值并归一化,得到待识 别网站与每一类型的非法网站之间的相似度
Figure BDA0002770461900000053
其中,si,j为待识别网站中第i 个URL信息与非法网站每一类型中第j个URL信息的相似度,n为待识别网站中 第i个URL信息与非法网站每一类型中第j个URL信息中匹配的字符数;
S104:根据匹配概率
Figure BDA0002770461900000054
和相似度
Figure BDA0002770461900000055
计算待识别网站属于每一类型的概 率pj,其中,
Figure BDA0002770461900000056
ω1和ω2分别为匹配概率
Figure BDA0002770461900000057
和相似度
Figure BDA0002770461900000058
的权 重值。
在实际使用中,首先,通过对非法网站中的特征词和URL特征进行提取, 根据特征词对待识别网站中的关键词进行文本识别,确定待识别网站中关键词 与每一类型的非法网站的关键词的匹配概率,根据URL特征计算待识别网站中 URL信息的相似度,根据匹配概率和相似度,计算待识别网站属于每一类型的 概率,充分考虑特征词和URL特征之间两个方面的因素,提高待识别网站目标 锁定的准确度。
参阅图2所示,所述步骤S102中使用tf-idf算法计算每一类型非法网站 中关键词权重的过程包括:
S10201:对训练样本中的关键词进行去重,删除停用词和常用词;
S10202:针对每一非法网站的类型进行关键词重要性tfi,j统计,其中,tfi,j=ni,j/∑kni,j,ni,j是第i个关键词在文件dj中的出现次数,∑kni,j是在文件dj中 所有关键词的出现次数之和,在实际使用中,tfi,j的意义为某一个给定的词语在 该文件中出现的频率,用来表示关键词的重要性;
S10203:针对每一非法网站的类型进行关键词普遍重要性idfi的统计,其中,
Figure BDA0002770461900000061
在实际使用中,idfi是一个关键词普遍重要性 的度量;
S10204:计算每一个关键词i的重要程度tfidfi,j,其中,tfidfi,j=tfi,j×idfi,将每一类型中所有关键词的重要程度tfidfi,j进行累加,选取权重较大的N个关键词 作为该类型非法网站中的特征词。
在实际使用中,首先,对每一个关键词进行重要程度计算,然后,针对每 一类的每一个关键词进行重要程度计算,选取权重较大的N个关键词作为非法 网站的特征词,能够全面考虑非法网站中出现的所有关键词,保证在非法网站 确定过程中不遗漏关键信息。
在本实施例中,所述步骤S102和步骤S103中非法网站的类型包括非法集 资和虚拟货币类型等。
在本实施例中,所述语料库用于存储包含关键词的文件。
参阅图3所示,包括监控模块、存储词库、修改模块、分析模块和输出模 块,
所述监控模块用于对网站中的关键词进行检测,将检测到的关键词添加到 存储词库中;
所述存储词库用于存储网站中的关键词并构建训练样本,对训练样本中的 关键词进行去重,关键词的类别包括理财、众筹、私募、期权、金融创新、网 络借贷、虚拟货币、金融互动和爱心慈善等;
所述修改模块用于对存储词库中的关键词进行增加、修改或删除;
所述分析模块用于将待识别网站的关键词与存储词库中的关键词进行计 算,得到待识别网站属于每一类型的概率;
所述输出模块用于对待识别网站属于每一类型的概率进行显示,便于直观 展示待识别网站所属类型的计算结果。
在实际使用中,通过监控模块对网站中的关键词进行实时监控,将检测到 的关键词添加到存储词库中,不断丰富存储词库,另外,还可以通过手动增加、 修改或删除的方式对存储词库中的关键词进行增加和修订,不断封堵存储词库, 使存储词库的信息具有完整的特点,然后,将待识别网站的关键词与存储词库 中的关键词进行计算,得到待识别网站属于每一类型的概率,基于存储词库的 信息完善的基础上,有利于提高待识别网站属于每一类型的概率,提高目标锁 定的准确率。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其 限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术 人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者 对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相 应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明 的权利要求和说明书的范围当中。

Claims (5)

1.一种非法网站识别和锁定方法,其特征在于,包括以下步骤:
S101:关键词监控和采集,根据神经网络算法建立训练样本;
S102:特征词提取:首先,从训练样本中获取非法网站的类型,使用tf-idf算法计算每一类型非法网站中关键词的权重,然后,对每一类型中关键词的权重进行排序,选取权重较大的N个关键词作为该类型非法网站的特征词,最后,对N个关键词的权重进行归一化处理;URL特征提取:首先,从训练样本中获取非法网站的类型,然后,从训练样本中获取与非法网站类型相关的样本数据,最后,从样本数据中提取不同非法网站类型的URL信息;
S103:对待识别网站中的关键词进行文本识别:首先,对待识别的文本进行向量化,将文本中的关键词与每一类型的非法网站的关键词通过朴素贝叶斯公式进行匹配计算,分别得到该文本中第i个关键词与每一类型的非法网站的关键词的匹配概率
Figure RE-FDA0002959917220000011
对待识别网站中的关键词进行URL信息对比:通过公式
Figure RE-FDA0002959917220000012
将待识别网站中第i个URL信息与非法网站每一类型中第j个URL信息分别进行相似度计算,得到待识别网站中所有URL信息与非法网站的URL信息指间的相似度,取相似度最大的前5个相似度计算平均值并归一化,得到待识别网站与每一类型的非法网站之间的相似度
Figure RE-FDA0002959917220000013
其中,si,j为待识别网站中第i个URL信息与非法网站每一类型中第j个URL信息的相似度,n为待识别网站中第i个URL信息与非法网站每一类型中第j个URL信息中匹配的字符数;
S104:根据匹配概率
Figure RE-FDA0002959917220000014
和相似度
Figure RE-FDA0002959917220000015
计算待识别网站属于每一类型的概率pj,其中,
Figure RE-FDA0002959917220000016
ω1和ω2分别为匹配概率
Figure RE-FDA0002959917220000017
和相似度
Figure RE-FDA0002959917220000018
的权重值。
2.根据权利要求1所述的一种非法网站识别和锁定方法,其特征在于,所述步骤S102中使用tf-idf算法计算每一类型非法网站中关键词权重的过程包括:
S10201:对训练样本中的关键词进行去重,删除停用词和常用词;
S10202:针对每一非法网站的类型进行关键词重要性tfi,j统计,其中,tfi,j=ni,j/∑kni,j,ni,j是第i个关键词在文件dj中的出现次数,而分母则是在文件dj中所有关键词的出现次数之和;
S10203:针对每一非法网站的类型进行关键词普遍重要性idfi的统计,其中,
Figure RE-FDA0002959917220000021
S10204:计算每一个关键词i的重要程度tfidfi,j,其中,tfidfi,j=tfi,j×idfi,将每一类型中所有关键词的重要程度tfidfi,j进行累加,选取权重较大的N个关键词作为该类型非法网站中的特征词。
3.根据权利要求1所述的一种非法网站识别和锁定方法,其特征在于,所述步骤S102和步骤S103中非法网站的类型包括非法集资和虚拟货币类型。
4.根据权利要求2所述的一种非法网站识别和锁定方法,其特征在于,所述语料库用于存储包含关键词的文件。
5.根据权利要求1-4任意一项所述的一种非法网站识别和锁定方法,其特征在于,包括监控模块、存储词库、修改模块、分析模块和输出模块,
所述监控模块用于对网站中的关键词进行检测,将检测到的关键词添加到存储词库中;
所述存储词库用于存储网站中的关键词并构建训练样本,对训练样本中的关键词进行去重,关键词的类别包括理财、众筹、私募、期权、金融创新、网络借贷、虚拟货币、金融互动和爱心慈善;
所述修改模块用于对存储词库中的关键词进行增加、修改或删除;
所述分析模块用于将待识别网站的关键词与存储词库中的关键词进行计算,得到待识别网站属于每一类型的概率;
所述输出模块用于对待识别网站属于每一类型的概率进行显示。
CN202011247322.8A 2020-11-10 2020-11-10 一种非法网站识别和锁定方法 Pending CN112667943A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011247322.8A CN112667943A (zh) 2020-11-10 2020-11-10 一种非法网站识别和锁定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011247322.8A CN112667943A (zh) 2020-11-10 2020-11-10 一种非法网站识别和锁定方法

Publications (1)

Publication Number Publication Date
CN112667943A true CN112667943A (zh) 2021-04-16

Family

ID=75404081

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011247322.8A Pending CN112667943A (zh) 2020-11-10 2020-11-10 一种非法网站识别和锁定方法

Country Status (1)

Country Link
CN (1) CN112667943A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744981A (zh) * 2014-01-14 2014-04-23 南京汇吉递特网络科技有限公司 一种基于网站内容用于网站自动分类分析的系统
CN104615760A (zh) * 2015-02-13 2015-05-13 北京瑞星信息技术有限公司 钓鱼网站识别方法和系统
CN108804651A (zh) * 2018-06-07 2018-11-13 南京邮电大学 一种基于强化贝叶斯分类的社交行为检测方法
WO2019148712A1 (zh) * 2018-01-30 2019-08-08 平安科技(深圳)有限公司 钓鱼网站检测方法、装置、计算机设备和存储介质
CN111078979A (zh) * 2019-11-29 2020-04-28 上海观安信息技术股份有限公司 一种基于ocr和文本处理技术识别网贷网站的方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744981A (zh) * 2014-01-14 2014-04-23 南京汇吉递特网络科技有限公司 一种基于网站内容用于网站自动分类分析的系统
CN104615760A (zh) * 2015-02-13 2015-05-13 北京瑞星信息技术有限公司 钓鱼网站识别方法和系统
WO2019148712A1 (zh) * 2018-01-30 2019-08-08 平安科技(深圳)有限公司 钓鱼网站检测方法、装置、计算机设备和存储介质
CN108804651A (zh) * 2018-06-07 2018-11-13 南京邮电大学 一种基于强化贝叶斯分类的社交行为检测方法
CN111078979A (zh) * 2019-11-29 2020-04-28 上海观安信息技术股份有限公司 一种基于ocr和文本处理技术识别网贷网站的方法及系统

Similar Documents

Publication Publication Date Title
CN108520343B (zh) 风险模型训练方法、风险识别方法、装置、设备及介质
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN110738039B (zh) 一种案件辅助信息的提示方法、装置、存储介质和服务器
EP3642766A1 (en) Machine-learning system for servicing queries for digital content
CN111222976A (zh) 一种基于双方网络图数据的风险预测方法、装置和电子设备
WO2021098651A1 (zh) 一种风险实体获取方法及装置
CN116361815B (zh) 基于机器学习的代码敏感信息及硬编码检测方法及装置
CN110728142A (zh) 一种流水文件识别方法、装置及计算机存储介质、电子设备
CN110929525A (zh) 一种网贷风险行为分析检测方法、装置、设备和存储介质
CN115577172A (zh) 物品推荐方法、装置、设备及介质
CN111915218A (zh) 基于lstm-cnn的财务造假识别方法及系统
CN113887202A (zh) 文本纠错方法、装置、计算机设备及存储介质
Li et al. automatically detecting peer-to-peer lending intermediary risk—Top management team profile textual features perspective
CN113378090A (zh) 一种互联网网站相似度分析方法、装置以及可读存储介质
CN112199480A (zh) 一种基于bert模型的在线对话日志违规检测方法及系统
CN112801784A (zh) 一种数字货币交易所的比特币地址挖掘方法及装置
CN111915312A (zh) 风险识别方法及装置和电子设备
CN115345727B (zh) 一种识别欺诈贷款申请的方法及装置
Pak et al. Shock waves of political risk on the stock market: The case of Korean companies in the US
CN112667943A (zh) 一种非法网站识别和锁定方法
CN115618297A (zh) 识别异常企业的方法及其装置
CN115471258A (zh) 一种违规行为检测方法、装置、电子设备及存储介质
CN101436210B (zh) 一种识别假冒网页的方法及系统
CN114579711A (zh) 诈骗应用程序的识别方法、装置、设备及存储介质
CN110766091B (zh) 一种套路贷团伙的识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination