CN115186263A - 一种反非法诱导活动方法、系统及存储介质 - Google Patents
一种反非法诱导活动方法、系统及存储介质 Download PDFInfo
- Publication number
- CN115186263A CN115186263A CN202210836496.0A CN202210836496A CN115186263A CN 115186263 A CN115186263 A CN 115186263A CN 202210836496 A CN202210836496 A CN 202210836496A CN 115186263 A CN115186263 A CN 115186263A
- Authority
- CN
- China
- Prior art keywords
- data
- illegal
- website
- reputation
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000694 effects Effects 0.000 title claims abstract description 164
- 238000000034 method Methods 0.000 title claims abstract description 64
- 230000003068 static effect Effects 0.000 claims abstract description 41
- 238000005516 engineering process Methods 0.000 claims abstract description 23
- 230000001939 inductive effect Effects 0.000 claims abstract description 21
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 230000006698 induction Effects 0.000 claims description 51
- 230000005540 biological transmission Effects 0.000 claims description 19
- 238000012015 optical character recognition Methods 0.000 claims description 16
- 230000008447 perception Effects 0.000 claims description 16
- 238000010186 staining Methods 0.000 claims description 9
- 230000002159 abnormal effect Effects 0.000 claims description 7
- 230000002265 prevention Effects 0.000 claims description 7
- 238000003909 pattern recognition Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 230000003111 delayed effect Effects 0.000 claims description 5
- 230000001902 propagating effect Effects 0.000 claims 1
- 238000004458 analytical method Methods 0.000 description 26
- 230000006399 behavior Effects 0.000 description 15
- 238000010801 machine learning Methods 0.000 description 14
- 238000011156 evaluation Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000004043 dyeing Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Virology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种反非法诱导活动方法、系统及存储介质,其中方法包括:利用静态内容爬虫技术及动态Webkit蜜罐技术分别采集网址页面静态数据及动态数据;对所采集的数据进行预处理,并对预处理后的数据进行特征提取;采集URL维度数据及社交维度数据,并利用提取的特征、URL维度数据及社交维度数据构建网址信誉度模型。本发明利用静态内容爬虫技术及动态Webkit蜜罐技术分别采集网址页面静态数据及动态数据,数据较为全面,以此为基础进行数据预处理及特征提取,而后结合URL维度数据及社交维度数据进行网址信誉度模型构建,提高了所构建模型的准确度,进而提高了反非法诱导活动效果。
Description
技术领域
本发明涉及反非法诱导活动技术领域,尤其涉及的是一种反非法诱导活动方法、系统及存储介质。
背景技术
对于反非法诱导活动工作而言,从涉非法诱导活动大数据中提取准确的非法诱导活动行为特征极为重要,申请公布号CN108156336A的发明专利申请公开了基于多特征加权模型分析话单号码的控制系统,包括:数据源,用于提供主叫号码、被叫号码和号码通话详情记录;号码特征分析模块,号码特征分析模块与数据源相连,号码特征分析模块用于分析主叫号码的行为特征和被叫号码的行为特征,并得到号码行为特征话单;非法诱导活动主叫分析模块,非法诱导活动主叫分析模块与号码特征分析模块、数据源相连,在非法诱导活动主叫分析模块内设有多特征加权模型模块,多特征加权模型模块包括属性特征分析模块、行为特征分析模块、非法诱导活动场景分析模块、属性特征分析模块、行为特征分析模块、非法诱导活动场景分析模块用于实现对号码行为特征话单中的号码进行多特征匹配,根据多特征匹配信息获得普通主叫号码和非法诱导活动主叫号码;易感被叫分析模块,易感被叫分析模块与非法诱导活动主叫分析模块、数据源相连,易感被叫分析模块用于分析非法诱导活动主叫号码和被叫号码的通话规律并获得被叫号码中的易感被叫号码和普通被叫号码。
CN108156333A所公开的防止非法诱导活动的控制系统虽然可以从属性特征、行为特征及非法诱导活动场景特征多个维度对电话非法诱导活动的非法诱导活动人员身份进行识别,但对于当前利用多方工具且以网络为主的非法诱导活动方式而言,反非法诱导活动效果较差。
申请公布号为CN113098870A的发明专利申请公开了一种网络非法诱导活动检测方法、装置、电子设备及存储介质,其中方法包括:获取目标网络非法诱导活动案件中,受害人在案件过程中的历史网络交互数据,其中,所述目标网络非法诱导活动案件为长时、多线上交互类型的非法诱导活动案件;对各所述目标网络非法诱导活动案件的历史网络交互数据进行特征抽取,形成与至少一个历史非法诱导活动网站匹配的网站特征信息库;获取至少一个监控用户在监控时间区间内的网络访问数据;将所述网络访问数据与所述网站特征信息库进行比对,检测在监控时间区间内访问疑似非法诱导活动网站次数超过设定门限阈值的疑似受害用户;其中,所述疑似非法诱导活动网站与所述历史非法诱导活动网站的网站特征信息满足预设的相似条件。
CN113098870A所公开的网络非法诱导活动检测方法虽然可以从历史网络交互数据中对网站非法诱导活动特征进行提取,但数据较为单一,特征提取准确度相对较低,对于当前利用多方工具且以网络为主的非法诱导活动方式而言,反非法诱导活动效果同样较差。
可见,现有技术还有待于改进和发展。
发明内容
鉴于上述现有技术的不足,本发明的目的在于提供一种反非法诱导活动方法、系统及存储介质,旨在解决现有技术对当前利用多方工具且以网络为主的非法诱导活动方式而言,反非法诱导活动效果较差的问题。
本发明的技术方案如下:
一种反非法诱导活动方法,其包括:
利用静态内容爬虫技术及动态Webkit蜜罐技术分别采集网址页面静态数据及动态数据,网址页面静态数据包括:文本信息、静态图片信息及跳转链接,网址页面动态数据包括:动态图片信息、JS内容及SWF内容;
对所采集的数据进行预处理,并对预处理后的文本信息进行黑白关键词提取及文本SIM Hash指纹特征提取,对预处理后的图片信息进行OCR模式识别特征提取及pHash相似度提取,对预处理后的JS内容进行静态指纹特征提取,对预处理后的SWF内容进行SWF特征提取;
采集URL维度数据,并利用提取的特征及URL维度数据构建网址信誉度模型;所述URL维度数据包括:URL特征标签、用户标记标签、域名历史信誉、Web服务器信誉、Whois信息信誉、网站备案信息、PR或ALEX信息。
上述方案的效果在于:对于一个网页而言,包含以下元素:文本、静态图片(JPG及PNG等)、动态图片(GIF及SVG等)、跳转链接(导航栏等)、JS内容(JavaScript是一种基于对象和事件驱动并具有相对安全性的客户端脚本语言,同时也是一种广泛用于客户端Web开发的脚本语言,常用来给HTML网页添加动态功能,比如响应用户的各种操作)及SWF内容(SWF是动画设计软件Flash的专用格式,是一种支持矢量和点阵图形的动画文件格式,被广泛应用于网页设计,动画制作等领域,swf文件通常也被称为Flash文件)。本发明利用静态内容爬虫技术及动态Webkit蜜罐技术分别采集网址页面静态数据及动态数据,对于同一网页的内容而言,采集的数据较为全面;但对于非法诱导活动行为而言,通常是跨页面操作的,在实现页面之间跳转的时候,经常要使用一些URL,因此本发明还采集URL维度数据,结合网页静态内容、动态内容所提取的特征及URL维度数据进行网址信誉度模型构建,提高了所构建模型的准确度,提高了非法诱导活动行为识别的准确度,进而提高了反非法诱导活动效果。
在进一步地优选方案中,所述采集URL维度数据,并利用提取的特征及URL维度数据构建网址信誉度模型的步骤具体为:采集URL维度数据及网页传播数据,并利用提取的特征、URL维度数据及网页传播数据构建网址信誉度模型。
上述方案的效果在于:当前的非法诱导活动方式多数利用多方工具且以网络为主,因此网页在社交软件的传播数据对于网址信誉度模型的构建较为关键,本发明利用网页传播数据对网址信誉度模型进行辅助性构建,进一步提高了所构建模型的准确度,提高了非法诱导活动行为识别的准确度。
在进一步地优选方案中,所述网页传播数据包括:网页传播设备信誉数据、IPC信誉数据、网页传播热度及网页传播广度。
上述方案的效果在于:IPC(Internet Content Provider,即网络内容提供商),网页传播设备信誉、IPC信誉、传播热度及传播广度是网页传播数据的几个重要因素,本发明采集这几个方面的数据可解决网页本身数据不足以构建高准确度网址信誉度模型的问题。
在进一步地优选方案中,所述采集URL维度数据及网页传播数据,并利用提取的特征、URL维度数据及网页传播数据构建网址信誉度模型的步骤具体为:采集URL维度数据、网页传播数据及网页信誉数据,并利用提取的特征、URL维度数据、网页传播数据及网页信誉数据构建网址信誉度模型。
上述方案的效果在于:非法诱导活动群体通常先电话群呼撒网,而后添加受害者社交软件账号,通过社交软件播放语音给受害者洗脑,最后发送虚假链接完成非法诱导;整个过程涉及到的作案工具有:电话/虚拟电话、社交软件及虚假链接多方工具,因此本发明还采用网页信誉数据对网址信誉度模型进行辅助性构建,进一步提高了所构建模型的准确度,提高了非法诱导活动行为识别的准确度。
在进一步地优选方案中,所述网页信誉数据包括:垃圾短信、Spam邮件、恶意PE、恶意APK、非法诱导活动电话及IM垃圾消息。
上述方案的效果在于:统计垃圾短信、Spam邮件、恶意PE、恶意APK、非法诱导活动电话及IM垃圾消息中的网页信息,可以从涉非法诱导活动信息中提取网页数据,进而评估网页的信誉度,对网址信誉度模型进行辅助性构建,进一步提高了所构建模型的准确度,提高了非法诱导活动行为识别的准确度。
在进一步地优选方案中,所述采集URL维度数据,并利用提取的特征及URL维度数据构建网址信誉度模型的步骤之后还包括:构建涉非法诱导活动样本库及白样本库,并利用网址信誉度模型对网址页面进行信誉度进行评估,将信誉度高于第一阈值的网址页面添加至白样本库,将信誉度低于第二阈值的网址页面添加至涉非法诱导活动样本库。
上述方案的效果在于:评估网址页面的信誉度将其添加至涉非法诱导活动样本库或者白样本库,在后续反非法诱导活动工作中,可以根据存储的评估结果判断用户所访问的是否为涉非法诱导活动网址,从而判断用户正在被非法诱导活动。
在进一步地优选方案中,所述利用静态内容爬虫技术及动态Webkit蜜罐技术分别采集网址页面静态数据及动态数据的步骤之前包括:构建机器学习算法库及实时计算系统,所述机器学习算法库内存储有算法如下:Bayes Classifier、Logistic Regression、Support Vector Machine、Decision Tree及K-Nearest Neighbor;所述实时计算系统包括:机器学习实时训练模型、在线评估体系及机器学习实时查杀模型;
所述对所采集的数据进行预处理,并对预处理后的文本信息进行黑白关键词提取及文本SIM Hash指纹特征提取,对预处理后的图片信息进行OCR模式识别特征提取及pHash相似度提取,对预处理后的JS内容进行静态指纹特征提取,对预处理后的SWF内容进行SWF特征提取的步骤之后还包括:对所采集的数据进行预处理,根据实时计算系统从构建的学习算法库中,匹配算法对预处理后的文本信息进行黑白关键词提取及文本SIM Hash指纹特征提取,对预处理后的图片信息进行OCR模式识别特征提取及pHash相似度提取,对预处理后的JS内容进行静态指纹特征提取,对预处理后的SWF内容进行SWF特征提取。
上述方案的效果在于:本发明构建基于海量样本库的机器学习模型(机器学习实时训练模型、在线评估体系及机器学习实时查杀模型),依托于大数据平台,最终目的是建立实时更新的黑白样本库(涉非法诱导活动样本库及白样本库),以在不同的应用场景下及在处理不同数据时,基于海量数据的样本库可以不断调整和适配算法,最终选取合适的算法,保证特征提取的精准度,进一步提高了所构建模型的准确度。
在进一步地优选方案中,所述构建涉非法诱导活动样本库及白样本库,并利用网址信誉度模型对网址页面进行信誉度进行评估,将信誉度高于第一阈值的网址页面添加至白样本库,将信誉度低于第二阈值的网址页面添加至涉非法诱导活动样本库的步骤之后还包括:进行网络非法诱导活动的钓鱼态势感知并构建疫情感知模型,所述钓鱼态势感知包括:钓鱼活跃区域感知、钓鱼手法分析、钓鱼非法活动群体分析及钓鱼受灾用户群体分析,所述疫情感知模型包括:站点染色模型、传播链条染色模型及异常特征染色模型。
上述方案的效果在于:活跃区域感知可以帮助反非法诱导活动执法人员了解钓鱼非法诱导活动的主要位置,手法分析则可以帮助反非法诱导活动执法人员了解非法诱导活动分子如何进行钓鱼非法诱导,非法诱导活动者群体分析可以帮助反非法诱导活动执法人员了解潜在受害者是那些人,受灾用户群体分析可以帮助反非法诱导活动执法人员了解曾经受骗的受害者是哪些人,从而进行有效的防范。异常特征染色模型可以挖掘尚未进行信誉度评估的网址所存在的异常情况,传播链条染色模型可以感知潜在的非法诱导活动网址传播过程,站点染色模型可以感知潜在的非法诱导活动网址,为反非法诱导活动执法人员搜集非法诱导活动证据及挖掘非法诱导活动分子身份提供支撑。
在进一步地优选方案中,所述构建涉非法诱导活动样本库及白样本库,并利用网址信誉度模型对网址页面进行信誉度进行评估,将信誉度高于第一阈值的网址页面添加至白样本库,将信誉度低于第二阈值的网址页面添加至涉非法诱导活动样本库的步骤之后还包括:构建在线聚类系统、实时防误报系统、延迟打击模型及法务打击聚类系统。
上述方案的效果在于:依次使用构建的在线聚类系统、实时防误报系统、延迟打击模型及法务打击聚类系统,可以直接且快速的进行非法诱导活动精准打击,提高了反非法诱导活动工作的工作效率。
一种用于实现反非法诱导活动方法的系统,其包括存储器及处理器,所述存储器用于存储反非法诱导活动程序,所述处理器用于运行所述反非法诱导活动程序以实现如上所述的反非法诱导活动方法。
一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的反非法诱导活动方法的步骤。所述存储介质包括上述反非法诱导活动方法的所有技术特征,因此也具有上述反非法诱导活动方法的所有技术效果,不再赘述。
与现有技术相比,本发明提供的反非法诱导活动方法,包括:利用静态内容爬虫技术及动态Webkit蜜罐技术分别采集网址页面静态数据及动态数据,所述网址页面静态数据包括:文本信息、图片信息及跳转链接,网址页面动态数据包括:JS内容及SWF内容;对所采集的数据进行预处理,并对预处理后的文本信息进行黑白关键词提取及文本SIM Hash指纹特征提取,对预处理后的图片信息进行OCR模式识别提取及pHash相似度提取,对预处理后的JS内容进行静态指纹特征判断,对预处理后的SWF内容进行SWF特征提取;采集URL维度数据及社交维度数据,并利用提取的特征、URL维度数据及社交维度数据构建网址信誉度模型。本发明利用静态内容爬虫技术及动态Webkit蜜罐技术分别采集网址页面静态数据及动态数据,数据较为全面,以此为基础进行数据预处理及特征提取,而后结合URL维度数据及社交维度数据进行网址信誉度模型构建,提高了所构建模型的准确度,进而提高了反非法诱导活动效果。
附图说明
图1是本发明较佳实施例中反非法诱导活动方法的流程图。
具体实施方式
本发明提供一种反非法诱导活动方法、系统及存储介质,为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供了一种反非法诱导活动方法,如图1所示,其包括:
S100、利用静态内容爬虫技术及动态Webkit蜜罐技术分别采集网址页面静态数据及动态数据,网址页面静态数据包括:文本信息、静态图片信息及跳转链接,网址页面动态数据包括:动态图片信息、JS内容及SWF内容。WebKit是一个开源的浏览器引擎,蜜罐技术好比是情报收集系统,易于使用,仅捕获有限的信息。
对于一个网页而言,包含以下元素:文本、静态图片(JPG及PNG等)、动态图片(GIF及SVG等)、跳转链接(导航栏等)、JS内容(JS即JavaScript,是一种基于对象和事件驱动并具有相对安全性的客户端脚本语言,同时也是一种广泛用于客户端Web开发的脚本语言,常用来给HTML网页添加动态功能,比如响应用户的各种操作)及SWF内容(SWF是动画设计软件Flash的专用格式,是一种支持矢量和点阵图形的动画文件格式,被广泛应用于网页设计,动画制作等领域,SWF文件通常也被称为Flash文件)。
S200、对所采集的数据进行预处理,并对预处理后的文本信息进行黑白关键词提取及文本SIM Hash指纹特征提取,对预处理后的图片信息进行OCR模式识别特征提取及pHash相似度提取,对预处理后的JS内容进行静态指纹特征提取,对预处理后的SWF内容进行SWF特征提取。
在本发明进一步地较佳实施例中,所述S100的步骤之前包括:构建机器学习算法库及实时计算系统,所述机器学习算法库内存储有算法如下:Bayes Classifier(即贝叶斯分类器算法)、Logistic Regression(即逻辑回归算法)、Support Vector Machine(即支持向量机算法)、Decision Tree(即决策树算法)及K-Nearest Neighbor(即K近邻算法);所述实时计算系统包括:机器学习实时训练模型、在线评估体系及机器学习实时查杀模型。
所述S200之后还包括:对所采集的数据进行预处理,根据实时计算系统从构建的学习算法库中,匹配算法对预处理后的文本信息进行黑白关键词提取及文本SIM Hash指纹特征提取,对预处理后的图片信息进行OCR模式识别特征提取及pHash相似度提取,对预处理后的JS内容进行静态指纹特征提取,对预处理后的SWF内容进行SWF特征提取。
黑白关键词包括:黑关键词(即涉非法诱导活动关键词)及白关键词,SIM Hash作为locality sensitive hash(局部敏感哈希)的一种,其主要思想是降维,将高维的特征向量映射成低维的特征向量,通过两个向量的汉明距离来确定文章是否重复或者高度近似。OCR(Optical Character Recognition,即光学字符识别),是通过图像处理和模式识别技术对光学的字符进行识别的意思;pHash相似度即利用图像感知算法计算图片相似度。
本发明构建基于海量样本库的机器学习模型(机器学习实时训练模型、在线评估体系及机器学习实时查杀模型),依托于大数据平台,最终目的是建立实时更新的黑白样本库(涉非法诱导活动样本库及白样本库),以在不同的应用场景下及在处理不同数据时,基于海量数据的样本库可以不断调整和适配算法,最终选取合适的算法,保证特征提取的精准度,进一步提高了所构建模型的准确度。
在具体实施时,所述构建涉非法诱导活动样本库及白样本库,并利用网址信誉度模型对网址页面进行信誉度进行评估,将信誉度高于第一阈值的网址页面添加至白样本库,将信誉度低于第二阈值的网址页面添加至涉非法诱导活动样本库的步骤之后还包括:进行网络非法诱导活动的钓鱼态势感知并构建疫情感知模型,所述钓鱼态势感知包括:钓鱼活跃区域感知、钓鱼手法分析、钓鱼非法活动群体分析及钓鱼受灾用户群体分析,所述疫情感知模型包括:站点染色模型、传播链条染色模型及异常特征染色模型。活跃区域感知可以帮助反非法诱导活动执法人员了解钓鱼非法诱导活动的主要位置,手法分析则可以帮助反非法诱导活动执法人员了解非法诱导活动分子如何进行钓鱼非法诱导活动,非法诱导活动者群体分析可以帮助反非法诱导活动执法人员了解潜在受害者是那些人,受灾用户群体分析可以帮助反非法诱导活动执法人员了解曾经受骗的受害者是哪些人,从而进行有效的防范。异常特征染色模型可以挖掘尚未进行信誉度评估的网址所存在的异常情况,传播链条染色模型可以感知潜在的非法诱导活动网址传播过程,站点染色模型可以感知潜在的非法诱导活动网址,为反非法诱导活动执法人员搜集非法诱导活动证据及挖掘非法诱导活动分子身份提供支撑。
S300、采集URL维度数据,并利用提取的特征及URL维度数据构建网址信誉度模型;所述URL维度数据包括:URL特征标签、用户标记标签、域名历史信誉、Web服务器信誉、Whois信息信誉、网站备案信息、PR或ALEX信息。Whois简单来说,就是一个用来查询域名是否已经被注册,以及注册域名的详细信息的数据库(如域名所有人、域名注册商、域名注册日期和过期日期等);PR(PageRank),网页排名,又称网页级别,是一种由搜索引擎根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一;ALEX信息即网站浏览率统计及世界排名。
本发明利用静态内容爬虫技术及动态Webkit蜜罐技术分别采集网址页面静态数据及动态数据,对于同一网页的内容而言,采集的数据较为全面;但对于非法诱导活动行为而言,通常是跨页面操作的,在实现页面之间跳转的时候,经常要使用一些URL,因此本发明还采集URL维度数据,结合网页静态内容、动态内容所提取的特征及URL维度数据进行网址信誉度模型构建,提高了所构建模型的准确度,提高了非法诱导活动行为识别的准确度,进而提高了反非法诱导活动效果。
进一步地,所述S300的步骤具体为:采集URL维度数据及网页传播数据,并利用提取的特征、URL维度数据及网页传播数据构建网址信誉度模型。当前的非法诱导活动方式多数利用多方工具且以网络为主,因此网页在社交软件的传播数据对于网址信誉度模型的构建较为关键,本发明利用网页传播数据对网址信誉度模型进行辅助性构建,进一步提高了所构建模型的准确度,提高了非法诱导活动行为识别的准确度。
在具体实施时,所述网页传播数据包括:网页传播设备信誉数据、IPC信誉数据、网页传播热度及网页传播广度。IPC(Internet Content Provider,即网络内容提供商),网页传播设备信誉、IPC信誉、传播热度及传播广度是网页传播数据的几个重要因素,本发明采集这几个方面的数据可解决网页本身数据不足以构建高准确度网址信誉度模型的问题。
更近一步地,所述S300具体为:采集URL维度数据、网页传播数据及网页信誉数据,并利用提取的特征、URL维度数据、网页传播数据及网页信誉数据构建网址信誉度模型。本发明还采用网页信誉数据对网址信誉度模型进行辅助性构建,进一步提高了所构建模型的准确度,提高了非法诱导活动行为识别的准确度。
在具体实施时,所述网页信誉数据包括:垃圾短信、Spam邮件、恶意PE、恶意APK、非法诱导活动电话及IM垃圾消息。统计垃圾短信、Spam邮件、恶意PE、恶意APK、非法诱导活动电话及IM垃圾消息中的网页信息,可以从涉非法诱导活动信息中提取网页数据,进而评估网页的信誉度,对网址信誉度模型进行辅助性构建,进一步提高了所构建模型的准确度,提高了非法诱导活动行为识别的准确度。
较佳地是,所述S300之后还包括:构建涉非法诱导活动样本库及白样本库,并利用网址信誉度模型对网址页面进行信誉度进行评估,将信誉度高于第一阈值的网址页面添加至白样本库,将信誉度低于第二阈值的网址页面添加至涉非法诱导活动样本库。评估网址页面的信誉度将其添加至涉非法诱导活动样本库或者白样本库,在后续反非法诱导活动工作中,可以根据存储的评估结果判断用户所访问的是否为涉非法诱导活动网址,从而判断用户正在被非法诱导活动。
进一步地,所述构建涉非法诱导活动样本库及白样本库,并利用网址信誉度模型对网址页面进行信誉度进行评估,将信誉度高于第一阈值的网址页面添加至白样本库,将信誉度低于第二阈值的网址页面添加至涉非法诱导活动样本库的步骤之后还包括:构建在线聚类系统、实时防误报系统、延迟打击模型及法务打击聚类系统。依次使用构建的在线聚类系统、实时防误报系统、延迟打击模型及法务打击聚类系统,可以直接且快速的进行非法诱导活动精准打击,提高了反非法诱导活动工作的工作效率。
一种用于实现反非法诱导活动方法的系统,其包括存储器及处理器,所述存储器用于存储反非法诱导活动程序,所述处理器用于运行所述反非法诱导活动程序以实现如上所述的反非法诱导活动方法。
一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的反非法诱导活动方法的步骤。所述存储介质包括上述反非法诱导活动方法的所有技术特征,因此也具有上述反非法诱导活动方法的所有技术效果,不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(SyNchliNk)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。
Claims (10)
1.一种反非法诱导活动方法,其特征在于,包括:
利用静态内容爬虫技术及动态Webkit蜜罐技术分别采集网址页面静态数据及动态数据,网址页面静态数据包括:文本信息、静态图片信息及跳转链接,网址页面动态数据包括:动态图片信息、JS内容及SWF内容;
对所采集的数据进行预处理,并对预处理后的文本信息进行黑白关键词提取及文本SIM Hash指纹特征提取,对预处理后的图片信息进行OCR模式识别特征提取及pHash相似度提取,对预处理后的JS内容进行静态指纹特征提取,对预处理后的SWF内容进行SWF特征提取;
采集URL维度数据,并利用提取的特征及URL维度数据构建网址信誉度模型;所述URL维度数据包括:URL特征标签、用户标记标签、域名历史信誉、Web服务器信誉、Whois信息信誉、网站备案信息、PR或ALEX信息。
2.根据权利要求1所述的反非法诱导活动方法,其特征在于,所述采集URL维度数据,并利用提取的特征及URL维度数据构建网址信誉度模型的步骤具体为:采集URL维度数据及网页传播数据,并利用提取的特征、URL维度数据及网页传播数据构建网址信誉度模型。
3.根据权利要求2所述的反非法诱导活动方法,其特征在于,所述网页传播数据包括:网页传播设备信誉数据、IPC信誉数据、网页传播热度及网页传播广度。
4.根据权利要求3所述的反非法诱导活动方法,其特征在于,所述采集URL维度数据及网页传播数据,并利用提取的特征、URL维度数据及网页传播数据构建网址信誉度模型的步骤具体为:采集URL维度数据、网页传播数据及网页信誉数据,并利用提取的特征、URL维度数据、网页传播数据及网页信誉数据构建网址信誉度模型。
5.根据权利要求4所述的反非法诱导活动方法,其特征在于,所述网页信誉数据包括:垃圾短信、Spam邮件、恶意PE、恶意APK、非法诱导活动电话及IM垃圾消息。
6.根据权利要求1所述的反非法诱导活动方法,其特征在于,所述采集URL维度数据,并利用提取的特征及URL维度数据构建网址信誉度模型的步骤之后还包括:构建涉非法诱导活动样本库及白样本库,并利用网址信誉度模型对网址页面进行信誉度进行评估,将信誉度高于第一阈值的网址页面添加至白样本库,将信誉度低于第二阈值的网址页面添加至涉非法诱导活动样本库。
7.根据权利要求6所述的反非法诱导活动方法,其特征在于,所述构建涉非法诱导活动样本库及白样本库,并利用网址信誉度模型对网址页面进行信誉度进行评估,将信誉度高于第一阈值的网址页面添加至白样本库,将信誉度低于第二阈值的网址页面添加至涉非法诱导活动样本库的步骤之后还包括:进行网络非法诱导活动的钓鱼态势感知并构建疫情感知模型,所述钓鱼态势感知包括:钓鱼活跃区域感知、钓鱼手法分析、钓鱼非法活动群体分析及钓鱼受灾用户群体分析,所述疫情感知模型包括:站点染色模型、传播链条染色模型及异常特征染色模型。
8.根据权利要求7所述的反非法诱导活动方法,其特征在于,所述构建涉非法诱导活动样本库及白样本库,并利用网址信誉度模型对网址页面进行信誉度进行评估,将信誉度高于第一阈值的网址页面添加至白样本库,将信誉度低于第二阈值的网址页面添加至涉非法诱导活动样本库的步骤之后还包括:构建在线聚类系统、实时防误报系统、延迟打击模型及法务打击聚类系统。
9.一种用于实现反非法诱导活动方法的系统,其特征在于,包括存储器及处理器,所述存储器用于存储反非法诱导活动程序,所述处理器用于运行所述反非法诱导活动程序以实现如权利要求1至8中任意一项所述的反非法诱导活动方法。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8中任意一项所述的反非法诱导活动方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210836496.0A CN115186263B (zh) | 2022-07-15 | 2022-07-15 | 一种反非法诱导活动方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210836496.0A CN115186263B (zh) | 2022-07-15 | 2022-07-15 | 一种反非法诱导活动方法、系统及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115186263A true CN115186263A (zh) | 2022-10-14 |
CN115186263B CN115186263B (zh) | 2024-08-06 |
Family
ID=83520137
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210836496.0A Active CN115186263B (zh) | 2022-07-15 | 2022-07-15 | 一种反非法诱导活动方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115186263B (zh) |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7536389B1 (en) * | 2005-02-22 | 2009-05-19 | Yahoo ! Inc. | Techniques for crawling dynamic web content |
CN101820366A (zh) * | 2010-01-27 | 2010-09-01 | 南京邮电大学 | 一种基于预取的钓鱼网页检测方法 |
US20110131652A1 (en) * | 2009-05-29 | 2011-06-02 | Autotrader.Com, Inc. | Trained predictive services to interdict undesired website accesses |
CN102413076A (zh) * | 2011-12-22 | 2012-04-11 | 网易(杭州)网络有限公司 | 基于行为分析的垃圾邮件判定系统 |
US20120158626A1 (en) * | 2010-12-15 | 2012-06-21 | Microsoft Corporation | Detection and categorization of malicious urls |
CN102833233A (zh) * | 2012-08-06 | 2012-12-19 | 北京奇虎科技有限公司 | 一种识别网站页面的方法和装置 |
US20150067853A1 (en) * | 2013-08-27 | 2015-03-05 | Georgia Tech Research Corporation | Systems and methods for detecting malicious mobile webpages |
CN104766014A (zh) * | 2015-04-30 | 2015-07-08 | 安一恒通(北京)科技有限公司 | 用于检测恶意网址的方法和系统 |
US20160044054A1 (en) * | 2014-08-06 | 2016-02-11 | Norse Corporation | Network appliance for dynamic protection from risky network activities |
EP3051479A1 (en) * | 2015-01-27 | 2016-08-03 | Sensi Soft Sp. z o.o. | Information technology system for the collection and sharing of information on fraud when making transactions on the web, and a method for collecting and processing, and make such information available |
CN107862050A (zh) * | 2017-11-08 | 2018-03-30 | 国网四川省电力公司信息通信公司 | 一种网站内容安全检测系统及方法 |
CN109657470A (zh) * | 2018-12-27 | 2019-04-19 | 北京天融信网络安全技术有限公司 | 恶意网页检测模型训练方法、恶意网页检测方法及系统 |
CN110633466A (zh) * | 2019-08-26 | 2019-12-31 | 深圳安巽科技有限公司 | 基于语义分析的短信犯罪识别方法、系统和可读存储介质 |
CN111278014A (zh) * | 2019-12-31 | 2020-06-12 | 中移(杭州)信息技术有限公司 | 一种防诈骗系统、方法、服务器及存储介质 |
US20210203693A1 (en) * | 2019-12-27 | 2021-07-01 | Paypal, Inc. | Phishing detection based on modeling of web page content |
CN114037460A (zh) * | 2021-11-25 | 2022-02-11 | 深圳安巽科技有限公司 | 一种综合反诈平台、方法及存储介质 |
CN114430333A (zh) * | 2021-11-25 | 2022-05-03 | 深圳安巽科技有限公司 | 应对非法诱导占有活动的反诈系统、方法及存储介质 |
CN114722323A (zh) * | 2022-01-25 | 2022-07-08 | 上海博弋信息科技有限公司 | 一种基于网页内容安全审查的系统及方法 |
-
2022
- 2022-07-15 CN CN202210836496.0A patent/CN115186263B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7536389B1 (en) * | 2005-02-22 | 2009-05-19 | Yahoo ! Inc. | Techniques for crawling dynamic web content |
US20110131652A1 (en) * | 2009-05-29 | 2011-06-02 | Autotrader.Com, Inc. | Trained predictive services to interdict undesired website accesses |
CN101820366A (zh) * | 2010-01-27 | 2010-09-01 | 南京邮电大学 | 一种基于预取的钓鱼网页检测方法 |
US20120158626A1 (en) * | 2010-12-15 | 2012-06-21 | Microsoft Corporation | Detection and categorization of malicious urls |
CN102413076A (zh) * | 2011-12-22 | 2012-04-11 | 网易(杭州)网络有限公司 | 基于行为分析的垃圾邮件判定系统 |
CN102833233A (zh) * | 2012-08-06 | 2012-12-19 | 北京奇虎科技有限公司 | 一种识别网站页面的方法和装置 |
US20150067853A1 (en) * | 2013-08-27 | 2015-03-05 | Georgia Tech Research Corporation | Systems and methods for detecting malicious mobile webpages |
US20160044054A1 (en) * | 2014-08-06 | 2016-02-11 | Norse Corporation | Network appliance for dynamic protection from risky network activities |
EP3051479A1 (en) * | 2015-01-27 | 2016-08-03 | Sensi Soft Sp. z o.o. | Information technology system for the collection and sharing of information on fraud when making transactions on the web, and a method for collecting and processing, and make such information available |
CN104766014A (zh) * | 2015-04-30 | 2015-07-08 | 安一恒通(北京)科技有限公司 | 用于检测恶意网址的方法和系统 |
CN107862050A (zh) * | 2017-11-08 | 2018-03-30 | 国网四川省电力公司信息通信公司 | 一种网站内容安全检测系统及方法 |
CN109657470A (zh) * | 2018-12-27 | 2019-04-19 | 北京天融信网络安全技术有限公司 | 恶意网页检测模型训练方法、恶意网页检测方法及系统 |
CN110633466A (zh) * | 2019-08-26 | 2019-12-31 | 深圳安巽科技有限公司 | 基于语义分析的短信犯罪识别方法、系统和可读存储介质 |
US20210203693A1 (en) * | 2019-12-27 | 2021-07-01 | Paypal, Inc. | Phishing detection based on modeling of web page content |
CN111278014A (zh) * | 2019-12-31 | 2020-06-12 | 中移(杭州)信息技术有限公司 | 一种防诈骗系统、方法、服务器及存储介质 |
CN114037460A (zh) * | 2021-11-25 | 2022-02-11 | 深圳安巽科技有限公司 | 一种综合反诈平台、方法及存储介质 |
CN114430333A (zh) * | 2021-11-25 | 2022-05-03 | 深圳安巽科技有限公司 | 应对非法诱导占有活动的反诈系统、方法及存储介质 |
CN114722323A (zh) * | 2022-01-25 | 2022-07-08 | 上海博弋信息科技有限公司 | 一种基于网页内容安全审查的系统及方法 |
Non-Patent Citations (1)
Title |
---|
DAVIDE CANALI .ET: "Prophiler: A Fast Filter for the Large-Scale Detection of Malicious Web Pages", 《 WWW \'11: PROCEEDINGS OF THE 20TH INTERNATIONAL CONFERENCE ON WORLD WIDE WEB》, 28 March 2011 (2011-03-28), pages 197 - 206 * |
Also Published As
Publication number | Publication date |
---|---|
CN115186263B (zh) | 2024-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9621566B2 (en) | System and method for detecting phishing webpages | |
Ramesh et al. | An efficacious method for detecting phishing webpages through target domain identification | |
CN103544436B (zh) | 一种钓鱼网站鉴别系统和方法 | |
CN104899508B (zh) | 一种多阶段钓鱼网站检测方法与系统 | |
CN110781308B (zh) | 一种基于大数据构建知识图谱的反欺诈系统 | |
CN107888571A (zh) | 一种基于HTTP日志的多维度webshell入侵检测方法及检测系统 | |
CN108111478A (zh) | 一种基于语义理解的网络钓鱼识别方法和装置 | |
CN104077396A (zh) | 一种钓鱼网站检测方法及装置 | |
CN104217160A (zh) | 一种中文钓鱼网站检测方法及系统 | |
CN101971591A (zh) | 分析网址的系统及方法 | |
CN105975523A (zh) | 一种基于栈的暗链检测方法 | |
Park et al. | Phishing website detection framework through web scraping and data mining | |
CN110572359A (zh) | 基于机器学习的钓鱼网页检测方法 | |
Haruta et al. | Visual similarity-based phishing detection scheme using image and CSS with target website finder | |
CN107800686A (zh) | 一种钓鱼网站识别方法和装置 | |
Geng et al. | RRPhish: Anti-phishing via mining brand resources request | |
El-Rashidy | A smart model for web phishing detection based on new proposed feature selection technique | |
CN108270754B (zh) | 一种钓鱼网站的检测方法及装置 | |
CN113132340B (zh) | 一种基于视觉与主机特征的钓鱼网站识别方法及电子装置 | |
Luo et al. | Botgraph: Web bot detection based on sitemap | |
Mohammed et al. | Phishing Detection Using Machine Learning Algorithms | |
CN115186263B (zh) | 一种反非法诱导活动方法、系统及存储介质 | |
CN114124448B (zh) | 一种基于机器学习的跨站脚本攻击识别方法 | |
Kaur et al. | Five-tier barrier anti-phishing scheme using hybrid approach | |
TWI397833B (zh) | 偵測網路釣魚網頁的方法及系統 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |