CN117201146A - 恶意网站识别方法、系统、电子设备及存储介质 - Google Patents
恶意网站识别方法、系统、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117201146A CN117201146A CN202311204880.XA CN202311204880A CN117201146A CN 117201146 A CN117201146 A CN 117201146A CN 202311204880 A CN202311204880 A CN 202311204880A CN 117201146 A CN117201146 A CN 117201146A
- Authority
- CN
- China
- Prior art keywords
- website
- abnormal
- malicious
- user
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000002159 abnormal effect Effects 0.000 claims abstract description 132
- 238000012216 screening Methods 0.000 claims abstract description 11
- 230000006399 behavior Effects 0.000 claims description 63
- 238000004891 communication Methods 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000001595 flow curve Methods 0.000 claims description 6
- 230000005856 abnormality Effects 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 abstract description 8
- 238000005516 engineering process Methods 0.000 description 15
- 238000013473 artificial intelligence Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 10
- 238000003058 natural language processing Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 238000000605 extraction Methods 0.000 description 7
- 238000012544 monitoring process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000012550 audit Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 206010000117 Abnormal behaviour Diseases 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000002547 anomalous effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005206 flow analysis Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本申请实施例提供了一种恶意网站识别方法、系统、电子设备及存储介质,属于计算机技术领域。该方法包括:根据各个用户网站的流量信息、页面信息和操作行为信息,从多个用户网站中筛选出异常网站,利用网站黑名单对异常网站进行比对确定异常网站的第一置信度,以及利用恶意网站识别模型对异常网站识别得到异常网站的第二置信度,根据第一置信度和第二置信度对异常网站进行判定以确认恶意网站识别结果。本申请的网站黑名单和恶意网站识别模型由区块链网络的各个I DC节点共同维护,提高第一置信度和第二置信度分析的可靠性,I DC集群服务器在筛选出异常网站后,结合网站黑名单和识别模型两种方式判定异常网站,能够提高恶意网站识别的准确性。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种恶意网站识别方法、系统、电子设备及存储介质。
背景技术
随着信息技术的飞速发展,网络安全越来越重要。而互联网快速发展带来便利的同时,恶意信息在网络上传播也越来越方便。恶意网站即“三无网站”,是指没有获得许可,没有合法登记注册的网站。这类网站内容多样,这些网站所传播的言论和图片可能会损害网民的利益,因此,运营商的互联网数据中心(Internet Data Center,IDC)需要对网络上的恶意网站进行及时识别和打击。
针对运营商的各个IDC集群服务器,传统的方法是使用流量分析、域名分析以及人工内容分析的方式对恶意网站进行识别,进而对其封堵。但恶意网站的类别较多、形式更新较快,单个IDC集群服务器的监控参考数据有限,识别方式单一,导致识别准确率较低。
发明内容
本申请实施例的主要目的在于提出一种恶意网站识别方法、系统、电子设备及存储介质,旨在提高恶意网站识别的准确性。
为实现上述目的,本申请实施例的第一方面提出了一种恶意网站识别方法,应用于IDC集群服务器中,所述IDC集群服务器作为区块链节点,多个所述区块链节点形成区块链网络,所述恶意网站识别方法包括以下步骤:
根据各个用户网站的流量信息、页面信息和操作行为信息,从多个所述用户网站中筛选出异常网站;
根据所述异常网站检索网站黑名单,得到所述异常网站的第一置信度,其中,所述网站黑名单共享在所述区块链网络中;
将所述异常网站输入恶意网站识别模型,得到所述异常网站的第二置信度,其中,所述恶意网站识别模型的模型参数由共享在所述区块链网络中的训练样本进行更新;
根据所述第一置信度和所述第二置信度对所述异常网站进行判定,得到恶意网站识别结果。
在一些实施例中,所述用户网站的流量信息通过以下步骤获得:
获取同一访问对象在第一预设时间段内访问所述用户网站的访问次数;
通过访问阈值对所述访问次数进行判定,得到连续访问特征;
获取所述用户网站在第二预设时间段内的流量曲线;
通过流量阈值对所述流量曲线进行判定,得到网站流量特征;
根据所述连续访问特征和所述网站流量特征,得到用户网站的流量信息。
在一些实施例中,所述用户网站的页面信息通过以下步骤获得:
通过敏感词汇表提取所述用户网站的页面文本内容的敏感词;
根据提取出的敏感词的个数确定文本内容特征;
分别对每一个所述敏感词进行页面位置评估,得到敏感词位置特征;
根据所述文本内容特征和所述敏感词位置特征,得到用户网站的页面信息。
在一些实施例中,所述用户网站的操作行为信息通过以下步骤获得:
获取所述用户网站的访问对象的网络行为信息,其中,所述网络行为信息包括支付行为时间和接收短信行为时间;
根据访问对象的网络行为信息判断访问对象对于所述用户网站是否发生异常访问流量;
根据对所述用户网站的多个访问对象的异常访问流量判断结果,确定用户网站的操作行为信息。
在一些实施例中,所述根据各个用户网站的流量信息、页面信息和操作行为信息,从多个所述用户网站中筛选出异常网站包括以下步骤:
分别对用户网站的流量信息、页面信息和操作行为信息进行异常判定;
当所述流量信息、所述页面信息或者所述操作行为信息其中任意一项异常,则将所述用户网站确定为异常网站。
在一些实施例中,所述根据所述第一置信度和所述第二置信度对所述异常网站进行判定,得到恶意网站识别结果包括以下步骤:
对所述第一置信度和所述第二置信度进行加权计算,得到机器识别置信度;
当所述机器识别置信度大于置信度阈值,则显示所述异常网站,以获取审核结果;
根据所述审核结果确定恶意网站识别结果。
在一些实施例中,所述恶意网站识别方法还包括以下步骤:
将所述恶意网站识别结果上传至所述区块链网络,以使所述区块链网络根据所述恶意网站识别结果更新所述恶意网站识别模型的模型参数,其中,所述恶意网站识别结果包括网站异常类型和网站置信度;
接收来自所述区块链网络的模型参数;
根据所述模型参数更新本地的恶意网站识别模型。
为实现上述目的,本申请实施例的第二方面提出了一种恶意网站识别系统,应用于IDC集群服务器中,所述IDC集群服务器作为区块链节点,多个所述区块链节点形成区块链网络,所述恶意网站识别系统包括:
第一模块,用于根据各个用户网站的流量信息、页面信息和操作行为信息,从多个所述用户网站中筛选出异常网站;
第二模块,用于根据所述异常网站检索网站黑名单,得到所述异常网站的第一置信度,其中,所述网站黑名单共享在所述区块链网络中;
第三模块,用于将所述异常网站输入恶意网站识别模型,得到所述异常网站的第二置信度,其中,所述恶意网站识别模型的模型参数由共享在所述区块链网络中的训练样本进行更新;
第四模块,用于根据所述第一置信度和所述第二置信度对所述异常网站进行判定,得到恶意网站识别结果。
为实现上述目的,本申请实施例的第三方面提出了一种电子设备,所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,所述程序被所述处理器执行时实现上述第一方面所述的恶意网站识别方法。
为实现上述目的,本申请实施例的第四方面提出了一种存储介质,所述存储介质为计算机可读存储介质,用于计算机可读存储,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述第一方面所述的恶意网站识别方法。
本申请提出的恶意网站识别方法、系统、电子设备及存储介质,每一个IDC集群服务器作为一个区块链节点,多个区块链节点构成区块链网络,各个IDC集群服务器将识别到的恶意网站共享在区块链网络上并形成网站黑名单,同时区块链网络利用各节点共享的数据对恶意网站的识别模型的模型参数进行更新。对于单个IDC集群服务器,其根据各个用户网站的流量信息、页面信息和操作行为信息,从多个用户网站中筛选出异常网站后,利用网站黑名单对异常网站进行进一步比对确定异常网站的第一置信度,以及利用恶意网站识别模型对异常网站进一步识别得到异常网站的第二置信度,根据第一置信度和第二置信度对异常网站进行判定以确认恶意网站识别结果。本申请的网站黑名单和恶意网站识别模型由区块链网络的各个节点共同维护和构建更新,能够提高第一置信度和第二置信度分析的可靠性,从而提高恶意网站识别结果的准确性,单个IDC集群服务器在通过流量信息、页面信息和操作行为信息初步筛选可疑的异常网站的基础上,进一步结合网站黑名单和恶意网站识别模型两种方式对异常网站进行判定,进一步提高了恶意网站识别的准确性。
附图说明
图1是本申请实施例提供的恶意网站识别方法的流程图;
图2是本申请实施例提供的区块链网络示意图;
图3是本申请实施例提供的恶意网站识别过程示意图;
图4是图1中的S101的用户网站的流量信息获取方法流程图;
图5是图1中的S101的用户网站的页面信息获取方法流程图;
图6是图1中的S101的用户网站的操作行为信息获取方法流程图;
图7是图1中的步骤S101的流程图;
图8是图1中的步骤S104的流程图;
图9是本申请另一实施例提供的恶意网站识别方法的流程图;
图10是本申请实施例提供的电子设备的硬件结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
首先,对本申请中涉及的若干名词进行解析:
人工智能(artificial intelligence,AI):是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;人工智能是计算机科学的一个分支,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
自然语言处理(natural language processing,NLP):NLP用计算机来处理、理解以及运用人类语言(如中文、英文等),NLP属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学。自然语言处理包括语法分析、语义分析、篇章理解等。自然语言处理常用于机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息意图识别、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等技术领域,它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。
信息抽取(Information Extraction):从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术。信息抽取是从文本数据中抽取特定信息的一种技术。文本数据是由一些具体的单位构成的,例如句子、段落、篇章,文本信息正是由一些小的具体的单位构成的,例如字、词、词组、句子、段落或是这些具体的单位的组合。抽取文本数据中的名词短语、人名、地名等都是文本信息抽取,当然,文本信息抽取技术所抽取的信息可以是各种类型的信息。
互联网数据中心(Internet Data Center,IDC),是电信部门利用已有的互联网通信线路、带宽资源,建立标准化的电信专业级机房环境,为企业、机构、个人提供服务器托管、租用以及相关增值等方面的全方位服务。IDC集群服务器即为一定地理区间内的企业、机构、个人提供互联网服务的计算机集群,通过一组松散集成的计算机软件或硬件连接起来高度紧密地协作完成计算工作。在某种意义上,一个IDC集群服务器可以被看作是一台计算机。
智能合约:根据特定条件自动执行的合约程序,是用户与区块链进行交互,利用区块链实现业务逻辑的重要途径。
背书策略信息:用于指示数据存储系统中背书过程需满足的必要条件。例如,该背书策略可以指示需要背书的多个背书节点,形成一个背书节点集合,背书过程则需要该背书节点集合的联合签名。
本申请实施例提供的恶意网站识别方法、系统、电子设备及存储介质,具体通过如下实施例进行说明,首先描述本申请实施例中的恶意网站识别方法。
本申请实施例涉及的恶意网站识别模型是基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的恶意网站识别方法可应用于区块链网络的单个IDC集群服务器中。区块链网络由多个作为区块链节点的多个IDC集群服务器组成,该多个IDC集群服务器分别为多个地区提供互联网服务。区块链的多个区块链节点可以安装智能合约,以基于该智能合约将上传恶意网站信息或者查询其他节点上传的恶意网站信息和恶意网站识别模型的模型参数。本申请实施例中,该智能合约至少包含数据存储时的存储逻辑。例如,数据存储时需要满足背书策略信息的逻辑。
需要说明的是,在本申请的各个具体实施方式中,当涉及到需要根据用户信息、用户行为数据,用户历史数据以及用户位置信息等与用户身份或特性相关的数据进行相关处理时,都会先获得用户的许可或者同意,而且,对这些数据的收集、使用和处理等,都会遵守相关法律法规和标准。此外,当本申请实施例需要获取用户的敏感个人信息时,会通过弹窗或者跳转到确认页面等方式获得用户的单独许可或者单独同意,在明确获得用户的单独许可或者单独同意之后,再获取用于使本申请实施例能够正常运行的必要的用户相关数据。
图1是本申请实施例提供的恶意网站识别方法的一个可选的流程图,图1中的方法可以包括但不限于包括步骤S101至步骤S104。
步骤S101,根据各个用户网站的流量信息、页面信息和操作行为信息,从多个用户网站中筛选出异常网站;
步骤S102,根据异常网站检索网站黑名单,得到异常网站的第一置信度,其中,网站黑名单共享在区块链网络中;
步骤S103,将异常网站输入恶意网站识别模型,得到异常网站的第二置信度,其中,恶意网站识别模型的模型参数由共享在区块链网络中的训练样本进行更新;
步骤S104,根据第一置信度和第二置信度对异常网站进行判定,得到恶意网站识别结果。
本申请实施例所示意的步骤S101至步骤S106,结合图2所示,每个IDC集群服务器可以看作一个区块链节点,多个IDC集群服务器构成区块链网络,各个区块链节点共享使用区块链网络上存储的恶意网站相关的知识库信息。知识库信息包括恶意网站的AI识别模型及恶意网站相关的域名黑名单,知识库信息存储在一个或者多个区块链节点中,区块链节点可以是某个IDC集群服务器,也可以是专门存储知识库信息的服务器。一方面,IDC集群服务器通过知识库信息能够准确、及时地识别本地的恶意网站,另一方面基于各个IDC集群服务器内识别出的恶意网站信息,可以被更新到知识库信息中,进而分享给其他IDC集群服务器使用,保证知识库信息的全局实时更新,进而提高IDC集群服务器内通过知识库信息识别恶意网站的可靠性。
结合图3,对于单个IDC集群服务器,其根据各个用户网站的流量信息、页面信息和操作行为信息,从多个用户网站中筛选出异常网站后,利用网站黑名单对异常网站进行进一步比对确定异常网站的第一置信度,以及利用恶意网站识别模型对异常网站进一步识别得到异常网站的第二置信度,根据第一置信度和第二置信度对异常网站进行判定以确认恶意网站识别结果。单个IDC集群服务器在通过流量信息、页面信息和操作行为信息初步筛选可疑的异常网站的基础上,进一步结合网站黑名单和恶意网站识别模型两种方式对异常网站进行判定,相比于单一识别模型,提高了恶意网站识别的准确性。
在一些实施例中的步骤S101中,IDC集群服务器能够监控在其区域内使用互联网服务的各个用户的互联网使用情况相关的监控数据,例如,各网站流量使用情况、网站交互内容等。IDC集群服务器可以对监控数据进行分析,得到各个网站的流量信息、页面信息和操作行为信息,以基于上述信息从被监控所有网站中初步筛选出疑似为恶意网站的异常网站。流量信息用于反映用户网站的流量特征是否异常或者流量特征的异常程度。页面信息用于反映用户网站的页面内容是否存在恶意信息,或者存在恶意信息的严重程度。操作行为信息用于反映用户网站是否存在交易等异常行为,或者存在异常行为的严重程度。
在一些实施例的步骤S102中,IDC集群服务器从区块链网络中获取最新更新的网站黑名单。网站黑名单中包括曾经被判定为恶意网站的相关信息,包括恶意网站的异常类型(例如,诈骗类型、低俗内容传播类型等)和网站置信度,其中,对于人工审核通过的恶意网站,黑名单中对应的恶意网站的置信度为1。置信度用于表征用户网站为恶意网站的概率,置信度越大,用户网站为恶意网站的概率越大。
示例性地,网站黑名单的格式如下:
Hash(网站域名Domain1)→<类型type1,置信度score1>,
<类型type2,置信度score2>,
<类型type3,置信度score3>
Hash(网站域名Domain2)→<类型type1,置信度score1>
Hash(网站域名Domain3)→<类型type1,置信度score1>
<类型type2,置信度score2>
……
从上述网站黑名单可以看出,一个网站可能存在多种异常类型,每种异常类型对应一个置信度。
当IDC集群服务器检测出一个可疑的异常网站,使用该网站URL的域名的hash(即hash(Domain(URL))),在区块链网络的网站黑名单中进行检索,进而匹配其异常类型及置信度,从而得到该异常网站的第一置信度。
进一步地,为了确保匹配过程的正确性,IDC站点管理员使用当前站点所包含的区块链节点的客户端及相应的私钥,调用区块链智能合约进行检索,其处理流程如下:
输入:网站URL;
处理:(1)Domain_hash=hash(Domain(URL));
(2)根据Domain_hash查找区块链上对应的类型type及置信度score;
输出:<类型type,置信度>数组。
在一些实施例的步骤S103中,当IDC集群服务器检测出的一个可疑的异常网站,可以利用区块链网络上实时更新的恶意网站识别模型对异常网站的域名和页面内容等信息进行识别,从而得到异常网站的第二置信度。恶意网站识别模型中利用自然语言处理技术对网站内容进行特征提取,并将提取到的特征输入分类器,从而得到识别结果。恶意网站识别模型可以是仅识别是否为恶意网站的模型,也可以是进一步对恶意网站进行类型分类的模型。
示例性地,恶意网站识别模型的识别结果如下:
′
网站URL→<类型type1,置信度score1′>
<类型type2,置信度score2>
<类型type3,置信度score3>
在一些实施例的步骤S104中,由于异常网站可能存在多种类型,在实际恶意网站检测过程中,可以根据不同的检测需求来进行恶意网站识别结果的分析,具体地,不同检测需求的恶意网站识别结果分析实施例如下。
实施例一:对于仅需要判定异常网站是否为恶意网站,不需要判定恶意网站的类型的情况,将异常网站输入到网站黑名单匹配到不同异常类型的置信度后,选取其中数值最高的置信度作为第一置信度。将异常网站输入到仅识别是否为恶意网站的模型,得到异常网站属于恶意网站的概率,即第二置信度。根据第一置信度和第二置信度对异常网站进行判定,得到异常网站是否为恶意网站的识别结果。例如,如果第一置信度和第二置信度的加权平均值大于预设值,则异常网站为恶意网站。
实施例二:对于需要判定异常网站是否为恶意网站,且需要恶意网站的类型区分的情况,将异常网站输入到网站黑名单进行匹配,得到不同异常类型的第一置信度后,将异常网站输入到恶意网站进行类型分类的模型,得到异常网站属于不同类型的概率,即不同类型的第二置信度。根据相同类型的第一置信度和第二置信度来判断异常网站是否属于该异常类型,从而得到异常网站所属的异常类型。例如,如果同一异常类型的第一置信度和第二置信度的加权平均值大于预设值,则异常网站为属于该异常类型的恶意网站。
请参阅图4,在一些实施例中,步骤S101的用户网站的流量信息通过以下步骤获得:
步骤S201,获取同一访问对象在第一预设时间段内访问用户网站的访问次数;
步骤S202,通过访问阈值对访问次数进行判定,得到连续访问特征;
步骤S203,获取用户网站在第二预设时间段内的流量曲线;
步骤S204,通过流量阈值对流量曲线进行判定,得到网站流量特征;
步骤S205,根据连续访问特征和网站流量特征,得到用户网站的流量信息。
在本实施例中,监控同一访问对象在n分钟内访问用户网站的访问次数,如果访问次数大于访问阈值(例如10次),则连续访问特征记为1;如果访问次数小于或等于访问阈值(例如10次),则连续访问特征记为0。
监控门用户网站在第二预设时间段内(例如30天)的流量曲线,通过分析网站是否出现突发流量来确定其是否为有可能为恶意网站,如果网站出现突发流量,则认为可能是一个恶意网站处于生存期。如果出现大于流量阈值(例如1000)的情况,则网站流量特征记为1,反之网站流量特征记为0。
通过整合连续访问特征和网站流量特征,可以得到用户网站的流量信息。具体地,在单位监控周期内将对应不同访问对象的连续访问特征进行累加得到累加访问特征后,将累加访问特征与网站流量特征累加得到流量信息,也可以是采用加权算法整合累加访问特征与网站流量特征得到流量信息。
请参阅图5,在一些实施例中,步骤S101的用户网站的页面信息通过以下步骤获得:
步骤S301,通过敏感词汇表提取页面文本内容的敏感词;
步骤S302,根据提取出的敏感词的个数确定文本内容特征;
步骤S303,分别对每一个敏感词进行页面位置评估,得到敏感词位置特征;
步骤S304,根据文本内容特征和敏感词位置特征,得到用户网站的页面信息。
在本实施例中,使用数据采集器对用户网站进行采集,得到页面文本内容,再基于信息抽取技术,根据敏感词列表对页面文本内容进行敏感词抽取,计算命中的敏感词个数。如果敏感词的个数大于预设个数(例如4个),则文本内容特征记为1;如果敏感词的个数小于或等于预设个数,则文本内容特征记为0。敏感词列表中包含理财、投资、客服等敏感词。
在提取出多个敏感词后,通过DOM特定位置评估确定每一个敏感词在网页中的位置来确定敏感词位置特征,通过敏感词位置特征能够一定程度体现网页的异常概率,例如,敏感词处于越显眼位置,该网站越有可能是恶意网站。例如,如果敏感词在页面中的标题等显眼位置,则该敏感词位置特征记为1;如果敏感词不在页面中的标题等显眼位置,则该敏感词位置特征记为0。
通过整合文本内容特征和敏感词位置特征,可以得到用户网站的页面信息。具体地,该将不同访问对象的敏感词位置特征进行累加得到综合敏感词位置特征后,将综合敏感词位置特征与文本内容特征累加得到页面信息,也可以是采用加权算法整合综合敏感词位置特征与文本内容特征得到页面信息。
请参阅图6,在一些实施例中,步骤S101的用户网站的操作行为信息通过以下步骤获得:
步骤S401,获取用户网站的访问对象的网络行为信息,其中,网络行为信息包括支付行为时间和接收短信行为时间;
步骤S402,根据访问对象的网络行为信息判断访问对象对于用户网站是否发生异常访问流量;
步骤S403,根据对用户网站的多个访问对象的异常访问流量判断结果,确定用户网站的操作行为信息。
在本实施例中,以单个访问对象为单位,从访问对象的流量中提取支付行为的流量(如微信或支付宝),然后以支付行为时间为节点,判断访问对象在发生支付行为的短时间内,用户网站是否发生相应的流量,如果发生相应流量,则可以认为该用户网站产生一次异常支付操作行为,此时可以将异常支付操作行为特征记为1,如果没有发现相应的流量,则异常支付操作行为特征记为0。
同样地,以单个访问对象为单位,从访问对象的通信记录中提取固话通信或者短信接收行为,然后以固话通信或者短信接收行为时间为节点,判断访问对象在发生固话通信或者短信接收行为的短时间(例如10分钟)内,用户网站是否发生相应的流量,如果发生相应流量,则可以认为该用户网站产生一次异常推销操作行为,此时可以将异常推销操作行为特征记为1,如果没有发现相应的流程,则异常推销操作行为特征记为0。
进一步地,可以对一个用户网站的不同访问对象的异常支付操作行为特征和异常推销操作行为特征进行累加,得到用户网站的操作行为信息。
请参阅图7,在一些实施例中,步骤S101中,根据各个用户网站的流量信息、页面信息和操作行为信息,从多个用户网站中筛选出异常网站这一步骤,包括但不限于包括步骤S501至步骤S502:
步骤S501,分别对用户网站的流量信息、页面信息和操作行为信息进行异常判定;
步骤S502,当流量信息、页面信息或者操作行为信息其中任意一项异常,则将用户网站确定为异常网站。
在本实施例中,分别将网站的流量信息、页面信息和操作行为信息与各自对应的判定阈值进行判断,以分别确定流量信息、页面信息和操作行为信息是否异常,如果流量信息、页面信息或者操作行为信息其中任意一项异常,则将用户网站确定为异常网站。
在另外一些实施例中,可以融合流量信息、页面信息和操作行为信息得到网站异常值,在将网站异常值与预设值进行对比,如果网站异常值大于预设值,则该用户网站为异常网站。
请参阅图8,在一些实施例中,步骤S104中,根据第一置信度和第二置信度对异常网站进行判定,得到恶意网站识别结果这一步骤,包括但不限于包括步骤S601至步骤S603:
步骤S601,对第一置信度和第二置信度进行加权计算,得到机器识别置信度;
步骤S602,当机器识别置信度大于置信度阈值,则显示异常网站,以获取审核结果;
步骤S603,根据审核结果确定恶意网站识别结果。
在本实施例中,IDC集群服务器与用户终端连接,用户终端可以是手机、个人计算机、平板电脑等设备。在IDC集群服务器中,将异常网站的第一置信度和第二置信度进行加权计算得到机器识别置信度,当机器识别置信度大于置信度阈值,则向用户终端发送该异常网站的域名。用户终端为审核人员使用的终端,审核人员的用户终端接收到异常网站的域名后,根据域名浏览该网站的内容以确认该网站是否为恶意网站,如果审核人员认为该异常网站为恶意网站,则向IDC集群服务器反馈审核通过信息,如果审核人员认为该异常网站为不一定是恶意网站,则向IDC集群服务器反馈审核不通过信息。
请参阅图9,在一些实施例中,本发明实施例的恶意网站识别方法还可以包括但不限于包括步骤S701至步骤S703:
步骤S701,将恶意网站识别结果上传至所述区块链网络,以使区块链网络根据恶意网站识别结果更新恶意网站识别模型的模型参数,其中,恶意网站识别结果包括网站异常类型和网站置信度;
步骤S702,接收来自区块链网络的模型参数;
步骤S703,根据模型参数更新本地的恶意网站识别模型。
在本实施例中,当采用上述流程确定异常网站,每个IDC站点审核人员对异常网站识别并人工核验后,确认一批新的恶意网站识别结果,恶意网站识别结果包括每个恶意网站的类型type及最终的置信度score=F(scoren,score′ n),其中,对于人工审核认定的恶意网站,其置信度更新为1,对于没有人工审核认定的恶意网站,其置信度可以为基于网络黑名单得到的第一置信度和基于识别模型得到的第二置信度,或者是第一置信度和第二置信度的综合值。调用智能合约将这一批新的恶意网站识别结果同步到区块链上,操作如下:
输入:<网站URL,<type,score>>;
处理:(1)Domain_hash=hash(Domain(URL));
(2)查询链上是否有Domain_hash对应的记录,如果没有,则直接存储入库;如果已有记录,则对比库中的类型type与置信度score,将高置信度的记录存储入库;
输出:成功与否。
以上处理过后,每条记录的存储,都经过当前IDC的区块链节点的私钥签名,并经过其他多个背书节点的私钥签名上链存储,确保区块链上恶意网站信息来源的真实性及可追溯性。
在本实施例中,可以根据网站黑名单整理恶意网站类别和内容作为训练模型的训练数据集,训练得到初始的恶意网站识别模型。随着区块链上存储的恶意网站的更新,可以定期实现对恶意网站识别模型的更新训练。考虑到模型的训练过程较为复杂,可以将区块链上存储的恶意网站下载到本地进行训练。为了保证模型持续更新的可信度,可以将更新后的模型的参数信息存储在区块链上,但将模型的庞大的网络结构存储在每个IDC节点本地,使用时直接从区块链上获取可信的模型参数。
本申请实施例还提供一种恶意网站识别系统,应用于IDC集群服务器中,IDC集群服务器作为区块链节点,多个区块链节点形成区块链网络,恶意网站识别系统包括:
第一模块,用于根据各个用户网站的流量信息、页面信息和操作行为信息,从多个用户网站中筛选出异常网站;
第二模块,用于根据异常网站检索网站黑名单,得到异常网站的第一置信度,其中,网站黑名单共享在所述区块链网络中;
第三模块,用于将异常网站输入恶意网站识别模型,得到异常网站的第二置信度,其中,恶意网站识别模型的模型参数由共享在区块链网络中的训练样本进行更新;
第四模块,用于根据第一置信度和第二置信度对异常网站进行判定,得到恶意网站识别结果。
可以理解的是,上述恶意网站识别方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述恶意网站识别方法实施例相同,并且达到的有益效果与上述恶意网站识别方法实施例所达到的有益效果也相同。
本申请实施例还提供了一种电子设备,电子设备包括:存储器、处理器、存储在存储器上并可在处理器上运行的程序以及用于实现处理器和存储器之间的连接通信的数据总线,程序被处理器执行时实现上述恶意网站识别方法。该电子设备为IDC集群服务器。
请参阅图10,图10示意了另一实施例的电子设备的硬件结构,电子设备包括:
处理器901,可以采用通用的CPU(CentralProcessingUnit,中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请实施例所提供的技术方案;
存储器902,可以采用只读存储器(ReadOnlyMemory,ROM)、静态存储设备、动态存储设备或者随机存取存储器(RandomAccessMemory,RAM)等形式实现。存储器902可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器902中,并由处理器901来调用执行本申请实施例的恶意网站识别方法;
输入/输出接口903,用于实现信息输入及输出;
通信接口904,用于实现本设备与其他设备的通信交互,可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信;
总线905,在设备的各个组件(例如处理器901、存储器902、输入/输出接口903和通信接口904)之间传输信息;
其中处理器901、存储器902、输入/输出接口903和通信接口904通过总线905实现彼此之间在设备内部的通信连接。
本申请实施例还提供了一种存储介质,存储介质为计算机可读存储介质,用于计算机可读存储,存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器执行,以实现上述恶意网站识别方法。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本领域技术人员可以理解的是,图1-7中示出的技术方案并不构成对本申请实施例的限定,可以包括比图示更多或更少的步骤,或者组合某些步骤,或者不同的步骤。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序的介质。
以上参照附图说明了本申请实施例的优选实施例,并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进,均应在本申请实施例的权利范围之内。
Claims (10)
1.一种恶意网站识别方法,其特征在于,应用于IDC集群服务器中,所述IDC集群服务器作为区块链节点,多个所述区块链节点形成区块链网络,所述恶意网站识别方法包括以下步骤:
根据各个用户网站的流量信息、页面信息和操作行为信息,从多个所述用户网站中筛选出异常网站;
根据所述异常网站检索网站黑名单,得到所述异常网站的第一置信度,其中,所述网站黑名单共享在所述区块链网络中;
将所述异常网站输入恶意网站识别模型,得到所述异常网站的第二置信度,其中,所述恶意网站识别模型的模型参数由共享在所述区块链网络中的训练样本进行更新;
根据所述第一置信度和所述第二置信度对所述异常网站进行判定,得到恶意网站识别结果。
2.根据权利要求1所述的恶意网站识别方法,其特征在于,所述用户网站的流量信息通过以下步骤获得:
获取同一访问对象在第一预设时间段内访问所述用户网站的访问次数;
通过访问阈值对所述访问次数进行判定,得到连续访问特征;
获取所述用户网站在第二预设时间段内的流量曲线;
通过流量阈值对所述流量曲线进行判定,得到网站流量特征;
根据所述连续访问特征和所述网站流量特征,得到用户网站的流量信息。
3.根据权利要求1所述的恶意网站识别方法,其特征在于,所述用户网站的页面信息通过以下步骤获得:
通过敏感词汇表提取所述用户网站的页面文本内容的敏感词;
根据提取出的敏感词的个数确定文本内容特征;
分别对每一个所述敏感词进行页面位置评估,得到敏感词位置特征;
根据所述文本内容特征和所述敏感词位置特征,得到用户网站的页面信息。
4.根据权利要求1所述的恶意网站识别方法,其特征在于,所述用户网站的操作行为信息通过以下步骤获得:
获取所述用户网站的访问对象的网络行为信息,其中,所述网络行为信息包括支付行为时间和接收短信行为时间;
根据访问对象的网络行为信息判断访问对象对于所述用户网站是否发生异常访问流量;
根据对所述用户网站的多个访问对象的异常访问流量判断结果,确定用户网站的操作行为信息。
5.根据权利要求1所述的恶意网站识别方法,其特征在于,所述根据各个用户网站的流量信息、页面信息和操作行为信息,从多个所述用户网站中筛选出异常网站包括以下步骤:
分别对用户网站的流量信息、页面信息和操作行为信息进行异常判定;
当所述流量信息、所述页面信息或者所述操作行为信息其中任意一项异常,则将所述用户网站确定为异常网站。
6.根据权利要求1所述的恶意网站识别方法,其特征在于,所述根据所述第一置信度和所述第二置信度对所述异常网站进行判定,得到恶意网站识别结果包括以下步骤:
对所述第一置信度和所述第二置信度进行加权计算,得到机器识别置信度;
当所述机器识别置信度大于置信度阈值,则显示所述异常网站,以获取审核结果;
根据所述审核结果确定恶意网站识别结果。
7.根据权利要求6所述的恶意网站识别方法,其特征在于,所述恶意网站识别方法还包括以下步骤:
将所述恶意网站识别结果上传至所述区块链网络,以使所述区块链网络根据所述恶意网站识别结果更新所述恶意网站识别模型的模型参数,其中,所述恶意网站识别结果包括网站异常类型和网站置信度;
接收来自所述区块链网络的模型参数;
根据所述模型参数更新本地的恶意网站识别模型。
8.一种恶意网站识别系统,其特征在于,应用于IDC集群服务器中,所述IDC集群服务器作为区块链节点,多个所述区块链节点形成区块链网络,所述恶意网站识别系统包括:
第一模块,用于根据各个用户网站的流量信息、页面信息和操作行为信息,从多个所述用户网站中筛选出异常网站;
第二模块,用于根据所述异常网站检索网站黑名单,得到所述异常网站的第一置信度,其中,所述网站黑名单共享在所述区块链网络中;
第三模块,用于将所述异常网站输入恶意网站识别模型,得到所述异常网站的第二置信度,其中,所述恶意网站识别模型的模型参数由共享在所述区块链网络中的训练样本进行更新;
第四模块,用于根据所述第一置信度和所述第二置信度对所述异常网站进行判定,得到恶意网站识别结果。
9.一种电子设备,其特征在于,所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,所述程序被所述处理器执行时实现如权利要求1至7任一项所述的恶意网站识别方法的步骤。
10.一种存储介质,所述存储介质为计算机可读存储介质,用于计算机可读存储,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1至7中任一项所述的恶意网站识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311204880.XA CN117201146A (zh) | 2023-09-18 | 2023-09-18 | 恶意网站识别方法、系统、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311204880.XA CN117201146A (zh) | 2023-09-18 | 2023-09-18 | 恶意网站识别方法、系统、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117201146A true CN117201146A (zh) | 2023-12-08 |
Family
ID=88988487
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311204880.XA Pending CN117201146A (zh) | 2023-09-18 | 2023-09-18 | 恶意网站识别方法、系统、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117201146A (zh) |
-
2023
- 2023-09-18 CN CN202311204880.XA patent/CN117201146A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106992994B (zh) | 一种云服务的自动化监控方法和系统 | |
CN108366045B (zh) | 一种风控评分卡的设置方法和装置 | |
US20160019470A1 (en) | Event detection through text analysis using trained event template models | |
CN110442712B (zh) | 风险的确定方法、装置、服务器和文本审理系统 | |
KR102355973B1 (ko) | 스미싱 메시지 판별장치 및 스미싱 메시지 판별방법 | |
CN107341399B (zh) | 评估代码文件安全性的方法及装置 | |
CN106961419A (zh) | WebShell检测方法、装置及系统 | |
CN104615760A (zh) | 钓鱼网站识别方法和系统 | |
CN113704328B (zh) | 基于人工智能的用户行为大数据挖掘方法及系统 | |
CN113704772B (zh) | 基于用户行为大数据挖掘的安全防护处理方法及系统 | |
CN110020161B (zh) | 数据处理方法、日志处理方法和终端 | |
CN114422211A (zh) | 基于图注意力网络的http恶意流量检测方法及装置 | |
CN114422271B (zh) | 数据处理方法、装置、设备及可读存储介质 | |
CN108804501B (zh) | 一种检测有效信息的方法及装置 | |
CN115563600A (zh) | 数据审核方法和装置、电子设备及存储介质 | |
CN117097571A (zh) | 一种网络传输敏感数据的检测方法、系统、装置及介质 | |
CN116738369A (zh) | 一种流量数据的分类方法、装置、设备及存储介质 | |
CN115879110A (zh) | 一种基于指纹穿透技术识别金融风险网站的系统 | |
CN113904828B (zh) | 接口的敏感信息检测方法、装置、设备、介质和程序产品 | |
CN117201146A (zh) | 恶意网站识别方法、系统、电子设备及存储介质 | |
CN113626815A (zh) | 病毒信息的识别方法、病毒信息的识别装置及电子设备 | |
CN117332039B (zh) | 文本检测方法、装置、设备和存储介质 | |
CN116955877A (zh) | 目标帐号的确定方法和装置、存储介质及电子设备 | |
CN114611108A (zh) | 一种数据处理方法以及存储介质 | |
CN117992966A (zh) | 漏洞检测方法、模型训练方法及对应装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |