CN117614749A - 风险网站识别方法、装置、电子设备及存储介质 - Google Patents
风险网站识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117614749A CN117614749A CN202410096011.8A CN202410096011A CN117614749A CN 117614749 A CN117614749 A CN 117614749A CN 202410096011 A CN202410096011 A CN 202410096011A CN 117614749 A CN117614749 A CN 117614749A
- Authority
- CN
- China
- Prior art keywords
- website
- features
- data
- identified
- modal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000004927 fusion Effects 0.000 claims abstract description 64
- 238000012549 training Methods 0.000 claims description 25
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 15
- 238000013135 deep learning Methods 0.000 claims description 13
- 238000005516 engineering process Methods 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 9
- 238000007619 statistical method Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 238000003058 natural language processing Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 13
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000010223 real-time analysis Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/1483—Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Security & Cryptography (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Networks & Wireless Communication (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种风险网站识别方法、装置、电子设备及存储介质,涉及网络安全技术领域,包括:获取待识别网站的多模态数据;基于所述多模态数据,确定所述待识别网站的多模态特征;所述多模态特征至少包括网站量化数据特征、URL命名数据特征、图片特征和文本特征;将所述多模态特征进行特征融合,得到多模态融合特征;将所述多模态融合特征输入训练好的分类器,得到针对所述待识别网站的分类结果;根据所述分类结果,确定所述待识别网站是否为风险网站。本发明充分利用不同模态的数据信息,通过多模态特征融合可以更全面更准确地识别风险网站,从而更好地提高新型风险网站的识别效果。
Description
技术领域
本发明涉及网络安全技术领域,尤其涉及一种风险网站识别方法、装置、电子设备及存储介质。
背景技术
随着信息时代的不断发展,对诈骗网站等风险网站的有效识别是至关重要的。
然而,传统的风险网站识别方法单一特征识别能力有限,对新型风险网站的识别效果较差,并且对大规模数据处理和实时分析能力较弱。因此,如何提高新型风险网站的识别准确率是目前亟待解决的问题。
发明内容
本发明提供一种风险网站识别方法、装置、电子设备及存储介质,用以解决现有技术中新型风险网站的识别准确率低的缺陷,实现利用不同模态的数据信息,通过多模态特征融合可以更全面更准确地识别风险网站,从而更好地提高新型风险网站的识别效果。
本发明提供一种风险网站识别方法,包括:
获取待识别网站的多模态数据;
基于所述多模态数据,确定所述待识别网站的多模态特征;所述多模态特征至少包括网站量化数据特征、URL(Uniform Resource Locator,统一资源定位器)命名数据特征、图片特征和文本特征;
将所述多模态特征进行特征融合,得到多模态融合特征;
将所述多模态融合特征输入训练好的分类器,得到针对所述待识别网站的分类结果;
根据所述分类结果,确定所述待识别网站是否为风险网站。
根据本发明提供的一种风险网站识别方法,所述多模态数据至少包括网站量化数据;所述基于所述多模态数据,确定所述待识别网站的多模态特征,包括:
对网站量化数据进行特征提取,得到所述待识别网站的网站量化数据特征;所述网站量化数据特征包括网站访问量、关联IP(Internet Protocol,网际互连协议)量、同IP网站量、网站是否备案、网站类型、是否为境外网站、移动权重值、运营商权重值中的至少一种。
根据本发明提供的一种风险网站识别方法,所述多模态数据还包括URL命名数据、网站图片和网站文本;所述基于所述多模态数据,确定所述待识别网站的多模态特征,还包括:
对URL命名数据进行特征提取,得到所述待识别网站的URL命名数据特征;所述URL命名数据特征包括是否为纯数字或纯字母、长度、是否是IP、后缀类型中的至少一种;
通过自然语言处理模型对网站文本进行特征提取,得到文本特征;
通过卷积神经网络特征提取器对网站图片进行特征提取,得到图片特征。
根据本发明提供的一种风险网站识别方法,所述对网站量化数据进行特征提取,得到所述待识别网站的网站量化数据特征,包括:
对网站量化数据进行统计分析处理;
对统计分析得到的网站量化数据进行特征提取,得到所述待识别网站的网站量化数据特征。
根据本发明提供的一种风险网站识别方法,所述获取待识别网站的多模态数据,包括:
通过爬虫技术,获取待识别网站的第一量化数据、URL命名数据、网站图片和网站文本;
通过第三方平台,获取待识别网站的第二量化数据;
将所述第一量化数据和所述第二量化数据作为所述待识别网站的网站量化数据。
根据本发明提供的一种风险网站识别方法,所述分类器通过以下方式进行训练:
获取网站样本数据集,所述网站样本数据集包括多模态样本数据以及对应的分类标签;
根据所述网站样本数据集,对深度学习神经网络进行分类训练,得到训练好的分类器。
根据本发明提供的一种风险网站识别方法,所述根据所述网站样本数据集,对深度学习神经网络进行分类训练,得到训练好的分类器,包括:
将所述网站样本数据集按照预设比例划分为训练集和测试集;
根据所述训练集,对深度学习神经网络进行分类训练,得到训练好的分类器;
采用所述测试集,对所述训练好的分类器进行评估;
根据评估结果,对所述训练好的分类器进行优化,得到最终训练好的分类器。
本发明还提供一种风险网站识别装置,包括:
多模态数据获取模块,用于获取待识别网站的多模态数据;
多模态特征确定模块,用于基于所述多模态数据,确定所述待识别网站的多模态特征;所述多模态特征至少包括网站量化数据特征、URL命名数据特征、图片特征和文本特征;
多模态特征融合模块,用于将所述多模态特征进行特征融合,得到多模态融合特征;
网站分类模块,用于将所述多模态融合特征输入训练好的分类器,得到针对所述待识别网站的分类结果;
风险网站识别模块,用于根据所述分类结果,确定所述待识别网站是否为风险网站。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一项所述的风险网站识别方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述的风险网站识别方法的步骤。
本发明提供的风险网站识别方法、装置、电子设备及存储介质,通过获取待识别网站的多模态数据,确定待识别网站的网站量化数据特征、URL命名数据特征、图片特征和文本特征等多模态特征,将多模态特征进行特征融合得到多模态融合特征,将多模态融合特征输入训练好的分类器,根据分类结果确定待识别网站是否为风险网站,可以充分利用不同模态的数据信息,通过多模态特征融合可以更全面更准确地识别风险网站,从而更好地提高新型风险网站的识别效果。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的风险网站识别方法的流程示意图;
图2是本发明实施例提供的利用自然语言处理模型进行文本特征提取的网络结构示意图;
图3是本发明实施例提供的利用神经网络进行图片特征提取的网络结构示意图;
图4是本发明实施例提供的基于多模态特征融合风险网站识别的流程图;
图5是本发明实施例提供的风险网站识别装置的结构示意图;
图6是本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例提供的风险网站识别方法的流程示意图。参照图1,本发明实施例提供一种风险网站识别方法,所述方法具体可以包括如下步骤:
步骤101,获取待识别网站的多模态数据。
需要说明的是,本发明实施例提供的风险网站识别方法的执行主体可以是服务器或计算机设备,例如手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,本发明在此不作限制。下面本发明实施例以服务器作为执行主体进行示例说明。
本发明实施例提供的风险网站识别方法可以应用于多种网站识别场景,可以在多种场景下进行风险网站的识别。作为一种示例,用户可以通过终端设备访问网站,服务器可以对用户当前访问的网站进行风险网站识别,从而识别用户当前访问的网站是否为风险网站;若识别出用户当前访问的网站为风险网站,服务器可以弹出风险提示。作为另一种示例,服务器可以对所有网站进行风险网站识别,并禁止对风险网站的访问。
风险网站可以是指互联网空间中存在潜在风险的网站,例如诈骗网站、网贷平台网站等等。在本发明实施例中,可以获取待识别网站的多个模态的网站数据,从而根据多个模态的网站数据识别该网站是否为风险网站。
步骤102,基于所述多模态数据,确定所述待识别网站的多模态特征;所述多模态特征至少包括网站量化数据特征、URL命名数据特征、图片特征和文本特征。
具体的,可以对采集到的每个模态的网站数据,分别进行预处理,得到预处理后的每个模态的网站数据。可以分别对预处理后的每个模态的网站数据进行特征提取,得到待识别网站的多个模态的特征。
其中,多个模态的特征可以至少包括网站量化数据特征、URL命名数据特征、图片特征和文本特征。
步骤103,将所述多模态特征进行特征融合,得到多模态融合特征。
具体的,可以采用特征级融合、决策级融合、深度融合等多种融合方法,将不同模态的网站量化数据特征、URL命名数据特征、图片特征和文本特征进行特征融合,得到一个综合表示,即得到多模态融合特征。
步骤104,将所述多模态融合特征输入训练好的分类器,得到针对所述待识别网站的分类结果。
可以将多模态特征融合后得到的多模态融合特征,输入训练好的分类器中,由训练好的分类器进行分类处理,得到针对待识别网站的分类结果。
其中,分类结果可以包括风险类型和非风险类型。
步骤105,根据所述分类结果,确定所述待识别网站是否为风险网站。
在本发明实施例中,可以根据分类器输出的各个分类结果的得分,确定待识别网站是否为风险网站。具体的,可以将分类器输出的各个分类结果的得分,由高到低进行排序,将排序最高的分类结果作为风险网站识别结果。
本发明实施例通过获取待识别网站的多模态数据,确定待识别网站的网站量化数据特征、URL命名数据特征、图片特征和文本特征等多模态特征,将多模态特征进行特征融合得到多模态融合特征,将多模态融合特征输入训练好的分类器,根据分类结果确定待识别网站是否为风险网站,可以充分利用不同模态的数据信息,通过多模态特征融合可以更全面更准确地识别风险网站,从而更好地提高新型风险网站的识别效果。
在一种可选的实施例中,所述获取待识别网站的多模态数据,包括:通过爬虫技术,获取待识别网站的第一量化数据、URL命名数据、网站图片和网站文本;通过第三方平台,获取待识别网站的第二量化数据;将所述第一量化数据和所述第二量化数据作为所述待识别网站的网站量化数据。
爬虫技术是一种自动化获取互联网上信息的技术,可以模拟浏览器的行为,通过发送超文本传输协议(Hypertext Transfer Protocol,HTTP)请求获取网页内容,并从中提取所需的数据。
在本发明实施例中,可以采用爬虫技术,自动收集待识别网站的网站域名、网站图片、网站文本、服务器信息、页面结构等多个模态的数据,并对收集到的多个模态的数据进行全面的数据分析。
同时,还可以通过第三方平台获取待识别网站的网站访问量等相关的量化数据。
本发明实施例通过爬虫技术和第三方平台等多渠道获取网站量化数据,可以获取到更加全面的网站量化数据,从而基于更加全面的网站量化数据进行风险网站识别,可以更加全面准确地进行风险网站识别,提高新型风险网站的识别效果。
在一种可选的实施例中,所述多模态数据至少包括网站量化数据;所述基于所述多模态数据,确定所述待识别网站的多模态特征,包括:对网站量化数据进行特征提取,得到所述待识别网站的网站量化数据特征;所述网站量化数据特征包括网站访问量、关联IP量、同IP网站量、网站是否备案、网站类型、是否为境外网站、搜索权重值、移动权重值中的至少一种。
网站访问量可以是指在一定时间内(可以以天、周、月为单位),待识别网站被访问的次数,可以用于评估网站流量和受欢迎程度。风险网站通常通过非法手段引导用户访问风险网站,使得网站访问量升高。在本发明实施例中,可以采用同IP网站量作为网站量化数据特征进行风险网站识别。
关联IP量可以是指在统计分析中针对网站访问或网络流量分析时的不同IP地址的数量,可以用于分析网站的访问情况。非法用户可能使用代理服务器或虚拟私人网络来隐藏真实IP地址,使得多个用户共享一个IP地址。在本发明实施例中,可以采用关联IP量作为网站量化数据特征进行风险网站识别。
同IP网站量可以是指位于同一IP地址下的网站数量,即使用相同IP地址的不同域名或网站的数量。如果同一IP地址下托管了大量的不同域名,这些域名与垃圾邮件等恶意活动相关,那么这个IP地址可能存在风险。在本发明实施例中,可以采用同IP网站量作为网站量化数据特征进行风险网站识别,可以更加全面准确地进行风险网站识别,提高新型风险网站的识别效果。
网站备案信息可以包括网站名称、域名、所有者信息等。若网站备案信息不全或网站未备案,该网站可能存在风险。在本发明实施例中,可以采用网站是否备案的信息作为网站量化数据特征进行风险网站识别。
风险网站的网站类型可以包括虚假销售网站、投资网站、借贷网站等类型。在本发明实施例中,可以采用网站类型作为网站量化数据特征进行风险网站识别。
若网站为境外网站,则该网站可能存在风险。在本发明实施例中,可以采用是否为境外网站的信息作为网站量化数据特征进行风险网站识别。
搜索引擎的算法通常会基于网站的内容质量、关键字相关性、外部链接质量等因素来确定网站的搜索排名。若网站的搜索权重值低,则该网站可能存在风险。在本发明实施例中,可以采用搜索权重值作为网站量化数据特征进行风险网站识别。
移动权重值是指搜索引擎对网站在移动设备上显示的适应性和用户体验的评估。由于风险网站通常会涉及风险行为,不符合搜索引擎对于合法性和内容质量的要求,移动权重值通常较低。在本发明实施例中,可以采用移动权重值作为网站量化数据特征进行风险网站识别。
本发明实施例通过提取待识别网站的网站访问量、关联IP量、同IP网站量、网站是否备案、网站类型、是否为境外网站、移动权重值、运营商权重值等多个模态的网站量化数据特征进行风险网站识别,可以更加全面准确地进行风险网站识别,提高新型风险网站的识别效果。
在一种可选的实施例中,所述对网站量化数据进行特征提取,得到所述待识别网站的网站量化数据特征,包括:对网站量化数据进行统计分析处理;对统计分析得到的网站量化数据进行特征提取,得到所述待识别网站的网站量化数据特征。
在本发明实施例中,在通过爬虫技术和第三方平台等多渠道采集到网站量化数据之后,可以对网站量化数据进行数据分析统计等预处理,例如分析统计网站访问量、关联IP量、同IP网站量等,可以挖掘分析得到统计整合的网站量化数据,并将网站量化数据转化为可用于特征提取的形式进行特征提取,从而可以基于更加全面的网站量化数据进行风险网站识别,可以更加全面准确地进行风险网站识别,提高新型风险网站的识别效果。
在一种可选的实施例中,所述多模态数据还包括URL命名数据、网站图片和网站文本;所述基于所述多模态数据,确定所述待识别网站的多模态特征,还包括:对URL命名数据进行特征提取,得到所述待识别网站的URL命名数据特征;所述URL命名数据特征包括是否为纯数字或纯字母、长度、是否是IP、后缀类型中的至少一种;通过自然语言处理模型对网站文本进行特征提取,得到文本特征;通过卷积神经网络特征提取器对网站图片进行特征提取,得到图片特征。
在本发明实施例中,在采集到URL命名数据、网站图片和网站文本之后,可以首先对采集到的数据进行文本分词、图像处理、量化数据等预处理操作,从而将URL命名数据、网站图片和网站文本转化为可用于特征提取的形式。在进行数据预处理后,可以对预处理后的数据进行特征提取,在针对网站量化数据进行特征提取的同时,针对URL命名数据、网站图片和网站文本提取相应的特征。
具体的,对于采集到的URL命名数据,可以对URL命名数据进行预处理,对预处理后的URL命名数据进行特征提取,提取是否为纯数字或纯字母、长度、是否是IP、后缀类型等URL命名数据特征。
对于采集到的网站文本,可以合并网站超文本标记语言(Hyper Text MarkupLanguage,HTML)里的文本和网站截图OCR(Optical Character Recognition,光学字符识别)识别得到的文本,对网站文本进行文本数据分词、去除停用词等文本预处理操作。
图2是本发明实施例提供的利用自然语言处理模型进行文本特征提取的网络结构示意图。参照图2,可以使用BERT(Bidirectional Encoder Representations fromTransformers,基于Transformer的双向编码模型)进行双向Transformer模型的EncoderLayer进行文本特征提取,得到文本特征。
具体的,可以将网站文本Sentence A和Sentence B作为BERT模型的输入文本。BERT模型在文本前插入[CLS]符号,并将该符号对应的输出向量作为整篇文本的语义表示,并对输入的Sentence A和Sentence B用一个[SEP]符号作分割,Sentence A的Token1…Tokenn相应的向量表示分别为E1…En,Sentence B的Token1…Tokenn相应的向量表示为E`1…E`n。将各向量表示输入双向Transformer模型进行文本特征提取,可以得到SentenceA对应的文本特征T1…Tn,以及Sentence B对应的文本特征T`1…T`n。在BERT模型预训练时,可以通过NSP(Next Sentence Prediction,下一句预测)和MLM(Mask Language Model,遮蔽语言模型)两个预训练任务来训练BERT模型。
图3是本发明实施例提供的利用神经网络进行图片特征提取的网络结构示意图。参照图3,Input可以表示输入的增强处理后的网站图片;Conv层为卷积层,可以对输入的图片进行卷积操作;Dense层为全连接层,可以将卷积层提取的网站图片特征进行分类或回归;Down层为下采样层,可以降低特征图的空间尺寸;Up层为上采样层,可以增加特征图的空间尺寸。
对于采集到的网站图片,对图片进行图片增强处理后,将增强处理后的网站图片输入卷积神经网络特征提取器,可以通过Conv层使用卷积操作提取图像特征,通过Dense层将卷积层提取的网站图片特征进行分类,通过使用Down层逐渐降低特征图的空间尺寸和通道数,以提取高级别的语义特征,通过使用Up层进行上采样操作,逐步恢复特征图的细节信息,最终生成与输入图像尺寸相同的输出,从而可以通过卷积神经网络特征提取器对增强处理后的网站图片进行特征提取,提取图片特征向量。
本发明实施例通过在提取网站量化数据特征的同时,提取文本、图像、URL模态特征,可以充分利用不同模态的数据信息,通过多模态特征融合进行识别,提高新型诈骗网站的识别效果。
本发明实施例通过利用自然语言处理模型和卷积神经网络模型进行特征提取,可以增强大规模数据处理和实时分析能力。
在一种可选的实施例中,所述分类器通过以下方式进行训练:获取网站样本数据集,所述网站样本数据集包括多模态样本数据以及对应的分类标签;根据所述网站样本数据集,对深度学习神经网络进行分类训练,得到训练好的分类器。
在本发明实施例中,可以通过爬虫技术、第三方平台等多种方式,自动收集大量网站的网站信息。可以对收集到多个网站的多模态网站信息进行文本分词、图像处理、量化数据等预处理,并对预处理后的数据进行特征提取,提取网站量化数据特征、URL命名数据特征、文本特征和图像特征。可以对多模态特征进行特征融合,得到多个网站的多模态融合特征作为多模态样本数据,并结合对应的分类标签构建网站样本数据集。
可以将多模态融合特征作为输入,结合对应的分类标签对深度学习神经网络进行分类训练,得到训练好的分类器。
在一种可选的实施例中,所述根据所述网站样本数据集,对深度学习神经网络进行分类训练,得到训练好的分类器,包括:将所述网站样本数据集按照预设比例划分为训练集和测试集;根据所述训练集,对深度学习神经网络进行分类训练,得到训练好的分类器;采用所述测试集,对所述训练好的分类器进行评估;根据评估结果,对所述训练好的分类器进行优化,得到最终训练好的分类器。
具体的,可以将网站样本数据集按照预设比例划分为训练集和测试集,示例性地,预设比例可以为训练集:测试集=10:1。
可以根据训练集对深度学习神经网络进行分类训练,得到训练好的分类器。可以采用测试集对训练好的分类器进行评估,计算出准确率、召回率、F1值等性能指标,以评估分类器的性能。可以根据评估结果,通过调整模型的参数、改进特征提取方法等,对训练好的分类器进行优化,得到最终训练好的分类器。
在得到最终训练好的分类器后,可以将优化后的分类器部署到网站安全检测系统等,以在实际应用中实现对风险网站的自动识别。
图4是本发明实施例提供的基于多模态特征融合风险网站识别的流程图。参照图4,在获取多模态的网站数据集后,在网站量化数据模态下,可以将URL导入系统,基于网站域名获取网站访问量、网站关联IP等网站量化数据,对网站相关的各种量化数据进行特征工程;在URL命名模态下,可以获取URL命名是否纯数字或纯字母、长度、是否是IP、后缀类型等数据,对URL命名相关数据进行特征工程;在图片模态下,可以将URL导入系统获取网站截图,对图片数据进行尺度调整、裁剪等预处理操作;在文本模态下,可以将URL导入系统获取网站架构中的网站文本内容,合并网站html里的文本和网站截图OCR识别得到的文本,对文本做预处理,进行文本数据分词、去除停用词等操作。
可以对每个模态的特征进行特征提取,将提取得到的网站量化数据特征、URL命名数据特征、图片特征和文本特征使用拼接融合、加权融合或注意力机制等方法,得到每个样本的多模态融合特征表示。
可以将多模态融合特征表示输入到分类器进行推理,得到风险网站分类结果信息,并根据分类结果,确定待识别网站是否为风险网站。
本发明实施例通过获取待识别网站的多模态数据,确定待识别网站的网站量化数据特征、URL命名数据特征、图片特征和文本特征等多模态特征,将多模态特征进行特征融合得到多模态融合特征,根据多模态融合特征对分类器进行训练得到训练好的分类器,在实际应用中可以通过训练好的分类器确定待识别网站是否为风险网站,从而可以充分利用不同模态的数据信息,通过多模态特征融合更全面更准确地识别风险网站,从而更好地提高新型风险网站的识别效果。
下面对本发明提供的风险网站识别装置进行描述,下文描述的风险网站识别装置与上文描述的风险网站识别方法可相互对应参照。
图5是本发明实施例提供的风险网站识别装置的结构示意图。参照图5,本发明实施例提供一种风险网站识别装置,所述装置具体可以包括如下模块:
多模态数据获取模块501,用于获取待识别网站的多模态数据;
多模态特征确定模块502,用于基于所述多模态数据,确定所述待识别网站的多模态特征;所述多模态特征至少包括网站量化数据特征、URL命名数据特征、图片特征和文本特征;
多模态特征融合模块503,用于将所述多模态特征进行特征融合,得到多模态融合特征;
网站分类模块504,用于将所述多模态融合特征输入训练好的分类器,得到针对所述待识别网站的分类结果;
风险网站识别模块505,用于根据所述分类结果,确定所述待识别网站是否为风险网站。
在一种可选的实施例中,所述多模态数据至少包括网站量化数据;所述多模态特征确定模块,具体用于:
对网站量化数据进行特征提取,得到所述待识别网站的网站量化数据特征;所述网站量化数据特征包括网站访问量、关联IP量、同IP网站量、网站是否备案、网站类型、是否为境外网站、移动权重值、运营商权重值中的至少一种。
在一种可选的实施例中,所述多模态数据还包括URL命名数据、网站图片和网站文本;所述多模态特征确定模块,具体还用于:
对URL命名数据进行特征提取,得到所述待识别网站的URL命名数据特征;所述URL命名数据特征包括是否为纯数字或纯字母、长度、是否是IP、后缀类型中的至少一种;
通过自然语言处理模型对网站文本进行特征提取,得到文本特征;
通过卷积神经网络特征提取器对网站图片进行特征提取,得到图片特征。
在一种可选的实施例中,所述多模态特征确定模块,具体用于:
对网站量化数据进行统计分析处理;
对统计分析得到的网站量化数据进行特征提取,得到所述待识别网站的网站量化数据特征。
在一种可选的实施例中,所述多模态数据获取模块,具体用于:
通过爬虫技术,获取待识别网站的第一量化数据、URL命名数据、网站图片和网站文本;
通过第三方平台,获取待识别网站的第二量化数据;
将所述第一量化数据和所述第二量化数据作为所述待识别网站的网站量化数据。
在一种可选的实施例中,所述分类器通过以下模块进行训练:
样本数据集获取模块,用于获取网站样本数据集,所述网站样本数据集包括多模态样本数据以及对应的分类标签;
分类训练模块,用于根据所述网站样本数据集,对深度学习神经网络进行分类训练,得到训练好的分类器。
在一种可选的实施例中,所述分类训练模块,具体用于:
将所述网站样本数据集按照预设比例划分为训练集和测试集;
根据所述训练集,对深度学习神经网络进行分类训练,得到训练好的分类器;
采用所述测试集,对所述训练好的分类器进行评估;
根据评估结果,对所述训练好的分类器进行优化,得到最终训练好的分类器。
本发明实施例通过获取待识别网站的多模态数据,确定待识别网站的网站量化数据特征、URL命名数据特征、图片特征和文本特征等多模态特征,将多模态特征进行特征融合得到多模态融合特征,将多模态融合特征输入训练好的分类器,根据分类结果确定待识别网站是否为风险网站,可以充分利用不同模态的数据信息,通过多模态特征融合可以更全面更准确地识别风险网站,从而更好地提高新型风险网站的识别效果。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行风险网站识别方法,所述方法包括:
获取待识别网站的多模态数据;
基于所述多模态数据,确定所述待识别网站的多模态特征;所述多模态特征至少包括网站量化数据特征、URL命名数据特征、图片特征和文本特征;
将所述多模态特征进行特征融合,得到多模态融合特征;
将所述多模态融合特征输入训练好的分类器,得到针对所述待识别网站的分类结果;
根据所述分类结果,确定所述待识别网站是否为风险网站。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的风险网站识别方法,所述方法包括:
获取待识别网站的多模态数据;
基于所述多模态数据,确定所述待识别网站的多模态特征;所述多模态特征至少包括网站量化数据特征、URL命名数据特征、图片特征和文本特征;
将所述多模态特征进行特征融合,得到多模态融合特征;
将所述多模态融合特征输入训练好的分类器,得到针对所述待识别网站的分类结果;
根据所述分类结果,确定所述待识别网站是否为风险网站。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种风险网站识别方法,其特征在于,包括:
获取待识别网站的多模态数据;
基于所述多模态数据,确定所述待识别网站的多模态特征;所述多模态特征至少包括网站量化数据特征、URL命名数据特征、图片特征和文本特征;
将所述多模态特征进行特征融合,得到多模态融合特征;
将所述多模态融合特征输入训练好的分类器,得到针对所述待识别网站的分类结果;
根据所述分类结果,确定所述待识别网站是否为风险网站。
2.根据权利要求1所述的方法,其特征在于,所述多模态数据至少包括网站量化数据;所述基于所述多模态数据,确定所述待识别网站的多模态特征,包括:
对网站量化数据进行特征提取,得到所述待识别网站的网站量化数据特征;所述网站量化数据特征包括网站访问量、关联IP量、同IP网站量、网站是否备案、网站类型、是否为境外网站、移动权重值、运营商权重值中的至少一种。
3.根据权利要求2所述的方法,其特征在于,所述多模态数据还包括URL命名数据、网站图片和网站文本;所述基于所述多模态数据,确定所述待识别网站的多模态特征,还包括:
对URL命名数据进行特征提取,得到所述待识别网站的URL命名数据特征;所述URL命名数据特征包括是否为纯数字或纯字母、长度、是否是IP、后缀类型中的至少一种;
通过自然语言处理模型对网站文本进行特征提取,得到文本特征;
通过卷积神经网络特征提取器对网站图片进行特征提取,得到图片特征。
4.根据权利要求2所述的方法,其特征在于,所述对网站量化数据进行特征提取,得到所述待识别网站的网站量化数据特征,包括:
对网站量化数据进行统计分析处理;
对统计分析得到的网站量化数据进行特征提取,得到所述待识别网站的网站量化数据特征。
5.根据权利要求1所述的方法,其特征在于,所述获取待识别网站的多模态数据,包括:
通过爬虫技术,获取待识别网站的第一量化数据、URL命名数据、网站图片和网站文本;
通过第三方平台,获取待识别网站的第二量化数据;
将所述第一量化数据和所述第二量化数据作为所述待识别网站的网站量化数据。
6.根据权利要求1所述的方法,其特征在于,所述分类器通过以下方式进行训练:
获取网站样本数据集,所述网站样本数据集包括多模态样本数据以及对应的分类标签;
根据所述网站样本数据集,对深度学习神经网络进行分类训练,得到训练好的分类器。
7.根据权利要求6所述的方法,其特征在于,所述根据所述网站样本数据集,对深度学习神经网络进行分类训练,得到训练好的分类器,包括:
将所述网站样本数据集按照预设比例划分为训练集和测试集;
根据所述训练集,对深度学习神经网络进行分类训练,得到训练好的分类器;
采用所述测试集,对所述训练好的分类器进行评估;
根据评估结果,对所述训练好的分类器进行优化,得到最终训练好的分类器。
8.一种风险网站识别装置,其特征在于,包括:
多模态数据获取模块,用于获取待识别网站的多模态数据;
多模态特征确定模块,用于基于所述多模态数据,确定所述待识别网站的多模态特征;所述多模态特征至少包括网站量化数据特征、URL命名数据特征、图片特征和文本特征;
多模态特征融合模块,用于将所述多模态特征进行特征融合,得到多模态融合特征;
网站分类模块,用于将所述多模态融合特征输入训练好的分类器,得到针对所述待识别网站的分类结果;
风险网站识别模块,用于根据所述分类结果,确定所述待识别网站是否为风险网站。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述的风险网站识别方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的风险网站识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410096011.8A CN117614749A (zh) | 2024-01-24 | 2024-01-24 | 风险网站识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410096011.8A CN117614749A (zh) | 2024-01-24 | 2024-01-24 | 风险网站识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117614749A true CN117614749A (zh) | 2024-02-27 |
Family
ID=89952082
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410096011.8A Pending CN117614749A (zh) | 2024-01-24 | 2024-01-24 | 风险网站识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117614749A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113225343A (zh) * | 2021-05-10 | 2021-08-06 | 广州掌动智能科技有限公司 | 一种基于身份特征信息的风险网站识别方法及系统 |
CN113901376A (zh) * | 2021-12-09 | 2022-01-07 | 中国电子科技集团公司信息科学研究院 | 恶意网站检测方法、装置、电子设备和计算机存储介质 |
CN114817808A (zh) * | 2022-04-28 | 2022-07-29 | 杭州安恒信息技术股份有限公司 | 非法网站识别方法、装置、电子装置和存储介质 |
CN115470488A (zh) * | 2022-08-30 | 2022-12-13 | 珠海高凌信息科技股份有限公司 | 目标风险网站检测方法、装置及存储介质 |
WO2023159755A1 (zh) * | 2022-02-22 | 2023-08-31 | 平安科技(深圳)有限公司 | 虚假新闻检测方法、装置、设备及存储介质 |
CN116722992A (zh) * | 2023-02-22 | 2023-09-08 | 浙江警察学院 | 一种基于多模态融合的诈骗网站识别方法及装置 |
-
2024
- 2024-01-24 CN CN202410096011.8A patent/CN117614749A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113225343A (zh) * | 2021-05-10 | 2021-08-06 | 广州掌动智能科技有限公司 | 一种基于身份特征信息的风险网站识别方法及系统 |
CN113901376A (zh) * | 2021-12-09 | 2022-01-07 | 中国电子科技集团公司信息科学研究院 | 恶意网站检测方法、装置、电子设备和计算机存储介质 |
WO2023159755A1 (zh) * | 2022-02-22 | 2023-08-31 | 平安科技(深圳)有限公司 | 虚假新闻检测方法、装置、设备及存储介质 |
CN114817808A (zh) * | 2022-04-28 | 2022-07-29 | 杭州安恒信息技术股份有限公司 | 非法网站识别方法、装置、电子装置和存储介质 |
CN115470488A (zh) * | 2022-08-30 | 2022-12-13 | 珠海高凌信息科技股份有限公司 | 目标风险网站检测方法、装置及存储介质 |
CN116722992A (zh) * | 2023-02-22 | 2023-09-08 | 浙江警察学院 | 一种基于多模态融合的诈骗网站识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104766014B (zh) | 用于检测恶意网址的方法和系统 | |
CN107590169B (zh) | 一种运营商网关数据的预处理方法及系统 | |
CN109472207B (zh) | 情绪识别方法、装置、设备及存储介质 | |
CN108038173B (zh) | 一种网页分类方法、系统及一种网页分类设备 | |
CN109783631B (zh) | 社区问答数据的校验方法、装置、计算机设备和存储介质 | |
CN112541476B (zh) | 一种基于语义特征提取的恶意网页识别方法 | |
CN109391706A (zh) | 基于深度学习的域名检测方法、装置、设备和存储介质 | |
CN106874253A (zh) | 识别敏感信息的方法及装置 | |
CN111107048A (zh) | 一种钓鱼网站检测方法、装置和存储介质 | |
WO2017121076A1 (zh) | 信息推送方法和装置 | |
CN111143654B (zh) | 辅助识别爬虫的、爬虫识别方法、装置及电子设备 | |
CN109344246B (zh) | 一种电子问卷生成方法、计算机可读存储介质及终端设备 | |
CN110781669A (zh) | 文本关键信息提取方法与装置、电子设备、存储介质 | |
CN116150651A (zh) | 基于ai的深度合成检测方法和系统 | |
CN107766498A (zh) | 用于生成信息的方法和装置 | |
JP2023544925A (ja) | データ評価方法、トレーニング方法および装置、電子機器、記憶媒体、コンピュータプログラム | |
CN110852071A (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
US20150339786A1 (en) | Forensic system, forensic method, and forensic program | |
CN115982388A (zh) | 案件质控图谱建立、案件文书质检方法、设备及存储介质 | |
CN112732908B (zh) | 试题新颖度评估方法、装置、电子设备和存储介质 | |
CN117614749A (zh) | 风险网站识别方法、装置、电子设备及存储介质 | |
CN108897739A (zh) | 一种智能化的应用流量识别特征自动挖掘方法与系统 | |
CN114595309A (zh) | 一种培训装置实现方法及系统 | |
CN114021064A (zh) | 网站分类方法、装置、设备及存储介质 | |
CN113051607A (zh) | 一种隐私政策信息提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |