CN114692593B - 一种网络信息安全监测预警方法 - Google Patents
一种网络信息安全监测预警方法 Download PDFInfo
- Publication number
- CN114692593B CN114692593B CN202210277602.6A CN202210277602A CN114692593B CN 114692593 B CN114692593 B CN 114692593B CN 202210277602 A CN202210277602 A CN 202210277602A CN 114692593 B CN114692593 B CN 114692593B
- Authority
- CN
- China
- Prior art keywords
- text
- network information
- transaction
- early warning
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/20—Network architectures or network communication protocols for network security for managing network security; network security policies in general
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Finance (AREA)
- Computer Security & Cryptography (AREA)
- Accounting & Taxation (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种网络信息安全监测预警方法,包括:在目标站点中获取待监测类别的网络信息;基于RoFormer‑Sim模型将整合处理后的文本数据生成文本向量,所述文本向量包含文本数据的语义内容;根据所述文本向量对所述暗网商城内与所述语义内容相同和/或相似的商品信息进行聚类分析,得到所述待监测类别的网络信息的聚类中心;基于所述聚类中心在所述暗网论坛中的文本数据进行相似度计算,得到文本相似度值;根据所述聚类中心和所述文本相似度值对所述待监测类别的网络信息的安全状况完成评分。对暗网相关数据的安全状况进行评估,最终评估结果以评分的方式展现,暗网相关数据的安全状况的真实度与重要性与评估所得分值成正比,评估更全面,进行实时评估预警。
Description
技术领域
本申请涉及信息安全、网络监测及电子数据取证技术领域,尤其是涉及一种网络信息安全监测预警方法。
背景技术
暗网网站是活跃在暗网空间中的一类网站的统称,这类网站无法通过常规浏览器直接搜索访问,需使用特定的软件和服务来配置访问通道。暗网由于其具备的层层加密、无法溯源的特性,虽然在保护用户的隐私方面性能强大,但其开发的隐藏服务网站非常容易滋生以网络为勾联工具的各类违法犯罪。在暗网网站强匿名的前提下,如何有效地进行暗网内容分析并从中获取侦查线索便成了暗网研究的关键。针对暗网内容提取分析技术,国内外的很多学者都开展了深入研究。
当前的暗网分析研究内容中,大多基于分类、敏感词等对暗网中的敏感事件进行发现或进行暗网的学术性研究,并未考虑到暗网中由于其匿名、人人都可发布、刻意伪装等特性导致在暗网中大量包含虚假信息这一重要特点,而且在暗网中的敏感事件众多,如果不对消息的真实性进行评估和对重要性进行分析,则会导致大量警力资源浪费在虚假信息的侦查上。
发明内容
有鉴于此,本申请的目的在于提供一种网络信息安全监测预警方法,对暗网中网络信息安全,例如,侵犯公民个人信息内容的真实性和重要性进行评估,筛选出真实有效的数据,侦查人员可根据实际情况设定预警分数阈值,确定侦查范围和侦查线索,极大提高了暗网数据分析的实战应用价值;可实现对暗网中侵犯公民个人信息犯罪的无监督监测预警,可以很大程度地节约警力、避免警力浪费在对于不必要信息的检索和侦查;还可实现对暗网侵犯公民个人信息犯罪的实时监测,可为犯罪防御及各类信息系统监管提供有效帮助。可扩展应用于其他类型的暗网犯罪信息的评估。
本申请实施例提供了一种网络信息安全监测预警方法,包括:
在目标站点中获取待监测类别的网络信息,其中,所述目标站点为暗网中文商城和暗网论坛;
在所述待监测类别的网络信息中提取所述网络信息的文本数据,对所述文本数据进行分词和整合处理;
基于RoFormer-Sim模型将整合处理后的文本数据生成文本向量,所述文本向量包含文本数据的语义内容;
根据所述文本向量对所述暗网中文商城内与所述语义内容相同和/或相似的商品信息进行聚类分析,得到所述待监测类别的网络信息的聚类中心;
基于所述聚类中心在所述暗网论坛中的文本数据进行相似度计算,得到文本相似度值;
根据所述聚类中心和所述文本相似度值对所述待监测类别的网络信息的安全状况完成评分。
可选的,所述方法,还包括:
在所述暗网中文商城中获取所述待监测类别的网络信息的交易数据;
基于所述交易数据、所述聚类中心和所述文本相似度值对所述待监测类别的网络信息的安全状况完成评分。
可选的,所述在目标站点中获取待监测类别的网络信息的步骤,包括:
通过Scrapy爬虫框架和Selenium框架对所述目标站点进行捕获、整理,得到所述待监测类别的网络信息。
可选的,所述在所述待监测类别的网络信息中提取所述网络信息的文本数据,对所述文本数据进行分词和整合处理的步骤,包括:
在所述待监测类别的网络信息中提取所述网络信息的文本数据;
对所述文本数据使用分词工具进行分词;
将分词后的文本数据按照预设停用词表去除停用词,所述预设停用词表为结合开源停用词表构建的暗网中文停用词表;
将去除停用词后的文本数据整合成句;
将完成整合的句连接预设标题,完成对所述文本数据进行分词和整合处理,所述预设标题对应所述待监测类别的网络信息。
可选的,所述根据所述文本向量对所述暗网中文商城内与所述语义内容相同和/或相似的商品信息进行聚类分析的步骤,包括:
采用K-Means聚类方法进行所述暗网中文商城内与所述语义内容相同和/或相似的商品信息的聚类分析,其中,K-Means算法的k值选取所述暗网中文商城内与所述语义内容相同和/或相似的商品信息的全部商品数量的15%作为类别数量。
可选的,在所述根据所述文本向量对所述暗网中文商城内与所述语义内容相同和/或相似的商品信息进行聚类分析,得到所述待监测类别的网络信息的聚类中心的步骤之前,还包括:
以聚类效果作为评价标准选取文本向量生成模型。
可选的,所述以聚类效果作为评价标准选取文本向量生成模型的步骤,包括:
采用K-Means聚类方法,在5000个样本中选取大量均匀分布的K值进行聚类,分别计算轮廓系数,基于轮廓系数的最大值与极差对文本向量生成模型进行初步评估。
可选的,所述基于所述聚类中心在所述暗网论坛中的文本数据进行相似度计算,得到文本相似度值的步骤,包括:
基于文本向量之间的空间距离来从所述暗网论坛中的文本数据中搜索与所述聚类中心相关内容;
针对所述暗网论坛中的文本数据的每一个单句,分别与所述聚类中心依次进行相似度计算,形成一对一的文本相似度值。
可选的,在所述根据所述聚类中心和所述文本相似度值对所述待监测类别的网络信息的安全状况完成评分的步骤之前,还包括:
将所述文本相似度值与预设阈值进行对比,得到满足所述预设阈值的文本相似度值。
可选的,所述基于所述交易数据、所述聚类中心和所述文本相似度值对所述待监测类别的网络信息的安全状况完成评分的步骤,包括:
对所述交易数据、所述聚类中心和所述文本相似度值分别量化,分别赋予相应的权重进行整合,得到0至10分的预警评估分值。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种网络信息安全监测预警方法的流程图;
图2示出了本申请实施例所提供的一种网络信息安全监测预警方法的功能实现流程图;
图3示出了本申请实施例所提供的一种网络信息安全监测预警方法的文本相似度搜索流程图。
图4示出了本申请实施例所提供的一种网络信息安全监测预警方法的监测界面样例。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
首先,对本申请可适用的应用场景进行介绍。本申请可应用于暗网管控的场景。
经研究发现,当前的暗网分析研究内容中,大多基于分类、敏感词等对暗网中的敏感事件进行发现或进行暗网的学术性研究,并未考虑到暗网中由于其匿名、人人都可发布、刻意伪装等特性导致在暗网中大量包含虚假信息这一重要特点,而且在暗网中的敏感事件众多,如果不对消息的真实性进行评估和对重要性进行分析,则会导致大量警力资源浪费在虚假信息的侦查上。
基于此,本申请实施例提供了一种网络信息安全监测预警方法,对暗网中网络信息安全,例如,侵犯公民个人信息内容的真实性和重要性进行评估,筛选出真实有效的数据,侦查人员可根据实际情况设定预警分数阈值,确定侦查范围和侦查线索,极大提高了暗网数据分析的实战应用价值;可实现对暗网中侵犯公民个人信息犯罪的无监督预警,可以很大程度地节约警力、避免警力浪费在对于不必要信息的检索和侦查上;还可实现对暗网侵犯公民个人信息犯罪的实时监测,可为犯罪防御及各类信息系统监管提供有效帮助。可扩展应用于其他类型的暗网犯罪信息的评估。
如图1中所示,本申请实施例提供的网络信息安全监测预警方法,包括:
S101、在目标站点中获取待监测类别的网络信息,其中,所述目标站点为暗网中文商城和暗网论坛;
S102、在所述待监测类别的网络信息中提取所述网络信息的文本数据,对所述文本数据进行分词和整合处理;
S103、基于RoFormer-Sim模型将整合处理后的文本数据生成文本向量,所述文本向量包含文本数据的语义内容;
S104、根据所述文本向量对所述暗网中文商城内与所述语义内容相同和/或相似的商品信息进行聚类分析,得到所述待监测类别的网络信息的聚类中心;
S105、基于所述聚类中心在所述暗网论坛中的文本数据进行相似度计算,得到文本相似度值;
S106、根据所述聚类中心和所述文本相似度值对所述待监测类别的网络信息的安全状况完成评分。
示例性的,通过数据获取、数据预处理、句向量生成、暗网商品聚类分析、暗网论坛相似度搜索、预警评估六个步骤,从海量的暗网数据中筛选出较为重要、可靠的侵犯公民个人信息犯罪的交易线索,并可以实时地对新内容根据过往的经验进行评估预警,减少侦查部门的暗网侦查线索获取成本,节约警力资源。同时可以方便公安部门对潜在受害者进行提醒,并对泄露公民个人信息的部门、机构进行系统漏洞的警示以及必要的监管。
在一种可能的实施方式中,所述方法,还包括:
在所述暗网中文商城中获取所述待监测类别的网络信息的交易数据;
基于所述交易数据、所述聚类中心和所述文本相似度值对所述待监测类别的网络信息的安全状况完成评分。
在一种可能的实施方式中,所述在目标站点中获取待监测类别的网络信息的步骤,包括:
通过Scrapy爬虫框架和Selenium框架对所述目标站点进行捕获、整理,得到所述待监测类别的网络信息。
示例性的,研究选取常用暗网中文商城、论坛作为目标站点,在目标站点上注册账号,通过本机配置Proxy服务、Tor服务以及网络协议转换等服务,编写Scrapy爬虫框架结合Selenium框架对目标网站进行捕获、整理并存入数据库当中。从商城交易内容的类别中筛选出侵犯公民个人信息的交易内容以及论坛的所有讨论内容参与下一步处理分析。
在一种可能的实施方式中,所述在所述待监测类别的网络信息中提取所述网络信息的文本数据,对所述文本数据进行分词和整合处理的步骤,包括:
在所述待监测类别的网络信息中提取所述网络信息的文本数据;
对所述文本数据使用分词工具进行分词;
将分词后的文本数据按照预设停用词表去除停用词,所述预设停用词表为结合开源停用词表构建的暗网中文停用词表;
将去除停用词后的文本数据整合成句;
将完成整合的句连接预设标题,完成对所述文本数据进行分词和整合处理,所述预设标题对应所述待监测类别的网络信息。
示例性的,提取所爬取到的暗网中文商城、论坛的文本数据,使用分词工具进行分词,结合开源停用词表构建暗网中文停用词表,将暗网文本去除停用词后整合成句。连接整理好的标题与内容,根据标点符号分句并保存。
在一种可能的实施方式中,所述根据所述文本向量对所述暗网中文商城内与所述语义内容相同和/或相似的商品信息进行聚类分析的步骤,包括:
采用K-Means聚类方法进行所述暗网中文商城内与所述语义内容相同和/或相似的商品信息的聚类分析,其中,K-Means算法的k值选取所述暗网中文商城内与所述语义内容相同和/或相似的商品信息的全部商品数量的15%作为类别数量。
示例性的,在暗网商城内部,将具有较高语义相似度的商品无监督汇聚成大量的类别,并将同一类别的商品认为成相同或相似商品。聚类所获得的相同或相似商品数目即代表了该商品在商城中的市场规模,同时也代表了该商品具有一定真实性和可信度,基于聚类对商品数量的分析可以在一定程度上对该商品的市场规模进行量化,从而对该商品的真实度进行评估以便进行预警。
预警方法采用K-Means聚类方法进行暗网商城数据的聚类分析,其好处是可以在无标注数据上通过经验确定所需要的类别数量。由于同一商品的相似商品数量一般不会超过20个,所以可以选取全部商品数量的15%作为类别数量,即K-Means算法的k值。选取较小的k值可以保证即使类别数量较高的商品被分为不止一个类别,往往其数目也高于其他类别,防止同一类别的商品因为类别数量过大导致的与其他商品在同一类别数量上相差较小的情况。
在一种可能的实施方式中,在所述根据所述文本向量对所述暗网中文商城内与所述语义内容相同和/或相似的商品信息进行聚类分析,得到所述待监测类别的网络信息的聚类中心的步骤之前,还包括:
以聚类效果作为评价标准选取文本向量生成模型。
在一种可能的实施方式中,所述以聚类效果作为评价标准选取文本向量生成模型的步骤,包括:
采用K-Means聚类方法,在5000个样本中选取大量均匀分布的K值进行聚类,分别计算轮廓系数,基于轮廓系数的最大值与极差对文本向量生成模型进行初步评估。
示例性的,暗网文本句向量生成的目的是将中文文本转化成算法可以识别的有意义的高维向量。将文本的语义转化成向量的形式进行表示,可以使向量包含文本中所包含的信息内容,使相似的向量在空间中距离更近,有助于判断语义的相似程度。
为了对比多个基于BERT的中文文本向量生成模型,本文从暗网中文商城标题中选取5000个经过预处理且字符长度小于50的标题文本作为样本数据,应用多个经过预训练的BERT模型变体直接应用或微调,实现句向量生成。最终以聚类效果作为评价标准选取文本向量生成模型。
在模型聚类效果的初步评估中,方法依次采取了三个步骤:首先采用K-Means聚类方法,在5000个样本中选取大量均匀分布的K值进行聚类,再分别计算轮廓系数,最后轮廓系数的最大值与极差对文本向量生成模型进行初步评估。轮廓系数计算方法如式所示:
其中,S为轮廓系数,a为数据帧与簇内其他样本的平均距离,b为该数据帧与距其最近的另一个簇中样本的平均距离。簇内距离最小和簇间距离最大时,轮廓系数值最大,聚类效果最好[14]。方法对嵌入方法所生成的同一文本向量空间分布中采用不同K值进行聚类,分别计算出K值下的轮廓系数,采用轮廓系数最大值和极差来对文本向量空间分布状态进行评估。方法认为,当一种文本嵌入方法在样本中包含相似文本的前提下,所生成的文本向量趋近于在空间中均匀分布时,其在不同K值下的轮廓系数值相差较小,则并未在文本嵌入过程中有效地区分相似文本与非相似文本的差异;反之,当嵌入方法所生成的向量在空间中倾向于成“簇”状分布时,说明嵌入方法有效地对相似文本与非相似文本进行了区分,即K值的选取对聚类效果有较大的影响,则聚类结果在不同K值下的轮廓系数值相差较大,轮廓系数极差较大。而轮廓系数值自身的大小代表了簇的凝聚度以及簇间分离度,故方法采用轮廓系数的最大值和极差来作为模型在暗网文本上嵌入效果的初步评估标准。
在初步评估中,本文测试了多个基于BERT的中文模型,包括原版中文BERT模型、RoBERTa-wwm、NEZHA、SimBERT、RoFormer-Sim,均选取base版,并基于Sim-CSE模型方法对RoBERTa-wwm模型在5000个暗网商城样本下进行一轮微调。采用以上模型选取cls位置向量、Encoder最后一层的平均值、Encoder第一层和最后一层向量平均值的pooling方式生成文本向量,然后使用K-means聚类方法在全部样本数量的10%至60%范围内均匀选取K值进行聚类,最后获得该范围内Cosine轮廓系数的极值和极差,对BERT模型进行聚类效果对比。模型对比结果如表1所示。
表1 BERT模型对比结果
但在进一步对模型聚类结果进行人工比较中发现,经过Sim-CSE在不同参数下微调后的模型的文本聚类结果往往会出现更倾向于将首个汉字(数字或字母)相同的文本分为一类的情况,而同样的情况也同样出现在原版BERT模型和RoBERTa-wwm模型当中。这种特殊情况的出现,很大程度上影响了该类别所包含的样本数目这个对预警方法来说十分重要的指标,同时也对文本相似度计算产生了较大的影响。
在一种可能的实施方式中,所述基于所述聚类中心在所述暗网论坛中的文本数据进行相似度计算,得到文本相似度值的步骤,包括:
基于文本向量之间的空间距离来从所述暗网论坛中的文本数据中搜索与所述聚类中心相关内容;
针对所述暗网论坛中的文本数据的每一个单句,分别与所述聚类中心依次进行相似度计算,形成一对一的文本相似度值。
示例性的,文本相似度搜索是基于文本向量之间的空间距离来从大量语料中搜索文本语义相关内容的一种相似文本的搜索方式。预警方法采用余弦距离来度量文本之间的相似度,针对暗网论坛中文本语料的每一个单句,对上文所获得的暗网商城文本聚类中心向量依次进行相似度计算,形成一对一的文本相似度值,并通过阈值判断,获得文本相似度搜索结果。文本相似度搜索流程如图3所示。
在一种可能的实施方式中,在所述根据所述聚类中心和所述文本相似度值对所述待监测类别的网络信息的安全状况完成评分的步骤之前,还包括:
将所述文本相似度值与预设阈值进行对比,得到满足所述预设阈值的文本相似度值。
在一种可能的实施方式中,所述基于所述交易数据、所述聚类中心和所述文本相似度值对所述待监测类别的网络信息的安全状况完成评分的步骤,包括:
对所述交易数据、所述聚类中心和所述文本相似度值分别量化,分别赋予相应的权重进行整合,得到0至10分的预警评估分值。
示例性的,预警方法对交易单数、聚类分析结果、相似度搜索结果分别量化,分别赋予相应的权重进行整合,最终针对暗网商城中的每一笔侵犯公民个人信息交易的分析结果,给出0至10分的预警评估分值。
预警方法对暗网论坛中的讨论内容给予较高的关注,在第i笔交易的总预警评估结果中,交易单数评估结果占比30%,商品聚类分析评估结果占比30%,论坛相似度搜索评估结果占比40%。总预警评估公式如下:
Ri=3Vi+3Ci+4Si
其中,Ri为总预警评估结果,Vi为第i笔交易的交易单数评估结果,Ci为第i笔交易的的聚类分析评估结果,Si为第i笔交易的相似度搜索评估结果。
交易单数的评估结果Vi的计算中,先对Sigmoid函数进行适当放缩,再将暗网商城中所爬取到该笔交易的交易单数xi通过该函数映射到[0,1]区间当中。交易单数评估公式如下:
其中,Vi为第i笔交易的交易单数评估结果,xi为第i笔交易的交易单数。
聚类分析评估由两部分组成:第一部分为同一类簇下其他交易的交易单数量化评估,第二部分为类簇规模评估。此部分评估方法中,将同一类簇下的所有交易视为相同或相似交易。评估方法认为,类簇的大小即相同或相似交易的数目,代表着该笔交易在暗网中的更新频率以及卖方的市场规模,当商品所处的类簇规模较大时,代表着该商品在暗网中具备一定的更新频率,同样代表着暗网商城中具有大量的相似商品,所以应给予较大的预警评估值。同时,为了防止卖方大量在商城中刷相似的交易内容对评估结果产生的影响,方法中加入了类簇中其他交易的交易单数评估结果来作为方法的另一部分,削弱了多次刷相同交易内容对评估方法带来的影响,也对类簇规模小但具有一定重要性的数据给与了更多的重视。聚类分析评估公式如下:
其中,Ci为聚类分析评估结果,xj为同一类簇中第j笔交易的售卖单数,yi为第i笔交易所处的类簇规模。
相似度搜索评估结果Si的计算方法为:首先将暗网论坛中的每一个帖子进行分句,获得论坛单句向量k,然后使用k对聚类分析中所得到的类簇中心向量进行相似度搜索,计算文本与类簇中心的余弦相似度,获得一对多的映射结果,最终从中筛选相似度大于一定阈值的相似度搜索结果sim(i,k)参与预警评估。评估方法认为,由于所处的暗网网站以及访问目的不同,暗网论坛中的单句内容与商城中的售卖数据之间并无直接联系,所以可以根据暗网论坛中的帖子内容对暗网商城中交易内容的真实性与重要性进行佐证,从而根据其内容的相似度进行预警评估。在相似度数据的量化方面,方法认为,相比于大量相似度值大于阈值但数值相对较小的数据,某一个或某几个相似度值较大的论坛单句更倾向于谈论的商品相关的内容,应具备更大的参考价值,所以方法对所获得的相似度数值进行了一定放缩,对相似度更高的数值赋予更高权重,同时对大于阈值但相似度较小的数据赋予较低的权重。相似度搜索评估公式如下:
其中,Si为第i笔交易的相似度搜索评估结果,sim(i,k)为第i笔交易所处类簇的中心向量与暗网论坛中第k个单句的余弦相似度。
综上所述,暗网商城中每一笔交易的预警评估算法如下:
对多个常用的暗网中文商城以及暗网中文论坛的数据进行爬取并进行无监督预警分析。实验爬取到暗网中文商城侵犯公民个人信息售卖内容13334条、暗网中文论坛文本单句169262条,实验中所采用的聚类规模为2000类,获取商城与论坛间有效文本相似度搜索结果映射13871个。实验环境为:AMD R7-4800H 2.9GHz CPU,16.0GB内存,NVIDIARTX2060显卡,Windows10&Ununtu21.10操作系统,开发环境为Pycharm,Python版本为3.6.13。
根据暗网中文侵犯公民个人信息无监督预警方法,计算每笔交易预警分值,并将爬取到的文本内容与预警分值整合,使用Django框架在web端将预警结果进行呈现。在预警结果呈现界面中,包含交易ID、标题、预警分值、来源、价格、发布者、发布时间等信息。点击操作栏中的按钮可以查看标题内容的详情或申请目标网页固定。同时,用户可以通过在搜索框中输入交易ID、标题、内容、发布者来获取所需要的内容。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (8)
1.一种网络信息安全监测预警方法,其特征在于,包括:
在目标站点中获取待监测类别的网络信息,其中,所述目标站点为暗网中文商城和暗网论坛;
在所述待监测类别的网络信息中提取所述网络信息的文本数据,对所述文本数据进行分词和整合处理;
基于RoFormer-Sim模型将整合处理后的文本数据生成文本向量,所述文本向量包含文本数据的语义内容;
根据所述文本向量对所述暗网中文商城内与所述语义内容相同和/或相似的商品信息进行聚类分析,得到所述待监测类别的网络信息的聚类中心;
基于所述聚类中心在所述暗网论坛中的文本数据进行相似度计算,得到文本相似度值;
在所述暗网中文商城中获取所述待监测类别的网络信息的交易数据;
基于所述交易数据、所述聚类中心和所述文本相似度值对所述待监测类别的网络信息的安全状况完成评分;所述基于所述交易数据、所述聚类中心和所述文本相似度值对所述待监测类别的网络信息的安全状况完成评分的步骤,包括:
对所述交易数据、所述聚类中心和所述文本相似度值分别量化,分别赋予相应的权重进行整合,得到0至10分的预警评估分值;
预警方法对交易单数、聚类分析结果、相似度搜索结果分别量化,分别赋予相应的权重进行整合,最终针对暗网商城中的每一笔侵犯公民个人信息交易的分析结果,给出0至10分的预警评估分值;
在第i笔交易的总预警评估结果中,交易单数评估结果占比30%,商品聚类分析评估结果占比30%,论坛相似度搜索评估结果占比40%;总预警评估公式如下:
Ri=3Vi+3Ci+4Si;
其中,Ri为总预警评估结果,Vi为第i笔交易的交易单数评估结果,Ci为第i笔交易的的聚类分析评估结果,Si为第i笔交易的相似度搜索评估结果;
交易单数的评估结果Vi的计算中,先对Sigmoid函数进行适当放缩,再将暗网商城中所爬取到该笔交易的交易单数xi通过该函数映射到[0,1]区间当中;
交易单数评估公式如下:
其中,Vi为第i笔交易的交易单数评估结果,xi为第i笔交易的交易单数;
聚类分析评估公式如下:
其中,Ci为聚类分析评估结果,xj为同一类簇中第j笔交易的售卖单数,yi为第i笔交易所处的类簇规模;
相似度搜索评估公式如下:
其中,Si为第i笔交易的相似度搜索评估结果,sim(i,k)为第i笔交易所处类簇的中心向量与暗网论坛中第k个单句的余弦相似度;
暗网商城中每一笔交易的预警评估算法如下:
将爬取到的文本内容与预警分值整合,使用Django框架在web端将预警结果进行呈现。
2.根据权利要求1所述的网络信息安全监测预警方法,其特征在于,所述在目标站点中获取待监测类别的网络信息的步骤,包括:
通过Scrapy爬虫框架和Selenium框架对所述目标站点进行捕获、整理,得到所述待监测类别的网络信息。
3.根据权利要求1所述的网络信息安全监测预警方法,其特征在于,所述在待监测类别的网络信息中提取所述网络信息的文本数据,对所述文本数据进行分词和整合处理的步骤,包括:
在所述待监测类别的网络信息中提取所述网络信息的文本数据;
对所述文本数据使用分词工具进行分词;
将分词后的文本数据按照预设停用词表去除停用词,所述预设停用词表为结合开源停用词表构建的暗网中文停用词表;
将去除停用词后的文本数据整合成句;
将完成整合的句连接预设标题,完成对所述文本数据进行分词和整合处理,所述预设标题对应所述待监测类别的网络信息。
4.根据权利要求3所述的网络信息安全监测预警方法,其特征在于,所述根据文本向量对所述暗网中文商城内与所述语义内容相同和/或相似的商品信息进行聚类分析的步骤,包括:
采用K-Means聚类方法进行所述暗网中文商城内与所述语义内容相同和/或相似的商品信息的聚类分析,其中,K-Means算法的k值选取所述暗网中文商城内与所述语义内容相同和/或相似的商品信息的全部商品数量的15%作为类别数量。
5.根据权利要求1所述的网络信息安全监测预警方法,其特征在于,所述根据文本向量对所述暗网中文商城内与所述语义内容相同和/或相似的商品信息进行聚类分析,得到所述待监测类别的网络信息的聚类中心的步骤之前,还包括:
以聚类效果作为评价标准选取文本向量生成模型。
6.根据权利要求5所述的网络信息安全监测预警方法,其特征在于,所述以聚类效果作为评价标准选取文本向量生成模型的步骤,包括:
采用K-Means聚类方法,在5000个样本中选取大量均匀分布的K值进行聚类,分别计算轮廓系数,基于轮廓系数的最大值与极差对文本向量生成模型进行初步评估。
7.根据权利要求1所述的网络信息安全监测预警方法,其特征在于,所述基于所述聚类中心在所述暗网论坛中的文本数据进行相似度计算,得到文本相似度值的步骤,包括:
基于文本向量之间的空间距离来从所述暗网论坛中的文本数据中搜索与所述聚类中心相关内容;
针对所述暗网论坛中的文本数据的每一个单句,分别与所述聚类中心依次进行相似度计算,形成一对一的文本相似度值。
8.根据权利要求7所述的网络信息安全监测预警方法,其特征在于,所述根据聚类中心和所述文本相似度值对所述待监测类别的网络信息的安全状况完成评分的步骤之前,还包括:
将所述文本相似度值与预设阈值进行对比,得到满足所述预设阈值的文本相似度值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210277602.6A CN114692593B (zh) | 2022-03-21 | 2022-03-21 | 一种网络信息安全监测预警方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210277602.6A CN114692593B (zh) | 2022-03-21 | 2022-03-21 | 一种网络信息安全监测预警方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114692593A CN114692593A (zh) | 2022-07-01 |
CN114692593B true CN114692593B (zh) | 2023-04-07 |
Family
ID=82139253
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210277602.6A Active CN114692593B (zh) | 2022-03-21 | 2022-03-21 | 一种网络信息安全监测预警方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114692593B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116522895B (zh) * | 2023-06-16 | 2023-09-12 | 中国传媒大学 | 一种基于写作风格的文本内容真实性评估方法及设备 |
CN116628729B (zh) * | 2023-07-25 | 2023-09-29 | 天津市城市规划设计研究总院有限公司 | 根据数据特性差异化提升数据安全的方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113032655A (zh) * | 2021-04-14 | 2021-06-25 | 中国刑事警察学院 | 一种暗网电子数据提取固定方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102708096B (zh) * | 2012-05-29 | 2014-10-15 | 代松 | 一种基于语义的网络智能舆情监测系统及其工作方法 |
CN103544255B (zh) * | 2013-10-15 | 2017-01-11 | 常州大学 | 基于文本语义相关的网络舆情信息分析方法 |
CN106294619A (zh) * | 2016-08-01 | 2017-01-04 | 上海交通大学 | 舆情智能监管方法 |
CN107315778A (zh) * | 2017-05-31 | 2017-11-03 | 温州市鹿城区中津先进科技研究院 | 一种基于大数据情感分析的自然语言舆情分析方法 |
CN107229735A (zh) * | 2017-06-13 | 2017-10-03 | 成都布林特信息技术有限公司 | 基于自然语言处理的舆情信息分析预警方法 |
CN108810025A (zh) * | 2018-07-19 | 2018-11-13 | 平安科技(深圳)有限公司 | 一种暗网的安全性评估方法、服务器及计算机可读介质 |
CN110008311B (zh) * | 2019-04-04 | 2020-11-24 | 北京邮电大学 | 一种基于语义分析的产品信息安全风险监测方法 |
CN110046260B (zh) * | 2019-04-16 | 2021-06-08 | 广州大学 | 一种基于知识图谱的暗网话题发现方法和系统 |
CN112464666B (zh) * | 2019-08-19 | 2023-07-21 | 四川大学 | 一种基于暗网数据的未知网络威胁自动发现方法 |
CN112650848A (zh) * | 2020-12-30 | 2021-04-13 | 交控科技股份有限公司 | 基于文本语义相关乘客评价的城铁舆情信息分析方法 |
-
2022
- 2022-03-21 CN CN202210277602.6A patent/CN114692593B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113032655A (zh) * | 2021-04-14 | 2021-06-25 | 中国刑事警察学院 | 一种暗网电子数据提取固定方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114692593A (zh) | 2022-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8190621B2 (en) | Method, system, and computer readable recording medium for filtering obscene contents | |
US10198635B2 (en) | Systems and methods for associating an image with a business venue by using visually-relevant and business-aware semantics | |
Kumar et al. | Whom should I follow? Identifying relevant users during crises | |
CN110781308B (zh) | 一种基于大数据构建知识图谱的反欺诈系统 | |
CN114692593B (zh) | 一种网络信息安全监测预警方法 | |
US20170004128A1 (en) | Device and method for analyzing reputation for objects by data mining | |
CN107862022B (zh) | 文化资源推荐系统 | |
Layne et al. | Re-id: Hunting Attributes in the Wild. | |
CN101826105A (zh) | 基于匈牙利匹配算法的钓鱼网页检测方法 | |
CN112001282A (zh) | 一种图像识别方法 | |
CN103544436A (zh) | 一种钓鱼网站鉴别系统和方法 | |
CN112541476B (zh) | 一种基于语义特征提取的恶意网页识别方法 | |
CN108319672B (zh) | 基于云计算的移动终端不良信息过滤方法及系统 | |
CN111522987A (zh) | 一种图像审核方法、设备及计算机可读存储介质 | |
CN112258254B (zh) | 基于大数据架构的互联网广告风险监测方法及系统 | |
Ghankutkar et al. | Modelling machine learning for analysing crime news | |
CN109145187A (zh) | 基于评论数据的跨平台电商欺诈检测方法和系统 | |
CN114915468A (zh) | 基于知识图谱的网络犯罪智能分析检测方法 | |
CN114817518B (zh) | 基于大数据档案识别的证照办理方法、系统及介质 | |
CN103093236A (zh) | 一种基于图像语义分析的移动终端色情过滤方法 | |
CN115510248A (zh) | 基于深度学习的人员行为特征知识图谱构建与分析方法 | |
CN115619245A (zh) | 一种基于数据降维方法的画像构建和分类方法及系统 | |
CN115392351A (zh) | 风险用户识别方法、装置、电子设备及存储介质 | |
CN114189545A (zh) | 一种互联网用户行为大数据分析方法及系统 | |
CN113691525A (zh) | 一种流量数据处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |