CN114915468B - 基于知识图谱的网络犯罪智能分析检测方法 - Google Patents
基于知识图谱的网络犯罪智能分析检测方法 Download PDFInfo
- Publication number
- CN114915468B CN114915468B CN202210507491.3A CN202210507491A CN114915468B CN 114915468 B CN114915468 B CN 114915468B CN 202210507491 A CN202210507491 A CN 202210507491A CN 114915468 B CN114915468 B CN 114915468B
- Authority
- CN
- China
- Prior art keywords
- website
- data
- entities
- information
- knowledge graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 21
- 238000004458 analytical method Methods 0.000 title claims abstract description 18
- 241000565357 Fraxinus nigra Species 0.000 claims abstract description 15
- 230000000694 effects Effects 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 28
- 238000000034 method Methods 0.000 claims description 17
- 239000000047 product Substances 0.000 claims description 12
- 230000006399 behavior Effects 0.000 claims description 9
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 239000013589 supplement Substances 0.000 claims description 5
- 238000013519 translation Methods 0.000 claims description 5
- 238000013475 authorization Methods 0.000 claims description 4
- 238000013461 design Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 238000012098 association analyses Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000011840 criminal investigation Methods 0.000 abstract 1
- 230000014616 translation Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 208000001613 Gambling Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004900 laundering Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Hardware Design (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Evolutionary Computation (AREA)
- Alarm Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了基于知识图谱的网络犯罪智能分析检测方法,包括以下检测步骤:收集黑灰产网站数据及其相关数据,对网站群体进行标签区分;对已标签的黑灰产网站,获取网站用户数据,构建对应用户信息;构建知识图谱,将多维度数据信息在同一层面展开;知识图谱特征学习;构建推荐模块,将知识图谱特征学习应用到推荐系统。本技术提升关联分析的有效性,解决网络犯罪平台不断规避检测的问题,辅助公安刑侦打击网络违法犯罪活动。
Description
技术领域
本发明涉及灰黑产网站分类识别技术领域,具体为基于知识图谱的网络犯罪智能分析检测方法。
背景技术
传统基于态势感知技术的检测方法,包括敏感词库过滤,网站黑白名单等,通常将不同维度的信息存储在不同知识库中,各维度之间缺乏协同效应,很难快速整合所有上下文信息来进行实时、准确的分析,造成误报、漏报率高。
发明内容
为了克服现有技术方案的不足,本发明提供基于知识图谱的网络犯罪智能分析检测方法,能有效的解决背景技术提出的问题。
本发明解决其技术问题所采用的技术方案是:
基于知识图谱的网络犯罪智能分析检测方法,包括以下检测步骤:
步骤S101,收集黑灰产网站数据及其相关数据,对网站群体进行标签区分:从数据中心机房的网络流量获取首批黑灰产数据,解析并提取网站信息,使用新词发现模型,对获得的黑灰产类别数据做新词发现,并人工筛选得到多个黑灰产类别关键词,将这些关键词输入搜索引擎,通过爬虫程度获取相关网站,对提取的数据信息,用正则提取相关合作伙伴网站及其域名,判断是否为黑白名单,再构建全面、多维的标签体系,剔除数据中的异常值并将数据标准化,为网站数据创建标签,并对数据进行修正优化调整;
步骤S102,对已标签的黑灰产网站,获取网站用户数据,构建对应用户信息:使用授权工具对域名网站抓取注册用户个人信息、网站相关信息、行为信息,构建全面、多维的标签体系,对数据清洗,剔除异常值和去重,为用户数据创建标签,并对数据进行优化调整;
步骤S103,构建知识图谱,将多维度数据信息在同一层面展开:明确现有的网站数据、用户数据、网站黑名单、网站白名单信息,对图谱设计,定义五种实体、实体属性及实体关系,用正则和模板提取网站信息相关合作网站的知识数据,再存放在非关系类型数据库Neo4j中,利用Dedupe工具根据网站的标题和域名信息进行融合、去重,最后通过编写的Python接口程度将数据导入Neo4j中;
对图谱设计,定义的五种实体包括网站实体、网站类型标签实体、用户实体、网站黑名单实体和网站白名单实体,定义的实体属性包括网站数据表中的数据字段为网站实体属性、用户数据表中的数据字段为用户实体属性、网站黑名单中的数据字段为黑名单实体属性和网站白名单中的数据字段为白名单实体属性,定义的实体关系包括(网站实体,类型,类型实体)、(网站实体,注册,网站实体)、(网站实体,合作,网站实体)、(网站白名单实体,白名单,网站实体)和(网站黑名单实体,黑名单,网站实体);
步骤S104,知识图谱特征学习:从网页中发现相关网站并提取域名,并与知识图谱中的网站实体进行匹配,根据所有匹配到的实体,在原始的知识图谱中抽取子图,使用基于距离的翻译模型学习特征,得到实体和关系向量,再通过上下文实体特征的平均值获取实体的上下文实体特征;
步骤S105,构建推荐模块,将知识图谱特征学习应用到推荐系统:先使用卷积神经网络KCNN的方法学习候选网站向量,并用AttentionNetwork来判断该类型网站数据对候选网站的重要程度,AttentionNetworkwork通过将向量拼接并经过DNN来计算最后的权重,利用AttentionNetwork的权重加权用户历史数据可以得到用户的向量,最后将该类型数据向量和候选网站向量拼接并通过DNN得到候选网站对该类型的偏爱概率,模型效果根据找出最大的偏爱概率的类型为该网站的候选标签,通过下载应用网站类型调取其合作网站。
进一步地,在步骤S101中,解析并提取网站信息包括网页三要素文本:标题、关键词和描述。
进一步地,在步骤S101中,构建标签体系时,由于自身数据有限,需要第三方的数据作为补充,包括网站备案信息、网站域名页流量信息、资产指纹信息。
进一步地,在步骤S102中,抓取注册用户个人信息、网站相关信息、行为信息,其中,用户个人信息包括姓名、身份证号码、性别、地区、年龄,网站相关信息包括账号、密码、手机号、银行卡,行为信息包括注册、登陆时间、支付、交易时的IP地址、MAC地址、手机IMEI号。
进一步地,在步骤S102中,构建标签体系时,需要第三方的数据作为补充,包括电话号码注册查询、身份证号码验证。
与现有技术相比,本发明的有益效果是:
(1)通过网站数据标签,识别活跃网站犯罪平台情况,对这类网站进行清除、打击,减少网络犯罪平台的数量;
(2)基于知识图谱的网络犯罪智能分析检测系统研究,通过构建网络犯罪知识图谱,对网站实体和用户实体进行识别,通过实体之间的关系分析,提升线索质量;
(3)通过对网络空间供应链分析,识别出帮助信息网络犯罪的犯罪团伙。转变打击思路,围绕网络犯罪信息支撑、技术支撑、资金清算、网络推广长期跟踪重点盯防。
附图说明
图1为本发明检测流程示意图;
图2为本发明检测关系示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1-2所示,本发明提供了基于知识图谱的网络犯罪智能分析检测方法,包括以下检测步骤:
步骤S101,收集黑灰产网站数据及其相关数据,对网站群体进行标签区分:从数据中心机房的网络流量获取首批黑灰产数据,解析并提取网站信息,解析并提取网站信息包括网页三要素文本:标题、关键词和描述,使用新词发现模型,对获得的黑灰产类别数据做新词发现,并人工筛选得到多个黑灰产类别关键词,将这些关键词输入搜索引擎,通过爬虫程度获取相关网站,对提取的数据信息,用正则提取相关合作伙伴网站及其域名,判断是否为黑白名单,再构建全面、多维的标签体系,由于自身数据有限,需要第三方的数据作为补充,包括网站备案信息、网站域名页流量信息、资产指纹信息等,剔除数据中的异常值并将数据标准化,为网站数据创建标签,并对数据进行修正优化调整;
步骤S102,对已标签的黑灰产网站,获取网站用户数据,构建对应用户信息:使用授权工具对域名网站抓取注册用户个人信息、网站相关信息、行为信息,其中,用户个人信息包括姓名、身份证号码、性别、地区、年龄等,网站相关信息包括账号、密码、手机号、银行卡等,行为信息包括注册、登陆时间、支付、交易时的IP地址、MAC地址、手机IMEI号等,构建全面、多维的标签体系,需要第三方的数据作为补充,包括电话号码注册查询、身份证号码验证等,对数据清洗,剔除异常值和去重,为用户数据创建标签,并对数据进行优化调整;
步骤S103,构建知识图谱,将多维度数据信息在同一层面展开:明确现有的网站数据、用户数据、网站黑名单、网站白名单等信息,对图谱设计,定义五种实体、实体属性及实体关系,其中,定义的五种实体包括网站实体、网站类型标签实体、用户实体、网站黑名单实体和网站白名单实体,定义的实体属性包括网站数据表中的数据字段为网站实体属性、用户数据表中的数据字段为用户实体属性、网站黑名单中的数据字段为黑名单实体属性和网站白名单中的数据字段为白名单实体属性,定义的实体关系包括(网站实体,类型,类型实体)、(网站实体,注册,网站实体)、(网站实体,合作,网站实体)、(网站白名单实体,白名单,网站实体)和(网站黑名单实体,黑名单,网站实体),用正则和模板提取网站信息相关合作网站的知识数据,再存放在非关系类型数据库Neo4j中,利用Dedupe工具根据网站的标题和域名等信息进行融合、去重,最后通过编写的Python接口程度将数据导入Neo4j中;
步骤S104,知识图谱特征学习:从网页中发现相关网站并提取域名,并与知识图谱中的网站实体进行匹配,根据所有匹配到的实体,在原始的知识图谱中抽取子图,使用基于距离的翻译模型学习特征,得到实体和关系向量,再通过上下文实体特征的平均值获取实体的上下文实体特征;
步骤S105,构建推荐模块,将知识图谱特征学习应用到推荐系统:先使用卷积神经网络KCNN的方法学习候选网站向量,并用AttentionNetwork来判断该类型网站数据对候选网站的重要程度,AttentionNetworkwork通过将向量拼接并经过DNN来计算最后的权重,利用AttentionNetwork的权重加权用户历史数据可以得到用户的向量,最后将该类型数据向量和候选网站向量拼接并通过DNN得到候选网站对该类型的偏爱概率,模型效果根据找出最大的偏爱概率的类型为该网站的候选标签,通过下载应用网站类型调取其合作网站。
具体实施例:
S101,收集黑灰产网站数据及其相关数据,对网站群体进行标签区分。
本步骤主要实现黑灰产网页数据和周边相关数据的收集和清洗,实现对黑灰产网站的整体信息展示。
首先,从数据中心机房的网络流量获取首批黑灰产数据,解析并提取网站信息,包括网页三要素文本:标题、关键词和描述。
然后,使用新词发现模型,对黑灰产类别数据做新词发现,并人工筛选得到多个黑灰产类别关键词,将这些关键词输入搜索引擎,并通过爬虫程序获取次批网站数据,将两部分数据合并。
进一步,提取数据信息,包括用正则提取相关合作伙伴网站及其域名,并判断是否为黑白名单;使用暗链检查工具判断事都被攻击/纂改。
由于自身数据有限,在构建全面、多维的标签体系时,需要第三方的数据源作为补充。比如,通过数据接口爬取备案信息信息,包括网站业务范围、法人、联系方式等;通过数据接口爬取网页域名信息,包括其他域名、IP地址、端口、网站名等;通过网站指纹工具whatweb查询、解析资产指纹信息,包括国家、使用框架、HTTP服务器类型、IP地址、重定向地址、脚本语言等。
另外,需要对数据清洗,剔除异常值和去重,包括去除文本中特殊符号等、文本相似度去重、文本长度筛检、对三要素文本和域名做语义消歧等。
最后对数据的修正,随着数据的积累及运营经验的发展,对数据进行优化调整。
S102,对已标签的黑灰产网站,获取网站用户数据,构建对应用户信息。
本步骤主要实现黑灰产网页的注册用户数据收集和清洗,实现对黑灰产网站注册用户的整体信息展示。
首先,使用授权工具对域名网站抓取注册用户用户个人信息,包括姓名、身份证号、性别、地区、年龄等;网站相关信息,包括账号、密码、手机号、银行卡等;行为信息,包括注册、登陆时间、支付、交易时的IP地址、MAC地址、手机IMEI号等等。
由于自身数据有限,在构建全面、多维的标签体系时,需要第三方的数据源作为补充。比如,包括电话号码注册查询,身份证号码验证等。
另外,需要对数据清洗,剔除异常值和去重,为用户数据创建标签。
最后对数据的修正,随着数据的积累及运营经验的发展,对数据进行优化调整。
S103,构建知识图谱,将多维度数据信息在同一层面展开。
本步骤是将整理后的网站和用户数据构建知识图谱,将多维度数据在同一维度展现。
知识图谱(KnowledgeGraph,KG)是一种语义网络,其结点(Node)代表实体(Entity),边(Edge)代表实体之间的各种语义关系(Relation)。一个知识图谱由若干个三元组(Head,Relation,Tail)组成,其中Head和Tail分别代表一条关系的头结点和尾节点,Relation代表关系,表示头实体与尾实体存在某种关系。
假定推荐系统中的网站也是一个KG中的节点,则KG提供了网站和注册用户之间的关系。
具体实现,首先明确现有数据:网站数据、用户数据、网站黑名单、网站白名单;
其次,对图谱设计,定义5种实体:网站实体(Label:SiteEntity)、网站类型标签实体(Label:LabelEntity)、用户实体(Label:UserEntity)、网站黑白名单实体(Label:BlackListEntity/WriteListEntity);定义实体属性:网站数据表中的数据字段为网站实体属性,用户数据表中的数据字段为用户实体属性,网站黑白名单中的数据字段为黑白名单实体属性;定义实体关系:(网站实体,类型,类型实体),(网站实体,注册,网站实体),(网站实体,合作,网站实体)(网站白名单实体,白名单,网站实体),(网站黑名单实体,黑名单,网站实体)。
一般构造知识图谱的流程需要知识抽取,即将非结构化文本数据转化为知识(三元组、多元关系、模态知识)的过程,经历文本预处理,分词、词性标注、语法解析、依存分析,再做命名实体识别NER,做实体链接,再抽取实体,抽取事件,形成知识。由于大部分数据处理和补充都交由前面处理完成,且这里的实体是网站域名,提取该网站的相关合作网站(合作网站本体)前面步骤已用正则和模板完成。
知识数据整理好后,将知识存在非关系型数据库Neo4j,Neo4j是一个高性能的,NOSQL图形数据库,它将结构化数据存储在网络上而不是表中。Neo4j也可以被看作是一个高性能的图引擎,该引擎具有成熟数据库的所有特性。应用场景比较广泛,可用在反欺诈多维关联分析,通过图分析可以清楚的知道洗钱网络及相关嫌疑,例如对用户所使用的账号发生交易时的IP地址、MAC地址、收集IMEI号等进行关联分析。也可以应用在社交媒体和社交网络图,构建知识图谱,个性化推荐等场景。
最后通过编写的Python接口程序将数据导入Neo4j。
S104,知识图谱特征学习。
本步骤主要是学习知识图谱的特征,本发明将知识图谱特征学习应用到推荐系统是遵循依次学习的方式。
依次学习(DeepKnowledge-AwareNetwork,DKN):首先使用知识图谱特征学习得到实体向量(EntityEmbedding)和关系向量(RelationEmbedding),然后将这些低维向量引入推荐系统,学习得到网站向量和注册用户向量。
学习图谱特征的方法如下:
a.实体连接(EntityLinking):即从网页中发现相关网站并提取域名,并与知识图谱中的网站实体进行匹配。
b.知识图谱构建:根据所有匹配到的实体,在原始的知识图谱中抽取子图。子图的大小会影响后续算法的运行时间和效果:越大的子图通常会学习到更好的特征,但是所需的运行时间越长。
c.知识图谱特征学习,得到实体和关系向量:使用基于距离的翻译模型(TranslateDistanceModel)来学习特征,这类模型使用基于距离的评分函数评估三元组的概率,将尾节点视为头结点和关系翻译得到的结果。这类方法的代表有TransE、TransH、TransR等。
TransH解决一对多多对多关系,通过计算head和tail实体Embedding在关系Embedding上的投影,计算投影之间的关系,如下:
d.为了更准确地刻画实体,额外地使用一个实体的上下文实体特征(ContextualEntityembeddings)。一个实体e的上下文实体是e的所有一跳(1-Hop)邻居节点,e的上下文实体特征为e的所有上下文实体特征的平均值:
S105,构建推荐模块,将知识图谱特征学习应用到推荐系统。
该模型是一个基于CNN和注意力机制的推荐算法:
a.基于卷积神经网络Knowledge-AwareCNN(KCNN)的文本特征提取:有3个Embedding输入,分别是网站三要素(标题、描述、关键词)前250个文字的词向量(WordEmbedding)、实体向量(EntityEmbedding)和实体上下文向量(ContextEmbedding)作为多个通道,在CNN的框架下进行融合。
b.基于注意力机制(Attention-BasedInterestExtraction)的历史标签数据融合:给定该类型网站数据和候选网站,判断候选网站对该网站类型的偏向比重时,使用注意力网络(AttentionNetworkwork)给该类型数据分配不同的权重。
先使用KCNN的方法学习候选网站Embedding,并用AttentionNetwork来判断该类型网站数据对候选网站的重要程度,AttentionNetworkwork通过将向量拼接并经过DNN来计算最后的权重,利用AttentionNetwork的权重加权用户历史数据可以得到用户的Embedding,最后将该类型数据Embedding和候选网站Embedding拼接并通过DNN得到候选网站对该类型的偏爱概率。
模型效果根据找出最大的偏爱概率的类型为该网站的候选标签,该模型在网络黑灰产推荐上取得了98%以上准确率,比单纯文本的网页分类模型效果要好,所以注意力机制的引入,DKN可以更好地将同类别的网站联系起来,从而提高了最终的正确预测的数量。
下游应用:若该候选网站为属于赌博/色情/诈骗/非法支付/VPN/养号/外挂等黑灰产网站类型,则浏览该网站的用户可能也会浏览到其合作网站。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
Claims (5)
1.基于知识图谱的网络犯罪智能分析检测方法,其特征在于,包括以下检测步骤:
步骤S101,收集黑灰产网站数据及其相关数据,对网站群体进行标签区分:从数据中心机房的网络流量获取首批黑灰产数据,解析并提取网站信息,使用新词发现模型,对获得的黑灰产类别数据做新词发现,并人工筛选得到多个黑灰产类别关键词,将这些关键词输入搜索引擎,通过爬虫程度获取相关网站,对提取的数据信息,用正则提取相关合作伙伴网站及其域名,判断是否为黑白名单,再构建全面、多维的标签体系,剔除数据中的异常值并将数据标准化,为网站数据创建标签,并对数据进行修正优化调整;
步骤S102,对已标签的黑灰产网站,获取网站用户数据,构建对应用户信息:使用授权工具对域名网站抓取注册用户个人信息、网站相关信息、行为信息,构建全面、多维的标签体系,对数据清洗,剔除异常值和去重,为用户数据创建标签,并对数据进行优化调整;
步骤S103,构建知识图谱,将多维度数据信息在同一层面展开:明确现有的网站数据、用户数据、网站黑名单、网站白名单信息,对图谱设计,定义五种实体、实体属性及实体关系,用正则和模板提取网站信息相关合作网站的知识数据,再存放在非关系类型数据库Neo4j中,利用Dedupe工具根据网站的标题和域名信息进行融合、去重,最后通过编写的Python接口程度将数据导入Neo4j中;
对图谱设计,定义的五种实体包括网站实体、网站类型标签实体、用户实体、网站黑名单实体和网站白名单实体,定义的实体属性包括网站数据表中的数据字段为网站实体属性、用户数据表中的数据字段为用户实体属性、网站黑名单中的数据字段为黑名单实体属性和网站白名单中的数据字段为白名单实体属性,定义的实体关系包括(网站实体,类型,类型实体)、(网站实体,注册,网站实体)、(网站实体,合作,网站实体)、(网站白名单实体,白名单,网站实体)和(网站黑名单实体,黑名单,网站实体);
步骤S104,知识图谱特征学习:从网页中发现相关网站并提取域名,并与知识图谱中的网站实体进行匹配,根据所有匹配到的实体,在原始的知识图谱中抽取子图,使用基于距离的翻译模型学习特征,得到实体和关系向量,再通过上下文实体特征的平均值获取实体的上下文实体特征;
步骤S105,构建推荐模块,将知识图谱特征学习应用到推荐系统:先使用卷积神经网络KCNN的方法学习候选网站向量,并用AttentionNetwork来判断该类型网站数据对候选网站的重要程度,AttentionNetworkwork通过将向量拼接并经过DNN来计算最后的权重,利用AttentionNetwork的权重加权用户历史数据可以得到用户的向量,最后将该类型数据向量和候选网站向量拼接并通过DNN得到候选网站对该类型的偏爱概率,模型效果根据找出最大的偏爱概率的类型为该网站的候选标签,通过下载应用网站类型调取其合作网站。
2.根据权利要求1所述的基于知识图谱的网络犯罪智能分析检测方法,其特征在于,在步骤S101中,解析并提取网站信息包括网页三要素文本:标题、关键词和描述。
3.根据权利要求1所述的基于知识图谱的网络犯罪智能分析检测方法,其特征在于,在步骤S101中,构建标签体系时,由于自身数据有限,需要第三方的数据作为补充,包括网站备案信息、网站域名页流量信息、资产指纹信息。
4.根据权利要求1所述的基于知识图谱的网络犯罪智能分析检测方法,其特征在于,在步骤S102中,抓取注册用户个人信息、网站相关信息、行为信息,其中,用户个人信息包括姓名、身份证号码、性别、地区、年龄,网站相关信息包括账号、密码、手机号、银行卡,行为信息包括注册、登陆时间、支付、交易时的IP地址、MAC地址、手机IMEI号。
5.根据权利要求1所述的基于知识图谱的网络犯罪智能分析检测方法,其特征在于,在步骤S102中,构建标签体系时,需要第三方的数据作为补充,包括电话号码注册查询、身份证号码验证。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210507491.3A CN114915468B (zh) | 2022-05-10 | 2022-05-10 | 基于知识图谱的网络犯罪智能分析检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210507491.3A CN114915468B (zh) | 2022-05-10 | 2022-05-10 | 基于知识图谱的网络犯罪智能分析检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114915468A CN114915468A (zh) | 2022-08-16 |
CN114915468B true CN114915468B (zh) | 2024-02-02 |
Family
ID=82765929
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210507491.3A Active CN114915468B (zh) | 2022-05-10 | 2022-05-10 | 基于知识图谱的网络犯罪智能分析检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114915468B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115858946A (zh) * | 2023-02-22 | 2023-03-28 | 昆明理工大学 | 一种基于图论的线索推理与情报预测方法 |
CN117830060B (zh) * | 2024-03-04 | 2024-05-28 | 天津财经大学 | 一种基于知识图谱的伤害类犯罪执法监督与辅助决策系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065005A (zh) * | 2021-05-19 | 2021-07-02 | 南京烽火星空通信发展有限公司 | 一种基于知识图谱和文本分类模型的法律条文推荐方法 |
CN113407886A (zh) * | 2021-07-10 | 2021-09-17 | 广州数智网络科技有限公司 | 网络犯罪平台识别方法、系统、设备和计算机存储介质 |
CN114417118A (zh) * | 2021-12-31 | 2022-04-29 | 北京百度网讯科技有限公司 | 一种异常数据处理方法、装置、设备以及存储介质 |
-
2022
- 2022-05-10 CN CN202210507491.3A patent/CN114915468B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065005A (zh) * | 2021-05-19 | 2021-07-02 | 南京烽火星空通信发展有限公司 | 一种基于知识图谱和文本分类模型的法律条文推荐方法 |
CN113407886A (zh) * | 2021-07-10 | 2021-09-17 | 广州数智网络科技有限公司 | 网络犯罪平台识别方法、系统、设备和计算机存储介质 |
CN114417118A (zh) * | 2021-12-31 | 2022-04-29 | 北京百度网讯科技有限公司 | 一种异常数据处理方法、装置、设备以及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于网络特征学习的个性化推荐系统;王鸿伟;中国博士学位论文全文数据库信息科技辑;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114915468A (zh) | 2022-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhao et al. | Connecting social media to e-commerce: Cold-start product recommendation using microblogging information | |
US8190621B2 (en) | Method, system, and computer readable recording medium for filtering obscene contents | |
CN108737423B (zh) | 基于网页关键内容相似性分析的钓鱼网站发现方法及系统 | |
CN114915468B (zh) | 基于知识图谱的网络犯罪智能分析检测方法 | |
CN103218431B (zh) | 一种能识别网页信息自动采集的系统 | |
CN106383887A (zh) | 一种环保新闻数据采集和推荐展示的方法及系统 | |
CN108038173B (zh) | 一种网页分类方法、系统及一种网页分类设备 | |
Bannur et al. | Judging a site by its content: learning the textual, structural, and visual features of malicious web pages | |
CN112464666B (zh) | 一种基于暗网数据的未知网络威胁自动发现方法 | |
CN112258254B (zh) | 基于大数据架构的互联网广告风险监测方法及系统 | |
CN112149422B (zh) | 一种基于自然语言的企业新闻动态监测方法 | |
Beutel | User behavior modeling with large-scale graph analysis | |
Bhakuni et al. | Evolution and evaluation: Sarcasm analysis for twitter data using sentiment analysis | |
CN111447575A (zh) | 短信息推送方法、装置、设备及存储介质 | |
CN113268649A (zh) | 基于多元化数据融合的线索监测方法及系统 | |
Peng et al. | An effective strategy for multi-modal fake news detection | |
Wu et al. | Are neighbors alike? A semisupervised probabilistic collaborative learning model for online review spammers detection | |
Sabeeh et al. | Enhancing the fake news detection by applying effective feature selection based on semantic sources | |
Bani-Hani et al. | A semantic model for context-based fake news detection on social media | |
Sreeja et al. | A unified model for egocentric video summarization: an instance-based approach | |
CN114372267A (zh) | 一种基于静态域的恶意网页识别检测方法、计算机及存储介质 | |
CN117390299A (zh) | 基于图证据的可解释性虚假新闻检测方法 | |
Li et al. | Semantic‐enhanced multimodal fusion network for fake news detection | |
KR20240013640A (ko) | 유해 url 탐지 방법 | |
CN113177164B (zh) | 基于大数据的多平台协同新媒体内容监控管理系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |