CN114915468B

CN114915468B - 基于知识图谱的网络犯罪智能分析检测方法

Info

Publication number: CN114915468B
Application number: CN202210507491.3A
Authority: CN
Inventors: 李辉; 何幸霖
Original assignee: Guangzhou Digital Network Technology Co ltd
Current assignee: Guangzhou Digital Network Technology Co ltd
Priority date: 2022-05-10
Filing date: 2022-05-10
Publication date: 2024-02-02
Anticipated expiration: 2042-05-10
Also published as: CN114915468A

Abstract

本发明公开了基于知识图谱的网络犯罪智能分析检测方法，包括以下检测步骤：收集黑灰产网站数据及其相关数据，对网站群体进行标签区分；对已标签的黑灰产网站，获取网站用户数据，构建对应用户信息；构建知识图谱，将多维度数据信息在同一层面展开；知识图谱特征学习；构建推荐模块，将知识图谱特征学习应用到推荐系统。本技术提升关联分析的有效性，解决网络犯罪平台不断规避检测的问题，辅助公安刑侦打击网络违法犯罪活动。

Description

基于知识图谱的网络犯罪智能分析检测方法

技术领域

本发明涉及灰黑产网站分类识别技术领域，具体为基于知识图谱的网络犯罪智能分析检测方法。

背景技术

传统基于态势感知技术的检测方法，包括敏感词库过滤，网站黑白名单等，通常将不同维度的信息存储在不同知识库中，各维度之间缺乏协同效应，很难快速整合所有上下文信息来进行实时、准确的分析，造成误报、漏报率高。

发明内容

为了克服现有技术方案的不足，本发明提供基于知识图谱的网络犯罪智能分析检测方法，能有效的解决背景技术提出的问题。

本发明解决其技术问题所采用的技术方案是：

基于知识图谱的网络犯罪智能分析检测方法，包括以下检测步骤：

步骤S101，收集黑灰产网站数据及其相关数据，对网站群体进行标签区分：从数据中心机房的网络流量获取首批黑灰产数据，解析并提取网站信息，使用新词发现模型，对获得的黑灰产类别数据做新词发现，并人工筛选得到多个黑灰产类别关键词，将这些关键词输入搜索引擎，通过爬虫程度获取相关网站，对提取的数据信息，用正则提取相关合作伙伴网站及其域名，判断是否为黑白名单，再构建全面、多维的标签体系，剔除数据中的异常值并将数据标准化，为网站数据创建标签，并对数据进行修正优化调整；

步骤S102，对已标签的黑灰产网站，获取网站用户数据，构建对应用户信息：使用授权工具对域名网站抓取注册用户个人信息、网站相关信息、行为信息，构建全面、多维的标签体系，对数据清洗，剔除异常值和去重，为用户数据创建标签，并对数据进行优化调整；

步骤S103，构建知识图谱，将多维度数据信息在同一层面展开：明确现有的网站数据、用户数据、网站黑名单、网站白名单信息，对图谱设计，定义五种实体、实体属性及实体关系，用正则和模板提取网站信息相关合作网站的知识数据，再存放在非关系类型数据库Neo4j中，利用Dedupe工具根据网站的标题和域名信息进行融合、去重，最后通过编写的Python接口程度将数据导入Neo4j中；

对图谱设计，定义的五种实体包括网站实体、网站类型标签实体、用户实体、网站黑名单实体和网站白名单实体，定义的实体属性包括网站数据表中的数据字段为网站实体属性、用户数据表中的数据字段为用户实体属性、网站黑名单中的数据字段为黑名单实体属性和网站白名单中的数据字段为白名单实体属性，定义的实体关系包括(网站实体，类型，类型实体)、(网站实体，注册，网站实体)、(网站实体，合作，网站实体)、(网站白名单实体，白名单，网站实体)和(网站黑名单实体，黑名单，网站实体)；

步骤S104，知识图谱特征学习：从网页中发现相关网站并提取域名，并与知识图谱中的网站实体进行匹配，根据所有匹配到的实体，在原始的知识图谱中抽取子图，使用基于距离的翻译模型学习特征，得到实体和关系向量，再通过上下文实体特征的平均值获取实体的上下文实体特征；

步骤S105，构建推荐模块，将知识图谱特征学习应用到推荐系统：先使用卷积神经网络KCNN的方法学习候选网站向量，并用AttentionNetwork来判断该类型网站数据对候选网站的重要程度，AttentionNetworkwork通过将向量拼接并经过DNN来计算最后的权重，利用AttentionNetwork的权重加权用户历史数据可以得到用户的向量，最后将该类型数据向量和候选网站向量拼接并通过DNN得到候选网站对该类型的偏爱概率，模型效果根据找出最大的偏爱概率的类型为该网站的候选标签，通过下载应用网站类型调取其合作网站。

进一步地，在步骤S101中，解析并提取网站信息包括网页三要素文本：标题、关键词和描述。

进一步地，在步骤S101中，构建标签体系时，由于自身数据有限，需要第三方的数据作为补充，包括网站备案信息、网站域名页流量信息、资产指纹信息。

进一步地，在步骤S102中，抓取注册用户个人信息、网站相关信息、行为信息，其中，用户个人信息包括姓名、身份证号码、性别、地区、年龄，网站相关信息包括账号、密码、手机号、银行卡，行为信息包括注册、登陆时间、支付、交易时的IP地址、MAC地址、手机IMEI号。

进一步地，在步骤S102中，构建标签体系时，需要第三方的数据作为补充，包括电话号码注册查询、身份证号码验证。

与现有技术相比，本发明的有益效果是：

(1)通过网站数据标签，识别活跃网站犯罪平台情况，对这类网站进行清除、打击，减少网络犯罪平台的数量；

(2)基于知识图谱的网络犯罪智能分析检测系统研究，通过构建网络犯罪知识图谱，对网站实体和用户实体进行识别，通过实体之间的关系分析，提升线索质量；

(3)通过对网络空间供应链分析，识别出帮助信息网络犯罪的犯罪团伙。转变打击思路，围绕网络犯罪信息支撑、技术支撑、资金清算、网络推广长期跟踪重点盯防。

附图说明

图1为本发明检测流程示意图；

图2为本发明检测关系示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1-2所示，本发明提供了基于知识图谱的网络犯罪智能分析检测方法，包括以下检测步骤：

步骤S101，收集黑灰产网站数据及其相关数据，对网站群体进行标签区分：从数据中心机房的网络流量获取首批黑灰产数据，解析并提取网站信息，解析并提取网站信息包括网页三要素文本：标题、关键词和描述，使用新词发现模型，对获得的黑灰产类别数据做新词发现，并人工筛选得到多个黑灰产类别关键词，将这些关键词输入搜索引擎，通过爬虫程度获取相关网站，对提取的数据信息，用正则提取相关合作伙伴网站及其域名，判断是否为黑白名单，再构建全面、多维的标签体系，由于自身数据有限，需要第三方的数据作为补充，包括网站备案信息、网站域名页流量信息、资产指纹信息等，剔除数据中的异常值并将数据标准化，为网站数据创建标签，并对数据进行修正优化调整；

步骤S102，对已标签的黑灰产网站，获取网站用户数据，构建对应用户信息：使用授权工具对域名网站抓取注册用户个人信息、网站相关信息、行为信息，其中，用户个人信息包括姓名、身份证号码、性别、地区、年龄等，网站相关信息包括账号、密码、手机号、银行卡等，行为信息包括注册、登陆时间、支付、交易时的IP地址、MAC地址、手机IMEI号等，构建全面、多维的标签体系，需要第三方的数据作为补充，包括电话号码注册查询、身份证号码验证等，对数据清洗，剔除异常值和去重，为用户数据创建标签，并对数据进行优化调整；

步骤S103，构建知识图谱，将多维度数据信息在同一层面展开：明确现有的网站数据、用户数据、网站黑名单、网站白名单等信息，对图谱设计，定义五种实体、实体属性及实体关系，其中，定义的五种实体包括网站实体、网站类型标签实体、用户实体、网站黑名单实体和网站白名单实体，定义的实体属性包括网站数据表中的数据字段为网站实体属性、用户数据表中的数据字段为用户实体属性、网站黑名单中的数据字段为黑名单实体属性和网站白名单中的数据字段为白名单实体属性，定义的实体关系包括(网站实体，类型，类型实体)、(网站实体，注册，网站实体)、(网站实体，合作，网站实体)、(网站白名单实体，白名单，网站实体)和(网站黑名单实体，黑名单，网站实体)，用正则和模板提取网站信息相关合作网站的知识数据，再存放在非关系类型数据库Neo4j中，利用Dedupe工具根据网站的标题和域名等信息进行融合、去重，最后通过编写的Python接口程度将数据导入Neo4j中；

具体实施例：

S101，收集黑灰产网站数据及其相关数据，对网站群体进行标签区分。

本步骤主要实现黑灰产网页数据和周边相关数据的收集和清洗，实现对黑灰产网站的整体信息展示。

首先，从数据中心机房的网络流量获取首批黑灰产数据，解析并提取网站信息，包括网页三要素文本：标题、关键词和描述。

然后，使用新词发现模型，对黑灰产类别数据做新词发现，并人工筛选得到多个黑灰产类别关键词，将这些关键词输入搜索引擎，并通过爬虫程序获取次批网站数据，将两部分数据合并。

进一步，提取数据信息，包括用正则提取相关合作伙伴网站及其域名，并判断是否为黑白名单；使用暗链检查工具判断事都被攻击/纂改。

由于自身数据有限，在构建全面、多维的标签体系时，需要第三方的数据源作为补充。比如，通过数据接口爬取备案信息信息，包括网站业务范围、法人、联系方式等；通过数据接口爬取网页域名信息，包括其他域名、IP地址、端口、网站名等；通过网站指纹工具whatweb查询、解析资产指纹信息，包括国家、使用框架、HTTP服务器类型、IP地址、重定向地址、脚本语言等。

另外，需要对数据清洗，剔除异常值和去重，包括去除文本中特殊符号等、文本相似度去重、文本长度筛检、对三要素文本和域名做语义消歧等。

最后对数据的修正，随着数据的积累及运营经验的发展，对数据进行优化调整。

S102，对已标签的黑灰产网站，获取网站用户数据，构建对应用户信息。

本步骤主要实现黑灰产网页的注册用户数据收集和清洗，实现对黑灰产网站注册用户的整体信息展示。

首先，使用授权工具对域名网站抓取注册用户用户个人信息，包括姓名、身份证号、性别、地区、年龄等；网站相关信息，包括账号、密码、手机号、银行卡等；行为信息，包括注册、登陆时间、支付、交易时的IP地址、MAC地址、手机IMEI号等等。

由于自身数据有限，在构建全面、多维的标签体系时，需要第三方的数据源作为补充。比如，包括电话号码注册查询，身份证号码验证等。

另外，需要对数据清洗，剔除异常值和去重，为用户数据创建标签。

S103，构建知识图谱，将多维度数据信息在同一层面展开。

本步骤是将整理后的网站和用户数据构建知识图谱，将多维度数据在同一维度展现。

知识图谱(KnowledgeGraph,KG)是一种语义网络，其结点(Node)代表实体(Entity)，边(Edge)代表实体之间的各种语义关系(Relation)。一个知识图谱由若干个三元组(Head,Relation,Tail)组成，其中Head和Tail分别代表一条关系的头结点和尾节点，Relation代表关系，表示头实体与尾实体存在某种关系。

假定推荐系统中的网站也是一个KG中的节点，则KG提供了网站和注册用户之间的关系。

具体实现，首先明确现有数据：网站数据、用户数据、网站黑名单、网站白名单；

其次，对图谱设计，定义5种实体：网站实体(Label:SiteEntity)、网站类型标签实体(Label：LabelEntity)、用户实体(Label:UserEntity)、网站黑白名单实体(Label:BlackListEntity/WriteListEntity)；定义实体属性：网站数据表中的数据字段为网站实体属性，用户数据表中的数据字段为用户实体属性，网站黑白名单中的数据字段为黑白名单实体属性；定义实体关系：(网站实体，类型，类型实体),(网站实体，注册，网站实体)，(网站实体，合作，网站实体)(网站白名单实体，白名单，网站实体),(网站黑名单实体，黑名单，网站实体)。

一般构造知识图谱的流程需要知识抽取，即将非结构化文本数据转化为知识(三元组、多元关系、模态知识)的过程，经历文本预处理，分词、词性标注、语法解析、依存分析，再做命名实体识别NER，做实体链接，再抽取实体，抽取事件，形成知识。由于大部分数据处理和补充都交由前面处理完成，且这里的实体是网站域名，提取该网站的相关合作网站(合作网站本体)前面步骤已用正则和模板完成。

知识数据整理好后，将知识存在非关系型数据库Neo4j，Neo4j是一个高性能的，NOSQL图形数据库，它将结构化数据存储在网络上而不是表中。Neo4j也可以被看作是一个高性能的图引擎，该引擎具有成熟数据库的所有特性。应用场景比较广泛，可用在反欺诈多维关联分析，通过图分析可以清楚的知道洗钱网络及相关嫌疑，例如对用户所使用的账号发生交易时的IP地址、MAC地址、收集IMEI号等进行关联分析。也可以应用在社交媒体和社交网络图，构建知识图谱，个性化推荐等场景。

最后通过编写的Python接口程序将数据导入Neo4j。

S104，知识图谱特征学习。

本步骤主要是学习知识图谱的特征，本发明将知识图谱特征学习应用到推荐系统是遵循依次学习的方式。

依次学习(DeepKnowledge-AwareNetwork,DKN)：首先使用知识图谱特征学习得到实体向量(EntityEmbedding)和关系向量(RelationEmbedding)，然后将这些低维向量引入推荐系统，学习得到网站向量和注册用户向量。

学习图谱特征的方法如下：

a.实体连接(EntityLinking)：即从网页中发现相关网站并提取域名，并与知识图谱中的网站实体进行匹配。

b.知识图谱构建：根据所有匹配到的实体，在原始的知识图谱中抽取子图。子图的大小会影响后续算法的运行时间和效果：越大的子图通常会学习到更好的特征，但是所需的运行时间越长。

c.知识图谱特征学习，得到实体和关系向量：使用基于距离的翻译模型(TranslateDistanceModel)来学习特征，这类模型使用基于距离的评分函数评估三元组的概率，将尾节点视为头结点和关系翻译得到的结果。这类方法的代表有TransE、TransH、TransR等。

TransH解决一对多多对多关系，通过计算head和tail实体Embedding在关系Embedding上的投影，计算投影之间的关系，如下：

d.为了更准确地刻画实体，额外地使用一个实体的上下文实体特征(ContextualEntityembeddings)。一个实体e的上下文实体是e的所有一跳(1-Hop)邻居节点，e的上下文实体特征为e的所有上下文实体特征的平均值：

S105，构建推荐模块，将知识图谱特征学习应用到推荐系统。

该模型是一个基于CNN和注意力机制的推荐算法：

a.基于卷积神经网络Knowledge-AwareCNN(KCNN)的文本特征提取：有3个Embedding输入，分别是网站三要素(标题、描述、关键词)前250个文字的词向量(WordEmbedding)、实体向量(EntityEmbedding)和实体上下文向量(ContextEmbedding)作为多个通道，在CNN的框架下进行融合。

b.基于注意力机制(Attention-BasedInterestExtraction)的历史标签数据融合：给定该类型网站数据和候选网站，判断候选网站对该网站类型的偏向比重时，使用注意力网络(AttentionNetworkwork)给该类型数据分配不同的权重。

先使用KCNN的方法学习候选网站Embedding，并用AttentionNetwork来判断该类型网站数据对候选网站的重要程度，AttentionNetworkwork通过将向量拼接并经过DNN来计算最后的权重，利用AttentionNetwork的权重加权用户历史数据可以得到用户的Embedding，最后将该类型数据Embedding和候选网站Embedding拼接并通过DNN得到候选网站对该类型的偏爱概率。

模型效果根据找出最大的偏爱概率的类型为该网站的候选标签，该模型在网络黑灰产推荐上取得了98％以上准确率，比单纯文本的网页分类模型效果要好，所以注意力机制的引入，DKN可以更好地将同类别的网站联系起来，从而提高了最终的正确预测的数量。

下游应用：若该候选网站为属于赌博/色情/诈骗/非法支付/VPN/养号/外挂等黑灰产网站类型，则浏览该网站的用户可能也会浏览到其合作网站。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.基于知识图谱的网络犯罪智能分析检测方法，其特征在于，包括以下检测步骤：

2.根据权利要求1所述的基于知识图谱的网络犯罪智能分析检测方法，其特征在于，在步骤S101中，解析并提取网站信息包括网页三要素文本：标题、关键词和描述。

3.根据权利要求1所述的基于知识图谱的网络犯罪智能分析检测方法，其特征在于，在步骤S101中，构建标签体系时，由于自身数据有限，需要第三方的数据作为补充，包括网站备案信息、网站域名页流量信息、资产指纹信息。

4.根据权利要求1所述的基于知识图谱的网络犯罪智能分析检测方法，其特征在于，在步骤S102中，抓取注册用户个人信息、网站相关信息、行为信息，其中，用户个人信息包括姓名、身份证号码、性别、地区、年龄，网站相关信息包括账号、密码、手机号、银行卡，行为信息包括注册、登陆时间、支付、交易时的IP地址、MAC地址、手机IMEI号。

5.根据权利要求1所述的基于知识图谱的网络犯罪智能分析检测方法，其特征在于，在步骤S102中，构建标签体系时，需要第三方的数据作为补充，包括电话号码注册查询、身份证号码验证。