CN114124576B

CN114124576B - 一种基于知识图谱的诈骗网站关联方法及系统

Info

Publication number: CN114124576B
Application number: CN202210077475.5A
Authority: CN
Inventors: 张�浩; 马永霄; 漆伟; 张瑞冬; 童永鳌; 朱鹏
Original assignee: Chengdu No Sugar Information Tech Co ltd
Current assignee: Chengdu No Sugar Information Tech Co ltd
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2022-04-22
Anticipated expiration: 2042-01-24
Also published as: CN114124576A

Abstract

本发明公开了一种基于知识图谱的诈骗网站关联方法及系统，本发明通过对未知诈骗网站数据按规则清洗,并按设计好的诈骗网站的团伙分析结构存入知识图谱中,然后通过知识图谱的结构对新存入的诈骗网站进行判断是否属于已知诈骗网站的团伙还是新的诈骗网站的团伙，通过对未知的诈骗网站数据和已知的知识图谱中的数据进行比对和计算,判别是否为已知团伙的诈骗网站，更新知识图谱:对新添加的图谱数据进行一个判别后,然后根据已知团伙和未知团伙的方式更新图谱内的团伙信息用以后续关联分析，以实现在线学习的效果，可分析诈骗网站之间的关联关系并深入挖掘隐藏的信息线索。

Description

一种基于知识图谱的诈骗网站关联方法及系统

技术领域

本发明属于知识图谱（KnowledgeGraph）领域，具体涉及一种基于知识图谱的诈骗网站关联方法及系统。

背景技术

知识图谱，是结构化的语义知识库、用于迅速描述物理世界中的概念及其相互关系。

知识图谱通过对错综复杂的文档的数据进行有效的加工、处理、整合，转换为简单、清晰的“实体，关系，实体”的三元组，最后聚合大量知识，从而实现知识的快速响应和推理。

从构建好知识图谱后，用它来解决具体的问题，这时从算法的角度来讲，有两个不同的场景：一种是基于规则的；另一种是基于概率的。鉴于目前AI技术的现状，基于规则的方法论还是在垂直领域的应用中占据主导地位，但随着数据量的增加以及方法论的提升，基于概率的模型也将会逐步带来更大的价值。

发明人发现在诈骗网站关联方法中离散数据没有可分析和可使用的相关结构数据，且不能深度分析并生成可辅助团伙分析的节点和关系，不能数据中隐藏的有价值的数据与数据之间的关系，从而不能对未知网站进行判别是否为诈骗网站等非法网站，因此如何对未知网站是否为非法网站的判别成为了网络安全的一个重要课题。

发明内容

本发明的目的是为了克服上述技术问题，提出了一种基于知识图谱的诈骗网站关联方法及系统，具体是通过分析采集后的数据，并通过后期的知识图谱相关技术对数据加工，并融合了大数据分析（LargeDataAnalysis）、数据挖掘（DataMining）。

为实现上述目的本发明所采用的技术方案是：一种基于知识图谱的诈骗网站关联方法，其包括

数据清洗：对原始采集到的诈骗网站数据去掉不符合分析要求的数据，然后将符合分析要求的数据通过设计好的知识图谱映射到图数据库中；

知识图谱团伙分析：通过设置规则和计算生成用于辅助诈骗网站的团伙分析的关系和节点，并得到团伙分析的结果，通过团伙信息将诈骗网站进行关联后,对诈骗网站进行关联分析；

未知诈骗网站判别：基于已知诈骗网站信息判别未知网站与已知网站的关联关系，并动态的更新诈骗网站的团伙信息，以达到在线学习的效果，以便对未知网站进行一个团伙的判断和进行后续的关联分析；

对已知诈骗网站关联：通过诈骗网站之间的关联数据、关联内容，统计信息挖掘深层次的隐藏线索信息，并可视化展示便于后续的人工查看和分析。

进一步地，所述数据清洗包括：

A.通过数据统计和知识图谱设计的知识,分析采集好的数据；

B.根据分析采集好的数据信息，设计知识图谱的结构,用于描述数据在物理世界中的概念；

C.根据设计好的知识图谱结构,将采集的数据通过唯一ID表示唯一的节点和唯一的关系的形式一一对应方式进行检测,有能相互匹配对应的则合并,没有则导入的方式检测数据；

D.通过上述检测方式按设计好的图谱格式导入图库,用以结构化的描述所有采集的涉嫌人员登录数据；

E.通过上述导入的图库的结构化数据用以后续诈骗网站关系生成分析。

进一步地：所述唯一ID包括涉嫌人员ID、登录IP、登录城市、非法网站ID、服务器ID。

所述知识图谱团伙分析包括：

A.通过数据统计和知识图谱设计的知识,分析采集好的数据；

B.设计知识图谱的结构,用于描述数据在物理世界中的概念；

C.生成辅助判别团伙的辅助节点和关系，根据设计好的知识图谱结构,将采集的数据通过唯一ID表示唯一的节点和唯一的关系的形式一一对应方式检测采集的数据,有能相互匹配对应的则合并,没有则导入的方式检测数据；

D.通过以上检测方式按设计好的图谱格式导入图库,用以结构化的描述所有采集的涉嫌人员登录数据；

E.通过导入的图库的结构化数据用以后续诈骗网站关联关系生成；

F.通过上一步生成的关系分析判别团伙,并为团伙生成标识用以标记；

H.最后通过团伙信息将诈骗网站进行关联后,对诈骗网站进行关联分析。

进一步地，所述未知诈骗网站判别包括：

A.通过数据清洗将未知数据按流程清洗,并按设计好的诈骗网站的团伙分析结果存入知识图谱中,然后进行团伙分析；

B.然后通过对新存入的诈骗网站和已知团伙标识下的所有诈骗网站相关信息进行对比和计算,判别是否为已知团伙诈骗网站；

C.对新添加的图谱数据进行一个判别,然后根据已知团伙和未知团伙的方式更新图库,方便后续关联分析,以实现在线学习的效果。

进一步地，所述对已知诈骗网站关联包括：

A.通过数据清洗、知识图谱团伙分析和未知诈骗网站判别三个环节不断更新后的图库,再对所有诈骗网站之间共有的信息进行关联,用于分析诈骗网站之间的共性；

B.对诈骗网站下的某个属性,分析和关联在已知诈骗网站中有多个也是使用该属性的网站,用于分析诈骗网站的特征分布,建立诈骗网站惯用手段的数据库，以实现关联的功能；

C.诈骗网站通过属性关联到其它诈骗网站,其它诈骗网站继续关联到其它诈骗网站,通过这样二度关联或多度关联进一步发现隐藏有关系的诈骗网站和隐藏线索。

其中所述诈骗网站惯用手段的数据库包括：多个诈骗网站的注册公司或者邮箱相同的数据。

其中所述诈骗网站之间共有的信息包括使用同一服务器IP地址、同一服务器机房的关联网站。

一种基于知识图谱的诈骗网站关联系统，该系统为实现上述方法，其包括

数据清洗模块，对原始采集到的数据去掉不符合分析要求的数据，然后通过设计好的知识图谱映射到图数据库中；

知识图谱团伙分析模块，通过设置规则和计算生成辅助诈骗网站的团伙分析的关系和节点并得到团伙分析的结果，通过团伙信息将诈骗网站进行关联后,对诈骗网站进行关联分析；

未知诈骗网站判别模块，基于已知诈骗网站信息判别未知网站与已知网站的关联关系，并动态的更新诈骗网站的团伙信息，以达到在线学习的效果，以便对未知网站进行一个团伙的判断和进行后续的关联分析；

已知诈骗网站关联模块，通过诈骗网站之间的关联数据、关联内容，统计信息挖掘深层次的隐藏线索信息，并可视化展示便于后续的人工查看和分析。

其各个模块的具体工作如下：

数据清洗模块：在进行团伙分析之前，对原始采集到的数据做一系列的预处理然后通过设计好的知识图谱并映射到图数据库中，目的是消除因为各种数据采集过程和由于各种数据本身不完整所带来的数据来源、数据准确、数据可靠、消除数据结构不一致等等因素，正确的录入图谱相应的数据库中。

数据清洗:去掉不符合诈骗网站的团伙分析的数据,保留符合的数据要求的字段。

对每个字段数据进行检查,异常和空字段等无用字段统一处理；

通过对照设计好的知识图谱结构,将大量采集的离散的字段数据,按数据中指定的唯一节点和唯一关系的方式映射进图数据库中,以达到将数据映射为有关系链接的结构化数据。用于存储已经判别为诈骗网站的数据。

知识图谱团伙分析模块：通过使用知识图谱数据结构化的特性,并针对当前诈骗网站数据进行深度挖掘,然后设计并生成出的一种便于分析诈骗网站的团伙的结构,将同一团伙下的诈骗网站进行关联。

其中生成辅助判别团伙的辅助节点和关系:(节点)真实且唯一的涉嫌人员登陆机器等,(关系)判断涉嫌人员之间是否有交集和行为等关系。

其中生成团伙标识:通过人工对数据的进一步深度分析挖掘:然后生成可以判断的涉嫌人员与涉嫌人员之间是否为团伙的关系和团伙标识相应的节点。

其中生成团伙信息:通过辅助节点和辅助关系对所有数据进行团伙关系的判断后,则可通过分析后的图谱得到涉嫌人员团伙信息,用以后续的诈骗网站关联分析。

未知诈骗网站判别模块：基于已知诈骗网站信息判别未知网站与已知网站的关联关系,并动态的更新诈骗网站的团伙信息，以达到在线学习的效果，目的是对未知网站进行一个团伙的判断和进行后续的关联分析。

具体包括以下实现过程数据清洗:通过数据清洗模块将未知数据按流程清洗,并按设计好的诈骗网站的团伙分析结构存入知识图谱中；

未知数据团伙判别:然后通过对新存入的诈骗网站和已知团伙标识下的所有诈骗网站相关信息进行比对和计算，判别是否为已知团伙诈骗网站；

更新图库:对新添加的图谱数据进行一个判别后,然后根据已知团伙和未知团伙的方式更新图库,方便后续关联分析,以实现在线学习的效果。

已知诈骗网站关联模块：基于已知诈骗网站信息判别诈骗网站之间的关联关系,并统计相关特点、信息、数量、相关涉嫌人员、报告、其它数据等。目的是通过诈骗网站之间的关联数据,关联内容,统计信息去发现更有用的线索.并可视化展示便于后续的人工查看和分析。

具体实现是诈骗网站关联:对两两诈骗网站之间共有的信息进行关联,比如使用同一服务器IP地址,同一服务器机房等.通过这样的方式建立联系,用于分析两诈骗网站之间的共性。

属性统计:诈骗网站下的某个属性,在已知诈骗网站中有多个也是使用该属性的,用于分析诈骗网站的特征分布,建立诈骗网站惯用手段的数据库等。比如:多个诈骗网站的注册公司或者邮箱相同的数据等。

深度关联:诈骗网站下的属性关联到其它诈骗网站,其它诈骗网站通过其它属性又关联到诈骗网站,通过诈骗网站之间的二度关联甚至三度关联可以发现一些隐藏的线索。

相比现有技术，本发明的技术方案具有如下优点/有益效果：

1、本发明采用离散涉嫌人员登录数据映射为有关联的结构化数据，记录下来的登录信息被描述为离散数据经过映射导入图库后的数据被称为结构化数据,解决了离散数据没有可分析和可使用的问题。

2、本发明根据已经结构化后的数据,深度分析并生成可辅助团伙分析的节点和关系。将离散数据转换结构化数据后的进一步深度数据挖掘和分析数据中潜在的关系,找到了数据中隐藏的有价值的数据与数据之间的关系。

3、本发明对未知网站进行比对后判别是否为诈骗网站,再更新图库以实现在线学习的效果。

4、本发明通过已分析出来的团伙信息,利用团伙信息对诈骗网站进行关联，则可分析诈骗网站之间的关联关系。且可进一步地通过对诈骗网站之间的关联关系可以进一步的分析出更深层的二度三度关联关系。

5、本发明在更新诈骗网站的团伙数据时提前计算诈骗网站的团伙的分析结果,后续使用更高效无需计算。

6、本发明由离散数据存储为结构化数据的映射过程中解决了需要大量存储空间的问题。

附图说明

为了更清楚地说明本发明实施方式的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明一种基于知识图谱的诈骗网站关联方法的流程示意图。

图2是本发明知识图谱构建流程示意图。

图3是本发明基于知识图谱的诈骗网站关联系统的结构框图。

具体实施方式

为使本发明目的、技术方案和优点更加清楚，下面对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明的一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。

实施例：

如图1、2所示，本实施例首先提供了基于知识图谱的诈骗网站关联方法，该方法先采集基础的相关诈骗网站和相关人员的信息。然后进行以下四步，分别为数据清洗、知识图谱团伙分析、未知诈骗网站判别和已知诈骗网站关联，其具体操作过程如下：

首先，数据清洗：将采集的数据以描述物理世界中的概念及其相互关系的形式存入图库中；具体是，1.通过数据统计和知识图谱设计的知识,分析采集好的数据；

2.根据分析采集好的数据信息，设计知识图谱的结构,用于描述数据在物理世界中的概念；

3.根据设计好的知识图谱结构,将大量采集的数据通过唯一ID表示唯一的节点和唯一的关系的形式(涉嫌人员ID、登录IP、登录城市、非法网站ID、服务器ID等)一一对应方式检测采集的数据,有能相互匹配的则合并,没有则导入的方式检测数据；本发明先比对库中是否存在完全相同的数据,有则合并,没有则新建。4.通过上述检测方式按设计好的图谱格式导入图库,用以结构化的描述所有采集的涉嫌人员登录数据；

5.通过上述导入的图库的结构化数据用以后续诈骗网站关系生成分析。

其次：进行知识图谱团伙分析，通过设置一定的规则（规则根据实际操作时的诉求进行设置）和计算生成一些辅助诈骗网站的团伙分析的关系和节点并得到团伙分析的结果，具体是

1.通过数据统计和知识图谱设计的知识,分析采集好的数据；

2.设计知识图谱的结构,用于描述数据在物理世界中的概念；

3.根据设计好的知识图谱结构,将大量采集的数据通过唯一ID表示唯一的节点和唯一的关系的形式(涉嫌人员ID、登录IP、登录城市、非法网站ID、服务器ID等)一一对应方式检测采集的数据,有则合并,没有则导入的方式检测数据；

4.通过上述检测方式按设计好的图谱格式导入图库,用以结构化的描述所有采集的涉嫌人员登录数据；

5.通过上述导入的图库的结构化数据用以后续诈骗网站关联关系生成；

6.通过上一步生成的关系分析判别团伙,并为团伙生成标识用以标记；

7.最后通过团伙信息将诈骗网站进行关联后,对诈骗网站进行关联分析。

根据上述操作，然后进行未知诈骗网站判别，基于已知诈骗网站信息判别未知网站与已知网站的关联关系,并动态的更新诈骗网站的团伙信息，以达到在线学习的效果。目的是对未知网站进行一个团伙的判断和进行后续的关联分析。具体是，

1.通过数据清洗模块将未知数据按流程清洗,并按设计好的诈骗网站的团伙分析结果存入知识图谱中,然后进行团伙分析；

2.然后通过对新存入的诈骗网站和已知团伙标识下的所有诈骗网站相关信息进行对比和计算,判别是否为已知团伙诈骗网站；

3.对新添加的图谱数据进行一个判别,然后根据已知团伙和未知团伙的方式更新图库,方便后续关联分析,以实现在线学习的效果。

然后对已知诈骗网站关联，通过诈骗网站之间的关联数据,关联内容,统计信息去发现更有用的线索.并可视化展示便于后续的人工查看和分析。具体是，

1.通过前三个模块不断更新后的图库,再对所有诈骗网站之间共有的信息进行关联,比如使用同一服务器IP地址关联两网站,同一服务器机房等.通过这样的方式建立联系,用于分析两诈骗网站之间的共性。

2.对诈骗网站下的某个属性,分析和关联在已知诈骗网站中有多个也是使用该属性的,用于分析诈骗网站的特征分布,建立诈骗网站惯用手段的数据库等.比如:多个诈骗网站的注册公司或者邮箱相同的数据等，以实现关联的功能。

诈骗网站通过属性关联到其它诈骗网站,其它诈骗网站又可以继续关联到其它诈骗网站,通过这样二度关联甚至多度关联可以发现一些隐藏有关系的诈骗网站和一些隐藏的线索。

如图3所示：基于知识图谱的诈骗网站关联系统包括四大模块分别为数据清洗模块、知识图谱团伙分析模块、未知诈骗网站判别模块和已知诈骗网站关联模块，其中：

以上仅是本发明的优选实施方式，应当指出的是，上述优选实施方式不应视为对本发明的限制，本发明的保护范围应当以权利要求所限定的范围为准。对于本技术领域的普通技术人员来说，在不脱离本发明的精神和范围内，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于知识图谱的诈骗网站关联方法，其特征在于，包括

数据清洗具体包括：

A.通过数据统计和知识图谱设计的知识,分析采集好的数据；

C.根据设计好的知识图谱的结构,将采集的数据通过唯一ID表示唯一的节点和唯一的关系的形式一一对应方式进行检测,有能相互匹配对应的则合并,没有则以导入的方式检测数据；

E.通过上述导入的图库的结构化数据用以后续诈骗网站关系生成分析；

知识图谱团伙分析包括：

A.通过数据统计和知识图谱设计的知识,分析采集好的数据；

B.设计知识图谱的结构,用于描述数据在物理世界中的概念；

C.生成辅助判别团伙的辅助节点和关系，根据设计好的知识图谱的结构,将采集的数据通过唯一ID表示唯一的节点和唯一的关系的形式一一对应方式检测采集的数据,有能相互匹配对应的则合并,没有则导入的方式检测数据；

H.最后通过团伙信息将诈骗网站进行关联后,对诈骗网站进行关联分析；

2.根据权利要求1所述的一种基于知识图谱的诈骗网站关联方法，其特征在于，所述唯一ID包括涉嫌人员ID、登录IP、登录城市、非法网站ID、服务器ID。

3.根据权利要求1所述的一种基于知识图谱的诈骗网站关联方法，其特征在于，未知诈骗网站判别包括

4.根据权利要求1所述的一种基于知识图谱的诈骗网站关联方法，其特征在于，对已知诈骗网站关联包括

5.根据权利要求4所述的一种基于知识图谱的诈骗网站关联方法，其特征在于，诈骗网站惯用手段的数据库包括：多个诈骗网站的注册公司或者邮箱相同的数据。

6.根据权利要求4所述的一种基于知识图谱的诈骗网站关联方法，其特征在于，诈骗网站之间共有的信息包括使用同一服务器IP地址、同一服务器机房的关联网站。

7.一种基于知识图谱的诈骗网站关联系统，其特征在于，该系统以实现权利要求1-6任一项所述的方法，其包括

数据清洗模块具体包括：

A.通过数据统计和知识图谱设计的知识,分析采集好的数据；

知识图谱团伙分析模块包括：

A.通过数据统计和知识图谱设计的知识,分析采集好的数据；

B.设计知识图谱的结构,用于描述数据在物理世界中的概念；