CN114124576B - 一种基于知识图谱的诈骗网站关联方法及系统 - Google Patents

一种基于知识图谱的诈骗网站关联方法及系统 Download PDF

Info

Publication number
CN114124576B
CN114124576B CN202210077475.5A CN202210077475A CN114124576B CN 114124576 B CN114124576 B CN 114124576B CN 202210077475 A CN202210077475 A CN 202210077475A CN 114124576 B CN114124576 B CN 114124576B
Authority
CN
China
Prior art keywords
data
fraud
websites
group
website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210077475.5A
Other languages
English (en)
Other versions
CN114124576A (zh
Inventor
张�浩
马永霄
漆伟
张瑞冬
童永鳌
朱鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu No Sugar Information Tech Co ltd
Original Assignee
Chengdu No Sugar Information Tech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu No Sugar Information Tech Co ltd filed Critical Chengdu No Sugar Information Tech Co ltd
Priority to CN202210077475.5A priority Critical patent/CN114124576B/zh
Publication of CN114124576A publication Critical patent/CN114124576A/zh
Application granted granted Critical
Publication of CN114124576B publication Critical patent/CN114124576B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于知识图谱的诈骗网站关联方法及系统,本发明通过对未知诈骗网站数据按规则清洗,并按设计好的诈骗网站的团伙分析结构存入知识图谱中,然后通过知识图谱的结构对新存入的诈骗网站进行判断是否属于已知诈骗网站的团伙还是新的诈骗网站的团伙,通过对未知的诈骗网站数据和已知的知识图谱中的数据进行比对和计算,判别是否为已知团伙的诈骗网站,更新知识图谱:对新添加的图谱数据进行一个判别后,然后根据已知团伙和未知团伙的方式更新图谱内的团伙信息用以后续关联分析,以实现在线学习的效果,可分析诈骗网站之间的关联关系并深入挖掘隐藏的信息线索。

Description

一种基于知识图谱的诈骗网站关联方法及系统
技术领域
本发明属于知识图谱(KnowledgeGraph)领域,具体涉及一种基于知识图谱的诈骗网站关联方法及系统。
背景技术
知识图谱,是结构化的语义知识库、用于迅速描述物理世界中的概念及其相互关系。
知识图谱通过对错综复杂的文档的数据进行有效的加工、处理、整合,转换为简单、清晰的“实体,关系,实体”的三元组,最后聚合大量知识,从而实现知识的快速响应和推理。
从构建好知识图谱后,用它来解决具体的问题,这时从算法的角度来讲,有两个不同的场景:一种是基于规则的;另一种是基于概率的。鉴于目前AI技术的现状,基于规则的方法论还是在垂直领域的应用中占据主导地位,但随着数据量的增加以及方法论的提升,基于概率的模型也将会逐步带来更大的价值。
发明人发现在诈骗网站关联方法中离散数据没有可分析和可使用的相关结构数据,且不能深度分析并生成可辅助团伙分析的节点和关系,不能数据中隐藏的有价值的数据与数据之间的关系,从而不能对未知网站进行判别是否为诈骗网站等非法网站,因此如何对未知网站是否为非法网站的判别成为了网络安全的一个重要课题。
发明内容
本发明的目的是为了克服上述技术问题,提出了一种基于知识图谱的诈骗网站关联方法及系统,具体是通过分析采集后的数据,并通过后期的知识图谱相关技术对数据加工,并融合了大数据分析(LargeDataAnalysis)、数据挖掘(DataMining)。
为实现上述目的本发明所采用的技术方案是:一种基于知识图谱的诈骗网站关联方法,其包括
数据清洗:对原始采集到的诈骗网站数据去掉不符合分析要求的数据,然后将符合分析要求的数据通过设计好的知识图谱映射到图数据库中;
知识图谱团伙分析:通过设置规则和计算生成用于辅助诈骗网站的团伙分析的关系和节点,并得到团伙分析的结果,通过团伙信息将诈骗网站进行关联后,对诈骗网站进行关联分析;
未知诈骗网站判别:基于已知诈骗网站信息判别未知网站与已知网站的关联关系,并动态的更新诈骗网站的团伙信息,以达到在线学习的效果,以便对未知网站进行一个团伙的判断和进行后续的关联分析;
对已知诈骗网站关联:通过诈骗网站之间的关联数据、关联内容,统计信息挖掘深层次的隐藏线索信息,并可视化展示便于后续的人工查看和分析。
进一步地,所述数据清洗包括:
A.通过数据统计和知识图谱设计的知识,分析采集好的数据;
B.根据分析采集好的数据信息,设计知识图谱的结构,用于描述数据在物理世界中的概念;
C.根据设计好的知识图谱结构,将采集的数据通过唯一ID表示唯一的节点和唯一的关系的形式一一对应方式进行检测,有能相互匹配对应的则合并,没有则导入的方式检测数据;
D.通过上述检测方式按设计好的图谱格式导入图库,用以结构化的描述所有采集的涉嫌人员登录数据;
E.通过上述导入的图库的结构化数据用以后续诈骗网站关系生成分析。
进一步地:所述唯一ID包括涉嫌人员ID、登录IP、登录城市、非法网站ID、服务器ID。
所述知识图谱团伙分析包括:
A.通过数据统计和知识图谱设计的知识,分析采集好的数据;
B.设计知识图谱的结构,用于描述数据在物理世界中的概念;
C.生成辅助判别团伙的辅助节点和关系,根据设计好的知识图谱结构,将采集的数据通过唯一ID表示唯一的节点和唯一的关系的形式一一对应方式检测采集的数据,有能相互匹配对应的则合并,没有则导入的方式检测数据;
D.通过以上检测方式按设计好的图谱格式导入图库,用以结构化的描述所有采集的涉嫌人员登录数据;
E.通过导入的图库的结构化数据用以后续诈骗网站关联关系生成;
F.通过上一步生成的关系分析判别团伙,并为团伙生成标识用以标记;
H.最后通过团伙信息将诈骗网站进行关联后,对诈骗网站进行关联分析。
进一步地,所述未知诈骗网站判别包括:
A.通过数据清洗将未知数据按流程清洗,并按设计好的诈骗网站的团伙分析结果存入知识图谱中,然后进行团伙分析;
B.然后通过对新存入的诈骗网站和已知团伙标识下的所有诈骗网站相关信息进行对比和计算,判别是否为已知团伙诈骗网站;
C.对新添加的图谱数据进行一个判别,然后根据已知团伙和未知团伙的方式更新图库,方便后续关联分析,以实现在线学习的效果。
进一步地,所述对已知诈骗网站关联包括:
A.通过数据清洗、知识图谱团伙分析和未知诈骗网站判别三个环节不断更新后的图库,再对所有诈骗网站之间共有的信息进行关联,用于分析诈骗网站之间的共性;
B.对诈骗网站下的某个属性,分析和关联在已知诈骗网站中有多个也是使用该属性的网站,用于分析诈骗网站的特征分布,建立诈骗网站惯用手段的数据库,以实现关联的功能;
C.诈骗网站通过属性关联到其它诈骗网站,其它诈骗网站继续关联到其它诈骗网站,通过这样二度关联或多度关联进一步发现隐藏有关系的诈骗网站和隐藏线索。
其中所述诈骗网站惯用手段的数据库包括:多个诈骗网站的注册公司或者邮箱相同的数据。
其中所述诈骗网站之间共有的信息包括使用同一服务器IP地址、同一服务器机房的关联网站。
一种基于知识图谱的诈骗网站关联系统,该系统为实现上述方法,其包括
数据清洗模块,对原始采集到的数据去掉不符合分析要求的数据,然后通过设计好的知识图谱映射到图数据库中;
知识图谱团伙分析模块,通过设置规则和计算生成辅助诈骗网站的团伙分析的关系和节点并得到团伙分析的结果,通过团伙信息将诈骗网站进行关联后,对诈骗网站进行关联分析;
未知诈骗网站判别模块,基于已知诈骗网站信息判别未知网站与已知网站的关联关系,并动态的更新诈骗网站的团伙信息,以达到在线学习的效果,以便对未知网站进行一个团伙的判断和进行后续的关联分析;
已知诈骗网站关联模块,通过诈骗网站之间的关联数据、关联内容,统计信息挖掘深层次的隐藏线索信息,并可视化展示便于后续的人工查看和分析。
其各个模块的具体工作如下:
数据清洗模块:在进行团伙分析之前,对原始采集到的数据做一系列的预处理然后通过设计好的知识图谱并映射到图数据库中,目的是消除因为各种数据采集过程和由于各种数据本身不完整所带来的数据来源、数据准确、数据可靠、消除数据结构不一致等等因素,正确的录入图谱相应的数据库中。
数据清洗:去掉不符合诈骗网站的团伙分析的数据,保留符合的数据要求的字段。
对每个字段数据进行检查,异常和空字段等无用字段统一处理;
通过对照设计好的知识图谱结构,将大量采集的离散的字段数据,按数据中指定的唯一节点和唯一关系的方式映射进图数据库中,以达到将数据映射为有关系链接的结构化数据。用于存储已经判别为诈骗网站的数据。
知识图谱团伙分析模块:通过使用知识图谱数据结构化的特性,并针对当前诈骗网站数据进行深度挖掘,然后设计并生成出的一种便于分析诈骗网站的团伙的结构,将同一团伙下的诈骗网站进行关联。
其中生成辅助判别团伙的辅助节点和关系:(节点)真实且唯一的涉嫌人员登陆机器等,(关系)判断涉嫌人员之间是否有交集和行为等关系。
其中生成团伙标识:通过人工对数据的进一步深度分析挖掘:然后生成可以判断的涉嫌人员与涉嫌人员之间是否为团伙的关系和团伙标识相应的节点。
其中生成团伙信息:通过辅助节点和辅助关系对所有数据进行团伙关系的判断后,则可通过分析后的图谱得到涉嫌人员团伙信息,用以后续的诈骗网站关联分析。
未知诈骗网站判别模块:基于已知诈骗网站信息判别未知网站与已知网站的关联关系,并动态的更新诈骗网站的团伙信息,以达到在线学习的效果,目的是对未知网站进行一个团伙的判断和进行后续的关联分析。
具体包括以下实现过程数据清洗:通过数据清洗模块将未知数据按流程清洗,并按设计好的诈骗网站的团伙分析结构存入知识图谱中;
未知数据团伙判别:然后通过对新存入的诈骗网站和已知团伙标识下的所有诈骗网站相关信息进行比对和计算,判别是否为已知团伙诈骗网站;
更新图库:对新添加的图谱数据进行一个判别后,然后根据已知团伙和未知团伙的方式更新图库,方便后续关联分析,以实现在线学习的效果。
已知诈骗网站关联模块:基于已知诈骗网站信息判别诈骗网站之间的关联关系,并统计相关特点、信息、数量、相关涉嫌人员、报告、其它数据等。目的是通过诈骗网站之间的关联数据,关联内容,统计信息去发现更有用的线索.并可视化展示便于后续的人工查看和分析。
具体实现是诈骗网站关联:对两两诈骗网站之间共有的信息进行关联,比如使用同一服务器IP地址,同一服务器机房等.通过这样的方式建立联系,用于分析两诈骗网站之间的共性。
属性统计:诈骗网站下的某个属性,在已知诈骗网站中有多个也是使用该属性的,用于分析诈骗网站的特征分布,建立诈骗网站惯用手段的数据库等。比如:多个诈骗网站的注册公司或者邮箱相同的数据等。
深度关联:诈骗网站下的属性关联到其它诈骗网站,其它诈骗网站通过其它属性又关联到诈骗网站,通过诈骗网站之间的二度关联甚至三度关联可以发现一些隐藏的线索。
相比现有技术,本发明的技术方案具有如下优点/有益效果:
1、本发明采用离散涉嫌人员登录数据映射为有关联的结构化数据,记录下来的登录信息被描述为离散数据经过映射导入图库后的数据被称为结构化数据,解决了离散数据没有可分析和可使用的问题。
2、本发明根据已经结构化后的数据,深度分析并生成可辅助团伙分析的节点和关系。将离散数据转换结构化数据后的进一步深度数据挖掘和分析数据中潜在的关系,找到了数据中隐藏的有价值的数据与数据之间的关系。
3、本发明对未知网站进行比对后判别是否为诈骗网站,再更新图库以实现在线学习的效果。
4、本发明通过已分析出来的团伙信息,利用团伙信息对诈骗网站进行关联,则可分析诈骗网站之间的关联关系。且可进一步地通过对诈骗网站之间的关联关系可以进一步的分析出更深层的二度三度关联关系。
5、本发明在更新诈骗网站的团伙数据时提前计算诈骗网站的团伙的分析结果,后续使用更高效无需计算。
6、本发明由离散数据存储为结构化数据的映射过程中解决了需要大量存储空间的问题。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明一种基于知识图谱的诈骗网站关联方法的流程示意图。
图2是本发明知识图谱构建流程示意图。
图3是本发明基于知识图谱的诈骗网站关联系统的结构框图。
具体实施方式
为使本发明目的、技术方案和优点更加清楚,下面对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明的一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。
实施例:
如图1、2所示,本实施例首先提供了基于知识图谱的诈骗网站关联方法,该方法先采集基础的相关诈骗网站和相关人员的信息。然后进行以下四步,分别为数据清洗、知识图谱团伙分析、未知诈骗网站判别和已知诈骗网站关联,其具体操作过程如下:
首先,数据清洗:将采集的数据以描述物理世界中的概念及其相互关系的形式存入图库中;具体是,1.通过数据统计和知识图谱设计的知识,分析采集好的数据;
2.根据分析采集好的数据信息,设计知识图谱的结构,用于描述数据在物理世界中的概念;
3.根据设计好的知识图谱结构,将大量采集的数据通过唯一ID表示唯一的节点和唯一的关系的形式(涉嫌人员ID、登录IP、登录城市、非法网站ID、服务器ID等)一一对应方式检测采集的数据,有能相互匹配的则合并,没有则导入的方式检测数据;本发明先比对库中是否存在完全相同的数据,有则合并,没有则新建。4.通过上述检测方式按设计好的图谱格式导入图库,用以结构化的描述所有采集的涉嫌人员登录数据;
5.通过上述导入的图库的结构化数据用以后续诈骗网站关系生成分析。
其次:进行知识图谱团伙分析,通过设置一定的规则(规则根据实际操作时的诉求进行设置)和计算生成一些辅助诈骗网站的团伙分析的关系和节点并得到团伙分析的结果,具体是
1.通过数据统计和知识图谱设计的知识,分析采集好的数据;
2.设计知识图谱的结构,用于描述数据在物理世界中的概念;
3.根据设计好的知识图谱结构,将大量采集的数据通过唯一ID表示唯一的节点和唯一的关系的形式(涉嫌人员ID、登录IP、登录城市、非法网站ID、服务器ID等)一一对应方式检测采集的数据,有则合并,没有则导入的方式检测数据;
4.通过上述检测方式按设计好的图谱格式导入图库,用以结构化的描述所有采集的涉嫌人员登录数据;
5.通过上述导入的图库的结构化数据用以后续诈骗网站关联关系生成;
6.通过上一步生成的关系分析判别团伙,并为团伙生成标识用以标记;
7.最后通过团伙信息将诈骗网站进行关联后,对诈骗网站进行关联分析。
根据上述操作,然后进行未知诈骗网站判别,基于已知诈骗网站信息判别未知网站与已知网站的关联关系,并动态的更新诈骗网站的团伙信息,以达到在线学习的效果。目的是对未知网站进行一个团伙的判断和进行后续的关联分析。具体是,
1.通过数据清洗模块将未知数据按流程清洗,并按设计好的诈骗网站的团伙分析结果存入知识图谱中,然后进行团伙分析;
2.然后通过对新存入的诈骗网站和已知团伙标识下的所有诈骗网站相关信息进行对比和计算,判别是否为已知团伙诈骗网站;
3.对新添加的图谱数据进行一个判别,然后根据已知团伙和未知团伙的方式更新图库,方便后续关联分析,以实现在线学习的效果。
然后对已知诈骗网站关联,通过诈骗网站之间的关联数据,关联内容,统计信息去发现更有用的线索.并可视化展示便于后续的人工查看和分析。具体是,
1.通过前三个模块不断更新后的图库,再对所有诈骗网站之间共有的信息进行关联,比如使用同一服务器IP地址关联两网站,同一服务器机房等.通过这样的方式建立联系,用于分析两诈骗网站之间的共性。
2.对诈骗网站下的某个属性,分析和关联在已知诈骗网站中有多个也是使用该属性的,用于分析诈骗网站的特征分布,建立诈骗网站惯用手段的数据库等.比如:多个诈骗网站的注册公司或者邮箱相同的数据等,以实现关联的功能。
诈骗网站通过属性关联到其它诈骗网站,其它诈骗网站又可以继续关联到其它诈骗网站,通过这样二度关联甚至多度关联可以发现一些隐藏有关系的诈骗网站和一些隐藏的线索。
如图3所示:基于知识图谱的诈骗网站关联系统包括四大模块分别为数据清洗模块、知识图谱团伙分析模块、未知诈骗网站判别模块和已知诈骗网站关联模块,其中:
数据清洗模块:在进行团伙分析之前,对原始采集到的数据做一系列的预处理然后通过设计好的知识图谱并映射到图数据库中,目的是消除因为各种数据采集过程和由于各种数据本身不完整所带来的数据来源、数据准确、数据可靠、消除数据结构不一致等等因素,正确的录入图谱相应的数据库中。
数据清洗:去掉不符合诈骗网站的团伙分析的数据,保留符合的数据要求的字段。
对每个字段数据进行检查,异常和空字段等无用字段统一处理;
通过对照设计好的知识图谱结构,将大量采集的离散的字段数据,按数据中指定的唯一节点和唯一关系的方式映射进图数据库中,以达到将数据映射为有关系链接的结构化数据。用于存储已经判别为诈骗网站的数据。
知识图谱团伙分析模块:通过使用知识图谱数据结构化的特性,并针对当前诈骗网站数据进行深度挖掘,然后设计并生成出的一种便于分析诈骗网站的团伙的结构,将同一团伙下的诈骗网站进行关联。
其中生成辅助判别团伙的辅助节点和关系:(节点)真实且唯一的涉嫌人员登陆机器等,(关系)判断涉嫌人员之间是否有交集和行为等关系。
其中生成团伙标识:通过人工对数据的进一步深度分析挖掘:然后生成可以判断的涉嫌人员与涉嫌人员之间是否为团伙的关系和团伙标识相应的节点。
其中生成团伙信息:通过辅助节点和辅助关系对所有数据进行团伙关系的判断后,则可通过分析后的图谱得到涉嫌人员团伙信息,用以后续的诈骗网站关联分析。
未知诈骗网站判别模块:基于已知诈骗网站信息判别未知网站与已知网站的关联关系,并动态的更新诈骗网站的团伙信息,以达到在线学习的效果,目的是对未知网站进行一个团伙的判断和进行后续的关联分析。
具体包括以下实现过程数据清洗:通过数据清洗模块将未知数据按流程清洗,并按设计好的诈骗网站的团伙分析结构存入知识图谱中;
未知数据团伙判别:然后通过对新存入的诈骗网站和已知团伙标识下的所有诈骗网站相关信息进行比对和计算,判别是否为已知团伙诈骗网站;
更新图库:对新添加的图谱数据进行一个判别后,然后根据已知团伙和未知团伙的方式更新图库,方便后续关联分析,以实现在线学习的效果。
已知诈骗网站关联模块:基于已知诈骗网站信息判别诈骗网站之间的关联关系,并统计相关特点、信息、数量、相关涉嫌人员、报告、其它数据等。目的是通过诈骗网站之间的关联数据,关联内容,统计信息去发现更有用的线索.并可视化展示便于后续的人工查看和分析。
具体实现是诈骗网站关联:对两两诈骗网站之间共有的信息进行关联,比如使用同一服务器IP地址,同一服务器机房等.通过这样的方式建立联系,用于分析两诈骗网站之间的共性。
属性统计:诈骗网站下的某个属性,在已知诈骗网站中有多个也是使用该属性的,用于分析诈骗网站的特征分布,建立诈骗网站惯用手段的数据库等。比如:多个诈骗网站的注册公司或者邮箱相同的数据等。
深度关联:诈骗网站下的属性关联到其它诈骗网站,其它诈骗网站通过其它属性又关联到诈骗网站,通过诈骗网站之间的二度关联甚至三度关联可以发现一些隐藏的线索。
以上仅是本发明的优选实施方式,应当指出的是,上述优选实施方式不应视为对本发明的限制,本发明的保护范围应当以权利要求所限定的范围为准。对于本技术领域的普通技术人员来说,在不脱离本发明的精神和范围内,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.一种基于知识图谱的诈骗网站关联方法,其特征在于,包括
数据清洗:对原始采集到的诈骗网站数据去掉不符合分析要求的数据,然后将符合分析要求的数据通过设计好的知识图谱映射到图数据库中;
数据清洗具体包括:
A.通过数据统计和知识图谱设计的知识,分析采集好的数据;
B.根据分析采集好的数据信息,设计知识图谱的结构,用于描述数据在物理世界中的概念;
C.根据设计好的知识图谱的结构,将采集的数据通过唯一ID表示唯一的节点和唯一的关系的形式一一对应方式进行检测,有能相互匹配对应的则合并,没有则以导入的方式检测数据;
D.通过上述检测方式按设计好的图谱格式导入图库,用以结构化的描述所有采集的涉嫌人员登录数据;
E.通过上述导入的图库的结构化数据用以后续诈骗网站关系生成分析;
知识图谱团伙分析:通过设置规则和计算生成用于辅助诈骗网站的团伙分析的关系和节点,并得到团伙分析的结果,通过团伙信息将诈骗网站进行关联后,对诈骗网站进行关联分析;
知识图谱团伙分析包括:
A.通过数据统计和知识图谱设计的知识,分析采集好的数据;
B.设计知识图谱的结构,用于描述数据在物理世界中的概念;
C.生成辅助判别团伙的辅助节点和关系,根据设计好的知识图谱的结构,将采集的数据通过唯一ID表示唯一的节点和唯一的关系的形式一一对应方式检测采集的数据,有能相互匹配对应的则合并,没有则导入的方式检测数据;
D.通过以上检测方式按设计好的图谱格式导入图库,用以结构化的描述所有采集的涉嫌人员登录数据;
E.通过导入的图库的结构化数据用以后续诈骗网站关联关系生成;
F.通过上一步生成的关系分析判别团伙,并为团伙生成标识用以标记;
H.最后通过团伙信息将诈骗网站进行关联后,对诈骗网站进行关联分析;
未知诈骗网站判别:基于已知诈骗网站信息判别未知网站与已知网站的关联关系,并动态的更新诈骗网站的团伙信息,以达到在线学习的效果,以便对未知网站进行一个团伙的判断和进行后续的关联分析;
对已知诈骗网站关联:通过诈骗网站之间的关联数据、关联内容,统计信息挖掘深层次的隐藏线索信息,并可视化展示便于后续的人工查看和分析。
2.根据权利要求1所述的一种基于知识图谱的诈骗网站关联方法,其特征在于,所述唯一ID包括涉嫌人员ID、登录IP、登录城市、非法网站ID、服务器ID。
3.根据权利要求1所述的一种基于知识图谱的诈骗网站关联方法,其特征在于,未知诈骗网站判别包括
A.通过数据清洗将未知数据按流程清洗,并按设计好的诈骗网站的团伙分析结果存入知识图谱中,然后进行团伙分析;
B.然后通过对新存入的诈骗网站和已知团伙标识下的所有诈骗网站相关信息进行对比和计算,判别是否为已知团伙诈骗网站;
C.对新添加的图谱数据进行一个判别,然后根据已知团伙和未知团伙的方式更新图库,方便后续关联分析,以实现在线学习的效果。
4.根据权利要求1所述的一种基于知识图谱的诈骗网站关联方法,其特征在于,对已知诈骗网站关联包括
A.通过数据清洗、知识图谱团伙分析和未知诈骗网站判别三个环节不断更新后的图库,再对所有诈骗网站之间共有的信息进行关联,用于分析诈骗网站之间的共性;
B.对诈骗网站下的某个属性,分析和关联在已知诈骗网站中有多个也是使用该属性的网站,用于分析诈骗网站的特征分布,建立诈骗网站惯用手段的数据库,以实现关联的功能;
C.诈骗网站通过属性关联到其它诈骗网站,其它诈骗网站继续关联到其它诈骗网站,通过这样二度关联或多度关联进一步发现隐藏有关系的诈骗网站和隐藏线索。
5.根据权利要求4所述的一种基于知识图谱的诈骗网站关联方法,其特征在于,诈骗网站惯用手段的数据库包括:多个诈骗网站的注册公司或者邮箱相同的数据。
6.根据权利要求4所述的一种基于知识图谱的诈骗网站关联方法,其特征在于,诈骗网站之间共有的信息包括使用同一服务器IP地址、同一服务器机房的关联网站。
7.一种基于知识图谱的诈骗网站关联系统,其特征在于,该系统以实现权利要求1-6任一项所述的方法,其包括
数据清洗模块,对原始采集到的数据去掉不符合分析要求的数据,然后通过设计好的知识图谱映射到图数据库中;
数据清洗模块具体包括:
A.通过数据统计和知识图谱设计的知识,分析采集好的数据;
B.根据分析采集好的数据信息,设计知识图谱的结构,用于描述数据在物理世界中的概念;
C.根据设计好的知识图谱的结构,将采集的数据通过唯一ID表示唯一的节点和唯一的关系的形式一一对应方式进行检测,有能相互匹配对应的则合并,没有则以导入的方式检测数据;
D.通过上述检测方式按设计好的图谱格式导入图库,用以结构化的描述所有采集的涉嫌人员登录数据;
E.通过上述导入的图库的结构化数据用以后续诈骗网站关系生成分析;
知识图谱团伙分析模块,通过设置规则和计算生成辅助诈骗网站的团伙分析的关系和节点并得到团伙分析的结果,通过团伙信息将诈骗网站进行关联后,对诈骗网站进行关联分析;
知识图谱团伙分析模块包括:
A.通过数据统计和知识图谱设计的知识,分析采集好的数据;
B.设计知识图谱的结构,用于描述数据在物理世界中的概念;
C.生成辅助判别团伙的辅助节点和关系,根据设计好的知识图谱的结构,将采集的数据通过唯一ID表示唯一的节点和唯一的关系的形式一一对应方式检测采集的数据,有能相互匹配对应的则合并,没有则导入的方式检测数据;
D.通过以上检测方式按设计好的图谱格式导入图库,用以结构化的描述所有采集的涉嫌人员登录数据;
E.通过导入的图库的结构化数据用以后续诈骗网站关联关系生成;
F.通过上一步生成的关系分析判别团伙,并为团伙生成标识用以标记;
H.最后通过团伙信息将诈骗网站进行关联后,对诈骗网站进行关联分析;
未知诈骗网站判别模块,基于已知诈骗网站信息判别未知网站与已知网站的关联关系,并动态的更新诈骗网站的团伙信息,以达到在线学习的效果,以便对未知网站进行一个团伙的判断和进行后续的关联分析;
已知诈骗网站关联模块,通过诈骗网站之间的关联数据、关联内容,统计信息挖掘深层次的隐藏线索信息,并可视化展示便于后续的人工查看和分析。
CN202210077475.5A 2022-01-24 2022-01-24 一种基于知识图谱的诈骗网站关联方法及系统 Active CN114124576B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210077475.5A CN114124576B (zh) 2022-01-24 2022-01-24 一种基于知识图谱的诈骗网站关联方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210077475.5A CN114124576B (zh) 2022-01-24 2022-01-24 一种基于知识图谱的诈骗网站关联方法及系统

Publications (2)

Publication Number Publication Date
CN114124576A CN114124576A (zh) 2022-03-01
CN114124576B true CN114124576B (zh) 2022-04-22

Family

ID=80361097

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210077475.5A Active CN114124576B (zh) 2022-01-24 2022-01-24 一种基于知识图谱的诈骗网站关联方法及系统

Country Status (1)

Country Link
CN (1) CN114124576B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110290116A (zh) * 2019-06-04 2019-09-27 中山大学 一种基于知识图谱的恶意域名检测方法
CN110413707A (zh) * 2019-07-22 2019-11-05 百融云创科技股份有限公司 互联网中欺诈团伙关系的挖掘与排查方法及其系统
CN112073415A (zh) * 2020-09-08 2020-12-11 北京天融信网络安全技术有限公司 一种网络安全知识图谱的构建方法及装置
CN112200382A (zh) * 2020-10-27 2021-01-08 支付宝(杭州)信息技术有限公司 一种风险预测模型的训练方法和装置
CN113254844A (zh) * 2021-07-07 2021-08-13 成都无糖信息技术有限公司 一种基于知识图谱和图片特征的诈骗网站识别方法与系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11941054B2 (en) * 2018-10-12 2024-03-26 International Business Machines Corporation Iterative constraint solving in abstract graph matching for cyber incident reasoning
CN111651591B (zh) * 2019-03-04 2023-03-21 腾讯科技(深圳)有限公司 一种网络安全分析方法和装置
CN112053221A (zh) * 2020-08-14 2020-12-08 百维金科(上海)信息科技有限公司 一种基于知识图谱的互联网金融团伙欺诈行为检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110290116A (zh) * 2019-06-04 2019-09-27 中山大学 一种基于知识图谱的恶意域名检测方法
CN110413707A (zh) * 2019-07-22 2019-11-05 百融云创科技股份有限公司 互联网中欺诈团伙关系的挖掘与排查方法及其系统
CN112073415A (zh) * 2020-09-08 2020-12-11 北京天融信网络安全技术有限公司 一种网络安全知识图谱的构建方法及装置
CN112200382A (zh) * 2020-10-27 2021-01-08 支付宝(杭州)信息技术有限公司 一种风险预测模型的训练方法和装置
CN113254844A (zh) * 2021-07-07 2021-08-13 成都无糖信息技术有限公司 一种基于知识图谱和图片特征的诈骗网站识别方法与系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于知识图谱的恶意域名检测方法;张奕等;《通信技术》;20200110;全文 *
电信诈骗研究的知识图谱分析;许振亮等;《中国刑警学院学报》;20170620;全文 *

Also Published As

Publication number Publication date
CN114124576A (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
CN110223168B (zh) 一种基于企业关系图谱的标签传播反欺诈检测方法及系统
CN111475804A (zh) 一种告警预测方法及系统
CN113706100B (zh) 配电网物联终端设备实时探测识别方法与系统
CN112487208B (zh) 一种网络安全数据关联分析方法、装置、设备及存储介质
CN110336838B (zh) 账号异常检测方法、装置、终端及存储介质
CN110648172B (zh) 一种融合多种移动设备的身份识别方法和系统
CN113378899B (zh) 非正常账号识别方法、装置、设备和存储介质
WO2019200739A1 (zh) 数据欺诈识别方法、装置、计算机设备和存储介质
CN115309913A (zh) 一种基于深度学习的财务数据风险识别方法及系统
CN113360566A (zh) 一种信息内容监测方法及系统
CN111274218A (zh) 一种电力信息系统多源日志数据处理方法
CN111444075A (zh) 一种自动发现关键影响力指标的方法
CN110598959A (zh) 一种资产风险评估方法、装置、电子设备及存储介质
CN115277113A (zh) 一种基于集成学习的电网网络入侵事件检测识别方法
CN115329092A (zh) 电力监控系统威胁分析的知识图谱生成方法、系统及介质
CN114648419A (zh) 基于智慧变电站数字孪生系统知识图谱及创建和使用方法
CN112685272B (zh) 一种具备可解释性的用户行为异常检测方法
CN111047428A (zh) 基于少量欺诈样本的银行高风险欺诈客户识别方法
CN114124576B (zh) 一种基于知识图谱的诈骗网站关联方法及系统
CN111159411B (zh) 一种融合知识图谱的文本立场分析方法、系统及存储介质
CN111400424A (zh) 基于gis的人员异常聚集自动识别方法及装置
CN116248393A (zh) 一种内网数据传输漏洞扫描装置及系统
CN116108202A (zh) 基于关系图谱的用采系统数据攻击行为建模方法
KR101629178B1 (ko) 다중 특허지표를 이용한 기술 수명 주기 분석 장치
CN115065556B (zh) 一种基于图对比学习的日志恶意行为检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Method and System of Fraud Website Association Based on Knowledge graph

Effective date of registration: 20230712

Granted publication date: 20220422

Pledgee: Sichuan Tianfu bank Limited by Share Ltd. Chengdu branch

Pledgor: CHENGDU NO SUGAR INFORMATION TECH Co.,Ltd.

Registration number: Y2023510000179