CN113849576A - 一种基于知识图谱的特定群体分析方法与系统 - Google Patents

一种基于知识图谱的特定群体分析方法与系统 Download PDF

Info

Publication number
CN113849576A
CN113849576A CN202110799083.5A CN202110799083A CN113849576A CN 113849576 A CN113849576 A CN 113849576A CN 202110799083 A CN202110799083 A CN 202110799083A CN 113849576 A CN113849576 A CN 113849576A
Authority
CN
China
Prior art keywords
specific
data
group
population
same
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110799083.5A
Other languages
English (en)
Inventor
张�浩
张瑞冬
马永霄
童永鳌
朱鹏
漆伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu No Sugar Information Tech Co ltd
Original Assignee
Chengdu No Sugar Information Tech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu No Sugar Information Tech Co ltd filed Critical Chengdu No Sugar Information Tech Co ltd
Priority to CN202110799083.5A priority Critical patent/CN113849576A/zh
Publication of CN113849576A publication Critical patent/CN113849576A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于知识图谱的特定群体分析方法与系统,属于知识图谱技术领域,针对现有技术中存在的对特定群体进行分析的方法存在采集数据量巨大,并且人工难以对采集的数据进行分析问题,本发明提出了一种基于知识图谱的特定群体分析方法与系统,通过对特定群体数据进行采集,然后映射为有关系链接的结构化数据,根据该结构化数据生成特定成员关系,然后对结构化数据和特定成员关系进行分析,构成结构化群体数据,通过该结构化群体数据实现对特定线上群体和特定线下群体的统计和分析。

Description

一种基于知识图谱的特定群体分析方法与系统
技术领域
本发明属于知识图谱技术领域,具体涉及一种基于知识图谱的特定群体分析方法与系统。
背景技术
知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。知识图谱通过对错综复杂的文档的数据进行有效的加工、处理、整合,转换为简单、清晰的“实体,关系,实体”的三元组,最后聚合大量知识,从而实现知识的快速响应和推理。
现有的对特定群体进行分析方法主要包括采集特定群体数据,然后通过人工对数据进行分析,得到特定线上群体和特定线下群体的详细信息,例如对非正常行为嫌疑人进行分析,得到嫌疑人线上群体和嫌疑人线下群体的详细信息。
现有的对特定群体进行分析的方法存在的问题是:由于采集的特定群体数据量巨大,现有的技术中没有将这些群体数据进行结构化的处理,通过人工对数据进行分析,难以实现对特定群体的精准分析。
发明内容
针对现有技术中存在的问题,本发明提出了一种基于知识图谱的特定群体分析方法与系统,其目的为:通过对特定群体数据进行技术手段的采集,使用大数据分析和数据挖掘等技术,对特定群体数据进行精准分析,并对应作出适合当前任务的方法和系统。
为实现上述目的本发明所采用的技术方案是:一种基于知识图谱的特定群体分析方法,包括:
步骤1:采集原始的特定群体的数据,将采集的数据进行预处理,然后通过知识图谱映射到图数据库中,构建初始结构化群体数据;
步骤2:对初始结构化群体数据进行深度分析,生成特定群体中的特定成员关系;
步骤3:通过对步骤1中所述初始结构化群体数据和步骤2生成的特定成员关系进行数据挖掘和深度数据分析,进一步构建直观表现群体情况的结构化群体数据;
步骤4:对步骤3中所述结构化群体数据进一步分析,得到特定线下群体、特定线上群体,以及特定线下群体和特定线上群体中的所有特定成员的详细信息;
步骤5:定期增量更新特定群体数据,计算特定群体的分析结果,最后对特定群体的分析结果进行更新。
较优的,本发明所述步骤1具体为:
对数据进行清洗,删掉不符合特定群体分析的数据,对符合特定群体数据的字段数据进行保存;对每个字段数据进行检查,对无效字段进行统一处理;然后通过设计好的知识图谱结构,将离散的字段数据按照指定的唯一节点和唯一关系的方式映射进图数据库中。
较优的,本发明所述步骤2中特定成员关系包括关系数据和节点数据,具体为:
当多个特定成员存在相同的唯一身份信息时,将他们连接到表示同一个特定成员的节点数据下;
当特定成员使用不同的登录IP或不同的登录地址访问非法网站时,生成一个登录过的关系数据表示该特定成员访问过该非法网站。
较优的,本发明步骤3具体包括:对步骤1中的图数据库的特定群体数据和步骤2生成的特定成员关系进行分析,具体包括:
同一特定成员访问不同非法网站且属于不同的服务器时,将这些服务器归为同一群体的服务器;
同一非法网站属于不同服务器时,将这些服务器归为同一群体的服务器。
较优的,本发明步骤4具体包括:
采集同一非法网站的下所有特定成员信息,将他们标记为同一特定线上群体;
将同一服务器的所有非法网站标记为一个特定线上群体所拥有的;
将同一特定线上群体下的所有服务器标记为属于一个特定线上群体;
对同一非法网站下的特定线上群体按地理位置进行线下定位和线下群体分析,得到这些特定线上群体的地理位置和成员信息;
对同一服务器下的所有非法网站下的所有特定线上群体按地理位置进行线下定位和线下群体分析,得到这些特定线上群体的地理位置和成员信息;
对同一群体下的所有服务器下的所有非法网站下的所有特定线上群体成员按地理位置进行线下定位和线下群体分析,得到这些特定线上群体的地理位置和成员信息。
本发明还提出了一种基于知识图谱的特定群体分析系统,包括:
数据映射模块:采集原始的特定群体的数据,将采集的数据进行预处理,然后通过知识图谱映射到图数据库中,构建初始结构化群体数据;
特定成员关系生成模块:对所述初始结构化群体数据进行深度分析,生成特定群体中的特定成员关系;
特定群体分析模块:通过所述初始结构化群体数据和特定成员关系生成模块生成的特定成员关系,构建最终直观表现群体情况的结构化群体数据;
特定群体模块:对结构化群体数据进一步分析,得到特定线下群体、特定线上群体,以及特定线下群体和特定线上群体中的所有特定成员的详细信息;
更新模块:定期增量更新特定群体数据,计算特定群体的分析结果,最后对特定群体的分析结果进行更新。
较优的,本发明所述数据映射模块具体为:
基于数据统计和知识图谱设计,分析采集好的特定群体数据;并设计知识图谱的结构为唯一ID表示唯一的节点和唯一的关系的形式;然后根据设计好的知识图谱结构, 通过该结构的形式对采集的特定群体数据进行检测;如果有这种形式的数据则进行合并,如果没有则以导入的方式检测数据;检测完成后,将检测后的数据按设计好的知识图谱格式导入知识图谱库,形成初始结构化群体数据。
较优的,本发明所述特定成员关系生成模块具体为:
通过映射模块导入的初始结构化群体数据进行特定成员的关系分析,生成特定成员关系;包括:
特定成员登录某非法网站时对使用过登录IP和登录地址进行记录,然后为该特定成员和非法网站之间生成一条登录过的关系;
通过统计和分析所有特定成员的唯一身份信息,用于分析多个不同的特定成员ID为物理世界中的同一个人,若多个特定成员ID的唯一身份信息相同则生成唯一的真实特定成员ID节点用以表示该真实特定成员ID,并将真实特定成员ID节点链接到对应的唯一身份信息相同的特定成员ID节点。
较优的,本发明所述特定群体分析模块具体为:
通过映射模块导入的结构化数据和特定成员关系生成模块生成的特定成员关系进行分析;具体包括:
通过对初始结构化群体数据分析,若同一非法网站存在于多台服务器,将这些服务器判定为同一特定线上群体;
通过对初始结构化群体数据分析,若同一特定成员访问不同非法网站且多个不同的非法网站属于不同服务器,将这些服务器判定为同一特定线上群体;
当多台服务器判定为同一特定线上群体时,生成一个特定线上群体节点,再通过特定成员关系生成模块将这些服务器链接到该特定线上群体节点;
通过对初始结构化群体数据分析,若不同特定成员访问同一非法网站时,将这些特定成员判定为同一特定线上群体成员;
通过对初始结构化群体数据分析,若不同特定成员访问不同的非法网站时但属于同一服务器,将这些特定成员判定为同一特定线上群体成员;
通过对初始结构化群体数据分析,若不同特定成员访问特定线上群体节点下的非法网站或者服务器时,将这些特定成员判定为同一特定线上群体成员。
较优的,本发明特定群体模块具体为:
通过特定群体分析模块形成的结构化群体数据,实现特定线上群体分析和特定线下群体分析,包括:支持查找指定非法网站下的所有特定线上群体成员;查找指定服务器下的所有非法网站下的所有特定线上群体成员;查找指定特定线上群体下的所有服务器,以及所有服务器下的所有非法网站和所有非法网站下的所有特定线上群体成员的功能;
对每个特定线上群体成员访问非法网站的时间生成热力图,用于评估当前特定线上群体的活跃程度;
对每个特定线上群体成员访问非法网站时的所在地理位置经纬度进行记录,用于分析特定线下群体成员的分布;
通过对特定线下群体成员的分布进行聚类计算,得出特定线下群体成员和特定线下群体的数量;
对特定线上群体和特定线下群体根据地名进行分类,用于查看指定国家或省份或城市的特定线上群体和特定线下群体的数量。
相比现有技术,本发明的技术方案具有如下优点/有益效果:
1.将特定成员登录网站的离散数据经过映射导入知识图谱库后形成结构化数据,解决了离散数据没有可分析和可使用的问题。
2.将离散数据转换结构化数据后的进一步深度数据挖掘和分析数据中潜在的关系, 找到了数据中隐藏的有价值的数据与数据之间的关系,生成可辅助特定群体分析的节点数据和关系数据。
3.通过结构化数据和生成的关系数据再进一步深度数据挖掘和特定群体分析并生成最终的结构化群体数据用以特定群体分析并成功的分析出群体特定成员。
4.通过最终的结构化群体数据,对特定群体信息进行线上和线下群体分析。
5.可以增量更新特定群体数据,并动态的生成和更新特定群体分析结果。
6.在更新特定群体数据时可提前计算特定群体的分析结果然后再进行更新,后续使用更高效并且无需计算。
7.由离散数据存储为结构化数据,节省了大量的存储空间。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例的流程示意图。
图2是本发明实施例中知识图谱结构示意图。
具体实施方式
为使本发明目的、技术方案和优点更加清楚,下面对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明的一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。
实施例1:
如图所示,本发明提出一种基于知识图谱的特定群体分析方法,包括:
步骤1:采集原始的特定群体的数据,将采集的数据进行预处理,然后通过知识图谱映射到图数据库中,构建初始结构化群体数据;目的是消除因为各种数据采集过程和由于各种数据本身不完整所带来的数据来源、数据准确、数据可靠、消除数据结构不一致等等因素,并结合业务需要和业务原则设计出知识图谱结构,尽可能保证后续采集的数据通过一些数据清洗规则和一些填充规则保证数据的完整性,提高数据的质量,能够完整正确的录入知识图谱相应的数据库中。
所述步骤1具体为:
对数据进行清洗,删掉不符合特定群体分析的数据,对符合特定群体数据的字段数据进行保存;对每个字段数据进行检查,对无效字段进行统一处理;然后通过设计好的知识图谱结构,将离散的字段数据按照指定的唯一节点和唯一关系的方式映射仅图数据库中,以达到将数据映射为有关系链接的结构化数据;
如图2中左部分所示,所述唯一节点和唯一关系的方式为:特定成员ID节点、非法网站ID节点和服务器ID节点,特定成员ID节点与该特定成员登录的非法网站对应,并记录登录IP和登录地址,该非法网站ID与其属于的服务器ID对应。
步骤2:对映射到图数据库的特定群体数据进行深度分析,生成特定群体中的特定成员关系;目的是用于辅助后续特定群体的分析和使用,如图2中右部分所示,所述步骤2具体为:
根据步骤1中采集的特定群体数据,生成用于辅助特定群体分析的关系数据或节点数据,包括:
当多个特定成员存在相同的唯一身份信息时,将他们连接到表示同一个特定成员的节点下;例如指纹,指纹完全相同时,则将指纹相同的特定成员标记为同一特定成员。
当特定成员使用不同的登录IP或不同的登录地址访问非法网站时,生成一个登录过的关系表示该特定成员访问过该非法网站。
步骤3:通过对步骤1中所述初始结构化群体数据和步骤2生成的特定成员关系进行数据挖掘和深度数据分析,构建结构化群体数据;
步骤3具体包括:对步骤1中的图数据库的特定群体数据和步骤2生成的特定成员关系进行分析,具体包括:
同一特定成员访问不同非法网站且属于不同的服务器时,将这些服务器归为同一特定线上群体的服务器;
同一非法网站属于不同服务器时,将这些服务器归为同一特定线上群体的服务器。
步骤4:对步骤3生成的结构化群体数据进一步分析,得到特定线下群体、特定线上群体,以及特定线下群体和特定线上群体中的所有特定成员的详细信息;步骤4具体包括:
采集同一非法网站的下所有特定成员信息,将他们标记为同一特定线上群体;
将同一服务器的所有非法网站标记为一个特定线上群体所拥有的;
将同一特定线上群体下的所有服务器标记为属于一个特定线上群体;
对同一非法网站下的特定线上群体按地理位置进行线下定位和线下群体分析,得到这些特定线上群体的地理位置和成员信息;
对同一服务器下的所有非法网站下的所有特定线上群体按地理位置进行线下定位和线下群体分析,得到这些特定线上群体的地理位置和成员信息;
对同一特定线上群体下的所有服务器下的所有非法网站下的所有特定线上群体成员按地理位置进行线下定位和线下群体分析,得到这些特定线上群体的地理位置和成员信息。
步骤5:定期增量更新特定群体数据,并动态地对更新后特定群体的分析结果进行更新,在更新特定群体数据时先提前计算特定群体的分析结果。
本发明还提出了一种基于知识图谱的特定群体分析系统,包括:
数据映射模块:采集原始的特定群体的数据,将采集的数据进行预处理,然后通过知识图谱映射到图数据库中,构建初始结构化群体数据;本发明所述数据映射模块具体为:
通过数据统计和知识图谱设计的相关知识,分析采集好的特定群体数据;并设计知识图谱的结构为唯一ID表示唯一的节点和唯一的关系的形式,如图2中左部分所示,为特定成员ID、登录IP、登录城市、非法网站ID、服务器ID一一对应的方式;然后根据设计好的知识图谱结构,通过该结构的形式对采集的特定群体数据进行检测;如果有这种形式的数据则进行合并,如果没有则以导入的方式检测数据;检测完成后,将检测后的数据按设计好的知识图谱格式导入知识图谱库,形成初始结构化群体数据。
特定成员关系生成模块:对映射到图数据库的特定群体数据进行深度分析,生成特定群体中的特定成员关系,如图2中右部分所示;本发明所述特定成员关系生成模块具体为:
通过映射模块导入的结构化数据进行特定成员的关系分析,生成特定成员关系;包括:
特定成员登录某非法网站时对使用过登录IP和登录地址进行记录,然后为该特定成员和非法网站之间生成一条登录过的关系;
通过统计和分析所有特定成员的唯一身份信息,用于分析多个不同的特定成员ID为物理世界中的同一个人,若多个特定成员ID的唯一身份信息相同则生成唯一的真实特定成员ID节点用以表示该真实特定成员ID,并将真实特定成员ID节点链接到对应的唯一身份信息相同的特定成员ID节点。由于特定成员可以通过更换浏览器,清除缓存等手法可以更换自己的ID所以需要此步骤来确定唯一特定成员的身份。
特定群体分析模块:通过步骤1中所述图数据库的数据和步骤2生成的特定成员关系,构建结构化群体数据;所述特定群体分析模块具体为:
通过映射模块导入的初始结构化群体数据和特定成员关系生成模块生成的特定成员关系进行分析;具体包括:
通过对初始结构化群体数据分析,若同一非法网站存在于多台服务器,将这些服务器判定为同一特定线上群体;
通过对初始结构化群体数据分析,若同一特定成员访问不同非法网站且多个不同的非法网站属于不同服务器,将这些服务器判定为同一特定线上群体;
当多台服务器判定为同一特定线上群体时,生成一个特定线上群体节点,再通过特定成员关系生成模块将这些服务器链接到该特定线上群体节点;
通过对初始结构化群体数据分析,若不同特定成员访问同一非法网站时,将这些特定成员判定为同一特定线上群体成员;
通过对初始结构化群体数据分析,若不同特定成员访问不同的非法网站时但属于同一服务器,将这些特定成员判定为同一特定线上群体成员;
通过对初始结构化群体数据分析,若不同特定成员访问特定线上群体节点下的非法网站或者服务器时,将这些特定成员判定为同一特定线上群体成员。
特定群体模块:对特定群体分析模块生成结构化群体数据进一步分析,得到特定线下群体、特定线上群体,以及特定线下群体和特定线上群体中的所有特定成员的详细信息。
特定群体模块具体为:
通过特定群体分析模块形成的结构化群体数据,实现特定线上群体分析和特定线下群体分析,包括:支持查找指定非法网站下的所有特定线上群体成员;查找指定服务器下的所有非法网站下的所有特定线上群体成员;查找指定特定线上群体下的所有服务器,以及所有服务器下的所有非法网站和所有非法网站下的所有特定线上群体成员的功能;
对每个特定线上群体成员访问非法网站的时间生成热力图,用于评估当前特定线上群体的活跃程度;
对每个特定线上群体成员访问非法网站时的所在地理位置经纬度进行记录,用于分析特定线下群体成员的分布;
通过对特定线下群体成员的分布进行聚类计算,得出特定线下群体成员和特定线下群体的数量;
对特定线上群体和特定线下群体根据地名进行分类,用于查看指定国家或省份或城市的特定线上群体和特定线下群体的数量。
更新模块:定期增量更新特定群体数据,计算特定群体的分析结果,最后对特定群体结果进行更新。
以上仅是本发明的优选实施方式,应当指出的是,上述优选实施方式不应视为对本发明的限制,本发明的保护范围应当以权利要求所限定的范围为准。对于本技术领域的普通技术人员来说,在不脱离本发明的精神和范围内,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于知识图谱的特定群体分析方法,其特征在于:
步骤1:采集原始的特定群体的数据,将采集的数据进行预处理,然后通过知识图谱映射到图数据库中,构建初始结构化群体数据;
步骤2:对初始结构化群体数据进行深度分析,生成特定群体中的特定成员关系;
步骤3:通过对步骤1中所述初始结构化群体数据和步骤2生成的特定成员关系进行数据挖掘和深度数据分析,进一步构建直观表现群体情况的结构化群体数据;
步骤4:对步骤3中所述结构化群体数据进一步分析,得到特定线下群体、特定线上群体,以及特定线下群体和特定线上群体中的所有特定成员的详细信息;
步骤5:定期增量更新特定群体数据,计算特定群体的分析结果,最后对特定群体的分析结果进行更新。
2.根据权利要求1所述的一种基于知识图谱的特定群体分析方法,其特征在于,所述步骤1中对数据进行预处理具体为:对数据进行清洗,删掉不符合特定群体分析的数据,对符合特定群体数据的字段数据进行保存,对每个字段数据进行检查,对无效字段进行统一处理;预处理完成后,然后通过设计好的知识图谱结构,将离散的字段数据按照指定的唯一节点和唯一关系的方式映射进图数据库中。
3.根据权利要求1所述的一种基于知识图谱的特定群体分析方法,其特征在于,在步骤2中,特定成员关系包括关系数据和节点数据,生成的方式包括:
当多个特定成员存在相同的唯一身份信息时,将他们连接到表示同一个特定成员的节点数据下;
当一个特定成员使用不同的登录IP或不同的登录地址访问非法网站时,生成一个登录过的关系数据表示该特定成员访问过该非法网站。
4.根据权利要求1所述的一种基于知识图谱的特定群体分析方法,其特征在于,步骤3中构建结构化群体数据的具体实现方式包括:
同一特定成员访问不同非法网站且属于不同的服务器时,将这些服务器归为同一特定线上群体的服务器;
同一非法网站属于不同服务器时,将这些服务器归为同一特定线上群体的服务器。
5.根据权利要求1所述的一种基于知识图谱的特定群体分析方法,其特征在于,步骤4中对结构化群体数据进一步分析具体包括:
采集同一非法网站的下所有特定成员信息,将他们标记为同一特定线上群体;
将同一服务器的所有非法网站标记为一个特定线上群体所拥有的;
将同一特定线上群体下的所有服务器标记为属于一个特定线上群体;
对同一非法网站下的特定线上群体按地理位置进行线下定位和线下群体分析,得到这些特定线上群体的地理位置和成员信息;
对同一服务器下的所有非法网站下的所有特定线上群体按地理位置进行线下定位和线下群体分析,得到这些特定线上群体的地理位置和成员信息;
对同一特定线上群体下的所有服务器下的所有非法网站下的所有特定线上群体成员按地理位置进行线下定位和线下群体分析,得到这些特定线上群体的地理位置和成员信息。
6.一种基于知识图谱的特定群体分析系统,其特征在于,包括:
数据映射模块:采集原始的特定群体的数据,将采集的数据进行预处理,然后通过知识图谱映射到图数据库中,构建初始结构化群体数据;
特定成员关系生成模块:对所述初始结构化群体数据进行深度分析,生成特定群体中的特定成员关系;
特定群体分析模块:通过所述初始结构化群体数据和特定成员关系生成模块生成的特定成员关系,构建最终直观表现群体情况的结构化群体数据;
特定群体模块:对结构化群体数据进一步分析,得到特定线下群体、特定线上群体,以及特定线下群体和特定线上群体中的所有特定成员的详细信息;
更新模块:定期增量更新特定群体数据,计算特定群体的分析结果,最后对特定群体的分析结果进行更新。
7.根据权利要求6所述的一种基于知识图谱的特定群体分析系统,其特征在于,所述数据映射模块具体为:
基于数据统计和知识图谱设计,分析采集好的特定群体数据;并设计知识图谱的结构为唯一ID表示唯一的节点和唯一的关系的形式;然后根据设计好的知识图谱结构,通过该结构的形式对采集的特定群体数据进行检测;如果有这种形式的数据则进行合并,如果没有则以导入的方式检测数据;检测完成后,将检测后的数据按设计好的知识图谱格式导入知识图谱库,形成初始结构化群体数据。
8.根据权利要求6所述的一种基于知识图谱的特定群体分析系统,其特征在于,所述特定成员关系生成模块中生成特定成员关系的方式包括:
通过映射模块导入的初始结构化群体数据进行特定成员的关系分析,生成特定成员关系;包括:
特定成员登录某非法网站时对使用过登录IP和登录地址进行记录,然后为该特定成员和非法网站之间生成一条登录过的关系;
通过统计和分析所有特定成员的唯一身份信息,用于分析多个不同的特定成员ID为物理世界中的同一个人,若多个特定成员ID的唯一身份信息相同则生成唯一的真实特定成员ID节点用以表示该真实特定成员ID,并将真实特定成员ID节点链接到对应的唯一身份信息相同的特定成员ID节点。
9.根据权利要求6所述的一种基于知识图谱的特定群体分析系统,其特征在于,所述特定群体分析模块中结构化群体数据的生成方式具体包括:
通过对初始结构化群体数据分析,若同一非法网站存在于多台服务器,将这些服务器判定为同一特定线上群体;
通过对初始结构化群体数据分析,若同一特定成员访问不同非法网站且多个不同的非法网站属于不同服务器,将这些服务器判定为同一特定线上群体;
当多台服务器判定为同一特定线上群体时,生成一个特定线上群体节点,再通过特定成员关系生成模块将这些服务器链接到该特定线上群体节点;
通过对初始结构化群体数据分析,若不同特定成员访问同一非法网站时,将这些特定成员判定为同一特定线上群体成员;
通过对初始结构化群体数据分析,若不同特定成员访问不同的非法网站时但属于同一服务器,将这些特定成员判定为同一特定线上群体成员;
通过对初始结构化群体数据分析,若不同特定成员访问特定线上群体节点下的非法网站或者服务器时,将这些特定成员判定为同一特定线上群体成员。
10.根据权利要求6所述的一种基于知识图谱的特定群体分析系统,其特征在于,特定群体模块中对结构化群体数据分析具体为:
支持查找指定非法网站下的所有特定线上群体成员;查找指定服务器下的所有非法网站下的所有特定线上群体成员;查找指定特定线上群体下的所有服务器,以及所有服务器下的所有非法网站和所有非法网站下的所有特定线上群体成员的功能;
对每个特定线上群体成员访问非法网站的时间生成热力图,用于评估当前特定线上群体的活跃程度;
对每个特定线上群体成员访问非法网站时的所在地理位置经纬度进行记录,用于分析特定线下群体成员的分布;
通过对特定线下群体成员的分布进行聚类计算,得出特定线下群体成员和特定线下群体的数量;
对特定线上群体和特定线下群体根据地名进行分类,用于查看指定国家或省份或城市的特定线上群体和特定线下群体的数量。
CN202110799083.5A 2021-07-15 2021-07-15 一种基于知识图谱的特定群体分析方法与系统 Pending CN113849576A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110799083.5A CN113849576A (zh) 2021-07-15 2021-07-15 一种基于知识图谱的特定群体分析方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110799083.5A CN113849576A (zh) 2021-07-15 2021-07-15 一种基于知识图谱的特定群体分析方法与系统

Publications (1)

Publication Number Publication Date
CN113849576A true CN113849576A (zh) 2021-12-28

Family

ID=78975156

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110799083.5A Pending CN113849576A (zh) 2021-07-15 2021-07-15 一种基于知识图谱的特定群体分析方法与系统

Country Status (1)

Country Link
CN (1) CN113849576A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114836513A (zh) * 2022-05-20 2022-08-02 四川大学华西医院 一种改良群体分析方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114836513A (zh) * 2022-05-20 2022-08-02 四川大学华西医院 一种改良群体分析方法
CN114836513B (zh) * 2022-05-20 2023-03-10 四川大学华西医院 一种改良群体分析方法

Similar Documents

Publication Publication Date Title
WO2023024259A1 (zh) 基于数字孪生的局部放电监测系统、方法和装置
CN112866023B (zh) 网络检测、模型训练方法、装置、设备及存储介质
CN111916215A (zh) 一种群集性/慢性疾病早期自动报警、初步特征分析与风险评估系统
CN110336838B (zh) 账号异常检测方法、装置、终端及存储介质
CN104579773A (zh) 域名系统分析方法及装置
CN111125300A (zh) 一种基于知识图谱信息数据智能分析系统
CN113242157B (zh) 一种分布式处理环境下的集中式数据质量监测方法
CN114036531A (zh) 一种基于多尺度代码度量的软件安全漏洞检测方法
CN113849576A (zh) 一种基于知识图谱的特定群体分析方法与系统
CN109711849B (zh) 以太坊地址画像生成方法、装置、电子设备及存储介质
CN113806343B (zh) 一种车联网数据质量的评估方法和系统
CN118537141A (zh) 一种基于关联网络分析技术的保险违规行为识别与应对系统
van Erp et al. Georeferencing animal specimen datasets
CN112463985B (zh) 政务图谱模型构建方法、装置、设备及计算机可读介质
Talha et al. Towards a powerful solution for data accuracy assessment in the big data context
CN116361529B (zh) 一种爬虫监控的方法、装置、电子设备及存储介质
Li et al. Partition KMNN‐DBSCAN Algorithm and Its Application in Extraction of Rail Damage Data
CN116578612A (zh) 锂电池成品检测数据资产构建方法
CN116861128A (zh) 一种基于模拟访问的网站风险评估方法、装置及可存储介质
CN116318813A (zh) 一种基于聚类分析的域名滥用检测方法及系统
CN111611483B (zh) 一种对象画像构建方法、装置、设备及存储介质
Ahmed Khan et al. Generating realistic IoT‐based IDS dataset centred on fuzzy qualitative modelling for cyber‐physical systems
CN115391148A (zh) 异常检测方法和装置
CN114706856A (zh) 故障处理方法及装置、电子设备和计算机可读存储介质
CN111800409A (zh) 接口攻击检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination