CN117786126A - 基于知识图谱的裸敲线索分析方法及装置 - Google Patents

基于知识图谱的裸敲线索分析方法及装置 Download PDF

Info

Publication number
CN117786126A
CN117786126A CN202311842409.3A CN202311842409A CN117786126A CN 117786126 A CN117786126 A CN 117786126A CN 202311842409 A CN202311842409 A CN 202311842409A CN 117786126 A CN117786126 A CN 117786126A
Authority
CN
China
Prior art keywords
entity
node
naked
cue
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311842409.3A
Other languages
English (en)
Inventor
蔡晶晶
陈俊
张雪峰
瞿福旺
王献周
薛兴旺
吴海涛
康传鹏
于秋梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yongxin Fire Eye Technology Co ltd
Yongxin Zhicheng Technology Group Co ltd
Original Assignee
Beijing Yongxin Fire Eye Technology Co ltd
Yongxin Zhicheng Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yongxin Fire Eye Technology Co ltd, Yongxin Zhicheng Technology Group Co ltd filed Critical Beijing Yongxin Fire Eye Technology Co ltd
Priority to CN202311842409.3A priority Critical patent/CN117786126A/zh
Publication of CN117786126A publication Critical patent/CN117786126A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

基于知识图谱的裸敲线索分析方法及装置,该方法对采集的原始裸敲数据进行数据清洗,利用数据清洗后的原始裸敲数据构建涉案类裸敲线索发现图谱模型;在涉案类裸敲线索发现图谱模型中将节点作为实体对象;通过节点之间的边表示实体对象间关系;通过深度学习模型对给定文本片段进行实体对象和实体对象间关系识别,将识别结果映射到涉案类裸敲线索发现图谱模型的实体对象和实体对象间关系,并存储在图数据库;利用构建完毕的涉案类裸敲线索发现图谱模型,通过社区检测算法对给定网站数据进行图挖掘分析,得到模块度达到预设值的节点集群,将模块度达到预设值的节点集群判定为裸敲诈骗团伙线索。本发明提高犯罪线索的发现效率、智能化和准确性。

Description

基于知识图谱的裸敲线索分析方法及装置
技术领域
本发明属于数据分析技术领域,具体涉及一种基于知识图谱的裸敲线索分析方法及装置。
背景技术
随着网络技术的不断发展,越来越多的犯罪分子利用各种技术手段进行网络犯罪。其中,裸聊敲诈(裸敲)是近年来涌现的一种新型网络犯罪方式,裸聊敲诈主要是通过网络交流工具投放交友请求,诱导受害人进行裸聊视频,进行录屏,然后对其进行威胁,要求支付赎金。
现有技术中,裸聊敲诈线索发现技术基于受害人的属性信息,构建关联人员知识图谱,分析关联人员知识图谱中已确定的裸敲诈骗人员的属性信息与其他关联人员的属性信息的相关程度,以此发现裸敲诈骗人员。由于高度依赖于受害者相关的数据质量和完整性,如果未能提供充分或准确的信息,知识图谱构建将不完整或有误,从而影响线索的发现和诈骗人员的识别。此外现有技术方案针对裸聊敲诈的图谱模型不够丰富全面,对于新型犯罪线索发现没有针对性,发现过程不够智能化。
发明内容
为此,本发明提供一种基于知识图谱的裸敲线索分析方法及装置,解决传统技术不能准确发现裸聊敲诈涉案人员线索,犯罪线索的发现效率低的问题。
为了实现上述目的,本发明提供如下技术方案:基于知识图谱的裸敲线索分析方法,包括:
对采集的原始裸敲数据进行数据清洗,利用数据清洗后的所述原始裸敲数据构建涉案类裸敲线索发现图谱模型;
在所述涉案类裸敲线索发现图谱模型中将节点作为实体对象,实体对象类型包括个人实体、通讯实体、事件实体、地理实体、资产实体、设备实体和网站实体;通过节点之间的边表示实体对象间关系,实体对象间关系包括交互关系、地点关系、事件参与关系和所有权关系;
通过深度学习模型对给定文本片段进行实体对象和实体对象间关系识别,将识别结果映射到所述涉案类裸敲线索发现图谱模型的实体对象和实体对象间关系,并存储在图数据库;
利用构建完毕的所述涉案类裸敲线索发现图谱模型,通过社区检测算法对给定网站数据进行图挖掘分析,得到模块度达到预设值的节点集群,将模块度达到预设值的节点集群判定为裸敲诈骗团伙线索。
作为基于知识图谱的裸敲线索分析方法优选方案,所述原始裸敲数据包括诈骗网站域名、服务器节点IP、访问时间、网站性质、后台维护者账号密码、事件类型、事件详情、受害人信息和涉案金额。
作为基于知识图谱的裸敲线索分析方法优选方案,所述涉案类裸敲线索发现图谱模型中图论算法表达形式为:
式中,Aij表示节点i和节点j之间的邻接矩阵,若节点i和节点j存在设定的关系,邻接矩阵元素为1,若节点i和节点j不存在设定的关系,邻接矩阵元素为0。
作为基于知识图谱的裸敲线索分析方法优选方案,通过PageRank算法对节点代表的实体对象间的连接网络进行分析,分析公式为:
式中,d是阻尼因子,N是节点总数,M(pi)是指向pi的节点集合,L(pj)是节点pj的出链数,PR(pi)为节点pi的重要性得分,PR(pj)为节点pj的重要性得分。
作为基于知识图谱的裸敲线索分析方法优选方案,通过深度学习模型对给定文本片段进行实体对象和实体对象间关系识别过程中,使用贝叶斯定理计算给定文本片段特征下实体对象属于指定类别的概率:
实体对象包括嫌疑人、受害者、裸敲网站后台维护者;文本片段特征为文本中提及的名字、行为模式或实体关联关系。
作为基于知识图谱的裸敲线索分析方法优选方案,还包括,使用交叉熵损失函数测量深度学习模型的预测概率分布与实际标签的概率分布之间的差异:
式中,M是类别的总数,yo,c是一个二元指标,表示观察结果o是否属于类别c,po,c是模型预测观察结果o是否属于类别c的概率。
作为基于知识图谱的裸敲线索分析方法优选方案,通过深度学习模型对给定文本片段进行实体对象和实体对象间关系表达公式为:
式中,是节点v在第l层的特征向量,N(v)是v的邻居节点集合;/>是节点v在第l+1层的特征向量;/>是节点u在第l层的特征向量。
作为基于知识图谱的裸敲线索分析方法优选方案,通过社区检测算法对给定网站数据进行图挖掘分析的公式为:
式中,Q为模块度,Aij表示节点i和节点j之间的邻接矩阵,如果节点i和j之间有边,则Aij=1,否则Aij=0;ki是节点i的度;m是边的总数;δ(ci,cj)是一个指示函数,当ci=cj时为1,否则为0;ci表示节点i所属的节点集群。
作为基于知识图谱的裸敲线索分析方法优选方案,还包括,对模块度Q进行迭代优化,当模块度Q达到预设范围时,选择模块度Q值最高的方案作为最终的节点集群。
本发明还提供一种基于知识图谱的裸敲线索分析装置,采用上述的基于知识图谱的裸敲线索分析方法,包括:
图谱模型构建模块,用于对采集的原始裸敲数据进行数据清洗,利用数据清洗后的所述原始裸敲数据构建涉案类裸敲线索发现图谱模型;
图谱模型配置模块,用于在所述涉案类裸敲线索发现图谱模型中将节点作为实体对象,实体对象类型包括个人实体、通讯实体、事件实体、地理实体、资产实体、设备实体和网站实体;通过节点之间的边表示实体对象间关系,实体对象间关系包括交互关系、地点关系、事件参与关系和所有权关系;
实体抽取模块,用于通过深度学习模型对给定文本片段进行实体对象和实体对象间关系识别;
实体映射存储模块,用于将识别结果映射到所述涉案类裸敲线索发现图谱模型的实体对象和实体对象间关系,并存储在图数据库;
裸敲诈骗团伙分析模块,用于利用构建完毕的所述涉案类裸敲线索发现图谱模型,通过社区检测算法对给定网站数据进行图挖掘分析,得到模块度达到预设值的节点集群,将模块度达到预设值的节点集群判定为裸敲诈骗团伙线索。
本发明的有益效果如下,对采集的原始裸敲数据进行数据清洗,利用数据清洗后的所述原始裸敲数据构建涉案类裸敲线索发现图谱模型;在所述涉案类裸敲线索发现图谱模型中将节点作为实体对象,实体对象类型包括个人实体、通讯实体、事件实体、地理实体、资产实体、设备实体和网站实体;通过节点之间的边表示实体对象间关系,实体对象间关系包括交互关系、地点关系、事件参与关系和所有权关系;通过深度学习模型对给定文本片段进行实体对象和实体对象间关系识别,将识别结果映射到所述涉案类裸敲线索发现图谱模型的实体对象和实体对象间关系,并存储在图数据库;利用构建完毕的所述涉案类裸敲线索发现图谱模型,通过社区检测算法对给定网站数据进行图挖掘分析,得到模块度达到预设值的节点集群,将模块度达到预设值的节点集群判定为裸敲诈骗团伙线索。本发明利用知识图谱技术,可以更为全面的进行数据分析;支持自动化数据收集与处理,大大提高了犯罪线索发现的效率;利用图算法和机器学习技术深入分析数据,挖掘潜在的犯罪团伙,能够自动化、客观地进行数据分析,减少了因人为因素造成的误判和遗漏;允许快速地引入新的数据和特征,确保技术的持续适应性;提高犯罪线索的发现效率、智能化和准确性。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引申获得其他的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
图1为本发明实施例提供的基于知识图谱的裸敲线索分析方法流程示意图;
图2为本发明实施例提供的基于知识图谱的裸敲线索分析方法原理示意图;
图3为本发明实施例提供的基于知识图谱的裸敲线索分析装置架构示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
参见图1和图2,本发明实施例1提供一种基于知识图谱的裸敲线索分析方法,包括以下步骤:
S1、对采集的原始裸敲数据进行数据清洗,利用数据清洗后的所述原始裸敲数据构建涉案类裸敲线索发现图谱模型;
S2、在所述涉案类裸敲线索发现图谱模型中将节点作为实体对象,实体对象类型包括个人实体、通讯实体、事件实体、地理实体、资产实体、设备实体和网站实体;通过节点之间的边表示实体对象间关系,实体对象间关系包括交互关系、地点关系、事件参与关系和所有权关系;
S3、通过深度学习模型对给定文本片段进行实体对象和实体对象间关系识别,将识别结果映射到所述涉案类裸敲线索发现图谱模型的实体对象和实体对象间关系,并存储在图数据库;
S4、利用构建完毕的所述涉案类裸敲线索发现图谱模型,通过社区检测算法对给定网站数据进行图挖掘分析,得到模块度达到预设值的节点集群,将模块度达到预设值的节点集群判定为裸敲诈骗团伙线索。
本实施例中,所述原始裸敲数据包括诈骗网站域名、服务器节点IP、访问时间、网站性质、后台维护者账号密码、事件类型、事件详情、受害人信息和涉案金额。
其中,通过对采集到的多源异构原始裸敲数据进行数据清洗工作,数据清洗可以发现并纠正原始裸敲数据中的错误,从多源异构原始裸敲数据的准确性、完整性、一致性、唯一性、适时性、有效性处理数据的丢失值、越界值、不一致代码、重复数据等问题,进而保留高质量且符合精确分析标准的数据。
本实施例中,构建的涉案类裸敲线索发现图谱模型属于一个多层次、多维度的图谱,涉案类裸敲线索发现图谱模型中图论算法表达形式为:
式中,Aij表示节点i和节点j之间的邻接矩阵,若节点i和节点j存在设定的关系,邻接矩阵元素为1,若节点i和节点j不存在设定的关系,邻接矩阵元素为0。
具体的,在涉案类裸敲线索发现图谱模型中,一个节点可以是个人实体、地理实体、事件实体等,边则表示这些实体之间的各种关系。如果两个实体间存在某种关系(如通信、事件参与关系),那么它们之间的邻接矩阵元素为1,否则为0。
本实施例中,通过PageRank算法对节点代表的实体对象间的连接网络进行分析,从而计算节点的重要性,分析公式为:
式中,d是阻尼因子,通常设为0.85,N是节点总数,M(pi)是指向pi的节点集合,L(pj)是节点pj的出链数,PR(pi)为节点pi的重要性得分,PR(pj)为节点pj的重要性得分。
具体的,PageRank算法通过分析实体对象之间的连接网络,评估每个实体对象的重要性。一个实体对象如果与许多其他重要实体有联系,那么该实体对象自身也被视为重要,通过使用PageRank算法,可以辅助侦破人员快速识别出案件中的关键节点,例如最活跃的通讯号码或最频繁被提及的地点。涉案类裸敲线索发现图谱模型构建的图论算法提供了实体间复杂关系的基础架构,而PageRank算法则进一步挖掘这些关系,可以帮助揭示出最重要的实体对象和实体对象之间的关系。
具体的,个人实体为涉及案件的嫌疑人、受害者、裸敲网站后台维护者或其他相关人员,通讯实体为电话号码、电子邮箱地址、社交媒体账号等,事件实体为裸敲网站活动的地理位置,包括IP地址、省份等,地理实体为裸敲事件本身,发生时间、地点等信息,资产实体为涉及的财务资产,如银行账户、支付平台账户等,设备实体为用于裸敲的设备,包括计算机、手机等,网站实体为裸敲案件相关联的网站、网络论坛等。
具体的,实体对象间关系中,交互关系为个人实体之间的通讯记录,如电话、邮件往来,网站实体之间的相互链接和引用关系,地点关系为个人实体与地理实体之间的位置关联,事件参与关系为个人实体与事件实体之间的参与或涉及关系,所有权关系为网站实体与个人实体之间的所有权或管理权关系等。
本实施例中,通过深度学习模型对给定文本片段进行实体对象和实体对象间关系识别过程中,使用贝叶斯定理计算给定文本片段特征下实体对象属于指定类别的概率:
其中,实体对象包括嫌疑人、受害者、裸敲网站后台维护者;文本片段特征为文本中提及的名字、行为模式或实体关联关系。计算给定文本片段特征下实体对象属于指定类别的概率公式可以确定一个文本片段中实体所属类别(如嫌疑人或受害者)的概率。
本实施例中,在实体识别与分类的过程中,还包括,使用交叉熵损失函数测量深度学习模型的预测概率分布与实际标签的概率分布之间的差异:
式中,M是类别的总数,yo,c是一个二元指标,表示观察结果o是否属于类别c,po,c是模型预测观察结果o是否属于类别c的概率。
比如,正在分类实体为“嫌疑人”、“受害者”或“其他”,那么M就是3。对于每个实体对象(文本中提及的人物),深度学习模型会预测它属于这三个类别中的每一个的概率。交叉熵损失函数可以衡量深度学习模型的这些预测与实际情况的吻合程度。如果深度学习模型的预测非常接近实际情况,交叉熵损失就会很低;如果深度学习模型的预测与实际情况相差很大,损失就会很高。深度学习模型的目标是最小化交叉熵损失,使深度学习模型的预测更加准确地反映实际情况。
本实施例中,通过深度学习模型对给定文本片段进行实体对象和实体对象间关系表达公式为:
式中,是节点v在第l层的特征向量,N(v)是v的邻居节点集合;/>是节点v在第l+1层的特征向量;/>是节点u在第l层的特征向量。
其中,实体对象间的关系可能包括个人实体之间的通讯记录(如电话、邮件往来),个人实体与地理实体之间的位置关联等。实体对象和实体对象间关系表达公式表明,一个实体对象(节点)的特征表示是基于其自身特征和其邻居(如通信伙伴或地理位置关联的实体)的特征共同决定的。
本实施例中,在裸敲诈骗团伙线索发现过程中,通过构建好的涉案类裸敲线索发现图谱模型,使用社区检测算法,进行图挖掘分析。从而最大化社区内部的边的密度,同时最小化社区间的边的密度,量化一个图的社区结构的质量,进而挖掘出具有高度内聚力和较低耦合度的节点集群。在网络犯罪侦测领域,尤其是针对裸敲诈骗团伙的行为模式分析,裸敲诈骗往往在网络空间中形成密集的互动网,在信息流和资源交换中维持紧密的同步性,这些特征使得社区检测算法成为识别犯罪团伙的理想选择。
具体的,通过社区检测算法对给定网站数据进行图挖掘分析的公式为:
式中,Q为模块度,Aij表示节点i和节点j之间的邻接矩阵,如果节点i和j之间有边,则Aij=1,否则Aij=0;ki是节点i的度;m是边的总数;δ(ci,cj)是一个指示函数,当ci=cj时为1,否则为0;ci表示节点i所属的节点集群。
本实施例中,将抽取好的现有裸敲类实体关系等数据输入到涉案类裸敲线索发现图谱模型中,涉案类裸敲线索发现图谱模型的模块度Q的值被用来衡量社区划分的质量,通过优化模块度Q值辨识出紧密相连的节点群体,这些节点群体可能代表着潜在的裸敲诈骗团伙。较高的模块度Q值意味着网络中的社区结构非常明显,节点在社区内部高度互连,而在社区之间则相对隔离,模块度Q值用来指导算法找到最佳社区分割,通过迭代优化Q值,直至找到一个稳定的社区划分,即不再有显著的模块度增长,选择Q值最高的方案作为最终的社区划分,社区即为潜在的裸敲诈骗团伙。根据社区分析的结果更新知识图谱,应用图谱关联关系规则和客户提供的数据,发现社区之间的联系,进一步确认潜在的裸敲涉案诈骗团伙。
综上所述,本发明对采集的原始裸敲数据进行数据清洗,利用数据清洗后的所述原始裸敲数据构建涉案类裸敲线索发现图谱模型;在所述涉案类裸敲线索发现图谱模型中将节点作为实体对象,实体对象类型包括个人实体、通讯实体、事件实体、地理实体、资产实体、设备实体和网站实体;通过节点之间的边表示实体对象间关系,实体对象间关系包括交互关系、地点关系、事件参与关系和所有权关系;通过深度学习模型对给定文本片段进行实体对象和实体对象间关系识别,将识别结果映射到所述涉案类裸敲线索发现图谱模型的实体对象和实体对象间关系,并存储在图数据库;利用构建完毕的所述涉案类裸敲线索发现图谱模型,通过社区检测算法对给定网站数据进行图挖掘分析,得到模块度达到预设值的节点集群,将模块度达到预设值的节点集群判定为裸敲诈骗团伙线索。本发明利用知识图谱技术,可以更为全面的进行数据分析;支持自动化数据收集与处理,大大提高了犯罪线索发现的效率;利用图算法和机器学习技术深入分析数据,挖掘潜在的犯罪团伙,能够自动化、客观地进行数据分析,减少了因人为因素造成的误判和遗漏;允许快速地引入新的数据和特征,确保技术的持续适应性;提高犯罪线索的发现效率、智能化和准确性。
需要说明的是,本公开实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
实施例2
参见图3,本发明实施例2提供一种基于知识图谱的裸敲线索分析装置,采用上述实施例1的基于知识图谱的裸敲线索分析方法,包括:
图谱模型构建模块001,用于对采集的原始裸敲数据进行数据清洗,利用数据清洗后的所述原始裸敲数据构建涉案类裸敲线索发现图谱模型;
图谱模型配置模块002,用于在所述涉案类裸敲线索发现图谱模型中将节点作为实体对象,实体对象类型包括个人实体、通讯实体、事件实体、地理实体、资产实体、设备实体和网站实体;通过节点之间的边表示实体对象间关系,实体对象间关系包括交互关系、地点关系、事件参与关系和所有权关系;
实体抽取模块003,用于通过深度学习模型对给定文本片段进行实体对象和实体对象间关系识别;
实体映射存储模块004,用于将识别结果映射到所述涉案类裸敲线索发现图谱模型的实体对象和实体对象间关系,并存储在图数据库;
裸敲诈骗团伙分析模块005,用于利用构建完毕的所述涉案类裸敲线索发现图谱模型,通过社区检测算法对给定网站数据进行图挖掘分析,得到模块度达到预设值的节点集群,将模块度达到预设值的节点集群判定为裸敲诈骗团伙线索。
本实施例中,图谱模型构建模块001中,所述原始裸敲数据包括诈骗网站域名、服务器节点IP、访问时间、网站性质、后台维护者账号密码、事件类型、事件详情、受害人信息和涉案金额。
本实施例中,图谱模型配置模块002中,所述涉案类裸敲线索发现图谱模型中图论算法表达形式为:
式中,Aij表示节点i和节点j之间的邻接矩阵,若节点i和节点j存在设定的关系,邻接矩阵元素为1,若节点i和节点j不存在设定的关系,邻接矩阵元素为0。
本实施例中,实体抽取模块003中,通过PageRank算法对节点代表的实体对象间的连接网络进行分析,分析公式为:
式中,d是阻尼因子,N是节点总数,M(pi)是指向pi的节点集合,L(pj)是节点pj的出链数,PR(pi)为节点pi的重要性得分,PR(pj)为节点pj的重要性得分。
本实施例中,实体抽取模块003中,通过深度学习模型对给定文本片段进行实体对象和实体对象间关系识别过程中,使用贝叶斯定理计算给定文本片段特征下实体对象属于指定类别的概率:
实体对象包括嫌疑人、受害者、裸敲网站后台维护者;文本片段特征为文本中提及的名字、行为模式或实体关联关系。
本实施例中,实体抽取模块003中,使用交叉熵损失函数测量深度学习模型的预测概率分布与实际标签的概率分布之间的差异:
式中,M是类别的总数,yo,c是一个二元指标,表示观察结果o是否属于类别c,po,c是模型预测观察结果o是否属于类别c的概率。
本实施例中,实体映射存储模块004中,通过深度学习模型对给定文本片段进行实体对象和实体对象间关系表达公式为:
式中,是节点v在第l层的特征向量,N(v)是v的邻居节点集合;/>是节点v在第l+1层的特征向量;/>是节点u在第l层的特征向量。
本实施例中,裸敲诈骗团伙分析模块005中,通过社区检测算法对给定网站数据进行图挖掘分析的公式为:
式中,Q为模块度,Aij表示节点i和节点j之间的邻接矩阵,如果节点i和j之间有边,则Aij=1,否则Aij=0;ki是节点i的度;m是边的总数;δ(ci,cj)是一个指示函数,当ci=cj时为1,否则为0;ci表示节点i所属的节点集群。
本实施例中,裸敲诈骗团伙分析模块005中,对模块度Q进行迭代优化,当模块度Q达到预设范围时,选择模块度Q值最高的方案作为最终的节点集群。
需要说明的是,上述装置各模块之间的信息交互、执行过程等内容,由于与本申请实施例1中的方法实施例基于同一构思,其带来的技术效果与本申请方法实施例相同,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。
实施例3
本发明实施例3提供一种非暂态计算机可读存储介质,所述计算机可读存储介质中存储有基于知识图谱的裸敲线索分析方法的程序代码,所述程序代码包括用于执行实施例1或其任意可能实现方式的基于知识图谱的裸敲线索分析方法的指令。
计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(SolidState Disk、SSD))等。
实施例4
本发明实施例4提供一种电子设备,包括:存储器和处理器;
所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行实施例1或其任意可能实现方式的基于知识图谱的裸敲线索分析方法。
具体的,处理器可以通过硬件来实现也可以通过软件来实现,当通过硬件实现时,该处理器可以是逻辑电路、集成电路等;当通过软件来实现时,该处理器可以是一个通用处理器,通过读取存储器中存储的软件代码来实现,该存储器可以集成在处理器中,可以位于所述处理器之外,独立存在。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (10)

1.基于知识图谱的裸敲线索分析方法,其特征在于,包括:
对采集的原始裸敲数据进行数据清洗,利用数据清洗后的所述原始裸敲数据构建涉案类裸敲线索发现图谱模型;
在所述涉案类裸敲线索发现图谱模型中将节点作为实体对象,实体对象类型包括个人实体、通讯实体、事件实体、地理实体、资产实体、设备实体和网站实体;通过节点之间的边表示实体对象间关系,实体对象间关系包括交互关系、地点关系、事件参与关系和所有权关系;
通过深度学习模型对给定文本片段进行实体对象和实体对象间关系识别,将识别结果映射到所述涉案类裸敲线索发现图谱模型的实体对象和实体对象间关系,并存储在图数据库;
利用构建完毕的所述涉案类裸敲线索发现图谱模型,通过社区检测算法对给定网站数据进行图挖掘分析,得到模块度达到预设值的节点集群,将模块度达到预设值的节点集群判定为裸敲诈骗团伙线索。
2.根据权利要求1所述的基于知识图谱的裸敲线索分析方法,其特征在于,所述原始裸敲数据包括诈骗网站域名、服务器节点IP、访问时间、网站性质、后台维护者账号密码、事件类型、事件详情、受害人信息和涉案金额。
3.根据权利要求1所述的基于知识图谱的裸敲线索分析方法,其特征在于,所述涉案类裸敲线索发现图谱模型中图论算法表达形式为:
式中,Aij表示节点i和节点j之间的邻接矩阵,若节点i和节点j存在设定的关系,邻接矩阵元素为1,若节点i和节点j不存在设定的关系,邻接矩阵元素为0。
4.根据权利要求1所述的基于知识图谱的裸敲线索分析方法,其特征在于,通过PageRank算法对节点代表的实体对象间的连接网络进行分析,分析公式为:
式中,d是阻尼因子,N是节点总数,M(pi)是指向pi的节点集合,L(pj)是节点pj的出链数,PR(pi)为节点pi的重要性得分,PR(pj)为节点pj的重要性得分。
5.根据权利要求1所述的基于知识图谱的裸敲线索分析方法,其特征在于,通过深度学习模型对给定文本片段进行实体对象和实体对象间关系识别过程中,使用贝叶斯定理计算给定文本片段特征下实体对象属于指定类别的概率:
实体对象包括嫌疑人、受害者、裸敲网站后台维护者;文本片段特征为文本中提及的名字、行为模式或实体关联关系。
6.根据权利要求5所述的基于知识图谱的裸敲线索分析方法,其特征在于,还包括,使用交叉熵损失函数测量深度学习模型的预测概率分布与实际标签的概率分布之间的差异:
式中,M是类别的总数,yo,c是一个二元指标,表示观察结果o是否属于类别c,po,c是模型预测观察结果o是否属于类别c的概率。
7.根据权利要求6所述的基于知识图谱的裸敲线索分析方法,其特征在于,通过深度学习模型对给定文本片段进行实体对象和实体对象间关系表达公式为:
式中,是节点v在第l层的特征向量,N(v)是v的邻居节点集合;/>是节点v在第l+1层的特征向量;/>是节点u在第l层的特征向量。
8.根据权利要求1所述的基于知识图谱的裸敲线索分析方法,其特征在于,通过社区检测算法对给定网站数据进行图挖掘分析的公式为:
式中,Q为模块度,Aij表示节点i和节点j之间的邻接矩阵,如果节点i和j之间有边,则Aij=1,否则Aij=0;ki是节点i的度;m是边的总数;δ(ci,cj)是一个指示函数,当ci=cj时为1,否则为0;ci表示节点i所属的节点集群。
9.根据权利要求8所述的基于知识图谱的裸敲线索分析方法,其特征在于,还包括,对模块度Q进行迭代优化,当模块度Q达到预设范围时,选择模块度Q值最高的方案作为最终的节点集群。
10.基于知识图谱的裸敲线索分析装置,采用权利要求1至9任一项所述的基于知识图谱的裸敲线索分析方法,其特征在于,包括:
图谱模型构建模块,用于对采集的原始裸敲数据进行数据清洗,利用数据清洗后的所述原始裸敲数据构建涉案类裸敲线索发现图谱模型;
图谱模型配置模块,用于在所述涉案类裸敲线索发现图谱模型中将节点作为实体对象,实体对象类型包括个人实体、通讯实体、事件实体、地理实体、资产实体、设备实体和网站实体;通过节点之间的边表示实体对象间关系,实体对象间关系包括交互关系、地点关系、事件参与关系和所有权关系;
实体抽取模块,用于通过深度学习模型对给定文本片段进行实体对象和实体对象间关系识别;
实体映射存储模块,用于将识别结果映射到所述涉案类裸敲线索发现图谱模型的实体对象和实体对象间关系,并存储在图数据库;
裸敲诈骗团伙分析模块,用于利用构建完毕的所述涉案类裸敲线索发现图谱模型,通过社区检测算法对给定网站数据进行图挖掘分析,得到模块度达到预设值的节点集群,将模块度达到预设值的节点集群判定为裸敲诈骗团伙线索。
CN202311842409.3A 2023-12-28 2023-12-28 基于知识图谱的裸敲线索分析方法及装置 Pending CN117786126A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311842409.3A CN117786126A (zh) 2023-12-28 2023-12-28 基于知识图谱的裸敲线索分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311842409.3A CN117786126A (zh) 2023-12-28 2023-12-28 基于知识图谱的裸敲线索分析方法及装置

Publications (1)

Publication Number Publication Date
CN117786126A true CN117786126A (zh) 2024-03-29

Family

ID=90387125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311842409.3A Pending CN117786126A (zh) 2023-12-28 2023-12-28 基于知识图谱的裸敲线索分析方法及装置

Country Status (1)

Country Link
CN (1) CN117786126A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109147954A (zh) * 2018-07-26 2019-01-04 南京邮电大学 基于知识图谱的患者信息处理装置
CN110825883A (zh) * 2019-10-30 2020-02-21 杭州叙简科技股份有限公司 一种基于知识图谱的混合式团伙发现方法
CN112883278A (zh) * 2021-03-23 2021-06-01 西安电子科技大学昆山创新研究院 基于智慧社区大数据知识图谱的不良舆论传播抑制方法
CN112905804A (zh) * 2021-02-22 2021-06-04 国网电力科学研究院有限公司 一种电网调度知识图谱的动态更新方法及装置
CN116151967A (zh) * 2021-11-19 2023-05-23 复旦大学 一种基于交易知识图谱的欺诈团伙识别系统
CN116415564A (zh) * 2023-06-12 2023-07-11 中国电子科技集团公司信息科学研究院 基于知识图谱的功能点扩增方法和系统
CN116955638A (zh) * 2023-02-09 2023-10-27 腾讯科技(深圳)有限公司 知识图谱构建方法、装置、计算机可读介质及电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109147954A (zh) * 2018-07-26 2019-01-04 南京邮电大学 基于知识图谱的患者信息处理装置
CN110825883A (zh) * 2019-10-30 2020-02-21 杭州叙简科技股份有限公司 一种基于知识图谱的混合式团伙发现方法
CN112905804A (zh) * 2021-02-22 2021-06-04 国网电力科学研究院有限公司 一种电网调度知识图谱的动态更新方法及装置
CN112883278A (zh) * 2021-03-23 2021-06-01 西安电子科技大学昆山创新研究院 基于智慧社区大数据知识图谱的不良舆论传播抑制方法
CN116151967A (zh) * 2021-11-19 2023-05-23 复旦大学 一种基于交易知识图谱的欺诈团伙识别系统
CN116955638A (zh) * 2023-02-09 2023-10-27 腾讯科技(深圳)有限公司 知识图谱构建方法、装置、计算机可读介质及电子设备
CN116415564A (zh) * 2023-06-12 2023-07-11 中国电子科技集团公司信息科学研究院 基于知识图谱的功能点扩增方法和系统

Similar Documents

Publication Publication Date Title
CN110414987B (zh) 账户集合的识别方法、装置和计算机系统
CN112165462A (zh) 基于画像的攻击预测方法、装置、电子设备及存储介质
CN104615760A (zh) 钓鱼网站识别方法和系统
CN111090807B (zh) 一种基于知识图谱的用户识别方法及装置
CN113190670A (zh) 一种基于大数据平台的信息展示方法及系统
CN111209317A (zh) 一种知识图谱异常社区检测方法及装置
CN115632874A (zh) 一种实体对象的威胁检测方法、装置、设备及存储介质
CN112819175B (zh) 非法所得合法化账户识别方法、装置、设备及存储介质
CN113886821A (zh) 基于孪生网络的恶意进程识别方法、装置、电子设备及存储介质
CN117675387A (zh) 基于用户行为分析的网络安全风险预测方法及系统
CN110457600B (zh) 查找目标群体的方法、装置、存储介质和计算机设备
CN109992960B (zh) 一种伪造参数检测方法、装置、电子设备及存储介质
CN115567305B (zh) 基于深度学习的顺序网络攻击预测分析方法
CN116846645A (zh) 基于自监督协作对比学习的网络入侵检测方法及应用
CN116739605A (zh) 交易数据检测方法、装置、设备及存储介质
CN110889467A (zh) 一种公司名称匹配方法、装置、终端设备及存储介质
CN116069607A (zh) 基于图卷积神经网络的移动办公用户异常行为检测方法
CN116821087A (zh) 输电线路故障数据库构建方法、装置、终端及存储介质
CN117786126A (zh) 基于知识图谱的裸敲线索分析方法及装置
Helal et al. Leader‐based community detection algorithm for social networks
CN114124417B (zh) 一种大规模网络下可扩展性增强的漏洞评估方法
CN116668045A (zh) 一种多维度的网络安全综合预警方法和系统
Jin Network Data Detection for Information Security Using CNN-LSTM Model
CN113259369A (zh) 一种基于机器学习成员推断攻击的数据集认证方法及系统
CN111626887A (zh) 一种社交关系评估方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination