CN117874755A

CN117874755A - 一种识别暗网威胁用户的系统及方法

Info

Publication number: CN117874755A
Application number: CN202410281993.8A
Authority: CN
Inventors: 丁建伟; 李航; 李欣泽; 陈周国; 李斌; 谢相菊; 王鑫; 李梦颖
Original assignee: CETC 30 Research Institute
Current assignee: CETC 30 Research Institute
Priority date: 2024-03-13
Filing date: 2024-03-13
Publication date: 2024-04-12
Anticipated expiration: 2044-03-13
Also published as: CN117874755B

Abstract

本发明公开了一种识别暗网威胁用户的系统及方法，涉及威胁用户识别领域；其构建了暗网知识图谱，补全用户人物属性与关联属性；使用语言模型，对用户关联的文本内容进行处理与标签标记，补全用户关联的标签特征；协同知识图谱与语言模型，将暗网用户的属性特征、暗网用户的三度关联关系特征、关联实体的扩展属性特征嵌入到语言模型中，实现对暗网威胁用户的准确识别；最后，使用可视化界面对暗网威胁用户进行预警与推送，并展现该用户的三度关系，为决策者提供判断依据；本发明，实现了对暗网威胁用户的准确识别。

Description

一种识别暗网威胁用户的系统及方法

技术领域

本发明涉及威胁用户识别领域，具体涉及一种知识图谱与大型语言模型协同识别暗网威胁用户的方法及系统。

背景技术

本节中的陈述仅提供与本公开相关的背景信息，并且可能不构成现有技术。

暗网是互联网上的一部分，通常不被标准搜索引擎索引，以保护用户的匿名性。由于其不透明性，暗网往往成为非法或犯罪活动的温床，因此暗网威胁用户识别的研究正变得越来越重要，需要有效的手段来检测和对抗这些威胁。

然而，暗网中用户人物属性稀疏、社交属性缺失、发布内容有限等，导致现有的用户画像与识别方法失效。现有用户识别方法大多基于人物属性信息收集、机器学习、人物社交关系分析等策略，主要针对普通用户，无法直接对暗网用户进行分析，进而识别与关联暗网中的威胁用户。

发明内容

本发明的目的在于：针对暗网交易市场中注册用户人物属性稀疏、社交属性缺失、发布内容有限导致暗网中威胁用户难以识别与关联的问题，提出了一种知识图谱与大型语言模型协同识别暗网威胁用户的方法及系统，通过知识图谱补齐暗网用户各关联属性，并协同知识图谱与大型语言模型来丰富上下文语义与用户属性，以此识别暗网威胁用户，维护网络安全，从而解决了上述问题。

本发明的技术方案如下：

一种识别暗网威胁用户的系统，包括：

数据存储模块，所述数据存储模块负责存储采集的暗网文本数据；

暗网知识图谱构建模块，所述暗网知识图谱构建模块负责定义各暗网实体及其属性，并抽取各暗网实体关系，并将暗网实体与关系储存至图数据库中；

暗网大语言模型模块，所述暗网大语言模型模块负责将存储的暗网文本数据进行数据预处理，并选择预训练语言模型，利用预处理后数据对预训练语言模型进行微调；

协同模型设计与训练模块，所述协同模型设计与训练模块负责将知识图谱嵌入到语言模型中，并利用预处理后数据与其用户关联的图谱数据，训练协同模型，最后将训练好的协同模型应用到暗网威胁用户识别中，即识别出威胁；

暗网威胁用户监测预警输出模块，所述暗网威胁用户监测预警输出模块按威胁标签，筛选出暗网用户实体，进行预警。

进一步地，所述暗网文本数据，包括：暗网用户信息、暗网网站信息、暗网商品信息、暗网言论数据；

所述暗网用户信息包括：用户名、用户ID、用户注册时间、用户主页信息；

所述暗网网站信息包括：域名、网页标题、描述；

所述暗网商品信息包括：商品ID、商品名称、商品描述、卖家ID；

所述暗网言论数据由暗网商品的评论以及对评论的评论构成，包括评论ID、被评论用户ID、评论内容、评论时间。

进一步地，所述各暗网实体，包括：暗网用户、暗网网站、暗网商品、暗网言论；

所述各暗网实体关系，包括：商品发布、商品评论、用户所属站点、用户属性之间的关系；

所述图数据库为Neo4j；

所述数据预处理，包括：将存储的暗网文本数据，进行清洗文本、分词、去除停用词后，以及进行人工标注类别。

进一步地，所述协同模型设计与训练模块将知识图谱嵌入到语言模型中，并利用带有人工标注的威胁类别的暗网用户数据及与其用户关联的图谱数据，训练协同模型，最后将训练好的协同模型应用到暗网威胁用户识别中，即识别出威胁。

进一步地，所述预警，包括：在可视化界面，显示筛选出的暗网用户实体及与其三度关系，以此作为暗网威胁用户监测预警。

一种识别暗网威胁用户的方法，基于上述的一种识别暗网威胁用户的系统，包括：

步骤S1：基于暗网文本数据，构建暗网知识图谱；

步骤S2：对暗网文本数据进行预处理，并基于预处理后的数据构建暗网大语言模型；

步骤S3：将知识图谱嵌入到暗网大语言模型中，生成协同模型；

步骤S4：通过协同模型进行暗网威胁用户监测预警。

进一步地，所述步骤S1，包括：

步骤S11：定义并抽取暗网实体，所述暗网实体包括：暗网网站、暗网用户、暗网商品、暗网言论、电子货币、邮箱地址、联系方式；

其中暗网网站的主键为域名，属性包括站点在线状态、站点标题、站点描述、站点语言；

暗网用户的主键为域名+用户ID，属性包括用户昵称、用户个人信息地址、用户邮箱、用户虚拟货币地址、用户联系方式；

暗网商品主键为域名+商品ID，属性包括商品收购量、商品浏览次数、购买者信息、被评价次数、购买方式；

暗网言论的主键为域名+评论ID，属性包括用户ID、用户名、商品ID、评论内容；此外电子货币、邮箱地址、联系方式从暗网商品、评论言论、暗网用户中的文本进行抽取；

步骤S12：定义实体之间的关系；

步骤S13：将步骤S11和步骤S12中的实体和关系导入图数据库neo4j中。

进一步地，所述步骤S2，包括：

步骤S21：设定威胁标签，用于对暗网文本数据的标注；

步骤S22：将存储的暗网文本数据进行清洗、分词、去除停用词；

步骤S23：对每种威胁标签进行人工标注；

步骤S24：选择预训练语言模型，利用标注数据对语言模型进行微调，并对不含标签的暗网文本数据，利用语言模型进行标签识别；

步骤S25：将识别后到的威胁标签加入知识图谱的实体属性中，即对暗网网站、暗网商品、暗网言论实体，添加威胁标签属性信息。

进一步地，所述步骤S3，包括：

步骤S31：对暗网用户人工标注威胁标签；

步骤S32：基于暗网用户的实体的属性信息，以及与该暗网用户的三度关联实体的关系与属性信息，构建实体描述语料库，即将实体的属性信息和三度关系信息串联组合在一起，形成描述性的文本；

步骤S33：选择语言模型，使用构建好的暗网用户实体描述语料库，对语言模型进行微调，并对不含标签的暗网用户数据，使用语言模型进行识别与标签标记；

步骤S34：将识别后到的暗网用户威胁标签加入知识图谱的暗网用户实体属性中，即对暗网用户实体添加威胁标签的属性信息。

进一步地，所述步骤S4，包括：

步骤S41：按业务需求设定需要预警的威胁标签，按设定威胁标签筛选出暗网用户实体，并按采集暗网用户的时间倒排，每日推送最近时间的N个用户；

步骤S42：在neo4j可视化界面，显示步骤S1选择的暗网用户的实体与3度关系，以此作为暗网威胁用户监测预警。

与现有的技术相比本发明的有益效果是：

本发明面向暗网网站威胁用户的识别预警场景，提出了一种知识图谱与大型语言模型协同识别暗网威胁用户的方法及系统，构建暗网知识图谱，补全用户人物属性与关联属性；使用语言模型，对用户关联的文本内容进行处理与标签标记，补全用户关联的标签特征；协同知识图谱与语言模型，将暗网用户的属性特征、暗网用户的三度关联关系特征、关联实体的扩展属性特征嵌入到语言模型中，实现对暗网威胁用户的准确识别；最后，使用可视化界面对暗网威胁用户进行预警与推送，并展现该用户的三度关系，为决策者提供判断依据。

附图说明

图1为一种识别暗网威胁用户的系统框图；

图2为暗网知识图谱实体关系示意图；

图3为暗网大语言模型微调流程图；

图4为协同模型训练模块流程图。

具体实施方式

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

下面结合实施例对本发明的特征和性能作进一步的详细描述。

实施例一

请参阅图1，一种识别暗网威胁用户的系统，包括：

在本实施例中，具体的，所述暗网文本数据，包括：暗网用户信息、暗网网站信息、暗网商品信息、暗网言论数据；

所述暗网网站信息包括：域名、网页标题、描述；

所述暗网言论数据由暗网商品的评论以及对评论的评论构成，包括评论ID、被评论用户ID、评论内容、评论时间；

即所述数据存储模块负责存储采集的暗网网站、用户、商品以及言论等文本数据。其中暗网网站注册用户信息包括用户名、用户ID、用户注册时间、用户主页信息等；暗网网站信息包括域名、网页标题、描述等；暗网商品包括商品ID、商品名称、商品描述、卖家ID等；暗网言论数据主要由暗网商品的评论以及对评论的评论构成，包含评论ID、被评论用户ID、评论内容、评论时间等。

在本实施例中，具体的，所述各暗网实体，包括：暗网用户、暗网网站、暗网商品、暗网言论；

所述图数据库为Neo4j；

即所述暗网知识图谱构建模块用于定义暗网用户、暗网网站、暗网商品、暗网言论等实体及其属性，并抽取商品发布、商品评论、用户所属站点、用户属性关联等关系，最后将实体与关系存储至图数据库Neo4j中。

在本实施例中，具体的，所述数据预处理，包括：将存储的暗网文本数据，进行清洗文本、分词、去除停用词后，以及进行人工标注类别；

即所述暗网大语言模型模块将存储的暗网文本数据（包括暗网网站的标题与描述、暗网商品的名称与描述、暗网言论的内容），进行清洗文本，分词，去除停用词后，以及进行人工标注类别（包括毒品、赌博、泄露数据等类别）后，选择预训练语言模型，利用标注数据对大语言模型进行微调。

在本实施例中，具体的，所述协同模型设计与训练模块将知识图谱嵌入到语言模型中，并利用带有人工标注的威胁类别（包括毒品、赌博、泄露数据等类别）的暗网用户数据及与其用户关联的图谱数据，训练协同模型，最后将训练好的协同模型应用到暗网威胁用户识别中，即识别出威胁。

在本实施例中，具体的，所述预警，包括：在可视化界面，显示筛选出的暗网用户实体及与其三度关系，以此作为暗网威胁用户监测预警；

即所述暗网威胁用户监测预警输出模块能够按威胁标签，筛选出暗网用户实体，并在可视化界面，显示暗网用户的实体与其三度关系，以此作为暗网威胁用户监测预警。

在本实施例中，基于上述的一种识别暗网威胁用户的系统，还提出了一种识别暗网威胁用户的方法，具体包括如下步骤：

步骤S1：基于暗网文本数据，构建暗网知识图谱；

步骤S4：通过协同模型进行暗网威胁用户监测预警。

在本实施例中，需要说明的是，所述步骤S1同样为暗网知识图谱构建模块的过程描述，具体包括：

步骤S11：定义并抽取暗网网站、暗网用户、暗网商品、暗网言论、电子货币、邮箱地址、联系方式等实体；

其中暗网网站的主键为“域名”，属性包括站点在线状态、站点标题、站点描述、站点语言等；

暗网用户的主键为“域名+用户ID”，属性包括用户昵称、用户个人信息地址、用户邮箱、用户虚拟货币地址、用户联系方式等；

暗网商品主键为“域名+商品ID”，属性包括商品收购量、商品浏览次数、购买者信息、被评价次数、购买方式等；

暗网言论的主键为“域名+评论ID”，属性包括用户ID、用户名、商品ID、评论内容等；此外电子货币、邮箱地址、联系方式从暗网商品、评论言论、暗网用户中的文本进行抽取；

步骤S12：定义实体之间的关系；如图2所示；

在本实施例中，需要说明的是，请参阅图3，所述步骤S2同样为暗网大语言模型模块的过程描述，具体包括：

步骤S21：设定威胁标签，例如毒品、赌博、泄露数据等标签，用于对暗网文本数据的标注；

步骤S22：将存储的暗网文本数据（包括暗网网站的标题与描述、暗网商品的名称与描述、暗网言论的内容）进行清洗、分词、去除停用词；

步骤S23：对每种威胁标签进行人工标注，需要说明的是，每个类别的标注数不少于1000条；

步骤S24：选择预训练语言模型（例如BERT模型），利用标注数据对语言模型进行微调，并对不含标签的暗网文本数据，利用语言模型进行标签识别；

在本实施例中，需要说明的是，请参阅图4，所述步骤S3同样为协同模型训练模块的过程描述，具体包括：

步骤S31：对暗网用户人工标注威胁标签（例如毒品、赌博、泄露数据等）；

步骤S33：选择语言模型（例如BERT），使用构建好的暗网用户实体描述语料库，对语言模型进行微调，并对不含标签的暗网用户数据，使用语言模型进行识别与标签标记；

在本实施例中，需要说明的是，所述步骤S4同样为协同模型训练模块的过程描述，具体包括：

步骤S41：按业务需求设定需要预警的威胁标签，按设定威胁标签筛选出暗网用户实体，并按采集暗网用户的时间倒排，每日推送最近时间的10个用户；

需要说明的是，本实施例的主要创新之处是提供了一种知识图谱与大型语言模型协同识别暗网威胁用户的方法及系统，通过构建暗网用户、暗网商品、暗网网站、暗网言论的知识图谱，补全暗网用户关联属性信息；其次，利用BERT语言模型对暗网文本进行标注，增加网站、商品等实体属性信息，从而扩展暗网用户关联实体的属性信息；最后，将知识图谱嵌入BERT中，有效利用暗网用户的属性特征、暗网用户的三度关联关系特征、关联实体的扩展属性特征，实现对暗网威胁用户的准确识别。

本发明不限定使用的图数据库、不限定语言模型。本发明所提出的将知识图谱与大型语言模型协同识别暗网威胁用户的方法以及整体框架，都属于本发明所保护的专利。

以上所述实施例仅表达了本申请的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请保护范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请技术方案构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。

提供本背景技术部分是为了大体上呈现本发明的上下文，当前所署名的发明人的工作、在本背景技术部分中所描述的程度上的工作以及本部分描述在申请时尚不构成现有技术的方面，既非明示地也非暗示地被承认是本发明的现有技术。

Claims

1.一种识别暗网威胁用户的系统，其特征在于，包括：

2.根据权利要求1所述的一种识别暗网威胁用户的系统，其特征在于，所述暗网文本数据，包括：暗网用户信息、暗网网站信息、暗网商品信息、暗网言论数据；

所述暗网网站信息包括：域名、网页标题、描述；

3.根据权利要求1所述的一种识别暗网威胁用户的系统，其特征在于，所述各暗网实体，包括：暗网用户、暗网网站、暗网商品、暗网言论；

所述图数据库为Neo4j；

4.根据权利要求3所述的一种识别暗网威胁用户的系统，其特征在于，所述协同模型设计与训练模块将知识图谱嵌入到语言模型中，并利用带有人工标注的威胁类别的暗网用户数据及与其用户关联的图谱数据，训练协同模型，最后将训练好的协同模型应用到暗网威胁用户识别中，即识别出威胁。

5.根据权利要求1所述的一种识别暗网威胁用户的系统，其特征在于，所述预警，包括：在可视化界面，显示筛选出的暗网用户实体及与其三度关系，以此作为暗网威胁用户监测预警。

6.一种识别暗网威胁用户的方法，其特征在于，基于权利要求1-5任一项所述的一种识别暗网威胁用户的系统，包括：

步骤S1：基于暗网文本数据，构建暗网知识图谱；

步骤S4：通过协同模型进行暗网威胁用户监测预警。

7.根据权利要求6所述的一种识别暗网威胁用户的方法，其特征在于，所述步骤S1，包括：

步骤S12：定义实体之间的关系；

8.根据权利要求7所述的一种识别暗网威胁用户的方法，其特征在于，所述步骤S2，包括：

步骤S21：设定威胁标签，用于对暗网文本数据的标注；

步骤S23：对每种威胁标签进行人工标注；

9.根据权利要求8所述的一种识别暗网威胁用户的方法，其特征在于，所述步骤S3，包括：

步骤S31：对暗网用户人工标注威胁标签；

10.根据权利要求9所述的一种识别暗网威胁用户的方法，其特征在于，所述步骤S4，包括：