CN115952207B

CN115952207B - 一种基于StarRocks数据库的威胁邮件存储方法和系统

Info

Publication number: CN115952207B
Application number: CN202211648741.1A
Authority: CN
Inventors: 刘庆林; 李小琼; 魏海宇; 谢辉; 安恩庆; 张乃亮; 杨晓峰; 刘海洋; 姜小光; 解希哲
Original assignee: Beijing Zorelworld Information Technology Co ltd
Current assignee: Beijing Zorelworld Information Technology Co ltd
Priority date: 2022-12-21
Filing date: 2022-12-21
Publication date: 2024-02-20
Anticipated expiration: 2042-12-21
Also published as: CN115952207A

Abstract

本发明公开了一种基于StarRocks数据库的威胁邮件存储方法和系统，通过获取威胁邮件，并提取威胁邮件标识信息，根据威胁邮件标识将威胁邮件进行拆分并存储至所述StarRocks数据库的邮件溯源模型中，其中，邮件溯源模型包括：邮件地址模型、邮件攻击检测模型、邮件实体模型、邮件附件模型、邮件内容信息模型、异常登录信息模型、邮件组织模型。根据威胁邮件地址将异常登录信息模型与邮件地址模型进行关联，根据威胁邮件I D将邮件地址模型、邮件攻击检测模型、邮件实体模型、邮件附件模型和邮件内容信息模型进行关联。本方案既支持从各类实时和离线的数据源高效导入数据，也支持直接分析数据的各种格式的数据，大大提高的邮件威胁分析的入库速度和查询分析速度。

Description

一种基于StarRocks数据库的威胁邮件存储方法和系统

技术领域

本申请涉及威胁邮件存储技术领域，特别是涉及一种基于StarRocks数据库的威胁邮件存储方法和系统。

背景技术

邮件攻击是网络中最常见、最普遍的一种攻击方式，很多人收到过垃圾邮件，而垃圾邮件中就潜藏着病毒、欺诈等各种邮件风险。在人们的日常工作中邮件是大家沟通必不可少的，正因为如此，邮件承载的攻击也非常多。通过邮件可以传递恶意的信息，诱导用户进行一些操作；也可以传递恶意的网络链接，获取用户名密码等。

邮件攻击也是黑客针对企业发起攻击的主要形式，黑客会窃取登录密码，冒充管理员，欺骗网内其他用户，利用企业升级防火墙的机会趁机植入非法软件，更常见的是黑客冒充企业高管或财务，发送要求转账的邮件。

现有的威胁邮件分析模型大多存储在传统的关系型数据库和图数据库中，在进行大数据量的复杂溯源查询时响应时间缓慢，性能成本高。

发明内容

基于此，针对上述技术问题，提供一种基于StarRocks数据库的威胁邮件存储方法和系统以解决采用现有存储方法在进行大数据量的复杂溯源查询时响应时间缓慢，性能成本高的问题。

第一方面，一种基于StarRocks数据库的威胁邮件存储方法，所述方法包括：

获取威胁邮件；

提取所述威胁邮件标识信息；其中，所述标识信息包括：所述威胁邮件ID，所述威胁邮件地址，所述威胁邮件威胁检测类型，所述威胁邮件来源IP，所述威胁邮件目的IP，所述威胁邮件IP的源公司信息，所述威胁邮件收件人邮箱账号，所述威胁邮件收件人邮箱账号域，所述威胁邮件发件人邮箱账号，所述威胁邮件发件人邮箱账号域，所述威胁邮件文件，所述威胁邮件主题，所述威胁邮件正文关键词，所述威胁邮件正文中包含的URL，所述威胁邮件URL的域，所述威胁邮件的附件；

根据所述威胁邮件标识信息将所述威胁邮件进行拆分并存储至所述StarRocks数据库的邮件溯源模型中；其中，所述邮件溯源模型包括：邮件地址模型、邮件攻击检测模型、邮件实体模型、邮件附件模型、邮件内容信息模型、异常登录信息模型、邮件组织模型；

根据所述威胁邮件地址将所述异常登录信息模型与邮件地址模型进行关联，根据所述威胁邮件ID将所述邮件地址模型、邮件攻击检测模型、邮件实体模型、邮件附件模型和邮件内容信息模型进行关联。

上述方案中，可选地，所述邮件地址模型存储所述威胁邮件的地址、域名、收发类型和时间信息；

所述邮件攻击检测模型存储所述威胁邮件的威胁检测信息；

邮件实体模型存储所述威胁邮件的源IP、源IP公司、目的IP、端口信息、geoip信息和威胁等级信息；

邮件附件模型存储所述威胁邮件的附件名称、类型、大小、sha1和威胁等级信息；

邮件内容信息模型存储所述威胁邮件的邮件主题、邮件正文关键词和威胁等级信息；

异常登录信息模型存储所述威胁邮件的账号、域名、源IP、源IP公司、目的IP、端口信息、geoip信息和威胁等级信息。

上述方案中，进一步可选地，所述邮件组织模型包括组织bitmap模型、组织关系模型和组织合并模型。

上述方案中，进一步可选地，所述组织bitmap模型中存储所述威胁邮件主题、邮件URL、邮件来源IP、邮件附件和邮件发件人这五类元数据；

所述组织关系模型中存储所述威胁邮件ID与组织ID的关系；

所述组织合并模型中存储组织ID和组织名称。

上述方案中，进一步可选地，所述邮件组织模型在存储所述威胁邮件信息时根据入库的邮件信息进行自动关联。

上述方案中，进一步可选地，所述根据入库的邮件信息进行自动关联包括：所述邮件组织bitmap模型将所述威胁邮件主题、邮件URL、邮件来源IP、邮件附件和邮件发件人这五类元数据存储为bitmap类型，以便组织合并对比。

上述方案中，进一步可选地，所述邮件组织模型内邮件组织信息生成步骤包括：

步骤一：获取所述威胁邮件的邮件主题、邮件URL、邮件来源IP、邮件附件和邮件发件人信息，分别查询这五类数据在组织bitmap表中是否已经存在；

步骤二：若存在，则将解析的信息与之前的信息合并到同一个组织的bitmap中，并使用新合并的bitmap数据再次进行步骤一，若不存在且不是合并过的数据，则生成新的邮件组织信息并进行下一步；

步骤三：保存邮件组织id与emlid关联信息到邮件组织关系表中，保存邮件组织ID和组织名称到邮件组织模型中。

第二方面，一种基于StarRocks数据库的威胁邮件存储系统，所述系统包括：

获取模块：用于获取威胁邮件；

提取模块：用于提取所述威胁邮件标识信息；其中，所述标识信息包括：所述威胁邮件ID，所述威胁邮件地址，所述威胁邮件威胁检测类型，所述威胁邮件来源IP，所述威胁邮件目的IP，所述威胁邮件IP的源公司信息，所述威胁邮件收件人邮箱账号，所述威胁邮件收件人邮箱账号域，所述威胁邮件发件人邮箱账号，所述威胁邮件发件人邮箱账号域，所述威胁邮件文件，所述威胁邮件主题，所述威胁邮件正文关键词，所述威胁邮件正文中包含的URL，所述威胁邮件URL的域，所述威胁邮件的附件；

存储模块：用于根据所述威胁邮件标识信息将所述威胁邮件进行拆分并存储至所述StarRocks数据库的邮件溯源模型中；其中，所述邮件溯源模型包括：邮件地址模型、邮件攻击检测模型、邮件实体模型、邮件附件模型、邮件内容信息模型、异常登录信息模型、邮件组织模型；

关联模块：用于根据所述威胁邮件地址将所述异常登录信息模型与邮件地址模型进行关联，根据所述威胁邮件ID将所述邮件地址模型、邮件攻击检测模型、邮件实体模型、邮件附件模型和邮件内容信息模型进行关联。

第三方面，一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取威胁邮件；

第四方面，一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取威胁邮件；

本发明至少具有以下有益效果：

本发明基于对现有技术问题的进一步分析和研究，认识到现有的威胁邮件分析模型大多存储在传统的关系型数据库和图数据库中，在进行大数据量的复杂溯源查询时响应时间缓慢，性能成本高，本发明通过基于StarRocks列式存储的威胁邮件存储模型，具体的，通过获取威胁邮件，并提取威胁邮件标识信息，根据威胁邮件标识信息将所述威胁邮件进行拆分并存储至所述StarRocks数据库的邮件溯源模型中，其中，邮件溯源模型包括：邮件地址模型、邮件攻击检测模型、邮件实体模型、邮件附件模型、邮件内容信息模型、异常登录信息模型、邮件组织模型。根据威胁邮件地址将异常登录信息模型与邮件地址模型进行关联，根据威胁邮件ID将邮件地址模型、邮件攻击检测模型、邮件实体模型、邮件附件模型和邮件内容信息模型进行关联。本发明使用StarRocks采用列式存储技术实现多维、实时以及高并发的数据分析存储，能够在用户进行大数据量的复杂溯源查询时响应快并且性能成本低。本发明使用的StarRocks是一款高性能分析型数据仓库，使用向量化、MPP架构、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析。StarRocks既支持从各类实时和离线的数据源高效导入数据，也支持直接分析数据的各种格式的数据，大大提高的邮件威胁分析的入库速度和查询分析速度。

附图说明

图1为本发明一个实施例提供的基于StarRocks数据库的威胁邮件存储方法的流程示意图；

图2为本发明一个实施例中提供的基于StarRocks数据库的威胁邮件存储方法邮件信息存储模型示意图；

图3为本发明一个实施例提供的基于StarRocks数据库的威胁邮件存储方法邮件组织合并过程示意图；

图4为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于StarRocks数据库的威胁邮件存储方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

获取威胁邮件；

根据所述威胁邮件标识信息将所述威胁邮件进行拆分并存储至所述StarRocks数据库的邮件溯源模型中；其中，如图2所示，所述邮件溯源模型包括：邮件地址模型、邮件攻击检测模型、邮件实体模型、邮件附件模型、邮件内容信息模型、异常登录信息模型、邮件组织模型；

如图2所示，根据所述威胁邮件地址将所述异常登录信息模型与邮件地址模型进行关联，根据所述威胁邮件ID将所述邮件地址模型、邮件攻击检测模型、邮件实体模型、邮件附件模型和邮件内容信息模型进行关联。

本实施例使用StarRocks采用列式存储技术实现多维、实时以及高并发的数据分析存储，能够在用户进行大数据量的复杂溯源查询时响应快并且性能成本低。本发明使用的StarRocks是一款高性能分析型数据仓库，使用向量化、MPP架构、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析。StarRocks既支持从各类实时和离线的数据源高效导入数据，也支持直接分析数据的各种格式的数据，大大提高的邮件威胁分析的入库速度和查询分析速度。

在一个实施例中所述邮件地址模型存储所述威胁邮件的地址、域名、收发类型和时间信息；

所述邮件攻击检测模型存储所述威胁邮件的威胁检测信息；

在一个实施例中，所述邮件组织模型包括组织bitmap模型、组织关系模型和组织合并模型。

在一个实施例中，所述组织bitmap模型中存储所述威胁邮件主题、邮件URL、邮件来源IP、邮件附件和邮件发件人这五类元数据；

所述组织关系模型中存储所述威胁邮件ID与组织ID的关系；

所述组织合并模型中存储组织ID和组织名称。

在一个实施例中，所述邮件组织模型在存储所述威胁邮件信息时根据入库的邮件信息进行自动关联。

在一个实施例中，所述根据入库的邮件信息进行自动关联包括：所述邮件组织bitmap模型将所述威胁邮件主题、邮件URL、邮件来源IP、邮件附件和邮件发件人这五类元数据存储为bitmap类型，以便组织合并对比。

在一个实施例中，如图3所示，所述邮件组织模型内邮件组织信息生成步骤包括：

本实施例通过基于StarRocks列式存储的威胁邮件存储模型，基于StarRocks的bitmap组织关联合并流程了，具体的，通过获取威胁邮件，并提取威胁邮件标识信息，根据威胁邮件标识信息将所述威胁邮件进行拆分并存储至所述StarRocks数据库的邮件溯源模型中，其中，邮件溯源模型包括：邮件地址模型、邮件攻击检测模型、邮件实体模型、邮件附件模型、邮件内容信息模型、异常登录信息模型、邮件组织模型。根据威胁邮件地址将异常登录信息模型与邮件地址模型进行关联，根据威胁邮件ID将邮件地址模型、邮件攻击检测模型、邮件实体模型、邮件附件模型和邮件内容信息模型进行关联。本方案使用StarRocks采用列式存储技术实现多维、实时以及高并发的数据分析存储，能够在用户进行大数据量的复杂溯源查询时响应快并且性能成本低。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，提供了一种基于StarRocks数据库的威胁邮件存储系统，包括以下程序模块：

获取模块：用于获取威胁邮件；

关于基于StarRocks数据库的威胁邮件存储系统的具体限定可以参见上文中对于基于StarRocks数据库的威胁邮件存储方法的限定，在此不再赘述。上述基于StarRocks数据库的威胁邮件存储系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入系统。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种基于StarRocks数据库的威胁邮件存储方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入系统可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，涉及上述实施例方法中的全部或部分流程。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，涉及上述实施例方法中的全部或部分流程。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random AccessMemory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(StaticRandomAccessMemory，SRAM)或动态随机存取存储器(DynamicRandomAccessMemory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于StarRocks数据库的威胁邮件存储方法，其特征在于，所述方法包括：

获取威胁邮件；

根据所述威胁邮件地址将所述异常登录信息模型与邮件地址模型进行关联，根据所述威胁邮件ID将所述邮件地址模型、邮件攻击检测模型、邮件实体模型、邮件附件模型和邮件内容信息模型进行关联；

所述邮件地址模型存储所述威胁邮件的地址、域名、收发类型和时间信息；

所述邮件攻击检测模型存储所述威胁邮件的威胁检测信息；

异常登录信息模型存储所述威胁邮件的账号、域名、源IP、源IP公司、目的IP、端口信息、geoip信息和威胁等级信息；

所述邮件组织模型包括组织bitmap模型、组织关系模型和组织合并模型；

所述组织bitmap模型中存储所述威胁邮件主题、邮件URL、邮件来源IP、邮件附件和邮件发件人这五类元数据；

所述组织关系模型中存储所述威胁邮件ID与组织ID的关系；

所述组织合并模型中存储组织ID和组织名称；

所述邮件组织模型在存储所述威胁邮件信息时根据入库的邮件信息进行自动关联；

所述根据入库的邮件信息进行自动关联包括：所述邮件组织bitmap模型将所述威胁邮件主题、邮件URL、邮件来源IP、邮件附件和邮件发件人这五类元数据存储为bitmap类型，以便组织合并对比；

所述邮件组织模型内邮件组织信息生成步骤包括：

2.一种基于StarRocks数据库的威胁邮件存储系统，其特征在于，所述系统包括：

获取模块：用于获取威胁邮件；

关联模块：用于根据所述威胁邮件地址将所述异常登录信息模型与邮件地址模型进行关联，根据所述威胁邮件ID将所述邮件地址模型、邮件攻击检测模型、邮件实体模型、邮件附件模型和邮件内容信息模型进行关联；

所述邮件攻击检测模型存储所述威胁邮件的威胁检测信息；

所述组织关系模型中存储所述威胁邮件ID与组织ID的关系；

所述组织合并模型中存储组织ID和组织名称；

所述邮件组织模型内邮件组织信息生成步骤包括：

3.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1所述的方法的步骤。

4.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1所述的方法的步骤。