CN117763607A

CN117763607A - 基于大模型的文件安全定级方法、系统、设备及存储介质

Info

Publication number: CN117763607A
Application number: CN202311766187.1A
Authority: CN
Inventors: 宋秉徽; 王云峰; 苑高龙
Original assignee: Beijing Hanbo Technology Co ltd
Current assignee: Beijing Hanbo Technology Co ltd
Priority date: 2023-12-20
Filing date: 2023-12-20
Publication date: 2024-03-26
Anticipated expiration: 2043-12-20
Also published as: CN117763607B

Abstract

本发明涉及信息安全技术领域，提供一种基于大模型的文件安全定级方法、系统、设备及存储介质，该方法包括：获取待定级文件；将待定级文件输入至预训练的大模型，由大模型对待定级文件进行语义分析，得到语义分析结果；语义分析结果与预设文件安全等级对应；根据语义分析结果对待定级文件进行定级。本发明能够充分利用大模型的学习和分析能力，自动对待定级文件进行安全定级，可以提高文件安全管理的效率和准确性，为各种行业和组织提供更可靠的文件安全保护。

Description

基于大模型的文件安全定级方法、系统、设备及存储介质

技术领域

本发明涉及信息安全技术领域，尤其涉及一种基于大模型的文件安全定级方法、系统、设备及存储介质。

背景技术

随着大数据、云计算、移动互联、互联网+等新兴技术及应用的迅速发展，大规模数据的产生和共享，保护敏感数据的安全性变得尤为关键。文件安全定级是信息安全领域的一个重要问题，它涉及对文件进行分类、评估和管理，以确保其在存储、传输和处理过程中的安全性。

传统的文件安全定级方法主要基于人工手动标记方法，利用数据分析师的主观意识判断是否为敏感数据，其识别效率低，在面对大量数据的时候，人工手动标记需要大量的人力和时间，而且对处理人员的专业素质要求较高；且评判标准不统一，由于敏感数据识别过程主要依赖与人的主观判断，不同的人对相同的数据可能会出现不同的评判标准，甚至同一个人在不同时间所识别的结果仍有不同，这就会导致敏感数据识别结果的差异性，容易出现标记不一致的情况。

发明内容

本发明提供一种基于大模型的文件安全定级方法、系统、设备及存储介质，用以解决现有技术中通过人工手动标记的方式进行文件安全定级需要大量的人力和时间且标记易出现不一致的缺陷。本发明能够充分利用大模型的学习和分析能力，自动对待定级文件进行安全定级，可以提高文件安全管理的效率和准确性，为各种行业和组织提供更可靠的文件安全保护。

本发明提供一种基于大模型的文件安全定级方法，包括：获取待定级文件；将所述待定级文件输入至预训练的大模型，由所述大模型对所述待定级文件进行语义分析，得到语义分析结果；所述语义分析结果与预设文件安全等级对应；根据所述语义分析结果对所述待定级文件进行定级。

根据本发明提供的一种基于大模型的文件安全定级方法，还包括：获取训练样本文件；根据所述训练样本文件对所述大模型进行训练，以提取所述训练样本文件的安全特征，所述安全特征与所述预设文件安全等级对应。

根据本发明提供的一种基于大模型的文件安全定级方法，所述将所述待定级文件输入至预训练的大模型之前，还包括：将所述待定级文件进行分片处理，得到多个文档片段，以将多个所述文档片段输入至预训练的所述大模型。

根据本发明提供的一种基于大模型的文件安全定级方法，所述获取待定级文件，包括：确定待定级文件的来源和类型；根据所述待定级文件的来源和类型获取所述待定级文件的内容和属性。

根据本发明提供的一种基于大模型的文件安全定级方法，还包括：将所述待定级文件进行向量化操作，得到向量化文件；根据所述向量化文件对所述大模型进行微调。

根据本发明提供的一种基于大模型的文件安全定级方法，所述向量化文件持久化存储在向量数据库中。

根据本发明提供的一种基于大模型的文件安全定级方法，所述大模型为ChatGLM-6B模型。

本发明还提供一种基于大模型的文件安全定级系统，包括：获取模块，用于获取待定级文件；分析模块，用于将所述待定级文件输入至预训练的大模型，由所述大模型对所述待定级文件进行语义分析，得到语义分析结果；所述语义分析结果与预设文件安全等级对应；定级模块，用于根据所述语义分析结果对所述待定级文件进行定级。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于大模型的文件安全定级方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于大模型的文件安全定级方法。

本发明提供的一种基于大模型的文件安全定级方法、系统、设备及存储介质，该方法包括：获取待定级文件；将待定级文件输入至预训练的大模型，由大模型对待定级文件进行语义分析，得到语义分析结果；语义分析结果与预设文件安全等级对应；根据语义分析结果对待定级文件进行定级。本发明能够充分利用大模型的学习和分析能力，自动对待定级文件进行安全定级，可以提高文件安全管理的效率和准确性，为各种行业和组织提供更可靠的文件安全保护。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种基于大模型的文件安全定级方法的流程示意图；

图2是本发明提供的一种基于大模型的文件安全定级系统的原理示意图；

图3是本发明提供的一种基于大模型的文件安全定级系统的结构示意图；

图4是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在当前的数字化时代，信息安全成为了一项重要的挑战。随着大规模数据的产生和共享，保护敏感数据的安全性变得尤为关键。文件安全定级是信息安全领域的一个重要问题，它涉及对文件进行分类、评估和管理，以确保其在存储、传输和处理过程中的安全性。

为了解决现有技术所存在的技术问题，本发明提供了一种基于大模型的文件安全定级方法，充分利用大模型的学习和分析能力，自动对待定级文件进行安全定级，可以提高文件安全管理的效率和准确性，为各种行业和组织提供更可靠的文件安全保护。

请参考图1，图1为本发明提供的一种基于大模型的文件安全定级方法的流程示意图。

本发明提供一种基于大模型的文件安全定级方法，包括：

101：获取待定级文件；

102：将待定级文件输入至预训练的大模型，由大模型对待定级文件进行语义分析，得到语义分析结果；语义分析结果与预设文件安全等级对应；

通过大模型对待定级文件进行深度学习和语义理解，对文件的上下文进行语义分析，自动检测识别文件中的文件安全相关的特征，如变体和隐喻表达的敏感数据、数据格式等，输出语义分析结果。

敏感数据一般分为公共敏感数据(法律角度)、行业敏感数据(行业规范角度)、企业敏感数据(内部规范角度)。公共敏感数据和行业敏感数据一般在法律文件里都会有定义，但企业敏感数据的梳理需要依靠人员对业务数据的理解。

大语言模型为开源大语言模型，大语言模型(Large Language Model，LLM)也称大型语言模型，是一种人工智能模型，旨在理解和生成人类语言或者说自然语言。大语言模型在大量的文本数据上进行训练，可以执行广泛的任务，包括进行对话、问答、文本分类、文本总结、翻译、情感分析等等。大语言模型的特点是规模庞大，包含数十亿的参数，帮助它们学习语言数据中的复杂模式。大语言模型通常基于深度学习架构，如转化器，这有助于它们执行各种自然语言处理任务。

大语言模型本身是一个生成型等语言模型，其主要目标是生成与输入相关的自然语言响应，有着较好的语义理解能力。大规模语言模型也可以为任意开源的ChatGLM-6B、ChatGPT系列、StableVicuna、PaLM、Galactica或者LLaMA系列的模型，根据具体情况确定即可。开源大语言模型中代码开源，数据集开源以及具有授权许可。

代码开源：开源大语言模型的核心代码是公开可访问的。

数据集开源：大语言模型的开源性还包括提供训练所使用的数据集，方便在同样的数据上进行改进和实验。

授权许可：考虑常见的开源许可证包括MIT许可证、Apache许可证、GNU通用公共许可证等。

预设文件安全等级可以由文件安全的专业人员或者专门的机构进行维护和更新，本发明在此不作特别的限定。

此外，通过将大模型部署成企业内部服务，避免了数据调用第三方可能产生的安全隐患，同时针对一些敏感信息，例如手机号，数据库表信息通过字符匹配进行脱敏从而解决数据安全问题，本发明在此不作特别的限定。

103：根据语义分析结果对待定级文件进行定级。

文件定级的类别可以但不仅限为普通文件、重要文件和绝密文件。

综上，本发明的基于大模型的文件安全定级方法，可以实现自动化、高效且准确的文件安全定级。大模型的应用使系统具备强大的学习和分析能力，自动化的定级策略减少了人工标记的繁琐性，动态学习和适应性提高了系统的适应性和可靠性。

在上述实施例的基础上：

作为一种优选的实施例，还包括：获取训练样本文件；根据训练样本文件对大模型进行训练，以提取训练样本文件的安全特征，安全特征与预设文件安全等级对应。

具体的，训练样本文件的来源包括但不限于历史定级的文件，该历史定级文件中例如包括变体和隐喻表达的敏感数据。

对训练样本文件可以进行预处理，包括但不限于去除标点符号、停用词和其他无关信息，进行词干化或词形还原等操作，以减少噪音和标准化文本。

对训练样本文件可以进行编码处理，形成编码文件。即将训练样本文件转化为模型可接受的输入编码形式，包括但不限于将文本分词为单词或子词，并将其映射为向量表示。其中，采用的编码方法包括但不限于词嵌入，如Word2Vec或GloVe，以及子词嵌入，如BERT或FastText。

在模型训练阶段，使用大规模的训练样本文件对大模型进行训练，以大模型其具备对文件内容进行深度学习和分析的能力，然后，将待定级文件输入到大模型中，大模型利用其学习到的特征和模式，对文件内容进行深入分析，能够自动识别和提取与文件安全相关的特征如敏感词汇、数据格式等。这些特征可以是隐藏层的输出，也可以是对隐藏层输出进行池化或降维得到的向量表示。基于这些特征，大模型可以自动将文件分为不同的安全级别，解决了对人工标记的效率和准确性较低的问题。

当然，也可以对应文件安全级别为其分配相应的访问控制和加密策略，本发明在此不作特别的限定。

作为一种优选的实施例，将待定级文件输入至预训练的大模型之前，还包括：将待定级文件进行分片处理，得到多个文档片段，以将多个文档片段输入至预训练的大模型。

在本实施例中，为了进一步提升文件定级的效率，将上传的待定级文件进行分片处理，得到多个文档片段，然后将多个文档片段依次传入预训练大模型；通过大模型对文档内容进行语义分析，得到语义分析结果；通过语义分析结果对文档内容进行定级，并汇总文件安全等级，从而可以提升大模型对大文件的文本处理效率。

作为一种优选的实施例，获取待定级文件，包括：确定待定级文件的来源和类型；根据待定级文件的来源和类型获取待定级文件的内容和属性。

确定待定级文件的来源和类型可以包括确定待定级文件是否来自可信来源、是否为恶意文件等。获取待定级文件的内容和属性可以包括获取文件的元数据、文件内容、文件属性等。利用大模型对获取的待定级文件进行安全定级可以包括利用大模型对文件进行分类、识别、检测等，以确定文件的安全等级。

作为一种优选的实施例，还包括：将待定级文件进行向量化操作，得到向量化文件；根据向量化文件对大模型进行微调。

作为一种优选的实施例，向量化文件持久化存储在向量数据库中。

在本实施例中，可以将待定级文件转化为模型可接受的向量化文件，并利用向量化文件对大模型进行微调。在微调过程中，还可以调整学习率、训练迭代次数等。在微调完成后，还可以评估和优化评估大模型的性能。通过一些评估指标来衡量大模型在文件定级的表现。如果大模型表现不佳，可以通过调整训练参数、增加数据集规模或进行更多的微调来进一步优化。

系统具备动态学习和适应不同数据和安全需求的能力。通过定期更新和重新训练大模型，系统可以及时适应新出现的安全威胁和变化的数据特征。此外，系统还可以根据用户反馈和审核结果进行调整和优化，提高定级的准确性和可靠性。

作为一种优选的实施例，大模型为ChatGLM-6B模型。

具体的，预训练大语言模型可以为ChatGLM-6B模型。ChatGLM-6B是清华大学知识工程和数据挖掘小组(Knowledge Engineering Group(KEG)&Data Mining at TsinghuaUniversity)发布的一个开源的对话机器人。ChatGLM-6B是一个开源的、支持中英双语对话的大语言模型，基于General Language Model(GLM)架构，其是基于Transformer模型进行的改造，采用了自编码和自回归的双向思想，将问题转化为完形填空求解，其参数量级是62亿参数量，本地部署仅需要6GB显存。ChatGLM-6B模型采用了既自编码又自回归的结构，类似完形填空的思想解决问题。自编码指随机的删除连续的tokens，自回归指可以访问预测的token，故该模型可以很好的理解上下文。该模型具有如下特点：充分的中英双语预训练、优化的模型架构和大小、较低的部署门槛、更长的序列长度和人类意图对齐训练。通过1T双语的语料作为训练数据集，优化了中文的问答和对话，目前该模型已经可以生成符合人类偏好的回答。

下面对本发明提供的基于大模型的文件安全定级系统进行描述，下文描述的基于大模型的文件安全定级系统与上文描述的基于大模型的文件安全定级方法可相互对应参照。

请参考图2，图2为本发明提供的一种基于大模型的文件安全定级系统的原理示意图。

请参考图3，图3为本发明提供的一种基于大模型的文件安全定级系统的结构示意图。

本发明还提供一种基于大模型的文件安全定级系统，包括：获取模块1，用于获取待定级文件；分析模块2，用于将待定级文件输入至预训练的大模型，由大模型对待定级文件进行语义分析，得到语义分析结果；语义分析结果与预设文件安全等级对应；定级模块3，用于根据语义分析结果对待定级文件进行定级。

图4示例了一种电子设备的结构示意图，如图4所示，该电子设备可以包括：处理器(processor)401、通信接口(Communications Interface)402、存储器(memory)403和通信总线404，其中，处理器401，通信接口402，存储器403通过通信总线404完成相互间的通信。处理器401可以调用存储器403中的逻辑指令，以执行基于大模型的文件安全定级方法，该方法包括：获取待定级文件；将待定级文件输入至预训练的大模型，由大模型对待定级文件进行语义分析，得到语义分析结果；语义分析结果与预设文件安全等级对应；根据语义分析结果对待定级文件进行定级。

此外，上述的存储器403中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的基于大模型的文件安全定级方法，该方法包括：获取待定级文件；将待定级文件输入至预训练的大模型，由大模型对待定级文件进行语义分析，得到语义分析结果；语义分析结果与预设文件安全等级对应；根据语义分析结果对待定级文件进行定级。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的基于大模型的文件安全定级方法，该方法包括：获取待定级文件；将待定级文件输入至预训练的大模型，由大模型对待定级文件进行语义分析，得到语义分析结果；语义分析结果与预设文件安全等级对应；根据语义分析结果对待定级文件进行定级。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于大模型的文件安全定级方法，其特征在于，包括：

获取待定级文件；

将所述待定级文件输入至预训练的大模型，由所述大模型对所述待定级文件进行语义分析，得到语义分析结果；所述语义分析结果与预设文件安全等级对应；

根据所述语义分析结果对所述待定级文件进行定级。

2.根据权利要求1所述的基于大模型的文件安全定级方法，其特征在于，还包括：

获取训练样本文件；

根据所述训练样本文件对所述大模型进行训练，以提取所述训练样本文件的安全特征，所述安全特征与所述预设文件安全等级对应。

3.根据权利要求1所述的基于大模型的文件安全定级方法，其特征在于，所述将所述待定级文件输入至预训练的大模型之前，还包括：

将所述待定级文件进行分片处理，得到多个文档片段，以将多个所述文档片段输入至预训练的所述大模型。

4.根据权利要求1所述的基于大模型的文件安全定级方法，其特征在于，所述获取待定级文件，包括：

确定待定级文件的来源和类型；

根据所述待定级文件的来源和类型获取所述待定级文件的内容和属性。

5.根据权利要求1所述的基于大模型的文件安全定级方法，其特征在于，还包括：

将所述待定级文件进行向量化操作，得到向量化文件；

根据所述向量化文件对所述大模型进行微调。

6.根据权利要求5所述的基于大模型的文件安全定级方法，其特征在于，所述向量化文件持久化存储在向量数据库中。

7.根据权利要求1至6任一项所述的基于大模型的文件安全定级方法，其特征在于，所述大模型为ChatGLM-6B模型。

8.一种基于大模型的文件安全定级系统，其特征在于，包括：

获取模块，用于获取待定级文件；

分析模块，用于将所述待定级文件输入至预训练的大模型，由所述大模型对所述待定级文件进行语义分析，得到语义分析结果；所述语义分析结果与预设文件安全等级对应；

定级模块，用于根据所述语义分析结果对所述待定级文件进行定级。

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述基于大模型的文件安全定级方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于大模型的文件安全定级方法。