CN117435523B

CN117435523B - 基于数据敏感级识别的存储介质自动销毁方法

Info

Publication number: CN117435523B
Application number: CN202311763144.8A
Authority: CN
Inventors: 罗远哲; 刘瑞景; 李雪茹; 董绍彤; 薛瑞亭; 陆立军; 王军亮; 李玉琼; 王明玉; 刘志明
Original assignee: Beijing China Super Industry Information Security Technology Ltd By Share Ltd
Current assignee: Beijing China Super Industry Information Security Technology Ltd By Share Ltd
Priority date: 2023-12-21
Filing date: 2023-12-21
Publication date: 2024-03-19
Anticipated expiration: 2043-12-21
Also published as: CN117435523A

Abstract

本发明涉及数据存储安全管理技术领域，具体涉及基于数据敏感级识别的存储介质自动销毁方法，包括以下步骤：设定敏感级标准和相关参数；对存储在介质上的数据进行敏感级分类；监控存储介质的安全状态，实时监测存储介质的访问模式和物理状态；引入动态敏感级调整机制，根据实时监测的数据使用情况和安全环境，动态调整数据的敏感级分类，在检测到高风险活动或异常访问模式时，自动提升相关数据的敏感级；决定是否执行自动销毁程序。本发明，提前防范数据泄露和安全威胁，从而为整个数据安全管理体系带来更高效和主动的保护机制。

Description

基于数据敏感级识别的存储介质自动销毁方法

技术领域

本发明涉及数据存储安全管理技术领域，尤其涉及基于数据敏感级识别的存储介质自动销毁方法。

背景技术

在现代信息技术日益发展的背景下，数据存储与安全已成为企业和组织面临的一大挑战。传统的数据保护方法，如物理隔离、密码保护或手动删除，虽然在一定程度上提供了保护，但往往不能及时应对快速变化的安全威胁。特别是在面对复杂的网络攻击、内部数据泄露及其他安全漏洞时，这些方法显得反应迟缓，无法有效防止敏感信息的泄露。

现有的自动销毁技术主要集中在触发条件的设定上，如未授权访问或特定命令的执行。然而，这些技术往往缺乏对数据本身敏感性的识别能力，以及对周边环境变化的适应性。此外，现有方法在实施销毁操作时，通常缺乏足够的灵活性和精确控制，有时甚至可能误伤正常数据，导致不必要的信息损失。

随着数据泄露事件频发和数据保护法规的日益严格，如何在动态和复杂的环境中有效保护数据安全，成为一个迫切需要解决的问题,需要一种能够智能识别数据敏感性，实时监测数据使用和安全环境，并能灵活调整保护措施的方法。这种方法应能够自动化地处理潜在的安全威胁，同时保证数据保护措施的及时性、准确性和合规性。

因此，开发一种基于敏感级识别，能够实时响应并智能决策的存储介质自动销毁方法，成为数据安全领域的一项重要创新需求,这种方法旨在提供更加全面、智能和自动化的数据保护解决方案，以应对日益增长的数据安全挑战

发明内容

基于上述目的，本发明提供了基于数据敏感级识别的存储介质自动销毁方法。

基于数据敏感级识别的存储介质自动销毁方法，包括以下步骤：

S1：设定敏感级标准和相关参数，根据数据的敏感性和重要性，设定不同的敏感级标准；

S2：对存储在介质上的数据进行敏感级分类，使用数据分析技术，根据预设的敏感级标准自动对数据进行分类；

S3：监控存储介质的安全状态，实时监测存储介质的访问模式和物理状态；

S4：引入动态敏感级调整机制，根据实时监测的数据使用情况和安全环境，动态调整数据的敏感级分类，在检测到高风险活动或异常访问模式时，自动提升相关数据的敏感级；

S5：决定是否执行自动销毁程序，结合S3的监测数据和S4的敏感级调整结果，评估是否存在数据泄露风险，以决定是否启动自动销毁，若决定执行销毁，则启动自动销毁机制。

进一步的，所述S1中的敏感级标准和相关参数的设定具体包括：

S11：敏感性和重要性评估：利用预定义标准，对存储数据的敏感性和重要性进行评估，该标准基于数据的内容、使用频率、用户群体和数据的潜在影响因素；

S12：敏感级分类标准的建立：基于评估结果，建立不同的敏感级分类并排序，每一级别均具有定义和使用场景；

S13：参数设定：对于每一个敏感级分类，设定相关的安全参数，包括访问控制规则、存储条件、监控要求和销毁机制。

进一步的，所述S11中的预定义标准具体包括：

数据内容标准，

关键词标准：“敏感”、“私有”、“专有”词汇的出现频率，

信息类型标准：个人数据、财务数据、技术数据；

使用频率和访问模式标准，

频繁访问：每日、每周、每月访问次数的统计；

异常访问模式：非工作时间访问、不寻常的访问频率变化；

用户群体标准，

用户角色：管理层、技术人员、客户服务人员；

访问权限：如只读、编辑、完全控制；

数据潜在影响标准，

法律和合规风险评估；

商业影响评估：财务损失的潜在规模、品牌声誉损害的可能性。

进一步的，所述S2具体包括：

S21：敏感级分类规则的建立，基于预设的敏感级标准制定具体的分类规则，该分类规则包括数据内容、数据来源、数据创建和修改时间。

S22：自动化数据分析，利用数据处理算法，自动扫描和分析存储介质中的数据，识别数据内容中的特定关键词、短语和其他标识符，以便按照预设规则进行分类，数据处理算法包括文本预处理，清洗和标准化数据，去除停用词，标准化词汇，去除标点和特殊字符使用词频-逆文档频率算法TF-IDF，计算如下：

词频；

逆文档频率；

；

S23：分类决策逻辑应用，将分析结果与敏感级分类规则相匹配，确定每个数据项的敏感级，提取关键词和短语的TF-IDF分数，为每个敏感级设定关键词和短语的分数阈值，将提取出的关键词分数与相应敏感级的阈值进行比较，若文档包含多个关键词，综合考虑所有相关关键词的分数，根据匹配和综合评估的结果，为每个数据项分配最终敏感级，再对算法分类的结果进行随机抽样审核，确保准确性，根据审核结果调整敏感级分类的阈值和参数，以提高未来分类的准确率。

进一步的，所述S3具体包括：

访问模式监测：使用访问日志记录工具实时记录对存储介质的所有访问尝试，包括访问时间、持续时长、用户身份和访问类型；分析访问模式，识别异常行为，包括非常规时间的访问、频繁的数据写入或删除、未授权用户的访问尝试，利用异常检测模型，对访问模式进行连续分析，以识别潜在的安全威胁；

物理状态监测：集成传感器技术监控存储介质的物理环境；实时记录和分析传感器数据，以识别影响存储介质安全的物理事件；结合物理状态数据和访问模式数据，对存储介质的整体安全状况进行综合评估。

进一步的，所述异常检测模型包括：

特征构建：基于访问日志构建特征，包括访问频率、平均访问时长、特定时间段内的访问次数；

使用统计学方法进行基线建立：计算平均值和标准差，对每个特征计算历史数据的平均值和标准差/>：

平均值:；

标准差:；

其中，是每次访问的特征值，/>是历史访问的总次数；

定义异常检测规则：设定阈值为平均值加上两倍标准差，用于识别异常，若新的访问特征值超过该阈值，则视为异常；

异常判定:如果，则/>是异常值，其中，/>是新访问的特征值，/>是设定的倍数。

进一步的，所述S4具体包括：

实时监测数据使用情况：使用日志记录和分析工具实时跟踪数据的访问和使用情况，包括访问频率、访问类型、用户身份和访问时间，评估数据使用模式的变化，包括突增的访问频率或非授权用户的访问尝试，以识别安全风险。

实时监测安全环境：利用网络和物理安全系统实时监测整体安全环境，识别与数据安全相关的事件或威胁；

动态调整敏感级分类逻辑：基于实时监测结果，使用预定算法模型自动调整数据的敏感级分类。

进一步的，所述预定算法模型基于决策树分类器，具体如下：

提取特征向量：，其中，/>代表特征，/>代表特征向量个数；

决策树训练：使用历史数据训练决策树模型，将数据项分类到不同的敏感级；

训练过程：使用信息增益作为分割标准，信息增益公式:

；其中，/>是信息熵，/>和/>分别是父节点和第/>个子节点的数据集，/>是在/>中的样本数，/>是总样本数；

分类决策：对于一个新的数据项，使用决策树模型根据其特征/>进行分类，决策树根据特征值在树的不同节点上进行分割，最终将/>分类到具体敏感级/>；

将训练好的决策树模型应用于实时监测到的数据，根据模型的分类结果，自动调整数据项的敏感级，定期用新收集的数据更新决策树模型，以适应新的数据使用模式和安全环境。

进一步的，所述S5具体包括：

S51：创建并实施一个风险评估逻辑，该逻辑综合考虑监测到的数据访问模式、安全事件和敏感级调整的结果，风险评估标准包括异常访问频率、未授权访问尝试、敏感级突然提升的数据项数量；

S52：根据风险评估逻辑的结果，为每个监测到的事件或数据项分配一个风险等级，包括低风险、中风险、高风险，设定不同风险等级的阈值；

S53：针对被评估为高风险的数据项，自动触发决策流程以决定是否启动自动销毁程序，该决策流程考虑相关数据的重要性、可替代性和当前安全状况。

进一步的，所述自动销毁机制包括：

定义触发条件：设置具体的风险条件或参数，自动启动销毁程序；

数据定位与隔离：自动识别和定位需要被销毁的数据，基于检索元数据标签，确定数据所在逻辑位置，在执行销毁前，将目标数据从常规访问路径中隔离，确保在销毁过程中不会有新的数据访问尝试；

销毁方法：对于物理存储介质，使用物理方法销毁；

数字销毁：对于需要保留介质的情况，使用数字方法销毁数据。

本发明的有益效果：

本发明，通过实施基于敏感级的自动分类和实时监测系统，显著提高了存储数据的安全性,利用先进的数据分析技术自动识别和分类数据，结合实时监测存储介质的访问模式和物理状态，该方法能够有效识别潜在的安全威胁,此外，通过实时监测数据使用情况和安全环境来动态调整数据的敏感级分类，不仅提高了数据安全性，还增加了对内部和外部威胁的适应性。

本发明，引入动态敏感级调整机制，显著增强了数据保护的灵活性和预防性,这一机制能够根据实时监测的数据使用模式和安全环境，自动调整数据的敏感级分类,这种调整不仅反映了对当前安全态势的快速响应，也预防了潜在的安全风险,例如，在检测到不寻常的访问模式或安全事件时，相关数据的敏感级可以即时提升，从而加强对其的保护,这种预防性措施能有效地减少对紧急干预的依赖，提前防范数据泄露和安全威胁，从而为整个数据安全管理体系带来更高效和主动的保护机制。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的销毁方法流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，对本发明进一步详细说明。

需要说明的是，除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

如图1所示，基于数据敏感级识别的存储介质自动销毁方法，包括以下步骤：

S4：引入动态敏感级调整机制，根据实时监测的数据使用情况和安全环境，动态调整数据的敏感级分类，在检测到高风险活动或异常访问模式时，自动提升相关数据的敏感级，增强保护，更灵活地应对变化的安全环境，有效防止在紧急情况下数据泄露；

S1中的敏感级标准和相关参数的设定具体包括：

S12：敏感级分类标准的建立：基于评估结果，建立不同的敏感级分类并排序，每一级别均具有定义和使用场景，例如，绝敏感级可能适用于国家安全相关的数据，而内部级可能适用于公司内部文档；

S13：参数设定：对于每一个敏感级分类，设定相关的安全参数，包括访问控制规则、存储条件、监控要求和销毁机制，参数根据数据的敏感级不同而有所差异，确保每个级别的数据都得到适当的保护；

上述详细描述了设定敏感级标准和相关参数的方法，确保数据根据其敏感性和重要性得到恰当的保护级别，通过这种方式，不仅提供了一种自动销毁机制，还确保了在销毁之前，数据的存储和处理都严格遵循其敏感级要求。

S11中的预定义标准具体包括：

数据内容标准，

信息类型标准：个人数据（身份信息、健康记录）、财务数据（财务报表、交易记录）、技术数据（专利信息、研发资料）；

使用频率和访问模式标准，

频繁访问：每日、每周、每月访问次数的统计；

异常访问模式：非工作时间访问、不寻常的访问频率变化；

用户群体标准，

用户角色：管理层、技术人员、客户服务人员；

访问权限：如只读、编辑、完全控制；

数据潜在影响标准，

法律和合规风险评估；

对存储数据的敏感性和重要性进行评估的步骤包括：

S111：数据内容分析：评估数据内容的性质和敏感度。涉及对数据中的关键词、概念及其上下文的分析，以识别可能包含敏感信息的数据。

S112：使用频率和访问模式监测：监测数据的使用频率和访问模式，包括访问次数、访问时间和访问用户。频繁访问的数据或访问模式异常的数据可能具有更高的敏感性。

S113：用户群体评估：分析访问数据的用户群体，包括用户的角色、权限级别和历史行为。确定哪些用户群体访问的数据可能具有更高的敏感性和重要性。

S114：数据潜在影响评价：评估数据泄露或不当处理可能导致的潜在影响，包括财务损失、声誉损害和法律风险等。

S115：综合评估：结合以上因素，综合评估每项数据的总体敏感性和重要性，并据此对数据进行适当的敏感级分类。

S2具体包括：

S21：敏感级分类规则的建立，基于预设的敏感级标准制定具体的分类规则，该分类规则包括数据内容、数据来源、数据创建和修改时间；

S22：自动化数据分析，利用数据处理算法，自动扫描和分析存储介质中的数据，识别数据内容中的特定关键词、短语和其他标识符，以便按照预设规则进行分类，数据处理算法包括文本预处理，清洗和标准化数据，去除停用词（如“和”，“是”等常见词汇），标准化词汇（如将所有文本转换为小写），去除标点和特殊字符使用词频-逆文档频率算法TF-IDF，计算如下：

词频；

逆文档频率；

；

为应对持续变化的数据环境，系统将定期重新扫描和分析存储介质上的数据，并根据需要更新数据的分类，这一步骤确保数据分类的时效性和准确性。

S3具体包括：

访问模式监测：使用访问日志记录工具实时记录对存储介质的所有访问尝试，包括访问时间、持续时长、用户身份和访问类型（读取、写入、修改）；分析访问模式，识别异常行为，包括非常规时间的访问、频繁的数据写入或删除、未授权用户的访问尝试，利用异常检测模型，对访问模式进行连续分析，以识别潜在的安全威胁；

物理状态监测：集成传感器技术（震动传感器、温度传感器、湿度传感器）监控存储介质的物理环境；实时记录和分析传感器数据，以识别影响存储介质安全的物理事件，如震动（表明可能的盗窃或损坏）、温度和湿度异常（可能表明火灾、水淹等情况）；结合物理状态数据和访问模式数据，对存储介质的整体安全状况进行综合评估；

设定阈值和条件，当监测到异常访问模式或物理状态时，自动触发警报，根据预定的安全协议，自动启动适当的响应措施，如通知安全团队、启动安全审计程序或在特定条件下激活数据销毁机制。

异常检测模型包括：

平均值:；

标准差:；

其中，是每次访问的特征值，/>是历史访问的总次数；

异常判定:如果，则/>是异常值，其中，/>是新访问的特征值，/>是设定的倍数(为2或3)；

利用K-最近邻模型，识别在特征空间中显著偏离其他数据点的异常，进而使用历史数据训练模型，使其能识别正常和异常的访问模式。

S4具体包括：

动态调整敏感级分类逻辑：基于实时监测结果，使用预定算法模型自动调整数据的敏感级分类；

实时更新数据的敏感级元数据，确保所有安全措施与新的敏感级相匹配，实时更新数据敏感级元数据的步骤：

1. 数据敏感级标记，每个数据项都应附带一个敏感级标签，作为其元数据的一部分，对于每个数据项，存储其元数据，包括敏感级。

2. 敏感级更新机制，开发一个自动化脚本或服务，用于监测敏感级变更的指令，当敏感级分类系统决定一个数据项的敏感级需要更新时，这个脚本或服务将自动执行更新操作。

3. 实时监控和触发，设定事件触发机制，当数据项的敏感级发生变化时，自动触发敏感级更新流程，一个持续运行的监控系统负责检测敏感级变更事件，并触发自动化脚本/服务。

4. 安全措施匹配，确保所有安全措施（如访问控制、加密、审计日志）都与数据项的当前敏感级相匹配，当数据项敏感级更改时，相关的安全策略应自动调整以适应新敏感级。

5. 数据库和存储更新，更新数据库中存储的敏感级信息，确保查询和访问控制系统都使用最新的敏感级数据，如果数据分布在多个位置，确保所有副本的敏感级元数据都同步更新。

定期审查和更新敏感级调整的逻辑和规则，以适应不断变化的数据使用模式和安全环境。

预定算法模型基于决策树分类器，具体如下：

提取特征向量：，其中，/>代表特征，如访问频率、访问类型等，/>代表特征向量个数；

训练过程：使用信息增益作为分割标准，信息增益公式:

S5具体包括：

自动销毁机制包括：

销毁方法：对于物理存储介质，使用物理方法销毁，比如磁盘碎片化、高温焚烧或化学腐蚀；

数字销毁：对于需要保留介质的情况，使用数字方法销毁数据，如多次重写目标数据区域，使用特定模式（如伪随机数据）；

在销毁后，执行验证程序以确保数据已被彻底销毁，包括尝试从存储介质中恢复数据，以确认恢复不可能，记录销毁操作的详细信息，包括时间、地点、销毁方法和验证结果，以便于未来的审计和合规性检查。

如果自动销毁过程中断或失败，预设应急预案以手动处理或采取其他补救措施。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明的范围被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

本发明旨在涵盖落入权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于数据敏感级识别的存储介质自动销毁方法，其特征在于，包括以下步骤：

S2：对存储在介质上的数据进行敏感级分类，使用数据分析技术，根据预设的敏感级标准自动对数据进行分类，具体包括：

词频；

逆文档频率；

；

S23：分类决策逻辑应用，将分析结果与敏感级分类规则相匹配，确定每个数据项的敏感级，提取关键词和短语的TF-IDF分数，为每个敏感级设定关键词和短语的分数阈值，将提取出的关键词分数与相应敏感级的阈值进行比较，若文档包含多个关键词，综合考虑所有相关关键词的分数，根据匹配和综合评估的结果，为每个数据项分配最终敏感级，再对算法分类的结果进行随机抽样审核，确保准确性，根据审核结果调整敏感级分类的阈值和参数；

S3：监控存储介质的安全状态，实时监测存储介质的访问模式和物理状态，具体包括：

物理状态监测：集成传感器技术监控存储介质的物理环境；实时记录和分析传感器数据，以识别影响存储介质安全的物理事件；结合物理状态数据和访问模式数据，对存储介质的整体安全状况进行综合评估；

所述异常检测模型包括：

平均值:；

标准差:；

其中，是每次访问的特征值，/>是历史访问的总次数；

异常判定:如果，则/>是异常值，其中，/>是新访问的特征值，/>是设定的倍数；

S5：决定是否执行自动销毁程序，结合S3的监测数据和S4的敏感级调整结果，评估是否存在数据泄露风险，决定是否启动自动销毁，若决定执行销毁，则启动自动销毁机制。

2.根据权利要求1所述的基于数据敏感级识别的存储介质自动销毁方法，其特征在于，所述S1中的敏感级标准和相关参数的设定具体包括：

S12：敏感级分类标准的建立：基于评估结果，建立不同的敏感级分类并排序；

3.根据权利要求2所述的基于数据敏感级识别的存储介质自动销毁方法，其特征在于，所述S11中的预定义标准具体包括：

数据内容标准，

关键词：“敏感”、“私有”、“专有”词汇的出现频率，

信息类型：个人数据、财务数据、技术数据；

使用频率和访问模式标准，

频繁访问：每日、每周、每月访问次数的统计；

异常访问模式：非工作时间访问、不寻常的访问频率变化；

用户群体标准，

用户角色：管理层、技术人员、客户服务人员；

访问权限：只读、编辑、完全控制；

数据潜在影响标准，

法律和合规风险评估；

商业影响评估：财务损失的潜在规模、品牌声誉损害。

4.根据权利要求3所述的基于数据敏感级识别的存储介质自动销毁方法，其特征在于，所述S4具体包括：

实时监测数据使用情况：使用日志记录和分析工具实时跟踪数据的访问和使用情况，包括访问频率、访问类型、用户身份和访问时间，评估数据使用模式的变化，包括突增的访问频率或非授权用户的访问尝试，以识别安全风险；

5.根据权利要求4所述的基于数据敏感级识别的存储介质自动销毁方法，其特征在于，所述预定算法模型基于决策树分类器，具体如下：

提取特征向量：，其中，/>代表特征，/>代表特征向量个数；

训练过程：使用信息增益作为分割标准，信息增益公式:

6.根据权利要求5所述的基于数据敏感级识别的存储介质自动销毁方法，其特征在于，所述S5具体包括：

7.根据权利要求6所述的基于数据敏感级识别的存储介质自动销毁方法，其特征在于，所述自动销毁机制包括：

销毁方法：对于物理存储介质，使用物理方法销毁；