CN117909299B - 一种动态分级数据拆分系统 - Google Patents

一种动态分级数据拆分系统 Download PDF

Info

Publication number
CN117909299B
CN117909299B CN202410309478.6A CN202410309478A CN117909299B CN 117909299 B CN117909299 B CN 117909299B CN 202410309478 A CN202410309478 A CN 202410309478A CN 117909299 B CN117909299 B CN 117909299B
Authority
CN
China
Prior art keywords
splitting
sub
split
unit
encryption
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410309478.6A
Other languages
English (en)
Other versions
CN117909299A (zh
Inventor
宋曦
邵士海
徐辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202410309478.6A priority Critical patent/CN117909299B/zh
Publication of CN117909299A publication Critical patent/CN117909299A/zh
Application granted granted Critical
Publication of CN117909299B publication Critical patent/CN117909299B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Human Computer Interaction (AREA)
  • Storage Device Security (AREA)

Abstract

本发明涉及一种动态分级数据拆分系统,该系统包括文件拆分模块、子件关联模块、子件加密模块、文件索引模块及模型训练模块;子件关联模块用于根据拆分执行子件的关系以建立文件索引网络,并根据文件索引网络中拆分执行子件的关系为不同的拆分执行子件配置索引戳记;子件加密模块用于加密拆分执行子件以生成拆分加密子件,并将拆分加密子件发送至用户终端;文件索引模块用于根据拆分加密子件的索引戳记调取其他的拆分加密子件。对应不同分级进行针对性拆分,这样能够使得拆分内容可以平衡安全性要素,通过文件索引网络进行索引戳记的建立,方便调用上级文件或找到下级使用文件的用户,同时通过加密方式进行分发以进一步提高安全性。

Description

一种动态分级数据拆分系统
技术领域
本发明涉及数据管理领域,更具体地说,涉及一种动态分级数据拆分系统。
背景技术
目前,数据文件管理是无纸化办公的重要环节,随着越来越多的数据通过网络、存储介质等方式进行存储,也衍生出了更加多样的问题,数据存储虽然具备便捷性和环保性,但是每个终端不同用户如果都需要在同一个平台完成交互和数据存储,那么随着数据内容的增多,就会出现数据臃肿的情况,导致数据使用时就会失去了其便捷性,而特别是大型的数据应用场景中,一来需要通过权限兼顾安全性要求,二来则需要便于用户调取则实现效率性要求,而二者本身上就存在一定冲突,其次,对于一个文件而言,由于文件内容虽然可以解析成便于索引的数据,但是每个用户的文件权限对应的层级可选的文件较多,而文件内容中也不是所有内容用户都需要,且部分内容可能由于安全性不能被检索,就导致用户查阅是非常不便的,特别是政务文件以及电网等规范性内容较多的文件尤其需要解决上述问题。
发明内容
有鉴于此,本发明目的是提供一种动态分级数据拆分系统。
为了解决上述技术问题,本发明的技术方案是:一种动态分级数据拆分系统,包括文件拆分模块、子件关联模块、子件加密模块以及文件索引模块;
所述文件拆分模块包括拆分匹配单元、策略调取单元、拆分执行单元;
所述拆分匹配单元预先配置有用户特征数据库,所述用户特征数据库预先根据用户信息配置每一用户的用户关联特征,所述用户信息之间根据用户关联数据进行关联,所述拆分匹配单元根据原始文件所在的用户信息为索引从用户特征数据库中调取对应的用户关联特征;
所述策略调取单元预先配置有拆分策略库,所述拆分策略库存储有若干拆分策略,每一拆分策略包含若干拆分条件,不同的拆分策略对应的拆分条件不同,所述拆分策略以所述用户关联特征为索引,所述策略调取单元根据用户关联特征调取对应的拆分策略;
拆分执行单元预先配置有文件拆分模型,所述文件拆分模型通过语义识别算法将原始文件进行划分以得到若干拆分子语段,并将拆分子语段与对应的拆分条件进行匹配以计算每一拆分子语段的拆分相关值以及拆分涉密值,将拆分相关值和拆分涉密值均符合拆分策略要求的拆分子语段进行组合以形成该用户信息对应的拆分执行子件;
所述子件关联模块用于根据拆分执行子件的关系以建立文件索引网络,并根据文件索引网络中拆分执行子件的关系为不同的拆分执行子件配置索引戳记;
所述子件加密模块用于加密对应的拆分执行子件以生成拆分加密子件,并将拆分加密子件发送至对应的用户终端;
所述文件索引模块用于根据拆分加密子件的索引戳记调取其他的拆分加密子件。
进一步地,所述文件拆分模块还包括存储管理单元,所述存储管理单元用于将拆分执行子件存储至目标存储空间并建立对应的动态存储指针,所述动态存储指针与拆分执行子件的动态存储策略对应,所述动态存储策略用于改变拆分执行子件在目标存储空间的存储位置。
进一步地,所述子件关联模块还包括原始关联单元、第一加密单元、第二加密单元以及密钥发送单元,所述原始关联单元关联有本地公示数据库,所述本地公示数据库存储有本地公示文件,所述原始关联单元用于根据拆分执行子件解析相关的本地公示文件,并根据本地公示文件生成公示加密因子,第一加密单元通过预设的第一公示加密算法根据公示加密因子加密索引戳记以生成原始比对密钥,第二加密单元通过预设的第二公示加密算法根据公示加密因子加密路由信息以生成本地验证密钥,所述密钥发送单元用于将原始比对密钥发送至对应的用户终端以及将本地验证密钥发送至验证终端;
所述文件索引模块配置有许可生成单元、原始验证单元以及指针调取单元,所述本地公示数据库与原始验证单元建立有唯一比对接口,所述许可生成单元根据索引戳记生成本地许可请求至预设的验证终端,所述验证终端根据本地许可请求的内容生成对应的本地验证密钥,所述原始验证单元根据原始比对密钥以及本地验证密钥分别从本地公示数据库中获取原始比对数据以及许可比对数据,并根据原始比对数据以及许可比对数据生成比对结果,当所述比对结果为通过时,所述指针调取单元调取索引戳记对应的动态存储指针发送至对应的用户终端。
进一步地,所述子件加密模块包括因子索引单元以及嵌套加密单元,所述因子索引单元根据拆分执行子件于文件索引网络的关联关系生成嵌套因子,所述嵌套加密单元根据嵌套因子加密拆分执行子件以生成拆分加密子件和对应的嵌套密钥。
进一步地,所述子件加密模块包括子件分裂单元、逐层关联单元、逐层分发单元以及分布管理单元;所述子件分裂单元根据预设的子件分裂条件对拆分加密子件进行分裂以获得多个拆分加密子件,所述逐层关联单元根据文件索引网络确定每一拆分加密子件的分发层级,并根据分发层级关系使每一拆分加密子件至少关联一上一层级的拆分加密子件;所述逐层分发单元用于根据分发层级将拆分加密子件发送至对应的用户终端存储,所述分布管理单元用于将嵌套密钥发送至目标用户终端。
进一步地,所述拆分加密子件还包括动态转发条件,当动态转发条件被满足时,所述拆分加密子件被转发至同一分发层级的另一用户终端,具有关联关系的拆分加密子件的动态转发条件相互对应以使拆分加密子件的路由关系不变。
进一步地,所述动态分级数据拆分系统还包括模型训练模块,所述模型训练模块配置有模型训练策略用于训练所述文件拆分模型,所述模型训练策略包括:
步骤S1、获取历史文件样本;
步骤S2、通过预设的划分触发条件以对历史文件样本进行划分生成样本拆分语句;
步骤S3、通过预设的划分关联算法计算样本拆分语句之间的划分关联值;
步骤S4、将划分关联值大于预设的划分基准的样本拆分语句合并为样本拆分子语段;
步骤S5、将样本拆分子语段和已知的基准拆分子语段进行比对以生成偏差信息;
步骤S6、通过偏差信息修正划分关联算法中的参数以使样本拆分子语段的划分与基准拆分子语段趋于一致。
进一步地,所述拆分执行单元配置有拆分相关子策略用于计算所述拆分相关值,所述拆分执行单元配置有关键词特征库,所述关键词特征库存储有若干特征关键词,每一特征关键词对应不同的用户关联特征有不同的关键相关值,特征关键词之间预先关联有相关值乘数;所述拆分相关子策略包括:
步骤A1、通过用户关联特征对特征关键词进行初筛;
步骤A2、识别拆分子语段中的特征关键词以获得对应的关键相关值;
步骤A3、若识别得到的特征关键词具有关联,则获取对应的相关值乘数;
步骤A4、计算得到拆分相关值,采用如下公式计算:,其中/>为拆分相关值,/>为第1组相关特征关键词对应的相关值乘数,/>为第/>组相关的特征关键词对应的相关值乘数,/>为相关的特征关键词的总组数,/>为第/>个特征关键词对应的关键相关值,/>为特征关键词的总数,/>为求乘函数。
进一步地,所述拆分执行单元配置有拆分涉密子策略用于计算拆分涉密值,所述拆分执行单元配置有敏感词特征库,所述敏感词特征库存储有若干特征敏感词,每一特征敏感词对应不同的敏感级数;所述拆分涉密子策略包括:
步骤B1、通过预先录入敏感筛选信息以在对应的敏感级数范围内配置特征敏感词的敏感值;
步骤B2、识别拆分子语段中的特征敏感词以获得对应的敏感值;
步骤B3、累加所述敏感值以生成对应的拆分涉密值。
本发明技术效果主要体现在以下方面:通过对文件内容进行智能拆分,且对应不同的分级进行针对性拆分,这样能够使得拆分内容可以平衡安全性要素,通过文件索引网络进行索引戳记的建立,可以使文件之间的管理更加便捷,方便调用上级文件或找到下级使用文件的用户,同时通过加密方式进行分发以进一步提高安全性。
附图说明
图1:本发明系统架构原理图。
附图标记:100、文件拆分模块;110、拆分匹配单元;111、用户特征数据库;120、策略调取单元;121、拆分策略库;130、拆分执行单元;140、存储管理单元;200、子件关联模块;210、原始关联单元;211、本地公示数据库;220、第一加密单元;230、第二加密单元;240、密钥发送单元;300、子件加密模块;310、因子索引单元;320、嵌套加密单元;330、子件分裂单元;340、逐层关联单元;350、逐层分发单元;360、分布管理单元;400、文件索引模块;410、许可生成单元;420、原始验证单元;430、指针调取单元;500、模型训练模块。
具体实施方式
以下结合附图,对本发明的具体实施方式作进一步详述,以使本发明技术方案更易于理解和掌握。
如图1所示,一种动态分级数据拆分系统,包括文件拆分模块100、子件关联模块200、子件加密模块300以及文件索引模块400;
所述文件拆分模块100包括拆分匹配单元110、策略调取单元120、拆分执行单元130及存储管理单元140;文件拆分模块100的目的是根据不同部门的需求拆分原始文件,以达到以下五个目的,第一每一部门的存储的文件仅与本部门相关,这样节约本地用户终端的文件系统查找成本;第二是相关涉密内容可以针对性屏蔽,这样保证敏感数据不容易丢失或被窃取;第三是检索和调用逻辑简单,这样需要对文件信息进行查找时,可以快速完成;第四是文件虽然整体上增加了占用的空间,但是文件本质上还是链条化的,可以直接一键删除所有相关文件,这样便于文件管理;第五是文件的更新,如果文件有内容更新,由于链条化的设置,就可以对应的进行部分更新动作,这样保证文件信息更新更加便捷,不需要每个用户自行比对。
所述拆分匹配单元110预先配置有用户特征数据库111,所述用户特征数据库111预先根据用户信息配置每一用户的用户关联特征,所述用户信息之间根据用户关联数据进行关联,所述拆分匹配单元110根据原始文件所在的用户信息为索引从用户特征数据库111中调取对应的用户关联特征;用户信息对应的是用户所在部门、用户职位等信息,系统预先根据用户身份配置对应的权限,以及关联对应的终端,一般例如政务系统或者较大的集团化系统,对于内部文件一般都通过内网进行发送存储,保证安全性,所以用户身份还与内网的终端地址关联,然后通过后台可以对用户的用户关联特征进行编辑,添加或者删除对应的用户关联特征,以使用户可以仅涉及与自己相关的信息。用户信息和用户特征的区别,例如对于会计部门的某会计,用户信息反映会计的身份权限,而用户关联特征直接对应会计所使用的内容,所以一个身份权限可能对应多个用户关联特征,比如数据格式、单位、项目类型都满足视为该会计能够查阅的信息,这样就可以以上述信息从对应的文件中进行筛选,确定符合条件的文件内容段落。
所述策略调取单元120预先配置有拆分策略库121,所述拆分策略库121存储有若干拆分策略,每一拆分策略包含若干拆分条件,不同的拆分策略对应的拆分条件不同,所述拆分策略以所述用户关联特征为索引,所述策略调取单元120根据用户关联特征调取对应的拆分策略;拆分条件就是对应涉密值和相关值的要求,例如最简单的拆分条件是涉密值小于某值,相关值大于某值时,视为满足条件,当然也可以基于文件大小,其他涉及的用户、发起文件的用户的情况动态的设置对应条件,也就是策略项下遇到具体情境时,生成对应情境符合的条件,还可以是条件的组合,例如涉密值的差值不能大于相关值的差值的若干倍数,视为满足对应的拆分条件。
拆分执行单元130预先配置有文件拆分模型,所述文件拆分模型通过语义识别算法将原始文件进行划分以得到若干拆分子语段,并将拆分子语段与对应的拆分条件进行匹配以计算每一拆分子语段的拆分相关值以及拆分涉密值,
具体如下:所述拆分执行单元130配置有拆分相关子策略用于计算所述拆分相关值,所述拆分执行单元130配置有关键词特征库,所述关键词特征库存储有若干特征关键词,每一特征关键词对应不同的用户关联特征有不同的关键相关值,特征关键词之间预先关联有相关值乘数;所述拆分相关子策略包括:
步骤A1、通过用户关联特征对特征关键词进行初筛;
步骤A2、识别拆分子语段中的特征关键词以获得对应的关键相关值;
步骤A3、若识别得到的特征关键词具有关联,则获取对应的相关值乘数;
步骤A4、计算得到拆分相关值,采用如下公式计算:,其中/>为拆分相关值,/>为第1组相关特征关键词对应的相关值乘数,/>为第/>组相关的特征关键词对应的相关值乘数,/>为相关的特征关键词的总组数,/>为第/>个特征关键词对应的关键相关值,/>为特征关键词的总数,/>为求乘函数。相关值乘数通过函数累乘,只要有关联,就获得对应的相关值乘数,通过累加以及累乘的方式计算得到最优相关值。也就反映了拆分后的字段和用户的相关的程度。
所述拆分执行单元130配置有拆分涉密子策略用于计算拆分涉密值,所述拆分执行单元130配置有敏感词特征库,所述敏感词特征库存储有若干特征敏感词,每一特征敏感词对应不同的敏感级数;所述拆分涉密子策略包括这个敏感级数也就是敏感值对应的范围,也就反应的敏感值的初始状态;拆分涉密子策略包括:
步骤B1、通过预先录入敏感筛选信息以在对应的敏感级数范围内配置特征敏感词的敏感值;例如这个文件或者这个终端的保密等级,发起部门的保密等级的因素,作为敏感筛选信息。
步骤B2、识别拆分子语段中的特征敏感词以获得对应的敏感值;通过匹配的方式就可以对特征敏感词进行识别以获得对应的敏感值。
步骤B3、累加所述敏感值以生成对应的拆分涉密值。按每个字段识别对应的安全性。
将拆分相关值和拆分涉密值均符合拆分策略要求的拆分子语段进行组合以形成该用户信息对应的拆分执行子件;文件拆分模型的主要目的是为了先将文件处理成段落,这样便于计算对应的拆分相关值和拆分涉密值,所以需要训练一个内部的文件拆分模型,最基础的文件拆分模型是考虑标点和分隔符的设置,作为初步的拆分依据,然后还需要计算语义的连贯性,例如和上文相关的内容,就需要独立进行拆分,而这个智能拆分模型其实是在AI系统中已经得到较为广泛的应用,但是本发明不直接用外部模型,有两个目的,第一个是外部模型的安全性不够高,第二个是外部模型的系统适应性不够,难以达到对专业名词的语义识别的精度,所以系统还包括模型训练模块500,所述模型训练模块500配置有模型训练策略用于训练所述文件拆分模型,所述模型训练策略包括:
步骤S1、获取历史文件样本;这个历史文件样本的分段方式提前进行划分,也就是就可以构建出基准拆分子语段。
步骤S2、通过预设的划分触发条件以对历史文件样本进行划分生成样本拆分语句;划分触发条件可以是对应的标点符,分隔符,如果出现对应的符号,则记录为对应的样本拆分语句。
步骤S3、通过预设的划分关联算法计算样本拆分语句之间的划分关联值;由于要判断语句之间是否有关联,划分关联算法依托于数据库的支持,通过语句之间的关键词的比对,判断对应的关联值,预设的划分关联算法采用如下公式实现:
,其中/>为划分关联值,为第/>组关键词的关联子权值,可以通过预设的关联子权值表查表获得,/>为预设的词性关联函数,反映关键词所属于的词性数据库对应的类型之间的关联性关系,/>为第/>组关键词所属于的词性数据库的类型,/>为具有相关性的关键词的总组数,/>为预设的影响调节参数,/>为第/>组关键词,/>为预设的第/>组关键词的影响映射函数,影响映射函数的结果还与两组文字的连续性相关,/>为第/>组关键词具有影响关系的关键词的总组数。
步骤S4、将划分关联值大于预设的划分基准的样本拆分语句合并为样本拆分子语段;划分基准预先设置,就可以进行划分。
步骤S5、将样本拆分子语段和已知的基准拆分子语段进行比对以生成偏差信息;偏差信息记录划分的偏差情况。
步骤S6、通过偏差信息修正划分关联算法中的参数以使样本拆分子语段的划分与基准拆分子语段趋于一致。修正参数可以使影响调节参数,划分基准以及影响映射函数中的计算参数,词性关联函数中的计算参数以及词性数据库对关键词的划分依据的参数。
所述文件拆分模块100还包括存储管理单元140,所述存储管理单元140用于将拆分执行子件存储至目标存储空间并建立对应的动态存储指针,所述动态存储指针与拆分执行子件的动态存储策略对应,所述动态存储策略用于改变拆分执行子件在目标存储空间的存储位置。
所述子件关联模块200用于根据拆分执行子件的关系以建立文件索引网络,并根据文件索引网络中拆分执行子件的关系为不同的拆分执行子件配置索引戳记;所述子件关联模块200还包括原始关联单元210、第一加密单元220、第二加密单元230以及密钥发送单元240,所述原始关联单元210关联有本地公示数据库211,所述本地公示数据库211存储有本地公示文件,所述原始关联单元210用于根据拆分执行子件解析相关的本地公示文件,并根据本地公示文件生成公示加密因子,第一加密单元220通过预设的第一公示加密算法根据公示加密因子加密索引戳记以生成原始比对密钥,第二加密单元230通过预设的第二公示加密算法根据公示加密因子加密路由信息以生成本地验证密钥,第一公示加密算法以及第二公示加密算法可以配置为哈希加密算法;所述密钥发送单元240用于将原始比对密钥发送至对应的用户终端以及将本地验证密钥发送至验证终端;首先文件索引网络的目的为了是实现所有文件的链条化,对于出自同一原始文件的所有拆分执行子件都在文件索引网络中存在关系,这样例如对一个文件进行修改,等于对全链条的文件形成反馈,高效协同,提高处理效率,需要说明的是,本发明与外部文件管理平台不同之处在于,发明的软件服务于内网,且旨在每个终端存储的文件不同,但是协同平台一般是缓存相同的文件,从而进行协同。本发明还包括协同管理模块,所述协同管理模块用于响应协同管理指令,协同管理指令包括文件的修改、添加、删除等动作,则将修改内容作为一个原始文件生成对应的拆分执行子件,从而进行重新判断和分发,而这个加密的文件根据文件索引网络附着到对应的拆分加密子件,这样解密时会直接解密拆分加密子件从而形成修改后的文件。
所述子件加密模块300用于加密对应的拆分执行子件以生成拆分加密子件,并将拆分加密子件发送至对应的用户终端;所述子件加密模块300包括因子索引单元310、嵌套加密单元320、子件分裂单元330、逐层关联单元340、逐层分发单元350以及分布管理单元360,所述因子索引单元310根据拆分执行子件于文件索引网络的关联关系生成嵌套因子,所述嵌套加密单元320根据嵌套因子加密拆分执行子件以生成拆分加密子件和对应的嵌套密钥。嵌套密钥的目的是提高上级加密的安全性,只有获取到对应的终端的路由信息以及关联信息,才能生成对应的嵌套因子,进行解密动作。所述子件分裂单元330根据预设的子件分裂条件对拆分加密子件进行分裂以获得多个拆分加密子件,所述逐层关联单元340根据文件索引网络确定每一拆分加密子件的分发层级,并根据分发层级关系使每一拆分加密子件至少关联一上一层级的拆分加密子件;所述逐层分发单元350用于根据分发层级将拆分加密子件发送至对应的用户终端存储,所述分布管理单元360用于将嵌套密钥发送至目标用户终端。通过多个子件分级存储的方式,可以保证文件的非系统原因的丢失和修改,只能通过内网的具有权限的终端以及具有权限的用户身份验证后,通过文件索引网络进行统一编辑,还可以保证编辑内容是可溯源的。所述拆分加密子件还包括动态转发条件,当动态转发条件被满足时,所述拆分加密子件被转发至同一分发层级的另一用户终端,具有关联关系的拆分加密子件的动态转发条件相互对应以使拆分加密子件的路由关系不变。保证存储位置不固定,提高数据安全性。同时通过动态转发条件实现路由的动态映射,其原理是先获取整个系统配置的存储空间以及存储空间的关系,建立一个存储空间首地址的映射函数,也就是即使某文件被转发了,所有文件的绝对位置发生变化,但是相对位置仍然不会发生改变。动态转发条件可以是达到某一时刻视为触发动态转发条件,也可以是对应终端的某一被监测量达到阈值时视为触发动态转发条件。
所述文件索引模块400用于根据拆分加密子件的索引戳记调取其他的拆分加密子件。所述文件索引模块400配置有许可生成单元410、原始验证单元420以及指针调取单元430,所述本地公示数据库211与原始验证单元420建立有唯一比对接口,所述许可生成单元410单元根据索引戳记生成本地许可请求至预设的验证终端,所述验证终端根据本地许可请求的内容生成对应的本地验证密钥,所述原始验证单元420根据原始比对密钥以及本地验证密钥分别从本地公示数据库211中获取原始比对数据以及许可比对数据,并根据原始比对数据以及许可比对数据生成比对结果,当所述比对结果为通过时,所述指针调取单元430调取索引戳记对应的动态存储指针发送至对应的用户终端。另外一般政务系统都具有公示文件,利用公示文件这一公开信息作为加密因子,保证加密源的一致性,同时比对过程是通过唯一接口及对内部数据库进行访问从而比对的,所以必须通过公示比对的方式,提高可靠性和安全性。
当然,以上只是本发明的典型实例,除此之外,本发明还可以有其它多种具体实施方式,凡采用等同替换或等效变换形成的技术方案,均落在本发明要求保护的范围之内。

Claims (8)

1.一种动态分级数据拆分系统,其特征在于:包括文件拆分模块、子件关联模块、子件加密模块、文件索引模块;
所述文件拆分模块包括拆分匹配单元、策略调取单元、拆分执行单元;
所述拆分匹配单元预先配置有用户特征数据库,所述用户特征数据库预先根据用户信息配置每一用户的用户关联特征,所述用户信息之间根据用户关联数据进行关联,所述拆分匹配单元根据原始文件所在的用户信息为索引从用户特征数据库中调取对应的用户关联特征;
所述策略调取单元预先配置有拆分策略库,所述拆分策略库存储有若干拆分策略,每一拆分策略包含若干拆分条件,不同的拆分策略对应的拆分条件不同,所述拆分策略以所述用户关联特征为索引,所述策略调取单元根据用户关联特征调取对应的拆分策略;
拆分执行单元预先配置有文件拆分模型,所述文件拆分模型通过语义识别算法将原始文件进行划分以得到若干拆分子语段,并将拆分子语段与对应的拆分条件进行匹配以计算每一拆分子语段的拆分相关值以及拆分涉密值,将拆分相关值和拆分涉密值均符合拆分策略要求的拆分子语段进行组合以形成该用户信息对应的拆分执行子件;
所述子件关联模块用于根据拆分执行子件的关系以建立文件索引网络,并根据文件索引网络中拆分执行子件的关系为不同的拆分执行子件配置索引戳记;
所述子件加密模块用于加密对应的拆分执行子件以生成拆分加密子件,并将拆分加密子件发送至对应的用户终端;
所述文件索引模块用于根据拆分加密子件的索引戳记调取其他的拆分加密子件;
所述拆分执行单元配置有拆分相关子策略用于计算所述拆分相关值,所述拆分执行单元配置有关键词特征库,所述关键词特征库存储有若干特征关键词,每一特征关键词对应不同的用户关联特征有不同的关键相关值,特征关键词之间预先关联有相关值乘数;所述拆分相关子策略包括:
步骤A1、通过用户关联特征对特征关键词进行初筛;
步骤A2、识别拆分子语段中的特征关键词以获得对应的关键相关值;
步骤A3、若识别得到的特征关键词具有关联,则获取对应的相关值乘数;
步骤A4、计算得到拆分相关值,采用如下公式计算:,其中/>为拆分相关值,/>为第1组相关特征关键词对应的相关值乘数,/>为第/>组相关的特征关键词对应的相关值乘数,/>为相关的特征关键词的总组数,/>为第/>个特征关键词对应的关键相关值,/>为特征关键词的总数,/>为求乘函数;
所述拆分执行单元配置有拆分涉密子策略用于计算拆分涉密值,所述拆分执行单元配置有敏感词特征库,所述敏感词特征库存储有若干特征敏感词,每一特征敏感词对应不同的敏感级数;所述拆分涉密子策略包括:
步骤B1、通过预先录入敏感筛选信息以在对应的敏感级数范围内配置特征敏感词的敏感值;
步骤B2、识别拆分子语段中的特征敏感词以获得对应的敏感值;
步骤B3、累加所述敏感值以生成对应的拆分涉密值。
2.如权利要求1所述的一种动态分级数据拆分系统,其特征在于:所述文件拆分模块还包括存储管理单元,所述存储管理单元用于将拆分执行子件存储至目标存储空间并建立对应的动态存储指针,所述动态存储指针与拆分执行子件的动态存储策略对应,所述动态存储策略用于改变拆分执行子件在目标存储空间的存储位置。
3.如权利要求2所述的一种动态分级数据拆分系统,其特征在于:所述子件关联模块包括原始关联单元、第一加密单元、第二加密单元以及密钥发送单元,所述原始关联单元关联有本地公示数据库,所述本地公示数据库存储有本地公示文件,所述原始关联单元用于根据拆分执行子件解析相关的本地公示文件,并根据本地公示文件生成公示加密因子,第一加密单元通过预设的第一公示加密算法根据公示加密因子加密索引戳记以生成原始比对密钥,第二加密单元通过预设的第二公示加密算法根据公示加密因子加密路由信息以生成本地验证密钥,所述密钥发送单元用于将原始比对密钥发送至对应的用户终端以及将本地验证密钥发送至验证终端。
4.如权利要求3所述的一种动态分级数据拆分系统,其特征在于:
所述文件索引模块配置有许可生成单元、原始验证单元以及指针调取单元,所述本地公示数据库与原始验证单元建立有唯一比对接口,所述许可生成单元根据索引戳记生成本地许可请求至预设的验证终端,所述验证终端根据本地许可请求的内容生成对应的本地验证密钥,所述原始验证单元根据原始比对密钥以及本地验证密钥分别从本地公示数据库中获取原始比对数据以及许可比对数据,并根据原始比对数据以及许可比对数据生成比对结果,当所述比对结果为通过时,所述指针调取单元调取索引戳记对应的动态存储指针发送至对应的用户终端。
5.如权利要求1所述的一种动态分级数据拆分系统,其特征在于:所述子件加密模块包括因子索引单元以及嵌套加密单元,所述因子索引单元根据拆分执行子件于文件索引网络的关联关系生成嵌套因子,所述嵌套加密单元根据嵌套因子加密拆分执行子件以生成拆分加密子件和对应的嵌套密钥。
6.如权利要求5所述的一种动态分级数据拆分系统,其特征在于:所述子件加密模块还包括子件分裂单元、逐层关联单元、逐层分发单元以及分布管理单元;所述子件分裂单元根据预设的子件分裂条件对拆分加密子件进行分裂以获得多个拆分加密子件,所述逐层关联单元根据文件索引网络确定每一拆分加密子件的分发层级,并根据分发层级关系使每一拆分加密子件至少关联一上一层级的拆分加密子件;所述逐层分发单元用于根据分发层级将拆分加密子件发送至对应的用户终端存储,所述分布管理单元用于将嵌套密钥发送至目标用户终端。
7.如权利要求6所述的一种动态分级数据拆分系统,其特征在于:所述拆分加密子件还包括动态转发条件,当动态转发条件被满足时,所述拆分加密子件被转发至同一分发层级的另一用户终端,具有关联关系的拆分加密子件的动态转发条件相互对应以使拆分加密子件的路由关系不变;动态转发条件为达到某一时刻视为触发动态转发条件或对应终端的某一被监测量达到阈值时视为触发动态转发条件。
8.如权利要求1所述的一种动态分级数据拆分系统,其特征在于:还包括模型训练模块,所述模型训练模块配置有模型训练策略用于训练所述文件拆分模型,所述模型训练策略包括
步骤S1、获取历史文件样本;
步骤S2、通过预设的划分触发条件以对历史文件样本进行划分生成样本拆分语句;
步骤S3、通过预设的划分关联算法计算样本拆分语句之间的划分关联值;
步骤S4、将划分关联值大于预设的划分基准的样本拆分语句合并为样本拆分子语段;
步骤S5、将样本拆分子语段和已知的基准拆分子语段进行比对以生成偏差信息;
步骤S6、通过偏差信息修正划分关联算法中的参数以使样本拆分子语段的划分与基准拆分子语段趋于一致。
CN202410309478.6A 2024-03-19 2024-03-19 一种动态分级数据拆分系统 Active CN117909299B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410309478.6A CN117909299B (zh) 2024-03-19 2024-03-19 一种动态分级数据拆分系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410309478.6A CN117909299B (zh) 2024-03-19 2024-03-19 一种动态分级数据拆分系统

Publications (2)

Publication Number Publication Date
CN117909299A CN117909299A (zh) 2024-04-19
CN117909299B true CN117909299B (zh) 2024-05-10

Family

ID=90685461

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410309478.6A Active CN117909299B (zh) 2024-03-19 2024-03-19 一种动态分级数据拆分系统

Country Status (1)

Country Link
CN (1) CN117909299B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101490682A (zh) * 2006-07-17 2009-07-22 皇家飞利浦电子股份有限公司 确定外界参数集
CN101572762A (zh) * 2009-02-25 2009-11-04 南京联创科技股份有限公司 基于统计的存储管理和快速索引实现海量话单合并的方法
JP2013196212A (ja) * 2012-03-16 2013-09-30 Fujitsu Ltd 文書分割装置、文書分割プログラムおよび文書分割方法
CN109388952A (zh) * 2017-08-09 2019-02-26 普天信息技术有限公司 一种涉密文件和密级标识绑定的方法和装置
CN112818061A (zh) * 2021-02-02 2021-05-18 中国工商银行股份有限公司 非结构化数据存储方法及区块链系统
CN116303297A (zh) * 2023-05-25 2023-06-23 深圳市东信时代信息技术有限公司 文件压缩处理方法、装置、设备及介质
CN117472854A (zh) * 2023-10-30 2024-01-30 苏州沙咖智能科技有限公司 一种加速批量文件搜索模型

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190108276A1 (en) * 2017-10-10 2019-04-11 NEGENTROPICS Mesterséges Intelligencia Kutató és Fejlesztõ Kft Methods and system for semantic search in large databases
US20190236102A1 (en) * 2018-01-29 2019-08-01 Planet Data Solutions System and method for differential document analysis and storage

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101490682A (zh) * 2006-07-17 2009-07-22 皇家飞利浦电子股份有限公司 确定外界参数集
CN101572762A (zh) * 2009-02-25 2009-11-04 南京联创科技股份有限公司 基于统计的存储管理和快速索引实现海量话单合并的方法
JP2013196212A (ja) * 2012-03-16 2013-09-30 Fujitsu Ltd 文書分割装置、文書分割プログラムおよび文書分割方法
CN109388952A (zh) * 2017-08-09 2019-02-26 普天信息技术有限公司 一种涉密文件和密级标识绑定的方法和装置
CN112818061A (zh) * 2021-02-02 2021-05-18 中国工商银行股份有限公司 非结构化数据存储方法及区块链系统
CN116303297A (zh) * 2023-05-25 2023-06-23 深圳市东信时代信息技术有限公司 文件压缩处理方法、装置、设备及介质
CN117472854A (zh) * 2023-10-30 2024-01-30 苏州沙咖智能科技有限公司 一种加速批量文件搜索模型

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
H.264熵编码与环路滤波算法的优化与实现;胡卉颖;《中国优秀硕士学位论文全文数据库 信息科技辑》;20071215(第06期);I135-217 *
Kee Sung Kim 等.Forward Secure Dynamic Searchable Symmetric Encryption with Efficient Updates.《CCS'17:Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security》.2017,1449-1463. *
云环境下语义感知多关键词密文检索技术研究;胡正;《中国优秀硕士学位论文全文数据库 信息科技辑》;20230215(第02期);I138-402 *
基于Raft协议的分布式存储系统的设计与实现;徐辉;《万方数据》;20231002;1-89 *
基于任务的海量保险数据处理系统设计与实现;程辙;《中国优秀硕士学位论文全文数据库 信息科技辑》;20161015(第10期);I138-171 *

Also Published As

Publication number Publication date
CN117909299A (zh) 2024-04-19

Similar Documents

Publication Publication Date Title
US20210328804A1 (en) Artificial Intelligence Modifying Federated Learning Models
Chen et al. An efficient privacy-preserving ranked keyword search method
US11782911B1 (en) Systems and methods for cryptographically-secure queries using filters generated by multiple parties
Miao et al. Hybrid keyword-field search with efficient key management for industrial internet of things
US7716206B2 (en) Communication networks and methods and computer program products for performing searches thereon while maintaining user privacy
CN112800088A (zh) 基于双向安全索引的数据库密文检索系统及方法
US7930560B2 (en) Personal information management system, personal information management program, and personal information protecting method
US7152693B2 (en) Password security utility
US9946720B1 (en) Searching data files using a key map
US20200042497A1 (en) Distributed ledger system
US20220209945A1 (en) Method and device for storing encrypted data
Li et al. Privacy and integrity preserving top-$ k $ query processing for two-tiered sensor networks
CN110851848B (zh) 对称可搜索加密的隐私保护方法
CN110191129B (zh) 一种信息中心网络中的内容命名认证系统
Li et al. Multi-keyword fuzzy search over encrypted cloud storage data
Kabir et al. A dynamic searchable encryption scheme for secure cloud server operation reserving multi-keyword ranked search
Zhang et al. Backward private dynamic searchable encryption with update pattern
CN117909299B (zh) 一种动态分级数据拆分系统
WO2018080857A1 (en) Systems and methods for creating, storing, and analyzing secure data
Sui et al. An encrypted database with enforced access control and blockchain validation
Zhang et al. Efficient searchable symmetric encryption supporting dynamic multikeyword ranked search
Raghavendra et al. DRSMS: Domain and range specific multi-keyword search over encrypted cloud data
CN113609077A (zh) 一种文件检索方法、系统、存储介质及设备
US11138275B1 (en) Systems and methods for filter conversion
Rattan et al. Survey on Secure Encrypted Data with Authorized De-duplication

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant