CN116089620A - 一种电子档案数据管理方法和系统 - Google Patents

一种电子档案数据管理方法和系统 Download PDF

Info

Publication number
CN116089620A
CN116089620A CN202310361320.9A CN202310361320A CN116089620A CN 116089620 A CN116089620 A CN 116089620A CN 202310361320 A CN202310361320 A CN 202310361320A CN 116089620 A CN116089620 A CN 116089620A
Authority
CN
China
Prior art keywords
keyword
electronic
keywords
data
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310361320.9A
Other languages
English (en)
Other versions
CN116089620B (zh
Inventor
张国豹
孙艳芬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rizhao Lanou Information Technology Co ltd
Original Assignee
Rizhao Lanou Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rizhao Lanou Information Technology Co ltd filed Critical Rizhao Lanou Information Technology Co ltd
Priority to CN202310361320.9A priority Critical patent/CN116089620B/zh
Publication of CN116089620A publication Critical patent/CN116089620A/zh
Application granted granted Critical
Publication of CN116089620B publication Critical patent/CN116089620B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Storage Device Security (AREA)

Abstract

本发明适用于电数字数据处理技术领域,尤其涉及一种电子档案数据管理方法和系统,所述方法包括:获取待存储电子档案,构建档案关键词数据库;按照预设的分类关键词对待存储电子档案进行分类,得到多组分类电子档案数据集;进行关键字提取,并对提取到的关键字进行数字化处理,得到关键字数字数据;基于关键字数字数据进行关键字数据函数模拟,生成多个拟合函数,对分类电子档案数据集进行文本替换,并将其与拟合函数进行存储。本发明通过对电子档案进行内容识别,按照预设类型提取其中包含的关键字,对其中包含的涉及隐私的关键词进行替换,并通过函数拟合的方式记录上述关键词,实现对电子档案进行加密的效果,保证了电子档案存储的安全性。

Description

一种电子档案数据管理方法和系统
技术领域
本发明属于电数字数据处理技术领域,尤其涉及一种电子档案数据管理方法和系统。
背景技术
电子档案,是指通过计算机磁盘等设备进行存储,与纸质档案相对应,相互关联的通用电子图像文件集合,通常以案卷为单位。
在当前的企业中,对每个员工均设置有对应的电子档案,电子档案中记录有各个员工的相关信息,其中就包含涉及到用户隐私的内容,而在存储时,上述电子档案一般是直接存储,存在泄漏的风险。
发明内容
本发明实施例的目的在于提供一种电子档案数据管理方法,旨在解决在存储时,电子档案一般是直接存储,存在泄漏的风险的问题。
本发明实施例是这样实现的,一种电子档案数据管理方法,所述方法包括:
获取待存储电子档案,构建档案关键词数据库;
按照预设的分类关键词对待存储电子档案进行分类,得到多组分类电子档案数据集,所述分类电子档案数据集中包含多个同类型的待存储电子档案;
对分类电子档案数据集中的分类电子档案数据集进行关键字提取,并对提取到的关键字进行数字化处理,得到关键字数字数据;
基于关键字数字数据进行关键字数据函数模拟,生成多个拟合函数,对分类电子档案数据集进行文本替换,并将其与拟合函数进行存储。
优选的,所述按照预设的分类关键词对待存储电子档案进行分类,得到多组分类电子档案数据集的步骤,具体包括:
调取预设的随机函数,基于随机函数生成一组随机数,基于随机数从档案关键词数据库中调取一组预设的分类关键词;
基于分类关键词对待存储电子档案进行检索,确定各个待存储电子档案中包含的关键字数量;
基于关键字数量确定各个待存储电子档案的分类,得到多组分类电子档案数据集。
优选的,所述对分类电子档案数据集中的分类电子档案数据集进行关键字提取,并对提取到的关键字进行数字化处理,得到关键字数字数据的步骤,具体包括:
基于预设的待提取关键字类型进行提取,得到多组特征关键字;
基于特征关键字的内容进行识别,判定各个特征关键字是否为数字;
对不为数字的特征关键字进行内容转换和数字化处理,得到关键字数字数据。
优选的,所述基于关键字数字数据进行关键字数据函数模拟,生成多个拟合函数,对分类电子档案数据集进行文本替换,并将其与拟合函数进行存储的步骤,具体包括:
为每一个待存储电子档案进行编号,基于编号和关键字数字数据生成坐标集;
基于坐标集进行函数拟合,生成多个拟合函数,对拟合函数进行精度校核;
根据各个关键字数字数据对应的关键字内容进行替换,得到已加密文本,将已加密文本与拟合函数进行独立存储。
优选的,所述拟合函数在存储时,对其进行加密。
优选的,所述档案关键词数据库内至少包含姓名关键字、职位关键字、项目关键字、联系方式关键字和家庭住址关键字。
本发明实施例的另一目的在于提供一种电子档案数据管理系统,所述系统包括:
电子档案获取模块,用于获取待存储电子档案,构建档案关键词数据库;
电子档案分类模块,用于按照预设的分类关键词对待存储电子档案进行分类,得到多组分类电子档案数据集,所述分类电子档案数据集中包含多个同类型的待存储电子档案;
关键字处理模块,用于对分类电子档案数据集中的分类电子档案数据集进行关键字提取,并对提取到的关键字进行数字化处理,得到关键字数字数据;
电子档案加密模块,用于基于关键字数字数据进行关键字数据函数模拟,生成多个拟合函数,对分类电子档案数据集进行文本替换,并将其与拟合函数进行存储。
优选的,所述电子档案分类模块包括:
关键词调取单元,用于调取预设的随机函数,基于随机函数生成一组随机数,基于随机数从档案关键词数据库中调取一组预设的分类关键词;
电子档案检索单元,用于基于分类关键词对待存储电子档案进行检索,确定各个待存储电子档案中包含的关键字数量;
电子档案分组单元,用于基于关键字数量确定各个待存储电子档案的分类,得到多组分类电子档案数据集。
优选的,所述关键字处理模块包括:
关键字提取单元,用于基于预设的待提取关键字类型进行提取,得到多组特征关键字;
关键字识别单元,用于基于特征关键字的内容进行识别,判定各个特征关键字是否为数字;
数据转化模块,用于对不为数字的特征关键字进行内容转换和数字化处理,得到关键字数字数据。
优选的,所述电子档案加密模块包括:
坐标集构建单元,用于为每一个待存储电子档案进行编号,基于编号和关键字数字数据生成坐标集;
函数拟合单元,用于基于坐标集进行函数拟合,生成多个拟合函数,对拟合函数进行精度校核;
数据存储单元,用于根据各个关键字数字数据对应的关键字内容进行替换,得到已加密文本,将已加密文本与拟合函数进行独立存储。
本发明实施例提供的一种电子档案数据管理方法,通过对电子档案进行内容识别,按照预设类型提取其中包含的关键字,对其中包含的涉及隐私的关键词进行替换,并通过函数拟合的方式记录上述关键词,实现对电子档案进行加密的效果,保证了电子档案存储的安全性。
附图说明
图1为本发明实施例提供的一种电子档案数据管理方法的流程图;
图2为本发明实施例提供的按照预设的分类关键词对待存储电子档案进行分类,得到多组分类电子档案数据集的步骤的流程图;
图3为本发明实施例提供的对分类电子档案数据集中的分类电子档案数据集进行关键字提取,并对提取到的关键字进行数字化处理,得到关键字数字数据的步骤的流程图;
图4为本发明实施例提供的基于关键字数字数据进行关键字数据函数模拟,生成多个拟合函数,对分类电子档案数据集进行文本替换,并将其与拟合函数进行存储的步骤的流程图;
图5为本发明实施例提供的一种电子档案数据管理系统的架构图;
图6为本发明实施例提供的一种电子档案分类模块的架构图;
图7为本发明实施例提供的一种关键字处理模块的架构图;
图8为本发明实施例提供的一种电子档案加密模块的架构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,为本发明实施例提供的一种电子档案数据管理方法的流程图,所述方法包括:
S100,获取待存储电子档案,构建档案关键词数据库。
在本步骤中,获取待存储电子档案,所述待存储电子档案为企业内各个员工的个人档案,其中包含了员工的个人信息,如姓名、职位、项目、联系方式和家庭住址等涉及隐私的信息,当然,隐私范围可以根据企业的需求进行设定,如将具体的项目内容等信息也纳入到隐私信息的范畴,并构建档案关键词数据库,在档案关键词数据库中,记录有职位关键字、项目关键字等,职位关键字可以包括技术员、网络管理员、出纳员、经理等具体的职位。
S200,按照预设的分类关键词对待存储电子档案进行分类,得到多组分类电子档案数据集,所述分类电子档案数据集中包含多个同类型的待存储电子档案。
在本步骤中,按照预设的分类关键词对待存储电子档案进行分类,通过随机的方式从档案关键词数据库中调取多个关键字,即分类关键词,基于分类关键词对待存储电子档案进行分类处理,从而将待存储电子档案划分为多个类型,得到多个分类电子档案数据集,在每一个分类电子档案数据集中包含多个同类型的待存储电子档案,具体的,可以按照职位关键字进行分类,如划分后,得到十个技术员的档案、十个网络管理员的档案以及十个出纳员的档案。
S300,对分类电子档案数据集中的分类电子档案数据集进行关键字提取,并对提取到的关键字进行数字化处理,得到关键字数字数据。
在本步骤中,对分类电子档案数据集中的分类电子档案数据集进行关键字提取,具体的,提取预设的涉及隐私的项目关键字,如姓名关键字、职位关键字、项目关键字、联系方式关键字和家庭住址关键字等,具体的,提取其中包含的具体内容,得到了多个关键字,为了便于进行管理和替换,对关键字进行内容数字化处理,将其中包含的内容用数字进行表示,以得到关键字数字数据。
S400,基于关键字数字数据进行关键字数据函数模拟,生成多个拟合函数,对分类电子档案数据集进行文本替换,并将其与拟合函数进行存储。
在本步骤中,基于关键字数字数据进行关键字数据函数模拟,在得到关键字数字数据之后,为每一个待存储电子档案进行编号处理,以待存储电子档案的编号为横坐标,以关键字数字数据为纵坐标,构建数据集,以该数据集进行函数拟合,从而为每一类关键字生成一组拟合函数,生成拟合函数之后,以预设的字符对对应关键字进行替换,从而形成加密后的电子档案,将拟合函数与加密后的电子档案进行独立存储,以保证数据的安全性。
在本实施例中,对于拟合函数的类型并不做限定,具体的,可以理解为,数据集即为坐标集,坐标集中包含多个坐标,在二维坐标系中将各个坐标标记出来,只要拟合函数对应的曲线能够穿过上述所有坐标点即可,如对于(0,1)和(1,1)两个坐标点,拟合无论是y=x还是y=x2均可,也可以是更加复杂的指数函数,幂函数,而根据点集进行函数的拟合均为现有技术,如通过matlab进行拟合,此处不再赘述。
如图2所示,作为本发明的一个优选实施例,所述按照预设的分类关键词对待存储电子档案进行分类,得到多组分类电子档案数据集的步骤,具体包括:
S201,调取预设的随机函数,基于随机函数生成一组随机数,基于随机数从档案关键词数据库中调取一组预设的分类关键词。
在本步骤中,调取预设的随机函数,具体的,可以通过随机函数直接生成数值,如生成数字A,在本地预设有多个数字,每一个数字对应有一组分类关键词,如数字1对应项目关键字,数字2对应职位关键字等,根据数字A来确定对应的分类关键词;若不采用随机函数,也可以预设一组函数,如简单的公式,y=x+3,在需要生成随机数时,获取当前的时间,将时间作为自变量代入到该公式中,得到一个数值,该数值即为随机数,并基于该随机数确定对应的分类关键词。
S202,基于分类关键词对待存储电子档案进行检索,确定各个待存储电子档案中包含的关键字数量。
在本步骤中,基于分类关键词对待存储电子档案进行检索,在每一个待存储电子档案中均记录了大量的数据,其中就包含了各个关键字,在部分待存储电子档案中可能包含了多个关键字,如包含多个职位或者多个部门,则将其均作为对应的关键字,确定各个待存储电子档案中包含的关键字数量。
S203,基于关键字数量确定各个待存储电子档案的分类,得到多组分类电子档案数据集。
在本步骤中,基于关键字数量确定各个待存储电子档案的分类,根据关键字的上下级关系来确定待存储电子档案的分类,如某个待存储电子档案包含经理和副经理两个职位关键字,则以上级来替换下级,即将其划分之经理这一级别,根据关键字进行分类,得到多组分类电子档案数据集,每一个分类电子档案数据集中包含有多个待存储电子档案。
如图3所示,作为本发明的一个优选实施例,所述对分类电子档案数据集中的分类电子档案数据集进行关键字提取,并对提取到的关键字进行数字化处理,得到关键字数字数据的步骤,具体包括:
S301,基于预设的待提取关键字类型进行提取,得到多组特征关键字。
在本步骤中,基于预设的待提取关键字类型进行提取,待提取关键字类型与企业设置的与涉及隐私的项目相同,如企业认为姓名、职位、项目、联系方式和家庭住址等信息涉及员工隐私,则对上述内容进行提取,得到特征关键字。
S302,基于特征关键字的内容进行识别,判定各个特征关键字是否为数字。
在本步骤中,基于特征关键字的内容进行识别,通过识别判定上述特征关键字是否为数字,如年龄、工龄等数据均为数字,而姓名、岗位等信息均为非数字数据。
S303,对不为数字的特征关键字进行内容转换和数字化处理,得到关键字数字数据。
在本步骤中,对不为数字的特征关键字进行内容转换和数字化处理,首先对不为数字的特征关键字进行进制转换,将其数据转化为二进制,然后转化为十进制,此时其就可以通过十进制进行表示,实现数字化转换,如将姓名以二进制表示,进而将其转化为十进制,则可以通过一个十进制的数字来表示其名字,得到关键字数字数据。
如图4所示,作为本发明的一个优选实施例,所述基于关键字数字数据进行关键字数据函数模拟,生成多个拟合函数,对分类电子档案数据集进行文本替换,并将其与拟合函数进行存储的步骤,具体包括:
S401,为每一个待存储电子档案进行编号,基于编号和关键字数字数据生成坐标集。
在本步骤中,为每一个待存储电子档案进行编号,随机将所有待存储电子档案进行打乱,然后根据打乱后的待存储电子档案进行连续编号,由于已经进行过分类,那么每一个类别的待存储电子档案集中包含的待存储电子档案的编号都是随机的,以一个包含十个待存储电子档案的待存储电子档案数据集来举例说明,十个待存储电子档案的编号分别为A1-A10,每个待存储电子档案对应有i个类型的关键字数字数据(如职位、工作地点、联系方式),那么编号为i的待存储电子档案中对应的第j类关键字数字数据为Bij,那么待存储电子档案对应的坐标集为(Ai,Bij)。
S402,基于坐标集进行函数拟合,生成多个拟合函数,对拟合函数进行精度校核。
在本步骤中,基于坐标集进行函数拟合,每次提取多个待存储电子档案对应的同一类型的关键字数字数据对应的坐标,如多个待存储电子档案中第三类关键字数字数据(Ai,Bi3),将其数值进行拟合,得到拟合函数,据此,可以对所有类型的关键字数字数据进行拟合,从而得到j个拟合函数,而待存储电子档案集有m组,总得拟合函数数量则为j*m,对拟合函数进行精度校核,使得将Ai代入对应的拟合函数,能够得到对应的Bij
S403,根据各个关键字数字数据对应的关键字内容进行替换,得到已加密文本,将已加密文本与拟合函数进行独立存储。
在本步骤中,根据各个关键字数字数据对应的关键字内容进行替换,对于已经通过拟合函数进行表达的数据,则将其以预设的符号进行替换,如以“*”替换对应的员工姓名,将加密文本与拟合函数进行独立存储;在进行解密时,为了获取某个被加密的数据,则调取对应的拟合函数,将对应的坐标代入到拟合函数中,即可得到一个十进制数字,将十进制数字转化为二进制数据,根据二进制数据即可恢复原始数据,其实质就是进行加密过程的逆变换。
如图5所示,为本发明实施例提供的一种电子档案数据管理系统,所述系统包括:
电子档案获取模块100,用于获取待存储电子档案,构建档案关键词数据库。
在本系统中,电子档案获取模块100获取待存储电子档案,所述待存储电子档案为企业内各个员工的个人档案,其中包含了员工的个人信息,如姓名、职位、项目、联系方式和家庭住址等涉及隐私的信息,当然,隐私范围可以根据企业的需求进行设定,如将具体的项目内容等信息也纳入到隐私信息的范畴,并构建档案关键词数据库,在档案关键词数据库中,记录有职位关键字、项目关键字等,职位关键字可以包括技术员、网络管理员、出纳员、经理等具体的职位。
电子档案分类模块200,用于按照预设的分类关键词对待存储电子档案进行分类,得到多组分类电子档案数据集,所述分类电子档案数据集中包含多个同类型的待存储电子档案。
在本系统中,电子档案分类模块200按照预设的分类关键词对待存储电子档案进行分类,通过随机的方式从档案关键词数据库中调取多个关键字,即分类关键词,基于分类关键词对待存储电子档案进行分类处理,从而将待存储电子档案划分为多个类型,得到多个分类电子档案数据集,在每一个分类电子档案数据集中包含多个同类型的待存储电子档案,具体的,可以按照职位关键字进行分类,如划分后,得到十个技术员的档案、十个网络管理员的档案以及十个出纳员的档案。
关键字处理模块300,用于对分类电子档案数据集中的分类电子档案数据集进行关键字提取,并对提取到的关键字进行数字化处理,得到关键字数字数据。
在本系统中,关键字处理模块300对分类电子档案数据集中的分类电子档案数据集进行关键字提取,具体的,提取预设的涉及隐私的项目关键字,如姓名关键字、职位关键字、项目关键字、联系方式关键字和家庭住址关键字等,具体的,提取其中包含的具体内容,得到了多个关键字,为了便于进行管理和替换,对关键字进行内容数字化处理,将其中包含的内容用数字进行表示,以得到关键字数字数据。
电子档案加密模块400,用于基于关键字数字数据进行关键字数据函数模拟,生成多个拟合函数,对分类电子档案数据集进行文本替换,并将其与拟合函数进行存储。
在本系统中,电子档案加密模块400基于关键字数字数据进行关键字数据函数模拟,在得到关键字数字数据之后,为每一个待存储电子档案进行编号处理,以待存储电子档案的编号为横坐标,以关键字数字数据为纵坐标,构建数据集,以该数据集进行函数拟合,从而为每一类关键字生成一组拟合函数,生成拟合函数之后,以预设的字符对对应关键字进行替换,从而形成加密后的电子档案,将拟合函数与加密后的电子档案进行独立存储,以保证数据的安全性。
如图6所示,作为本发明的一个优选实施例,所述电子档案分类模块200包括:
关键词调取单元201,用于调取预设的随机函数,基于随机函数生成一组随机数,基于随机数从档案关键词数据库中调取一组预设的分类关键词。
在本模块中,关键词调取单元201调取预设的随机函数,具体的,可以通过随机函数直接生成数值,如生成数字A,在本地预设有多个数字,每一个数字对应有一组分类关键词,如数字1对应项目关键字,数字2对应职位关键字等,根据数字A来确定对应的分类关键词;若不采用随机函数,也可以预设一组函数,如简单的公式,y=x+3,在需要生成随机数时,获取当前的时间,将时间作为自变量代入到该公式中,得到一个数值,该数值即为随机数,并基于该随机数确定对应的分类关键词。
电子档案检索单元202,用于基于分类关键词对待存储电子档案进行检索,确定各个待存储电子档案中包含的关键字数量。
在本模块中,电子档案检索单元202基于分类关键词对待存储电子档案进行检索,在每一个待存储电子档案中均记录了大量的数据,其中就包含了各个关键字,在部分待存储电子档案中可能包含了多个关键字,如包含多个职位或者多个部门,则将其均作为对应的关键字,确定各个待存储电子档案中包含的关键字数量。
电子档案分组单元203,用于基于关键字数量确定各个待存储电子档案的分类,得到多组分类电子档案数据集。
在本模块中,电子档案分组单元203基于关键字数量确定各个待存储电子档案的分类,根据关键字的上下级关系来确定待存储电子档案的分类,如某个待存储电子档案包含经理和副经理两个职位关键字,则以上级来替换下级,即将其划分之经理这一级别,根据关键字进行分类,得到多组分类电子档案数据集,每一个分类电子档案数据集中包含有多个待存储电子档案。
如图7所示,作为本发明的一个优选实施例,所述关键字处理模块300包括:
关键字提取单元301,用于基于预设的待提取关键字类型进行提取,得到多组特征关键字。
在本模块中,关键字提取单元301基于预设的待提取关键字类型进行提取,待提取关键字类型与企业设置的与涉及隐私的项目相同,如企业认为姓名、职位、项目、联系方式和家庭住址等信息涉及员工隐私,则对上述内容进行提取,得到特征关键字。
关键字识别单元302,用于基于特征关键字的内容进行识别,判定各个特征关键字是否为数字。
在本模块中,关键字识别单元302基于特征关键字的内容进行识别,通过识别判定上述特征关键字是否为数字,如年龄、工龄等数据均为数字,而姓名、岗位等信息均为非数字数据。
数据转化模块303,用于对不为数字的特征关键字进行内容转换和数字化处理,得到关键字数字数据。
在本模块中,数据转化模块303对不为数字的特征关键字进行内容转换和数字化处理,首先对不为数字的特征关键字进行进制转换,将其数据转化为二进制,然后转化为十进制,此时其就可以通过十进制进行表示,实现数字化转换,如将姓名以二进制表示,进而将其转化为十进制,则可以通过一个十进制的数字来表示其名字,得到关键字数字数据。
如图8所示,作为本发明的一个优选实施例,所述电子档案加密模块400包括:
坐标集构建单元401,用于为每一个待存储电子档案进行编号,基于编号和关键字数字数据生成坐标集。
在本模块中,坐标集构建单元401为每一个待存储电子档案进行编号,随机将所有待存储电子档案进行打乱,然后根据打乱后的待存储电子档案进行连续编号,由于已经进行过分类,那么每一个类别的待存储电子档案集中包含的待存储电子档案的编号都是随机的,以一个包含十个待存储电子档案的待存储电子档案数据集来举例说明,十个待存储电子档案的编号分别为A1-A10,每个待存储电子档案对应有i个类型的关键字数字数据(如职位、工作地点、联系方式),那么编号为i的待存储电子档案中对应的第j类关键字数字数据为Bij,那么待存储电子档案对应的坐标集为(Ai,Bij)。
函数拟合单元402,用于基于坐标集进行函数拟合,生成多个拟合函数,对拟合函数进行精度校核。
在本模块中,函数拟合单元402基于坐标集进行函数拟合,每次提取多个待存储电子档案对应的同一类型的关键字数字数据对应的坐标,如多个待存储电子档案中第三类关键字数字数据(Ai,Bi3),将其数值进行拟合,得到拟合函数,据此,可以对所有类型的关键字数字数据进行拟合,从而得到j个拟合函数,而待存储电子档案集有m组,总得拟合函数数量则为j*m,对拟合函数进行精度校核,使得将Ai代入对应的拟合函数,能够得到对应的Bij
数据存储单元403,用于根据各个关键字数字数据对应的关键字内容进行替换,得到已加密文本,将已加密文本与拟合函数进行独立存储。
在本模块中,数据存储单元403根据各个关键字数字数据对应的关键字内容进行替换,对于已经通过拟合函数进行表达的数据,则将其以预设的符号进行替换,如以“*”替换对应的员工姓名,将加密文本与拟合函数进行独立存储。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种电子档案数据管理方法,其特征在于,所述方法包括:
获取待存储电子档案,构建档案关键词数据库;
按照预设的分类关键词对待存储电子档案进行分类,得到多组分类电子档案数据集,所述分类电子档案数据集中包含多个同类型的待存储电子档案;
对分类电子档案数据集中的分类电子档案数据集进行关键字提取,并对提取到的关键字进行数字化处理,得到关键字数字数据;
基于关键字数字数据进行关键字数据函数模拟,生成多个拟合函数,对分类电子档案数据集进行文本替换,并将其与拟合函数进行存储。
2.根据权利要求1所述的电子档案数据管理方法,其特征在于,所述按照预设的分类关键词对待存储电子档案进行分类,得到多组分类电子档案数据集的步骤,具体包括:
调取预设的随机函数,基于随机函数生成一组随机数,基于随机数从档案关键词数据库中调取一组预设的分类关键词;
基于分类关键词对待存储电子档案进行检索,确定各个待存储电子档案中包含的关键字数量;
基于关键字数量确定各个待存储电子档案的分类,得到多组分类电子档案数据集。
3.根据权利要求1所述的电子档案数据管理方法,其特征在于,所述对分类电子档案数据集中的分类电子档案数据集进行关键字提取,并对提取到的关键字进行数字化处理,得到关键字数字数据的步骤,具体包括:
基于预设的待提取关键字类型进行提取,得到多组特征关键字;
基于特征关键字的内容进行识别,判定各个特征关键字是否为数字;
对不为数字的特征关键字进行内容转换和数字化处理,得到关键字数字数据。
4.根据权利要求1所述的电子档案数据管理方法,其特征在于,所述基于关键字数字数据进行关键字数据函数模拟,生成多个拟合函数,对分类电子档案数据集进行文本替换,并将其与拟合函数进行存储的步骤,具体包括:
为每一个待存储电子档案进行编号,基于编号和关键字数字数据生成坐标集;
基于坐标集进行函数拟合,生成多个拟合函数,对拟合函数进行精度校核;
根据各个关键字数字数据对应的关键字内容进行替换,得到已加密文本,将已加密文本与拟合函数进行独立存储。
5.根据权利要求1所述的电子档案数据管理方法,其特征在于,所述拟合函数在存储时,对其进行加密。
6.根据权利要求1所述的电子档案数据管理方法,其特征在于,所述档案关键词数据库内至少包含姓名关键字、职位关键字、项目关键字、联系方式关键字和家庭住址关键字。
7.一种电子档案数据管理系统,其特征在于,所述系统包括:
电子档案获取模块,用于获取待存储电子档案,构建档案关键词数据库;
电子档案分类模块,用于按照预设的分类关键词对待存储电子档案进行分类,得到多组分类电子档案数据集,所述分类电子档案数据集中包含多个同类型的待存储电子档案;
关键字处理模块,用于对分类电子档案数据集中的分类电子档案数据集进行关键字提取,并对提取到的关键字进行数字化处理,得到关键字数字数据;
电子档案加密模块,用于基于关键字数字数据进行关键字数据函数模拟,生成多个拟合函数,对分类电子档案数据集进行文本替换,并将其与拟合函数进行存储。
8.根据权利要求7所述的电子档案数据管理系统,其特征在于,所述电子档案分类模块包括:
关键词调取单元,用于调取预设的随机函数,基于随机函数生成一组随机数,基于随机数从档案关键词数据库中调取一组预设的分类关键词;
电子档案检索单元,用于基于分类关键词对待存储电子档案进行检索,确定各个待存储电子档案中包含的关键字数量;
电子档案分组单元,用于基于关键字数量确定各个待存储电子档案的分类,得到多组分类电子档案数据集。
9.根据权利要求7所述的电子档案数据管理系统,其特征在于,所述关键字处理模块包括:
关键字提取单元,用于基于预设的待提取关键字类型进行提取,得到多组特征关键字;
关键字识别单元,用于基于特征关键字的内容进行识别,判定各个特征关键字是否为数字;
数据转化模块,用于对不为数字的特征关键字进行内容转换和数字化处理,得到关键字数字数据。
10.根据权利要求7所述的电子档案数据管理系统,其特征在于,所述电子档案加密模块包括:
坐标集构建单元,用于为每一个待存储电子档案进行编号,基于编号和关键字数字数据生成坐标集;
函数拟合单元,用于基于坐标集进行函数拟合,生成多个拟合函数,对拟合函数进行精度校核;
数据存储单元,用于根据各个关键字数字数据对应的关键字内容进行替换,得到已加密文本,将已加密文本与拟合函数进行独立存储。
CN202310361320.9A 2023-04-07 2023-04-07 一种电子档案数据管理方法和系统 Active CN116089620B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310361320.9A CN116089620B (zh) 2023-04-07 2023-04-07 一种电子档案数据管理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310361320.9A CN116089620B (zh) 2023-04-07 2023-04-07 一种电子档案数据管理方法和系统

Publications (2)

Publication Number Publication Date
CN116089620A true CN116089620A (zh) 2023-05-09
CN116089620B CN116089620B (zh) 2023-06-09

Family

ID=86187223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310361320.9A Active CN116089620B (zh) 2023-04-07 2023-04-07 一种电子档案数据管理方法和系统

Country Status (1)

Country Link
CN (1) CN116089620B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116663549A (zh) * 2023-05-18 2023-08-29 海南科技职业大学 一种基于企业档案的数字化管理方法、系统及存储介质
CN117216217A (zh) * 2023-09-19 2023-12-12 山东汇商脉网络科技有限公司 一种档案智能分类与检索方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191255A (zh) * 2019-08-08 2020-05-22 腾讯科技(深圳)有限公司 信息加密处理的方法、服务器、终端、设备以及存储介质
CN113918710A (zh) * 2020-11-18 2022-01-11 京东科技控股股份有限公司 文本数据处理方法、装置、电子设备和可读存储介质
CN114881035A (zh) * 2022-05-13 2022-08-09 平安科技(深圳)有限公司 训练数据的增广方法、装置、设备和存储介质
CN115017871A (zh) * 2022-06-10 2022-09-06 上海美嘉林软件科技股份有限公司 一种文件档案内容的替换显示方法和显示系统
US20220416995A1 (en) * 2021-06-28 2022-12-29 Duality Technologies, Inc. Accelerated division of homomorphically encrypted data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191255A (zh) * 2019-08-08 2020-05-22 腾讯科技(深圳)有限公司 信息加密处理的方法、服务器、终端、设备以及存储介质
CN113918710A (zh) * 2020-11-18 2022-01-11 京东科技控股股份有限公司 文本数据处理方法、装置、电子设备和可读存储介质
US20220416995A1 (en) * 2021-06-28 2022-12-29 Duality Technologies, Inc. Accelerated division of homomorphically encrypted data
CN114881035A (zh) * 2022-05-13 2022-08-09 平安科技(深圳)有限公司 训练数据的增广方法、装置、设备和存储介质
CN115017871A (zh) * 2022-06-10 2022-09-06 上海美嘉林软件科技股份有限公司 一种文件档案内容的替换显示方法和显示系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HAIWEN WANG ET AL: "Design Study of Two-dimensional Anti-counterfeiting Code Based on Moires Mechanism", 《APPLIED MECHANICS AND MATERIALS》, pages 183 - 186 *
李芳: "基于特征向量的加密图像检索算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, vol. 2022, no. 09, pages 138 - 21 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116663549A (zh) * 2023-05-18 2023-08-29 海南科技职业大学 一种基于企业档案的数字化管理方法、系统及存储介质
CN116663549B (zh) * 2023-05-18 2024-03-19 海南科技职业大学 一种基于企业档案的数字化管理方法、系统及存储介质
CN117216217A (zh) * 2023-09-19 2023-12-12 山东汇商脉网络科技有限公司 一种档案智能分类与检索方法
CN117216217B (zh) * 2023-09-19 2024-03-22 山东汇商脉网络科技有限公司 一种档案智能分类与检索方法

Also Published As

Publication number Publication date
CN116089620B (zh) 2023-06-09

Similar Documents

Publication Publication Date Title
CN116089620B (zh) 一种电子档案数据管理方法和系统
CN110457302B (zh) 一种结构化数据智能清洗方法
US10025904B2 (en) Systems and methods for managing a master patient index including duplicate record detection
US9792289B2 (en) Systems and methods for file clustering, multi-drive forensic analysis and data protection
US20180300494A1 (en) Method of identifying and tracking sensitive data and system thereof
CN113486392B (zh) 一种基于大数据平台的敏感数据识别与脱敏方法
CN112559526A (zh) 数据表导出方法、装置、计算机设备及存储介质
CN114595689A (zh) 数据处理方法、装置、存储介质和计算机设备
CN115687787A (zh) 产业政策目标群画像构建方法、系统及存储介质
EP3301603A1 (en) Improved search for data loss prevention
JP2003196476A (ja) セキュリティポリシーの作成支援システムおよびセキュリティ対策決定支援システム
CN104933096A (zh) 数据库的异常键识别方法、装置与数据系统
EP3929787A1 (en) Detecting sensitive data records using a data format analysis
CN112732937A (zh) 基于知识图谱的隐藏关系获取方法、装置、设备和介质
CN113515637B (zh) 危险废物种类缺失申报的识别方法、装置、计算机设备
CN117112846B (zh) 一种多信息源证照信息管理方法、系统及介质
US11494515B2 (en) Data processing systems and methods for anonymizing data samples in classification analysis
US20220405417A1 (en) Sensitive data classification in non-relational databases
CN117312833B (zh) 一种应用于数字资产环境中的数据识别方法及系统
US11354274B1 (en) System and method for performing data minimization without reading data content
JP2019028788A (ja) 機密語特定装置、機密語特定方法及び機密語特定プログラム
CN113157788B (zh) 大数据挖掘方法及系统
CN112732948B (zh) 身份验证方法、装置及存储介质
CN117034345A (zh) 数据脱敏方法、装置、计算机设备和存储介质
US20240119178A1 (en) Anonymizing personal information for use in assessing fraud risk

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant