CN116719956B - 一种基于大数据的档案分类管理系统和方法 - Google Patents

一种基于大数据的档案分类管理系统和方法 Download PDF

Info

Publication number
CN116719956B
CN116719956B CN202310992275.7A CN202310992275A CN116719956B CN 116719956 B CN116719956 B CN 116719956B CN 202310992275 A CN202310992275 A CN 202310992275A CN 116719956 B CN116719956 B CN 116719956B
Authority
CN
China
Prior art keywords
file
files
word
data
feature points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310992275.7A
Other languages
English (en)
Other versions
CN116719956A (zh
Inventor
杨吉伟
蒋卫星
成昌发
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongguan Tieshi Document Technology Co ltd
Original Assignee
Dongguan Tieshi Document Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongguan Tieshi Document Technology Co ltd filed Critical Dongguan Tieshi Document Technology Co ltd
Priority to CN202310992275.7A priority Critical patent/CN116719956B/zh
Publication of CN116719956A publication Critical patent/CN116719956A/zh
Application granted granted Critical
Publication of CN116719956B publication Critical patent/CN116719956B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/604Tools and structures for managing or administering access control systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Computer Security & Cryptography (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computer Hardware Design (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Automation & Control Theory (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Marketing (AREA)
  • Bioethics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大数据的档案分类管理系统和方法,涉及档案分类技术领域;本发明通过验证档案上传人员的身份信息并赋予其档案上传权限,进而档案上传人员上传档案,根据档案中文字、图像以及视频之间的占比关系,对档案设置数据类型编号并根据三者占比关系对档案进行初次分类,根据档案建立词义特征点、图像特征点以及主题特征集,进而对档案进行特征点提取以及二次分类,并对各个档案设置主题标签,同时对各个档案设置调取密码,且每当存储新的档案时,对其他所有档案的调取密码进行更新,用户根据主题标签检索所需档案,并获取调取密码获得所需档案;进而实现了对档案的自动化分类管理。

Description

一种基于大数据的档案分类管理系统和方法
技术领域
本发明涉及档案分类技术领域,具体是一种基于大数据的档案分类管理系统和方法。
背景技术
随着电子档案的不断发展,其逐渐取代传统纸质档案在各行各业主要使用地位,进而形成以电子档案为主,纸质档案为辅的档案管理手段,档案的无纸化管理成为未来主要应用已是大势所趋;
传统的电子档案管理主要针对单一类型的电子档案进行管理,无法有效的实现同时对多种数据类型的档案进行混合存储以及管理,传统的电子档案会通过文件分别存储在光盘或u盘,无法很好的根据数据类型分类并进行存储,使得档案的查询过程较为费时费力,为此提供一种基于大数据的档案分类管理系统和方法。
发明内容
为了解决上述技术问题,本发明的目的在于提供一种基于大数据的档案分类管理系统和方法。
为了实现上述目的,本发明提供如下技术方案:
一种基于大数据的档案分类管理系统,包括管控中心,所述管控中心通信连接有档案上传模块、档案分类模块、档案管理模块以及档案调取模块;
所述档案上传模块设有身份验证单元以及档案验证单元;
所述身份验证单元用于验证档案上传人员的身份信息,并根据验证结果赋予其档案上传权限;
所述档案验证单元用于根据档案中的数据类型对档案编号设置数据类型标注,并判断档案中是否存在危险数据;
所述档案分类模块用于分析档案并建立词义特征点以及图像特征点,进而对档案进行二次分类;
所述档案管理模块用于对档案设置调取密码,同时根据档案的存储状况自动更新调取密码;
所述档案调取模块用于监管档案调取过程,并生成档案调取记录。
进一步的,所述身份信息的验证过程包括:
档案上传人员通过账户号码和密码向档案上传模块发送登录请求,其中登录请求包括登录时使用的账户号码、密码以及登录请求发送的IP地址;
将登录请求中的账户号码和IP地址与黑名单进行匹配,若匹配账户号码或IP地址任一项有结果,则驳回登录请求,若匹配账户号码或IP地址都无结果,则进一步判断账户号码与密码之间的对应关系是否正确,根据判断结果档案上传人员上传档案。
进一步的,所述档案编号的数据类型标注的设置过程包括:
档案验证单元遍历档案中各项数据的数据类型,设置数据类型占比阈值,对于数据类型占比大于数据类型占比阈值的档案,对其档案编号设置数据类型标注,对于占比小于或等于数据类型占比阈值的数据类型进行自动忽略,根据数据类型的占比在档案的编号第一项开始添加字母,且标注的先后顺序按照档案中对应数据类型占比大小依次进行排列,其中档案的编号在其上传至档案上传模块后自动生成且唯一。
进一步的,所述词义特征点以及图像特征点的建立过程包括:
档案分类模块通过遍历档案中的文字数据并设置关键字频率阈值、词义频率阈值以及词义特征点频率阈值,进而档案分类模块首先统计档案的各个文字的数量,并将数量大于或等于关键字频率阈值的文字保留,将数量小于关键字频率阈值的文字去除;
根据保留的文字统计各个档案的词义数量,其中词义由两个以上的关键字组成,将数量大于或等于词义频率阈值的词义保留,将数量小于词义频率阈值的词义去除,统计所有档案的词义种类以及数量,将数量大于或等于词义特征点频率阈值的词义设为词义特征点,将数量小于词义特征点频率阈值的词义去除;并采用与获得词义特征点相同的方法,获得图像特征点。
进一步的,对所述档案进行二次分类的过程包括:
根据词义特征点和图像特征点设置若干个主题特征集,其中主题特征集由若干个词义特征点、若干个图像特征点以及主题名称组成;
档案分类模块首先通过词义特征点遍历所有档案,设置词义特征点阈值,进而统计所有档案中包含的词义特征点数量,若档案中词义特征点数量小于词义特征点阈值,则判断不包含对应词义特征点,若档案中词义特征点数量大于或等于词义特征点阈值,则判断档案包含对应词义特征点;并采用与词义特征点相同的方法判断档案是或否包含对应的图像特征点;
根据各个档案包含的词义特征点以及图像特征点匹配对应的主题特征集,并根据主题特征集的名称对档案设置主题标签。
进一步的,所述调取密码的自动更新过程包括:
每当有新的档案传输至档案管理模块时,档案管理模块对所有档案当前的调取密码的前两位进行取模随机变换得到随机数,进而得到的一个新的调取密码并将其发送至档案调取模块。
进一步的,所述档案的调取过程包括:
用户通过检索主题标签找寻所选的档案后,需根据所选档案的编号向档案调取模块发送档案调取密码获取请求,档案调取模块根据档案的编号将对应的调取密码发送至用户,进而用户根据调取密码查看档案。
进一步的,所述的一种基于大数据的档案分类管理系统的档案分类管理方法,包括以下步骤:
步骤一,验证档案上传人员的身份信息并赋予其档案上传权限,进而档案上传人员上传档案;
步骤二,根据档案中文字、图像以及视频之间的占比关系,对其设置数据类型编号并根据三者占比关系对档案进行初次分类;
步骤三,根据档案建立词义特征点、图像特征点以及主题特征集,进而对档案进行特征点提取以及二次分类,并对各个档案设置主题标签;
步骤四,对各个档案设置调取密码,且每当存储新的档案时,对其他所有档案的调取密码进行更新;
步骤五,用户根据主题标签检索所需档案,并获取调取密码获得所需档案。
与现有技术相比,本发明的有益效果是:
1、本发明通过统计档案中文字、图像以及视频之间的占比关系对档案进行初步分类,并根据初步分类结果提取词义特征点以及图像特征点对档案进行二次分类,一定程度上提高了档案的分类结果的可信度以及精确度,同时将档案中的文字、图像以及视频统一进行存储,使得档案的查询以及存储过程得到了一定程度上的简化;
2、本发明通过对各个档案设置不同的调取密码,用户需通过申请调取密码才能查看档案,同时设置调取密码自动更新机制,每当新的档案存储时,更新其他所有档案的调取密码,进而提高了档案的安全性和保密性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明的原理图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
如图1所示,一种基于大数据的档案分类管理系统,包括管控中心,所述管控中心通信连接有档案上传模块、档案分类模块、档案管理模块以及档案调取模块;
所述档案上传模块用于验证档案上传人员身份以及对其上传的档案进行类型转化和安全诊断;
所述档案上传模块设有身份验证单元以及档案验证单元;
所述身份验证单元用于验证档案上传人员的身份信息;
所述档案验证单元用于档案中的数据类型对档案编号设置数据类型标注并判断档案中是否存在危险数据;
下面通过实施例说明档案上传模块对档案编号设置数据类型标注以及安全诊断的具体过程:
档案上传人员通过账户号码和密码向档案上传模块发送登录请求,其中登录请求包括登录时使用的账户号码、密码以及登录请求发送的IP地址,档案上传模块将登录请求发送至身份验证单元;
身份验证单元将登录请求中的账户号码和IP地址与黑名单进行匹配,若匹配账户号码或IP地址任一项有结果,则驳回登录请求,若匹配账户号码或IP地址都无结果,则进一步判断账户号码与密码之间的对应关系是否正确,若账户号码与密码之间的对应关系错误,则驳回登录请求,若账户号码与密码之间的对应关系正确,则同意本次登录请求,进而档案上传模块向档案上传人员发送登录请求通过提示;
进一步的,档案上传人员将档案上传至档案上传模块,进而档案上传模块将档案发送至档案验证单元;
档案验证单元遍历档案中各项数据的数据类型,设置数据类型占比阈值,对于数据类型占比大于数据类型占比阈值的档案,对其档案编号设置数据类型标注,对于占比小于或等于数据类型占比阈值的数据类型进行自动忽略,其中数据类型包括文字数据、图像数据、视频数据,根据数据类型的占比在档案的编号第一项开始添加字母,其中文字数据的编号标注为W,图像数据的编号标注为T,视频数据的编号标注为S,且标注的先后顺序按照档案中对应数据类型占比大小依次进行排列,其中档案的编号在其上传至档案上传模块后自动生成且唯一,例如档案的编号为1211,且档案中的三个数据类型占比均大于数据类型占比阈值,其中文件数据占比大于图像数据占比,图像数据占比大于视频数据占比,则档案的编号为WTS1211;
需要说明的是,统计档案内各个数据类型的占比过程包括:
档案验证遍历整个档案,并将档案中的文字数据、图像数据以及视频数据依次分离,通过OCR技术统计文字数据总数w,以及通过机器视觉技术统计图像数据总面积t,将视频数据按帧进行分割成若干个图像数据,并采用机器视觉技术统计其总面积s,进而计算文字数据、图像数据以及视频数据在档案中占比P,,/>,其中Pw、Ps、Pt分别表示文字数据、视频数据以及图像数据在档案中的占比数;
进一步的,档案验证单元还设有危险数据样本库,进而将档案的数据类型的遍历结果与危险数据样本库进行匹配,若匹配有结果,则删除档案,并将对应档案上传人员的账户号码以及其登录时IP放入黑名单中;若匹配无结果则将档案发送至档案分类模块;
需要说明的是,所述危险数据样本库由档案安全管理人员周期性的更新危险数据,且其中的危险数据的编号根据数据类型设有与档案相同的标注。
所述档案分类模块用于分析档案并建立词义特征点以及图像特征点,进而对档案进行二次分类,具体过程包括:
档案分类模块接收到来自档案上传模块的档案后,根据各个档案编号对档案进行初步分类,即根据各个档案编号上的数据类型标注编号进行分类,无编号标注的档案不进行分类,例如编号标注为WST的档案为一类,编号标注为ST的档案为一类;
档案分类模块对编号第一个标注字母为W的档案,进行词义特征点提取,通过遍历档案中的文字数据并设置关键字频率阈值、词义频率阈值以及词义特征点频率阈值,进而档案分类模块首先统计档案的各个文字的数量,将数量大于或等于关键字频率阈值的文字保留,将数量小于关键字频率阈值的文字去除,进而根据保留的文字统计各个档案的词义数量,其中词义由两个以上的关键字组成,将数量大于或等于词义频率阈值的词义保留,将数量小于词义频率阈值的词义去除,统计所有档案的词义种类以及数量,将数量大于或等于词义特征点频率阈值的词义设为词义特征点,将数量小于词义特征点频率阈值的词义去除;
采用与获得词义特征点相同的方法,对编号第一个标注字母为S或T的档案进行图像特征点提取,得到若干个图像特征点,其中图像特征点主要包括人物图像特征点、建筑图像特征点以及物品图像特征点;
进一步的,根据词义特征点和图像特征点设置若干个主题特征集,其中主题特征集由若干个词义特征点、若干个图像特征点以及主题名称组成;
进而档案分类模块使用词义特征点以及图像特征点对档案的初步分类结果进而特征点提取,并根据特征点提取结果对档案进行二次分类;
具体的,档案分类模块首先通过词义特征点遍历分类编号标注有W的档案,设置词义特征点阈值T,进而统计分类编号标注有W的档案中各个词义特征点数量N,若档案中一个词义特征点数量N大于或等于词义特征点阈值T,则判断档案包含对应词义特征点,若档案中一个词义特征点数量N小于词义特征点阈值T,则判断档案不包含对应词义特征点;
档案分类模块进一步的通过图像特征点遍历分类编号标注有S或T的档案,对应分类编号标注有S的档案,档案分类模块先将视频数据按帧转化为若干个图像再使用图像特征点对其进行特征点匹配,统计分类编号标注有S或T的档案中包含各个图像特征点的数量,并采用与词义特征点相同的方法判断档案是或否包含对应的图像特征点;
进一步的,根据各个档案包含的词义特征点以及图像特征点匹配对应的主题特征集,并根据主题特征集的名称对档案设置主题标签;
各个档案的主题标签设置完成后,档案管理人员对各个档案的主题标签进行评估,若评估档案主题标签正确,则不做操作,若评估档案主题标签不正确,则档案管理人员可手动更改主题标签;
档案管理人员对所有档案的主题标签评估完成后,档案分类模块将带有主题标签的档案发送至档案管理模块。
所述档案管理模块用于对档案设置调取密码,同时根据档案的存储状况自动更新调取密码,具体过程包括:
档案管理模块接收到来自档案分类模块的档案后,从档案上传模块获取各个档案的上传时使用的账户号码以及档案上传时间,进而根据二者对各个档案设置新编号;
具体的,取账户号码的后四位,以及根据档案上传时间依次对各个档案设置从1开始的编号,例如档案的上传时使用的账户号码为41234124,以及其按照档案上传时间排列得到编号为45,档案的原编号为WST12321,进而得到档案的新编号为412445WST12321;
进一步的,对各个档案设置不同的调取密码,并将带有调取密码的档案发送至档案调取模块;
取各个档案新编号中的账户号码的前两位、数据类型标注以及原编号的后两位,得到对应档案的调取密码,例如档案的新编号为412445WST12321,则其的调取密码为41WST21;
需要说明的是,每当档案管理模块接收新的档案时,档案管理模块对已经存储的档案的调取密码自动更新,并将更新后调取密码发送至档案调取模块;
其中调取密码自动更新的过程包括:每当有新的档案传输至档案管理模块时,档案管理模块对所有档案当前的调取密码的前两位进行取模随机变换,得到一个大于10的随机数,进而得到的一个新的调取密码并将其发送至档案调取模块。
所述档案调取模块用于监管档案调取过程,并生成档案调取记录,具体过程包括:
用户通过账户号码和密码向档案调取模块发送登录请求,进而档案调取模块采用与档案上传模块相同的方法,判断账户号码或其IP地址是否存在于黑名单,若存在于黑名单则拒绝其登录请求,若不存在则档案调取模块向用户发送登录成功提示;
用户成功登录档案调取模块后,向档案调取模块发送档案调取请求,进而档案调取模块向用户发送主题样本集以及开启档案调取监管指令;
所述档案监管指令用于记录用户在调取档案时的每一步操作,并在用户确认调取档案时生成档案调取记录;
所述档案调取记录包括用户的账户号码、调取档案时的每一步操作记录、调取档案的编号以及档案调取时间,其中操作记录包括用户检索档案时的各个步骤,例如通过输入主题标签检索档案以及输入调取密码查看档案是否为所选档案的过程;
在用户通过检索主题标签找寻所选档案后,需根据所选档案的编号向档案调取模块发送档案调取密码获取请求,档案调取模块根据档案的编号将对应的调取密码发送至用户,进而用户根据调取密码查看档案;
需要说明的是,若档案调取模块接收到来自档案管理模块的新调取密码,则自动对所有档案重新设置调取密码,且此时用户查看尚未确定为其所需的档案,则档案调取模块对该档案重新进行封闭,用户需重新向档案调取模块发送档案调取密码获取请求,进而获得更新后的调取密码查看对应档案。
本发明还公开了一种基于大数据的档案分类管理系统的档案分类管理方法,包括以下步骤:
步骤一,验证档案上传人员的身份信息并赋予其档案上传权限,进而档案上传人员上传档案;
步骤二,根据档案中文字、图像以及视频之间的占比关系,对其设置数据类型编号并根据三者占比关系对档案进行初次分类;
步骤三,根据档案建立词义特征点、图像特征点以及主题特征集,进而对档案进行特征点提取以及二次分类,并对各个档案设置主题标签;
步骤四,对各个档案设置调取密码,且每当存储新的档案时,对其他所有档案的调取密码进行更新;
步骤五,用户根据主题标签检索所需档案,并获取调取密码获得所需档案。
以上实施例仅用以说明本发明的技术方法而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方法进行修改或等同替换,而不脱离本发明技术方法的精神和范围。

Claims (4)

1.一种基于大数据的档案分类管理系统,包括管控中心,其特征在于,所述管控中心通信连接有档案上传模块、档案分类模块、档案管理模块以及档案调取模块;
所述档案上传模块设有身份验证单元以及档案验证单元;
所述身份验证单元用于验证档案上传人员的身份信息,并根据验证结果赋予其档案上传权限;
所述档案验证单元用于根据档案中的数据类型对档案编号设置数据类型标注,并判断档案中是否存在危险数据;
所述档案分类模块用于分析档案并建立词义特征点以及图像特征点,进而对档案进行二次分类;
所述档案管理模块用于对档案设置调取密码,同时根据档案的存储状况自动更新调取密码;
所述档案调取模块用于监管档案调取过程,并生成档案调取记录;
所述档案验证单元根据档案中的数据类型对档案编号的设置数据类型标注的过程包括:
档案验证单元遍历档案中各项数据的数据类型,设置数据类型占比阈值,对于数据类型占比大于数据类型占比阈值的档案,对其档案编号设置数据类型标注,对于占比小于或等于数据类型占比阈值的数据类型进行自动忽略,其中数据类型包括文字数据、图像数据、视频数据,根据数据类型的占比在档案的编号第一项开始添加字母,其中文字数据的编号标注为W,图像数据的编号标注为T,视频数据的编号标注为S,且标注的先后顺序按照档案中对应数据类型占比大小依次进行排列,其中档案的编号在其上传至档案上传模块后自动生成且唯一;
统计档案内各个数据类型的占比过程包括:
档案验证遍历整个档案,并将档案中的文字数据、图像数据以及视频数据依次分离,通过OCR技术统计文字数据总数w,以及通过机器视觉技术统计图像数据总面积t,将视频数据按帧进行分割成若干个图像数据,并采用机器视觉技术统计其总面积s,进而计算文字数据、图像数据以及视频数据在档案中占比P,,/>,其中Pw、Ps、Pt分别表示文字数据、视频数据以及图像数据在档案中的占比数;
所述档案分类模块对词义特征点以及图像特征点的建立过程包括:
档案分类模块通过遍历档案中的文字数据并设置关键字频率阈值、词义频率阈值以及词义特征点频率阈值,进而档案分类模块首先统计档案的各个文字的数量,并将数量大于或等于关键字频率阈值的文字保留,将数量小于关键字频率阈值的文字去除;
根据保留的文字统计各个档案的词义数量,其中词义由两个以上的关键字组成,将数量大于或等于词义频率阈值的词义保留,将数量小于词义频率阈值的词义去除,统计所有档案的词义种类以及数量,将数量大于或等于词义特征点频率阈值的词义设为词义特征点,将数量小于词义特征点频率阈值的词义去除;并采用与获得词义特征点相同的方法,获得图像特征点;
所述档案分类模块对档案进行二次分类的过程包括:
档案分类模块接收到来自档案上传模块的档案后,根据各个档案编号对档案进行初步分类;
档案分类模块对编号第一个标注字母为W的档案,进行词义特征点提取,通过遍历档案中的文字数据并设置关键字频率阈值、词义频率阈值以及词义特征点频率阈值,进而档案分类模块首先统计档案的各个文字的数量,将数量大于或等于关键字频率阈值的文字保留,将数量小于关键字频率阈值的文字去除,进而根据保留的文字统计各个档案的词义数量,其中词义由两个以上的关键字组成,将数量大于或等于词义频率阈值的词义保留,将数量小于词义频率阈值的词义去除,统计所有档案的词义种类以及数量,将数量大于或等于词义特征点频率阈值的词义设为词义特征点,将数量小于词义特征点频率阈值的词义去除;
采用与获得词义特征点相同的方法,对编号第一个标注字母为S或T的档案进行图像特征点提取,得到若干个图像特征点,其中图像特征点主要包括人物图像特征点、建筑图像特征点以及物品图像特征点;
根据词义特征点和图像特征点设置若干个主题特征集,其中主题特征集由若干个词义特征点、若干个图像特征点以及主题名称组成;
档案分类模块使用词义特征点以及图像特征点对档案的初步分类结果进行特征点提取,并根据特征点提取结果对档案进行二次分类;
档案分类模块首先通过词义特征点遍历分类编号标注有W的档案,设置词义特征点阈值T,进而统计分类编号标注有W的档案中各个词义特征点数量N,若档案中一个词义特征点数量N大于或等于词义特征点阈值T,则判断档案包含对应词义特征点,若档案中一个词义特征点数量N小于词义特征点阈值T,则判断档案不包含对应词义特征点;
档案分类模块通过图像特征点遍历分类编号标注有S或T的档案,对应分类编号标注有S的档案,档案分类模块先将视频数据按帧转化为若干个图像再使用图像特征点对其进行特征点匹配,统计分类编号标注有S或T的档案中包含各个图像特征点的数量,并采用与词义特征点相同的方法判断档案是或否包含对应的图像特征点;
根据各个档案包含的词义特征点以及图像特征点匹配对应的主题特征集,并根据主题特征集的名称对档案设置主题标签;
各个档案的主题标签设置完成后,档案管理人员对各个档案的主题标签进行评估,若评估档案主题标签正确,则不做操作,若评估档案主题标签不正确,则档案管理人员能够手动更改主题标签;
档案管理人员对所有档案的主题标签评估完成后,档案分类模块将带有主题标签的档案发送至档案管理模块;
所述档案管理模块根据档案的存储状况自动更新调取密码的更新过程包括:
每当有新的档案传输至档案管理模块时,档案管理模块对所有档案当前的调取密码的前两位进行取模随机变换得到随机数,进而得到的一个新的调取密码并将其发送至档案调取模块。
2.根据权利要求1所述的一种基于大数据的档案分类管理系统,其特征在于,所述身份验证单元验证档案上传人员的身份信息的验证过程包括:
档案上传人员通过账户号码和密码向档案上传模块发送登录请求,其中登录请求包括登录时使用的账户号码、密码以及登录请求发送的IP地址;
将登录请求中的账户号码和IP地址与黑名单进行匹配,若匹配账户号码或IP地址任一项有结果,则驳回登录请求,若匹配账户号码或IP地址都无结果,则进一步判断账户号码与密码之间的对应关系是否正确,根据判断结果档案上传人员上传档案。
3.根据权利要求1所述的一种基于大数据的档案分类管理系统,其特征在于,所述档案的调取过程包括:
用户通过检索主题标签找寻所选的档案后,需根据所选档案的编号向档案调取模块发送档案调取密码获取请求,档案调取模块根据档案的编号将对应的调取密码发送至用户,进而用户根据调取密码查看档案。
4.根据权利要求1至3任一项所述的一种基于大数据的档案分类管理系统的档案分类管理方法,其特征在于,包括以下步骤:
步骤一,验证档案上传人员的身份信息并赋予其档案上传权限,进而档案上传人员上传档案;
步骤二,根据档案中文字、图像以及视频之间的占比关系,对其设置数据类型编号并根据三者占比关系对档案进行初次分类;
步骤三,根据档案建立词义特征点、图像特征点以及主题特征集,进而对档案进行特征点提取以及二次分类,并对各个档案设置主题标签;
步骤四,对各个档案设置调取密码,且每当存储新的档案时,对其他所有档案的调取密码进行更新;
步骤五,用户根据主题标签检索所需档案,并获取调取密码获得所需档案。
CN202310992275.7A 2023-08-08 2023-08-08 一种基于大数据的档案分类管理系统和方法 Active CN116719956B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310992275.7A CN116719956B (zh) 2023-08-08 2023-08-08 一种基于大数据的档案分类管理系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310992275.7A CN116719956B (zh) 2023-08-08 2023-08-08 一种基于大数据的档案分类管理系统和方法

Publications (2)

Publication Number Publication Date
CN116719956A CN116719956A (zh) 2023-09-08
CN116719956B true CN116719956B (zh) 2024-01-26

Family

ID=87866417

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310992275.7A Active CN116719956B (zh) 2023-08-08 2023-08-08 一种基于大数据的档案分类管理系统和方法

Country Status (1)

Country Link
CN (1) CN116719956B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117892204B (zh) * 2024-03-15 2024-05-28 杭州易康信科技有限公司 一种适用于政务服务的档案分类管理方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114168529A (zh) * 2021-11-24 2022-03-11 广州明动软件股份有限公司 一种基于云档案库的档案管理系统
CN116450575A (zh) * 2023-03-29 2023-07-18 浙江海洋大学 一种基于深度学习网络的档案信息化管理归档系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114168529A (zh) * 2021-11-24 2022-03-11 广州明动软件股份有限公司 一种基于云档案库的档案管理系统
CN116450575A (zh) * 2023-03-29 2023-07-18 浙江海洋大学 一种基于深度学习网络的档案信息化管理归档系统

Also Published As

Publication number Publication date
CN116719956A (zh) 2023-09-08

Similar Documents

Publication Publication Date Title
US6950533B2 (en) Sorting images for improved data entry productivity
CN116719956B (zh) 一种基于大数据的档案分类管理系统和方法
CN111931775B (zh) 自动获取新闻标题方法、系统、计算机设备及存储介质
CN109711298B (zh) 基于faiss的高效人脸特征值检索的方法和系统
CN110046297B (zh) 运维违规操作的识别方法、装置和存储介质
WO2020093303A1 (zh) 基于人脸识别的处理方法、装置、设备及可读存储介质
US8699796B1 (en) Identifying sensitive expressions in images for languages with large alphabets
CN112115957A (zh) 数据流识别方法及装置、计算机存储介质
KR102334018B1 (ko) 자가 증식된 비윤리 텍스트의 유효성 검증 장치 및 방법
CN109408671A (zh) 特定目标的搜索方法及其系统
CN110543584A (zh) 一种建立人脸索引的方法、装置、处理服务器及存储介质
CN116663549B (zh) 一种基于企业档案的数字化管理方法、系统及存储介质
CN1643551A (zh) 用于数字通信系统中的用户鉴别的方法和系统
CN116049797A (zh) 一种基于数据分类系统的智能存储系统
CN114676229B (zh) 一种技改大修工程档案管理系统及管理方法
CN111291535A (zh) 剧本处理方法、装置、电子设备及计算机可读存储介质
CN116881408A (zh) 基于ocr和nlp的视觉问答防诈骗方法及系统
CN113365100B (zh) 视频处理方法及装置
CN112868001A (zh) 文档检索装置、文档检索程序、文档检索方法
CN113220758B (zh) 一种项目成熟度分析论证方法
CN114866223A (zh) 一种基于唇码验证的文件加密及解密方法
CN113888370A (zh) 一种人员信息采集和自动分配电子试卷的方法
CN114117174A (zh) 基于大数据的多格式数据筛查管理系统
CN115964754B (zh) 大数据安全存储方法及装置
CN111954013A (zh) 直播互动方法、装置、终端设备、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant