CN116541576B - 基于大数据应用的档案数据管理标注方法及系统 - Google Patents

基于大数据应用的档案数据管理标注方法及系统 Download PDF

Info

Publication number
CN116541576B
CN116541576B CN202310820663.7A CN202310820663A CN116541576B CN 116541576 B CN116541576 B CN 116541576B CN 202310820663 A CN202310820663 A CN 202310820663A CN 116541576 B CN116541576 B CN 116541576B
Authority
CN
China
Prior art keywords
data
image
adjustment
distortion
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310820663.7A
Other languages
English (en)
Other versions
CN116541576A (zh
Inventor
袁锋平
胡园
胡娜
刘万君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Archives Information Technology Co ltd
Original Assignee
Zhejiang Archives Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Archives Information Technology Co ltd filed Critical Zhejiang Archives Information Technology Co ltd
Priority to CN202310820663.7A priority Critical patent/CN116541576B/zh
Publication of CN116541576A publication Critical patent/CN116541576A/zh
Application granted granted Critical
Publication of CN116541576B publication Critical patent/CN116541576B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于大数据应用的档案数据管理标注方法及系统,涉及档案数据管理技术领域,为了解决档案数据管理不佳的问题。本基于大数据应用的档案数据管理标注方法及系统,按照属类号、年代号以及卷宗顺序号进行分类,可以防止不同的分类数据的干扰,将不同类别的分类数据分别对应类别相同的目标存储位置,并进行位置编码,可以提高数据的识别度,根据关键词中每句语句中出现属性最高的词语与类别数据库的数据筛选,可以确定文字数据属于的类型属性,使后期在档案在管理检索时检索的更加快捷,通过扫描仪对文字数据中的文本内容进行扫描使文本数据获取的更加精准,图像数据通过扫描仪中的图像检查功能进行图像检测,对图像的质量进行调整。

Description

基于大数据应用的档案数据管理标注方法及系统
技术领域
本发明涉及档案数据管理技术领域,具体为基于大数据应用的档案数据管理标注方法及系统。
背景技术
档案数据是数据化的档案信息及具备档案性质的数据记录,具有广源性、共生与互生性、累积性、扩展性和易算性等新的特征形态。
公开号为CN109902210A的中国专利公开了一种档案数据管理的系统,主要通过与所属的档案管理机构节点建立通信连接进入区块链系统,为用户创建一个档案数据的区块链信息,区块链信息包括档案管理机构节点的信息,经历信息,并加盖了时间戳,档案管理机构节点会将与本节点相关的档案数据存储下来,从而实现快速便捷的进行档案的移动,上述专利虽然解决了管理的问题,但是在实际操作中还存在以下问题:
1.没有对档案数据进行充分的数据采集,只是单一的对数据的文本数据进行获取,从而造成数据采集不精准管理效果不佳。
2.没有对数据中的关键信息进行有效的获取,从而导致数据在后期管理检索时检索速度过低。
3.档案数据在进行管理存储时,分类数据的安全性不佳,以及数据容易丢失,对档案数据的识别度不高,以及数据传输能力过低。
发明内容
本发明的目的在于提供基于大数据应用的档案数据管理标注方法及系统,按照属类号、年代号以及卷宗顺序号进行分类,可以防止不同的分类数据的干扰,将不同类别的分类数据分别对应类别相同的目标存储位置,并进行位置编码,可以提高数据的识别度,根据关键词中每句语句中出现属性最高的词语与类别数据库的数据筛选,可以确定文字数据属于的类型属性,可以使后期在档案在管理检索时检索的更加快捷,通过扫描仪对文字数据中的文本内容进行扫描可以使文本数据获取的更加精准,图像数据通过扫描仪中的图像检查功能进行图像检测,可以对图像的质量进行调整,可以解决现有技术中的问题。
为实现上述目的,本发明提供如下技术方案:
基于大数据应用的档案数据管理标注方法,包括如下步骤:
S1:档案数据采集:将纸质档案数据进行数据获取,其中,纸质档案数据包括文字数据和图片数据,并且,同一个纸质档案数据中的纸质数据和图像数据在数据获取时,分别进行纸质数据和图像数据的对应;
S2:档案数据分析:根据获取纸质档案数据中的文字数据和图片数据,将文字数据进行数据扫描,将图片数据进行图像质量检测,并且,根据文字数据和图像数据的检测数据,将数据中异常的数据获取;
S3:档案异常数据决策:根据获取的异常数据,将异常数据进行数据分析,并且将异常数据与纸质档案数据进行对应,数据对应完成后将异常数据和对应的纸质档案数据分别进行存储;
S4:档案数据分类:将不存在异常的数据进行获取,获取完成后对文字数据进行关键词提取,提取到关键词后根据关键词的词性将文字数据导入类别数据库中,由类别数据库将文字数据进行分类;
S5:档案数据编号:将分类完成的文字数据与纸质档案数据进行数据对应,对应完成后将纸质档案数据通过属类号、年代号以及卷宗顺序号再次进行档案编号;
S6:编号数据加密归档:将编号完成的纸质档案进行数据备份,数据备份完成后将数据通过类别属性进行存储,并且将要存储的数据进行数据加密。
优选的,针对S2中对文字数据的数据扫描,用于:
将纸质档案数据中的文字数据通过扫描仪进行数据扫描;
其中,扫描仪将文字数据的正文内容、页眉、页脚、反面印章、附件和手写注释进行扫描判断,并且将文字数据中的图像内容进行判断;
判断的结果为正文内容、页眉、页脚、反面印章、附件和手写注释是否在合格范围内,文字数据中的图像内容是否与文本数据完全对应;
若判断结果有异常时,将异常数据单独进行获取。
优选的,所述针对S2中图片数据的图像质量检测,用于:
将纸质档案数据中的图像数据通过扫描仪中的图像检查功能进行图像检测;
其中,图像检查功能将图像的偏斜度、清晰度和失真度进行检查,并且将图像的排列顺序和页码进行检查;
当图像的偏斜度、清晰度和失真度检查有异常时,先将图像重新进行调整,调整后再次进行图像检查,若调整后的检查依然有异常,则判定为异常数据,并将异常数据单独进行获取;
当图像的排列顺序和页码与数据库中的正常纸质档案数据有差异时,则判定图像的排列顺序和页码为异常数据,并将异常数据单独进行获取。
优选的,当图像的偏斜度、清晰度和失真度检查有异常时,先将图像重新进行调整,调整后再次进行图像检查,若调整后的检查依然有异常,则判定为异常数据,包括:
利用边缘检测方式检测所述图像中的边缘信息,并根据所述边缘信息计算图像的偏斜度;
检测所述偏斜度是否超过预设的第一偏斜度阈值,如果所述偏斜度超过预设的偏斜度阈值,则对所述图像进行偏斜度调整,获得偏斜度调整后的图像;
对所述偏斜度调整后的图像进行二次偏斜度检测,如果偏斜度调整后的图像对应的偏斜度超过预设的第二偏斜度阈值,则判定存在异常,则将该图像标记为异常数据;如果偏斜度调整后的图像对应的偏斜度未超过预设的第二偏斜度阈值,则判定偏斜度调整后的图像为有效图像数据,并作为第一目标图像;
对所述第一目标图像进行清晰度检查,获取所述图像对应的清晰度;
检测所述清晰度是否低于预设的第一清晰度阈值,如果所述清晰度低于预设的清晰度阈值,则对所述图像进行清晰度调整,获得清晰度调整后的图像;
对所述清晰度调整后的图像进行二次清晰度检测,如果清晰度调整后的图像对应的清晰度低于预设的第二清晰度阈值,则判定存在异常,则将该图像标记为异常数据;如果清晰度调整后的图像对应的清晰度未低于预设的第二清晰度阈值,则判定清晰度调整后的图像为有效图像数据,并作为第二目标图像;
对所述第二目标图像进行失真度检查,获取所述图像对应的失真度;
检测所述失真度是否超过预设的第一失真度阈值,如果所述失真度超过预设的失真度阈值,则对所述图像进行失真度调整,获得失真度调整后的图像;
对所述失真度调整后的图像进行二次失真度检测,如果失真度调整后的图像对应的失真度超过预设的第二失真度阈值,则判定存在异常,则将该图像标记为异常数据;如果失真度调整后的图像对应的失真度未超过预设的第二失真度阈值,则判定失真度调整后的图像为有效图像数据。
优选的,所述第二偏斜度阈值、第二清晰度阈值和第二失真度阈值的设置约束条件如下:
其中,P 01表示第一偏斜度阈值;P 02表示第二偏斜度阈值;P e0表示一次偏斜度调节时的额定理论调整误差;P i 表示第i次进行偏斜度调整时对应的实际调整误差;n表示历史偏斜度调整次数;
其中,C 01表示第一清晰度阈值;C 02表示第二清晰度阈值;P e0表示一次偏斜度调节时的额定理论调整误差;C i 表示第i次清晰度调节对应的调节后的清晰度数值;M表示历史清晰度调整次数;N 0表示第i次清晰度调节之后,对应调节后的清晰度数值低于0.95C01的次数;
其中,S 01表示第一失真度阈值;S 02表示第二失真度阈值;X表示历史失真洗度调整次数;X 0表示失真度调节之后,对应调节后的失真度数值超过0.75S 01的次数;S i 表示第i次失真度调节之后,对应调节后的失真度数值超过0.75S 01时的具体调节后的失真度数字。
优选的,针对S4中对文字数据的关键词提取,用于:
将文字数据中的文本内容进行获取,并将文本内容根据文本的段落进行数据划分,划分成多个数据集;
根据划分的多个数据集,将数据集每个段落中的每句语句进行数据划分,划分为多个子数据集;
根据划分的多个子数据集,将子数据集中的文字与词典数据库中的数据进行语句关联;
根据与词典数据库中关联的语句,将子数据集中的关联指数值最大的语句进行获取。
优选的,针对S4中对文字数据的关键词提取,还用于:
根据获取的关联指数最大的语句,将语句中的类别关键词进行获取;
其中,语句的关键词是根据每句语句中出现属性最高的词语;
根据获取的关键词,将关键词与类别数据库中的数据进行数据筛选;
其中,筛选出相似度最高的数据;
根据最高相似度的数据判断出文字档案的类型属性
优选的,针对S6中备份数据的存储,用于:
将存储终端中存储区域的容量进行获取,并计算出存储区域中可用容量和已用容量的区域;
将备份的数据中的副本数以及存储感知策略进行获取,其中存储感知策略包括确定备份的数据存储区域的数据节点用于存储分类数据;
根据备份数据的存储区域数据确定存储终端中对应的存储区域,并将备份数据完整的存储至存储终端中。
基于大数据应用的档案数据管理标注系统,包括:
编号分类模块,用于:
将通过属类号、年代号以及卷宗顺序号进行分类完成的纸质档案数据进行编号甄别,并将甄别的数据标注为分类数据;
分类数据整理模块,用于:
将分类数据的数据特征进行获取,并将数据特征确定分类数据的管理权限,其中,管理权限为分类数据的目标存储位置
优选的,还包括:
数据压缩模块,用于:
根据分类数据的目标存储位置,将不同类别的分类数据分别对应类别相同的目标存储位置,并进行位置编码;
将位置编码在分类数据中进行数据映射,并根据映射的结果将分类数据分别对应至目标存储位置中,并生成压缩指令。
与现有技术相比,本发明的有益效果如下:
1.本发明提供的基于大数据应用的档案数据管理标注方法及系统,通过扫描仪对纸质的档案进行文字数据和图像数据检测,有效的保证了数据获取的和数据检测的稳定性,同时通过扫描仪对文字数据中的文本内容进行扫描可以使文本数据获取的更加精准,图像数据通过扫描仪中的图像检查功能进行图像检测,可以对图像的质量进行调整,包括图像的文本增强、自动区域分割、褪色、色彩增强,其中褪色指扫描时去除选定的颜色。
2.本发明提供的基于大数据应用的档案数据管理标注方法及系统,通过对文本内容的段落划分和每句语句的划分,在根据每句语句中的关键词的获取可以提高关键词的获取的准确性,并且可以缩小数据的处理范围,提高数据的处理效率,并且根据关键词中每句语句中出现属性最高的词语与类别数据库的数据筛选,可以确定文字数据属于的类型属性,可以使后期在档案在管理检索时检索的更加快捷,通过将存储终端中存储区域的容量进行获取,并计算出存储区域中可用容量和已用容量的区域,可以有效的提高数据的存储能力,将备份的数据中的副本数以及存储感知策略进行获取,可以提高数据的安全性,同时备份的数据可以防止数据丢失的可能性。
3.本发明提供的基于大数据应用的档案数据管理标注方法及系统,通过属类号、年代号以及卷宗顺序号进行分类完成的纸质档案数据进行编号甄别,并将甄别的数据标注为分类数据,确保了纸质档案数据的全面性,同时按照属类号、年代号以及卷宗顺序号进行分类,可以防止不同的分类数据的干扰,将不同类别的分类数据分别对应类别相同的目标存储位置,并进行位置编码,可以提高数据的识别度,根据映射的结果将分类数据分别对应至目标存储位置中,并生成压缩指令,可以提高数据在传输时候的效率。
附图说明
图1为本发明的档案数据管理标注的方法流程示意图;
图2为本发明的档案数据管理标注的系统模块示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决现有技术中,在对档案数据进行管理之前,没有对档案数据进行充分的数据采集,只是单一的对数据的文本数据进行获取,从而造成数据采集不精准管理效果不佳的问题,请参阅图1,本实施例提供以下技术方案:
基于大数据应用的档案数据管理标注方法,包括如下步骤:
S1:档案数据采集:将纸质档案数据进行数据获取,其中,纸质档案数据包括文字数据和图片数据,并且,同一个纸质档案数据中的纸质数据和图像数据在数据获取时,分别进行纸质数据和图像数据的对应;
S2:档案数据分析:根据获取纸质档案数据中的文字数据和图片数据,将文字数据进行数据扫描,将图片数据进行图像质量检测,并且,根据文字数据和图像数据的检测数据,将数据中异常的数据获取;
S3:档案异常数据决策:根据获取的异常数据,将异常数据进行数据分析,并且将异常数据与纸质档案数据进行对应,数据对应完成后将异常数据和对应的纸质档案数据分别进行存储;
S4:档案数据分类:将不存在异常的数据进行获取,获取完成后对文字数据进行关键词提取,提取到关键词后根据关键词的词性将文字数据导入类别数据库中,由类别数据库将文字数据进行分类;
S5:档案数据编号:将分类完成的文字数据与纸质档案数据进行数据对应,对应完成后将纸质档案数据通过属类号、年代号以及卷宗顺序号再次进行档案编号;
S6:编号数据加密归档:将编号完成的纸质档案进行数据备份,数据备份完成后将数据通过类别属性进行存储,并且将要存储的数据进行数据加密。
针对S2中对文字数据的数据扫描,用于:将纸质档案数据中的文字数据通过扫描仪进行数据扫描;其中,扫描仪将文字数据的正文内容、页眉、页脚、反面印章、附件和手写注释进行扫描判断,并且将文字数据中的图像内容进行判断;判断的结果为正文内容、页眉、页脚、反面印章、附件和手写注释是否在合格范围内,文字数据中的图像内容是否与文本数据完全对应;若判断结果有异常时,将异常数据单独进行获取,所述针对S2中图片数据的图像质量检测,用于:将纸质档案数据中的图像数据通过扫描仪中的图像检查功能进行图像检测;其中,图像检查功能将图像的偏斜度、清晰度和失真度进行检查,并且将图像的排列顺序和页码进行检查;当图像的偏斜度、清晰度和失真度检查有异常时,先将图像重新进行调整,调整后再次进行图像检查,若调整后的检查依然有异常,则判定为异常数据,并将异常数据单独进行获取;当图像的排列顺序和页码与数据库中的正常纸质档案数据有差异时,则判定图像的排列顺序和页码为异常数据,并将异常数据单独进行获取。
具体的,通过扫描仪对纸质的档案进行文字数据和图像数据检测,有效的保证了数据获取的和数据检测的稳定性,同时通过扫描仪对文字数据中的文本内容进行扫描可以使文本数据获取的更加精准,图像数据通过扫描仪中的图像检查功能进行图像检测,可以对图像的质量进行调整,包括图像的文本增强、自动区域分割、褪色、色彩增强,其中褪色指扫描时去除选定的颜色。
为了解决现有技术中,在对档案数据进行管理时,没有对数据中的关键信息进行有效的获取,从而导致数据在后期管理检索时检索速度过低的问题,请参阅图1,本实施例提供以下技术方案:
针对S4中对文字数据的关键词提取,用于:将文字数据中的文本内容进行获取,并将文本内容根据文本的段落进行数据划分,划分成多个数据集;根据划分的多个数据集,将数据集每个段落中的每句语句进行数据划分,划分为多个子数据集;根据划分的多个子数据集,将子数据集中的文字与词典数据库中的数据进行语句关联;根据与词典数据库中关联的语句,将子数据集中的关联指数值最大的语句进行获取,针对S4中对文字数据的关键词提取,还用于:根据获取的关联指数最大的语句,将语句中的类别关键词进行获取;其中,语句的关键词是根据每句语句中出现属性最高的词语;根据获取的关键词,将关键词与类别数据库中的数据进行数据筛选;其中,筛选出相似度最高的数据;根据最高相似度的数据判断出文字档案的类型属性。
具体的,通过对文本内容的段落划分和每句语句的划分,在根据每句语句中的关键词的获取可以提高关键词的获取的准确性,并且可以缩小数据的处理范围,提高数据的处理效率,并且根据关键词中每句语句中出现属性最高的词语与类别数据库的数据筛选,可以确定文字数据属于的类型属性,可以使后期在档案在管理检索时检索的更加快捷。
为了解决现有技术中,档案数据在进行管理存储时,分类数据的安全性不佳,以及数据容易丢失的问题,请参阅图1,本实施例提供以下技术方案:
针对S6中备份数据的存储,用于:将存储终端中存储区域的容量进行获取,并计算出存储区域中可用容量和已用容量的区域;将备份的数据中的副本数以及存储感知策略进行获取,其中存储感知策略包括确定备份的数据存储区域的数据节点用于存储分类数据;根据备份数据的存储区域数据确定存储终端中对应的存储区域,并将备份数据完整的存储至存储终端中。
具体的,通过将存储终端中存储区域的容量进行获取,并计算出存储区域中可用容量和已用容量的区域,可以有效的提高数据的存储能力,将备份的数据中的副本数以及存储感知策略进行获取,可以提高数据的安全性,同时备份的数据可以防止数据丢失的可能性。
本发明的一个实施例,当图像的偏斜度、清晰度和失真度检查有异常时,先将图像重新进行调整,调整后再次进行图像检查,若调整后的检查依然有异常,则判定为异常数据,包括:
利用边缘检测方式检测所述图像中的边缘信息,并根据所述边缘信息计算图像的偏斜度;
检测所述偏斜度是否超过预设的第一偏斜度阈值,如果所述偏斜度超过预设的偏斜度阈值,则对所述图像进行偏斜度调整,获得偏斜度调整后的图像;
对所述偏斜度调整后的图像进行二次偏斜度检测,如果偏斜度调整后的图像对应的偏斜度超过预设的第二偏斜度阈值,则判定存在异常,则将该图像标记为异常数据;如果偏斜度调整后的图像对应的偏斜度未超过预设的第二偏斜度阈值,则判定偏斜度调整后的图像为有效图像数据,并作为第一目标图像;
对所述第一目标图像进行清晰度检查,获取所述图像对应的清晰度;
检测所述清晰度是否低于预设的第一清晰度阈值,如果所述清晰度低于预设的清晰度阈值,则对所述图像进行清晰度调整,获得清晰度调整后的图像;
对所述清晰度调整后的图像进行二次清晰度检测,如果清晰度调整后的图像对应的清晰度低于预设的第二清晰度阈值,则判定存在异常,则将该图像标记为异常数据;如果清晰度调整后的图像对应的清晰度未低于预设的第二清晰度阈值,则判定清晰度调整后的图像为有效图像数据,并作为第二目标图像;
对所述第二目标图像进行失真度检查,获取所述图像对应的失真度;
检测所述失真度是否超过预设的第一失真度阈值,如果所述失真度超过预设的失真度阈值,则对所述图像进行失真度调整,获得失真度调整后的图像;
对所述失真度调整后的图像进行二次失真度检测,如果失真度调整后的图像对应的失真度超过预设的第二失真度阈值,则判定存在异常,则将该图像标记为异常数据;如果失真度调整后的图像对应的失真度未超过预设的第二失真度阈值,则判定失真度调整后的图像为有效图像数据。
上述技术方案的技术效果为:通过边缘检测和偏斜度计算,可以检测图像中的偏斜度,并对超过预设阈值的图像进行偏斜度调整。这可以保证图像在校正偏斜后更加准确和可靠。利用清晰度评估算法对图像进行清晰度检查,如果图像的清晰度低于预设阈值,可以对图像进行清晰度调整,提高图像的清晰度。这有助于消除模糊或不清晰的图像,并提升图像质量。通过失真度评估算法对图像进行失真度检查,如果图像的失真度超过预设阈值,可以对图像进行失真度调整,减少或消除图像的失真。这有助于确保图像的准确性和可靠性,提高图像在后续处理和分析中的可用性。
通过上述技术方案可以筛选出具有较低偏斜度、清晰度和失真度的有效图像数据,并将超过阈值的异常图像数据标记为异常。这有助于提高图像数据的质量,确保后续处理和分析的准确性,并能更好地满足相关应用的需求。
具体的,所述第二偏斜度阈值、第二清晰度阈值和第二失真度阈值的设置约束条件如下:
其中,P 01表示第一偏斜度阈值;P 02表示第二偏斜度阈值;P e0表示一次偏斜度调节时的额定理论调整误差;P i 表示第i次进行偏斜度调整时对应的实际调整误差;n表示历史偏斜度调整次数;
其中,C 01表示第一清晰度阈值;C 02表示第二清晰度阈值;P e0表示一次偏斜度调节时的额定理论调整误差;C i 表示第i次清晰度调节对应的调节后的清晰度数值;M表示历史清晰度调整次数;N 0表示第i次清晰度调节之后,对应调节后的清晰度数值低于0.95C01的次数;
其中,S 01表示第一失真度阈值;S 02表示第二失真度阈值;X表示历史失真洗度调整次数;X 0表示失真度调节之后,对应调节后的失真度数值超过0.75S 01的次数;S i 表示第i次失真度调节之后,对应调节后的失真度数值超过0.75S 01时的具体调节后的失真度数字。
上述技术方案的技术效果为:通过上述约束条件来获取第二偏斜度阈值,可以实现基于历史偏斜度调整次数和实际调整误差的动态调整。这样的方式可以根据具体情况调整第二偏斜度阈值,以更好地适应偏斜度调整的效果和历史数据的变化。使用历史偏斜度调整次数和实际调整误差来计算第二偏斜度阈值,可以根据实际情况动态调整阈值。如果历史调整次数较多且实际调整误差较小,表明调整效果较好,可以适当提高第二偏斜度阈值,以减少误报率。反之,如果历史调整次数较少或实际调整误差较大,表明调整效果较差,可以适当降低第二偏斜度阈值,以提高敏感性和准确性。通过动态调整第二偏斜度阈值,可以优化偏斜度调整过程。如果第二偏斜度阈值设置得太小,可能会导致过多的图像被标记为异常数据,增加了处理和分析的工作量。如果第二偏斜度阈值设置得太大,可能会漏报一些真正存在偏斜的图像。动态调整第二偏斜度阈值可以在减少误报和漏报之间寻找一个平衡点,提高整体的效率和准确性。通过使用方式来获取第二偏斜度阈值,可以根据实际情况调整偏斜度检查的敏感性,以更好地适应不同的图像特征和调整效果。这有助于提高图像处理和分析的效率,并减少误判和漏判的情况发生。
另一方面,通过使用约束条件来获取第二清晰度阈值,可以实现基于历史清晰度调整次数和调节后的清晰度数值的动态调整。这样的方式可以根据实际情况调整第二清晰度阈值,以更好地适应清晰度调整的效果和历史数据的变化。使用历史清晰度调整次数和调节后的清晰度数值来计算第二清晰度阈值,可以根据实际情况动态调整阈值。如果历史调整次数较多且低于0.95C01的次数较少,表明调整效果较好,可以适当提高第二清晰度阈值,以减少误报率。反之,如果历史调整次数较少或低于0.95C01的次数较多,表明调整效果较差,可以适当降低第二清晰度阈值,以提高敏感性和准确性。通过动态调整第二清晰度阈值,可以优化清晰度调整过程。如果第二清晰度阈值设置得太小,可能会导致过多的图像被标记为异常数据,增加了处理和分析的工作量。如果第二清晰度阈值设置得太大,可能会漏报一些真正存在清晰度问题的图像。动态调整第二清晰度阈值可以在减少误报和漏报之间寻找一个平衡点,提高整体的效率和准确性。总之,通过上述方式来获取第二清晰度阈值,可以根据实际情况调整清晰度检查的敏感性,以更好地适应不同图像特征和调整效果。这有助于提高图像处理和分析的效率,并减少误判和漏判的情况发生。
同时,通过使用约束条件来获取第二失真度阈值,可以根据历史失真度调整次数和调节后的失真度数值的情况来动态确定阈值。这样的方法可以根据实际情况调整第二失真度阈值,以更好地适应失真度调整的效果和历史数据的变化。使用历史失真度调整次数和调节后的失真度数值来计算第二失真度阈值,可以根据实际情况动态调整阈值。如果历史失真度调整次数较多且调节后的失真度数值超过0.75S01的次数较少,说明调整效果较好,可以适当提高第二失真度阈值,以减少误报率。相反,如果历史失真度调整次数较少或调节后的失真度数值超过0.75S01的次数较多,说明调整效果较差,可以适当降低第二失真度阈值,以提高敏感性和准确性。通过动态调整第二失真度阈值,可以优化失真度调整过程。如果第二失真度阈值设置得太小,可能会导致过多的图像被标记为异常数据,增加了处理和分析的工作量。如果第二失真度阈值设置得太大,可能会漏报一些真正存在失真度问题的图像。动态调整第二失真度阈值可以在减少误报和漏报之间寻找一个平衡点,提高整体的效率和准确性。总之,通过上述方式来获取第二失真度阈值,可以根据实际情况调整失真度检查的敏感性,以更好地适应不同图像特征和调整效果。这有助于提高图像处理和分析的效率,并减少误判和漏判的情况发生。
为了解决现有技术中,对档案数据的识别度不高,以及数据传输能力过低的问题,请参阅图2,本实施例提供以下技术方案:
基于大数据应用的档案数据管理标注系统,包括:
编号分类模块,用于将通过属类号、年代号以及卷宗顺序号进行分类完成的纸质档案数据进行编号甄别,并将甄别的数据标注为分类数据;
分类数据整理模块,用于将分类数据的数据特征进行获取,并将数据特征确定分类数据的管理权限,其中,管理权限为分类数据的目标存储位置。
数据压缩模块,用于根据分类数据的目标存储位置,将不同类别的分类数据分别对应类别相同的目标存储位置,并进行位置编码;将位置编码在分类数据中进行数据映射,并根据映射的结果将分类数据分别对应至目标存储位置中,并生成压缩指令。
具体的,通过属类号、年代号以及卷宗顺序号进行分类完成的纸质档案数据进行编号甄别,并将甄别的数据标注为分类数据,确保了纸质档案数据的全面性,同时按照属类号、年代号以及卷宗顺序号进行分类,可以防止不同的分类数据的干扰,将不同类别的分类数据分别对应类别相同的目标存储位置,并进行位置编码,可以提高数据的识别度,根据映射的结果将分类数据分别对应至目标存储位置中,并生成压缩指令,可以提高数据在传输时候的效率。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (6)

1.基于大数据应用的档案数据管理标注方法,其特征在于,包括如下步骤:
S1:档案数据采集:将纸质档案数据进行数据获取,其中,纸质档案数据包括文字数据和图片数据,并且,同一个纸质档案数据中的纸质数据和图像数据在数据获取时,分别进行纸质数据和图像数据的对应;
S2:档案数据分析:根据获取纸质档案数据中的文字数据和图片数据,将文字数据进行数据扫描;
其中,文字数据的数据扫描为将纸质档案数据中的文字数据通过扫描仪进行数据扫描;
扫描仪将文字数据的正文内容、页眉、页脚、反面印章、附件和手写注释进行扫描判断,并且将文字数据中的图像内容进行判断;
判断的结果为正文内容、页眉、页脚、反面印章、附件和手写注释是否在合格范围内,文字数据中的图像内容是否与文本数据完全对应;
若判断结果有异常时,将异常数据单独进行获取;
将图片数据进行图像质量检测;
其中,图片数据的图像质量检测为将纸质档案数据中的图像数据通过扫描仪中的图像检查功能进行图像检测;
当图像的偏斜度、清晰度和失真度检查有异常时,先将图像重新进行调整,调整后再次进行图像检查,若调整后的检查依然有异常,则判定为异常数据,并将异常数据单独进行获取;
当图像的排列顺序和页码与数据库中的正常纸质档案数据有差异时,则判定图像的排列顺序和页码为异常数据,并将异常数据单独进行获取;
并且,根据文字数据和图像数据的检测数据,将数据中异常的数据获取;
其中,图像数据的检测数据包括将图像的偏斜度、清晰度和失真度进行检查,并且将图像的排列顺序和页码进行检查;
图像的偏斜度、清晰度和失真度检测异常时,利用边缘检测方式检测所述图像中的边缘信息,并根据所述边缘信息计算图像的偏斜度;
检测所述偏斜度是否超过预设的第一偏斜度阈值,如果所述偏斜度超过预设的偏斜度阈值,则对所述图像进行偏斜度调整,获得偏斜度调整后的图像;
对所述偏斜度调整后的图像进行二次偏斜度检测,如果偏斜度调整后的图像对应的偏斜度超过预设的第二偏斜度阈值,则判定存在异常,则将该图像标记为异常数据;如果偏斜度调整后的图像对应的偏斜度未超过预设的第二偏斜度阈值,则判定偏斜度调整后的图像为有效图像数据,并作为第一目标图像;
对所述第一目标图像进行清晰度检查,获取所述图像对应的清晰度;
检测所述清晰度是否低于预设的第一清晰度阈值,如果所述清晰度低于预设的清晰度阈值,则对所述图像进行清晰度调整,获得清晰度调整后的图像;
对所述清晰度调整后的图像进行二次清晰度检测,如果清晰度调整后的图像对应的清晰度低于预设的第二清晰度阈值,则判定存在异常,则将该图像标记为异常数据;如果清晰度调整后的图像对应的清晰度未低于预设的第二清晰度阈值,则判定清晰度调整后的图像为有效图像数据,并作为第二目标图像;
对所述第二目标图像进行失真度检查,获取所述图像对应的失真度;
检测所述失真度是否超过预设的第一失真度阈值,如果所述失真度超过预设的失真度阈值,则对所述图像进行失真度调整,获得失真度调整后的图像;
对所述失真度调整后的图像进行二次失真度检测,如果失真度调整后的图像对应的失真度超过预设的第二失真度阈值,则判定存在异常,则将该图像标记为异常数据;如果失真度调整后的图像对应的失真度未超过预设的第二失真度阈值,则判定失真度调整后的图像为有效图像数据;
其中,第二偏斜度阈值、第二清晰度阈值和第二失真度阈值的设置约束条件如下:
其中,C01表示第一清晰度阈值;C02表示第二清晰度阈值;Pe0表示一次偏斜度调节时的额定理论调整误差;Ci表示第i次清晰度调节对应的调节后的清晰度数值;M表示历史清晰度调整次数;N0表示第i次清晰度调节之后,对应调节后的清晰度数值低于0.95C01的次数;
其中,S01表示第一失真度阈值;S02表示第二失真度阈值;X表示历史失真洗度调整次数;X0表示失真度调节之后,对应调节后的失真度数值超过0.75S01的次数;Si表示第i次失真度调节之后,对应调节后的失真度数值超过0.75S01时的具体调节后的失真度数字;
S3:档案异常数据决策:根据获取的异常数据,将异常数据进行数据分析,并且将异常数据与纸质档案数据进行对应,数据对应完成后将异常数据和对应的纸质档案数据分别进行存储;
S4:档案数据分类:将不存在异常的数据进行获取,获取完成后对文字数据进行关键词提取,提取到关键词后根据关键词的词性将文字数据导入类别数据库中,由类别数据库将文字数据进行分类;
S5:档案数据编号:将分类完成的文字数据与纸质档案数据进行数据对应,对应完成后将纸质档案数据通过属类号、年代号以及卷宗顺序号再次进行档案编号;
S6:编号数据加密归档:将编号完成的纸质档案进行数据备份,数据备份完成后将数据通过类别属性进行存储,并且将要存储的数据进行数据加密;
其中,备份数据的存储用于将存储终端中存储区域的容量进行获取,并计算出存储区域中可用容量和已用容量的区域;
将备份的数据中的副本数以及存储感知策略进行获取,其中存储感知策略包括确定备份的数据存储区域的数据节点用于存储分类数据;
根据备份数据的存储区域数据确定存储终端中对应的存储区域,并将备份数据完整的存储至存储终端中。
2.根据权利要求1所述的基于大数据应用的档案数据管理标注方法,其特征在于:针对S4中对文字数据的关键词提取,用于:
将文字数据中的文本内容进行获取,并将文本内容根据文本的段落进行数据划分,划分成多个数据集;
根据划分的多个数据集,将数据集每个段落中的每句语句进行数据划分,划分为多个子数据集。
3.根据权利要求2所述的基于大数据应用的档案数据管理标注方法,其特征在于:针对S4中对文字数据的关键词提取,还用于:
根据划分的多个子数据集,将子数据集中的文字与词典数据库中的数据进行语句关联;
根据与词典数据库中关联的语句,将子数据集中的关联指数值最大的语句进行获取。
4.根据权利要求3所述的基于大数据应用的档案数据管理标注方法,其特征在于:针对S4中对文字数据的关键词提取,还用于:
根据获取的关联指数最大的语句,将语句中的类别关键词进行获取;
其中,语句的关键词是根据每句语句中出现属性最高的词语;
根据获取的关键词,将关键词与类别数据库中的数据进行数据筛选;
其中,筛选出相似度最高的数据;
根据最高相似度的数据判断出文字档案的类型属性。
5.基于大数据应用的档案数据管理标注系统,应用在权利要求1-4任一项所述的基于大数据应用的档案数据管理标注方法中,其特征在于:包括:
编号分类模块,用于:
将通过属类号、年代号以及卷宗顺序号进行分类完成的纸质档案数据进行编号甄别,并将甄别的数据标注为分类数据;
分类数据整理模块,用于:
将分类数据的数据特征进行获取,并将数据特征确定分类数据的管理权限,其中,管理权限为分类数据的目标存储位置。
6.根据权利要求5所述的基于大数据应用的档案数据管理标注系统,其特征在于,还包括:
数据压缩模块,用于:
根据分类数据的目标存储位置,将不同类别的分类数据分别对应类别相同的目标存储位置,并进行位置编码;
将位置编码在分类数据中进行数据映射,并根据映射的结果将分类数据分别对应至目标存储位置中,并生成压缩指令。
CN202310820663.7A 2023-07-06 2023-07-06 基于大数据应用的档案数据管理标注方法及系统 Active CN116541576B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310820663.7A CN116541576B (zh) 2023-07-06 2023-07-06 基于大数据应用的档案数据管理标注方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310820663.7A CN116541576B (zh) 2023-07-06 2023-07-06 基于大数据应用的档案数据管理标注方法及系统

Publications (2)

Publication Number Publication Date
CN116541576A CN116541576A (zh) 2023-08-04
CN116541576B true CN116541576B (zh) 2023-09-29

Family

ID=87449220

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310820663.7A Active CN116541576B (zh) 2023-07-06 2023-07-06 基于大数据应用的档案数据管理标注方法及系统

Country Status (1)

Country Link
CN (1) CN116541576B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117082293B (zh) * 2023-10-16 2023-12-19 成都华栖云科技有限公司 一种基于文字创意的视频自动生成方法和装置
CN117668372B (zh) * 2024-01-31 2024-04-19 江苏惊蛰云动科技有限公司 一种数字化智慧展览线上虚拟参展系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103093298A (zh) * 2012-06-18 2013-05-08 北京航星永志科技有限公司 一种图像或影像文件的多版本数字档案管理与应用方法
CN112966796A (zh) * 2021-03-04 2021-06-15 南通苏博办公服务有限公司 基于大数据的企业信息档案存储管理方法及系统
CN114299528A (zh) * 2021-12-27 2022-04-08 万达信息股份有限公司 一种针对扫描文档的信息提取和结构化方法
CN115115593A (zh) * 2022-06-28 2022-09-27 先临三维科技股份有限公司 一种扫描处理方法、装置、电子设备及存储介质
CN115116082A (zh) * 2022-03-04 2022-09-27 杭州京胜航星科技有限公司 一种基于ocr识别算法的一键成档系统
CN115654208A (zh) * 2022-10-19 2023-01-31 北京好利阀业集团有限公司 一种基于图像识别的调节阀开度监测方法及系统
CN115830620A (zh) * 2023-02-14 2023-03-21 江苏联著实业股份有限公司 一种基于ocr的档案文本数据处理方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11151415B2 (en) * 2019-08-05 2021-10-19 Bank Of America Corporation Parameter archival electronic storage system for image processing models

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103093298A (zh) * 2012-06-18 2013-05-08 北京航星永志科技有限公司 一种图像或影像文件的多版本数字档案管理与应用方法
CN112966796A (zh) * 2021-03-04 2021-06-15 南通苏博办公服务有限公司 基于大数据的企业信息档案存储管理方法及系统
CN114299528A (zh) * 2021-12-27 2022-04-08 万达信息股份有限公司 一种针对扫描文档的信息提取和结构化方法
CN115116082A (zh) * 2022-03-04 2022-09-27 杭州京胜航星科技有限公司 一种基于ocr识别算法的一键成档系统
CN115115593A (zh) * 2022-06-28 2022-09-27 先临三维科技股份有限公司 一种扫描处理方法、装置、电子设备及存储介质
CN115654208A (zh) * 2022-10-19 2023-01-31 北京好利阀业集团有限公司 一种基于图像识别的调节阀开度监测方法及系统
CN115830620A (zh) * 2023-02-14 2023-03-21 江苏联著实业股份有限公司 一种基于ocr的档案文本数据处理方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘珊 ; .档案扫描文件网络利用格式选择研究.办公室业务.2020,(第11期),第91-92页. *

Also Published As

Publication number Publication date
CN116541576A (zh) 2023-08-04

Similar Documents

Publication Publication Date Title
CN116541576B (zh) 基于大数据应用的档案数据管理标注方法及系统
JP2728235B2 (ja) 画像品質分析の方法
US10783367B2 (en) System and method for data extraction and searching
US7092561B2 (en) Character recognition, including method and system for processing checks with invalidated MICR lines
US5465353A (en) Image matching and retrieval by multi-access redundant hashing
US7668372B2 (en) Method and system for collecting data from a plurality of machine readable documents
US5557091A (en) Method and system for bar code image processing
US6243501B1 (en) Adaptive recognition of documents using layout attributes
KR101139192B1 (ko) 정보 필터링 시스템, 정보 필터링 방법 및 정보 필터링 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
CN111582169B (zh) 图像识别数据纠错方法、装置、计算机设备和存储介质
US20060184479A1 (en) System and method for automatically categorizing objects using an empirically based goodness of fit technique
EP1986106A2 (en) Decision criteria for automated form population
EP2182451A1 (en) Electronic document classification apparatus
US20060221402A1 (en) Imaging system with quality audit capability
GB2417110A (en) Extracting indices from scanned documents
JP7149721B2 (ja) 情報処理装置、文字認識エンジン最適化方法及びプログラム
GB2417109A (en) Automatic document indexing and classification system
CN111931864B (zh) 基于顶点距离与交并比多重优化目标检测器的方法与系统
CN115240213A (zh) 表格图像识别方法、装置、电子设备及存储介质
JP2019169025A (ja) 情報処理装置、文字認識エンジン選択方法及びプログラム
CN111368632A (zh) 一种签名识别方法及设备
CN112949653A (zh) 文本识别方法以及电子设备、存储装置
US20060176521A1 (en) Digitization of microfiche
JP2004171316A (ja) Ocr装置及び文書検索システム及び文書検索プログラム
GB2417108A (en) Index extraction using a plurality of indexing entities

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant