CN115328854A - 一种基于人工智能档案管理系统 - Google Patents

一种基于人工智能档案管理系统 Download PDF

Info

Publication number
CN115328854A
CN115328854A CN202211036277.0A CN202211036277A CN115328854A CN 115328854 A CN115328854 A CN 115328854A CN 202211036277 A CN202211036277 A CN 202211036277A CN 115328854 A CN115328854 A CN 115328854A
Authority
CN
China
Prior art keywords
file
picture
text
block
file block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211036277.0A
Other languages
English (en)
Inventor
黄林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Xinyingjie Information Technology Co ltd
Original Assignee
Shanghai Xinyingjie Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Xinyingjie Information Technology Co ltd filed Critical Shanghai Xinyingjie Information Technology Co ltd
Priority to CN202211036277.0A priority Critical patent/CN115328854A/zh
Publication of CN115328854A publication Critical patent/CN115328854A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了基于人工智能档案管理系统,其对用户终端上传的文件进行分割处理,得到若干文本文件块和若干图片文件块,并对每个文本文件块和每个图片文件块进行检查处理,得到相应的文本内容和图片内容以及对文本文件块和图片文件块进行修复处理;再将所有文本文件块和所有图片文件块重新组合,还原得到相应的文件,以及根据上述文本内容和图片内容,对还原得到的文件进行多维分类和存储;上述方法能够对每一个上传的文件本身进行文本和图片两个方面的识别分析,以此实现对文件的重新分类,保证分类后的文件与档案存储空间自身的分类体系相互兼容,提高后续从档案存储空间查找所需文件的效率和准确性。

Description

一种基于人工智能档案管理系统
技术领域
本发明涉及档案文件管理的技术领域,特别涉及基于人工智能档案管理系统。
背景技术
现有的档案管理系统都是直接根据上传的文件自带的文件分类信息,将文件保存在相应的存储空间,其不会对文件重新进行分类处理。而文件自带的文件分类信息通常都是对文件粗略分析得到的,其并不能准确地文件本身包含的数据内容;此外,文件自带的文件分类信息并不一定与存储空间自身的分类体系相互兼容,从而导致文件无法准确保存到相应的存储空间中,降低后续对文件的查找准确性和可靠性。
发明内容
针对现有技术存在的缺陷,本发明提供一种基于人工智能档案管理系统,其对用户终端上传的文件进行分割处理,得到若干文本文件块和若干图片文件块,并对每个文本文件块和每个图片文件块进行检查处理,得到相应的文本内容和图片内容以及对文本文件块和图片文件块进行修复处理;再将所有文本文件块和所有图片文件块重新组合,还原得到相应的文件,以及根据上述文本内容和图片内容,对还原得到的文件进行多维分类和存储;上述方法能够对每一个上传的文件本身进行文本和图片两个方面的识别分析,以此实现对文件的重新分类,保证分类后的文件与档案存储空间自身的分类体系相互兼容,提高后续从档案存储空间查找所需文件的效率和准确性。
本发明提供一种基于人工智能档案管理系统,其包括:
文件发送源终端识别模块,其用于对来自用户终端的文件上传请求进行分析处理,判断用户终端是否具备文件上传权限;
文件接收模块,其用于根据上述文件上传权限的判断结果,与所述用户终端以预定文件上传模式进行连接,从而接收所述用户终端上传的文件;
文件分割模块,其用于根据接收到的文件的数据内容,将所述文件分割为若干文本文件块和若干图片文件块,并确定每个文本文件块和每个图片文件块在所述文件中的原始数据位置;
第一文件块处理模块,其用于对每个文本文件块进行文本内容检查处理,并根据文本内容检查处理的结果,对相应的文本文件块进行文本修复处理和文本内容标记处理;
第二文件块处理模块,其用于对每个图片文件块进行图片检查处理,并根据图片检查处理的结果,对相应的图片文件块进行图片修复处理和图片内容标记处理;
文件块整合模块,其用于根据所述原始数据位置,将完成修复处理的所有文本文件块和图片文件块进行重新组合,从而还原得到相应的文件;
文件分类与存储模块,其用于根据所述文本内容标记处理和所述图片内容标记处理的结果,对还原得到的文件进行多维分类以及保存到相应的档案存储空间。
进一步,文件发送源终端识别模块用于对来自用户终端的文件上传请求进行分析处理,判断用户终端是否具备文件上传权限具体包括:
所述文件发送源终端识别模块从来自用户终端的文件上传请求中提取得到用户终端的终端身份信息;将所述终端身份信息与预设终端身份信息库进行比对,若所述终端身份信息存在于预设终端身份信息库中,则判断用户终端具备文件上传权限;否则,判断用户终端不具备文件上传权限。
进一步,文件接收模块根据上述文件上传权限的判断结果,与所述用户终端以预定文件上传模式进行连接,从而接收所述用户终端上传的文件具体包括:
当所述用户终端不具备文件上传权限时,所述文件接收模块不与所述用户终端进行连接;
当所述用户终端具备文件上传权限时,所述文件接收模块根据所述用户终端的历史文件上传日志信息,确定所述用户终端在历史文件上传过程的平均文件上传持续时间;并以所述平均文件上传持续时间作为所述用户终端与所述文件接收模块之间的连接生命周期,从而使所述用户终端接入到所述文件接收模块;再将所述用户终端的最大文件上传速率和所述文件接收模块的最大文件接收速率中的最小者的一半,确定为所述用户终端的平均文件上传速率。
进一步,文件分割模块根据接收到的文件的数据内容,将所述文件分割为若干文本文件块和若干图片文件块,并确定每个文本文件块和每个图片文件块在所述文件中的原始数据位置具体包括:
当所述文件分割模块确认所述用户终端完成向所述文件接收模块上传一个完整文件后,所述文件分割模块对所述文件进行数据内容识别,确定所述文件中每一个文本文件块的开始文本代码所处位置和结束文本代码所处位置,以及每一个图片文件块的首位像素所处位置和末尾像素所处位置;
根据所述开始文本代码所处位置和所述结束文本代码所处位置,从所述文件提取得到其包含的所有文本文件块,以及确定每个文本文件块在所述文件中的原始数据位置;
根据所述首位像素所处位置和所述末尾像素所处位置,从所述文件中提取得到其包含的所有图片文件块,以及确定每个图片文件块在所述文件中的原始数据位置。
进一步,文件分割模块根据接收到的文件的数据内容,将所述文件分割为若干文本文件块和若干图片文件块,并确定每个文本文件块和每个图片文件块在所述文件中的原始数据位置还包括:
所述文件分割模块在分割出若干文本文件块和若干图片文件块后,首先根据每个文本文件块的开始文本代码所处位置和结束文本代码所处位置,以及每个图片文件块的首位像素所处位置和末尾像素所处位置,判断每个文件块是否存在分割到文字以及分割到完整的图片的情况,将所述情况记做分割异常情况,若存在所述分割异常情况则定位分割异常情况的分割边缘首尾端的位置点,然后根据所述分割异常情况的分割边缘首尾端的位置点找到与当前分割异常情况的文件块异常边缘相拼合的其余文件块进行重新拼合并对重新拼合的文件块进行分割后再次进行上述步骤的检测,直至分割出的若干文本文件块和若干图片文件块需确保不会分割到文字以及不会将完整的图片进行分割,其过程为:
步骤S1,利用下面公式(1),根据每个文本文件块的开始文本代码所处位置和结束文本代码所处位置,以及每个图片文件块的首位像素所处位置和末尾像素所处位置,判断每个文件块是否存在分割到文字以及分割到完整的图片的情况,
Figure BDA0003819200100000041
在上述公式(1)中,W(a)表示第a个文件块是否存在分割到文字以及分割到完整的图片的情况的判定值;∨{}表示若括号内存在一个或多个算式成立,则整体结果数值为1,反之整体结果数值为0;[X0(a),Y0(a)]表示第a个文件块的开始文本代码所处位置点或首位像素所处位置点;[X(a),Y(a)]表示第a个文件块的结束文本代码所处位置点或末尾像素所处位置点;G{→}表示从括号内箭头左边位置点到箭头右边的位置点之间若存在像素点不为0的情况则整体结果数值为1,反之整体结果数值为0;
若W(a)=0,表示第a个文件块不存在分割到文字以及分割到完整的图片的情况;
若W(a)=1,表示第a个文件块存在分割到文字以及分割到完整的图片的情况;
步骤S2,利用下面公式(2),根据分割异常情况的分割边缘首尾端的位置点,以及为分割前所述原始文件的四个顶点位置点,判断所述分割异常情况的分割边缘是否与原始文件的四个边缘相重合,以避免原始文件就存在文字被分割的情况,
Figure BDA0003819200100000051
在上述公式(2)中,Fb(i)表示第b个存在分割异常情况的文件块中第i个分割到文字以及分割到完整的图片的边缘是否与原始文件的四个边缘相重合的判定值;[xb(i_1),yb(i_1)]表示第b个存在分割异常情况的文件块中第i个分割到文字以及分割到完整的图片的边缘的首端的位置点;[xb(i_2),yb(i_2)]表示第b个存在分割异常情况的文件块中第i个分割到文字以及分割到完整的图片的边缘的尾端的位置点;(Xk,Yk)表示原始文件的第k个顶点位置点;
Figure BDA0003819200100000052
表示将k的值从1取值到4代入公式中若存在一个或一个以上的中括号内的算式成立则整体数值为1,反之整体数值为0;
若Fb(i)=0,表示第b个存在分割异常情况的文件块中第i个分割到文字以及分割到完整的图片的边缘并未与原始文件的四个边缘相重合;
若Fb(i)=1,表示第b个存在分割异常情况的文件块中第i个分割到文字以及分割到完整的图片的边缘与原始文件的四个边缘相重合,则将第b个存在分割异常情况的文件块列入不存在分割异常情况的文件块内;
步骤S3,若所述分割异常情况的分割边缘并非与所述原始文件的四个边缘相重合,则利用下面公式(3),根据所述分割异常情况的分割边缘首尾端的位置点得到与当前分割异常情况的文件块异常边缘相拼合的其余文件块,
Figure BDA0003819200100000053
在上述公式(3)中,P(a)表示第a个文件块与第b个存在分割异常情况的文件块中第i个分割到文字以及分割到完整的图片的边缘相拼和的控制值;
若P(a)=0,则控制第a个文件块与第b个存在分割异常情况的文件块中第i个分割到文字以及分割到完整的图片的边缘不进行任何形式的拼合;
若P(a)=1,则控制第a个文件块与第b个存在分割异常情况的文件块中第i个分割到文字以及分割到完整的图片的边缘按照对应重叠的坐标点进行拼合。
进一步,第一文件块处理模块对每个文本文件块进行文本内容检查处理,并根据文本内容检查处理的结果,对相应的文本文件块进行文本修复处理和文本内容标记处理具体包括:
所述第一文件块处理模块对每个文本文件块进行文本语法检查处理和文本错别字检查处理,以此确定每个文本文件块存在的文本语法错误区域和错别字;并对每个文本语法错误区域和每个错别字进行修正处理;
所述第一文件块处理模块还对每个文本文件块进行词汇出现频率检查处理,得到每个文本文件块中对应词汇的出现频率,并将满足特定出现频率条件的词汇作为相应文本文件块的关键标记词汇,从而对相应文本文件块进行内容标记处理。
进一步,第二文件块处理模块对每个图片文件块进行图片检查处理,并根据图片检查处理的结果,对相应的图片文件块进行图片修复处理和图片内容标记处理具体包括:
所述第二文件块处理模块对每个图片文件块进行图片像素检查处理,确定每个图片文件块存在的所有坏点像素和图片画面存在的物体轮廓信息;
对每个图片文件存在的所有坏点像素逐一进行修复处理;
根据所述物体轮廓信息,确定图片画面存在的物体类型;并根据所述物体类型,对相应图片文件块的图片内容进行标记处理。
进一步,文件块整合模块根据所述原始数据位置,将完成修复处理的所有文本文件块和图片文件块进行重新组合,从而还原得到相应的文件具体包括:
所述文件块整合模块根据每个文本文件块的开始文本代码所处位置和结束文本代码所处位置,以及每个图片文件块的首位像素所处位置和末尾像素所处位置,将所有文本文件块和所有图片文件块进行重新拼接组合,从而还原得到相应的文件。
进一步,文件分类与存储模块根据所述文本内容标记处理和所述图片内容标记处理的结果,对还原得到的文件进行多维分类以及保存到相应的档案存储空间具体包括:
所述文件分类与存储模块根据所述文本内容标记处理和所述图片内容标记处理的结果,赋予还原得到的文件与所述关键标记词汇和所述物体类型对应的分类索引词,从而实现对还原得到的文件的多维分类,并将还原得到的文件及其对应的分类索引次保存到相应的档案存储空间。
相比于现有技术,该基于人工智能档案管理系统对用户终端上传的文件进行分割处理,得到若干文本文件块和若干图片文件块,并对每个文本文件块和每个图片文件块进行检查处理,得到相应的文本内容和图片内容以及对文本文件块和图片文件块进行修复处理;再将所有文本文件块和所有图片文件块重新组合,还原得到相应的文件,以及根据上述文本内容和图片内容,对还原得到的文件进行多维分类和存储;上述方法能够对每一个上传的文件本身进行文本和图片两个方面的识别分析,以此实现对文件的重新分类,保证分类后的文件与档案存储空间自身的分类体系相互兼容,提高后续从档案存储空间查找所需文件的效率和准确性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种基于人工智能档案管理系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1,为本发明实施例提供的一种基于人工智能档案管理系统的结构示意图。该基于人工智能档案管理系统包括:
文件发送源终端识别模块,其用于对来自用户终端的文件上传请求进行分析处理,判断用户终端是否具备文件上传权限;
文件接收模块,其用于根据上述文件上传权限的判断结果,与该用户终端以预定文件上传模式进行连接,从而接收该用户终端上传的文件;
文件分割模块,其用于根据接收到的文件的数据内容,将该文件分割为若干文本文件块和若干图片文件块,并确定每个文本文件块和每个图片文件块在该文件中的原始数据位置;
第一文件块处理模块,其用于对每个文本文件块进行文本内容检查处理,并根据文本内容检查处理的结果,对相应的文本文件块进行文本修复处理和文本内容标记处理;
第二文件块处理模块,其用于对每个图片文件块进行图片检查处理,并根据图片检查处理的结果,对相应的图片文件块进行图片修复处理和图片内容标记处理;
文件块整合模块,其用于根据该原始数据位置,将完成修复处理的所有文本文件块和图片文件块进行重新组合,从而还原得到相应的文件;
文件分类与存储模块,其用于根据该文本内容标记处理和该图片内容标记处理的结果,对还原得到的文件进行多维分类以及保存到相应的档案存储空间。
上述技术方案的有益效果为:该基于人工智能档案管理系统对用户终端上传的文件进行分割处理,得到若干文本文件块和若干图片文件块,并对每个文本文件块和每个图片文件块进行检查处理,得到相应的文本内容和图片内容以及对文本文件块和图片文件块进行修复处理;再将所有文本文件块和所有图片文件块重新组合,还原得到相应的文件,以及根据上述文本内容和图片内容,对还原得到的文件进行多维分类和存储;上述方法能够对每一个上传的文件本身进行文本和图片两个方面的识别分析,以此实现对文件的重新分类,保证分类后的文件与档案存储空间自身的分类体系相互兼容,提高后续从档案存储空间查找所需文件的效率和准确性。
优选地,文件发送源终端识别模块用于对来自用户终端的文件上传请求进行分析处理,判断用户终端是否具备文件上传权限具体包括:
该文件发送源终端识别模块从来自用户终端的文件上传请求中提取得到用户终端的终端身份信息;将该终端身份信息与预设终端身份信息库进行比对,若该终端身份信息存在于预设终端身份信息库中,则判断用户终端具备文件上传权限;否则,判断用户终端不具备文件上传权限。
上述技术方案的有益效果为:利用文件发送源终端识别模块对用户终端的身份进行识别认证,以此判断用户终端是否具备文件上传权限,从而保证只有允许的用户终端才能获得上传文件的权限,确保档案管理系统的数据安全性。
优选地,文件接收模块根据上述文件上传权限的判断结果,与该用户终端以预定文件上传模式进行连接,从而接收该用户终端上传的文件具体包括:
当该用户终端不具备文件上传权限时,该文件接收模块不与该用户终端进行连接;
当该用户终端具备文件上传权限时,该文件接收模块根据该用户终端的历史文件上传日志信息,确定该用户终端在历史文件上传过程的平均文件上传持续时间;并以该平均文件上传持续时间作为该用户终端与该文件接收模块之间的连接生命周期,从而使该用户终端接入到该文件接收模块;再将该用户终端的最大文件上传速率和该文件接收模块的最大文件接收速率中的最小者的一半,确定为该用户终端的平均文件上传速率。
上述技术方案的有益效果为:通过上述方式,以用户终端在历史文件上传过程的平均文件上传持续时间,作为用户终端与文件接收模块之间的连接生命周期,使得在该连接生命周期内用户终端才能与文件接收模块连接,在该连接生命周期外用户终端将与文件接收模块断开连接,从而避免用户终端始终与文件接收模块而占用档案管理系统的文件上传带宽。此外,将该用户终端的最大文件上传速率和该文件接收模块的最大文件接收速率中的最小者的一半,确定为该用户终端的平均文件上传速率,这样能够保证用户终端高效将文件上传到文件接收模块。
优选地,文件分割模块根据接收到的文件的数据内容,将该文件分割为若干文本文件块和若干图片文件块,并确定每个文本文件块和每个图片文件块在该文件中的原始数据位置具体包括:
当该文件分割模块确认该用户终端完成向该文件接收模块上传一个完整文件后,该文件分割模块对该文件进行数据内容识别,确定该文件中每一个文本文件块的开始文本代码所处位置和结束文本代码所处位置,以及每一个图片文件块的首位像素所处位置和末尾像素所处位置;
根据该开始文本代码所处位置和该结束文本代码所处位置,从该文件提取得到其包含的所有文本文件块,以及确定每个文本文件块在该文件中的原始数据位置;
根据该首位像素所处位置和该末尾像素所处位置,从该文件中提取得到其包含的所有图片文件块,以及确定每个图片文件块在该文件中的原始数据位置。
上述技术方案的有益效果为:利用文件分割模块对文件进行文本文件块和图片文件块的分割处理,这样可对文件的每个文件块进行准确定位和内容分析,从而提高对每个文件块的识别准确性。
优选地,文件分割模块根据接收到的文件的数据内容,将该文件分割为若干文本文件块和若干图片文件块,并确定每个文本文件块和每个图片文件块在该文件中的原始数据位置还包括:
该文件分割模块在分割出若干文本文件块和若干图片文件块后,首先根据每个文本文件块的开始文本代码所处位置和结束文本代码所处位置,以及每个图片文件块的首位像素所处位置和末尾像素所处位置,判断每个文件块是否存在分割到文字以及分割到完整的图片的情况,将该情况记做分割异常情况,若存在该分割异常情况则定位分割异常情况的分割边缘首尾端的位置点,然后根据该分割异常情况的分割边缘首尾端的位置点找到与当前分割异常情况的文件块异常边缘相拼合的其余文件块进行重新拼合并对重新拼合的文件块进行分割后再次进行上述步骤的检测,直至分割出的若干文本文件块和若干图片文件块需确保不会分割到文字以及不会将完整的图片进行分割,其过程为:
步骤S1,利用下面公式(1),根据每个文本文件块的开始文本代码所处位置和结束文本代码所处位置(可选地,文本文件块均可转变为图片文件块,并且文本文件块内的文字均可转变为图片文件块中的像素点,并且将有文本的地方的像素点的像素值标记为1,没有文本的地方的像素点的像素值标记为0,每个文本文件块的开始文本代码所处位置和结束文本代码所处位置即为首位像素所处位置和末尾像素所处位置),以及每个图片文件块的首位像素所处位置和末尾像素所处位置,判断每个文件块是否存在分割到文字以及分割到完整的图片的情况,
Figure BDA0003819200100000111
在上述公式(1)中,W(a)表示第a个文件块是否存在分割到文字以及分割到完整的图片的情况的判定值;∨{}表示若括号内存在一个或多个算式成立,则整体结果数值为1,反之整体结果数值为0;[X0(a),Y0(a)]表示第a个文件块的开始文本代码所处位置点或首位像素所处位置点;[X(a),Y(a)]表示第a个文件块的结束文本代码所处位置点或末尾像素所处位置点;G{→}表示从括号内箭头左边位置点到箭头右边的位置点之间若存在像素点不为0的情况则整体结果数值为1,反之整体结果数值为0;
若W(a)=0,表示第a个文件块不存在分割到文字以及分割到完整的图片的情况;
若W(a)=1,表示第a个文件块存在分割到文字以及分割到完整的图片的情况;
步骤S2,利用下面公式(2),根据分割异常情况的分割边缘首尾端的位置点,以及为分割前该原始文件的四个顶点位置点,判断该分割异常情况的分割边缘是否与原始文件的四个边缘相重合,以避免原始文件就存在文字被分割的情况,
Figure BDA0003819200100000121
在上述公式(2)中,Fb(i)表示第b个存在分割异常情况的文件块中第i个分割到文字以及分割到完整的图片的边缘是否与原始文件的四个边缘相重合的判定值;[xb(i_1),yb(i_1)]表示第b个存在分割异常情况的文件块中第i个分割到文字以及分割到完整的图片的边缘的首端的位置点;[xb(i_2),yb(i_2)]表示第b个存在分割异常情况的文件块中第i个分割到文字以及分割到完整的图片的边缘的尾端的位置点;(Xk,Yk)表示原始文件的第k个顶点位置点;
Figure BDA0003819200100000122
表示将k的值从1取值到4代入公式中若存在一个或一个以上的中括号内的算式成立则整体数值为1,反之整体数值为0;
若Fb(i)=0,表示第b个存在分割异常情况的文件块中第i个分割到文字以及分割到完整的图片的边缘并未与原始文件的四个边缘相重合;
若Fb(i)=1,表示第b个存在分割异常情况的文件块中第i个分割到文字以及分割到完整的图片的边缘与原始文件的四个边缘相重合,则将第b个存在分割异常情况的文件块列入不存在分割异常情况的文件块内;
步骤S3,若该分割异常情况的分割边缘并非与该原始文件的四个边缘相重合,则利用下面公式(3),根据该分割异常情况的分割边缘首尾端的位置点得到与当前分割异常情况的文件块异常边缘相拼合的其余文件块,
Figure BDA0003819200100000131
在上述公式(3)中,P(a)表示第a个文件块与第b个存在分割异常情况的文件块中第i个分割到文字以及分割到完整的图片的边缘相拼和的控制值;
若P(a)=0,则控制第a个文件块与第b个存在分割异常情况的文件块中第i个分割到文字以及分割到完整的图片的边缘不进行任何形式的拼合;
若P(a)=1,则控制第a个文件块与第n个存在分割异常情况的文件块中第i个分割到文字以及分割到完整的图片的边缘按照对应重叠的坐标点进行拼合。
上述技术方案的有益效果为:利用上述公式(1),根据每个文本文件块的开始文本代码所处位置和结束文本代码所处位置,以及每个图片文件块的首位像素所处位置和末尾像素所处位置,判断每个文件块是否存在分割到文字以及分割到完整的图片的情况,从而知晓是否分割存在问题,便于及时发现问题及时修正;然后利用上述公式(2),根据分割异常情况的分割边缘首尾端的位置点,以及为分割前原始文件的四个顶点位置点,判断分割异常情况的分割边缘是否与原始文件的四个边缘相重合,以避免原始文件就存在文字被分割的情况,从而进一步确定分割异常情况,确保系统的可靠性;最后利用上述公式(3),根据分割异常情况的分割边缘首尾端的位置点得到与当前分割异常情况的文件块异常边缘相拼合的其余文件块,以确保分割的位置为空白位置,不影响后续的步骤,确保系统的准确性。
优选地,第一文件块处理模块对每个文本文件块进行文本内容检查处理,并根据文本内容检查处理的结果,对相应的文本文件块进行文本修复处理和文本内容标记处理具体包括:
该第一文件块处理模块对每个文本文件块进行文本语法检查处理和文本错别字检查处理,以此确定每个文本文件块存在的文本语法错误区域和错别字;并对每个文本语法错误区域和每个错别字进行修正处理;
该第一文件块处理模块还对每个文本文件块进行词汇出现频率检查处理,得到每个文本文件块中对应词汇的出现频率,并将满足特定出现频率条件的词汇作为相应文本文件块的关键标记词汇,从而对相应文本文件块进行内容标记处理。
上述技术方案的有益效果为:通过上述方式,能够对每个文本文件块进行文本内容的修正和文本内容的标记,保证文本文件块的内容正确性和可溯源性。
优选地,第二文件块处理模块对每个图片文件块进行图片检查处理,并根据图片检查处理的结果,对相应的图片文件块进行图片修复处理和图片内容标记处理具体包括:
该第二文件块处理模块对每个图片文件块进行图片像素检查处理,确定每个图片文件块存在的所有坏点像素和图片画面存在的物体轮廓信息;
对每个图片文件存在的所有坏点像素逐一进行修复处理;其中,上述坏点像素可为但不限于是亮度值低于预设亮度阈值或者分辨率值低于预设分辨率阈值的像素点;相应地,上述修复处理可为但不限于是对坏点像素的亮度或分辨率修复处理;
根据该物体轮廓信息,确定图片画面存在的物体类型;并根据该物体类型,对相应图片文件块的图片内容进行标记处理。
上述技术方案的有益效果为:通过上述方式,能够对每个图片文件块进行图片内容的修正和图片内容的标记,保证图片文件块的内容正确性和可溯源性。
优选地,文件块整合模块根据该原始数据位置,将完成修复处理的所有文本文件块和图片文件块进行重新组合,从而还原得到相应的文件具体包括:
该文件块整合模块根据每个文本文件块的开始文本代码所处位置和结束文本代码所处位置,以及每个图片文件块的首位像素所处位置和末尾像素所处位置,将所有文本文件块和所有图片文件块进行重新拼接组合,从而还原得到相应的文件。
上述技术方案的有益效果为:通过上述方式,能够将经过修正或修复处理的文本文件块和图片文件块按照其原来在文件中的位置进行重新组合,从而保证还原得到的文件的文件内容正确性。
优选地,文件分类与存储模块根据该文本内容标记处理和该图片内容标记处理的结果,对还原得到的文件进行多维分类以及保存到相应的档案存储空间具体包括:
该文件分类与存储模块根据该文本内容标记处理和该图片内容标记处理的结果,赋予还原得到的文件与该关键标记词汇和该物体类型对应的分类索引词,从而实现对还原得到的文件的多维分类,并将还原得到的文件及其对应的分类索引次保存到相应的档案存储空间。
上述技术方案的有益效果为:通过上述方式,能够对还原得到的文件进行多维分类,从而便于后续从多个方面在档案存储空间对相应文件进行准确的查找。
从上述实施例的内容可知,该基于人工智能档案管理系统对用户终端上传的文件进行分割处理,得到若干文本文件块和若干图片文件块,并对每个文本文件块和每个图片文件块进行检查处理,得到相应的文本内容和图片内容以及对文本文件块和图片文件块进行修复处理;再将所有文本文件块和所有图片文件块重新组合,还原得到相应的文件,以及根据上述文本内容和图片内容,对还原得到的文件进行多维分类和存储;上述方法能够对每一个上传的文件本身进行文本和图片两个方面的识别分析,以此实现对文件的重新分类,保证分类后的文件与档案存储空间自身的分类体系相互兼容,提高后续从档案存储空间查找所需文件的效率和准确性。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种基于人工智能档案管理系统,其特征在于,其包括:
文件发送源终端识别模块,其用于对来自用户终端的文件上传请求进行分析处理,判断用户终端是否具备文件上传权限;
文件接收模块,其用于根据上述文件上传权限的判断结果,与所述用户终端以预定文件上传模式进行连接,从而接收所述用户终端上传的文件;文件分割模块,其用于根据接收到的文件的数据内容,将所述文件分割为若干文本文件块和若干图片文件块,并确定每个文本文件块和每个图片文件块在所述文件中的原始数据位置;
第一文件块处理模块,其用于对每个文本文件块进行文本内容检查处理,并根据文本内容检查处理的结果,对相应的文本文件块进行文本修复处理和文本内容标记处理;
第二文件块处理模块,其用于对每个图片文件块进行图片检查处理,并根据图片检查处理的结果,对相应的图片文件块进行图片修复处理和图片内容标记处理;
文件块整合模块,其用于根据所述原始数据位置,将完成修复处理的所有文本文件块和图片文件块进行重新组合,从而还原得到相应的文件;文件分类与存储模块,其用于根据所述文本内容标记处理和所述图片内容标记处理的结果,对还原得到的文件进行多维分类以及保存到相应的档案存储空间。
2.如权利要求1所述的基于人工智能档案管理系统,其特征在于:
文件发送源终端识别模块用于对来自用户终端的文件上传请求进行分析处理,判断用户终端是否具备文件上传权限具体包括:
所述文件发送源终端识别模块从来自用户终端的文件上传请求中提取得到用户终端的终端身份信息;将所述终端身份信息与预设终端身份信息库进行比对,若所述终端身份信息存在于预设终端身份信息库中,则判断用户终端具备文件上传权限;否则,判断用户终端不具备文件上传权限。
3.如权利要求2所述的基于人工智能档案管理系统,其特征在于:
文件接收模块根据上述文件上传权限的判断结果,与所述用户终端以预定文件上传模式进行连接,从而接收所述用户终端上传的文件具体包括:当所述用户终端不具备文件上传权限时,所述文件接收模块不与所述用户终端进行连接;
当所述用户终端具备文件上传权限时,所述文件接收模块根据所述用户终端的历史文件上传日志信息,确定所述用户终端在历史文件上传过程的平均文件上传持续时间;并以所述平均文件上传持续时间作为所述用户终端与所述文件接收模块之间的连接生命周期,从而使所述用户终端接入到所述文件接收模块;再将所述用户终端的最大文件上传速率和所述文件接收模块的最大文件接收速率中的最小者的一半,确定为所述用户终端的平均文件上传速率。
4.如权利要求3所述的基于人工智能档案管理系统,其特征在于:
文件分割模块根据接收到的文件的数据内容,将所述文件分割为若干文本文件块和若干图片文件块,并确定每个文本文件块和每个图片文件块在所述文件中的原始数据位置具体包括:
当所述文件分割模块确认所述用户终端完成向所述文件接收模块上传一个完整文件后,所述文件分割模块对所述文件进行数据内容识别,确定所述文件中每一个文本文件块的开始文本代码所处位置和结束文本代码所处位置,以及每一个图片文件块的首位像素所处位置和末尾像素所处位置;
根据所述开始文本代码所处位置和所述结束文本代码所处位置,从所述文件提取得到其包含的所有文本文件块,以及确定每个文本文件块在所述文件中的原始数据位置;
根据所述首位像素所处位置和所述末尾像素所处位置,从所述文件中提取得到其包含的所有图片文件块,以及确定每个图片文件块在所述文件中的原始数据位置。
5.如权利要求4所述的基于人工智能档案管理系统,其特征在于:
文件分割模块根据接收到的文件的数据内容,将所述文件分割为若干文本文件块和若干图片文件块,并确定每个文本文件块和每个图片文件块在所述文件中的原始数据位置还包括:
所述文件分割模块在分割出若干文本文件块和若干图片文件块后,首先根据每个文本文件块的开始文本代码所处位置和结束文本代码所处位置,以及每个图片文件块的首位像素所处位置和末尾像素所处位置,判断每个文件块是否存在分割到文字以及分割到完整的图片的情况,将所述情况记做分割异常情况,若存在所述分割异常情况则定位分割异常情况的分割边缘首尾端的位置点,然后根据所述分割异常情况的分割边缘首尾端的位置点找到与当前分割异常情况的文件块异常边缘相拼合的其余文件块进行重新拼合并对重新拼合的文件块进行分割后再次进行上述步骤的检测,直至分割出的若干文本文件块和若干图片文件块需确保不会分割到文字以及不会将完整的图片进行分割,其过程为:
步骤S1,利用下面公式(1),根据每个文本文件块的开始文本代码所处位置和结束文本代码所处位置,以及每个图片文件块的首位像素所处位置和末尾像素所处位置,判断每个文件块是否存在分割到文字以及分割到完整的图片的情况,
Figure FDA0003819200090000041
在上述公式(1)中,W(a)表示第a个文件块是否存在分割到文字以及分割到完整的图片的情况的判定值;∨{}表示若括号内存在一个或多个算式成立,则整体结果数值为1,反之整体结果数值为0;[X0(a),Y0(a)]表示第a个文件块的开始文本代码所处位置点或首位像素所处位置点;[X(a),Y(a)]表示第a个文件块的结束文本代码所处位置点或末尾像素所处位置点;G{→}表示从括号内箭头左边位置点到箭头右边的位置点之间若存在像素点不为0的情况则整体结果数值为1,反之整体结果数值为0;
若W(a)=0,表示第a个文件块不存在分割到文字以及分割到完整的图片的情况;
若W(a)=1,表示第a个文件块存在分割到文字以及分割到完整的图片的情况;
步骤S2,利用下面公式(2),根据分割异常情况的分割边缘首尾端的位置点,以及为分割前所述原始文件的四个顶点位置点,判断所述分割异常情况的分割边缘是否与原始文件的四个边缘相重合,以避免原始文件就存在文字被分割的情况,
Figure FDA0003819200090000042
在上述公式(2)中,Fb(i)表示第b个存在分割异常情况的文件块中第i个分割到文字以及分割到完整的图片的边缘是否与原始文件的四个边缘相重合的判定值;[xb(i_1),yb(i_1)]表示第b个存在分割异常情况的文件块中第i个分割到文字以及分割到完整的图片的边缘的首端的位置点;[xb(i_2),yb(i_2)]表示第b个存在分割异常情况的文件块中第i个分割到文字以及分割到完整的图片的边缘的尾端的位置点;(Xk,Yk)表示原始文件的第k个顶点位置点;
Figure FDA0003819200090000051
表示将k的值从1取值到4代入公式中若存在一个或一个以上的中括号内的算式成立则整体数值为1,反之整体数值为0;
若Fb(i)=0,表示第b个存在分割异常情况的文件块中第i个分割到文字以及分割到完整的图片的边缘并未与原始文件的四个边缘相重合;
若Fb(i)=1,表示第b个存在分割异常情况的文件块中第i个分割到文字以及分割到完整的图片的边缘与原始文件的四个边缘相重合,则将第b个存在分割异常情况的文件块列入不存在分割异常情况的文件块内;
步骤S3,若所述分割异常情况的分割边缘并非与所述原始文件的四个边缘相重合,则利用下面公式(3),根据所述分割异常情况的分割边缘首尾端的位置点得到与当前分割异常情况的文件块异常边缘相拼合的其余文件块,
Figure FDA0003819200090000052
在上述公式(3)中,P(a)表示第a个文件块与第b个存在分割异常情况的文件块中第i个分割到文字以及分割到完整的图片的边缘相拼和的控制值;
若P(a)=0,则控制第a个文件块与第b个存在分割异常情况的文件块中第i个分割到文字以及分割到完整的图片的边缘不进行任何形式的拼合;
若P(a)=1,则控制第a个文件块与第b个存在分割异常情况的文件块中第i个分割到文字以及分割到完整的图片的边缘按照对应重叠的坐标点进行拼合。
6.如权利要求4所述的基于人工智能档案管理系统,其特征在于:
第一文件块处理模块对每个文本文件块进行文本内容检查处理,并根据文本内容检查处理的结果,对相应的文本文件块进行文本修复处理和文本内容标记处理具体包括:
所述第一文件块处理模块对每个文本文件块进行文本语法检查处理和文本错别字检查处理,以此确定每个文本文件块存在的文本语法错误区域和错别字;并对每个文本语法错误区域和每个错别字进行修正处理;所述第一文件块处理模块还对每个文本文件块进行词汇出现频率检查处理,得到每个文本文件块中对应词汇的出现频率,并将满足特定出现频率条件的词汇作为相应文本文件块的关键标记词汇,从而对相应文本文件块进行内容标记处理。
7.如权利要求6所述的基于人工智能档案管理系统,其特征在于:
第二文件块处理模块对每个图片文件块进行图片检查处理,并根据图片检查处理的结果,对相应的图片文件块进行图片修复处理和图片内容标记处理具体包括:
所述第二文件块处理模块对每个图片文件块进行图片像素检查处理,确定每个图片文件块存在的所有坏点像素和图片画面存在的物体轮廓信息;
对每个图片文件存在的所有坏点像素逐一进行修复处理;
根据所述物体轮廓信息,确定图片画面存在的物体类型;并根据所述物体类型,对相应图片文件块的图片内容进行标记处理。
8.如权利要求7所述的基于人工智能档案管理系统,其特征在于:
文件块整合模块根据所述原始数据位置,将完成修复处理的所有文本文件块和图片文件块进行重新组合,从而还原得到相应的文件具体包括:所述文件块整合模块根据每个文本文件块的开始文本代码所处位置和结束文本代码所处位置,以及每个图片文件块的首位像素所处位置和末尾像素所处位置,将所有文本文件块和所有图片文件块进行重新拼接组合,从而还原得到相应的文件。
9.如权利要求8所述的基于人工智能档案管理系统,其特征在于:
文件分类与存储模块根据所述文本内容标记处理和所述图片内容标记处理的结果,对还原得到的文件进行多维分类以及保存到相应的档案存储空间具体包括:
所述文件分类与存储模块根据所述文本内容标记处理和所述图片内容标记处理的结果,赋予还原得到的文件与所述关键标记词汇和所述物体类型对应的分类索引词,从而实现对还原得到的文件的多维分类,并将还原得到的文件及其对应的分类索引次保存到相应的档案存储空间。
CN202211036277.0A 2022-08-28 2022-08-28 一种基于人工智能档案管理系统 Pending CN115328854A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211036277.0A CN115328854A (zh) 2022-08-28 2022-08-28 一种基于人工智能档案管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211036277.0A CN115328854A (zh) 2022-08-28 2022-08-28 一种基于人工智能档案管理系统

Publications (1)

Publication Number Publication Date
CN115328854A true CN115328854A (zh) 2022-11-11

Family

ID=83928897

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211036277.0A Pending CN115328854A (zh) 2022-08-28 2022-08-28 一种基于人工智能档案管理系统

Country Status (1)

Country Link
CN (1) CN115328854A (zh)

Similar Documents

Publication Publication Date Title
CN108985057B (zh) 一种webshell检测方法及相关设备
CN111797403B (zh) 基于大数据和物联网的数据处理方法及云计算服务器中心
CN110569341A (zh) 配置聊天机器人的方法、装置、计算机设备和存储介质
CN113271237B (zh) 工控协议的解析方法、装置、存储介质及处理器
EP4155974A1 (en) Knowledge graph construction method and apparatus, check method and storage medium
CN110135225B (zh) 样本标注方法及计算机存储介质
CN112486955B (zh) 基于大数据和人工智能的数据维护方法及大数据服务器
JP2875053B2 (ja) 登録済み指紋特徴点の更新方法
CN115328854A (zh) 一种基于人工智能档案管理系统
CN112286780B (zh) 识别算法的测试方法、装置、设备及存储介质
CN116070111B (zh) 一种基于ai的大数据挖掘的辅助决策方法及系统
CN112363929B (zh) 系统上线方法、装置、计算机设备及存储介质
CN115795021A (zh) 一种大数据风险监测识别预警装置及系统
KR20230024160A (ko) 의미 분할 학습 데이터 오류 검출 및 수정 시스템 및 그 방법
CN114064486A (zh) 一种接口自动化测试方法
CN109560964B (zh) 一种设备合规检查方法及装置
CN113869316A (zh) 信息通知方法、装置、设备及计算机存储介质
CN117274110B (zh) 一种基于生成式人工智能与图神经网络的影像优化方法
CN115033633B (zh) 一种信创环境下的远程运维服务实现方法及系统
CN117873905B (zh) 一种代码同源检测的方法、装置、设备及介质
CN113841156B (zh) 基于图像识别的控制方法与装置
CN116882968B (zh) 一种故障缺陷全过程处理的设计和实现方法
CN110716817B (zh) 系统运行故障处理方法、装置、存储介质及电子设备
CN114139609A (zh) 一种基于图像识别技术的继电保护定值自动核对的方法
CN115862018A (zh) 一种字符识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination