CN117235013B - 一种基于人工智能的智慧档案管理方法 - Google Patents
一种基于人工智能的智慧档案管理方法 Download PDFInfo
- Publication number
- CN117235013B CN117235013B CN202311491608.4A CN202311491608A CN117235013B CN 117235013 B CN117235013 B CN 117235013B CN 202311491608 A CN202311491608 A CN 202311491608A CN 117235013 B CN117235013 B CN 117235013B
- Authority
- CN
- China
- Prior art keywords
- sequence
- row
- sequences
- line
- recursion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007726 management method Methods 0.000 title claims abstract description 25
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 69
- 239000011159 matrix material Substances 0.000 claims abstract description 58
- 238000007906 compression Methods 0.000 claims abstract description 35
- 230000006835 compression Effects 0.000 claims abstract description 35
- 230000011218 segmentation Effects 0.000 claims abstract description 16
- 238000012216 screening Methods 0.000 claims abstract description 4
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000012163 sequencing technique Methods 0.000 claims description 15
- 238000005192 partition Methods 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 3
- 238000003860 storage Methods 0.000 abstract description 9
- 230000000694 effects Effects 0.000 description 4
- 230000007774 longterm Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 229910002056 binary alloy Inorganic materials 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及数字电子档案数据处理技术领域,具体涉及一种基于人工智能的智慧档案管理方法。本发明分割不同类型的区域分块,并选取冗余程度最高的最终区域分块。在最终区域分块中根据行序列之间的相似性和重复性确定行序列的可能冗余程度,并筛选出二维矩阵首行序列。根据已排序行序列之间的每个数据的最大相同数量,获得向上延续性;根据待排序行序列之间的相同数据数量,获得向下延续性,进而获得待排序行序列的延续相似程度,根据延续相似程度进行排序获得最优二维矩阵,进而获得最优压缩序列,利用游程编码对其进行压缩。本发明能够在保证电子档案数据精度的同时,大大减少了存储空间的占用,提高了游程编码的压缩效率。
Description
技术领域
本发明涉及数字电子档案数据处理技术领域,具体涉及一种基于人工智能的智慧档案管理方法。
背景技术
智慧档案管理指对于数字电子档案的管理方法,数字电子档案是以数字格式存储的文件和记录,通常以电子文档或电子数据的形式存在。传统的电子档案管理存储方法在数字化时代面临一些挑战,包括空间占用和长期保存的问题。在长期管理存储电子档案时,压缩文件可以节省宝贵的存储空间,降低存储成本,尤其在信息化时代背景下对于大规模的归档和数据保留策略。同时较好的压缩方法对于提高大规模档案的备份与传输效率有着深刻意义。
在现有技术中,利用游程编码对电子档案的文本数据进行压缩时有时会因为相邻文本数据的冗余程度较低导致压缩效率不高,而引入有损压缩可能会导致重要信息丢失,对精度要求比较高的档案进行储存时,无法同时做到在保留数据精度的同时提高游程编码的压缩效率。
发明内容
为了解决对精度要求比较高的档案进行储存时,无法同时做到在保留数据精度的同时提高游程编码的压缩效率的技术问题,本发明的目的在于提供一种基于人工智能的智慧档案管理方法,所采用的技术方案具体如下:
一种基于人工智能的智慧档案管理方法,该方法包括:
获取档案文本数据;
将所述档案文本数据分割,获得所有分割类型对应的区域分块;根据每个区域分块的重复字符数量与重复字符种类获得所有区域分块的整体冗余程度;根据所述整体冗余程度筛选出最优分割类型并获得最终区域分块;
将每个最终区域分块内的档案文本数据划分为多个数据数量相同的行序列,将每个行序列作为待测行序列;获得待测行序列的相似行序列,根据待测行序列和其他行序列之间的重复数据数量与相似行序列数量,获得待测行序列的整体相似程度;根据相同行序列数量与整体相似程度,获得所有行序列的可能冗余程度;将可能冗余程度最大的行序列作为最优二维矩阵的首行序列;
从所述首行序列开始,根据排序规则依次将每个行序列进行排序,获得最优二维矩阵;所述排序规则包括:将未参与排序的所述行序列作为待排序行序列,根据待排序行序列与已排序的每个行序列之间的对应位置数据的最大相同数量,获得所述待排序行序列的向上延续性;根据所述待排序行序列之间的相同数据数量,获得待排序行序列的向下延续性;根据所述向上延续性与所述向下延续性获得所述待排序行序列的延续相似程度;根据所述首行序列与所述延续相似程度将所述待排序行序列排序到所述最优二维矩阵中;
根据最优二维矩阵获得最优压缩序列;使用游程编码对所述最优压缩序列进行压缩管理。
进一步地,所述整体冗余程度的获取方法包括:
预设第一权值与第二权值分别对每个区域分块内的重复字符数量与重复字符种类进行加权;
将加权后的重复字符数量与加权后的重复字符种类的比值作为每个区域分块的区域冗余度;
将每个分割类型对应的所有区域分块内的所述区域冗余度求和,获得每个分割类型对应的所有区域分块内的整体冗余程度。
进一步地,所述最终区域分块获得方法包括:
将所述整体冗余程度最大的分割类型对应的每个区域分块作为最终区域分块。
进一步地,所述相似行序列获取方法包括:
若待测行序列与其余任意一个行序列之间存在相同数据,则将存在相同数据的行序列作为待测行序列的相似行序列。
进一步地,所述可能冗余程度的获取方法包括:
根据可能冗余程度计算公式获取所述可能冗余程度,所述可能冗余程度计算公式如下所示:
;式中,/>表示区域分块内待测行序列的可能冗余程度;/>表示待测行序列的相同行序列数量;/>表示行序列中数据的数量;/>表示相似行序列中与待测行序列中的重复数据数量;/>表示待测行序列的相似行序列数量。
进一步地,所述向上延续性获取方法包括:
获得待排序行序列与已排序的每个行序列对应位置数据的最大相同数量;
将已排序的每个行序列中每个数据所述最大相同数量的平方累加获得向上延续程度;将所述向上延续程度归一化获得待排序行序列的所述向上延续性。
进一步地,所述向下延续性的获取方法包括:
将行序列之间的相同数据数量作为行序列之间的相似程度;将已排序行序列中的最后一个行序列作为待对比行序列;将待排序序列作为第一递归序列,将与所述第一递归序列相似程度最高的未排序的行序列作为第二递归序列;在递归过程中,将每次递归过程的第一递归序列与第二递归序列之间的相似程度与前一次递归过程的递归结果的和值作为本次递归过程的递归结果,将第二递归序列更新为第一递归序列并重新选取第二递归序列开始下一次递归;在第一次递归过程中,以第一递归序列与待对比行序列之间的相似程度作为所述前一次递归过程的递归结果;直至所述第一递归序列与其他未排序的所有行序列之间不存在相同数据,终止递归,将最后一次递归过程的递归结果归一化,获得待排序序列的所述向下延续性。
进一步地,所述延续相似程度的获取方法包括:
根据延续相似程度计算公式获取所述延续相似程度,所述延续相似程度计算公式如下所示:
;式中,/>表示待排序行序列的延续相似程度;/>表示行序列中数据的数量;/>表示待排序行序列中第/>个数据与已排序的行序列对应位置数据的最大相同数量;/>表示终止递归时第一递归序列与第二递归序列之间的相似程度;/>表示进行递归操作终止时的递归结果;/>表示前一次递归过程的递归结果;/>表示待排序行序列的向上延续性;/>表示待排序行序列的向下延续性;/>表示待排序行序列的向上延续性的第三权值;/>表示待排序行序列的向下延续性的第四权值;/>表示归一化函数。
进一步地,所述最优二维矩阵的获取方法包括:
从二维矩阵的所述首行序列开始,依照待排序行序列的所述延续相似程度从大到小排列,依次插入到二维矩阵的下一行,遍历所有行序列,获得所述最优二维矩阵。
进一步地,最优压缩序列的获取方法包括:
采用纵向的方向对二维矩阵进行扫描,通过扫描得到冗余程度最高的压缩序列作为最优压缩序列。
本发明具有如下有益效果:
本发明首先将档案文本数据依据不同字符数量进行分割获得不同分割类型对应的区域分块;根据区域分块中重复字符数量与重复字符种类获得区域分块的区域冗余度;区域冗余度反映了每个区域分块的冗余程度,将所有区域分块的区域冗余度累加获得整体冗余程度,根据整体冗余程度可以得知此种分割类型对应的区域分块内字符的重复程度,进而得到所有最终区域分块;在每个最终区域分块上构建二维矩阵,根据行序列之间的相似性与重复性获得行序列的可能冗余程度,可能冗余程度反映出最终区域分块的所有字符中数据的重复程度,根据可能冗余程度选出二维矩阵中的首行序列,首行序列决定了后续对行序列进行排序时的整体冗余程度;由二维矩阵首行开始进行相似性数据遍历排序,通过待排序行序列向上的每个行序列之间的数据的最大相同数量获得待排序行序列的向上延续性,向上延续性越大,对应位置数据的连续性越高,冗余度就越大,根据待排序行序列之间的相同数据数量,获得待排序行序列的向下延续性,向下延续性越大,反映出待排序行序列之间的相似程度越大,根据向上延续性和向下延续性获得待排序行序列的延续相似程度,延续相似程度反映出待排序行序列与向上行序列的适配程度,通过延续相似程度可以对二维矩阵依次排序,获得最优二维矩阵,最优二维矩阵在纵向上具有高度的相邻相似性,冗余程度极高;获得最优二维矩阵对应的最优压缩序列,便于使用游程编码进行压缩,实现对电子档案的管理存储。本发明通过构建电子档案文本数据的最优二维矩阵,大大增加了电子档案文本数据的冗余程度,在使用游程编码进行压缩时,能够在保证电子档案数据精度的同时,大大减少了存储空间的占用,提高了游程编码的压缩效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种基于人工智能的智慧档案管理方法流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于人工智能的智慧档案管理方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种基于人工智能的智慧档案管理方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种基于人工智能的智慧档案管理方法流程图,该方法包括:
步骤S1:获取档案文本数据。
本发明实施例目的在于提供一种基于人工智能的智慧档案管理方法,对于电子档案进行管理,首先需要获取电子档案的所有文本数据。由于档案文本数据中会有各种格式的数据信息,例如:中文、英文、数字等,所以需要将所有形式的档案文本数据预处理得到一个格式的数据信息。
本发明一个实施例中,按顺序获得需要存储的所有档案文本数据,将所有格式的文本数据格式,采用unicode编码中的UTF-8编码将所有档案文本数据转化为16进制数据,由于档案内容里基本都是中文字符,所以本发明实施例主要获取中文字符的16进制数据。例如,将中文字符“我”转为16进制后的形式为E68891,其中每个数据表示一个16进制数,每两个数据组成一个字节,每6个数据表示一个中文字符,而档案文本数据中少量存在的英文与数字单独放在一起进行压缩。
需要说明的是,本发明仍可以采用UTF-7、UTF-32等编码方式进行档案文本数据的转化,且档案文本数据中的中文字符可以使转化为8进制、10进制等多种进制数据,所用编码方式与进制为本领域技术人员熟知的技术手段,在此不做限定及赘述。
步骤S2:将档案文本数据分割,获得所有分割类型对应的区域分块;根据每个区域分块的重复字符数量与重复字符获得所有区域分块的整体冗余程度;根据整体冗余程度筛选出最优分割类型并获得最终区域分块。
档案文本数据通常会包含大量重复信息,但分布较为离散,直接使用游程编码的压缩方式对档案文本数据进行压缩时效果较差,所以需要将档案文本数据进行分块,并对每个区域分块的数据的冗余程度进行分析,使每个区域分块内的重复数据更加聚集,增大每个区域分块的冗余程度。本发明一个实施例中,由于在后续步骤构建二维矩阵的过程中,需要记录二维矩阵中每一行数据原来所在的位置,并携带一个位置标记,便于在解压缩时对其进行还原,255为一个字节能存储的最大数字,最多记录255个字符的位置信息,所以最多将档案文本数据分割为以255个字符为一组的区域分块,即档案文本数据可以以1-255个字符为一组进行分割,存在255种分割类型。
对每个区域分块的区域冗余度进行分析时,重复字符数量与重复字符种类能够反映出该区域分块的冗余程度。由于重复字符数量在区域冗余度中的重要程度较高,所以预设第一权值对所有区域分块各自的区域冗余度进行调整,最终获得所有区域分块的整体冗余程度。
优选地,本发明一个实施例中,整体冗余程度的获取方法包括:
预设第一权值与第二权值分别对每个区域分块内的重复字符数量与重复字符进行加权;将加权后的重复字符数量与加权后的重复字符的比值作为每个区域分块的区域冗余度;将每个分割类型对应的所有区域分块内的所述区域冗余度求和,获得每个分割类型对应的所有区域分块内的整体冗余程度。本发明一个实施例中,整体冗余程度计算公式如下所示:
式中,表示每种分割类型对应的所有区域分块的整体冗余程度;/>表示每种分割类型对应的区域分块的数量;/>表示每种分割类型对应的区域分块的序号;/>表示第一权值;/>表示第二权值;/>表示第/>个区域分块内的重复字符数量;/>表示第/>个区域分块内的重复字符种类。
在整体冗余程度计算公式中,表示第/>个区域分块内的区域冗余度,其中,重复字符数量越多,说明区域分块内的区域冗余度越高;在重复字符数量较多的情况下,重复字符种类越少,说明区域分块内的区域冗余度越大。因为重复字符数量对于区域冗余度的重要程度大于重复字符种类,所以第一权值大于第二权值。
本发明一个实施例中,第一权值设置0.7,第二权值设置为0.3。需要说明的是,第一权值与第二权值的设置可以由实施人员自行设置,在此不做限定。
根据上述步骤获得的每种分割类型对应的区域分块的整体冗余程度,可以得到最适合游程编码进行压缩的最终区域分块。
优选地,本发明一个实施例中,计算255种分割类型对应的所有区域分块的整体冗余程度,将整体冗余程度最大的分割类型对应的每个区域分块作为最终区域分块。
步骤S3:将每个最终区域分块内的档案文本数据划分为多个数据数量相同的行序列,将每个行序列作为待测行序列;获得待测行序列的相似行序列;根据待测行序列和其他行序列之间的重复数据数量与相似行序列数量,获得待测行序列的整体相似程度;根据相同行序列数量与整体相似程度,获得所有行序列的可能冗余程度;将可能冗余程度最大的行序列作为最优二维矩阵的首行序列。
为了提高档案文本数据的冗余程度以便于更有效地压缩数据,需要在每个最终区域分块内构建档案文本数据的二维矩阵,将游程编码的游程扫描路径设置为纵向扫描,通过二维矩阵能够寻找最佳的行排序方式以最大程度地提高相邻行序列的相似性。任意选定一个待测行序列,通过二维矩阵中行序列之间是否存在相同数据获得待测行序列的相似行序列。
本发明一个实施例中,在每个最终区域分块中将档案文本数据划分为6个数据为一组的行序列,每个行序列代表一个中文字符的6个16进制数据。
优选地,本发明一个实施例中,相似行序列获取方法包括:
若待测行序列与其余任意一个行序列之间存在相同数据,则将存在相同数据的行序列作为待测行序列的相似行序列。
在构建二维矩阵时,需要对矩阵中的行序列进行排序,通过分析行序列中数据相似度特征对二维矩阵进行排列使矩阵的竖列相邻的数据之间的相似度更高,由此增加游程扫描路径中数据的冗余程度,待测行序列与其余每个行序列之间重复数据数量越多,两个行序列之间相似性越强,根据其余每个行序列与待测行序列之间的重复数据数量与待测行序列的相似行序列数量,可以得到待测行序列的可能冗余程度,通过遍历每个行序列的可能冗余程度,将可能冗余程度最大的行序列作为最优二维矩阵的首行序列。
优选地,本发明一个实施例中,可能冗余程度的获取方法包括:
根据可能冗余程度计算公式获取可能冗余程度,可能冗余程度计算公式如下所示:
式中,表示区域分块内待测行序列的可能冗余程度;/>表示待测行序列的相同行序列数量;/>表示行序列中数据的数量;/>表示每个相似行序列中与待测行序列中的重复数据数量;/>表示待测行序列的相似行序列数量。
在可能冗余程度计算公式中,为待测行序列的所有相似行序列的相似程度和,表示待测行序列在所有行序列中的整体相似程度,将待测行序列的相同行序列数量与待测行序列的整体相似程度相加,其和值表示区域分块内待测行序列的可能冗余程度。
步骤S4:从首行序列开始,根据排序规则依次将每个行序列进行排序,获得最优二维矩阵;排序规则包括:将未参与排序的行序列作为待排序行序列,根据待排序行序列与已排序的每个行序列之间的对应位置数据的最大相同数量,获得待排序行序列的向上延续性;根据待排序行序列之间的相同数据数量,获得待排序行序列的向下延续性;根据向上延续性与向下延续性获得待排序行序列的延续相似程度;根据首行序列与延续相似程度将待排序行序列排序到最优二维矩阵中。
构建二维矩阵时除了获取二维矩阵的首行序列以外,还需要对所有二维矩阵中的行序列进行排序,由二维矩阵首行开始根据数据的延续相似程度遍历排序,分析每个待排序行序列与排序好的上一个行序列之间的延续相似程度,根据延续相似程度可以选取出已排序行序列最适配的待排序行序列。
游程编码为连续数据冗余压缩,因此数据的重复连续程度越高,压缩效率越高,所以在计算延续相似程度时不能只考虑相邻一行的行序列中,还要考虑排序好的行序列中的对应位置数据的最大相同数量,根据行序列之间对应位置数据的最大相同数量,获得待排序行序列的向上延续性。
优选地,本发明一个实施例中,向上延续性获取方法包括:
获得待排序行序列与已排序的每个行序列对应位置数据的最大相同数量;将已排序的每个行序列中每个数据最大相同数量的平方累加获得向上延续程度;将向上延续程度归一化获得待排序行序列的向上延续性。
考虑到具有相同数量数据的行序列可能存在本身值不同的情况,在比较数据数量相同但值不同的行序列之间的延续相似程度,需要考虑数量相同但值不同的行序列各自的下一个行序列相同数据数量的多少,并使用递归的思想判断向下待排序行序列的延续性。
优选地,本发明一个实施例中,向下延续性的获取方法包括:
将行序列之间的相同数据数量作为行序列之间的相似程度;将已排序行序列中的最后一个行序列作为待对比行序列;将待排序序列作为第一递归序列,将与第一递归序列相似程度最高的未排序的行序列作为第二递归序列;在递归过程中,将每次递归过程的第一递归序列与第二递归序列之间的相似程度与前一次递归过程的递归结果的和值作为本次递归过程的递归结果,将第二递归序列更新为第一递归序列并重新选取第二递归序列开始下一次递归;在第一次递归过程中,以第一递归序列与待对比行序列之间的相似程度作为前一次递归过程的递归结果;直至第一递归序列与其他未排序的所有行序列之间不存在相同数据,终止递归,将最后一次递归过程的递归结果归一化,获得待排序序列的向下延续性。
根据待排序行序列的向上延续性与向下延续性获得待排序行序列的延续相似程度。
优选地,本发明一个实施例中,延续相似程度的获取方法包括:
根据延续相似程度计算公式获取延续相似程度,延续相似程度计算公式如下所示:
式中,表示待排序行序列的延续相似程度;/>表示行序列中数据的数量;/>表示待排序行序列中第/>个数据与已排序的行序列对应位置数据的最大相同数量;/>表示终止递归时第一递归序列与第二递归序列之间的相似程度;/>表示进行递归操作终止时的递归结果;/>表示前一次递归过程的递归结果;/>表示待排序行序列的向上延续性;/>表示待排序行序列的向下延续性;/>表示待排序行序列的向上延续性的第三权值;/>表示待排序行序列的向下延续性的第四权值;/>表示归一化函数。
在延续相似程度计算公式中,表示待排序行序列的向上延续性,/>表示向上延续的所有行序列对应位置数据的最大相同数量,最大相同数量越大,进行游程编码时的冗余度越大;/>表示待排序行序列的向下延续性,向下延续性反映出待排序行序列之间的相似程度,向下延续性越大的待排序行序列与上层行序列之间的相似程度越大,通过/>与/>分别对向上延续性和向下延续性进行加权,且由于延续相似程度对于冗余程度的影响主要取决于向上延续性,所以第三权值要大于第四权值。本发明一个实施例中,/>与/>分别设置为0.6和0.4。
需要说明的是,第三权值与第四权值的取值可以由实施人员自行设置,在此不做限定及赘述。
本发明一个实施例中,依据延续相似程度的大小遍历所有行序列,将延续相似程度最大的行序列插入二维矩阵首行序列的下一行,迭代直至二维矩阵完整,得到每个最终区域分块的最优二维矩阵。
步骤S5:根据最优二维矩阵获得最优压缩序列;使用游程编码对最优压缩序列进行压缩管理。
优选地,本发明一个实施例中,根据步骤S4获得的最优二维矩阵在纵向上具有高度相邻相似性,因此采用纵向的方向对二维矩阵进行扫描,通过扫描得到冗余程度最高的压缩序列作为最优压缩序列。在使用人工智能对电子档案进行管理时,使用游程编码对最优压缩序列进行压缩,获得压缩效果最好的电子档案以便于对电子档案进行管理。
综上,本发明将档案文本数据依据不同字符数量进行分割获得不同分割类型对应的区域分块;根据区域分块中重复字符数量与重复字符种类获得区域分块的区域冗余度;区域冗余度反映了每个区域分块的冗余程度,将所有区域分块的区域冗余度累加获得整体冗余程度,根据整体冗余程度可以得知此种分割类型对应的区域分块内字符的重复程度,进而得到所有最终区域分块;在每个最终区域分块上构建二维矩阵,根据行序列之间的相似性与重复性获得行序列的可能冗余程度,可能冗余程度反映出最终区域分块的所有字符中数据的重复程度,根据可能冗余程度选出二维矩阵中的首行序列;由二维矩阵首行开始进行相似性数据遍历排序,通过待排序行序列向上的每个行序列之间的数据的最大相同数量获得待排序行序列的向上延续性,根据待排序行序列向下每个行序列与上个行序列之间的相同数据数量,获得待排序行序列的向下延续性,根据向上延续性和向下延续性获得待排序行序列的延续相似程度,通过延续相似程度可以对二维矩阵依次排序,获得最优二维矩阵;获得最优二维矩阵对应的最优压缩序列;使用游程编码对最优压缩序列进行压缩,实现对电子档案的管理存储。本发明通过构建电子档案文本数据的最优二维矩阵,大大增加了电子档案文本数据的冗余程度,在使用游程编码进行压缩时,能够在保证电子档案数据精度的同时,大大减少了存储空间的占用,提高了游程编码的压缩效率。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
Claims (6)
1.一种基于人工智能的智慧档案管理方法,其特征在于,所述方法包括:
获取档案文本数据;
将所述档案文本数据分割,获得所有分割类型对应的区域分块;根据每个区域分块的重复字符数量与重复字符种类获得所有区域分块的整体冗余程度;根据所述整体冗余程度筛选出最优分割类型并获得最终区域分块;
将每个最终区域分块内的档案文本数据划分为多个数据数量相同的行序列,将每个行序列作为待测行序列;获得待测行序列的相似行序列,根据待测行序列和其他行序列之间的重复数据数量与相似行序列数量,获得待测行序列的整体相似程度;根据相同行序列数量与整体相似程度,获得所有行序列的可能冗余程度;将可能冗余程度最大的行序列作为最优二维矩阵的首行序列;
从所述首行序列开始,根据排序规则依次将每个行序列进行排序,获得最优二维矩阵;所述排序规则包括:将未参与排序的所述行序列作为待排序行序列,根据待排序行序列与已排序的每个行序列之间的对应位置数据的最大相同数量,获得所述待排序行序列的向上延续性;根据所述待排序行序列之间的相同数据数量,获得待排序行序列的向下延续性;根据所述向上延续性与所述向下延续性获得所述待排序行序列的延续相似程度;根据所述首行序列与所述延续相似程度将所述待排序行序列排序到所述最优二维矩阵中;
根据最优二维矩阵获得最优压缩序列;使用游程编码对所述最优压缩序列进行压缩管理;
所述整体冗余程度的获取方法包括:
预设第一权值与第二权值分别对每个区域分块内的重复字符数量与重复字符种类进行加权;
将加权后的重复字符数量与加权后的重复字符种类的比值作为每个区域分块的区域冗余度;
将每个分割类型对应的所有区域分块内的所述区域冗余度求和,获得每个分割类型对应的所有区域分块内的整体冗余程度;
所述可能冗余程度的获取方法包括:
根据可能冗余程度计算公式获取所述可能冗余程度,所述可能冗余程度计算公式如下所示:
;式中,/>表示区域分块内待测行序列的可能冗余程度;/>表示待测行序列的相同行序列数量;/>表示行序列中数据的数量;/>表示相似行序列中与待测行序列中的重复数据数量;/>表示待测行序列的相似行序列数量;
所述向上延续性获取方法包括:
获得待排序行序列与已排序的每个行序列对应位置数据的最大相同数量;
将已排序的每个行序列中每个数据所述最大相同数量的平方累加获得向上延续程度;将所述向上延续程度归一化获得待排序行序列的所述向上延续性;
所述向下延续性的获取方法包括:
将行序列之间的相同数据数量作为行序列之间的相似程度;将已排序行序列中的最后一个行序列作为待对比行序列;将行序列之间的相同数据数量作为行序列之间的相似程度;将已排序行序列中的最后一个行序列作为待对比行序列;将待排序序列作为第一递归序列,将与所述第一递归序列相似程度最高的未排序的行序列作为第二递归序列;在递归过程中,将每次递归过程的第一递归序列与第二递归序列之间的相似程度与前一次递归过程的递归结果的和值作为本次递归过程的递归结果,将第二递归序列更新为第一递归序列并重新选取第二递归序列开始下一次递归;在第一次递归过程中,以第一递归序列与待对比行序列之间的相似程度作为所述前一次递归过程的递归结果;直至所述第一递归序列与其他未排序的所有行序列之间不存在相同数据,终止递归,将最后一次递归过程的递归结果归一化,获得待排序序列的所述向下延续性。
2.根据权利要求1所述的一种基于人工智能的智慧档案管理方法,其特征在于,所述最终区域分块获得方法包括:
将所述整体冗余程度最大的分割类型对应的每个区域分块作为最终区域分块。
3.根据权利要求1所述的一种基于人工智能的智慧档案管理方法,其特征在于,所述相似行序列获取方法包括:
若待测行序列与其余任意一个行序列之间存在相同数据,则将存在相同数据的行序列作为待测行序列的相似行序列。
4.根据权利要求1所述的一种基于人工智能的智慧档案管理方法,其特征在于,所述延续相似程度的获取方法包括:
根据延续相似程度计算公式获取所述延续相似程度,所述延续相似程度计算公式如下所示:
;式中,/>表示待排序行序列的延续相似程度;/>表示行序列中数据的数量;/>表示待排序行序列中第/>个数据与已排序的行序列对应位置数据的最大相同数量;/>表示终止递归时第一递归序列与第二递归序列之间的相似程度;/>表示进行递归操作终止时的递归结果;/>表示前一次递归过程的递归结果;/>表示待排序行序列的向上延续性;/>表示待排序行序列的向下延续性;/>表示待排序行序列的向上延续性的第三权值;/>表示待排序行序列的向下延续性的第四权值;/>表示归一化函数。
5.根据权利要求1所述的一种基于人工智能的智慧档案管理方法,其特征在于,所述最优二维矩阵的获取方法包括:
从二维矩阵的所述首行序列开始,依照待排序行序列的所述延续相似程度从大到小排列,依次插入到二维矩阵的下一行,遍历所有行序列,获得所述最优二维矩阵。
6.根据权利要求1所述的一种基于人工智能的智慧档案管理方法,其特征在于,最优压缩序列的获取方法包括:
采用纵向的方向对二维矩阵进行扫描,通过扫描得到冗余程度最高的压缩序列作为最优压缩序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311491608.4A CN117235013B (zh) | 2023-11-10 | 2023-11-10 | 一种基于人工智能的智慧档案管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311491608.4A CN117235013B (zh) | 2023-11-10 | 2023-11-10 | 一种基于人工智能的智慧档案管理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117235013A CN117235013A (zh) | 2023-12-15 |
CN117235013B true CN117235013B (zh) | 2024-01-30 |
Family
ID=89093087
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311491608.4A Active CN117235013B (zh) | 2023-11-10 | 2023-11-10 | 一种基于人工智能的智慧档案管理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117235013B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118069586B (zh) * | 2024-04-17 | 2024-06-18 | 南通点耐特智能科技有限公司 | 一种员工档案信息的传输方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102609491A (zh) * | 2012-01-20 | 2012-07-25 | 东华大学 | 一种基于列存储的区级数据压缩方法 |
CN110532804A (zh) * | 2019-09-05 | 2019-12-03 | 广州知弘科技有限公司 | 一种基于大数据的安全存储控制方法 |
CN111680035A (zh) * | 2020-05-07 | 2020-09-18 | 中国工业互联网研究院 | 一种针对网络流数据及其位图索引压缩编码及解码方法 |
WO2021139074A1 (zh) * | 2020-01-08 | 2021-07-15 | 平安科技(深圳)有限公司 | 基于知识图谱的案件检索方法、装置、设备及存储介质 |
CN113724779A (zh) * | 2021-09-02 | 2021-11-30 | 东北林业大学 | 基于机器学习技术的SNAREs蛋白识别方法、系统、存储介质及设备 |
CN115834887A (zh) * | 2023-02-17 | 2023-03-21 | 济南霍兹信息科技有限公司 | 一种计算机系统的数据压缩存储方法 |
CN116032294A (zh) * | 2023-02-23 | 2023-04-28 | 山东安之捷科技有限公司 | 一种用于大气监测数据的智能处理方法 |
CN116185971A (zh) * | 2023-04-27 | 2023-05-30 | 济宁市质量计量检验检测研究院(济宁半导体及显示产品质量监督检验中心、济宁市纤维质量监测中心) | 一种电子压力称重数据的智能处理系统 |
CN116208172A (zh) * | 2023-05-04 | 2023-06-02 | 山东阁林板建材科技有限公司 | 一种建筑工程项目的数据管理系统 |
CN116415159A (zh) * | 2023-06-12 | 2023-07-11 | 青岛市城市规划设计研究院 | 一种海绵城市数据管理方法及系统 |
CN116541828A (zh) * | 2023-07-03 | 2023-08-04 | 北京双鑫汇在线科技有限公司 | 一种服务信息数据的智能管理方法 |
CN116702708A (zh) * | 2023-08-04 | 2023-09-05 | 陕西交通电子工程科技有限公司 | 一种道路路面施工数据管理系统 |
CN116861271A (zh) * | 2023-09-05 | 2023-10-10 | 智联信通科技股份有限公司 | 基于大数据的数据分析处理方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7492953B2 (en) * | 2004-06-17 | 2009-02-17 | Smith Micro Software, Inc. | Efficient method and system for reducing update requirements for a compressed binary image |
-
2023
- 2023-11-10 CN CN202311491608.4A patent/CN117235013B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102609491A (zh) * | 2012-01-20 | 2012-07-25 | 东华大学 | 一种基于列存储的区级数据压缩方法 |
CN110532804A (zh) * | 2019-09-05 | 2019-12-03 | 广州知弘科技有限公司 | 一种基于大数据的安全存储控制方法 |
WO2021139074A1 (zh) * | 2020-01-08 | 2021-07-15 | 平安科技(深圳)有限公司 | 基于知识图谱的案件检索方法、装置、设备及存储介质 |
CN111680035A (zh) * | 2020-05-07 | 2020-09-18 | 中国工业互联网研究院 | 一种针对网络流数据及其位图索引压缩编码及解码方法 |
CN113724779A (zh) * | 2021-09-02 | 2021-11-30 | 东北林业大学 | 基于机器学习技术的SNAREs蛋白识别方法、系统、存储介质及设备 |
CN115834887A (zh) * | 2023-02-17 | 2023-03-21 | 济南霍兹信息科技有限公司 | 一种计算机系统的数据压缩存储方法 |
CN116032294A (zh) * | 2023-02-23 | 2023-04-28 | 山东安之捷科技有限公司 | 一种用于大气监测数据的智能处理方法 |
CN116185971A (zh) * | 2023-04-27 | 2023-05-30 | 济宁市质量计量检验检测研究院(济宁半导体及显示产品质量监督检验中心、济宁市纤维质量监测中心) | 一种电子压力称重数据的智能处理系统 |
CN116208172A (zh) * | 2023-05-04 | 2023-06-02 | 山东阁林板建材科技有限公司 | 一种建筑工程项目的数据管理系统 |
CN116415159A (zh) * | 2023-06-12 | 2023-07-11 | 青岛市城市规划设计研究院 | 一种海绵城市数据管理方法及系统 |
CN116541828A (zh) * | 2023-07-03 | 2023-08-04 | 北京双鑫汇在线科技有限公司 | 一种服务信息数据的智能管理方法 |
CN116702708A (zh) * | 2023-08-04 | 2023-09-05 | 陕西交通电子工程科技有限公司 | 一种道路路面施工数据管理系统 |
CN116861271A (zh) * | 2023-09-05 | 2023-10-10 | 智联信通科技股份有限公司 | 基于大数据的数据分析处理方法 |
Non-Patent Citations (1)
Title |
---|
基于矩阵分解优化的排序学习特征构造方法;杨潇;崔超然;王帅强;;计算机科学(12);第261-265页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117235013A (zh) | 2023-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117235013B (zh) | 一种基于人工智能的智慧档案管理方法 | |
JP5936687B2 (ja) | ツリー構造の適応的エントロピー符号化方法 | |
US7295718B2 (en) | Non-linear quantization and similarity matching methods for retrieving image data | |
KR101630006B1 (ko) | 텍스처 패턴 적응형 파티션 블록 변환 | |
CN116388767B (zh) | 用于软件开发数据的安全管理方法 | |
CN112544038B (zh) | 存储系统数据压缩的方法、装置、设备及可读存储介质 | |
CN116346289B (zh) | 一种用于计算机网络中心的数据处理方法 | |
CN102687404A (zh) | 用于数据压缩的数据值出现信息 | |
CN116915259B (zh) | 基于物联网的仓配数据优化储存方法及系统 | |
CN111611250A (zh) | 数据存储设备、数据查询方法、装置、服务器及存储介质 | |
CN111615149B (zh) | 信令轨迹数据压缩方法及装置 | |
CN115204754A (zh) | 一种基于大数据的热力供需信息管理平台 | |
CN116722876A (zh) | 一种用于版式轻阅读的用户数据智能存储方法 | |
CN115543946A (zh) | 一种金融大数据优化存储方法 | |
US20230394225A1 (en) | Text compression method, module, chip, electronic device, and storage medium | |
US20150242448A1 (en) | Secure and lossless data compression | |
CN115865099B (zh) | 基于霍夫曼编码的多类型数据分段压缩方法及系统 | |
CN115913248A (zh) | 一种直播软件开发数据智能管理系统 | |
CN115934792A (zh) | 一种数组型时序数据压缩与跨维度查询方法 | |
CN116847095A (zh) | 一种图像压缩方法,图像解压方法和图像处理装置 | |
CN1477563A (zh) | 一种高维矢量数据快速相似检索方法 | |
KR20220089211A (ko) | 문자 빈도 기반 서열 재정렬을 통한 fastq 데이터 압축 방법 및 장치 | |
CN115276664B (zh) | 基于访客登记信息的访客数据管理方法 | |
CN110427345B (zh) | 一种网络层级地图数据的快速缓存方法 | |
CN112489731B (zh) | 一种基因型数据压缩方法、系统、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |