CN115955250B - 一种高校科研数据采集管理系统 - Google Patents

一种高校科研数据采集管理系统 Download PDF

Info

Publication number
CN115955250B
CN115955250B CN202310238127.6A CN202310238127A CN115955250B CN 115955250 B CN115955250 B CN 115955250B CN 202310238127 A CN202310238127 A CN 202310238127A CN 115955250 B CN115955250 B CN 115955250B
Authority
CN
China
Prior art keywords
value
coding
data
values
scientific research
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310238127.6A
Other languages
English (en)
Other versions
CN115955250A (zh
Inventor
侯明玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yanshan University
Original Assignee
Yanshan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yanshan University filed Critical Yanshan University
Priority to CN202310238127.6A priority Critical patent/CN115955250B/zh
Publication of CN115955250A publication Critical patent/CN115955250A/zh
Application granted granted Critical
Publication of CN115955250B publication Critical patent/CN115955250B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及电数字数据处理技术领域,具体涉及一种高校科研数据采集管理系统。本发明首先将高校科研数据按照编码规则进行编码,然后对高校科研数据进行分割,并对每个分割部分的数据值按照其与编码规则中的最大编码值的差异程度确定对其的放大倍数,使得各个分割部分的放大后数据值均尽可能靠近编码规则中的最大值,以提高高校科研数据中各个数据值的重复程度,增大相同数据值、相同数据值段落连续重复出现的可能性,从而提高高校科研数据的规律性,实现对高校科研数据的更高效的压缩,最终提高对高校科研数据采集管理过程中的压缩效率。

Description

一种高校科研数据采集管理系统
技术领域
本发明涉及电数字数据处理技术领域,具体涉及一种高校科研数据采集管理系统。
背景技术
科研数据对高校发展科学研究的重要性毋庸置疑,需要被及时地采集与留档存储管理。不过,由于科研数据不但包括大量的实验数据,还包括与实验数据对应的或相关联的论文、期刊等数据,这便导致科研数据一方面数据量巨大,另一方面会因为数据类型多样而导致数据繁杂且规律性较低。
由于现有的数据压缩算法一般都是借助数据的重复性或者说规律性而实现的数据压缩,那么现有的数据压缩算法在面对规律性较低的高校科研数据时,便无法做到高效压缩,使得数据量巨大的科研数据因无法被高效压缩而将占用较大的存储空间,导致对应的存储成本较高,不利于对高校科研数据的采集管理。
发明内容
为提高对高校科研数据采集管理过程中的压缩效率,本发明提供了一种高校科研数据采集管理系统,所采用的技术方案具体如下:
本发明的一种高校科研数据采集管理系统,包括:
数据采集与编码模块,用于采集高校科研数据并将高校科研数据按照编码规则编码为编码值,将编码值按照高校科研数据的采集顺序进行排列,得到原始数据串;
数据分割与放大模块,用于将原始数据串分割为多个分割部分,计算所述编码规则中最大编码值与分割部分内各个编码值的差异程度,根据所述差异程度确定对分割部分内编码值的放大倍数,以所述放大倍数对分割部分内编码值进行放大得到初步放大值,将不大于所述编码规则中最大编码值的初步放大值作为放大编码值,将大于所述编码规则中最大编码值的初步放大值所对应的放大前的编码值作为放大编码值,得到由放大编码值组成的放大后分割部分;
数据压缩存储模块,用于将放大后分割部分按照所述多个分割部分的分割顺序拼接为优化数据串,对优化数据串进行压缩并存储。
本发明的有益效果为:
本发明首先采用编码规则将高校科研数据中的不同种类数据进行编码得到原始数据串而完成统一表达,然后将原始数据串分割为多个分割部分并将每个分割部分内的编码值以自适应放大倍数进行放大而使各个分割部分中的放大后编码值都向编码规则中的最大编码值靠近,从而以提高数据重复性的方式提高数据规律性,将规律性提高后的优化数据串进行压缩时便可提高压缩效率,然后通过对压缩数据进行存储便可完成对高校科研数据的采集管理。本发明该方法通过对高校科研数据划分为多个分割部分并使各个分割部分按照不同放大倍数靠近编码规则中的最大编码值的方式,提高了待压缩数据的规律性从而提高了对高校科研数据采集管理过程中的压缩效率。
进一步的,所述将原始数据串分割为多个分割部分的方法为:
将原始数据串映射为二维矩阵,将所述二维矩阵分割为多个分割块,将每个分割块分别作为一个所述分割部分。
进一步的,所述计算所述编码规则中最大编码值与分割部分内各个编码值的差异程度的方法为:
计算所述编码规则中最大编码值与所述分割块中出现频率最高的编码值的第一差值,计算所述编码规则中最大编码值与所述分割块中各个编码值的第二差值之和,以所述第一差值、所述第二差值之和以及所述分割块中数值大于出现频率最高的编码值的编码值个数确定分割块的待变换系数,以待变换系数作为所述差异程度;
所述待变换系数与所述第一差值以及所述第二差值之和成正比,与所述分割块中数值大于出现频率最高的编码值的编码值个数成反比。
进一步的,所述待变换系数为:
其中,CT为分割块的待变换系数,表示分割块内编码值的个数,表示编码规则中的最大编码值,表示分割块内出现频率最高的编码值,表示分割块内第j个编码值,表示分割块内数值大于的编码值的个数,表示将当前分割块对应所得值进行归一化处理,表示将当前分割块对应所得值进行归一化处理。
进一步的,所述根据所述差异程度确定对分割部分内编码值的放大倍数的方法为:
利用所有分割块的待变换系数中的最大值以及最小值对分割块的待变换系数进行归一化处理,根据归一化后的分割块的待变换系数确定分割块内编码值的放大倍数;
所述分割块内编码值的放大倍数与所述归一化后的分割块的待变换系数成正比。
进一步的,所述分割块内编码值的放大倍数为:
其中,表示分割块内编码值的放大倍数,表示放大调整系数,分别表示所有分割块的待变换系数中的最大值与最小值,表示对向下取整。
进一步的,所述数据分割与放大模块还执行对所述放大倍数进行修正的步骤:
统计分割块内放大后大于所述编码规则中最大编码值的编码值个数在分割块内所有编码值中的占比,以所述占比确定修正后的分割块内编码值的放大倍数;
所述修正后的分割块内编码值的放大倍数与所述占比成反比。
进一步的,所述修正后的分割块内编码值的放大倍数为:
其中,表示修正后的分割块内编码值的放大倍数,表示分割块内编码值的放大倍数,表示分割块中放大后大于编码规则中最大编码值的编码值个数,表示分割块中编码值的总数,表示放大修正系数,表示对向下取整。
进一步的,所述数据压缩存储模块对所述优化数据串进行压缩后,按照所述高校科研数据的类型对所得压缩数据打标签。
进一步的,还包括:
数据查找模块,用于在查找高校科研数据时,以所述标签查找压缩数据并解压得到优化数据串,根据优化数据串获取过程中多个分割部分的分割方式、各分割部分对应的放大倍数以及未经放大便作为放大编码值的编码值,将优化数据串还原为原始数据串,对原始数据串译码得到所要查找的高校科研数据。
附图说明
图1是本发明该种高校科研数据采集管理系统的框图;
图2是本发明的Z字型扫描法的示意图;
图3是本发明的对二维矩阵分割得到分割块的示意图。
具体实施方式
本发明的构思为:由于高校科研数据所包含的内容种类多样,所以采集所得高校科研数据繁杂且规律性较低,现有的借助数据规律性而实现的数据压缩技术无法完成对高校科研数据的高效压缩,为此本申请首先将高校科研数据按照编码规则进行编码,然后对高校科研数据进行分割,并对每个分割部分的数据值进行合适于自身的、不同倍率的放大而使各个分割部分的放大后数据值均尽可能靠近编码规则中的最大值,以提高高校科研数据中各个数据值的重复程度,增大相同数据值、相同数据值段落连续重复出现的可能性,从而提高高校科研数据的规律性,实现对高校科研数据的更高效的压缩。
下面结合附图及实施例,对本发明的一种高校科研数据采集管理系统进行详细说明。
系统实施例:
如图1所示,其示出了本发明一个实施例所提供的一种高校科研数据采集管理系统的系统框图,该系统包括:数据采集与编码模块、数据分割与放大模块、数据压缩存储模块以及数据查找模块。以下分别对各个模块的作用进行详细介绍:
数据采集与编码模块,用于采集高校科研数据并将高校科研数据按照编码规则编码为编码值,将编码值按照高校科研数据的采集顺序进行排列,得到原始数据串。
由于高校科研数据不但包括中英文论文与期刊,还包括实验数据与计算机代码、运算公式等,所以高校科研数据中会同时包括数字、中文、英文以及各种字符,为实现对整体数据的统一处理,首先需要将上述各类型数据转化处理为同一类型的数据。
本实施例优选使用GB2312编码标准对高校科研数据进行编码处理,按照对高校科研数据的采集顺序,将编码后所得各个编码值进行排序,得到由编码值构成的原始数据串。GB2312编码标准是一种可同时编码数字、中文、英文以及各种字符的编码规则,所以采用该种编码标准,可完成对所有高校科研数据的统一编码从而将各类型数据转化为同一类型的数据。当然,在其它实施例中,还可以采用其它的可同时编码数字、中文、英文以及各种字符的编码规则,如在GB2312编码标准上进一步发展出来的GB18030编码标准。
由于不同编码标准对数据编码后所得到的具体数值并非都是以十进制表示,所以为便于计算,本实施例优选在按照编码标准对数据进行编码后再将编码所得数值按照进制转换规则转换为十进制数,将转换后所得十进制数作为最终的编码值并构成原始数据串。例如,本实施例采用的GB2312编码标准是二进制编码规则,其利用16位的二进制数完成汉字的表示,也即利用GB2312编码标准对某个汉字进行编码后会得到一个16位的二进制数,将所得该16位二进制数按照二进制转十进制的规则进行转换后,便可将所得十进制数作为本实施例中的编码值放入原始数据串中,完成原始数据串的获取。
当然,由于进制转换并不实际改变编码值的大小而只是一种提高计算便捷性的手段,所以在其它实施例中,也可在利用编码标准对高校科研数据进行编码后,不再进行进制转换而直接将编码所得数值作为编码值放入原始数据串中,完成原始数据串的获取。
数据分割与放大模块,用于将原始数据串分割为多个分割部分,计算所述编码规则中最大编码值与分割部分内各个编码值的差异程度,根据所述差异程度确定对分割部分内编码值的放大倍数,以所述放大倍数对分割部分内编码值进行放大得到初步放大值,将不大于所述编码规则中最大编码值的初步放大值作为放大编码值,将大于所述编码规则中最大编码值的初步放大值所对应的放大前的编码值作为放大编码值,得到由放大编码值组成的放大后分割部分。
由于高校科研数据所包含的内容种类繁多,同时包含中文、英文、数字以及符号等数据类型,而中文、英文、数字以及符号等数据类型在计算机语言中分别处于不同的计算机代码取值范围上,也即不同数据类型对应所得编码值的取值范围分布差异明显。所以为提高对高校科研数据的压缩效率,本申请期望将高校科研数据中不同的数据类型所对应的计算机代码,也就是不同数据类型所对应的编码值之间的差异,经不同倍率的放大处理后尽可能缩小,从而提高高校科研数据的数据重复性或者说规律性,最终提高对其的压缩效率。
又考虑到不同数据类型对应所得编码值虽然差异明显但相同数据类型对应所得编码值在小范围上会集中出现的特性,本申请在对编码值进行倍率放大使其接近编码规则的最大编码值之前,首先对所获取的由编码值构成的原始数据串进行分割处理,得到多个分割部分,以尽可能贴合不同数据类型对应所得编码值虽差异明显但相同数据类型对应所得编码值会在小范围上集中出现的特性,从而在对不同分割部分以不同的放大倍率进行放大后,能够更大程度提高放大后编码值与编码规则的最大编码值的接近程度,最终更大程度上提高高校科研数据的规律性。
其中编码规则中的最大编码值具体是指编码规则中编码值取值范围的上限值,本实施例采用的是GB2312编码规则,其编码值取值范围的上限值以16进制表示是FEFE,以十进制表示是65278,而以原始的二进制表示则是1111111011111110。在采用其它编码规则的其它实施例中,编码规则中的最大编码值则是相应所采用的其它编码规则中编码值取值范围的上限值。
对于如何实现对原始数据串的分割,一种实施例中的方法是将原始数据串等长度地分割为多个数据段,然后确定编码规则中最大编码值与每个分割部分也即每个数据段中编码值的差异程度,从而得到对每个分割部分也即每个数据段的放大倍数并进行放大,得到放大后的编码值。
而优选地,在本实施例中,则通过将原始数据串映射为矩阵后对矩阵分割的形式完成对原始数据串的分割。本实施例首先对原始数据串进行映射得到二维矩阵,然后将二维矩阵分割得到多个分割块并确定每个分割块内编码值的放大倍数,以所得放大倍数对分割块内编码值进行放大从而得到放大后编码值。
具体的,在统计原始数据串中编码值的总数后,首先按照如图2所示的Z字型扫描法将原始数据串映射为宽度为的正方形二维矩阵,容易理解的是,在得到宽度为的正方形二维矩阵的过程中,一定会存在该二维矩阵中某个或某些位置上没有编码值的情况,此时对这些没有编码值的某个或某些位置进行补0操作,最终得到该正方形二维矩阵。其中,Z字型扫描法为现有技术,故在此不再赘述。在其它实施例中,还可以采用现有技术中的其它扫描方法完成原始数据串向二维矩阵的映射,如光栅扫描法等。以及容易理解的是,在其它实施例中,可将二维矩阵映射为任意长宽比的矩阵而并非必须如本实施例映射为正方形二维矩阵。
对于二维矩阵,如图3所示本实施例将其分割为宽度大小的分割块,其中为分割参数值,容易理解的是分割参数值的取值越大,则代表对二维矩阵或者说对原始数据串的分割精细度越高,相应的更有利于增大对高校科研数据的规律性提高程度,但同时,分割参数值的取值越大,同样也代表着所需的后续计算量越大,所以分割参数值的具体取值,可由操作人员根据高校科研数据的具体数据量大小以及对压缩效果的实际需求而适应性地设置。容易理解的是,分割参数值的具体取值实际上决定了对原始数据串所分割出的分割部分的数量,所以在上述通过将原始数据串等长度地分割为多个数据段从而完成对原始数据串的分割得到多个分割部分的一种实施例中,分割部分的多少同样需要由操作人员根据高校科研数据的具体数据量大小以及对压缩效果的实际需求而适应性地设置。
在本实施例中,优选按照从左到右、从上到下的方式在二维矩阵中划分分割块,在其它实施例中还可以按照其它方法划分分割块。如图3所示,存在着划分后二维矩阵中的剩余部分的长或宽不足的情况,也即无法形成正常分割块,那么此时直接对剩余部分继续分割得到剩余分割块并同样作为正常分割块即可。
在通过对二维矩阵划分为多个分割块从而实现对原始数据串分割为多个分割部分后,由于不同分割块中所含编码值对应的数据种类不同,所以部分分割块中的编码值整体大小会较大,而部分分割块中的编码值整体大小会较小,举例即为,若第一个分割块中的编码值都是由汉字编码得到,而第二个分割块中的编码值都是由英文字母编码得到,由于在GB2312编码标准中汉字的编码值取值范围大于英文字母的编码值取值范围,所以第一个分割块中编码值的整体取值会明显大于第二个分割块中编码值的整体取值,两者各自适用的,或者说两者各自需要进行放大的倍数值便会不同。
为有效衡量不同分割块中编码值的整体大小,本实施例通过计算编码规则中最大编码值与每个分割块中各个编码值之间的差异程度,来确定对每个分割块内各个编码值进行放大的最佳倍数,并使差异程度较大的分割块中的编码值被较大倍数地放大,而差异程度较小的分割块中的编码值被较小倍数地放大。
首先计算每个分割块的待变换系数:
其中,CT为分割块的待变换系数,表示分割块内编码值的个数,表示编码规则中的最大编码值,表示分割块内出现频率最高的编码值,表示分割块内第j个编码值,表示分割块内数值大于的编码值的个数,表示将当前分割块对应所得值与其它分割块对应所得值进行统一比较后完成对当前分割块对应所得值的归一化处理,表示将当前分割块对应所得值与其它分割块对应所得值进行统一比较后完成对当前分割块对应所得值的归一化处理。
由于本实施例在此所要确定的是分割块中编码值相较于编码规则中最大编码值的差异程度,那么在分割块的待变换系数计算公式中,考虑到分割块内出现频率最高的编码值的大小可从一定程度上表征分割块内编码值的分布重心,所以当越接近编码规则中的最大编码值也即越小时,则表明该分割块内的编码值的分布重心越接近最大编码值,相应的分割块内的编码值越不需要进行放大处理,CT值越小,而相反的,越大时,相应的分割块内的编码值则越需要进行放大处理,CT值越大;而分割块内每个编码值与编码规则中的最大编码值的差距越大也即越大,则同样可表明分割块内编码值越需要进行放大处理,CT值越大,相反的,越小,则分割块内编码值越不需要进行放大处理,CT值越小;以及,分割块中数值大于的编码值的个数越多则越大,表明分割块内编码值在出现频率最高的编码值的基础上靠近编码规则中的最大编码值的程度越大,表明分割块内编码值越不需要进行放大处理,所以相应的越小且对应所得CT值越小,相反的,若越少,则表明分割块内编码值越需要进行放大处理,CT值越大。
关于以及部分的归一化操作实现方法在现有技术中有很多,以为例在此举例现有的其中一种归一化操作实现过程:
假设当前分割块对应所得值为,而所有分割块对应所得值中的最大值与最小值分别为以及,则当前分割块对应所得值的归一化处理结果
而且需要说明的是,归一化操作的另一个目的,是完成对值以及值的去量纲化处理,以避免在求取分割块的待变换系数CT过程中将多种量纲直接相乘导致所得待变换系数CT的量纲错误的问题。
然后,根据分割块的待变换系数确定分割块内编码值的放大倍数:
其中,表示分割块内编码值的放大倍数,表示放大调整系数,值的大小可由操作人员凭经验所确定的高校科研数据整体大小而确定,本实施例优选分别表示所有分割块的待变换系数中的最大值与最小值,表示对向下取整。
在分割块内编码值的放大倍数的计算公式中,的作用是对分割块的待变换系数CT进行归一化处理,使得部分的取值处于,并同时可实现对CT的去量纲化,+1是为了保证最终所得放大倍数k的取值不小于1,从而避免对分割块内编码值进行缩小操作,对向下取整是为了保证所得放大倍数k为整数,从而保证后续对编码值放大后所得放大编码值依然是属于编码规则中的可被译码的编码值;容易理解的是,分割块的待变换系数CT越大,则代表分割块内的编码值越应该被更大程度地放大以接近编码规则中的最大编码值,所以分割块的待变换系数CT越大,分割块内编码值的放大倍数k越大。
确定对分割块内编码值的放大倍数k后,便可利用放大倍数k对分割块内各个编码值的放大处理,将分割块内各个编码值均乘以放大倍数k得到放大编码值,从而得到由放大编码值组成的放大后分割块。
考虑到会存在部分放大后的编码值会大于编码规则中最大编码值而导致后续无法译码的情况,那么为避免该种情况发生,则需不对这些编码值进行放大而直接将原本编码值作为放大后编码值放入放大后的分割块并进行记录,以及在后续数据解压还原阶段也不再对这些数据进行相应放大倍数的还原处理。为实现该种过程,则需要在压缩数据中额外地对这些放大后会大于编码规则中最大编码值的编码值进行位置记录,当使用放大倍数k对分割块中编码值进行放大处理后超过编码规则中最大编码值的这种编码值过多,显然会导致压缩数据中需额外加入的记录数据过多而导致压缩数据明显增大,从而影响数据压缩效率。
为此,本实施例还额外包括根据所得放大编码值对放大倍数k进行进一步优化的内容。
具体的,本实施例根据分割块中放大后会大于编码规则中最大编码值的该种编码值的数量在分割块整体编码值中的占比,来对放大倍数进行修正:
其中,表示修正后的分割块内编码值的放大倍数,表示分割块内编码值的放大倍数,表示分割块中放大后大于编码规则中最大编码值的编码值个数,表示分割块中编码值的总数,表示放大修正系数,其取值大小可由操作人员根据对数据压缩效率的实际要求而设定,本实施例优选表示对向下取整。
在修正后的分割块内编码值的放大倍数计算公式中,表示分割块中放大后会大于编码规则中最大编码值的该种编码值的数量在分割块整体编码值中的占比,表示对占比进行加权,而的目的则是保证修正后的分割块内编码值的放大倍数为整数从而防止放大后编码值依然为可进行译码的整数,容易理解的是占比越大,则表示修正前的放大倍数偏大的程度越严重,从而越大相应的修正后的分割块内编码值的放大倍数越小。
容易理解的是,对放大倍数进行修正的内容并非本发明整体方案成功实施的必要步骤,所以在其它实施例中,还可以不包括本实施例的对放大倍数进行修正的内容。
数据压缩存储模块,用于将放大后分割部分按照所述多个分割部分的分割顺序拼接为优化数据串,对优化数据串压缩后按照所述高校科研数据的类型打标签并存储。
在完成对每个分割部分中各个编码值的放大后,原始数据串内的各个编码值实际上便经过自适应放大而更大程度上接近了编码规则中的最大编码值,从而使得原始数据串中的数据规律性得到了提高。那么,此时将各个由放大编码值所构成的放大后分割部分按照对原始数据串分割得到的各个分割部分的分割顺序进行拼接后,拼接所得数据串即为相较于原始数据串规律性提高的数据串,将拼接所得数据串记为优化数据串。
具体的,在本实施例中,由于是将原始数据串按照Z字型扫描法首先映射为正方形二维矩阵后再划分为多个分割块而实现的将原始数据串分割为多个分割部分,所以在本实施例中,需要首先按照二维矩阵中各个分割块的排列顺序将放大后分割块进行排列构成放大后二维矩阵,然后按照Z字型扫描法扫描放大后二维矩阵,得到优化数据串。
由于所得到的优化数据串相较于由原始高校科研数据而构成的原始数据串在数据规律性上已经得到了明显的提升,所以此时采用现有的数据压缩方法对优化数据串进行压缩,相较于直接对原始数据串进行压缩,压缩效率会有明显的提升,会得到更小的压缩数据包。现有的数据压缩方法有多种,本实施例优选使用串表压缩算法LZW完成对优化数据串的压缩。
在对优化数据串压缩得到压缩数据并存储后,即可通过提高数据压缩效率完成对高效科研数据的高效采集管理。而进一步的,为满足后续可能存在的对高效科研数据采集管理系统中所存储的数据的查询需求,本实施例在上述对高效科研数据的采集管理的内容基础上,还包括对数据打标签并根据标签查找高效科研数据的内容。
由于高校科研数据种类多样,所以为了便于对高校科研数据的查询,本实施在存储压缩数据包时,还进一步对所得压缩数据包按照高校科研数据的种类进行打标签。对压缩数据包进行打标签的方法为现有技术,故在此不再赘述。
数据查找模块,用于在查找高校科研数据时,以所述标签查找压缩数据并解压得到优化数据串,根据优化数据串获取过程中多个分割部分的分割方式、各分割部分对应的放大倍数以及未经放大便作为放大编码值的编码值,将优化数据串还原为原始数据串,对原始数据串译码得到所要查找的高校科研数据。
在相关人员需要从高校科研数据采集管理系统中查找高校科研数据时,其只需要向系统输入所要查找的高校科研数据的标签信息,数据查找模块在接收到输入系统的标签信息后,便可首先根据标签信息确定与标签信息对应的压缩数据包,然后对压缩数据包解压后便可得到相应的优化数据串。
由于所得优化数据串是由原始数据串得到的,而原始数据串得到优化数据串的过程中,对映射所得二维矩阵进行分割得到多个分割部分的分割方式、各个分割部分对应的放大倍数以及未经放大而直接作为放大编码值的编码值都是已知的,那么便可将优化数据串还原为相应的原始数据串,再对还原所得原始数据串按照编码规则进行译码,即可得到所要查找的高校科研数据。
具体的,在根据输入系统的标签信息查找到相应的压缩数据包并解压得到对应优化数据串后,由于本实施例的优化数据串是通过分割块组合成为放大后二维矩阵并以Z字型扫描法获得的,那么在得到优化数据串后,便首先需要将优化数据串按照Z字型扫描法的扫描顺序进行还原得到放大后二维矩阵,然后根据正方形二维矩阵分割得到多个分割块的方法,将放大后二维矩阵分割为与分割块数量相同的多个放大后分割块,并根据每个放大后分割块获取过程中所使用的放大倍数k,对放大后分割块内的各个编码值乘以1/k以进行缩小还原操作得到放大前的分割块也即原始分割块,且由于放大后分割块获取过程中存在着一些实际上未经放大而直接将原始编码值作为放大后编码值的编码值,所以在对放大后分割块进行缩小还原操作时,这些编码值也就相应地不再进行缩小还原操作而是直接将其编码值放入所得放大前的分割块的相应位置处,以得到准确的放大前的分割块也即原始分割块。
在完成对各个放大后分割块的缩小还原操作后,此时所得的放大前的分割块所组成的矩阵实际上即为通过Z字型扫描法由原始数据串映射所得的宽度为的正方形二维矩阵,那么将该正方形二维矩阵中的所有编码值按照Z字型扫描法反映射后便可还原得到原始数据串,然后再对原始数据串上各个编码值依照GB2312编码标准进行译码,便可最终得到所要查找的高校科研数据。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种高校科研数据采集管理系统,其特征在于,包括:
数据采集与编码模块,用于采集高校科研数据并将高校科研数据按照编码规则编码为编码值,将编码值按照高校科研数据的采集顺序进行排列,得到原始数据串;
数据分割与放大模块,用于将原始数据串分割为多个分割部分,计算所述编码规则中最大编码值与分割部分内各个编码值的差异程度,根据所述差异程度确定对分割部分内编码值的放大倍数,以所述放大倍数对分割部分内编码值进行放大得到初步放大值,将不大于所述编码规则中最大编码值的初步放大值作为放大编码值,将大于所述编码规则中最大编码值的初步放大值所对应的放大前的编码值作为放大编码值,得到由放大编码值组成的放大后分割部分;
数据压缩存储模块,用于将放大后分割部分按照所述多个分割部分的分割顺序拼接为优化数据串,对优化数据串进行压缩并存储。
2.根据权利要求1所述的高校科研数据采集管理系统,其特征在于,所述将原始数据串分割为多个分割部分的方法为:
将原始数据串映射为二维矩阵,将所述二维矩阵分割为多个分割块,将每个分割块分别作为一个所述分割部分。
3.根据权利要求2所述的高校科研数据采集管理系统,其特征在于,所述计算所述编码规则中最大编码值与分割部分内各个编码值的差异程度的方法为:
计算所述编码规则中最大编码值与所述分割块中出现频率最高的编码值的第一差值,计算所述编码规则中最大编码值与所述分割块中各个编码值的第二差值之和,以所述第一差值、所述第二差值之和以及所述分割块中数值大于出现频率最高的编码值的编码值个数确定分割块的待变换系数,以待变换系数作为所述差异程度;
所述待变换系数与所述第一差值以及所述第二差值之和成正比,与所述分割块中数值大于出现频率最高的编码值的编码值个数成反比。
4.根据权利要求3所述的高校科研数据采集管理系统,其特征在于,所述待变换系数为:
其中,CT为分割块的待变换系数,表示分割块内编码值的个数,表示编码规则中的最大编码值,表示分割块内出现频率最高的编码值,表示分割块内第j个编码值,表示分割块内数值大于的编码值的个数,表示将当前分割块对应所得值进行归一化处理,表示将当前分割块对应所得值进行归一化处理。
5.根据权利要求3或4所述的高校科研数据采集管理系统,其特征在于,所述根据所述差异程度确定对分割部分内编码值的放大倍数的方法为:
利用所有分割块的待变换系数中的最大值以及最小值对分割块的待变换系数进行归一化处理,根据归一化后的分割块的待变换系数确定分割块内编码值的放大倍数;
所述分割块内编码值的放大倍数与所述归一化后的分割块的待变换系数成正比。
6.根据权利要求5所述的高校科研数据采集管理系统,其特征在于,所述分割块内编码值的放大倍数为:
其中,表示分割块内编码值的放大倍数,表示放大调整系数,分别表示所有分割块的待变换系数中的最大值与最小值,表示对向下取整。
7.根据权利要求2或6所述的高校科研数据采集管理系统,其特征在于,所述数据分割与放大模块还执行对所述放大倍数进行修正的步骤:
统计分割块内放大后大于所述编码规则中最大编码值的编码值个数在分割块内所有编码值中的占比,以所述占比确定修正后的分割块内编码值的放大倍数;
所述修正后的分割块内编码值的放大倍数与所述占比成反比。
8.根据权利要求7所述的高校科研数据采集管理系统,其特征在于,所述修正后的分割块内编码值的放大倍数为:
其中,表示修正后的分割块内编码值的放大倍数,表示分割块内编码值的放大倍数,表示分割块中放大后大于编码规则中最大编码值的编码值个数,表示分割块中编码值的总数,表示放大修正系数,表示对向下取整。
9.根据权利要求1所述的高校科研数据采集管理系统,其特征在于,所述数据压缩存储模块对所述优化数据串进行压缩后,按照所述高校科研数据的类型对所得压缩数据打标签。
10.根据权利要求9所述的高校科研数据采集管理系统,其特征在于,还包括:
数据查找模块,用于在查找高校科研数据时,以所述标签查找压缩数据并解压得到优化数据串,根据优化数据串获取过程中多个分割部分的分割方式、各分割部分对应的放大倍数以及未经放大便作为放大编码值的编码值,将优化数据串还原为原始数据串,对原始数据串译码得到所要查找的高校科研数据。
CN202310238127.6A 2023-03-14 2023-03-14 一种高校科研数据采集管理系统 Active CN115955250B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310238127.6A CN115955250B (zh) 2023-03-14 2023-03-14 一种高校科研数据采集管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310238127.6A CN115955250B (zh) 2023-03-14 2023-03-14 一种高校科研数据采集管理系统

Publications (2)

Publication Number Publication Date
CN115955250A CN115955250A (zh) 2023-04-11
CN115955250B true CN115955250B (zh) 2023-05-12

Family

ID=85903341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310238127.6A Active CN115955250B (zh) 2023-03-14 2023-03-14 一种高校科研数据采集管理系统

Country Status (1)

Country Link
CN (1) CN115955250B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009253706A (ja) * 2008-04-07 2009-10-29 Casio Comput Co Ltd 符号化装置、復号装置、符号化方法、復号方法及びプログラム
CN104244012A (zh) * 2014-10-14 2014-12-24 重庆真测科技股份有限公司 一种ct数据压缩方法
CN114039704A (zh) * 2021-12-21 2022-02-11 海光信息技术股份有限公司 一种数据传输方法及相关装置
CN114067011A (zh) * 2021-11-29 2022-02-18 成都理工大学 射线计算鬼成像中编码版压缩方法
CN114268323A (zh) * 2021-12-24 2022-04-01 成都索贝数码科技股份有限公司 支持行存的数据压缩编码方法、装置及时序数据库

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005202262A (ja) * 2004-01-19 2005-07-28 Matsushita Electric Ind Co Ltd 音声信号符号化方法、音声信号復号化方法、送信機、受信機、及びワイヤレスマイクシステム
US8170333B2 (en) * 2011-10-13 2012-05-01 University Of Dayton Image processing systems employing image compression

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009253706A (ja) * 2008-04-07 2009-10-29 Casio Comput Co Ltd 符号化装置、復号装置、符号化方法、復号方法及びプログラム
CN104244012A (zh) * 2014-10-14 2014-12-24 重庆真测科技股份有限公司 一种ct数据压缩方法
CN114067011A (zh) * 2021-11-29 2022-02-18 成都理工大学 射线计算鬼成像中编码版压缩方法
CN114039704A (zh) * 2021-12-21 2022-02-11 海光信息技术股份有限公司 一种数据传输方法及相关装置
CN114268323A (zh) * 2021-12-24 2022-04-01 成都索贝数码科技股份有限公司 支持行存的数据压缩编码方法、装置及时序数据库

Also Published As

Publication number Publication date
CN115955250A (zh) 2023-04-11

Similar Documents

Publication Publication Date Title
CN112953550B (zh) 数据压缩的方法、电子设备及存储介质
CN101783788B (zh) 文件压缩、解压缩方法、装置及压缩文件搜索方法、装置
CN103067022B (zh) 一种整型数据无损压缩方法、解压缩方法及装置
US20110181448A1 (en) Lossless compression
EP2455853A2 (en) Data compression method
CN106407285A (zh) 一种基于rle和lzw的优化比特文件压缩与解压缩方法
CN116016606B (zh) 一种基于智慧云的污水处理运维数据高效管理系统
JP2008535319A (ja) 適応型データ圧縮、多次元予測、複数符号復号の改善による改良により前処理されたロスレスデータ変換の方法および装置
CN117155407B (zh) 一种智慧镜柜消毒日志数据优化存储方法
CN115955513B (zh) 一种物联网数据优化传输方法
CN115955250B (zh) 一种高校科研数据采集管理系统
CN1251449A (zh) 两类字典压缩算法在数据压缩中的组合带参运用
CN116827354B (zh) 一种文件数据分布式存储管理系统
CN111711511A (zh) 频域数据有损压缩方法
CN110995396B (zh) 基于层级结构的用电信息采集系统通信报文的压缩方法
CN115964347B (zh) 一种市场监管监测中心数据的智能存储方法
CN109698703B (zh) 基因测序数据解压方法、系统及计算机可读介质
CN114466082B (zh) 数据压缩、数据解压方法、系统及人工智能ai芯片
CN115567058A (zh) 一种结合预测与编码的时序数据有损压缩方法
Mahmood et al. Efficient compression scheme for large natural text using zipf distribution
Rajput et al. Comparative Study of Data Compression Techniques
CN116405037B (zh) 一种面向天文星表的压缩预处理编码器、应用
Zala et al. DESIGN AND IMPLEMENTATION OF HYBRID BLOCK COMPRESSION ALGORITHM FOR HETEROGENEOUS DATA
CN113626394B (zh) 一种数据压缩方法及相关装置
Islam et al. A Dynamic 5 Bit Data Compression Scheme by Using Set Change Table (5BDC)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant