CN116861271A - 基于大数据的数据分析处理方法 - Google Patents
基于大数据的数据分析处理方法 Download PDFInfo
- Publication number
- CN116861271A CN116861271A CN202311132603.2A CN202311132603A CN116861271A CN 116861271 A CN116861271 A CN 116861271A CN 202311132603 A CN202311132603 A CN 202311132603A CN 116861271 A CN116861271 A CN 116861271A
- Authority
- CN
- China
- Prior art keywords
- data
- scanning
- sequence
- path
- elements
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007405 data analysis Methods 0.000 title claims abstract description 12
- 238000003672 processing method Methods 0.000 title claims abstract description 12
- 238000011156 evaluation Methods 0.000 claims abstract description 106
- 238000000034 method Methods 0.000 claims abstract description 49
- 239000011159 matrix material Substances 0.000 claims abstract description 32
- 238000007906 compression Methods 0.000 claims abstract description 27
- 230000006835 compression Effects 0.000 claims abstract description 27
- 230000000694 effects Effects 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000013144 data compression Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000006837 decompression Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- WYTGDNHDOZPMIW-RCBQFDQVSA-N alstonine Natural products C1=CC2=C3C=CC=CC3=NC2=C2N1C[C@H]1[C@H](C)OC=C(C(=O)OC)[C@H]1C2 WYTGDNHDOZPMIW-RCBQFDQVSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/0626—Reducing size or complexity of storage systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0629—Configuration or reconfiguration of storage systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及用于数据保护的数据处理领域,具体涉及基于大数据的数据分析处理方法,包括:采集大数据的数据集信息并获取大数据数据集信息的二进制编码;根据大数据数据集信息的二进制编码获取一维十进制序列;根据一维十进制序列获取二维十进制矩阵;根据二维十进制矩阵获取扫描序列;根据扫描序列获取扫描路径的第一、第二以及第三特征评估标准,获取最终扫描路径评估标准根据最终扫描路径评估标准获取选择最优的扫描方式对数据进行游程编码压缩。本发明首先通过对大数据的数据集进行增维,然后根据增维数据得到最优扫描路径,使得游程编码的压缩效果达到最佳。
Description
技术领域
本发明涉及用于数据保护的数据处理领域,具体涉及基于大数据的数据分析处理方法。
背景技术
随着互联网大数据时代的到来,大数据已经成为了我国基础性战略资源的重要组成部分,其能够通过各种渠道收集到大量的资料,信息和数据;对于想要获取的目标数据实现精准识别和提取;因此对于大数据的分析处理非常重要,其可以有效地进行组织和管理大规模的数据,使其发挥最大的效益。
而由于大数据的信息体量庞大;加之应用领域遍及各行各业;存在巨大的信息交叉性,导致大量的数据信息冗余;海量的数据势必会带来大量的数据冗余,因此需要对数据采用有效的数据压缩方法最大程度的避免信息冗余,减少存储内存提高数据压缩效率。
传统对于数据的压缩方法常常使用游程编码进行压缩,但该方式针对于存在连续多个重复的数值数据集压缩效果较佳,而对于存在连续多个重复数值数据集较小的数据集压缩效果并不佳甚至可能会出现数据膨胀的现象。
发明内容
本发明提供基于大数据的数据分析处理方法,以解决现有的问题。
本发明的基于大数据的数据分析处理方法采用如下技术方案:
本发明一个实施例提供了基于大数据的数据分析处理方法,该方法包括以下步骤:
采集大数据的数据集信息;根据数据集信息获取一维十进制序列;根据一维十进制序列获取二维十进制矩阵;
根据二维十进制矩阵获取每个扫描路径下的扫描序列;将扫描序列中相邻且相同的元素记为特征元素,根据特征元素的数量获取扫描路径的第一特征评估标准;根据扫描序列中各种元素在扫描序列中连续出现的最大长度,获取扫描路径的第二特征评估标准;将扫描序列中所有元素转化成二进制数据得到扫描序列的二进制数据;根据扫描序列的二进制数据之间各进制位的相似程度,获取扫描序列的二进制数据之间的相似程度参数,根据扫描序列的二进制数据之间的相似程度参数获取目标数据;根据目标数据的数量获取扫描路径的第三特征评估标准;
根据扫描路径的第一、第二以及第三特征评估标准,获取每个扫描路径的最终扫描路径评估标准;
根据所有扫描路径的最终扫描路径评估标准获取选择最优扫描序列对数据进行游程编码压缩。
优选的,所述获取一维十进制序列,包括的具体方法为:
按照表将大数据数据集信息中的数据全部转换成十进制,得到一维十进制序列。
优选的,所述获取二维十进制矩阵,包括的具体方法为:
将一维十进制序列中第1个数据到第个数据作为二维十进制矩阵的第一行数据;将一维十进制序列中第/>个数据到第/>个数据作为二维十进制矩阵的第二行数据;将一维十进制序列中第/>个数据到第/>个数据作为二维十进制矩阵的第三行数据;以此类推,直至一维十进制序列中的最后一个数据,最终得到二维十进制矩阵,/>为预设数据。
优选的,所述获取扫描路径的第一特征评估标准,包括的具体方法为:
对于扫描序列中第个元素,若扫描序列中第/>个元素与第/>以及第/>个元素相同时,则记扫描序列中第/>个元素为特征元素,统计扫描序列中特征元素的数量,并将特征元素的数量,最后以特征元素的数量与扫描序列中元素的数量的比值作为扫描路径的第一特征评估标准。
优选的,所述获取扫描路径的第二特征评估标准,包括的具体方法为:
将扫描序列中数据值大小相同的元素归为同一种元素,统计扫描序列中第种元素连续出现的最大长度,根据扫描序列中所有元素在扫描序列中连续出现的最大长度,计算扫描路径的第二特征评估标准。
优选的,所述计算扫描路径的第二特征评估标准,包括的具体计算公式为:
式中,表示扫描路径的第二特征评估标准;/>表示扫描序列中元素的数量;/>表示扫描序列中第/>种元素连续出现的最大长度;/>表示扫描序列中元素种类的数量。
优选的,所述获取目标数据,包括的具体方法为:
将扫描序列中第1位数据与第2位数据转化为二进制数据,以扫描序列中第1位与第2位数据的二进制数据中各个进制位之间的差的绝对值之和作为,扫描序列中第1位数据与第2位数据之间的相似程度参数;
将扫描序列中第2位数据与第3位数据转化为二进制数据,以扫描序列中第2位与第3位数据的二进制数据中各个进制位之间的差的绝对值之和作为,扫描序列中第2位数据与第3位数据之间的相似程度参数;
将扫描序列中第3位数据与第4位数据转化为二进制数据,以扫描序列中第3位与第4位数据的二进制数据中各个进制位之间的差的绝对值之和作为,扫描序列中第3位数据与第4位数据之间的相似程度参数;
以此类推,获取扫描序列中所有相邻数据之间的相似程度,预设一个相似程度参数阈值;
当扫描序列中第个数据与第/>个数据相邻的两个数据间的相似程度参数小于等于/>时,则扫描序列中第/>个数据与第/>个数据相邻的两个数据相似,并将第/>个数据记为目标数据。
优选的,所述获取扫描路径的第三特征评估标准,包括的具体计算公式为:
式中,表示扫描路径的第三特征评估标准,/>表示扫描序列中目标数据的数量,/>表示扫描序列中元素的数量。
优选的,所述获取最终扫描路径评估标准,包括的具体计算公式为:
式中,表示扫描路径的最终扫描路径评估标准;/>表示扫描路径的第一特征评估标准;/>表示扫描路径的第二特征评估标准;/>表示扫描路径的第三特征评估标准;/>表示预设的扫描路径的第一特征评估标准的权值;/>表示预设的扫描路径的第二特征评估标准的权值;/>表示预设的扫描路径的第三特征评估标准的权值。
优选的,所述选择最优的扫描方式对数据进行游程编码压缩,包括的具体方法为:
通过计算各种扫描路径的最终扫描路径评估标准,选择最终扫描路径评估标准结果最大的扫描路径作为最优扫描路径,使用最优扫描路径对二维十进制矩阵进行扫描得到最优扫描序列,利用游程编码技术对最优扫描序列进行压缩,达到提高数据压缩效果的目的。
本发明的技术方案的有益效果是:传统对于数据的压缩方法常常使用游程编码进行压缩,但该方式针对于存在连续多个重复的数值数据集压缩效果较佳,而对于存在连续多个重复数值数据集较小的数据集压缩效果并不佳甚至可能会出现数据膨胀的现象。
而本发明通过对大数据的数据集进行预处理,并对数据集进行增维空间的构建,结合数据特点自适应得到最优压缩规则;增加连续数据之间的冗余程度,使得游程编码的压缩效果达到最佳,实现对大数据数据集的科学处理。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于大数据的数据分析处理方法的步骤流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的基于大数据的数据分析处理方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的基于大数据的数据分析处理方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的基于大数据的数据分析处理方法的步骤流程图,该方法包括以下步骤:
步骤S001:采集大数据数据集信息并对大数据数据集信息进行预处理,获取大数据数据集信息的二进制编码。
需要说明的是,对于社交平台、网购平台以及视频平台等平台,都需要对大数据进行分析处理,例如基于大数据的个性化推荐,这些大数据构成的数据集中包含有数字、文本字符、以及特殊字符等,其中特殊字符包括:&、*、¥、#等诸多符号;为能够更加高效的对大数据数据集信息进行处理,因此对于大数据的数据集信息需要进行转换操作。
具体的,按照表将大数据数据集信息中的文本字符、以及特殊字符等全部转换成十进制,得到大数据数据集中所有数据构成的一维十进制序列。需要说明的是,由于一维十进制序列中各数值之间的关联性较弱,不易对其相互之间的数值特征进行分析和处理;因此将得到的一维十进制序列进行存储空间增维操作,即转换为二维十进制矩阵存储结构;增加各数据之间的关联性。
具体的,将一维十进制序列中第1个数据到第个数据作为二维十进制矩阵的第一行数据;将一维十进制序列中第/>个数据到第/>个数据作为二维十进制矩阵的第二行数据;将一维十进制序列中第/>个数据到第/>个数据作为二维十进制矩阵的第三行数据;以此类推,直至一维十进制序列中的最后一个数据,最终得到二维十进制矩阵;其中/>为本实施例所预设的二维十进制矩阵的规格,/>的具体取值可根据具体情况进行设置,本实施例不做硬性要求,在本实施例中以/>进行叙述。
需要注意的是,若一维十进制序列不足以补足二维十进制矩阵中的最后一行,则对二维十进制矩阵中的最后一行进行补码处理;具体的,对二维十进制矩阵最后一行中空白的位置补零,并记录补码的数量。
至此,通过上述方法得到一组二维十进制矩阵。
步骤S002:对二维十进制矩阵进行路径扫描得到扫描序列;根据扫描序列获取扫描路径的第一特征评估标准、扫描路径的第二特征评估标准以及扫描路径的第三特征评估标准。
1.获取扫描路径的第一特征评估标准。
需要说明的是,二维十进制矩阵存储结构中对于数据的压缩扫描方式除过逐行扫描方式之外还存在多种不同的扫描方式即不同的扫描路径蛇形扫描,希尔伯特扫描等;而由于不同的扫描路径得到的序列不同,导致游程编码对于不同的序列所产生的压缩效果也各不相同;对于序列中连续索引位置上数值相同频次多的序列而言,由于造成的数据冗余更多,重复程度更高,因此对于该类序列游程编码的压缩效果最佳,由此对各压缩路径效果进行评估和分析,最终得到针对于当前大数据集下最优的压缩路径和规则。
需要进一步说明的是,连续相同的数据的冗余性高,而压缩算法能够利用冗余性来减小数据的存储或传输量,所以当扫描序列中连续相同的数据越多,扫描序列的冗余性就越高,故可以根据扫描序列中连续相同的数据数量,获取扫描路径的第一特征评估标准。
具体的,利用任意一种扫描路径对二维十进制矩阵进行扫描得到一个扫描序列。对于扫描序列中第个元素,若扫描序列中第/>个元素与第/>以及第/>个元素相同时,则记扫描序列中第/>个元素为特征元素,统计扫描序列中特征元素的数量,并将特征元素的数量记为/>;
需要注意的是,当扫描序列中第个元素只有一个相邻的元素时,只需判断第/>个元素与第/>或第/>个元素是否相同即可,如果相同第/>个元素为特征元素。
最后以特征元素的数量与扫描序列中元素的数量的比值作为第一特征评估标准,其具体的计算公式为:
式中,表示扫描路径的第二特征评估标准;/>表示特征元素的数量;/>表示扫描序列中元素的数量。
需要说明的是,计算得到的扫描路径的第一特征评估标准越大,则说明在扫描序列中相邻数据之间相同的数据越多,即扫描序列的冗余性越大,扫描序列的压缩效果越好。
至此,得到扫描路径的第一特征评估标准。
2.获取扫描路径的第二特征评估标准。
需要说明的是,在扫描序列中连续相同的数据越长,则表示扫描序列中的冗余性就越高,故可以根据扫描序列中连续相同的数据长度,获取扫描路径的第二特征评估标准。
具体的,将扫描序列中数据值大小相同的元素归为同一种元素,统计扫描序列中第种元素连续出现的最大长度记为/>,根据扫描序列中各种元素在扫描序列中连续出现的最大长度,获取扫描路径的第二特征评估标准,其具体的计算公式为:
式中,表示扫描路径的第二特征评估标准;/>表示扫描序列中元素的数量;/>表示扫描序列中第/>种元素连续出现的最大长度;/>表示扫描序列中元素种类的数量。
需要进一步说明的是,计算得到的扫描路径的第二特征评估标准越大,则说明在扫描序列中相邻数据之间相同的数据越多,即扫描序列的冗余性越大,扫描序列的压缩效果越好。
至此,得到扫描路径的第二特征评估标准。
3.获取扫描路径的第三特征评估标准。
需要说明的是,即使数据不同,数据之间也存在一定的冗余性,且数据之间越是相似,则数据之间的冗余性越大;故通过统计扫描序列中相似的相邻数据数量,获取扫描路径的第三特征评估标准。
具体的,将扫描序列中第1位数据与第2位数据转化为二进制数据,以扫描序列中第1位与第2位数据的二进制数据中各个进制位之间的差的绝对值之和作为:扫描序列中第1位数据与第2位数据之间的相似程度参数;
将扫描序列中第2位数据与第3位数据转化为二进制数据,以扫描序列中第2位与第3位数据的二进制数据中各个进制位之间的差的绝对值之和作为:扫描序列中第2位数据与第3位数据之间的相似程度参数;
将扫描序列中第3位数据与第4位数据转化为二进制数据,以扫描序列中第3位与第4位数据的二进制数据中各个进制位之间的差的绝对值之和作为:扫描序列中第3位数据与第4位数据之间的相似程度参数;
以此类推,获取扫描序列中所有相邻数据之间的相似程度。
例如:31与37这两个数据之间的相似程度参数的具体计算过程为:
31与37这两个数据之间的相似程度参数为4。
需要进一步说明的是,当数据之间的相似程度参数越大时,数据的相似程度越低,反之数据之间的相似程度参数越小时,数据的相似程度越高,故可以根据数据之间的相似程度参数,获取扫描序列中相似的相邻数据数量。
具体的,预设一个相似程度参数阈值,其中/>的取值可根据具体情况自行设置,本实施例不做硬性要求,在本实施例中设置/>4进行描述;当扫描序列中第/>个数据与第/>个数据相邻的两个数据间的相似程度参数均小于等于/>时,扫描序列中第/>个数据与第/>个数据相邻的两个数据相似,并将第/>个数据记为目标数据,反之扫描序列中第/>个数据与第/>个数据相邻的两个数据间的相似程度参数存在大于/>的情况时,扫描序列中第/>个数据与第/>个数据相邻的两个数据不相似,即第/>个数据不是目标数据;统计扫描序列中目标数据的数量记为/>,根据扫描序列中目标数据的数量,获取扫描路径的第三特征评估标准,其具体的计算公式如下:
式中,表示扫描路径的第三特征评估标准,/>表示扫描序列中目标数据的数量,/>表示扫描序列中元素的数量。
需要注意的是,当扫描序列中第个元素只有一个相邻的元素时,只需判断第/>个元素与第/>或第/>个元素是否相似即可,如果相同第/>个元素为目标元素。
需要进一步说明的是,计算得到的扫描路径的第三特征评估标准越大,则说明在扫描序列中相邻数据之间相似的数据越多,即扫描序列的冗余性越大,扫描序列的压缩效果越好。
至此,得到扫描路径的第三特征评估标准。
步骤S003:根据扫描序列获取扫描路径的第一特征评估标准、扫描路径的第二特征评估标准以及扫描路径的第三特征评估标准,获取最终扫描路径评估标准。
需要说明的是,最终扫描路径评估标准是根据扫描路径的第一特征评估标准、扫描路径的第二特征评估标准以及扫描路径的第三特征评估标准。
具体的,通过根据扫描路径的第一特征评估标准、扫描路径的第二特征评估标准以及扫描路径的第三特征评估标准,获取最终扫描路径评估标准的具体计算公式如下:
其中,表示扫描路径的最终扫描路径评估标准;/>表示扫描路径的第一特征评估标准;/>表示扫描路径的第二特征评估标准;/>表示扫描路径的第三特征评估标准;/>表示扫描路径的第一特征评估标准的权值;/>表示扫描路径的第二特征评估标准的权值;/>表示扫描路径的第三特征评估标准的权值。
需要进一步说明的是,根据游程编码压缩原理可知,在数据压缩的过程中完全相同的数据之间的冗余性最大,即在扫描序列中连续相同的数据的数量越多,利用游程编码进行压缩的压缩效果越好,所以扫描路径的第一特征评估标准的权值最大,而第三特征评估标准/>是通过扫描序列中相邻的数据之间的相似性获得的,而相似数据之间的冗余性是低于相同数据之间的冗余性的,所以扫描路径的第三特征评估标准的权值/>最小;即。
具体的,在本实施例中所预设的第一特征评估标准的权值、第二特征评估标准的权值/>、第三特征评估标准的权值/>,其中第一特征评估标准的权值、第二特征评估标准的权值/>以及第三特征评估标准的权值/>可根据具体情况设置,本实施例不做硬性要求。
需要注意的是,为了使最终扫描路径评估标准的结果在[0,1]区间,所以。
需要说明的是,最终扫描路径评估标准的结果越大,则说明由扫描路径得到的扫描序列里的数据冗余性就越高,对扫描序列的压缩效果就越好。
至此,通过上述方法得到最终扫描路径评估标准。
步骤S004:根据最终扫描路径评估标准选择最优的扫描方式对数据进行游程编码压缩。
通过计算各种扫描路径的最终扫描路径评估标准,选择最终扫描路径评估标准结果最大的扫描路径作为最优扫描路径,使用最优扫描路径对二维十进制矩阵进行扫描得到最优扫描序列,利用游程编码技术对最优扫描序列进行压缩,达到提高数据压缩效果的目的。
数据解压缩的方法为:首先使用游程编码解压缩方法将压缩后的数据解压缩成最优扫描序列,根据最优扫描路径将扫描序列还原成二维十进制矩阵,将补码的数据去除然后再重新还原成大数据数据集。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.基于大数据的数据分析处理方法,其特征在于,该方法包括以下步骤:
采集大数据的数据集信息;根据数据集信息获取一维十进制序列;根据一维十进制序列获取二维十进制矩阵;
根据二维十进制矩阵获取每个扫描路径下的扫描序列;将扫描序列中相邻且相同的元素记为特征元素,根据特征元素的数量获取扫描路径的第一特征评估标准;根据扫描序列中各种元素在扫描序列中连续出现的最大长度,获取扫描路径的第二特征评估标准;将扫描序列中所有元素转化成二进制数据得到扫描序列的二进制数据;根据扫描序列的二进制数据之间各进制位的相似程度,获取扫描序列的二进制数据之间的相似程度参数,根据扫描序列的二进制数据之间的相似程度参数获取目标数据;根据目标数据的数量获取扫描路径的第三特征评估标准;
根据扫描路径的第一、第二以及第三特征评估标准,获取每个扫描路径的最终扫描路径评估标准;
根据所有扫描路径的最终扫描路径评估标准获取选择最优扫描序列对数据进行游程编码压缩。
2.根据权利要求1所述基于大数据的数据分析处理方法,其特征在于,所述获取一维十进制序列,包括的具体方法为:
按照表将大数据数据集信息中的数据全部转换成十进制,得到一维十进制序列。
3.根据权利要求1所述基于大数据的数据分析处理方法,其特征在于,所述获取二维十进制矩阵,包括的具体方法为:
将一维十进制序列中第1个数据到第个数据作为二维十进制矩阵的第一行数据;将一维十进制序列中第/>个数据到第/>个数据作为二维十进制矩阵的第二行数据;将一维十进制序列中第/>个数据到第/>个数据作为二维十进制矩阵的第三行数据;以此类推,直至一维十进制序列中的最后一个数据,最终得到二维十进制矩阵,/>为预设数据。
4.根据权利要求1所述基于大数据的数据分析处理方法,其特征在于,所述获取扫描路径的第一特征评估标准,包括的具体方法为:
对于扫描序列中第个元素,若扫描序列中第/>个元素与第/>以及第/>个元素相同时,则记扫描序列中第/>个元素为特征元素,统计扫描序列中特征元素的数量,并将特征元素的数量,最后以特征元素的数量与扫描序列中元素的数量的比值作为扫描路径的第一特征评估标准。
5.根据权利要求1所述基于大数据的数据分析处理方法,其特征在于,所述获取扫描路径的第二特征评估标准,包括的具体方法为:
将扫描序列中数据值大小相同的元素归为同一种元素,统计扫描序列中第种元素连续出现的最大长度,根据扫描序列中所有元素在扫描序列中连续出现的最大长度,计算扫描路径的第二特征评估标准。
6.根据权利要求5所述基于大数据的数据分析处理方法,其特征在于,所述计算扫描路径的第二特征评估标准,包括的具体计算公式为:
式中,表示扫描路径的第二特征评估标准;/>表示扫描序列中元素的数量;/>表示扫描序列中第/>种元素连续出现的最大长度;/>表示扫描序列中元素种类的数量。
7.根据权利要求1所述基于大数据的数据分析处理方法,其特征在于,所述获取目标数据,包括的具体方法为:
将扫描序列中第1位数据与第2位数据转化为二进制数据,以扫描序列中第1位与第2位数据的二进制数据中各个进制位之间的差的绝对值之和作为,扫描序列中第1位数据与第2位数据之间的相似程度参数;
将扫描序列中第2位数据与第3位数据转化为二进制数据,以扫描序列中第2位与第3位数据的二进制数据中各个进制位之间的差的绝对值之和作为,扫描序列中第2位数据与第3位数据之间的相似程度参数;
将扫描序列中第3位数据与第4位数据转化为二进制数据,以扫描序列中第3位与第4位数据的二进制数据中各个进制位之间的差的绝对值之和作为,扫描序列中第3位数据与第4位数据之间的相似程度参数;
以此类推,获取扫描序列中所有相邻数据之间的相似程度,预设一个相似程度参数阈值;
当扫描序列中第个数据与第/>个数据相邻的两个数据间的相似程度参数小于等于/>时,则扫描序列中第/>个数据与第/>个数据相邻的两个数据相似,并将第/>个数据记为目标数据。
8.根据权利要求1所述基于大数据的数据分析处理方法,其特征在于,所述获取扫描路径的第三特征评估标准,包括的具体计算公式为:
式中,表示扫描路径的第三特征评估标准,/>表示扫描序列中目标数据的数量,/>表示扫描序列中元素的数量。
9.根据权利要求1所述基于大数据的数据分析处理方法,其特征在于,所述获取最终扫描路径评估标准,包括的具体计算公式为:
式中,表示扫描路径的最终扫描路径评估标准;/>表示扫描路径的第一特征评估标准;表示扫描路径的第二特征评估标准;/>表示扫描路径的第三特征评估标准;/>表示预设的扫描路径的第一特征评估标准的权值;/>表示预设的扫描路径的第二特征评估标准的权值;/>表示预设的扫描路径的第三特征评估标准的权值。
10.根据权利要求1所述基于大数据的数据分析处理方法,其特征在于,所述选择最优的扫描方式对数据进行游程编码压缩,包括的具体方法为:
通过计算各种扫描路径的最终扫描路径评估标准,选择最终扫描路径评估标准结果最大的扫描路径作为最优扫描路径,使用最优扫描路径对二维十进制矩阵进行扫描得到最优扫描序列,利用游程编码技术对最优扫描序列进行压缩,达到提高数据压缩效果的目的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311132603.2A CN116861271B (zh) | 2023-09-05 | 2023-09-05 | 基于大数据的数据分析处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311132603.2A CN116861271B (zh) | 2023-09-05 | 2023-09-05 | 基于大数据的数据分析处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116861271A true CN116861271A (zh) | 2023-10-10 |
CN116861271B CN116861271B (zh) | 2023-12-08 |
Family
ID=88222031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311132603.2A Active CN116861271B (zh) | 2023-09-05 | 2023-09-05 | 基于大数据的数据分析处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116861271B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117235013A (zh) * | 2023-11-10 | 2023-12-15 | 中科数创(临沂)数字科技有限公司 | 一种基于人工智能的智慧档案管理方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1547326A (zh) * | 2003-11-28 | 2004-11-17 | 北京大学 | 可扩展标记语言数据流压缩器及其压缩方法 |
US20170338834A1 (en) * | 2015-02-16 | 2017-11-23 | Mitsubishi Electric Corporation | Data compression apparatus, data decompression apparatus, data compression method, data decompression method, and computer readable medium |
CN110266316A (zh) * | 2019-05-08 | 2019-09-20 | 阿里巴巴集团控股有限公司 | 一种数据压缩、解压方法、装置和设备 |
CN111277831A (zh) * | 2020-01-15 | 2020-06-12 | 广东工业大学 | 一种基于分类编码的图像压缩方法及系统 |
CN113377850A (zh) * | 2021-06-09 | 2021-09-10 | 深圳前海墨斯科技有限公司 | 认知物联网大数据技术平台 |
CN114915788A (zh) * | 2022-07-19 | 2022-08-16 | 中科金勃信(山东)科技有限公司 | 一种用于档案的图像压缩方法、系统及介质 |
CN115333735A (zh) * | 2022-10-11 | 2022-11-11 | 浙江御安信息技术有限公司 | 一种数据的安全传输方法 |
CN115834887A (zh) * | 2023-02-17 | 2023-03-21 | 济南霍兹信息科技有限公司 | 一种计算机系统的数据压缩存储方法 |
CN115955513A (zh) * | 2023-03-10 | 2023-04-11 | 湖南洛普洛科技有限公司 | 一种物联网数据优化传输方法 |
CN116185971A (zh) * | 2023-04-27 | 2023-05-30 | 济宁市质量计量检验检测研究院(济宁半导体及显示产品质量监督检验中心、济宁市纤维质量监测中心) | 一种电子压力称重数据的智能处理系统 |
CN116415159A (zh) * | 2023-06-12 | 2023-07-11 | 青岛市城市规划设计研究院 | 一种海绵城市数据管理方法及系统 |
CN116504396A (zh) * | 2023-06-26 | 2023-07-28 | 贵阳市第四人民医院 | 一种中西医结合内科检查数据分析系统 |
CN116546201A (zh) * | 2023-04-10 | 2023-08-04 | 西安理工大学 | 基于块的自适应编码和比特流压缩的可逆数据隐藏方法 |
-
2023
- 2023-09-05 CN CN202311132603.2A patent/CN116861271B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1547326A (zh) * | 2003-11-28 | 2004-11-17 | 北京大学 | 可扩展标记语言数据流压缩器及其压缩方法 |
US20170338834A1 (en) * | 2015-02-16 | 2017-11-23 | Mitsubishi Electric Corporation | Data compression apparatus, data decompression apparatus, data compression method, data decompression method, and computer readable medium |
CN110266316A (zh) * | 2019-05-08 | 2019-09-20 | 阿里巴巴集团控股有限公司 | 一种数据压缩、解压方法、装置和设备 |
CN111277831A (zh) * | 2020-01-15 | 2020-06-12 | 广东工业大学 | 一种基于分类编码的图像压缩方法及系统 |
CN113377850A (zh) * | 2021-06-09 | 2021-09-10 | 深圳前海墨斯科技有限公司 | 认知物联网大数据技术平台 |
CN114915788A (zh) * | 2022-07-19 | 2022-08-16 | 中科金勃信(山东)科技有限公司 | 一种用于档案的图像压缩方法、系统及介质 |
CN115333735A (zh) * | 2022-10-11 | 2022-11-11 | 浙江御安信息技术有限公司 | 一种数据的安全传输方法 |
CN115834887A (zh) * | 2023-02-17 | 2023-03-21 | 济南霍兹信息科技有限公司 | 一种计算机系统的数据压缩存储方法 |
CN115955513A (zh) * | 2023-03-10 | 2023-04-11 | 湖南洛普洛科技有限公司 | 一种物联网数据优化传输方法 |
CN116546201A (zh) * | 2023-04-10 | 2023-08-04 | 西安理工大学 | 基于块的自适应编码和比特流压缩的可逆数据隐藏方法 |
CN116185971A (zh) * | 2023-04-27 | 2023-05-30 | 济宁市质量计量检验检测研究院(济宁半导体及显示产品质量监督检验中心、济宁市纤维质量监测中心) | 一种电子压力称重数据的智能处理系统 |
CN116415159A (zh) * | 2023-06-12 | 2023-07-11 | 青岛市城市规划设计研究院 | 一种海绵城市数据管理方法及系统 |
CN116504396A (zh) * | 2023-06-26 | 2023-07-28 | 贵阳市第四人民医院 | 一种中西医结合内科检查数据分析系统 |
Non-Patent Citations (3)
Title |
---|
SUBHRA J. SARKAR 等: "Development of Combined Differential Binary Encoding Algorithm for Power System Operational Data Compression", 《10TH INTERNATIONAL CONFERENCE ON ELECTRICAL AND COMPUTER ENGINEERING》, pages 109 - 112 * |
周彬 等: "二维测试数据压缩的优化", 《计算机研究与发展》, vol. 46, no. 4, pages 637 - 643 * |
王洋 等: "基于Hash表改进的二进制编码的Apriori算法", 《西南民族大学学报( 自然科学版)》, vol. 46, no. 6, pages 623 - 630 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117235013A (zh) * | 2023-11-10 | 2023-12-15 | 中科数创(临沂)数字科技有限公司 | 一种基于人工智能的智慧档案管理方法 |
CN117235013B (zh) * | 2023-11-10 | 2024-01-30 | 中科数创(临沂)数字科技有限公司 | 一种基于人工智能的智慧档案管理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116861271B (zh) | 2023-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116861271B (zh) | 基于大数据的数据分析处理方法 | |
EP0411675A2 (en) | Interframe coding apparatus | |
CN110021369B (zh) | 基因测序数据压缩解压方法、系统及计算机可读介质 | |
CN115242475A (zh) | 一种大数据安全传输方法及系统 | |
CN116388767A (zh) | 用于软件开发数据的安全管理方法 | |
CN104115162B (zh) | 图像分析 | |
CN110505218B (zh) | 基于json的栅格数据自适应压缩传输方法及计算机存储介质 | |
CN115955513B (zh) | 一种物联网数据优化传输方法 | |
CN115296862A (zh) | 一种基于数据编码的网络数据安全传输方法 | |
CN106357275B (zh) | 一种哈夫曼压缩方法及装置 | |
CN110021368B (zh) | 比对型基因测序数据压缩方法、系统及计算机可读介质 | |
Saravanan et al. | Lossless grey-scale image compression using source symbols reduction and Huffman coding | |
CN116737085A (zh) | 一种电梯维护数据高效存储方法 | |
CN109698703B (zh) | 基因测序数据解压方法、系统及计算机可读介质 | |
CN109670072B (zh) | 一种基于间隔提取的商标相似度比较方法 | |
CN113784147A (zh) | 一种基于卷积神经网络的高效视频编码方法及系统 | |
CN110111851B (zh) | 基因测序数据压缩方法、系统及计算机可读介质 | |
Dubé | Lossless compression of grayscale and colour images using multidimensional CSE | |
US5708429A (en) | Method of compressing electroencephalographic signals | |
CN109698702B (zh) | 基因测序数据压缩预处理方法、系统及计算机可读介质 | |
CN110267039B (zh) | 对像素标识进行处理的方法和装置 | |
CN117560016B (zh) | 基于大数据的高校招聘信息管理方法 | |
CN117155408B (zh) | 一种生产数据的高效传输方法 | |
CN117272933B (zh) | 一种混凝土路面报告数据存储方法 | |
CN117221414B (zh) | 一种调制解调器数据智能传输方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |