CN114036323A - 数据压缩方法及装置、存储介质 - Google Patents

数据压缩方法及装置、存储介质 Download PDF

Info

Publication number
CN114036323A
CN114036323A CN202111191101.8A CN202111191101A CN114036323A CN 114036323 A CN114036323 A CN 114036323A CN 202111191101 A CN202111191101 A CN 202111191101A CN 114036323 A CN114036323 A CN 114036323A
Authority
CN
China
Prior art keywords
index number
hexadecimal
number set
index
files
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111191101.8A
Other languages
English (en)
Inventor
白智德
白志得
哈米德
殷燕
黄坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhihuilin Network Technology Co ltd
Original Assignee
Shenzhen Zhihuilin Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhihuilin Network Technology Co ltd filed Critical Shenzhen Zhihuilin Network Technology Co ltd
Priority to CN202111191101.8A priority Critical patent/CN114036323A/zh
Publication of CN114036323A publication Critical patent/CN114036323A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本申请公开了一种数据压缩方法及装置、存储介质。该方法包括:根据训练数据清单,将第一图像文件的一个字节的十六进制数据保存为第一索引号集和第二索引号集;将所述第二索引号集中的任一第二索引号与所述第二索引号集中的最小索引号之差对应的值替换所述第二索引号;保存所述第一索引号集和替换后的所述第二索引号集。还公开了相应的装置和存储介质。采用本申请公开的方案,使用二进制压缩方法来提供高端的压缩比,既可以保证压缩后的原始医学图像的精确质量,又提供非常低的压缩比,可以将医学图像文件压缩到原始文件大小的6%左右,而在解压后不损失任何视觉质量。

Description

数据压缩方法及装置、存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据压缩方法及装置、存储介质。
背景技术
医学图像文件(通常是医学数字影像和通讯(digital imaging andcommunications in medicine,DICOM)和神经成像信息学技术倡议(neuroimaginginformatics technology initiative,NIFTI))构建为原始图像文件(RAW),原始图像文件通常使用数学(完全)无损压缩方法(totally lossless compression,TLC)压缩。
大多数TLC方法提供不超过压缩比约25%的最大性能结果。例如,JPEGLS和JPEG2K(JPEG2000)提供平均30%到25%的压缩比。
尽管这些技术,以及消息完整性检查(message integrity check,MIC)完全无损压缩技术,在解压缩后获得原始医学图像文件的精确位对位等价图像文件。对于医疗保健工作人员,如医生,二进制数据通常是无用的。因为他们最终要求的结果是相同的医学图像,在视觉上是与原始医学图像等价的,而不是原始医学图像中的二进制数据。
目前的医学图像文件压缩方法,在解压缩后为了获得位对位数据,牺牲了巨大的压缩比余量,使得压缩软件无法通过压缩来节省更有利的磁盘空间。
此外,由于当前的压缩方法需要大量的计算来压缩二进制数据,因此在压缩过程中需要消耗大量的计算资源,如中央处理单元(central processing unit,CPU)和随机存取存储器(random access memory,RAM)。这使得压缩速度更低,并且在医学图像数据中心产生更高的能耗。
发明内容
本申请提供一种数据压缩方法及装置、存储介质,以不损失任何视觉质量的情况下,提供较低的压缩比。
第一方面,提供了一种数据压缩方法,所述方法包括:
根据训练数据清单,将第一图像文件的一个字节的十六进制数据保存为第一索引号集和第二索引号集;
将所述第二索引号集中的任一第二索引号与所述第二索引号集中的最小索引号之差对应的值替换所述第二索引号;
保存所述第一索引号集和替换后的所述第二索引号集。
可选地,所述第一索引号集中的第一索引号为至少两位索引号,所述第二索引号集中的第二索引号为一位索引号。
可选地,所述方法还包括:
将第二图像文件的一个字节的二进制数据保存为两个十六进制文件;
获取所述两个十六进制文件中每个十六进制文件中的十六进制值的类型;
获取每个类型的十六进制值在所述两个十六进制文件中出现的概率;
根据所述概率,给所述两个十六进制文件中的每个十六进制值分配对应的索引号;
将所述第二图像文件保存为第三索引号集和第四索引号集。
可选地,所述方法还包括:
获取所述第二图像文件的二进制数据;
提取所述第二图像文件的报头;
所述将第二图像文件的一个字节的二进制数据保存为两个十六进制文件,包括:
将所述第二图像文件除所述报头之外的报文本体部分的二进制数据保存为所述两个十六进制文件。
可选地,所述方法还包括:
对所述训练数据清单中的多个所述第二图像文件进行训练,获得所有1字节十六进制值的排序概率。
第二方面,提供了一种数据压缩装置,所述装置包括:
第一保存单元,用于根据训练数据清单,将第一图像文件的一个字节的十六进制数据保存为第一索引号集和第二索引号集;
替换单元,用于将所述第二索引号集中的任一第二索引号与所述第二索引号集中的最小索引号之差对应的值替换所述第二索引号;
第二保存单元,用于保存所述第一索引号集和替换后的所述第二索引号集。
可选地,所述第一索引号集中的第一索引号为至少两位索引号。所述第二索引号集中的第二索引号为一位索引号。
可选地,所述装置还包括:
第三保存单元,用于将第二图像文件的一个字节的二进制数据保存为两个十六进制文件;
第一获取单元,用于获取所述两个十六进制文件中每个十六进制文件中的十六进制值的类型;
第二获取单元,用于获取每个类型的十六进制值在所述两个十六进制文件中出现的概率;
分配单元,用于根据所述概率,给所述两个十六进制文件中的每个十六进制值分配对应的索引号;
第四保存单元,用于将所述第二图像文件保存为第三索引号集和第四索引号集。
可选地,所述装置还包括:
第三获取单元,用于获取所述第二图像文件的二进制数据;
提取单元,用于提取所述第二图像文件的报头;
所述第三保存单元,用于将所述第二图像文件除所述报头之外的报文本体部分的二进制数据保存为所述两个十六进制文件。
可选地,所述装置还包括:
训练单元,用于对所述训练数据清单中的多个所述第二图像文件进行训练,获得所有1字节十六进制值的排序概率。
第三方面,提供了一种数据压缩装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面或第一方面的任一种实现所述的方法。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面或第一方面的任一种实现所述的方法。
采用本申请的数据压缩方案,具有如下有益效果:
使用二进制压缩方法来提供高端的压缩比,既可以保证压缩后的原始医学图像的精确质量,又提供非常低的压缩比,可以将医学图像文件压缩到原始文件大小的6%左右,而在解压后不损失任何视觉质量。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种数据压缩方法的流程示意图;
图2为本申请实施例提供的另一种数据压缩方法的流程示意图;
图3为本申请实施例示例的一种数据压缩训练的示意图;
图4为本申请实施例示例的一种数据压缩的示意图;
图5为本申请实施例提供的一种数据压缩装置的结构示意图;
图6为本申请实施例提供的另一种数据压缩装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提供了一种不同的方法来压缩医学图像文件,即使用二进制压缩方法来提供高端的压缩比,既可以保证压缩后的原始医学图像的精确质量,又提供非常低的压缩比,可以将医学图像文件压缩到原始文件大小的6%左右,而在解压后不损失任何视觉质量。
医学图像文件,可以是医学数字成像和通信(digital imaging andcommunication in medicine,DICOM)或NIFTI(neuroimaging informatics technologyinitiative)格式,将显示精确的像素到像素的视觉图像,就像它们在压缩之前的原始医学图像文件一样。通过结构相似性(structural similarity,SSIM)比对等多种图像分析方法,可以对解压缩后的医学图像进行可视化分析,证明解压缩后的医学图像文件与相应的原始医学图像文件具有完全相同的视觉质量。
本申请描述了一种将医学图像文件压缩为约原始文件大小的6%的解决方案,在解压后将产生与原始文件完全相同的视觉质量。
该方法采用二进制压缩技术,不分析作为视觉单元的DICOM文件的像素和灰度数据。相反,将像素数据和灰度数据导出为二进制值,并使用最有效的计算来分析它们,以节省大量的计算能力。
这种方法在这里被称为医学图像复制(medical image replication,MIR),主要建立在人工智能(artificial intelligence,AI)算法训练的数据模型上。
如图1所示,为本申请实施例提供的一种数据压缩方法的流程示意图,该方法包括以下步骤:
S101.根据训练数据清单,将第一图像文件的一个字节的十六进制数据保存为第一索引号集和第二索引号集。
S102.将所述第二索引号集中的任一第二索引号与所述第二索引号集中的最小索引号之差对应的值替换所述第二索引号。
S103.保存所述第一索引号集和替换后的所述第二索引号集。
将一个字节的十六进制值逐个存储到一个新文件中,该文件实际上是压缩文件(压缩过程的输出结果):
步骤S101:给定如图4所示的截图中的十六进制值,将一个字节的十六进制值保存为索引,或者是一位和两位索引号:
DD=>索引85 00=>索引5
E4=>索引80 00=>索引5
EF=>索引85 00=>索引5
E7=>索引81 00=>索引5
D3=>索引55 00=>索引5
C1=>索引50 00=>索引5
BF=>索引55 00=>索引5
C8=>索引56 00=>索引5
步骤S102:用最大索引号与最小索引号之差对应的值替换最大索引号。例如,如果文件1中有85个索引号(DD,E4,EF,E7,D3,C1,BF,C8,....),最小的索引号是50,那么有85-50=35。
这样,最大的索引号(85)被35替换,索引号按照最小的索引号为0的方式排序。
这使能够通过存储更小的索引号来节省更多的磁盘空间。
步骤S103:每个第1字节的十六进制值都被表示它们的修改过的索引号替换,存储方式如下:
DD=>35
00=>5
E4=>30
00=>5
EF=>35
00=>5
E7=>31
00=>5
D3=>20
00=>5
C1=>15
00=>5
BF=>20
00=>5
C8=>21
00=>5
第一个字节(DD,E4,EF,....)中最大的索引值为35,是一个6位数字。第二个1字节(00,00,00,00,....)中最大的索引值为5,是一个3位数字。
这样,可以将保存仅6位的第一个1字节的十六进制值,以及将保存仅3位的第二个1字节的十六进制值,这意味着将16位数据保存在仅9位的数据块中。这将自动节省大约45%的磁盘空间,这意味着压缩比将大约为55%。
现在已经压缩了原始数据,但没有显著减少其冗余,将使用的其他压缩算法(已经获得专利/提交了专利)来压缩仍然有大量冗余的文件。该方法包括:
Ⅰ)冗余生成器
Ⅱ)概率预测器
III)批量同类型数据分析仪
由于输入文件已被减半,可以使用上述三种方法开始压缩过程,压缩数据约占输入数据的12%。这使能够创建比原始医学图像文件大约6%的压缩比。
解压缩:
参考TDI收集的数据,将压缩引擎的步骤4改为步骤1,将获得原始图像。压缩过程中丢失的二进制数据包括:
不被认为是整数的额外数字。例如,在TDI的第8步中,有:
FE=>1.125%(指数:2)
将概率数1.125%替换为1.1%。剩下的数字(2和5)丢失了。
这将使最终的图像中没有质量问题,因为概率数量总是分配在MIFs中,相应的值分布在MIFs的二进制数据中,不会影响通过简化数量至只有一个数字。
根据本申请提供的一种数据压缩方法的流程示意图,使用二进制压缩方法来提供高端的压缩比,既可以保证压缩后的原始医学图像的精确质量,又提供非常低的压缩比,可以将医学图像文件压缩到原始文件大小的6%左右,而在解压后不损失任何视觉质量。
如图2所示,为本申请实施例提供的一种数据压缩方法的流程示意图,该方法包括以下步骤:
S201.获取第二图像文件的二进制数据。
S202.提取所述第二图像文件的报头。
S203.将所述第二图像文件除所述报头之外的报文本体部分的二进制数据保存为所述两个十六进制文件。
S204.将第二图像文件的一个字节的二进制数据保存为两个十六进制文件。
S205.获取所述两个十六进制文件中每个十六进制文件中的十六进制值的类型。
S206.获取每个类型的十六进制值在所述两个十六进制文件中出现的概率。
S207.根据所述概率,给所述两个十六进制文件中的每个十六进制值分配对应的索引号。
S208.将所述第二图像文件保存为第三索引号集和第四索引号集。
S209.对所述训练数据清单中的多个所述第二图像文件进行训练,获得所有1字节十六进制值的排序概率。
S210.根据训练数据清单,将第一图像文件的一个字节的十六进制数据保存为第一索引号集和第二索引号集。
S211.将所述第二索引号集中的任一第二索引号与所述第二索引号集中的最小索引号之差对应的值替换所述第二索引号。
S212.保存所述第一索引号集和替换后的所述第二索引号集。
作为此方法基础的现有训练数据清单(trained data inventories,TDIs)使任何新的医学图像文件的计算功耗最小。
MIR分为两种算法:
I)训练数据清单(trained data inventory,TDI)
II)压缩引擎
方法描述:
I)TDI
简介:
训练数据清单负责收集从数千个DICOM或NIFTI文件中获得的分析数据,这里称为医疗图像文件(medical image files,MIFs)。
TDI的工作如下:
接收单个MIF。
S201:读取MIF的二进制数据。二进制数据可以被读作二进制数据的十六进制(hexadecimal,HEX)等价数据。
S202:提取MIF的报头。MIF的头部包含MIF的元数据,包括患者信息和MIF使用的仪器。文件的头通常在几个千字节的大小范围内,这个范围因文件而异。
将提取的MIF报头保存为一个单独的二进制文件。
S203:将剩余的二进制数据(MIF的报文本体)分成两部分,每一部分代表一个字节。获得两个独立的二进制文件:一个由奇数索引的单字节数据组成,另一个由偶数索引的单字节数据组成。
这是通过存储第一,第三,第五,第七,....一个字节的数据在一个二进制文件中来实现的,并存储第二,第四,第六,第八,第十,....一个字节的数据在另一个二进制文件中。
对于所有剩余的字节,继续这一步。
示例:将HEX值保留在一个文件的矩形框中。其余的HEX值在另一个文件中。
S204:对这两个文件分别进行以下分析研究:
确定每个文件有多少类型的值。例如,考虑到显示如图4所示的压缩数据训练的示意图中的矩形框中的文件的十六进制值,有5种类型的十六进制值:
所选数据中的(00,01,02,03,04):
00,00,00,00,00,00,00,00,00,00,00,01,01,……,02,03,03,04,....
步骤205:生成以下两个文件的概率列表:
文件1:[即1.bin]
00=>20%
01=>12.5%
02=>8%
03=>5%
04=>2%
…=>…%
A1=>3.5%
A2=>4.5%
A3=>5.5%
A4=>19%
A5=>0.5%
…=>…%
B1=>2%
B2=>3%
B3=>3.5%
B3=>4.5%
B4=>5.5%
B5=>11.5%
…=>…%
文件2:[即2.bin]
00=>25%
01=>5%
02=>12.5%
03=>20%
04=>30%
05=>1%
…=>…%
考虑到文件2是第二个1字节十六进制值的表示(用矩形框突出显示),奇数的是这个文件对应的十六进制值之间的概率分布不会出现如此大的差异,而只是少数的十六进制值的集合。不像文件1,它有大量的十六进制值,每个值都有相应的概率值。
S206:为这两个文件分别创建一个单独的索引文件(.bin文件)。
索引文件包含每个十六进制值及其对应的索引号。
索引号在十六进制值中分配,从属于概率最高的十六进制值的最高数字到概率最低的十六进制值。
例如,如果认为文件2只是由图3中矩形框突出显示的十六进制值组成,则与文件2对应的索引文件如下:
文件2:[即2.bin]
00=>53.125%(索引:5)
01=>40.625%(索引:4)
02=>1.5625%(索引:2)
03=>3.125%(索引:3)
04=>1.5625%(索引:1)
注意:如果两个十六进制值(本例中为02和04)的概率相等,则软件将随机分配两个连续的索引号在其中。
重复步骤S201到步骤S206的下一个MIFs。通过使用更多的医学图像文件对TDI进行训练,TDI的精度会越来越高。
步骤208:生成一个整体分析数据(作为.bin文件),其中包含所有1字节十六进制值的排序概率。
.bin文件应该包含与步骤S208中生成的结果相似的结果,不同的是索引号是从一组MIFs文件生成的,而不是单个医学图像文件。
例如,分析100,000个DICOM文件可能会返回以下值:
[Index2.bin]
00=>53.125%(索引:85)
....=>…%(索引:…)
FD=>1.5625%(索引:3)
FE=>1.125%(索引:2)
FF=>1.0625%(索引:1)
(二)压缩引擎
通过从TDI收集的数据,已经知道在MIFs中,每个1字节的十六进制值通常有多少个可用的信息。
这使其能够取代1字节的十六进制值,通常每个十六进制值会消耗8位的磁盘空间,只有个位数的第二个1字节的十六进制值和第一个1字节的十六进制值的两位数号码(这是数据训练算法使用成千上万的医学图像文件收集的分析结果)。
将一个字节的十六进制值逐个存储到一个新文件中,该文件实际上是压缩文件(压缩过程的输出结果):
步骤S209:给定如图4所示的数据压缩的示意图的截图中的十六进制值,将一个字节的十六进制值保存为索引,或者是一位和两位索引号:
DD=>索引85 00=>索引5
E4=>索引80 00=>索引5
EF=>索引85 00=>索引5
E7=>索引81 00=>索引5
D3=>索引55 00=>索引5
C1=>索引50 00=>索引5
BF=>索引55 00=>索引5
C8=>索引56 00=>索引5
步骤S210:用最大索引号与最小索引号之差对应的值替换最大索引号。例如,如果文件1中有85个索引号(DD,E4,EF,E7,D3,C1,BF,C8,....),最小的索引号是50,那么有85-50=35。
这样,最大的索引号(85)被35替换,索引号按照最小的索引号为0的方式排序。
这使能够通过存储更小的索引号来节省更多的磁盘空间。
步骤S211:每个第1字节的十六进制值都被表示它们的修改过的索引号替换,存储方式如下:
DD=>35
00=>5
E4=>30
00=>5
EF=>35
00=>5
E7=>31
00=>5
D3=>20
00=>5
C1=>15
00=>5
BF=>20
00=>5
C8=>21
00=>5
第一个字节(DD,E4,EF,....)中最大的索引值为35,是一个6位数字。第二个1字节(00,00,00,00,....)中最大的索引值为5,是一个3位数字。
这样,可以将保存仅6位的第一个1字节的十六进制值,以及将保存仅3位的第二个1字节的十六进制值,这意味着将16位数据保存在仅9位的数据块中。这将自动节省大约45%的磁盘空间,这意味着压缩比将大约为55%。
现在已经压缩了原始数据,但没有显著减少其冗余,将使用的其他压缩算法(已经获得专利/提交了专利)来压缩仍然有大量冗余的文件。该方法包括:
Ⅰ)冗余生成器
Ⅱ)概率预测器
III)批量同类型数据分析仪
由于输入文件已被减半,可以使用上述三种方法开始压缩过程,压缩数据约占输入数据的12%。这使能够创建比原始医学图像文件大约6%的压缩比。
解压缩:
参考TDI收集的数据,将压缩引擎的步骤4改为步骤1,将获得原始图像。压缩过程中丢失的二进制数据包括:
不被认为是整数的额外数字。例如,在TDI的第8步中,有:
FE=>1.125%(指数:2)
将概率数1.125%替换为1.1%。剩下的数字(2和5)丢失了。
这将使最终的图像中没有质量问题,因为概率数量总是分配在MIFs中,相应的值分布在MIFs的二进制数据中,不会影响通过简化数量至只有一个数字。
根据本申请提供的一种数据压缩方法的流程示意图,使用二进制压缩方法来提供高端的压缩比,既可以保证压缩后的原始医学图像的精确质量,又提供非常低的压缩比,可以将医学图像文件压缩到原始文件大小的6%左右,而在解压后不损失任何视觉质量。
可以理解的是,为了实现上述实施例中的功能,数据压缩装置包括了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本申请中所公开的实施例描述的各示例的单元及方法步骤,本申请能够以硬件或硬件和计算机软件相结合的形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用场景和设计约束条件。
如图5所示,为本申请提供的一种数据压缩装置的结构示意图,该装置500可包括:
第一保存单元501,用于根据训练数据清单,将第一图像文件的一个字节的十六进制数据保存为第一索引号集和第二索引号集;
替换单元502,用于将所述第二索引号集中的任一第二索引号与所述第二索引号集中的最小索引号之差对应的值替换所述第二索引号;
第二保存单元503,用于保存所述第一索引号集和替换后的所述第二索引号集。
可选地,所述第一索引号集中的第一索引号为至少两位索引号。所述第二索引号集中的第二索引号为一位索引号。
可选地,所述装置还包括(图中以虚线表示):
第三保存单元504,用于将第二图像文件的一个字节的二进制数据保存为两个十六进制文件;
第一获取单元505,用于获取所述两个十六进制文件中每个十六进制文件中的十六进制值的类型;
第二获取单元506,用于获取每个类型的十六进制值在所述两个十六进制文件中出现的概率;
分配单元507,用于根据所述概率,给所述两个十六进制文件中的每个十六进制值分配对应的索引号;
第四保存单元508,用于将所述第二图像文件保存为第三索引号集和第四索引号集。
可选地,所述装置还包括(图中以虚线表示):
第三获取单元509,用于获取所述第二图像文件的二进制数据;
提取单元510,用于提取所述第二图像文件的报头;
所述第三保存单元504,用于将所述第二图像文件除所述报头之外的报文本体部分的二进制数据保存为所述两个十六进制文件。
可选地,所述装置还包括(图中以虚线表示):
训练单元511,用于对所述训练数据清单中的多个所述第二图像文件进行训练,获得所有1字节十六进制值的排序概率。
需要说明的是,以上单元或单元的一个或多个可以软件、硬件或二者结合来实现。当以上任一单元或单元以软件实现的时候,所述软件以计算机程序指令的方式存在,并被存储在存储器中,处理器可以用于执行所述程序指令并实现以上方法流程。该处理器可以内置于片上系统(system on chip,SoC)或ASIC,也可是一个独立的半导体芯片。该处理器内处理用于执行软件指令以进行运算或处理的核外,还可进一步包括必要的硬件加速器,如现场可编程门阵列(field programmable gate array,FPGA)、可编程逻辑器件(programmable logic device,PLD)、或者实现专用逻辑运算的逻辑电路。
当以上单元或单元以硬件实现的时候,该硬件可以是CPU、微处理器、数字信号处理(digital signal processing,DSP)芯片、微控制单元(microcontroller unit,MCU)、人工智能处理器、ASIC、SoC、FPGA、PLD、专用数字电路、硬件加速器或非集成的分立器件中的任一个或任一组合,其可以运行必要的软件或不依赖于软件以执行以上方法流程。
根据本申请实施例提供的一种数据压缩装置,使用二进制压缩方法来提供高端的压缩比,既可以保证压缩后的原始医学图像的精确质量,又提供非常低的压缩比,可以将医学图像文件压缩到原始文件大小的6%左右,而在解压后不损失任何视觉质量。
如图6所示,为本申请提供的另一种数据压缩装置的结构示意图,该装置600可包括:
输入装置61、输出装置62、存储器63和处理器64(装置中的处理器64的数量可以一个或多个,图6中以一个处理器为例)。在本申请的一些实施例中,输入装置61、输出装置62、存储器63和处理器64可通过总线或其它方式连接,其中,图6中以通过总线连接为例。
其中,处理器64用于执行以下步骤:
根据训练数据清单,将第一图像文件的一个字节的十六进制数据保存为第一索引号集和第二索引号集;
将所述第二索引号集中的任一第二索引号与所述第二索引号集中的最小索引号之差对应的值替换所述第二索引号;
保存所述第一索引号集和替换后的所述第二索引号集。
可选地,所述第一索引号集中的第一索引号为至少两位索引号。所述第二索引号集中的第二索引号为一位索引号。
可选地,处理器64还用于执行以下步骤:
将第二图像文件的一个字节的二进制数据保存为两个十六进制文件;
获取所述两个十六进制文件中每个十六进制文件中的十六进制值的类型;
获取每个类型的十六进制值在所述两个十六进制文件中出现的概率;
根据所述概率,给所述两个十六进制文件中的每个十六进制值分配对应的索引号;
将所述第二图像文件保存为第三索引号集和第四索引号集。
可选地,处理器64用于执行以下步骤:
获取所述第二图像文件的二进制数据;
提取所述第二图像文件的报头;
所述将第二图像文件的一个字节的二进制数据保存为两个十六进制文件,包括:
将所述第二图像文件除所述报头之外的报文本体部分的二进制数据保存为所述两个十六进制文件。
可选地,处理器64还用于执行以下步骤:
对所述训练数据清单中的多个所述第二图像文件进行训练,获得所有1字节十六进制值的排序概率。
可以理解的是,本申请的实施例中的处理器可以是中央处理单元(centralprocessing unit,CPU),还可以是其它通用处理器、数字信号处理器(digital signalprocessor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(field programmable gate array,FPGA)或者其它可编程逻辑器件、晶体管逻辑器件,硬件部件或者其任意组合。通用处理器可以是微处理器,也可以是任何常规的处理器。
根据本申请实施例提供的一种数据压缩装置,使用二进制压缩方法来提供高端的压缩比,既可以保证压缩后的原始医学图像的精确质量,又提供非常低的压缩比,可以将医学图像文件压缩到原始文件大小的6%左右,而在解压后不损失任何视觉质量。
本申请的实施例中的方法步骤可以通过硬件的方式来实现,也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于随机存取存储器、闪存、只读存储器、可编程只读存储器、可擦除可编程只读存储器、电可擦除可编程只读存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外,该ASIC可以位于数据压缩装置中。当然,处理器和存储介质也可以作为分立组件存在于数据压缩装置中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机程序或指令。在计算机上加载和执行所述计算机程序或指令时,全部或部分地执行本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、基站、用户设备或者其它可编程装置。所述计算机程序或指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机程序或指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是集成一个或多个可用介质的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,例如,软盘、硬盘、磁带;也可以是光介质,例如,数字视频光盘;还可以是半导体介质,例如,固态硬盘。
在本申请的各个实施例中,如果没有特殊说明以及逻辑冲突,不同的实施例之间的术语和/或描述具有一致性、且可以相互引用,不同的实施例中的技术特征根据其内在的逻辑关系可以组合形成新的实施例。
应理解,在本申请的描述中,除非另有说明,“/”表示前后关联的对象是一种“或”的关系,例如,A/B可以表示A或B;其中A,B可以是单数或者复数。并且,在本申请的描述中,除非另有说明,“多个”是指两个或多于两个。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。另外,为了便于清楚描述本申请实施例的技术方案,在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。同时,在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念,便于理解。
可以理解的是,在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分,并不用来限制本申请的实施例的范围。上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定。

Claims (10)

1.一种数据压缩方法,其特征在于,所述方法包括:
根据训练数据清单,将第一图像文件的一个字节的十六进制数据保存为第一索引号集和第二索引号集;
将所述第二索引号集中的任一第二索引号与所述第二索引号集中的最小索引号之差对应的值替换所述第二索引号;
保存所述第一索引号集和替换后的所述第二索引号集。
2.根据权利要求1所述的方法,其特征在于,所述第一索引号集中的第一索引号为至少两位索引号,所述第二索引号集中的第二索引号为一位索引号。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
将第二图像文件的一个字节的二进制数据保存为两个十六进制文件;
获取所述两个十六进制文件中每个十六进制文件中的十六进制值的类型;
获取每个类型的十六进制值在所述两个十六进制文件中出现的概率;
根据所述概率,给所述两个十六进制文件中的每个十六进制值分配对应的索引号;
将所述第二图像文件保存为第三索引号集和第四索引号集。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获取所述第二图像文件的二进制数据;
提取所述第二图像文件的报头;
所述将第二图像文件的一个字节的二进制数据保存为两个十六进制文件,包括:
将所述第二图像文件除所述报头之外的报文本体部分的二进制数据保存为所述两个十六进制文件。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
对所述训练数据清单中的多个所述第二图像文件进行训练,获得所有1字节十六进制值的排序概率。
6.一种数据压缩装置,其特征在于,所述装置包括:
第一保存单元,用于根据训练数据清单,将第一图像文件的一个字节的十六进制数据保存为第一索引号集和第二索引号集;
替换单元,用于将所述第二索引号集中的任一第二索引号与所述第二索引号集中的最小索引号之差对应的值替换所述第二索引号;
第二保存单元,用于保存所述第一索引号集和替换后的所述第二索引号集。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第三保存单元,用于将第二图像文件的一个字节的二进制数据保存为两个十六进制文件;
第一获取单元,用于获取所述两个十六进制文件中每个十六进制文件中的十六进制值的类型;
第二获取单元,用于获取每个类型的十六进制值在所述两个十六进制文件中出现的概率;
分配单元,用于根据所述概率,给所述两个十六进制文件中的每个十六进制值分配对应的索引号;
第四保存单元,用于将所述第二图像文件保存为第三索引号集和第四索引号集。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
训练单元,用于对所述训练数据清单中的多个所述第二图像文件进行训练,获得所有1字节十六进制值的排序概率。
9.一种数据压缩装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1~5中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1~5中任一项所述的方法。
CN202111191101.8A 2021-10-12 2021-10-12 数据压缩方法及装置、存储介质 Pending CN114036323A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111191101.8A CN114036323A (zh) 2021-10-12 2021-10-12 数据压缩方法及装置、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111191101.8A CN114036323A (zh) 2021-10-12 2021-10-12 数据压缩方法及装置、存储介质

Publications (1)

Publication Number Publication Date
CN114036323A true CN114036323A (zh) 2022-02-11

Family

ID=80141191

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111191101.8A Pending CN114036323A (zh) 2021-10-12 2021-10-12 数据压缩方法及装置、存储介质

Country Status (1)

Country Link
CN (1) CN114036323A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114610952A (zh) * 2022-02-28 2022-06-10 广州鼎甲计算机科技有限公司 一种有效数据索引方法、系统、装置及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114610952A (zh) * 2022-02-28 2022-06-10 广州鼎甲计算机科技有限公司 一种有效数据索引方法、系统、装置及存储介质
CN114610952B (zh) * 2022-02-28 2023-01-13 广州鼎甲计算机科技有限公司 一种有效数据索引方法、系统、装置及存储介质

Similar Documents

Publication Publication Date Title
US8972201B2 (en) Compression of genomic data file
US20130132353A1 (en) Compression Of Genomic Data
CN112800095A (zh) 一种数据处理方法、装置、设备及存储介质
CN115438114B (zh) 存储格式转换方法、系统、装置、电子设备及存储介质
CN111951281A (zh) 图像分割方法、装置、设备及存储介质
CN112150470B (zh) 图像分割方法、装置、介质及电子设备
CN114036323A (zh) 数据压缩方法及装置、存储介质
EP4376010A1 (en) Video processing method and apparatus, device, and storage medium
CN113987229A (zh) 数据压缩方法及装置、存储介质
CN111292322A (zh) 医学图像处理方法、装置、设备及存储介质
CN113687773A (zh) 数据压缩模型训练方法及装置、存储介质
CN112686365B (zh) 运行神经网络模型的方法、装置和计算机设备
CN115277553B (zh) 一种流表存储方法、装置、设备和计算机可读存储介质
CN108830302B (zh) 一种图像分类方法、训练方法、分类预测方法及相关装置
CN111382793A (zh) 一种特征提取方法、装置和存储介质
CN115603758A (zh) 一种客户号压缩和解压方法及装置
CN112037874B (zh) 一种基于映射归约的分布式数据处理方法
CN114996472A (zh) 一种基于关系抽取模型的样本优化方法及系统
CN113628099A (zh) 一种特征图数据转化方法、装置、电子设备和存储介质
CN115982634A (zh) 应用程序分类方法、装置、电子设备及计算机程序产品
CN109643322A (zh) 字符串辞典的构建方法、字符串辞典的检索方法及字符串辞典的处理系统
CN106815235B (zh) 超级网页模板生成方法、装置及页面数据传输方法
CN116011551B (zh) 优化数据加载的图采样训练方法、系统、设备及存储介质
CN111382949B (zh) 一种电力资源分配方法、系统以及设备
CN117009375A (zh) 一种数据处理方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination