CN116033033A - 一种联合显微图像和rna的空间组学数据压缩和传输方法 - Google Patents
一种联合显微图像和rna的空间组学数据压缩和传输方法 Download PDFInfo
- Publication number
- CN116033033A CN116033033A CN202211738919.1A CN202211738919A CN116033033A CN 116033033 A CN116033033 A CN 116033033A CN 202211738919 A CN202211738919 A CN 202211738919A CN 116033033 A CN116033033 A CN 116033033A
- Authority
- CN
- China
- Prior art keywords
- data
- image
- microscopic image
- rna
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005540 biological transmission Effects 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000013144 data compression Methods 0.000 title abstract description 11
- 108091028043 Nucleic acid sequence Proteins 0.000 claims abstract description 51
- 238000004364 calculation method Methods 0.000 claims abstract description 19
- 239000003086 colorant Substances 0.000 claims abstract description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 41
- 238000007906 compression Methods 0.000 claims description 30
- 230000006835 compression Effects 0.000 claims description 30
- 230000011218 segmentation Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000004043 dyeing Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 5
- 238000001000 micrograph Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 230000000903 blocking effect Effects 0.000 claims description 3
- 238000007621 cluster analysis Methods 0.000 claims description 3
- 230000007547 defect Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 108090000623 proteins and genes Proteins 0.000 claims description 2
- 238000012795 verification Methods 0.000 description 9
- 238000013461 design Methods 0.000 description 6
- 238000003709 image segmentation Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 102000040650 (ribonucleotides)n+m Human genes 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002834 transmittance Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Image Processing (AREA)
Abstract
本发明公开了一种联合显微图像和RNA的空间组学数据压缩和传输方法,包括以下步骤;步骤1:对显微图像进行分割,得出有效蒙版图像和有效RNA序列;步骤2:使用图像中的颜色对RNA序列进行聚类;步骤3:对RNA序列和显微图像进行压缩,得到需要传输的数据;步骤4:对需要传输的数据进行分块和多层摘要计算;步骤5:通过自适应通道进行网络数据传输。本发明具有数据压缩率高,传输过程稳定可靠的特点,能够达到减小存储和高效传输的目的。
Description
技术领域
本发明属于空间组学数据压缩和传输技术领域,具体涉及一种联合显微图像和RNA的空间组学数据压缩和传输方法。
背景技术
现有的空间组学数据压缩算法还是将带有空间位置信息的RNA序列当作传统的单细胞测序数据进行压缩,只利用了单个细胞的RNA序列的相关性进行数据压缩,完全没有考虑在空间组学数据的空间冗余性。
在网络传输方面目前主要依赖http和ftp协议进行网络信息传输,以上两种协议都可以在网络状态和中小文件发送中稳定的传输,可以保证网络中大部分数据的传输。同时Aspera等软件也提供大文件传输和流式处理解决方案。但是在传输的过程中经常会遇到安全性和稳定性的问题,同时在高延迟和高丢包率的网络状态下无法保证高效的网络传输。同时在完整性校验的过程中通常使用单文件的MD5摘要信息校验。
针对空间组学数据压缩算法,目前还没有针对空间组学数据的专用压缩算法,目前都是使用单细胞测序的压缩算法进行压缩,没有更好的利用空间组学中位置信息对数据进行进一步的压缩,同时现有的算法对于所有的数据都进行压缩,对图像中可见的无效数据没有剔除。因此也导致现有的压缩算法的压缩率低且压缩了部分无效数据,同时也给文件存储和传输带来了巨大的压力。本发明中利用显微图像中的额外信息对RNA需要的有效性进行分析和筛选,同时对不同的RNA序列进行分类,提高RNA序列文件的冗余性,使得熵编码器可以更好的对RNA序列进行编码和压缩,有效的提高压缩的效率。
对于目前的常用的http和ftp传输协议,设计的主要目的都是为了面对互联网中较小数据进程传输,在传输大文件的过程中通常会出现稳定性不足和小概率出错的情况。同时以上两种协议都是基于TCP协议,对于在高延迟和高丢包的弱网络或跨国网络中,对于带宽的利用率交底。对于Aspera等网络传输工具,这些工具的主要使用场景都是点对点的文件传输,并且无法自定义传输时的压缩方式和完整性校验方式,而且在传输的过程中需要使用第三方公司的服务器,对于高度机密的空间组学数据无法时刻保护数据的安全性和稳定性。
传统的单文件完整性检测主要依靠MD5摘要方式,通常对于一个较大的文件只能使用一个线程进行所有的计算,通常会消耗较长的时间,而且一旦校验失败后需要再次传输整个文件,造成不必要的传输带宽浪费。
发明内容
为了克服上述现有技术存在的不足,本发明的目的在于提供一种联合显微图像和RNA的空间组学数据压缩和传输方法,具有数据压缩率高,传输过程稳定可靠的特点,能够达到减小存储和高效传输的目的。
为了实现上述目的,本发明采用的技术方案是:
一种联合显微图像和RNA的空间组学数据压缩和传输方法,包括以下步骤;
步骤1:对显微图像进行分割,得出有效蒙版图像和有效RNA序列;
步骤2:使用图像中的颜色对RNA序列进行聚类;
步骤3:对RNA序列和显微图像进行压缩,得到需要传输的数据;
步骤4:对需要传输的数据进行分块和多层摘要计算;
步骤5:通过自适应通道进行网络数据传输。
所述步骤1具体为:
1)对显微图像进行灰度化处理;
输入显微图像I1,并对于显微图像采用加权平均法的灰度化的预处理后得到灰度图像I2,对于显微图像中的每个像素点的三个通道的值相同,并用统一的灰度值替代,将三个通道的通道值进行加权,实际中使用的公式为:
I2(x,y)=wrR(x,y)+wgG(x,y)+wbB(x,y)
其中R(x,y)为红色像素点,G(x,y)为绿色像素点,B(x,y)为蓝色像素点,对应的wr为红色像素点所占权重,wg为绿色像素点所占权重,wb为蓝色像素点所占权重;
2)对灰度图像I2采用OTSU分割算法进行前后景的分离,得到蒙版图像I3;
使用OTSU算法对I2灰度图像处理得到方差最大的灰度阈值作为L,L为图像中亮度方差最大的灰度值,对于灰度值小于L的像素点作为背景图像I3,对于灰度值大于等于L的像素点作为目标蒙版图像I4,对蒙版图像数据I4的冗余性考虑,使用优化后的阈值L2,所述L2=L+5,用于分离生物组织的前后景;
3)对蒙版图像I4进行开闭运算和膨胀操作;
在生物组织切片的过程中,生物组织会产生细小的组织结构,造成微小结构无法采集有效的图像,同时在组织染色过程中会出现染色不均匀的情况,会造成一部分生物组织没有被染色从而被当作背景图像I3,在使用阈值分割算法的时候,会产生一些毛刺和很小的空隙K在目标蒙版图像I4中,为保证在阈值分割中的目标蒙版图像I4能够完整的覆盖所有的生物切片组织,对图像进行闭运算得到闭运算蒙版图像其中Kernal为全1的5*5的矩阵,闭运算填平像素中的毛刺和很小的空袭K而其他像素的位置和形状不变,对于闭运算蒙版图像I5的内部已经充分的覆盖生物组织,对于整个组织的边界考虑空间冗余性,因此还需要对闭运算蒙版图像I5经过膨胀操作产生蒙版图像其中Kernal为全1的5*5的矩阵,对蒙版图像的像素点进行进一步的外扩,保证所有的边缘微结构都可以包含在蒙版图像I6中。
4)对RNA序列按照蒙版图像I6进行过滤
输入空间组学RNA序列S1,S1中每条数据都包含I6图像中的对应坐标X和Y,筛选整个S1数据并将蒙版外对应的数据删除留下有效数据S2;
所述RNA序列中包含很多read,其中read为组成RNA的最小序列,在一段read中包含采集时的X,Y坐标信息,对应显微图像I1中像素点坐标的X,Y,由于在上述步骤中没有发生图像大小变换,因此蒙版图像I6和显微图像I1的X,Y坐标相互对应,蒙版图像I6中值为1的像素点所对应read序列集合即为有效RNA序列S2,S2={read|read∈S1^(read.x,read.y)∈I6}其中read为输入RNA序列S1的最小序列。
所述步骤2具体为:
首先得到有效的彩色的显微图像I7=I1∪I6,即为原始彩色显微图像和蒙版图像I6的交集为有效彩色显微图像I7;
使用bi-kmeans算法对有效彩色显微图像I7中的像素点颜色进行聚类分析,将I7像素点分为N个种类,在此基础上将有效RNA序列S2分为N个种类,使用bi-kmeans算法能够解决聚类后的结果陷入局部最优的缺陷,具体的bi-kmeans算法步骤:
1)创建n个点作为初始的质心(通常是随机选择的RGB值,并且n为分类的个数);
2)当任意一个点的簇分配结果发生改变时;
21)对数据中的每个数据点计算质心和数据点之间的欧式距离;
22)将数据点分配到距离最近的簇;
3)对每个簇,计算簇中所有点的均值并将均值作为质心;
选择合适的聚类中心n用于基因分类,确定分类的数目N,系统通过人工输入数目,得到可靠的生物学种类,同时也对最适合的分类数目N进行自动检测,步骤如下:
1)采用聚类中心n的种类数对有效的彩色的显微图像I7中的像素点颜色进行分类,n的初始值为16,每个n得到每种颜色质心序列Cn,
2)对于每种质心序列如果存在质心ci和另外一个质心cj的欧式距离D小于20,则种类数n=n–1;
3)直到找出满足距离条件的最大n,同时保证n的最小值为4;
在bi-kmeans算法和上述的自适应选择颜色种类数算法的基础上,将有效显微图像I7像素点分为N个种类,通过显微图像I7的像素点X,Y坐标和有效的RNA序列S2之间的对应关系,将有效的RNA序列S2分为N个种类即按照颜色分类的RNA序列S3。
所述步骤3具体为:
对按照颜色分类的RNA序列S3和显微图像I1数据进行压缩,使用单细胞序列压缩工具fqzcomp将RNA序列S3进行压缩得到压缩后的RNA序列数据D1,由于RNA序列S3数据经过在步骤2中进行分类,利用其相同种类细胞的RNA序列冗余性,能够有效提高熵编码对上下文预测的概率即提高P(S3)>P(S1),P为熵编码中字符出现的概率;
对于显微图像I1通常需要进行无损压缩,将显微图像I1使用PNG无损压缩压缩工具压缩为压缩后的显微图像D2,对于较大的图像可以采用分块压缩的方式,将压缩后的RNA序列数据D1和压缩后的显微图像D2合并为需要传输的数据D12。
所述步骤4具体为:
对需要传输的数据D12中的每个文件的数据进行分块,每个块的大小为固定比特,使用MD5算法计算每个小块的摘要Mi=MD5(Nodei),Node∈D12,0≤i≤m,其中Node为D12分成的m个的固定小块,MD5为摘要函数,在计算完所有的MD5值Mi后计算一个总的MD5值Ms=MD5(∑Mi);
空间组学数据需要多次发送给不同的客户端,在首次数据传输中对摘要信息进行计算,以后的摘要信息只需要进行读取;
在文件传输过程中,需要传输每个块和其对应的校验值,客户端接收到后进行实时计算,如果出现校验不通过则向客户端重新请求改数据,客户端在接收完需要传输的数据D12后,对接收到的校验值计算总的校验值Mc,如果出现Mc不等于Ms的情况则客户端重新向服务端请求所有的分块信息列表,并找出错误块进行重新传输和计算直到Mc等于Ms,在文件解码过程中,对生物信息中的数据进行校验。
所述步骤5具体为:
将数据D12从服务端发送到客户端,在服务端和客户端之间的网络被称为目标网络,在发送数据D12之前先对目标网络的性能进行测试,使用ping工具和iperf工具对目标网络中的延迟和丢包率进行测量,测试时间为30秒得出延迟序列D和丢包率Lr,并计算序列D的最大值Dmax=max(D)、最小值Dmin=min(D)和平均值
通过以上参数对网络传输的通道进行选择,当Davg>100ms且(Dmax–Dmin)>20ms且Lr>10%则使用KCP TUN通道进行数据的传输,否则使用TCP通道进行数据传输,在传输的过程中每10分钟进行网络质量的重新测试,在新传输的小块中采用新选择的通道;
在客户端接收到数据后对每个小块进行摘要计算并和服务端发送的摘要值进行对比,同时对数据中的位置坐标进行有效性检测,如果其中有无法通过的检测,则向服务端重新发送请求,对数据进行重发。
本发明的有益效果:
本发明使用显微图像进行分割,并对对应的RNA序列进行过滤,而传统的算法直接使用所有的RNA序列数据,相比之下通常可以过滤掉2%-5%的无效数据,对于存储、压缩和网络传输的压力都有一定程度的降低。
使用显微图像的颜色进行自适应聚类,并对RNA序列进行重组,可以有效的利用相同颜色组织中RNA序列的冗余性,可以有效的提高压缩率。节约存储和传输的成本费用。
使用多级摘要信息校验机制,在增加传输体积的万分之一的情况下,可以在发生校验错误的情况下,只需要重新传输一个小块,而不是整个文件。可以有效的降低错误时传输的文件大小,同时由于小块计算校验值可以使用多线程进行计算,缩短计算校验值的时间。同时在服务端计算摘要值计算并存储,可以减少摘要值的多次计算。
使用自适应通道进行传输数据,在质量较好的网络中和TCP可以保证相同的性能,但在高延迟和高丢包的网络中相比TCP可以提高10%-40%的性能,同时在算法中可以随时对网络质量进行分析,对数据传输通道进行自适应选择,保证任何时段全天候的可靠网络数据传输。
附图说明
图1为联合显微图像和RNA的空间组学数据压缩和传输技术框架图。
图2为聚类种类选择流程图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
实施例:
如图1所示,本发明提供一种联合显微图像和RNA的空间组学数据压缩和传输方法,包括以下步骤:
步骤1:对显微图像进行分割,得出有效蒙版图像和有效RNA序列;
步骤2:使用图像中的颜色对RNA序列进行聚类;
步骤3:对RNA序列和显微图像进行压缩;
步骤4:对数据进行分块和多层摘要计算;
步骤5:通过自适应通道进行网络数据传输。
所述步骤1具体为:
1)对显微图像进行灰度化处理;
输入显微图像I1,并对于显微图像采用加权平均法的灰度化的预处理后得到灰度图像I2,I2(x,y)=0.299R(x,y)+0.578G(x,y)+0.114B(x,y),其中R(x,y)为红色像素点,G(x,y)为绿色像素点,B(x,y)为蓝色像素点。
所述wr=0.299,wg=0.578,wb=0.114,同时这三个参数按照实际情况进行修改。
2)对I2灰度图像采用OTSU分割算法进行前后景的分离,得到目标蒙版图像I4;
所述OTSU算法不受图像亮度和对比度的影响,得到方差最大的灰度阈值作为L,使用OTSU算法对I2灰度图像处理得到方差最大的灰度阈值作为L,实际中通常使用优化后的阈值L2=L+5,对于灰度值小于L2的像素点作为背景图像I3,对于灰度值大于等于L2的像素点作为目标蒙版图像I4。
由于显微图像中的背景一般都是明亮的背景,同时细胞组织通常都有由于透光率较低则颜色较暗,因此背景和目标生物组织的亮度差别较大,为了对蒙版图像数据I4的冗余性考虑,使用优化后的阈值L2。
3)对目标蒙版图像I4进行开闭运算和膨胀操作;
在生物组织切片的过程中,生物组织会产生细小的组织结构,但是显微成像的光学分辨率是低于真实生物组织的分辨率的,不能完全保证对图像进行精确的采集,造成微小结构无法采集有效的图像,同时在组织染色过程中会出现染色不均匀的情况,会造成一部分生物组织没有被染色从而被当作背景图像I3,在使用阈值分割算法的时候,会产生一些毛刺和很小的空隙K在目标蒙版图像I4中,为保证在阈值分割中的目标蒙版图像I4能够完整的覆盖所有的生物切片组织,对目标蒙版图像I4进行闭运算得到闭运算蒙版图像 其中Kernal为全1的5*5的矩阵。对闭运算蒙版图像I5经过膨胀操作产生蒙版图像其中Kernal为全1的5*5的矩阵。
4)对RNA序列按照蒙版图像I6进行过滤
在RNA序列S1中包含很多read,其中read为组成RNA的最小序列,在一段read中包含采集时的X,Y坐标信息,对应显微图像I1中像素点坐标的X,Y。I6蒙版图像中值为1的像素点所对应read序列集合即为有效RNA序列S2。S2={read|read∈S1^(read.x,read.y)∈I6}其中read为输入RNA序列S1的最小序列。
所述步骤2具体为:
首先得到有效的彩色的显微图像I7=I1∪I6;
使用bi-kmeans算法对有效彩色显微图像I7中的像素点颜色进行聚类分析,将I7像素点分为N个种类,在此基础上将有效RNA序列S2分为N个种类。
对最适合的分类数目N进行自动检测,如图2所示,具体步骤如下:
1)采用n的种类数对I7中的像素点颜色进行分类,n的初始值为16,每个n可以得到每种颜色质心序列Cn,
2)对于每种质心序列如果存在质心ci和另外一个质心cj的欧式距离D小于20,则种类数n=n–1,
3)直到找出满足距离条件的最大n,同时保证n的最小值为4。
通过显微图像I7的像素点X,Y坐标和有效的RNA序列S2之间的对应关系,将有效的RNA序列S2分为N个种类即按照颜色分类的RNA序列S3。
所述步骤3具体为:
对按照颜色分类的RNA序列S3和显微图像I1数据进行压缩,使用传统的单细胞序列压缩工具fqzcomp将S3进行压缩得到压缩后的RNA序列数据D1。
由于RNA序列S3数据经过在步骤2中进行分类,利用其相同种类细胞的RNA序列冗余性,能够有效提高熵编码对上下文预测的概率即提高P(S3)>P(S1),P为熵编码中字符出现的概率,在熵编码器中概率越高则压缩率越高,因此可以将压缩率提高20%左右;
将显微图像I1使用PNG无损压缩压缩工具压缩为压缩后的显微图像D2,或者对于较大的图像采用分块多线程压缩的方式,牺牲压缩的质量保证压缩的速度,为了更方便的在网络中传输,因此需要对两种数据进行合并,将压缩后的RNA序列数据D1和压缩后的显微图像D2合并为需要传输的数据D12。
所述步骤4具体为:
对D12中的每个文件的数据进行分块,每个块的大小为固定比特,通常为64MB,也可以使用其他自定义大小,使用MD5算法计算器摘要Mi=MD5(Nodei),Node∈D12,0≤i≤m,其中Node为D12分成的m个的固定小块,MD5为摘要函数。由于D12通常体积较大,因此m一般来说比较大,使用多个线程并行计算。同时在计算完所有的MD5值Mi后计算一个总的MD5值Ms=MD5(∑Mi)。
由于空间组学数据通常需要多次发送给不同的客户端,因此只需要在首次数据传输中对摘要信息进行计算,以后的摘要信息只需要进行读取,可以有效的降低计算机的负载,实现了摘要信息的单次计算多次使用的功能。
在文件传输过程中,需要传输每个块和其对应的校验值,客户端接收到后进行实时计算,如果出现校验不通过则向客户端重新请求改数据。客户端在接收完需要传输的数据D12后,对接收到的校验值计算总的校验值Mc,如果出现Mc不等于Ms的情况则客户端重新向服务端请求所有的分块信息列表,并找出错误块进行重新传输和计算直到Mc等于Ms。在文件解码过程中,并对RNA序列中的X,Y进行合法性的校验,双重校验保证数据的安全性和完整性。
所述步骤5具体为:
将数据D12从服务端发送到客户端,在服务端和客户端之间的网络被称为目标网络。在发送数据D12之前先对目标网络的性能进行测试,使用ping工具和iperf工具对目标网络中的延迟和丢包率进行测量,测试时间为30秒得出延迟序列D和丢包率Lr,并计算序列D的最大值Dmax=max(D)、最小值Dmin=min(D)和平均值
通过以上参数对网络传输的通道进行选择,当Davg>100ms且(Dmax–Dmin)>20ms且Lr>10%则使用KCP TUN通道进行数据的传输,否则使用TCP通道进行数据传输。在传输的过程中每10分钟进行网络质量的重新测试,在新传输的小块中采用新选择的通道;
在客户端接收到数据后对每个小块进行摘要计算并和服务端发送的摘要值进行对比,同时对数据中的位置坐标进行有效性检测。如果其中有无法通过的检测,则向服务端重新发送请求,对数据进行重发。
本发明的关键点:
本发明设计了整套空间组学数据的压缩和网络传输的完整流程和其中关键算法。
本发明设计了基于显微图像分割的无效数据筛选算法,有效的从显微图像中提取生物组织的部分,同时充分考虑生物组织的特性,对蒙版图像进行冗余处理,使得可以完整的覆盖所有的生物组织切片。
本发明设计了基于显微图像颜色聚类的RNA序列压缩算法,并对相应的RNA序列做分类,将相同的组织的RNA序列组合在同一个文件,可以有效提高数据的相似性,在使用传统的单细胞RNA序列压缩算法的过程中可以更好的提高压缩率。同时对分类的种类数设计了自适应种类数选择算法,有效的选择出类间距离较大的种类数。
本发明设计了多级摘要信息校验机制,对于空间组学数据这样的大文件,提出了文件分块机制,并对每个小块进行并行摘要值计算,在所有小块的摘要值计算完成后再计算总的摘要值。在数据传输到客户端的时候,对每个小块的数据进行校验,同时对所有的摘要信息也进行校验,可以检查文件的完整性也可以对错误或丢失的小块进行高效重传。
本发明设计了网络通道自适应传输,在一定的时间内对网络质量进行检测,同时采用更加适合的TCP通道或KCP TUN通道进行网络数据传输。在传输的过程中也不断的进行网络质量测试和通道的选择,保证全时段的数据传输高效性。
本发明所解决的问题:
本发明解决了空间组学数据中对于无效数据对存储空间的浪费,实现了基于显微图像分割的无效RNA序列数据筛选算法,可以有效的降低文件的大小和后续操作的复杂度。
本发明在传统的单细胞RNA序列算法的基础上,使用显微图像的颜色进行聚类并重新组合不同种类的RNA序列,提高文件的RNA序列的相似性,可以有效的提高压缩算法的压缩率降低存储和网络传输的压力。
本发明针对传统的单文件摘要值计算速度慢重传效率低的问题,设计了多层摘要计算方式,对于空间组学数据这类大文件,可以使用多线程进行并行计算摘要值,同时在校验失败的时候也可以有效降低重传文件的大小。另外提出了基于生物先验信息进行完整性校验,对数据的完整性进行双层保护。
本发明针对现有的传输技术在弱网络和跨国网络中传输效率低的问题,使用TCP和KCP隧道的自适应传输通道,实现了网络信道的自适应切换,更好的利用网络带宽提高传输效率,保证网络全天候的可靠性传输。
Claims (6)
1.一种联合显微图像和RNA的空间组学数据压缩和传输方法,其特征在于,包括以下步骤;
步骤1:对显微图像进行分割,得出有效蒙版图像和有效RNA序列;
步骤2:使用图像中的颜色对RNA序列进行聚类;
步骤3:对RNA序列和显微图像进行压缩,得到需要传输的数据;
步骤4:对需要传输的数据进行分块和多层摘要计算;
步骤5:通过自适应通道进行网络数据传输。
2.根据权利要求1所述的一种联合显微图像和RNA的空间组学数据压缩和传输方法,其特征在于,所述步骤1具体为:
1)对显微图像进行灰度化处理;
输入显微图像I1,并对于显微图像采用加权平均法的灰度化的预处理后得到灰度图像I2,对于显微图像中的每个像素点的三个通道的值相同,并用统一的灰度值替代,将三个通道的通道值进行加权,实际中使用的公式为:
I2(x,y)=wrR(x,y)+wgG(x,y)+wbB(x,y)
其中R(x,y)为红色像素点,G(x,y)为绿色像素点,B(x,y)为蓝色像素点,对应的wr为红色像素点所占权重,wg为绿色像素点所占权重,wb为蓝色像素点所占权重;
2)对灰度图像I2采用OTSU分割算法进行前后景的分离,得到蒙版图像I3;
使用OTSU算法对I2灰度图像处理得到方差最大的灰度阈值作为L,L为图像中亮度方差最大的灰度值,对于灰度值小于L的像素点作为背景图像I3,对于灰度值大于等于L的像素点作为目标蒙版图像I4,对蒙版图像数据I4的冗余性考虑,使用优化后的阈值L2,所述L2=L+5,用于分离生物组织的前后景;
3)对蒙版图像I4进行开闭运算和膨胀操作;
在生物组织切片的过程中,生物组织会产生细小的组织结构,造成微小结构无法采集有效的图像,同时在组织染色过程中会出现染色不均匀的情况,会造成一部分生物组织没有被染色从而被当作背景图像I3,在使用阈值分割算法的时候,会产生一些毛刺和很小的空隙K在目标蒙版图像I4中,为保证在阈值分割中的目标蒙版图像I4能够完整的覆盖所有的生物切片组织,对图像进行闭运算得到闭运算蒙版图像其中Kernal为全1的5*5的矩阵,闭运算填平像素中的毛刺和很小的空袭K而其他像素的位置和形状不变,对于闭运算蒙版图像I5的内部已经充分的覆盖生物组织,对于整个组织的边界考虑空间冗余性,对闭运算蒙版图像I5经过膨胀操作产生蒙版图像其中Kernal为全1的5*5的矩阵,对蒙版图像的像素点进行进一步的外扩,保证所有的边缘微结构都可以包含在蒙版图像I6中。
4)对RNA序列按照蒙版图像I6进行过滤
输入空间组学RNA序列S1,S1中每条数据都包含I6图像中的对应坐标X和Y,筛选整个S1数据并将蒙版外对应的数据删除留下有效数据S2;
所述RNA序列中包含很多read,其中read为组成RNA的最小序列,在一段read中包含采集时的X,Y坐标信息,对应显微图像I1中像素点坐标的X,Y,由于在上述步骤中没有发生图像大小变换,因此蒙版图像I6和显微图像I1的X,Y坐标相互对应,蒙版图像I6中值为1的像素点所对应read序列集合即为有效RNA序列S2,S2={read|read∈S1^(read.x,read.y)∈I6}其中read为输入RNA序列S1的最小序列。
3.根据权利要求1所述的一种联合显微图像和RNA的空间组学数据压缩和传输方法,其特征在于,所述步骤2具体为:
首先得到有效的彩色的显微图像I7=I1∪I6,即为原始彩色显微图像和蒙版图像I6的交集为有效彩色显微图像I7;
使用bi-kmeans算法对有效彩色显微图像I7中的像素点颜色进行聚类分析,将I7像素点分为N个种类,在此基础上将有效RNA序列S2分为N个种类,使用bi-kmeans算法能够解决聚类后的结果陷入局部最优的缺陷,具体的bi-kmeans算法步骤:
1)创建n个点作为初始的质心;
2)当任意一个点的簇分配结果发生改变时;
21)对数据中的每个数据点计算质心和数据点之间的欧式距离;
22)将数据点分配到距离最近的簇;
3)对每个簇,计算簇中所有点的均值并将均值作为质心;
选择合适的聚类中心n用于基因分类,确定分类的数目N,系统通过人工输入数目,得到可靠的生物学种类,同时也对最适合的分类数目N进行自动检测,步骤如下:
1)采用聚类中心n的种类数对有效的彩色的显微图像I7中的像素点颜色进行分类,n的初始值为16,每个n得到每种颜色质心序列Cn,
2)对于每种质心序列如果存在质心ci和另外一个质心cj的欧式距离D小于20,则种类数n=n–1;
3)直到找出满足距离条件的最大n,同时保证n的最小值为4;
在bi-kmeans算法和上述的自适应选择颜色种类数算法的基础上,将有效显微图像I7像素点分为N个种类,通过显微图像I7的像素点X,Y坐标和有效的RNA序列S2之间的对应关系,将有效的RNA序列S2分为N个种类即按照颜色分类的RNA序列S3。
4.根据权利要求1所述的一种联合显微图像和RNA的空间组学数据压缩和传输方法,其特征在于,所述步骤3具体为:
对按照颜色分类的RNA序列S3和显微图像I1数据进行压缩,使用单细胞序列压缩工具fqzcomp将RNA序列S3进行压缩得到压缩后的RNA序列数据D1,由于RNA序列S3数据经过在步骤2中进行分类,利用其相同种类细胞的RNA序列冗余性,能够有效提高熵编码对上下文预测的概率即提高P(S3)>P(S1),P为熵编码中字符出现的概率;
对于显微图像I1通常需要进行无损压缩,将显微图像I1使用PNG无损压缩压缩工具压缩为压缩后的显微图像D2,对于较大的图像可以采用分块压缩的方式,将压缩后的RNA序列数据D1和压缩后的显微图像D2合并为需要传输的数据D12。
5.根据权利要求1所述的一种联合显微图像和RNA的空间组学数据压缩和传输方法,其特征在于,所述步骤4具体为:
对需要传输的数据D12中的每个文件的数据进行分块,每个块的大小为固定比特,使用MD5算法计算每个小块的摘要Mi=MD5(Nodei),Node∈D12,0≤i≤m,其中Node为D12分成的m个的固定小块,MD5为摘要函数,在计算完所有的MD5值Mi后计算一个总的MD5值Ms=MD5(∑Mi);
空间组学数据需要多次发送给不同的客户端,在首次数据传输中对摘要信息进行计算,以后的摘要信息只需要进行读取;
在文件传输过程中,需要传输每个块和其对应的校验值,客户端接收到后进行实时计算,如果出现校验不通过则向客户端重新请求改数据,客户端在接收完需要传输的数据D12后,对接收到的校验值计算总的校验值Mc,如果出现Mc不等于Ms的情况则客户端重新向服务端请求所有的分块信息列表,并找出错误块进行重新传输和计算直到Mc等于Ms,在文件解码过程中,对生物信息中的数据进行校验。
6.根据权利要求5所述的一种联合显微图像和RNA的空间组学数据压缩和传输方法,其特征在于,所述步骤5具体为:
将数据D12从服务端发送到客户端,在服务端和客户端之间的网络被称为目标网络,在发送数据D12之前先对目标网络的性能进行测试,使用ping工具和iperf工具对目标网络中的延迟和丢包率进行测量,测试时间为30秒得出延迟序列D和丢包率Lr,并计算序列D的最大值Dmax=max(D)、最小值Dmin=min(D)和平均值
通过以上参数对网络传输的通道进行选择,当Davg>100ms且(Dmax–Dmin)>20ms且Lr>10%则使用KCP TUN通道进行数据的传输,否则使用TCP通道进行数据传输,在传输的过程中每10分钟进行网络质量的重新测试,在新传输的小块中采用新选择的通道;
在客户端接收到数据后对每个小块进行摘要计算并和服务端发送的摘要值进行对比,同时对数据中的位置坐标进行有效性检测,如果其中有无法通过的检测,则向服务端重新发送请求,对数据进行重发。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211738919.1A CN116033033B (zh) | 2022-12-31 | 2022-12-31 | 一种联合显微图像和rna的空间组学数据压缩和传输方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211738919.1A CN116033033B (zh) | 2022-12-31 | 2022-12-31 | 一种联合显微图像和rna的空间组学数据压缩和传输方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116033033A true CN116033033A (zh) | 2023-04-28 |
CN116033033B CN116033033B (zh) | 2024-05-17 |
Family
ID=86070461
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211738919.1A Active CN116033033B (zh) | 2022-12-31 | 2022-12-31 | 一种联合显微图像和rna的空间组学数据压缩和传输方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116033033B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103458242A (zh) * | 2013-07-02 | 2013-12-18 | 北京京北方信息技术有限公司 | 基于颜色分类与聚类的图像压缩和解压缩方法 |
CN105241813A (zh) * | 2015-09-22 | 2016-01-13 | 哈尔滨工业大学(威海) | 压缩采样光声显微成像方法及装置 |
WO2016178643A1 (en) * | 2015-05-06 | 2016-11-10 | Erlab Teknoloji Anonim Sirketi | Method for analysis of nucleotide sequence data by joint use of multiple calculation units at different locations |
CN110392260A (zh) * | 2019-07-12 | 2019-10-29 | 西安空间无线电技术研究所 | 一种低成本的联合图像压缩传输方法 |
US20210216806A1 (en) * | 2020-01-12 | 2021-07-15 | Dalian University Of Technology | Fully automatic natural image matting method |
CN113330292A (zh) * | 2018-07-31 | 2021-08-31 | 科罗拉多大学评议会法人团体 | 在高通量系统中应用机器学习以分析显微图像的系统和方法 |
US20210392304A1 (en) * | 2018-12-21 | 2021-12-16 | Scopio Labs Ltd. | Compressed acquisition of microscopic images |
CN114677394A (zh) * | 2022-05-27 | 2022-06-28 | 珠海视熙科技有限公司 | 抠图方法、装置、摄像设备、会议系统、电子设备及介质 |
-
2022
- 2022-12-31 CN CN202211738919.1A patent/CN116033033B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103458242A (zh) * | 2013-07-02 | 2013-12-18 | 北京京北方信息技术有限公司 | 基于颜色分类与聚类的图像压缩和解压缩方法 |
WO2016178643A1 (en) * | 2015-05-06 | 2016-11-10 | Erlab Teknoloji Anonim Sirketi | Method for analysis of nucleotide sequence data by joint use of multiple calculation units at different locations |
CN105241813A (zh) * | 2015-09-22 | 2016-01-13 | 哈尔滨工业大学(威海) | 压缩采样光声显微成像方法及装置 |
CN113330292A (zh) * | 2018-07-31 | 2021-08-31 | 科罗拉多大学评议会法人团体 | 在高通量系统中应用机器学习以分析显微图像的系统和方法 |
US20210392304A1 (en) * | 2018-12-21 | 2021-12-16 | Scopio Labs Ltd. | Compressed acquisition of microscopic images |
CN110392260A (zh) * | 2019-07-12 | 2019-10-29 | 西安空间无线电技术研究所 | 一种低成本的联合图像压缩传输方法 |
US20210216806A1 (en) * | 2020-01-12 | 2021-07-15 | Dalian University Of Technology | Fully automatic natural image matting method |
CN114677394A (zh) * | 2022-05-27 | 2022-06-28 | 珠海视熙科技有限公司 | 抠图方法、装置、摄像设备、会议系统、电子设备及介质 |
Non-Patent Citations (4)
Title |
---|
A. A. HERNANDEZ-LOPEZ, J. VOGES, C. ALBERTI, M. MATTAVELLI AND J. OSTERMANN: "Lossy Compression of Quality Scores in Differential Gene Expression: A First Assessment and Impact Analysis", 2018 DATA COMPRESSION CONFERENCE, 23 July 2018 (2018-07-23) * |
YU, R., YANG, W. & WANG, S: "Performance evaluation of lossy quality compression algorithms for RNA-seq data", BMC BIOINFORMATICS, vol. 21, 20 July 2020 (2020-07-20), XP021279525, DOI: 10.1186/s12859-020-03658-4 * |
纪震;周家锐;朱泽轩;Q H WU;: "基于生物信息学特征的DNA序列数据压缩算法", 电子学报, no. 05, 15 May 2011 (2011-05-15) * |
霍斑: "基于压缩感知的单细胞RNA测序数据重构", 中国优秀硕士学位论文全文数据库, 28 February 2022 (2022-02-28) * |
Also Published As
Publication number | Publication date |
---|---|
CN116033033B (zh) | 2024-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8218831B2 (en) | Combined face detection and background registration | |
CN115914649B (zh) | 一种用于医疗视频的数据传输方法及系统 | |
US8281138B2 (en) | Steganalysis of suspect media | |
EP3151562B1 (en) | Feature based bitrate allocation in non-backward compatible multi-layer codec via machine learning | |
US20070195106A1 (en) | Detecting Doctored JPEG Images | |
CN108280480B (zh) | 一种基于残差共生概率的隐写图像载体安全性评价方法 | |
US20090263011A1 (en) | Detection Technique for Digitally Altered Images | |
Goh et al. | A hybrid evolutionary algorithm for feature and ensemble selection in image tampering detection | |
US11798254B2 (en) | Bandwidth limited context based adaptive acquisition of video frames and events for user defined tasks | |
Liu et al. | Learning in compressed domain for faster machine vision tasks | |
CN116033033B (zh) | 一种联合显微图像和rna的空间组学数据压缩和传输方法 | |
CN111723735B (zh) | 一种基于卷积神经网络的伪高码率hevc视频检测方法 | |
CN117221609A (zh) | 一种高速公路收费业务集中监控值机系统 | |
CN115294360B (zh) | 一种驾驶模拟器混合编队训练考核系统管理方法 | |
CN116468625A (zh) | 基于金字塔高效通道注意力机制的单幅图像去雾方法和系统 | |
CN114189695B (zh) | 一种基于gan的hevc压缩视频视觉感知提升方法 | |
Bhatnagar et al. | Reversible Data Hiding scheme for color images based on skewed histograms and cross-channel correlation | |
Tian et al. | Just noticeable difference modeling for face recognition system | |
Pei et al. | Multiple images steganography of JPEG images based on optimal payload distribution | |
Nami et al. | Lightweight Multitask Learning for Robust JND Prediction using Latent Space and Reconstructed Frames | |
Chen et al. | Fed-QSSL: A Framework for Personalized Federated Learning under Bitwidth and Data Heterogeneity | |
Dranoshchuk et al. | About perceptual quality estimation for image compression | |
CN117880759B (zh) | 一种智能化视频短信链路高效检测方法 | |
CN114884704B (zh) | 一种基于对合和投票的网络流量异常行为检测方法和系统 | |
CN117173263B (zh) | 基于增强型多尺度残差生成对抗网络的图像压缩方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |