CN114944198A

CN114944198A - 一种计算机处理采集设备数据的融合方法

Info

Publication number: CN114944198A
Application number: CN202210561789.2A
Authority: CN
Inventors: 管仁初; 吕甜; 丰小月; 曾安
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2022-05-23
Filing date: 2022-05-23
Publication date: 2022-08-26
Anticipated expiration: 2042-05-23
Also published as: CN114944198B

Abstract

本发明设计一种计算机处理采集设备数据的融合方法，先利用空间型相关性解释对空间转录组数据矩阵进行反卷积算法，利用单细胞信息点获得特异性基因，对单细胞信息点进行降维聚类之后，找到每个细胞信息簇中特异性表达的基因数据，对空间转录组数据矩阵进行反卷积操作，在获得了不同细胞类型的特异性基因数据之后，首先利用半监督主题模型对单细胞信息点进行训练，通过比较主题和细胞类型的相关性，来调整模型的参数；调完参数之后再将空间转录组数据矩阵放入到模型中训练，获得空间转录组数据矩阵中每个细胞信息捕获点S的主题分布情况，即细胞类型组成；然后根据细胞类型组成提高空间转录组数据矩阵图谱分辨率；本发明更有利于生物上的研究。

Description

一种计算机处理采集设备数据的融合方法

技术领域

本发明涉及知识图谱上技术领域，涉及知识图谱上的语义信息和结构信息的实体对齐提升技术。

背景技术

近年来，单细胞转录组数据能实现单个细胞的全转录组测序，但关于这些转录物在组织中的空间位置信息丢失了；相反的，空间转录组数据矩阵则是能捕捉到转录组在空间上的表达值，但是捕捉到的转录组表达值是多个异质性细胞的平均表达值。因此，本发明针对这个问题，提出了一种计算机处理采集设备数据的融合方法，来计算空间转录组数据矩阵中每个捕获到的空间细胞信息捕获点S是由哪些细胞类型组成，并构建单细胞分辨率的空间转录组数据矩阵图谱，空间转录组数据矩阵技术为研究组织异质性和细胞空间结构提供了前所未有的机会，然而，空间转录组数据矩阵的分辨率低于单细胞水平，如何了解单细胞的身份及空间背景，揭示不同的细胞在组织哪些区域表达提供了新的思路，发明便提出结合单细胞信息点和空间转录组数据矩阵来对空间转录组数据矩阵进行单细胞分辨率扩增的方法，这里本发明采用数据进行实验和分析，一是模拟数据来直观的比较和验证算法准确度，发现在预测的细胞类型比例和实际的细胞组成之间有较好的准确性。并利用模拟数据将当前常用的预测细胞类型比例算法进行对比，另一则采用真实的实际的数据，对这组数据进行一系列的分析，进一步证实了本发明在检测细胞类型和预测空间转录组数据矩阵点组成方面的高精度。

发明内容

有鉴于此，本发明提供一种解决或部分解决上述问题的一种计算机处理采集设备数据的融合方法。

为达到上述技术方案的效果，本发明的技术方案为：包括有步骤一、通过计算机对设备采集几组不同的单细胞信息点和细胞类型构成细胞数据条形码，并对基因数据进行分析验证，并引入一组模拟数据集，以保证分析验证步骤的准确性，模拟数据集事先设定构建空间转录组数据矩阵中每个细胞信息捕获点S的细胞数据条形码，最后得到的分析验证结果便可以直接和真实的设备采集结果进行对比分析；模拟数据集的生成步骤为：选定部分细胞数据条形码建构细胞数据条形码集，并对细胞数据条形码集按需要拆分并建构为生成集矩阵和验证集矩阵，生成集矩阵用来模拟空间转录组数据矩阵，验证集矩阵用于验证后续过程中细胞数据条形码和空间转录组数据矩阵进行整合的结果；

步骤二、设计参数：定义空间转录组数据矩阵中的参数，根据设计参数对空间转录组数据矩阵用计算机设计和构建空间转录组数据矩阵：设定存在细胞数据条形码时，空间转录组数据矩阵中存在细胞信息捕获点S，判定每个细胞信息捕获点S中得到多个细胞数据条形码；空间转录组数据矩阵还包括基因数据和单细胞信息点；基因数据和单细胞信息点以及细胞类型进行关联，单细胞信息点以及细胞类型包含不同的基因数据，基因数据又表达在不同的单细胞信息点以及细胞类型当中；

步骤三、不同单细胞信息点对应不同的细胞类型；定义细胞类型的密度和稀疏性，密度分为高密度或低密度，表示在某一个细胞信息捕获点S中的细胞类型是低密度还是高密度；稀疏性是细胞类型分布位置的稀疏性，稀疏性表示细胞类型是均匀分布在空间位置上，还是聚集在某一块，并同时考虑细胞类型所在的总细胞信息捕获点S数和每个细胞信息捕获点S中平均单细胞信息点的个数；

步骤四、开始将细胞信息捕获点S得到细胞数据条形码抽取为单细胞信息点和细胞类型构成，再对单细胞信息点所属的细胞类型使用狄利克雷分布生成调整和未调整之间的比例：将现有的所有细胞类型浓度设置为1，则可以得到每个细胞信息捕获点S中每种细胞类型的细胞个数，并需要将每种细胞类型的细胞个数调整到与细胞信息捕获点S中最接近的整数值，然后开始定义不同细胞类型的密度，利用计算细胞类型比例密度，得到来调整返回迭代得到每个细胞信息捕获点S中最合适的每种细胞类型的单细胞信息点的个数；然后从每种细胞类型中取样得到想要分析的单细胞信息点的总数，并对单细胞信息点的总数取样得到不同细胞类型，通过单细胞信息点的总数和不同细胞类型计算得出第一表达矩阵；

步骤五、开始第一原始表达矩阵的预处理：从网站下载获得第一原始表达矩阵，第一原始表达矩阵包括有单细胞转录组数据和空间转录组数据矩阵；单细胞转录组数据的构成为第一急需表达矩阵，第一急需表达矩阵由基因数据信息和细胞数据条形码构成，空间转录组数据矩阵的构成为第二急需表达矩阵，第二急需表达矩阵由基因数据信息和细胞信息捕获点S组成；将第一原始表达矩阵导入预处理工具包后，预处理工具包对第一原始表达矩阵进行处理，并统一格式，创建第一原始统一格式对象集；

步骤六、预处理工具包创建完第一原始统一格式对象集后，将第一原始统一格式对象集保存在预处理工具包里不同的存储位置中，并将存储位置命令为插槽；再利用预处理工具包中自带函数来进行数据预处理得到第一处理统一格式对象集，自带函数的功能包括有筛选、降维、聚类、可视化操作，预处理工具包用于单细胞信息点的质控和分析，能在使用户能够识别和解释单细胞转录组数据中的异质性来源，同时提供能整合不同细胞类型的单细胞信息点的自带函数；

自带函数的功能中的筛选功能执行步骤为：建立质控图，开始观察第一处理统一格式对象集中每个细胞数据条形码中的基因数据的表达值的总数量，并计算每个细胞数据条形码中的线粒体基因数据的表达值的总数量，其中线粒体基因数据表达值设为不为0，从而根据含有的基因数据的表达值的总数量、线粒体基因数据的表达值的总数量进行筛选，然后对计算得出的数值设置阈值，低于阈值的单细胞信息点将从细胞数据条形码中被删掉；

质控图分别展示第一处理统一格式对象集中每个细胞数据条形码中测到的基因数据的总数量、测到的每个单细胞信息点中的所有的基因表达的量数据之和以及线粒体基因数据的总数量的分布情况，通过质控图根据需要过滤掉无用数据，并对过滤的无用数据进行确定，设定产生的线粒体基因数据的表达比例过高的数据作为无用数据会被过滤；

然后利用标准化处理函数来对第一处理统一格式对象集进行标准化处理，以能够去除技术误差和批次效应；对第一表达矩阵进行一系列的处理，便进行可视化操作及下游分析；可视化操作能将标准化处理后的第一处理统一格式对象集中的数据整合在低维空间中以便于观测，

步骤七、然后通过预处理工具包开始进行线性转换的操作，线性转换的操作能保留单个或多个单细胞信息点之间的欧式距离，将主成分映射到生物协变量中，以提高数据分析统计效率；

步骤八、为得到空间转录组数据矩阵中每个基因数据的基因表达值，将单细胞信息点乘一个比例因子，对所有选定的细胞类型和预先定义的常数进行求和，从而得到一个用来模拟空间转录组数据矩阵的生成集矩阵，其中比例因子是自定义的常数；

步骤九、开始单细胞信息点和空间转录组数据矩阵融合计算：子步骤1：对带有细胞类型的标签的单细胞信息点进行聚类获得不同的细胞信息簇，找出每个细胞信息簇中与其它细胞信息簇表达差异的特异性基因作为半监督信息，半监督信息为后续反卷积算法提供先验信息；子步骤2：结合单细胞信息点对空间转录组数据矩阵进行反卷积算法；子步骤3：提升空间转录组数据矩阵图谱分辨率算法；

子步骤1：分析工具的基尼指数来获得每个细胞信息簇的特征基因集，基尼指数表示在样本集合中一个随机选中的样本被分错的概率，基尼指数指数越小表示集合中被选中的样本被分错的概率越小，也就是说集合的纯度越高，反之，集合越不纯；

默认选择每组细胞信息簇中表达前100的基因数据，将挑选出来的所有基因数据保存作为表达基因数据矩阵Ghvg(X1，X2…)；其中X1代表细胞类型中非常高表达基因的基因数据集合，X2代表细胞类型中较高表达的基因数据集合，依次往后，默认子步骤1只选择前两组；

由于挑选出来的基因数据是每组细胞信息簇中表达前100的基因数据，表达前100的基因数据的基因表达也存在着差异，有的基因数据高表达，有的基因数据非高表达，利用寻找出的各个细胞类型中的高表达的基因进行训练，以提高训练速度，而被筛选去除的非高表达基因在各个细胞类型中并不显著表达，没有明显的特征，当在后续的训练过程中拖累训练速度时，通过实际操作对非高表达基因进行忽略以减少误差，并在后续计算中设定非高表达基因与所有的细胞类型的相关性不强，对空间转录组数据矩阵利用高表达基因矩阵Ghvg(x1，x2…)进行筛选，得到高表达基因hvg和细胞信息捕获点S的高基因表达矩阵；

依次按照基因数据表达的范围来挑选对应的几组基因数据，将几组基因数据保存到不同的训练集矩阵中，此时训练集矩阵赋值为{Gong(X1)，Gong(X2)，…}，

子步骤2：使用反卷积算法模型结合单细胞信息点对空间转录组数据矩阵进行反卷积算法，并加入步骤九中特异性基因作为少许先验知识加入反卷积算法模型，构成半监督信息，并对少许先验知识赋予一个权重；

子步骤3：在寻找到的细胞信息簇中的标记基因时，有的细胞信息簇中有高表达的基因数据a1，有的细胞信息簇中相较于其他细胞信息簇只是有较高表达却不是十分高表达的基因数据a2，为区分高表达的基因数据a1和有较高表达却不是十分高表达的基因数据a2，设置不同的分等级的先验知识，将标记基因分成几类，分别赋予不同的权重，反卷积算法的具体过程如下：

开始训练反卷积算法模型，先输入细胞类型的个数、要训练的基因数据和迭代次数；训练完反卷积算法模型之后，将空间转录组数据矩阵作为模型的输入文件，并且输入半监督信息到训练集矩阵{Gong(X1)，Gong(X2)，…}中，训练集矩阵中元素默认为Gong(X1)，Gong(X2)两组，对训练集矩阵中Gong(X1)的权重设置为9，Gong(X2)的权重设置为5；

为让反卷积算法模型的计算结果更准确，先利用单细胞转录组数据来进行验证并调节参数，可以直接将单细胞转录组数据和训练集矩阵中的Gong(X1)、Gong(X2)放入到反卷积算法模型中进行训练，得到真实的细胞类型和预测的细胞类型构成的验证集矩阵，并与步骤八得到的生成集矩阵一起进行验证；

由于单细胞信息点是带有标签的数据，每个单细胞信息点具有一个细胞类型，因此可以得到一组预测的细胞类型和真实的细胞类型的相关性矩阵；然后根据得到的相关性矩阵，判断预测的细胞类型和真实的细胞类型的差异，从而对半监督信息和权重进行调整，直到预测的细胞类型和真实的细胞类型结果类似；

子步骤4：在单细胞转录组数据验证并调节参数之后，生成调好参数的Gong(X'1)、Gong(X'2)，反卷积算法模型便开始直接对空间转录组数据矩阵进行反卷积运算，直接将空间转录组数据矩阵和调好的参数Gong(X'1)、Gong(X'2)等放入到反卷积算法模型中进行训练计算，得到每个细胞信息捕获点S和细胞类型的概率分布矩阵，再对概率分布矩阵进行归一化便得到细胞类型比例预测矩阵；

子步骤5：利用反卷积算法得到空间转录组数据矩阵中每个细胞信息捕获点S中的细胞组成信息，根据不同的测序平台有不同的分辨率，空间转录组数据矩阵中每个细胞信息捕获点S根据实验给出的条件计算细胞个数，即空间转录组数据矩阵直接得出每个细胞信息捕获点S中的细胞个数；

空间转录组数据矩阵中每个细胞信息捕获点S获得不同细胞类型的比例信息和细胞个数信息，则可将空间转录组数据矩阵扩增到单细胞分辨率的扩增表达矩阵，再将扩增表达矩阵匹配到空间位置信息上，步骤为：

步骤十、估计细胞信息捕获点S中的细胞个数：利用空间转录组数据矩阵测序技术中的分辨率大小来判断每个细胞信息捕获点S中含有的细胞个数，为简便计算和直观观察结果，对所有的细胞信息捕获点S开始统一进行扩增到一样的倍数生成扩增细胞信息捕获点S*；若空间转录组数据矩阵的捕获大小为90μm，而测序的组织中的单细胞直径为10μm，则假设所有的细胞信息捕获点S中含有9个细胞个数；

步骤十一、扩增空间转录组数据矩阵表达矩阵：由反卷积算法得到空间转录组数据矩阵的细胞类型比例预测矩阵Ψ＝{细胞类型×细胞信息捕获点S}，又已知空间转录组数据矩阵包括有基因数据和细胞信息捕获点S，遍历每个细胞信息捕获点S中的细胞类型比例信息，将细胞信息捕获点S中的基因表达信息和细胞类型比例相结合，而由已经得到细胞信息捕获点S中的细胞个数，则按照细胞比例的划分进行合理的分配，得到一个每个细胞信息捕获点S中细胞个数和预期值一样的扩增后空间转录组数据矩阵基因表达矩阵A*＝{基因数据×扩增细胞信息捕获点S*}；

步骤十二、匹配扩增后空间转录组数据矩阵基因表达矩阵的空间位置信息：得到了扩增后空间转录组数据矩阵基因表达矩阵后，对应的扩增细胞信息捕获点S*需要和扩增后空间转录组数据矩阵基因表达矩阵中的基因数据的表达信息进行一一对应，即进一步需要找到扩增后的空间转录组数据矩阵表达矩阵的空间位置信息；

利用扩增后空间转录组数据矩阵基因表达矩阵中基因数据表达信息和最优传输理论寻找单细胞信息点与单细胞信息点之间的位置信息；具体的算法流程为：

取扩增细胞信息捕获点S*中扩增后的基因数据表达信息，和扩增细胞信息捕获点S*中扩增后的空间位置信息；

得到扩增后空间转录组数据矩阵基因表达矩阵后，利用原有的单细胞信息点中的基因表达，通过欧式距离计算，得到扩增单细胞信息点彼此之间的欧氏距离，形成扩增单细胞信息点之间的度量矩阵C1；

扩增后空间位置矩阵计算：计算扩增单细胞信息点的真实空间位置点与扩增单细胞信息点的真实空间位置点之间的欧氏距离，得到扩增单细胞信息点的真实空间位置点与扩增单细胞信息点的真实空间位置点之间的度量矩阵C2；

设置一个初始的扩增单细胞信息点的数量和扩增单细胞信息点的真实空间位置点构成的耦合矩阵T，将耦合矩阵T、度量矩阵C1、度量矩阵C2放入到最优化传输模型中进行训练，最优化传输模型应用于计算机科学领域，通过几何方法进行概率分布的建模和衡量概率分布之间的距离，是连接几何和概率的桥梁；最优化传输模型的迭代次数取1000，迭代找到最优概率耦合矩阵T′；最优概率耦合矩阵T′中是每个扩增单细胞信息点与其他所有扩增单细胞信息点之间可能对应的概率，通过稳定匹配算法，来找到每个扩增单细胞信息点与之最可能对应的点，从而得到扩增单细胞信息点和真实空间位置点一一对应的关系；

对所有的细胞信息捕获点S进行以上操作，来找到每个细胞信息捕获点S中扩增单细胞信息点与扩增单细胞信息点对应的空间位置信息，从而确定扩增后的所有的扩增单细胞信息点位置信息，以提高空间转录组数据矩阵图谱分辨率；

在特定细胞信息捕获点S捕获到细胞数据条形码中的单细胞信息点可能来自一组异质性的细胞类型，并非同一细胞类型，通过评价指标1和评价指标2获得空间转录组数据矩阵中每个细胞信息捕获点S中的细胞类型分布来判断数据筛选标准，并使用均方根误差常用来测量数值之间的差异，比较预测的结果与真实结果之间的偏差；

评价指标1是用生成集矩阵概率分布P、验证集矩阵概率分布Q与对数函数乘积的和，从而来度量两个概率分布P和Q之间的差异，评价指标1计算公式为：

其中对数函数是凸函数，E表示所有的空间转录组数据矩阵中每个细胞信息捕获点S中的所有单细胞信息点，ε表示用于判断的单细胞信息点；P(ε)表示生成集矩阵中要寻找的用于判断的单细胞信息点在所有的空间转录组数据矩阵中每个细胞信息捕获点S中的所有单细胞信息点的概率分布，Q(ε)表示验证集矩阵中要寻找的用于判断的单细胞信息点在所有的空间转录组数据矩阵中每个细胞信息捕获点S中的所有单细胞信息点的概率分布；评价指标2其范围为[0，1]，将P(ε)，Q(ε)替换评价指标1中的P，将

替换评价指标中的Q；两个概率分布P和Q若相同，则得到的评价指标2的值为0，分布越不相似则越接近于1，评价指标2计算公式为：

具体实施方法

为使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合实施例，对本发明进行详细的说明。应当说明的是，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，能实现同样功能的产品属于等同替换和改进，均包含在本发明的保护范围之内。具体方法如下：

实施例：本实施例具体说明一种计算机处理采集设备数据的融合方法的内容：本发明主要是使用了一组模拟数据和一组实际数据，模拟数据可以直观的比较模型预测结果和真实结果的区别，并且可以与其他模型算法进行对比；而真实的生物数据则从生物学角度验证了本发明可以准确的预测细胞类型在空间上的分布，从而更好的理解组织细胞的结构和功能。通过计算机对设备采集几组不同的单细胞信息点和细胞类型构成细胞数据条形码进行分析验证，并引入一组模拟数据集，以保证分析验证步骤的准确性，模拟数据集事先设定为空间转录组数据中每个细胞信息捕获点S的细胞数据条形码，最后得到的分析验证结果便可以直接和真实的设备采集结果进行对比分析；

模拟数据集的生成步骤为：拆分并建构细胞数据点条形码集：将细胞数据点条形码集拆分为生成集矩阵和验证集矩阵，生成集矩阵用来模拟空间转录组数据，验证集矩阵用于验证后续过程中细胞数据点条形码和空间转录组数据进行整合的结果；

设计参数：定义空间转录组数据中的参数，根据设计参数对空间转录组数据用计算机设计和构建空间转录组数据矩阵：设定存在细胞数据点条形码时，空间转录组数据矩阵中存在细胞信息捕获点S，判定每个细胞信息捕获点S中得到多个细胞数据点条形码；空间转录组数据矩阵还包括基因数据和单细胞信息点；基因数据和单细胞信息点进行关联，单细胞信息点包含不同的基因数据，基因数据又表达在不同的单细胞信息点当中；

不同单细胞信息点对应不同的细胞类型；定义细胞类型的密度和稀疏性，密度分为高密度或低密度，表示在某一个细胞信息捕获点S中的细胞类型是低密度还是高密度；稀疏性是细胞类型分布位置的稀疏性，稀疏性表示细胞类型是均匀分布在空间位置上，还是聚集在某一块，并同时考虑细胞类型所在的总细胞信息捕获点S数和每个细胞信息捕获点S中平均单细胞信息点的个数；

开始将细胞信息捕获点S得到细胞数据点条形码抽取为单细胞信息点和细胞类型构成，再对细胞类型构成中的细胞类型使用狄利克雷分布生成调整和未调整之间的比例；将现有的所有细胞类型浓度设置为1，则可以得到每个细胞信息捕获点S中每种细胞类型的细胞个数，并需要将每种细胞类型的细胞个数调整到与细胞信息捕获点S中最接近的整数值，然后开始定义不同细胞类型的密度，利用计算细胞类型比例密度，得到来调整返回迭代得到每个细胞信息捕获点S中最合适的每种细胞类型的细胞个数；然后从每种细胞类型中取样得到想要分析的单细胞信息点的总数，并对单细胞信息点的总数取样得到不同细胞类型，通过单细胞信息点的总数和不同细胞类型计算得出第一表达矩阵；

为得到空间转录组数据矩阵中每个基因数据的表达值，将单细胞信息点乘一个比例因子，对所有选定的细胞类型和预先定义的常数进行求和，从而得到一个用来模拟空间转录组数据的生成集矩阵，与验证集矩阵一起进行验证，其中比例因子是自定义的常数；

开始第一原始表达矩阵的预处理：从网站下载获得第一原始表达矩阵，第一原始表达矩阵包括有单细胞转录组数据和空间转录组数据；单细胞转录组数据的构成为第一急需表达矩阵，第一急需表达矩阵由基因数据信息和细胞数据点条形码构成，其中基因数据信息为列，细胞数据点条形码为行，空间转录组数据的构成为第二急需表达矩阵，第二急需表达矩阵由基因数据信息和细胞信息捕获点S组成，其中基因数据信息为列，细胞信息捕获点S为行；将第一原始表达矩阵导入预处理工具包后，预处理工具包对第一原始表达矩阵进行处理，并统一格式，创建第一原始统一格式对象集；

预处理工具包创建完第一原始统一格式对象集后，将第一原始统一格式对象集保存在预处理工具包里不同的存储位置中，并将存储位置命令为插槽；再利用预处理工具包中自带函数来进行数据预处理得到第一处理统一格式对象集，自带函数的功能包括有筛选、降维、聚类、可视化操作，预处理工具包用于单细胞信息点的质控和分析，能在使用户能够识别和解释单细胞转录组数据中的异质性来源，同时提供整合不同类型的单细胞信息点的自带函数；

自带函数的功能中的筛选功能执行步骤为：建立质控图，开始观察第一处理统一格式对象集中每个细胞数据点条形码中的基因数据的表达值的总数量，并计算每个细胞数据点条形码中的线粒体基因数据的表达值的总数量，其中线粒体基因数据表达值设为不为0，从而根据含有的基因数据的表达值的总数量、线粒体基因数据的表达值的总数量进行筛选，然后对计算得出的数值设置阈值，低于阈值的单细胞信息点将从细胞数据点条形码中被删掉；

质控图分别展示第一处理统一格式对象集中每个细胞数据点条形码中测到的基因数据的总数量、测到的每个单细胞信息点中的所有的基因表达量的数据之和以及线粒体基因数据的总数量的分布情况，通过质控图根据需要过滤掉无用数据，并对过滤的无用数据进行确定，设定产生的线粒体基因数据的表达比例过高的数据作为无用数据会被过滤；

然后通过预处理工具包开始进行线性转换的操作，线性转换的操作能保留单个或多个单细胞信息点之间的欧式距离，将主成分映射到生物协变量中，以提高数据分析统计效率；

开始单细胞信息点和空间转录组数据融合计算：子步骤1：对带有细胞类型的标签的单细胞信息点进行聚类获得不同的细胞信息簇，找出每个细胞信息簇中与其它细胞信息簇表达差异的特异性基因作为半监督信息，半监督信息为后续反卷积算法提供先验信息；子步骤2：结合单细胞信息点对空间转录组数据进行反卷积算法；子步骤3：提升空间转录组数据图谱分辨率算法；

分析工具的基尼指数来获得每个细胞信息簇的特征基因集，基尼指数表示在样本集合中一个随机选中的样本被分错的概率，基尼指数指数越小表示集合中被选中的样本被分错的概率越小，也就是说集合的纯度越高，反之，集合越不纯；

由于挑选出来的基因数据是每组细胞信息簇中表达前100的基因数据，表达前100的基因数据的基因表达也存在着差异，有的基因数据高表达，有的基因数据非高表达，利用寻找出的各个细胞类型中的高表达的基因进行训练，以提高训练速度，而被筛选去除的非高表达基因在各个细胞类型中并不显著表达，没有明显的特征，当在后续的训练过程中拖累训练速度时，通过实际操作对非高表达基因进行忽略以减少误差，并在后续计算中设定非高表达基因与所有的细胞类型的相关性不强，对空间转录组数据利用高表达基因矩阵Ghvg(x1，x2…)进行筛选，得到高表达基因hvg和细胞信息捕获点S构成的高基因表达矩阵；

依次按照基因数据表达的范围来挑选对应的几组基因数据，将几组基因数据保存到不同的训练集矩阵中{Gong(X1)，Gong(X2)，…}，

使用反卷积算法模型结合单细胞信息点对空间转录组数据进行反卷积算法，并加入特异性基因作为少许先验知识加入反卷积算法模型，构成半监督信息，并对少许先验知识赋予一个权重；

在寻找到的细胞信息簇中的标记基因时，有的细胞信息簇中有高表达的基因数据a1，有的细胞信息簇中相较于其他细胞信息簇只是有较高表达却不是十分高表达的基因数据a2，为区分高表达的基因数据a1和有较高表达却不是十分高表达的基因数据a2，设置不同的分等级的先验知识，将标记基因分成几类，分别赋予不同的权重，反卷积算法的具体过程如下：

为让反卷积算法模型的计算结果更准确，先利用单细胞转录组数据来进行验证并调节参数，可以直接将单细胞转录组数据和训练集矩阵中的Gong(X1)、Gong(X2)放入到反卷积算法模型中进行训练，得到真实的细胞类型和预测的细胞类型构成的验证集矩阵；

在单细胞转录组数据验证并调节参数之后，生成调好参数的Gong(X'1)、Gong(X'2)，反卷积算法模型便开始直接对空间转录组数据矩阵进行反卷积运算，直接将空间转录组数据矩阵和调好的参数Gong(X'1)、Gong(X'2)等放入到反卷积算法模型中进行训练，得到每个细胞信息捕获点S和细胞类型的概率分布矩阵，再对概率分布矩阵进行归一化便得到细胞类型比例预测矩阵；

子利用反卷积算法得到空间转录组数据中每个细胞信息捕获点S中的细胞组成信息，根据不同的测序平台有不同的分辨率，空间转录组数据矩阵中每个细胞信息捕获点S根据实验给出的条件计算细胞个数，即空间转录组数据矩阵直接得出每个细胞信息捕获点S中的细胞个数；

空间转录组数据矩阵中每个细胞信息捕获点S获得不同细胞类型的比例信息和细胞个数信息，则可将空间转录组数据扩增到单细胞分辨率的扩增表达矩阵，再将扩增表达矩阵匹配到空间位置信息上，步骤为：

估计细胞信息捕获点S中的细胞个数：利用空间转录组数据测序技术中的分辨率大小来判断每个细胞信息捕获点S中含有的细胞个数，为简便计算和直观观察结果，对所有的细胞信息捕获点S开始统一进行扩增到一样的倍数生成扩增细胞信息捕获点S*；若空间转录组数据的捕获大小为90μm，而测序的组织中的单细胞直径为10μm，则假设所有的细胞信息捕获点S中含有9个细胞个数；

扩增空间转录组数据表达矩阵：由反卷积算法得到空间转录组数据的细胞类型比例预测矩阵Ψ＝{细胞类型×细胞信息捕获点S}，又已知空间转录组数据矩阵包括有基因数据和细胞信息捕获点S，遍历每个细胞信息捕获点S中的细胞类型比例信息，将细胞信息捕获点S中的基因表达信息和细胞类型比例相结合，而由已经得到细胞信息捕获点S中的细胞个数，则按照细胞比例的划分进行合理的分配，得到一个每个细胞信息捕获点S中细胞个数和预期值一样的扩增后的基因表达矩阵A*＝{基因数据×扩增细胞信息捕获点S*}；例如，若该细胞类型中细胞类型1：细胞类型2：细胞类型3：细胞类型4：细胞类型5＝0.2：0.3：0.4：0.002：0.098，这里的细胞类型3所占的细胞比例过小，考虑到实验误差和计算误差等因素，会删除该细胞信息捕获点S中的细胞类型3，则得到细胞类型1：细胞类型2：细胞类型3：细胞类型4：细胞类型5＝2：3：4：0：1，而该细胞信息捕获点S中细胞个数为9个，则最终本发明将该细胞信息捕获点S扩增为细胞信息捕获点S_细胞类型1＝2，细胞信息捕获点S_细胞类型2＝3，细胞信息捕获点S_细胞类型3＝4，细胞信息捕获点S_细胞类型5＝1；

匹配扩增后的空间转录组数据表达矩阵的空间位置信息：得到了扩增后的空间转录组数据表达矩阵后，对应的每个细胞信息捕获点S也需要进行扩增，并需要和矩阵中的表达信息进行一一对应，即这一步需要找到扩增后的空间转录组数据表达矩阵的空间位置信息；细胞信息捕获点S与细胞信息捕获点S之间的位置信息是空间转录组数据实验进行切片得到的，但是扩增后的细胞信息捕获点S中细胞与细胞之间的位置信息本发明并不清楚，因此这里需要计算细胞信息捕获点S中细胞彼此之间的位置部分信息；表达相似的细胞更容易聚在一起，因此这里本发明利用基因表达矩阵信息和最优传输理论来寻找细胞与细胞之间的位置信息；具体的算法流程为：

取该细胞信息捕获点S中扩增后的细胞表达矩阵信息，和该细胞信息捕获点S中扩增后的空间位置信息；

得到扩增后的细胞矩阵后，利用单细胞信息点中的基因表达，通过欧式距离计算，得到单细胞信息点彼此之间的欧氏距离，形成单细胞信息点之间的度量矩阵C1；

扩增后的空间位置矩阵也是同样的计算方法，计算单细胞信息点的真实空间位置点与细胞的真实空间位置点之间的欧氏距离，得到细胞的真实空间位置点与细胞的真实空间位置点之间的度量矩阵C2；

设置一个初始的细胞数量和细胞的真实空间位置点构成的耦合矩阵T，将耦合矩阵T、度量矩阵C1、度量矩阵C2放入到最优化传输模型中进行训练，最优化传输模型应用于计算机科学领域，通过几何方法进行概率分布的建模和衡量概率分布之间的距离，是连接几何和概率的桥梁；

这里的迭代次数取1000，迭代找到最优概率耦合矩阵T′；最优概率耦合矩阵T′中是每个单细胞信息点与其他所有点之间可能对应的概率，通过稳定匹配算法，来找到每个单细胞信息点与之最可能对应的点，从而得到单细胞信息点和真实空间位置点一一对应的关系；

对所有的细胞信息捕获点S进行以上操作，来找到每个细胞信息捕获点S中扩增后的单细胞信息点与单细胞信息点对应的空间位置信息，从而确定扩增后的所有的单细胞信息点位置信息，实现提高空间转录组数据图谱分辨率的目的；

本发明主要是介绍了本发明这个算法的模型框架和流程，从数据收集处理及空间转录组数据单细胞分辨率的实现两个部分进行详细介绍；数据部分本发明使用了两组数据——模拟数据和真实数据，本发明后续对这两组数据的生成和收集也做了详细说明，阐述了如何结合单细胞信息点来使得空间转录组数据达到单细胞分辨率的算法流程；

空间转录组数据由于受到实验技术的限制性，探针在特定位置捕获到的转录组来源于多个细胞，这些细胞可能来自一组异质性的细胞，并非同一细胞类型，通过实验的办法难以获得空间转录组数据中每个细胞信息捕获点S中的细胞类型分布，而通过算法来解析空间转录组数据中的细胞类型信息，也难以直接判断预测的准确度；模拟数据可以通过直接比较预测结果和真实结果，来判断算法的准确度；

均方根误差常用来测量数值之间的差异，比较模型预测的结果与真实结果之间的偏差。本发明虽然也利用到了单细胞转录组数据，但是本发明只是将其作为辅助工具，利用单细胞信息点来寻找和验证先验信息，并不直接整合单细胞转录数据和空间转录组数据。单细胞转录组测序技术和空间转录组数据技术的实验方法、测序平台甚至有的实验样本都并不一致，直接对这两组数据进行整合，有可能对空间转录组数据的细胞类型预测带来更多的误差。并且本发明提出提升空间转录组数据分辨率的新方法，利用得到的细胞类型比例预测和最优传输理论来获得单细胞分辨率的空间转录组数据，从而可以更好的理解组织内部各区域功能关联和异质性是至关重要的，在反卷积算法中，本发明使用的是半监督方式的主题模型来预测细胞信息捕获点S中的细胞类型比例，这里的半监督信息影响着最终的结果，因此本发明引入了单细胞信息点来进行调参，但是这种手动调参比较麻烦且费时，本发明可以对这里进行进一步的调整来简化调参的步骤；在对空间转录组数据进行扩增的时候，为了方便计算，本发明是直接将所有的细胞信息捕获点S取同一个扩增值，目前提供的许多空间转录组数据并没有给出每个细胞信息捕获点S中的细胞数，因此本发明采用了估计值的方法来进行扩增。但是空间转录组数据技术在飞速发展，未来越来越多的空间数据也会给出每组细胞信息捕获点S中含有的细胞数，利用具体含有的细胞数，本发明可以更准确地预测出单细胞分辨率的空间转录组数据。

为了比较不同模型之间的性能，以及为了直接观测该模型算法的准确度，这里引入了一组合成数据来对模型进行验证。这里使用的单细胞信息点集是使用的单细胞标注细胞类型则是“subclaS”的标签。首先将单细胞信息点集分成两个大小相等且互斥的数据集，即生成集和验证集，然后根据上述概述的步骤，将生成集作为输入，生成合成的空间转录组数据。这里得到的空间转录组数据包含1000个细胞信息捕获点S和500个基因，基因是选择的表达最高的前500个基因。验证集则留作后续作为单细胞信息点来进行反卷积分析的数据，验证集以及其细胞类型的标注。利用小鼠的单细胞测序数据，生成了已知10种细胞类型的合成细胞混合物。模拟合成了来自小鼠scRNA-seq数据的1000个位置的空间转录组数据，对于每个位置，从scRNA中随机选择单个细胞，并结合它们的转录组合成混合物，这样可以合成已知细胞类型成分的空间转录组数据，以更好更直接的实现验证各种反卷积模型的性能。

实际单细胞转录数据则是通过10X Genomics Chromium技术获得，这组数据生成了3717个单细胞转录谱，平均每个细胞有2900个基因和11000个独特的转录本。对这组数据进行预处理，去除表达基因小于200的细胞和在3个细胞以下表达的基因，最终得到一组15323个genes×3760个条形码s的单细胞表达矩阵。这组单细胞信息点及细胞类型组成一共有11种细胞类型，根据标注信息进行聚类可视化则可以很明显看出来各个细胞类型之间的分布情况。

空间转录组数据给出了多组切片和表达矩阵，本发明对每个时间点都取第一组切片进行实验。4.5-5PCW时期的空间转录组数据由38936个genes×55个细胞信息捕获点S组成，经过预处理、结合特异性基因之后得到812个genes×55个细胞信息捕获点S的表达矩阵；空间转录组数据由38936个genes×238个细胞信息捕获点S组成，经过预处理、结合特异性基因之后得到812个genes×238个细胞信息捕获点S的表达矩阵；空间转录组数据由39739个genes×210个细胞信息捕获点S组成，经过预处理、结合特异性基因之后得到812个genes×210个细胞信息捕获点S的表达矩阵。

由于模拟数据是直接从单细胞信息点中生成的，并没有空间转录组数据的图片和位置信息，因此这里只对模拟数据进行细胞类型比例预测的分析，并没有进行下一步的扩增细胞分辨率的算法研究，而由于空间转录组数据中细胞类型比例的预测对提升单细胞分辨率起着至关重要的作用，因此利用模拟数据来对空间转录组数据进行细胞类型比例的评估也是十分重要的。

本发明首先需要利用单细胞信息点来寻找不同细胞类型之间的特异性基因。由于提供的单细胞信息点已经标记好了细胞类型，因此本发明只需要对标注好的单细胞信息点进行聚类得到不同的细胞信息簇，然后在不同的细胞信息簇之间进行差异表达分析，寻找每个细胞类型上的特异性基因，将得到的差异表达分析热图部分进行可视化，则可以得到差异基因表达热图。从热图中可以观察到Blood细胞信息簇、Oligos细胞信息簇、Vascular细胞信息簇等细胞信息簇中存在的几组高表达基因，不同的细胞类型之间的基因表达也有较大的差异。这里筛选出不同的细胞类型之间的基因，有的基因在该细胞信息簇中高表达，有的基因在该细胞信息簇中较高表达，有的基因在该细胞信息簇中低表达。

得到的差异基因表达矩阵为矩阵G(x1，x2…)＝gene×cell-type，即行为gene，列为cell-type。本发明首先对行数据进行归一化，得到基因在各个细胞类型中的特异性比例，数值越大，说明这个基因在这个细胞类型中相较于其他细胞类型更特异性，即得到归一化后的差异基因表达矩阵。对矩阵中的每列数据进行排序，获得每组细胞类型中排名前10的基因，若该基因在这个细胞类型中所占的比例>0.8，则将这组基因加入到特异性矩阵G(X1)，若该基因在这个细胞类型中所占的比例<0.8且>0.5，则将这组基因加入到特异性矩阵G(X2)。获得的两组特异性基因矩阵G(X1)和G(X2)，作为后续的初次迭代的先验信息。

利用单细胞转录组数据获得的高表达基因矩阵G(x1，x2…x732)里最终有732个基因，而空间转录组数据中的基因并不完全和这732个基因完全一致，空间转录组数据中是生成的500个高表达基因，对这些基因取交集，最终获得的是只有254个基因，因此筛选后的空间转录组数据变成一个254个genes×1000个细胞信息捕获点S的矩阵。

由于空间型相关性解释算法利用了细胞类型中的特异性基因作为先验信息，而单细胞转录组数据是带有标签的数据，这里可以先利用单细胞信息点来进行训练，观察得到的细胞类型与细胞之间的相关性矩阵，再利用标签信息将细胞转换为细胞类型，便可以观测预测的细胞类型和真实的细胞类型之间的相关性，模拟数据预测的细胞类型和真实细胞类型的相关性热图可以很明显的看出来，预测的细胞类型和真实细胞类型有很大相关性，本发明在预测细胞类型方面准确度不错。

如果得到的预测的细胞类型和真实细胞类型相关性图差别较大，则本发明可以通过继续调整先验信息——G(X1，X2，…)矩阵和对应的参数来进行训练，直到得到较好的相关性图，也就是预测的细胞类型和真实的细胞类型的热图中深颜色呈现一条斜对角线时，此时的先验信息特异性基因G(X1)、G(X2)和权重则是本发明需要的，模拟数据最终确定下来的特异性基因G(X1)、G(X2)。

利用反卷积算法来测试空间转录组数据中不同时期的细胞类型变化是十分重要的。首先利用反卷积算法预测空间转录组数据细胞类型比例之和，得到了细胞类型比例之后，结合表达矩阵信息对空间转录组数据进行扩增，最后则可以开始构建单细胞分辨率的空间转录组数据。

这里同样是利用Giotto包中的gini方法来获得每个细胞信息簇的特异性基因，对得到的差异表达基因的部分进行可视化，则可以得到热图。从热图中观察到，Immune、Cncc&Spc、Erythrocytes等细胞信息簇存在几组高表达基因，而Fibroblast-like、Epicardium-derived cells、Smooth muscle cells的基因表达十分相似。

利用单细胞转录组数据获得的高表达基因矩阵G(x1，x2…x732)里最终有862个基因，而三组不同的时间点上的空间转录组数据中的基因并不完全和这862个基因完全一致，对空间转录组数据中的基因和高表达基因去交集，最终获得的是只有812个基因，因此三组时间点上的空间转录组数据都变成了812个genes×细胞信息捕获点S的矩阵。这里仍然是按照得到的差异基因表达矩阵来筛选差异最大的基因作为初始的先验信息。

将上一个步骤获得的差异最大的基因作为先验信息，首先仍然是先利用单细胞信息点来进行验证，调参来获得最合适的特异性基因和权重。将单细胞信息点作为反卷积算法模型的输入，获得单细胞和预测的细胞类型的相关性矩阵，再利用单细胞的标签，则可以得到真实的细胞类型和预测的细胞类型相关性矩阵，将其可视化则得到热图，这里可以很直接地观察到，有的细胞类型和另一种细胞类型的表达基因有些相似，因此会造成除对角线之后的高相关性点，但总体而言，本发明仍能较为准确的预测出不同的细胞类型。

如果得到的预测的细胞类型和真实细胞类型相关性图差别较大，则本发明可以通过继续调整先验信息——G(X1，X2，…)矩阵和对应的参数来进行训练，直到得到较好的相关性图，也就是预测的细胞类型和真实的细胞类型的热图中深颜色呈现一条斜对角线时，此时的先验信息特异性基因G(X1)、G(X2)和权重则是本发明需要的，特异性基因最终确定下来的特异性基因G(X1)、G(X2)利用单细胞信息点对模型进行验证和调参之后，本发明便可以将空间转录组数据放入到模型中进行训练，这里使用了三组空间转录组数据的数据来进行实验分析，得到的反卷积结果图，利用得到的反卷积结果图可以列出各个空间转录组数据中细胞类型的分布图，这里列出了几种分布位置比较特殊的细胞类型。通过观察细胞类型在空间中的分布情况，可以很明显的发现预测到的细胞类型与相应的细胞类型空间分布位置高度一致，从而可以证实真实的生物数据利用本发明也能得到不错的细胞类型预测结果。

为了方便计算，本发明取一个细胞信息捕获点S中含有9个细胞，按照扩增到9个细胞的分辨率来进行计算。对空间转录表达矩阵和空间位置点矩阵进行扩增，再对每个细胞信息捕获点S中利用最优传输算法找到扩增的细胞在这9个位置中的具体位置，便得到单细胞分辨率的空间数据。

这里使用模拟数据对不同的反卷积方法进行基准测试，本发明为每种模型方法提供了验证的单细胞信息点集和模拟的合成空间转录组数据验证集，首先是计算空间转录组数据细胞类型预测比例和真实比例之间的均方根误差，这里虚线代表从生成的空间转录组数据1000个细胞信息捕获点S中对细胞类型比例估计(假设每种细胞类型的浓度设置为1)的平均RMSE值，可以很明显的看出来，本发明在均方根误差中取得较低的结果，说明预测出来的结果与真实的结果偏差并不大。

本发明的消融实验观测加入或去除某些因素最终对结果带来的影响。首先是直接在反卷积模型部分加入单细胞转录组数据，但是并不利用半监督的信息，而是先直接对单细胞转录组数据进行预测，利用改进的相关性解释模型来预测单细胞转录组数据。定义好需要的主题个数为k(即最终的细胞类型个数)，对单细胞转录组数据进行无监督形式的主题建模，通过迭代优化来使得每个细胞类型中的细胞之间相关性最大，从而获得主题和细胞的相关矩阵，而在单细胞转录组数据中，一个细胞可以很容易获得对应的细胞类型标签，因此可以得到主题和细胞类型的矩阵；再用同样的方法对空间转录组数据进行处理，获得主题和细胞信息捕获点S的相关矩阵，结合上面得到的主题×细胞类型矩阵，最终可以获得细胞类型×细胞信息捕获点S的预测矩阵。

第二组实验则是对上述模型加入了半监督的信息，利用半监督的信息对单细胞转录组数据和空间转录组数据分别进行主题建模，再结合获得的两组得到的数据来进行整合获得空间转录组数据细胞类型比例预测的结果矩阵。

而利用单细胞转录组数据获得每组细胞类型的标记基因，再利用这些标记基因作为先验信息去对空间转录组数据进行反卷积，这里只是利用空间转录组数据中进行实验，不会引入其他的多余误差。

当得到的预测的细胞类型和真实细胞类型相关性图差别较大，则本发明可以通过继续调整先验信息——G(X1，X2，…)矩阵和对应的参数来进行训练，直到得到较好的相关性图，也就是预测的细胞类型和真实的细胞类型的热图中深颜色呈现一条斜对角线时，此时的先验信息特异性基因G(X1)、G(X2)和权重则是本发明需要的，模拟数据最终确定下来的特异性基因G(X1)、G(X2)。

本发明则是利用了两组数据，具体实际地介绍这两组数据的实验结果，并对实验结果进行了分析。首先是利用模拟数据来直观比较验证预测结果和真实结果的差异，并利用模拟数据对本发明和当前常用的几组模型进行了对比试验分析，还引入一组消融实验；其次便是使用真实数据来进一步验证本发明在预测空间转录组数据中细胞类型的准确性，并对这组数据进行分辨率的提升，来更好地理解不同组织和细胞在空间上的分布情况。

因空间转录组数据不能达到单细胞分辨率的程度，只有是单细胞分辨率才能更好观测细胞在组织上的信息，有利于生物上的研究；本发明先利用反卷积算法计算出来空间转录组数据中细胞信息捕获点S中细胞类型的占比，再利用得到的细胞类型的占比进行扩增,实现单细胞分辨率的空间转录组数据

以上仅为本发明之较佳实施例，并非用以限定本发明的权利要求保护范围。同时以上说明，对于相关技术领域的技术人员应可以理解及实施，因此其他基于本发明所揭示内容所完成的等同改变，均应包含在本权利要求书的涵盖范围内。

有益成果：本发明提供一种计算机处理采集设备数据的融合方法，已经获得空间转录组数据中每个细胞信息捕获点S的细胞组成信息，然后通过分析获得每个细胞信息捕获点S中的细胞个数，结合这两组信息绘制更高分辨率的空间转录组数据图谱将单细胞信息点作为验证算法的辅助工具，并不直接将单细胞信息点和空间转录组数据进行整合，减少不同批次和平台数据整合带来的实验误差，利用单细胞信息点模拟合成对应的空间转录组数据，使用模拟数据分析本发明预测结果和真实结果的差异，与此同时，本发明对细胞类型组成的时空组织变化，绘制出单细胞分辨率的空间转录组数据图谱。

Claims

1.一种计算机处理采集设备数据的融合方法，其特征在于：包括有步骤一、通过计算机对设备采集几组不同的单细胞信息点和细胞类型构成细胞数据条形码，并对基因数据进行分析验证，并引入一组模拟数据集，以保证分析验证步骤的准确性，模拟数据集事先设定构建空间转录组数据矩阵中每个细胞信息捕获点S的细胞数据条形码，最后得到的分析验证结果便可以直接和真实的设备采集结果进行对比分析；模拟数据集的生成步骤为：选定部分细胞数据条形码建构细胞数据条形码集，并对细胞数据条形码集按需要拆分并建构为生成集矩阵和验证集矩阵，生成集矩阵用来模拟空间转录组数据矩阵，验证集矩阵用于验证后续过程中细胞数据条形码和空间转录组数据矩阵进行整合的结果；

步骤四、开始将细胞信息捕获点S得到细胞数据条形码抽取为单细胞信息点和细胞类型构成，再对单细胞信息点所属的细胞类型使用狄利克雷分布生成调整和未调整之间的比例：将现有的所有细胞类型浓度设置为1，则可以得到每个细胞信息捕获点S中每种细胞类型的细胞个数，并需要将每种细胞类型的细胞个数调整到与细胞信息捕获点S中最接近的整数值，然后开始定义不同细胞类型的密度，利用计算细胞类型比例密度，得到来调整返回迭代得到每个细胞信息捕获点S中最合适的每种细胞类型的单细胞信息点的个数；然后从每种细胞类型中取样得到想要分析的单细胞信息点的总数，并对单细胞信息点的总数取样得到不同细胞类型，通过单细胞信息点的总数和不同细胞类型计算得出第一表达矩阵。

2.根据权利要求1所述的一种计算机处理采集设备数据的融合方法，其特征在于：包括有步骤五、开始第一原始表达矩阵的预处理：从网站下载获得第一原始表达矩阵，第一原始表达矩阵包括有单细胞转录组数据和空间转录组数据矩阵；单细胞转录组数据的构成为第一急需表达矩阵，第一急需表达矩阵由基因数据信息和细胞数据条形码构成，空间转录组数据矩阵的构成为第二急需表达矩阵，第二急需表达矩阵由基因数据信息和细胞信息捕获点S组成；将第一原始表达矩阵导入预处理工具包后，预处理工具包对第一原始表达矩阵进行处理，并统一格式，创建第一原始统一格式对象集；