CN114913923A

CN114913923A - 针对单细胞染色质开放性测序数据的细胞类型识别方法

Info

Publication number: CN114913923A
Application number: CN202210496320.5A
Authority: CN
Inventors: 江瑞; 陈晓阳; 陈盛泉; 闾海荣; 张学工
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-05-09
Filing date: 2022-05-09
Publication date: 2022-08-16

Abstract

本发明提供一种针对单细胞染色质开放性测序数据的细胞类型识别方法、系统、电子设备及存储介质，属于细胞检测技术领域，通过获得有效表征训练集特征的贝叶斯神经网络模型，实现对单细胞染色质开放性数据进行高精度的细胞类型识别。本发明的包含混合高斯模型的叶贝斯神经网络，作为一种概率生成模型，能够生成与真实数据高度吻合、无批次效应的仿真单细胞染色质开放性数据，适用于单细胞染色质开放性测序数据的细胞类型检测的数据仿真场景中。

Description

针对单细胞染色质开放性测序数据的细胞类型识别方法

技术领域

本发明属于细胞检测技术领域，具体涉及一种针对单细胞染色质开放性测序数据的细胞类型识别方法、系统、电子设备及存储介质。

背景技术

在常规状态下，真核生物细胞的核DNA一圈圈缠绕在组蛋白上，形成高度压缩的折叠结构；当细胞需要进行DNA的复制和转录时，DNA的折叠结构会被打开形成染色质开放区域。这些染色质开放区域通常是转录因子结合和基因调控的关键元素，是表观基因组的重要信息之一。获取染色质开放区域的测序方法有许多，例如DNase-seq、MNase-seq和CHIP-seq，但这些方法往往将所有细胞当成一个整体，失去了细胞的异质性信息。近年来，单细胞测序技术的发展使得染色质开放性测序达到了单细胞分辨率的水平，并产生了大量的单细胞染色质开放性测序数据，对于绘制染色质开放图谱、细胞分化发育、疾病致病机制、肿瘤微环境和生物标志物方面的研究有着极大的帮助。

细胞类型辨识是分析单细胞染色质开放性测序数据的首要步骤。现有技术中，针对单细胞数据的细胞类型辨识流程有基于无监督类的手动流程方法和基于监督学习的自动标注流程；细胞类型辨识的准确性评估手段为比较测试集真实标签与预测标签的准确率，常用的评价指标为正确率、Kappa值和F1分数。现有技术中的非监督学习方法和监督学习方法虽然可以应用于单细胞数据的标注流程中，但是仍然存在以下弊端：

1)目前大多数针对单细胞染色质开放性数据的细胞类型标注流程都是基于无监督聚类的手动标注，然后利用生物标志物对每个聚类簇分配到细胞类型；手动注释具有流程繁琐耗时较长，且对标注人员的相关背景知识要求较高，不适于大规模数据标注场景，不利于细胞图谱的构建。

2)现有的自动标注方法针对的是单细胞转录组测序(scRNA-seq)数据，具有应用面较窄，难以直接应用于更高维度、更高稀疏度、无固定特征锚点的scCAS数据场景中。

因此，亟需一种鲁棒的针对单细胞染色质开放性测序数据的细胞类型识别方法。

发明内容

本发明提供一种针对单细胞染色质开放性测序数据的细胞类型识别方法、系统、电子设备以及存储介质，用以克服现有技术中存在的至少一个技术问题。

为实现上述目的，本发明提供一种针对单细胞染色质开放性测序数据的细胞类型识别方法，方法包括：

采集待识别的单细胞染色质开放性数据；

将待识别的单细胞染色质开放性数据进行TF-IDF变换和z-score标准化处理，获得待识别的单细胞染色质开放性数据的数据矩阵；

利用预训练的叶贝斯神经网络，根据所述待识别的单细胞染色质开放性数据的数据矩阵获取单细胞染色质开放性数据的低维表示向量；

利用预训练的隐空间高斯混合模型，根据所述单细胞染色质开放性数据的低维表示向量，获取每个高斯分布对应的细胞类型及识别概率，并形成待识别的细胞类型集合；

在待识别的细胞类型集合中，选择最大的识别概率对应的细胞类型作为待识别的单细胞染色质开放性数据所属的细胞类型。

进一步，优选的，贝叶斯神经网络的预训练的方法，包括，

将标注有细胞类型的单细胞染色质开放性数据设置为训练集，将待标注细胞类型的单细胞染色质开放性数据设置为测试集；

分别对训练集和测试集的单细胞染色质开放性数据进行TF-IDF变换和z-score标准化处理，分别获得训练集和测试集的数据矩阵；

根据细胞类型识别标签和训练集的数据矩阵，利用高斯分布拟合属于同一细胞类型的隐空间向量；对整个隐空间的所有隐空间向量进行聚合并拟合，形成k个高斯分布的混合高斯模型；其中，k为细胞类型的总数量；

通过贝叶斯神经网络，将混合高斯分布的隐空间数据映射到高维原始空间，获得包含高斯混合模型的贝叶斯神经网络；

通过似然函数，获得高斯混合模型的各模型参数的条件后验分布；

设定高斯混合模型的各模型参数的初始值，根据各模型参数对应的各模型参数的条件后验分布，对训练集的数据矩阵样本进行采样，获得各模型参数对应的细胞类型及属于细胞类型的概率；

利用变分推断方法，对包含高斯混合模型的贝叶斯神经网络参数进行反向传播，进而确定高斯混合模型和贝叶斯神经网络的参数值；

利用测试集对训练完成的贝叶斯神经网络进行测试；

完成包含高斯混合模型的贝叶斯神经网络的训练。

进一步，优选的，在分别对训练集和测试集的单细胞染色质开放性数据进行TF-IDF变换和z-score标准化处理之前，还包括对训练集和测试集的单细胞染色质开放性数据进行筛选，方法包括，

获取测试集和训练集共有的单细胞染色质开放区域；

按照单细胞染色质开放区域占比超过训练集3％细胞数量的标准，对训练集和测试集进行筛选。

进一步，优选的，通过似然函数，获得高斯混合模型的各模型参数的条件后验分布的方法，包括，

利用近似分布对高斯混合模型的各模型参数的后验概率进行拟合，获得高斯混合模型的各模型参数的拟合高斯分布；

根据平行场定理，获得高斯混合模型的各模型参数的似然函数；

通过最小化高斯混合模型的各模型参数的拟合高斯分布与标准高斯分布之间的KL散度，使似然函数获取最大化的证据下界；

即获得高斯混合模型的各模型参数的条件后验分布。

进一步，优选的，高斯混合模型的各模型参数在高维原始空间的高斯分布如下：

其中，

表示第k个细胞类型的第i个细胞生成的高斯混合模型的第k个高斯分布；σ²表示方差变量；

为

的贝叶斯神经网络；

W表示贝叶斯神经网络的权重；

η表示贝叶斯神经网络的偏置；

Leaky_relu表示激活函数；p表示染色质开放性区域数量；

另，方差变量σ²与对角矩阵T的对角线元素均服从参数为1和1的inverse-Gamma先验；隐空间均值μ_k中的元素、神经网络权重W中的元素、偏置项η中的元素均服从标准正态分布先验。

进一步，优选的，在待识别的细胞类型集合中，若最大的识别的概率对应的细胞类型为多个，则获取各个细胞类型对应的识别概率均值；

筛选最大的识别概率均值对应的细胞类型作为待识别的单细胞染色质开放性数据所属的细胞类型。

进一步，优选的，还包括，对待识别的单细胞染色质开放性数据所属的细胞类型进行筛选的步骤；包括，

获取细胞类型的设定次数的预测概率的均值；

利用预测概率阈值对所获取的预测概率的均值进行判定；

对于所获取的预测概率的均值小于预测概率阈值的细胞类型，进行驳回处理。

为了解决上述问题，本发明还提供一种针对单细胞染色质开放性测序数据的细胞类型识别系统，包括：采集单元，用于采集待识别的单细胞染色质开放性数据；

细胞类型集合获取单元，用于将待识别的单细胞染色质开放性数据进行TF-IDF变换和z-score标准化处理，获得待识别的单细胞染色质开放性数据的数据矩阵；

细胞类型识别单元，用于在待识别的细胞类型集合中，选择最大的识别概率对应的细胞类型作为待识别的单细胞染色质开放性数据所属的细胞类型。

为了解决上述问题，本发明还提供一种电子设备，电子设备包括：

存储器，存储至少一个指令；及

处理器，执行存储器中存储的指令以实现上述的针对单细胞染色质开放性测序数据的细胞类型识别方法中的步骤。

本发明还保护一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现如上述的针对单细胞染色质开放性测序数据的细胞类型识别方法。

本发明的一种针对单细胞染色质开放性测序数据的细胞类型识别方法、系统、电子设备以及存储介质，通过获得有效表征训练集特征的贝叶斯神经网络模型，实现对单细胞染色质开放性数据进行高精度的细胞类型识别。具有有益效果如下：

1)利用训练好的叶贝斯神经网络的参数，获取单细胞染色质开放性数据的低维表示向量；低维向量表示可以适用于数据可视化场景中；

2)通过监督学习后，可以提取细胞类型特异的染色质开放区域，极大促进了基因富集分析、分块遗传学分析、增强子识别、染色质共可及性分析及信号通路分析，对单细胞染色质开放性数据的下游分析起到了不可或缺的作用。而且，实现了预测的标签与染色质开放性数据进行协同分析，进行模体富集，适用于发现与细胞类型特异的基序的场景中；

3)本发明的包含混合高斯模型的叶贝斯神经网络，作为一种概率生成模型，适用于数据仿真场景中，能够生成与真实数据高度吻合、无批次效应的仿真单细胞染色质开放性数据。

附图说明

图1为根据本发明实施例的针对单细胞染色质开放性测序数据的细胞类型识别方法的流程示意图；

图2为根据本发明实施例的针对单细胞染色质开放性测序数据的细胞类型识别方法的原理示意图；

图3为根据本发明实施例的针对单细胞染色质开放性测序数据的细胞类型识别系统的逻辑结构框图；

图4根据本发明实施例的针对单细胞染色质开放性测序数据的细胞类型识别方法的电子设备的内部结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本申请实施例可以基于人工智能中的计算机视觉技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

具体的，作为示例，图1为本发明一实施例提供的针对单细胞染色质开放性测序数据的细胞类型识别方法的流程示意图。参照图1所示，本发明提供一种针对单细胞染色质开放性测序数据的细胞类型识别方法，该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。针对单细胞染色质开放性测序数据的细胞类型识别方法包括步骤S110～S150。

具体地说，S110、采集待识别的单细胞染色质开放性数据；S120、将待识别的单细胞染色质开放性数据进行TF-IDF变换和z-score标准化处理，获得待识别的单细胞染色质开放性数据的数据矩阵；S130、利用预训练的叶贝斯神经网络，根据所述待识别的单细胞染色质开放性数据的数据矩阵获取单细胞染色质开放性数据的低维表示向量；S140、利用预训练的隐空间高斯混合模型，根据所述单细胞染色质开放性数据的低维表示向量，获取每个高斯分布对应的细胞类型及识别概率，并形成待识别的细胞类型集合；S150、在待识别的细胞类型集合中，选择最大的识别概率对应的细胞类型作为待识别的单细胞染色质开放性数据所属的细胞类型。

图2为根据本发明实施例的针对单细胞染色质开放性测序数据的细胞类型识别方法的原理示意图；如图2所示，针对现有技术中手动注释具有流程繁琐耗时较长，且对标注人员的相关背景知识要求较高，不适于大规模数据标注场景，不利于细胞图片的构建等问题。本发明的针对单细胞染色质开放性测序数据的细胞类型识别方法包括三个环节：1、生成式模型训练；2、细胞类型辨识；3、应用场景。

具体地说，对于生成式模型训练环节而言，首先，将标注有细胞类型的单细胞染色质开放性数据设置为训练集；对训练集的单细胞染色质开放性数据依次进行特征选择、测序深度标准化及对数变换和z-score标准化，获得训练集的样本矩阵；也就是对于测序深度较低的细胞、开放程度不够的染色质区域进行筛除，并将离散的单细胞染色质开放性数据矩阵连续化。其次，采用高斯混合分布和单层贝叶斯神经网络对于训练集的样本矩阵和标签向量进行拟合，获得低维隐空间的属于各个细胞类型的隐空间向量；利用贝叶斯神经网络对整个低维隐空间的所有隐空间向量进行聚合并拟合，形成混合高斯模型的k个高斯分布；也就是说，本模型采用概率生成式结构，总体分为隐空间的混合高斯分布和将隐空间数据映射到高维原始数据空间的贝叶斯神经网络两部分。另外，需要说明的是，在模型训练的过程中，既有包含有标注有细胞类型的单细胞染色质开放性数据训练集数据又有不包含细胞类型的单细胞染色质开放性数据测试集数据。利用训练集数据对模型进行训练，利用测试集数据对模型进行测试。

对于细胞类型辨识环节而言；利用训练好的贝叶斯神经网络对未知细胞类型的单细胞染色质开放性数据进行细胞类型的辨识。首先，将未知细胞类型的单细胞染色质开放性数据输入训练好的贝叶斯神经网络，获取单细胞染色质开放性数据的在低维隐空间的低维表示向量；然后将低维隐空间的低维表示向量映射到高维原始数据空间中，获得混合高斯模型中的多个高斯分布。最后，根据预先设定的筛选规则，确定待识别的单细胞染色质开放性数据所属的细胞类型。

对于应用场景而言，利用训练好的叶贝斯神经网络的参数，获取单细胞染色质开放性数据的低维表示向量；低维向量表示适用于数据可视化场景中；利用贝叶斯神经网络及高斯混合分布，充分提取训练集有细胞类型标签数据的信息，对未标注的单细胞染色质开放性测序数据进行细胞类型自动标注，适用于细胞类型识别的场景中，进而适应用于细胞图谱的构建的场景中；另外，本发明是监督学习模型，其预测的标签与染色质开放性数据可以进行协同分析，进行模体富集，用于发现与细胞类型特异的基因序列；适用于差异基因富集场景中；最后，因为本发明的贝叶斯神经网络是生成式概率图模型，在经过真实数据训练后，可以仿真生成模拟的单细胞染色质开放性数据，帮助开发更多的基于单细胞染色质开放性测序数据的分析方法，并且可以从样本数量的角度对原始数据进行数据增强，可以应用于数据仿真场景中。

在具体的实施过程中S110、采集待识别的单细胞染色质开放性数据。

S120、将待识别的单细胞染色质开放性数据进行TF-IDF变换和z-score标准化处理，获得待识别的单细胞染色质开放性数据的数据矩阵。

TF-IDF(term frequency–inverse document frequency，词频-逆向文件频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。

在分别对训练集和测试集的单细胞染色质开放性数据进行TF-IDF变换和z-score标准化处理之前，还包括对训练集和测试集的单细胞染色质开放性数据进行筛选，方法包括，获取测试集和训练集共有的单细胞染色质开放区域；按照单细胞染色质开放区域占比超过训练集3％细胞数量的标准，对训练集和测试集进行筛选。

也就是说，对于单细胞染色质开放性数据，将有细胞类型标注的数据设置为训练集，将待标注细胞类型的数据集设置为测试集。首先要进行数据清洗和预处理。将测试集与训练集特征统一，即取二者共有的染色质开放片段，而后筛选出在训练集超过3％的细胞都开放的区域，并分别对训练集和测试集样本进行TF-IDF变换和z-score标准化处理，分别获得连续的、特征标准化的训练集和测试集的数据矩阵。

S130、利用预训练的叶贝斯神经网络，根据所述待识别的单细胞染色质开放性数据的数据矩阵获取单细胞染色质开放性数据的低维表示向量。

利用训练好的模型，对于处理好的测试集数据进行细胞类型预测。首先，对于样本/细胞

首先做激活函数的逆运算；其次，减去神经网络的偏置项η得到t′。第三，计算神经网络权重W的广义逆，并计算得到低维表示g＝W⁺t′。

其中，激活函数的逆运算通过以下公式实现：

具体地说，贝叶斯神经网络的预训练的方法，包括步骤S131-S138。

S131、将标注有细胞类型的单细胞染色质开放性数据设置为训练集，将待标注细胞类型的单细胞染色质开放性数据设置为测试集；S132、分别对训练集和测试集的单细胞染色质开放性数据进行TF-IDF变换和z-score标准化处理，分别获得训练集和测试集的数据矩阵。

S133、根据细胞类型识别标签和训练集的数据矩阵，利用高斯分布拟合属于同一细胞类型的隐空间向量；对整个隐空间的所有隐空间向量进行聚合并拟合，形成k个高斯分布的混合高斯模型；其中，k为细胞类型的总数量。

需要说明的是，参数服从分布的神经网络是参数服从分布的机器学习模型中的一种。具体而言，传统的神经网络的参数(如前文中提及的神经元的权重)为固定值。但是，这种类型的神经网络存在过拟合的问题，即这种类型的神经网络在训练数据缺失的区域往往给出过于自信的预测，无法对预测结果的不确定性进行准确度量。

相比参数为固定值的神经网络，贝叶斯神经网络的参数即为服从某种分布的随机变量，如服从高斯分布的随机变量。参数服从概率分布的神经网络的训练过程并非希望得到参数的固定值，而是旨在优化参数的概率分布。在训练完成后，可以对参数的分布进行采样，每个采样值可以对应一个参数为固定值的神经网络。如果采样得到的大量神经网络对某个输入的预测是相似的，则可以认为该神经网络对该输入对应的预测有较小的不确定度，否则该神经网络对输入对应的预测的不确定度较大。通过这样的方式，这种参数服从概率分布的神经网络可以表征由于数据缺失带来的预测的不确定性，从而避免过拟合的问题。

参数服从概率分布的机器学习模型的训练问题可以看成是基于贝叶斯公式，对参数的概率分布的估计问题。在贝叶斯公式中，先验分布、后验分布和似然估计是三个重要的概念。参数的先验分布是对后验分布的预先假设，也就是说，参数的先验分布指的是在未观测到训练数据之前对参数的后验分布的假设。参数的先验分布可以由人工指定，也可以通过数据学习得到。相对而言，参数的后验分布是在观测到训练数据之后，对参数的分布的描述。换句话说，参数的后验分布是在已知训练数据的条件下，对参数的分布的描述。根据贝叶斯公式，参数的先验分布、后验分布和似然估计之间满足如下关系：后验分布＝(先验分布×似然估计)/训练数据出现的概率。

在具体的实施过程中，假设训练集中预处理后的单细胞染色质开放性数据的数据矩阵为

细胞类型标签为

其中，p表示染色质开放性区域数量，即特征；n表示样本数量。

对于第k个细胞类型的第i个细胞，其是由隐空间高斯混合分布(即混合高斯模型)的第k个多元高斯分布生成，即

其中，

表示第k个细胞类型的第i个细胞生成的高斯混合模型的第k个高斯分布；向量μ_k表示第k个多元正态分布的均值，与第k个细胞类型相对应；而对角矩阵T表示多元高斯分布的方差，不同细胞类型的隐空间方差相同。

S134、通过贝叶斯神经网络，将混合高斯分布的隐空间数据映射到高维原始空间，获得包含高斯混合模型的贝叶斯神经网络。

通过贝叶斯神经网络映射到高维原始空间，通过以下公式实现：

其中，W表示贝叶斯神经网络的权重；

η表示贝叶斯神经网络的偏置；

Leaky_relu表示激活函数；具体地说，激活函数通过以下公式实现：

其中，δ取0.5。

S135、通过似然函数，获得高斯混合模型的各模型参数的条件后验分布。

利用近似分布对高斯混合模型的各模型参数的后验概率进行拟合，获得高斯混合模型的各模型参数的拟合高斯分布；根据平行场定理，获得高斯混合模型的各模型参数的似然函数；通过最小化高斯混合模型的各模型参数的拟合高斯分布与标准高斯分布之间的KL散度，使似然函数获取最大化的证据下界；即获得高斯混合模型的各模型参数的条件后验分布。

具体地说，高斯混合模型的各模型参数在高维原始空间的高斯分布如下：

其中，

为

的贝叶斯神经网络；另，方差变量σ²与对角矩阵T的对角线元素均服从参数为1和1的inverse-Gamma先验；隐空间均值μ_k中的元素、神经网络权重W中的元素、偏置项P中的元素均服从标准正态分布先验。

作为贝叶斯框架的模型，参数求解即计算后验概率P(Θ|X,Y)，其中Θ＝(z,μ,T,W,η,σ)，即所有待求解参数。因为需要求解复杂的多维积分，直接求解后验概率是无法计算的。本发明通过采用一个近似分布Q(Θ)进行拟合，并利用平行场定理求解，即各参数间相互独立，即Q(Θ)＝∏_tQ_t(θ_t)。则似然函数可写为

其中，

表示似然函数的证据下界(ELBO)。

需要说明的是，KL散度(KL divergence)，用于衡量不同分布之间的差异。而最小化Kullback-Leibler散度等价于最大化似然函数。也就是说，由于

因此最大化

即最小化KL散度通过以下公式实现

S136、设定高斯混合模型的各模型参数的初始值，根据各模型参数对应的各模型参数的条件后验分布，对训练集的数据矩阵样本进行采样，获得各模型参数对应的细胞类型及属于细胞类型的概率。S137、利用变分推断方法，对包含高斯混合模型的贝叶斯神经网络参数进行反向传播，进而确定高斯混合模型和贝叶斯神经网络的参数值；S138、利用测试集对训练完成的贝叶斯神经网络进行测试；完成包含高斯混合模型的贝叶斯神经网络的训练。

具体地说，对于本发明的贝叶斯神经网络，采用TensorFlow Probability算法包，使用Adam优化器，学习率为0.15。Adam是一种可以替代传统随机梯度下降(SGD)过程的一阶优化算法，能基于训练数据迭代地更新神经网络权重。

S140、利用预训练的隐空间高斯混合模型，根据所述单细胞染色质开放性数据的低维表示向量，获取每个高斯分布对应的细胞类型及识别概率，并形成待识别的细胞类型集合。

也就是，再根据隐空间高斯分布参数μ_k与T可得其属于每一个高斯分布的概率。

S150、在待识别的细胞类型集合中，选择最大的识别概率对应的细胞类型作为待识别的单细胞染色质开放性数据所属的细胞类型。

作为本实施例的改进，在待识别的细胞类型集合中，若最大的识别的概率对应的细胞类型为多个，则获取各个细胞类型对应的识别概率均值；筛选最大的识别概率均值对应的细胞类型作为待识别的单细胞染色质开放性数据所属的细胞类型。

作为本实施例的进一步改进，还包括，对待识别的单细胞染色质开放性数据所属的细胞类型进行筛选的步骤；包括，获取细胞类型的设定次数的预测概率的均值；利用预测概率阈值对所获取的预测概率的均值进行判定；对于所获取的预测概率的均值小于预测概率阈值的细胞类型，进行驳回处理。

需要说明的是，对于设定次数以及预测概率阈值，根据实际需要进行设定。

在具体的实施过程中，本发明的贝叶斯神经网络模型识别细胞类型遵循以下步骤：1)随机从训练阶段的最后1000个轮次中挑选出10个模型参数；2)记录下这10次预测概率最高的细胞类型及其识别概率；3)如果这10次预测结果中，仅有1个细胞类型出现频次最高，则该细胞类型为最后的细胞类型的识别结果；4)如果有多个细胞类型出现频率相同，则比较步骤2)中与这些细胞类型相关的预测概率均值，均值高的细胞类型则为最终识别结果；5)取该细胞类型10次预测概率的均值，作为预测概率，如果这个概率低于0.7，则模型拒绝预测细胞类型。

综上，本发明的一种针对单细胞染色质开放性测序数据的细胞类型识别方法，通过监督学习后，可以提取细胞类型特异的染色质开放区域，极大促进了基因富集分析、分块遗传学分析、增强子识别、染色质共可及性分析及信号通路分析，对单细胞染色质开放性数据的下游分析起到了不可或缺的作用。而且，实现了预测的标签与染色质开放性数据进行协同分析，进行模体富集，适用于发现与细胞类型特异的基序的场景中。本发明的包含混合高斯模型的叶贝斯神经网络，作为一种概率生成模型，适用于数据仿真场景中，能够生成与真实数据高度吻合、无批次效应的仿真单细胞染色质开放性数据。

与上述针对单细胞染色质开放性测序数据的细胞类型识别方法相对应，本发明还提供一种针对单细胞染色质开放性测序数据的细胞类型识别系统。图3示出了根据本发明实施例的针对单细胞染色质开放性测序数据的细胞类型识别系统的功能模块。

如图3所示，本发明提供的针对单细胞染色质开放性测序数据的细胞类型识别系统300可以安装于电子设备中。根据实现的功能，所述针对单细胞染色质开放性测序数据的细胞类型识别系统300可以包括采集单元310、细胞类型集合获取单元320和细胞类型识别单元330。本发明所述单元也可以称之为模块，指的是一种能够被电子设备的处理器所执行，并且能够完成某一固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块/单元的功能如下：

采集单元310，用于采集待识别的单细胞染色质开放性数据。

细胞类型集合获取单元320，用于将待识别的单细胞染色质开放性数据进行TF-IDF变换和z-score标准化处理，获得待识别的单细胞染色质开放性数据的数据矩阵；利用预训练的叶贝斯神经网络，根据所述待识别的单细胞染色质开放性数据的数据矩阵获取单细胞染色质开放性数据的低维表示向量；利用预训练的隐空间高斯混合模型，根据所述单细胞染色质开放性数据的低维表示向量，获取每个高斯分布对应的细胞类型及识别概率，并形成待识别的细胞类型集合。

细胞类型识别单元330，用于在待识别的细胞类型集合中，选择最大的识别概率对应的细胞类型作为待识别的单细胞染色质开放性数据所属的细胞类型。

本发明所提供的上述针对单细胞染色质开放性测序数据的细胞类型识别系统的更为具体的实现方式，均可以参照上述对针对单细胞染色质开放性测序数据的细胞类型识别方法的实施例表述，在此不再一一列举。

本发明所提供的上述针对单细胞染色质开放性测序数据的细胞类型识别系统，通过监督学习后，可以提取细胞类型特异的染色质开放区域，极大促进了基因富集分析、分块遗传学分析、增强子识别、染色质共可及性分析及信号通路分析，对单细胞染色质开放性数据的下游分析起到了不可或缺的作用。而且，实现了预测的标签与染色质开放性数据进行协同分析，进行模体富集，适用于发现与细胞类型特异的基序的场景中。本发明的包含混合高斯模型的叶贝斯神经网络，作为一种概率生成模型，适用于数据仿真场景中，能够生成与真实数据高度吻合、无批次效应的仿真单细胞染色质开放性数据。

如图4所示，本发明提供一种针对单细胞染色质开放性测序数据的细胞类型识别方法的电子设备4。

该电子设备4可以包括处理器40、存储器41和总线，还可以包括存储在存储器41中并可在所述处理器40上运行的计算机程序，如针对单细胞染色质开放性测序数据的细胞类型识别程序42。

其中，所述存储器41至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器41在一些实施例中可以是电子设备4的内部存储单元，例如该电子设备4的移动硬盘。所述存储器41在另一些实施例中也可以是电子设备4的外部存储设备，例如电子设备4上配备的插接式移动硬盘、智能存储卡(Smart Media Card，SMC)、安全数字(SecureDigital，SD)卡、闪存卡(Flash Card)等。进一步地，所述存储器41还可以既包括电子设备4的内部存储单元也包括外部存储设备。所述存储器41不仅可以用于存储安装于电子设备4的应用软件及各类数据，例如针对单细胞染色质开放性测序数据的细胞类型识别程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器40在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器40是所述电子设备的控制核心(Control Unit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器41内的程序或者模块(例如针对单细胞染色质开放性测序数据的细胞类型识别程序等)，以及调用存储在所述存储器41内的数据，以执行电子设备4的各种功能和处理数据。

所述总线可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extended industry standard architecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器41以及至少一个处理器40等之间的连接通信。

图4仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图4示出的结构并不构成对所述电子设备4的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管未示出，所述电子设备4还可以包括给各个部件供电的电源(比如电池)，优选地，电源可以通过电源管理装置与所述至少一个处理器40逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备4还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

进一步地，所述电子设备4还可以包括网络接口，可选地，所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等)，通常用于在该电子设备4与其他电子设备之间建立通信连接。

可选地，该电子设备4还可以包括用户接口，用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard))，可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备4中处理的信息以及用于显示可视化的用户界面。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

所述电子设备4中的所述存储器41存储的针对单细胞染色质开放性测序数据的细胞类型识别程序42是多个指令的组合，在所述处理器40中运行时，可以实现：S110、采集待识别的单细胞染色质开放性数据；S120、将待识别的单细胞染色质开放性数据进行TF-IDF变换和z-score标准化处理，获得待识别的单细胞染色质开放性数据的数据矩阵；S130、利用预训练的叶贝斯神经网络，根据所述待识别的单细胞染色质开放性数据的数据矩阵获取单细胞染色质开放性数据的低维表示向量；S140、利用预训练的隐空间高斯混合模型，根据所述单细胞染色质开放性数据的低维表示向量，获取每个高斯分布对应的细胞类型及识别概率，并形成待识别的细胞类型集合；S150、在待识别的细胞类型集合中，选择最大的识别概率对应的细胞类型作为待识别的单细胞染色质开放性数据所属的细胞类型。

具体地，所述处理器40对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。需要强调的是，为进一步保证上述针对单细胞染色质开放性测序数据的细胞类型识别程序的私密和安全性，上述针对单细胞染色质开放性测序数据的细胞类型识别程序存储于本服务器集群所处区块链的节点中。

进一步地，所述电子设备4集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

本发明实施例还提供一种计算机可读存储介质，所述存储介质可以是非易失性的，也可以是易失性的，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现：S110、采集待识别的单细胞染色质开放性数据；S120、将待识别的单细胞染色质开放性数据进行TF-IDF变换和z-score标准化处理，获得待识别的单细胞染色质开放性数据的数据矩阵；S130、利用预训练的叶贝斯神经网络，根据所述待识别的单细胞染色质开放性数据的数据矩阵获取单细胞染色质开放性数据的低维表示向量；S140、利用预训练的隐空间高斯混合模型，根据所述单细胞染色质开放性数据的低维表示向量，获取每个高斯分布对应的细胞类型及识别概率，并形成待识别的细胞类型集合；S150、在待识别的细胞类型集合中，选择最大的识别概率对应的细胞类型作为待识别的单细胞染色质开放性数据所属的细胞类型。

具体地，所述计算机程序被处理器执行时具体实现方法可参考实施例针对单细胞染色质开放性测序数据的细胞类型识别方法中相关步骤的描述，在此不赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等，区块链可以存储医疗数据，如个人健康档案、厨房、检查报告等。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种针对单细胞染色质开放性测序数据的细胞类型识别方法，其特征在于，包括：

采集待识别的单细胞染色质开放性数据；

将所述待识别的单细胞染色质开放性数据进行TF-IDF变换和z-score标准化处理，获得待识别的单细胞染色质开放性数据的数据矩阵；

在所述待识别的细胞类型集合中，选择最大的识别概率对应的细胞类型作为所述待识别的单细胞染色质开放性数据所属的细胞类型。

2.如权利要求1所述的针对单细胞染色质开放性测序数据的细胞类型识别方法，其特征在于，所述贝叶斯神经网络的预训练的方法，包括，

分别对所述训练集和测试集的单细胞染色质开放性数据进行TF-IDF变换和z-score标准化处理，分别获得训练集和测试集的数据矩阵；

根据细胞类型识别标签和训练集的数据矩阵，利用高斯分布拟合属于同一细胞类型的隐空间向量；对整个隐空间的所有隐空间向量进行聚合并拟合，形成k个高斯分布的混合高斯模型；其中，所述k为细胞类型的总数量；

通过似然函数，获得所述高斯混合模型的各模型参数的条件后验分布；

设定所述高斯混合模型的各模型参数的初始值，根据各模型参数对应的各模型参数的条件后验分布，对训练集的数据矩阵样本进行采样，获得各模型参数对应的细胞类型及属于所述细胞类型的概率；

利用变分推断方法，对包含高斯混合模型的贝叶斯神经网络参数进行反向传播，进而确定所述高斯混合模型和贝叶斯神经网络的参数值；

利用所述测试集对训练完成的贝叶斯神经网络进行测试；

完成包含高斯混合模型的贝叶斯神经网络的训练。

3.如权利要求2所述的针对单细胞染色质开放性测序数据的细胞类型识别方法，其特征在于，在分别对所述训练集和测试集的单细胞染色质开放性数据进行TF-IDF变换和z-score标准化处理之前，还包括对所述训练集和测试集的单细胞染色质开放性数据进行筛选，方法包括，

获取所述测试集和所述训练集共有的单细胞染色质开放区域；

按照单细胞染色质开放区域占比超过训练集3％细胞数量的标准，对所述训练集和所述测试集进行筛选。

4.如权利要求2所述的针对单细胞染色质开放性测序数据的细胞类型识别方法，其特征在于，通过似然函数，获得所述高斯混合模型的各模型参数的条件后验分布的方法，包括，

利用近似分布对所述高斯混合模型的各模型参数的后验概率进行拟合，获得所述高斯混合模型的各模型参数的拟合高斯分布；

根据平行场定理，获得所述高斯混合模型的各模型参数的似然函数；

通过最小化所述高斯混合模型的各模型参数的拟合高斯分布与标准高斯分布之间的KL散度，使所述似然函数获取最大化的证据下界；

即获得所述高斯混合模型的各模型参数的条件后验分布。

5.如权利要求1中所述的针对单细胞染色质开放性测序数据的细胞类型识别方法，其特征在于，所述高斯混合模型的各模型参数在高维原始空间的高斯分布如下：

其中，

为

的贝叶斯神经网络；

W表示贝叶斯神经网络的权重；

η表示贝叶斯神经网络的偏置；

Leaky_relu表示激活函数；p表示染色质开放性区域数量；

6.如权利要求1中所述的针对单细胞染色质开放性测序数据的细胞类型识别方法，其特征在于，在所述待识别的细胞类型集合中，若最大的识别的概率对应的细胞类型为多个，则获取各个细胞类型对应的识别概率均值；

筛选最大的识别概率均值对应的细胞类型作为所述待识别的单细胞染色质开放性数据所属的细胞类型。

7.如权利要求6中所述的针对单细胞染色质开放性测序数据的细胞类型识别方法，其特征在于，还包括，对所述待识别的单细胞染色质开放性数据所属的细胞类型进行筛选的步骤；包括，

获取所述细胞类型的设定次数的预测概率的均值；

利用预测概率阈值对所获取的所述预测概率的均值进行判定；

对于所获取所述预测概率的均值小于预测概率阈值的细胞类型，进行驳回处理。

8.一种针对单细胞染色质开放性测序数据的细胞类型识别系统，其特征在于，包括：

采集单元，用于采集待识别的单细胞染色质开放性数据；

细胞类型集合获取单元，用于将所述待识别的单细胞染色质开放性数据进行TF-IDF变换和z-score标准化处理，获得待识别的单细胞染色质开放性数据的数据矩阵；

细胞类型识别单元，用于在所述待识别的细胞类型集合中，选择最大的识别概率对应的细胞类型作为所述待识别的单细胞染色质开放性数据所属的细胞类型。

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一所述的针对单细胞染色质开放性测序数据的细胞类型识别方法中的步骤。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一所述的针对单细胞染色质开放性测序数据的细胞类型识别方法。