CN118280446B

CN118280446B - 植物单细胞非编码基因鉴定和功能预测方法、装置及应用

Info

Publication number: CN118280446B
Application number: CN202410697848.8A
Authority: CN
Inventors: 褚琴洁; 许继伟; 胡煜蓉; 樊龙江; 叶楚玉
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2024-05-31
Filing date: 2024-05-31
Publication date: 2024-08-13
Anticipated expiration: 2044-05-31
Also published as: CN118280446A

Abstract

本申请提出了一种植物单细胞长非编码基因鉴定和功能预测方法、装置及其应用，涉及测序数据预处理、长非编码RNA筛选、“基因‑细胞”表达矩阵的获得至细胞类型特异性长非编码RNA鉴定，及基于共表达网络的功能预测。运用FastQC、Trim Galore（或其他同类型软件）确保数据质量，结合基因组比对策略精确定位和定量长非编码RNA。通过hdWGCNA R包（或其他同类型软件）构建基因调控网络，识别关键基因与顺式调控关系，全面预测长非编码RNA功能，促进植物基因调控研究。

Description

植物单细胞非编码基因鉴定和功能预测方法、装置及应用

技术领域

本申请涉及生物技术领域，特别是一种涉及植物单细胞非编码基因鉴定和功能预测方法、装置及应用。

背景技术

在植物分子生物学中，单细胞转录组学作为一项革命性技术，极大地推进了我们对细胞异质性和复杂生命过程的理解。近年来，该技术的应用已广泛渗透到蛋白质编码基因的表达分析中，为解析细胞类型特异性转录图谱提供了前所未有的精确度。然而，尽管这些进展显著，现有研究大多聚焦于编码蛋白质的基因，忽略了非编码基因（即产生非编码RNA的基因位点），特别是长非编码RNA（lncRNA）这一庞大而功能多样的分子类别，导致我们对植物基因调控网络的全面理解尚存巨大空白。

非编码RNA（ncRNA），尤其是长非编码RNA，是基因组中不直接参与蛋白质合成的RNA分子，它们在基因表达调控、染色质修饰、RNA剪接及多种细胞生命活动过程中扮演关键角色。长非编码RNA根据其在基因组上的位置又可分为内含子lncRNA（产生于编码基因的内含子区域）、反义lncRNA（产生于编码基因的反义链）、基因间区lncRNA（即lincRNA，产生于两个编码基因的中间区域）。植物长非编码RNA的丰富多样性提示它们可能参与调控广泛的生物学过程，如生长发育、逆境应答及代谢调节等。然而，由于技术限制和分析方法的不足，长非编码RNA的细胞类型特异性表达模式及其具体功能仍大多未知，这成为了当前研究的一大瓶颈。

传统的转录组学研究通常依赖于混合细胞群体的RNA测序数据，这种方法虽然能够提供基因表达的总体概况，但难以精确区分不同细胞类型中的转录本表达差异，尤其是对于低丰度的长非编码RNA。因此，针对特定细胞类型中长非编码RNA的系统性鉴定和功能预测成为迫切需求。

随着单细胞RNA测序技术（scRNA-seq）的迅速发展与广泛应用，它为解决上述问题提供了可能。scRNA-seq允许研究人员在单细胞水平上解析转录组，从而精准捕捉到细胞间转录表达的细微差异，这对于揭示长非编码RNA的细胞类型特异性表达模式至关重要。然而，如何有效利用scRNA-seq数据，开发出一套标准化流程来系统地鉴定植物细胞中特异表达的长非编码RNA，并进一步预测其功能，仍然是一个未被充分探索的技术挑战。

综上所述，鉴于长非编码RNA在植物生物学中的潜在重要作用及其表达特征的复杂性，结合scRNA-seq技术的最新进展，开发一种高效、系统的植物细胞类型特异表达的长非编码RNA鉴定方法及其功能预测策略，不仅将填补现有研究空白，也将极大推动植物基因调控机制的研究，为农作物改良、植物遗传工程及生物技术应用提供新的理论基础和实践工具。

发明内容

本申请实施例提供了一种植物单细胞长非编码基因鉴定和功能预测方法、装置及其应用，针对目前技术存在技术空白等问题。

本发明核心技术主要是一种综合策略，高效鉴定植物单细胞长非编码基因并预测其功能，融合了高质量数据预处理、精准基因组定位、细胞类型特异性分析及基因共表达网络构建，推动植物基因调控机制的深入探索。

第一方面，本申请提供了一种植物单细胞长非编码基因鉴定方法，所述方法包括以下步骤：

S00、对测序数据进行预处理，以去除低质量碱基和接头序列；

其中，测序数据至少包括植物单细胞转录组测序数据；

S10、收录植物长非编码RNA相关数据库中的序列信息，并根据已知的长非编码RNA序列信息，通过与参考基因组比对，以确定其在对应基因组上的具体位置，得到第一转录本序列信息；

S20、将植物单细胞转录组测序数据与参考基因组比对，再进行转录本拼接，得到第二转录本序列信息；

其中，植物单细胞转录组测序数据不区分细胞，以当作普通转录组测序数据处理；

S30、根据第一转录本序列信息、第二转录本序列信息，筛选满足预设条件的长非编码RNA候选；

S40、将蛋白编码基因信息和筛选得到的长非编码RNA候选整合为基因组注释文件，并结合该基因组注释文件与测序数据的基因组比对结果文件分析获得“基因-细胞”表达矩阵；

S50、基于同物种不同样本的“基因-细胞”表达矩阵，对不同单细胞转录组数据进行整合；

其中，若只有一个样本或者重复，则不进行整合；

S60、基于整合的单细胞转录组数据，进行主成分分析、细胞聚类以及细胞簇可视化；

S70、根据已知的细胞类型标记基因，对细胞簇进行细胞类型注释；

S80、通过第一预设函数鉴定细胞类型表达特异的基因，包括编码基因和长非编码RNA，以得到鉴定结果。

进一步地，S30步骤中，预设条件包括：

转录本位置在基因间区，并且与最近的编码基因相差至少500bp；

转录本长度大于200bp；

开放阅读框小于100aa；

经过预测无编码蛋白质潜能；

与Rfam数据库的管家非编码RNA没有交集；

未包含Pfam数据库中已知的蛋白功能域。

进一步地，S00步骤中，通过FastQC软件对测序数据进行质量检查，并通过TrimGalore去除低质量碱基和接头序列。

第二方面，本申请提供了一种植物单细胞长非编码基因的功能预测方法，包括以下步骤：

S90、基于上述的一种植物单细胞长非编码基因鉴定方法中的整合的单细胞转录组数据，来构建基因共表达调控网络；

S100、通过第二预设函数产生整合的模块特征基因，并结合第三预设函数计算每个基因对于模块特征基因之间的相关性，以获得kME值；

其中，kME值大于阈值的基因即为关键基因，关键基因包括长非编码RNA和编码基因；

S110、基于基因共表达调控网络中的元细胞表达矩阵，计算矩阵中所有长非编码RNA与编码基因对之间的皮尔逊相关系数，并且结合基因组上对应的长非编码RNA和编码基因之间的距离，以判定长非编码RNA和编码基因之间的顺式调控关系；

S120、整合长非编码RNA相关信息，具体包括作为细胞类型的标记基因、共表达模块中的关键长非编码RNA、与邻近编码基因之间的顺式调控，来综合预测长非编码RNA的潜在功能；

其中，对于任何一个长非编码RNA，相关信息的数量与作为功能性RNA分子的可能性正相关。

进一步地，S90步骤中，利用R包hdWGCNA基于单细胞转录组数据构建基因共表达调控网络。

进一步地，S90步骤中，利用MetacellsByGroups函数构建元细胞表达矩阵，利用TestSoftPowers函数对不同阈值进行参数扫描，以帮助在构建共表达网络时选择适当的阈值，利用ConstructNetwork函数构建基因共表达调控网络。

进一步地，S90步骤中，利用R包hdWGCNA的ModuleEigengenes函数产生整合的模块特征基因，并结合ModuleConnectivity函数计算每个基因对于模块特征基因之间的相关性，获得kME值。

第三方面，本申请提供了一种植物单细胞长非编码基因鉴定装置，包括：

预处理模块，对测序数据进行预处理，以去除低质量碱基和接头序列；

其中，测序数据至少包括植物单细胞转录组测序数据；

收录模块，收录植物长非编码RNA相关数据库中的序列信息，并根据已知的长非编码RNA序列信息，通过与参考基因组比对，以确定其在对应基因组上的具体位置，得到第一转录本序列信息；

拼接模块，将植物单细胞转录组测序数据与参考基因组比对，再进行转录本拼接，得到第二转录本序列信息；

筛选模块，根据第一转录本序列信息、第二转录本序列信息，筛选满足预设条件的长非编码RNA候选；

注释模块，将蛋白编码基因信息和筛选得到的长非编码RNA候选整合为基因组注释文件，并结合该基因组注释文件与测序数据的基因组比对结果文件分析获得“基因-细胞”表达矩阵；

整合模块，基于同物种不同样本的“基因-细胞”表达矩阵，对不同单细胞转录组数据进行整合；

其中，若只有一个样本或者重复，则不进行整合；

分析模块，基于整合的单细胞转录组数据，进行主成分分析、细胞聚类以及细胞簇可视化；根据已知的细胞类型标记基因，对细胞簇进行细胞类型注释；

鉴定模块，通过第一预设函数鉴定细胞类型表达特异的基因，包括编码基因和长非编码RNA，以得到鉴定结果；

基因共表达调控网络，通过整合的单细胞转录组数据构建得到；通过第二预设函数产生整合的模块特征基因，并结合第三预设函数计算每个基因对于模块特征基因之间的相关性，以获得kME值；其中，kME值大于阈值的基因即为关键基因；

其中，关键基因包括长非编码RNA和编码基因；

判定模块，基于基因共表达调控网络中的元细胞表达矩阵，计算矩阵中所有长非编码RNA与编码基因对之间的皮尔逊相关系数，并且结合基因组上对应的长非编码RNA和编码基因之间的距离，以判定长非编码RNA和编码基因之间的顺式调控关系；

预测模块，整合长非编码RNA相关信息，具体包括作为细胞类型的标记基因、共表达模块中的关键长非编码RNA、与邻近编码基因之间的顺式调控，来综合预测长非编码RNA的潜在功能；

第四方面，本申请提供了一种电子装置，包括存储器和处理器，存储器中存储有计算机程序，处理器被设置为运行计算机程序以执行上述的植物单细胞长非编码基因鉴定方法。

第五方面，本申请提供了一种可读存储介质，可读存储介质中存储有计算机程序，计算机程序包括用于控制过程以执行过程的程序代码，过程包括根据上述的植物长非编码基因鉴定方法。

本发明的主要贡献和创新点如下：

1.技术创新：本发明开创性地将单细胞转录组测序技术（scRNA-seq）应用于植物长非编码RNA的系统性鉴定和功能预测，填补了单细胞水平的植物基因调控研究中关于长非编码RNA的空白。通过整合多种生物信息学工具和算法，如FastQC、Trim Galore、R包hdWGCNA等，建立了一套从原始数据预处理到功能预测的标准化流程，提高了单细胞水平的长非编码RNA研究的深度和广度。

2.高效鉴定策略：发明提出了一种综合鉴定方法，利用预处理优化测序数据质量，通过严格的筛选标准（如位置、长度、开放阅读框预测等）准确识别长非编码RNA，同时考虑了转录本的细胞类型特异性，实现了对植物长非编码RNA的高精度鉴定，解决了传统方法难以区分细胞类型特异表达的局限性。

3.功能预测新框架：发明构建的基因共表达调控网络和元细胞表达矩阵，结合先进的生物信息学分析（如kME值计算、顺式调控关系判定），为预测长非编码RNA功能提供了一个全面且精细的新框架。这种方法不仅考虑了长非编码RNA与编码基因的物理位置关系，还通过共表达分析揭示了它们在不同生理或病理状态下的潜在作用，极大地增强了功能预测的可靠性。

4.自动化装置与应用拓展：发明设计的植物单细胞长非编码基因鉴定装置及配套的电子装置和可读存储介质，将复杂的分析流程转化为自动化操作，极大地提升了研究效率，降低了技术门槛，便于科研人员及生物技术产业界快速应用，推动了植物科学、作物改良、遗传工程及生物技术的创新发展。

5.综上所述，本发明通过技术创新，为植物单细胞长非编码基因的研究提供了从鉴定到功能预测的一体化解决方案，不仅促进了对植物基因调控网络更深层次的理解，也为农业生物技术领域带来了实际应用的新机遇。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的植物长非编码RNA鉴定方法的流程；

图2是根据本申请实施例的电子装置的硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

现有基于植物单细胞转录组数据的分析主要集中于蛋白质编码基因，而长非编码RNA的细胞类型表达特异性的探索还未有标准流程方法。另一方面，植物中存在大量长非编码RNA，但是其生物学功能往往未知。由于测序技术的限制，以往只能基于普通转录组测序（多种细胞类型的混合样本）数据进行功能预测。

基于此，本发明基于目前成熟的单细胞转录组测序技术（scRNA-seq）来解决现有技术存在的问题。

实施例一

本申请旨在提出植物单细胞长非编码基因（产生长非编码RNA转录本）鉴定方法和功能预测方法，通过：

（1）构建了一套植物单细胞长非编码基因（产生长非编码RNA转录本）鉴定流程，可以同时用于单细胞转录组测序和普通转录组测序数据。该流程目的是获得植物长非编码RNA的产生位点（针对主流单细胞转录组测序数据只测得转录本的一端的特点），而不是长非编码RNA的全长转录本序列，因此筛选条件简化了一般的长非编码RNA鉴定流程；另一方面，整合已知数据库收录的植物长非编码RNA，最后产生较全面的植物长非编码RNA候选位点。

（2）搭建一种不同样本单细胞转录组数据整合和基于标记基因的注释方法流程。基于蛋白编码基因的细胞类型特异性，完成对整合单细胞数据的注释，进而鉴定不同细胞类型表达特异的长非编码RNA。

（3）采用一种细胞类型水平共表达网络构建的方法，实现不同功能模块的区分，结合细胞类型信息和模块内蛋白编码基因的功能富集分析结果，推测长非编码RNA的潜在生物学功能（反式调控）；同时结合非编码RNA在基因组位置附近的蛋白编码基因注释信息，推测非编码RNA潜在的顺式调控功能。

（4）整合以上信息，构建植物单细胞长非编码基因潜在功能预测结果信息表。

具体地，本申请实施例提供了一种植物单细胞长非编码基因鉴定方法和功能预测方法，具体地，参考图1，所述方法包括：

步骤一：构建植物单细胞长非编码基因鉴定流程

具体流程步骤如下：

（1a）测序数据准备：下载公共数据库如NCBI（https://www.ncbi.nlm.nih.gov/）和NGDC（https://ngdc.cncb.ac.cn/）中可用的植物单细胞转录组测序（scRNA-seq）数据或者自备样本通过10X Genomics或者BD Rhapsody等平台测序得到数据；同时为了充分地鉴定候选的长非编码RNA位点，也可以利用普通转录组测序（RNA-seq）数据，同样可以来自公共数据平台或者自行产生。

（1b）测序数据质控：利用软件FastQC （https://github.com/s-andrews/FastQC）对测序数据进行质量检查，并使用Trim Galore（https://github.com/FelixKrueger/TrimGalore）去除低质量碱基和接头序列。

（1c）数据库收录的已知长非编码RNA信息：收集目前植物长非编码RNA相关数据库中的序列信息，数据库包括Ensembl Plants（https://plants.ensembl.org）、PLncDB（http://plncdb.tobaccodb.org）、ITAG4.0（https://solgenomics.net/organism/Solanum_lycopersicum/genome/）、RNAcentral（https://rnacentral.org）、GreeNC（http://greenc.sequentiabiotech.com/wiki2/Main_Page）、CANTATAdb（http://cantata.amu.edu.pl）和IC4R-2.0（http://www.ic4r.org/）；根据这些已知的长非编码RNA序列信息，通过与参考基因组（来源于Ensembl Plants等数据库）比对确定其在对应基因组上的具体位置。

（1d）测序数据比对和转录本拼接：将单细胞转录组测序（scRNA-seq）数据和普通转录组测序（RNA-seq）数据分别比对到物种参考基因组上，其中单细胞转录组测序当作普通转录组数据处理（即不区分细胞）。比对方法采用HIAST2（https://daehwankimlab.github.io/hisat2/），之后采用StringTie（https://ccb.jhu.edu/software/stringtie/）进行转录本拼接（保留至少被两条测序读序支持的转录本；也可使用其他类似的比对和拼接软件）；物种参考基因组和注释信息从NCBI或Ensembl Plants等数据库获得。

其中，转录本（Transcript）是指从基因的DNA模板链转录成的RNA分子。转录本可以来自同一个基因的不同剪接变体，每个剪接变体可能包含不同的外显子组合，从而产生不同的信使RNA（mRNA）或非编码RNA分子。

而在上文提到的单细胞转录组测序（scRNA-seq）数据中，转录本的拼接是一个重要步骤，它涉及将测序得到的短读序（reads）比对到参考基因组上，并根据比对结果将这些短序组装成较长的转录本序列。这个过程有助于揭示基因的表达模式和转录异构体的多样性。转录本拼接使用特定的生物信息学软件来完成，如上文中提到的StringTie软件，生成转录本的拼接结果。这些结果进一步用于分析基因表达水平、鉴定新的转录本或非编码RNA等。

（1e）筛选长非编码RNA候选：根据（1c和1d）中得到的转录本序列信息，根据以下条件来筛选长非编码RNA候选，具体为：

①转录本位置在基因间区，并且与最近的编码基因相差至少500 bp；

②转录本长度大于200 bp；

③开放阅读框小于100 aa；

④CPC2（https://github.com/gao-lab/CPC2_standalone）预测没有编码蛋白质的潜能；

⑤与Rfam数据库（https://rfam.org/）中的管家非编码RNA没有交集；其中，管家非编码RNA（Housekeeping non-coding RNA，简称管家ncRNA）是指在细胞中持续表达、对维持细胞基本功能至关重要的一类非编码RNA。

⑥不包含Pfam数据库中（http://pfam-legacy.xfam.org/）已知的蛋白功能域。

步骤二：基于单细胞转录组的表达定量、数据整合、细胞类型注释

具体流程步骤如下：

（2a）单细胞水平的长非编码RNA和编码基因表达定量：将步骤一中鉴定得到的长非编码RNA候选和已知的蛋白编码基因信息（来源于数据库如Ensembl Plants等）整合到一个基因组注释文件（格式为GTF），用Cellranger（https://www.10xgenomics.com/support/software/cell-ranger/lates）分析流程或者UMI-tools（https://umi-tools.readthedocs.io/en/latest/）、STAR（https://github.com/alexdobin/STAR）、featureCount（https://subread.sourceforge.net/featureCounts.html）分析流程（结合该基因组注释文件与测序数据的基因组比对结果文件分析）获得“基因-细胞”表达矩阵（其中基因包括蛋白编码基因和长非编码RNA）。

其中，此步骤的测序数据的基因组比对结果是单细胞水平的比对，与前面步骤的不同。

（2b）同物种不同样本（重复）的单细胞转录组数据整合：基于“基因-细胞”表达矩阵，利用R包Seurat（https://satijalab.org/seurat/）进行分析，首先使用SCTransform函数标准化表达矩阵，同种处理的不同重复利用R包Harmony进行整合（去除批次效应，保留生物学差异）。

（2c）单细胞转录组数据基本分析：基于整合的单细胞转录组数据，首先进行线性降维（即主成分分析，PCA），选用排序前50的主成分进行下游分析（即聚类），包括利用FindNeighbors函数和FindClusters函数鉴定细胞类群，最后用非线性降维方法UMAP或tSNE进行细胞簇的可视化。

（2d）细胞类型注释：根据已知的细胞类型标记基因（编码基因，来源于数据库PlantscRNAdb、scPlantDB等）对（2c）中的细胞簇进行细胞类型的注释。

步骤三：细胞类型表达特异的长非编码RNA鉴定

利用R包Seurat中的FindAllMarkers函数来鉴定细胞类型表达特异的基因，包括编码基因和长非编码RNA（这里鉴定的长非编码RNA是需要重点关注的）。具体使用的参数为logfc.threshold = 0.25和min.pct = 0.25（logfc.threshold代表着类群中某一基因的平均表达量相对于所有其他类群的平均表达量的倍数的log2对数值至少是0.25；min.pct代表在两个类群中的任何一个类群至少有0.25比例的细胞中检测该基因）。

步骤四：构建细胞类型水平共表达网络和反式调控功能预测

（4a）构建细胞类型水平共表达网络：利用R包hdWGCNA（https://smorabit.github.io/hdWGCNA/）基于整合后的单细胞转录组数据来构建基因共表达调控网络。

首先，为了尽量避免“基因-细胞”表达矩阵的稀疏性带来的误差，利用MetacellsByGroups函数用来构建元细胞（metacell）表达矩阵；其次利用TestSoftPowers函数对不同阈值进行参数扫描，以帮助在构建共表达网络时选择适当的阈值，从而减少矩阵中存在的噪声量，从而保留较强的网络关系并消除较弱的；最后使用ConstructNetwork函数构建共表达网络。

（4b）反式调控功能预测：利用R包hdWGCNA的ModuleEigengenes函数产生整合的模块特征基因（hMEs，其中ME即Module Eigengenes，是一种常用的指标，用于总结整个共表达模块的基因表达谱，hME是应用Harmony批量校正后从而产生的模块特征基因），结合ModuleConnectivity函数计算每个基因对于模块特征基因之间的相关性，获得kME值。kME值越大的基因（包括长非编码RNA）即为该模块（或者调控网络）的关键基因。

步骤五：长非编码RNA的顺式调控预测

基于步骤四构建的元细胞（metacell）表达矩阵，计算该矩阵中所有长非编码RNA与编码基因对之间的皮尔逊相关系数，并且结合基因组上对应的长非编码RNA和编码基因之间的距离（bp），来判定长非编码RNA和编码基因之间的顺式调控关系。具体筛选的阈值为，皮尔逊相关系数＞0.5，并且基因组距离相距1k、2k或5k bp（三者分别对应不同的顺式调控可能性，距离越小可能性越大）。

其中，皮尔逊相关系数（Pearson correlation coefficient），也称为皮尔逊积矩相关系数（Pearson product-moment correlation coefficient），是一种用于度量两个变量之间线性关系强度和方向的统计量。

步骤六：整合长非编码RNA的潜在功能信息

整合步骤三至步骤五获得的长非编码RNA相关信息，具体包括作为细胞类型的标记基因（步骤三）、共表达模块中的关键长非编码RNA（步骤四）、与邻近编码基因之间的顺式调控（步骤五），来综合预测长非编码RNA的潜在功能。对于任何一个长非编码RNA，其上述相关信息越多，则越说明该长非编码RNA作为功能性RNA分子的可能性越大。

本实施例的数据库、R包、函数等等均为现有已知的内容，具体功能和作用不再赘述。其中，R包（R package）是R语言中用于组织和共享R代码、数据、预编译代码等资源的一种方式。R语言是一种广泛使用的统计分析和图形表示编程语言，特别受数据科学家、统计学家和研究人员的欢迎。

本实施例中所采用的软件和算法，可以用同类型软件代替，本实施例仅在于提供一种优选的方案，并无限定具体软件和算法。

实施例二

基于相同的构思，本申请还提出了一种植物单细胞长非编码基因（产生长非编码RNA转录本）鉴定和功能预测装置，包括：

其中，测序数据至少包括植物单细胞转录组测序数据，可包含或者不包含普通转录组测序数据；

拼接模块，将植物单细胞转录组测序数据（可包含或不包含普通转录组测序数据）与参考基因组比对，再进行转录本拼接，得到第二转录本序列信息；

整合模块，基于同物种不同样本的“基因-细胞”表达矩阵，不同单细胞转录组数据进行整合（若只有一个样本或者重复，则不需要整合）；

分析模块，基于整合的单细胞转录组数据，进行主成分分析（线性降维）、细胞聚类以及细胞簇可视化；根据已知的细胞类型标记基因（即蛋白编码基因），对细胞簇进行细胞类型注释；

基因共表达调控网络，通过整合的单细胞转录组数据构建得到；通过第二预设函数产生整合的模块特征基因，并结合第三预设函数计算每个基因对于模块特征基因之间的相关性，以获得kME值；其中，kME值大于阈值的基因即为关键基因（包括长非编码RNA和编码基因）；

实施例三

本实施例还提供了一种电子装置，参考图2，包括存储器404和处理器402，该存储器404中存储有计算机程序，该处理器402被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

具体地，上述处理器402可以包括中央处理器（CPU），或者特定集成电路（Application Specific Integrated Circuit，简称为ASIC），或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制，存储器404可包括硬盘驱动器（Hard Disk Drive，简称为HDD）、软盘驱动器、固态驱动器（Solid State Drive，简称为SSD）、闪存、光盘、磁光盘、磁带或通用串行总线（UniversalSerial Bus，简称为USB）驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器404可包括可移除或不可移除（或固定）的介质。在合适的情况下，存储器404可在数据处理装置的内部或外部。在特定实施例中，存储器404是非易失性（Non-Volatile）存储器。在特定实施例中，存储器404包括只读存储器（Read-Only Memory，简称为ROM）和随机存取存储器（Random Access Memory，简称为RAM）。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM（Programmable Read-Only Memory，简称为PROM）、可擦除PROM（ErasableProgrammable Read-Only Memory，简称为EPROM）、电可擦除PROM（Electrically ErasableProgrammable Read-Only Memory，简称为EEPROM）、电可改写ROM（ElectricallyAlterable Read-Only Memory，简称为EAROM）或闪存（FLASH）或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器（Static Random-AccessMemory，简称为SRAM）或动态随机存取存储器（Dynamic Random Access Memory，简称为DRAM），其中，DRAM可以是快速页模式动态随机存取存储器404（Fast Page Mode DynamicRandom Access Memory，简称为FPMDRAM）、扩展数据输出动态随机存取存储器（ExtendedDate Out Dynamic Random Access Memory，简称为EDODRAM）、同步动态随机存取内存（Synchronous Dynamic Random-Access Memory，简称SDRAM）等。

存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器402所执行的可能的计算机程序指令。

处理器402通过读取并执行存储器404中存储的计算机程序指令，以实现上述实施例中的任意一种植物长非编码RNA鉴定方法。

可选地，上述电子装置还可以包括传输设备406以及输入输出设备408，其中，该传输设备406和上述处理器402连接，该输入输出设备408和上述处理器402连接。

传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中，传输设备包括一个网络适配器（Network Interface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备406可以为射频（Radio Frequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

输入输出设备408用于输入或输出信息。

实施例四

本实施例还提供了一种可读存储介质，可读存储介质中存储有计算机程序，计算机程序包括用于控制过程以执行过程的程序代码，过程包括根据实施例一的植物单细胞长非编码基因鉴定和功能预测方法。

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

通常，各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现，而其他方面可以由控制器、微处理器或其他计算设备执行的固件或软件来实现，但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示，但是应当理解，作为非限制性示例，本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。

本发明的实施例可以由计算机软件来实现，该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行，或者由硬件来实现，或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中，并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外，在这一点上，应当注意，如图中的逻辑流程的任何框可以表示程序步骤，或者互连的逻辑电路、框和功能，或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质，以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。

本领域的技术人员应该明白，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以作出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种植物单细胞长非编码基因鉴定方法，其特征在于，包括以下步骤：

其中，所述测序数据至少包括植物单细胞转录组测序数据；

S20、将所述植物单细胞转录组测序数据与参考基因组比对，再进行转录本拼接，得到第二转录本序列信息；

其中，所述植物单细胞转录组测序数据不区分细胞，以当作普通转录组测序数据处理；

S30、根据所述第一转录本序列信息、所述第二转录本序列信息，筛选满足预设条件的长非编码RNA候选；

S40、将蛋白编码基因信息和筛选得到的长非编码RNA候选整合为基因组注释文件，并结合该基因组注释文件与测序数据的基因组比对结果分析获得“基因-细胞”表达矩阵；

其中，若只有一个样本或者重复，则不进行整合；

S80、通过第一预设函数鉴定细胞类型表达特异的基因，包括编码基因和长非编码RNA，以得到鉴定结果；

其中，所述第一预设函数为R包Seurat中的FindAllMarkers函数。

2.如权利要求1所述的一种植物单细胞长非编码基因鉴定方法，其特征在于，S30步骤中，所述预设条件包括：

转录本长度大于200bp；

开放阅读框小于100aa；

经过预测无编码蛋白质潜能；

与Rfam数据库的管家非编码RNA没有交集；

未包含Pfam数据库中已知的蛋白功能域。

3.如权利要求1所述的一种植物单细胞长非编码基因鉴定方法，其特征在于，S00步骤中，通过FastQC软件对测序数据进行质量检查，并通过Trim Galore去除低质量碱基和接头序列。

4.一种植物单细胞长非编码基因的功能预测方法，其特征在于，包括以下步骤：

S90、基于权利要求1-3任意一项所述的一种植物单细胞长非编码基因鉴定方法中的整合的单细胞转录组数据，来构建基因共表达调控网络；

S100、通过第二预设函数产生整合的模块特征基因，并结合第三预设函数计算每个基因对于所述模块特征基因之间的相关性，以获得kME值；

S110、基于所述基因共表达调控网络中的元细胞表达矩阵，计算矩阵中所有长非编码RNA与编码基因对之间的皮尔逊相关系数，并且结合基因组上对应的长非编码RNA和编码基因之间的距离，以判定长非编码RNA和编码基因之间的顺式调控关系；

5.如权利要求4所述的一种植物单细胞长非编码基因的功能预测方法，其特征在于，S90步骤中，利用R包hdWGCNA基于单细胞转录组数据构建基因共表达调控网络。

6.如权利要求5所述的一种植物单细胞长非编码基因的功能预测方法，其特征在于，S90步骤中，利用MetacellsByGroups函数构建元细胞表达矩阵，利用TestSoftPowers函数对不同阈值进行参数扫描，以帮助在构建共表达网络时选择适当的阈值，利用ConstructNetwork函数构建基因共表达调控网络。

7.如权利要求6所述的一种植物单细胞长非编码基因的功能预测方法，其特征在于，S100步骤中，利用R包hdWGCNA的ModuleEigengenes函数产生整合的模块特征基因，并结合ModuleConnectivity函数计算每个基因对于模块特征基因之间的相关性，获得kME值。

8.一种植物单细胞长非编码基因鉴定和功能预测装置，其特征在于，包括：

其中，测序数据至少包括植物单细胞转录组测序数据；

其中，若只有一个样本或者重复，则不进行整合；

鉴定模块，通过第一预设函数鉴定细胞类型表达特异的基因，包括编码基因和长非编码RNA，以得到鉴定结果；其中，所述第一预设函数为R包Seurat中的FindAllMarkers函数；

基因共表达调控网络，通过整合的单细胞转录组数据构建得到；通过第二预设函数产生整合的模块特征基因，并结合第三预设函数计算每个基因对于模块特征基因之间的相关性，以获得kME值；其中，kME值大于阈值的基因即为关键基因，该关键基因包括长非编码RNA和编码基因；其中，所述第二预设函数为R包hdWGCNA的ModuleEigengenes函数；所述第三预设函数为ModuleConnectivity函数；

9.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至3任一项所述的植物单细胞长非编码基因鉴定方法。

10.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括根据权利要求1至3任一项所述的植物单细胞长非编码基因鉴定方法。