CN116052769A - 一种基于稀疏编码的细胞基因表达量复现方法及系统 - Google Patents

一种基于稀疏编码的细胞基因表达量复现方法及系统 Download PDF

Info

Publication number
CN116052769A
CN116052769A CN202310116552.8A CN202310116552A CN116052769A CN 116052769 A CN116052769 A CN 116052769A CN 202310116552 A CN202310116552 A CN 202310116552A CN 116052769 A CN116052769 A CN 116052769A
Authority
CN
China
Prior art keywords
gene
matrix
dictionary
dimension
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310116552.8A
Other languages
English (en)
Other versions
CN116052769B (zh
Inventor
佟明斯
高会军
姜蒙
杜奕辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202310116552.8A priority Critical patent/CN116052769B/zh
Publication of CN116052769A publication Critical patent/CN116052769A/zh
Application granted granted Critical
Publication of CN116052769B publication Critical patent/CN116052769B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开一种基于稀疏编码的细胞基因表达量复现方法及系统,涉及生命科学领域的细胞基因表达量测定技术领域,方法包括:根据基因字典和被测细胞的基因维度,确定随机测量矩阵;根据随机测量矩阵和被测细胞的基因维度,确定随机测量矩阵对应的多组基因名称组;针对所述随机测量矩阵对应的每组基因名称组,根据所述基因名称组确定PCR引物组;基于PCR引物组,对被测细胞进行多重PCR反应,以确定被测细胞的多个Ct数据集合;针对每个Ct数据集合,根据Ct正值和Ct负值进行相对量计算,确定基因观测值;根据多个基因观测值和基因字典,计算被测细胞的基因表达量。本发明提高了细胞基因表达量的测定精准度。

Description

一种基于稀疏编码的细胞基因表达量复现方法及系统
技术领域
本发明涉及生命科学领域的细胞基因表达量测定技术领域,特别是涉及一种基于稀疏编码的细胞基因表达量复现方法及系统。
背景技术
随着生命科学技术的进步,基于基因表达量对细胞状态进行研究,能够得到更加精确的数据结果。目前存在的获取基因表达量的常见方法是通过基因测序匹配细胞中所有的RNA序列,进而统计出相同的基因片段,通过数据处理得到基因的表达量;此外,常用的还有PCR,qPCR,数字PCR的方法,通过对细胞内的全部RNA进行测量,最终获得相对定量或绝对定量的基因表达量。
在使用基因测序(NGS等)的方式获取基因表达量的过程中,需要使用特定的仪器或将样本邮寄到公司测量;并且,获得的测序数据需要通过算法转换为对应的基因表达量。而上述过程中,获取基因表达量将花费数周时间,成本较高。在使用常用的PCR和qPCR仪器时,一般只能配备96孔板或384孔板,传统基因测序和PCR方法均无法在使用单个孔板进行实验,即无法在一台PCR仪器中同时获得基因表达谱所需基因维度的基因数据,大大提升了实验的时间和成本。
目前存在一些对于基因进行降维观测的理论方式,可以快速获取细胞中部分基因的表达量,如神经网络降维方式,通过部分基因测量结合早期分析数据和生物学关系,推断剩余基因表达谱等。上述方式可以在理论层面上降低采样率,但是目前存在的降维方式,均存在数据可信度低、设计试验方案流程复杂、无法同时保留基因数据的线性信息与非线性信息、成本较高等问题。
发明内容
本发明的目的是提供一种基于稀疏编码的细胞基因表达量复现方法及系统,提高细胞基因表达量的测定精准度。
为实现上述目的,本发明提供了如下方案:
一种基于稀疏编码的细胞基因表达量复现方法,包括:
根据基因字典和被测细胞的基因维度,确定随机测量矩阵;所述随机测量矩阵包括0值、正值和负值;所述基因字典是基于非负矩阵分解算法,采用样本集进行字典训练得到的;所述样本集包括多个样本;每个所述样本包括样本细胞的多维度基因测序数据;
根据所述随机测量矩阵和所述被测细胞的基因维度,确定所述随机测量矩阵对应的多组基因名称组;每组所述基因名称组包括正值基因名称小组和负值基因名称小组;所述基因名称组的组数量与所述随机测量矩阵的行数相同;
针对所述随机测量矩阵对应的每组基因名称组,根据所述基因名称组确定PCR引物组;
基于所述PCR引物组,对所述被测细胞进行多重PCR反应,以确定所述被测细胞的多个Ct数据集合;每个所述Ct数据集合包括Ct正值和Ct负值;
针对每个所述Ct数据集合,根据所述Ct正值和所述Ct负值进行相对量计算,确定基因观测值;
根据多个所述基因观测值和所述基因字典,计算所述被测细胞的基因表达量。
可选地,所述基因字典的训练过程,具体包括:
通过非负矩阵分解算法对样本集中多个样本细胞的多维度基因测序数据进行非负分解,以得到基因字典矩阵和基因活跃度矩阵;
对所述基因字典矩阵和所述基因活跃度矩阵分别进行迭代优化;
当迭代次数达到设置迭代次数时,多次迭代后的基因字典矩阵和基因活跃度矩阵构成基因字典。
可选地,对所述基因字典矩阵进行迭代优化的计算公式为:
Figure SMS_1
其中,
Figure SMS_2
表示第l+1次迭代后得到的基因字典矩阵中第i行第j维度的数据,
Figure SMS_3
表示第l次迭代后得到的基因字典矩阵中第i行第j维度的数据,
Figure SMS_4
表示第l次迭代中的活跃度矩阵,
Figure SMS_5
表示转置,
Figure SMS_6
表示第l次迭代中的基因字典矩阵,i表示样本细胞的多维度基因测序数据的行数,j表示样本细胞的多维度基因测序数据的维度,X表示样本集。
可选地,对所述基因活跃度矩阵分别进行迭代优化的计算公式为:
Figure SMS_7
其中,
Figure SMS_8
表示第l+1次迭代后得到的基因活跃度矩阵中第i行第j维度的数据,
Figure SMS_9
表示第l次迭代后得到的基因活跃度矩阵中第i行第j维度的数据,
Figure SMS_10
表示第l次迭代中基因字典矩阵,
Figure SMS_11
表示转置,
Figure SMS_12
表示第l次迭代中的基因活跃度矩阵,i表示样本细胞的多维度基因测序数据的行数,j表示样本细胞的多维度基因测序数据的维度,X表示样本集。
可选地,根据所述Ct正值和所述Ct负值进行相对量计算,确定基因观测值,具体包括:
将所述Ct正值减去所述Ct负值,以得到基因观测值。
可选地,所述根据基因字典和被测细胞的基因维度,确定随机测量矩阵,具体包括:
基于有限等距条件,根据预设稀疏度和被测细胞的基因维度,计算基因整体采样率和基因单行采样率;
根据所述基因整体采样率和所述基因单行采样率,生成初步随机矩阵;
根据被测细胞的基因维度确定被测细胞的多维度基因测序数据;
将所述被测细胞的多维度基因测序数据输入至基因字典,以得到稀疏参考测量矩阵;
将所述初步随机矩阵与所述稀疏参考测量矩阵进行平均皮尔逊相关系数计算,以得到皮尔逊相关系数;
当所述皮尔逊相关系数未处于预设偏差范围内时,调节所述基因单行采样率,返回根据所述基因整体采样率和所述基因单行采样率,生成初步随机矩阵的步骤;
当所述皮尔逊相关系数处于预设偏差范围内时,所述初步随机矩阵为随机测量矩阵。
可选地,根据多个所述基因观测值和所述基因字典,计算所述被测细胞的基因表达量,具体包括:
根据多个所述基因观测值和所述基因字典,基于压缩感知算法迭代计算基因活跃度矩阵;
根据所述基因活跃度矩阵和所述基因字典,计算所述被测细胞的基因表达量。
可选地,所述基因活跃度矩阵的迭代计算公式为:
Figure SMS_13
Figure SMS_14
其中,
Figure SMS_15
表示第n+1次迭代后得到的基因活跃度向量,
Figure SMS_16
表示根据y中的值选择的一组系数方程,y表示基因观测值,
Figure SMS_17
表示测量矩阵,
Figure SMS_18
表示转置,
Figure SMS_19
表示第n次迭代后得到的基因活跃度向量,
Figure SMS_20
表示第i次迭代时的基因活跃度向量,
Figure SMS_21
表示基因活跃度向量s中非零项的最小绝对值。
为达上述目的,本发明还提供了如下技术方案:
一种基于稀疏编码的细胞基因表达量复现系统,包括:
随机矩阵生成模块,用于根据基因字典和被测细胞的基因维度,确定随机测量矩阵;所述随机测量矩阵包括0值、正值和负值;所述基因字典是基于非负矩阵分解算法,采用样本集进行字典训练得到的;所述样本集包括多个样本;每个所述样本包括样本细胞的多维度基因测序数据;
基因名称确定模块,用于根据所述随机测量矩阵和所述被测细胞的基因维度,确定所述随机测量矩阵对应的多组基因名称组;每组所述基因名称组包括正值基因名称小组和负值基因名称小组;所述基因名称组的组数量与所述随机测量矩阵的行数相同;
引物确定模块,用于针对所述随机测量矩阵对应的每组基因名称组,根据所述基因名称组确定PCR引物组;
Ct值确定模块,用于基于所述PCR引物组,对所述被测细胞进行多重PCR反应,以确定所述被测细胞的多个Ct数据集合;每个所述Ct数据集合包括Ct正值和Ct负值;
基因观测值确定模块,用于针对每个所述Ct数据集合,根据所述Ct正值和所述Ct负值进行相对量计算,确定基因观测值;
基因表达量计算模块,用于根据多个所述基因观测值和所述基因字典,计算所述被测细胞的基因表达量。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供了一种基于稀疏编码的细胞基因表达量复现方法及系统,基于非负矩阵分解算法,采用样本集进行字典训练得到基因字典,根据基因字典和被测细胞的基因维度,确定随机测量矩阵,并且随机测量矩阵中仅包括0值、正值和负值。根据随机测量矩阵和被测细胞的基因维度,确定随机测量矩阵对应的多组基因名称组,进而确定对应的PCR引物组,并进行多重PCR反应,从而得到与多重PCR反应对应的多个Ct数据集合,每个集合中包括Ct正值和Ct负值。其中,Ct正值和Ct负值均为实际的具体数值,基于此,进行相对量计算,得到精确的基因观测值。另外,采用多重PCR反应的方式进行引物的扩增,更具有普适性,且成本较低。最后根据多个基因观测值和基因字典,计算出精确的被测细胞的基因表达量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于稀疏编码的细胞基因表达量复现方法的流程示意图;
图2为本发明基于稀疏编码的细胞基因表达量复现系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种基于稀疏编码的细胞基因表达量复现方法及系统,基于RIP(压缩感知中观测矩阵的有限等距性质,Restricted Isometry Property)条件对基因进行稀疏编码,使用PCR反应过程实现对降维数据的观测过程,通过公开基因测序数据集训练基因字典,使用压缩感知算法重建细胞的基因表达量,以得到精确的表达量数值,最终达到降低实验成本,缩短测量时间、提高检测精确度的目的。
为使本发明的目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
如图1所示,本实施例提供一种基于稀疏编码的细胞基因表达量复现方法,包括:
步骤100,根据基因字典和被测细胞的基因维度,确定随机测量矩阵;所述随机测量矩阵包括0值、正值和负值;所述基因字典是基于非负矩阵分解算法,采用样本集进行字典训练得到的;所述样本集包括多个样本;每个所述样本包括样本细胞的多维度基因测序数据。
步骤100,具体包括:
1)基于有限等距RIP条件,根据预设稀疏度和被测细胞的基因维度,计算基因整体采样率和基因单行采样率。
2)根据所述基因整体采样率和所述基因单行采样率,生成初步随机矩阵。具体地,根据基因整体采样率和基因单行采样率,通过预设的随机算法,生成初步随机矩阵。
3)根据被测细胞的基因维度确定被测细胞的多维度基因测序数据。
4)将所述被测细胞的多维度基因测序数据输入至基因字典,以得到稀疏参考测量矩阵。
5)将所述初步随机矩阵与所述稀疏参考测量矩阵进行平均皮尔逊相关系数计算,以得到皮尔逊相关系数;当所述皮尔逊相关系数未处于预设偏差范围内时,调节所述基因单行采样率,返回步骤2);当所述皮尔逊相关系数处于预设偏差范围内时,所述初步随机矩阵为随机测量矩阵。
具体地,在基因整体采样率与基因单行采样率的条件下,可使用的初步随机矩阵约为总随机生成矩阵的99%,可使用的初步随机矩阵的判断标准为:初步随机矩阵与通过基因字典得到的系数参考测量矩阵得到的皮尔逊相关系数P>0.85,满足上述标准则说明得到的初步随机矩阵正确,可用于下一步的使用。
其中,步骤100中的子步骤1)和步骤2),具体如下:
对于常见的高斯随机矩阵,其矩阵中的元素大多数为小数,在数字通道或信号通路中,由于其本身存在数值,所以高斯矩阵可以较好的进行权重运算;然而在生化反应中,这样的权重采样方式受限于生化测量方式与测量精度的限制而无法实际使用。同时,在当前生化反应中,绝大多数仍然使用特异性引物进行基因扩增实验,而共性引物在当前研究中由于其特异性差,误匹配概率较高的问题,仍只有较小的应用范围,即便是设计barcode的实验方式,其整体实验流程较传统PCR也更为复杂且成本更高,同时如何设计并验证barcode片段的特异性是一个不小的难题。
对矩阵中的元素进行部分采样,且采样方式选择过采样方法,其在时间成本,经济成本上都更加适合于实际应用。基于此,本申请将被测细胞的基因维度对应的测量矩阵设为A(m,n),m表示矩阵的行数,n表示被测细胞的基因维度;测量矩阵中被采样元素定义为1/-1,或者定义为
Figure SMS_22
Figure SMS_23
表示任意权重,s表示由多个任意权重构成的权重矩阵。在最终的根据多个基因观测值和基因字典,计算所述被测细胞的基因表达量过程中,即压缩感知算法重建细胞的基因表达量时,采样元素的权重对于最终结果的影响为:
Figure SMS_24
其中,y表示基因观测值,γ表示惩罚项,γ的数值可自行选定,|| ||0表示L0范数,
Figure SMS_25
表示L2范数的平方。
若存在准确的权重矩阵s,那么最终的结果为
Figure SMS_26
Figure SMS_27
不会影响基因表达量复现或者重建的效果,即当引物过量时不影响测量结果,使得这种测量方式具有非常强的抗干扰能力。
传统RIP条件描述为:
Figure SMS_28
Figure SMS_29
其中,x表示被测向量,即被测细胞的基因表达量,A表示测量矩阵。
或可以描述为:A与Ψ不相关(y=AΨs)。
Figure SMS_30
其中,Ψ表示字典,
Figure SMS_31
表示测量矩阵的第k行,
Figure SMS_32
表示字典的第j行。
或描述为:
Figure SMS_33
其中,
Figure SMS_34
表示测量矩阵的第i行,
Figure SMS_35
表示测量矩阵的第j行,
Figure SMS_36
表示矩阵的模。
基于上述理论,本申请设计测量矩阵中被采样基因为
Figure SMS_37
,单行被采样位置随机,基因单行采样率约为1%-2%,测量基因条目即测量矩阵的行数m为:
Figure SMS_38
一般选取比率为1%-2%左右,即m/n。
利用如下公式验证上述方法生成的初步随机矩阵是否满足RIP条件:
Figure SMS_39
步骤100中的子步骤4),具体如下:
传统的压缩感知首先要求信号是k稀疏的,但是现在为止,通过不同域变换,本申请将压缩感知的使用条件放宽到:只需要使模块活动矩阵为k稀疏的,即可结合字典还原基因表达量。即将活动模块视为被还原信号,故在这里,将传统压缩感知中的稀疏矩阵赋予字典的定义,而传统的图像和信号领域,稀疏矩阵常选用小波域等形式,而这里的字典则需要通过训练获得。
字典训练过程中,可定义字典的分解方式,本发明以NMF(Non-negative matrixfactorization,非负矩阵分解)算法为例寻找当前样本的稀疏矩阵,训练基因字典,需要使用数据为:开源基因表达量样本1000左右(字典训练效果随样本数增加而上升,但最大不要超过10000样本,会造成字典训练过慢,字典条目模糊的现象),单个样本中为全基因测序,共同组成原始样本。
所述基因字典的训练过程,具体包括:
1)通过非负矩阵分解算法对样本集中多个样本细胞的多维度基因测序数据进行非负分解,以得到基因字典矩阵和基因活跃度矩阵。
2)对所述基因字典矩阵和所述基因活跃度矩阵分别进行迭代优化。
3)当迭代次数达到设置迭代次数时,多次迭代后的基因字典矩阵和基因活跃度矩阵构成基因字典。具体地,所述设置迭代次数为20~30次,工作人员可根据实际需要进行具体数值的确定。
对基因字典U(基因字典矩阵)和基因活跃度W(基因活跃度矩阵)分别进行迭代优化的核心计算公式为:
Figure SMS_40
Figure SMS_41
最终得到的对所述基因字典矩阵进行迭代优化的计算公式为:
Figure SMS_42
对所述基因活跃度矩阵分别进行迭代优化的计算公式为:
Figure SMS_43
其中,
Figure SMS_44
表示第l+1次迭代后得到的基因字典矩阵中第i行第j维度的数据,
Figure SMS_45
表示第l次迭代后得到的基因字典矩阵中第i行第j维度的数据,
Figure SMS_46
表示第l次迭代中的活跃度矩阵,
Figure SMS_47
表示转置,
Figure SMS_48
表示第l次迭代中的基因字典矩阵,i表示样本细胞的多维度基因测序数据的行数,j表示样本细胞的多维度基因测序数据的维度,X表示样本集,
Figure SMS_49
表示第l+1次迭代后得到的基因活跃度矩阵中第i行第j维度的数据,
Figure SMS_50
表示第l次迭代后得到的基因活跃度矩阵中第i行第j维度的数据。
步骤200,根据所述随机测量矩阵和所述被测细胞的基因维度,确定所述随机测量矩阵对应的多组基因名称组;每组所述基因名称组包括正值基因名称小组和负值基因名称小组;所述基因名称组的组数量与所述随机测量矩阵的行数相同。
步骤300,针对所述随机测量矩阵对应的每组基因名称组,根据所述基因名称组确定PCR引物组;具体地,根据随机测量矩阵中每行基因数据对应的两组基因组合,分别获取对应的多重PCR引物,得到正值多重PCR引物小组和负值多重PCR引物小组。
在一个具体实例中,将设计好的随机测量矩阵中每一行所对应的基因进行多重PCR引物设计,并定制设计好的多重PCR引物上下游引物合装到同一个96孔板中,并将每个96孔中多重引物所包含的每一个引物浓度稀释为10nmol/ul,至此,完成引物制备过程。
步骤400,基于所述PCR引物组,提取被测细胞的RNA,进而对所述被测细胞进行多重PCR反应,以确定所述被测细胞的多个Ct(Cycle threshold,阈值循环数)数据集合;每个所述Ct数据集合包括Ct正值和Ct负值。所述Ct正值与所述正值基因名称小组对应;所述Ct负值与所述负值基因名称小组对应。
优选地,通过qPCR(PCR)反应,使用qPCR仪(PCR仪)进行扩增过程,扩增轮数一般选为30轮或40轮,即可获取基因数据的Ct值,在制作过程中,需要加入标志基因作为基准线,通常使用gapdh基因进行标化(在细胞中gapdh基因的表达量基本是固定的),将gapdh基因对应的Ct值与其表达量进行比对,获得标准线;同时为防止操作过程中的误差,需要对每个实验孔制作两个复孔。如果三次实验的Ct值相差不超过0.2,则最终的Ct值为三孔平均值之后将获得的。另外,多重PCR( Multiplex PCR ) 反应是在一个反应体系中加入多对引物,同时扩增同一份DNA样品不同基因片段的PCR技术,可得到多个对应的Ct值。
步骤500,针对每个所述Ct数据集合,根据所述Ct正值和所述Ct负值进行相对量计算,确定基因观测值;具体地,所述Ct正值和所述Ct负值均被记录为counts类型数据,将所述Ct正值减去所述Ct负值,以得到基因观测值。然后,将基因观测值对应记录到观测矩阵Y中。其中得到的counts类型数据的Ct数据,并基于此进行计算,使得数据的复现精确性更好,在达到相同的复现效果时,这一方法的测量值可以更少。
步骤600,根据多个所述基因观测值和所述基因字典,计算所述被测细胞的基因表达量。步骤600具体包括:
1)根据多个所述基因观测值和所述基因字典,基于压缩感知算法迭代计算基因活跃度矩阵。具体地,基于压缩感知IHT算法迭代被测细胞的活跃度向量,其优化核心为:
Figure SMS_51
Figure SMS_52
其中,y’表示观测值y的实际值,
Figure SMS_53
表示用于优化的测量矩阵,并记:
Figure SMS_54
。然而,这种优化方式无法满足凸优化问题,所以采用代替目标函数进行替换:
Figure SMS_55
Figure SMS_56
其中,s表示权重矩阵,用于表征数据的活跃度;z表示预设置的向量,用于解方程。
上述要求则可以使整个函数后半部分绝大概率大于0,大幅降低复现基因表达量的缺失值。
当s=z时,与原函数相同,则证明该函数可以代替上述函数进行优化迭代过程。在迭代过程中:
Figure SMS_57
Figure SMS_58
Figure SMS_59
Figure SMS_60
可以推出下式:
Figure SMS_61
因此优化问题变成了求此项的最小值,是一个凑二次型的过程,最终获得:
Figure SMS_62
Figure SMS_63
Figure SMS_64
其中,
Figure SMS_65
表示第i次迭代后的
Figure SMS_66
矩阵,si表示权重矩阵中的第i个权重,zi表示预设置的向量中的第i个向量值。
Figure SMS_67
时,最小值为:
Figure SMS_68
又由于y的稀疏度不大于K,保留最大的K项,其余置零,最终得出基因活跃度矩阵的迭代计算公式为:
Figure SMS_69
Figure SMS_70
其中,
Figure SMS_71
表示第n+1次迭代后得到的基因活跃度向量,
Figure SMS_72
表示根据y中的值选择的一组系数方程,y表示基因观测值,
Figure SMS_73
表示测量矩阵,
Figure SMS_74
表示转置,
Figure SMS_75
表示第n次迭代后得到的基因活跃度向量,
Figure SMS_76
表示第i次迭代时的基因活跃度向量,
Figure SMS_77
表示基因活跃度向量s中非零项的最小绝对值。
2)根据所述基因活跃度矩阵和所述基因字典,计算所述被测细胞的基因表达量。具体地,获取活跃度向量s后,根据公式X’=U*S计算被测细胞的基因表达量X’。
另外,通过研究发现,对于同一种类型的疾病,其基因间的相互作用均与其表达量具有很强的相关性,而相同的基因编码方式(即同一个测量矩阵)固定的情况下,对基因的相互作用关系进行压缩获取,可以复现出基因表达谱。本发明基于此,建立可以应用于不同疾病的基于稀疏编码的细胞基因表达量复现方法,依次进行对应基因字典的训练,随机测量矩阵的设计,用qPCR(PCR)方法获取观测值,最后使用压缩感知算法解码基因高维数据。整体操作可在2h内获取当前细胞的基因表达量,同时这一成本约为现有第二代基因测序(NGS)的10%,大大提高了基因表达量的复现精确度。
实施例二
本实施例应用实施例一中记载的基于稀疏编码的细胞基因表达量复现方法,选用ThermoFisher公司的生产的PCR仪器或qPCR仪器进行基因扩增,其包含配套的96孔板、384孔板和荧光值读取功能。使用传统细胞RNA提取方法,之后通过配置20ul逆转录体系和PCR仪器进行基因的逆转录,获取对应的cDNA体系,之后配置20ulqPCR反应体系,配置好后将设计好的多重PCR基因引物按照测量矩阵的对应位置加入96孔板或384孔板对应位置的反应体系中,开始进行qPCR扩增过程。
使用TCGA网站公开数据,提前建立基因字典,本实施例可以针对所有具有公开数据集的细胞进行字典建立。在建立过程中,使用SVD,KSVD及其延伸算法进行字典训练,训练好的字典可以按照不同种类的细胞进行分类,以备后续使用。
在qPCR反应完成后,获取孔中的Ct值并按照记录方法记录观测值。之后使用单比特压缩感知算法进行基因表达谱复现。复现过程中,使用OMP及其延伸算法进行基因表达谱的复现。
在本实施方案中, qPCR扩增过程可以给出相对准确的Ct数值,在压缩感知采样率1%左右的前提下,本发明理论上复现基因表达量与原始数据的相关性为75%-95%,对于不同样本,皮尔逊相关系数在90%以上,斯皮尔曼相关系数在75%以上。
对于常用的PCR,qPCR仪器,均可以使用96孔板和384孔板对对应数量的反应孔同时进行扩增实验,可复现的基因表达谱中的基因数量为10000以上,整体实验时间在2-3h之内,可以满足绝大多数实际应用中对于基因表达谱复现维度和实时性的需求。
实施例三
本实施例应用实施例一中记载的基于稀疏编码的细胞基因表达量复现方法,与实施例二记载的方案的不同之处在于:
将PCR,qPCR仪器的扩增过程改为磁珠连接引物的扩增过程;具体地,将反应孔中的基因引物对应连接到磁珠上。
实施例四
本实施例应用实施例一中记载的基于稀疏编码的细胞基因表达量复现方法,与实施例二记载的方案的不同之处在于:
将PCR,qPCR仪器的扩增过程改为使用微阵列液滴的扩增过程;具体地,将反应孔中包含基因引物的反应体系按照微阵列的形式对应滴在玻璃片上。
实施例五
如图2所示,为了执行上述实施例一对应的方法,以实现相应的功能和技术效果,本实施例提供了一种基于稀疏编码的细胞基因表达量复现系统,包括:
随机矩阵生成模块101,用于根据基因字典和被测细胞的基因维度,确定随机测量矩阵;所述随机测量矩阵包括0值、正值和负值;所述基因字典是基于非负矩阵分解算法,采用样本集进行字典训练得到的;所述样本集包括多个样本;每个所述样本包括样本细胞的多维度基因测序数据。
基因名称确定模块201,用于根据所述随机测量矩阵和所述被测细胞的基因维度,确定所述随机测量矩阵对应的多组基因名称组;每组所述基因名称组包括正值基因名称小组和负值基因名称小组;所述基因名称组的组数量与所述随机测量矩阵的行数相同。
引物确定模块301,用于针对所述随机测量矩阵对应的每组基因名称组,根据所述基因名称组确定PCR引物组。
Ct值确定模块401,用于基于所述PCR引物组,对所述被测细胞进行多重PCR反应,以确定所述被测细胞的多个Ct数据集合;每个所述Ct数据集合包括Ct正值和Ct负值。
基因观测值确定模块501,用于针对每个所述Ct数据集合,根据所述Ct正值和所述Ct负值进行相对量计算,确定基因观测值。
基因表达量计算模块601,用于根据多个所述基因观测值和所述基因字典,计算所述被测细胞的基因表达量。
现对于现有技术,本发明还具有如下优点:
(1)本发明基于基因的模块化表达和具有可被压缩的性质,使用复合测量的方式,对基因进行稀疏编码,通过PCR反应实现对基因数据的降维观测,之后结合基因字典出基因表达量。这种方法可以使用常见的PCR仪器或qPCR仪器进行测量,后续仍然提供了磁珠、微阵列等常见的基因扩增方式搭配压缩感知等算法用以获取基因表达谱,最终实现低成本(约为第二代基因测序NGS的10%),高效率(单次测量时间约为2h),高精确度(皮尔逊相关系数90%以上,皮尔逊相关系数75%以上),普适性强的方式测量生物体的基因表达量。
(2)本发明将对基因数据降维的理论方式与实际生化反应相结合。该方式将RIP条件与PCR反应结合,将理论降维方式通过生化反应进行实现,把基因高维信息通过多重PCR的方式进行储存。
(3)本发明使用的生化反应为传统的基因扩增方法(PCR扩增方式),无需特殊仪器进行操作。实验过程中仅需要使用PCR仪或qPCR仪或数字PCR仪,提供了一种稳定且普适性强的获取基因表达量的方式。
(4)本发明提供了短时、精确且成本低的细胞基因表达量的获取方法。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (9)

1.一种基于稀疏编码的细胞基因表达量复现方法,其特征在于,所述细胞基因表达量复现方法包括:
根据基因字典和被测细胞的基因维度,确定随机测量矩阵;所述随机测量矩阵包括0值、正值和负值;所述基因字典是基于非负矩阵分解算法,采用样本集进行字典训练得到的;所述样本集包括多个样本;每个所述样本包括样本细胞的多维度基因测序数据;
根据所述随机测量矩阵和所述被测细胞的基因维度,确定所述随机测量矩阵对应的多组基因名称组;每组所述基因名称组包括正值基因名称小组和负值基因名称小组;所述基因名称组的组数量与所述随机测量矩阵的行数相同;
针对所述随机测量矩阵对应的每组基因名称组,根据所述基因名称组确定PCR引物组;
基于所述PCR引物组,对所述被测细胞进行多重PCR反应,以确定所述被测细胞的多个Ct数据集合;每个所述Ct数据集合包括Ct正值和Ct负值;
针对每个所述Ct数据集合,根据所述Ct正值和所述Ct负值进行相对量计算,确定基因观测值;
根据多个所述基因观测值和所述基因字典,计算所述被测细胞的基因表达量。
2.根据权利要求1所述的基于稀疏编码的细胞基因表达量复现方法,其特征在于,所述基因字典的训练过程,具体包括:
通过非负矩阵分解算法对样本集中多个样本细胞的多维度基因测序数据进行非负分解,以得到基因字典矩阵和基因活跃度矩阵;
对所述基因字典矩阵和所述基因活跃度矩阵分别进行迭代优化;
当迭代次数达到设置迭代次数时,多次迭代后的基因字典矩阵和基因活跃度矩阵构成基因字典。
3.根据权利要求2所述的基于稀疏编码的细胞基因表达量复现方法,其特征在于,对所述基因字典矩阵进行迭代优化的计算公式为:
Figure QLYQS_1
其中,
Figure QLYQS_2
表示第l+1次迭代后得到的基因字典矩阵中第i行第j维度的数据,
Figure QLYQS_3
表示第l次迭代后得到的基因字典矩阵中第i行第j维度的数据,
Figure QLYQS_4
表示第l次迭代中的活跃度矩阵,
Figure QLYQS_5
表示转置,
Figure QLYQS_6
表示第l次迭代中的基因字典矩阵,i表示样本细胞的多维度基因测序数据的行数,j表示样本细胞的多维度基因测序数据的维度,X表示样本集。
4.根据权利要求2所述的基于稀疏编码的细胞基因表达量复现方法,其特征在于,对所述基因活跃度矩阵分别进行迭代优化的计算公式为:
Figure QLYQS_7
其中,
Figure QLYQS_8
表示第l+1次迭代后得到的基因活跃度矩阵中第i行第j维度的数据,
Figure QLYQS_9
表示第l次迭代后得到的基因活跃度矩阵中第i行第j维度的数据,
Figure QLYQS_10
表示第l次迭代中基因字典矩阵,
Figure QLYQS_11
表示转置,
Figure QLYQS_12
表示第l次迭代中的基因活跃度矩阵,i表示样本细胞的多维度基因测序数据的行数,j表示样本细胞的多维度基因测序数据的维度,X表示样本集。
5.根据权利要求1所述的基于稀疏编码的细胞基因表达量复现方法,其特征在于,根据所述Ct正值和所述Ct负值进行相对量计算,确定基因观测值,具体包括:
将所述Ct正值减去所述Ct负值,以得到基因观测值。
6.根据权利要求1所述的基于稀疏编码的细胞基因表达量复现方法,其特征在于,所述根据基因字典和被测细胞的基因维度,确定随机测量矩阵,具体包括:
基于有限等距条件,根据预设稀疏度和被测细胞的基因维度,计算基因整体采样率和基因单行采样率;
根据所述基因整体采样率和所述基因单行采样率,生成初步随机矩阵;
根据被测细胞的基因维度确定被测细胞的多维度基因测序数据;
将所述被测细胞的多维度基因测序数据输入至基因字典,以得到稀疏参考测量矩阵;
将所述初步随机矩阵与所述稀疏参考测量矩阵进行平均皮尔逊相关系数计算,以得到皮尔逊相关系数;
当所述皮尔逊相关系数未处于预设偏差范围内时,调节所述基因单行采样率,返回根据所述基因整体采样率和所述基因单行采样率,生成初步随机矩阵的步骤;
当所述皮尔逊相关系数处于预设偏差范围内时,所述初步随机矩阵为随机测量矩阵。
7.根据权利要求1所述的基于稀疏编码的细胞基因表达量复现方法,其特征在于,根据多个所述基因观测值和所述基因字典,计算所述被测细胞的基因表达量,具体包括:
根据多个所述基因观测值和所述基因字典,基于压缩感知算法迭代计算基因活跃度矩阵;
根据所述基因活跃度矩阵和所述基因字典,计算所述被测细胞的基因表达量。
8.根据权利要求7所述的基于稀疏编码的细胞基因表达量复现方法,其特征在于,所述基因活跃度矩阵的迭代计算公式为:
Figure QLYQS_13
Figure QLYQS_14
其中,
Figure QLYQS_15
表示第n+1次迭代后得到的基因活跃度向量,
Figure QLYQS_16
表示根据y中的值选择的一组系数方程,y表示基因观测值,
Figure QLYQS_17
表示测量矩阵,
Figure QLYQS_18
表示转置,
Figure QLYQS_19
表示第n次迭代后得到的基因活跃度向量,
Figure QLYQS_20
表示第i次迭代时的基因活跃度向量,
Figure QLYQS_21
表示基因活跃度向量s中非零项的最小绝对值。
9.一种基于稀疏编码的细胞基因表达量复现系统,其特征在于,所述细胞基因表达量复现系统包括:
随机矩阵生成模块,用于根据基因字典和被测细胞的基因维度,确定随机测量矩阵;所述随机测量矩阵包括0值、正值和负值;所述基因字典是基于非负矩阵分解算法,采用样本集进行字典训练得到的;所述样本集包括多个样本;每个所述样本包括样本细胞的多维度基因测序数据;
基因名称确定模块,用于根据所述随机测量矩阵和所述被测细胞的基因维度,确定所述随机测量矩阵对应的多组基因名称组;每组所述基因名称组包括正值基因名称小组和负值基因名称小组;所述基因名称组的组数量与所述随机测量矩阵的行数相同;
引物确定模块,用于针对所述随机测量矩阵对应的每组基因名称组,根据所述基因名称组确定PCR引物组;
Ct值确定模块,用于基于所述PCR引物组,对所述被测细胞进行多重PCR反应,以确定所述被测细胞的多个Ct数据集合;每个所述Ct数据集合包括Ct正值和Ct负值;
基因观测值确定模块,用于针对每个所述Ct数据集合,根据所述Ct正值和所述Ct负值进行相对量计算,确定基因观测值;
基因表达量计算模块,用于根据多个所述基因观测值和所述基因字典,计算所述被测细胞的基因表达量。
CN202310116552.8A 2023-02-15 2023-02-15 一种基于稀疏编码的细胞基因表达量复现方法及系统 Active CN116052769B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310116552.8A CN116052769B (zh) 2023-02-15 2023-02-15 一种基于稀疏编码的细胞基因表达量复现方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310116552.8A CN116052769B (zh) 2023-02-15 2023-02-15 一种基于稀疏编码的细胞基因表达量复现方法及系统

Publications (2)

Publication Number Publication Date
CN116052769A true CN116052769A (zh) 2023-05-02
CN116052769B CN116052769B (zh) 2024-06-25

Family

ID=86129516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310116552.8A Active CN116052769B (zh) 2023-02-15 2023-02-15 一种基于稀疏编码的细胞基因表达量复现方法及系统

Country Status (1)

Country Link
CN (1) CN116052769B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055922A (zh) * 2016-06-08 2016-10-26 哈尔滨工业大学深圳研究生院 一种基于基因表达数据的混合网络基因筛选方法
CN110033824A (zh) * 2019-04-13 2019-07-19 湖南大学 一种基于共享字典学习的基因表达谱分类方法
CN110914910A (zh) * 2017-10-16 2020-03-24 因美纳有限公司 基于深度学习的剪接位点分类
US20210202032A1 (en) * 2017-10-20 2021-07-01 Consejo Nacional De Investigaciones Científicas Y Técnicas (Conicet) Method of tagging nucleic acid sequences, composition and use thereof
CN113159207A (zh) * 2021-04-28 2021-07-23 杭州电子科技大学 一种基于二维字典优化的稀疏表示分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055922A (zh) * 2016-06-08 2016-10-26 哈尔滨工业大学深圳研究生院 一种基于基因表达数据的混合网络基因筛选方法
CN110914910A (zh) * 2017-10-16 2020-03-24 因美纳有限公司 基于深度学习的剪接位点分类
US20210202032A1 (en) * 2017-10-20 2021-07-01 Consejo Nacional De Investigaciones Científicas Y Técnicas (Conicet) Method of tagging nucleic acid sequences, composition and use thereof
CN110033824A (zh) * 2019-04-13 2019-07-19 湖南大学 一种基于共享字典学习的基因表达谱分类方法
CN113159207A (zh) * 2021-04-28 2021-07-23 杭州电子科技大学 一种基于二维字典优化的稀疏表示分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ANH-TUAN TRINH ET AL.: "Cellular and Network Mechanisms May Generate Sparse Coding of Sequential Object Encounters in Hippocampal-Like Circuits", PROCEEDINGS OF THE NATIONAL ACADEMY OF SCIENCES, 31 December 2015 (2015-12-31) *
JOHN SONG ET AL.: "3D toppgraphy measurements on correlation cells-a new approach to forensic ballistics identifications", MEASUREMENT SCIENCE AND TECHNOLOGY, 30 April 2014 (2014-04-30) *
翁谦 等: "应用谱回归和图正则最小二乘回归的数据降维", 计算机工程与应用, 31 December 2015 (2015-12-31) *
董和泉;邓文华;郭景康;: "人工神经网络在单核苷酸多态性(SNP)检测中的应用", 计算机与应用化学, no. 10, 28 October 2006 (2006-10-28) *

Also Published As

Publication number Publication date
CN116052769B (zh) 2024-06-25

Similar Documents

Publication Publication Date Title
Quinn et al. A field guide for the compositional analysis of any-omics data
KR102349921B1 (ko) 시료 미생물의 동정 및 분류 방법
Nie et al. Correlation between mRNA and protein abundance in Desulfovibrio vulgaris: a multiple regression to identify sources of variations
Acevedo et al. Mutational and fitness landscapes of an RNA virus revealed through population sequencing
Blackwood et al. Interpreting ecological diversity indices applied to terminal restriction fragment length polymorphism data: insights from simulated microbial communities
Waaijenborg et al. Quantifying the association between gene expressions and DNA-markers by penalized canonical correlation analysis
CN115240772B (zh) 一种基于图神经网络的解析单细胞通路活性的方法
Lindgreen et al. Robust identification of noncoding RNA from transcriptomes requires phylogenetically-informed sampling
Galand et al. Ecosystem productivity is associated with bacterial phylogenetic distance in surface marine waters
Wang et al. A two‐way flexible generalized gamma transformation cure rate model
US20240111923A1 (en) Method and system for obtaining ecological impact mechanism
Balding et al. Population genetics of STR loci in Caucasians
CN115485778A (zh) 用于检测细菌基因组中基因组序列的分子技术
CN116052769B (zh) 一种基于稀疏编码的细胞基因表达量复现方法及系统
Lu et al. scRNA‐seq data analysis method to improve analysis performance
Zehr et al. Quantification of gene copy numbers is valuable in marine microbial ecology: A comment to Meiler et al.(2022).
Marti et al. Aging causes changes in transcriptional noise across a diverse set of cell types
CN117686442A (zh) 一种氯离子扩散浓度检测方法、系统、介质及设备
de Ronde et al. Mesoscopic statistical properties of multistep enzyme-mediated reactions
CN116469460A (zh) 基于多次随机编码的未知细胞网络表达观测方法及系统
CN114464254A (zh) 直接rna测序的多组学分析方法、系统、设备及存储介质
Phipson et al. missMethyl: Analysing Illumina HumanMethylation BeadChip Data
Harrison et al. The quest for absolute abundance: the use of internal standards for DNA-barcoding in microbial ecology
CN115985393A (zh) 一种基因网络表达状态的二值化观测方法及系统
US20020069033A1 (en) Method for determining measurement error for gene expression microarrays

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant