CN109243533B - 一种用于计算基因的组织特异表达的鲁棒z-score打分方法 - Google Patents

一种用于计算基因的组织特异表达的鲁棒z-score打分方法 Download PDF

Info

Publication number
CN109243533B
CN109243533B CN201810837091.2A CN201810837091A CN109243533B CN 109243533 B CN109243533 B CN 109243533B CN 201810837091 A CN201810837091 A CN 201810837091A CN 109243533 B CN109243533 B CN 109243533B
Authority
CN
China
Prior art keywords
value
expression
gene
tissue
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810837091.2A
Other languages
English (en)
Other versions
CN109243533A (zh
Inventor
李淼新
蒋琳
薛超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201810837091.2A priority Critical patent/CN109243533B/zh
Publication of CN109243533A publication Critical patent/CN109243533A/zh
Application granted granted Critical
Publication of CN109243533B publication Critical patent/CN109243533B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本发明提供了一种用于计算基因的组织特异表达的鲁棒z‑score打分方法,该方法对基因的组织特异表达有更高的敏感度,且能够直接评估统计显著性的特点,解决了现有技术的缺陷。

Description

一种用于计算基因的组织特异表达的鲁棒z-score打分方法
技术领域
本发明涉及生物学技术领域,更具体地,涉及一种用于计算基因的组织特异表达的鲁棒z-score打分方法。
背景技术
很多人类疾病在病理上准确对应的组织或细胞还不清晰,这个问题长期以来妨碍了医学界对致病机理的更进一步理解。基因在组织中的特异表达谱系对解析组织特异性致病机理非常重要,为治疗和药品研发提供指导和有力依据。随着很多组织和细胞类型基因表达数据的持续积累和增加,迫切需要准确量化基因的组织特异性表达的强大有效的统计方法。
分析基因的组织特异表达图谱能够扩大在生命科学和人类疾病学领域的知识。国际大型的协作项目[1-3],为很多人类组织或细胞型产生转录组,如基因型组织表达项目(GTEx,v7p)发布了52个组织或细胞型的11,688个转录组,并且初步揭示了大量基因在组织中的常规表达情况[4;5]。大量文献也表明基因的组织特异表达会涉及特定组织的致病机理[6]。Antanaviciute等人甚至使用了组织特异基因表达图谱来寻找候选致病基因[7]。虽然这些进展令人鼓舞,但对于探究复杂特异表达模式还仅仅处于起步阶段,大多数与疾病相关基因的致病组织或细胞型仍然难以捉摸[8]。因此,现代生命科学和医学研究急需更好的方法对基于这些丰富基因表达资源进行深入探究基因的组织特异表达特性,进一步解析疾病的组织特异表达机理[9]
理论上而言,组织特异表达是指基因在一个或少数的几个组织中相对于大多数组织而言较高表达或者较低表达的情况[10]。但是,通常难点就在相对差异量的衡量,因为在实际分析中这种少数与绝大多数(或者众数)的边界是模糊不确定的。比方说,如果误将某个特异表达的组织放进绝大多数组织的这个类就会缩小另外一个特异表达组织与绝大多数组织类的相对差异,从而就会得到一个偏低的特异表达量。目前,有几种度量基因在组织中特异表达的方法[11]。然而,很多早期的方法只能判断一个基因是否有特异表达,而不能度量具体在那些个别的组织中有多少的特异表达[12;13]。后来的方法,可以检测单个组织中具体的特异表达量。但不能对特异表达量进行统计显著性评估。这在实际应用中是很常见的需求。
大体而言,目前求算组织特异性的计算方法主要分为两大类:一类是计算基因是否具有组织特异性(如Tau,Gini,TSI,Counts and Hg),不区分该基因在不同组织中的特异性程度;另一类算法则分别计算基因在每一类组织中的特异性程度(z-score,SPM,EE andPEM)。每类方法在特定的应用场景都具有特定的优势,最近有一项研究分析和比较了以上常用9种组织特异性的算法,在各项测试中,Tau在第一类方法中整体表现效果最好,而如果要确定基因在特定组织的特异性,PEM也能得出可接受的结果。
但在实际应用中,往往需要知道基因在特定组织中的特异性值,故对第二类算法是现在方法学研究的重点。以下是几个常用第二类方法的简单介绍。用xi表示基因x在组织i中的表达量,n表示所用组织的数目。
z-score的算法如下:
Figure GDA0003072731120000021
μ表示基因表达的平均值,σ表示标准差。
SPM(specificity measure):
Figure GDA0003072731120000022
EE(expressionenrichment):
Figure GDA0003072731120000023
PEM(preferential expression measure):
Figure GDA0003072731120000024
EE和PEM中的Si表示组织i中所有基因的表达量总和。
研究指出,用EE算法得出的基因组织特异性度分布与其他方法相比,呈现出过多基因分布于非特异表达的组织中,而只有少数基因存在于特异度较高的特异表达基因组织。而在进行5个随机组织的测试中,标准z-score表现出了最低的相关性,表明标准z-score对组织数目不稳定,不适用于数目较小的组织特异性测定;而在这四种算法中PEM的相关性表现最好。EE整合了基因所在组织的整体表达量信息,去除了所在组织基因整体表达量对基因表达特异性的影响,而PEM是在EE的基础之上用对数来进一步校正特异性指数;SPM则是通过取平方来校正特异性指数。
然而,从生物学上的解释来说标准z-score无疑是最明确的。当基因在某组织中相对于大多数组织有特异高的表达时,标准z-score方法可以得到一个正的特异表达值,而当基因在某组织中相对于大多数组织有特异低的表达时,标准z-score方法可以得到一个负的特异表达值。而且标准z-score方法理论上逼近正态分布,可以用正态分布近似计算特异表达的统计显著性程度。然而,标准z-score方法的理论缺陷也很明显。它用到了所有样本计算的平均值和方差,其中包含有具有特异表达的组织。当样本量较少的时候,特异表达的组织样本平均值和方差的估算影响特别大,这也就是为什么有研究指出标准z-score不适用于数目较小的组织特异性测定的根本原因。其实另外的三个方法(SPM,EE和PEM)也用了所有的样本计算,也会有类似的问题,只是因为它们求算的是商而不是差,影响程度会相对较小。而且,几乎没有有效区分少数与众数的方法,当某个基因在一个以上组织中都有特异表达的时候,现有方法检出特异表达的效能也常常比较低下[14]。这些问题最终的结局就是导致特异表达敏感度的降低。此外,三个方法也不利于计算统计显著性程度。
发明内容
本发明为解决现有技术提供的打分方法存在的对基因的组织特异表达敏感度较低和无法直接评估统计显著性的缺陷,提供了一种用于计算基因的组织特异表达的鲁棒z-score打分方法。
为实现以上发明目的,采用的技术方案是:
一种用于计算基因的组织特异表达的鲁棒z-score打分方法,包括以下步骤:
S1.取某个基因或转录本在N个组织的表达值按从小到达的顺序进行排序;
S2.为每个表达值构建线性拟合模型:
y(i)=β01*i+e(i) (1)
其中β0和β1是回归系数,其初始值利用最小二乘法生成,i∈[1…N]表示表达值排序的序号,y(i)表示排序后的第i个表达值,e(i)表示第i个表达值的残差;
S3.计算每个表达值的权值:
Figure GDA0003072731120000041
其中,w(i)是权值,k是加权阈值;
S4.根据计算得到的权值利用加权最小二乘法对β0、β1、e(i)进行更新;并令
Figure GDA0003072731120000042
其中
Figure GDA0003072731120000043
是前次加权的样本标准差;
S5.重复执行步骤S2~S4,直至β0和β1恒定,将β0和β1代入式(1)中,得到表达值y(i)的估计值
Figure GDA0003072731120000044
利用
Figure GDA0003072731120000045
y(i)求取残差,然后利用公式(2)求取权值;
S6.对w(i)进行标准化:
Figure GDA0003072731120000046
利用权值
Figure GDA0003072731120000047
产生加权均值μw和加权标准差σw
Figure GDA0003072731120000048
Figure GDA0003072731120000049
S7.计算鲁棒z-score:
Figure GDA00030727311200000410
S8.利用鲁棒z-score计算组织特异表达值的统计显著性pi值:
Figure GDA00030727311200000411
其中,Φ(x)是标准正态分布的分布函数;
S9.设定一个阈值,若pi小于设定的阈值,则拒绝零假设,认为该基因或细胞型在序号为i的组织上有特异表达;如果pi大于或等于设定的阈值,则接受零假设,认为该基因或细胞型在序号为i的组织上没有特异表达。
优选地,所述S9步骤中设定的阈值为0.05。
与现有技术相比,本发明的有益效果是:
本发明提供的方法对基因的组织特异表达有更高的敏感度,且能够直接评估统计显著性的有点,解决了现有技术的缺陷。
附图说明
图1为基因或者转录本在50个组织的标准表达值的示意图。
图2为基因或者转录本在上千个组织中的表达值的示意图。
图3为方法的流程示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
以下结合附图和实施例对本发明做进一步的阐述。
假设一个基因在N个不同的组织y1,…,yN有表达值,而且绝大部分的表达值(或称为众多数)近似服从正态分布,然而表达值在一个或者少数几个组织中特别低或高。那么目标是求少数的这一个(或几个)组织相对绝大多数组织特异多或少的表达量。如图1中a)所示,例如有一个基因在50个组织有表达,这50个表达值就是图中的50个点,其中两个组织具有高的特异表达,其余的48个表达没有特异表达。图中所示的是非常理想的情况,而实际情况却远没有这么明显区分。通常情况下,少数表达值(有特异表达组织)与大多数表达值(无特异表达组织)的界限是非常的模糊的,如图2中a)所示,因此很难追踪到。尤其是特异表达值越多,难度越大。因此,要实现对特异表达组织或细胞的精准定位,就要解决实际情况下少数值与众数之间没有清晰明确的界限的问题,而这一界限是没有客观的标准定义的。如果界限太松,相对值就会偏小,反之则会偏大。
目前广泛用于评估组织特异表达的一种方法就是技术背景中所提到的标准z-score算法。标准z-score算法通过计算单个组织中的表达值与所有表达值的平均值来近似推断相对特异值。但标准z-score算法没有考虑特异表达值与绝大多数非特异表达值之间的本质差异,而是以全部取值(特异值和非特异值一起)的平均值替代了众多数非特异值的平均值。因为这两者是不能等同的,所以导致了计算偏差。特别是在小样本和高特异性的情形下,因为特异值对平均值的影响较大时,偏差会更大,所以该方法通常不够有效。本发明针对这一瓶颈问题,提出了有效的解决方法,不是简单地规避分界问题,而是采用了更为科学的计算解决了分界问题,还可以准确量化表达值。
为了克服以上技术问题,本发明提供了一种用于计算基因的组织特异表达的鲁棒z-score打分方法,该方法能够准确量化基因在单个组织中相对于大多数值的特异性表达值。这是通过为每个表达值产生权值,且与鲁棒线性回归相结合实现的。
如图3所示,本发明提供的打分方法包括有以下步骤:
第一步、假定有N个不同的组织样本,用常规方法估算某个基因或转录本在每个样本中的表达量均值yi和标准差si。对该基因在N个组织的表达均值yi按从小到达的顺序进行排序。受众多数正态分布的值能在排序后近似形成一条直线的启发,先对看似在杂乱无章的表达值数据先排序,例如对如图2a)中一个基因或者转录本在上千个组织中的表达值排序。排序后,每个表达值都会有一个序号,序号从小到大,即表达值的秩。如图2b)所示,表达值都近似形成一条直线。
第二步、鲁棒线性回顾及求权值
(1)为每个表达值构建线性拟合模型:
y(i)=β01*i+e(i) (1)
其中β0和β1是回归系数,其初始值利用最小二乘法生成,i∈[1…N]表示表达值排序的序号,y(i)表示排序后的第i个表达值,e(i)表示第i个表达值的残差;
本发明采用了鲁棒线性回归模型中广泛应用的Huber方法的M估计法,M估计对正态和非正态分布都有效,而且比其他方法能更灵活强势地应对极端值相对变化。这非常适应处理表达值相对变化的情况,这也是目前需要解决的关键问题之一;
计算每个表达值的权值:
Figure GDA0003072731120000061
其中,w(i)是权值,k是加权阈值;
(2)根据计算得到的权值利用加权最小二乘法对β0、β1、e(i)进行更新;并令
Figure GDA0003072731120000062
其中
Figure GDA0003072731120000063
是前次加权的样本标准差;
(3)重复执行步骤S2~S4,直至β0和β1恒定,将β0和β1代入式(1)中,得到表达值y(i)的估计值
Figure GDA0003072731120000064
利用
Figure GDA0003072731120000065
、y(i)求取残差,然后利用公式(2)求取权值;
第三步、求取观测值加权后的均值和方差
对w(i)进行标准化:
Figure GDA0003072731120000066
利用权值
Figure GDA0003072731120000067
产生加权均值
Figure GDA0003072731120000068
和加权标准差
Figure GDA0003072731120000069
Figure GDA0003072731120000071
Figure GDA0003072731120000072
第四步、求鲁棒z-score
Figure GDA0003072731120000073
鲁棒z-score量化了每一个组织中的表达值与大部分表达值均值间的偏差,且鲁棒z-score用于计算表达特异性显著水平的P值。
第五步、鲁棒z-score计算表达特异性显著水平的P值
用鲁棒z-score量化后,偏差的统计显著性近似标准正态分布,
Figure GDA0003072731120000074
Figure GDA0003072731120000075
其中Φ(x)是标准正态分布的分布函数。最终,求得组织特异表达值的统计显著性pi值。然后根据实际需要决定P的阈值,一般设定为0.05。如果pi<0.05,拒绝零假设,认为该基因或细胞型在编号为i的组织上有特异表达;如果pi≥0.05,接受零假设,认为该基因或细胞型在编号为i的组织上没有特异表达。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (2)

1.一种用于计算基因的组织特异表达的鲁棒z-score打分方法,其特征在于:包括以下步骤:
S1.取某个基因或转录本在N个组织的表达值按从小到达的顺序进行排序;
S2.为每个表达值构建线性拟合模型:
y(i)=β01*i+e(i) (1)
其中β0和β1是回归系数,其初始值利用最小二乘法生成,i∈[1…N]表示表达值排序的序号,y(i)表示排序后的第i个表达值,e(i)表示第i个表达值的残差;
S3.计算每个表达值的权值:
Figure FDA0003072731110000011
其中,w(i)是权值,k是加权阈值;
S4.根据计算得到的权值利用加权最小二乘法对β0、β1、e(i)进行更新;并令
Figure FDA0003072731110000012
其中
Figure FDA0003072731110000013
是前次加权的样本标准差;
S5.重复执行步骤S2~S4,直至β0和β1恒定,将β0和β1代入式(1)中,得到表达值y(i)的估计值
Figure FDA0003072731110000014
利用
Figure FDA0003072731110000015
y(i)求取残差,然后利用公式(2)求取权值;
S6.对w(i)进行标准化:
Figure FDA0003072731110000016
利用权值
Figure FDA0003072731110000017
产生加权均值
Figure FDA0003072731110000018
和加权标准差
Figure FDA0003072731110000019
Figure FDA00030727311100000110
Figure FDA00030727311100000111
S7.计算鲁棒z-score:
Figure FDA00030727311100000112
S8.利用鲁棒z-score计算组织特异表达值的统计显著性pi值:
Figure FDA0003072731110000021
其中,Φ(x)是标准正态分布的分布函数;
S9.设定一个阈值,若pi小于设定的阈值,则拒绝零假设,认为该基因或细胞型在序号为i的组织上有特异表达;如果pi大于或等于设定的阈值,则接受零假设,认为该基因或细胞型在序号为i的组织上没有特异表达。
2.根据权利要求1所述的用于计算基因的组织特异表达的鲁棒z-score打分方法,其特征在于:所述S9步骤中设定的阈值为0.05。
CN201810837091.2A 2018-07-26 2018-07-26 一种用于计算基因的组织特异表达的鲁棒z-score打分方法 Active CN109243533B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810837091.2A CN109243533B (zh) 2018-07-26 2018-07-26 一种用于计算基因的组织特异表达的鲁棒z-score打分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810837091.2A CN109243533B (zh) 2018-07-26 2018-07-26 一种用于计算基因的组织特异表达的鲁棒z-score打分方法

Publications (2)

Publication Number Publication Date
CN109243533A CN109243533A (zh) 2019-01-18
CN109243533B true CN109243533B (zh) 2021-07-13

Family

ID=65073074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810837091.2A Active CN109243533B (zh) 2018-07-26 2018-07-26 一种用于计算基因的组织特异表达的鲁棒z-score打分方法

Country Status (1)

Country Link
CN (1) CN109243533B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112992266B (zh) * 2021-02-05 2021-09-21 深圳裕康医学检验实验室 一种评估肿瘤免疫耗竭状态的方法、装置和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101921847A (zh) * 2010-07-23 2010-12-22 福建师范大学 基于模糊k-nn算法的肿瘤基因表达谱分类方法
CN106709509A (zh) * 2016-11-30 2017-05-24 哈尔滨工业大学 一种基于时间序列特殊点的卫星遥测数据聚类方法
CN107301328A (zh) * 2017-05-19 2017-10-27 浙江工业大学 基于数据流聚类的癌症亚型精准发现与演化分析方法
CN107622183A (zh) * 2017-08-15 2018-01-23 上海派森诺生物科技股份有限公司 一种基于多重指标的胎儿染色体倍性检测分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101921847A (zh) * 2010-07-23 2010-12-22 福建师范大学 基于模糊k-nn算法的肿瘤基因表达谱分类方法
CN106709509A (zh) * 2016-11-30 2017-05-24 哈尔滨工业大学 一种基于时间序列特殊点的卫星遥测数据聚类方法
CN107301328A (zh) * 2017-05-19 2017-10-27 浙江工业大学 基于数据流聚类的癌症亚型精准发现与演化分析方法
CN107622183A (zh) * 2017-08-15 2018-01-23 上海派森诺生物科技股份有限公司 一种基于多重指标的胎儿染色体倍性检测分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
The impact of rare variation on gene expression across tissues;Xin Li et al;《Nature》;20171012;第550卷;第239-243页 *
基底样乳腺癌预后标志物的基因表达谱分析;章月桃 等;《军事医学》;20180430;第42卷(第4期);第275-278页 *

Also Published As

Publication number Publication date
CN109243533A (zh) 2019-01-18

Similar Documents

Publication Publication Date Title
CN106777891A (zh) 一种数据特征选择和预测方法及装置
CN112201330B (zh) 结合DRGs工具和贝叶斯模型的医疗质量监测评估方法
CN106202968B (zh) 癌症的数据分析方法及装置
CN109182462B (zh) 一种检测指标阴阳性的判定方法及装置
CN113053535B (zh) 一种医疗信息预测系统及医疗信息预测方法
CN107133491B (zh) 一种获取胎儿游离dna浓度的方法
CN114530249A (zh) 一种基于肠道微生物的疾病风险评估模型构建方法及应用
Tian et al. Using Z-number to measure the reliability of new information fusion method and its application in pattern recognition
JP7467504B2 (ja) 染色体異数性を判定するためおよび分類モデルを構築するための方法およびデバイス
CN116564409A (zh) 基于机器学习的转移性乳腺癌转录组测序数据识别方法
CN109243533B (zh) 一种用于计算基因的组织特异表达的鲁棒z-score打分方法
Simons et al. Simple scaling laws control the genetic architectures of human complex traits
CN117315379B (zh) 面向深度学习的医学影像分类模型公平性评估方法及装置
Huang et al. Evaluating and boosting uncertainty quantification in classification
CN116189909B (zh) 基于推举算法的临床医学判别方法及系统
WO2024011929A1 (zh) 检测胎儿染色体非整倍体异常的方法、装置及存储介质
CN114048320B (zh) 一种基于课程学习的多标签国际疾病分类训练方法
Zhao et al. The Bayesian polyvertex score (PVS-B): a whole-brain phenotypic prediction framework for neuroimaging studies
Ristanović et al. On the classification of normally distributed neurons: an application to human dentate nucleus
CN114898809A (zh) 适用复杂性状的基因-环境交互的分析方法及存储介质
CN113986970A (zh) 一种基于基线库数据的量费计算结果检测方法
WO2023025419A1 (en) Method and system for deconvolution of bulk rna-sequencing data
Mythili et al. CTCHABC-hybrid online sequential fuzzy Extreme Kernel learning method for detection of Breast Cancer with hierarchical Artificial Bee
Sun et al. Deep generative autoencoder for low-dimensional embeding extraction from single-cell RNAseq data
US20220246232A1 (en) Method for diagnosing disease risk based on complex biomarker network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant