CN116391237A - 确定个体免疫力指数的方法、设备、电子设备和机器可读存储介质 - Google Patents

确定个体免疫力指数的方法、设备、电子设备和机器可读存储介质 Download PDF

Info

Publication number
CN116391237A
CN116391237A CN202180065823.0A CN202180065823A CN116391237A CN 116391237 A CN116391237 A CN 116391237A CN 202180065823 A CN202180065823 A CN 202180065823A CN 116391237 A CN116391237 A CN 116391237A
Authority
CN
China
Prior art keywords
index
immune
determining
individual
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180065823.0A
Other languages
English (en)
Inventor
柴相花
袁玉英
王梦杰
强薇
李宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Shenzhen Co Ltd
Original Assignee
BGI Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Shenzhen Co Ltd filed Critical BGI Shenzhen Co Ltd
Publication of CN116391237A publication Critical patent/CN116391237A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Landscapes

  • Medical Informatics (AREA)
  • Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本发明涉及确定个体免疫力指数的方法、设备、电子设备和机器可读存储介质。根据本发明的实施例,该方法包括:获取待测个体的核酸测序数据;通过将所述测序结果与参考序列比对,确定所述核酸样本中所包含V/J序列以及CDR序列;基于所述核酸样本中所包含V/J序列以及CDR序列,确定统计特征,所述统计特征包括选自下列的至少之一:V/J基因使用多样性指数、免疫细胞多样性指数、免疫细胞种类数目、免疫细胞均一性指数;基于所述统计特征,确定所述个体的免疫年龄数值;和基于所述免疫年龄数值,确定所述个体的免疫力指数。通过测序可以采用少量的样本即可实施本发明的方法。

Description

确定个体免疫力指数的方法、设备、电子设备和机器可读存储介质 技术领域
本发明涉及生物医学领域,具体的,本发明涉及确定个体免疫力指数的方法、设备、电子设备和机器可读存储介质。
背景技术
免疫力是人体自身的防御机制,是人体识别和消灭外来侵入的任何异物(病毒、细菌等),处理衰老、损伤、死亡、变性的自身细胞,以及识别和处理体内突变细胞和病毒感染细胞的能力,是人体识别和排除“异己”的生理反应。人体的免疫力是依靠免疫系统来维护的,免疫系统是人体与生俱来拥有的世界上最好的医生。
免疫系统由两个相互配合的子系统组成,可提供先天免疫和适应性免疫。先天免疫是指保护人体免受毒素或异物(称为抗原)的非特异性防御机制。先天免疫系统的快速反应也会激活适应性系统,适应性系统是机体针对自身的抗原特异性反应。
适应性免疫系统由两种主要类型的淋巴细胞组成,称为B细胞和T细胞。这些淋巴细胞具有独特的抗原受体,每个独特的抗原受体仅识别一个抗原,这种特异性范围是由固定数目的基因片段编码的。通过一种称为V(D)J重组的机制,这些遗传区域在细胞发育过程中发生不可逆的体细胞DNA重组,从而形成具有单一特异性的成熟淋巴细胞。免疫库是指适应性免疫系统内所有独特的T细胞受体(TCR)和B细胞受体(BCR)遗传重排。
随着精准医学和免疫疗法的发展,免疫组库的应用场景越来越广泛。应用场景包括:生物标志物的挖掘,自身免疫性疾病和感染性疾病的检测,免疫排斥和耐受性评估,肿瘤免疫评估,免疫重建以及用药和疫苗评估。因此,免疫组库NGS检测为评估健康或疾病状态下的机体适应性免疫系统提供了技术支持。
目前市场上用来分析免疫功能的主要方法有:
1)免疫五项,检测血液中免疫球蛋白和补体的含量。即通过单向免疫扩散试验、酶联免疫吸附试验(ELISA)、放射免疫试验(RIA)、免疫固定电泳、免疫比浊法等方法,检测血液中免疫球蛋白G(IgG)、免疫球蛋白A(IgA)、免疫球蛋白M(IgM)、补体C3和C4的含量。免疫球蛋白和补体是体液免疫的主要效应成分,在某些疾病(如感染、自身免疫疾病、免疫缺陷病等)情况下,这些指标的浓度相对参考值将出现升高或降低,从而具有评估免疫力、诊断疾病的临床价值。然而,免疫五项检测针对体液免疫,不能很好评估细胞免疫。在评估体液免疫时,只能检测IgG、IgA、IgM和补体C3、C4的总体水平,不能在分子序列层次上进行深度分析。
2)血常规,利用细胞计数的方法分析外周血中白细胞的数量,白细胞数目的增高表明 体内存在炎症反应。即通过显微镜观测对外周血中的白细胞进行分类和计数。白细胞总数高于参考值上限称白细胞增多,低于参考值下限为白细胞减少。其增多和减少主要受中性粒细胞数量的影响,淋巴细胞等数量的改变也会引起白细胞总数的变化。从生理性变化到恶性肿瘤都有可能引起白细胞总数异常,医生可结合血常规检测结果进行临床诊断。然而,血常规检测只能大致判断细胞免疫整体水平的状况,无法分辨针对具体疾病的免疫,也无法在基因水平判断免疫细胞的分类和多样性。
淋巴细胞亚群分析,利用流式细胞分析以及PCR技术分析外周血中白细胞各个亚群的数目和相对比例。通过流式细胞分析或PCR技术,对外周血中免疫细胞的相对计数、绝对计数及其变化进行监控,分析疾病状态下的免疫状况(如肿瘤、感染性疾病、免疫性疾病等),以此辅助诊断、追踪病情发展及决定用药时机。最常检测的亚群包括T细胞(CD3)、B细胞(CD19)、NK细胞(CD16+56)、辅助性T细胞(CD3+CD4+)和抑制性T细胞(CD3+CD8+)等。然而,淋巴细胞亚群种类繁多,如进行全面分析,则需要采集的外周血量、费用及时间均难以接受。只进行少数几种淋巴细胞亚群分析,则难以获取全面的免疫系统状况。并且淋巴细胞亚群在不同年龄阶段有不同的正常参考范围,并且其结果受多种因素的影响,造成临床判读相对困难。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的一个目的旨在通过免疫组库测序方法从分子序列层面上对个体适应性免疫系统进行高灵敏度检测,通过免疫球蛋白基因和TCR基因的多种指标(如多样性、均一性等)的综合分析对个体免疫力评估,通过免疫年龄(Immune Age(IA))评估个体机体的健康状况,实现早期健康风险预测。
在本发明的第一方面,本发明提出了一种确定个体免疫力指数的方法,根据本发明的实施例,该方法包括:(1)获取待测个体的核酸测序数据;(2)通过将所述测序结果与参考序列比对,确定所述核酸样本中所包含V/J序列以及CDR序列;(3)基于所述核酸样本中所包含V/J序列以及CDR序列,确定统计特征,所述统计特征包括选自下列的至少之一:V/J基因使用多样性指数、免疫细胞多样性指数、免疫细胞种类数目、免疫细胞均一性指数;(4)基于所述统计特征,确定所述个体的免疫年龄数值;和(5)基于所述免疫年龄数值,确定所述个体的免疫力指数。
根据本发明的实施例,通过测序可以采用少量的样本即可实施本发明的方法,以从分子层面上实现对个体适应性免疫系统进行高灵敏度检测,而且可以实现无创的早期诊断、疗效评估、病情追踪、复发预测以及免疫力综合评估。例如根据本发明的实施例,可以采 用PCR技术扩增外周血中淋巴细胞含有的基因,所需血液样本少,样本后续处理简便,不需要进行不准确的人孔血细胞观察技术,也不需要操作复杂的免疫标记和流式分析。对于骨髓瘤检验,因为只需要采取外周血,不需要实施骨髓穿刺,可以减少对病人身体的损伤,具有积极的意义。总之,根据本发明的实施例,免疫组库测序进行免疫评估不仅可以提升检测的灵敏度,而且可以实现早期诊断,评估疗效,追踪病情,预测复发以及免疫力的综合评估等功能。
在本发明的第二方面,本发明提出了一种确定个体免疫力指数的设备,根据本发明的实施例,该设备包括:测序数据获取单元,用于获取待测个体的核酸测序数据;测序结果分析单元,用于通过将所述测序结果与参考序列比对,确定所述核酸样本中所包含V/J序列以及CDR序列;统计单元,用于基于所述核酸样本中所包含V/J序列以及CDR序列,确定统计特征,所述统计特征包括选自下列的至少之一:V/J基因使用多样性指数、免疫细胞多样性指数、免疫细胞种类数目、免疫细胞均一性指数;免疫年龄确定单元,用于基于所述统计特征,确定所述个体的免疫年龄数值;和免疫力指数确定单元,用于基于所述免疫年龄数值,确定所述个体的免疫力指数。
采用本发明的实施例的该设备,可以有效地实施前面所描述的确定个体免疫力的方法。由此,前面所描述的特征和优点同样适用于该设备,在此不再赘述。
在本发明的第三方面,本发明提出了一种电子设备,根据本发明的实施例,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现前面所述的确定个体免疫力指数的方法。
在本发明的第四方面,本发明提出了一种机器可读存储介质,根据本发明的实施例,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现前面任一项所述的确定个体免疫力指数的方法。
附图说明
图1是根据本发明一个实施例的确定个体免疫力指数的方法的流程示意图;
图2是根据本发明一个实施例的确定个体免疫力指数的方法的部分流程示意图;
图3是根据本发明一个实施例的确定个体免疫力指数的设备的结构示意图;
图4是根据本发明一个实施例的确定个体免疫力指数的设备的部分结构示意图;
图5是本发明实施例2中的不同年龄段人群的免疫力指数的预测结果;
图6是本发明实施例2中的免疫力指数与个体年龄关系的分布图。
具体实施方式
下面详细描述本发明的实施例。下面描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。实施例中未注明具体技术或条件的,按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品。
在本发明的第一方面,本发明提出了一种确定个体免疫力指数的方法。参考图1,根据本发明的实施例,该方法包括:
S100获取核酸测序数据
根据本发明的实施例,在该步骤中,首先获取来自待测个体的核酸测序数据,以便用于后续的分析。本领域技术人员能够理解的是,这些核酸测序数据可以含有免疫细胞的遗传信息,例如根据本发明的实施例,可以采用来自含有免疫细胞的血液样本或者含有免疫细胞的组织样本(这里所述的组织样本应做广义理解,可以包括器官的至少一部分),例如肠道、呼吸道、泌尿生殖道等黏膜下所含有的非包膜化的弥散性淋巴组织和淋巴小结等。
根据本发明的实施例,核酸测序数据可以通过高通量测序获得。例如二代或者三代测序平台,包括但不限于MGISEQ-T7、MGISEQ-2000、MGISEQ-200、BGISEQ-500、BGISEQ-50、MGISP-960、MGISP-100等高通量测序平台。
本领域技术人员可以在获取核酸后,可以按照测序平台的操作手册进行测序,以便获得核酸测序数据。例如,简言之,根据本发明的一个实施例,测序过程包括:
对于血液或者组织样本,提取DNA或者RNA,对于每个样本,取DNA或RNA的起始量,加入某条链的引物(TCR或者BCR),进行多重PCR扩增,PCR总共进行两轮,第一轮是VJ特异性引物(带部分测序接头)PCR反应,第二轮是测序接头进行普通的PCR建库。之后,多个样本汇总在一起进行测序,从而得到每个样本的数据。根据本发明的实施例中,在第二轮PCR中还可以引入标签序列,从而实现对样本批次的区分。
参考图2,根据本发明的具体实施例,获取核酸测序数据可以进一步包括:
S110获取核酸样本
在该步骤中,获取待测个体的核酸样本,核酸样本包括DNA分子和RNA分子的至少之一。本领域技术人员可以采用商购的试剂盒并按照制造商所提供的说明书进行DNA分子或RNA分子的提取。本领域技术人员能够理解的是,在获取RNA分子后,可以容易地采用逆转录处理,获得cDNA分子。
S120第一扩增处理
在获得核酸样本后,可以采用VJ特异性引物进行第一扩增处理,以便获得第一扩增产物。
需要说明的是,可以通过VJ特异性引物对步骤S110中得到的核酸样本中所包含的免疫细胞特有序列即V基因和J基因进行扩增。
本文中,VJ特异性引物是指可以扩增V基因和J基因的特异性引物,对于V基因和J基因,值得注意的是,对大多数基因座而言,它们根据其同源程度以家族形式聚集在一起。这些VJ特异性引物可以用于分析至少一个基因座位上V-J重排的组合多样性,基因座位选自座位TRA、TRB、TRG、TRD、IgH、IgK、IgL等。
根据本发明的实施例,本发明所采用VJ特异性引物具有下列核苷酸序列:
Figure PCTCN2021117149-APPB-000001
Figure PCTCN2021117149-APPB-000002
Figure PCTCN2021117149-APPB-000003
另外,根据本发明的实施例,VJ特异性引物含有测序接头的一部分序列。由此,方便后续通过第二扩增处理,在扩增产物中引入测序接头。
S130第二扩增处理
对第一扩增产物进行第二扩增处理,以便获得第二扩增产物,其中,第二扩增产物携带测序接头。
通过采用第一扩增产物中的共同序列,可以进行第二扩增处理,并且采用的引物可以设置为适于引入测序接头。由此,所得到的第二扩增产物构成了可以用于测序的测序文库。
当然本领域技术人员能够理解的是,为了提高测序效率或者方便分析,还可以对第二扩增产物进行其他常规的处理,例如杂交探针筛选等处理。在此不再赘述。
S140测序
对第二扩增产物进行测序,以便获得测序结果。
根据本发明的实施例,在构建测序文库之后,可以对测序文库(第二扩增产物)利用测序平台进行测序。根据本发明的实施例,核酸测序数据可以通过高通量测序获得。例如二代或者三代测序平台,包括但不限于MGISEQ-T7、MGISEQ-2000、MGISEQ-200、BGISEQ-500、BGISEQ-50、MGISP-960、MGISP-100等高通量测序平台。优选采用双末端测序。可以提高后续分析效率。
S200序列比对确定V/J序列和CDR序列
在获得测序数据后,根据本发明的实施例,通过将测序结果与参考序列比对,确定核酸样本中所包含V/J序列以及CDR序列。
根据本发明的实施例,在进行比对之前,可以采用例如SOAPnuke(v1.5.3)等软件对原始测序数据进行接头污染序列、低质量碱基和序列的过滤。
用自主开发程序把FASTQ文件转换为FASTA文件,以便进行序列拼接;最后,如果测序模式是双末端测序,则采用COPE(v1.5.3)和自主开发的程序对序列进行拼接。接下来, 可以采用blastall(v2.2.25)对预处理之后的FASTA序列比对到V(D)J参考基因序列上,接下来采用自主开发的程序进行重比对并选择最佳的比对结果,即:对non-CDR3、CDR3区域用不同方法统计分数,选取得分最高的best hit,通过与CDR、V、J参考序列进行比对来确定测序序列的归属,以便确定CDR序列和VJ序列的。
在得到V基因和J基因的序列后,对免疫分子的结构进行分析此部分主要包含两个功能:错误矫正和区域确定。首先,采用自主开发程序对PCR和测序环节的引入的错误进行矫正,其次利用V/J基因参考序列与保守氨基酸的规律与建立的计算方法确定CDR区域。
根据本发明的实施例,可以通过常用的方法确定CDR序列。根据本发明的实施例,CDR序列为CDR1、CDR2和CDR3序列的至少之一,优选CDR3序列。因为CDR3变异最大,直接决定了TCR的抗原结合特异性。TCR的CDR3由V、D、J三个基因编码,在淋巴细胞的成熟过程中,通过V、D、J基因的重排形成了各种重组序列片段,再加上DNA碱基的SNP、Indel突变形成了T细胞的多样性。
在本文中所使用的术语“V/J”是指针对特定细胞,其所具有的V(D)J重排的结果的至少一部分,其可以是V基因序列,J基因序列,也可以是V基因序列与J基因序列的组合,还有可能在V基因序列和J基因序列中夹着D基因序列。
S300确定统计特征
基于核酸样本中所包含V/J序列以及CDR序列,确定统计特征,统计特征包括选自下列的至少之一:V/J基因使用多样性指数、免疫细胞多样性指数、免疫细胞种类数目、免疫细胞均一性指数。
根据本发明的实施例,V/J基因使用多样性指数和免疫细胞多样性指数的至少之一为香农指数。根据本发明的实施例,免疫细胞的种类是基于CDR3序列确定的。
根据本发明的实施例,免疫细胞均一性指数为基尼指数。
根据本发明的实施例,对免疫组库特征数据进行统计,统计特征主要包括以下几个:
V/J基因使用多样性,即Shannon_index(V-J);
免疫多样性,即Shannon_index(CDR3_aa);
免疫细胞种类,即Uniq_number(CDR3_aa);
免疫细胞均一性,即Clone_Gini。
以上指标中,Shannon_index表示Shannon指数,计算公式如下:
Figure PCTCN2021117149-APPB-000004
其中,如果以CDR3为例,S表示唯一CDR3的总数,p(i)表示CDR3的频率。
Uniq_number表示唯一序列数。
Clone_Gini表示Gini指数,计算公式如下:
Figure PCTCN2021117149-APPB-000005
其中,x指每一种免疫细胞类型出现的频率,n指免疫细胞种类数。
S400确定免疫年龄数值
在该步骤中,基于统计特征,确定个体的免疫年龄数值。
根据本发明的实施例,基于至少一个统计特征,利用最大后验概率估计,确定免疫年龄数值。
根据本发明的实施例,在步骤S400中,进一步包括:(4-1)利用预先确定的免疫年龄预测系数分布(主要依据选取特征的特性确定参数先验分布,如果选取的特征是连续,在大数据量的情况下,一般认为是正态分布),基于统计特征的每一个,分别确定各统计特征所对应的免疫年龄预测系数;和(4-2)按照公式
Figure PCTCN2021117149-APPB-000006
确定个体的免疫年龄,其中,IA表示个体的免疫年龄,i表示统计特征的编号,n表示统计特征的数目,θi表示第i个统计特征所对应的免疫年龄预测系数,xi表示第i个统计特征的数值,θ0表示预测模型中的偏置项。
为了方便理解,下面对最大后验概率估计的原理进行解释如下:
根据本发明的实施例,基于以上特征指数,结合生化指标采用MAP(maximum a posteriori probability estimate,最大后验概率估计)模型进行IA计算,从而进行综合性免疫力评估和机体风险预测,具体原理如下:
MAP的理论依据源于贝叶斯模型,贝叶斯公式如下:
Figure PCTCN2021117149-APPB-000007
由全概率公式将B时间展开得到如下公式:
Figure PCTCN2021117149-APPB-000008
其中,~A表示“非A”,
生化指标主要包括常规的指标,如大生化、血常规等。
MAP的原理具体如下:
最大后验概率假设在给定观测指标x下,预测参数θ的取值,假设f为x的抽样分布,则f(x|θ)为在给定参数θ时观测值为x的概率。假设g为参数θ的先验分布(可由训练数据得到),则根据贝叶斯公式,有:
Figure PCTCN2021117149-APPB-000009
其中,训练数据主要依据选取特征的特性确定参数先验分布,如果选取的特征是连续,在大数据量的情况下,一般认为是正态分布,如果是离散的,直接按照下面的公式加权累乘即可。选取的训练集成员主要包括免疫组库分析得到的一些指标(V/J基因使用多样性,免疫多样性,免疫细胞种类,免疫细胞均一性)以及一些生化指标(大生化,血常规等)。
其中,
Figure PCTCN2021117149-APPB-000010
为θ的参数空间,由于参数空间
Figure PCTCN2021117149-APPB-000011
是连续的,因此分母以积分的形式计算,则:
Figure PCTCN2021117149-APPB-000012
其中
Figure PCTCN2021117149-APPB-000013
为使函数f(x|θ)g(θ)取最大值的参数,即预测Immune Age(IA)的系数。若观测值为n维的(即x=(x 1,x 2,…,x n)),则
Figure PCTCN2021117149-APPB-000014
IA的预测公式如下:
Figure PCTCN2021117149-APPB-000015
S500确定免疫力指数
在该步骤中,基于免疫年龄数值,确定个体的免疫力指数。
根据本发明的实施例,免疫力指数是通过下列公式确定的:
Figure PCTCN2021117149-APPB-000016
其中,IA表示在步骤S400中确定的免疫年龄数值,IAmax表示预先确定的群体中的IA上限,IAmin表示预先确定的群体中的IA下限。
在确定个体的免疫力指数后,该技术方案可以实现从分子层面上实现对个体适应性免疫系统进行高灵敏度检测,而且可以实现无创的早期诊断、疗效评估、病情追踪、复发预测以及免疫力综合评估。
根据本发明的实施例,通过测序可以采用少量的样本即可实施本发明的方法,以从分子层面上实现对个体适应性免疫系统进行高灵敏度检测,而且可以实现无创的早期诊断、疗效评估、病情追踪、复发预测以及免疫力综合评估。例如根据本发明的实施例,可以采用PCR技术扩增外周血中淋巴细胞含有的基因,所需血液样本少,样本后续处理简便,不需要进行不准确的人孔血细胞观察技术,也不需要操作复杂的免疫标记和流式分析。对于骨髓瘤检验,因为只需要采取外周血,不需要实施骨髓穿刺,可以减少对病人身体的损伤,具有积极的意义。总之,根据本发明的实施例,免疫组库测序进行免疫评估不仅可以提升 检测的灵敏度,而且可以实现早期诊断,评估疗效,追踪病情,预测复发以及免疫力的综合评估等功能。
在本发明的第二方面,本发明提出了一种确定个体免疫力指数的设备,根据本发明的实施例,参考图3,该设备包括:
测序数据获取单元100、测序结果分析单元200、统计单元300、免疫年龄确定单元400和免疫力指数确定单元500。其中,测序数据获取单元100,用于获取待测个体的核酸测序数据;测序结果分析单元200,用于通过将测序结果与参考序列比对,确定核酸样本中所包含V/J序列以及CDR序列;统计单元300,用于基于核酸样本中所包含V/J序列以及CDR3序列,确定统计特征,统计特征包括选自下列的至少之一:V/J基因使用多样性指数、免疫细胞多样性指数、免疫细胞种类数目、免疫细胞均一性指数;免疫年龄确定单元400,用于基于统计特征,确定个体的免疫年龄数值;免疫力指数确定单元500,用于基于免疫年龄数值,确定个体的免疫力指数。
采用本发明的实施例的该设备,可以有效地实施前面所描述的确定个体免疫力的方法。由此,前面所描述的特征和优点同样适用于该设备,在此不再赘述。
根据本发明的实施例,参考图4,测序数据获取单元进一步包括:核酸样本获取模块110、第一扩增模块120和第二扩增模块130、测序模块140。其中,根据本发明的实施例,核酸样本获取模块110,用于获取待测个体的核酸样本,核酸样本包括DNA分子和RNA分子的至少之一;第一扩增模块120,用于采用VJ特异性引物进行第一扩增处理,以便获得第一扩增产物;第二扩增模块130,用于对第一扩增产物进行第二扩增处理,以便获得第二扩增产物,其中,第二扩增产物携带测序接头;测序模块140,用于对第二扩增产物进行测序,以便获得测序结果;核酸样本是从个体的血液或者组织样本中获得的。
根据本发明的实施例,VJ特异性引物含有测序接头的一部分序列。
根据本发明的实施例,CDR序列为CDR1、CDR2和CDR3序列的至少之一,优选CDR3序列。
根据本发明的实施例,V/J基因使用多样性指数和免疫细胞多样性指数的至少之一为香农指数。
根据本发明的实施例,免疫细胞的种类是基于CDR3序列确定的。
根据本发明的实施例,免疫细胞均一性指数为基尼指数。
根据本发明的实施例,免疫年龄确定单元适于基于至少一个统计特征,利用最大后验概率估计,确定免疫年龄数值。
根据本发明的实施例,免疫年龄确定单元用于:利用预先确定的免疫年龄预测系数分 布,基于统计特征的每一个,分别确定各统计特征所对应的免疫年龄预测系数;和按照公式
Figure PCTCN2021117149-APPB-000017
确定个体的免疫年龄,其中,IA表示个体的免疫年龄,i表示统计特征的编号,n表示统计特征的数目,θi表示第i个统计特征所对应的免疫年龄预测系数,xi表示第i个统计特征的数值,θ0表示预先预测模型中的偏置项。
根据本发明的实施例,免疫力指数是通过下列公式确定的:
Figure PCTCN2021117149-APPB-000018
其中,IA表示在免疫年龄确定单元中确定的免疫年龄数值,IAmax表示预先确定的群体中的IA上限,IAmin表示预先确定的群体中的IA下限。
在本发明的第三方面,本发明提出了一种电子设备,根据本发明的实施例,包括处理器和存储器,存储器存储有能够被处理器执行的机器可执行指令,处理器执行机器可执行指令以实现前面的确定个体免疫力指数的方法。
在本发明的第四方面,本发明提出了一种机器可读存储介质,根据本发明的实施例,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现前面任一项的确定个体免疫力指数的方法。
实施例1:
1、测序数据获取
采集1000例志愿者的外周血液5mL,利用DNA提取试剂盒提取外周血样本的DNA,利用V基因和J基因特异性引物对DNA样本进行扩增,引物中带有部分测序接头,以便获得带有部分测序接头的V基因样本和J基因样本。
针对所得到的扩增样本,再利用带有测序接头的引物进行进一步扩增建库,并对测序文库进行高通量测序。
2、测序数据分析
数据下机后,对测序数据进行如下分析:
(1)采用SOAPnuke(v1.5.3)对原始测序数据进行接头污染序列、低质量碱基和序列(根据序列中碱基的平均质量值和所含的N碱基数量占比两个指标进行过滤,“read的碱基质量值小于等于20”、“N碱基数大于等于5”,两者满足其一或全满足的被过滤掉)的过滤;
(2)把FASTQ文件转换为FASTA文件;
(3)采用blastall(v2.2.25)对预处理之后的FASTA序列比对到V(D)J参考基因序列上,并进行重比对,选择最佳的比对结果;
(4)将比对后的序列数据进行结构分析(错误校正和区域确定),采用华大基因结构分析程序对PCR和测序环节的引入的错误进行矫正,其次利用V/J基因参考序列与保守氨基酸的规律与建立的计算方法确定CDR3区域。
3、指标统计与预测
对免疫组库特征数据进行统计,并根据自主开发模型进行免疫力预测和分析。
统计特征主要包括以下几个:
V/J基因使用多样性,即Shannon_index(V-J);
免疫多样性,即Shannon_index(CDR3_aa);
免疫细胞种类,即Uniq_number(CDR3_aa);
免疫细胞均一性,即Clone_Gini。
以上指标中,Shannon_index表示Shannon指数,计算公式如下:
Figure PCTCN2021117149-APPB-000019
其中,如果以CDR3为例,S表示唯一CDR3的总数,p(i)表示CDR3的频率。
Uniq_number表示唯一序列数。
Clone_Gini表示Gini指数,计算公式如下:
Figure PCTCN2021117149-APPB-000020
其中,x指每一种免疫细胞类型出现的频率,n指免疫细胞种类数。
基于以上特征指数,结合血常规生化指标采用MAP(maximum a posteriori probability estimate,最大后验概率估计)模型进行IA计算,从而进行综合性免疫力评估和机体风险预测。
Figure PCTCN2021117149-APPB-000021
其中
Figure PCTCN2021117149-APPB-000022
为使函数f(x|θ)g(θ)取最大值的参数,即预测Immune Age(IA)的系数。若观测值为n维的(即x=(x 1,x 2,…,x n)),则
Figure PCTCN2021117149-APPB-000023
IA的预测公式如下:
Figure PCTCN2021117149-APPB-000024
确定免疫力:
基于预测出来的IA,结合群体分布特征,最终确定个体免疫力Immune Index(II)情况,具体模型如下:
Figure PCTCN2021117149-APPB-000025
其中,IA表示预测样本的免疫年龄,IA max和IA min分别表示群体分布中的上限和下限。
实施例2:
1、测序数据获取
采集439例志愿者的外周血液5mL,利用DNA提取试剂盒提取外周血样本的DNA,利用V基因和J基因特异性引物对DNA样本进行扩增,引物中带有部分测序接头,以便获得带有部分测序接头的V基因样本和J基因样本。
针对所得到的扩增样本,再利用带有测序接头的引物进行进一步扩增建库,并对测序文库进行高通量测序。
2、测序数据分析
数据下机后,对测序数据进行如下分析:
(1)采用SOAPnuke(v1.5.3)对原始测序数据进行接头污染序列、低质量碱基和序列(根据序列中碱基的平均质量值和所含的N碱基数量占比两个指标进行过滤,“read的碱基质量值小于等于20”、“N碱基数大于等于5”,两者满足其一或全满足的被过滤掉)的过滤;
(2)把FASTQ文件转换为FASTA文件;
(3)采用blastall(v2.2.25)对预处理之后的FASTA序列比对到V(D)J参考基因序列上,并进行重比对,选择最佳的比对结果;
(4)将比对后的序列数据进行结构分析(错误校正和区域确定),采用华大基因结构分析程序对PCR和测序环节的引入的错误进行矫正,其次利用V/J基因参考序列与保守氨基酸的规律与建立的计算方法确定CDR3区域。
3、指标统计
对免疫组库特征数据进行统计,统计特征主要包括以下3个:
免疫多样性,即Shannon_index(CDR3_aa);
免疫细胞种类,即Uniq_number(CDR3_aa);
序列多样性,即Uniq_number(seq_aa)。
以上指标中,Shannon_index表示Shannon指数,计算公式如下:
Figure PCTCN2021117149-APPB-000026
其中,如果以CDR3为例,S表示唯一CDR3的总数,p(i)表示CDR3的频率。
Uniq_number表示唯一序列数。
4、预处理
移除3个含有缺失值的样本。
5、模型训练
将剩余436个样本按年龄分为3组(20-30岁、30-50岁、>50岁),从每组各随机抽取75%的样本并将其合并为训练集,剩余的111个样本作为测试集。
使用训练集,基于上述3个免疫组库特征指数,采用MAP(maximum a posteriori probability estimate,最大后验概率估计)模型进行IA计算,从而进行综合性免疫力评估和机体风险预测。模型参数的训练过程如下:
Figure PCTCN2021117149-APPB-000027
其中
Figure PCTCN2021117149-APPB-000028
为使函数f(x|θ)g(θ)取最大值的参数,即预测Immune Age(IA)的系数。此处观测值是3维的(即x=(x 1,x 2,x 3)),则
Figure PCTCN2021117149-APPB-000029
基于训练出的参数,得到IA的预测公式:
Figure PCTCN2021117149-APPB-000030
基于预测出来的IA,结合群体分布特征,最终确定个体免疫力Immune Index(II)。具体公式如下:
Figure PCTCN2021117149-APPB-000031
其中,IA表示预测样本的免疫年龄,IA max和IA min分别表示群体分布中的上限和下限。
6、II预测结果
从图5和6可以看出,随着年龄的增加,免疫力指数呈下降趋势。尽管年龄段大于50的样本量较少,图6呈现出的免疫力指数下降趋势不太明显,但图5中呈现出的免疫力指数下降趋势较明显。因此,该实施例的结果表明,免疫力指数可以作为一个用来评估健康指数的指标。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的, 不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (23)

  1. 一种确定个体免疫力指数的方法,其特征在于,包括:
    (1)获取待测个体的核酸测序数据;
    (2)通过将所述测序结果与参考序列比对,确定所述核酸样本中所包含V/J序列以及CDR序列;
    (3)基于所述核酸样本中所包含V/J序列以及CDR序列,确定统计特征,所述统计特征包括选自下列的至少之一:V/J基因使用多样性指数、免疫细胞多样性指数、免疫细胞种类数目、免疫细胞均一性指数;
    (4)基于所述统计特征,确定所述个体的免疫年龄数值;和
    (5)基于所述免疫年龄数值,确定所述个体的免疫力指数。
  2. 根据权利要求1所述的方法,其特征在于,所述测序数据是通过下列步骤获得的:
    (1-1)获取待测个体的核酸样本,所述核酸样本包括DNA分子和RNA分子的至少之一;
    (1-2)采用VJ特异性引物进行第一扩增处理,以便获得第一扩增产物;
    (1-3)对所述第一扩增产物进行第二扩增处理,以便获得第二扩增产物,其中,所述第二扩增产物携带测序接头;
    (1-4)对所述第二扩增产物进行测序,以便获得测序结果;
    所述核酸样本是从所述个体的血液或者组织样本中获得的。
  3. 根据权利要求1所述的方法,其特征在于,所述VJ特异性引物含有所述测序接头的一部分序列。
  4. 根据权利要求1所述的方法,其特征在于,所述CDR序列为CDR1、CDR2和CDR3序列的至少之一。
  5. 根据权利要求4所述的方法,其特征在于,所述CDR序列为CDR3序列。
  6. 根据权利要求1所述的方法,其特征在于,所述V/J基因使用多样性指数和免疫细胞多样性指数的至少之一为香农指数。
  7. 根据权利要求1所述的方法,其特征在于,所述免疫细胞的种类是基于所述CDR3序列确定的。
  8. 根据权利要求1所述的方法,其特征在于,所述免疫细胞均一性指数为基尼指数。
  9. 根据权利要求1所述的方法,其特征在于,基于至少一个所述统计特征,利用最大后验概率估计,确定所述免疫年龄数值。
  10. 根据权利要求1所述的方法,其特征在于,在步骤(4)中,进一步包括:
    (4-1)利用预先确定的免疫年龄预测系数分布,基于所述统计特征的每一个,分别确定各所述统计特征所对应的免疫年龄预测系数;和
    (4-2)按照公式
    Figure PCTCN2021117149-APPB-100001
    确定所述个体的免疫年龄,
    其中,IA表示所述个体的免疫年龄,i表示所述统计特征的编号,n表示所述统计特征的数目,θi表示第i个所述统计特征所对应的免疫年龄预测系数,xi表示第i个所述统计特征的数值,θ0表示预测模型中的偏置项。
  11. 根据权利要求10所述的方法,其特征在于,所述免疫力指数是通过下列公式确定的:
    Figure PCTCN2021117149-APPB-100002
    其中,IA表示在步骤(4)中确定的所述免疫年龄数值,IAmax表示预先确定的群体中的IA上限,IAmin表示预先确定的群体中的IA下限。
  12. 一种确定个体免疫力指数的设备,其特征在于,包括:
    测序数据获取单元,用于获取待测个体的核酸测序数据;
    测序结果分析单元,用于通过将所述测序结果与参考序列比对,确定所述核酸样本中所包含V/J序列以及CDR序列;
    统计单元,用于基于所述核酸样本中所包含V/J序列以及CDR序列,确定统计特征,所述统计特征包括选自下列的至少之一:V/J基因使用多样性指数、免疫细胞多样性指数、免疫细胞种类数目、免疫细胞均一性指数;
    免疫年龄确定单元,用于基于所述统计特征,确定所述个体的免疫年龄数值;和
    免疫力指数确定单元,用于基于所述免疫年龄数值,确定所述个体的免疫力指数。
  13. 根据权利要求12所述的设备,其特征在于,所述测序数据获取单元进一步包括:
    核酸样本获取模块,用于获取待测个体的核酸样本,所述核酸样本包括DNA分子和RNA分子的至少之一;
    第一扩增模块,用于采用VJ特异性引物进行第一扩增处理,以便获得第一扩增产物;
    第二扩增模块,用于对所述第一扩增产物进行第二扩增处理,以便获得第二扩增产物,其中,所述第二扩增产物携带测序接头;
    测序模块,用于对所述第二扩增产物进行测序,以便获得测序结果;
    所述核酸样本是从所述个体的血液或者组织样本中获得的。
  14. 根据权利要求12所述的设备,其特征在于,所述VJ特异性引物含有所述测序接头的一部分序列。
  15. 根据权利要求12所述的设备,其特征在于,所述CDR序列为CDR1、CDR2和 CDR3序列的至少之一,优选CDR3序列。
  16. 根据权利要求12所述的设备,其特征在于,所述V/J基因使用多样性指数和免疫细胞多样性指数的至少之一为香农指数。
  17. 根据权利要求12所述的设备,其特征在于,所述免疫细胞的种类是基于所述CDR3序列确定的。
  18. 根据权利要求12所述的设备,其特征在于,所述免疫细胞均一性指数为基尼指数。
  19. 根据权利要求12所述的设备,其特征在于,所述免疫年龄确定单元适于基于至少一个所述统计特征,利用最大后验概率估计,确定所述免疫年龄数值。
  20. 根据权利要求12所述的设备,其特征在于,所述免疫年龄确定单元用于:
    利用预先确定的免疫年龄预测系数分布,基于所述统计特征的每一个,分别确定各所述统计特征所对应的免疫年龄预测系数;和
    按照公式
    Figure PCTCN2021117149-APPB-100003
    确定所述个体的免疫年龄,
    其中,IA表示所述个体的免疫年龄,i表示所述统计特征的编号,n表示所述统计特征的数目,θi表示第i个所述统计特征所对应的免疫年龄预测系数,xi表示第i个所述统计特征的数值,θ0表示预测模型中的偏置项。
  21. 根据权利要求20所述的设备,其特征在于,所述免疫力指数是通过下列公式确定的:
    Figure PCTCN2021117149-APPB-100004
    其中,IA表示在所述免疫年龄确定单元中确定的所述免疫年龄数值,IAmax表示预先确定的群体中的IA上限,IAmin表示预先确定的群体中的IA下限。
  22. 一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现权利要求1-11任一项所述的确定个体免疫力指数的方法。
  23. 一种机器可读存储介质,其特征在于,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现权利要求1-11任一项所述的确定个体免疫力指数的方法。
CN202180065823.0A 2021-03-30 2021-09-08 确定个体免疫力指数的方法、设备、电子设备和机器可读存储介质 Pending CN116391237A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202110342463 2021-03-30
CN2021103424636 2021-03-30
PCT/CN2021/117149 WO2022205775A1 (zh) 2021-03-30 2021-09-08 确定个体免疫力指数的方法、设备、电子设备和机器可读存储介质

Publications (1)

Publication Number Publication Date
CN116391237A true CN116391237A (zh) 2023-07-04

Family

ID=83455556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180065823.0A Pending CN116391237A (zh) 2021-03-30 2021-09-08 确定个体免疫力指数的方法、设备、电子设备和机器可读存储介质

Country Status (2)

Country Link
CN (1) CN116391237A (zh)
WO (1) WO2022205775A1 (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8815524B2 (en) * 2006-06-15 2014-08-26 National University Corporation, Tokyo Medical And Dental University Immunity evaluation method, immunity evaluation apparatus, immunity evaluation program and data recording medium having the immunity evaluation program stored therein
WO2014121272A2 (en) * 2013-02-04 2014-08-07 Quake Stephen R Measurement and comparison of immune diversity by high-throughput sequencing
US11754552B2 (en) * 2017-06-09 2023-09-12 The Regents Of The University Of California Use of immune repertoire diversity for predicting transplant rejection
EP3791181A4 (en) * 2018-05-07 2022-02-23 Technion Research & Development Foundation Limited IMMUNAGE AND ITS USE
EP3935386A4 (en) * 2019-03-04 2023-01-18 The National Institute for Biotechnology in the Negev Ltd. KITS, COMPOSITIONS AND METHODS FOR EVALUATION OF IMMUNE SYSTEM STATUS
CN112331344B (zh) * 2020-11-12 2021-08-03 深圳泛因医学有限公司 免疫状态评估方法及应用

Also Published As

Publication number Publication date
WO2022205775A1 (zh) 2022-10-06

Similar Documents

Publication Publication Date Title
US9290811B2 (en) Measurement and comparison of immune diversity by high-throughput sequencing
CN104271759B (zh) 作为疾病信号的同种型谱的检测
CN110246539B (zh) 一种免疫力水平评估的方法及装置
CN105506115A (zh) 一种检测诊断遗传性心肌病致病基因的dna文库及其应用
WO2014011735A1 (en) Methods and kits for integrating genomic sequences with immune monitoring
CN107208131A (zh) 用于肺癌分型的方法
CN111534602A (zh) 一种基于高通量测序分析人类血型基因型的方法及其应用
Mhanna et al. Adaptive immune receptor repertoire analysis
US20220170101A1 (en) Method for identifying disease-associated cdr3 patterns in an immune repertoire
CN109072306A (zh) 分离的核酸及应用
KR20240110613A (ko) 면역학적 펩타이드 서열을 평가하기 위한 시스템 및 방법
CN112118781A (zh) 通过t细胞受体亚基库多样性的分析评估移植排斥状态
CN116391237A (zh) 确定个体免疫力指数的方法、设备、电子设备和机器可读存储介质
CN113178257A (zh) 肺结节的分类模型的训练方法
US20220148690A1 (en) Immunorepertoire wellness assessment systems and methods
CN114512244A (zh) 一种基于深度学习的感染类疾病无创诊断方法
CN114203254B (zh) 一种基于人工智能分析免疫特征相关tcr的方法
CN117233389A (zh) 用于快速鉴定急性髓系白血病中cebpa双突变的标志物
CN117286249A (zh) 用于肝癌预后评估的t细胞抗原受体标志物及其应用
CN117887869A (zh) 微生物标志物在诊断尿酸异常相关疾病中的应用
CN117821595A (zh) 早期前体t急性淋巴细胞白血病的生物标志物
CN114591909A (zh) 一种确定tat细胞的方法
CN116445606A (zh) 血清分子标志物comp在辅助诊断抑郁症中的应用
CN111647652A (zh) 一种与肾病综合征相关的肠道菌属Catabacter及其应用
WO2020009822A1 (en) Method for machine learning to find patterns in ensembles of biological sequences based on biophysical properties

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination