CN111402957B - 一种基于神经网络的免疫特征识别方法 - Google Patents

一种基于神经网络的免疫特征识别方法 Download PDF

Info

Publication number
CN111402957B
CN111402957B CN202010161088.0A CN202010161088A CN111402957B CN 111402957 B CN111402957 B CN 111402957B CN 202010161088 A CN202010161088 A CN 202010161088A CN 111402957 B CN111402957 B CN 111402957B
Authority
CN
China
Prior art keywords
neural network
bcr
tcr
control group
subject
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010161088.0A
Other languages
English (en)
Other versions
CN111402957A (zh
Inventor
张志新
杨鑫
卓越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Exab Biotechnology Co Ltd
Original Assignee
Chengdu Exab Biotechnology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Exab Biotechnology Co Ltd filed Critical Chengdu Exab Biotechnology Co Ltd
Priority to CN202010161088.0A priority Critical patent/CN111402957B/zh
Publication of CN111402957A publication Critical patent/CN111402957A/zh
Application granted granted Critical
Publication of CN111402957B publication Critical patent/CN111402957B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种基于神经网络的免疫特征识别方法,根据高通量测序得到的受试者的B细胞受体(BCR)或T细胞受体(TCR)的可变区序列(CDR3序列),与对照群体的BCR或TCR可变区序列(CDR3序列)集合进行比较,得到受试者个体或群体,对照群体差异的免疫特征序列,利用前馈反向传播(BP)神经网络算法构建受试者和对照组免疫特征模型,可在分子水平识别样本的免疫特征。

Description

一种基于神经网络的免疫特征识别方法
技术领域
本发明属于免疫特征鉴定技术领域,具体涉及一种基于神经网络的免疫特征识别方法的设计。
背景技术
鉴定特定生物(包括但不限于人类、哺乳动物)个体或群体相对于对照组的免疫特征,是生物学和医学研究中重要且必须的检测。现有的检测方法主要有抗体/免疫因子检测、血常规检测、淋巴细胞亚群分析等。
其中,抗体/免疫因子检测通过酶联免疫吸附试验(ELISA)、荧光定量PCR试验等方法,检测血液中免疫球蛋白、补体、干扰素、白介素等抗体和/或免疫因子的含量,或者检测免疫细胞表达这些抗体和/或免疫因子的水平。免疫球蛋白和细胞因子是体液免疫的重要效应成分,在生物体的免疫状况发生改变(如感染、药物、疫苗接种等)情况下,这些指标相对参考值将出现升高或降低。然而这种检测只针对体液免疫,不能很好评估细胞免疫。在样本量、经费和时间有限的情况下,只能检测部分因子的水平,也不能在分子序列层次上进行深度分析。
免疫细胞即白细胞,主要分为淋巴细胞和巨噬细胞,是免疫系统的基本组成单位。血常规检测是通过显微镜观测对外周血中的白细胞进行分类和计数。白细胞的增多和减少主要受中性粒细胞数量的影响,淋巴细胞等数量的改变也会引起白细胞总数的变化。血常规检测只能大致判断细胞免疫整体水平的状况,无法精确分辨生物体针对感染、药物等刺激产生免疫的状况,也无法在基因水平判断免疫细胞的分类和多样性。
淋巴细胞亚群分析通过流式细胞分析或PCR技术,对外周血中免疫细胞的相对计数、绝对计数及其变化进行监控。最常检测的亚群包括T细胞(CD3)、B细胞(CD19)、NK细胞(CD16+56)、辅助性T细胞(CD3+CD4+)和抑制性T细胞(CD3+CD8+)等。然而淋巴细胞亚群种类繁多,如进行全面分析,则需要采集的外周血量、费用及时间均难以接受。只进行少数几种淋巴细胞亚群分析,则难以获取全面的免疫系统状况。
发明内容
本发明的目的是提出一种基于神经网络的免疫特征识别方法,利用BP神经网络分析受试者个体或群体的B细胞受体(BCR)或T细胞受体(TCR)的可变区序列(CDR3序列),识别其与对照组不同的免疫特征,解决现有技术依赖有限的样本,在经费和时间有限的情况下,只能检测少数指标,无法获取全面信息,也无法得到分子水平的信息等缺陷,实现使用少量样本就能在分子水平识别出比较全面的特征性免疫信息。
本发明的技术方案为:一种基于神经网络的免疫特征识别方法,包括以下步骤:
S1、通过高通量测序得到受试者和对照组的TCR或BCR的CDR3序列。
S2、取相同数量的受试者和对照组的TCR或BCR的CDR3序列样本,进行数据筛选。
S3、对数据筛选后的受试者和对照组的TCR或BCR的CDR3序列样本进行对比分析,得到受试者和对照组的TCR或BCR的特征CDR3序列及其数量,并对其进行数据标准化处理后作为样本集。
S4、通过BP神经网络算法,采用样本集中70%的样本数据构建免疫特征识别神经网络模型。
S5、采用样本集中剩余30%的样本数据对免疫特征识别神经网络模型进行验证,并采用验证后的免疫特征识别神经网络模型对相同类型受试者个体或群体进行免疫特征识别。
进一步地,步骤S1中对每个样本的TCR或BCR的CDR3序列进行随机不放回抽样,使每个样本的CDR3序列数量总和均为50000。
进一步地,步骤S2中进行数据筛选的具体方法为:保留CDR3序列样本中CDR3序列数量大于5的CDR3序列,筛除掉CDR3序列数量小于或等于5的CDR3序列。
进一步地,步骤S3中对数据筛选后的受试者和对照组的TCR或BCR的CDR3序列样本进行对比分析的具体方法为:对数据筛选后的受试者和对照组的TCR或BCR的CDR3序列样本进行对比,将受试者和对照组不同的CDR3序列作为特征CDR3序列,并获取其数量。
进一步地,步骤S4包括以下分步骤:
S41、采用样本集中70%的样本数据中受试者和对照组的TCR或BCR的特征CDR3序列的数量构建输入矩阵,将其输入BP神经网络,并随机初始化BP神经网络的权重和偏差。
S42、通过激活函数将BP神经网络每一层神经元的输出传播到下一层,并在输出层计算得到误差。
S43、通过误差反向传播调整BP神经网络前向传播过程使用的权重和偏差。
S44、重复步骤S42~S43,直到误差最小化,将此时的权重和偏差应用BP神经网络,得到免疫特征识别神经网络模型。
进一步地,步骤S42中的激活函数f(x)为:
f(x)=1/(1+ex)
其中x表示神经元的输入。
本发明的有益效果是:
(1)本发明通过对比受试者和对照组的TCR或BCR的CDR3序列,得到了受试者和对照组的TCR或BCR的特征CDR3序列,在分子序列水平上进入了深层次的分析。
(2)本发明通过BP神经网络来建立免疫特征识别模型,时间大幅度减少,费用大幅度降低。
(3)本发明中免疫特征识别神经网络模型构建成功后,可保存用于未来相同类型受试者个体或群体免疫特征的识别。
附图说明
图1所示为本发明实施例提供的一种基于神经网络的免疫特征识别方法流程图。
图2所示为本发明实施例提供的BP神经网络结构示意图。
图3所示为本发明实施例提供的输入矩阵示意图。
图4所示为本发明实施例提供的神经元网络模型示意图。
具体实施方式
现在将参考附图来详细描述本发明的示例性实施方式。应当理解,附图中示出和描述的实施方式仅仅是示例性的,意在阐释本发明的原理和精神,而并非限制本发明的范围。
本发明实施例提供了一种基于神经网络的免疫特征识别方法,如图1所示,包括以下步骤S1~S5:
S1、通过高通量测序得到受试者和对照组的TCR或BCR的CDR3序列。
本发明实施例中,由于前期取样的多少会导致TCR或BCR的CDR3序列数量(count)有差异(几乎序列count总和都是在50000以上),因此需要人为对每个样本的TCR或BCR的CDR3序列进行随机不放回抽样,使每个样本的CDR3序列数量(count)总和均为50000。
S2、取相同数量的受试者和对照组的TCR或BCR的CDR3序列样本,进行数据筛选。
本发明实施例中,由于每个样本有个体差异性(CDR3差异性),因此保留CDR3序列样本中CDR3序列数量大于5的CDR3序列,筛除掉CDR3序列数量小于或等于5的CDR3序列(有利于后续神经网络模型的构建)。
S3、对数据筛选后的受试者和对照组的TCR或BCR的CDR3序列样本进行对比分析,得到受试者和对照组的TCR或BCR的特征CDR3序列及其数量,并对其进行数据标准化处理后作为样本集。
本发明实施例中,对数据筛选后的受试者和对照组的TCR或BCR的CDR3序列样本进行对比,将受试者和对照组不同的CDR3序列作为特征CDR3序列,并获取其数量(count)。
S4、通过BP神经网络算法,采用样本集中70%的样本数据构建免疫特征识别神经网络模型。
BP(Back Propagation,前馈反向传播)神经网络是一种按误差逆传播算法训练的多层前馈网络,能学习和存贮大量的输入-输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程。它的学习规则是使用最速下降法,通过反向传播来不断调整网络的权值和阈值,使网络的误差平方和最小。BP神经网络模型拓扑结构包括输入层(Inputlayer)、隐含层(Hidden layer)和输出层(Output layer),如图2所示。
其中,输入层(Input layer):输入层各神经元负责接收来自外界的输入信息,并传递给中间层(隐含层)各神经元。
隐含层(Hidden layer):中间层是内部信息处理层,负责信息变换,根据信息变化能力的需求,中间层可以设计为单隐含层或者多隐含层结构;最后一个隐含层传递到输出层各神经元的信息,经进一步处理后,完成一次学习的正向传播处理过程。
输出层(Output layer):当实际输出与期望输出不符时,进入误差的反向传播阶段。误差通过输出层,按误差梯度下降的方式修正各层权值,向隐含层、输入层逐层反传。周而复始的信息正向传播和误差反向传播过程,是各层权值不断调整的过程,也是神经网络学习训练的过程,此过程一直进行到网络输出的误差减少到可以接受的程度,或者预先设定的学习次数为止。
步骤S4包括以下分步骤S41~S44:
S41、采用样本集中70%的样本数据中受试者和对照组的TCR或BCR的特征CDR3序列的数量构建输入矩阵,将其输入BP神经网络,并随机初始化BP神经网络的权重和偏差。
本发明实施例中,输入矩阵的形式如图3所示,其中第一列的数据为特征CDR3序列,其他各列的数据为各样本的特征CDR3序列的数量(count)。
权重是转换输入为输出的过程中最重要的因素,这与线性回归中的斜率类似,其中权重乘以输入再加起来形成输出。权重是确定每个神经元对另一个神经元的影响的数值参数,对于典型的神经元网络模型,如图4所示,如果输入为x1、x2和x3,要施加给它们的权重表示为w1、w2和w3,那么输出y表示为:
Figure BDA0002405812530000041
偏差是一个额外的参数,用于调整输出以及输入到神经元的加权和,类似于线性方程中的截距,因此,由神经元进行的处理表示为:
Output=sum(weights*inputs)+bias
其中Output为神经元的输出,sum(·)为求和函数,weights为权重,inputs为神经元的输入,bias为偏差。
S42、通过激活函数将BP神经网络每一层神经元的输出传播到下一层,并在输出层计算得到误差。
在神经元输出上应用了一个函数,称为激活函数,它是可以将输入转换为输出的数学函数,神经网络的处理过程主要通过激活函数实现,本发明实施例中用sigmoid函数作为激活函数f(x),它可以将输入压缩为0到1之间的任何值,并使模型具有逻辑函数的性质,其数学表达式为:
f(x)=1/(1+ex)
其中x表示神经元的输入。
S43、通过误差反向传播调整BP神经网络前向传播过程使用的权重和偏差。
S44、重复步骤S42~S43,直到误差最小化,将此时的权重和偏差应用BP神经网络,得到免疫特征识别神经网络模型。
本发明实施例中,反向传播过程中使用每个神经元的激活函数的偏导数来识别每个进入权重方向上的斜率(或梯度),梯度能够表明权重的变差对误差的降低或者提高有多大影响,这样不断的调整权重,直到误差最小化。
S5、采用样本集中剩余30%的样本数据对免疫特征识别神经网络模型进行验证,并采用验证后的免疫特征识别神经网络模型对相同类型受试者个体或群体进行免疫特征识别,结果为受试者类型或对照组类型。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (5)

1.一种基于神经网络的免疫特征识别方法,其特征在于,包括以下步骤:
S1、通过高通量测序得到受试者和对照组的TCR或BCR的CDR3序列;
S2、取相同数量的受试者和对照组的TCR或BCR的CDR3序列样本,进行数据筛选;
S3、对数据筛选后的受试者和对照组的TCR或BCR的CDR3序列样本进行对比分析,得到受试者和对照组的TCR或BCR的特征CDR3序列及其数量,并对其进行数据标准化处理后作为样本集;
S4、通过BP神经网络算法,采用样本集中70%的样本数据构建免疫特征识别神经网络模型;
S5、采用样本集中剩余30%的样本数据对免疫特征识别神经网络模型进行验证,并采用验证后的免疫特征识别神经网络模型对相同类型受试者个体或群体进行免疫特征识别;
所述步骤S4包括以下分步骤:
S41、采用样本集中70%的样本数据中受试者和对照组的TCR或BCR的特征CDR3序列的数量构建输入矩阵,将其输入BP神经网络,并随机初始化BP神经网络的权重和偏差;
S42、通过激活函数将BP神经网络每一层神经元的输出传播到下一层,并在输出层计算得到误差;
S43、通过误差反向传播调整BP神经网络前向传播过程使用的权重和偏差;
S44、重复步骤S42~S43,直到误差最小化,将此时的权重和偏差应用BP神经网络,得到免疫特征识别神经网络模型。
2.根据权利要求1所述的免疫特征识别方法,其特征在于,所述步骤S1中对每个样本的TCR或BCR的CDR3序列进行随机不放回抽样,使每个样本的CDR3序列数量总和均为50000。
3.根据权利要求1所述的免疫特征识别方法,其特征在于,所述步骤S2中进行数据筛选的具体方法为:保留CDR3序列样本中CDR3序列数量大于5的CDR3序列,筛除掉CDR3序列数量小于或等于5的CDR3序列。
4.根据权利要求1所述的免疫特征识别方法,其特征在于,所述步骤S3中对数据筛选后的受试者和对照组的TCR或BCR的CDR3序列样本进行对比分析的具体方法为:对数据筛选后的受试者和对照组的TCR或BCR的CDR3序列样本进行对比,将受试者和对照组不同的CDR3序列作为特征CDR3序列,并获取其数量。
5.根据权利要求1所述的免疫特征识别方法,其特征在于,所述步骤S42中的激活函数f(x)为:
f(x)=1/(1+ex)
其中x表示神经元的输入。
CN202010161088.0A 2020-03-10 2020-03-10 一种基于神经网络的免疫特征识别方法 Active CN111402957B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010161088.0A CN111402957B (zh) 2020-03-10 2020-03-10 一种基于神经网络的免疫特征识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010161088.0A CN111402957B (zh) 2020-03-10 2020-03-10 一种基于神经网络的免疫特征识别方法

Publications (2)

Publication Number Publication Date
CN111402957A CN111402957A (zh) 2020-07-10
CN111402957B true CN111402957B (zh) 2021-05-18

Family

ID=71430784

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010161088.0A Active CN111402957B (zh) 2020-03-10 2020-03-10 一种基于神经网络的免疫特征识别方法

Country Status (1)

Country Link
CN (1) CN111402957B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111693702A (zh) * 2020-07-11 2020-09-22 成都益安博生物技术有限公司 一种黑色素瘤的外周血tcr标志物及其检测试剂盒和应用
CN111624340A (zh) * 2020-07-11 2020-09-04 成都益安博生物技术有限公司 一种胰腺癌的外周血tcr标志物及其检测试剂盒和应用
CN111624341A (zh) * 2020-07-11 2020-09-04 成都益安博生物技术有限公司 一种子宫内膜癌的外周血tcr标志物及其检测试剂盒和应用
CN111679074A (zh) * 2020-07-11 2020-09-18 成都益安博生物技术有限公司 一种前列腺癌的外周血tcr标志物及其检测试剂盒和应用
CN111624339A (zh) * 2020-07-11 2020-09-04 成都益安博生物技术有限公司 一种肝癌的外周血tcr标志物及其检测试剂盒和应用
CN113963756B (zh) * 2021-05-18 2022-10-11 杭州剂泰医药科技有限责任公司 一种药物制剂处方开发的平台及方法
CN116203253B (zh) * 2023-04-27 2023-07-11 北京科卫临床诊断试剂有限公司 用于白细胞介素浓度检测的ai分析系统及方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3642233A4 (en) * 2017-06-19 2021-08-11 Healthtell Inc. IMMUNE SIGNATURES FOR DIFFERENTIAL DIAGNOSIS
TWI672637B (zh) * 2018-05-03 2019-09-21 長庚醫療財團法人林口長庚紀念醫院 自體免疫抗體免疫螢光影像型態識別方法

Also Published As

Publication number Publication date
CN111402957A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
CN111402957B (zh) 一种基于神经网络的免疫特征识别方法
Rulaningtyas et al. Automatic classification of tuberculosis bacteria using neural network
Caselli et al. Deciphering impedance cytometry signals with neural networks
CN112447265B (zh) 基于模块化密集卷积网络的赖氨酸乙酰化位点预测方法
CN112199415A (zh) 一种数据特征预处理的方法及其实现系统和应用
US20230317204A1 (en) Cell-type identification
CN112085161A (zh) 一种基于随机信息传递的图神经网络方法
Gohar et al. Terrorist group prediction using data classification
CN113808747A (zh) 一种缺血性脑卒中复发预测方法
CN114764682B (zh) 一种基于多机器学习算法融合的大米安全风险评估方法
Ma et al. Automated identification of cell types in single cell RNA sequencing
CN114820481A (zh) 基于转换器的肺癌组织病理全切片egfr状态预测方法
US10957421B2 (en) System and method for inter-species DNA mixture interpretation
Lahmer et al. Classification of DNA Microarrays Using Deep Learning to identify Cell Cycle Regulated Genes
Semerjian et al. White blood cells classification using built-in customizable trained convolutional neural network
CN109308934A (zh) 一种基于集成特征重要性和鸡群算法的基因调控网络构建方法
Mahatma et al. Prediction and functional characterization of transcriptional activation domains
Lyu et al. PBMC cell classification from single cell mRNA expression by artificial neural networks, profiles, gene markers, and protein markers
EP3796212A1 (en) Device for image-based cell classification, method therefor and use thereof
Sreedevi et al. TOMATO LEAF DISEASE DETECTION USING CUTTING-EDGE DEEP LEARNING ARCHITECTURES
Ayap et al. A Biomedical Voice Measurement Diagnosis of Parkinson’s Disease through the utilization of Artificial Neural Network
RU2819348C1 (ru) Способ графовой нейросетевой классификации на отсутствие или наличие большого депрессивного расстройства по данным фмрт
CN117789828B (zh) 基于单细胞测序及深度学习技术的抗衰老靶点检测系统
Karamouzis et al. Sensitivity analysis of neural network parameters for identifying the factors for college student success
Coppola et al. A gene ontology-driven wide and deep learning architecture for cell-type classification from single-cell RNA-seq data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant