CN116030884B - 基于分段标注的肿瘤免疫靶点确定方法 - Google Patents
基于分段标注的肿瘤免疫靶点确定方法 Download PDFInfo
- Publication number
- CN116030884B CN116030884B CN202211095883.XA CN202211095883A CN116030884B CN 116030884 B CN116030884 B CN 116030884B CN 202211095883 A CN202211095883 A CN 202211095883A CN 116030884 B CN116030884 B CN 116030884B
- Authority
- CN
- China
- Prior art keywords
- gene
- feature
- vectors
- read
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 125
- 238000002372 labelling Methods 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000011218 segmentation Effects 0.000 title abstract description 25
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 386
- 239000013598 vector Substances 0.000 claims description 281
- 239000011159 matrix material Substances 0.000 claims description 132
- 238000013527 convolutional neural network Methods 0.000 claims description 25
- 230000002068 genetic effect Effects 0.000 claims description 23
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 16
- 238000010586 diagram Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 5
- 238000012546 transfer Methods 0.000 claims description 5
- 210000004027 cell Anatomy 0.000 description 22
- 241000699670 Mus sp. Species 0.000 description 20
- 239000013612 plasmid Substances 0.000 description 11
- 238000012937 correction Methods 0.000 description 10
- 238000000605 extraction Methods 0.000 description 9
- 238000011816 wild-type C57Bl6 mouse Methods 0.000 description 8
- 108020005004 Guide RNA Proteins 0.000 description 7
- 241000699666 Mus <mouse, genus> Species 0.000 description 6
- 238000009826 distribution Methods 0.000 description 6
- 230000004083 survival effect Effects 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 238000003209 gene knockout Methods 0.000 description 5
- 238000003752 polymerase chain reaction Methods 0.000 description 5
- 238000012163 sequencing technique Methods 0.000 description 5
- 239000000243 solution Substances 0.000 description 5
- 238000007920 subcutaneous administration Methods 0.000 description 5
- 238000011282 treatment Methods 0.000 description 5
- 238000011740 C57BL/6 mouse Methods 0.000 description 4
- 108091033409 CRISPR Proteins 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000000684 flow cytometry Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000010354 CRISPR gene editing Methods 0.000 description 3
- 206010009944 Colon cancer Diseases 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 210000004881 tumor cell Anatomy 0.000 description 3
- 108020004414 DNA Proteins 0.000 description 2
- 239000005089 Luciferase Substances 0.000 description 2
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 2
- 206010027476 Metastases Diseases 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 208000029742 colonic neoplasm Diseases 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000012154 double-distilled water Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000338 in vitro Methods 0.000 description 2
- 238000001727 in vivo Methods 0.000 description 2
- 201000007270 liver cancer Diseases 0.000 description 2
- 208000014018 liver neoplasm Diseases 0.000 description 2
- 201000005202 lung cancer Diseases 0.000 description 2
- 208000020816 lung neoplasm Diseases 0.000 description 2
- 230000009401 metastasis Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000001890 transfection Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 230000004614 tumor growth Effects 0.000 description 2
- 210000003462 vein Anatomy 0.000 description 2
- 230000003442 weekly effect Effects 0.000 description 2
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- TVZRAEYQIKYCPH-UHFFFAOYSA-N 3-(trimethylsilyl)propane-1-sulfonic acid Chemical compound C[Si](C)(C)CCCS(O)(=O)=O TVZRAEYQIKYCPH-UHFFFAOYSA-N 0.000 description 1
- 108700031361 Brachyury Proteins 0.000 description 1
- 238000010356 CRISPR-Cas9 genome editing Methods 0.000 description 1
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 241000620209 Escherichia coli DH5[alpha] Species 0.000 description 1
- 206010061309 Neoplasm progression Diseases 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 108091027544 Subgenomic mRNA Proteins 0.000 description 1
- 206010042971 T-cell lymphoma Diseases 0.000 description 1
- 208000027585 T-cell non-Hodgkin lymphoma Diseases 0.000 description 1
- 101150044453 Y gene Proteins 0.000 description 1
- 229960000723 ampicillin Drugs 0.000 description 1
- AVKUERGKIZMTKX-NJBDSQKTSA-N ampicillin Chemical compound C1([C@@H](N)C(=O)N[C@H]2[C@H]3SC([C@@H](N3C2=O)C(O)=O)(C)C)=CC=CC=C1 AVKUERGKIZMTKX-NJBDSQKTSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 239000003242 anti bacterial agent Substances 0.000 description 1
- 229940088710 antibiotic agent Drugs 0.000 description 1
- 230000006472 autoimmune response Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000002512 chemotherapy Methods 0.000 description 1
- 238000003776 cleavage reaction Methods 0.000 description 1
- 238000009402 cross-breeding Methods 0.000 description 1
- 238000005138 cryopreservation Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000003651 drinking water Substances 0.000 description 1
- 235000020188 drinking water Nutrition 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000001963 growth medium Substances 0.000 description 1
- 230000001900 immune effect Effects 0.000 description 1
- 238000002649 immunization Methods 0.000 description 1
- 230000003053 immunization Effects 0.000 description 1
- 238000011503 in vivo imaging Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010253 intravenous injection Methods 0.000 description 1
- 238000001638 lipofection Methods 0.000 description 1
- 210000005229 liver cell Anatomy 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 239000002609 medium Substances 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 238000000520 microinjection Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010172 mouse model Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 239000002504 physiological saline solution Substances 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000001959 radiotherapy Methods 0.000 description 1
- 238000009790 rate-determining step (RDS) Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000007017 scission Effects 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 238000002626 targeted therapy Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 239000012096 transfection reagent Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000002054 transplantation Methods 0.000 description 1
- 238000011269 treatment regimen Methods 0.000 description 1
- 230000005751 tumor progression Effects 0.000 description 1
- 230000004580 weight loss Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本申请公开了一种基于分段标注的肿瘤免疫靶点确定方法,其通过基于自然语义理解的人工智能模型,将基因序列看作为文本序列,通过对其分段标注来确定每个基因读段属于肿瘤免疫靶点的概率,以确定基因序列中的肿瘤免疫靶点。
Description
技术领域
本申请涉及计算生物领域领域,且更为具体地,涉及一种基于分段标注的肿瘤免疫靶点确定方法。
技术背景
近年来,随着抗体制备等相关技术的成熟,免疫肿瘤(immuno-oncology, I-O)治疗发展迅速,已经成为继手术、放疗、化疗、靶向治疗后癌症的另一有效治疗手段。I-O治疗的目标是启动或重启患者的癌症-肿瘤循环,放大免疫效应,但不造成无限制的自身免疫应答。最有效的I-O治疗方案可能是选择性针对每例患者的限速步骤进行治疗。
在对患者进行治疗时,前提条件是在基因层面确定肿瘤免疫靶点,也就是,在分子层面确定细胞的基因序列中的肿瘤免疫靶点。传统的方法是通过大量的临床试验来进行肿瘤免疫靶点确定,但这种方法不仅耗时耗力,而且会耗费巨量的经济成本,一般消费者无法承受。
近年来,深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、文本信号处理等领域。此外,深度学习以及神经网络在图像分类、物体检测、语义分割、文本翻译等领域,也展现出了接近甚至超越人类的水平。
深度学习以及神经网络的发展为肿瘤免疫靶点确定提供了新的解决思路和方案。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种基于分段标注的肿瘤免疫靶点确定方法,其通过基于自然语义理解的人工智能模型,将基因序列看作为文本序列,通过对其分段标注来确定每个基因读段属于肿瘤免疫靶点的概率,以确定基因序列中的肿瘤免疫靶点。
根据本申请的一个方面,提供了一种基于分段标注的肿瘤免疫靶点确定方法,其包括:
获取待确定肿瘤免疫靶点的基因序列;
将所述基因序列划分为多个分段以获得多个基因读段数据;
将所述多个基因读段数据输入基于转换器的上下文编码器以得到多个基因读段特征向量;
分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到多个校正后基因读段特征向量;
计算每两个所述校正后基因读段特征向量之间的余弦相似性以得到与所述多个校正后基因读段特征向量对应的余弦相似性矩阵;
将所述余弦相似性矩阵通过作为特征提取器的卷积神经网络以得到余弦相似性特征矩阵;
将所述多个校正后基因读段特征向量排列为基因读段特征矩阵;
将所述余弦相似性特征矩阵与所述基因读段特征矩阵通过图神经网络以获得基因语义拓扑特征矩阵;
将所述基因语义拓扑特征矩阵拆分为与所述基因读段特征向量具有相同维度的多个基因语义拓扑特征向量;以及
将每个所述基因语义拓扑特征向量通过分类器以获得分类结果,所述分类结果表示所述基因语义拓扑特征向量对应的基因读段数据属于肿瘤免疫靶点的概率值。
在上述基于分段标注的肿瘤免疫靶点确定方法中,所述将所述多个基因读段数据输入基于转换器的上下文编码器以得到多个基因读段特征向量,包括:分别将所述多个基因读段数据中的ATCG碱基序列进行独热编码,以将所述多个基因读段数据中的ATCG碱基序列分别转化为输入向量以获得输入向量的序列;以及,使用所述基于转换器的上下文编码器的转换器对所述输入向量的序列进行基于全局的上下文语义编码以获得所述多个基因读段特征向量。
在上述基于分段标注的肿瘤免疫靶点确定方法中,所述分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到多个校正后基因读段特征向量,包括:以如下公式分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到所述多个校正后基因读段特征向量;其中,所述公式为:
其中,表示所述多个基因读段特征向量中各个基因读段特征向量,/>和/>分别表示所述多个基因读段特征向量中各个基因读段特征向量的均值和方差,且/>是所述多个基因读段特征向量中各个基因读段特征向量的长度,/>是以2为底的对数,且/>是权重超参数。
在上述基于分段标注的肿瘤免疫靶点确定方法中,所述计算每两个所述校正后基因读段特征向量之间的余弦相似性以得到与所述多个校正后基因读段特征向量对应的余弦相似性矩阵,包括:以如下公式来计算每两个所述校正后基因读段特征向量之间的余弦相似性以得到多个余弦相似性;其中,所述公式为:
其中分别表示所述多个校正后基因读段特征向量中每两个所述校正后基因读段特征向量,/>分别表示所述多个校正后基因读段特征向量中每两个所述校正后基因读段特征向量的各个位置的特征值,/>表示所述多个校正后基因读段特征向量中每两个所述校正后基因读段特征向量之间的余弦相似性;以及,将所述多个余弦相似性进行二维排列以得到所述余弦相似性矩阵。
在上述基于分段标注的肿瘤免疫靶点确定方法中,所述将所述余弦相似性矩阵通过作为特征提取器的卷积神经网络以得到余弦相似性特征矩阵,包括:使用所述卷积神经网络的各层在层的正向传递中分别对输入数据进行:对所述输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行沿通道维度的全局均值池化以得到池化特征矩阵;以及,对所述池化特征矩阵进行非线性激活处理以得到激活特征矩阵;其中,所述深度卷积神经网络的最后一层的输出为所述余弦相似性特征矩阵。
在上述基于分段标注的肿瘤免疫靶点确定方法中,所述将所述基因语义拓扑特征矩阵拆分为与所述基因读段特征向量具有相同维度的多个基因语义拓扑特征向量,包括:将所述基因语义拓扑特征矩阵进行基于行向量或列向量的拆分以得到所述多个基因语义拓扑特征向量。
在上述基于分段标注的肿瘤免疫靶点确定方法中,所述将每个所述基因语义拓扑特征向量通过分类器以获得分类结果,包括:使用所述分类器以如下公式对所述基因语义拓扑特征向量进行处理以获得所述分类结果,其中,所述公式为:
其中,到/>为权重矩阵,/>到/>为偏置向量,/>为所述基因语义拓扑特征向量。
根据本申请的另一方面,提供了一种基于分段标注的肿瘤免疫靶点确定系统,包括:
基因序列获取单元,用于获取待确定肿瘤免疫靶点的基因序列;
分段单元,用于将所述基因序列划分为多个分段以获得多个基因读段数据;
全局特征提取单元,用于将所述多个基因读段数据输入基于转换器的上下文编码器以得到多个基因读段特征向量;
特征值校正单元,用于分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到多个校正后基因读段特征向量;
余弦相似性矩阵生成单元,用于计算每两个所述校正后基因读段特征向量之间的余弦相似性以得到与所述多个校正后基因读段特征向量对应的余弦相似性矩阵;
余弦相似性特征矩阵生成单元,用于将所述余弦相似性矩阵通过作为特征提取器的卷积神经网络以得到余弦相似性特征矩阵;
节点排列单元,用于将所述多个校正后基因读段特征向量排列为基因读段特征矩阵;
基因语义拓扑特征矩阵生成单元,用于将所述余弦相似性特征矩阵与所述基因读段特征矩阵通过图神经网络以获得基因语义拓扑特征矩阵;
基因语义拓扑特征向量拆分单元,用于将所述基因语义拓扑特征矩阵拆分为与所述基因读段特征向量具有相同维度的多个基因语义拓扑特征向量;以及
肿瘤免疫靶点分类单元,用于将每个所述基因语义拓扑特征向量通过分类器以获得分类结果,所述分类结果表示所述基因语义拓扑特征向量对应的基因读段数据属于肿瘤免疫靶点的概率值。
在上述基于分段标注的肿瘤免疫靶点确定系统中,所述全局特征提取单元,进一步用于:分别将所述多个基因读段数据中的ATCG碱基序列进行独热编码,以将所述多个基因读段数据中的ATCG碱基序列分别转化为输入向量以获得输入向量的序列;以及,使用所述基于转换器的上下文编码器的转换器对所述输入向量的序列进行基于全局的上下文语义编码以获得所述多个基因读段特征向量。
在上述基于分段标注的肿瘤免疫靶点确定系统中,所述特征值校正单元,进一步用于:以如下公式分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到所述多个校正后基因读段特征向量;其中,所述公式为:
其中,表示所述多个基因读段特征向量中各个基因读段特征向量,/>和/>分别表示所述多个基因读段特征向量中各个基因读段特征向量的均值和方差,且/>是所述多个基因读段特征向量中各个基因读段特征向量的长度,/>是以2为底的对数,且/>是权重超参数。
在上述基于分段标注的肿瘤免疫靶点确定系统中,所述余弦相似性矩阵生成单元,进一步用于:以如下公式来计算每两个所述校正后基因读段特征向量之间的余弦相似性以得到多个余弦相似性;其中,所述公式为:
其中分别表示所述多个校正后基因读段特征向量中每两个所述校正后基因读段特征向量,/>分别表示所述多个校正后基因读段特征向量中每两个所述校正后基因读段特征向量的各个位置的特征值,/>表示所述多个校正后基因读段特征向量中每两个所述校正后基因读段特征向量之间的余弦相似性;以及,将所述多个余弦相似性进行二维排列以得到所述余弦相似性矩阵。
在上述基于分段标注的肿瘤免疫靶点确定系统中,所述余弦相似性特征矩阵生成单元,进一步用于:使用所述卷积神经网络的各层在层的正向传递中分别对输入数据进行:对所述输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行沿通道维度的全局均值池化以得到池化特征矩阵;以及,对所述池化特征矩阵进行非线性激活处理以得到激活特征矩阵;其中,所述深度卷积神经网络的最后一层的输出为所述余弦相似性特征矩阵。
在上述基于分段标注的肿瘤免疫靶点确定系统中,所述基因语义拓扑特征向量拆分单元,进一步用于:将所述基因语义拓扑特征矩阵进行基于行向量或列向量的拆分以得到所述多个基因语义拓扑特征向量。
在上述基于分段标注的肿瘤免疫靶点确定系统中,所述肿瘤免疫靶点分类单元,进一步用于:使用所述分类器以如下公式对所述基因语义拓扑特征向量进行处理以获得所述分类结果,其中,所述公式为:
其中,到/>为权重矩阵,/>到/>为偏置向量,/>为所述基因语义拓扑特征向量。
根据本申请的再一方面,提供了一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的基于分段标注的肿瘤免疫靶点确定系统方法。
根据本申请的又一方面,提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的基于分段标注的肿瘤免疫靶点确定系统方法。
与现有技术相比,本申请提供的基于分段标注的肿瘤免疫靶点确定方法,其通过基于自然语义理解的人工智能模型,将基因序列看作为文本序列,通过对其分段标注来确定每个基因读段属于肿瘤免疫靶点的概率,以确定基因序列中的肿瘤免疫靶点。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1图示了根据本申请实施例的基于分段标注的肿瘤免疫靶点确定方法的流程图。
图2图示了根据本申请实施例的基于分段标注的肿瘤免疫靶点确定方法的架构示意图。
图3图示了根据本申请实施例的基于分段标注的肿瘤免疫靶点确定方法中将所述多个基因读段数据输入基于转换器的上下文编码器以得到多个基因读段特征向量的流程图。
图4图示了根据本申请实施例的基于分段标注的肿瘤免疫靶点确定系统的框图。
图5图示了根据本申请实施例的基因敲除EL4细胞的流式细胞术检测结果图。
图6图示了根据本申请实施例的CRISPR-Cas9技术敲除Y基因的剪切位点示意图。
图7图示了根据本申请实施例的MC38细胞皮下移植瘤肿瘤生长曲线和生存曲线。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
申请概述
应可以理解,在对患者进行治疗时,需要在基因层面确定肿瘤免疫靶点,而现有的方法大部分是通过临床试验来获取,这样不仅费时费力,而且效果较差。因此,在本申请的技术方案中,期望通过基于自然语义理解的人工智能模型,将基因序列看作为文本序列,通过对其分段标注来确定每个基因读段属于肿瘤免疫靶点的概率,以确定基因序列中的肿瘤免疫靶点。
具体地,在本申请的技术方案中,首先,获取待确定肿瘤免疫靶点的基因序列。然后,将所述基因序列划分为多个分段以得到多个基因读段数据。这样,再利用深度神经网络模型对于分段标注的每个基因读段数据进行特征挖掘,以判断其是否属于肿瘤免疫靶点。
应可以理解,由于基因是由很多的碱基组成的,碱基就是位点,在DNA中是ATCG这四个碱基。因此在所述多个基因读段数据中,存在有多个ATCG碱基构成的ATCG碱基序列,因此,在本申请的技术方案中,进一步利用独热编码来对于所述多个基因读段数据中的ATCG碱基序列进行处理,以将所述多个基因读段数据中的ATCG碱基序列转化为输入向量后,通过基于转换器的上下文编码器中进行上下文编码,进而提取出所述多个基因读段数据的基于全局的高维语义特征,以得到多个基因读段特征向量。
特别地,在本申请的技术方案中,这里,对于得到的每个所述基因读段特征向量,由于其后续需要计算特征向量之间的余弦相似性,并通过卷积神经网络和图神经网络的特征提取和特征编码,因此如果在基因读段特征向量内存在由于上下文编码的随机扰动导致的特殊分布,将可能后续过程中通过模型参数的前向传播而放大,影响最终的分类准确性。
因此,优选地对每个基因读段特征向量,例如记为进行自适应实例的信息统计归一化,具体为:
和/>是特征集合/>的均值和方差,且/>是所述基因读段特征向量/>的长度,/>是以2为底的对数,且/>是权重超参数。
这里,所述自适应实例的信息统计归一化将每个基因读段特征向量的特征值集合作为自适应实例,利用其统计特征的本质内在先验信息来对单个特征值进行动态生成式的信息归一化,同时以特征集合的归一化模长信息作为偏置来作为集合分布域内的不变性描述,这样,就实现了尽可能屏蔽特殊实例的扰动分布的特征优化,以提高后续分类的准确性。
然后,就可以将所述多个校正后基因读段特征向量排列为基因读段特征矩阵,以整合优化后的所述各个基因读段数据的全局性高维语义特征。
进一步地,考虑到所述待确定肿瘤免疫靶点的基因序列中的多个基因读段数据之间具有着隐含的关联性特征,因此计算每两个所述校正后基因读段特征向量之间的余弦相似性作为其语义相似性构成矩阵,以得到用于表示所述多个基因读段数据的全局语义相似性关系拓扑的余弦相似性矩阵。然后,再通过在隐含关联特征提取方面具有优异表现的作为特征提取器的卷积神经网络对于所述余弦相似性矩阵进行特征提取,以提取出所述多个基因读段数据的全局语义相似性关系拓扑的隐含关联特征,从而得到余弦相似性特征矩阵。
这样,以所述校正后基因读段特征向量作为节点,以两个特征向量之间的余弦相似性作为节点与节点之间的关联,利用图神经网络来融合所述余弦相似性特征矩阵与所述基因读段特征矩阵中的特征信息以获得基因语义拓扑特征矩阵。这样,通过图神经网络能够从全局语义相似性拓扑的维度来对每个所述基因读段数据的特征向量进行编码,以提高分类器的分类结果的准确性。
进一步地,再将所述基因语义拓扑特征矩阵拆分为与所述基因读段特征向量具有相同维度的多个基因语义拓扑特征向量。并将每个所述基因语义拓扑特征向量分别通过分类器以获得用于表示所述基因语义拓扑特征向量对应的基因读段数据属于肿瘤免疫靶点的概率值的分类结果。这样,就能够利用基于分段的全局语义相似性拓扑来进行编码的方式,可以与具体某个分段的序列表征无关地进行分段标注,从而避免了对于基因序列的分段长度和分段位置的敏感性,提高了肿瘤免疫靶点确定的准确性。
基于此,本申请提出了一种基于分段标注的肿瘤免疫靶点确定方法,其包括:获取待确定肿瘤免疫靶点的基因序列;将所述基因序列划分为多个分段以获得多个基因读段数据;将所述多个基因读段数据输入基于转换器的上下文编码器以得到多个基因读段特征向量;分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到多个校正后基因读段特征向量;计算每两个所述校正后基因读段特征向量之间的余弦相似性以得到与所述多个校正后基因读段特征向量对应的余弦相似性矩阵;将所述余弦相似性矩阵通过作为特征提取器的卷积神经网络以得到余弦相似性特征矩阵;将所述多个校正后基因读段特征向量排列为基因读段特征矩阵;将所述余弦相似性特征矩阵与所述基因读段特征矩阵通过图神经网络以获得基因语义拓扑特征矩阵;将所述基因语义拓扑特征矩阵拆分为与所述基因读段特征向量具有相同维度的多个基因语义拓扑特征向量;以及,将每个所述基因语义拓扑特征向量通过分类器以获得分类结果,所述分类结果表示所述基因语义拓扑特征向量对应的基因读段数据属于肿瘤免疫靶点的概率值。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性方法
图1图示了根据本申请实施例的基于分段标注的肿瘤免疫靶点确定方法的流程图。如图1所示,根据本申请实施例的基于分段标注的肿瘤免疫靶点确定方法,包括:S110,获取待确定肿瘤免疫靶点的基因序列;S120,将所述基因序列划分为多个分段以获得多个基因读段数据;S130,将所述多个基因读段数据输入基于转换器的上下文编码器以得到多个基因读段特征向量;S140,分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到多个校正后基因读段特征向量;S150,计算每两个所述校正后基因读段特征向量之间的余弦相似性以得到与所述多个校正后基因读段特征向量对应的余弦相似性矩阵;S160,将所述余弦相似性矩阵通过作为特征提取器的卷积神经网络以得到余弦相似性特征矩阵;S170,将所述多个校正后基因读段特征向量排列为基因读段特征矩阵;S180,将所述余弦相似性特征矩阵与所述基因读段特征矩阵通过图神经网络以获得基因语义拓扑特征矩阵;S190,将所述基因语义拓扑特征矩阵拆分为与所述基因读段特征向量具有相同维度的多个基因语义拓扑特征向量;以及,S200,将每个所述基因语义拓扑特征向量通过分类器以获得分类结果,所述分类结果表示所述基因语义拓扑特征向量对应的基因读段数据属于肿瘤免疫靶点的概率值。
图2图示了根据本申请实施例的基于分段标注的肿瘤免疫靶点确定方法的架构示意图。如图2所示,在该网络架构中,首先获取待确定肿瘤免疫靶点的基因序列。接着,将所述基因序列划分为多个分段以获得多个基因读段数据。然后,将所述多个基因读段数据输入基于转换器的上下文编码器以得到多个基因读段特征向量。进而,分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到多个校正后基因读段特征向量。接着,计算每两个所述校正后基因读段特征向量之间的余弦相似性以得到与所述多个校正后基因读段特征向量对应的余弦相似性矩阵。然后,将所述余弦相似性矩阵通过作为特征提取器的卷积神经网络以得到余弦相似性特征矩阵。进而,将所述多个校正后基因读段特征向量排列为基因读段特征矩阵。接着,将所述余弦相似性特征矩阵与所述基因读段特征矩阵通过图神经网络以获得基因语义拓扑特征矩阵。然后,将所述基因语义拓扑特征矩阵拆分为与所述基因读段特征向量具有相同维度的多个基因语义拓扑特征向量。进而,将每个所述基因语义拓扑特征向量通过分类器以获得分类结果,所述分类结果表示所述基因语义拓扑特征向量对应的基因读段数据属于肿瘤免疫靶点的概率值。
在步骤S110中,获取待确定肿瘤免疫靶点的基因序列。应可以理解,在对患者进行治疗时,需要在基因层面确定肿瘤免疫靶点,而现有的方法大部分是通过临床试验来获取,这样不仅费时费力,而且效果较差。因此,在本申请的技术方案中,期望通过基于自然语义理解的人工智能模型,将基因序列看作为文本序列,通过对其分段标注来确定每个基因读段属于肿瘤免疫靶点的概率,以确定基因序列中的肿瘤免疫靶点。具体地,在本申请的技术方案中,首先,获取待确定肿瘤免疫靶点的基因序列。其中,所述基因序列可以是来自基因组序列数据库。
在步骤S120中,将所述基因序列划分为多个分段以获得多个基因读段数据。应可以理解,由于基因是由很多的碱基组成的,碱基就是位点,在DNA中是ATCG这四个碱基。因此在所述多个基因读段数据中,存在有多个ATCG碱基构成的ATCG碱基序列。
在步骤S130中,将所述多个基因读段数据输入基于转换器的上下文编码器以得到多个基因读段特征向量。由于在所述多个基因读段数据中,存在有多个ATCG碱基构成的ATCG碱基序列,在本申请的技术方案中,进一步利用独热编码来对于所述多个基因读段数据中的ATCG碱基序列进行处理,以将所述多个基因读段数据中的ATCG碱基序列转化为输入向量后,通过基于转换器的上下文编码器中进行上下文编码,进而提取出所述多个基因读段数据的基于全局的高维语义特征,以得到多个基因读段特征向量。
图3图示了根据本申请实施例的基于分段标注的肿瘤免疫靶点确定方法中将所述多个基因读段数据输入基于转换器的上下文编码器以得到多个基因读段特征向量的流程图。如图3所示,在上述基于分段标注的肿瘤免疫靶点确定方法中,所述将所述多个基因读段数据输入基于转换器的上下文编码器以得到多个基因读段特征向量,包括:S210,分别将所述多个基因读段数据中的ATCG碱基序列进行独热编码,以将所述多个基因读段数据中的ATCG碱基序列分别转化为输入向量以获得输入向量的序列;以及,S220,使用所述基于转换器的上下文编码器的转换器对所述输入向量的序列进行基于全局的上下文语义编码以获得所述多个基因读段特征向量。
在步骤S140中,分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到多个校正后基因读段特征向量。特别地,在本申请的技术方案中,这里,对于得到的每个所述基因读段特征向量,由于其后续需要计算特征向量之间的余弦相似性,并通过卷积神经网络和图神经网络的特征提取和特征编码,因此如果在基因读段特征向量内存在由于上下文编码的随机扰动导致的特殊分布,将可能后续过程中通过模型参数的前向传播而放大,影响最终的分类准确性。因此,优选地对每个基因读段特征向量。
在一个示例中,在上述基于分段标注的肿瘤免疫靶点确定方法中,所述分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到多个校正后基因读段特征向量,包括:以如下公式分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到所述多个校正后基因读段特征向量;其中,所述公式为:
其中,表示所述多个基因读段特征向量中各个基因读段特征向量,/>和/>分别表示所述多个基因读段特征向量中各个基因读段特征向量的均值和方差,且/>是所述多个基因读段特征向量中各个基因读段特征向量的长度,/>是以2为底的对数,且/>是权重超参数。
这里,所述自适应实例的信息统计归一化将每个基因读段特征向量的特征值集合作为自适应实例,利用其统计特征的本质内在先验信息来对单个特征值进行动态生成式的信息归一化,同时以特征集合的归一化模长信息作为偏置来作为集合分布域内的不变性描述,这样,就实现了尽可能屏蔽特殊实例的扰动分布的特征优化,以提高后续分类的准确性。
在步骤S150中,计算每两个所述校正后基因读段特征向量之间的余弦相似性以得到与所述多个校正后基因读段特征向量对应的余弦相似性矩阵。进一步地,考虑到所述待确定肿瘤免疫靶点的基因序列中的多个基因读段数据之间具有着隐含的关联性特征,因此计算每两个所述校正后基因读段特征向量之间的余弦相似性作为其语义相似性构成矩阵,以得到用于表示所述多个基因读段数据的全局语义相似性关系拓扑的余弦相似性矩阵。
在一个示例中,在上述基于分段标注的肿瘤免疫靶点确定方法中,所述计算每两个所述校正后基因读段特征向量之间的余弦相似性以得到与所述多个校正后基因读段特征向量对应的余弦相似性矩阵,包括:以如下公式来计算每两个所述校正后基因读段特征向量之间的余弦相似性以得到多个余弦相似性;其中,所述公式为:
其中分别表示所述多个校正后基因读段特征向量中每两个所述校正后基因读段特征向量,/>分别表示所述多个校正后基因读段特征向量中每两个所述校正后基因读段特征向量的各个位置的特征值,/>表示所述多个校正后基因读段特征向量中每两个所述校正后基因读段特征向量之间的余弦相似性;以及,将所述多个余弦相似性进行二维排列以得到所述余弦相似性矩阵。
在步骤S160中,将所述余弦相似性矩阵通过作为特征提取器的卷积神经网络以得到余弦相似性特征矩阵。也就是,通过在隐含关联特征提取方面具有优异表现的作为特征提取器的卷积神经网络对于所述余弦相似性矩阵进行特征提取,以提取出所述多个基因读段数据的全局语义相似性关系拓扑的隐含关联特征,从而得到余弦相似性特征矩阵。
在一个示例中,在上述基于分段标注的肿瘤免疫靶点确定方法中,所述将所述余弦相似性矩阵通过作为特征提取器的卷积神经网络以得到余弦相似性特征矩阵,包括:使用所述卷积神经网络的各层在层的正向传递中分别对输入数据进行:对所述输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行沿通道维度的全局均值池化以得到池化特征矩阵;以及,对所述池化特征矩阵进行非线性激活处理以得到激活特征矩阵;其中,所述深度卷积神经网络的最后一层的输出为所述余弦相似性特征矩阵。
在步骤S170中,将所述多个校正后基因读段特征向量排列为基因读段特征矩阵。也就是,将所述多个校正后基因读段特征向量排列为基因读段特征矩阵,以整合优化后的所述各个基因读段数据的全局性高维语义特征。
在步骤S180中,将所述余弦相似性特征矩阵与所述基因读段特征矩阵通过图神经网络以获得基因语义拓扑特征矩阵。这样,以所述校正后基因读段特征向量作为节点,以两个特征向量之间的余弦相似性作为节点与节点之间的关联,利用图神经网络来融合所述余弦相似性特征矩阵与所述基因读段特征矩阵中的特征信息以获得基因语义拓扑特征矩阵。这样,通过图神经网络能够从全局语义相似性拓扑的维度来对每个所述基因读段数据的特征向量进行编码,以提高分类器的分类结果的准确性。
在步骤S190中,将所述基因语义拓扑特征矩阵拆分为与所述基因读段特征向量具有相同维度的多个基因语义拓扑特征向量。由于后续通过分类器要计算所述基因语义拓扑特征向量对应的基因读段数据属于肿瘤免疫靶点的概率值,因此将它们拆分。
在一个示例中,在上述基于分段标注的肿瘤免疫靶点确定方法中,所述将所述基因语义拓扑特征矩阵拆分为与所述基因读段特征向量具有相同维度的多个基因语义拓扑特征向量,包括:将所述基因语义拓扑特征矩阵进行基于行向量或列向量的拆分以得到所述多个基因语义拓扑特征向量。
在步骤S200中,将每个所述基因语义拓扑特征向量通过分类器以获得分类结果,所述分类结果表示所述基因语义拓扑特征向量对应的基因读段数据属于肿瘤免疫靶点的概率值。这样,利用基于分段的全局语义相似性拓扑来进行编码,可以与具体某个分段的序列表征无关地进行分段标注,从而避免了对于基因序列的分段长度和分段位置的敏感性,提高了肿瘤免疫靶点确定的准确性。
在一个示例中,在上述基于分段标注的肿瘤免疫靶点确定方法中,所述将每个所述基因语义拓扑特征向量通过分类器以获得分类结果,包括:使用所述分类器以如下公式对所述基因语义拓扑特征向量进行处理以获得所述分类结果,其中,所述公式为:
其中,到/>为权重矩阵,/>到/>为偏置向量,/>为所述基因语义拓扑特征向量。
综上,基于本申请实施例的基于分段标注的肿瘤免疫靶点确定方法被阐明,其通过基于自然语义理解的人工智能模型,将基因序列看作为文本序列,通过对其分段标注来确定每个基因读段属于肿瘤免疫靶点的概率,以确定基因序列中的肿瘤免疫靶点。
示例性系统
图4图示了根据本申请实施例的基于分段标注的肿瘤免疫靶点确定系统的框图。如图4所示,根据本申请实施例的基于分段标注的肿瘤免疫靶点确定系统100,包括:基因序列获取单元110,用于获取待确定肿瘤免疫靶点的基因序列;分段单元120,用于将所述基因序列划分为多个分段以获得多个基因读段数据;全局特征提取单元130,用于将所述多个基因读段数据输入基于转换器的上下文编码器以得到多个基因读段特征向量;特征值校正单元140,用于分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到多个校正后基因读段特征向量;余弦相似性矩阵生成单元150,用于计算每两个所述校正后基因读段特征向量之间的余弦相似性以得到与所述多个校正后基因读段特征向量对应的余弦相似性矩阵;余弦相似性特征矩阵生成单元160,用于将所述余弦相似性矩阵通过作为特征提取器的卷积神经网络以得到余弦相似性特征矩阵;节点排列单元170,用于将所述多个校正后基因读段特征向量排列为基因读段特征矩阵;基因语义拓扑特征矩阵生成单元180,用于将所述余弦相似性特征矩阵与所述基因读段特征矩阵通过图神经网络以获得基因语义拓扑特征矩阵;基因语义拓扑特征向量拆分单元190,用于将所述基因语义拓扑特征矩阵拆分为与所述基因读段特征向量具有相同维度的多个基因语义拓扑特征向量;以及,肿瘤免疫靶点分类单元200,用于将每个所述基因语义拓扑特征向量通过分类器以获得分类结果,所述分类结果表示所述基因语义拓扑特征向量对应的基因读段数据属于肿瘤免疫靶点的概率值。
在一个示例中,在上述基于分段标注的肿瘤免疫靶点确定系统100中,所述全局特征提取单元130,进一步用于:分别将所述多个基因读段数据中的ATCG碱基序列进行独热编码,以将所述多个基因读段数据中的ATCG碱基序列分别转化为输入向量以获得输入向量的序列;以及,使用所述基于转换器的上下文编码器的转换器对所述输入向量的序列进行基于全局的上下文语义编码以获得所述多个基因读段特征向量。
在一个示例中,在上述基于分段标注的肿瘤免疫靶点确定系统100中,所述特征值校正单元140,进一步用于:以如下公式分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到所述多个校正后基因读段特征向量;其中,所述公式为:
其中,表示所述多个基因读段特征向量中各个基因读段特征向量,/>和/>分别表示所述多个基因读段特征向量中各个基因读段特征向量的均值和方差,且/>是所述多个基因读段特征向量中各个基因读段特征向量的长度,/>是以2为底的对数,且/>是权重超参数。
在一个示例中,在上述基于分段标注的肿瘤免疫靶点确定系统100中,所述余弦相似性矩阵生成单元150,进一步用于:以如下公式来计算每两个所述校正后基因读段特征向量之间的余弦相似性以得到多个余弦相似性;其中,所述公式为:
其中分别表示所述多个校正后基因读段特征向量中每两个所述校正后基因读段特征向量,/>分别表示所述多个校正后基因读段特征向量中每两个所述校正后基因读段特征向量的各个位置的特征值,/>表示所述多个校正后基因读段特征向量中每两个所述校正后基因读段特征向量之间的余弦相似性;以及,将所述多个余弦相似性进行二维排列以得到所述余弦相似性矩阵。
在一个示例中,在上述基于分段标注的肿瘤免疫靶点确定系统100中,所述余弦相似性特征矩阵生成单元160,进一步用于:使用所述卷积神经网络的各层在层的正向传递中分别对输入数据进行:对所述输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行沿通道维度的全局均值池化以得到池化特征矩阵;以及,对所述池化特征矩阵进行非线性激活处理以得到激活特征矩阵;其中,所述深度卷积神经网络的最后一层的输出为所述余弦相似性特征矩阵。
在一个示例中,在上述基于分段标注的肿瘤免疫靶点确定系统100中,所述基因语义拓扑特征向量拆分单元190,进一步用于:将所述基因语义拓扑特征矩阵进行基于行向量或列向量的拆分以得到所述多个基因语义拓扑特征向量。
在一个示例中,在上述基于分段标注的肿瘤免疫靶点确定系统100中,所述肿瘤免疫靶点分类单元200,进一步用于:使用所述分类器以如下公式对所述基因语义拓扑特征向量进行处理以获得所述分类结果,其中,所述公式为:
其中,到/>为权重矩阵,/>到/>为偏置向量,/>为所述基因语义拓扑特征向量。
这里,本领域技术人员可以理解,上述基于分段标注的肿瘤免疫靶点确定系统100中的各个单元和模块的具体功能和操作已经在上面参考图1到图3的基于分段标注的肿瘤免疫靶点确定方法的描述中得到了详细介绍,并因此,将省略其重复描述。
如上所述,根据本申请实施例的基于分段标注的肿瘤免疫靶点确定系统 100可以实现在各种终端设备中,例如用于基于分段标注的肿瘤免疫靶点确定的服务器等。在一个示例中,根据本申请实施例的基于分段标注的肿瘤免疫靶点确定系统 100可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该基于分段标注的肿瘤免疫靶点确定系统100可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该基于分段标注的肿瘤免疫靶点确定系统 100同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该基于分段标注的肿瘤免疫靶点确定系统 100与该终端设备也可以是分立的设备,并且该基于分段标注的肿瘤免疫靶点确定系统 100可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
示例性应用
在基于如上所述的基于分段标注的肿瘤免疫靶点确定方法确定肿瘤免疫靶点后,进行肿瘤细胞靶点敲除
所述肿瘤细胞靶点敲的过程,包括如下步骤:
sgRNA设计,根据CRISPR Design在线工具,在目的基因(X)靠前外显子区域设计并挑选出3个综合得分最高的guideRNA(gRNA)序列,然后在设计好的gRNA序列两端加上Bpil酶切位点,合成gRNA序列;
载体构建,用ddH2O将合成的gRNA序列稀释成100μM的浓度,然后经聚合酶链反应(PCR)仪退火形成双链,退火产物使用ddH2O进行250倍稀释后,通过PCR将其连接到pX458载体上;
质粒转化和提取,将构建好的质粒转化到大肠杆菌DH5α感受态细胞中,并挑选单克隆进行测序鉴定,将鉴定的含有目的基因gRNA的单克隆菌株接种到新鲜含有氨苄抗生素的LB培养基中进行扩增,然后使用无内毒素质粒大提试剂盒(TIANGEN)进行质粒提取,质粒溶液经0.22 μm滤器过滤后,使用NanoDrop测定浓度,然后保存用于后续细胞转染实验;以及
细胞转染敲除目的基因,将上述质粒经脂质体转染试剂Lipofectamine 3000(Invitrogen)转染肿瘤细胞,如:小鼠结肠癌细胞MC38,小鼠肝细胞癌细胞Hepa1-6,小鼠T细胞淋巴瘤细胞EL4,小鼠肺癌细胞LLC等。转染细胞培养36-48小时后,通过流式细胞仪分选目的细胞,且在扩大培养后提取细胞的基因组进行测序,同时结合流式细胞术检测或WB检测,挑选目的基因有效敲除的细胞株进行细胞冻存,用于后续体内外实验研究。图5图示了根据本申请实施例的基因敲除EL4细胞的流式细胞术检测结果图。
进一步地,在所述基于分段标注的肿瘤免疫靶点确定方法确定肿瘤免疫靶点后,还可以进行CRISPR基因敲除小鼠构建。
所述CRISPR基因敲除小鼠构建的过程,包括如下步骤:
首先针对靶基因Y的不同位点设计并构建相应的一对gRNA质粒(如图6所示),体外转录为RNA后,与Cas9 mRNA一起通过原核显微注射获得测序鉴定为阳性的F0代阳性小鼠,然后将其与野生型小鼠进行交配,获得PCR和测序鉴定为目的基因敲除阳性的F1代杂合子小鼠。此后,选择来自同一只F0代小鼠,基因型一致的F1代小鼠,达到性成熟后进行互配,可获得F2代小鼠。对获得的F2代小鼠进行PCR及测序鉴定,理论上,F2代小鼠中25%为纯合子,50%为杂合子,25%为野生小鼠。得到的纯合子小鼠为目的基因Y完全敲除小鼠,筛选出来后用于繁殖和动物实验。
根据本申请的技术方案,一种基于分段标注的肿瘤免疫靶点确定方法的应用可以是动物肿瘤模型建立。所述动物肿瘤模型建立,包括:
1、皮下移植瘤模型:选取6-8周龄野生型C57BL/6小鼠(WT)和Y基因敲除C57BL/6小鼠(Ygene-/-),通过皮下接种2×106 MC38 cells(结肠癌)、1×106 Hepa1-6 cells(肝癌)和1×106 LLC cells(肺癌)等建立多种实体瘤皮下移植小鼠模型。并从第6天开始,每隔3天测量皮下肿瘤的长径(a mm)、短径(bmm)和高度(c mm),通过abc/2公式计算肿瘤的大小(mm3),监测肿瘤进展。此外,当满足小鼠自然死亡、肿瘤大小超过2000 mm3或体重减轻达20-25%任一条件时,视小鼠死亡,记录实验过程中每只小鼠的生存情况。图7图示了根据本申请实施例的MC38细胞皮下移植瘤肿瘤生长曲线和生存曲线。
2、转移瘤模型:选取6-8周龄野生型C57BL/6小鼠(WT)和Y基因敲除C57BL/6小鼠(Ygene-/-),通过尾静脉注射1×106 MC38-Luciferase cells或1×106 EL4-Luciferasecells,每周通过IVIS活体成像系统监测肿瘤在体内的转移情况,并记录小鼠的生存情况。
3、化学诱导原发结直肠癌模型:选取6周龄野生型C57BL/6小鼠(WT)和Y基因敲除C57BL/6小鼠(Ygene-/-),在第0天腹腔注射8.5 mg/kg AOM,同时在第2、5和8周饲喂含有2.5% DSS的特殊饮用水,动态监测小鼠的体重变化情况和生存情况,直至第70天,杀鼠解剖小鼠的结直肠,观察肿瘤的发生发展情况,并留取组织样本用于后续病理、分子和免疫等分析。
4、高压尾静脉肝癌模型:选取6-8周龄、体重20 g左右的野生型C57BL/6小鼠(WT)和Y基因敲除C57BL/6小鼠(Ygene-/-),按照每2 ml生理盐水中溶解20 μg pT3-EF1α-HA-myr-AKT1、20 μg pT2-Caggs-NRasV12和1.6 μg pCM/SB三种质粒的计量配制质粒混合物,然后根据每克小鼠注射100 μl质粒混合物的计量(体重小于20g的小鼠按照20 g的计算),通过高压尾静脉注射的方式注射质粒混合物。此后,每周对小鼠进行称重,并记录其生存情况。
Claims (6)
1.一种基于分段标注的肿瘤免疫靶点确定方法,其特征在于,包括:
获取待确定肿瘤免疫靶点的基因序列;
将所述基因序列划分为多个分段以获得多个基因读段数据;
将所述多个基因读段数据输入基于转换器的上下文编码器以得到多个基因读段特征向量;
分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到多个校正后基因读段特征向量;
计算每两个所述校正后基因读段特征向量之间的余弦相似性以得到与所述多个校正后基因读段特征向量对应的余弦相似性矩阵;
将所述余弦相似性矩阵通过作为特征提取器的卷积神经网络以得到余弦相似性特征矩阵;
将所述多个校正后基因读段特征向量排列为基因读段特征矩阵;
将所述余弦相似性特征矩阵与所述基因读段特征矩阵通过图神经网络以获得基因语义拓扑特征矩阵;
将所述基因语义拓扑特征矩阵拆分为与所述基因读段特征向量具有相同维度的多个基因语义拓扑特征向量;以及
将每个所述基因语义拓扑特征向量通过分类器以获得分类结果,所述分类结果表示所述基因语义拓扑特征向量对应的基因读段数据属于肿瘤免疫靶点的概率值;
其中,所述分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到多个校正后基因读段特征向量,包括:
以如下公式分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到所述多个校正后基因读段特征向量;
其中,所述公式为:
其中,表示所述多个基因读段特征向量中各个基因读段特征向量,/>和/>分别表示所述多个基因读段特征向量中各个基因读段特征向量的均值和方差,且/>是所述多个基因读段特征向量中各个基因读段特征向量的长度,/>是以2为底的对数,且/>是权重超参数。
2.根据权利要求1所述的基于分段标注的肿瘤免疫靶点确定方法,其特征在于,所述将所述多个基因读段数据输入基于转换器的上下文编码器以得到多个基因读段特征向量,包括:
分别将所述多个基因读段数据中的ATCG碱基序列进行独热编码,以将所述多个基因读段数据中的ATCG碱基序列分别转化为输入向量以获得输入向量的序列;以及
使用所述基于转换器的上下文编码器的转换器对所述输入向量的序列进行基于全局的上下文语义编码以获得所述多个基因读段特征向量。
3.根据权利要求2所述的基于分段标注的肿瘤免疫靶点确定方法,其特征在于,所述计算每两个所述校正后基因读段特征向量之间的余弦相似性以得到与所述多个校正后基因读段特征向量对应的余弦相似性矩阵,包括:
以如下公式来计算每两个所述校正后基因读段特征向量之间的余弦相似性以得到多个余弦相似性;
其中,所述公式为:
其中分别表示所述多个校正后基因读段特征向量中每两个所述校正后基因读段特征向量,/>分别表示所述多个校正后基因读段特征向量中每两个所述校正后基因读段特征向量的各个位置的特征值,/>表示所述多个校正后基因读段特征向量中每两个所述校正后基因读段特征向量之间的余弦相似性;以及
将所述多个余弦相似性进行二维排列以得到所述余弦相似性矩阵。
4.根据权利要求3所述的基于分段标注的肿瘤免疫靶点确定方法,其特征在于,所述将所述余弦相似性矩阵通过作为特征提取器的卷积神经网络以得到余弦相似性特征矩阵,包括:
使用所述卷积神经网络的各层在层的正向传递中分别对输入数据进行:
对所述输入数据进行卷积处理以得到卷积特征图;
对所述卷积特征图进行沿通道维度的全局均值池化以得到池化特征矩阵;以及
对所述池化特征矩阵进行非线性激活处理以得到激活特征矩阵;
其中,深度卷积神经网络的最后一层的输出为所述余弦相似性特征矩阵。
5.根据权利要求4所述的基于分段标注的肿瘤免疫靶点确定方法,其特征在于,所述将所述基因语义拓扑特征矩阵拆分为与所述基因读段特征向量具有相同维度的多个基因语义拓扑特征向量,包括:
将所述基因语义拓扑特征矩阵进行基于行向量或列向量的拆分以得到所述多个基因语义拓扑特征向量。
6.根据权利要求5所述的基于分段标注的肿瘤免疫靶点确定方法,其特征在于,所述将每个所述基因语义拓扑特征向量通过分类器以获得分类结果,包括:使用所述分类器以如下公式对所述基因语义拓扑特征向量进行处理以获得所述分类结果,其中,所述公式为:
其中,到/>为权重矩阵,/>到/>为偏置向量,/>为所述基因语义拓扑特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211095883.XA CN116030884B (zh) | 2022-09-08 | 2022-09-08 | 基于分段标注的肿瘤免疫靶点确定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211095883.XA CN116030884B (zh) | 2022-09-08 | 2022-09-08 | 基于分段标注的肿瘤免疫靶点确定方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116030884A CN116030884A (zh) | 2023-04-28 |
CN116030884B true CN116030884B (zh) | 2023-08-22 |
Family
ID=86075101
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211095883.XA Active CN116030884B (zh) | 2022-09-08 | 2022-09-08 | 基于分段标注的肿瘤免疫靶点确定方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116030884B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109081866A (zh) * | 2017-06-13 | 2018-12-25 | 北京大学 | 癌症中的t细胞亚群及其特征基因 |
CN109777872A (zh) * | 2017-11-15 | 2019-05-21 | 北京大学 | 肺癌中的t细胞亚群及其特征基因 |
WO2020078341A1 (zh) * | 2018-10-15 | 2020-04-23 | 智慧芽信息科技(苏州)有限公司 | 基因序列的权利范围标注、检索及信息标注方法、系统 |
CN112435714A (zh) * | 2020-11-03 | 2021-03-02 | 北京科技大学 | 一种肿瘤免疫亚型分类方法及系统 |
CN112662669A (zh) * | 2020-12-23 | 2021-04-16 | 成都药康生物科技有限公司 | 一种Il21基因敲除小鼠模型及其构建方法、应用 |
-
2022
- 2022-09-08 CN CN202211095883.XA patent/CN116030884B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109081866A (zh) * | 2017-06-13 | 2018-12-25 | 北京大学 | 癌症中的t细胞亚群及其特征基因 |
CN109777872A (zh) * | 2017-11-15 | 2019-05-21 | 北京大学 | 肺癌中的t细胞亚群及其特征基因 |
WO2020078341A1 (zh) * | 2018-10-15 | 2020-04-23 | 智慧芽信息科技(苏州)有限公司 | 基因序列的权利范围标注、检索及信息标注方法、系统 |
CN112435714A (zh) * | 2020-11-03 | 2021-03-02 | 北京科技大学 | 一种肿瘤免疫亚型分类方法及系统 |
CN112662669A (zh) * | 2020-12-23 | 2021-04-16 | 成都药康生物科技有限公司 | 一种Il21基因敲除小鼠模型及其构建方法、应用 |
Also Published As
Publication number | Publication date |
---|---|
CN116030884A (zh) | 2023-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Henkel et al. | First draft genome sequence of the Japanese eel, Anguilla japonica | |
CN106446600B (zh) | 一种基于CRISPR/Cas9的sgRNA的设计方法 | |
NZ759846A (en) | Deep learning-based splice site classification | |
Thu et al. | DNA barcoding of coastal ray-finned fishes in Vietnam | |
Chistiakov et al. | Microsatellites and their genomic distribution, evolution, function and applications: a review with special reference to fish genetics | |
KR102586651B1 (ko) | 인공지능 기반 염색체 이상 검출 방법 | |
CN111926017B (zh) | 一种csf1ra基因缺失斑马鱼突变体的制备及其应用 | |
CN105274144A (zh) | 通过CRISPR/Cas9技术得到敲除铁调素基因斑马鱼的制备方法 | |
CN105594664A (zh) | 一种stat1a基因缺失型斑马鱼 | |
Miller et al. | Harnessing cross-species alignment to discover SNPs and generate a draft genome sequence of a bighorn sheep (Ovis canadensis) | |
CN113584079A (zh) | 一种应用于钙离子成像的斑马鱼心脏特异标记品系的建立 | |
Ozerov et al. | Draft genome assembly of the freshwater apex predator wels catfish (Silurus glanis) using linked-read sequencing | |
Wang et al. | Gigantic genomes provide empirical tests of transposable element dynamics models | |
CN116030884B (zh) | 基于分段标注的肿瘤免疫靶点确定方法 | |
EP1512749A2 (en) | DNA to be introduced into biogenic gene, gene introducing vector, cell, and method for introducing information into biogenic gene | |
CN109234412B (zh) | 快速检测生长速度快的翘嘴红鲌的方法及所用的分子标记 | |
CN115762628A (zh) | 生物种群间基因渐进性渗入检测方法和检测装置 | |
CN106222271A (zh) | 一种微卫星遗传标记监测鱖种质的方法 | |
Surachat et al. | The first de novo genome assembly and sex marker identification of Pluang Chomphu fish (Tor tambra) from Southern Thailand | |
Odegård et al. | Incorporating desirable genetic characteristics from an inferior into a superior population using genomic selection. | |
Taylor et al. | Evolution of ray-finned fish genomes: Status and directions with a primer on microRNA characterization | |
Qu et al. | Accurate genomic selection using low-density SNP panels preselected by maximum likelihood estimation | |
CN105440111B (zh) | 一对转录激活子样效应因子核酸酶及其编码序列与应用 | |
Dagnachew et al. | Use of DNA pools of a reference population for genomic selection of a binary trait in Atlantic salmon | |
Gerasimov et al. | Mitochondrial RNA editing in Trypanoplasma borreli: new tools, new revelations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |