CN111128300A - 基于突变信息的蛋白相互作用影响判断方法 - Google Patents

基于突变信息的蛋白相互作用影响判断方法 Download PDF

Info

Publication number
CN111128300A
CN111128300A CN201911365559.3A CN201911365559A CN111128300A CN 111128300 A CN111128300 A CN 111128300A CN 201911365559 A CN201911365559 A CN 201911365559A CN 111128300 A CN111128300 A CN 111128300A
Authority
CN
China
Prior art keywords
protein
mutation
sequence
model
influence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911365559.3A
Other languages
English (en)
Other versions
CN111128300B (zh
Inventor
林关宁
钱威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Mental Health Center (shanghai Psychological Counseling Training Center)
Original Assignee
Shanghai Mental Health Center (shanghai Psychological Counseling Training Center)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Mental Health Center (shanghai Psychological Counseling Training Center) filed Critical Shanghai Mental Health Center (shanghai Psychological Counseling Training Center)
Priority to CN201911365559.3A priority Critical patent/CN111128300B/zh
Publication of CN111128300A publication Critical patent/CN111128300A/zh
Application granted granted Critical
Publication of CN111128300B publication Critical patent/CN111128300B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于突变信息的蛋白相互作用影响判断方法,是一个对于蛋白质中发生的单点突变是否会对原有该基因的蛋白相互作用产生负面影响的判断工具(MIPPI),包括数据收集筛选、特征选取提取和模型建立三部分。本发明技术方案可以为基因、蛋白突变的相关研究者提供直观的突变对于蛋白互作影响的辅助判断标准,主要基于蛋白序列突变信息来对突变造成的蛋白相互作用的影响进行判断,能够改善对于蛋白突变严重程度的判断。

Description

基于突变信息的蛋白相互作用影响判断方法
技术领域
本发明属于生物计算机技术领域,具体涉及一种基于突变信息的蛋白相互作用影响判断方法。
背景技术
人类基因组中普遍存在着基因突变,据文献报道每个人基因中平均包含了约175个突变点位,平均每个人会携带有3个以上的有害突变。基因突变点位大多数位于基因组的非编码区域,只有少数落在编码区域。落在编码区域的错义突变会导致蛋白质编码发生改变,从而改变蛋白质的结构和功能,并对相关的生物学过程和功能造成影响。目前已知大量的疾病与基因突变相关,典型的为精神疾病,如自闭症、强迫症、阿尔兹海默症、双向情感障碍等,其他相关疾病如高血压、糖尿病、色盲以及最受关注的癌症都和基因突变密切相关。所以,研究基因突变的致病机制成为了医学领域的重要研究领域。
错义突变会导致蛋白质序列编码发生变化,蛋白质在生物体内执行多种功能,包括催化代谢反应,DNA复制,应激反应等。大多数生物过程,包括细胞增殖,信号传导和蛋白质转运等,都是通过复杂的蛋白相互作用在生物体内进行内在协调。
所以,蛋白质复合物的形成在众多生物学过程的调节中起着至关重要的作用。蛋白质间相互作用的亲和力和特异性的合理设计或修饰是一个具有挑战性的问题,因为它提出了许多有希望的应用,特别是用于治疗目的。蛋白质界面的特征已经被普遍研究,但是蛋白质相互之间结合模式的多样性使得得出简单通用的识别规则受到了阻碍,仅一些全局性的理化特征,如疏水性等被研究所重视。目前已有大量研究关注于蛋白质相互作用界面的预测及研究,这些研究大多数依赖于机器学习方法来集成表征每个氨基酸残基及其环境的各种功能。这些特征通常包括有关序列保守性的信息,以及物理化学信息(如残基疏水性,静电荷),结构信息(如溶剂可及性,二级结构)或者各类能量参数。尽管这些方法需要了解蛋白复合物的结构,但也已实现了从序列对于相互作用界面的预测。相比于蛋白质互作界面的研究,突变对于蛋白质相互作用影响的研究对突变直接造成的生物影响研究更具有直接意义。目前,在这方面的研究中主要集中于突变对于蛋白质结合自由能的影响,还没有通过序列信息直接对突变造成的蛋白质相互作用影响做出判断的研究。该方面研究主要存在的问题有:1)可使用的研究数据不足,没有足够的经过实验验证的标注数据作为支撑来进行相关研究的进行,目前大多数的蛋白互作相关数据集并未对突变产生的互作影响进行分类标注;2)多数关于突变对于蛋白质本身及蛋白相互作用的研究中,都使用到了较为复杂的各种蛋白结构信息作为特征依据,目前为止,已经具有全面结构信息,并且标注了相关点位突变后对于蛋白互作影响的数据不足,大量数据缺乏实验验证,对相关研究造成了阻碍。
发明内容
有鉴于此,本发明的目的是提供一种基于突变信息的蛋白相互作用影响判断方法,以解决现有技术中的不足。该方法集中了能够描述蛋白突变对于原有蛋白相互作用造成影响的特征,从蛋白序列突变信息中判断出突变影响程度,可普遍用于蛋白及非同义突变的影响预测。
为了达到上述目的,本发明的目的是通过下述技术方案实现的:
提供一种基于突变信息的蛋白相互作用影响判断方法,其中,包括数据收集筛选、特征选取提取和模型建立三部分,其中:
在数据收集筛选步骤,使用预设的数据集,将该数据集根据研究需要进行筛选,选取人类的蛋白序列单点突变条目并排除矛盾标注条目,获得符合条件的注释条目,这些条目中包含了三类蛋白点突变对于蛋白互作的影响种类,分别为破坏原有互作、减弱原有互作、对原有互作无影响;
在特征选取提取步骤中,特征选取为蛋白序列特征和序列保守性特征,通过深度学习模型训练将序列中的定量特征进行映射计算得到,序列保守性特征作为对于序列特征的补充,保守性数值通过NCBI Psiblast序列比对工具进行初步计算,得到蛋白序列特异性得分PSSM矩阵,其中包含了对应蛋白中氨基酸残基的进化保守性信息,提取突变残基前25位以及后25位氨基酸窗口长度的矩阵信息,经标准化处理得到保守性相关特征;
在模型建立步骤中,使用深度学习中的卷积神经网络模型,卷积神经网络模型包含卷积层、激活层和全连接层,卷积层通过设置多个卷积核对原有特征进行提取和计算,激活层将线性计算非线性化,全连接层在不同神经元节点中进行线性映射运算,最终给出突变对于互作影响的分类结果;深度学习网络模型使用卷积神经网络作为基础,并进行调整以适应具体任务,从不同尺度对于输入进行特征提取识别,并在训练网络模型的过程中针对不同类别样本数比例不平衡的问题,设置对应的类别损失惩罚权重进行平衡调整,在最后给出综合判断结果。
上述基于突变信息的蛋白相互作用影响判断方法,其中,在特征选取提取步骤,将经过数据清洗的注释条目进行特征提取工作,一类特征为蛋白序列信息,以突变点位为中心,选取前后邻近25位氨基酸作为参考,得到突变相关氨基酸滑动窗序列作为数据样例,将得到的滑动窗序列进行独热编码,将序列转化为数字矩阵,并添加一行指示列来提示该位点是否存在氨基酸序列;另一类特征为蛋白序列保守性特征,该类特征的提取依赖于NCBIPsiblast工具,输入发生突变的蛋白序列信息,通过序列对比参考库对比该蛋白序列的相似序列,得出该蛋白序列各点位的氨基酸特异性矩阵,其中包含蛋白序列各氨基酸残基位点的保守性信息,通过发生突变的氨基酸点位进行定位,取前后邻近25位氨基酸形成滑动窗序列作为数据样例,经过标准化处理,得到突变相关氨基酸保守性特征。
上述基于突变信息的蛋白相互作用影响判断方法,其中,在模型建立步骤,在模型训练过程中选取模型损失函数值最小的训练模型作为最优模型。
本发明技术方案的有益效果是:
可以为基因、蛋白突变的相关研究者提供直观的突变对于蛋白互作影响的辅助判断标准,主要基于蛋白序列突变信息来对突变造成的蛋白相互作用的影响进行判断,能够改善对于蛋白突变严重程度的判断。
附图说明
图1为本发明方法流程示意图。
图2为本发明方法在数据集内划分的独立测试集中的预测混淆矩阵示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
参看图1所示,本发明基于突变信息的蛋白相互作用影响判断方法包括数据收集筛选、特征选取提取和模型建立三部分。本发明中将所输入的蛋白突变通过已训练的深度学习模型进行预测,将蛋白突变分为两类,一类为对蛋白互作会造成负面影响,另一类为无影响。
在数据收集筛选阶段,开发过程中使用了2019年1月份发表于Naturecommunications期刊IMEx组织的文章中给出的数据集(S1)。该数据集包含了IMEx联盟机构收集了14年以上的蛋白序列点突变数据,这些数据全部基于实验验证结果进行相关注释标注,并持续更新,于2019年7月已收录了超过43000条相关注释。数据集中的突变条目与UniprotKB中的基础蛋白序列相关联并持续更新。将该数据集根据研究需要进行筛选,选取人类的蛋白序列单点突变条目,并排除矛盾标注条目,获得12000余条符合条件的注释条目。这些条目中包含了三类蛋白点突变对于蛋白互作的影响种类,分别为破坏原有互作(disrupting),减弱原有互作(decreasing),对原有互作无影响(no effect)。开发过程中,使用IMEx的Mutations influencing interactions dataset(https://www.ebi.ac.uk/intact)作为训练及测试母数据集,对其中的注释条目进行筛选(S2)。该数据集中包含了超过297个不同物种的超过4万条蛋白突变相关注释条目,这些条目分别来自于历年来不同文献中的报道。本工具开发过程中,在该数据集中筛选出人类蛋白突变,并限定为单点蛋白突变以避免单个蛋白上出现多点突变造成的注释混淆。由于这些蛋白突变注释来自不同文献报道,而不同文献报道间可能存在矛盾,为了避免这类情况出现,在数据筛选过程中将出现矛盾标注的条目进行删除(S3),最终得到基于母数据集的人类蛋白突变注释条目数据集。
在特征选取及提取阶段,开发过程中考虑了特征选取,为蛋白序列特征和序列保守性特征等。在蛋白序列特征中,蛋白序列的一切可计算特征在理论上均被包含在蛋白序列特征中,通过深度学习模型训练(S4),可以将序列中的定量特征(如氨基酸疏水性等)进行映射计算得到。序列保守性特征作为对于序列特征的补充,保守性数值通过NCBI已有的Psiblast序列比对工具进行初步计算。通过Psiblast比对,即可得到蛋白序列特异性得分矩阵,通过进一步处理提取相关区段即得到保守性相关特征。将经过数据清洗的注释条目进行特征提取工作。一类特征为蛋白序列信息,以突变点位作为中心参位置,选取前后25位邻近氨基酸作为参考,得到突变相关氨基酸信息作为数据样例。将得到的滑动窗序列进行独热编码,即将序列转化为编码矩阵,并添加指示列来提示该位点是否存在相关的氨基酸信息。另一类特征为蛋白序列保守性特征,该类特征的提取依赖于NCBI Psiblast工具。输入发生突变的蛋白序列信息(fasta序列),通过序列对比参考库(开发中使用UNIREF对比库)对比该蛋白序列的相似序列,得出该蛋白序列各点位的氨基酸特异性矩阵,其中包含着蛋白序列各氨基酸残基位点的保守性信息。通过发生突变的氨基酸点位进行定位,同样取前后25位邻近氨基酸形成滑动窗序列作为数据样例,经过标准化处理,得到突变相关氨基酸保守性特征。使用基于python环境的keras深度学习框架进行工具相关的深度学习模型开发,将每个蛋白突变注释条目经过特征提取后的相关数字化特征作为模型开发数据集,使用深度学习中的卷积神经网络(Convolutional Neural Network)作为模型基础进行开发,在NVIDIA GTX 1070 Ti GPU上进行训练运算,最终选取模型损失函数(loss)值最小的训练模型作为最优模型,用于后续验证及预测过程(S5)。
在模型建立阶段,开发中使用了深度学习中的卷积神经网络(CNN)模型。CNN模型中包含了卷积层,激活层,全连接层等。卷积层通过设置多个卷积核对原有特征进行提取和计算,激活层将线性计算非线性化,全连接层在不同神经元节点中进行线性映射运算,最终给出突变对于互作影响的分类结果。模型使用了卷积神经网络作为基础,并进行了调整以适应具体任务,从不同尺度对于输入进行特征提取识别,并且在最后给出综合判断结果,这与蛋白序列中,一定长度的残基序列能够达到一定的生物学功能作用相适应。在模型训练过程中,选取损失函数最小的模型作为最佳模型。
Mutation Impact on PPI(MIPPI)工具的主要效果为对于人类蛋白质单点突变对于该蛋白质原有蛋白相互作用的影响做出判断。目前的判断为二元分类,即突变对于原有蛋白互作有负面影响或者无影响。由于蛋白质对于人体细胞功能产生直接影响,蛋白相互作用的改变对于生物正常功能的意义重大。
MIPPI工具是基于python语言开发的一个脚本工具,其运行依赖于python语言环境以及NCBI psiblast工具。用户通过使用工具规定的输入格式,输入蛋白突变信息条目序列信息文件,即可使用工具进行相关蛋白突变对于原有蛋白互作影响的预测。在输入相关信息数据后,程序自动提取预测所需的各类特征参数,并在完成特征提取后加载模型参数,对所给数据做出预测,并输出预测结果相应文件报告。
IMEx的Mutations influencing interactions dataset中,MIPPI使用其中筛选后随机产生的90%条目用于训练及验证,另外10%作为测试集。由于IMEx数据集中的条目来自大量不同文献报道,所以具备作为有效测试集的资格。在该随机产生的独立测试集(1214个蛋白突变条目)中,MIPPI的预测准确率可达到89.37%,MCC指标达到78%,marcoF1 score达到0.89,具体预测情况如图2所示(图中0代表无影响类别,1代表负面影响类别)。
除了在测试集中达到较高准确率及相关分类指标,MIPPI还利用了已有的基因突变数据库进行预测。通过对公共数据库psymukb中的基因突变条例进行注释,获取了3600多条相关蛋白突变,利用MIPPI对其造成的蛋白互作影响进行预测,预测结果显示其中大多数蛋白突变会对原有蛋白互作产生负面影响。该数据库收集的基因突变条例为罕见新发突变,造成有害影响的概率偏高。将预测分类与已有的SIFT、CADD等突变有害得分进行对比,发现预测分类为无影响的条目中这些有害得分明显水平更低,并达到统计学显著水平(其中SIFT得分越高代表突变的有害可能性更低,其余得分分值与预测的有害程度正相关)。
Figure BDA0002338329910000051
以上仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。

Claims (3)

1.一种基于突变信息的蛋白相互作用影响判断方法,其特征在于,包括数据收集筛选、特征选取提取和模型建立三部分,其中:
在数据收集筛选步骤,使用预设的数据集,将该数据集根据研究需要进行筛选,选取人类的蛋白序列点突变条目并排除矛盾标注条目,获得符合条件的注释条目,这些条目中包含了三类基因点突变对于蛋白互作的影响种类,分别为破坏原有互作、减弱原有互作、对原有互作无影响;
在特征选取提取步骤,特征选取为蛋白序列特征和序列保守性特征,通过深度学习模型训练将序列中的定量特征进行映射计算得到,序列保守性特征作为对于序列特征的补充,保守性数值通过NCBIPsiblast序列比对工具进行初步计算,得到蛋白序列特异性得分矩阵,进一步处理提取相关区段得到保守性相关特征;
在模型建立步骤,使用深度学习中的卷积神经网络模型,卷积神经网络模型包含卷积层、激活层和全连接层,卷积层通过设置多个卷积核对原有特征进行提取和计算,激活层将线性计算非线性化,全连接层在不同神经元节点中进行线性映射运算,最终给出突变对于互作影响的分类结果;卷积神经网络模型使用卷积神经网络作为基础,并进行调整以适应具体任务,从不同尺度对于输入进行特征提取识别,在最后给出综合判断结果。
2.如权利要求1所述基于蛋白序列信息的蛋白相互作用影响判断方法,其特征在于,在特征选取提取步骤,将经过数据清洗的注释条目进行特征提取工作,具体步骤如下:
(1)蛋白序列特征,以突变发生位置作为中心参考位点,选取前几十个以及后几十个位氨基酸残基作为参考,得到突变相关氨基酸滑动窗序列作为数据样例,将得到的滑动窗序列进行独特编码,将序列按照分布转化为数字矩阵,并添加特定指示列提示该位点是否存在氨基酸信息;
(2)蛋白序列保守性特征,该类特征的提取依赖于NCBI Psiblast工具,输入发生突变的蛋白序列信息,在对比库中存在多物种参考蛋白序列集,通过序列对比参考库对比该蛋白序列的相似序列,得出该蛋白序列各点位的氨基酸特异性打分矩阵,其中包含蛋白序列各氨基酸残基位点的保守性信息,通过发生突变的氨基酸点位进行定位,取前几十位以及后几十位氨基酸作为参考,形成数据样例,并经过一系列标准化处理,得到突变相关氨基酸保守性特征。
3.如权利要求1或2所述基于突变信息的蛋白相互作用影响判断方法,其特征在于,在模型建立步骤,针对模型正负样本数量比例严重不平衡从而导致分类效果较差的问题,引入类别差异损失权重对该问题进行平衡,即对样本数量少的类别误判惩罚高于样本数量多的类别。在模型训练过程中选取模型损失函数值最小的训练模型作为最优模型。
CN201911365559.3A 2019-12-26 2019-12-26 基于突变信息的蛋白相互作用影响判断方法 Active CN111128300B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911365559.3A CN111128300B (zh) 2019-12-26 2019-12-26 基于突变信息的蛋白相互作用影响判断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911365559.3A CN111128300B (zh) 2019-12-26 2019-12-26 基于突变信息的蛋白相互作用影响判断方法

Publications (2)

Publication Number Publication Date
CN111128300A true CN111128300A (zh) 2020-05-08
CN111128300B CN111128300B (zh) 2023-03-24

Family

ID=70503015

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911365559.3A Active CN111128300B (zh) 2019-12-26 2019-12-26 基于突变信息的蛋白相互作用影响判断方法

Country Status (1)

Country Link
CN (1) CN111128300B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114155910A (zh) * 2021-11-12 2022-03-08 哈尔滨工业大学 一种癌症体细胞突变功能影响预测方法
CN114155912A (zh) * 2022-02-09 2022-03-08 北京晶泰科技有限公司 蛋白质的序列设计方法、蛋白质的结构设计方法、装置及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001092990A2 (en) * 2000-06-01 2001-12-06 Variagenics, Inc. Structure-based methods for assessing amino acid variances
CA2415968A1 (en) * 2002-01-23 2003-07-23 Mount Sinai Hospital Methods and apparatus for comparing, aligning, and optimizing protein sequences
US20110131171A1 (en) * 2008-04-24 2011-06-02 University Of Rochester Risk stratification of genetic disease using scoring of amino acid residue conservation in protein families
CN106021983A (zh) * 2016-05-13 2016-10-12 万康源(天津)基因科技有限公司 一种dna及蛋白质水平突变分析方法
CN106778065A (zh) * 2016-12-30 2017-05-31 同济大学 一种基于多元数据预测dna突变影响蛋白互作的预测方法
CN109785901A (zh) * 2018-12-26 2019-05-21 东软集团股份有限公司 一种蛋白质功能预测方法及装置
CN110033822A (zh) * 2019-03-29 2019-07-19 华中科技大学 蛋白质编码方法及蛋白质翻译后修饰位点预测方法及系统
US20190259470A1 (en) * 2018-02-19 2019-08-22 Protabit LLC Artificial intelligence platform for protein engineering

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001092990A2 (en) * 2000-06-01 2001-12-06 Variagenics, Inc. Structure-based methods for assessing amino acid variances
CA2415968A1 (en) * 2002-01-23 2003-07-23 Mount Sinai Hospital Methods and apparatus for comparing, aligning, and optimizing protein sequences
US20110131171A1 (en) * 2008-04-24 2011-06-02 University Of Rochester Risk stratification of genetic disease using scoring of amino acid residue conservation in protein families
CN106021983A (zh) * 2016-05-13 2016-10-12 万康源(天津)基因科技有限公司 一种dna及蛋白质水平突变分析方法
CN106778065A (zh) * 2016-12-30 2017-05-31 同济大学 一种基于多元数据预测dna突变影响蛋白互作的预测方法
US20190259470A1 (en) * 2018-02-19 2019-08-22 Protabit LLC Artificial intelligence platform for protein engineering
CN109785901A (zh) * 2018-12-26 2019-05-21 东软集团股份有限公司 一种蛋白质功能预测方法及装置
CN110033822A (zh) * 2019-03-29 2019-07-19 华中科技大学 蛋白质编码方法及蛋白质翻译后修饰位点预测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
戴洛等: "应用点突变预测程序(SIFT)检查MLH1蛋白质中的结肠癌相关点突变", 《中国医药导报》 *
禹晓童等: "先天性白内障相关基因热休克转录因子4非同义单核苷酸多态性高危致病表型的预测研究", 《中华眼科医学杂志(电子版)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114155910A (zh) * 2021-11-12 2022-03-08 哈尔滨工业大学 一种癌症体细胞突变功能影响预测方法
CN114155910B (zh) * 2021-11-12 2022-07-29 哈尔滨工业大学 一种癌症体细胞突变功能影响预测方法
CN114155912A (zh) * 2022-02-09 2022-03-08 北京晶泰科技有限公司 蛋白质的序列设计方法、蛋白质的结构设计方法、装置及电子设备

Also Published As

Publication number Publication date
CN111128300B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
KR101542529B1 (ko) 대립유전자의 바이오마커 발굴방법
AU2002359549B2 (en) Methods for the identification of genetic features
Yin et al. Using the structure of genome data in the design of deep neural networks for predicting amyotrophic lateral sclerosis from genotype
Jia et al. Mapping quantitative trait loci for expression abundance
KR101460520B1 (ko) 차세대 시퀀싱 데이터의 질병변이마커 검출 방법
Hassan et al. Evaluation of computational techniques for predicting non-synonymous single nucleotide variants pathogenicity
CN108564117B (zh) 一种基于svm的贫困生辅助认定方法
CN109448787B (zh) 基于改进pssm进行特征提取与融合的蛋白质亚核定位方法
CN111128300B (zh) 基于突变信息的蛋白相互作用影响判断方法
US11837329B2 (en) Method for classifying multi-granularity breast cancer genes based on double self-adaptive neighborhood radius
CN113593630A (zh) 一种家庭冠心病患病风险评估及其风险因素鉴定系统
CN116959725A (zh) 一种多模态数据融合的疾病风险预测方法
KR20150024232A (ko) 질병에 대한 약물 내성 유전체로부터 내성 원인 마커의 발굴 방법
KR20190138960A (ko) 딥러닝 기반의 질환 위험 유전 변이 발굴 장치
CN112735594B (zh) 一种筛选疾病表型相关突变位点的方法及其应用
KR20210110241A (ko) 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 시스템 및 방법
CN116525108A (zh) 基于snp数据的预测方法、装置、设备及存储介质
CN116246705A (zh) 全基因组测序数据的分析方法和装置
CN116153396A (zh) 一种基于迁移学习的非编码变异预测方法
CN115206437A (zh) 一种线粒体效应分子的智能筛选体系及其构建方法和应用
Shi et al. RefRGim: an intelligent reference panel reconstruction method for genotype imputation with convolutional neural networks
CN111863136A (zh) 一种多组学数据集间关联分析的集成系统和方法
CN112233722A (zh) 品种鉴定的方法、其预测模型的构建方法和装置
CN116646010B (zh) 人源性病毒检测方法及装置、设备、存储介质
Sládeček et al. Combination of expert guidelines-based and machine learning-based approaches leads to superior accuracy of automated prediction of clinical effect of copy number variations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant