CN111710360B - 一种预测蛋白质序列的方法、系统、装置及介质 - Google Patents

一种预测蛋白质序列的方法、系统、装置及介质 Download PDF

Info

Publication number
CN111710360B
CN111710360B CN202010458976.9A CN202010458976A CN111710360B CN 111710360 B CN111710360 B CN 111710360B CN 202010458976 A CN202010458976 A CN 202010458976A CN 111710360 B CN111710360 B CN 111710360B
Authority
CN
China
Prior art keywords
protein
sequence
characteristic
values
predicting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010458976.9A
Other languages
English (en)
Other versions
CN111710360A (zh
Inventor
陈智华
古星月
邵泽辉
寇铮
刘文斌
方刚
石晓龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou University
Original Assignee
Guangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou University filed Critical Guangzhou University
Priority to CN202010458976.9A priority Critical patent/CN111710360B/zh
Publication of CN111710360A publication Critical patent/CN111710360A/zh
Application granted granted Critical
Publication of CN111710360B publication Critical patent/CN111710360B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本发明公开了一种预测蛋白质序列的方法,包括以下步骤:获取原始数据,构建原始数据集;对原始数据集中的蛋白质序列进行特征提取,所提取的特征值包括蛋白质序列中氨基酸的组成值、转换值以及分布值;对提取的特征值进行降维处理,生成特征值的降维序列;根据特征值的降维序列对G蛋白偶联受体进行预测,并将预测结果进行可视化展示;选择氨基酸的组成值、转换值以及分布值作为特征值,使预测结果具有针对性,同时使得预测结果更为准确;并通过降维方法将提取出来的冗余的蛋白质序列样本的特征进行筛选,提升了蛋白质序列区分的效率;最后直观清晰地展示预测结果。本发明可广泛应用于大数据或机器学习技术领域。

Description

一种预测蛋白质序列的方法、系统、装置及介质
技术领域
本发明涉及大数据、机器学习技术领域,尤其是一种预测蛋白质方法、系统、装置及介质。
背景技术
目前,国内外对蛋白质功能的检测主要是通过两个方面来实现,一是实验的方法,二是利用计算机建模。早期蛋白质功能的预测都是通过实验的方法来完成的,常用的试验方法有X射线晶体衍射分析、酵母杂交法、质谱法、核磁共振法、梵光共振能量转移技术和蛋白质芯片技术等。通过实验的方法能够准确的测定蛋白质的功能,但耗时长且实验的成本高,需要迫切地开发出新的计算方法,来快速准确得识别蛋白质序列得功能。
此外,早期对蛋白质序列得研究常用的方法是通过对比现有已知功能的序列和新的序列来预测其功能,也就是基于同源蛋白的功能对目标蛋白进行功能注释。1986年,Nakashima等人等率先提出了以20种氨基酸在一条序列中出现的概率为特征来数字化描述蛋白质序列,这种方法在膜蛋白预测问题中得到了广泛的应用,且取得了较好的预测结果。Chou提出了伪氨基酸组成的方法,将氨基酸物理化学性质的n阶相关因子加入特征;Cai等利用氨基酸的几大特性将氨基酸分组,并利用其组成、转换和分布信息构造了188维的特征来表示蛋白质序列。
至于分类器的选择,在生物信息学领域常见的机器学习算法包括随机森林、决策树、支持向量机、朴素贝叶斯和神经网络;Ding利用了g-gap残基组成构建了400维的特征,使用SVM的分类效果达到85.02%;Fu等提出了一种基于有向混合图重启动游走的方法来预测蛋白质的功能,在酵母菌和人类蛋白质上均取得了较好的实验效果。
综上所述,现有技术对于蛋白质序列的预测,不仅方法预测结果的精确度不高;而且预测蛋白质序列方法冗余复杂,效率低下。
发明内容
有鉴于此,为至少部分解决上述技术问题之一,本发明实施例目的在于提供一种预测蛋白质序列的方法,以及可以对应实现蛋白质序列预测方法的系统、装置以及存储介质。
第一方面,本发明的提供了一种预测蛋白质序列的方法,包括以下步骤:
获取原始数据,构建原始数据集;
对原始数据集中的蛋白质序列进行特征提取,所提取的特征值包括蛋白质序列中氨基酸的组成值、转换值以及分布值;
对提取的特征值进行降维处理,生成特征值的降维序列;
根据特征值的降维序列对G蛋白偶联受体进行预测,并将预测结果进行可视化展示。
此外,在本发明的一些实施例中,获取原始数据,构建原始数据集这一步骤,其具体包括:
从蛋白质家族数据库中获取蛋白质序列,构建正样本数据集;
对正样本数据集进行数据清洗,将序列编号相同的蛋白质序列进行整合;
从蛋白质家族数据库中剔除完成数据清洗和整合后的正样本数据集,得到负样本数据集。
在本发明的一些实施例中,对原始数据集中的蛋白质序列进行特征提取这一步骤,其具体包括:
根据蛋白质序列中氨基酸的数目或者氨基酸的长度得到组成值;
和/或,根据蛋白质序列中氨基酸组合的数目以及蛋白质序列的长度得到转换值;
和/或,根据蛋白质序列中氨基酸的位置以及蛋白质序列的长度得到分布值。
在本发明的一些实施例中,对提取的特征值进行降维处理,生成特征值的降维序列这一步骤,其具体包括:
根据提取的特征值生成特征序列;
根据特征序列生成链表,根据链表生成有向图,计算有向图中要素的得分;
根据有向图中要素的得分对特征序列进行排序。
在本发明的一些实施例中,根据提取的特征值生成特征序列这一步骤,其包括以下步骤之一:
通过方差分析检验特征值差异的显著性,根据显著性生成特征序列;
根据特征值的最大相关性和最大距离生成特征序列;
根据特征值的线性或非线性强度生成特征序列;
根据正则化线性回归生成特征序列;
根据特征值的最大差异生成特征序列;
根据卡方分布的假设检验生成特征序列;
根据相关系数的大小或特征属性的重要性特征序列。
在本发明的一些实施例中,根据有向图中要素的得分对特征序列进行排序这一步骤,其具体为:
根据数据指标得到具有最高索引和最高分数的降维序列,其中,数据指标包括精确度、准确度、召回率、马修斯相关系数以及接受者操作特性曲线与坐标轴围成的面积。
在本发明的一些实施例中,根据特征值的降维序列对G蛋白偶联受体进行预测,并将预测结果进行可视化展示这一步骤,其具体为:
从蛋白质序列中选取至少两个特征值,根据特征值绘制G蛋白偶联受体和非G蛋白偶联受体的区分图。
第二方面,本发明的技术方案还提供一种预测蛋白质序列的系统,包括:
数据获取单元,用于获取原始数据,构建原始数据集;
特征提取单元,用于对原始数据集中的蛋白质序列进行特征提取,所提取的特征值包括蛋白质序列中氨基酸的组成值、转换值以及分布值;
降维处理单元,用于对提取的特征值进行降维处理,生成特征值的降维序列;
结果可视化单元,用于根据特征值的降维序列对G蛋白偶联受体进行预测,并将预测结果进行可视化展示。
第三方面,本发明的技术方案还提供一种预测蛋白质序列的装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当至少一个程序被至少一个处理器执行,使得至少一个处理器实现一种预测蛋白质序列的方法。
第四方面,本发明的技术方案还提供了一种存储介质,其中存储有处理器可执行的程序,处理器可执行的程序在由处理器执行时用于实现一种预测蛋白质序列的方法。
本发明的优点和有益效果将在下面的描述中部分给出,其他部分可以通过本发明的具体实施方式了解得到:
本发明技术方案通过构建蛋白质序列的数据集,并进行特征提取,选择氨基酸的组成值、转换值以及分布值作为特征值,使预测结果具有针对性,同时使得预测结果更为准确;并通过降维方法将提取出来的冗余的蛋白质序列样本的特征进行筛选,提取出更具有区分度的特征,进行降维处理,提升了蛋白质序列区分的效率;最后将预测得到的结果进行可视化展示;更为直观清晰地展示预测结果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1本发明实施例一种预测蛋白质序列的方法步骤流程图;
图2为本发明实施例中一种蛋白质序列的计算方法示意图;
图3为本发明实施例中生成特征值的降维序列具体步骤流程图;
图4为本发明实施例中根据链接列表生成的有向图;
图5为本发明实施例一个结果预测散点图;
图6为本发明实施例另一个结果预测散点图;
图7为通过188D特征提取方法所得到的一个结果预测散点图;
图8为通过188D特征提取方法所得到的另一个结果预测散点图;
图9为未进行降维处理得到的结果预测散点图;
图10为进行降维处理得到的结果预测散点图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
参照图1,一种预测蛋白质序列的方法,其包括,步骤S01-S04:
S01、获取原始数据,构建原始数据集;在本实施例中,步骤S01可以写具体细化为以下步骤:
S011、从蛋白质家族数据库中获取蛋白质序列,构建正样本数据集;即进行数据采集,使用所有不同的阳性蛋白质样品,从UniProt网站的“家族和域”中提取相应的Pfam蛋白序列,并删除冗余且相同的Pfam号,然后为正样本数据集生成唯一的Pfam数。其中,Pfam数据库是一系列蛋白质家族的集合,其中每一个蛋白家族都以多序列比对和隐马尔科夫模型的形式来表示。
S012、对正样本数据集进行数据清洗,将序列编号相同的蛋白质序列进行整合;将所有蛋白质序列整合到Pfam编号文件中,然后将具有相同Pfam序列的蛋白质序列合并到以Pfam编号命名的相同文件中。
S013、从蛋白质家族数据库中剔除完成数据清洗和整合后的正样本数据集,得到负样本数据集;具体的,删除带有正向Pfam编号的文件。在其余的Pfam编号文件中,从每个Pfam的最长序列中提取负样本数据集。
S02、对原始数据集中的蛋白质序列进行特征提取,在本实施例中,使用CTDC(Composition,Transition,Distribution,Composition)提取特征方法,即所提取的特征值包括蛋白质序列中氨基酸的组成值(Composition、缩写为C)、转换值(Transition、缩写为T)以及分布值(Distribution、缩写为D),其中,CTD(Composition,Transition,Distribution)对酶的预测非常有帮助。对应的步骤S02也可以进一步细分为步骤S021-S023:
S021、根据蛋白质序列中氨基酸的数目或者氨基酸的长度得到组成值;具体的,组成[15、16、27-29]是指蛋白质序列中特定氨基酸的数目除以蛋白质序列中氨基酸的总长度N:
Figure BDA0002510241700000051
其中,ne代表蛋白质序列中,特定氨基酸的数目之和;e即为数字1、2、3……代表氨基酸的类型。
S022、根据蛋白质序列中氨基酸组合的数目以及蛋白质序列的长度得到转换值;例如:两个特定的氨基酸分别为a和b,则转换值(Transition)为ab和ba的数目除以蛋白质序列N-1的长度:
Figure BDA0002510241700000052
其中,N表示蛋白质序列中氨基酸的总长度,ni表示特定氨基酸组合的数目。
S023、根据蛋白质序列中氨基酸的位置以及蛋白质序列的长度得到分布值;具体的,分布是蛋白质中特定氨基酸的位置/蛋白质序列的总长度,代表该特定氨基酸中首个,25%,50%,100%氨基酸所处的链长。
例如:某个已知的蛋白质序列为DEKRADGSTAGPSTDGNPS;根据表1(七种类型的理化性质和氨基酸划分)可知,DE是电荷下类别2的氨基酸序列,KR是电荷下类别3的氨基酸序列,而ADGST是极化率下类别1的氨基酸序列。AGPST是极性2的氨基酸序列,而DGNPS是二级结构下分类1的氨基酸序列。因此,在实施例中,蛋白质序列被CTD转换为:2233111112222211111。
表1
Figure BDA0002510241700000053
Figure BDA0002510241700000061
参照图2,在2233111112222211111该蛋白质序列中,CTD(Composition,Transition,Distribution)计算过程为:类别2的组成:7/(7+2+10=19)=36.8%;类别3的组成:2/19=10.5%;类别1的组成:10/19=52.6%。转化率(23,32)=1/18=5.5%;转化率(12,21)=2/18=11.1%;转化率(13,31)=1/18=5.5%。分布(1)=5/19、6/19、7/19、8/19、15/19、16/19、17/19、18/19、19/19;分布(2)=1/19、2/19、10/19、11/19、12/19、13/19、14/19;分布3等于3/19,4/19。DEKRADGSTAGPSTDGNPS的最终CTD结果如下:组成(2):36.8%,组成(3):10.5%,组成(1):52.6%。T(23,32):5.5%,T(12,21):11.1%,T(13,31):5.5%;D(1):26.3%,31.5%,36.8%,42.1%,78.9%,84.2%,89.4%,94.7%,100%;D(2):5.2%,10.5%,52.6%,57.8%,63.1%,68.4%,73.6%;D(3):15.7%,21.0%。
S03、对提取的特征值进行降维处理,生成特征值的降维序列;参照图3,本实施例中,通过MRMD(Max-Relevance-Max-Distance)2.0降维;实施过程中,步骤S03可进一步细分为S031-S033:
S031、根据提取的特征值生成特征序列;具体的,通过不同的属性值,获取特征序列(PageRank),其包括,使用方差(ANOVA)分析来检验两个或多个样本平均值之间差异的显着性;最大相关性和最大距离(MRMD)特征分类以及预测任务的准确性和稳定性;MIC基于非参数信息的最大参数探索,用于测量两个变量X和Y的线性或非线性强度。最小绝对收缩和选择算子(LASSO)使用正则化线性回归方法;最小冗余-最大关联(mRMR)方法通过要求要素彼此之间最大差异来扩展要素集的代表性。卡方检验是一种广泛使用的基于卡方分布的假设检验,用于常见假设检验;递归特征消除(RFE)根据相关系数的大小或特征属性的重要性对数据进行分类。通过在每个循环中递归消除某些函数,RFE尝试消除模型中可能的依赖性和共线性。
S032、根据特征序列生成链表,根据链表生成有向图,计算有向图中要素的得分;具体的,通过函数排名PageRank算法,在步骤S031中,例如得到了a、b和c三个特征值,若特征b比特征a更重要,则将a指向b。最后,每种功能选择方法的结果形成一个链接列表。使用PageRank算法对这些链接进行排名,就形成了有向图,并且每个要素都得到一个分数。然后根据特征的级别a,b,c,d,e...获得排名。
S033、根据有向图中要素的得分对特征序列进行排序;即选择序列的最佳结果。例如,序列中的第一个特征a得分最高,那么从第一个特征开始使用随机森林进行五重交叉验证。最高标准分数是通过比较以下三个序列得出的:“a”,“a,b”和“a”。最后,使用了五个数据指标:F-score(精确度),准确性,召回率,MCC(马修斯相关系数)和AUC(ROC(接受者操作特性曲线)与坐标轴围成的面积),得出具有最高索引和最高分数的降维序列。
再例如:蛋白质序列中的特征有A,B,C,D四个特征(这里的ABCD没有实际意义,仅作举例作用)对于包括mRMR,LASSO,ANOVA,MRMD等在内的每个基本排名算法,每种排名算法生成一个结果链表。假设mRMR生成的结果链表为:D→C→B→A,LASSO生成的结果链表为:C→D→B→A,ANOVA生成的结果链表为D→C→A→B。参照图4,将这些结果链表形成一个有向图,再根据PagePank对该有向图的每个特征计算得分,根据分数对特征进行排序。则得出最后的顺序:B,A,C,D。
S04、根据特征值的降维序列对G蛋白偶联受体进行预测,并将预测结果进行可视化展示;在本实施例中,使用matplotlab绘制GPCRs(G蛋白偶联受体)和nonGPCRs(非G蛋白偶联受体)区分图,判断是否GPCRs和nonGPCRs之间有明显得分界线。具体的,在CTDC序列中的39个属性中选择任意两个属性。GPCR为紫色,标记为0,非GPCR为绿色,标记为1。然后使用Matplotlib绘制GPCRs和nonGPCRs的区分图。若当前的GPCRs和nonGPCRs之间有明显的分界线,说明当前的提取特征方法和降维方法可以很好地区分出GPCRs和nonGPCRs蛋白质序列,否则不能区分。
CTDC用于提取GPCR蛋白质特征序列样品的特征,包括39个特性。特征提取对于构建计算预测变量非常重要。例如,参照图5和图6,为某实施例预测的结果图所示,选择了CTDC提取39个属性中的任意两个属性对GPCRs和nonGPCRs样本进行了划分,并使用Matplotlab绘制了GPCRs和nonGPCRs的样本区分图,GPCRs和nonGPCRs之间有明显的分界线,其中,横坐标和横坐标表示39个属性中的两个属性。其中图5的x坐标是39个属性中的第一个(F1),即亲水性'hydrophobicity_PRAM900101',名为'RKEDQN'。y坐标是第14个属性(F14)“hydrophobicity_PRAM900101”,名为“GASTPHY”,是中性的。图6中,x坐标是CTDC特征提取方法中的第14个属性normwaalsvolume:NVEQIL。y坐标是CTDC中的第25个属性,疏水性_ENGD860101:CVLIMF。图5和图6中GPCRs和nonGRCRs分别由蓝色和绿色表示,其中可以清楚地区分GPCRs和nonGPCRs。
参照图7和图8,采用的是188D特征提取方法提取了GPCR蛋白特征序列。图7选取188D提取特征方法中188维属性的第100维(极化性质)和第120维属性(电荷性质),再用matplotlab对nonGPCRs和GPCRs绘制区分图。其中GPCRs(正样本)标记为1,nonGPCRs(负样本)标记为0;图8选取188D提取特征方法中188维属性的第100维(极化性质)和第150维属性(二级结构),利用matplotlab对nonGPCRs和GPCRs绘制区分图,GPCRs(正样本)标记为1,nonGPCRs(负样本)标记为0。从图7和图8中可以明显看出GPCRs和nonGPCRs的分化效果非常差。
参照图9和图10,均采用了CTDC特征提取方法;图9选取CTDC提取特征方法中39维属性的第1维(亲水性)和第14维属性(中性),再用matplotlab对nonGPCRs和GPCRs绘制区分图。其中GPCRs(正样本)标记为1,nonGPCRs(负样本)标记为0;同理,图10选取的是4维(NVEQIL)和第25维属性(疏水性),利用matplotlab对nonGPCRs和GPCRs绘制区分图,GPCRs(正样本)标记为1,nonGPCRs(负样本)标记为0。可明显判断,使用降维方法后,GPCRs和nonGPCRs之间的差异也很大,并且可以清楚地区分正样本和负样本。
本发明实施例还提供了一种预测蛋白质序列的系统,包括:
数据获取单元,用于获取原始数据,构建原始数据集;
特征提取单元,用于对原始数据集中的蛋白质序列进行特征提取,所提取的特征值包括蛋白质序列中氨基酸的组成值、转换值以及分布值;
降维处理单元,用于对提取的特征值进行降维处理,生成特征值的降维序列;
结果可视化单元,用于根据特征值的降维序列对G蛋白偶联受体进行预测,并将预测结果进行可视化展示。
本发明实施例还提供了一种装置,包括处理器以及存储器;
存储器用于存储程序;
处理器用于根据程序执行如图1所示的预测蛋白质序列的方法;
上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
此外,本发明实施例还提供了一种存储介质,存储介质存储有程序,程序被处理器执行如图1所示的方法。
从上述具体的实施过程,可以总结出,本发明所提供的技术方案相较于现有技术存在以下优点或优势:
1、本发明所提供的方案,通过CTDC算法起到了提取蛋白质序列特征,最后得到的GPCRs和nonGPCRs蛋白质序列预测结果更为准确;
2、本发明所提供的方案选用机器学习方法,采用matplotlab快速绘制GPCRs和nonGPCRs分界图。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
其中,功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于上述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (6)

1.一种预测蛋白质序列的方法,其特征在于,包括以下步骤:
获取原始数据,构建原始数据集;
对所述原始数据集中的蛋白质序列进行特征提取,所提取的特征值包括蛋白质序列中氨基酸的组成值、转换值以及分布值;
对提取的特征值进行降维处理,生成所述特征值的降维序列;
根据所述特征值的降维序列对G蛋白偶联受体进行预测,并将预测结果进行可视化展示;
所述对提取的特征值进行降维处理,生成所述特征值的降维序列这一步骤,
其具体包括:
根据提取的特征值生成特征序列;
根据所述特征序列生成链表,根据所述链表生成有向图,计算所述有向图中要素的得分;
根据所述有向图中要素的得分对所述特征序列进行排序;
所述根据提取的特征值生成特征序列这一步骤,其包括以下步骤之一:
通过方差分析检验所述特征值差异的显著性,根据所述显著性生成所述特征序列;
根据所述特征值的最大相关性和最大距离生成所述特征序列;
根据所述特征值的线性或非线性强度生成所述特征序列;
根据正则化线性回归生成所述特征序列;
根据所述特征值的最大差异生成所述特征序列;
根据卡方分布的假设检验生成所述特征序列;
根据相关系数的大小或特征属性的重要性生成所述特征序列;
所述根据所述有向图中要素的得分对所述特征序列进行排序这一步骤,其具体为:
根据数据指标得到具有最高索引和最高分数的降维序列,所述数据指标包括精确度、准确度、召回率、马修斯相关系数以及接受者操作特性曲线与坐标轴围成的面积。
2.根据权利要求1所述的一种预测蛋白质序列的方法,其特征在于,所述获取原始数据,构建原始数据集这一步骤,其具体包括:
从蛋白质家族数据库中获取蛋白质序列,构建正样本数据集;
对所述正样本数据集进行数据清洗,将序列编号相同的蛋白质序列进行整合;从所述蛋白质家族数据库中剔除完成数据清洗和整合后的正样本数据集,得到负样本数据集。
3.根据权利要求1所述的一种预测蛋白质序列的方法,其特征在于,所述对所述原始数据集中的蛋白质序列进行特征提取这一步骤,其具体包括:
根据所述蛋白质序列中氨基酸的数目或者氨基酸的长度得到所述组成值;
和/或,根据所述蛋白质序列中氨基酸组合的数目以及所述蛋白质序列的长度得到所述转换值;
和/或,根据所述蛋白质序列中氨基酸的位置以及所述蛋白质序列的长度得到所述分布值。
4.根据权利要求1-3任一项所述的一种预测蛋白质序列的方法,其特征在于,所述根据所述特征值的降维序列对G蛋白偶联受体进行预测,并将预测结果进行可视化展示这一步骤,其具体为:
从所述蛋白质序列中选取至少两个特征值,根据所述特征值绘制所述G蛋白偶联受体和非G蛋白偶联受体的区分图。
5.一种预测蛋白质序列的装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-4中任一项所述的一种预测蛋白质序列的方法。
6.一种存储介质,其特征在于,所述存储介质存储有程序,所述程序被处理器执行完成如权利要求1-4中任一项所述一种预测蛋白质序列的方法。
CN202010458976.9A 2020-05-27 2020-05-27 一种预测蛋白质序列的方法、系统、装置及介质 Active CN111710360B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010458976.9A CN111710360B (zh) 2020-05-27 2020-05-27 一种预测蛋白质序列的方法、系统、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010458976.9A CN111710360B (zh) 2020-05-27 2020-05-27 一种预测蛋白质序列的方法、系统、装置及介质

Publications (2)

Publication Number Publication Date
CN111710360A CN111710360A (zh) 2020-09-25
CN111710360B true CN111710360B (zh) 2023-04-25

Family

ID=72537931

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010458976.9A Active CN111710360B (zh) 2020-05-27 2020-05-27 一种预测蛋白质序列的方法、系统、装置及介质

Country Status (1)

Country Link
CN (1) CN111710360B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113764034B (zh) * 2021-08-03 2023-09-22 腾讯科技(深圳)有限公司 基因组序列中潜在bgc的预测方法、装置、设备及介质
CN113838524B (zh) * 2021-09-27 2024-04-26 电子科技大学长三角研究院(衢州) S-亚硝基化位点预测方法、模型训练方法及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052795A (zh) * 2017-11-28 2018-05-18 华东师范大学 一种基于特征优化的g蛋白偶联特异性预测的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6865492B2 (en) * 2000-01-24 2005-03-08 The Cielo Institute, Inc. Algorithmic design of peptides for binding and/or modulation of the functions of receptors and/or other proteins
US7774144B2 (en) * 2001-10-26 2010-08-10 Samuel Bogoch System and method for identifying complex patterns of amino acids

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052795A (zh) * 2017-11-28 2018-05-18 华东师范大学 一种基于特征优化的g蛋白偶联特异性预测的方法

Also Published As

Publication number Publication date
CN111710360A (zh) 2020-09-25

Similar Documents

Publication Publication Date Title
CN110110617B (zh) 医学影像分割方法、装置、电子设备和存储介质
Wan et al. BlastNeuron for automated comparison, retrieval and clustering of 3D neuron morphologies
Schoening et al. RecoMIA—Recommendations for marine image annotation: Lessons learned and future directions
EP2894577B1 (en) Retrieving system, retrieving method, and security inspection device based on contents of fluoroscopic images
US20030220916A1 (en) Document information display system and method, and document search method
CN112464579B (zh) 基于进化神经网络结构搜索食管癌病变区域识别建模方法
CN111710360B (zh) 一种预测蛋白质序列的方法、系统、装置及介质
Megjhani et al. Population-scale three-dimensional reconstruction and quantitative profiling of microglia arbors
Cuss et al. Analysis of dissolved organic matter fluorescence using self-organizing maps: mini-review and tutorial
Hipp et al. Spatially invariant vector quantization: a pattern matching algorithm for multiple classes of image subject matter including pathology
Busse et al. Automated analysis of a diverse synapse population
CN107808126A (zh) 车辆检索方法及装置
US9070203B2 (en) Identification and quantification of microtextured regions in materials with ordered crystal structure
US20220254450A1 (en) method for classifying individuals in mixtures of DNA and its deep learning model
CN114445356A (zh) 基于多分辨率的全视野病理切片图像肿瘤快速定位方法
CN115578602A (zh) 一种基于改进YOLOv7的自然树种识别方法
CN110188592B (zh) 一种尿液有形成分细胞图像分类模型构建方法及分类方法
CN116416884A (zh) 一种显示器模组的测试装置及其测试方法
RU2732895C1 (ru) Метод для выделения и классификации типов клеток крови с помощью глубоких сверточных нейронных сетей
CN113838524B (zh) S-亚硝基化位点预测方法、模型训练方法及存储介质
Fuda et al. Artificial intelligence in clinical multiparameter flow cytometry and mass cytometry–key tools and progress
WO2019008753A1 (ja) 画像解析装置
Rajesh Effective morphological transformation and sub-pixel classification of clustered images
CN116451081A (zh) 数据漂移的检测方法、装置、终端及存储介质
JPH08315144A (ja) パターン分類装置及びそのパターン分類方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant