CN108229102B - 氨基酸序列特征提取方法、装置、存储介质及电子设备 - Google Patents

氨基酸序列特征提取方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN108229102B
CN108229102B CN201711377471.4A CN201711377471A CN108229102B CN 108229102 B CN108229102 B CN 108229102B CN 201711377471 A CN201711377471 A CN 201711377471A CN 108229102 B CN108229102 B CN 108229102B
Authority
CN
China
Prior art keywords
amino acid
acid sequence
score
preset
pssm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711377471.4A
Other languages
English (en)
Other versions
CN108229102A (zh
Inventor
汤一凡
崔朝辉
赵立军
张霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201711377471.4A priority Critical patent/CN108229102B/zh
Publication of CN108229102A publication Critical patent/CN108229102A/zh
Application granted granted Critical
Publication of CN108229102B publication Critical patent/CN108229102B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本公开涉及一种氨基酸序列特征提取方法、装置、存储介质及电子设备。该方法包括:获取待进行特征提取的氨基酸序列;确定所述氨基酸序列的位置特异性得分矩阵PSSM;确定每种预设氨基酸在[‑S,S]分数区间内的得分分布;合并M种预设氨基酸的所述得分分布,以获得所述氨基酸序列的特征向量。由于确定出的氨基酸序列的位置特异性得分矩阵PSSM中蕴含有同源蛋白质信息,因此该位置特异性得分矩阵PSSM表示成的特征向量中能够融入更多的序列保守信息,更有利于氨基酸序列与其他生物高分子物质之间的相互作用的预测,且预测效率高。并且,能够将位置特异性得分矩阵PSSM转换成固定长度的特征向量,为氨基酸序列特征提供了一种多维空间表达方式。

Description

氨基酸序列特征提取方法、装置、存储介质及电子设备
技术领域
本公开涉及生物信息领域,具体地,涉及一种氨基酸序列特征提取方法、装置、存储介质及电子设备。
背景技术
在生物信息学中,蛋白质氨基酸序列的信息起到了关键作用,并且,蛋白质由20种天然氨基酸经过线性组合而成,这些线性序列中包含着大量生命体特征信息,通常被认为能够解释和表达所有机体内的生命活动。因此,氨基酸序列通常作为信息源与机器学习技术结合应用于预测蛋白质功能。具体来说,首先收集由已知具有某类功能和未具有某类功能的氨基酸序列组成的数据集;然后从未具有某类功能的氨基酸序列中进行特征提取,并表示成特征向量;最后根据该特征向量,利用机器学习算法对蛋白质功能进行预测。由于,机器学习预测中,需要输入固定维度的特征向量,因此目前的氨基酸序列特征提取方法,仅仅能根据计算出的氨基酸单个出现频率或者利用氨基酸理化性质参数来对氨基酸序列进行特征提取,能够提取的特征非常有限,并不能充分表达该氨基酸序列中承载的大量信息。
发明内容
为了解决相关技术中存在的问题,本公开提供一种氨基酸序列特征提取方法、装置、存储介质及电子设备。
为了实现上述目的,本公开提供一种氨基酸序列特征提取方法,所述方法包括:
获取待进行特征提取的氨基酸序列;
确定所述氨基酸序列的位置特异性得分矩阵PSSM,其中,所述位置特异性得分矩阵PSSM的大小为N×M,N表示所述氨基酸序列的序列长度,M表示预设氨基酸的总数,所述位置特异性得分矩阵PSSM中的每个分数PSSM(n,m)表示在第n行的氨基酸的位置下,第m列的预设氨基酸出现的倾向程度,且-S≤PSSM(n,m)≤S,其中,N、M和S均为正整数,且1≤n≤N,1≤m≤M;
确定每种预设氨基酸在[-S,S]分数区间内的得分分布;
合并M种预设氨基酸的所述得分分布,以获得所述氨基酸序列的特征向量。
可选地,所述确定每种预设氨基酸在[-S,S]分数区间内的得分分布,包括:
针对每种预设氨基酸,根据该预设氨基酸的全部分数,统计在[-S,S]分数区间内的每个整数分数的出现频率,并按照所述整数分数由小及大的顺序,将所述整数分数的出现频率组合成1×(2S+1)的特征向量,所得特征向量作为该预设氨基酸在[-S,S]分数区间内的得分分布。
可选地,所述确定每种预设氨基酸在[-S,S]分数区间内的得分分布,包括:
设每种预设氨基酸在[-S,S]分数区间内的得分分布为f(m),其中,f(m)为1×(2S+1)的特征向量,通过以下公式计算f(m)中的每个元素值fj(m),其中,j=0,…,2S:
Figure GDA0002424102080000021
Figure GDA0002424102080000022
可选地,所述M种预设氨基酸为20种天然氨基酸。
本公开还提供一种氨基酸序列特征提取装置,所述装置包括:
获取模块,用于获取待进行特征提取的氨基酸序列;
第一确定模块,用于确定所述获取模块获取到的所述氨基酸序列的位置特异性得分矩阵PSSM,其中,所述位置特异性得分矩阵PSSM的大小为N×M,N表示所述氨基酸序列的序列长度,M表示预设氨基酸的总数,所述位置特异性得分矩阵PSSM中的每个分数PSSM(n,m)表示在第n行的氨基酸的位置下,第m列的预设氨基酸出现的倾向程度,且-S≤PSSM(n,m)≤S,其中,N、M和S均为正整数,且1≤n≤N,1≤m≤M;
第二确定模块,用于确定每种预设氨基酸在[-S,S]分数区间内的得分分布;
合并模块,用于合并M种预设氨基酸的所述得分分布,以获得所述氨基酸序列的特征向量。
可选地,所述第二确定模块用于:
针对每种预设氨基酸,根据该预设氨基酸的全部分数,统计在[-S,S]分数区间内的每个整数分数的出现频率,并按照所述整数分数由小及大的顺序,将所述整数分数的出现频率组合成1×(2S+1)的特征向量,所得特征向量作为该预设氨基酸在[-S,S]分数区间内的得分分布。
可选地,所述第二确定模块用于:
设每种预设氨基酸在[-S,S]分数区间内的得分分布为f(m),其中,f(m)为1×(2S+1)的特征向量,通过以下公式计算f(m)中的每个元素值fj(m),其中,j=0,…,2S:
Figure GDA0002424102080000031
Figure GDA0002424102080000032
可选地,所述M种预设氨基酸为20种天然氨基酸。
本公开还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开提供的所述氨基酸序列特征提取方法的步骤。
本公开还提供一种电子设备,包括:
本公开提供的所述计算机可读存储介质;以及
一个或者多个处理器,用于执行所述计算机可读存储介质中的程序。
在上述技术方案中,由于确定出的氨基酸序列的位置特异性得分矩阵PSSM中蕴含有同源蛋白质信息,因此该蕴含有同源蛋白质信息的位置特异性得分矩阵PSSM表示成的特征向量中能够融入更多的序列保守信息,更有利于氨基酸序列与其他生物高分子物质之间(例如,氨基酸序列之间、氨基酸序列与DNA/RNA之间、氨基酸序列与糖类及脂质类之间)的相互作用的预测,且预测效率高。并且,能够将位置特异性得分矩阵PSSM转换成固定长度的特征向量,为氨基酸序列特征提供了一种多维空间表达方式。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据一示例性实施例示出的一种氨基酸序列特征提取方法的流程图。
图2是根据一示例性实施例示出的一种氨基酸序列特征提取装置的框图。
图3是根据一示例性实施例示出的一种电子设备的框图。
图4是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
图1是根据一示例性实施例示出的一种氨基酸序列特征提取方法的流程图。如图1所示,该方法可以包括以下步骤。
在步骤101中,获取待进行特征提取的氨基酸序列。
在本公开中,该方法可以用于氨基酸序列特征提取系统。当用户需要提取氨基酸序列特征时,可将待进行特征提取的氨基酸序列输入到氨基酸序列特征提取系统,该氨基酸序列特征提取系统接收该待进行特征提取的氨基酸序列。
在步骤102中,确定氨基酸序列的位置特异性得分矩阵PSSM。
在本公开中,可以采用位置特异迭代搜索工具(Position-Specific IterativeBlastLocal Alignment Search Tool,PSI-BLAST)进行多序列比对来建立上述待进行特征提取氨基酸序列的位置特异性得分矩阵(Position-Specific Scoring Matrix,PSSM)。
并且,上述位置特异性得分矩阵PSSM的大小为N×M,其中,N表示上述氨基酸序列的序列长度,M表示预设氨基酸的总数;并且,该位置特异性得分矩阵PSSM中的每个分数PSSM(n,m)表示在第n行的氨基酸的位置下,第m列的预设氨基酸出现的倾向程度,且-S≤PSSM(n,m)≤S,其中,N、M和S均为正整数,且1≤n≤N,1≤m≤M。示例地,如表1所示,该位置特异性得分矩阵PSSM为:
表1
Figure GDA0002424102080000051
如表1中所示,纵列{A,R,N,D,C,Q,E,…,V}为M种预设氨基酸,横行M,K,I,S,F,H…为待进行特征提取的氨基酸序列,每个分数PSSM(n,m)表示在第n行的氨基酸的位置下,第m列的预设氨基酸出现的倾向程度。
上述位置特异性得分矩阵PSSM的矩阵形式为:
Figure GDA0002424102080000061
此外,上述采用PSI-BLAST算法来建立氨基酸序列的位置特异性得分矩阵PSSM时所采用的氨基酸数据库可以例如是NCBI(National Center for BiotechnologyInformation)提供的非冗余氨基酸序列数据库,其中,该数据库包含95,563,598条完全解析的氨基酸序列信息。并且,PSI-BLAST算法的迭代次数可以例如是2次,默认域值E-value可以例如是0.05,上述M种预设氨基酸可以为20种天然氨基酸,即,甘氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、苯丙氨酸、脯氨酸、色氨酸、丝氨酸、酪氨酸、半胱氨酸、蛋氨酸、天冬酰胺、谷氨酰胺、苏氨酸、天冬氨酸、谷氨酸、赖氨酸、精氨酸和组氨酸。
另外,需要说明的是,上述采用PSI-BLAST算法来建立氨基酸序列的位置特异性得分矩阵PSSM的方式,是本领域技术人员公知的,在本公开中不再赘述。
在步骤103中,确定每种预设氨基酸在[-S,S]分数区间内的得分分布。
在本公开中,可以通过多种方式来确定每种预设氨基酸在[-S,S]分数区间内的得分分布。在一种实施方式中,可以针对每种预设氨基酸,根据该预设氨基酸的全部分数,统计在[-S,S]分数区间内的每个整数分数的出现频率,并按照各整数分数由小及大的顺序,将各整数分数的出现频率组合成1×(2S+1)的特征向量,所得特征向量作为该预设氨基酸在[-S,S]分数区间内的得分分布。
下面以S=13、第m列预设氨基酸为例来具体说明如何确定每种预设氨基酸在[-S,S]分数区间内的得分分布:针对第m列预设氨基酸,根据上述步骤102中确定出的位置特异性得分矩阵PSSM中第m列中的各分数,统计在[-13,13]分数区间内的每个整数分数的出现频率,其中,每个分数的出现频率等于该分数的出现次数除以表示所述氨基酸序列的序列长度N,示例地,统计结果如表2中所示(其中,score表示每个分数值,count表示每个分数的出现次数,freq表示每个分数的出现频率):
表2
score -13 -12 -11 -10 -9 9 10 11 12 13
count 3 1 5 8 2 5 1 3 0 2
freq 0.03 0.01 0.05 0.08 0.02 0.05 0.01 0.03 0 0.02
如表2中所示,上述步骤102中确定出的位置特异性得分矩阵PSSM中第m列的各分数中,整数分数-13的出现频率为0.03,整数分数-12的出现频率为0.01,整数分数-11的出现频率为0.05,整数分数-10的出现频率为0.08,整数分数-9的出现频率为0.02,…,整数分数9的出现频率为0.05,整数10的出现频率为0.01,整数11的出现频率为0.03,整数分数12的出现频率为0,整数分数13的出现频率为0.02。
在统计出在[-13,13]分数区间内的每个整数分数的出现频率后,可以按照各整数分数由小及大的顺序,将各整数分数的出现频率组合成1×27的特征向量,即,[0.03 0.010.05 0.08 0.02 … 0.05 0.01 0.03 0 0.02],并将该特征向量[0.03 0.01 0.05 0.080.02 … 0.05 0.01 0.03 0 0.02]作为该第m列的预设氨基酸在[-13,13]分数区间内的得分分布。
在另一种实施方式中,可以通过以下等式(1)来计算每种预设氨基酸在[-S,S]分数区间内的得分分布:
Figure GDA0002424102080000081
其中,
Figure GDA0002424102080000082
f(m)为所述每种预设氨基酸在[-S,S]分数区间内的得分分布,且f(m)为1×(2S+1)的特征向量;fj(m)为f(m)中的每个元素值,且j=0,…,2S。
在步骤104中,合并M种预设氨基酸的得分分布,以获得待进行特征提取的氨基酸序列的特征向量。
在确定出M种预设氨基酸在[-S,S]分数区间内的得分分布后,可以将它们合并,即获得了上述待进行特征提取的氨基酸序列的特征向量。
示例地,预设氨基酸的总数M=20,分数区间为[-13,13],在上述步骤103中确定出20种预设氨基酸在[-13,13]分数区间内的得分分布(1×27的特征向量)后,可以将该20种预设氨基酸在[-13,13]分数区间内的得分分布(1×27的特征向量)合并,即将上述步骤103中确定出的20个1×27的特征向量合并,从而得到20×27的固定维度的特征向量,即获得了上述待进行特征提取的氨基酸序列的特征向量。
在上述技术方案中,由于确定出的氨基酸序列的位置特异性得分矩阵PSSM中蕴含有同源蛋白质信息,因此该蕴含有同源蛋白质信息的位置特异性得分矩阵PSSM表示成的特征向量中能够融入更多的序列保守信息,更有利于氨基酸序列与其他生物高分子物质之间(例如,氨基酸序列之间、氨基酸序列与DNA/RNA之间、氨基酸序列与糖类及脂质类之间)的相互作用的预测,且预测效率高。并且,能够将位置特异性得分矩阵PSSM转换成固定长度的特征向量,为氨基酸序列特征提供了一种多维空间表达方式。
图2是根据一示例性实施例示出的一种氨基酸序列特征提取装置的框图。参照图2,该装置200可以包括:获取模块201,用于获取待进行特征提取的氨基酸序列;第一确定模块202,用于确定所述获取模块201获取到的所述氨基酸序列的位置特异性得分矩阵PSSM,其中,所述位置特异性得分矩阵PSSM的大小为N×M,N表示所述氨基酸序列的序列长度,M表示预设氨基酸的总数,所述位置特异性得分矩阵PSSM中的每个分数PSSM(n,m)表示在第n行的氨基酸的位置下,第m列的预设氨基酸出现的倾向程度,且-S≤PSSM(n,m)≤S,其中,N、M和S均为正整数,且1≤n≤N,1≤m≤M;第二确定模块203,用于确定每种预设氨基酸在[-S,S]分数区间内的得分分布;合并模块204,用于合并M种预设氨基酸的所述得分分布,以获得所述氨基酸序列的特征向量。
可选地,所述第二确定模块203可以用于:针对每种预设氨基酸,根据该预设氨基酸的全部分数,统计在[-S,S]分数区间内的每个整数分数的出现频率,并按照所述整数分数由小及大的顺序,将所述整数分数的出现频率组合成1×(2S+1)的特征向量,所得特征向量作为该预设氨基酸在[-S,S]分数区间内的得分分布。
可选地,所述第二确定模块203可以用于:通过以上等式(1)来确定每种预设氨基酸在[-S,S]分数区间内的得分分布为f(m)中的每个元素值fj(m)。
可选地,所述M种预设氨基酸为20种天然氨基酸。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图3是根据一示例性实施例示出的一种电子设备300的框图。如图3所示,该电子设备300可以包括:处理器301,存储器302,多媒体组件303,输入/输出(I/O)接口304,以及通信组件305。
其中,处理器301用于控制该电子设备300的整体操作,以完成上述的氨基酸序列特征提取方法中的全部或部分步骤。存储器302用于存储各种类型的数据以支持在该电子设备300的操作,这些数据例如可以包括用于在该电子设备300上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器302可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件303可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器302或通过通信组件305发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口304为处理器301和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件305用于该电子设备300与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件305可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
在一示例性实施例中,电子设备300可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的氨基酸序列特征提取方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,例如包括程序指令的存储器302,上述程序指令可由电子设备300的处理器301执行以完成上述的氨基酸序列特征提取方法。
图4是根据一示例性实施例示出的一种电子设备400的框图。例如,电子设备400可以被提供为一服务器。参照图4,电子设备400包括处理器422,其数量可以为一个或多个,以及存储器432,用于存储可由处理器422执行的计算机程序。存储器432中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器422可以被配置为执行该计算机程序,以执行上述的氨基酸序列特征提取方法。
另外,电子设备400还可以包括电源组件426和通信组件450,该电源组件426可以被配置为执行电子设备400的电源管理,该通信组件450可以被配置为实现电子设备400的通信,例如,有线或无线通信。此外,该电子设备400还可以包括输入/输出(I/O)接口458。电子设备400可以操作基于存储在存储器432的操作系统,例如Windows ServerTM,Mac OSXTM,UnixTM,LinuxTM等等。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,例如包括程序指令的存储器432,上述程序指令可由电子设备400的处理器422执行以完成上述的氨基酸序列特征提取方法。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (10)

1.一种氨基酸序列特征提取方法,其特征在于,所述方法包括:
获取待进行特征提取的氨基酸序列;
确定所述氨基酸序列的位置特异性得分矩阵PSSM,其中,所述位置特异性得分矩阵PSSM的大小为N×M,N表示所述氨基酸序列的序列长度,M表示预设氨基酸的总数,所述位置特异性得分矩阵PSSM中的每个分数PSSM(n,m)表示在第n行的氨基酸的位置下,第m列的预设氨基酸出现的倾向程度,且-S≤PSSM(n,m)≤S,其中,N、M和S均为正整数,且1≤n≤N,1≤m≤M;
确定每种预设氨基酸在[-S,S]分数区间内的得分分布,其中,所述得分分布为1×(2S+1)的特征向量;
合并M种预设氨基酸的所述得分分布,以获得所述氨基酸序列的特征向量。
2.根据权利要求1所述的方法,其特征在于,所述确定每种预设氨基酸在[-S,S]分数区间内的得分分布,包括:
针对每种预设氨基酸,根据该预设氨基酸的全部分数,统计在[-S,S]分数区间内的每个整数分数的出现频率,并按照所述整数分数由小及大的顺序,将所述整数分数的出现频率组合成1×(2S+1)的特征向量,所得特征向量作为该预设氨基酸在[-S,S]分数区间内的得分分布。
3.根据权利要求1所述的方法,其特征在于,所述确定每种预设氨基酸在[-S,S]分数区间内的得分分布,包括:
设每种预设氨基酸在[-S,S]分数区间内的得分分布为f(m),其中,f(m)为1×(2S+1)的特征向量,通过以下公式计算f(m)中的每个元素值fj(m),其 中,j=0,…,2S:
Figure FDA0002424102070000021
Figure FDA0002424102070000022
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述M种预设氨基酸为20种天然氨基酸。
5.一种氨基酸序列特征提取装置,其特征在于,所述装置包括:
获取模块,用于获取待进行特征提取的氨基酸序列;
第一确定模块,用于确定所述获取模块获取到的所述氨基酸序列的位置特异性得分矩阵PSSM,其中,所述位置特异性得分矩阵PSSM的大小为N×M,N表示所述氨基酸序列的序列长度,M表示预设氨基酸的总数,所述位置特异性得分矩阵PSSM中的每个分数PSSM(n,m)表示在第n行的氨基酸的位置下,第m列的预设氨基酸出现的倾向程度,且-S≤PSSM(n,m)≤S,其中,N、M和S均为正整数,且1≤n≤N,1≤m≤M;
第二确定模块,用于确定每种预设氨基酸在[-S,S]分数区间内的得分分布,其中,所述得分分布为1×(2S+1)的特征向量;
合并模块,用于合并M种预设氨基酸的所述得分分布,以获得所述氨基酸序列的特征向量。
6.根据权利要求5所述的装置,其特征在于,所述第二确定模块用于:
针对每种预设氨基酸,根据该预设氨基酸的全部分数,统计在[-S,S]分数区间内的每个整数分数的出现频率,并按照所述整数分数由小及大的顺序,将所述整数分数的出现频率组合成1×(2S+1)的特征向量,所得特征向量作为该预设氨基酸在[-S,S]分数区间内的得分分布。
7.根据权利要求5所述的装置,其特征在于,所述第二确定模块用于:
设每种预设氨基酸在[-S,S]分数区间内的得分分布为f(m),其中,f(m)为1×(2S+1)的特征向量,通过以下公式计算f(m)中的每个元素值fj(m),其中,j=0,…,2S:
Figure FDA0002424102070000031
Figure FDA0002424102070000032
8.根据权利要求5-7中任一项所述的装置,其特征在于,所述M种预设氨基酸为20种天然氨基酸。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-4中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
权利要求9中所述的计算机可读存储介质;以及
一个或者多个处理器,用于执行所述计算机可读存储介质中的程序。
CN201711377471.4A 2017-12-19 2017-12-19 氨基酸序列特征提取方法、装置、存储介质及电子设备 Active CN108229102B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711377471.4A CN108229102B (zh) 2017-12-19 2017-12-19 氨基酸序列特征提取方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711377471.4A CN108229102B (zh) 2017-12-19 2017-12-19 氨基酸序列特征提取方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN108229102A CN108229102A (zh) 2018-06-29
CN108229102B true CN108229102B (zh) 2020-06-12

Family

ID=62649849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711377471.4A Active CN108229102B (zh) 2017-12-19 2017-12-19 氨基酸序列特征提取方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN108229102B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110310705A (zh) * 2018-03-16 2019-10-08 北京哲源科技有限责任公司 支持simd的序列比对方法及装置

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109785901B (zh) * 2018-12-26 2021-07-30 东软集团股份有限公司 一种蛋白质功能预测方法及装置
CN109801675B (zh) * 2018-12-26 2021-01-05 东软集团股份有限公司 一种确定蛋白质脂质功能的方法、装置和设备
CN112242179A (zh) * 2020-09-09 2021-01-19 天津大学 一种识别膜蛋白类型方法
CN113537409B (zh) * 2021-09-13 2022-01-25 烟台双塔食品股份有限公司 一种豌豆蛋白数据特征提取方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955628A (zh) * 2014-04-22 2014-07-30 南京理工大学 基于子空间融合的蛋白质-维他命绑定位点预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8852926B2 (en) * 2007-10-25 2014-10-07 Board Of Trustees Of Southern Illinois University Genetic selection system for identification of MicroRNA target genes

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955628A (zh) * 2014-04-22 2014-07-30 南京理工大学 基于子空间融合的蛋白质-维他命绑定位点预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A feature extraction technique using bi-gram probabilities of position specific scoring matrix for protein fold recognition;Alok Sharma等;《Journal of Theoretical Biology》;20131231;41-46 *
基于ACC变换和RFE算法的蛋白质亚核定位预测;李小苇等;《计算机工程与应用》;20160830;第52卷(第15期);83-87 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110310705A (zh) * 2018-03-16 2019-10-08 北京哲源科技有限责任公司 支持simd的序列比对方法及装置
CN110310705B (zh) * 2018-03-16 2021-05-14 北京哲源科技有限责任公司 支持simd的序列比对方法及装置

Also Published As

Publication number Publication date
CN108229102A (zh) 2018-06-29

Similar Documents

Publication Publication Date Title
CN108229102B (zh) 氨基酸序列特征提取方法、装置、存储介质及电子设备
Pei et al. PROMALS3D: multiple protein sequence alignment enhanced with evolutionary and three-dimensional structural information
Zhang et al. PEAR: a fast and accurate Illumina Paired-End reAd mergeR
Fritz et al. Efficient storage of high throughput DNA sequencing data using reference-based compression
Łacki et al. IsoSpec: Hyperfast fine structure calculator
Ochoa et al. QualComp: a new lossy compressor for quality scores based on rate distortion theory
Zou et al. Supersecondary structure prediction using Chou's pseudo amino acid composition
WO2015081754A1 (en) Genome compression and decompression
Daniels et al. Compressive genomics for protein databases
KR102104193B1 (ko) 서비스 파라미터 선택 방법 및 관련된 디바이스
Corvelo et al. taxMaps: comprehensive and highly accurate taxonomic classification of short-read data in reasonable time
Schüler et al. Evolution of protein domain repeats in Metazoa
Wu et al. Analysis of several key factors influencing deep learning-based inter-residue contact prediction
CN108092667B (zh) 压缩时序数据以及查询时序数据的方法、装置
CN109697446B (zh) 图像关键点提取方法、装置、可读存储介质及电子设备
CN110321410B (zh) 日志提取的方法、装置、存储介质和电子设备
CN109753994B (zh) 用户画像方法、装置、计算机可读存储介质及电子设备
CN102982070A (zh) 用于输入法应用程序的词库更新方法、系统和云端服务器
Stadler et al. Does gene tree discordance explain the mismatch between macroevolutionary models and empirical patterns of tree shape and branching times?
Westesson et al. HandAlign: Bayesian multiple sequence alignment, phylogeny and ancestral reconstruction
Gulyaeva et al. LAMPA, LArge Multidomain Protein Annotator, and its application to RNA virus polyproteins
Hatton et al. Protein structure and evolution: are they constrained globally by a principle derived from information theory?
US20210193254A1 (en) Rapid Detection of Gene Fusions
Juan et al. A simple strategy to enhance the speed of protein secondary structure prediction without sacrificing accuracy
WO2015109902A1 (zh) 个性化信息的处理方法、装置、设备及非易失性计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant