CN117953973A - 基于序列同源性的特定生物序列预测方法及其系统 - Google Patents
基于序列同源性的特定生物序列预测方法及其系统 Download PDFInfo
- Publication number
- CN117953973A CN117953973A CN202410326309.3A CN202410326309A CN117953973A CN 117953973 A CN117953973 A CN 117953973A CN 202410326309 A CN202410326309 A CN 202410326309A CN 117953973 A CN117953973 A CN 117953973A
- Authority
- CN
- China
- Prior art keywords
- sequence
- fuzzy
- homology
- specific biological
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 91
- 238000012549 training Methods 0.000 claims abstract description 38
- 239000013598 vector Substances 0.000 claims abstract description 26
- 230000006870 function Effects 0.000 claims description 40
- 238000004364 calculation method Methods 0.000 claims description 15
- 108090000765 processed proteins & peptides Proteins 0.000 claims description 15
- 230000001225 therapeutic effect Effects 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000005259 measurement Methods 0.000 claims description 4
- 238000002864 sequence alignment Methods 0.000 claims description 4
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 abstract description 22
- 238000000605 extraction Methods 0.000 abstract description 3
- 238000002474 experimental method Methods 0.000 description 12
- 238000002679 ablation Methods 0.000 description 10
- 150000001413 amino acids Chemical group 0.000 description 8
- 230000000052 comparative effect Effects 0.000 description 8
- 235000001014 amino acid Nutrition 0.000 description 6
- 229940024606 amino acid Drugs 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 102000004196 processed proteins & peptides Human genes 0.000 description 5
- 238000013459 approach Methods 0.000 description 3
- DHMQDGOQFOQNFH-UHFFFAOYSA-N Glycine Chemical compound NCC(O)=O DHMQDGOQFOQNFH-UHFFFAOYSA-N 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 239000004475 Arginine Substances 0.000 description 1
- WHUUTDBJXJRKMK-UHFFFAOYSA-N Glutamic acid Natural products OC(=O)C(N)CCC(O)=O WHUUTDBJXJRKMK-UHFFFAOYSA-N 0.000 description 1
- 239000004471 Glycine Substances 0.000 description 1
- QNAYBMKLOCPYGJ-REOHCLBHSA-N L-alanine Chemical compound C[C@H](N)C(O)=O QNAYBMKLOCPYGJ-REOHCLBHSA-N 0.000 description 1
- CKLJMWTZIZZHCS-REOHCLBHSA-N L-aspartic acid Chemical compound OC(=O)[C@@H](N)CC(O)=O CKLJMWTZIZZHCS-REOHCLBHSA-N 0.000 description 1
- AGPKZVBTJJNPAG-WHFBIAKZSA-N L-isoleucine Chemical compound CC[C@H](C)[C@H](N)C(O)=O AGPKZVBTJJNPAG-WHFBIAKZSA-N 0.000 description 1
- ROHFNLRQFUQHCH-YFKPBYRVSA-N L-leucine Chemical compound CC(C)C[C@H](N)C(O)=O ROHFNLRQFUQHCH-YFKPBYRVSA-N 0.000 description 1
- FFEARJCKVFRZRR-BYPYZUCNSA-N L-methionine Chemical compound CSCC[C@H](N)C(O)=O FFEARJCKVFRZRR-BYPYZUCNSA-N 0.000 description 1
- COLNVLDHVKWLRT-QMMMGPOBSA-N L-phenylalanine Chemical compound OC(=O)[C@@H](N)CC1=CC=CC=C1 COLNVLDHVKWLRT-QMMMGPOBSA-N 0.000 description 1
- QIVBCDIJIAJPQS-VIFPVBQESA-N L-tryptophane Chemical compound C1=CC=C2C(C[C@H](N)C(O)=O)=CNC2=C1 QIVBCDIJIAJPQS-VIFPVBQESA-N 0.000 description 1
- OUYCCCASQSFEME-QMMMGPOBSA-N L-tyrosine Chemical compound OC(=O)[C@@H](N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-QMMMGPOBSA-N 0.000 description 1
- KZSNJWFQEVHDMF-BYPYZUCNSA-N L-valine Chemical compound CC(C)[C@H](N)C(O)=O KZSNJWFQEVHDMF-BYPYZUCNSA-N 0.000 description 1
- ROHFNLRQFUQHCH-UHFFFAOYSA-N Leucine Natural products CC(C)CC(N)C(O)=O ROHFNLRQFUQHCH-UHFFFAOYSA-N 0.000 description 1
- KDXKERNSBIXSRK-UHFFFAOYSA-N Lysine Natural products NCCCCC(N)C(O)=O KDXKERNSBIXSRK-UHFFFAOYSA-N 0.000 description 1
- 239000004472 Lysine Substances 0.000 description 1
- ONIBWKKTOPOVIA-UHFFFAOYSA-N Proline Natural products OC(=O)C1CCCN1 ONIBWKKTOPOVIA-UHFFFAOYSA-N 0.000 description 1
- MTCFGRXMJLQNBG-UHFFFAOYSA-N Serine Natural products OCC(N)C(O)=O MTCFGRXMJLQNBG-UHFFFAOYSA-N 0.000 description 1
- AYFVYJQAPQTCCC-UHFFFAOYSA-N Threonine Natural products CC(O)C(N)C(O)=O AYFVYJQAPQTCCC-UHFFFAOYSA-N 0.000 description 1
- 239000004473 Threonine Substances 0.000 description 1
- QIVBCDIJIAJPQS-UHFFFAOYSA-N Tryptophan Natural products C1=CC=C2C(CC(N)C(O)=O)=CNC2=C1 QIVBCDIJIAJPQS-UHFFFAOYSA-N 0.000 description 1
- KZSNJWFQEVHDMF-UHFFFAOYSA-N Valine Natural products CC(C)C(N)C(O)=O KZSNJWFQEVHDMF-UHFFFAOYSA-N 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 235000004279 alanine Nutrition 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- ODKSFYDXXFIFQN-UHFFFAOYSA-N arginine Natural products OC(=O)C(N)CCCNC(N)=N ODKSFYDXXFIFQN-UHFFFAOYSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 235000003704 aspartic acid Nutrition 0.000 description 1
- OQFSQFPPLPISGP-UHFFFAOYSA-N beta-carboxyaspartic acid Natural products OC(=O)C(N)C(C(O)=O)C(O)=O OQFSQFPPLPISGP-UHFFFAOYSA-N 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 235000018417 cysteine Nutrition 0.000 description 1
- XUJNEKJLAYXESH-UHFFFAOYSA-N cysteine Natural products SCC(N)C(O)=O XUJNEKJLAYXESH-UHFFFAOYSA-N 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000013922 glutamic acid Nutrition 0.000 description 1
- 239000004220 glutamic acid Substances 0.000 description 1
- ZDXPYRJPNDTMRX-UHFFFAOYSA-N glutamine Natural products OC(=O)C(N)CCC(N)=O ZDXPYRJPNDTMRX-UHFFFAOYSA-N 0.000 description 1
- -1 glycine (G) Chemical class 0.000 description 1
- HNDVDQJCIGZPNO-UHFFFAOYSA-N histidine Natural products OC(=O)C(N)CC1=CN=CN1 HNDVDQJCIGZPNO-UHFFFAOYSA-N 0.000 description 1
- AGPKZVBTJJNPAG-UHFFFAOYSA-N isoleucine Natural products CCC(C)C(N)C(O)=O AGPKZVBTJJNPAG-UHFFFAOYSA-N 0.000 description 1
- 229960000310 isoleucine Drugs 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000004949 mass spectrometry Methods 0.000 description 1
- 229930182817 methionine Natural products 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- COLNVLDHVKWLRT-UHFFFAOYSA-N phenylalanine Natural products OC(=O)C(N)CC1=CC=CC=C1 COLNVLDHVKWLRT-UHFFFAOYSA-N 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- OUYCCCASQSFEME-UHFFFAOYSA-N tyrosine Natural products OC(=O)C(N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-UHFFFAOYSA-N 0.000 description 1
- 239000004474 valine Substances 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种基于序列同源性的特定生物序列预测方法及其系统,包括,准备特定生物序列相关的原始序列数据集;原始序列数据集包括训练集和测试集,训练集用于训练模型,测试集则用于对训练的模型进行测试;构造基于序列同源性评分的模糊隶属函数,用于将序列数据转化成特征向量;构造深度模糊回声状态网络,用于根据特征向量输出预测结果;使用原始序列数据集训练深度模糊回声状态网络。本方案提出基于序列同源性评分的模糊隶属函数将序列数据转化成特征向量,无需手动提取特征,并且可直接处理字符串序列,无需进行特征编码,通过整合序列进化信息有效优化特征空间,不仅减少了模型的训练时间,同时提高了模型的分类性能。
Description
技术领域
本发明属于计算机生物信息学技术领域,尤其是涉及一种基于序列同源性的特定生物序列预测方法及其系统。
背景技术
目前,对于治疗肽等特定生物序列的预测主要包括基于经验分析(基于质谱的技术、生物信息学技术、细胞实验等)和基于机器学习的方法。其中基于机器学习的方法主要包括两类,一类是传统机器学习方法,这一类方法需要专家根据领域知识手动设计并提取特征,手动特征提取依赖于人的先验知识和对数据的理解,可以提高模型的解释性,但同时这个过程可能非常耗时且需要专业知识;随着深度学习等算法的兴起,一些机器学习算法可以自动学习特征,从而减少了手动提取特征的需求,例如,深度学习算法,特别是卷积神经网络(CNN)和循环神经网络(RNN)。但是即使是第二类可实现自动提取特征的机器学习方法,也仍然需要将编码数据输入深度学习模型,无法整合序列进化信息并解决噪声生物序列的处理问题。
发明内容
本发明的目的是针对生物序列的识别,提供一种基于序列同源性的特定生物序列预测方法及其系统,该方法提出基于序列同源性评分的模糊隶属函数和深度模糊回声状态网络技术,采用最大化混合相关熵测量模型输出层期望值与实测值之间的关系,以更准确地预测治疗肽。
为达到上述目的,本发明采用了下列技术方案:
一种基于序列同源性的特定生物序列预测方法,该方法包括:
准备特定生物序列相关的原始序列数据集,原始训练数据集是氨基酸字符串序列;原始序列数据集包括训练集和测试集,训练集用于训练模型,测试集则用于对训练的模型进行测试;
构造基于序列同源性评分的模糊隶属函数,用于将序列数据转化成特征向量;
构造深度模糊回声状态网络,用于根据所述的特征向量输出预测结果;
使用所述的原始序列数据集训练所述的深度模糊回声状态网络。
在上述的基于序列同源性的特定生物序列预测方法中,通过本方法得到针对特定生物序列的由所述深度模糊回声状态网络构成的识别器;
待测序列被输入至所述的模糊隶属函数得到关于该待测序列的特征向量;
所述的特征向量被输入至所述的识别器,输出对所述待测序列的识别结果。
在上述的基于序列同源性的特定生物序列预测方法中,所述的特定生物序列包括治疗肽。
在上述的基于序列同源性的特定生物序列预测方法中,所述的基于序列同源性评分的模糊隶属函数构造方法为:
输入原始序列数据集 ,定义模糊规则的数量为 />;
对于序列 ,通过史密斯-沃特曼算法进行双序列比对以计算同源性分数;
计算每个序列与其他所有序列的同源性分数之和,对其进行排序,取值最大的前个序列样本作为支持序列 />;
对于 个模糊集,每个模糊集包含一个支持序列;第 />个模糊集有支持序列(氨基酸字符串)。
对于第 个输入序列/>,第 />个模糊集隶属值为:
其中 是通过史密斯-沃特曼算法计算得到的同源性分数,分数越高表示越相似; />是 />个模糊集的最大同源性对齐分数; />是用于调整函数输出的常数,该值介于0和1之间;
对于每个序列, />
通过上式计算得到。
在上述的基于序列同源性的特定生物序列预测方法中,对待测序列进行识别过程中,基于上述所构造的模糊隶属函数对待测序列计算 个模糊集的模糊隶属值 />。
在上述的基于序列同源性的特定生物序列预测方法中,所述深度模糊回声状态网络的构造方法为:
基于以下定义随机初始化 和 />:假设DFESN有 />个储层,记录了 />时刻的输入信号(基于序列同源得分的隶属度函数输出, />)/>、内部回声状态信号 />以及输出信号 />;
其中第个储层中的神经元数量为 />;
表示固定的随机输入权值,当 />时(第一层), />;当时, />。
为第 />个储层随机固定的内部权值;
样本序列 在第 />个储层的状态转变为:
其中 是第 />个储层在时刻 />的输入信号;当 />时(第一层), ;当 />时,/> 。
每个 都被初始化为空状态( />);
逐层处理后,结合各层回波状态变量,得到 时刻的采集状态 />:
式中 为水平连接; />是序列同源性分数隶属函数的输出。
深度模糊回声状态网络的输出定义为:
其中 ,/> 并且 />为标量。
在上述的基于序列同源性的特定生物序列预测方法中,训练过程中,利用最大化混合相关熵测量模型输出层期望值与实测值之间的关系,并基于二次信息势和概率密度函数之间的欧氏距离确定模型的最优参数。
在上述的基于序列同源性的特定生物序列预测方法中,利用最大化混合相关熵测量模型输出层期望值与实测值之间的关系具体包括:
使用最大化混合相关熵确定具有高鲁棒性的最佳模型:
其中 为混合系数矢量;
为带宽矢量;
为中心向量;
为核函数, />为第 />个样本误差;
N为样本数量,M为基于熵的损失函数的数量;
(1)求解下列目标函数的最大值:
其中 , />代表正则化参数;
(2)令 ,得到:
其中为每个样本的真实类别, />,, />为单位矩阵;
对角矩阵Ξ计算公式如下:
向量 计算公式如下:
。
在上述的基于序列同源性的特定生物序列预测方法中,通过如下方式确定模型最优参数:
通过计算 和利用二次信息势及概率密度函数之间的欧氏距离更新参数/>;
计算 和 />;
通过 更新 />,判断 />是否迭代到最大值,若是则进入下一步,否则重新进入第一步不断迭代;
通过 计算得到输入序列的预测结果。
一种基于序列同源性的特定生物序列预测系统,通过上述的方法实现对特定生物序列的预测。
本发明的优点在于:
1、本方案提出基于序列同源性评分的模糊隶属函数将序列数据转化成特征向量,无需手动提取特征,并且可直接处理字符串序列,无需进行特征编码,通过整合序列进化信息有效优化特征空间,不仅减少了模型的训练时间,同时提高了模型的分类性能;
2、本方案提出了一种新的分类方法SHS-DFESN-MMC,通过结合深度模糊回声状态网络和最大混合相关熵准则,有效提升诸如治疗性肽等特定生物序列的预测准确率,减少噪声序列对模型的影响,提高模型的预测准确性和泛化能力;
3、本方案考虑了氨基酸序列和多层回声状态网络的生物学特性,利用氨基酸序列的同源性评分构造模糊隶属函数,使预测模型无需预先提取特征即可直接输入生物序列,有效获取序列的进化信息,提升模型的分类性能;然后采用多层回声状态网络进一步提取序列信息,提高方法的预测性能;最后通过采用混合熵准则来衡量模型输出层预测值与实测值之间的关系避免噪声序列对模型的影响;
4、本方案基于SHS-DFESN的架构特征提出通过计算最大化混合相关熵的 和基于二次信息势和概率密度函数之间的欧氏距离的方式来确定最优参数,这个方式能够实现高效的迭代优化,使最终得到的模型具有更优越的性能。
附图说明
图 1为本发明实施例提供的基于序列同源性的治疗肽预测方法流程图;
图2为本发明实施例提供的基于序列同源性的治疗肽预测方法SHS-DFESN-MMC的原理图;
图2-1是图2中隶属度函数的放大图;
图2-2是图2中基于最大混合墒准则的优化算法放大图;
图3为本发明与现有方法在8个训练数据集上的AUC对比结果;
图4为本发明与现有方法在8个独立测试数据集上的AUC对比结果;
图5为本发明在训练集AAP上进行消融实验的结果对比示意图;
图6为本发明在训练集ABP上进行消融实验的结果对比示意图;
图7为本发明在训练集ACP上进行消融实验的结果对比示意图;
图8为本发明在训练集AIP上进行消融实验的结果对比示意图;
图9为本发明在训练集AVP上进行消融实验的结果对比示意图;
图10为本发明在训练集CPP上进行消融实验的结果对比示意图;
图11为本发明在训练集QSP上进行消融实验的结果对比示意图;
图12为本发明在训练集SBP上进行消融实验的结果对比示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步详细的说明。
本实施例公开了一种基于序列同源性的特定生物序列预测方法及基于前述方法实现的能够对特定生物序列实现预测的系统。
如图1所示,本实施例以治疗肽为特定生物序列对本方案所提出的基于序列同源性的特定生物序列预测方法进行详细说明,其他生物序列类似,不在此赘述。包括以下步骤:
收集并下载现有研究者提供的治疗肽相关的数据集,数据集中包含训练集和独立测试集,训练集用于训练模型,独立测试集用于测试经过训练的模型。后续提到的待测序列可以指这里的独立测试集,也可以指对模型投入使用后,需要使用该模型进行识别的序列,本实施例主要指独立测试集。数据集包括包含治疗肽的正样本和不包含治疗肽的负样本,模型输出的是是否含有治疗肽以及治疗肽位置的结果。
基于获取的原始序列数据集,使用基于序列同源性评分的模糊隶属函数(SHS)将序列数据转化成特征向量;
将前述得到的特征向量输入至深度模糊回声状态网络(DFESN)进行表征学习,从而进一步提取特征;
利用最大化混合相关熵(MMC)测量模型输出层期望值与实测值之间的关系,并基于二次信息势(QIP)和概率密度函数之间的欧氏距离确定模型的最优参数,利用信息势的概念(用户量化信息的不确定性),并结合概率密度函数来调整模型参数以最小化这种不确定性,从而使模型在不断迭代的过程中可同时学习到更准确的数据分布。
采用训练好的DFESN分类模型构建治疗肽识别器,并将使用基于序列同源性评分的模糊隶属函数对待测序列得到的最佳特征集输入至识别器中,完成对待测序列治疗肽的识别。
如图2,以及图2-1,图2-2所示,基于序列同源性评分的模糊隶属函数的构造过程包括以下步骤:
(1)输入训练序列 和测试序列 />,定义模糊规则的数量为 />;
(2)对于训练序列 ,通过史密斯-沃特曼算法进行双序列比对以计算同源性分数/>;
图中“局部序列比对”中横向和纵向各字母分别是氨基酸字母缩写,本领域技术人员应当知道各氨基酸的常识性缩写,如甘氨酸(G),丙氨酸(A),缬氨酸(V),亮氨酸(L),异亮氨酸(I),苯丙氨酸(F),色氨酸(W),酪氨酸(Y),天冬氨酸(D),谷氨酸(E),赖氨酸(K),谷氨酰胺(Q),甲硫氨酸(M),丝氨酸(S),苏氨酸(T),半胱氨酸(C),脯氨酸(P),组氨酸(H),精氨酸(R)。
(3)计算每个序列与其他所有序列的同源性分数之和,对其进行排序,取值最大的前 个序列样本作为支持序列 />;
(4)对于 个模糊集,每个模糊集包含一个支持序列。第 />个模糊集有支持序列(氨基酸字符串)。对于第 />个输入序列 />(氨基酸字符串),则if-parts(第 />个模糊集)(if-parts指模糊规则中结论部分的隶属函数)的输出为:
其中 是通过史密斯-沃特曼算法计算得到的同源性分数,分数越高表示越相似。 />是 />个模糊集的最大同源性对齐分数。 />是一个用于调整函数输出的常数,该值介于0和1之间。
通过上式计算可以得到对训练序列的模糊集隶属值 和对测试序列的模糊集隶属值/> 。
(5)输入序列与支持序列( )之间的相似度越高,第 />个模糊集的模糊隶属值越接近于1。对于if-parts产生的序列 />,则为:
通过上式计算得到 (训练集)和 />(测试序列)。
进一步地,DFESN由许多按顺序连接的储层组成,其构造过程包括以下步骤:
(1)基于以下定义随机初始化 和 />:假设DFESN有 />个储层,记录了 />时刻的输入信号(基于序列同源得分的成员函数输出) />、内部回声状态信号 />以及输出信号 />。
其中第 个储层中的神经元数量为 />。 />表示固定的随机输入权值,当/>时(第一层), />;当/>时,/>。为第 />个储层随机固定的内部权值。 />和/>的网络权系数的生成方法与传统的回声状态网络(ESN)相同,具体不在此赘述。
(2)通过深度ESN和以下公式计算训练集的 ,计算测试序列的/>,第/>个储层的状态转变(对于样本/>)方程写成:
其中是第/>个储层在时刻/>的输入信号。当/>时(第一层),/>;当时,/>。每个/>都被初始化为空状态(/>)。逐层处理后,结合各层回波状态变量,得到/>时刻的采集状态/>:
式中 为水平连接, />是序列同源性分数隶属函数的输出。
(3)DFESN的输出定义为:
其中 , />并且 />为标量。
进一步地,本实施例使用MMC来确定具有高鲁棒性的最佳模型:
其中式中为混合系数矢量,/>为带宽矢量,/>为中心向量,/>为核函数, />为第 />个样本误差。N为样本数量,M为基于熵的损失函数的数量。
利用最大化混合相关熵(MMC)测量模型输出层期望值与实测值之间的关系的过程分为以下步骤:
(3)求解下列目标函数的最大值:
其中。/>代表正则化参数。
令 ,得到:
其中为每个样本的真实类别,/>,, />为单位矩阵。
对角矩阵Ξ 计算公式如下:
向量计算公式如下:
。
训练过程具体如下:
S1.使用构造的模糊隶属函数得到模糊处理结果 (训练集)和(测试序列);
S2.随机初始化深度模糊回声状态网络的 ;
S3.计算;
S4.通过计算和利用二次信息势及概率密度函数之间的欧氏距离更新参数 />;
S5.计算 和 />;
S6.通过 更新/>,判断/>是否迭代到最大值,如果完成则进入S7,否则进入S4不断迭代;
S7.通过 计算得到 />。
为了验证本方案的有效性和性能优势,本实施例对本方法与现有方法的各方面进行了比对实验。
如图3是本发明与现有方法在8个训练数据集上的AUC对比结果,将SHS-DFESN-MMC与PPTPP、PEPred-Suite、PreTP-EL和other methods (其他模型,包括AntiAngioPred、AntiBP、ACPred-FL、AIPpred、AVPpred、CPPred-RF、QSPpred、PSBinder)在相同数据集上进行性能比较,图3中,每组对比中(图3中有AAP、ABP、ACP、AIP、AVP、CPP、QSP、SBP、Ave九组对比),从左至右的5条柱子分别是PPTPP、PEPred-Suite、PreTP-EL、other methods、SHS-DFESN-MMC五个方法的试验结果。
对于AAP数据集,其他模型使用的是AntiAngioPred;对于ABP数据集,其他模型使用的是AntiBP;对于ACP数据集,其他模型使用的是ACPred-FL;对于AIP数据集,其他模型使用的是AIPpred;对于AVP数据集,其他模型使用的是AVPpred;对于CPP数据集,其他模型使用的是CPPred-RF;对于QSP数据集,其他模型使用的是QSPpred;对于SBP数据集,其他模型使用的是PSBinder。
这些“其他模型”均只针对相应的一个数据集,本方案可同时针对八个数据集。
每个预测器在8个训练集上的平均值用Ave表示。对于正负样本数量平衡的数据集,AUC可以客观地表达模型的分类能力。
从图3可以看到,SHS-DFESN-MMC模型在ACP、AIP、AVP和CPP、AVE这5个数据集上的AUC最高,虽然SHS-DFESN-MMC在所有数据集上的AUC都不是最好的,但其平均AUC(8个数据集)最高,优于PreTP-EL,可见,本方案所提供方法相对于现有技术的几种方法具有更高的预测准确性。
图4为本发明与现有方法在8个独立测试数据集上的AUC对比结果。独立测试集用于评估经过训练的分类器,以衡量它们的泛化程度。从结果来看,SHS-DFESN-MMC是优于其他分类器的,在AAP、ACP、AIP、AVP、CPP、QSP和SBP上均获得了最高的AUC,SHS-DFESN-MMC的平均AUC值也是最高,为0.923。同样地,每组对比中,从左至右的5条柱子分别是PPTPP、PEPred-Suite、PreTP-EL、other methods、SHS-DFESN-MMC五个方法的试验结果。
为了验证SHS-DFESN和MMC的有效性,本实施例进行了消融实验,参与比对的模型包括:
SHS-DFESN-MMC:基于序列同源性评分的混合熵最大化深度模糊回声状态网络模型;
SHS-DFESN:基于序列同源性评分的深度模糊回声状态网络模型;
SHS-FESN:基于序列同源性评分的模糊回声状态网络模型;
SHS-Z-FS:基于序列同源性分数的零阶模糊系统模型。
以上各模型其他条件均相同,如训练数据集、训练程度等。
图5-图12分别为本发明在训练集AAP、ABP、ACP、AIP、AVP、CPP、QSP、SBP上进行消融实验的结果对比示意图;
各图中每项指标的四根柱子从左至右分别是SHS-DFESN-MMC、SHS-DFESN、SHS-FESN 、SHS-Z-FS五个方法的试验结果。
由图5-图12可以看到,SHS-DFESN-MMC在所有训练集上的各项指标均优于其他方法,可见本方案所提供的方法具有突出的性能。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
尽管本文较多地使用了特定生物序列、治疗肽、训练集、测试集、待测序列、模糊隶属函数、深度模糊回声状态网络等术语,但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质;把它们解释成任何一种附加的限制都是与本发明精神相违背的。
Claims (10)
1.一种基于序列同源性的特定生物序列预测方法,其特征在于,该方法包括:
准备特定生物序列相关的原始序列数据集;
构造基于序列同源性评分的模糊隶属函数,用于将序列数据转化成特征向量;
构造深度模糊回声状态网络,用于根据所述的特征向量输出预测结果;
使用所述的原始序列数据集训练所述的深度模糊回声状态网络。
2.根据权利要求1所述的基于序列同源性的特定生物序列预测方法,其特征在于,通过本方法得到针对特定生物序列的由所述深度模糊回声状态网络构成的识别器;
待测序列被输入至所述的模糊隶属函数得到关于该待测序列的特征向量;
所述的特征向量被输入至所述的识别器,输出对所述待测序列的识别结果。
3.根据权利要求2所述的基于序列同源性的特定生物序列预测方法,其特征在于,所述的特定生物序列包括治疗肽。
4.根据权利要求1-3任意一项所述的基于序列同源性的特定生物序列预测方法,其特征在于,所述的基于序列同源性评分的模糊隶属函数构造方法为:
输入原始序列数据集,定义模糊规则的数量为/>;
对于序列,通过史密斯-沃特曼算法进行双序列比对以计算同源性分数;
计算每个序列与其他所有序列的同源性分数之和,对其进行排序,取值最大的前个序列样本作为支持序列/>;
对于个模糊集,每个模糊集包含一个支持序列;
对于第个输入序列/>,第/>个模糊集隶属值为:
其中是/>个模糊集的最大同源性对齐分数;/>是用于调整函数输出的常数,介于0和1之间;
对于每个序列,/>
通过上式计算得到。
5.根据权利要求4所述的基于序列同源性的特定生物序列预测方法,其特征在于,对待测序列进行识别过程中,基于所构造的模糊隶属函数对待测序列计算个模糊集的模糊隶属值/>。
6.根据权利要求1所述的基于序列同源性的特定生物序列预测方法,其特征在于,所述深度模糊回声状态网络的构造方法为:
基于以下定义随机初始化和/>:假设DFESN有/>个储层,记录了/>时刻的输入信号/>、内部回声状态信号/>以及输出信号;
其中第个储层中的神经元数量为/>;
表示固定的随机输入权值;
为第/>个储层随机固定的内部权值;
样本序列在第/>个储层的状态转变为:
其中是第/>个储层在时刻/>的输入信号;
每个都被初始化为空状态(/>);
逐层处理后,结合各层回波状态变量,得到时刻的采集状态/>:
式中为水平连接;/>是序列同源性分数隶属函数的输出;
深度模糊回声状态网络的输出定义为:
其中,/>并且/>为标量。
7.根据权利要求1所述的基于序列同源性的特定生物序列预测方法,其特征在于,训练过程中,利用最大化混合相关熵测量模型输出层期望值与实测值之间的关系,并基于二次信息势和概率密度函数之间的欧氏距离确定模型的最优参数。
8.根据权利要求7所述的基于序列同源性的特定生物序列预测方法,其特征在于,利用最大化混合相关熵测量模型输出层期望值与实测值之间的关系具体包括:
使用最大化混合相关熵确定具有高鲁棒性的最佳模型:
其中为混合系数矢量;
为带宽矢量;
为中心向量;
为核函数,/>为第/>个样本误差;
N为样本数量,M为基于熵的损失函数的数量;
求解下列目标函数的最大值:
其中,/>代表正则化参数;
令,得到:
其中为每个样本的真实类别,/>,,/>为单位矩阵;
对角矩阵Ξ计算公式如下:
向量计算公式如下:
。
9.根据权利要求8所述的基于序列同源性的特定生物序列预测方法,其特征在于,通过如下方式确定模型最优参数:
通过计算和利用二次信息势及概率密度函数之间的欧氏距离更新参数;
计算和/>;
通过更新/>,判断/>是否迭代到最大值,若是则进入下一步,否则重新进入第一步不断迭代;
通过计算得到输入序列的预测结果。
10.一种基于序列同源性的特定生物序列预测系统,其特征在于,通过权利要求1-9任意一项所述的方法实现对特定生物序列的预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410326309.3A CN117953973B (zh) | 2024-03-21 | 2024-03-21 | 基于序列同源性的特定生物序列预测方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410326309.3A CN117953973B (zh) | 2024-03-21 | 2024-03-21 | 基于序列同源性的特定生物序列预测方法及其系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117953973A true CN117953973A (zh) | 2024-04-30 |
CN117953973B CN117953973B (zh) | 2024-06-25 |
Family
ID=90796191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410326309.3A Active CN117953973B (zh) | 2024-03-21 | 2024-03-21 | 基于序列同源性的特定生物序列预测方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117953973B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5710868A (en) * | 1991-06-12 | 1998-01-20 | Microchip Technology Incorporated | Apparatus and method for generating a fuzzy number for use in fuzzy logic systems |
CN209085657U (zh) * | 2017-08-02 | 2019-07-09 | 强力物联网投资组合2016有限公司 | 用于与化工生产工艺有关的或工业环境的数据收集系统 |
CN110263697A (zh) * | 2019-06-17 | 2019-09-20 | 哈尔滨工业大学(深圳) | 基于无监督学习的行人重识别方法、装置及介质 |
CN112307410A (zh) * | 2020-09-18 | 2021-02-02 | 天津大学 | 基于船载ctd测量数据的海水温盐信息时序预测方法 |
CN112703457A (zh) * | 2018-05-07 | 2021-04-23 | 强力物联网投资组合2016有限公司 | 用于使用工业物联网进行数据收集、学习和机器信号流传输实现分析和维护的方法和系统 |
CN113837293A (zh) * | 2021-09-27 | 2021-12-24 | 电子科技大学长三角研究院(衢州) | mRNA亚细胞定位模型训练方法、定位方法及可读存储介质 |
US20220058211A1 (en) * | 2019-03-07 | 2022-02-24 | Axel W. E. Wismüller | Method and Device for Determining a Measure of Causal Influence Between Components of Complex Systems |
WO2023073596A1 (en) * | 2021-10-27 | 2023-05-04 | WingNut Films Productions Limited | Audio source separation processing workflow systems and methods |
CN116312750A (zh) * | 2023-02-24 | 2023-06-23 | 成都佩德生物医药有限公司 | 一种多肽功能预测方法及装置 |
CN116343915A (zh) * | 2023-03-15 | 2023-06-27 | 电子科技大学长三角研究院(衢州) | 生物序列集成分类器的构建方法及生物序列预测分类方法 |
-
2024
- 2024-03-21 CN CN202410326309.3A patent/CN117953973B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5710868A (en) * | 1991-06-12 | 1998-01-20 | Microchip Technology Incorporated | Apparatus and method for generating a fuzzy number for use in fuzzy logic systems |
CN209085657U (zh) * | 2017-08-02 | 2019-07-09 | 强力物联网投资组合2016有限公司 | 用于与化工生产工艺有关的或工业环境的数据收集系统 |
CN112703457A (zh) * | 2018-05-07 | 2021-04-23 | 强力物联网投资组合2016有限公司 | 用于使用工业物联网进行数据收集、学习和机器信号流传输实现分析和维护的方法和系统 |
US20220058211A1 (en) * | 2019-03-07 | 2022-02-24 | Axel W. E. Wismüller | Method and Device for Determining a Measure of Causal Influence Between Components of Complex Systems |
CN110263697A (zh) * | 2019-06-17 | 2019-09-20 | 哈尔滨工业大学(深圳) | 基于无监督学习的行人重识别方法、装置及介质 |
CN112307410A (zh) * | 2020-09-18 | 2021-02-02 | 天津大学 | 基于船载ctd测量数据的海水温盐信息时序预测方法 |
CN113837293A (zh) * | 2021-09-27 | 2021-12-24 | 电子科技大学长三角研究院(衢州) | mRNA亚细胞定位模型训练方法、定位方法及可读存储介质 |
WO2023073596A1 (en) * | 2021-10-27 | 2023-05-04 | WingNut Films Productions Limited | Audio source separation processing workflow systems and methods |
CN116312750A (zh) * | 2023-02-24 | 2023-06-23 | 成都佩德生物医药有限公司 | 一种多肽功能预测方法及装置 |
CN116343915A (zh) * | 2023-03-15 | 2023-06-27 | 电子科技大学长三角研究院(衢州) | 生物序列集成分类器的构建方法及生物序列预测分类方法 |
Non-Patent Citations (4)
Title |
---|
XIAOYI GUO: "Kernel Risk Sensitive Loss-based Echo State Networks for Predicting Therapeutic Peptides with Sparse Learning", IEEE, 2 January 2023 (2023-01-02) * |
李彪;喻国明;: ""后真相"时代网络谣言的话语空间与传播场域研究――基于微信朋友圈4160条谣言的分析", 新闻大学, no. 02, 15 April 2018 (2018-04-15) * |
李远伟: "由动作元素和劲力论传统武术发展的本源困惑", 武汉体育学院学报, 31 December 2011 (2011-12-31) * |
谭文, 王耀南, 周少武, 刘祖润: "混沌时间序列的模糊神经网络预测", 物理学报, no. 04, 12 April 2003 (2003-04-12) * |
Also Published As
Publication number | Publication date |
---|---|
CN117953973B (zh) | 2024-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109584254B (zh) | 一种基于深层全卷积神经网络的心脏左心室分割方法 | |
CN109993072B (zh) | 基于超分辨图像生成的低分辨率行人重识别系统和方法 | |
Putra et al. | Enhanced skin condition prediction through machine learning using dynamic training and testing augmentation | |
US8588519B2 (en) | Method and system for training a landmark detector using multiple instance learning | |
CN105184260B (zh) | 一种图像特征提取方法及行人检测方法及装置 | |
CN109411016B (zh) | 基因变异位点检测方法、装置、设备及存储介质 | |
CN107451562B (zh) | 一种基于混沌二进制引力搜索算法的波段选择方法 | |
CN110738662A (zh) | 基于细粒度医学图像分割与真值发现数据扩增的垂体瘤质地影像分级方法 | |
CN111127490A (zh) | 一种基于循环残差U-Net网络的医学图像分割方法 | |
CN115496720A (zh) | 基于ViT机制模型的胃肠癌病理图像分割方法及相关设备 | |
CN116386853A (zh) | 面向智慧医疗的深度可分离卷积双重聚合联邦学习方法 | |
Beltran et al. | Predicting protein-protein interactions based on biological information using extreme gradient boosting | |
CN116580848A (zh) | 一种基于多头注意力机制的分析癌症多组学数据方法 | |
CN115273050A (zh) | 一种深度可分离融合卷积神经网络的有限样本弹道目标识别方法 | |
CN117036894B (zh) | 基于深度学习的多模态数据分类方法、装置及计算机设备 | |
Neto et al. | Compressed models decompress race biases: What quantized models forget for fair face recognition | |
CN117953973B (zh) | 基于序列同源性的特定生物序列预测方法及其系统 | |
CN116825363B (zh) | 基于融合深度学习网络的早期肺腺癌病理类型预测系统 | |
CN117473430A (zh) | 一种非侵入式负荷分类方法及装置 | |
CN111582330A (zh) | 基于肺部肿瘤影像划分样本空间下的集成ResNet-NRC方法 | |
CN116958020A (zh) | 异常图像检测方法、模型训练方法、装置、设备和介质 | |
CN113476065A (zh) | 一种多类肺炎诊断系统 | |
CN113988163A (zh) | 基于多尺度分组融合卷积的雷达高分辨距离像识别方法 | |
Indraswari et al. | Brain tumor detection on magnetic resonance imaging (MRI) images using convolutional neural network (CNN) | |
CN114519729A (zh) | 图像配准质量评估模型训练方法、装置和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |