CN113241123B - 一种融合多种特征识别增强子及其强度的方法、系统 - Google Patents
一种融合多种特征识别增强子及其强度的方法、系统 Download PDFInfo
- Publication number
- CN113241123B CN113241123B CN202110416304.6A CN202110416304A CN113241123B CN 113241123 B CN113241123 B CN 113241123B CN 202110416304 A CN202110416304 A CN 202110416304A CN 113241123 B CN113241123 B CN 113241123B
- Authority
- CN
- China
- Prior art keywords
- enhancers
- lag
- dinucleotide
- intensities
- fusing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000003623 enhancer Substances 0.000 title claims abstract description 112
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000012706 support-vector machine Methods 0.000 claims abstract description 36
- 239000008186 active pharmaceutical agent Substances 0.000 claims abstract description 28
- 108091028043 Nucleic acid sequence Proteins 0.000 claims abstract description 13
- 230000035945 sensitivity Effects 0.000 claims abstract description 12
- 230000004927 fusion Effects 0.000 claims description 23
- 238000011156 evaluation Methods 0.000 claims description 13
- 239000002773 nucleotide Substances 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 7
- 238000002790 cross-validation Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000012986 modification Methods 0.000 claims description 5
- 230000004048 modification Effects 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 125000003729 nucleotide group Chemical group 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 238000013210 evaluation model Methods 0.000 claims 1
- 108090000623 proteins and genes Proteins 0.000 description 13
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 238000007637 random forest analysis Methods 0.000 description 6
- 238000003066 decision tree Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 108091092724 Noncoding DNA Proteins 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 230000007614 genetic variation Effects 0.000 description 3
- 230000002103 transcriptional effect Effects 0.000 description 3
- 238000011144 upstream manufacturing Methods 0.000 description 3
- 102000007260 Deoxyribonuclease I Human genes 0.000 description 2
- 108010008532 Deoxyribonuclease I Proteins 0.000 description 2
- 108010033040 Histones Proteins 0.000 description 2
- 206010020751 Hypersensitivity Diseases 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000002487 chromatin immunoprecipitation Methods 0.000 description 2
- 210000000349 chromosome Anatomy 0.000 description 2
- 238000012350 deep sequencing Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 108010077544 Chromatin Proteins 0.000 description 1
- 108020004414 DNA Proteins 0.000 description 1
- 208000026935 allergic disease Diseases 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 210000003483 chromatin Anatomy 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000007636 ensemble learning method Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000009610 hypersensitivity Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000014493 regulation of gene expression Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Biotechnology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Chemical & Material Sciences (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Software Systems (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明属于生物信息学及基因组学技术领域,公开了一种融合多种特征识别增强子及其强度的方法、系统,所述融合多种特征识别增强子及其强度的方法包括:用四种方法来从原始DNA序列中提取不同类型的特征:误配Mismatch、基于二核苷酸的自协方差DAC、基于二核苷酸的互协方差DCC、基于二核苷酸的空间自相关DSA;然后支持向量机SVM被用作为基识别器,接着加权DS证据理论WDEST融合基识别器的输出;最后计算四个指标:精度、灵敏性、特异性、马修相关系数和独立数据集来评估模型。本发明提供的融合多种特征识别增强子及其强度的方法,可用于判断一条未知的DNA序列是否为增强子,而且还能用来识别增强子的强度。
Description
技术领域
本发明属于生物信息学及基因组学技术领域,尤其涉及一种融合多种特征识别增强子及其强度的方法、系统。
背景技术
目前,增强子是在转录和翻译过程中与蛋白质结合并调节基因表达的非编码DNA片段。在于蛋白质结合后,基因的转录能力会增强。增强子可能位于基因的上游或下游。它不一定靠近受影响的基因,甚至可能与基因在同一染色体上。这是因为染色质的螺旋结构,这使得远离彼此的位置可以相互地接触。此外,增强子可以显著提高启动子的活性。在1981年,第一个增强子“SV40”被发现,它大大提高了SV40 DNA的表达水平。增强子的活性与多种因素有关,如细胞类型、内外刺激、时间等等。由于增强子的位置变化和敏感性,因此识别增强子的非常具有挑战性的。另外,已证明增强子的遗传变异与人类疾病有关,所以识别增强子及其强度是具有重要的生物学意义。
增强子及其强度的鉴定是生物学研究的热点之一,吸引了大量研究人员。之前研究人员别无选择,只能用实验的方法解决这个问题,如染色质免疫沉淀、深度测序、DNase I超敏反应和组蛋白修饰的全基因组定位等等。但是这些实验方法既昂贵、耗时又效率低。因此急需一些计算方法来识别增强子及其强度。事实上,已有一些研究做了这项工作。例如,2016年,刘等人建立了一个两层的预测器,它不仅可以识别增强子还可以识别它们的强度;贾等人通过组合和选择多种特征建立了一个识别器来发现增强子;两年后,刘等人基于集成学习方法提出了一个模型来识别增强子及其强度;2019年,Nguyen等人提出利用卷积神经网络的集成来识别增强子及其强度。但是整体的识别精度并不是很高,因此仍需发明新的预测模型来识别增强子及其强度。
通过上述分析,现有技术存在的问题及缺陷为:现有的利用实验方法识别增强子及其强度的方法,如染色质免疫沉淀、深度测序、DNase I超敏反应和组蛋白修饰的全基因组定位等,存在昂贵、耗时且效率低的问题;现有的利用计算方法识别增强子及其强度的方法,识别精度不是很高。
解决以上问题及缺陷的难度为:
增强子可以距离基因20kb或者更远,甚至位于不同染色体上,这个特性使增强子的识别成为一项具有挑战性的任务。另外,虽然一些计算方法可以产生满意的结果,但是这些方法提取的特征比较单一,特征融合方式也比较单调。
解决以上问题及缺陷的意义为:提取更加全面的序列信息使得识别结果更有可信度。
发明内容
针对现有技术存在的问题,本发明提供了一种融合多种特征识别增强子及其强度的方法、系统,尤其涉及一种基于加权DS证据理论融合多种特征识别增强子及其强度的方法、系统。
本发明是这样实现的,一种融合多种特征识别增强子及其强度的方法,所述融合多种特征识别增强子及其强度的方法包括:
用四种方法来从原始DNA序列中提取不同类型的特征:误配Mismatch、基于二核苷酸的自协方差DAC、基于二核苷酸的互协方差DCC、基于二核苷酸的空间自相关DSA;然后支持向量机SVM被用作为基识别器,接着加权DS证据理论WDEST融合基识别器的输出;最后计算四个指标:精度、灵敏性、特异性、马修相关系数和独立数据集来评估模型。基准数据集是建立一个可靠的计算模型的重要且关键的一步;特征考虑了基于序列信息和基于理化性质信息的,提取了局部和全局序列信息;比较多个分类器后选择SVM作为基识别器;WDEST融合来自SVM的四个输出,WDEST具有处理不确定信息的能力,具有直接表达“不确定”和“不知道”的能力;计算四个指标来评估模型,独立数据集来测试模型。
进一步,所述融合多种特征识别增强子及其强度的方法包括以下步骤:
步骤一,基准数据集的构建;
步骤二,从原始DNA序列中提取不同类型的特征;
步骤三,选择支持向量机SVM作为基识别器;
步骤四,加权DS证据理论融合;
步骤五,分别进行参数优化和模型评估。
进一步,步骤一中,所述基准数据集,一部分用于训练模型,另一部分用于客观的评估模型;其中,所述训练集包含742个强增强子、742个弱增强子和1484个非增强子,所述测试集包含100个强增强子、100个弱增强子和200个非增强子;所有的数据都已通过CD-HIT去冗余,序列相似度不超过80%。
进一步,步骤二中,所述特征提取,包括:
(1)误配Miamatch
k-mer是用来统计一个序列中k元核苷酸的发生频率,误配也是计算k元核苷酸的发生频率,但是它允许错配,涉及参数(k,m),这里m指允许错配的核苷酸的最大数目。
(2)基于二核苷酸的自协方差DAC
DAC度量了二核苷酸对于相同性质间的相关性,DAC被描述为:
其中,L是序列的长度,lag沿着序列的滞后距离,pi,s和pi+lag,s分别代表在第i位置和第i+lag位置上的二核苷酸对于性质s的值。是二核苷酸对于性质指标s的平均值:
其中,利用基于二核苷酸的自协方差DAC方法提取的特征维度是6*Lag,Lag是lag的最大值,lag=1,2,...,Lag。
(3)基于二核苷酸的互协方差DCC
DCC度量了二核苷酸对于两个不同性质间的相关性,DCC被描述为:
其中,pi,t和pi+lag,t分别代表在第i位置和第i+lag位置上的二核苷酸对于性质t的值。是二核苷酸对于性质指标t的平均值:
其中,利用基于二核苷酸的互协方差DCC方法提取的特征维度是6*5*Lag。
(4)基于二核苷酸的空间自相关DSA
根据Geary相关系数,DSA被表示为:
当s=t时(4)表示序列的自相关性,否则表示互相关性;基于二核苷酸的空间自相关DSA方法提取的特征维度是6*5*Lag。
进一步,步骤三中,所述基识别器,包括:
选择支持向量机SVM作为基识别器,核函数为径向基函数(RBF),正则化参数C的取值范围设为[2-5,215],核宽度参数γ的取值范围设为[2-15,25],用网格搜索来优化参数。
进一步,步骤四中,所述加权DS证据理论融合步骤包括:
(1)假设pi和pj是两个证据来源,二者之间的Jousselme距离为:
其中,||pi||2=<pi,pi>,||pj||2=<pj,pj>,<pi,pj>表示內积。
(2)由此可获得一个距离矩阵D,也称为证据冲突矩阵。如果证据数量是n,那么D被表示为:
(3)由D可生成相似矩阵S:
其中,sij=1-dij,i,j=1,2,...,n。
(4)pi的支持度由下式计算得到:
(5)pi的加权因子由步骤(4)获得,它被表示为:
(6)冲突的证据pi用下式处理:
p′i=Wei(pi)*pi;
根据上述,加权DS证据理论融合规则如下:
其中,p′i和p′j由步骤(6)得来,k是综合过程中产生的冲突因素,用来反映证据之间的冲突程度。
进一步,步骤五中,所述分别进行参数优化和模型评估,包括:
采用10折交叉验证来优化参数,并利用四个指标来评估模型,包括精度Acc、灵敏性Se、特异性Sp和马修相关系数Mcc,公式如下:
其中,TP、FP、TN和FN分别代表真阳性、假阳性、真阴性和假阴性。
本发明的另一目的在于提供一种应用所述的融合多种特征识别增强子及其强度的方法的融合多种特征识别增强子及其强度的系统,所述融合多种特征识别增强子及其强度的系统包括:
数据集构建模块,用于进行基准数据集的构建;
特征提取模块,用于从原始DNA序列中提取不同类型的特征;
基识别器选择模块,用于选择支持向量机SVM作为基识别器;
理论融合模块,用于进行加权DS证据理论融合;
评估模块,用于采用10折交叉验证进行参数优化,并利用精度Acc、灵敏性Se、特异性Sp和马修相关系数Mcc四个指标进行模型评估。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
用四种方法来从原始DNA序列中提取不同类型的特征:误配Mismatch、基于二核苷酸的自协方差DAC、基于二核苷酸的互协方差DCC、基于二核苷酸的空间自相关DSA;然后支持向量机SVM被用作为基识别器,接着加权DS证据理论WDEST融合基识别器的输出;最后计算四个指标:精度、灵敏性、特异性、马修相关系数和独立数据集来评估模型。
本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述的融合多种特征识别增强子及其强度的系统。
本发明由陕西省自然科学基础研究计划项目资助(项目编号:2021JM-115)。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明提供的基于加权DS证据理论融合多种特征识别增强子及其强度的方法,可用于判断一条未知的DNA序列是否为增强子,而且还能用来识别增强子的强度。本发明考虑了序列的局部的和全局的信息,从原始序列中提取了四种类型的特征,同时有基于序列的特征,有基于二核苷酸理化性质的特征;通过一种加权DS证据理论的信息融合策略综合了基识别器的四个输出。
增强子是一种非编码的DNA片段,它调节基因表达,增强基因转录能力。增强子可以位于基因的上游或下游,并作用于远离它的基因。此外,增强子的活性也容易受到其他因素的干扰。此外,还证明了增强子的遗传变异与人类疾病密切相关。因此,对增强子的鉴定及其强度具有重要的生物学意义。本发明建立了一种新的增强子识别模型,即iEnahncer-WDEST模型,用于识别增强子及其强度。首先,利用不匹配轮廓、自协方差、互协方差和空间自相关四种特征提取方法提取序列信息。然后,利用SVM作为基本分类器,得到输出。最后,加权DS证据理论将四种输出融合在一起,得到了最终结果。对增强子及其强度的识别准确率分别达到79.62%和69.61%。与其他方法相比,结果表明,本发明提出的模型对增强子及其强度的识别是可行的。同时,与现有技术相比,本发明还具有以下优点:
(1)最优特征
对于误配特征,设置参数k=2,3,4,m=1。对于DAC、DCC和DSA特征,设置Lag取值范围为[1,10]。实验结果展示在图4、图5、图6中,容易看出,对于增强子的识别,这四种特征的最优参数分别是(3,1),Lag=5,Lag=5,Lag=4;对于增强子强度的识别,这四种特征的最优参数分别是(3,1),Lag=4,Lag=1,Lag=5。
(2)基识别器的选择
选择SVM作为基识别器是合理的,因为它与常用的几种识别器做了比较,包括高斯朴素贝叶斯(GNB)、决策树(DT)、k-近邻(KNN)和随机森林(RF)。KNN的参数n-近邻和叶子大小都设为[1,100],RF的参数n-估计器空间设置为[10,150]。实验结果展示在图7、图8中,很明显,SVM的性能要优于其他识别器。
(3)加权DS证据理论的作用
从图9、图10可以看出,加权DS证据理论策略集成了基识别器的四个输出后,模型性能有所提高,因为这种融合策略以证据的形式代表不确定性,并具有直接表达“不确定性”和“未知”的能力,是一种更适合决策融合系统的不确定性推理算法。
(4)和其他方法做对比
表2给出了本发明和其他方法的对比,在识别增强子方面,Acc、Sn、Mcc都有所提高,而在增强子强度识别方面,所有指标都有提高。使用独立测试集来评估本发明提出的模型,结果展示在表3,依然表明本发明是可行的、有用的。
表2在识别增强子方面本发明与其他方法的比较
表3在识别增强子强度方面本发明与其他方法的比较
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的融合多种特征识别增强子及其强度的方法流程图。
图2是本发明实施例提供的融合多种特征识别增强子及其强度的方法原理图。
图3是本发明实施例提供的融合多种特征识别增强子及其强度的系统结构框图;
图中:1、数据集构建模块;2、特征提取模块;3、基识别器选择模块;4、理论融合模块;5、评估模块。
图4是本发明实施例提供的Mismatch特征对于不同参数的精度示意图。
图5是本发明实施例提供的增强子识别对于特征DAC、DCC、DSA不同参数下的精度示意图。
图6是本发明实施例提供的增强子强度识别对于特征DAC、DCC、DSA不同参数下的精度示意图。
图7是本发明实施例提供的对于增强子识别比较多个识别器的结果示意图。
图8是本发明实施例提供的对于增强子强度识别比较多个识别器的结果示意图。
图9是本发明实施例提供的对于增强子识别的ROC曲线示意图。
图10是本发明实施例提供的对于增强子强度识别的ROC曲线示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种融合多种特征识别增强子及其强度的方法、系统,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的融合多种特征识别增强子及其强度的方法包括以下步骤:
S101,基准数据集的构建;
S102,从原始DNA序列中提取不同类型的特征;
S103,选择支持向量机SVM作为基识别器;
S104,加权DS证据理论融合;
S105,分别进行参数优化和模型评估。
本发明实施例提供的融合多种特征识别增强子及其强度的方法原理图如图2所示。
如图3所示,本发明实施例提供的融合多种特征识别增强子及其强度的系统包括:
数据集构建模块1,用于进行基准数据集的构建;
特征提取模块2,用于从原始DNA序列中提取不同类型的特征;
基识别器选择模块3,用于选择支持向量机SVM作为基识别器;
理论融合模块4,用于进行加权DS证据理论融合;
评估模块5,用于采用10折交叉验证进行参数优化,并利用精度Acc、灵敏性Se、特异性Sp和马修相关系数Mcc四个指标进行模型评估。
下面结合实施例对本发明的技术方案作进一步描述。
增强子是一种非编码的DNA片段,它调节基因表达,增强基因转录能力。增强子可以位于基因的上游或下游,并作用于远离它的基因。此外,增强子的活性也容易受到其他因素的干扰。此外,还证明了增强子的遗传变异与人类疾病密切相关。因此,对增强子的鉴定及其强度具有重要的生物学意义。本发明建立了一种新的增强子识别模型,即iEnahncer-WDEST模型,用于识别增强子及其强度。首先,利用不匹配轮廓、自协方差、互协方差和空间自相关四种特征提取方法提取序列信息。然后,利用SVM作为基本分类器,得到输出。最后,加权DS证据理论将四种输出融合在一起,得到了最终结果。对增强子及其强度的识别准确率分别达到79.62%和69.61%。与其他方法相比,结果表明,本发明提出的模型对增强子及其强度的识别是可行的。
本发明的技术思路是:用四种方法来从原始DNA序列中提取不同类型的特征:误配(Mismatch)、基于二核苷酸的自协方差(DAC)、基于二核苷酸的互协方差(DCC)、基于二核苷酸的空间自相关(DSA),然后支持向量机(SVM)被用作为基识别器,接着加权DS证据理论(WDEST)融合基识别器的输出,最后计算四个指标:精度、灵敏性、特异性、马修相关系数和独立数据集来评估模型。根据上述技术思路,实现本发明目的采取的技术方案称为iEnhancer-WDEST,实现流程展现在图2中,包括如下步骤:
1、数据集
建立一个可靠的基准数据集,一部分用于训练模型,另一部分用于客观的评估模型。本发明用到的数据集来自刘等人的研究,训练集包含742个强增强子、742个弱增强子和1484个非增强子,测试集包含100个强增强子、100个弱增强子和200个非增强子。所有的数据都已通过CD-HIT去冗余,序列相似度不超过80%。
2、特征提取
特征会影响识别器的性能,为了从原始序列中提取更全面的信息,本发明考虑了两个方面四种类型的特征:基于序列顺序的和基于二核苷酸理化性质的。由于核苷酸在基因的表达调控中起着非常重要的作用,而理化性质比原始序列在进化上更受限,因此考虑二核苷酸理化性质来提取全局序列顺序信息是合理的,并且它们对于研究基因组分析具有特殊的应用价值。本发明涉及六种二核苷酸理化性质,如表1所示。
表1二核苷酸理化性质
2.1误配Mismatch
k-mer是用来统计一个序列中k元核苷酸的发生频率,误配也是计算k元核苷酸的发生频率,但是它允许错配,涉及参数(k,m),这里m指允许错配的核苷酸的最大数目。
2.2基于二核苷酸的自协方差(DAC)
DAC度量了二核苷酸对于相同性质间的相关性,它被描述为:
这里L是序列的长度,lag沿着序列的滞后距离,pi,s和pi+lag,s分别代表在第i位置和第i+lag位置上的二核苷酸对于性质s的值。是二核苷酸对于性质指标s的平均值:
这种方法提取的特征维度是6*Lag,其中Lag是lag的最大值(lag=1,2,...,Lag)。
2.3基于二核苷酸的互协方差(DCC)
DCC度量了二核苷酸对于两个不同性质间的相关性,它被描述为:
这里pi,t和pi+lag,t分别代表在第i位置和第i+lag位置上的二核苷酸对于性质t的值。是二核苷酸对于性质指标t的平均值:
这种方法提取的特征维度是6*5*Lag。
2.4基于二核苷酸的空间自相关(DSA)
根据Geary相关系数,DSA被表示为:
当s=t时式(5)表示序列的自相关性,否则表示互相关性。这种方法提取的特征维度是6*5*Lag。
3、基识别器
本发明选择支持向量机(SVM)作为基识别器,核函数为径向基函数(RBF),正则化参数C的取值范围设为[2-5,215],核宽度参数γ的取值范围设为[2-15,25],用网格搜索来优化参数。
4、加权DS证据理论融合
(1)假设pi和pj是两个证据来源,二者之间的Jousselme距离为:
其中,||pi||2=<pi,pi>,||pj||2=<pj,pj>,<pi,pj>表示內积。
(2)由此可获得一个距离矩阵D,也称为证据冲突矩阵。如果证据数量是n,那么D被表示为:
(3)由D可生成相似矩阵S:
其中,sij=1-dij,i,j=1,2,...,n。
(4)pi的支持度由下式计算得到:
(5)pi的加权因子由式(9)获得,它被表示为:
(6)冲突的证据pi用下式处理:
p′i=Wei(pi)*pi (11)
根据上述,加权DS证据理论融合规则如下:
其中,p′i和p′j由式(11)得来,k是综合过程中产生的冲突因素,用来反映证据之间的冲突程度。
5、评估
本发明采用10折交叉验证来优化参数。此外,四个指标被用来评估模型,包括精度(Acc)、灵敏性(Se)、特异性(Sp)和马修相关系数(Mcc),它们的公式如下:
其中,TP、FP、TN和FN分别代表真阳性、假阳性、真阴性和假阴性。
6、有益效果
(1)最优特征
对于误配特征,设置参数k=2,3,4,m=1。对于DAC、DCC和DSA特征,设置Lag取值范围为[1,10]。实验结果展示在图4、图5、图6中,容易看出,对于增强子的识别,这四种特征的最优参数分别是(3,1),Lag=5,Lag=5,Lag=4;对于增强子强度的识别,这四种特征的最优参数分别是(3,1),Lag=4,Lag=1,Lag=5。
(2)基识别器的选择
选择SVM作为基识别器是合理的,因为它与常用的几种识别器做了比较,包括高斯朴素贝叶斯(GNB)、决策树(DT)、k-近邻(KNN)和随机森林(RF)。KNN的参数n-近邻和叶子大小都设为[1,100],RF的参数n-估计器空间设置为[10,150]。实验结果展示在图7、图8中,很明显,SVM的性能要优于其他识别器。
(3)加权DS证据理论的作用
从图9、图10可以看出,加权DS证据理论策略集成了基识别器的四个输出后,模型性能有所提高,因为这种融合策略以证据的形式代表不确定性,并具有直接表达“不确定性”和“未知”的能力,是一种更适合决策融合系统的不确定性推理算法。
(4)和其他方法做对比
表2给出了本发明和其他方法的对比,在识别增强子方面,Acc、Sn、Mcc都有所提高,而在增强子强度识别方面,所有指标都有提高。使用独立测试集来评估本发明提出的模型,结果展示在表3,依然表明本发明是可行的、有用的。
表2在识别增强子方面本发明与其他方法的比较
表3在识别增强子强度方面本发明与其他方法的比较
本发明提供了一种新的模型用于增强子及其强度的识别,当询问一条序列是否是增强子时,提取它四种类型的特征:误配(设置k=3,m=1)、DAC(设置Lag=5)、DCC(设置Lag=5)、DSA(Lag=4),将四种特征分别输入到分类器SVM,得到了四个输出,将其输送到WDSET进行融合得到最终的识别结果。若是识别增强子的强度,则提取的特征为:误配(设置k=3,m=1)、DAC(设置Lag=4)、DCC(设置Lag=1)、DSA(Lag=5)。
本发明与现有技术相比,具有以下优点:
第一,本发明考虑了序列的局部的和全局的信息,从原始序列中提取了四种类型的特征,同时有基于序列的特征,有基于二核苷酸理化性质的特征;
第二,本发明通过一种加权DS证据理论的信息融合策略综合了基识别器的四个输出。
本发明的技术关键点和欲保护点是一种基于加权DS证据理论融合多种特征第一次用于识别增强子及其强度。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (7)
1.一种融合多种特征识别增强子及其强度的方法,其特征在于,所述融合多种特征识别增强子及其强度的特征方法包括:误配Mismatch、基于二核苷酸的自协方差DAC、基于二核苷酸的互协方差DCC、基于二核苷酸的空间自相关DSA四种方法从原始DNA序列中提取不同类型的特征;然后支持向量机SVM被用作为基识别器,接着加权DS证据理论WDEST融合基识别器的输出;最后计算四个指标:精度、灵敏性、特异性、马修相关系数和独立数据集评估模型;
其方法包括以下步骤:
步骤一,基准数据集的构建;
步骤二,从原始DNA序列中提取不同类型的特征;
步骤三,选择支持向量机SVM作为基识别器;
步骤四,加权DS证据理论融合;
步骤五,分别进行参数优化和模型评估;
步骤二中,所述特征提取,包括:
(1)误配Mismacth
k-mer是用来统计一个序列中k元核苷酸的发生频率,误配也是计算k元核苷酸的发生频率,但是它允许错配,涉及参数(k,m),这里m指允许错配的核苷酸的最大数目;
(2)基于二核苷酸的自协方差DAC
DAC度量了二核苷酸对于相同性质间的相关性,DAC被描述为:
其中,L是序列的长度,lag沿着序列的滞后距离,pi,s和pi+lag,s分别代表在第i位置和第i+lag位置上的二核苷酸对于性质s的值;是二核苷酸对于性质指标s的平均值:
其中,利用基于二核苷酸的自协方差DAC方法提取的特征维度是6*Lag,Lag是lag的最大值,lag=1,2,...,Lag;
(3)基于二核苷酸的互协方差DCC
DCC度量了二核苷酸对于两个不同性质间的相关性,DCC被描述为:
其中,pi,t和pi+lag,t分别代表在第i位置和第i+lag位置上的二核苷酸对于性质t的值;是二核苷酸对于性质指标t的平均值:
其中,利用基于二核苷酸的互协方差DCC方法提取的特征维度是6*5*Lag;
(4)基于二核苷酸的空间自相关DSA
根据Geary相关系数,DSA被表示为:
当s=t时(4)表示序列的自相关性,否则表示互相关性;基于二核苷酸的空间自相关DSA方法提取的特征维度是6*5*Lag;
步骤四中,所述加权DS证据理论融合步骤包括:
(1)假设pi和pj是两个证据来源,二者之间的Jousselme距离为:
其中,||pi||2=<pi,pi>,||pj||2=<pj,pj<,<pi,pj>表示內积;
(2)由此可获得一个距离矩阵D,也称为证据冲突矩阵;如果证据数量是n,那么D被表示为:
(3)由D可生成相似矩阵S:
其中,sij=1-dij,i,j=1,2,...,n;
(4)pi的支持度由下式计算得到:
(5)pi的加权因子由步骤(4)获得,它被表示为:
(6)冲突的证据pi用下式处理:
p′i=Wei(pi)*pi;
根据上述,加权DS证据理论融合规则如下:
其中,p′i和p'j由步骤(6)得来,k是综合过程中产生的冲突因素,用来反映证据之间的冲突程度。
2.如权利要求1所述的融合多种特征识别增强子及其强度的方法,其特征在于,步骤一中,所述基准数据集,一部分用于训练模型,另一部分用于客观的评估模型;其中,所述训练集包含742个强增强子、742个弱增强子和1484个非增强子,所述测试集包含100个强增强子、100个弱增强子和200个非增强子;所有的数据都已通过CD-HIT去冗余,序列相似度不超过80%。
3.如权利要求1所述的融合多种特征识别增强子及其强度的方法,其特征在于,步骤三中,所述基识别器,包括:选择支持向量机SVM作为基识别器,核函数为径向基函数(RBF),正则化参数C的取值范围设为[2-5,215],核宽度参数γ的取值范围设为[2-15,25],用网格搜索来优化参数。
4.如权利要求1所述的融合多种特征识别增强子及其强度的方法,其特征在于,步骤五中,所述分别进行参数优化和模型评估,包括:采用10折交叉验证来优化参数,并利用四个指标来评估模型,包括精度Acc、灵敏性Se、特异性Sp和马修相关系数Mcc,公式如下:
其中,TP、FP、TN和FN分别代表真阳性、假阳性、真阴性和假阴性。
5.一种实施权利要求1~4任意一项所述的融合多种特征识别增强子及其强度的方法的融合多种特征识别增强子及其强度的系统,其特征在于,所述融合多种特征识别增强子及其强度的系统包括:
数据集构建模块,用于进行基准数据集的构建;
特征提取模块,用于从原始DNA序列中提取不同类型的特征;
基识别器选择模块,用于选择支持向量机SVM作为基识别器;
理论融合模块,用于进行加权DS证据理论融合;
评估模块,用于采用10折交叉验证进行参数优化,并利用精度Acc、灵敏性Se、特异性Sp和马修相关系数Mcc四个指标进行模型评估。
6.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1~4任意一项所述的融合多种特征识别增强子及其强度的方法。
7.一种信息数据处理终端,其特征在于,所述信息数据处理终端用于实现如权利要求5所述的融合多种特征识别增强子及其强度的系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110416304.6A CN113241123B (zh) | 2021-04-19 | 2021-04-19 | 一种融合多种特征识别增强子及其强度的方法、系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110416304.6A CN113241123B (zh) | 2021-04-19 | 2021-04-19 | 一种融合多种特征识别增强子及其强度的方法、系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113241123A CN113241123A (zh) | 2021-08-10 |
CN113241123B true CN113241123B (zh) | 2024-02-02 |
Family
ID=77128392
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110416304.6A Active CN113241123B (zh) | 2021-04-19 | 2021-04-19 | 一种融合多种特征识别增强子及其强度的方法、系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113241123B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114627964B (zh) * | 2021-09-13 | 2023-03-24 | 东北林业大学 | 一种基于多核学习预测增强子及其强度分类方法及分类设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016183348A1 (en) * | 2015-05-12 | 2016-11-17 | The Johns Hopkins University | Methods, systems and devices comprising support vector machine for regulatory sequence features |
CN110689928A (zh) * | 2018-07-07 | 2020-01-14 | 塔塔咨询服务公司 | 用于预测基因组变异对前mRNA剪接的影响的系统和方法 |
CN111063393A (zh) * | 2019-12-26 | 2020-04-24 | 青岛科技大学 | 基于信息融合和深度学习的原核生物乙酰化位点预测方法 |
CN111161793A (zh) * | 2020-01-09 | 2020-05-15 | 青岛科技大学 | 基于stacking集成的RNA中N6-甲基腺苷修饰位点预测方法 |
CN112036301A (zh) * | 2020-08-31 | 2020-12-04 | 中国矿业大学 | 一种基于类内特征迁移学习与多源信息融合的驱动电机故障诊断模型构建方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140129152A1 (en) * | 2012-08-29 | 2014-05-08 | Michael Beer | Methods, Systems and Devices Comprising Support Vector Machine for Regulatory Sequence Features |
-
2021
- 2021-04-19 CN CN202110416304.6A patent/CN113241123B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016183348A1 (en) * | 2015-05-12 | 2016-11-17 | The Johns Hopkins University | Methods, systems and devices comprising support vector machine for regulatory sequence features |
CN110689928A (zh) * | 2018-07-07 | 2020-01-14 | 塔塔咨询服务公司 | 用于预测基因组变异对前mRNA剪接的影响的系统和方法 |
CN111063393A (zh) * | 2019-12-26 | 2020-04-24 | 青岛科技大学 | 基于信息融合和深度学习的原核生物乙酰化位点预测方法 |
CN111161793A (zh) * | 2020-01-09 | 2020-05-15 | 青岛科技大学 | 基于stacking集成的RNA中N6-甲基腺苷修饰位点预测方法 |
CN112036301A (zh) * | 2020-08-31 | 2020-12-04 | 中国矿业大学 | 一种基于类内特征迁移学习与多源信息融合的驱动电机故障诊断模型构建方法 |
Non-Patent Citations (3)
Title |
---|
冯凯 ; 刘丽冰 ; 王旭琳 ; 张艳蕊 ; 杨泽青 ; .异构数据融合的CNC刀具磨损状态在线识别方法.现代制造工程.2020,(第08期),全文. * |
孙佳伟 ; 张明 ; 王长宝 ; 徐维艳 ; 程科 ; 段先华 ; .一种新的融合统计特征的DNA甲基化位点识别方法.江苏科技大学学报(自然科学版).2019,(第02期),全文. * |
徐文轩 ; 张莉 ; .基于单核苷酸统计和支持向量机集成的人类基因启动子识别.计算机应用.2015,(第10期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN113241123A (zh) | 2021-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Singh et al. | Predicting enhancer‐promoter interaction from genomic sequence with deep neural networks | |
Gudyś et al. | HuntMi: an efficient and taxon-specific approach in pre-miRNA identification | |
Min et al. | DeepEnhancer: Predicting enhancers by convolutional neural networks | |
Hu et al. | Deep learning frameworks for protein–protein interaction prediction | |
Lee et al. | A comprehensive survey on genetic algorithms for DNA motif prediction | |
CN111640468B (zh) | 一种基于复杂网络筛选疾病相关蛋白的方法 | |
Chen et al. | An effective feature selection scheme for healthcare data classification using binary particle swarm optimization | |
US20170076036A1 (en) | Protein functional and sub-cellular annotation in a proteome | |
Yones et al. | Genome-wide pre-miRNA discovery from few labeled examples | |
Wang et al. | A brief review of machine learning methods for RNA methylation sites prediction | |
CN113241123B (zh) | 一种融合多种特征识别增强子及其强度的方法、系统 | |
Wang et al. | RPI-CapsuleGAN: Predicting RNA-protein interactions through an interpretable generative adversarial capsule network | |
Deng et al. | A deep neural network approach using distributed representations of RNA sequence and structure for identifying binding site of RNA-binding proteins | |
Gao et al. | AiProAnnotator: Low-rank Approximation with network side information for high-performance, large-scale human Protein abnormality Annotator | |
Tzanis et al. | StackTIS: A stacked generalization approach for effective prediction of translation initiation sites | |
CN115410643A (zh) | 一种基于stacking集成学习的增强子的预测方法、系统、设备及存储介质 | |
Yang et al. | Concert: genome-wide prediction of sequence elements that modulate DNA replication timing | |
CN115410715A (zh) | 癌症类型预测系统 | |
McClannahan et al. | Classification of Long Noncoding RNA Elements Using Deep Convolutional Neural Networks and Siamese Networks | |
Sun et al. | Enhancer recognition and prediction during spermatogenesis based on deep convolutional neural networks | |
Wang et al. | EPnet: A general network to predict enhancer-promoter interactions | |
Karabulut et al. | Assessment of clustering algorithms for unsupervised transcription factor binding site discovery | |
Dong et al. | scGAT: a cell-type annotation framework for single-cell transcriptomics using graph attention network and meta learning | |
Ristevski et al. | Bayesian networks application for representation and structure learning of gene regulatory networks | |
He et al. | DeepAPArice: a deep learning model for poly (A) site intelligent prediction in rice using convolutional neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |