CN105550538B - 一种人类基因启动子识别方法和系统 - Google Patents

一种人类基因启动子识别方法和系统 Download PDF

Info

Publication number
CN105550538B
CN105550538B CN201610076071.9A CN201610076071A CN105550538B CN 105550538 B CN105550538 B CN 105550538B CN 201610076071 A CN201610076071 A CN 201610076071A CN 105550538 B CN105550538 B CN 105550538B
Authority
CN
China
Prior art keywords
conjuncted
mrow
promoter
gene
symmetrical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610076071.9A
Other languages
English (en)
Other versions
CN105550538A (zh
Inventor
徐文轩
张莉
李凡长
王邦军
张召
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201610076071.9A priority Critical patent/CN105550538B/zh
Publication of CN105550538A publication Critical patent/CN105550538A/zh
Application granted granted Critical
Publication of CN105550538B publication Critical patent/CN105550538B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请公开了一种人类基因启动子识别方法和系统。该方法在获取人类基因训练样本后,基于启动子与三个非启动子之间的对称散度,从所有N联体集合中确定最具有分辨率的N联体集合。进而,利用具有分辨率的N联体集合完成对分类器的训练,并利用训练后的分类器对人类基因测试样本进行识别。与先有技术相比,本发明采用对称散度作为述启动子和非启动子的之间的距离度量,由于对称散度的对称性,因而其作为距离度量的测量精度更高,从而提高了对启动子的识别度。

Description

一种人类基因启动子识别方法和系统
技术领域
本申请涉及基因检测领域,更具体地说,涉及一种人类基因启动子识别方法和系统。
背景技术
人类基因草图完成后,关于人类基因表达调控已然成为一个极具挑战性的研究方向。而启动子识别对整个基因组功能的诠释具有重要的作用,因此如何准确、快说说识别人类启动子,已成为一个热点研究领域。
当前,人类启动子识别技术得到了快速发展,越来越多的研究人员利用生物信息学的方法通过计算机技术来预测与识别启动子。这类方法成本低,耗时较少,结果也比较可靠。人类启动子识别中关键之一是提取更具分辨力的特征来区分启动子与其他非启动子(外显子、内含子基因序列以及3'-UTR)。由于DNA序列可以被看作一系列的文档集合,基于基因N联体(n-mer:N个连续核苷酸,A:腺嘌呤G:鸟嘌呤C:胞嘧啶T:胸腺嘧啶组成的序列片段)的词频统计特征是启动子识别的有效特征。
N联体可以降低识别的假阳性,并且因为其在基因中的分布具有重要的生物学意义,也可以提高识别的敏感性。但是N联体特征具有太多的冗余信息,需要利用KL(Kullback–Leibler divergence)散度来简化N联体的特征提取。具体为,基于最大化相对熵构建了两类模型,并且运用KL散度作为权重来评价每个N联体对于识别的分辨能力,两类模型分别对启动子和非启动子获取一组N联体用于识别。然而由于KL散度的不对称性,所以并不能作为严格意义上的距离度量,其对启动子的识别度较低。
发明内容
有鉴于此,本申请提供一种人类基因启动子识别方法和系统,以提供对启动子的识别度。
为了实现上述目的,现提出的方案如下:
一种人类基因启动子识别方法,包括:
获取人类基因训练样本,其中所述训练样本包括启动子基因序列、外显子基因序列、内含子基因序列以及3'-UTR基因序列;
计算所有N联体集合中每个N联体在所述启动子基因序列、所述外显子基因序列、所述内含子基因序列以及所述3'-UTR基因序列中概率密度;
根据所述概率密度,分别计算所述启动子基因序列中的N联体与所述外显子基因序列的中N联体的第一对称散度,所述启动子基因序列中N联体与所述内含子基因序列中N联体的第二对称散度,以及所述启动子基因序列中N联体与所述3'-UTR基因序列中N联体的第三对称散度;
基于预设优化算法,依据所述第一对称散度从所有N联体中选择最具分辨率的第一N联体集合,依据所述第二对称散度从所有N联体中选择最具分辨率的第二N联体集合,以及依据所述第三对称散度从所有N联体中选择最具分辨力的第三N联体集合;
分别利用所述第一N联体集合、所述第二N联体集合以及所述第三N联体集合,对分类器进行训练,得到启动子-外显子分类器、启动子-内含子分类器以及启动子-3'-UTR分类器;
利用所述启动子-外显子分类器、所述启动子-内含子分类器以及所述启动子-3'-UTR分类器对人类基因测试样本进行识别,基于三个分类器的输出结果,判断人类基因训练样本是否为启动子。
优选的,所述根据所述概率密度,分别计算所述启动子基因序列中的N联体与所述外显子基因序列的中N联体的第一对称散度,所述启动子基因序列中N联体与所述内含子基因序列中N联体的第二对称散度,以及所述启动子基因序列中N联体与所述3'-UTR基因序列中N联体的第三对称散度,包括:
根据第一预设公式分别计算所述第一对称散度、所述第二对称散度以及所述第三对称散度;
其中,所述第一预设公式为:
其中,4n表示N联体的总个数,fp(i)表示所述启动子基因序列中第i个N联体的概率密度,表示非启动子基因序列中第i个N联体的概率密度,r为1,2,3分别表示外显子、内含子以及3'-UTR, 表示KL散度,表示N联体的对称散度。
优选的,所述基于预设优化算法,依据所述第一对称散度从所有N联体中选择最具分辨率的第一N联体集合,依据所述第二对称散度从所有N联体中选择最具分辨率的第二N联体集合,以及依据所述第三对称散度从所有N联体中选择最具分辨力的第三N联体集合,包括
基于第二预设公式分别确定所述第一N联体集合中的N联体的个数,所述第二N联体集合中N联体的个数以及所述第三N联体集合中N联体的个数;
其中,所述第二预设公式为:
其中,mr最具分辨力的N联体的个数,θ为预设阈值,且大于0;
根据所述第一N联体集合中N联体的个数以及所有N联体的第一对称散度的大小,从所有N联体中确定第一N联体集合;
根据所述第二N联体集合中N联体的个数以及所有N联体的第二对称散度的大小,从所有N联体中确定第二N联体集合;
根据所述第三N联体集合中N联体的个数以及所有N联体的第三对称散度的大小,从所有N联体中确定第三N联体集合。
优选的,所述基于三个分类器的输出结果,判断人类基因训练样本是否为启动子,包括:
当所述三个分类中至少两个分类器的输出结果表明人类基因测试样本为启动子时,确定所述人类基因测试样本为启动子。
优选的,所述分类器为SVM分类器。
一种人类基因启动子识别系统,包括:
数据采集单元,用于获取人类基因训练样本,其中所述训练样本中启动子基因序列、外显子基因序列、内含子基因序列以及3'-UTR基因序列;
概率密度确定单元,用于计算所有N联体集合中每个N联体在所述启动子基因序列、所述外显子基因序列、所述内含子基因序列以及所述3'-UTR基因序列中概率密度;
对称散度计算单元,用于根据所述概率密度,分别计算所述启动子基因序列中的N联体与所述外显子基因序列的中N联体的第一对称散度,所述启动子基因序列中N联体与所述内含子基因序列中N联体的第二对称散度,以及所述启动子基因序列中N联体与所述3'-UTR基因序列中N联体的第三对称散度;
筛选单元,用于基于预设优化算法,依据所述第一对称散度从所有N联体中选择最具分辨率的第一N联体集合、依据所述第二对称散度从所有N联体中选择最具分辨率的第二N联体集合,以及依据所述第三对称散度从所有N联体中选择最具分辨力的第三N联体集合;
分类器训练单元,用于分别利用所述第一N联体集合、所述第二N联体集合以及所述第三N联体集合,对分类器进行训练,得到启动子-外显子分类器、启动子-内含子分类器以及启动子-3'-UTR分类器;
启动子识别单元,用于利用所述启动子-外显子分类器、所述启动子-内含子分类器以及所述启动子-3'-UTR分类器对人类基因测试样本进行识别,基于三个分类器的输出结果,判断人类基因训练样本是否为启动子。
优选的,所述对称散度计算单元具有用于:
根据第一预设公式分别计算N联体的第一对称散度、N联体的第二对称散度以及N联体的第三对称散度;
其中,所述第一预设公式为:
其中,4n表示N联体的总个数,fp(i)表示所述启动子基因序列中第i个N联体的概率密度,表示非启动子基因序列中第i个N联体的概率密度,r为1,2,3分别表示外显子、内含子以及3'-UTR, 表示KL散度,表示N联体的对称散度。
优选的,所述筛选单元包括:第一计算子单元、第一筛选子单元、第二筛选子单元以及第三筛选子单元;
其中,所述第一计算子单元,用于基于第二预设公式,分别确定所述第一N联体集合中N联体的个数,所述第二N联体集合中N联体的个数以及所述第三N联体集合中N联体的个数的N联体个数确定子单元;
其中,所述第二预设公式为:
其中,mr最具分辨力的N联体的个数,θ为预设阈值,且大于0;
第一筛选子单元,用于根据所述第一N联体集合中N联体的个数以及所有N联体的第一对称散度的大小,从所有N联体中确定第一N联体集合;
第二筛选子单元,用于根据所述第二N联体集合中N联体的个数以及所有N联体的第二对称散度的大小,从所有N联体中确定第二N联体集合;
第三筛选子单元,用于根据所述第三N联体集合中N联体的个数以及所有N联体的第三对称散度的大小,从所有N联体中确定第三N联体集合。
优选的,所述启动子识别单元包括:识别子单元以及判断子单元;
其中所述识别子单元,用于利用所述启动子-外显子分类器、所述启动子-内含子分类器以及所述启动子-3'-UTR分类器对人类基因测试样本进行识别,输出识别结果;
所述判断子单元,用于基于三个分类器的输出结果,判断人类基因训练样本是否为启动子;
其中,当所述三个分类中至少两个分类器的输出结果表明人类基因测试样本为启动子时,所述判断子单元确定所述人类基因测试样本为启动子。
经由上述技术方案可知,本申请公开了一种人类基因启动子识别方法和系统。该方法在获取人类基因训练样本后,基于启动子与三个非启动子之间的对称散度,从所有N联体集合中确定最具有分辨率的N联体集合。进而,利用具有分辨率的N联体集合完成对分类器的训练,并利用训练后的分类器对人类基因测试样本进行识别。与现有技术相比,本发明采用对称散度作为述启动子和非启动子的之间的距离度量,由于对称散度的对称性,因而其作为距离度量的测量精度更高,从而提高了对启动子的识别度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1示出了本发明一个实施例公开的一种人类基因启动子识别方法的流程示意图;
图2示出了本发明另一个实施例公开的一种人类基因启动子识别系统的结构示意图;
图3示出了本发明另一个实施例公开的一种人类基因启动子识别系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1示出了本发明一个实施例公开的一种人类基因启动子识别方法的流程示意图。
由图1可知,该方法包括:
该方法包括:
S101:获取人类基因训练样本。
所述基因训练样本中包含启动子基因系列以及三种非启动基因序列,即外显子基因序列、内含子基因序列以及3'-UTR基因序列。
可选,启动子基因序列来自EPD数据库(Eukaryotic Promoter Database,真核生物启动子数据库,外显子基因序列以及内含子基因序列来自EID数据库,3'-UTR基因序列来自UTRdb数据库。
启动子基因序列的序列长度为251bp,取自TSS上游200bp~下游50bp,即范围是(-200~+50),TSS的位置问0。外显子、内含子以及3'-UTR基因序列的序列长度为251bp。在采集上述训练样本时启动子、外显子、内含子以及3'-UTR基因序列的样本比例为1:1:1:1。
S102:计算所有N联体集合中每个N联体在所述启动子基因序列、所述外显子基因序列、所述内含子基因序列以及所述3'-UTR基因序列中概率密度。
可选的,N联体的概率密度计算过程如下:
当N=2时(表示为2联体),N联体的个数4n=42=16,所有N联体的集合为M={AA,AG,AC,AT,GA,GG,GC,GT,CA,CG,CC,CT,TA,TG,TC,TT}。假设一个启动子基因序列表示为ATCGCG,则该启动子序列中的N联体依次AT、TC、CG、GC和CG,则所有N联体集合中每个N联体在该启动子基因序列中的概率密度即为fp={0,0,0,0.2,0,0,0.2,0,0,0.4,0,0,0,0,0.2,0}。
同理,依次确定所有N联体集合中每种N联体在外显子基因序列中的概率密度f1 np、内含子基因序列中的概率密度f2 np以及3'-UTR基因序列中的概率密度f3 np
S103:根据所述概率密度,分别计算所述启动子基因序列中的N联体与所述外显子基因序列的中N联体的第一对称散度,所述启动子基因序列中N联体与所述内含子基因序列中N联体的第二对称散度,以及所述启动子基因序列中N联体与所述3'-UTR基因序列中N联体的第三对称散度。
其中,对称散度的定义如下:
其中,表示N联体的对称散度。当r为1时,表示启动子基因序列中的N联体与外显子基因序列的中N联体的第一对称散度;当r为2时,表示启动子基因序列中N联体与所述内含子基因序列中N联体的第二对称散度;当r为3时,表示启动子基因序列中N联体与3'-UTR基因序列中N联体的第三对称散度。4n表示N联体的总个数,fp(i)表示启动子基因序列中第i个N联体的概率密度,表示非启动子基因序列中第i个N联体的概率密度,r为1,2,3分别表示外显子、内含子以及3'-UTR,表示KL散度。
S104:基于预设优化算法,依据所述第一对称散度从所有N联体集合中选择最具分辨率的第一N联体集合,依据所述第二对称散度从所有N联体集合中选择最具分辨率的第二N联体集合,以及依据所述第三对称散度从所有N联体中结合选择最具分辨力的第三N联体集合。
可选的,其具体过程如下:
A:基于第二预设公式分别计算得到所述第一N联体集合中的N联体的个数,所述第二N联体集合中N联体的个数以及所述第三N联体集合中N联体的个数。
其中,所述第二预设公式为:
其中,mr最具分辨力的N联体的个数,θ为预设阈值,其大小可为0.98。
下面以N=2为例具体介绍上述公式的具体计算过程:
当N=2时,N联体的总个数为16个,依次将mr=1、2、3….16代入计算公式中。进而,从得到的所有计算结果中确定最小计算结果,则该最小计算结果对应的mr即为最具分辨力的N联体的个数,其中当r=1时,m1为第一N联体集合中N联体的个数;r=2时,m2为第二N联体集合中N联体的个数;r=3时,m3为第三N联体集合中N联体的个数。
B:根据所述第一N联体集合中N联体的个数以及所有N联体的第一对称散度的大小,从所有N联体中确定第一N联体集合。
C:根据所述第二N联体集合中N联体的个数以及所有N联体的第二对称散度的大小,从所有N联体中确定第二N联体集合。
D:根据所述第三N联体集合中N联体的个数以及所有N联体的第三对称散度的大小,从所有N联体中确定第三N联体集合。
具体的,按照第一对称散度的大小对所有N联体集合中的N联体进行降序排列,从重新排列后所有N联体中第一个N联体开始,选择m1个N联体组成第一N联体集合。
同理,按照第二对称散度的大小对所有N联体进行降序排列,从重新排列后的第一个N联体开始,选择m2个N联体组成第二N联体集合。
按照第三对称散度的大小对所有N联体进行降序排列,从重新排列后的第一个N联体开始,选择m3个N联体组成第二N联体集合。
S105:分别利用所述第一N联体集合、所述第二N联体集合以及所述第三N联体集合,对分类器进行训练,得到启动子-外显子分类器、启动子-内含子分类器以及启动子-3'-UTR分类器。
可选的,该分类器为SVM分类器。SVM参数通过十折交叉检验优化,其核函数选用径向基核函数,构成非线性SVM。
S106:利用所述启动子-外显子分类器、所述启动子-内含子分类器以及所述启动子-3'-UTR分类器对人类基因测试样本进行识别,基于三个分类器的输出结果,判断人类基因训练样本是否为启动子。
可选的,在本发明中集成三个分类器的识别结果,基于投票规则综合判断人类基因测试样本是否为启动子。具体的,当所述三个分类中至少两个分类器的输出结果表明人类基因测试样本为启动子时,则确定该人类基因测试样本为启动子。
由以上实施例可知,本申请公开了一种人类基因启动子识别方法。该方法在获取人类基因训练样本后,基于启动子与三个非启动子之间的对称散度,从所有N联体集合中确定最具有分辨率的N联体集合。进而,利用具有分辨率的N联体集合完成对分类器的训练,并利用训练后的分类器对人类基因测试样本进行识别。与先有技术相比,本发明采用对称散度作为述启动子和非启动子的之间的距离度量,由于对称散度的对称性,因而其作为距离度量的测量精度更高,从而提高了对启动子的识别度。
本发明的效果可以通过如下实验验证:
通过本发明提出的基于对称散度的人类基因启动子识别系统,在给定数据集中随机十次抽取4000个样本进行实验,其中正负样本不平衡,实验结果取十次结果平均值。为了对我们的实验效果一目了然,本实验提出的方法与《Human Promoter RecognitionAlgorithm》中算法下文记作K-words和《SCS:signal,context,and structure featuresfor genome-wide human promoter recognition》中NBCs算法在相同的数据集上做比较。
根据Bajic评价标准。敏感性(Sensitivity)、特异性(Specificity)和平均条件概率(Averaged conditional probability)可用于评价算法的性能。
其中TP表示正确识别的启动子序列数;FN表示错误识别的非启动子序列数;FP表示错误识别的启动子序列数;TN表示正确识别的非启动子序列数。
我们应用测试集对系统进行了性能测试,与不进行特征再处理模块的系统进行了性能比较。表1给出了两种系统的结果对比。
表1两种系统的分类性能对比
系统性能 K-words NBCs 本文算法
Sn 80.14 46.97 79.80
Sp 77.01 82.73 81.47
ACP 66.88 65.05 73.50
通过实验结果我们可以看出本发明将基于对称散度的特征提取算法应用到人类基因启动子识别中,识别性能得到了明显的提高,在识别的敏感性和特异性之间达到了平衡,ACP(结合了敏感性和特异性的综合指标)明显高于两个文献的算法。
参见图2示出了本发明另一个实施例公开的一种人类基因启动子识别系统的结构示意图。
由图2可知,在本实施例中,该系统包括:数据采集单元1、与数据采集单元1相连的概率密度确定单元2、与概率密度确定单元2相连的对称散度计算单元3、与对称散度计算单元3相连的筛选单元4、与筛选单元4相连的分类器训练单元5以及与分类器训练单元5相连的启动子识别单元6。
其中,数据采集单元1用于从人类基因数据库中获取人类基因训练样本。该训练样本包括启动子基因序列、外显子基因序列、内含子基因序列以及3'-UTR基因序列,且各个基因序列的样本数量相同。
进而,概率密度确定单元2计算所有N联体集合中每个N联体在所述启动子基因序列、所述外显子基因序列、所述内含子基因序列以及所述3'-UTR基因序列中概率密度。
对称散度计算单元3根据N联体的概率密度,分别计算所述启动子基因序列中的N联体与所述外显子基因序列的中N联体的第一对称散度,所述启动子基因序列中N联体与所述内含子基因序列中N联体的第二对称散度,以及所述启动子基因序列中N联体与所述3'-UTR基因序列中N联体的第三对称散度。
其中,对称散度计算单元具体用于根据第一预设公式分别计算N联体的第一对称散度、N联体的第二对称散度以及N联体的第三对称散度。
其中所述第一预设公式为:
其中,4n表示N联体的总个数,fp(i)表示所述启动子基因序列中第i个N联体的概率密度,表示非启动子基因序列中第i个N联体的概率密度,r为1,2,3分别表示外显子、内含子以及3'-UTR, 表示KL散度,表示N联体的对称散度。
筛选单元4基于预设优化算法,依据所述第一对称散度从所有N联体中选择最具分辨率的第一N联体集合、依据所述第二对称散度从所有N联体中选择最具分辨率的第二N联体集合,以及依据所述第三对称散度从所有N联体中选择最具分辨力的第三N联体集合。
分类器训练单元5用于分别利用所述第一N联体集合、所述第二N联体集合以及所述第三N联体集合,对分类器进行训练,得到启动子-外显子分类器、启动子-内含子分类器以及启动子-3'-UTR分类器。
启动子识别单元6用于利用所述启动子-外显子分类器、所述启动子-内含子分类器以及所述启动子-3'-UTR分类器对人类基因测试样本进行识别,基于三个分类器的输出结果,判断人类基因训练样本是否为启动子。
参见图3示出了本发明另一个实施例公开的一种人类基因启动子识别系统的结构示意图。
在本实施例中,该装置包括:数据采集单元1、概率密度确定单元2、对称散度计算单元3、筛选单元4、分类器训练单元5以及启动子识别单元6。
所述筛选单元具体包括:第一计算子单元41、第一筛选子单元42、第二筛选子单元43以及第三筛选子单元44。
其中,所述第一计算子单元,用于基于第二预设公式,分别确定所述第一N联体集合中N联体的个数,所述第二N联体集合中N联体的个数以及所述第三N联体集合中N联体的个数的N联体个数确定子单元。
其中,所述第二预设公式为:
其中,mr最具分辨力的N联体的个数,θ为预设阈值,且大于0;
所述第一筛选子单元42用于根据所述第一N联体集合中N联体的个数以及所有N联体的第一对称散度的大小,从所有N联体中确定第一N联体集合。
所述第二筛选子单元43用于根据所述第二N联体集合中N联体的个数以及所有N联体的第二对称散度的大小,从所有N联体中确定第二N联体集合。
所述第三筛选子单元44用于根据所述第三N联体集合中N联体的个数以及所有N联体的第三对称散度的大小,从所有N联体中确定第三N联体集合。
所述启动子识别单元包括:识别子单元61以及判断子单元62。
所述识别子单元61用于利用所述启动子-外显子分类器、所述启动子-内含子分类器以及所述启动子-3'-UTR分类器对人类基因测试样本进行识别,输出识别结果。
所述判断子单元62接收所述识别子单元61输出的三个分类器的识别结果,进而基于三个分类器的输出结果,采用投票规则判断人类基因训练样本是否为启动子。具体的,当所述三个分类中至少两个分类器的输出结果表明人类基因测试样本为启动子时,所述判断子单元确定所述人类基因测试样本为启动子。
需要说明的是上述装置实施例与方法实施例相对应,其执行过程和执行原理相同,在此不作赘述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种人类基因启动子识别方法,其特征在于,包括:
获取人类基因训练样本,其中所述训练样本包括启动子基因序列、外显子基因序列、内含子基因序列以及3'-UTR基因序列;
计算所有N联体集合中每个N联体在所述启动子基因序列、所述外显子基因序列、所述内含子基因序列以及所述3'-UTR基因序列中概率密度;
根据所述概率密度,分别计算所述启动子基因序列中的N联体与所述外显子基因序列的中N联体的第一对称散度,所述启动子基因序列中N联体与所述内含子基因序列中N联体的第二对称散度,以及所述启动子基因序列中N联体与所述3'-UTR基因序列中N联体的第三对称散度;
基于预设优化算法,依据所述第一对称散度从所有N联体中选择最具分辨率的第一N联体集合,依据所述第二对称散度从所有N联体中选择最具分辨率的第二N联体集合,以及依据所述第三对称散度从所有N联体中选择最具分辨力的第三N联体集合;
分别利用所述第一N联体集合、所述第二N联体集合以及所述第三N联体集合,对分类器进行训练,得到启动子-外显子分类器、启动子-内含子分类器以及启动子-3'-UTR分类器;
利用所述启动子-外显子分类器、所述启动子-内含子分类器以及所述启动子-3'-UTR分类器对人类基因测试样本进行识别,基于三个分类器的输出结果,判断人类基因训练样本是否为启动子。
2.根据权利要求1所述的方法,其特征在于,所述根据所述概率密度,分别计算所述启动子基因序列中的N联体与所述外显子基因序列的中N联体的第一对称散度,所述启动子基因序列中N联体与所述内含子基因序列中N联体的第二对称散度,以及所述启动子基因序列中N联体与所述3'-UTR基因序列中N联体的第三对称散度,包括:
根据第一预设公式分别计算所述第一对称散度、所述第二对称散度以及所述第三对称散度;
其中,所述第一预设公式为:
<mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <msup> <mn>4</mn> <mi>n</mi> </msup> </munderover> <msubsup> <mi>d</mi> <mi>i</mi> <mi>r</mi> </msubsup> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <msup> <mn>4</mn> <mi>n</mi> </msup> </munderover> <mrow> <mo>(</mo> <mi>d</mi> <mo>(</mo> <mrow> <msub> <mi>f</mi> <mi>p</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>,</mo> <msubsup> <mi>f</mi> <mrow> <mi>n</mi> <mi>p</mi> </mrow> <mi>r</mi> </msubsup> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </mrow> <mo>)</mo> <mo>+</mo> <mi>d</mi> <mo>(</mo> <mrow> <msubsup> <mi>f</mi> <mrow> <mi>n</mi> <mi>p</mi> </mrow> <mi>r</mi> </msubsup> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>,</mo> <msub> <mi>f</mi> <mi>p</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>
其中,4n表示N联体的总个数,fp(i)表示所述启动子基因序列中第i个N联体的概率密度,表示非启动子基因序列中第i个N联体的概率密度,r为1,2,3分别表示外显子、内含子以及3'-UTR, 表示KL散度,表示N联体的对称散度。
3.根据权利要求2所述的方法,其特征在于,所述基于预设优化算法,依据所述第一对称散度从所有N联体中选择最具分辨率的第一N联体集合,依据所述第二对称散度从所有N联体中选择最具分辨率的第二N联体集合,以及依据所述第三对称散度从所有N联体中选择最具分辨力的第三N联体集合,包括:
基于第二预设公式分别确定所述第一N联体集合中的N联体的个数,所述第二N联体集合中N联体的个数以及所述第三N联体集合中N联体的个数;
其中,所述第二预设公式为:
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <munder> <mi>min</mi> <msup> <mi>m</mi> <mi>r</mi> </msup> </munder> </mtd> <mtd> <mrow> <mfrac> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <msup> <mi>m</mi> <mi>r</mi> </msup> </munderover> <msubsup> <mi>d</mi> <mi>i</mi> <mi>r</mi> </msubsup> </mrow> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <msup> <mn>4</mn> <mi>n</mi> </msup> </munderover> <msubsup> <mi>d</mi> <mi>i</mi> <mi>r</mi> </msubsup> </mrow> </mfrac> <mo>-</mo> <mi>&amp;theta;</mi> </mrow> </mtd> </mtr> </mtable> </mfenced>
其中,mr最具分辨力的N联体的个数,θ为预设阈值,且大于0;
根据所述第一N联体集合中N联体的个数以及所有N联体的第一对称散度的大小,从所有N联体中确定第一N联体集合;
根据所述第二N联体集合中N联体的个数以及所有N联体的第二对称散度的大小,从所有N联体中确定第二N联体集合;
根据所述第三N联体集合中N联体的个数以及所有N联体的第三对称散度的大小,从所有N联体中确定第三N联体集合。
4.根据权利要求1所述的方法,其特征在于,所述基于三个分类器的输出结果,判断人类基因训练样本是否为启动子,包括:
当所述三个分类中至少两个分类器的输出结果表明人类基因测试样本为启动子时,确定所述人类基因测试样本为启动子。
5.根据权利要求1所述的方法,其特征在于,所述分类器为SVM分类器。
6.一种人类基因启动子识别系统,其特征在于,包括:
数据采集单元,用于获取人类基因训练样本,其中所述训练样本中启动子基因序列、外显子基因序列、内含子基因序列以及3'-UTR基因序列;
概率密度确定单元,用于计算所有N联体集合中每个N联体在所述启动子基因序列、所述外显子基因序列、所述内含子基因序列以及所述3'-UTR基因序列中概率密度;
对称散度计算单元,用于根据所述概率密度,分别计算所述启动子基因序列中的N联体与所述外显子基因序列的中N联体的第一对称散度,所述启动子基因序列中N联体与所述内含子基因序列中N联体的第二对称散度,以及所述启动子基因序列中N联体与所述3'-UTR基因序列中N联体的第三对称散度;
筛选单元,用于基于预设优化算法,依据所述第一对称散度从所有N联体中选择最具分辨率的第一N联体集合、依据所述第二对称散度从所有N联体中选择最具分辨率的第二N联体集合,以及依据所述第三对称散度从所有N联体中选择最具分辨力的第三N联体集合;
分类器训练单元,用于分别利用所述第一N联体集合、所述第二N联体集合以及所述第三N联体集合,对分类器进行训练,得到启动子-外显子分类器、启动子-内含子分类器以及启动子-3'-UTR分类器;
启动子识别单元,用于利用所述启动子-外显子分类器、所述启动子-内含子分类器以及所述启动子-3'-UTR分类器对人类基因测试样本进行识别,基于三个分类器的输出结果,判断人类基因训练样本是否为启动子。
7.根据权利要求6所述的系统,其特征在于,所述对称散度计算单元具有用于:
根据第一预设公式分别计算N联体的第一对称散度、N联体的第二对称散度以及N联体的第三对称散度;
其中所述第一预设公式为:
<mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <msup> <mn>4</mn> <mi>n</mi> </msup> </munderover> <msubsup> <mi>d</mi> <mi>i</mi> <mi>r</mi> </msubsup> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <msup> <mn>4</mn> <mi>n</mi> </msup> </munderover> <mrow> <mo>(</mo> <mi>d</mi> <mo>(</mo> <mrow> <msub> <mi>f</mi> <mi>p</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>,</mo> <msubsup> <mi>f</mi> <mrow> <mi>n</mi> <mi>p</mi> </mrow> <mi>r</mi> </msubsup> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </mrow> <mo>)</mo> <mo>+</mo> <mi>d</mi> <mo>(</mo> <mrow> <msubsup> <mi>f</mi> <mrow> <mi>n</mi> <mi>p</mi> </mrow> <mi>r</mi> </msubsup> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>,</mo> <msub> <mi>f</mi> <mi>p</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>
其中,4n表示N联体的总个数,fp(i)表示所述启动子基因序列中第i个N联体的概率密度,表示非启动子基因序列中第i个N联体的概率密度,r为1,2,3分别表示外显子、内含子以及3'-UTR, 表示KL散度,表示N联体的对称散度。
8.根据权利要求7所述的系统,其特征在于,所述筛选单元包括:第一计算子单元、第一筛选子单元、第二筛选子单元以及第三筛选子单元;
其中,所述第一计算子单元,用于基于第二预设公式,分别确定所述第一N联体集合中N联体的个数,所述第二N联体集合中N联体的个数以及所述第三N联体集合中N联体的个数的N联体个数确定子单元;
其中,所述第二预设公式为:
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <munder> <mi>min</mi> <msup> <mi>m</mi> <mi>r</mi> </msup> </munder> </mtd> <mtd> <mrow> <mfrac> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <msup> <mi>m</mi> <mi>r</mi> </msup> </munderover> <msubsup> <mi>d</mi> <mi>i</mi> <mi>r</mi> </msubsup> </mrow> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <msup> <mn>4</mn> <mi>n</mi> </msup> </munderover> <msubsup> <mi>d</mi> <mi>i</mi> <mi>r</mi> </msubsup> </mrow> </mfrac> <mo>-</mo> <mi>&amp;theta;</mi> </mrow> </mtd> </mtr> </mtable> </mfenced>
其中,mr最具分辨力的N联体的个数,θ为预设阈值,且大于0;
第一筛选子单元,用于根据所述第一N联体集合中N联体的个数以及所有N联体的第一对称散度的大小,从所有N联体中确定第一N联体集合;
第二筛选子单元,用于根据所述第二N联体集合中N联体的个数以及所有N联体的第二对称散度的大小,从所有N联体中确定第二N联体集合;
第三筛选子单元,用于根据所述第三N联体集合中N联体的个数以及所有N联体的第三对称散度的大小,从所有N联体中确定第三N联体集合。
9.根据权利要求6所述的系统,其特征在于,所述启动子识别单元包括:识别子单元以及判断子单元;
其中所述识别子单元,用于利用所述启动子-外显子分类器、所述启动子-内含子分类器以及所述启动子-3'-UTR分类器对人类基因测试样本进行识别,输出识别结果;
所述判断子单元,用于基于三个分类器的输出结果,判断人类基因训练样本是否为启动子;
其中,当所述三个分类中至少两个分类器的输出结果表明人类基因测试样本为启动子时,所述判断子单元确定所述人类基因测试样本为启动子。
CN201610076071.9A 2016-02-03 2016-02-03 一种人类基因启动子识别方法和系统 Active CN105550538B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610076071.9A CN105550538B (zh) 2016-02-03 2016-02-03 一种人类基因启动子识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610076071.9A CN105550538B (zh) 2016-02-03 2016-02-03 一种人类基因启动子识别方法和系统

Publications (2)

Publication Number Publication Date
CN105550538A CN105550538A (zh) 2016-05-04
CN105550538B true CN105550538B (zh) 2018-06-01

Family

ID=55829725

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610076071.9A Active CN105550538B (zh) 2016-02-03 2016-02-03 一种人类基因启动子识别方法和系统

Country Status (1)

Country Link
CN (1) CN105550538B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110029041B (zh) * 2018-01-12 2022-07-12 浙江安诺优达生物科技有限公司 基因检测芯片区域设计装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870719A (zh) * 2014-04-09 2014-06-18 苏州大学 一种人类基因启动子识别方法及系统
CN104376234A (zh) * 2014-12-03 2015-02-25 苏州大学 启动子识别方法及系统
CN104462870A (zh) * 2015-01-09 2015-03-25 苏州大学 一种人类基因启动子识别方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090264306A1 (en) * 2005-10-27 2009-10-22 Curators Of The University Of Missouri Dna methylation biomarkers in lymphoid and hematopoietic malignancies

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870719A (zh) * 2014-04-09 2014-06-18 苏州大学 一种人类基因启动子识别方法及系统
CN104376234A (zh) * 2014-12-03 2015-02-25 苏州大学 启动子识别方法及系统
CN104462870A (zh) * 2015-01-09 2015-03-25 苏州大学 一种人类基因启动子识别方法及装置

Also Published As

Publication number Publication date
CN105550538A (zh) 2016-05-04

Similar Documents

Publication Publication Date Title
CN101278291B (zh) 高可信度使用数据集的方法和系统
CN106022473B (zh) 一种融合粒子群和遗传算法的基因调控网络构建方法
CN102682226B (zh) 一种核酸测序信息处理系统及方法
CN101882136B (zh) 文本情感倾向性分析方法
Whata et al. Deep learning for SARS COV-2 genome sequences
CN106202999B (zh) 基于不同尺度tuple词频的微生物高通量测序数据分析协议
CN105550715A (zh) 一种基于近邻传播聚类的集成分类器构建方法
Lin et al. Maximal information coefficient for feature selection for clinical document classification
CN101763466B (zh) 基于动态样本选择集成的生物信息识别方法
CN110442709A (zh) 一种基于朴素贝叶斯模型的文本分类方法
CN105808976A (zh) 一种基于推荐模型的miRNA靶基因预测方法
CN104462870A (zh) 一种人类基因启动子识别方法及装置
CN103473416A (zh) 蛋白质相互作用的模型建立方法和装置
CN105550538B (zh) 一种人类基因启动子识别方法和系统
CN106021992A (zh) 位置相关变体识别计算流水线
CN101894297A (zh) 判别设备、判别方法和计算机程序
CN111763738A (zh) 一种特征mRNA表达谱组合及肝癌早期预测方法
CN108595914A (zh) 一种烟草线粒体rna编辑位点高精度预测方法
CN110739028B (zh) 一种基于k-近邻约束矩阵分解的细胞系药物响应预测方法
KR102376212B1 (ko) 신경망 기반의 유전자 선택 알고리즘을 이용한 유전자 발현 마커 선별 방법
CN104834834A (zh) 一种启动子识别系统的构建方法和装置
CN111808965A (zh) 一种特征lincRNA表达谱组合及肾透明细胞癌早期预测方法
CN109256215A (zh) 一种基于自回避随机游走的疾病关联miRNA预测方法及系统
Madhavan A tf-idf based topic model for identifying lncRNAs from genomic background
Li et al. PCA-HPR: A principle component analysis model for human promoter recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant