CN116153397A - 基于蛋白质/基因序列数据的生物物种同源性分析系统 - Google Patents
基于蛋白质/基因序列数据的生物物种同源性分析系统 Download PDFInfo
- Publication number
- CN116153397A CN116153397A CN202111375995.6A CN202111375995A CN116153397A CN 116153397 A CN116153397 A CN 116153397A CN 202111375995 A CN202111375995 A CN 202111375995A CN 116153397 A CN116153397 A CN 116153397A
- Authority
- CN
- China
- Prior art keywords
- amino acid
- protein
- biological species
- sequences
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 345
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 213
- 238000004458 analytical method Methods 0.000 title claims abstract description 35
- 150000001413 amino acids Chemical class 0.000 claims abstract description 155
- 238000012300 Sequence Analysis Methods 0.000 claims abstract description 20
- 239000013604 expression vector Substances 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000004140 cleaning Methods 0.000 claims abstract description 5
- 238000007405 data analysis Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 122
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 84
- 239000011159 matrix material Substances 0.000 claims description 34
- 239000002773 nucleotide Substances 0.000 claims description 18
- 125000003729 nucleotide group Chemical group 0.000 claims description 18
- 238000000034 method Methods 0.000 claims description 16
- 230000009467 reduction Effects 0.000 claims description 15
- 239000000126 substance Substances 0.000 claims description 14
- 125000002924 primary amino group Chemical group [H]N([H])* 0.000 claims description 13
- 239000002253 acid Substances 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000005259 measurement Methods 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 4
- 238000000354 decomposition reaction Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 abstract description 3
- 241000894007 species Species 0.000 description 111
- 230000002068 genetic effect Effects 0.000 description 7
- 238000000605 extraction Methods 0.000 description 4
- 108091028043 Nucleic acid sequence Proteins 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000002265 prevention Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 239000007864 aqueous solution Substances 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 125000003178 carboxy group Chemical group [H]OC(*)=O 0.000 description 2
- 238000013075 data extraction Methods 0.000 description 2
- 238000012850 discrimination method Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241000711573 Coronaviridae Species 0.000 description 1
- 108020004414 DNA Proteins 0.000 description 1
- 102000053602 DNA Human genes 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 101710086987 X protein Proteins 0.000 description 1
- 125000003277 amino group Chemical group 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000002209 hydrophobic effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000003612 virological effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Pure & Applied Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Databases & Information Systems (AREA)
- Analytical Chemistry (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Epidemiology (AREA)
- Genetics & Genomics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Algebra (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于蛋白质/基因序列数据的生物物种同源性分析系统,属于生物物种同源性分析技术领域,解决了现有技术中检测方法成本高且效率低下的问题。本发明的系统包括:数据预处理模块,用于将获取的蛋白质/基因原始数据进行数据清洗,得到蛋白质/基因序列数据;数据分析模块,包括:蛋白质序列分析单元,用于根据蛋白质序列中各氨基酸出现的频次、位置及其物化性质,生成蛋白质序列数值化表示向量;基因序列分析单元,用于获取两组基因序列中最优匹配序列;物种同源性判断模块,用于根据蛋白质序列数值化表示向量/最优匹配序列,计算每两组蛋白质/基因序列数据的距离,根据距离的大小进行蛋白质/基因序列同源性远近的分析。
Description
技术领域
本发明涉及生物物种同源性分析技术领域,尤其涉及一种基于蛋白质/基因序列数据的生物物种同源性分析系统。
背景技术
近年来,各种由病毒引发的疾病逐渐增多,对经济社会产生了重大影响。特别是新冠病毒引发的全球性疫情,导致了世界性的经济衰退和大量的人员伤亡。在这种情况下,快速有效的对引起突发情况的生物物种进行同源性分析和物种判别具有重要作用,及时分析生物物种间的同源性和物种类别,对医药工作者研发对应的药物和抗体、政府相关部门应对疫情防控具有重要意义。
目前,对生物物种的判别和同源性分析,往往是通过进行生物医学实验和提取相关比对特征进行分析,需要耗费大量的时间和高昂的人力、物力、财力成本。在疫情防控时期,时间的持续往往意味着疾病的传播范围更广、防控难度更大、造成的经济社会损失更严重,现有检测方法不仅成本高、而且效率低下。
因此,现有技术中缺少一种基于蛋白质/基因序列数据的生物物种同源性分析系统。
发明内容
鉴于上述的分析,本发明实施例旨在提供一种基于蛋白质/基因序列数据的生物物种同源性分析系统,用以解决现有现有检测方法成本高且效率低下的问题。
一方面,本发明实施例提供了一种基于蛋白质/基因序列数据的生物物种同源性分析系统,包括:
数据预处理模块,用于将获取的蛋白质/基因原始数据进行数据清洗,得到蛋白质/基因序列数据;
数据分析模块,包括:蛋白质序列分析单元和基因序列分析单元;所述蛋白质序列分析单元,用于根据所述蛋白质序列中各氨基酸出现的频次、位置及其物化性质,生成蛋白质序列数值化表示向量;所述基因序列分析单元,用于获取两组基因序列中最优匹配序列;
物种同源性判断模块,用于根据蛋白质序列数值化表示向量/最优匹配序列,计算每两组蛋白质/基因序列数据的距离,根据所述距离的大小进行蛋白质/基因序列同源性远近的分析。
进一步地,所述基因序列分析单元,用于通过迭代方法计算处理两组基因序列的所有可能相似性比较分值,根据所述所有可能相似性比较分值中的最高分值,通过动态规划法回溯寻找最优匹配序列,在所述最优匹配序列的空缺区域插入空缺符号;计算两组所述最优匹配序列中对应位置相同的核苷酸的数量,和对应位置存在空缺区域的数量。
进一步地,所述蛋白质序列分析单元,包括:
氨基酸频次信息计算子单元,用于根据X组生物物种的蛋白质序列中各种氨基酸出现频次,生成X组蛋白质序列的氨基酸频次信息向量;
氨基酸物化性质平均值计算子单元,用于根据X组生物物种的蛋白质序列中各氨基酸的物化性质,生成X组蛋白质序列的氨基酸物化性质平均值向量;
氨基酸位置概率计算子单元,用于根据X组生物物种的蛋白质序列中1~K字氨基酸出现的位置信息,生成X组氨基酸位置概率向量;当K≥2时,对各组所述氨基酸位置概率向量进行降维,得到降维后的氨基酸位置概率向量;k字氨基酸为k个指定连续的氨基酸,其中,1≤k≤K。
进一步地,所述氨基酸位置概率计算子单元,还用于根据所述蛋白质序列中1~K字氨基酸出现的位置信息,生成X组氨基酸位置概率向量,包括:
对每组蛋白质序列均进行如下操作,从而得到X组氨基酸位置概率向量:
对蛋白质序列从1进行排序,并以k字氨基酸中第一个氨基酸对应的排序序号作为k字氨基酸的位置信息值;
将1~K字氨基酸的位置概率向量D1~DK拼接成该组氨基酸的氨基酸位置概率向量V'd,所述氨基酸位置概率向量V'd为M1维向量,其中,M1=20+202+…20k+…20K。
进一步地,所述氨基酸位置概率计算子单元,还用于当K≥2时,对各组所述氨基酸位置概率向量进行降维得到降维后的氨基酸位置概率向量,包括:
将所述氨基酸位置概率向量进行零均值化处理,得到测量矩阵X′;
Vd为降维后得到的M维的氨基酸位置概率向量。
进一步地,氨基酸频次信息计算子单元,还用于:统计蛋白质序列中所述各种1字氨基酸出现的次数,通过各种氨基酸出现次数与所述蛋白质序列中氨基酸总数量的比值,得到所述氨基酸频次信息向量;所述氨基酸频次信息向量Vf,表达为:
Vf=(f1,f2,…,fi…,f20)
进一步地,氨基酸物化性质平均值计算子单元,用于选取各种1字氨基酸的J种物化性质参数值,根据所述各种1字氨基酸物化性质参数值的最大值和最小值,将所述各氨基酸物化性质参数值进行标准化处理,得到各种氨基酸的标准化物化性质参数;
根据各种氨基酸的标准化物化性质参数及各种氨基酸出现的频次信息,计算各物化性质平均值,得到氨基酸物化性质平均值向量;所述氨基酸物化性质平均值向量Vp,表达为:
其中,为标准化物化性质数据,Pji为第i种1字氨基酸的第j种物化性质参数值,Pab为第b种1字氨基酸的第a种物化性质参数值,为蛋白质序列中各物化性质平均值,fi为第i种1字氨基酸出现的频次信息,1≤j≤J。
进一步地,物种同源性判断模块,包括:蛋白质序列物种同源性判断单元和基因序列物种同源性判断单元;
蛋白质序列物种同源性判断单元,用于根据所述两组蛋白质序列之间的距离大小进行蛋白质序列同源性远近的分析:
当某一组未知生物物种蛋白质序列与某一组已知生物物种的蛋白质序列的距离小于蛋白质距离阈值时,则所述未知生物物种与所述已知生物物种同源;
当某一组未知生物物种的蛋白质序列与所有已知生物物种的蛋白质序列中的距离均大于蛋白质阈值时,根据所述未知生物物种的蛋白质序列与所有已知生物物种的蛋白质序列距离中的最短距离,确定所述未知生物物种同源性最近的生物物种;
基因序列物种同源性判断单元,用于根据所述两组基因序列之间的距离大小进行蛋白质序列同源性远近的分析:
当某一组未知生物物种基因序列与某一组已知生物物种的基因序列的距离小于基因距离阈值时,则所述未知生物物种与所述已知生物物种同源;
当某一组未知生物物种的基因序列与所有已知生物物种的基因序列中的距离均大于基因阈值时,根据所述未知生物物种的基因序列与所有已知生物物种的基因序列距离中的最短距离,确定所述未知生物物种同源性最近的生物物种。
进一步地,所述蛋白质序列物种同源性判断单元,用于根据所述氨基酸频次信息向量、氨基酸物化性质平均值向量和氨基酸位置信息向量,构建不同蛋白质序列的数值化表示向量,根据所述不同蛋白质序列的数值化表示向量,计算每两组蛋白质序列S和蛋白质序列T的距离d(S,T),所述两组蛋白质序列之间的距离d(S,T),表达为:
V=(Vf,Vd,Vp)
其中,其中VS[q]和VT[q]分别为蛋白质序列S和蛋白质序列T的数值化表示向量中第q个相对应的元素,1≤q≤Q,Q=20+M+8,M为氨基酸位置概率向量Vd的维数;V为数值化表示向量,Vf为氨基酸频次信息向量,Vd为氨基酸位置信息向量,Vp为氨基酸物化性质平均值向量。
进一步地,基因序列物种同源性判断单元,用于根据两组基因序列的最优匹配序列计算每两组基因序列数据的距离,所述两组基因序列数据的距离,d(S,T),表达为:
math为两组最优匹配序列中对应位置相同的核苷酸的数量,gap为两组最优匹配序列中对应位置空缺区域的数量。
与现有技术相比,本发明至少可实现如下有益效果之一:
1、本发明通过氨基酸出现的频率信息、氨基酸物化性质平均值信息及k字氨基酸位置概率信息的结合,可以全面准确的分析蛋白质序列,通过两条蛋白质序列之间距离的比较,可以更准确进行蛋白质同源性的分析;
2、本发明通过基因序列中最优匹配序列之间的距离,可以准确快速的进行基因序列同源性的分析;
3、本发明通过基于蛋白质/基因序列数据的物种同源性比对分析方法,可以对物种的遗传信息进行快速归类,有利于相关医药工作者采取针对性方案;
4、基于生物蛋白质/基因序列数据的生物物种同源性分析及物种判别方法与系统比传统方法大大减少了实验所需要的的时间,节省了人力、物力和财力成本;
5、在实际工作中,不同机构可以从工作便利性和成本控制方面,选择经济有效且自己熟悉的基因序列或蛋白质序列进行生物物种的同源性分析。
本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为本申请一个实施例所示的基于蛋白质/基因序列数据的生物物种同源性分析系统结构示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
如图1所示,本发明的一个具体实施例,公开了一种基于蛋白质/基因序列数据的生物物种同源性分析系统,包括:
数据预处理模块10,用于将获取的蛋白质/基因原始数据进行数据清洗,得到蛋白质/基因序列数据;
具体地,随着大数据、人工智能、迁移学习等新技术群体的出现和快速发展,生物信息学也步入了高速发展的快车道,通过生物信息学与现有新技术相结合的手段分析物种之间的同源性、判别物种类别,具有“数据化、快速化、准确化”的特点。不管是病毒,还是其他生物,主要的功能实现都是由蛋白质序列和基因序列完成的。而蛋白质的合成是由基因控制的,也就是说蛋白质是遗传信息的显性表达。因此,基于生物序列数据的生物物种同源性分析及物种判别对研究不同物种遗传信息的进化关系和物种类别分类有很大的帮助,同时也是快速识别出疫情源头的关键。
具体地,蛋白质序列是一条由不同氨基酸排列组成的序列,氨基酸种类有20种,不同功能的蛋白质序列中氨基酸的种类数量和排序方式也不一样,最终具有活性,发挥功能,可能还需要经过旋转、折叠等其他的方式,但是都是在生产蛋白质序列基础上实现的。在进行基于蛋白质序列数据的生物物种同源性分析时,先通过多种蛋白质序列提取方法提取生物物种的蛋白质序列原始数据;对蛋白质序列原始数据进行预处理,去除异常数据等操作。可选地,所述蛋白质序列提取包括但不限于通过生物基因转录、化学方式或电磁方式等;所述对原始数据进行预处理包括但不限于指定数据提取、数据清洗和数据特征转化等。更具体地,不同种类的蛋白质序列中各种氨基酸的含量和种类都不相同,氨基酸种类共有20种,分别代表20种氨基酸,其中,1≤i≤20。
具体地,基因序列是使用一串字母表示的真实的或者假设的携带基因信息的DNA分子的一级结构,可能的字母只有A,C,G和T,每个字母代表一种核苷酸。
很多原始数据还有很多乱码、格式混乱、缺少等各种问题,因此,在进行基因序列的生物物种同源性分析时,先通过多种生物基因序列提取方法提取生物物种的基因序列数据,并对原始数据进行预处理,去除异常数据等操作。可选地,生物基因序列提取方法包括但不限于通过生物基因转录、化学的方式和电磁的方式等;对原始数据进行预处理包括但不限于指定数据提取、数据清洗、数据特征转化等。
数据分析模块20,包括:蛋白质序列分析单元和基因序列分析单元;所述蛋白质序列分析单元,用于根据所述蛋白质序列中各氨基酸出现的频次、位置及其物化性质,生成蛋白质序列数值化表示向量;所述基因序列分析单元,用于获取两组基因序列中最优匹配序列;
所述基因序列分析单元,用于通过迭代方法计算处理两组基因序列的所有可能相似性比较分值,根据所述所有可能相似性比较分值中的最高分值,通过动态规划法回溯寻找最优匹配序列,在所述最优匹配序列的空缺区域插入空缺符号;计算两组所述最优匹配序列中对应位置相同的核苷酸的数量,和对应位置存在空缺区域的数量。
更具体地,本实施例中通过Smith-Waterman算法直接对基因数据进行分析:
首先,获取两条需要比对的基因序列,A=a1a2…ai…an,B=b1b2…bj…bm其中,n和m分别为基因序列A和基因序列B的长度;
定义得分准则:
Wk=2k为长度为k的空位罚分;其中,1≤i≤n,1≤j≤m;
即两个位点的核苷酸匹配得3分,不匹配-3分,如果出现一个空位,惩罚分数做一个线性增长惩罚(即出现1个空位惩罚分数为2,出现两个空位惩罚分数为4);
其次,构建得分矩阵H,基因序列A=a1a2…ai…an为横向基因序列,基因序列B=b1b2…bj…bm为纵向向基因序列,该得分矩阵H大小为n+1行、m+1列;
初始化所述得分矩阵H的首行和首列,所述首行H0j和首列Hi0的初始分数为0,1≤i≤n,1≤j≤m;
按从左到右,从上到下的顺序填充得分矩阵H的剩余部分,考虑匹配或不匹配得分(即对角线得分),引入空位(水平或垂直得分),每个位点的得分与该位点上方、左方和左上方的最高得分,如果分值低于0,则该位点分值为0,具体地,得分矩阵H中Hij,表达为:
其中1≤i≤n,1≤j≤m;
最后,通过动态规划的方法,从得分矩阵的最大分值的元素开始回溯直至分数为0的元素,具体地,建立纵向基因序列A′和横向基因序列B′,从得分矩阵的最大分值位点的元素开始,之后比较每个当前得分矩阵位点的左上方、上方和左方三个方向,如果最大值出现在上方,则横向基因序列B′引入一个"-",纵向基因序列A′取该处核苷酸;如果最大值出现在左方,则纵向基因序列A′引入一个"-",横向基因序列B′取该处核苷酸;如果最大值出现在左上方,则不引入"-",纵向基因序列A′和横向基因序列B′均取该处核苷酸。值得注意的是,回溯的过程在回溯的值为0就停止,最后将纵向基因序列A′和横向基因序列B′整个序列翻转,就可以得到基因序列A和基因序列B最终的最优匹配序列。
更具体地,得到两个序列的最优匹配序列后,根据所述两个序列的最优匹配序列,计算两组最优匹配序列中对应位置相同的核苷酸的数量math,gap为两组最优匹配序列中对应位置为空缺区域的数量,更具体地,通过设变量math=0,将上述得到的最优匹配序列中对应的位置核苷酸两两对比,如果相同,则math增加1;
设变量gap=0,如果两组最优匹配序列中任意一组最优匹配序列对应位置的核苷酸为“-”,则找到“-”在两条最优匹配序列中的下一位置:如果两组最优匹配序列对应下一个位置处至少一个序列中核苷酸为“-”,则gap不变,继续找到下一位置的核苷酸,直至进行对比的下一位置的核苷酸均不是空位“-”,则gap增加1;即一个或多个连续的空位构成一个空缺区域,gap为两组最优匹配序列中对应位置空缺区域的数量。
可选地,还可以通过动态规划或Needleman-Wunsch算法,查找未知物种基因序列数据间或者未知物种与已知物种基因序列数据的最长公共子序列,进而判断哪两个物种的同源性较近。
具体地,所述蛋白质序列分析单元,包括:
氨基酸频次信息计算子单元,用于根据X组生物物种的蛋白质序列中各种氨基酸出现频次,生成X组蛋白质序列的氨基酸频次信息向量;
氨基酸频次信息计算子单元,还用于:统计蛋白质序列中所述各种1字氨基酸出现的次数,通过各种氨基酸出现次数与所述蛋白质序列中氨基酸总数量的比值,得到所述氨基酸频次信息向量;所述氨基酸频次信息向量Vf,表达为:
Vf=(f1,f2,…,fi…,f20)
具体地,氨基酸物化性质平均值计算子单元,用于根据X组生物物种的蛋白质序列中各氨基酸的物化性质,生成X组蛋白质序列的氨基酸物化性质平均值向量;不同氨基酸具有多种不同的物化性质,选取其中共同具有的多种物化性质,生成平均值向量物化性质是指物理化学性质,不同氨基酸的物理化学性质是一定的,是已知信息,物化性质有很多,可选地,本实施列中用到了氨基酸的8种物化性质,包括疏水值、分子量、溶解度、比旋度([a]D(H2O))、比旋光度([a]D(HCl))、等电点、氨基酸的羧基在水溶液中的电离状态(pk1(-COOH))和氨基酸的氨基在水溶液中的电离状态(pk2(-NH3))。
更具体地,氨基酸物化性质平均值计算子单元,用于对每组蛋白质序列均进行如下操作,从而得到X组蛋白质序列的氨基酸物化性质平均值向量:选取各种1字氨基酸的J种物化性质参数值,根据所述各种1字氨基酸物化性质参数值的最大值和最小值,将所述各氨基酸物化性质参数值进行标准化处理,得到各种氨基酸的标准化物化性质参数;根据各种氨基酸的标准化物化性质参数及各种氨基酸出现的频次信息,计算各物化性质平均值,得到氨基酸物化性质平均值向量;所述氨基酸物化性质平均值向量Vp,表达为:
其中,为标准化物化性质数据,Pji为第i种1字氨基酸的第j种物化性质参数值,Pab为第b种1字氨基酸的第a种物化性质参数值,为蛋白质序列中各物化性质平均值,fi为第i种1字氨基酸出现的频次信息,1≤j≤J。
具体地,氨基酸位置概率计算子单元,用于根据X组生物物种的蛋白质序列中1~K字氨基酸出现的位置信息,生成X组氨基酸位置概率向量;当K≥2时,对各组所述氨基酸位置概率向量进行降维,得到降维后的氨基酸位置概率向量;k字氨基酸为k个指定连续的氨基酸,其中,1≤k≤K。其中,K字取值可以根据蛋白质序列长度和计算机算力进行自由选择,当K=1时表示只针对20个氨基酸单独出现的情况进行分析;当K=2时,则针对两个氨基酸组合同时出现的情况进行分析,例如,II、IV、VI和IL等400种氨基酸组合;依次类推可以根据K取值不同针对不同氨基酸组合同时出现的20K种情况进行分析。当K值越大需要计算机算力越大,因此可以根据实际的应用平台进行K值的选择。
具体地,所述氨基酸位置概率计算子单元,还用于根据所述蛋白质序列中1~K字氨基酸出现的位置信息,生成X组氨基酸位置概率向量,包括:
对每组蛋白质序列均进行如下操作,从而得到X组氨基酸位置概率向量:
对蛋白质序列从1进行排序,并以k字氨基酸中第一个氨基酸对应的排序序号作为k字氨基酸的位置信息值;
将1~K字氨基酸的位置概率向量D1~DK拼接成该组氨基酸的氨基酸位置概率向量V'd,所述氨基酸位置概率向量V'd,表达为:
V'd=(D1,D2,…Dk…,DK)
其中,k为k字氨基酸中连续氨基酸的数量,1≤k≤K;Dk为k字氨基酸位置概率向量;为第i个k字氨基酸的位置信息占比;为第i种k字氨基酸在蛋白质序列中出现的位置信息值之和,N为蛋白质序列中氨基酸的总数量。
更具体地,所述氨基酸位置概率向量V'd为M1维向量,其中,M1=20+202+…20k+…20K,不同K值的选取是为了在蛋白质序列分析时,收集蛋白质序列中氨基酸排列组合的大量数据后,为蛋白质序列的相似性分析寻找规律,然而大量数据会在一定程度上增加数据分析的工作量,更重要的是,许多数据之间可能存在相关性,从而增加了问题分析的复杂性,因此,在分析过程中,可以通过降维的方式对高维数据进行数据预处理,将高维数据保留下最重要的一些特征,去除噪声和不重要的特征,从而提升数据处理的目的,可以在一定信息损失范围内为我们工程实际节约大量的时间和成本。
所述氨基酸位置概率计算子单元,还用于当K≥2时,对各组所述氨基酸位置概率向量进行降维得到降维后的氨基酸位置概率向量,包括:
将所述氨基酸位置概率向量进行零均值化处理,得到测量矩阵X′;
对所述测量矩阵X′的协方差矩阵S进行特征值分解,得到协方差矩阵S的M1个特征值,并以降序排列,取前M个特征值对应的特征向量组成特征向量矩阵获取与特征向量矩阵对应的氨基酸位置概率向量Vd;可选地,M=72;
Vd为降维后得到的M维的氨基酸位置概率向量,即降维后最终得到的72维的氨基酸位置概率向量。
具体地,以K=2,获取72维氨基酸位置概率向量为例进行说明:
K=2时,则M1=420,即氨基酸位置概率向量V'd为420维向量
对所述1*420测量矩阵X′的协方差矩阵S进行特征值分解,得到协方差矩阵S的M1个特征值,并以降序排列,取前M个特征值对应的特征向量组成特征向量矩阵获取与特征向量矩阵对应的氨基酸位置概率向量Vd;可选地,M=72;其中,协方差矩阵S,表达为:
所述协方差矩阵S对角线上420个值为协方差矩阵S的特征值,即zm,m(1≤m≤420)为协方差矩阵S的特征值,将420个特征值按降序排列,取前72个特征值对应的72个氨基酸位置信息占比,构成降维后得到的M维的氨基酸位置概率向量Vd,即降维后最终得到的72维的氨基酸位置概率向量。
物种同源性判断模块30,用于根据蛋白质序列数值化表示向量/最优匹配序列,计算每两组蛋白质/基因序列数据的距离,根据所述距离的大小进行蛋白质/基因序列同源性远近的分析。
更具体地,物种同源性判断模块30,包括:蛋白质序列物种同源性判断单元和基因序列物种同源性判断单元;
蛋白质序列物种同源性判断单元,用于根据所述两组蛋白质序列之间的距离大小进行蛋白质序列同源性远近的分析:可选地,可通过欧氏距离、曼哈顿距离、切比雪夫距离或遗传距离等计算方式进行两组蛋白质序列之间距离计算。
具体的,本发明选择采用欧式距离计算两组蛋白质序列之间的距离。
更具体地,所述蛋白质序列物种同源性判断单元,用于根据所述氨基酸频次信息向量、氨基酸物化性质平均值向量和氨基酸位置信息向量,构建不同蛋白质序列的数值化表示向量,根据所述不同蛋白质序列的数值化表示向量,计算每两组蛋白质序列S和蛋白质序列T的距离d(S,T),所述两组蛋白质序列之间的距离d(S,T),表达为:
V=(Vf,Vd,Vp)
其中,其中VS[q]和VT[q]分别为蛋白质序列S和蛋白质序列T的数值化表示向量中第q个相对应的元素,1≤q≤Q,Q=20+M+8,M为氨基酸位置概率向量Vd的维数;V为数值化表示向量,Vf为氨基酸频次信息向量,Vd为氨基酸位置信息向量,Vp为氨基酸物化性质平均值向量。
具体地,当某一组蛋白质序列与至少两组其他物种的蛋白质序列进行对比的距离区分不明显时,则进行下一步处理,即分别将1~K字氨基酸的位置概率向量D1~DK拼接成该组氨基酸的氨基酸位置概率向量V'd进行二次降维,选取前20维的位置概率向量与氨基酸频次信息向量和氨基酸物化性质平均值向量组成第二蛋白质序列数字化表示向量,再分别计算蛋白质序列之间的距离。
具体地,X组中生物物种的蛋白质序列中包括x1组未知生物物种的蛋白质序列和x2组已知生物物种的蛋白质序列,其中X=x1+x2;计算x1组未知生物物种的蛋白质序列中每一组蛋白质序列与所述x2组已知生物物种的蛋白质序列中所有蛋白质序列的距离,通过每一组未知生物物种的蛋白质序列与所有已知生物物种的蛋白质序列之间的距离,进行未知生物蛋白质序列同源性远近的分析;
更具体地,当某一组未知生物物种蛋白质序列与某一组已知生物物种的蛋白质序列的距离小于蛋白质距离阈值时,则所述未知生物物种与所述已知生物物种同源;
当某一组未知生物物种的蛋白质序列与所有已知生物物种的蛋白质序列中的距离均大于蛋白质阈值时,根据所述未知生物物种的蛋白质序列与所有已知生物物种的蛋白质序列距离中的最短距离,确定所述未知生物物种同源性最近的生物物种。
当多组未知生物物种蛋白质序列均与同一组已知生物物种蛋白质序列同源,或均与已知生物物种蛋白质序列同源性最近,则可将多组未知生物物种蛋白质序列划分为一组,方便进行后续分析。
更具体地,基因序列物种同源性判断单元,用于根据所述两组基因序列之间的距离大小进行蛋白质序列同源性远近的分析:
基因序列物种同源性判断单元,用于根据两组基因序列的最优匹配序列计算每两组基因序列数据的距离,所述两组基因序列数据的距离,d(S,T),表达为:
math为两组最优匹配序列中对应位置相同的核苷酸的数量,math>1,gap为两组最优匹配序列中对应位置空缺区域的数量。
当某一组未知生物物种基因序列与某一组已知生物物种的基因序列的距离小于基因距离阈值时,则所述未知生物物种与所述已知生物物种同源;
当某一组未知生物物种的基因序列与所有已知生物物种的基因序列中的距离均大于基因阈值时,根据所述未知生物物种的基因序列与所有已知生物物种的基因序列距离中的最短距离,确定所述未知生物物种同源性最近的生物物种。
与现有技术相比,本发明提出的基于蛋白质序列数据的生物物种同源性分析方法,首先通过氨基酸出现的频率信息、氨基酸物化性质平均值信息及k字氨基酸位置概率信息的结合,可以全面准确的分析蛋白质序列,通过两条蛋白质序列之间距离的比较,可以更准确进行蛋白质同源性的分析;通过基因序列中最优匹配序列之间的距离,可以准确快速的进行基因序列同源性的分析;其次,本发明通过基于蛋白质/基因序列数据的物种同源性比对分析方法,可以对物种的遗传信息进行快速归类,有利于相关医药工作者采取针对性方案;最后,基于生物蛋白质/基因序列数据的生物物种同源性分析及物种判别方法与系统比传统方法大大减少了实验所需要的的时间,节省了人力、物力和财力成本。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种基于蛋白质/基因序列数据的生物物种同源性分析系统,其特征在于,包括:
数据预处理模块,用于将获取的蛋白质/基因原始数据进行数据清洗,得到蛋白质/基因序列数据;
数据分析模块,包括:蛋白质序列分析单元和基因序列分析单元;所述蛋白质序列分析单元,用于根据所述蛋白质序列中各氨基酸出现的频次、位置及其物化性质,生成蛋白质序列数值化表示向量;所述基因序列分析单元,用于获取两组基因序列中最优匹配序列;
物种同源性判断模块,用于根据蛋白质序列数值化表示向量/最优匹配序列,计算每两组蛋白质/基因序列数据的距离,根据所述距离的大小进行蛋白质/基因序列同源性远近的分析。
2.根据权利要求1所述的基于蛋白质/基因序列数据的生物物种同源性分析系统,其特征在于,
所述基因序列分析单元,用于通过迭代方法计算处理两组基因序列的所有可能相似性比较分值,根据所述所有可能相似性比较分值中的最高分值,通过动态规划法回溯寻找最优匹配序列,在所述最优匹配序列的空缺区域插入空缺符号;计算两组所述最优匹配序列中对应位置相同的核苷酸的数量,和对应位置存在空缺区域的数量。
3.根据权利要求1所述的基于蛋白质/基因序列数据的生物物种同源性分析系统,其特征在于,所述蛋白质序列分析单元,包括:
氨基酸频次信息计算子单元,用于根据X组生物物种的蛋白质序列中各种氨基酸出现频次,生成X组蛋白质序列的氨基酸频次信息向量;
氨基酸物化性质平均值计算子单元,用于根据X组生物物种的蛋白质序列中各氨基酸的物化性质,生成X组蛋白质序列的氨基酸物化性质平均值向量;
氨基酸位置概率计算子单元,用于根据X组生物物种的蛋白质序列中1~K字氨基酸出现的位置信息,生成X组氨基酸位置概率向量;当K≥2时,对各组所述氨基酸位置概率向量进行降维,得到降维后的氨基酸位置概率向量;k字氨基酸为k个指定连续的氨基酸,其中,1≤k≤K。
4.根据权利要求3所述的基于蛋白质/基因序列数据的生物物种同源性分析系统,其特征在于,
所述氨基酸位置概率计算子单元,还用于根据所述蛋白质序列中1~K字氨基酸出现的位置信息,生成X组氨基酸位置概率向量,包括:
对每组蛋白质序列均进行如下操作,从而得到X组氨基酸位置概率向量:
对蛋白质序列从1进行排序,并以k字氨基酸中第一个氨基酸对应的排序序号作为k字氨基酸的位置信息值;
将1~K字氨基酸的位置概率向量D1~DK拼接成该组氨基酸的氨基酸位置概率向量V′d,所述氨基酸位置概率向量V′d为M1维向量,其中,M1=20+202+…20k+…20K。
7.根据权利要求3所述的基于蛋白质/基因序列数据的生物物种同源性分析系统,其特征在于,
氨基酸物化性质平均值计算子单元,用于选取各种1字氨基酸的J种物化性质参数值,根据所述各种1字氨基酸物化性质参数值的最大值和最小值,将所述各氨基酸物化性质参数值进行标准化处理,得到各种氨基酸的标准化物化性质参数;
根据各种氨基酸的标准化物化性质参数及各种氨基酸出现的频次信息,计算各物化性质平均值,得到氨基酸物化性质平均值向量;所述氨基酸物化性质平均值向量Vp,表达为:
8.根据权利要求1所述的基于蛋白质/基因序列数据的生物物种同源性分析系统,其特征在于,
物种同源性判断模块,包括:蛋白质序列物种同源性判断单元和基因序列物种同源性判断单元;
蛋白质序列物种同源性判断单元,用于根据所述两组蛋白质序列之间的距离大小进行蛋白质序列同源性远近的分析:
当某一组未知生物物种蛋白质序列与某一组已知生物物种的蛋白质序列的距离小于蛋白质距离阈值时,则所述未知生物物种与所述已知生物物种同源;
当某一组未知生物物种的蛋白质序列与所有已知生物物种的蛋白质序列中的距离均大于蛋白质阈值时,根据所述未知生物物种的蛋白质序列与所有已知生物物种的蛋白质序列距离中的最短距离,确定所述未知生物物种同源性最近的生物物种;
基因序列物种同源性判断单元,用于根据所述两组基因序列之间的距离大小进行蛋白质序列同源性远近的分析:
当某一组未知生物物种基因序列与某一组已知生物物种的基因序列的距离小于基因距离阈值时,则所述未知生物物种与所述已知生物物种同源;
当某一组未知生物物种的基因序列与所有已知生物物种的基因序列中的距离均大于基因阈值时,根据所述未知生物物种的基因序列与所有已知生物物种的基因序列距离中的最短距离,确定所述未知生物物种同源性最近的生物物种。
9.根据权利要求8所述的基于蛋白质/基因序列数据的生物物种同源性分析系统,其特征在于,
所述蛋白质序列物种同源性判断单元,用于根据所述氨基酸频次信息向量、氨基酸物化性质平均值向量和氨基酸位置信息向量,构建不同蛋白质序列的数值化表示向量,根据所述不同蛋白质序列的数值化表示向量,计算每两组蛋白质序列S和蛋白质序列T的距离d(S,T),所述两组蛋白质序列之间的距离d(S,T),表达为:
V=(Vf,Vd,Vp)
其中,其中VS[q]和VT[q]分别为蛋白质序列S和蛋白质序列T的数值化表示向量中第q个相对应的元素,1≤q≤Q,Q=20+M+8,M为氨基酸位置概率向量Vd的维数;V为数值化表示向量,Vf为氨基酸频次信息向量,Vd为氨基酸位置信息向量,Vp为氨基酸物化性质平均值向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111375995.6A CN116153397A (zh) | 2021-11-19 | 2021-11-19 | 基于蛋白质/基因序列数据的生物物种同源性分析系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111375995.6A CN116153397A (zh) | 2021-11-19 | 2021-11-19 | 基于蛋白质/基因序列数据的生物物种同源性分析系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116153397A true CN116153397A (zh) | 2023-05-23 |
Family
ID=86356863
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111375995.6A Pending CN116153397A (zh) | 2021-11-19 | 2021-11-19 | 基于蛋白质/基因序列数据的生物物种同源性分析系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116153397A (zh) |
-
2021
- 2021-11-19 CN CN202111375995.6A patent/CN116153397A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Banerjee et al. | Evolutionary rough feature selection in gene expression data | |
Sinha et al. | A probabilistic method to detect regulatory modules | |
Liu et al. | Selecting informative genes with parallel genetic algorithms in tissue classification | |
Yang | Machine learning approaches to bioinformatics | |
Birney | Hidden Markov models in biological sequence analysis | |
US7831392B2 (en) | System and process for validating, aligning and reordering one or more genetic sequence maps using at least one ordered restriction map | |
Babu et al. | A comparative study of gene selection methods for cancer classification using microarray data | |
US7047137B1 (en) | Computer method and apparatus for uniform representation of genome sequences | |
CN113823356A (zh) | 一种甲基化位点识别方法及装置 | |
US20040153307A1 (en) | Discriminative feature selection for data sequences | |
CN116153397A (zh) | 基于蛋白质/基因序列数据的生物物种同源性分析系统 | |
CN114861940B (zh) | 预测植物lncRNA中sORFs的贝叶斯优化集成学习方法 | |
CN114627964B (zh) | 一种基于多核学习预测增强子及其强度分类方法及分类设备 | |
CN113066522B (zh) | 一种基于模块化识别的基因网络推理方法 | |
Berryman et al. | Review of signal processing in genetics | |
Sohail et al. | Selection of optimal texture descriptors for retrieving ultrasound medical images | |
Gill et al. | Biological sequence matching using fuzzy logic | |
Moyer et al. | Motif identification using CNN-based pairwise subsequence alignment score prediction | |
Lalrinmawii et al. | An Overview of the Workflow of Next-Generation Sequencing Data Analysis | |
Khobragade et al. | A classification of microarray gene expression data using hybrid soft computing approach | |
AU2021103783A4 (en) | Drug-Target Interaction Prediction Method Combining FLTP and RF | |
Gorban et al. | Statistical approaches to automated gene identification without teacher | |
Kabli | Complex biological data mining and knowledge discovery | |
Zhu et al. | DecoyFinder: Identification of Contaminants in Sets of Homologous RNA Sequences | |
Lee | Dna motif discovery using clustering techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |