CN118038991A - 基因序列处理方法、系统、电子设备及存储介质 - Google Patents
基因序列处理方法、系统、电子设备及存储介质 Download PDFInfo
- Publication number
- CN118038991A CN118038991A CN202410441360.9A CN202410441360A CN118038991A CN 118038991 A CN118038991 A CN 118038991A CN 202410441360 A CN202410441360 A CN 202410441360A CN 118038991 A CN118038991 A CN 118038991A
- Authority
- CN
- China
- Prior art keywords
- sequence
- base
- simulated
- gene sequence
- gene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 171
- 238000003672 processing method Methods 0.000 title claims abstract description 8
- 238000013518 transcription Methods 0.000 claims abstract description 92
- 230000035897 transcription Effects 0.000 claims abstract description 92
- 238000013519 translation Methods 0.000 claims abstract description 72
- 238000000034 method Methods 0.000 claims abstract description 40
- 238000012545 processing Methods 0.000 claims abstract description 31
- 230000002068 genetic effect Effects 0.000 claims abstract description 26
- 238000004458 analytical method Methods 0.000 claims abstract description 16
- 230000008859 change Effects 0.000 claims abstract description 10
- 108091081024 Start codon Proteins 0.000 claims description 19
- 108020004705 Codon Proteins 0.000 claims description 18
- 238000005516 engineering process Methods 0.000 claims description 15
- 108091026890 Coding region Proteins 0.000 claims description 14
- 108091092724 Noncoding DNA Proteins 0.000 claims description 12
- 230000000295 complement effect Effects 0.000 claims description 9
- 238000004891 communication Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 7
- 108700039691 Genetic Promoter Regions Proteins 0.000 claims description 5
- 108700007698 Genetic Terminator Regions Proteins 0.000 claims description 4
- 230000014621 translational initiation Effects 0.000 claims description 3
- 230000014509 gene expression Effects 0.000 abstract description 8
- 230000008569 process Effects 0.000 abstract description 7
- 230000006870 function Effects 0.000 description 7
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 150000001413 amino acids Chemical group 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 108091092195 Intron Proteins 0.000 description 2
- 108091028043 Nucleic acid sequence Proteins 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 108020004414 DNA Proteins 0.000 description 1
- 108700024394 Exon Proteins 0.000 description 1
- FFEARJCKVFRZRR-BYPYZUCNSA-N L-methionine Chemical compound CSCC[C@H](N)C(O)=O FFEARJCKVFRZRR-BYPYZUCNSA-N 0.000 description 1
- 108091027974 Mature messenger RNA Proteins 0.000 description 1
- 108700026244 Open Reading Frames Proteins 0.000 description 1
- 108091008109 Pseudogenes Proteins 0.000 description 1
- 102000057361 Pseudogenes Human genes 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 229930182817 methionine Natural products 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000005030 transcription termination Effects 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了基因序列处理方法、系统、电子设备及存储介质,涉及数据处理技术领域,包括获取基因序列,计算GC含量;查找基因结构,输出结构信息;对基因序列进行处理,输出模拟转录链,获取遗传密码子表,输出碱基排列以及排列名;对模拟转录链进行替换,输出模拟翻译链;对基因序列进行格式变化,存储至数据库;本发明用于解决现有技术中因缺少对基因序列的基因表达进行处理及分析,从而导致在后续对基因序列的功能进行分析时,仍需对基因序列进行基因表达的处理,分析处理不够全面细致,分析的效率降低的问题。
Description
技术领域
本发明涉及数据处理技术领域,具体为基因序列处理方法、系统、电子设备及存储介质。
背景技术
基因组序列比对技术,是将测序得到的read与已有的参考基因组进行比对,找到read与参考基因组匹配的对应位置,继而得到序列比对的详细结果。
现有的用于基因序列处理的改进,通常是在对基因序列进行同源比对时对比对结果进行分析,提高比对结果的精准性,比如在公开号为CN108920902A的专利中,公开了一种基因序列处理方法及其相关设备,该方案通过FPGA能够多路并行地进行基因比对,通过将需要匹配的基因序列发送至FPGA,并在FPGA中进行比对,若第一基因序列与参考基因序列完全匹配,FPGA将第一基因序列及第一基因序列的匹配结果发送至CPU;但是上述方法中缺少对基因序列进行进一步的转录以及翻译处理,这会导致在对基因序列进行处理并存储后,后续若需要对基因序列的功能进行分析,仍需对处理后的基因序列进行基因表达的处理,影响对基因序列进行基因表达分析的效率,鉴于此,有必要对现有的基因序列处理进行改进。
发明内容
本发明旨在至少在一定程度上解决现有技术中的技术问题之一,通过对基因序列处理进行改进,用于解决现有技术中因缺少对基因序列的基因表达进行处理及分析,从而导致在后续对基因序列的功能进行分析时,仍需对基因序列进行基因表达的处理,分析处理不够全面细致,分析的效率降低的问题。
为实现上述目的,第一方面,本申请提供基因序列处理方法,包括:
步骤S1,获取基因序列,所述基因序列包括四种碱基;计算基因序列的碱基的GC含量,对基因序列利用同源比对技术获取参考序列,计算参考序列的GC含量;
步骤S2,对GC含量进行计算分析,基于分析结果查找基因序列的基因结构,输出结构信息;
步骤S3,基于结构信息对基因序列进行处理,输出模拟转录链,所述模拟转录链包括不同于基因序列的四种碱基;获取遗传密码子表,基于遗传密码子表输出碱基排列以及排列名;
步骤S4,基于排列名对模拟转录链进行滑动查询,基于碱基排列、排列名以及滑动查询的结果对模拟转录链进行替换,输出模拟翻译链;
步骤S5,对基因序列进行格式变化,输出图片序列,对图片序列进行标注,将标注后的图片序列以及模拟翻译链存储至数据库;
进一步地,所述步骤S1包括如下子步骤:
步骤S101,利用物联网设备获取基因序列,所述基因序列包括A、C、G以及T四种碱基;
步骤S102,获取基因序列的碱基总数,计算碱基总数中种类为C以及G的碱基的总数,标记为GC总数;将碱基总数减去GC总数,标记为AT总数;计算AT总数与GC总数的比值,标记为第一GC含量;
步骤S103,对基因序列利用同源比对技术,获取多个参考序列;
步骤S104,计算每个参考序列的GC含量,标记为第二GC含量;
进一步地,所述步骤S2包括如下子步骤:
步骤S201,计算第一GC含量与第二GC含量的差值的绝对值,标记为选择差值;
步骤S202,获取数值最小的选择差值,标记为最小差值,获取最小差值对应的参考序列,标记为查找序列;
步骤S203,以查找序列为索引,从生物信息学数据库中进行查询,输出查找序列的基因名以及基因结构,所述基因结构包括编码区以及非编码区;所述非编码区包括启动子区间以及终止子区间;所述编码区包括外显子以及内含子;所述非编码区以及编码区均为由四种碱基组合成的区间;
进一步地,所述步骤S3包括如下子步骤:
步骤S3011,对基因序列进行一级模拟转录,所述一级模拟转录包括:将启动子的区间最后一位碱基标记为起始碱基;将终止子的区间的最后一位碱基标记为终止碱基;将位于起始碱基至终止碱基的区间内的碱基标记为转录碱基;
步骤S3012,对转录碱基按碱基互补配对原则进行转录,输出一级模拟链;
步骤S3013,对一级模拟链进行二级模拟转录,所述二级模拟转录包括:对每个内含子按碱基互补配对原则进行转录,输出切除区间。
进一步地,步骤S3013包括如下子步骤,步骤S30131,将一级模拟链中碱基排序与切除区间中碱基排序相同的区间进行删除处理;
步骤S30132,将一级模拟链中由终止子区间转录而成的区间进行删除处理;
步骤S30133,将剩余的一级模拟链标记为模拟转录链,输出模拟转录链。
进一步地,所述步骤S3还包括如下子步骤:
步骤S3021,利用网络通信获取遗传密码子表,所述遗传密码子表包括多种碱基排列以及与碱基排列对应的排列名;所述排列名包括终止密码子、起始密码子以及多个字母缩写;所述起始密码子与单个字母缩写共用一个碱基排列;
步骤S3022,输出碱基排列以及排列名;
进一步地,所述步骤S4包括如下子步骤:
步骤S4011,获取起始密码子的碱基排列,获取碱基排列中的碱基数,标记为窗口数;设置窗口大小为窗口数的滑动窗口;
步骤S4012,将滑动窗口设置于模拟转录链最左侧;
步骤S4013,判断滑动窗口中碱基排列是否与起始密码子的碱基排列相同,当不相同时,将滑动窗口向右平移一个碱基,重复执行步骤S4013,当相同时,进入步骤S4014;
步骤S4014,当相同时,将滑动窗口中最右侧的碱基标记为翻译始碱基;获取终止密码子的碱基排列;
步骤S4015,将步骤S4014中的滑动窗口向右侧平移窗口数个碱基;
步骤S4016,判断滑动窗口中碱基排列是否与终止密码子的碱基排列相同,当不相同时,将滑动窗口向右平移窗口数个碱基,重复执行步骤S4016,当相同时,进入步骤S4017;
步骤S4017,当相同时,将滑动窗口中最左侧的碱基标记为翻译终碱基;
进一步地,所述步骤S4还包括如下子步骤:
步骤S4021,将滑动窗口设置于翻译始碱基右侧;
步骤S4022,将滑动窗口中的碱基排列替换为对应的字母缩写;
步骤S4023,将滑动窗口向右移动窗口数个碱基,判断窗口右侧是否为翻译终碱基,当不为翻译终碱基时,重复执行步骤S4022以及步骤S4023;当为翻译终碱基时,执行一次步骤S4022,并进入步骤S4024;
步骤S4024,设置左端点为翻译始碱基,右端点为翻译终碱基的开区间,将区间内替换为字母缩写的模拟转录链标记为模拟翻译链,输出模拟翻译链;
进一步地,所述步骤S5包括如下子步骤:
步骤S501,设置字符大小为第一字号,行的最大字符数为第一数量的文本框,将基因序列的碱基置于文本框内,对文本框进行截图,标记为图片序列;
步骤S502,基于基因结构对图片序列进行标注;
步骤S503,将图片序列以及模拟翻译链存储至数据库。
第二方面,本申请还提供基因序列处理系统,包括序列获取模块、序列转录模块、序列翻译模块以及序列存储模块;所述序列获取模块用于获取基因序列,计算基因序列的GC含量;还用于对基因序列利用同源比对技术获取参考序列,计算参考序列的GC含量;
所述序列转录模块用于对GC含量进行计算分析,查找基因序列的基因结构,输出结构信息;还用于对基因序列进行处理,输出模拟转录链;所述序列转录模块还用于获取遗传密码子表,基于遗传密码子表输出排列名;
所述序列翻译模块用于基于排列名对模拟转录链进行滑动查询,并对模拟转录链进行替换,输出模拟翻译链;
所述序列存储模块用于对基因序列进行格式变化,输出图片序列;还用于对图片序列进行标注,将标注后的图片序列以及模拟翻译链进行存储。
第三方面,本申请提供一种电子设备,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如上所述方法中的步骤。
第四方面,本申请提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,运行如上所述方法中的步骤。
本发明的有益效果:本发明通过计算基因序列的GC含量,获取参考序列,计算参考序列的GC含量;选择与基因序列GC含量最接近的参考序列进行计算分析,并查找基因序列的基因结构,输出结构信息;这样的好处在于,不同物种的GC含量具有特异性,通过GC含量来选择参考序列,能够提高得到的基因结构的准确性;
本发明还通过对基因序列进行处理,输出模拟转录链;再获取遗传密码子表,输出碱基排列以及排列名;再基于碱基排列以及排列名对模拟转录链进行替换,输出模拟翻译链;最后将基因序列进行格式变化,将图片序列以及模拟翻译链进行存储;这样的好处在于,基于基因结构能够准确的对基因序列进行转录以及翻译,通过将基因序列转换为图片格式,并对图片序列进行标注,能够减小基因序列的数据大小;通过存储模拟翻译链,能够得到基因序列经过基因表达后的氨基酸序列,提高了对基因序列处理的智能性以及对基因序列进行后续分析的高效性。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
图1为本发明的系统的原理框图;
图2为本发明的基因结构的示意图;
图3为本发明的一级模拟链示意图;
图4为本发明的图片序列标注的示意图;
图5为本发明的方法的步骤流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1,请参阅图1所示,本发明提供基因序列处理系统,包括序列获取模块、序列转录模块、序列翻译模块以及序列存储模块;
序列获取模块用于获取基因序列,计算基因序列的GC含量;还用于对基因序列利用同源比对技术获取参考序列,计算参考序列的GC含量;
序列获取模块配置有序列获取策略,序列获取策略包括:
利用物联网设备获取基因序列,基因序列包括A、C、G以及T四种碱基;
获取基因序列的碱基总数,计算GC总数以及AT总数;计算AT总数与GC总数的比值,标记为第一GC含量;
利用同源比对技术,获取多个参考序列,同源比对技术包括但不限于Blast以及Bowtie技术;
计算参考序列的第二GC含量;
需要说明的是,利用物联网设备获取的基因序列可以为公共数据库中存储的或由科研项目获取得到的;当为由科研项目得到的人类的基因序列时,该基因序列应为受测人员授权后再进行实验获取的,且用于存储的数据库设置有访问权限,仅限科研人员在不会将基因序列泄露的前提下进行访问;
同源比对技术为:利用已知物种的基因组序列作为参考,使用比对算法,如BLAST、Bowtie等算法,将给定的基因序列与已知物种的基因组序列进行比对;
序列转录模块用于对GC含量进行计算分析,查找基因序列的基因结构,输出结构信息;还用于对基因序列进行处理,输出模拟转录链;模拟转录链包括不同于基因序列的四种碱基,序列转录模块还用于获取遗传密码子表,基于遗传密码子表输出排列名;
序列转录模块配置有序列确认策略,序列确认策略包括:
计算第一GC含量与第二GC含量的差值的绝对值,标记为选择差值;
获取数值最小的选择差值,标记为最小差值,获取最小差值对应的参考序列,标记为查找序列;
以查找序列为索引,从生物信息学数据库中进行查询,输出查找序列的基因名以及基因结构,基因结构包括编码区以及非编码区;非编码区包括启动子区间以及终止子区间;编码区包括外显子以及内含子;非编码区以及编码区均为由四种碱基组合成的区间;
需要说明的是,一种生物的基因组或特定DNA、RNA片段有特定的GC含量,即GC含量具有特异性,进而选择差值越小则与基因序列越相似;将选择差值最小的参考序列标记为查找序列,能够确保基因序列与查找序列从属于同一物种的基因组;
请参阅图2以及图3所示,图2中,B1至B3以及B5至B7为非编译区间,B4为编译区间,包括外显子以及内含子;B2为启动子区间,B6为终止子区间;D1至D4分别对应图2中经过一级模拟转录后的B3至B6;D1为起始密码子所在的区间,D2为编译区间,包括外显子以及内含子,D3为终止密码子所在的区间;图2以及图3中的*表示A、C、G、U其中随机一个,i表示随机的正整数;
序列转录模块还配置有模拟转录策略,模拟转录策略包括:
对基因序列进行一级模拟转录,一级模拟转录包括:将启动子的区间最后一位碱基标记为起始碱基;将终止子的区间的最后一位碱基标记为终止碱基;将位于起始碱基至终止碱基的区间内的碱基标记为转录碱基;
对转录碱基按碱基互补配对原则进行转录,输出一级模拟链;
需要说明的是,一级模拟转录是模拟基因序列在进行转录时生成未经修剪的RNA的过程,具体为对起始碱基(不含)至终止碱基(包含)内的碱基进行转录;碱基互补配对原则具体为将基因序列中的A替换为U,T替换为A,G替换为C,C替换为G;需要注意的是,此处为模拟转录,为了减小运算压力选择直接对基因序列进行替换,因此与实际生活中基因序列的转录过程存在差异,但转录结果相同;
对一级模拟链进行二级模拟转录,二级模拟转录包括:对每个内含子按碱基互补配对原则进行转录,输出切除区间;
将一级模拟链中碱基排序与切除区间中碱基排序相同的区间进行删除处理;
将一级模拟链中由终止子区间转录而成的区间进行删除处理;
将剩余的一级模拟链标记为模拟转录链,输出模拟转录链;
需要说明的是,二级模拟转录是模拟对一级模拟转录生成的未经修剪的RNA进行修剪的过程,具体为对编译区的内含子区间以及非编译区的终止子区间进行删除处理;在实际中,内含子是阻断基因的线性表达的一段DNA序列,不参与RNA的翻译过程,在未经修剪的RNA中,经过剪接被去除,最终不存在于成熟RNA分子中,因此需要对内含子区间进行删除处理;
图2中,基因序列需要完整读取启动子区间内的碱基才会开始一级模拟转录,因此B1以及B2区域不会出现在一级模拟链中;基因序列进行一级模拟转录时,需要完整读取及转录终止子区间才会停止转录,因此终止子区间会出现在一级模拟链中,并通过二级模拟转录将终止子去区间进行修剪;由于转录终止,B7区间不会出现在一级模拟链中;
序列转录模块还配置有密码子获取策略,密码子获取策略包括:
利用网络通信获取遗传密码子表,遗传密码子表包括多种碱基排列以及与碱基排列对应的排列名,输出碱基排列以及排列名;排列名包括终止密码子、起始密码子以及多个字母缩写;起始密码子与单个字母缩写共用一个碱基排列;
需要说明的是,碱基排列为AUG的为起始密码子,同时对应Met的字母缩写,Met为蛋氨酸的缩写;碱基排列为UAA、UAG以及UGA的为终止密码子;其余的字母缩写为氨基酸的三字母缩写;
序列翻译模块用于基于排列名对模拟转录链进行滑动查询,并对模拟转录链进行替换,输出模拟翻译链;
序列翻译模块配置有序列翻译策略,序列翻译策略包括:
获取起始密码子的碱基排列,获取碱基排列中的碱基数,标记为窗口数;设置窗口大小为窗口数的滑动窗口;
在具体实施时,碱基排列中的碱基数为3,表示由三个碱基的排列决定一个氨基酸,因此窗口数设置为3,在后续的步骤中滑动窗口移动窗口数,对应移动一个氨基酸;
将滑动窗口设置于模拟转录链最左侧;
开始循环,循环1,判断滑动窗口中碱基排列是否与起始密码子的碱基排列相同,当不相同时,将滑动窗口向右平移一个碱基,重复循环1,当相同时,将滑动窗口中最右侧的碱基标记为翻译始碱基;获取终止密码子的碱基排列;结束循环;
将循环1中的结束循环时的滑动窗口向右侧平移窗口数个碱基;
开始循环,判断滑动窗口中碱基排列是否与终止密码子的碱基排列相同,当不相同时,将滑动窗口向右平移窗口数个碱基,重复循环;当相同时,将滑动窗口中最左侧的碱基标记为翻译终碱基;结束循环;
将滑动窗口设置于翻译始碱基右侧;
开始循环:循环2,将滑动窗口中的碱基排列替换为对应的字母缩写;
循环3,将滑动窗口向右移动窗口数个碱基,判断窗口右侧是否为翻译终碱基,当不为翻译终碱基时,重复循环2以及循环3;当为翻译终碱基时,执行一次循环2,结束循环;
设置左端点为翻译始碱基,右端点为翻译终碱基的开区间,将区间内替换为字母缩写的模拟转录链标记为模拟翻译链,输出模拟翻译链;
请参阅图4所示,图4中,E1为内含子区间,E2为启动子区间,E3为终止子区间,E4为编码区;需要说明的是,图4仅作为对图片序列进行标注的参考,图中的碱基不具有实际意义;
序列存储模块用于对基因序列进行格式变化,输出图片序列;还用于对图片序列进行标注,将标注后的图片序列以及模拟翻译链进行存储;
序列存储模块配置有格式转变策略,格式转变策略包括:
设置字符大小为第一字号,行的最大字符数为第一数量的文本框,将基因序列的碱基置于文本框内,对文本框进行截图,标记为图片序列;
基于基因结构对图片序列进行标注;
序列存储模块还配置有序列存储策略,序列存储策略包括:
将图片序列以及模拟翻译链存储至数据库;
在具体实施时,第一字号设置为四号,第一数量设置为30;第一字号设置为四号是为了使后续的截图更加清晰,第一字号与第一数量呈负相关关系,为了不影响后续获取图片后的阅读,因此第一字号最小不宜超过小五号;为了避免图片过大,第一字号最大不宜超过小二号;
对图片序列进行标注包括标注启动子区间、终止子区间、编译区以及内含子区间;
需要说明的是,存储图片序列以及模拟翻译链的数据库设置有访问权限,以避免基因信息泄露。
实施例2,请参阅图5所示,本发明还提供基因序列处理方法,包括:步骤S1,获取基因序列,基因序列包括四种碱基;计算基因序列的碱基的GC含量,对基因序列利用同源比对技术获取参考序列,计算参考序列的GC含量;步骤S1还包括如下子步骤:
步骤S101,利用物联网设备获取基因序列,基因序列包括A、C、G以及T四种碱基;
步骤S102,获取基因序列的碱基总数,计算碱基总数中种类为C以及G的碱基的总数,标记为GC总数;将碱基总数减去GC总数,标记为AT总数;计算AT总数与GC总数的比值,标记为第一GC含量;
步骤S103,对基因序列利用同源比对技术,获取多个参考序列,同源比对技术包括但不限于Blast以及Bowtie技术;
步骤S104,计算每个参考序列的GC含量,标记为第二GC含量。
步骤S2,对GC含量进行计算分析,基于分析结果查找基因序列的基因结构,输出结构信息;步骤S2还包括如下子步骤:
步骤S201,计算第一GC含量与第二GC含量的差值的绝对值,标记为选择差值;
步骤S202,获取数值最小的选择差值,标记为最小差值,获取最小差值对应的参考序列,标记为查找序列;
步骤S203,以查找序列为索引,从生物信息学数据库中进行查询,输出查找序列的基因名以及基因结构,基因结构包括编码区以及非编码区;非编码区包括启动子区间以及终止子区间;编码区包括外显子以及内含子;非编码区以及编码区均为由四种碱基组合成的区间。
步骤S3,基于结构信息对基因序列进行处理,输出模拟转录链,模拟转录链包括不同于基因序列的四种碱基;获取遗传密码子表,基于遗传密码子表输出碱基排列以及排列名;步骤S3还包括如下子步骤:
步骤S3011,对基因序列进行一级模拟转录,一级模拟转录包括:将启动子的区间最后一位碱基标记为起始碱基;将终止子的区间的最后一位碱基标记为终止碱基;将位于起始碱基至终止碱基的区间内的碱基标记为转录碱基;
步骤S3012,对转录碱基按碱基互补配对原则进行转录,输出一级模拟链;
步骤S3013,对一级模拟链进行二级模拟转录,二级模拟转录包括:对每个内含子按碱基互补配对原则进行转录,输出切除区间;
步骤S3013还包括:步骤S30131,将一级模拟链中碱基排序与切除区间中碱基排序相同的区间进行删除处理;步骤S30132,将一级模拟链中由终止子区间转录而成的区间进行删除处理;步骤S30133,将剩余的一级模拟链标记为模拟转录链,输出模拟转录链。
步骤S3还包括,步骤S3021,利用网络通信获取遗传密码子表,遗传密码子表包括多种碱基排列以及与碱基排列对应的排列名;排列名包括终止密码子、起始密码子以及多个字母缩写;起始密码子与单个字母缩写共用一个碱基排列;
步骤S3022,输出碱基排列以及排列名。
步骤S4,基于排列名对模拟转录链进行滑动查询,基于碱基排列、排列名以及滑动查询的结果对模拟转录链进行替换,输出模拟翻译链;步骤S4还包括如下子步骤:
步骤S4011,获取起始密码子的碱基排列,获取碱基排列中的碱基数,标记为窗口数;设置窗口大小为窗口数的滑动窗口;
步骤S4012,将滑动窗口设置于模拟转录链最左侧;
步骤S4013,判断滑动窗口中碱基排列是否与起始密码子的碱基排列相同,当不相同时,将滑动窗口向右平移一个碱基,重复执行步骤S4013,当相同时,进入步骤S4014;
步骤S4014,当相同时,将滑动窗口中最右侧的碱基标记为翻译始碱基;获取终止密码子的碱基排列;
步骤S4015,将步骤S4014中的滑动窗口向右侧平移窗口数个碱基;
步骤S4016,判断滑动窗口中碱基排列是否与终止密码子的碱基排列相同,当不相同时,将滑动窗口向右平移窗口数个碱基,重复执行步骤S4016,当相同时,进入步骤S4017;
步骤S4017,当相同时,将滑动窗口中最左侧的碱基标记为翻译终碱基;
步骤S4021,将滑动窗口设置于翻译始碱基右侧;
步骤S4022,将滑动窗口中的碱基排列替换为对应的字母缩写;
步骤S4023,将滑动窗口向右移动窗口数个碱基,判断窗口右侧是否为翻译终碱基,当不为翻译终碱基时,重复执行步骤S4022以及步骤S4023;当为翻译终碱基时,执行一次步骤S4022,并进入步骤S4024;
步骤S4024,设置左端点为翻译始碱基,右端点为翻译终碱基的开区间,将区间内替换为字母缩写的模拟转录链标记为模拟翻译链,输出模拟翻译链;
步骤S5,对基因序列进行格式变化,输出图片序列,对图片序列进行标注,将标注后的图片序列以及模拟翻译链存储至数据库;步骤S5还包括如下子步骤:
步骤S501,设置字符大小为第一字号,行的最大字符数为第一数量的文本框,将基因序列的碱基置于文本框内,对文本框进行截图,标记为图片序列;
步骤S502,基于基因结构对图片序列进行标注;
步骤S503,将图片序列以及模拟翻译链存储至数据库。
实施例3,本申请还提供一种电子设备,包括处理器以及存储器,存储器存储有计算机可读取指令,当计算机可读取指令由处理器执行时,运行如上方法中的步骤。通过上述技术方案,处理器和存储器通过通信总线和/或其他形式的连接机构互连并相互通讯,存储器存储有处理器可执行的计算机程序,当电子设备运行时,处理器执行该计算机程序,以执行时执行上述实施例的任一可选的实现方式中的方法,以实现以下功能:首先获取基因序列,再查找基因序列的基因结构,输出结构信息;再基于结构信息对基因序列进行处理,输出模拟转录链;再获取遗传密码子表,输出碱基排列以及排列名;再对模拟转录链进行滑动查询,对模拟转录链进行替换,输出模拟翻译链;最后对基因序列进行格式变化,对图片序列进行标注,将标注后的图片序列以及模拟翻译链存储至数据库。
实施例4,本申请还提供一种存储介质,其上存储有计算机程序,计算机程序被处理器执行时,运行如上方法中的步骤。通过上述技术方案,计算机程序被处理器执行时,执行上述实施例的任一可选的实现方式中的方法,以实现以下功能:首先获取基因序列,再查找基因序列的基因结构,输出结构信息;再基于结构信息对基因序列进行处理,输出模拟转录链;再获取遗传密码子表,输出碱基排列以及排列名;再对模拟转录链进行滑动查询,对模拟转录链进行替换,输出模拟翻译链;最后对基因序列进行格式变化,对图片序列进行标注,将标注后的图片序列以及模拟翻译链存储至数据库。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。其中,存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random AccessMemory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable ProgrammableRead-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable ProgrammableRead Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-OnlyMemory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其他的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其他的形式。
Claims (12)
1.基因序列处理方法,其特征在于,包括:
步骤S1,获取基因序列,所述基因序列包括四种碱基;计算基因序列的碱基的GC含量,对基因序列利用同源比对技术获取参考序列,计算参考序列的GC含量;
步骤S2,对GC含量进行计算分析,基于分析结果查找基因序列的基因结构,输出结构信息;
步骤S3,基于结构信息对基因序列进行处理,输出模拟转录链,所述模拟转录链包括不同于基因序列的四种碱基;获取遗传密码子表,基于遗传密码子表输出碱基排列以及排列名;
步骤S4,基于排列名对模拟转录链进行滑动查询,基于碱基排列、排列名以及滑动查询的结果对模拟转录链进行替换,输出模拟翻译链;
步骤S5,对基因序列进行格式变化,输出图片序列,对图片序列进行标注,将标注后的图片序列以及模拟翻译链存储至数据库。
2.根据权利要求1所述的基因序列处理方法,其特征在于,所述步骤S1包括如下子步骤:
步骤S101,利用物联网设备获取基因序列,所述基因序列包括A、C、G以及T四种碱基;
步骤S102,获取基因序列的碱基总数,计算碱基总数中种类为C以及G的碱基的总数,标记为GC总数;将碱基总数减去GC总数,标记为AT总数;计算AT总数与GC总数的比值,标记为第一GC含量;
步骤S103,对基因序列利用同源比对技术,获取多个参考序列;
步骤S104,计算每个参考序列的GC含量,标记为第二GC含量。
3.根据权利要求2所述的基因序列处理方法,其特征在于,所述步骤S2包括如下子步骤:
步骤S201,计算第一GC含量与第二GC含量的差值的绝对值,标记为选择差值;
步骤S202,获取数值最小的选择差值,标记为最小差值,获取最小差值对应的参考序列,标记为查找序列;
步骤S203,以查找序列为索引,从生物信息学数据库中进行查询,输出查找序列的基因名以及基因结构,所述基因结构包括编码区以及非编码区;所述非编码区包括启动子区间以及终止子区间;所述编码区包括外显子以及内含子;所述非编码区以及编码区均为由四种碱基组合成的区间。
4.根据权利要求3所述的基因序列处理方法,其特征在于,所述步骤S3包括如下子步骤:
步骤S3011,对基因序列进行一级模拟转录,所述一级模拟转录包括:将启动子的区间最后一位碱基标记为起始碱基;将终止子的区间的最后一位碱基标记为终止碱基;将位于起始碱基至终止碱基的区间内的碱基标记为转录碱基;
步骤S3012,对转录碱基按碱基互补配对原则进行转录,输出一级模拟链;
步骤S3013,对一级模拟链进行二级模拟转录,所述二级模拟转录包括:对每个内含子按碱基互补配对原则进行转录,输出切除区间。
5.根据权利要求4所述的基因序列处理方法,其特征在于,所述步骤S3013包括如下子步骤:
步骤S30131,将一级模拟链中碱基排序与切除区间中碱基排序相同的区间进行删除处理;
步骤S30132,将一级模拟链中由终止子区间转录而成的区间进行删除处理;
步骤S30133,将剩余的一级模拟链标记为模拟转录链,输出模拟转录链。
6.根据权利要求5所述的基因序列处理方法,其特征在于,所述步骤S3还包括如下子步骤:
步骤S3021,利用网络通信获取遗传密码子表,所述遗传密码子表包括多种碱基排列以及与碱基排列对应的排列名;所述排列名包括终止密码子、起始密码子以及多个字母缩写;所述起始密码子与单个字母缩写共用一个碱基排列;
步骤S3022,输出碱基排列以及排列名。
7.根据权利要求6所述的基因序列处理方法,其特征在于,所述步骤S4包括如下子步骤:
步骤S4011,获取起始密码子的碱基排列,获取碱基排列中的碱基数,标记为窗口数;设置窗口大小为窗口数的滑动窗口;
步骤S4012,将滑动窗口设置于模拟转录链最左侧;
步骤S4013,判断滑动窗口中碱基排列是否与起始密码子的碱基排列相同,当不相同时,将滑动窗口向右平移一个碱基,重复执行步骤S4013,当相同时,进入步骤S4014;
步骤S4014,当相同时,将滑动窗口中最右侧的碱基标记为翻译始碱基;获取终止密码子的碱基排列;
步骤S4015,将步骤S4014中的滑动窗口向右侧平移窗口数个碱基;
步骤S4016,判断滑动窗口中碱基排列是否与终止密码子的碱基排列相同,当不相同时,将滑动窗口向右平移窗口数个碱基,重复执行步骤S4016,当相同时,进入步骤S4017;
步骤S4017,当相同时,将滑动窗口中最左侧的碱基标记为翻译终碱基。
8.根据权利要求7所述的基因序列处理方法,其特征在于,所述步骤S4还包括如下子步骤:
步骤S4021,将滑动窗口设置于翻译始碱基右侧;
步骤S4022,将滑动窗口中的碱基排列替换为对应的字母缩写;
步骤S4023,将滑动窗口向右移动窗口数个碱基,判断窗口右侧是否为翻译终碱基,当不为翻译终碱基时,重复执行步骤S4022以及步骤S4023;当为翻译终碱基时,执行一次步骤S4022,并进入步骤S4024;
步骤S4024,设置左端点为翻译始碱基,右端点为翻译终碱基的开区间,将区间内替换为字母缩写的模拟转录链标记为模拟翻译链,输出模拟翻译链。
9.根据权利要求8所述的基因序列处理方法,其特征在于,所述步骤S5包括如下子步骤:
步骤S501,设置字符大小为第一字号,行的最大字符数为第一数量的文本框,将基因序列的碱基置于文本框内,对文本框进行截图,标记为图片序列;
步骤S502,基于基因结构对图片序列进行标注;
步骤S503,将图片序列以及模拟翻译链存储至数据库。
10.基因序列处理系统,适用于权利要求1-9任一项所述的基因序列处理方法,其特征在于,包括序列获取模块、序列转录模块、序列翻译模块以及序列存储模块;所述序列获取模块用于获取基因序列,计算基因序列的GC含量;还用于对基因序列利用同源比对技术获取参考序列,计算参考序列的GC含量;
所述序列转录模块用于对GC含量进行计算分析,查找基因序列的基因结构,输出结构信息;还用于对基因序列进行处理,输出模拟转录链;所述序列转录模块还用于获取遗传密码子表,基于遗传密码子表输出排列名;
所述序列翻译模块用于基于排列名对模拟转录链进行滑动查询,并对模拟转录链进行替换,输出模拟翻译链;
所述序列存储模块用于对基因序列进行格式变化,输出图片序列;还用于对图片序列进行标注,将标注后的图片序列以及模拟翻译链进行存储。
11.一种电子设备,其特征在于,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如权利要求1-9任一项所述方法中的步骤。
12.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,运行如权利要求1-9任一项所述方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410441360.9A CN118038991A (zh) | 2024-04-12 | 2024-04-12 | 基因序列处理方法、系统、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410441360.9A CN118038991A (zh) | 2024-04-12 | 2024-04-12 | 基因序列处理方法、系统、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118038991A true CN118038991A (zh) | 2024-05-14 |
Family
ID=90997213
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410441360.9A Pending CN118038991A (zh) | 2024-04-12 | 2024-04-12 | 基因序列处理方法、系统、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118038991A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003196287A (ja) * | 2001-12-27 | 2003-07-11 | Riichi Adachi | タンパク質コード領域の予測・分類方法および装置 |
US20050064418A1 (en) * | 2001-10-19 | 2005-03-24 | Tatsunari Nishi | Method of identifying prokaryotic gene structure |
US20080046192A1 (en) * | 2006-08-16 | 2008-02-21 | Richard Lathrop | Polypepetide-encoding nucleotide sequences with refined translational kinetics and methods of making same |
CN106202998A (zh) * | 2016-07-05 | 2016-12-07 | 集美大学 | 一种非模式生物转录组基因序列结构分析的方法 |
CN109997192A (zh) * | 2016-06-15 | 2019-07-09 | 哈佛学院董事及会员团体 | 用于基于规则的基因组设计的方法 |
CN111243665A (zh) * | 2020-01-07 | 2020-06-05 | 广州基迪奥生物科技有限公司 | 一种核糖体印记测序数据分析方法及系统 |
CN112614541A (zh) * | 2020-12-16 | 2021-04-06 | 广州源井生物科技有限公司 | 基因编辑位点的自动筛选方法、系统、装置及存储介质 |
CN116130002A (zh) * | 2022-12-28 | 2023-05-16 | 江西师范大学 | 一种dna序列多态分析方法及系统 |
WO2023135151A1 (en) * | 2022-01-11 | 2023-07-20 | Danmarks Tekniske Universitet | Synthetic promoters generated based on genomic dna sequences |
-
2024
- 2024-04-12 CN CN202410441360.9A patent/CN118038991A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050064418A1 (en) * | 2001-10-19 | 2005-03-24 | Tatsunari Nishi | Method of identifying prokaryotic gene structure |
JP2003196287A (ja) * | 2001-12-27 | 2003-07-11 | Riichi Adachi | タンパク質コード領域の予測・分類方法および装置 |
US20080046192A1 (en) * | 2006-08-16 | 2008-02-21 | Richard Lathrop | Polypepetide-encoding nucleotide sequences with refined translational kinetics and methods of making same |
CN109997192A (zh) * | 2016-06-15 | 2019-07-09 | 哈佛学院董事及会员团体 | 用于基于规则的基因组设计的方法 |
CN106202998A (zh) * | 2016-07-05 | 2016-12-07 | 集美大学 | 一种非模式生物转录组基因序列结构分析的方法 |
CN111243665A (zh) * | 2020-01-07 | 2020-06-05 | 广州基迪奥生物科技有限公司 | 一种核糖体印记测序数据分析方法及系统 |
CN112614541A (zh) * | 2020-12-16 | 2021-04-06 | 广州源井生物科技有限公司 | 基因编辑位点的自动筛选方法、系统、装置及存储介质 |
WO2023135151A1 (en) * | 2022-01-11 | 2023-07-20 | Danmarks Tekniske Universitet | Synthetic promoters generated based on genomic dna sequences |
CN116130002A (zh) * | 2022-12-28 | 2023-05-16 | 江西师范大学 | 一种dna序列多态分析方法及系统 |
Non-Patent Citations (1)
Title |
---|
陈祥贵;胡军;杨潇;: "人类蛋白编码基因局部GC水平相关性分析", 遗传, no. 09, 15 September 2008 (2008-09-15) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Schiffels et al. | Inferring human population size and separation history from multiple genome sequences | |
Shumate et al. | Improved transcriptome assembly using a hybrid of long and short reads with StringTie | |
Terhorst et al. | Robust and scalable inference of population history from hundreds of unphased whole genomes | |
Ye et al. | DBG2OLC: efficient assembly of large genomes using long erroneous reads of the third generation sequencing technologies | |
Deorowicz et al. | FAMSA: Fast and accurate multiple sequence alignment of huge protein families | |
David et al. | Nanocall: an open source basecaller for Oxford Nanopore sequencing data | |
Baid et al. | DeepConsensus improves the accuracy of sequences with a gap-aware sequence transformer | |
Keller et al. | Scipio: using protein sequences to determine the precise exon/intron structures of genes and their orthologs in closely related species | |
Sharon et al. | A single-molecule long-read survey of the human transcriptome | |
El-Metwally et al. | Next-generation sequence assembly: four stages of data processing and computational challenges | |
Burton et al. | Chromosome-scale scaffolding of de novo genome assemblies based on chromatin interactions | |
Higgs et al. | Coevolution of codon usage and tRNA genes leads to alternative stable states of biased codon usage | |
Lee et al. | Multiple sequence alignment using partial order graphs | |
Soneson et al. | Preprocessing choices affect RNA velocity results for droplet scRNA-seq data | |
Groussin et al. | A branch-heterogeneous model of protein evolution for efficient inference of ancestral sequences | |
Wu et al. | Evolution at the subgene level: domain rearrangements in the Drosophila phylogeny | |
Gruber et al. | Terminal exon characterization with TECtool reveals an abundance of cell-specific isoforms | |
Kakaradov et al. | Challenges in estimating percent inclusion of alternatively spliced junctions from RNA-seq data | |
CN105760706A (zh) | 一种二代测序数据的压缩方法 | |
Rivera-Rivera et al. | LS³: A method for improving phylogenomic inferences when evolutionary rates are heterogeneous among taxa | |
Liu et al. | Forensic STR allele extraction using a machine learning paradigm | |
CN118038991A (zh) | 基因序列处理方法、系统、电子设备及存储介质 | |
EP3663890B1 (en) | Alignment method, device and system | |
Bernal et al. | Automated gene-model curation using global discriminative learning | |
Philippon et al. | IsoSel: protein isoform selector for phylogenetic reconstructions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |