CN110689923A - 一种自动并行化敲除策略序列重复性分析方法及其系统 - Google Patents

一种自动并行化敲除策略序列重复性分析方法及其系统 Download PDF

Info

Publication number
CN110689923A
CN110689923A CN201811635741.1A CN201811635741A CN110689923A CN 110689923 A CN110689923 A CN 110689923A CN 201811635741 A CN201811635741 A CN 201811635741A CN 110689923 A CN110689923 A CN 110689923A
Authority
CN
China
Prior art keywords
sequence
knockout strategy
knockout
strategy
repeatability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811635741.1A
Other languages
English (en)
Other versions
CN110689923B (zh
Inventor
刘嘉惠
黎妃凤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Saiye Baimu Biotechnology Co ltd
Original Assignee
Saiye Guangzhou Biotechnology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Saiye Guangzhou Biotechnology Co Ltd filed Critical Saiye Guangzhou Biotechnology Co Ltd
Publication of CN110689923A publication Critical patent/CN110689923A/zh
Application granted granted Critical
Publication of CN110689923B publication Critical patent/CN110689923B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/40Network security protocols
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Genetics & Genomics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Analytical Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Epidemiology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Stored Programmes (AREA)

Abstract

本发明提供了一种自动并行化敲除策略序列重复性分析方法及其系统。其中,所述方法包括:根据预设片段长度,对每个敲除策略对应的敲除策略数据信息进行划分,得到所述敲除策略数据信息中的连续的子片段;并且,将包含重复单元的所述连续的子片段作为重复序列;根据所述重复序列,确定所述敲除策略对应的序列重复度,以便于利用所述序列重复度进行序列重复性分析。本发明实现了对于基因序列的不同的敲除策略对应的目标序列区中的重复序列的确定,进而提供了对于基于重复序列的不同敲除策略的打分优选的评价途径;提高了对于基因碱基序列的敲除策略的分析评价效率,减少了分析时间。

Description

一种自动并行化敲除策略序列重复性分析方法及其系统
技术领域
本发明涉及基因敲除技术领域,尤其是涉及一种自动并行化敲除策略序列重复性分析方法及其系统。
背景技术
重复序列,即为基因序列片段的多拷贝,也是反复存在的特定碱基顺序组成的片段。自然状态下,重复序列并不发生失活现象,基因工程中转基因失活与多拷贝有关。可能是重复序列之间通过异位配对形成染色体构型的不同染色体位置变化,使重复序列位点染色体发生收缩(是染色质化),从空间上阻碍了转录因子与转基因的接触,使基因处于关闭状态。
传统的敲除策略制定需要先对碱基序列进行重复性分析,并根据分析结果针对不同的敲除策略进行联合分析,才可以选择出重复度低合适敲除策略,但是这种传统人工计算方式对敲除策略进行重复性分析不仅浪费大量人力物力,并且数据繁多时,容易造成混淆出错,准确度低。
发明内容
有鉴于此,本发明的目的在于提供一种自动并行化敲除策略序列重复性分析方法及其系统,以解决现有技术中人工计算方式对敲除策略进行重复性分析不仅浪费大量人力物力,并且数据繁多时,容易造成混淆出错,准确度低的技术问题。
为解决上述问题,本发明提供一种自动并行化敲除策略序列重复性分析方法,包括:根据预设片段长度,对每个敲除策略对应的敲除策略数据信息进行划分,得到所述敲除策略数据信息中的连续的子片段;并且,将包含重复单元的所述连续的子片段作为重复序列;根据所述重复序列,确定所述敲除策略对应的序列重复度,以便于利用所述序列重复度进行序列重复性分析。
优选地,所述“根据所述重复序列,确定所述敲除策略对应的序列重复度”包括:确定所述重复单元的碱基组成、所述重复单元对应的间隔种类及所述重复单元在所述敲除策略数据信息中的出现次数;根据所述重复单元的碱基组成、所述重复单元对应的间隔种类及所述重复单元在所述敲除策略数据信息中的出现次数确定单元重复类型;根据所述单元重复类型确定所述敲除策略的序列重复度。
优选地,所述“根据所述重复单元的碱基组成、所述重复单元对应的间隔种类及所述重复单元在所述敲除策略数据信息中的出现次数确定单元重复类型”包括:根据所述重复单元的碱基组成确定所述碱基组成类型;根据所述重复单元的间隔种类确定所述重复类型;根据所述重复单元在所述敲除策略中的出现次数确定出现次数类型;根据所述碱基组成类型、所述重复类型及所述出现次数类型确定所述单元重复类型。
优选地,所述“根据所述单元重复类型确定所述敲除策略的序列重复度”包括:基于预设类型评价对应关系,确定所述单元重复类型对应的分值,作为单元类型评价值;根据所述单元类型评价值确定所述敲除策略的序列重复度。
优选地,所述“根据所述单元类型评价值确定所述敲除策略的序列重复度”包括:获取所述敲除策略数据信息的上游区域至下游区域内的每个重复序列的位置信息,并根据预设位置与分数对应关系,获得每个所述重复序列的与所述位置信息对应的位置分数;计算每个所述重复单元对应的所述单元类型评价值与所述位置分数的乘积作为所述重复单元的单元重复度;并且,将所述敲除区域内的所有所述重复单元的所述单元重复度进行加和,得到所述敲除策略的序列重复度。
优选地,所述碱基为胞嘧啶、鸟嘌呤、腺嘌呤,以及胸腺嘧啶和尿嘧啶中的一种;所述碱基组成包括所述碱基中的一种碱基、两种碱基、三种碱基和四种碱基。
优选地,所述“根据所述重复序列,确定所述敲除策略对应的序列重复度,以便于利用所述序列重复度进行序列重复性分析”之后,还包括:将所述序列重复度作为所述敲除策略的分值赋予结果,并且,根据所述分值赋予结果获取已赋予分值的敲除策略数据信息,提取小于预设优选阈值的所述序列重复度对应的所述敲除策略,作为筛选集合;将所述筛选集合中所述序列重复度最低的所述敲除策略作为最优敲除策略。
此外,为解决上述问题,本发明还提供一种智能并行化敲除策略筛选方法,包括:获取敲除策略原始数据信息;对敲除策略原始数据信息进行过滤筛选;针对过滤筛选后且未被剔除的敲除策略进行分值赋予;整理已赋予分值的敲除策略分值情况;汇总生成敲除策略数据信息集;所述“针对过滤筛选后且未被剔除的敲除策略进行分值赋予”中,包括:获取过滤筛选后且未被剔除的敲除策略数据信息;对敲除策略数据信息进行处理;根据敲除策略数据信息的分析处理结果,进行相应的分值赋予;其中,所述“对敲除策略数据信息进行处理;根据敲除策略数据信息的分析处理结果,进行相应的分值赋予”包括:根据预设片段长度,对每个敲除策略对应的敲除策略数据信息进行划分,得到所述敲除策略数据信息中的连续的子片段;并且,将包含重复单元的所述连续的子片段作为重复序列;根据所述重复序列,确定所述敲除策略对应的序列重复度,以便于利用所述序列重复度进行序列重复性分析;所述整理已赋予分值的敲除策略分值情况;汇总生成敲除策略数据信息集”包括:将所述序列重复度作为所述敲除策略的分值赋予结果,并且,根据所述分值赋予结果获取已赋予分值的敲除策略数据信息,提取小于预设优选阈值的所述序列重复度对应的所述敲除策略,作为筛选集合;将所述筛选集合中所述序列重复度最低的所述敲除策略作为最优敲除策略;并且,汇总生成所述敲除策略数据信息集。
此外,为解决上述问题,本发明还提供一种自动并行化敲除策略序列重复性分析系统,包括:划分模块,用于根据预设片段长度,对每个敲除策略对应的敲除策略数据信息进行划分,得到所述敲除策略数据信息中的连续的子片段;并且,将包含重复单元的所述连续的子片段作为重复序列;计算模块,用于根据所述重复序列,确定所述敲除策略对应的序列重复度;评价模块,用于基于所述序列重复度,对每个所述敲除策略进行评价,确定其中的最优敲除策略。
此外,为解决上述问题,本发明还提供一种计算机设备,所述计算机设备包括存储器以及处理器,所述存储器用于存储自动并行化敲除策略序列重复性分析程序,所述处理器运行所述自动并行化敲除策略序列重复性分析程序以使所述计算机设备执行如上述所述自动并行化敲除策略序列重复性分析方法。
本发明提供一种自动并行化敲除策略序列重复性分析方法及其系统,其中所述方法通过基于预设片段长度,将所有敲除策略对应的敲除策略数据信息划分为符合预设片段长度的连续的子片段,如果子片段中包含有重复单元,则将该子片段作为重复序列,进而根据该重复序列确定序列重复度,再根据序列重复度对重复序列对应的敲除策略进行打分评价,从而确定其中最优敲除策略。本发明实现了对于基因序列的不同的敲除策略对应的目标序列区中的重复序列的确定,进而提供了对于基于重复序列的不同敲除策略的打分优选的评价途径;并且,本发明可同时对多个不同的敲除策略进行自动化序列重复性分析,也可同时对一个敲除策略中的不同的敲除策略数据信息进行自动化序列重复性分析,从而得到与该敲除策略对应的评价结果,提高了对于基因碱基序列的敲除策略的分析评价效率,减少了分析时间。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明自动并行化敲除策略序列重复性分析方法实施例方案涉及的硬件运行环境的结构示意图;
图2为本发明自动并行化敲除策略序列重复性分析方法第一实施例的流程示意图;
图3为本发明自动并行化敲除策略序列重复性分析方法第二实施例步骤S2细化的流程示意图;
图4为本发明自动并行化敲除策略序列重复性分析方法第二实施例步骤S22和S23细化的流程示意图;
图5为本发明自动并行化敲除策略序列重复性分析方法第二实施例步骤S232细化的流程示意图;
图6为本发明自动并行化敲除策略序列重复性分析方法第三实施例的流程示意图;
图7为本发明第四实施例中智能并行化敲除策略筛选方法的流程示意图;
图8为本发明第四实施例中智能并行化敲除策略筛选方法的步骤S7和S8细化的流程示意图;
图9为本发明第四实施例中智能并行化敲除策略筛选方法的步骤S72细化的流程示意图;
图10为本发明提供的一种自动并行化敲除策略序列重复性分析系统的功能模块连接示意图;
图11为本发明敲除策略评价装置中基于自动并行化分析模块的多敲除策略并行打分评价的流程示意图;
图12为本发明提供的另一种自动并行化敲除策略序列重复性分析系统的功能模块示意图。
具体实施方式
下面详细描述本发明的实施例,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的终端的硬件运行环境的结构示意图。本发明实施例计算机设备可以是的PC,也可以是智能手机、平板电脑、或者具有一定计算能力的便携计算机等可移动式终端设备。如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏、输入单元比如键盘、遥控器,可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器,例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。可选地,终端还可以包括RF(Radio Frequency,射频)电路、音频电路、WiFi模块等等。本领域技术人员可以理解,图1中示出的终端并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。如图1所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、数据接口控制程序、网络连接程序以及自动并行化敲除策略序列重复性分析程序。
本发明提供的一种自动并行化敲除策略序列重复性分析方法及其系统。其中,所述方法实现了对于基因序列的不同的敲除策略对应的目标序列区中的重复序列的确定,进而提供了对于基于重复序列的不同敲除策略的打分优选的评价途径;提高了对于基因碱基序列的敲除策略的分析评价效率,减少了分析时间。
实施例1:参照图2,本发明第一实施例提供一种自动并行化敲除策略序列重复性分析方法,包括:步骤S1,根据预设片段长度,对每个敲除策略对应的敲除策略数据信息进行划分,得到所述敲除策略数据信息中的连续的子片段;并且,将包含重复单元的所述连续的子片段作为重复序列;
需要说明的是,在一个小鼠基因序列中,可能存在多个不同的敲除策略,因此需要对所有可能的敲除策略进行深入分析,以获知最优的敲除策略。而针对于基因序列的敲除策略对应的区域进行序列重复性分析,是每一敲除策略是否适用的必不可少的环节。根据选出的敲除策略对基因进行敲除之后,需要在敲除区域的上下游设计引物,用于PCR扩增,然后测序,以检测该基因是否如预期所想,被完全敲除掉了。重复性程度高的序列不利于引物设计,序列中带有重复碱基,或易形成发夹结构、二聚体,都不利于PCR反应进行。除了设计引物用于PCR反应这一考虑外,测序过程中也要考虑序列重复性。如果序列有正向重复,易造成测序中断。如果序列有反向重复易形成发夹结构,易造成测序终止。如果存在连续重复序列,易造成重叠峰。对于这些特殊的重复序列我们通常要多设计一对引物防止PCR扩增困难,测序上会进行正反向去测序,这就会增加后续鉴定工作的周期和费用,因此含有重复性程度高的序列的敲除策略将不会成为首选方案。由此可见序列重复性程度直接影响敲除策略的优异程度,是进行敲除策略选取十分重要的考量因素。
上述,预设片段长度,为通过用户设定的需要关注的碱基片段的长度,即为windowsize,根据该window size,对每个敲除策略对应的敲除策略数据信息进行划分,分割为多个连续的子片段,其中每个子片段的长度均等于所述window size。上述,敲除策略对应的敲除策略数据信息,即为需要进行序列重复性分析的区域。针对一个需要进行序列重复性分析的区域而言,用户需要设定一个其关注的片段长度window size,然后根据windowsize对区域进行划分,划分为连续的小片段,然后对每一个连续小片段进行重复性分析,看看是否存在连续重复或者间隔重复的重复单元出现,若存在,则包含连续或间隔重复单元的序列片段被筛选出来,这些序列片段就是重复序列,其中window size长度的小片段就是重复序列中的重复单元。
在本实施例中,所述敲除策略是针对一段碱基序列的重复碱基进行重组的一种方法,所述敲除策略对应的区域中包含需要敲除的碱基序列片段,对于同一段序列,以不同数量的碱基数作为单位,序列的重复单元不同重复类型不同,对基因功能发挥的影响也不尽相同,例如:1、编号1序列(敲除策略数据信息):
ATACATACATACATACATACATACATACATACATAC;
预设片段长度为2时,即以2个碱基为单位,序列组成为:AT-AC-AT-AC-AT-AC-AT-AC-AT-AC-AT-AC-AT-AC-AT-AC-AT-AC(片段AT和AC间隔重复);其中,AT和AC为连续的子片段,其重复单元可以为AT,也可以为AC,则该编号1序列即为重复序列。
预设片段长度为3时,即以3个碱基为单位,序列组成为:ATA-CAT-ACA-TAC-ATA-CAT-ACA-TAC-ATA-CAT-ACA-TAC;其中,ATA、CAT、ACA和TAC为连续的子片段,其重复单元可以为ATA,也可以为CAT、ACA和TAC,则该编号1序列即为重复序列。
2、编号2序列:GTTAGTTAGTTAGTTAGTTAGTTAGTTAGTTA;
当预设片段长度为4时,即以4个碱基为单位,序列组成为:GTTA-GTTA-GTTA-GTTA-GTTA-GTTA-GTTA-GTTA;(片段GTTA连续重复);其中,GTTA为连续的子片段,其重复单元即为GTTA,则该编号2序列即为重复序列。具体所述预设片段长度可以依据实际情况而定,但在同类型项目只会有一个window size。
步骤S2,根据所述重复序列,确定所述敲除策略对应的序列重复度,以便于利用所述序列重复度进行序列重复性分析。
上述,如果确定该敲除策略数据信息中包含重复序列,则通过确定序列重复度,进而根据序列重复度对于重复序列对应的敲除策略进行打分评价,从而确定其中最优的敲除策略。本实施例提供一种自动并行化敲除策略序列重复性分析方法,通过基于预设片段长度,将所有敲除策略对应的敲除策略数据信息划分为符合预设片段长度的连续的子片段,如果子片段中包含有重复单元,则将该子片段作为重复序列,进而根据该重复序列确定序列重复度,再根据序列重复度对重复序列对应的敲除策略进行打分评价,从而确定其中最优敲除策略。本实施例实现了对于基因序列的不同的敲除策略对应的目标序列区中的重复序列的确定,进而提供了对于基于重复序列的不同敲除策略的打分优选的评价途径;并且,本实施例可同时对多个不同的敲除策略进行自动化序列重复性分析,也可同时对一个敲除策略中的不同的敲除策略数据信息进行自动化序列重复性分析,从而得到与该敲除策略对应的评价结果,提高了对于基因碱基序列的敲除策略的分析评价效率,减少了分析时间。
实施例2:参照图3-5,本发明第二实施例提供一种自动并行化敲除策略序列重复性分析方法,基于上述实施例1,所述步骤S2,“根据所述重复序列,确定所述敲除策略对应的序列重复度”包括:
步骤S21,确定所述重复单元的碱基组成、所述重复单元对应的间隔种类及所述重复单元在所述敲除策略数据信息中的出现次数;
其中,碱基是指嘌呤和嘧啶的衍生物,是核酸、核苷、核苷酸的成分。DNA和RNA的主要碱基略有不同,其重要区别是:胸腺嘧啶是DNA的主要嘧啶碱,在RNA中极少见;相反,尿嘧啶是RNA的主要嘧啶碱,在DNA中则是稀有的。所述碱基包括胞嘧啶(C)、鸟嘌呤(G)、腺嘌呤(A),以及胸腺嘧啶(T)或尿嘧啶(U,RNA专有)中的一种。
所述碱基组成包括所述碱基中的一种碱基、两种碱基、三种碱基和四种碱基。确认重复单元中的碱基组成,即为确认重复单元中包含有几种碱基,例如:ATACATACATACATACATACATACATACATACATAC,重复单元可以为ATAC,该重复单元对应的碱基组成为三种碱基。
其中,所述重复单元对应的间隔种类包括连续重复和间隔重复。
连续重复,即为序列中或重复单元中,以碱基为单位,出现重复的类型。例如:
编号1序列:ATACATACATACATACATACATACATACATACATAC;以2个碱基为单位划分,序列组成为:
AT-AC-AT-AC-AT-AC-AT-AC-AT-AC-AT-AC-AT-AC-ATAC-AT-AC,其中,序列AT和AC间隔重复;以3个碱基为单位划分,序列组成为:
(1)ATA-C-ATA-C-ATA-C-ATA-C-ATA-C-ATA-C-ATA-C-ATA-C-ATA-C;其中,序列ATA间隔重复;(2)A-TAC-A-TAC-A-TAC-A-TAC-A-TAC-A-TAC-A-TAC-A-TAC-A-TAC;其中,序列TAC间隔重复;(3)AT-ACA-T-ACA-T-ACA-T-ACA-T-ACA-T-ACA-T-ACA-T-ACA-TAC;其中,序列ACA间隔重复;(4)ATA-CAT-A-CAT-A-CAT-A-CAT-A-CAT-A-CAT-A-CAT-A-CAT-AC;其中,序列CAT间隔重复。
此外,还可以为以4个或5个及以上的碱基为单位进行划分,分别得到不同的间隔类型。
上述,所述重复单元在所述敲除策略数据信息中的出现次数,即为在已知长度的敲除策略数据信息中,重复单元在其中的出现次数是固定的。例如,在序列中:ATACATACATACATACATACATACATACATACATAC;重复单元可以为ATAC,其出现次数为9次。其中,出现次数,可以为次数数据,也可以为通过预设的评价标准进行分档,例如设定一个或多个不同的阈值范围,当超过该阈值范围,定义为相应的档位。
步骤S22,根据所述重复单元的碱基组成、所述重复单元对应的间隔种类及所述重复单元在所述敲除策略数据信息中的出现次数确定单元重复类型;
上述,不同的碱基组成、间隔种类,以及出现次数,可通过排列组合,得到不同的单元重复类型。
进一步的,所述步骤S22,“根据所述重复单元的碱基组成、所述重复单元对应的间隔种类及所述重复单元在所述敲除策略数据信息中的出现次数确定单元重复类型”包括:
步骤S221,根据所述重复单元的碱基组成确定所述碱基组成类型;根据所述重复单元的间隔种类确定所述重复类型;根据所述重复单元在所述敲除策略中的出现次数确定出现次数类型;
上述,碱基组成类型、重复类型和出现次数类型,为分别对于碱基组成、间隔种类和出现次数对应的类型名称。其中,出现次数类型,可以为预设的范围阈值,当达到该阈值时,对应的设为一出现次数类型。
例如:1、重复单元的碱基组成如下:(1)由一种碱基组成对应的碱基组成类型为A1;(2)由二种碱基组成对应的碱基组成类型为A2;(3)由三种碱基组成对应的碱基组成类型为A3;(4)由四种碱基组成对应的碱基组成类型为A4;
2、所述重复单元的间隔种类如下:(1)连续重复分类为B1;(2)间隔重复分类为B2;
3、重复单元出现的次数如下:(1)重复单元出现的次数小于等于C1次,则对应的出现次数类型为C1;(2)重复单元出现的次数多于C1少于C2次,则对应的出现次数类型为C2;(3)重复单元出现的次数多于C2少于C3次,则对应的出现次数类型为C3;
步骤S222,根据所述碱基组成类型、所述重复类型及所述出现次数类型确定所述单元重复类型。
最后综合以上分类,为重复序列的单元重复类型。以上3种因素(碱基组成类型、重复类型和次数类型)进行排列组合后,会得到4×2×3共24中单元重复类型,分别为A1B1C1、A2B1C1、A3B1C1、A4B1C1……A4B2C3。
步骤S23,根据所述单元重复类型确定所述敲除策略的序列重复度。
进一步的,所述步骤S23,“根据所述单元重复类型确定所述敲除策略的序列重复度”包括:
步骤S231,基于预设类型评价对应关系,确定所述单元重复类型对应的分值,作为单元类型评价值;
上述,预设类型评价对应关系,为包含有单元重复类型与相应的单元类型评价值的对应关系,即通过该对应关系,可确定单元重复类型的对应分值。该对应关系可存储于相应的数据库中,作为预设查询参数,当需要计算时调出该参数进行匹配,从而得到相应的单元类型评价值。
本实施例中,通过反复实践的积累,总结出一套关于敲除策略区域序列重复性分析的打分机制。主要影响分值的因素包含:重复序列的类型、重复序列在敲除策略区域的位置及出现的次数,即为碱基组成类型、重复类型和次数类型。根据上述距离,可得到的24种单元重复类型,通过预先设定与每种类型所对应的分值,例如权重值,从而对应的得到单元类型评价值。
例如,根据上述24种重复序列类型,分别赋予不同的分值,即得到与24种重复序列类型对应的单元重复类型:
表1、重复序列类型与与单元重复类型的对应关系表
Figure BDA0001930006780000141
步骤S232,根据所述单元类型评价值确定所述敲除策略的序列重复度。
进一步的,所述步骤S232,“根据所述单元类型评价值确定所述敲除策略的序列重复度”包括:
步骤S2321,获取所述敲除策略数据信息的上游区域至下游区域内的每个重复序列的位置信息,并根据预设位置与分数对应关系,获得每个所述重复序列的与所述位置信息对应的位置分数;
步骤S2322,计算每个所述重复单元对应的所述单元类型评价值与所述位置分数的乘积作为所述重复单元的单元重复度;并且,将所述敲除区域内的所有所述重复单元的所述单元重复度进行加和,得到所述敲除策略的序列重复度。
上述,在敲除策略数据信息中,可以包含有一个重复单元,也可以包含有多个重复单元。每个重复单元在该区域中所处的位置并不相同,根据所处位置的不同,定义不同的位置信息。其位置信息可以为,例如,如果重复单元的位置在上游区域A至下游区域B范围内,则位置信息为AB。
预设位置与分数对应关系中,包含有每个位置信息设置的对应的位置分数,根据位置信息的不同,并基于预设的对应关系,可获得与该重复单元对应的位置分数。该对应关系可存储于相应的数据库中,作为预设查询参数,当需要计算时调出该参数进行匹配,从而得到相应的位置分数。
在进行计算序列重复度时,需要首先计算其中每个重复单元的单元重复度,并对其中所有的重复单元的单元重复度进行加和,最终得到序列重复度。此外,如果其中只包含有一个重复单元,则将该重复单元的单元重复度即作为序列重复度。其中,单元重复度的计算方法为:单元重复度=单元类型评价值×位置分数。
而序列重复度的计算方法为:
序列重复度=单元重复度1+单元重复度2+…….单元重复度n。
例如,根据重复序列在敲除策略数据信息中的不同位置,分别赋予不同的分值:
表1、预设位置与分数对应关系表
No. 位置信息 位置分数
1 xbp-ybp A
2 x1bp-y1bp B
3 x2bp-y2bp C
其位置信息为xbp-ybp,根据预设位置与分数对应关系,其位置分数为A;序列单元重复度1=A×单元类型评价值;
(2)若敲除策略数据信息,上游区域x1bp至下游区域y1bp范围内,存在重复序列,则计算敲除策略对应的敲除策略数据信息的序列重复度为:单元重复度2=B×单元类型评价值;
(3)若敲除策略数据信息,上游区域x2bp至下游区域y2bp范围内,存在重复序列,则计算敲除策略对应的敲除策略数据信息的序列重复度为:单元重复度3=C×单元类型评价值;
如果,目标敲除策略中,包含有,3个重复序列,这3个重复序列的所在位置信息分别为Xbp-ybp、x1bp-y1bp、x2bp-y2bp,则对应的序列重复度为:序列重复度=单元重复度1+单元重复度2+单元重复度3.
上述,xbp-ybp、x1bp-y1bp、x2bp-y2bp,即为预设范围。A、B、C即为位置分数;其中位置分数A、B、C分别与预设范围xbp-ybp、x1bp-y1bp和x2bp-y2bp相对应。
实施例3:参照图6,本发明第三实施例提供一种自动并行化敲除策略序列重复性分析方法,基于上述实施例2,所述步骤S2,“根据所述重复序列,确定所述敲除策略对应的序列重复度,以便于利用所述序列重复度进行序列重复性分析”之后,还包括:
步骤S3,将所述序列重复度作为所述敲除策略的分值赋予结果,并且,根据所述分值赋予结果获取已赋予分值的敲除策略数据信息,提取小于预设优选阈值的所述序列重复度对应的所述敲除策略,作为筛选集合;
步骤S4,将所述筛选集合中所述序列重复度最低的所述敲除策略作为最优敲除策略。
上述,预设优选阈值为根据前述打分机制中,对于序列重复度进行评价的阈值。在敲除区域、敲除区域上游以及敲除区域下游的一定范围之内,通过该预设优选阈值,可评价序列复杂性程度会对后续的敲除区域成果鉴定造成怎样的影响。因此,根据实际影响的结果,对序列复杂性程度的指标进行反推,得出上述打分机制。当序列重复度分值在m分(预设优选阈值)或m分以下,该敲除策略可用,在m分以上的敲除策略需要被剔除。而可用的所有敲除策略中序列重复度分值越低,敲除策略越优。所以,在判断达到可用标准的预设优选阈值的所有敲除策略提取出后,作为筛选集合进行进一步的择优选择,通过进行比较,将其中筛选集合中所有的序列重复度进行排序比较,选择其中最低的序列重复度对应的敲除策略,作为最优敲除策略。本实施例中,通过设定一预设优选阈值,作为筛选是否可用的敲除策略,并且在所有可用的敲除策略中,选择其中最低值作为最优敲除策略,从而通过自动化的筛选机制对所有的敲除基质进行评价,实现了对于敲除基质的择优选择。
实施例4:参照图7-9,本实施例提供一种自动并行化敲除策略序列重复性分析方法,包括:
步骤S5,获取敲除策略原始数据信息;
步骤S6,对敲除策略原始数据信息进行过滤筛选;
步骤S7,针对过滤筛选后且未被剔除的敲除策略进行分值赋予;
步骤S8,整理已赋予分值的敲除策略分值情况;汇总生成敲除策略数据信息集。
所述超出所述阀值的敲除策略,直接被剔除,将不再参与同其他未对比判定过的阀值进行对比判定。若符合所述阀值的敲除策略,则保留该敲除策略,进而再参与同其他未对比判定过的阀值进行对比判定,直到判定符合所有阈值,则最终被保留下来,进而进入下一操作步骤。
在本实施例中,所述阀值包括:类型阀值、第一长度阀值、第一比例阀值、第二比例阀值、位置阀值、第二长度阀值、区域范围阀值和序列复杂性阀值。即,于步骤S2中设置多个阀值,将敲除策略与所述阀值进行对比判定,包括将敲除策略与所述类型阀值、第一长度阀值、第一比例阀值、第二比例阀值、位置阀值、第二长度阀值、区域范围阀值和序列复杂性阀值中的任意一个阈值进行对比判定;
超出所述类型阀值、第一长度阀值、第一比例阀值、第二比例阀值、位置阀值、第二长度阀值、区域范围阀值和序列复杂性阀值中的任意一个阈值的敲除策略,将不再参与同其他未对比判定过的阀值进行对比判定,如果符合所述类型阀值、第一长度阀值、第一比例阀值、第二比例阀值、位置阀值、第二长度阀值、区域范围阀值和序列复杂性阀值中一个阈值,则保留相应的该敲除策略,进而参与同其他未对比判定过的阀值进行对比判定,直到判定符合所有阈值,则最终被保留下来,进而进入下一操作步骤。
具体地,若敲除策略不等于所述类型阀值,则被剔除,否则保留该敲除策略数据信息,即如果该敲除策略被保留,则继续与第一长度阀值、第一比例阀值、第二比例阀值、位置阀值、第二长度阀值、区域范围阀值和序列复杂性阀值进行对比判定,直到判定符合剩余所有阈值,则最终被保留下来,进而进入下一操作步骤;如果该敲除策略被剔除后,将不再参与同第一长度阀值、第一比例阀值、第二比例阀值、位置阀值、第二长度阀值、区域范围阀值和序列复杂性阀值进行对比判定。
若敲除策略小于第一长度阀值,则被剔除,否则保留该敲除策略数据信息;即如果该敲除策略被保留,则继续与类型阀值、第一比例阀值、第二比例阀值、位置阀值、第二长度阀值、区域范围阀值和序列复杂性阀值进行对比判定,直到判定符合剩余所有阈值,则最终被保留下来,进而进入下一操作步骤;如果该敲除策略被剔除后,将不再参与同类型阀值、第一比例阀值、第二比例阀值、位置阀值、第二长度阀值、区域范围阀值和序列复杂性阀值进行对比判定。
若敲除策略小于第一比例阀值,则被剔除,否则保留该敲除策略数据信息;即如果该敲除策略被保留,则继续与第一长度阀值、类型阀值、第二比例阀值、位置阀值、第二长度阀值、区域范围阀值和序列复杂性阀值进行对比判定,直到判定符合剩余所有阈值,则最终被保留下来,进而进入下一操作步骤;如果该敲除策略被剔除后,将不再参与同第一长度阀值、类型阀值、第二比例阀值、位置阀值、第二长度阀值、区域范围阀值和序列复杂性阀值进行对比判定。
若敲除策略小于第二比例阀值,则被剔除,否则保留该敲除策略数据信息;即如果该敲除策略被保留,则继续与第一长度阀值、第一比例阀值、类型阀值、位置阀值、第二长度阀值、区域范围阀值和序列复杂性阀值进行对比判定,直到判定符合剩余所有阈值,则最终被保留下来,进而进入下一操作步骤;如果该敲除策略被剔除后,将不再参与同第一长度阀值、第一比例阀值、类型阀值、位置阀值、第二长度阀值、区域范围阀值和序列复杂性阀值进行对比判定。
若敲除策略位于位置阀值之后,则被剔除,否则保留该敲除策略数据信息;即如果该敲除策略被保留,则继续与第一长度阀值、第一比例阀值、第二比例阀值、类型阀值、第二长度阀值、区域范围阀值和序列复杂性阀值进行对比判定,直到判定符合剩余所有阈值,则最终被保留下来,进而进入下一操作步骤;如果该敲除策略被剔除后,将不再参与同第一长度阀值、第一比例阀值、第二比例阀值、类型阀值、第二长度阀值、区域范围阀值和序列复杂性阀值进行对比判定。
若敲除策略大于第二长度阀值,则被剔除,否则保留该敲除策略数据信息;即如果该敲除策略被保留,则继续与第一长度阀值、第一比例阀值、第二比例阀值、位置阀值、类型阀值、区域范围阀值和序列复杂性阀值进行对比判定,直到判定符合剩余所有阈值,则最终被保留下来,进而进入下一操作步骤;如果该敲除策略被剔除后,将不再参与同第一长度阀值、第一比例阀值、第二比例阀值、位置阀值、类型阀值、区域范围阀值和序列复杂性阀值进行对比判定。
若敲除策略位于区域范围阀值内,则被剔除,否则保留该敲除策略数据信息;即如果该敲除策略被保留,则继续与第一长度阀值、第一比例阀值、第二比例阀值、位置阀值、第二长度阀值、类型阀值和序列复杂性阀值进行对比判定,直到判定符合剩余所有阈值,则最终被保留下来,进而进入下一操作步骤;如果该敲除策略被剔除后,将不再参与同第一长度阀值、第一比例阀值、第二比例阀值、位置阀值、第二长度阀值、类型阀值和序列复杂性阀值进行对比判定。
若敲除策略超出序列复杂性阀值,则被剔除,否则保留该敲除策略数据信息;即如果该敲除策略被保留,则继续与第一长度阀值、第一比例阀值、第二比例阀值、位置阀值、第二长度阀值、区域范围阀值和类型阀值进行对比判定,直到判定符合剩余所有阈值,则最终被保留下来,进而进入下一操作步骤;如果该敲除策略被剔除后,将不再参与同第一长度阀值、第一比例阀值、第二比例阀值、位置阀值、第二长度阀值、区域范围阀值和类型阀值进行对比判定。
比如说,对外显子类型过滤,假设外显子分为若干种类型,若敲除区域的外显子不属于类型阀值中的一种,则该敲除策略则认为是超出要求,进而被剔除,将不再参与同阀值进行对比判定;若敲除区域的外显子不属于类型阀值中的一种,则被保留下来,进而进入下一操作步骤。
同理,其它内含子的过滤、序列的过滤以及位置大小的过滤等过滤模式都与对外显子类型过滤一样,先判定与阀值的关系,再确定该敲除策略是否被剔除抑或被保留。
此外,所述步骤S7,“针对过滤筛选后且未被剔除的敲除策略进行分值赋予”中,还包括:
步骤S71,获取过滤筛选后且未被剔除的敲除策略数据信息;步骤S72,对敲除策略数据信息进行处理;步骤S73,根据敲除策略数据信息的分析处理结果,进行相应的分值赋予。
其中,所述步骤S72,“对敲除策略数据信息进行处理;根据敲除策略数据信息的分析处理结果,进行相应的分值赋予”包括:
步骤S721,根据预设片段长度,对每个敲除策略对应的敲除策略数据信息进行划分,得到所述敲除策略数据信息中的连续的子片段;并且,将包含重复单元的所述连续的子片段作为重复序列;步骤S722,根据所述重复序列,确定所述敲除策略对应的序列重复度,以便于利用所述序列重复度进行序列重复性分析;
所述步骤S8,“整理已赋予分值的敲除策略分值情况;汇总生成敲除策略数据信息集”包括:
步骤S81,将所述序列重复度作为所述敲除策略的分值赋予结果,并且,根据所述分值赋予结果获取已赋予分值的敲除策略数据信息,提取小于预设优选阈值的所述序列重复度对应的所述敲除策略,作为筛选集合;步骤S82,将所述筛选集合中所述序列重复度最低的所述敲除策略作为最优敲除策略;并且,汇总生成所述敲除策略数据信息集。
在本实施例中,所述敲除策略原始数据信息为基因敲除策略的所有组合。较佳地,所述对敲除策略原始数据信息进行的过滤筛选为并行化过滤筛选;所述过滤筛选后且未被剔除的敲除策略进行分值赋予为并行化进行分值赋予。更进一步地,所述分值为二进制分值、十进制分值或十六进制分值。所述统计生成敲除策略数据信息集包括生成敲除策略数据信息分析处理结果报告。
本实施例中所提供的方法可以大大提高产出和工作效率,原本半天才能完成的报告,现在只需要几分钟;解放人力物力;实现了智能化并行化敲除策略筛选模式和智能化撰写敲除策略报告,从而降低出错概率;打破知识背景壁垒,也就是说,针对没有丰富经验的学生研究者也可以快速获得基因的敲除策略;有助开启新的销售模式,带来更大的收益,原技术的瓶颈下,客户通过销售传达感兴趣基因到策略专家处,策略专家分析获得敲除策略优选方案再通过销售反馈给客户,客户了解感兴趣的基因的敲除策略往往需要一两天,而现在通过线上分析,几分钟即可获得完整的敲除策略分析报告,因此可即时定制感兴趣的基因打靶服务。
利用人工智能算法来代替人工的敲除策略选取,把专业性强、繁琐、耗时且容易出错的工作交给人工智能系统,从而解决领域内一个瓶颈问题,让全球科学家能随时、实时和免费地拿到各种基因打靶方案。
实施例5:此外,为了更好的说明本发明所提供的自动并行化敲除策略序列重复性分析方法,参考图10-11,本发明还提供一种自动并行化敲除策略序列重复性分析系统,包括:重复序列筛选模块10、重复序列分类模块20、重复序列打分模块30和自动并行化分析模块40。
1、重复序列筛选模块10:针对一个需要进行序列重复性分析的区域而言,用户需要设定一个其关注的片段长度window size,然后根据window size对区域进行划分,划分为连续的小片段,然后对每一个连续小片段进行重复性分析,看看是否存在连续重复或者间隔重复的重复单元出现,若存在,则包含连续或间隔重复单元的序列片段被筛选出来,这些序列片段就是重复序列,其中window size长度的小片段就是重复序列中的重复单元。
如前文所提到的编号1序列:ATACATACATACATACATACATACATACATACATAC、编号2序列:GTTAGTTAGTTAGTTAGTTAGTTAGTTAGTTA、编号3序列:CTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCT CTCT都是重复序列。假设window size为4,则编号1序列的重复单元是ATAC、TACA、ACAT、CATA;若window size为4,则编号1序列的重复单元是ATA、TAC、ACA、CAT。2、重复序列分类模块20:重复序列分类主要根据重复单元的碱基组成、是连续重复还是间隔重复、重复单元出现的次数来划分。
A:重复单元的碱基组成:(1)由一种碱基组成分类为A1;(2)由二种碱基组成分类为A2;(3)由三种碱基组成分类为A3;(4)由四种碱基组成分类为A4;B:是连续重复还是间隔重复:(1)连续重复分类为B1;(2)间隔重复分类为B2;C:重复单元出现的次数:(1)重复单元出现的次数小于等于C1次分类为C1;(2)重复单元出现的次数多于C1少于C2次分类为C2;(3)重复单元出现的次数多于C2少于C3次分类为C3;最后综合以上分类,为重复序列的最终分类。以上3种因素进行排列组合后,会得到4×2×3共24种类型,分别为A1B1C1、A2B1C1、A3B1C1、A4B1C1……A4B2C3。
3、重复序列打分模块30:本公司经过多年以来实践项目的经验积累,总结出一套关于敲除策略区域序列重复性分析的打分机制。主要影响分值的因素包含:重复序列的类型、重复序列在敲除策略区域的位置及出现的次数。
重复序列打分机制如下:24种重复序列类型,分别赋予不同的分值:具体赋分见前述表1。重复序列在敲除策略区域的位置及出现的次数,分别赋予不同的分值:(1)敲除区域上游xbp至敲除区域下游ybp范围内,存在重复序列,则敲除区域打s×重复序列类型分值分,如果存在n个重复序列,则将s×重复序列类型分值分进行加和。(2)敲除区域上游x1bp至敲除区域下游y1bp范围内,存在重复序列,则敲除区域打s1×重复序列类型分值分,如果存在n个重复序列,则将s×重复序列类型分值分进行加和。(3)敲除区域上游x2bp至敲除区域下游y2bp范围内,存在重复序列,则敲除区域打s2×重复序列类型分值分,如果存在n个重复序列,则将s×重复序列类型分值分进行加和。(4)敲除区域上游x3bp至敲除区域下游y3bp范围内,存在重复序列,则敲除区域打s3×重复序列类型分值分,如果存在n个重复序列,则将s×重复序列类型分值分进行加和。本模块融合实践经验所得出的序列重复性程度高低对于敲除策略的影响,而总结出一套可量化的重复序列打分机制。而通过此可量化的指标,才让敲除策略的序列复杂性分析成为一种自动并行化对敲除策略进行序列复杂性的方法。需要清楚的是,通过实验证明,在敲除区域、敲除区域上游以及敲除区域下游的一定距离之内,序列复杂性程度会对后续的敲除区域成果鉴定造成影响。因此根据实际影响的结果,对序列复杂性程度的指标进行反推,得出上述打分机制。当序列重复度分值在m分或m分以下,该敲除策略可用,在m分以上的敲除策略需要被剔除。而可用的所有敲除策略中序列重复度分值越低,敲除策略越优。
4、自动并行化分析模块40:本实施例中,可以同时对多个不同的敲除策略进行自动化序列重复性分析,也可以同时对一个敲除策略中的不同片段进行自动化序列重复性分析。首先将序列重复性筛选模块、序列重复性分析模块和序列重复性打分模块进行自动化流程化的整合,然后在不同的CPU上进行任务部署,随时等待执行命令的指令。对不同敲除策略进行划分之后或者对一个敲除策略进行区域划分之后,将需要进行序列重复性的区域一一进行任务发布,发布到不同的可接收序列重复性筛选、分析以及打分的自动化流程任务的线程中,即可并行化对很多区域进行完整的序列重复性分析,并最终得到序列重复性的分数。自动化并行化可以大大节省分析时间,提高分析效率。
目前,传统方法中,进行敲除策略选取的时候,需要将一个一个候选的敲除策略进行序列重复性分析,以筛选出适用的敲除策略,因此相同的分析流程我们需要串联地重复进行。因此,需要有一套序列重复性分析流程,可以同时对多个敲除策略进行分析,将大大节省了工作量,节约了时间。因此,首要解决的是将序列重复性分析的完整方法进行模块封装,实现流程化。然后研发并行化计算,将该序列重复性分析流程同步进行分析,实现多个敲除策略的分析同步进行。而针对每一个需要进行序列重复性分析的敲除策略,需要对敲除策略中的敲除区域、敲除区域上游和敲除区域下游分别进行序列重复性分析,筛选出序列中的重复序列片段,并对重复序列片段进行重复程度量化并打分,然后综合3个区域的分值结果,判定该敲除策略是否为合适的敲除策略,因此我们也需要实现敲除区域、敲除区域上游区域和敲除区域下游区域同时进行序列重复性分析的自动并行化分析。
例如,如流程图11所示,假设基因XX,有3个潜在敲除策略A、B、C,当前需要对A、B、C三个敲除策略进行序列重复性分析,以确定每一个敲除策略是否满足序列低重复度的要求,若不满足,则该敲除策略需要被剔除。若满足,需要根据序列重复性分析结果判定满足条件的所有敲除策略中,哪一个敲除策略更优异。
首先,对ABC策略并行化进行序列重复性分析流程。以策略A为例,划出敲除区域、敲除区域上游区域和敲除区域下游区域,对3个区域并行化进行序列重复性分析并筛选出每个区域中的复杂序列,并对每一个复杂序列进行分析和打分,获得每一个区域的序列重复度分值,并计算出该敲除策略的综合分值,即为敲除策略A的序列重复度分值。若该分值小于等于m,则该区域可用,否则不可用。同理,策略BC与策略A的分析流程一致。假设策略A不可用,策略BC可用,而策略B的序列重复度分值高于策略C的序列重复度分值分值,则策略C为基因XX的最优策略。
参考图12,本发明还提供一种自动并行化敲除策略序列重复性分析系统,包括:划分模块50,用于根据预设片段长度,对每个敲除策略对应的敲除策略数据信息进行划分,得到所述敲除策略数据信息中的连续的子片段;并且,将包含重复单元的所述连续的子片段作为重复序列;计算模块60,用于根据所述重复序列,确定所述敲除策略对应的序列重复度;评价模块70,用于基于所述序列重复度,对每个所述敲除策略进行评价,确定其中的最优敲除策略。
此外,本发明还提供一种计算机设备,所述计算机设备包括存储器以及处理器,所述存储器用于存储自动并行化敲除策略序列重复性分析程序,所述处理器运行所述自动并行化敲除策略序列重复性分析程序以使所述计算机设备执行如上述所述自动并行化敲除策略序列重复性分析方法。
此外,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有自动并行化敲除策略序列重复性分析程序,所述自动并行化敲除策略序列重复性分析程序被处理器执行时实现如上述所述自动并行化敲除策略序列重复性分析方法。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种自动并行化敲除策略序列重复性分析方法,其特征在于,包括:
根据预设片段长度,对每个敲除策略对应的敲除策略数据信息进行划分,得到所述敲除策略数据信息中的连续的子片段;并且,将包含重复单元的所述连续的子片段作为重复序列;
根据所述重复序列,确定所述敲除策略对应的序列重复度,以便于利用所述序列重复度进行序列重复性分析。
2.如权利要求1所述自动并行化敲除策略序列重复性分析方法,其特征在于,所述“根据所述重复序列,确定所述敲除策略对应的序列重复度”包括:
确定所述重复单元的碱基组成、所述重复单元对应的间隔种类及所述重复单元在所述敲除策略数据信息中的出现次数;
根据所述重复单元的碱基组成、所述重复单元对应的间隔种类及所述重复单元在所述敲除策略数据信息中的出现次数确定单元重复类型;
根据所述单元重复类型确定所述敲除策略的序列重复度。
3.如权利要求2所述自动并行化敲除策略序列重复性分析方法,其特征在于,所述“根据所述重复单元的碱基组成、所述重复单元对应的间隔种类及所述重复单元在所述敲除策略数据信息中的出现次数确定单元重复类型”包括:
根据所述重复单元的碱基组成确定所述碱基组成类型;根据所述重复单元的间隔种类确定所述重复类型;根据所述重复单元在所述敲除策略中的出现次数确定出现次数类型;
根据所述碱基组成类型、所述重复类型及所述出现次数类型确定所述单元重复类型。
4.如权利要求3所述自动并行化敲除策略序列重复性分析方法,其特征在于,所述“根据所述单元重复类型确定所述敲除策略的序列重复度”包括:
基于预设类型评价对应关系,确定所述单元重复类型对应的分值,作为单元类型评价值;
根据所述单元类型评价值确定所述敲除策略的序列重复度。
5.如权利要求4所述自动并行化敲除策略序列重复性分析方法,其特征在于,所述“根据所述单元类型评价值确定所述敲除策略的序列重复度”包括:
获取所述敲除策略数据信息的上游区域至下游区域内的每个重复序列的位置信息,并根据预设位置与分数对应关系,获得每个所述重复序列的与所述位置信息对应的位置分数;
计算每个所述重复单元对应的所述单元类型评价值与所述位置分数的乘积作为所述重复单元的单元重复度;并且,将所述敲除区域内的所有所述重复单元的所述单元重复度进行加和,得到所述敲除策略的序列重复度。
6.如权利要求2-5任一项所述自动并行化敲除策略序列重复性分析方法,其特征在于,所述碱基为胞嘧啶、鸟嘌呤、腺嘌呤,以及胸腺嘧啶和尿嘧啶中的一种;
所述碱基组成包括所述碱基中的一种碱基、两种碱基、三种碱基和四种碱基。
7.如权利要求6所述自动并行化敲除策略序列重复性分析方法,其特征在于,所述“根据所述重复序列,确定所述敲除策略对应的序列重复度,以便于利用所述序列重复度进行序列重复性分析”之后,还包括:
将所述序列重复度作为所述敲除策略的分值赋予结果,并且,根据所述分值赋予结果获取已赋予分值的敲除策略数据信息,提取小于预设优选阈值的所述序列重复度对应的所述敲除策略,作为筛选集合;
将所述筛选集合中所述序列重复度最低的所述敲除策略作为最优敲除策略。
8.一种智能并行化敲除策略筛选方法,其特征在于,包括:
获取敲除策略原始数据信息;
对敲除策略原始数据信息进行过滤筛选;
针对过滤筛选后且未被剔除的敲除策略进行分值赋予;
整理已赋予分值的敲除策略分值情况;汇总生成敲除策略数据信息集;
所述“针对过滤筛选后且未被剔除的敲除策略进行分值赋予”中,包括:
获取过滤筛选后且未被剔除的敲除策略数据信息;
对敲除策略数据信息进行处理;根据敲除策略数据信息的分析处理结果,进行相应的分值赋予;
其中,所述“对敲除策略数据信息进行处理;根据敲除策略数据信息的分析处理结果,进行相应的分值赋予”包括:
根据预设片段长度,对每个敲除策略对应的敲除策略数据信息进行划分,得到所述敲除策略数据信息中的连续的子片段;并且,将包含重复单元的所述连续的子片段作为重复序列;
根据所述重复序列,确定所述敲除策略对应的序列重复度,以便于利用所述序列重复度进行序列重复性分析;
所述整理已赋予分值的敲除策略分值情况;汇总生成敲除策略数据信息集”包括:
将所述序列重复度作为所述敲除策略的分值赋予结果,并且,根据所述分值赋予结果获取已赋予分值的敲除策略数据信息,提取小于预设优选阈值的所述序列重复度对应的所述敲除策略,作为筛选集合;
将所述筛选集合中所述序列重复度最低的所述敲除策略作为最优敲除策略;并且,汇总生成所述敲除策略数据信息集。
9.一种自动并行化敲除策略序列重复性分析系统,其特征在于,包括:
划分模块,用于根据预设片段长度,对每个敲除策略对应的敲除策略数据信息进行划分,得到所述敲除策略数据信息中的连续的子片段;并且,将包含重复单元的所述连续的子片段作为重复序列;
计算模块,用于根据所述重复序列,确定所述敲除策略对应的序列重复度;
评价模块,用于基于所述序列重复度,对每个所述敲除策略进行评价,确定其中的最优敲除策略。
10.一种计算机设备,其特征在于,所述计算机设备包括存储器以及处理器,所述存储器用于存储自动并行化敲除策略序列重复性分析程序,所述处理器运行所述自动并行化敲除策略序列重复性分析程序以使所述计算机设备执行如权利要求1-8任一项所述自动并行化敲除策略序列重复性分析方法。
CN201811635741.1A 2018-07-04 2018-12-29 一种自动并行化敲除策略序列重复性分析方法及其系统 Active CN110689923B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810722034X 2018-07-04
CN201810722034 2018-07-04

Publications (2)

Publication Number Publication Date
CN110689923A true CN110689923A (zh) 2020-01-14
CN110689923B CN110689923B (zh) 2022-05-17

Family

ID=69060610

Family Applications (4)

Application Number Title Priority Date Filing Date
CN201810766174.7A Active CN110751982B (zh) 2018-07-04 2018-07-12 一种智能并行化敲除策略筛选的方法及系统
CN201811063870.8A Active CN110689922B (zh) 2018-07-04 2018-09-12 一种自动并行化敲除策略gc含量分析的方法及系统
CN201811635741.1A Active CN110689923B (zh) 2018-07-04 2018-12-29 一种自动并行化敲除策略序列重复性分析方法及其系统
CN201910588833.7A Active CN110689924B (zh) 2018-07-04 2019-07-02 一种基于多种敲除类型的敲除策略筛选方法及系统

Family Applications Before (2)

Application Number Title Priority Date Filing Date
CN201810766174.7A Active CN110751982B (zh) 2018-07-04 2018-07-12 一种智能并行化敲除策略筛选的方法及系统
CN201811063870.8A Active CN110689922B (zh) 2018-07-04 2018-09-12 一种自动并行化敲除策略gc含量分析的方法及系统

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201910588833.7A Active CN110689924B (zh) 2018-07-04 2019-07-02 一种基于多种敲除类型的敲除策略筛选方法及系统

Country Status (2)

Country Link
CN (4) CN110751982B (zh)
WO (1) WO2020007349A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112614541A (zh) * 2020-12-16 2021-04-06 广州源井生物科技有限公司 基因编辑位点的自动筛选方法、系统、装置及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002345477A (ja) * 2001-05-25 2002-12-03 Japan Science & Technology Corp ノックアウト動物
JP2002369689A (ja) * 2001-05-25 2002-12-24 Japan Science & Technology Corp ノックアウト動物
WO2003000909A2 (en) * 2001-06-21 2003-01-03 Diversa Corporation Methods for the manufacture of pure single enantiomer compounds and for selecting enantioselective enzymes
US20050220781A1 (en) * 2003-09-04 2005-10-06 Duen-Hwa Yan IFIX, a novel HIN-200 protein, for cancer therapy
CN1721529A (zh) * 1999-07-14 2006-01-18 株式会社基因转移 捕获载体及用该载体进行基因捕获的方法
EP1883200A1 (en) * 2006-07-27 2008-01-30 Sourcefire, Inc. Device, system and method for analysis of fragments in a fragment train
CN101855355A (zh) * 2007-09-14 2010-10-06 巴斯夫植物科学有限公司 具有提高的产量相关性状的植物和用于制备该植物的方法
CN102229940A (zh) * 2010-12-20 2011-11-02 中国热带农业科学院热带生物技术研究所 一种莱茵衣藻目标基因敲除方法
CN106222177A (zh) * 2016-08-13 2016-12-14 李蒙 一种靶向人STAT6的CRISPR‑Cas9系统及其用于治疗过敏性疾病的应用
CN106713341A (zh) * 2017-01-04 2017-05-24 成都四方伟业软件股份有限公司 一种基于大数据的网络安全预警方法与系统
CN106845151A (zh) * 2015-12-07 2017-06-13 中国农业大学 CRISPR-Cas9系统sgRNA作用靶点的筛选方法及装置
WO2017184334A1 (en) * 2016-04-18 2017-10-26 The Board Of Regents Of The University Of Texas System Generation of genetically engineered animals by crispr/cas9 genome editing in spermatogonial stem cells
CN107937445A (zh) * 2017-07-25 2018-04-20 北京希诺谷生物科技有限公司 利用体细胞克隆技术制备基因敲除犬的方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521528A (zh) * 2011-12-05 2012-06-27 中国科学院计算机网络信息中心 一种基因序列数据的筛选方法
JP2014223067A (ja) * 2013-04-18 2014-12-04 学校法人 岩手医科大学 PSD−Zip70遺伝子ノックアウト非ヒト動物、およびその用途
CN104598769A (zh) * 2015-02-10 2015-05-06 上海丰核信息科技有限公司 自动化DNase-seq数据处理分析系统
CN105400810B (zh) * 2015-09-06 2019-05-07 吉林大学 采用敲除技术建立低磷性佝偻病模型的方法
US11905521B2 (en) * 2015-11-17 2024-02-20 The Chinese University Of Hong Kong Methods and systems for targeted gene manipulation
CN105886616B (zh) * 2016-04-20 2020-08-07 广东省农业科学院农业生物基因研究中心 一种用于猪基因编辑的高效特异性sgRNA识别位点引导序列及其筛选方法
CN106446600B (zh) * 2016-05-20 2019-10-18 同济大学 一种基于CRISPR/Cas9的sgRNA的设计方法
CN107513538A (zh) * 2016-06-17 2017-12-26 北京大学 基因敲除方法
CN106119283A (zh) * 2016-06-24 2016-11-16 广西壮族自治区水牛研究所 一种利用CRISPR‑Cas9靶向敲除MSTN基因的方法
CN106191114B (zh) * 2016-07-29 2020-02-11 中国科学院重庆绿色智能技术研究院 利用CRISPR-Cas9系统敲除鱼类MC4R基因的育种方法
CN106484844B (zh) * 2016-09-30 2019-06-25 云润大数据服务有限公司 大数据挖掘方法及系统
CN107868798A (zh) * 2017-03-31 2018-04-03 上海市公共卫生临床中心 一种基于基因敲除细胞的阳性筛选体系的建立方法
CN108055272B (zh) * 2017-12-21 2021-05-18 广州科瑞工程信息咨询有限公司 基于远程授权的投标文件筛选方法和系统

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1721529A (zh) * 1999-07-14 2006-01-18 株式会社基因转移 捕获载体及用该载体进行基因捕获的方法
JP2002345477A (ja) * 2001-05-25 2002-12-03 Japan Science & Technology Corp ノックアウト動物
JP2002369689A (ja) * 2001-05-25 2002-12-24 Japan Science & Technology Corp ノックアウト動物
WO2003000909A2 (en) * 2001-06-21 2003-01-03 Diversa Corporation Methods for the manufacture of pure single enantiomer compounds and for selecting enantioselective enzymes
US20050220781A1 (en) * 2003-09-04 2005-10-06 Duen-Hwa Yan IFIX, a novel HIN-200 protein, for cancer therapy
EP1883200A1 (en) * 2006-07-27 2008-01-30 Sourcefire, Inc. Device, system and method for analysis of fragments in a fragment train
CN101855355A (zh) * 2007-09-14 2010-10-06 巴斯夫植物科学有限公司 具有提高的产量相关性状的植物和用于制备该植物的方法
CN102229940A (zh) * 2010-12-20 2011-11-02 中国热带农业科学院热带生物技术研究所 一种莱茵衣藻目标基因敲除方法
CN106845151A (zh) * 2015-12-07 2017-06-13 中国农业大学 CRISPR-Cas9系统sgRNA作用靶点的筛选方法及装置
WO2017184334A1 (en) * 2016-04-18 2017-10-26 The Board Of Regents Of The University Of Texas System Generation of genetically engineered animals by crispr/cas9 genome editing in spermatogonial stem cells
CN106222177A (zh) * 2016-08-13 2016-12-14 李蒙 一种靶向人STAT6的CRISPR‑Cas9系统及其用于治疗过敏性疾病的应用
CN106713341A (zh) * 2017-01-04 2017-05-24 成都四方伟业软件股份有限公司 一种基于大数据的网络安全预警方法与系统
CN107937445A (zh) * 2017-07-25 2018-04-20 北京希诺谷生物科技有限公司 利用体细胞克隆技术制备基因敲除犬的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHING LEE KOO等: "A Gene Knockout Strategy for Succinate Production Using a Hybrid Algorithm of Bees Algorithm and Minimization of Metabolic Adjustment", 《2014 IEEE INTERNATIONAL CONFERENCE ON GRANULAR COMPUTING (GRC) 》 *
于慧敏等: "工业微生物代谢途径调控的基因敲除策略", 《生物工程学报》 *
曾凤: "甘蓝枯萎病菌1号生理小种效应子的鉴定", 《中国优秀博硕士学位论文全文数据库(硕士)(农业科技辑)》 *

Also Published As

Publication number Publication date
CN110689922B (zh) 2023-07-14
CN110751982B (zh) 2023-11-10
CN110689924A (zh) 2020-01-14
CN110689923B (zh) 2022-05-17
CN110689922A (zh) 2020-01-14
CN110751982A (zh) 2020-02-04
WO2020007349A1 (zh) 2020-01-09
CN110689924B (zh) 2023-07-14

Similar Documents

Publication Publication Date Title
Jung et al. Visual gene developer: a fully programmable bioinformatics software for synthetic gene optimization
Buen Abad Najar et al. Coverage-dependent bias creates the appearance of binary splicing in single cells
Kechris et al. Generalizing moving averages for tiling arrays using combined p-value statistics
Danko et al. Minerva: an alignment-and reference-free approach to deconvolve linked-reads for metagenomics
CN110647995A (zh) 规则训练方法、装置、设备及存储介质
KR20150084596A (ko) 최적 설계 파라미터 탐색을 위한 최적화 방법
Zhu et al. Single-cell clustering based on shared nearest neighbor and graph partitioning
Yun et al. Biclustering for the comprehensive search of correlated gene expression patterns using clustered seed expansion
CN101661484A (zh) 一种查询方法及系统
CN110689923B (zh) 一种自动并行化敲除策略序列重复性分析方法及其系统
CN113592156A (zh) 电厂煤量调度方法、装置、终端设备及存储介质
CN110928261B (zh) 分布式异构流水车间的分布估计调度方法及系统
CN112885412A (zh) 基因组注释方法、装置、可视化平台和存储介质
Gonzalez-Alvarez et al. Comparing multiobjective swarm intelligence metaheuristics for DNA motif discovery
EP2518656B1 (en) Taxonomic classification system
CN115619200B (zh) 一种分割式Seru的排产与多能工调度组合优化方法和装置
CN110728540A (zh) 一种企业推荐方法、装置、设备和介质
CN110413849A (zh) 一种数据排序方法及装置
Feng et al. Semi-supervised topological analysis for elucidating hidden structures in high-dimensional transcriptome datasets
CN109901931B (zh) 一种归约函数数量确定方法、装置及系统
Zhang et al. SymSim: simulating multi-faceted variability in single cell RNA sequencing
Hart et al. Connectivity in the yeast cell cycle transcription network: inferences from neural networks
Keseru et al. The use of AHP and PROMETHEE to evaluate sustainable urban mobility scenarios by active stakeholder participation: The case study of Leuven
CN116246715B (zh) 多样本基因突变数据存储方法、装置、设备及介质
Theera-Ampornpunt et al. Fast training on large genomics data using distributed support vector machines

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210329

Address after: 510700 rooms 1401, 1501 and 1601, building C, 288 Shenzhou Road, Huangpu District, Guangzhou City, Guangdong Province

Applicant after: Guangzhou Saiye Baimu Biotechnology Co.,Ltd.

Address before: Room d314, D315, d316 and D317, Guangzhou Science City International Business Incubator, 510000 Guangzhou hi tech Industrial Development Zone, Guangdong Province

Applicant before: CYAGEN BIOSCIENCES (GUANGZHOU) Inc.

GR01 Patent grant
GR01 Patent grant