CN110767264A - 一种数据处理方法、装置和计算机可读存储介质 - Google Patents

一种数据处理方法、装置和计算机可读存储介质 Download PDF

Info

Publication number
CN110767264A
CN110767264A CN201910980309.4A CN201910980309A CN110767264A CN 110767264 A CN110767264 A CN 110767264A CN 201910980309 A CN201910980309 A CN 201910980309A CN 110767264 A CN110767264 A CN 110767264A
Authority
CN
China
Prior art keywords
data
target gene
module
preset
data processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910980309.4A
Other languages
English (en)
Inventor
李嘉昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910980309.4A priority Critical patent/CN110767264A/zh
Publication of CN110767264A publication Critical patent/CN110767264A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Abstract

本申请实施例公开了一种数据处理方法、装置和计算机可读存储介质,其中,本申请实施例可以获取目标基因数据和参考基因数据组,所述目标基因数据包括多个目标基因序列数据;基于所述参考基因数据组,对所述目标基因数据进行识别,确定所述目标基因序列数据的排列顺序;基于所述目标基因序列数据的排列顺序,对所述目标基因序列数据进行组合,得到组合后目标基因数据;向所述并行处理模块发送所述组合后目标基因数据;获取所述并行处理模块对所述组合后目标基因数据进行变异检测和标记后返回的变异标记后目标基因数据组。从而可以提高数据处理的效率。

Description

一种数据处理方法、装置和计算机可读存储介质
技术领域
本申请涉及计算机的技术领域,具体涉及一种数据处理方法、装置和计算机可读存储介质。
背景技术
近年来,随着集成电路迅猛发展,人们对高计算性能和低功耗的要求日益强烈,但是通用处理器(CPU)的摩尔定律已入暮年,而机器学习和Web服务的规模却在指数级增长。通用处理器(CPU)一般为冯诺依曼结构,只能串行地执行一系列指令,通用处理器(CPU)一般作为终端的中央处理器,即CPU是对终端的所有硬件资源(如存储器、输入输出单元)进行控制调配、执行通用运算的核心硬件单元,是终端的运算和控制核心。终端中所有软件层的操作,最终都将通过指令集映射为CPU的操作,因此,现有技术中的终端需要串行地执行终端所有软件中的所有数据处理指令,而且在执行基因分析、机器学习等大批量计算的任务时,更是需要耗费大量的时间,数据处理效率较低。
发明内容
有鉴于此,本申请实施例提供了一种数据处理方法、装置和计算机可读存储介质,可以提高数据处理效率。
第一方面,本申请实施例提供了一种数据处理方法,适用于终端设备中的串行处理模块,所述终端设备还包括并行处理模块,包括:
获取目标基因数据和参考基因数据组,所述目标基因数据包括多个目标基因序列;
基于所述参考基因数据组,对所述目标基因数据进行识别,确定所述目标基因序列数据的排列顺序;
基于所述目标基因序列数据的排列顺序,对所述目标基因序列数据进行组合,得到组合后目标基因数据;
向所述并行处理模块发送所述组合后目标基因数据;
获取所述并行处理模块对所述组合后目标基因数据进行变异检测和标记后返回的变异标记后目标基因数据组。
在一实施例中,向所述并行处理模块发送所述组合后目标基因数据,包括:
基于预设数据长度,对所述组合后目标基因数据进行划分,得到多个待处理目标基因数据组;
获取数据处理指令;
将所述数据处理指令、所述待处理目标基因数据组,以及待处理目标基因数据组对应的数据长度信息,发送给所述并行处理模块。
在一些实施例中,所述并行处理模块包括多个预设数据处理子模块;获取所述并行处理模块对所述组合后目标基因数据进行变异检测和标记后返回的变异标记后目标基因数据组,包括:
基于所述数据处理指令,触发所述并行处理模块根据所述数据长度信息,确定各待处理目标基因数据组与所述预设数据处理子模块的对应关系;基于所述对应关系,将所述待处理目标基因数据组分配给所述预设数据处理子模块进行变异检测和标记,得到变异标记后目标基因数据组;
获取所述并行处理模块返回的变异标记后目标基因数据组。
在一些实施例中,所述终端设备还包括存储模块,所述获取所述并行处理模块返回的所述变异标记后目标基因数据组,包括:
当所述预设数据处理子模块将所述变异标记后目标基因数据组发送给所述存储模块时,接收所述并行处理模块内的预设数据处理子模块返回的中断指令;
基于所述中断指令触发从所述存储模块中获取各变异标记后目标基因数据组。
在一些实施例中,所述终端设备还包括存储模块,所述并行处理模块包括预设数据处理算法;所述数据处理方法还包括:
获取待更新的预设数据处理算法的预设算法标识信息,以及与所述待更新的预设数据处理算法对应的目标数据处理算法的目标算法标识信息;
向所述并行处理模块发送算法更新指令,以及所述预设算法标识信息和目标算法标识信息;
基于所述算法更新指令,触发所述并行处理模块根据所述预设算法标识信息和所述目标算法标识信息,将所述预设数据处理算法更新为目标数据处理算法。
在一些实施例中,基于所述算法更新指令,触发所述并行处理模块根据所述预设算法标识信息和所述目标算法标识信息,将所述预设数据处理算法更新为目标数据处理算法,包括:
基于所述算法更新指令,触发所述并行处理模块根据所述目标算法标识信息,从所述存储模块中获取所述目标数据处理算法;基于所述预设算法标识信息,获取与所述待更新的预设数据处理算法对应的预设数据处理子模块的待更新子模块标识信息;将所述目标数据处理算法发送给所述待更新子模块标识信息对应的预设数据处理子模块。
在一些实施例中,所述数据处理方法还包括:
获取测试指令,所述测试指令携带待测试的预设数据处理子模块的测试子模块标识信息、运行异常条件;
基于所述测试指令向所述并行处理模块发送模式转换指令和所述测试子模块标识信息;
获取所述并行处理模块基于所述模式转换指令返回的所述测试子模块标识信息对应的测试响应信号。
在一些实施例中,获取所述并行处理模块基于所述模式转换指令返回的所述测试子模块标识信息对应的测试响应信号,包括:
触发所述并行处理模块基于所述模式转换指令向所述测试子模块标识对应的预设数据处理子模块发送测试信号;获取所述预设数据处理子模块基于所述测试信号生成的测试响应信号;将所述测试响应信号发送给所述存储模块;
接收所述并行处理模块基于所述存储模块返回的所述测试响应信号。
在一实施例中,所述接收所述并行处理模块基于所述存储模块返回的所述测试响应信号,包括:
接收并行处理模块发送的中断指令;
基于所述中断指令,从所述存储模块中获取所述测试响应信号。
第二方面,本申请的实施例提供了一种数据处理装置,包括:
数据获取单元,用于获取目标基因数据和参考基因数据组,所述目标基因数据包括多个目标基因序列数据;
识别单元,用于基于所述参考基因数据组,对所述目标基因数据进行识别,确定所述目标基因序列数据的排列顺序;
组合单元,用于基于所述目标基因序列数据的排列顺序,对所述目标基因序列数据进行组合,得到组合后目标基因数据;
发送单元,用于向所述并行处理模块发送所述组合后目标基因数据;
结果获取单元,用于获取所述并行处理模块对所述组合后目标基因数据进行变异检测和标记后返回的变异标记后目标基因数据组。
在一些实施例中,所述数据处理装置还包括更新单元和测试单元,包括:
更新单元,用于基于所述算法更新指令、预设算法标识信息和目标算法标识信息,触发所述并行处理模块将所述预设数据处理算法更新为所述目标数据处理算法;
测试单元,用于获取所述并行处理模块基于所述模式转换指令返回的所述测试子模块标识信息对应的测试响应信号。
第三方面,本申请的实施例提供的计算机可读存储介质,其上存储有计算机程序,当计算机程序在计算机上运行时,使得计算机执行如本申请任一实施例提供的数据处理方法。
本申请实施例可以获取目标基因数据和参考基因数据组,所述目标基因数据包括多个目标基因序列数据;基于所述参考基因数据组,对所述目标基因数据进行识别,确定所述目标基因序列数据的排列顺序;基于所述目标基因序列数据的排列顺序,对所述目标基因序列数据进行组合,得到组合后目标基因数据;向所述并行处理模块发送所述组合后目标基因数据;获取所述并行处理模块对所述组合后目标基因数据进行变异检测和标记后返回的变异标记后目标基因数据组。本申请使用并行处理模块对组合后目标基因数据进行变异检测和标记,避免占用串行处理模块的运算资源,而且所述并行处理模块可以同时执行多个运算指令,并行处理组合后目标基因数据,从而可以提高数据处理的效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的数据处理方法的场景示意图;
图2a是本发明实施例提供的数据处理方法的流程示意图;
图2b是本发明实施例提供的数据处理方法的另一种流程示意图;
图3a是本发明实施例提供的数据处理装置的结构示意图;
图3b是本发明实施例提供的数据处理装置的另一种结构示意图;
图4是本发明实施例提供的数据处理终端的结构示意图;
图5a是本发明实施例提供的数据处理系统的数据处理流程示意图;
图5b是本发明实施例提供的并行处理模块与串行处理模块的交互结构示意图;
图5c是本发明实施例提供的并行处理模块的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种数据处理方法、装置和计算机可读存储介质。
其中,本发明实施例的数据处理方法可以用来进行基因分析等需要较大计算量的数据处理场景。其中,基因分析是用于检测基因提供者的基因变异情况,从而可以分析出基因提供者的生理特征、疾病隐患等特征。其中,基因(也称遗传因子)是产生一条多肽链或功能RNA所需的全部核苷酸序列。带有遗传讯息的DNA片段称为基因,其他的DNA序列,有些直接以自身构造发挥作用,有些则参与调控遗传讯息的表现。
本发明的实施例提供了一种数据处理系统,包括本发明实施例任一提供的数据处理装置,该数据处理装置具体可集成在终端中,该终端可以包括:手机、平板电脑、笔记本电脑或个人计算机(PC,Personal Computer)等。
此外,该数据处理系统还可以包括其他设备,比如服务器等。
例如,参考图1,数据处理系统,包括终端和服务器,终端与服务器通过网络链接。其中,网络中包括路由器、网关等网络实体。
例如,参见图1,本申请实施例可以获取目标基因数据和参考基因数据组,所述目标基因数据包括多个目标基因序列数据;基于所述参考基因数据组,对所述目标基因数据进行识别,确定所述目标基因序列数据的排列顺序;基于所述目标基因序列数据的排列顺序,对所述目标基因序列数据进行组合,得到组合后目标基因数据;向所述并行处理模块发送所述组合后目标基因数据;获取所述并行处理模块对所述组合后目标基因数据进行变异检测和标记后返回的变异标记后目标基因数据组。本申请使用并行处理模块对组合后目标基因数据进行变异检测和标记,避免占用串行处理模块的运算资源,而且所述并行处理模块可以同时执行多个运算指令,并行处理组合后目标基因数据,从而可以提高数据处理的效率。
上述图1的例子只是实现本发明实施例的一个系统架构实例,本发明实施例不限于上述图1所示的系统结构,基于该系统架构,提出本发明各个实施例。
以下分别进行详细说明。需说明的是,以下实施例的序号不作为对实施例优选顺序的限定。
本实施例将从数据处理装置的角度进行描述,该数据处理装置具体可以集成在终端设备中,该终端设备可以是手机、平板电脑、笔记本电脑或个人计算机(PC,PersonalComputer)等。
如图2a所示,提供了一种数据处理方法,该方法可以由终端设备中的串行处理模块执行,该终端设备还包括并行处理模块,该数据处理方法的具体流程如下:
101、获取目标基因数据和参考基因数据组,所述目标基因数据包括多个目标基因序列。
其中,目标基因数据是待检测的基因数据,目标基因数据可以通过网络链接从其他系统的终端或者服务器中获取,也可以从本发明实施例的终端的存储器或者与终端相连的可移动存储设备中获取。
其中,参考基因数据组是一种参考基因序列集合,具体地,可以对一些人(比如,千人基因组计划)的基因进行打断,得到参考基因序列,然后将参考基因序列按照其对应的染色体拼接在一起得到基因组的整条染色体。参考基因数据组可以通过网络从基因数据库中预先下载到终端的存储器中,或者从与终端相连的可移动存储设备中获取。
在一实施例中,由于基因数据量巨大,为了节省数据传输带宽和存储成本,方便传输和存储,通常将其压缩,因此,在进行基因分析之前,还需要对获取到的目标基因数据和参考基因数据组进行解压缩,将其恢复成方便处理的数据格式。比如,将目标基因数据恢复为fastq文本格式的数据,其中,fastq是一种以ASCII编码的,存储了生物序列(通常是核酸序列)以及相应的质量评价的文本格式。
在一实施例中,参考图5a,终端设备的处理器包括相连接的串行处理模块和并行处理模块,其中,串行处理模块可以读取当前指令,并指出当前指令的下一指令的位置,然后对当前指令进行译码,然后执行当前指令,串行处理模块不能同时执行多个指令,那么串行处理模块不能同时处理多组数据。对于需要较强的计算能力的步骤,可以发送到并行处理模块中进行处理。
其中,串行处理模块指的是不能同时执行多个指令的处理模块,比如,CPU(central processing unit,中央处理器)。
在一实施例中,终端设备的存储器中存储有基因分析应用程序,基因分析应用程序包含多条指令,比如,数据获取指令。当用户点击终端界面中的指令接口时,处理器开始读取数据获取指令,并对指令进行译码,然后执行获取目标基因数据和参考基因数据组。其中,指令接口包括多种形式,比如,输入框、按钮、图标、选择框等形式。比如,在一实施例中,指令接口可以表现为“开始”按钮。
102、基于所述参考基因数据组,对所述目标基因数据进行识别,确定所述目标基因序列数据的排列顺序。
其中,参考基因数据组是按照参考基因序列对应的染色体进行划分的,比如,对于人类来说,参考基因数据组可以包括22组常染色体上的参考基因序列,以及X、Y两条性染色体上的基因序列,总共24组。
在一实施例中,参考基因数据组中,每一组的参考基因序列,都是按照其在染色体上的位置排列的。
在一实施例中,终端的串行处理模块可以读取数据识别指令,并对数据读取指令进行译码,然后执行数据识别指令,具体地,可以通过对比参考基因序列数据和目标基因序列数据,确定目标基因数据的基因序列对应的染色体,从而确定所述目标基因序列数据的排列顺序。
其中,基因组是生物体内所有遗传物质的总和。
在一实施例中,为了方便比对,可以建立参考基因数据组索引,其中,索引是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构,它是某个表中一列或若干列值的集合和相应的指向表中物理标识这些值的数据页的逻辑指针清单。索引的作用相当于图书的目录,可以根据目录中的页码快速找到所需的内容。索引提供指向存储在表的指定列中的数据值的指针,然后根据您指定的排序顺序对这些指针排序。数据库使用索引以找到特定值,然后顺指针找到包含该值的行。这样可以使对应于表的SQL语句执行得更快,可快速访问数据库表中的特定信息。在本实施例中,在参考基因组的存储表中建立参考基因组索引,然后在参考基因组索引中找到符合查询条件的索引值,最后通过保存在参考基因组索引中的ROWID(相当于页码)快速找到参考基因存储表中对应的记录。
在一实施例中,为了方便后续根据参考基因进行基因检测,可以基于所述目标基因数据序列在基因组中的位置,将所述目标基因序列与所述参考基因序列两两组合,得到待处理基因对。比如,可以将位于同一个染色体上的相同位置的目标基因数据序列与参考基因序列两两组合,得到待处理基因对。
103、基于所述目标基因序列数据的排列顺序,将所述目标基因序列数据进行组合,得到组合后目标基因数据。
在一实施例中,为了方便基因检测,终端的串行处理模块可以读取数据组合指令,并进行译码,然后执行数据组合指令,具体地,所述目标基因数据序列在基因组中的位置顺序,将所述目标基因序列数据进行组合,得到组合后目标基因数据。
在一实施例中,为了减少计算量,在进行组合的同时,可以将具有重复的目标基因序列进行重复标记,在完成组合之后,根据重复标记,将重复的目标基因序列数据删除。
104、向所述并行处理模块发送所述组合后目标基因数据。
其中,并行处理模块是一种可以同时执行多条数据处理指令的数据处理模块,即并行处理模块可以同时进行多组待处理基因数据组的检测和标记。并行处理模块可以是ASIC、FPGA。
其中,FPGA(Field Programmable Gate Array,现场可编程门阵列),它是在可编程器件的基础上进一步发展的产物。它是作为专用集成电路(ASIC)领域中的一种半定制电路而出现的,既解决了定制电路的不足,又克服了原有可编程器件门电路数有限的缺点。ASIC(Application Specific Integrated Circuit,专用集成电路),它是供专门应用的集成电路芯片技术,被认为是一种为专门目的而设计的集成电路。
在一实施例中,并行处理模块中包括多个预设数据处理子模块,向所述并行处理模块发送所述组合后目标基因数据,具体可以包括如下步骤:
基于预设数据长度,对所述组合后目标基因数据进行划分,得到多个待处理目标基因数据组;
获取数据处理指令;
将所述数据处理指令、所述待处理目标基因数据组,以及待处理目标基因数据组对应的数据长度信息,发送给所述并行处理模块。
其中,参考图5c,所述并行处理模块包括多个用于运算的预设数据处理子模块501,预设数据处理子模块501内配置有变异检测算法和预设变异检测算法,每个数据处理子模块可以用于处理预设长度的数据,为了使所述预设数据处理子模块的计算能力与待处理目标基因数据组的数据长度相符,可以根据预设数据长度,将所述组合后目标基因数据划分为多个待处理目标基因数据组。
在一实施例中,参考图5b,并行处理模块还包括预设通讯子模块502,所述并行处理模块与串行处理模块通过应用程序接口、驱动程序和预设通讯子模块502连接。
其中,驱动程序是一种允许硬件与软件进行交互的程序,可以用于并行处理模块与基因分析应用程序进行交互。具体地,驱动程序和基因分析应用程序之间需要实现相应的信息交互,一方面,基因分析应用程序通过对执行驱动程序发送相应的指令,比如,对并行处理模块进行控制的动作指令,另一方面,驱动程序将并行处理模块读写的状态、从并行处理模中上获得的数据处理结果传送给基因分析应用程序,实现基因分析应用程序与驱动程序间的交互。
在一实施例中,驱动程序包括数据处理指令,当得到所述待处理目标基因数据组时时,串行处理模块可以读取、译码和执行数据处理指令。
其中,应用程序接口可以是一些预先定义的函数,也是指基因分析应用程序与驱动程序衔接的约定。使用应用程序接口访问基因分析应用程序或者驱动程序,无需访问原码,或理解程序内部工作机制的细节。
其中,预设通讯子模块502可以使用PCI-Express标准进行通讯,其中PCI-Express(peripheral component interconnect express)是一种高速串行计算机扩展总线标准,可以提高数据传输的效率。
在一实施例中,参考图5c,并行处理模块还包括预设调度子模块503,其中,预设调度子模块503通过内部总线与预设通讯子模块502相连接,预设调度子模块503可以基于总线传输协议解释将内部总线转化为数据总线、指令总线和配置总线,从而把经过内部总线的指令、配置信息以及数据进行分离。其中,指令包括数据处理指令,配置信息包括待处理目标基因数据组的数据长度,数据包括待处理目标基因数据组。
首先,使用简单通用的内部总线来连接各预设子模块,单独的功能通过独立的预设子模块实现,内部总线可以避免调用内部总线的预设调度子模块503直接参与各预设子模块功能的实现,从而可以提高效率。
另外,整个并行处理模块由一个个预设子模块通过总线组合而成,如果需要更新或者修改局部功能,只要修改一条内部总线对应的一个预设子模块,不影响整个并行处理模块中其他功能的使用。
在一实施例中,每个预设数据处理子模块501都通过数据总线、配置总线和测试总线三条内部总线与预设调度子模块503相连接,所以当对某一预设数据处理子模块501进行更新时,也只需要修改一条配置总线对应的一个预设数据处理子模块501,而不影响整个并行处理模块中其他预设数据处理子模块501的使用。
其中,内部总线可以是任何常见的或者自定义的数据传输线,例如AXI(AdvancedeXtensible Interface)总线,Avalon总线等等。
在一实施例中,预设调度子模块503可以通过内部总线接收来自其它预设子模块的数据、指令,并根据指令传输数据或者调用其他预设子模块。
在一实施例中,预设调度子模块503还可以通过预设通讯子模块502接收来自串行处理模块的指令,然后根据指令调用其他预设子模块(比如,可以根据算法更新指令调用预设算法更新子模块505)。
在一实施例中,参考图5c,终端设备还包括存储模块,并行处理模块还包括预设存储控制子模块504,预设存储控制子模块504与预设调度子模块503通过内部总线相连接,当预设调度子模块通过预设通讯子模块502从串行处理模块中获取到待处理目标基因数据组后,若待处理目标基因数据组的数量超过预设数据处理子模块501的数量,可以通过总线传输协议解释将内部总线转化为数据总线,并通过数据总线将待处理目标基因数据组发送给预设存储控制子模块504,然后调用预设存储控制子模块504将待处理目标基因数据组缓存在存储模块中,然后再从存储模块中获取待处理目标基因数据组,分配给预设数据处理子模块501,当预设数据处理子模块501完成对当前待处理目标基因数据组的变异检测和标记后,再将存储模块中剩余的待处理目标基因数据组分配给预设数据处理子模块501。
其中,存储模块是指下面关于终端设备结构的实施例中的存储器,计算机中的全部信息,包括输入的原始数据、计算机程序、中间运行结果和最终运行结果都保存在存储模块中。存储模块包括可以内存和硬盘,其中,一般使用内存来存储当前正在执行的数据和程序,本申请实施例中,在数据处理过程中,因为基因数据量非常大,为了提高速度,可以通过预设存储控制子模块504将待处理目标基因数据组、正在执行的程序等存储在内存中,然后再发送给并行处理模块进行变异检测和标记。
其中,内存可以包括FPGA硬件板卡上的DDR芯片颗粒或者是终端的主机板上的DDR(Double Data Rate,双倍速率同步动态随机存储器)等。参考图5c示出了内存包括主机板上的DDR存储芯片时的实施例的结构示意图。当然,在另一实施例中,所述存储模块还可以包括设置在FPGA硬件板卡上的DDR芯片颗粒。
在一实施例中,参考图5c,并行处理模块可以包括预设算法更新子模块505,可以通过预设算法更新子模块505更新特定的预设数据处理子模块501内的预设数据处理算法,其中,预设数据处理算法包括变异检测算法和标记算法,具体地,可以包括以下步骤:
获取待更新的预设数据处理算法的预设算法标识信息,以及与所述待更新的预设数据处理算法对应的目标数据处理算法的目标算法标识信息;
向所述并行处理模块发送算法更新指令,以及所述预设算法标识信息和目标算法标识信息;
基于所述算法更新指令,触发所述并行处理模块根据所述预设算法标识信息和目标算法标识信息,将所述预设数据处理算法更新为目标数据处理算法。
在一实施例中,基于所述算法更新指令,触发所述并行处理模块根据所述预设算法标识信息和目标算法标识信息,将所述预设数据处理算法更新为目标数据处理算法,可以包括如下步骤:
基于所述算法更新指令,触发所述并行处理模块根据所述目标算法标识信息,从所述存储模块中获取所述目标数据处理算法;基于所述预设算法标识信息,获取与所述待更新的预设数据处理算法对应的预设数据处理子模块501的待更新子模块标识信息;将所述目标数据处理算法发送给所述待更新子模块标识信息对应的预设数据处理子模块501。
其中,存储模块是指下面关于终端设备结构的实施例中的存储器,计算机中的全部信息,包括输入的原始数据、计算机程序、中间运行结果和最终运行结果都保存在存储模块中。存储模块包括可以内存和硬盘,其中,一般使用硬盘来存储目标数据处理算法,并行处理模块可以从硬盘中获取目标数据处理算法。
在一实施例中,可以基于用户在终端设备的显示页面上的选择操作获取预设算法标识信息和目标算法标识信息,并基于用户在终端设备的显示页面上的算法更新确认操作,触发算法更新指令、预设算法标识信息和目标算法标识信息的发送。
在一实施例中,参考图5c,并行处理模块包括预设算法更新子模块505,预设算法更新子模块505与预设调度子模块通过内部总线相连接,预设算法更新子模块505同时与存储模块通过总线相连接,预设调度子模块通过驱动程序和预设通讯子模块502,获取算法更新指令和预设算法标识信息以及目标算法标识,然后预设调度子模块基于算法更新指令将与预设算法标识信息和目标算法标识信息发送给预设算法更新子模块505,然后将预设算法更新子模块505根据所述预设算法标识信息确定与所述待更新的预设数据处理算法对应的预设数据处理子模块501的更新子模块标识信息,并从所述存储模块中获取与所述目标算法标识对应的目标数据处理算法,将目标数据处理算法发送给更新子模块标识信息对应的预设算法更新子模块505。其中,目标数据处理算法、预设算法标识信息和目标算法标识信息通过配置总线传输,算法更新指令通过指令总线传输。
在一实施例中,当使用本申请的数据处理装置初次进行一种基因组分析业务之前,可以使用预设算法更新子模块505为所有的预设数据处理子模块501配置或者升级预设数据处理算法,首先用户可以根据基因组分析业务,在终端设备的显示界面上的进行选择,确定预设数据处理算法的算法标识信息。然后终端将算法标识信息与算法更新指令发送给预设调度子模块503,然后预设调度子模块503基于算法更新指令将算法标识信息发送给预设算法更新子模块505,然后将预设算法更新子模块505从所述存储模块中获取所述算法标识信息对应的预设数据处理算法,预设数据处理算法将所述预设数据处理算法发送给预设算法更新子模块505。
在一实施例中,参考图5c为了方便测试,所述并行处理模块还包括预设算法测试子模块506,可以通过预设算法测试子模块505对并行处理模块中的预设数据处理子模块501进行测试,具体可以包括如下步骤:
获取测试指令,所述测试指令携带待测试的预设数据处理子模块501的测试子模块标识信息;
基于所述测试指令向所述并行处理模块发送模式转换指令和所述测试子模块标识信息;
获取所述并行处理模块基于所述模式转换指令返回的所述测试子模块标识信息对应的测试响应信号。
其中,模式转换指令是用于转换并行处理模块的工作状态的指令,比如,并行处理模块包括正常运行模式和测试模式两种工作状态,当并行处理模块接收到所述模式转换指令时,并行处理模块停止对待处理目标基因数据组的接收和变异检测、标记。
在一实施例中,可以基于用户在终端页面上的选择操作和确认操作,获取测试指令,以及测试指令携带的测试子模块标识信息。
在一实施例中,终端页面上还设置有测试目的选择框,选择框内设置有多个选项,比如,选择框包括“监测”选项和“调试”选项。当进行监测时,终端可以获取测试响应信号后,可以将所述测试响应信号显示在终端页面上,或者基于用户的操作,将测试响应信号通过网络或其它通讯方式发送给其它终端。当进行调试时,终端可以获取运行异常条件,其中,运行异常条件的获取方法可以有多种,比如,可以由用户设置,终端可以基于用户在页面上的输入操作,获取用户设置的运行异常条件。终端还可以基于历史异常测试响应信号,确定运行异常条件。
在一实施例中,若用户选择“调试”选项,当串行处理模块从存储模块中获取所述测试响应信号后,可以判断所述测试响应信号是否满足所述运行异常条件,若所述调试响应信号满足所述运行异常条件,则获取所述调试响应信号对应的异常调试子模块标识。
在一实施例中,获取异常测试子模块标识之后,可以根据异常测试子模块标识,更新异常测试子模块标识对应的预设数据处理子模块501内的算法,从而恢复出现异常的预设数据处理子模块501。具体的更新步骤参见上面的实施例,不再赘述。
在一实施例中,可以根据异常测试子模块标识,获取正常测试子模块标识,然后向所述正常测试子模块标识对应的预设数据处理子模块501发送复位指令。
其中,正常测试子模块标识是运行状态正常的预设数据处理子模块501的标识。
其中,复位指令可以使预设数据处理子模块501内的电路恢复到起始状态,就像计算器的清零按钮的作用一样,以便回到原始状态,重新进行计算。若预设数据处理子模块501没有恢复到起始状态,完成测试过程之后,若并行处理模块进入正常运行模式,预设数据处理子模块501将无法进行正常的运算。
在一实施例中,所述获取所述并行处理模块基于所述模式转换指令返回的所述测试子模块标识信息对应的测试响应信号,可以包括如下步骤:
触发所述并行处理模块基于所述模式转换指令向所述测试子模块标识对应的预设数据处理子模块501发送测试信号;获取所述预设数据处理子模块501基于所述测试信号生成的测试响应信号;将所述测试响应信号发送给所述存储模块;
接收所述并行处理模块基于所述存储模块返回的所述测试响应信号。
在一实施例中,参考图5c,终端设备还包括存储模块,并行处理模块还包括预设存储控制子模块504,预设存储控制子模块504与预设调度子模块通过内部总线相连接,当预设调度子模块通过内部总线从预设数据处理子模块501中获取到测试响应信号时,可以将通过预设存储控制子模块504将测试响应信号发送到存储模块中。
其中,存储模块是指下面关于终端设备结构的实施例中的存储器,计算机中的全部信息,包括输入的原始数据、计算机程序、中间运行结果和最终运行结果都保存在存储模块中。存储模块包括可以内存和硬盘,其中,一般使用内存来存储当前正在执行的数据和程序,本申请实施例中,在测试过程中,因测试响应信号较多,为了提高测试速度,可以通过预设存储控制子模块504将测试响应信息等存储在内存中,然后传送给串行处理模块进行下一步操作。
其中,内存可以包括FPGA硬件板卡上的DDR芯片颗粒或者是终端的主机板上的DDR存储芯片等。参考图5c示出了内存包括主机板上的DDR存储芯片时的实施例的结构示意图。当然,在另一实施例中,所述存储模块还可以包括设置在FPGA硬件板卡上的DDR芯片颗粒。
在一实施例中,接收所述并行处理模块基于所述存储模块返回的所述测试响应信号,可以包括如下步骤:
接收并行处理模块发送的中断指令;
基于所述中断指令,从所述存储模块中获取所述测试响应信号。
其中,中断是指数据处理过程中,当需要串行处理模块干预时,串行处理模块能自动停止正在运行的基因分析应用程序并转入处理新情况的程序,处理完毕后又返回原被暂停的程序继续运行。
在一实施例中,参考图5c,并行处理模块包括预设中断处理子模块507,其中,预设中断处理子模块507与预设通讯子模块502通过中断总线相连接,预设中断处理子模块与预设中断接口也通过中断总线相连接,预设中断接口与所有的预设数据处理子模块501相连接,预设中断处理子模块可以接收预设数据处理子模块501发送的中断指令,然后把中断指令通过预设通讯子模块502发送给串行处理模块,串行处理模块接收中断指令后,暂停正在运行的基因分析应用程序,从存储模块中获取测试响应信号,同时向并行处理模块发送中断响应。中断指令和中断请求可以方便并行处理模块和串行处理模块的交互,避免交互影响处理模块各自原本的进程。
105、获取所述并行处理模块对所述组合后目标基因数据进行变异检测和标记后返回的变异标记后目标基因数据组。
在一实施例中,获取所述并行处理模块对所述组合后目标基因数据进行变异检测和标记后返回的变异标记后目标基因数据组,具体可以包括如下步骤:
基于所述数据处理指令,触发所述并行处理模块根据所述数据长度信息,确定各待处理目标基因数据组与所述预设数据处理子模块501的对应关系;基于所述对应关系,将所述待处理目标基因数据组分配给所述预设数据处理子模块501进行变异检测和标记,得到变异标记后目标基因数据组;
获取所述并行处理模块返回的变异标记后目标基因数据组。
其中,变异包括多种情形,比如,插入、缺失、复制、倒位、易位等。
在一实施例中,所述终端设备还包括存储模块,获取所述并行处理模块返回的所述变异标记后目标基因数据组,可以包括如下步骤:
当所述预设子模块将所述变异标记后目标基因数据组发送给所述存储模块时,接收所述并行处理模块内的预设数据处理子模块501返回的中断指令;
基于所述中断指令从所述存储模块中获取各变异标记后目标基因数据组。
在一实施例中,当预设数据处理子模块501完成对分配给它的待处理目标基因数据组的变异检测和标记时,预设数据处理子模块501会将得到的变异标记后目标基因数据组发送给所述存储模块时,同时向并行处理模块发出中断指令。
在一实施例中,参考图5c,并行处理模块包括预设中断处理子模块,其中,预设中断处理子模块与预设通讯子模块502通过中断总线相连接,预设中断处理子模块与预设中断接口也通过中断总线相连接,预设中断接口与所有的预设数据处理子模块501相连接,预设中断处理子模块可以接收预设数据处理子模块501发送的中断指令,然后把中断指令通过预设通讯子模块502发送给串行处理模块,串行处理模块接收中断指令后,暂停正在运行的基因分析应用程序,从存储模块中获取变异标记后目标基因数据组,同时向并行处理模块发送中断响应。
在一实施例中,参考图5c,终端设备还包括存储模块,并行处理模块还包括预设存储控制子模块504,预设存储控制子模块504与预设调度子模块通过内部总线相连接,当预设调度子模块通过总线从预设数据处理子模块501中获取到变异标记后目标基因数据组后,可以通过预设存储控制子模块504将变异标记后目标基因数据组存储到存储模块中。
其中,存储模块是指下面关于终端设备结构的实施例中的存储器,计算机中的全部信息,包括输入的原始数据、计算机程序、中间运行结果和最终运行结果都保存在存储模块中。存储模块包括可以内存和硬盘,其中,一般使用内存来存储当前正在执行的数据和程序,本申请实施例中,在数据处理过程中,因为基因数据量非常大,为了提高速度,可以通过预设存储控制子模块504将变异标记后目标基因数据组、正在执行的程序等存储在内存中,然后再传输给串行处理模块进行下一步处理。
其中,内存可以包括FPGA硬件板卡上的DDR芯片颗粒或者是终端的主机板上的DDR存储芯片等。参考图5c示出了内存包括主机板上的DDR存储芯片时的实施例的结构示意图。当然,在另一实施例中,所述存储模块还可以包括设置在FPGA硬件板卡上的DDR芯片颗粒。
由上可知,本申请实施例可以获取目标基因数据和参考基因数据组,所述目标基因数据包括多个目标基因序列数据;基于所述参考基因数据组,对所述目标基因数据进行识别,确定所述目标基因序列数据的排列顺序;基于所述目标基因序列数据的排列顺序,对所述目标基因序列数据进行组合,得到组合后目标基因数据;向所述并行处理模块发送所述组合后目标基因数据;获取所述并行处理模块对所述组合后目标基因数据进行变异检测和标记后返回的变异标记后目标基因数据组。本申请使用并行处理模块对组合后目标基因数据进行变异检测和标记,避免占用串行处理模块的运算资源,而且所述并行处理模块可以同时执行多个运算指令,并行处理组合后目标基因数据,从而可以提高数据处理的效率。
根据前面实施例所描述的方法,以下将以该数据处理装置具体集成在终端设备举例作进一步详细说明。
参考图2b,本发明实施例的数据处理方法的具体流程如下:
201、终端获取目标基因数据和参考基因数据组。
在一实施例中,基于用户在终端的显示界面上的点击操作,从存储器或者通过网络从其它终端(或服务器)中获取目标基因数据和参考基因数据组。
比如,当用户点击终端的显示界面上的数据获取指令接口时,触发数据获取指令,终端读取数据获取指令,进行译码,然后开始执行获取目标基因数据和参考基因数据组。
202、终端基于所述参考基因数据组,对所述目标基因数据进行识别、组合和划分,得到多个待处理目标基因数据组。
在一实施例中,终端基于所述参考基因数据组,对所述目标基因数据进行识别、组合和划分,得到多个待处理目标基因数据组,具体可以包括如下步骤:
于所述参考基因数据组,对所述目标基因数据进行识别,确定所述目标基因序列数据的排列顺序;
基于所述目标基因序列数据的排列顺序,对所述目标基因序列数据进行组合,得到组合后目标基因数据;
基于预设数据长度,对所述组合后目标基因数据进行划分,得到多个待处理目标基因数据组。
203、终端将所述待处理目标基因数据组分配给所述并行处理模块进行变异检测和标记,得到变异标记后目标基因数据组。
在一实施例中,终端将所述待处理目标基因数据组分配给所述并行处理模块进行变异检测和标记,得到变异标记后目标基因数据组,具体可以包括:
当得到所述待处理目标基因数据组时,向所述并行处理模块发送数据处理指令、所述待处理目标基因数据组,以及待处理目标基因数据组对应的数据长度信息;
基于所述数据长度信息,确定各待处理目标基因数据组与所述预设数据处理子模块的对应关系;
基于所述对应关系,将所述待处理目标基因数据组分配给所述预设数据处理子模块进行变异检测和标记,得到各变异标记后目标基因数据组。
并行处理模块的结构和功能参见上面的实施例,不再赘述。
204、终端获取所述并行处理模块返回的所述变异标记后目标基因数据组。
在一实施例中,终端可以通过如下步骤,获取所述变异标记后目标基因数据组;
所述预设数据处理子模块将所述变异标记后目标基因数据组发送给所述存储模块时,接收所述并行处理模块内的预设数据处理子模块返回的中断指令;
基于所述中断指令从所述存储模块中获取各变异标记后目标基因数据组。
其中,中断指令和存储模块的具体应用,参见上面的实施例,不再赘述。
205、终端基于所述变异标记后目标基因数据组,进行基因分析。
在一实施例中,终端可以根据变异标记后的目标基因数据组,统计出现变异的变异目标基因序列,可以根据变异目标基因序列携带的遗传信息推测目标基因数据提供者的疾病隐患和双眼皮等生理特征,从而生成对目标基因数据提供者的健康建议,作为基因分析结果,并将所述基因分析结果显示在终端页面中。
其中,变异目标基因序列携带的遗传信息是指变异目标基因序列可以决定的生理性状信息,可以通过网络从基因库中下载。
在一实施例中,终端可以通过网络或者其它通讯协议与用户的其它终端相连接,从而可以通过网络或者其它通讯方式(比如,短信、邮件等),将基因分析结果,发送给终端的用户。
由上可知,本申请实施例可以获取目标基因数据和参考基因数据组,所述目标基因数据包括多个目标基因序列数据;基于所述参考基因数据组,对所述目标基因数据进行识别,确定所述目标基因序列数据的排列顺序;基于所述目标基因序列数据的排列顺序,对所述目标基因序列数据进行组合,得到组合后目标基因数据;向所述并行处理模块发送所述组合后目标基因数据;获取所述并行处理模块对所述组合后目标基因数据进行变异检测和标记后返回的变异标记后目标基因数据组。本申请使用并行处理模块对组合后目标基因数据进行变异检测和标记,避免占用串行处理模块的运算资源,而且所述并行处理模块可以同时执行多个运算指令,并行处理组合后目标基因数据,从而可以提高数据处理的效率。
为了更好地实施以上方法,本发明实施例还提供一种数据处理装置,该数据处理装置具体可以集成在电子设备中,该电子设备可以为终端设备、服务器、个人电脑等设备。
比如,在本实施例中,将以数据处理装置集成在终端设备中为例,对本发明实施例地方法进行详细说明。
比如,如图3a所示,该数据处理装置可以包括数据获取单元301、识别单元302、组合单元303、划分单元304、处理单元305和结果获取单元306。如下:
(1)数据获取单元301,用于获取目标基因数据和参考基因数据组,所述目标基因数据包括多个目标基因序列数据。
(2)识别单元302,用于基于所述参考基因数据组,对所述目标基因数据进行识别,确定所述目标基因序列数据的排列顺序。
(3)组合单元303,用于基于所述目标基因序列数据的排列顺序,对所述目标基因序列数据进行组合,得到组合后目标基因数据。
(4)发送单元304,用于向所述并行处理模块发送所述组合后目标基因数据。
在一实施例中,所述处理单元305具体可以用于:
当得到所述待处理目标基因数据组时,触发向所述并行处理模块发送数据处理指令,所述数据处理指令携带所述待处理目标基因数据组,以及待处理目标基因数据组对应的数据长度信息;
基于所述数据长度信息,确定各待处理目标基因数据组与所述预设数据处理子模块的对应关系;
基于所述对应关系,将所述待处理目标基因数据组分配给所述预设数据处理子模块进行变异检测和标记,得到各变异标记后目标基因数据组。
在一实施例中,所述并行处理模块包括多个预设数据处理子模块,所述处理单元304还可以用于:
基于预设数据长度,对所述组合后目标基因数据进行划分,得到多个待处理目标基因数据组;
获取数据处理指令;
将所述数据处理指令、所述待处理目标基因数据组,以及待处理目标基因数据组对应的数据长度信息,发送给所述并行处理模块。
(5)结果获取单元305,用于获取所述并行处理模块对所述组合后目标基因数据进行变异检测和标记后返回的变异标记后目标基因数据组。
在一实施例中,所述结果获取单元305具体可以用于:
基于所述数据处理指令,触发所述并行处理模块根据所述数据长度信息,确定各待处理目标基因数据组与所述预设数据处理子模块的对应关系;基于所述对应关系,将所述待处理目标基因数据组分配给所述预设数据处理子模块进行变异检测和标记,得到变异标记后目标基因数据组;
获取所述并行处理模块返回的变异标记后目标基因数据组。
在一实施例中,所述结果获取单元305还可以用于:
接收并行处理模块发送的中断指令;
基于所述中断指令,从所述存储模块中获取所述测试响应信号。
在一实施例中,参考图3b,所述数据处理装置还包括更新单元306和测试单元307,如下:
(6)更新单元306,用于基于所述算法更新指令、预设算法标识信息和目标算法标识信息,触发所述并行处理模块将所述预设数据处理算法更新为所述目标数据处理算法;
在一实施例中,所述更新单元306,具体可以用于:
基于所述算法更新指令,触发所述并行处理模块根据所述目标算法标识信息,从所述存储模块中获取所述目标数据处理算法;基于所述预设算法标识信息,获取与所述待更新的预设数据处理算法对应的预设数据处理子模块的待更新子模块标识信息;将所述目标数据处理算法发送给所述待更新子模块标识信息对应的预设数据处理子模块。
(7)测试单元307,用于获取所述并行处理模块基于所述模式转换指令返回的所述测试子模块标识信息对应的测试响应信号。
在一实施例中,所述测试单元307具体可以用于:
触发所述并行处理模块基于所述模式转换指令向所述测试子模块标识对应的预设数据处理子模块发送测试信号;获取所述预设数据处理子模块基于所述测试信号生成的测试响应信号;将所述测试响应信号发送给所述存储模块;
接收所述并行处理模块基于所述存储模块返回的所述测试响应信号。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由上可知,本发明实施例由数据获取单元获取目标基因数据和参考基因数据组,所述目标基因数据包括多个目标基因序列数据;由识别单元基于所述参考基因数据组,对所述目标基因数据进行识别,确定所述目标基因序列数据的排列顺序。由组合单元基于所述目标基因序列数据的排列顺序,对所述目标基因序列数据进行组合,得到组合后目标基因数据。由发送单元向所述并行处理模块发送所述组合后目标基因数据;由结果获取单元获取所述并行处理模块对所述组合后目标基因数据进行变异检测和标记后返回的变异标记后目标基因数据组。本申请使用并行处理模块对组合后目标基因数据进行变异检测和标记,避免占用串行处理模块的运算资源,而且所述并行处理模块可以同时执行多个运算指令,并行处理组合后目标基因数据,从而可以提高数据处理的效率。
本申请实施例还提供一种终端设备,该终端设备可以是手机、平板电脑、微型处理盒子、无人机、或者图像采集设备等等。如图4所示,其示出了本申请实施例所涉及的终端设备的结构示意图,具体来讲:
该终端设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读计算机可读存储介质的存储器402、电源403、输入模块404以及通信模块405等部件。本领域技术人员可以理解,图4中示出的终端设备结构并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该终端设备的控制中心,利用各种接口和线路连接整个终端设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行终端设备的各种功能和处理数据,从而对终端设备进行整体监控。在一些实施例中,处理器401可包括一个或多个处理核心,比如,处理器401可以包括并行处理模块和串行处理模块两个处理核心;在一些实施例中,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
终端设备还包括给各个部件供电的电源403,在一些实施例中,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该终端设备还可包括输入模块404,该输入模块404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
该终端设备还可包括通信模块405,在一些实施例中,通信模块405可以包括无线子模块,终端设备可以通过该通信模块405的无线子模块进行短距离无线传输,从而提供无线的宽带互联网访问。比如,该通信模块405可以用于帮助用户收发电子邮件、浏览网页和访问流式媒体等。
尽管未示出,终端设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,终端设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取目标基因数据和参考基因数据组,所述目标基因数据包括多个目标基因序列数据;
基于所述参考基因数据组,对所述目标基因数据进行识别,确定所述目标基因序列数据的排列顺序;
基于所述目标基因序列数据的排列顺序,对所述目标基因序列数据进行组合,得到组合后目标基因数据;
向所述并行处理模块发送所述组合后目标基因数据;
获取所述并行处理模块对所述组合后目标基因数据进行变异检测和标记后返回的变异标记后目标基因数据组。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
由上可知,本实施例可以获取目标基因数据和参考基因数据组,所述目标基因数据包括多个目标基因序列数据;基于所述参考基因数据组,对所述目标基因数据进行识别,确定所述目标基因序列数据的排列顺序;基于所述目标基因序列数据的排列顺序,对所述目标基因序列数据进行组合,得到组合后目标基因数据;向所述并行处理模块发送所述组合后目标基因数据;获取所述并行处理模块对所述组合后目标基因数据进行变异检测和标记后返回的变异标记后目标基因数据组。本申请使用并行处理模块对组合后目标基因数据进行变异检测和标记,避免占用串行处理模块的运算资源,而且所述并行处理模块可以同时执行多个运算指令,并行处理组合后目标基因数据,从而可以提高数据处理的效率。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于计算机可读计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种数据处理方法中的步骤。例如,该指令可以执行如下步骤:
获取目标基因数据和参考基因数据组,所述目标基因数据包括多个目标基因序列数据;
基于所述参考基因数据组,对所述目标基因数据进行识别,确定所述目标基因序列数据的排列顺序;
基于所述目标基因序列数据的排列顺序,对所述目标基因序列数据进行组合,得到组合后目标基因数据;
向所述并行处理模块发送所述组合后目标基因数据;
获取所述并行处理模块对所述组合后目标基因数据进行变异检测和标记后返回的变异标记后目标基因数据组。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本申请实施例所提供的任一种数据处理方法中的步骤,因此,可以实现本申请实施例所提供的任一种数据处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
在一实施例中,所述并行处理模块可以包括预设数据处理子模块501、预设通讯子模块502、预设调度子模块503、预设存储控制子模块504、预设算法测试子模块506和预设中断处理子模块507,如下:
(1)预设数据处理子模块501,用于对所述待处理目标基因数据组进行变异检测和标记。预设数据处理子模块501内配置有变异检测算法和预设变异检测算法,每个数据处理子模块可以用于处理预设长度的数据。
(2)预设通讯子模块502,用于与串行处理模块进行交互,传输数据、信息和指令等。所述并行处理模块与串行处理模块通过应用程序接口、驱动程序和预设通讯子模块502连接。
(3)预设调度子模块503,用于对所述并行处理模块中的所有预设子模块进行调度和仲裁,是预设子模块之间进行数据、指令、信息传输的中枢。预设调度子模块503可以通过内部总线接收来自其它预设子模块的数据、指令,并根据指令传输数据或者调用其他预设子模块。预设调度子模块503还可以通过预设通讯子模块502接收来自串行处理模块的指令,然后根据指令调用其他预设子模块(比如,可以根据算法更新指令调用预设算法更新子模块505)。
(4)预设存储控制子模块504,用于实现所述并行处理模块与终端设备的存储模块之间的数据传输。
在一实施例中,预设存储控制子模块504与预设调度子模块通过内部总线相连接,预设调度子模块503可以调用所述预设存储控制子模块504,将所述并行处理模块中的数据存储至存储模块,或者从所述存储模块中将数据传入并行处理模块。
(5)预设算更新子模块505,用于将所述预设数据处理子模块中的预设数据处理算法更新为目标数据处理算法。预设算法更新子模块505与预设调度子模块通过内部总线相连接。然后预设调度子模块503基于算法更新指令将算法标识信息发送给预设算法更新子模块505,然后将预设算法更新子模块505从所述存储模块中获取所述算法标识信息对应的预设数据处理算法,预设数据处理算法将所述预设数据处理算法发送给预设算法更新子模块505。
(6)预设算法测试子模块506,用于对所述预设数据处理子模块进行监测或者调试,预设算法测试子模块506与所述预设调试子模块503相连,所述预设调试子模块503接收到所述模式转换指令后,可以向所述测试子模块标识对应的预设数据处理子模块501发送测试信号;获取所述预设数据处理子模块501基于所述测试信号生成的测试响应信号;然后将所述测试响应信号发送给所述存储模块。
(7)预设中断处理子模块507,用于接收和响应中断指令。预设中断处理子模块507与预设通讯子模块502通过中断总线相连接,预设中断处理子模块与预设中断接口也通过中断总线相连接,预设中断接口与所有的预设数据处理子模块501相连接,预设中断处理子模块可以接收预设数据处理子模块501发送的中断指令,然后把中断指令通过预设通讯子模块502发送给串行处理模块,串行处理模块接收中断指令后,暂停正在运行的基因分析应用程序,从存储模块中获取测试响应信号,同时向并行处理模块发送中断响应。
具体实施时,以上各个预设子模块在预设调度子模块的调度下共同实现上述数据处理方法,以上各个预设子模块的具体实施可参见前面的方法实施例,在此不再赘述。
以上对本申请实施例所提供的一种数据处理方法、装置以及计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。

Claims (11)

1.一种数据处理方法,其特征在于,适用于终端设备中的串行处理模块,所述终端设备还包括并行处理模块,所述数据处理方法包括:
获取目标基因数据和参考基因数据组,所述目标基因数据包括多个目标基因序列数据;
基于所述参考基因数据组,对所述目标基因数据进行识别,确定所述目标基因序列数据的排列顺序;
基于所述目标基因序列数据的排列顺序,对所述目标基因序列数据进行组合,得到组合后目标基因数据;
向所述并行处理模块发送所述组合后目标基因数据;
获取所述并行处理模块对所述组合后目标基因数据进行变异检测和标记后返回的变异标记后目标基因数据组。
2.如权利要求1所述的数据处理方法,其特征在于,向所述并行处理模块发送所述组合后目标基因数据,包括:
基于预设数据长度,对所述组合后目标基因数据进行划分,得到多个待处理目标基因数据组;
获取数据处理指令;
将所述数据处理指令、所述待处理目标基因数据组,以及待处理目标基因数据组对应的数据长度信息,发送给所述并行处理模块。
3.如权利要求2所述的数据处理方法,其特征在于,所述并行处理模块包括多个预设数据处理子模块;
获取所述并行处理模块对所述组合后目标基因数据进行变异检测和标记后返回的变异标记后目标基因数据组,包括:
基于所述数据处理指令,触发所述并行处理模块根据所述数据长度信息,确定各待处理目标基因数据组与所述预设数据处理子模块的对应关系;基于所述对应关系,将所述待处理目标基因数据组分配给所述预设数据处理子模块进行变异检测和标记,得到变异标记后目标基因数据组;
获取所述并行处理模块返回的变异标记后目标基因数据组。
4.如权利要求3所述的数据处理方法,其特征在于,所述终端设备还包括存储模块,所述获取所述并行处理模块返回的变异标记后目标基因数据组,包括:
当所述预设数据处理子模块将所述变异标记后目标基因数据组发送给所述存储模块时,接收所述并行处理模块内的预设数据处理子模块返回的中断指令;
基于所述中断指令触发从所述存储模块中获取变异标记后目标基因数据组。
5.如权利要求1所述的数据处理方法,其特征在于,所述终端设备还包括存储模块,所述并行处理模块包括预设数据处理算法;所述数据处理方法还包括:
获取待更新的预设数据处理算法的预设算法标识信息,以及与所述待更新的预设数据处理算法对应的目标数据处理算法的目标算法标识信息;
向所述并行处理模块发送算法更新指令,以及所述预设算法标识信息和目标算法标识信息;
基于所述算法更新指令,触发所述并行处理模块根据预设算法标识信息和所述目标算法标识信息,将所述预设数据处理算法更新为所述目标数据处理算法。
6.如权利要求5所述的数据处理方法,其特征在于,基于所述算法更新指令,触发所述并行处理模块根据预设算法标识信息和目标算法标识信息,将所述预设数据处理算法更新为目标数据处理算法,包括:
基于所述算法更新指令,触发所述并行处理模块根据所述目标算法标识信息,从所述存储模块中获取所述目标数据处理算法;基于所述预设算法标识信息,获取与所述待更新的预设数据处理算法对应的预设数据处理子模块的待更新子模块标识信息;将所述目标数据处理算法发送给所述待更新子模块标识信息对应的预设数据处理子模块。
7.如权利要求1所述的数据处理方法,其特征在于,所述终端设备还包括存储模块;所述数据处理方法还包括:
获取测试指令,所述测试指令携带待测试的预设数据处理子模块的测试子模块标识信息;
基于所述测试指令向所述并行处理模块发送模式转换指令和所述测试子模块标识信息;
获取所述并行处理模块基于所述模式转换指令返回的所述测试子模块标识信息对应的测试响应信号。
8.如权利要求7所述的数据处理方法,其特征在于,获取所述并行处理模块基于所述模式转换指令返回的所述测试子模块标识信息对应的测试响应信号,包括:
触发所述并行处理模块基于所述模式转换指令向所述测试子模块标识对应的预设数据处理子模块发送测试信号;获取所述预设数据处理子模块基于所述测试信号生成的测试响应信号;将所述测试响应信号发送给所述存储模块;
接收所述并行处理模块基于所述存储模块返回的所述测试响应信号。
9.如权利要求8所述的数据处理方法,其特征在于,接收所述并行处理模块基于所述存储模块返回的所述测试响应信号,包括:
接收并行处理模块发送的中断指令;
基于所述中断指令,从所述存储模块中获取所述测试响应信号。
10.一种数据处理装置,其特征在于,包括:
数据获取单元,用于获取目标基因数据和参考基因数据组,所述目标基因数据包括多个目标基因序列数据。
识别单元,用于基于所述参考基因数据组,对所述目标基因数据进行识别,确定所述目标基因序列数据的排列顺序。
组合单元,用于基于所述目标基因序列数据的排列顺序,对所述目标基因序列数据进行组合,得到组合后目标基因数据。
发送单元,用于向所述并行处理模块发送所述组合后目标基因数据。
结果获取单元,用于获取所述并行处理模块对所述组合后目标基因数据进行变异检测和标记后返回的变异标记后目标基因数据组。
11.一种计算机可读计算机可读存储介质,其上存储有计算机程序,其特征在于,当计算机程序在计算机上运行时,使得所述计算机执行如权利要求1至9中任一项所述的数据处理方法。
CN201910980309.4A 2019-10-15 2019-10-15 一种数据处理方法、装置和计算机可读存储介质 Pending CN110767264A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910980309.4A CN110767264A (zh) 2019-10-15 2019-10-15 一种数据处理方法、装置和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910980309.4A CN110767264A (zh) 2019-10-15 2019-10-15 一种数据处理方法、装置和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN110767264A true CN110767264A (zh) 2020-02-07

Family

ID=69331179

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910980309.4A Pending CN110767264A (zh) 2019-10-15 2019-10-15 一种数据处理方法、装置和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110767264A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113297306A (zh) * 2020-09-30 2021-08-24 阿里云计算有限公司 数据处理方法及装置
CN114064576A (zh) * 2022-01-13 2022-02-18 北京九章云极科技有限公司 数据集获得方法、装置及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113297306A (zh) * 2020-09-30 2021-08-24 阿里云计算有限公司 数据处理方法及装置
CN114064576A (zh) * 2022-01-13 2022-02-18 北京九章云极科技有限公司 数据集获得方法、装置及电子设备

Similar Documents

Publication Publication Date Title
US10229245B2 (en) Method for biological data analysis
CN110767264A (zh) 一种数据处理方法、装置和计算机可读存储介质
CN105786405B (zh) 一种在线升级方法、装置及系统
WO2021238045A1 (zh) 基于rpa的大规模定制客户需求获取、查询方法
EP3502881B1 (en) Method for preloading application, storage medium, and terminal device
WO2013110083A2 (en) Identification of a data record for communication to a receiver
CN109034394B (zh) 一种机器学习模型的更新方法和装置
CN109032062A (zh) 一种pcie切换芯片
CN110635944A (zh) 一种集群网络配置方法、装置及电子设备和存储介质
US10878006B2 (en) Systems to interleave search results and related methods therefor
CN110928739A (zh) 一种进程监控方法、装置以及计算设备
EP3486774A1 (en) Method and device for dynamically assigning task and providing resources and system thereof
CN102393838B (zh) 数据处理方法及装置、pci-e总线系统、服务器
CN112996020A (zh) 一种基于蓝牙的自动化测试方法、装置及蓝牙测试终端
CN109639704A (zh) 一种主从式服务器系统应用方法、系统、服务器及存储介质
CN101859307B (zh) 键盘-屏幕-鼠标切换器、计算机系统与文件搜寻方法
CN108052354A (zh) 应用程序无响应的确定方法、装置、处理器及终端
CN111079914B (zh) 运算方法、系统及相关产品
CN111078285B (zh) 运算方法、系统及相关产品
CN111078125B (zh) 运算方法、装置及相关产品
CN106383708B (zh) 模块加载方法及系统
CN109471764B (zh) 一种系统信息快速读取方法、装置、终端及存储介质
CN111399905B (zh) 运算方法、装置及相关产品
US20220121434A1 (en) Prioritized non-active memory device update
WO2020063940A1 (zh) 计算装置及相关产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40021018

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination