CN115881225B

CN115881225B - 生物信息序列的分析方法、计算机存储介质及电子设备

Info

Publication number: CN115881225B
Application number: CN202211694852.6A
Authority: CN
Inventors: 阮好姬; 施金秀; 肖晓丹; 李珍; 陈悦
Original assignee: Yunzhou Biotechnology Guangzhou Co ltd
Current assignee: Yunzhou Biotechnology Guangzhou Co ltd
Priority date: 2022-12-28
Filing date: 2022-12-28
Publication date: 2024-01-26
Anticipated expiration: 2042-12-28
Also published as: CN115881225A

Abstract

本发明提供了一种生物信息序列的分析方法、计算机存储介质以及电子设备，分析方法包括以下步骤：S1、预设多个角色服务器组，并对每个角色服务器组所能运行的指令进行分类；S2、获取用户在网页中所提交的测序数据和预设序列，处理后得到序列文件；S3、使用相应的指令对序列文件进行处理，得到对应的原始测序数据文件，原始测序数据文件包含至少一个生物信息序列，生物信息序列包括生物基因组序列、生物RNA序列和蛋白质序列；S4、用户在网页中上传或选择原始测序数据文件，并对原始测序数据进行二次处理，得到处理后的核酸序列或者氨基酸序列；S5、筛选处理后的核酸序列或氨基酸序列，并输出筛选结果。根据本发明的分析方法，大大提高了运行效率。

Description

生物信息序列的分析方法、计算机存储介质及电子设备

技术领域

本发明涉及基因传输领域，更具体地，涉及一种生物信息序列的分析方法、计算机存储介质以及电子设备。

背景技术

随着生物技术的不断发展，人们对生物实验所需的信息-生物信息序列的分析需求越来越大。由于基因数据的复杂程度高，对基因数据的不同处理需要不同的软件或平台协同处理，使研究人员难以选择使用哪个软件和平台，同时消耗大量时间在软件和平台间的跳转上。另外，由于测序技术的快速发展，测序的成本显著降低，而测序速度得到了显著提高，DNA序列的数据量呈指数增长。如何快速的利用、表达这些数据，进而分析与解释基因序列里的潜在问题，从海量数据里发掘出对人类有利的信息，成为一个迫切需要解决的问题。

发明内容

为解决上述技术问题，本发明提供一种生物信息序列的分析方法、计算机存储介质和电子设备，可以大大提高生物信息序列的分析效率和用户体验。

根据本发明第一方面实施例的生物信息序列的分析方法，包括以下步骤：S1、预设多个角色服务器组，并对每个所述角色服务器组所能运行的指令进行分类；S2、获取用户在网页中所提交的测序数据和预设序列，处理后得到序列文件；S3、使用相应的指令对所述序列文件进行处理，得到对应的原始测序数据文件，所述原始测序数据文件包含至少一个生物信息序列，所述生物信息序列包括生物基因组序列、生物RNA序列和蛋白质序列；S4、用户在网页中上传或选择所述原始测序数据文件，并对所述原始测序数据进行二次处理，得到处理后的核酸序列或者氨基酸序列；S5、筛选处理后的所述核酸序列或氨基酸序列，并输出筛选结果。

根据本发明实施例的生物信息序列的分析方法，使用户通过预设好的步骤批量处理信息，以测序原始序列数据作为输入信息，通过自动化脚本控制流程的高效运行，可以同时进行大量序列的分析，输出分析结果。该分析方法减少了数据分析过程中的人工操作和软件跳转操作，节省大量的人力、物力，能更简便的批量处理二代测序的数据，大大提高了运行效率。

根据本发明的一个实施例，在步骤S1中，以队列的方式，将多种类型的所述指令进行并行处理。

根据本发明的一个实施例，由调度服务器识别所述指令的类型，并将所述指令发送给对应的所述角色服务器组。

根据本发明的一个实施例，所述角色服务器组包括多个生物分析角色，在所述生物分析角色空闲时，向所述调度服务器发送请求，所述调度服务器将工作分配给对应的所述生物分析角色。

根据本发明的一个实施例，在步骤S2中，获取用户在网页中所提交的测序数据和预设序列后，由平台获取FASTQ格式的高通量测序数据压缩包，解压后进行文件清洗，得到所述序列文件。

根据本发明的一个实施例，在步骤S3中，对不同类型的所述序列文件，生成相应的指令队列，使用对应的指令调用平台内集成的软件对所述文件序列进行处理，得到对应的所述原始测序数据文件。

根据本发明的一个实施例，在步骤S4中，对所述原始测序数据进行二次处理的方法包括：反向处理、互补处理、反向互补处理以及翻译处理。

根据本发明的一个实施例，在步骤S5中，通过短信、微信、电话或邮件等方式输出所述筛选结果。

第二方面，本发明实施例提供一种计算机存储介质，包括一条或多条计算机指令，所述一条或多条计算机指令在执行时实现如上述实施例所述的方法。

根据本发明第三方面实施例的电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机指令；所述处理器用于调用并执行所述一条或多条计算机指令，从而实现如上述任一实施例所述的方法。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的生物信息序列的分析方法的流程图；

图2为本发明实施例的电子设备的示意图。

附图标记：

电子设备300；

存储器310；操作系统311；应用程序312；

处理器320；网络接口330；输入设备340；硬盘350；显示设备360。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

下面首先对本申请中所提到的专有名词进行解释。

二代测序：测序(sequencing)就是用实验方法，测定DNA分子中核苷酸的种类及其排列次序，或者测定蛋白质分子中氨基酸的种类及其排列次序。二代测序即第二代测序(Next-generation sequencing，NGS)又称为高通量测序(High-throughput sequencing)，是基于PCR和基因芯片发展而来的DNA测序技术。二代测序具有通量高、读长短的特点。

预设序列：用户自定义的一段需要与高通量测序数据进行比对的序列。

文件清洗：根据需求，动态截取所需的序列信息，对无用序列进行删除。

R script：也称为R解释器，用于执行脚本文件。用R scripts给R脚本传递参数。

Redis Queue包：Redis Queue是一个轻量级的python库，用于将任务放入到队列，并在后台异步执行。可将复杂的异步任务进程优化，防止阻塞对客户端的响应。

Starcode软件：Starcode是一个DNA序列聚类软件。Starcode在生物学领域有许多应用，如DNA/RNA基序恢复、条形码/UMI聚类、测序错误恢复等。

R软件：R是属于GNU系统的一个自由、免费、源代码开放的软件，它是一个用于统计计算和统计制图的优秀工具。其语言是一种统计绘图语言，R也指实现该语言的软件。它是一种解释型语言，而不是编程语言，即输入的命令能够直接执行。

Blast软件：是生物信息学常用的工具软件，可将输入的核酸或蛋白质序列与数据库中的已知序列进行比对，获得序列相似度等信息，从而判断序列的来源或进化关系。

Bowtie软件：Bowtie是一个快速且较为节省内存的短序列比对至基因组的工具。它在拼接35碱基长度的序列时，可以达到每小时2.5亿次的拼接速度，非常适合高通量测序数据的分析。

下面结合附图具体描述根据本发明实施例的生物信息序列的分析方法。

如图1所示，根据本发明实施例的生物信息序列的分析方法包括以下步骤：

S1、预设多个角色服务器组，并对每个所述角色服务器组所能运行的指令进行分类；

S2、获取用户在网页中所提交的测序数据和预设序列，处理后得到序列文件；

S3、使用相应的指令对所述序列文件进行处理，得到对应的原始测序数据文件，所述原始测序数据文件包含至少一个生物信息序列，所述生物信息序列包括生物基因组序列、生物RNA序列和蛋白质序列；

S4、用户在网页中上传或选择所述原始测序数据文件，并对所述原始测序数据进行二次处理，得到处理后的核酸序列或者氨基酸序列；

S5、筛选处理后的所述核酸序列或氨基酸序列，并输出筛选结果。

由此，根据本发明实施例的生物信息序列的分析方法，使用户通过预设好的步骤批量处理信息，以测序原始序列数据作为输入信息，通过自动化脚本控制流程的高效运行，可以同时进行大量序列的分析，输出分析结果。该分析方法减少了数据分析过程中的人工操作和软件跳转操作，节省大量的人力、物力，能更简便的批量处理二代测序的数据，大大提高了运行效率。

根据本发明的一个实施例，在步骤S1中，以队列的方式，将多种类型的所述指令进行并行处理。可选地，由调度服务器识别所述指令的类型，并将所述指令发送给对应的所述角色服务器组。

在本发明的一些具体实施方式中，所述角色服务器组包括多个生物分析角色，在所述生物分析角色空闲时，向所述调度服务器发送请求，所述调度服务器将工作分配给对应的所述生物分析角色。

具体地，在步骤S2中，获取用户在网页中所提交的测序数据和预设序列后，由平台获取FASTQ格式的高通量测序数据压缩包，解压后进行文件清洗，得到所述序列文件。

可选地，在步骤S3中，对不同类型的所述序列文件，生成相应的指令队列，使用对应的指令调用平台内集成的软件对所述文件序列进行处理，得到对应的所述原始测序数据文件。

具体地，在步骤S5中，通过短信、微信、电话或邮件等方式输出所述筛选结果。

换言之，根据本发明实施例的生物信息序列的分析方法主要由智能调度、web端任务处理和输出结果三个步骤组成，其中，智能调度过程包括预定义分析角色服务器和多角色worker运行，在预定义分析角色服务器过程中，先预设定好分布式服务器，并对指令进行分类(一个角色服务器组运行一类指令)。使用队列优化系统，以队列的方式将多种类型的指令集进行并行处理。由调度服务器将指令发送给各个预设的角色服务器组，将空闲的生信分析角色(worker)运行起来。

在调度时，首先由调度服务器识别出指令的类型，将其分配给对应的角色服务器组，角色服务器组再分配工作(job)给空闲的worker。

在多角色worker运行阶段，角色服务器组由多个worker组成，如：角色服务器组-bowtie组，由B1、B2、B3等worker组成。当有worker空闲时，便会向调度服务器发送请求，调度服务器就分配job给worker。

由此，根据本发明实施例的生物信息序列的分析方法，通过智能调度的方法，可以能充分利用资源，提高分析效率。

在web端任务处理过程中，主要包括序列分析和数据二次处理两个步骤，其中，在序列分析阶段，多个用户可同时在网页中提交测序数据和预设序列，然后平台自动获取FASTQ格式的高通量测序数据压缩包，自动解压后进行文件清洗，获得所需的序列文件。

对不同类型的序列文件，通过队列优化系统，自动生成相应的指令队列，使用指令来调用平台内集成的R、R script、Starcode、Redis Queue、Blast、Bowtie等软件，对文件进行处理，最终得到对应的原始测序数据文件。

在数据二次处理过程中，多个用户在网页中可同时上传或选择原始测序数据文件(文件内有至少一个生物序列，且文件格式为xls或txt)，并选择处理类型，提交到平台。文件所含的生物信息序列包括但不限于生物基因组序列、生物RNA序列、蛋白质序列等。

选择文件数据进行二次处理的类型，如：反向、互补、反向互补、翻译等，以及选择输出内容。运行结束后，得到处理后的核酸序列或者氨基酸序列。再根据用户选择对输出的内容进行筛选删除，将结果以文件的方式输出。

在最后的结果输出阶段，序列分析和二次处理的结果可以同短信、微信、电话或者邮件等方式告知用户。

总而言之，本发明通过建立一个平台工具来解决二代测序的数据分析流程复杂的问题。将生物技术领域常用的序列分析流程进行了改进与整合，使分析过程实现了一站式分析。使用户通过预设好的步骤批量处理信息，以测序原始序列数据作为输入信息，通过自动化脚本控制流程的高效运行，可以同时进行大量序列的分析，输出分析结果。减少了数据分析过程中的人工操作和软件跳转操作，节省大量的人力、物力，能更简便的批量处理二代测序的数据，大大提高了运行效率。同时使用进化树对分析任务的过程和结果进行了可视化处理，提高了分析效率和用户体验。

此外，本发明还提供一种计算机存储介质，计算机存储介质包括一条或多条计算机指令，一条或多条计算机指令在执行时实现上述任一的生物信息序列的分析方法。

也就是说，计算机存储介质存储有计算机程序，计算机程序被处理器运行时，使得处理器执行上述任一的生物信息序列的分析方法。

如图2所示，本发明实施例提供了一种电子设备300，包括存储器310和处理器320，所述存储器310用于存储一条或多条计算机指令，所述处理器320用于调用并执行所述一条或多条计算机指令，从而实现上述任一所述的方法。

也就是说，电子设备300包括：处理器320和存储器310，在所述存储器310中存储有计算机程序指令，其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器320执行上述任一所述的方法。

进一步地，如图2所示，电子设备300还包括网络接口330、输入设备340、硬盘350、和显示设备360。

上述各个接口和设备之间可以通过总线架构互连。总线架构可以是可以包括任意数量的互联的总线和桥。具体由处理器320代表的一个或者多个中央处理器(CPU)，以及由存储器310代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解，总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外，还包括电源总线、控制总线和状态信号总线，这些都是本领域所公知的，因此本文不再对其进行详细描述。

所述网络接口330，可以连接至网络(如因特网、局域网等)，从网络中获取相关数据，并可以保存在硬盘350中。

所述输入设备340，可以接收操作人员输入的各种指令，并发送给处理器320以供执行。所述输入设备340可以包括键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

所述显示设备360，可以将处理器320执行指令获得的结果进行显示。

所述存储器310，用于存储操作系统运行所必须的程序和数据，以及处理器320计算过程中的中间结果等数据。

可以理解，本发明实施例中的存储器310可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。本文描述的装置和方法的存储器310旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器310存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统311和应用程序312。

其中，操作系统311，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序312，包含各种应用程序，例如浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序312中。

本发明上述实施例揭示的方法可以应用于处理器320中，或者由处理器320实现。处理器320可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器320中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器320可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器310，处理器320读取存储器310中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ASIC)、数字信号处理器DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

具体地，处理器320还用于读取所述计算机程序，执行上述任一所述的方法。

在本申请所提供的几个实施例中，应该理解到，所揭露方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述收发方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种生物信息序列的分析方法，其特征在于，包括以下步骤：

S5、筛选处理后的所述核酸序列或氨基酸序列，并输出筛选结果，

其中，在步骤S1中，以队列的方式，将多种类型的所述指令进行并行处理，由调度服务器识别所述指令的类型，并将所述指令发送给对应的所述角色服务器组，所述角色服务器组包括多个生物分析角色，在所述生物分析角色空闲时，向所述调度服务器发送请求，所述调度服务器将工作分配给对应的所述生物分析角色；

在步骤S3中，对不同类型的所述序列文件，生成相应的指令队列，使用对应的指令调用平台内集成的软件对所述文件序列进行处理，得到对应的所述原始测序数据文件。

2.根据权利要求1所述的生物信息序列的分析方法，其特征在于，在步骤S2中，获取用户在网页中所提交的测序数据和预设序列后，由平台获取FASTQ格式的高通量测序数据压缩包，解压后进行文件清洗，得到所述序列文件。

3.根据权利要求1所述的生物信息序列的分析方法，其特征在于，在步骤S4中，对所述原始测序数据进行二次处理的方法包括：反向处理、互补处理、反向互补处理以及翻译处理。

4.根据权利要求1所述的生物信息序列的分析方法，其特征在于，在步骤S5中，通过短信、微信、电话或邮件的方式输出所述筛选结果。

5.一种计算机存储介质，其特征在于，包括一条或多条计算机指令，所述一条或多条计算机指令在执行时实现如权利要求1-4中任一项所述的方法。

6.一种电子设备，包括存储器和处理器，其特征在于，

所述存储器用于存储一条或多条计算机指令；

所述处理器用于调用并执行所述一条或多条计算机指令，从而实现如权利要求1-4中任一项所述的方法。