CN110993033A - 一种基因组数据的处理方法、系统及装置 - Google Patents

一种基因组数据的处理方法、系统及装置 Download PDF

Info

Publication number
CN110993033A
CN110993033A CN201911114957.8A CN201911114957A CN110993033A CN 110993033 A CN110993033 A CN 110993033A CN 201911114957 A CN201911114957 A CN 201911114957A CN 110993033 A CN110993033 A CN 110993033A
Authority
CN
China
Prior art keywords
file
gene
server
root directory
files
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911114957.8A
Other languages
English (en)
Inventor
余欢
苏庆东
李瑞强
陈明
李莉
郑琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Novogene Biological Information Technology Co ltd
Tianjin Nuohe Medical Examination Institute Co ltd
Beijing Novogene Technology Co ltd
Original Assignee
Tianjin Novogene Biological Information Technology Co ltd
Tianjin Nuohe Medical Examination Institute Co ltd
Beijing Novogene Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Novogene Biological Information Technology Co ltd, Tianjin Nuohe Medical Examination Institute Co ltd, Beijing Novogene Technology Co ltd filed Critical Tianjin Novogene Biological Information Technology Co ltd
Priority to CN201911114957.8A priority Critical patent/CN110993033A/zh
Publication of CN110993033A publication Critical patent/CN110993033A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/188Virtual file systems
    • G06F16/196Specific adaptations of the file system to access devices and non-file objects via standard file system access operations, e.g. pseudo file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基因组数据的处理方法、系统及装置。其中,该方法包括:读取基因文件,其中,基因文件的类型包括如下至少之一:VCF文件、注释后的TSV文件或注释后的VCF文件;按照基因文件的类型,将基因文件存储到基因组数据库中;在服务器中成功部署配置文件的情况下,将应用程序解压到服务器的网页根目录下,其中,服务器的配置文件包括:访问端口和网页根目录,然后配置应用程序连接数据库。本发明解决了目前无法对自己构建的基因数据库进行方便地操作的技术问题。

Description

一种基因组数据的处理方法、系统及装置
技术领域
本发明涉及数据处理领域,具体而言,涉及一种基因组数据的处理方法、系统及装置。
背景技术
随着第二代基因测序的不断发展,该领域陆续涌现出了越来越多的测序数据,目前已有部分数据通过专业的技术人员,利用数据库和网站构建技术,构建特定的表型的数据库并进行数据展示,例如千人基因组数据库,gnomAD数据库等,可以便于科研工作者的查询。但是由于这些数据库的构建,均需要专业团队和专业人士进行处理,并且目前只覆盖了已产生的测序数据的冰山一角,普通科研工作者难以利用专业技术,对自己已经产生的数据,进行数据的展示与再利用或者共享等。
因此,目前领域相关人员无法方便地对自己产生的基因组数据进行构建数据库,阻碍了数据的挖掘、利用、分享和展示。针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种基因组数据的处理方法、系统及装置,以至少解决目前无法对自己构建的基因数据库进行方便地操作的技术问题。
根据本发明实施例的一个方面,提供了一种基因组数据的处理方法,包括:获取基因文件,其中,基因文件的类型包括如下至少之一:VCF文件、注释后的TSV文件或注释后的VCF文件;按照基因文件的类型,将基因文件存储到基因组数据库中;在服务器中成功部署配置文件的情况下,将基因组数据库中的基因文件解压到服务器的网页根目录下,其中,配置文件包括:访问端口和网页根目录。
可选的,在将基因组数据库中的基因文件解压到服务器的网页根目录下之后,所述方法还包括:接收到访问请求;基于访问请求调取网页根目录下的基因文件;将网页根目录下的基因文件,返回至前端应用界面中的网页中进行展示。
可选的,在将网页根目录下的所述基因文件,返回至前端应用界面中的网页中进行展示之后,所述方法还包括:前端应用界面接收到操作指令,其中,操作指令包括如下至少之一:浏览、查询、打开、关闭、更新、筛选和共享;前端应用界面显示基于操作指令返回的操作结果。
可选的,按照基因文件的类型,将基因文件存储到基因组数据库中,包括:读取所述基因文件的类型;在所述基因文件中存在所述VCF文件的情况下,统计所述VCF文件的数量;如果所述数量为多个,则将所述多个VCF文件进行合并,并将合并结果存储到所述基因组数据库;如果所述数量为一个,则将所述VCF文件直接存数至所述基因组数据库。
可选的,基因文件中的VCF文件,存储VCF文件中的突变位点的频率信息至基因组数据库;基因文件中注释后的TSV文件或注释后的VCF文件,提取突变位点的注释信息,并将所有提取的突变位点的注释信息存储到基因组数据库中。
可选的,在将基因组数据库中的基因文件解压到服务器的网页根目录下之前,所述方法还包括:更新服务器中部署的配置文件,并在设置访问端口和网页根目录的情况下,开启服务器。
根据本发明实施例的另一方面,还提供了一种基因组数据的处理方法,包括:前端设备在应用界面上展示访问界面,其中,访问界面用于展示访问请求的访问结果;前端设备基于访问请求,从服务器中的网页根目录下读取与访问请求对应的基因文件,其中,服务器中存储在基因组数据库的基因文件解压在网页根目录下,基因文件的类型包括如下至少之一:VCF文件、注释后的TSV文件和注释后的VCF文件;前端设备将基因文件展示在应用界面中。
可选的,在前端设备基于访问请求,从服务器中的网页根目录下读取与访问请求对应的基因文件之前,所述方法还包括:服务器接收到前端设备发送的访问请求;服务器基于访问请求调取网页根目录下的基因文件;其中,服务器在成功部署配置文件的情况下,将基因组数据库中的基因文件解压到所述服务器,其中,配置文件包括:访问端口和所述网页根目录。
根据本发明实施例的另一方面,还提供了一种基因组数据的处理系统,包括:前端设备,用于在应用界面上展示访问界面,其中,访问界面用于展示访问请求的访问结果;服务器,与前端设备通信,用于接收访问请求,基于访问请求调取网页根目录下的基因文件,并将基因文件返回给所述前端设备。
根据本发明实施例的另一方面,还提供了一种基因组数据的处理装置,包括:获取模块,用于获取基因文件,其中,基因文件的类型包括如下至少之一:VCF文件、注释后的TSV文件或注释后的VCF文件;存储模块,用于按照基因文件的类型,将基因文件存储到基因组数据库中;解压模块,用于在服务器中成功部署配置文件的情况下,将基因组数据库中的基因文件解压到服务器的网页根目录下,其中,配置文件包括:访问端口和网页根目录。
根据本发明实施例的另一方面,还提供了一种非易失性存储介质,包括存储的程序,其中,所述程序运行时控制非易失性存储介质所在的设备执行一种基因组数据的处理方法。
根据本发明实施例的另一方面,还提供了一种处理器用于运行程序,其中,所述程序运行时执行一种基因组数据的处理方法。
在本发明实施例中,采用将基因文件存储到网页根目录的方式,达到了通过网页对基因文件进行操作的目的,从而实现了本领域人员通过网页方便地访问基因组数据库的技术效果,进而解决了目前无法对自己构建的基因数据库进行方便地操作的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种基因组数据的处理方法的流程图;
图2是根据本发明实施例另一种基因组数据的处理方法的流程图;
图3是根据本发明实施例的一种基因组数据的处理系统的结构框图;
图4是根据本发明实施例的一种基因组数据的处理装置的结构框图;
图5是本发明实施例的一种可选的基因组数据的处理方法的流程图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例,提供了一种基因组数据的处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种基因组数据的处理方法,如图1所示,该方法包括如下步骤:
步骤S102,获取基因文件,其中,基因文件的类型包括如下至少之一:VCF文件、注释后的TSV文件或注释后VCF文件。
具体地,可以通过人为导入获取或自动识别基因文件进行获取的方式,对有用户端产生的基因文件进行获取。其中,基因文件大致可分为三类:常规VCF文件、ANNOVAR软件注释后的TSV文件(tab分隔的文本文件)或ANNOVAR软件注释后的VCF文件;对于常规VCF文件,只提取突变位点并计算每个位点的频率等信息;对于ANNOVAR软件注释后的TSV文件或VCF文件,会另外提取突变位点的ANNOVAR注释信息,所有提取的突变位点信息会存储到数据库中,用于后面的使用。
步骤S104,按照基因文件的类型,将基因文件存储到基因组数据库中。
可选的,按照基因文件的类型,将基因文件存储到基因组数据库中,包括:读取所述基因文件的类型;在所述基因文件中存在所述VCF文件的情况下,统计所述VCF文件的数量;如果所述数量为多个,则将所述多个VCF文件进行合并,并将合并结果存储到所述基因组数据库;如果所述数量为一个,则将所述VCF文件直接存数至所述基因组数据库。
具体地,如图5所示的应用流程图,将基因文件存储到数据库中,可以是服务器通过INN输入口读取基因文件,并根据其类型进行统计,其中文件类型可以包括以下至少之一:VCF文件、注释后的TSV文件、注释后的VCF文件,那么服务器根据这三类文件的文件类型分别对三类文件进行数量统计,并根据统计出来的数量,判断向数据库存储的方式,进一步地,当上述统计的数量为复数时,服务器对该类型的基因文件进行合并,并将合并后的文件存入数据库,当上述统计数量为单数的时候,服务器则将该类型的基因文件直接存储进数据库中,无需进行合并的操作。这样经过对复数个基因文件的合并存储过程,可以大大地增加文件存储的效率以及资源利用率。
需要说明的是,基因文件所储存的数据库可以选择MySQL数据库,其中通过数据库索引进行增加、删除、修改、查询的用户体验较好,同时MySQL的储存引擎支持多种内存格式,以符合不同情况的应用场景。
例如,服务器INN输入端获取到的基因文件为1.VCF、2.VCF、5.TSV,那么服务器判断到基因VCF文件一种有两个,分别是1.VCF、2.VCF,由于VCF文件为复数文件,所以将对其执行合并操作,合并之后文件为12.VCF,然后将该基因文件存储到MySQL创建好的VCF表中,另外,由于5.TSV是单数情况的基因文件,所以服务器直接对其进行存储至MySQL数据库中创建好的TSV表中,于是经过上述操作,服务器的MySQL数据库已经将获取到的基因文件全部存储至数据库的相应位置,以备调用。
步骤S106,在服务器中成功部署配置文件的情况下,将基因组数据库中的基因文件解压到服务器的网页根目录下,其中,配置文件包括:访问端口和网页根目录。
具体地,服务器可选择Nginx或Apache软件,然后通过CentOS系统对yum命令进行安装,安装完成后需要配置服务器配置文件,设置端口和网站根目录,然后开启服务器;服务器端的应用程序可以基于PHP语言编写,因此还需要安装PHP5.6和PHP-FPM,同样可通过yum命令进行安装,安装完成后做好相应的配置,开启PHP-FPM服务;最后把该程序解压到服务器网站的根目录,并配置应用程序连接到基因组数据库,即可在浏览器中进行登录,访问,管理等操作。其中,上述应用程序可以为服务器为前端设备提供的应用程序,且该应用程序运行于前端设备中。
需要说明的是,将服务器端的程序解压至网页根目录下不限于PHP编写的执行程序,还可以是除了基本的功能之外的一些常用工具的扩展,如参考基因组间的坐标转换,常用绘图等,可按需求选择性进行解压和安装。
可选的,在将基因组数据库中的基因文件解压到服务器的网页根目录下之前,所述方法还包括:更新服务器中部署的配置文件,并在设置访问端口和网页根目录的情况下,开启服务器。
具体地,在将前序步骤中基因组数据库中的基因文件(至少三类基因文件)解压到服务器的网页根目录下之前,需要对服务器配置进行部署,以符合后续数据处理工作,其中,服务器可选择Nginx或Apache软件,服务器所采用的CentOS系统可通过yum命令进行安装,安装完成后需要修改服务器配置文件,设置端口和网站根目录,然后开启服务器;由于服务器中需要安装的程序是基于PHP语言编写的,因此还需要在服务器安装PHP5.6和PHP-FPM,上述PHP5.6和PHP-FPM同样可通过yum命令进行安装,安装完成后做好相应的配置,开启PHP-FPM服务;最后一步是把相关服务器中的程序(前述PHP编写的程序)解压到服务器网站的根目录,即可在浏览器中进行登录,访问,管理等操作。
需要说明的是,上述实施例中服务器的部署操作可通过提供的一键安装脚本一键完成安装和配置。
可选的,在将基因组数据库中的基因文件解压到服务器的网页根目录下之后,所述方法还包括:接收到访问请求;基于访问请求调取网页根目录下的基因文件;将网页根目录下的基因文件,返回至前端应用界面中的网页中进行展示。
具体地,在将前序步骤中应用程序解压到服务器的网页根目录下之后,服务器接收来自用户请求访问的访问请求数据,应用程序根据访问请求从基因组数据库中获取数据并返回给前端应用界面,其中,前端应用界面是实时与用户交互的终端的界面,例如可以是个人电脑或手机的浏览器。例如,将网页中相关基因文件调取到服务器的临时缓存中,然后在全部基因文件调取完毕后将基因文件发至前端应用界面。
可选的,在将网页根目录下的所述基因文件,返回至前端应用界面中的网页中进行展示之后,所述方法还包括:前端应用界面接收到操作指令,其中,操作指令包括如下至少之一:浏览、查询、打开、关闭、更新、筛选和共享;前端应用界面显示基于操作指令返回的操作结果。
具体地,在将网页根目录下的所述基因文件,返回至前端应用界面中的网页中进行展示之后,前段界面可以是个人电脑或手机移动端,当前段界面接收到包括浏览、查询、打开、关闭、更新、筛选和共享的操作指令时,根据用户的上述操作指令显示操作后的返回结果,例如,用户在前段界面对基因文件进行删除操作,那么在删除操作执行完毕之后,前端应用界面向用户反馈操作成功的提示以及向服务器反馈用户的操作信息,以便服务器可以针对用户的操作对数据进行实时更新。
可选的,基因文件中的VCF文件,存储VCF文件中的突变位点的频率信息至基因组数据库;基因文件中注释后的TSV文件或注释后的VCF文件,提取突变位点的注释信息,并将所有提取的突变位点的注释信息存储到基因组数据库中。
通过上述步骤,可以实现本领域人员通过网页方便地访问基因文件的技术效果。
根据本发明实施例的另一方面,还提供了一种基因组数据的处理方法,如图2所示,包括以下步骤:
步骤S202,前端设备在应用界面上展示访问界面,其中,访问界面用于展示访问请求的访问结果。
具体地,前端设备可以是个人电脑或手机移动端等终端设备,前端设备中安装了本实施例相关的程序,用于显示访问界面,访问界面可以是可视化图形界面,当用户发送访问请求的时候,访问界面对于调用到的基因文件进行显示,并提示用户可以进行的操作指令都有哪些。
例如,当用户使用手机app发送基因文件访问请求的时候,手机app中的显示界面将根据获取数据的情况进行显示,同时显示可供用户操作的操作指令按钮。
步骤S204,前端设备基于访问请求,从服务器中的网页根目录下读取与访问请求对应的基因文件,其中,服务器中存储在基因组数据库的基因文件解压在网页根目录下,基因文件的类型包括如下至少之一:vcf文件、注释后的tsv文件和注释后的vcf文件。具体地,服务器端的应用程序基于访问请求,从基因组数据库中获取数据并返回给前端设备。
步骤S206,前端设备将基因文件展示在应用界面中。
可选的,在前端设备基于访问请求,从服务器中的网页根目录下读取与访问请求对应的基因文件之前,所述方法还包括:服务器接收到前端设备发送的访问请求;服务器基于访问请求调取网页根目录下的基因文件;其中,服务器在成功部署配置文件的情况下,将基因组数据库中的基因文件解压到所述服务器,其中,配置文件包括:访问端口和所述网页根目录。
具体地,在将前序步骤中基因组数据库中的基因文件(至少三类基因文件)解压(例如应用程序)到服务器的网页根目录下之前,需要对服务器配置进行部署,以符合后续数据处理工作,其中,服务器可选择Nginx或Apache软件,服务器所采用的CentOS系统可通过yum命令进行安装,安装完成后需要修改服务器配置文件,设置端口和网站根目录,然后开启服务器;由于服务器中需要安装的程序是基于PHP语言编写的,因此还需要在服务器安装PHP5.6和PHP-FPM,上述PHP5.6和PHP-FPM同样可通过yum命令进行安装,安装完成后做好相应的配置,开启PHP-FPM服务;最后一步是把相关服务器中的程序(前述PHP编写的程序)解压到服务器网站的根目录,即可在浏览器中进行登录,访问,管理等操作。
需要说明的是,上述实施例中服务器的部署操作可通过提供的一键安装脚本一键完成安装和配置。
根据本发明实施例的另一方面,还提供了一种基因组数据的处理系统,如图3所示,包括:前端设备30,用于在应用界面上展示访问界面,其中,访问界面用于展示访问请求的访问结果;服务器32,与前端设备通信,用于接收访问请求,基于访问请求调取网页根目录下的基因文件,并将基因文件返回给所述前端设备;其中,所述前端设备还用于在应用界面中展示基因文件;其中,服务器将存储在基因组数据库的基因文件解压在网页根目录下,基因文件的类型包括如下至少之一:VCF文件、注释后的TSV文件和注释后的VCF文件。
根据本发明实施例的另一方面,还提供了一种基因组数据的处理装置,如图4所示,包括:读取模块40,用于读取基因文件,其中,基因文件的类型包括如下至少之一:VCF文件、注释后的TSV文件或注释后的VCF文件;存储模块42,用于按照基因文件的类型,将基因文件存储到基因组数据库中;解压模块44,用于在服务器中成功部署配置文件的情况下,将应用程序解压到服务器的网页根目录下,其中,配置文件包括:访问端口和网页根目录。
具体地,在读取模块40中,可以通过人为导入获取或自动识别基因文件进行获取的方式,对有用户端产生的基因文件进行获取。其中,基因文件大致可分为三类:常规VCF文件、ANNOVAR软件注释后的TSV文件(tab分隔的文本文件)和ANNOVAR软件注释后的VCF文件;对于常规VCF文件,只提取突变位点并计算每个位点的频率等信息;对于ANNOVAR软件注释后的TSV文件或VCF文件,会另外提取突变位点的ANNOVAR注释信息,所有提取的突变位点信息会存储到数据库中,用于后面的使用。
具体地,在存储模块42中,将基因文件存储到数据库中,可以是服务器通过INN输入口读取基因文件,并根据其类型进行统计,其中文件类型可以包括:VCF文件、注释后的TSV文件或注释后的VCF文件,那么服务器根据这三类文件的文件类型分别对三类文件进行数量统计,并根据统计出来的数量,判断向数据库存储的方式,进一步地,当上述统计的数量为复数时,服务器对该类型的基因文件进行合并,并将合并后的文件存入数据库,当上述统计数量为单数的时候,服务器则将该类型的基因文件直接存储进数据库中,无需进行合并的操作。这样经过对复数个基因文件的合并存储过程,可以大大地增加文件存储的效率以及资源利用率。
需要说明的是,基因文件所储存的数据库可以选择MySQL数据库,其中通过数据库索引进行增加、删除、修改、查询的用户体验较好,同时MySQL的储存引擎支持多种内存格式,以符合不同情况的应用场景。
例如,服务器INN输入端获取到的基因文件为1.VCF、2.VCF、5.TSV,那么服务器判断到基因VCF文件一种有两个,分别是1.VCF、2.VCF,由于VCF文件为复数文件,所以将对其执行合并操作,合并之后文件为12.VCF,然后将该基因文件存储到MySQL创建好的VCF表中,另外,由于5.TSV是单数情况的基因文件,所以服务器直接对其进行存储至MySQL数据库中创建好的TSV表中,于是经过上述操作,服务器的MySQL数据库已经将获取到的基因文件全部存储至数据库的相应位置,以备调用。
具体地,在解压模块44中,服务器可选择Nginx或Apache软件,然后通过CentOS系统对yum命令进行安装,安装完成后需要配置服务器配置文件,设置端口和网站根目录,然后开启服务器;服务器端运行程序可以基于PHP语言编写,因此还需要安装PHP5.6和PHP-FPM,同样可通过yum命令进行安装,安装完成后做好相应的配置,开启PHP-FPM服务;最后把该程序解压到服务器网站的根目录,即可在浏览器中进行登录,访问,管理等操作。在具体实施时,上述将PHP编写的程序解压到网页根目录下只是为基因文件的解压和录入建立一个平台,当S104中数据库获取的基因文件解压至网页根目录完毕时,便可开展后续的操作步骤。
需要说明的是,将服务器端的程序解压至网页根目录下不限于PHP编写的执行程序,还可以是除了基本的功能之外的一些常用工具的扩展,如参考基因组间的坐标转换,常用绘图等,可按需求选择性进行解压和安装。
可选的,在将基因组数据库中的基因文件解压到服务器的网页根目录下之前,所述方法还包括:更新服务器中部署的配置文件,并在设置访问端口和网页根目录的情况下,开启服务器。
具体地,在将前序步骤中基因组数据库中的基因文件(至少三类基因文件)解压到服务器的网页根目录下之前,需要对服务器配置进行部署,以符合后续数据处理工作,其中,服务器可选择Nginx或Apache软件,服务器所采用的CentOS系统可通过yum命令进行安装,安装完成后需要修改服务器配置文件,设置端口和网站根目录,然后开启服务器;由于服务器中需要安装的程序是基于PHP语言编写的,因此还需要在服务器安装PHP5.6和PHP-FPM,上述PHP5.6和PHP-FPM同样可通过yum命令进行安装,安装完成后做好相应的配置,开启PHP-FPM服务;最后一步是把相关服务器中的程序(前述PHP编写的程序)解压到服务器网站的根目录,即可在浏览器中进行登录,访问,管理等操作。
需要说明的是,上述实施例中服务器的部署操作可通过提供的一键安装脚本一键完成安装和配置。
可选的,在将基因组数据库中的基因文件解压到服务器的网页根目录下之后,接收到访问请求;基于访问请求调取网页根目录下的基因文件;将网页根目录下的基因文件,返回至前端应用界面中的网页中进行展示。
具体地,在将前序步骤中基因组数据库中的基因文件(至少三类基因文件)解压到服务器的网页根目录下之后,服务器接收来自用户请求访问的访问请求数据,并根据访问请求数据将网页中相关基因文件调取到服务器的临时缓存中,然后在全部基因文件调取完毕后将基因文件发至前端应用界面,其中,前端应用界面是实时与用户交互的终端的界面,例如可以是个人电脑或手机的浏览器。
可选的,在将网页根目录下的所述基因文件,返回至前端应用界面中的网页中进行展示之后,所述方法还包括:前端应用界面接收到操作指令,其中,操作指令包括如下至少之一:浏览、查询、打开、关闭、更新、筛选和共享;前端应用界面显示基于操作指令返回的操作结果。
具体地,在将网页根目录下的所述基因文件,返回至前端应用界面中的网页中进行展示之后,前段界面可以是个人电脑或手机移动端,当前段界面接收到包括浏览、查询、打开、关闭、更新、筛选和共享的操作指令时,根据用户的上述操作指令显示操作后的返回结果,例如,用户在前段界面对基因文件进行删除操作,那么在删除操作执行完毕之后,前端应用界面向用户反馈操作成功的提示以及向服务器反馈用户的操作信息,以便服务器可以针对用户的操作对数据进行实时更新。
可选的,基因文件中的VCF文件,存储VCF文件中的突变位点的频率信息至基因组数据库;基因文件中注释后的TSV文件或注释后的VCF文件,提取突变位点的注释信息,并将所有提取的突变位点的注释信息存储到基因组数据库中。
根据本发明实施例的另一方面,还提供了一种本发明实施例的应用流程图
根据本发明实施例的另一方面,还提供了一种非易失性存储介质,包括存储的程序,其中,所述程序运行时控制非易失性存储介质所在的设备执行一种基因组数据的处理方法。例如,可以包括:读取基因文件,其中,基因文件的类型包括如下至少之一:VCF文件、注释后的TSV文件或注释后的VCF文件;按照基因文件的类型,将基因文件存储到基因组数据库中;在服务器中成功部署配置文件的情况下,将应用程序解压到服务器的网页根目录下,其中,配置文件包括:访问端口和网页根目录。
根据本发明实施例的另一方面,还提供了一种处理器用于运行程序,其中,所述程序运行时执行一种基因组数据的处理方法。例如,可以包括:读取基因文件,其中,基因文件的类型包括如下至少之一:VCF文件、注释后的TSV文件或注释后的VCF文件;按照基因文件的类型,将基因文件存储到基因组数据库中;在服务器中成功部署配置文件的情况下,将基因组数据库中的基因文件(该基因文件包括:应用程序)解压到服务器的网页根目录下,其中,配置文件包括:访问端口和网页根目录。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (12)

1.一种基因组数据的处理方法,其特征在于,包括:
获取基因文件,其中,所述基因文件的类型包括如下至少之一:VCF文件、注释后的TSV文件和注释后的VCF文件;
按照所述基因文件的类型,将所述基因文件存储到基因组数据库中;
在服务器中成功部署配置文件的情况下,将所述基因组数据库中的基因文件解压到所述服务器的网页根目录下,其中,所述配置文件包括:访问端口和所述网页根目录。
2.根据权利要求1所述的方法,其特征在于,在将所述基因组数据库中的基因文件解压到所述服务器的网页根目录下之后,所述方法还包括:
接收到访问请求;
基于所述访问请求调取所述网页根目录下的所述基因文件;
将所述网页根目录下的所述基因文件,返回至前端应用界面中的网页中进行展示。
3.根据权利要求2所述的方法,其特征在于,在将所述网页根目录下的所述基因文件,返回至前端应用界面中的网页中进行展示之后,所述方法还包括:
所述前端应用界面接收到操作指令,其中,所述操作指令包括如下至少之一:浏览、查询、打开、关闭、更新、筛选和共享;
所述前端应用界面显示基于所述操作指令返回的操作结果。
4.根据权利要求1所述的方法,其特征在于,按照所述基因文件的类型,将所述基因文件存储到基因组数据库中,包括:
读取所述基因文件的类型;
在所述基因文件中存在所述VCF文件的情况下,统计所述VCF文件的数量;
如果所述数量为多个,则将所述多个VCF文件进行合并,并将合并结果存储到所述基因组数据库;
如果所述数量为一个,则将所述VCF文件直接存数至所述基因组数据库。
5.根据权利要求1至4中任意一项所述的方法,其特征在于,
所述基因文件中的VCF文件,存储所述VCF文件中的突变位点的频率信息至所述基因组数据库;
所述基因文件中注释后的TSV文件或注释后的VCF文件,提取突变位点的注释信息,并将所有提取的突变位点的注释信息存储到所述基因组数据库中。
6.根据权利要求1所述的方法,其特征在于,在将所述基因组数据库中的基因文件解压到所述服务器的网页根目录下之前,所述方法还包括:
更新所述服务器中部署的所述配置文件,并在设置所述访问端口和所述网页根目录的情况下,开启所述服务器。
7.一种基因组数据的处理方法,其特征在于,包括:
前端设备在应用界面上展示访问界面,其中,所述访问界面用于展示访问请求的访问结果;
所述前端设备基于所述访问请求,从服务器中的网页根目录下读取与所述访问请求对应的基因文件,其中,所述服务器中存储在基因组数据库的基因文件解压在所述网页根目录下,所述基因文件的类型包括如下至少之一:VCF文件、注释后的TSV文件和注释后的VCF文件;
所述前端设备将所述基因文件展示在所述应用界面中。
8.根据权利要求7所述的方法,其特征在于,在所述前端设备基于所述访问请求,从服务器中的网页根目录下读取与所述访问请求对应的基于文件之前,所述方法还包括:
所述服务器接收到所述前端设备发送的访问请求;
所述服务器基于所述访问请求调取所述网页根目录下的所述基因文件;
其中,所述服务器在成功部署配置文件的情况下,将所述基因组数据库中的基因文件解压到所述服务器,其中,所述配置文件包括:访问端口和所述网页根目录。
9.一种基因组数据的处理系统,其特征在于,包括:
前端设备,用于在应用界面上展示访问界面,其中,所述访问界面用于展示访问请求的访问结果;
服务器,与所述前端设备通信,用于接收所述访问请求,基于所述访问请求调取网页根目录下的基因文件,并将所述基于文件返回给所述前端设备;
其中,所述前端设备还用于在所述应用界面中展示所述基于文件;
其中,所述服务器将存储在基因组数据库的基因文件解压在所述网页根目录下,所述基因文件的类型包括如下至少之一:VCF文件、注释后的TSV文件和注释后的VCF文件。
10.一种文本的处理装置,其特征在于,包括:
获取模块,用于获取基因文件,其中,所述基因文件的类型包括如下至少之一:VCF文件、注释后的TSV文件或注释后的VCF文件;
存储模块,用于按照所述基因文件的类型,将所述基因文件存储到基因组数据库中;
解压模块,用于在服务器中成功部署配置文件的情况下,将所述基因组数据库中的基因文件解压到所述服务器的网页根目录下,其中,所述配置文件包括:访问端口和所述网页根目录。
11.一种非易失性存储介质,其特征在于,所述非易失性存储介质包括存储的程序,其中,所述程序运行时控制非易失性存储介质所在的设备执行权利要求1至8中任意一项所述的方法。
12.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至8中任意一项所述的方法。
CN201911114957.8A 2019-11-14 2019-11-14 一种基因组数据的处理方法、系统及装置 Pending CN110993033A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911114957.8A CN110993033A (zh) 2019-11-14 2019-11-14 一种基因组数据的处理方法、系统及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911114957.8A CN110993033A (zh) 2019-11-14 2019-11-14 一种基因组数据的处理方法、系统及装置

Publications (1)

Publication Number Publication Date
CN110993033A true CN110993033A (zh) 2020-04-10

Family

ID=70084506

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911114957.8A Pending CN110993033A (zh) 2019-11-14 2019-11-14 一种基因组数据的处理方法、系统及装置

Country Status (1)

Country Link
CN (1) CN110993033A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112037857A (zh) * 2020-08-13 2020-12-04 中国科学院微生物研究所 菌株基因组注释查询方法、装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001043051A2 (en) * 1999-11-30 2001-06-14 Board Of Trustees Of Wheaton College Computer method and apparatus for revealing promotor motifs
CN104246689A (zh) * 2011-12-08 2014-12-24 凡弗3基因组有限公司 提供基因组数据的动态索引和可视化的分布式系统
US20160283407A1 (en) * 2015-03-23 2016-09-29 Edico Genome Corporation Method And System For Genomic Visualization
CN108038353A (zh) * 2017-12-26 2018-05-15 重庆佰诺吉生物科技有限公司 一种基因组数据的网页展示方法
CN108537008A (zh) * 2018-03-20 2018-09-14 常州大学 高通量基因测序大数据分析云平台系统
CN108989362A (zh) * 2017-05-31 2018-12-11 北京京东尚科信息技术有限公司 一种静态资源的处理方法和装置
CN109086567A (zh) * 2017-07-21 2018-12-25 上海桑格信息技术有限公司 基于云计算平台的有参考基因组的转录组项目的交互式分析系统及方法
CN109637584A (zh) * 2019-01-24 2019-04-16 上海海云生物科技有限公司 肿瘤基因诊断辅助决策系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001043051A2 (en) * 1999-11-30 2001-06-14 Board Of Trustees Of Wheaton College Computer method and apparatus for revealing promotor motifs
CN104246689A (zh) * 2011-12-08 2014-12-24 凡弗3基因组有限公司 提供基因组数据的动态索引和可视化的分布式系统
US20160283407A1 (en) * 2015-03-23 2016-09-29 Edico Genome Corporation Method And System For Genomic Visualization
CN108989362A (zh) * 2017-05-31 2018-12-11 北京京东尚科信息技术有限公司 一种静态资源的处理方法和装置
CN109086567A (zh) * 2017-07-21 2018-12-25 上海桑格信息技术有限公司 基于云计算平台的有参考基因组的转录组项目的交互式分析系统及方法
CN108038353A (zh) * 2017-12-26 2018-05-15 重庆佰诺吉生物科技有限公司 一种基因组数据的网页展示方法
CN108537008A (zh) * 2018-03-20 2018-09-14 常州大学 高通量基因测序大数据分析云平台系统
CN109637584A (zh) * 2019-01-24 2019-04-16 上海海云生物科技有限公司 肿瘤基因诊断辅助决策系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
鲍婧: "基于Jbrowse的基因组数据集成及索引优化", 万方 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112037857A (zh) * 2020-08-13 2020-12-04 中国科学院微生物研究所 菌株基因组注释查询方法、装置、电子设备及存储介质
CN112037857B (zh) * 2020-08-13 2024-03-26 中国科学院微生物研究所 菌株基因组注释查询方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN101977121A (zh) 配置文件处理方法、装置及系统
CN106445476B (zh) 一种代码变更信息确定方法、装置及电子设备
CN107092652B (zh) 目标页面的导航方法及装置
CN105549936B (zh) 数据表的显示方法和装置
CN104679900A (zh) 一种应用程序搜索方法及装置
CN107480205A (zh) 一种进行数据分区的方法和装置
CN108664665A (zh) 数据格式转化方法、装置、设备及可读存储介质
CN105208232A (zh) 一种自动拨打电话的方法和装置
CN104202458A (zh) 一种自动保存联系人信息的方法和智能终端
CN101924821A (zh) 移动通信终端启动应用程序的方法、系统及移动通信终端
CN110765552A (zh) 三维地质模型的属性信息展示方法及装置
CN110993033A (zh) 一种基因组数据的处理方法、系统及装置
CN110187895A (zh) 操作系统部署方法、装置、设备及计算机可读存储介质
CN106898351B (zh) 一种大屏幕的控制方法及装置
CN116339715A (zh) 前端页面构建方法和装置、电子设备及存储介质
CN109710874A (zh) 页面数据的处理方法及装置、存储介质、计算机设备
CN109800273A (zh) 一种数据处理的方法、装置、计算机存储介质及终端
US20130103724A1 (en) Network and method for managing models
CN113741889A (zh) 异构数据库智能存取数据的方法及设备
CN111124467B (zh) 权限角色的展示方法、系统、计算机设备及可读存储介质
CN106713666A (zh) 验证信息的识别显示方法、装置
CN112069236A (zh) 关联文件的展示方法、装置、设备及存储介质
CN110597854A (zh) 基于fe工业互联网的数据分类方法及相关产品
CN112784132A (zh) 一种数据获取方法、装置以及计算机存储介质
CN112752154A (zh) 软件升级方法及装置、智能电视

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination