CN113658644B - 一种基因数据库系统 - Google Patents
一种基因数据库系统 Download PDFInfo
- Publication number
- CN113658644B CN113658644B CN202110755940.1A CN202110755940A CN113658644B CN 113658644 B CN113658644 B CN 113658644B CN 202110755940 A CN202110755940 A CN 202110755940A CN 113658644 B CN113658644 B CN 113658644B
- Authority
- CN
- China
- Prior art keywords
- gene
- data
- user
- database
- query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 130
- 238000002474 experimental method Methods 0.000 claims abstract description 36
- 238000007726 management method Methods 0.000 claims abstract description 18
- 230000000694 effects Effects 0.000 claims abstract description 10
- 238000013500 data storage Methods 0.000 claims abstract description 9
- 238000013079 data visualisation Methods 0.000 claims abstract description 9
- 238000011161 development Methods 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 21
- 230000002068 genetic effect Effects 0.000 claims description 20
- 238000012360 testing method Methods 0.000 claims description 13
- 230000007614 genetic variation Effects 0.000 claims description 6
- 238000012986 modification Methods 0.000 claims description 5
- 230000004048 modification Effects 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000007792 addition Methods 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000012217 deletion Methods 0.000 claims description 2
- 230000037430 deletion Effects 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims description 2
- 230000008520 organization Effects 0.000 claims description 2
- 238000011002 quantification Methods 0.000 claims description 2
- 108091028043 Nucleic acid sequence Proteins 0.000 claims 1
- 230000000052 comparative effect Effects 0.000 claims 1
- 238000013139 quantization Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 5
- 102000004169 proteins and genes Human genes 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 241000894006 Bacteria Species 0.000 description 2
- 241000700605 Viruses Species 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000010363 gene targeting Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 210000003462 vein Anatomy 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioethics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基因数据库系统。该系统包括:应用程序接口,用于供内部或外部程序调用,以实现数据库的二次开发;数据搜索查询模块,用于根据用户设定的查询条件匹配基因信息或者实验信息,将查询结果反馈给用户;数据存储管理模块,用于存储基因数据和基因实验数据,其中基因数据描述基因序列的效应和功能,基因实验数据描述实验中对基因的多种参数的量化指标,并且基因实验数据与基因数据是继承关系。数据可视化模块:用于以可视化方式呈现操作界面以及用户操作结果。本发明解决了基因相关数据、基因相关实验、基因的归属类别和基因相关性等数据的存储、查询和溯源等一系列问题。
Description
技术领域
本发明涉及数据存储技术领域,更具体地,涉及一种基因数据库系统。
背景技术
在当前大数据时代,越来越多的数据需要进行数字化,并将数字化的信息存储在计算机之中。特别是生物学的基因数据,这些数据具有数据量大、关联性强、变异数据难匹配等特点,所以需要专用的数据库软件平台用于生物科学研究人员对生物数据(如基因、蛋白质等)作统计,方便生物科学人员利用已知的生物数据研究出新成果。
目前,在生物学邻域,生物学家通常通过原始方法存储实验数据,而且在查询数据时并不能高效地查找期待的数据。当面临突发事件时,生物学研究人员虽然能最大程度获得病毒或细菌样本的基因,但是并不能快速地在历史数据中查询到与目前病毒或细菌样本相似的数据。
在现有技术中,已有的基因数据库有多种类型,如NCBI(National Center forBiotechnology Information)和EMBL(European Molecular Biology Laboratory。然而,这些数据库都是服务器交给第三方,不适用于内部资料的存储,一旦发生异常情况,例如对外网络连接中断等,实验室学校等科研机构的内部数据则白白流失。为了防止这种情况的发生,需要使用可以完全信任的数据库,并将其装载在内部服务器中,以防由于各种不可控因素造成数据泄露和数据损坏。此外,已有数据库不能实现个性化的数据定制,导致了不能存储自己实验室的研究结果或实验数据。
发明内容
本发明的目的是克服上述现有技术的缺陷,提供一种基因数据库系统。该系统包括:
用户权限管理模块:用于设定不同模式用户和对应的访问权限;
应用程序接口:用于供内部或外部程序调用,以实现数据库的二次开发;
数据搜索查询模块:用于根据用户设定的查询条件匹配基因信息或者实验信息,将查询结果反馈给用户;
数据存储管理模块:用于存储基因数据和基因实验数据,其中,基因数据描述基因序列的效应和功能,基因实验数据描述实验中对基因的多种参数的量化指标,并且基因实验数据与基因数据是继承关系;
数据可视化模块:用于以可视化方式呈现操作界面以及用户操作结果。
与现有技术相比,本发明的优点在于,解决基因相关数据、基因相关实验、基因的归属类别和基因相关性等数据的存储、查询和溯源等一系列基于数据存储的问题。本发明提供的是开源的,可自定义功能的基因数据库,特别适用于中小型单位,例如学校、实验室、研究所等场景搭建生物基因数据库。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1是根据本发明一个实施例的基因数据库系统的功能模块示意图;
图2是根据本发明一个实施例的用户管理功能示意图;
图3是根据本发明一个实施例的搜索功能的流程图;
图4是根据本发明一个实施例的数据存储管理示意图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本发明提供一种用于基因实验的开源数据库,这种开源数据库是能反映大规模测量序列变异影响的公共存储库,旨在与解释多重变异的基因数据集,并与各种应用程序实现互操作性。所提供的数据库可以对基因、蛋白质数据、doi或基因种类进行检索,形成可视化和上下文化的不同效果图,并且还可以提供应用程序接口(API),使得可以和其他的应用程序一起完善这个开源社区,即能够让更多参与者共同完善所提供的数据库。
参见图1所示,本发明提供的基因数据库系统包括:用户权限管理模块、应用程序接口、数据搜索查询模块、数据存储模块和数据可视化模块。在一个实施例中,本发明是基于django搭建的一个后端服务器程序,其数据库使用的是postgre。以下将分别介绍各模块的功能和优势。
一、用户权限管理模块
参见图2所示的用户管理功能,包括超级用户、管理员、作者和访客等。超级用户拥有对该系统的最高权限,包括对其他所有用户的添加、修改、查阅和删除权限。超级用户通过网站所有者创建,其存在目的是管理该网站,及网站中注册的所有用户。超级管理员只是负责网站,以及对管理员的授权。管理员可以对发布数据的增加、删除、修改、查询等进行管理,直接负责对数据库中的数据模块的管理。管理员还可以对作者和访客进行相互身份转换的授权,例如作者修改数据被判定为违规操作时,则可被管理员修改为访客权限;访客若发布数据经过管理员审批,且审批通过,则访客可以转化为作者。
通过设置不同级别的用户权限,使所提出的基因数据库系统具备了一套完备的数据库用户权限管理功能,在该数据库中可以对拥有不同访问权限的用户进行修改、查阅的权限限制。用户权限管理模块的设置保证了该数据库系统的安全性,在可信的用户手上保证了数据库中数据的完整性与安全性。
二、应用程序接口
在一个实施例中,应用程序接口模块是利用django框架的序列化工具,可以根据应用程序接口的调用者的请求,对后台已有的数据库中实验数据进行处理。然后,后台程序会将数据包序列化为json格式的数据,并将序列化后的数据发送给应用程序接口的调用者。因此,通过提供外部使用的API,其他内部网络的后端程序可以调用这个数据库的数据接口,从而对此数据库实现二次开发。
三、数据搜索查询模块
参见图3所示的数据搜索功能的流程。对数据库而言,用户对数据库的查询操作相比增添、删除和修改的操作更多。数据库查询的操作需要对整个数据库的层级关系进行遍历,而且需要将用户的各种查询需求转化为sql语句,让这些sql语句被数据库程序识别,然后将查询结果返回给用户。
在一个实施例中,对于将用户的查询需求转化为sql语句,django具有自己的ORM(Object Relational Mapping,对象关系映射),可以直接将基因信息或者实验信息等元数据转化成对象。这些对象可以被django自带的过滤器进行过滤,筛选结果就是用户所需要的查询数据。这种对象关系映射有利于将多级查询的复杂sql语句转化为易理解的python程序语句,提高了程序的可读性。此外,在用户方面,呈现的是可视化界面的表单,所以用户只需要将查询需求填入表单的可选项中即可,而数据库的查询等一系列后台操作对用户都是透明的。
针对本发明所提供的基因数据库,为了实现对基因数据的查找,从设计上来考虑基于多个条件实现精确或者模糊查找。由于基因的易变异的特殊性,造成了相似生物或者蛋白质的基因仅仅只有少数碱基对的更改、缺失或者增添。
针对基因的易变异的特殊性,可以通过模糊匹配算法实现基因序列的查询。而对于多条件匹配,可以在web框架中实现对数据层的不同查询方法。例如,如果查询的是片段基因数据和蛋白质种类,则该数据库将按照设计好的顺序进行查找,并将结果返回给用户,例如展现在客户端页面上。用户可以简单地通过数据库的前端客户接口按钮得到需要查询的数据,并且根据用户需求,可以生成一个与查询到的数据相关的报告。
四、数据存储模块
参见图4所示的数据存储管理结构,在该实施例中,数据库中的数据主要包括两个数据信息,即基因数据和基因实验数据。其中基因数据主要记录该基因的基本信息、一些公认的标识以及相关链接,例如包括但不限于基因摘要、基因目标信息、基因外部标识、基因相关文献参考和基因实验测试信息链接等。基因实验数据可以是某次实验的相关信息,例如包括基因实验摘要、基因实验所用方法、基因变异量化数据等。通过这种设置,相关的实验方式和实验数据可以提供给生物研究工作者。
具体地,基因数据是描述该基因序列在不同环境中的表达,例如:Gal4DNA结合结构域的深静脉扫描使用酵母生长测定。这个基因数据描述信息主要组成有如下:基因数据摘要,主要描述基因存在的环境和表达功能;基因目标(靶向)信息,主要描述基因编码类别、基因命名、基因的组织、相关联的基因名称和基因组成序列;基因外部标识,主要是该基因在其他生物数据库的一个外部链接;相关文献参考,其是该基因在其他文献中被涉及的记录;实验测试信息链接,其是记录在不同基因测试实验中采取的信息所定向到的链接。
在本发明中,基因实验数据与基因数据是继承关系,所以基因实验数据的前半段记录与基因数据一样。优选地,基因实验数据还需要添加三个独有的对该次实验描述的区域:基因实验摘要,主要记录这个实验的相关信息以及需要注意的关键信息点;基因实验方法,主要介绍实验思路和有关数据的测定方式,以及相关实验数据的测定标准等;基因变异的量化数据,例如是一张与基因变异效应有关的变异效应量化记录表,表中记录了该次实验对基因测序与官方数据还有其他相似基因实验数据所形成对比量化的结果。
综上,基因数据可以用来描述基因序列的效应和功能。而且由于基因的选择表达性,在不同的蛋白质结构中,或者该基因在不同生物体中会表现出不同种功能,通过有规划地将这些功能记录在该基因的数据库某条记录中,当用户对其查找加条件限定,则数据库可以实现自动筛选功能,将基因在这一种条件下表达出的功能呈现给用户。此外,当同种基因处于不同实验时候,可以将实验数据作对比。
基因实验数据可以用来描述该次实验对基因的各种参数的量化指标,而这些量化指标都是有关生物研究工作者提供的。所以初始设计这个数据库的时候需要与生物研究工作者协商,例如设置对比靶向基因、相似基因变异指数等。
此外,本发明还提供基因数据的外部链接。通过这种方式,本发明相比官方的国家官方数据库规模可以相对小得多,而当查询本发明的基因数据中有疑惑的情况下,可以利用数据库中存储的该基因数据对应的外部链接直接访问NCBI等数据库。这种设计在一定的程度上弥补了该数据库完备性的不足。
五、数据可视化模块。
在一个优选实施例中,设置数据可视化的界面,该可视化界面可以通过浏览器访问。例如包括:欢迎界面,其是关于此界面的介绍;应用程序接口访问教程,介绍如何调用该网站的应用程序接口;搜索界面,用户可以通过搜索界面访问和查询数据库中的数据;用户管理界面,不同用户可以登录到用户管理界面,根据自己的权限来对网站或者实验数据进行管理;文档界面,其是关于这个数据库的说明文档供开发人员,相当于说明书的功能;编辑界面,该界面可以供作者将实验数据上传给数据库,使得数据库更新数据。
综上,数据可视化模块提供与用户交互的前端页面。本发明本身是一种后端服务器程序,按前后端分离的角度说,只需要提供带有数据库查询结果的数据流返回给前端即可。为了满足用户的可视化需求,所以本发明制作了前端页面。该前端页面可以通过浏览器进行访问,用户访问该服务器可以通过前端提供的用户接口获取根据用户查询请求,后端数据库处理过后返回的查询结果。并且这种数据库有很好的数据可视化界面,将数据库中的数据很好地展现到生物技术研究人员眼前,显著提高数据的可用性。
本发明提供的基因数据库系统已经实际应用验证。具体地,通过python的web框架django搭建一个可以访问基因数据库的网站,该网站如果注册了域名可以通过公网访问,而对于在试验机上运行,可运用dockers(一种虚拟技术,开源的应用容器引擎)技术,装载centos系统运行该服务器的后台。
综上所述,本发明至少具有以下方面的技术优势:
1)提供面向基因的数据库,能够记录基因相关信息,并且记录不同实验中对该基因测序的数据。
2)具有一套完好的社区机制,能够使得有可公开数据的研究人员将实验数据公开到所建立的社区数据库中,既储存了自己的数据又可以将数据公开供他人查阅,从而推动了行业发展。
3)设计了一套特殊的搜索方法,可以根据用户所输入的基因关键信息依次检索基因的属性,并将具有相关属性的基因数据汇总返回给用户。
4)、设有应用程序接口模式,可以供其他网站或者内部网络对其二次开发,在一定程度上有重用性。
5)具备一种用户管理机制,通过设置不同用户模式可以充分分担管理压力,使得数据库的数据能在不同类型用户的管理下有条不紊地流动。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++、Python等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。
Claims (6)
1.一种基因数据库系统,包括:
应用程序接口:用于供内部或外部程序调用,以实现数据库的二次开发;
数据搜索查询模块:用于根据用户设定的查询条件匹配基因信息或者实验信息,将查询结果反馈给用户;
数据存储管理模块:用于存储基因数据和基因实验数据,其中,基因数据描述基因序列的效应和功能,基因实验数据描述实验中对基因的多种参数的量化指标,并且基因实验数据与基因数据是继承关系;
数据可视化模块:用于以可视化方式呈现操作界面以及用户操作结果;
其中,所述基因数据包括基因摘要、基因目标信息、基因外部标识、基因相关文献参考和基因实验测试信息链接,所述基因实验数据除继承所述基因数据的描述外,还包括基因实验摘要、基因实验所用方法、基因变异量化数据;
其中,所述基因目标信息描述基因编码类别、基因命名、基因的组织、相关联的基因名称和基因组成序列;所述基因外部标识描述该基因在其他生物数据库的外部链接;所述基因变异量化数据是与基因变异效应有关的变异效应量化记录表,该表记录实验对基因测序与官方数据、以及相关基因实验数据所形成对比量化的结果;基因相关文献参考描述该基因在其他文献中被涉及的记录;基因实验测试信息链接记录在不同基因测试实验中采取的信息所定向到的链接。
2.根据权利要求1所述的系统,其特征在于,还包括用户权限管理模块,用于设定不同模式用户和对应的访问权限,其中所述不同模式用户包括超级用户、管理员、作者和访客,超级用户被设置为管理数据库相关的网站及网站中所注册的所有用户;管理员被设置为对发布数据的增加、删除、修改、查询进行管理并对作者和访客进行相互身份转换的授权;作者被设置为具有发布数据的权限,访客被设置为具有查询数据的权限。
3.根据权利要求1所述的系统,其特征在于,所述应用程序接口利用django框架的序列化工具,根据调用者的请求对数据库中的数据进行处理,并将经后台程序序列化的json格式的数据发送给该调用者。
4.根据权利要求1所述的系统,其特征在于,所述数据搜索查询模块被配置为执行:
将用户的查询需求转化为sql语句,并根据设定的对象关系映射表将相应的基因数据或基因实验数据转化为对象;
所转化的对象经过滤后,筛选出用户需要的查询数据。
5.根据权利要求1所述的系统,其特征在于,所述数据可视化模块提供:欢迎界面,用于描述基本介绍;应用程序接口访问教程,用于描述调用应用程序接口的方法;搜索界面,用于向用户提供访问和查询功能区;用户管理界面,用于为不同模式用户提供登录界面;文档界面,用户提供数据库的说明文档;编辑界面,用于向数据库上传数据。
6.根据权利要求1所述的系统,其特征在于,所述数据搜索查询模块被设置为根据用户设定的查询条件,利用模糊匹配实现基因序列的查询。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110755940.1A CN113658644B (zh) | 2021-07-05 | 2021-07-05 | 一种基因数据库系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110755940.1A CN113658644B (zh) | 2021-07-05 | 2021-07-05 | 一种基因数据库系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113658644A CN113658644A (zh) | 2021-11-16 |
CN113658644B true CN113658644B (zh) | 2024-03-19 |
Family
ID=78477930
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110755940.1A Active CN113658644B (zh) | 2021-07-05 | 2021-07-05 | 一种基因数据库系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113658644B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113990398A (zh) * | 2021-12-27 | 2022-01-28 | 北京诺禾致源科技股份有限公司 | 基因组整合数据库平台的处理方法与装置 |
CN117033735B (zh) * | 2023-10-08 | 2024-01-16 | 之江实验室 | 基因数据检索方法、装置、计算机设备以及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108537008A (zh) * | 2018-03-20 | 2018-09-14 | 常州大学 | 高通量基因测序大数据分析云平台系统 |
CN109313927A (zh) * | 2016-03-21 | 2019-02-05 | 细胞结构公司 | 基因组、代谢组学和微生物组学搜索引擎 |
CN111161804A (zh) * | 2019-12-27 | 2020-05-15 | 北京百迈客生物科技有限公司 | 一种用于物种基因组学数据库的查询方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11587651B2 (en) * | 2019-03-08 | 2023-02-21 | Merative Us L.P. | Person-centric genomic services framework and integrated genomics platform and systems |
EP3792923A1 (en) * | 2019-09-16 | 2021-03-17 | Siemens Healthcare GmbH | Method and device for exchanging information regarding the clinical implications of genomic variations |
-
2021
- 2021-07-05 CN CN202110755940.1A patent/CN113658644B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109313927A (zh) * | 2016-03-21 | 2019-02-05 | 细胞结构公司 | 基因组、代谢组学和微生物组学搜索引擎 |
CN108537008A (zh) * | 2018-03-20 | 2018-09-14 | 常州大学 | 高通量基因测序大数据分析云平台系统 |
CN111161804A (zh) * | 2019-12-27 | 2020-05-15 | 北京百迈客生物科技有限公司 | 一种用于物种基因组学数据库的查询方法及系统 |
Non-Patent Citations (1)
Title |
---|
急性淋巴细胞白血病基因融合与突变知识库的构建;严天奇;陈立伟;朱勇梅;李剑峰;代雨婷;崔舒雅;姜璐;陈冰;黄金艳;;上海交通大学学报(医学版)(09);第45-50页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113658644A (zh) | 2021-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10685071B2 (en) | Methods, systems, and computer program products for storing graph-oriented data on a column-oriented database | |
US10152607B2 (en) | Secure access to hierarchical documents in a sorted, distributed key/value data store | |
US9501529B2 (en) | Searching content managed by a search engine using relational database type queries | |
US8914323B1 (en) | Policy-based data-centric access control in a sorted, distributed key-value data store | |
US9684699B2 (en) | System to convert semantic layer metadata to support database conversion | |
CN113658644B (zh) | 一种基因数据库系统 | |
US10942926B2 (en) | Identification, and query, of semantically-related database tables | |
US11093461B2 (en) | Method for computing distinct values in analytical databases | |
CN110334545B (zh) | 一种基于sql的权限控制方法、装置和电子设备 | |
CN109784643A (zh) | 一种双随机管理系统及方法、信息数据处理终端 | |
US11341028B2 (en) | Structured query language runtime access path generation for deep test in a database | |
Zhu et al. | The use of a graph‐based system to improve bibliographic information retrieval: System design, implementation, and evaluation | |
Kim | Functional requirements for research data repositories | |
US20130159222A1 (en) | Interactive interface for object search | |
US8782777B2 (en) | Use of synthetic context-based objects to secure data stores | |
Valentine et al. | EarthCube Data Discovery Studio: A gateway into geoscience data discovery and exploration with Jupyter notebooks | |
US20200233884A1 (en) | Analyzing application behavior to determine relationships between data | |
US20230359731A1 (en) | Threat Hunting Across Datacenters To Identify Security Incidents | |
US11847121B2 (en) | Compound predicate query statement transformation | |
Banks et al. | The ePerson snippet manager: a semantic web application | |
US20220035873A1 (en) | Method and apparatus to generate a simplified query when searching for catalog items | |
Jayapandian et al. | A semantic proteomics dashboard (SemPoD) for data management in translational research | |
Daraghmi et al. | Forensic operations for recognizing sqlite content (forc): An automated forensic tool for efficient sqlite evidence extraction on android devices | |
Scifo | Graph Data Science with Neo4j | |
US20190171741A1 (en) | Sharing artifacts with heterogeneous database connectivity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |