CN103955631A - 一种药物反应数据库建立方法和装置 - Google Patents
一种药物反应数据库建立方法和装置 Download PDFInfo
- Publication number
- CN103955631A CN103955631A CN201410151325.XA CN201410151325A CN103955631A CN 103955631 A CN103955631 A CN 103955631A CN 201410151325 A CN201410151325 A CN 201410151325A CN 103955631 A CN103955631 A CN 103955631A
- Authority
- CN
- China
- Prior art keywords
- snp
- data
- snp site
- data file
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种药物反应数据库建立方法和装置,该方法可包括:获取用户基因组的SNP数据,所述SNP数据包括至少一个SNP位点的形态信息,所述SNP位点的形态信息包括该SNP位点的标识、该SNP位点所属的染色体、该SNP位点在该染色体的定位和该SNP位点的基因型;获取生物数据库,所述生物数据库包括多个SNP位点对应的药物反应信息;将所述SNP数据与所述生物数据库进行比对,从所述生物数据库中选择所述SNP数据包括的至少一个SNP位点对应的药物反应信息;将所述选择的获取反应信息建立为所述用户的药物反应数据库SNP。本发明实施例可以建立包括用户的SNP数据与医学信息的对应关系的数据库。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种药物反应数据库建立方法和装置。
背景技术
随着高通量测序技术的迅猛发展,全基因组测序技术的价钱目前已经降低。然而,现在关于基因解读技术的瓶颈是如何将原始的脱氧核糖核酸(Deoxyribonucleic acid,DNA)的碱基序列转化为临床医学信息。在过去几十年中,基因组与特定的药物的毒副作用、剂量以及药效之间的相互作用的关系被越来越多的科学研究发现和证实。而单核苷酸多态性(Single NucleotidePolymorphisms,SNP)作为基因组上单个核苷酸的变异,因此,如何将SNP数据与医学信息建立关联是当前急需解决的问题。
发明内容
本发明提供一种药物反应数据库建立方法和装置,可以解决将SNP数据与医学信息建立关联的问题。
第一方面,本发明提供一种药物反应数据库建立方法,包括:
获取用户基因组的SNP数据,所述SNP数据包括至少一个SNP位点的形态信息,所述SNP位点的形态信息包括该SNP位点的标识、该SNP位点所属的染色体、该SNP位点在该染色体的定位和该SNP位点的基因型;
获取生物数据库,所述生物数据库包括多个SNP位点对应的药物反应信息;
将所述SNP数据与所述生物数据库进行比对,从所述生物数据库中选择所述SNP数据包括的至少一个SNP位点对应的药物反应信息;
将所述选择的获取反应信息建立为所述用户的药物反应数据库SNP。
第二方面,本发明提供一种药物反应数据库建立装置,包括:第一获取单元、第二获取单元、比对单元和建立单元,其中:
所述第一获取单元,用于获取用户基因组的单核苷酸多态性SNP数据,所述SNP数据包括至少一个SNP位点的形态信息,所述SNP位点的形态信息包括该SNP位点的标识、该SNP位点所属的染色体、该SNP位点在该染色体的定位和该SNP的基因型;
所述第二获取单元,用于获取生物数据库,所述生物数据库包括多个SNP位点对应的药物反应信息;
所述比对单元,用于将所述SNP数据与所述生物数据库进行比对,从所述生物数据库中选择所述SNP数据包括的至少一个SNP位点对应的药物反应信息;
所述建立单元,用于将所述选择的获取反应信息建立为所述用户的药物反应数据库SNP。
上述技术方案中,获取用户基因组的SNP数据,所述SNP数据包括至少一个SNP位点的形态信息,再获取生物数据库,以及将所述SNP数据与所述生物数据库进行比对,从所述生物数据库中选择所述SNP数据包括的至少一个SNP位点对应的药物反应信息,再将所述选择的获取反应信息建立为所述用户的药物反应数据库。从而本发明可以建立包括用户的SNP数据与医学信息的对应关系的数据库。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种药物反应数据库建立方法的流程示意图;
图2是本发明实施例提供的一种可选的SNP数据文件获取示意图;
图3是本发明实施例提供的另一种药物反应数据库建立方法的流程示意图;
图4是本发明实施例提供的一种药物反应数据库建立装置的结构示意图;
图5是本发明实施例提供的另一种药物反应数据库建立方法的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,图1是本发明实施例提供的一种药物反应数据库建立方法的流程示意图,如图1所示,包括以下步骤:
101、获取用户基因组的SNP数据,所述SNP数据包括至少一个SNP位点的形态信息,所述SNP位点的形态信息包括该SNP位点的标识、该SNP位点所属的染色体、该SNP位点在该染色体的定位和该SNP位点的基因型。
可选的,上述SNP数据可以是SNP微列阵数据。
可选的,上述SNP数据可以如表1所示的数据,该SNP数据还可以参考23andme网站提供的SNP数据,当然本实施例中,SNP数据包括但不限于23andme网站提供的SNP数据,23andme网站提供的SNP数据,仅是一个举例。
表1如下:
其中,RSID为SNP位点的标识,每个SNP对应唯一一个RSID,Chromosome表示各SNP位点所属的染色体,Position表示各SNP位点在该染色体的定位,Genotype表示各SNP位点的基因型,其中,Position可以是代SNP在所属的染色体上的第几个碱基上发生突变。
102、获取生物数据库,所述生物数据库包括多个SNP位点对应的药物反应信息。
可选的,步骤102获取生物数据库可以是从本地获取上述生物数据库,或者通过网络访问上述生物数据库。
103、将所述SNP数据与所述生物数据库进行比对,从所述生物数据库中选择所述SNP数据包括的至少一个SNP位点对应的药物反应信息。
可选的,由于上述生物数据库中包括多个SNP对应的药物反应信息,这样将上述SNP数据与该生物数据库进行比对时,就可以从该生物数据库可以选择出上述SNP数据包括的至少一个SNP位点对应的药物反应信息。
104、将所述选择的获取反应信息建立为所述用户的药物反应数据库。
当选择出上述SNP数据包括的至少一个SNP位点对应的药物反应信息,就可以将这些信息建立上述用户的药物反应数据库,该药物反应数据库中包括用户的SNP数据中每个SNP位点对应的药物反应信息。
可选的,上述SNP位点对应的药物反应信息可以是该SNP位点与特定药物的毒副作用、剂量和药效的关系信息。这样用户通过上述药物反应数据库就可以查找到该用户使用一些特定药物的剂量、效果和毒副作用,以指导用户使用药物。另外,上述特定药物可以是指预先指定的任一药物,对此本实施例不作限定。
可选的,如图2所示,步骤101可以包括:
101a)接收文件传输协议客户端上传的所述用户的高通量测序数据,所述高通测序数据包括至少一个测序片段,每个所述测序片段上包括至少一个核苷酸碱基序列,所述核苷酸碱基序列包括至少一个SNP位点;
101b)将所述高通测序数据与参考基因组对比,得到第一数据文件,所述第一对比数据文件包括注释信息和比对结果,所述注释信息用于对所述第一数据文件进行注释,所述对比结果包括每个所述测序片段与所述参考基因组对比的结果;
101c)将所述第一数据文件转换成二进制格式的第二数据文件;
101d)对所述第二数据文件进行排序和去冗余处理,并以SNP位点为单位建立索引,以生成第三数据文件;
101e)对所述第三数据文件进行SNP位点查找,以生成包括所述第三数据文件中与所述参考基因组中核苷酸碱基中不相同的SNP位点的信息的第四数据文件;
101f)将所述第四数据文件转换为自定的文件格式的SNP数据文件,所述SNP数据文件中每一行为一个SNP位点信息,所述SNP位点信息包括该SNP位点的标识、该SNP位点所属的染色体、该SNP位点在该染色体的定位和该SNP位点的基因型。
可选的,上述高通量测序数据的数据文件可以记录高通量测序时每一个测序片段的编号,以及每个测序片段上的核苷酸碱基序列,以及每一个核苷酸位点的测序结果的可信程度。
可选的,步骤101b)还可以是调用外部应用(例如:Bowtie应用)将所述高通量测序数据与参考基因组比对,其中,上述参考基因组为hg19基因组(其中,hg19基因组为公知的基因组,此处不作详细说明)。另外,该步骤生成的第一数据文件可以是扩展名为“.sam”的数据文件,即SAM格式的文件。该格式的数据文件分为注释信息部分和比对结果两部分。注释信息部分为对该数据文件的注释。比对结果部分的每一行表示一个测序片段与参考基因组的比对信息。比对信息包括比对片段的编号(例如:QNAME)、位标识(例如:FLAG)、参考序列的编号(例如:RNAME)、比对到参考序列上的位置(例如:POS)、比对的质量(例如:MAPQ)、简要比对信息表达式(例如:CIGAR)、下一个测序片段比对的参考序列的编号(例如:RNEXT)、下一个测序片段比对到参考序列上的位置(例如:PNEXT)、模板的长度(例如:TLEN)、序列片段信息(例如:SEQ)和序列的质量(例如:QUAL)。
可选的,步骤101c)还可以是调用外部应用(例如:Samtools应用)将比对所得第一数据文件转换成BAM格式的数据文件。该BAM格式的数据文件即为SAM格式的文件的二进制文件。
可选的,步骤101d)还可以是调用外部应用(例如:Samtools应用)将转换所得第二数据文件的数据文件进行排序、去冗余处理以及建立SNP位点为单位索引,从而得到BAM格式的第三数据文件。其中,进行排序可以是以第二数据文件中片段的编号(例如:QNAME)进行排序。
可选的,步骤101e)还可以是先调用外部应用(例如:Samtools应用)将上述过程所得第三数据文件转换成扩展名为“.pileup”的文件。再调用外部应用(例如:VarScan应用)来对转换所得的Pileup格式的第三数据文件进行SNP位点查找。该过程输出的第四数据文件包含了用户高通量测序数据和参考基因组中的序列数据中核苷酸碱基不相同的SNP位点的信息。在第四数据文件中每一行可以为一个SNP位点的信息,每一个SNP位点的信息包括:该SNP位点所在的染色体名称(例如:Chrom)、该SNP位点在该染色体上的位置(例如:Position)、该位点在参考基因组上的碱基(例如:Ref)、该SNP位点在用户高通量测序数据中存在的突变碱基(例如:Var)、该SNP位点的详细比对信息(例如:Pool Call)、该SNP位点比对的统计数据(例如:StrandFilt)、在该SNP位点的基因型与参考基因组相同的样本数(例如:SamplesRef)、在该SNP位点的基因型为杂合子变异的样本数(例如:SamplesHet)、在该SNP位点的基因型为纯合子变异的样本数(例如:SamplesHom)、该SNP位点查找时没有涉及到的样本数(例如:SamplesNC)、样本的详细比对信息(例如:SampleCalls)。另外,此处样本数始终为1。
可选的,步骤101f)还可以是利用特定语句(例如:Python语句)将第四数据文件转换成自定的SNP数据文件。该SNP数据文件的每一行即为一个SNP位点信息,对应着第四数据文件中的SNP位点。该SNP位点信息包括该SNP位点所在染色体名称、该SNP位点在该染色体上的位置、该用户在该SNP位点的基因型。其中,基因型的确定可以通过如下方法:
若在该SNP位点的基因型为杂合子变异的样本数为1而在该SNP位点的基因型为纯合子变异的样本数为0,那么该SNP位点的基因型为该位点在参考基因组上的碱基与该SNP位点在用户高通量测序数据中存在的突变碱基结合的杂合子;若在该SNP位点的基因型为杂合子变异的样本数为0而在该SNP位点的基因型为纯合子变异的样本数为1,那么该SNP位点的基因型为该SNP位点在用户高通量测序数据中存在的突变碱基的纯合子。
可选的,步骤101还可以将步骤101f)转换的SNP数据文件与单核苷酸多态性数据库(Single Nucleotide Polymorphism database,dbSNP)中得到的SNP位点数据比较,以SNP为单位建立索引,以更新步骤f)转换的SNP数据文件。其中,比较的方法是:对于dbSNP中每一行SNP数据,都在步骤f)转换的SNP数据文件中查找,若找到一行相应SNP位点的信息,即在步骤f)转换的SNP数据文件中这一行前加上该位点的dbSNP数据库SNP编号,并更新到新的SNP数据文件中。其中,上述相应SNP位点的信息是指SNP数据文件中某一SNP位点所在的染色体名称、该SNP位点在该染色体上的位置与该SNP位点在dbSNP中所在的染色体名称以及在该染色体上的位置相同。这样可以实现为每个SNP位点添加dbSNP数据库SNP编号。这样在后续与生物数据库进行比对时,更加容易查找到对应的药物反应信息。
可选的,该实施方式中,接收的高通量测序数据可以是经过压缩后的高通量测序数据,例如:采用zip格式压缩包上传的高通量测序数据。另外,还可以向用户提供加密过的FTP账号和密码,用户就可以采用该FTP账号采用FTP客户端上传用户的高通量测序数据。由于高通量测序数据的文件很大,一般大约有3至4GB。这样该高通量测序数据通过本实施例提供的方法上传就可以大大地节约网络资源,以及节约上传时间。另外,该实施例建立的SNP数据可以参考表1所示的SNP数据。
可选的,步骤101可以包括:
接收用户终端发送的所述用户的基因组的SNP数据。
该实施方式,可以实现直接接收用户终端上传的SNP数据,当该SNP数据同样可以支付压缩后的SNP数据上传,另外,用户终端还可以是浏览器的开源插件上传上述SNP数据。
可选的,如图3所示,所述方法还可以包括:
100、分别从基因数据库和药物数据库选取特定信息,并将所述选取的特定信息进行合成得到所述生物数据库。
可选的,上述基因数据库包括但不即于药物基因组知识库(ThePharmacogenomics Knowledge Base,pharmGBK)和单核苷酸多态性数据库(Single Nucleotide Polymorphism database,dbSNP),即步骤100可以包括:
分别从pharmGBK、dbSNP和药物数据库选取特定信息,并将所述选取的特定信息进行合成得到所述生物数据库。
当然,上述仅介绍了从三个数据库中选取特定信息,本方法还可以多4个或者更多数据库选取特定信息,并将所述选取的特定信息进行合成得到所述生物数据库。
该实施方式中,上述药物数据库可以是指DrugBank数据库,该数据库是记录了详细的药物以及药物靶标的生物信息以及化学信息的数据库,另外,该DrugBank数据库为医学领域中一个常用的数据,此处不作详细说明。
该实施方式中,合成的生物数据库可以包括1135或者更多条药物反应信息,每条药物反应信息与一个SNP对应,具体可以是每条药物反应信息包括一个SNP的标识。每条药物反应信息包括可以包括如下信息:
来自于pharmGBK中:SNP位点的标识(RSID)、SNP位点的基因型(例如:Genotype)、发生改SNP位点的基因(例如:Gene)、SNP位点的突变类型(例如:Alleles)、SNP位点影响的药物名称(例如:Drug)、SNP位点在pharmGKB中的可行度注释SNP(例如:Level)、在pharmGKB中的详细描述(例如:Sentence)、SNP位点对药物药效的影响(例如:Efficacy)、SNP对药物毒性的影响(例如:Toxicity)和SNP位点对药物剂量的影响(例如:Dosage);
来自于DrugBank中:该药物在DrugBank中的分类(例如:System)、该药物在DrugBank中所属亚型(例如:subSystem)、药物的详细描述(例如:info)和该药物在DrugBank中的ID(例如:drugID);
来自于dbSNP中:SNP位点的标识(RSID)、SNP位点的基因型(例如:Genotype)、发生改SNP位点的基因(例如:Gene)和SNP位点的突变类型(例如:Alleles)。
该实施方式,步骤100可以是预先执行的,例如:在步骤101之前就合成好上述生物数据库,当然还可以是在执行步骤102时执行的,对此本实施例不作限定。
可选的,步骤103可以包括:
将所述SNP数据包括的SNP位点的标识与所述生物数据库中的SNP位点的标识进行对比,并将所述SNP数据包括的SNP位点的标识对应的药物反应信息作为该SNP位点对应的药物反应信息。
该实施方式可以是取上述生物数据库中每一条数据信息的RSID以及基因型作为搜索条目去与SNP数据每个SNP位点进行比对,如果在SNP数据中可以找到该搜索条目,就将生物数据库中这条目对应的药物反应信息为用户的SNP位点对应的药物反应信息。或者通过循环语句遍历整个数据中每个条目,再分别与SNP数据中每个SNP位点的标识进行比对,获取生物数据库中SNP数据中每个SNP的标识对应的药物反应信息作为该SNP位点对应的药物反应信息。
可选的,在步骤104之后,所述方法还可以包括:
105、向所述用户的用户终端发送用于下载所述药物反应数据库的网页链接,以使该用户终端在所述网页链接上下载所述药物反应数据库。
该实施方式中,可以是将步骤104建立的用户的药物反应数据库在网页中以PDF格式进行展现,这样用户就可以通过上述网页链接下载该用户的药物反应数据库,以方便用户离线浏览。
可选的,上述方法可以应用于网络服务器,这样用户就可以通过浏览器得到步骤104生成的药物反应数据库,以帮助用户使用药物。
上述技术方案中,获取用户基因组的SNP数据,所述SNP数据包括至少一个SNP的形态信息,再获取生物数据库,以及将所述SNP数据与所述生物数据库进行比对,从所述生物数据库中选择所述SNP数据包括的至少一个SNP对应的药物反应信息,再将所述选择的获取反应信息建立为所述用户的药物反应数据库。从而本发明可以建立包括用户的SNP数据与医学信息的对应关系的数据库。
请参阅图4,图4是本发明实施例提供的一种药物反应数据库建立装置的结构示意图,如图4所示,包括:第一获取单元41、第二获取单元42、比对单元43和建立单元44,其中:
第一获取单元41,用于获取用户基因组的单核苷酸多态性SNP数据,所述SNP数据包括至少一个SNP的形态信息,所述SNP的形态信息包括该SNP的标识、该SNP所属的染色体、该SNP在该染色体的定位和该SNP的基因型。
可选的,上述SNP数据可以是SNP微列阵数据。
可选的,上述SNP数据可以如表1所示的数据,该SNP数据还可以参考23andme网站提供的SNP数据。
第二获取单元42,用于获取生物数据库,所述生物数据库包括多个SNP对应的药物反应信息。
可选的,第二获取单元42获取生物数据库可以是从本地获取上述生物数据库,或者通过网络访问上述生物数据库。
比对单元43,用于将所述SNP数据与所述生物数据库进行比对,从所述生物数据库中选择所述SNP数据包括的至少一个SNP对应的药物反应信息。
可选的,由于上述生物数据库中包括多个SNP对应的药物反应信息,这样将上述SNP数据与该生物数据库进行比对时,就可以从该生物数据库可以选择出上述SNP数据包括的至少一个SNP对应的药物反应信息。
建立单元44,用于将所述选择的获取反应信息建立为所述用户的药物反应数据库。
可选的,上述SNP对应的药物反应信息可以是该SNP与特定药物的毒副作用、剂量和药效的关系信息。这样用户通过上述药物反应数据库就可以查找到该用户使用一些特定药物的剂量、效果和毒副作用。另外,上述特定药物可以是指预先指定的任一药物,对此本实施例不作限定。
可选的,第一获取单元41可以包括:
第一子单元,用于接收文件传输协议客户端上传的所述用户的高通量测序数据,所述高通测序数据包括至少一个测序片段,每个所述测序片段上包括至少一个核苷酸碱基序列,所述核苷酸碱基序列包括至少一个SNP位点;
第二子单元,用于将所述高通测序数据与参考基因组对比,得到第一数据文件,所述第一对比数据文件包括注释信息和比对结果,所述注释信息用于对所述第一数据文件进行注释,所述对比结果包括每个所述测序片段与所述参考基因组对比的结果;
第三子单元,用于将所述第一数据文件转换成二进制格式的第二数据文件;
第四子单元,用于对所述第二数据文件进行排序和去冗余处理,并以SNP位点为单位建立索引,以生成第三数据文件;
第五子单元,用于对所述第三数据文件进行SNP位点查找,以生成包括所述第三数据文件中与所述参考基因组中核苷酸碱基中不相同的SNP位点的信息的第四数据文件;
第六子单元,用于将所述第四数据文件转换为自定的文件格式的SNP数据文件,所述SNP数据文件中每一行为一个SNP位点信息,所述SNP位点信息包括该SNP位点的标识、该SNP位点所属的染色体、该SNP位点在该染色体的定位和该SNP位点的基因型。
可选的,上述高通量测序数据的数据文件可以记录高通量测序时每一个测序片段的编号,以及每个测序片段上的核苷酸碱基序列,以及每一个核苷酸位点的测序结果的可信程度。
可选的,第二子单元还可以是调用外部应用(例如:Bowtie应用)将所述高通量测序数据与参考基因组比对,其中,上述参考基因组为hg19基因组(其中,hg19基因组为公知的基因组,此处不作详细说明)。另外,该步骤生成的第一数据文件可以是扩展名为“.sam”的数据文件,即SAM格式的文件。该格式的数据文件分为注释信息部分和比对结果两部分。注释信息部分为对该数据文件的注释。比对结果部分的每一行表示一个测序片段与参考基因组的比对信息。比对信息包括比对片段的编号(例如:QNAME)、位标识(例如:FLAG)、参考序列的编号(例如:RNAME)、比对到参考序列上的位置(例如:POS)、比对的质量(例如:MAPQ)、简要比对信息表达式(例如:CIGAR)、下一个测序片段比对的参考序列的编号(例如:RNEXT)、下一个测序片段比对到参考序列上的位置(例如:PNEXT)、模板的长度(例如:TLEN)、序列片段信息(例如:SEQ)和序列的质量(例如:QUAL)。
可选的,第三子单元还可以是调用外部应用(例如:Samtools应用)将比对所得第一数据文件转换成BAM格式的数据文件。该BAM格式的数据文件即为SAM格式的文件的二进制文件。
可选的,第四子单元还可以是调用外部应用(例如:Samtools应用)将转换所得第二数据文件的数据文件进行排序、去冗余处理以及建立SNP位点为单位索引,从而得到BAM格式的第三数据文件。其中,进行排序可以是以第二数据文件中片段的编号(例如:QNAME)进行排序。
可选的,第五子单元还可以是先调用外部应用(例如:Samtools应用)将上述过程所得第三数据文件转换成扩展名为“.pileup”的文件。再调用外部应用(例如:VarScan应用)来对转换所得的Pileup格式的第三数据文件进行SNP位点查找。该过程输出的第四数据文件包含了用户高通量测序数据和参考基因组中的序列数据中核苷酸碱基不相同的SNP位点的信息。在第四数据文件中每一行可以为一个SNP位点的信息,每一个SNP位点的信息包括:该SNP位点所在的染色体名称(例如:Chrom)、该SNP位点在该染色体上的位置(例如:Position)、该位点在参考基因组上的碱基(例如:Ref)、该SNP位点在用户高通量测序数据中存在的突变碱基(例如:Var)、该SNP位点的详细比对信息(例如:Pool Call)、该SNP位点比对的统计数据(例如:StrandFilt)、在该SNP位点的基因型与参考基因组相同的样本数(例如:SamplesRef)、在该SNP位点的基因型为杂合子变异的样本数(例如:SamplesHet)、在该SNP位点的基因型为纯合子变异的样本数(例如:SamplesHom)、该SNP位点查找时没有涉及到的样本数(例如:SamplesNC)、样本的详细比对信息(例如:SampleCalls)。另外,此处样本数始终为1。
可选的,第六子单元还可以是利用特定语句(例如:Python语句)将第四数据文件转换成自定的SNP数据文件。该SNP数据文件的每一行即为一个SNP位点信息,对应着第四数据文件中的SNP位点。该SNP位点信息包括该SNP位点所在染色体名称、该SNP位点在该染色体上的位置、该用户在该SNP位点的基因型。其中,基因型的确定可以通过如下方法:
若在该SNP位点的基因型为杂合子变异的样本数为1而在该SNP位点的基因型为纯合子变异的样本数为0,那么该SNP位点的基因型为该位点在参考基因组上的碱基与该SNP位点在用户高通量测序数据中存在的突变碱基结合的杂合子;若在该SNP位点的基因型为杂合子变异的样本数为0而在该SNP位点的基因型为纯合子变异的样本数为1,那么该SNP位点的基因型为该SNP位点在用户高通量测序数据中存在的突变碱基的纯合子。
可选的,第六子单元进一步还可以将步骤f)转换的SNP数据文件与单核苷酸多态性数据库(Single Nucleotide Polymorphism database,dbSNP)中得到的SNP位点数据比较,以SNP为单位建立索引,以更新步骤f)转换的SNP数据文件。其中,比较的方法是:对于dbSNP中每一行SNP数据,都在步骤f)转换的SNP数据文件中查找,若找到一行相应SNP位点的信息,即在步骤f)转换的SNP数据文件中这一行前加上该位点的dbSNP数据库SNP编号,并更新到新的SNP数据文件中。其中,上述相应SNP位点的信息是指SNP数据文件中某一SNP位点所在的染色体名称、该SNP位点在该染色体上的位置与该SNP位点在dbSNP中所在的染色体名称以及在该染色体上的位置相同。这样可以实现为每个SNP位点添加dbSNP数据库SNP编号。这样在后续与生物数据库进行比对时,更加容易查找到对应的药物反应信息。
可选的,该实施方式中,接收的高通量测序数据可以是经过压缩后的高通量测序数据,例如:采用zip格式压缩包上传的高通量测序数据。另外,还可以向用户提供加密过的FTP账号和密码,用户就可以采用该FTP账号采用FTP客户端上传用户的高通量测序数据。由于高通量测序数据的文件很大,一般大约有3至4GB。这样该高通量测序数据通过本实施例提供的方法上传就可以大大地节约网络资源,以及节约上传时间。另外,该实施例建立的SNP数据可以参考表1所示的SNP数据。
可选的,第一获取单元41可以用于接收用户终端发送的所述用户的基因组的SNP数据。
该实施方式,可以实现直接接收用户终端上传的SNP数据,当该SNP数据同样可以支付压缩后的SNP数据上传,另外,用户终端还可以是浏览器的开源插件上传上述SNP数据。
可选的,如图5所示,所述装置还可以包括:
合成单元45,用于基因数据库和药物数据库选取特定信息,并将所述选取的特定信息进行合成得到所述生物数据库。
可选的,上述基因数据库包括但不即于药物基因组知识库、单核苷酸多态性数据库和药物数据库选取特定信息,并将所述选取的特定信息进行合成得到所述生物数据库。
当然,上述仅介绍了从三个数据库中选取特定信息,合成单元35还可以多4个或者更多数据库选取特定信息,并将所述选取的特定信息进行合成得到所述生物数据库。
该实施方式中,上述药物数据库可以是指DrugBank数据库,该数据库是记录了详细的药物以及药物靶标的生物信息以及化学信息的数据库,另外,该DrugBank数据库为医学领域中一个常用的数据,此处不作详细说明。
该实施方式中,合成的生物数据库可以包括1135或者更多条药物反应信息,每条药物反应信息与一个SNP对应,具体可以是每条药物反应信息包括一个SNP的标识。每条药物反应信息包括可以包括如下信息:
来自于pharmGBK中:SNP位点的标识(RSID)、SNP位点的基因型(例如:Genotype)、发生改SNP位点的基因(例如:Gene)、SNP位点的突变类型(例如:Alleles)、SNP位点影响的药物名称(例如:Drug)、SNP位点在pharmGKB中的可行度注释SNP(例如:Level)、在pharmGKB中的详细描述(例如:Sentence)、SNP位点对药物药效的影响(例如:Efficacy)、SNP对药物毒性的影响(例如:Toxicity)和SNP位点对药物剂量的影响(例如:Dosage);
来自于DrugBank中:该药物在DrugBank中的分类(例如:System)、该药物在DrugBank中所属亚型(例如:subSystem)、药物的详细描述(例如:info)和该药物在DrugBank中的ID(例如:drugID);
来自于dbSNP中:SNP位点的标识(RSID)、SNP位点的基因型(例如:Genotype)、发生改SNP位点的基因(例如:Gene)和SNP位点的突变类型(例如:Alleles)。
可选的,比对单元43可以用于将所述SNP数据包括的SNP位点的标识与所述生物数据库中的SNP位点的标识进行对比,并将所述SNP数据包括的SNP位点的标识对应的药物反应信息作为该SNP位点对应的药物反应信息。
该实施方式可以是取上述生物数据库中每一条数据信息的RSID以及基因型作为搜索条目去与SNP数据每个SNP位点进行比对,如果在SNP数据中可以找到该搜索条目,就将生物数据库中这条目对应的药物反应信息为用户的SNP位点对应的药物反应信息。或者通过循环语句遍历整个数据中每个条目,再分别与SNP数据中每个SNP位点的标识进行比对,获取生物数据库中SNP数据中每个SNP位点的标识对应的药物反应信息作为该SNP位点对应的药物反应信息。
可选的,所述装置还可以包括:
发送单元46,用于向所述用户的用户终端发送用于下载所述药物反应数据库的网页链接,以使该用户终端在所述网页链接上下载所述药物反应数据库
该实施方式中,可以是将建立单元44建立的用户的药物反应数据库在网页中以PDF格式进行展现,这样用户就可以通过上述网页链接下载该用户的药物反应数据库,以方便用户离线浏览。
可选的,上述装置可以应用于网络服务器,这样用户就可以通过浏览器得到建立单元44生成的药物反应数据库,以帮助用户使用药物。
上述技术方案中,获取用户基因组的SNP数据,所述SNP数据包括至少一个SNP的形态信息,再获取生物数据库,以及将所述SNP数据与所述生物数据库进行比对,从所述生物数据库中选择所述SNP数据包括的至少一个SNP对应的药物反应信息,再将所述选择的获取反应信息建立为所述用户的药物反应数据库。从而本发明可以建立包括用户的SNP数据与医学信息的对应关系的数据库。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存取存储器(Random Access Memory,简称RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (10)
1.一种药物反应数据库建立方法,其特征在于,包括:
获取用户基因组的单核苷酸多态性SNP数据,所述SNP数据包括至少一个SNP位点的形态信息,所述SNP位点的形态信息包括该SNP位点的标识、该SNP位点所属的染色体、该SNP位点在该染色体的定位和该SNP位点的基因型;
获取生物数据库,所述生物数据库包括多个SNP位点对应的药物反应信息;
将所述SNP数据与所述生物数据库进行比对,从所述生物数据库中选择所述SNP数据包括的至少一个SNP位点对应的药物反应信息;
将所述选择的获取反应信息建立为所述用户的药物反应数据库。
2.如权利要求1所述的方法,其特征在于,所述获取用户基因组的SNP数据,包括:
接收文件传输协议客户端上传的所述用户的高通量测序数据,所述高通测序数据包括至少一个测序片段,每个所述测序片段上包括至少一个核苷酸碱基序列,所述核苷酸碱基序列包括至少一个SNP位点;
将所述高通测序数据与参考基因组对比,得到第一数据文件,所述第一对比数据文件包括注释信息和比对结果,所述注释信息用于对所述第一数据文件进行注释,所述对比结果包括每个所述测序片段与所述参考基因组对比的结果;
将所述第一数据文件转换成二进制格式的第二数据文件;
对所述第二数据文件进行排序和去冗余处理,并以SNP位点为单位建立索引,以生成第三数据文件;
对所述第三数据文件进行SNP位点查找,以生成包括所述第三数据文件中与所述参考基因组中核苷酸碱基中不相同的SNP位点的信息的第四数据文件;
将所述第四数据文件转换为自定的文件格式的SNP数据文件,所述SNP数据文件中每一行为一个SNP位点信息,所述SNP位点信息包括该SNP位点的标识、该SNP位点所属的染色体、该SNP位点在该染色体的定位和该SNP位点的基因型。
3.如权利要求1所述的方法,其特征在于,所述获取用户基因组的SNP数据,包括:
接收用户终端发送的所述用户的基因组的SNP数据。
4.如权利要求1所述的方法,其特征在于,所述方法还包括:
分别从基因数据库和药物数据库选取特定信息,并将所述选取的特定信息进行合成得到所述生物数据库。
5.如权利要求1-4中任一项所述的方法,其特征在于,所述将所述SNP数据与所述生物数据库进行比对,从所述生物数据库中选择所述SNP数据包括的至少一个SNP位点对应的药物反应信息,包括:
将所述SNP数据包括的SNP位点的标识与所述生物数据库中的SNP位点的标识进行对比,并将所述SNP数据包括的SNP位点的标识对应的药物反应信息作为该SNP位点对应的药物反应信息。
6.一种药物反应数据库建立装置,其特征在于,包括:第一获取单元、第二获取单元、比对单元和建立单元,其中:
所述第一获取单元,用于获取用户基因组的单核苷酸多态性SNP数据,所述SNP数据包括至少一个SNP位点的形态信息,所述SNP位点的形态信息包括该SNP位点的标识、该SNP位点所属的染色体、该SNP位点在该染色体的定位和该SNP的基因型;
所述第二获取单元,用于获取生物数据库,所述生物数据库包括多个SNP位点对应的药物反应信息;
所述比对单元,用于将所述SNP数据与所述生物数据库进行比对,从所述生物数据库中选择所述SNP数据包括的至少一个SNP位点对应的药物反应信息;
所述建立单元,用于将所述选择的获取反应信息建立为所述用户的药物反应数据库。
7.如权利要求6所述的装置,其特征在于,所述第一获取单元包括:
第一子单元,用于接收文件传输协议客户端上传的所述用户的高通量测序数据,所述高通测序数据包括至少一个测序片段,每个所述测序片段上包括至少一个核苷酸碱基序列,所述核苷酸碱基序列包括至少一个SNP位点;
第二子单元用于将所述高通测序数据与参考基因组对比,得到第一数据文件,所述第一对比数据文件包括注释信息和比对结果,所述注释信息用于对所述第一数据文件进行注释,所述对比结果包括每个所述测序片段与所述参考基因组对比的结果;
第三子单元,用于将所述第一数据文件转换成二进制格式的第二数据文件;
第四子单元,用于对所述第二数据文件进行排序和去冗余处理,并以SNP位点为单位建立索引,以生成第三数据文件;
第五子单元,用于对所述第三数据文件进行SNP位点查找,以生成包括所述第三数据文件中与所述参考基因组中核苷酸碱基中不相同的SNP位点的信息的第四数据文件;
第六子单元,用于将所述第四数据文件转换为自定的文件格式的SNP数据文件,所述SNP数据文件中每一行为一个SNP位点信息,所述SNP位点信息包括该SNP位点的标识、该SNP位点所属的染色体、该SNP位点在该染色体的定位和该SNP位点的基因型。
8.如权利要求6所述的装置,其特征在于,所述第一获取单元用于接收用户终端发送的所述用户的基因组的SNP数据。
9.如权利要求6所述的装置,其特征在于,所述装置还包括:
合成单元,用于分别基因数据库和药物数据库选取特定信息,并将所述选取的特定信息进行合成得到所述生物数据库。
10.如权利要求6-5中任一项所述的装置,其特征在于,所述比对单元用于将所述SNP数据包括的SNP位点的标识与所述生物数据库中的SNP位点的标识进行对比,并将所述SNP数据包括的SNP位点的标识对应的药物反应信息作为该SNP位点对应的药物反应信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410151325.XA CN103955631A (zh) | 2014-04-16 | 2014-04-16 | 一种药物反应数据库建立方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410151325.XA CN103955631A (zh) | 2014-04-16 | 2014-04-16 | 一种药物反应数据库建立方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103955631A true CN103955631A (zh) | 2014-07-30 |
Family
ID=51332906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410151325.XA Pending CN103955631A (zh) | 2014-04-16 | 2014-04-16 | 一种药物反应数据库建立方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103955631A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106886689A (zh) * | 2015-12-15 | 2017-06-23 | 浙江大学 | 一种病原微生物基因组快速分析方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102034016A (zh) * | 2009-09-30 | 2011-04-27 | 帕斯维基因组学公司 | 基于基因组的药物管理系统 |
CN102067142A (zh) * | 2008-02-26 | 2011-05-18 | 普渡研究基金会 | 用于患者基因分型的方法 |
-
2014
- 2014-04-16 CN CN201410151325.XA patent/CN103955631A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102067142A (zh) * | 2008-02-26 | 2011-05-18 | 普渡研究基金会 | 用于患者基因分型的方法 |
CN102034016A (zh) * | 2009-09-30 | 2011-04-27 | 帕斯维基因组学公司 | 基于基因组的药物管理系统 |
Non-Patent Citations (2)
Title |
---|
HENG LI ET AL: "The Sequence Alignment/Map format and SAMtools", 《BIOINFORMATICS》 * |
郑珊凤: "烟草TMV_PVY抗性基因与青枯病抗性QTL定位", 《中国优秀硕士学位论文全文数据库农业科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106886689A (zh) * | 2015-12-15 | 2017-06-23 | 浙江大学 | 一种病原微生物基因组快速分析方法及系统 |
CN106886689B (zh) * | 2015-12-15 | 2018-12-21 | 浙江大学 | 一种病原微生物基因组快速分析方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Meuleman et al. | Index and biological spectrum of human DNase I hypersensitive sites | |
Greuter et al. | probeBase—an online resource for rRNA-targeted oligonucleotide probes and primers: new features 2016 | |
Barrett et al. | NCBI GEO: archive for high-throughput functional genomic data | |
Akagi et al. | RTCGD: retroviral tagged cancer gene database | |
Bowman et al. | GlioVis data portal for visualization and analysis of brain tumor expression datasets | |
RNAcentral Consortium Petrov Anton I* Kay Simon JE Kalvari Ioanna Howe Kevin L Gray Kristian A Bruford Elspeth A Kersey Paul J Cochrane Guy Finn Robert D Bateman Alex Kozomara Ana Griffiths-Jones Sam Frankish Adam Zwieb Christian W Lau Britney Y Williams Kelly P Chan Patricia P Lowe Todd M Cannone Jamie J Gutell Robin Machnicka Magdalena A Bujnicki Janusz M Yoshihama Maki Kenmochi Naoya Chai Benli Cole James R Szymanski Maciej Karlowski Wojciech M Wood Valerie Huala Eva Berardini Tanya Z Zhao Yi Chen Runsheng Zhu Weimin Paraskevopoulou Maria D Vlachos Ioannis S Hatzigeorgiou Artemis G Ma Lina Zhang Zhang Puetz Joern Stadler Peter F McDonald Daniel Basu Siddhartha Fey Petra Engel Stacia R Cherry J Michael Volders Pieter-Jan Mestdagh Pieter Wower Jacek Clark Michael B Quek Xiu Cheng Dinger Marcel E | RNAcentral: a comprehensive database of non-coding RNA sequences | |
Liu et al. | Citrus Pan-Genome to Breeding Database (CPBD): A comprehensive genome database for citrus breeding | |
Robinson et al. | Integrative genomics viewer | |
Lee et al. | ChimerDB 3.0: an enhanced database for fusion genes from cancer transcriptome and literature data mining | |
Yu et al. | CottonGen: a genomics, genetics and breeding database for cotton research | |
Kuhn et al. | The UCSC genome browser and associated tools | |
Price et al. | Long-range LD can confound genome scans in admixed populations | |
Kapushesky et al. | Gene Expression Atlas update—a value-added database of microarray and sequencing-based functional genomics experiments | |
Rogers et al. | WormBase 2007 | |
Smith et al. | Structural and functional annotation of long noncoding RNAs | |
Kaplan et al. | ProtoNet 4.0: a hierarchical classification of one million protein sequences | |
Hokamp et al. | ArrayPipe: a flexible processing pipeline for microarray data | |
Page et al. | BamBam: genome sequence analysis tools for biologists | |
Luehr et al. | The XXmotif web server for eXhaustive, weight matriX-based motif discovery in nucleotide sequences | |
Jamieson et al. | Whole-genome sequencing of the Mycobacterium tuberculosis Manila sublineage results in less clustering and better resolution than mycobacterial interspersed repetitive-unit–variable-number tandem-repeat (MIRU-VNTR) typing and spoligotyping | |
Bansal et al. | Sequencing technologies and analyses: where have we been and where are we going? | |
Hormozdiari et al. | Sensitive and fast mapping of di-base encoded reads | |
Hwang et al. | Web-based CRISPR toolkits: Cas-OFFinder, cas-designer, and cas-analyzer | |
Gooden et al. | dbGuide: a database of functionally validated guide RNAs for genome editing in human and mouse cells | |
Castillo | From hard drives to flash drives to DNA drives |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140730 |
|
RJ01 | Rejection of invention patent application after publication |