CN1303556C - 用于检索信息的系统和方法 - Google Patents

用于检索信息的系统和方法 Download PDF

Info

Publication number
CN1303556C
CN1303556C CNB2004100451515A CN200410045151A CN1303556C CN 1303556 C CN1303556 C CN 1303556C CN B2004100451515 A CNB2004100451515 A CN B2004100451515A CN 200410045151 A CN200410045151 A CN 200410045151A CN 1303556 C CN1303556 C CN 1303556C
Authority
CN
China
Prior art keywords
information
retrieval
output
result
condition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2004100451515A
Other languages
English (en)
Other versions
CN1538330A (zh
Inventor
仲里猛留
宫川知也
剑持聪久
麻生川稔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of CN1538330A publication Critical patent/CN1538330A/zh
Application granted granted Critical
Publication of CN1303556C publication Critical patent/CN1303556C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioethics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

输入接收单元(11)接收来自于用户的对数据库的查询,依照用户查询创建用于检索信息的查询。查询生成单元(12)依照用户查询或者用于重新检索信息的重新检索查询来生成实际检索的数据库查询。检索单元(13)依照数据库查询执行信息检索。条件设置单元(16)具有分析条件以及输出条件。分析单元(14)依照由条件设置单元(14)提供的分析条件来分析信息检索结果。输出控制单元(15)依照由条件设置单元(14)提供的输出条件、输出信息分析结果作为输出信息,利用信息分析结果创建重新检索查询,并且向查询生成单元(12)提供重新检索查询。

Description

用于检索信息的系统和方法
技术领域
本发明涉及一种用于检索信息的系统和方法。
背景技术
在医学、药学、分子生物学等等领域中,迄今为止,由于疾病原因以及疾病发病机理的阐明、医疗的开发、生物发现等等,许多基因和蛋白质的结构与功能已经揭开。此外,为了澄清生物演变和发育以及处于细胞水平的生物功能(biofunction)的机理,已经在诸如人类、小白鼠、老鼠、线虫类、稻谷等等的不同物种方面积极地进行阐明基因组、即全部DNA(脱氧核糖核酸)的碱基序列的研究。基因组的阐明已经取得了进展,并且对依照由基因表示的信息所生成的蛋白质的研究也已经迅速地发展。
通过对基因以及蛋白质的研究,可以获得关于基因的基因碱基序列、染色体上的基因位置、相似基因、突变、蛋白质的氨基酸序列、蛋白质的三维结构的庞大的数据。这样构造了包括通过研究获得的数据的不同生物信息数据库。
研究人员所熟知的并且经常使用的生物信息数据库之一就是美国的NCBI(National Center for Biotechnology Information)的Entrez(http://www.ncbi.nlm.nih.gov/entrez/)。日本的遗传学国家研究院(National Institute of Genetics)、EMBL(European Molecular Biologylaboratory)的EBI(European Bioinformatics Institute)等等提供了包括基因和蛋白质的主要序列信息的数据库。此外,还经常使用包括有关蛋白质的主要信息、由NCBI提供的LocusLink(http:/www.ncbi.nlm.nih.gov/LocusLmk)、SWISS-PROT(http://kr.expasv.org/sprot/)。
在这种情况下,对于医学、药学、分子生物学等等领域的研究人员来说,使用上述的生物信息数据库是必不可少的。例如,在对涉及疾病的基因的研究中,存在这样一种情况,其中执行病人与常人之间的基因表达方面的对比,以便指定可用于诊断的基因。这时,发现意外的基因表达并不难得。在该情况下,需要通过利用数据库对发现的基因表达查阅详细信息。
此外,在检索新基因的研究中,存在这样一种情况,其中只获得了DNA的片段。在该情况下,需要使用所述数据库来检验在已知的DNA序列中是否存在符合获得的片段的序列,使其可取确定该片断是否是未知的。
此外,在对根据确定基因所生成的蛋白质具有什么功能的研究中,通过所述数据库来查阅目标基因的序列。然后,将一部分序列通过化学合成来形成DNA,包括通过聚合酶链式反应来形成的目标基因序列。此外,根据所形成的DNA来生成蛋白质。然后,执行检验目标基因和所生成的蛋白质的功能之间的相互作用的实验,并且执行用于检验所生成的蛋白质的电特性的实验。
以上仅仅示出了利用生物信息数据库的一部分例子。在研究人员进行研究的同时,可以从生物信息数据库获得各种信息。而将最新获得的知识寄存在数据库中是通常采取的做法。为此,所述生物信息数据库每天或者每个星期都会持续的更新。
将在利用生物信息数据库检索中使用的关键词(单词或者短语)称为查询或者举例查询(QBE)。此后将该查询用于此说明书。
在研究人员开展的研究中,不仅在获得基因以及蛋白质的信息而且在涉及学术论文、书籍、专利公开文献的信息方面投入了非常大的力量。具体而言,阅读在世界范围内发行的学术刊物中描述的这些内容,需要知道现有的知识以及在他/她自身研究领域中的最新的趋势或者试验方法。
PubMed(http:/www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=PubMed)是这样一种工具,其从生物文档数据库中检索生物文档,所述生物文档数据库由NCBI免费向全世界提供。PubMed非常广泛并且经常被全世界的研究人员所使用。作为PubMed数据库的核心的MEDLINE(MedicalLiterature,Analysis,和Retrieval System Online)包含覆盖包括美国的70多个国家公开的4600篇文档,并且涉及医学、药学、分子生物学等等领域。这些文档中使用的语言数目有40多种。从二十世纪60年代中期到如今所包含的数据达一千一百万之多。此外,原则上每天都添加新的文档。在使用PubMed进行检索时,研究人员使用基因或者蛋白质名称以及作者作为关键词。在此情况下,经由PubMed可以获得涉及所述关键词的文档列表。研究人员可以在链接感兴趣的文档之后阅读文章的摘要。此外,当研究人员所属组织与文档的出版者具有预定协议时,研究人员可以通过进一步的链接来读取整篇文章。
上述内容的一部分例如在Molecular Biology的2001年第3期的第47到55页中公开了,并且在Canadian Medical Association Journal的2001年第164期的第1317到1319中公开了。
然而,传统的检索系统具有以下问题。第一个问题是:当只将研究人员已知的基因或者蛋白质名称用作关键词时,有时在检索结果中存在遗漏。
通常,在使用生物信息数据库检索的时候,将基因或者蛋白质名称用作关键词。然而,新发现的基因和蛋白质往往分别由发现它们的研究人员来独特地命名。因此,这些名称总体上不统一。当具有高度同源性的基因或者蛋白质在物种方面相互不同时,就存在这样一种情况,也就是对它们使用完全不同的命名。此外,当在已知的基因或者蛋白质中发现新的功能时,就存在这样一种情况,也就是对其进行适合于新功能的命名,并且给予其概括具有类似功能的基因或者蛋白质的这种名称。根据这种观点,存在具有多个名称的基因或者蛋白质,并且有时对于每个生物信息数据库来说,所寄存的名称是不同的。据此,如果当研究人员利用他/她各自已知的基因或者蛋白质名称进行检索时,他们无法获得全部必要的信息。也就是,在检索结果中存在遗漏。
在多个现存的生物信息数据库之中、基因和蛋白质名称的格式方面的不统一,成为引起检索结果中存在遗漏的较大因素。例如,作为酶之一的“碳酸酐酶(Carbonic Anhydrase)1”,往往以多个形式诸如“CA1”、“CA1”、“CA-1”等等作为其缩写来写入。此外,往往将罗马数字“I”用作阿拉伯数字“1”。据此,当指定的关键词不符合生物信息数据库中使用的格式时,最后在检索结果中往往发生遗漏。
检索中的上述遗漏有时会引起更加严重的问题。例如,当研究某一基因或者蛋白质的研究人员无法从生物数据库中获得涉及他/她已知的名称的数据时,研究人员往往会误解其中没有寄存待研究的基因或者蛋白质。也就是,研究人员会误解待研究的基因或者蛋白质是新的基因或蛋白质。在该情况下,研究人员往往会准备采样所述基因或者蛋白质,从而很可能造成时间、劳动力和成本的浪费。为了避免这些问题,所述研究人员利用多个生物信息数据库进行检索。然后,研究人员不得不根据从某一数据库作为关键词获得的另一个基因名称、利用另一个数据库进行检索。这样做带给研究人员巨大的负担。
第二个问题是:在使用多个生物信息数据库进行检索时,原则上必须使用基因或者蛋白质名称。
当将每个基因和蛋白质寄存在诸如NCBI、DDBJ(日本的DNA数据库)等等的生物信息数据库中时,在数据库给出了作为ID的称作登记号码的数字。所述登记号码依照每个生物信息数据库的唯一性规则来确定。为此,对于相同的基因或者蛋白质来说,有时在每个生物信息数据库中登记号码是不同的。据此,在使用多个生物信息数据库进行检索的时候,存在这样一种情况,难于在用登记号码进行检索。
在现存的生物数据库、也就是经常使用的生物数据库之中,已经开始了对统一这些名称和登记号码的格式的试验。然而,此试验还处于距实际应用阶段还甚远的阶段。此外,由于将许多俗名用于研究报告中,所以我们必须说存在困难的局面。
此外,在许多生物信息数据库中,存在这样一个难题,其中除了名称以外,无法使用生物信息(诸如序列、分子量等等)来检索文档。例如,为了利用登记号码检索文档,必须预先利用NCBI的Entrez数据库来查阅正在检索的基因或者蛋白质的名称和登记号码。这样做带给用户巨大的负担。此外,存在这样一种情况,其中没有给予新的基因或者蛋白质名称和登记号码。为此,当获得新的基因或者蛋白质的选择物时,普遍首先使用碱基或者氨基酸序列来进行检索。
此外,在传统的方式中,将BLAST(Basic Local Alignment Search Tool)用作用于查阅碱基或者氨基酸序列的同源性的工具。研究人员使用BLAST来获得具有同源性的基因或者蛋白质的名称。然后,研究人员将所获得的名称作为关键词人工输入到终端,以便使用PubMed等等检索文档。一连串的这些操作给研究人员带来了相当大的负担。
此外,假设将上述文献的内容并入此说明书中。
发明内容
据此,本发明的目的在于提供一种信息检索系统和信息检索方法,用于即便关键词的数目是一个时,也能不易使检索结果产生遗漏。
此外,本发明的另一个目的在于:提供一种信息检索系统和信息检索方法,用于不分关键词种类地执行检索。
此外,本发明的另一个目的在于:提供一种信息检索系统和信息检索方法,用于使用户小负担地执行检索。
为了实现以上目的,依照本发明第一方面的信息检索系统包括:输入接收单元(11),用于接收来自于用户的对数据库的查询,依照用户查询、创建用于从数据库检索信息的用户查询,并输出所创建的用户查询;查询生成单元(12),用于接收用户查询或者从数据库重新检索信息的重新检索查询,依照所述用户查询或者所述重新检索查询、生成用于实际上从数据库检索信息的数据库查询,并输出所创建的数据库查询;检索单元(13),用于依照数据库查询执行信息检索,并输出信息检索结果;分析单元(14),用于分析由检索单元(13)输出的信息检索结果,并输出信息分析结果;输出控制单元(15),用于将来自于分析单元(14)的信息分析结果作为输出信息来输出,利用信息分析结果创建重新检索查询,并且向所述查询生成单元(12)提供所创建的重新检索查询;以及条件设置单元(16),其具有用于分析信息检索结果的分析条件以及用于输出输出信息的输出条件,向所述分析单元(14)提供分析条件,并且向所述输出控制单元(15)提供输出条件。所述分析单元(14)依照来自于条件设置单元(16)的分析条件来分析信息检索结果;并且所述输出控制单元(15)依照来自于所述条件设置单元(16)的输出条件来输出所述输出信息。
所述信息检索系统还可包括输出设置单元(21),用于从用户那里接收涉及信息检索结果的分析和输出信息的输出的条件,并且向所述条件设置单元(16)提供所接收的条件。所述条件设置单元(16)可以将来自于所述输出设置单元(21)的条件作为分析条件和输出条件来保存。
所述信息检索系统还可包括文档检索单元(51),用于接收由输出控制单元(15)输出的输出信息,从数据库中检索与输出信息相关的文档,并输出文档检索结果。
所述信息检索系统还可包括第二分析单元(61),用于接收文档检索结果,通过从文档检索结果中提取预定信息来分析文档检索结果,并输出文档分析结果。
所述信息检索系统还可包括格式改变单元(71),用于接收文档分析结果,将文档分析结果的格式改变为预定格式,并输出其格式被改变了的文档分析结果。
所述信息检索系统还可包括补充单元(41),用于接收由输出控制单元(15)输出的输出信息,并且利用涉及输出信息的信息来对输出信息进行补充。
待检索的信息可以是生物信息。
依照本发明第二方面的信息检索系统,包括:第二输入接收单元(22),用于接收用户对数据库的查询以及待输出的信息的指定,依照用户的查询和指定、创建用于从数据库检索信息的用户查询和表示待输出的信息的指定信息,并输出用户查询和指定信息;查找过程设置单元(32),用于依照用户查询和指定信息来设置检索过程,并输出表示所述检索过程的数据库查询列表;检索控制单元(33),用于依照所述数据库查询列表和用户查询、控制从数据库检索信息以及信息检索结果的分析,并输出作为输出信息的信息分析结果;检索单元(13),用于在所述检索控制单元(33)的控制之下执行信息检索,并输出信息检索结果;分析单元(14),用于在所述检索控制单元(33)的控制之下执行信息检索结果的分析,并且向检索控制单元(33)输出信息分析结果;条件设置单元(16),其具有用于分析信息检索结果的分析条件,并且向所述分析单元(14)提供分析条件。所述分析单元(14)依照来自于条件设置单元(16)的分析条件来执行信息检索结果的分析。
所述信息检索系统还可包括文档检索单元(51),用于接收由所述检索控制单元(33)输出的输出信息,从数据库中检索与输出信息相关的文档,并输出文档检索结果。
所述信息检索系统还可包括第二分析单元(61),用于接收文档检索结果,通过从文档检索结果中提取预定信息来分析文档检索结果,并输出文档分析结果。
所述信息检索系统还可包括格式改变单元(71),用于接收文档分析结果,将文档分析结果的格式改变为预定格式,并输出其格式被改变了的文档分析结果。
所述信息检索系统还可包括补充单元(41),用于接收由检索控制单元(33)输出的输出信息,并且利用涉及输出信息的信息来对输出信息进行补充。
待检索的信息是生物信息。
依照本发明第三方面的信息检索方法,包括以下步骤:接收用户对数据库的查询;依照用户的查询、创建用于从数据库检索信息的用户查询;依照用户查询或者用于从数据库重新检索信息的重新检索查询、创建实际上从数据库检索信息的数据库查询;依照数据库查询执行信息检索;依照用于分析信息检索结果的分析条件、分析由信息检索获得的信息检索结果;利用信息分析结果创建重新检索查询,其中所述信息分析结果通过分析信息检索结果获得:依照用于输出信息分析结果的输出条件、输出作为输出信息的信息分析结果。
所述信息检索方法还可包括以下步骤:从用户那里接收涉及信息检索结果的分析以及涉及输出信息的输出的条件;并且保存作为分析条件和输出条件的这些条件。
输出所述输出信息可以包括每当执行信息检索结果的分析时、输出所述输出信息。
输出所述输出信息可以包括保存通过每次分析信息检索结果而获得的信息分析结果;并在完成所有重新检索的情况下、一次性输出所保存的信息分析结果。
所述信息检索方法还可包括以下步骤:从文档中检索与输出信息相关的文档;并且输出通过检索获得的文档检索结果。
所述信息检索方法还可包括以下步骤:通过从文档检索结果中提取预定信息来分析文档检索结果;输出通过分析文档检索结果获得的文档分析结果。
所述信息检索方法还可包括以下步骤;将文档分析结果的格式改变为预定格式;并且输出其格式被改变了的文档分析结果。
所述信息检索方法还可包括以下步骤:利用涉及输出信息的信息来对输出信息进行补充。
待检索的信息可以是生物信息。
依照本发明第四方面的信息检索方法,包括以下步骤;接收用户对数据库的查询以及对待输出的信息的指定,依照用户的查询和指定、创建用于从数据库检索信息的用户查询和表示待输出的信息的指定信息;依照用户查询和指定信息来设置检索过程,由此创建表示检索过程的数据库查询列表;依照数据库查询列表和用户查询、创建用于控制从数据库检索信息的数据库查询;依照数据库查询执行信息检索;依照用于分析信息检索结果的分析条件、分析通过执行检索获得的信息检索结果;并且依照用于输出所述输出信息的输出条件、输出作为输出信息的通过分析信息检索结果获得的信息分析结果。
所述信息检索方法还可包括以下步骤:从数据库中检索与输出信息相关的文档;并且输出通过检索获得的文档检索结果。
所述信息检索方法还可包括以下步骤:通过从文档检索结果中提取预定信息来分析文档检索结果;输出通过分析文档检索结果获得的文档分析结果。
所述信息检索方法还可包括以下步骤:将文档分析结果的格式改变为预定格式;并且输出其格式被改变了的文档分析结果。
所述信息检索方法还可包括以下步骤:利用涉及输出信息的信息来对输出信息进行补充。
待检索的信息可以是生物信息。
附图说明
当读到以下的详细说明以及附图时,本发明的这些目的以及其他目的和优点将变得更加清楚,其中:
图1是依照第一实施例的生物信息检索系统的结构视图;
图2是举例说明由图1的系统中包括的查询生成部执行的处理的流程图;
图3是举例说明由查询生成部执行的处理的流程图;
图4是举例说明由图1的系统中包括的生物信息检索部执行的处理的流程图;
图5是举例说明由生物信息检索部执行的另一个处理的流程图;
图6是举例说明由图1的系统中包括的分析部执行的处理的流程图;
图7是举例说明由图1的系统中包括的输出控制部执行的处理的流程图;
图8是举例说明由输出控制部执行的另一个处理的流程图;
图9是举例说明由输出控制部执行的另一个处理的流程图;
图10是举例说明由图1的系统中包括的条件设置部执行的处理的流程图;
图11是举例说明由输入接收部件显示的输入表格的视图;
图12是举例说明检索结果的例子的视图;
图13是举例说明检索结果的例子的视图;
图14是举例说明检索结果的例子的视图;
图15是举例说明检索结果的例子的视图;
图16是依照第二实施例的生物信息检索系统的结构视图;
图17是依照第二实施例的生物信息检索系统的另一个结构视图;
图18是举例说明由图16的系统中包括的输出部显示的输入屏幕的视图;
图19是依照第三实施例的生物信息检索系统的结构视图;
图20是举例说明由图19的系统中包括的检索过程设置部执行的处理的流程图;
图21是举例说明由配置图19的系统的检索控制部33执行的处理的流程图;
图22是依照第四实施例的生物信息检索系统的结构视图;
图23是依照第五实施例的生物信息检索系统的结构视图;
图24是举例说明由图23的系统中包括的文档检索部执行的处理的流程图;
图25是举例说明检索结果的一个例子的视图;
图26是举例说明检索结果的一个例子的视图;
图27是依照第六实施例的生物信息检索系统的结构视图;
图28是举例说明检索结果的一个例子的视图;
图29是举例说明检索结果的一个例子的视图;
图30是举例说明图27的系统中包括的第二分析部生成的结果的一个例子的视图;
图31是依照第七实施例的生物信息检索系统的结构视图;以及
图32是举例说明由图31的系统中包括的形式改变部输出的结果的一个例子的视图。
具体实施方式
(第一实施例)
以下将参照附图解释依照本发明第一实施例的生物信息检索系统和生物信息检索方法。
图1是依照第一实施例的生物信息检索系统的结构视图。如图1所示,所述生物信息检索系统包括输入接收部11、查询生成部12、生物信息检索部13、分析部14、输出控制部15和条件设置部16。
所述生物信息检索系统由计算机实现,所述计算机包括采用键盘和鼠标实现的输入装置、采用CRT(阴极射线管)或者液晶显示板实现的显示器、存储器和CPU(中央处理单元)。更具体地说,所述存储器存储用于执行稍后将要描述的处理过程的程序和数据,并且CPU执行存储在存储器中的程序。这样实现了具有图1的结构的生物信息检索系统。
所述生物信息检索系统经由诸如互联网等等的网络与多个DB(数据库)服务器相连,每个DB服务器均具有生物信息DB 999。如稍后所描述的那样,生物信息检索系统从多个生物信息DB 999中获得涉及用户输入的信息的信息。另外,在图1中,作为一个例子,只示出了一个生物信息DB 999。
所述输入接收部11接收用户使用输入装置输入的信息所述用户输入101包括用于从生物信息DB 999检索生物信息的至少一个关键词。所述关键词例如包括基因或者蛋白质名称、登记号码或者碱基或者氨基酸序列。
所述输入接收部11指定所接收的用户输入101中包括的每个关键词的种类。所述输入接收部11使每个关键词与表示所指定的种类的信息一致,以便生成用户查询111。所述用户查询111示出了一列集合{关键词,关键词种类}。输入接收部11向查询生成部12提供所生成的用户查询111。
可以将以下两种方法用作用于指定关键词和关键词的种类的方法。
第一种方法是使用用于输入关键词的输入表格。例如,输入接收部11具有如图11所示的输入表格的数据。所述输入表格具有每种关键词的输入区。所述输入接收部11利用数据在显示器上显示输入表格。用户利用输入装置在至少一个输入区中输入关键词。所述输入接收部11根据用户将关键词输入到哪个输入区来指定关键词以及关键词的种类。
第二种方法是使用关键词格式。例如,输入接收部11具有基因或者蛋白质名称、登记号码、碱基以及氨基酸名称和碱基以及氨基酸序列的格式数据。输入接收部11利用格式数据从用户输入101中指定符合所述格式的字符串。输入接收部11由此指定关键词以及关键词的种类。
另外,当没有指定关键词的种类时,输入接收部11使所述关键词与可以获得的关键词的所有种类的每一个一致。
查询生成部12具有生物DB信息。生物DB信息示出了每个生物信息DB 999的位置(DB位置)、在每个生物信息DB 999中一种可用关键词。也就是,生物DB信息示出了一列集合{DB位置,可用关键词种类}。此外,可以例如通过URL(统一资源定位符)来表示生物信息DB 999的位置。
查询生成部12还包括标志表数据,具有均对应于生物DB信息中包括的集合的检索标志。每个检索标志示出了是否进行对应于生物DB信息中包括的每个集合的检索。
查询生成部12响应来自于输入接收部11的用户查询111来初始化标志表。结果,将所有检索标志设置为表示“未检索”的状态(值)。
查询生成部12将由用户查询111示出的每种关键词与由生物DB信息示出的每种可用关键词进行比较。查询生成部12使用用户查询111的集合以及均表示同一种类的生物DB信息的集合、生成包括检索所需信息的DB查询121。DB查询121示出了一列集合{DB位置,关键词,关键词的种类}。据此,用于检索的生物DB 999被确定。
查询生成部12向生物信息检索部13提供所生成的DB查询121。这时,查询生成部12将对应于所生成的DB查询121的每个集合的检索标志从“未检索”改变为“检索”。
生物信息检索部13使用从查询生成部12提供的DB查询121来生成对应于DB查询121每个集合的查询信号131。每个查询信号131包括由DB查询121的每个集合示出的关键词。生物信息检索部13将相应的查询信号131发送到由提供的DB查询121的每个集合示出的DB位置。结果,每个接收了查询信号131的DB服务器进行检索。
接收了查询信号131的DB服务器使用由查询信号131示出的关键词、从DB服务器包括的生物信息DB 999中检索涉及关键词的生物信息。DB服务器向生物信息检索部13发送检索结果132。
生物信息检索部13将用于指定所使用的生物信息DB 999的信息(DB指定信息)以及表示所使用的关键词以及所使用的关键词的种类的信息、添加到从每个DB服务器提供的检索结果132中。结果,生物信息检索部13生成DB检索结果133。DB检索结果133示出了检索结果132、DB指定信息、关键词以及关键词的种类。所述DB指定信息例如是生物信息DB 999的名称。生物信息检索部13向分析部14提供所生成的DB检索结果133。
另外,当在DB服务器中发生错误时,DB服务器向生物信息检索部13发送示出有错误出现的检索结果132。在该情况下,生物信息检索部13向查询生成部12提供表示有错误出现的错误信息134。此外,当在预定空闲时间内无法获得检索结果132时,生物信息检索部13确定出现了诸如通信故障此类的错误。在该情况下,生物信息检索部13还向查询生成部12提供错误信息134。查询生成部12响应来自于生物信息检索部13的错误信息134,将相应的检索标志返回为“未检索”。
此外,生物信息检索部13可以在每个空闲时间内发送相同的查询信号131,并且当发送次数达到时间的预定次数时,提供错误信息134。在该情况下,将发送次数预置到生物信息检索部13。
分析部14利用来自于生物信息检索部13的DB检索结果133生成条件请求141。所述条件请求141表示错误存在与否、DB指定信息以及关键词的种类。分析部14向条件设置部16提供所生成的条件请求141。
条件设置部16预先依照所使用的生物信息DB 999、所使用的关键词的种类以及错误存在与否的集合来准备提取条件161的数据。提取条件161示出了用于从DB检索结果133中提取待输出的信息的条件。更具体地说,提取条件161示出了检索结果132的格式、描述待提取的信息的一部分、用于提取信息的规则以及当出现错误时的检索结果132的格式。条件设置部16响应来自于分析部14的条件请求141、向分析部14提供对应于条件请求141的提取条件161。
分析部14依照来自于条件设置部16的提取条件161、从DB检索结果133中提取信息。
待提取的信息例如是涉及关键词的DB指定信息、关键词、关键词的种类以及生物信息(基因和蛋白质的名称以及别名、碱基以及氨基酸序列、登记号码等等)。分析部14将从DB检索结果133中提取的信息作为分析结果142提供给输出控制部15。
输出控制部15依照来自于条件设置部16的输出条件163提供标志设置。输出条件162示出了作为检索获得的结果而请求的生物信息。作为结果请求的生物信息例如包括从Entrez处获得的基因或者蛋白质名称,以及从LocusLink处获得的基因或者蛋白质名称。标志设置包括均对应于待请求的生物信息的输出标志。每个输出标志示出了是否获得了所需要的生物信息。
输出控制部15保存从分析部14提供的分析结果142。输出控制部15根据所述分析结果142、检测对应于示出“未获得”的输出标志的所请求的生物信息。输出控制部15将对应于所检测的生物信息的输出标志改变为“获得”状态。据此,当所有输出标志都处于示出了“获得”的状态时,输出控制部15同时将所有保存的分析结果142作为输出信息152输出。这时,输出控制部15控制显示器等等,以便可以显示由所有保存的检索结果142示出的信息列表。结果,完成检索。另外,当完成检索时,输出控制部152控制显示器等等,以便输出表示检索完成的信息。这样能够使用户清楚地知道检索完成。
另一方面,在剩有示出了“未获得”的输出标志的情况下,输出控制部15从保存的分析结果142中提取生物信息以及表示种类的信息。输出控制部15使每个提取的生物信息与表示种类的信息一致,以便生成重新检索查询151。重新检索查询151示出了一列集合{生物信息,生物信息的种类}。将由重新检索查询151示出的生物信息用作重新检索的关键词。输出控制部15向查询生成部12提供所生成的重新检索查询151。结果,进行重新检索。
此外,输出控制部15可以顺序地处理分析结果142。在该情况下,当接收分析结果142时,输出控制部15输出作为输出信息152的分析结果142。在剩有示出了“未获得”的输出标志的情况下,输出控制部15向查询生成部12提供重新检索查询151,类似于上述处理。
在提供重新检索查询151之后,由查询生成部12执行的处理与上述处理相同。此外,当重新检索时,生物信息检索部13、分析部14以及输出控制部15的每一个执行的处理都与上述处理相同。然而,当向该处提供重新检索查询151时,查询生成部12不初始化标志表。此外,在已经检索了重新检索查询151示出的各种关键词的情况下,查询生成部12向输出控制部15输出表示检索完成的检索完成信息122。当向该处提供检索完成信息122时,无论输出标志状态如何,输出控制部15都同时将所有保存的分析结果142作为输出信息152输出。这时,输出控制部15可以输出表示检索完成的信息。结果,完成检索。
条件设置部16预先包括上述的提取条件161的数据。条件设置部16响应来自于分析部14的条件请求141、向分析部14提供对应于条件请求141的提取条件161。此外,条件设置部16预先包括上述的输出条件162的数据。条件设置部16响应来自于分析部14的第一条件请求141、向输出控制部15提供输出条件162。输出条件162包括上述的标志设置的初始值。
输入接收部11接收用户输入的用户输入101。所述输入接收部11指定所接收的用户输入101中包括的每个关键词的一种。所述输入接收部11使用户输入101中包括的每个关键词与表示所指定的种类的信息一致,以便生成用户查询111。
如上文所解释的,作为用于指定关键词以及关键词的种类的方法,存在两种方法,一种是利用输入表格,而另一种是利用关键词格式。
以下将参照图2解释利用关键词格式时、输入接收部11的操作。
在该情况下,输入接收部11具有基因和蛋白质的名称、登记号码、碱基以及氨基酸名称以及碱基以及氨基酸序列的格式数据。所述格式可以是公开提供的以及公知的,并且例如用于Entrez、LocusLink以及SWISS-PROT的。
首先,输入接收部11通过利用格式数据来确定用户输入101表示的信息整体是否依照格式来描述(步骤1101)。
例如,PASTA格式是行业中公知的一种格式。依照此格式,在第一行的顶端写“>”,并且随后向该处写基因或者蛋白质名称。然后,在第二行并且向后、写碱基或者氨基酸序列。GenBank格式也是行业中公知的格式。在此格式中,将诸如基因名称、蛋白质名称、碱基序列、氨基酸序列、物种、发表的学术论文等等标准化。
在输入接收部11确定依照格式描述整体信息(步骤1101:是)的情况下,输入接收部11使用格式数据、指定用户输入101中包括的一个或多个关键词以及所指定的一个或多个关键词的种类。输入接收部11从用户输入101中提取指定的关键词,并且使提取出的关键词与指定的类别一致(步骤1102)。
另一方面,在输入接收部11确定整体信息没有依照格式进行描述(步骤1101:否)的情况下,输入接收部11获得由用户输入101示出的信息字符数目。输入接收部11确定所获得的字符数是否是预定数量的字符(例如,20个字符)或更多(步骤1103)。
在输入接收部11确定所获得的字符数是预定数量的字符或更多(步骤1103:是)的情况下,输入接收部11确定用户输入101示出了序列。在输入接收部11确定所获得的字符数是预定数量的字符或更多(步骤1103:是)的情况下,输入接收部11确定用户输入101示出了序列。然后,输入接收部11指定由用户输入101示出的序列的种类。更具体地说,输入接收部11确定用户输入101是否包括只用于碱基序列的字符(步骤1105)。用于碱基序列的字符是G、A、T、G(或X、N,除C、A、T、C之外)。
在输入接收部11确定用户输入101包括只用于碱基序列的字符(步骤1105:是)的情况下,输入接收部11确定用户输入101示出了碱基序列(步骤1106)。输入接收部11使由用户输入101示出的关键词与种类“碱基序列”一致。
另一方面,在输入接收部11确定用户输入101包括除了用于碱基序列之外的字符(步骤1105:否)的情况下,输入接收部11确定用户输入101示出了氨基酸序列(步骤1107)。所述输入接收部11使由用户输入101示出的关键词与种类“氨基酸序列”一致。
在输入接收部11确定所获得的字符数少于预定数量的字符(步骤1103:否)的情况下,输入接收部11确定用户输入101未示出序列。输入接收部11确定由用户输入101表示的信息是否符合登记号码的格式(字母数字的集合)(步骤1104)。
在输入接收部11确定信息符合登记号码的格式(步骤1104:是)的情况下,输入接收部11确定用户输入101示出了登记号码(步骤1108)。输入接收部11使由用户输入101示出的关键词与种类“登记号码”一致。
另一方面,在输入接收部11确定信息不符合登记号码的格式(步骤1104:否)的情况下,输入接收部11确定用户输入101示出了名称(步骤1109)。输入接收部11使由用户输入101示出的关键词与种类“名称”一致。
通过上述的处理,生成表示集合{关键词,关键词种类}的列表的用户查询111。输入接收部11向查询生成部112提供所生成的用户查询111。
在上述的处理中,如果没有指定关键词的种类,那么输入接收部11使所述关键词与可以获得的关键词的所有种类的每一个一致。
接下来,以下将具体地解释由查询生成部12执行的处理。
将用户查询111从输入接收部11提供到查询生成部12,并且将重新检索查询151从输出控制部15提供到该处。查询生成部12响应所提供的用户查询111或重新检索查询151来启动图3中举例说明的处理。
首先,查询生成部12确定是否存在使用中的标志表(步骤1201)。
在查询生成部12确定存在使用中的标志表(步骤1201:是)的情况下,查询生成部12前进到稍后将描述的步骤1205。另外,存在使用中的标志表意味着查询生成部12接收到了重新检索查询151。
另一方面,在查询生成部12确定没有使用中的标志表(步骤1201:否)的情况下,查询生成部12读取生物DB信息(步骤1202)。另外,不存在使用中的标志表意味着查询生成部12接收到了用户查询111。
查询生成部12读取标志表的数据(步骤1203)。结果,存在提供的均对应于生物DB信息中包括的集合{DB位置,可用关键词种类}的检索标志。
查询生成部12初始化读取标志表,以便将所有检索标志复位为示出“未检索”的状态(步骤1204)。
查询生成部12将由用户查询111(或重新检索查询151)示出的每种关键词、与由生物DB信息示出的每种可用关键词进行比较。查询生成部12使表示相同种类的用户查询111的每个集合与生物DB信息的每个集合一致(步骤1205)。结果,生成DB查询121。DB查询121示出了集合{DB位置,关键词,关键词的种类}列表。此外,如果没有可以使用由用户查询111示出的关键词的生物信息DB 999,那么查询生成部12使表示检索失败的信息与关键词及其种类一致。
在那之后,查询生成部12确定在均对应于所生成的DB查询121的每个集合之中、是否存在示出了“检索”的检索标志(步骤1206)。
在查询生成部12确定没有检索标志示出“检索”(步骤1206:否)的情况下,查询生成部12将均对应于所生成的DB查询121的每个集合的检索标志、从“未检索”改变为“检索”(步骤1207)。然后,查询生成部12向生物信息检索部13提供所生成的DB查询121。
另一方面,在查询生成部12确定存在示出“检索”的检索标志(步骤1206:是)的情况下,查询生成部12将对应于检索标志的集合内容重写为表示“检索”的信息(步骤1208)。
从而,查询生成部12确定是否对应于DB查询121中包括的集合的所有检索标志都示出“检索”(步骤1209)。
在查询生成部12确定所有对应的检索标志都示出“检索”(步骤1209:是)的情况下,查询生成部12向输出控制部15提供表示检索完成的检索完成信息122(步骤1210)。
另一方面,在查询生成部12确定不是所有对应的检索标志都示出“检索”(步骤1209:否)的情况下,查询生成部12将示出“未检索”的相应检索标志改变为“检索”(步骤1211)。然后,查询生成部12向生物信息检索部13提供所生成的DB查询121。
接下来,以下将具体地解释由生物信息检索部13执行的处理。
生物信息检索部13响应从查询生成部12提供的DB查询121来启动图4中举例说明的处理。此外,生物信息检索部13执行图4的对DB查询121的每个集合的处理。
首先,生物信息检索部13从所提供的DB查询121中获得一个集合。生物信息检索部13生成包括关键词的查询信号131,所述关键词由所获得的集合示出。生物信息检索部13向所获得的集合示出的DB位置发送所生成的查询信号131(步骤1301)。结果,接收了查询信号131的DB服务器使用生物信息DB 999来启动检索。
生物信息检索部13等待从DB服务器供应检索结果132。生物信息检索部13确定在预定空闲时间内、是否从DB服务器提供检索结果132(步骤1302)。
在生物信息检索部13确定提供了检索结果132(步骤1302:是)的情况下,生物信息检索部13存储所提供的检索结果132(步骤1303)。此外,在DB服务器中出现错误的情况下,检索结果132示出在DB服务器中出现错误。
另一方面,在生物信息检索部13确定在预定空闲时间内没有提供检索结果132(步骤1302:否)的情况下,生物信息检索部13确定出现诸如通信故障等等的错误。生物信息检索部13向查询生成部12提供错误信息134(步骤1304)。查询生成部12响应来自于生物信息检索部13的错误信息134,将相应的检索标志返回为“未检索”。
如上所述,在生物信息检索部13确定在预定空闲时间内没有提供检索结果132的情况下,生物信息检索部13可以向相同的DB服务器发送相同的查询信号131。在该情况下,生物信息检索部13包括计数器,该计数器用于计数查询信号131的发送次数,以便执行依照图5流程的处理。
在生物信息检索部13确定在预定空闲时间内没有提供检索结果132(步骤1302:否)的情况下,生物信息检索部13将计数器的值加1(步骤1305)。
生物信息检索部13确定计数器的值是否是预定值或更多(步骤1306)。
在生物信息检索部13确定计数器的值低于预定值(步骤1306:否)的情况下,生物信息检索部13返回步骤1301。生物信息检索部13重发查询信号131并且试图进行重新检索。
另一方面,在生物信息检索部13确定计数器的值是预定值或更多(步骤1306:是)的情况下,生物信息检索部13向查询生成部12提供错误信息134(步骤1304)。
当接收来自于DB服务器的检索结果132时,生物信息检索部13将DB指定信息以及表示所使用的关键词以及所使用的关键词的种类的信息、添加到所接收的检索结果132中。结果,生物信息检索部13生成DB检索结果133。生物信息检索部13向分析部14提供所生成的DB检索结果133。
接下来,以下将具体地解释由分析部14执行的处理。
图6是举例说明由分析部14执行的处理的流程图。
分析部14保存从生物信息检索部13提供的DB检索结果133(步骤1401)。
所述分析部14生成条件请求141,所述条件请求141表示错误存在与否、DB指定信息以及关键词的种类。条件请求141向条件设置部16提供所生成的条件请求141(步骤1402)。条件设置部16响应来自于分析部14的条件请求141、向分析部14提供对应于条件请求141的提取条件161。
分析部14接收从条件设置部16提供的提取条件161(步骤1403)。
分析部14依照所提供的提取条件161从DB检索结果133中提取信息(步骤1404),待提取的信息例如是涉及关键词的DB指定信息、关键词、关键词的种类以及生物信息(基因和蛋白质的名称以及别名、碱基以及氨基酸序列、登记号码等等)。
这时,存在这样一种情况,其中同类的多个信息被提取。在该情况下,分析部14可以选择同类信息之一。例如,当将基因或者蛋白质名称用作关键词时,存在这样一种情况,其中通过检索获得了均具有不同物种、突变或蛋白质的多个基因或者蛋白质的登记号码。在该情况下,将多个登记号码从DB检索结果133中提取。分析部14可以依照预定规则选择一个登记号码。所述预定规则例如包括名称格式、登记号码格式以及信息的顺序。
所述分析部14向输出控制部15提供从DB检索结果133中提取的作为分析结果142的信息(步骤1405)。
接下来,以下将具体地解释由输出控制部15执行的处理。
首先,给出这样一种情况的说明,其中输出控制部15保存来自于分析部14的分析结果142,并且同时输出在检索完成时保存的所有分析结果142,参见图7。
输出控制部15接收从分析部14提供的分析结果142(步骤1501)。
输出控制部15确定是否已经提供了标志设置(步骤1502)。在通过重新检索获得分析结果142的情况下,就已经提供了标志设置。
在输出控制部15确定已经提供了标志设置(步骤1502:是)的情况下,输出控制部15前进到待稍后描述的步骤1506。
反之,在输出控制部15不确定已经提供了标志设置(步骤1502:否)的情况下,输出控制部15接收由条件设置部16提供的输出条件162(步骤1503)。
输出控制部15依照所接收的输出条件162提供标志设置(步骤1504)。当满足基于所述标志设置的条件时,输出所提供的分析结果142。
输出控制部15初始化所提供的标志设置(步骤1505)。据此,将均对应于作为检索获得的结果而请求的生物信息的所有输出标志,设置为表示“未获得”的状态(值)。
输出控制部15保存所提供的分析结果142(步骤1506)。
输出控制部15根据所述分析结果142、检测对应于示出“未获得”的输出标志的生物信息。输出控制部15将对应于所检测的生物信息的输出标志改变为示出“获得”的状态(步骤1507)。
输出控制部15确定是否所有输出标志都示出“获得”(步骤1508)。从而,输出控制部15确定是否完成检索。
在输出控制部15确定所有输出标志都示出“获得”(步骤1508;是)的情况下,输出控制部15同时将所有保存的分析结果142作为输出信息输出(步骤1509)。
反之,在输出控制部15没有确定所有输出标志都示出“获得”(步骤1508:否)的情况下,输出控制部15从保存的分析结果142中提取生物信息和表示种类的信息(步骤1510)。
输出控制部15使提取出的生物信息与表示种类的信息一致,以便生成重新检索查询151。所述重新检索查询151示出了集合{生物信息,生物信息的种类}的列表。输出控制部15向查询生成部12提供所生成的重新检索查询151(步骤1511)。
将由重新检索查询151表示的生物信息用作重新检索的关键词。另外,在于步骤1510中提取同类的多个生物信息的情况下,将多个生物信息通过OR条件进行集合,以便可以生成用于重新检索的关键词。
接下来给出这样一种情况的说明,其中每当输出控制部15从分析部14接收分析结果142时,输出控制部15输出作为输出信息152的所接收的分析结果142,参照图8。
在该情况下,除步骤1512和1513之外,其余处理与图7的处理相同。为此,以下将主要给出步骤1512和1513的说明。
在输出控制部15接收分析结果142并且提供了标志设置之后,输出控制部15输出所接收的分析结果142作为输出信息152(步骤1512)。
在将相应的输出标志改变为示出“获得”的状态之后,输出控制部15确定是否所有输出标志都示出了“获得”(步骤1508)。
在输出控制部15确定不是所有输出标志都示出“获得”(步骤1508:否)的情况下,输出控制部15执行上述步骤1510和1511中的处理。结果,执行重新检索。
反之,在输出控制部15确定所有输出标志都示出“获得”(步骤1508:是)的情况下,输出控制部15直接地结束检索(步骤1513)。
此外,如图9所示,输出控制部15可以执行步骤1514中的处理,即,输出表示完成检索的信息,而不是步骤1513。据此,能够阐明用户已经完成了检索。
接下来将给出条件设置部16执行的处理的详细说明。
图10是举例说明由条件设置部16执行的处理的流程图。
条件设置部16接收由分析部14提供的条件请求141(步骤1601)。
条件设置部16读取准备的提取条件161的数据(步骤1602)。
条件设置部16向分析部14提供对应于所提供的条件请求141的提取条件161(步骤1603)。
从而,条件设置部16读取准备的输出条件162的数据(步骤1604)。
条件设置部16向输出控制部15提供输出条件162(步骤1605)。
此外,响应来自于分析部14中的第一条件请求141、执行步骤1604和1605中的处理。也就是,在重新检索时不执行这种处理。
接下来将给出依照第一实施例的生物信息检索系统的操作例子的说明。
在特定的例子中,用户输入基因或者蛋白质名称“pendrin”。涉及“pendrin”的名称(别名)通过第一次检索从LocusLink处获得。同时,从Entrez处获得涉及“pendrin”的GI号码。在第二检索时间,获得涉及GI号码的碱基或氨基酸序列。在第三次检索时,从BLAST处获得涉及所述序列的具有高度同源性的基因或者蛋白质。
输入接收部11在显示器上显示例如图11中所示的输入表格。所述输入表格具有每种关键词的输入区。这样能够将基因或者蛋白质名称、登记号码、碱基或氨基酸序列指定为关键词。
用户在“蛋白质或基因名称”字段中输入“pendrin”,并且使用输入装置单击“提交”按钮。从而,输入接收部11接收包括用户输入的信息的用户输入101。
输入接收部11指定“pendrin”作为基于输入关键词的输入区的信息的基因或者蛋白质名称。输入接收部11使所指定的关键词“pendrin”与“基因或者蛋白质名称”一致,以便生成用户查询111。输入接收部11向查询生成部12提供所生成的用户查询111。
如上所述,可以通过关键词的格式来指定关键词和关键词的种类。
查询生成部12响应来自于输入接收部11的用户查询111、确定是否存在使用中的标志表。在第一次检索时,没有标志表。为此,查询生成部12读取生物DB信息,并且从而读取标志表的数据。查询生成部12初始化读取的标志表。
在此例子中,生物DB信息表示以下集合。
Entrez 1={Entrez位置1,基因或者蛋白质名称}
Ehtrez 2={Entrez位置2,GI号码}
LocusLink 1={LocusLink位置1,基因或者蛋白质名称}
BLAST 1={BLAST位置1,序列信息}
“Entrez位置1”通过使用CGI(公共网关接口,Common GatewayInterface)将检索字符串与Entrez的URL集合来生成。将变量设置为对应于模板的关键词的部分。可以将变量替换为用户查询111示出的关键词。这种做法同样可适用于“Entrez位置2”、“LocusLink位置1”和“BLAST位置1”。URL可以示出本地数据库的位置。
在此实施例中,提供了下文示出的检索标志。这些检索标志对应于生物DB信息的集合。
Entrez1标志={Entrez1,FALSE}
Entrez1标志={Entrez2,FALSE}
LocuLink1标志={LocusLink,FALSE}
BLAST1标志={BLAST1,FALSE}
当检索标志示出了“未检索”时,检索标志的状态(值)以FALSE表示。当检索标志示出了“检索”时,检索标志的状态(值)以TRUE表示。将标志表初始化以便将所有检索标志的状态设置为FALSE。
查询生成部12使示出了相同种类的用户查询111的每个集合与生物DB信息的每个集合一致,以便生成DB查询121。
在该情况下,用户查询111示出了基因或者蛋白质名称“pendrin”。为此,生成示出了集合{Entrez位置1,pendrin,基因或者蛋白质名称}以及{LocusLink位置1,pendrin,基因或者蛋白质名称}的DB查询121。
另外,在此实施例中,通过利用CGI集合检索字符串与Entrez和LocusLink的URL来生成DB查询121。这时,可以将提供于检索字符串的模板中的变量替换为“pendrin”。
查询生成部12将对应于所生成的DB查询121的每个集合的检索标志从“未检索”改变为“检索”。在该情况下,查询生成部12分别将Entrez1标志和LocusLink1标志改变为{Entrez1,TRUE}和{LocusLink1,TRUE}。查询生成部12向生物信息检索部13提供所生成的DB查询121。
生物信息检索部13获得来自于查询生成部12的DB查询121中包括的集合。生物信息检索部13生成包括由每个获得的集合示出的关键词的查询信号131。生物信息检索部13将所生成的查询信号131发送到由每个集合示出的DB位置。从而,执行第一次检索。
在该情况下,生物信息检索部13将包括“pendrin”的查询信号131作为关键词分别发送到Entrez和LocusLink。从而,从Entrez和LocusLink中检索涉及“pendrin”的生物信息。将检索结果132从具有Entrez的DB服务器和具有LocusLink的DB服务器的每一个提供到生物信息检索部13。在此例子中,在每个DB服务器中没有出现错误的情况下提供检索结果132。
生物信息检索部13存储由每个DB服务器提供的检索结果132。然后,生物信息检索部13将DB指定信息以及表示所使用的关键词以及所使用的关键词的种类的信息、添加到每个检索结果132中,以便生成对应于每个检索结果132的DB检索结果133。生物信息检索部13向分析部14提供所生成的DB检索结果。
分析部14响应来自于生物信息检索部13的DB检索结果133、向条件设置部16提供条件请求141。在此例子中,分析部14提供示出了没有错误出现、使用Entrez、关键词的种类是基因或者蛋白质名称的条件请求141,以及提供示出了没有错误出现、使用LocusLink、关键词的种类是基因或者蛋白质名称的条件请求141。
条件设置部16响应每个提供的条件请求141来返回对应于每个条件请求141的提取条件161。在此例子中,条件设置部16提供示出了从Entrez获得的结果中提取基因或者蛋白质名称、登记号码、GI号码的提取条件161,以及提供示出了从LocusLink获得的结果中提取“pendrin”的别名的提取条件161。
在利用Web浏览器进行的一般检索过程中,当从LocusLink中检索涉及“pendrin”的生物信息时,可以获得图12中示出的结果。如图12所示,在所获得的结果的预定部分中,描述了用于多个生物信息DB的简名、全名、登记号码和染色体上的基因位置。此外,多个生物信息DB是RefSeq和OMIM,其中RefSeq是没有冗余的基因或者蛋白质数据库,而OMIM是涉及疾病的基因或者蛋白质数据库。此外,在所获得的结果的Symbol(码元)、Description(说明)和Aliases(别名)字段中描述了基因或者蛋白质名称的信息。
据此,在从LocusLink处获得的检索结果132与图12的结果相同的情况下,提取以HTML(超文本标志语言)描述的结果的预定部分中包括的信息、或者提取以预定格式描述的信息,由此能够获得基因或者蛋白质别名和登记号码。在此例子中,根据从LocusLink处获得的结果可以指定以提取在Symbol、Description和Aliases字段中描述的信息。
此外,在利用Web浏览器进行的一般检索过程中,当从Entrez中检索涉及“pendrin”的生物信息时,可以获得图13中示出的结果。如图13所示,在所获得的结果的预定部分中,描述了用于GenBank或者RefSeq的登记号码、GI号码、基因或者蛋白质名称。
据此,类似于LocusLink的实例,提取以HTML(超文本标志语言)描述的结果的预定部分中包括的信息、或者提取以预定格式描述的信息,由此能够获得基因或者蛋白质名称、登记号码和GI号码。在此例子中,通过提取条件161可以指定提取依照“name mRNA、complete cds”这种格式描述的信息,以及指定以作为用于RefSeq的登记号码的“|ref|NW#03954.8|”这种格式描述的信息。此外,为了获得人的数据,通过提取条件161指定了包括名称“Homo sapiens”。
分析部14从由LocusLink获得的结果中提取作为“pendrin”别名的“PDS”、“SLC26A4”和“DFNB4”。分析部14还从由Entrez获得的结果中提取名称“Homo sapiens pendrin(PDS)mRNA、complete cds”、登记号码“AF030880”和GI号码“2654004”。
分析部14向输出控制部15提供分析结果142,所述分析结果142包括从由Entrez获得的DB检索结果133中提取的信息,并且所述分析结果142还包括从由LocusLink获得的DB检索结果133中提取的信息。
此外,将上文示出的人的数据的实例指定为一个例子。然而,当然也可以指定其他物种的数据。
当从分析部14接收分析结果142时,输出控制部件15确定是否已经提供了标志设置。在第一次检索时,没有提供标志设置。在该情况下,输出控制部15依照来自于条件设置部16的输出条件162提供标志设置。输出控制部15初始化所述标志设置,以便将所有输出标志设置为“未获得”。
在此例子中,提供了以下输出标志。
输出标志1={Entrez,基因或者蛋白质名称(别名),未获得}
输出标志2={locuslink基因或者蛋白质名称(别名),未获得}
输出标志3={BLAST,基因或者蛋白质名称(别名),未获得}
输出控制部15保存所提供的分析结果142。输出控制部15根据每个保存的分析结果142、检测对应于示出了“未获得”的输出标志的生物信息。输出控制部15将对应于所检测的生物信息的输出标志改变为示出“获得”的状态。在第一次检索时,将基因或者蛋白质别名包括在来自于LocusLink的分析结果142中。为此,输出控制部15将输出标志2从“未获得”改变为“获得”。
输出控制部15确定是否所有输出标志都示出了“获得”。在此刻,输出标志1和3示出了“未获得”。为此,输出控制部15从保存的分析结果142中提取名称“pendrin、SLC26A4、PDS和DFNB4”、登记号码“AF03880”和CI号码“2654004”。输出控制部15使提取出的生物信息与所述种类一致,并且将结果作为重新检索查询151提供给查询生成部12。
查询生成部12响应来自于输出控制部15的重新检索查询151、确定是否存在使用中的标志表。在第二次检索时,存在标志表。为此,查询生成部12使示出了相同种类的重新检索查询151的每个集合与生物DB信息的每个集合一致,以便生成DB查询121。在此实例中,重新检索查询151示出了名称“pendrin、SLC26A4、PDS和DFNB4”、登记号码“AF03880”以及GI号码“2654004”。据此,在对应于DB查询121中包括的集合的检索标志中存在示出了“检索”的检索标志。
DB查询121将对应于“检索”的检索标志的集合内容,重写为表示“检索”的信息。因此,DB查询121示出集合{Entrez位置2,2654004,GI号码}
查询生成部12确定是否对应于DB查询121的所有检索标志都示出了“检索”。在该情况下,Entrcz2标志示出了“未检索”。据此,查询生成部12将Entrez2标志从“未检索”改变为“检索”。在那之后,查询生成部12向生物信息检索部13提供所生成的DB查询121。
生物信息检索部13将包括关键词的查询信号131发送到一DB位置,所述DB位置由查询生成部12提供的DB查询121示出。在该情况下,生物信息检索部13向Entrez发送包括“2654004(GI号码)”的查询信号131。从而,从Entrez中检索涉及“2654004(GI号码)”的生物信息。将检索结果132从具有Entrez的DB服务器中提供到生物信息检索部13。
生物信息检索部13存储由所述DB服务器提供的检索结果132。类似于上文,生物信息检索部13利用检索结果132生成DB检索结果133。生物信息检索部13向分析部14提供所生成的DB检索结果133。
分析部14响应来自于生物信息检索部13的DB检索结果133、向条件设置部16提供条件请求141。在第二次检索时,分析部14提供条件请求141,所述条件请求141示出没有错误出现、使用Entrez、关键词的种类是GI号码。
在利用Web浏览器进行的一般检索过程中,当从Entrez中检索涉及GI号码“2654004”的生物信息时,可以获得图14中示出的结果。如图14所示,所获得的结果包括基因名称、蛋白质名称、物种、文档信息、碱基序列、氨基酸序列的信息。此外,在基因以及生产领域中,描述了涉及基因或者蛋白质名称的信息。在该情况下,可以将“pendrin”以外的那些名称认为是别名。此外,在ORIGIN字段中示出了碱基序列,而在译码区中示出了氨基酸序列。
条件设置部16响应所提供的条件请求141返回提取条件161。在第二次检索时,通过提取条件161指定了提取在基因和产品区中描述的别名、提取在ORIGIN区中描述的碱基序列以及提取译码区中描述的氨基酸序列。
分析部14依照所提供的提取条件161、根据从Entrez获得的结果,分别提取在基因区中描述的别名“PDS”、在ORIGIN区中描述的碱基序列以及在译码区中描述的氨基酸序列。由于序列信息较长,所以在下面的说明中省略了对其的描述。分析部14向输出控制部15提供包括提取出的信息的分析结果142。
当接收来自于分析部14的分析结果142时,输出控制部15确定是否已经提供了标志设置。在第二次检索时,提供标志设置。输出控制部15保存所述分析结果142。输出控制部15根据所保存的分析结果142、检测对应于示出“未获得”的输出标志的生物信息。输出控制部15将对应于所检测的生物信息的输出标志改变为示出“获得”的状态。在此实例中,分析结果142包括从Entrez处获得的基因或者蛋白质别名。为此,输出控制部15将输出标志1从“未获得”改变为“获得”。
输出控制部15确定是否所有输出标志都示出了“获得”。在此刻,输出标志3示出了“未获得”。为此,输出控制部15从保存的分析结果142中提取名称“PSD”以及序列“碱基序列以及氨基酸序列”。输出控制部15使提取出的生物信息与所述种类一致,并且将结果作为重新检索查询151提供给查询生成部12。
类似于上述处理,查询生成部12响应来自于输出控制部15的重新检索查询151来生成DB查询121。
在第三次检索时,在对应于DB查询121中包括的集合的检索标志之中,Entrez 1标志、Entrez 2标志以及LocusLink1标志示出了“检索”,而BLAST1标志示出了“未检索”。
DB查询121将对应于“检索”的检索标志的集合内容重写为表示“检索”的信息,由此生成示出了BLAST位置、碱基序列以及氨基酸序列的DB查询121。
查询生成部12确定是否所有相应的检索标志都示出了“检索”。如上所述,BLAST1标志示出了“未检索”。为此,查询生成部12将BLAST1标志从“未检索”改变为“检索”。在那之后,查询生成部12向生物信息检索部13提供所生成的DB查询121。
生物信息检索部13向由DB查询121示出的BLAST位置发送包括关键词(碱基序列和氨基酸序列)的查询信号131。因此,利用BLAST执行第三次检索。在第三次检索时,可以获得涉及碱基序列和氨基酸序列的基因和蛋白质名称作为关键词。
生物信息检索部13保存由所述DB服务器提供的检索结果132。类似于上述处理,生物信息检索部13利用检索结果132生成DB检索结果133。生物信息检索部13向分析部14提供所生成的DB检索结果133。
分析部14响应来自于生物信息检索部13的DB检索结果133、向条件设置部16提供条件请求141。在第三次检索时,分析部14提供条件请求141,所述条件请求141示出没有错误出现、使用BLAST、关键词的种类是碱基序列或者氨基酸序列。
在利用Web浏览器进行的一般检索过程中,当利用BLAST检索同源性时,可以获得图15中示出的结果。如图15所示,在所获得的结果中,列出了作为关键词的与碱基或者氨基酸序列同源的碱基序列或者氨基酸序列。此外,示出了关于每个所列出的序列,包括名称、登记号码的信息,示出了同源程度的e-值和具有高度同源性的部分。
条件设置部16响应所提供的条件请求141返回提取条件161。在第三次检索时,通过提取条件161指定了:将其序列具有高度同源性的基因或者蛋白质名称从由BLAST获得的结果中提取。
分析部14依照所提供的提取条件161、从由BLAST获得结果中提取其序列具有高度同源性的基因或者蛋白质名称。分析部14向输出控制部15提供包括提取出的信息的分析结果142。
当从分析部14接收分析结果142时,输出控制部15确定是否已经提供了标志设置。在第三次检索时,提供标志设置。输出控制部15保存所述分析结果142。输出控制部15根据所保存的分析结果142、检测对应于示出“未获得”的输出标志的生物信息。输出控制部15将对应于所检测的生物信息的输出标志改变为示出“获得”的状态。在该情况下,分析结果142包括从BLAST处获得的基因或者蛋白质名称。为此,输出控制部15将输出标志3从“未获得”改变为“获得”。
输出控制部15确定是否所有输出标志都示出了“获得”。在此刻,所有输出标志都示出了“获得”。因此,输出控制部15输出所有保存的分析结果142作为输出信息152。
以上示出了这样一种情况,其中当所有输出标志都示出“获得”时,输出控制部15同时输出所有保存的分析结果142作为输出信息152。然而,每当接收所述分析结果142时,输出控制部15可以输出输出信息152。此外,当所有输出标志都示出了“获得”时,输出控制部15可以将示出完成检索的信息添加到输出信息152中。
(第二实施例)
以下将参照附图解释依照本发明第二实施例的生物信息检索系统和生物信息检索方法。
第二实施例的生物信息检索系统除第一实施例中说明的结构部件之外、还包括输出设置部件21,如图16所示。据此,以下将主要解释所述输出设置部件21。
提供所述输出设置部件21是为了使用户可以指定待从DB检索结果133中提取的信息,并且可以指定用于输出分析结果142的条件。这样使用户得以指定使用哪些生物信息D999来执行检索,并且提取或者输出哪种信息。
输出设置部件21接收内容(用户指定)201,所述内容201就是用户利用输入装置指定的内容。用户指定201包括表示将要使用的生物信息DB999(目标DB)的信息以及表示待提取或者输出的生物信息的种类(目标信息的种类)的信息。
输出设置部件21包括数据输入屏幕,其中用于指定目标DB和目标信息的种类的多个条件指定区例如如图18所示。输出设置部件21控制显示器显示输入屏幕,并且用户指定由输入装置显示的输入屏幕上的目标DB和目标信息的种类。因此,将用户指定201提供给输出设置部件21。
输出设置部件21基于用户指定201来判定目标DB和目标信息的种类,并且使目标DB与表示目标信息的种类的信息一致。这时,当目标DB以及目标信息种类的数目是多个时,将生成多个集合{目标DB,目标信息种类}。
输出设置部件21向条件设置部16提供一列集合{目标DB,目标信息种类}。此外,输出设置部件21和输入接收部11两者都是用户界面。据此,如图17所示,可以提供兼备这些功能的第二输入接收部,以代替输出设置部件21和输入接收部11。
接下来将给出依照第二实施例的生物信息检索系统操作的特殊的例子的说明。
在此例子中,用户指定三个要点,即从Entrez获得基因或者蛋白质别名;从LocusLink获得基因或者蛋白质别名;和从BLAST获得具有同源性的基因或者蛋白质的别名。
另外,除输出设置部件21之外的结构部件与第一实施例的相同。由此,以下将注意说明输出设置部21。
输出设置部件21控制显示器等等,并且显示例如如图18所示的输入屏幕。
用户标记对应于每个Entrez的“名称”、LocusLink的“名称”以及BLAST的“名称”的复选框,并且单击提交按钮。从而,输出设置部件21接收示出了用户指定的内容的用户指定201。
输出设置部件21基于用户指定201来判定目标DB和目标信息的种类,并且使目标DB与表示目标信息种类的信息一致。这样生成集合{Entrez,基因或者蛋白质别名}、{LocusLink,基因或者蛋白质别名}以及{BLAST,具有同源性的基因或者蛋白质名称}。
输出设置部件21将这些集合列表作为输出指定信息211提供给条件设置部16。
当用户在提供于输入屏幕上的e-值区内输入数值的情况下,能够根据从BLAST处获得的结果中提取或者输出具有这种同源性的基因或者蛋白质的名称,所述同源性由e-值指定。
条件设置部16依照来自输出设置部件21的目的地信息211提供提取条件161以及输出条件162。
(第三实施例)
以下将参照附图解释依照本发明第三实施例的生物信息检索系统和生物信息检索方法。
依照第三实施例的生物信息检索系统,在判定用于检索的过程之后执行实际检索。
如图19所示,依照第三实施例的生物信息检索系统包括第二输入接收部22、检索过程设置部32、检索控制部33、生物信息检索部13、分析部14以及条件设置部16。此外,如图19所示,第二输入接收部22、生物信息检索部13、分析部14以及条件设置部16与第一或者第二实施例的相同。据此,以下将主要解释检索过程设置部32以及检索控制部33的操作。
将用户查询111以及指定信息211从第二输入接收部22提供到检索过程设置部32。所述检索过程设置部32具有生物DB信息。所述生物DB信息表示每个生物信息DB的位置(DB位置)、一种可被用于每个生物信息DB 999的关键词以及一种可以从每个生物信息DB 999中检索的生物信息。换句话说,所述生物DB信息表示一列集合{DB位置,可用关键词种类,可检索的生物信息种类}。
检索过程设置部32将由用户查询111示出的每种关键词与由生物DB信息示出的每种可用关键词进行比较。检索过程设置部32根据所述生物DB信息获得一集合,该集合示出了与由用户查询111的每个集合示出的关键词种类相同的可用关键词种类。检索过程设置部32通过利用所获得的集合生成DB查询列表321。DB查询列表321示出了集合{DB位置,可用关键词种类,可检索的生物信息的种类}的列表。DB查询列表321的每个集合对应于在第一次检索时使用的生物信息DB 999。检索过程设置部32保存所生成的DB查询列表321。
检索过程设置部32确定所生成的DB查询列表321是否满足由指定信息211示出的条件。更具体地说,检索过程设置部32根据DB查询列表321来检测所述集合,其中该集合示出了由指定信息211的每个集合表示的目标DB的位置以及可检索的生物信息的种类,所述可检索的生物信息的种类与由指定信息211的每个集合表示的目标信息的种类相同。换句话说,检索过程设置部32从DB查询列表321中检测对应于指定信息211的每个集合的集合。在检测了所有相应的集合的情况下,检索过程设置部32确定所生成的DB查询列表321满足所述条件。反之,在至少一个相应的集合没有被检测到的情况下,检索过程设置部32确定所生成的DB查询列表321不满足所述条件。
在检索过程设置部32确定所生成的DB查询列表321满足由指定信息211示出的条件的情况下,检索过程设置部32向检索控制部33提供所生成的DB查询列表321。此外,检索过程设置部32将所提供的用户查询111作为用户查询信息322发送到检索控制部33。
在检索过程设置部32确定所生成的DB查询列表321不满足由指定信息211示出的条件的情况下,检索过程设置部32从DB查询列表321中获得预定的集合。检索过程设置部32从所获得的集合中提取信息,所述信息表示可检索的生物信息的种类。检索过程设置部32根据所述生物DB信息获得一集合,该集合示出了与由所提取的信息表示的种类相同的可用关键词种类。检索过程设置部32将所获得的集合添加到DB查询列表321。所添加的集合对应于在重新检索时使用的生物信息DB 999。
在将新集合添加到DB查询列表321之后,检索过程设置部32确定所生成的DB查询列表321是否满足由指定信息211示出的条件,类似于上述过程。然后,检索过程设置部32将新集合添加到DB查询列表321,直到满足所述条件。从而,判定一连串的检索过程。
检索过程设置部32向检索控制部33提供所生成的DB查询列表321。这时,将所提供的用户查询111作为用户查询信息322提供到检索过程设置部32。
在上述说明中,根据所述用户查询111以及生物DB信息来生成DB查询列表321,并且将新集合添加到DB查询列表321。然而,根据指定信息211和生物DB信息来生成DB查询列表321,以便可以将新集合添加到DB查询列表321。
在该情况下,检索过程设置部32将由指定信息211示出的每种目标信息与由生物DB信息示出的每种可检索的生物信息进行比较。检索过程设置部32根据所述生物DB信息获得一集合,该集合示出了与由指定信息211的每个集合示出的目标信息种类相同的生物信息种类。检索过程设置部32通过利用所获得的集合生成DB查询列表321。检索过程设置部32通过利用所获得的集合来生成DB查询列表321。DB查询列表321的每个集合对应于在最后一次检索时使用的生物信息DB 999。
然后,检索过程设置部32确定所生成的DB查询列表321满足由指定信息211示出的条件。更具体地说,检索过程设置部32根据DB查询列表321检测集合,该集合示出了与由用户查询111的每个集合示出的关键词种类相同的可用关键词种类。换句话说,检索过程设置部32从DB查询列表321中检测对应于用户查询111的每个集合的集合。在检测了所有相应的集合的情况下,检索过程设置部32确定DB查询列表321满足所述用户查询111。反之,在没有检测到至少一个相应集合的情况下,检索过程设置部32确定DB查询列表321不满足用户查询111。
在检索过程设置部32确定DB查询列表321满足用户查询111的情况下,检索过程设置部32向检索控制部33提供所生成的DB查询列表321。此外,检索过程设置部32将所提供的用户查询111作为用户查询信息322发送到检索控制部33。
在检索过程设置部32确定所生成的DB查询列表321不满足用户查询111的情况下,检索过程设置部32从DB查询列表321中获得预定集合。检索过程设置部32从所获得的集合中提取信息,所述信息表示可用关键词的种类。检索过程设置部32从生物DB信息中获得这样一种集合,所述集合示出了与提取出的信息所表示的种类同类的可检索的生物信息。检索过程设置部32将所获得的集合添加到DB查询列表321。添加的集合对应于在一次先前检索时使用的生物信息DB 999。
在将新集合添加到DB查询列表321之后,检索过程设置部32确定所生成的DB查询列表321是否满足用户查询111,类似于上述操作。然后,检索过程设置部32重复添加过程,直到DB查询列表321满足用户查询111。
此外,利用指定信息211和用户查询111两者来生成两个DB查询列表321,以便可以依照这样一种方式来添加集合,所述方式为使两个DB查询列表321相互一致。
将DB查询列表321和用户查询信息322从检索过程设置部32提供给检索控制部33。检索控制部33从所提供的DB查询列表321中获得对应于第一次检索的集合。检索控制部33使用所获得的集合和用户查询信息322来生成用于第一次检索的DB查询331。DB查询331示出了集合{DB位置,关键词,关键词的种类}的列表。此外,类似于第一和第二实施例,DB位置例如由URL表示。检索控制部33向生物信息检索部13提供所生成的DB查询331。
生物信息检索部13和分析部14的结构和操作基本上与第一和第二实施例相同。此外,条件设置部16的结构和操作基本上与第一和第二实施例相同。分析部14利用最初检索时从每个生物信息DB 999处获得的DB检索结果133来生成分析结果142。然后,分析部14向检索控制部33提供所生成的分析结果142。
检索控制部33保存从分析部14提供的分析结果142。检索控制部33确定是否进行对应于DB查询列表321中包括的集合的所有检索。
在检索控制部33确定进行所有检索的情况下,检索控制部33输出由分析部14提供的所有分析结果142作为输出信息152。
在检索控制部33确定不进行所有检索的情况下,检索控制部33从DB查询列表321中获得对应于下一次检索的集合。检索控制部33从保存的分析结果142中提取由所获得的集合示出的可用关键词种类的生物信息。检索控制部33使用所获得的集合和所提取的生物信息来生成用于重新检索的DB查询331。检索控制部33向生物信息检索部13提供所生成的DB查询331。
然后,重复上述的过程,直到进行对应于DB查询列表321中包括的集合的所有检索。
接下来,以下将具体地解释由检索过程设置部32执行的处理。
图20是举例说明由检索过程设置部32执行的处理的流程图。
检索过程设置部32读取由第二输入接收部22提供的用户查询111{关键词,关键词种类}(步骤3201)。
从而,检索过程设置部32读取从第二输入接收部22提供的指定信息211{目标DB、目标信息的种类}(步骤3202)。
检索过程设置部32读取保存的生物DB信息{DB位置,可用关键词种类,可检索的生物信息种类}(步骤3203)。
检索过程设置部32根据生物DB信息获得一集合,所述集合示出了与用户查询111的每个集合示出的关键词种类同类的可用关键词。检索过程设置部32利用所获得的集合生成DB查询列表321(步骤3204)。DB查询列表321示出了集合{DB位置,可用关键词种类,可检索的生物信息的种类}的列表。
检索过程设置部32确定所生成的DB查询列表321是否满足由指定信息211示出的条件(步骤3205)。更具体地说,如上所述,检索过程设置部32确定是否对应于各个指定信息211的集合的所有集合都从DB查询列表321中检测到了。
在检索过程设置部32确定DB查询列表321满足由指定信息211示出的条件(步骤3205:是)的情况下,检索过程设置部32向检索控制部33提供所生成的DB查询列表321(步骤3206)。
从而,检索过程设置部32向检索控制部33提供作为用户查询信息322的所提供的用户查询111(步骤3207)。
反之,在检索过程设置部32确定DB查询列表321不满足由指定信息211示出的条件(步骤3205:否)的情况下,检索过程设置部32从DB查询列表321中获得对应于上次检索的集合。检索过程设置部32从所获得的集合中提取信息,所述信息表示可检索的生物信息的种类(步骤3208)。
检索过程设置部32保存表示可检索的生物信息的种类的信息(步骤3209),并且处理返回到步骤3204。
在步骤3204中,检索过程设置部32根据生物DB信息检测一集合,所述集合示出了与提取出信息表示的种类同类的可用关键词。检索过程设置部32根据所检测的集合而获得未包括在DB查询列表321内的集合。检索过程设置部32将所获得的集合添加到DB查询列表321。这样生成了新的DB查询列表321。添加的集合对应于在重新检索时使用的生物信息DB 999。
重复上述处理,直到DB查询列表321满足由指定信息211示出的条件。此外,可以预置将新集合添加到DB查询列表321的次数。或者,可以由用户加以指定。
另外,在步骤3205中,当存在示出了同类可检索的生物信息的多个集合时,检索过程设置部32通常可以使用它们的其中一个。
接下来,以下将具体地解释由检索控制部33执行的处理。
图21是举例说明由检索控制部33执行的处理的流程图。
检索控制部33接收由检索过程设置部32提供的DB查询列表321(步骤3301)。
在那之后,检索控制部33接收由检索过程设置部32提供的DB查询列表322(步骤3302)。
检索控制部33从所提供的DB查询列表321中获得对应于第一次检索的集合(步骤3303)。
检索控制部33使用所获得的集合和用户查询信息322来生成用于第一次检索的DB查询331(步骤3304)。DB查询331示出了集合{DB位置,关键词,关键词的种类}的列表。
检索控制部33向生物信息检索部13提供所生成的DB查询331(步骤3305)。因此,类似于第一和第二实施例,由生物信息检索部13执行查询信号131的发送并且由分析部14执行对DB检索结果133的分析。分析部14向检索控制部33提供分析结果142。
检索控制部33保存从分析部14提供的分析结果142(步骤3306)。
检索控制部33确定是否进行对应于DB查询列表321中包括的集合的所有检索(步骤3307)。
在检索控制部33确定进行所有检索(步骤3307:是)的情况下,检索控制部33输出所有保存的分析结果142作为输出信息152(步骤3308)。
反之,在检索控制部33确定没有进行所有检索(步骤3307:否)的情况下,检索控制部33返回到步骤3303。在步骤3303中,检索控制部33从DB查询列表321中获得对应于下次检索的集合。然后,在步骤3304中,检索控制部33从保存的分析结果142中提取由每个所获得的集合示出的可用关键词种类的生物信息。检索控制部33使用所获得的集合和所提取的生物信息来生成用于重新检索的DB查询331。然后,执行如上所述的相同处理。重复上述处理,直到确定对应于DB查询列表321中包括的集合的所有检索都被执行。
以下将利用特殊的例子来解释依照第三实施例的生物信息系统的操作。
在此特殊的例子中,类似于第一实施例,用户输入基因或者蛋白质名称“pendrin”。此外,类似于第二实施例,用户标记对应于Entrez的“名称”、LocusLink的“名称”和BLAST的“名称”的每个的复选框,并且单击图18中所示的输入屏幕上的提交按钮。
另外,在第三实施例中,第二输入接收部22、生物信息检索部13、分析部14和条件设置部16与第一和第二实施例的相同。为此,以下将主要解释检索过程设置部32和检索控制部33的操作。
检索过程设置部32读取用户查询111和指定信息211,这些内容是由第二输入接收部22提供的。在该情况下,用户查询111示出了{关键词,关键词种类}={pendrin,基因或者蛋白质名称}。指定信息211表示{目标DB,目标信息种类}={Entrez,基因或者蛋白质名称(别名),基因或者蛋白质名称(别名)}、{BLAST,具有同源性的基因或者蛋白质名称(别名)}。
从而,检索过程设置部32读取保存的生物DB信息。在此例子中,生物DB信息示出了以下集合{DB位置,可用关键词种类,可检索的生物信息的种类}。
Entrez 11={Entrez位置1,基因或者蛋白质名称,基因或者蛋白质别名}
Entrez 12={Entrez位置2,基因或者蛋白质名称,GI号码}
Entrez 13={Entrez位置3,GI号码,碱基或者氨基酸序列}
LocusLink 11={LocusLink位置1,基因或者蛋白质名称、基因或者蛋白质别名}
BLAST 11={BLAST位置1,序列信息,具有同源性的基因或者蛋白质名称}
检索过程设置部32从生物DB信息中获得一集合,所述集合示出了与用户查询111的每个集合示出的关键词种类同类的可用关键词,在此情况下,Entrez 11、Entrez 12和LocusLink 11从生物DB信息处获得。检索过程设置部32利用所获得的集合生成DB查询列表321。
所生成的DB查询列表321{位置,可用种类,可检索的种类}示出了以下集合。
查询(1,1)={Entrez位置1,基因或者蛋白质名称,基因或者蛋白质别名}
查询(1,2)={Entrez位置2,基因或者蛋白质名称GI号码}
查询(1,3)={LocusLink位置1,基因或者蛋白质名称,基因或者蛋白质别名}
检索过程设置部32确定所生成的DB查询列表321是否满足由指定信息211示出的条件。更具体地说,检索过程设置部32确定是否对应于指定信息211的各个集合的所有集合都从DB查询列表321中检测到了。在该情况下,对应于指定信息211{BLAST,具有同源性的基因或者蛋白质名称}集合的集合不包括在DB查询列表321中。为此,检索过程设置部32确定所生成的DB查询列表321不满足由指定信息211示出的条件。
然后,检索过程设置部32从DB查询列表321中获得对应于上次检索的集合。在该点上,DB查询列表321的所有集合对应于第一次检索。据此,检索过程设置部32获得查询(1,1)、查询(1,2)和查询(1,3)。检索过程设置部32从所获得的集合中提取表示可检索的生物信息的种类的信息。在该情况下,提取“基因或者蛋白质名称”和“GI号码”。
检索过程设置部32保存提取出的信息。检索过程设置部32根据生物DB信息检测一集合,所述集合示出了与提取出的信息表示的种类同类的可用关键词。检索过程设置部32根据所检测的集合而获得未包括在DB查询列表321内的集合。在该情况下,Entrez 13从生物DB信息处获得。
检索过程设置部32将查询(2,1)={Entrez位置3,GI号码,碱基或者氨基酸序列}作为所获得的集合添加到DB查询列表321。查询(2,1)对应于第二次检索。因此,如下配置新的DB查询列表321。
{查询(1,1)}
{查询(1,2),查询(2,1)}
{查询(1,3)}
在那之后,检索过程设置部32确定新的DB查询列表321是否满足由指定信息211示出的条件,类似于上述操作。在该情况下,对应于指定信息211{BLAST,具有同源性的基因或者蛋白质名称}集合的集合也不包括在DB查询列表321中。为此,检索过程设置部32确定所生成的DB查询列表321不满足由指定信息211示出的条件。
类似于上述操作,检索过程设置部32从DB查询列表321中获得对应于上次检索的集合。在该情况下,检索过程设置部32从DB查询列表321中获得对应于第二次检索的查询(2,1)。检索过程设置部32从所获得的集合中提取信息,所述信息示出了可检索的生物信息的种类。在该情况下,获得“碱基或者氨基酸序列”。
检索过程设置部32保存提取出的信息。检索过程设置部32根据生物DB信息检测一集合,所述集合示出了与提取出的信息示出的种类同类的可用关键词。检索过程设置部32从检测的集合中获得未包括在DB查询列表321内的集合,在此情况下,BLAST 11从生物DB信息处获得。
检索过程设置部32将查询(3,1)={BLAST位置1,序列信息,具有同源性的基因或者蛋白质名称}作为所获得的集合添加到DB查询列表321。查询(3,1)对应于第三次检索。因此,如下配置新的DB查询列表321。
{查询(1,1)}
{查询(1,2),查询(2,1),查询(3,1)}
{查询(1,3)}
在那之后,检索过程设置部32确定新的DB查询列表321是否满足由指定信息211示出的条件,类似于上述操作。在该情况下,将对应于指定信息211的集合的集合包括在DB查询列表321中。为此,检索过程设置部32确定所生成的DB查询列表321满足由指定信息211示出的条件。
此后,检索过程设置部32向检索控制部33提供所生成的DB查询列表321。此外,检索过程设置部32将所提供的用户查询111作为用户查询信息322提供给检索控制部33。
检索控制部33接收由检索过程设置部32提供的DB查询列表321和用户查询信息332。
检索控制部33从所提供的DB查询列表321中获得对应于第一次检索的集合。在该情况下,获得查询(1,2)、查询(2,1)、查询(1,3)。
检索控制部33使用所获得的集合和用户查询信息322来生成用于第一次检索的DB查询331。更具体地说,检索控制部33从每个所获得的集合中提取表示DB位置的信息,并且从用户查询信息322中提取表示关键词和关键词的种类的信息。检索控制部33使提取出的信息相互一致,以便生成DB查询331。例如,根据查询(1,1)={Entrez位置1,基因或者蛋白质名称,基因或者蛋白质别名}来生成DB查询331的集合{Entrez位置1,pendrin,基因或者蛋白质名称}。可以将相同的处理应用于查询(1,2)和查询(1,3)。
检索控制部33向生物信息检索部13提供所生成的DB查询331。因此,进行第一次检索。分析部14向检索控制部33提供分析结果142。通过第一次检索,从Entrez处获得诸如别名“PDS”、GI号码“2654004”等等的信息。此外,从LocusLink处获得诸如别名“SLC26A4、DFNB4、PDS、pendrin”等等的信息。
检索控制部33保存由分析部14提供的分析结果142。检索控制部33确定是否进行对应于DB查询列表321中包括的集合的所有检索。在该情况下,不执行对查询(2,1)和查询(3,1)的检索。为此,检索控制部33确定没有进行所有的检索。
检索控制部33从所提供的DB查询列表321中获得对应于第二次检索的集合。在该情况下,获得查询(2,1)。检索控制部33从保存的分析结果142中提取生物信息(GI号码),所述生物信息是由查询(2,1)示出的可用关键词的种类。检索控制部33使用查询(2,1)和提取出的生物信息来生成用于第二次检索的DB查询331。然后,检索控制部33向生物信息检索部13提供所生成的DB查询331。
结果,进行第二次检索。分析部14向检索控制部33提供分析结果142。通过第二次检索,从Entrez处获得诸如“碱基或氨基酸序列”等等的信息。
检索控制部33保存由分析部14提供的分析结果142。类似于上述操作,检索控制部33确定是否进行对应于DB查询列表321中包括的集合的所有检索。在该情况下,不执行对查询(3,1)的检索。为此,检索控制部33确定没有进行所有的检索。
检索控制部33从所提供的DB查询列表321中获得对应于第三次检索的集合。在该情况下,获得查询(3,1)。检索控制部33使用查询(3,1)和保存的分析结果142生成用于第三次检索的DB查询331。然后,检索控制部33向生物信息检索部13提供所生成的DB查询331。
结果,进行第三次检索。分析部14向检索控制部33提供分析结果142。通过第三次检索,从BLAST处获得诸如“具有同源性的基因或者蛋白质名称”等等的信息。
检索控制部33保存由分析部14提供的分析结果142。类似于上述操作,检索控制部33确定是否进行对应于DB查询列表321中包括的集合的所有检索。在该情况下,检索过程设置部32确定进行了所有检索。
检索过程设置部32输出所有保存的分析结果142作为输出信息152。
(第四实施例)
以下将参照附图解释依照本发明第四实施例的生物信息检索系统和生物信息检索方法。
如图22所示,除第一到第三实施例任意一个中所举例说明的结构部件之外,依照第四实施例的生物信息检索系统包括关键词补充部41。
将第一到第三实施例中举例说明的输出信息152提供给关键词补充部41。所述关键词补充部41将基因或者蛋白质名称补充到所提供的输出信息152中。关键词补充部41输出具有作为第二输出信息411补充的名称的输出信息152。
除所述关键词补充部41之外的其余结构部件与第一到第三实施例的任一个中的部件相同。据此,以下将主要解释所述关键词补充部41。
所述关键词补充部41包括基因和蛋白质名称的格式数据以及用于补充名称的补充规则数据。关键词补充部41响应所提供的输出信息152来执行补充处理。
更具体地说,在输出信息152中包括的基因或者蛋白质名称由字母字符和数字构成、并且依照确定格式描述的情况下,关键词补充部41依照所述补充规则来生成符合另一格式的名称。关键词补充部41将所生成的名称信息添加到输出信息152,并且将结果作为第二输出信息411输出。
接下来将给出关键词补充部41的操作的详细例子。
以下将解释当输出信息152中包括作为基因或者蛋白质名称的“CA1”时的例子。
关键词补充部41包括这样一种基因或者蛋白质名称的格式数据,其中在连续地描述了字母字符之后再描述数字。此外,关键词补充部41包括这样一种补充规则数据,其中在字母字符和数字之间插入空格,将连字符插入到字母字符和数字之间,以及将阿拉伯数字改为罗马数字。
关键词补充部41响应所提供的输出信息152并依照上述格式以及补充规则、从包括在输出信息152中的“CA 1”生成“CA 1”、“CA-1”、“CA I”、“CA-I”等等。关键词补充部41将所生成的名称添加到输出信息152中。关键词补充部41输出所述输出信息152,其中所述输出信息152中添加有作为第二输出信息411的所生成的名称。
除上述的格式和规则外,关键词补充部41还可包括另外的格式以及补充规则。对于所述格式来说,可以给出以下格式。例如,以这样一种方式来表述基因或者蛋白质名称,即连续地描述字母字符并且此后添加空格,并且在空格之后描述数字。对于所述补充规则来说,可以给出以下补充规则。例如,删除基因或者蛋白质名称中包括的空格;将空格替换为连字符;以及将阿拉伯数字改为罗马数字。
当输出信息152中包括名称“CA 1”时,这样做可以使关键词补充部41依照上述格式以及所述补充规则、根据“CA 1”生成“CA 1”、“CA-1”、“CA I”、“CA-I”等等。
此外,对于输出信息152中包括的不符合上述格式的名称不提供上述处理。例如,基因或者蛋白质名称“溶解物载液系列(solute carrier family)26,原子数(member)4”、“p53”等等不符合上述的格式。为此,对于这种名称,关键词补充部41不执行补充处理。据此,适当地设置格式以及补充规则,由此能够直接地输出不应该被补充的名称。
(第五实施例)
以下将参照附图解释依照本发明第五实施例的生物信息检索系统和生物信息检索方法。
如图23所示,除第一到第四实施例任何一个中所举例说明的结构部件之外,依照第五实施例的生物信息检索系统包括文档检索部51。此外,生物信息检索系统经由诸如互联网的网络、与多个DB服务器相连,所述多个DB服务器均具有文档DB 1000。每个文档DB 1000包括诸如学术论文、专利出版物等等的文档数据。此外,图23以一个文档DB 1000作为例子加以说明。
将第一到第四实施例任一个中的举例说明的输出信息152或者第二输出信息411提供给文档检索部51。文档检索部51响应所提供的输出信息152或者411、从多个文档DB 1000中检索涉及输出信息152或者411中包括的信息的文档。
除文档检索部51之外的其余结构部件与第一到第四实施例中任一个的部件相同。据此,以下将主要解释所述文档检索部51。
文档检索部51具有文档DB信息。所述文档DB信息表示每个文档DB 1000的位置以及每个文档DB 1000中可用关键词的种类。将文档DB 1000的位置例如由URL来表示。此外,文档检索部51包括用于从检索结果512中提取预定信息的第二提取条件的数据,其中所述检索结果512是从每个文档DB 1000处获得的。第二提取条件示出了检索结果512的格式、描述提取信息的部分、用于提取信息的规则以及当DB服务器中出现错误时的检索结果512的格式。
文档检索部51响应输出信息152或者411、利用所述文档DB信息从输出信息152或者411中提取用于检索文档的一个关键词。用于检索文档的关键词例如包括基因名称、蛋白质名称,或者这些名称的别名。从而,文档检索部51可以使用提取出的关键词、从文档DB信息中获得文档DB 1000的位置。
文档检索部51利用提取出的关键词以及所获得的位置生成示出了文档检索请求的查询信号511。所述查询信号511包括提取出的关键词。文档检索部51将所生成的查询信号511发送到每个获得的文档DB 1000的获得位置上。
接收了查询信号511的每个DB服务器检索涉及由查询信号511示出的关键词的文档。每个DB服务器将所述检索结果512发送到文档检索部51。
文档检索部51保存由每个DB服务器提供的检索结果512。所述文档检索部51依照第二提取条件、从保存的检索结果512中提取信息。更具体地说,文档检索部51提取诸如用于文档DB 1000的期刊名称、作者名称或者发明人名称、发表日期、主体、ID号等等的信息。文档检索部51将所提取的信息作为文档检索结果513保存。
文档检索部51例如利用第二提取条件来确定检索结果152的格式等等。文档检索部51确定所述检索结果152是否包括用于检索文档的详细信息的链接信息。当确定所述检索结果152包括链接信息时,文档检索部51利用所述链接信息作为关键词、执行如上所述的重新检索处理。当确定所述检索结果152包括链接信息时,文档检索部51确定是否将所有可用关键词从输出信息152或者411中提取。在文档检索部51确定没有提取所有可用关键词的情况下,文档检索部51从输出信息152或者411中提取一个关键词,并且执行检索处理,类似于上述操作。当确定提取了所有可用关键词时,文档检索部51输出所有保存的文档结果513。
接下来将给出由文档检索部51执行的处理的详细说明。
文档检索部51响应输出信息152或者411启动图24中举例说明的处理。
所述文档检索部51读取保存的文档DB信息(步骤5101)。
从而,文档检索部51读取保存的第二提取条件(步骤5102)。
所述文档检索部51利用所述文档DB信息从输出信息152或者411中提取用于检索文档的一个关键词(步骤5103)。更具体地说,文档检索部51从输出信息152或者411中提取符合由文档DB信息示出的可用关键词的种类的一个关键词。
文档检索部51可以使用提取出的关键词、从文档DB信息中获得文档DB1000的位置。这样可以判定用于检索所述文档的文档DB 1000。文档检索部51利用提取出的关键词以及所获得的位置来生成查询信号511(步骤5104)。
文档检索部51将所生成的查询信号511发送到每个所获得的位置上(步骤5105)。因此,在接收了查询信号511的每个DB服务器中,进行文档检索。将检索结果152从每个DB服务器提供给文档检索部51。
文档检索部51保存由每个DB服务器提供的检索结果152(步骤5106)。
文档检索部51从保存的文档检索结果512中提取由第二提取条件指定的信息。文档检索部51将提取出的信息作为文档检索结果513保存(步骤5107)。
在那之后,文档检索部51基于由第二提取条件示出的格式、确定检索结果152是否包括用于检索文档详细信息的链接信息(步骤5108)。
在文档检索部51确定所述检索结果152包括链接信息(步骤5108:是)的情况下,文档检索部51返回到步骤5103。在步骤5103中,文档检索部51从检索结果152中提取链接信息作为关键词。文档检索部51利用提取出的关键词执行如上所述的处理。因此,进行重新检索。
反之,在文档检索部51确定检索结果152不包括链接信息(步骤5108:否)的情况下,文档检索部51确定是否将所有可用关键词从输出信息152或者411中提取(步骤5109)。
在文档检索部51确定没有提取所有可用关键词((步骤5109:否)的情况下,处理返回到步骤5103。在步骤5103中,文档检索部51利用所述文档DB信息、从输出信息152或者411中提取一个新的关键词。文档检索部51利用提取出的关键词执行如上所述的处理。因此,检索涉及所述新词的文档。
反之,在文档检索部51确定提取了所有可用的关键词的情况下(步骤5109:是),文档检索部51输出所有保存的文档检索结果513(步骤5110)。这时,文档检索部51控制显示器等等,以便可以在显示器上显示由所有文档检索结果513示出的信息列表。
另外,在步骤5107中,在没有保存文档检索结果513的情况下,可以继续地输出文档检索结果513。在该情况下,文档检索部51结束处理,而不执行步骤5110。此外,在结束所述处理的时候,文档检索部51可以输出表示完成文档检索的信息。这样能够清楚地向用户示出文档检索已完成。此外,用户可以指定待用的文档DB 1000以及待从检索结果512中提取的信息的种类。
接下来,以下将利用特殊的例子解释文档检索部51的操作。
在此特殊的例子中,用户输入基因或者蛋白质名称“pendrin”。此外,从文档DB 1000“PubMed”中检索涉及“pendrin”的学术论文。
当用户输入“pendrin”时,可以获得别名“PDS”、“DFNB4”、“SLC26A6”等等,类似于第一到第四实施例。所述输出信息152或者411包括这些名称。
所述文档检索部51响应输出信息152或者411读取文档DB信息以及第二提取条件。在该情况下,文档DB信息表示PubMed的位置以及PubMed中可用的关键词种类。
文档检索部51利用读取的文档DB信息、从输出信息152中提取关键词“pendrin”。从而,文档检索部51从所述文档DB信息中获得“PubMed”的位置。所述文档检索部51利用关键词“pendrin”以及所获得的位置来生成查询信号511。在该情况下,通过集合CGI的检索字符串与PubMed的URL来生成查询信号511。将提供于检索字符串模板中的变量替换为“pendrin”。文档检索部51将所生成的查询信号511发送到PubMed。因此,从PubMed检索涉及“pendrin”的文档。
在利用Web浏览器进行的一般检索过程中,当从PubMed中检索涉及“pendrin”文档时,可以获得图25中举例说明的结果。如图25所示,在所获得的结果的预定部分中,存在描述的作者名称、标题、期刊名称、发表日期以及用于PubMed的ID号。此外,可以利用这样一种方式来配置图25中举例说明的相关结果,所述方式为:可以通过单击作者名称或者预定图标来获得文档详细信息(例如摘要等等)。换句话说,图25中所示的结果数据包括用于检索文档的详细信息的链接信息。
在此特殊的例子中,假设来自于PubMed的检索结果512可以由与图25相同的格式来表示。此外,将检索结果512以HTML描述。在该情况下,可以通过提取在检索结果512的预定部分中描述的信息来获得涉及所述关键词的文档信息。
所述文档检索部51保存来自于PubMed的检索结果511。继而,文档检索部51从保存的检索结果512的预定部分中提取涉及“pendrin”的文档信息(作者名称、标题、期刊名称等等)。文档检索部51将所提取的信息作为文档检索结果513保存。
在那之后,文档检索部51基于第二提取条件示出的格式、确定检索结果152是否包括用于检索文档的详细信息的链接信息。如上所述,与图25中相同的检索结果152包括链接信息。为此,文档检索部51确定检索结果512包括链接信息。
文档检索部51从检索结果512中提取链接信息(例如,每个文档的PubMed中的ID)作为关键词。文档检索部51利用提取出的关键词执行如上所述的处理。因此,进行重新检索。
在利用Web浏览器进行的一般检索过程中,可以获得图26中举例说明的结果。如图26所示,在所获得的结果的预定部分中,描述了文档的摘要、作者名称、标题、期刊名称等等。图26的结果不包括用于进一步获得文档详细信息的链接信息。
在此详细的例子中,将通过重新检索获得的检索结果512以如图26中所示的相同的格式来表示。此外,将检索结果512以HTML描述。在该情况下,可以通过提取在检索结果512的预定部分中描述的信息获得文档的详细信息(摘要等等)。
文档检索部51保存来自于PubMed的检索结果512,类似于上述操作。继而,文档检索部51从保存的检索结果512的预定部分中提取文档的详细信息(摘要等等)。文档检索部51将所提取的信息作为文档检索结果513保存。
在那之后,文档检索部51基于由第二提取条件示出的格式、确定检索结果152是否包括链接信息。如上所述,与图26中相同的检索结果152不包括链接信息。为此,文档检索部51确定检索结果512不包括链接信息。
继而,文档检索部51确定是否将所有可用关键词从输出信息152或者411中提取。在此例子中,输出信息152或者411包括“pendrin”的别名“PDS”、“DFNB4”以及“SLC26A4”。为此,文档检索部51确定没有提取所有可用的关键词。文档检索部51利用所述文档DB信息、从输出信息152或者411中提取一个别名作为新的关键词。文档检索部51利用提取出的关键词执行如上所述的处理。
文档检索部51对另外的别名执行相同的处理。这样能够获得涉及输出信息152或者411中包括的生物信息的文档。当将所有关键词从输出信息152或者411中提取时,文档检索部51输出所有保存的文档检索结果513。
(第六实施例)
以下将参照附图解释依照本发明第六实施例的生物信息检索系统和生物信息检索方法。
除第五实施例中举例说明的结构部件之外,如图27所示,依照第六实施例的生物信息检索系统包括第二分析部61。第二分析部61集合或者重新整理由第五实施例示出的文档检索结果513中包括的信息。这样生成了文档分析结果611。第二分析部61输出所生成的文档分析结果611。
除第二分析部61之外的结构部件与第五实施例的相同。据此,以下将主要解释第二分析部61。
第二分析部61具有示出了用于整理由文档检索结果513示出的信息的规则的数据。对于所述整理规则来说,可以给出以下规则。例如,将重迭情报合并成一个;将索引添加到每个文档;获得文档数目;按照出版日期的顺序分类所述文档,将信息按照期刊名称归类;以及将信息按作者名称归类。
将文档检索结果513从文档检索部51提供给第二分析部61。第二分析部61响应来自于文档检索部51的文档检索结果513、依照整理规则来整理文档检索结果513中包括的信息。更具体地说,第二分析部61重新整理由文档检索结果513示出的信息,将索引添加到每个文档,以及将重迭情报合并成一个。此外,第二分析部61获得文档数目,并且将表示所获得的文档数目的信息添加到文档检索结果513。第二分析部61输出整理过的文档检索结果513作为文档分析结果611。
接下来,以下将利用特殊的例子解释第二分析部61的操作。
在此特殊的例子中,用户输入基因或者蛋白质名称“pendrin”。通过第四实施例中所示的处理,将表示基因或者蛋白质名称的信息补充到输出信息152中。通过第五实施例中所示的处理,从PubMed中检索涉及“pendrin”及其别名“SLC26A4”的学术论文。
将涉及所述学术论文的文档检索结果513从文档检索部51提供给第二分析部61。
图28举例说明当从PubMed检索涉及“pendrin”的文档时获得的文档检索结果513的例子。图29举例说明了当从PubMed检索由关键词补充部41补充的涉及“SLC26A4”的文档时获得的文档检索结果513的例子。如图28和29所示,将相同的信息包括在两个文档检索结果513中。
第二分析部61依照整理规则、将两个文档检索结果513中包括的重迭情报合并成一个。因此,第二分析部61生成如图30所示的文档分析结果611。第二分析部61输出所生成的文档分析结果611。这时,第二分析部61控制显示器等等,以便可以在显示器上显示由文档分析结果611示出的信息列表。
(第七实施例)
以下将参照附图解释依照我发明第七实施例的生物信息检索系统和生物信息检索方法。
如图31所示,除第五或者第六实施例中举例说明的结构部件之外,依照第七实施例的生物信息检索系统包括格式改变部71。所述格式改变部71改变第五实施例中所示的文档检索结果513的格式,或者改变第六实施例中所示的文档分析结果611的格式。所述格式改变部71输出改变结果711。
除格式改变部71之外的结构部件与第五或者第六实施例的部件相同。据此,以下将主要解释所述格式改变部71。
所述格式改变部71具有示出了用于将信息格式改变为预定格式的改变规则的数据,其中所述信息格式包括在文档检索结果513或者文档分析结果611中。对于所述改变规则来说,可以给出以下规则。例如,改变由用户指定的关键词的显示颜色;一起显示基因或者蛋白质名称及其别名;以及以列表的形式显示文档ID和摘要。
将文档检索结果513从文档检索部51提供给格式改变部71。或者,将文档分析结果611从第二分析部61提供给该处。所述格式改变部71响应文档检索结果513或者文档分析结果611读取改变规则。所述格式改变部71依照所读取的改变规则来改变信息格式,所述信息格式由文档检索结果513或者文档分析结果611表示。所述格式改变部71输出改变结果711。这时,格式改变部71控制显示器等等,以便可以在显示器上显示改变结果711。
接下来,以下将利用特殊的例子解释格式改变部71的操作。
在此特殊的例子中,用户输入基因或者蛋白质名称“pendrin”。通过第四实施例中所示的处理,将表示基因或者蛋白质名称的信息补充到输出信息152中。通过第五实施例中所示的处理,从PubMed检索涉及“pendrin”的学术论文。
所述格式改变部71响应文档检索结果513或者文档分析结果611读取改变规则。在该情况下,所述改变规则示出了:一起显示“pendrin”及其别名,并且以列表的形式来显示文档ID和摘要。此外,所述改变规则示出了:改变关键词“pendrin”的显示颜色。格式改变部71改变由文档检索结果513或者文档分析结果611示出的信息格式。所述格式改变部71输出改变结果711。因此,例如如图32所示,将改变结果711显示在显示器上。显示涉及所述关键词的文档信息。
如第一到第七实施例所述,生物信息检索系统使用通过第一次检索获得的信息进行进一步地检索。即便仅仅指定了一个基因或者蛋白质名称,这样做也能够获得具有几乎没有遗漏的检索结果。此外,无论研究人员指定的关键词的种类如何,都可以执行检索。据此,研究人员可以指定除基因或者蛋白质名称之外的生物信息作为关键词。这样能够减少研究人员在检索过程中花费的时间、劳动力、成本。
另外,以上通过插图解释了检索生物信息的实例。然而,检索信息可以是诸如化学、工程、文学、历史等等不同科学领域的信息。在该情况下,使用了通常用于每个领域的格式。此外,本发明可以应用于任何系统,只要该系统是利用数据库检索信息的系统。例如,本发明可以应用于图书馆图书馆检索系统、警察局的事故检索系统等等。
本发明的设备可以由通用计算机来实现,而无需专用设备。控制计算机执行上述过程的程序和数据可记录在介质(软盘、CD-ROM、DVD等)以及被散布,并且可以将程序安装到计算机中并且运行OS(操作系统)以执行上述处理,由此实现本发明的设备。可以将上述程序和数据存储在互联网上的服务器设备中包括的磁盘设备等等中,并且被嵌入载波中。可以将嵌入载波中的程序和数据下载到计算机中,以便实现本发明的设备。
在不脱离本发明的广泛精神和范围的情况下,可以对其作出不同的实现方式和改变。上述实施例是用来举例说明本发明的,而不限制本发明的范围。本发明的范围由所附权利要求书示出,而不是所述实施例。在本发明权利要求书的等价物意义内以及在权利要求书内作出的各种修改,都认为是处于本发明的范围内。

Claims (14)

1.一种信息检索系统,包括:
输入接收单元(11),用于接收用户对数据库的查询,依照用户查询创建用于从数据库检索信息的用户查询,并且输出所创建的用户查询;
查询生成单元(12),用于接收用户查询或者接收从数据库重新检索信息的重新检索查询,依照所述用户查询或者所述重新检索查询,生成用于实际上从数据库检索信息的数据库查询,并输出所创建的数据库查询;
检索单元(13),用于依照数据库查询执行信息检索,并输出信息检索结果;
分析单元(14),用于分析由检索单元(13)输出的信息检索结果,并输出信息分析结果;
输出控制单元(15),用于将来自于分析单元(14)的信息分析结果作为输出信息来输出,利用信息分析结果创建重新检索查询,并且向所述查询生成单元(12)提供所创建的重新检索查询;以及
条件设置单元(16),其具有用于分析信息检索结果的分析条件以及用于输出输出信息的输出条件,向所述分析单元(14)提供分析条件,并且向所述输出控制单元(15)提供输出条件,
其中,所述分析单元(14)依照来自于所述条件设置单元(16)的分析条件来分析信息检索结果;以及
所述输出控制单元(15)依照来自于所述条件设置单元(16)的输出条件来输出所述输出信息,
还包括输出设置单元(21),用于从用户接收涉及信息检索结果的分析以及输出信息的输出的条件,并且将所接收的条件提供给所述条件设置单元(16),
其中,所述条件设置单元(16)将来自于所述输出设置单元(21)的条件作为分析条件和输出条件来保存。
2.如权利要求1所述的信息检索系统,还包括文档检索单元(51),用于接收由输出控制单元(15)输出的输出信息,从数据库中检索与输出信息相关的文档,并且输出文档检索结果。
3.如权利要求2所述的信息检索系统,还包括第二分析单元(61),用于接收文档检索结果,通过从文档检索结果中提取预定信息来分析文档检索结果,并且输出文档分析结果。
4.如权利要求3所述的信息检索系统,还包括格式改变单元(71),用于接收文档分析结果,将文档分析结果的格式改变为预定格式,并且输出其格式被改变了的文档分析结果。
5.如权利要求4所述的信息检索系统,还包括补充单元(41),用于接收由输出控制单元(15)输出的输出信息,并且利用涉及输出信息的信息来补充输出信息。
6.如权利要求5所述的信息检索系统,其中待检索的信息是生物信息。
7.一种信息检索方法,包括以下步骤:
接收来自于用户的数据库查询;
依照用户查询创建用于从数据库中检索信息的用户查询;
依照用户查询或者用于从数据库重新检索信息的重新检索查询,创建实际上从数据库检索信息的数据库查询;
依照数据库查询执行信息检索;
依照用于分析信息检索结果的分析条件,分析通过信息检索获得的信息检索结果;
利用信息分析结果创建重新检索查询,其中所述信息分析结果通过分析信息检索结果获得;
依照用于输出信息分析结果的输出条件,输出作为输出信息的信息分析结果,
还包括以下步骤:从用户那里接收涉及信息检索结果的分析以及涉及输出信息的输出的条件;并且保存作为分析条件和输出条件的这些条件。
8.如权利要求7所述的信息检索方法,其中所述输出输出信息包括:每当执行信息检索结果的分析时,输出所述输出信息。
9.如权利要求7所述的信息检索方法,其中所述输出输出信息包括:保存通过每次分析信息检索结果而获得的信息分析结果;并且在完成所有重新检索的情况下,一次性输出所保存的信息分析结果。
10.如权利要求7所述的信息检索方法,还包括步骤:从文档中检索与输出信息相关的文档;并且输出通过检索获得的文档检索结果。
11.如权利要求10所述的信息检索方法,还包括步骤:通过从文档检索结果中提取预定信息来分析文档检索结果;输出通过分析文档检索结果获得的文档分析结果。
12.如权利要求11所述的信息检索方法,还包括步骤:将文档分析结果的格式改变为预定格式;并且输出其格式被改变了的文档分析结果。
13.如权利要求12所述的信息检索方法,还包括步骤:利用涉及输出信息的信息来补充输出信息。
14.如权利要求13所述的信息检索方法,其中待检索的信息是生物信息。
CNB2004100451515A 2003-04-14 2004-04-14 用于检索信息的系统和方法 Expired - Fee Related CN1303556C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2003109054A JP2004318321A (ja) 2003-04-14 2003-04-14 生物情報検索システム及び検索方法
JP109054/2003 2003-04-14
JP109054/03 2003-04-14

Publications (2)

Publication Number Publication Date
CN1538330A CN1538330A (zh) 2004-10-20
CN1303556C true CN1303556C (zh) 2007-03-07

Family

ID=32905987

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2004100451515A Expired - Fee Related CN1303556C (zh) 2003-04-14 2004-04-14 用于检索信息的系统和方法

Country Status (5)

Country Link
US (1) US20040205061A1 (zh)
EP (1) EP1469401A3 (zh)
JP (1) JP2004318321A (zh)
CN (1) CN1303556C (zh)
CA (1) CA2464154A1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6523037B1 (en) * 2000-09-22 2003-02-18 Ebay Inc, Method and system for communicating selected search results between first and second entities over a network
JP2005352878A (ja) * 2004-06-11 2005-12-22 Hitachi Ltd 文書検索システム、検索サーバ、及び検索クライアント
US8386453B2 (en) * 2004-09-30 2013-02-26 Google Inc. Providing search information relating to a document
US8676868B2 (en) * 2006-08-04 2014-03-18 Chacha Search, Inc Macro programming for resources
US8738606B2 (en) * 2007-03-30 2014-05-27 Microsoft Corporation Query generation using environment configuration
EP2187312B1 (en) * 2007-09-07 2016-12-21 Humming Heads Inc. Information search system, information search method, and program
JP5727901B2 (ja) * 2011-09-09 2015-06-03 株式会社メテオ 情報検索装置および方法
CN102521258A (zh) * 2011-11-18 2012-06-27 百度在线网络技术(北京)有限公司 一种用于提供壁纸图片的方法与设备
CN103294699A (zh) * 2012-02-24 2013-09-11 联想(北京)有限公司 一种筛选对象的方法及电子设备
US8843488B1 (en) * 2012-02-28 2014-09-23 The Boeing Company Nested display of contextual search results
US9009850B2 (en) * 2012-06-25 2015-04-14 Bank Of America Corporation Database management by analyzing usage of database fields
CN104036010B (zh) * 2014-06-25 2017-05-24 华东师范大学 一种基于半监督cbow的用户搜索词主题分类的方法
CN115499258B (zh) * 2022-08-03 2023-10-03 深圳市宇创兴业科技有限公司 智能家居中控系统的控制方法、装置、介质及计算机设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1387140A (zh) * 2001-05-22 2002-12-25 鸿富锦精密工业(深圳)有限公司 线上资料撷取分析的代理服务系统及方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0829811A1 (en) * 1996-09-11 1998-03-18 Nippon Telegraph And Telephone Corporation Method and system for information retrieval
US6982153B1 (en) * 1998-12-03 2006-01-03 Targanta Therapeutics, Inc. DNA sequences from staphylococcus aureus bacteriophage 77 that encode anti-microbial polypeptides
US6871140B1 (en) * 2000-02-25 2005-03-22 Costar Group, Inc. System and method for collection, distribution, and use of information in connection with commercial real estate
US20040049510A1 (en) * 2000-10-16 2004-03-11 Eric Minch Method of operating a plurality of electronic databases
US7107263B2 (en) * 2000-12-08 2006-09-12 Netrics.Com, Inc. Multistage intelligent database search method

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1387140A (zh) * 2001-05-22 2002-12-25 鸿富锦精密工业(深圳)有限公司 线上资料撷取分析的代理服务系统及方法

Also Published As

Publication number Publication date
CA2464154A1 (en) 2004-10-14
US20040205061A1 (en) 2004-10-14
EP1469401A2 (en) 2004-10-20
CN1538330A (zh) 2004-10-20
JP2004318321A (ja) 2004-11-11
EP1469401A3 (en) 2007-01-24

Similar Documents

Publication Publication Date Title
CN1303556C (zh) 用于检索信息的系统和方法
CN1750003A (zh) 信息处理装置,信息处理方法,和程序
CN1299177C (zh) 数据管理装置、计算机系统及数据处理方法
CN1138215C (zh) 用于归档和访问电子报文的数据处理系统和方法
CN1279477C (zh) 检索关键字分析系统和方法
CN1163837C (zh) 网络访问管理系统和方法
CN1266624C (zh) 学习支持系统
CN1155906C (zh) 数据处理方法、系统、处理程序及记录媒体
CN1897556A (zh) 信息处理设备、信息处理方法和信息处理程序
CN1296811C (zh) 信息处理装置及其控制方法和控制装置
CN1592230A (zh) 受控资源的授权管理
CN1744036A (zh) 报告软件中支持定制图形表示的系统和方法
CN1689022A (zh) 可扩展标记语言流化转换器
CN1126053C (zh) 文件检索方法、文件检索发送方法及装置
CN1875345A (zh) 在编译过程中表示和检查程序组件的一致性的可扩展类型系统
CN1969292A (zh) 用户轮廓管理系统
CN1624696A (zh) 信息处理设备、方法及其程序、信息处理系统及其方法
CN1551012A (zh) 编排系统、编排程序和编排方法
CN1165343A (zh) 并行分布处理系统及其方法
CN1761956A (zh) 基于片段的串行化系统与方法
CN1749999A (zh) .net数据类型和实例的持久存储
CN1752963A (zh) 文档信息处理设备、文档信息处理方法及处理程序
CN1813252A (zh) 信息处理方法、信息处理程序、信息处理装置及摇控器
CN1447261A (zh) 特定要素、字符串向量生成及相似性计算的装置、方法
CN1390954A (zh) 使用核苷酸序列相关信息的信息处理系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20070307

Termination date: 20100414