CN1744080A - 一种与特定功能相关的基因信息检索系统及用于该系统的检索词数据库的构建方法 - Google Patents

一种与特定功能相关的基因信息检索系统及用于该系统的检索词数据库的构建方法 Download PDF

Info

Publication number
CN1744080A
CN1744080A CNA2005100375268A CN200510037526A CN1744080A CN 1744080 A CN1744080 A CN 1744080A CN A2005100375268 A CNA2005100375268 A CN A2005100375268A CN 200510037526 A CN200510037526 A CN 200510037526A CN 1744080 A CN1744080 A CN 1744080A
Authority
CN
China
Prior art keywords
gene
database
keyword
word frequency
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005100375268A
Other languages
English (en)
Other versions
CN100343852C (zh
Inventor
黄仲曦
姚开泰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southern Medical University
Original Assignee
Southern Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southern Medical University filed Critical Southern Medical University
Priority to CNB2005100375268A priority Critical patent/CN100343852C/zh
Publication of CN1744080A publication Critical patent/CN1744080A/zh
Application granted granted Critical
Publication of CN100343852C publication Critical patent/CN100343852C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一与特定功能相关的基因信息检索系统,该系统利用具有输入和显示终端的计算机和在机内构建的由基因名称数据库、词频基值数据库、字符串数据库和辅助检索词数据库组成的文献检索词数据库,通过网络服务器进入公共生物医学文献数据库检索出待查基因的相关文献,进行词频分析,从中提取基因的关键词,再经过专业处理,建立词频列表,最后通过聚类分析,检索出特定功能相关基因信息。本发明不仅具有定位准确,检索速度快,可避免重复劳动,节约大量的人力物力资源的的显著技术效果,而且还易于商业化开发推广。

Description

一种与特定功能相关的基因信息检索系统及用于该系统的检索词数据库的构建方法
技术领域:
本发明是涉及从已有基因信息库中检索相关基因信息,特别是涉及从公共基因信息库中检索特定功能的相关基因信息的系统。
技术背景:
随着生命科学研究的深入,人们现在已经知道特定生物功能的异常都是由生物体中某些基因异常表达或表达产物的异常修饰引起的。这些基因称为该生物功能的相关基因。为此,自从九十年代,人类就开始了基因组计划,目前已有许多生物基因组(例如,酵母、人、水稻、鸡、鼠等)测序完成。测序结果表明微生物的基因组由几个到几千个不等的基因组成;人的基因组有25000多个基因,动物与人相当,而植物则甚至可达十几万个。
伴随着基因组计划的进行,许多高通量分析技术随之出现,例如,芯片技术、基因表达系列分析SAGE、抑制消减杂交等。这些高通量分析技术的共同特点是它们能同时测定生物体大量的基因甚至是全基因组(一般是几千到几万个基因)在具有特定生物功能变化(例如某种疾病)的研究对象中与参照物(例如,健康个体)的差异表达情况。与该生物功能相关的基因应该就在这些差异表达基因当中。
但是随之出现的问题是高通量分析技术筛选出来的差异表达基因的数目一般在几十到几百之间,甚至上千,大大超过了预期的功能相关基因的数目。原因是这些差异表达基因可以是导致该研究对象的表征(例如,疾病的发生)的原因,而更多的也可以是该表征出现的伴随现象。然而,如果要通过实验的方法来逐一排除非该功能相关基因几乎是不可能的。因为通过实验来判定一个基因是否与该生物功能相关其发费是相当昂贵的。因此,过去研究者总是根据自己有限的经验知识从中挑选几个基因做进一步研究,以期侥幸发现一两个该功能相关基因。
随着生命科学的迅猛发展,全世界数以万计的实验室投入到基因的功能研究当中,几乎每一个基因都或多或少有相关的功能报道,这些报道的摘要被国际生物医学文献数据库MEDLINE所收录,目前MEDLINE收录的摘要已超过一千五百万篇,其中人基因的相关文献平均有上百篇。为此,全世界许多实验室试图从这些文献中挖掘出基因的相关功能或其产物与其它分子的相互作用,结合高通量分析结果试图解释当前研究的生物功能的机制。目前这种预测方法主要分成两类:一、从文献中提取待筛选基因的功能及相互间的功能关系,综合起来阐述这些基因与当前研究对象的生物功能的关系,从而推断哪些基因与该生物功能相关及如何相关,未直接报道的基因则为新基因。二、先设定特定功能相关的关键词,然后搜索出现这些关键词的基因的相关摘要,再通过阅读这些摘要来推断这些基因是否与当前研究对象的生物功能相关,其中未直接报道的基因则为新基因。这两种方法都一定程度上预测了新的候选的特定功能相关基因,但也均存在缺陷。
对第一类方法而言,由于这些文献可能在特定的时间(发育阶段或年龄)、空间(生物体、组织或细胞)和条件(物理、化学和生理等)导报了该基因与某功能相关,而基因在不同的时间、空间和条件下功能是不同而且多样的,因此从文献中抽提出来的所有的基因的功能以及基因间的功能关系是非常复杂的,难于推测什么相互关系与当前的生物功能相关,也很难于从相互关系中预测新的功能相关基因。对第二类方法而言,由于特定的生物功能常常与多种元素相关,而人们对特定功能的认知总是难于全面,因此总是无法充分给出与该功能相关的关键词。另一方面,每一个元素又有多种表达形式,单个元素常常与多种生物功能相关,常常找出与某个关键词相关的基因以及相关的文献是非常大量的,因此人们仍然非常难于推断到底哪些基因与当前研究对象的特定生物功能相关,因而也难于预测新的功能相关基因。
Damien Chaussabel和Alan Sher在《Genome Biology》杂志2002年3卷10期,research0055.1-0055.16页先提出了一种注释分析待筛查基因的方法,该方法首先从基因名称数据库HUGO Nomenclature Committee(http://www.gene.ucl.ac.uk/nomenclature/)提取待筛查基因的各种名称和别名,然后从网上公共生物医学文献数据库(PubMed即MEDLINE的网络版)中获取标题含有这些名称和别名的摘要,用商业软件Provalis Research分析摘要中词的频率。由于与特定基因相关的关键词应该在所有基因的相关文献中有一个较低的频率值,而在当前基因的相关文献中具有高的频率值;另一方面,我们研究的生物功能常常是由信号通路引起的,从而我们只对通路上的多个基因共有的关键词感兴趣,因此作者选择在随机250个基因(研究表明250个基因已经可以代表所有基因)的相关文献中的平均频率低于一个基值(5%)且至少在两个当前待筛查基因的相关文献中的频率均高于一个阈值的词作为关键词。再用这些关键词在待筛查基因的相关文献中的频率对基因进行聚类分析,从而阐述当前研究的生物功能与哪些关键词(即,元素)相关以及这些基因的功能分类(包括用关键词来描述功能类别)。这种方法有时也可以从已知的当前生物功能相关基因所在的具体的功能类别中的其它基因中预测新的当前生物功能相关基因。
此后,本发明人在《第一军医大学学报》2003年23卷11期1195-7页发表了一篇题为《用文献轮廓挖掘大肠癌转移芯片表达谱》文章。该文章所披露的技术方案对Damien Chaussabel等人所述的方法进行了一些改进,增加了一个Entrez Gene数据库(原名为Locuslink),并在数据过滤(即关键专业处理)过程中增加了对于定义基因特异性词的发生轮廓没有多大用处的关键词的删除和关键词词频权重的设置,从而将获得待查基因信息的范围扩大到Entrez Gene数据库,同时也使所获得的关键词与当前生物功能的密切程度得到一定的提高。但是,文中所述的方法仍存在下述不足:
1)检索不全面,遗漏了只包含在the Genome Database(http://www.gdb.org)和GENATLAS(http://www.dsi.univ-paris5.fr/genatlas/)数据库中的基因名称和别名。2)只在标题中检索基因的名称和别名,不能将范围扩大到摘要中,无法检索到很多只在摘要中提到而在标题中未提到的基因名称所对应的相关文献。3)获取基因的相关文献的方式是纯手工的,费时又费力。4)利用商业软件Provalis Research进行词频分析,不易掌握、繁琐而容易出错,原因是商业软件Provalis Research主要是分析报刊的词频而开发的,为了普用性,软件功能做得复杂庞大;再者,该方法做词频分析前需要做文件格式转换,生成新文件,分析词频时需要将原文件、新文件和结果文件一一对应,容易对应不上;尤其是该方法不能自动分析所有基因的相关文献,只能一个个分析,很机械、繁琐。5)单凭频率值自动获取的关键词有时是无生物功能含义的,容易出现假阳性,有时还会出现遗漏。6)获得的关键词与当前的生物功能的关系程度不一,直接聚类后,往往出现频率高低的关系把基因聚集在与当前生物功能关系程度较低(甚至无关)的关键词下,从而难于获得当前生物功能的相关基因。7)不能把表征特定功能相关基因的某一元素的关键词常常有多个同义词或者多种变化形式作为同一实体,易导致聚类的分散和由于关键词过多而导致浏览不便。8)手工检索,很难检索出包含多个关键词及其同义词的相关文献。9)直接用待查基因名称检索,每一个检索者都要经历从公共基因名称数据库中提取待查基因的相关信息进行计算词频、求基值、确定字符串和辅助检索词的复杂而慢长的处理过程,浪费大量的人力物力资源。
发明内容:
鉴于现有技术存在上述不足,本发明提供一种与特定功能相关的基因信息检索系统,以解决新的特定功能相关基因的快速、准确地定位的技术问题。
本发明解决上述问题的技术解决方案是:
一种与特定功能相关的基因信息检索系统,该系统包括一具有输入和显示终端的计算机、一网络服务器、公共生物医学文献数据库和公共基因名称数据库以及聚类分析单元,其特征在于还包括由基因名称数据库、词频基值数据库、字符串数据库和辅助检索词数据库组成的文献检索词数据库和
一待查基因相关文献检索单元,该单元
根据所输入的待查基因的官方缩写,从构建的文献检索词数据库中获取所有对应名称字符串和辅助检索词并进行编辑,依据文献检索词数据库中的原始信息,去除容易引起假阳性的名称字符串和辅助检索词,添加遗漏的名称字符串和辅助检索词,
然后从公共生物医学文献数据库中检索包含有这些名称字符串和辅助检索词的文献记录并保存到指定的文件夹中;
一待查基因词频分析单元,该单元先提取检索到的每篇文献记录的摘要字段,然后提取摘要字段中的每个词,用出现其中一个词的文献的数量除以该基因的相关文献总数,逐一计算出这些词在待查基因相关文献中的出现频率,即待查基因词频;
一关键词提取单元,该单元将待查基因词频与词频基值数据库中的同一词汇的基值进行比较判别,删除基值高于1%~10%的词和待查基因词频值阈或者待查基因词频与词频基值的差值低于m=t+(k/n)×100%(其中t是最小阈值,k是常量,n是该基因的相关摘要篇数)的词,然后挑选至少被两个基因所共有的词作为待查基因的关键词并保存记录;
一关键词专业处理单元,该单元产生一个可编辑列表,在该列表中可进行关键词添加或删除、关键词单复数形式设置、关键词的权重设置和关键词的同义词为单一实体的设置以及编辑记录的保存;
一词频列表建立、输出单元,该单元从词频分析单元计算出的词频中获取关键词在各个基因的相关文献中的词频,先将关键词的单数和复数形式的词频平均,得到关键词的词频,再乘以词频的权重,然后平均同一类同义词实体的关键词的词频,作为该同义词实体的词频,建立词频列表,最后输出聚类分析软件格式的所有关键词在各个基因的相关文献中的发生频率的词频列表,由所述的聚类分析装置对该词频列表文件中数据进行聚类分析并显示所得到的特定功能相关基因信息。
上述一种与特定功能相关的基因信息检索系统的一个较佳方案是还包括基因相关文献的二次检索单元,该单元根据通过聚类分析并所得到的特定功能相关的基因信息,
选择待查基因和多个与待查基因相对应的关键词:
搜索并显示所选待查基因相关文献中含有所选多个关键词及其同义词的文献;
保存搜索结果。
上述技术方案中所述的关键词提取单元将待查基因词频与词频基值数据库中的同一词汇的基值进行比较判别,删除基值高于5%~10%的词和待查基因词频值阈低于m=15%+(1.5/n)×100%的词,然后挑选至少被两个基因所共有的词作为待查基因的关键词并保存记录。
本发明的另一目的是公开一种构建用于上述与特定功能相关的基因信息检索系统的文献检索词数据库的方法,该方法利用一具有输入和显示终端的计算机通过一网络服务器进入公共基因信息数据库,其特征在于包括下列步骤:
1)从中提取每一个基因不重复的全名、缩写、别名和产物名称并以官方缩写为标记建立新的基因记录,形成基因名称数据库;
2)先从已知基因中随机抽取并输入大于或等于200个与待查基因属于同一物种的基因(为了描述的方便,这里将该基因定义为随机基因,并用于以下的描述中),再从所形成的基因名称数据库中调用随机基因所对应的新的基因记录进行编辑,依据基因名称数据库中的原始信息,设置名称字符串和辅助检索词;
然后从公共生物医学文献数据库中检索包含有这些名称字符串和辅助检索词的文献记录并保存到指定的文件夹中;
接着提取检索到的每篇文献记录的摘要字段,然后提取摘要字段中的每个词,用出现其中一个词的文献的数量除以一个随机基因的相关文献总数,逐一计算出这些词在一个随机基因的相关文献中的出现频率,然后求和,再除以随机基因的数目,求出这些词在一个随机基因的相关文献中的出现平均频率,即基值,形成一词频基值数据库;
3)调用基因名称数据库中新的基因记录建立字符串数据厍或辅助检索词数据库,其中
所述的字符串数据库按下列步骤建立:
a、字符处理:删除名称中括号里的内容,将非字母且非数字的字符用其它符号代替,
b、添加基因家族成员缩写的变化形式:当缩写中有空格,删除空格产生新的缩写形式,当缩写的最后一个字符是数字,则在反向搜索到第一个非数字的字符处插入一个空格产生新的缩写形式,
c、删除小于2~4个字符的基因名称,
d、删除属于公共词的非基因名称,
e、删除属于英语单词的非基因名称,
f、输出基因名称字符串,建立字符串数据库;
所述的辅助检索词数据库由下列步骤建立:
a、提取每个基因所有全名和产物名称中的所有词,
b、删除长度小于4~6个字符而且与基因名称同名的候选辅助词,
c、删除属于公共词的词,
d、输出结果建立基因的辅助检索词数据库。
上述从基因名称数据库中随机调用的新的基因记录所对应的基因的数目即随机基因的数目最佳为250个。
本发明较现有技术具有下列是突出的优点和显著的技术效果:
1)构建了一本地的基因名称数据库,供用者在检索者直接调用,不仅减少了不必要的重复劳动,而且速度快,可节约大量的人力物力资源;
2)本地的基因名称数据库可由开发商提供更新服务,易于商业化推广;
3)将检索范围扩大到目前已公开的所有公共基因名称数据库中的基因名称和别名,因此所产生可用于生物医学文献数据库检索的基因名称字符串和基因名称的辅助检索词全面;
4)由于将检索范围扩大到摘要中,检索到的基因相关文献全面;
5)用者可选择一个最感兴趣的基因名称和多个密切程度高的关键词和同义词进行二次检索,定位准确;
6)具有人机对话的界面,可充分发挥使用者的专业知识修饰或删除无生物功能含义的关键词,添加补充遗漏的关键词,以人为本的理念得到了充分的体现;
7)专业化程度高,操作简便,容易学习和掌握;
8)对关键词的频率进行加权,使获得的关键词与当前的生物功能的关系程度能够得以体现,避免了由于出现频率高低的关系把基因聚集在与当前生物功能关系程度较低(甚至无关)的关键词下,而与密切表征当前生物功能的关键词相关的基因则分散在不同的类别中;
9)表征特定功能相关基因的某一元素的关键词和有多个同义词以及多种变化形式,作为同一实体,聚类集中,浏览方便;
10)所有的运算、处理过程都是自动进行的,定位准确,检索速度快。
附图说明:
图1为本发明所述的一种与特定功能相关的基因信息检索系统结构示意图
图2为本发明所述的一种与特定功能相关的基因信息检索主流程图;
图3为本发明所述的待查基因相关文献检索流程图;
图4为本发明所述的待查基因词频分析流程图;
图5为本发明所述的关键词提取流程图;
图6为本发明所述的关键词专业处理流程图;
图7为本发明所述的词频列表建立、输出流程图;
图8为本发明所述的基因相关文献的二次检索流程图;
图9为构建本发明所述的基因名称数据库的流程序图;
图10为构建本发明所述的词频基值数据库的流程序图;
图11为构建本发明所述的字符串数据库的流程序图;
图12为构建本发明所述的辅助检索词数据库的流程序图;
图13为下述实施例中基因相关文献检索界面;
图14为下述实施例中关键词专业处理界面;
图15为下述实施例中含有特定基因和多个关键词的文献检索界面:
图16为下述实施例中特定功能相关基因检索主界面;
图17为下述实施例中51个大肠癌转移差异表达基因与关键词的聚类结果示意图;
图18为下述实施例中基因的相关摘要中检索多个关键词包括同义词同时出现的界面;
图19为174个病理性瘢痕差异表达基因与关键词的聚类结果示意图;
图19a是聚类结果的总图;
图19b是与病理性瘢痕相关的主要关键词的示意图;
图19c是已知与病理性瘢痕相关的胶原相关基因的聚类图;
图19d是与关键词“缺氧”相关的基因聚类图。
具体实施方式:
例1(人类文献检索词数据库的建立方法):
本发明所述的文献检索词数据库由基因名称数据库、词频基值数据库、字符串数据库和辅助检索词数据库组成,其中字符串数据库和辅助检索词数据库是获取基因名称数据库中的新的基因记录分别经过不同的技术处理建成的。具体的人类文献检索词数据库的组成和构建也是相同的,详细描述如下:
一、人类基因名称数据库的构建(参见图9)
为了使基因名称和别名更加全面,本实施例收集并整合了四个公共基因信息数据库:HUGONomenclature Committee(http://www.gene.ucl.ac.uk/nomenclature/)、Entrez Gene(http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?DB=gene)、the Genome Database(http://www.gdb.org)和GENATLAS(http://www.dsi.univ-paris5.fr/genatlas/),从中提取基因的全名、缩写、别名、产物名称,并以官方缩写为标记(例如,基因“palate,lung and nasal epithelium carcinoma associated”的官方缩写是PLUNC),共得到23060个人基因信息,建成人类基因名称数据库——human gene names database。构建的
具体方法和步骤如下:
1、提取HUGO Nomenclature Committee中的每个已证实(approved)基因作为一个新的基因记录,以官方缩写为基因标记(即,以官方缩写来表征该基因)。将该基因的全名、其它缩写、别名和产物名称均做为别名。然后追加Entrez Gene、the Genome Database和GENATLAS三个数据库中相应记录的不重复的全名、缩写、别名和产物名称,也作为别名。别名如果在文中出现,则认为该基因出现,即,官方缩写出现。
2、提取Entrez Gene数据库中每个人的基因。如果该基因未被HUGO Nomenclature Committee数据库所收录,则作为hunan gene names database的一个新的基因记录。同样以官方缩写为基因标记。将该基因的全名、其它缩写、别名和产物名称均做为别名。然后追加the Genome Database和GENATLAS三个数据库中相应记录的不重复的全名、缩写、别名和产物名称,也作为别名。
3、依此类推,分别添加the Genome Database和GENATLAS中新的基因记录。
4、保存新的基因记录构建起人类基因名称数据库。
二、人类基因词频基值数据库的构建(参见图10)
由于本发明所述的系统中公共词的判定和关键词的提取都是根据词频基值的数值来比较判别的,因此有必要建立一词频基值数据库,以支持系统的检索过程。所述的词频基值数据库的构建方法如下:从已知人类基因中随机抽取250个基因(随机基因)输入到系统中;再从所形成的基因名称数据库中调用随机基因所对应的新的基因记录进行编辑,依据基因名称数据库中的原始信息,设置名称字符串和辅助检索词;然后从公共生物医学文献数据库中检索包含有这些名称字符串和辅助检索词的摘要并以文本文件的格式保存到指定的文件夹中;接着提取检索到的每篇文献记录的摘要字段,然后提取摘要字段中的每个词,用出现其中一个词的文献的数量除以一个随机基因的相关文献总数,逐一计算出这些词在一个随机基因的相关文献中的出现频率,然后求和,再除以250(随机基因的数目),求出这些词在一个随机基因的相关文献中的出现平均频率,即基值,形成一词频基值数据库。所述的随机基因数以250个为最佳,200个~300之间为较好。所述的随机基因数大于300个当然也行,但是运算量太大,同时也没必要,因为据前人的研究随机基因数目大于250后词频基值基本上不增加。所述的随机数小于200会导致在检索过程中把不该删除的关键词掉,造成关键词的遗漏。
三、用于公共生物医学文献数据库检索的字符串数据库和辅助检索词数据库的构建
建成基因名称数据库后,为了能够在文中准确地检索相关基因,需要做一些辅助技术处理:(1)删除长度小于2~4个(最好是3个)字符的基因名称;(2)如果基因名称少于4~6个(最好是5个)字符,则还需要至少一个基因全名中的单词在文中出现才认为该基因出现。这些辅助处理避免过多的假阳性出现。例如,基因名称“MET”(基因“met proto-oncogene(hepatocyte growth factor receptor)”的官方缩写),由于字符太少,很容易在其它领域出现同名(例如,药物、细胞株等),如果不加辅助词(例如“oncogene”)联合检索,则假阳性的相关文献会非常多;单个字符(例如“A”)作为基因名称,出现假阳性的相关文献会更多。
1、字符串数据库的构建(参见图11)
1)字符处理:删除名称中括号里的内容;非字母且非数字的字符用空格代替。这种处理类似于Alako等所做的那样。由于我们增加了基因的全名、别名和产物名称等作为基因的名称,检索其在文中的存在;而这些名称往往包含有括弧(括弧内的内容用以辅助说明),使得这些名称不能直接作为检索字符串,因此必须删除括弧内的内容。例如,基因“MET”的全名“met proto-oncogene(hepatocyte growth factorreceptor)”中包含有括弧,括弧内的内容“hepatocyte growth factor receptor”用以辅助说明基因“MET”的全称“met proto-oncogene”,不是检索基因“MET”在文中存在所必须的(我们只需检索全称“metproto-oncogene”是否在文中存在),因此必须删除,否则会导致零完全匹配。
2)添加基因家族成员缩写的变化形式:如果缩写中有空格,则删除空格产生新的缩写形式;如果缩写的最后一个字符是数字,则反向搜索到第一个非数字的字符,在此处插入一个空格产生新的缩写形式。例如,基因“TP53”有一个基因家族成员缩写的变化形式“P53”,缩写中有空格,则删除空格产生新的缩写形式“P53”。再比如,基因“BCL2”的最后一个字符是数字,则反向搜索到第一个非数字的字符,在此处插入一个空格产生新的缩写形式“BCL2”。
3)删除小于3个字符的基因名称,以减少假阳性。
4)删除属于公共词的非基因名称。如果基值大于1%就认为该词为公共词(因为最常见的基因名称‘P53’在文献中的基值是1%,其相关文献有35000篇,这意味着即使某个词的基值大于1%不是公共词,其相关文献也因为过多而无法分析)。短语也有可能是公共词,例如‘novel protein’。我们定义短语中每个词的基值大于0.4%而乘积大于0.005的短语为公共短语。这意味着如果是双词短语,两个词的基值一个正好是一个5%另一个10%。例如,‘novel’和‘protein’的基值分别是13%和47.6%,它们的乘积为0.06,所以‘novel protein’是公共短语。
5)删除属于英语单词的非基因名称。例如‘sky’和‘fat’。
6)输出基因名称字符串,构建起人类字符串数据库。
2、辅助检索词数据库(参见图12)
1)提取每个基因所有全名和产物名称中的所有词(包括括弧中的词)。
2)删除长度小于5个字符而且与基因名称同名的候选辅助词。
3)删除基值大于1%的词(基值大于1%的词为公共词)。剩下的词做为这个基因的辅助检索词。例如,基因BMP3的一个全名是‘bone morphogenetic protein 3(osteogenic)’,其中每个词的基值分别是:bone(2.5%),morphogenetic(0.3%),protein(47.6%),3(17.7%),和osteogenic(0.2%),所以,词‘morphogenetic’和‘osteogenic’做为基因BMP3辅助检索词。
4)输出结果构建起人类基因的辅助检索词数据库。
例2(动物和植物文献检索词数据库的建立方法):
由于Entrez Gene数据库几乎包含了所有已测序的物种的基因名称信息,因此我们可以从中提取感兴趣的动物和植物的基因名称信息构建基因名称数据库。
动物以小鼠为例,先从Entrezgene中获得48039个基因的官方缩写、全名、别名和产物名称,建成小鼠的基因名称数据库,然后随机调用250个基因,检索相关文献,分析词频,建立词频基值数据库。再对基因名称数据库进行处理产生小鼠的字符串数据库和辅助检索词数据库。建库过程中的数据处理方法和过程与建立人类的基因的词频基值数据库、字符串数据库和辅助检索词数据库完全相同,可参照例1进行。
植物以拟南芥为例。先从Entrez gene中获得30879个基因的官方缩写、全名、别名和产物名称,建成拟南芥的基因名称数据库,然后随机调用250个基因,检索相关文献,分析词频,建立词频基值数据库。再对基因名称数据库进行处理后产生拟南芥的字符串数据库和辅助检索词数据库。建库过程中的数据处理方法和过程与建立人类的基因的文献检索词数据库完全相同,也可参照例1进行。
例3(微生物文献检索词数据库的建立方法):
微生物文献检索词数据库的建立方法以EB病毒为例,先从Taxonomy数据库和Swiss-Prot蛋白数据库共获得90个基因的官方缩写、全名、别名和产物名称,建成EB病毒的基因名称数据库。然后人工设置EB病毒的字符串数据库和辅助检索词数据库。再检索这90个基因的相关文献,分析词频,建立词频基值数据库。建库过程中的数据处理方法和过程与建立人类的基因的词频基值数据库完全相同,同样可参照例1进行。
例4(人类特定功能相关基因信息的检索,参见图2):
网上的公共生物医学文献数据库是基因研究的重要资源,本发明所述的与特定功能相关的基因信息检索系统正是利用这一资源开发的检索系统。该系统利用具有输入和显示终端的计算机和在机内构建的由基因名称数据库、词频基值数据库、字符串数据库和辅助检索词数据库组成的文献检索词数据库,通过网络服务器进入公共生物医学文献数据库检索出待查基因的相关文献(系统结构参见图1),进行词频分析,从中提取基因的关键词,再经过专业处理,建立词频列表,最后通过聚类分析,检索出特定功能相关基因信息。本发明所述的与特定功能相关的基因信息检索系统适用于各种不同物种的特定功能相关基因信息的检索,也就是说其检索方法和步骤是相同的,只不过要根据待查基因所属的物种事先建好相应的文献检索词数据库(人类的文献检索词数据库的构建方法见例1)。本实施例将人类特定功能相关基因信息的检索方法及步骤详细描述如下:
1.文献的自动获取(参见图3)
1)系统自动产生一个自动检索用互动列表(界面见图13),由用户输入所要检索的基因即待查基因的官方缩写或将待查基因的官方缩写保存在一个文件中由机器读入。所述的待查基因的数目根据检索的目的确定,比如做功能的相关基因筛选研究可输入多个,而做基因的功能研究只要输入一个。2)系统根据用户给予的基因的官方缩写从字符串库和辅助检索词库中分别获取它对应的所有名称字符串和辅助检索词。例如,CDH1基因的所有名称字符串包括:“CDH1”、“UVO”、”CDHE”、“ECAD”、“LCAM”、“Arc1”、“HDGC”、“CAD1”、“CDH1”、“Arc1”、“CAD1”、“uvomorulin”、“cadherin 1 type 1 E cadherin”、“cadherin 1 E cadherin”、“cadherin 1 type 1”、“cell CAM 120 80”和“calcium dependent adhesionprotein epithelial”。CDH1基因的所有辅助检索词包括:“cadherin”、“cam”、和“120”。3)系统提供一个人机交互界面,显示用户所提交的基因以及对应的名称字符串、辅助检索词和基因名称的原始信息,使得用户可以编辑名称字符串和辅助检索词。上述对基因名称数据库的两种辅助处理虽然是自动检索基因相关文献所必须的,但由于科学文献中基因名称表述的复杂性,这两种方法处理后得到的结果还不能完全表征文献中基因名称出现的各种形式。例如,CDH1基因在研究鼻咽癌的相关文献中,以上述名称字符串形式出现的机会很少,主要以“E cadherin”的形式出现,而“E cadherin”却没有被基因名称数据库单独收录为基因名称。另外,在CDH1基因的全名中,单词“adhesion”的基值是2.4%大于1%,不被认作是辅助检索词,但它却是在文献中判断CDH1基因小于5个字符的名称字符串是否表征CDH1基因的重要依据,说明公共词并不能被完全排除非辅助检索词。因此,在自动检索基因相关文献之前,必须提供一种人机交互装置,使得用户在提交欲检索相关文献的基因的同时,可以看到基因的检索字符串和辅助检索词,同时提供基因名称数据库中基因的原始信息,使得用户可以根据这些原始信息对检索字符串组和辅助检索词进行添加、删除和编辑,产生更为准确、全面的检索字符串和辅助检索词。4)用“逻辑或”的方式产生一个在公共生物医学文献数据库(PubMed)(http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=pubmed)检索基因相关文献的字符串。如果某个基因名称的长度小于5个字符,还需与其任意一个相关的辅助检索词联合检索。例如,假设我们要检索PIM1基因的相关文献。PIM1基因的名称包括:“PIM1”、“PIM”、“PIM1”、“Oncogene PIM1”和“pim 1 oncogene”,其中名称“PIM1”和“PIM”的长度小于5个字符,因此需要辅助检索词。PIM1基因的辅助检索词包括;“oncogene”、“proviral”和“integration”。因此,检索PIM1基因的相关文献的字符串是:
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=pubmed&cmd=search&term=PIM%201%5BAB%5D%20OR%20Oncogene%20PIM1%5BAB%5D20%OR%20pim%201%20oncogene%5BAB%5D%20OR%20((PIM1%5BAB%5D%20OR%20PIM%5BAB%5D)%20AND%20(oncogene%5BAB%5D%20OR%20proviral%5BAB%5D%20OR%20integration%5BAB%5D)。这相当于通过网页浏览器,在PUBMED的检索窗口中输入检索字符串:′PIM1[AB]OR Oncogene PIM1[AB]OR pim 1 oncogene[AB]OR((PIM1[AB]OR PIM[AB])AND(oncogene[AB]OR proviral[AB]OR integration[AB]))′)。5)产生一个网页浏览器,将浏览器的地址URL导向基因的检索字符串。在浏览器的“下载完毕”事件中添加命令,选择PubMed的输出格式为“摘要”(′Abstract′)和输出方式为“输出到文件”(‘send to file’),以该基因的官方缩写命名该文件,以文本文件的形式保存到用户指定的文件夹中。
上述的自动检索用互动列表(界面如图13所示),该列表由3个列表框、11个按钮、3个文本框、1个组合框和1个状态栏组成。分述如下:
3个列表框分别是:基因列表(“Gene List”)、基因名称字符串列表(“Search Term for One Gene”)和基因原始信息表(“Gene Information Detail”)。基因列表中有5列:“No.”列表示基因编号,“OfficalName”列表示基因的官方缩写,“In”列表示在摘要(AB)中还是标题(TI)中检索基因名称,“Dn”列表示是否检索该基因的相关文献(Y/N),“PNum”列表示检索到的基因相关文献数。基因名称字符串列表中有两列:“First Term”列表示基因名称字符串,“Sec”列表示是否需要辅助检索词(Y/N)。基因原始信息表提供基因的所有名称的原始信息和基因摘要。基因列表、基因名称字符串列表和基因原始信息表是联动的。用户点击基因列表中的某个基因,基因名称字符串列表和基因原始信息表中的内容随之改变。
11个按钮分别是:添加基因(“Add Gene”)、添加多个基因(“Add Genes”)、删除基因(“Del Gene”)、添加名称字符串(“Add Term”)、删除名称字符串(“Del Term”)、打开已有基因相关文献的获取记录(“Open”)、保存当前的基因相关文献的获取记录(“Save”)、开始获取基因的相关文献(“Retrieve”)、停止获取基因的相关文献(“Stop”)、退出(“Exit”)和检索基因的官方缩写(“Search”)。其中前10个按钮在面板中排列在一起,而检索基因的官方缩写(“Search”)按钮处于官方缩写输入文本框(“Official Name”)和官方缩写输出组合框之间。
3个文本框分别是:辅助检索词文本框(“Candidate Second Terms”)、官方缩写输入文本框(“Official Name”)和存放基因相关文献的文件夹文本框(“Target”)。
1个组合框作为官方缩写输出组合框。1个状态栏显示当前文献获取的进度。
2.词频率分析(参见图4)
获得基因的相关文献并以文本文件的形式保存到一个文件夹后,由用户指定文件夹,系统则自动从中提取文本文件进行如下的处理。
1)将上述文本文件中每篇文献记录的每个字段(包括:出处、标题、作者、地址、摘要和PMID号)转换为一行。通常情况下,在文献记录中,标题、地址和摘要是多行文字表示的。系统每次读取该文本文件中的一行,保存到一个变量A中,并把变量A原来的内容保存到另一个变量B中。这样变量B和A实际上是保存了连续两行文字。我们以连续两个空行为标志来判断文献记录的边界;以一个空行为标志来判断字段的边界;以B为空行而A不为空行来判断单行字段;以A和B都不为空行来判断多行字段。对于多行文字的字段,每次读取A都加到B的末尾,使其变成单行字段。例如,下面是从PubMed获得的NMI基因文本文件中的两篇文献记录。
  “……
6:J Interferon Cytokine Res 1998 Sep;18(9):767-71
Interferon-induced upregulation and cytoplasmic localization of Myc-interacting
protein Nmi.
Lebrun SJ,Shpall RL,Naumovski L.
Department of Pediatrics,Stanford Medical Center,CA 94305,USA.
Nmi interacts with c-Myc,N-Myc,Max,and fos,as demonstrated by yeasttwo-hybrid and coimmunoprecipitation assays.Nmi is partially homologous to IFP35,an interferon(IFN)-inducible protein.In this study,we show that basalexpression of Nmi is upregulated by IFN in multiple tumor-derived cell lines.Treatment with IFN results in an increased amount of cytoplasmic Nmi distributedin a punctate granular pattern.We also demonstrate that Nmi is expressed invarious fetal and adult tissues.As Nmi does not contain a known DNA-bindingmotif,it has the potential to form inactive heterodimers with its putativeDNA-binding partners.Our studies suggest that Nmi may modulate its bindingpartners in an IFN-inducible manner.
PMID:9781816[PubMed-indexed for MEDLINE]
7:Oncogene 1996 May 16;12(10):2171-6
Isolation and characterization of Nmi,a novel partner of Myc proteins.
Bao J,Zervos AS.
Cutaneous Biology Research Center,Massachusetts General Hospital,Harvard
Medical School,Charlestown Massachusetts 02129,USA.
The Myc family of oncogenes is thought to play an important role in cellproliferation,differentiation,and neoplastic transformation.Although thestructure and expression of Myc genes are well characterized,the function andbiochemical properties of the Myc proteins are less well understood.Here,usinga yeast genetic screen,we identified a novel gene,Nmi,that binds to N-myc andC-myc.It also interacts with other transcription factors in yeast.The carboxylterminus of Nmi shows homology to an interferon-induced leucine zipper protein,IFP 35,whereas its amino terminus is homologous to a coiled-coil heptad repeatin the C.elegans protein,CEF59.Co-precipitation studies of Nmi with N-myc andC-myc confirmed the interaction in mammalian cells.Nmi mRNA is expressed at lowlevels in all fetal and adult human tissues tested,except brain.Among severalcancer cell lines,high expression of Nmi was found in myeloid leukemias,whichalso express high levels of C-myc.Nmi gene is localized on human chromosome22q13.3.Translocations of this region have been reported in some humanleukemias.
PMID:8668343[PubMed-indexed for MEDLINE]
……”。
上例中,记录间用连续三个空行隔开(显然符合连续两个空行的判断标准)。记录内的字段间用一个空行隔开。在每篇文献记录中,标题、地址和摘要都是多行文字表示的,通过相加的方式,都转换成单行文字。
2)提取每篇文献记录中的摘要字段(即摘要行)。如上例所示,每篇文献记录都以数字加冒号开头,数字代表第几篇文献,因此系统以“数字加冒号开头”来判断一个文献记录的开始。然后采用以下方法来获取每篇文献记录的摘要行:A)获取第一行为出处行(即出处字段)。B)用两个变量V1和V2来连续获取两行,以V2为标题行。如果V2以“Comment in:”、“Comment on:”或“Erratum in:”开头,则表明这是评论行或杂志声明行,因此重复再获取两行,直到V2不以上述三个标志开头。C)获取该文献记录中的剩下所有行,计算非空行的数目及长度。如果非空行的数目大于2,而且至少有一行的长度大于180个字符,则以长度最长的行作为摘要行。因为随机分析10000篇文献记录,均发现摘要行的长度大于180个字符,而且在整个文献记录的所有字段中,长度是最长的。
3)对提取的摘要行进行以下两步字符处理:(A)所有非字母且非数字字符用空格取代。这是为了方便以空格为边界的单词识别。例如,单词“(BCL-2)”、“BCL-2”和“BCL 2”是同一个单词;处理后都表征为“BCL 2”。(B)所有字母都转化为大写。这是为了避免两个相同的单词因字母大小写不同而被机器认作是不同的单词。例如,“Cancer”和“cancer”。
4)以空格为边界提取处理后摘要行的每个词,计算词的出现频率(即出现该词的摘要数除于总摘要数)。
采用以上的方法,系统可以自动分析出每个基因的相关文献中的词频,进行下一步分析。  同时,我们保留所有处理的中间和最终结果(包括:多行字段转换成单行字段的结果文件、纯粹由提取的摘要行组成的文件和词频分析的结果文件)以便后用。保留的方法如下:1)在用户指定的文件夹中建立一个结果(“result”)文件夹。2)在结果文件夹中建立三个子文件夹:“linemid”、“lineresult”和“wordresult”,用以分别保存上述三个结果。3)同样以基因的官方缩写为文件名,以文本文件的形式保存上述三个结果到三个不同的文件夹中。
3.关键词的提取(参见图5)
系统自动分析出每个基因的相关文献中的词频后,就可以从这些词中自动提取基因的关键词。提取的方法简单描述如下:1)获取每个基因的所有词和词频。2)删除基值大于5%的词,认为这些词为公共词,例如’the’和‘and’等。该步骤中要删除词的基值可在1%~10%之间选择,较好的范围是5%~10%,5%是最佳选择点。3)删除在当前基因的相关文献中的词频小于一个阈值m=t+(k/n)×100%的词,认为这些词在当前基因的研究中因不被广泛提及而不能被接受为关键词,其中t是最小阈值,k是常量,n是该基因的相关摘要篇数,t的取值范围可以是5%~25%,k的取值范围可以是0.5~2.5,本例中取t=15%和k=1.5。4)删除一个基因所特有的词,只保留被两个基因所共有的词。该步骤中,也可采用待查基因的词频与词频基值的差值的大小来判别要删除的词,将待查基因的词频与词频基值的差值小于m=t+(k/n)×100%的词删除,因为这两种判别方法的实质基本相同,两者的误差也很小,基本上不影响检索结果。由于当前生物功能都是由一个基因簇而不是单个基因引起的,因此至少被两个基因所共有的词才可能是表征基因簇的功能词,将这些词保留下来,其它的都删除。5)这样最后剩下的词被认为是基因的关键词,以“allkeyword.xls”为文件名保存到用户指定的文件夹的“result”子文件夹。
4.关键词的专业处理(参见图6)
关键词专业处理方法如下:
系统自动提取产生的关键词文件,产生一可编辑列表(界面见图14)。在该可编辑列表中可进行下列编辑:
1)关键词的添加或删除或用词组来定义关键词。
2)设置关键词的频率权重。用数字来表征关键词的频率权重。默认值为1。用户可以根据关键词与特定生物功能的关系密切程度来设定权重值。聚类分析时,权重值将与关键词的词频相乘作为新的词频取代原有词频。
3)设置关键词的同义词为同一实体。用数字来表征同义词。默认值为0,表示非同义词。数字大于0表示同义词。具有相同数字的关键词属于同一类同义词。聚类时,这类关键词将被视为同一实体;以列表中第一个同义词表征该实体。
4)设置关键词的单复数形式。以数字来表征单复数。默认值为0,表示只有单数形式。用户可以设置为1,表示允许出现以“s”结尾的复数形式。
5)保存并替换关键词自动提取产生的关键词文件。
上述用于关键词的专业处理可编辑列表(界面如图14所示),该列表包括一个列表框和6个按钮。分述如下:
列表框包括5列:“No.”列表示关键词编号。“Keyword”列表示关键词。“Plural”列表示关键词的单复数形式。“Weight”列表示关键词的权重。“Synonymy”列表示关键词的同义词代号。
6个按钮分别为:添加关键词(“Add”)、删除关键词(“Remove”)、关键词重新排序(“Sort”)、保存关键词的编辑结果(“Save”)、确定(“Ok”)和取消(“Cancel”)。其中,关键词重新排序以同义词代号为第一排序值(顺序),以权重值为第二排序值(逆序)。因此,用户可以通过定义较高的权重值(例如+1)来确定同一类实体中的第一个同义词(如图14所示)。
5.词频列表的建立、输出和基因-词频率的聚类分析(参见图7)
用户通过关键词专业处理编辑完关键词后,就可以进行基因-词频率的聚类分析了。该方法简述如下:1)获取关键词在各个基因中的词频,形成一个词频列表。该列表的首行为基因,首列为关键词,行与列的交叉点为该关键词在该基因中词频。2)用斯坦福大学开发的Cluster软件(http://rana.lbl.gov/index.htm)的平均连锁等级聚类算法模块对该列表进行聚类分析。3)用Treeview软件(http://rana.lbl.gov/index.htm)显示聚类分析的结果。由于Cluster和Treeview均是免费软件,而且使用很方便,关键是如何获取关键词在各个基因中的词频列表,因此,我们只需根据Cluster软件的格式来建立词频列表并进行词频列表输出。
所述的词频列表输出的方法是:1)从基因的词频文件中获取关键词在各个基因的词频。2)如果关键词允许单复数,则将该关键词的单数和复数形式的词频相加除于二,作为该关键词的词频。3)将关键词的词频乘以词频权重。4)将同一类同义词实体的关键词的词频相加,除于同义词的数目,作为该同义词实体的词频。同义词实体以第一个关键词表征,删除实体中的其它关键词。5)以Cluster软件要求的格式输出基因-关键词的频率列表,以“array.txt”为文件名保存到用户指定的文件夹的“result”子文件夹。
聚类分析结果以树和词频列表的方式显示。从树结果,用户可以看到基因按关键词聚类及词按基因聚类。从词频列表结果,用户可以看到所有词在各个基因中的发生值大小,即词与基因的关联程度,用颜色亮度表征。
通过聚类分析,用户可以得到三方面的信息。1)验证当前高通量分析结果的可靠性。因为当前的大多数高通量分析技术都存在重复性受置疑的问题,而由于费用高昂,又往往不能进行多次重复实验以获得可信的数据。在本发明系统中,用户通过对当前生物功能的主要关键词设置高权重,就可以将已知的当前功能相关基因聚在一起。根据已知的当前生物功能相关基因在本系统中检测结果与文献报道相符的比例,可以推断本实验结果的可靠程度。2)获得对当前生物功能的发生或变异机制的总体认识。根据与每一个关键词相关的基因的数目以及该关键词与相关基因关联的程度,用户可以推断当前待查基因主要与哪些关键词相关,从而在总体上判断当前生物功能主要与哪些元索相关,以及哪些元素的变异可以导致功能的变异。3)预测新的当前生物功能相关基因。用户可以根据待查基因与当前生物功能的主要关键词的关联程度来预测新的功能相关基因。如果某个基因与当前生物功能的大多数主要关键词相关,唯独与表征当前研究对象的关键词不相关,则可以预测该基因是新的当前生物功能相关基因。例如,实验发现TIAM1基因在大肠癌转移中异常表达,而聚类分析发现TIAM1基因与关键词“癌”和“转移”相关,唯独与关键词“大肠”不相关,则可以推测TIAM1基因是新的大肠癌转移相关基因。
6.基因一多词的文献搜索(基因相关文献的二次检索,参见图8)
由于经聚类分析预测出若干新的当前生物功能相关基因时,需要文献支持,然而只有通过阅读这些文献,才能明确它们的关系。因此,本发明采用含有特定基因与多个关键词的文献检索的方法进行二次检索,以准确地检索出与特定功能相关的基因信息。该方法如下所述:
系统产生一交互式可编辑二次检索列表(界面见图15),在该表中可进行下列编辑和处理:1)选择基因。读取待查的基因列表,在一个下拉框中显示,供用户选择感兴趣的基因(只能选择一个)。2)选择关键词。读取关键词列表,在四个下拉框中显示,供用户选择感兴趣的关键词(可以同时选择四个关键词)。3)检索关键词。获取所选择基因相关文献对应的多行字段转换成单行字段的结果文件(简称单行文件)和纯粹由提取的摘要行组成的文件(简称摘要文件)。以数字加冒号开头且行的长度小于120个字符为标志判断单行文件中每一个文献记录的开头行(即出处行),将单行文件读到一个二维数组A中;数组A的第一维代表文献记录,第二维代表记录中的不同字段行。读取摘要文件的每一行。判断其中是否同时含有所选择的关键词。判断是否含有一个关键词的依据是:含有任意一个该关键词的同义词。而判断是否含有一个同义词时,如果该同义词允许单复数,则只需出现该同义词的单数或复数形式。如果一个摘要行同时含有所选择的关键词,则在二维数组A中搜索与该摘要行匹配的字段行,记下该字段行所在记录的所有字段行。4)文献显示。将记录下来的所有字段行以逐行相加的方式保存到一个字符串变量V1中。用一个可显示颜色的文本框来显示V1的内容。然后进行以下处理:(1)V1进行字符处理。所有非字母且非数字字符用空格取代;将所有字母转换成大写。(2)显示基因。从基因名称字符串库中获取所选择基因的所有名称字符串,分别检索是否在V1中存在。如果某个名称字符串在V1中存在,则记录其位置和该字符串的长度L;然后将文本框中相应位置开始的L个字符转换成亮红色。(3)显示关键词。分别获取四个关键词的所有同义词,如果某个同义词允许单复数,则再加上它的以“s”结尾的复数形式。同义词进行与V1相同的字符处理:所有非字母且非数字字符用空格取代;将所有字母转换成大写。然后,检索它们是否在V1中存在。如果某个同义词在V1中存在,则记录其位置和该同义词的长度L;然后将文本框中相应位置开始的L个字符转换成彩色(第一个关键词为亮蓝色,第二个为亮品红色,第三个为亮绿色,第四个为亮青色)。5)保存结果。用户可以将检索到的文献保存到一个指定的文件中。
二次检索列表(界面如图15所示),包括一个对话框、一个文本框和两个按钮。分述如下:
对话框中包含一个基因名称(“Gene”)组合框和四个关键词(“Keywords”)组合框。用户可以分别在这两种组合框中选择感兴趣的基因和关键词。
文本框(“Information”)用来显示检索到的文献。
两个按钮分别是显示(“Display”)按钮和保存(“Save”)按钮。用户选择好感兴趣的基因和关键词后,点击显示按钮,则文本框显示出检索到的文献。点击保存按钮,则将检索到的文献保存到用户指定的文件中。
为了公众充分了解利用本发明所建成系统的主要功能以及操作要领,下面结合附图简单介绍一下系统主界面。
本发明所述的特定功能相关基因检索系统(Gene Specialized Finder,GSPFinder)可在现有的各种视窗平台上使用。为了方便使用,本系统将各功能单元集中显示在如图16所示的主界面上,该主界面上包括8个按钮、一个文本框和一个对话框,分述如下:
8个按钮分别是:基因相关文献的自动检索(“Genes”)按钮、词频自动分析和关键词自动提取(“Frequency”)按钮、关键词专业处理(“Keywords”)按钮、词频列表输出(“Array”)按钮、基因-多词的文献搜索(二次检索)的显示(“Display”)按钮和保存(“Save”)按钮、帮助(“Help”)按钮和退出(“Exit”)按钮。
文本框(“Information”)用来显示当前的状态、进程:当做基因-多词的文献搜索(二次检索)时,用来显示检索到的文献。
对话框即基因-多词的文献搜索的对话框。图15实际上是从图16分解出来的,是图16的一部分。例5(动物特定功能相关基因信息的检索):
检索动物特定功能相关基因信息硬件系统的连接及组成和整个检索过程与方法、步骤与检索人类特定功能相关基因信息完全相同,可参照例4进行。下面以小鼠为例简要地介绍一下检索过程和检索结果。
为了探讨肿瘤细胞的恶性表型可以通过核移植逆转的机制,我们将小鼠恶性黑色素瘤细胞的细胞核移植到去核的健康小鼠的卵母细胞中,获得了肿瘤细胞的重组胚,进行体外培养。然后利用cDNA微阵列,对发育到32细胞期的小鼠恶性黑色素瘤细胞的重组胚进行了基因表达谱的分析,并与32细胞期的卵丘细胞重组胚进行了对比,得到244个差异表达基因。然后,利用本系统对这些基因进行分析。选择鼠的基因名称数据库,检索Pubmed共得到233个基因的相关文献150643篇,经过词频分析、关键词的自动获取、关键词的专业处理和基因-词的词频列表的输出后,聚类分析结果显示大多数的基因与胚胎发育相关,一部分还与癌症和重新程序化相关。
例6(微生物特定功能相关基因信息的检索):
检索微生物特定功能相关基因信息硬件系统的连接及组成和整个检索过程与方法、步骤与检索人类特定功能相关基因信息完全相同,可参照例4进行。下面以鼻咽癌中的EB病毒为例简要地介绍一下检索过程和检索结果。
EB病毒的感染是鼻咽癌的发病机制之一。为了探讨其中的机制,我们利用本系统分析EB病毒的全部90个基因。选择EB病毒的基因名称数据库,对所有EB病毒基因增加辅助检索词为EB病毒的物种名称(EBV、EB virus或Epstein-Barr virus等),检索Pubmed共得到80个基因的相关文献11905篇,经过词频分析、关键词的自动获取、关键词的专业处理和基因-词的词频列表的输出后,聚类分析结果显示有9个基因与鼻咽癌相关,分别与鼻咽癌的生长信号的自足、逃避程序性细胞死亡、维持血管生成、组织浸润和转移以及抑制细胞生长等方面相关。
例7(大肠癌转移密切相关的表达基因信息的检索):
为了使公众更好地掌握本发明的使用和操作方法,充分理解本发明所能达到的技术效果,本实施例以具体的大肠癌转移密切相关的表达基因信息的检索为例,描述一下检索过程系统的自动分析过程和检索者的具体操作过程。
本领域的技术人员在大肠癌转移的研究中相继发现了与大肠癌转移密切相关的表达基因51个(见表1)。目前与这51个表达基因相关的文献已超过6万篇,因此几乎没有人可能在短时间内完全了解这51个基因的研究现状,从而阐明它们的关系并发现新的靶标。如何来分析这51个基因的功能关系以及发现新的大肠癌转移相关基因呢?为了解决这个问题,我们采用本发明所述的系统来探索这些基因的功能关系并发现新的大肠癌转移相关基因。本系统的具体分析过程如下:
1.自动获取基因相关文献
具体操作过程如下:1)点击图16的Genes按钮,弹出图13的界面。2)在图13中,点击Add Genes按钮(添加多个基因),弹出一个打开文件对话框。在对话框中选择包含这51个基因的官方缩写和全名(表1)的文本文件。该文本文件的格式要求:每个基因一行;每行中官方缩写在前,全名在后;官方缩写和全名用制表符分开。点击打开文件对话框的确定按钮,则系统读取所选择的文本文件,在基因列表(“Gene List”)中显示这些基因(见图13)。3)用户逐一点击每个基因,在基因名称字符串列表(“SearchTerm for One Gene”)、辅助检索词文本框(“Candidate Second Terms”)和基因原始信息表(“GeneInformation Detail”)中浏览基因信息并编辑检索字符串和辅助检索词。4)在存放基因相关文献的文件夹文本框(“Target”)中选择目标文件夹“D:\colon”。5)然后点击Retrieve按钮开始获取基因的相关文献。结果如图14所示。图中基因列表框(“Gene List”)的“PNum”列显示了检索到的基因相关文献数。6)有些基因的相关文献数用“large”表示,表示该基因的相关文献数超过1000篇,需要用户手工下载。本系统限制超过1000篇文献就由用户手工下载的理由是超过1000篇会有以下问题:(1)可能有很多假阳性,需要用户重新审查检索字符串;(2)自动获取的时间长。当点击Retrieve按钮时,本系统会在目标文件夹“D:\colon”中产生一个genesinformation.gsi文件,文件中记录了每个基因的相关文献获取地址。例如,PIM1基因的地址是:http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=pubmed&cmd=search&term=PIM%201%5BAB%5D%20OR%20Oncogene%20PIM1%5BAB%5D20%OR%20pim%201%20oncogene%5BAB%5D%20OR%20((PIM1%5BAB%5D%20OR%20PIM%5BAB%5D)%20AND%20(oncogene%5BAB%5D%20OR%20proviral%5BAB%5D%20OR%20integration%5BAB%5D)。用户只需将这个地址复制到一个浏览器的地址栏,回车后浏览器显示PubMed检索到的结果;然后选择PubMed的输出格式为“摘要”(′Abstract′)和输出方式为“输出到文件”(‘send to file’),以该基因的官方缩写命名该文件,以文本文件的形式保存到目标文件夹“D:\colon”中。这样总共为这51个基因获取61914篇相关文献,基因相关文献数范围从3篇到7144篇,平均1214篇。
2.词频率的自动分析和关键词的自动提取
具体操作过程如下:1)点击图16的Frequency按钮,弹出一个打开文件对话框。在对话框中选择保存基因相关文献的文本文件所在文件夹“D:\colon”中任意一个文本文件。2)系统首先分析该文件夹中所有文本文件中的词和词频。在目标文件夹“D:\colon”中建立子文件夹“result”。把每个基因的文献篇数记录在一个文本文件“filecount.txt”中,并存放在“result”文件夹中。在文件夹“result”中建立三个子文件夹linemid”、“lineresult”和“wordresult”,用以分别保存所有处理的中间和最终结果(包括:多行字段转换成单行字段的结果文件、纯粹由提取的摘要行组成的文件和词频分析的结果文件)。3)系统然后分析“wordresult”文件夹中所有文本文件中的词和词频,自动提取这51个基因的关键词。其中文献篇数从文本文件“filecount.txt”中读取。最后共获得148个关键词(见表2),以“allkeyword.xls”的文件名保存到“result”文件夹中。
3.关键词的专业处理
具体操作过程如下:1)点击图16的Keywords按钮,弹出一个打开文件对话框。选择目标文件夹“D:\colon\result”中的“allkeyword.xls”文件,点击确定按钮。2)系统读取“allkeyword.xls”文件,弹出图14的界面,在列表中显示这148个关键词。默认情况下,列表框中“Plural”列的值为0;“Weight”列的值为1;“Synonymy”列的值为0。3)通过鼠标点击选中列表中无意义的关键词(例如,“9”、“H”、“N”和“X”,详见表2),再点击Remove按钮删除该关键词。4)点击Add按钮,列表框底部会新增一行,在该行的“Keyword”列添加新关键词。例如,“COLON”。5)在“Plural”列,设置关键词的单复数形式。例如,关键词“CANCER”在“Plural”列的值设为1,表明该关键词允许在文中出现“CANCERS”的形式。6)在“Synonymy”列,用相同的数字定义同义词。例如,关键词“COLORECTAL”和“COLON”在“Synonymy”列的值都为3,表明二者为同义词(表3)。7)给关键词设置权重,例如关键词“INVASION”的权重为10,而关键词“COLORECTAL”的权重为1001(表3)。由于同一类同义词在聚类结果中将由权重最大的关键词表征,所以我们把要用其表征的关键词的权重设为最大。例如,在“COLORECTAL”和“COLON”这类同义词中,“COLORECTAL”的权重要比“COLON”大1(表3)。关键词最后的处理结果如表3所示,剩下15个关键词(27个同义词)。
4.基因-关键词的词频聚类分析
具体操作过程如下:1)点击图16的Array按钮,弹出一个打开文件对话框。选择目标文件夹“D:\colon\result”中的“allkeyword.xls”文件,点击确定按钮。2)系统调出阵列输出装置,读取allkeyword.xls”文件中的关键词及各种设置,再从文件夹“D:\colon\result\wordresult”中读取各个基因中所选关键词的词频,输出基因-关键词的频率列表,以“array.txt”为文件名保存到用户指定的文件夹的“result”子文件夹。3)运行Cluster软件,点击“Load File”按钮,弹出一个打开文件对话框。选择目标文件夹“D:\colon\result”中的“array.txt”文件,点击确定按钮。点击“Hierarchical Clustering”选项中的“Average Linkage Clustering”按钮,则Cluster软件将输出三个文件“array.cdt”、“array.atr”和“array.gtr”到目标文件夹“D:\colon\result”中。4)运行Treeview软件,点击菜单“File->Load”,弹出一个打开文件对话框。选择目标文件夹“D:\colon\result”中的“array.cdt”文件,点击确定按钮。主窗口将显示聚类结果。再点击菜单“Setting->Options”,弹出一对话框,将“Image Contrast”值设为25;再点击“color”选项,选择“Positive”的颜色为亮黄色。主窗口的显示结果将如图17所示。
从图17我们可以得到以下三个信息:1)51个基因中有31个基因与关键词“结肠”(“colorectal”及其同义词)、“癌”(“cancer”及其同义词)和“转移”(“metastasis”及其同义词)明显相关;例如,基因“CDH2”、“VCAM1”和“NCAM1”等。还有8个基因与关键词“结肠”和“癌”强相关而与“转移”弱相关;例如,基因“CD58”和“BCL2”等。大多数的已知大肠癌转移相关基因均被本次实验检测出来,因此说明本次实验的结果是较为可靠的。2)从各个关键词与所有基因的关联程度,我们可以看到这些基因除了与上述三个关键词相关外,主要与关键词“浸润”(“invasion”)、“抑制物”(“suppressor”)、“增生”(“proliferation”)、“黏附”(“adhesion”)、“凋亡”(“apoptosis”)和“细胞周期”(“cycle”)相关,其次与关键词“血管生成”(“angiogenesis”)相关。说明大肠癌的转移机制可能是:(1)肿瘤细胞通过突破细胞周期的控制或者逃避凋亡而异常增生。(2)肿瘤细胞缺乏有效的转移抑制物。(3)肿瘤细胞能破坏细胞间的黏附而便于转移。3)由于我们将关键词“结肠的”(‘colorectal’)及其同义词设置了很高的权重(表3),所以这51个基因按该关键词进行聚类:一类与其相关,另一类与其不相关。在与关键词“结肠的”不相关的这类基因中我们看到:TIAM1基因是唯一明显与“癌”(‘cancer’),“转移”(‘metastasis’)和“侵袭”(‘invasion’)相关的基因。这暗示了TIAM1可能是新的一个大肠癌转移相关基因。
5.基因-多词的文献搜索(二次检索)
具体操作过程如下:1)点击图18的搜索对话框(“Search Dialog”)中的基因(“Gene”)组合框,选择基因“TIAM1”;点击第一个关键词(“Keywords”)组合框,选择关键词“癌”(“CANCER”);点击第二个关键词组合框,选择关键词“转移”(“METASTASIS”)。2)点击图17的显示(“Display”)按钮,则在信息(“Information”)文本框中显示所检索到的文献共6篇(见图18)。3)点击图18的保存(“Save”)按钮,弹出一保存文件对话框,根据所选择的文件夹为“D:\colon”,则默认的保存路径和文件名为“D:\colon\result\TIAM1-CANCER-METASTASIS.rtf”,点击确定则在指定的路径保存为指定的文件名。4)阅读这六篇文献的摘要,发现TIAM1正常主要在大脑和睾丸中表达,而在多种肿瘤细胞株(包括癌细胞株)中表达;TIAM1可以促进乳腺癌转移;而在本实验中TIAM1也在转移的大肠癌中高表达(见表1)。另外,还发现TIAM1与另一个肿瘤转移抑制物NME1相互作用,NME1也在本实验中异常表达(见表1)而且明显与关键词“结肠的”、“癌”和“转移”相关(见图18)。5)我们进一步在NME1的相关摘要(共1101篇)中搜索同时出现关键词“结肠的”、“癌”和“转移”及其同义词的摘要,共得到70篇摘要。这些摘要明显表明了NME1基因的下调表达与大肠癌的转移相关;本实验也显示NME1在转移的大肠癌中低表达(见表1)。所有以上这些信息强烈提示了TIAM1可能通过与NME1相互作用而影响大肠癌的转移,因此TIAM1是一个新的大肠癌转移相关基因。令人兴奋的是,最近Liu等人和Minard等人证实了这个预测。
例8(病理性疤痕与正常皮肤差异表达的基因和表达序列标记ESTs的分析)
我们进一步用本发明分析了另一组在病理性疤痕(包括增生性疤痕和瘢痕疙瘩)与正常皮肤差异表达的基因和表达序列标记ESTs(共205个)。结果174个基因可以获取到相关文献,分析这些文献共得到453个潜在关键词,经过专业处理后剩下30个关键词(包括73个同义词),其中关键词“瘢痕疙瘩”(‘keloid’),“过渡增生”(‘hypertrophic’)和“瘢痕”(‘scar’)是通过关键词专业处理装置添加的,而且关键词“瘢痕疙瘩”(‘keloid’)、“胶原”(‘collagen’)和“缺氧”(‘hypoxia’)设置了很高的权重(见表4),因为最新的理论认为疤痕疙瘩可能是缺氧条件下纤维细胞过渡增生引起的。
根据关键词在各个基因中的词频和各自参数设置输出关键词-基因的词频阵列,聚类分析结果如图19所示。图中可见大多数基因都与关键词“成纤维细胞”(‘fibroblast’)和“增生”(‘proliferation’)相关(如图19a的框1和图19b所示)而且许多已知与病理性疤痕相关的胶原相关基因聚成一类(如图19a的框2和图19c所示)。我们还发现了一组与缺氧(‘hypoxia’)相关的基因,其中HIF1A基因还与瘢痕疙瘩(‘keloid’)相关(如图19a的框4和图19d所示)。因此,我们在HIF1A的相关摘要中搜索出现关键词瘢痕疙瘩(‘keloid’)的摘要,得到2篇。这两篇摘要显示缺氧激活的HIF1A可以诱导PAI-1的表达是导致疤痕疙瘩的重要原因,因此HIF1A可能是调节瘢痕纤维化过程的治疗靶点。在这组基因中,我们还发现Cited2基因与关键词“成纤维细胞”(‘fibroblast’)和“增生”(‘proliferation’)相关,因此我们搜索对应的文献,得到2篇。摘要显示缺氧条件下Cited2在成纤维细胞中是HIF1A阴性调节物,而本实验中Cited2在病理性瘢痕中低表达而HIF1A高表达(数据未给出),因此基因Cited2和HIF1A值得进一步研究。
                                                  表1  大肠癌转移差异表达基因
                                    上调基因                                                           下调基因
Symbol  Gene name Symbol  Gene name
MAPK4NMIMYCBPMTA1CDH2TACSTD1MMP9ECGF1CCND1BCL2IL6PIM2GAMAPYAP65S100BRASA1RETFGF4ETS2PIM1TIAM1MET  mitogen-activated protein kinase 4N-myc(and STAT)inteactorc-myc binding proteinmetastasis associated 1cadherin 2,type 1,N-cadherintumor-associated calcium signal transducer 1matrix metalloproteinase 9endothelial cell growth factor 1cyclin D1B-cell CLL/lymphoma 2interleukin 6pim-2 oncogeneGPI-anchored mrnetastasis-associated protein homologYAP65S100 calcium binding protein,betaPAS p21 protein activator 1ret proto-oncogenefibroblast growth factor 4v-ets erythroblastosis virus E26 oncogene homolog 2pim-1 oncogeneT-cell lymphoma invasion and metastasis 1met proto-oncogene(hepatocyte growth factorreceptor)  IL1BNCAM1CD58TP53RB1DCCTHBS1LGALS3CD44VCAM1SELEE2F3ITGB1ITGAVPECAM1ICAM2SELPITM2ASCAMP3LAMP1CSPG6SERPINB2PPP1R15ACASP1NME3NME1CLDN1TIMP1BAI2   interleukin 1,betaneural cell adhesion molecule 1CD58 antigentumor protein p53retinoblastoma 1deleted in colorectal carcinomathrombospondin 1lectin,galactoside-binding,soluble,3CD44 antigenvascular cell adhesion molecule 1selectin EE2F transcription factor 3integrin,beta 1integrin,alpha Vplatelet/endothelial cell adhesion moleculeintercellular adhesion molecule 2selectin Pinttegral membrane protein 2Asecretory carrier membrane protein 3lysosomal-associated membrane protein 1chondroitin sulfate proteoglycan 6serine or cysteine proteinase inhibitor,clade Bmember 2protein phosphatase 1,regulatory(inhibitor)subunit15Acaspase 1,apoptosis-related cysteine proteasenon-metastatic cells 3non-metastatic cells 1claudin 1tissue inhibitor of metalloproteinase 1brain-specific angiogenesis inhibitor 2
             表2.对51个大肠癌转移差异表达基因自动发现的潜在关键词
Keywords Keywords  Keywords Keywords Keywords  Keywords
9HNXH121ILML13RBG1MABGTPMMPMYCIFNP53PCREASBCLTNFLFANM23NODELOSS ICAMPIM1BETACD54TIMETIMPANTIVCAMWILDLIKEGROUPPROTOMOTIFBLOODSERUMSTAGECYCLEDEATHLYMPHCASESGLIALPHASEMURINEBREASTGTPASE  SERINENEURALCYCLINSTRESSTARGETMARKERMATRIXCANCERTUMORSLIGANDHYBRIDPLASMASUBUNITDERIVEDLIBRARYMETHODSCALCIUMANTIGENCULTUREKINASESLAMININCYTOKINENECROSISSELECTINNEGATIVE ADHESIONMEASUREDSTAININGINTEGRINONCOGENESURVIVALINVASIONTERMINALCLINICALMOLECULECOLLAGENLYMPHOMATYROSINEVASCULARPLATELETPOSITIVELEUKEMIACARCINOMASYNTHESISMPOPTOSISAPOPTOTICTHREONINELEUKOCYTEACTIVATORMIGRATION ACTIVATEDINDUCIBLEINDUCTIONINHIBITORCOMPLEXESHOMOLOGUECOLORECTALANGIOGENICSUPPRESSORMETASTASISMETASTATICPRODUCTIONPROGNOSTICEPITHELIALMICROSCOPYEPITHELIUMRESISTANCELYMPHOCYTEEUKARYOTICCONCLUSIONMONOCLONALCORRELATEDSTIMULATEDSTIMULATIONPLASMINOGEN  INTERLEUKINDEGRADATIONCORRELATIONENDOTHELIALPROGRESSIONFIBRONECTINENDOTHELIUMINFLAMMATIONINFLAMMATORYANGIOGENESISGLYCOPROTEININTERACTIONSTRANSDUCTIONPROLIFERATIONINTERCELLULARPHOSPHORYLATEDOVEREXPRESSIONRETINOBLASTOMACONCENTRATIONSPHOSPHORYLATIONMETALLOPROTEINASEIMMUNOHISTOCHEMICAL
                      表3 手工处理后51个大肠癌转移差异表达基因的相关关键词
  Keywords   Plural   Weight   Synonym     Keywords   Plural   Weight   Synonym
  INVASIONPROLIFERATIONADHESIONONCOGENEMETASTASISMETASTATICMIGRATIONCANCERCARCINOMATUMORSCOLORECTALCOLONCYCLECYCLIN     00000001100000     10551111041110101001100065     00001112223344   INFLAMMATIONINFLAMMATORYSUPPRESSORINHIBITORLEUKEMIALYMPHOMAEPITHELIALEPITHELIUMANGIOGENESISANGIOGENICAPOPTOSISAPOPTOTICDEATH     0001010000000     1165211165652     667788991010111111
                    表4.手工处理后174个病理性瘢痕差异表达基因的相关关键词
    Keywords   Plural   Weight  Synonym     Keywords   Plural   Weight  Synonym
SCARKELOIDFIBROBLASTPROLIFERATIONHYPERTROPHICCONGENITALEPITHELIALSKINEPITHELIUMEPIDERMISEPITHELIAEPIDERMALLEUKEMIASCARLYMPHOMACADHERINANNEXINCALCIUMCALCINEURINCAPINFLAMMATIONINFECTIONINFLAMMATORYANGIOGENESISANGIOGENICENDOTHELIALVASCULARCANCERCARCINOMATUMORSPARANEOPLASTIC     1110000000000100000000000001100     1001001010101555555110012111142155115553     0000001111112023333344455556666  SUBSTRATEMETALLOTHIONEINBASEMENTHYPOXIAHYPOXICANTIOXIDANTHIFOXYGENIMMUNEIMMUNOSUPPRESSIVEKERATINOCYTEKERATINCYTOKERATINCYTOSKELETONCATENINAPOPTOSISAPOPTOTICDEATHCYCLECYCLICCYCLING1MITOGENCOLLAGENPROCOLLAGENCYTOKINECTGFTNFVEGFTGF     110000000011000000000001010000     31110911121111325425422110521111     8889999910101212121414161616181818181819192020202020

Claims (5)

1、一种定功能相关基因信息检索系统,该系统包括一具有输入和显示终端的计算机、一网络服务器、公共生物医学文献数据库和公共基因名称数据库以及聚类分析单元,其特征在于还包括由基因名称数据库、词频基值数据库、字符串数据库和辅助检索词数据库组成的文献检索词数据库和
一待查基因相关文献检索单元,该单元
根据所输入的待查基因的官方缩写,从构建的文献检索词数据库中获取所有对应名称字符串和辅助检索词并进行编辑,依据文献检索词数据库中的原始信息,去除容易引起假阳性的名称字符串和辅助检索词,添加遗漏的名称字符串和辅助检索词,
然后从公共生物医学文献数据库中检索包含有这些名称字符串和辅助检索词的文献记录并保存到指定的文件夹中;
一待查基因词频分析单元,该单元先提取检索到的每篇文献记录的摘要字段,然后提取摘要字段中的每个词,用出现其中一个词的文献的数量除以该基因的相关文献总数,逐一计算出这些词在待查基因相关文献中的出现频率,即待查基因词频;
一关键词提取单元,该单元将待查基因词频与词频基值数据库中的同一词汇的基值进行比较判别,删除基值高于1%~10%的词和待查基因词频值阈或者待查基因词频与词频基值的差值低于m=t+(k/n)×100%的词,然后挑选至少被两个基因所共有的词作为待查基因的关键词并保存记录;
一关键词专业处理单元,该单元产生一个可编辑列表,在该列表中可进行关键词添加或删除、关键词单复数形式设置、关键词的权重设置和关键词的同义词为单一实体的设置以及编辑记录的保存;
一词频列表建立、输出单元,该单元从词频分析单元计算出的词频中获取关键词在各个基因的相关文献中的词频,先将关键词的单数和复数形式的词频平均,得到关键词的词频,再乘以词频的权重,然后平均同一类同义词实体的关键词的词频,作为该同义词实体的词频,建立词频列表,最后输出聚类分析软件格式的所有关键词在各个基因的相关文献中的发生频率的词频列表,由所述的聚类分析装置对该词频列表文件中数据进行聚类分析并显示所得到的特定功能相关基因信息。
2、根据权利要求1所述的一种与特定功能相关的基因信息检索系统,其特征在于还包括基因相关文献的二次检索单元,该单元根据通过聚类分析并所得到的特定功能相关的基因信息,
选择待查基因和多个与待查基因相对应的关键词:
搜索并显示所选待查基因相关文献中含有所选多个关键词及其同义词的文献;
保存搜索结果。
3、根据权利要求1或2所述的与特定功能相关的基因信息检索系统,其特征在于所述的关键词提取单元将待查基因词频与词频基值数据库中的同一词汇的基值进行比较判别,删除基值高于5%~10%的词和待查基因词频值阈低于m=15%+(1.5/n)×100%的词,然后挑选至少被两个基因所共有的词作为待查基因的关键词并保存记录。
4、一种构建用于权利要求1或2所述的与特定功能相关的基因信息检索系统的文献检索词数据库的方法,该方法利用一具有输入和显示终端的计算机通过一网络服务器进入公共基因信息数据库,其特征在于包括下列步骤:
1)从中提取每一个基因不重复的全名、缩写、别名和产物名称并以官方缩写为标记建立新的基因记录,形成基因名称数据库;
2)先从已知基因中随机抽取并输入大于或等于200个与待查基因属于同一物种的基因,再从所形成的基因名称数据库中调用随机基因所对应的新的基因记录进行编辑,依据基因名称数据库中的原始信息,设置名称字符串和辅助检索词;
然后从公共生物医学文献数据库中检索包含有这些名称字符串和辅助检索词的文献记录并保存到指定的文件夹中;
接着提取检索到的每篇文献记录的摘要字段,然后提取摘要字段中的每个词,用出现其中一个词的文献的数量除以一个随机基因的相关文献总数,逐一计算出这些词在一个随机基因的相关文献中的出现频率,然后求和,再除以随机基因的数目,求出这些词在一个随机基因的相关文献中的出现平均频率,即基值,形成一词频基值数据库;
3)调用基因名称数据库中新的基因记录建立字符串数据库或辅助检索词数据库,其中所述的字符串数据库按下列步骤建立:
a、字符处理:删除名称中括号里的内容,将非字母且非数字的字符用其它符号代替,
b、添加基因家族成员缩写的变化形式:当缩写中有空格,删除空格产生新的缩写形式,当缩写的最后一个字符是数字,则在反向搜索到第一个非数字的字符处插入一个空格产生新的缩写形式,
c、删除小于2~4个字符的基因名称,
d、删除属于公共词的非基因名称,
e、删除属于英语单词的非基因名称,
f、输出基因名称字符串,建立字符串数据库;
所述的辅助检索词数据库由下列步骤建立:
a、提取每个基因所有全名和产物名称中的所有词,
b、删除长度小于4~6个字符而且与基因名称同名的候选辅助词,
c、删除属于公共词的词,
d、输出结果建立基因的辅助检索词数据库。
5、根据权利要求4所述的一种构建用于与特定功能相关的基因信息检索系统的文献检索词数据库的方法,其特征在于从基因名称数据库中随机调用的新的基因记录所对应的随机基因的数目为250个。
CNB2005100375268A 2005-09-27 2005-09-27 一种与特定功能相关的基因信息检索系统及用于该系统的检索词数据库的构建方法 Expired - Fee Related CN100343852C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2005100375268A CN100343852C (zh) 2005-09-27 2005-09-27 一种与特定功能相关的基因信息检索系统及用于该系统的检索词数据库的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2005100375268A CN100343852C (zh) 2005-09-27 2005-09-27 一种与特定功能相关的基因信息检索系统及用于该系统的检索词数据库的构建方法

Publications (2)

Publication Number Publication Date
CN1744080A true CN1744080A (zh) 2006-03-08
CN100343852C CN100343852C (zh) 2007-10-17

Family

ID=36139456

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100375268A Expired - Fee Related CN100343852C (zh) 2005-09-27 2005-09-27 一种与特定功能相关的基因信息检索系统及用于该系统的检索词数据库的构建方法

Country Status (1)

Country Link
CN (1) CN100343852C (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011109921A1 (en) * 2010-03-12 2011-09-15 Telefonaktiebolaget L M Ericsson (Publ) System and method for matching entities and synonym group organizer used therein
CN102270208A (zh) * 2010-06-29 2011-12-07 上海聚类生物科技有限公司 一种构建基因相互作用网络的方法
CN102456101A (zh) * 2010-10-22 2012-05-16 三星Sds株式会社 遗传信息管理系统及方法
CN102792298A (zh) * 2010-01-13 2012-11-21 起元技术有限责任公司 使用特征化匹配的规则来匹配元数据源
CN102902711A (zh) * 2012-08-09 2013-01-30 刘莎 一种语用关键词通用模板的生成、应用方法与装置
CN103477318A (zh) * 2010-11-25 2013-12-25 便携基因组公司 基因组数据在电子装置上的组织、可视化及利用
CN104182450A (zh) * 2013-05-20 2014-12-03 株式会社日立制作所 信息结构化系统
CN106295252A (zh) * 2016-08-18 2017-01-04 杭州布理岚柏科技有限公司 用于基因产品的检索方法
CN106462337A (zh) * 2014-02-13 2017-02-22 Illumina公司 综合式消费者基因组服务
CN108428137A (zh) * 2017-02-14 2018-08-21 阿里巴巴集团控股有限公司 生成简称、校验电子金融业务合法性的方法及装置
CN109493978A (zh) * 2018-11-12 2019-03-19 北京懿医云科技有限公司 疾病研究热点挖掘方法及装置、存储介质、电子设备
CN110349632A (zh) * 2019-06-28 2019-10-18 广州序科码生物技术有限责任公司 一种从PubMed文献筛选基因关键词的方法
CN112667781A (zh) * 2020-12-31 2021-04-16 北京万方数据股份有限公司 一种恶性肿瘤文献获取方法及装置
CN113921082A (zh) * 2021-10-27 2022-01-11 云舟生物科技(广州)有限公司 基因搜索权重调整方法、计算机存储介质及电子设备
CN114270450A (zh) * 2019-06-10 2022-04-01 株式会社岛津制作所 文献信息提供方法以及程序
CN116796750A (zh) * 2023-08-24 2023-09-22 宁波甬恒瑶瑶智能科技有限公司 一种基于ner模型基因文献信息提取方法、系统及存储介质

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9031895B2 (en) 2010-01-13 2015-05-12 Ab Initio Technology Llc Matching metadata sources using rules for characterizing matches
CN102792298A (zh) * 2010-01-13 2012-11-21 起元技术有限责任公司 使用特征化匹配的规则来匹配元数据源
CN102792298B (zh) * 2010-01-13 2017-03-29 起元技术有限责任公司 使用特征化匹配的规则来匹配元数据源
US8949227B2 (en) 2010-03-12 2015-02-03 Telefonaktiebolaget L M Ericsson (Publ) System and method for matching entities and synonym group organizer used therein
CN102906736A (zh) * 2010-03-12 2013-01-30 爱立信(中国)通信有限公司 用于匹配实体的系统和方法及其中使用的同义词群组织器
WO2011109921A1 (en) * 2010-03-12 2011-09-15 Telefonaktiebolaget L M Ericsson (Publ) System and method for matching entities and synonym group organizer used therein
CN102270208A (zh) * 2010-06-29 2011-12-07 上海聚类生物科技有限公司 一种构建基因相互作用网络的方法
CN102456101A (zh) * 2010-10-22 2012-05-16 三星Sds株式会社 遗传信息管理系统及方法
CN102456101B (zh) * 2010-10-22 2015-07-08 三星Sds株式会社 遗传信息管理系统及方法
CN103477318A (zh) * 2010-11-25 2013-12-25 便携基因组公司 基因组数据在电子装置上的组织、可视化及利用
US9384321B2 (en) 2010-11-25 2016-07-05 Portable Genomics, Inc. Organization, visualization and utilization of genomic data on electronic devices
CN103477318B (zh) * 2010-11-25 2019-01-29 便携基因组公司 基因组数据在电子装置上的组织、可视化及利用
CN102902711A (zh) * 2012-08-09 2013-01-30 刘莎 一种语用关键词通用模板的生成、应用方法与装置
CN102902711B (zh) * 2012-08-09 2016-03-09 刘莎 一种语用关键词通用模版的生成、应用方法与装置
CN104182450A (zh) * 2013-05-20 2014-12-03 株式会社日立制作所 信息结构化系统
CN106462337A (zh) * 2014-02-13 2017-02-22 Illumina公司 综合式消费者基因组服务
US10438244B2 (en) 2014-02-13 2019-10-08 Illumina, Inc. Integrated consumer genomic services
US11556958B2 (en) 2014-02-13 2023-01-17 Illumina, Inc. Integrated consumer genomic services
CN106462337B (zh) * 2014-02-13 2019-11-01 Illumina公司 综合式消费者基因组服务
CN106295252B (zh) * 2016-08-18 2019-05-07 杭州布理岚柏科技有限公司 用于基因产品的检索方法
CN106295252A (zh) * 2016-08-18 2017-01-04 杭州布理岚柏科技有限公司 用于基因产品的检索方法
CN108428137A (zh) * 2017-02-14 2018-08-21 阿里巴巴集团控股有限公司 生成简称、校验电子金融业务合法性的方法及装置
CN109493978A (zh) * 2018-11-12 2019-03-19 北京懿医云科技有限公司 疾病研究热点挖掘方法及装置、存储介质、电子设备
CN109493978B (zh) * 2018-11-12 2021-05-25 北京懿医云科技有限公司 疾病研究热点挖掘方法及装置、存储介质、电子设备
CN114270450A (zh) * 2019-06-10 2022-04-01 株式会社岛津制作所 文献信息提供方法以及程序
CN110349632A (zh) * 2019-06-28 2019-10-18 广州序科码生物技术有限责任公司 一种从PubMed文献筛选基因关键词的方法
CN110349632B (zh) * 2019-06-28 2020-06-16 南方医科大学 一种从PubMed文献筛选基因关键词的方法
CN112667781A (zh) * 2020-12-31 2021-04-16 北京万方数据股份有限公司 一种恶性肿瘤文献获取方法及装置
CN113921082A (zh) * 2021-10-27 2022-01-11 云舟生物科技(广州)有限公司 基因搜索权重调整方法、计算机存储介质及电子设备
CN116796750A (zh) * 2023-08-24 2023-09-22 宁波甬恒瑶瑶智能科技有限公司 一种基于ner模型基因文献信息提取方法、系统及存储介质
CN116796750B (zh) * 2023-08-24 2023-11-10 宁波甬恒瑶瑶智能科技有限公司 一种基于ner模型基因文献信息提取方法、系统及存储介质

Also Published As

Publication number Publication date
CN100343852C (zh) 2007-10-17

Similar Documents

Publication Publication Date Title
CN100343852C (zh) 一种与特定功能相关的基因信息检索系统及用于该系统的检索词数据库的构建方法
Bastian et al. The Bgee suite: integrated curated expression atlas and comparative transcriptomics in animals
Bornstein et al. Single-cell mapping of the thymic stroma identifies IL-25-producing tuft epithelial cells
US11043304B2 (en) Systems and methods for using sequencing data for pathogen detection
Der et al. Single cell RNA sequencing to dissect the molecular heterogeneity in lupus nephritis
Dybkær et al. Diffuse large B-cell lymphoma classification system that associates normal B-cell subset phenotypes with prognosis
Maas et al. Cutting edge: molecular portrait of human autoimmune disease
Bleharski et al. Use of genetic profiling in leprosy to discriminate clinical forms of the disease
Bomprezzi et al. Gene expression profile in multiple sclerosis patients and healthy controls: identifying pathways relevant to disease
Culhane et al. GeneSigDB—a curated database of gene expression signatures
Wang et al. Single-cell RNA sequencing reveals the sustained immune cell dysfunction in the pathogenesis of sepsis secondary to bacterial pneumonia
US20070238094A1 (en) Diagnosis, prognosis and monitoring of disease progression of systemic lupus erythematosus through blood leukocyte microarray analysis
CN1145098A (zh) 基因转录物比较分析
Li et al. The association between Foxp3 polymorphisms and risk of graves' disease: A systematic review and meta-analysis of observational studies
Elsink et al. Implementation of early next-generation sequencing for inborn errors of immunity: a prospective observational cohort study of diagnostic yield and clinical implications in Dutch genome diagnostic centers
Ammons et al. A single-cell RNA sequencing atlas of circulating leukocytes from healthy and osteosarcoma affected dogs
Kato et al. Cancer gene expression database (CGED): a database for gene expression profiling with accompanying clinical information of human cancer tissues
Weirick et al. Logic programming to infer complex RNA expression patterns from RNA-seq data
Moreland et al. The Mnemiopsis Genome Project Portal: integrating new gene expression resources and improving data visualization
Yang et al. Platform-independent approach for cancer detection from gene expression profiles of peripheral blood cells
Coccaro et al. Feasibility of optical genome mapping in cytogenetic diagnostics of hematological neoplasms: a new way to look at DNA
Ladanyi et al. Expression profiling of human tumors: the end of surgical pathology?
Quéré et al. Mining SAGE data allows large-scale, sensitive screening of antisense transcript expression
Pant et al. Monocytes in type 1 diabetes families exhibit high cytolytic activity and subset abundances that correlate with clinical progression
Lee et al. How should biobanks prioritize and diversify biosample collections? A 40-year scientific publication trend analysis by the type of biosample

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20071017

Termination date: 20100927