CN101151615A - 用于收集与生物分子和疾病之间的关系相关的证据的系统和方法 - Google Patents
用于收集与生物分子和疾病之间的关系相关的证据的系统和方法 Download PDFInfo
- Publication number
- CN101151615A CN101151615A CNA2006800103618A CN200680010361A CN101151615A CN 101151615 A CN101151615 A CN 101151615A CN A2006800103618 A CNA2006800103618 A CN A2006800103618A CN 200680010361 A CN200680010361 A CN 200680010361A CN 101151615 A CN101151615 A CN 101151615A
- Authority
- CN
- China
- Prior art keywords
- guest
- evidence
- main body
- tlv triple
- hierarchical structure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/10—Signal processing, e.g. from mass spectrometry [MS] or from PCR
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/10—Ontologies; Annotations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Bioethics (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Molecular Biology (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Machine Translation (AREA)
Abstract
一种用于收集与生物分子和疾病或其他医学条件之间的关系相关的证据的系统和方法,其中生成(或输入到处理系统)与所识别的疾病或条件相关联的生物分子、以及与生物分子、疾病或条件、以及它们之间的谓体关系有关的本体。通过处理这些本体来构建三元组即主体/谓体/宾体,其例如为,生物分子/关系/疾病。使用三元组来搜索相关证据群,以基于三元组从相关数据群中提取相关数据。使用本发明的系统和方法来向分子诊断领域的研究者提供生物证据以用于或反对统计预测。
Description
技术领域
本发明总体上涉及生物信息领域,尤其涉及用于收集与生物分子和疾病或其他临床条件之间的关系相关的证据的系统和方法。
背景技术
人类肿瘤中的分子变化特性的发展给生物医学研究组织带来主要的挑战。这些“分子签名”意图重新定义肿瘤分类,以从基于形态学的分类方案转到基于分子的分类方案。结果,研究者已利用大量的、有关生物分子以及它们与疾病的关系的信息来丰富生物医学文献。生物分子是自然地存在于活的有机体中的分子。
已知使用统计学方法(例如,神经网络)来识别可能与某种疾病有关的潜在生物分子组。为了验证(或检查合理性)统计模式发现试验的结果,一般进行文献搜索来确定哪些其他研究者了解生物分子和具体疾病之间的潜在关系。
PCT专利公布WO 02/099725公开了用于处理生物数据库和/或化学数据库的系统、方法和计算机程序。根据此公布,通过获得每个生物/化学数据库的实体关系模型来集成生物/化学数据库,并且识别至少两个生物/化学数据库中的实体关系模型中的相关实体。链接所识别的相关实体中的至少两个,以便创建集成多个生物数据库的实体关系模型。集成生物/化学数据库的实体关系模型提供了集成由独立的生物/化学数据库代表的不同本体(ontology)的本体网络。通过响应于查询而浏览实体关系模型,可获得生物分子和疾病或其他临床条件之间的关系。
本体是形式性和声明性的表示方式,其包括:用于指示主体领域中的术语的词汇(或名称);以及描述术语是什么、它们如何相互关联以及它们如何能相互关联或不关联的逻辑语句。本体提供了用于表示和交流关于某些主体的知识的词汇,以及在词汇中的术语之间所保留的关系集,例如层次、网络或一些其他关系。
与执行在WO 02/099725中公开的搜索相关联的一个问题是搜索限于具有可获得的实体关系模型的数据库。该搜索的另一缺陷是将新数据库添加到“发现空间”中需要应用集成新旧数据库的算法。结果,需要专家来实现集成数据库的算法。
诸如医学文献的数据库之类的数据库的人工搜索是耗时且烦闷的。对执行人工搜索的烦闷的一种解决方法是使用Infobot(信息爬虫)来进行搜索。Infobot连接到因特网中继聊天(IRC)服务器,潜在地加入某些通道并集聚被认为是事实的东西(factoid),即,在杂志或报纸中出现之前还未存在的事实、或真实但经常无价值或不重要的信息小片断。在因特网上,Infobot是用于搜索的程序(即,网络蜘蛛(spider)或爬虫(crawler))。它们访问网站、检索文档并跟随它们中的所有超链接,并生成由搜索引擎访问的目录。对于执行搜索,必须清晰地定义由Infobot所使用的搜索/查询准则。否则,Infobot将检索到大量不相关的参考信息,而绕过许多相关的参考信息。
发明内容
本发明是用于收集与生物分子和疾病或其他医学条件之间的关系相关的证据的系统和方法。生物分子的存在指示人对于特定疾病的患病倾向。执行分析以识别出具体的生物分子组,用来确定患者是否具有特定疾病。
访问公共可用本体的数据库来生成主体的单独本体。查询公共可用本体来生成生物分子本体,其包含生物分子表达式的网络。本体是形式性和声明性的表示方式,其包括:用于指示主体区域中的术语的词汇(或名称);以及描述术语是什么、它们如何相互关联以及它们如何能相互关联或不关联的逻辑语句。本体提供了用于表示和交流关于某些主体的知识的词汇,以及在词汇中的术语之间保留的关系集,例如层次、网络或一些其他关系。
通过查询公共可用的本体来生成疾病、病症、症候群、异常或其他医学问题的本体。疾病的本体可包括表现方式的层次和这些表现方式的同义词。
生成了用于生物分子和疾病之间的谓体(即,关系)的本体。用于谓体的本体提供了对可以存在于“宾体”和“宾体”团体之间的概念和关系的描述。在此情况下,宾体是正被研究的具体疾病。谓体处理收集证据(即,与疾病相关联的生物分子)的原因。谓体可对因果关系进行编码,或对记载生物分子和具体疾病之间的关联的链接关系进行编码。经编码的关系对于在已断定因果关系时收集证据是很有用的,而经编码的链接关系在未完全理解该关系时是很有用的。
一旦开发了三个本体(即,三元组),则将该三元组用于对医学文献数据库执行自然语言解析,以定位与手头的主体(即,生物分子-疾病关系)有关的文章的位置。一旦定位和聚集了相关的医学文章,则将结果提供给研究者,研究者利用已知的图形用户界面(GUI)来辅助解释所生成的结果。
本发明消除了对人工确定医学文章与具体疾病的生物关系的需要。结果,研究者可将更多的时间用于发现具体疾病和生物分子之间的新关系。此外,防止研究者继续那些提供不确定结果的方向。结果,增加了整体效率。
根据结合附图考虑的以下详细描述,本发明的其他目的和特征将变得更清楚。然而,应理解,附图仅仅被设计为例示目的,而不是对本发明的界限的限定,本发明的界限应参照所附的权利要求。还应理解,附图不必绘制为按比例的,并且除非另外指明,否则它们仅仅是意图概念性地例示在此描述的结构和过程。
附图说明
根据下面参照附图给出的本发明的优选实施例的详细描述,本发明的前述和其他优点及特征将变得更清楚,附图中:
图1是说明根据本发明的方法导出的、在生物分子和疾病之间的关系的示例图;
图2是说明根据本发明、用于收集与生物分子和疾病之间的关系相关的证据的系统的示意框图;
图3是说明根据本发明得到的搜索的不同视图的示意框图;
图4是根据本发明方法的三元组的图示;
图5是说明用于对由图4的方法获得的结果进行进一步限定(refining)的步骤的流程图;以及
图6是用于实现本发明方法的通用计算机的示意框图。
具体实施例
本发明是用于收集与生物分子和疾病或其他临床条件之间的关系相关的证据的系统和方法。根据本发明,使用统计分析(如在此通过引用并入的美国专利No.6601503中描述的神经网络)来识别与疾病相关联的生物分子。向分子诊断学领域中的研究者和医学工作者提供了用于验证统计预测(如例如模式识别功能)的生物证据。使用统计方法来预测特定生物分子组的出现是否指示特定疾病。使用此预测导出生物分子和疾病之间的关系,并使用该关系来进行数据库搜索,以定位与该特定生物分子-疾病关系有关的文章。
图1是根据本发明导出的生物分子和疾病之间的关系的示例图。示出了生物分子BRCA1。此生物分子指示人发展为癌症的倾向,其中卵巢癌还与生物分子B1相关联。CA125是卵巢癌的特定生物标记。识别出被用来识别患者是否有具体疾病的具体生物分子组。
图2是说明根据本发明、用于收集与生物分子和疾病之间关系相关的证据的系统200的示意框图。访问公共可用的本体数据库210或220以生成主体的单独本体,即,生物分子本体230。本体是形式性和声明性的表示方式,其包括:用于指示主体区域中的术语的词汇(或名称);以及描述术语是什么、它们如何相互关联以及它们如何能相互关联或不关联的逻辑语句。本体提供了用于表示和交流关于某些主体的知识的词汇,以及在词汇中的术语之间保留的关系集,例如层次、网络或一些其他关系。
生物分子本体230包含生物分子表达式(expression)的网络,诸如RNA级别的表达式、遵循蛋白质翻译的表达式、突变、DNA删除、DNA扩增、DNA表观遗传变化、以及/或后翻译修改。查询公共可用的本体以生成生物分子本体230。公共可用的本体是Gene Ontology(基因本体;GO)或在Bertone P.等人的“SPINE:An Integrated TrackingDatabase and Data Mining Approach for Identifying FeasibleTargets in High-Throughout Structural Proteomics.”Nucleic AcidsRes.2001,29:2884-2898中阐述的结构性类蛋白体。可查询其他本体来获得用于生物分子的本体。
通过查询本体250来生成疾病、病症(disorder)、症候群、或异常的本体240,如在统一医学语言系统(UMLS)中找到的那些。疾病本体包含问题表现方式(manifestation)的层次以及疾病、病症、症候群、或异常的这些表现方式的同义词。
生成生物分子和疾病之间的谓体270(即,关系)的本体。谓体270的本体提供对可存在于“宾体”和“宾体”团体之间的概念和关系的描述。在此情况下,宾体是所识别的具体疾病。谓体270处理收集证据(即,与疾病相关联的生物分子)的动机。谓体可对因果关系进行编码,或对记载生物分子和具体疾病之间的关联的链接关系进行编码。经编码的关系有利地用于在已断定因果关系时收集证据,而经编码的链接关系在未完全理解该关系时是很有用的。
一旦开发了三个本体(即,包括主体、谓体和宾体的三元组),则使用该三元组来在医学文献数据库260上执行自然语言解析,以定位与手头的主体(即,生物分子)有关的文章。一旦定位和聚集了相关的医学文章,则将结果提供给研究者,研究者利用已知的可视化工具来辅助解释所生成的结果,这样的可视工具包括在计算机上运行的图形用户界面。
图3是说明根据本发明、用于收集与生物分子(至少一个主体)和疾病(宾体)之间的关系相关的证据的方法中的步骤的流程图。首先,如步骤310所示,识别、选择与疾病相关联的生物分子,或相反使得所述生物分子可用于处理,例如,通过统计方法进行识别。
接着,如步骤320所示,生成用于生物分子和疾病之间的谓体(即,关系)的本体。用于谓体的本体提供对可以存在于“宾体”和“宾体”团体之间的概念和关系的描述。在此情况下,宾体是正被研究的具体疾病。谓体270处理收集证据(即,与疾病相关联的生物分子)的动机。谓体可对因果关系进行编码,或对记载生物分子和具体疾病之间的关联的链接关系进行编码。经编码的关系有利地用于在已断定因果关系时收集证据,而经编码的链接关系在未完全理解该关系时是很有用的。
接着,如步骤320所示,生成用于每个生物分子的本体。优选还生成生物分子组合的本体。用于生物分子的本体包含生物分子表达式的网络,诸如RNA级别的表达式、遵循蛋白质翻译的表达式、突变、DNA删除、DNA扩增、DNA表观遗传变化、以及/或后翻译修改。这里,查询公共可用的本体以生成用于主体生物分子的本体。公共可用的本体优选是Gene Ontology(基因本体,GO)或在Bertone P.等的“SPINE:AnIntegrated Tracking Database and Data Mining Approach forIdentifying Feasible Targets in High-Throughout StructuralProteomics.”Nucleic Acids Res.2001,29:2884-2898中阐述的结构性类蛋白体。还可以或可替代地查询其他本体来获得生物分子的本体。
尽管不是必要的,有时候优选为,如步骤330所示,进一步限定生物分子的本体。这个步骤允许研究者查看所生成的本体,并进一步限定对生物分子的搜索范围。使用可视化工具或用户界面来以已知的方式来辅助该进一步限定的执行。
接着,如步骤340所示,生成宾体的本体。宾体是疾病、病症、症候群、异常或其他医学问题。宾体的本体包含问题表现方式(manifestation)的层次以及宾体的这些表现方式的同义词。优选地,通过在本体中执行诸如在统一医学语言系统(UMLS)中找到的那些那样的查询来构建本体。
尽管不是必要的,有时候优选为,如步骤350所示,人工地进一步限定宾体的本体。人工地对宾体的本体进行进一步限定允许研究者查看所生成的本体,并进一步限定对宾体的搜索范围。优选使用已知的可视化工具或已知的用户界面来帮助进一步限定宾体。
如步骤370所示,构造用于每个生物分子(或主体本体元素)的三元组。根据优选实施例,三元组包括主体、谓体和宾体。首先,宾体(疾病)和主体(生物分子或派生物)之间的谓体或关系的本体必须可用,而不管其被导入、生成或导出以与宾体和主体本体一起使用。由步骤360指示这个可用性。
图4是可以根据本发明形成的三个不同三元组的说明。使用资源描述框架(RDF)视图来形成三元组400a。该三元组包括主体410a、谓体、以及链接到医学数据库中的参考文献400a的宾体420a。当以抽象视图生成三元组时,三元组400将包括生物分子410b、关系、以及链接到Medline参考文献430b的疾病420b。当以实际视图生成三元组400时,其包括BRCA2 410c、关系、以及链接到具体URL 430c的乳癌420c。三个三元组主体/生物分子/BRCA2(400a)、谓体/关系/原因(400b)、以及宾体/疾病/乳癌(400c)是同一三元组概念的等价表示。在优选实施例中,使用资源描述框架(RDF)来形成三元组。
接着,使用三元组来执行自然语言解析(对相关数据可用池的搜索),例如,相关医学文献,以提取数据相关三元组,例如,与手头的主体有关的文章。对于相关,应该理解为意味着如三元组集所限定的、根据在主体和宾体之间的基于搜索的关系而从数据库解析得到的任何数据、及其任何变型。例如,如步骤380所示,与生物分子(以及派生物)和疾病之间的关系有关的任何文章。
应注意到,在解析生物分子的三元组之前,识别可用证据(例如,医学文献)池(pool)。重复步骤390,直到将每个单独的生物分子和派生物(即,包括所生成的主体本体的每个单元)处理为具有谓体和宾体本体单元的三元组为止。一旦处理了每个生物分子,则如步骤360所示,向研究者提供处理结果。如图1所示,生成作为生物分子-关系-疾病-参考文献的结果。此时,研究者可使用已知的可视化工具来帮助解释所生成结果的结果,例如,使用诸如运行软件程序的计算机之类的已知图形用户界面来帮助解释所生成结果的结果。
图5是说明用于进一步限定由图3的方法获得的结果的示例方法中的步骤的流程图。如步骤510所示,通过获得先前生成的搜索结果来实现结果的增强。接着,如步骤520所示,对包含搜索结果的参考文献进行分组。这里,根据领域、专业、出版物种类、证据强度等来对参考文献进行分组。在本发明的一个实施例中,使用文档集群(clustering)工具来对参考文献进行分组。
如步骤530所示,向研究者呈现搜索结果,并且标注由研究者访问/阅读/研究的具体参考文献。
如步骤540所示,调整和存储在步骤370生成的三元组。结果,通过此增强来影响研究者进行的后续搜索。在替代实施例中,使用三元组来向本体中不同的单元添加“权重”。
在另外的实施例中,在呈现步骤530中实现学习功能,并且调整步骤540还进一步限定搜索结果。例如,当分析大量目标文献时,允许研究者明确指示更感兴趣的区域、或者研究者认为可能在搜索中已经错过了的主体区域。通过以与浏览或编辑文档相关联的方式来标注或高亮显示(例如,双击)相关主体区域来实现此指示。
可以按照多种不同的方式来使用增强型查询。在优选实施例中,以至少两种方式来使用增强型查询。例如,如果研究者怀疑原来的查询可能已经错过了大量现有文献(即,放宽查询),则可立即重新运行增强型查询。另一方面,如果搜索的覆盖范围足够,但进一步限定会使搜索更精确(例如,缩窄查询)的话,则因为研究者可能已经拥有最相关的文献,所以立即重新运行搜索可能没什么价值。然而,如果搜索结果少于预期,并且已知研究领域是非常活跃的,这暗示可能在不久的将来会公布或可得到新的信息,则可向“Infobot”提供增强型搜索,以供未来使用。结果,将在更新和可能更相关的医学文献被公布时发现它们。
可使用传统的通用数字计算机和适当编程的微处理器来实现本发明。本发明包括作为存储介质的计算机程序产品,其包括指令可用于对计算机编程以实现本发明。存储介质可包括但不限于:适合于存储电子指令的任何类型的盘,包括软盘、光盘、CD-ROM和磁光盘,DVD、ROM、RAM、EPROM、EEPROM,磁卡或光卡,或包括硬驱动器在内的任何类型介质。
图6是用于实现本发明的通用计算机600的示意框图。计算机600包括显示设备602(如具有触摸屏接口的触摸屏监视器)、键盘604、定点设备606、鼠标垫板或数字化垫板608、硬盘610、或使用合适的设备总线(如SCSI总线、增强型IDE总线、PCI总线等)连接的其他固定的高密度介质驱动器、软驱612、具有磁带或CD介质616的磁带或CD ROM驱动器614、或者其他可拆卸介质装置(如磁光介质等)、以及主板618。主板618包括例如处理器620、RAM 622、以及ROM 624、用来耦接到图形获取设备(未示出)的I/O端口626、以及用于执行专用硬件/软件功能(如声音处理、图像处理、信号处理、神经网络处理等)的可选专用硬件628、麦克风630、以及一个或多个扬声器640。
在上述存储介质(计算机可读介质)的任一个上存储了用于控制计算机600的硬件并用于使得计算机600能够与人类用户进行交互的适当程序。这样的程序可包括但不限于:用于实现设备驱动的软件、操作系统、以及用户应用。这样的计算机可读介质还包括用来引导通用计算机600执行根据本发明的任务的程序或软件指令。
因此,尽管已示出并描述和指出了应用于本发明的优选实施例的、本发明的基本新颖性特征,但将理解,本领域技术人员可对所例示的设备的形式和细节及其操作进行各种省略、替换和改变而不会脱离本发明的精神。例如,显然,那些以基本相同的方式实现基本相同的功能、以达到相同结果的单元和/或方法步骤的任意组合包括在本发明的范围内。此外,应意识到,可将结合本发明的任何公开形式和实施例示出和/或描述的结构和/或单元和/或方法步骤合并到任何其他公开或描述或建议形式或实施例,作为设计选择的一般主题。因此,仅仅希望由所附权利要求的范围来指示限制。
Claims (38)
1.一种用于从可用证据群中收集相关证据用以支持研究和验证主体和宾体之间的可能关系的方法,该方法包括如下步骤:
选择包括与宾体的可能关联的至少一个主体;
生成主体性元素的层次结构,其捕捉所述至少一个主体的不同表现或特性;
生成宾体性元素的层次结构,其捕捉宾体的不同表现或特性;
利用谓体层次来处理所述主体性元素以生成用于每个宾体性元素的谓体关系,从而构建宾体/主体/谓体三元组的集合;
利用所述三元组的集合来搜索所述证据群以提取所述相关证据;以及
输出所述相关证据。
2.如权利要求1所述的方法,其中所述输出步骤包括:显示所述相关证据,以供用户查看。
3.如权利要求1所述的方法,其中所述输出步骤包括:以结构化数据格式来存储所述相关证据。
4.如权利要求1所述的方法,其中选择至少一个主体的步骤包括:使用统计方法。
5.如权利要求4所述的方法,其中所述统计方法包括质谱分析。
6.如权利要求1所述的方法,还包括步骤:标识目标文献群以限定所述可用证据群。
7.如权利要求1所述的方法,其中生成宾体性元素的层次结构的步骤包括:对所述宾体性元素的层次结构进行自适应进一步限定。
8.如权利要求7所述的方法,其中所述自适应进一步限定包括对所述宾体性元素的层次结构的人工进一步限定。
9.如权利要求1所述的方法,其中生成所述主体性元素的层次结构的步骤包括:对所述主体性元素的层次结构的自适应进一步限定。
10.如权利要求9所述的方法,其中所述自适应进一步限定包括对所述主体性元素的层次结构的人工进一步限定。
11.如权利要求1所述的方法,其中所述处理步骤包括生成所述谓体层次。
12.如权利要求1所述的方法,其中所述宾体是正在研究的疾病、病症、症候群、或异常。
13.如权利要求1所述的方法,其中每个层次结构包括描述符集合、描述符同义词集合、以及描述符派生物集合中的至少一个集合,该集合组合地定义了所述主体、宾体或谓体表示的本体表示。
14.如权利要求1所述的方法,其中所述生成宾体性元素的层次结构的步骤包括:查询统一医学语言系统的层次。
15.如权利要求1所述的方法,其中所述处理步骤还包括步骤:生成主体性元素的层次结构的组合。
16.如权利要求1所述的方法,其中所述至少一个主体是生物分子。
17.如权利要求1所述的方法,其中所述主体性元素的层次结构包括主体表达式的网络。
18.如权利要求17所述的方法,其中所述主体表达式为以下中的至少一个:RNA级别的表达式、遵循蛋白质翻译的表达式、突变、DNA删除、DNA扩增、DNA表观遗传变化、以及后翻译修改。
19.如权利要求17所述的方法,其中所述搜索证据群的步骤包括:查询公共和/或私人可用的信息池。
20.如权利要求1所述的方法,其中生成主体性元素的层次结构的步骤包括:搜索基因本体(GO)和/或结构性类蛋白体集合。
21.如权利要求1所述的方法,其中使用资源描述框架来构建所述三元组。
22.如权利要求1所述的方法,其中根据领域和专业之一来构造所述相关证据的内容:。
23.如权利要求22所述的方法,其中根据文档集群工具来构造所述相关证据。
24.如权利要求1所述的方法,其中所述选择步骤包括:利用神经网络、或遗传算法与学习分类器系统的组合(例如,神经网络、幼稚Bayesian分类器、k-最近邻居分类器、自组织映射、支持向量机等)。
25.如权利要求1所述的方法,其中使用RDF标注来构建所述三元组。
26.如权利要求1所述的方法,其中所述搜索步骤利用所述三元组来实现自然语言解析处理,以搜索可用的生物医学文献池。
27.如权利要求7所述的方法,其中所述自适应进一步限定包括如下步骤:
选择性地对所提取的相关证据进行分组;
提供选择性分组的结果以便用户可以访问、阅读和/或学习,其中在由用户选择了特定分组以进行访问、阅读或学习时,生成标识符并将该标识符归属于所述特定分组;以及
基于一个或多个所述标识符来调整所述三元组。
28.如权利要求27所述的方法,其中所述调整步骤包括:利用经调整的所述三元组来进一步搜索所述证据群。
29.如权利要求2所述的方法,其中,如果所述输出相关证据的步骤未找到相关证据,则进一步进行分析以推断出是否为缺少与所述三元组有关的相关证据,还是所述三元组对于想要的收集而言是不准确的。
30.一种计算机可读介质,包括可在通用计算机上实现以便执行权利要求1的方法的一组指令。
31.一种用于从证据池中收集相关证据的系统,其中根据将主体和宾体链接起来的谓体关系来将所述证据证明为相关证据,所述系统包括:
选择器,用于至少将主体定义发送到所述系统中;
主体数据库,其包括主体层次,所述主体层次包括主体性元素,所述主体性元素表示所述至少一个主体的可变和派生特性;
宾体数据库,其包括宾体层次,所述宾体层次包括宾体性元素,所述宾体性元素表示所述宾体的可变、派生、和/或同义表示;
关系数据库,其包括检测所述主体性元素和宾体性元素之间任何数目的因果或链接关系、并且基于所述检测来对多个主体/谓体/宾体三元组进行编码的可操作性;
处理器,其利用所述三元组来实现对证据池的自然语言解析处理,以便提取所述相关证据。
32.如权利要求31所述的系统,其中所述至少一个主体是生物分子,且所述宾体是疾病、病症、症候群或异常。
33.如权利要求31所述的系统,其中所述主体、宾体和关系数据库包含主体、宾体和关系本体。
34.如权利要求31所述的系统,其中所述选择器、主体数据库、宾体数据库、关系数据库和处理器构成分布式网络。
35.如权利要求31所述的系统,其中所述选择器利用统计处理来识别所述至少一个主体。
36.如权利要求31所述的系统,其中所述处理器具有以生物分子/关系/疾病/参考文献的格式来提供每个相关数据的能力。
37.如权利要求31所述的系统,还包括文档集群工具,其中可用证据池是文档化的,并且集群工具根据以下中的至少一个来对相关文档进行分组:领域、专业、出版物类型、证据强度、以及相似分组证明。
38.如权利要求31所述的系统,其中所述处理器识别并将属性赋予所访问的文档,根据所述属性来进一步限定由关系数据库执行的编码以生成经进一步限定的三元组,并且利用所述进一步限定的三元组来使得重新解析证据。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US66692205P | 2005-03-31 | 2005-03-31 | |
US60/666,922 | 2005-03-31 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101151615A true CN101151615A (zh) | 2008-03-26 |
Family
ID=36603539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2006800103618A Pending CN101151615A (zh) | 2005-03-31 | 2006-03-27 | 用于收集与生物分子和疾病之间的关系相关的证据的系统和方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20080195570A1 (zh) |
EP (1) | EP1866818A1 (zh) |
JP (1) | JP2008537821A (zh) |
CN (1) | CN101151615A (zh) |
WO (1) | WO2006103615A1 (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102473247A (zh) * | 2009-06-30 | 2012-05-23 | 陶氏益农公司 | 用于在包含分子遗传标志物的植物和动物数据集中挖掘关联规则,继而利用由这些关联规则创建的特征进行分类或预测的机器学习方法的应用 |
CN106096331A (zh) * | 2016-06-12 | 2016-11-09 | 中南大学 | 一种推断lncRNA和疾病联系的方法 |
CN107025386A (zh) * | 2017-03-22 | 2017-08-08 | 杭州电子科技大学 | 一种基于深度学习算法进行基因关联分析的方法 |
CN107273712A (zh) * | 2011-03-02 | 2017-10-20 | 博格有限责任公司 | 基于细胞的探询式分析及其应用 |
CN107506617A (zh) * | 2017-09-29 | 2017-12-22 | 杭州电子科技大学 | 半局部社交信息miRNA‑疾病关联性预测方法 |
CN108829728A (zh) * | 2018-05-10 | 2018-11-16 | 杭州依图医疗技术有限公司 | 一种医学术语库的存储方法和装置 |
CN110569335A (zh) * | 2018-03-23 | 2019-12-13 | 百度在线网络技术(北京)有限公司 | 基于人工智能的三元组校验方法、装置及存储介质 |
CN110688493A (zh) * | 2019-09-26 | 2020-01-14 | 京东方科技集团股份有限公司 | 一种关联关系构建方法、装置及电子设备 |
US11734593B2 (en) | 2014-09-11 | 2023-08-22 | Bpgbio, Inc. | Bayesian causal relationship network models for healthcare diagnosis and treatment based on patient data |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100287220A1 (en) * | 2009-05-05 | 2010-11-11 | Microsoft Corporation | Dynamically Encoding Types and Inhabitants in a Relational Database |
US8793208B2 (en) * | 2009-12-17 | 2014-07-29 | International Business Machines Corporation | Identifying common data objects representing solutions to a problem in different disciplines |
US11544652B2 (en) | 2010-09-01 | 2023-01-03 | Apixio, Inc. | Systems and methods for enhancing workflow efficiency in a healthcare management system |
US11481411B2 (en) | 2010-09-01 | 2022-10-25 | Apixio, Inc. | Systems and methods for automated generation classifiers |
US20130262144A1 (en) | 2010-09-01 | 2013-10-03 | Imran N. Chaudhri | Systems and Methods for Patient Retention in Network Through Referral Analytics |
US11610653B2 (en) | 2010-09-01 | 2023-03-21 | Apixio, Inc. | Systems and methods for improved optical character recognition of health records |
US11694239B2 (en) | 2010-09-01 | 2023-07-04 | Apixio, Inc. | Method of optimizing patient-related outcomes |
US10614913B2 (en) * | 2010-09-01 | 2020-04-07 | Apixio, Inc. | Systems and methods for coding health records using weighted belief networks |
US11195213B2 (en) | 2010-09-01 | 2021-12-07 | Apixio, Inc. | Method of optimizing patient-related outcomes |
US9465519B2 (en) * | 2011-12-21 | 2016-10-11 | Life Technologies Corporation | Methods and systems for in silico experimental designing and performing a biological workflow |
US8747115B2 (en) * | 2012-03-28 | 2014-06-10 | International Business Machines Corporation | Building an ontology by transforming complex triples |
US8539001B1 (en) | 2012-08-20 | 2013-09-17 | International Business Machines Corporation | Determining the value of an association between ontologies |
US9646266B2 (en) | 2012-10-22 | 2017-05-09 | University Of Massachusetts | Feature type spectrum technique |
US9501469B2 (en) * | 2012-11-21 | 2016-11-22 | University Of Massachusetts | Analogy finder |
JP6282714B1 (ja) | 2016-11-25 | 2018-02-21 | ヤフー株式会社 | 算出装置、算出方法、及び算出プログラム |
JP2020532732A (ja) | 2017-09-01 | 2020-11-12 | ヴェン バイオサイエンシズ コーポレーション | 診断および治療モニタリングのためのバイオマーカーとしての糖ペプチドの同定および使用 |
GB201805067D0 (en) | 2018-03-28 | 2018-05-09 | Benevolentai Tech Limited | Search tool using a relationship tree |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0310366A (ja) * | 1989-05-19 | 1991-01-17 | Philips Gloeilampenfab:Nv | 人工ニューラルネットワーク |
US20020194201A1 (en) * | 2001-06-05 | 2002-12-19 | Wilbanks John Thompson | Systems, methods and computer program products for integrating biological/chemical databases to create an ontology network |
JP3773447B2 (ja) * | 2001-12-21 | 2006-05-10 | 株式会社日立製作所 | サブスタンス間の二項関係表示方法 |
JP2003203076A (ja) * | 2001-12-28 | 2003-07-18 | Celestar Lexico-Sciences Inc | 知見探索装置、知見探索方法、プログラム、および、記録媒体 |
US7730063B2 (en) * | 2002-12-10 | 2010-06-01 | Asset Trust, Inc. | Personalized medicine service |
CN1701343A (zh) * | 2002-09-20 | 2005-11-23 | 德克萨斯大学董事会 | 用于信息发现以及关联分析的计算机程序产品、系统以及方法 |
-
2006
- 2006-03-27 JP JP2008503658A patent/JP2008537821A/ja active Pending
- 2006-03-27 EP EP06727741A patent/EP1866818A1/en not_active Withdrawn
- 2006-03-27 US US11/910,056 patent/US20080195570A1/en not_active Abandoned
- 2006-03-27 CN CNA2006800103618A patent/CN101151615A/zh active Pending
- 2006-03-27 WO PCT/IB2006/050922 patent/WO2006103615A1/en not_active Application Discontinuation
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102473247B (zh) * | 2009-06-30 | 2017-02-08 | 陶氏益农公司 | 用于在包含分子遗传标志物的植物和动物数据集中挖掘关联规则,继而利用由这些关联规则创建的特征进行分类或预测的机器学习方法的应用 |
CN102473247A (zh) * | 2009-06-30 | 2012-05-23 | 陶氏益农公司 | 用于在包含分子遗传标志物的植物和动物数据集中挖掘关联规则,继而利用由这些关联规则创建的特征进行分类或预测的机器学习方法的应用 |
US10102476B2 (en) | 2009-06-30 | 2018-10-16 | Agrigenetics, Inc. | Application of machine learning methods for mining association rules in plant and animal data sets containing molecular genetic markers, followed by classification or prediction utilizing features created from these association rules |
US11456054B2 (en) | 2011-03-02 | 2022-09-27 | Berg Llc | Interrogatory cell-based assays and uses thereof |
CN107273712A (zh) * | 2011-03-02 | 2017-10-20 | 博格有限责任公司 | 基于细胞的探询式分析及其应用 |
US11734593B2 (en) | 2014-09-11 | 2023-08-22 | Bpgbio, Inc. | Bayesian causal relationship network models for healthcare diagnosis and treatment based on patient data |
CN106096331A (zh) * | 2016-06-12 | 2016-11-09 | 中南大学 | 一种推断lncRNA和疾病联系的方法 |
CN106096331B (zh) * | 2016-06-12 | 2018-09-18 | 中南大学 | 一种推断lncRNA和疾病联系的方法 |
CN107025386A (zh) * | 2017-03-22 | 2017-08-08 | 杭州电子科技大学 | 一种基于深度学习算法进行基因关联分析的方法 |
CN107506617A (zh) * | 2017-09-29 | 2017-12-22 | 杭州电子科技大学 | 半局部社交信息miRNA‑疾病关联性预测方法 |
CN110569335A (zh) * | 2018-03-23 | 2019-12-13 | 百度在线网络技术(北京)有限公司 | 基于人工智能的三元组校验方法、装置及存储介质 |
US11275810B2 (en) | 2018-03-23 | 2022-03-15 | Baidu Online Network Technology (Beijing) Co., Ltd. | Artificial intelligence-based triple checking method and apparatus, device and storage medium |
CN108829728A (zh) * | 2018-05-10 | 2018-11-16 | 杭州依图医疗技术有限公司 | 一种医学术语库的存储方法和装置 |
CN110688493A (zh) * | 2019-09-26 | 2020-01-14 | 京东方科技集团股份有限公司 | 一种关联关系构建方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
US20080195570A1 (en) | 2008-08-14 |
JP2008537821A (ja) | 2008-09-25 |
WO2006103615A1 (en) | 2006-10-05 |
EP1866818A1 (en) | 2007-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101151615A (zh) | 用于收集与生物分子和疾病之间的关系相关的证据的系统和方法 | |
Ching et al. | Opportunities and obstacles for deep learning in biology and medicine | |
Alshahrani et al. | Semantic disease gene embeddings (smudge): phenotype-based disease gene prioritization without phenotypes | |
Guzzi et al. | Semantic similarity analysis of protein data: assessment with biological features and issues | |
US20190130290A1 (en) | Object oriented system and method having semantic substructures for machine learning | |
Zaru et al. | UniProt tools: BLAST, align, peptide search, and ID mapping | |
MacMullen et al. | Information problems in molecular biology and bioinformatics | |
US20050197783A1 (en) | Methods and systems for extension, exploration, refinement, and analysis of biological networks | |
Fernández-Breis et al. | The Orthology Ontology: development and applications | |
Petryszak et al. | The predictive power of the CluSTr database | |
Schuurman et al. | Ontologies for bioinformatics | |
Plaza | Comparing different knowledge sources for the automatic summarization of biomedical literature | |
Lê Cao et al. | Community-wide hackathons to identify central themes in single-cell multi-omics | |
Rao et al. | PRIORI-T: A tool for rare disease gene prioritization using MEDLINE | |
Stephens et al. | Aggregation of bioinformatics data using Semantic Web technology | |
Liu et al. | In-silico prediction of blood-secretory human proteins using a ranking algorithm | |
Taha et al. | GRank: A middleware search engine for ranking genes by relevance to given genes | |
Yu et al. | Analyzing research diversity of scholars based on multi-dimensional calculation of knowledge entities | |
Kuchinke et al. | Legal assessment tool (LAT): an interactive tool to address privacy and data protection issues for data sharing | |
Cohen-Boulakia et al. | Selecting biomedical data sources according to user preferences | |
Garda et al. | Public data sources for regulatory genomic features | |
Gancheva | A big data management approach for computer aided breast cancer diagnostic system supporting precision medicine | |
Nguyen et al. | Knowledge discovery in variant databases using inductive logic programming | |
Samuel et al. | Mining online full-text literature for novel protein interaction discovery | |
Moingeon | Harnessing the power of AI-based models to accelerate drug discovery against immune diseases |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Open date: 20080326 |