CN113748419A - 解析装置和解析方法 - Google Patents

解析装置和解析方法 Download PDF

Info

Publication number
CN113748419A
CN113748419A CN202080030519.8A CN202080030519A CN113748419A CN 113748419 A CN113748419 A CN 113748419A CN 202080030519 A CN202080030519 A CN 202080030519A CN 113748419 A CN113748419 A CN 113748419A
Authority
CN
China
Prior art keywords
analysis
identification information
term
information
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080030519.8A
Other languages
English (en)
Inventor
松田史生
金泽慎司
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shimadzu Corp
Osaka University NUC
Original Assignee
Shimadzu Corp
Osaka University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shimadzu Corp, Osaka University NUC filed Critical Shimadzu Corp
Publication of CN113748419A publication Critical patent/CN113748419A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8675Evaluation, i.e. decoding of the signal into analytical information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/62Detectors specially adapted therefor
    • G01N30/72Mass spectrometers

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Theoretical Computer Science (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Immunology (AREA)
  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明是一种解析装置(50),其具备:信息获取单元(51),其从使用分析装置(10)测定生物体试样中含有的解析对象物而得到的结果中获取用于确定该解析对象物的信息即第一识别信息;提取单元(56),其基于由所述信息获取单元获取到的第一识别信息,来从存储有文档信息的数据库(41)中提取与所述解析对象物关联的术语即关联术语;以及呈现单元(57、59),其向用户呈现由所述提取单元提取出的所述关联术语。

Description

解析装置和解析方法
技术领域
本发明涉及一种解析装置和解析方法。
背景技术
在生物医学领域中,为了鉴定生物体试样中含有的各种代谢物,进行使用了气相色谱质谱分析装置(GC/MS)或液相色谱质谱分析装置(LC/MS)的多成分同时分析。
从GC/MS、LC/MS等分析装置输出的分析数据由用户解读从而鉴定代谢物。分析数据的解读大部分依赖于用户的知识和经验。因此,提出了一种使鉴定生物体试样中含有的各种代谢物所涉及的作业高效化来使验证分析数据高效化的代谢物解析用数据处理装置(参照专利文献1)。在专利文献1的装置中,利用了处理生物体内的代谢的领域中使用的、记载有代谢途径的被称为代谢图的图表。在代谢图中记载有在代谢的过程中发生的化学反应、通过该反应生成的各种化合物(代谢物)、参与该反应的酶等,一眼就能够了解代谢的流程。在专利文献1的装置中,通过在代谢图上注明与生物体试样中含有的代谢物、能够分析某种代谢物的分析条件等有关的信息,来辅助用户进行分析条件的设定作业以及掌握代谢物的信息。
为了对基于分析装置的分析数据的代谢物的鉴定结果进行解析并从中导出有价值的信息,进一步利用与分析对象相应的工具。因此,脂质组学(脂质分子(脂质体)解析)、蛋白质组学(蛋白质解析)、代谢组学(代谢组解析)等的作为解析工具的软件分别独立地由研究人员或企业开发出。另外,近年来,为了综合地解析各种组学数据,另外为了能够在生物医学领域所利用的各种软件间互换数据,提供了一种依据应用程序编程接口(API)等的信息平台(参照非专利文献1)。
另外,在各种公共数据库中公开了与生物医学领域中的各种发现有关的研究结果。这种数据库之一有由美国国家医学图书馆(National Library of Medicine:NLM)管理的收录有医学文献信息的数据库MEDLINE。例如能够使用美国国家医学图书馆在Web上公开的PubMed的检索功能来检索收录在MEDLINE中的文献信息(参照非专利文献2)。MEDLINE中收录的文献的目录信息(bibliographical information)通过作为医学文献索引典(thesaurus)的MeSH(Medical Subject Heading:医学主题词表)进行索引,以适当地进行检索。通过对各文献的目录信息赋予MeSH术语和MeSHID来进行索引。对一个文献赋予多个MeSH术语。另外,MeSHID根据MeSH术语的类别而被附加于该MeSH术语。
另外,在生物医学领域中,有时根据生物体试样的分析数据来对基因、药物、疾病等的关联性进行解析,从而估计基因表达的控制机制、分子间相互作用。在对基因表达控制机制、分子间相互作用的估计中要求阅读并理解与生物医药关联的科学文献来构建图或模型。科学文献的量庞大,另外,科学文献在被细化的专业领域中以不同的观点记述。人难以进行将这种科学文献中记述的内容相互联系的作业。因此,提出了以下一种方法:使用MeSH术语来从PubMed提取各种科学文献中记述的与基因、药物、疾病等有关的术语,统计它们的关联性来估计基因表达控制机制、分子间相互作用(参照非专利文献3)。
现有技术文献
专利文献
专利文献1:日本特开2010-216981号公报
非专利文献1:Garuda Platform,特定非营利活动法人系统和生物学研究机构,[线上],[平成31年4月21日检索],因特网<http://www.garuda-alliance.org/about.html>
非专利文献2:PubMed,[线上],[平成31年4月17日检索],因特网<URL:https://www.ncbi.nlm.nih.gov/pubmed>
非专利文献3:Stephen Joseph Wilson等,‘Automated literature mining andhypothesis generation through a network of Medical Subject Headings’,[线上],bioRxiv,[平成31年4月17日检索],因特网,<URL:https://www.biorxiv.org/content/10.1101/403667v1>
发明内容
发明要解决的问题
生物医学领域的分析数据解析用的软件的开发和改良中使用统计学、计算机科学的理论和技术。如果是精通统计学、计算机科学的技术人员,则能够基于所给出的分析数据来使用某种解析方法导出某种结果。然而,根据分析数据而导出的结果在生物学上来看未必是有用的。即,如果不精通分析数据的意义、其背景,则无法判断这种解析方法是否合适,无法得到对于生物医学领域的研究人员来说有用的解析结果。
在综合解析基因、蛋白质以及代谢物等的变化的多组学中,研究人员为了对各个组学数据进行解析而应参考的文献庞大,并且这些文献日益增多。即使通过非专利文献3中记载的方法(数据挖掘)获得基因-基因、疾病-基因、药物-基因的关联性来作为知识,研究人员也需要自己阅读文献来进行判断以有效地利用该知识。然而,难以从庞大的量的文献中高效地提取对于该研究人员来说有用的文献。
此外,在此说明了解析生物体试样的分析数据的情况下的问题点,但在从生物体试样以外的试样、例如自海水、湖水、河川等采集到的液体试样中含有的环境激素等物质的测定结果中提取对查明环境污染的原因有用的文献的情况下等也存在同样的问题。
本发明是为了解决上述问题而完成的,其目的在于能够容易地提取对于对使用分析装置测定试样中含有的物质而得到的结果的理解有用的文档信息。
用于解决问题的方案
本发明的第一方式是,一种解析装置,具备:信息获取单元,其从使用分析装置测定试样中含有的解析对象物而得到的结果中获取用于确定该解析对象物的信息即第一识别信息;提取单元,其基于由所述信息获取单元获取到的所述第一识别信息,来从存储有文档信息的数据库中提取与所述解析对象物关联的术语即关联术语;以及呈现单元,其向用户呈现由所述提取单元提取出的所述关联术语。
本发明的第二方式是,一种解析方法,包括以下步骤:获取使用分析装置测定试样中含有的解析对象物而得到的结果;从测定所述解析对象物而得到的结果中获取用于确定该解析对象物的信息即第一识别信息;基于所述第一识别信息来从存储有文档信息的数据库中提取与所述解析对象物关联的术语;以及呈现步骤,向用户呈现所述关联术语。
发明的效果
根据本发明,使用从试样中含有的解析对象物的测定结果中获取到的第一识别信息,来从存储有文档信息的数据库中提取关联术语,并向用户呈现该术语,因此用户能够使用所呈现的关联术语来从所述数据库中容易地找出对于对解析对象物的测定结果的理解有用的文档信息。
附图说明
图1是包括本发明的实施方式所涉及的解析装置50的信息提供系统的概要图。
图2是示出根据分析数据制作解析用数据的处理的一例的说明图。
图3是示出代谢图的显示例的图。
图4是示出解析装置50的概要性结构的一例的框图。
图5是示出解析装置50的处理的一例的流程图。
图6是示出作为解析对象物的识别信息的MeSHID的集合即MeSHID组的例子的图。
图7是示出关联分析的结果的显示例的图。
图8是示出解析装置50的处理的另一例的流程图。
图9是示出第一MeSHID组和第二MeSHID组的一例的图。
图10是示出关联分析的结果的显示例的图。
具体实施方式
[包括解析装置的系统的概要]
下面,基于附图来说明本发明的实施方式。图1是包括本实施方式所涉及的解析装置50的信息提供系统的概要图。
信息提供系统包括:至少安装有一个用于实现用户所期望的处理的软件的多个终端装置、以及针对来自终端装置的询问提供信息的多个数据库41、42、43、44。多个数据库41、42、43、44中分别存储有文档信息。终端装置是平板终端21、个人计算机22等计算机装置。
分析装置10由装置主体11和个人计算机12构成,该装置主体11通过机械动作来执行分析,该个人计算机12安装有用于控制装置主体11的动作的控制软件、用于对通过由装置主体11执行分析而得到的数据进行处理的处理软件等。终端装置21、22及个人计算机12与数据库41、42、43、44经由因特网20来连接。在分析装置10的个人计算机12的存储装置中保存分析装置部10的分析数据。个人计算机12能够经由因特网20与终端装置21、22及解析装置50之间发送和接收数据。解析装置50的实体是个人计算机或工作站等计算机装置。解析装置50执行用于基于由分析装置10获取到的试样的分析数据而在用户检索至少一个数据库后向该用户提供术语的解析,该术语帮助取得解读所述分析数据所需的文档信息。
能够借助因特网20利用的数据库使用与能够用分析装置10分析的试样的种类相应的各种数据库。例如,作为在生物体试样的情况下利用的数据库,存在基因数据库、蛋白质信息数据库、医药品信息数据库、医学文献数据库等。在医学文献数据库中例如存在由美国国家医学图书馆(National Library of Medicine:NLM)管理的医学文献数据库MEDLINE。存储于数据库的文档信息中包含论文、书籍、辞典、医药品附加文档等。
作为分析装置10,能够使用LC(液相色谱仪)、GC(气相色谱仪)等色谱装置以及在色谱装置中组合了质谱仪而得到的LC/MS和GC/MS等色谱质谱分析装置。在分析装置10是色谱质谱分析装置的情况下,获取色谱、质谱等的图表来作为分析数据。也可以获取表示图表上的各点的坐标数据(例如作为保持时间和信号强度的组、质荷比m/z值和信号强度的组等的数值数据)来作为分析数据。总之,只要能够基于分析数据来确定试样中含有的解析对象物的种类、量,则可以是任意形式的分析数据。另外,向分析装置10提供的试样有液体试样、气体试样。作为液体试样,存在包括人在内的动物的尿、血液以及破坏生物体的细胞构造而得到的粗提取物等生物体试样。在试样是生物体试样的情况下,解析对象物是代谢物、蛋白质、化合物等。
[解析装置的结构]
图4是示出解析装置50的概要性结构的框图。
解析装置50具备装置主体60以及与该装置主体60连接的输入部58和显示部59。装置主体60具备控制部51、用于执行各种运算处理的CPU等运算装置52、存储解析结果等的辅助存储装置53、以及经由因特网20与数据库41之间发送和接收数据的通信部54。在图4中,作为数据库41,示出了MEDLINE以及收录在MEDLINE中的文献的检索引擎即PubMed。控制部51具备询问部55、解析部56、显示控制部57来作为功能块。另外,控制部51控制运算装置52、辅助存储装置53、通信部54的动作。
解析装置50的实体是个人计算机,通过在该计算机上执行预先安装在该个人计算机中的专用软件来实现控制部51的各功能。输入部58是附设于计算机的键盘、指示设备(鼠标等)。显示部59是计算机的显示监视器。辅助存储装置53是HDD(Hard Disk Drive:硬盘驱动器)或SSD(Solid State Drive:固态硬盘)等。存储器51、运算装置52、辅助存储装置53及通信部54与控制部51通过内部总线来连接。
[由解析装置进行的解析处理]
接着,对由解析装置50执行的解析处理进行说明。
[解析用数据的制作]
向解析装置50输入用于确定被提供到分析装置10的试样中含有的物质中的成为该解析装置50的解析对象的物质(解析对象物)的信息,来作为解析用数据。因而,根据由分析装置10获取到的分析数据的形式,在该分析数据直接成为解析用数据的情况下有时需要对分析数据进行加工或者从该分析数据中提取解析对象物来制作解析用数据的处理。图2是示出根据分析装置10的分析数据来制作解析用数据的处理的一例的说明图。在本实施方式中,解析用数据的制作处理由安装有该处理所需的规定的软件的终端装置进行。因而,在进行解析用数据的制作处理之前,用户将分析数据从分析装置10向终端装置发送。
此外,在此举出根据利用LC/MS分析出芽酵母的细胞提取液而得到的数据来制作解析用数据的处理为例来进行说明。出芽酵母的细胞提取液是将野生株(WT)、敲除了参与出芽酵母的代谢的特定基因而得到的突变株(Δ1)、与突变株(Δ1)不同的敲除了参与出芽酵母的代谢的特定基因而得到的突变株(Δ2)分别在相同条件下进行培养之后破坏细胞而得到的粗提取液。分析数据是为了比较出芽酵母的各株的代谢物而通过在同一分析条件下利用LC/MS分析这些细胞提取液而得到的数据。典型的是色谱、质谱,但也可以是由保持时间和信号强度的组构成的数值数据、由m/z值和信号强度的组构成的数值数据。
在LC中,根据柱的性质和洗脱条件来决定试样中的成分的保持时间(RT)。如果作为出芽酵母的代谢物已知的物质的保持时间是已知的,则能够根据针对出芽酵母的各株的细胞提取液而得到的色谱的峰位置的保持时间来鉴定各细胞提取液中含有的代谢物。即使无法根据色谱的保持时间来鉴定代谢物,也能够通过将预先计算并求出的已知的代谢物的m/z的理论值与质谱的峰的m/z值进行对比来鉴定各细胞提取液中含有的代谢物。另外,能够根据色谱的各峰的面积(高度)来计算各细胞提取液中含有的代谢物的量。因而,通过将针对野生株(WT)、突变株(Δ1)以及突变株(Δ2)分别得到的色谱、质谱进行比较,从而能够选出在野生株(WT)与突变株(Δ1)或突变株(Δ2)之间细胞提取液中含有的量不同的代谢物、或者选出三种株中共同大量地含有的代谢物等,选出满足特定的条件的代谢物。在解析用数据中包含所选出的一种或多种代谢物的名称。
也可以通过由用户手动地选择例如色谱上的峰来进行选出满足特定的条件的代谢物的作业。另外,也可以根据使用规定的解析工具对分析数据进行解析而得到的结果来自动或手动地选出满足特定的条件的代谢物。
在视觉识别野生株(WT)和突变株(Δ1)(或突变株(Δ2))的色谱且能够判断为在野生株与突变株之间峰面积明显不同的情况下,用户能够手动地选出该峰。当峰被选出时,终端装置确定与该峰对应的代谢物。
作为所述解析工具,能够列举统计工具31、制图工具32。统计工具31是使用多变量解析等统计方法,根据与多个变量有关的数据来分析这些变量间的相互关联的工具。通过使用统计工具31,从而能够自动地选出例如与野生株(WT)相比在突变株(Δ1)(或突变株(Δ2))之间存在显著性差异的代谢物。
制图工具32是用于制作将代谢途径图表化后的代谢图的工具。通过使用制图工具32,从而能够制作编入了例如野生株(WT)、突变株(Δ1)以及突变株(Δ2)的各细胞提取液中含有的代谢物的定量值的代谢图,来使通过敲除了特定基因而产生的各代谢物的量的变化可视化。
图3是示出代谢图的显示例的图。在该显示例中示出了表示在TCA循环(Tricarboxylic Acid cycle:三羧酸循环)的各反应中产生的代谢物的名称以及各代谢物的野生株(WT)、突变株(Δ1)、突变株(Δ2)的定量值的柱状图。柱状图从纸面左侧起依次排列地示出了野生株(WT)、突变株(Δ1)、突变株(Δ2)的定量值。此外,关于LC的柱的性质,对于无法检测的代谢物,图表栏为空栏。在该显示例中,通过图表来表示由于野生株与突变株的差异引起的各代谢物的量的变化。因而,用户能够一边观察TCA循环上的图表,一边手动地选出例如与野生株(WT)相比突变株(Δ2)中的量明显减少的代谢物。
在图3的代谢图中仅显示了TCA循环的代谢物的名称,但也可以同时显示对代谢物之间的反应进行催化的酶、与反应有关系的基因、蛋白质等的名称。另外,用节点和边缘来表示代谢图上的代谢物、与代谢有关的催化剂、基因、蛋白质等的关联性,也能够通过利用节点提取工具33提取节点来选出满足特定的条件的代谢物、催化剂、基因、蛋白质等。在该情况下,除了代谢物的名称以外或者代替代谢物的名称而在解析用数据中包含催化剂、基因、蛋白质等的名称。
在制图工具32中,除了具有输出图3那样的代谢图的工具以外,还具有被称为网络可视化工具的工具,该网络可视化工具用于进行网络型的知识的提取和可视化。网络可视化工具通过在用节点和边缘示出代谢物、催化剂、基因、蛋白质等的相关性的网络中组合对分析数据进行统计处理而得到的代谢物的量的增减等信息,从而能够将在网络中占据相对重要的位置的节点和边缘是哪一个、处于何处可视化。对于这样的网络,也能够通过利用节点提取工具33提取节点来选出满足特定的条件的代谢物、催化剂、基因、蛋白质等。
在终端装置中,当通过上述的方法选出一个或多个代谢物、催化剂、基因、蛋白质等解析对象物时,将它们的名称设定为解析用数据。所设定的解析用数据经由因特网20从终端装置被发送到解析装置50。另外,在解析用数据中也可以包含解析对象物的名称以及为了识别该解析对象物而预先赋予的ID。
例如,在为了根据由分析装置10得到的图表(色谱、质谱等)来鉴定代谢物等而参照的代谢物数据库中,对各代谢物赋予了用于识别代谢物的ID(代谢物ID)。另外,在作为酵母的基因数据库的SGD(Saccharomyces Genome Database:酵母基因组数据库)中,对各基因赋予了用于识别基因的ID(基因ID)。因而,在解析对象物是代谢物、基因的情况下,能够使它们的名称以及代谢物ID、基因ID包含在解析用数据中。另外,在SGD中,对该基因赋予了基因ID以及与该基因关联的PMID(PubMed分配给各文献的ID)。使对被分配了PMID的文献赋予的MeSHID(对用于管理存储在MEDLINE中的文档的MeSH术语赋予的ID)与该PMID相关联,因此在解析对象物是酵母的基因的情况下,能够使其名称以及基因ID、PMID、MeSHID包含在解析用数据中。
[解析装置中的处理]
接着,关于解析装置50中的处理,举出将MEDLINE用作文献数据库的情况为例来进行说明。
(实施例1)
图5是示出解析装置50的处理的一例的流程图。
从终端装置发送来的解析用数据经由解析装置50的通信部54被输入到控制部51。控制部51参照该解析用数据来获取用于确定解析对象物的识别信息(相当于本发明的第一识别信息)(步骤101)。因而,在本实施例中,控制部51作为信息获取单元发挥功能。
在将MEDLINE用作文献数据库的情况下,在步骤101中获取到的识别信息是MeSHID。因而,在利用MEDLINE的情况下在解析用数据中包含了MeSHID时,控制部51从该解析用数据中获取MeSHID。另一方面,在解析用数据中不包含MeSHID的情况下,在解析装置50中预先安装了用于将解析对象物的名称、解析对象物的ID(代谢物ID、基因ID等)变换为MeSHID的ID变换工具(未图示)。然后,控制部51利用该ID变换工具将从解析用数据中获取到的解析对象物的名称或ID变换为MeSHID。或者,也可以是,在控制部51的控制下,询问部55询问PubMed来获取与从解析用数据中获取到的解析对象物的名称或ID对应的MeSHID。
若针对试样中含有的所有解析对象物获取识别信息(MeSHID),接着,询问部55询问PubMed(数据库)来获取与解析对象物的MeSHID关联的信息即共现数据(步骤102)。具体地说,所有解析对象物的MeSHID的集合(以下称为MeSHID组。参照图6)经由通信部54从解析装置50输出后经由因特网被发送到PubMed侧。PubMed当接收到MeSHID组时,从作为能够经由PubMed利用的服务之一的、MEDLINE Co-Occurrence(MRCOC)(https://ii.nlm.nih.gov/MRCOC.shtml,[平成31年4月25日检索])取得MeSHID组中包含的所有MeSHID的、被存储在MEDLINE中的文献中的共现数据,并将该共现数据发送到解析装置50。共现数据由在存储于MEDLINE的文献中将与MeSHID组中包含的所有MeSH术语同时出现的MeSH术语及其MeSHID以及共现频率的值相关联地记述而得到的文本文件(CoOccurs.txt)构成。
当解析装置50获取从PuBMed发送来的共现数据时(步骤103),解析部56对共现数据进行关联分析(步骤104)。在关联分析中,按照采用了置信度(Confidence)、支持度(Support)以及提升度(Lift)中的至少一方的规则,从共现数据中提取解析对象物的关联术语。因而,在该实施例中,PubMed和解析部56相当于本发明的提取单元。
在此,关联术语是指与试样中含有的所有解析对象物共同关联的术语,作为具体例,能够列举表示解析对象物中共同的属性(种类、归属等)的术语,在解析对象物是某种代谢途径的代谢物的情况下,能够列举该代谢途径的名称、参与代谢途径的酶、基因等的名称,在解析对象物是与某种特定疾病有关的原因物质的情况下,能够列举该疾病、解析对象物以外的原因物质的名称等。此外,在以下的说明中,设为提取MeSHID或MeSH术语作为关联术语。
显示控制部57将关联分析的结果显示在显示部59中(步骤105)。因而,在本实施例中,显示控制部57相当于呈现单元。图7是显示在显示部59中的内容的一例。在该例子中,按照采用了提升度的规则进行了关联分析的结果是,提取出的关联术语被显示在显示部59中。具体地说,使提升度为30(%)以上的MeSHID、MeSH术语的组与提升度一起以按提升度从高到低的顺序排列的方式显示。各组的提升度是与MeSHID组中包含的四个MeSHID(参照图6)的各MeSHID进行组合而计算出的提升度的平均值。
在关联分析中,不仅可以设定提升度的规则而且也可以设定组合了置信度、支持度的规则(推荐规则)来限制要提取的MeSHID。另外,在显示部59中也可以不显示提升度(也就是说,显示MeSHID和MeSH术语的组),也可以仅显示MeSH术语或仅显示MeSHID。
用户能够以显示在显示部59中的MeSH术语等的列表为参考来检索MEDLINE等文献数据库,从而限制对分析数据的解析有用的文献。例如,如果在PubMed的关键词检索中仅输入图6所示的MeSHID组中包含的MeSH术语,则在大量地提取出与检索条件一致的文献的情况下,通过从显示在显示部59中的MeSH术语等的列表中将适当的MeSH术语添加到关键词,从而能够限制文献。
容易想象的是,在对例如出芽酵母的代谢物的分析数据进行解读的情况下,针对代谢途径记述的文献将成为参考。在该情况下,根据用户的兴趣在于某种特定的代谢物,或介入代谢反应的酶的功能,或由代谢异常引起的疾病等中的任一方,限制用的MeSH术语不同。与此相对地,在本实施例中,使用关联分析的方法根据与解析对象物的关联性来提取出多个MeSH术语并呈现给用户,该MeSH术语为用于检索文献数据库来提取文献的关键词。
因而,例如在用户对丙酮酸代谢的机制具有强烈的兴趣的情况下,能够选择图7中示出的MeSH术语中与丙酮酸代谢有关的MeSH术语“丙酮酸代谢障碍,先天性,”并将该MeSH术语添加到PubMed的限制检索中。由此,能够高效地提取先天性代谢异常中的与丙酮酸代谢有关的文献。
(实施例2)
图8是示出解析装置50的处理的另一例的流程图。
解析装置50当经由通信部54接收到解析用数据时,控制部51从该解析用数据获取用于确定解析对象物的识别信息(步骤111)。在该实施例中,与实施例1同样地,也设为控制部51获取的识别信息是MeSHID。在图9中示出了在本实施例中获取到的MeSHID的集合。以下,将图9中示出的MeSHID的集合称为“第一MeSHID组”。
接着,控制部51受理由用户经由输入部58进行的第二识别信息的输入(步骤112)。第二识别信息是用户根据测定试样中含有的解析对象物的目的、试样的种类等来适当地选择出的术语,能够列举疾病、生物种、脏器、器官、人种等术语。在本实施例中,图9所示的“第二MeSHID组”相当于第二识别信息。用户所输入的字符串也可以是MeSHID和MeSH术语中的任一方。在图9所示的例子中,设为输入了作为乳腺癌的MeSH术语的“乳腺癌”。此外,表示“癌症”的术语具有“癌症(Cancer)”、“肿瘤(Tumor)”、“赘生物(Neoplasm)”,但在MeSH的索引典中,通过对处理癌症的论文赋予MeSH术语“赘生物(Neoplasms)”来使表述统一。因而,也可以是,在由用户输入了并非MeSH术语的术语来作为第二识别信息的情况下,例如询问部55询问PubMed来获取对应的MeSH术语或MeSHID。另外,也可以是,在接下来的工序中从询问部55接收到询问的PubMed将该第二识别信息变换为MeDHID。
当控制部51获取到第一识别信息和第二识别信息时,接着,询问部55询问PubMed(数据库),来获取与第一识别信息和第二识别信息中包含的MeSHID关联的术语(步骤113)。在该实施例中,与实施例1同样地,PubMed也将从MRCOC取得的共现数据发送到解析部56。
当从数据库41获取到共现数据时(步骤114),解析部56对共现数据进行关联分析(步骤115)。关联分析的内容与实施例1相同,因此省略说明。在该实施例中,与实施例1不同,第一MeSHID组和第二MeSHID组被发送到PubMed,因此从PubMed提供的共现数据成为第一MeSHID组和第二MeSHID组中共享的共现数据。具体地说,在MEDLINE中收录的文献中的与作为第二识别信息的乳腺癌关联的文献中,与第一MeSHID组中包含的MeSH术语同时出现的MeSH术语包含在共现数据中。
显示控制部57将关联分析的结果显示在显示部59中(步骤116)。图10是显示在显示部59中的内容的一例。在该例子中,使提升度15(%)以上的MeSHID、MeSH术语的组与提升度一起以按提升度从高到低的顺序排列的方式显示。
在该实施例中,由于在共现数据中反映出了想要得到乳腺癌关联的信息这一用户侧的要求,因此如图10所示,关联分析的结果是在显示于显示部59的信息中包含与乳腺癌的关联性高的信息。例如,图10中示出的列表的从上数第二个MeSH术语“丙醇二酸盐[酯]”包含在报告了将源自人乳腺癌的细胞株用作丙酮酸代谢的抑制剂的研究成果的文献中。因此,即使是对药物不熟悉的用户,也能够知晓抑制剂的名称。
这样,在本实施例中,用户能够输入第二识别信息,由此能够预先排除提取解析对象物的关联术语所不需要的信息。
[变形例]
在上述实施方式中,由一台个人计算机构成了解析装置50,但解析装置50的功能块的一部分也可以搭载于经由通信线路与解析装置50连接的其它个人计算机、平板终端等终端装置。另外,作为解析装置50的各功能块的实体的软件也可以被存储在经由通信线路与解析装置50连接的应用服务器中,并根据需要将软件从应用服务器下载到解析装置50。
输入单元不仅可以使用解析装置50的输入部58,而且也可以使用经由因特网20连接的终端装置的输入设备。执行在上述的实施方式中说明的解析方法的计算机在进行用于解释分析数据的信息收集时显示推荐的关键词或ID来提出超出了用户的设想范围的术语。据此,若从其它观点来看,则所述计算机也是信息收集辅助装置。
在该实施方式中,在获取共现数据的过程中利用了在PubMed上提供的MRCOC,但也可以使解析装置50具有共现数据的生成功能。通过采用与文档信息的每个数据库相匹配的共现性的指标(例如,戴斯(Dice)系数、杰卡德(Jaccard)系数、辛普森(Simpson)系数、置信度(Confidence)等)生成共现数据,从而能够提高成为检索的限制候选的关联术语的有用性。
在上述的实施方式中,用解析部56进行了关联分析,但分析方法并不限定于此。关联分析是从庞大的数据中挖掘数据间的相关性或模式的数据挖掘的方法中适于关联发现的分析方法。在该实施方式中,对于询问数据库的术语,想从文献所使用的术语中找到相关性高的术语,因此采用了关联分析。
在上述的实施方式中,将PubMed用作了文档信息的数据库,但也可以利用例如出版社等管理的文献信息提供服务等其它数据库。在该情况下,在预处理中,按照在该数据库中对文献类别进行分类所使用的索引典,通过关键词和ID来确定分析数据中的生物体试样的含有物。另外,数据库不仅是能够经由因特网利用的现有的数据库,也可以经由任意的通信线路利用独自构建的数据库。
在上述的实施方式中,设为在显示部59中显示关联分析的结果的结构,但既可以打印到纸张上,也可以以声音的形式输出。
[方式]
本领域技术人员理解上述的例示性的实施方式是以下方式的具体例。
(第一项)本发明的第一方式所涉及的解析装置具备:信息获取单元,其从使用分析装置测定试样中含有的解析对象物而得到的结果中获取用于确定该解析对象物的信息即第一识别信息;提取单元,其基于由所述信息获取单元获取到的所述第一识别信息,来从存储有文档信息的数据库中提取与所述解析对象物关联的术语即关联术语;以及呈现单元,其向用户呈现由所述提取单元获取到的所述关联术语。
(第八项)本发明的第二方式所涉及的解析方法包括以下步骤:获取使用分析装置测定试样中含有的解析对象物而得到的结果;从测定所述解析对象物而得到的结果中获取用于确定该解析对象物的第一识别信息;基于所述第一识别信息来从存储有文档信息的数据库中提取与所述解析对象物关联的术语即关联术语;以及呈现步骤,向用户呈现所述关联术语。
根据第一项的解析装置和第八项的解析方法,使用从试样中含有的解析对象物的测定结果获取到的、用于确定该解析对象物的第一识别信息,来从存储有文档信息的数据库中提取所述解析对象物的关联术语,并向用户呈现该术语。向用户呈现的关联术语既可以是一个也可以是多个。用户能够使用第一识别信息和关联术语容易地从数据库中找出对于理解解析对象物的测定结果而言有用的文档信息。
(第二项)在第一项所记载的解析装置中,所述信息获取单元针对多个解析对象物获取与各解析对象物对应的第一识别信息,所述提取单元提取与所述多个解析对象物共同关联的关联术语。
(第九项)在第八项所记载的解析方法中,获取所述信息的步骤是针对多个解析对象物获取与各解析对象物对应的第一识别信息的步骤,
所述提取的步骤是提取与多个所述第一识别信息共同关联的关联术语的步骤。
根据第二项的解析装置和第九项的解析方法,用户能够容易地从数据库中找出与多个解析对象物共同关联的文档信息。例如,质谱分析装置能够一次性地统一测定试样中含有的多个解析对象物。在第二项的解析装置和第九项的解析方法中,能够如质谱分析装置那样向用户呈现对于理解能够同时测定多个解析对象物的分析装置的测定结果而言有用的文件信息。
(第三项)在第一项所记载的解析装置中,还具备受理单元,所述受理单元受理来自用户的输入,所述信息获取单元获取所述受理单元受理到的第二识别信息,所述提取单元基于所述第一识别信息和所述第二识别信息这两者来提取所述关联术语。
(第十项)在第八项所记载的解析方法中,还包括以下步骤:受理步骤,受理来自用户的第二识别信息的输入;以及获取在所述受理步骤中受理到的第二识别信息,在所述提取的步骤中,基于所述第一识别信息和所述第二识别信息这两者来提取所述关联术语。
在第三项的解析装置和第十项的解析方法中,第二识别信息是指为了从数据库中找出对于理解解析对象物的测定结果而言有用的文档信息所需要的信息,该第二识别信息反映了测定解析对象物的目的、研究领域等用户的意思。因而,在第三项的解析装置中,能够限制在用户感兴趣的范围来提取解析对象物的关联术语。
(第五项)在第一项所记载的解析装置中,所述提取单元使用数据挖掘的分析方法来提取所述关联术语。
(第十二项)在第八项所记载的解析方法中,所述提取的步骤是使用数据挖掘的分析方法来提取所述关联术语的步骤。
根据第五项的解析装置和第十二项的解析方法,通过使用数据挖掘的分析方法,从而能够向用户呈现超出了用户设想的范围的、用于获取有用的文档信息的关联术语。
(第六项)在第五项所记载的解析装置中,所述提取单元使用关联分析来提取所述关联术语。
(第十三项)在第十二项所记载的解析方法中,所述提取的步骤是使用关联分析来提取所述关联术语的步骤。
(第七项)在第六项所记载的解析装置中,所述提取单元根据采用了关联分析中的置信度、支持度以及提升度中的至少一方的规则来提取所述关联术语。
(第十四项)在第十三项所记载的解析方法中,所述提取的步骤是根据采用了关联分析中的置信度、支持度以及提升度中的至少一方的规则来提取所述关联术语的步骤。
(第十五项)一种程序,用于使计算机执行以下处理:获取使用分析装置测定试样中含有的解析对象物而得到的结果;从所述解析对象物的测定结果中获取用于确定所述解析对象物的信息即第一识别信息;基于所述第一识别信息,来从存储有文档信息的数据库中提取与所述解析对象物关联的术语即关联术语;以及向用户呈现所述关联术语。
(第十六项)一种计算机可读取的(非临时性的)存储介质,其记录有用于使计算机执行以下处理的程序:获取使用分析装置测定试样中含有的解析对象物而得到的结果;从所述解析对象物的测定结果中获取用于确定所述解析对象物的信息即第一识别信息;基于所述第一识别信息,来从存储有文档信息的数据库中提取与所述解析对象物关联的术语即关联术语;以及向用户呈现所述关联术语。
此外,上述的记载用于说明本发明的实施方式,并不限定本发明。
附图标记说明
10:分析装置;11:装置主体;12:个人计算机;20:因特网;21:平板终端;22:个人计算机;31:统计工具;32:制图工具;33:节点提取工具;41:数据库;42:数据库;43:数据库;44:数据库;50:解析装置;51:控制部;52:运算装置;53:辅助存储装置;54:通信部;55:询问部;56:解析部;57:显示控制部;58:输入部;59:显示部;60:装置主体。

Claims (14)

1.一种解析装置,具备:
信息获取单元,其从使用分析装置测定试样中含有的解析对象物而得到的结果中获取用于确定该解析对象物的信息即第一识别信息;
提取单元,其基于由所述信息获取单元获取到的第一识别信息,来从存储有文档信息的数据库中提取与所述解析对象物关联的术语即关联术语;以及
呈现单元,其向用户呈现由所述提取单元提取出的所述关联术语。
2.根据权利要求1所述的解析装置,其特征在于,
所述信息获取单元针对多个解析对象物获取与各解析对象物对应的第一识别信息,
所述提取单元提取与所述多个解析对象物共同关联的关联术语。
3.根据权利要求1所述的解析装置,其特征在于,
还具备受理单元,所述受理单元受理来自用户的输入,
所述信息获取单元获取所述受理单元受理到的第二识别信息,
所述提取单元基于所述第一识别信息和所述第二识别信息这两者来提取所述关联术语。
4.根据权利要求1所述的解析装置,其特征在于,
所述分析装置是质谱分析装置。
5.根据权利要求1所述的解析装置,其特征在于,
所述提取单元使用数据挖掘的分析方法来提取所述关联术语。
6.根据权利要求5所述的解析装置,其特征在于,
所述提取单元使用关联分析来提取所述关联术语。
7.根据权利要求6所述的解析装置,其特征在于,
所述提取单元根据采用了关联分析中的置信度、支持度以及提升度中的至少一方的规则来提取所述关联术语。
8.一种解析方法,包括以下步骤:
获取使用分析装置测定试样中含有的解析对象物而得到的结果;
从测定所述解析对象物而得到的结果中获取用于确定该解析对象物的信息即第一识别信息;
基于所述第一识别信息来从存储有文档信息的数据库中提取与所述解析对象物关联的术语即关联术语;以及
呈现步骤,向用户呈现所述关联术语。
9.一种解析方法,
获取所述信息的步骤是针对多个解析对象物获取与各解析对象物对应的第一识别信息的步骤,
所述提取的步骤是提取与多个所述第一识别信息共同关联的关联术语的步骤。
10.根据权利要求8所述的解析方法,其特征在于,还包括以下步骤:
受理步骤,受理来自用户的第二识别信息的输入;以及
获取在所述受理步骤中受理到的第二识别信息,
所述提取的步骤包括基于所述第一识别信息和所述第二识别信息这两者来提取所述关联术语的步骤。
11.根据权利要求8所述的解析方法,其特征在于,
所述分析装置是质谱分析装置。
12.根据权利要求8所述的解析方法,其特征在于,
所述提取的步骤是使用数据挖掘的分析方法来提取所述关联术语的步骤。
13.根据权利要求12所述的解析方法,其特征在于,
在所述提取的步骤中,使用关联分析来提取所述关联术语。
14.根据权利要求13所述的解析方法,其特征在于,
所述提取的步骤是根据采用了关联分析中的置信度、支持度以及提升度中的至少一方的规则来提取所述关联术语的步骤。
CN202080030519.8A 2019-05-10 2020-05-07 解析装置和解析方法 Pending CN113748419A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2019-089616 2019-05-10
JP2019089616 2019-05-10
PCT/JP2020/018586 WO2020230704A1 (ja) 2019-05-10 2020-05-07 解析装置および解析方法

Publications (1)

Publication Number Publication Date
CN113748419A true CN113748419A (zh) 2021-12-03

Family

ID=73289398

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080030519.8A Pending CN113748419A (zh) 2019-05-10 2020-05-07 解析装置和解析方法

Country Status (4)

Country Link
US (1) US20220221434A1 (zh)
JP (2) JP7440872B2 (zh)
CN (1) CN113748419A (zh)
WO (1) WO2020230704A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7553026B2 (ja) 2021-05-28 2024-09-18 株式会社島津製作所 文書検索支援装置
WO2023062725A1 (ja) * 2021-10-12 2023-04-20 株式会社島津製作所 代謝物解析方法、代謝物解析装置、及び代謝物解析用プログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005122231A (ja) * 2003-10-14 2005-05-12 Hitachi Ltd 画面表示システム及び画面表示方法
CN1701343A (zh) * 2002-09-20 2005-11-23 德克萨斯大学董事会 用于信息发现以及关联分析的计算机程序产品、系统以及方法
JP2015099497A (ja) * 2013-11-19 2015-05-28 株式会社Sbx 知識情報処理装置、知識情報処理方法、および、プログラム
JP2017096668A (ja) * 2015-11-19 2017-06-01 株式会社島津製作所 生体由来物質の同定支援方法及び同定支援装置
JP2018084581A (ja) * 2016-11-23 2018-05-31 エフ.ホフマン−ラ ロシュ アーゲーF. Hoffmann−La Roche Aktiengesellschaft 自動分析装置の測定結果の補足

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2196927A4 (en) * 2007-10-02 2014-08-06 Fujitsu Ltd ANALYSIS ASSISTANCE PROGRAM, ANALYSIS ASSISTANCE EQUIPMENT AND ANALYSIS ASSISTANCE PROCEDURE
CN107881239B (zh) * 2017-12-27 2021-04-13 广西壮族自治区肿瘤防治研究所 血浆中与结直肠癌转移相关的miRNA标志物及其应用

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1701343A (zh) * 2002-09-20 2005-11-23 德克萨斯大学董事会 用于信息发现以及关联分析的计算机程序产品、系统以及方法
JP2005122231A (ja) * 2003-10-14 2005-05-12 Hitachi Ltd 画面表示システム及び画面表示方法
JP2015099497A (ja) * 2013-11-19 2015-05-28 株式会社Sbx 知識情報処理装置、知識情報処理方法、および、プログラム
JP2017096668A (ja) * 2015-11-19 2017-06-01 株式会社島津製作所 生体由来物質の同定支援方法及び同定支援装置
JP2018084581A (ja) * 2016-11-23 2018-05-31 エフ.ホフマン−ラ ロシュ アーゲーF. Hoffmann−La Roche Aktiengesellschaft 自動分析装置の測定結果の補足

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱惠;杨建林;王昊;: "中文学科术语相关语义关系获取方法研究", 图书与情报, no. 02, 15 April 2017 (2017-04-15), pages 122 - 138 *

Also Published As

Publication number Publication date
JP2023153769A (ja) 2023-10-18
JPWO2020230704A1 (zh) 2020-11-19
JP7440872B2 (ja) 2024-02-29
US20220221434A1 (en) 2022-07-14
WO2020230704A1 (ja) 2020-11-19

Similar Documents

Publication Publication Date Title
Du et al. Metabolomics data preprocessing using ADAP and MZmine 2
Luedemann et al. TagFinder: preprocessing software for the fingerprinting and the profiling of gas chromatography–mass spectrometry based metabolome analyses
Zhou et al. LipidIMMS Analyzer: integrating multi-dimensional information to support lipid identification in ion mobility—mass spectrometry based lipidomics
Suhre et al. MassTRIX: mass translator into pathways
Ivanisevic et al. An interactive cluster heat map to visualize and explore multidimensional metabolomic data
Deutsch The peptideatlas project
Brown et al. Automated workflows for accurate mass-based putative metabolite identification in LC/MS-derived metabolomic datasets
JP2023153769A (ja) 解析装置および解析方法
Fahy et al. Bioinformatics for lipidomics
Carvalho et al. Analyzing shotgun proteomic data with PatternLab for proteomics
Farrah et al. Using the Human Plasma PeptideAtlas to study human plasma proteins
Scheltema et al. Simple data-reduction method for high-resolution LC–MS data in metabolomics
Yao et al. Data processing for GC-MS-and LC-MS-based untargeted metabolomics
Diggins et al. Generating quantitative cell identity labels with marker enrichment modeling (MEM)
WO2014145234A2 (en) Systems and apparatus for integrated and comprehensive biomedical annotation of bioassay data
Spidlen et al. GenePattern flow cytometry suite
Misra Open-source software tools, databases, and resources for single-cell and single-cell-type metabolomics
Smirnov et al. ADAP-KDB: a spectral knowledgebase for tracking and prioritizing unknown GC–MS spectra in the NIH’s metabolomics data repository
Okada et al. Genome-wide association study of individual differences of human lymphocyte profiles using large-scale cytometry data
Ruau et al. Comparison of automated and human assignment of MeSH terms on publicly-available molecular datasets
Mead et al. Public proteomic MS repositories and pipelines: available tools and biological applications
US11880374B2 (en) Document search support device
Swainston et al. A QconCAT informatics pipeline for the analysis, visualization and sharing of absolute quantitative proteomics data
Luan et al. CPVA: a web-based metabolomic tool for chromatographic peak visualization and annotation
Jacob Bioinformatics for LC-MS/MS-based proteomics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination