JP6026389B2 - 知識情報処理装置、知識情報処理方法、および、プログラム - Google Patents

知識情報処理装置、知識情報処理方法、および、プログラム Download PDF

Info

Publication number
JP6026389B2
JP6026389B2 JP2013239127A JP2013239127A JP6026389B2 JP 6026389 B2 JP6026389 B2 JP 6026389B2 JP 2013239127 A JP2013239127 A JP 2013239127A JP 2013239127 A JP2013239127 A JP 2013239127A JP 6026389 B2 JP6026389 B2 JP 6026389B2
Authority
JP
Japan
Prior art keywords
knowledge
information
node
word
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013239127A
Other languages
English (en)
Other versions
JP2015099497A (ja
Inventor
北野 宏明
宏明 北野
ゴーシュ サミック
ゴーシュ サミック
由希子 松岡
由希子 松岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SBX Corporation
Original Assignee
SBX Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SBX Corporation filed Critical SBX Corporation
Priority to JP2013239127A priority Critical patent/JP6026389B2/ja
Publication of JP2015099497A publication Critical patent/JP2015099497A/ja
Application granted granted Critical
Publication of JP6026389B2 publication Critical patent/JP6026389B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、知識情報処理装置、知識情報処理方法、および、プログラムに関する。
従来から、論文や新聞など自然言語で記述されている素材から知識を抽出するテキストマイニングという技術が開示されている。また、知識表現として概念の階層性や関係性を表現する方式の技術が開示されている。
非特許文献1に記載のIPA(Ingenuity Pathway Analysis)データベースにおいては、論文などに表現している知識をそれらの解析に連動させる事を人間が解釈し知識ベースとして構築する技術が開示されている。
Ingenuity Systems Inc. (http://www.ingenuity.com)
しかしながら、従来の一般的手法では、データとその解析を行うソフトウェア間の連携を行う事は可能であるものの、論文などに表現している知識をそれらの解析に連動させる事は出来なかった。なお、非特許文献1に記載の従来のデータベースにおいては、これを人間が解釈し知識ベースとして構築しているが、その表現は、従来の知識表現の手法並びに対象分子や遺伝子の構成するネットワーク構造を反映したものであるという問題点を有していた。
また、論文や新聞など自然言語で記述されている素材は、多くの非構造化された知識が表現されており、それらの知識を、膨大なデータなどと連動して解析を可能とする事で、飛躍的な知識の集約と新たな知識の発見が期待できるものであるが、非特許文献1に記載の従来のデータベース(知識ベース)などでは、論文や新聞などの内容を人が読んで解釈した結果を蓄積したものとなっており、読み手の解釈の恣意性の介入、および、知識ベース構築のコストなどが大きな課題となっていた。
また、いわゆるテキストマイニングは、構文解析を中心として各々の文章の統語構造の解析や意味の抽出を行おうとするものであるが、知識ベースの自動構築という目的に最適化されておらず、有効な知識抽出が出来ていないという問題を有していた。それにより、現状において、膨大な蓄積があり、さらに毎日大量に出版される生命科学の論文に内包する知識を体系的、且つ、高精度に抽出し、構造化された知識として体系化し、多様な利用を可能とするシステムの開発が待たれている。
また、論文などの利用形態に目を向けると、一般に研究者は、論文を読みながらいろいろな事実を確認したり仮説を構築したりすることが多い。特に、知識集約的な学問である生命科学の分野では、この傾向が顕著である。しかしながら、現状においては、論文は印刷物として読まれる場合、または、PDFファイルなどの形式で読まれる事がほとんどであり、論文の内容に対して研究者の研究をサポートするような情報処理が行われる事は極めてまれであるという問題を有していた。また、PDFファイルまたはWEBページの論文等の表示に対して、遺伝子名またはタンパク質名等を同定し、データベースまたは検索内容を表示するソフトウェアは存在するが、これらは、単に同定された単語に対して辞書を連動させているにとどまっていた。
本発明は、上記問題点に鑑みてなされたもので、論文等の自然言語により記述された文章を他の大規模データと同列に扱い、単なる辞書引きを超えて、研究者等のユーザが、知識空間をナビゲートし、解析し、発見する事が出来る知識情報処理装置、知識情報処理方法、および、プログラムを提供することを目的とする。
このような目的を達成するため、本発明の知識情報処理装置は、出力部と制御部と記憶部とを少なくとも備えた知識情報処理装置であって、上記記憶部は、自然言語により記述される単語、句、文または文の一群に対する固有の識別情報を対応付けた、上記単語、上記句、上記文または上記文の一群に表現された知識を示すノードに関するノード情報と、上記ノードの性質および/または上記ノード間の関連性を示すアークに関するアーク情報と、を含む、上記単語、上記句、上記文または上記文の一群と上記知識とが明確な対応関係をもって表現された、知識オブジェクトネットワークに関する知識オブジェクトネットワーク情報を記憶する知識ベース、を備え、上記制御部は、任意の上記単語に対応する、上記知識オブジェクトネットワークを構成する上記ノードを特定し、当該ノードに関する上記ノード情報および/または上記アーク情報を含む特定情報を取得する特定情報取得手段と、上記特定情報を上記出力部を介して出力させる特定情報出力手段と、を備えたことを特徴とする。
また、本発明の知識情報処理装置は、上記記載の知識情報処理装置において、上記記憶部は、上記ノードの関連情報を記憶する関連情報記憶手段、を更に備え、上記特定情報取得手段は、更に、上記任意の単語に対応する上記ノードの上記関連情報を上記関連情報記憶手段から検索し、当該検索された上記関連情報を取得し、上記特定情報出力手段は、更に、上記関連情報を上記出力部を介して出力させることを特徴とする。
また、本発明の知識情報処理装置は、上記記載の知識情報処理装置において、上記関連情報記憶手段は、タンパク質情報を記憶するタンパク質情報記憶手段、遺伝子情報を記憶する遺伝子情報記憶手段、生体分子の分子間相互作用に関する分子間相互作用情報を記憶する分子間相互作用情報記憶手段、生体分子のパスウェイに関するパスウェイ情報を記憶するパスウェイ情報記憶手段、文献に関する文献情報を記憶する文献情報記憶手段、および/または、ニュース配信サービスが提供するニュースを記憶するニュース記憶手段、を備えたことを特徴とする。
また、本発明の知識情報処理装置は、上記記載の知識情報処理装置において、上記制御部は、上記任意の単語に対応する上記ノードが上記知識オブジェクトネットワークに含まれていない場合、上記任意の単語に表現された上記知識を示す上記ノードに関する上記ノード情報を上記知識ベースに格納し、当該ノードとの間に相互背反を締める上記アークを設定し、上記アークに関する上記アーク情報を上記知識ベースに格納し、上記任意の単語に対応する上記ノードが上記知識オブジェクトネットワークに含まれている場合、上記任意の単語に対する上記識別情報を当該ノードに関する上記ノード情報に対応付けて上記知識ベースに格納する格納手段、を更に備えたことを特徴とする。
また、本発明の知識情報処理装置は、上記記載の知識情報処理装置において、上記知識情報処理装置は、入力部、を更に備え、上記格納手段は、更に、上記格納された上記ノードとの間に上記相互背反を締める上記アークが設定された場合、当該相互背反であるか否かの評価を要求する当該上記アークに関する上記アーク情報を上記出力部を介して出力させ、上記入力部を介して上記相互背反であるとの評価が入力された場合、当該アーク情報を上記知識ベースに格納することを特徴とする。
また、本発明の知識情報処理装置は、上記記載の知識情報処理装置において、上記制御部は、上記文で構成される任意の文章に対する構造解析を行い、当該文章を構成する上記単語、上記句、上記文または上記文の一群を抽出する構造解析手段と、上記構造解析手段により抽出された上記単語、上記句、上記文または上記文の一群に対応する上記ノードが上記知識オブジェクトネットワークに含まれていない場合、上記単語、上記句、上記文または上記文の一群に表現された上記知識を示す上記ノードに関する上記ノード情報を上記知識ベースに格納し、上記ノードとの間に相互背反を締める上記アークを設定し、上記アークに関する上記アーク情報を上記知識ベースに格納し、上記単語、上記句、上記文または上記文の一群に対応する上記ノードが上記知識オブジェクトネットワークに含まれている場合、上記単語、上記句、上記文または上記文の一群に対する上記識別情報を当該ノードに関する上記ノード情報に対応付けて上記知識ベースに格納する格納手段と、を更に備えたことを特徴とする。
また、本発明の知識情報処理装置は、上記記載の知識情報処理装置において、上記文章は、生命科学の学術論文であることを特徴とする。
また、本発明の知識情報処理装置は、上記記載の知識情報処理装置において、上記制御部は、上記単語、上記句、上記文または上記文の一群と句構造テンプレートとのマッチングを行うことにより上記知識を抽出する知識抽出手段、を更に備え、上記格納手段は、上記知識抽出手段により抽出された上記知識に関する知識情報を含む、上記マッチングされた上記単語、上記句、上記文または上記文の一群に対応する上記ノード情報を上記知識ベースに格納することを特徴とする。
また、本発明の知識情報処理装置は、上記記載の知識情報処理装置において、上記知識抽出手段は、上記単語、上記句、上記文または上記文の一群に対してプリプロセッシングを行い、明らかに除外できる挿入句などを取り除いた後、上記単語、上記句、上記文または上記文の一群と上記句構造テンプレートとのマッチングを行うことにより上記知識を抽出することを特徴とする。
また、本発明の知識情報処理装置は、上記記載の知識情報処理装置において、上記制御部は、上記単語、上記句、上記文または上記文の一群に対して構文解析を利用してマッチングを行うことにより上記知識を抽出する知識抽出手段、を更に備え、上記格納手段は、上記知識抽出手段により抽出された上記知識に関する知識情報を含む、上記マッチングされた上記単語、上記句、上記文または上記文の一群に対応する上記ノード情報を上記知識ベースに格納することを特徴とする。
また、本発明の知識情報処理装置は、上記記載の知識情報処理装置において、上記知識情報処理装置は、入力部、を更に備え、上記特定情報取得手段は、上記入力部を介して上記任意の単語が指定された場合、上記任意の単語に対応する、上記知識オブジェクトネットワークを構成する上記ノードを特定し、当該ノードに関する上記ノード情報および/または上記アーク情報を含む上記特定情報を取得することを特徴とする。
また、本発明の知識情報処理装置は、上記記載の知識情報処理装置において、上記知識情報処理装置は、入力部、を更に備え、上記特定情報出力手段は、上記特定情報および/または上記関連情報に基づく項目を上記出力部を介してリスト形式で選択可能に出力させ、上記入力部を介して上記項目が選択された場合、当該選択された上記項目に関する上記特定情報および/または上記関連情報を上記出力部を介して出力させることを特徴とする。
また、本発明の知識情報処理装置は、上記記載の知識情報処理装置において、上記知識情報処理装置は、入力部、を更に備え、上記特定情報出力手段は、上記特定情報および/または上記関連情報に基づく項目を上記出力部を介してネットワーク形式で選択可能に出力させ、上記入力部を介して上記項目が選択された場合、当該選択された上記項目に関する上記特定情報および/または上記関連情報を上記出力部を介して出力させることを特徴とする。
また、本発明の知識情報処理装置は、上記記載の知識情報処理装置において、上記特定情報取得手段は、任意の図に含まれる上記単語に対応する、上記知識オブジェクトネットワークを構成する上記ノードを特定し、当該ノードに関する上記ノード情報および/または上記アーク情報を含む上記特定情報を取得し、上記ノードの上記関連情報を上記関連情報記憶手段から検索し、当該検索された上記関連情報を取得することを特徴とする。
また、本発明の知識情報処理装置は、上記記載の知識情報処理装置において、上記知識オブジェクトネットワークを構成する上記ノードは、各ステートメントオブジェクトネットワークにおいて一様の抽象度レベルに対応する上記ノードを投射したもの、または、上記ステートメントオブジェクトネットワークの個別領域において各々設定された上記抽象度レベルに対応する上記ノードを投射したものであることを特徴とする。
また、本発明の知識情報処理装置は、上記記載の知識情報処理装置において、上記知識オブジェクトネットワーク情報を構成する上記ノード情報は、実験データの解析結果または推定結果であることを特徴とする。
また、本発明の知識情報処理方法は、出力部と制御部と記憶部とを少なくとも備えた知識情報処理装置において実行される知識情報処理方法であって、上記記憶部は、自然言語により記述される単語、句、文または文の一群に対する固有の識別情報を対応付けた、上記単語、上記句、上記文または上記文の一群に表現された知識を示すノードに関するノード情報と、上記ノードの性質および/または上記ノード間の関連性を示すアークに関するアーク情報と、を含む、上記単語、上記句、上記文または上記文の一群と上記知識とが明確な対応関係をもって表現された、知識オブジェクトネットワークに関する知識オブジェクトネットワーク情報を記憶する知識ベース、を備え、上記制御部において実行される、任意の上記単語に対応する、上記知識オブジェクトネットワークを構成する上記ノードを特定し、当該ノードに関する上記ノード情報および/または上記アーク情報を含む特定情報を取得する特定情報取得ステップと、上記特定情報を上記出力部を介して出力させる特定情報出力ステップと、を含むことを特徴とする。
また、本発明のプログラムは、出力部と制御部と記憶部とを少なくとも備えた知識情報処理装置に実行させるためのプログラムであって、上記記憶部は、自然言語により記述される単語、句、文または文の一群に対する固有の識別情報を対応付けた、上記単語、上記句、上記文または上記文の一群に表現された知識を示すノードに関するノード情報と、上記ノードの性質および/または上記ノード間の関連性を示すアークに関するアーク情報と、を含む、上記単語、上記句、上記文または上記文の一群と上記知識とが明確な対応関係をもって表現された、知識オブジェクトネットワークに関する知識オブジェクトネットワーク情報を記憶する知識ベース、を備え、上記制御部において、任意の上記単語に対応する、上記知識オブジェクトネットワークを構成する上記ノードを特定し、当該ノードに関する上記ノード情報および/または上記アーク情報を含む特定情報を取得する特定情報取得ステップと、上記特定情報を上記出力部を介して出力させる特定情報出力ステップと、を実行させることを特徴とする。
この発明によれば、任意の単語に対応する、知識オブジェクトネットワークを構成するノードを特定し、当該ノードに関するノード情報および/またはアーク情報を含む特定情報を取得し、特定情報を出力させるので、論文などの自然言語により記述された知識を明示的に抽出し、それに情報処理を行うことで、対象分野に関する一連の知識を可視化することができるという効果を奏する。
この発明によれば、更に、任意の単語に対応するノードの関連情報を検索し、当該検索された関連情報を取得し、更に、関連情報を出力させるので、ユーザが所望する単語の知識の周辺知識も取得することができるという効果を奏する。
この発明によれば、タンパク質情報、遺伝子情報、生体分子の分子間相互作用に関する分子間相互作用情報、生体分子のパスウェイに関するパスウェイ情報、文献に関する文献情報、および/または、ニュース配信サービスが提供するニュースを記憶するので、生命科学の単語の知識の周辺知識を取得することができるという効果を奏する。
この発明によれば、任意の単語に対応するノードが知識オブジェクトネットワークに含まれていない場合、任意の単語に表現された知識を示すノードに関するノード情報を知識ベースに格納し、当該ノードとの間に相互背反を締めるアークを設定し、アークに関するアーク情報を知識ベースに格納し、任意の単語に対応するノードが知識オブジェクトネットワークに含まれている場合、任意の単語に対する識別情報を当該ノードに関するノード情報に対応付けて知識ベースに格納するので、重複したネットワークが生じないようにでき、更に、研究者やシステムの開発者などがこのシステムを利用する事により知識ベースが成長し、精度を高めることができるという効果を奏する。
この発明によれば、更に、格納されたノードとの間に相互背反を締めるアークが設定された場合、当該相互背反であるか否かの評価を要求する当該アークに関するアーク情報を出力させ、相互背反であるとの評価が入力された場合、当該アーク情報を知識ベースに格納するので、外部利用者の応答も取り入れることができ、知識ベースの精度をより高めることができるという効果を奏する。
この発明によれば、文で構成される任意の文章に対する構造解析を行い、当該文章を構成する単語、句、文または文の一群を抽出し、抽出された単語、句、文または文の一群に対応するノードが知識オブジェクトネットワークに含まれていない場合、単語、句、文または文の一群に表現された知識を示すノードに関するノード情報を知識ベースに格納し、ノードとの間に相互背反を締めるアークを設定し、アークに関するアーク情報を知識ベースに格納し、単語、句、文または文の一群に対応するノードが知識オブジェクトネットワークに含まれている場合、単語、句、文または文の一群に対する識別情報を当該ノードに関するノード情報に対応付けて知識ベースに格納するので、論文等の全体に含まれる知識情報を知識ベースに格納することができるという効果を奏する。
生命科学および生物学の分野では、そもそも対象となる現象の詳細な知識が知られていない場合も多いため、詳細な知識の表現を要求する方式では、これらの曖昧さの残る知識の記述が出来ない、または、記述が非常に煩雑になる場合があったが、この発明によれば、文章は、生命科学の学術論文であるので、曖昧さを残したまま記述が可能となり、知識の蓄積を加速させることができるという効果を奏する。
この発明によれば、単語、句、文または文の一群と句構造テンプレートとのマッチングを行うことにより知識を抽出し、抽出された知識に関する知識情報を含む、マッチングされた単語、句、文または文の一群に対応するノード情報を知識ベースに格納するので、自然言語による記述によって情報処理の方法を定義し、効率的に知識を抽出することができるという効果を奏する。
この発明によれば、単語、句、文または文の一群に対してプリプロセッシングを行い、明らかに除外できる挿入句などを取り除いた後、単語、句、文または文の一群と句構造テンプレートとのマッチングを行うので、原文からの知識抽出よりも効率的に知識を抽出することができるという効果を奏する。
この発明によれば、単語、句、文または文の一群に対して構文解析を利用してマッチングを行うことにより知識を抽出し、抽出された知識に関する知識情報を含む、マッチングされた単語、句、文または文の一群に対応するノード情報を知識ベースに格納するので、解析木をテンプレートの代わりに蓄積、使用することができるという効果を奏する。
この発明によれば、任意の単語が指定された場合、任意の単語に対応する、知識オブジェクトネットワークを構成するノードを特定し、当該ノードに関するノード情報および/またはアーク情報を含む特定情報を取得するので、ユーザ所望の情報だけ出力させることができるという効果を奏する。
この発明によれば、特定情報および/または関連情報に基づく項目をリスト形式で選択可能に出力させ、項目が選択された場合、当該選択された項目に関する特定情報および/または関連情報を出力させるので、ユーザ所望の情報だけ出力させることができるという効果を奏する。
この発明によれば、特定情報および/または関連情報に基づく項目をネットワーク形式で選択可能に出力させ、項目が選択された場合、当該選択された項目に関する特定情報および/または関連情報を出力させるので、ユーザ所望の情報だけ出力させることができるという効果を奏する。
この発明によれば、任意の図に含まれる単語に対応する、知識オブジェクトネットワークを構成するノードを特定し、当該ノードに関するノード情報および/またはアーク情報を含む特定情報を取得し、ノードの関連情報を検索し、当該検索された関連情報を取得するので、図を一つの検索キーとして利用して、その関連部分の全体の情報を一早く入手することができるという効果を奏する。
この発明によれば、知識オブジェクトネットワークを構成するノードは、各ステートメントオブジェクトネットワークにおいて一様の抽象度レベルに対応するノードを投射したもの、または、上記各ステートメントオブジェクトネットワークの個別領域において各々設定された上記抽象度レベルに対応する上記ノードを投射したものであるので、最も蓋然性が高いと推定された仮説の集合体である知識を抽出することができるという効果を奏する。
この発明によれば、知識オブジェクトネットワーク情報を構成するノード情報は、実験データの解析結果または推定結果であるので、大規模な実験データの解析、および、そこからの推定による仮説生成も含みながら、対象分野に関する一連の知識を漸増的に蓄積、統合、詳細化、可視化することができるという効果を奏する。
図1は、本実施の形態の基本原理を示すフローチャートである。 図2は、本実施の形態における知識情報処理装置の構成の一例を示すブロック図である。 図3は、本実施の形態の知識情報処理装置の処理の一例を示すフローチャートである。 図4は、本実施の形態における知識情報取得処理の一例を示す図である。 図5は、本実施の形態におけるSONの一例を示す図である。 図6は、本実施の形態における投射方法の一例を示す図である。 図7は、本実施の形態における投射方法の一例を示す図である。 図8は、本実施の形態における投射方法の一例を示す図である。 図9は、本実施の形態における知識オブジェクト化の一例を示す図である。 図10は、本実施の形態における知識オブジェクト化の一例を示す図である。 図11は、本実施の形態における段落分類処理の一例を示す図である。 図12は、本実施の形態における段落の文構成の一例を示す図である。 図13は、本実施の形態における文6および文8の構成の一例を示す図である。 図14は、本実施の形態における文6および文8の構成の一例を示す図である。 図15は、本実施の形態における知識抽出処理の一例を示す図である。 図16は、本実施の形態における知識抽出処理の一例を示す図である。 図17は、本実施の形態におけるテンプレートの一例を示す図である。 図18は、本実施の形態における知識抽出処理の一例を示す図である。 図19は、本実施の形態における知識情報処理方法の一例を示す図である。 図20は、本実施の形態におけるS−SNSの一例を示す図である。 図21は、本実施の形態におけるS−SNSの一例を示す図である。 図22は、本実施の形態におけるS−SNSの一例を示す図である。 図23は、本実施の形態における情報提示の一例を示す図である。 図24は、本実施の形態における情報提示の一例を示す図である。 図25は、本実施の形態における知識情報処理方法の一例を示す図である。 図26は、本実施の形態における知識情報処理方法の一例を示す図である。 図27は、本実施の形態における知識情報処理方法の一例を示す図である。 図28は、本実施の形態における知識情報処理方法の一例を示す図である。
以下に、本発明にかかる知識情報処理装置、知識情報処理方法、および、プログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。
[本発明の実施の形態の概要]
以下、本発明の実施の形態の概要について図1を参照して説明し、その後、本実施の形態の構成および処理等について詳細に説明する。図1は、本実施の形態の基本原理を示すフローチャートである。本実施の形態は、概略的に、以下の基本的特徴を有する。
すなわち、本実施の形態の知識情報処理装置の制御部は、図1に示すように、任意の単語に対応する、知識オブジェクトネットワークを構成するノードを特定し、当該ノードに関するノード情報および/またはアーク情報を含む特定情報を取得する(ステップSA−1)。ここで、制御部は、更に、任意の単語に対応するノードの関連情報を検索し、当該検索された関連情報を取得してもよい。また、制御部は、入力部を介して任意の単語が指定された場合、任意の単語に対応する、知識オブジェクトネットワークを構成するノードを特定し、当該ノードに関するノード情報および/またはアーク情報を含む特定情報を取得してもよい。また、制御部は、入力部を介して複数の単語を含む図が入力された場合、図に含まれる単語に対応する、知識オブジェクトネットワークを構成するノードを特定し、当該ノードに関するノード情報および/またはアーク情報を含む特定情報を取得し、ノードの関連情報を検索し、当該検索された関連情報を取得してもよい。
そして、知識情報処理装置の制御部は、特定情報を出力部を介して出力させ(ステップSA−2)、処理を終了する。ここで、制御部は、更に、関連情報を出力部を介して出力させてもよい。また、制御部は、特定情報および/または関連情報に基づく項目を出力部を介してリスト形式で選択可能に出力させ、入力部を介して項目が選択された場合、当該選択された項目に関する特定情報および/または関連情報を出力部を介して出力させてもよい。また、制御部は、特定情報および/または関連情報に基づく項目を出力部を介してネットワーク形式で選択可能に出力させ、入力部を介して項目が選択された場合、当該選択された項目に関する特定情報および/または関連情報を出力部を介して出力させてもよい。
以上で、本実施の形態の概要の説明を終える。
[知識情報処理装置100の構成]
次に、本実施の形態における知識情報処理装置100の構成の詳細について、図2を参照して以下に説明する。図2は、本実施の形態における知識情報処理装置100の構成の一例を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。ここで、本実施の形態における知識情報処理装置100においては、各構成が一筐体内に全て備えられ、単独で処理を行うもの(スタンドアローン型)を、知識情報処理装置100として説明するが、当該実施例に限らず、各構成が分離した筐体内に備えられ、ネットワーク等を介して接続されて一つの概念としての装置を構成するもの(例えば、クラウドコンピューティング等)であってもよい。すなわち、本実施の形態における知識情報処理装置100の各構成は、ネットワーク等を介して接続された複数または単数の端末装置、ならびに、外部サーバまたは外部データベース等の外部システムに搭載されたものであってもよい。
ここで、端末装置は、例えば、一般に市販されるデスクトップ型またはノート型のパーソナルコンピュータ等の情報処理装置、携帯電話、スマートフォン、PHS、または、PDA等の携帯端末装置等であってもよい。また、外部システムは、WEBサーバまたはASPサーバ等として構成していてもよい。また、外部システムのハードウェア構成は、一般に市販されるワークステーション、パーソナルコンピュータ等の知識情報処理装置およびその付属装置により構成していてもよい。また、外部システムの各機能は、外部システムのハードウェア構成中のCPU、ディスク装置、メモリ装置、入力装置、出力装置、通信制御装置等およびそれらを制御するプログラム等により実現されてもよい。また、ネットワークは、知識情報処理装置100と外部システムとを相互に接続する機能を有し、例えば、インターネット等である。
また、知識情報処理装置100は、概略的に、制御部102と入出力制御インターフェース部108と記憶部106を備える。ここで、制御部102は、知識情報処理装置100の全体を統括的に制御するCPU等である。また、通信回線等に接続されるルータ等の通信装置(図示せず)に接続されるインターフェースであり、入出力制御インターフェース部108は、出力部(入力部112、表示部114、および、音声出力部116)に接続されるインターフェースである。また、記憶部106は、各種のデータベースやテーブルなどを格納する装置である。これら知識情報処理装置100の各部は任意の通信路を介して通信可能に接続されている。更に、知識情報処理装置100は、知識情報処理装置100とネットワーク(またはルータ等の通信装置)との間における通信制御を行う通信制御インターフェース部を備えていてもよく、当該通信制御インターフェース部は、外部システム、および、他の端末等と通信回線を介してデータを通信する機能を有していてもよい。また、知識情報処理装置100は、ルータ等の通信装置および専用線等の有線または無線の通信回線を介して、ネットワークに通信可能に接続されていてもよい。
記憶部106に格納される各種のデータベースやテーブル(知識ベース106a、および、関連情報データベース106b)は、固定ディスク装置等のストレージ手段である。例えば、記憶部106は、各種処理に用いる各種のプログラム、テーブル、ファイル、データベース、および、ウェブページ等を格納する。
これら記憶部106の各構成要素のうち、知識ベース106aは、自然言語により記述される単語、句、文または文の一群に対する固有の識別情報を対応付けた、単語、句、文または文の一群に表現された知識を示すノードに関するノード情報と、ノードの性質および/またはノード間の関連性を示すアークに関するアーク情報と、を含む、単語、句、文または文の一群と知識とが明確な対応関係をもって表現された、知識オブジェクトネットワークに関する知識オブジェクトネットワーク情報を記憶する知識記憶手段である。ここで、知識オブジェクトネットワークを構成するノードは、各ステートメントオブジェクトネットワークにおいて一様の抽象度レベルに対応するノードを投射したもの、または、上記各ステートメントオブジェクトネットワークの個別領域において各々設定された上記抽象度レベルに対応する上記ノードを投射したものであってもよい。また、知識オブジェクトネットワーク情報を構成するノード情報は、実験データの解析結果または推定結果であってもよい。また、識別情報は、単語、句、文または文の一群が掲載された文章(例えば、学術論文等)を特定する情報であってもよい。また、ノード情報、および/または、アーク情報は、データ(知識)の参照元情報(例えば、URL、および/または、Webページ名等)を含んでいてもよい。
また、関連情報データベース106bは、ノードの関連情報を記憶する関連情報記憶手段である。ここで、関連情報データベース106bは、図に示すように、タンパク質情報データベース106c、遺伝子情報データベース106d、分子間相互作用情報データベース106e、パスウェイ情報データベース106f、文献情報データベース106g、および、ニュースデータベース106hを少なくとも備えて構成されている。
ここで、タンパク質情報データベース106cは、タンパク質に関するタンパク質情報を記憶するタンパク質情報記憶手段である。ここで、タンパク質情報は、タンパク質の構造情報を含んでいてもよい。また、タンパク質情報データベース106cは、細胞内または生体内のネットワーク(例えば、分子間相互作用ネットワーク、シグナル伝達ネットワーク、代謝ネットワーク、または、遺伝子制御ネットワーク等)上におけるタンパク質の位置に関する位置情報を含む、当該ネットワークに関するネットワーク情報に対応付けて、当該タンパク質の構造に関するタンパク質構造情報を記憶してもよい。これらタンパク質情報は、タンパク質情報データベース106cに予め記憶されており、知識情報処理装置100の制御部102は、定期的に、および/または、制御部102による処理に応じて(例えば、制御部102においてデータが必要となる契機等に)ネットワークを介して最新のデータを外部システム等からダウンロードしてタンパク質情報データベース106cに記憶されたタンパク質情報をアップデートしてもよい。
また、遺伝子情報データベース106dは、遺伝子に関する遺伝子情報を記憶する遺伝子情報記憶手段である。ここで、遺伝子情報は、塩基配列、遺伝子型、ゲノタイプ、フェノタイプ、および/または、アノテーション等に関する情報を含んでいてもよい。これら遺伝子情報は、遺伝子情報データベース106dに予め記憶されており、知識情報処理装置100の制御部102は、定期的に、および/または、制御部102による処理に応じてネットワークを介して最新のデータを外部システム等からダウンロードして遺伝子情報データベース106dに記憶された遺伝子情報をアップデートしてもよい。
また、分子間相互作用情報データベース106eは、生体分子の分子間相互作用に関する分子間相互作用情報を記憶する分子間相互作用情報記憶手段である。ここで、分子間相互作用情報は、細胞内または生体内の分子間相互作用に関する相互作用情報であってもよい。これら分子間相互作用情報は、分子間相互作用情報データベース106eに予め記憶されており、知識情報処理装置100の制御部102は、定期的に、および/または、制御部102による処理に応じてネットワークを介して最新のデータを外部システム等からダウンロードして分子間相互作用情報データベース106eに記憶された分子間相互作用情報をアップデートしてもよい。
また、パスウェイ情報データベース106fは、生体分子のパスウェイに関するパスウェイ情報を記憶するパスウェイ情報記憶手段である。ここで、パスウェイとは、生体内の代謝経路または信号伝達経路等であってもよい。これらパスウェイ情報は、パスウェイ情報データベース106fに予め記憶されており、知識情報処理装置100の制御部102は、定期的に、および/または、制御部102による処理に応じてネットワークを介して最新のデータを外部システム等からダウンロードしてパスウェイ情報データベース106fに記憶されたパスウェイ情報をアップデートしてもよい。
また、文献情報データベース106gは、学術論文を含む文献に関する文献情報を記憶する文献情報記憶手段である。ここで、文献情報データベース106gは、出版社などの保有する文献情報(文献関連データ)を記憶してもよい。これら文献情報は、文献情報データベース106gに予め記憶されており、知識情報処理装置100の制御部102は、定期的にネットワークを介して世界中で逐次発表される最新のデータを外部システム(例えば、出版社および国家機関等の文献情報を提供する文献情報提供サービスなど)等からダウンロードして文献情報データベース106gに記憶された文献情報をアップデートしてもよい。
また、ニュースデータベース106hは、ニュース配信サービスが提供するニュースを記憶するニュース記憶手段である。ここで、ニュース配信サービスとは、新聞社、出版社、ポータルサイト、または、通信社等が提供する配信サービスであってもよい。
また、図2において、入出力制御インターフェース部108は、入力部112、表示部114、および、音声出力部116の制御を行う。
ここで、入力部112は、例えば、キー入力部、タッチパネル、コントロールパッド(例えば、タッチパッド、および、ゲームパッド等)、マウス、キーボード、および、マイク等であってもよい。また、表示部114は、アプリケーション等の表示画面を表示する表示手段(例えば、液晶または有機EL等から構成されるディスプレイ、モニタ、および、タッチパネル等)であってもよい。また、音声出力部116は、音声情報を音声として出力する音声出力手段(例えば、スピーカ等)であってもよい。
また、図2において、制御部102は、OS(Operating System)等の制御プログラムや、各種の処理手順等を規定したプログラム、および、所要データを格納するための内部メモリを有する。そして、制御部102は、これらのプログラム等により、種々の処理を実行するための情報処理を行う。制御部102は、機能概念的に、構造解析部102a、知識抽出部102b、格納部102c、特定情報取得部102d、および、特定情報出力部102eを備える。
このうち、構造解析部102aは、文で構成される任意の文章に対する構造解析を行い、当該文章を構成する単語、句、文または文の一群を抽出する構造解析手段である。ここで、文章は、生命科学の学術論文であってもよい。また、文章は、新聞、雑誌、または、ウェブページ等であってもよい。
また、知識抽出部102bは、単語、句、文または文の一群と句構造テンプレートとのマッチングを行うことにより知識を抽出する知識抽出手段である。ここで、知識抽出部102bは、単語、句、文または文の一群に対してプリプロセッシングを行い、明らかに除外できる挿入句などを取り除いた後、単語、句、文または文の一群と句構造テンプレートとのマッチングを行うことにより知識を抽出してもよい。また、知識抽出部102bは、単語、句、文または文の一群に対して構文解析を利用してマッチングを行うことにより知識を抽出してもよい。また、知識抽出部102bは、テンプレートマッチング以外のテキストマイニング手法を用いることにより知識を抽出してもよい。
また、格納部102cは、任意の単語に対応するノードが知識ベース106aに記憶された知識オブジェクトネットワーク情報に基づく知識オブジェクトネットワークに含まれていない場合、任意の単語に表現された知識を示すノードに関するノード情報を知識ベース106aに格納し、当該ノードとの間に相互背反を締めるアークを設定し、アークに関するアーク情報を知識ベース106aに格納し、任意の単語に対応するノードが知識ベース106aに記憶された知識オブジェクトネットワーク情報に基づく知識オブジェクトネットワークに含まれている場合、任意の単語に対する識別情報を当該ノードに関するノード情報に対応付けて知識ベース106aに格納する格納手段である。ここで、格納部102cは、更に、格納されたノードとの間に相互背反を締めるアークが設定された場合、当該相互背反であるか否かの評価を要求する当該アークに関するアーク情報を出力部を介して出力させ、入力部112を介して相互背反であるとの評価が入力された場合、当該アーク情報を知識ベース106aに格納してもよい。また、格納部102cは、構造解析部102aにより抽出された単語、句、文または文の一群に対応するノードが知識ベース106aに記憶された知識オブジェクトネットワーク情報に基づく知識オブジェクトネットワークに含まれていない場合、単語、句、文または文の一群に表現された知識を示すノードに関するノード情報を知識ベース106aに格納し、ノードとの間に相互背反を締めるアークを設定し、アークに関するアーク情報を知識ベース106aに格納し、単語、句、文または文の一群に対応するノードが知識ベース106aに記憶された知識オブジェクトネットワーク情報に基づく知識オブジェクトネットワークに含まれている場合、単語、句、文または文の一群に対する識別情報を当該ノードに関するノード情報に対応付けて知識ベース106aに格納してもよい。また、格納部102cは、知識抽出部102bにより抽出された知識に関する知識情報を含む、マッチングされた単語、句、文または文の一群に対応するノード情報を知識ベース106aに格納してもよい。
また、特定情報取得部102dは、任意の単語に対応する、知識ベース106aに記憶された知識オブジェクトネットワーク情報に基づく知識オブジェクトネットワークを構成するノードを特定し、当該ノードに関するノード情報および/またはアーク情報を含む特定情報を取得する特定情報取得手段である。ここで、特定情報取得部102dは、更に、任意の単語に対応するノードの関連情報を関連情報データベース106bから検索し、当該検索された関連情報を取得してもよい。また、特定情報取得部102dは、入力部112を介して任意の単語が指定された場合、任意の単語に対応する、知識ベース106aに記憶された知識オブジェクトネットワーク情報に基づく知識オブジェクトネットワークを構成するノードを特定し、当該ノードに関するノード情報および/またはアーク情報を含む特定情報を取得してもよい。また、特定情報取得部102dは、任意の図に含まれる単語に対応する、知識ベース106aに記憶された知識オブジェクトネットワーク情報に基づく知識オブジェクトネットワークを構成するノードを特定し、当該ノードに関するノード情報および/またはアーク情報を含む特定情報を取得し、ノードの関連情報を関連情報データベース106bから検索し、当該検索された関連情報を取得してもよい。ここで、特定情報(ノード情報、および/または、アーク情報)、および/または、関連情報は、データの参照元情報(例えば、URL、および/または、Webページ名等)を含んでいてもよい。
また、特定情報出力部102eは、特定情報を出力部を介して出力させる特定情報出力手段である。ここで、特定情報出力部102eは、更に、関連情報を出力部を介して出力させてもよい。また、特定情報出力部102eは、特定情報および/または関連情報に基づく項目を出力部を介してリスト形式で選択可能に出力させ、入力部112を介して項目が選択された場合、当該選択された項目に関する特定情報および/または関連情報を出力部を介して出力させてもよい。また、特定情報出力部102eは、特定情報および/または関連情報に基づく項目を出力部を介してネットワーク形式で選択可能に出力させ、入力部112を介して項目が選択された場合、当該選択された項目に関する特定情報および/または関連情報を出力部を介して出力させてもよい。
以上で、本実施の形態における知識情報処理装置100の構成の一例の説明を終える。
[知識情報処理装置100の処理]
次に、このように構成された本実施の形態における知識情報処理装置100の処理の詳細について、以下に図3乃至図28を参照して詳細に説明する。ここでは、知識情報処理装置100を利用してユーザが論文を起点に知識ベース106aおよび関連情報データベース106bに連続的にアクセスし、解析や参照を行う一例を説明する。図3は、本実施の形態における知識情報処理装置100の処理の一例を示すフローチャートである。
図3に示すように、構造解析部102aは、ユーザにより入力部112を介して文で構成される文章である生命科学の学術論文が指定され、当該学術論文が未だ構造解析されていない場合、当該学術論文に対する構造解析を行い、当該学術論文を構成する単語、句、文または文の一群(段落)を抽出する(ステップSB−1)。ここで、文章は、新聞、雑誌、または、ウェブページ等であってもよい。このように、構造解析部102aは、ユーザによりある論文が指定され、これが新規の論文の場合、直ちに文章解析が行われる。
そして、知識抽出部102bは、構造解析部102aにより抽出された単語、句、文または段落と句構造テンプレートとのマッチングを行うことにより知識を抽出する(ステップSB−2)。ここで、知識抽出部102bは、構造解析部102aにより抽出された単語、句、文または段落に対してプリプロセッシングを行い、明らかに除外できる挿入句などを取り除いた後、単語、句、文または段落と句構造テンプレートとのマッチングを行うことにより知識を抽出してもよい。また、知識抽出部102bは、構造解析部102aにより抽出された単語、句、文または段落に対して構文解析を利用してマッチングを行うことにより知識を抽出してもよい。また、知識抽出部102bは、構造解析部102aにより抽出された単語、句、文または段落に対して、テンプレートマッチング以外のテキストマイニング手法を用いることにより知識を抽出してもよい。
そして、特定情報取得部102dは、ユーザにより入力部112を介して指定された学術論文中の単語が指定された場合、当該単語に対応する、知識ベース106aに記憶された知識オブジェクトネットワーク情報に基づく知識オブジェクトネットワークを構成するノードを特定し、知識ベース106aに記憶された当該ノードに関するノード情報および/またはアーク情報を含む特定情報を取得し、ノードの関連情報を関連情報データベース106bから検索し、当該検索された関連情報を取得する(ステップSB−3)。ここで、特定情報取得部102dは、ユーザにより入力部112を介して複数の単語を含む図が入力された場合、図に含まれる単語に対応する、知識ベース106aに記憶された知識オブジェクトネットワーク情報に基づく知識オブジェクトネットワークを構成するノードを特定し、知識ベース106aに記憶された当該ノードに関するノード情報および/またはアーク情報を含む特定情報を取得し、ノードの関連情報を関連情報データベース106bから検索し、当該検索された関連情報を取得してもよい。
ここで、図4を参照して、本実施の形態における知識情報取得処理の一例について説明する。図4は、本実施の形態における知識情報取得処理の一例を示す図である。
図4に示すような相互作業図が、ユーザにより論文などから特定され、それが入力された場合、制御部102は、図4に記載されたネットワークに関して、その要素の組み合わせなどから、この部分、または、この部分を含む相互作用ネットワークを知識ベース106aから抽出し、可視化して提示することができる。すなわち、この場合、ユーザは、図を一つの検索キーとして利用して、その関連部分の全体の情報を一早く入手することができる。例えば、ユーザにより「哺乳動物細胞が、刺激物質Xによって刺激されている時に、タンパク質Aがリン酸化されている事例」が入力された場合、制御部102は、当該事例を検索し、これに対応する知識オブジェクトネットワークを知識ベース106aから同定し、そこにリンクされている実験結果などからこの条件を満たす実験事例を表示することができる。
また、図5乃至図8を参照して、本実施の形態における知識オブジェクトネットワークの一例について説明する。
本実施の形態における知識ベース106aに記憶される情報の中核は、知識オブジェクトネットワーク(KON)であり、対象分野の知識がここに表現される。KONは、対象となる実体および関係などをノードとアークとを利用して表現される。例えば、タンパク質は、実体でありノードで表現される。さらに、そのタンパク質の性質、または、他のタンパク質との関連などは、関係でありアークを利用して表現される。
本実施の形態において、KONは、SON(Statement Object Network)、および、DON(Data Object Network)より確率的に導出されてもよい。ここで、SONは、自然言語で表現された記述のネットワークであることの対称としてのデータを基盤とした仮説のネットワークであってもよい。また、DONは、遺伝子発現データ、代謝プロファイルデータもしくはゲノム配列データなどから、各種解析手法を用いて推定される生物学的オブジェクト、または、生物学的関係性に関する仮説から構成されるネットワークであってもよい。
すなわち、KONは、知識の表現としての言明から再構造化されたSON、さらにDONから、最も蓋然性が高いと推定された仮説の集合体であってもよい。ここで、知識は、あくまで仮説の集合体であるという考えをとってもよく、新たなデータおよび推論により、従来の知識が反証されることがあってもよい。したがって、知識は、確定し変更不可能な公理ではなく、あくまで仮説の集合体であってもよい。また、一般に「仮説」とは、確度が低い、または、他の知識と矛盾が生じる可能性が高いものであるが、広く受け入れられている知識は、確度が高い仮説であってもよい。このような仮説の確度が高まる場合には、それと矛盾する仮説群の確度の変更、および、前提条件の変更が必要となる。
ここで、図5を参照して、本実施の形態におけるSONの一例について説明する。図5は、本実施の形態におけるSONの一例を示す図である。
図5に示すように、本実施の形態におけるSONは、同じ対象や関係性に対して、多様な抽象度をもった言明を反映した構造化された知識表現であるStatement Objectの階層構造(一般には、木構造で表される)と、Statement Object間の関連を示すアーク(ノード)と、によって構成されるネットワークである。本実施の形態におけるSONでは、木構造を構成するStatement Objectが、別の木構造の一部となることがあってもよい。すなわち、図5に示すSONにおいては、図中の最上部(文001001:AはBを活性化する)の抽象度が最も高く、中間部(文001002:Aはリン酸化によりBを活性化する)の抽象度がその次に高く、最下部(文002001:Aはチロシン残基245のリン酸化によりBを活性化する、文003001:Aはチロシン残基382のリン酸化によりBを活性化する)の抽象度が低くなっており、下にいくほど抽象度が低く(詳細な言明)となっている。
また、図6乃至図8を参照して、本実施の形態における投射方法の一例について説明する。図6乃至図8は、本実施の形態における投射方法の一例を示す図である。
ここで、図6に示すように、本実施の形態におけるSONからKONの導出方法、すなわち、階層表現SONから知識オブジェクトネットワーク(KON)への投射方法としては、SONにおける各々の階層構造を構成する木構造では、上位階層はより抽象的な知識が記述されており、この木構造の最下層はその項目に対して知られている最も詳細な知識が記述されているため、原則として、SONの階層の最も下層のノードに記述されている知識の内容を、KONへと投射してもよい。すなわち、KONは、SONの最下層のノードを射影したものであってもよい。すなわち、SONからKONへの導出は、SONでの抽象度レベルが一様となるノードを射影したものであってもよい。
また、図7に示すように、本実施の形態における階層表現SONから知識オブジェクトネットワーク(KON)への投射方法としては、SONの一定レベルの階層に関する知識をKONへ射影したものであってもよい。すなわち、SONからKONへの導出は、各々のSONの個別領域において各々設定された抽象度(抽象化)レベルに対応した射影を行うものであってもよい。ここで、本実施の形態において、射影によって生成されたKONは、SONに新たなノードが追加された際には、自動的に再計算され更新されてもよい。さらに、本実施の形態においては、生成されたKONの一貫性の検証に、部分ユニフィケーション、または、Truth Maintenance System(TMS)などの人工知能手法を利用してもよい。
例えば、本実施の形態においては、SON全域において、KONに投射するノードの抽象化レベルを「分子間の活性化・抑制化の相互作用関係」という抽象度(詳細度)レベルに設定した場合、それより詳細な記述がある場合であっても、設定された詳細度に従って、射影が行われ、分子間の活性・抑制関係という抽象度レベルを反映したKONが生成される。更に、KONに投射するノードの抽象化レベルをより詳細なレベル、例えば、相互作用のプロセスを、リン酸化、アセチル化、メチル化、および、ユビキチン化などの修飾までも含めるレベルに設定した場合、これらの内容を含むネットワーク表現に基づくKON(分子間のリン酸化、アセチル化、メチル化、または、ユビキチン化などによる活性・抑制関係という抽象度レベルを反映したKON)が生成される。このように、本実施の形態においては、詳細度レベルの設定により、注目する相互作用または生物学的プロセス等に関するノードをより詳細なレベルでKONに射影し、それ以外の(例えば、ユーザの興味対象外の知識に関する)ノードをより抽象的なレベルでKONに射影する設定をすることができる。
また、図8に示すように、本実施の形態における階層表現SONから知識オブジェクトネットワーク(KON)への投射方法としては、SONを構成するノードに記述されている知識を、KONへと投射することにより、KON上のノードとアーク(有向グラフ)とで表現されるようにしてもよい。
図3に戻り、特定情報出力部102eは、特定情報取得部102dにより取得された特定情報および関連情報を表示部114に表示させる(ステップSB−4)。ここで、特定情報出力部102eは、特定情報および/または関連情報に基づく項目を表示部114にリスト形式で選択可能に表示させ、ユーザにより入力部112を介してリスト中の項目が選択された場合、当該選択された項目に関する特定情報および/または関連情報を表示部114に表示させてもよい。また、特定情報出力部102eは、特定情報および/または関連情報に基づく項目を表示部114にネットワーク形式で選択可能に表示させ、ユーザにより入力部112を介してネットワーク中の項目が選択された場合、当該選択された項目に関する特定情報および/または関連情報を表示部114に表示させてもよい。このように、特定情報出力部102eは、ユーザにより単語が指定された場合に、可能な処理のアクションが提示可能となる。このような機能の提示は、指定された単語が実際に何を意味していて、知識ベース106aにどのような記述があり、どのようなデータベースに関連情報が存在するかが同定されない限り不可能であるが、本実施の形態においては、このような参照関係を直ちに作り上げるので、新たな論文に関してこのような処理が可能となる。
そして、格納部102cは、構造解析部102aにより抽出された単語、句、文または段落に対応するノードが知識ベース106aに記憶された知識オブジェクトネットワーク情報に基づく知識オブジェクトネットワークに含まれていない場合、単語、句、文または段落に表現された知識を示すノードに関するノード情報を知識ベース106aに格納し、ノードとの間に相互背反を締めるアークを設定し、アークに関するアーク情報を知識ベース106aに格納し、単語、句、文または段落に対応するノードが知識ベース106aに記憶された知識オブジェクトネットワーク情報に基づく知識オブジェクトネットワークに含まれている場合、単語、句、文または段落に対する識別情報を当該ノードに関するノード情報に対応付けて知識ベース106aに格納し(ステップSB−5)、処理を終了する。ここで、格納部102cは、更に、格納されたノードとの間に相互背反を締めるアークが設定された場合、当該相互背反であるか否かの評価を要求する当該アークに関するアーク情報を出力部を介して出力させ、入力部112を介して相互背反であるとの評価が入力された場合、当該アーク情報を知識ベース106aに格納してもよい。また、格納部102cは、知識抽出部102bにより抽出された知識に関する知識情報を含む、マッチングされた単語、句、文または段落に対応するノード情報を知識ベース106aに格納してもよい。
なお、本実施の形態においては、ユーザにより論文のファイルが指定された段階で、自動的に全文を解析し、その中にある知識を抽出し、それに対応する単語や文に対してリンクなどを付与することで、論文の知識オブジェクト化をしてもよい。
ここで、図9乃至図18を参照して、本実施の形態における知識蓄積(格納)処理の一例について説明する。図9および図10は、本実施の形態における知識オブジェクト化の一例を示す図である。図11は、本実施の形態における段落分類処理の一例を示す図である。図12は、本実施の形態における段落の文構成の一例を示す図である。図13および図14は、本実施の形態における文6および文8の構成の一例を示す図である。図15、図16および図18は、本実施の形態における知識抽出処理の一例を示す図である。図17は、本実施の形態におけるテンプレートの一例を示す図である。
まず、制御部102は、ユーザにより指定された論文に対して、その文章構造を解析し、図9に示すように、それを構成する段落、各々の段落を構成する文、および、文を構成する単語のネットワークを生成してもよい。そして、図10に示すように、各々の論文における段落および文に関しては、木構造となるが、単語に関しては、複数の文に対して参照リンクが生成されることがあってもよい。このように、複数の論文に対してこの処理が繰り返されることで、複数の論文に出現する同じ単語からの参照リンクが、複数の論文に含まれる複数の文に対して生成される事となる。
このプロセスにおいて、図11に示すように、制御部102は、段落構造を保持して抽出する場合、タイトル、概要、または、本文中の段落などに分類して段落を抽出してもよい。また、このプロセスにおいて、制御部102は、段落構造を抽出せずに、論文の下部構造を直接「文」として抽出してもよい。
次に、図12に示すように、制御部102は、各々の文に対して、ユニークなID(文1−文10等)をアサインしてもよい。当該IDは、単に論文中でのユニークIDではなく、グローバルユニークIDであり、全ての論文群から、ユニークIDで、文章が特定できるようにしてもよい。例えば、このシステムを生命科学分野に対して運用する場合、このIDは、生命科学分野で今まで「文」として表現された知識の全てに対してユニークにアサインされるものであってもよい。さらに、このIDは、生命科学関連データベースの各々のデータオブジェクトに拡張することを可能としてもよい。それにより、そのIDの集合体は、最終的には生命科学に関する全ての知識の集合体となる。例えば、図13に示すように、各々の文(文6、および、文8)に対して、文中に含まれる遺伝子名またはタンパク質名などの生物領域に関係する単語または句は、固有の参照関係を有する知識オブジェクトネットワークを構成する。また、図14に示すように、複数の言語表現(表記)が存在する対象物に対しては、点線で囲まれた部分のように表してもよい。例えば、Far1というタンパク質の表現は、「Far1」と表記する場合と、「Far1p」と表記する場合と、複数存在するが、これらは全て同じ実体に対応するため、この構造(点線で囲まれた部分)を組み込む事で、Far1と記述している文と、Far1pと記述している文と、の間の関係性を保持する事が可能となる。これは、固有名詞だけではなく、何らかの関係性を表現する句(Phrase)に対しても適応されてもよい。例えば、”A activates B”と”B is activated by A”とは、同じ現象の二つの違った言語表現であり、双方ともにその現象を表す同じ実体に関連付けられてもよい。
ここで、図15のように、文(文6)から、構造化された知識(中間言語表現1、および、相互作用図1)を取り出す処理について説明する。図16に示すように、文6の原文からこれらのTEMPLATEに対応させる際に、プリプロセッシングという事前処理を行い、明らかに除外できる挿入句などを取り除くことで”Far1−Cdc24 complex is exported from the nucleus by Msn5”とし、その後、事前処理後の文6とTEMPLATEとのマッチングを行うことで、相互作用図1のような知識を抽出してもよい。すなわち、入力された文が、蓄積されているTEMPLATEのいずれかと完全にマッチングできた場合には、そのTEMPLATEに対応する論理式表現およびグラフィック表現などを知識ベースに追加してもよい。但し、入力された文が、TEMPLATEのいずれかと完全なマッチングがとれない場合には、別に定義された評価式等にしたがって最も類似している(距離が近い)と思われるTEMPLATEを一つまたは複数選択し、その論理式およびグラフ表現を、一定の信頼度係数を加えた上で知識ベースに追加してもよい。さらに、この処理の際、または、別に定義されたタイミングで、抽出された知識をユーザに提示し、その正確性の確認を行い、その文に完全に対応するTEMPLATEを生成してもよい。ここで、新たなTEMPLATEが生成された場合、そのTEMPLATEに完全に合致する文が存在するか否かを再探索し、合致した文は、その知識情報の更新を行ってもよい。また、より広範な表現に効率的に対応する為に、TEMPLATEは、階層的に定義されてもよい。また、TEMPLATEの代わりに、構文解析を利用してマッチングを進めてもよい。その場合は、解析木をTEMPLATEの代わりに蓄積してもよい。さらに、TEMPLATEおよび構文解析を利用する方式を混合して、マッチングを進めてもよい。
また、図17に示すように、本実施の形態においては、同じ事象を表現する二つの文(文1、および、文2)がある場合、TEMPLATE1を用いて文1からの知識抽出を行い、TEMPLATE2を用いて文2から同様の知識抽出を行ってもよい。ここで、TEMPLATEの種類は、自然言語の表現に対応する非常に大きな数に上るが、限定領域においては、非常に膨大ではあるが、無限ではなく、おおよそ有限であると考えられる。
そして、これらの手法で構造化され変換された知識(階層的知識表現)は、階層的抽象度を有する知識ベース106aとして統合されてもよい。本実施の形態においては、階層的抽象度を有し、論文などの記載と構造化された知識との対応を保持し、同等、競合、または、包括などの関係を維持および管理する事が出来る知識表現形式を利用している。
従来の知識ベースまたはデータベースでは、論文または論文内の言明と構造化された知識との対応関係は失われていた。このため、従来の知識ベース等に記述されている知識の起源をたどる事が直接は不可能であった。しかし、本発明においては、各々の言明に対応する知識表現を知識ベース106aの一部として表現しているために、直接的に知識の起源となる言明を同定する事が可能となる。
また、従来の知識ベース生成手法では、人間が複数の文献などから得た情報を基に、一定の解釈を行い、それを構造化した形で記述を行い、知識ベースに追加していた。しかし、この方法では、人間の解釈の恣意性が介在する可能性が高い。本実施の形態における手法では、文または複数の文による言明毎に構造化した知識として蓄積し、一義的に自動化されるので、人による恣意的解釈の入る余地を大幅に減らす事が可能となった。
また、本実施の形態における知識表現は、論文などに表現されている知識を表現する為に、階層的詳細化を可能とする知識表現を用いる。ここで、対象の事象に関して知られているある一定の事項(「知識」)が表現されている自然言語の文または文の一群を「言明」(Statement)と呼ぶ。言明は、必ずしもその対象物に関する全ての事項が表現されている訳ではなく、その一部を表現していることがほとんどである。
これに対して、従来の知識表現手法を利用する場合では、全ての項目の中から表現されている部分を記述し、その他の部分は記述しないという手法を用いていた。ここで、他の言明からの知識は、その知識表現が記述されていない部分に新たに記述し、既に記述されている部分はそのままにすることで、一連の言明に記述されている知識を重ねて行く方式であった。それにより、この従来の知識表現方法では、どの言明がどの知識を表現していたのかを明示的に表現する事が出来なかった。また、ある言明が抽象的であり、別の言明がより詳細な知識を内蔵していた場合、二つの言明の関係性などを表現する事が出来なかった。ところが、一般の論文などでは、各々の言明は、別々の抽象度と部分的な知識とを表現している。このため従来の知識表現方法では、各々の言明とそこで表現されている知識との対応関係を明確に維持しながら知識ベースとして蓄積、精密化する事が出来なかった。
一方、本実施の形態においては、これらの問題点を解決し、各々の抽象度、および、言明に表現された部分的知識を明確な対応関係をもって表現する事で、論文などからの知識の集積を可能としている。
例えば、図18に示すように、ある論文の一部に含まれる文に、Far1−Cdc24複合体のMsn5との相互作用に関する記述があり、この文には、Far1−Cdc24の複合体が、Msn5によって核内から核外に移送されるということが一つの知識として記述されている(言明1)。しかし、この言明自体からは、移送された複合体は、どこにたどり着くのか、どのようなFar1−Cdc24複合体でも移送されるのか、どのようなMsn5が移送に介在するのかなど、より詳細な情報は記述されていない。ここで、別の論文に、移送されたFar1−Cdc24が、細胞膜近傍に到達し、GPCR結合タンパク質と相互作用するという言明(言明2)が記述されていたとすれば、その言明2に表現されている知識を同時に知識ベース106aに蓄積する事で、最初の論文では不明確であった部分の詳細が補完されることになる。そして、ユーザが統合された知識表現を蓄積した知識ベース106aを検索して、Far1−Cdc24が、細胞膜付近に到達するという情報を取得し、その根拠となる論文を探した場合、本実施の形態における知識ベース106aにおいては、各々の知識に対してその根源となる言明を明示的に関連付けているため、言明2および言明2が記載された論文が、その知識の根拠としてユーザに提示される。すなわち、本発明をユーザが利用することにより、言明1ではなく、適切な言明である言明2に関する情報が提示されることになる。
さらに、本実施の形態においては、論文などから導出された知識体系であるSONに基づく知識オブジェクトネットワークを構築するだけでなく、実験データ等のデータからの推論で構成される仮説群に基づく知識オブジェクトネットワーク(データ駆動型知識オブジェクトネットワーク)を構築してもよい。ここで、各々のデータ駆動型仮説生成機構は、その目的毎にモジュール化されていてもよく、例えば、遺伝子制御関係をデータから推定する場合、複数の制御関係推定ソフトウェアを実装し、これらの結果を各々算出、または、一定の規則で決められた計算に基づき算出してもよい。この際に、所与のデータから推定される遺伝子制御ネットワークを、ユーザに提示してもよく、特定の相互作用に対して、一連のデータからどのようにその知識を指示、または、却下するかなどに関連するデータからの推論をユーザに提示してもよい。
また、新たな知識の発見は、類推、帰納、および、演繹などを組み合わせた仮説生成からもたらされるため、知識ベース106aの構造から、類似の構造であるが、その一部が欠落しているものなどをユーザに提示する事で、ユーザに新たな発見のヒントを与える、すなわち、発見サポートをすることができる。さらに、本実施の形態においては、いわゆる発見科学において利用される自動法則発見アルゴリズム群を実効し、自動的に新たな科学的仮説を形成してもよい。また、従来知られていない組み合わせにより新たな仮説の生成を行い、その仮説をユーザに提示し、その妥当性を記録してもよい。
また、一般に、生物モデルの動的シミュレーション(データ駆動型動的シミュレーション)は、モデルにパラメータと数式を付与して、数値計算を行う事で実行することがおおい。しかし、実際には、多くの実験データがあり、これらを構造化し蓄積する事で、生物モデルがある条件でどのように挙動するかを実際の実験データを検索し、外挿および内挿する形で解を導く事も可能である。これは、単にモデルの動的挙動が得られるという事のみならず、既知の実験データから導かれる近似解であり、従来の数値解析とは別の重要性を持つものと考えられる。そこで、本実施の形態においては、これを実現する為に、各々の実験データは、細胞の種類、その条件、刺激、各タンパク質の活性度、各タンパク質の総量、および/または、遺伝子の発現レベルなどの数値を構造化してもよい。本実施の形態においては、ある細胞に対して、特定の条件で、特定の刺激が行われ、ある遺伝子の発現の変動を見ようとする場合、当該条件に出来るだけ合致する実験データを検索し、そのデータ群から遺伝子の発現変動データを得てもよい。また、本実施の形態においては、同一条件の実験データがある場合、その実験の結果を最もあり得る解として提示してもよい。また、本実施の形態においては、同一条件の実験データが複数ある場合、各々の結果を提示されるとともに、結果のばらつき、および/または、平均値などの統計データも付加した形で提示してもよい。また、本実施の形態においては、同一条件の実験データが無い場合、別途指定される緩和規則に従って、最も近いと計算される実験とその結果とを提示してもよい。ここで、複数の実験が最も近いと計算される実験となりうる場合には、その場合は、各々の結果と各々の統計データとを提示してもよい。
ここで、図19乃至図28を参照して、本実施の形態における知識情報処理方法の一例について説明する。図19、および、図25乃至図28は、本実施の形態における知識情報処理方法の一例を示す図である。
まず、ユーザは、ある論文を指定すると、これが新規の論文の場合、構造解析部102aにより直ちに文章解析が行われる。そして、ユーザにより単語(例えば、Cdc24)が指定された場合、知識抽出部102bによる解析の結果、既に、これが出芽酵母のタンパク質であることが知識ベース106aとの照合で同定され、さらに知識ベース106a内のCdc24タンパクのオブジェクトと参照が成立しているため、特定情報取得部102dは、特定情報および関連情報を素早く取得する。そして、図19に示すように、特定情報出力部102eは、Cdc24という単語が指定された場合、可能な処理(アクション)を提示することができる。
ここで、図20乃至図24を参照して、本実施の形態における情報出力の一例について説明する。図20乃至図22は、本実施の形態におけるS−SNSの一例を示す図である。図23および図24は、本実施の形態における情報提示の一例を示す図である。
ここで、特定情報出力部102eは、指定された項目に対する可能な処理を提示する場合、指定された単語、アイコン、リンクなど自体、または、そのリンク先の属性に対して、その属性となるデータに対する処理が可能なソフトウェアまたはウェッブサービスをソフトウェア・ソシアルネットワーク(S−SNS)から検索し、その候補を提示してもよい。ここで、指定された単語、または、リンク先の属性(データ型とも呼ぶ)としては、遺伝子名、タンパク質名、酵素名、遺伝子発現データ、ゲノム配列データ、質量分析データ、または、タンパク質構造データなどが含まれるが、これらに限らず当該作業に関連するものを含んでいてもよい。
ここで、図20に示すように、本実施の形態におけるS−SNSは、上記データ型を出力するソフトウェアと、それらのデータ型の出力を入力として処理することが可能なソフトウェアと、の関係性を記述したネットワークであってもよい。このネットワークは、新たなデータ型の導入、または、ソフトウェアもしくはウェッブサービスの導入の際に、更新されてもよい。なお、従来では、あるデータ型に対してどのソフトウェアを利用することで、その解析処理が行えるかが明示的ではなく、あるソフトウェアの出力、または、選択されたデータが、他のどのソフトウェアでどのように処理されるかを知ることは困難であった。しかし、本実施の形態におけるS−SNSを用いることにより、これらの処理等の関係をユーザに明示することができ、ユーザは、連続的にデータ解析を行う事が可能となる。
また、図20に示すように、本実施の形態におけるS−SNSは、相互に関係するデータ等を、相互関係が分かるようにネットワークの形式で可視化してもよく、図21に示すように、マトリックス形式で表示してもよい。さらに、図22に示すように、本実施の形態におけるS−SNSは、あるソフトウェアに対して、どのようなデータ型が関係づけられるか、および、当該データ型に対応する(当該データ型を処理可能な)ソフトウェアが関係づけられるかを表示してもよい。また、図23に示すように、分子間相互作用ネットワークの表示から項目を選択し、関連した処理を継続することも同様の機構で可能である。また、図24に示すように、選択された項目に関連した諸般の情報を統一的に表示するソフトウェアと連携し、その画面を表示してもよい。図24においては、選択された項目に関連するニュース、論文、データベースの項目、および、選択された項目がインターネット上でどのくらい検索されているかトレンド解析などが表示してもよい。
そして、図25に示すように、特定情報取得部102dは、Cdc24がタンパク質なので、それをコーディングしている遺伝子CDC24を利用したジーンエンリッチメントの遺伝子情報データベース106dに対する検索、タンパク質情報データベース106c(例えば、スイス・プロット等)に対するタンパク質情報の検索、タンパク質相互作用(PPI)情報の分子間相互作用情報データベース106eに対する検索を行うことができる。すなわち、図25に示すように、特定情報取得部102dは、Cdc24がタンパク質であるという付加情報を利用して、より正確なCdc24に関する情報を検索することもできる。さらに、図26に示すように、特定情報出力部102eは、Cdc24が要素として含まれているパスウェイをパスウェイ情報データベース106fより提示することもできる。また、特定情報出力部102eは、知識ベース106aまたは関連情報データベース106bに記憶される知識情報の断片をユーザに提示してもよく、例えば、相互作用ネットワークの部分を特にハイライト表示して、ネットワークを可視化してもよい。
そして、図27に示すように、ユーザがこの提示されたパスウェイを見ながら、Cdc24と相互作用しているCdc28を指定した場合、Cdc28に関する項目は知識ベース106aに存在し、パスウェイ情報データベース106fに対する参照関係を確立しているので、特定情報出力部102eは、直ちに、Cdc24を起点とした一連の解析などのオプション情報を提示することができる。さらに、図28に示すように、特定情報取得部102dは、Cdc28に関する論文やニュースを、知識ベース106a、文献情報データベース106g、または、ニュースデータベース106h等からCdc28に関連する要素を同定し、特定情報出力部102eは、それに関する論文などを表示することができる。
また、本実施の形態においては、ユーザによりその内容を検証しようとする論文群が設定され、それを本システムに入力された場合、それらの論文から知識が抽出され、当該知識に関する情報が知識ベース106aに格納されることによって、知識ベースを生成、または、成長させてもよい。
以上で、本実施の形態における知識情報処理装置100の処理の一例の説明を終える。
[本実施の形態のまとめ]
ユーザが一つの生命科学の論文を読む状況を考えた場合、この論文の中に、遺伝子名、タンパク質名、生物学的プロセス、実験手法、実験機材、および、薬品名などが多数存在する。従来から、論文中の単語(例えば、mTOR)に対して、ソフトウェアを使ってタンパク質データベースを検索するなどの処理が行われていた。
そこで、本実施の形態においては、単なる検索にとどまらず、大規模遺伝子発現データベース(遺伝子情報データベース106d)と直ちに連動し、mTORをエンコードしている遺伝子を同定し、その遺伝子の発現解析プログラムを立ち上げ、ユーザが指定する条件において、データ解析を実行することを可能としている。また、本実施の形態においては、ユーザにより複数のタンパク質が指定された場合、それらの相互作用の有無、および、二つのタンパク質に相互作用するタンパク質の表示、構造的類似性の検証など一連の解析を直ちに行う事も可能としている。
例えば、ユーザが論文中にあるmTORという単語を指定した場合、本実施の形態(本システム)においては、これをタンパク質の名称であるとタンパク質情報データベース106cなどを利用して同定し、そこで可能な検索や解析処理のリストをユーザに提示し、ユーザによりその一つまたは複数が指定された場合、mTORにまつわる情報にアクセス出来るようにしてもよい。また、例えば、本システムにおいては、mTORと相互作用する他のタンパク質などをタンパク質相互作用ネットワーク、または、パスウェイネットワークなどの形態で表示し、ユーザによりこのように表示されたネットワークにおいてmTORと相互作用するタンパク質が指定された場合、そのタンパク質について記述される論文またはタンパク質の立体構造などを検索してもよい。さらに、本システムにおいては、mTORの活性伝搬の観点から、下流にあるタンパク質のリストを得てもよい。これらの処理は、単にmTORなどの言葉の検索では正確かつ効率的に実施する事は困難であるが、mTORなどの生物学的事項に関する正確で、広範な知識ベース106aの構築で、最新のデータおよび知見を蓄積する機構が存在する本システムを適用することにより、このような動作を可能とすることができる。
さらに、本システムにおいては、“A activates B”などの文が指定された場合、この文に表現されている知識が、本システムの知識ベース106aにおいて既知である(記憶されている)か、その知識の信頼度および根拠などを提示してもよい。また、本システムにおいては、このような文が指定された場合、その文に表現されている知識を構造化された形に変換し、知識ベース106aに照合する手続きを起動する。そして、この知識が、すでに知識ベース106aに存在する場合、その一貫性の検証と、新規論文および関連情報データベース106bのアップデートなどを確認し、関連情報の更新と、を行ってもよい。この段階で、本システムにおいては、既知の知識と矛盾する知識が確認された場合、その知識を知識ベース106aに蓄積(格納)すると同時に、既知の知識と新たな知識との間に相互背反を締めるアークを設定してもよい。さらに、本システムにおいては、これらの事実をユーザに提示し、相互背反の評価を要求する設定をしてもよい。さらに、本システムにおいては、新たな仮説などをユーザに提示してもよい。
[他の実施の形態]
さて、これまで本発明の実施の形態について説明したが、本発明は、上述した実施の形態以外にも、特許請求の範囲に記載した技術的思想の範囲内において種々の異なる実施の形態にて実施されてよいものである。
例えば、知識情報処理装置100がスタンドアローンの形態で処理を行う場合を一例に説明したが、知識情報処理装置100は、クライアント端末(知識情報処理装置100とは別筐体である)からの要求に応じて処理を行い、その処理結果を当該クライアント端末に返却するようにしてもよい。
また、実施の形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。
このほか、上記文献中や図面中で示した処理手順、制御手順、具体的名称、各処理の登録データや検索条件等のパラメータを含む情報、画面例、データベース構成については、特記する場合を除いて任意に変更することができる。
また、知識情報処理装置100に関して、図示の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。
例えば、知識情報処理装置100の各装置が備える処理機能、特に制御部102にて行われる各処理機能については、その全部または任意の一部を、CPU(Central Processing Unit)および当該CPUにて解釈実行されるプログラムにて実現してもよく、また、ワイヤードロジックによるハードウェアとして実現してもよい。尚、プログラムは、後述する、コンピュータに本発明に係る方法を実行させるためのプログラム化された命令を含む、一時的でないコンピュータ読み取り可能な記録媒体に記録されており、必要に応じて知識情報処理装置100に機械的に読み取られる。すなわち、ROMまたはHDD(Hard Disk Drive)などの記憶部106などには、OS(Operating System)と協働してCPUに命令を与え、各種処理を行うためのコンピュータプログラムが記録されている。このコンピュータプログラムは、RAMにロードされることによって実行され、CPUと協働して制御部を構成する。
また、このコンピュータプログラムは、知識情報処理装置100に対して任意のネットワークを介して接続されたアプリケーションプログラムサーバに記憶されていてもよく、必要に応じてその全部または一部をダウンロードすることも可能である。
また、本発明に係るプログラムを、コンピュータ読み取り可能な記録媒体に格納してもよく、また、プログラム製品として構成することもできる。ここで、この「記録媒体」とは、メモリーカード、USBメモリ、SDカード、フレキシブルディスク、光磁気ディスク、ROM、EPROM、EEPROM、CD−ROM、MO、DVD、および、Blu−ray(登録商標) Disc等の任意の「可搬用の物理媒体」を含むものとする。
また、「プログラム」とは、任意の言語や記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコード等の形式を問わない。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されるものや、OS(Operating System)に代表される別個のプログラムと協働してその機能を達成するものをも含む。なお、実施の形態に示した各装置において記録媒体を読み取るための具体的な構成、読み取り手順、あるいは、読み取り後のインストール手順等については、周知の構成や手順を用いることができる。
記憶部106に格納される各種のデータベース等(知識ベース106a、関連情報データベース106b、タンパク質情報データベース106c、遺伝子情報データベース106d、分子間相互作用情報データベース106e、パスウェイ情報データベース106f、文献情報データベース106g、および、ニュースデータベース106h)は、RAM、ROM等のメモリ装置、ハードディスク等の固定ディスク装置、フレキシブルディスク、および、光ディスク等のストレージ手段であり、各種処理やウェブサイト提供に用いる各種のプログラム、テーブル、データベース、および、ウェブページ用ファイル等を格納する。
また、知識情報処理装置100は、既知のデスクトップ型またはノート型のパーソナルコンピュータ、携帯電話、スマートフォン、PHS、およびPDA等の携帯端末装置、ならびに、ワークステーション等の知識情報処理装置として構成してもよく、また、該知識情報処理装置に任意の周辺装置を接続して構成してもよい。また、知識情報処理装置100は、該知識情報処理装置に本発明の方法を実現させるソフトウェア(プログラム、データ等を含む)を実装することにより実現してもよい。
更に、装置の分散・統合の具体的形態は図示するものに限られず、その全部または一部を、各種の付加等に応じて、または、機能負荷に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。すなわち、上述した実施の形態を任意に組み合わせて実施してもよく、実施の形態を選択的に実施してもよい。
以上詳述に説明したように、本発明によれば、論文等の自然言語により記述された文章を他の大規模データと同列に扱い、単なる辞書引きを超えて、研究者等のユーザが、知識空間をナビゲートし、解析し、発見する事が出来る知識情報処理装置、知識情報処理方法、および、プログラムを提供することができるので、自然言語で記載された文章を扱う情報処理、および、出版等の様々な分野において有用であり、特に医療、製薬、創薬、および、生物学研究等の様々な分野において極めて有用である。
100 知識情報処理装置
102 制御部
102a 構造解析部
102b 知識抽出部
102c 格納部
102d 特定情報取得部
102e 特定情報出力部
106 記憶部
106a 知識ベース
106b 関連情報データベース
106c タンパク質情報データベース
106d 遺伝子情報データベース
106e 分子間相互作用情報データベース
106f パスウェイ情報データベース
106g 文献情報データベース
106h ニュースデータベース
108 入出力制御インターフェース部
112 入力部
114 表示部
116 音声出力部

Claims (17)

  1. 出力部と制御部と記憶部とを少なくとも備えた知識情報処理装置であって、
    上記記憶部は、
    自然言語により記述される単語、句、文または文の一群に対する固有の識別情報を対応付けた、上記単語、上記句、上記文または上記文の一群に表現された知識を示すノードに関するノード情報と、上記ノードの性質および/または上記ノード間の関連性を示すアークに関するアーク情報と、を含む、上記単語、上記句、上記文または上記文の一群と上記知識とが明確な対応関係をもって表現された、知識オブジェクトネットワークに関する知識オブジェクトネットワーク情報を記憶する知識ベース、
    を備え、
    上記制御部は、
    任意の上記単語に対応する、上記知識オブジェクトネットワークを構成する上記ノードを特定し、当該ノードに関する上記ノード情報および/または上記アーク情報を含む特定情報を取得する特定情報取得手段と、
    上記特定情報を上記出力部を介して出力させる特定情報出力手段と、
    上記任意の単語に対応する上記ノードが上記知識オブジェクトネットワークに含まれていない場合、上記任意の単語に表現された上記知識を示す上記ノードに関する上記ノード情報を上記知識ベースに格納し、当該ノードとの間に相互背反を締める上記アークを設定し、上記アークに関する上記アーク情報を上記知識ベースに格納し、上記任意の単語に対応する上記ノードが上記知識オブジェクトネットワークに含まれている場合、上記任意の単語に対する上記識別情報を当該ノードに関する上記ノード情報に対応付けて上記知識ベースに格納する格納手段と、
    を備えたことを特徴とする知識情報処理装置。
  2. 請求項1に記載の知識情報処理装置において、
    上記記憶部は、
    上記ノードの関連情報を記憶する関連情報記憶手段、
    を更に備え、
    上記特定情報取得手段は、
    更に、上記任意の単語に対応する上記ノードの上記関連情報を上記関連情報記憶手段から検索し、当該検索された上記関連情報を取得し、
    上記特定情報出力手段は、
    更に、上記関連情報を上記出力部を介して出力させることを特徴とする知識情報処理装置。
  3. 請求項2に記載の知識情報処理装置において、
    上記関連情報記憶手段は、
    タンパク質情報を記憶するタンパク質情報記憶手段、
    遺伝子情報を記憶する遺伝子情報記憶手段、
    生体分子の分子間相互作用に関する分子間相互作用情報を記憶する分子間相互作用情報記憶手段、
    生体分子のパスウェイに関するパスウェイ情報を記憶するパスウェイ情報記憶手段、
    文献に関する文献情報を記憶する文献情報記憶手段、および/または、
    ニュース配信サービスが提供するニュースを記憶するニュース記憶手段、
    を備えたことを特徴とする知識情報処理装置。
  4. 請求項に記載の知識情報処理装置において、
    上記知識情報処理装置は、
    入力部、
    を更に備え、
    上記格納手段は、
    更に、上記格納された上記ノードとの間に上記相互背反を締める上記アークが設定された場合、当該相互背反であるか否かの評価を要求する当該アークに関する上記アーク情報を上記出力部を介して出力させ、上記入力部を介して上記相互背反であるとの評価が入力された場合、当該アーク情報を上記知識ベースに格納することを特徴とする知識情報処理装置。
  5. 請求項1乃至3のいずれか一つに記載の知識情報処理装置において、
    上記制御部は、
    上記文で構成される任意の文章に対する構造解析を行い、当該文章を構成する上記単語、上記句、上記文または上記文の一群を抽出する構造解析手段と、
    上記構造解析手段により抽出された上記単語、上記句、上記文または上記文の一群に対応する上記ノードが上記知識オブジェクトネットワークに含まれていない場合、上記単語、上記句、上記文または上記文の一群に表現された上記知識を示す上記ノードに関する上記ノード情報を上記知識ベースに格納し、上記ノードとの間に相互背反を締める上記アークを設定し、上記アークに関する上記アーク情報を上記知識ベースに格納し、上記単語、上記句、上記文または上記文の一群に対応する上記ノードが上記知識オブジェクトネットワークに含まれている場合、上記単語、上記句、上記文または上記文の一群に対する上記識別情報を当該ノードに関する上記ノード情報に対応付けて上記知識ベースに格納する格納手段と、
    を更に備えたことを特徴とする知識情報処理装置。
  6. 請求項に記載の知識情報処理装置において、
    上記文章は、
    生命科学の学術論文であることを特徴とする知識情報処理装置。
  7. 請求項に記載の知識情報処理装置において、
    上記制御部は、
    上記単語、上記句、上記文または上記文の一群と句構造テンプレートとのマッチングを行うことにより上記知識を抽出する知識抽出手段、
    を更に備え、
    上記格納手段は、
    上記知識抽出手段により抽出された上記知識に関する知識情報を含む、上記マッチングされた上記単語、上記句、上記文または上記文の一群に対応する上記ノード情報を上記知識ベースに格納することを特徴とする知識情報処理装置。
  8. 請求項に記載の知識情報処理装置において、
    上記知識抽出手段は、
    上記単語、上記句、上記文または上記文の一群に対してプリプロセッシングを行い、明らかに除外できる挿入句などを取り除いた後、上記単語、上記句、上記文または上記文の一群と上記句構造テンプレートとのマッチングを行うことにより上記知識を抽出することを特徴とする知識情報処理装置。
  9. 請求項に記載の知識情報処理装置において、
    上記制御部は、
    上記単語、上記句、上記文または上記文の一群に対して構文解析を利用してマッチングを行うことにより上記知識を抽出する知識抽出手段、
    を更に備え、
    上記格納手段は、
    上記知識抽出手段により抽出された上記知識に関する知識情報を含む、上記マッチングされた上記単語、上記句、上記文または上記文の一群に対応する上記ノード情報を上記知識ベースに格納することを特徴とする知識情報処理装置。
  10. 請求項1乃至のいずれか一つに記載の知識情報処理装置において、
    上記知識情報処理装置は、
    入力部、
    を更に備え、
    上記特定情報取得手段は、
    上記入力部を介して上記任意の単語が指定された場合、上記任意の単語に対応する、上記知識オブジェクトネットワークを構成する上記ノードを特定し、当該ノードに関する上記ノード情報および/または上記アーク情報を含む上記特定情報を取得することを特徴とする知識情報処理装置。
  11. 請求項2または3に記載の知識情報処理装置において、
    上記知識情報処理装置は、
    入力部、
    を更に備え、
    上記特定情報出力手段は、
    上記特定情報および/または上記関連情報に基づく項目を上記出力部を介してリスト形式で選択可能に出力させ、上記入力部を介して上記項目が選択された場合、当該選択された上記項目に関する上記特定情報および/または上記関連情報を上記出力部を介して出力させることを特徴とする知識情報処理装置。
  12. 請求項2または3に記載の知識情報処理装置において、
    上記知識情報処理装置は、
    入力部、
    を更に備え、
    上記特定情報出力手段は、
    上記特定情報および/または上記関連情報に基づく項目を上記出力部を介してネットワーク形式で選択可能に出力させ、上記入力部を介して上記項目が選択された場合、当該選択された上記項目に関する上記特定情報および/または上記関連情報を上記出力部を介して出力させることを特徴とする知識情報処理装置。
  13. 請求項2または3に記載の知識情報処理装置において、
    上記特定情報取得手段は、
    任意の図に含まれる上記単語に対応する、上記知識オブジェクトネットワークを構成する上記ノードを特定し、当該ノードに関する上記ノード情報および/または上記アーク情報を含む上記特定情報を取得し、上記ノードの上記関連情報を上記関連情報記憶手段から検索し、当該検索された上記関連情報を取得することを特徴とする知識情報処理装置。
  14. 請求項1乃至13のいずれか一つに記載の知識情報処理装置において、
    上記知識オブジェクトネットワークを構成する上記ノードは、
    各ステートメントオブジェクトネットワークにおいて一様の抽象度レベルに対応する上記ノードを投射したもの、または、上記各ステートメントオブジェクトネットワークの個別領域において各々設定された上記抽象度レベルに対応する上記ノードを投射したものであることを特徴とする知識情報処理装置。
  15. 請求項1乃至14のいずれか一つに記載の知識情報処理装置において、
    上記知識オブジェクトネットワーク情報を構成する上記ノード情報は、
    実験データの解析結果または推定結果であることを特徴とする知識情報処理装置。
  16. 出力部と制御部と記憶部とを少なくとも備えた知識情報処理装置において実行される知識情報処理方法であって、
    上記記憶部は、
    自然言語により記述される単語、句、文または文の一群に対する固有の識別情報を対応付けた、上記単語、上記句、上記文または上記文の一群に表現された知識を示すノードに関するノード情報と、上記ノードの性質および/または上記ノード間の関連性を示すアークに関するアーク情報と、を含む、上記単語、上記句、上記文または上記文の一群と上記知識とが明確な対応関係をもって表現された、知識オブジェクトネットワークに関する知識オブジェクトネットワーク情報を記憶する知識ベース、
    を備え、
    上記制御部において実行される、
    任意の上記単語に対応する、上記知識オブジェクトネットワークを構成する上記ノードを特定し、当該ノードに関する上記ノード情報および/または上記アーク情報を含む特定情報を取得する特定情報取得ステップと、
    上記特定情報を上記出力部を介して出力させる特定情報出力ステップと、
    上記任意の単語に対応する上記ノードが上記知識オブジェクトネットワークに含まれていない場合、上記任意の単語に表現された上記知識を示す上記ノードに関する上記ノード情報を上記知識ベースに格納し、当該ノードとの間に相互背反を締める上記アークを設定し、上記アークに関する上記アーク情報を上記知識ベースに格納し、上記任意の単語に対応する上記ノードが上記知識オブジェクトネットワークに含まれている場合、上記任意の単語に対する上記識別情報を当該ノードに関する上記ノード情報に対応付けて上記知識ベースに格納する格納ステップと、
    を含むことを特徴とする知識情報処理方法。
  17. 出力部と制御部と記憶部とを少なくとも備えた知識情報処理装置に実行させるためのプログラムであって、
    上記記憶部は、
    自然言語により記述される単語、句、文または文の一群に対する固有の識別情報を対応付けた、上記単語、上記句、上記文または上記文の一群に表現された知識を示すノードに関するノード情報と、上記ノードの性質および/または上記ノード間の関連性を示すアークに関するアーク情報と、を含む、上記単語、上記句、上記文または上記文の一群と上記知識とが明確な対応関係をもって表現された、知識オブジェクトネットワークに関する知識オブジェクトネットワーク情報を記憶する知識ベース、
    を備え、
    上記制御部において、
    任意の上記単語に対応する、上記知識オブジェクトネットワークを構成する上記ノードを特定し、当該ノードに関する上記ノード情報および/または上記アーク情報を含む特定情報を取得する特定情報取得ステップと、
    上記特定情報を上記出力部を介して出力させる特定情報出力ステップと、
    上記任意の単語に対応する上記ノードが上記知識オブジェクトネットワークに含まれていない場合、上記任意の単語に表現された上記知識を示す上記ノードに関する上記ノード情報を上記知識ベースに格納し、当該ノードとの間に相互背反を締める上記アークを設定し、上記アークに関する上記アーク情報を上記知識ベースに格納し、上記任意の単語に対応する上記ノードが上記知識オブジェクトネットワークに含まれている場合、上記任意の単語に対する上記識別情報を当該ノードに関する上記ノード情報に対応付けて上記知識ベースに格納する格納ステップと、
    を実行させるためのプログラム。
JP2013239127A 2013-11-19 2013-11-19 知識情報処理装置、知識情報処理方法、および、プログラム Active JP6026389B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013239127A JP6026389B2 (ja) 2013-11-19 2013-11-19 知識情報処理装置、知識情報処理方法、および、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013239127A JP6026389B2 (ja) 2013-11-19 2013-11-19 知識情報処理装置、知識情報処理方法、および、プログラム

Publications (2)

Publication Number Publication Date
JP2015099497A JP2015099497A (ja) 2015-05-28
JP6026389B2 true JP6026389B2 (ja) 2016-11-16

Family

ID=53376070

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013239127A Active JP6026389B2 (ja) 2013-11-19 2013-11-19 知識情報処理装置、知識情報処理方法、および、プログラム

Country Status (1)

Country Link
JP (1) JP6026389B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6963988B2 (ja) * 2017-12-19 2021-11-10 ヤフー株式会社 提供装置、提供方法および提供プログラム
JP7081396B2 (ja) * 2018-08-30 2022-06-07 富士通株式会社 生成方法、生成プログラム、および生成装置
WO2020230704A1 (ja) * 2019-05-10 2020-11-19 国立大学法人大阪大学 解析装置および解析方法
JP7322500B2 (ja) * 2019-05-16 2023-08-08 富士通株式会社 検索方法、検索プログラム、および情報処理装置
JP2023028109A (ja) * 2021-08-18 2023-03-03 国立大学法人 東京大学 情報処理システム、情報処理方法及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2773667B2 (ja) * 1995-02-09 1998-07-09 日本電気株式会社 関連情報検索装置
JP2003228580A (ja) * 2002-02-04 2003-08-15 Celestar Lexico-Sciences Inc 文献知識管理装置、文献知識管理方法、プログラム、および、記録媒体

Also Published As

Publication number Publication date
JP2015099497A (ja) 2015-05-28

Similar Documents

Publication Publication Date Title
Clarke et al. Appyters: Turning Jupyter Notebooks into data-driven web apps
Greene et al. ontologyX: a suite of R packages for working with ontological data
US20200192727A1 (en) Intent-Based Organisation Of APIs
US11264140B1 (en) System and method for automated pharmaceutical research utilizing context workspaces
Maier et al. Knowledge management for systems biology a general and visually driven framework applied to translational medicine
Miwa et al. A method for integrating and ranking the evidence for biochemical pathways by mining reactions from text
JP6026389B2 (ja) 知識情報処理装置、知識情報処理方法、および、プログラム
Ponty et al. GenRGenS: software for generating random genomic sequences and structures
Calderone et al. Using the MINT database to search protein interactions
Lo Surdo et al. SIGNOR: a database of causal relationships between biological entities—a short guide to searching and browsing
Larmande et al. AgroLD: A knowledge graph for the plant sciences
McDougal et al. ModelView for ModelDB: online presentation of model structure
Seal et al. Netpredictor: R and Shiny package to perform drug-target network analysis and prediction of missing links
Mazandu et al. IHP-PING—generating integrated human protein–protein interaction networks on-the-fly
Cai et al. SynBioTools: a one-stop facility for searching and selecting synthetic biology tools
Pérez-Rodríguez et al. Online visibility of software-related web sites: the case of biomedical text mining tools
Zhao et al. BIG: a large-scale data integration tool for renal physiology
Reder et al. Supervised topic modeling for predicting molecular substructure from mass spectrometry
Anguita et al. NCBI2RDF: Enabling Full RDF‐Based Access to NCBI Databases
Puig et al. Network building with the Cytoscape BioGateway app explained in five use cases
Li et al. A Novel Approach for Protein‐Named Entity Recognition and Protein‐Protein Interaction Extraction
Feng et al. E-TSN: an interactive visual exploration platform for target–disease knowledge mapping from literature
Jeliazkova Web tools for predictive toxicology model building
Roy et al. Navigating the functional landscape of transcription factors via non-negative tensor factorization analysis of MeDline abstracts
Diaz-Montana et al. Development and use of the Cytoscape app GFD-Net for measuring semantic dissimilarity of gene networks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150820

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160606

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160901

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160920

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161012

R150 Certificate of patent or registration of utility model

Ref document number: 6026389

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250