JP2002269114A - 知識データベース及び知識データベースの構築方法 - Google Patents

知識データベース及び知識データベースの構築方法

Info

Publication number
JP2002269114A
JP2002269114A JP2001071769A JP2001071769A JP2002269114A JP 2002269114 A JP2002269114 A JP 2002269114A JP 2001071769 A JP2001071769 A JP 2001071769A JP 2001071769 A JP2001071769 A JP 2001071769A JP 2002269114 A JP2002269114 A JP 2002269114A
Authority
JP
Japan
Prior art keywords
objects
relation
knowledge
value
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001071769A
Other languages
English (en)
Inventor
Kousaku Ookubo
公策 大久保
Takuro Tamura
卓郎 田村
Iwao Yamashita
巌 山下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Software Engineering Co Ltd
Original Assignee
Hitachi Software Engineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Software Engineering Co Ltd filed Critical Hitachi Software Engineering Co Ltd
Priority to JP2001071769A priority Critical patent/JP2002269114A/ja
Priority to US10/077,662 priority patent/US20020132258A1/en
Priority to EP02003746A priority patent/EP1251435A3/en
Publication of JP2002269114A publication Critical patent/JP2002269114A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/20Heterogeneous data integration

Abstract

(57)【要約】 【課題】 医学・生物学の分野において、専門分野を越
えた横断的な知識の獲得を可能にする。 【解決手段】 医学分野及び/又は生物学分野で用いら
れる用語を含む句をオブジェクト値として有するオブジ
ェクトと、オブジェクト相互間の関係を定量的に表現し
た値をリレーション値として有するオブジェクト間のリ
レーションとを蓄積した知識データベースから、クエリ
ーオブジェクト2001に関連するオブジェクトをオブ
ジェクト間のリレーションを元に抽出し、クエリーオブ
ジェクト及び抽出されたオブジェクトをその間のリレー
ションと共に表示する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、医学の分野や生物
学の分野においてさまざまな形で蓄積された知識を、そ
の知識を構成する‘物質名や事象’(オブジェクト)と
それぞれ相互の間の関係(リレーション)として再構築
し、知識の構造化を可能とする技術に関する。
【0002】
【従来の技術】近年の医学・生物学研究の隆盛に伴って
大量の研究成果が報告され、学術論文、教科書、記事な
どの文章として、また、DNAの塩基配列(DNA配列)、蛋
白質のアミノ酸配列(蛋白質配列)、三次元コーディネ
ートといったデータとして、蓄積されてきている。この
情報量は、急激に増加を続けており、教科書はますます
厚く、また、報告されるDNA・蛋白質配列の量は、蓄積
量が2倍になるのに1年かからない状況である。
【0003】こうした大量の医学・生物学情報を蓄積
し、情報へのアクセスを実現している例としては、米国
国立医学図書館(NLM)の国立バイオテクノロジー情報
センター(NCBI)が運用するPubMedデータベースがあげら
れる(http://www.ncbi.nlm.nih.gov/)。PubMedにおいて
は、医学・生物学に関連した膨大な量の学術論文の情報
をデータベース化しており、それらの論文情報へ、タイ
トルや要旨に含まれる語句、著者名、雑誌名、発行年
度、関連DNA・蛋白質配列情報、関連論文などからアク
セスすることができる。
【0004】また、その他の例として、Weizmann Insti
tute of ScienceのMichael Rebhan等によるGeneCardsが
ある(http://bioinformatics.weizmann.ac.il/cards
/)。インターネット上のパブリックデータベースより、
自動的に遺伝子に関連した情報を集め、個々の遺伝子を
単位として情報を纏める仕組みを用意しており、目的の
遺伝子に関する最新且つ網羅的な情報の提供を実現して
いる。
【0005】
【発明が解決しようとする課題】多くの学術分野におい
ては、研究の進展は真理の発見に結びつき、その時点
で、誤りが判明した仮説に結びついていた大量の知識が
破棄されることで情報の整理が行われ、その上に立っ
て、次の研究が展開されて行くものと考えられる。然る
に、医学・生物学の分野においては、こうした情報の整
理がなされないまま、断片的な知識の蓄積が進み、情報
の増殖が進んでいるものと考えられる。また、多くの研
究者が自らの専門分野について知識を掘り下げる結果、
研究が専門化・細分化していることも、横断的な情報か
ら真理を求めることを困難としている。
【0006】従来の技術においては、学術論文や書籍、
Webページといった知識単位毎に情報が管理されてお
り、知識単位を越えた情報を得るには、たとえば、複数
の知識単位から論理的に導かれる知識を得るためには、
それに必要な知識単位を入手し、それらの内容を理解
し、記憶し、頭の中で結び付ける必要があった。
【0007】これは、従来の技術においては、知識単位
を蓄積することはできるものの、知識単位を構成する知
識要素の間の構造や関連(階層構造、関係構造)を情報
として持ち、利用することができなかったことを意味し
ている。同じ理由により、自然言語により表現された医
学・生物学分野の知識(言語化知識)、DNA・蛋白質配
列情報など、異なる種類の情報より、論理的に知識を導
き出すことはできなかった。
【0008】知識要素の関連を扱う仕組みを実現し、医
学・生物学の分野に応用することで、解剖学、臨床、生
化学といった専門分野を越えた知識を結合し、多面的な
知識の観察や潜在的な知識の発掘をすることが可能とな
り、また、医学・生物学研究の過程で生じる大量の情報
より、必要な情報を引き出す手段を提供することが可能
となる。また、知識の図形表現による内容理解の補助、
ある知識を説明する別表現の発見、知識の階層構造の発
見や、異なる表現による同一知識の検出などが可能とな
る。本発明は、このようなことを可能にする手段を提供
することを目的とする。
【0009】
【課題を解決するための手段】本発明では、前記目的を
達成すべく、対象となる知識を、知識要素であり種類に
応じた1つの値を持つ「オブジェクト」と、オブジェク
ト間の関連として方向性のない1つの値を持つ「リレー
ション」によって定義することにより、知識の合併、抽
出、図示などの情報処理を可能とし、また、それを応用
した知識情報処理を実現する。
【0010】具体的には、オブジェクトの種類として、
自然言語により表現された知識、特に医学・生物学分野
の知識(言語化知識)を対象として、その知識を構成す
る専門用語や熟語、文節などの句を知識要素とした「句
オブジェクト」や、DNA配列や蛋白質配列を対象としてD
NA配列や蛋白質配列を知識要素とした「DNA配列オブジ
ェクト」「蛋白質配列オブジェクト」、画像を知識要素
とした「画像オブジェクト」などを定義する。たとえ
ば、句オブジェクトにおいては、知識のリソースである
言語化知識において2つの句が近傍に存在する頻度によ
りオブジェクト間のリレーション値を設定する。また、
DNA配列オブジェクト及び蛋白質配列オブジェクトにお
いては、DNA配列及び蛋白質配列間の相同性スコア(Smi
th, T. F.& Waterman, M. F. 1990, Proc. Nat. Acad.
Sci., U.S.A. 87, 118-122)や最大一致長とその一致率
によって求めた値をもとにオブジェクト間のリレーショ
ン値を設定する。また、画像オブジェクトにおいては、
画像のパターンマッチングのスコア、画像の特性値(明
度、粒度等)の類似スコアや、画像の取得状況を元に設
定した値をもとにオブジェクト間のリレーション値を設
定する。
【0011】ここで、複数のオブジェクトと全オブジェ
クト間のリレーションからなる1つの知識情報を「知識
データベース」とするとき、オブジェクトは知識データ
ベース内でユニークな値を持つものとする。それによ
り、2つの知識データベースを合併する際、同一の値を
持つオブジェクトを介して、2つの知識集合を融合する
ことが可能となる。たとえば、2つの異なる専門分野の
情報源(知識リソース)から作成した知識データベース
を合併することにより、2つの専門分野の知識が融合し
た知識データベースを生成することが可能となる。
【0012】リレーション値の算出方式の定義は、知識
データベース利用の目的に応じて設定可能とする。たと
えば、DNA配列オブジェクトや蛋白質配列オブジェクト
間のリレーションを、DNA配列や蛋白質配列の相同性に
よって設定し、物理的な類似性の情報として利用した
り、また、遺伝子発現プロファイル測定実験の結果に基
づいて設定し、分子生物学的な性質の情報として利用し
たりすることを可能とする。
【0013】リレーションの値は、「関係の大小」及び
「対象となる2つのオブジェクトを同一とみなす」こと
が表現可能であることとする。これにより、異なる種類
のオブジェクト間で、ある一組のオブジェクトを同一と
みなす表現が可能となる。
【0014】ここで、前記目的を達成するための本発明
による手段を以下に示す。 (1)自然言語情報に含まれる句をオブジェクト値とし
て有する複数の句オブジェクトと、句オブジェクト間の
関係を定量的に表現した値をリレーション値として有す
る句オブジェクト間のリレーションとを蓄積したことを
特徴とする知識データベース。句には、用語、熟語、文
節などが含まれる。
【0015】(2)DNA配列又は蛋白質配列をオブジェ
クト値として有する複数のオブジェクトと、DNA配列間
又は蛋白質配列間の関係を相同性計算あるいは実験的な
測定により求めて定量的に表現した値をリレーション値
として有するオブジェクト間のリレーションとを蓄積し
たことを特徴とする知識データベース。
【0016】(3)複数のオブジェクトと、オブジェク
ト間のリレーションとを蓄積した知識データベースであ
って、オブジェクトは、DNA配列をオブジェクト値とし
て有するDNA配列オブジェクト又は蛋白質配列をオブジ
ェクト値として有する蛋白質配列オブジェクトと、DNA
配列又は蛋白質配列に関連付けられた自然言語情報に含
まれる句をオブジェクト値として有する句オブジェクト
とを含み、DNA配列オブジェクト又は蛋白質配列オブジ
ェクトと句オブジェクトとの間のリレーションは予め定
義されたリレーション値を有することを特徴とする知識
データベース。DNA配列又は蛋白質配列に関連付けられ
た自然言語情報に含まれる句には、DNA配列又は蛋白質
配列を特定するための識別子(アクセッション番号、名
称、記号、符号、識別番号等)も含まれる。
【0017】ある2つのオブジェクトが同じ種類であっ
ても異なる種類であっても、それら2つのオブジェクト
の種類に応じたリレーション値の算出方式を定義可能と
することにより、種類の異なるオブジェクトの組み合わ
せによる知識の表現が可能になる。また、同じ種類のオ
ブジェクトに対しても、目的に応じたリレーション値の
算出方式を定義可能とすることにより、目的に適合した
知識の表現が可能になる。換言すると、同じオブジェク
トであってもリレーションの定義の仕方を変えることに
よって違う知識データベースが構築される。
【0018】(4)画像をオブジェクト値として有する
複数のオブジェクトと、オブジェクト間の関係を定量的
に表現した値をリレーション値として有する複数のオブ
ジェクト間のリレーションとを蓄積したことを特徴とす
る知識データベース。 (5)複数のオブジェクトと、オブジェクト間のリレー
ションとを蓄積した知識データベースであって、オブジ
ェクトは画像をオブジェクト値として有する画像オブジ
ェクトと、画像に関連付けられた自然言語情報に含まれ
る句をオブジェクト値として有する句オブジェクトとを
含み、画像オブジェクトと句オブジェクトとの間のリレ
ーションはそれぞれ予め定義されたリレーション値を有
することを特徴とする知識データベース。画像に関連付
けられた自然言語情報に含まれる句には、当該画像を特
定するための識別子(記号、符号、識別番号、ファイル
名、URL等)も含まれる。
【0019】(6)複数のオブジェクトと、オブジェク
ト間のリレーションとを蓄積した知識データベースであ
って、オブジェクトは医学分野及び/又は生物学分野で
用いられる用語を含む句をオブジェクト値として有する
句オブジェクトを含み、リレーションは句オブジェクト
の間の関係を定量的に表現した値をリレーション値とし
て有することを特徴とする知識データベース。
【0020】(7)(6)記載の知識データベースにお
いて、同一のオブジェクトと見なすべき複数のオブジェ
クトをシノニムオブジェクトグループとして登録したシ
ノニムオブジェクト辞書を備えることを特徴とする知識
データベース。 (8)(6)6記載の知識データベースにおいて、オブ
ジェクトはDNA配列をオブジェクト値として有するDNA配
列オブジェクト、蛋白質配列をオブジェクト値として有
する蛋白質配列オブジェクト、又は画像をオブジェクト
値として有する画像オブジェクトを含み、DNA配列オブ
ジェクト、蛋白質配列オブジェクト又は画像オブジェク
トと句オブジェクトとの間のリレーションは予め定義さ
れたリレーション値を有することを特徴とする知識デー
タベース。画像の例としては病変組織の顕微鏡写真を挙
げることができる。
【0021】(9)(8)記載の知識データベースにお
いて、相同性が高いDNA配列をオブジェクトとして有す
る複数のDNA配列オブジェクト、あるいは相同性が高い
蛋白質配列をオブジェクト値として有する複数の蛋白質
配列オブジェクトを同一オブジェクトグループとして登
録したシノニムオブジェクト辞書を備えることを特徴と
する知識データベース。
【0022】本発明の知識データベースは、知識リソー
スから得られるオブジェクトの言語学的な揺らぎ、専門
分野の違いによる表現の違い、実験における情報の誤差
などによる情報の希釈を回避する方法として、複数のオ
ブジェクトを同等のオブジェクトと見做し(シノニムオ
ブジェクトグループ)、それらに関連したリレーション
の合併を行う方法を用意する。シノニムオブジェクトグ
ループに含まれる全オブジェクトは知識データベースに
関連付けてシノニムオブジェクト情報として保存し、ま
た、知識データベースにはシノニムオブジェクトグルー
プを代表するオブジェクト(シノニム代表オブジェク
ト)を設定してこれを登録する。
【0023】シノニムオブジェクトグループを設定済み
の知識データベースのアップデートにおいては、アップ
デート対象のオブジェクトがシノニムオブジェクト情報
に存在する場合、対象であるシノニムオブジェクトグル
ープのシノニム代表オブジェクトのリレーションをアッ
プデートする。
【0024】知識データベースに対して新たにシノニム
オブジェクトグループを設定する際は、シノニム代表オ
ブジェクトを生成して知識データベースに登録し、シノ
ニムオブジェクトグループに含まれるオブジェクトは知
識データベースからは削除し、シノニムオブジェクト情
報として保存する。シノニムオブジェクトグループに含
まれるオブジェクトに関連していたリレーションは、全
て合併してシノニム代表オブジェクトと他のオブジェク
トとのリレーションとする。
【0025】句オブジェクトに対しては、指定した複数
の句オブジェクトをシノニムオブジェクトグループとし
て登録する。シノニムオブジェクトグループに含まれる
句オブジェクトの値としては、言語学的な揺らぎ、専門
分野の違いによる表現の違い、頻出ミス記述などに起因
する値とする。シノニム代表オブジェクトには、任意の
句オブジェクトを選択する。
【0026】DNA配列オブジェクト、蛋白質配列オブジ
ェクトにおいては、たとえば、DNA配列や蛋白質配列同
士が、配列上の指定した以上の範囲において、ある値以
上の相同性を持つDNA配列オブジェクト、蛋白質配列オ
ブジェクト同士をシノニムオブジェクトグループとして
登録する。シノニム代表オブジェクトは、任意のDNA配
列オブジェクト、蛋白質配列オブジェクトを選択する
か、コンセンサス配列を作成して登録する。複数のシノ
ニムオブジェクトグループを登録したシノニムオブジェ
クト辞書を用意することにより、異なる知識データベー
スに対して同等シノニムオブジェクトグループを設定可
能とする。
【0027】後述する知識データベースの演算において
は、オブジェクト、及び、リレーションの演算に先立っ
て、シノニムオブジェクト情報の合併とシノニムオブジ
ェクト情報の知識データベースへの反映を行う。それに
より、演算後の知識データベース内でのオブジェクトと
シノニムオブジェクト情報の不整合を避けることができ
る。また、効果的な演算を行うために、予め、シノニム
オブジェクト辞書によるシノニムオブジェクトグループ
の共通化を行うことが効果的である。
【0028】(10)(1)又は(6)記載の知識デー
タベースにおいて、句オブジェクトは自然言語で表現さ
れた知識(言語化知識)中の句をオブジェクト値として
有し、それぞれの句が言語化知識内で近傍に存在する頻
度を定量化した値を対応する句オブジェクト間のリレー
ションのリレーション値として有することを特徴とする
知識データベース。
【0029】言語化知識中の句は、言語化知識を予め用
意した1文字又は複数文字より成る文分離文字列により
文へ分解し、続いて予め用意した1文字又は複数文字よ
り成る句分離文字列により句に分解して生成してもよい
し、ユーザが任意に指定したものであってもよい。ま
た、句が言語化知識内で近傍に存在するとは、例えば文
書の同じ頁内、同じ段落内、同じセンテンス内に存在す
ることをいう。
【0030】(11)(1)又は(6)記載の知識デー
タベースにおいて、句オブジェクトは書籍の索引に含ま
れる句をオブジェクト値として有し、2つの句が当該書
籍の同じ頁あるいは同じ段落に存在する頻度を定量化し
た値を対応する2つの句オブジェクト間のリレーション
のリレーション値として有することを特徴とする知識デ
ータベース。
【0031】(12)(1)又は(6)記載の知識デー
タベースにおいて、句オブジェクト間のリレーション
は、それぞれの句が、自然言語で表現された知識の知識
単位において存在するパターンの類似性(存在プロファ
イル)を定量化した値をリレーション値として有するこ
とを特徴とする知識データベース。
【0032】知識単位とは、書籍等の文書の頁や文節、
Webページ、DNAデータベースエントリなどを意味する。
それらにおける句オブジェクトの出現パターンや出現頻
度パターンによってクラスタ解析を行い、各句間の類似
性距離を求め、これをリレーション値とする。
【0033】(13)医学分野及び/又は生物学分野で
用いられる用語を含む句をオブジェクト値として有する
オブジェクトと、オブジェクト相互間の関係を定量的に
表現した値をリレーション値として有するオブジェクト
間のリレーションとを含む知識データベースから、1又
は複数のキーワードに対して、それらをオブジェクト値
として持つオブジェクト(クエリーオブジェクト)に関
連するオブジェクトをオブジェクト間のリレーションを
元に抽出し、クエリーオブジェクト及び抽出されたオブ
ジェクトをその間のリレーションと共に表示することを
特徴とする方法。知識データベースは、DNA配列、蛋白
質配列、蛋白質高次構造などの分子構造をオブジェクト
の値として含んでいてもよい。更に、病変組織の顕微鏡
写真などの画像をオブジェクトの値として含んでいても
よい。
【0034】(14)(13)記載の方法において、ク
エリーオブジェクトをオブジェクト値の入力又は検索に
より選択し、選択されたクエリーオブジェクト及び抽出
されたオブジェクト並びにその間のリレーションをリス
ト表示又はグラフィカル表示することを特徴とする方
法。
【0035】(15)(13)記載の方法において、ク
エリーオブジェクトに対して、強いリレーションを持つ
オブジェクトを階層的に求め、クエリーオブジェクト及
び階層的に求めたオブジェクト並びにその間のリレーシ
ョンをリスト表示又はグラフィカル表示することを特徴
とする方法。
【0036】強いリレーションを持つオブジェクトと
は、オブジェクト相互間のリレーションのリレーション
値が大きなオブジェクトである。どの程度のリレーショ
ン値をもって強いリレーションとするかは、ユーザが任
意に指定することができる。あるいは、クエリーオブジ
ェクトから求められたオブジェクトの数が一定数以下と
なるようにリレーション値が大きな方から採用する数を
設定するようにしてもよい。リスト表示あるいはグラフ
ィカル表示されたオブジェクト、あるいはリレーション
において、1つあるいは複数のオブジェクト、あるいは
リレーションを選択可能とし、選択した1つ又は複数の
オブジェクトを新たにクエリーオブジェクトとして、タ
ーゲットオブジェクトを求めることができるようにする
のが好ましい。また、選択した複数のオブジェクトをシ
ノニムとしてシノニム辞書に登録可能としてもよい。
【0037】(16)自然言語により表現された医学分
野及び/又は生物学分野の知識(言語化知識)より、そ
の表現において使用されている句を抽出し、その句をオ
ブジェクト値として有するオブジェクトを生成するとと
もに、各オブジェクト間の関係を定量的に表現した値を
リレーション値として有するオブジェクト間のリレーシ
ョンを生成し、生成したオブジェクトとオブジェクト間
のリレーションとを蓄積することを特徴とする知識デー
タベースの構築方法。
【0038】(17)(16)記載の知識データベース
の構築方法において、言語化知識を、予め用意した1文
字又は複数文字より成る文分離文字列により文へ分解
し、続いて、予め用意した1文字又は複数文字より成る
句分離文字列により句に分解し、これを句オブジェクト
のオブジェクト値とし、2つの句が前記言語化知識内で
近傍に存在する頻度を対応する2つの句オブジェクト間
のリレーションのリレーション値とすることを特徴とす
る知識データベースの構築方法。
【0039】(18)(16)又は(17)記載の知識
データベースの構築方法において、言語化知識として書
籍の索引、書籍の目次、学術論文のタイトル、書籍の本
文、学術論文の本文、及び/又はWebページの本文を使
用することを特徴とする知識データベースの構築方法。 (19)(16)記載の知識データベースの構築方法に
おいて、句オブジェクトのマスターデータとして書籍の
索引に含まれる句を用い、2つの句が前記書籍の同じ頁
に存在する頻度を対応する2つのオブジェクト間のリレ
ーションのリレーション値とすることを特徴とする知識
データベースの構築方法。書籍としては、教科書、専門
書、解説書、辞典などを利用することができる。
【0040】(20)(16)記載の知識データベース
の構築方法において、句オブジェクトのマスターデータ
として予め指定した任意の句を用い、2つの句が言語化
知識内で近傍に存在する頻度を対応する2つのオブジェ
クト間のリレーションのリレーション値とすることを特
徴とする知識データベースの構築方法。 (21)(16)記載の知識データベースの構築方法に
おいて、言語化知識として学術論文を用い、学術論文の
タイトル及び/又は本文を含む情報をネットワーク経由
等により定期的に取得し、取得した情報から句オブジェ
クト及びリレーションを抽出し、知識データベースをア
ップデートすることを特徴とする知識データベースの構
築方法。
【0041】(22)(16)記載の知識データベース
の構築方法において、同一のオブジェクトと見なす複数
のオブジェクト及びそれらに関連したリレーションを併
合することを特徴とする知識データベースの構築方法。
同一のオブジェクトと見なすオブジェクトはユーザが指
定することができる。 (23)DNA配列を含む情報からDNA配列を抽出し当該DN
A配列をオブジェクト値とするDNA配列オブジェクトを生
成し、2つのDNA配列オブジェクト間に、対応する2つ
のDNA配列間の関係を相同性計算あるいは実験的な測定
により求められた定量的な値をリレーション値として有
するリレーションを生成し、生成したDNA配列オブジェ
クト及びDNA配列オブジェクト間のリレーションを蓄積
することを特徴とする知識データベースの構築方法。
【0042】(24)(23)記載の知識データベース
の構築方法において、DNA配列に関連付けられた自然言
語情報に含まれる句を抽出しそれをオブジェクト値とす
る句オブジェクトを生成し、句オブジェクトと対応する
DNA配列オブジェクトの間に定義されたリレーション値
を有するリレーションを設定することを特徴とする知識
データベースの構築方法。
【0043】DNA配列に加えて蛋白質配列も同様にオブ
ジェクト化してもよい。オブジェクト及びリレーション
を抽出して知識データベースを構築するのに用いる言語
化知識としては、DNA配列、蛋白質配列又はその両方と
それらの付加情報を含む言語化知識、DNA配列、蛋白質
配列又はその両方とそれらの付加情報を蓄積したデータ
ベースを使用することができる。また、HTML、XMLなど
の構造化記述表現で表現された知識を使用してもよい。
【0044】(25)(24)記載の知識データベース
の構築方法において、DNA配列とそれに関係付けられた
自然言語情報を含む情報をネットワーク経由等により定
期的に取得し、取得した情報からDNA配列オブジェク
ト、句オブジェクト及びリレーションを抽出し、知識デ
ータベースをアップデートすることを特徴とする知識デ
ータベースの構築方法。
【0045】(26)(23)記載の知識データベース
の構築方法において、相同性が高いDNA配列をオブジェ
クト値として有する複数のDNA配列オブジェクトを同一
オブジェクトと見なし、同一オブジェクトと見なした複
数のDNA配列オブジェクト及びそれらに関連したリレー
ションを併合することを特徴とする知識データベースの
構築方法。 (27)自然言語により表現された句をオブジェクト値
として有する複数のオブジェクトと、オブジェクト間の
関係を定量的に表現した値をリレーション値として有す
る複数のオブジェクト間のリレーションとを蓄積した第
1及び第2の知識データベース間で演算を行い、第3の
知識データベースを生成することを特徴とする知識デー
タベースの生成方法。知識データベース間の演算として
は、和、差などがある。
【0046】(28)自然言語により表現された句をオ
ブジェクト値として有する複数のオブジェクトと、オブ
ジェクト間の関係を定量的に表現した値をリレーション
値として有する複数のオブジェクト間のリレーションと
を蓄積した第1及び第2の知識データベースを用い、第
1及び第2の知識データベースにおける注目するリレー
ションのリレーション値の違いを比較するグラフを表示
することを特徴とする方法。時系列に意味のある一連の
知識リソースより生成された複数の知識データベースを
対象として、この方法を実行すると、知識リソースに含
まれる知識の時系列の変化を比較するグラフを表示する
ことができる。
【0047】(29)(27)又は(28)記載の方法
において、複数の知識データベース間で、各知識データ
ベースに含まれる句オブジェクト間のリレーションのリ
レーション値を標準化することを特徴とする方法。標準
化の方法としては、知識データベースの元データである
知識リソースにおけるオブジェクトの出現頻度によって
標準化する方法、知識データベース中の注目するリレー
ションの値が同じ値になるように標準化する方法などが
ある。知識データベース間の演算や、知識データベース
の比較においては、予め、対象の知識データベースにお
けるシノニムオブジェクトグループを統一することで、
演算後又は比較における知識データベース内でのオブジ
ェクト−シノニム情報の不整合を防ぐことが望ましい。
【0048】本発明によると、学術論文などの言語化さ
れた知識や、DNA配列、蛋白質配列の様に記号化された
知識を、句、事象、記号といったオブジェクトと、それ
らの間のリレーションにより情報処理可能な知識骨格構
造として再構築し、それを利用してある知識に関連する
知識を獲得することにより、知識の説明、知識の表現、
知識の発見が可能となる。
【0049】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。図1は、本発明のシステム構成図
である。本発明のシステムは、教科書、専門書など印刷
された医学・生物学の言語化知識データ100、学術論
文や知識情報など、ネットワークを介してアクセス可能
なリモートシステム上で公開され、順次更新される言語
化知識データ101、DNA配列情報や蛋白質配列情報お
よびそれに関連付けられた言語化知識など、ネットワー
ク109を介してアクセス可能なリモートシステム上で
公開され、順次更新される学術情報データベース10
2、印刷された言語化知識をイメージとして読み取るス
キャナ装置103、スキャナ装置を介して得たイメージ
をテキストに変換し、変換した言語化知識の他、ネット
ワークを介して得た言語化知識やDNA配列や蛋白質配列
をリソースとして知識データベースを構築し、知識デー
タベースを利用する処理を行う処理部104、処理部に
より構築された知識データベースを蓄積するデータベー
ス105、医学・生物学知識の知識要素同士の関連を視
覚化して表示するための表示装置106、本システムへ
の値の入力や選択の操作を行うためのキーボード107
やマウス108などの入力装置から構成される。
【0050】図2は、最も単純な知識データベースの概
念図である。すなわち、本発明における知識データベー
ス203は、オブジェクト201とその間のリレーショ
ン202によって構成される。リレーションは、知識デ
ータベース内で定義された2つのオブジェクト間の方向
性を持たない関係値(スカラー値)である。また、図3
の知識データベースの概念図に示す様に、リレーション
202は、知識データベース301に存在する全てのオ
ブジェクト201間に存在するものとする。
【0051】2つの知識データベースを合併(知識デー
タベースの和)することにより、知識データベースの情
報量を増加したり、異なる専門分野にまたがって存在す
る潜在的な知識を含む知識データベースを生成したりす
ることが可能である。また、2つの知識データベース間
で差を取る(知識データベースの差)ことにより、知識
データベース間でユニークな知識や知識の偏りを含む知
識データベースを生成することができる。こうした知識
データベース間の処理(知識データベースの演算)は、
演算元の両知識データベースの持つ全オブジェクトを持
ち、また、演算元の両知識データベース由来のリレーシ
ョンを元に算出したリレーション値又はオブジェクトの
値より算出したリレーション値を持つ知識データベース
を生成することで実現できる。知識データベースの演算
におけるリレーション値の算出においては、演算元の知
識データベースに存在しなかったリレーションについて
はリレーションを値0として算出を行う。また、演算元
の知識データベースにおいて「対象となる2つのオブジ
ェクトを同一とみなす」とする値を持つリレーションに
ついては、オプションにより、リレーションの算出結果
としてこの値を維持するか、又は異なる値に変換後リレ
ーションの算出を行う。
【0052】知識データベースの和においては、リレー
ション値の算出は、演算元の2つの知識データベースに
おけるリレーション値の和により行えばよい。知識デー
タベースの差においては、リレーション値の算出は、演
算元の2つの知識データベースにおけるリレーション値
の差により行えばよい。算出において、演算の左辺のリ
レーション値が右辺のリレーション値よりも小さい場合
は、リレーション値の算出結果として0を得ることとす
ればよい。
【0053】図4は、知識データベースの合併の概念図
である。2つの知識データベースを合併する場合、合併
対象の両知識データベースにおいてオブジェクトの比較
を行い、同一であるとみなされたオブジェクト同士を合
併する。その際、合併する2つのオブジェクト間のリレ
ーションは削除し、合併する2つのオブジェクトと他の
全てのオブジェクトとの間のリレーション値は、合併す
るオブジェクトの種類に応じて指定した関数又は漸化式
により算出する。
【0054】たとえば、知識データベースAにおけるオ
ブジェクトaとbの間のリレーションをAabと表現し、ま
た、知識データベースAと知識データベースBの合併で生
成される知識データベースABにおけるオブジェクトa,b
間のリレーションを算出する関数をABab = f(Aab,Bab)
とすると、知識データベースA(401)と知識データ
ベースB(402)の合併によって生成される知識デー
タベースAB(403)において、合併対象の両知識デー
タベースに共通して存在していたオブジェクト406,
407間のリレーションであるABcd(409)は、ABcd
= f(Acd, Bcd)として、また、合併対象の知識データベ
ースの一方にのみ存在していたオブジェクト間のリレー
ション、たとえばABac(410)は、ABac = f(Aac, 0)
として、また、合併により新たに発生したリレーション
であるABae(411)は、ABae = f(0,0) として算出
し、リレーション値とすることができる。
【0055】このとき、たとえば、句オブジェクトと他
の種類のオブジェクトとの間のリレーションはf(Aab,Ba
b)=Aab+Babにより値の算出を行ったり、何れか一方のリ
レーション値を維持したりする。また、DNA配列オブジ
ェクト、蛋白質配列オブジェクト同士のリレーションに
おいては、合併後のオブジェクトの値によってリレーシ
ョンの値を再計算したり、何れか一方の知識データベー
ス由来のリレーション値を維持したりする。また、画像
オブジェクト同士のリレーションにおいては、合併後の
オブジェクトの値によってリレーションの値を再計算し
たり、何れか一方の知識データベース由来のリレーショ
ン値を維持したりする。知識データベースの合併におい
て、オブジェクトが同一であることの判定方法は、句オ
ブジェクトにおいては、たとえば、句の一致するものを
同一とみなす。また、DNA配列オブジェクト、蛋白質配
列オブジェクトにおいては、たとえば、相同性計算を行
い、閾値として相同性スコアや最大一致並置における一
致範囲長と一致率などを設定し、閾値を超えるオブジェ
クトの組を同一とみなす。また、画像オブジェクトにお
いては、たとえば、パターンマッチングを行い、閾値と
して設定した値を超える画像オブジェクトの組を同一と
みなす。合併後のオブジェクトの値は、句オブジェクト
においては変わらず、また、DNA配列オブジェクト、蛋
白質配列オブジェクトにおいては、たとえば、いずれか
一方の値を合併後の値としたり、合併対象の知識データ
ベースにおける2つのオブジェクトの値よりコンセンサ
ス配列を作成しそれを新しい値としたりすればよい。ま
た、画像オブジェクトにおいては、たとえば、いずれか
一方の値を合併後の値とすればよい。
【0056】図5は、知識データベース内におけるオブ
ジェクトの合併の概念図である。知識データベース内の
2つのオブジェクトを合併する場合、合併対象の両オブ
ジェクト間のリレーションを削除し、両オブジェクトと
他の全てのオブジェクトとの間にそれぞれ存在したリレ
ーションは合併し、再計算する。
【0057】知識データベースCにおけるオブジェクトa
とbの間のリレーションをCabと表現し、また、オブジェ
クトaとオブジェクトbの合併で生成されるオブジェク
トabとオブジェクトcとの間のリレーションを算出する
関数をCab,c = f(Cac, Cbc)とするとき、図5における
処理前の知識データベースC(501)のオブジェクト
bとeを合併した結果生成する、合併後の知識データベ
ースC(502)に存在するオブジェクトbeとオブジェ
クトcとの間のリレーションであるCbe,cは、Cbe,c= f
(Cbc, Cce)として算出しリレーション値とする。たとえ
ば、句オブジェクトと他の種類のオブジェクトにおける
リレーションはf(Cbc, Cce)=Cbc+Cceにより値の算出を
行う。また、たとえばDNA配列オブジェクト、蛋白質配
列オブジェクト同士のリレーションにおいては、合併後
のオブジェクトの値によって、リレーションの値を再計
算する。合併後のオブジェクトの値は、句オブジェクト
においては変わらず、また、DNA配列オブジェクト、蛋
白質配列オブジェクトにおいては、たとえば、いずれか
一方の値を合併後の値としたり、合併対象の知識データ
ベースにおける2つのオブジェクトの値よりコンセンサ
ス配列を作成しそれを新しい値としたりすればよい。
【0058】図6は、種類の異なるオブジェクトを含む
知識データベースの例を示す図である。ここでは、リレ
ーションの値として、対象となる2つのオブジェクトを
同一とみなす場合は−1、オブジェクト間に関係が無い
場合は0、オブジェクト間に関係がある場合は0より大
きな値とし、値が大きいほどオブジェクト間の関係が高
いものとしている。ただし、図を見易くするため、種類
の異なるオブジェクト間のリレーションについては、値
が0の物の素描を省略している(たとえば、句オブジェ
クト602とDNA配列オブジェクト607の間のリレー
ションなど)。
【0059】知識データベース601には、句オブジェ
クト602〜606、及び、DNA配列オブジェクト60
7〜609が含まれ、それぞれの種類のオブジェクト内
でリレーションを持つほか、異なる種類のオブジェクト
間でもリレーションを持つ。たとえば、オブジェクト6
04と607、オブジェクト605と608、オブジェ
クト606と609の間のリレーション612,61
3,614は、値が−1であり、これらのオブジェクト
は同一であるとみなすことを示している。
【0060】図7は、図6の例において示した知識デー
タベースより、リレーション値が10以上であるリレー
ションにより関連付けられた句オブジェクトを含む知識
データベース701を抽出した例である。図6において
は、句オブジェクトに関してだけで評価すると、オブジ
ェクト604と606のリレーション610の値は0で
あり、関連が無いことを示しているが、これを、オブジ
ェクト604,606について、それぞれリレーション
612,614により同一とみなすと定義されたオブジ
ェクト607,609の間のリレーション611と合併
することにより、値20を持つリレーション702とす
ることができる。このように、構築した知識データベー
スからリレーション値をもとに、異なる種類のオブジェ
クトを介した知識情報を得ることが可能である。
【0061】言語化知識である知識リソースからの句オ
ブジェクトの抽出は、たとえば、言語化知識を予め用意
した1文字又は複数文字より成る文分離文字列により文
に分解し、続いて、予め用意した1文字又は複数文字よ
り成る句分離文字列により句に分解し、これを句オブジ
ェクトとする方法により行うことができる。その際のリ
レーションの設定は、たとえば、句同士が同じ頁又は文
に存在する頻度によって値を設定すればよい。
【0062】図8は、言語化知識を知識のリソースとし
た場合において、そこからの句オブジェクトの切り出
し、リレーションの設定を行う手順の一例をフローチャ
ートにして示したものである。処理の開始(801)
後、まず、作成対象の知識データベースを用意して初期
化を行う(802)。この時点では、知識データベース
中には、オブジェクトも、よってリレーションも存在し
ない。続いて、知識リソースよりデータ単位として頁を
取り込む(803)。本例ではデータ単位として、頁と
文を考え、2つのオブジェクトが同じ頁に存在した場
合、そのリレーションのスコアをP0、同じ文に存在した
場合、リレーションのスコアをP1としている。頁が存在
するか判定し(804)、頁が存在する場合は、その頁
の情報を作成対象の知識データベースへ加える処理を行
う。その手順としては、まず、頁の知識を蓄えるための
知識データベース(頁用知識データベース)を用意して
初期化する(805)。
【0063】続いて、各頁より文を切り出す(80
6)。文の切り出しには、予め登録した、1文字又は数
文字からなる「文切り出し文字列」を用いる。文切り出
し文字列には、例えば、「.(ピリオド)」、「(改
行)」を登録する。文切り出し文字列にて頁に含まれる
言語化知識を分断してそれぞれを文とする。文が存在す
るか判定し(807)、文が存在する場合、文の知識を
蓄えるための知識データベース(文用知識データベー
ス)を用意して初期化する(808)。続いて、各文よ
り句を切り出し、句オブジェクトを生成する(80
9)。句の切り出しには、予め登録した、1文字又は数
文字からなる「句切り出し文字列」を用いる。句切り出
し文字列には、例えば、「and」、「that」、「(Tab)」
を登録する。句切り出し文字列にて文に含まれる言語化
知識を分断し、分断した文字列の先頭と末尾よりスペー
スを削除してそれぞれを句とする。句オブジェクトが存
在するか判定し(810)、存在する場合は文用知識デ
ータベースへ登録(811)し、次の句オブジェクトの
切り出しを行う。句オブジェクトの文用知識データベー
スへの登録においては、リレーション値を0とする。句
オブジェクトが存在しない場合、対象文のオブジェクト
抽出が全て完了したとして、文用知識データベースの全
リレーションに値P1を加算(812)した後、頁用知
識データベースに合併(813)し、次の文の切り出し
を行う。
【0064】文が存在するか判定し(807)、文が存
在しない場合は、対象頁のオブジェクト抽出が全て完了
したとして、頁用知識データベースの全リレーションに
値P0を加算(814)した後、作成対象の知識データ
ベースに合併(815)し、次の頁の取り込みを行う。
頁が存在するか判定し(804)、存在しない場合は処
理を終了し、作成対象の知識データベースの作成を完了
する(816)。以上の手順によって、言語化知識から
の句オブジェクトの切り出し、及び、リレーションの設
定を行うことができる。
【0065】図9は、言語化知識からの句オブジェクト
の切り出しと、リレーションの設定の方法の他の例とし
て、論文のタイトルを知識のリソースとした場合を示し
た図である。論文のタイトル901は、インターネット
を通じた情報の閲覧、検索や、情報配信サービス、ま
た、書籍などから入手可能である。そうした論文のタイ
トルを切り出し(902)、句切り出し文字列904に
よりタイトルを句903に分離し、各句をオブジェクト
905として、各句の間のリレーション906を設定す
る。ここでは、リレーション値1を設定している。
【0066】言語化知識である知識リソースからの句オ
ブジェクト抽出の他の方法として、たとえば、予め教科
書、専門書、解説書、辞典等の書籍の索引に掲載されて
いる句(用語、熟語、文節など)を集め、これを句オブ
ジェクトのマスターデータとして用い、対象知識リソー
スから同じ句を抽出する方法がある。その際のリレーシ
ョンの設定は、例えば、句と同時に索引から抽出した頁
番号を元に、句同士が同じ頁に存在する頻度によって値
を設定すればよい。
【0067】図10は、書籍の索引を知識のリソースと
した場合、そこから、句オブジェクトの切り出しとリレ
ーションの作成を行う手順の一例をフローチャートにし
て示したものである。処理の開始(1001)後、ま
ず、作成対象の知識データベースを用意して初期化を行
う(1002)。この時点では、知識データベース中に
は、オブジェクトも、よってリレーションも存在しな
い。次に、出現パターンデータの初期化を行う(100
3)。出現パターンデータには、索引に含まれる各句が
どのような頁番号を持つかを格納する。続いて、知識リ
ソースより索引を含む頁を取り込む(1004)。頁が
存在するか判定し(1005)、頁が存在する場合は、
索引に含まれる句を切り出す(1006)。句が存在す
るか判定し(1007)、句が存在する場合は出現パタ
ーンデータに登録する(1008)。句に連なる頁番号
を切り出し(1009)、頁番号が存在するか判定し
(1010)、頁番号が存在する場合は出現パターンデ
ータに登録(1011)し、次の頁番号を切り出す(1
009)。頁番号が存在するか判定し(1010)、頁
番号が存在しない場合は次の句の切り出し(1006)
を行う。
【0068】句が存在するか判定し(1007)、句が
存在しない場合は次の頁の取り込み(1004)を行
う。頁が存在するか判定し(1005)、頁が存在しな
い場合は、全ての索引の読み取りが完了したと判断し、
各句を句オブジェクトとして知識データベースに登録
(1012)し、また、出現パターンデータを参照し
て、各句の組が同じ頁に存在する数をリレーション値と
して登録(1013)して、作成対象の知識データベー
スの作成を完了する(1014)。
【0069】図11は、索引を知識のリソースとして、
そこから、句オブジェクトを切り出し、また、リレーシ
ョンを設定する方法を図示している。まず、知識のリソ
ースである索引1101より、句の部分1102及び頁
番号の部分1103をそれぞれ抽出し、句を切り出し、
また、頁出現パターンからなる出現パターンデータ(1
104)を生成する(図10における1001−101
1の処理)。出現パターンデータをもとに、句を句オブ
ジェクトとし、また、2つの句がそれぞれ同じ頁に出現
する回数をカウントしてリレーション値とする(110
5)(図10における1012−1013の処理)。こ
れを図示すると1106となる。また、言語化知識であ
る知識リソースからの句オブジェクト抽出の他の方法と
して、たとえば、予め指定した任意の句(用語、熟語、
文節など)を句オブジェクトのマスターデータとして用
い、対象知識リソースから同じ句を抽出する方法があ
る。この場合は、まず、指定した句により、知識単位に
おける句の存在を示す索引を作成し、前述した書籍の索
引を知識リソースとした場合と同じ方法により、句オブ
ジェクトの切り出しとリレーションの設定を行うことが
できる。また、知識単位における出現パターンよりリレ
ーション値を得る方法として、上記2例に示した各知識
単位における句オブジェクトの存在の有無ではなく、存
在量を集計し、各知識単位における存在プロファイルと
してこれをクラスタ解析することにより、各知識単位に
おける句オブジェクトの存在プロファイルの類似性を定
量化し、これを各オブジェクト間のリレーション値とす
ることも有用である。この方法によって、知識単位にお
ける出現パターンよりリレーション値を得る方法におい
て、特に、学術論文、Webページなど、比較的情報量の
多い知識単位を対象とした場合において、情報の希釈を
回避することができる。
【0070】句オブジェクトにより構成される知識デー
タベースにおいては、知識リソースである言語化知識の
選択によって、知識の情報密度が大きく左右される。す
なわち、言語化知識に含まれる冗長な情報、雑多な情報
は、知識データベースにおけるノイズ情報となり、知識
データベースから意味情報を抽出する際の妨げとなる。
知識データベース構築に使用する知識リソースを、目的
に応じて選択することで、ノイズ情報の少ない知識デー
タベースを構成することが可能となる。
【0071】すなわち、言語化知識の知識リソースとし
て、教科書、専門書、解説書などの書籍の索引を対象と
した場合、書籍の著者や編者により厳選された句のみを
知識データベースに取り込むことが可能となる。一般の
言語化知識においてはノイズとなる“DNA”、“遺伝
子”などの頻出語も、索引においては単独の句としては
採用されず、知識を構成する句としてのみ載っているた
め、句オブジェクトとしての利用が可能となる。また、
言語化知識の知識リソースとして、教科書、専門書、解
説書などの書籍の目次を対象とした場合、執筆時点での
知見に基づいた事実のみを述べているため、厳選された
句と共に、選択的に強いリレーションを得ることができ
る。
【0072】また、言語化知識の知識リソースとして、
学術論文のタイトルを対象とした場合、医学・生物学に
おける学術論文の特徴として、タイトルにはその論文が
証明したり、説明したりする知識の最も主要な要素が含
まれるため、厳選された句と共に、選択的に強いリレー
ションを得ることができる。学術論文のタイトルは、コ
ンピュータネットワークを介して取得することが可能で
あり、定期的に最新の学術論文を取得し、タイトルより
自動処理により句オブジェクトとリレーションを抽出
し、知識データベースをアップデートする仕組みによ
り、最新の知識を反映した知識データベースを維持する
ことが可能である。
【0073】また、言語化知識の知識リソースとして、
教科書、学術論文等の本文を対象とすることにより、均
一な句オブジェクトを得ることが可能となる。すなわ
ち、こうしたリソースは、一般の言語化知識において情
報処理の妨げとなる同意語や同義語(シノニム)が少な
く、それらによる知識情報の希釈を避けることができ
る。たとえば、“マイクロアレイ”、“DNAチップ”、
“バイオチップ”といった用語は、いずれも同一の事象
を指す場合があるが、一般的にこうしたリソースにおい
ては用語が統一されている。学術論文はコンピュータネ
ットワークを介して取得することが可能であり、定期的
に最新の学術論文を取得し、本文より自動処理により句
オブジェクトとリレーションを抽出し、知識データベー
スをアップデートする仕組みにより、最新の知識を反映
した知識データベースを維持することが可能である。
【0074】DNA配列オブジェクトや蛋白質配列オブジ
ェクトは、DNA配列や蛋白質配列と共に言語化知識を含
む知識リソースより抽出する。通常、DNA配列あるいは
蛋白質配列は、そのDNA配列あるいは蛋白質配列を特定
する識別子、及び、DNA配列あるいは蛋白質配列の由来
や機能を記述した言語化知識と共にデータ化されてい
る。そうした知識リソースより、DNA配列あるいは蛋白
質配列をDNA配列オブジェクトあるいは蛋白質配列オブ
ジェクトとして抽出し、相互の間にリレーションを設定
する。また、それらの配列に付随する識別子を句オブジ
ェクトとして抽出し、対応するDNA配列オブジェクトあ
るいは蛋白質配列オブジェクトとの間のリレーションに
「対象となる2つのオブジェクトを同一とみなす」とす
る値を設定する。また、言語化知識から抽出したその他
の句オブジェクトとDNA配列の識別子をオブジェクト値
とする句オブジェクトや蛋白質配列の識別子をオブジェ
クト値とする句オブジェクトとの間、及び、言語化知識
から抽出したその他の句オブジェクト相互の間にリレー
ションを設定する。これにより、DNA配列オブジェク
ト、蛋白質配列オブジェクトと句オブジェクトを共に含
む知識データベースが構築される。この知識データベー
スは、句オブジェクトを含むため、他の句オブジェクト
を含む知識データベースと容易に合併可能である。
【0075】DNA配列情報や蛋白質配列情報を蓄積した
データベースを知識リソースとする場合は、DNA配列エ
ントリー単位あるいは蛋白質配列エントリー単位に、上
記の操作を行い、エントリー単位に生成した知識データ
ベースを全て合併してデータベースの知識データベース
とする。DNA配列あるいは蛋白質配列、又はその両方と
言語化知識を共に含む知識リソースは、コンピュータネ
ットワークを介して取得することが可能であり、定期的
に最新の情報を取得し、DNA配列オブジェクト、蛋白質
配列オブジェクト、句オブジェクト及びリレーションを
抽出し、定期的に取得した知識リソースに対する知識デ
ータベースを作成し、マスターの知識データベースへ合
併することで、最新の知識を反映した知識データベース
を維持することが可能である。画像オブジェクトにより
構成される知識データベースにおいては、たとえば画像
オブジェクト間の特性値解析の結果や、画像取得状況を
リレーション値とする。例えば、時系列に取得した画像
において、取得の次期の近い画像間ほど高いリレーショ
ン値とする。目的に応じて画像オブジェクト間のリレー
ション値を用意した知識データベースを、他の画像オブ
ジェクトを含む知識データベースへ合併することによっ
て、画像オブジェクト間に特徴あるリレーション値を提
供することが可能である。例えば、生体組織の成長や老
化、病変における時系列変化を捉えた一連の画像を画像
オブジェクトとして持つ知識データベースを用意し、複
数の検体よりサンプルとして取得した生体組織画像を含
む知識データベースと合併することにより、各検体間の
生体組織画像からみた定量的関係を含む知識データベー
スを構築することが可能である。
【0076】画像オブジェクトは、画像と画像に関連付
けられた言語化知識とを含む知識リソースより抽出す
る。例えば、画像を特定する識別子を持つ画像ファイル
より、画像を画像オブジェクトとして、識別子を句オブ
ジェクトとして抽出する。また、識別子により結び付け
られて画像の内容を記述した言語化知識より、句オブジ
ェクトを抽出する。そして、画像オブジェクトとその画
像の識別子をオブジェクト値とする句オブジェクトとの
間のリレーションに「対象となる2つのオブジェクトを
同一とみなす」とする値を設定する。また、識別子によ
り結び付けられて画像の内容を記述した言語化知識から
抽出した句オブジェクト相互の間、及び、当該句オブジ
ェクトと識別子をオブジェクト値とする句オブジェクト
との間にリレーションを設定する。これらのオブジェク
ト及びリレーションを含む知識データベースは、句オブ
ジェクトを含むため、他の句オブジェクトを含む知識デ
ータベースと容易に合併可能である。こうした、句オブ
ジェクトと画像オブジェクトを共に含む知識データベー
スは、Webページを知識リソースとすることによっても
生成される。Webページを識別するURLや、Webページに
含まれる画像を識別するURL、Webページに含まれる言語
化知識等を句オブジェクトとし、Webページ内の画像
(画像オブジェクト)との間にリレーションを設定する
ことで、他の句オブジェクトを含む知識データベースと
容易に合併可能である。
【0077】知識リソースとして、HTML、XMLなどの構
造化記述言語で表現された知識も利用可能とする。その
場合、知識リソースの表現形式とその定義に応じて、ど
ういった情報をどの種類のオブジェクトとして抽出し、
リレーションを設定するかを用意し、それに従って利用
する。
【0078】図12は、異なる種類のオブジェクトが存
在する知識データベースを生成する例として、DNAデー
タベースエントリを知識のリソースとして、そこから、
DNA配列オブジェクトとそれに関連した句オブジェクト
を切り出し、リレーションを設定する方法の例を示した
図である。
【0079】典型的なDNAデータベースエントリ120
1には、そのDNAが何物であるかを説明した部分120
2、そのDNAを特定する識別子1203、DNA配列120
4が含まれる。それぞれの部分をDNAデータベースエン
トリより切り出した後、DNAが何物であるかを説明した
部分1202は、論文のタイトル同様、句分離文字列1
206によって、句1205に分解し、句オブジェクト
1207とその間のリレーションを生成する。ここで
は、リレーション値を1としている。そのDNAを特定す
る識別子1203は、そのまま句オブジェクトとして、
同じDNAデータベースエントリのDNAが何物であるかを説
明した部分から生成した全ての句オブジェクトとの間に
リレーションを設定する。ここでは、リレーション値を
Nとしている。最後に、DNA配列1204は、そのままDN
A配列オブジェクト1210とし、そのDNAを特定する識
別子1203から生成した句オブジェクトとの間に、2
つのオブジェクトを同一とみなすリレーション1211
を設定する。ここでは、同一とみなす値として−1を設
定している。
【0080】図13は、異なる種類のオブジェクトが存
在する知識データベースを生成する例として、画像ファ
イルと画像を説明した言語化知識を知識のリソースとし
て、そこから、画像オブジェクトとそれに関連した句オ
ブジェクトを切り出し、リレーションを設定する方法の
例を示した図である。
【0081】画像ファイル1321には、画像1322
と画像の識別子としてのファイル名1323が含まれ
る。また、画像の説明1324には、画像の識別子とし
ての画像ファイルのファイル名1325と画像を説明す
る言語化知識1326が存在する。それぞれの部分を切
り出した後、画像を説明する言語化知識は、論文のタイ
トル同様、句分離文字列1328によって、句1327
に分解し、句オブジェクト1329とその間のリレーシ
ョンを生成する。ここでは、リレーション値を1として
いる。ファイル名は、画像を特定する識別子として、句
オブジェクト1331とし、画像を説明する言語化知識
から生成した全ての句オブジェクトとの間にリレーショ
ン1330を設定する。ここではリレーション値をNと
している。画像は、画像配列オブジェクト1332と
し、画像を特定する識別子から生成した句オブジェクト
1331との間に、2つのオブジェクトを同一とみなす
リレーション1333を設定する。ここでは、同一とみ
なす値として−1を設定している。
【0082】図14は、Webページから知識データベー
スを生成する例の図である。Webページ1441には、W
ebページのURL1442、Webページに含まれる言語化知
識1443、画像1444とそのURL1445などが含
まれる。それぞれの部分を切り出した後、WebページのU
RLは句オブジェクト1446とし、Webページに含まれ
る言語化知識は、論文のタイトル同様、句分離文字列1
448によって、句1447に分解し、句オブジェクト
1449とその間のリレーションを生成する。ここで
は、リレーション値を1としている。画像は、画像オブ
ジェクト1451とし、画像のURLは、画像を特定する
識別子として、句オブジェクト1452とし、その間
に、2つのオブジェクトを同一とみなすリレーション1
453を設定する。ここでは、同一とみなす値として−
1を設定している。Webページに含まれる言語化知識から
生成した全ての句オブジェクト及び画像のURLから生成
した句オブジェクトと、WebページのURLより生成した句
オブジェクトとの間にリレーション1450を設定す
る。ここではリレーション値をNとしている。
【0083】図15は、知識データベースおけるデータ
の格納方式、及び、知識データベースに関連した情報と
して、シノニムオブジェクトの情報、及び、シノニムオ
ブジェクト辞書を格納する方式を、リレーショナルデー
タベースにおける場合を例として示した図である。
【0084】本データ格納方式においては、複数の知識
データベースを格納可能としている。すなわち、一つの
知識データベース1506は、知識データベーステーブ
ル1501の1レコードによって他と識別される。各知
識データベースにはユニークなIDとして知識データベー
ス識別子(ndb#id)が付与され、オブジェクトテーブル
の各レコードは、知識データベース識別子を持つことに
よって、どの知識データベースに所属するかが識別可能
となる。オブジェクトレコードには、知識データベース
識別子の他に、オブジェクトタイプ(obj#type)、オブ
ジェクト識別子(obj#id)、オブジェクトの値(obj#va
lue)、オブジェクトカウント(obj#count)を格納可能
とする。オブジェクト識別子は、知識データベース内で
ユニークな値とし、また、異なる知識データベースにお
いても、同じオブジェクト識別子を持つオブジェクトは
同じ値を持つものとする。オブジェクトタイプには、句
オブジェクトやDNA配列オブジェクトといったオブジェ
クトの種類を示す情報を格納し、オブジェクトの値に
は、オブジェクトの値をテキストやバイナリで格納す
る。また、オブジェクトカウントには、句オブジェクト
におけるリレーション値の標準化に使用するために、知
識リソースにおける対象オブジェクトの出現頻度を記録
する。
【0085】リレーションテーブル1503には2つの
オブジェクト識別子を格納可能とし、どのオブジェクト
間のリレーションであるかを識別可能とする。また、リ
レーション値(rel#value)を格納可能とする。シノニ
ムオブジェクト情報テーブルには、シノニムを持つオブ
ジェクトを指し示すオブジェクト識別子と、シノニムの
値を格納する。シノニムの値はオブジェクトと同等の値
であるため、オブジェクトの値と同じフィールド名とし
てある。
【0086】また、シノニムオブジェクト辞書テーブル
1505を用意している。シノニムオブジェクト辞書テ
ーブル1505には、シノニムのグループを識別するた
めのオブジェクト識別子、シノニムの値、シノニムの付
加情報(syn#attr)を格納する。シノニムの識別子及び
シノニムの値はオブジェクトと同等の情報であるため、
オブジェクト識別子及びオブジェクトの値と同じフィー
ルド名としてある。シノニム付加情報には、たとえば、
対象のレコードにおけるシノニムがシノニムのグループ
の内での代表シノニムであるかどうかの情報を格納す
る。
【0087】図16は、知識データベースに格納する情
報の例を示す図である。オブジェクトの情報1602と
しては、オブジェクトの番号、種類、値、出現回数が、
また、リレーション1603としては、オブジェクトの
番号によってリレーション値のマトリックスが、また、
これらを含む知識データベース1601の名前として
「Sample NDB」が与えられていることを示している。
【0088】図17は、図16において示した情報を、
図15で示した方式で格納する例を示す図である。知識
データベーステーブル1701には、知識データベース
識別子と知識データベース名を持った、対象の知識デー
タベースを示す1つのレコードを、オブジェクトテーブ
ル1702には、所属する知識データベースを示す知識
データベース識別子、オブジェクト識別子、オブジェク
トタイプ、オブジェクトの値とオブジェクトカウント
を、リレーションテーブル1703には、それぞれ、ど
のオブジェクト間のリレーションであるかを示す2つの
オブジェクト識別子とリレーションの値を格納してい
る。ここでは、値が0のリレーションはリレーションテ
ーブルには格納しないこととしている。
【0089】複数の知識データベースより、同じ値を持
つ複数の句オブジェクトを選出し、それらの句オブジェ
クト間のリレーション値を抽出し、これを比較すること
により、複数の知識データベースにおける知識の構成の
違いを知ることができる。ここで対象とする句オブジェ
クトは、利用者が任意の興味ある句オブジェクトを選択
するか、あるいは、対象となる複数の知識データベース
に含まれる任意の値以上のリレーション値を持つリレー
ションに関わる句オブジェクトを選択するか、あるい
は、その2つの方式を組み合わせることで選択する。比
較を行う方法としては、たとえば、2つの句オブジェク
トの組によって明示される対象リレーションを一方の軸
に、リレーション値を他方の軸に取って、知識データベ
ース毎に色、線種、マーカなどの異なる折れ線を引く二
次元グラフを書く。グラフの表示においては、ある知識
データベースにおける対象リレーションのリレーション
値によって、対象リレーションの軸をソートすること
で、他の知識データベースの値との比較を容易にするこ
とができる。
【0090】また、時系列に意味のある知識データベー
ス、たとえば、年毎、月毎など、一定期間毎に集められ
た情報を知識リソースとして生成した知識データベース
などを対象とした知識データベースの比較においては、
時系列でソートした知識データベースを一方の軸に、リ
レーション値を他方の軸に取って、2つの句オブジェク
トの組によって明示される対象リレーション毎に色、線
種、マーカなどの異なる折れ線を引く二次元グラフを書
く。こうしたグラフの素描により、知識リソースにおけ
る知識の時系列の変化を容易に観察することが可能とな
る。
【0091】図18は、複数の知識データベース間にお
ける、あるオブジェクトに関連したリレーションの値の
変化を示すグラフの例を示す図である。図では、6つの
知識データベース(ndb#95, ndb#96, ndb#97, ndb#98,
ndb#99, ndb#00)において、「遺伝子A」の値を持つオ
ブジェクト1805に対して、いずれかの知識データベ
ースにおいて強いリレーションを持つオブジェクト(タ
ーゲットオブジェクト)を抽出し、グラフ表示したもの
である。縦軸にリレーション値1802、横軸に知識デ
ータベース1803を取り、いずれかの知識データベー
スにおいて「遺伝子A」の値を持つオブジェクトに対し
て0より大きなリレーション値を持っていた6つのオブ
ジェクト1806について、それぞれ、値を線グラフ1
804で表している。この方法により、注目したオブジ
ェクトに対する他のオブジェクトの関係が、異なる知識
データベースにおいて、如何に異なるかを知ることがで
きる。また、対象となる知識データベースが時系列に変
化する知識リソースから作成されたものである場合、横
軸の知識データベースを元となった知識リソースに応じ
て時系列に並べることで、注目したオブジェクトに関連
したオブジェクトについて、時系列の関係の変化を見る
ことができる。
【0092】異なる知識リソースから生成した、句オブ
ジェクトを含む知識データベースの演算を行う際、ある
いは、知識データベースの比較など、知識データベース
間の情報の差に着目した知識データベースの利用を行う
際は、演算もしくは利用対象となる知識データベース間
での句オブジェクト間のリレーションの影響力や情報量
を一定にするために、演算又は利用前に、演算もしくは
利用対象の知識データベース間でリレーション値の標準
化を行う。すなわち、各知識データベースの生成に利用
した知識リソースの大きさや、知識リソースに含まれて
いた情報の偏りに由来するリレーション値の絶対値を、
各知識データベース内でのリレーション値の総和に対す
る相対的な値や、注目したリレーションに対する相対的
な値に変換することで、対象となる知識データベースの
情報を正しく反映した演算や利用を可能とする。
【0093】標準化の方法としては、知識データベース
生成に用いた知識リソースにおいて抽出した句オブジェ
クトの出現頻度により標準化する方法がある。たとえ
ば、言語化知識の知識リソースからの知識データベース
の生成において、句オブジェクト毎に抽出回数を記録す
ることで、知識データベースの演算や利用の際、対象の
各知識データベースにおいて、全句オブジェクトの抽出
回数の和、又は注目する句オブジェクトの抽出回数の和
を求め、その値が対象の知識データベース間で同じ値に
成るように全リレーションの値を標準化する。この方法
を知識データベースの和に用いる場合は、演算元の両知
識データベースにおいて標準化された句オブジェクトの
抽出回数の和を、演算結果の知識データベース内に記録
することで、引き続き、他の知識データベースとの和に
おいて標準化を行うことが可能となる。
【0094】また、演算や利用の対象である知識データ
ベースに含まれる句オブジェクト間のリレーション値に
注目して標準化する方法がある。たとえば、知識データ
ベースの演算や利用の際、対象の各知識データベースに
おいて、各知識データベースに含まれる句オブジェクト
間のリレーション値の総和、あるいは、注目する句オブ
ジェクトに関連した句オブジェクトとの間のリレーショ
ン値の総和、あるいは、注目する1つのリレーションの
値を求め、その値が対象の知識データベース間で同じ値
に成るように全リレーションの値を標準化する。
【0095】注目する句オブジェクトの知識リソースに
おける出現頻度や、知識データベース内の注目するリレ
ーションの値によって標準化を行うことにより、知識デ
ータベース全体、あるいは注目する句オブジェクトやリ
レーションの周辺における、知識データベース間の知識
の偏りを対象としたより正確な処理が可能となる。
【0096】知識データベースに含まれるオブジェクト
に関する情報の表示において、対象となるオブジェクト
を選択する方法としては、知識データベースに含まれる
オブジェクトを指定又は検索することで行う。オブジェ
クトの指定においては、オブジェクトの値を入力する。
たとえば、句オブジェクトの指定のための値の入力にお
いては、指定したい各オブジェクトの値の入力に従っ
て、先頭一致で同じ値のオブジェクト値を持つ句オブジ
ェクトが候補としてリスト表示され、そこから選択でき
るユーザインターフェースであることが望ましい。検索
においては、オブジェクトの種類毎に用意した検索方法
によって、オブジェクトの値で検索を行うとよい。たと
えば、句オブジェクトについては句の正規化表現による
検索を、DNA配列オブジェクト、蛋白質配列オブジェク
トについては相同性検索による検索を、また、画像オブ
ジェクトについては画像のパターンマッチングによる検
索を用意するとよい。指定又は検索により選択された、
1つ又は複数のオブジェクトに関して関連する情報をリ
スト表示又はグラフィックスにて表示する方法を用意す
るとよい。リスト表示において表示する情報としては、
オブジェクトの種類、オブジェクトの値、そのオブジェ
クトに関連するリレーションのリレーション値の合計、
そのオブジェクトと指定した値以上のリレーションを持
つオブジェクトの数、そのオブジェクトと同一であると
みなす値を持つオブジェクトの数、また、句オブジェク
トの場合は知識リソースからの抽出回数などとする。指
定されたオブジェクトが1つの場合には、そのオブジェ
クトと指定した値以上のリレーションを持つオブジェク
トに関して、同様の情報のリスト表示を同時に表示する
とよい。グラフィックス表示においては、例えば、対象
オブジェクトを示すマーカを円周上に等間隔で並べ、マ
ーカ間でリレーションを示す線を引く。リレーション値
の大小を線の太さで表すことにより、対象オブジェクト
全体のリレーションの関係を容易に識別可能とする。
【0097】図19は、知識データベースにおいて、指
定した複数のオブジェクトの関連を表示するグラフィッ
ク表示の例を示す図である。知識データベースに含まれ
る任意のオブジェクトを指定、もしくは、検索によって
選択し、円周1901上にそれらのオブジェクト190
2を等間隔に配置する。そして、全てのオブジェクト間
を、リレーションを示す線1903で結ぶ。リレーショ
ン値の大小を線の太さで表し、また、必要に応じて線上
にリレーション値を表示することにより、どのオブジェ
クト間が強いリレーションを持っているかを明示する。
また、多数のオブジェクトを同時に表示した場合など、
指定した値以上のリレーション値であるリレーションの
みを表示することよって表示を簡略化する。
【0098】本知識データベースの基本的な利用方法と
しては、調査対象のキーワードを、目的に応じて構築し
た知識データベースに与え、そのキーワードに関連する
情報を表示することがある。その際、目的に応じて構築
した知識データベースから情報を抽出する方法として
は、指定したキーワードに対応する1つ又は複数のオブ
ジェクト(クエリーオブジェクト)に対して、階層的
に、強いリレーションを持つオブジェクト(ターゲット
オブジェクト)を選択していく方法が有効である。
【0099】すなわち、第1階層として、クエリーオブ
ジェクトに関連したリレーションをリレーション値の高
い順にソートし、予め設定した数のリレーションを上位
のものから選択し、選択したリレーションで関連付けら
れたオブジェクト(ターゲットオブジェクト)を得る。
次に、第2階層として、第1階層にて得たターゲットオ
ブジェクトを新たなクエリーオブジェクトとして同様の
処理を行い、次のターゲットオブジェクトを得る。指定
した回数だけ、階層的にターゲットオブジェクトを得る
ことにより、第1階層において与えたクエリーオブジェ
クトに階層的に関連したオブジェクトを得ることができ
る。この方法において、クエリーオブジェクトに関連し
たリレーションを選択する際、選択するリレーション値
の最低値を設定し、その値によって足切りを行うことに
よって、主要なリレーションのみで構成された、階層的
なオブジェクトのネットワークを得ることもできる。
【0100】また、他の基本的な利用方法としては、複
数のキーワードに対して、それらを1つのグループと考
え、そのグループに関連する情報を表示する方法もあ
る。その際、目的に応じて構築した知識データベースか
ら情報を抽出する方法としては、指定したキーワードに
対応する複数のオブジェクトを最初のクエリーオブジェ
クトとしたとき、第1階層のターゲットオブジェクト取
得に先立ち、全クエリーオブジェクトおよびそれらに関
連したリレーションを合併して1つのオブジェクトと
し、新たにこれをクエリーオブジェクトとしてから、階
層的にオブジェクトを選択していく。この方法によれ
ば、グループに所属するオブジェクトに対して平均して
高いリレーション値を持つリレーションにより結び付け
られたオブジェクト得ることが可能である。例えば、調
査対象のキーワードが多い場合など、キーワードが集合
として強く関連を持つオブジェクトを得ることは有用で
ある。
【0101】上記の方法により得られた階層的にリレー
ションを持つオブジェクトの表示方法として、テーブル
形式のリスト表示と、グラフィカル表示を用意する。グ
ラフィカル表示においては、第1階層として与えたクエ
リーオブジェクトが1つであった場合、クエリーオブジ
ェクトを中心として、後の階層ほど半径の大きくなる同
心円上にターゲットオブジェクトを並べ、クエリーオブ
ジェクトとターゲットオブジェクトとの間を線で結ぶこ
とで、オブジェクト間のリレーションと階層を効果的に
表示することができる。このとき、リレーション値の大
きさを線の太さで表現するとよい。また、表示上で同じ
オブジェクトは重複して表示はしない。すなわち、オブ
ジェクトとリレーションの表示は低い階層から高い階層
へ行い、より低い階層や同じ階層で既に表示されたオブ
ジェクトについては新たには表示をせず、リレーション
も、既に表示済みのオブジェクトとの間で線を結ぶ。
【0102】また、第1階層として与えたクエリーオブ
ジェクトが1つであろうと、複数であろうと、階層毎に
オブジェクトを、水平、あるいは、垂直方向に平行に並
べ、クエリーオブジェクトとターゲットオブジェクトと
の間を線で結ぶことで、オブジェクト間のリレーション
と階層を効果的に表示することができる。このとき、リ
レーション値の大きさを線の太さで表現する。また、表
示上で同じオブジェクトは重複して表示はしない。すな
わち、オブジェクトとリレーションの表示は低い階層か
ら高い階層へ行い、より低い階層や同じ階層で既に表示
されているオブジェクトについては新たには表示をせ
ず、リレーションも、既に表示済みのオブジェクトとの
間で線を結ぶ。
【0103】階層的にリレーションを持つオブジェクト
のグラフィカル表示において、表示されたオブジェクト
から1つ又は複数の任意のオブジェクトを選択状態とす
ることを可能とするとよい。すなわち、それらを手動で
ドラッグし再配置することで表示の改善が行えることが
望ましい。また、選択したオブジェクトにつき、次の階
層で表示するターゲットオブジェクトの数や最低リレー
ション値の設定を変更し、表示に反映するユーザインタ
ーフェースを用意する。また、選択したオブジェクトに
つき、それらをクエリーオブジェクトとして、指定した
知識データベースより、あらたに知識情報の抽出と表示
を行うことを可能にするとよい。また、オブジェクトを
複数選択した場合、それらをシノニムオブジェクトグル
ープとして登録し、知識データベースの再構成を行うこ
とを可能にするとよい。その際、選択したオブジェクト
の内、どれを代表オブジェクトとするか指定することを
可能とする。
【0104】図20は、知識データベースにおいて、指
定した1つのオブジェクト(クエリーオブジェクト)
に、階層的に関連したオブジェクトと、それら相互の間
のリレーションを同心円上に広がる形で表示するグラフ
ィックス表示インターフェースの例を示す図である。
【0105】クエリーオブジェクト2001を中心に表
示し、そのクエリーオブジェクト2001に対して、指
定した以上に高いリレーションを持つオブジェクト20
02を指定した数だけ知識データベースより抽出してこ
れを第1階層のオブジェクトとし、クエリーオブジェク
トを中心とした円周2004上に等間隔に配置する。続
いて、第1階層の各オブジェクトに対して、それぞれ、
指定した以上の高いリレーションを持つオブジェクト2
003を指定した数だけ知識データベースより抽出し、
これを第2階層のオブジェクトとして、クエリーオブジ
ェクトを中心とする第1階層の円2004よりも半径の
大きな円2005上に等間隔に配置する。この際、第1
階層までにすでに表示されているオブジェクトについて
は、第2階層には含めない。また、各オブジェクトは、
できるだけそれらが高いリレーションを持つ第1層のオ
ブジェクトの近くに配置するようにする。このようにし
て、指定した階層だけ、階層的にオブジェクトを抽出し
て表示していく。
【0106】また、表示した全てのオブジェクト間をリ
レーションを表す線2006で結ぶ。リレーション値の
大小を線の太さで表し、また、必要に応じて線上にリレ
ーション値を表示することにより、どのオブジェクト間
が強いリレーションを持っているかを明示する。多数の
オブジェクトを同時に表示した場合など、指定した値以
上のリレーションを示す線のみを表示することよって表
示を簡略化してもよい。表示されたオブジェクトは選択
可能であり、選択したオブジェクトはドラッグして、見
やすい位置に移動することができるのが望ましい。オブ
ジェクトを移動した際はリレーションを示す線も同時に
移動する。選択したオブジェクトについて、次の階層に
表示するオブジェクトの数を増減したり、選択したオブ
ジェクト自身を表示より削除したりすることができるこ
とが望ましい。また、選択したオブジェクトにつき、そ
れらをクエリーオブジェクトとして、指定した知識デー
タベースより、あらたに知識情報の抽出と表示を行うこ
とを可能にするとよい。
【0107】図21は、知識データベースにおいて、指
定した1つ又は複数のオブジェクトに、階層的に関連し
たオブジェクトと、それら相互の間のリレーションを平
行に広がる形で表示するグラフィックス表示の例を示す
図である。クエリーオブジェクト2101を直線状に、
等間隔に表示する。表示においては、多数のオブジェク
トを表示した際のみやすさを改善する方法として、互い
違いになるように表示してもよい。各クエリーオブジェ
クトに対して、それぞれ、指定した以上に高いリレーシ
ョンを持つオブジェクト2102を指定した数だけ知識
データベースより抽出してこれを第1階層のオブジェク
トとし、クエリーオブジェクトに平行な位置2104に
等間隔に配置する。続いて、第1階層の各オブジェクト
に対して、それぞれ、指定した以上の高いリレーション
を持つオブジェクト2103を指定した数だけ知識デー
タベースより抽出し、これを第2階層のオブジェクトと
して、クエリーオブジェクトに平行な第1階層よりも離
れた位置2105に配置する。この際、第1階層までに
すでに表示されているオブジェクトについては、第2階
層には含めない。また、各オブジェクトは、できるだけ
それらが高いリレーションを持つ第1層のオブジェクト
の近くに配置するようにする。
【0108】このようにして、指定した階層だけ、階層
的にオブジェクトを抽出して表示していく。また、全て
のオブジェクト間を、リレーションを表す線2106で
結ぶ。リレーション値の大小を線の太さで表し、また、
必要に応じて線上にリレーションの値を表示することに
より、どのオブジェクト間が強いリレーションを持って
いるかを明示する。多数のオブジェクトを同時に表示し
た場合など、指定した値以上のリレーションのみを表示
することよって表示を簡略化してもよい。表示されたオ
ブジェクトは選択可能であり、選択したオブジェクトは
ドラッグして、見やすい位置に移動することができるの
が望ましい。オブジェクトを移動した際はリレーション
を示す線も同時に移動する。選択したオブジェクトにつ
いて、次の階層に表示するオブジェクトの数を増減した
り、選択したオブジェクト自身を表示より削除したりす
ることができることが望ましい。また、選択したオブジ
ェクトにつき、それらをクエリーオブジェクトとして、
指定した知識データベースより、あらたに知識情報の抽
出と表示を行うことを可能にするとよい。
【0109】本知識データベースの応用的な利用方法と
しては、医学・生物学関連データベースの検索の結果得
られる情報を調査対象とし、対応するオブジェクトをク
エリーオブジェクトとして、知識データベースから情報
を引き出す方法がある。その際、医学・生物学関連デー
タベースの検索の結果得られる情報としては、専門用
語、分子名、遺伝子名、生物種、URLなどを記述したの
句、DNA配列、蛋白質配列などの分子構造、生体組織画
像などの画像、などがある。たとえば、DNA配列データ
ベースや蛋白質配列データベースに対するDNA配列や蛋
白質配列の相同性検索の結果得られる情報のうち、アク
セッション番号、DNA配列名、蛋白質名などは、句オブ
ジェクトを含む知識データベースに与え、同じオブジェ
クト値を持つ句オブジェクトをクエリーオブジェクトと
して、得られる情報を表示する。又は、相同性検索の結
果得られる情報のうち、DNA配列や蛋白質配列は、DNA配
列オブジェクトや蛋白質配列オブジェクトを含む知識デ
ータベースに与え、相同性の高いオブジェクト値を持つ
DNA配列オブジェクトや蛋白質配列オブジェクトをクエ
リーオブジェクトとして、得られる情報を表示する。
【0110】また、医学・生物学実験や、データ解析の
結果得られる情報を調査対象とし、対応するオブジェク
トをクエリーオブジェクトとして、知識データベースか
ら情報を引き出す方法がある。その際、医学・生物学関
連データベースの検索の結果得られる情報としては、専
門用語、分子名、遺伝子名、生物種、URLなどを記述し
たの句、DNA配列、蛋白質配列などの分子構造、生体組
織画像などの画像、などがある。たとえばDNA配列決定
実験においては、DNAシーケンサにより決定されたDNA配
列を、DNA配列オブジェクトや蛋白質配列オブジェクト
を含む知識データベースに与え、相同性の高いオブジェ
クト値を持つDNA配列オブジェクトや蛋白質配列オブジ
ェクトをクエリーオブジェクトとして、得られる情報を
表示する。また、遺伝子発現データのクラスタ解析の結
果得られる遺伝子名のクラスタを、句オブジェクトを含
む知識データベースに与え、各遺伝子名と同じオブジェ
クト値を持つ句オブジェクトをクエリーオブジェクトと
して、得られる情報を表示する。
【0111】図22は、遺伝子の発現プロファイル解析
の結果得られた、遺伝子名と同じオブジェクト値を持つ
句オブジェクトのクラスタをクエリーオブジェクトとし
て、図21に示した表示方法により、階層的に関連した
オブジェクトの情報を表示する、知識データベースの応
用例を示す図である。
【0112】遺伝子の発現プロファイルの解析におい
て、クラスタ解析アプリケーション2201によって分
類された遺伝子のクラスタを選択(2203)し、それ
らを知識データベースアプリケーション2202に渡
し、同じオブジェクト値を持つ句オブジェクトをクエリ
ーオブジェクト2204として、指定した知識データベ
ースより階層的にオブジェクトとリレーションを抽出
し、図21と同様の表示方法で表示したものである。こ
のように、知識データベースの応用によって、医学、生
物学実験やデータ解析の結果より、既存の知識リソース
に存在する知識を得ることができる。
【0113】
【発明の効果】以上説明したように、本発明によれば、
医学・生物学の知識を構造化して蓄積・利用することが
可能となり、知識の説明、知識の表現、知識の発見、情
報システムによる知識の利用が可能となる。
【図面の簡単な説明】
【図1】本発明のシステム構成図。
【図2】最も単純な知識データベースの概念図。
【図3】知識データベースの概念図。
【図4】知識データベースの合併の概念図。
【図5】知識データベース内におけるオブジェクトとリ
レーションの合併の概念図。
【図6】異なる種類のオブジェクトを含む知識データベ
ースの例を示す図。
【図7】リレーション値によるオブジェクト・リレーシ
ョン抽出の説明図。
【図8】一般的な句オブジェクト切り出しとリレーショ
ン設定の手順の一例を示すフローチャート。
【図9】句オブジェクト切り出しとリレーション設定の
例を示す説明図。
【図10】索引からの句オブジェクト切り出しとリレー
ション設定の手順の一例を示すフローチャート。
【図11】索引からの句ブジェクト切り出しとリレーシ
ョン設定の例を示す説明図。
【図12】DNAデータベースエントリからのDNA配列オブ
ジェクトを含む知識データベース生成の例を示す図。
【図13】画像ファイルと画像の説明からの画像オブジ
ェクトを含む知識データベース生成の例を示す図。
【図14】Webページからの知識データベース生成の例
を示す図。
【図15】知識データベースデータ構造の例を示す図。
【図16】知識データベースにおけるオブジェクト値、
リレーション値の例を示す図。
【図17】知識データベースデータ構造でのデータ格納
の例を示す図。
【図18】知識データベース比較グラフの例を示す図。
【図19】知識データベースに含まれるオブジェクト・
リレーション表示の例を示す図。
【図20】関連オブジェクトの階層的表示(円形表示)
の例を示す図。
【図21】関連オブジェクトの階層的表示(平行表示)
の例を示す図。
【図22】クラスタ解析からの知識データベース情報検
索の例を示す図。
【符号の説明】
100…教科書、専門書など印刷された医学・生物学の
言語化知識データ、101…言語化知識データ、102
…学術情報データベース、103…スキャナ装置、10
4…処理部、105…データベース、106…表示装
置、107…キーボード、108…マウス、201…オ
ブジェクト、202…リレーション、203…最も単純
な知識データベース、301…知識データベース、40
1…知識データベースA、402…知識データベースB、
403…知識データベースAB、404…オブジェクト
a、405…オブジェクトb、406…オブジェクトc、
407…オブジェクトd、408…オブジェクトe、40
9…合併した知識データベースの両方にもともと存在し
ていたリレーション、410…合併した知識データベー
スの一方にのみ存在していたリレーション、411…合
併により新たに発生したリレーション、501…オブジ
ェクト合併前の知識データベース、502…オブジェク
ト合併後の知識データベース、601…異なる種類のオ
ブジェクトが存在する知識データベース、602−60
6…句オブジェクト、607−609…DNA配列オブジ
ェクト、610…句オブジェクト間のリレーション、6
11…DNA配列オブジェクト間のリレーション、612
−614…句オブジェクトとDNA配列オブジェクトの間
で、同一であるとみなす値を持つリレーション、701
…高いリレーションを持つオブジェクトを含む知識デー
タベース、702…異なる種類のオブジェクト間のリレ
ーションから求められたリレーション、801−816
…フローチャートの処理、901…論文のタイトル、9
02…切り出した論文のタイトル、903…句、904
…句分離文字列、905…句オブジェクト、906…句
オブジェクト間のリレーション、1001−1014…
フローチャートの処理、1101…索引、1102…索
引に含まれる句、1103…索引に含まれる頁番号、1
104…頁出現パターンデータ、1105…知識データ
ベース(オブジェクトとリレーション)、1106…知
識データベースの図、1201…DNAデータベースエン
トリ、1202…DNA配列に付随する言語化知識、12
03…DNA配列の識別子、1204…DNA配列、1205
…句、1206…句分離文字列、1207…句オブジェ
クト、1208…DNA配列に付随する言語化知識から生
成した句オブジェクトとDNA配列の識別子から生成した
句オブジェクトとの間のリレーション、1209…DNA
配列の識別子から生成した句オブジェクト、1210…
DNA配列オブジェクト、1211…DNA配列オブジェクト
とDNA配列の識別子から生成した句オブジェクトとの間
のリレーション、1321…画像ファイル、1322…
画像、1323…画像の識別子(画像ファイル名)、1
324…画像の説明、1325…画像の識別子(画像フ
ァイル名)、1326…画像を説明する言語化知識、1
327…句、1328…句分離文字列、1329…句オ
ブジェクト、1330…画像を説明する言語化知識から
生成した句オブジェクトと画像の識別子から生成した句
オブジェクトとの間のリレーション、1331…画像の
識別子から生成した句オブジェクト、1332…画像オ
ブジェクト、1333…画像オブジェクトと画像の識別
子から生成した句オブジェクトとの間のリレーション、
1441…Webページ、1442…WebページのURL、1
443…Webページに含まれる言語化知識、1444…W
ebページに含まれる画像、1445…Webページに含ま
れる画像のURL、1446…WebページのURLから生成し
た句オブジェクト、1447…句、1448…句分離文
字列、1449…句オブジェクト、1450…Webペー
ジの言語化知識から生成した句オブジェクト及び画像の
URLから生成した句オブジェクトとWebページのURLから
生成した句オブジェクトとの間のリレーション、145
1…画像オブジェクト、1452…画像のURLから生成
した句オブジェクト、1453…画像オブジェクトと画
像のURLから生成した句オブジェクトとの間のリレーシ
ョン、1501…知識データベーステーブル、1502
…オブジェクトテーブル、1503…リレーションテー
ブル、1504…シノニムオブジェクト情報テーブル、
1505…シノニムオブジェクト辞書テーブル、150
6…知識データベースを格納するデータベース構造、1
601…知識データベース「Sample NDB」、1602…
オブジェクトデータ、1603…リレーションデータ、
1701…知識データテーブルのレコード、1702…
オブジェクトテーブルのレコード、1703…リレーシ
ョンテーブルのレコード、1801…知識データベース
比較グラフ、1802…X軸(リレーション値)、18
03…Y軸(知識データベース)、1804…折れ線グ
ラフ、1805…クエリーオブジェクトのオブジェクト
値、1806…グラフの凡例(ターゲットオブジェクト
のオブジェクト値)、1901…オブジェクトを表示す
る円、1902…オブジェクト、1903…リレーショ
ン、2001…クエリーオブジェクト、2002…第1
階層のオブジェクト、2003…第2階層のオブジェク
ト、2004…第1階層のオブジェクトを表示する円、
2005…第2階層のオブジェクトを表示する円、20
06…リレーション、2101…クエリーオブジェク
ト、2102…第1階層のオブジェクト、2103…第
2階層のオブジェクト、2104…第1階層のオブジェ
クトの表示域、2105…第2階層のオブジェクトの表
示域、2106…リレーション、2201…遺伝子発現
プロファイルのクラスタ解析結果表示、2202…知識
データベースの階層的オブジェクト関連表示、2203
…遺伝子発現プロファイルのクラスタ解析結果表示にお
ける処理対象遺伝子名の選択、2204…知識データベ
ースの階層的オブジェクト関連表示に渡された遺伝子名
に対応したクエリーオブジェクト
───────────────────────────────────────────────────── フロントページの続き (72)発明者 田村 卓郎 神奈川県横浜市中区尾上町6丁目81番地 日立ソフトウエアエンジニアリング株式会 社内 (72)発明者 山下 巌 神奈川県横浜市中区尾上町6丁目81番地 日立ソフトウエアエンジニアリング株式会 社内 Fターム(参考) 5B075 ND03 ND16 ND34 NK32 NK42 PP24 PQ02 PQ36 PR06 QM08 UU40 5B082 GA06

Claims (29)

    【特許請求の範囲】
  1. 【請求項1】 自然言語情報に含まれる句をオブジェク
    ト値として有する複数の句オブジェクトと、前記句オブ
    ジェクト間の関係を定量的に表現した値をリレーション
    値として有する前記句オブジェクト間のリレーションと
    を蓄積したことを特徴とする知識データベース。
  2. 【請求項2】 DNA配列又は蛋白質配列をオブジェクト
    値として有する複数のオブジェクトと、前記DNA配列間
    又は前記蛋白質配列間の関係を相同性計算あるいは実験
    的な測定により求めて定量的に表現した値をリレーショ
    ン値として有する前記オブジェクト間のリレーションと
    を蓄積したことを特徴とする知識データベース。
  3. 【請求項3】 複数のオブジェクトと、前記オブジェク
    ト間のリレーションとを蓄積した知識データベースであ
    って、 前記オブジェクトは、DNA配列をオブジェクト値として
    有するDNA配列オブジェクト又は蛋白質配列をオブジェ
    クト値として有する蛋白質配列オブジェクトと、前記DN
    A配列又は蛋白質配列に関連付けられた自然言語情報に
    含まれる句をオブジェクト値として有する句オブジェク
    トとを含み、 前記DNA配列オブジェクト又は蛋白質配列オブジェクト
    と前記句オブジェクトとの間のリレーションは予め定義
    されたリレーション値を有することを特徴とする知識デ
    ータベース。
  4. 【請求項4】 画像をオブジェクト値として有する複数
    のオブジェクトと、前記オブジェクト間の関係を定量的
    に表現した値をリレーション値として有する前記複数の
    オブジェクト間のリレーションとを蓄積したことを特徴
    とする知識データベース。
  5. 【請求項5】 複数のオブジェクトと、前記オブジェク
    ト間のリレーションとを蓄積した知識データベースであ
    って、 前記オブジェクトは画像をオブジェクト値として有する
    画像オブジェクトと、前記画像に関連付けられた自然言
    語情報に含まれる句をオブジェクト値として有する句オ
    ブジェクトとを含み、 前記画像オブジェクトと前記句オブジェクトとの間のリ
    レーションはそれぞれ予め定義されたリレーション値を
    有することを特徴とする知識データベース。
  6. 【請求項6】 複数のオブジェクトと、前記オブジェク
    ト間のリレーションとを蓄積した知識データベースであ
    って、 前記オブジェクトは医学分野及び/又は生物学分野で用
    いられる用語を含む句をオブジェクト値として有する句
    オブジェクトを含み、前記リレーションは前記句オブジ
    ェクトの間の関係を定量的に表現した値をリレーション
    値として有することを特徴とする知識データベース。
  7. 【請求項7】 請求項6記載の知識データベースにおい
    て、同一のオブジェクトと見なすべき複数のオブジェク
    トをシノニムオブジェクトグループとして登録したシノ
    ニムオブジェクト辞書を備えることを特徴とする知識デ
    ータベース。
  8. 【請求項8】 請求項6記載の知識データベースにおい
    て、前記オブジェクトはDNA配列をオブジェクト値とし
    て有するDNA配列オブジェクト、蛋白質配列をオブジェ
    クト値として有する蛋白質配列オブジェクト、又は画像
    をオブジェクト値として有する画像オブジェクトを含
    み、前記DNA配列オブジェクト、蛋白質配列オブジェク
    ト又は画像オブジェクトと前記句オブジェクトとの間の
    リレーションは予め定義されたリレーション値を有する
    ことを特徴とする知識データベース。
  9. 【請求項9】 請求項8記載の知識データベースにおい
    て、相同性が高いDNA配列をオブジェクトとして有する
    複数のDNA配列オブジェクト、あるいは相同性が高い蛋
    白質配列をオブジェクト値として有する複数の蛋白質配
    列オブジェクトを同一オブジェクトグループとして登録
    したシノニムオブジェクト辞書を備えることを特徴とす
    る知識データベース。
  10. 【請求項10】 請求項1又は6記載の知識データベー
    スにおいて、前記句オブジェクトは自然言語で表現され
    た知識(言語化知識)中の句をオブジェクト値として有
    し、それぞれの句が前記言語化知識内で近傍に存在する
    頻度を定量化した値を対応する句オブジェクト間のリレ
    ーションのリレーション値として有することを特徴とす
    る知識データベース。
  11. 【請求項11】 請求項1又は6記載の知識データベー
    スにおいて、前記句オブジェクトは書籍の索引に含まれ
    る句をオブジェクト値として有し、2つの句が当該書籍
    の同じ頁あるいは同じ段落に存在する頻度を定量化した
    値を対応する2つの句オブジェクト間のリレーションの
    リレーション値として有することを特徴とする知識デー
    タベース。
  12. 【請求項12】 請求項1又は6記載の知識データベー
    スにおいて、前記句オブジェクト間のリレーションは、
    それぞれの句が、自然言語で表現された知識の知識単位
    において存在するパターンの類似性(存在プロファイ
    ル)を定量化した値をリレーション値として有すること
    を特徴とする知識データベース。
  13. 【請求項13】 医学分野及び/又は生物学分野で用い
    られる用語を含む句をオブジェクト値として有するオブ
    ジェクトと、前記オブジェクト相互間の関係を定量的に
    表現した値をリレーション値として有するオブジェクト
    間のリレーションとを含む知識データベースから、1又
    は複数のキーワードに対応するオブジェクト(クエリー
    オブジェクト)に関連するオブジェクトを前記オブジェ
    クト間のリレーションを元に抽出し、前記クエリーオブ
    ジェクト及び抽出されたオブジェクトをその間のリレー
    ションと共に表示することを特徴とする方法。
  14. 【請求項14】 請求項13記載の方法において、前記
    クエリーオブジェクトをオブジェクト値の入力又は検索
    により選択し、前記選択されたクエリーオブジェクト及
    び抽出されたオブジェクト並びにその間のリレーション
    をリスト表示又はグラフィカル表示することを特徴とす
    る方法。
  15. 【請求項15】 請求項13記載の方法において、前記
    クエリーオブジェクトに対して、強いリレーションを持
    つオブジェクトを階層的に求め、前記クエリーオブジェ
    クト及び階層的に求めたオブジェクト並びにその間のリ
    レーションをリスト表示又はグラフィカル表示すること
    を特徴とする方法。
  16. 【請求項16】 自然言語により表現された医学分野及
    び/又は生物学分野の知識(言語化知識)より、その表
    現において使用されている句を抽出し、その句をオブジ
    ェクト値として有するオブジェクトを生成するととも
    に、各オブジェクト間の関係を定量的に表現した値をリ
    レーション値として有するオブジェクト間のリレーショ
    ンを生成し、生成したオブジェクトとオブジェクト間の
    リレーションとを蓄積することを特徴とする知識データ
    ベースの構築方法。
  17. 【請求項17】 請求項16記載の知識データベースの
    構築方法において、前記言語化知識を、予め用意した1
    文字又は複数文字より成る文分離文字列により文へ分解
    し、続いて、予め用意した1文字又は複数文字より成る
    句分離文字列により句に分解し、これを句オブジェクト
    のオブジェクト値とし、2つの句が前記言語化知識内で
    近傍に存在する頻度を対応する2つの句オブジェクト間
    のリレーションのリレーション値とすることを特徴とす
    る知識データベースの構築方法。
  18. 【請求項18】 請求項16又は17記載の知識データ
    ベースの構築方法において、前記言語化知識として書籍
    の索引、書籍の目次、学術論文のタイトル、書籍の本
    文、学術論文の本文、及び/又はWebページの本文を使
    用することを特徴とする知識データベースの構築方法。
  19. 【請求項19】 請求項16記載の知識データベースの
    構築方法において、句オブジェクトのマスターデータと
    して書籍の索引に含まれる句を用い、2つの句が前記書
    籍の同じ頁に存在する頻度を対応する2つのオブジェク
    ト間のリレーションのリレーション値とすることを特徴
    とする知識データベースの構築方法。
  20. 【請求項20】 請求項16記載の知識データベースの
    構築方法において、句オブジェクトのマスターデータと
    して予め指定した任意の句を用い、2つの句が前記言語
    化知識内で近傍に存在する頻度を対応する2つのオブジ
    ェクト間のリレーションのリレーション値とすることを
    特徴とする知識データベースの構築方法。
  21. 【請求項21】 請求項16記載の知識データベースの
    構築方法において、前記言語化知識として学術論文を用
    い、学術論文のタイトル及び/又は本文を含む情報をネ
    ットワーク経由等により定期的に取得し、取得した情報
    から句オブジェクト及びリレーションを抽出し、知識デ
    ータベースをアップデートすることを特徴とする知識デ
    ータベースの構築方法。
  22. 【請求項22】 請求項16記載の知識データベースの
    構築方法において、同一のオブジェクトと見なす複数の
    オブジェクト及びそれらに関連したリレーションを併合
    することを特徴とする知識データベースの構築方法。
  23. 【請求項23】 DNA配列を含む情報からDNA配列を抽出
    し当該DNA配列をオブジェクト値とするDNA配列オブジェ
    クトを生成し、2つのDNA配列オブジェクト間に、対応
    する2つのDNA配列間の関係を相同性計算あるいは実験
    的な測定により求められた定量的な値をリレーション値
    として有するリレーションを生成し、生成したDNA配列
    オブジェクト及びDNA配列オブジェクト間のリレーショ
    ンを蓄積することを特徴とする知識データベースの構築
    方法。
  24. 【請求項24】 請求項23記載の知識データベースの
    構築方法において、前記DNA配列に関連付けられた自然
    言語情報に含まれる句を抽出しそれをオブジェクト値と
    するオブジェクトを生成し、句オブジェクトと対応する
    DNA配列オブジェクトの間に定義されたリレーション値
    を有するリレーションを設定することを特徴とする知識
    データベースの構築方法。
  25. 【請求項25】 請求項24記載の知識データベースの
    構築方法において、DNA配列とそれに関係付けられた自
    然言語情報を含む情報をネットワーク経由等により定期
    的に取得し、前記取得した情報からDNA配列オブジェク
    ト、句オブジェクト及びリレーションを抽出し、知識デ
    ータベースをアップデートすることを特徴とする知識デ
    ータベースの構築方法。
  26. 【請求項26】 請求項23記載の知識データベースの
    構築方法において、相同性が高いDNA配列をオブジェク
    ト値として有する複数のDNA配列オブジェクトを同一オ
    ブジェクトと見なし、同一オブジェクトと見なした複数
    のDNA配列オブジェクト及びそれらに関連したリレーシ
    ョンを併合することを特徴とする知識データベースの構
    築方法。
  27. 【請求項27】 自然言語により表現された句をオブジ
    ェクト値として有する複数のオブジェクトと、前記オブ
    ジェクト間の関係を定量的に表現した値をリレーション
    値として有する前記複数のオブジェクト間のリレーショ
    ンとを蓄積した第1及び第2の知識データベース間で演
    算を行い、第3の知識データベースを生成することを特
    徴とする知識データベースの生成方法。
  28. 【請求項28】 自然言語により表現された句をオブジ
    ェクト値として有する複数のオブジェクトと、前記オブ
    ジェクト間の関係を定量的に表現した値をリレーション
    値として有する前記複数のオブジェクト間のリレーショ
    ンとを蓄積した第1及び第2の知識データベースを用
    い、前記第1及び第2の知識データベースにおける注目
    するリレーションのリレーション値の違いを比較するグ
    ラフを表示することを特徴とする方法。
  29. 【請求項29】 請求項27又は28記載の方法におい
    て、複数の知識データベース間で、各知識データベース
    に含まれる句オブジェクト間のリレーションのリレーシ
    ョン値を標準化することを特徴とする方法。
JP2001071769A 2001-03-14 2001-03-14 知識データベース及び知識データベースの構築方法 Pending JP2002269114A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2001071769A JP2002269114A (ja) 2001-03-14 2001-03-14 知識データベース及び知識データベースの構築方法
US10/077,662 US20020132258A1 (en) 2001-03-14 2002-02-14 Knowledge database and method for constructing knowledge database
EP02003746A EP1251435A3 (en) 2001-03-14 2002-02-19 Knowledge database and method for constructing and merging knowledge database

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001071769A JP2002269114A (ja) 2001-03-14 2001-03-14 知識データベース及び知識データベースの構築方法

Publications (1)

Publication Number Publication Date
JP2002269114A true JP2002269114A (ja) 2002-09-20

Family

ID=18929451

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001071769A Pending JP2002269114A (ja) 2001-03-14 2001-03-14 知識データベース及び知識データベースの構築方法

Country Status (3)

Country Link
US (1) US20020132258A1 (ja)
EP (1) EP1251435A3 (ja)
JP (1) JP2002269114A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005284728A (ja) * 2004-03-30 2005-10-13 Japan Science & Technology Agency 遺伝子相関関係表示方法およびその装置
JP2007506191A (ja) * 2003-09-15 2007-03-15 エービー イニティオ ソフトウェア コーポレーション データプロファイリング
US7412435B2 (en) 2004-01-06 2008-08-12 Matsushita Electric Industrial Co., Ltd. Information retrieval apparatus and information retrieval support apparatus
JP2013092865A (ja) * 2011-10-25 2013-05-16 Nippon Telegr & Teleph Corp <Ntt> 情報提示装置、方法及びプログラム
KR102233464B1 (ko) 2020-08-13 2021-03-30 주식회사 스탠다임 문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법 및 이를 이용하여 구축되는 시스템

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004178315A (ja) * 2002-11-27 2004-06-24 Hitachi Software Eng Co Ltd データ配信方法、データ検索方法及びデータ検索システム
US7613803B2 (en) * 2003-06-09 2009-11-03 Lockheed Martin Corporation Middle-ware interface status tool and method for using same
GB2412768A (en) * 2004-03-04 2005-10-05 Agilent Technologies Inc Methods and systems for extension, exploration, refinement, and analysis of biological networks
JP4730684B2 (ja) * 2004-03-16 2011-07-20 イマジニアリング株式会社 ユーザインターフェースが進化するデータベースシステムおよび当該データベースシステムを利用したWebブラウザ
DE102006041059A1 (de) * 2006-09-01 2008-03-20 Siemens Ag Verfahren zur rechnergestützten Erzeugung einer Datenbank aus biomedizinischen Daten
US8661012B1 (en) * 2006-12-29 2014-02-25 Google Inc. Ensuring that a synonym for a query phrase does not drop information present in the query phrase
CN102034016B (zh) * 2009-09-30 2016-08-31 帕斯维基因组学公司 基于基因组的药物管理系统
US20180018382A1 (en) * 2016-07-12 2018-01-18 Sap Se System for defining clusters for a set of objects
CN110580339B (zh) * 2019-08-21 2023-04-07 华东理工大学 一种医疗术语知识库完善的方法和装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH083815B2 (ja) * 1985-10-25 1996-01-17 株式会社日立製作所 自然言語の共起関係辞書保守方法
JP2640793B2 (ja) * 1992-01-17 1997-08-13 松下電器産業株式会社 共起辞書構築装置及びこの共起辞書を用いた文解析装置
US5692220A (en) * 1993-09-02 1997-11-25 Coulter Corporation Decision support system and method for diagnosis consultation in laboratory hematopathology
US5675819A (en) * 1994-06-16 1997-10-07 Xerox Corporation Document information retrieval using global word co-occurrence patterns
US6076088A (en) * 1996-02-09 2000-06-13 Paik; Woojin Information extraction system and method using concept relation concept (CRC) triples
US5802495A (en) * 1996-03-01 1998-09-01 Goltra; Peter Phrasing structure for the narrative display of findings
US5806066A (en) * 1996-03-26 1998-09-08 Bull Hn Information Systems Inc. Method of integrating schemas of distributed heterogeneous databases
JPH1049549A (ja) * 1996-05-29 1998-02-20 Matsushita Electric Ind Co Ltd 文書検索装置
US6083693A (en) * 1996-06-14 2000-07-04 Curagen Corporation Identification and comparison of protein-protein interactions that occur in populations
US6023659A (en) * 1996-10-10 2000-02-08 Incyte Pharmaceuticals, Inc. Database system employing protein function hierarchies for viewing biomolecular sequence data
US6182029B1 (en) * 1996-10-28 2001-01-30 The Trustees Of Columbia University In The City Of New York System and method for language extraction and encoding utilizing the parsing of text data in accordance with domain parameters
WO1999005324A1 (en) * 1997-07-25 1999-02-04 Affymetrix, Inc. System for providing a polymorphism database
US6070134A (en) * 1997-07-31 2000-05-30 Microsoft Corporation Identifying salient semantic relation paths between two words
US6633819B2 (en) * 1999-04-15 2003-10-14 The Trustees Of Columbia University In The City Of New York Gene discovery through comparisons of networks of structural and functional relationships among known genes and proteins
US6175830B1 (en) * 1999-05-20 2001-01-16 Evresearch, Ltd. Information management, retrieval and display system and associated method
WO2001013105A1 (en) * 1999-07-30 2001-02-22 Agy Therapeutics, Inc. Techniques for facilitating identification of candidate genes
DE19941606A1 (de) * 1999-09-01 2001-03-08 Merck Patent Gmbh Verfahren zum Ermitteln von Nuklein- und/oder Aminosäuresequenzen

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007506191A (ja) * 2003-09-15 2007-03-15 エービー イニティオ ソフトウェア コーポレーション データプロファイリング
US7412435B2 (en) 2004-01-06 2008-08-12 Matsushita Electric Industrial Co., Ltd. Information retrieval apparatus and information retrieval support apparatus
JP2005284728A (ja) * 2004-03-30 2005-10-13 Japan Science & Technology Agency 遺伝子相関関係表示方法およびその装置
JP2013092865A (ja) * 2011-10-25 2013-05-16 Nippon Telegr & Teleph Corp <Ntt> 情報提示装置、方法及びプログラム
KR102233464B1 (ko) 2020-08-13 2021-03-30 주식회사 스탠다임 문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법 및 이를 이용하여 구축되는 시스템
WO2022035074A1 (ko) 2020-08-13 2022-02-17 주식회사 스탠다임 문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법 및 이를 이용하여 구축되는 시스템

Also Published As

Publication number Publication date
EP1251435A2 (en) 2002-10-23
US20020132258A1 (en) 2002-09-19
EP1251435A3 (en) 2005-08-03

Similar Documents

Publication Publication Date Title
Krallinger et al. Text-mining and information-retrieval services for molecular biology
Ding et al. Bibliometric cartography of information retrieval research by using co-word analysis
US8504908B2 (en) Computer-implemented methods displaying, in a first part, a document and in a second part, a selected index of entities identified in the document
US10198478B2 (en) Methods and systems for technology analysis and mapping
Song et al. Identifying the landscape of Alzheimer’s disease research with network and content analysis
JP2008537821A (ja) 生体分子及び疾患の間の関係に関する証拠を収集するシステム及び方法
JP2002269114A (ja) 知識データベース及び知識データベースの構築方法
JP2008210024A (ja) 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体
Moradi et al. Text summarization in the biomedical domain
CN113868406B (zh) 搜索方法、系统、计算机可读存储介质
da Silva et al. Big data trends in bioinformatics
Zhang et al. Parsing citations in biomedical articles using conditional random fields
JP2005122231A (ja) 画面表示システム及び画面表示方法
Wang et al. Integrated knowledge content in an interdisciplinary field: identification, classification, and application
Panahiazar et al. Predicting biomedical metadata in CEDAR: A study of Gene Expression Omnibus (GEO)
Page Phyloinformatics: Toward a phylogenetic database
Deng et al. Endothelial nitric oxide synthase gene intron 4, 27 bp repeat polymorphism and essential hypertension in the Kazakh Chinese population
Venkatesh et al. Integromics: challenges in data integration
JP3563315B2 (ja) 樹状図表示方法及び樹状図表示システム
Lee et al. Using annotations from controlled vocabularies to find meaningful associations
Meert et al. Clustering maps
US20050004785A1 (en) System, method and computer product for predicting biological pathways
Ioannou et al. A set of novel mining tools for efficient biological knowledge discovery
Saggion et al. A multi-level annotated corpus of scientific papers for scientific document summarization and cross-document relation discovery
Madamidola et al. Metadata Extraction from References of Different Styles