JP2002032374A - 情報抽出方法及び記録媒体 - Google Patents

情報抽出方法及び記録媒体

Info

Publication number
JP2002032374A
JP2002032374A JP2000217036A JP2000217036A JP2002032374A JP 2002032374 A JP2002032374 A JP 2002032374A JP 2000217036 A JP2000217036 A JP 2000217036A JP 2000217036 A JP2000217036 A JP 2000217036A JP 2002032374 A JP2002032374 A JP 2002032374A
Authority
JP
Japan
Prior art keywords
information
user
term
document
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000217036A
Other languages
English (en)
Inventor
Yoshiyuki Kobayashi
義行 小林
Toshihisa Takagi
利久 高木
Shigeo Ihara
茂男 井原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2000217036A priority Critical patent/JP2002032374A/ja
Publication of JP2002032374A publication Critical patent/JP2002032374A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 医学生物学文献から、低コストかつ短時間で
必要なデータベースを構築する情報抽出方法を提供する
こと。 【解決手段】 医学生物学に関する文献の集合から情報
を抽出する情報抽出方法において、抽出したい情報を含
む文書を検索するステップと、検索した文書から利用者
が指示した用語を含む部分を検索するステップと、利用
者が指示した用語に関係する他の用語を利用者に提示す
るステップと、検索した部分を利用者に提示するステッ
プと、検索した部分から必要な情報をあらかじめ保持し
ている知識に従い抽出するステップと、抽出した情報を
利用者に提示するステップと、抽出した情報の適否を利
用者が判断するステップと、前記利用者の判断に従い情
報抽出に利用する知識を洗練するステップと、を備える
ことを特徴とする情報抽出方法。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、医学生物学分野の
論文から研究者が興味を持つ情報を自動的に文献から抽
出する情報抽出方法及び記録媒体に関する。とくに、情
報の利用者が理解しやすい形式に整理して提示する方
法、抽出した情報を更に高度な情報処理システムで利用
するために編集する情報抽出方法及び記録媒体に特徴を
持つ。
【0002】
【従来の技術】分子生物学では、DNAの塩基配列や、タ
ンパク質のアミノ酸配列、立体構造など、生物を構成す
る物質に関する情報をデータベース化している。これら
のデータベースは統合化されており、互いのデータが関
連付けられ、複数のデータベースを高度な情報を持つひ
とつのデータベースであるかのように利用することがで
きる。
【0003】しかし、これまでに構築されたデータベー
スの多くは分子レベルの物質に関するものがほとんどで
ある。細胞、個体、種などさまざまなレベルのデータベ
ースが分子生物学の進展とともに必要となってきた。つ
まり、分子レベルの物質だけでなく、物質の間の相互作
用のような生物機能に関する情報のデータベース化を進
めることが期待されてきている。
【0004】そのようなデータベースにCSNDB(Cell Sig
naling Networks Data Base http://geo.nihs.go.jp/cs
ndb/) がある。このデータベースには、人の細胞におけ
る情報の伝達に関与しているタンパク質と、タンパク質
がどのように相互作用することで情報を伝達するかに関
する情報が保存されている。このようなデータベース
は、現在のところ、必要な情報が含まれると期待される
論文を研究者が読み、必要な情報を抜き出すことで構築
されている。
【0005】
【発明が解決しようとする課題】今後は、シグナル伝達
以外にもさまざまな物質の間の相互作用に関する情報を
データベース化されることが望まれる。しかし、従来の
ように研究者が文献を読んで必要な情報を抜き出してデ
ータベースを構築する方法では、必要なデータベースを
構築するのに、膨大な時間と人手が必要である。そこ
で、計算機を利用して自動的に文献から情報を抽出する
方法を提供することで、低コストかつ短時間で必要なデ
ータベースを構築することを可能にする情報抽出方法及
び記録媒体を提供することを目的とする。
【0006】
【課題を解決するための手段】本発明の情報抽出方法
は、医学生物学に関する文献の集合から情報を抽出する
情報抽出方法であって、抽出したい情報を含む文書を検
索するステップと、検索した文書から利用者が指示した
用語を含む部分を検索するステップと、検索した部分か
ら必要な情報をあらかじめ保持している知識に従い抽出
するステップと、抽出した情報を利用者に提示するステ
ップと、抽出した情報の適否を利用者に判断させるステ
ップと、前記利用者の判断に従い情報抽出に利用する知
識を洗練するステップと、を備える。
【0007】また、利用者が指示した用語に関係する他
の用語を利用者に提示するステップを備えることが好ま
しい。さらに、検索した部分を利用者に提示するステッ
プを備えることが好ましい。また、自然言語処理を利用
して用語の上位下位関係又は用語の同義関係を自動的に
作成するステップを備えることが好ましい。
【0008】また、本発明は、上記情報抽出方法をコン
ピュータに実行させるためのプログラムを記録したコン
ピュータ読み取り可能な記録媒体である。本発明によ
り、文献に含まれる情報からデータベースを構築すると
き、低コストかつ短時間に行なうことが可能になる。ま
た、文献から抽出した情報は、データベース構築に利用
するだけでなく、その情報そのものを研究者に提示する
ことで、研究者の効率的な情報取得を支援することが可
能になる。
【0009】
【発明の実施の形態】本発明の情報抽出方法を適用した
情報抽出システムを例にして、発明の実施の形態を説明
する。図1は、情報抽出システム1の構成を示すブロッ
ク図である。
【0010】[情報抽出システム1]情報抽出システム
1は、文献データベース2や文献データベース3とイン
ターネットなどの通信ネットワーク4によって通信可能
である。文献データベースは3つ以上あってもかまわな
い。利用者5からの情報に関する要求に従って、文献デ
ータベース2や文献データベース3からの文献収集と文
献から情報抽出を行ない、その結果を利用者に提示す
る。利用者は、提示された情報を読んだり、情報を保存
したり、利用者が情報を編集したりする。また、抽出し
た情報の適否を利用者が判断することで、情報抽出シス
テムを訓練することもできる。
【0011】情報抽出システム1は、外部と信号の送受
信を行う「入出力部11」、各情報処理部の制御や記事処
理を行う「中央処理装置12」、中央処理装置12が処理す
るデータを一時的に保持する「内部記憶部13」、検索し
た文献や文献を解析した結果、文献から抽出した情報を
保持する「外部記憶部14」から構成される。情報抽出シ
ステムは文献解析処理と情報提示・編集処理をこれらの
上で実行する。文献解析処理では、文献データベースか
ら収集した文献に対するさまざまな解析と、解析結果の
外部記憶部14への保存処理を行なう。情報提示・編集処
理では、文献解析処理で抽出した情報の利用者への提示
と、利用者とのインタラクションによる情報の編集を行
なう。
【0012】[外部記憶部14で保存される情報]処理の
説明に先立ち、外部記憶部14に保存される情報について
説明する。外部記憶部14には、検索した文献、文献検索
用ID、文献の言語解析結果、文献より抽出した専門用語
および動詞、専門用語および動詞を解析した結果、利用
者が編集した結果、および上記の各種情報の間の関係が
保存されている。なお、文献の言語解析、文献よりの専
門用語・動詞の抽出、専門用語・動詞の解析、利用者に
よる編集については後述する。図2は、これら情報の保
存形態を模式的に表現した図である。文献データベース
から受信した文献およびその言語解析結果は、すべて文
献情報部141に保存される。文献から抽出した専門用語
とその解析結果、下位語、同義語は、用語情報部142に
保存される。また、文献から抽出した動詞とその解析結
果、情報抽出用パターンは、動詞情報部143に保存され
る。
【0013】[文献情報部141]文献データベースから
受信した文献とその言語解析結果の保存形態である。文
献情報は、文献本体、記事へのアクセスの文献参照デー
タ、文献を言語解析した結果である言語解析結果の3つ
の要素から構成される。言語解析結果は、言語解析ステ
ップにおける処理によって得られる。各文献へのアクセ
スは、文献に付与された固有のID(文献ID)を指定する
ことで行う。これらの文献アクセスのための情報は、文
献参照データとしてテーブルの形で格納されている。文
献本体は、各文献参照データからポインタを張られてい
る。また、文献を言語解析した結果の情報も文献参照デ
ータからポインタを張られている。
【0014】[用語情報部142]文献から抽出した専門
用語とその解析結果の保存形態である。用語情報は、用
語の表記、文献ごとの用語情報、下位語へのポインタ、
同義語へのポインタの4つの要素から構成される。下位
語、同義語は、用語編集ステップで解析・編集した結果
を保存しており、その形式は、下位語・同義語とされる
語へ張られたポインタである。文献ごとの用語情報に
は、用語の言語情報と用語の出現位置情報が、用語を抽
出した文献ごとに保存されている。用語の言語情報は、
文献を言語解析ステップで解析した結果から得られる。
用語へのアクセスは、用語表記によって行なう。
【0015】[動詞情報部143]文献から抽出した動詞
とその解析結果の保存形態である。動詞情報は、動詞の
表記、文献ごとの動詞情報、情報抽出用のパターンの3
つの要素から構成される。情報抽出用のパターンは、動
詞編集ステップで解析・編集した結果を保存しており、
その形式は、いわゆる格フレームを品詞によって記述し
たものである。文献ごとの動詞情報には、動詞の言語情
報と動詞の出現位置情報が、動詞を抽出した文献ごとに
保存されている。動詞の言語情報は、文献を言語解析ス
テップで解析した結果から得られる。動詞へのアクセス
は、動詞表記によって行なう。
【0016】[文献解析処理]図3は、文献解析処理の
流れを示すフロー図である。これらの処理は、中央処理
部11において実行される。利用者5の要求に応じて文献
を検索する文献検索ステップS161、検索した文献を言
語的に解析する言語解析ステップS162、検索した文献
とその解析結果に関する情報を保存する文献情報保存ス
テップS163、外部記憶装置14に保存されている文献の
解析結果から情報抽出に有用な専門用語および動詞を抽
出する用語・動詞抽出ステップS164、抽出した用語お
よび動詞について統計的自然言語処理を行なう用語・動
詞統計処理ステップS165、抽出した用語の上位下位関
係や同義関係を推定する用語間関係評価ステップS16
6、抽出した用語と用語の統計的処理の結果を外部記憶
装置14に保存する用語・動詞情報保存ステップS167か
ら構成される。
【0017】[文献検索ステップS161]文献検索ステ
ップS161では、利用者の要求に応じて文献データベー
スから文献を検索する。利用者はユーザインタフェース
部12で要求を入力する。本実施例では、検索要求は、項
とブール演算子(AND、OR、NOT)によって記述する。項
は、単語と、その単語が索引語か文献本文に出現する語
かの指定によって表現する。このような検索要求を生物
学の研究者が容易に入力できるようにするために、ユー
ザインタフェース部では、グラフィカルなインタフェー
スを提供する。図4は、グラフィカルインタフェースと
それに対する入力の例を示す図である。利用者は矩形部
分に検索したい語を入力し、その語が索引が本文内の語
かを矩形右のボタンによって選択する。同じ矩形内に入
力した語はブール演算子ORの関係にあり、矩形と矩形の
間はブール演算子ANDの関係にある。ブール演算子NOTは
単語の前に「−」(マイナス)を付けることで表す。文
献データベースごとに受理する検索要求の形式が異なる
ので、利用者が入力した要求は検索するデータベースご
との形式にあわせて変換し、その後、各データベースへ
送信する。一般に、文献データベースはブール演算子で
表現された論理式を受理することができるので、あらか
じめ変換表を用意しておき、ブール演算子を各文献デー
タベースにあうように書きかえればよい。受信した文献
検索結果は、文献リストの形で返信される。各文献デー
タベースから送信された文献検索から、文献を参照する
情報を抽出する。文献を参照する情報は、文献が公表さ
れた雑誌とその巻号、文献のタイトルである。複数の文
献データベースから送られた結果をひとつのリストに併
合する。このとき、同じ参照情報を持つ文献は同じ文献
なのでひとつだけをリストに保持する。受信した文献の
リストを外部記憶部14の文献情報部141に保存する。こ
のとき、文献にIDを付与し、IDによって文献が検索でき
るようにする。文献をデータベースに保存するとき、言
語解析ステップS162に新たに保存する文献のIDを送信
する。
【0018】[言語解析ステップS162]文献検索ステ
ップS161によって送信された文献のIDに対応する言語
解析未処理の文献に対して、言語解析を行なう。図5
は、言語解析ステップS162の処理の流れを示すフロー
図である。その処理の流れは、文献から本文を抽出する
本文抽出ステップS1621、抽出した本文を形態素解析す
る形態素解析ステップS1622、形態素解析結果を受けて
統語解析を行なう統語解析ステップS1623、解析した結
果をデータベースに保存する解析結果保存ステップS16
24から構成される。つまり、本実施例では、言語解析は
形態素解析と統語解析である。意味解析や談話解析など
の処理を加えることも考えられる。
【0019】[本文抽出ステップS1621]言語解析対象
の文献から、文献のタイトルや、検索用の付加的な記述
や図、表などを取り除き、本文だけを抽出する。SGMLや
HTMLなどのタグによってタイトルや図などの位置が明示
されている場合は、このタグの情報を利用して本文を抽
出する。本実施例では、HTMLタグが付与されている例を
示す。なお、タグの情報を利用できない場合は、ヒュー
リスティクスを利用して本文以外の部分を除去すること
で本文部分を抽出することができる。例えば、タイトル
部分は一文目はタイトルと推定することで除去する。図
や表は日本語では「図」や「表」、英語では「tabl
e」、「figure」といったキーワードに注目してその範
囲を推定して除去する。
【0020】[形態素解析ステップS1622]形態素解析
とは、文章をその構成する単語に分割し、その単語の原
形や品詞を同定する処理である。文献が日本語の場合
は、単語区切り位置の同定もこの言語解析処理でなされ
る。形態素解析は公知の技術であるので、ここでは説明
しない。参考文献として、(自然言語処理の基礎、田中
穂積、産業図書、1989)を挙げる。図6は、形態素解析
・統語解析の例を示す図である。文を単語に分割し、各
単語の原形と品詞を付与している。
【0021】[統語解析ステップS1623]統語解析と
は、文を構成する単語の間の統語的関係を同定し、文の
統語構造を明らかにする処理である。本実施例では、句
や節を推定する程度のいわゆる浅い統語解析(Shallow p
arsingと呼ばれる)を行なうとする。統語解析および浅
い統語解析は公知の技術であるので、ここでは説明しな
い。参考文献として、(自然言語処理の基礎、田中穂
積、産業図書、1989)を挙げる。例を図6に示す。文を
構成する単語の間の係り受けを解析し、名詞句の構造を
推定している。この例の統語構造を説明する。"Fas"
が"receptor"に係り、名詞句を構成している。また、"a
cidic"が"sphingomyelinase"に係り、名詞句を構成し、
その名詞句に"the"が係り、名詞句を構成している。こ
の名詞句と、名詞"activation"と"of"がさらに名詞句を
構成している。名詞句"Fas receptor"と動詞"trigger"
と名詞句"activation of the acidicsphingomyelinase"
が文を構成している。
【0022】[文献情報保存ステップS163]形態素解
析および統語解析の結果を、言語解析結果として外部記
憶部14の文献情報部141に文献IDと関係つけて保存す
る。
【0023】[用語・動詞抽出ステップS164]言語解
析ステップS162の結果を利用して、文献から情報抽出
に有用と期待される専門用語および動詞を自動的に抽出
する。本実施例では、形態素情報と統語情報を利用し抽
出処理を行なう。専門用語としては、統語解析ステップ
S1623において名詞句と推定された語の並びのなかで、
品詞に関する制約を満足する語を抽出する。品詞に関す
る制約としては、品詞が"<形容詞|名詞>名詞"と並ぶ
こととする。ここで、<>は'<'と'>'で挟まれた要素
が0個以上繰り返すことを意味する。形容詞|名詞
は、'|'の左要素「形容詞」又は右要素「名詞」が現れ
ることを意味する。品詞の並びが"名詞"や"名詞,名
詞"、"形容詞,名詞"、"形容詞,名詞,名詞"となっている
単語列がこの条件にあう単語列である。日本語の場合
は、最長漢字列を抜き出すような処理でも、良い精度で
用語を抽出することができる。動詞としては、形態素解
析で動詞と解析された語と、現在分詞又は過去分詞と解
析され名詞句を構成しない語を抽出する。図6の例で
は、"Fas receptor"、"activation"、"the acidic sphi
ngomyelinase" が専門用語、"trigger" が動詞として抽
出される。
【0024】[用語・動詞統計処理ステップS165]用
語・動詞抽出ステップS164で抽出した専門用語と動詞
について統計処理を行ない重要な専門用語と動詞の推定
を行なう。本実施例では、尤度比によって検索した文書
に特徴的な専門用語と動詞を推定する。単語wの尤度比
LR(w) を評価する式を数1に示す。
【0025】
【数1】LR(w)=2Σijlog(nij/N)−log
(ni:・n:j/N) N 単語の延べ出現頻度 i,j 1,2 n11 検索した文献に単語wが出現する頻度 n12 文献データベースにおいて検索した文献以外に
単語wが出現する頻度 n21 検索した文献に単語w以外が出現する頻度 n22 文献データベースにおいて検索した以外の文献
に単語w以外が出現する頻度 ni: ni1+ni2 n:i n1i+n2i 文献データベースにおける出現頻度と、検索した文献に
おける出現頻度の尤度比により、重要度を評価する。
【0026】[用語間関係評価ステップS166]専門用
語の間の関係を評価する。本実施例では、用語の間の意
味的な上位下位関係の評価と、同義関係の評価を行な
う。用語間の上位下位関係は、用語の統語構造を利用し
て評価する。用語Aの左に修飾語Bが付加された用語A
Bは、Aの下位語になるという規則を再帰的に適用する
ことで、用語の上位下位関係を評価することができる。
例を示す。"protein kinase"は"kinase"に修飾語"prote
in"が付与された構造であり、"protein kinase"は"kina
se"の下位語と解析される。"tyrosine protein kinase"
は、"protein kinase"に修飾語"tyrosine"が付与され
た構造であり、"tyrosine protein kinase" は"protein
kinase"の下位語と解析される。本実施例では、統語関
係を利用して上位下位関係を評価したが、統計的言語処
理に自動的語彙体系生成手法(情報検索と言語処理, 徳
永健伸, 東京大学出版会,1999を参照)を利用すること
もできる。同義関係においても、統計的言語処理に自動
的語彙体系生成手法を利用することもできるが、本実施
例では、処理速度の早いヒューリスティクスに基づく手
法を使う。本実施例のヒューリスティクスは、用語の最
右の名詞と最左の名詞が共通する用語のグループは同義
とするものである。例えば、"c-Jun kinase"、"c-Jun N
-terminal kinase" 、"c-Jun amino-terminal kinaseは
最右の"c-Jun" と最左の"kinase"が同じなので同義語と
判定される。
【0027】[用語・動詞情報保存ステップS167]抽
出した用語と用語の統計処理結果を外部記憶部14の用語
情報部142に保存する。抽出した動詞と動詞の統計処理
結果を外部記憶部14の動詞情報部142に保存する。用語
から下位の用語へのポインタを張り、下位語ポインタ部
に記憶する。用語から同義語へのポインタを張り、同義
語ポインタ部に記憶する。
【0028】[情報提示・編集処理]情報提示・編集処
理は、文献解析処理での解析結果の情報の利用者への提
示と、利用者とのインタラクションによる情報の編集を
行なう。これらの処理は、中央処理部11において実行さ
れる。図7は、情報提示・編集処理の流れを示すフロー
図である。利用者が指定した専門用語の上位下位関係を
自動的に推定し、その結果の提示と利用者とのインタラ
クションによる編集を行う用語上位下位関係提示・編集
ステップS171、利用者が指定した専門用語の同義語を
自動的に推定し、その結果と利用者とのインタラクショ
ンによる編集を行う用語同義関係提示・編集ステップS
172、利用者が指定した動詞について基本的な情報抽出
パターンと各動詞ごとに登録した情報抽出パターンを利
用して専門用語の組を抽出する情報抽出結果提示・編集
ステップS173、利用者が指定した動詞について外部記
憶部14に保存した文を検索し利用者に提示する文検索結
果提示ステップS174から構成される。
【0029】[用語上位下位関係提示・編集ステップS
171]用語間関係評価ステップS166で評価し、外部記憶
部14の用語情報部142に保存した用語の上位下位関係の
利用者への提示と、上位下位関係の編集を行なう。処理
の流れを図7に示す。情報を見たい用語の利用者による
指定を受け付ける用語選択ステップS1711、指定された
用語の上位下位関係を利用者に提示する情報提示ステッ
プS1712、利用者による上位下位関係の編集を受け付け
る情報編集ステップS1713から構成される。
【0030】[用語選択ステップS1711]利用者が下位
語を提示したい用語を入力する。本実施例には、用語を
キーボードから入力する方法と、用語メニューから選択
する方法の2つがある。用語メニューは用語・動詞統計
処理ステップS165の結果得られる重要度の降順に用語
を並べ、その上位数語を提示することで実現する。
【0031】[情報提示ステップS1712]利用者が選択
した用語とその用語の下位語を利用者に提示する。用語
から下位語へ張られるポインタを順に読み出すことで、
すべての下位語を読み出す。すべての下位語をディスプ
レイに表示したり、紙にプリントアウトすることは困難
であるので、利用者とのインタラクションにより、下位
語を表示する範囲を調節する。図8は、用語の上位下位
関係の提示例を示す図である。図8では、利用者が"kin
ase"を選択した場合の例である。図8(a) では"kinase"
とその直下の用語だけが提示されているが、利用者が"p
rotein kinase"の下位語を提示する指示をした場合、図
8(b) のような表示に変更する。また、下位語を読み出
すとき同時に同義語ポインタを順に読み出すことで、同
義語は並置して提示する。"tyrosinekinase" と"tyrosi
ne protein kinase" が同義語である。
【0032】[情報編集ステップS1713]利用者は提示
された用語を見て、不要な用語の削除と不適切な上位下
位関係の編集を行なう。図9は、用語の上位下位関係を
提示するユーザインタフェース画面例を示す図である。
用語の前にあるボタンによって削除操作を行なう。上位
下位関係は、マウスによるドラッグ・アンド・ドロップ
方式により行なう。図10は、用語の上位下位関係の編
集例を示す図である。"tyrosine kinase" を"protein k
inase"の子の位置に移動している。
【0033】[用語同義関係提示・編集ステップS17
2]用語間関係評価ステップS166で評価し、外部記憶部
14の用語情報部142に保存した用語の同義関係の利用者
への提示と、同義関係の編集を行なう。処理の流れを図
7に示す。情報を見たい用語の利用者による指定を受け
付ける用語選択ステップS1721、指定された用語の同義
関係を利用者に提示する情報提示ステップS1722、利用
者による同義関係の編集を受け付ける情報編集ステップ
S1723から構成される。
【0034】[用語選択ステップS1721]利用者が同義
語を提示したい用語を入力する。本実施例には、用語を
キーボードから入力する方法と、用語メニューから選択
する方法の2つがある。用語メニューは用語・動詞統計
処理ステップS165の結果得られる重要度の降順に用語
を並べ、その上位数語を提示することで実現する。
【0035】[情報提示ステップS1722]利用者が選択
した用語とその用語の同義語を利用者に提示する。用語
から同義語へ張られるポインタを順に読み出すことで、
すべての同義語を読み出す。図11は、用語の同義関係
の提示例を示す図である。図11では、利用者が"kinas
e"を選択した場合の例である。
【0036】[情報編集ステップS1723]利用者は提示
された用語を見て、同義語の登録と不要な同義語の削除
を行なう。本実施例で提供するユーザインタフェースを
図11に示す。用語の前にあるボタンで操作対象の同義
語を選択する。登録か削除の選択はインタフェース画面
上部のボタンによって選択する。最上部の矩形の部分に
は、情報提示ステップS1722では提示されなかった同義
語を利用者が入力する。
【0037】[情報抽出結果提示・編集ステップS17
3]情報抽出結果提示・編集ステップS173では、テンプ
レートに基づく情報抽出によって、利用者が欲しい情報
を抽出する。分子生物学において重要な情報である、物
質間相互作用や、物質による現象の制御、相互作用の連
鎖などの情報を抽出する。これらの情報は、述語動詞に
よって主語目的語の関係にある用語の組によって表現可
能である。したがって、述語動詞とその主語述語をテン
プレートによって抽出する。テンプレートには、すべて
動詞に共通する基本パターンと、情報提示・編集処理に
おいて、各動詞ごとに獲得される固有パターンがある。
処理の流れを図7に示す。
【0038】[動詞選択ステップS1731]利用者が文検
索した動詞同義語を提示したい用語を入力する。本実施
例には、動詞をキーボードから入力する方法と、動詞メ
ニューから選択する方法の2つがある。動詞メニューは
用語・動詞統計処理ステップS165の結果得られる重要
度の降順に動詞を並べ、その上位数語を提示することで
実現する。
【0039】[情報提示ステップS1732]利用者が選択
した動詞を含む文を検索し利用者に提示する。動詞を含
む文を検索する場合、外部記憶部14の動詞情報部143か
ら文献IDと文献内での位置を読み出す。文献IDと文献内
の位置を使って、文献情報部141で動詞を検索する。動
詞を検索したら、情報抽出用パターンを文に対して適用
し、主語と目的語を抽出する。動詞が能動態の場合は、
主語、目的語の順に並べて、動詞が受動態の場合は、目
的語、主語の順に並べて利用者に提示する。
【0040】[情報編集ステップS1733]利用者は提示
された情報の適否を判定する。図12は、情報抽出結果
を提示するユーザインタフェース画面例を示す図であ
る。利用者は情報の前にあるボタンによって適否を登録
するかどうかを選択する。適否の区別はインタフェース
画面上部のボタンによって選択し、登録を押すと適、削
除を押すと否と判定したことになる。
【0041】[文検索結果提示ステップS174]外部記
憶部14の用語情報部142に保存した文献から利用者が指
示した用語又は動詞を含む文を検索し、指示した語の文
内での位置を明示するKWIC形式で利用者に提示する。処
理の流れを図7に示す。利用者による用語又は動詞の指
定を受け付ける用語・動詞選択ステップS1741、指定さ
れた用語や動詞を含む文を検索して利用者に提示する情
報提示ステップS1742から構成される。
【0042】[用語・動詞選択ステップS1741]利用者
が文検索したい動詞あるいは用語を入力する。本実施例
には、動詞あるいは用語をキーボードから入力する方法
と、用語メニューあるいは動詞メニューから選択する方
法の2つがある。用語メニューは用語・動詞統計処理ス
テップS165の結果得られる重要度の降順に用語を並
べ、その上位数語を提示することで実現する。動詞メニ
ューも同様である。
【0043】[情報提示ステップS1742]利用者が選択
した用語あるいは動詞を含む文を検索し利用者に提示す
る。用語を含む文を検索する場合、外部記憶部14の用語
情報部142から文献IDと文献内での位置を読み出す。文
献IDと文献内の位置を使って、文献情報部141で用語を
検索する。用語を検索したら、文の開始方向に向かって
文区切り記号まで文の前部を読み出す。同じように、文
の終了方向に向かって、文区切りまで文の後部を読み出
す。動詞の場合も同様の処理である。文の前部、指定し
た用語や動詞、文の後部を明示してKWIC形式で利用者に
提示する。図13は、文検索結果の提示例を示す図であ
る。
【0044】なお、本発明は上記実施の形態に限定され
るものではない。本発明は、コンピュータを上記情報抽
出方法として機能させるためのプログラムを記録したコ
ンピュータ読み取り可能な記録媒体であってもよく、例
えば、磁気テープ、CD−ROM、ICカード、RAM
カード等のいかなるタイプの記録媒体であってもよい。
【0045】
【発明の効果】上記のように、本発明を用いることで、
医学生物学文献から利用者が欲しい情報を低コストかつ
短時間で獲得することができる。その結果、高度な医学
生物学データベースを効率的に構築できる。
【図面の簡単な説明】
【図1】情報抽出システムの構成を示すブロック図であ
る。
【図2】外部記憶部14における情報の保存形態を示す図
である。
【図3】文献解析処理の流れを示すフロー図である。
【図4】検索要求入力の例を示す図である。
【図5】言語解析ステップS162の処理の流れを示すフ
ロー図である。
【図6】形態素解析・統語解析の例を示す図である。
【図7】情報提示・編集処理の流れを示すフロー図であ
る。
【図8】用語の上位下位関係の提示例を示す図である。
【図9】用語の上位下位関係を提示するユーザインタフ
ェース画面例を示す図である。
【図10】用語の上位下位関係の編集例を示す図であ
る。
【図11】用語の同義関係の提示例を示す図である。
【図12】情報抽出結果を提示するユーザインタフェー
ス画面例を示す図である。
【図13】文検索結果の提示例を示す図である。
【符号の説明】
1 情報抽出システム 2 文献データベース 3 文献データベース 4 通信ネットワーク 5 利用者 11 入出力部 12 中央処理装置 13 内部記憶部 14 外部記憶部 16 文献解析処理 17 情報提示・編集処理 141 文献情報部 142 用語情報部 143 動詞情報部 S161 文献検索ステップ S162 言語解析ステップ S163 文献情報保存ステップ S164 用語・動詞抽出ステップ S165 用語・動詞統計処理ステップ S166 用語間関係評価ステップ S167 用語・動詞情報保存ステップ S171 用語上位下位関係提示・編集ステップ S172 用語同義関係提示・編集ステップ S173 情報抽出結果提示・編集ステップ S174 文検索結果提示ステップ S1711 用語選択ステップ S1712 情報提示ステップ S1713 情報編集ステップ S1721 用語選択ステップ S1722 情報提示ステップ S1723 情報編集ステップ S1731 用語選択ステップ S1732 情報提示ステップ S1733 情報編集ステップ S1741 用語・動詞選択ステップ S1742 情報提示ステップ S1621 本文抽出ステップ S1622 形態素解析ステップ S1623 統語解析ステップ S1624 文献情報保存ステップ
───────────────────────────────────────────────────── フロントページの続き (72)発明者 井原 茂男 東京都千代田区神田駿河台四丁目6番地 株式会社日立製作所ライフサイエンス推進 事業部内 Fターム(参考) 5B075 ND20 NK35 PP02 PP03 PP30 PQ02 QM02 QP01 QP03

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】医学生物学に関する文献の集合から情報を
    抽出する情報抽出方法であって、 抽出したい情報を含む文書を検索するステップと、 検索した文書から利用者が指示した用語を含む部分を検
    索するステップと、 検索した部分から必要な情報をあらかじめ保持している
    知識に従い抽出するステップと、 抽出した情報を利用者に提示するステップと、 抽出した情報の適否を利用者に判断させるステップと、 前記利用者の判断に従い情報抽出に利用する知識を洗練
    するステップと、を備えることを特徴とする情報抽出方
    法。
  2. 【請求項2】医学生物学に関する文献の集合から情報を
    抽出する情報抽出方法であって、 抽出したい情報を含む文書を検索するステップと、 検索した文書から利用者が指示した用語を含む部分を検
    索するステップと、 利用者が指示した用語に関係する他の用語を利用者に提
    示するステップと、 検索した部分から必要な情報をあらかじめ保持している
    知識に従い抽出するステップと、 抽出した情報を利用者に提示するステップと、 抽出した情報の適否を利用者に判断させるステップと、 前記利用者の判断に従い情報抽出に利用する知識を洗練
    するステップと、を備えることを特徴とする情報抽出方
    法。
  3. 【請求項3】医学生物学に関する文献の集合から情報を
    抽出する情報抽出方法であって、 抽出したい情報を含む文書を検索するステップと、 検索した文書から利用者が指示した用語を含む部分を検
    索するステップと、 検索した部分を利用者に提示するステップと、 検索した部分から必要な情報をあらかじめ保持している
    知識に従い抽出するステップと、 抽出した情報を利用者に提示するステップと、 抽出した情報の適否を利用者に判断させるステップと、 前記利用者の判断に従い情報抽出に利用する知識を洗練
    するステップと、を備えることを特徴とする情報抽出方
    法。
  4. 【請求項4】自然言語処理を利用して用語の上位下位関
    係又は用語の同義関係を自動的に作成するステップを備
    えることを特徴とする請求項1乃至3いずれかに記載の
    情報抽出方法。
  5. 【請求項5】請求項1乃至4いずれかに記載の情報抽出
    方法をコンピュータに実行させるためのプログラムを記
    録したことを特徴とするコンピュータ読み取り可能な記
    録媒体。
JP2000217036A 2000-07-18 2000-07-18 情報抽出方法及び記録媒体 Pending JP2002032374A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000217036A JP2002032374A (ja) 2000-07-18 2000-07-18 情報抽出方法及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000217036A JP2002032374A (ja) 2000-07-18 2000-07-18 情報抽出方法及び記録媒体

Publications (1)

Publication Number Publication Date
JP2002032374A true JP2002032374A (ja) 2002-01-31

Family

ID=18712207

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000217036A Pending JP2002032374A (ja) 2000-07-18 2000-07-18 情報抽出方法及び記録媒体

Country Status (1)

Country Link
JP (1) JP2002032374A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011175568A (ja) * 2010-02-25 2011-09-08 Mitsubishi Electric Corp 文書間距離算出器および文章検索器
JP2015088022A (ja) * 2013-10-31 2015-05-07 株式会社野村総合研究所 文書分析支援システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011175568A (ja) * 2010-02-25 2011-09-08 Mitsubishi Electric Corp 文書間距離算出器および文章検索器
JP2015088022A (ja) * 2013-10-31 2015-05-07 株式会社野村総合研究所 文書分析支援システム

Similar Documents

Publication Publication Date Title
Radev et al. Introduction to the special issue on summarization
US5523945A (en) Related information presentation method in document processing system
JPH11110416A (ja) データベースからドキュメントを検索するための方法および装置
JPH0242572A (ja) 共起関係辞書生成保守方法
JP4967133B2 (ja) 情報取得装置、そのプログラム及び方法
JP3596210B2 (ja) 関連語辞書作成装置
JP2000276487A (ja) 事例蓄積・検索装置、並びに事例蓄積方法および事例検索方法、並びに事例蓄積プログラムを記録したコンピュータで読取可能な記録媒体および事例検索プログラムを記録したコンピュータで読取可能な記録媒体
JP3612769B2 (ja) 情報検索装置および情報検索方法
JP3617096B2 (ja) 関係表現抽出装置および関係表現検索装置、関係表現抽出方法、関係表現検索方法
US6973423B1 (en) Article and method of automatically determining text genre using surface features of untagged texts
JP2002032374A (ja) 情報抽出方法及び記録媒体
KR100376931B1 (ko) 정보 검색 기술을 이용한 한영번역 데이터베이스 시스템 구축 방법
JP2519121B2 (ja) 情報検索装置
JPH07134720A (ja) 文章作成システムにおける関連情報提示方法及び装置
JP2004220226A (ja) 検索文書のための文書分類方法及び装置
JP2838984B2 (ja) 汎用参照装置
JP2003108582A (ja) 類義語抽出方法および文書検索装置
JPS63228326A (ja) キ−ワ−ド自動抽出方式
JPH0827803B2 (ja) テキストベース検索方法
JPH0232469A (ja) 情報検索方式
KR100522719B1 (ko) 자질연산 구문분석기법을 이용한 범용정보 추출 템플리트구성방법
JPH0561902A (ja) 機械翻訳システム
Kruschwitz World knowledge for the domain of your choice
JPH07219952A (ja) 日本語文章処理装置
JP2002140346A (ja) テキストマイニング方法およびテキストマイニング装置並びにコンピュータ読み取り可能な記憶媒体