JP2000010983A - 文書検索方法及び装置、記録媒体 - Google Patents

文書検索方法及び装置、記録媒体

Info

Publication number
JP2000010983A
JP2000010983A JP10170211A JP17021198A JP2000010983A JP 2000010983 A JP2000010983 A JP 2000010983A JP 10170211 A JP10170211 A JP 10170211A JP 17021198 A JP17021198 A JP 17021198A JP 2000010983 A JP2000010983 A JP 2000010983A
Authority
JP
Japan
Prior art keywords
electronic document
basic element
event
search
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10170211A
Other languages
English (en)
Inventor
Tsuyoshi Kitani
強 木谷
Yoshio Eriguchi
善生 江里口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Group Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP10170211A priority Critical patent/JP2000010983A/ja
Publication of JP2000010983A publication Critical patent/JP2000010983A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 大量の電子文書を検索する場合でも、誤りの
少ない検索が可能で、所望の電子文書を容易に探し出す
ことができる検索技術を提供する。 【解決手段】 単語抽出部10で電子文書から単語を分
割し、文書管理部20で、事象を表すいくつかの単語の
並び即ちパターンを調べることによって、その事象の基
本要素を特定する。その後、格フレームマッピング部2
2で、事象の基本要素間の関係情報を定義するパターン
と電子文書とを比較する。このようにして特定した基本
要素や関係情報は、オリジナルの電子文書と共に全文デ
ータベース30に蓄積する。特定した各基本要素には、
検索部40によって参照できるようにフィールド名を付
けて格納する。

Description

【発明の詳細な説明】
【0001】本発明は、テキストデータを含む電子文書
の検索手法に関し、特に、検索意図を考慮した電子文書
の検索手法に関する。
【0002】
【従来の技術】データベースに蓄積された電子文書の検
索を行う場合、一般的には、全文または検索者が指定し
たタイトルや著者名等のフィールドを検索範囲として、
検索条件に合致する特定の電子文書が存在するかどうか
を調べている。また、検索時に入力されたキーワードに
対し、そのキーワードに関連する他のキーワードを追加
することで、包括的な検索を行う手法や、電子文書内に
存在する日付、組織名、場所、人名や名称等に基づいて
検索を行う手法も種々知られている。このうち、名称等
に基づいて文書検索を行う手法として、特願平4−17
2176号の「固有名詞特定処理文書検索装置」、特願
平6−14783号の「文字列特定方式」、特願平8−
196045号の「形態素解析文書検索装置及び方法」
等が知られている。
【0003】
【発明が解決しようとする課題】前述のように、従来の
文書検索技術は、電子文書の全文または検索者が指定し
た特定のフィールドに含まれる文字列または抽出された
キーワードを検索対象としている。このため、検索意図
に適合しない箇所にキーワードが偶然に存在していた場
合であっても、その箇所が検索条件に適合した箇所とし
て判定されてしまうことがあった。特に、大量の電子文
書中から所望のものを検索する場合、不要な電子文書を
ヒットしてしまう可能性がかなり高くなり、適合率が低
くなってしまうという問題があった。
【0004】また、上述の各公報に開示された手法によ
って抽出されたキーワードは、検索者の検索意図を考慮
して抽出されたものではないので、これを検索条件に含
めて使用した場合に、必ずしも正しい電子文書をヒット
することができない。つまり、従来のキーワード検索手
法では、検索精度を向上させることができないという問
題があった。
【0005】更に、従来の電子文書の検索手法は、単に
検索条件に合致する電子文書を探すものなので、電子文
書の内容に対して質問してそれの応答を得るという機能
はない。このため、最終的に、所望の答えを得るには、
検索された電子文書のそれぞれの本文全体を検索者が読
む必要があった。
【0006】そこで本発明の課題は、大量の電子文書か
ら検索者が所望の電子文書を容易に探し出すことができ
る電子文書の検索技術を提供することにある。本発明の
他の課題は、従来は不可能であった、文書内容に関する
質問への応答も可能とし、文書全文を読まなくても知り
たい情報を得ることを可能とする技術を提供することに
ある。
【0007】
【課題を解決するための手段】特定の分野又は業務に限
定すれば、検索者は、いくつかの固定的な検索意図をも
って検索を行うことが多い。例えば、事件、事故、災害
等の事象を記述した電子文書に対して、検索者は、通常
は事象の「5W1H」、即ち「いつ、誰が、どこで、何
を、何故、どうして」に関する情報や、その事象の結果
に着目することが多い。そこで、本発明の文書検索方法
は、予め、検索者が注目すると思われる事象の複数の要
素、例えば事象が発生した日付、関係する人名や組織
名、地名等、及びこれらの関係情報を特定して電子文書
の全文と共に格納しておく。検索時には、事象の基本要
素あるいは関係情報を含む検索条件式をもとに該当する
電子文書を索出する。また、格納された基本要素に基づ
いて当該基本要素に関係する他の基本要素を特定できる
ようにする。これにより、基本要素の問い合わせに対し
て上記他の基本要素を返答できるようになる。
【0008】本発明は、また、電子文書から単語群を抽
出する単語抽出手段と、前記抽出した単語群から検索者
が注目すると思われる事象の複数の基本要素及び各基本
要素間の関係情報を特定して前記電子文書の全文と共に
格納する文書管理手段と、前記格納された前記基本要素
または関係情報を指定することで該当する電子文書、ま
たは当該基本要素に関係する他の基本要素を索出する検
索手段とを有する文書検索装置を提供する。
【0009】本発明は、さらに、下記の処理をコンピュ
ータ装置に実行させるためのプログラムが記録されたコ
ンピュータ読み取り可能な記録媒体を提供する。 (1)事象が記述された電子文書から検索者が注目する
と思われる事象の複数の基本要素及び各基本要素間の関
係情報を特定する処理、(2)特定した基本要素及び関
係情報を前記電子文書の全文と共に格納する処理、
(3)前記基本要素または前記関係情報を含む検索条件
式をもとに該当する電子文書、またはを索出する処理。
必要に応じて、前記基本要素の問い合わせに対して当該
基本要素に関係する他の基本要素を返答する処理も実行
できるようにする。
【0010】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を詳細に説明する。図1は、本発明の一実施形
態に係る文書検索装置の機能ブロック図である。この文
書検索装置1は、CD−ROM(コンパクトディスク型
ROM)やFD(フレキシブルディスク)等の可搬性メ
ディアに記録されたプログラムをインストールしたコン
ピュータが上記プログラムを随時読み出して実行するこ
とによって実現されるもので、形態素解析部11を有す
る単語抽出部10と、パターンマッチング処理部21及
び格フレームマッピング部22を有する電子文書管理部
20と、複数の電子文書31、32、・・・を後述する
格フレームマップと共に格納する全文データベース30
と、電子文書の検索や問い合わせに対する応答を行う検
索部40とを備えて構成される。
【0011】この文書検索装置1では、検索に先立ち、
入力された電子文書から検索者の検索意図を推定して電
子文書に含まれる事象の基本要素及びそれらの関係を特
定して全文データベース30に格納する。この場合の手
順を示したのが図2である。
【0012】すなわち、入力された電子文書は、単語抽
出部10に入力される。単語抽出部10では、形態素解
析部11の単語分割プログラムに従って当該電子文書を
基本単語に分割し、これを文書管理部20に入力する
(ステップS101:No,S102)。文書管理部20
では、まず、パターンマッチング部21で、検索者が注
目すると予想される事象が発生した日付、関係する人名
や組織名、地名等のような、基本要素を特定する(ステ
ップS103)。基本要素の特定は、事象を構成する連
続するいくつかの単語の並び即ちパターンを、予め定義
されたパターンと比較することによって行われる。
【0013】文書管理部20は、また、格フレームマッ
ピング部22で、基本要素間の関係を特定し、電子文書
から該当する属性の表現を取り出してマッピング処理を
行う(ステップS104)。基本要素間の関係の特定
は、具体的には、事象の基本要素の関係を定義するパタ
ーンと電子文書とを比較することによって行う。
【0014】パターンの定義は、例えばフィルモア(fi
llmore)が提案した格文法による表現で行うことができ
る。格文法の考え方は、まず動詞を決定し、その動詞か
ら共起しうる名詞句を、「格」という属性をもとに「格
フレーム」と呼ばれる表現に対応付けていくものであ
る。通常は、表層格として主格や目的格等を使用し、深
層格として動作主格、深層格、目標格等を使用する。こ
の例では、格の属性として、パターンマッチング部21
で特定した日付、組織名、地名等を使用する。このよう
な情報の抽出手法は、従来技術によっても実現可能であ
るが、検索意図を推定して事象及び格フレーム表現を定
義して情報抽出を行い、これをマッピングする点が、従
来技術と異なっている。
【0015】上述のようにして抽出された情報を、オリ
ジナルの電子文書の全文と共に電子全文データベース3
0に登録する(ステップS105)。基本要素について
は、検索部40による検索処理の際に参照できるよう
に、フィールドを特定するためのタグを付けておく。他
の電子文書がある場合は、上記処理を繰り返す。
【0016】以上の処理を、より具体的に説明する。こ
こでは、図5に示した内容の電子文書が入力されたもの
とする。この電子文書は、平成9年2月22日(「日
付」)に、ABC社XY工場(「組織名」、「場所」)
で電気式保温装置2基が爆発(「出来事」、「爆発
物」)し、死者等が発生した(「被害」)ことを内容と
するものである。
【0017】文書検索装置1では、この電子文書から単
語抽出部10で基本単語を抽出し、パターンマッチング
部21で、事象(出来事)の基本要素を特定する。基本
要素は、例えば図3に示すような複数のパターン表現と
電子文書とのパターンマッチング処理によって特定する
ことができる。
【0018】図3のパターン群は、予め基本要素の一つ
である組織(ORGANIZATION)の特定用に定めたもので、
各行が一つのパターンを表しており、最後の行が組織を
特定するための条件を定めている。図中、記号「=」
は、左辺の記号が右辺の記号でマクロ展開されることを
示している。記号「|」は、「または」という意味であ
る。矢印「←」は、右辺のパターンにマッチする文字列
に対し、左辺の属性を持たせることを示している。「$
NAME+」の「+」は、一個以上の連続する単語にマ
ッチすることを示している。「$」に続く記号は、変数
名であり、任意の単語とマッチする。この条件におい
て、本例の電子文書は、「大手の(YZ)社」、「会社
である(A&B)航空」などのパターンにマッチし、括
弧内の部分が企業名として、変数「$NAME」に代入
されるようになる。他の基本要素も同様にして特定する
ことができる。これにより、「ABC社」、「XY工
場」、「爆発災害」、「平成9年2月22日」・・・等
の基本要素が特定される。
【0019】格フレームマッピング部22では、基本要
素間の関係を特定し、電子文書から該当する属性の表現
を取り出してマッピング処理を行う。例えば、図4は、
出来事「爆発」に関する格フレームの表現例を示した図
であり、日付<DATE>,場所<PLACE>,組織名<ORGAN
IZATION>,爆発物<EXPLOSIVES>,原因<REASON>,
被害<RESULTS>がそれぞれ格の属性である。各フレー
ムマッピング部22では、格フレームのスロットに対
し、図5に示した電子文書から該当する属性の表現を取
り出し、図6のようにマッピングする。すなわち日付の
属性のスロットには「19970222」、場所の属性
には「XY」、組織名の属性には「ABC」、爆発物の
属性には「電気式保温装置2基」、被害の属性には「死
者1名、負傷者4名」がそれぞれマッピングされる。
【0020】この例では、原因の「格」に関しては、対
応する情報を電子文書から取り出すことができなかった
ので、スロットは空白となっている。また、「平成9年
2月22日」という表現は、標準形式として統一した表
現「19970222」に変換されている。これによ
り、検索者が和暦または西暦で検索語を入力した場合で
も、常に8桁の標準形式に変換することで、日付の検索
が可能となる。
【0021】なお、図5の電子文書は一文しか含んでい
ないが、基本要素の関係は複数の文に記述されることが
一般的であるので、格フレームの該当属性のマッピング
は、複数の文にわたって実施する。また、一つの電子文
書には、複数の出来事が記述されることがあるので、出
来事を区別しながら該当フレームへ情報をマッピングし
ていく必要がある。また、出来事が一つであっても、同
じ属性を有する情報が複数存在する場合もあり、格フレ
ームへのマッチングは単純にはできないが、これらにつ
いては、文脈処理を施すことで解決することができる。
【0022】パターンマッチング処理部21で使用する
基本要素を特定するパターン及び格フレームマッピング
部22で使用する格フレーム表現(図3参照)は、処理
対象分野及び業務によって異なるので、基本的に分野
別、業務別に定義しておくことが望ましい。
【0023】特定した情報は、図7に示すように、基本
要素を識別するためのフィールド名(タグで区別される
フィールドの名称)、例えば<文書>に対して</文書
>、<本文>に対して</本文>、<格フレーム>に対
して</格フレーム>、<出来事>に対して</出来事
>、<日付>に対して</日付>・・・のような名称を
付与し、これをオリジナルの電子文書(<本文>と</
本文>とで特定されるフィールド内の情報)と共に全文
データベース30に格納する。
【0024】このような文書検索装置1において、検索
者は、フィールド名を指定して検索式を作成することが
できる。例えば、「<出来事>爆発&(&はAND条
件、以下同じ)<組織名>ABC&<日付>1997
年」のような検索式を作成することができる。この場合
は、図7に示した内容の電子文書の全体が検索結果とし
て出力される。また、図7には示されていないが、基本
要素間の関係、例えば「各タグで特定されるフィールド
に関係する他のタグ(上位層/下位層を含む)を記述し
ておき、この他のタグを一部に含む検索式を作成するよ
うにしてもよい。
【0025】さらに、図6のような格フレームマップを
参照することで、「<出来事>爆発&<日付>1997
年&<組織名>?」という問い合わせに対し、「組織
名:ABC」という答えを直ちに返すこともできるよう
になる。
【0026】このような問い合わせ応答機能は、リレー
ショナルデータベース型の文書検索装置でも実現可能で
あるが、本実施形態のような全文データベース型のもの
では実現されていない。また、全文データベース型のも
のとリレーショナルデータベース型のものとを併用する
手法では、処理が煩雑になる。これに対し、本実施形態
の文書検索装置1では、検索者が着目すると思われる事
象の基本要素及びその関係情報を検索対象として該当す
る電子文書を索出するので、全文を検索対象とする場合
と比較して処理速度が格段に速くなり、しかも適合率の
高い検索結果が得られるようになる。また、基本要素間
の関係を利用して検索処理を実行するので、全文データ
ベース30を用いた場合であっても、リレーショナルデ
ータベースで実施されているような問い合わせに対する
応答が可能となる。
【0027】また、日付、組織名、場所等を標準形式に
変換して格納するので、検索要求を自動的に標準形式に
変換するようにしたので、異なる表現で検索指示が入力
された場合でも、検索漏れを防ぐことができる。
【0028】
【発明の効果】以上の説明から明らかなように、本発明
によれば、大量の電子文書の検索を行う場合であっても
処理速度が低下せず、しかも検索の適合率が向上すると
いう効果が得られる。
【0029】また、全文データベースへ登録する際に、
基本要素間の関係を特定しておくようにしたので、リレ
ーショナルデータベースで実施されている問い合わせに
対する応答を複雑な処理を施さなくとも容易に実施する
ことができる。これにより、検索者が電子文書の本文全
体を読まなくても質問に対する答えを知ることができる
ようになる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る文書検索装置の機能
ブロック構成図。
【図2】本実施形態による文書検索処理の手順説明図。
【図3】組織名を特定するためのパターン表現の一例を
示した説明図。
【図4】出来事「爆発」の格フレーム表現の一例を示し
た説明図。
【図5】入力された電子文書の一例を示した説明図。
【図6】格フレームマップの一例を示した説明図。
【図7】全文データベースに格納する電子文書の構造説
明図。
【符号の説明】
10 単語抽出部 11 形態素解析部 20 文書管理部 21 パターンマッチング処理部 22 格フレームマッピング部 30 全文データベース 40 検索部

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 事象が記述された電子文書から検索者が
    注目すると思われる事象の複数の基本要素及び各基本要
    素間の関係情報を特定し、特定した基本要素及び関係情
    報を前記電子文書の全文と共に格納する過程と、 前記基本要素または前記関係情報を含む検索条件式をも
    とに該当する電子文書を索出する過程とを含むことを特
    徴とする文書検索方法。
  2. 【請求項2】 前記基本要素の問い合わせに対して当該
    基本要素に関係する他の基本要素を返答することを特徴
    とする請求項1記載の文書検索方法。
  3. 【請求項3】 電子文書から単語群を抽出する単語抽出
    手段と、 前記抽出した単語群から検索者が注目すると思われる事
    象の複数の基本要素及び各基本要素間の関係情報を特定
    して前記電子文書の全文と共に格納する文書管理手段
    と、 前記格納された前記基本要素または関係情報を指定する
    ことで該当する電子文書を索出する検索手段とを有する
    ことを特徴とする文書検索装置。
  4. 【請求項4】 電子文書から単語群を抽出する単語抽出
    手段と、 前記抽出した単語群から検索者が注目すると思われる事
    象の複数の基本要素及び各基本要素間の関係情報を特定
    して前記電子文書の全文と共に格納する文書管理手段
    と、 前記格納された前記基本要素を指定することで当該基本
    要素に関係する他の基本要素を索出する検索手段とを有
    することを特徴とする文書検索装置。
  5. 【請求項5】 前記電子文書管理手段は、前記事象を構
    成する連続するいくつかの単語の並びを予め定義された
    パターンと比較することにより前記基本要素を特定する
    ことを特徴とする請求項3または4記載の文書検索方
    法。
  6. 【請求項6】 前記電子文書管理手段は、前記事象を表
    す動詞を決定するとともに決定した動詞から共起しうる
    名詞句を格フレームに対応付けることで前記関係情報を
    特定することを特徴とする請求項3または4記載の文書
    検索装置。
  7. 【請求項7】 前記電子文書管理手段は、全文及び前記
    基本要素にそれぞれ検索時に参照可能なフィールドの区
    別情報を付与して電子文書単位に格納することを特徴と
    する請求項3または4記載の文書検索装置。
  8. 【請求項8】 前記電子文書管理手段は、ある基本要素
    と事象が関連する他の基本要素がある場合に当該基本要
    素と他の基本要素とを同一フィールド内に格納すること
    を特徴とする請求項7記載の文書検索方法。
  9. 【請求項9】 前記電子文書管理手段は、異なる形式で
    表現される同一内容の前記基本要素を統一された表現に
    変換する手段を含んで成ることを特徴とする請求項3な
    いし8のいずれかの項記載の文書検索装置。
  10. 【請求項10】 事象が記述された電子文書から検索者
    が注目すると思われる事象の複数の基本要素及び各基本
    要素間の関係情報を特定する処理、 特定した基本要素及び関係情報を前記電子文書の全文と
    共に格納する処理、 前記基本要素または前記関係情報を含む検索条件式をも
    とに該当する電子文書を索出する処理をコンピュータ装
    置に実行させるためのプログラムが記録されたコンピュ
    ータ読み取り可能な記録媒体。
  11. 【請求項11】 前記プログラムは、前記基本要素の問
    い合わせに対して当該基本要素に関係する他の基本要素
    を返答する処理を前記コンピュータ装置に実行させるこ
    とを特徴とする請求項10記載の記録媒体。
JP10170211A 1998-06-17 1998-06-17 文書検索方法及び装置、記録媒体 Pending JP2000010983A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10170211A JP2000010983A (ja) 1998-06-17 1998-06-17 文書検索方法及び装置、記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10170211A JP2000010983A (ja) 1998-06-17 1998-06-17 文書検索方法及び装置、記録媒体

Publications (1)

Publication Number Publication Date
JP2000010983A true JP2000010983A (ja) 2000-01-14

Family

ID=15900740

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10170211A Pending JP2000010983A (ja) 1998-06-17 1998-06-17 文書検索方法及び装置、記録媒体

Country Status (1)

Country Link
JP (1) JP2000010983A (ja)

Similar Documents

Publication Publication Date Title
US8468156B2 (en) Determining a geographic location relevant to a web page
US6957213B1 (en) Method of utilizing implicit references to answer a query
US8166013B2 (en) Method and system for crawling, mapping and extracting information associated with a business using heuristic and semantic analysis
US7249135B2 (en) Method and system for schema matching of web databases
US6983282B2 (en) Computer method and apparatus for collecting people and organization information from Web sites
US9158838B2 (en) Determining query return referents for concept types in conceptual graphs
US20070136280A1 (en) Factoid-based searching
US20120124053A1 (en) Annotation Framework
CA2471592A1 (en) Systems, methods and software for hyperlinking names
US20150172299A1 (en) Indexing and retrieval of blogs
KR20050061369A (ko) 질문 인식기
US20080147641A1 (en) Method for prioritizing search results retrieved in response to a computerized search query
JP2006073012A (ja) 予め定められた個数の予め定義された質問に応答することによって情報を管理するシステムおよび方法
JP4200834B2 (ja) 情報検索システム、情報検索方法及び情報検索プログラム
JP4091146B2 (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
Bhoir et al. Question answering system: A heuristic approach
Kiran et al. An approach towards establishing reference linking in desktop reference manager
JP4057962B2 (ja) 質問応答装置、質問応答方法及びプログラム
JP2000010983A (ja) 文書検索方法及び装置、記録媒体
JP3548955B2 (ja) 問題解決データベース検索システム及び問題解決データベース検索プログラムを記録したコンピュータ読み取り可能な記憶媒体
JP4384736B2 (ja) 画像検索装置およびその装置の各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4146067B2 (ja) 文書検索システムおよび文書検索方法
JP4034503B2 (ja) 文書検索システムおよび文書検索方法
Adafre et al. Fact discovery in Wikipedia
US20070094252A1 (en) ImageRank