JP2752864B2 - テキストベース情報検索装置 - Google Patents

テキストベース情報検索装置

Info

Publication number
JP2752864B2
JP2752864B2 JP4249672A JP24967292A JP2752864B2 JP 2752864 B2 JP2752864 B2 JP 2752864B2 JP 4249672 A JP4249672 A JP 4249672A JP 24967292 A JP24967292 A JP 24967292A JP 2752864 B2 JP2752864 B2 JP 2752864B2
Authority
JP
Japan
Prior art keywords
information
text
unit
index
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP4249672A
Other languages
English (en)
Other versions
JPH06103311A (ja
Inventor
研治 佐藤
一至 村木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP4249672A priority Critical patent/JP2752864B2/ja
Publication of JPH06103311A publication Critical patent/JPH06103311A/ja
Application granted granted Critical
Publication of JP2752864B2 publication Critical patent/JP2752864B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は情報検索装置に関し、特
に文献や章節といった単位に依らず、複数テキストに跨
る情報を検索する機能を有する情報検索装置に関する。
【0002】
【従来の技術】従来のテキストベースの情報検索方法
は、百科事典や辞書の例にみられるように、ある特定の
項目についての説明のテキストが、それらの項目をイン
デクスとして整理されている形態をもっており、検索の
際はこの項目名を探しその説明のテキストより情報を得
るという検索方法である。これを電子化した電子百科事
典では従来の引き方に加え、電子化のメリットを生かし
インデクスの文字列との部分的な一致等でも引くことが
可能となっている。しかし、この従来のテキストベース
情報検索方式は、百科事典や辞書のように情報が項目に
よって整理されていることが必須であり、この項目の整
理は人手に依ってしか行うことができないという欠点が
ある。また、人手で情報を整理する必要があるため、既
にテキスト中には大量に現れ、しばしば用いられる新た
な語彙が、誰かによって整理されるまではテキストベー
スからは検索できないという欠点がある。
【0003】これを解決するため特開平2−25337
1号にみられるように、自然言語のテキストの意味解析
を行い、文の正規パターンを作っておき、ユーザの入力
との一致をみることで類似文の検索を行う自然文意味解
析処理装置が提案されている。しかし、この装置は比較
的類似した入力が繰り返される場合の入力パターンの一
致をみるための装置で、百科事典のようなユーザの要求
する情報が多岐にわたるような場面では有効ではない。
【0004】
【発明が解決しようとする課題】上記の人手による情報
整理のコストを発生させない情報検索法として、単語検
索のみを全テキストに対して行うフルテキストサーチの
技術もある。しかし、この方法を用いて検索を行っても
以下のような問題がある。 (1)複数のテキストに必要な情報が跨っており単語だ
けでは検索できない (2)同種の情報が大量に検索されてしまい不必要な情
報が繰り返してしまう (3)大量の情報をユーザが処理できず目的の情報へ行
き着けない
【課題を解決するための手段】上述した問題点を解決す
るため、本発明の情報検索装置は、ユーザの情報検索要
求を受け付ける入力手段と、大量のテキストを保持する
大規模テキストデータベースと、前記大規模テキストデ
ータベースより入力に合致したインデクスを用いて必要
な情報を抽出する情報抽出手段と、抽出した情報をユー
ザに提示する出力手段を備えた情報検索装置において、
前記大規模テキストデータベース中の各テキストの情報
を担う単位としての機能単位を抽出する機能関係抽出手
段と、前記機能関係抽出手段により抽出された機能単位
とそのテキスト内での位置をインデクスとして保持する
機能単位インデクスと、入力に合致した機能単位を前記
機能単位インデクス内で検索する機能単位検索手段と、
前記情報抽出手段より出力されるテキストが大量であっ
た場合に、その機能単位の一致数により多数決をとり代
表的な情報を抽出する多数決評価手段を備えることを特
徴とする。
【0005】
【作用】本発明によるテキストベース情報検索装置で
は、情報検索の単位として情報を担う単位であるテキス
ト内の単語間の機能的関係を用いて、複数のテキストに
対し同時に検索を行い情報を提供する。このため、ユー
ザの必要とする極小の情報が、たとえ複数のテキストに
跨っていても検索可能となる。更に、同種の情報が大量
に検索された場合には、それらの情報を機能的関係が同
じものでまとめ、その量を情報の信頼性や重要性と考
え、多いものから順に提供するということを行う。この
多数決による情報選択で、同種の情報が大量に検索され
てしまい不必要な情報が繰り返すということがなくなっ
ている。更に、この極小の情報を提示する検索をインタ
ラクティブに用いることで、ユーザに処理しきれない情
報を一度に与えてしまう事なく目的の情報の検索を可能
としている。
【0006】
【実施例】次に、本発明について図面を参照して説明す
る。図1は本発明の一実施例を示すブロック図である。
図1を参照すると、本発明の実施例は、ユーザの情報検
索要求を受け付ける入力手段1と、大量のテキストを保
持する大規模テキストデータベース6と、前記大規模テ
キストデータベース6中の各テキストの情報を担う単位
としての機能単位を抽出する機能関係抽出手段4と、前
記機能関係抽出手段により抽出された機能単位とそのテ
キスト内での位置をインデクスとして保持する機能単位
インデクス3と、入力に合致した機能単位を前記機能単
位インデクス内で検索する機能単位検索手段2と、前記
大規模テキストデータベース6より入力に合致したイン
デクスを用いて必要な情報を抽出する情報抽出手段5
と、前記情報抽出手段5より出力されるテキストが大量
であった場合に、その機能単位の一致数により多数決を
とり代表的な情報を抽出する多数決評価手段7と、抽出
した情報をユーザに提示する出力手段8から構成され
る。
【0007】大規模テキストデータベース1に登録され
たテキストについて、機能関係抽出手段4は、そのテキ
ストを文章単位として見るのではなく、全体をプレーン
なテキストとして見て、その中から情報を担う単位とし
て機能単位を抽出し、機能単位インデクス3へ登録す
る。機能単位インデクス3へは、通常のテキストデータ
ベースに対するインデクスと同様に、各機能単位中の単
語についてそれぞれの位置を記憶する。機能関係抽出手
段4が起動されるタイミングとしては機能単位インデク
ス3がアクセスされた時でもよいが、実用的には大規模
テキストデータベース6へテキストが登録された際に起
動されるのがよい。一般的なテキストデータベースに対
するインデクスがインバーティッドファイル化されるよ
うに、機能単位インデクス3も同じ機能単位毎にインデ
クスをまとめ、インバーディッドファイル化する。
【0008】機能単位としては、単語の対とその間の関
連の3項関係を用いる。この3項関係は、対となってい
る単語の機能的な意味を示す単位であると考える。最も
単純な機能単位としては、対となる単語を係り受け関係
を持つ2自立語とし、関連をそれらの間の関係(格助
詞、接続助詞、接続詞、等)としたものがある。この最
も単純な機能単位の認定は、テキストの文章を形態素解
析し、文章中の格助詞、接続助詞、接続詞とその前後の
自立語を見つけることで認定可能である。この機能単位
の一般形は、自立語をA、Bで表し、その間の関係をR
で表すと、 A−R−B 例:湾岸戦争−に−参戦した (格助詞の例) 宣戦した−ので−爆撃した (接続助詞の例) 宣戦した一そして−爆撃した(接続詞の例) と表される。この一般形の連結を行うと、もっと複雑な
単語間の関連も、機能単位で表すことが可能である。
今、A−R1−Bという機能単位と、B−R2−Cの2
つの機能単位があった場合、このBを新たな関連とし
て、R1、R2を縮退するとA−R3−C(R3=B)
という関係が得られる。例で示すと、「湾岸戦争−に−
参戦した」という機能単位と「米国−が−参戦した」と
いう機能単位があった場合には、「湾岸戦争−参戦した
−米国」という新たな機能単位が得られる。
【0009】次にユーザにより検索要求が入力された場
合の動作について説明する。入力手段1により得られた
ユーザの入力文は、先ず機能単位検索手段2において、
機能的関係が、機能関係抽出手段4と同じ手法で機能単
位の形態で抽出される。次に、この入力文の機能的関係
と一致する機能単位を、機能単位インデクス3から検索
する。例で説明すると、ユーザの入力として「湾岸戦争
にどこが参戦したのか」という検索要求に対しては、
「湾岸戦争−参戦した−どこ」という機能単位が入力文
の機能的関係となり、機能単位インデクスより「湾岸戦
争−参戦した−米国」という機能単位が検索される。情
報抽出手段5では、機能単位検索手段2で検索された機
能単位のインデクスを用いて大規模テキストデータベー
ス6より、その機能単位が抽出された文を取り出してく
る。
【0010】情報抽出手段5により抽出されたテキスト
の量が多すぎて、ユーザに提示するには不適当であると
思われる場合には、多数決評価手段7でそれらのテキス
トの機能単位での一致により多数決をとり、その代表的
な意見からユーザに提示する。もし、情報抽出手段5で
抽出されたテキストの量がそれほど多くない場合は、多
数決評価手段7はなにもしない。この多数決評価による
情報選択は、ユーザが一度に処理しきれない量の情報を
与えることを避け、最も普遍的な情報を提示することを
行っている。また大量のテキストを無制限に情報源とし
て追加していくと、その中には誤った記述や不必要なノ
イズ情報がどうしても存在することになるが、この厚み
による情報の選択はこれらの除去の役目も果たしてい
る。
【0011】次に図2を用いて本テキストベース検索装
置での検索の過程を説明する。図2は本装置による検索
過程を示す概念図である。まず、ユーザが湾岸戦争につ
いて情報検索を行いたいと考えたとする。ユーザが米国
が湾岸戦争に関与していたことを知っていたとして、
「湾岸戦争では米国はどうした」という入力を行う。こ
の入力で機能単位検索手段は、「湾岸戦争−米国−宣戦
した」という機能単位を機能単位インデクスより検索す
る。更にその機能単位が抽出された元のテキストとし
て、「湾岸戦争で米国がイラクに宣戦した」が情報抽出
手段により取り出されユーザに提示される。ユーザはこ
のテキストを見て、米国は連合国の中心だったような記
憶を思い出し、そのまま疑問として入力する。すると
「湾岸戦争で連合国は米国が中心であった」と検索され
る。このような過程を繰り返して、ユーザは「湾岸戦争
では電子兵器が初めて使われた」ことまで知ることが可
能となる。
【0012】
【発明の効果】以上説明したように、本発明によるテキ
ストベース情報検索装置では、テキストを文書単位とし
て見るのではなく、全体をプレーンなテキストとして見
て、テキストの位置まで特定するインデクスを用意する
ことで、ユーザの情報検索要求に対応するテキストを、
データベース全体に持っている情報の中から検索するこ
とが可能となっている。また、この機能単位のインデク
スは大規模テキストデータベースにテキストを登録する
際に、機能関係抽出手段によって自動的に作成されるた
め、インデクス作成のコストがかからないという特徴が
ある。また最新の情報が述べられたテキストを大規模テ
キストデータベースに登録するだけで、その情報を検索
・利用することが可能になるという特徴もある。
【図面の簡単な説明】
【図1】本発明の一実施例を示すブロック図である。
【図2】本発明による検索過程を示す概念図。
【符号の説明】
1 入力手段 2 機能単位検索手段 3 機能単位インデクス 4 機能関係抽出手段 5 情報抽出手段 6 大規模テキストデータベース 7 多数決評価手段 8 出力手段

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】 ユーザの情報検索要求を受け付ける入力
    手段と、大量のテキストを保持する大規模テキストデー
    タベースと、前記大規模テキストデータベースより入力
    に合致したインデクスを用いて必要な情報を抽出する情
    報抽出手段と、抽出した情報をユ−ザに提示する出力手
    段を備えた情報検索装置において、前記大規模テキスト
    データベース中の各テキストの情報を担う単位としての
    機能単位を抽出する機能関係抽出手段と、前記機能関係
    抽出手段により抽出された機能単位とそのテキスト内で
    の位置をインデクスとして保持する機能単位インデクス
    と、入力に合致した機能単位を前記機能単位インデクス
    内で検索する機能単位検索手段と、前記情報抽出手段よ
    り出力されるテキストが大量であった場合に、その機能
    単位の一致数により多数決をとり代表的な情報を抽出す
    る多数決評価手段を備えることを特徴とする情報検索装
    置。
JP4249672A 1992-09-18 1992-09-18 テキストベース情報検索装置 Expired - Lifetime JP2752864B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4249672A JP2752864B2 (ja) 1992-09-18 1992-09-18 テキストベース情報検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4249672A JP2752864B2 (ja) 1992-09-18 1992-09-18 テキストベース情報検索装置

Publications (2)

Publication Number Publication Date
JPH06103311A JPH06103311A (ja) 1994-04-15
JP2752864B2 true JP2752864B2 (ja) 1998-05-18

Family

ID=17196492

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4249672A Expired - Lifetime JP2752864B2 (ja) 1992-09-18 1992-09-18 テキストベース情報検索装置

Country Status (1)

Country Link
JP (1) JP2752864B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3063584B2 (ja) * 1995-09-05 2000-07-12 株式会社日立製作所 自動分析装置

Also Published As

Publication number Publication date
JPH06103311A (ja) 1994-04-15

Similar Documents

Publication Publication Date Title
US6286000B1 (en) Light weight document matcher
US6973429B2 (en) Grammar generation for voice-based searches
US6442540B2 (en) Information retrieval apparatus and information retrieval method
US5523945A (en) Related information presentation method in document processing system
US20040117352A1 (en) System for answering natural language questions
US5893094A (en) Method and apparatus using run length encoding to evaluate a database
Yerra et al. A sentence-based copy detection approach for web documents
WO2012159558A1 (zh) 基于语意识别的自然语言处理方法、装置和系统
JP3584848B2 (ja) 文書処理装置、項目検索装置及び項目検索方法
JP2003150623A (ja) 言語横断型特許文献検索方法
JP3565239B2 (ja) 情報検索装置
KR100515698B1 (ko) 색인 및 형태소 분석에 이용되는 특정문서 고유사전의 작성방법 및 작성을 위한 장치
JP2752864B2 (ja) テキストベース情報検索装置
JP4057962B2 (ja) 質問応答装置、質問応答方法及びプログラム
JPH03260869A (ja) データ検索装置及びデータ検索方法
JP2732661B2 (ja) テキスト型データベース装置
KR20000036487A (ko) 정보검색기술을 이용한 한영번역 데이터베이스 시스템
JP2003288366A (ja) 類似テキスト検索装置
JP2001022782A (ja) ガイドidを持たないメッセージの詳細説明の検索・表示方法
KR20010095721A (ko) 관련어 검색 방법
JPH07325837A (ja) 抽象単語による通信文検索装置及び抽象単語による通信文検索方法
JPH0612451A (ja) 例文検索システム
JPH07296005A (ja) 日本語テキスト登録・検索装置
JP2000207414A (ja) インタ―ネット情報検索方法及びインタ―ネット情報検索プログラムを格納した記憶媒体
JPH0540783A (ja) 自然言語解析装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 19950718