JPH06124305A - 文書検索方法 - Google Patents

文書検索方法

Info

Publication number
JPH06124305A
JPH06124305A JP4272663A JP27266392A JPH06124305A JP H06124305 A JPH06124305 A JP H06124305A JP 4272663 A JP4272663 A JP 4272663A JP 27266392 A JP27266392 A JP 27266392A JP H06124305 A JPH06124305 A JP H06124305A
Authority
JP
Japan
Prior art keywords
document
search
retrieval
natural language
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4272663A
Other languages
English (en)
Inventor
Akira Kawashima
朗 川嶋
Yasuharu Nanba
康晴 難波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP4272663A priority Critical patent/JPH06124305A/ja
Publication of JPH06124305A publication Critical patent/JPH06124305A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】索引作成に手間をかけることなく、高速かつ検
索精度が高い文書検索方法を提供する。 【構成】自然語で書かれた文書を複数記憶する文書デー
タベース108と、自然語による文字列を検索指示文と
して入力する手段101と、検索指示文から検索キーを
抽出する手段102と、検索キーを用いて文書データベ
ースを全文検索する手段103と、検索結果を出力する
手段101を備えた文書検索システムであって、自然語
による文字列を意味構造に変換する手段104,106
と、意味構造を照合する手段106を備え、検索指示文
と検索指示文に基づいて検索した文書との意味構造が一
致するものを所望の文書として出力する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、自然語による検索指示
文を入力して、所望の文書を文書データベースから高速
に検索する文書検索方法に関する。
【0002】
【従来の技術】従来の文書検索方法は、例えば、電子情
報通信学会技術研究報告 Vol.90No.478 第31頁
から第34頁において論じられている。この文献では、
以下の三種類の文書検索方法が提案されている。 (1)個々の検索単位ごとに主題分析を行って、人手に
よりキーワードを付与し、検索時には本文そのものでな
く、この索引を用いて検索する方法。 (2)個々の検索単位ごとに自然語処理技術により自動
的にキーワードを付与し、検索時には本文そのものでな
く、この索引を用いて検索する方法。 (3)文書データベース全文と指定したキーワード文字
列とを文字列照合することにより検索する方法。
【0003】
【発明が解決しようとする課題】上記従来技術における
文書検索方法では、次のような問題がある。すなわち、
(1)の方法では、(a)キーワードの付与は人手にた
よるため、索引作成に手間がかかる。(b)検索者とキ
ーワード付与者との間でキーワードの解釈のずれが生じ
る。(2)の方法では、索引作成の手間が軽減される反
面、(c)本文の文字づらに左右されるので検索精度が
低い。(d)自動的に抽出されるキーワードの全てが主
題を表現しているとは限らないため、適合率が低い。
(3)の方法では、(e)本文の文字づらで検索するた
め、人手でキーワードを付与する場合に比べ、精度が低
い。特に、検索条件によっては、大量のごみ(ノイズ)
が出て、適合率が大幅に低下する場合がある。
【0004】本発明の目的は、このような問題点を改善
し、索引作成に手間をかけることなく、高速かつ検索精
度が高い文書検索方法を提供することにある。
【0005】
【課題を解決するための手段】本発明の文書検索方法
は、自然語で書かれた文書を記憶する文書データベース
と、自然語による文字列を検索指示文として入力する手
段と、前記検索指示文から検索キーを抽出する手段と、
前記検索キーを用いて前記文書データベースを全文検索
する手段と、前記検索結果を出力する手段を備えた文書
検索システムにおいて、自然語による文字列を意味構造
に変換する手段と、前記意味構造を照合する手段を設け
る。
【0006】
【作用】上記の構成によると、文書検索システムにおい
て、自然語による文字列を検索指示文として入力し、検
索指示文から検索キーを抽出し、検索キーを用いて文書
データベースを全文検索することにより、検索対象候補
の絞り込みを高速に行う。次に、検索指示文と検索結果
をそれぞれ意味構造に変換し、これらの意味構造を照合
することにより、検索対象候補の精度を高める。この二
つのステップを経て、検索結果を所望の文書として出力
する。
【0007】このように、検索キーを用いた全文検索の
検索結果に対して意味解析を行うので、全文検索でも、
高速で精度が高い文書検索が可能である。
【0008】
【実施例】図1は本発明の実施例における機能構成を示
す。図1を用いて、本発明を利用した文書検索システム
の全体構成を説明したあと、発明の特徴となる文書検索
方法を説明する。
【0009】入出力部101は次の三つの役割を果た
す。すなわち、(1)検索キー、文書を入力して、それ
ぞれ検索キー辞書107,文書データベース108に格
納する。(2)検索指示文を入力して、検索キー抽出部
102と意味構造変換部104に渡す。(3)検索結果
を意味構造照合部106から受け取って、これを出力す
る。
【0010】検索キー抽出部102は入出力部101か
ら検索指示文を受け取る。次に、検索キー辞書107を
参照して検索指示文から検索キーを抽出し、これを文書
検索部103に渡す。
【0011】文書検索部103は検索キー抽出部102
から検索キーを受け取る。次に、検索キーを用いて文書
データベース108から文書を検索し、これを文書意味
構造変換部105に渡す。
【0012】検索指示文意味構造変換部104は入出力
処理101から検索指示文を受け取る。次に、検索指示
文を意味構造に変換し、これを意味構造照合部106に
渡す。
【0013】文書意味構造変換部105は文書検索部1
03から文書を受け取る。次に、文書を意味構造に変換
し、これを意味構造照合部106に渡す。
【0014】意味構造照合部106は検索指示文意味構
造変換部104,文書意味構造変換部105からそれぞ
れ検索指示文の意味構造と検索文書の意味構造を受け取
る。次に、これらの意味構造を照合し、一致する文書を
入出力部101に渡す。
【0015】検索キー辞書107は検索キーを入出力部
101から受け取り、これを記憶する。記憶された検索
キーは検索キー抽出部102により読み出される。
【0016】文書データベース108は文書を入出力部
101から受け取り、これを記憶する。記憶された文書
は文書検索部103により読み出される。
【0017】以下では本発明の特徴となる文書検索方法
を説明する。
【0018】図2は本発明の実施例における文書検索処
理を示すフローチャートである。
【0019】本実施例では、まず、入出力部101から
検索指示文を入力する(201)。入力された検索指示
文から検索キー辞書107を参照して検索キーを抽出す
る(202)。次に、抽出した検索キーから全文検索コ
マンドを生成する(203)。次に、文書データベースを
全文検索する(204)。次に、検索指示文を意味解析
し、機能連鎖構造と呼ぶデータ構造で表す(205)。
ここで、機能連鎖構造とは文字列を構成する自然語要素
が有する概念間の関係を表し、情報処理学会論文誌 Vo
l.32 No.9 第1180頁から第1189頁において
詳しく論じられている。次に、検索した文書の各々につ
いても同様に意味解析し、機能連鎖構造で表す(20
6)。次に、検索指示文の機能連鎖構造を検索した文書
の各々の機能連鎖構造と照合し(207)、検索キーを
含む部分が一致する文書を所望の文書として出力する
(208)。
【0020】以下、図3ないし図7を用いて、本実施例
により、全文検索でも、高速で精度が高い文書検索が可
能であることを機能連鎖構造による意味表現を用いなが
ら示す。
【0021】図3は検索キー辞書107に記憶されてい
る検索キーの一例である。ここでは、スポーツ,大会,
音声と認識の検索キーが登録されている。
【0022】図4は文書データベース108に記憶され
ている文書の一例である。文書データベースの名称は文
書DB1である。文書401はスポーツと大会の両方を
含まない。文書402,403はスポーツと大会の両方
を含む。
【0023】図5は全文検索コマンドの一例である。こ
こでは、文書DB1からスポーツと大会を含む文書を検
索せよという意味である。
【0024】図6はスポーツ大会に関する記事を読みた
いという検索指示文に対する機能連鎖構造の一例であ
る。
【0025】図7,図8はそれぞれ文書402,403
に対する機能連鎖構造の一例(部分)である。
【0026】以下、「スポーツ大会に関する記事を読み
たい」という検索指示文に対して、図4の文書データベ
ースからユーザが所望する文書を検索する場合を例とし
て説明する。
【0027】ステップ201で、検索指示文を入力させ
る。検索指示文はテキスト形式の自然語文字列である。
【0028】次に、ステップ202で、入力された検索
指示文から検索キーを抽出する。ここでは、「スポーツ
大会に関する記事を読みたい」という検索指示文から図
3の検索キー辞書を参照して、スポーツと大会という二
つの検索キーを抽出する。
【0029】次に、ステップ203で、抽出した検索キ
ーから全文検索コマンドを生成する。ここでは、スポー
ツと大会という検索キーから図5のコマンドを生成す
る。
【0030】次に、ステップ204で、図5のコマンド
に基づき、文書データベースを全文検索する。ここで
は、文書DB1からスポーツと大会を含む文書402,
403を検索する。
【0031】次に、ステップ205で、検索指示文を意
味解析し、機能連鎖構造で表す。
【0032】「スポーツ大会に関する記事を読みたい」
という検索指示文に対する機能連鎖構造は図6のように
なる。
【0033】次に、ステップ206で、検索した文書の
各々を意味解析し、機能連鎖構造で表す。検索した文書
402,403に対する機能連鎖構造はそれぞれ図7,
図8のようになる。
【0034】次に、ステップ207,208で、検索指
示文の機能連鎖構造を検索した文書の各々の機能連鎖構
造と照合し、検索キーを含む部分が一致する文書を所望
の文書として出力する。ここでは、まず、検索指示文と
文書402を照合する。検索指示文の機能連鎖構造のう
ち、検索キーを含む部分は601である。文書402の
機能連鎖構造のうち、検索キーを含む部分は701であ
り、601と701は一致しない。次に、検索指示文と
文書403を照合する。文書403の機能連鎖構造のう
ち、検索キーを含む部分は801であり、601と80
1は一致する。そこで、文書403を所望の文書として
出力する。
【0035】本文の文字づらで検索する従来方式による
と、上記の場合、文書402も出力される。ところが、
文書402はスポーツと大会の検索キーを含んでいる
が、スポーツ大会に関する文書ではない。このように検
索精度が低く、本来所望されていない文書まで検索され
る可能性がある。
【0036】これに対し、本実施例によると、意味の照
合まで行うので文書402は検索されることはなく、検
索精度を高めることができた。
【0037】
【発明の効果】本発明によれば、全文検索システムにお
いて、高速で精度が高い文書検索が可能である。そのた
め、不必要な文書が検索されることがなくなり、使い勝
手のよい文書検索システムを実現できる。また、文書登
録時に主題分析し、キーワードを付与する必要がないの
で、容易に文書検索システムを実現することができる。
【図面の簡単な説明】
【図1】本発明の実施例の文書検索システムの機能ブロ
ック図。
【図2】本発明の実施例における文書検索処理の動作を
示すフローチャート。
【図3】図1の検索キー辞書に記憶された検索キーの一
例の説明図。
【図4】図1の文書データベースに記憶された文書の一
例の説明図。
【図5】全文検索コマンドの一例の説明図。
【図6】実施例において、システムに入力する検索指示
文に対する機能連鎖構造の一例の説明図。
【図7】検索した文書に対する機能連鎖構造の一例(部
分)の説明図。
【図8】検索した文書に対する機能連鎖構造の一例(部
分)の説明図。
【符号の説明】
101…入出力部、102…検索キー抽出部、103…
文書検索部、104…検索指示文意未構造変換部、10
5…文書意味構造変換部、106…意味構造照合部、1
07…検索キー辞書、108…文書データベース。

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】自然語で書かれた文書を複数記憶する文書
    データベースと、前記自然語による文字列を検索指示文
    として入力する手段と、前記検索指示文から検索キーを
    抽出する手段と、前記検索キーを用いて前記文書データ
    ベースを全文検索する手段と、検索結果を出力する手段
    を備えた文書検索システムにおいて、前記自然語による
    文字列を意味構造に変換する手段と、前記意味構造を照
    合する手段を備え、前記検索指示文と前記検索指示文に
    基づいて検索した文書との意味構造が一致するものを所
    望の文書として出力することを特徴とする文書検索方
    法。
  2. 【請求項2】請求項1において、前記検索キーを抽出す
    る手段が、抽出対象となる語句を少なくとも一つ記憶す
    るキーワード辞書を用いて抽出する文書検索方法。
  3. 【請求項3】請求項1において、前記自然語による文字
    列を意味構造に変換する手段が、前記文字列から、前記
    文字列を構成する自然語要素が有する概念間の関係を表
    す文書検索方法。
JP4272663A 1992-10-12 1992-10-12 文書検索方法 Pending JPH06124305A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4272663A JPH06124305A (ja) 1992-10-12 1992-10-12 文書検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4272663A JPH06124305A (ja) 1992-10-12 1992-10-12 文書検索方法

Publications (1)

Publication Number Publication Date
JPH06124305A true JPH06124305A (ja) 1994-05-06

Family

ID=17517057

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4272663A Pending JPH06124305A (ja) 1992-10-12 1992-10-12 文書検索方法

Country Status (1)

Country Link
JP (1) JPH06124305A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07325833A (ja) * 1994-05-31 1995-12-12 Fujitsu Ltd データベース装置
JPH09153066A (ja) * 1995-11-29 1997-06-10 Matsushita Electric Ind Co Ltd 文書検索装置
JPH103481A (ja) * 1996-06-18 1998-01-06 Fuji Xerox Co Ltd 文書検索装置
JPH1097537A (ja) * 1996-09-24 1998-04-14 Inter Group:Kk 翻訳支援システムおよびその記録媒体
WO2004061714A1 (ja) * 2002-12-27 2004-07-22 Intellectual Property Bank Corp. 技術評価装置、技術評価プログラム、技術評価方法
KR102120814B1 (ko) * 2019-12-24 2020-06-09 박현희 코피지혈키트

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07325833A (ja) * 1994-05-31 1995-12-12 Fujitsu Ltd データベース装置
JPH09153066A (ja) * 1995-11-29 1997-06-10 Matsushita Electric Ind Co Ltd 文書検索装置
JPH103481A (ja) * 1996-06-18 1998-01-06 Fuji Xerox Co Ltd 文書検索装置
JPH1097537A (ja) * 1996-09-24 1998-04-14 Inter Group:Kk 翻訳支援システムおよびその記録媒体
WO2004061714A1 (ja) * 2002-12-27 2004-07-22 Intellectual Property Bank Corp. 技術評価装置、技術評価プログラム、技術評価方法
KR102120814B1 (ko) * 2019-12-24 2020-06-09 박현희 코피지혈키트

Similar Documents

Publication Publication Date Title
US7542966B2 (en) Method and system for retrieving documents with spoken queries
US7272558B1 (en) Speech recognition training method for audio and video file indexing on a search engine
JP3143079B2 (ja) 辞書索引作成装置と文書検索装置
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
JP2742115B2 (ja) 類似文書検索装置
JPH1145241A (ja) かな漢字変換システムおよびそのシステムの各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPWO2018097091A1 (ja) モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、データ構造、及びプログラム
US20030065658A1 (en) Method of searching similar document, system for performing the same and program for processing the same
JP2001043236A (ja) 類似語抽出方法、文書検索方法及びこれらに用いる装置
JPH0424869A (ja) 文書処理システム
JPH06124305A (ja) 文書検索方法
JPH0844771A (ja) 情報検索装置
JPH08129554A (ja) 関係表現抽出装置および関係表現検索装置
JP2005326970A (ja) 構造化文書曖昧検索装置及びそのプログラム
JP2529418B2 (ja) 文書検索装置
Karimi et al. Natural language query and control interface for database using afghan language
JPS61248160A (ja) 文書情報登録方式
JPH08339376A (ja) 外国語検索装置及び情報検索システム
JPH06274546A (ja) 情報量一致度計算方式
JPS63228326A (ja) キ−ワ−ド自動抽出方式
JPH07296005A (ja) 日本語テキスト登録・検索装置
JP2003016092A (ja) 類似文書検索方法及びその実施システム並びにその処理プログラム
JP3436109B2 (ja) 関連検索式検索装置及び関連検索式検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2006040150A (ja) 音声データ検索装置
JP3508312B2 (ja) キーワード抽出装置