JPH07152778A - 文書検索装置 - Google Patents

文書検索装置

Info

Publication number
JPH07152778A
JPH07152778A JP5298330A JP29833093A JPH07152778A JP H07152778 A JPH07152778 A JP H07152778A JP 5298330 A JP5298330 A JP 5298330A JP 29833093 A JP29833093 A JP 29833093A JP H07152778 A JPH07152778 A JP H07152778A
Authority
JP
Japan
Prior art keywords
keyword
concept
index
unit
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5298330A
Other languages
English (en)
Inventor
Takeshi Yumura
武 湯村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP5298330A priority Critical patent/JPH07152778A/ja
Publication of JPH07152778A publication Critical patent/JPH07152778A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 本発明はインデックスファイル中のキーワー
ドとは別に、このキーワードに関する概念見出しを抽出
・作成することによって、ユーザの入力したキーワード
がインデックスファイル中のキーワードと完全に一致し
なくとも上記概念見出しと一致すれば、検索対象として
テキストファイルを出力することができる文書検索装置
を提供することを目的とする。 【構成】 本発明は、多数のテキストファイルを格納し
ているテキストデータベースと、該テキストデータベー
スに格納されているテキストファイルの形態素を解析す
る形態素解析部と、該形態素解析部にて解析された形態
素の中からキーワードとなる語を抽出するキーワード抽
出部と、該キーワード抽出部にて抽出されたキーワード
についてその上位概念である概念見出しを推定する概念
推定部と、該概念推定部にて推定された概念見出し、及
び上記キーワードをインデックスファイルに書き込むイ
ンデックス書き込み部と、を具備することを特徴とす
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は文書ファイルを検索する
文書検索装置に関するものであって、具体的には入力さ
れたキーワードの上位概念見出しを推定することによっ
て、該概念見出し、及び入力されたキーワードに基づい
て文書ファイルの検索を行うことができる文書検索装置
に関するものである。
【0002】
【従来の技術】従来の文書検索装置は所望のキーワード
をユーザが入力し、該検索装置はテキストデータベース
から抽出されたキーワードを格納したインデックスファ
イルの中から斯るキーワードを有するテキストファイル
を検索出力しており、この文書検索装置の概略構成図を
図3に示す。
【0003】同図における1は多数のテキストファイル
を格納しているテキストデータベース、2は該テキスト
データベース1に格納されているテキストファイルから
キーワードを抽出するインデックス作成部であって、こ
のインデックス作成部2はテキストファイル中の語を形
態素毎に解析する形態素解析部2a、解析された形態素
の中からキーワードとなる語を抽出するキーワード抽出
部2b、及びキーワードを後述するインデックスファイ
ル3に書き込むインデックス書き込み部2cから構成さ
れている。
【0004】3はインデックス作成部2にて作成された
キーワードをインデックスとして格納しておくインデッ
クスファイル、4は検索対象のキーワードを入力する入
力部、5は入力部4から入力されたキーワードに基づい
てインデックスファイル3を検索する検索処理部、6は
検索処理部5にて検索された検索結果を出力する検索結
果出力部である。
【0005】上述の構成に於けるインデックスファイル
3の作成、並びに検索処理部5の検索処理について動作
説明をする。
【0006】通常テキストデータベースは多数のテキス
トファイルを格納しており、インデックス作成部2の形
態素解析部2aはこのテキストファイル毎に形態素解析
を行う。この解析はテキストファイルを名詞/助詞/形
容詞/形容動詞/動詞等の品詞毎に分け、キーワード抽
出部2bは形態素解析されたテキストファイルの中か
ら、キーワードとして適している、例えば名詞のみを抽
出できるようになっている。而して、抽出されたキーワ
ードはインデック書き込み部2cにてインデックスファ
イル3に書き込まれ、以降の検索処理では検索処理部5
はこのインデックスファイル3を検索することになる。
【0007】
【発明が解決しようとする課題】然し乍ら、上述のイン
デックスファイル3にはテキストデータベース1から単
に抽出されたキーワードが格納されているだけであるの
で、検索処理に際しては入力部4からユーザが入力した
キーワードとインデックスファイル3中のキーワードと
が完全に一致しなければ、検索対象とは看做されず、検
索結果として出力することができなかった。
【0008】したがって、本発明はインデックスファイ
ル3中のキーワードとは別に、このキーワードに関する
概念見出しを抽出・作成することによって、上記キーワ
ードの概念見出しをインデックスファイル3中に書き込
み、ユーザの入力したキーワードがインデックスファイ
ル3中のキーワードと完全に一致しなくとも上記概念見
出しと一致すれば、検索対象としてテキストファイルを
出力することができる文書検索装置を提供することを目
的とする。
【0009】
【課題を解決するための手段】本発明の文書検索装置
は、多数のテキストファイルを格納しているテキストデ
ータベースと、該テキストデータベースに格納されてい
るテキストファイルの形態素を解析する形態素解析部
と、該形態素解析部にて解析された形態素の中からキー
ワードとなる語を抽出するキーワード抽出部と、該キー
ワード抽出部にて抽出されたキーワードについてその上
位概念である概念見出しを推定する概念推定処理部と、
該概念推定処理部にて推定された概念見出し、及び上記
キーワードをインデックスファイルに書き込むインデッ
クス書き込み部と、検索対象のキーワードを入力する入
力部と、該入力部から入力された所望のキーワードに基
づいて上記インデックスファイルを検索する検索処理部
と、該検索処理部にて検索された検索結果を出力する検
索結果出力部と、を具備することを特徴とする。
【0010】
【作用】本発明は上述の構成を具備することによって、
テキストデータベースから予めキーワードを抽出した際
に、概念推定処理部が斯るキーワードの上位概念に基づ
いて概念見出しを推定し、インデックス書き込み部はテ
キストデータベースから予め抽出したキーワード、及び
このキーワードの概念見出しをインデックスファイルに
書き込み、検索処理部はこのインデックスファイルを検
索する。
【0011】
【実施例】本発明の実施例を図1及び図2に基づいて説
明する。尚、従来と同一構成については、同一番号を付
し、その説明は省略する。
【0012】本発明の構成が従来のそれと異なる点は、
キーワード抽出部2bにて抽出されたキーワードについ
てその上位概念である概念見出しを推定する概念推定処
理部2dを、キーワード抽出部2bとインデックス書き
込み部2cとの間に設けたことである。斯る概念推定処
理部2dは、キーワード抽出部2bにて抽出されたキー
ワードが例えば「交代制」である場合、その上位概念で
ある概念見出しである「制度」を推定することになる。
【0013】以下では、テキストファイル中のキーワー
ド「交代制」についての概念見出しを推定・作成する処
理を図2のフローチャートにしたがって説明する。
【0014】ステップS1においては、キーワード抽出
部2bがテキストデータベース1中のテキストファイル
の名詞からなるキーワード「交代制」を抽出する。
【0015】ステップS2では、キーワードに特定の語
尾がついているか否かを判定し、キーワードの語尾に
「制」がついていればステップS3に進み、「制」がつ
いていなければ終了する。キーワード「交代制」は語尾
に「制」がついているので、ステップS3に進むことに
なる。
【0016】ステップS3では、抽出されたキーワード
が単語分割できるか否かを判定し、分割できればステッ
プS4に進み、分割できなければステップS5に進む。
キーワード「交代制」は「交代」、「制」に分割できる
ので、ステップS4に進むことになる。
【0017】ステップS4においては、ステップS3で
分割された単語は「名詞」+「制」から構成されている
か否かを判定し、「名詞」+「制」から構成されていれ
ばステップS6に進み、構成されていなければ終了す
る。キーワード「交代制」は「交代」、「制」に分割で
きるので、ステップS6に進むことになる。
【0018】一方、ステップS5においては、抽出され
たキーワードがサ変名詞であるか否かを判定し、サ変名
詞でなければステップS6に進み、サ変名詞であれば終
了する。
【0019】ステップS6においては、概念推定処理部
2dは抽出されたキーワード「交代制」の他に、概念見
出しとして「制度」を推定する。これによってインデッ
クス書き込み部2cはキーワード自身と共にその概念見
出しである「制度」をインデックスファイル3に書き込
む。
【0020】以上のフローチャートに基づいて、従来テ
キストデータベースから抽出され、何ら加工されること
なくインデックスファイル3に書き込まれていたキーワ
ードについては、概念推定処理部2dによって上位概念
見出しが推定され、キーワードと共にその上位概念であ
る概念見出しをインデックスファイル3に書き込むの
で、検索の幅を広げることができる。
【0021】尚、上述の実施例におけるステップS2で
は特定の語尾として「制」について述べたが、この他に
「料」、「法」等が挙げられる。
【0022】
【発明の効果】以上の説明から明らかなように、本発明
ではインデックスファイル中のキーワードとは別に、こ
のキーワードに関する概念見出しを抽出・作成すること
によって、ユーザの入力したキーワードがインデックス
ファイル中のキーワードと完全に一致しなくとも上記概
念見出しと一致すれば、検索対象としてテキストファイ
ルを出力することができるので、インデックスファイル
と別に概念辞書といった特別の辞書を持たせなくとも、
柔軟性を有する検索が可能となった。
【図面の簡単な説明】
【図1】本発明に係る文書検索装置の概略構成図であ
る。
【図2】本発明に係る文書検索装置におけるテキストフ
ァイル中のキーワードについて、その概念見出しを推定
・作成する処理を示すフローチャートである。
【図3】従来の文書検索装置の概略構成図である。
【符号の説明】
1 テキストデータベース 2 インデックス作成部 2a 形態素解析部 2b キーワード抽出部 2c インデックス書き込み部 2d 概念推定処理部 3 インデックスファイル 4 入力部 5 検索処理部 6 検索結果出力部
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 9288−5L G06F 15/20 590 E

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 多数のテキストファイルを格納している
    テキストデータベースと、該テキストデータベースに格
    納されているテキストファイルの形態素を解析する形態
    素解析部と、該形態素解析部にて解析された形態素の中
    からキーワードとなる語を抽出するキーワード抽出部
    と、該キーワード抽出部にて抽出されたキーワードにつ
    いてその上位概念である概念見出しを推定する概念推定
    処理部と、該概念推定処理部にて推定された概念見出
    し、及び上記キーワードをインデックスファイルに書き
    込むインデックス書き込み部と、検索対象のキーワード
    を入力する入力部と、該入力部から入力された所望のキ
    ーワードに基づいて上記インデックスファイルを検索す
    る検索処理部と、該検索処理部にて検索された検索結果
    を出力する検索結果出力部と、を具備することを特徴と
    する文書検索装置。
JP5298330A 1993-11-29 1993-11-29 文書検索装置 Pending JPH07152778A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5298330A JPH07152778A (ja) 1993-11-29 1993-11-29 文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5298330A JPH07152778A (ja) 1993-11-29 1993-11-29 文書検索装置

Publications (1)

Publication Number Publication Date
JPH07152778A true JPH07152778A (ja) 1995-06-16

Family

ID=17858270

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5298330A Pending JPH07152778A (ja) 1993-11-29 1993-11-29 文書検索装置

Country Status (1)

Country Link
JP (1) JPH07152778A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10162008A (ja) * 1996-11-28 1998-06-19 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法及び装置
KR100479346B1 (ko) * 2001-12-28 2005-03-30 한국전자통신연구원 문서분류기법을 이용한 정답문서집합 자동 구축 방법
JP2009187376A (ja) * 2008-02-07 2009-08-20 Canon Inc ファイル管理装置、ファイル管理方法、及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0315980A (ja) * 1989-06-14 1991-01-24 Hitachi Ltd 文字列検索装置
JPH05298371A (ja) * 1992-04-20 1993-11-12 Ricoh Co Ltd 検索システム
JPH06309362A (ja) * 1993-04-27 1994-11-04 Fujitsu Ltd 情報検索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0315980A (ja) * 1989-06-14 1991-01-24 Hitachi Ltd 文字列検索装置
JPH05298371A (ja) * 1992-04-20 1993-11-12 Ricoh Co Ltd 検索システム
JPH06309362A (ja) * 1993-04-27 1994-11-04 Fujitsu Ltd 情報検索方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10162008A (ja) * 1996-11-28 1998-06-19 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法及び装置
KR100479346B1 (ko) * 2001-12-28 2005-03-30 한국전자통신연구원 문서분류기법을 이용한 정답문서집합 자동 구축 방법
JP2009187376A (ja) * 2008-02-07 2009-08-20 Canon Inc ファイル管理装置、ファイル管理方法、及びプログラム

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
JP2783558B2 (ja) 要約生成方法および要約生成装置
JP3691844B2 (ja) 文書処理方法
EP0378848A2 (en) Method for use of morphological information to cross reference keywords used for information retrieval
JP2742115B2 (ja) 類似文書検索装置
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JPH0628403A (ja) 文書検索装置
JP3281639B2 (ja) 文書検索システム
JPH09204437A (ja) 文書検索装置
JP3363501B2 (ja) テキスト検索装置
JP3352799B2 (ja) 機械翻訳方法及び機械翻訳装置
JPH07152778A (ja) 文書検索装置
JP2003108571A (ja) 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体
JP4378106B2 (ja) 文書検索装置、文書検索方法及びプログラム
JPH07134720A (ja) 文章作成システムにおける関連情報提示方法及び装置
JP4384736B2 (ja) 画像検索装置およびその装置の各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
KR20010008117A (ko) 사용자 어휘력 수준에 맞춘 문장 내 단어 자동 표시 방법,시스템 및 기록 매체
JPH0773200A (ja) キーワード抽出方法
JP2840258B2 (ja) 機械翻訳システムの対訳辞書及び共起関係辞書の作成方法
JP2000339342A (ja) 文書検索方法および文書検索装置
KR20010004090A (ko) 에이치티엠엘 기반 한글 용어/약어 하이퍼링크 생성기
JPH103481A (ja) 文書検索装置
Kadam Develop a Marathi Lemmatizer for Common Nouns and Simple Tenses of Verbs
JPH0561902A (ja) 機械翻訳システム
JPH05233689A (ja) 文書自動要約方法