JP2732661B2 - テキスト型データベース装置 - Google Patents

テキスト型データベース装置

Info

Publication number
JP2732661B2
JP2732661B2 JP1111626A JP11162689A JP2732661B2 JP 2732661 B2 JP2732661 B2 JP 2732661B2 JP 1111626 A JP1111626 A JP 1111626A JP 11162689 A JP11162689 A JP 11162689A JP 2732661 B2 JP2732661 B2 JP 2732661B2
Authority
JP
Japan
Prior art keywords
sentence
search
word
search sentence
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP1111626A
Other languages
English (en)
Other versions
JPH02287876A (ja
Inventor
比呂志 松尾
芳史 大山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP1111626A priority Critical patent/JP2732661B2/ja
Publication of JPH02287876A publication Critical patent/JPH02287876A/ja
Application granted granted Critical
Publication of JP2732661B2 publication Critical patent/JP2732661B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は,自然文または単語列で表現されたデータを
検索対象とするテキスト型データベース装置に関する。
〔従来の技術〕
自然文または単語列で表現された検索文を検索対象と
する従来のデータベース装置として,検索文に対して
あらかじめキーワードを付与しておき,このキーワード
を基に行うデータベース装置や,あらかじめ不要語辞
書を設けておき,入力文の形態素解析を行って抽出した
単語から不要語を除いた自立語などをキーワードとして
検索文との照合を行い,あらかじめ定められた検索条件
を満足する検索文を抽出するデータベース装置の2つの
タイプが主として知られている。
〔発明が解決しようとする課題〕
従来の技術で説明したデータベース装置において,前
者のデータベース装置では,あらかじめキーワードを付
与する作業が必要であるとともに,ユーザはキーワード
を意識して検索を行う必要がある。
また,後者のデータベース装置では,各検索文に対し
て検索条件を満足するか否かの二者択一的な判定によっ
て検索文が抽出されるため,検索条件が厳しいと所望の
検索文が抽出されず,検索条件が緩いと不用な検索文も
抽出される。例えば,検索文1「夜間割引の時間帯。」
と検索文2「深夜割引の時間帯。」とが検索文として登
録されている場合について説明する。検索条件として,
入力文から抽出されたキーワードの全てを含む検索文を
抽出するように規定した場合,すなわち厳しい検索条件
を規定した場合には,「深夜料金について知りたい。」
と入力し,キーワードが〔深夜〕〔料金〕〔知る〕の3
個だとすると,いずれの検索文を抽出されず,ユーザが
何の情報も得ることができない。一方,検索条件とし
て,入力文から抽出されたキーワードのいずれか1つを
含む検索文を抽出するよう規定した場合,すなわち緩い
検索条件を規定した場合には,「深夜料金について死り
たい。」と入力し,キーワードが〔深夜〕〔料金〕〔知
る〕の3個だとすると,〔深夜〕により検索文2が抽出
されるが,「深夜割引の時間帯を知りたい。」と入力
し,キーワードが〔深夜〕〔割引〕〔時間帯〕〔知る〕
の4個だとすると,検索文1と検索文2がともに抽出さ
れる。このため,大量の検索文を登録した場合には,緩
い検索条件であると多数の不要な検索文が抽出される。
この発明の目的は,自然文または単語列で表現された
検索文を検索対象とし,あらかじめキーワードを付与す
る作業を必要とせずにデータベースを構築でき,しか
も,問い合わせ文との類似性を示す評価値を基に順位付
けを行って検索文を抽出することにより,入力文と合致
する検索文が登録されてなくても類似性が高い順に検索
文が出力でき,所望するテキストベースを容易に検索で
きるデータベース装置を提供することにある。なお上記
に言うテキストベースとは、検索文と当該検索文に対応
する応答データとが対にして蓄積されているものであ
る。このように検索文と応答データとが対にして蓄積さ
れているものを、一般的なデータベースとは区別して、
テキストベースと呼び、本発明にいうテキストベースは
これに該当している。
〔課題を解決するための手段および作用〕
この発明によるデータベース装置は, 形態素解析手段により抽出した検索文と問い合わせ文
の各々を構成する単語の単語表記と意味カテゴリとを基
に,検索文評価値算出手段で検索文と問い合わせ文との
類似性を示す評価値を算出して,その評価値を基に表示
すべき検索文を決定するため,あらかじめキーワードを
付与する作業を必要とせずに検索文を登録でき,入力文
と合致する検索文が登録されてなくても類似性が高い順
に検索文を出力でき,所望するテキストベースを容易に
検索できることを特徴とし, さらに,インデックステーブル生成手段とインデック
ステーブルを蓄積するデータ蓄積部とを有し,検索文評
価値算出手段でインデックステーブルを参照して検索文
を抽出することによって,高速に検索文の評価値を算出
できることを特徴とする。
〔実施例〕
第1図は本発明の実施例を示すブロック図である。第
1図において,1はテキストベース入力手段,2はテキスト
ベース蓄積手段,3は形態素解析手段,4は単語辞書,5はデ
ータ蓄積部,6はインデックステーブル生成手段,7は問い
合わせ文入力手段,8は検索文評価値算出手段,9は検索文
表示手段,10はユーザ問い合わせ手段,11は応答データ出
力手段である。
以下,第1図を用いて本発明によるテキスト型データ
ベース装置の実施例の動作を説明する。
まず,テキストベース登録実施例の動作について説明
する。
テキストベース入力手段1では,検索文と応答データ
とを1組のデータとする複数組のデータを入力し,テキ
ストベース蓄積手段2へ送る。テキストベース蓄積手段
2では,入力された検索文を形態素解析手段3へ送っ
て,検索文を構成する各単語の単語表記と意味カテゴリ
とを得,検索文の名前とその検索文を構成する単語の単
語表記と意味カテゴリと検索文に対する応答データとを
テキストベースとして,データ蓄積部5へ蓄積する。
インデックステーブル生成手段6では,各意味カテゴ
リおよび各単語表記とをインデックスとして,意味カテ
ゴリに属する単語あるいは単語表記を有する単語を構成
要素として含む検索文を抽出できるようテーブル化した
インデックステーブルを生成して,データ蓄積部5に蓄
積する。このインデックステーブルを生成する際,イン
デックスをその文字コード等でソートしておくことによ
り,2分探索法などを用いて,指定した意味カテゴリに属
する単語を構成要素として含む検索文や,指定した単語
表記を有する単語を構成要素として含む検索文を高速に
取り出すことができる。
以上の動作により,第2図に示すようなテキストベー
スと第3図に示すようなインデックステーブルが生成さ
れる。第2図はテキストベースの例を示し,第3図はイ
ンデックステーブルの例を示す。第2図と第3図とは上
記検索文1「夜間割引の時間帯」と検索文2「深夜料金
の時間帯」とが与えられた際に得られたテキストベース
とインデックステーブルとを表わしている。
次に,テキストベース検索時の動作について説明す
る。
ユーザから入力される問い合わせ文は問い合わせ文入
力手段7により検索文評価値算出手段8へ送られる。
検索文評価値算出手段8では,まず,形態素解析手段
3へ送り,問い合わせ文を構成する単語の単語表記と意
味カテゴリとを得る。次に,これらの単語表記と意味カ
テゴリとをキーとしてインデックステーブルを参照し,
検索文を抽出する。抽出された検索文に対して問い合わ
せ文との類似性を示す評価値を算出し,表示すべき検索
文の順位を決定する。評価値の算出は,例えば,問い合
わせ文の各単語に対し,その意味カテゴリまたは単語表
記で抽出された各検索文に対し,ある定められた値を加
算していく動作を繰り返すことによって行われる。
例えば,第2図,第3図のようにテキストベースとイ
ンデックステーブルがデータ蓄積部5に蓄積されている
場合に,問い合わせ文「深夜割引の時間帯について知り
たい。」が入力されたとすると,第4図のような形態素
解析結果が得られ,「深夜」に関して検索文Q1が,「割
引」,「時間」,「帯」の各々について検索文Q1とQ2と
が抽出される。加算する値を1とすると,検索文Q1は4
つの単語において抽出されるため評価値4点が得られ,
検索文Q2は3つの単語において抽出されるため,評価値
3点が得られる。このようにして,第5図に示すよう
に,抽出された各検索文に対する評価値が得られる。第
4図は問い合わせ文に対応して得られる結果を説明する
図,第5図は評価結果を示す説明図である。
検索文表示手段9では,前記の検索文評価値算出手段
8で決定された順位に基づいて検索文が表示される。例
えば,上記の具体例の場合には,検索文Q1が1位として
検索文Q2が2位として表示される。ユーザが入力した問
い合わせ文が登録されている検索文と類似性が高い場合
には,ユーザが所望する検索文が1位のランクで表示さ
れる。このため,ユーザは高いランクで表示された検索
文から見ていけば,短時間で自分が所望する検索文を見
つけることができる。
次に,ユーザ問い合わせ手段10でユーザに表示された
検索文を選択させ,応答データ出力手段11により,ユー
ザが選択した検索文に対応する応答データを表示する。
例えば,ユーザが検索文Q1を選択した場合には,応答デ
ータA1が表示される。
以上の説明では検索文と類似性が高い問い合わせ文
「深夜割引の時間帯について知りたい。」が入力された
場合について説明したが,「深夜料金について知りた
い。」という比較的類似性が低い問い合わせ文に対して
も,単語「深夜」の存在によって検索文Q1が抽出され
る。
また,「割引」と「割り引き」のように単語表記が異
なる単語でも同じ意味を持つ場合には,単語辞書4で同
じ意味カテゴリが割当られており,検索文評価値算出手
段8では意味カテゴリでも検索文が抽出されるため,問
い合わせ文で用いた単語が登録した検索文中の単語と異
なっていても意味が同じであれば正しく検索できる。
また,単語辞書4に登録されていない単語を含む文が
入力されても,前後の既知の単語を基に未知語として抽
出できるよう形態素解析手段3を構成することは容易で
ある。さらに,検索文評価値算出手段8における検索文
の抽出では単語表記での抽出も行うため,問い合わせ文
中の未知語からその未知語を含む検索文の抽出が可能で
ある。このため,単語辞書4に登録されていない単語を
含む検索文がテキストベースとして登録されたとして
も,問い合わせ文中の単語表記と一致する単語を含む検
索文を抽出できる。したがって,登録するテキストベー
スに含まれる全ての単語を単語辞書4に登録していなく
ても,テキストベースの検索が可能である。
〔発明の効果〕
以上説明したように,この発明によれば,あらかじめ
キーワードを登録することなく,自然文または単語列で
表した問い合わせ文で検索文を抽出できるため,データ
ベースを容易に構築できる。また,意味カテゴリを媒体
として単語の意味を考慮した問い合わせ文と検索文との
類似性により,テキストベースを検索できるために,従
来に比べて自由な表現で柔軟な検索ができる。
また,入力文と合致する検索文が登録されてなくても
類似性が高い順に検索文を出力できるため,ユーザは自
分の意図に合った検索文候補を選択することにより所望
するテキストベースを容易に検索できる。
さらに,インデックステーブルを参照して高速に検索
文の抽出を行うため,大量の検索文を登録した場合でも
実用的な時間で検索することができる。
また,検索文に対してキーワードを付与するなどの前
処理が不要であるため,テキストベース更新手段を付加
することにより,オンラインでのテキストベースの追加
も可能となる。
【図面の簡単な説明】
第1図は本発明の実施例の構成を示すブロック図,第2
図はデータ蓄積部に蓄積されるテキストベースの例を示
す図,第3図はデータ蓄積部に蓄積されるインデックス
テーブルの例を示す図,第4図は問い合わせ文に対する
形態素解析結果と抽出される検索文の例を示す説明図,
第5図は検索文の評価値算出結果を示す説明図である。 第1図において,1はテキストベース入力手段,2はテキス
トベース蓄積手段,3は形態素解析手段,4は単語辞書,5は
データ蓄積部,6はインデックステーブル生成手段,7は問
い合わせ文入力手段,8は検索文評価値算出手段,9は検索
文表示手段,10はユーザ問い合わせ手段,11は応答データ
出力手段である。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 中川、加藤「日本語データベース検索 システムにおける意味理解方式」情報処 理学会論文誌,Vol.27,No.11, 1986,p1069−1076 松尾、大山、中川「日本語対話処理の ためのユーザ入力支援」、情報処理学会 第38回(平成元年前期)全国大会講演論 文集(2),p400−401

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】自然文または単語列で表現されたテキスト
    ベースを検索対象とするデータベース装置において, 単語表記と意味カテゴリを各単語に対して規定した単語
    辞書と, 前記単語辞書を参照して,文を構成する単語と該単語の
    意味カテゴリを抽出する形態素解析手段と, テキストベースおよびインデックステーブルを蓄積して
    おくデータ蓄積部と, 検索の対象となる検索文と該検索文に対する応答内容を
    記述した応答データを入力するテキストベース入力手段
    と, 入力された各検索文を前記形態素解析手段へ入力して該
    検索文を構成する単語の単語表記と意味カテゴリを得
    て,該検索文と該検索文を構成する単語の単語表記と意
    味カテゴリと該検索文に対する応答データとをテキスト
    ベースとして前記データ蓄積部に蓄積するテキストベー
    ス蓄積手段と, 各意味カテゴリおよび各単語表記に対して,該意味カテ
    ゴリに属する単語あるいは該単語表記を有する単語を構
    成要素として含む検索文を抽出できるようにテーブル化
    したインデックステーブルを生成して,前記データ蓄積
    部に蓄積するインデックステーブル生成手段と, 問い合わせ文を入力する問い合わせ文入力手段と, 前記問い合わせ文を前記形態素解析手段へ入力して該問
    い合わせ文を構成する単語の単語表記と意味カテゴリと
    を得,前記インデックステーブルを参照して検索文を抽
    出し,抽出された各検索文に対して該問い合わせ文との
    類似性を示す評価値を算出し,該評価値に基づいて出力
    すべき検索文とその順位を決定する検索文評価値算出手
    段と, 前記検索文評価値算出手段で決定された順位に基づいて
    検索文を表示する検索文表示手段と, 表示された検索文の中からユーザに自分の意図にあった
    文を選択させるユーザ問い合わせ手段と, 前記ユーザ問い合わせ手段で選択された検索文に対応す
    る応答データを前記データ蓄積部に蓄積されたテキスト
    ベースから抽出して表示する応答データ出力手段とを有
    する ことを特徴とするテキスト型データベース装置。
JP1111626A 1989-04-28 1989-04-28 テキスト型データベース装置 Expired - Lifetime JP2732661B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1111626A JP2732661B2 (ja) 1989-04-28 1989-04-28 テキスト型データベース装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1111626A JP2732661B2 (ja) 1989-04-28 1989-04-28 テキスト型データベース装置

Publications (2)

Publication Number Publication Date
JPH02287876A JPH02287876A (ja) 1990-11-27
JP2732661B2 true JP2732661B2 (ja) 1998-03-30

Family

ID=14566088

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1111626A Expired - Lifetime JP2732661B2 (ja) 1989-04-28 1989-04-28 テキスト型データベース装置

Country Status (1)

Country Link
JP (1) JP2732661B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008210206A (ja) * 2007-02-27 2008-09-11 Shizuoka Prefecture 類似文章検索プログラム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100498574B1 (ko) * 2001-03-08 2005-07-01 주식회사 다이퀘스트 단락 단위의 실시간 응답 색인을 이용한 자연어 질의-응답검색시스템
JP4974436B2 (ja) * 2002-05-10 2012-07-11 株式会社ジャストシステム ファイル検索装置およびファイル検索方法
JP4870379B2 (ja) * 2005-04-15 2012-02-08 東北リコー株式会社 類似文書検索装置、類似文書検索方法、類似文書検索プログラム及びそのプログラムを記録した記録媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
中川、加藤「日本語データベース検索システムにおける意味理解方式」情報処理学会論文誌,Vol.27,No.11,1986,p1069−1076
松尾、大山、中川「日本語対話処理のためのユーザ入力支援」、情報処理学会第38回(平成元年前期)全国大会講演論文集(2),p400−401

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008210206A (ja) * 2007-02-27 2008-09-11 Shizuoka Prefecture 類似文章検索プログラム

Also Published As

Publication number Publication date
JPH02287876A (ja) 1990-11-27

Similar Documents

Publication Publication Date Title
JP2832988B2 (ja) データ検索システム
JP2742115B2 (ja) 類似文書検索装置
US6286000B1 (en) Light weight document matcher
KR102466489B1 (ko) 관심 지점에 관련된 정보를 사용자에게 제공하기 위한 방법 및 시스템
JPWO2007099812A1 (ja) 質問回答装置、質問回答方法および質問回答用プログラム
US6219665B1 (en) Retrieval menu creation device, a retrieval menu creation method, and a recording medium that stores a retrieval menu creation program
JP3820878B2 (ja) 情報検索装置,スコア決定装置,情報検索方法,スコア決定方法及びプログラム記録媒体
JP6346367B1 (ja) 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム
JP3198932B2 (ja) 文書検索装置
JP2002132811A (ja) 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体
JP2002007450A (ja) 検索支援システム
JP2010092357A (ja) 施設関連情報検索方法および施設関連情報検索システム
JP2872706B2 (ja) 情報検索装置
JP2732661B2 (ja) テキスト型データベース装置
CN110688559A (zh) 一种检索方法及装置
JP3123836B2 (ja) テキスト型データベース装置
JPH064584A (ja) 文章検索装置
JPH0454564A (ja) 重み学習型テキストベース検索装置
JPH09319767A (ja) 類義語辞書登録方法
CN111914154B (zh) 一种智能搜索导向系统及方法
JPH1166086A (ja) 類似文書検索装置および類似文書検索方法
JPH06124305A (ja) 文書検索方法
JP3436109B2 (ja) 関連検索式検索装置及び関連検索式検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH11154160A (ja) データ検索システム
JP2003288366A (ja) 類似テキスト検索装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071226

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081226

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091226

Year of fee payment: 12

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091226

Year of fee payment: 12