JPH02287876A - テキスト型データベース装置 - Google Patents

テキスト型データベース装置

Info

Publication number
JPH02287876A
JPH02287876A JP1111626A JP11162689A JPH02287876A JP H02287876 A JPH02287876 A JP H02287876A JP 1111626 A JP1111626 A JP 1111626A JP 11162689 A JP11162689 A JP 11162689A JP H02287876 A JPH02287876 A JP H02287876A
Authority
JP
Japan
Prior art keywords
sentence
search
word
evaluation value
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1111626A
Other languages
English (en)
Other versions
JP2732661B2 (ja
Inventor
Hiroshi Matsuo
比呂志 松尾
Yoshiji Oyama
芳史 大山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP1111626A priority Critical patent/JP2732661B2/ja
Publication of JPH02287876A publication Critical patent/JPH02287876A/ja
Application granted granted Critical
Publication of JP2732661B2 publication Critical patent/JP2732661B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、自然文J、たは単1X!1列(表現されたデ
ータを検索対象とするう一トスト型データヘース装置に
関する。
〔従来の技術〕
自然文または単語列で表現された検索文を検索対象とす
る従来のデータヘース装置として、■検索文に対してあ
らかしめキーlノー1を付1j、シておき、このキーソ
ートを基に検索を11)−)−一ター・ス装置や、■あ
らかしめ不要語辞書を設けておき入力文の形態素解析を
行って抽出した単語から不要語を除いた自立語などをキ
ーワードとして検索文との照合をFiい、あらかしめ定
められた検索条件を満足する検索文を抽出するデータヘ
ース装置の2つのタイプが主として知られている。
〔発明が解決しようとする課題〕
従来の技術で説明したデータヘース装置において、前者
のデータヘース装置では、あらかじめキーワードを付与
する作業か必要であるとともにユーザはキーワードを意
識して検索を行う必要がある。
また、t&者のデータ・\−ス装置では、各検索文に対
して検索条件を満足J−るか否かの二者択一的な判定に
よって検索文が抽出′されるため、検索条件が厳しいと
所望の検索文が抽出されす、検索条件が緩いと不用な検
索文も抽出される。例えば検索文1[夜間割引の時間帯
。]と検索文2「深夜割引の時間帯。」とが検索文とし
て登録されている場合について説明する。検索条件とし
て、入力文から抽出されたキーワードの全てを含む検索
文を抽出するように規定した場合、すなわち1肢しい検
索条件を規定した場合に4;l:、  l深夜料金につ
いて知りたい。」と入力し、=1=−)ノートが〔深夜
〕 〔料金〕 〔知る〕の3個だとすると、いずれの検
索文も抽出されず、ユーザは何の情報も得ることができ
ない。一方、検索条(’lとして、入力文から抽出され
たキーワードのいずれか1つを含む検索文を抽出するよ
う規定した場合7すなわち緩い検索条件を規定した場合
には、「深夜料金について知りたい。」と入力し、−1
−−ワードが〔深夜〕 〔料金〕 〔知る〕の3個だと
すると、 〔深夜〕により検索文2が抽出されるか、[
深夜、(1目の時間帯を知りたい。]と入力し、;1・
−ワードが[深夜] 〔割引〕 〔時間帯〕 〔知る〕
の4個だとすると、検索文lと検索文2がともに抽出さ
れる。
このため、大量の検索文を登録した場合には、緩い検索
条件であると多数の不安な検索文が抽出される。
この発明の目的は、自然文または単語列で表現された検
索文を検索対象とし、あらかしめキーワトを付与する作
業を必要とせずにデータ蓄積部を構築でき、しかも1問
い合わせ文との類似性を示す評価値を基に順位付けを行
って検索文を抽出することにより1、入力文と合致する
検索文が登録されてなくても類似性が高い順に検索文を
出力でき、所望するテキストベースを容易に検索できる
データヘース装置を提供することにある。
〔課題を解決するための手段および作用〕この発明によ
るデータヘース装置は 形態素解析手段により抽出した検索文と問い合ね旧交の
各々を構成する単語の単語表記と意味カディリとを基に
、検索文評価値算出手段で検索文と問い合わせ文との類
似性を示す評価値を算出して、その評価値を基に表示す
べき検索文を決定するため、あらかじめキーワードを付
与する作業を必要とせずに検索文を登録でき、入力文と
合致する検索文が登録されてなくても類似性が高い順に
検索文を出力でき、所望するテキストベースを容易に検
索できることを特徴とし。
さらに、インデックステーブル生成手段とインデックス
テーブルを蓄積するデータ蓄積部とを有し、検索文評価
値算出手段でインデックステーブルを参照して検索文を
抽出するごとによって、高速に検索文の評価値を算出で
きるごとを特徴とする。
〔実施例〕
第1図は本発明の実施例を示すゾロツク図である。第1
図において、lはテキストベース入力手段、2はテキス
トベース蓄積手段、3は形態素解析手段、4は単語辞書
、5はデータ蓄積部、6はインデックステーブル生成手
段、7は問い合わせ文入力手段、8は検索文評価値算出
手段、9は検索文表示手段、10はユーザ問い合わせ手
段IIは応答データ出力手段であ2)。
以下、第1図を用いて本発明によるテキスト型データベ
ース装置の実施例の動作を説明する。
まず、テキストベース登録時の動作について説明する。
テキストベース入力手段lでは、検索文と応答データと
を1組のデータとする複数組のデータを入力し、テキス
トベース蓄積手段2へ送る。テキストベース蓄積手段2
では、入力された検索文を形態素解析手段3へ送って、
検索文を構成する各単語の単語表記と意味カテゴリとを
得、検索文の名前とその検索文を構成する単語の単語表
記と意味カテゴリと検索文に対する応答データとをテキ
ストベースとして、データ蓄積部5へ蓄積する。
インデックステーブル生成手段6では、各意味カテゴリ
および各単語表記とをインデックスとして、意味カテゴ
リに属する単語あるいは単語表記を有する単語を構成要
素として含む検索文を抽出できるようテーブル化したイ
ンデックステーブルを生成して、データ蓄積部5に蓄積
する。このインデックステーブルを生成する際、インデ
ックスをその文字コード等でソートしておくことにより
2分探索法などを用いて、指定した意味属性に属する単
語を構成要素として含む検索文や、指定したiii a
li表記を有する11語を構成要素として含む検索文を
高速に取り出すことができる。
以上の動作により、第2図に示すようなテキストベース
と第3図に示すようなインデックステブルが生成される
。第2図はテキストベースの例を示し、第3図はインデ
ックステーブルの例を示す。第2図と第3図とは上記検
索文11夜間割弓の時間帯」と検索文2[深夜料金の時
間帯−1とか与えられた際に得られたテキストベースと
インデックステーブルとを表わしている。
次に、テキストベース登録時の動作について説明する。
ユーザから入力される問い合ね旧交は問い合わせ文入力
手段7により検索文評価値算出手段8へ送られる。
検索文評価値算出手段8では、まず、形態素解析手段3
へ送り9問い合わせ文を構成するm語の単語表記と意味
カテゴリとを得る。次に、これらの1修語表記と意味カ
テゴリとをキーとしてインデックステーブルを参照し、
検索文を抽出する。抽出された検索文に対して問い合わ
−U文との類似性を示す評価値を算出し2表示すべき検
索文の順位を決定する。評価値の算出は9例えば1問い
合ね旧交の各単語に対し、その意味カテゴリまたは単語
表記で抽出された各検索文に対し、ある定められた値を
加算してい(動作を繰り返すことによって行われる。
例えば、第2図、第3図のようにテキストベースとイン
デックステーブルとがデータ蓄積部5に蓄積されている
場合に2問い合わせ文「深夜割りの時間帯に一ついて知
りたい。」が、入力されたとすると、第4図のような形
態素解析結果が得られ「深夜」に関して検索文Q1が、
1割引」、1時間」、「帯」の各々について検索文Q1
と02とか抽出される。加算する値を1とすると、検索
文Q1は4つの単語において抽出されるため評価値4点
が得られ、検索文Q2は3つの単語におい゛(抽出され
るため、評価値()点が得られる。このようにして、第
5図に示すように、抽出された各検案文に対する評価値
が得られる。第4図は問い合わU′文に対応して得られ
る結果を説明する図、第5図は評価結果を示す説明図で
ある。
検索文表示手段9−(は、 1iii記の検索文評価(
11′f算出り段8で決定された順位に基づい′(検索
文が表示される。例えば、上記の具体例の場合には、検
索文Q1が1位として検索文Q2か2位として表示され
る。コ、−ザが、入力した問い合ね・U文が登録されて
いる検索文と類似性が高い場合には、ユーザが所望する
検索文が1位のランクで表示される。
このため、ユーザは高いランクご表示された検索文から
見ていりば、短時間で自分が所望する検索文を見つける
ことができる。
次に、ユーザ問い合ね−1手段1 (lでユーザに表示
された検索文を選択させ、応答データ出力手段11によ
り、ユーザが選択した検索文に対応する応答データを表
示する。例えば、ユーザが検索文Q1を選択した場合に
は、応答データA1が表示される。
以上の説明では検索文と類似性が高い問い合わせ文[深
夜割引の時間帯について知りたい。」が入力された場合
について説明したが、[深夜料金について′知りたい。
]という比較的類似性が低い問い合わせ文に対しても、
単語「深夜」の存在によって検索文Q1が抽出される。
また、「割引」と「割り引き」のように単語表記が異な
る単語でも同じ意味を持つ場合には、単語辞書4で同じ
意味カテゴリが割当られζおり検索文評価値算出手段8
では意味カテゴリでも検索文が抽出されるため5問い合
わせ文で用いた単語が登録した検索文中の単語と異なっ
ていても意味が同じであれば正しく検索できる。
また、単語辞書4に登録されていない単語を含む文が入
力されても9前後の既知の単語を基に未知語として抽出
できるよう形態素解析手段3を構成することは容易であ
る。さらに、検索文評価値算出手段8におりる検索文の
抽出では単語表記での抽出も行うため9問い合わせ文中
の未知HtXからその未知語を含む検索文の抽出が可能
である。このため、単語辞書4に登録されていない単語
を含む検索文がテキストベースとして登録されたとして
も1問い合わせ文中の単語表記と一致する単語を含む検
索文を抽出できる。したがって、登録するテキストベー
スに含まれる全ての単語を単語辞書4に登録していなく
ても、テキストベースの検索が可能である。
〔発明の効果〕
以上説明したように、この発明によれば、あらかじめキ
ーワーFを登録することなく、自然文または単語列で表
した問い合わせ文で検索文を抽出できるため、データ・
\−スを容易に構築できる。
また、入力文と合致する検索文が登録されてなくても類
似性が高い順に検索文を出力できるためユーザは自分の
意図に合った検索文候補を選択することにより所望する
テキストベースを容易に検索できる。
さらに、インデックステーブルを参照して高速に検索文
の抽出を行うため、大量の検索文を登録した場合でも実
用的な時間で検索することができまた。検索文に対して
キーワードを付与するなどの前処理が不要であるため、
テキストベース更新手段を付加することにより、オンラ
インでのテキストベースの追加も可能となる。
【図面の簡単な説明】
第1図は本発明の実施例の構成を示すブロック図、第2
図はデータ蓄積部に蓄積されるテキス1〜へ一スの例を
示す図、第3図はデータ蓄積部に蓄積されるインデック
ステーブルの例を示す図、第4図は問い合わせ文に対す
る形態素解析結果と抽出される検索文の例を示す説明図
、第5図は検索文の評価値算出結果を示す説明図である
。 第1図において、1はテキストベース入力手段2はテキ
ストベース蓄積手段、3は形態素解析手段、4は単語辞
書、5はデータ蓄積部、6はインデックステーブル生成
手段、7は問い合わせ文入力手段、8は検索文評価値算
出手段、9は検索文表示手段、10はユーザ問い合わせ
手段、11は応答データ出力手段である。

Claims (1)

  1. 【特許請求の範囲】 自然文または単語列で表現されたテキストベースを検索
    対象とするデータベース装置において、単語表記と意味
    カテゴリを各単語に対して規定した単語辞書と、 前記単語辞書を参照して、文を構成する単語と該単語の
    意味カテゴリを抽出する形態素解析手段と、 テキストベースおよびインデックステーブルを蓄積して
    おくデータ蓄積部と、 検索の対象となる検索文と該検索文に対する応答内容を
    記述した応答データを入力するテキストベース入力手段
    と、 入力された各検索文を前記形態素解析手段へ入力して該
    検索文を構成する単語の単語表記と意味カテゴリを得て
    、該検索文と該検索文を構成する単語の単語表記と意味
    カテゴリと該検索文に対する応答データとをテキストベ
    ースとして前記データ蓄積部に蓄積するテキストベース
    蓄積手段と、各意味カテゴリおよび各単語表記に対して
    、該意味カテゴリに属する単語あるいは該単語表記を有
    する単語を構成要素として含む検索文を抽出できるよう
    にテーブル化したインデックステーブルを生成して、前
    記データ蓄積部に蓄積するインデックステーブル生成手
    段と、 問い合わせ文を入力する問い合わせ文入力手段と、 前記問い合わせ文を前記形態素解析手段へ入力して該問
    い合わせ文を構成する単語の単語表記と意味カテゴリと
    を得、前記インデックステーブルを参照して検索文を抽
    出し、抽出された各検索文に対して該問い合わせ文との
    類似性を示す評価値を算出し、該評価値に基づいて出力
    すべき検索文とその順位を決定する検索文評価値算出手
    段と、前記検索文評価値算出手段で決定された順位に基
    づいて検索文を表示する検索文表示手段と、表示された
    検索文の中からユーザに自分の意図にあった文を選択さ
    せるユーザ問い合わせ手段と、前記ユーザ問い合わせ手
    段で選択された検索文に対応する応答データを前記デー
    タ蓄積部に蓄積されたテキストベースから抽出して表示
    する応答データ出力手段とを有する ことを特徴とするテキスト型データベース装置。
JP1111626A 1989-04-28 1989-04-28 テキスト型データベース装置 Expired - Lifetime JP2732661B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1111626A JP2732661B2 (ja) 1989-04-28 1989-04-28 テキスト型データベース装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1111626A JP2732661B2 (ja) 1989-04-28 1989-04-28 テキスト型データベース装置

Publications (2)

Publication Number Publication Date
JPH02287876A true JPH02287876A (ja) 1990-11-27
JP2732661B2 JP2732661B2 (ja) 1998-03-30

Family

ID=14566088

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1111626A Expired - Lifetime JP2732661B2 (ja) 1989-04-28 1989-04-28 テキスト型データベース装置

Country Status (1)

Country Link
JP (1) JP2732661B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003330940A (ja) * 2002-05-10 2003-11-21 Just Syst Corp 検索用索引データの生成方法、検索用索引データの生成装置、およびファイル検索装置
KR100498574B1 (ko) * 2001-03-08 2005-07-01 주식회사 다이퀘스트 단락 단위의 실시간 응답 색인을 이용한 자연어 질의-응답검색시스템
JP2006301732A (ja) * 2005-04-15 2006-11-02 Tohoku Ricoh Co Ltd 類似文書検索装置、類似文書検索方法、類似文書検索プログラム及びそのプログラムを記録した記録媒体

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4838743B2 (ja) * 2007-02-27 2011-12-14 静岡県 類似文章検索プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100498574B1 (ko) * 2001-03-08 2005-07-01 주식회사 다이퀘스트 단락 단위의 실시간 응답 색인을 이용한 자연어 질의-응답검색시스템
JP2003330940A (ja) * 2002-05-10 2003-11-21 Just Syst Corp 検索用索引データの生成方法、検索用索引データの生成装置、およびファイル検索装置
JP2006301732A (ja) * 2005-04-15 2006-11-02 Tohoku Ricoh Co Ltd 類似文書検索装置、類似文書検索方法、類似文書検索プログラム及びそのプログラムを記録した記録媒体

Also Published As

Publication number Publication date
JP2732661B2 (ja) 1998-03-30

Similar Documents

Publication Publication Date Title
KR100295354B1 (ko) 문서 정보 검색 시스템
JP2832988B2 (ja) データ検索システム
US6496820B1 (en) Method and search method for structured documents
US6725217B2 (en) Method and system for knowledge repository exploration and visualization
KR102466489B1 (ko) 관심 지점에 관련된 정보를 사용자에게 제공하기 위한 방법 및 시스템
US20180004838A1 (en) System and method for language sensitive contextual searching
US20100293162A1 (en) Automated Keyword Generation Method for Searching a Database
JPH03172966A (ja) 類似文書検索装置
CN115186050B (zh) 基于自然语言处理的选题推荐方法、系统及相关设备
JP4160548B2 (ja) 文書要約作成システム、方法、及びプログラム
JP2669601B2 (ja) 情報検索方法及びシステム
JPWO2003034279A1 (ja) 情報検索方法、情報検索プログラム、情報検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH1049543A (ja) 文書検索装置
US20050065947A1 (en) Thesaurus maintaining system and method
JP3612769B2 (ja) 情報検索装置および情報検索方法
JP2010092357A (ja) 施設関連情報検索方法および施設関連情報検索システム
WO1998049632A1 (en) System and method for entity-based data retrieval
JPH05225238A (ja) データベース検索システム
JPH11110409A (ja) 情報分類方法及び装置
JPH02287876A (ja) テキスト型データベース装置
JPH0454564A (ja) 重み学習型テキストベース検索装置
JP2004102818A (ja) 検索支援方法および検索支援装置
JPH09319767A (ja) 類義語辞書登録方法
KR20010107810A (ko) 웹 검색시스템 및 그 방법
JP4146067B2 (ja) 文書検索システムおよび文書検索方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071226

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081226

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091226

Year of fee payment: 12

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091226

Year of fee payment: 12