JPH08241328A - 関連項目の蓄積・提示装置、関連項目の蓄積・提示方法及びデータベース検索システム - Google Patents

関連項目の蓄積・提示装置、関連項目の蓄積・提示方法及びデータベース検索システム

Info

Publication number
JPH08241328A
JPH08241328A JP7045917A JP4591795A JPH08241328A JP H08241328 A JPH08241328 A JP H08241328A JP 7045917 A JP7045917 A JP 7045917A JP 4591795 A JP4591795 A JP 4591795A JP H08241328 A JPH08241328 A JP H08241328A
Authority
JP
Japan
Prior art keywords
text
database
word
related item
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7045917A
Other languages
English (en)
Inventor
Hiroki Akama
浩樹 赤間
Fumikazu Konishi
史和 小西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP7045917A priority Critical patent/JPH08241328A/ja
Publication of JPH08241328A publication Critical patent/JPH08241328A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 データベースシステムを検索する際の検索キ
ーを自動的に抽出して提示し、検索者の支援を行うこと
が可能な関連項目の蓄積・提示装置及び関連項目の蓄積
・提示方法を提供することを目的とする。 【構成】 本発明は、データベースシステムに入力され
たテキスト中に存在する関連項目抽出文字列が、テキス
トデータベース20中に存在する位置を特定する位置特
定手段121と、関連項目抽出文字列の前後のワードを
抽出するワード抽出手段122と、抽出された前後のワ
ードを組として関連項目データベース300に登録する
関連項目登録手段124とを有する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、関連項目の蓄積・提示
装置、関連項目の蓄積・提示方法及びデータベース検索
システムに係り、特に、情報を蓄積、検索、再利用する
ことを目的としたデータベースシステムにおける情報の
格納、検索及び検索支援を行うための関連項目の蓄積・
提示装置、関連項目の蓄積・提示方法及びデータベース
検索システムに関する。
【0002】詳しくは、データベースの検索者が一次的
な検索結果から必要な情報を取得するための過程を支援
するための関連項目の蓄積・提示装置、関連項目の蓄積
・提示方法及びデータベース検索システムに関する。近
年、情報機器の発達や情報の電子化に伴って、情報量の
爆発的増加がますます加速している。また、通信インフ
ラの整備や情報のマルチメディア化に伴って電子化情報
に接するエンドユーザも増加し続けており、高度な知識
や熟練を必要としなくとも容易に検索したい内容が取得
できるような関連項目の蓄積・提示装置、関連項目の蓄
積・提示方法やデータベース検索システムが望まれてい
る。
【0003】
【従来の技術】データベースシステムは、データを格納
し、データの検索や再利用を可能にするシステムであ
る。データベースシステム内のデータの集まりをデータ
ベースと呼びデータベースはDBと略することもある。
データベースの形態にはリレーショナルデータベース、
オブジェクト指向データベース、ファイルシステム等が
存在する。
【0004】まず、従来のデータベースシステムにおけ
るテキストの格納方法を説明する。従来のデータベース
システムは、その検索方法の違いにより文献(『ひらめ
いた言葉で自分の机から−大量テキスト高速検索ツール
が続々登場−』、日経コンピュータ、1993、4.
5)に示すように、その形態は大きく分けて3つのもの
に分類される。
【0005】図15は、従来の第1のシステムの構成を
示し、図16は、従来の第1のデータベースへの格納処
理のフローチャートである。これらの図に示される内容
は、入力テキスト10にキーワードを付与し、その付与
されたキーワードに基づいて検索を行う方法を採用して
いるデータベースシステムのテキスト格納方法である。
この形態のデータベースシステムをキーワード付与型デ
ータベースシステムと呼ぶことにする。このキーワード
付与型データベースシステムのテキスト10のデータベ
ース20への格納は、まず、データベース20にテキス
ト10を入力し(ステップ110)、検索に必要なキー
ワードをテキスト10に付与し(ステップ111)、テ
キスト10をデータベース20に格納する(ステップ1
12)。但し、キーワードの付与は人間の手で行って
も、システムが自動的に付与してもよい。但し、ステッ
プ110におけるキーワードは『コンピュタ』、『prog
ram 』、『操作』等のワードであり、一つのテキストに
複数個付与するのが一般的である。
【0006】図17は、従来の第2のシステムの構成を
示し、図18は、従来の第2のデータベースへの格納処
理のフローチャートである。これらの図に示される内容
は、入力されたテキスト10から特徴量を抽出し、その
特徴量を用いて検索を行う方法を採用しているデータベ
ースシステムのテキスト格納方法を示す。この形態のデ
ータベースを特徴量抽出型データベースシステムと呼ぶ
ことにする。特徴量抽出型データベースシステムは、デ
ータベース20にテキスト10を入力し(ステップ12
0)、テキスト10からパターンを抽出し、検索用のパ
ターン抽出ファイル30を生成し(ステップ121)、
テキスト10をデータベース20に格納する。
【0007】図19は、従来の第3のシステムの構成を
示し、図20は、従来の第3のデータベースへの格納処
理のフローチャートである。これらの図に示される内容
は、入力されたテキストの全文検索を行う方法を採用し
ているデータベースシステムのテキスト格納方法であ
る。この形態のデータベースシステムを全文サーチ型デ
ータベースシステムと呼ぶことにする。
【0008】全文サーチ型データベースシステムにおけ
る従来の全サーチデータベースシステムの格納は、デー
タベース20にテキスト10を入力し(ステップ13
0)、テキスト10をデータベース20に格納する(ス
テップ131)。次に、従来のデータベースシステムに
おけるテキスト検索方法を説明する。
【0009】図21は、従来の第1のデータベースの検
索システムの構成を示し、図22は、従来の第1のデー
タベースの検索処理のフローチャートである。これらの
図に示される内容は、キーワード付与型のデータベース
システムのテキスト検索方法である。キーワード付与型
データベースシステムのテキスト検索は、データベース
20に検索キーを入力し(ステップ210)、キーワー
ドが付与されているテキストをデータベース20から検
索し(ステップ211)、検索されたテキストをディス
プレイ装置40等に提示する(ステップ212)。
【0010】図23は、従来の第2のデータベースの検
索システムの構成を示し、図24は、従来の第2のデー
タベースの検索処理のフローチャートである。これらの
図に示される内容は、特徴量抽出型データベースのテキ
スト検索方法である。従来の特徴量抽出型データベース
30内のテキストの検索はデータベースに検索キーを入
力し(ステップ220)、検索用のパターン抽出ファイ
ル30から入力された検索キーの特徴量と一致、もしく
は、近いものを検索し(ステップ221)、テキストを
提示する(ステップ222)。
【0011】図25は、従来の第3のデータベースの検
索システムの構成を示し、図26は、従来の第3のデー
タベースの検索処理のフローチャートである。これらの
図に示される内容は、全文サーチ型データベースシステ
ムのテキスト検索方法である。従来の全文サーチ型デー
タベースのテキスト検索は、データベース20に検索キ
ーを入力し(ステップ230)、検索キーでデータベー
ス20中の全文検索し(ステップ231)、テキストを
ディスプレイ装置等40に提示する(ステップ23
2)。
【0012】但し、上記のステップ210、220、2
30における検索キーは、『コンピュータ』、「comput
er』等のワードであるのが一般的である。また、検索キ
ーは、複数個同時に入力する場合や、ワードではなく文
を検索キーとする場合もある。また、上記のステップ2
12、222、232のテキストを提示する場合は、検
索結果としてテキストを全て提示する場合、検索結果と
してのテキストのタイトルや先頭から100文字等のよ
うに一部だけ提示する場合、検索結果としてテキストの
総数だけを提示する場合等がある。
【0013】
【発明が解決しようとする課題】しかしながら、上記従
来の技術には、以下のような問題点がある。まず、検索
者が検索を行う際に、的確な検索キーを常に指定できる
とは限らない。
【0014】また、検索された情報が検索者の望むもの
よりも多過ぎる場合、検索結果の更なる絞り込みが必要
となるが、絞り込むための指針がないため、検索者が新
たな検索キーを指定する際に混乱するという問題があ
る。また、検索された情報が検索者が望むものより少な
過ぎる場合、新たに別の検索キーで検索を行う必要があ
っても、別の検索キーを選択するための指針がないた
め、検索者が別の検索キーを指定するのが困難である。
【0015】また、従来の方法で、検索キーを検索者に
提示するには、シソーラス等の辞書を用意しなくてはな
らないが、シソーラス等の辞書は、データベースシステ
ムに投入されるテキストの内容とずれがあり、データベ
ースの内容に含まれない検索キーを提示する恐れがあ
る。
【0016】また、従来の方法で、検索キーをシソーラ
ス等の辞書を用いて提示すると、データベースシステム
に投入されるテキストに含まれる新語に対応するために
は、シソーラス保守のための多大な労力が必要となる。
本発明は、上記の点に鑑みなされたもので、上記従来の
問題点を解決し、データベースシステムを検索する際の
検索キーを自動的に抽出して提示し、検索者の支援を行
うことが可能な関連項目の蓄積・提示装置及び関連項目
の蓄積・提示方法を提供すること目的とする。
【0017】また、本発明の更なる目的は、検索キーワ
ードを入力すると必ずデータベース内に利用者が必要と
するワードが存在する関連項目の蓄積・提示装置及び関
連項目の蓄積・提示方法を提供することである。また、
本発明の更なる目的は、シソーラス等の辞書が不要な関
連項目の蓄積・提示装置及び関連項目の蓄積・提示方法
を提供することである。
【0018】また、本発明の更なる目的は、検索キーを
何度も変更せずに簡単に検索キーによりテキストデータ
をヒットさせることが可能なデータベース検索システム
を提供することである。
【0019】
【課題を解決するための手段】図1は、本発明の原理構
成図である。本発明は、データベースベースシステムへ
関連項目を蓄積し、蓄積されている内容を提示する関連
項目の蓄積・提示装置であって、データベースシステム
に入力されたテキスト中に存在する関連項目抽出文字列
が、テキストデータベース20中に存在する位置を特定
する位置特定手段121と、関連項目抽出文字列の前後
のワードを抽出するワード抽出手段122と、ワード抽
出手段122により抽出された前後のワードを組として
関連項目データベース300に登録する関連項目登録手
段124とを有する。
【0020】また、上記の関連項目登録手段124は、
抽出されたワードの組が存在するテキストの識別情報
を、該ワードの組に付与して関連項目データベース30
0に登録する。また、データベースシステムに入力され
た検索キーと一致するワードを関連項目データベースよ
り検索する関連項目データベース検索手段211と、関
連項目データベース検索手段211により検索されたワ
ードと組として登録されているワード群を抽出するワー
ド群抽出手段212と、ワード群抽出手段212により
抽出されたワード群を提示するワード群提示手段213
とを更に有する。
【0021】また、上記のワード群提示手段213は、
ワード群抽出手段212により抽出されたワード群に付
与されているテキスト識別情報を用いて、テキストデー
タベース20内にワード群を有するテキスト数をカウン
トする第1のカウント手段と、ワード群抽出手段212
により抽出されたワード群に付与されているテキスト識
別情報を用いて、現在選択されているテキスト集合内に
存在する数をカウントする第2のカウント手段と、第2
のカウント手段により取得したカウントを多い順にソー
トして、ワード群、第2のカウント手段によるカウント
値、第1のカウント手段によりカウント値を同時に提示
する。
【0022】図2は、本発明の原理を説明するためのフ
ローチャートである。本発明は、データベースベースシ
ステムへ関連項目を蓄積し、蓄積されている内容を提示
する関連項目の蓄積・提示方法において、データベース
システムに入力されたテキスト中に存在する関連項目抽
出文字列が、テキストデータベース中に存在する位置を
特定し(ステップ1)、関連項目抽出文字列の前後のワ
ードを抽出し(ステップ2)、抽出された前後のワード
を組として関連項目データベースに登録する(ステップ
3)。
【0023】また、抽出された前後のワードを登録する
際に(ステップ3)、抽出されたワードの組が存在する
テキストの識別情報を、該ワードの組に付与して関連項
目データベースに登録する。また、検索キー候補を提示
する際に、データベースシステムに入力された検索キー
と一致するワードを関連項目データベースより検索し
(ステップ4)、検索されたワードと組として登録され
ているワード群を抽出し(ステップ5)、抽出されたワ
ード群を提示する(ステップ6)。
【0024】また、ワード群を提示する際に(ステップ
6)、抽出されたワードと組として登録されているテキ
スト識別情報でテキストデータベース内に存在するテキ
スト数をカウントし、抽出されたワードと組として登録
されているテキスト識別情報で現在選択されているテキ
ストの集合内に存在する個数をカウントし、カウントさ
れた値を多い順にソートしてワード群及びカウント値を
同時に提示する。
【0025】また、本発明のデータベース検索システム
は、蓄積されているテキストデータを検索するデータベ
ース検索システムにおいて、検索キーにより検索される
テキストを蓄積するテキストデータベースと、ワード同
士が関連性を有する関係となるためのワードと、関連性
を有するワードの組を、テキストデータベースに登録さ
れているワードを用いて関連項目データベースに登録す
る関連項目データ登録手段と、検索キーに一致するワー
ドを関連項目データベースより検索し、提示する提示手
段と、提示手段により提示されたワードを検索キーとし
て、テキストデータベースを検索する検索手段とを有す
る。
【0026】
【作用】本発明は、データベースに投入されるテキスト
からワードを抽出して、関連項目データベースへ登録す
ることにより、入力されたテキストに基づいて互いに関
連があるワードの組を自動的に抽出でき、データ検索時
に入力されたキーワードに対応するワードが必ず、デー
タベース内に存在する。
【0027】また、データベースに入力されたテキスト
に基づいてワードの抽出を行うため、関連語の辞書(シ
ソーラス辞書)等が不要となる。また、本発明は、互い
に関連があるワードの抽出に辞書等の定型のものを利用
せず、テキストデータベースに存在するワードを使用す
るため、新語にも自動的に対応できる。
【0028】また、本発明は、検索者が指定した検索キ
ーに対して互いに関連のあるワードの自動提示が可能と
なり、検索者の検索支援が可能となる。また、提示する
際に、データベース検索者に提示されるワード群がテキ
スト内に存在する数において、ソートされ、優先順位が
付けられるので、データベースの傾向や現在選択されて
いる集合の傾向の把握が可能となる。また、提示された
ワードの優先順位の高い順に検索キーを選択すると効率
の高い絞り込みが可能となる。
【0029】
【実施例】以下、図面と共に本発明の実施例を説明す
る。実施例の説明を始める前に以下の説明において使用
される各用語を定義する。 ・『ワード』とは、形態素解析等を用いて文等の集まり
であるテテキストを分解する際に生成される最小単位の
ことを指し、動詞、名詞等の単語を指す。 ・『検索キー』とは、データベースシステムを検索する
際に、検索者が指定する鍵のことを指し、その形態はワ
ードもしくは、ワード群である。 ・『関連項目抽出文字列』とは、互いに関連があるワー
ドを抽出するための文字の集まりを指す。文字列は必ず
しもワードである必要はなく、文字、記号、数字やその
組合せでもよい。
【0030】[登録処理]最初にデータベース(以下、
DBと記す)への登録処理を行う登録部について説明す
る。図3は、本発明の一実施例のDB登録部の構成を示
す。同図に示す登録部は、入力されるテキスト10、テ
キストDB20、テキストデータ登録部110、関連項
目登録部120及び関連項目DB300より構成され
る。関連項目登録部120は、関連項目文字列位置特定
部121、ワード抽出部122、ID付与部123、関
連項目DB登録部124より構成される。
【0031】テキストデータ登録部110は、テキスト
データ10が入力されると、テキストDB20にテキス
トデータを登録する。関連項目登録部120は、検索キ
ーが入力された場合に、最初に参照する関連項目DB3
00に関連項目データを登録する。
【0032】関連項目登録部120の関連項目文字列位
置特定部121は、テキストDB20に入力されたテキ
スト中に存在する関連項目抽出文字列の位置を特定す
る。関連項目登録部120のワード抽出部122は、上
記の関連項目文字列位置特定部121により特定された
文字列の前後のワードを抽出する。
【0033】関連項目登録部120のID付与部123
は、抽出されたワードの組が存在するテキストIDをそ
のワードの組に付与する。図4にワードの組にテキスト
IDを付与した場合のワード群の構成である。関連項目
登録部120の関連項目DB登録部124は、ID付与
部123で構成されたワード群を関連項目DB300に
登録する。
【0034】図5は、本発明の一実施例の関連項目デー
タベースへの登録処理のフローチャートである。 ステップ301) テキストデータ登録部110に、テ
キストデータが入力される。
【0035】ステップ302) テキストデータ登録部
110は、入力されたテキストデータをテキストDB2
0に登録する。 ステップ303) 関連項目文字列位置特定部121
は、予め用意されている関連項目抽出文字列と同じ文字
列がテキストDB20内に存在するかを判断し、存在し
ている場合には、当該文字列のテキストDB20内の位
置情報を抽出する。
【0036】ステップ304) 次に、ワード抽出部1
22は、ステップ303で抽出された位置情報に基づい
て、当該文字列の前後のワードを取得し、これを組とし
て保持する。 ステップ305) ID付与部123は、ステップ30
4で取得したワードの組に対して当該ワードが登録され
ていたテキストデータのテキストIDを付与する。
【0037】ステップ306) 関連項目DB登録部1
24は、ワードの組にテキストIDを付与したワード群
を関連項目DB300に登録する。次に、関連項目DB
登録時の具体例を説明する。図6は、本発明の一実施例
の関連項目DB登録の具体例を説明するための図であ
る。
【0038】同図(a)は、テキストDB20に予め登
録されている関連項目抽出文字列、 『の』 である。同図(b)は、テキストDB20に入力される
テキストデータの例であり、 『象の鼻は長い』 『象の耳は大きい』 である。
【0039】同図(c)は抽出された関連項目抽出文字
列であり、 『象の鼻は長い』 『象の耳は大きい』 である。
【0040】同図(d)(e)は、抽出されたワードの
組であり、 “象”−“鼻” “象”−“耳” である。同図(f)は、テキストIDが付与された関連
項目DB300に登録される内容の例である。
【0041】まず、テキストDB20から関連項目文字
列を抽出する際にテキストをワードに分解する方法とし
て、形態素解析等の方法があるが、他のどのような方法
で行ってもよく、ここでは説明を省略する。 (1) 予め用意した関連項目抽出文字列としての
『の』(a)を用いる。
【0042】(2) テキストDB20にテキストデー
タとして(b)が入力される。本実施例では、テキスト
(b)は2つの文を含む。 (3) 関連項目文字列位置特定部121は、上記の
(2)において入力されたテキストデータ(b)中に関
連項目抽出文字列の『の』(a)と等しいものの位置を
特定する。その特定された結果は、(c)の網掛け部分
である。
【0043】(4) ワード抽出部122は、上記の
(3)において、抽出された関連項目抽出文字列の前後
のワードの組を抽出する。その抽出された結果が
(d),(e)である。 (5) 上記の(4)において抽出された結果(d)と
(e)を関連項目DB300に登録する。
【0044】(6) 関連項目DB登録部124は、上
記(5)の登録と同時に、ワードの組が存在していたテ
キスト(a)のテキストIDも組として関連項目DB3
00に登録する。本実施例では、入力されたテキスト
(b)のテキストIDは、“10000”であるとす
る。その登録した結果が(f)である。但し、組となっ
ているワードのうち、そのどちらか側が検索対象であっ
てもその組として登録されているワードは検索できるよ
うに登録されているものとする。(f)の場合には、
『象』が検索対象であった場合、『鼻』と『耳』が関連
項目として抽出され、『鼻』が検索対象であった場合、
『象』が関連項目として抽出することが可能となるよう
に登録する。
【0045】[提示処理]次に、利用者から検索キーが
入力され、関連項目DB300を参照して検索キーの候
補を提示する場合について説明する。図7は、本発明の
一実施例の関連項目提示部の構成を示す。同図に示す関
連項目提示部は、テキストDB検索部221、関連項目
DB検索部211、ワード群抽出部212、ワード群提
示部213、関連項目DB300、テキストDB20、
表示部500より構成される。
【0046】ワード群提示部213は、第1のカウンタ
2131、第2のカウンタ2132を有する。テキスト
DB検索部221は、利用者から検索キーが入力される
と、当該検索キーでテキストDB20を検索する。ここ
で、所望の検索結果が得られなかった場合に、検索キー
を関連項目DB検索部211に転送してもよいし、ま
た、入力された検索キーでテキストDB20を検索する
ことなく、直接関連項目DB検索部211に転送しても
よい。
【0047】関連項目DB検索部211は、入力された
検索キーと一致するワードを関連項目DB300より検
索する。ワード群抽出部212は、関連項目DB検索部
211で検索されたワードと組として登録されているワ
ード群を抽出して、ワード群提示部213に転送する。
【0048】ワード群提示部213は、ワード群抽出部
212から転送されたワード群を表示部500に表示す
る。また、ワード群提示部213は、表示部500に表
示して、利用者に検索項目を提示する際に、第1のカウ
ンタ2131が、抽出されたワードが含まれているテキ
ストが、テキストデータベース内に存在する数をカウン
トする。これは、ワードと組として登録されているワー
ド群のテキストIDが関連項目DB300内に幾つある
かをカウントするものである。また、第2のカウンタ2
132が、当該ワードが含まれているテキストが現在選
択されているテキストの集合内に存在する数をカウント
する。これは、ワードと組にして、関連項目DBに登録
されているテキストIDで現在選択されているテキスト
の集合内に存在するものをカウントする。
【0049】さらに、ワード群提示部213は、第1の
カウンタ2131、第2のカウンタ2132でカウント
された値を多い順にソートして、ワード群、第1のカウ
ンタ値、第2のカウンタ値の順に同時に表示部500に
表示する。図8は、本発明の一実施例の関連項目提示処
理のフローチャートである。
【0050】ステップ401) まず、検索キーワード
が入力される。 ステップ402) 関連項目DB検索部211は、入力
された検索キーワードと同じワードを関連項目DB30
0上より検索し、取得したワードをワード群抽出部21
2に転送する。
【0051】ステップ403) ワード群抽出部212
は、関連DB検索部211で検索されたワードと組とし
て登録されているワード群を抽出し、ワード群提示部2
13に転送する。 ステップ404) ワード群提示部213は、取得した
ワード群をそのまま表示部500に提示する方法もある
が、本実施例では、以下のようにカウントをとり、合わ
せて表示する。まず、第1のカウンタ2131は、抽出
されたワードが含まれているテキストが全関連項目DB
300内に何件存在しているかをカウントする。このた
めには、第1のカウンタ2131は、ワードと組として
登録されているテキストIDの存在数をカウントする
(カウント値1)。
【0052】ステップ405) 次にワード群213の
第2のカウンタ2132は、当該ワードが含まれている
テキストが、現在選択されているテキストの集合内に存
在する数を算出するために、ワードと組として登録され
ているテキストIDで現在選択されているテキストの集
合内に存在する数をカウントする(カウント値2)。
【0053】ステップ406) 上記のステップ404
及びステップ405のカウント値を降順にソートする。 ステップ407) ソートされた順に、ワード群、カウ
ント値1、カウント値2を同時に表示する。
【0054】ステップ408) 利用者は、表示装置5
00に提示された内容を参照して、検索キーを決定す
る。 ステップ409) 利用者は、決定された検索キーで、
テキストDB20を検索する。
【0055】次に、関連項目提示処理を具体例を用いて
説明する。図9及び図10は、本発明の一実施例の具体
例を示す図である。 ・図9(g)は、利用者より入力された検索キーであ
る。 ・図9(h)は、関連項目DB300の内容を示す。 ・図9(i)は、ワード群抽出部212により抽出され
たワードの組である。 ・図10(j)は、関連項目DB300中のワードの組
が存在する数を算出した結果を示す。 ・図10(k)は、現在選択されている集合内にワード
の組が存在する数を算出した結果を示す。 ・図10(m)は、ワード群、現在選択されている集合
内にワードの組が存在する数、全関連項目DB300内
にワードの組が存在する数を、現在選択されている集合
内にワードの組が存在する数の多い順にソートした提示
例を示す。
【0056】テキストDB20からテキストを検索する
過程における関連項目の提示方法は、以下のように実行
される。 (1) 検索者から検索キー『象』(図9(g))が入
力される。 (2) 関連項目DB検索部211は、検索キー『象』
と一致するワードを関連項目DB300の中から検索す
る。ここで、関連項目DB300に登録されている内容
が図9(h)であるとき、検索した結果を図9(i)の
太枠で囲まれた部分であるとする。本実施例の場合、検
索結果は7つ存在する。
【0057】(3) ワード群中秋部212は、上記の
(2)により検索されたワードの組として登録されてい
るワード群を抽出する。その抽出結果は、図9(i)の
網掛け部分である。 (4) 上記の(3)において、抽出された抽出結果を
提示する。
【0058】(5) 上記の(3)において、抽出され
たワード群のそれぞれについて、そのワードが含まれて
いるテキストが全テキストDB20に存在する数を算出
するために、ワードと組として関連項目DB300に登
録されているテキストIDのうち、テキストDB20に
格納されているテキストの中に存在するものの個数をカ
ウントする。図9(i)の7つの検索結果のうち、
『象』と『鼻』の組が3つ、『象』とその他のワードの
組が1つずつある。その算出結果を図10(j)の網掛
けの部分に示す。
【0059】(6) 上記の(3)において、抽出され
たワード群のそれぞれについて、そのワードが含まれて
いるテキストの数が、現在選択されているテキストの集
合内に存在する数を算出するためにワードと組にして登
録されているテキストIDで、現在選択されているテキ
ストの集合内に存在するのをカウントする。但し、現在
選択されているテキストの集合のテキストIDは、テキ
ストDB20の検索過程より、テキストID『1000
0』及び『10020』であるという情報を得たとす
る。よって、図9(i)の7つの検索結果のうち、テキ
ストIDが『10000』もしくは、『10020』の
ワードの組は『象と鼻』の組2つ、『象と耳』の組1
つ、『象と牙』の組1つである。その算出結果を図10
(k)の網掛け部分に示す。
【0060】(7) 上記(3)において、抽出された
ワード群を上記の(6)におけるカウント数の多い順に
ソートして、ワード群、(6)で取得したカウント数、
(5)で取得したカウント数を同時に提示する。その提
示例を図10(m)に示す。但し、上記の(5)、
(6)、(7)は、全てを提示しても、これらを組み合
わせて提示してもよい。
【0061】上記のように、関連項目DB300を有す
るデータベースシステムから提示されるワードを参照し
て検索キーでテキストDB20を検索すれば、必ず、当
該検索キーに対応するテキストデータを取得することが
できる。上記の例から分かるように、検索者がある検索
キーを入力したとき、その検索キーのワード群が提示さ
れるので、検索キーを入力する段階において、検索者が
悩む必要がなくなる。また、データベースシステムの検
索者の支援が可能となる。また、上記の例からわかるよ
うに、関連ワード群は全て入力テキストにより自動的に
抽出されるので、本発明では、シソーラス等の辞書のメ
ンテナンスが不要となり、システム利用者に負担を掛け
ない。
【0062】次に、システム側で予め用意して、関連項
目DB300登録しておく関連項目抽出文字列について
説明する。本発明では、予め登録しておく関連項目抽出
文字列を、『の』、『や』、『と』、
『・』、『」「』、『かつ』、『または』、『あるい
は』、『(』、『and』、『or』、『of』を指定
する。これらの各文字列は、互いに上位、下位、並列、
複合語構成、言い換え等の関係を有するワードの組を抽
出することが可能となる文字列である。
【0063】図11〜図14は、本発明の一実施例の関
連項目抽出文字列を説明するための図である。図11〜
図14の左側に記載されているテキスト5000〜50
11は、関連項目抽出文字列を元にワードの組を抽出す
るためのテキストの例である。
【0064】図11〜図14の中央に記載されている単
語5012〜5023は、関連項目抽出文字列の例であ
る。図11〜図14の右側に記載されている表形式50
24〜5035は、テキスト5000〜5011の例に
関連項目抽出文字列5012〜5023を用いて抽出し
たワードの組の例である。
【0065】テキストからワードの組を抽出する過程を
説明する。 (1) テキスト(5000)に関連項目抽出文字列
『の』(5012)の前後のワードを検索した結果は5
024である。 (2) テキスト(5001)に関連項目抽出文字列
『や』(5013)の前後のワードを検索した結果は5
025である。
【0066】(3) テキスト(5002)に関連項目
抽出文字列『と』(5014)の前後のワードを検索し
た結果は5026である。 (4) テキスト(5003)に関連項目抽出文字列
『・』(5015)の前後のワードを検索した結果は5
027である。 (5) テキスト(5004)に関連項目抽出文字
列『」「』(5016)の前後のワードを検索した結果
は5028である。
【0067】(6) テキスト(5005)に関連項目
抽出文字列『かつ』(5017)の前後のワードを検索
した結果は5029である。 (7) テキスト(5006)に関連項目抽出文字列
『または』(5018)の前後のワードを検索した結果
は5030である。
【0068】(8) テキスト(5007)に関連項目
抽出文字列『あるいは』(5019)の前後のワードを
検索した結果は5031である。 (9) テキスト(5008)に関連項目抽出文字列
『(』(5020)の前後のワードを検索した結果は5
032である。
【0069】(10) テキスト(5009)に関連項
目抽出文字列『and』(5021)の前後のワードを
検索した結果は5033である。 (11) テキスト(5010)に関連項目抽出文字列
『or』(5023)の前後のワードを検索した結果は
5034である。
【0070】(12) テキスト(5011)に関連項
目抽出文字列『of』(5024)の前後のワードを検
索した結果は5035である。上記の例からわかるよう
に、関連項目抽出文字列に様々なものを指定すること
で、2つのワードが 互いに上位、下位の関係にある: 互いに並列の関係にある: 互いに複合語を構成している: 互いに言い換えの関係にある: 場合のワードの組を抽出することが可能になる。また、
ワード間の関係が上記の〜のような関係にあるた
め、検索キーとしてのバリエーションが増加することに
なり、様々な観点から関連ワードの提示が可能となる。
【0071】なお、本発明は、上記の実施例に限定され
ることなく、特許請求の範囲内で種々変更・応用が可能
である。
【0072】
【発明の効果】上述のように、本発明によれば、検索者
が検索キーとしてワードもしくは、ワード群を指定した
場合、それらのワードに関連があるワードをデータベー
スシステムが自動的に提示してくれるので、以下のよう
な場合に検索者の検索支援に寄与する。
【0073】(1) 検索結果が多過ぎた場合に、更に
検索キーを絞り込むためのワードを検索者が悩む必要が
無くなる。 (2) 検索結果の集合内に含まれるワードが提示され
るため、検索結果の集合の傾向もしくは、データベース
の傾向が判り、検索者が思いつかなかったテキストを検
索することが可能となる。
【0074】システムが提示するワードは、データベー
スに投入されるテキストから抽出を行っているので、必
ずデータベース内に存在するという保証があり、提示さ
れたワードを指定すると必ずテキストがヒットするとい
う保証が得られる。関連ワードの抽出を行うための元の
データにシソーラス等の辞書を利用していないためにシ
ソーラスのメンテナンスという保守作業が不要となり、
データベースへのテキストの更新に従って、関連ワード
自体も自動的に修正される。
【図面の簡単な説明】
【図1】本発明の原理構成図である。
【図2】本発明の原理説明図である。
【図3】本発明の一実施例のDB登録部の構成図であ
る。
【図4】本発明の一実施例の関連項目データベースに登
録されるワード群の構成図である。
【図5】本発明の一実施例の関連項目データベースへの
登録処理のフローチャートである。
【図6】本発明の一実施例の関連項目DB登録の具体例
を説明するための図である。
【図7】本発明の一実施例の関連項目提示部の構成図で
ある。
【図8】本発明の一実施例の関連項目提示処理のフロー
チャートである。
【図9】本発明の一実施例の具体例を示す図(その1)
である。
【図10】本発明の一実施例の具体例を示す図(その
2)である。
【図11】本発明の一実施例の関連項目抽出文字列を説
明するための図(その1)である。
【図12】本発明の一実施例の関連項目抽出文字列を説
明するための図(その2)である。
【図13】本発明の一実施例の関連項目抽出文字列を説
明するための図(その3)である。
【図14】本発明の一実施例の関連項目抽出文字列を説
明するための図(その4)である。
【図15】従来の第1のシステム構成図である。
【図16】従来の第1のデータベースの格納処理のフロ
ーチャートである。
【図17】従来の第2のシステム構成図である。
【図18】従来の第2のデータベースへの格納処理のフ
ローチャートである。
【図19】従来の第3のシステム構成図である。
【図20】従来の第3のデータベースの格納処理のフロ
ーチャートである。
【図21】従来の第1のデータベースの検索システムの
構成図である。
【図22】従来の第1のデータベースの検索処理のフロ
ーチャートである。
【図23】従来の第2のデータベースの検索システムの
構成図である。
【図24】従来の第2のデータベースの検索処理のフロ
ーチャートである。
【図25】従来の第3のデータベースの検索システムの
構成図である。
【図26】従来の第3のデータベースの検索処理のフロ
ーチャートである。
【符号の説明】
10 テキスト 20 テキストDB 100 データベース生成手段 110 テキスト登録手段、テキスト登録部 120 参照DB登録手段、関連項目登録部 121 位置特定手段、関連項目文字列位置特定部 122 ワード抽出手段、ワード抽出部 123 ID付与部 124 関連項目登録手段、関連項目データベース登録
部 200 検索手段 210 参照DB検索手段 211 関連項目DB検索手段、関連項目DB検索部 212 ワード群抽出手段、ワード群抽出部 213 ワード群提示手段 220 テキストDB検索手段 221 テキストDB検索手段、テキストDB検索部 222 ワード選択手段 300 関連項目DB 500 表示部 2131 第1のカウンタ 2132 第2のカウンタ

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 データベースベースシステムへ関連項目
    を蓄積し、蓄積されている内容を提示する関連項目の蓄
    積・提示装置であって、 前記データベースシステムに入力されたテキスト中に存
    在する関連項目抽出文字列が、テキストデータベース中
    に存在する位置を特定する位置特定手段と、 前記関連項目抽出文字列の前後のワードを抽出するワー
    ド抽出手段と、 前記ワード抽出手段により抽出された前後のワードを組
    として関連項目データベースに登録する関連項目登録手
    段とを有することを特徴とする関連項目の蓄積・提示装
    置。
  2. 【請求項2】 前記関連項目登録手段は、 前記抽出されたワードの組が存在するテキストの識別情
    報を、該ワードの組に付与して前記関連項目データベー
    スに登録する請求項1記載の関連項目の蓄積・提示装
    置。
  3. 【請求項3】 前記データベースシステムに入力された
    検索キーと一致するワードを前記関連項目データベース
    より検索する関連項目データベース検索手段と、 前記関連項目データベース検索手段により検索されたワ
    ードと組として登録されているワード群を抽出するワー
    ド群抽出手段と、 前記ワード群抽出手段により抽出されたワード群を提示
    するワード群提示手段とを更に有する請求項1記載の関
    連項目の蓄積・提示装置。
  4. 【請求項4】 前記ワード群提示手段は、 前記ワード群抽出手段により抽出されたワード群に付与
    されているテキスト識別情報を用いて、前記テキストデ
    ータベース内に該ワード群を有するテキスト数をカウン
    トする第1のカウント手段と、 前記ワード群抽出手段により抽出されたワード群に付与
    されているテキスト識別情報を用いて、現在選択されて
    いるテキスト集合内に存在する数をカウントする第2の
    カウント手段と、 前記第2のカウント手段により取得したカウントを多い
    順にソートして、ワード群、前記第2のカウント手段に
    よるカウント値、前記第1のカウント手段によりカウン
    ト値を同時に提示する請求項3記載の関連項目の蓄積・
    提示装置。
  5. 【請求項5】 データベースシステムへ関連項目を蓄積
    し、蓄積されている内容を提示する関連項目の蓄積・提
    示方法において、 前記データベースシステムに入力されたテキスト中に存
    在する関連項目抽出文字列が、テキストデータベース中
    に存在する位置を特定し、 前記関連項目抽出文字列の前後のワードを抽出し、 抽出された前後のワードを組として関連項目データベー
    スに登録することを特徴とする関連項目の蓄積・提示方
    法。
  6. 【請求項6】 前記抽出された前後のワードを登録する
    際に、 前記抽出されたワードの組が存在するテキストの識別情
    報を、該ワードの組に付与して前記関連項目データベー
    スに登録する請求項5記載の関連項目の蓄積・提示方
    法。
  7. 【請求項7】 前記データベースシステムに入力された
    検索キーと一致するワードを前記関連項目データベース
    より検索し、 検索されたワードと組として登録されているワード群を
    抽出し、 抽出されたワード群を提示する請求項5記載の関連項目
    の蓄積・提示方法。
  8. 【請求項8】 前記ワード群を提示する際に、 前記抽出されたワードと組として登録されている前記テ
    キスト識別情報で前記テキストデータベース内に存在す
    るテキスト数をカウントし、 前記抽出されたワードと組として登録されている前記テ
    キスト識別情報で現在選択されているテキストの集合内
    に存在する個数をカウントし、 カウントされた値を多い順にソートしてワード群及びカ
    ウント値を同時に提示する請求項7記載の関連項目の蓄
    積・提示方法。
  9. 【請求項9】 蓄積されているテキストデータを検索す
    るデータベース検索システムにおいて、 検索キーにより検索されるテキストを蓄積するテキスト
    データベースと、 ワード同士が関連性を有する関係となるためのワード
    と、関連性を有するワードの組を前記テキストデータベ
    ースに登録されているワードを用いて関連項目データベ
    ースに登録する関連項目データ登録手段と、 検索キーに一致するワードを前記関連項目データベース
    より検索し、提示する提示手段と、 前記提示手段により提示されたワードを検索キーとし
    て、前記テキストデータベースを検索する検索手段とを
    有することを特徴とするデータベース検索システム。
JP7045917A 1995-03-06 1995-03-06 関連項目の蓄積・提示装置、関連項目の蓄積・提示方法及びデータベース検索システム Pending JPH08241328A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7045917A JPH08241328A (ja) 1995-03-06 1995-03-06 関連項目の蓄積・提示装置、関連項目の蓄積・提示方法及びデータベース検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7045917A JPH08241328A (ja) 1995-03-06 1995-03-06 関連項目の蓄積・提示装置、関連項目の蓄積・提示方法及びデータベース検索システム

Publications (1)

Publication Number Publication Date
JPH08241328A true JPH08241328A (ja) 1996-09-17

Family

ID=12732607

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7045917A Pending JPH08241328A (ja) 1995-03-06 1995-03-06 関連項目の蓄積・提示装置、関連項目の蓄積・提示方法及びデータベース検索システム

Country Status (1)

Country Link
JP (1) JPH08241328A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10134077A (ja) * 1996-11-05 1998-05-22 Tokkyo Joho Shuppan:Kk ワード処理システムおよび記憶媒体
JP2009116456A (ja) * 2007-11-02 2009-05-28 National Institute Of Information & Communication Technology データ処理装置及びデータ処理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10134077A (ja) * 1996-11-05 1998-05-22 Tokkyo Joho Shuppan:Kk ワード処理システムおよび記憶媒体
JP2009116456A (ja) * 2007-11-02 2009-05-28 National Institute Of Information & Communication Technology データ処理装置及びデータ処理方法

Similar Documents

Publication Publication Date Title
US6199061B1 (en) Method and apparatus for providing dynamic help topic titles to a user
EP0722145A1 (en) Information retrieval system and method of operation
US20020194156A1 (en) Information retrieval apparatus and information retrieval method
US20100293162A1 (en) Automated Keyword Generation Method for Searching a Database
JPH11203311A (ja) 関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体
JP3612769B2 (ja) 情報検索装置および情報検索方法
JPH10269233A (ja) 文書データベースの検索結果表示方法及び装置
JP2000132560A (ja) 中国語テレテキスト処理方法及び装置
JPH11272680A (ja) 文書データ提供装置およびそのプログラム記録媒体
JPH064584A (ja) 文章検索装置
JP2003308314A (ja) 文書作成支援装置
JPH08241328A (ja) 関連項目の蓄積・提示装置、関連項目の蓄積・提示方法及びデータベース検索システム
JPH06348757A (ja) 文書検索装置および方法
JPH06215035A (ja) テキスト検索装置
JP3328104B2 (ja) キーワード自動抽出装置および文書検索装置
JP3222193B2 (ja) 情報検索装置
JPS6325774A (ja) 情報登録検索装置
JPH08305726A (ja) 情報検索装置
JP2732661B2 (ja) テキスト型データベース装置
JPH03294964A (ja) 文書検索方法
JP2002183195A (ja) 概念検索方式
US20080228725A1 (en) Problem/function-oriented searching method for a patent database system
JP2003263458A (ja) テキスト分析方法及び装置
JPH0535798A (ja) データベース検索装置
JPH0793345A (ja) 文書検索装置