JPH08241328A

JPH08241328A - 関連項目の蓄積・提示装置、関連項目の蓄積・提示方法及びデータベース検索システム

Info

Publication number: JPH08241328A
Application number: JP7045917A
Authority: JP
Inventors: Hiroki Akama; 浩樹赤間; Fumikazu Konishi; 史和小西
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1995-03-06
Filing date: 1995-03-06
Publication date: 1996-09-17

Abstract

(57)【要約】【目的】データベースシステムを検索する際の検索キ
ーを自動的に抽出して提示し、検索者の支援を行うこと
が可能な関連項目の蓄積・提示装置及び関連項目の蓄積
・提示方法を提供することを目的とする。【構成】本発明は、データベースシステムに入力され
たテキスト中に存在する関連項目抽出文字列が、テキス
トデータベース２０中に存在する位置を特定する位置特
定手段１２１と、関連項目抽出文字列の前後のワードを
抽出するワード抽出手段１２２と、抽出された前後のワ
ードを組として関連項目データベース３００に登録する
関連項目登録手段１２４とを有する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、関連項目の蓄積・提示
装置、関連項目の蓄積・提示方法及びデータベース検索
システムに係り、特に、情報を蓄積、検索、再利用する
ことを目的としたデータベースシステムにおける情報の
格納、検索及び検索支援を行うための関連項目の蓄積・
提示装置、関連項目の蓄積・提示方法及びデータベース
検索システムに関する。

【０００２】詳しくは、データベースの検索者が一次的
な検索結果から必要な情報を取得するための過程を支援
するための関連項目の蓄積・提示装置、関連項目の蓄積
・提示方法及びデータベース検索システムに関する。近
年、情報機器の発達や情報の電子化に伴って、情報量の
爆発的増加がますます加速している。また、通信インフ
ラの整備や情報のマルチメディア化に伴って電子化情報
に接するエンドユーザも増加し続けており、高度な知識
や熟練を必要としなくとも容易に検索したい内容が取得
できるような関連項目の蓄積・提示装置、関連項目の蓄
積・提示方法やデータベース検索システムが望まれてい
る。

【０００３】

【従来の技術】データベースシステムは、データを格納
し、データの検索や再利用を可能にするシステムであ
る。データベースシステム内のデータの集まりをデータ
ベースと呼びデータベースはＤＢと略することもある。
データベースの形態にはリレーショナルデータベース、
オブジェクト指向データベース、ファイルシステム等が
存在する。

【０００４】まず、従来のデータベースシステムにおけ
るテキストの格納方法を説明する。従来のデータベース
システムは、その検索方法の違いにより文献（『ひらめ
いた言葉で自分の机から−大量テキスト高速検索ツール
が続々登場−』、日経コンピュータ、１９９３、４．
５）に示すように、その形態は大きく分けて３つのもの
に分類される。

【０００５】図１５は、従来の第１のシステムの構成を
示し、図１６は、従来の第１のデータベースへの格納処
理のフローチャートである。これらの図に示される内容
は、入力テキスト１０にキーワードを付与し、その付与
されたキーワードに基づいて検索を行う方法を採用して
いるデータベースシステムのテキスト格納方法である。
この形態のデータベースシステムをキーワード付与型デ
ータベースシステムと呼ぶことにする。このキーワード
付与型データベースシステムのテキスト１０のデータベ
ース２０への格納は、まず、データベース２０にテキス
ト１０を入力し（ステップ１１０）、検索に必要なキー
ワードをテキスト１０に付与し（ステップ１１１）、テ
キスト１０をデータベース２０に格納する（ステップ１
１２）。但し、キーワードの付与は人間の手で行って
も、システムが自動的に付与してもよい。但し、ステッ
プ１１０におけるキーワードは『コンピュタ』、『prog
ram 』、『操作』等のワードであり、一つのテキストに
複数個付与するのが一般的である。

【０００６】図１７は、従来の第２のシステムの構成を
示し、図１８は、従来の第２のデータベースへの格納処
理のフローチャートである。これらの図に示される内容
は、入力されたテキスト１０から特徴量を抽出し、その
特徴量を用いて検索を行う方法を採用しているデータベ
ースシステムのテキスト格納方法を示す。この形態のデ
ータベースを特徴量抽出型データベースシステムと呼ぶ
ことにする。特徴量抽出型データベースシステムは、デ
ータベース２０にテキスト１０を入力し（ステップ１２
０）、テキスト１０からパターンを抽出し、検索用のパ
ターン抽出ファイル３０を生成し（ステップ１２１）、
テキスト１０をデータベース２０に格納する。

【０００７】図１９は、従来の第３のシステムの構成を
示し、図２０は、従来の第３のデータベースへの格納処
理のフローチャートである。これらの図に示される内容
は、入力されたテキストの全文検索を行う方法を採用し
ているデータベースシステムのテキスト格納方法であ
る。この形態のデータベースシステムを全文サーチ型デ
ータベースシステムと呼ぶことにする。

【０００８】全文サーチ型データベースシステムにおけ
る従来の全サーチデータベースシステムの格納は、デー
タベース２０にテキスト１０を入力し（ステップ１３
０）、テキスト１０をデータベース２０に格納する（ス
テップ１３１）。次に、従来のデータベースシステムに
おけるテキスト検索方法を説明する。

【０００９】図２１は、従来の第１のデータベースの検
索システムの構成を示し、図２２は、従来の第１のデー
タベースの検索処理のフローチャートである。これらの
図に示される内容は、キーワード付与型のデータベース
システムのテキスト検索方法である。キーワード付与型
データベースシステムのテキスト検索は、データベース
２０に検索キーを入力し（ステップ２１０）、キーワー
ドが付与されているテキストをデータベース２０から検
索し（ステップ２１１）、検索されたテキストをディス
プレイ装置４０等に提示する（ステップ２１２）。

【００１０】図２３は、従来の第２のデータベースの検
索システムの構成を示し、図２４は、従来の第２のデー
タベースの検索処理のフローチャートである。これらの
図に示される内容は、特徴量抽出型データベースのテキ
スト検索方法である。従来の特徴量抽出型データベース
３０内のテキストの検索はデータベースに検索キーを入
力し（ステップ２２０）、検索用のパターン抽出ファイ
ル３０から入力された検索キーの特徴量と一致、もしく
は、近いものを検索し（ステップ２２１）、テキストを
提示する（ステップ２２２）。

【００１１】図２５は、従来の第３のデータベースの検
索システムの構成を示し、図２６は、従来の第３のデー
タベースの検索処理のフローチャートである。これらの
図に示される内容は、全文サーチ型データベースシステ
ムのテキスト検索方法である。従来の全文サーチ型デー
タベースのテキスト検索は、データベース２０に検索キ
ーを入力し（ステップ２３０）、検索キーでデータベー
ス２０中の全文検索し（ステップ２３１）、テキストを
ディスプレイ装置等４０に提示する（ステップ２３
２）。

【００１２】但し、上記のステップ２１０、２２０、２
３０における検索キーは、『コンピュータ』、「comput
er』等のワードであるのが一般的である。また、検索キ
ーは、複数個同時に入力する場合や、ワードではなく文
を検索キーとする場合もある。また、上記のステップ２
１２、２２２、２３２のテキストを提示する場合は、検
索結果としてテキストを全て提示する場合、検索結果と
してのテキストのタイトルや先頭から１００文字等のよ
うに一部だけ提示する場合、検索結果としてテキストの
総数だけを提示する場合等がある。

【００１３】

【発明が解決しようとする課題】しかしながら、上記従
来の技術には、以下のような問題点がある。まず、検索
者が検索を行う際に、的確な検索キーを常に指定できる
とは限らない。

【００１４】また、検索された情報が検索者の望むもの
よりも多過ぎる場合、検索結果の更なる絞り込みが必要
となるが、絞り込むための指針がないため、検索者が新
たな検索キーを指定する際に混乱するという問題があ
る。また、検索された情報が検索者が望むものより少な
過ぎる場合、新たに別の検索キーで検索を行う必要があ
っても、別の検索キーを選択するための指針がないた
め、検索者が別の検索キーを指定するのが困難である。

【００１５】また、従来の方法で、検索キーを検索者に
提示するには、シソーラス等の辞書を用意しなくてはな
らないが、シソーラス等の辞書は、データベースシステ
ムに投入されるテキストの内容とずれがあり、データベ
ースの内容に含まれない検索キーを提示する恐れがあ
る。

【００１６】また、従来の方法で、検索キーをシソーラ
ス等の辞書を用いて提示すると、データベースシステム
に投入されるテキストに含まれる新語に対応するために
は、シソーラス保守のための多大な労力が必要となる。
本発明は、上記の点に鑑みなされたもので、上記従来の
問題点を解決し、データベースシステムを検索する際の
検索キーを自動的に抽出して提示し、検索者の支援を行
うことが可能な関連項目の蓄積・提示装置及び関連項目
の蓄積・提示方法を提供すること目的とする。

【００１７】また、本発明の更なる目的は、検索キーワ
ードを入力すると必ずデータベース内に利用者が必要と
するワードが存在する関連項目の蓄積・提示装置及び関
連項目の蓄積・提示方法を提供することである。また、
本発明の更なる目的は、シソーラス等の辞書が不要な関
連項目の蓄積・提示装置及び関連項目の蓄積・提示方法
を提供することである。

【００１８】また、本発明の更なる目的は、検索キーを
何度も変更せずに簡単に検索キーによりテキストデータ
をヒットさせることが可能なデータベース検索システム
を提供することである。

【００１９】

【課題を解決するための手段】図１は、本発明の原理構
成図である。本発明は、データベースベースシステムへ
関連項目を蓄積し、蓄積されている内容を提示する関連
項目の蓄積・提示装置であって、データベースシステム
に入力されたテキスト中に存在する関連項目抽出文字列
が、テキストデータベース２０中に存在する位置を特定
する位置特定手段１２１と、関連項目抽出文字列の前後
のワードを抽出するワード抽出手段１２２と、ワード抽
出手段１２２により抽出された前後のワードを組として
関連項目データベース３００に登録する関連項目登録手
段１２４とを有する。

【００２０】また、上記の関連項目登録手段１２４は、
抽出されたワードの組が存在するテキストの識別情報
を、該ワードの組に付与して関連項目データベース３０
０に登録する。また、データベースシステムに入力され
た検索キーと一致するワードを関連項目データベースよ
り検索する関連項目データベース検索手段２１１と、関
連項目データベース検索手段２１１により検索されたワ
ードと組として登録されているワード群を抽出するワー
ド群抽出手段２１２と、ワード群抽出手段２１２により
抽出されたワード群を提示するワード群提示手段２１３
とを更に有する。

【００２１】また、上記のワード群提示手段２１３は、
ワード群抽出手段２１２により抽出されたワード群に付
与されているテキスト識別情報を用いて、テキストデー
タベース２０内にワード群を有するテキスト数をカウン
トする第１のカウント手段と、ワード群抽出手段２１２
により抽出されたワード群に付与されているテキスト識
別情報を用いて、現在選択されているテキスト集合内に
存在する数をカウントする第２のカウント手段と、第２
のカウント手段により取得したカウントを多い順にソー
トして、ワード群、第２のカウント手段によるカウント
値、第１のカウント手段によりカウント値を同時に提示
する。

【００２２】図２は、本発明の原理を説明するためのフ
ローチャートである。本発明は、データベースベースシ
ステムへ関連項目を蓄積し、蓄積されている内容を提示
する関連項目の蓄積・提示方法において、データベース
システムに入力されたテキスト中に存在する関連項目抽
出文字列が、テキストデータベース中に存在する位置を
特定し（ステップ１）、関連項目抽出文字列の前後のワ
ードを抽出し（ステップ２）、抽出された前後のワード
を組として関連項目データベースに登録する（ステップ
３）。

【００２３】また、抽出された前後のワードを登録する
際に（ステップ３）、抽出されたワードの組が存在する
テキストの識別情報を、該ワードの組に付与して関連項
目データベースに登録する。また、検索キー候補を提示
する際に、データベースシステムに入力された検索キー
と一致するワードを関連項目データベースより検索し
（ステップ４）、検索されたワードと組として登録され
ているワード群を抽出し（ステップ５）、抽出されたワ
ード群を提示する（ステップ６）。

【００２４】また、ワード群を提示する際に（ステップ
６）、抽出されたワードと組として登録されているテキ
スト識別情報でテキストデータベース内に存在するテキ
スト数をカウントし、抽出されたワードと組として登録
されているテキスト識別情報で現在選択されているテキ
ストの集合内に存在する個数をカウントし、カウントさ
れた値を多い順にソートしてワード群及びカウント値を
同時に提示する。

【００２５】また、本発明のデータベース検索システム
は、蓄積されているテキストデータを検索するデータベ
ース検索システムにおいて、検索キーにより検索される
テキストを蓄積するテキストデータベースと、ワード同
士が関連性を有する関係となるためのワードと、関連性
を有するワードの組を、テキストデータベースに登録さ
れているワードを用いて関連項目データベースに登録す
る関連項目データ登録手段と、検索キーに一致するワー
ドを関連項目データベースより検索し、提示する提示手
段と、提示手段により提示されたワードを検索キーとし
て、テキストデータベースを検索する検索手段とを有す
る。

【００２６】

【作用】本発明は、データベースに投入されるテキスト
からワードを抽出して、関連項目データベースへ登録す
ることにより、入力されたテキストに基づいて互いに関
連があるワードの組を自動的に抽出でき、データ検索時
に入力されたキーワードに対応するワードが必ず、デー
タベース内に存在する。

【００２７】また、データベースに入力されたテキスト
に基づいてワードの抽出を行うため、関連語の辞書（シ
ソーラス辞書）等が不要となる。また、本発明は、互い
に関連があるワードの抽出に辞書等の定型のものを利用
せず、テキストデータベースに存在するワードを使用す
るため、新語にも自動的に対応できる。

【００２８】また、本発明は、検索者が指定した検索キ
ーに対して互いに関連のあるワードの自動提示が可能と
なり、検索者の検索支援が可能となる。また、提示する
際に、データベース検索者に提示されるワード群がテキ
スト内に存在する数において、ソートされ、優先順位が
付けられるので、データベースの傾向や現在選択されて
いる集合の傾向の把握が可能となる。また、提示された
ワードの優先順位の高い順に検索キーを選択すると効率
の高い絞り込みが可能となる。

【００２９】

【実施例】以下、図面と共に本発明の実施例を説明す
る。実施例の説明を始める前に以下の説明において使用
される各用語を定義する。・『ワード』とは、形態素解析等を用いて文等の集まり
であるテテキストを分解する際に生成される最小単位の
ことを指し、動詞、名詞等の単語を指す。・『検索キー』とは、データベースシステムを検索する
際に、検索者が指定する鍵のことを指し、その形態はワ
ードもしくは、ワード群である。・『関連項目抽出文字列』とは、互いに関連があるワー
ドを抽出するための文字の集まりを指す。文字列は必ず
しもワードである必要はなく、文字、記号、数字やその
組合せでもよい。

【００３０】［登録処理］最初にデータベース（以下、
ＤＢと記す）への登録処理を行う登録部について説明す
る。図３は、本発明の一実施例のＤＢ登録部の構成を示
す。同図に示す登録部は、入力されるテキスト１０、テ
キストＤＢ２０、テキストデータ登録部１１０、関連項
目登録部１２０及び関連項目ＤＢ３００より構成され
る。関連項目登録部１２０は、関連項目文字列位置特定
部１２１、ワード抽出部１２２、ＩＤ付与部１２３、関
連項目ＤＢ登録部１２４より構成される。

【００３１】テキストデータ登録部１１０は、テキスト
データ１０が入力されると、テキストＤＢ２０にテキス
トデータを登録する。関連項目登録部１２０は、検索キ
ーが入力された場合に、最初に参照する関連項目ＤＢ３
００に関連項目データを登録する。

【００３２】関連項目登録部１２０の関連項目文字列位
置特定部１２１は、テキストＤＢ２０に入力されたテキ
スト中に存在する関連項目抽出文字列の位置を特定す
る。関連項目登録部１２０のワード抽出部１２２は、上
記の関連項目文字列位置特定部１２１により特定された
文字列の前後のワードを抽出する。

【００３３】関連項目登録部１２０のＩＤ付与部１２３
は、抽出されたワードの組が存在するテキストＩＤをそ
のワードの組に付与する。図４にワードの組にテキスト
ＩＤを付与した場合のワード群の構成である。関連項目
登録部１２０の関連項目ＤＢ登録部１２４は、ＩＤ付与
部１２３で構成されたワード群を関連項目ＤＢ３００に
登録する。

【００３４】図５は、本発明の一実施例の関連項目デー
タベースへの登録処理のフローチャートである。ステップ３０１）テキストデータ登録部１１０に、テ
キストデータが入力される。

【００３５】ステップ３０２）テキストデータ登録部
１１０は、入力されたテキストデータをテキストＤＢ２
０に登録する。ステップ３０３）関連項目文字列位置特定部１２１
は、予め用意されている関連項目抽出文字列と同じ文字
列がテキストＤＢ２０内に存在するかを判断し、存在し
ている場合には、当該文字列のテキストＤＢ２０内の位
置情報を抽出する。

【００３６】ステップ３０４）次に、ワード抽出部１
２２は、ステップ３０３で抽出された位置情報に基づい
て、当該文字列の前後のワードを取得し、これを組とし
て保持する。ステップ３０５）ＩＤ付与部１２３は、ステップ３０
４で取得したワードの組に対して当該ワードが登録され
ていたテキストデータのテキストＩＤを付与する。

【００３７】ステップ３０６）関連項目ＤＢ登録部１
２４は、ワードの組にテキストＩＤを付与したワード群
を関連項目ＤＢ３００に登録する。次に、関連項目ＤＢ
登録時の具体例を説明する。図６は、本発明の一実施例
の関連項目ＤＢ登録の具体例を説明するための図であ
る。

【００３８】同図（ａ）は、テキストＤＢ２０に予め登
録されている関連項目抽出文字列、『の』である。同図（ｂ）は、テキストＤＢ２０に入力される
テキストデータの例であり、『象の鼻は長い』『象の耳は大きい』である。

【００３９】同図（ｃ）は抽出された関連項目抽出文字
列であり、『象の鼻は長い』『象の耳は大きい』である。

【００４０】同図（ｄ）（ｅ）は、抽出されたワードの
組であり、 “象”−“鼻” “象”−“耳” である。同図（ｆ）は、テキストＩＤが付与された関連
項目ＤＢ３００に登録される内容の例である。

【００４１】まず、テキストＤＢ２０から関連項目文字
列を抽出する際にテキストをワードに分解する方法とし
て、形態素解析等の方法があるが、他のどのような方法
で行ってもよく、ここでは説明を省略する。（１）予め用意した関連項目抽出文字列としての
『の』（ａ）を用いる。

【００４２】（２）テキストＤＢ２０にテキストデー
タとして（ｂ）が入力される。本実施例では、テキスト
（ｂ）は２つの文を含む。（３）関連項目文字列位置特定部１２１は、上記の
（２）において入力されたテキストデータ（ｂ）中に関
連項目抽出文字列の『の』（ａ）と等しいものの位置を
特定する。その特定された結果は、（ｃ）の網掛け部分
である。

【００４３】（４）ワード抽出部１２２は、上記の
（３）において、抽出された関連項目抽出文字列の前後
のワードの組を抽出する。その抽出された結果が
（ｄ），（ｅ）である。（５）上記の（４）において抽出された結果（ｄ）と
（ｅ）を関連項目ＤＢ３００に登録する。

【００４４】（６）関連項目ＤＢ登録部１２４は、上
記（５）の登録と同時に、ワードの組が存在していたテ
キスト（ａ）のテキストＩＤも組として関連項目ＤＢ３
００に登録する。本実施例では、入力されたテキスト
（ｂ）のテキストＩＤは、“１００００”であるとす
る。その登録した結果が（ｆ）である。但し、組となっ
ているワードのうち、そのどちらか側が検索対象であっ
てもその組として登録されているワードは検索できるよ
うに登録されているものとする。（ｆ）の場合には、
『象』が検索対象であった場合、『鼻』と『耳』が関連
項目として抽出され、『鼻』が検索対象であった場合、
『象』が関連項目として抽出することが可能となるよう
に登録する。

【００４５】［提示処理］次に、利用者から検索キーが
入力され、関連項目ＤＢ３００を参照して検索キーの候
補を提示する場合について説明する。図７は、本発明の
一実施例の関連項目提示部の構成を示す。同図に示す関
連項目提示部は、テキストＤＢ検索部２２１、関連項目
ＤＢ検索部２１１、ワード群抽出部２１２、ワード群提
示部２１３、関連項目ＤＢ３００、テキストＤＢ２０、
表示部５００より構成される。

【００４６】ワード群提示部２１３は、第１のカウンタ
２１３１、第２のカウンタ２１３２を有する。テキスト
ＤＢ検索部２２１は、利用者から検索キーが入力される
と、当該検索キーでテキストＤＢ２０を検索する。ここ
で、所望の検索結果が得られなかった場合に、検索キー
を関連項目ＤＢ検索部２１１に転送してもよいし、ま
た、入力された検索キーでテキストＤＢ２０を検索する
ことなく、直接関連項目ＤＢ検索部２１１に転送しても
よい。

【００４７】関連項目ＤＢ検索部２１１は、入力された
検索キーと一致するワードを関連項目ＤＢ３００より検
索する。ワード群抽出部２１２は、関連項目ＤＢ検索部
２１１で検索されたワードと組として登録されているワ
ード群を抽出して、ワード群提示部２１３に転送する。

【００４８】ワード群提示部２１３は、ワード群抽出部
２１２から転送されたワード群を表示部５００に表示す
る。また、ワード群提示部２１３は、表示部５００に表
示して、利用者に検索項目を提示する際に、第１のカウ
ンタ２１３１が、抽出されたワードが含まれているテキ
ストが、テキストデータベース内に存在する数をカウン
トする。これは、ワードと組として登録されているワー
ド群のテキストＩＤが関連項目ＤＢ３００内に幾つある
かをカウントするものである。また、第２のカウンタ２
１３２が、当該ワードが含まれているテキストが現在選
択されているテキストの集合内に存在する数をカウント
する。これは、ワードと組にして、関連項目ＤＢに登録
されているテキストＩＤで現在選択されているテキスト
の集合内に存在するものをカウントする。

【００４９】さらに、ワード群提示部２１３は、第１の
カウンタ２１３１、第２のカウンタ２１３２でカウント
された値を多い順にソートして、ワード群、第１のカウ
ンタ値、第２のカウンタ値の順に同時に表示部５００に
表示する。図８は、本発明の一実施例の関連項目提示処
理のフローチャートである。

【００５０】ステップ４０１）まず、検索キーワード
が入力される。ステップ４０２）関連項目ＤＢ検索部２１１は、入力
された検索キーワードと同じワードを関連項目ＤＢ３０
０上より検索し、取得したワードをワード群抽出部２１
２に転送する。

【００５１】ステップ４０３）ワード群抽出部２１２
は、関連ＤＢ検索部２１１で検索されたワードと組とし
て登録されているワード群を抽出し、ワード群提示部２
１３に転送する。ステップ４０４）ワード群提示部２１３は、取得した
ワード群をそのまま表示部５００に提示する方法もある
が、本実施例では、以下のようにカウントをとり、合わ
せて表示する。まず、第１のカウンタ２１３１は、抽出
されたワードが含まれているテキストが全関連項目ＤＢ
３００内に何件存在しているかをカウントする。このた
めには、第１のカウンタ２１３１は、ワードと組として
登録されているテキストＩＤの存在数をカウントする
（カウント値１）。

【００５２】ステップ４０５）次にワード群２１３の
第２のカウンタ２１３２は、当該ワードが含まれている
テキストが、現在選択されているテキストの集合内に存
在する数を算出するために、ワードと組として登録され
ているテキストＩＤで現在選択されているテキストの集
合内に存在する数をカウントする（カウント値２）。

【００５３】ステップ４０６）上記のステップ４０４
及びステップ４０５のカウント値を降順にソートする。ステップ４０７）ソートされた順に、ワード群、カウ
ント値１、カウント値２を同時に表示する。

【００５４】ステップ４０８）利用者は、表示装置５
００に提示された内容を参照して、検索キーを決定す
る。ステップ４０９）利用者は、決定された検索キーで、
テキストＤＢ２０を検索する。

【００５５】次に、関連項目提示処理を具体例を用いて
説明する。図９及び図１０は、本発明の一実施例の具体
例を示す図である。・図９（ｇ）は、利用者より入力された検索キーであ
る。・図９（ｈ）は、関連項目ＤＢ３００の内容を示す。・図９（ｉ）は、ワード群抽出部２１２により抽出され
たワードの組である。・図１０（ｊ）は、関連項目ＤＢ３００中のワードの組
が存在する数を算出した結果を示す。・図１０（ｋ）は、現在選択されている集合内にワード
の組が存在する数を算出した結果を示す。・図１０（ｍ）は、ワード群、現在選択されている集合
内にワードの組が存在する数、全関連項目ＤＢ３００内
にワードの組が存在する数を、現在選択されている集合
内にワードの組が存在する数の多い順にソートした提示
例を示す。

【００５６】テキストＤＢ２０からテキストを検索する
過程における関連項目の提示方法は、以下のように実行
される。（１）検索者から検索キー『象』（図９（ｇ））が入
力される。（２）関連項目ＤＢ検索部２１１は、検索キー『象』
と一致するワードを関連項目ＤＢ３００の中から検索す
る。ここで、関連項目ＤＢ３００に登録されている内容
が図９（ｈ）であるとき、検索した結果を図９（ｉ）の
太枠で囲まれた部分であるとする。本実施例の場合、検
索結果は７つ存在する。

【００５７】（３）ワード群中秋部２１２は、上記の
（２）により検索されたワードの組として登録されてい
るワード群を抽出する。その抽出結果は、図９（ｉ）の
網掛け部分である。（４）上記の（３）において、抽出された抽出結果を
提示する。

【００５８】（５）上記の（３）において、抽出され
たワード群のそれぞれについて、そのワードが含まれて
いるテキストが全テキストＤＢ２０に存在する数を算出
するために、ワードと組として関連項目ＤＢ３００に登
録されているテキストＩＤのうち、テキストＤＢ２０に
格納されているテキストの中に存在するものの個数をカ
ウントする。図９（ｉ）の７つの検索結果のうち、
『象』と『鼻』の組が３つ、『象』とその他のワードの
組が１つずつある。その算出結果を図１０（ｊ）の網掛
けの部分に示す。

【００５９】（６）上記の（３）において、抽出され
たワード群のそれぞれについて、そのワードが含まれて
いるテキストの数が、現在選択されているテキストの集
合内に存在する数を算出するためにワードと組にして登
録されているテキストＩＤで、現在選択されているテキ
ストの集合内に存在するのをカウントする。但し、現在
選択されているテキストの集合のテキストＩＤは、テキ
ストＤＢ２０の検索過程より、テキストＩＤ『１０００
０』及び『１００２０』であるという情報を得たとす
る。よって、図９（ｉ）の７つの検索結果のうち、テキ
ストＩＤが『１００００』もしくは、『１００２０』の
ワードの組は『象と鼻』の組２つ、『象と耳』の組１
つ、『象と牙』の組１つである。その算出結果を図１０
（ｋ）の網掛け部分に示す。

【００６０】（７）上記（３）において、抽出された
ワード群を上記の（６）におけるカウント数の多い順に
ソートして、ワード群、（６）で取得したカウント数、
（５）で取得したカウント数を同時に提示する。その提
示例を図１０（ｍ）に示す。但し、上記の（５）、
（６）、（７）は、全てを提示しても、これらを組み合
わせて提示してもよい。

【００６１】上記のように、関連項目ＤＢ３００を有す
るデータベースシステムから提示されるワードを参照し
て検索キーでテキストＤＢ２０を検索すれば、必ず、当
該検索キーに対応するテキストデータを取得することが
できる。上記の例から分かるように、検索者がある検索
キーを入力したとき、その検索キーのワード群が提示さ
れるので、検索キーを入力する段階において、検索者が
悩む必要がなくなる。また、データベースシステムの検
索者の支援が可能となる。また、上記の例からわかるよ
うに、関連ワード群は全て入力テキストにより自動的に
抽出されるので、本発明では、シソーラス等の辞書のメ
ンテナンスが不要となり、システム利用者に負担を掛け
ない。

【００６２】次に、システム側で予め用意して、関連項
目ＤＢ３００登録しておく関連項目抽出文字列について
説明する。本発明では、予め登録しておく関連項目抽出
文字列を、『の』、『や』、『と』、
『・』、『」「』、『かつ』、『または』、『あるい
は』、『（』、『ａｎｄ』、『ｏｒ』、『ｏｆ』を指定
する。これらの各文字列は、互いに上位、下位、並列、
複合語構成、言い換え等の関係を有するワードの組を抽
出することが可能となる文字列である。

【００６３】図１１〜図１４は、本発明の一実施例の関
連項目抽出文字列を説明するための図である。図１１〜
図１４の左側に記載されているテキスト５０００〜５０
１１は、関連項目抽出文字列を元にワードの組を抽出す
るためのテキストの例である。

【００６４】図１１〜図１４の中央に記載されている単
語５０１２〜５０２３は、関連項目抽出文字列の例であ
る。図１１〜図１４の右側に記載されている表形式５０
２４〜５０３５は、テキスト５０００〜５０１１の例に
関連項目抽出文字列５０１２〜５０２３を用いて抽出し
たワードの組の例である。

【００６５】テキストからワードの組を抽出する過程を
説明する。（１）テキスト（５０００）に関連項目抽出文字列
『の』（５０１２）の前後のワードを検索した結果は５
０２４である。（２）テキスト（５００１）に関連項目抽出文字列
『や』（５０１３）の前後のワードを検索した結果は５
０２５である。

【００６６】（３）テキスト（５００２）に関連項目
抽出文字列『と』（５０１４）の前後のワードを検索し
た結果は５０２６である。（４）テキスト（５００３）に関連項目抽出文字列
『・』（５０１５）の前後のワードを検索した結果は５
０２７である。（５）テキスト（５００４）に関連項目抽出文字
列『」「』（５０１６）の前後のワードを検索した結果
は５０２８である。

【００６７】（６）テキスト（５００５）に関連項目
抽出文字列『かつ』（５０１７）の前後のワードを検索
した結果は５０２９である。（７）テキスト（５００６）に関連項目抽出文字列
『または』（５０１８）の前後のワードを検索した結果
は５０３０である。

【００６８】（８）テキスト（５００７）に関連項目
抽出文字列『あるいは』（５０１９）の前後のワードを
検索した結果は５０３１である。（９）テキスト（５００８）に関連項目抽出文字列
『（』（５０２０）の前後のワードを検索した結果は５
０３２である。

【００６９】（１０）テキスト（５００９）に関連項
目抽出文字列『ａｎｄ』（５０２１）の前後のワードを
検索した結果は５０３３である。（１１）テキスト（５０１０）に関連項目抽出文字列
『ｏｒ』（５０２３）の前後のワードを検索した結果は
５０３４である。

【００７０】（１２）テキスト（５０１１）に関連項
目抽出文字列『ｏｆ』（５０２４）の前後のワードを検
索した結果は５０３５である。上記の例からわかるよう
に、関連項目抽出文字列に様々なものを指定すること
で、２つのワードが互いに上位、下位の関係にある：互いに並列の関係にある：互いに複合語を構成している：互いに言い換えの関係にある：場合のワードの組を抽出することが可能になる。また、
ワード間の関係が上記の〜のような関係にあるた
め、検索キーとしてのバリエーションが増加することに
なり、様々な観点から関連ワードの提示が可能となる。

【００７１】なお、本発明は、上記の実施例に限定され
ることなく、特許請求の範囲内で種々変更・応用が可能
である。

【００７２】

【発明の効果】上述のように、本発明によれば、検索者
が検索キーとしてワードもしくは、ワード群を指定した
場合、それらのワードに関連があるワードをデータベー
スシステムが自動的に提示してくれるので、以下のよう
な場合に検索者の検索支援に寄与する。

【００７３】（１）検索結果が多過ぎた場合に、更に
検索キーを絞り込むためのワードを検索者が悩む必要が
無くなる。（２）検索結果の集合内に含まれるワードが提示され
るため、検索結果の集合の傾向もしくは、データベース
の傾向が判り、検索者が思いつかなかったテキストを検
索することが可能となる。

【００７４】システムが提示するワードは、データベー
スに投入されるテキストから抽出を行っているので、必
ずデータベース内に存在するという保証があり、提示さ
れたワードを指定すると必ずテキストがヒットするとい
う保証が得られる。関連ワードの抽出を行うための元の
データにシソーラス等の辞書を利用していないためにシ
ソーラスのメンテナンスという保守作業が不要となり、
データベースへのテキストの更新に従って、関連ワード
自体も自動的に修正される。

【図面の簡単な説明】

【図１】本発明の原理構成図である。

【図２】本発明の原理説明図である。

【図３】本発明の一実施例のＤＢ登録部の構成図であ
る。

【図４】本発明の一実施例の関連項目データベースに登
録されるワード群の構成図である。

【図５】本発明の一実施例の関連項目データベースへの
登録処理のフローチャートである。

【図６】本発明の一実施例の関連項目ＤＢ登録の具体例
を説明するための図である。

【図７】本発明の一実施例の関連項目提示部の構成図で
ある。

【図８】本発明の一実施例の関連項目提示処理のフロー
チャートである。

【図９】本発明の一実施例の具体例を示す図（その１）
である。

【図１０】本発明の一実施例の具体例を示す図（その
２）である。

【図１１】本発明の一実施例の関連項目抽出文字列を説
明するための図（その１）である。

【図１２】本発明の一実施例の関連項目抽出文字列を説
明するための図（その２）である。

【図１３】本発明の一実施例の関連項目抽出文字列を説
明するための図（その３）である。

【図１４】本発明の一実施例の関連項目抽出文字列を説
明するための図（その４）である。

【図１５】従来の第１のシステム構成図である。

【図１６】従来の第１のデータベースの格納処理のフロ
ーチャートである。

【図１７】従来の第２のシステム構成図である。

【図１８】従来の第２のデータベースへの格納処理のフ
ローチャートである。

【図１９】従来の第３のシステム構成図である。

【図２０】従来の第３のデータベースの格納処理のフロ
ーチャートである。

【図２１】従来の第１のデータベースの検索システムの
構成図である。

【図２２】従来の第１のデータベースの検索処理のフロ
ーチャートである。

【図２３】従来の第２のデータベースの検索システムの
構成図である。

【図２４】従来の第２のデータベースの検索処理のフロ
ーチャートである。

【図２５】従来の第３のデータベースの検索システムの
構成図である。

【図２６】従来の第３のデータベースの検索処理のフロ
ーチャートである。

【符号の説明】

１０テキスト２０テキストＤＢ１００データベース生成手段１１０テキスト登録手段、テキスト登録部１２０参照ＤＢ登録手段、関連項目登録部１２１位置特定手段、関連項目文字列位置特定部１２２ワード抽出手段、ワード抽出部１２３ＩＤ付与部１２４関連項目登録手段、関連項目データベース登録
部２００検索手段２１０参照ＤＢ検索手段２１１関連項目ＤＢ検索手段、関連項目ＤＢ検索部２１２ワード群抽出手段、ワード群抽出部２１３ワード群提示手段２２０テキストＤＢ検索手段２２１テキストＤＢ検索手段、テキストＤＢ検索部２２２ワード選択手段３００関連項目ＤＢ５００表示部２１３１第１のカウンタ２１３２第２のカウンタ

Claims

【特許請求の範囲】

【請求項１】データベースベースシステムへ関連項目
を蓄積し、蓄積されている内容を提示する関連項目の蓄
積・提示装置であって、前記データベースシステムに入力されたテキスト中に存
在する関連項目抽出文字列が、テキストデータベース中
に存在する位置を特定する位置特定手段と、前記関連項目抽出文字列の前後のワードを抽出するワー
ド抽出手段と、前記ワード抽出手段により抽出された前後のワードを組
として関連項目データベースに登録する関連項目登録手
段とを有することを特徴とする関連項目の蓄積・提示装
置。
【請求項２】前記関連項目登録手段は、前記抽出されたワードの組が存在するテキストの識別情
報を、該ワードの組に付与して前記関連項目データベー
スに登録する請求項１記載の関連項目の蓄積・提示装
置。
【請求項３】前記データベースシステムに入力された
検索キーと一致するワードを前記関連項目データベース
より検索する関連項目データベース検索手段と、前記関連項目データベース検索手段により検索されたワ
ードと組として登録されているワード群を抽出するワー
ド群抽出手段と、前記ワード群抽出手段により抽出されたワード群を提示
するワード群提示手段とを更に有する請求項１記載の関
連項目の蓄積・提示装置。
【請求項４】前記ワード群提示手段は、前記ワード群抽出手段により抽出されたワード群に付与
されているテキスト識別情報を用いて、前記テキストデ
ータベース内に該ワード群を有するテキスト数をカウン
トする第１のカウント手段と、前記ワード群抽出手段により抽出されたワード群に付与
されているテキスト識別情報を用いて、現在選択されて
いるテキスト集合内に存在する数をカウントする第２の
カウント手段と、前記第２のカウント手段により取得したカウントを多い
順にソートして、ワード群、前記第２のカウント手段に
よるカウント値、前記第１のカウント手段によりカウン
ト値を同時に提示する請求項３記載の関連項目の蓄積・
提示装置。
【請求項５】データベースシステムへ関連項目を蓄積
し、蓄積されている内容を提示する関連項目の蓄積・提
示方法において、前記データベースシステムに入力されたテキスト中に存
在する関連項目抽出文字列が、テキストデータベース中
に存在する位置を特定し、前記関連項目抽出文字列の前後のワードを抽出し、抽出された前後のワードを組として関連項目データベー
スに登録することを特徴とする関連項目の蓄積・提示方
法。
【請求項６】前記抽出された前後のワードを登録する
際に、前記抽出されたワードの組が存在するテキストの識別情
報を、該ワードの組に付与して前記関連項目データベー
スに登録する請求項５記載の関連項目の蓄積・提示方
法。
【請求項７】前記データベースシステムに入力された
検索キーと一致するワードを前記関連項目データベース
より検索し、検索されたワードと組として登録されているワード群を
抽出し、抽出されたワード群を提示する請求項５記載の関連項目
の蓄積・提示方法。
【請求項８】前記ワード群を提示する際に、前記抽出されたワードと組として登録されている前記テ
キスト識別情報で前記テキストデータベース内に存在す
るテキスト数をカウントし、前記抽出されたワードと組として登録されている前記テ
キスト識別情報で現在選択されているテキストの集合内
に存在する個数をカウントし、カウントされた値を多い順にソートしてワード群及びカ
ウント値を同時に提示する請求項７記載の関連項目の蓄
積・提示方法。
【請求項９】蓄積されているテキストデータを検索す
るデータベース検索システムにおいて、検索キーにより検索されるテキストを蓄積するテキスト
データベースと、ワード同士が関連性を有する関係となるためのワード
と、関連性を有するワードの組を前記テキストデータベ
ースに登録されているワードを用いて関連項目データベ
ースに登録する関連項目データ登録手段と、検索キーに一致するワードを前記関連項目データベース
より検索し、提示する提示手段と、前記提示手段により提示されたワードを検索キーとし
て、前記テキストデータベースを検索する検索手段とを
有することを特徴とするデータベース検索システム。