JP3591813B2

JP3591813B2 - データ検索方法、その装置および記録媒体

Info

Publication number: JP3591813B2
Application number: JP15067898A
Authority: JP
Inventors: 雅且大久保; 孝史井上; 和宏早川; 一男田中
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1998-05-14
Filing date: 1998-05-14
Publication date: 2004-11-24
Anticipated expiration: 2018-05-14
Also published as: JPH11328220A

Description

【０００１】
【発明の属する技術分野】
本発明は、コンピュータネットワークを用いたデータ検索方法およびその装置に係り、特に、検索の結果、多数のデータが選択された場合に、自動的に検索データを分類し、出力するデータ検索方法およびその装置に関する。
【０００２】
【従来の技術】
データ検索とは、文書等の集合をデータベース等に蓄積し、利用者が与えた検索式に関連する文書を、そのデータベースから取り出す技術である。検索式とは、たとえば「通信」のような１つの単語だけではなく、「通信ＡＮＤ計算機」のように、「通信」と「計算機」との両方の単語に関連する文書の取り出しを指定したり、「通信ＯＲ計算機」のように、「通信」と「計算機」とのうちのいずれかの単語に関連する文書の取り出しを指定する式である。ここで「単語に関連する文書」とは、ある文書にキーワードとしてある単語が予め付与されている場合、そのキーワードに対応する文書であり、また、ある文書中にある単語が含まれている場合、その単語に対応する文書である。
【０００３】
従来、入力された検索式に従って検索し、照合したデータを提供するデータ検索システムにおいて、適合するデータが複数である場合、データベースに格納されている順序で出力、表示されることが一般的である。しかし、多数のデータが選択された場合、検索結果の中から利用者が所望のデータを得ることが困難であり、利用者の作業が膨大になるという問題がある。
【０００４】
そこで、特開平４−２５２３７６号公報に開示されているデータベース検索装置では、ユーザ別フリーキーワード格納部を設け、キーワードを含有する数の多い順に検索結果を並び替えて表示するようにしている。
【０００５】
また、特開平５−３１４１８５号公報に記載されているデータベース検索システムでは、キーワード間の相関関係を示す概念ネットワーク図を予め用意し、入力されたキーワードによってネットワーク図上で１つのパスを決定し、パス上のキーワードを有するデータを優先的に出力するようにしている。
【０００６】
また、特開平７−１１０８１８号公報に開示されているデータベースシステムでは、データに含まれているキーワードを用いて予めデータを分類しておくことを前提にし、検索キーワードとの関連度が高い分類を求め、この分類されているデータを出力するようにしている。
【０００７】
【発明が解決しようとする課題】
ところで、従来のデータ検索システムでは、利用者が容易に把握できる程度の量に至るまで、検索結果の数を絞り込むためには、利用者が多くの検索語を入力する必要があり、適切な検索語を利用者が思いつかない場合、利用者が所望のデータを得るのが困難である。または、上記のようにデータを予め分類しておく必要があるという問題がある。
【０００８】
また、同じ検索語を用いても、その検索語に基づいて利用者が検索しようとするデータは、その時々で変化する。たとえば、長野オリンピックが開催される前の時点では、「オリンピック」という検索語によって検索しようとするデータは、競技場のチケットの状況、長野のホテルの予約状況、交通手段等のデータであるのに対し、オリンピック開催中の検索したいデータは、競技結果に関するデータというように、検索したいデータの内容は、時間の経過とともに変化する。
【０００９】
しかし、従来のデータ検索システムではこのようなデータニーズの変化には対応できていないという問題がある。
【００１０】
本発明は、入力された検索式中の検索語が少なく、このために検索結果の数が多くなっても、検索結果を利用者が容易に把握することができるように分類して出力され、したがって、操作性に優れたデータ検索方法、その装置および記録媒体を提供することを目的とする。
【００１１】
また、本発明は、現在のデータニーズを反映した状態でデータを分類することができ、多くの利用者が欲しているデータを分類して提示することができるデータ検索方法、その装置および記録媒体を提供することを目的とする。
【００１２】
【課題を解決するための手段】
本発明は、端末装置から入力された検索式に基づいて、所定のサーバが、所定データを検索し、上記端末装置に提供するデータ検索装置において、所定の語と、この所定の語に関連する関連語とが対応して格納され、上記サーバに設けられている関連語辞書を設け、上記検索式に含まれている検索語の関連語を、上記関連語辞書を用いて抽出する関連語抽出手段を設け、上記関連語抽出手段によって抽出された関連語を用いて、検索された複数のデータを複数のグループに分類する検索結果分類手段を設けたデータ検索装置である。
【００１３】
【発明の実施の形態および実施例】
図１は、本発明の一実施例であるデータ検索装置ＩＳ１を示すブロック図である。
【００１４】
データ検索装置ＤＳ１は、情報データベースＤＢ１と、関連語辞書Ｄと、ネットワークを介して端末装置から送られた検索式を受信する検索式受信部１０と、データ検索部２０と、関連語抽出部３０と、検索結果分類装置４０と、検索結果送信部５０とを有する。
【００１５】
データ検索装置ＤＳ１は、端末装置から入力された検索式に基づいて、所定のサーバが、所定データを検索し、この検索されたデータを上記端末装置に提供するデータ検索装置であり、関連語辞書Ｄは、所定の語と、この所定の語に関連する関連語とが対応して格納され、上記サーバに設けられている辞書である。
【００１６】
関連語抽出部３０は、上記検索式に含まれている検索語の関連語を、関連語辞書Ｄを用いて抽出する手段である。検索結果分類装置４０は、関連語抽出部３０によって抽出された関連語を用いて、検索された複数のデータを複数のグループに分類する手段である。
【００１７】
次に、上記実施例の動作について説明する。
【００１８】
図２は、データ検索装置ＤＳ１の処理動作を示すフローチャートである。
【００１９】
まず、ネットワークを介して端末装置から入力された検索式を検索式受信部１０が受信し（Ｓ１）、この入力された検索式に基づいて、情報データベースＤＢ１から所定データを検索する（Ｓ２）。そして、受信された検索式を各検索語に分解し（Ｓ３）、分解された各検索語について、関連語辞書Ｄを用いて、検索語と関連する関連語と、上記検索語と上記関連語との関連度とを抽出する（Ｓ４）。その後、抽出された関連語と関連度とを用いて、ステップＳ２で検索された検索結果を後述する所定の手法で分類し（Ｓ５）、この分類された検索結果を端末装置に送信する（Ｓ６）。
【００２０】
なお、上記フローチャートにおいて、各検索語へ分解し、関連語と関連語とを抽出した（Ｓ３、Ｓ４）後に、検索式に基づいてデータを検索する（Ｓ２）ようにしてもよい。
【００２１】
関連語辞書Ｄは、過去の所定期間に行われた検索におけるデータを解析する後述のデータ関連付け装置７０を用いて作成したものである。
【００２２】
図３は、上記実施例におけるデータ関連付け装置７０を示す図である。
【００２３】
図３（１）に示すデータ関連付け装置７０は、同一の利用者によって使用された検索語は、その使用時間間隔が短ければ同じデータを求めるために使用された検索語であり、その使用時間間隔が長ければ別のデータを求めるために使用された検索語であり、使用時間間隔が短い程、関連の度合い（関連度）が高いという考えに基づく装置である。また、データ関連付け装置７０は、ユーザ別検索時刻・検索式抽出部７１と、検索式分解部７２と、最小時刻差計算部７３と、関連度計算・集計部７４とを有する。
【００２４】
ユーザ別検索時刻・検索式抽出部７１は、過去の所定期間中に行われた検索におけるデータから、検索ユーザ毎に、検索時刻と検索式とを抽出する手段である。検索式分解部７２は、ユーザ別検索時刻・検索式抽出部７１によって抽出された複数の検索式のうちの１つの検索式が使用された時刻と、上記抽出された複数の検索式のうちの別の検索式が使用された時刻との時刻差のうちの最小値である最小時刻差を、上記検索ユーザ毎に計算する手段である。
【００２５】
最小時刻差計算部７３は、所定の検索ユーザにおける上記最小時刻差に基づいて、上記最小時刻差に対応する上記１つの検索式と上記別の検索式との関連度を、上記所定の検索ユーザ毎に計算し、複数の上記検索ユーザについて計算された上記関連度を集計する手段である。関連度計算・集計部７４は、最小時刻差に基づいて、２つの検索語同士の関連度を求め、全ユーザについて集計するものである。
【００２６】
また、最小時刻差計算部７３は、上記検索式を検索語に分解し、上記分解された検索語のうちの１つの検索語が使用された時刻と、上記分解された検索語のうちの別の検索語が使用された時刻との時刻差のうちの最小値である最小時刻差を、上記検索ユーザ毎に計算する手段である。
【００２７】
関連度計算・集計部７４は、所定の検索ユーザにおける上記最小時刻差に基づいて、上記最小時刻差に対応する上記１つの検索語と上記別の検索語との関連度を、所定の検索ユーザ毎に計算し、複数の検索ユーザについて計算された上記関連度を集計する手段である。
【００２８】
また、関連度計算は、たとえば、最小時刻差が０秒であれば（同一検索式に２つの検索語が存在すれば）、検索語同士の関連度を「２」とし、最小時刻差が０〜６０秒であれば、関連度を「１」とし、最小時刻差が３００秒以上であれば、関連度を「０」とし、６０〜３００秒の間は、１次関数を用いて求める。
【００２９】
図３（２）は、相関係数検出装置８０を示すブロック図である。
【００３０】
相関係数検出装置８０は、ある一定の時期に、多数の利用者が同一のデータを求めた場合、その検索に使用された検索語の使用頻度傾向は似ているという考えに基づく装置であり、２つの検索語の使用頻度に応じて２つの検索語の間の相関係数を求める装置である。また、相関係数検出装置８０は、時間別・ユーザ別集計部８１と、検索式分解部８２と、検索語集計部８３と、相関係数計算部８４とを有する装置である。
【００３１】
時間別・ユーザ別集計部８１は、使用された検索式を、日毎、ユーザ毎にまとめるものであり、つまり、過去の所定期間中に行われた検索におけるデータから、所定時間毎に検索ユーザ毎に、検索式を抽出する手段である。検索式分解部８２は、検索ユーザ毎に、検索式を検索語へ分解し、重複を除く手段である。
【００３２】
検索語集計部８３は、日毎、検索語毎の使用頻度を集計するものであり、つまり、所定時間毎における各検索語の使用回数を検索ユーザ毎に計算し、検索ユーザ毎に計算された各検索語の使用回数を、全ての検索ユーザについて集計する手段である。相関係数計算部８４は、日毎に集計された各検索語の使用頻度に基づき、それぞれの時系列間における２つの検索語の相関係数を求めるものであり、集計された所定時間毎における各検索語の使用回数に基づいて、２つの検索語相互間の相関係数を計算する手段である。
【００３３】
上記実施例は、上記２つの関連度を用いて関連語辞書Ｄを作成するので、データニーズを直接反映した、タイムリーな関連語を求めることができ、一般的な同義語ではなく、その時期に同義語的に用いられた関連語を集約した関連語辞書Ｄを得ることができる。このように、上記実施例は、この関連語辞書Ｄを用いて広告データベースＤＢ２を検索するので、データニーズを反映した、利用者が欲しい広告を選択することができ、宣伝効果を上げることができる。
【００３４】
上記実施例では、入力された検索語をＸとし、検索されたデータを、Ｄ_１，Ｄ_２，…，Ｄ_ｍとする。
【００３５】
図４は、上記実施例における関連語辞書Ｄの一例を示す図である。
【００３６】
関連語辞書Ｄには、各検索語毎に、それと関連する関連語と、この関連語との関連度とが格納されている。
【００３７】
図４に示す例では、検索語はＸであり、関連語Ｙ_１、Ｙ_２、Ｙ_３、……、Ｙ_ｎは、この検索語Ｘと関連する関連語であり、関連度Ｚ_１、Ｚ_２、Ｚ_３ …、Ｚ_ｎは、検索語Ｘと、関連語Ｙ_１、Ｙ_２、Ｙ_３、……、Ｙ_ｎとのそれぞれの関連度である。
【００３８】
図５は、検索結果分類装置４０の一例を示すブロック図である。
【００３９】
検索結果分類装置４０は、ベクトル変換部４１と、ベクトル間類似度計算部４２と、検索結果分類部４３とを有するものである。
【００４０】
ベクトル変換部４１は、データ検索部２０からデータ検索の結果を受け取り、関連語抽出部３０から、上記検索語の関連語を受け取り、以下のようにして、検索結果である各データに基づいて、それぞれベクトルを作成する手段である。
【００４１】
つまり、データ検索部２０によって検索され、ベクトル変換部４１が受け取ったデータＤ_ｊのベクトルＶ_ｊは、以下の式１、式２、式３のいずれかの式で作成される。ただし、ｊ＝１、２、……、ｍである。
【００４２】
なお、関数ｆ（Ｙ_ｉ）は、ｉ個目の関連語Ｙ_ｉに関する関数であり、検索データに関連語Ｙ_ｉが含まれていれば、ｆ（Ｙ_ｉ）＝１であり、検索データに関連語Ｙ_ｉが含まれていなければ、ｆ（Ｙ_ｉ）＝０である。ただし、ｉ＝１、２、……、ｎである。
【００４３】
Ｖ_ｊ＝（ｆ（Ｙ_１），ｆ（Ｙ_２），ｆ（Ｙ_３），……，ｆ（Ｙ_ｎ））（式１）
Ｖ_ｊ＝（ｆ（Ｙ_１）＊Ｚ_１，ｆ（Ｙ_２）＊Ｚ_２，……，ｆ（Ｙ_ｎ）＊Ｚ_ｎ）（式２）
また、ｇ（Ｙ_ｉ）は、検索されたデータＤ_ｊに出現する関連語Ｙ_ｉの出現回数を示す関数である。ただし、ｉ＝１、２、……、ｎとする。
【００４４】
Ｖ_ｊ＝（ｇ（Ｙ_１）＊Ｚ_１，ｇ（Ｙ_２）＊Ｚ_２，……，ｆ（Ｙ_ｎ）＊Ｚ_ｎ）（式３）
すなわち、式１は、検索されたデータ中の各関連語の有無を用いてベクトルを作成する式である。つまり、式１を採用したベクトル変換手段は、各データ中の関連語の有無を用いることによって、上記各データのベクトルを作成する手段である。
【００４５】
式２は、検索されたデータ中の各関連語の有無と、検索語と各関連語との関連度とを用いてベクトルを作成する式である。つまり、式２を採用したベクトル変換手段は、各データ中の関連語の有無と、検索語と各関連語との関連度とを用いて、各データのベクトルを作成する手段である。
【００４６】
式３は、検索されたデータ中の各関連語の出現回数と関連度とを用いてベクトルを作成する式である。つまり、式３を採用したベクトル変換手段は、データ中の関連語が出現する数と、検索語と各関連語の関連度とを用いて各データのベクトルを作成する手段である。
【００４７】
ベクトル間類似度計算部４２は、上記のようにして作成されたベクトルＶ_ｊとＶ_ｋとの間の類似度Ｒ（ｊ、ｋ）を、以下の式４によって求める手段である。
【００４８】
ベクトルＶ_ｊ＝（ｖ_ｊ，１，ｖ_ｊ，２，……，ｖ_ｊ，ｎ）、
ベクトルＶ_ｋ＝（ｖ_ｋ，１，ｖ_ｋ，２，……，ｖ_ｋ，ｎ）であるときに、
Ｒ（ｊ，ｋ）＝（ｖ_ｊ，１・ｖ_ｋ，１＋ｖ_ｊ，２・ｖ_ｋ，２＋……＋ｖ_ｊ，ｎ・ｖ_ｋ，ｎ）／｛（ｖ_ｊ，１・ｖ_ｊ，１＋ｖ_ｊ，２・ｖ_ｊ，２＋……＋ｖ_ｊ，ｎ・ｖ_ｊ，ｎ）^１／２・（ｖ_ｋ，１・ｖ_ｋ，１＋ｖ_ｋ，２・ｖ_ｋ，２＋……＋ｖ_ｋ，ｎ・ｖ_ｋ，ｎ）^１／２｝（式４）
ただし，ｊ＝１，２，……，ｍ、ｋ＝１，２，……，ｍ、ｊ≠ｋとする。
【００４９】
式４を採用したベクトル間類似度計算手段が計算する２つのベクトル間の類似度は、２つのベクトルの内積を各ベクトルの大きさで割って得られた値である。つまり、上記式４は、各ベクトルをｎ次元空間で表したときのコサイン値（余弦値）に等しい。ここで、関数ｆ（Ｙ_ｉ）、Ｚ_ｉ、ｇ（Ｙ_ｉ）は全て０以上の値であるので、類似度Ｒ（ｊ，ｋ）の値は、０から１の間の値になる。すなわち、類似度Ｒ（ｊ，ｋ）の値が大きい程、ベクトルＶ_ｊとベクトルＶ_ｋとの類似度は高くなり、データＤ_ｊとＤ_ｋとの共通性が高くなる。
【００５０】
検索結果分類部４３は、各ベクトル間の類似度を用いて検索結果を分類する手段である。
【００５１】
次に、上記実施例において、検索結果分類部４３によって検索結果を分類する動作について説明する。
【００５２】
図６は、上記実施例において、検索結果を分類する動作を示すフローチャートである。
【００５３】
検索された各データＤ_ｊが各グループに分類され、以下では、各検索されたデータＤ_ｊが属するグループの番号を、Ｇ［Ｄ_ｊ］と表示し、初期値として、グループ番号Ｇ［Ｄ_ｊ］＝ｊとする（Ｓ１１）。ただし、ｊ＝１，２，……，ｍである。
【００５４】
また、検索された２つのデータが同一のグループに属するか否かを、上記２つのデータににそれぞれ対応するベクトルの間の類似度Ｒに応じて判定し、この判定における類似度Ｒの閾値を、ＴＨとする。
【００５５】
そして、データＤ_ｊとＤ_ｋとの類似度Ｒ（ｊ、ｋ）の最も大きな組（ｊ、ｋ）を取り出し（Ｓ１２）、そして、類似度Ｒ（ｊ、ｋ）≦ＴＨならば（Ｓ１３）、データＤ_ｊとＤ_ｋとの類似性が低いので、データＤ_ｊとＤ_ｋとを合併せずに（１つのグループに括らないで）終了する。
【００５６】
類似度Ｒ（ｊ、ｋ）＞ＴＨならば（Ｓ１３）、番号Ｇ［Ｄ_ｊ］のグループに属する要素としての検索データＤ_ｐと、番号Ｇ［Ｄ_ｋ］のグループに属する要素としての検索データＤ_ｑとを取り出し、類似度Ｒ（ｐ、ｑ）＞ＴＨか否かを判定する（Ｓ１４）。番号Ｇ［Ｄ_ｊ］のグループに属する全ての要素としてのデータＤ_ｐと、番号Ｇ［Ｄ_ｋ］のグループに属する全ての要素としてのデータＤ_ｑとについて、類似度Ｒ（ｐ、ｑ）＞ＴＨであれば（Ｓ１４）、番号Ｇ［Ｄ_ｊ］のグループに属する全ての要素としてのデータＤ_ｐと、番号Ｇ［Ｄ_ｋ］のグループに属する全ての要素としてのデータＤ_ｑとの類似性が高いので、番号Ｇ［Ｄ_ｊ］のグループと番号Ｇ［Ｄ_ｋ］のグループとを合併し、１つのグループとする（Ｓ１５）。合併後のグループ番号を、たとえば番号Ｇ［Ｄ_ｊ］とする。
【００５７】
そして、上記処理（Ｓ１３〜Ｓ１５）を、類似度Ｒ（ｊ、ｋ）≦ＴＨになるまで、類似度Ｒ（ｊ，ｋ）の大きな順に繰り返す（Ｓ１６、Ｓ１７、Ｓ１８）。
【００５８】
次に、図６に示すフローチャートを具体的に説明する。
【００５９】
図７は、上記実施例において、ベクトルＶ_１〜Ｖ_５の各相互間におけるベクトル間類似度をベクトル間類似度計算部４２が計算し、この計算結果である類似度を示す図である。
【００６０】
図７に示す結果によれば、たとえば、検索されたデータＤ_１とＤ_２との間における類似度Ｒ（１，２）が１０であり、検索されたデータＤ_１とＤ_３との間における類似度Ｒ（１，３）が８である。
【００６１】
図８は、上記実施例において、データＤ_１〜Ｄ_５を分類する過程を示す図である。
【００６２】
初期値として、各グループに属する要素としてのデータは、図８（１）に示すように、１つである。つまり、１つのグループに１つの検索データのみが属している。なお、閾値ＴＨは５である。
【００６３】
まず、図７に示すベクトル間類似度のうちで、ベクトルＶ_１とＶ_２との類似度Ｒ（１，２）が１０であり、これが図７中、最も大き値であるので、この類似度Ｒ（１，２）を取り出す。この場合、閾値ＴＨは「５」であるので、類似度Ｒ（１、２）＞５であり、したがって、ベクトルＶ_１とＶ_２との類似性が充分に高いと判断し、図８（２）に示すように、ベクトルＶ_１を含むグループとベクトルＶ_２を含むグループとを合併する。
【００６４】
そして、ベクトルＶ_４とＶ_５との間の類似度Ｒ（４，５）が１０であるので、類似度Ｒ（４，５）が、次に大きな類似度であり、この類似度Ｒ（４，５）を取り出す。そして、類似度Ｒ（４，５）＞５であるので、図８（３）に示すように、ベクトルＶ_４を含むグループとベクトルＶ_５を含むグループとを合併する。
【００６５】
そして、ベクトルＶ_１とＶ_３との間の類似度Ｒ（１，３）が次に大きく、この類似度Ｒ（１、３）を取り出す。番号Ｇ［１］のグループに属する要素としての検索データＤ_１、Ｄ_２のそれぞれについて、検索データＤ_３との間における類似度を調べると（図８（４））、類似度Ｒ（１、３）＞５、類似度Ｒ（２、３）＞５であるので、図８（５）に示すように、２つのグループを合併する。
【００６６】
そして、類似度が次に大きな類似度は７であり、これに対応するデータは、Ｄ_２、Ｄ_３であり、データＤ_２、Ｄ_３は、図８（５）に示すように、既に１つのグループに属しているので、データＤ_２、Ｄ_３に関する分類の処理としては、何も実行しない。
【００６７】
そして、類似度が次に大きな類似度は７であり、これに対応するデータは、データＤ_３、Ｄ_４であり、データＤ_３、Ｄ_４の類似度Ｒ（３、４）＞５であるが、データＤ_４が属するグループに属する他のデータＤ_５とデータＤ_３との類似度Ｒ（３、５）≦５であるので、図８（６）に示すように、残った２つのグループ同士について合併処理を実行しない。
【００６８】
類似度Ｒが次に大きな類似度は３であり、これに対応するデータは、データＤ_１、Ｄ_５であり、データＤ_１とＤ_５との類似度Ｒ（１，５）≦５なので、図８（７）に示すように、分類処理を終了する。
【００６９】
この結果、データＤ_１、Ｄ_２、Ｄ_３が１つ目のグループに配属され、データＤ_４、Ｄ_５が２つ目のグループに配属され、データＤ_１、Ｄ_２、Ｄ_３を含むグループと、データＤ_４、Ｄ_５を含むグループとは、別のグループになる。このようにして分類処理を終了し、この分類結果を端末装置に送信する。
【００７０】
図９は、上記実施例における出力例を示す図である。
【００７１】
図９に示す出力例は、検索語として「オリンピック」を使用した例であり、データの検索結果は１２９件で、それら１２９件の検索データを上記実施例の処理に従って分類し、属するデータ数の多いグループから順に表示されている。
【００７２】
データ数の最も多かったグループは、２３個のデータを含むグループであり、その中から「オリンピック」に最も関連の強いデータを選び、そのタイトル「長野オリンピック公式ガイド」をそのグループのタイトルとしている。さらに、そのグループに含まれているデータの数、残りのデータのタイトルを複数個表示している。
【００７３】
画面に表示されている「Ｍｏｒｅ」を画面上でクリックすることによって、残りのタイトルが表示され、さらに、タイトル部分をクリックすると、その詳細なデータが表示されるようになっている。他のグループについても、上記と同様である。
【００７４】
上記実施例によれば、上記のように、少ない検索語の入力でも、利用者は欲しいデータがどこにあるか容易に把握することができ、検索時間の短縮、負担の軽減を図ることができる。
【００７５】
図１０は、本発明の他の実施例であるデータ検索装置ＤＳ２を示すブロック図である。
【００７６】
データ検索装置ＤＳ２は、基本的にはデータ検索装置ＤＳ１と同じであり、データ関連づけ部９０が設けられている点のみがデータ検索装置ＤＳ１とは異なるものである。
【００７７】
データ関連づけ部９０は、過去の所定期間に行われた検索における情報データベースと、データ関連づけ装置７０とを有し、検索式が入力されるとその過去の所定期間に行われた検索におけるデータに基づいて関連語を作成し、関連語辞書Ｄを更新するものであり、これによって、常に、データニーズを反映した関連語が得られるようになっている。
【００７８】
なお、上記実施例では、入力された検索語の関連語のみを使用して、各検索されたデータに基づいてベクトルを作成しているが、上記入力された検索語の関連語以外の語についてのベクトルを、グループに属する要素として考えるようにしてもよい。たとえば、検索結果のデータに含まれる全ての単語についてのベクトルを、グループに属する要素として考えるようにしてもよい。この場合、単語数がｗ個あるとすれば、ｎ＋ｗ次元のベクトルを作成することになる。ただし、ｎは入力された検索語の関連語の数である。
【００７９】
上記実施例によれば、従来と同様に入力された検索式を用いてデータベースからデータを選択するとともに、関連語辞書Ｄから得られる関連語を用いて検索データに関するベクトルを作成し、さらにこのベクトルを用いて、ベクトルに対応するデータ同士の間における類似度を求め、この類似度を用いて検索データを分類するので、少ない検索語入力の場合でも、検索結果を容易に把握することが可能であり、利用者が所望のデータを得るまでの時間、負担の軽減を図ることができる。
【００８０】
そして、関連語辞書として、多数の利用者が所定期間に使用した過去の所定期間に行われた検索におけるデータを解析して作成した辞書を使用すれば、一般的な同義語ではなく、その時期に同義語的に使用された関連語を集約できるので、現在のデータニーズを反映した分類が可能である。
【００８１】
また、上記実施例を記録媒体の発明として把握することができる。つまり、上記実施例は、端末装置から入力された検索式に基づいて、所定のサーバが、所定データを検索し、この検索されたデータを上記端末装置に提供するデータ検索手順において、所定の語と、この所定の語に関連する関連語とが対応して格納されている関連語辞書を上記サーバに設ける関連語辞書設置手順と、上記検索式に含まれている検索語の関連語を、上記関連語辞書を用いて抽出する関連語抽出手順と、上記関連語抽出手順で抽出された関連語を用いて、検索された複数のデータを複数のグループに分類する検索結果分類手順とをコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体の例である。この記憶媒体の例としては、ＣＤ、ＦＤ、ハードディスク、半導体メモリ等がある。
【００８２】
【発明の効果】
本発明によれば、多くの利用者が使用した所定期間の過去の所定期間に行われた検索におけるデータを解析することによって得られた関連語辞書を設け、検索語の関連語を検索し、この関連語を用いて検索されたデータについてベクトルを作成し、ベクトル間の類似度を求め、この類似度で検索結果を自動的に分類して出力するので、利用者が検索結果を容易に把握することができ、データ検索システムの操作性が極めて向上するという効果を奏する。
請求項１１、１２記載の発明によれば、ユーザからの検索入力を、関連語辞書にフィードバックして常に更新するので、時期によって各文書を特徴付ける単語（検索語の関連語と検索語との関連度）が異なり、したがって、時期によって分類結果が異なるという効果を奏する。
【図面の簡単な説明】
【図１】本発明の一実施例であるデータ検索装置ＩＳ１を示すブロック図である。
【図２】データ検索装置ＤＳ１の処理動作を示すフローチャートである。
【図３】上記実施例におけるデータ関連付け装置７０を示す図である。
【図４】上記実施例における関連語辞書Ｄの一例を示す図である。
【図５】検索結果分類装置４０の一例を示すブロック図である。
【図６】上記実施例において、検索結果であるデータを分類する動作を示すフローチャートである。
【図７】上記実施例において、ベクトルＶ_１〜Ｖ_５の各相互間におけるベクトル間類似度をベクトル間類似度計算部４２が計算し、この計算結果である類似度を示す図である。
【図８】上記実施例において、データＤ_１〜Ｄ_５を分類する過程を示す図である。
【図９】上記実施例における出力例を示す図である。
【図１０】本発明の他の実施例であるデータ検索装置ＤＳ２を示すブロック図である。
【符号の説明】
ＤＳ１、ＤＳ２…データ検索装置、
ＤＢ１…情報データベース、
Ｄ…関連語辞書、
１０…検索式受信部、
２０…データ検索部、
３０…関連語抽出部、
４０…検索結果分類装置、
４１…ベクトル変換部、
４２…ベクトル間類似度計算部、
４３…検索結果分類部、
７０…データ関連付け装置、
８０…相関係数検出装置。

Claims

端末装置から入力された検索式に基づいて、所定のサーバが、所定データを検索し、この検索されたデータを上記端末装置に提供するデータ検索装置において、
所定の語と、この所定の語に関連する関連語とが対応して格納され、上記サーバに設けられている関連語辞書と；
上記検索式に含まれている検索語の関連語を、上記関連語辞書を用いて抽出する関連語抽出手段と；
上記関連語抽出手段によって抽出された関連語を用いて、検索された複数のデータを複数のグループに分類する検索結果分類手段と；
を有し、
上記検索結果分類手段は、
上記抽出された関連語を用いて、上記検索されたデータをベクトルに変換するベクトル変換手段と；
上記変換された２つのベクトルの間における類似度を計算するベクトル間類似度計算手段と；
を有し、上記ベクトル間類似度計算手段によって計算された類似度を用いて、上記検索された複数のデータを、複数のグループに分類する手段であることを特徴とするデータ検索装置。
請求項１において、
上記ベクトル変換手段は、
上記各データ中の関連語の有無を用いることによって、上記各データのベクトルを作成する手段であることを特徴とするデータ検索装置。
請求項１において、
上記ベクトル変換手段は、
上記各データ中の関連語の有無と、検索語と各関連語との関連度とを用いて、各データのベクトルを作成する手段であることを特徴とするデータ検索装置。
請求項１において、
上記ベクトル変換手段は、
上記データ中の関連語が出現する数と、上記検索語と上記各関連語の関連度とを用いて上記各データのベクトルを作成する手段であることを特徴とするデータ検索装置。
請求項１において、
上記ベクトル間類似度計算手段が計算する上記２つのベクトル間の類似度は、上記２つのベクトルの内積を各ベクトルの大きさで割って得られた値であることを特徴とするデータ検索装置。
端末装置から入力された検索式に基づいて、所定のサーバが、所定データを検索し、この検索されたデータを上記端末装置に提供するデータ検索方法において、
所定の語と、この所定の語に関連する関連語とが対応して格納されている関連語辞書を上記サーバに設ける関連語辞書設置段階と；
上記検索式に含まれている検索語の関連語を、上記関連語辞書を用いて抽出する関連語抽出段階と；
上記関連語抽出段階で抽出された関連語を用いて、検索された複数のデータを複数のグループに分類する検索結果分類段階と；
を有し、
上記検索結果分類段階は、
上記抽出された関連語を用いて、上記検索されたデータをベクトルに変換するベクトル変換段階と；
上記変換された２つのベクトルの間における類似度を計算するベクトル間類似度計算段階と；
を有し、上記ベクトル間類似度計算段階によって計算された類似度を用いて、上記検索された複数のデータを、複数のグループに分類する段階であることを特徴とするデータ検索方法。
請求項６において、
上記ベクトル変換段階は、
上記各データ中の関連語の有無を用いることによって、上記各データのベクトルを作成する段階であることを特徴とするデータ検索方法。
請求項６において、
上記ベクトル変換段階は、
上記各データ中の関連語の有無と、検索語と各関連語との関連度とを用いて、各データのベクトルを作成する段階であることを特徴とするデータ検索方法。
請求項６において、
上記ベクトル変換段階は、
上記データ中の関連語が出現する数と、上記検索語と上記各関連語の関連度とを用いて上記各データのベクトルを作成する段階であることを特徴とするデータ検索方法。
請求項６において、
上記ベクトル間類似度計算段階が計算する上記２つのベクトル間の類似度は、上記２つのベクトルの内積を各ベクトルの大きさで割って得られた値であることを特徴とするデータ検索方法。
請求項１において、
上記検索式が入力されると、過去の所定期間に行われた検索におけるデータに基づいて関連語を作成し、上記関連語辞書を更新するデータ関連づけ手段を有することを特徴とするデータ検索装置。
請求項６において、
上記検索式が入力されると、過去の所定期間に行われた検索におけるデータに基づいて関連語を作成し、上記関連語辞書を更新するデータ関連づけ段階を有することを特徴とするデータ検索方法。