JP3591813B2 - データ検索方法、その装置および記録媒体 - Google Patents

データ検索方法、その装置および記録媒体 Download PDF

Info

Publication number
JP3591813B2
JP3591813B2 JP15067898A JP15067898A JP3591813B2 JP 3591813 B2 JP3591813 B2 JP 3591813B2 JP 15067898 A JP15067898 A JP 15067898A JP 15067898 A JP15067898 A JP 15067898A JP 3591813 B2 JP3591813 B2 JP 3591813B2
Authority
JP
Japan
Prior art keywords
data
search
vector
word
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP15067898A
Other languages
English (en)
Other versions
JPH11328220A (ja
Inventor
雅且 大久保
孝史 井上
和宏 早川
一男 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP15067898A priority Critical patent/JP3591813B2/ja
Publication of JPH11328220A publication Critical patent/JPH11328220A/ja
Application granted granted Critical
Publication of JP3591813B2 publication Critical patent/JP3591813B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、コンピュータネットワークを用いたデータ検索方法およびその装置に係り、特に、検索の結果、多数のデータが選択された場合に、自動的に検索データを分類し、出力するデータ検索方法およびその装置に関する。
【0002】
【従来の技術】
データ検索とは、文書等の集合をデータベース等に蓄積し、利用者が与えた検索式に関連する文書を、そのデータベースから取り出す技術である。検索式とは、たとえば「通信」のような1つの単語だけではなく、「通信AND計算機」のように、「通信」と「計算機」との両方の単語に関連する文書の取り出しを指定したり、「通信OR計算機」のように、「通信」と「計算機」とのうちのいずれかの単語に関連する文書の取り出しを指定する式である。ここで「単語に関連する文書」とは、ある文書にキーワードとしてある単語が予め付与されている場合、そのキーワードに対応する文書であり、また、ある文書中にある単語が含まれている場合、その単語に対応する文書である。
【0003】
従来、入力された検索式に従って検索し、照合したデータを提供するデータ検索システムにおいて、適合するデータが複数である場合、データベースに格納されている順序で出力、表示されることが一般的である。しかし、多数のデータが選択された場合、検索結果の中から利用者が所望のデータを得ることが困難であり、利用者の作業が膨大になるという問題がある。
【0004】
そこで、特開平4−252376号公報に開示されているデータベース検索装置では、ユーザ別フリーキーワード格納部を設け、キーワードを含有する数の多い順に検索結果を並び替えて表示するようにしている。
【0005】
また、特開平5−314185号公報に記載されているデータベース検索システムでは、キーワード間の相関関係を示す概念ネットワーク図を予め用意し、入力されたキーワードによってネットワーク図上で1つのパスを決定し、パス上のキーワードを有するデータを優先的に出力するようにしている。
【0006】
また、特開平7−110818号公報に開示されているデータベースシステムでは、データに含まれているキーワードを用いて予めデータを分類しておくことを前提にし、検索キーワードとの関連度が高い分類を求め、この分類されているデータを出力するようにしている。
【0007】
【発明が解決しようとする課題】
ところで、従来のデータ検索システムでは、利用者が容易に把握できる程度の量に至るまで、検索結果の数を絞り込むためには、利用者が多くの検索語を入力する必要があり、適切な検索語を利用者が思いつかない場合、利用者が所望のデータを得るのが困難である。または、上記のようにデータを予め分類しておく必要があるという問題がある。
【0008】
また、同じ検索語を用いても、その検索語に基づいて利用者が検索しようとするデータは、その時々で変化する。たとえば、長野オリンピックが開催される前の時点では、「オリンピック」という検索語によって検索しようとするデータは、競技場のチケットの状況、長野のホテルの予約状況、交通手段等のデータであるのに対し、オリンピック開催中の検索したいデータは、競技結果に関するデータというように、検索したいデータの内容は、時間の経過とともに変化する。
【0009】
しかし、従来のデータ検索システムではこのようなデータニーズの変化には対応できていないという問題がある。
【0010】
本発明は、入力された検索式中の検索語が少なく、このために検索結果の数が多くなっても、検索結果を利用者が容易に把握することができるように分類して出力され、したがって、操作性に優れたデータ検索方法、その装置および記録媒体を提供することを目的とする。
【0011】
また、本発明は、現在のデータニーズを反映した状態でデータを分類することができ、多くの利用者が欲しているデータを分類して提示することができるデータ検索方法、その装置および記録媒体を提供することを目的とする。
【0012】
【課題を解決するための手段】
本発明は、端末装置から入力された検索式に基づいて、所定のサーバが、所定データを検索し、上記端末装置に提供するデータ検索装置において、所定の語と、この所定の語に関連する関連語とが対応して格納され、上記サーバに設けられている関連語辞書を設け、上記検索式に含まれている検索語の関連語を、上記関連語辞書を用いて抽出する関連語抽出手段を設け、上記関連語抽出手段によって抽出された関連語を用いて、検索された複数のデータを複数のグループに分類する検索結果分類手段を設けたデータ検索装置である。
【0013】
【発明の実施の形態および実施例】
図1は、本発明の一実施例であるデータ検索装置IS1を示すブロック図である。
【0014】
データ検索装置DS1は、情報データベースDB1と、関連語辞書Dと、ネットワークを介して端末装置から送られた検索式を受信する検索式受信部10と、データ検索部20と、関連語抽出部30と、検索結果分類装置40と、検索結果送信部50とを有する。
【0015】
データ検索装置DS1は、端末装置から入力された検索式に基づいて、所定のサーバが、所定データを検索し、この検索されたデータを上記端末装置に提供するデータ検索装置であり、関連語辞書Dは、所定の語と、この所定の語に関連する関連語とが対応して格納され、上記サーバに設けられている辞書である。
【0016】
関連語抽出部30は、上記検索式に含まれている検索語の関連語を、関連語辞書Dを用いて抽出する手段である。検索結果分類装置40は、関連語抽出部30によって抽出された関連語を用いて、検索された複数のデータを複数のグループに分類する手段である。
【0017】
次に、上記実施例の動作について説明する。
【0018】
図2は、データ検索装置DS1の処理動作を示すフローチャートである。
【0019】
まず、ネットワークを介して端末装置から入力された検索式を検索式受信部10が受信し(S1)、この入力された検索式に基づいて、情報データベースDB1から所定データを検索する(S2)。そして、受信された検索式を各検索語に分解し(S3)、分解された各検索語について、関連語辞書Dを用いて、検索語と関連する関連語と、上記検索語と上記関連語との関連度とを抽出する(S4)。その後、抽出された関連語と関連度とを用いて、ステップS2で検索された検索結果を後述する所定の手法で分類し(S5)、この分類された検索結果を端末装置に送信する(S6)。
【0020】
なお、上記フローチャートにおいて、各検索語へ分解し、関連語と関連語とを抽出した(S3、S4)後に、検索式に基づいてデータを検索する(S2)ようにしてもよい。
【0021】
関連語辞書Dは、過去の所定期間に行われた検索におけるデータを解析する後述のデータ関連付け装置70を用いて作成したものである。
【0022】
図3は、上記実施例におけるデータ関連付け装置70を示す図である。
【0023】
図3(1)に示すデータ関連付け装置70は、同一の利用者によって使用された検索語は、その使用時間間隔が短ければ同じデータを求めるために使用された検索語であり、その使用時間間隔が長ければ別のデータを求めるために使用された検索語であり、使用時間間隔が短い程、関連の度合い(関連度)が高いという考えに基づく装置である。また、データ関連付け装置70は、ユーザ別検索時刻・検索式抽出部71と、検索式分解部72と、最小時刻差計算部73と、関連度計算・集計部74とを有する。
【0024】
ユーザ別検索時刻・検索式抽出部71は、過去の所定期間中に行われた検索におけるデータから、検索ユーザ毎に、検索時刻と検索式とを抽出する手段である。検索式分解部72は、ユーザ別検索時刻・検索式抽出部71によって抽出された複数の検索式のうちの1つの検索式が使用された時刻と、上記抽出された複数の検索式のうちの別の検索式が使用された時刻との時刻差のうちの最小値である最小時刻差を、上記検索ユーザ毎に計算する手段である。
【0025】
最小時刻差計算部73は、所定の検索ユーザにおける上記最小時刻差に基づいて、上記最小時刻差に対応する上記1つの検索式と上記別の検索式との関連度を、上記所定の検索ユーザ毎に計算し、複数の上記検索ユーザについて計算された上記関連度を集計する手段である。関連度計算・集計部74は、最小時刻差に基づいて、2つの検索語同士の関連度を求め、全ユーザについて集計するものである。
【0026】
また、最小時刻差計算部73は、上記検索式を検索語に分解し、上記分解された検索語のうちの1つの検索語が使用された時刻と、上記分解された検索語のうちの別の検索語が使用された時刻との時刻差のうちの最小値である最小時刻差を、上記検索ユーザ毎に計算する手段である。
【0027】
関連度計算・集計部74は、所定の検索ユーザにおける上記最小時刻差に基づいて、上記最小時刻差に対応する上記1つの検索語と上記別の検索語との関連度を、所定の検索ユーザ毎に計算し、複数の検索ユーザについて計算された上記関連度を集計する手段である。
【0028】
また、関連度計算は、たとえば、最小時刻差が0秒であれば(同一検索式に2つの検索語が存在すれば)、検索語同士の関連度を「2」とし、最小時刻差が0〜60秒であれば、関連度を「1」とし、最小時刻差が300秒以上であれば、関連度を「0」とし、60〜300秒の間は、1次関数を用いて求める。
【0029】
図3(2)は、相関係数検出装置80を示すブロック図である。
【0030】
相関係数検出装置80は、ある一定の時期に、多数の利用者が同一のデータを求めた場合、その検索に使用された検索語の使用頻度傾向は似ているという考えに基づく装置であり、2つの検索語の使用頻度に応じて2つの検索語の間の相関係数を求める装置である。また、相関係数検出装置80は、時間別・ユーザ別集計部81と、検索式分解部82と、検索語集計部83と、相関係数計算部84とを有する装置である。
【0031】
時間別・ユーザ別集計部81は、使用された検索式を、日毎、ユーザ毎にまとめるものであり、つまり、過去の所定期間中に行われた検索におけるデータから、所定時間毎に検索ユーザ毎に、検索式を抽出する手段である。検索式分解部82は、検索ユーザ毎に、検索式を検索語へ分解し、重複を除く手段である。
【0032】
検索語集計部83は、日毎、検索語毎の使用頻度を集計するものであり、つまり、所定時間毎における各検索語の使用回数を検索ユーザ毎に計算し、検索ユーザ毎に計算された各検索語の使用回数を、全ての検索ユーザについて集計する手段である。相関係数計算部84は、日毎に集計された各検索語の使用頻度に基づき、それぞれの時系列間における2つの検索語の相関係数を求めるものであり、集計された所定時間毎における各検索語の使用回数に基づいて、2つの検索語相互間の相関係数を計算する手段である。
【0033】
上記実施例は、上記2つの関連度を用いて関連語辞書Dを作成するので、データニーズを直接反映した、タイムリーな関連語を求めることができ、一般的な同義語ではなく、その時期に同義語的に用いられた関連語を集約した関連語辞書Dを得ることができる。このように、上記実施例は、この関連語辞書Dを用いて広告データベースDB2を検索するので、データニーズを反映した、利用者が欲しい広告を選択することができ、宣伝効果を上げることができる。
【0034】
上記実施例では、入力された検索語をXとし、検索されたデータを、D ,D ,…,D とする。
【0035】
図4は、上記実施例における関連語辞書Dの一例を示す図である。
【0036】
関連語辞書Dには、各検索語毎に、それと関連する関連語と、この関連語との関連度とが格納されている。
【0037】
図4に示す例では、検索語はXであり、関連語Y 、Y 、Y 、……、Y は、この検索語Xと関連する関連語であり、関連度Z 、Z 、Z …、Z は、検索語Xと、関連語Y 、Y 、Y 、……、Y とのそれぞれの関連度である。
【0038】
図5は、検索結果分類装置40の一例を示すブロック図である。
【0039】
検索結果分類装置40は、ベクトル変換部41と、ベクトル間類似度計算部42と、検索結果分類部43とを有するものである。
【0040】
ベクトル変換部41は、データ検索部20からデータ検索の結果を受け取り、関連語抽出部30から、上記検索語の関連語を受け取り、以下のようにして、検索結果である各データに基づいて、それぞれベクトルを作成する手段である。
【0041】
つまり、データ検索部20によって検索され、ベクトル変換部41が受け取ったデータD のベクトルV は、以下の式1、式2、式3のいずれかの式で作成される。ただし、j=1、2、……、mである。
【0042】
なお、関数f(Y )は、i個目の関連語Y に関する関数であり、検索データに関連語Y が含まれていれば、f(Y )=1であり、検索データに関連語Y が含まれていなければ、f(Y )=0である。ただし、i=1、2、……、nである。
【0043】
=(f(Y ),f(Y ),f(Y ),……,f(Y )) (式1)
=(f(Y )*Z ,f(Y )*Z ,……,f(Y )*Z )(式2)
また、g(Y )は、検索されたデータD に出現する関連語Y の出現回数を示す関数である。ただし、i=1、2、……、nとする。
【0044】
=(g(Y )*Z ,g(Y )*Z ,……,f(Y )*Z )(式3)
すなわち、式1は、検索されたデータ中の各関連語の有無を用いてベクトルを作成する式である。つまり、式1を採用したベクトル変換手段は、各データ中の関連語の有無を用いることによって、上記各データのベクトルを作成する手段である。
【0045】
式2は、検索されたデータ中の各関連語の有無と、検索語と各関連語との関連度とを用いてベクトルを作成する式である。つまり、式2を採用したベクトル変換手段は、各データ中の関連語の有無と、検索語と各関連語との関連度とを用いて、各データのベクトルを作成する手段である。
【0046】
式3は、検索されたデータ中の各関連語の出現回数と関連度とを用いてベクトルを作成する式である。つまり、式3を採用したベクトル変換手段は、データ中の関連語が出現する数と、検索語と各関連語の関連度とを用いて各データのベクトルを作成する手段である。
【0047】
ベクトル間類似度計算部42は、上記のようにして作成されたベクトルV とV との間の類似度R(j、k)を、以下の式4によって求める手段である。
【0048】
ベクトルV =(vj,1 ,vj,2 ,……,vj,n )、
ベクトルV =(vk,1 ,vk,2 ,……,vk,n )であるときに、
R(j,k)=(vj,1 ・vk,1 +vj,2 ・vk,2 +……+vj,n ・vk,n )/{(vj,1 ・vj,1 +vj,2 ・vj,2 +……+vj,n ・vj,n1/2 ・(vk,1 ・vk,1 +vk,2 ・vk,2 +……+vk,n ・vk,n1/2 } (式4)
ただし,j=1,2,……,m、k=1,2,……,m、j≠kとする。
【0049】
式4を採用したベクトル間類似度計算手段が計算する2つのベクトル間の類似度は、2つのベクトルの内積を各ベクトルの大きさで割って得られた値である。つまり、上記式4は、各ベクトルをn次元空間で表したときのコサイン値(余弦値)に等しい。ここで、関数f(Y )、Z 、g(Y )は全て0以上の値であるので、類似度R(j,k)の値は、0から1の間の値になる。すなわち、類似度R(j,k)の値が大きい程、ベクトルV とベクトルV との類似度は高くなり、データD とD との共通性が高くなる。
【0050】
検索結果分類部43は、各ベクトル間の類似度を用いて検索結果を分類する手段である。
【0051】
次に、上記実施例において、検索結果分類部43によって検索結果を分類する動作について説明する。
【0052】
図6は、上記実施例において、検索結果を分類する動作を示すフローチャートである。
【0053】
検索された各データD が各グループに分類され、以下では、各検索されたデータD が属するグループの番号を、G[D ]と表示し、初期値として、グループ番号G[D ]=jとする(S11)。ただし、j=1,2,……,mである。
【0054】
また、検索された2つのデータが同一のグループに属するか否かを、上記2つのデータににそれぞれ対応するベクトルの間の類似度Rに応じて判定し、この判定における類似度Rの閾値を、THとする。
【0055】
そして、データD とD との類似度R(j、k)の最も大きな組(j、k)を取り出し(S12)、そして、類似度R(j、k)≦THならば(S13)、データD とD との類似性が低いので、データD とD とを合併せずに(1つのグループに括らないで)終了する。
【0056】
類似度R(j、k)>THならば(S13)、番号G[D ]のグループに属する要素としての検索データD と、番号G[D ]のグループに属する要素としての検索データD とを取り出し、類似度R(p、q)>THか否かを判定する(S14)。番号G[D ]のグループに属する全ての要素としてのデータD と、番号G[D ]のグループに属する全ての要素としてのデータD とについて、類似度R(p、q)>THであれば(S14)、番号G[D ]のグループに属する全ての要素としてのデータD と、番号G[D ]のグループに属する全ての要素としてのデータD との類似性が高いので、番号G[D ]のグループと番号G[D ]のグループとを合併し、1つのグループとする(S15)。合併後のグループ番号を、たとえば番号G[D ]とする。
【0057】
そして、上記処理(S13〜S15)を、類似度R(j、k)≦THになるまで、類似度R(j,k)の大きな順に繰り返す(S16、S17、S18)。
【0058】
次に、図6に示すフローチャートを具体的に説明する。
【0059】
図7は、上記実施例において、ベクトルV 〜V の各相互間におけるベクトル間類似度をベクトル間類似度計算部42が計算し、この計算結果である類似度を示す図である。
【0060】
図7に示す結果によれば、たとえば、検索されたデータD とD との間における類似度R(1,2)が10であり、検索されたデータD とD との間における類似度R(1,3)が8である。
【0061】
図8は、上記実施例において、データD 〜D を分類する過程を示す図である。
【0062】
初期値として、各グループに属する要素としてのデータは、図8(1)に示すように、1つである。つまり、1つのグループに1つの検索データのみが属している。なお、閾値THは5である。
【0063】
まず、図7に示すベクトル間類似度のうちで、ベクトルV とV との類似度R(1,2)が10であり、これが図7中、最も大き値であるので、この類似度R(1,2)を取り出す。この場合、閾値THは「5」であるので、類似度R(1、2)>5であり、したがって、ベクトルV とV との類似性が充分に高いと判断し、図8(2)に示すように、ベクトルV を含むグループとベクトルV を含むグループとを合併する。
【0064】
そして、ベクトルV とV との間の類似度R(4,5)が10であるので、類似度R(4,5)が、次に大きな類似度であり、この類似度R(4,5)を取り出す。そして、類似度R(4,5)>5であるので、図8(3)に示すように、ベクトルV を含むグループとベクトルV を含むグループとを合併する。
【0065】
そして、ベクトルV とV との間の類似度R(1,3)が次に大きく、この類似度R(1、3)を取り出す。番号G[1]のグループに属する要素としての検索データD 、D のそれぞれについて、検索データD との間における類似度を調べると(図8(4))、類似度R(1、3)>5、類似度R(2、3)>5であるので、図8(5)に示すように、2つのグループを合併する。
【0066】
そして、類似度が次に大きな類似度は7であり、これに対応するデータは、D 、D であり、データD 、D は、図8(5)に示すように、既に1つのグループに属しているので、データD 、D に関する分類の処理としては、何も実行しない。
【0067】
そして、類似度が次に大きな類似度は7であり、これに対応するデータは、データD 、D であり、データD 、D の類似度R(3、4)>5であるが、データD が属するグループに属する他のデータD とデータD との類似度R(3、5)≦5であるので、図8(6)に示すように、残った2つのグループ同士について合併処理を実行しない。
【0068】
類似度Rが次に大きな類似度は3であり、これに対応するデータは、データD 、D であり、データD とD との類似度R(1,5)≦5なので、図8(7)に示すように、分類処理を終了する。
【0069】
この結果、データD 、D 、D が1つ目のグループに配属され、データD 、D が2つ目のグループに配属され、データD 、D 、D を含むグループと、データD 、D を含むグループとは、別のグループになる。このようにして分類処理を終了し、この分類結果を端末装置に送信する。
【0070】
図9は、上記実施例における出力例を示す図である。
【0071】
図9に示す出力例は、検索語として「オリンピック」を使用した例であり、データの検索結果は129件で、それら129件の検索データを上記実施例の処理に従って分類し、属するデータ数の多いグループから順に表示されている。
【0072】
データ数の最も多かったグループは、23個のデータを含むグループであり、その中から「オリンピック」に最も関連の強いデータを選び、そのタイトル「長野オリンピック公式ガイド」をそのグループのタイトルとしている。さらに、そのグループに含まれているデータの数、残りのデータのタイトルを複数個表示している。
【0073】
画面に表示されている「More」を画面上でクリックすることによって、残りのタイトルが表示され、さらに、タイトル部分をクリックすると、その詳細なデータが表示されるようになっている。他のグループについても、上記と同様である。
【0074】
上記実施例によれば、上記のように、少ない検索語の入力でも、利用者は欲しいデータがどこにあるか容易に把握することができ、検索時間の短縮、負担の軽減を図ることができる。
【0075】
図10は、本発明の他の実施例であるデータ検索装置DS2を示すブロック図である。
【0076】
データ検索装置DS2は、基本的にはデータ検索装置DS1と同じであり、データ関連づけ部90が設けられている点のみがデータ検索装置DS1とは異なるものである。
【0077】
データ関連づけ部90は、過去の所定期間に行われた検索における情報データベースと、データ関連づけ装置70とを有し、検索式が入力されるとその過去の所定期間に行われた検索におけるデータに基づいて関連語を作成し、関連語辞書Dを更新するものであり、これによって、常に、データニーズを反映した関連語が得られるようになっている。
【0078】
なお、上記実施例では、入力された検索語の関連語のみを使用して、各検索されたデータに基づいてベクトルを作成しているが、上記入力された検索語の関連語以外の語についてのベクトルを、グループに属する要素として考えるようにしてもよい。たとえば、検索結果のデータに含まれる全ての単語についてのベクトルを、グループに属する要素として考えるようにしてもよい。この場合、単語数がw個あるとすれば、n+w次元のベクトルを作成することになる。ただし、nは入力された検索語の関連語の数である。
【0079】
上記実施例によれば、従来と同様に入力された検索式を用いてデータベースからデータを選択するとともに、関連語辞書Dから得られる関連語を用いて検索データに関するベクトルを作成し、さらにこのベクトルを用いて、ベクトルに対応するデータ同士の間における類似度を求め、この類似度を用いて検索データを分類するので、少ない検索語入力の場合でも、検索結果を容易に把握することが可能であり、利用者が所望のデータを得るまでの時間、負担の軽減を図ることができる。
【0080】
そして、関連語辞書として、多数の利用者が所定期間に使用した過去の所定期間に行われた検索におけるデータを解析して作成した辞書を使用すれば、一般的な同義語ではなく、その時期に同義語的に使用された関連語を集約できるので、現在のデータニーズを反映した分類が可能である。
【0081】
また、上記実施例を記録媒体の発明として把握することができる。つまり、上記実施例は、端末装置から入力された検索式に基づいて、所定のサーバが、所定データを検索し、この検索されたデータを上記端末装置に提供するデータ検索手順において、所定の語と、この所定の語に関連する関連語とが対応して格納されている関連語辞書を上記サーバに設ける関連語辞書設置手順と、上記検索式に含まれている検索語の関連語を、上記関連語辞書を用いて抽出する関連語抽出手順と、上記関連語抽出手順で抽出された関連語を用いて、検索された複数のデータを複数のグループに分類する検索結果分類手順とをコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体の例である。この記憶媒体の例としては、CD、FD、ハードディスク、半導体メモリ等がある。
【0082】
【発明の効果】
本発明によれば、多くの利用者が使用した所定期間の過去の所定期間に行われた検索におけるデータを解析することによって得られた関連語辞書を設け、検索語の関連語を検索し、この関連語を用いて検索されたデータについてベクトルを作成し、ベクトル間の類似度を求め、この類似度で検索結果を自動的に分類して出力するので、利用者が検索結果を容易に把握することができ、データ検索システムの操作性が極めて向上するという効果を奏する。
請求項11、12記載の発明によれば、ユーザからの検索入力を、関連語辞書にフィードバックして常に更新するので、時期によって各文書を特徴付ける単語(検索語の関連語と検索語との関連度)が異なり、したがって、時期によって分類結果が異なるという効果を奏する。
【図面の簡単な説明】
【図1】本発明の一実施例であるデータ検索装置IS1を示すブロック図である。
【図2】データ検索装置DS1の処理動作を示すフローチャートである。
【図3】上記実施例におけるデータ関連付け装置70を示す図である。
【図4】上記実施例における関連語辞書Dの一例を示す図である。
【図5】検索結果分類装置40の一例を示すブロック図である。
【図6】上記実施例において、検索結果であるデータを分類する動作を示すフローチャートである。
【図7】上記実施例において、ベクトルV 〜V の各相互間におけるベクトル間類似度をベクトル間類似度計算部42が計算し、この計算結果である類似度を示す図である。
【図8】上記実施例において、データD 〜D を分類する過程を示す図である。
【図9】上記実施例における出力例を示す図である。
【図10】本発明の他の実施例であるデータ検索装置DS2を示すブロック図である。
【符号の説明】
DS1、DS2…データ検索装置、
DB1…情報データベース、
D…関連語辞書、
10…検索式受信部、
20…データ検索部、
30…関連語抽出部、
40…検索結果分類装置、
41…ベクトル変換部、
42…ベクトル間類似度計算部、
43…検索結果分類部、
70…データ関連付け装置、
80…相関係数検出装置。

Claims (12)

  1. 端末装置から入力された検索式に基づいて、所定のサーバが、所定データを検索し、この検索されたデータを上記端末装置に提供するデータ検索装置において、
    所定の語と、この所定の語に関連する関連語とが対応して格納され、上記サーバに設けられている関連語辞書と;
    上記検索式に含まれている検索語の関連語を、上記関連語辞書を用いて抽出する関連語抽出手段と;
    上記関連語抽出手段によって抽出された関連語を用いて、検索された複数のデータを複数のグループに分類する検索結果分類手段と;
    を有し、
    上記検索結果分類手段は、
    上記抽出された関連語を用いて、上記検索されたデータをベクトルに変換するベクトル変換手段と;
    上記変換された2つのベクトルの間における類似度を計算するベクトル間類似度計算手段と;
    を有し、上記ベクトル間類似度計算手段によって計算された類似度を用いて、上記検索された複数のデータを、複数のグループに分類する手段であることを特徴とするデータ検索装置。
  2. 請求項において、
    上記ベクトル変換手段は、
    上記各データ中の関連語の有無を用いることによって、上記各データのベクトルを作成する手段であることを特徴とするデータ検索装置。
  3. 請求項において、
    上記ベクトル変換手段は、
    上記各データ中の関連語の有無と、検索語と各関連語との関連度とを用いて、各データのベクトルを作成する手段であることを特徴とするデータ検索装置。
  4. 請求項において、
    上記ベクトル変換手段は、
    上記データ中の関連語が出現する数と、上記検索語と上記各関連語の関連度とを用いて上記各データのベクトルを作成する手段であることを特徴とするデータ検索装置。
  5. 請求項において、
    上記ベクトル間類似度計算手段が計算する上記2つのベクトル間の類似度は、上記2つのベクトルの内積を各ベクトルの大きさで割って得られた値であることを特徴とするデータ検索装置。
  6. 端末装置から入力された検索式に基づいて、所定のサーバが、所定データを検索し、この検索されたデータを上記端末装置に提供するデータ検索方法において、
    所定の語と、この所定の語に関連する関連語とが対応して格納されている関連語辞書を上記サーバに設ける関連語辞書設置段階と;
    上記検索式に含まれている検索語の関連語を、上記関連語辞書を用いて抽出する関連語抽出段階と;
    上記関連語抽出段階で抽出された関連語を用いて、検索された複数のデータを複数のグループに分類する検索結果分類段階と;
    を有し、
    上記検索結果分類段階は、
    上記抽出された関連語を用いて、上記検索されたデータをベクトルに変換するベクトル変換段階と;
    上記変換された2つのベクトルの間における類似度を計算するベクトル間類似度計算段階と;
    を有し、上記ベクトル間類似度計算段階によって計算された類似度を用いて、上記検索された複数のデータを、複数のグループに分類する段階であることを特徴とするデータ検索方法。
  7. 請求項において、
    上記ベクトル変換段階は、
    上記各データ中の関連語の有無を用いることによって、上記各データのベクトルを作成する段階であることを特徴とするデータ検索方法。
  8. 請求項において、
    上記ベクトル変換段階は、
    上記各データ中の関連語の有無と、検索語と各関連語との関連度とを用いて、各データのベクトルを作成する段階であることを特徴とするデータ検索方法。
  9. 請求項において、
    上記ベクトル変換段階は、
    上記データ中の関連語が出現する数と、上記検索語と上記各関連語の関連度とを用いて上記各データのベクトルを作成する段階であることを特徴とするデータ検索方法。
  10. 請求項において、
    上記ベクトル間類似度計算段階が計算する上記2つのベクトル間の類似度は、上記2つのベクトルの内積を各ベクトルの大きさで割って得られた値であることを特徴とするデータ検索方法。
  11. 請求項1において、
    上記検索式が入力されると、過去の所定期間に行われた検索におけるデータに基づいて関連語を作成し、上記関連語辞書を更新するデータ関連づけ手段を有することを特徴とするデータ検索装置。
  12. 請求項において、
    上記検索式が入力されると、過去の所定期間に行われた検索におけるデータに基づいて関連語を作成し、上記関連語辞書を更新するデータ関連づけ段階を有することを特徴とするデータ検索方法。
JP15067898A 1998-05-14 1998-05-14 データ検索方法、その装置および記録媒体 Expired - Fee Related JP3591813B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP15067898A JP3591813B2 (ja) 1998-05-14 1998-05-14 データ検索方法、その装置および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP15067898A JP3591813B2 (ja) 1998-05-14 1998-05-14 データ検索方法、その装置および記録媒体

Publications (2)

Publication Number Publication Date
JPH11328220A JPH11328220A (ja) 1999-11-30
JP3591813B2 true JP3591813B2 (ja) 2004-11-24

Family

ID=15502089

Family Applications (1)

Application Number Title Priority Date Filing Date
JP15067898A Expired - Fee Related JP3591813B2 (ja) 1998-05-14 1998-05-14 データ検索方法、その装置および記録媒体

Country Status (1)

Country Link
JP (1) JP3591813B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006040058A (ja) * 2004-07-28 2006-02-09 Mitsubishi Electric Corp 文書分類装置
JP4836069B2 (ja) * 2005-11-11 2011-12-14 株式会社リコー コンテンツ処理装置、コンテンツ処理プログラムおよびコンテンツ処理方法
JP4547500B2 (ja) * 2006-07-21 2010-09-22 国立大学法人群馬大学 検索装置及びプログラム
US20090094210A1 (en) * 2007-10-05 2009-04-09 Fujitsu Limited Intelligently sorted search results

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06124308A (ja) * 1992-10-14 1994-05-06 Fujitsu Ltd 情報整理処理装置

Also Published As

Publication number Publication date
JPH11328220A (ja) 1999-11-30

Similar Documents

Publication Publication Date Title
US9600533B2 (en) Matching and recommending relevant videos and media to individual search engine results
US9846744B2 (en) Media discovery and playlist generation
KR101242369B1 (ko) 사용자 액티비티, 주의, 관심 측정을 활용하는 데이터감지, 저장, 인덱싱, 및 탐색
US6236768B1 (en) Method and apparatus for automated, context-dependent retrieval of information
US7283992B2 (en) Media agent to suggest contextually related media content
US20050021545A1 (en) Very-large-scale automatic categorizer for Web content
US20080243889A1 (en) Information mining using domain specific conceptual structures
US20030120681A1 (en) Classification of information sources using graphic structures
US20100070507A1 (en) Hybrid content recommending server, system, and method
KR20080031262A (ko) 관계 네트워크
JP7395377B2 (ja) コンテンツ検索方法、装置、機器、および記憶媒体
CN115374781A (zh) 文本数据信息挖掘方法、装置、设备
US20060253433A1 (en) Method and apparatus for knowledge-based music searching and method and apparatus for managing music file
JP4904920B2 (ja) 雛形文書作成プログラム、雛形文書作成方法および雛形文書作成装置
JP2000010986A (ja) ドキュメントデータベースの検索支援方法とそのプログラムを記憶した記憶媒体
JP3591813B2 (ja) データ検索方法、その装置および記録媒体
KR101476225B1 (ko) 자연어 및 수식 색인화 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체
KR100490442B1 (ko) 벡터문서모델을 이용한 동일/유사제품 클러스트링 장치 및그 방법
JP3692416B2 (ja) 情報フィルタリング方法および装置
JP4134975B2 (ja) 話題文書提示方法及び装置及びプログラム
CN114282119A (zh) 一种基于异构信息网络的科技信息资源检索方法及系统
JP2003167891A (ja) 単語重要度算出方法、装置、プログラム、および記録媒体
CN117648444B (zh) 基于图卷积属性聚合的专利聚类方法和系统
JP4085568B2 (ja) テキストマイニング方法およびテキストマイニング装置並びにコンピュータ読み取り可能な記憶媒体
JP3861105B2 (ja) 質問応答システム

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040423

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040622

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040820

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040823

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080903

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080903

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090903

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090903

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100903

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100903

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110903

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120903

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130903

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees