JP3862059B2 - 検索式拡張方法および検索システム - Google Patents
検索式拡張方法および検索システム Download PDFInfo
- Publication number
- JP3862059B2 JP3862059B2 JP2001013839A JP2001013839A JP3862059B2 JP 3862059 B2 JP3862059 B2 JP 3862059B2 JP 2001013839 A JP2001013839 A JP 2001013839A JP 2001013839 A JP2001013839 A JP 2001013839A JP 3862059 B2 JP3862059 B2 JP 3862059B2
- Authority
- JP
- Japan
- Prior art keywords
- search
- word
- score
- document
- search expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は、検索式拡張方法および検索システムに関する。
【0002】
【従来の技術】
一般に、文書検索システムでは文書データベースに多数の文書群が、各文書に含まれる単語とその出現頻度等を要素とするベクトルとして登録しておく。そしてユーザが自然文を入力すれば、検索システム側でその自然文を解析して検索式を作成し、文書データベースに登録されている多数の文書を検索し、検索式と類似度の高いベクトルの文書を抽出し、該当文書として出力する。
【0003】
このような文書検索システムにおいて、さらに高精度の検索結果を得るために検索式拡張方法が知られている。この検索式拡張方法は、ユーザが入力した自然文から検索式に作成し、一度文書データベースを検索して候補となる文書群を抽出し、さらに抽出された文書群のベクトル情報を利用して検索式を拡張し、その拡張された検索式によって文書データベースを再検索することによってよりふさわしい文書群を抽出するものである。
【0004】
そこで従来から知られている検索式拡張方法の代表的なものとして、ロッキオ(Rocchio)の方法が知られている。このロッキオの方法は、ベクトル空間モデルに基づく類似度検索のために開発された検索式拡張方法であり、検索式を拡張することによって適合文書群との類似度を最大化させると共に、非適合文書群との類似度を最小化させるという基本原理に基づいた方法である。
【0005】
より具体的には、初期検索の結果選択された適合文書並びに非適合文書のそれぞれから単語を抽出し、次の数1式によって検索式を拡張するものである。
【0006】
【数1】
なお、数1式において、ベクトルQorg は入力されたオリジナルの検索式ベクトル、ベクトルQnew は拡張検索式ベクトル、Rは文書データベースに登録されている適合文書の数、Nは文書データベースに登録されている非適合文書の数、ベクトルDは上述した文書ベクトルである。また、α,β,γは係数であり、例えば、2,3,−2のような値が設定される。
【0007】
これにより、検索対象文書群の中から、初期検索によって選択された適合文書群のベクトルの平均値と非適合文書群のベクトルの平均値とオリジナルの検索式ベクトルQorg のそれぞれにα,β,γの所定の係数(重み)をかけて拡張検索式ベクトルQnew を得るのである。
【0008】
【発明が解決しようとする課題】
しかしながら、このような従来のロッキオの方法をはじめとする既存の検索式拡張方法では、初期検索の結果得られた文書群から自動的に拡張対象単語を抽出し、検索式拡張を行うので、インタラクティブ検索システム等の使用時にユーザが任意の拡張対象単語を指定したい状況下には適用することができない問題点があった。
【0009】
また、従来の検索式拡張方法では、検索式拡張の際に初期検索での検索式と検索対象文書との類似度の高低を考慮していないため、類似度が高い文書から抽出された単語と類似度が低い文書から抽出された単語とが全く同等に扱われてしまい、結果的に検索精度が低下してしまう問題点があった。
【0010】
本発明は、このような従来の問題点を解決するためになされたものであって、検索式拡張において協調フィルタリング手法を利用することにより、高い検索精度が得られる検索式拡張技術を提供することを目的とする。
【0011】
【課題を解決するための手段】
請求項1の発明の検索式拡張方法は、検索式および検索対象文書をそれぞれ単語を要素として含むベクトルで表し、両ベクトル間の類似度への該単語の影響力を数値化した重みを単語のスコアとしたとき、入力手段が、検索式の入力を受け付けるステップと、類似度算出手段が、入力された検索式と既存の検索対象文書群のすべての検索対象文書との類似度を算出するステップと、文書抽出手段が、算出された類似度が高い文書を前記検索対象文書群から抽出するステップと、スコア算出手段が、前記抽出された文書中に含まれる単語のスコアおよび前記類似度算出手段が算出した類似度に基づいて、拡張後の検索式に対する各単語のスコアを算出するステップと、拡張検索式作成手段が、前記単語のスコアを算出した後、拡張対象単語を選択し、拡張検索式を作成するステップとから成るものである。
【0012】
請求項2の発明の検索システムは、検索式および検索対象文書をそれぞれ単語を要素として含むベクトルで表し、両ベクトル間の類似度への該単語の影響力を数値化した重みを単語のスコアとしたとき、検索式を入力する入力手段と、検索対象文書群を記憶している記憶手段と、前記入力された検索式と前記検索対象文書群のすべての検索対象文書との類似度を算出する類似度算出手段と、前記算出された類似度が高い文書を前記検索対象文書群から抽出する文書抽出手段と、前記抽出された文書中に含まれる単語のスコアおよび前記類似度算出手段が算出した類似度に基づいて、拡張後の検索式に対する各単語のスコアを算出するスコア算出手段と、前記スコア算出手段が算出した単語のスコアに基づき、拡張対象単語を選択して拡張検索式を作成する拡張検索式作成手段と、前記拡張検索式に基づき、前記検索対象文書群を再検索する再検索手段とから成るものである。
【0014】
請求項3の発明の検索式拡張方法は、検索式および検索対象文書をそれぞれ単語を要素として含むベクトルで表し、両ベクトル間の相関係数への該単語の影響力を数値化した重みを単語のスコアとしたとき、入力手段が、検索式の入力を受け付けるステップと、相関係数算出手段が、入力された検索式と既存の検索対象文書群のすべての検索対象文書との相関係数を算出するステップと、文書抽出手段が、算出された相関係数が高い文書を前記検索対象文書群から抽出するステップと、スコア算出手段が、前記抽出された文書中に含まれる単語のスコアおよび前記相関係数算出手段が算出した相関係数に基づいて、拡張後の検索式に対する各単語のスコアを算出するステップと、拡張検索式作成手段が、前記単語のスコアを算出した後、拡張対象単語を選択し、拡張検索式を作成するステップとから成るものである。
【0015】
請求項4の発明の検索システムは、検索式および検索対象文書をそれぞれ単語を要素として含むベクトルで表し、両ベクトル間の相関係数への該単語の影響力を数値化した重みを単語のスコアとしたとき、検索式を入力する入力手段と、検索対象文書群を記憶している記憶手段と、前記入力された検索式と前記検索対象文書群のすべての検索対象文書との相関係数を算出する相関係数算出手段と、前記算出された相関係数が高い文書を前記検索対象文書群から抽出する文書抽出手段と、前記抽出された文書中に含まれる単語のスコアおよび前記相関係数算出手段が算出した相関係数に基づいて、拡張後の検索式に対する各単語のスコアを算出するスコア算出手段と、前記スコア算出手段が算出した単語のスコアに基づき、拡張対象単語を選択して拡張検索式を作成する拡張検索式作成手段と、前記拡張検索式に基づき、前記検索対象文書群を再検索する再検索手段とから成るものである。
【0017】
本発明によれば、検索式拡張において協調フィルタリング手法を利用し、ユーザが入力する検索式と検索対象文書群との類似度又は相関係数を検索式拡張の際に考慮するために検索対象文書の重要度が検索式拡張に反映され、ユーザの要求により適合した文書の検索が可能となる。加えて、ユーザの指定する単語など、任意の単語を利用した検索式拡張が可能である。
【0018】
【発明の実施の形態】
以下、本発明の実施の形態を図に基づいて詳説する。図1は本発明の1つの実施の形態の検索システムの機能的な構成を示している。この検索システムは1台のコンピュータシステム、あるいはLANや通信回線のような情報ネットワークで接続された複数台のコンピュータネットワークシステムとして実現されるものであり、後述する各構成要素は、入力インタフェース、出力インタフェース、外部記憶装置のようなハードウェアであったり、コンピュータに組み込まれるソフトウェアプログラムの演算処理機能であったりするが、ここでは説明を簡明にするために、すべてを機能要素として説明する。
【0019】
本実施の形態の検索システムは、ユーザがコマンドや検索文を入力し、またその他の必要な種々の情報を入力するための入力部1、本発明の特徴をなす検索式拡張処理部2、最終的な検索処理を行う検索処理部3、諸情報や検索結果を出力する出力部4、そして多数の文書データと文書ベクトルデータが保存されている文書データベース5から構成されている。
【0020】
入力部1は、ネットワークを通じて諸データを入力し、あるいはユーザによって種々のデータを入力するための入力インタフェースであり、本実施の形態に特定するならば、検索文を入力して検索処理を実行させるために必要な機能要素としてキーボード及びマウスその他のポインティングデバイスが該当する。
【0021】
検索式拡張処理部2は、入力部1から入力された検索文に対して検索式ベクトルを作成し、さらに検索式拡張を実行する機能要素である、この検索式拡張処理部2は図2に示す構成であり、検索式作成処理部21、類似度演算部22、スコア演算部23、拡張対象単語選択部24、拡張検索式作成部25、そして文書データベース5に登録されている検索対象文書群26から構成される。
【0022】
検索式作成処理部21は、ユーザが入力した検索文に対して検索式ベクトルを作成する。類似度演算部22は、検索式作成処理部21が作成した検索式ベクトルに対して検索対象文書群26内の各文書ベクトルとの類似度を演算し、類似度の高い文書ベクトルを抽出する。スコア演算部23は、類似度演算部22が抽出した文書ベクトル各々の中に含まれる各単語のスコアを利用し、拡張後の検索式ベクトルに対する各単語のスコアを算出する。拡張対象単語選択部24は、スコア演算部23により算出した各単語のスコアに基づき、拡張対象単語選択する。そして拡張検索式作成部25は、拡張対象単語選択部24が選択した単語を元の検索式ベクトルに加えることにより検索式拡張を行い、その拡張検索式ベクトルを出力する。
【0023】
検索処理部3は、検索式拡張処理部2が拡張した拡張検索式ベクトルに基づき文書データベース5内の文書ベクトル群を再検索し、適合文書を抽出する。出力部4は、検索処理部3により抽出された適合文書を表示、プリントアウト又はデータ伝送により出力する。
【0024】
次に、上記の実施の形態の検索処理システムによる検索処理動作について説明する。ユーザは入力部1により、検索文を入力する。この検索文はユーザ自身が手入力し、あるいはフロッピーディスクやハードディスクのような外部記憶装置に記憶されている文書を指定して入力する方法であってもよい。
【0025】
入力部1により検索文が入力されると、検索式拡張処理部2がこれを受け取り、図3に示すフローチャートのように検索式拡張処理を実行する。
【0026】
まず、検索式拡張処理部2における検索式作成処理部21が、入力された検索文に対して、それに含まれる所定の単語(例えば、日本語文であれば形態素解析により名詞や動詞、英文であれば名詞、動詞の原形や語幹。ただし、本検索システムに登録されている単語は全体で、w1 〜wn のn個である)ごとにその出現頻度をスコアqi (i=1〜n:nは本システムに登録されている単語辞書に含まれる単語数。したがって、単語によってはスコアqi =0となるものも含まれる)とするベクトルQの検索式を作成する。なお、予め文書データベース5には検索対象文書ベクトル群Dが登録されている。これらの検索対象文書ベクトル群Dは、上述した検索式ベクトルQと同様の文書ベクトルdm (m=1〜N)を要素とする集合である。そして検索対象文書ベクトルdm は、上記の検索式ベクトルQと同様に、それに含まれている所定の単語ごとの出現頻度もしくはこれに所定の演算処理をして得た値をスコアdmj(j=1〜n)としている(ステップS01)。
【0027】
なお、このスコアdmjの演算手法としては、一般的にはTF*IDFによるものが知られている。このTF*IDFとは、(Term Frequency * Inverse Document Frequency)のことで、単語の出現頻度に出現文書頻度の逆数をかけ算したものである。単純に単語の出現頻度だけに注目した場合、それほど重要な意味のない単語、「例えば、英語であれば(the)のような単語」が重要視されてしまうので、出現頻度TFにさらにIDFを掛けることによってより少ない文書に現れる単語の重要度を高めることができるからである。さらに、このTF*IDFに対して、次のような対数を用いた式を採用することもできる。
【0028】
【数2】
ここで、TF(j)は単語wj の出現頻度、DF(j)は単語wj が出現した文書の数、Mは登録全文書数である。
【0029】
検索式作成処理部21により入力された検索文から検索式ベクトルQが作成されると、この検索式ベクトルQは類似度演算部22に渡される。類似度演算部22では、検索式ベクトルQと検索対象文書ベクトル群D内のすべての検索対象文書ベクトルdm (m=1〜N)との類似度Simが演算される。この類似度演算を次のようにして行われる。
【0030】
【数3】
この数3式を数学的に説明すると、ベクトルQとベクトルdとの角度θの余弦(cosθ)である。したがって、ベクトル方向が完全に一致する場合にθ=0であり、類似度=1となる。類似度演算部22は、検索対象文書ベクトル群D中のすべての検索対象文書ベクトルdm (m=1〜N)各々に対して検索式ベクトルQとの余弦を計算し、それを類似度Sim(Q,d)として求める(ステップS02)。
【0031】
類似度演算部22はさらに、検索式ベクトルQとの類似度が高い上位k件の検索対象文書ベクトルds1〜dskを抽出し、これを類似文書ベクトル群Dsim とする(ステップS03)。
【0032】
続いてスコア演算部23が、元の検索式ベクトルQにおける1番目の単語w1 〜n番目の単語wn についてのスコアq1 〜qn を調べ、i番目の単語wi に対するスコアqi がゼロでない場合にはそのスコアを当該i番目の単語wi に対するスコアq’i (=qi )とし(ステップS06)、スコアqi がゼロの場合(つまり、元の検索式ベクトルQにはi番目の単語wi が含まれていない場合)には、次の数4式により当該i番目の単語wi に対するスコアを算出し、拡張後の検索式ベクトルQnew に対するi番目の単語wi に対するスコアとする(ステップS07)。つまり協調フィルタリングの原理を適用してシステムに登録されているすべての単語について、元の検索式ベクトルQを拡張するために新たにスコアを求めるのである(ステップS04〜S09)。
【0033】
【数4】
ここで、qバーは元の検索式ベクトルQにおけるスコアがゼロ以外の単語についてのスコアの平均値を示す。同様にdj バーは類似文書ベクトル群Dsim 内の類似文書ベクトルdsjにおけるスコアがゼロ以外の単語についてのスコアの平均値を示す。これらにおいて、例えば、スコアがゼロ以外の単語の数が100個あり、それら100個の単語のスコアの合計が1500であれば、スコアの平均値qバーは1500/100=15とするのである。
【0034】
数4式においてさらに、スカラーdjiは類似文書ベクトルdsjにおけるi番目の単語wi のスコアである。またさらに、係数κは正規化のための係数であり、κ×ΣSim(Q,d)=1になるように設定される。
【0035】
このようにして、元の検索式ベクトルQの要素中のスコアがゼロ、つまりこの検索式ベクトルには含まれていない単語であっても、元の検索式ベクトルに対する類似度が高い文書ベクトルds1〜dsk中には含まれており、その類似文書ベクトル中でのスコアが高い単語については拡張対象単語とするのである。
【0036】
拡張対象単語選択部24は、システムに登録されているすべての単語wj について、元の検索式ベクトルQに関連して得られたスコアq’ j の高いものから所定個数、例えば5個あるいは10個の単語を選択して元の検索式ベクトルQに含まれている単語に追加する。そして拡張検索式作成部25が拡張後検索式ベクトルQnew を作成する(ステップS10,S11)。
【0037】
例えば、元の検索式ベクトルQに含まれていた単語(したがって、スコアが0ではない単語)がA(10),B(5),C(6),D(15)であったとする。だたし、( )内の数字はスコアを示している。そして、類似文書ベクトル群Dsim 中の類似文書ベクトルdj に対する検索式拡張処理で新たに単語E(11),F(9),G(7)が得られたとする。この場合、元の検索式ベクトルQは、
【数5】
となるが、拡張後検索式ベクトルQnew は次のようになる。
【0038】
【数6】
このようにして得られた拡張検索式ベクトルQnew を用いて、検索処理部3は文書データベース5を再検索し、適合文書ベクトル群を抽出し、出力部4によりディスプレイに表示し、プリントアウトし、又はネットワークを通じてユーザのコンピュータに転送する。
【0039】
これにより、第1の実施の形態の検索システムによれば、ユーザが検索文としては不十分な入力を行った場合でも、検索システム側で自動的に検索式拡張処理を行い、入力された検索文に基づく検索式よりも拡張された検索式により登録文書データベースを検索し、ユーザが意図するような適切な文書を抽出し、出力することができるのである。
【0040】
次に、本発明の第2の実施の形態の検索システムを図4及び図5を用いて説明する。第2の実施の形態は、基本的な作用効果については第1の実施の形態と同様であるが、第1の実施の形態で用いた類似度の代わりに、相関係数を用いる点に特徴がある。したがって、本実施の形態の検索システムの機能的な構成は、図1に示した第1の実施の形態と共通であるが、検索式拡張処理部2による検索式拡張処理が、図4及び図5に示すように変更される。これについて、以下に説明する。
【0041】
本実施の形態における検索式拡張処理部2は、図4に示すようにユーザが入力する検索文に対して検索式ベクトルを作成する検索式作成処理部21、相関係数演算部220、スコア演算部230、拡張対象単語選択部24そして拡張検索式作成部25から構成される。これらのうち検索式作成処理部21、拡張対象単語選択部24及び拡張検索式作成部25は、図2に示した第1の実施の形態と同様である。
【0042】
そして本実施の形態の特徴部分である相関係数演算部220は、検索式ベクトルQに対して、検索対象文書ベクトル群Dに含まれるすべての文書ベクトル各々と後述する相関係数を演算し、相関係数上位kの検索対象文書ベクトルを抽出し、これをスコア演算部23に出力する。またスコア演算部230は、相関係数演算部220が抽出した文書ベクトル各々の中に含まれる単語のスコアを利用し、拡張後の検索式ベクトルに対する各単語のスコアを算出する。
【0043】
以下、図5に示すフローチャートを用いて、第2の実施の形態の検索システムの検索式拡張処理部2における検索式拡張処理について説明する。
【0044】
まず、検索式拡張処理部2における検索式作成処理部21によるステップS01の処理は、第1の実施の形態と共通である。
【0045】
そして、ステップS02′において、相関係数演算部220が、検索式ベクトルQと検索対象文書ベクトル群D内のすべての検索対象文書ベクトルdm (m=1〜N)との相関係数Corを演算する。この相関係数Corの演算は次のようにして行う。
【0046】
【数7】
ここで、qバーは検索式ベクトルQにおけるスコアが0以外の値を持つ単語ごとのスコアの平均値を示し、また、dm バーは検索対象文書のベクトルdm におけるスコアがゼロ以外の値を持つ単語ごとのスコアの平均値を示している。そして、スカラーqj は検索式ベクトルQ内のj(j=1〜n)番目の単語のスコアであり、スカラーdmjは検索対象文書ベクトルdm 内のj(j=1〜n)番目の単語のスコアである。
【0047】
相関係数演算部220はさらに、検索式ベクトルQとの相関係数が高い上位k件の検索対象文書ベクトルdc1〜dckを抽出し、これを類似文書ベクトル群Dcor とする(ステップS03′)。
【0048】
続いてスコア演算部230が、元の検索式ベクトルQにおける1番目〜n番目の単語各々についてのスコアq1 〜qn を調べ、i番目の単語に対するスコアqi がゼロでない場合にはそのスコアを当該i番目の単語に対するスコアq’i (=qi )とし(ステップS06)、スコアqi がゼロの場合には、次の数8式により当該i番目の単語に対するスコアを算出し、拡張後の検索式ベクトルQnew に対するi番目の単語に対するスコアq’i とする(ステップS07′)。つまり、ここでも協調フィルタリングの原理を適用してシステムに登録されているすべての単語について、元の検索式ベクトルQを拡張するために新たにスコアを求めるのである(ステップS04〜S09)。
【0049】
【数8】
ここで、qバーは元の検索式ベクトルQにおけるスコアがゼロ以外の単語についてのスコアの平均値を示す。同様にdj バーは類似文書ベクトル群Dcor 内の類似文書ベクトルdcjにおけるスコアがゼロ以外の単語についてのスコアの平均値を示し、スカラーdjiは類似文書ベクトルdcjにおけるi番目の単語のスコアを示す。数8式においてさらに、係数κは正規化のための係数であり、κ×ΣCor(Q,d)=1になるように設定される。
【0050】
このようにして、元の検索式ベクトルQの要素中のスコアがゼロ、つまりこの検索式ベクトルには含まれていない単語であっても、元の検索式ベクトルに対する相関係数が高い文書ベクトルdc1〜dck中には含まれており、その類似文書ベクトル中でのスコアが高い単語については拡張対象単語とするのである。
【0051】
拡張対象単語選択部24は、第1の実施の形態と同様に、システムに登録されているすべての単語w1 〜wn について、元の検索式ベクトルQに関連して得られたスコアq’ j の高いものから所定個数の単語を選択して元の検索式ベクトルQに含まれている単語に追加する。そして拡張検索式作成部25が拡張後検索式ベクトルQnew を作成する(ステップS10,S11)。
【0052】
このようにして得られた拡張検索式ベクトルQnew を用いて、検索処理部3は文書データベース5を再検索し、適合文書ベクトル群を抽出し、出力部4によりディスプレイに表示し、プリントアウトし、又はネットワークを通じてユーザのコンピュータに転送する。
【0053】
これにより、第2の実施の形態の検索システムによっても、ユーザが検索文としては不十分な入力を行った場合でも、検索システム側で自動的に検索式拡張処理を行い、入力された検索文に基づく検索式よりも拡張された検索式により登録文書データベースを検索し、ユーザが意図するような適切な文書を抽出し、出力することができる。
【0054】
なお、上記の両実施の形態において、各式で用いる係数その他の数値は例示したものであり、特に限定されるものではなく、システムにより、検索対象文書の種類により変更され得るものであり、またこれらをユーザが入力部から設定・変更操作することもできる。
【0055】
また、上記の両実施の形態においては、検索式を作成するためにユーザは自然文の形の検索文を入力するものとしたが、ユーザに最初から検索式を入力させる方法とってもよい。
【0057】
【発明の効果】
本発明によれば、検索式拡張において協調フィルタリング手法を利用し、ユーザが入力する検索式と検索対象文書群との類似度又は相関係数を検索式拡張の際に考慮するために、検索対象文書の重要度が検索式拡張に反映され、ユーザの要求により適合した文書の検索が可能である。加えて、ユーザの指定する単語など、任意の単語を利用した検索式拡張が可能である。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態の検索システムの機能的な構成を示すブロック図。
【図2】第1の実施の形態における検索式拡張処理部の詳しい機能的構成を示すブロック図。
【図3】第1の実施の形態による検索式拡張処理のフローチャート。
【図4】本発明の第2の実施の形態における検索式拡張処理部の詳しい機能的構成を示すブロック図。
【図5】第2の実施の形態による検索式拡張処理のフローチャート。
【符号の説明】
1 入力部
2 検索式拡張処理部
3 検索処理部
4 出力部
5 文書データベース
21 検索式作成処理部
22 類似度演算部
23 スコア演算部
24 拡張対象単語選択部
25 拡張検索式作成部
26 検索対象文書群
220 相関係数演算部
230 スコア演算部
Claims (4)
- 検索式および検索対象文書をそれぞれ単語を要素として含むベクトルで表し、両ベクトル間の類似度への該単語の影響力を数値化した重みを単語のスコアとしたとき、
入力手段が、検索式の入力を受け付けるステップと、
類似度算出手段が、入力された検索式と既存の検索対象文書群のすべての検索対象文書との類似度を算出するステップと、
文書抽出手段が、算出された類似度が高い文書を前記検索対象文書群から抽出するステップと、
スコア算出手段が、前記抽出された文書中に含まれる単語のスコアおよび前記類似度算出手段が算出した類似度に基づいて、拡張後の検索式に対する各単語のスコアを算出するステップと、
拡張検索式作成手段が、前記単語のスコアを算出した後、拡張対象単語を選択し、拡張検索式を作成するステップとから成る検索式拡張方法。 - 検索式および検索対象文書をそれぞれ単語を要素として含むベクトルで表し、両ベクトル間の類似度への該単語の影響力を数値化した重みを単語のスコアとしたとき、
検索式を入力する入力手段と、
検索対象文書群を記憶している記憶手段と、
前記入力された検索式と前記検索対象文書群のすべての検索対象文書との類似度を算出する類似度算出手段と、
前記算出された類似度が高い文書を前記検索対象文書群から抽出する文書抽出手段と、
前記抽出された文書中に含まれる単語のスコアおよび前記類似度算出手段が算出した類似度に基づいて、拡張後の検索式に対する各単語のスコアを算出するスコア算出手段と、
前記スコア算出手段が算出した単語のスコアに基づき、拡張対象単語を選択して拡張検索式を作成する拡張検索式作成手段と、
前記拡張検索式に基づき、前記検索対象文書群を再検索する再検索手段とから成る検索システム。 - 検索式および検索対象文書をそれぞれ単語を要素として含むベクトルで表し、両ベクトル間の相関係数への該単語の影響力を数値化した重みを単語のスコアとしたとき、
入力手段が、検索式の入力を受け付けるステップと、
相関係数算出手段が、入力された検索式と既存の検索対象文書群のすべての検索対象文書との相関係数を算出するステップと、
文書抽出手段が、算出された相関係数が高い文書を前記検索対象文書群から抽出するステップと、
スコア算出手段が、前記抽出された文書中に含まれる単語のスコアおよび前記相関係数算出手段が算出した相関係数に基づいて、拡張後の検索式に対する各単語のスコアを算出するステップと、
拡張検索式作成手段が、前記単語のスコアを算出した後、拡張対象単語を選択し、拡張検索式を作成するステップとから成る検索式拡張方法。 - 検索式および検索対象文書をそれぞれ単語を要素として含むベクトルで表し、両ベクトル間の相関係数への該単語の影響力を数値化した重みを単語のスコアとしたとき、
検索式を入力する入力手段と、
検索対象文書群を記憶している記憶手段と、前記入力された検索式と前記検索対象文書群のすべての検索対象文書との相関係数を算出する相関係数算出手段と、
前記算出された相関係数が高い文書を前記検索対象文書群から抽出する文書抽出手段と、
前記抽出された文書中に含まれる単語のスコアおよび前記相関係数算出手段が算出した相関係数に基づいて、拡張後の検索式に対する各単語のスコアを算出するスコア算出手段と、
前記スコア算出手段が算出した単語のスコアに基づき、拡張対象単語を選択して拡張検索式を作成する拡張検索式作成手段と、
前記拡張検索式に基づき、前記検索対象文書群を再検索する再検索手段とから成る検索システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001013839A JP3862059B2 (ja) | 2001-01-22 | 2001-01-22 | 検索式拡張方法および検索システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001013839A JP3862059B2 (ja) | 2001-01-22 | 2001-01-22 | 検索式拡張方法および検索システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002215672A JP2002215672A (ja) | 2002-08-02 |
JP3862059B2 true JP3862059B2 (ja) | 2006-12-27 |
Family
ID=18880623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001013839A Expired - Fee Related JP3862059B2 (ja) | 2001-01-22 | 2001-01-22 | 検索式拡張方法および検索システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3862059B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4857448B2 (ja) * | 2006-03-10 | 2012-01-18 | 独立行政法人情報通信研究機構 | 多義語による情報検索装置及びプログラム |
JP5213742B2 (ja) * | 2009-02-04 | 2013-06-19 | 日本電信電話株式会社 | 概念検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 |
JP6053131B2 (ja) * | 2012-12-05 | 2016-12-27 | 株式会社アイ・アール・ディー | 情報処理装置、情報処理方法、およびプログラム |
CN110032741B (zh) * | 2019-05-06 | 2020-02-04 | 重庆理工大学 | 一种基于语义扩展和最大边缘相关的伪文本生成方法 |
JP7341866B2 (ja) | 2019-11-21 | 2023-09-11 | 株式会社日立製作所 | 情報処理システムおよび検索方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3595184B2 (ja) * | 1998-03-12 | 2004-12-02 | Kddi株式会社 | 文書検索方法及び文書検索装置 |
JP3930168B2 (ja) * | 1998-11-12 | 2007-06-13 | 日本電信電話株式会社 | 文書検索方法、装置および文書検索プログラムを記録した記録媒体 |
-
2001
- 2001-01-22 JP JP2001013839A patent/JP3862059B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2002215672A (ja) | 2002-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7346487B2 (en) | Method and apparatus for identifying translations | |
KR100408637B1 (ko) | 유사어 추출 및 문서 검색을 위한 방법 및 시스템 | |
JP6176017B2 (ja) | 検索装置、検索方法、およびプログラム | |
JP2002259429A (ja) | コンピュータベースの適合テキスト検索システムおよび方法 | |
JPH0424869A (ja) | 文書処理システム | |
JP3173411B2 (ja) | 関連文書検索装置及び関連文書検索プログラムを記録した記録媒体 | |
JP2010287020A (ja) | 同義語展開システム及び同義語展開方法 | |
JP2006215717A (ja) | 情報検索装置、情報検索方法および情報検索プログラム | |
JP3831357B2 (ja) | 対訳情報作成装置及び対訳情報検索装置 | |
JP2000200281A (ja) | 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体 | |
JP3862059B2 (ja) | 検索式拡張方法および検索システム | |
JP4065346B2 (ja) | 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JPH09282331A (ja) | 文書類似判定装置および文書類似判定方法 | |
JP2008117351A (ja) | 検索システム | |
JP5869948B2 (ja) | パッセージ分割方法、装置、及びプログラム | |
JP3614765B2 (ja) | 概念辞書拡張装置 | |
JP4148247B2 (ja) | 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP2003108571A (ja) | 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体 | |
JP2002117043A (ja) | 文書検索装置、文書検索方法およびその方法を実施するためのプログラムを記録した記録媒体 | |
JP2010009237A (ja) | 多言語間類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 | |
JPH1145254A (ja) | 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP4049543B2 (ja) | 文書検索装置、文書検索プログラム、記録媒体 | |
JP4384736B2 (ja) | 画像検索装置およびその装置の各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2000112990A (ja) | テキスト検索装置、有効語頻度作成装置、テキスト検索方法、及び有効語頻度作成方法並びに記録媒体 | |
JP2001243230A (ja) | 類似性判別方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060412 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060606 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060628 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060825 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060920 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060920 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121006 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131006 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |