JP2005025465A - 文書検索方法及び文書検索装置 - Google Patents

文書検索方法及び文書検索装置 Download PDF

Info

Publication number
JP2005025465A
JP2005025465A JP2003189671A JP2003189671A JP2005025465A JP 2005025465 A JP2005025465 A JP 2005025465A JP 2003189671 A JP2003189671 A JP 2003189671A JP 2003189671 A JP2003189671 A JP 2003189671A JP 2005025465 A JP2005025465 A JP 2005025465A
Authority
JP
Japan
Prior art keywords
document
classification
search
similarity
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003189671A
Other languages
English (en)
Inventor
Kazuhiro Kimura
和広 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2003189671A priority Critical patent/JP2005025465A/ja
Publication of JP2005025465A publication Critical patent/JP2005025465A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】専門知識の無い者であっても高精度な文書検索を実現する。
【解決手段】文書分類情報の特徴を示す分類特徴量を計算する分類特徴量計算手段103と、検索質問105と分類特徴量の暫定類似度を計算する暫定類似度計算手段106を含み、暫定類似度に基づき文書を検索する検索手段110とを備える。索引語の出現頻度に基づく文書特徴量ベクトルをCD、同様にして定義した各分類の分類特徴量をCL、検索文の文書特徴量をQとし、QとCD、QとCLの各類似度を計算し、これらの値に基づいて検索し、類似度の高い順に表示する。
【選択図】図1

Description

【0001】
【発明の属する技術分野】
本発明は、文書分類を用いた文書検索方法及び文書検索装置に関する。
【0002】
【従来の技術】
近年のインターネットの普及に伴い、電子化された文書の流通量が飛躍的に増大している。これに伴い、利用者が目的とする情報を大量の文書が格納されたデータベースから効率よく検索する技術の重要性がますます高まってきている。
【0003】
現在、利用されている代表的な検索モデルには、ブーリアンモデルやベクトル空間モデルがある。ブーリアンモデルは、検索質問を索引語の論理式で表現して当該の索引語の出現の有無で適合文書を判断するモデルである。ベクトル空間モデルは、検索質問及び検索対象文書を索引語の重みベクトルで表現して両ベクトル間の類似度(余弦など)で適合文書を判断するモデルである。
【0004】
しかし、これらの基本的なモデルだけでは、十分な検索性能が得られないことが多い。そこで、例えば、web検索の世界では、ページランク方式が用いられる。このページランク方式は、利用者がwebページにアクセスした回数をコンピュータが記録する。そして、記録したアクセス回数を用いてページの有用性を判断して、検索結果を提示する。つまり、検索質問と検索対象文書との類似性以外の情報を活用しようとする。
【0005】
これと同様に、検索対象文書に文書分類が付与されている場合には、この文書分類情報を活用して基本的なモデルを補完することが考えられる。文書分類が付与された検索対象としては、例えば特許文書がある。特許文書には、IPC,FI,Fターム等の分類情報が予め検索対象に付与されている。これらは、統制された索引語としての性質もあるがここでは分類情報ととらえられる。
【0006】
特開平6−314297号公報(特許文献1)では、このFタームを検索質問(=入力文書)から自動検知し、検知されたFターム群を検索条件として、特許検索を行う方法が提案されている。
【0007】
この検索方法では、入力文書の分類(Fターム)は、入力文書に出現した用語(その同義語も含む)の中から、予め与えられた複数の分類決定用辞書とファジーメンバーシップ関数によって選定される。
【0008】
この検索方法の第1の問題は、この検索方法では、少なくとも入力文書中に分類項目に照合する用語(もしくはその同義語)が出現しないと、分類できない。
【0009】
第2の問題は、入力文書の分類に必要な複数の分類決定用辞書及びファジーメンバーシップ関数を予め(人手により)用意しておく必要があり、この作成に多大なコストを要する。
【0010】
第3の問題は、検索時においては、自動検知された分類(Fターム)だけを索引として利用するため、自動検知の結果が誤りであった場合には、全く無関係な文献が検索されてしまい、頑健性に乏しい。
【0011】
特許検索に特許分類を用いる別の方法として、特開2001−52022公報(特許文献2)が提案されている。この方法では、まずフリーキーワードなどで1次検索を行う。そして、この1次検索結果の集合に対して、利用者がある分類項目(例えばFターム)を指定する。この指定に基づき当該分類項目のタームを頻度付きで表示し、この中から利用者が選んだタームを新たなブール条件として付加する。これにより、2次検索(絞り込み)を可能としている。
【0012】
この方法では、前記特許文献1の問題であった自動分類の誤りを人間が介在することによって回避することで、頑健な方式となっている。しかしながら、特許文献2の方式では、1次検索結果に依存して分類の候補を決定する。従って、1次検索の品質が芳しくない場合には、特許文献1のように検索質問から直接分類を決定する方法に比較して、本来の検索質問との関連性の薄い分類候補が導かれてしまう可能性が高くなるという問題がある。また、介在する人間には、分類項目(あるいは分類体系)に関しての一定の専門知識が要求され、サーチャーなどの専門家でない利用者にとっては、利用法が難しいという問題がある。
【0013】
その他、文書分類を活用した文書検索方法として、特開2002−278987公報(特許文献3)がある。この方法では、web検索において、入力された検索質問(キーワード)から対応表を用いて産業分類コードを抽出する。この抽出コードをwebページに予め埋め込まれた産業分類コード(文書分類)と照合する。これにより、検索効率が向上する。この特許文献3の場合も、特許文献1と同様に、検索質問中に対応表に存在するキーワードが出現しない場合には、分類が特定できないという問題がある。
【0014】
【特許文献1】
特開平6−314297号公報
【0015】
【特許文献2】
特開2001−52022公報
【0016】
【特許文献3】
特開2002−278987公報
【0017】
【発明が解決しようとする課題】
上述したように、文書分類を活用した文書検索は、一般的な文書検索モデルだけでは得られない高精度な検索を可能とするものの、特定の文書分類用辞書(群)を予め人手で用意するためコストが高く、また、同辞書に照合しない表現が検索質問に現れた場合無力であるなど頑健性に乏しい(特許文献1,3)。
【0018】
また、特許文献2のごとく、文書分類に利用者の介在を前提とする場合は、特に特許文献のごとく文書分類が極めて精緻かつ膨大なケースにおいて、利用者に高度の専門知識を要求する。
【0019】
本発明は上記事情に鑑みてなされたものであり、専門知識の無い者であっても高精度な文書検索を実現する文書検索方法及び文書検索装置を提供することにある。
【0020】
【課題を解決するための手段】
この発明の一の観点によれば、文書の分類を示す文書分類情報が対応付けられた文書の集合を検索質問により検索する文書検索方法であって、前記文書分類情報の特徴を示す分類特徴量を計算し、前記検索質問と前記分類特徴量の第1の暫定類似度を計算し、前記第1の暫定類似度に基づき前記文書を検索することを特徴とする文書検索方法が提供される。
【0021】
また、方法に係る本発明は、その方法により実現するための装置の発明としても成立する。また、装置または方法に係る本発明は、コンピュータに当該発明に相当する手順を実行させるためのプログラム、及びこのプログラムを記録したコンピュータ読取り可能な記録媒体としても成立する。
【0022】
【発明の実施の形態】
以下、図面を参照しながら本発明の一実施形態を説明する。
【0023】
図1は、本発明の一実施形態に係る文書検索装置1の構成を示す機能ブロック図である。同図において、100は検索対象となる文書集合が格納される検索対象文書集合データベースである。各文書には、文書の分類を示す文書分類情報が関連づけられている。
【0024】
101は、この検索対象文書集合データベース100の検索対象文書集合から特徴量を抽出して索引付けを行う文書特徴量計算手段である。102は、文書特徴量計算手段101により計算された特徴量と検索対象文書集合データベース100の検索対象文書集合とを対応づけて格納した文書特徴量データベースである。103は、検索対象文書集合データベース100の検索対象文書集合の各文書に対応づけられた分類記号ごとに当該分類の特徴量を計算する分類特徴量計算手段である。104は、分類特徴量計算手段103により計算された分類特徴量と各分類記号とを対応づけて格納する分類特徴量データベースである。105は利用者により入力される検索質問で、自然言語文からなる電子データである。110は、検索質問105に基づき文書検索を実行して検索結果108を出力する検索手段であり、暫定類似度計算手段106と再ランキング手段107からなる。
【0025】
暫定類似度計算手段106は、入力された検索質問105を特徴量表現に変換し、該変換後の検索質問と、文書特徴量データベース102及び分類特徴量データベース104との照合を行って、類似度の高い文書及び分類記号を抽出する。再ランキング手段107は、暫定類似度計算手段106により検索された文書の暫定類似度ランキングを、分類記号の暫定類似度を加味して再ランキングする。108は、再ランキング手段107により再ランキングされ利用者に提示される検索結果の電子データである。
【0026】
文書特徴量計算手段101、分類特徴量計算手段103、暫定類似度計算手段106及び再ランキング手段107は、例えばコンピュータのCPUにより実現される。
【0027】
上記検索対象文書集合データベース100、文書特徴量データベース102及び分類特徴量データベース104は、暫定類似度計算手段106及び再ランキング手段107における検索の実行に先立ち、事前に用意されるデータベースである。
【0028】
次に本実施形態の文書特徴量計算手段101、分類特徴量計算手段103、暫定類似度計算手段106及び再ランキング手段107における各処理の詳細について説明する。本実施形態では、検索対象文書集合データベース100に格納される検索対象文書集合として、特許明細書に関する各種特許公開公報(出願公開公報、特許公報など)を例にとって説明する。特許公開公報には周知の通り、公報毎に国際特許分類(IPC)記号が付与されている。日本国特許であれば、IPCの他にFI記号やFタームと呼ばれる分類記号も付与されており、米国特許であれば、Patent Classification(USPC)が付与されている。これらは、分類の粒度に応じて体系的に構成されている。ここでは、特許検索の熟練者が精密な検索を行う際に良く用いるFタームを利用する分類記号として説明する。
【0029】
図2は図1に示す文書検索装置1のハードウェア構成の一例を示す図である。図2に示すように、バス11にCPU12、記憶装置13、入力装置14、表示装置15及び通信装置16などが接続されている。記憶装置13には、CPU12を文書特徴量計算手段101、分類特徴量計算手段103、暫定類似度計算手段106及び再ランキング手段107として機能させるための文書特徴量計算プログラム、分類特徴量計算プログラム、暫定類似度計算プログラム及び再ランキング処理プログラムなどが格納されている。また、記憶装置13には、検索対象文書集合データベース100、文書特徴量データベース102、分類特徴量データベース104に格納されるデータや、検索結果などのデータが格納される。
【0030】
文書特徴量計算手段101による処理は、検索対象の検索のために利用者の検索実行に先立って実行される処理である。図3は文書特徴量計算手段101による文書特徴量計算処理のフローチャートを示す図である。
【0031】
図3において、文書特徴量計算手段101は、検索対象文書集合データベース100に格納された検索対象文書集合の文書毎に形態素解析を実行し、自立語や未登録語などの索引語の抽出処理を行う(s1)。
【0032】
次に、文書特徴量計算手段101は、検索対象文書集合の文書d(j=1,2,…,m)毎に得られた索引語t(i=1,2,…,N)の頻度fi,jをカウントし、索引語tが文書dに出現する頻度fi,jを表す索引語−文書頻度行列Fを生成する(s2)。mは総文書数、Nは索引語tの総数である。
【0033】
次に、文書特徴量計算手段101は、各文書d中に出現する索引語tの重み付けを行い重み係数wi,jを算出する(s3)。重み係数wi,jは、文書d中に索引語tが出現する回数fi,j及び索引語tが出現する検索対象文書集合中の文書数nの逆数を用いて、例えば次の数式(1)で算出する。
【0034】
【数1】
Figure 2005025465
【0035】
ここで、|DB|は文書総数である。文書特徴量計算手段101は、索引語−文書頻度行列Fの各要素を頻度fi,jから重み係数wi,jに置換した索引語−文書重み行列Wを作成し、この索引語−文書重み行列Wの転置ファイル/Wを作成することで、検索質問から文書を検索するための索引ファイル/Wからなる文書特徴量CDを得る。得られた文書特徴量CDは、文書特徴量データベース102に格納される(s4)。文書特徴量CDは、各文書について基本ベクトルを索引語 (以下、単語ベクトル)としたN次元のベクトルで表現される。以下、文書特徴量CDのベクトル表現を文書特徴量ベクトルCDで示す。文書dについての文書特徴量CD は、CD =w1,j +w2,j +…+wn,j で表される。なお、以下において、倍角文字で示される値はベクトル量であり、特に示さない限り、ベクトル量は索引語を基本ベクトルとしたベクトル量である。
【0036】
分類特徴量計算手段103による処理は、文書特徴量計算手段101による処理と同様に、検索対象の検索のために利用者の検索実行に先立って実行される処理である。図4は分類特徴量計算手段103による分類特徴量計算処理のフローチャートを示す図である。
【0037】
図4において、分類特徴量計算手段103は、文書特徴量計算手段101の各検索対象文書dから文書特徴量CDを求め各文書をベクトル化し、文書特徴量ベクトルCDを求める(s11)。これは、先に述べた文書特徴量計算手段101による処理と同じ処理でもよいので、本実施形態では、文書特徴量計算手段101による処理結果を再利用することにする。
【0038】
次に、分類特徴量計算手段103は、分類記号の集合から一つを選択する(s12)。そして、検索対象文書集合データベース100の各文書dが選択した分類記号で示される分類に属するか否かを判定し、属するものと属しないものに2分割する(s13)。この属否は、例えば、1の分類記号として選択されたFターム2H027DA02(電子写真における制御・保安、装置状態の検出・検知・測定・計測・計数、電位・電流・電圧の検出、感光体の電位の意)が付与されているか否かが文書中にFターム記載事項が含まれているか否かを検出することにより判定される。文書中の分類記号の検出は、例えば特許明細書のレイアウト解析あるいはSGMLタグ解析などでよい。
【0039】
次に、選ばれた分類記号に対し、その特徴量(分類特徴量CL)を索引語を基本ベクトルとしたベクトル量として計算する(s14)。分類特徴量ベクトルCLは、当該分類記号の基本特徴ベクトル 、当該分類の付与された文書num件の文書ベクトルの和 、当該分類の付与されていない文書num件の文書ベクトルの和 としたとき、次の数式(2)によって計算する。
【0040】
【数2】
Figure 2005025465
【0041】
ここで、α、β、γは値が0以上の適当な定数である。また、CLのi番目の要素CLが負となった場合はCL=0とし、当該の索引語は用いないものとする。 は、選択された分類記号の基本特徴を表すベクトルである。この基本特徴ベクトル は、例えば、その分類の説明文などを単語ベクトル化することによって得る。
【0042】
分類の説明文とは、例えばFターム「2H027DA02」であれば、「感光体の表面電位を検出して画質条件などを制御するものであり、通常は観点EA、ECとともに付与される。露光前の電位を検出する場合と、露光後の潜像電位を検出するもの、転写後の表面電位を検出するものなど種々のものがある。原稿露光後の潜像の電位を検出する場合は、すなわち原稿の濃度を検出していることであるからDB01も付与。」なる文が該当する。α=0として、基本特徴ベクトル を用いないように設定してもよい。
【0043】
分類特徴量計算手段103は、分類特徴量ベクトルCLがすべての分類記号について算出されたか否かを判定し(s15)、分類記号のすべてについて算出されていない場合には、未選択の分類記号を新たに選択し(s16)た後、繰り返し(s13)の文書集合の分割処理および(s14)の分類特徴量ベクトルCLの算出処理を実行する。(s15)にて分類記号のすべてについて算出された場合には、各分類記号の分類特徴量ベクトルCLは、その分類記号に対応づけられて分類特徴量データベース104に格納される(s17)。
【0044】
分類記号dに(p=1,2,…,P)についての分類特徴量CL は、CL =x1,p +x2,p +…+xn,p で表される。xi,pは分類記号dに対する各索引語tの重み係数である。
【0045】
Fタームのように、文書分類が分類の粒度に応じて体系的に構成されている場合には、この分類特徴を各分類の粒度ごとに作成(例えば2H027というテーマコードレベルの分類特徴を作成)し、分類特徴量データベース104を体系的に構成しても良い。
【0046】
また、本実施形態では、分類特徴量ベクトルCLの計算に検索対象文書集
合データベース100に格納される検索対象文書の全てを用いたが、これは特徴の抽出に十分な量があればよく、例えば適当な1〜2年分の特許文献のみを用いて計算しても良い。
【0047】
図5は暫定類似度計算手段106及び再ランキング手段107における検索処理及び再ランキング処理のフローチャートを示す図である。
【0048】
図5において、暫定類似度計算手段106は、まず検索質問105を生成する(s21)。この検索質問105の生成は、例えば利用者により例えば入力装置14を用いて入力してもよいし、通信装置16を介して他の端末やサーバから受信してもよいし、記憶装置13からCPU12が抽出してもよい。検索質問105は、例えば数文字から数十文字からなる利用者が自由に記述した自然言語文でも良いし、特許文献や論文などの文献ファイル自体でも良い。
【0049】
次に、暫定類似度計算手段106は、検索質問105を単語ベクトル化する(s22)。ベクトル化は、先に述べた文書特徴量ベクトルCDの作成方法と同様に、数式(1)などを用いて行うことができる。すなわち、数式(1)における文書dを検索質問105に置換して数式(1)を適用することにより検索質問105の質問ベクトル(質問特徴量)を生成することができる。従って、質問ベクトルは、=y +y +…+y で表される。yは質問に対する各索引語tの重み係数である。
【0050】
次に、暫定類似度計算手段106は、この質問ベクトルを用いて文書特徴量データベース102を検索し、質問と文書の暫定類似度SDを算出する(s23)。暫定類似度SDは、例えば文書特徴量CDと質問ベクトルの余弦cosθCD・Q/CD|・||により求められる。
【0051】
暫定類似度計算手段106は、表示装置15にこの暫定類似度SDを表示することができる。また、暫定類似度計算手段106は、この表示の際に、暫定類似度SDに基づき文書をランキングすることができる。文書のランキングは、例えば暫定類似度SDの大きい順に文書を並び替えればよい。
図6は文書特徴量と質問との暫定類似度SDの一例を示す図である。図6の例では、暫定類似度SDの大きい順に文書が並べ替えて表示されている。各文書について、検索順位(ランキング)、文書名、類似度(暫定類似度SD)、分類記号が表示される。
【0052】
次に、暫定類似度計算手段106は、質問ベクトルを用いて分類特徴量データベース104を検索し、質問と分類記号の暫定類似度SLを算出する(s24)。暫定類似度SLは、例えば分類特徴量CLと質問ベクトルの余弦cosθCL・Q/CL|・||により求められる。
【0053】
暫定類似度計算手段106は、表示装置15にこの暫定類似度SLを表示することができる。また、暫定類似度計算手段106は、この表示の際に、暫定類似度SLに基づき分類記号をランキングすることができる。分類記号のランキングは、例えば暫定類似度SLの大きい順に文書並び替えればよい。
図7は分類特徴量と質問との暫定類似度SLの一例を示す図である。図7の例では、暫定類似度SLの大きい順に文書が並べ替えて表示されている。各文書について、検索順位(ランキング)、分類記号、類似度(暫定類似度SL)が表示される。
【0054】
なお、図6及び図7に示したランキングに従った文書及び分類記号の表示は、例えば予め定められた暫定類似度SD、SLの閾値SDth、SLthよりも大きいもののみに限ってもよい。
【0055】
なお、(s23)と(s24)の各処理は逐次的に行う必要はないので、並列計算機などで並行実行しても良い。
【0056】
図6に示される文書の検索結果は、再ランキング手段107によって、順位付けの変更が行われる(s25)。再ランキングでは、まず、図7の結果から適当な閾値SLth以上の分類記号を抽出して、これを検索質問105の推定分類とする。例えば、閾値SLthを0.6として、集合B={2H027DA02,2H027EA02,2H027FA02}を、推定される分類とする。次に、図6の結果に対して、各文書に付与されている分類記号の集合Aと、推定された分類記号の集合Bの分類類似度simを次の数式(3)により求める。
【0057】
【数3】
Figure 2005025465
【0058】
ここで、|A|,|B|は集合A,Bの濃度である。そして、この分類類似度simと、図5のステップs23で既に求められている文書特徴の暫定類似度SDとの和sim+SDをとって、最終的な類似度(決定類似度SF)を算出し、この類似度SF順に図6の結果を並び替えることによって、図8に示す再ランキング結果を得、この検索結果108が再ランキング手段107により表示装置15に表示されることにより、利用者に提示される。
【0059】
このように本実施形態によれば、文書分類を有効利用した高精度な文書検索が実現できる。特に、検索質問の属する分類を推定するための知識は自動的に構築されるため、その作成及びメンテナンスコストは皆無に等しく、また、網羅性が高い頑健な知識となる。また、文書検索の手段と分類推定の手段を同一にすることができるため、必要なメモリ量も小さく抑えることができる。さらに、利用者に文書の分類体系に関する知識を要求しないため、特に特許文献のごとく文書分類が極めて精緻かつ膨大な検索対象に対して、利便性の高い検索手段を提供する。
【0060】
本発明は上記実施形態に限定されるものではない。
【0061】
図1では、データベースやコンピュータのCPUなどにより実現される各手段の配置について特に言及していないが、スタンドアローンのコンピュータにより実現してもよいし、各データベースはネットワーク接続された別のサーバ、端末などに設けられていてもよい。さらに、ネットワーク接続された複数のサーバや端末間で各手段100、101、103、106及び107の各々の処理を分担してもよい。
【0062】
また、記憶装置13に本発明の機能を実行するためのプログラムを格納し、当該プログラムをCPU12が読み出し本発明の機能を実行させる場合を示したが、例えばこれらプログラムを記録したコンピュータ読取可能な記録媒体を文書検索装置1の図示しない記録媒体読取装置から読み取り、CPU12に当該機能を実行させてもよい。
【0063】
また、検索対象として特許文献を用いる場合を例に説明したが、文書の分類が対応付けられた文書であればいかなる文書も検索の対象にできる。
【0064】
【発明の効果】
以上詳述したように本発明によれば、専門知識の無い者であっても高精度な文書検索が可能となる。
【図面の簡単な説明】
【図1】本発明の第1実施形態に係る文書検索装置の構成の一例を示す図。
【図2】同実施形態に係る文書検索装置のハードウェア構成の一例を示す図。
【図3】同実施形態に係る文書特徴量の計算のフローチャートを示す図。
【図4】同実施形態に係る分類特徴量の計算のフローチャートを示す図。
【図5】同実施形態に係る検索処理のフローチャートを示す図。
【図6】同実施形態に係る暫定類似度SDを含む文書検索結果の表示例を示す図。
【図7】同実施形態に係る暫定類似度SLを含む分類検索結果の表示例を示す図。
【図8】同実施形態に係る決定類似度SFを含む検索結果の表示例を示す図。
【符号の説明】
1…文書検索装置、11…バス、12…CPU、13…記憶装置、14…入力装置、15…表示装置、16…通信装置、100…検索対象文書集合データベース、101…文書特徴量計算手段、102…文書特徴量データベース、103…分類特徴量計算手段、104…分類特徴量データベース、105…検索質問、106…暫定類似度計算手段、107…再ランキング手段、108…検索結果

Claims (7)

  1. 文書の分類を示す文書分類情報が対応付けられた文書の集合を検索質問により検索する文書検索方法であって、
    前記文書分類情報の特徴を示す分類特徴量を計算し、
    前記検索質問と前記分類特徴量の類似度を示す第1の暫定類似度を計算し、
    前記第1の暫定類似度に基づき前記文書の集合を検索することを特徴とする文書検索方法。
  2. 前記文書の集合の検索は、前記文書集合の各文書と前記検索質問との類似度を示す第2の暫定類似度の計算と、この第2の暫定類似度と前記第1の暫定類似度に基づく文書の集合の検索からなることを特徴とする請求項1に記載の文書検索方法。
  3. 前記第2の暫定類似度は、前記文書の集合の各文書の特徴量を示す文書特徴量と前記検索質問との類似度であることを特徴とする請求項2に記載の文書検索方法。
  4. 前記分類特徴量及び前記文書特徴量は単語ベクトルで表されることを特徴とする請求項3に記載の文書検索方法。
  5. 前記分類特徴量は第1の単語ベクトルで表され、前記文書特徴量は第2の単語ベクトルで表され、
    前記第1の暫定類似度の計算は、前記検索質問の第3の単語ベクトルへの変換と、前記第3の単語ベクトルと前記第1の単語ベクトルとの類似度の計算からなり、
    前記第2の暫定類似度の計算は、前記第3の単語ベクトルと前記第2の単語ベクトルとの類似度の計算からなることを特徴とする請求項3に記載の文書検索方法。
  6. 前記文書の集合の検索は、前記第1の暫定類似度が閾値以上の文書分類情報の抽出と、この抽出された文書分類情報と前記文書分類情報との第3の暫定類似度の計算と、この第3の暫定類似度と第2の暫定類似度とに基づく文書の抽出からなることを特徴とする請求項2乃至5のいずれか1項に記載の文書検索方法。
  7. 文書の分類を示す文書分類情報が対応付けられた文書の集合を検索する文書検索装置であって、
    前記文書分類情報の特徴を示す分類特徴量を計算する分類特徴量計算手段と、
    前記検索質問と前記分類特徴量の第1の暫定類似度を計算する暫定類似度計算手段と、
    前記第1の暫定類似度に基づき前記文書の集合を検索する検索手段とを具備してなることを特徴とする文書検索装置。
JP2003189671A 2003-07-01 2003-07-01 文書検索方法及び文書検索装置 Pending JP2005025465A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003189671A JP2005025465A (ja) 2003-07-01 2003-07-01 文書検索方法及び文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003189671A JP2005025465A (ja) 2003-07-01 2003-07-01 文書検索方法及び文書検索装置

Publications (1)

Publication Number Publication Date
JP2005025465A true JP2005025465A (ja) 2005-01-27

Family

ID=34187810

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003189671A Pending JP2005025465A (ja) 2003-07-01 2003-07-01 文書検索方法及び文書検索装置

Country Status (1)

Country Link
JP (1) JP2005025465A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006252237A (ja) * 2005-03-11 2006-09-21 Ricoh Co Ltd 技術情報管理システム及びプログラム
WO2008150692A1 (en) * 2007-05-31 2008-12-11 Yahoo!, Inc. System and method for providing vector terms related to a search query
US7983482B2 (en) 2005-11-08 2011-07-19 Kitakyushu Foundation For The Advancement Of Industry, Science And Technology Matching apparatus, image search system, and histogram approximate restoring unit, and matching method, image search method, and histogram approximate restoring method
US8155451B2 (en) 2004-11-12 2012-04-10 Kitakyushu Foundation For The Advancement Of Industry, Science And Technology Matching apparatus, image search system, and histogram approximate restoring unit, and matching method, image search method, and histogram approximate restoring method
JP2020060811A (ja) * 2018-10-04 2020-04-16 Tis株式会社 情報処理装置、情報処理方法およびプログラム
JP2020074111A (ja) * 2019-12-24 2020-05-14 楽天株式会社 検索システム、検索方法、及びプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8155451B2 (en) 2004-11-12 2012-04-10 Kitakyushu Foundation For The Advancement Of Industry, Science And Technology Matching apparatus, image search system, and histogram approximate restoring unit, and matching method, image search method, and histogram approximate restoring method
JP2006252237A (ja) * 2005-03-11 2006-09-21 Ricoh Co Ltd 技術情報管理システム及びプログラム
US7983482B2 (en) 2005-11-08 2011-07-19 Kitakyushu Foundation For The Advancement Of Industry, Science And Technology Matching apparatus, image search system, and histogram approximate restoring unit, and matching method, image search method, and histogram approximate restoring method
WO2008150692A1 (en) * 2007-05-31 2008-12-11 Yahoo!, Inc. System and method for providing vector terms related to a search query
JP2020060811A (ja) * 2018-10-04 2020-04-16 Tis株式会社 情報処理装置、情報処理方法およびプログラム
JP7203554B2 (ja) 2018-10-04 2023-01-13 Tis株式会社 情報処理装置
JP2020074111A (ja) * 2019-12-24 2020-05-14 楽天株式会社 検索システム、検索方法、及びプログラム

Similar Documents

Publication Publication Date Title
Craswell et al. Random walks on the click graph
JP4011906B2 (ja) プロファイル情報の情報検索方法、プログラム、記録媒体及び装置
US8266077B2 (en) Method of analyzing documents
KR101377341B1 (ko) 문서 랭킹 컴포넌트 트레이닝 시스템 및 컴퓨터 판독 가능 매체
KR20160124742A (ko) 비정형 텍스트내의 특징들의 중의성을 해소하는 방법
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
JP6053131B2 (ja) 情報処理装置、情報処理方法、およびプログラム
Yang An evaluation of statistical approaches to MEDLINE indexing.
KR101976081B1 (ko) 토픽 모델링 기반 시맨틱 이미지 검색 방법, 시스템 및 컴퓨터 프로그램
US20230138014A1 (en) System and method for performing a search in a vector space based search engine
JP2009193219A (ja) インデックス作成装置、その方法、プログラム及び記録媒体
JP2009110508A (ja) オブジェクト間の競合指標計算方法およびシステム
Wang et al. Sizing sketches: a rank-based analysis for similarity search
Tuarob et al. Improving algorithm search using the algorithm co-citation network
JP2006338342A (ja) 単語ベクトル生成装置、単語ベクトル生成方法およびプログラム
Balaji et al. Text Summarization using NLP Technique
JP2005025465A (ja) 文書検索方法及び文書検索装置
Vadivel et al. An Effective Document Category Prediction System Using Support Vector Machines, Mann-Whitney Techniques
JP2005010848A (ja) 情報検索装置、情報検索方法、情報検索プログラム、及び記録媒体
Bouskila et al. The Role of Ėemantic Locality in Hierarchical Distributed Dynamic Indexing
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
JP2010282403A (ja) 文書検索方法
Lu et al. Improving web search relevance with semantic features
JP4217410B2 (ja) 情報検索装置及びその制御方法、並びにプログラム
JP5569908B2 (ja) 類推装置、類推方法及びプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070731

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071211