JP4534690B2 - 文書検索装置および方法 - Google Patents

文書検索装置および方法 Download PDF

Info

Publication number
JP4534690B2
JP4534690B2 JP2004275228A JP2004275228A JP4534690B2 JP 4534690 B2 JP4534690 B2 JP 4534690B2 JP 2004275228 A JP2004275228 A JP 2004275228A JP 2004275228 A JP2004275228 A JP 2004275228A JP 4534690 B2 JP4534690 B2 JP 4534690B2
Authority
JP
Japan
Prior art keywords
search
event
vector
user
request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004275228A
Other languages
English (en)
Other versions
JP2006092136A (ja
Inventor
忠信 宮内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2004275228A priority Critical patent/JP4534690B2/ja
Publication of JP2006092136A publication Critical patent/JP2006092136A/ja
Application granted granted Critical
Publication of JP4534690B2 publication Critical patent/JP4534690B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、文書検索技術に関し、とくに、ベクトル空間法に基づく関連文書検索に適用して最適なものである。
ベクトル空間法に代表される関連文書検索は、30年以上前に提案されたものの、当時としては膨大な計算機りソースを必要とするため、なかなか実用には至らなかったという歴史的経緯を持つ。最近、CPU、メモリ、HDDなどの高速化/大容量化が著しく、基本的な原理は変わらないままにようやく実用化が進んでいる。
ところが、元となる情報ソース自体も大規模化が進んでおり、依然として検索速度の高速化は必要な状況である。
これに対し、従来さまざまな高速化の手法が提案されている。
例えば、特許文献1や特許文献2は、分野/カテゴリを限定することで速度低下を防いでいる。また、特許文献3は、複数の基準ベクトルを用意してこれを基準にして検索対象範囲を絞り込むことで負荷低減をはかっている。言うまでもなく、これらは計算量とひきかえに精度低下を招くことは原理的に避け得ない。このため、限られた用途でないと効果が発揮できない問題があった。
特開2001−195408公報 特開2002−7468公報 特開2003−6214公報
この発明は、以上の事情を考慮してなされたものであり、精度低下を伴うことなく、実質的な検索速度を向上させる文書検索技術を提供することを目的としている。
この発明の原理的な構成例によれば、上述の目的を達成するために、GUI(グラフィカルユーザインタフェース)上のユーザイベントを監視し、クエリの種情報を特定できるイベントが発生した際に投機的な検索/計算を行ない、イベントに対応する検索結果として保持しておく。イベントが発生する都度、差分をチェックし、見かけ上の関連文書検索速度を高速化する。
単語の統計情報に基づくベクトル空間法を用いた関連文書検索を例に挙げるとつぎのような処理を行なう。X1〜X5は図3の符号に対応するが、これは説明の便宜で付したものであり、何ら限定的に理解されない。単語の統計情報は一例としてはtf*IDFであるが、これに限定されず任意ん適宜な単語の統計情報を用いることができる。
(X1)イベント監視
GUI上のユーザイベントを監視する枠組みを用意し、自然文入力した関連文書検索におけるクエリの種情報を特定できるイベントを監視する。ここでは関連文書検索に加えNグラム法の全文検索、および種文書を用いた関連文書検索をオプションとして利用できるものとする。イベントには例えばつぎのものがある。
a.全文検索
全文検索が実行された場合、その文字列(キーワード)が関連文書検索のクエリになり得る
b.自然文入力
自然文検索クエリのフィールドに文が入力されていく状態を、IMEの確定処理などをタイミングとして動的にチェックする
c.種文書の選択操作
種文書がチェックされる都度、その文書の語ベクトルを用いて検索演算する。
(X2)イベント内容識別
イベント内容が、新規か、既存の処理に対する追加イベントか否かを識別する。新規か追加かはその内容を過去のイベントと比較して判断できる。新規イベントであれば、ユーザ情報とイベント内容をあわせ、IDとして保持しておく。
(X3)新規イベント検索
イベントが新規であれば、バックグラウンドで、前述のイベントに基づく検索を開始する。結果に基づくベクトル演算結果は、IDに対応させて保持しておく。
(X4)差分検索
イベントが追加であれば、直前のクエリの種との差分を算出し、差分のみに対して検索演算を実行し、追加された結果をベクトル演算結果に足し込む。
(X5)最終結果
最終的に検索指示が行なわれると、未実施の差分演算があれば実行・マージしたうえで、該当する検索結果を表示する。一方、一定期間アクセスがないか、イベントに対応する画面が破棄されるなど、結果を維持する必要がなくなった場合は、ベクトル演算結果を消去する。
この構成例では、ASPやサーチエンジンなどにおいて、空いているリソースを有効に利用したうえで、見た目上は高速に関連文書検索が提供できる。
さらにこの発明を説明する。
この発明の一側面によれば、上述の目的を達成するために、文書検索装置に:ユーザの検索要求を入力するユーザ検索要求入力手段と;上記ユーザの検索要求に用いられる検索式の構成部分を特定するイベントを監視するイベント監視手段と;上記イベント監視手段により検出されたイベントにより特定された検索式の構成部分を用いた検索演算を行なう検索演算手段と;上記検索式の構成部分を用いた検索演算の部分検索演算結果を記憶する手段と;上記部分検索演算結果を用いて、上記ユーザの検索要求の全体に対する検索演算結果を合成する合成手段と;上記合成手段により合成された検索演算結果に基づいて、上記ユーザの検索要求に対する検索結果を出力する検索結果出力手段とを設けるようにしている。
この構成においては、検索要求を構成すると予想される構成要素候補を特定するイベントに基づいて検索要求が発行される前に検索演算の一部を実行することができ、なんら検索精度を落とすことなく、実効的な処理速度を向上させることができる。
文書検索装置は、スタンドアローンの装置として構成しても良いし、クライアント装置とサーバ装置とから構成しても良い。
この構において、主たる文書検索は高精度な関連文書検索であり、典型的には、上記検索演算手段は単語の統計情報に基づくベクトル空間法に基づくベクトル演算を行なうものである。単語の統計情報の一つはtf*IDFであるが、任意の単語の統計情報を採用できる。
また、主たる検索は自然文を検索式として入力して行なわれる。自然文は形態素解析され、その解析結果の語ベクトル(各キーワードに重みがつけられていても良い)と文書の語ベクトルとの間の例えば内積により各文書のスコアを算出して、スコアの高い文書を検索結果とする。
このような自然文の関連文書検索の他にオプションとして全文検索や種文書を用いた関連文書検索を用いることができる。全文検索はたとえばn−gramの手法で行なえるが、これに限定されない。
上記検索式の構成部分を特定するイベントには別手法の文書検索手段(全文検索、種文書検索)を用いた文書検索要求の検索式の入力が含まれる。
上記検索式は例えば自然文で入力され、上記検索式の構成部分を特定するイベントには、例えば、上記自然文を構成する語句の確定処理が含まれる。
また、この発明の他の側面によれば、上述の目的を達成するために、検索システムを、検索クライアント装置と検索サーバ装置とを含んで構成し、上記検索クライアント装置に:ユーザの検索要求を入力するユーザ検索要求入力手段と;上記入力されたユーザの検索要求を上記検索サーバ装置に発行する検索要求発行手段と;上記ユーザの検索要求に用いられる検索式の構成部分を特定するイベントを監視するイベント監視手段と;上記イベント監視手段により検出されたイベントを上記検索サーバ装置に送出するイベント送出手段と;上記検索サーバ装置から上記ユーザの検索要求に対する検索結果を受け取る検索結果受信手段とを設け:上記検索サーバ装置に:上記クライアント装置から上記ユーザの検索要求を受け取る検索要求受信手段と;上記クライアント装置から上記イベントを受け取るイベント受信手段と;受け取ったイベントに基づいて上記検索式の構成部分を用いた検索演算を行なう検索演算手段と;上記検索式の構成部分を用いた検索演算の部分検索演算結果を記憶する部分検索演算結果記憶手段と;上記部分検索演算結果を用いて、上記ユーザの検索要求の全体に対する検索演算結果を合成する合成手段と;上記合成手段により合成された検索演算結果に基づいて、上記ユーザの検索要求に対する検索結果を上記クライアント装置に送出する検索結果送出手段とを設けている。
この構成においても、検索要求を構成すると予想される構成要素候補を特定するイベントに基づいて検索要求が発行される前に検索演算の一部を実行することができ、なんら検索精度を落とすことなく、実効的な処理速度を向上させることができる。
なお、この発明は装置またはシステムとして実現できるのみでなく、方法としても実現可能である。また、そのような発明の一部をソフトウェアとして構成することができることはもちろんである。またそのようなソフトウェアをコンピュータに実行させるために用いるソフトウェア製品もこの発明の技術的な範囲に含まれることも当然である。
この発明の上述の側面および他の側面は特許請求の範囲に記載され以下実施例を用いて詳述される。
この発明によれば、なんら検索精度を落とすことなく、実効的な処理速度を向上させることができる。
以下、この発明の実施例について説明する。
図1は、この発明の実施例の関連文書検索システムを示している。この実施例では、クライアント装置10とサーバ装置20で関連文書検索システムを構成している。もちろんパーソナルコンピュータ等でスタンドアローンの関連文書検索システムを構築しても良い。なお、以下に説明する機能ブロックはクライアント装置10やサーバ装置のハードウェア資源およびソフトウェア資源を協同させて実現される。
この実施例の関連文書検索は、tf*IDFに基づくベクトル空間法を用いた関連文書検索であり、基本的には図4にも示すように自然文をそのまま検索式として用いる。自然文はサーバ装置20において形態素解析されその語ベクトルと各文書の語ベクトルとの間で検索演算(ベクトル演算)を実行してスコアを算出し高いスコアの文書のリストを検索結果として出力する。
また。この実施例の関連文書検索システムはオプションとしてNグラム法の全文検索(全文検索部207)および種文書検索(種文書検索部208)を行なえるようになっている。
図1において、クライアント装置10は、ユーザインタフェース部101、検索要求発行部102、イベント監視部103、イベント送信部104、検索結果受信部105等を含んで構成されている。サーバ装置20は、検索要求受信部201、イベント受信部202、検索演算部203、関連検索インデックスDB204、イベントDB205、合成部206、全文検索部207、種文書検索部208等を含んで構成されている。クライアント装置10およびサーバ装置20の間は通信ネットワーク(図示しない)で接続されている。
クライアント装置10のユーザインタフェース部101はユーザに検索要求を入力させたり、検索結果を閲覧させたりするものである。自然文を用いた関連文書検索の画面の例はたとえば図4に示すようなものであり、n−gram法の全文検索の画面はたとえば図5の左側に示すようなもんであり、種文書を用いた関連文書検索の画面はたとえば図5の左側に示すようなものである。
クライアント装置10の検索要求発行部102は、サーバに検索要求を送出するものである。典型的には、図4に示す入力フォームで検索したい内容を記述した自然文を入力して検索要求とする。
イベント監視部103は、検索要求の構成要素候補を特定するイベントを監視し、これを検出したらイベント送出部104によりサーバ装置20に送出する。この例では以下のものを監視対象イベントとしているが、これに限定されない。検索を行う以前の全般的なユーザの操作を対象イベントとして保存しておき、あるいは前の検索セッション、他の検索サイトでの検索セッションの操作を監視対象として保存しておきこれを用いて検索要素候補としてサーバ装置20に送出してもよい。
クライアント装置10の検索結果受信部105はサーバ装置20から検索結果を受け取るものである。ユーザは検索結果のリストを閲覧し、適宜、関連する検索(たとえば種文書検索)を行ったり、文書を取り出して閲覧したりできる。
サーバ装置20の検索要求受信部201はクライアント装置10から検索要求を受け取るものである。この実施例では検索要求の構成部分候補を表すイベント用いて先読みで部分検索を行うが、ユーザ側で、その機能のON・OFFを指定するようにしてもよい。この場合、先読みの部分検索機能をOFFにした場合には、検索要求受信部201は検索要求全般を有効に受け付ける。検索要求受信部201の機能をイベント受信部202で包括的に処理するようにしてもよい。
イベント受信部202は、クライアント装置10からの、検索要求の構成部分候補を表すイベントを受信する。イベントごとに検索演算部203を用いてベクトル演算を行う。たとえば「高速に」というイベントが受信された場合には、「高速」を取り出して検索演算部203に送出され、検索演算部203は関連検索インデックスDB204を参照して「高速」の語ベクトルと各文書の語ベクトルとの間で内積を行う。各語の演算結果はイベントIDとともにイベントDB205に記録される。
イベント受信部202がイベントを受信するたびに同様な演算結果が生成されてイベントDB205に記録される。なお、「高速に」のイベントに続いて「高速に検索」というイベントが受信された場合には、すでにイベントDB205に「高速」というイベントについての演算結果が記録されているので、差分の「検索」について検索演算を行い、各語の演算結果を「高速」の演算結果に足しこんで新たな演算結果としてイベントDB205に登録する。この足しこみ操作は合成部206が行う。なお、イベントDB205のエントリは図2に示すとおりである。なお、図では、文書IDをスコア順に保持するようにしているが、その前提として各文書のスコアを保持している。
検索要求受信部201が、検索要求を最終的に受け付けると、差分がある場合にはさらに合成部206で処理を行い、合成部206は、合成したスコアに基づいて検索結果のリストを生成してクライアント装置10に検索結果として返す。サーバ装置20は文書DBを保持してその一部や要約を検索結果のリストに含ませることもできる。
全文検索部207は、n−gram法で全文検索を行うものである。種文書検索部208は種文書に基づいて関連文書検索を行うものである。たとえば、図5の左側に示すように1または複数のキーワードを入力してn−gram法の全文検索を行い、その検索結果が図5の右側に示すように表示され、この検索結果一覧から適当と考える文書をチェックして種文書として関連文書検索を行う。種文書の語ベクトルと文書の語ベクトルとの演算結果スコアから所望の文書を取得できる。種文書に語ベクトルがない場合には、形態素解析を行ってtf*IDFの語ベクトルを生成したのち各文書のスコアを算出する。
つぎに実施例の動作について図2も参照して説明する。
この実施例の動作は以下のとおりである。
[ステップS10]:監視を開始する。たとえば、検索画面をオープンしたときに開始する。
[ステップS11]:イベント監視部103がイベントを監視し続ける。なお、このステップは本来はクライアント装置10でループする。
[ステップS12]:イベント内容が、新規か、既存の処理に対する追加イベントか否かを識別する。新規か追加かはその内容を過去のイベントと比較して判断できる。新規イベントであれば、ユーザ情報とイベント内容をあわせ、IDとして保持しておく。新規イベントであればステップS13へ進み、追加イベントであればステップS14へ進む。
[ステップS13]:イベントが新規であれば、バックグラウンドで、前述のイベントに基づく検索を開始する。結果に基づくベクトル演算結果は、IDに対応させてイベントDB205に保持しておく。
[ステップS14]:イベントが追加であれば、直前のクエリの種との差分を算出する。
[ステップS15]:差分のみに対して検索演算を実行し、追加された結果をベクトル演算結果に足し込む。
[ステップS16]:最終的に検索指示が行なわれると、実検索が開始される。
[ステップS17]:該当するクエリの種(イベント)があるかどうか判別し、あればステップS18へ進み、なければステップS20へ進む。
[ステップS18]:直前のクエリの種との差分を算出する。
[ステップS19]:差分のみ差分のみに対して検索演算を実行し、追加された結果をベクトル演算結果に足し込む。ステップS21へ進む。
[ステップS20]:受け取ったクエリに対して検索演算を実行する。ステップS21へ進む。
[ステップS21]:検索演算のスコアに基づいて検索結果を生成してクライアント装置10に送出する。
なお、一定期間アクセスがないか、イベントに対応する画面が破棄されるなど、結果を維持する必要がなくなった場合は、ベクトル演算結果を消去する。
以上で実施例の説明を終了する。
なお、この発明は上述の実施例に限定されるものではなくその趣旨を逸脱しない範囲で種々変更が可能である。例えば、上述の例では、tf*IDFに基づく関連文書検索について説明したが、その他の検索手法にも適用できることはもちろんである。また上述例ではクライアント装置10からイベントの情報をサーバ装置20に送りサーバ装置で先読みの部分検索を行うようにしたが、クライアント装置10側でイベントごとに検索要求として送出し、サーバ装置側で検索を行い、その後統合するようにしてもよい。
この発明の実施例の構成を示す図である。 上述実施例の動作を説明する図である。 上述実施例のイベント(クエリの種)ごとの検索演算結果のデータ構造(イベントDB)の例を説明する図である。 上述実施例の自然文入力の関連文書検索の画面例を説明する図である。 上述実施例の全文検索および種文書検索を説明する図である。
符号の説明
10 クライアント装置
20 サーバ装置
101 ユーザインタフェース部
102 検索要求発行部
103 イベント監視部
104 イベント送信部
105 検索結果受信部
201 検索要求受信部
202 イベント受信部
203 検索演算部
204 関連検索インデックスDB
205 イベントDB
206 合成部
207 全文検索部
208 種文書検索部

Claims (7)

  1. ユーザの検索要求を入力するユーザ検索要求入力手段と、
    上記ユーザの検索要求に用いられる検索式の構成部分を特定するイベントを受信するイベント受信手段と、
    上記イベント受信手段により受信されたイベントにより特定された検索式の構成部分をなす語ベクトルと対象文書の語ベクトルとの間で検索用のベクトル演算を行なう検索演算手段と、
    上記検索式の構成部分をなす語ベクトルと対象文書の語ベクトルとの間で検索用のベクトル演算を行って得た、検索演算結果を記憶する記憶手段と、
    上記イベント受信手段がイベントを受信するたびに、上記検索式の構成部分から上記記憶手段に記憶された検索演算結果に対応する構成部分を除いた差分をなす、語ベクトルと、上記対象文書の語ベクトルとの間で、上記検索演算手段を用いて検索用のベクトル演算を行って得た、当該差分に対する検索演算結果と、上記記憶手段に記憶された検索演算結果を用いて、上記ユーザの検索要求に対する検索演算結果を合成する合成手段と、
    上記合成手段によって合成された検索演算結果を、新たな検索演算結果として上記記憶手段に登録する登録手段と、
    上記記憶手段により記憶された検索演算結果、上記ユーザの検索要求の全体に対する検索演算結果として出力する検索結果出力手段とを有することを特徴とする文書検索装置。
  2. n−gram法による全文検索を行なう全文検索手段を有し、上記検索式の構成部分を特定するイベントには上記全文検索手段に入力される全文検索の文書検索要求の検索式の入力が含まれる請求項記載の文書検索装置。
  3. 上記検索式は1または複数の種文書を特定するものであり、上記検索式の構成部分を特定するイベントには、上記種文書の各々の指定が含まれ、上記検索演算手段は、上記種文書の各々の語ベクトルと対象文書の語ベクトルとの間で検索用のベクトル演算を行なう請求項1または2記載の文書検索装置。
  4. コンピュータを、
    ユーザの検索要求を入力するユーザ検索要求入力手段、
    上記ユーザの検索要求に用いられる検索式の構成部分を特定するイベントを受信するイベント受信手段、
    上記イベント受信手段により受信されたイベントにより特定された検索式の構成部分をなす語ベクトルと対象文書の語ベクトルとの間で検索用のベクトル演算を行なう検索演算手段、
    上記検索式の構成部分をなす語ベクトルと対象文書の語ベクトルとの間で検索用のベクトル演算を行って得た、検索演算結果を記憶する記憶手段、
    上記イベント受信手段がイベントを受信するたびに、上記検索式の構成部分から上記記憶手段に記憶された検索演算結果に対応する構成部分を除いた差分をなす、語ベクトルと、上記対象文書の語ベクトルとの間で上記検索演算手段を用いて検索用のベクトル演算を行って得た、当該差分に対する検索演算結果と、上記記憶手段に記憶された検索演算結果とを用いて、上記ユーザの検索要求に対する検索演算結果を合成する合成手段、
    上記合成手段によって合成された検索演算結果を、新たな検索演算結果として上記記憶手段に登録する登録手段、
    上記記憶手段により記憶された検索演算結果を、上記ユーザの検索要求の全体に対する検索演算結果として出力する検索結果出力手段、
    として機能させることを特徴とする文書検索用コンピュータプログラム。
  5. 検索クライアント装置と検索サーバ装置とを含んでなる検索システムにおいて、
    上記検索クライアント装置は、
    ユーザの検索要求を入力するユーザ検索要求入力手段と、
    上記入力されたユーザの検索要求を上記検索サーバ装置に発行する検索要求発行手段と、
    上記ユーザの検索要求に用いられる検索式の構成部分を特定するイベントを監視するイベント監視手段と、
    上記イベント監視手段により検出されたイベントを上記検索サーバ装置に送出するイベント送出手段と、
    上記検索サーバ装置から上記ユーザの検索要求に対する検索結果を受け取る検索結果受信手段とを有し、
    上記検索サーバ装置は、
    上記クライアント装置から上記ユーザの検索要求を受け取る検索要求受信手段と
    上記クライアント装置から上記イベントを受信するイベント受信手段と、
    上記イベント受信手段により受信されたイベントにより特定された検索式の構成部分をなす語ベクトルと対象文書の語ベクトルとの間で検索用のベクトル演算を行なう検索演算手段と、
    上記検索式の構成部分をなす語ベクトルと対象文書の語ベクトルとの間で検索用のベクトル演算を行って得た、検索演算結果を記憶する記憶手段と、
    上記イベント受信手段がイベントを受信するたびに、上記検索式の構成部分から上記記憶手段に記憶された検索演算結果に対応する構成部分を除いた差分をなす、語ベクトルと、上記対象文書の語ベクトルとの間で上記検索演算手段を用いて検索用のベクトル演算を行って得た、当該差分に対する検索演算結果と、上記記憶手段に記憶された検索演算結果を用いて、上記ユーザの検索要求に対する検索演算結果を合成する合成手段と、
    上記合成手段によって合成された検索演算結果を、新たな検索演算結果として上記記憶手段に登録する登録手段と、
    上記記憶手段により記憶された検索演算結果、上記ユーザの検索要求の全体に対する検索演算結果として上記クライアント装置に送出する検索結果出力手段とを有することを特徴とする検索システム
  6. 検索クライアント装置からユーザの検索要求を処理する検索サーバ装置において、
    上記クライアント装置から、上記ユーザの検索要求を受け取る検索要求受信手段と
    上記クライアント装置から、上記ユーザの検索要求に用いられる検索式の構成部分を特定するイベントを受信するイベント受信手段と、
    上記イベント受信手段により受信されたイベントにより特定された検索式の構成部分をなす語ベクトルと対象文書の語ベクトルとの間で検索用のベクトル演算を行なう検索演算手段と、
    上記検索式の構成部分をなす語ベクトルと対象文書の語ベクトルとの間で検索用のベクトル演算を行って得た、検索演算結果を記憶する記憶手段と、
    上記イベント受信手段がイベントを受信するたびに、上記検索式の構成部分から上記記憶手段に記憶された検索演算結果に対応する構成部分を除いた差分をなす、語ベクトルと、上記対象文書の語ベクトルとの間で上記検索演算手段を用いて検索用のベクトル演算を行って得た、当該差分に対する検索演算結果と、上記記憶手段に記憶された検索演算結果を用いて、上記ユーザの検索要求に対する検索演算結果を合成する合成手段と、
    上記合成手段によって合成された検索演算結果を、新たな検索演算結果として上記記憶手段に登録する登録手段と、
    上記記憶手段により記憶された検索演算結果、上記ユーザの検索要求の全体に対する検索結果を上記クライアント装置に送出する検索結果出力手段とを有することを特徴とする検索サーバ装置
  7. 検索クライアント装置からユーザの検索要求を処理する検索サーバコンピュータ用の文書検索用コンピュータプログラムにおいて、
    当該検索サーバコンピュータを、
    上記クライアント装置から上記ユーザの検索要求を受け取る検索要求受信手段、
    上記クライアント装置から、上記ユーザの検索要求に用いられる検索式の構成部分を特定するイベントを受信するイベント受信手段、
    上記イベント受信手段により受信されたイベントにより特定された検索式の構成部分をなす語ベクトルと対象文書の語ベクトルとの間で検索用のベクトル演算を行なう検索演算手段、
    上記検索式の構成部分をなす語ベクトルと対象文書の語ベクトルとの間で検索用のベクトル演算を行って得た、検索演算結果を記憶する記憶手段、
    上記イベント受信手段がイベントを受信するたびに、上記検索式の構成部分から上記記憶手段に記憶された検索演算結果に対応する構成部分を除いた差分をなす、語ベクトルと、上記対象文書の語ベクトルとの間で上記検索演算手段を用いて検索用のベクトル演算を行って得た、当該差分に対する検索演算結果と、上記記憶手段に記憶された検索演算結果とを用いて、上記ユーザの検索要求に対する検索演算結果を合成する合成手段、
    上記合成手段によって合成された検索演算結果を、新たな検索演算結果として上記記憶手段に登録する登録手段、
    上記記憶手段により記憶された検索演算結果を、上記ユーザの検索要求の全体に対する検索演算結果として上記クライアント装置に送出する検索結果出力手段、
    として機能させることを特徴とする文書検索用コンピュータプログラム。
JP2004275228A 2004-09-22 2004-09-22 文書検索装置および方法 Expired - Fee Related JP4534690B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004275228A JP4534690B2 (ja) 2004-09-22 2004-09-22 文書検索装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004275228A JP4534690B2 (ja) 2004-09-22 2004-09-22 文書検索装置および方法

Publications (2)

Publication Number Publication Date
JP2006092136A JP2006092136A (ja) 2006-04-06
JP4534690B2 true JP4534690B2 (ja) 2010-09-01

Family

ID=36233057

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004275228A Expired - Fee Related JP4534690B2 (ja) 2004-09-22 2004-09-22 文書検索装置および方法

Country Status (1)

Country Link
JP (1) JP4534690B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011159100A (ja) * 2010-02-01 2011-08-18 Nippon Telegr & Teleph Corp <Ntt> 逐次類似文書検索装置、逐次類似文書検索方法およびプログラム
JP6190313B2 (ja) * 2014-04-23 2017-08-30 カシオ計算機株式会社 情報処理装置及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000315206A (ja) * 1999-04-30 2000-11-14 Fujitsu Ltd 検索条件の組み合わせに基づく検索システムおよび方法
JP2001116579A (ja) * 1999-10-15 2001-04-27 Aisin Aw Co Ltd ナビゲーション装置及び記録媒体
JP2002073681A (ja) * 2000-08-28 2002-03-12 Hitachi Ltd 類似文書検索方法および装置および、類似文書検索方法のためのプログラムが記録された記憶媒体
JP2003330958A (ja) * 2002-05-09 2003-11-21 Canon Inc 情報検索装置、情報検索方法、プログラムおよび記憶媒体

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3851712B2 (ja) * 1997-07-28 2006-11-29 株式会社ジャストシステム 文書管理システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000315206A (ja) * 1999-04-30 2000-11-14 Fujitsu Ltd 検索条件の組み合わせに基づく検索システムおよび方法
JP2001116579A (ja) * 1999-10-15 2001-04-27 Aisin Aw Co Ltd ナビゲーション装置及び記録媒体
JP2002073681A (ja) * 2000-08-28 2002-03-12 Hitachi Ltd 類似文書検索方法および装置および、類似文書検索方法のためのプログラムが記録された記憶媒体
JP2003330958A (ja) * 2002-05-09 2003-11-21 Canon Inc 情報検索装置、情報検索方法、プログラムおよび記憶媒体

Also Published As

Publication number Publication date
JP2006092136A (ja) 2006-04-06

Similar Documents

Publication Publication Date Title
JP3225912B2 (ja) 情報検索装置、方法及び記録媒体
US9245004B1 (en) Predicted query generation from partial search query input
US9430573B2 (en) Coherent question answering in search results
US8280900B2 (en) Speculative query expansion for relevance feedback
JP4962967B2 (ja) Webページ検索サーバ及びクエリ推薦方法
US8214347B2 (en) Search result sub-topic identification system and method
JP2005128873A (ja) 質問応答型文書検索システム及び質問応答型文書検索プログラム
JP2010257488A (ja) 対話形サーチクエリー改良のためのシステム及び方法
JP2015525929A (ja) 検索品質を改善するための重みベースのステミング
US20180246896A1 (en) Corpus Specific Generative Query Completion Assistant
US20140172907A1 (en) Corpus search improvements using term normalization
US20060230031A1 (en) Document searching device, document searching method, program, and recording medium
US20160217181A1 (en) Annotating Query Suggestions With Descriptions
JP2004341753A (ja) 検索支援装置、検索支援方法、およびプログラム
JP5226241B2 (ja) タグを付与する方法
US10102199B2 (en) Corpus specific natural language query completion assistant
JP2006178599A (ja) 文書検索装置および方法
US20130226913A1 (en) Use of statistical language modeling for generating exploratory search results
JP2008117351A (ja) 検索システム
JP2001084256A (ja) データベース処理装置、データベース処理方法、及びデータベース処理プログラムを記録したコンピュータ読み取り可能な記憶媒体
JP4534690B2 (ja) 文書検索装置および方法
JP2004310561A (ja) 情報検索方法、情報検索システム及び検索サーバ
JP2004192546A (ja) 情報検索方法、装置、プログラム、および記録媒体
JP2010211438A (ja) 文書検索装置及び文書検索方法
US20210319068A1 (en) Smart find for in-application searching

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070816

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100301

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100309

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100510

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100525

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100607

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130625

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4534690

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140625

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees