JP2009110231A

JP2009110231A - 文章検索サーバコンピュータ，文章検索方法，文章検索プログラム，そのプログラムを記録した記録媒体

Info

Publication number: JP2009110231A
Application number: JP2007281333A
Authority: JP
Inventors: Shinya Murata; 眞哉村田; Hiroyuki Toda; 浩之戸田; Yumiko Matsuura; 由美子松浦; Ryoji Kataoka; 良治片岡
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2007-10-30
Filing date: 2007-10-30
Publication date: 2009-05-21
Anticipated expiration: 2027-10-30
Also published as: JP4724701B2

Abstract

【課題】拡張語候補リストに含まれる拡張語に基づいて、クエリ拡張された検索式に基づき、検索を実行し、ランキング精度を向上させる。
【解決手段】入力されたクエリを含む要求を作成し、該要求を出力する（１１０）。出力された要求に含まれるクエリに応じて、重みで順序付けられた拡張語候補リストを生成し、該拡張語候補リストに基づいて拡張語を選択する（１２０）。その選択された拡張語に基づいてクエリ拡張された検索式の生成を行う（１１０）。生成された検索式に基づいて検索を実行し、ネットワークを検索し、検索結果を取得する（１３０）。取得された検索結果に示される文書のボディに対して、クエリを中心とする特定の形態素数分の近傍を抽出し、その近傍に拡張語を含む場合、前記拡張語候補リスト中の拡張語候補に対応する重みで得点付けをしてゆき、その得点に基づいて並べ替えられた検索結果を出力する（１４０）。
【選択図】図１

Description

本発明は、電子文書における文章を検索する文章検索システムに関するものである。

文章検索システムにおけるランキングの精度（以後、ランキング精度という）向上を図るための有望な手法の一つに「クエリ拡張」と呼ばれるものが知られている。この手法は、クエリに対して「何らかの関連ある」語（以下、拡張語と呼ぶ）を自動的に取得し、選択し、付与する事でより良い結果を導き出そうとする手法である。

上述のクエリ拡張に関連する技術（例えば、非特許文献１参照）では、拡張語の取得先データとしてクエリログ、選択基準としてクエリとの共起確率を用いている。一般的に、クエリに適する拡張語というのは時々刻々変化すると考える方が自然であり、この技術ではクエリログを用いて、時々刻々変化する拡張語に対処している。
ＨａｎｇＣｕｉ，Ｊｉ−ＲｏｎｇＷｅｎ，Ｊｉａｎ−ＹｕｎＮｉｅ，Ｗｅｉ−ＹｉｎｇＭａ，"ＰｒｏｂａｂｉｌｉｓｔｉｃＱｕｅｒｙＥｘｐａｎｓｉｏｎＵｓｉｎｇＱｕｅｒｙＬｏｇｓ"，ＰｒｏｃｅｅｄｉｎｇｓｏｆＷＷＷ２００２，ＡＣＭ（ｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔｉｎｇＭａｃｈｉｎｅｒｙ），７Ｍａｙ２００２（２００２（平成１４）年５月７日），ｐ３２５−３３２。

上述のクエリ拡張に関連する技術（非特許文献１参照）では、クエリとの共起確率をクエリログを用いて計算し、これに基づき拡張語を選択する。このように、確率の概念が基礎となっており、クエリログ内に十分多くのセッション（クエリ及び該クエリに対応するｃｌｉｃｋｅｄｄｏｃｕｍｅｎｔのＵＲＬから成るデータ）が残されているクエリに対してのみ有効であると考えられる。

本発明は、前記課題に基づいてなされたものであって、重みで順序付けられた拡張語候補リストを生成し、該拡張語候補リストに含まれる拡張語に基づいて、クエリ拡張された検索式に基づき、検索を実行し、ランキング精度を向上させる文章検索サーバコンピュータ，文章検索方法，文章検索プログラム，そのプログラムを記録した記録媒体を提供することにある。

前記課題の解決を図るために、請求項１記載の発明は、記憶部を備え、ネットワークに接続され、クライアント部からクエリを入力され、そのクエリに応じてネットワーク上のＷｅｂページを検索し、その検索結果をクライアント部に返し、表示させる文章検索サーバコンピュータであって、入力されたクエリを含む拡張語の抽出及び選択の要求を作成し、該拡張語の抽出及び選択の要求を出力する手段と、受け取った拡張語に基づいてクエリ拡張された検索式の生成を行い、該検索式を送る手段と、を具備する検索式生成部と、拡張語候補リストを取得する取得要求に応じて、前記記憶部に格納された拡張語候補リストを送る拡張語の重み及び順序付け部と、クエリ，そのクエリに応じた検索結果において選択された文書を識別する文書識別子，そのクエリに対する検索結果における文書に関する情報の順位，検索結果における文書を選択した選択回数を有するクエリログを格納し、管理するクエリログ管理部と、を具備し、前記拡張語の抽出及び選択の要求を受け取り、該拡張語の抽出及び選択の要求に含まれるクエリに応じて、重みで順序付けられた拡張語候補リストを生成し、該生成された拡張語候補リストを記憶部に格納し、該拡張語候補リストに基づいて、拡張語を選択し、該選択された拡張語を前記検索式生成部へ送る拡張語選択部と、受け取った検索式に基づいて、ネットワーク上のＷｅｂページを検索し、検索結果を取得し、その検索結果を送る検索実行部と、検索結果を受け取り、拡張語候補リストを取得する取得要求を前記拡張語の重み及び順序付け部へ送り、該取得要求に応じた拡張語候補リストを取得し、受け取った検索結果に含まれる文書識別子で示される文書のボディに対して、クエリを中心とする特定の形態素数分の近傍を抽出し、抽出した近傍に拡張語が含まれているか否かを調べ、該拡張語が含まれていた場合、拡張語候補リスト中の拡張語候補に対応する重みで得点付けをしてゆき、その得点に基づいて検索結果を並べ、その並べ替えられた検索結果を出力する検索結果並べ替え処理部と、クライアント部に出力された検索結果に対するクエリログを前記クエリログ管理部を使って随時格納するクエリログフィードバック処理部と、を備えることを特徴とする。

請求項２記載の発明は、請求項１に記載の発明において、前記拡張語選択部が、受け取ったクエリに基づいて検索式を生成し、該検索式を前記検索実行部に送り、該検索式に応じたタイトル，スニペット，文書識別子を含む検索結果を取得し、該検索結果を送る検索結果取得部と、前記拡張語の抽出及び選択の要求に含まれるクエリを、前記クエリログ管理部を使って照合し、その照合結果に応じた文書識別子を送る照合部と、前記照合結果に応じた文書識別子を受け、前記検索結果取得部へ前記クエリを送り、該クエリに応じた検索結果を受け取り、その検索結果に含まれる文書識別子と前記照合部から受け取った文書識別子を照合し、照合された文書識別子に応じたタイトルとスニペットを抽出し、その抽出されたタイトルとスニペットを送るタイトル及びスニペット抽出部と、受け取ったタイトルとスニペットをそれぞれ形態素に分解し、それら形態素に基づいて拡張語の候補となる拡張語候補群を生成し、該拡張語候補群を送る機能語抽出及び名詞句生成部と、電子化された自然言語の文章から成るテキストデータ，該テキストドキュメントデータを形態素解析し、その解析された形態素，その形態素と同じ形態素数をカウントした値であるＤＦ（ＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）を有するコーパスデータを格納し管理するコーパス管理部と、を備え、前記拡張語選択部の拡張語の重み及び順序付け部が、受けた拡張語候補群の各拡張語候補に対して、前記コーパス管理部に格納されたＤＦに基いて、ＩＤＦ（ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）を計算し、該ＩＤＦに基づく重み及び順序付け手段を用いて、重みで順序付けられた拡張語候補リストを作成し、作成した拡張語候補リストを記憶部に格納し、該拡張語候補リストを送る手段、を備えることを特徴とする。

請求項３記載の発明は、請求項２に記載の発明において、前記重み及び順序付け手段が、前記クエリログ管理部からクエリログ全体及びクエリ毎のクエリログを取得し、クエリログ全体に対するランクと選択回数の分布曲線を求め、ランクｒとランクｒ＋１の傾きｔ＿ｉｎｃ（ｒ）を計算し、クエリ毎のクエリログに対するランクと選択回数の分布曲線を求め、ランクｒとランクｒ＋１の傾きｑ＿ｉｎｃ（ｒ）を計算し、傾きｔ＿ｉｎｃ（ｒ）に傾きｑ＿ｉｎｃ（ｒ）を加算し、ランクｒにおける重みファクタｉｎｃ（ｒ）を求め、当該クエリが高頻出クエリであった場合、クエリログ管理部における選択回数をＴＦ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ）と見做し、拡張語候補ｗに関して、ＩＤＦ（ｗ）にｉｎｃ（ｒ（ｗ））を乗算し、さらに、ＴＦ（ｗ）を乗算して、各拡張語候補ｗの重みＷｅｉｇｈｔ（ｗ）を計算し、当該クエリが低頻出クエリであった場合、ＩＤＦ（ｗ）にｉｎｃ（ｒ（ｗ））を乗算して、各拡張語候補ｗの重みＷｅｉｇｈｔ（ｗ）を計算し、重みＷｅｉｇｈｔ（ｗ）に関する特定の順に、拡張語候補ｗを並べて、拡張語候補リストを作成する手段、を備えることを特徴とする。

請求項４記載の発明は、クエリ，そのクエリに応じた検索結果において選択された文書を識別する文書識別子，そのクエリに対する検索結果における文書に関する情報の順位，検索結果における文書を選択した選択回数を有するクエリログを格納し、管理するクエリログ管理部と、記憶部とを備え、ネットワークに接続され、クライアント部からクエリを入力され、そのクエリに応じてネットワーク上のＷｅｂページを検索し、その検索結果をクライアント部に返し、表示させるサーバコンピュータに使用する文章検索方法であって、入力されたクエリを含む拡張語の抽出及び選択の要求を作成し、該拡張語の抽出及び選択の要求を出力するステップと、前記拡張語の抽出及び選択の要求を受け取り、該拡張語の抽出及び選択の要求に含まれるクエリに応じて、重みで順序付けられた拡張語候補リストを生成し、該生成された拡張語候補リストを記憶部に格納し、該拡張語候補リストに基づいて、拡張語を選択し、該選択された拡張語を送る拡張語選択ステップと、前記拡張語選択ステップから受け取った拡張語に基づいてクエリ拡張された検索式の生成を行い、該検索式を送るステップと、受け取った検索式に基づいて検索を実行し、ネットワーク上のＷｅｂページを検索し、検索結果を取得し、その検索結果を送る検索実行ステップと、前記記憶部に格納された拡張語候補リストを取得し、受け取った検索結果に含まれる文書識別子で示される文書のボディに対して、クエリを中心とする特定の形態素数分の近傍を抽出し、抽出した近傍に拡張語が含まれているか否かを調べ、該拡張語が含まれていた場合、拡張語候補リスト中の拡張語候補に対応する重みで得点付けをしてゆき、その得点に基づいて検索結果を並べ、その並べ替えられた検索結果を出力する検索結果並べ替え処理ステップと、クライアント部に出力された検索結果に対するクエリログを前記クエリログ管理部を使って随時格納するクエリログフィードバック処理ステップと、を有することを特徴とする。

請求項５記載の発明は、クエリ，そのクエリに応じた検索結果において選択された文書を識別する文書識別子，そのクエリに対する検索結果における文書に関する情報の順位，検索結果における文書を選択した選択回数を有するクエリログを格納し、管理するクエリログ管理部と、電子化された自然言語の文章から成るテキストデータ，該テキストドキュメントデータを形態素解析し、その解析された形態素，その形態素と同じ形態素数をカウントした値であるＤＦを有するコーパスデータを格納し管理するコーパス管理部と、記憶部とを備え、ネットワークに接続され、クライアント部からクエリを入力され、そのクエリに応じてネットワーク上のＷｅｂページを検索し、その検索結果をクライアント部に返し、表示させるサーバコンピュータに使用する文章検索方法であって、入力されたクエリを含む拡張語の抽出及び選択の要求を作成し、該拡張語の抽出及び選択の要求を出力するステップと、前記拡張語の抽出及び選択の要求を受け取り、該拡張語の抽出及び選択の要求に含まれるクエリに応じて、重みで順序付けられた拡張語候補リストを生成し、該生成された拡張語候補リストを記憶部に格納し、該拡張語候補リストに基づいて、拡張語を選択し、該選択された拡張語を送る拡張語選択ステップと、前記拡張語選択ステップから受け取った拡張語に基づいてクエリ拡張された検索式の生成を行い、該検索式を送るステップと、受け取った検索式に基づいて検索を実行し、ネットワーク上のＷｅｂページを検索し、検索結果を取得し、その検索結果を送る検索実行ステップと、前記記憶部に格納された拡張語候補リストを取得し、受け取った検索結果に含まれる文書識別子で示される文書のボディに対して、クエリを中心とする特定の形態素数分の近傍を抽出し、抽出した近傍に拡張語が含まれているか否かを調べ、該拡張語が含まれていた場合、拡張語候補リスト中の拡張語候補に対応する重みで得点付けをしてゆき、その得点に基づいて検索結果を並べ、その並べ替えられた検索結果を出力する検索結果並べ替え処理ステップと、クライアント部に出力された検索結果に対するクエリログを前記クエリログ管理部を使って随時格納するクエリログフィードバック処理ステップと、を有し、さらに、前記拡張語選択ステップが、前記拡張語の抽出及び選択の要求に含まれるクエリを、前記クエリログ管理部を使って照合し、その照合結果に応じた文書識別子を送る照合ステップと、前記照合結果に応じた文書識別子を受け、前記クエリに基づいて検索式を生成し、該生成した検索式に基づいて、ネットワーク上のＷｅｂページを検索し、該検索式に応じたタイトル，スニペット，文書識別子を含む検索結果を取得し、その検索結果に含まれる文書識別子と前記照合ステップから受け取った文書識別子を照合し、照合された文書識別子に応じたタイトルとスニペットを抽出し、その抽出されたタイトルとスニペットを送るタイトル及びスニペット抽出ステップと、受け取ったタイトルとスニペットをそれぞれ形態素に分解し、それら形態素に基づいて拡張語の候補となる拡張語候補群を生成し、該拡張語候補群を送る機能語抽出及び名詞句生成ステップと、受けた拡張語候補群の各拡張語候補に対して、前記コーパス管理部に格納されたＤＦに基いて、ＩＤＦを計算し、該ＩＤＦに基づく重みで順序付けられた拡張語候補リストを作成し、作成した拡張語候補リストを記憶部に格納し、該拡張語候補リストを送る重み及び順序付けステップと、を有することを特徴とする。

請求項６記載の発明は、請求項５に記載の発明において、前記重み及び順序付けステップが、前記クエリログ管理部からクエリログ全体及びクエリ毎のクエリログを取得するステップと、クエリログ全体に対するランクと選択回数の分布曲線を求め、ランクｒとランクｒ＋１の傾きｔ＿ｉｎｃ（ｒ）を計算するステップと、クエリ毎のクエリログに対するランクと選択回数の分布曲線を求め、ランクｒとランクｒ＋１の傾きｑ＿ｉｎｃ（ｒ）を計算するステップと、傾きｔ＿ｉｎｃ（ｒ）に傾きｑ＿ｉｎｃ（ｒ）を加算し、ランクｒにおける重みファクタｉｎｃ（ｒ）を求めるステップと、当該クエリが高頻出クエリであった場合、クエリログ管理部における選択回数をＴＦと見做し、拡張語候補ｗに関して、ＩＤＦ（ｗ）にｉｎｃ（ｒ（ｗ））を乗算し、さらに、ＴＦ（ｗ）を乗算して、各拡張語候補ｗの重みＷｅｉｇｈｔ（ｗ）を計算し、当該クエリが低頻出クエリであった場合、ＩＤＦ（ｗ）にｉｎｃ（ｒ（ｗ））を乗算して、各拡張語候補ｗの重みＷｅｉｇｈｔ（ｗ）を計算するステップと、重みＷｅｉｇｈｔ（ｗ）に関する特定の順に、拡張語候補ｗを並べて、拡張語候補リストを作成するステップと、を有することを特徴とする。

請求項７記載の発明は、文章検索プログラムであって、コンピュータを請求項１乃至３のいずれかに記載の文章検索サーバコンピュータにおける各部及び各手段として機能させることを特徴とする。

請求項８記載の発明は、記録媒体であって、請求項７に記載の文章検索プログラムを記録したことを特徴とする。

前記請求項１，４に記載の発明は、生成された拡張語候補リストに基づきクエリ拡張された検索式を取得できる。クエリを中心とする指定された形態素数分の近傍に基づいて並べ替えを行った検索結果を取得し、さらに、その検索結果をクエリログにフィードバックできる。

前記請求項２，５に記載の発明は、コーパスデータに基づいて、拡張語候補リストを取得できる。

前記請求項３，６に記載の発明は、重みに関する特定の順に、拡張語候補を並べた拡張語候補リストを取得できる。

前記請求項７に記載の発明は、請求項１乃至３のいずれかに記載の文章検索サーバコンピュータをコンピュータプログラムとして記載できる。

前記請求項８に記載の発明は、文章検索プログラムを記録媒体に記録できる。

以上示したように請求項１，４の発明によれば、クエリ拡張された検索式と、並べ替えを行った検索結果のフィードバックによってランキング精度を向上できる。また、検索結果順位を適切に正規化できる。

請求項２，５の発明によれば、コーパスデータに基づいた拡張語候補リストによってランキング精度を向上できる。

請求項３，６の発明によれば、高頻出クエリもしくは低頻出クエリに関わらず、少ない拡張語数（例えば、１〜５語）でランキング精度を向上できる。

請求項７の発明によれば、文章検索サーバコンピュータとしてコンピュータを動作させるコンピュータプログラムを提供できる。

請求項８の発明によれば、文章検索プログラムとしてコンピュータを動作させるコンピュータプログラムを記録した記録媒体を提供できる。

これらを以って電子文書検索技術分野に貢献できる。

本実施形態における文章検索システムの構成を図１に基づいて説明する。

図１中の文章検索システムは、端末（図示省略）に備えられたブラウザ１００からクエリを入力され、そのクエリに応じてネットワーク上のＷｅｂページ群１０００を検索し、検索結果（タイトル，スニペット，リンク先ＵＲＬを有するＷｅｂページ（電子文書）に関する情報を含む検索結果）を返す文章検索サーバコンピュータ（図示省略）である。なお、以下の説明において、文書は電子文書（例えば、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）形式文書ファイル）を指す。

端末は、ブラウザ１００，ポインティングデバイス、キーボード装置、ディスプレイ装置などを含むユーザインタフェース装置（図示省略），メモリやハードディスクドライブ装置などの一般的な記憶装置を含む記憶部（図示省略），ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）やＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）を含み、各部を制御する制御部（図示省略）を備え、クライアント機能（ブラウザ１００自体がクライアント機能を有する処理部）を有するコンピュータと考えてよい。

文章検索サーバコンピュータは、文章検索システム本体，メモリやハードディスクドライブ装置などの一般的な記憶装置を含み、前記文章検索サーバコンピュータにおける情報もしくはデータを記憶する記憶部（図示省略），ＣＰＵやＯＳを含み、各部を制御する制御部（図示省略）から構成される。

なお、以下の説明では、端末と文章検索サーバコンピュータは、例えば、通信回線（ネットワークなど）で接続されているものとするが、ユーザインタフェース装置を備えた文章検索サーバコンピュータにブラウザ１００をインストールしても、構成としては同等であり、同じ動作を行うことができる。端末（あるいは、ブラウザ１００）と文章検索サーバコンピュータ（あるいは、文章検索システム本体）は、例えば、ＨＴＴＰ（ＨｙｐｅｒＴｅｘｔＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ）などのプロトコルで通信を行っているものとする。

文章検索システム本体は、検索式生成部１１０，拡張語選択部１２０，検索実行部１３０，検索結果並べ替え処理部１４０，クエリログフィードバック処理部１５０を備える。

ブラウザ１００は、クエリ入力画面１０１と結果表示部１０２を備え、これらを制御する。ブラウザ１００は、本実施形態における文章検索システムにおけるユーザインタフェースである。

クエリ入力画面１０１は、クエリ入力画面１０１でユーザからのクエリを取得し、検索式生成部１１０へ送る。

結果表示部１０２は、検索結果並べ替え処理部１４０から得た検索結果を、結果表示部１０２でユーザに表示する。

検索式生成部１１０は、次のいずれかの処理を行う。
（１）クエリ入力画面１０１からクエリを受け取った場合、拡張語の抽出及び選択の要求（例えば、該クエリを含む要求）を作成し、該拡張語の抽出及び選択の要求を拡張語選択部１２０へ送る。
（２）拡張語選択部１２０から拡張語を受け取った場合、拡張語に基づいて検索式（即ち、クエリ拡張された検索式）の生成を行い、該検索式を検索実行部１３０へ送る。例えば、検索式は、「クエリで検索結果の全体集合を取得し、その各検索結果中に拡張語が存在すれば、スコア値に対して該拡張語の重みを加算していく」という処理が表現されたものである。
（３）拡張語選択部１２０から拡張語ゼロの信号を受け取った場合、クエリのみから検索式を生成し検索実行部１３０へ送る。なお、拡張語ゼロの信号は、ソフトウェア的なメッセージの一種である。

拡張語選択部１２０は、照合部１２１，タイトル及びスニペット抽出部１２３，検索結果取得部１２４，機能語抽出及び名詞句生成部１２５，拡張語の重み及び順序付け部１２６，クエリログＤＢ（Ｄａｔａｂａｓｅ）１２２、コーパスＤＢ１２７を備え、これらを制御する。なお、クエリログＤＢ１２２とコーパスＤＢ１２７は、前記文章検索サーバコンピュータの記憶部に作成されても良い。

拡張語選択部１２０は、拡張語の抽出及び選択の要求に含まれるクエリに応じて、拡張語候補リストを生成し、該拡張語候補リストに基づいて、拡張語を選択する。

より具体的には、検索式生成部１１０から拡張語の抽出及び選択の要求を受けとった場合、照合部１２１にクエリを送る。また、拡張語候補リストを取得する取得要求に応じて、前記拡張語候補リストを送る（出力する）。また、最終的な拡張語の選択も拡張語選択部１２０で行い、拡張語ゼロの信号を照合部１２１から受け取った場合、クエリのみを検索式生成部１１０へ送る。

照合部１２１は、拡張語選択部１２０から受け取ったクエリを、クエリログＤＢ１２２のクエリと照合する。その照合結果に応じたｃｌｉｃｋｅｄｄｏｃｕｍｅｎｔのＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ：電子文書を識別する一種の識別子と考えて良い）をタイトル及びスニペット抽出部１２３に送る。なお、照合に失敗した場合は、以降の処理を中断し、と拡張語ゼロの信号を拡張語選択部１２０へ送り返す。

クエリログＤＢ１２２は、クエリに対してユーザが実際に閲覧したサイト（ｃｌｉｃｋｅｄｄｏｃｕｍｅｎｔ）のＵＲＬの集合を格納し蓄積（管理）している。より具体的には、クエリログＤＢ１２２は、クエリ，そのクエリに対するｃｌｉｃｋｅｄｄｏｃｕｍｅｎｔのＵＲＬ，検索結果の順位（検索結果におけるＷｅｂページ（ｃｌｉｃｋｅｄｄｏｃｕｍｅｎｔ）に関する情報の順位），そのＵＲＬに対するクリック回数を有するクエリログから構成される。クエリログＤＢ１２２は、クエリログフィードバック処理部１５０からのフィードバックによって、随時更新される。なお、クエリログＤＢ１２２は、いわゆるデータベースでなくても良く、例えば、ファイルやデータベースなどでｃｌｉｃｋｅｄｄｏｃｕｍｅｎｔのＵＲＬの集合を格納し管理（例えば、照合や検索も含む管理）するクエリログ管理部と考えてよい。

タイトル及びスニペット抽出部１２３は、検索結果取得部１２４へクエリを送る。次に、検索結果取得部１２４からクエリに応じた検索結果を受け取り、その検索結果の各リンク先ＵＲＬと照合部１２１から受け取ったＵＲＬを照合する。次に、照合されたサイトのタイトルとスニペットを抽出する。そして、その抽出されたサイトのタイトルとスニペットを機能語抽出及び名詞句生成部１２５へと送る。

検索結果取得部１２４は、タイトル及びスニペット抽出部１２３からクエリを受け取った場合、該クエリに基づいて検索式を生成し、該検索式を検索実行部１３０に送り、該検索式に応じた検索結果を取得する。そして、この検索結果をタイトル及びスニペット抽出部１２３へ送り返す。

機能語抽出及び名詞句生成部１２５は、受け取ったタイトルとスニペットをそれぞれ形態素に分解し、機能語を抽出し、さらに、可能であれば、その機能語の前後関係に基づいて名詞句を生成する。これらの機能語と名詞句が拡張語の候補（即ち、拡張語候補）となる。続いて、この拡張語候補群を、拡張語の重み及び順序付け部１２６へと送る。

拡張語の重み及び順序付け部１２６は、機能語抽出及び名詞句生成部１２５から受けた拡張語候補群の各拡張語候補に対して、後述する方法に基づいて、重み付け及び順序付け処理を行う。この処理時に、語の分散度合（例えば、ＩＤＦ（ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ））が必要となるためコーパスＤＢ１２７（例えば、Ｗｉｋｉｐｅｄｉａのようなコーパス）を利用する。そして、重みで順序付けられた拡張語の候補リスト（以下、拡張語候補リストという）を作成し、その拡張語候補リストを記憶部に格納し、その拡張語候補リストを拡張語選択部１２０へ送る。

また、拡張語の重み及び順序付け部１２６は、拡張語候補リストを取得する取得要求を受けた場合、その拡張語候補リストを取得する取得要求に応じて、前記記憶部に格納された拡張語候補リストを送り返す。

コーパスＤＢ１２７は、電子化された自然言語の文章から成る巨大なテキストデータ（例えば、検索システムに登録された文章群、Ｗｉｋｉｐｅｄｉａなど）であって、テキストドキュメントデータ，該テキストドキュメントデータを形態素解析し、その解析された形態素，その形態素と同じ形態素数をカウントした値（あるいは、同一形態素の出現回数）であるＤＦ（ＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）を有するコーパスデータを格納し管理する。なお、このコーパスＤＢ１２７に基づいて語（例えば、日本語における語）の分散度合（ＩＤＦ）を得ることができる。なお、コーパスＤＢ１２７は、いわゆるデータベースでなくても良く、例えば、ファイルやデータベースなどでコーパスデータを格納し管理（例えば、照合や検索も含む管理）するコーパス管理部と考えてよい。

検索実行部１３０は、検索式生成部１１０もしくは検索結果取得部１２４から検索式を受け取ると、該検索式に基づいて検索をネットワーク上のＷｅｂページ群１０００に対して実行し、検索結果を取得する。そして、その検索結果を検索結果並べ替え処理部１４０へと送る。なお、検索実行部１３０による検索結果は、一般的な検索エンジンで検索された結果と同じものと考えてよい。

検索結果並べ替え処理部１４０は、検索実行部１３０から検索結果を受け取り、拡張語選択部１２０の拡張語の重み及び順序付け部１２６へ、スニペットから抽出された拡張語候補リストを取得する取得要求を送り、拡張語候補リストを取得する。次に、検索結果に含まれるＵＲＬで示される文書のボディに対して、クエリを中心とする指定された形態素数分の近傍を抽出し、抽出したものに拡張語が含まれているか否かを調べる。その拡張語が含まれていた場合、拡張語候補リスト中の拡張語候補に対応する重みで得点付けをしてゆき、その得点に基づいて検索結果を並べる（例えば、最終的な得点の高い検索結果から順に検索結果を並べる）。この並べ替えられた検索結果をブラウザ１００の結果表示部１０２へ送り、ユーザのクエリに対する検索結果とする。

クエリログフィードバック処理部１５０は、ユーザがクリックした結果表示部１０２で表示された（検索された）サイト（例えば、検索結果の順位，ｃｌｉｃｋｅｄｄｏｃｕｍｅｎｔのＵＲＬ（ユーザが検索結果において選択した文書を識別する文書識別子の一つと考えてよい），そのＵＲＬに対するクリック回数（ユーザが検索結果における文書を選択した選択回数と考えてよい））を記録し、クエリログＤＢ１２２へ随時フィードバック（随時格納）させる。例えば、ユーザの検索結果のクリック動作毎にクエリログＤＢ１２２を更新（フィードバック）する。

次に、ユーザによるクエリ入力〜拡張語の抽出及び選択の要求までの手順を図２に基づいて説明する。

本実施形態において、ユーザＵが最初に目にするものはブラウザ１００であり、そのブラウザ１００はクエリ入力画面１０１と結果表示部１０２を備える。ユーザＵは、ブラウザ１００をユーザインタフェースとして扱い、クエリ入力画面１０１でユーザインタフェース装置を用いて、クエリを入力する（Ｍ１０１）。そして、検索式生成部１１０は、そのクエリを受ける（Ｍ１０２）。本実施形態の文章検索システムにおける検索式生成には、拡張語を必要とするため、次いで、検索式生成部１１０は、拡張語の抽出及び選択の要求を拡張語選択部１２０へ送る（Ｍ２０１）。なお、従来の処理方式では、検索式生成部１１０は、検索実行部１３０へ拡張語の抽出及び選択の要求を送っていた。

次に、拡張語選択処理の前半の手順を図３に基づいて説明する。

拡張語選択部１２０が拡張語の抽出及び選択の要求を受ける（Ｍ２０１）と、クエリを照合部１２１へ送る（Ｍ２０２）。

次に、クエリを受けた照合部１２１がクエリログＤＢ１２２に対して照合を開始する。照合部１２１は、拡張語選択部１２０から渡されたクエリとクエリログＤＢ１２２に保管されているクエリを照合する（Ｍ２０３）。照合に成功した場合、対応するｃｌｉｃｋｅｄｄｏｃｕｍｅｎｔのＵＲＬを抽出する（Ｍ２０４）。そして、タイトル及びスニペット抽出部１２３に対し、照合に成功したクエリとｃｌｉｃｋｅｄｄｏｃｕｍｅｎｔのＵＲＬを送る（Ｍ２０５）。照合に失敗した場合、以降の処理を中断し、拡張語ゼロの信号を拡張語選択部１２０へ送り返す。なお、拡張語ゼロの信号を受け取った拡張語選択部１２０は、検索式生成部１１０へクエリのみを送り返す。

前記クエリとｃｌｉｃｋｅｄｄｏｃｕｍｅｎｔのＵＲＬを受けたタイトル及びスニペット抽出部１２３は、クエリと、ｃｌｉｃｋｅｄｄｏｃｕｍｅｎｔのＵＲＬを含む検索結果取得要求と、を検索結果取得部１２４へ送る（Ｍ２０６）。

検索結果取得要求を受けた検索結果取得部１２４は、受けたクエリに基づいて検索式を生成し、該検索式を検索実行部１３０に送り（Ｍ２０７）、該検索式に応じた検索結果（タイトル，スニペット，リンク先ＵＲＬを含む検索結果）を取得し（Ｍ２０８）、その検索結果をタイトル及びスニペット抽出部１２３へ送り返す（Ｍ２０９）。

タイトル及びスニペット抽出部１２３は、照合部１２１から渡されたｃｌｉｃｋｅｄｄｏｃｕｍｅｎｔのＵＲＬと、検索結果取得部１２４から返された検索結果の各リンク先ＵＲＬを照合させ、対応するタイトルとスニペットを抽出する。次いで、機能語抽出及び名詞句生成部１２５にクエリ，タイトル，スニペットを送る（Ｍ２１０）。また、この時に各ｃｌｉｃｋｅｄｄｏｃｕｍｅｎｔのＵＲＬ毎のｃｌｉｃｋ回数（３番目の重みファクタ）もクエリログＤＢ１２２から取得する。

タイトル及びスニペット抽出部１２３から送られたクエリ，タイトル，スニペットを受け取った機能語抽出及び名詞句生成部１２５は、タイトルとスニペットをそれぞれ形態素に分解し、機能語を抽出し、さらに、可能であれば、その機能語の前後関係に基づいて名詞句を生成する。これらの機能語と名詞句が拡張語の候補となる。さらに、これらがタイトルとボディそれぞれに対する拡張語の候補となる。そして、機能語抽出及び名詞句生成部１２５は、クエリ，拡張語候補リストを拡張語の重み及び順序付け部１２６へ送る（Ｍ３０１）。

次に、拡張語選択処理の後半の手順を図４，図５に基づいて説明する。

クエリ，拡張語候補リストを受け取った拡張語の重み及び順序付け部１２６は、語の分散度合（ＩＤＦ）を得るため、コーパスＤＢ１２７（例えば、検索システムに登録された文章群，Ｗｉｋｉｐｅｄｉａ）に拡張語候補を送信し（Ｍ３０２）、拡張語候補をコーパスＤＢ１２７内の形態素と照合することによって、該拡張語候補に応じたＤＦを取得する（Ｍ３０３）。そして、拡張語の重み及び順序付け部１２６は、その取得したＤＦに基づいて、式「ｌｏｇ（コーパスＤＢ１２７内の全テキストドキュメントデータ数／ＤＦ値）」を計算し、拡張語の候補それぞれに対するＩＤＦを求める。このＩＤＦが１番目の重みファクタとなる。

また、拡張語の重み及び順序付け部１２６は、クエリログＤＢ１２７へログ取得要求を送り（Ｍ３０４）、クエリログ全体及びクエリ毎のクエリログを取得し（Ｍ３０５）、取得したクエリログ全体を以下の手順で分析する。
（手順Ａ１）クエリログ全体に対するランクとクリック回数（選択回数）の分布曲線を求め、ランクｒとランクｒ＋１の傾きｔ＿ｉｎｃ（ｒ）を計算する。
（手順Ａ２）クエリ（特定クエリ）毎のクエリログに対するランクとクリック回数（選択回数）の分布曲線を求め、ランクｒとランクｒ＋１の傾きｑ＿ｉｎｃ（ｒ）を計算する。

ここで、全クエリログに対する分布曲線の傾きｔ＿ｉｎｃ（ｒ）と入力されたクエリに対する分布曲線の傾きｑ＿ｉｎｃ（ｒ）を求める手順を図７に基づいて説明する。

予め、図７中の全クエリログに対する分布曲線Ｆ₁（図７中の実線で示されたグラフ）と入力されたクエリに対する分布曲線Ｆ₂（図７中の破線で示されたグラフ）が求められていたとする。また、参考箇所を、ランクｒ＝８とｒ＝９とする。この参考箇所における各傾きが求められれば、これら分布曲線における他の箇所でも傾きは求められる。

分布曲線Ｆ₁上で、ランクｒ＝８に対応するクリック回数をｔｃ₈とし、ランクｒ＝８に対応するクリック回数をｔｃ₉とすると、傾きは「傾きｔ＿ｉｎｃ（８）＝（ｔｃ₉−ｔｃ₈）／（９−８）＝ｔｃ₉−ｔｃ₈」と求められる。

同様に、分布曲線Ｆ₂上で、ランクｒ＝８に対応するクリック回数をｃ₈とし、ランクｒ＝８に対応するクリック回数をｃ₉とすると、傾きは「傾きｑ＿ｉｎｃ（８）＝（ｃ₉−ｃ₈）／（９−８）＝ｃ₉−ｃ₈」と求められる。
（手順Ａ３）式「ｉｎｃ（ｒ）＝ｔ＿ｉｎｃ（ｒ）＋ｑ＿ｉｎｃ（ｒ）」を計算し、ランクｒにおける２番目の重みファクタｉｎｃ（ｒ）を求める。
（手順Ａ４）高頻出クエリであった場合、上述の３番目の重みファクタを用いる手順Ａ４−１，低頻出クエリであった場合、上述の３番目の重みファクタを用いない手順Ａ４−２を行う。なお、高頻出クエリか低頻出クエリかの判断は、例えば、ＴＦが特定の閾値に等しいか、大きければ、高頻出クエリと判断し、ＴＦが特定の閾値をより小さければ、低頻出クエリと判断する。特定の閾値は、実際の実験などで決定する数値と考えてよい。従来の情報検索システムでは、高頻出クエリに対して手動でいいサイトを上位に表示させている事が多い。さらに上位サイト程クリックされる回数が多い傾向がある。故に、高頻出クエリに対してはそのままクリック回数を３番目の重みファクタとして使用することが効果的であることに着目している。
（手順Ａ４−１）メッセージングＭ２１０に関する処理で、取得したｃｌｉｃｋｅｄｄｏｃｕｍｅｎｔのＵＲＬのクリック数（３番目の重みファクタ）をＴＦ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ）と見做し、式「Ｗｅｉｇｈｔ（ｗ）＝ＩＤＦ（ｗ）×ｉｎｃ（ｒ（ｗ））（×ＴＦ（ｗ））」を用いて、各拡張語候補ｗの重みＷｅｉｇｈｔ（ｗ）を計算する。
（手順Ａ４−２）式「Ｗｅｉｇｈｔ（ｗ）＝ＩＤＦ（ｗ）×ｉｎｃ（ｒ（ｗ））」を用いて、各拡張語候補ｗの重みＷｅｉｇｈｔ（ｗ）を計算する。
（手順Ａ５）重みＷｅｉｇｈｔ（ｗ）に関する特定の順（例えば、重みＷｅｉｇｈｔ（ｗ）の絶対値の大きい順）に、拡張語候補ｗを並べて、拡張語候補リストを作成する。

以上の手順による分析結果として得られた拡張語候補リストを予め備えられた記憶部に格納し、該拡張語候補リストを拡張語選択部１２０へ送る（Ｍ４０１）。

拡張語選択部１２０は、送られた拡張語候補リストから上位Ｎ語（例えば、上位３０語）を拡張語として選択し、最終的に、拡張語を検索式生成部１１０へ送り返す（Ｍ４０２）。

拡張語を受け取った検索式生成部１１０は、その受け取った拡張語に基づいて検索式を生成し、生成した検索式を検索実行部１３０へ送る（Ｍ４０３）。なお、クエリ拡張された検索式は、タイトルとボディそれぞれに対して適応する。また、前記生成される検索式は、クエリで検索結果の集合を決定し、その各要素である文章に対して式「拡張語の重み×各文章の語のＴＦ・ＩＤＦ値」を用いて、得点付けをしていく方法が表現されているものとする。

また、検索式生成部１１０は、拡張語選択部１２０から拡張語ゼロの信号を受け取った場合は、クエリのみで検索式を生成し検索実行部１３０へ送る（Ｍ４０３）。

検索式を受け取った検索実行部１３０は、ネットワーク上のＷｅｂページ群を検索し（Ｍ４０４）、検索結果を得る。この検索結果を検索結果並べ替え処理部１４０へ送る（Ｍ５０１）。

次に、検索結果並べ替え〜検索結果表示及びクエリログフードバック処理の手順を図６に基づいて説明する。

検索結果を受け取った（Ｍ５０１）検索結果並べ替え処理部１４０は、拡張語選択部１２０の拡張語の重み及び順序付け部１２６へ拡張語候補リストの取得要求を送る（Ｍ５０２）。

拡張語の重み及び順序付け部１２６は、記憶部に保管されている拡張語候補リストからスニペットから抽出された拡張語候補リストのみを取得し、検索結果並べ替え処理部１４０へ送る（Ｍ５０３）。

検索結果並べ替え処理部１４０は、次のような手順を行う。
（手順Ｂ１）受け取った検索結果のＵＲＬで示される文書のボディに対して、クエリを中心とする指定された形態素数分（例えば、２５形態素分）の近傍を抽出する。なお、近傍の選び方としては、ＴＦ・ＩＤＦ値を計算し最も値が大きい近傍を選ぶものと、クエリが含まれる近傍全てをスキャンし得点付けしていく方法等が考えられる。
（手順Ｂ２）抽出した近傍に、拡張語の重み及び順序付け部１２６から受けた拡張語候補リスト中の拡張語が含まれていた場合、その拡張語に対応する重みで得点付けをしていく。
（手順Ｂ３）最終的な得点に基づいて検索結果を並べ替え（例えば、最終的な得点の高い検索結果から順に並べ替え）、この並べ替えられた検索結果を新しい検索結果とする。なお、並べ替えのやり方としては、並べ替え前の得点を引き続き使用するものや、ゼロリセットする方法等が考えられる。

上述の手順による新しい検索結果をブラウザ１００の結果表示部１０２へと送り（Ｍ５０４）、ユーザのクエリに対する検索結果として表示する（Ｍ５０５）。

ユーザのクリックした結果表示部１０２に表示された（検索された）サイト（例えば、検索結果の順位，ｃｌｉｃｋｅｄｄｏｃｕｍｅｎｔのＵＲＬ，そのＵＲＬに対するクリック回数）は、クエリログフードバック処理部１５０へ送られ（Ｍ５０６）、クエリログフードバック処理部１５０でクエリログＤＢ１２２へ記録され、随時フィードバックされる（Ｍ５０７）。

なお、本実施形態の文章検索システムもしくは文章検索サーバコンピュータにおける各部の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態の文章検索システムもしくは文章検索サーバコンピュータに関する方法（手順）をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体（記憶媒体）、例えばＦＤ（Ｆｌｏｐｐｙ（登録商標）Ｄｉｓｋ）や、ＭＯ（Ｍａｇｎｅｔｏ−Ｏｐｔｉｃａｌｄｉｓｋ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、メモリカード、ＣＤ（ＣｏｍｐａｃｔＤｉｓｋ）、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。

さらに、上述の本実施形態の文章検索システムもしくは文章検索サーバコンピュータに関する方法を記述したコンピュータプログラムを、その方法に必要とされる入出力データを格納したメモリや外部記憶部等にアクセスするように実装してもよい。

以上のように本実施形態によれば、高頻出クエリ、低頻出クエリに関わらず、いかなるクエリに対しても効果的で、かつ少ない拡張語でランキング精度を上げることができるクエリ拡張法を実践できる。

従来技術におけるクエリログ内に十分多くのセッションが残されているクエリは、一般的に高頻度のクエリであって、そのクエリ拡張に関連する技術をそのまま低頻度のクエリに対して応用することは困難であった。

実際に、非特許文献１に関して言えば、高頻度クエリのみを扱っている。また、その高頻度クエリのみを扱った結果によれば、拡張語が４０〜６０個で最大精度を示しており、この数値では計算コストがかかっていた。

これらの課題に対しても、本実施形態によって、対応可能である。

以上、本発明の実施形態について説明したが、本発明は説明した実施形態に限定されるものでなく、各請求項に記載した範囲において各種の変形を行うことが可能である。

例えば、本実施形態の変形として、コーパスＤＢをインターネット上に配置し、そのコーパスＤＢにアクセスするように構成しても良い。

本実施形態における文章検索システムの構成図。ユーザによるクエリ入力〜拡張語の抽出及び選択の要求までの手順を示すコラボレーション図。拡張語選択処理の前半の手順を示すコラボレーション図。拡張語選択処理の後半の手順を示す第１コラボレーション図。拡張語選択処理の後半の手順を示す第２コラボレーション図。検索結果並べ替え〜検索結果て表示及びクエリログフードバック処理の手順を示すコラボレーション図。全クエリログに対する分布曲線と入力されたクエリに対する分布曲線の一例を示す図。

符号の説明

１００…ブラウザ
１０１…クエリ入力画面
１０２…結果表示部
１２０…拡張語選択部
１２１…照合部
１２２…クエリログＤＢ
１２３…タイトル及びスニペット抽出部
１２４…検索結果取得部
１２５…機能語抽出及び名詞句生成部
１２６…拡張語の重み及び順序付け部
１２７…コーパスＤＢ
１３０…検索実行部
１４０…検索結果並べ替え処理部
１５０…クエリログフィードバック処理部
１０００…ネットワーク上のＷｅｂページ群
Ｆ₁…全クエリログに対する分布曲線
Ｆ₂…特定クエリに対する分布曲線
Ｕ…ユーザ

Claims

記憶部を備え、
ネットワークに接続され、
クライアント部からクエリを入力され、そのクエリに応じてネットワーク上のＷｅｂページを検索し、その検索結果をクライアント部に返し、表示させる文章検索サーバコンピュータであって、
入力されたクエリを含む拡張語の抽出及び選択の要求を作成し、該拡張語の抽出及び選択の要求を出力する手段と、
受け取った拡張語に基づいてクエリ拡張された検索式の生成を行い、該検索式を送る手段と、
を具備する検索式生成部と、
拡張語候補リストを取得する取得要求に応じて、前記記憶部に格納された拡張語候補リストを送る拡張語の重み及び順序付け部と、
クエリ，そのクエリに応じた検索結果において選択された文書を識別する文書識別子，そのクエリに対する検索結果における文書に関する情報の順位，検索結果における文書を選択した選択回数を有するクエリログを格納し、管理するクエリログ管理部と、
を具備し、
前記拡張語の抽出及び選択の要求を受け取り、該拡張語の抽出及び選択の要求に含まれるクエリに応じて、重みで順序付けられた拡張語候補リストを生成し、該生成された拡張語候補リストを記憶部に格納し、該拡張語候補リストに基づいて、拡張語を選択し、該選択された拡張語を前記検索式生成部へ送る拡張語選択部と、
受け取った検索式に基づいて、ネットワーク上のＷｅｂページを検索し、検索結果を取得し、その検索結果を送る検索実行部と、
検索結果を受け取り、
拡張語候補リストを取得する取得要求を前記拡張語の重み及び順序付け部へ送り、該取得要求に応じた拡張語候補リストを取得し、
受け取った検索結果に含まれる文書識別子で示される文書のボディに対して、クエリを中心とする特定の形態素数分の近傍を抽出し、抽出した近傍に拡張語が含まれているか否かを調べ、該拡張語が含まれていた場合、拡張語候補リスト中の拡張語候補に対応する重みで得点付けをしてゆき、その得点に基づいて検索結果を並べ、その並べ替えられた検索結果を出力する検索結果並べ替え処理部と、
クライアント部に出力された検索結果に対するクエリログを前記クエリログ管理部を使って随時格納するクエリログフィードバック処理部と、
を備えることを特徴とする文章検索サーバコンピュータ。
請求項１に記載の文章検索サーバコンピュータにおいて、
前記拡張語選択部が、
受け取ったクエリに基づいて検索式を生成し、該検索式を前記検索実行部に送り、該検索式に応じたタイトル，スニペット，文書識別子を含む検索結果を取得し、該検索結果を送る検索結果取得部と、
前記拡張語の抽出及び選択の要求に含まれるクエリを、前記クエリログ管理部を使って照合し、その照合結果に応じた文書識別子を送る照合部と、
前記照合結果に応じた文書識別子を受け、
前記検索結果取得部へ前記クエリを送り、該クエリに応じた検索結果を受け取り、その検索結果に含まれる文書識別子と前記照合部から受け取った文書識別子を照合し、照合された文書識別子に応じたタイトルとスニペットを抽出し、その抽出されたタイトルとスニペットを送るタイトル及びスニペット抽出部と、
受け取ったタイトルとスニペットをそれぞれ形態素に分解し、それら形態素に基づいて拡張語の候補となる拡張語候補群を生成し、該拡張語候補群を送る機能語抽出及び名詞句生成部と、
電子化された自然言語の文章から成るテキストデータ，該テキストドキュメントデータを形態素解析し、その解析された形態素，その形態素と同じ形態素数をカウントした値であるＤＦ（ＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）を有するコーパスデータを格納し管理するコーパス管理部と、
を備え、
前記拡張語選択部の拡張語の重み及び順序付け部が、
受けた拡張語候補群の各拡張語候補に対して、前記コーパス管理部に格納されたＤＦに基いて、ＩＤＦ（ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）を計算し、該ＩＤＦに基づく重み及び順序付け手段を用いて、重みで順序付けられた拡張語候補リストを作成し、作成した拡張語候補リストを記憶部に格納し、該拡張語候補リストを送る手段、
を備える
ことを特徴とする文章検索サーバコンピュータ。
請求項２に記載の文章検索サーバコンピュータにおいて、
前記重み及び順序付け手段が、
前記クエリログ管理部からクエリログ全体及びクエリ毎のクエリログを取得し、
クエリログ全体に対するランクと選択回数の分布曲線を求め、ランクｒとランクｒ＋１の傾きｔ＿ｉｎｃ（ｒ）を計算し、
クエリ毎のクエリログに対するランクと選択回数の分布曲線を求め、ランクｒとランクｒ＋１の傾きｑ＿ｉｎｃ（ｒ）を計算し、
傾きｔ＿ｉｎｃ（ｒ）に傾きｑ＿ｉｎｃ（ｒ）を加算し、ランクｒにおける重みファクタｉｎｃ（ｒ）を求め、
当該クエリが高頻出クエリであった場合、クエリログ管理部における選択回数をＴＦ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ）と見做し、拡張語候補ｗに関して、ＩＤＦ（ｗ）にｉｎｃ（ｒ（ｗ））を乗算し、さらに、ＴＦ（ｗ）を乗算して、各拡張語候補ｗの重みＷｅｉｇｈｔ（ｗ）を計算し、
当該クエリが低頻出クエリであった場合、ＩＤＦ（ｗ）にｉｎｃ（ｒ（ｗ））を乗算して、各拡張語候補ｗの重みＷｅｉｇｈｔ（ｗ）を計算し、
重みＷｅｉｇｈｔ（ｗ）に関する特定の順に、拡張語候補ｗを並べて、拡張語候補リストを作成する手段、
を備える
ことを特徴とする文章検索サーバコンピュータ。
クエリ，そのクエリに応じた検索結果において選択された文書を識別する文書識別子，そのクエリに対する検索結果における文書に関する情報の順位，検索結果における文書を選択した選択回数を有するクエリログを格納し、管理するクエリログ管理部と、
記憶部と
を備え、
ネットワークに接続され、
クライアント部からクエリを入力され、そのクエリに応じてネットワーク上のＷｅｂページを検索し、その検索結果をクライアント部に返し、表示させるサーバコンピュータに使用する文章検索方法であって、
入力されたクエリを含む拡張語の抽出及び選択の要求を作成し、該拡張語の抽出及び選択の要求を出力するステップと、
前記拡張語の抽出及び選択の要求を受け取り、該拡張語の抽出及び選択の要求に含まれるクエリに応じて、重みで順序付けられた拡張語候補リストを生成し、該生成された拡張語候補リストを記憶部に格納し、該拡張語候補リストに基づいて、拡張語を選択し、該選択された拡張語を送る拡張語選択ステップと、
前記拡張語選択ステップから受け取った拡張語に基づいてクエリ拡張された検索式の生成を行い、該検索式を送るステップと、
受け取った検索式に基づいて検索を実行し、ネットワーク上のＷｅｂページを検索し、検索結果を取得し、その検索結果を送る検索実行ステップと、
前記記憶部に格納された拡張語候補リストを取得し、
受け取った検索結果に含まれる文書識別子で示される文書のボディに対して、クエリを中心とする特定の形態素数分の近傍を抽出し、抽出した近傍に拡張語が含まれているか否かを調べ、該拡張語が含まれていた場合、拡張語候補リスト中の拡張語候補に対応する重みで得点付けをしてゆき、その得点に基づいて検索結果を並べ、その並べ替えられた検索結果を出力する検索結果並べ替え処理ステップと、
クライアント部に出力された検索結果に対するクエリログを前記クエリログ管理部を使って随時格納するクエリログフィードバック処理ステップと、
を有することを特徴とする文章検索方法。
クエリ，そのクエリに応じた検索結果において選択された文書を識別する文書識別子，そのクエリに対する検索結果における文書に関する情報の順位，検索結果における文書を選択した選択回数を有するクエリログを格納し、管理するクエリログ管理部と、
電子化された自然言語の文章から成るテキストデータ，該テキストドキュメントデータを形態素解析し、その解析された形態素，その形態素と同じ形態素数をカウントした値であるＤＦを有するコーパスデータを格納し管理するコーパス管理部と、
記憶部と
を備え、
ネットワークに接続され、
クライアント部からクエリを入力され、そのクエリに応じてネットワーク上のＷｅｂページを検索し、その検索結果をクライアント部に返し、表示させるサーバコンピュータに使用する文章検索方法であって、
入力されたクエリを含む拡張語の抽出及び選択の要求を作成し、該拡張語の抽出及び選択の要求を出力するステップと、
前記拡張語の抽出及び選択の要求を受け取り、該拡張語の抽出及び選択の要求に含まれるクエリに応じて、重みで順序付けられた拡張語候補リストを生成し、該生成された拡張語候補リストを記憶部に格納し、該拡張語候補リストに基づいて、拡張語を選択し、該選択された拡張語を送る拡張語選択ステップと、
前記拡張語選択ステップから受け取った拡張語に基づいてクエリ拡張された検索式の生成を行い、該検索式を送るステップと、
受け取った検索式に基づいて検索を実行し、ネットワーク上のＷｅｂページを検索し、検索結果を取得し、その検索結果を送る検索実行ステップと、
前記記憶部に格納された拡張語候補リストを取得し、
受け取った検索結果に含まれる文書識別子で示される文書のボディに対して、クエリを中心とする特定の形態素数分の近傍を抽出し、抽出した近傍に拡張語が含まれているか否かを調べ、該拡張語が含まれていた場合、拡張語候補リスト中の拡張語候補に対応する重みで得点付けをしてゆき、その得点に基づいて検索結果を並べ、その並べ替えられた検索結果を出力する検索結果並べ替え処理ステップと、
クライアント部に出力された検索結果に対するクエリログを前記クエリログ管理部を使って随時格納するクエリログフィードバック処理ステップと、
を有し、さらに、前記拡張語選択ステップが、
前記拡張語の抽出及び選択の要求に含まれるクエリを、前記クエリログ管理部を使って照合し、その照合結果に応じた文書識別子を送る照合ステップと、
前記照合結果に応じた文書識別子を受け、
前記クエリに基づいて検索式を生成し、該生成した検索式に基づいて、ネットワーク上のＷｅｂページを検索し、該検索式に応じたタイトル，スニペット，文書識別子を含む検索結果を取得し、
その検索結果に含まれる文書識別子と前記照合ステップから受け取った文書識別子を照合し、照合された文書識別子に応じたタイトルとスニペットを抽出し、その抽出されたタイトルとスニペットを送るタイトル及びスニペット抽出ステップと、
受け取ったタイトルとスニペットをそれぞれ形態素に分解し、それら形態素に基づいて拡張語の候補となる拡張語候補群を生成し、該拡張語候補群を送る機能語抽出及び名詞句生成ステップと、
受けた拡張語候補群の各拡張語候補に対して、前記コーパス管理部に格納されたＤＦに基いて、ＩＤＦを計算し、該ＩＤＦに基づく重みで順序付けられた拡張語候補リストを作成し、作成した拡張語候補リストを記憶部に格納し、該拡張語候補リストを送る重み及び順序付けステップと、
を有する
ことを特徴とする文章検索方法。
請求項５に記載の文章検索方法において、
前記重み及び順序付けステップが、
前記クエリログ管理部からクエリログ全体及びクエリ毎のクエリログを取得するステップと、
クエリログ全体に対するランクと選択回数の分布曲線を求め、ランクｒとランクｒ＋１の傾きｔ＿ｉｎｃ（ｒ）を計算するステップと、
クエリ毎のクエリログに対するランクと選択回数の分布曲線を求め、ランクｒとランクｒ＋１の傾きｑ＿ｉｎｃ（ｒ）を計算するステップと、
傾きｔ＿ｉｎｃ（ｒ）に傾きｑ＿ｉｎｃ（ｒ）を加算し、ランクｒにおける重みファクタｉｎｃ（ｒ）を求めるステップと、
当該クエリが高頻出クエリであった場合、クエリログ管理部における選択回数をＴＦと見做し、拡張語候補ｗに関して、ＩＤＦ（ｗ）にｉｎｃ（ｒ（ｗ））を乗算し、さらに、ＴＦ（ｗ）を乗算して、各拡張語候補ｗの重みＷｅｉｇｈｔ（ｗ）を計算し、
当該クエリが低頻出クエリであった場合、ＩＤＦ（ｗ）にｉｎｃ（ｒ（ｗ））を乗算して、各拡張語候補ｗの重みＷｅｉｇｈｔ（ｗ）を計算するステップと、
重みＷｅｉｇｈｔ（ｗ）に関する特定の順に、拡張語候補ｗを並べて、拡張語候補リストを作成するステップと、
を有する
ことを特徴とする文章検索方法。
コンピュータを請求項１乃至３のいずれかに記載の文章検索サーバコンピュータにおける各部及び各手段として機能させることを特徴とする文章検索プログラム。
請求項７に記載の文章検索プログラムを記録したことを特徴とする記録媒体。