JP2009110231A - 文章検索サーバコンピュータ,文章検索方法,文章検索プログラム,そのプログラムを記録した記録媒体 - Google Patents

文章検索サーバコンピュータ,文章検索方法,文章検索プログラム,そのプログラムを記録した記録媒体 Download PDF

Info

Publication number
JP2009110231A
JP2009110231A JP2007281333A JP2007281333A JP2009110231A JP 2009110231 A JP2009110231 A JP 2009110231A JP 2007281333 A JP2007281333 A JP 2007281333A JP 2007281333 A JP2007281333 A JP 2007281333A JP 2009110231 A JP2009110231 A JP 2009110231A
Authority
JP
Japan
Prior art keywords
query
search
extended word
extended
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007281333A
Other languages
English (en)
Other versions
JP4724701B2 (ja
Inventor
Shinya Murata
眞哉 村田
Hiroyuki Toda
浩之 戸田
Yumiko Matsuura
由美子 松浦
Ryoji Kataoka
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007281333A priority Critical patent/JP4724701B2/ja
Publication of JP2009110231A publication Critical patent/JP2009110231A/ja
Application granted granted Critical
Publication of JP4724701B2 publication Critical patent/JP4724701B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】拡張語候補リストに含まれる拡張語に基づいて、クエリ拡張された検索式に基づき、検索を実行し、ランキング精度を向上させる。
【解決手段】入力されたクエリを含む要求を作成し、該要求を出力する(110)。出力された要求に含まれるクエリに応じて、重みで順序付けられた拡張語候補リストを生成し、該拡張語候補リストに基づいて拡張語を選択する(120)。その選択された拡張語に基づいてクエリ拡張された検索式の生成を行う(110)。生成された検索式に基づいて検索を実行し、ネットワークを検索し、検索結果を取得する(130)。取得された検索結果に示される文書のボディに対して、クエリを中心とする特定の形態素数分の近傍を抽出し、その近傍に拡張語を含む場合、前記拡張語候補リスト中の拡張語候補に対応する重みで得点付けをしてゆき、その得点に基づいて並べ替えられた検索結果を出力する(140)。
【選択図】図1

Description

本発明は、電子文書における文章を検索する文章検索システムに関するものである。
文章検索システムにおけるランキングの精度(以後、ランキング精度という)向上を図るための有望な手法の一つに「クエリ拡張」と呼ばれるものが知られている。この手法は、クエリに対して「何らかの関連ある」語(以下、拡張語と呼ぶ)を自動的に取得し、選択し、付与する事でより良い結果を導き出そうとする手法である。
上述のクエリ拡張に関連する技術(例えば、非特許文献1参照)では、拡張語の取得先データとしてクエリログ、選択基準としてクエリとの共起確率を用いている。一般的に、クエリに適する拡張語というのは時々刻々変化すると考える方が自然であり、この技術ではクエリログを用いて、時々刻々変化する拡張語に対処している。
Hang Cui,Ji−Rong Wen,Jian−Yun Nie,Wei−Ying Ma,"Probabilistic Query Expansion Using Query Logs",Proceedings of WWW2002,ACM(the Association for Computing Machinery),7 May 2002(2002(平成14)年5月7日),p325−332。
上述のクエリ拡張に関連する技術(非特許文献1参照)では、クエリとの共起確率をクエリログを用いて計算し、これに基づき拡張語を選択する。このように、確率の概念が基礎となっており、クエリログ内に十分多くのセッション(クエリ及び該クエリに対応するclicked documentのURLから成るデータ)が残されているクエリに対してのみ有効であると考えられる。
本発明は、前記課題に基づいてなされたものであって、重みで順序付けられた拡張語候補リストを生成し、該拡張語候補リストに含まれる拡張語に基づいて、クエリ拡張された検索式に基づき、検索を実行し、ランキング精度を向上させる文章検索サーバコンピュータ,文章検索方法,文章検索プログラム,そのプログラムを記録した記録媒体を提供することにある。
前記課題の解決を図るために、請求項1記載の発明は、記憶部を備え、ネットワークに接続され、クライアント部からクエリを入力され、そのクエリに応じてネットワーク上のWebページを検索し、その検索結果をクライアント部に返し、表示させる文章検索サーバコンピュータであって、入力されたクエリを含む拡張語の抽出及び選択の要求を作成し、該拡張語の抽出及び選択の要求を出力する手段と、受け取った拡張語に基づいてクエリ拡張された検索式の生成を行い、該検索式を送る手段と、を具備する検索式生成部と、拡張語候補リストを取得する取得要求に応じて、前記記憶部に格納された拡張語候補リストを送る拡張語の重み及び順序付け部と、クエリ,そのクエリに応じた検索結果において選択された文書を識別する文書識別子,そのクエリに対する検索結果における文書に関する情報の順位,検索結果における文書を選択した選択回数を有するクエリログを格納し、管理するクエリログ管理部と、を具備し、前記拡張語の抽出及び選択の要求を受け取り、該拡張語の抽出及び選択の要求に含まれるクエリに応じて、重みで順序付けられた拡張語候補リストを生成し、該生成された拡張語候補リストを記憶部に格納し、該拡張語候補リストに基づいて、拡張語を選択し、該選択された拡張語を前記検索式生成部へ送る拡張語選択部と、受け取った検索式に基づいて、ネットワーク上のWebページを検索し、検索結果を取得し、その検索結果を送る検索実行部と、検索結果を受け取り、拡張語候補リストを取得する取得要求を前記拡張語の重み及び順序付け部へ送り、該取得要求に応じた拡張語候補リストを取得し、受け取った検索結果に含まれる文書識別子で示される文書のボディに対して、クエリを中心とする特定の形態素数分の近傍を抽出し、抽出した近傍に拡張語が含まれているか否かを調べ、該拡張語が含まれていた場合、拡張語候補リスト中の拡張語候補に対応する重みで得点付けをしてゆき、その得点に基づいて検索結果を並べ、その並べ替えられた検索結果を出力する検索結果並べ替え処理部と、クライアント部に出力された検索結果に対するクエリログを前記クエリログ管理部を使って随時格納するクエリログフィードバック処理部と、を備えることを特徴とする。
請求項2記載の発明は、請求項1に記載の発明において、前記拡張語選択部が、受け取ったクエリに基づいて検索式を生成し、該検索式を前記検索実行部に送り、該検索式に応じたタイトル,スニペット,文書識別子を含む検索結果を取得し、該検索結果を送る検索結果取得部と、前記拡張語の抽出及び選択の要求に含まれるクエリを、前記クエリログ管理部を使って照合し、その照合結果に応じた文書識別子を送る照合部と、前記照合結果に応じた文書識別子を受け、前記検索結果取得部へ前記クエリを送り、該クエリに応じた検索結果を受け取り、その検索結果に含まれる文書識別子と前記照合部から受け取った文書識別子を照合し、照合された文書識別子に応じたタイトルとスニペットを抽出し、その抽出されたタイトルとスニペットを送るタイトル及びスニペット抽出部と、受け取ったタイトルとスニペットをそれぞれ形態素に分解し、それら形態素に基づいて拡張語の候補となる拡張語候補群を生成し、該拡張語候補群を送る機能語抽出及び名詞句生成部と、電子化された自然言語の文章から成るテキストデータ,該テキストドキュメントデータを形態素解析し、その解析された形態素,その形態素と同じ形態素数をカウントした値であるDF(Document Frequency)を有するコーパスデータを格納し管理するコーパス管理部と、を備え、前記拡張語選択部の拡張語の重み及び順序付け部が、受けた拡張語候補群の各拡張語候補に対して、前記コーパス管理部に格納されたDFに基いて、IDF(Inverse Document Frequency)を計算し、該IDFに基づく重み及び順序付け手段を用いて、重みで順序付けられた拡張語候補リストを作成し、作成した拡張語候補リストを記憶部に格納し、該拡張語候補リストを送る手段、を備えることを特徴とする。
請求項3記載の発明は、請求項2に記載の発明において、前記重み及び順序付け手段が、前記クエリログ管理部からクエリログ全体及びクエリ毎のクエリログを取得し、クエリログ全体に対するランクと選択回数の分布曲線を求め、ランクrとランクr+1の傾きt_inc(r)を計算し、クエリ毎のクエリログに対するランクと選択回数の分布曲線を求め、ランクrとランクr+1の傾きq_inc(r)を計算し、傾きt_inc(r)に傾きq_inc(r)を加算し、ランクrにおける重みファクタinc(r)を求め、当該クエリが高頻出クエリであった場合、クエリログ管理部における選択回数をTF(Term Frequency)と見做し、拡張語候補wに関して、IDF(w)にinc(r(w))を乗算し、さらに、TF(w)を乗算して、各拡張語候補wの重みWeight(w)を計算し、当該クエリが低頻出クエリであった場合、IDF(w)にinc(r(w))を乗算して、各拡張語候補wの重みWeight(w)を計算し、重みWeight(w)に関する特定の順に、拡張語候補wを並べて、拡張語候補リストを作成する手段、を備えることを特徴とする。
請求項4記載の発明は、クエリ,そのクエリに応じた検索結果において選択された文書を識別する文書識別子,そのクエリに対する検索結果における文書に関する情報の順位,検索結果における文書を選択した選択回数を有するクエリログを格納し、管理するクエリログ管理部と、記憶部とを備え、ネットワークに接続され、クライアント部からクエリを入力され、そのクエリに応じてネットワーク上のWebページを検索し、その検索結果をクライアント部に返し、表示させるサーバコンピュータに使用する文章検索方法であって、入力されたクエリを含む拡張語の抽出及び選択の要求を作成し、該拡張語の抽出及び選択の要求を出力するステップと、前記拡張語の抽出及び選択の要求を受け取り、該拡張語の抽出及び選択の要求に含まれるクエリに応じて、重みで順序付けられた拡張語候補リストを生成し、該生成された拡張語候補リストを記憶部に格納し、該拡張語候補リストに基づいて、拡張語を選択し、該選択された拡張語を送る拡張語選択ステップと、前記拡張語選択ステップから受け取った拡張語に基づいてクエリ拡張された検索式の生成を行い、該検索式を送るステップと、受け取った検索式に基づいて検索を実行し、ネットワーク上のWebページを検索し、検索結果を取得し、その検索結果を送る検索実行ステップと、前記記憶部に格納された拡張語候補リストを取得し、受け取った検索結果に含まれる文書識別子で示される文書のボディに対して、クエリを中心とする特定の形態素数分の近傍を抽出し、抽出した近傍に拡張語が含まれているか否かを調べ、該拡張語が含まれていた場合、拡張語候補リスト中の拡張語候補に対応する重みで得点付けをしてゆき、その得点に基づいて検索結果を並べ、その並べ替えられた検索結果を出力する検索結果並べ替え処理ステップと、クライアント部に出力された検索結果に対するクエリログを前記クエリログ管理部を使って随時格納するクエリログフィードバック処理ステップと、を有することを特徴とする。
請求項5記載の発明は、クエリ,そのクエリに応じた検索結果において選択された文書を識別する文書識別子,そのクエリに対する検索結果における文書に関する情報の順位,検索結果における文書を選択した選択回数を有するクエリログを格納し、管理するクエリログ管理部と、電子化された自然言語の文章から成るテキストデータ,該テキストドキュメントデータを形態素解析し、その解析された形態素,その形態素と同じ形態素数をカウントした値であるDFを有するコーパスデータを格納し管理するコーパス管理部と、記憶部とを備え、ネットワークに接続され、クライアント部からクエリを入力され、そのクエリに応じてネットワーク上のWebページを検索し、その検索結果をクライアント部に返し、表示させるサーバコンピュータに使用する文章検索方法であって、入力されたクエリを含む拡張語の抽出及び選択の要求を作成し、該拡張語の抽出及び選択の要求を出力するステップと、前記拡張語の抽出及び選択の要求を受け取り、該拡張語の抽出及び選択の要求に含まれるクエリに応じて、重みで順序付けられた拡張語候補リストを生成し、該生成された拡張語候補リストを記憶部に格納し、該拡張語候補リストに基づいて、拡張語を選択し、該選択された拡張語を送る拡張語選択ステップと、前記拡張語選択ステップから受け取った拡張語に基づいてクエリ拡張された検索式の生成を行い、該検索式を送るステップと、受け取った検索式に基づいて検索を実行し、ネットワーク上のWebページを検索し、検索結果を取得し、その検索結果を送る検索実行ステップと、前記記憶部に格納された拡張語候補リストを取得し、受け取った検索結果に含まれる文書識別子で示される文書のボディに対して、クエリを中心とする特定の形態素数分の近傍を抽出し、抽出した近傍に拡張語が含まれているか否かを調べ、該拡張語が含まれていた場合、拡張語候補リスト中の拡張語候補に対応する重みで得点付けをしてゆき、その得点に基づいて検索結果を並べ、その並べ替えられた検索結果を出力する検索結果並べ替え処理ステップと、クライアント部に出力された検索結果に対するクエリログを前記クエリログ管理部を使って随時格納するクエリログフィードバック処理ステップと、を有し、さらに、前記拡張語選択ステップが、前記拡張語の抽出及び選択の要求に含まれるクエリを、前記クエリログ管理部を使って照合し、その照合結果に応じた文書識別子を送る照合ステップと、前記照合結果に応じた文書識別子を受け、前記クエリに基づいて検索式を生成し、該生成した検索式に基づいて、ネットワーク上のWebページを検索し、該検索式に応じたタイトル,スニペット,文書識別子を含む検索結果を取得し、その検索結果に含まれる文書識別子と前記照合ステップから受け取った文書識別子を照合し、照合された文書識別子に応じたタイトルとスニペットを抽出し、その抽出されたタイトルとスニペットを送るタイトル及びスニペット抽出ステップと、受け取ったタイトルとスニペットをそれぞれ形態素に分解し、それら形態素に基づいて拡張語の候補となる拡張語候補群を生成し、該拡張語候補群を送る機能語抽出及び名詞句生成ステップと、受けた拡張語候補群の各拡張語候補に対して、前記コーパス管理部に格納されたDFに基いて、IDFを計算し、該IDFに基づく重みで順序付けられた拡張語候補リストを作成し、作成した拡張語候補リストを記憶部に格納し、該拡張語候補リストを送る重み及び順序付けステップと、を有することを特徴とする。
請求項6記載の発明は、請求項5に記載の発明において、前記重み及び順序付けステップが、前記クエリログ管理部からクエリログ全体及びクエリ毎のクエリログを取得するステップと、クエリログ全体に対するランクと選択回数の分布曲線を求め、ランクrとランクr+1の傾きt_inc(r)を計算するステップと、クエリ毎のクエリログに対するランクと選択回数の分布曲線を求め、ランクrとランクr+1の傾きq_inc(r)を計算するステップと、傾きt_inc(r)に傾きq_inc(r)を加算し、ランクrにおける重みファクタinc(r)を求めるステップと、当該クエリが高頻出クエリであった場合、クエリログ管理部における選択回数をTFと見做し、拡張語候補wに関して、IDF(w)にinc(r(w))を乗算し、さらに、TF(w)を乗算して、各拡張語候補wの重みWeight(w)を計算し、当該クエリが低頻出クエリであった場合、IDF(w)にinc(r(w))を乗算して、各拡張語候補wの重みWeight(w)を計算するステップと、重みWeight(w)に関する特定の順に、拡張語候補wを並べて、拡張語候補リストを作成するステップと、を有することを特徴とする。
請求項7記載の発明は、文章検索プログラムであって、コンピュータを請求項1乃至3のいずれかに記載の文章検索サーバコンピュータにおける各部及び各手段として機能させることを特徴とする。
請求項8記載の発明は、記録媒体であって、請求項7に記載の文章検索プログラムを記録したことを特徴とする。
前記請求項1,4に記載の発明は、生成された拡張語候補リストに基づきクエリ拡張された検索式を取得できる。クエリを中心とする指定された形態素数分の近傍に基づいて並べ替えを行った検索結果を取得し、さらに、その検索結果をクエリログにフィードバックできる。
前記請求項2,5に記載の発明は、コーパスデータに基づいて、拡張語候補リストを取得できる。
前記請求項3,6に記載の発明は、重みに関する特定の順に、拡張語候補を並べた拡張語候補リストを取得できる。
前記請求項7に記載の発明は、請求項1乃至3のいずれかに記載の文章検索サーバコンピュータをコンピュータプログラムとして記載できる。
前記請求項8に記載の発明は、文章検索プログラムを記録媒体に記録できる。
以上示したように請求項1,4の発明によれば、クエリ拡張された検索式と、並べ替えを行った検索結果のフィードバックによってランキング精度を向上できる。また、検索結果順位を適切に正規化できる。
請求項2,5の発明によれば、コーパスデータに基づいた拡張語候補リストによってランキング精度を向上できる。
請求項3,6の発明によれば、高頻出クエリもしくは低頻出クエリに関わらず、少ない拡張語数(例えば、1〜5語)でランキング精度を向上できる。
請求項7の発明によれば、文章検索サーバコンピュータとしてコンピュータを動作させるコンピュータプログラムを提供できる。
請求項8の発明によれば、文章検索プログラムとしてコンピュータを動作させるコンピュータプログラムを記録した記録媒体を提供できる。
これらを以って電子文書検索技術分野に貢献できる。
本実施形態における文章検索システムの構成を図1に基づいて説明する。
図1中の文章検索システムは、端末(図示省略)に備えられたブラウザ100からクエリを入力され、そのクエリに応じてネットワーク上のWebページ群1000を検索し、検索結果(タイトル,スニペット,リンク先URLを有するWebページ(電子文書)に関する情報を含む検索結果)を返す文章検索サーバコンピュータ(図示省略)である。なお、以下の説明において、文書は電子文書(例えば、HTML(HyperText Markup Language)形式文書ファイル)を指す。
端末は、ブラウザ100,ポインティングデバイス、キーボード装置、ディスプレイ装置などを含むユーザインタフェース装置(図示省略),メモリやハードディスクドライブ装置などの一般的な記憶装置を含む記憶部(図示省略),CPU(Central Processing Unit)やOS(Operating System)を含み、各部を制御する制御部(図示省略)を備え、クライアント機能(ブラウザ100自体がクライアント機能を有する処理部)を有するコンピュータと考えてよい。
文章検索サーバコンピュータは、文章検索システム本体,メモリやハードディスクドライブ装置などの一般的な記憶装置を含み、前記文章検索サーバコンピュータにおける情報もしくはデータを記憶する記憶部(図示省略),CPUやOSを含み、各部を制御する制御部(図示省略)から構成される。
なお、以下の説明では、端末と文章検索サーバコンピュータは、例えば、通信回線(ネットワークなど)で接続されているものとするが、ユーザインタフェース装置を備えた文章検索サーバコンピュータにブラウザ100をインストールしても、構成としては同等であり、同じ動作を行うことができる。端末(あるいは、ブラウザ100)と文章検索サーバコンピュータ(あるいは、文章検索システム本体)は、例えば、HTTP(HyperText Transfer Protocol)などのプロトコルで通信を行っているものとする。
文章検索システム本体は、検索式生成部110,拡張語選択部120,検索実行部130,検索結果並べ替え処理部140,クエリログフィードバック処理部150を備える。
ブラウザ100は、クエリ入力画面101と結果表示部102を備え、これらを制御する。ブラウザ100は、本実施形態における文章検索システムにおけるユーザインタフェースである。
クエリ入力画面101は、クエリ入力画面101でユーザからのクエリを取得し、検索式生成部110へ送る。
結果表示部102は、検索結果並べ替え処理部140から得た検索結果を、結果表示部102でユーザに表示する。
検索式生成部110は、次のいずれかの処理を行う。
(1)クエリ入力画面101からクエリを受け取った場合、拡張語の抽出及び選択の要求(例えば、該クエリを含む要求)を作成し、該拡張語の抽出及び選択の要求を拡張語選択部120へ送る。
(2)拡張語選択部120から拡張語を受け取った場合、拡張語に基づいて検索式(即ち、クエリ拡張された検索式)の生成を行い、該検索式を検索実行部130へ送る。例えば、検索式は、「クエリで検索結果の全体集合を取得し、その各検索結果中に拡張語が存在すれば、スコア値に対して該拡張語の重みを加算していく」という処理が表現されたものである。
(3)拡張語選択部120から拡張語ゼロの信号を受け取った場合、クエリのみから検索式を生成し検索実行部130へ送る。なお、拡張語ゼロの信号は、ソフトウェア的なメッセージの一種である。
拡張語選択部120は、照合部121,タイトル及びスニペット抽出部123,検索結果取得部124,機能語抽出及び名詞句生成部125,拡張語の重み及び順序付け部126,クエリログDB(Database)122、コーパスDB127を備え、これらを制御する。なお、クエリログDB122とコーパスDB127は、前記文章検索サーバコンピュータの記憶部に作成されても良い。
拡張語選択部120は、拡張語の抽出及び選択の要求に含まれるクエリに応じて、拡張語候補リストを生成し、該拡張語候補リストに基づいて、拡張語を選択する。
より具体的には、検索式生成部110から拡張語の抽出及び選択の要求を受けとった場合、照合部121にクエリを送る。また、拡張語候補リストを取得する取得要求に応じて、前記拡張語候補リストを送る(出力する)。また、最終的な拡張語の選択も拡張語選択部120で行い、拡張語ゼロの信号を照合部121から受け取った場合、クエリのみを検索式生成部110へ送る。
照合部121は、拡張語選択部120から受け取ったクエリを、クエリログDB122のクエリと照合する。その照合結果に応じたclicked documentのURL(Uniform Resource Locator:電子文書を識別する一種の識別子と考えて良い)をタイトル及びスニペット抽出部123に送る。なお、照合に失敗した場合は、以降の処理を中断し、と拡張語ゼロの信号を拡張語選択部120へ送り返す。
クエリログDB122は、クエリに対してユーザが実際に閲覧したサイト(clicked document)のURLの集合を格納し蓄積(管理)している。より具体的には、クエリログDB122は、クエリ,そのクエリに対するclicked documentのURL,検索結果の順位(検索結果におけるWebページ(clicked document)に関する情報の順位),そのURLに対するクリック回数を有するクエリログから構成される。クエリログDB122は、クエリログフィードバック処理部150からのフィードバックによって、随時更新される。なお、クエリログDB122は、いわゆるデータベースでなくても良く、例えば、ファイルやデータベースなどでclicked documentのURLの集合を格納し管理(例えば、照合や検索も含む管理)するクエリログ管理部と考えてよい。
タイトル及びスニペット抽出部123は、検索結果取得部124へクエリを送る。次に、検索結果取得部124からクエリに応じた検索結果を受け取り、その検索結果の各リンク先URLと照合部121から受け取ったURLを照合する。次に、照合されたサイトのタイトルとスニペットを抽出する。そして、その抽出されたサイトのタイトルとスニペットを機能語抽出及び名詞句生成部125へと送る。
検索結果取得部124は、タイトル及びスニペット抽出部123からクエリを受け取った場合、該クエリに基づいて検索式を生成し、該検索式を検索実行部130に送り、該検索式に応じた検索結果を取得する。そして、この検索結果をタイトル及びスニペット抽出部123へ送り返す。
機能語抽出及び名詞句生成部125は、受け取ったタイトルとスニペットをそれぞれ形態素に分解し、機能語を抽出し、さらに、可能であれば、その機能語の前後関係に基づいて名詞句を生成する。これらの機能語と名詞句が拡張語の候補(即ち、拡張語候補)となる。続いて、この拡張語候補群を、拡張語の重み及び順序付け部126へと送る。
拡張語の重み及び順序付け部126は、機能語抽出及び名詞句生成部125から受けた拡張語候補群の各拡張語候補に対して、後述する方法に基づいて、重み付け及び順序付け処理を行う。この処理時に、語の分散度合(例えば、IDF(Inverse Document Frequency))が必要となるためコーパスDB127(例えば、Wikipediaのようなコーパス)を利用する。そして、重みで順序付けられた拡張語の候補リスト(以下、拡張語候補リストという)を作成し、その拡張語候補リストを記憶部に格納し、その拡張語候補リストを拡張語選択部120へ送る。
また、拡張語の重み及び順序付け部126は、拡張語候補リストを取得する取得要求を受けた場合、その拡張語候補リストを取得する取得要求に応じて、前記記憶部に格納された拡張語候補リストを送り返す。
コーパスDB127は、電子化された自然言語の文章から成る巨大なテキストデータ(例えば、検索システムに登録された文章群、Wikipediaなど)であって、テキストドキュメントデータ,該テキストドキュメントデータを形態素解析し、その解析された形態素,その形態素と同じ形態素数をカウントした値(あるいは、同一形態素の出現回数)であるDF(Document Frequency)を有するコーパスデータを格納し管理する。なお、このコーパスDB127に基づいて語(例えば、日本語における語)の分散度合(IDF)を得ることができる。なお、コーパスDB127は、いわゆるデータベースでなくても良く、例えば、ファイルやデータベースなどでコーパスデータを格納し管理(例えば、照合や検索も含む管理)するコーパス管理部と考えてよい。
検索実行部130は、検索式生成部110もしくは検索結果取得部124から検索式を受け取ると、該検索式に基づいて検索をネットワーク上のWebページ群1000に対して実行し、検索結果を取得する。そして、その検索結果を検索結果並べ替え処理部140へと送る。なお、検索実行部130による検索結果は、一般的な検索エンジンで検索された結果と同じものと考えてよい。
検索結果並べ替え処理部140は、検索実行部130から検索結果を受け取り、拡張語選択部120の拡張語の重み及び順序付け部126へ、スニペットから抽出された拡張語候補リストを取得する取得要求を送り、拡張語候補リストを取得する。次に、検索結果に含まれるURLで示される文書のボディに対して、クエリを中心とする指定された形態素数分の近傍を抽出し、抽出したものに拡張語が含まれているか否かを調べる。その拡張語が含まれていた場合、拡張語候補リスト中の拡張語候補に対応する重みで得点付けをしてゆき、その得点に基づいて検索結果を並べる(例えば、最終的な得点の高い検索結果から順に検索結果を並べる)。この並べ替えられた検索結果をブラウザ100の結果表示部102へ送り、ユーザのクエリに対する検索結果とする。
クエリログフィードバック処理部150は、ユーザがクリックした結果表示部102で表示された(検索された)サイト(例えば、検索結果の順位,clicked documentのURL(ユーザが検索結果において選択した文書を識別する文書識別子の一つと考えてよい),そのURLに対するクリック回数(ユーザが検索結果における文書を選択した選択回数と考えてよい))を記録し、クエリログDB122へ随時フィードバック(随時格納)させる。例えば、ユーザの検索結果のクリック動作毎にクエリログDB122を更新(フィードバック)する。
次に、ユーザによるクエリ入力〜拡張語の抽出及び選択の要求までの手順を図2に基づいて説明する。
本実施形態において、ユーザUが最初に目にするものはブラウザ100であり、そのブラウザ100はクエリ入力画面101と結果表示部102を備える。ユーザUは、ブラウザ100をユーザインタフェースとして扱い、クエリ入力画面101でユーザインタフェース装置を用いて、クエリを入力する(M101)。そして、検索式生成部110は、そのクエリを受ける(M102)。本実施形態の文章検索システムにおける検索式生成には、拡張語を必要とするため、次いで、検索式生成部110は、拡張語の抽出及び選択の要求を拡張語選択部120へ送る(M201)。なお、従来の処理方式では、検索式生成部110は、検索実行部130へ拡張語の抽出及び選択の要求を送っていた。
次に、拡張語選択処理の前半の手順を図3に基づいて説明する。
拡張語選択部120が拡張語の抽出及び選択の要求を受ける(M201)と、クエリを照合部121へ送る(M202)。
次に、クエリを受けた照合部121がクエリログDB122に対して照合を開始する。照合部121は、拡張語選択部120から渡されたクエリとクエリログDB122に保管されているクエリを照合する(M203)。照合に成功した場合、対応するclicked documentのURLを抽出する(M204)。そして、タイトル及びスニペット抽出部123に対し、照合に成功したクエリとclicked documentのURLを送る(M205)。照合に失敗した場合、以降の処理を中断し、拡張語ゼロの信号を拡張語選択部120へ送り返す。なお、拡張語ゼロの信号を受け取った拡張語選択部120は、検索式生成部110へクエリのみを送り返す。
前記クエリとclicked documentのURLを受けたタイトル及びスニペット抽出部123は、クエリと、clicked documentのURLを含む検索結果取得要求と、を検索結果取得部124へ送る(M206)。
検索結果取得要求を受けた検索結果取得部124は、受けたクエリに基づいて検索式を生成し、該検索式を検索実行部130に送り(M207)、該検索式に応じた検索結果(タイトル,スニペット,リンク先URLを含む検索結果)を取得し(M208)、その検索結果をタイトル及びスニペット抽出部123へ送り返す(M209)。
タイトル及びスニペット抽出部123は、照合部121から渡されたclicked documentのURLと、検索結果取得部124から返された検索結果の各リンク先URLを照合させ、対応するタイトルとスニペットを抽出する。次いで、機能語抽出及び名詞句生成部125にクエリ,タイトル,スニペットを送る(M210)。また、この時に各clicked documentのURL毎のclick回数(3番目の重みファクタ)もクエリログDB122から取得する。
タイトル及びスニペット抽出部123から送られたクエリ,タイトル,スニペットを受け取った機能語抽出及び名詞句生成部125は、タイトルとスニペットをそれぞれ形態素に分解し、機能語を抽出し、さらに、可能であれば、その機能語の前後関係に基づいて名詞句を生成する。これらの機能語と名詞句が拡張語の候補となる。さらに、これらがタイトルとボディそれぞれに対する拡張語の候補となる。そして、機能語抽出及び名詞句生成部125は、クエリ,拡張語候補リストを拡張語の重み及び順序付け部126へ送る(M301)。
次に、拡張語選択処理の後半の手順を図4,図5に基づいて説明する。
クエリ,拡張語候補リストを受け取った拡張語の重み及び順序付け部126は、語の分散度合(IDF)を得るため、コーパスDB127(例えば、検索システムに登録された文章群,Wikipedia)に拡張語候補を送信し(M302)、拡張語候補をコーパスDB127内の形態素と照合することによって、該拡張語候補に応じたDFを取得する(M303)。そして、拡張語の重み及び順序付け部126は、その取得したDFに基づいて、式「log(コーパスDB127内の全テキストドキュメントデータ数/DF値)」を計算し、拡張語の候補それぞれに対するIDFを求める。このIDFが1番目の重みファクタとなる。
また、拡張語の重み及び順序付け部126は、クエリログDB127へログ取得要求を送り(M304)、クエリログ全体及びクエリ毎のクエリログを取得し(M305)、取得したクエリログ全体を以下の手順で分析する。
(手順A1)クエリログ全体に対するランクとクリック回数(選択回数)の分布曲線を求め、ランクrとランクr+1の傾きt_inc(r)を計算する。
(手順A2)クエリ(特定クエリ)毎のクエリログに対するランクとクリック回数(選択回数)の分布曲線を求め、ランクrとランクr+1の傾きq_inc(r)を計算する。
ここで、全クエリログに対する分布曲線の傾きt_inc(r)と入力されたクエリに対する分布曲線の傾きq_inc(r)を求める手順を図7に基づいて説明する。
予め、図7中の全クエリログに対する分布曲線F1(図7中の実線で示されたグラフ)と入力されたクエリに対する分布曲線F2(図7中の破線で示されたグラフ)が求められていたとする。また、参考箇所を、ランクr=8とr=9とする。この参考箇所における各傾きが求められれば、これら分布曲線における他の箇所でも傾きは求められる。
分布曲線F1上で、ランクr=8に対応するクリック回数をtc8とし、ランクr=8に対応するクリック回数をtc9とすると、傾きは「傾きt_inc(8)=(tc9−tc8)/(9−8)=tc9−tc8」と求められる。
同様に、分布曲線F2上で、ランクr=8に対応するクリック回数をc8とし、ランクr=8に対応するクリック回数をc9とすると、傾きは「傾きq_inc(8)=(c9−c8)/(9−8)=c9−c8」と求められる。
(手順A3)式「inc(r)=t_inc(r)+q_inc(r)」を計算し、ランクrにおける2番目の重みファクタinc(r)を求める。
(手順A4)高頻出クエリであった場合、上述の3番目の重みファクタを用いる手順A4−1,低頻出クエリであった場合、上述の3番目の重みファクタを用いない手順A4−2を行う。なお、高頻出クエリか低頻出クエリかの判断は、例えば、TFが特定の閾値に等しいか、大きければ、高頻出クエリと判断し、TFが特定の閾値をより小さければ、低頻出クエリと判断する。特定の閾値は、実際の実験などで決定する数値と考えてよい。従来の情報検索システムでは、高頻出クエリに対して手動でいいサイトを上位に表示させている事が多い。さらに上位サイト程クリックされる回数が多い傾向がある。故に、高頻出クエリに対してはそのままクリック回数を3番目の重みファクタとして使用することが効果的であることに着目している。
(手順A4−1)メッセージングM210に関する処理で、取得したclicked documentのURLのクリック数(3番目の重みファクタ)をTF(Term Frequency)と見做し、式「Weight(w)=IDF(w)×inc(r(w))(×TF(w))」を用いて、各拡張語候補wの重みWeight(w)を計算する。
(手順A4−2)式「Weight(w)=IDF(w)×inc(r(w))」を用いて、各拡張語候補wの重みWeight(w)を計算する。
(手順A5)重みWeight(w)に関する特定の順(例えば、重みWeight(w)の絶対値の大きい順)に、拡張語候補wを並べて、拡張語候補リストを作成する。
以上の手順による分析結果として得られた拡張語候補リストを予め備えられた記憶部に格納し、該拡張語候補リストを拡張語選択部120へ送る(M401)。
拡張語選択部120は、送られた拡張語候補リストから上位N語(例えば、上位30語)を拡張語として選択し、最終的に、拡張語を検索式生成部110へ送り返す(M402)。
拡張語を受け取った検索式生成部110は、その受け取った拡張語に基づいて検索式を生成し、生成した検索式を検索実行部130へ送る(M403)。なお、クエリ拡張された検索式は、タイトルとボディそれぞれに対して適応する。また、前記生成される検索式は、クエリで検索結果の集合を決定し、その各要素である文章に対して式「拡張語の重み×各文章の語のTF・IDF値」を用いて、得点付けをしていく方法が表現されているものとする。
また、検索式生成部110は、拡張語選択部120から拡張語ゼロの信号を受け取った場合は、クエリのみで検索式を生成し検索実行部130へ送る(M403)。
検索式を受け取った検索実行部130は、ネットワーク上のWebページ群を検索し(M404)、検索結果を得る。この検索結果を検索結果並べ替え処理部140へ送る(M501)。
次に、検索結果並べ替え〜検索結果表示及びクエリログフードバック処理の手順を図6に基づいて説明する。
検索結果を受け取った(M501)検索結果並べ替え処理部140は、拡張語選択部120の拡張語の重み及び順序付け部126へ拡張語候補リストの取得要求を送る(M502)。
拡張語の重み及び順序付け部126は、記憶部に保管されている拡張語候補リストからスニペットから抽出された拡張語候補リストのみを取得し、検索結果並べ替え処理部140へ送る(M503)。
検索結果並べ替え処理部140は、次のような手順を行う。
(手順B1)受け取った検索結果のURLで示される文書のボディに対して、クエリを中心とする指定された形態素数分(例えば、25形態素分)の近傍を抽出する。なお、近傍の選び方としては、TF・IDF値を計算し最も値が大きい近傍を選ぶものと、クエリが含まれる近傍全てをスキャンし得点付けしていく方法等が考えられる。
(手順B2)抽出した近傍に、拡張語の重み及び順序付け部126から受けた拡張語候補リスト中の拡張語が含まれていた場合、その拡張語に対応する重みで得点付けをしていく。
(手順B3)最終的な得点に基づいて検索結果を並べ替え(例えば、最終的な得点の高い検索結果から順に並べ替え)、この並べ替えられた検索結果を新しい検索結果とする。なお、並べ替えのやり方としては、並べ替え前の得点を引き続き使用するものや、ゼロリセットする方法等が考えられる。
上述の手順による新しい検索結果をブラウザ100の結果表示部102へと送り(M504)、ユーザのクエリに対する検索結果として表示する(M505)。
ユーザのクリックした結果表示部102に表示された(検索された)サイト(例えば、検索結果の順位,clicked documentのURL,そのURLに対するクリック回数)は、クエリログフードバック処理部150へ送られ(M506)、クエリログフードバック処理部150でクエリログDB122へ記録され、随時フィードバックされる(M507)。
なお、本実施形態の文章検索システムもしくは文章検索サーバコンピュータにおける各部の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態の文章検索システムもしくは文章検索サーバコンピュータに関する方法(手順)をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体(記憶媒体)、例えばFD(Floppy(登録商標) Disk)や、MO(Magneto−Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)、DVD(Digital Versatile Disk)、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。
さらに、上述の本実施形態の文章検索システムもしくは文章検索サーバコンピュータに関する方法を記述したコンピュータプログラムを、その方法に必要とされる入出力データを格納したメモリや外部記憶部等にアクセスするように実装してもよい。
以上のように本実施形態によれば、高頻出クエリ、低頻出クエリに関わらず、いかなるクエリに対しても効果的で、かつ少ない拡張語でランキング精度を上げることができるクエリ拡張法を実践できる。
従来技術におけるクエリログ内に十分多くのセッションが残されているクエリは、一般的に高頻度のクエリであって、そのクエリ拡張に関連する技術をそのまま低頻度のクエリに対して応用することは困難であった。
実際に、非特許文献1に関して言えば、高頻度クエリのみを扱っている。また、その高頻度クエリのみを扱った結果によれば、拡張語が40〜60個で最大精度を示しており、この数値では計算コストがかかっていた。
これらの課題に対しても、本実施形態によって、対応可能である。
以上、本発明の実施形態について説明したが、本発明は説明した実施形態に限定されるものでなく、各請求項に記載した範囲において各種の変形を行うことが可能である。
例えば、本実施形態の変形として、コーパスDBをインターネット上に配置し、そのコーパスDBにアクセスするように構成しても良い。
本実施形態における文章検索システムの構成図。 ユーザによるクエリ入力〜拡張語の抽出及び選択の要求までの手順を示すコラボレーション図。 拡張語選択処理の前半の手順を示すコラボレーション図。 拡張語選択処理の後半の手順を示す第1コラボレーション図。 拡張語選択処理の後半の手順を示す第2コラボレーション図。 検索結果並べ替え〜検索結果て表示及びクエリログフードバック処理の手順を示すコラボレーション図。 全クエリログに対する分布曲線と入力されたクエリに対する分布曲線の一例を示す図。
符号の説明
100…ブラウザ
101…クエリ入力画面
102…結果表示部
120…拡張語選択部
121…照合部
122…クエリログDB
123…タイトル及びスニペット抽出部
124…検索結果取得部
125…機能語抽出及び名詞句生成部
126…拡張語の重み及び順序付け部
127…コーパスDB
130…検索実行部
140…検索結果並べ替え処理部
150…クエリログフィードバック処理部
1000…ネットワーク上のWebページ群
1…全クエリログに対する分布曲線
2…特定クエリに対する分布曲線
U…ユーザ

Claims (8)

  1. 記憶部を備え、
    ネットワークに接続され、
    クライアント部からクエリを入力され、そのクエリに応じてネットワーク上のWebページを検索し、その検索結果をクライアント部に返し、表示させる文章検索サーバコンピュータであって、
    入力されたクエリを含む拡張語の抽出及び選択の要求を作成し、該拡張語の抽出及び選択の要求を出力する手段と、
    受け取った拡張語に基づいてクエリ拡張された検索式の生成を行い、該検索式を送る手段と、
    を具備する検索式生成部と、
    拡張語候補リストを取得する取得要求に応じて、前記記憶部に格納された拡張語候補リストを送る拡張語の重み及び順序付け部と、
    クエリ,そのクエリに応じた検索結果において選択された文書を識別する文書識別子,そのクエリに対する検索結果における文書に関する情報の順位,検索結果における文書を選択した選択回数を有するクエリログを格納し、管理するクエリログ管理部と、
    を具備し、
    前記拡張語の抽出及び選択の要求を受け取り、該拡張語の抽出及び選択の要求に含まれるクエリに応じて、重みで順序付けられた拡張語候補リストを生成し、該生成された拡張語候補リストを記憶部に格納し、該拡張語候補リストに基づいて、拡張語を選択し、該選択された拡張語を前記検索式生成部へ送る拡張語選択部と、
    受け取った検索式に基づいて、ネットワーク上のWebページを検索し、検索結果を取得し、その検索結果を送る検索実行部と、
    検索結果を受け取り、
    拡張語候補リストを取得する取得要求を前記拡張語の重み及び順序付け部へ送り、該取得要求に応じた拡張語候補リストを取得し、
    受け取った検索結果に含まれる文書識別子で示される文書のボディに対して、クエリを中心とする特定の形態素数分の近傍を抽出し、抽出した近傍に拡張語が含まれているか否かを調べ、該拡張語が含まれていた場合、拡張語候補リスト中の拡張語候補に対応する重みで得点付けをしてゆき、その得点に基づいて検索結果を並べ、その並べ替えられた検索結果を出力する検索結果並べ替え処理部と、
    クライアント部に出力された検索結果に対するクエリログを前記クエリログ管理部を使って随時格納するクエリログフィードバック処理部と、
    を備えることを特徴とする文章検索サーバコンピュータ。
  2. 請求項1に記載の文章検索サーバコンピュータにおいて、
    前記拡張語選択部が、
    受け取ったクエリに基づいて検索式を生成し、該検索式を前記検索実行部に送り、該検索式に応じたタイトル,スニペット,文書識別子を含む検索結果を取得し、該検索結果を送る検索結果取得部と、
    前記拡張語の抽出及び選択の要求に含まれるクエリを、前記クエリログ管理部を使って照合し、その照合結果に応じた文書識別子を送る照合部と、
    前記照合結果に応じた文書識別子を受け、
    前記検索結果取得部へ前記クエリを送り、該クエリに応じた検索結果を受け取り、その検索結果に含まれる文書識別子と前記照合部から受け取った文書識別子を照合し、照合された文書識別子に応じたタイトルとスニペットを抽出し、その抽出されたタイトルとスニペットを送るタイトル及びスニペット抽出部と、
    受け取ったタイトルとスニペットをそれぞれ形態素に分解し、それら形態素に基づいて拡張語の候補となる拡張語候補群を生成し、該拡張語候補群を送る機能語抽出及び名詞句生成部と、
    電子化された自然言語の文章から成るテキストデータ,該テキストドキュメントデータを形態素解析し、その解析された形態素,その形態素と同じ形態素数をカウントした値であるDF(Document Frequency)を有するコーパスデータを格納し管理するコーパス管理部と、
    を備え、
    前記拡張語選択部の拡張語の重み及び順序付け部が、
    受けた拡張語候補群の各拡張語候補に対して、前記コーパス管理部に格納されたDFに基いて、IDF(Inverse Document Frequency)を計算し、該IDFに基づく重み及び順序付け手段を用いて、重みで順序付けられた拡張語候補リストを作成し、作成した拡張語候補リストを記憶部に格納し、該拡張語候補リストを送る手段、
    を備える
    ことを特徴とする文章検索サーバコンピュータ。
  3. 請求項2に記載の文章検索サーバコンピュータにおいて、
    前記重み及び順序付け手段が、
    前記クエリログ管理部からクエリログ全体及びクエリ毎のクエリログを取得し、
    クエリログ全体に対するランクと選択回数の分布曲線を求め、ランクrとランクr+1の傾きt_inc(r)を計算し、
    クエリ毎のクエリログに対するランクと選択回数の分布曲線を求め、ランクrとランクr+1の傾きq_inc(r)を計算し、
    傾きt_inc(r)に傾きq_inc(r)を加算し、ランクrにおける重みファクタinc(r)を求め、
    当該クエリが高頻出クエリであった場合、クエリログ管理部における選択回数をTF(Term Frequency)と見做し、拡張語候補wに関して、IDF(w)にinc(r(w))を乗算し、さらに、TF(w)を乗算して、各拡張語候補wの重みWeight(w)を計算し、
    当該クエリが低頻出クエリであった場合、IDF(w)にinc(r(w))を乗算して、各拡張語候補wの重みWeight(w)を計算し、
    重みWeight(w)に関する特定の順に、拡張語候補wを並べて、拡張語候補リストを作成する手段、
    を備える
    ことを特徴とする文章検索サーバコンピュータ。
  4. クエリ,そのクエリに応じた検索結果において選択された文書を識別する文書識別子,そのクエリに対する検索結果における文書に関する情報の順位,検索結果における文書を選択した選択回数を有するクエリログを格納し、管理するクエリログ管理部と、
    記憶部と
    を備え、
    ネットワークに接続され、
    クライアント部からクエリを入力され、そのクエリに応じてネットワーク上のWebページを検索し、その検索結果をクライアント部に返し、表示させるサーバコンピュータに使用する文章検索方法であって、
    入力されたクエリを含む拡張語の抽出及び選択の要求を作成し、該拡張語の抽出及び選択の要求を出力するステップと、
    前記拡張語の抽出及び選択の要求を受け取り、該拡張語の抽出及び選択の要求に含まれるクエリに応じて、重みで順序付けられた拡張語候補リストを生成し、該生成された拡張語候補リストを記憶部に格納し、該拡張語候補リストに基づいて、拡張語を選択し、該選択された拡張語を送る拡張語選択ステップと、
    前記拡張語選択ステップから受け取った拡張語に基づいてクエリ拡張された検索式の生成を行い、該検索式を送るステップと、
    受け取った検索式に基づいて検索を実行し、ネットワーク上のWebページを検索し、検索結果を取得し、その検索結果を送る検索実行ステップと、
    前記記憶部に格納された拡張語候補リストを取得し、
    受け取った検索結果に含まれる文書識別子で示される文書のボディに対して、クエリを中心とする特定の形態素数分の近傍を抽出し、抽出した近傍に拡張語が含まれているか否かを調べ、該拡張語が含まれていた場合、拡張語候補リスト中の拡張語候補に対応する重みで得点付けをしてゆき、その得点に基づいて検索結果を並べ、その並べ替えられた検索結果を出力する検索結果並べ替え処理ステップと、
    クライアント部に出力された検索結果に対するクエリログを前記クエリログ管理部を使って随時格納するクエリログフィードバック処理ステップと、
    を有することを特徴とする文章検索方法。
  5. クエリ,そのクエリに応じた検索結果において選択された文書を識別する文書識別子,そのクエリに対する検索結果における文書に関する情報の順位,検索結果における文書を選択した選択回数を有するクエリログを格納し、管理するクエリログ管理部と、
    電子化された自然言語の文章から成るテキストデータ,該テキストドキュメントデータを形態素解析し、その解析された形態素,その形態素と同じ形態素数をカウントした値であるDFを有するコーパスデータを格納し管理するコーパス管理部と、
    記憶部と
    を備え、
    ネットワークに接続され、
    クライアント部からクエリを入力され、そのクエリに応じてネットワーク上のWebページを検索し、その検索結果をクライアント部に返し、表示させるサーバコンピュータに使用する文章検索方法であって、
    入力されたクエリを含む拡張語の抽出及び選択の要求を作成し、該拡張語の抽出及び選択の要求を出力するステップと、
    前記拡張語の抽出及び選択の要求を受け取り、該拡張語の抽出及び選択の要求に含まれるクエリに応じて、重みで順序付けられた拡張語候補リストを生成し、該生成された拡張語候補リストを記憶部に格納し、該拡張語候補リストに基づいて、拡張語を選択し、該選択された拡張語を送る拡張語選択ステップと、
    前記拡張語選択ステップから受け取った拡張語に基づいてクエリ拡張された検索式の生成を行い、該検索式を送るステップと、
    受け取った検索式に基づいて検索を実行し、ネットワーク上のWebページを検索し、検索結果を取得し、その検索結果を送る検索実行ステップと、
    前記記憶部に格納された拡張語候補リストを取得し、
    受け取った検索結果に含まれる文書識別子で示される文書のボディに対して、クエリを中心とする特定の形態素数分の近傍を抽出し、抽出した近傍に拡張語が含まれているか否かを調べ、該拡張語が含まれていた場合、拡張語候補リスト中の拡張語候補に対応する重みで得点付けをしてゆき、その得点に基づいて検索結果を並べ、その並べ替えられた検索結果を出力する検索結果並べ替え処理ステップと、
    クライアント部に出力された検索結果に対するクエリログを前記クエリログ管理部を使って随時格納するクエリログフィードバック処理ステップと、
    を有し、さらに、前記拡張語選択ステップが、
    前記拡張語の抽出及び選択の要求に含まれるクエリを、前記クエリログ管理部を使って照合し、その照合結果に応じた文書識別子を送る照合ステップと、
    前記照合結果に応じた文書識別子を受け、
    前記クエリに基づいて検索式を生成し、該生成した検索式に基づいて、ネットワーク上のWebページを検索し、該検索式に応じたタイトル,スニペット,文書識別子を含む検索結果を取得し、
    その検索結果に含まれる文書識別子と前記照合ステップから受け取った文書識別子を照合し、照合された文書識別子に応じたタイトルとスニペットを抽出し、その抽出されたタイトルとスニペットを送るタイトル及びスニペット抽出ステップと、
    受け取ったタイトルとスニペットをそれぞれ形態素に分解し、それら形態素に基づいて拡張語の候補となる拡張語候補群を生成し、該拡張語候補群を送る機能語抽出及び名詞句生成ステップと、
    受けた拡張語候補群の各拡張語候補に対して、前記コーパス管理部に格納されたDFに基いて、IDFを計算し、該IDFに基づく重みで順序付けられた拡張語候補リストを作成し、作成した拡張語候補リストを記憶部に格納し、該拡張語候補リストを送る重み及び順序付けステップと、
    を有する
    ことを特徴とする文章検索方法。
  6. 請求項5に記載の文章検索方法において、
    前記重み及び順序付けステップが、
    前記クエリログ管理部からクエリログ全体及びクエリ毎のクエリログを取得するステップと、
    クエリログ全体に対するランクと選択回数の分布曲線を求め、ランクrとランクr+1の傾きt_inc(r)を計算するステップと、
    クエリ毎のクエリログに対するランクと選択回数の分布曲線を求め、ランクrとランクr+1の傾きq_inc(r)を計算するステップと、
    傾きt_inc(r)に傾きq_inc(r)を加算し、ランクrにおける重みファクタinc(r)を求めるステップと、
    当該クエリが高頻出クエリであった場合、クエリログ管理部における選択回数をTFと見做し、拡張語候補wに関して、IDF(w)にinc(r(w))を乗算し、さらに、TF(w)を乗算して、各拡張語候補wの重みWeight(w)を計算し、
    当該クエリが低頻出クエリであった場合、IDF(w)にinc(r(w))を乗算して、各拡張語候補wの重みWeight(w)を計算するステップと、
    重みWeight(w)に関する特定の順に、拡張語候補wを並べて、拡張語候補リストを作成するステップと、
    を有する
    ことを特徴とする文章検索方法。
  7. コンピュータを請求項1乃至3のいずれかに記載の文章検索サーバコンピュータにおける各部及び各手段として機能させることを特徴とする文章検索プログラム。
  8. 請求項7に記載の文章検索プログラムを記録したことを特徴とする記録媒体。
JP2007281333A 2007-10-30 2007-10-30 文章検索サーバコンピュータ,文章検索方法,文章検索プログラム,そのプログラムを記録した記録媒体 Active JP4724701B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007281333A JP4724701B2 (ja) 2007-10-30 2007-10-30 文章検索サーバコンピュータ,文章検索方法,文章検索プログラム,そのプログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007281333A JP4724701B2 (ja) 2007-10-30 2007-10-30 文章検索サーバコンピュータ,文章検索方法,文章検索プログラム,そのプログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2009110231A true JP2009110231A (ja) 2009-05-21
JP4724701B2 JP4724701B2 (ja) 2011-07-13

Family

ID=40778667

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007281333A Active JP4724701B2 (ja) 2007-10-30 2007-10-30 文章検索サーバコンピュータ,文章検索方法,文章検索プログラム,そのプログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP4724701B2 (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011085992A (ja) * 2009-10-13 2011-04-28 Nippon Telegr & Teleph Corp <Ntt> 文書検索装置、文書検索方法、文書検索プログラム
JP2011209999A (ja) * 2010-03-30 2011-10-20 Yahoo Japan Corp 情報処理装置、データ抽出方法及びプログラム
JP2011221754A (ja) * 2010-04-08 2011-11-04 Yahoo Japan Corp 検索結果更新システム、サーバ及び方法
JP2012068687A (ja) * 2010-09-21 2012-04-05 Yahoo Japan Corp 情報処理装置、方法及びプログラム
WO2012121011A1 (ja) * 2011-03-04 2012-09-13 楽天株式会社 集合拡張処理装置、集合拡張処理方法、プログラム、及び、非一時的な記録媒体
JP2012530957A (ja) * 2009-06-19 2012-12-06 エヌエイチエヌ コーポレーション 以前のクエリを用いた検索結果の提供方法および装置
JP2013196315A (ja) * 2012-03-19 2013-09-30 Yahoo Japan Corp 情報処理装置及び方法
JP2015508930A (ja) * 2012-02-29 2015-03-23 マイクロソフト コーポレーション コンテキスト・ベースの検索クエリー形成
JP2017010514A (ja) * 2015-06-18 2017-01-12 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 検索エンジン及びその実現方法
JP2018181148A (ja) * 2017-04-19 2018-11-15 富士通株式会社 情報出力プログラム、情報出力方法および情報処理装置
CN111259272A (zh) * 2020-01-14 2020-06-09 口口相传(北京)网络技术有限公司 搜索结果排序方法及装置
WO2021241603A1 (ja) * 2020-05-28 2021-12-02 Jfeスチール株式会社 情報検索システム
WO2021241602A1 (ja) * 2020-05-28 2021-12-02 Jfeスチール株式会社 情報検索システム
WO2021241601A1 (ja) * 2020-05-28 2021-12-02 Jfeスチール株式会社 情報検索システム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09231227A (ja) * 1996-02-20 1997-09-05 Inter Group:Kk 情報検索装置およびその情報検索方法
JP2004029906A (ja) * 2002-06-21 2004-01-29 Fuji Xerox Co Ltd 文書検索装置および方法
JP2004192374A (ja) * 2002-12-12 2004-07-08 Ricoh Co Ltd 文書検索装置、プログラムおよび記録媒体
JP2005010848A (ja) * 2003-06-16 2005-01-13 Sharp Corp 情報検索装置、情報検索方法、情報検索プログラム、及び記録媒体
JP2005056125A (ja) * 2003-08-04 2005-03-03 Nippon Telegr & Teleph Corp <Ntt> 自然文検索装置、自然文検索方法、自然文検索プログラム及び自然文検索プログラム記憶媒体
JP2005302042A (ja) * 2004-04-15 2005-10-27 Microsoft Corp マルチセンスクエリについての関連語提案
JP2005316999A (ja) * 2004-04-15 2005-11-10 Microsoft Corp エンハンストドキュメント取り出しのためのコンテンツ伝播

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09231227A (ja) * 1996-02-20 1997-09-05 Inter Group:Kk 情報検索装置およびその情報検索方法
JP2004029906A (ja) * 2002-06-21 2004-01-29 Fuji Xerox Co Ltd 文書検索装置および方法
JP2004192374A (ja) * 2002-12-12 2004-07-08 Ricoh Co Ltd 文書検索装置、プログラムおよび記録媒体
JP2005010848A (ja) * 2003-06-16 2005-01-13 Sharp Corp 情報検索装置、情報検索方法、情報検索プログラム、及び記録媒体
JP2005056125A (ja) * 2003-08-04 2005-03-03 Nippon Telegr & Teleph Corp <Ntt> 自然文検索装置、自然文検索方法、自然文検索プログラム及び自然文検索プログラム記憶媒体
JP2005302042A (ja) * 2004-04-15 2005-10-27 Microsoft Corp マルチセンスクエリについての関連語提案
JP2005316999A (ja) * 2004-04-15 2005-11-10 Microsoft Corp エンハンストドキュメント取り出しのためのコンテンツ伝播

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012530957A (ja) * 2009-06-19 2012-12-06 エヌエイチエヌ コーポレーション 以前のクエリを用いた検索結果の提供方法および装置
JP2011085992A (ja) * 2009-10-13 2011-04-28 Nippon Telegr & Teleph Corp <Ntt> 文書検索装置、文書検索方法、文書検索プログラム
JP2011209999A (ja) * 2010-03-30 2011-10-20 Yahoo Japan Corp 情報処理装置、データ抽出方法及びプログラム
JP2011221754A (ja) * 2010-04-08 2011-11-04 Yahoo Japan Corp 検索結果更新システム、サーバ及び方法
JP2012068687A (ja) * 2010-09-21 2012-04-05 Yahoo Japan Corp 情報処理装置、方法及びプログラム
WO2012121011A1 (ja) * 2011-03-04 2012-09-13 楽天株式会社 集合拡張処理装置、集合拡張処理方法、プログラム、及び、非一時的な記録媒体
JP2012185666A (ja) * 2011-03-04 2012-09-27 Rakuten Inc 集合拡張処理装置、集合拡張処理方法、プログラム、及び、記録媒体
CN102971733A (zh) * 2011-03-04 2013-03-13 乐天株式会社 集合扩展处理装置、集合扩展处理方法、程序、及非暂时性记录媒体
KR101243457B1 (ko) 2011-03-04 2013-03-13 라쿠텐 인코포레이티드 집합 확장 처리 장치, 집합 확장 처리 방법, 및 비일시적인 기록 매체
US9268821B2 (en) 2011-03-04 2016-02-23 Rakuten, Inc. Device and method for term set expansion based on semantic similarity
JP2015508930A (ja) * 2012-02-29 2015-03-23 マイクロソフト コーポレーション コンテキスト・ベースの検索クエリー形成
JP2013196315A (ja) * 2012-03-19 2013-09-30 Yahoo Japan Corp 情報処理装置及び方法
JP2017010514A (ja) * 2015-06-18 2017-01-12 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 検索エンジン及びその実現方法
JP2018181148A (ja) * 2017-04-19 2018-11-15 富士通株式会社 情報出力プログラム、情報出力方法および情報処理装置
CN111259272A (zh) * 2020-01-14 2020-06-09 口口相传(北京)网络技术有限公司 搜索结果排序方法及装置
WO2021241603A1 (ja) * 2020-05-28 2021-12-02 Jfeスチール株式会社 情報検索システム
WO2021241602A1 (ja) * 2020-05-28 2021-12-02 Jfeスチール株式会社 情報検索システム
WO2021241601A1 (ja) * 2020-05-28 2021-12-02 Jfeスチール株式会社 情報検索システム
JP2021189694A (ja) * 2020-05-28 2021-12-13 Jfeスチール株式会社 情報検索システム
JP7004122B1 (ja) * 2020-05-28 2022-01-21 Jfeスチール株式会社 情報検索システム
JP7004123B1 (ja) * 2020-05-28 2022-01-21 Jfeスチール株式会社 情報検索システム
JP7264115B2 (ja) 2020-05-28 2023-04-25 Jfeスチール株式会社 情報検索システム

Also Published As

Publication number Publication date
JP4724701B2 (ja) 2011-07-13

Similar Documents

Publication Publication Date Title
JP4724701B2 (ja) 文章検索サーバコンピュータ,文章検索方法,文章検索プログラム,そのプログラムを記録した記録媒体
US7809710B2 (en) System and method for extracting content for submission to a search engine
Elgazzar et al. Clustering wsdl documents to bootstrap the discovery of web services
JP4255239B2 (ja) 文書検索方法
US9081861B2 (en) Uniform resource locator canonicalization
JP2004280351A (ja) 万物識別子を用いたデータ検索システムおよびデータ検索方法
CN107357777B (zh) 提取标签信息的方法和装置
JP5237353B2 (ja) 検索装置、検索システム、検索方法、検索プログラム、及び検索プログラムを記憶するコンピュータ読取可能な記録媒体
Wu et al. Searching services" on the web": A public web services discovery approach
KR100837749B1 (ko) 온라인 상에서 제공되는 뉴스 기사에 가중치를 부여하는방법 및 상기 방법을 수행하는 시스템
JP4092933B2 (ja) 文書情報検索装置及び文書情報検索プログラム
JP5151368B2 (ja) 情報処理装置および情報処理プログラム
JP4912384B2 (ja) 文書検索装置、文書検索方法、および文書検索プログラム
JP5315726B2 (ja) 情報提供方法、情報提供装置、および情報提供プログラム
JP4189387B2 (ja) 知識検索システム、知識検索方法及びプログラム
AbuJarour et al. Collecting, annotating, and classifying public web services
JP2006529044A (ja) 定義付けシステムおよび方法
JP2003108584A (ja) 情報検索システム及びプログラム
JP5308918B2 (ja) キーワード抽出方法、キーワード抽出装置およびキーワード抽出プログラム
JP2007012100A (ja) 人物情報に基づく検索方法および検索装置、あるいは情報提供システム
JP2003173351A (ja) 情報解析、収集、検索方法、装置、プログラム、および記録媒体
An et al. Enriching ontology for deep Web search
KR101499685B1 (ko) 키워드 트리 제공 방법
JP2001117942A (ja) 情報検索装置、情報検索方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH1145255A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090618

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20100527

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110311

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110405

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110411

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140415

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4724701

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350