JP2012008900A

JP2012008900A - 関連語句抽出方法、関連語句抽出装置及び関連語句抽出プログラム

Info

Publication number: JP2012008900A
Application number: JP2010145864A
Authority: JP
Inventors: Yuichiro Sekiguchi; 裕一郎関口; Tomohiro Tanaka; 智博田中; Masashi Uchiyama; 匡内山
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2010-06-28
Filing date: 2010-06-28
Publication date: 2012-01-12

Abstract

【課題】対象となる語句について、ユーザが情報検索時に想定する語句の関連性に適合した関連語句を抽出する。
【解決手段】ユーザが一連の検索に用いた先行クエリ情報と後続クエリ情報を有するクエリ遷移情報を蓄積するクエリ遷移データベース１４から先行クエリ情報が関連語句を抽出する対象語句のみからなるクエリ遷移情報を読み出し、読み出したクエリ遷移情報の後続クエリ情報中の後続語句を集計し、対象語句、後続語句の出現頻度を用いて、対象語句と後続語句の関連性を示す統計値を算出し、その統計値に基づいて対象語句に関連する関連語句を抽出する。これにより、実際にユーザが絞り込み検索に用いた語句に基づいて対象語句に関連する関連語句を抽出することができる。
【選択図】図１

Description

本発明は、関連する語句を抽出する技術に関する。

インターネット上には大量の文書情報が存在している。例えば、ショッピングサイトでは販売商品の数に対応した商品情報のページが存在する。これら大量の文書情報中からユーザが所望の文書情報を検索しやすくするためには、文書情報のページを階層を持ったディレクトリ構造とし、ユーザがディレクトリ構造を辿りながら文書情報を絞り込めるようにするとよい。しかしながら、そのようなディレクトリ構造を、日々情報が更新されていくウェブ文書等を対象に構築し維持することは人手のかかる作業であった。自動的に階層構造を構築することができれば低コストな運用が可能になると考えられる。文書情報の階層構造を構築するために、語句間の上下関係を用いることができる。

複数の語句間の上下関係を自動的に抽出する手法はこれまで多数提案されている。例えば、大量の文書中から２つの語句それぞれと共起する語句を抽出し、各共起語句の意味属性を用いて２つの語句それぞれの意味を表すベクトルを求め、それらの間の包含関係をカルバックライブラー距離を用いて算出することにより、２つの語句の意味的な上下関係を抽出する技術がある（特許文献１参照）。

特開２００９−１２２９４２号公報

しかしながら、上記従来の技術は文書集合中から語句の上下関係を抽出するため、文書の閲覧者が探す際に想定する絞込の上下関係と差異が生じる問題点があった。例えば、あるファッションブランドに関する文書集合の下位になる分類語句として、「バッグ」や「指輪」といった、そのブランドの扱う商品項目の語句が想定されるが、「バッグ」といった商品項目を表す語句は複数のブランドの文書にわたって出現するため、ブランド名よりも広範な意味を持つ語句、つまり上位語句として抽出されてしまうことがあった。

本発明は、上記に鑑みてなされたものであり、対象となる語句について、ユーザが情報検索時に想定する語句の関連性に適合した関連語句を抽出することを目的とする。

第１の本発明に係る関連語句抽出方法は、ユーザが一連の検索に用いたクエリを時系列に並べた、先行クエリ、後続クエリを有するクエリ遷移情報を蓄積した蓄積手段から、関連語句を抽出する対象である対象語句のみからなる先行クエリを有する前記クエリ遷移情報を読み出し、当該クエリ遷移情報の前記後続クエリに含まれる後続語句を抽出するステップと、抽出した前記後続語句それぞれについて、当該後続語句と前記対象語句の関連性を示す統計値を算出し、算出した統計値が所定の閾値を超えていた場合に、当該後続語句を前記対象語句の関連語句として抽出するステップと、を有することを特徴とする。

第２の本発明に係る関連語句抽出方法は、ユーザが一連の検索に用いたクエリを時系列に並べた、先行クエリ、後続クエリを有するクエリ遷移情報を蓄積した蓄積手段と、前記蓄積手段から、関連語句を抽出する対象である対象語句のみからなる先行クエリを有する前記クエリ遷移情報を読み出し、当該クエリ遷移情報の前記後続クエリに含まれる後続語句を抽出する後続抽出手段と、抽出した前記後続語句それぞれについて、当該後続語句と前記対象語句の関連性を示す統計値を算出し、算出した統計値が所定の閾値を超えていた場合に、当該後続語句を前記対象語句の関連語句として抽出する関連抽出手段と、を有することを特徴とする。

第３の本発明に係る関連語句抽出プログラムは、上記関連語句抽出方法をコンピュータに実行させることを特徴とする。

本発明によれば、対象となる語句について、ユーザが情報検索時に想定する語句の関連性に適合した関連語句を抽出することができる。

本実施の形態における関連語句抽出装置の構成を示す機能ブロック図である。実施例１の関連語句抽出装置の構成を示す機能ブロック図である。クエリログ情報の例を示す図である。クエリ遷移情報の例を示す図である。クエリ遷移情報を抽出する処理の流れを示すフローチャートである。関連語句を抽出する処理の流れを示すフローチャートである。関連語句の出力結果の例を示す図である。クエリ遷移情報を集計した例を示す図である。

以下、本発明の実施の形態について図面を用いて説明する。

図１は、本実施の形態における関連語句抽出装置の構成を示す機能ブロック図である。同図に示す関連語句抽出装置１は、クエリ遷移抽出部１１、集計部１２、語句抽出部１３、およびクエリ遷移データベース１４を備える。クエリ遷移抽出部１１は、検索クエリログデータベース１５に接続される。なお、関連語句抽出装置１が備える各部は、演算処理装置、記憶装置等を備えたコンピュータにより構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムは関連語句抽出装置１が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。

検索クエリログデータベース１５は、商用のウェブ検索エンジンや、ウェブサイトに設置されているサイト内検索機能などに入力されたクエリを、クエリが入力された入力時刻情報、ユーザを識別するユーザＩＤ情報とともにクエリログ情報として蓄積する。ユーザＩＤ情報は、ウェブブラウザのクッキー情報等を用いて取得される情報を使用する。ユーザＩＤ情報は、同一ユーザによるクエリの前後関係が判定できればよいので、ウェブサーバ側に記録されるセッション情報等を用いてもよい。

クエリ遷移抽出部１１は、検索クエリログデータベース１５からユーザが一連の検索に用いた、意図的にクエリを変更した際の変更前のクエリと変更後のクエリを有するクエリ遷移情報を抽出し、クエリ遷移データベース１４に蓄積する。検索クエリログデータベース１５に格納されたクエリログ情報のうち、ユーザＩＤ情報が同じで入力時刻情報が近い２つのクエリの組みを抽出し、入力時刻が早い方のクエリ中の語句を先行クエリ情報、入力時刻が遅い方のクエリ中の語句を後続クエリ情報とし、先行クエリ情報と後続クエリ情報を有するクエリ遷移情報をクエリ遷移データベース１４に蓄積する。

集計部１２は、先行クエリ情報が関連語句を抽出する対象語句であるクエリ遷移情報をクエリ遷移データベース１４から読み出し、読み出したクエリ遷移情報の後続クエリ情報中の後続語句を集計する。対象語句は、後述する実施例のように入力してもよいし、クエリ遷移データベース１４に蓄積されたクエリ中の語句を用いてもよい。

語句抽出部１３は、集計部１２が集計した後続語句それぞれについて、対象語句、後続語句の出現頻度を用いて、対象語句と後続語句の関連性を示す統計値を算出し、その統計値に基づいて、統計的に対象語句の後に入力される傾向があると判定される後続語句を対象語句の関連語句として抽出する。

［実施例１］
図２は、実施例１の関連語句抽出装置の構成を示す機能ブロック図である。同図に示す関連語句抽出装置２は、クエリ遷移抽出部２１、集計部２２、語句抽出部２３、およびクエリ遷移データベース２４を備える。クエリ遷移抽出部２１は、検索クエリログデータベース２５に接続される。なお、関連語句抽出装置２が備える各部は、演算処理装置、記憶装置等を備えたコンピュータにより構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムは関連語句抽出装置２が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。

まず、クエリ遷移抽出部２１によるクエリ遷移情報の生成について説明する。クエリ遷移情報は、同一ユーザがクエリを変更した際の変更前のクエリ中の語句と変更後のクエリ中の語句を有し、クエリ遷移抽出部２１が検索クエリログデータベース２５にアクセスして抽出する。

検索クエリログデータベース２５は、図１に示したものと同様に、入力されたクエリ、入力時刻情報、ユーザＩＤ情報をクエリログ情報として蓄積している。クエリログ情報の例を図３に示す。

クエリ遷移抽出部２１は、検索クエリログデータベース２５から、ユーザＩＤ情報が同じで、入力時刻情報が近く並んだクエリログ情報の組みを抽出し、入力時刻が早い方のクエリ中の語句を先行クエリ情報、入力時刻が遅い方のクエリ中の語句を後続クエリ情報とし、先行クエリ情報と後続クエリ情報を有するクエリ遷移情報をクエリ遷移データベース２４に蓄積する。クエリ遷移情報の例を図４に示す。

ここで、クエリ遷移抽出部２１の処理の流れを説明する。図５は、クエリ遷移抽出部２１がクエリ遷移情報を抽出する処理の流れを示すフローチャートである。

まず、クエリ遷移抽出部２１は、検索クエリログデータベース２５に含まれるユーザＩＤ情報を全て取得し、重複するユーザＩＤ情報を取り除くことにより、ユーザＩＤ情報の一覧を抽出する（ステップＳ１０１）。抽出したユーザＩＤ情報は、クエリ遷移抽出部２１が有するバッファに蓄積する。

続いて、バッファからユーザＩＤ情報を１つ取り出し、検索クエリログデータベース２５から当該ユーザＩＤ情報と組みになって格納されているクエリログ情報を入力時刻情報の昇順に抽出する（ステップＳ１０２）。

時系列順に並んでいるクエリログ情報の集合から、連続する２つのクエリログ情報を取り出し、入力時刻情報の早い方のクエリ中の語句を先行クエリ情報、入力時刻情報の遅い方のクエリ中の語句を後続クエリ情報として、先行クエリ情報と後続クエリ情報を有するクエリ遷移情報をクエリ遷移データベース２４に蓄積する（ステップＳ１０３）。そして、全てのクエリログ情報について処理したか否か確認し、処理していないクエリログ情報が残っている場合はステップＳ１０３に戻り処理を続ける（ステップＳ１０４）。

例えば、「東京駅」「東京駅レストラン」「東京駅フレンチ」「東京駅終電」「タクシー電話」という順に並んだクエリの集合が得られた場合、まず、先行クエリ情報が「東京駅」、後続クエリ情報が「東京駅レストラン」となるクエリ遷移情報を作成し、クエリ遷移データベース２４に蓄積する。その後、順に、先行クエリ情報、後続クエリ情報が「東京駅レストラン」「東京駅フレンチ」、「東京駅フレンチ」「東京駅終電」、「東京駅終電」「タクシー電話」となるクエリ遷移情報を作成してクエリ遷移データベース２４に蓄積する。この例では、合計４つのクエリ遷移情報が作成される。なお、クエリ遷移データベースに蓄積する情報量を減少させるために、先行クエリ情報と後続クエリ情報が同じクエリ遷移情報についてはクエリ遷移データベース２４に格納しないこととしてもよい。

そして、全てのクエリログ情報について処理した後、ユーザＩＤ情報がバッファに残っているか否か確認し、残っている場合はステップＳ１０２に戻り処理を続ける（ステップＳ１０５）。

次に、関連語句の抽出について説明する。実施例１では上位語句を入力し、入力した上位語句に下位の関連がある下位語句を抽出する。

集計部２２は、下位の関連がある関連語句を抽出する対象となる上位語句の入力を受け付け、クエリ遷移データベース２４にアクセスし、入力した上位語句に対してユーザが検索結果の絞り込みを意図して追加した語句を集計する。具体的には、先行クエリ情報が上位語句と同じで、後続クエリ情報が上位語句を含むクエリ遷移情報をクエリ遷移データベース２４から検索し、後続クエリ情報のみに含まれる語句を抽出する。そして、抽出された後続クエリ情報のみに含まれる語句を後続語句として語句抽出部２３に送信する。

語句抽出部２３は、集計部２２から受信した後続語句それぞれについて、当該後続語句が上位語句の下位語句として用いられている度合いを統計的な指標を用いてスコア計算する。そして、スコア値が所定の閾値を超えた後続語句を下位語句として出力する。

続いて、関連語句を抽出する処理の流れについて説明する。図６は、関連語句を抽出する処理の流れを示すフローチャートである。

まず、集計部２２は、下位の関連がある関連語句を抽出する対象となる上位語句の入力を受け付ける（ステップＳ２０１）。

そして、クエリ遷移データベース２４にアクセスし、先行クエリ情報が上位語句のみで、後続クエリ情報にも入力した上位語句を含むクエリ遷移情報を取得する（ステップＳ２０２）。例えば、上位語句が「東京駅」であって、「東京駅，東京駅レストラン」「東京駅レストラン，東京駅フレンチ」「タマネギ，タマネギレシピ」という３つのクエリ遷移情報がクエリ遷移データベース２４に格納されている場合、「東京駅，東京駅レストラン」というクエリ遷移情報のみが取得される。他のクエリ遷移情報は、先行クエリ情報が「東京駅」のみでないため取得されない。

続いて、集計部２２は、取得したクエリ遷移情報から後続クエリ情報に含まれる上位語句以外の後続語句を抽出する（ステップＳ２０３）。例えば、「東京駅，東京駅レストラン」「東京駅，東京駅乗り換え」「東京駅，東京駅レストランおすすめ」「東京駅，東京駅ホテル」というクエリ遷移情報を取得していた場合、「レストラン」「乗り換え」「おすすめ」「ホテル」の後続語句が抽出される。なお、「レストラン」の出現回数は２回である。抽出された後続語句は語句抽出部２３に送信され、語句抽出部２３の有するバッファに蓄積される。なお、処理の簡略化のため、後続語句として後続クエリ情報から上位語句を抜いたものを用いてもよい。例えば、上記例では、「レストラン」「乗り換え」「レストランおすすめ」「ホテル」を後続語句として扱ってもよい。

語句抽出部２３は、バッファに蓄積された後続語句の集合から後続語句を１つ取り出し（ステップＳ２０４）、上位語句と後続語句の関係を評価するのに用いる頻度情報をクエリ遷移データベース２４にアクセスして取得する（ステップＳ２０５）。具体的には、クエリ遷移データベース２４に含まれるクエリ遷移情報の総数Ｎ、先行クエリ情報に上位語句のみを含むクエリ遷移情報の数ｃ₁、後続クエリ情報に上位語句と取得した後続語句のみを含むクエリ遷移情報の数ｃ₂、先行クエリ情報に上位語句のみを含み、後続クエリ情報に上位語句と取得した後続語句のみを含むクエリ遷移情報の数ｃ₁₂を取得する。例えば、上位語句が「東京駅」で後続語句が「レストラン」であった場合、クエリ遷移データベース２４中の先行クエリ情報が「東京駅」となっているデータ件数がｃ₁、後続クエリ情報が「東京駅レストラン」となっているデータ件数がｃ₂、先行クエリ情報と後続クエリ情報の組み合わせが「東京駅，東京駅レストラン」となっているデータ件数がｃ₁₂となる。

そして、語句抽出部２３は、後続語句が上位語句を先行クエリ情報とするクエリ遷移情報中で出現する度合いを表すスコア値を次式を用いて算出する（ステップＳ２０６）。次式は、上位語句と後続語句が関係性を持つ尤度と、上位語句と後続語句が無関係である尤度との比の対数を取った対数尤度比を求める式で、スコア値が１より大きいときに上位語句と後続語句が関係性を持つ尤度が高いことを表す。

そして、スコア値が１より大きい場合に上位語句と後続語句の関係性があると見なし、後続語句を下位語句とし、下位語句とともに得られたスコア値を出力する（ステップＳ２０７）。また、スコア値が予め設定された閾値以上の場合に出力することとしてもよい。出力結果は、ディスプレイやプリンタなどの外部表示装置により、スコア値の高い順に並び替えて表示される。図７に出力結果の例を示す。

そして、すべての後続語句について処理したか否か確認し、処理していない後続語句がある場合はステップＳ２０４に戻り処理を続ける（ステップＳ２０８）。

このように、ユーザが検索に利用したクエリを用いて、ある語句で検索して得られた結果からさらに結果を絞り込むときに使われる語句を抽出することで、絞り込みに用いられる語句を下位語句として抽出することができる。

［実施例２］
実施例１においては、先行クエリ情報が入力語句のみであり、後続クエリ情報に入力語句を含むクエリ遷移情報を用いて語句の関連性を計算した。しかしながら、「スポーツ」に対して「野球」というように、共通の語句が存在しなくても絞込の関係になっている語句も存在する。そこで、実施例２では、先行クエリ情報と後続クエリ情報に共通の語句が存在しない場合も関連語句候補とし、上位、下位の関連だけでなく、より広い関連語句を抽出する。

実施例２の関連語句抽出装置の構成及び処理の流れについては、実施例１とほぼ同様であるので、ここでは実施例１と異なる点について説明する。

実施例１の集計部２２は、先行クエリ情報が上位語句（入力語句）と同じで、後続クエリ情報が上位語句を含むクエリ遷移情報を処理の対象としたが、実施例２の集計部２２は、先行クエリ情報が入力語句と同じであれば後続クエリ情報が入力語句を含んでいなくても、そのクエリ遷移情報をクエリ遷移データベース２４から読み出す。例えば、入力語句が「東京駅」のときに、「東京駅，東京駅レストラン」「東京駅レストラン，東京駅フレンチ」「東京駅，大手町」という３つのクエリ遷移情報がクエリ遷移データベース２４に蓄積されている場合、実施例２では「東京駅，東京駅レストラン」「東京駅，大手町」の２つのクエリ遷移情報が取得される。「東京駅レストラン，東京駅フレンチ」は、先行クエリ情報が「東京駅」のみではないため取得されない。

そして、集計部２２は、取得されたクエリ遷移情報の集合から後続クエリ情報を取り出し、その表記ごとの出現回数を集計する。例えば、「東京駅，東京駅レストラン」「東京駅，大手町」「東京駅，東京駅ホテル」「東京駅，大手町」というクエリ遷移情報が取得されていた場合、「大手町」が２回、「東京駅レストラン」「東京駅ホテル」がそれぞれ１回の出現回数となる。各後続語句と出現回数を組みにして語句抽出部２３に送信する。集計部２２は、単純化のため、「東京駅レストラン」と「レストラン東京駅」のように、構成する語句は同じだが語句の並びが異なる場合にについては同じ語句とみなして集計してもよい。図８に後続語句と出現回数の例を示す。

続いて、語句抽出部２３により各後続語句のスコア値を計算する。実施例２では、入力語句と後続語句が関係性を持つ尤度と無関係である尤度の比の対数を取った対数尤度比に加え、後続語句が入力語句の後続クエリとなる出現回数を考慮して入力語句と後続語句の関連度合いを算出する。

スコア値の計算に際しては、まず、入力語句と後続語句の関係を評価するのに用いる頻度情報をクエリ遷移データベース２４にアクセスして取得する。具体的には、クエリ遷移データベース２４に含まれるクエリ遷移情報の総数Ｎ、先行クエリ情報に入力語句のみを含むクエリ遷移情報の数ｃ₁、後続クエリ情報が後続語句と等しいクエリ遷移情報の数ｃ₂、先行クエリ情報に入力語句のみを含み、後続クエリ情報が後続語句と等しいクエリ遷移情報の数ｃ₁₂を取得する。例えば、入力語句が「東京駅」で後続語句が「大手町」であった場合、クエリ遷移データベース２４中の先行クエリ情報が「東京駅」となっているデータ件数がｃ₁、後続クエリ情報が「大手町」となっているデータ件数がｃ₂、先行クエリ情報と後続クエリ情報の組み合わせが「東京駅，大手町」となっているデータ件数がｃ₁₂となる。

そして、対数尤度比と集計部２２が集計した出現回数ｆｑ₁₂を用いた次式によりスコア値を計算する。なお、処理の簡便化のため、出現回数ｆｑ₁₂の代わりにｃ₁₂を用いてもよい。

このように、対数尤度比と出現回数の両方を考慮して関連度合いを算出することにより、頻度の低い語句がたまたま入力語句の後続クエリとしてログ中に出現していたために関連度が高く算出されてしまう問題を解決できる。

以上説明したように、本実施の形態によれば、ユーザが一連の検索に用いた先行クエリ情報と後続クエリ情報を有するクエリ遷移情報を蓄積するクエリ遷移データベース１４から先行クエリ情報が関連語句を抽出する対象語句のみからなるクエリ遷移情報を読み出し、読み出したクエリ遷移情報の後続クエリ情報中の後続語句を集計し、対象語句、後続語句の出現頻度を用いて、対象語句と後続語句の関連性を示す統計値を算出し、その統計値に基づいて対象語句に関連する関連語句を抽出することにより、実際にユーザが絞り込み検索に用いた語句に基づいて対象語句に関連する関連語句を抽出することができる。このように求められた関連語句を用いることで、商品等のウェブページを探すための文書分類の階層を、ユーザが想定する絞り込みのイメージに合った形に構築することが可能となり、ユーザの使い勝手とともに、文書分類構造を自動的に低コストで構築・更新することが可能となる。

本実施の形態によれば、先行クエリ情報に対象語句のみを含み、後続クエリ情報に対象語句を含むクエリ遷移情報を集計し抽出することにより、対象語句に対して下位の関連がある下位語句を抽出することが可能となる。

本実施の形態によれば、関連語句を抽出するための統計値の算出に、対象語句と後続語句が関係性を持つ尤度と対象語句と後続語句が無関係である尤度の比の対数を取った対数尤度比にクエリ遷移情報を抽出した際の後続語句の出現回数を加味することにより、頻度の低い語句がたまたま入力語句の後続クエリとしてログ中に出現していたために関連度が高く算出されてしまう問題を解決できる。

なお、ユーザが検索システムにクエリを入力して検索を行う際に、本発明で得られる関連語句を絞り込み検索用の語句として提示することにより、ユーザの検索補助を行うことも可能である。

１，２…関連語句抽出装置
１１，２１…クエリ遷移抽出部
１２，２２…集計部
１３，２３…語句抽出部
１４，２４…クエリ遷移データベース
１５，２５…検索クエリログデータベース

Claims

ユーザが一連の検索に用いたクエリを時系列に並べた、先行クエリ、後続クエリを有するクエリ遷移情報を蓄積した蓄積手段から、関連語句を抽出する対象である対象語句のみからなる先行クエリを有する前記クエリ遷移情報を読み出し、当該クエリ遷移情報の前記後続クエリに含まれる後続語句を抽出するステップと、
抽出した前記後続語句それぞれについて、当該後続語句と前記対象語句の関連性を示す統計値を算出し、算出した統計値が所定の閾値を超えていた場合に、当該後続語句を前記対象語句の関連語句として抽出するステップと、
を有することを特徴とする関連語句抽出方法。
前記関連語句を抽出するステップは、前記統計値として、前記対象語句と前記後続語句が関係性を持つ尤度と前記対象語句と前記後続語句が無関係である尤度の比の対数を取った対数尤度比を用いることを特徴とする請求項１記載の関連語句抽出方法。
前記後続語句を抽出するステップは、前記後続語句の出現回数を集計し、
前記関連語句を抽出するステップは、前記対数尤度比に前記出現回数を加味して前記統計値を算出することを特徴とする請求項２記載の関連語句抽出方法。
前記後続語句を抽出するステップは、前記対象語句のみからなる先行クエリを有し、かつ、前記対象語句を後続クエリに含む前記クエリ遷移情報を読み出し、当該クエリ遷移情報の前記後続クエリに含まれる語句の内、前記対象語句を除いた語句を前記後続語句として抽出することを特徴とする請求項１乃至３のいずれかに記載の関連語句抽出方法。
ユーザが一連の検索に用いたクエリを時系列に並べた、先行クエリ、後続クエリを有するクエリ遷移情報を蓄積した蓄積手段と、
前記蓄積手段から、関連語句を抽出する対象である対象語句のみからなる先行クエリを有する前記クエリ遷移情報を読み出し、当該クエリ遷移情報の前記後続クエリに含まれる後続語句を抽出する後続抽出手段と、
抽出した前記後続語句それぞれについて、当該後続語句と前記対象語句の関連性を示す統計値を算出し、算出した統計値が所定の閾値を超えていた場合に、当該後続語句を前記対象語句の関連語句として抽出する関連抽出手段と、
を有することを特徴とする関連語句抽出装置。
前記関連抽出手段は、前記統計値として、前記対象語句と前記後続語句が関係性を持つ尤度と前記対象語句と前記後続語句が無関係である尤度の比の対数を取った対数尤度比を用いることを特徴とする請求項５記載の関連語句抽出装置。
前記後続抽出手段は、前記後続語句の出現回数を集計し、
前記関連抽出手段は、前記対数尤度比に前記出現回数を加味して前記統計値を算出することを特徴とする請求項６記載の関連語句抽出装置。
前記後続抽出手段は、前記対象語句のみからなる先行クエリを有し、かつ、前記対象語句を後続クエリに含む前記クエリ遷移情報を読み出し、当該クエリ遷移情報の前記後続クエリに含まれる語句の内、前記対象語句を除いた語句を前記後続語句として抽出することを特徴とする請求項５乃至７のいずれかに記載の関連語句抽出装置。
請求項１乃至４のいずれかに記載の関連語句抽出方法をコンピュータに実行させることを特徴とする関連語句抽出プログラム。