JP2012008900A - 関連語句抽出方法、関連語句抽出装置及び関連語句抽出プログラム - Google Patents
関連語句抽出方法、関連語句抽出装置及び関連語句抽出プログラム Download PDFInfo
- Publication number
- JP2012008900A JP2012008900A JP2010145864A JP2010145864A JP2012008900A JP 2012008900 A JP2012008900 A JP 2012008900A JP 2010145864 A JP2010145864 A JP 2010145864A JP 2010145864 A JP2010145864 A JP 2010145864A JP 2012008900 A JP2012008900 A JP 2012008900A
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- query
- subsequent
- information
- extracting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】対象となる語句について、ユーザが情報検索時に想定する語句の関連性に適合した関連語句を抽出する。
【解決手段】ユーザが一連の検索に用いた先行クエリ情報と後続クエリ情報を有するクエリ遷移情報を蓄積するクエリ遷移データベース14から先行クエリ情報が関連語句を抽出する対象語句のみからなるクエリ遷移情報を読み出し、読み出したクエリ遷移情報の後続クエリ情報中の後続語句を集計し、対象語句、後続語句の出現頻度を用いて、対象語句と後続語句の関連性を示す統計値を算出し、その統計値に基づいて対象語句に関連する関連語句を抽出する。これにより、実際にユーザが絞り込み検索に用いた語句に基づいて対象語句に関連する関連語句を抽出することができる。
【選択図】図1
【解決手段】ユーザが一連の検索に用いた先行クエリ情報と後続クエリ情報を有するクエリ遷移情報を蓄積するクエリ遷移データベース14から先行クエリ情報が関連語句を抽出する対象語句のみからなるクエリ遷移情報を読み出し、読み出したクエリ遷移情報の後続クエリ情報中の後続語句を集計し、対象語句、後続語句の出現頻度を用いて、対象語句と後続語句の関連性を示す統計値を算出し、その統計値に基づいて対象語句に関連する関連語句を抽出する。これにより、実際にユーザが絞り込み検索に用いた語句に基づいて対象語句に関連する関連語句を抽出することができる。
【選択図】図1
Description
本発明は、関連する語句を抽出する技術に関する。
インターネット上には大量の文書情報が存在している。例えば、ショッピングサイトでは販売商品の数に対応した商品情報のページが存在する。これら大量の文書情報中からユーザが所望の文書情報を検索しやすくするためには、文書情報のページを階層を持ったディレクトリ構造とし、ユーザがディレクトリ構造を辿りながら文書情報を絞り込めるようにするとよい。しかしながら、そのようなディレクトリ構造を、日々情報が更新されていくウェブ文書等を対象に構築し維持することは人手のかかる作業であった。自動的に階層構造を構築することができれば低コストな運用が可能になると考えられる。文書情報の階層構造を構築するために、語句間の上下関係を用いることができる。
複数の語句間の上下関係を自動的に抽出する手法はこれまで多数提案されている。例えば、大量の文書中から2つの語句それぞれと共起する語句を抽出し、各共起語句の意味属性を用いて2つの語句それぞれの意味を表すベクトルを求め、それらの間の包含関係をカルバックライブラー距離を用いて算出することにより、2つの語句の意味的な上下関係を抽出する技術がある(特許文献1参照)。
しかしながら、上記従来の技術は文書集合中から語句の上下関係を抽出するため、文書の閲覧者が探す際に想定する絞込の上下関係と差異が生じる問題点があった。例えば、あるファッションブランドに関する文書集合の下位になる分類語句として、「バッグ」や「指輪」といった、そのブランドの扱う商品項目の語句が想定されるが、「バッグ」といった商品項目を表す語句は複数のブランドの文書にわたって出現するため、ブランド名よりも広範な意味を持つ語句、つまり上位語句として抽出されてしまうことがあった。
本発明は、上記に鑑みてなされたものであり、対象となる語句について、ユーザが情報検索時に想定する語句の関連性に適合した関連語句を抽出することを目的とする。
第1の本発明に係る関連語句抽出方法は、ユーザが一連の検索に用いたクエリを時系列に並べた、先行クエリ、後続クエリを有するクエリ遷移情報を蓄積した蓄積手段から、関連語句を抽出する対象である対象語句のみからなる先行クエリを有する前記クエリ遷移情報を読み出し、当該クエリ遷移情報の前記後続クエリに含まれる後続語句を抽出するステップと、抽出した前記後続語句それぞれについて、当該後続語句と前記対象語句の関連性を示す統計値を算出し、算出した統計値が所定の閾値を超えていた場合に、当該後続語句を前記対象語句の関連語句として抽出するステップと、を有することを特徴とする。
第2の本発明に係る関連語句抽出方法は、ユーザが一連の検索に用いたクエリを時系列に並べた、先行クエリ、後続クエリを有するクエリ遷移情報を蓄積した蓄積手段と、前記蓄積手段から、関連語句を抽出する対象である対象語句のみからなる先行クエリを有する前記クエリ遷移情報を読み出し、当該クエリ遷移情報の前記後続クエリに含まれる後続語句を抽出する後続抽出手段と、抽出した前記後続語句それぞれについて、当該後続語句と前記対象語句の関連性を示す統計値を算出し、算出した統計値が所定の閾値を超えていた場合に、当該後続語句を前記対象語句の関連語句として抽出する関連抽出手段と、を有することを特徴とする。
第3の本発明に係る関連語句抽出プログラムは、上記関連語句抽出方法をコンピュータに実行させることを特徴とする。
本発明によれば、対象となる語句について、ユーザが情報検索時に想定する語句の関連性に適合した関連語句を抽出することができる。
以下、本発明の実施の形態について図面を用いて説明する。
図1は、本実施の形態における関連語句抽出装置の構成を示す機能ブロック図である。同図に示す関連語句抽出装置1は、クエリ遷移抽出部11、集計部12、語句抽出部13、およびクエリ遷移データベース14を備える。クエリ遷移抽出部11は、検索クエリログデータベース15に接続される。なお、関連語句抽出装置1が備える各部は、演算処理装置、記憶装置等を備えたコンピュータにより構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムは関連語句抽出装置1が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。
検索クエリログデータベース15は、商用のウェブ検索エンジンや、ウェブサイトに設置されているサイト内検索機能などに入力されたクエリを、クエリが入力された入力時刻情報、ユーザを識別するユーザID情報とともにクエリログ情報として蓄積する。ユーザID情報は、ウェブブラウザのクッキー情報等を用いて取得される情報を使用する。ユーザID情報は、同一ユーザによるクエリの前後関係が判定できればよいので、ウェブサーバ側に記録されるセッション情報等を用いてもよい。
クエリ遷移抽出部11は、検索クエリログデータベース15からユーザが一連の検索に用いた、意図的にクエリを変更した際の変更前のクエリと変更後のクエリを有するクエリ遷移情報を抽出し、クエリ遷移データベース14に蓄積する。検索クエリログデータベース15に格納されたクエリログ情報のうち、ユーザID情報が同じで入力時刻情報が近い2つのクエリの組みを抽出し、入力時刻が早い方のクエリ中の語句を先行クエリ情報、入力時刻が遅い方のクエリ中の語句を後続クエリ情報とし、先行クエリ情報と後続クエリ情報を有するクエリ遷移情報をクエリ遷移データベース14に蓄積する。
集計部12は、先行クエリ情報が関連語句を抽出する対象語句であるクエリ遷移情報をクエリ遷移データベース14から読み出し、読み出したクエリ遷移情報の後続クエリ情報中の後続語句を集計する。対象語句は、後述する実施例のように入力してもよいし、クエリ遷移データベース14に蓄積されたクエリ中の語句を用いてもよい。
語句抽出部13は、集計部12が集計した後続語句それぞれについて、対象語句、後続語句の出現頻度を用いて、対象語句と後続語句の関連性を示す統計値を算出し、その統計値に基づいて、統計的に対象語句の後に入力される傾向があると判定される後続語句を対象語句の関連語句として抽出する。
[実施例1]
図2は、実施例1の関連語句抽出装置の構成を示す機能ブロック図である。同図に示す関連語句抽出装置2は、クエリ遷移抽出部21、集計部22、語句抽出部23、およびクエリ遷移データベース24を備える。クエリ遷移抽出部21は、検索クエリログデータベース25に接続される。なお、関連語句抽出装置2が備える各部は、演算処理装置、記憶装置等を備えたコンピュータにより構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムは関連語句抽出装置2が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。
図2は、実施例1の関連語句抽出装置の構成を示す機能ブロック図である。同図に示す関連語句抽出装置2は、クエリ遷移抽出部21、集計部22、語句抽出部23、およびクエリ遷移データベース24を備える。クエリ遷移抽出部21は、検索クエリログデータベース25に接続される。なお、関連語句抽出装置2が備える各部は、演算処理装置、記憶装置等を備えたコンピュータにより構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムは関連語句抽出装置2が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。
まず、クエリ遷移抽出部21によるクエリ遷移情報の生成について説明する。クエリ遷移情報は、同一ユーザがクエリを変更した際の変更前のクエリ中の語句と変更後のクエリ中の語句を有し、クエリ遷移抽出部21が検索クエリログデータベース25にアクセスして抽出する。
検索クエリログデータベース25は、図1に示したものと同様に、入力されたクエリ、入力時刻情報、ユーザID情報をクエリログ情報として蓄積している。クエリログ情報の例を図3に示す。
クエリ遷移抽出部21は、検索クエリログデータベース25から、ユーザID情報が同じで、入力時刻情報が近く並んだクエリログ情報の組みを抽出し、入力時刻が早い方のクエリ中の語句を先行クエリ情報、入力時刻が遅い方のクエリ中の語句を後続クエリ情報とし、先行クエリ情報と後続クエリ情報を有するクエリ遷移情報をクエリ遷移データベース24に蓄積する。クエリ遷移情報の例を図4に示す。
ここで、クエリ遷移抽出部21の処理の流れを説明する。図5は、クエリ遷移抽出部21がクエリ遷移情報を抽出する処理の流れを示すフローチャートである。
まず、クエリ遷移抽出部21は、検索クエリログデータベース25に含まれるユーザID情報を全て取得し、重複するユーザID情報を取り除くことにより、ユーザID情報の一覧を抽出する(ステップS101)。抽出したユーザID情報は、クエリ遷移抽出部21が有するバッファに蓄積する。
続いて、バッファからユーザID情報を1つ取り出し、検索クエリログデータベース25から当該ユーザID情報と組みになって格納されているクエリログ情報を入力時刻情報の昇順に抽出する(ステップS102)。
時系列順に並んでいるクエリログ情報の集合から、連続する2つのクエリログ情報を取り出し、入力時刻情報の早い方のクエリ中の語句を先行クエリ情報、入力時刻情報の遅い方のクエリ中の語句を後続クエリ情報として、先行クエリ情報と後続クエリ情報を有するクエリ遷移情報をクエリ遷移データベース24に蓄積する(ステップS103)。そして、全てのクエリログ情報について処理したか否か確認し、処理していないクエリログ情報が残っている場合はステップS103に戻り処理を続ける(ステップS104)。
例えば、「東京駅」「東京駅 レストラン」「東京駅 フレンチ」「東京駅 終電」「タクシー 電話」という順に並んだクエリの集合が得られた場合、まず、先行クエリ情報が「東京駅」、後続クエリ情報が「東京駅 レストラン」となるクエリ遷移情報を作成し、クエリ遷移データベース24に蓄積する。その後、順に、先行クエリ情報、後続クエリ情報が「東京駅 レストラン」「東京駅 フレンチ」、「東京駅 フレンチ」「東京駅 終電」、「東京駅 終電」「タクシー 電話」となるクエリ遷移情報を作成してクエリ遷移データベース24に蓄積する。この例では、合計4つのクエリ遷移情報が作成される。なお、クエリ遷移データベースに蓄積する情報量を減少させるために、先行クエリ情報と後続クエリ情報が同じクエリ遷移情報についてはクエリ遷移データベース24に格納しないこととしてもよい。
そして、全てのクエリログ情報について処理した後、ユーザID情報がバッファに残っているか否か確認し、残っている場合はステップS102に戻り処理を続ける(ステップS105)。
次に、関連語句の抽出について説明する。実施例1では上位語句を入力し、入力した上位語句に下位の関連がある下位語句を抽出する。
集計部22は、下位の関連がある関連語句を抽出する対象となる上位語句の入力を受け付け、クエリ遷移データベース24にアクセスし、入力した上位語句に対してユーザが検索結果の絞り込みを意図して追加した語句を集計する。具体的には、先行クエリ情報が上位語句と同じで、後続クエリ情報が上位語句を含むクエリ遷移情報をクエリ遷移データベース24から検索し、後続クエリ情報のみに含まれる語句を抽出する。そして、抽出された後続クエリ情報のみに含まれる語句を後続語句として語句抽出部23に送信する。
語句抽出部23は、集計部22から受信した後続語句それぞれについて、当該後続語句が上位語句の下位語句として用いられている度合いを統計的な指標を用いてスコア計算する。そして、スコア値が所定の閾値を超えた後続語句を下位語句として出力する。
続いて、関連語句を抽出する処理の流れについて説明する。図6は、関連語句を抽出する処理の流れを示すフローチャートである。
まず、集計部22は、下位の関連がある関連語句を抽出する対象となる上位語句の入力を受け付ける(ステップS201)。
そして、クエリ遷移データベース24にアクセスし、先行クエリ情報が上位語句のみで、後続クエリ情報にも入力した上位語句を含むクエリ遷移情報を取得する(ステップS202)。例えば、上位語句が「東京駅」であって、「東京駅,東京駅 レストラン」「東京駅 レストラン,東京駅 フレンチ」「タマネギ,タマネギ レシピ」という3つのクエリ遷移情報がクエリ遷移データベース24に格納されている場合、「東京駅,東京駅 レストラン」というクエリ遷移情報のみが取得される。他のクエリ遷移情報は、先行クエリ情報が「東京駅」のみでないため取得されない。
続いて、集計部22は、取得したクエリ遷移情報から後続クエリ情報に含まれる上位語句以外の後続語句を抽出する(ステップS203)。例えば、「東京駅,東京駅 レストラン」「東京駅,東京駅 乗り換え」「東京駅,東京駅 レストラン おすすめ」「東京駅,東京駅 ホテル」というクエリ遷移情報を取得していた場合、「レストラン」「乗り換え」「おすすめ」「ホテル」の後続語句が抽出される。なお、「レストラン」の出現回数は2回である。抽出された後続語句は語句抽出部23に送信され、語句抽出部23の有するバッファに蓄積される。なお、処理の簡略化のため、後続語句として後続クエリ情報から上位語句を抜いたものを用いてもよい。例えば、上記例では、「レストラン」「乗り換え」「レストラン おすすめ」「ホテル」を後続語句として扱ってもよい。
語句抽出部23は、バッファに蓄積された後続語句の集合から後続語句を1つ取り出し(ステップS204)、上位語句と後続語句の関係を評価するのに用いる頻度情報をクエリ遷移データベース24にアクセスして取得する(ステップS205)。具体的には、クエリ遷移データベース24に含まれるクエリ遷移情報の総数N、先行クエリ情報に上位語句のみを含むクエリ遷移情報の数c1、後続クエリ情報に上位語句と取得した後続語句のみを含むクエリ遷移情報の数c2、先行クエリ情報に上位語句のみを含み、後続クエリ情報に上位語句と取得した後続語句のみを含むクエリ遷移情報の数c12を取得する。例えば、上位語句が「東京駅」で後続語句が「レストラン」であった場合、クエリ遷移データベース24中の先行クエリ情報が「東京駅」となっているデータ件数がc1、後続クエリ情報が「東京駅 レストラン」となっているデータ件数がc2、先行クエリ情報と後続クエリ情報の組み合わせが「東京駅,東京駅 レストラン」となっているデータ件数がc12となる。
そして、語句抽出部23は、後続語句が上位語句を先行クエリ情報とするクエリ遷移情報中で出現する度合いを表すスコア値を次式を用いて算出する(ステップS206)。次式は、上位語句と後続語句が関係性を持つ尤度と、上位語句と後続語句が無関係である尤度との比の対数を取った対数尤度比を求める式で、スコア値が1より大きいときに上位語句と後続語句が関係性を持つ尤度が高いことを表す。
そして、スコア値が1より大きい場合に上位語句と後続語句の関係性があると見なし、後続語句を下位語句とし、下位語句とともに得られたスコア値を出力する(ステップS207)。また、スコア値が予め設定された閾値以上の場合に出力することとしてもよい。出力結果は、ディスプレイやプリンタなどの外部表示装置により、スコア値の高い順に並び替えて表示される。図7に出力結果の例を示す。
そして、すべての後続語句について処理したか否か確認し、処理していない後続語句がある場合はステップS204に戻り処理を続ける(ステップS208)。
このように、ユーザが検索に利用したクエリを用いて、ある語句で検索して得られた結果からさらに結果を絞り込むときに使われる語句を抽出することで、絞り込みに用いられる語句を下位語句として抽出することができる。
[実施例2]
実施例1においては、先行クエリ情報が入力語句のみであり、後続クエリ情報に入力語句を含むクエリ遷移情報を用いて語句の関連性を計算した。しかしながら、「スポーツ」に対して「野球」というように、共通の語句が存在しなくても絞込の関係になっている語句も存在する。そこで、実施例2では、先行クエリ情報と後続クエリ情報に共通の語句が存在しない場合も関連語句候補とし、上位、下位の関連だけでなく、より広い関連語句を抽出する。
実施例1においては、先行クエリ情報が入力語句のみであり、後続クエリ情報に入力語句を含むクエリ遷移情報を用いて語句の関連性を計算した。しかしながら、「スポーツ」に対して「野球」というように、共通の語句が存在しなくても絞込の関係になっている語句も存在する。そこで、実施例2では、先行クエリ情報と後続クエリ情報に共通の語句が存在しない場合も関連語句候補とし、上位、下位の関連だけでなく、より広い関連語句を抽出する。
実施例2の関連語句抽出装置の構成及び処理の流れについては、実施例1とほぼ同様であるので、ここでは実施例1と異なる点について説明する。
実施例1の集計部22は、先行クエリ情報が上位語句(入力語句)と同じで、後続クエリ情報が上位語句を含むクエリ遷移情報を処理の対象としたが、実施例2の集計部22は、先行クエリ情報が入力語句と同じであれば後続クエリ情報が入力語句を含んでいなくても、そのクエリ遷移情報をクエリ遷移データベース24から読み出す。例えば、入力語句が「東京駅」のときに、「東京駅,東京駅 レストラン」「東京駅 レストラン,東京駅 フレンチ」「東京駅,大手町」という3つのクエリ遷移情報がクエリ遷移データベース24に蓄積されている場合、実施例2では「東京駅,東京駅 レストラン」「東京駅,大手町」の2つのクエリ遷移情報が取得される。「東京駅 レストラン,東京駅 フレンチ」は、先行クエリ情報が「東京駅」のみではないため取得されない。
そして、集計部22は、取得されたクエリ遷移情報の集合から後続クエリ情報を取り出し、その表記ごとの出現回数を集計する。例えば、「東京駅,東京駅 レストラン」「東京駅,大手町」「東京駅,東京駅 ホテル」「東京駅,大手町」というクエリ遷移情報が取得されていた場合、「大手町」が2回、「東京駅 レストラン」「東京駅 ホテル」がそれぞれ1回の出現回数となる。各後続語句と出現回数を組みにして語句抽出部23に送信する。集計部22は、単純化のため、「東京駅 レストラン」と「レストラン 東京駅」のように、構成する語句は同じだが語句の並びが異なる場合にについては同じ語句とみなして集計してもよい。図8に後続語句と出現回数の例を示す。
続いて、語句抽出部23により各後続語句のスコア値を計算する。実施例2では、入力語句と後続語句が関係性を持つ尤度と無関係である尤度の比の対数を取った対数尤度比に加え、後続語句が入力語句の後続クエリとなる出現回数を考慮して入力語句と後続語句の関連度合いを算出する。
スコア値の計算に際しては、まず、入力語句と後続語句の関係を評価するのに用いる頻度情報をクエリ遷移データベース24にアクセスして取得する。具体的には、クエリ遷移データベース24に含まれるクエリ遷移情報の総数N、先行クエリ情報に入力語句のみを含むクエリ遷移情報の数c1、後続クエリ情報が後続語句と等しいクエリ遷移情報の数c2、先行クエリ情報に入力語句のみを含み、後続クエリ情報が後続語句と等しいクエリ遷移情報の数c12を取得する。例えば、入力語句が「東京駅」で後続語句が「大手町」であった場合、クエリ遷移データベース24中の先行クエリ情報が「東京駅」となっているデータ件数がc1、後続クエリ情報が「大手町」となっているデータ件数がc2、先行クエリ情報と後続クエリ情報の組み合わせが「東京駅,大手町」となっているデータ件数がc12となる。
このように、対数尤度比と出現回数の両方を考慮して関連度合いを算出することにより、頻度の低い語句がたまたま入力語句の後続クエリとしてログ中に出現していたために関連度が高く算出されてしまう問題を解決できる。
以上説明したように、本実施の形態によれば、ユーザが一連の検索に用いた先行クエリ情報と後続クエリ情報を有するクエリ遷移情報を蓄積するクエリ遷移データベース14から先行クエリ情報が関連語句を抽出する対象語句のみからなるクエリ遷移情報を読み出し、読み出したクエリ遷移情報の後続クエリ情報中の後続語句を集計し、対象語句、後続語句の出現頻度を用いて、対象語句と後続語句の関連性を示す統計値を算出し、その統計値に基づいて対象語句に関連する関連語句を抽出することにより、実際にユーザが絞り込み検索に用いた語句に基づいて対象語句に関連する関連語句を抽出することができる。このように求められた関連語句を用いることで、商品等のウェブページを探すための文書分類の階層を、ユーザが想定する絞り込みのイメージに合った形に構築することが可能となり、ユーザの使い勝手とともに、文書分類構造を自動的に低コストで構築・更新することが可能となる。
本実施の形態によれば、先行クエリ情報に対象語句のみを含み、後続クエリ情報に対象語句を含むクエリ遷移情報を集計し抽出することにより、対象語句に対して下位の関連がある下位語句を抽出することが可能となる。
本実施の形態によれば、関連語句を抽出するための統計値の算出に、対象語句と後続語句が関係性を持つ尤度と対象語句と後続語句が無関係である尤度の比の対数を取った対数尤度比にクエリ遷移情報を抽出した際の後続語句の出現回数を加味することにより、頻度の低い語句がたまたま入力語句の後続クエリとしてログ中に出現していたために関連度が高く算出されてしまう問題を解決できる。
なお、ユーザが検索システムにクエリを入力して検索を行う際に、本発明で得られる関連語句を絞り込み検索用の語句として提示することにより、ユーザの検索補助を行うことも可能である。
1,2…関連語句抽出装置
11,21…クエリ遷移抽出部
12,22…集計部
13,23…語句抽出部
14,24…クエリ遷移データベース
15,25…検索クエリログデータベース
11,21…クエリ遷移抽出部
12,22…集計部
13,23…語句抽出部
14,24…クエリ遷移データベース
15,25…検索クエリログデータベース
Claims (9)
- ユーザが一連の検索に用いたクエリを時系列に並べた、先行クエリ、後続クエリを有するクエリ遷移情報を蓄積した蓄積手段から、関連語句を抽出する対象である対象語句のみからなる先行クエリを有する前記クエリ遷移情報を読み出し、当該クエリ遷移情報の前記後続クエリに含まれる後続語句を抽出するステップと、
抽出した前記後続語句それぞれについて、当該後続語句と前記対象語句の関連性を示す統計値を算出し、算出した統計値が所定の閾値を超えていた場合に、当該後続語句を前記対象語句の関連語句として抽出するステップと、
を有することを特徴とする関連語句抽出方法。 - 前記関連語句を抽出するステップは、前記統計値として、前記対象語句と前記後続語句が関係性を持つ尤度と前記対象語句と前記後続語句が無関係である尤度の比の対数を取った対数尤度比を用いることを特徴とする請求項1記載の関連語句抽出方法。
- 前記後続語句を抽出するステップは、前記後続語句の出現回数を集計し、
前記関連語句を抽出するステップは、前記対数尤度比に前記出現回数を加味して前記統計値を算出することを特徴とする請求項2記載の関連語句抽出方法。 - 前記後続語句を抽出するステップは、前記対象語句のみからなる先行クエリを有し、かつ、前記対象語句を後続クエリに含む前記クエリ遷移情報を読み出し、当該クエリ遷移情報の前記後続クエリに含まれる語句の内、前記対象語句を除いた語句を前記後続語句として抽出することを特徴とする請求項1乃至3のいずれかに記載の関連語句抽出方法。
- ユーザが一連の検索に用いたクエリを時系列に並べた、先行クエリ、後続クエリを有するクエリ遷移情報を蓄積した蓄積手段と、
前記蓄積手段から、関連語句を抽出する対象である対象語句のみからなる先行クエリを有する前記クエリ遷移情報を読み出し、当該クエリ遷移情報の前記後続クエリに含まれる後続語句を抽出する後続抽出手段と、
抽出した前記後続語句それぞれについて、当該後続語句と前記対象語句の関連性を示す統計値を算出し、算出した統計値が所定の閾値を超えていた場合に、当該後続語句を前記対象語句の関連語句として抽出する関連抽出手段と、
を有することを特徴とする関連語句抽出装置。 - 前記関連抽出手段は、前記統計値として、前記対象語句と前記後続語句が関係性を持つ尤度と前記対象語句と前記後続語句が無関係である尤度の比の対数を取った対数尤度比を用いることを特徴とする請求項5記載の関連語句抽出装置。
- 前記後続抽出手段は、前記後続語句の出現回数を集計し、
前記関連抽出手段は、前記対数尤度比に前記出現回数を加味して前記統計値を算出することを特徴とする請求項6記載の関連語句抽出装置。 - 前記後続抽出手段は、前記対象語句のみからなる先行クエリを有し、かつ、前記対象語句を後続クエリに含む前記クエリ遷移情報を読み出し、当該クエリ遷移情報の前記後続クエリに含まれる語句の内、前記対象語句を除いた語句を前記後続語句として抽出することを特徴とする請求項5乃至7のいずれかに記載の関連語句抽出装置。
- 請求項1乃至4のいずれかに記載の関連語句抽出方法をコンピュータに実行させることを特徴とする関連語句抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010145864A JP2012008900A (ja) | 2010-06-28 | 2010-06-28 | 関連語句抽出方法、関連語句抽出装置及び関連語句抽出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010145864A JP2012008900A (ja) | 2010-06-28 | 2010-06-28 | 関連語句抽出方法、関連語句抽出装置及び関連語句抽出プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012008900A true JP2012008900A (ja) | 2012-01-12 |
Family
ID=45539341
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010145864A Pending JP2012008900A (ja) | 2010-06-28 | 2010-06-28 | 関連語句抽出方法、関連語句抽出装置及び関連語句抽出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012008900A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016189215A (ja) * | 2016-07-05 | 2016-11-04 | ヤフー株式会社 | 抽出装置、抽出方法および抽出プログラム |
JP6124489B1 (ja) * | 2016-08-01 | 2017-05-10 | ヤフー株式会社 | クエリ提供装置、クエリ提供方法、およびクエリ提供プログラム |
US20180367558A1 (en) * | 2015-12-14 | 2018-12-20 | Nec Corporation | Information analysis system, information analysis method, and recording medium |
JP2019144981A (ja) * | 2018-02-23 | 2019-08-29 | 富士通株式会社 | 情報処理プログラム、情報処理装置及び情報処理方法 |
JP2019160239A (ja) * | 2018-03-16 | 2019-09-19 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | 解析装置、解析方法及びコンピュータープログラム |
JP7426302B2 (ja) | 2020-06-30 | 2024-02-01 | 日立建機株式会社 | 同義語生成装置、及び同義語生成プログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006073095A1 (ja) * | 2005-01-07 | 2006-07-13 | Matsushita Electric Industrial Co., Ltd. | 連想辞書作成装置 |
-
2010
- 2010-06-28 JP JP2010145864A patent/JP2012008900A/ja active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006073095A1 (ja) * | 2005-01-07 | 2006-07-13 | Matsushita Electric Industrial Co., Ltd. | 連想辞書作成装置 |
Non-Patent Citations (4)
Title |
---|
CSNG200100351012; 川前 徳章: 'ユーザ履歴を活用した検索システム' 情報処理学会研究報告 第2000巻,第69号, page113-120, 社団法人情報処理学会 * |
CSNG201000538031; 関口 裕一郎: '検索クエリログのセッション情報を利用した属性語句抽出' 第2回データ工学と情報マネジメントに関するフォーラム-DEIM 2010-論文集 [online] , 20100525, 電子情報通信学会データ工学研究専門委員会 * |
JPN6013043759; 関口 裕一郎: '検索クエリログのセッション情報を利用した属性語句抽出' 第2回データ工学と情報マネジメントに関するフォーラム-DEIM 2010-論文集 [online] , 20100525, 電子情報通信学会データ工学研究専門委員会 * |
JPN6013043762; 川前 徳章: 'ユーザ履歴を活用した検索システム' 情報処理学会研究報告 第2000巻,第69号, page113-120, 社団法人情報処理学会 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180367558A1 (en) * | 2015-12-14 | 2018-12-20 | Nec Corporation | Information analysis system, information analysis method, and recording medium |
US11689547B2 (en) * | 2015-12-14 | 2023-06-27 | Nec Corporation | Information analysis system, information analysis method, and recording medium |
JP2016189215A (ja) * | 2016-07-05 | 2016-11-04 | ヤフー株式会社 | 抽出装置、抽出方法および抽出プログラム |
JP6124489B1 (ja) * | 2016-08-01 | 2017-05-10 | ヤフー株式会社 | クエリ提供装置、クエリ提供方法、およびクエリ提供プログラム |
JP2018022214A (ja) * | 2016-08-01 | 2018-02-08 | ヤフー株式会社 | クエリ提供装置、クエリ提供方法、およびクエリ提供プログラム |
JP2019144981A (ja) * | 2018-02-23 | 2019-08-29 | 富士通株式会社 | 情報処理プログラム、情報処理装置及び情報処理方法 |
JP6993575B2 (ja) | 2018-02-23 | 2022-01-13 | 富士通株式会社 | 情報処理プログラム、情報処理装置及び情報処理方法 |
JP2019160239A (ja) * | 2018-03-16 | 2019-09-19 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | 解析装置、解析方法及びコンピュータープログラム |
JP7426302B2 (ja) | 2020-06-30 | 2024-02-01 | 日立建機株式会社 | 同義語生成装置、及び同義語生成プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9201880B2 (en) | Processing a content item with regard to an event and a location | |
US9448999B2 (en) | Method and device to detect similar documents | |
KR102080362B1 (ko) | 쿼리 확장 | |
CN107153658A (zh) | 一种基于关键字加权算法的舆情热词发现方法 | |
US10152478B2 (en) | Apparatus, system and method for string disambiguation and entity ranking | |
WO2014056397A1 (zh) | 兴趣标签推荐方法、系统及计算机可读介质 | |
Pervin et al. | Fast, scalable, and context-sensitive detection of trending topics in microblog post streams | |
JP5143057B2 (ja) | 重要キーワード抽出装置及び方法及びプログラム | |
CN105378730A (zh) | 社交媒体分析与输出 | |
JP2012008900A (ja) | 関連語句抽出方法、関連語句抽出装置及び関連語句抽出プログラム | |
JP5547669B2 (ja) | 関連語抽出装置、関連語抽出方法、関連語抽出プログラム | |
CN104573057A (zh) | 一种用于跨ugc网站平台的帐户关联方法 | |
JP5952711B2 (ja) | 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法 | |
CN103064880A (zh) | 一种基于搜索信息向用户提供网站选择的方法、装置和系统 | |
JP2007219929A (ja) | 感性評価システム及び方法 | |
JP4569380B2 (ja) | ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体 | |
JP5556711B2 (ja) | カテゴリ分類処理装置、カテゴリ分類処理方法、カテゴリ分類処理プログラム記録媒体、カテゴリ分類処理システム | |
US10339559B2 (en) | Associating social comments with individual assets used in a campaign | |
JP5180894B2 (ja) | 属性表現獲得方法及び装置及びプログラム | |
WO2016027364A1 (ja) | 話題クラスタ選択装置、及び検索方法 | |
JP5292336B2 (ja) | 検索システムユーザの分野ごとにおける知識量推定装置、知識量推定方法および知識量推定プログラム | |
JP5727846B2 (ja) | シリーズアイテム群抽出システム、シリーズアイテム群抽出方法、およびシリーズアイテム群抽出プログラム | |
JP2015187814A (ja) | 複数のハッシュテーブルを用いて検索するプログラム、装置及び方法 | |
JP2010128981A (ja) | 操作シーケンス抽出方法及び装置及びプログラム | |
KR20120075553A (ko) | 카테고리 매칭을 이용한 키워드 추출 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121024 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130828 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130903 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20140107 |