JP2014026528A - 有効クリック数算出装置、方法、及びプログラム - Google Patents

有効クリック数算出装置、方法、及びプログラム Download PDF

Info

Publication number
JP2014026528A
JP2014026528A JP2012167453A JP2012167453A JP2014026528A JP 2014026528 A JP2014026528 A JP 2014026528A JP 2012167453 A JP2012167453 A JP 2012167453A JP 2012167453 A JP2012167453 A JP 2012167453A JP 2014026528 A JP2014026528 A JP 2014026528A
Authority
JP
Japan
Prior art keywords
click
image
effective
entry
useful
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012167453A
Other languages
English (en)
Inventor
Shogo Kimura
昭悟 木村
Yoshihiko Kazuhara
良彦 数原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012167453A priority Critical patent/JP2014026528A/ja
Publication of JP2014026528A publication Critical patent/JP2014026528A/ja
Pending legal-status Critical Current

Links

Abstract

【課題】画像が表現する多様な意味や内容を考慮して、画像に対する有効なクリック数を算出する。
【解決手段】画像クリック動的特徴抽出部12が、対象ログ系列に含まれる画像クリックエントリの前後Tエントリの素性から画像クリックエントリの動的特徴を抽出し、クリック有用性判定部22が、学習用ログ系列を用いて学習された識別器14に抽出された動的特徴を与えて、画像クリックエントリの有用性を判定し、基礎有効クリック数算出部32が、有用な画像クリックエントリに含まれる画像とクエリ語との対を入力し、画像がクリックされた回数をクエリ語の投入回数で正規化した基礎有効クリック数を算出し、擬同一画像対抽出部が、画像間の類似性に基づいて擬同一画像の対を抽出し、基礎有効クリック数ベクトル変換部が、対をなす擬同一画像の類似性に応じて、それぞれの画像の基礎有効クリック数ベクトルを補正する。
【選択図】図1

Description

本発明は、有効クリック数装置、方法、及びプログラムに係り、特に、ウェブ上の画像が、あるクエリ語で検索されクリックされた事象を集めた際に、各クリックで画像とクエリ語とがどの程度関連しているかを考慮した重み付きクリック数である有効クリック数を算出する有効クリック数算出装置、方法、及びプログラムに関する。
任意の画像を柔軟に認識する計算機の構築は、古くからその実現が望まれてきた研究目標の1つである。この画像認識課題の中で、特に注目を集めている課題が、自動画像アノテーションである。自動画像アノテーションとは、テキストラベルが付与されていない画像に対して複数のテキストラベルを自動的に付与する課題を指す。この課題は、対象を物体に制約して、そのカテゴリを特定する一般物体認識や、対象物体そのものの個体を特定する特定物体認識など、広範な問題を含む広い概念である。しかし、対象に関する制約が一切存在しない一般の画像を対象とするため、対象の種類が膨大になり、かつ同一種類の対象でも多様な要因により見た目が大きく変化することから、極めて解決が難しい問題とされてきた。
一方で、クエリ語に対する画像の順位付けを行う方法として、画像検索サーバのアクセスログを用いた方法が提案されている(例えば、非特許文献1参照)。非特許文献1では、画像検索システムに投入されたクエリ語に対する画像のクリック数をガウス過程回帰モデルにより予測し、この予測クリック数に基づいてクエリ語に対する画像の順位付けを行っている。この方法を用いることで、各クエリ語に対する一定順位以上の画像に当該クエリ語を割り当てるなどの方法を用いることで、容易に自動画像アノテーションに転用できる。
Jain and Varma "Learning to re-rank: Query-dependent image re-ranking using click data," Proceeding of International World Wide Web Conference (WWW), pp. 277-286, 2011.
しかしながら、非特許文献1に記載の方法では、クエリテキストに対する画像のクリック数しか考慮しておらず、かつそのクリック数を全ユーザで集約した値を用いており、個々のユーザ行動を一切考慮していない。そのため、画像検索や画像アノテーションなどに有用な情報として、画像が表現する多様な意味や内容に応じた有効なクリック数を算出することができない、という問題がある。
本発明は、このような事情を考慮してなされたものであり、画像が表現する多様な意味や内容を考慮して、ウェブ上の画像に対する有効なクリック数を算出することができる有効クリック数算出装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明の有効クリック数算出装置は、画像検索サーバへのアクセスログから取得及び整形され、かつ検索行動に応じたエントリが時系列に記録されたログ系列に含まれ、検索に用いられたクエリ語及び検索結果に対してクリックされた画像の情報を含む画像クリックエントリについて、該画像クリックエントリの近傍のエントリから抽出された動的特徴に基づいて有用であると判定された画像クリックエントリを抽出する有用クリック抽出手段と、前記有用クリック抽出手段により抽出された画像クリックエントリについて、該画像クリックエントリに含まれる画像とクエリ語との対の静的特徴に基づいて、該画像の有効クリック数を算出する有効クリック数算出手段と、を含んで構成されている。
本発明の有効クリック数算出装置によれば、有用クリック抽出手段が、画像検索サーバへのアクセスログから取得及び整形され、かつ検索行動に応じたエントリが時系列に記録されたログ系列に含まれ、検索に用いられたクエリ語及び検索結果に対してクリックされた画像の情報を含む画像クリックエントリについて、画像クリックエントリの近傍のエントリから抽出された動的特徴に基づいて有用であると判定された画像クリックエントリを抽出する。そして、有効クリック数算出手段が、有用クリック抽出手段により抽出された画像クリックエントリについて、画像クリックエントリに含まれる画像とクエリ語との対の静的特徴に基づいて、画像の有効クリック数を算出する。
このように、画像検索サーバへのアクセスログを利用した動的特徴により有用な画像クリックエントリを抽出し、画像クリックエントリに含まれる画像とクエリ語との対の静的特徴に基づいて有効クリック数を算出するため、画像が表現する多様な意味や内容を考慮して、ウェブ上の画像に対する有効なクリック数を算出することができる。
また、前記有用クリック抽出手段は、前記ログ系列において、画像クリックエントリ毎に、該画像クリックエントリの前後所定数のエントリの各々が示す素性を時系列に羅列して、前記動的特徴として抽出する画像クリック動的特徴抽出手段と、複数の画像クリックエントリの各々から抽出された動的特徴の各々と、該動的特徴に対応する画像クリックエントリの有用性を示す識別用ラベルの各々との対応付けを学習した識別器に、前記画像クリック動的特徴抽出手段により抽出された動的特徴を入力して、入力した動的特徴に対応する画像クリックエントリの有用性を判定するクリック有用性判定手段と、を含んで構成することができる。
また、前記有効クリック数算出手段は、前記有用クリック抽出手段により抽出された画像クリックエントリについて、該画像クリックエントリに含まれる画像とクエリ語との対について、該画像のクリック数を該クエリ語の総投入回数で重み付けした基礎有効クリック数を算出する基礎有効クリック数算出手段と、前記基礎有効クリック数算出手段により算出された基礎有効クリック数を、該基礎有効クリック数に対応する画像と類似する画像についての基礎有効クリック数を用いて補正する有効クリック数補正手段と、を含んで構成することができる。このように、画像の類似性に基づいて基礎有効クリック数を補正することで、画像自体の情報も考慮した有効クリック数を算出することができる。
また、本発明の有効クリック数算出方法は、有用クリック抽出手段と、有効クリック数算出手段とを含む有効クリック数算出装置における有効クリック数算出方法であって、前記有用クリック抽出手段が、画像検索サーバへのアクセスログから取得及び整形され、かつ検索行動に応じたエントリが時系列に記録されたログ系列に含まれ、検索に用いられたクエリ語及び検索結果に対してクリックされた画像の情報を含む画像クリックエントリについて、該画像クリックエントリの近傍のエントリから抽出された動的特徴に基づいて有用であると判定された画像クリックエントリを抽出し、前記有効クリック数算出手段が、前記有用クリック抽出手段により抽出された画像クリックエントリについて、該画像クリックエントリに含まれる画像とクエリ語との対の静的特徴に基づいて、該画像の有効クリック数を算出する方法である。
また、本発明の有効クリック数算出方法において、前記有用クリック抽出手段が、画像クリック動的特徴抽出手段と、クリック有用性判定手段とを含むことができ、前記画像クリック動的特徴抽出手段が、前記ログ系列において、画像クリックエントリ毎に、該画像クリックエントリの前後所定数のエントリの各々が示す素性を時系列に羅列して、前記動的特徴として抽出し、前記クリック有用性判定手段が、複数の画像クリックエントリの各々から抽出された動的特徴の各々と、該動的特徴に対応する画像クリックエントリの有用性を示す識別用ラベルの各々との対応付けを学習した識別器に、前記画像クリック動的特徴抽出手段により抽出された動的特徴を入力して、入力した動的特徴に対応する画像クリックエントリの有用性を判定することができる。
また、本発明の有効クリック数算出方法において、前記有効クリック数算出手段が、基礎有効クリック数算出手段と、有効クリック数補正手段とを含むことができ、前記基礎有効クリック数算出手段が、前記有用クリック抽出手段により抽出された画像クリックエントリについて、該画像クリックエントリに含まれる画像とクエリ語との対について、該画像のクリック数を該クエリ語の総投入回数で重み付けした基礎有効クリック数を算出し、前記有効クリック数補正手段が、前記基礎有効クリック数算出手段により算出された基礎有効クリック数を、該基礎有効クリック数に対応する画像と類似する画像についての基礎有効クリック数を用いて補正することができる。
また、本発明の有効クリック数算出プログラムは、コンピュータを、上記の有効クリック数算出装置を構成する各手段として機能させるためのプログラムである。
以上説明したように、本発明の有効クリック数算出装置、方法、及びプログラムによれば、画像検索サーバへのアクセスログを利用した動的特徴により有用な画像クリックエントリを抽出し、画像クリックエントリに含まれる画像とクエリ語との対の静的特徴に基づいて有効クリック数を算出するため、画像が表現する多様な意味や内容を考慮して、ウェブ上の画像に対する有効なクリック数を算出することができる、という効果が得られる。
本実施の形態に係る有効クリック数算出装置の一構成例を示すブロック図である。 有効クリック数補正部の一構成例を示すブロック図である。 画像クリックエントリの動的特徴の抽出を説明するための図である。 本実施の形態における学習処理ルーチンの内容を示すフローチャートである。 本実施の形態における算出処理ルーチンの内容を示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。本実施の形態では、画像アノテーションに有用と考えられる画像に対するクリック数を算出する有効クリック数算出装置に本発明を適用した例について説明する。
<本実施の形態の概要>
まず、本実施の形態の概要について説明する。
本実施の形態では、画像検索サーバへのアクセスログを利用して、画像アノテーションに有用と考えられるクリックされた画像(被クリック画像)とそのクエリ語との対を抽出することを前提とし、被クリック画像の有効クリック数を算出することが主要課題となる。この問題は、アクセスログを入力として、画像iとクエリ語wとの対(i,w)がどの程度関連しているかを示す関連性指標値f(i,w)=mi,wを出力する問題として定式化できる。各画像iについて、この関連性指標値が大きいクエリ語wをテキストタグとして画像iに対応付けることにより、画像に対するアノテーションを行うことができる。この関連性指標値は、画像iを行、クエリ語wを列に持つ行列M={mi,w(i,w)として表現することができる。以降、この関連性指標値を要素に持つ行列を有効クリック数行列、その要素を有効クリック数と呼ぶ。
本実施の形態では、以下の手順で有効クリック数を算出する。この有効クリック数を、被クリック画像に対するテキストラベルの尤度として採用することで、画像アノテーションを実現することができる。
1.画像に対するクリック(画像クリック)の前後で行われた検索行動から動的特徴を抽出し、その動的特徴に基づいて、非有用クリックを除去して有用なクリックのみを取り出す。
2.有用と判定された画像クリックに対応する画像とクエリ語との対から静的特徴を抽出し、その静的特徴に基づいて有効クリック数を算出する。
<ログ系列について>
次に、本実施の形態に係る有効クリック数算出装置へ入力されるログ系列について説明する。
以下に、画像検索サーバのアクセスログから取得可能な情報、及びそれらの情報を整形して本装置への入力となるログ系列とする過程について述べる。以下に、アクセスログから取得可能で、有効クリック数を算出する上で有用な情報を示す。
ユーザ行動:クエリ/クリック/ページ遷移/検索方法/滞留時間
ユーザ情報:ハッシュ化されたIPアドレス
クエリ情報:クエリ語句、言語
画像系情報:クリック画像のURL、検索ランキング
これらの情報が、ある時刻に行われた検索行動イベント1つに対して、その時刻と共に記録される。この1イベントに対して記録された情報の集合を、以下では検索ログエントリ、もしくは単にエントリと呼ぶ。このエントリは、元々はサーバへのアクセスがあった時刻の順に並べられた時系列の様をなしているが、サーバ監視や検索エンジンの改良・新規開発などの目的に合わせて、必要な情報のみを抽出して、不要かつ個人が特定可能な情報を除去するように、整形されることが一般的である。本実施の形態では、以下の手順で必要な情報の抽出及び整形を行う。
1.画像クリック、クエリ投入、ページ遷移に関わるエントリのみを抽出する。
2.ハッシュ化されたIPアドレスを共有するエントリを同一ユーザからのアクセスであると仮定して個別にとりまとめ、改めて時系列順にソートする。このエントリの時系列を「ログ系列」とする。
3.ログ系列内の連続するエントリの時間間隔が一定以上開いた場合には、そこで同一意図に基づく検索行動が一旦終了していると見なして、その箇所でログ系列を2つに分割する。
4.ログ系列に含まれる画像クリックに対応する各エントリ(画像クリックエントリ)に含まれる被クリック画像をウェブからクロールし、実際に画像を取得できなかった場合には、その画像クリックエントリを廃棄する。
5.ログ系列の中に画像クリックエントリが含まれない場合には、そのログ系列全体を廃棄する。
6.エントリに対応するイベントの直前に閲覧していたページのURL(通常、リファラーと呼ばれる)を参照して、ログ系列内のエントリに欠損がないかどうかを確認し、連結していない箇所でログ系列を2つに分割する。
本実施の形態では、上記の手順によって得られたログ系列を用いて、有効クリック数の算出処理が行われる。なお、ログ系列に含まれる各画像クリックエントリに後述する有用性を示す識別ラベルが付与されたものを学習用ログ系列とし、識別ラベルが付与されていないものと対象ログ系列とする。
<有効クリック数算出装置の構成>
本実施の形態に係る有効クリック数算出装置10は、CPUと、RAMと、後述する学習処理及び算出処理を含む有効クリック数算出処理ルーチンを実行するためのプログラム及び各種データを記憶したROMとを備えたコンピュータで構成されている。また、記憶手段としてHDDを設けてもよい。
このコンピュータは、機能的には、図1に示すように、学習部11と、有用クリック抽出部21と、有効クリック数算出部31とを含んだ構成で表すことができる。
学習部11は、画像クリックの前後で行われた検索行動を、当該画像クリックの動的特徴として表現し、この動的特徴に基づいて、有用なクリックを判定するための識別器を学習する。学習部11は、さらに、画像クリック動的特徴抽出部12と、クリック有用性識別学習部13とを含んだ構成で表すことができる。
画像クリック動的特徴抽出部12は、入力された複数の学習用ログ系列から、各ログ系列に含まれる画像クリックエントリの前後に含まれるいくつかのエントリを、当該画像クリックエントリの動的特徴として抽出する。
具体的には、図3に示すように、各画像クリックエントリについて、その前後のTエントリ(例えば、T=3)を対象エントリとし、対象エントリの素性を抽出して時刻順に並べて連結したものを、当該画像クリックエントリの動的特徴とする。各対象エントリから抽出する素性は特に限定されるものではないが、例えば、検索行動の種類、クリック後の滞留時間、クエリ語句の変化、検索ランキング、時刻・曜日、ログ系列内でのクリック数等を素性として用いることができる。
検索行動の種類は、例えば、クエリ投入、画像クリック、ページ遷移、戻る、「似た画像」検索等であり、これらの行動の遷移状態から大まかなユーザ行動を把握することができる。
クリック後の滞留時間は、画像クリックの後に移動した画像閲覧用ページでの滞留時間であり、滞留時間が極端に短いときには、被クリック画像の有用性が低い可能性が高く、滞留時間が極端に長いときは、検索行動そのものが変化している(検索行動が切れている)可能性が高く、その被クリック画像の有用性は低いと考えられる。
クエリ語句の変化は、投入されたクエリの変化を表すもので、クリック直後にクエリを変えたときには、クリックした画像から何らかの新しい概念が想起された可能性がある。また、「似た画像」検索の後でクエリを変えたときには、「似た画像」検索の元画像とは別の概念が想起された可能性がある。また、それ以外の状況でクエリを変えたときには、それまでのクエリで所望の画像を見つけられなかった可能性が高い。
検索ランキングは、投入されたクエリに対する検索結果のうち、どの順位の検索結果がクリックされたかを表す情報である。下位ランクの画像がクリックされるほど、クエリ以外の語句をユーザが想定している可能性が高い。また、下位ランクまで見た上でクエリを変えたときには、それまで所望の画像を見つけられなかったことを表しており、それまでのクリックが無駄になっている可能性が高い。
時刻・曜日は、各イベントが行われた時刻や曜日を表す素性である。検索行動には1日や1週間を単位とした周期がある可能性がある。
ログ系列内でのクリック数は、着目している画像クリックがログ系列内の何番目の画像クリックかを表す素性である。様々な画像を続けてクリックしている場合には、所望の画像が見つかっていない可能性が高い。
各対象エントリからF種類の素性を抽出する場合には、動的特徴はF×T次元のベクトルとして表現される。ただし、ログ系列の先頭もしくは終端付近に画像クリックエントリがある場合には、動的特徴の一部の次元を未定義とする。
上記においては、動的特徴を抽出するエントリを画像クリックに限定しているが、これに限定せず、検索クエリ投入やページ遷移など、ログ系列に残るあらゆる検索エントリについて動的特徴を抽出してもよい。
クリック有用性識別学習部13は、画像クリック動的特徴抽出部12により、学習用ログ系列に含まれる画像クリックエントリ毎に抽出された動的特徴、及び各動的特徴に対応する画像クリックの有用性を示す識別用ラベルを用いて、クリックの有用性に関する識別器を構成する。
画像クリックの有用性を示す識別用ラベルは、例えば、下記のような方法で、事前に各画像クリックエントリに付与することができる。
1.クリックされた画像とその画像を検索した際に用いられたクエリ語との適合性に基づいて判断した画像クリックの有用性を示す識別用ラベルを付与する。このとき、画像とクエリ語との対が同一であれば、同じ識別用ラベルが付与される。
2.クリックされた画像の内容で判断した画像クリックの有用性を示す識別用ラベルを付与する。このとき、クリックされた画像が同一であれば、同じ識別用ラベルが付与される。
3.画像クリックが有用であるかどうかを、画像クリックエントリ毎に判断して識別用ラベルを付与する。このとき、クリックされた画像やそれを検索した際に用いられたクエリ語に依らず、画像クリックエントリ毎に独立に識別用ラベルが付与される。
識別用ラベルは、上記の方法のいずれを用いるかに依存して、有用・非有用の2値、有用性の高い順に量子化された整数値、有用性の強さを表現した実数値、クエリ語の数だけの次元数を持つ多次元ベクトルなど、様々な表現方式で与えられる。いずれを採用するかについて特に限定するものではないが、以降の説明では、簡単のため、識別用ラベルとして、有用・非有用の2値ラベルを用いる場合について説明する。
上記のように与えられた識別用ラベルは、対応する動的特徴と対をなし、その対の集合を学習データとして、クリックの有用性に関する識別器14を学習する。学習の手法は従来既知の手法を用いることができる。例えば、一般的に広く知られた2値識別器であるサポートベクトルマシン(SVM)を用いる方法がある。SVMでは、識別用ラベルが有用である動的特徴を正例、非有用である動的特徴を負例として、有用・非有用を識別する境界をSVM学習の方法を用いて決定する。他にも、有用・非有用の2つの隠れ状態を持ち、それらの隠れ状態から動的特徴が出力される統計モデルである隠れマルコフモデル(HMM)を識別器として採用し、この2状態HMMのモデルパラメータ各種を、Viterbiアルゴリズムやforward-backwardアルゴリズムなど、HMMモデル学習法として広く知られた各種のアルゴリズムを用いて学習する方法を用いてもよい。
有用クリック抽出部21は、入力された対象ログ系列に含まれる画像クリックエントリ毎に、クリックの有用性を判定する。有用クリック抽出部21は、さらに、画像クリック動的特徴抽出部12と、クリック有用性判定部22とを含んだ構成で表すことができる。
画像クリック動的特徴抽出部12は、学習部11と有用クリック抽出部21とで共通する機能部であり、処理対象が学習用ログ系列ではなく対象ログ系列である点を除いて、学習部11における画像クリック動的特徴抽出部12と同様であるため、ここでは説明を省略する。
クリック有用性判定部22は、画像クリック動的特徴抽出部12により対象ログ系列に含まれる画像クリックエントリ毎に抽出された動的特徴を、クリック有用性識別学習部13で学習されたクリック有用性に関する識別器14に与え、与えた動的特徴に対応する画像クリックエントリの有用性を判定する。
画像クリックの有用性を判定する方法は、クリック有用性識別学習部13で得られた識別器14に依存する。すなわち、識別器14としてSVMを採用した際には、各動的特徴を個別に入力し、対応する画像クリックエントリが有用であるかどうかを直接判定する。また、識別器14としてHMMを採用した際には、与えられたログ系列の各エントリから抽出した動的特徴の時系列を識別器14に入力し、各エントリが有用であるかどうかを、Viterbiアルゴリズムなど、HMM推論で広く用いられるアルゴリズムを用いて判定する。この場合、最終的に必要となるのは、各エントリについての判定結果のうち、画像クリックエントリについての有用性に関する判定結果のみである。
有効クリック数算出部31は、有用と判定された画像クリックエントリに含まれる画像とクエリ語との対から静的特徴を抽出し、その静的特徴に基づいて有効クリック数を算出する。有効クリック数算出部31は、さらに、基礎有効クリック数算出部32と、有効クリック数補正部33とを含んだ構成で表すことができる。
基礎有効クリック数算出部32は、クリック有用性判定部22で有用と判定された画像クリックエントリに含まれる画像とクエリ語との対の静的特徴を抽出し、その静的特徴にクリック数を重み付けして有効クリック数を算出する。静的特徴とは、クエリ語の総投入回数であり、静的特徴による重み付けとは、当該画像がクリックされた回数をクエリ語の総投入回数で正規化することである。以降、この重み付けされた画像クリック数を、基礎有効クリック数と呼び、画像iを行、クエリ語wを列として、基礎有効クリック数を要素に持つ行列を基礎有効クリック数行列と呼ぶ。
基礎有効クリック数を算出するに当たり、下記に示す条件を満たしていることが望ましい。
1.クエリ語wを固定したとき、画像クリック数c(i,w)が大きい画像iほど有用である。
2.画像iを固定したとき、クエリ投入数q(w)が大きいクエリ語wほど、その画像クリック数c(i,w)の重要性を割り引く必要がある。
3.様々な画像クリックエントリに登場するクエリ語wは有用ではない。
これらの条件から、例えば下記(1)〜(5)式に示すような、いくつかの有効クリック数mi,wの算出方法が導かれる。なお、(1)式は単純クリック数である。
ただし、ベクトルc(数式内では太字で表記)はクエリ語wを固定した際の各画像のクリック数を並べた列ベクトル、||・||はlノルム(ベクトルの非零成分の数)である。
上記に示したいずれかの算出方法を用いて、有用と判定された画像クリックエントリに含まれる画像とクエリ語との対の全てについて、基礎有効クリック数を算出する。
有効クリック数補正部33は、画像の類似性に基づいて、類似画像の間で基礎有効クリック数を補正・補間する。有効クリック数補正部33は、図2に示すように、さらに、擬同一画像対抽出部34と、基礎有効クリック数ベクトル変換部35とを含んだ構成で表すこともできる。
擬同一画像対抽出部34は、例えば、非特許文献2(Zhu, Hoi, Lyu and Yan "Near-duplicate keyframe retrieval by nonrigid image matching," Proceedings of ACM International Conference on Multimedia (ACMMM), pp.41-50, 2008.)、非特許文献3(Kim, Chang, Lee and Lee "BASIL: Effective near-duplicate image detection using gene sequence alignment," Proceeding of European Conference on Advances in Information Retrieval (ECIR), pp.229-240, 2010.)、非特許文献4(Wang, Zhang, Liu, Li and Ma "ARISTA − Image search to annotation on billions of web photos," Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2010.)などに示される方法を用いて、基礎有効クリック数行列の各行に対応する画像間の類似性を算出し、その類似性に基づいて擬同一画像の対を抽出する。
基礎有効クリック数ベクトル変換部35は、例えば、非特許文献5(Wang, Hua, Mei, Hong, Qi, Song and Dai "Semi-supervised kernel density estimation for video annotation," Computer Vision and Image Understanding, Volume 113, Issue 3, pp.384-396, 2009.)、非特許文献6(木村、中野、亀岡、杉山、前田、坂野、“SSCDE:画像認識検索のための半教師正準密度推定法”、画像の認識・理解シンポジウム予稿集、2010年7月)、及び非特許文献7(Lu, Zhang, Tian and Ma "What are the high-level concepts with small semantic gaps?," Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2008.)に代表される、半教師付き学習の技術としてしばしば用いられるラベル伝搬法を用いて、対をなす擬同一画像の類似性に応じて、それぞれの画像の基礎有効クリック数を並べたベクトル(基礎有効クリック数ベクトル)が互いに類似するように変換する。
また、その他の方法として、擬同一画像対抽出部34にて擬同一画像対を抽出する際に用いた類似性尺度の値が予め定められた閾値よりも大きい(もしくは、距離尺度の値が予め定められた閾値よりも小さい)擬同一画像の対のみを対象とし、その擬同一画像対を構成する2つの擬同一画像の基礎有効クリック数ベクトルそれぞれを変換してもよい。変換の方法は特に限定されるものではないが、例えば、以下のような方法が考えられる。
1.2つの基礎有効クリック数ベクトルの各要素を比較し、より大きな値を取る要素で双方の要素を置換する。
2.2つの基礎有効クリック数ベクトルの平均ベクトルを算出し、この平均ベクトルに基礎有効クリック数ベクトルを置換する。
ここで、類似値に対する閾値を無限に小さく設定する(もしくは、距離値に対する閾値を無限に大きく設定する)特殊例を考えると、擬同一画像対抽出部34にて抽出された全ての擬同一画像対が対象となることに注意する。
<有効クリック数算出装置の作用>
次に、本実施の形態に係る有効クリック数算出装置10の作用について説明する。
学習段階において、複数の学習用ログ系列が有効クリック数算出装置10に入力されると、学習部11において、図4に示す学習処理ルーチンが実行される。また、算出段階において、対象ログ系列が有効クリック数算出装置10に入力されると、有用クリック抽出部21及び有効クリック数算出部31において、図5に示す算出処理ルーチンが実行される。以下、各処理について詳述する。
まず、学習処理ルーチンでは、ステップ100で、画像クリック動的特徴抽出部12が、入力された複数の学習用ログ系列を取得し、次に、ステップ102で、各学習用ログ系列に含まれる画像クリックエントリ毎に、着目した画像クリックエントリの前後Tエントリから抽出される素性を時刻順に並べて連結した動的特徴を抽出する。
次に、ステップ104で、クリック有用性識別学習部13が、上記ステップ102で抽出された動的特徴、及び各動的特徴に対応する画像クリックの有用性を示す識別用ラベルを用いて、クリックの有用性に関する識別器14を学習する。学習により構成された識別器14を所定の記憶領域に保存して、学習処理ルーチンを終了する。
次に、算出処理ルーチンでは、ステップ110で、画像クリック動的特徴抽出部12が、入力された対象ログ系列を取得し、次に、ステップ112で、上記ステップ102と同様に、対象ログ系列に含まれる画像クリックエントリ毎に動的特徴を抽出する。
次に、ステップ114で、クリック有用性判定部22が、上記ステップ112で、対象ログ系列に含まれる画像クリックエントリ毎に抽出された動的特徴を、学習処理で構成されたクリック有用性に関する識別器14に与え、与えた動的特徴に対応する画像クリックエントリの有用性を判定する。
次に、ステップ116で、基礎有効クリック数算出部32が、上記ステップ114で有用と判定された画像クリックエントリに含まれる画像とクエリ語との対を入力し、当該画像がクリックされた回数をクエリ語の投入回数に応じて重み付けした基礎有効クリック数を算出し、画像iを行、クエリ語wを列として、基礎有効クリック数を要素に持つ基礎有効クリック数行列を算出する。
次に、ステップ118で、擬同一画像対抽出部34が、上記ステップ116で算出された基礎有効クリック数行列の各行に対応する画像間の類似性を算出し、算出した類似性に基づいて擬同一画像の対を抽出する。
次に、ステップ120で、基礎有効クリック数ベクトル変換部35が、上記ステップ118で抽出された対をなす擬同一画像の類似性に応じて、それぞれの画像の基礎有効クリック数ベクトルが互いに類似するように変換する。変換した基礎有効クリック数ベクトルを、各画像クリックエントリに含まれる画像毎の有効クリック数の算出結果として出力し、算出処理ルーチンを終了する。
以上説明したように、本実施の形態に係る有効クリック数算出装置によれば、画像検索サーバへのアクセスログを利用して、画像クリックエントリを中心とした動的特徴を用いて、画像クリックエントリの有用性を判定し、有用と判定された画像クリックエントリに含まれる画像とクエリ語との対について、画像クリック数をクエリ語の総投入数で正規化することで、画像が表現する多様な意味や内容を考慮した有効なクリック数を算出することができる。
また、上記のように、画像検索におけるユーザの行動を読み解き、その行動モデルに基づいて算出された有効クリック数を用いることにより、画像が表現する多様な意味や内容を考慮して、画像及びそれに関連するテキストラベルを大量に回収することができる。
<本実施の形態の有効性の検証>
上記実施の形態の有効性を検証するために、上述の整形処理を施したログ系列、及びそこから収集できる画像を準備し、これを検証用のデータセットとした。ログ系列の総数は44,000あまり、ログ系列の最大長は約446,000、ログ系列長の平均は63.5、標準偏差は2413.9、画像クリックエントリの総数は約528,000、画像クリックエントリに含まれる画像の総数は約490,000、そのうち実際にウェブから取得できた画像の総数は380,000、1画像当たりの最大クリック数は1,000回超、2回以上クリックされた画像の数は約140,000、非重複クエリ語の総数は467,000、1クエリ語当たりの最大クエリ投入回数は215,000、2回以上クエリとして投入されたクエリ語は167,000であった。
本検証では、基礎有効クリック数算出部32に焦点を絞った。すなわち、上記に示したデータセットから一部の画像とそれを検索した際のクエリ語との対を取り出して、これらの対について算出した基礎有効クリック数と手動評価とがどの程度適合するかについて、定量評価を行った。画像の選択は、クリック数c(i)=Σc(i,w) の降順に画像を並べ、上位から100位毎に1枚の画像をサンプリングすることによって行い、総計300枚を取り出した。これらの各画像について、クリック数c(i,w)が0でないクエリ語wを降順で提示し、そのクエリ語の適合性を手動で3段階(1点、0.5点、0点。大きいほど適合することを示す。)で評価して、これを手動評価として採用した。
評価尺度として、情報検索分野で標準的に用いられるP@kを用いた。すなわち、画像 を固定した際の基礎有効クリック数mi,w (j)(j=0,1,2,3,4)の降順にクエリ語を並べ、上位kまでの適合率を、手動評価に基づいて計算する。
下記表1に評価結果を示す。非常に多様な画像及びクエリがある中で、いずれも70%を越える非常に高い適合率を示している。これだけの高い適合率を画像特徴量のみで達成することは極めて困難であり、この結果を以て、本実施の形態の大きな枠組として非常に有用であることが示された。また、各評価結果をより詳細に確認すると、特にp@1において、いくつかの基礎有効クリック数の算出方法が単純クリック数mi,w (0)よりも有意に良い結果を示した。
なお、上記実施の形態では、画像アノテーションを前提として、画像の有効クリック数を算出する場合を例に説明したが、画像検索結果の表示等に利用するための有効クリック数の算出に、本発明を適用してもよい。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上記実施の形態では、学習部と有用クリック抽出部と有効クリック数算出部とを1つのコンピュータで構成する場合について説明したが、学習部と、有用クリック抽出部及び有効クリック数算出部とを別々のコンピュータで構成するようにしてもよい。
また、上述の有効クリック数算出装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。また、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、プログラムをインストールすることによっても実現可能である。
10 有効クリック数算出装置
11 学習部
12 画像クリック動的特徴抽出部
13 クリック有用性識別学習部
14 識別器
21 有用クリック抽出部
22 クリック有用性判定部
31 有効クリック数算出部
32 基礎有効クリック数算出部
33 有効クリック数補正部
34 擬同一画像対抽出部
35 基礎有効クリック数ベクトル変換部

Claims (7)

  1. 画像検索サーバへのアクセスログから取得及び整形され、かつ検索行動に応じたエントリが時系列に記録されたログ系列に含まれ、検索に用いられたクエリ語及び検索結果に対してクリックされた画像の情報を含む画像クリックエントリについて、該画像クリックエントリの近傍のエントリから抽出された動的特徴に基づいて有用であると判定された画像クリックエントリを抽出する有用クリック抽出手段と、
    前記有用クリック抽出手段により抽出された画像クリックエントリについて、該画像クリックエントリに含まれる画像とクエリ語との対の静的特徴に基づいて、該画像の有効クリック数を算出する有効クリック数算出手段と、
    を含む有効クリック数算出装置。
  2. 前記有用クリック抽出手段は、
    前記ログ系列において、画像クリックエントリ毎に、該画像クリックエントリの前後所定数のエントリの各々が示す素性を時系列に羅列して、前記動的特徴として抽出する画像クリック動的特徴抽出手段と、
    複数の画像クリックエントリの各々から抽出された動的特徴の各々と、該動的特徴に対応する画像クリックエントリの有用性を示す識別用ラベルの各々との対応付けを学習した識別器に、前記画像クリック動的特徴抽出手段により抽出された動的特徴を入力して、入力した動的特徴に対応する画像クリックエントリの有用性を判定するクリック有用性判定手段と、
    を含む請求項1記載の有効クリック数算出装置。
  3. 前記有効クリック数算出手段は、
    前記有用クリック抽出手段により抽出された画像クリックエントリについて、該画像クリックエントリに含まれる画像とクエリ語との対について、該画像のクリック数を該クエリ語の総投入回数で重み付けした基礎有効クリック数を算出する基礎有効クリック数算出手段と、
    前記基礎有効クリック数算出手段により算出された基礎有効クリック数を、該基礎有効クリック数に対応する画像と類似する画像についての基礎有効クリック数を用いて補正する有効クリック数補正手段と、
    を含む請求項1または請求項2記載の有効クリック数算出装置。
  4. 有用クリック抽出手段と、有効クリック数算出手段とを含む有効クリック数算出装置における有効クリック数算出方法であって、
    前記有用クリック抽出手段が、画像検索サーバへのアクセスログから取得及び整形され、かつ検索行動に応じたエントリが時系列に記録されたログ系列に含まれ、検索に用いられたクエリ語及び検索結果に対してクリックされた画像の情報を含む画像クリックエントリについて、該画像クリックエントリの近傍のエントリから抽出された動的特徴に基づいて有用であると判定された画像クリックエントリを抽出し、
    前記有効クリック数算出手段が、前記有用クリック抽出手段により抽出された画像クリックエントリについて、該画像クリックエントリに含まれる画像とクエリ語との対の静的特徴に基づいて、該画像の有効クリック数を算出する
    有効クリック数算出方法。
  5. 前記有用クリック抽出手段が、画像クリック動的特徴抽出手段と、クリック有用性判定手段とを含む有効クリック数算出装置における有効クリック数算出方法であって、
    前記画像クリック動的特徴抽出手段が、前記ログ系列において、画像クリックエントリ毎に、該画像クリックエントリの前後所定数のエントリの各々が示す素性を時系列に羅列して、前記動的特徴として抽出し、
    前記クリック有用性判定手段が、複数の画像クリックエントリの各々から抽出された動的特徴の各々と、該動的特徴に対応する画像クリックエントリの有用性を示す識別用ラベルの各々との対応付けを学習した識別器に、前記画像クリック動的特徴抽出手段により抽出された動的特徴を入力して、入力した動的特徴に対応する画像クリックエントリの有用性を判定する
    請求項4記載の有効クリック数算出方法。
  6. 前記有効クリック数算出手段が、基礎有効クリック数算出手段と、有効クリック数補正手段とを含む有効クリック数算出装置における有効クリック数算出方法であって、
    前記基礎有効クリック数算出手段が、前記有用クリック抽出手段により抽出された画像クリックエントリについて、該画像クリックエントリに含まれる画像とクエリ語との対について、該画像のクリック数を該クエリ語の総投入回数で重み付けした基礎有効クリック数を算出し、
    前記有効クリック数補正手段が、前記基礎有効クリック数算出手段により算出された基礎有効クリック数を、該基礎有効クリック数に対応する画像と類似する画像についての基礎有効クリック数を用いて補正する
    請求項4または請求項5記載の有効クリック数算出方法。
  7. コンピュータを、請求項1〜請求項3のいずれか1項記載の有効クリック数算出装置を構成する各手段として機能させるための有効クリック数算出プログラム。
JP2012167453A 2012-07-27 2012-07-27 有効クリック数算出装置、方法、及びプログラム Pending JP2014026528A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012167453A JP2014026528A (ja) 2012-07-27 2012-07-27 有効クリック数算出装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012167453A JP2014026528A (ja) 2012-07-27 2012-07-27 有効クリック数算出装置、方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2014026528A true JP2014026528A (ja) 2014-02-06

Family

ID=50200102

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012167453A Pending JP2014026528A (ja) 2012-07-27 2012-07-27 有効クリック数算出装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2014026528A (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006520940A (ja) * 2003-03-19 2006-09-14 エヌエイチエヌ コーポレーション インターネット検索エンジンにおける無効クリック検出方法および装置
JP2010218181A (ja) * 2009-03-17 2010-09-30 Yahoo Japan Corp 画像検索装置
JP2011085992A (ja) * 2009-10-13 2011-04-28 Nippon Telegr & Teleph Corp <Ntt> 文書検索装置、文書検索方法、文書検索プログラム
JP2011154466A (ja) * 2010-01-26 2011-08-11 Ntt Docomo Inc 検索結果順位付け方法および検索結果順位付けシステム
JP2011154467A (ja) * 2010-01-26 2011-08-11 Ntt Docomo Inc 検索結果順位付け方法および検索結果順位付けシステム
JP2012043233A (ja) * 2010-08-20 2012-03-01 Yahoo Japan Corp 対訳辞書生成装置、方法及びプログラム
US20120143789A1 (en) * 2010-12-01 2012-06-07 Microsoft Corporation Click model that accounts for a user's intent when placing a quiery in a search engine

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006520940A (ja) * 2003-03-19 2006-09-14 エヌエイチエヌ コーポレーション インターネット検索エンジンにおける無効クリック検出方法および装置
JP2010218181A (ja) * 2009-03-17 2010-09-30 Yahoo Japan Corp 画像検索装置
JP2011085992A (ja) * 2009-10-13 2011-04-28 Nippon Telegr & Teleph Corp <Ntt> 文書検索装置、文書検索方法、文書検索プログラム
JP2011154466A (ja) * 2010-01-26 2011-08-11 Ntt Docomo Inc 検索結果順位付け方法および検索結果順位付けシステム
JP2011154467A (ja) * 2010-01-26 2011-08-11 Ntt Docomo Inc 検索結果順位付け方法および検索結果順位付けシステム
JP2012043233A (ja) * 2010-08-20 2012-03-01 Yahoo Japan Corp 対訳辞書生成装置、方法及びプログラム
US20120143789A1 (en) * 2010-12-01 2012-06-07 Microsoft Corporation Click model that accounts for a user's intent when placing a quiery in a search engine

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
南 翔太郎 外1名: ""閲覧行動モニタリングに基づく検索意図の抽出と検索結果の分類"", 情報処理学会研究報告 平成22年度▲6▼ [DVD−ROM], vol. p.1〜6, JPN6015012309, 15 April 2011 (2011-04-15), JP, ISSN: 0003039267 *

Similar Documents

Publication Publication Date Title
CN108959431B (zh) 标签自动生成方法、系统、计算机可读存储介质及设备
CN106874292B (zh) 话题处理方法及装置
WO2019214245A1 (zh) 一种信息推送方法、装置、终端设备及存储介质
US10423648B2 (en) Method, system, and computer readable medium for interest tag recommendation
Qian et al. Social event classification via boosted multimodal supervised latent dirichlet allocation
US20150074112A1 (en) Multimedia Question Answering System and Method
CN109885773B (zh) 一种文章个性化推荐方法、系统、介质及设备
US10482146B2 (en) Systems and methods for automatic customization of content filtering
WO2017051425A1 (en) A computer-implemented method and system for analyzing and evaluating user reviews
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
US20160188633A1 (en) A method and apparatus for tracking microblog messages for relevancy to an entity identifiable by an associated text and an image
CN111797239B (zh) 应用程序的分类方法、装置及终端设备
WO2014120835A1 (en) System and method for automatically classifying documents
CN110543595B (zh) 一种站内搜索系统及方法
CN110309251B (zh) 文本数据的处理方法、装置和计算机可读存储介质
Costa et al. Defining semantic meta-hashtags for twitter classification
Sheshasaayee et al. Comparison of classification algorithms in text mining
JP4714710B2 (ja) 自動タグ付与装置、自動タグ付与方法、自動タグ付与プログラムおよびそのプログラムを記録した記録媒体
JP6047365B2 (ja) 検索装置、検索プログラムおよび検索方法
Färber et al. Recommending datasets for scientific problem descriptions
Viet et al. Analyzing recent research trends of computer science from academic open-access digital library
Ewerth et al. Long-term incremental web-supervised learning of visual concepts via random savannas
Moumtzidou et al. Discovery of environmental nodes in the web
US20160170983A1 (en) Information management apparatus and information management method
CN115048504A (zh) 信息推送方法、装置、计算机设备及计算机可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140815

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150305

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150331

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150601

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20151215