JP2014026528A - 有効クリック数算出装置、方法、及びプログラム - Google Patents
有効クリック数算出装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2014026528A JP2014026528A JP2012167453A JP2012167453A JP2014026528A JP 2014026528 A JP2014026528 A JP 2014026528A JP 2012167453 A JP2012167453 A JP 2012167453A JP 2012167453 A JP2012167453 A JP 2012167453A JP 2014026528 A JP2014026528 A JP 2014026528A
- Authority
- JP
- Japan
- Prior art keywords
- click
- image
- effective
- entry
- useful
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
【解決手段】画像クリック動的特徴抽出部12が、対象ログ系列に含まれる画像クリックエントリの前後Tエントリの素性から画像クリックエントリの動的特徴を抽出し、クリック有用性判定部22が、学習用ログ系列を用いて学習された識別器14に抽出された動的特徴を与えて、画像クリックエントリの有用性を判定し、基礎有効クリック数算出部32が、有用な画像クリックエントリに含まれる画像とクエリ語との対を入力し、画像がクリックされた回数をクエリ語の投入回数で正規化した基礎有効クリック数を算出し、擬同一画像対抽出部が、画像間の類似性に基づいて擬同一画像の対を抽出し、基礎有効クリック数ベクトル変換部が、対をなす擬同一画像の類似性に応じて、それぞれの画像の基礎有効クリック数ベクトルを補正する。
【選択図】図1
Description
まず、本実施の形態の概要について説明する。
1.画像に対するクリック(画像クリック)の前後で行われた検索行動から動的特徴を抽出し、その動的特徴に基づいて、非有用クリックを除去して有用なクリックのみを取り出す。
2.有用と判定された画像クリックに対応する画像とクエリ語との対から静的特徴を抽出し、その静的特徴に基づいて有効クリック数を算出する。
次に、本実施の形態に係る有効クリック数算出装置へ入力されるログ系列について説明する。
ユーザ行動:クエリ/クリック/ページ遷移/検索方法/滞留時間
ユーザ情報:ハッシュ化されたIPアドレス
クエリ情報:クエリ語句、言語
画像系情報:クリック画像のURL、検索ランキング
2.ハッシュ化されたIPアドレスを共有するエントリを同一ユーザからのアクセスであると仮定して個別にとりまとめ、改めて時系列順にソートする。このエントリの時系列を「ログ系列」とする。
3.ログ系列内の連続するエントリの時間間隔が一定以上開いた場合には、そこで同一意図に基づく検索行動が一旦終了していると見なして、その箇所でログ系列を2つに分割する。
4.ログ系列に含まれる画像クリックに対応する各エントリ(画像クリックエントリ)に含まれる被クリック画像をウェブからクロールし、実際に画像を取得できなかった場合には、その画像クリックエントリを廃棄する。
5.ログ系列の中に画像クリックエントリが含まれない場合には、そのログ系列全体を廃棄する。
6.エントリに対応するイベントの直前に閲覧していたページのURL(通常、リファラーと呼ばれる)を参照して、ログ系列内のエントリに欠損がないかどうかを確認し、連結していない箇所でログ系列を2つに分割する。
本実施の形態に係る有効クリック数算出装置10は、CPUと、RAMと、後述する学習処理及び算出処理を含む有効クリック数算出処理ルーチンを実行するためのプログラム及び各種データを記憶したROMとを備えたコンピュータで構成されている。また、記憶手段としてHDDを設けてもよい。
1.クリックされた画像とその画像を検索した際に用いられたクエリ語との適合性に基づいて判断した画像クリックの有用性を示す識別用ラベルを付与する。このとき、画像とクエリ語との対が同一であれば、同じ識別用ラベルが付与される。
2.クリックされた画像の内容で判断した画像クリックの有用性を示す識別用ラベルを付与する。このとき、クリックされた画像が同一であれば、同じ識別用ラベルが付与される。
3.画像クリックが有用であるかどうかを、画像クリックエントリ毎に判断して識別用ラベルを付与する。このとき、クリックされた画像やそれを検索した際に用いられたクエリ語に依らず、画像クリックエントリ毎に独立に識別用ラベルが付与される。
1.クエリ語wを固定したとき、画像クリック数c(i,w)が大きい画像iほど有用である。
2.画像iを固定したとき、クエリ投入数q(w)が大きいクエリ語wほど、その画像クリック数c(i,w)の重要性を割り引く必要がある。
3.様々な画像クリックエントリに登場するクエリ語wは有用ではない。
2.2つの基礎有効クリック数ベクトルの平均ベクトルを算出し、この平均ベクトルに基礎有効クリック数ベクトルを置換する。
次に、本実施の形態に係る有効クリック数算出装置10の作用について説明する。
上記実施の形態の有効性を検証するために、上述の整形処理を施したログ系列、及びそこから収集できる画像を準備し、これを検証用のデータセットとした。ログ系列の総数は44,000あまり、ログ系列の最大長は約446,000、ログ系列長の平均は63.5、標準偏差は2413.9、画像クリックエントリの総数は約528,000、画像クリックエントリに含まれる画像の総数は約490,000、そのうち実際にウェブから取得できた画像の総数は380,000、1画像当たりの最大クリック数は1,000回超、2回以上クリックされた画像の数は約140,000、非重複クエリ語の総数は467,000、1クエリ語当たりの最大クエリ投入回数は215,000、2回以上クエリとして投入されたクエリ語は167,000であった。
11 学習部
12 画像クリック動的特徴抽出部
13 クリック有用性識別学習部
14 識別器
21 有用クリック抽出部
22 クリック有用性判定部
31 有効クリック数算出部
32 基礎有効クリック数算出部
33 有効クリック数補正部
34 擬同一画像対抽出部
35 基礎有効クリック数ベクトル変換部
Claims (7)
- 画像検索サーバへのアクセスログから取得及び整形され、かつ検索行動に応じたエントリが時系列に記録されたログ系列に含まれ、検索に用いられたクエリ語及び検索結果に対してクリックされた画像の情報を含む画像クリックエントリについて、該画像クリックエントリの近傍のエントリから抽出された動的特徴に基づいて有用であると判定された画像クリックエントリを抽出する有用クリック抽出手段と、
前記有用クリック抽出手段により抽出された画像クリックエントリについて、該画像クリックエントリに含まれる画像とクエリ語との対の静的特徴に基づいて、該画像の有効クリック数を算出する有効クリック数算出手段と、
を含む有効クリック数算出装置。 - 前記有用クリック抽出手段は、
前記ログ系列において、画像クリックエントリ毎に、該画像クリックエントリの前後所定数のエントリの各々が示す素性を時系列に羅列して、前記動的特徴として抽出する画像クリック動的特徴抽出手段と、
複数の画像クリックエントリの各々から抽出された動的特徴の各々と、該動的特徴に対応する画像クリックエントリの有用性を示す識別用ラベルの各々との対応付けを学習した識別器に、前記画像クリック動的特徴抽出手段により抽出された動的特徴を入力して、入力した動的特徴に対応する画像クリックエントリの有用性を判定するクリック有用性判定手段と、
を含む請求項1記載の有効クリック数算出装置。 - 前記有効クリック数算出手段は、
前記有用クリック抽出手段により抽出された画像クリックエントリについて、該画像クリックエントリに含まれる画像とクエリ語との対について、該画像のクリック数を該クエリ語の総投入回数で重み付けした基礎有効クリック数を算出する基礎有効クリック数算出手段と、
前記基礎有効クリック数算出手段により算出された基礎有効クリック数を、該基礎有効クリック数に対応する画像と類似する画像についての基礎有効クリック数を用いて補正する有効クリック数補正手段と、
を含む請求項1または請求項2記載の有効クリック数算出装置。 - 有用クリック抽出手段と、有効クリック数算出手段とを含む有効クリック数算出装置における有効クリック数算出方法であって、
前記有用クリック抽出手段が、画像検索サーバへのアクセスログから取得及び整形され、かつ検索行動に応じたエントリが時系列に記録されたログ系列に含まれ、検索に用いられたクエリ語及び検索結果に対してクリックされた画像の情報を含む画像クリックエントリについて、該画像クリックエントリの近傍のエントリから抽出された動的特徴に基づいて有用であると判定された画像クリックエントリを抽出し、
前記有効クリック数算出手段が、前記有用クリック抽出手段により抽出された画像クリックエントリについて、該画像クリックエントリに含まれる画像とクエリ語との対の静的特徴に基づいて、該画像の有効クリック数を算出する
有効クリック数算出方法。 - 前記有用クリック抽出手段が、画像クリック動的特徴抽出手段と、クリック有用性判定手段とを含む有効クリック数算出装置における有効クリック数算出方法であって、
前記画像クリック動的特徴抽出手段が、前記ログ系列において、画像クリックエントリ毎に、該画像クリックエントリの前後所定数のエントリの各々が示す素性を時系列に羅列して、前記動的特徴として抽出し、
前記クリック有用性判定手段が、複数の画像クリックエントリの各々から抽出された動的特徴の各々と、該動的特徴に対応する画像クリックエントリの有用性を示す識別用ラベルの各々との対応付けを学習した識別器に、前記画像クリック動的特徴抽出手段により抽出された動的特徴を入力して、入力した動的特徴に対応する画像クリックエントリの有用性を判定する
請求項4記載の有効クリック数算出方法。 - 前記有効クリック数算出手段が、基礎有効クリック数算出手段と、有効クリック数補正手段とを含む有効クリック数算出装置における有効クリック数算出方法であって、
前記基礎有効クリック数算出手段が、前記有用クリック抽出手段により抽出された画像クリックエントリについて、該画像クリックエントリに含まれる画像とクエリ語との対について、該画像のクリック数を該クエリ語の総投入回数で重み付けした基礎有効クリック数を算出し、
前記有効クリック数補正手段が、前記基礎有効クリック数算出手段により算出された基礎有効クリック数を、該基礎有効クリック数に対応する画像と類似する画像についての基礎有効クリック数を用いて補正する
請求項4または請求項5記載の有効クリック数算出方法。 - コンピュータを、請求項1〜請求項3のいずれか1項記載の有効クリック数算出装置を構成する各手段として機能させるための有効クリック数算出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012167453A JP2014026528A (ja) | 2012-07-27 | 2012-07-27 | 有効クリック数算出装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012167453A JP2014026528A (ja) | 2012-07-27 | 2012-07-27 | 有効クリック数算出装置、方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014026528A true JP2014026528A (ja) | 2014-02-06 |
Family
ID=50200102
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012167453A Pending JP2014026528A (ja) | 2012-07-27 | 2012-07-27 | 有効クリック数算出装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2014026528A (ja) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006520940A (ja) * | 2003-03-19 | 2006-09-14 | エヌエイチエヌ コーポレーション | インターネット検索エンジンにおける無効クリック検出方法および装置 |
JP2010218181A (ja) * | 2009-03-17 | 2010-09-30 | Yahoo Japan Corp | 画像検索装置 |
JP2011085992A (ja) * | 2009-10-13 | 2011-04-28 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索装置、文書検索方法、文書検索プログラム |
JP2011154466A (ja) * | 2010-01-26 | 2011-08-11 | Ntt Docomo Inc | 検索結果順位付け方法および検索結果順位付けシステム |
JP2011154467A (ja) * | 2010-01-26 | 2011-08-11 | Ntt Docomo Inc | 検索結果順位付け方法および検索結果順位付けシステム |
JP2012043233A (ja) * | 2010-08-20 | 2012-03-01 | Yahoo Japan Corp | 対訳辞書生成装置、方法及びプログラム |
US20120143789A1 (en) * | 2010-12-01 | 2012-06-07 | Microsoft Corporation | Click model that accounts for a user's intent when placing a quiery in a search engine |
-
2012
- 2012-07-27 JP JP2012167453A patent/JP2014026528A/ja active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006520940A (ja) * | 2003-03-19 | 2006-09-14 | エヌエイチエヌ コーポレーション | インターネット検索エンジンにおける無効クリック検出方法および装置 |
JP2010218181A (ja) * | 2009-03-17 | 2010-09-30 | Yahoo Japan Corp | 画像検索装置 |
JP2011085992A (ja) * | 2009-10-13 | 2011-04-28 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索装置、文書検索方法、文書検索プログラム |
JP2011154466A (ja) * | 2010-01-26 | 2011-08-11 | Ntt Docomo Inc | 検索結果順位付け方法および検索結果順位付けシステム |
JP2011154467A (ja) * | 2010-01-26 | 2011-08-11 | Ntt Docomo Inc | 検索結果順位付け方法および検索結果順位付けシステム |
JP2012043233A (ja) * | 2010-08-20 | 2012-03-01 | Yahoo Japan Corp | 対訳辞書生成装置、方法及びプログラム |
US20120143789A1 (en) * | 2010-12-01 | 2012-06-07 | Microsoft Corporation | Click model that accounts for a user's intent when placing a quiery in a search engine |
Non-Patent Citations (1)
Title |
---|
南 翔太郎 外1名: ""閲覧行動モニタリングに基づく検索意図の抽出と検索結果の分類"", 情報処理学会研究報告 平成22年度▲6▼ [DVD−ROM], vol. p.1〜6, JPN6015012309, 15 April 2011 (2011-04-15), JP, ISSN: 0003039267 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108959431B (zh) | 标签自动生成方法、系统、计算机可读存储介质及设备 | |
CN106874292B (zh) | 话题处理方法及装置 | |
WO2019214245A1 (zh) | 一种信息推送方法、装置、终端设备及存储介质 | |
US10423648B2 (en) | Method, system, and computer readable medium for interest tag recommendation | |
Qian et al. | Social event classification via boosted multimodal supervised latent dirichlet allocation | |
US20150074112A1 (en) | Multimedia Question Answering System and Method | |
CN109885773B (zh) | 一种文章个性化推荐方法、系统、介质及设备 | |
US10482146B2 (en) | Systems and methods for automatic customization of content filtering | |
WO2017051425A1 (en) | A computer-implemented method and system for analyzing and evaluating user reviews | |
WO2015149533A1 (zh) | 一种基于网页内容分类进行分词处理的方法和装置 | |
US20160188633A1 (en) | A method and apparatus for tracking microblog messages for relevancy to an entity identifiable by an associated text and an image | |
CN111797239B (zh) | 应用程序的分类方法、装置及终端设备 | |
WO2014120835A1 (en) | System and method for automatically classifying documents | |
CN110543595B (zh) | 一种站内搜索系统及方法 | |
CN110309251B (zh) | 文本数据的处理方法、装置和计算机可读存储介质 | |
Costa et al. | Defining semantic meta-hashtags for twitter classification | |
Sheshasaayee et al. | Comparison of classification algorithms in text mining | |
JP4714710B2 (ja) | 自動タグ付与装置、自動タグ付与方法、自動タグ付与プログラムおよびそのプログラムを記録した記録媒体 | |
JP6047365B2 (ja) | 検索装置、検索プログラムおよび検索方法 | |
Färber et al. | Recommending datasets for scientific problem descriptions | |
Viet et al. | Analyzing recent research trends of computer science from academic open-access digital library | |
Ewerth et al. | Long-term incremental web-supervised learning of visual concepts via random savannas | |
Moumtzidou et al. | Discovery of environmental nodes in the web | |
US20160170983A1 (en) | Information management apparatus and information management method | |
CN115048504A (zh) | 信息推送方法、装置、计算机设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140815 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150305 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150331 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150601 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20151215 |