JP2009302985A

JP2009302985A - 映像推薦方法、映像推薦装置、映像推薦プログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number: JP2009302985A
Application number: JP2008156152A
Authority: JP
Inventors: Hidenobu Osada; 秀信長田; Shozo Azuma; 正造東; Yukinobu Taniguchi; 行信谷口; Dan Mikami; 弾三上
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2008-06-16
Filing date: 2008-06-16
Publication date: 2009-12-24

Abstract

【課題】本発明は、時々刻々と変化するユーザの興味に適合する映像を取得してユーザに提示する新たな映像推薦技術の提供を目的とする。
【解決手段】能動的な動機による映像利用場面でない場面において、ユーザ操作をモニタリングして操作ログを収集して、それを解析することでユーザが興味を持っていると推定される映像の検索に用いられる検索パラメータを設定し、それを使って映像を検索することで、ユーザが興味を持っていると推定される複数の映像を取得する。そして、能動的な動機により映像を利用する場面ではないことを考慮して、現在表示中の処理画面上に映像推薦用の提示ウィンドウを表示して、その提示ウィンドウ上に、取得した映像を一覧表示し、この一覧表示する映像に対してのユーザの注視度を測定して、その測定結果に応じて提示ウィンドウ上に表示する映像の表示形態を変更する。
【選択図】図１

Description

本発明は、時々刻々と変化するユーザの興味に適合する映像を取得してユーザに提示することを実現する映像推薦方法およびその装置と、その映像推薦方法の実現に用いられる映像推薦プログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体とに関する。

個人が手軽に映像を扱うことのできる環境が整いつつあり、パーソナルコンピュータ（ＰＣ）のディスクドライブ（ＨＤＤ）やＷｅｂサーバ上で扱われる映像の量が日々増加している。

それと同時に、Ｗｅｂ動画検索エンジンや、デスクトップツール等の一機能としての映像検索ツールが拡充されつつある。これらのエンジンやツール類により、膨大な映像の中から所望の映像を取得するために必要なコストは、近年、相対的に低くなりつつあると言える。

しかしながら、個人が映像を利用する場面は幅広く、それらは必ずしも、「映像を取得する必要に駆られ、様々なサービスやツールを自らの意図で駆使し能動的に映像を探索する」という場面のみに限定されない。すなわち、このような、必要に駆られて映像検索を行い所望の映像を取得する場面を「能動的な動機による映像利用場面」と称するならば、その反対である「受動的な動機による映像利用場面」も数多く考えられる。以下は、その代表的な場面の例である。

（ｉ）余暇に動画共有サイトを利用しており、利用時点では明確に視聴対象となる映像は想定できていないものの、何か興味を抱く映像を取得できないか期待し、閲覧中のＷｅｂページに表示される一連の映像の中から無作為に映像を選択する場面
（ii）映像の閲覧とは無関係の何らかの作業をしていたが、作業中の気分転換に、Ｗｅｂページやデスクトップツールに動的に表示される映像を再生する場面
これらの場面は全て、必要に駆られて特定の映像を検索する場面とは異なり、予め特定の映像を取得対象としてユーザが望んでいた場面ではない。これらの場面では、興味を抱かせる映像か、あるいは取得の対象になりえる映像が、検索コストを掛けずに簡単に取得できるか、あるいは既にユーザの視認範囲内で再生されている状態であるならば、ユーザはその映像にアクセスし閲覧するであろう。

映像コンテンツの内容に端を発するユーザ間コミュニケーション活動の活性化、映像広告の閲覧率の向上、および映像閲覧ユーザの更なる増加を目指すには、所望の映像を取得する際のコストを下げるのみならず、より受動的な動機による映像利用場面における映像へのアクセス率を向上させることが重要である。

このようなことを背景にして、動的に変わりうるユーザの嗜好に合致した映像を提供できるようにする映像推薦方法が必要となってきている。

一方、そのような技術の関連技術として、個人の嗜好情報に基づいた情報推薦方法があり、下記の特許文献１，２に記載されるような技術が既に開示されている。

これらの先行技術文献に開示される技術では、過去の参照履歴の中から所望のファイルを効率的に探索することや、過去の参照履歴から嗜好を分析することができる。しかしながら、過去の参照履歴に依存しないユーザの嗜好を反映することはできない。また、情報獲得のために検索行為が必要であって、受動的なユーザの映像へのアクセスを狙った提示方法については検討していない。
特開２００７−１４８６８７号公報, 倉恒子, 森田哲之, 加藤泰久, 「閲覧履歴検索・表示方法及び装置及びコンピュータ読み取り可能な記録媒体」特開２００３−２５０１４６号公報（特許第４００９９４０号）, 土井俊介, 塩原寿子, 東野豪, 石黒正典, 「番組選択支援情報提供サービスシステムとサーバ装置および端末装置ならびに番組選択支援情報提供方法とプログラムおよび記録媒体」

従来技術では、利用履歴に基づいて嗜好情報を求める必要があった。さらに、嗜好に合致する映像を自動的に取得できても、それらをユーザのアクセスを促すような提示手法でもって提示してはいなかった。

すなわち、従来技術では、受動的な動機による映像利用場面において、動的に変わるユーザの嗜好に適合した映像を取得し、これを自動的に提供してアクセスを促すことができないという問題があった。

本発明はかかる事情に鑑みてなされたものであって、時々刻々と変化するユーザの行動をモデル化し、嗜好情報を動的に生成し、嗜好に合致する映像を自動で取得し、映像へのアクセスを促すことが可能な提示方法でもって、それらを提示することを実現する新たな映像推薦技術の提供を目的とする。

この目的を達成するために、本発明の映像推薦装置は、時々刻々と変化するユーザの興味に適合する映像を取得してユーザに提示することを実現するために、（１）ユーザ操作をモニタリングして操作ログを収集する収集手段と、（２）収集手段の収集した操作ログを解析することで、収集手段が操作ログを収集した時点にユーザが興味を持っていると推定される映像の検索に用いられる検索パラメータを設定する設定手段と、（３）設定手段の設定した検索パラメータを使って映像を検索することで、収集手段が操作ログを収集した時点にユーザが興味を持っていると推定される複数の映像を取得する取得手段と、（４）現在表示中の処理画面上に映像推薦用の提示ウィンドウを表示して、その提示ウィンドウ上に、取得手段の取得した映像を一覧表示する表示手段と、（５）表示手段が一覧表示する映像に対してのユーザの注視度を測定して、その測定結果に応じて表示手段が提示ウィンドウ上に表示する映像の表示形態を変更する変更手段とを備えるように構成する。

この構成を採るときに、取得手段の取得した映像のダイジェスト映像を生成する生成手段を備えることがあり、この生成手段を備えるときには、表示手段は、提示ウィンドウ上に、生成手段の生成したダイジェスト映像を一覧表示する。

以上の各処理手段が動作することで実現される本発明の映像推薦方法はコンピュータプログラムでも実現できるものであり、このコンピュータプログラムは、適当なコンピュータ読み取り可能な記録媒体に記録して提供されたり、ネットワークを介して提供され、本発明を実施する際にインストールされてＣＰＵなどの制御手段上で動作することにより本発明を実現することになる。

このように構成される本発明の映像推薦装置では、ユーザが映像の検索を要求しない場面（能動的な動機による映像利用場面でない場面）において、操作ログを一度クリアしてから所定時間の間のユーザ操作をモニタリングして操作ログを収集し、その操作ログを解析することで、その操作ログを収集した時点にユーザが興味を持っていると推定される映像の検索に用いられる検索パラメータを設定する。

続いて、設定した検索パラメータを使って映像を検索することで、操作ログを収集した時点にユーザが興味を持っていると推定される複数の映像を取得する。

続いて、ユーザが能動的な動機により映像を利用する場面ではないことを考慮して、現在表示中の処理画面上に映像推薦用の小さな提示ウィンドウを表示して、その小さな提示ウィンドウ上に、その取得した映像を一覧表示する。

この提示ウィンドウを使った検索映像の一覧表示に対して、ユーザはその中の映像に興味を示すことがある。そこで、提示ウィンドウ上に一覧表示する映像に対してのユーザの注視度を測定して、その測定結果に応じて提示ウィンドウ上に表示する映像の表示形態を変更することで、ユーザの興味に応えるようにする。

例えば、提示ウィンドウ上に一覧表示する映像に重畳するポインティングデバイスの滞留時間を測定することでユーザの注視度を測定して、例えば、ポインティングデバイスの指す映像については、その滞留時間に応じて、より明示的な表示形態（提示ウィンドウを大きくするようなことも含む）となるようにと表示形態を変更し、ポインティングデバイスの指さない映像については、その表示形態（例えば、初期状態として設定される目立たない表示形態）を変更しないようにする。

このとき、例えば、ポインティングデバイスの滞留時間が規定の最大値を越える場合には、ユーザが大きな興味を持っていることに応えるべく、ポインティングデバイスの指す映像を提示ウィンドウのサイズに拡大して、その拡大した映像のみを提示ウィンドウ上に表示するという表示形態に変更する。

また、ポインティングデバイスが提示ウィンドウ上に一覧表示する映像に重畳しない場合には、ユーザが処理画面上の提示ウィンドウ以外の画面領域でポインティングデバイスを操作していることで、ユーザが提示ウィンドウ上の映像に興味を示していないことを判断して、その一覧表示する映像を所定の表示形態（例えば、初期状態として設定される目立たない表示形態）で表示するようにする。

本発明によれば、時々刻々と変化するユーザの行動をモデル化し、嗜好情報を動的に生成し、嗜好に合致する映像を自動で取得し、映像へのアクセスを促すことが可能な提示方法でもって、それらを提示することができるようになる。

これにより、本発明によれば、受動的な動機による映像利用場面において、動的に変わるユーザの嗜好に適合した動画を取得し、これを自動的に提供してアクセスを促すことができるようになる。

以下、本発明を具備する映像推薦装置がＰＣ上で映像を自動再生する場合の動作を具体例にして、本発明について説明する。

図１に、本発明を具備する映像推薦装置１の装置構成の一実施形態例を図示する。

図１に示すように、本実施形態例の映像推薦装置１は、中央処理ユニット（ＣＰＵ：Central Processing Unit)１１を備え、この中央処理ユニット１１には、バス１２を介してプログラムメモリ１３、データメモリ１４、マウスを持つ表示機器１５がそれぞれ接続されている。

そして、プログラムメモリ１３には、起動プログラム監視部１３ａ、操作監視部１３ｂ、ログ分析部１３ｃ、映像検索部１３ｄ、提示方法決定部１３ｅ（映像を解析し、提示セグメントを決定する処理部）が記憶され、データメモリ１４には、ログ記憶部１４ａ、映像記憶部１４ｂが設けられている。

このように構成される本実施形態例の映像推薦装置１では、従来技術の持つ問題を解決するために、受動的な動機による映像利用場面において、ユーザの操作ログに基づいて動的に検索パラメータを設定して、それを使って映像を検索することで、ユーザの興味に適合する映像を検索するという構成を採って、それらの映像をユーザのアクセスを促すような形でユーザに提示することを実現するために、図２（ａ）に示すように、現在表示中の処理画面上に映像推薦用の小さな提示インタフェース１００を表示して、図２（ｂ）に示すように、その提示インタフェース１００に、ユーザに推薦する例えば９つの検索結果の映像の一覧を表示するように処理する。

図３に、本実施形態例の映像推薦装置１が実行する全体動作を示すフローチャートを図示し、図４に、図３のフローチャートの映像検索ステップ（ｓ１２）で実行する詳細なフローチャートを図示し、図５に、図３のフローチャートの映像提示ステップ（ｓ１３）で実行する詳細なフローチャートを図示する。

次に、これらのフローチャートに従って、本実施形態例の映像推薦装置１の実行する映像推薦処理について詳細に説明する。

本実施形態例の映像推薦装置１は、大きく分けて、図３のフローチャートに示すように、初期化ステップ（ｓ１０）と行動取得ステップ（ｓ１１）と映像検索ステップ（ｓ１２）と映像提示ステップ（ｓ１３）と更新ステップ（ｓ１４）という４つのステップを実行する。

〔Ａ〕初期化ステップ（ｓ１０）の処理
初期化ステップ（ｓ１０）では、全てのログをクリアする。このクリア処理に従って、これから説明する処理により、現時点においてユーザが興味を持っていると推定される映像を取得してユーザに提示することができるようになる。

〔Ｂ〕行動取得ステップ（ｓ１１）の処理
行動取得ステップ（ｓ１１）では、
（１）起動プログラム名と、マウス操作頻度と、キーボード入力文字列と、
（２）メモリ上のクリップボード領域のテキスト文字列と、
（３）メモリ上のクリップボード領域の静止画または映像の色特徴量および動き特徴量と、
（４）メモリ上のクリップボード領域の音声音楽特徴量と、
（５）ローカルのファイルへのアクセス履歴と、Ｗｅｂページへのアクセス履歴と、
（６）ローカルのファイルまたはＷｅｂページのキャッシュデータに含まれるテキストファイルの文字列と、
（７）ローカルのファイルまたはＷｅｂページのキャッシュデータに含まれる静止画または映像の色特徴量および動き特徴量と、
（８）ローカルのファイルまたはＷｅｂページのキャッシュデータに含まれる音声音楽特徴量と、
を取得し、これらの情報を時刻と関連付けたログデータとして、ログ記憶部１４ａに記憶する。

〔Ｃ〕映像検索ステップ（ｓ１２）の処理
映像検索ステップ（ｓ１２）では、図４のフローチャートに示すように、検索パラメータ設定ステップ（ｓ１２１）と検索ステップ（ｓ１２２）とダイジェスト生成ステップ（ｓ１２３）とを実行する。

〔Ｃ−１〕検索パラメータ設定ステップ（ｓ１２１）の処理
映像検索ステップ（ｓ１２）を構成する検索パラメータ設定ステップ（ｓ１２１）では、図４のフローチャートに示すように、検索キーワード生成ステップ（ｓ１２１１）と特徴ベクトル生成ステップ（ｓ１２１２）とを実行することで、検索パラメータを設定する。

ここで、検索キーワード生成ステップ（ｓ１２１１）と特徴ベクトル生成ステップ（ｓ１２１２）については、いずれのステップを先に実行してもよいし、２つのステップを並列で実行してもよい。

〔Ｃ−１−１〕検索キーワード生成ステップ（ｓ１２１１）の処理
検索パラメータ設定ステップ（ｓ１２１）を構成する検索キーワード生成ステップ（ｓ１２１１）では、ログ記憶部１４ａからログデータを入力し、ローカルのファイルまたはＷｅｂページのキャッシュデータに含まれるテキストファイルの文字列を解析し、単語頻度に基づくスコアを算出し、スコアに基づいて降順にソートする。

このとき、例えば、
・単語がログデータのクリップボード領域にあるテキスト文字列と一致した場合
・単語がログデータのキーボード入力文字列と一致した場合
・単語が色を表す単語であって、これを色特徴量として表した数値とクリップボード領域にある静止画の色特徴量とが類似する場合
には、当該単語へのスコアは２倍与える等してもよい。

検索キーワード生成ステップ（ｓ１２１１）では、最終的に、ソートの結果上位２件の単語をキーワードとして出力するとともに、データメモリ１４に記録する。

〔Ｃ−１−２〕特徴ベクトル生成ステップ（ｓ１２１２）の処理
検索パラメータ設定ステップ（ｓ１２１）を構成する特徴ベクトル生成ステップ（ｓ１２１２）では、ログ記憶部１４ａからログデータを入力し、ローカルのファイルまたはＷｅｂページのキャッシュデータに含まれる静止画または映像の色特徴量および動き特徴量のうち、色情報（Ｒ、Ｇ、Ｂ）の値からなるベクトルを生成する。そして、ローカルのファイルまたはＷｅｂページのキャッシュデータに含まれる音声音楽特徴量のうち、音声を固定長のフレーム毎に分解し、それぞれのフレームからケプストラムの係数からなるベクトル（ベクトルの次元数はケプストラムの係数の次元数で決められる）を生成し、これを量子化し、最終的に、例えば２５６ベクトルからなるコードブックを生成し、さらに、パワーの変化周期の値を算出する。

特徴ベクトル生成ステップ（ｓ１２１２）では、最終的に、３次元の色情報、２５６個の音声情報、１個の音声の周期情報を出力する。このとき、静止画の情報がない等で色特徴の抽出ができない場合には、色情報については出力しない。

〔Ｃ−２〕検索ステップ（ｓ１２２）の処理
映像検索ステップ（ｓ１２）を構成する検索ステップ（ｓ１２２）では、検索パラメータ設定ステップ（ｓ１２１）で生成したキーワードまたは特徴ベクトルを用いて、ローカルの映像ファイルとＷｅｂページのキャッシュデータに含まれる映像ファイルまたはＷｅｂ上の映像ファイルとを検索する。

そして、キーワードによる検索の結果および特徴ベクトルによる検索の結果である映像ファイルについて、検索の結果の第１位以下それぞれ上位９件ずつ、合計１８件の映像ファイルを取得する。

〔Ｃ−３〕ダイジェスト生成ステップ（ｓ１２３）の処理
映像検索ステップ（ｓ１２）を構成するダイジェスト生成ステップ（ｓ１２３）では、検索ステップ（ｓ１２２）で取得した映像ファイルを解析して、図４のフローチャートに示すように、区間分割ステップ（ｓ１２３１）と優先順位付与ステップ（ｓ１２３２）とを実行することで、検索ステップ（ｓ１２２）で取得した映像のダイジェストを生成する。

〔Ｃ−３−１〕区間分割ステップ（ｓ１２３１）の処理
ダイジェスト生成ステップ（ｓ１２３）を構成する区間分割ステップ（ｓ１２３１）では、映像記憶部１４ｂに格納された映像（検索ステップ（ｓ１２２）で取得した映像ファイル）を入力し、区間分割を行い、分割された区間の番号と、分割された映像の時刻情報とを出力する。

図６に、区間分割ステップ（ｓ１２３１）により出力される区間分割情報の一例を図示する。

本ステップの区間分割処理は、映像中のシーンチェンジ位置の検出および音声の連続性の検出に基づいて実行することができる。

シーンチェンジ位置の検出は、例えば、下記の参考文献１に記載される方法に基づいて実施可能である。また、音声の連続性の検出は、例えば、下記の参考文献２に記載される方法において、フレーム毎のパワー値か、無音らしさを表すスコアを用いて検出することができる（段落００１９〜段落００２０に記載）。または、下記の参考文献３に記載される方法では、音声の有性区間に着目してシーン分割する手法が述べられており、これを用いてもよい。

参考文献１：「映像ショット切換え検出法とその映像アクセスインタフェースへの応用」, 電子情報通信学会論文誌 Vol.J79-D2 No.4,(1996年４月）, 谷口行信, 外村佳伸, 浜田洋著, 社団法人電子情報通信学会発行
参考文献２：特開平１１−８５１８０号公報（特許第３２０７３７８号）, 野田喜昭 , 松永昭一, 「音声認識方法」
参考文献３：特開２００３−３１６３７８号公報（特許第３８０３３１１号）, 日高浩太, 水野理, 中嶌信弥, 「音声処理方法及びその方法を使用した装置及びそのプログラム」
〔Ｃ−３−２〕優先順位付与ステップ（ｓ１２３２）の処理
ダイジェスト生成ステップ（ｓ１２３）を構成する優先順位付与ステップ（ｓ１２３２）では、区間分割ステップ（ｓ１２３１）で得られた区間に対し、映像音声の処理によってイベントの発生確率（そのイベントを検出したときの確度（尤度))を算出し、イベントの種類、イベントの発生確率、イベントの開始時刻・終了時刻、イベントの代表静止画を出力する。

本ステップでは、図４のフローチャートに示すように、映像解析ステップ（ｓ１２３２１）と音声解析ステップ（ｓ１２３２２）と優先順位決定ステップ（ｓ１２３２３）とを実行する。次に、それぞれのステップについて説明する。

〔Ｃ−３−２−１〕映像解析ステップ（ｓ１２３２１）の処理
優先順位付与ステップ（ｓ１２３２）を構成する映像解析ステップ（ｓ１２３２１）では、映像信号からフレーム画像を抽出し、ピクセルの輝度変化、動きベクトル、特徴点の位置情報、特徴点の移動情報を解析し、その解析に基づいて、映像中から、テロップ挿入区間、カメラワーク区間、顔表示区間、笑顔表示区間、動物体アップショット区間のうち一つ以上について、そのイベントの発生確率を算出し、区間情報と共に出力する。

このとき、これらの各処理については、具体的には、以下に説明する処理によって実施することができる。

〔テロップ挿入区間〕
テロップの挿入区間については、下記の参考文献４に記載される方法を用い、テロップの挿入されている確率（発生確率）とテロップ挿入区間の開始時刻・終了時刻とを算出できる。また、その開始時刻と終了時刻の中間の時刻のフレーム画像を、代表静止画として用いる。

参考文献４：特開平１０−４０３９１号公報（特許第３５６９３９０号）, 桑野秀豪 , 倉掛正治, 「文字出現フレーム抽出装置および方法」
〔カメラワーク区間〕
カメラワーク区間については、下記の参考文献５に記載される方法を用い、カメラパラメータの滑らかな変化が生じた部分をカメラワーク区間として検出することが可能であり、カメラワーク区間の確率（発生確率）とカメラワーク区間の開始時刻・終了時刻とを算出できる。また、その開始時刻と終了時刻の中間の時刻のフレーム画像を、代表静止画として用いる。

参考文献５：特開平１１−１５９５３号公報（特許第３４０８１１７号）, 谷口行信 , 阿久津明人, 外村佳伸, 「カメラ操作推定方法およびカメラ操作推定プログラムを記録した記録媒体」
〔顔表示区間〕
顔表示区間については、下記の参考文献６に記載される方法を用い、人物の顔画像が含まれている確率（発生確率）と、その人物の顔画像が含まれている区間の開始時刻・終了時刻とを算出できる。また、その開始時刻と終了時刻の中間の時刻のフレーム画像を、代表静止画として用いる。

参考文献６：特開平９−５０５２８号公報, 福島和恵, 川村春美, 曽根原登, 水谷伸 , 「人物検出装置」
〔笑顔表示区間〕
笑顔表示区間については、下記の参考文献７に記載される方法に基づき、映像中から人間の笑い状態を検出し、笑い状態の確率（発生確率）を笑顔度として求め、笑顔度と笑顔区間の開始時刻・終了時刻とを算出する。また、その開始時刻と終了時刻の中間の時刻のフレーム画像を、代表静止画として用いる。

参考文献７：Uwe Kowalik, Kota Hidaka, Go Irie, Yukinobu Taniguchi, "Detectin g Facial Expression of Joy Based on Feature Point Dynamics",映像情報メディア学会技術報告, ITE Technical Report Vol31, No47, pp35 -38
〔動物体アップショット区間〕
動物体アップショッ卜区間については、下記の参考文献８に記載される方法により、映像中から動物体がアップで表示されている部分を検出し、動物体被写体がアップで写されている確率（発生確率）と、動物体被写体がアップで写されている区間の開始時刻・終了時刻とを算出する。また、その開始時刻と終了時刻の中間の時刻のフレーム画像を、代表静止画として用いる。

参考文献８：特開２００６−２４４０７４号公報, 鳥井陽介, 紺谷精一, 森本正志, 「動物体アップフレーム検出方法及びプログラム及びプログラムを格納した記憶媒体及び動物体アップショット検出方法及び動物体アップフレームあるいはショット検出方法及びプログラム及びプログラムを格納した記憶媒体」
〔Ｃ−３−２−２〕音声解析ステップ（ｓ１２３２２）の処理
優先順位付与ステップ（ｓ１２３２）を構成する音声解析ステップ（ｓ１２３２２）では、映像に付帯する音声を解析し、周波数の値、周波数の変化率、パワーの値、パワーの変化率、ピッチ、ピッチの変化、倍音、倍音のゆらぎの度合い、音響モデルとの類似度を解析し、その解析により、音声の強調区間、感情表現を含む区間、人物音声が含まれる区間、主要人物の発話区間、発話中の頻出フレーズ区間、音楽挿入区間の検出のうち一つ以上について、そのイベントの発生確率を算出し、区間情報と共に出力する。

〔音声の強調区間〕
音声の強調区間については、前述した参考文献３に記載される方法により、音声の強調状態を強調度として算出することができる。強調度が所定の数値を上回る区間を強調区間とし、その強調区間の開始時刻・終了時刻の値を出力する。また、その強調区間の強調度の値を確率値（発生確率の値）として出力する。また、その開始時刻と終了時刻の中間の時刻のフレーム画像を、強調区間の代表静止画として用いる。

〔感情表現を含む区間〕
感情表現を含む区間については、下記の参考文献９に記載される方法により、感情度と時刻情報を算出できる。感情度が所定の数値を上回る区間を感情区間とし、その感情区間の開始時刻・終了時刻の値を出力する。また、その感情区間の感情度の値を確率値（発生確率の値）として出力する。また、その開始時刻と終了時刻の中間の時刻のフレーム画像を、感情区間の代表静止画として用いる。

参考文献９：入江豪, 日高浩太, 佐藤隆, 谷口行信, 中嶌信弥, 「ＣＧＭ動画を対象とした感情表出区間自動検出法」, 電子情報通信学会総合大会講演論文集, Proceedings of the IEICE General Conference, Vol.2007 年情報・システム, No.2(20070307), p.210,社団法人電子情報通信学会
〔人物音声が含まれる区間〕
人物音声が含まれる区間については、下記の参考文献１０に記載される方法により、人物音声が含まれる区間の開始時刻・終了時刻、およびその確率（発生確率）を算出できる。その開始時刻と終了時刻の中間の時刻のフレーム画像を、人物音声が含まれる区間の代表静止画として用いる。

参考文献１０：南憲一, 他, 「音情報を用いた映像インデクシングとその応用」, 信学論（D-II）vol.J81-D-II, no.3, pp.529-537, 1998
〔主要人物の発話区間〕
主要人物の発話区間については、下記の参考文献１１に記載される方法により、発話区間のスペクトルの包絡を表現するケプストラム係数によるベクトルを生成し、これをＬＢＧアルゴリズム等で所定のクラスに到るまで量子化することにより、主要発話者の発話区間とその確率（発生確率）を算出できる。主要発話者の発話区間の開始時刻と終了時刻の中間の時刻のフレーム画像を、主要発話者の発話区間の代表静止画として用いる。

参考文献１１：古井貞煕, 「音響・音声工学」近代科学社, 電子・情報工学入門シリーズ２, pp.119-121
〔発話中の頻出フレーズ区間〕
発話中の頻出フレーズ区間については、下記の参考文献１２に記載される方法で、音声からキーワードを生成し、頻出するキーワードを発見し、その発見された区間を、発話中の頻出フレーズ区間として、頻度に応じて、頻出フレーズ区間の発生確率と、頻出フレーズ区間の開始時刻・終了時刻を求めることができる。

参考文献１２：特開２０００−８９７９１号公報, 宮崎昇, 川端豪, 「音声認識応答方法、その装置及びプログラム記録媒体」
〔音楽挿入区間〕
音楽挿入区間については、下記の参考文献１３に記載される方法を用い、音楽挿入部分の確率（発生確率）および時刻情報を求めることができる。

参考文献１３：特開平１１−２６５３９６号公報（特許第３５１７３４９号）, 南憲一, 阿久津明人, 佐藤隆, 外村佳伸, 「音楽映像分類方法、装置および音楽映像分類プログラムを記録した記録媒体」
図７に、映像解析ステップ（ｓ１２３２１）および音声解析ステップ（ｓ１２３２２）で出力される情報の一例を図示する。ここで、優先順位については、これから説明する優先順位決定ステップ（ｓ１２３２３）で付与されることになる。

〔Ｃ−３−２−３〕優先順位決定ステップ（ｓ１２３２３）の処理
優先順位付与ステップ（ｓ１２３２）を構成する優先順位決定ステップ（ｓ１２３２３）では、映像解析ステップ（ｓ１２３２１）および音声解析ステップ（ｓ１２３２２）で求められたイベントの発生確率を、発生確率の値を０〜１として、その確率の値に基づいて、図７中に示すように、各イベントの区間に対し降順に優先順位を付与する。

そして、映像の先頭側の部分区間から順に後方に向かって、所定の時間に到るまで、イベントの優先順位の高い順に、部分区間内でダイジェストとなる区間を選択し、選択された区間のダイジェストを出力する。

ここで、原則的には、各区間において優先順位が１位のイベントの映像区間部分をつなぎ合わせることでダイジェスト映像を作成することになるが、ダイジェスト映像に与えられる再生時間に余裕がある場合には、優先順位が２位以下のイベントの映像区間部分を含ませるようにしてもよい。

〔Ｄ〕映像提示ステップ（ｓ１３）の処理
映像提示ステップ（ｓ１３）では、図５のフローチャートに示すように、映像選択ステップ（ｓ１３１）と提示モード決定ステップ（ｓ１３２）と提示ステップ（ｓ１３３）とを実行することで、ユーザに映像を提示する。

〔Ｄ−１〕映像選択ステップ（ｓ１３１）の処理
映像提示ステップ（ｓ１３）を構成する映像選択ステップ（ｓ１３１）では、提示インタフェース１００（図２に示したもの）に表示する映像を選択する。

ログデータのうち、起動プログラムにＷｅｂブラウザまたは映像再生プログラムが起動していない場合には、検索ステップ（ｓ１２２）で取得した映像のうち、キーワードによる検索結果である９件の映像ファイルを選択する。一方、Ｗｅｂブラウザまたは映像再生プログラムのいずれかが起動されている場合には、検索ステップ（ｓ１２２）で取得した映像のうち、特徴ベクトルによる検索結果である９件の映像ファイルを選択する。

また、Ｗｅｂブラウザにおけるアドレスの更新頻度か、あるいはＷｅｂブラウザのキャッシュデータの更新頻度を用いて、その頻度が所定の頻度以上となる場合には、検索ステップ（ｓ１２２）で取得した映像のうち、特徴ベクトルによる検索結果である９件の映像ファイルを選択してもよい。あるいは、行動取得ステップ（ｓ１１）で取得したログデータのうち、過去のある時点からある時点までの起動プログラムの起動順序からなる時系列パターンを分析して、統計的に、現在の起動プログラムがローカルディスクの情報を閲覧するか，あるいはＷｅｂ情報を閲覧するかの判別を行い、この判別結果に従って、９件の映像ファイルを選択してもよい。

〔Ｄ−２〕提示モード決定ステップ（ｓ１３２）の処理
映像提示ステップ（ｓ１３）を構成する提示モード決定ステップ（ｓ１３２）では、提示インタフェース１００上に配置された９つの映像に対して、ユーザの操作状態に応じて、提示モードを動的に切り替える。

具体的には、提示インタフェース１００上にユーザが重畳したマウスの滞留時間をモニタリングし、滞留時間の長さに応じて、「提示モード１→提示モード２→提示モード３→提示モード４」というように、以下の４種類の提示モードを進行させる。

〔提示モード１〕
提示モード１は、音声およびメタデータの両方を含まない映像ダイジェストの表示を行うモードである。

マウスの重畳された領域にあたる映像は、ダイジェスト生成ステップ（ｓ１２３）で生成した映像のダイジェストを音声なしで提示インタフェース１００に再生表示する。ダイジェストの終端に至った場合、ダイジェストの先頭に戻り再生を繰り返す。なお、このモードは初期状態であり、提示インタフェース１００上にマウスが重畳されない場合は常にこのモードで映像が再生される。

〔提示モード２〕
提示モード２は、音声を含みメタデータを含まない映像ダイジェストの表示を行うモードである。

マウスの重畳された領域にあたる映像は、ダイジェスト生成ステップ（ｓ１２３）で生成した映像のダイジェストを音声付きで提示インタフェース１００に再生表示する。ダイジェストの終端に至った場合、ダイジェストの先頭に戻り再生を繰り返す。

〔提示モード３〕
提示モード３は、音声とメタデータとを含む映像ダイジェストの表示を行うモードである。

マウスの重畳された領域にあたる映像は、ダイジェスト生成ステップ（ｓ１２３）で生成した映像のダイジェストを音声付きで提示インタフェース１００に再生表示する。さらに、映像のファィル名、ＵＲＬ、検索ステップ（ｓ１２２）で検索に用いたキーワード（検索キーワード生成ステップ（ｓ１２１１）で出力し、データメモリ１４に記録したキーワード）を、当該再生画面上に映像とともに重畳表示する。ダイジェストの終端に至った場合、ダイジェストの先頭に戻り再生を繰り返す。

〔提示モード４〕
提示モードは、全編映像の再生表示を行うモードである。

マウスの重畳された領域にあたる映像を、提示インタフェース１００の画面領域全体のサイズに拡大し、先頭から再生する。映像の終端まで再生された場合、ダイジェストの先頭に戻り繰り返す。

なお、本ステップでは、マウスなどのようなポインティングデバイスの提示インタフェース１００の特定領域への重畳滞留時間だけでなく、所定の時間幅におけるポインティングデバイスの動作方向の変化頻度を用いて提示モードを更新するようにしてもよい。さらに、ポインティングデバイスが重畳領域内でクリック等のアクションを発生した場合、そのアクションに応じて提示モードを更新するようにしてもよい。

〔Ｄ−３〕提示ステップ（ｓ１３３）の処理
映像提示ステップ（ｓ１３）を構成する提示ステップ（ｓ１３３）では、提示モード決定ステップ（ｓ１３２）の決定した提示モードに従って、提示インタフェース１００上で映像を提示する。

〔Ｅ〕更新ステップ（ｓ１４）の処理
更新ステップ（ｓ１４）では、一定時間経過後に初期化ステップ（ｓ１０）の実行に戻る。

以上に説明した処理を実行することにより、本発明によれば、ユーザがＰＣを操作中に、その嗜好に適合する映像を取得することができ、さらに、ユーザの興味に応じてそれらの映像の提示方法を制御することが可能となる。

本発明は、映像を検索してユーザに提示する機能を有する情報処理装置に適用できるものであり、本発明を適用することで、受動的な動機による映像利用場面において、動的に変わるユーザの嗜好に適合した動画を取得し、これを自動的に提供してアクセスを促すことができるようになる。

本発明を具備する映像推薦装置の装置構成図である。提示インタフェースの説明図である。映像推薦装置が実行する全体動作を示すフローチャートである。映像検索ステップで実行するフローチャートである。映像提示ステップで実行するフローチャートである。区間分割ステップで出力される区間分割情報の一例を示す図である。映像解析ステップおよび音声解析ステップで出力される情報の一例を示す図である。

符号の説明

１映像推薦装置
１１中央処理ユニット
１２バス
１３プログラムメモリ
１４データメモリ
１５表示機器
１３ａ起動プログラム監視部
１３ｂ操作監視部
１３ｃログ分析部
１３ｄ映像検索部
１３ｅ提示方法決定部
１４ａログ記憶部
１４ｂ映像記憶部
１００提示インタフェース

Claims

時々刻々と変化するユーザの興味に適合する映像を取得してユーザに提示する映像推薦装置が実行する映像推薦方法であって、
ユーザ操作をモニタリングして操作ログを収集する過程と、
前記操作ログを解析することで、前記操作ログを収集した時点にユーザが興味を持っていると推定される映像の検索に用いられる検索パラメータを設定する過程と、
前記検索パラメータを使って映像を検索することで、前記操作ログを収集した時点にユーザが興味を持っていると推定される複数の映像を取得する過程と、
現在表示中の処理画面上に映像推薦用の提示ウィンドウを表示して、その提示ウィンドウ上に、前記取得した映像を一覧表示する過程と、
前記一覧表示する映像に対してのユーザの注視度を測定して、その測定結果に応じて前記提示ウィンドウ上に表示する映像の表示形態を変更する過程とを備えることを、
特徴とする映像推薦方法。
請求項１に記載の映像推薦方法において、
前記変更する過程では、前記一覧表示する映像に重畳するポインティングデバイスの滞留時間を測定することでユーザの注視度を測定して、ポインティングデバイスの指す映像についてはその滞留時間に応じて表示形態を変更し、ポインティングデバイスの指さない映像については表示形態を変更しないことを、
特徴とする映像推薦方法。
請求項２に記載の映像推薦方法において、
前記変更する過程では、前記滞留時間が規定の最大値を越える場合には、ポインティングデバイスの指す映像を前記提示ウィンドウのサイズに拡大して、その拡大した映像のみを前記提示ウィンドウ上に表示する表示形態に変更することを、
特徴とする映像推薦方法。
請求項２又は３に記載の映像推薦方法において、
前記一覧表示する過程では、ポインティングデバイスが前記一覧表示する映像に重畳しない場合には、前記一覧表示する映像を所定の表示形態で表示することを、
特徴とする映像推薦方法。
請求項１ないし４のいずれか１項に記載の映像推薦方法において、
前記取得した映像のダイジェスト映像を生成する過程を備え、
前記一覧表示する過程では、前記提示ウィンドウ上に、前記ダイジェスト映像を一覧表示することを、
特徴とする映像推薦方法。
時々刻々と変化するユーザの興味に適合する映像を取得してユーザに提示する映像推薦装置であって、
ユーザ操作をモニタリングして操作ログを収集する手段と、
前記操作ログを解析することで、前記操作ログを収集した時点にユーザが興味を持っていると推定される映像の検索に用いられる検索パラメータを設定する手段と、
前記検索パラメータを使って映像を検索することで、前記操作ログを収集した時点にユーザが興味を持っていると推定される複数の映像を取得する手段と、
現在表示中の処理画面上に映像推薦用の提示ウィンドウを表示して、その提示ウィンドウ上に、前記取得した映像を一覧表示する手段と、
前記一覧表示する映像に対してのユーザの注視度を測定して、その測定結果に応じて前記提示ウィンドウ上に表示する映像の表示形態を変更する手段とを備えることを、
特徴とする映像推薦装置。
請求項１ないし５のいずれか１項に記載の映像推薦方法をコンピュータに実行させるための映像推薦プログラム。
請求項１ないし５のいずれか１項に記載の映像推薦方法をコンピュータに実行させるための映像推薦プログラムを記録したコンピュータ読み取り可能な記録媒体。