JP2021501416A

JP2021501416A - ビデオコンテンツを特徴付けるための深層強化学習フレームワーク

Info

Publication number: JP2021501416A
Application number: JP2020523759A
Authority: JP
Inventors: チェン、ルーシン; クマー、ナヴィーン; リー、ハオチー
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2017-10-27
Filing date: 2018-10-25
Publication date: 2021-01-14
Anticipated expiration: 2038-10-25
Also published as: EP3701436A4; US20220327828A1; EP3701436A1; US11829878B2; US11386657B2; US20210124930A1; JP7047087B2; US10885341B2; CN111837142A; US20190163977A1; WO2019084308A1

Abstract

【解決手段】ビデオシーンにおけるビデオ情報は、特徴が描かれた各フレームのシーケンスとして表される。各フレームに対応する各時間ステップｔに関する環境の状態は、時間ステップｔに関するビデオ情報と、前の時間ステップｔ−１からの推定される情緒的情報とによって表される。ステップｔにおけるフレームに関して、機械学習アルゴリズムによって制御されるエージェントが取る行動Ａ（ｔ）は、この場合、行動Ａ（ｔ）の出力は、時間ステップｔにおけるフレームに関する情緒的ラベルの推定を表している。推定される行動のプールは、次の時間ステップｔ＋１における推定される情緒的履歴に変換される。推定の情緒的履歴は、次の時間ステップｔ＋１に関する環境の状態の一部として含まれる。それらを対応する注釈付きの映画のシーンの情緒的ラベルと比較することによって、現在の時間ステップｔまでの推定される行動に対して報酬Ｒが生成される。【選択図】図１

Description

［優先権の主張］
本出願は、２０１７年１０月２７日に出願された米国仮特許出願第６２／５７７，９７０号の優先権の利益を主張しており、その全内容は参照により本明細書に組み込まれている。

普及したビデオ・オン・デマンド方式の携帯電話アプリケーション及びウェブサイト（例えばyoutube.com）によって、人々は多様なオンラインソースから従来にないほどの量のビデオにアクセスすることができる。このために、ビデオメタデータ（例えば映画のシーンの注釈）の抽出は、有効な検索及び推奨を促進する際に重要な役割を果たす。例えば映画の推奨システムは、映画のクリップシーンの情緒的な情報を識別し、ユーザのリクエストまたは興味に基づいてそれを対応するユーザに差し向ける必要がある。

しかしながら、あるシーンが面白いか、そうでないかなどの映画のシーンの情緒的ラベルは、さらに長い時間尺度にわたって明らかになることが多いため、ほとんどの信頼できる映画の注釈はいまだに手作業で作成されている。人の注釈者が、映画のシーンの情緒的ラベルを識別しようと試みるとき、より長い前後関係を考慮に入れる必要がある。人の注釈工程のこのような複雑な非線形性質を１つの特有のアルゴリズムを用いてシミュレートすることは簡単な作業ではない。加えて、映画の情緒的ラベルの推定は、十分に準備された標準的な感情データベースを用いることによる感情の推定よりもずっと難易度が高く複雑なタスクである。さらにシーンレベルの情緒的ラベルは、複数の様式から生じることが多い。例えば、映画は、視覚チャネル、音響チャネル及び語彙チャネルからの情報を含んでいる。注釈者がある映画のシーンを面白いとラベル付けした場合、その評価は、男優または女優の顔の表情が理由である、彼らが用いる字訳が理由である、または単にバックグラウンドミュージックが理由である可能性がある。より一般的には、注釈者は典型的には、全てのこのような情報を一緒に集めてあるシーンが面白いか、そうでないかを評価する。利用可能な映画の音声リソースは大量に在るが、正確なシーンレベルの注釈を有するものは、注釈の著作権及びコストのために量が厳しく制限されることが多い。よって映画のシーンに対する情緒的分類は依然として、技術的アルゴリズムならびにデータ収集の両方の点において複雑で難易度の高いタスクである。

多くの関連する研究活動は、映画の情緒的コンテンツの分析に焦点を合わせている。近年、一般レベルの表現を抽出し、情緒的ビデオの理解にそれを適用するのに畳み込みニューラルネットワーク（ＣＮＮ）などの深層学習法が使用されている。この分野における関連する研究活動のほとんどは、教師あり機械学習手法を使用してきた。

本開示の態様が生じるのは、この文脈の範囲内である。

本開示の態様による、映画の情緒的ラベルの推定において提案されるＲＬフレームワークを例示する概略図である。本開示の態様による、提案される映画のシーケンスの作成法を例示する概略図である。本開示の態様による、ビデオシーンのシーケンスレベルの推定を実行するための方法を例示するフロー図である。本開示の態様による、ビデオシーンのシーケンスレベルの推定を実行するためのシステムを例示するブロック図である。

［導入］
高いレベルにおいて、本開示の背後にある概念は、トライアンドエラー機構を通して情緒的ラベルでビデオコンテンツに注釈を付けるためのシステムを改善するために人工知能（ＡＩ）アプローチを使用することである。強化学習（ＲＬ）は、経験依存型自律学習法のためのフレームワークである。ＲＬの範囲において、すなわち規定された分野において深層学習を用いることで、「深層強化学習」（ＤＲＬ）は、機械学習の分野において革命的な役割を果たしている。ＤＲＬの台頭は主に２つの側面から生じている。第１の側面は、ディープニューラルネットワーク（ＤＮＮ）の強力な関数近似と、表現学習特性である。ＤＮＮによって、高次元のデータ（例えば画像、音声及びテキスト）から低次元の特徴表現を取得することができ、これにより、ＤＲＬが高次元の状態及び行動空間によって意思決定の問題を解決することが可能になる。第２の側面は、ＲＬの「探索と搾取」の特性である。探索は、より多くの情報を集めることに関連しており、このことはシステムが、それらが以前に試したものよりも優れているかどうか知るために様々な可能性のある試みを探索することを意味している。搾取は、システムが、現在の情報が与えられたならば最適な決定をすることを保証しており、これは、システムが、過去に最も上手くいった方法を記憶することを意味している。これら２つの利点は、多くの他の従来の教師あり学習法に対するかなりの進歩である。

本開示の態様は、例えば映画などのビデオコンテンツ、テレビジョンプログラムなどにおいてシーケンスレベルの推定を実行するために深層強化学習（ＤＲＬ）を利用する新たな手法を対象としている。グラウンドトゥルースラベルの形態での指示は、１つのシーケンスの終わりに提供されるのみであるが、それ自体のラベルは全体のシーケンスに関係している。この問題は、ＤＲＬエージェントが、現在の時間ステップまでのデータのみに与えられる全体的なラベルを「推測」することを試みるゲームなどとして明確に示されてよい。このような「推測」は、エージェントのラベルに関する主観的見解を表しており、エージェントが行ういかなる別の決定にも影響を及ぼす。このような見解は追加として、ＤＲＬアルゴリズムをトレーニングする際に役立つ報酬関数を計算するのにも使用される。報酬関数を計算するための様々な方法が探求されており、ＤＲＬなどのあまり管理されてない手法は、全体的なレベルで注釈を付けることがより容易であり得る感情の推定などのタスクにおいて有益であり得ることを示している。本開示の一態様による１つの実施態様は、映画のシーンの情緒的ラベルの推定を実施するためのアルゴリズムを含んでいる。この例では、アルゴリズムは、特定の映画のシーンが面白いか、そうでないかを知るために、事前にトレーニングされた畳み込みネットワークを利用してシーンにおける俳優の顔から複雑な人の情緒的情報を捕らえる。従来のＤＲＬフレームワークは、このようなタスクに直接適用することはできない。従来のＤＲＬでは、各フレームにおいて生じた決定は、環境と相互に作用し、例えばピンポンゲームまたはアルファ碁においてその状態を変える必要がある。映画のシーンのデータシーケンスは既に確定されているため、各フレームの推定された情緒的ラベルの決定は、環境と相互作用することができない。アルゴリズムによって実施されるわずかに修正されたＤＲＬフレームワークは、ＤＲＬエージェントが環境の状態と相互作用することを可能にする。これは以下に詳細に説明する。

［方法論］
映画のシーンのクリップは、異なる様式に従うデータサンプルのシーケンスとみなすことができる。例えば、発話様式から、クリップは音声信号を含んでよく、視覚様式からは、各映画のシーンのクリップの範囲内の画像フレームのシーケンスが存在してよい。情緒的ラベルの推定タスクの場合、人の注釈者は、正確なラベルを取得するために動的な時間的な情緒的情報を処理する必要がある。ＲＬ利用の場合、エージェントの行動決定は、強力な時間的な相関関係も含んでおり、報酬と合わせた現在の行動決定はまた、これ以前のステップにも依存している。よって、映画のクリップに関する情緒的ラベルを推定するためにＲＬを利用することが試みられている。

限定ではなく例として、一セットのビデオフレームからの画像シーケンスを入力として利用するビデオデータに焦点が限定される場合がある。修正されたＤＲＬアルゴリズムは、各ムービーフレームにおける１つまたは複数の俳優の顔の分析に基づいて情緒的シーンのラベルを推定することを試みる。

［提案される方法のためのフレームワーク］
本開示の態様によると、新規のＤＲＬフレームワークには、環境の状態とエージェントの行動との間の相互作用が含まれる。提案されるＲＬフレームワークが、図１に概略的に例示されている。

映画のシーンにおけるビデオ情報は、顔が描かれた各フレームのシーケンスとして表されてよい。各時間ステップｔにおいて、環境の状態は２つの構成要素を有しており、時間ステップｔにおけるビデオフレームと、前の時間ステップｔ−１からの推定される情緒的情報である。これらの情報を一緒に考慮することによって、機械学習アルゴリズムによって制御されるエージェントが行動Ａ(ｔ）を取る。行動の出力は、時間ステップｔにおける情緒的ラベルの推定を表しており、例えば面白いか、面白くないかを表している。関数Ｇをその後使用して、{Ａ(ｉ)：ｉ≦ｔ}である限り、推定される行動のプールを次の時間ステップｔ＋１における推定される情緒的履歴に変換する。このような情報は、次の時間ステップのための環境の状態の一部として含まれ、時間ｔ＋１において次の行動を生み出すためにエージェントによって同様に使用される。各ステップにおいて、それらを、対応する人間が注釈を付けた映画のシーンの情緒的ラベルと比較することによって、現在の時間ステップｔまでの推定される行動に基づく関数Ｈによって報酬が生成される。

この提案されるＲＬ構造では、関数Ｇを使用して、前の時間ステップからの推定をエージェントの行動から現在の環境の状態に加え、これにより、エージェントの行動と環境の状態との間に関係を確立する。提案されるＲＬ構造によって、異なる関数Ｇ及び関数Ｈを様々な用途のために設計することができる。

［ビデオデータ処理］
情緒的ラベルの分類データセットが、元のビデオデータ、例えば元の映画と、対応する注釈ファイルから作成されてよい。一例として、映画におけるシーンの面白いか、そうでないなどのラベル付けは、映画のビデオチャネルに描かれる特定の特徴、具体的にはキャラクタの顔に焦点を合わせる場合がある。このような顔の画像のシーケンスは、ビデオから事前に抽出され、我々のシステムへの入力として利用される。各フレームにおいて顔を検出するために、ｄｌｉｂ及びｏｐｅｎＣＶなどの標準的な顔検出ライブラリを使用して、各連続するフレームにおいて元のビデオから顔の画像を抽出してよい。１つのフレームが複数の顔を含んでいる場合、フレームの中心に最も近いものが選択されてよい。このような選択の裏にある直感的知識は、複数の顔がスクリーン上で示されるとき、そのシーンの情緒的情報を独占するためにメインキャラクタの顔がスクリーンの中央に位置決めされる可能性がかなり高いというものである。加えて、このような基準によって選択された顔はまた、他の検出された顔と比べて所定の範囲において最も大きくなる場合が多い。

１つのフレーム内に複数の顔がある場合、そのシーンの情緒的情報を独占するためにメインキャラクタがスクリーンの中央に位置決めされる確率が高いため、最も中央の位置にある顔が選択されてよく、このように選択された顔は、全ての他の検出された顔の中で最も大きいものであることが多い。

別の処理タスクは、トレーニングシーケンスを生成することである。注釈付きの映画のデータの量は、利用できる映画の数が制限されており、人の注釈工程は費用がかかるために極めて少ない。フレーム間にほとんど時間の空白がないため、１つのフレームから次のフレームまでの顔の違いは極めて小さい。学習で使用されるより多くのシーケンスを取得するために、各映画のシーンの顔のシーケンスは以下のやり方で生成されてよい。各シーンに関して、フレームシーケンスは、例えばフレームの１つのシーケンスを得るために１８のフレーム間隔でダウンサンプルされてよい。また、１つのシーンを介してより多くのトレーニングデータを取得するために、全ての以前のサンプリングインデックスは２つのフレーム毎にシフトされ、同一のビデオシーンから生成された全てのサンプルは、同一の情緒的ラベルを共有する。こうすることによって、全てのシーケンスにおける顔の動的な変化が考慮され、またそれと同時に、限定されたビデオデータに基づいてより多くのトレーニングサンプルが取得される。このプロセスは図２に示されている。

［顔の表現の埋め込み］
映画からトリミングした顔の画像からの直接のトレーニングの代わりに、追加の顔の表現のデータセットを使用して、顔の表現の埋め込みを生成してもよい。限定ではなく例として、異なる顔の表現ラベルを分類するために、畳み込みニューラルネットワーク（ＣＮＮ）でトレーニングされたニューラルネットワークが使用されてもよい。

［情緒的ラベルの推定のＲＬ］
一実施態様では、本開示の態様に従って、ディープＱ−ネットワーク（ＤＱＮ）がＲＬフレームワークと共に使用されてよい。ＤＱＮの入力には、２つの部分が含まれてよく、ａ）上記で考察した顔の埋め込みモデルの事前にトレーニングされたＣＮＮの最後から２番目の層の出力であり得る顔の表現の埋め込みと、２）推定される情緒的情報の入力ベクトルであり、これには、上記で考察したように、時間ステップｔにおけるビデオフレームデータと、前の時間ステップｔ−１からの推定される情緒的情報とが含まれる。情緒的情報の入力の２つの完全に接続された層が加えられ、顔の表現の埋め込みと連結されて３つの追加の全結合層とさらに接続される。ＤＱＮの最後の層において、ネットワークは、別個の二次元行動を出力してよい。そのような実施態様では、情緒的ラベルの推定は、情緒的ラベルに関する二進法の分類決定として機能し、例えば面白いか、面白くないかのワンホット二次元ベクトルとして機能する。

情緒的情報を表現するのに、いくつかの異なるタイプの関数Ｇが使用されてもよい。例えば行動埋め込み出力は、ＤＱＮの最後から２番目の層の出力であり、全ての前の状態記憶を有する１つの高次元の特徴表現ベクトルとみなされてもよい。あるいは、前の時間ステップの行動決定ラベル、例えば面白いか、面白くないかを示す、ＤＱＮ出力によって識別されたワンホット分類ラベルを直接使用する場合もある。

ＲＬでは、報酬値を使用してＱ値を更新するため、報酬関数の設定が重要であり、ＤＱＮは、現在のフレームｔに関するスコアと前のフレームｔ−１に関するスコアとの差である報酬を使用して行動決定を学習する。一部の実施態様の注釈付きのラベルが、ビデオシーンの各フレームに対して利用できない場合がある。代わりに、各トレーニングシーケンスサンプルに対して、全体的なトレーニングシーケンスに関する人が注釈を付けたラベルのみを利用できる場合がある。各顔のシーケンスにおいて、フレームレベルの情緒的ラベルは利用することができない。そのような実施態様では、報酬を生成する関数Ｈは、各フレームシーケンストレーニングサンプルの中で、報酬値が、人が注釈を付けた最後のフレームから現在のフレームｔまでのフレームレベルの結果の過半数の票に基づくように設計されてよい。報酬値はまた、フレームレベルの結果の最小のパーセンテージの票に基づく場合もある。例えば２０％またはそれ以上のフレームレベルの結果が「面白い」であり、かつ最終的な人のラベルも「面白い」であるならば、報酬は＋１であってよい。このような設計に基づいて、報酬は、単に全部のシーケンスの終わりではなく、各フレームステップにおいて割り当てられてよい。代替の実施態様では、人の注釈が利用可能になるときまで、いかなる報酬もない場合もある。

報酬値は、本開示の態様に従ってＲＬを使用するシーケンスレベルの推定の有効性に対して重要であり得る。報酬値が大きすぎたり、小さすぎたりする場合、ＲＬシステムは収束せず、情緒的情報を学習できない。また中間ステップ及び最後のステップの報酬についての重み係数を考慮することも重要である。

１つのトレーニングシーケンスに関して、エージェントによって生じる最後の行動は、全ての画像を考慮に入れている。それだけではなく、グラウンドトルースラベルも利用可能である。よって、報酬に関する大きな値Ｒ_ｅｎｄが割り当てられるべきである。しかしながら中間の時間ステップにおいて、各フレームのトーンラベルがシーケンスラベルと同一になるはずであることは保証されない。

このような推定は、共通理解と一致している。例えばある人がある映画のシーンを面白いと思った場合、そのシーンの全てのフレームが面白い情報を含むことは保証されていない。情緒的ラベルは、全部のフレームシーケンスを通して蓄積されるため、中間の時間ステップにおける報酬は、Ｒｉｎｔｅｒとして表され、不確実性及び低い優先度を示すためにより小さい値に割り当てられるべきである。

このような関数の可能な実験及び設計の構成のさらなる詳細は、「ＡＤＥＥＰＲＥＩＮＦＯＲＣＥＭＥＮＴＬＥＡＲＮＩＮＧＦＲＡＭＥＷＯＲＫＦＯＲＩＤＥＮＴＩＦＹＩＮＧＦＵＮＮＹＳＣＥＮＥＳＩＮＭＯＶＩＥＳ」ＨａｏｑｉＬｉ，ＮａｖｅｅｎＫｕｍａｒ，ＲｕｘｉｎＣｈｅｎによる、２０１８ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ(ＩＣＡＳＳＰ)、３１１６-３１２０ページに見出すことができ、これは参照により本明細書に組み込まれ、添付書類として本開示の一部として含まれている。

［方法］
図３に示されるフロー図は、本開示の態様による、ビデオシーンのシーケンスレベルの推定を実行するための方法の一例を描いている。方法は、ビデオシーンにおけるビデオ情報を特徴が描かれた各フレームのシーケンスとして表すことによって３０２において始まる。限定ではなく例として、特徴のシーケンスは、ビデオシーンに現れる顔のシーケンスであってよい。顔のシーケンスは、ビデオシーンにおける個々のキャラクタの顔のシーケンスであってよい。複数の顔がビデオシーンに示される場合、顔のシーケンスは、そのシーンの中央に位置する顔のシーケンスであってよい。次に、３０４に示すように、各フレームに対応する各時間ステップｔに関する環境の状態が、時間ステップｔに関するビデオ情報と、前の時間ステップｔ−１からの推定される情緒的情報とによって表される。３０６に示すように、ステップｔにおけるフレームに関して、機械学習アルゴリズムによって制御されるエージェントによって行動Ａ（ｔ）が取られる。行動Ａ（ｔ）の出力は、時間ステップｔにおけるフレームに関する情緒的ラベルの推定を表している。限定ではなく例として、時間ステップｔにおける情緒的ラベルの推定は、そのビデオシーンが面白いか、面白くないかを表してもよい。しかしながら代替の実施態様では、情緒的ラベルの推定は、そのビデオシーンが悲しいか、悲しくないかを表す場合もある。

３０８に示すように、例えばシーンの最初のフレームから時間ステップｔにおける現在のフレームまでの推定される行動のプールがその後、次の時間ステップｔ＋１における推定される情緒的履歴に変換される。３１０に示すように、推定の情緒的履歴は、次の時間ステップｔ＋１に関する環境の状態の一部として含まれる。３１２に示すように、それらを対応する注釈付きの映画のシーンの情緒的ラベルと比較することによって、現在の時間ステップｔまでの推定される行動に対して報酬Ｒが生成される。一部の実施態様では、報酬Ｒの値は、時間ステップｔにおける現在のフレームまでのフレームレベルの情緒的ラベルの推定結果の過半数の票に基づいてもよい。

［システム］
図４は、図３に示されるものと同様の方法を実施するためのシステムを描いている。システムは、ユーザ入力デバイス４０２に結合されたコンピューティングデバイス４００を含んでもよい。ユーザ入力デバイス４０２は、コントローラ、タッチスクリーン、マイクロフォン、キーボード、マウス、ジョイスティック、または音データを含めた情報をユーザがシステムに入力するのを可能にする他のデバイスであってもよい。ユーザ入力デバイスは、触覚フィードバックデバイス４２１に結合されてもよい。触覚フィードバックデバイス４２１は、例えば、振動モータ、力フィードバックシステム、超音波フィードバックシステムまたは空気圧フィードバックシステムであってもよい。

コンピューティングデバイス４００は、１つまたは複数の処理装置４０３を含んでもよく、これは、例えばシングルコア、デュアルコア、クワッドコア、マルチコア、プロセッサ−コプロセッサ、セルプロセッサなどのよく知られたアーキテクチャに従って構成されてよい。コンピューティングデバイスはまた、１つまたは複数の記憶装置４０４（例えばランダムアクセスメモリ（ＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、リードオンリメモリ（ＲＯＭ）など）を含んでもよい。

処理装置４０３は、１つまたは複数のプログラムを実行してもよく、その一部は、メモリ４０４に記憶されてもよく、プロセッサ４０３は、例えばデータバス４０５を介してメモリにアクセスすることによって、メモリに動作可能に結合されてよい。メモリは、ビデオシーンに関するビデオフレームを格納するバッファ４０８を含んでもよい。プログラムは、上記で考察したようにビデオフレームから特徴４０９を抽出し、ラベル推定４１０に属するとみなすように構成された機械学習アルゴリズム４２１を含んでもよい。追加として、メモリ４０４は、ニューラルネットワークのトレーニングを実施するプログラムを含む場合もある。メモリ４０４はまた、トレーニングされたデータ、例えば既知のラベルを有するビデオシーンを有するデータベース４２２を含む場合もある。データベース４２２は、大容量記憶装置４１５の中のデータ４１８として格納される場合、またはネットワークインターフェース４１４を通してアクセスされるネットワーク４２０に結合されたサーバに格納される場合がある。

入力されたビデオもまた、大容量記憶装置４１５の中のデータ４１８として格納されてもよい。処理装置４０３は、上述した方法３００をプロセッサに実行させる、大容量記憶装置４１５またはメモリ４０４に格納された１つまたは複数のプログラム４１７を実行するようにさらに構成される。

コンピューティングデバイス４００はまた、入力／出力（Ｉ／Ｏ）４０７、回路、電力供給源（Ｐ／Ｓ）４１１、クロック（ＣＬＫ）４１２及びキャッシュ４１３などのよく知られたサポート回路を含んでもよく、これらは、例えばバス４０５を介して、システムの他のコンポーネントと通信してもよい。コンピューティングデバイスは、ネットワークインターフェース４１４を含んでもよい。処理装置４０３及びネットワークインターフェース４１４は、例えばＰＡＮの場合のブルートゥース（登録商標）などの好適なネットワークプロトコルを介してローカルエリアネットワーク（ＬＡＮ）またはパーソナルエリアネットワーク（ＰＡＮ）を実現するように構成されてよい。コンピューティングデバイスは任意選択で、ディスクドライブ、ＣＤ−ＲＯＭドライブ、テープドライブ、フラッシュメモリなどの大容量ストレージデバイス４１５を含んでもよく、大容量ストレージデバイスは、プログラム及び／またはデータを格納してもよい。コンピューティングデバイスはまた、システムとユーザとの間の相互作用を促進するためにユーザインターフェース４１６を含む場合もある。ユーザインターフェースには、モニタ、テレビジョンスクリーン、スピーカー、ヘッドフォン、またはユーザに情報を伝達する他のデバイスが含まれてよい。

コンピューティングデバイス４００は、電子通信ネットワーク４２０を介した通信を促進するためにネットワークインターフェース４１４を含んでもよい。ネットワークインターフェース４１４は、ローカルエリアネットワーク、及びインターネットなどのワイドエリアネットワークを介して有線または無線通信を実現するように構成されてよい。デバイス４００は、ネットワーク４２０を介して１つまたは複数のメッセージパケットによってファイルに関するデータ及び／またはリクエストを送受信してよい。ネットワーク４２０を介して送信されるメッセージパケットは、メモリ４０４内のバッファに一時的に格納されてよい。分類された音のデータベースは、ネットワーク４２０を通して利用することが可能であり、使用するためにメモリ４０４にある程度格納されてもよい。

本開示の態様は、ラベル推定エージェントと環境の状態との間で所望される相互作用を達成するために従来のＲＬ構造を修正することによって、顔の画像を用いてビデオ内のシーンにラベル付けするためにＲＬ法を利用する問題に対処している。本明細書で考察するようなビデオシーンのシーケンスレベルの推定を利用することで、情緒的ラベルの出力をリアルタイムで生成することができる。説明したシーケンスレベルの推定は、様々な方法を試してそれらが以前に試したものよりも優れているかどうかを知ることによって、探索と搾取を通してそのポリシーを学習しようと試みる。説明したシーケンスレベルの推定はまた、それが、過去に最も上手く機能したものを試すことを可能にするメモリ機構も有する。このような特性は通常、普通の教師あり学習法によって達成することは不可能であり、教師あり学習法は通常、純粋に搾取するのみである。

上記は、本発明の好ましい実施形態の完全な説明であるが、種々の代替形態、修正形態及び均等物を利用することが可能である。したがって本発明の範囲は、上記の説明を参照して決定されるべきではなく、代わりに、それぞれの均等物の全範囲と共に、添付の特許請求の範囲を参照して決定されるべきである。好ましかろうがそうでなかろうが本明細書に記載されるいかなる特徴も、好ましかろうがそうでなかろうが本明細書に記載される何らかの他の特徴と組み合わされる場合もある。不定冠詞「Ａ」または「Ａｎ」は、そうでないことが明らかに述べられている場合を除いて、その冠詞の後にくるアイテムの１つまたは複数の分量を指している。添付の特許請求の範囲は、フレーズ「ｍｅａｎｓｆｏｒ」を用いてミーンズプラスファンクション限定が所与のクレームに明白に列挙されていなければ、そのような限定を含めるように解釈すべきではない。

Claims

ビデオシーンのシーケンスレベルの推定を実行するための方法であって、
前記ビデオシーンにおけるビデオ情報を特徴が描かれた各フレームのシーケンスとして表すことと、
各フレームに対応する各時間ステップｔに関する環境の状態を時間ステップｔに関する前記ビデオ情報と、前の時間ステップｔ−１からの推定される情緒的情報とによって表すことと、
ステップｔにおける前記フレームに関して、機械学習アルゴリズムによって制御されるエージェントによって行動Ａ（ｔ）を取り、前記行動Ａ（ｔ）の出力は、前記時間ステップｔにおける前記フレームに関する情緒的ラベルの推定を表すことと、
推定される行動のプールを次の時間ステップｔ＋１における推定される情緒的履歴に変換することと、
前記推定の情緒的履歴を前記次の時間ステップｔ＋１に関する前記環境の状態の一部として含むことと、
それらを対応する注釈付きの映画のシーンの情緒的ラベルと比較することによって、現在の時間ステップｔまでの推定される行動に対して報酬Ｒを生成することとを含む、方法。
前記時間ステップｔにおける前記情緒的ラベルの推定は、前記ビデオシーンが面白いか、面白くないかを表している、請求項１に記載の方法。
前記報酬Ｒの値は、前記時間ステップｔにおける前記現在のフレームまでのフレームレベルの情緒的ラベルの推定結果の過半数の票に基づいている、請求項１に記載の方法。
前記報酬Ｒの値は、前記フレームレベルの結果の最小パーセンテージの票に基づいている、請求項１に記載の方法。
前記報酬Ｒの値は、人のラベルが利用できるフレームまでゼロである、請求項１に記載の方法。
特徴の前記シーケンスは、前記ビデオシーンに現れる顔のシーケンスである、請求項１に記載の方法。
顔の前記シーケンスは、前記ビデオシーンにおける個々のキャラクタの顔のシーケンスである、請求項６に記載の方法。
顔の前記シーケンスは、前記ビデオシーンにおける個々のキャラクタの顔のシーケンスであり、複数の顔が前記ビデオシーンに示される場合、顔の前記シーケンスは、前記シーンの中央に位置する顔のシーケンスである、請求項６に記載の方法。
プロセッサと、
前記プロセッサに結合されたメモリと、
前記メモリに埋め込まれたプロセッサ実行可能命令であって、実行される際、以下の、ビデオシーンにおけるビデオ情報を特徴が描かれた各フレームのシーケンスとして表し、
各フレームに対応する各時間ステップｔに関する環境の状態を時間ステップｔに関する前記ビデオ情報と、前の時間ステップｔ−１からの推定される情緒的情報とによって表し、
ステップｔにおける前記フレームに関して、機械学習アルゴリズムによって制御されるエージェントによって行動Ａ（ｔ）を取り、前記行動Ａ（ｔ）の出力は、前記時間ステップｔにおける前記フレームに関する情緒的ラベルの推定を表し、
推定される行動のプールを次の時間ステップｔ＋１における推定される情緒的履歴に変換し、
前記推定の情緒的履歴を前記次の時間ステップｔ＋１に関する前記環境の状態の一部として含み、
それらを対応する注釈付きの映画のシーンの情緒的ラベルと比較することによって、現在の時間ステップｔまでの推定される行動に対して報酬Ｒを生成することを前記プロセッサに実行させるように構成されている、前記プロセッサ実行可能命令とを備える、ビデオシーンのシーケンスレベルの推定を実行するためのシステム。
前記時間ステップｔにおける前記情緒的ラベルの推定は、前記ビデオシーンが面白いか、面白くないかを表している、請求項９に記載のシステム。
前記報酬Ｒの値は、前記時間ステップｔにおける前記現在のフレームまでのフレームレベルの情緒的ラベルの推定結果の過半数の票に基づいている、請求項９に記載のシステム。
前記報酬Ｒの値は、前記フレームレベルの結果の最小パーセンテージの票に基づいている、請求項９に記載のシステム。
前記報酬Ｒの値は、人のラベルが利用できるフレームまでゼロである、請求項９に記載のシステム。
特徴の前記シーケンスは、前記ビデオシーンに現れる顔のシーケンスである、請求項９に記載のシステム。
顔の前記シーケンスは、前記ビデオシーンにおける個々のキャラクタの顔のシーケンスである、請求項１４に記載のシステム。
顔の前記シーケンスは、前記ビデオシーンにおける個々のキャラクタの顔のシーケンスであり、複数の顔が前記ビデオシーンに示される場合、顔の前記シーケンスは、前記シーンの中央に位置する顔のシーケンスである、請求項１４に記載のシステム。
内部に埋め込まれた実行可能命令を有し、前記命令は、実行される際、以下の、
ビデオシーンにおけるビデオ情報を特徴が描かれた各フレームのシーケンスとして表し、
各フレームに対応する各時間ステップｔに関する環境の状態を時間ステップｔに関する前記ビデオ情報と、前の時間ステップｔ−１からの推定される情緒的情報とによって表し、
ステップｔにおける前記フレームに関して、機械学習アルゴリズムによって制御されるエージェントによって行動Ａ（ｔ）を取り、前記行動Ａ（ｔ）の出力は、前記時間ステップｔにおける前記フレームに関する情緒的ラベルの推定を表し、
推定される行動のプールを次の時間ステップｔ＋１における推定される情緒的履歴に変換し、
前記推定の情緒的履歴を前記次の時間ステップｔ＋１に関する前記環境の状態の一部として含み、
それらを対応する注釈付きの映画のシーンの情緒的ラベルと比較することによって、現在の時間ステップｔまでの推定される行動に対して報酬Ｒを生成することをコンピュータに実行させるように構成されている非一時的コンピュータ可読媒体。
前記時間ステップｔにおける前記情緒的ラベルの推定は、前記ビデオシーンが面白いか、面白くないかを表している、請求項１７に記載の非一時的コンピュータ可読媒体。
前記報酬Ｒの値は、前記時間ステップｔにおける前記現在のフレームまでのフレームレベルの情緒的ラベルの推定結果の過半数の票に基づいている、請求項１７に記載の非一時的コンピュータ可読媒体。
前記報酬Ｒの値は、前記フレームレベルの結果の最小パーセンテージの票に基づいている、請求項１７に記載の非一時的コンピュータ可読媒体。
前記報酬Ｒの値は、人のラベルが利用できるフレームまでゼロである、請求項１７に記載の非一時的コンピュータ可読媒体。
特徴の前記シーケンスは、前記ビデオシーンに現れる顔のシーケンスである、請求項１７に記載の非一時的コンピュータ可読媒体。
顔の前記シーケンスは、前記ビデオシーンにおける個々のキャラクタの顔のシーケンスである、請求項２２に記載の非一時的コンピュータ可読媒体。
顔の前記シーケンスは、前記ビデオシーンにおける個々のキャラクタの顔のシーケンスであり、複数の顔が前記ビデオシーンに示される場合、顔の前記シーケンスは、前記シーンの中央に位置する顔のシーケンスである、請求項２２に記載の非一時的コンピュータ可読媒体。