JP2021501416A - ビデオコンテンツを特徴付けるための深層強化学習フレームワーク - Google Patents

ビデオコンテンツを特徴付けるための深層強化学習フレームワーク Download PDF

Info

Publication number
JP2021501416A
JP2021501416A JP2020523759A JP2020523759A JP2021501416A JP 2021501416 A JP2021501416 A JP 2021501416A JP 2020523759 A JP2020523759 A JP 2020523759A JP 2020523759 A JP2020523759 A JP 2020523759A JP 2021501416 A JP2021501416 A JP 2021501416A
Authority
JP
Japan
Prior art keywords
sequence
time step
frame
faces
emotional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020523759A
Other languages
English (en)
Other versions
JP7047087B2 (ja
Inventor
チェン、ルーシン
クマー、ナヴィーン
リー、ハオチー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Original Assignee
Sony Interactive Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Interactive Entertainment Inc filed Critical Sony Interactive Entertainment Inc
Publication of JP2021501416A publication Critical patent/JP2021501416A/ja
Application granted granted Critical
Publication of JP7047087B2 publication Critical patent/JP7047087B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【解決手段】ビデオシーンにおけるビデオ情報は、特徴が描かれた各フレームのシーケンスとして表される。各フレームに対応する各時間ステップtに関する環境の状態は、時間ステップtに関するビデオ情報と、前の時間ステップt−1からの推定される情緒的情報とによって表される。ステップtにおけるフレームに関して、機械学習アルゴリズムによって制御されるエージェントが取る行動A(t)は、この場合、行動A(t)の出力は、時間ステップtにおけるフレームに関する情緒的ラベルの推定を表している。推定される行動のプールは、次の時間ステップt+1における推定される情緒的履歴に変換される。推定の情緒的履歴は、次の時間ステップt+1に関する環境の状態の一部として含まれる。それらを対応する注釈付きの映画のシーンの情緒的ラベルと比較することによって、現在の時間ステップtまでの推定される行動に対して報酬Rが生成される。【選択図】図1

Description

[優先権の主張]
本出願は、2017年10月27日に出願された米国仮特許出願第62/577,970号の優先権の利益を主張しており、その全内容は参照により本明細書に組み込まれている。
普及したビデオ・オン・デマンド方式の携帯電話アプリケーション及びウェブサイト(例えばyoutube.com)によって、人々は多様なオンラインソースから従来にないほどの量のビデオにアクセスすることができる。このために、ビデオメタデータ(例えば映画のシーンの注釈)の抽出は、有効な検索及び推奨を促進する際に重要な役割を果たす。例えば映画の推奨システムは、映画のクリップシーンの情緒的な情報を識別し、ユーザのリクエストまたは興味に基づいてそれを対応するユーザに差し向ける必要がある。
しかしながら、あるシーンが面白いか、そうでないかなどの映画のシーンの情緒的ラベルは、さらに長い時間尺度にわたって明らかになることが多いため、ほとんどの信頼できる映画の注釈はいまだに手作業で作成されている。人の注釈者が、映画のシーンの情緒的ラベルを識別しようと試みるとき、より長い前後関係を考慮に入れる必要がある。人の注釈工程のこのような複雑な非線形性質を1つの特有のアルゴリズムを用いてシミュレートすることは簡単な作業ではない。加えて、映画の情緒的ラベルの推定は、十分に準備された標準的な感情データベースを用いることによる感情の推定よりもずっと難易度が高く複雑なタスクである。さらにシーンレベルの情緒的ラベルは、複数の様式から生じることが多い。例えば、映画は、視覚チャネル、音響チャネル及び語彙チャネルからの情報を含んでいる。注釈者がある映画のシーンを面白いとラベル付けした場合、その評価は、男優または女優の顔の表情が理由である、彼らが用いる字訳が理由である、または単にバックグラウンドミュージックが理由である可能性がある。より一般的には、注釈者は典型的には、全てのこのような情報を一緒に集めてあるシーンが面白いか、そうでないかを評価する。利用可能な映画の音声リソースは大量に在るが、正確なシーンレベルの注釈を有するものは、注釈の著作権及びコストのために量が厳しく制限されることが多い。よって映画のシーンに対する情緒的分類は依然として、技術的アルゴリズムならびにデータ収集の両方の点において複雑で難易度の高いタスクである。
多くの関連する研究活動は、映画の情緒的コンテンツの分析に焦点を合わせている。近年、一般レベルの表現を抽出し、情緒的ビデオの理解にそれを適用するのに畳み込みニューラルネットワーク(CNN)などの深層学習法が使用されている。この分野における関連する研究活動のほとんどは、教師あり機械学習手法を使用してきた。
本開示の態様が生じるのは、この文脈の範囲内である。
本開示の態様による、映画の情緒的ラベルの推定において提案されるRLフレームワークを例示する概略図である。 本開示の態様による、提案される映画のシーケンスの作成法を例示する概略図である。 本開示の態様による、ビデオシーンのシーケンスレベルの推定を実行するための方法を例示するフロー図である。 本開示の態様による、ビデオシーンのシーケンスレベルの推定を実行するためのシステムを例示するブロック図である。
[導入]
高いレベルにおいて、本開示の背後にある概念は、トライアンドエラー機構を通して情緒的ラベルでビデオコンテンツに注釈を付けるためのシステムを改善するために人工知能(AI)アプローチを使用することである。強化学習(RL)は、経験依存型自律学習法のためのフレームワークである。RLの範囲において、すなわち規定された分野において深層学習を用いることで、「深層強化学習」(DRL)は、機械学習の分野において革命的な役割を果たしている。DRLの台頭は主に2つの側面から生じている。第1の側面は、ディープニューラルネットワーク(DNN)の強力な関数近似と、表現学習特性である。DNNによって、高次元のデータ(例えば画像、音声及びテキスト)から低次元の特徴表現を取得することができ、これにより、DRLが高次元の状態及び行動空間によって意思決定の問題を解決することが可能になる。第2の側面は、RLの「探索と搾取」の特性である。探索は、より多くの情報を集めることに関連しており、このことはシステムが、それらが以前に試したものよりも優れているかどうか知るために様々な可能性のある試みを探索することを意味している。搾取は、システムが、現在の情報が与えられたならば最適な決定をすることを保証しており、これは、システムが、過去に最も上手くいった方法を記憶することを意味している。これら2つの利点は、多くの他の従来の教師あり学習法に対するかなりの進歩である。
本開示の態様は、例えば映画などのビデオコンテンツ、テレビジョンプログラムなどにおいてシーケンスレベルの推定を実行するために深層強化学習(DRL)を利用する新たな手法を対象としている。グラウンドトゥルースラベルの形態での指示は、1つのシーケンスの終わりに提供されるのみであるが、それ自体のラベルは全体のシーケンスに関係している。この問題は、DRLエージェントが、現在の時間ステップまでのデータのみに与えられる全体的なラベルを「推測」することを試みるゲームなどとして明確に示されてよい。このような「推測」は、エージェントのラベルに関する主観的見解を表しており、エージェントが行ういかなる別の決定にも影響を及ぼす。このような見解は追加として、DRLアルゴリズムをトレーニングする際に役立つ報酬関数を計算するのにも使用される。報酬関数を計算するための様々な方法が探求されており、DRLなどのあまり管理されてない手法は、全体的なレベルで注釈を付けることがより容易であり得る感情の推定などのタスクにおいて有益であり得ることを示している。本開示の一態様による1つの実施態様は、映画のシーンの情緒的ラベルの推定を実施するためのアルゴリズムを含んでいる。この例では、アルゴリズムは、特定の映画のシーンが面白いか、そうでないかを知るために、事前にトレーニングされた畳み込みネットワークを利用してシーンにおける俳優の顔から複雑な人の情緒的情報を捕らえる。従来のDRLフレームワークは、このようなタスクに直接適用することはできない。従来のDRLでは、各フレームにおいて生じた決定は、環境と相互に作用し、例えばピンポンゲームまたはアルファ碁においてその状態を変える必要がある。映画のシーンのデータシーケンスは既に確定されているため、各フレームの推定された情緒的ラベルの決定は、環境と相互作用することができない。アルゴリズムによって実施されるわずかに修正されたDRLフレームワークは、DRLエージェントが環境の状態と相互作用することを可能にする。これは以下に詳細に説明する。
[方法論]
映画のシーンのクリップは、異なる様式に従うデータサンプルのシーケンスとみなすことができる。例えば、発話様式から、クリップは音声信号を含んでよく、視覚様式からは、各映画のシーンのクリップの範囲内の画像フレームのシーケンスが存在してよい。情緒的ラベルの推定タスクの場合、人の注釈者は、正確なラベルを取得するために動的な時間的な情緒的情報を処理する必要がある。RL利用の場合、エージェントの行動決定は、強力な時間的な相関関係も含んでおり、報酬と合わせた現在の行動決定はまた、これ以前のステップにも依存している。よって、映画のクリップに関する情緒的ラベルを推定するためにRLを利用することが試みられている。
限定ではなく例として、一セットのビデオフレームからの画像シーケンスを入力として利用するビデオデータに焦点が限定される場合がある。修正されたDRLアルゴリズムは、各ムービーフレームにおける1つまたは複数の俳優の顔の分析に基づいて情緒的シーンのラベルを推定することを試みる。
[提案される方法のためのフレームワーク]
本開示の態様によると、新規のDRLフレームワークには、環境の状態とエージェントの行動との間の相互作用が含まれる。提案されるRLフレームワークが、図1に概略的に例示されている。
映画のシーンにおけるビデオ情報は、顔が描かれた各フレームのシーケンスとして表されてよい。各時間ステップtにおいて、環境の状態は2つの構成要素を有しており、時間ステップtにおけるビデオフレームと、前の時間ステップt−1からの推定される情緒的情報である。これらの情報を一緒に考慮することによって、機械学習アルゴリズムによって制御されるエージェントが行動A(t)を取る。行動の出力は、時間ステップtにおける情緒的ラベルの推定を表しており、例えば面白いか、面白くないかを表している。関数Gをその後使用して、{A(i):i≦t}である限り、推定される行動のプールを次の時間ステップt+1における推定される情緒的履歴に変換する。このような情報は、次の時間ステップのための環境の状態の一部として含まれ、時間t+1において次の行動を生み出すためにエージェントによって同様に使用される。各ステップにおいて、それらを、対応する人間が注釈を付けた映画のシーンの情緒的ラベルと比較することによって、現在の時間ステップtまでの推定される行動に基づく関数Hによって報酬が生成される。
この提案されるRL構造では、関数Gを使用して、前の時間ステップからの推定をエージェントの行動から現在の環境の状態に加え、これにより、エージェントの行動と環境の状態との間に関係を確立する。提案されるRL構造によって、異なる関数G及び関数Hを様々な用途のために設計することができる。
[ビデオデータ処理]
情緒的ラベルの分類データセットが、元のビデオデータ、例えば元の映画と、対応する注釈ファイルから作成されてよい。一例として、映画におけるシーンの面白いか、そうでないなどのラベル付けは、映画のビデオチャネルに描かれる特定の特徴、具体的にはキャラクタの顔に焦点を合わせる場合がある。このような顔の画像のシーケンスは、ビデオから事前に抽出され、我々のシステムへの入力として利用される。各フレームにおいて顔を検出するために、dlib及びopenCVなどの標準的な顔検出ライブラリを使用して、各連続するフレームにおいて元のビデオから顔の画像を抽出してよい。1つのフレームが複数の顔を含んでいる場合、フレームの中心に最も近いものが選択されてよい。このような選択の裏にある直感的知識は、複数の顔がスクリーン上で示されるとき、そのシーンの情緒的情報を独占するためにメインキャラクタの顔がスクリーンの中央に位置決めされる可能性がかなり高いというものである。加えて、このような基準によって選択された顔はまた、他の検出された顔と比べて所定の範囲において最も大きくなる場合が多い。
1つのフレーム内に複数の顔がある場合、そのシーンの情緒的情報を独占するためにメインキャラクタがスクリーンの中央に位置決めされる確率が高いため、最も中央の位置にある顔が選択されてよく、このように選択された顔は、全ての他の検出された顔の中で最も大きいものであることが多い。
別の処理タスクは、トレーニングシーケンスを生成することである。注釈付きの映画のデータの量は、利用できる映画の数が制限されており、人の注釈工程は費用がかかるために極めて少ない。フレーム間にほとんど時間の空白がないため、1つのフレームから次のフレームまでの顔の違いは極めて小さい。学習で使用されるより多くのシーケンスを取得するために、各映画のシーンの顔のシーケンスは以下のやり方で生成されてよい。各シーンに関して、フレームシーケンスは、例えばフレームの1つのシーケンスを得るために18のフレーム間隔でダウンサンプルされてよい。また、1つのシーンを介してより多くのトレーニングデータを取得するために、全ての以前のサンプリングインデックスは2つのフレーム毎にシフトされ、同一のビデオシーンから生成された全てのサンプルは、同一の情緒的ラベルを共有する。こうすることによって、全てのシーケンスにおける顔の動的な変化が考慮され、またそれと同時に、限定されたビデオデータに基づいてより多くのトレーニングサンプルが取得される。このプロセスは図2に示されている。
[顔の表現の埋め込み]
映画からトリミングした顔の画像からの直接のトレーニングの代わりに、追加の顔の表現のデータセットを使用して、顔の表現の埋め込みを生成してもよい。限定ではなく例として、異なる顔の表現ラベルを分類するために、畳み込みニューラルネットワーク(CNN)でトレーニングされたニューラルネットワークが使用されてもよい。
[情緒的ラベルの推定のRL]
一実施態様では、本開示の態様に従って、ディープQ−ネットワーク(DQN)がRLフレームワークと共に使用されてよい。DQNの入力には、2つの部分が含まれてよく、a)上記で考察した顔の埋め込みモデルの事前にトレーニングされたCNNの最後から2番目の層の出力であり得る顔の表現の埋め込みと、2)推定される情緒的情報の入力ベクトルであり、これには、上記で考察したように、時間ステップtにおけるビデオフレームデータと、前の時間ステップt−1からの推定される情緒的情報とが含まれる。情緒的情報の入力の2つの完全に接続された層が加えられ、顔の表現の埋め込みと連結されて3つの追加の全結合層とさらに接続される。DQNの最後の層において、ネットワークは、別個の二次元行動を出力してよい。そのような実施態様では、情緒的ラベルの推定は、情緒的ラベルに関する二進法の分類決定として機能し、例えば面白いか、面白くないかのワンホット二次元ベクトルとして機能する。
情緒的情報を表現するのに、いくつかの異なるタイプの関数Gが使用されてもよい。例えば行動埋め込み出力は、DQNの最後から2番目の層の出力であり、全ての前の状態記憶を有する1つの高次元の特徴表現ベクトルとみなされてもよい。あるいは、前の時間ステップの行動決定ラベル、例えば面白いか、面白くないかを示す、DQN出力によって識別されたワンホット分類ラベルを直接使用する場合もある。
RLでは、報酬値を使用してQ値を更新するため、報酬関数の設定が重要であり、DQNは、現在のフレームtに関するスコアと前のフレームt−1に関するスコアとの差である報酬を使用して行動決定を学習する。一部の実施態様の注釈付きのラベルが、ビデオシーンの各フレームに対して利用できない場合がある。代わりに、各トレーニングシーケンスサンプルに対して、全体的なトレーニングシーケンスに関する人が注釈を付けたラベルのみを利用できる場合がある。各顔のシーケンスにおいて、フレームレベルの情緒的ラベルは利用することができない。そのような実施態様では、報酬を生成する関数Hは、各フレームシーケンストレーニングサンプルの中で、報酬値が、人が注釈を付けた最後のフレームから現在のフレームtまでのフレームレベルの結果の過半数の票に基づくように設計されてよい。報酬値はまた、フレームレベルの結果の最小のパーセンテージの票に基づく場合もある。例えば20%またはそれ以上のフレームレベルの結果が「面白い」であり、かつ最終的な人のラベルも「面白い」であるならば、報酬は+1であってよい。このような設計に基づいて、報酬は、単に全部のシーケンスの終わりではなく、各フレームステップにおいて割り当てられてよい。代替の実施態様では、人の注釈が利用可能になるときまで、いかなる報酬もない場合もある。
報酬値は、本開示の態様に従ってRLを使用するシーケンスレベルの推定の有効性に対して重要であり得る。報酬値が大きすぎたり、小さすぎたりする場合、RLシステムは収束せず、情緒的情報を学習できない。また中間ステップ及び最後のステップの報酬についての重み係数を考慮することも重要である。
1つのトレーニングシーケンスに関して、エージェントによって生じる最後の行動は、全ての画像を考慮に入れている。それだけではなく、グラウンドトルースラベルも利用可能である。よって、報酬に関する大きな値Rendが割り当てられるべきである。しかしながら中間の時間ステップにおいて、各フレームのトーンラベルがシーケンスラベルと同一になるはずであることは保証されない。
このような推定は、共通理解と一致している。例えばある人がある映画のシーンを面白いと思った場合、そのシーンの全てのフレームが面白い情報を含むことは保証されていない。情緒的ラベルは、全部のフレームシーケンスを通して蓄積されるため、中間の時間ステップにおける報酬は、Rinterとして表され、不確実性及び低い優先度を示すためにより小さい値に割り当てられるべきである。
このような関数の可能な実験及び設計の構成のさらなる詳細は、「A DEEP REINFORCEMENT LEARNING FRAMEWORK FOR IDENTIFYING FUNNY SCENES IN MOVIES」Haoqi Li,Naveen Kumar,Ruxin Chenによる、2018IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP)、3116-3120ページに見出すことができ、これは参照により本明細書に組み込まれ、添付書類として本開示の一部として含まれている。
[方法]
図3に示されるフロー図は、本開示の態様による、ビデオシーンのシーケンスレベルの推定を実行するための方法の一例を描いている。方法は、ビデオシーンにおけるビデオ情報を特徴が描かれた各フレームのシーケンスとして表すことによって302において始まる。限定ではなく例として、特徴のシーケンスは、ビデオシーンに現れる顔のシーケンスであってよい。顔のシーケンスは、ビデオシーンにおける個々のキャラクタの顔のシーケンスであってよい。複数の顔がビデオシーンに示される場合、顔のシーケンスは、そのシーンの中央に位置する顔のシーケンスであってよい。次に、304に示すように、各フレームに対応する各時間ステップtに関する環境の状態が、時間ステップtに関するビデオ情報と、前の時間ステップt−1からの推定される情緒的情報とによって表される。306に示すように、ステップtにおけるフレームに関して、機械学習アルゴリズムによって制御されるエージェントによって行動A(t)が取られる。行動A(t)の出力は、時間ステップtにおけるフレームに関する情緒的ラベルの推定を表している。限定ではなく例として、時間ステップtにおける情緒的ラベルの推定は、そのビデオシーンが面白いか、面白くないかを表してもよい。しかしながら代替の実施態様では、情緒的ラベルの推定は、そのビデオシーンが悲しいか、悲しくないかを表す場合もある。
308に示すように、例えばシーンの最初のフレームから時間ステップtにおける現在のフレームまでの推定される行動のプールがその後、次の時間ステップt+1における推定される情緒的履歴に変換される。310に示すように、推定の情緒的履歴は、次の時間ステップt+1に関する環境の状態の一部として含まれる。312に示すように、それらを対応する注釈付きの映画のシーンの情緒的ラベルと比較することによって、現在の時間ステップtまでの推定される行動に対して報酬Rが生成される。一部の実施態様では、報酬Rの値は、時間ステップtにおける現在のフレームまでのフレームレベルの情緒的ラベルの推定結果の過半数の票に基づいてもよい。
[システム]
図4は、図3に示されるものと同様の方法を実施するためのシステムを描いている。システムは、ユーザ入力デバイス402に結合されたコンピューティングデバイス400を含んでもよい。ユーザ入力デバイス402は、コントローラ、タッチスクリーン、マイクロフォン、キーボード、マウス、ジョイスティック、または音データを含めた情報をユーザがシステムに入力するのを可能にする他のデバイスであってもよい。ユーザ入力デバイスは、触覚フィードバックデバイス421に結合されてもよい。触覚フィードバックデバイス421は、例えば、振動モータ、力フィードバックシステム、超音波フィードバックシステムまたは空気圧フィードバックシステムであってもよい。
コンピューティングデバイス400は、1つまたは複数の処理装置403を含んでもよく、これは、例えばシングルコア、デュアルコア、クワッドコア、マルチコア、プロセッサ−コプロセッサ、セルプロセッサなどのよく知られたアーキテクチャに従って構成されてよい。コンピューティングデバイスはまた、1つまたは複数の記憶装置404(例えばランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、リードオンリメモリ(ROM)など)を含んでもよい。
処理装置403は、1つまたは複数のプログラムを実行してもよく、その一部は、メモリ404に記憶されてもよく、プロセッサ403は、例えばデータバス405を介してメモリにアクセスすることによって、メモリに動作可能に結合されてよい。メモリは、ビデオシーンに関するビデオフレームを格納するバッファ408を含んでもよい。プログラムは、上記で考察したようにビデオフレームから特徴409を抽出し、ラベル推定410に属するとみなすように構成された機械学習アルゴリズム421を含んでもよい。追加として、メモリ404は、ニューラルネットワークのトレーニングを実施するプログラムを含む場合もある。メモリ404はまた、トレーニングされたデータ、例えば既知のラベルを有するビデオシーンを有するデータベース422を含む場合もある。データベース422は、大容量記憶装置415の中のデータ418として格納される場合、またはネットワークインターフェース414を通してアクセスされるネットワーク420に結合されたサーバに格納される場合がある。
入力されたビデオもまた、大容量記憶装置415の中のデータ418として格納されてもよい。処理装置403は、上述した方法300をプロセッサに実行させる、大容量記憶装置415またはメモリ404に格納された1つまたは複数のプログラム417を実行するようにさらに構成される。
コンピューティングデバイス400はまた、入力/出力(I/O)407、回路、電力供給源(P/S)411、クロック(CLK)412及びキャッシュ413などのよく知られたサポート回路を含んでもよく、これらは、例えばバス405を介して、システムの他のコンポーネントと通信してもよい。コンピューティングデバイスは、ネットワークインターフェース414を含んでもよい。処理装置403及びネットワークインターフェース414は、例えばPANの場合のブルートゥース(登録商標)などの好適なネットワークプロトコルを介してローカルエリアネットワーク(LAN)またはパーソナルエリアネットワーク(PAN)を実現するように構成されてよい。コンピューティングデバイスは任意選択で、ディスクドライブ、CD−ROMドライブ、テープドライブ、フラッシュメモリなどの大容量ストレージデバイス415を含んでもよく、大容量ストレージデバイスは、プログラム及び/またはデータを格納してもよい。コンピューティングデバイスはまた、システムとユーザとの間の相互作用を促進するためにユーザインターフェース416を含む場合もある。ユーザインターフェースには、モニタ、テレビジョンスクリーン、スピーカー、ヘッドフォン、またはユーザに情報を伝達する他のデバイスが含まれてよい。
コンピューティングデバイス400は、電子通信ネットワーク420を介した通信を促進するためにネットワークインターフェース414を含んでもよい。ネットワークインターフェース414は、ローカルエリアネットワーク、及びインターネットなどのワイドエリアネットワークを介して有線または無線通信を実現するように構成されてよい。デバイス400は、ネットワーク420を介して1つまたは複数のメッセージパケットによってファイルに関するデータ及び/またはリクエストを送受信してよい。ネットワーク420を介して送信されるメッセージパケットは、メモリ404内のバッファに一時的に格納されてよい。分類された音のデータベースは、ネットワーク420を通して利用することが可能であり、使用するためにメモリ404にある程度格納されてもよい。
本開示の態様は、ラベル推定エージェントと環境の状態との間で所望される相互作用を達成するために従来のRL構造を修正することによって、顔の画像を用いてビデオ内のシーンにラベル付けするためにRL法を利用する問題に対処している。本明細書で考察するようなビデオシーンのシーケンスレベルの推定を利用することで、情緒的ラベルの出力をリアルタイムで生成することができる。説明したシーケンスレベルの推定は、様々な方法を試してそれらが以前に試したものよりも優れているかどうかを知ることによって、探索と搾取を通してそのポリシーを学習しようと試みる。説明したシーケンスレベルの推定はまた、それが、過去に最も上手く機能したものを試すことを可能にするメモリ機構も有する。このような特性は通常、普通の教師あり学習法によって達成することは不可能であり、教師あり学習法は通常、純粋に搾取するのみである。
上記は、本発明の好ましい実施形態の完全な説明であるが、種々の代替形態、修正形態及び均等物を利用することが可能である。したがって本発明の範囲は、上記の説明を参照して決定されるべきではなく、代わりに、それぞれの均等物の全範囲と共に、添付の特許請求の範囲を参照して決定されるべきである。好ましかろうがそうでなかろうが本明細書に記載されるいかなる特徴も、好ましかろうがそうでなかろうが本明細書に記載される何らかの他の特徴と組み合わされる場合もある。不定冠詞「A」または「An」は、そうでないことが明らかに述べられている場合を除いて、その冠詞の後にくるアイテムの1つまたは複数の分量を指している。添付の特許請求の範囲は、フレーズ「means for」を用いてミーンズプラスファンクション限定が所与のクレームに明白に列挙されていなければ、そのような限定を含めるように解釈すべきではない。

Claims (24)

  1. ビデオシーンのシーケンスレベルの推定を実行するための方法であって、
    前記ビデオシーンにおけるビデオ情報を特徴が描かれた各フレームのシーケンスとして表すことと、
    各フレームに対応する各時間ステップtに関する環境の状態を時間ステップtに関する前記ビデオ情報と、前の時間ステップt−1からの推定される情緒的情報とによって表すことと、
    ステップtにおける前記フレームに関して、機械学習アルゴリズムによって制御されるエージェントによって行動A(t)を取り、前記行動A(t)の出力は、前記時間ステップtにおける前記フレームに関する情緒的ラベルの推定を表すことと、
    推定される行動のプールを次の時間ステップt+1における推定される情緒的履歴に変換することと、
    前記推定の情緒的履歴を前記次の時間ステップt+1に関する前記環境の状態の一部として含むことと、
    それらを対応する注釈付きの映画のシーンの情緒的ラベルと比較することによって、現在の時間ステップtまでの推定される行動に対して報酬Rを生成することとを含む、方法。
  2. 前記時間ステップtにおける前記情緒的ラベルの推定は、前記ビデオシーンが面白いか、面白くないかを表している、請求項1に記載の方法。
  3. 前記報酬Rの値は、前記時間ステップtにおける前記現在のフレームまでのフレームレベルの情緒的ラベルの推定結果の過半数の票に基づいている、請求項1に記載の方法。
  4. 前記報酬Rの値は、前記フレームレベルの結果の最小パーセンテージの票に基づいている、請求項1に記載の方法。
  5. 前記報酬Rの値は、人のラベルが利用できるフレームまでゼロである、請求項1に記載の方法。
  6. 特徴の前記シーケンスは、前記ビデオシーンに現れる顔のシーケンスである、請求項1に記載の方法。
  7. 顔の前記シーケンスは、前記ビデオシーンにおける個々のキャラクタの顔のシーケンスである、請求項6に記載の方法。
  8. 顔の前記シーケンスは、前記ビデオシーンにおける個々のキャラクタの顔のシーケンスであり、複数の顔が前記ビデオシーンに示される場合、顔の前記シーケンスは、前記シーンの中央に位置する顔のシーケンスである、請求項6に記載の方法。
  9. プロセッサと、
    前記プロセッサに結合されたメモリと、
    前記メモリに埋め込まれたプロセッサ実行可能命令であって、実行される際、以下の、ビデオシーンにおけるビデオ情報を特徴が描かれた各フレームのシーケンスとして表し、
    各フレームに対応する各時間ステップtに関する環境の状態を時間ステップtに関する前記ビデオ情報と、前の時間ステップt−1からの推定される情緒的情報とによって表し、
    ステップtにおける前記フレームに関して、機械学習アルゴリズムによって制御されるエージェントによって行動A(t)を取り、前記行動A(t)の出力は、前記時間ステップtにおける前記フレームに関する情緒的ラベルの推定を表し、
    推定される行動のプールを次の時間ステップt+1における推定される情緒的履歴に変換し、
    前記推定の情緒的履歴を前記次の時間ステップt+1に関する前記環境の状態の一部として含み、
    それらを対応する注釈付きの映画のシーンの情緒的ラベルと比較することによって、現在の時間ステップtまでの推定される行動に対して報酬Rを生成することを前記プロセッサに実行させるように構成されている、前記プロセッサ実行可能命令とを備える、ビデオシーンのシーケンスレベルの推定を実行するためのシステム。
  10. 前記時間ステップtにおける前記情緒的ラベルの推定は、前記ビデオシーンが面白いか、面白くないかを表している、請求項9に記載のシステム。
  11. 前記報酬Rの値は、前記時間ステップtにおける前記現在のフレームまでのフレームレベルの情緒的ラベルの推定結果の過半数の票に基づいている、請求項9に記載のシステム。
  12. 前記報酬Rの値は、前記フレームレベルの結果の最小パーセンテージの票に基づいている、請求項9に記載のシステム。
  13. 前記報酬Rの値は、人のラベルが利用できるフレームまでゼロである、請求項9に記載のシステム。
  14. 特徴の前記シーケンスは、前記ビデオシーンに現れる顔のシーケンスである、請求項9に記載のシステム。
  15. 顔の前記シーケンスは、前記ビデオシーンにおける個々のキャラクタの顔のシーケンスである、請求項14に記載のシステム。
  16. 顔の前記シーケンスは、前記ビデオシーンにおける個々のキャラクタの顔のシーケンスであり、複数の顔が前記ビデオシーンに示される場合、顔の前記シーケンスは、前記シーンの中央に位置する顔のシーケンスである、請求項14に記載のシステム。
  17. 内部に埋め込まれた実行可能命令を有し、前記命令は、実行される際、以下の、
    ビデオシーンにおけるビデオ情報を特徴が描かれた各フレームのシーケンスとして表し、
    各フレームに対応する各時間ステップtに関する環境の状態を時間ステップtに関する前記ビデオ情報と、前の時間ステップt−1からの推定される情緒的情報とによって表し、
    ステップtにおける前記フレームに関して、機械学習アルゴリズムによって制御されるエージェントによって行動A(t)を取り、前記行動A(t)の出力は、前記時間ステップtにおける前記フレームに関する情緒的ラベルの推定を表し、
    推定される行動のプールを次の時間ステップt+1における推定される情緒的履歴に変換し、
    前記推定の情緒的履歴を前記次の時間ステップt+1に関する前記環境の状態の一部として含み、
    それらを対応する注釈付きの映画のシーンの情緒的ラベルと比較することによって、現在の時間ステップtまでの推定される行動に対して報酬Rを生成することをコンピュータに実行させるように構成されている非一時的コンピュータ可読媒体。
  18. 前記時間ステップtにおける前記情緒的ラベルの推定は、前記ビデオシーンが面白いか、面白くないかを表している、請求項17に記載の非一時的コンピュータ可読媒体。
  19. 前記報酬Rの値は、前記時間ステップtにおける前記現在のフレームまでのフレームレベルの情緒的ラベルの推定結果の過半数の票に基づいている、請求項17に記載の非一時的コンピュータ可読媒体。
  20. 前記報酬Rの値は、前記フレームレベルの結果の最小パーセンテージの票に基づいている、請求項17に記載の非一時的コンピュータ可読媒体。
  21. 前記報酬Rの値は、人のラベルが利用できるフレームまでゼロである、請求項17に記載の非一時的コンピュータ可読媒体。
  22. 特徴の前記シーケンスは、前記ビデオシーンに現れる顔のシーケンスである、請求項17に記載の非一時的コンピュータ可読媒体。
  23. 顔の前記シーケンスは、前記ビデオシーンにおける個々のキャラクタの顔のシーケンスである、請求項22に記載の非一時的コンピュータ可読媒体。
  24. 顔の前記シーケンスは、前記ビデオシーンにおける個々のキャラクタの顔のシーケンスであり、複数の顔が前記ビデオシーンに示される場合、顔の前記シーケンスは、前記シーンの中央に位置する顔のシーケンスである、請求項22に記載の非一時的コンピュータ可読媒体。
JP2020523759A 2017-10-27 2018-10-25 ビデオコンテンツを特徴付けるための深層強化学習フレームワーク Active JP7047087B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762577970P 2017-10-27 2017-10-27
US62/577,970 2017-10-27
PCT/US2018/057573 WO2019084308A1 (en) 2017-10-27 2018-10-25 DEEP REINFORCING LEARNING FRAMEWORK FOR CHARACTERIZING VIDEO CONTENT

Publications (2)

Publication Number Publication Date
JP2021501416A true JP2021501416A (ja) 2021-01-14
JP7047087B2 JP7047087B2 (ja) 2022-04-04

Family

ID=66246721

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020523759A Active JP7047087B2 (ja) 2017-10-27 2018-10-25 ビデオコンテンツを特徴付けるための深層強化学習フレームワーク

Country Status (5)

Country Link
US (3) US10885341B2 (ja)
EP (1) EP3701436A4 (ja)
JP (1) JP7047087B2 (ja)
CN (1) CN111837142A (ja)
WO (1) WO2019084308A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10885341B2 (en) 2017-10-27 2021-01-05 Sony Interactive Entertainment Inc. Deep reinforcement learning framework for characterizing video content
KR20200084431A (ko) * 2018-12-26 2020-07-13 삼성전자주식회사 신경망 기반의 데이터 처리 방법, 신경망 트레이닝 방법 및 그 장치들
US10860860B1 (en) * 2019-01-03 2020-12-08 Amazon Technologies, Inc. Matching videos to titles using artificial intelligence
WO2020227163A1 (en) * 2019-05-03 2020-11-12 Chad Steelberg Object Tracking and Redaction
CN110164150B (zh) * 2019-06-10 2020-07-24 浙江大学 一种基于时间分配和强化学习的交通信号灯控制方法
US11687778B2 (en) 2020-01-06 2023-06-27 The Research Foundation For The State University Of New York Fakecatcher: detection of synthetic portrait videos using biological signals
US20210295130A1 (en) * 2020-03-19 2021-09-23 Mohammad Rasoolinejad Artificial intelligent agent rewarding method determined by social interaction with intelligent observers
CN112818672A (zh) * 2021-01-26 2021-05-18 山西三友和智慧信息技术股份有限公司 一种基于文本游戏的强化学习情感分析系统
US20220300740A1 (en) * 2021-03-17 2022-09-22 Samsung Electronics Co., Ltd. System and method for enhancing machine learning model for audio/video understanding using gated multi-level attention and temporal adversarial training
CN113313511A (zh) * 2021-04-30 2021-08-27 北京奇艺世纪科技有限公司 一种视频流量预测方法、装置、电子设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001119649A (ja) * 1999-10-22 2001-04-27 Internatl Business Mach Corp <Ibm> 映像の要約方法及び装置
US20150095033A1 (en) * 2013-10-02 2015-04-02 Microsoft Corporation Techniques for updating a partial dialog state

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9916538B2 (en) * 2012-09-15 2018-03-13 Z Advanced Computing, Inc. Method and system for feature detection
US9015084B2 (en) * 2011-10-20 2015-04-21 Gil Thieberger Estimating affective response to a token instance of interest
US9477993B2 (en) 2012-10-14 2016-10-25 Ari M Frank Training a predictor of emotional response based on explicit voting on content and eye tracking to verify attention
US20170178346A1 (en) * 2015-12-16 2017-06-22 High School Cube, Llc Neural network architecture for analyzing video data
US10049279B2 (en) * 2016-03-11 2018-08-14 Qualcomm Incorporated Recurrent networks with motion-based attention for video understanding
US20170262996A1 (en) * 2016-03-11 2017-09-14 Qualcomm Incorporated Action localization in sequential data with attention proposals from a recurrent network
US20180121733A1 (en) * 2016-10-27 2018-05-03 Microsoft Technology Licensing, Llc Reducing computational overhead via predictions of subjective quality of automated image sequence processing
US10885341B2 (en) 2017-10-27 2021-01-05 Sony Interactive Entertainment Inc. Deep reinforcement learning framework for characterizing video content

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001119649A (ja) * 1999-10-22 2001-04-27 Internatl Business Mach Corp <Ibm> 映像の要約方法及び装置
US20150095033A1 (en) * 2013-10-02 2015-04-02 Microsoft Corporation Techniques for updating a partial dialog state

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GOREN GORDON ET AL: "Affective Personalization of a Social Robot Tutor for Children’s Second Language Skills", PROCEEDINGS OF THE 30TH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE, JPN7021002736, 12 February 2016 (2016-02-12), ISSN: 0004554484 *
MICHAEL XUELIN HUANG ET AL: "Identifying User-Specific Facial Affects from Spontaneous Expressions with Minimal Annotation", IEEE TRANSACTIONS ON AFFECTIVE COMPUTING, vol. Volume: 7, Issue: 4, JPN7021002735, 27 October 2015 (2015-10-27), US, pages 360 - 373, ISSN: 0004554485 *

Also Published As

Publication number Publication date
EP3701436A4 (en) 2020-12-16
US20220327828A1 (en) 2022-10-13
EP3701436A1 (en) 2020-09-02
US11829878B2 (en) 2023-11-28
US11386657B2 (en) 2022-07-12
US20210124930A1 (en) 2021-04-29
JP7047087B2 (ja) 2022-04-04
US10885341B2 (en) 2021-01-05
CN111837142A (zh) 2020-10-27
US20190163977A1 (en) 2019-05-30
WO2019084308A1 (en) 2019-05-02

Similar Documents

Publication Publication Date Title
JP7047087B2 (ja) ビデオコンテンツを特徴付けるための深層強化学習フレームワーク
JP7210774B2 (ja) テキストに基づくアバターの行動制御方法、デバイス及びコンピュータプログラム
CN111209440B (zh) 一种视频播放方法、装置和存储介质
KR102488530B1 (ko) 동영상을 생성하기 위한 방법 및 장치
CN110234018B (zh) 多媒体内容描述生成方法、训练方法、装置、设备及介质
US20180121733A1 (en) Reducing computational overhead via predictions of subjective quality of automated image sequence processing
WO2019056628A1 (zh) 关注点文案的生成
JP2022525272A (ja) 選択的な動きの描画を伴う画像表示
CN109919221B (zh) 基于双向双注意力机制图像描述方法
CN111708941A (zh) 内容推荐方法、装置、计算机设备和存储介质
EP3267333A1 (en) Local processing of biometric data for a content selection system
JP2015162244A (ja) 発話ワードをランク付けする方法、プログラム及び計算処理システム
Zhou et al. Responsive listening head generation: a benchmark dataset and baseline
CN114339450B (zh) 视频评论生成方法、系统、设备及存储介质
CN114238690A (zh) 视频分类的方法、装置及存储介质
CN115114395A (zh) 内容检索及模型训练方法、装置、电子设备和存储介质
JP2022020659A (ja) 通話中の感情を認識し、認識された感情を活用する方法およびシステム
WO2023236469A1 (zh) 一种视频行为识别方法、装置、电子设备及存储介质
Aspandi et al. Audio-visual gated-sequenced neural networks for affect recognition
CN115238126A (zh) 搜索结果重排序方法、装置、设备及计算机存储介质
CN112579884B (zh) 一种用户偏好估计方法及装置
JP7152908B2 (ja) 仕草制御装置及び仕草制御プログラム
KR102303626B1 (ko) 단일 이미지에 기반하여 비디오 데이터를 생성하기 위한 방법 및 컴퓨팅 장치
US11983807B2 (en) Automatically generating motions of an avatar
WO2024066549A1 (zh) 一种数据处理方法及相关设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200608

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210709

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210720

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210907

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220323

R150 Certificate of patent or registration of utility model

Ref document number: 7047087

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150