JP2021501416A - ビデオコンテンツを特徴付けるための深層強化学習フレームワーク - Google Patents
ビデオコンテンツを特徴付けるための深層強化学習フレームワーク Download PDFInfo
- Publication number
- JP2021501416A JP2021501416A JP2020523759A JP2020523759A JP2021501416A JP 2021501416 A JP2021501416 A JP 2021501416A JP 2020523759 A JP2020523759 A JP 2020523759A JP 2020523759 A JP2020523759 A JP 2020523759A JP 2021501416 A JP2021501416 A JP 2021501416A
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- time step
- frame
- faces
- emotional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Television Signal Processing For Recording (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
本出願は、2017年10月27日に出願された米国仮特許出願第62/577,970号の優先権の利益を主張しており、その全内容は参照により本明細書に組み込まれている。
高いレベルにおいて、本開示の背後にある概念は、トライアンドエラー機構を通して情緒的ラベルでビデオコンテンツに注釈を付けるためのシステムを改善するために人工知能(AI)アプローチを使用することである。強化学習(RL)は、経験依存型自律学習法のためのフレームワークである。RLの範囲において、すなわち規定された分野において深層学習を用いることで、「深層強化学習」(DRL)は、機械学習の分野において革命的な役割を果たしている。DRLの台頭は主に2つの側面から生じている。第1の側面は、ディープニューラルネットワーク(DNN)の強力な関数近似と、表現学習特性である。DNNによって、高次元のデータ(例えば画像、音声及びテキスト)から低次元の特徴表現を取得することができ、これにより、DRLが高次元の状態及び行動空間によって意思決定の問題を解決することが可能になる。第2の側面は、RLの「探索と搾取」の特性である。探索は、より多くの情報を集めることに関連しており、このことはシステムが、それらが以前に試したものよりも優れているかどうか知るために様々な可能性のある試みを探索することを意味している。搾取は、システムが、現在の情報が与えられたならば最適な決定をすることを保証しており、これは、システムが、過去に最も上手くいった方法を記憶することを意味している。これら2つの利点は、多くの他の従来の教師あり学習法に対するかなりの進歩である。
映画のシーンのクリップは、異なる様式に従うデータサンプルのシーケンスとみなすことができる。例えば、発話様式から、クリップは音声信号を含んでよく、視覚様式からは、各映画のシーンのクリップの範囲内の画像フレームのシーケンスが存在してよい。情緒的ラベルの推定タスクの場合、人の注釈者は、正確なラベルを取得するために動的な時間的な情緒的情報を処理する必要がある。RL利用の場合、エージェントの行動決定は、強力な時間的な相関関係も含んでおり、報酬と合わせた現在の行動決定はまた、これ以前のステップにも依存している。よって、映画のクリップに関する情緒的ラベルを推定するためにRLを利用することが試みられている。
本開示の態様によると、新規のDRLフレームワークには、環境の状態とエージェントの行動との間の相互作用が含まれる。提案されるRLフレームワークが、図1に概略的に例示されている。
情緒的ラベルの分類データセットが、元のビデオデータ、例えば元の映画と、対応する注釈ファイルから作成されてよい。一例として、映画におけるシーンの面白いか、そうでないなどのラベル付けは、映画のビデオチャネルに描かれる特定の特徴、具体的にはキャラクタの顔に焦点を合わせる場合がある。このような顔の画像のシーケンスは、ビデオから事前に抽出され、我々のシステムへの入力として利用される。各フレームにおいて顔を検出するために、dlib及びopenCVなどの標準的な顔検出ライブラリを使用して、各連続するフレームにおいて元のビデオから顔の画像を抽出してよい。1つのフレームが複数の顔を含んでいる場合、フレームの中心に最も近いものが選択されてよい。このような選択の裏にある直感的知識は、複数の顔がスクリーン上で示されるとき、そのシーンの情緒的情報を独占するためにメインキャラクタの顔がスクリーンの中央に位置決めされる可能性がかなり高いというものである。加えて、このような基準によって選択された顔はまた、他の検出された顔と比べて所定の範囲において最も大きくなる場合が多い。
映画からトリミングした顔の画像からの直接のトレーニングの代わりに、追加の顔の表現のデータセットを使用して、顔の表現の埋め込みを生成してもよい。限定ではなく例として、異なる顔の表現ラベルを分類するために、畳み込みニューラルネットワーク(CNN)でトレーニングされたニューラルネットワークが使用されてもよい。
一実施態様では、本開示の態様に従って、ディープQ−ネットワーク(DQN)がRLフレームワークと共に使用されてよい。DQNの入力には、2つの部分が含まれてよく、a)上記で考察した顔の埋め込みモデルの事前にトレーニングされたCNNの最後から2番目の層の出力であり得る顔の表現の埋め込みと、2)推定される情緒的情報の入力ベクトルであり、これには、上記で考察したように、時間ステップtにおけるビデオフレームデータと、前の時間ステップt−1からの推定される情緒的情報とが含まれる。情緒的情報の入力の2つの完全に接続された層が加えられ、顔の表現の埋め込みと連結されて3つの追加の全結合層とさらに接続される。DQNの最後の層において、ネットワークは、別個の二次元行動を出力してよい。そのような実施態様では、情緒的ラベルの推定は、情緒的ラベルに関する二進法の分類決定として機能し、例えば面白いか、面白くないかのワンホット二次元ベクトルとして機能する。
図3に示されるフロー図は、本開示の態様による、ビデオシーンのシーケンスレベルの推定を実行するための方法の一例を描いている。方法は、ビデオシーンにおけるビデオ情報を特徴が描かれた各フレームのシーケンスとして表すことによって302において始まる。限定ではなく例として、特徴のシーケンスは、ビデオシーンに現れる顔のシーケンスであってよい。顔のシーケンスは、ビデオシーンにおける個々のキャラクタの顔のシーケンスであってよい。複数の顔がビデオシーンに示される場合、顔のシーケンスは、そのシーンの中央に位置する顔のシーケンスであってよい。次に、304に示すように、各フレームに対応する各時間ステップtに関する環境の状態が、時間ステップtに関するビデオ情報と、前の時間ステップt−1からの推定される情緒的情報とによって表される。306に示すように、ステップtにおけるフレームに関して、機械学習アルゴリズムによって制御されるエージェントによって行動A(t)が取られる。行動A(t)の出力は、時間ステップtにおけるフレームに関する情緒的ラベルの推定を表している。限定ではなく例として、時間ステップtにおける情緒的ラベルの推定は、そのビデオシーンが面白いか、面白くないかを表してもよい。しかしながら代替の実施態様では、情緒的ラベルの推定は、そのビデオシーンが悲しいか、悲しくないかを表す場合もある。
図4は、図3に示されるものと同様の方法を実施するためのシステムを描いている。システムは、ユーザ入力デバイス402に結合されたコンピューティングデバイス400を含んでもよい。ユーザ入力デバイス402は、コントローラ、タッチスクリーン、マイクロフォン、キーボード、マウス、ジョイスティック、または音データを含めた情報をユーザがシステムに入力するのを可能にする他のデバイスであってもよい。ユーザ入力デバイスは、触覚フィードバックデバイス421に結合されてもよい。触覚フィードバックデバイス421は、例えば、振動モータ、力フィードバックシステム、超音波フィードバックシステムまたは空気圧フィードバックシステムであってもよい。
Claims (24)
- ビデオシーンのシーケンスレベルの推定を実行するための方法であって、
前記ビデオシーンにおけるビデオ情報を特徴が描かれた各フレームのシーケンスとして表すことと、
各フレームに対応する各時間ステップtに関する環境の状態を時間ステップtに関する前記ビデオ情報と、前の時間ステップt−1からの推定される情緒的情報とによって表すことと、
ステップtにおける前記フレームに関して、機械学習アルゴリズムによって制御されるエージェントによって行動A(t)を取り、前記行動A(t)の出力は、前記時間ステップtにおける前記フレームに関する情緒的ラベルの推定を表すことと、
推定される行動のプールを次の時間ステップt+1における推定される情緒的履歴に変換することと、
前記推定の情緒的履歴を前記次の時間ステップt+1に関する前記環境の状態の一部として含むことと、
それらを対応する注釈付きの映画のシーンの情緒的ラベルと比較することによって、現在の時間ステップtまでの推定される行動に対して報酬Rを生成することとを含む、方法。 - 前記時間ステップtにおける前記情緒的ラベルの推定は、前記ビデオシーンが面白いか、面白くないかを表している、請求項1に記載の方法。
- 前記報酬Rの値は、前記時間ステップtにおける前記現在のフレームまでのフレームレベルの情緒的ラベルの推定結果の過半数の票に基づいている、請求項1に記載の方法。
- 前記報酬Rの値は、前記フレームレベルの結果の最小パーセンテージの票に基づいている、請求項1に記載の方法。
- 前記報酬Rの値は、人のラベルが利用できるフレームまでゼロである、請求項1に記載の方法。
- 特徴の前記シーケンスは、前記ビデオシーンに現れる顔のシーケンスである、請求項1に記載の方法。
- 顔の前記シーケンスは、前記ビデオシーンにおける個々のキャラクタの顔のシーケンスである、請求項6に記載の方法。
- 顔の前記シーケンスは、前記ビデオシーンにおける個々のキャラクタの顔のシーケンスであり、複数の顔が前記ビデオシーンに示される場合、顔の前記シーケンスは、前記シーンの中央に位置する顔のシーケンスである、請求項6に記載の方法。
- プロセッサと、
前記プロセッサに結合されたメモリと、
前記メモリに埋め込まれたプロセッサ実行可能命令であって、実行される際、以下の、ビデオシーンにおけるビデオ情報を特徴が描かれた各フレームのシーケンスとして表し、
各フレームに対応する各時間ステップtに関する環境の状態を時間ステップtに関する前記ビデオ情報と、前の時間ステップt−1からの推定される情緒的情報とによって表し、
ステップtにおける前記フレームに関して、機械学習アルゴリズムによって制御されるエージェントによって行動A(t)を取り、前記行動A(t)の出力は、前記時間ステップtにおける前記フレームに関する情緒的ラベルの推定を表し、
推定される行動のプールを次の時間ステップt+1における推定される情緒的履歴に変換し、
前記推定の情緒的履歴を前記次の時間ステップt+1に関する前記環境の状態の一部として含み、
それらを対応する注釈付きの映画のシーンの情緒的ラベルと比較することによって、現在の時間ステップtまでの推定される行動に対して報酬Rを生成することを前記プロセッサに実行させるように構成されている、前記プロセッサ実行可能命令とを備える、ビデオシーンのシーケンスレベルの推定を実行するためのシステム。 - 前記時間ステップtにおける前記情緒的ラベルの推定は、前記ビデオシーンが面白いか、面白くないかを表している、請求項9に記載のシステム。
- 前記報酬Rの値は、前記時間ステップtにおける前記現在のフレームまでのフレームレベルの情緒的ラベルの推定結果の過半数の票に基づいている、請求項9に記載のシステム。
- 前記報酬Rの値は、前記フレームレベルの結果の最小パーセンテージの票に基づいている、請求項9に記載のシステム。
- 前記報酬Rの値は、人のラベルが利用できるフレームまでゼロである、請求項9に記載のシステム。
- 特徴の前記シーケンスは、前記ビデオシーンに現れる顔のシーケンスである、請求項9に記載のシステム。
- 顔の前記シーケンスは、前記ビデオシーンにおける個々のキャラクタの顔のシーケンスである、請求項14に記載のシステム。
- 顔の前記シーケンスは、前記ビデオシーンにおける個々のキャラクタの顔のシーケンスであり、複数の顔が前記ビデオシーンに示される場合、顔の前記シーケンスは、前記シーンの中央に位置する顔のシーケンスである、請求項14に記載のシステム。
- 内部に埋め込まれた実行可能命令を有し、前記命令は、実行される際、以下の、
ビデオシーンにおけるビデオ情報を特徴が描かれた各フレームのシーケンスとして表し、
各フレームに対応する各時間ステップtに関する環境の状態を時間ステップtに関する前記ビデオ情報と、前の時間ステップt−1からの推定される情緒的情報とによって表し、
ステップtにおける前記フレームに関して、機械学習アルゴリズムによって制御されるエージェントによって行動A(t)を取り、前記行動A(t)の出力は、前記時間ステップtにおける前記フレームに関する情緒的ラベルの推定を表し、
推定される行動のプールを次の時間ステップt+1における推定される情緒的履歴に変換し、
前記推定の情緒的履歴を前記次の時間ステップt+1に関する前記環境の状態の一部として含み、
それらを対応する注釈付きの映画のシーンの情緒的ラベルと比較することによって、現在の時間ステップtまでの推定される行動に対して報酬Rを生成することをコンピュータに実行させるように構成されている非一時的コンピュータ可読媒体。 - 前記時間ステップtにおける前記情緒的ラベルの推定は、前記ビデオシーンが面白いか、面白くないかを表している、請求項17に記載の非一時的コンピュータ可読媒体。
- 前記報酬Rの値は、前記時間ステップtにおける前記現在のフレームまでのフレームレベルの情緒的ラベルの推定結果の過半数の票に基づいている、請求項17に記載の非一時的コンピュータ可読媒体。
- 前記報酬Rの値は、前記フレームレベルの結果の最小パーセンテージの票に基づいている、請求項17に記載の非一時的コンピュータ可読媒体。
- 前記報酬Rの値は、人のラベルが利用できるフレームまでゼロである、請求項17に記載の非一時的コンピュータ可読媒体。
- 特徴の前記シーケンスは、前記ビデオシーンに現れる顔のシーケンスである、請求項17に記載の非一時的コンピュータ可読媒体。
- 顔の前記シーケンスは、前記ビデオシーンにおける個々のキャラクタの顔のシーケンスである、請求項22に記載の非一時的コンピュータ可読媒体。
- 顔の前記シーケンスは、前記ビデオシーンにおける個々のキャラクタの顔のシーケンスであり、複数の顔が前記ビデオシーンに示される場合、顔の前記シーケンスは、前記シーンの中央に位置する顔のシーケンスである、請求項22に記載の非一時的コンピュータ可読媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762577970P | 2017-10-27 | 2017-10-27 | |
US62/577,970 | 2017-10-27 | ||
PCT/US2018/057573 WO2019084308A1 (en) | 2017-10-27 | 2018-10-25 | DEEP REINFORCING LEARNING FRAMEWORK FOR CHARACTERIZING VIDEO CONTENT |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021501416A true JP2021501416A (ja) | 2021-01-14 |
JP7047087B2 JP7047087B2 (ja) | 2022-04-04 |
Family
ID=66246721
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020523759A Active JP7047087B2 (ja) | 2017-10-27 | 2018-10-25 | ビデオコンテンツを特徴付けるための深層強化学習フレームワーク |
Country Status (5)
Country | Link |
---|---|
US (3) | US10885341B2 (ja) |
EP (1) | EP3701436A4 (ja) |
JP (1) | JP7047087B2 (ja) |
CN (1) | CN111837142A (ja) |
WO (1) | WO2019084308A1 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10885341B2 (en) | 2017-10-27 | 2021-01-05 | Sony Interactive Entertainment Inc. | Deep reinforcement learning framework for characterizing video content |
KR20200084431A (ko) * | 2018-12-26 | 2020-07-13 | 삼성전자주식회사 | 신경망 기반의 데이터 처리 방법, 신경망 트레이닝 방법 및 그 장치들 |
US10860860B1 (en) * | 2019-01-03 | 2020-12-08 | Amazon Technologies, Inc. | Matching videos to titles using artificial intelligence |
WO2020227163A1 (en) * | 2019-05-03 | 2020-11-12 | Chad Steelberg | Object Tracking and Redaction |
CN110164150B (zh) * | 2019-06-10 | 2020-07-24 | 浙江大学 | 一种基于时间分配和强化学习的交通信号灯控制方法 |
US11687778B2 (en) | 2020-01-06 | 2023-06-27 | The Research Foundation For The State University Of New York | Fakecatcher: detection of synthetic portrait videos using biological signals |
US20210295130A1 (en) * | 2020-03-19 | 2021-09-23 | Mohammad Rasoolinejad | Artificial intelligent agent rewarding method determined by social interaction with intelligent observers |
CN112818672A (zh) * | 2021-01-26 | 2021-05-18 | 山西三友和智慧信息技术股份有限公司 | 一种基于文本游戏的强化学习情感分析系统 |
US20220300740A1 (en) * | 2021-03-17 | 2022-09-22 | Samsung Electronics Co., Ltd. | System and method for enhancing machine learning model for audio/video understanding using gated multi-level attention and temporal adversarial training |
CN113313511A (zh) * | 2021-04-30 | 2021-08-27 | 北京奇艺世纪科技有限公司 | 一种视频流量预测方法、装置、电子设备及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001119649A (ja) * | 1999-10-22 | 2001-04-27 | Internatl Business Mach Corp <Ibm> | 映像の要約方法及び装置 |
US20150095033A1 (en) * | 2013-10-02 | 2015-04-02 | Microsoft Corporation | Techniques for updating a partial dialog state |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9916538B2 (en) * | 2012-09-15 | 2018-03-13 | Z Advanced Computing, Inc. | Method and system for feature detection |
US9015084B2 (en) * | 2011-10-20 | 2015-04-21 | Gil Thieberger | Estimating affective response to a token instance of interest |
US9477993B2 (en) | 2012-10-14 | 2016-10-25 | Ari M Frank | Training a predictor of emotional response based on explicit voting on content and eye tracking to verify attention |
US20170178346A1 (en) * | 2015-12-16 | 2017-06-22 | High School Cube, Llc | Neural network architecture for analyzing video data |
US10049279B2 (en) * | 2016-03-11 | 2018-08-14 | Qualcomm Incorporated | Recurrent networks with motion-based attention for video understanding |
US20170262996A1 (en) * | 2016-03-11 | 2017-09-14 | Qualcomm Incorporated | Action localization in sequential data with attention proposals from a recurrent network |
US20180121733A1 (en) * | 2016-10-27 | 2018-05-03 | Microsoft Technology Licensing, Llc | Reducing computational overhead via predictions of subjective quality of automated image sequence processing |
US10885341B2 (en) | 2017-10-27 | 2021-01-05 | Sony Interactive Entertainment Inc. | Deep reinforcement learning framework for characterizing video content |
-
2018
- 2018-10-25 US US16/171,018 patent/US10885341B2/en active Active
- 2018-10-25 CN CN201880069825.5A patent/CN111837142A/zh active Pending
- 2018-10-25 WO PCT/US2018/057573 patent/WO2019084308A1/en unknown
- 2018-10-25 EP EP18871311.9A patent/EP3701436A4/en active Pending
- 2018-10-25 JP JP2020523759A patent/JP7047087B2/ja active Active
-
2021
- 2021-01-04 US US17/141,028 patent/US11386657B2/en active Active
-
2022
- 2022-06-29 US US17/852,602 patent/US11829878B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001119649A (ja) * | 1999-10-22 | 2001-04-27 | Internatl Business Mach Corp <Ibm> | 映像の要約方法及び装置 |
US20150095033A1 (en) * | 2013-10-02 | 2015-04-02 | Microsoft Corporation | Techniques for updating a partial dialog state |
Non-Patent Citations (2)
Title |
---|
GOREN GORDON ET AL: "Affective Personalization of a Social Robot Tutor for Children’s Second Language Skills", PROCEEDINGS OF THE 30TH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE, JPN7021002736, 12 February 2016 (2016-02-12), ISSN: 0004554484 * |
MICHAEL XUELIN HUANG ET AL: "Identifying User-Specific Facial Affects from Spontaneous Expressions with Minimal Annotation", IEEE TRANSACTIONS ON AFFECTIVE COMPUTING, vol. Volume: 7, Issue: 4, JPN7021002735, 27 October 2015 (2015-10-27), US, pages 360 - 373, ISSN: 0004554485 * |
Also Published As
Publication number | Publication date |
---|---|
EP3701436A4 (en) | 2020-12-16 |
US20220327828A1 (en) | 2022-10-13 |
EP3701436A1 (en) | 2020-09-02 |
US11829878B2 (en) | 2023-11-28 |
US11386657B2 (en) | 2022-07-12 |
US20210124930A1 (en) | 2021-04-29 |
JP7047087B2 (ja) | 2022-04-04 |
US10885341B2 (en) | 2021-01-05 |
CN111837142A (zh) | 2020-10-27 |
US20190163977A1 (en) | 2019-05-30 |
WO2019084308A1 (en) | 2019-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7047087B2 (ja) | ビデオコンテンツを特徴付けるための深層強化学習フレームワーク | |
JP7210774B2 (ja) | テキストに基づくアバターの行動制御方法、デバイス及びコンピュータプログラム | |
CN111209440B (zh) | 一种视频播放方法、装置和存储介质 | |
KR102488530B1 (ko) | 동영상을 생성하기 위한 방법 및 장치 | |
CN110234018B (zh) | 多媒体内容描述生成方法、训练方法、装置、设备及介质 | |
US20180121733A1 (en) | Reducing computational overhead via predictions of subjective quality of automated image sequence processing | |
WO2019056628A1 (zh) | 关注点文案的生成 | |
JP2022525272A (ja) | 選択的な動きの描画を伴う画像表示 | |
CN109919221B (zh) | 基于双向双注意力机制图像描述方法 | |
CN111708941A (zh) | 内容推荐方法、装置、计算机设备和存储介质 | |
EP3267333A1 (en) | Local processing of biometric data for a content selection system | |
JP2015162244A (ja) | 発話ワードをランク付けする方法、プログラム及び計算処理システム | |
Zhou et al. | Responsive listening head generation: a benchmark dataset and baseline | |
CN114339450B (zh) | 视频评论生成方法、系统、设备及存储介质 | |
CN114238690A (zh) | 视频分类的方法、装置及存储介质 | |
CN115114395A (zh) | 内容检索及模型训练方法、装置、电子设备和存储介质 | |
JP2022020659A (ja) | 通話中の感情を認識し、認識された感情を活用する方法およびシステム | |
WO2023236469A1 (zh) | 一种视频行为识别方法、装置、电子设备及存储介质 | |
Aspandi et al. | Audio-visual gated-sequenced neural networks for affect recognition | |
CN115238126A (zh) | 搜索结果重排序方法、装置、设备及计算机存储介质 | |
CN112579884B (zh) | 一种用户偏好估计方法及装置 | |
JP7152908B2 (ja) | 仕草制御装置及び仕草制御プログラム | |
KR102303626B1 (ko) | 단일 이미지에 기반하여 비디오 데이터를 생성하기 위한 방법 및 컴퓨팅 장치 | |
US11983807B2 (en) | Automatically generating motions of an avatar | |
WO2024066549A1 (zh) | 一种数据处理方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200608 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210709 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210720 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210907 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220222 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220323 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7047087 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |