JP7374430B2 - 動画像処理装置、動画像処理方法及び動画像処理プログラム - Google Patents
動画像処理装置、動画像処理方法及び動画像処理プログラム Download PDFInfo
- Publication number
- JP7374430B2 JP7374430B2 JP2019137731A JP2019137731A JP7374430B2 JP 7374430 B2 JP7374430 B2 JP 7374430B2 JP 2019137731 A JP2019137731 A JP 2019137731A JP 2019137731 A JP2019137731 A JP 2019137731A JP 7374430 B2 JP7374430 B2 JP 7374430B2
- Authority
- JP
- Japan
- Prior art keywords
- moving image
- effect
- gesture
- moving
- effects
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 80
- 238000003672 processing method Methods 0.000 title claims description 9
- 230000000694 effects Effects 0.000 claims description 268
- 230000015572 biosynthetic process Effects 0.000 claims description 40
- 238000003786 synthesis reaction Methods 0.000 claims description 40
- 238000010801 machine learning Methods 0.000 claims description 33
- 238000006243 chemical reaction Methods 0.000 claims description 28
- 238000000034 method Methods 0.000 claims description 24
- 230000002194 synthesizing effect Effects 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 13
- 230000033001 locomotion Effects 0.000 claims description 13
- 239000000284 extract Substances 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 32
- 239000013598 vector Substances 0.000 description 20
- 238000004891 communication Methods 0.000 description 14
- 210000000707 wrist Anatomy 0.000 description 14
- 210000004247 hand Anatomy 0.000 description 12
- 238000012549 training Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 239000002131 composite material Substances 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 241000282326 Felis catus Species 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 241000251468 Actinopterygii Species 0.000 description 1
- 235000001808 Ceanothus spinosus Nutrition 0.000 description 1
- 241001264786 Ceanothus spinosus Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 210000003423 ankle Anatomy 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 210000003746 feather Anatomy 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 210000002832 shoulder Anatomy 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Studio Circuits (AREA)
- Image Analysis (AREA)
Description
本発明は、動画像内の運動体によるジェスチャーによってエフェクトを合成するようにした動画像処理装置、動画像処理方法及び動画像処理プログラムを提供することを目的としている。
請求項1の発明は、運動体が撮影された動画像を受け付ける受付手段と、前記動画像から運動体によるジェスチャーを抽出する抽出手段と、前記抽出手段によって抽出されたジェスチャーに対応するエフェクトを、前記動画像に合成する合成手段を有する動画像処理装置である。
図1は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(「ソフトウェア」の解釈として、コンピュータ・プログラムを含む)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(例えば、コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するという意味である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(例えば、データの授受、指示、データ間の参照関係、ログイン等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態にしたがって、又はそれまでの状況・状態にしたがって定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、2以上の値(「2以上の値」には、もちろんのことながら、全ての値も含む)が同じであってもよい。また、「Aである場合、Bをする」という記載は、「Aであるか否かを判断し、Aであると判断した場合はBをする」の意味で用いる。ただし、Aであるか否かの判断が不要である場合を除く。また、「A、B、C」等のように事物を列挙した場合は、断りがない限り例示列挙であり、その1つのみを選んでいる場合(例えば、Aのみ)を含む。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(「ネットワーク」には、一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(つまり、社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスクドライブ、RAM(Random Access Memoryの略)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unitの略)内のレジスタ等を含んでいてもよい。
動画像処理装置100は、動画像に撮影されている運動体がジェスチャー(予め定められた動作)を行った場合に、エフェクトをかけるようにしている。
ここで「運動体」は、撮影可能な物体であって、予め定められたジェスチャーの動作が可能なものである。例えば、運動体には、動物、機械を含む。より具体的には、人間、犬、猫、馬、鳥、魚等の動物であってもよいし、ロボット、自動車等の機械であってもよい。また、1フレーム内に複数の運動体があってもよいし、その複数の運動体には、複数の種類のものが混在していてもよい。例えば、複数人の人間が撮影されていてもよいし、人間と犬、人間とロボットのように、異なる種類の運動体が撮影されていてもよい。予め定められたジェスチャーとして、例えば、人間であれば手を振る等、猫であれば前足で顔をなでる等、自動車であれば、右折する、左折する、ワイパーの動作等がある。また、1つの運動体による動作だけでなく、複数の運動体による動作をジェスチャーに加えてもよい。例えば、二人の人間が手をつないでいる等の動作を、対象とするジェスチャーとしてもよい。
動画像を受け付けるとは、例えば、デジタルビデオカメラ(WEBカメラといわれるものを含む)等で撮影すること、ハードディスク(動画像処理装置100に内蔵されているものの他に、ネットワークを介して接続されているもの等を含む)等に記憶されている動画像を読み出すこと等が含まれる。なお、動画像の内容としては、運動体が撮影されている可能性のあるものであればよい。
(1)OpenPose
https://github.com/CMU-Perceptual-Computing-Lab/openpose
(2)VisionPose
https://www.next-system.com/visionpose
また、ジェスチャー認識モジュール120は、動画像受付モジュール105が受け付けた動画像から運動体の骨格を認識し、その骨格の動きを用いて、ジェスチャーを抽出するようにしてもよい。例えば、骨格構造記述モジュール115によって記述された部位の関係又は動作を用いて、予め定められたジェスチャーを抽出すればよい。具体的には、前述の例で部位Aが右手首、部位Bが左手首である場合、予め定められたジェスチャーとして「手首が振られている」があれば、「部位Aが振られている」との動作がそれに該当するジェスチャーとして認識されることになる。。
なお、エフェクト発生モジュール125が抽出するエフェクトは、1つであってもよいし、複数であってもよい。
手動エフェクト指示モジュール135は、エフェクト発生モジュール125、操作機械学習モジュール150と接続されている。手動エフェクト指示モジュール135は、操作者の操作に応じて、エフェクト発生モジュール125によって抽出されたエフェクトを、動画像受付モジュール105が受け付けた動画像に合成するタイミングをエフェクト合成モジュール140に対して指示する。また、エフェクト発生モジュール125によって抽出されたエフェクトが複数ある場合は、合成するエフェクトを操作者の操作に応じて選択するようにしてもよい。また、エフェクトを合成する位置を指定してもよい。このユーザーインタフェースについては、図9、図10、図11、図12の例を用いて後述する。なお、この操作者の操作を学習データとして、操作機械学習モジュール150によって機械学習するようにしてもよい。
なお、エフェクト合成モジュール140は、操作者による操作に応じて合成処理を行うこと(手動エフェクト指示モジュール135による操作者の操作)、操作機械学習モジュール150によって機械学習された学習モデルを用いて合成処理を行うこと(エフェクト自動指示モジュール130による指示)、又は、これらの組み合わせによって合成処理を行うこと、のいずれかを行う。したがって、操作機械学習モジュール150における機械学習の教師モデルとしてなるデータは、操作者による操作によって発生するデータであってもよいし、学習モデルを用いて発生するデータであってもよい。
また、エフェクト合成モジュール140は、運動体の骨格に合わせて、元のエフェクトを変形し、その変形後のエフェクトを、動画像受付モジュール105が受け付けた動画像に合成するようにしてもよい。
そして、その場合、エフェクト合成モジュール140は、予め定められたストーリーにしたがって、エフェクトを選択するようにしてもよい。例えば、ストーリーとして「恋愛」があり、そのエフェクトとして「ハートマークの画像」等が用意されている。また、ストーリーが「争い」であれば、そのエフェクトとして「稲妻マークの画像」等が用意されている。
そして、操作機械学習モジュール150は、その取得された観客の反応、動画像受付モジュール105が受け付けた動画像(又は、ジェスチャーを認識したフレームの静止画像、その静止画像内のジェスチャーが撮影された一部分の画像等であってもよい。)、ジェスチャー、エフェクト、合成に関する情報を用いて、動画像に合成するエフェクトに関する処理を機械学習する。合成に関する情報として、手動エフェクト指示モジュール135によって行われた操作者の操作、エフェクト自動指示モジュール130によって行われた指示があり、具体的には、エフェクトの選択、エフェクトを合成するタイミング、位置等がある。
カメラシステム200は、動画像を撮影し、その動画像を動画像処理装置100に送信する。
動画像処理装置100は、カメラシステム200が撮影した動画像に対して、エフェクト効果をリアルタイムに付加する。
ユーザー端末250、大画面表示装置260は、エフェクトが重畳された動画像のリアルタイム放送を受信し、その動画像を再生する。例えば、ユーザー端末250として、パソコン、携帯情報通信機器等があり、大画面表示装置260として、デジタルサイネージ用ディスプレイ、コンサート会場等での大画面ディスプレイ等が該当する。動画像処理装置100とユーザー端末250、大画面表示装置260間の通信回線は、無線、有線、これらの組み合わせであってもよく、例えば、通信インフラとしてのインターネット、イントラネット等であってもよいし、専用回線で構築してもよい。
例えば、コンサート会場で、出場者をカメラシステム200で撮影し、その出場者があるジェスチャーを行うと、その動画像にエフェクトがかかり、そのコンサート会場にある大画面表示装置260で映し出される。大画面表示装置260でエフェクトがかかった映像を見た観客の反応を、動画像処理装置100は観測する。観客の反応として、例えば、マイクを用いて、観客の音声を収集してもよいし、カメラを用いて、手を挙げる等の観客の動作等を撮影してもよい。音量が予め定められた閾値以上になった、手を挙げる人数が予め定められた閾値以上になった等の場合、そのときのエフェクト等を正の教師データとして、逆に、ブーイング等の音声を検知した場合、手を下げる人数が予め定められた閾値以上になった等の場合、そのときのエフェクト等を負の教師データとして、機械学習を行うようにしてもよい。
ステップS302では、動画像を受け付ける。
図5は、ベクトル表現テーブル500のデータ構造例を示す説明図である。ベクトル表現テーブル500は、ベクトルID欄510、部位欄520、開始点欄530、終了点欄540を有しており、開始点欄530は、日時欄532、開始点座標欄534を有しており、終了点欄540は、日時欄542、終了点座標欄544を有している。ベクトルID欄510は、本実施の形態において、部位の動きを示すベクトルを一意に識別するための情報(具体的にはベクトルID:IDentificationの略)を記憶している。部位欄520は、部位の名称を記憶している。開始点欄530は、その部位の開始点(一方の端点)を記憶している。日時欄532は、開始点を測定した日時を記憶している。開始点座標欄534は、開始点の座標を記憶している。終了点欄540は、その部位の終了点(他方の端点)を記憶している。日時欄542は、終了点を測定した日時を記憶している。終了点座標欄544は、終了点の座標を記憶している。
図7は、ジェスチャー認識テーブル700のデータ構造例を示す説明図である。ジェスチャー認識テーブル700は、ジェスチャー欄705、パターン欄710を有している。ジェスチャー欄705は、ジェスチャーを記憶している。パターン欄710は、そのジェスチャーを示すパターンを記憶している。パターンには、部位の動きが記憶されている。例えば、ジェスチャーを構成する各部位についての骨格構造管理テーブル600に相当するデータである。ステップS306で生成された骨格構造管理テーブル600と、ジェスチャー認識テーブル700のパターン欄710を比較して、差異が予め定められた閾値以下であれば、そのパターンに合致したと判断して、そのパターンに対応するジェスチャーであると認識する。また、パターンとして、部位のサイズ(例えば、腕の長さ、肩幅等)を含めるようにしてもよい。これによって、例えば、子供又は大人だけのジェスチャーを抽出できるようになる。さらに、パターンとして、部位の角度(例えば、肘から手首の方向等)、複数の部位の位置関係(例えば、肩、手首、足首等の位置関係、二人の間の距離等)を含めるようにしてもよい。具体的には、パターンとして、鼻より右手首が高い位置にあること、隣の人との手首の距離が予め定められた閾値以下になったこと等を示すデータとなる。
ステップS308では、関節座標の遷移、座標間の(時系列、又は、空間的)関係から、手を挙げる、手を振る、手を繋ぐ等のジェスチャーを検出することになる。この検出によって、エフェクトの合成の開始のタイミングを決めるようにしてもよい。また、そのジェスチャーが終了したことも検出できる。つまり、パターンに合致しなくなったときが、そのジェスチャーが終了したことを示している。この終了を検出することによって、エフェクトの合成の終了のタイミングを決めるようにしてもよい。
図9、図10、図11、図12の例にエフェクト切替ボタンと位置指定ボタンをそれぞれラジオボタンとして配置する。なお、物理的なボタンであってもよいが、ディスプレイやタッチパネルに表示するものであってもよい。また、キーボードのキーやテンキーにその機能を割り当ててもよい。また、位置指定ボタンの代わりに、動画像を表示しているタッチパネルである表示装置そのものに、エフェクトを合成する位置に指等を接触させるようにしてもよい。
画面900には、エフェクト切替ボタンであるエフェクト1ボタン902、エフェクト2ボタン904、エフェクト3ボタン906と、位置指定ボタンである左肩ボタン908、右肩ボタン910、左背景ボタン912、右背景ボタン914を表示する。例えば、エフェクト1ボタン902は、ハートマーク型の画像に対応し、エフェクト2ボタン904は、星型の画像に対応し、エフェクト3ボタン906は、稲妻型の画像に対応している。左肩ボタン908、右肩ボタン910、左背景ボタン912、右背景ボタン914は、合成する位置を指定するものである。例えば、エフェクト1ボタン902と左肩ボタン908が選択された場合は、動画像内の人物の左肩にハートマーク型の画像を合成する。また、エフェクト切替ボタン、位置指定ボタンは、ともに複数が選択されてもよい。
画面1000には、エフェクト1領域1010、エフェクト2領域1020、エフェクト3領域1040を表示する。エフェクト1領域1010内には、エフェクト1 ON/OFFボタン1012、左肩ボタン1014、右肩ボタン1016を表示する。エフェクト2領域1020内には、エフェクト2 ON/OFFボタン1022、左肩ボタン1024、右肩ボタン1026、左背景ボタン1028、右背景ボタン1030を表示する。エフェクト3領域1040内には、エフェクト3 ON/OFFボタン1042、左背景ボタン1044、右背景ボタン1046を表示する。エフェクトの種類毎に、ボタンを配置したものである。このように配置することによって、エフェクトの種類毎に、異なった合成位置を指定できるようにしている。図10の例では、エフェクト1は、左肩と右肩の2箇所であるが、エフェクト2は、左肩、右肩、左背景、右背景の4箇所である。
画面1100には、エフェクト1領域1110、エフェクト2領域1120、エフェクト3領域1130を表示する。エフェクト1領域1110内には、エフェクト1左肩ボタン1112、エフェクト1右肩ボタン1114を表示する。エフェクト2領域1120内には、エフェクト2左肩ボタン1122、エフェクト2右肩ボタン1124、エフェクト2左背景ボタン1126、エフェクト2右背景ボタン1128を表示する。エフェクト3領域1130内には、エフェクト3左背景ボタン1132、エフェクト3右背景ボタン1134を表示する。エフェクト切替と位置指定の機能を1つのボタンで指定できるようにしたものである。このようなボタンにすることによって、1つのボタンの選択で、エフェクトと位置を指定することができるようになる。
エフェクト操作画像1200には、動画像1210、エフェクト(ハート)ボタン1252、エフェクト(羽根)ボタン1254、エフェクト(星)ボタン1256、エフェクト(稲妻)ボタン1258、左肩ボタン1260、右肩ボタン1262、左背景ボタン1264、右背景ボタン1266を表示する。
動画像1210には、動画像を表示する。図12の例では、ジェスチャーを抽出した後の動画像の例を示している。例えば、人物1212、人物1214の骨格を抽出し、二人が手をつなぐというジェスチャー該当領域1220を抽出した例を示したものである。なお、図12の例では、動画像1210内に人物1212、人物1214の骨格を動画像に重複して表示しているが、骨格を表示しなくてもよい。
また、ジェスチャーを抽出していない場合にあっては、右側のエフェクト(ハート)ボタン1252等、左肩ボタン1260等を表示しない、又は、選択不可能の表示としてもよい。そして、ジェスチャー該当領域1220を抽出した後に、右側のエフェクト(ハート)ボタン1252等、左肩ボタン1260等を表示してもよいし、又は、選択可能に表示してもよい。また、ジェスチャー該当領域1220のジェスチャーに適したエフェクト(ハート)ボタン1252等、左肩ボタン1260等を表示してもよい。つまり、エフェクト管理テーブル800を用いて、抽出したジェスチャーに対応するエフェクト、合成する位置に対応するボタンを表示するようにしてもよい。
なお、図12の例では、操作者は、エフェクト、合成する位置、合成するタイミングを指定していることになる。なお、合成するタイミングは、エフェクトのボタンと合成する位置のボタンの両者が選択された時点になる。
また、左肩ボタン1260等の代わりに、又は、左肩ボタン1260とともに、動画像1210内を直接、操作者が指等で触った位置を検知して、その位置を合成する位置として指定するようにしてもよい。
エフェクト操作画像1200の右側のボタンの配列は、図9の例に沿ったものであるが、図10、図11の例に示す配列にしてもよい。
なお、全て手動で行う場合は、ジェスチャーを抽出していない場合であっても、右側のエフェクト(ハート)ボタン1252等、左肩ボタン1260等を表示しておいてもよい。
ステップS316では、合成した動画像を出力する。
画面1400は、動画像処理装置100が出力した画像を表示している。エフェクト画像1300を合成する前の画像である。ここでは、2人の人間が手をつないだというジェスチャーを抽出する。
図15は、本実施の形態によるエフェクトを合成した処理例を示す説明図である。図15の例では、画面1400には、つないだ手の上方向にエフェクト画像1500aを合成して表示している。
図16は、本実施の形態によるエフェクトを合成した処理例を示す説明図である。図16の例では、画面1400には、図15の例から数秒後の画像を表示している。
画面1400には、つないだ手の上方向にエフェクト画像1500bを合成して表示している。なお、エフェクト画像1500bは、図15の例に示したエフェクト画像1500aより大きくしている。これは、手をつないでいる時間に応じて、エフェクト画像を大きくするように設定されているからである。
ステップS1704では、動画像から骨格を抽出する。
ステップS1706では、複数フレームから骨格構造を生成する。
ステップS1708では、骨格構造からジェスチャーを認識する。
ステップS1710では、ジェスチャーに対応するエフェクトを抽出する。
ステップS1712では、操作者の操作を受け付ける。
ステップS1714では、受け付けた動画像に操作に応じて、エフェクトを合成する。
ステップS1716では、合成した動画像を出力する。
ステップS1720では、観客の反応、動画像から抽出した骨格の構造、ジェスチャー、エフェクトに関する情報を記憶する。これらの他に、動画像そのもの、合成対象となったフレーム画像、対象となったジェスチャーが撮影されている部分静止画像等を含めてもよい。
ステップS1802では、ステップS1720で記憶した情報から教師データとする情報を抽出する。例えば、全ての情報を教師データとしてもよいし、前述したように、視聴者の反応がよかった場面のデータだけを教師データとしてもよい。また、視聴者の反応がよかった場面のデータについては、正の教師データとして重みを強めるようにしてもよいし、逆に、視聴者の反応が悪かった場面のデータについては、負の教師データとして重みを弱めるようにしてもよい。
図19の例に示すフローチャートは、図3の例に示したフローチャートのステップS312、S314をステップS1912、S1914に変更したものである。つまり、図18の例に示したフローチャートのステップS1804の処理によって作成された学習モデルを使って、操作者の代わりにエフェクトの選択、エフェクトの合成位置の決定、エフェクトの変形処理等を行う。
ステップS1904では、動画像から骨格を抽出する。
ステップS1906では、複数フレームから骨格構造を生成する。
ステップS1908では、骨格構造からジェスチャーを認識する。
ステップS1910では、ジェスチャーに対応するエフェクトを抽出する。
ステップS1914では、学習モデルを用いて、受け付けた動画像にエフェクトを合成する。具体的には、合成する位置、合成する時間、エフェクト画像の変形処理等を学習モデルの指示によって行う。
ステップS1916では、合成した動画像を出力する。
なお、図19の例に示したフローチャートに、図17の例に示したステップS1718、ステップS1720の処理を付加して、図18の例に示したフローチャートによる機械学習を行うようにしてもよい。
また、学習モデルは、操作者のアシストをするようにしてもよい。つまり、学習モデルは、操作者が選択すべきエフェクト、合成の位置の候補を優先的に表示し、最終的な操作は操作者が行うようにしてもよい。
合成処理を行う前に、ストーリーは予め定められている。例えば、二人が手を合わせるジェスチャーであっても、恋愛関係のストーリーの文脈では、親密さを示す行動の意味になるが、争い関係のストーリーの文脈では、けんかを始める行動の意味になる場合がある。
そこで、図8の例に示したエフェクト管理テーブル800をエフェクト管理テーブル2000とする。図20は、エフェクト管理テーブル2000のデータ構造例を示す説明図である。エフェクト管理テーブル2000は、ID欄2005、ジェスチャー欄2010、ストーリー欄2012、エフェクト数欄2015、エフェクト画像欄2020、合成位置欄2025、開始時欄2045、終了時欄2050、大きさ欄2055、色欄2060を有しており、合成位置欄2025は、部位欄2030、X座標欄2035、Y座標欄2040を有している。つまり、エフェクト管理テーブル800にストーリー欄2012を付加したものである。エフェクト数欄2015以降の欄は、そのジェスチャーとストーリーの組み合わせに対応するエフェクトに関する情報を記憶している。
ステップS2106では、動画像から骨格を抽出する。
ステップS2108では、複数フレームから骨格構造を生成する。
ステップS2110では、骨格構造からジェスチャーを認識する。
ステップS2116では、受け付けた動画像に操作に応じて、エフェクトを合成する。
ステップS2118では、合成した動画像を出力する。
なお、図22に示すハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図22に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、プロセッサーとして、GPU(Graphics Processing Unitの略、GPGPU(General-Purpose computing on Graphics Processing Unitsの略)を含む)を用いてもよいし、一部のモジュールを専用のハードウェア(例えば特定用途向け集積回路(具体例として、ASIC(Application Specific Integrated Circuitの略)等がある)や再構成可能な集積回路(具体例として、FPGA(Field-Programmable Gate Arrayの略)等がある)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続している形態でもよく、さらに図22に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、携帯情報通信機器(携帯電話、スマートフォン、モバイル機器、ウェアラブルコンピュータ等を含む)、情報家電、ロボット等のいずれか2つ以上の機能を有している画像処理装置)等に組み込まれていてもよい。
また、運動体の種類(種類として、例えば、人間、犬、自動車等)を認識し、予め定められた種類の運動体のジェスチャーだけを認識するようにしてもよい。さらに、特定の運動体のジェスチャーだけを認識するようにしてもよい。特定の運動体として、例えば、赤い服を着た人間のように服の特徴を抽出して予め定められた服を着た人間、顔認識を行って予め定められた人間等としてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通等のために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD-R、DVD-RW、DVD-RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD-ROM)、CDレコーダブル(CD-R)、CDリライタブル(CD-RW)等、ブルーレイ・ディスク(Blu-ray(登録商標) Disc)、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digitalの略)メモリーカード等が含まれる。
そして、前記のプログラムの全体又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、又は無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分若しくは全部であってもよく、又は別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して記録されていてもよい。また、圧縮や暗号化等、復元可能であればどのような態様で記録されていてもよい。
105…動画像受付モジュール
110…骨格認識モジュール
115…骨格構造記述モジュール
120…ジェスチャー認識モジュール
125…エフェクト発生モジュール
130…エフェクト自動指示モジュール
135…手動エフェクト指示モジュール
140…エフェクト合成モジュール
145…動画像出力モジュール
150…操作機械学習モジュール
200…カメラシステム
250…ユーザー端末
260…大画面表示装置
Claims (11)
- 運動体が撮影された動画像を受け付ける受付手段と、
前記動画像から運動体によるジェスチャーを抽出する抽出手段と、
前記抽出手段によって抽出されたジェスチャーに対応するエフェクトを、前記動画像に合成する合成手段と、
前記合成手段によってエフェクトが合成された動画像を出力する出力手段と、
前記出力手段によって出力された動画像に対する観客の反応を取得する取得手段と、
前記取得手段によって取得された観客の反応、前記ジェスチャー、前記エフェクトに関する情報を用いて、動画像に合成するエフェクトに関する処理を機械学習する学習手段
を有する動画像処理装置。 - 前記取得手段は、前記観客の反応として、(1)前記観客の音声、(2)前記観客を撮影した画像、(3)前記観客が前記動画像に対して入力したテキスト、のいずれか1つ以上を用いる、
請求項1に記載の動画像処理装置。 - 前記合成手段は、
操作者による操作に応じて合成処理を行うこと、
請求項2に記載の動画像処理装置によって機械学習された学習モデルを用いて合成処理を行うこと、
又は、これらの組み合わせによって合成処理を行うこと、
のいずれかを行う請求項2に記載の動画像処理装置。 - 前記抽出手段は、前記動画像から運動体の骨格を認識し、該骨格の動きを用いて、ジェスチャーを抽出する、
請求項1から3のいずれか一項に記載の動画像処理装置。 - 前記合成手段は、前記運動体の骨格に合わせて、元のエフェクトを変形し、該変形後のエフェクトを前記動画像に合成する、
請求項4に記載の動画像処理装置。 - 前記エフェクトは、ストーリー毎に定められており、
前記合成手段は、予め定められたストーリーにしたがって、エフェクトを選択する、
請求項1から5のいずれか一項に記載の動画像処理装置。 - 運動体が撮影された動画像を表示する表示手段と、
前記運動体によるジェスチャーを抽出し、該ジェスチャーに対応するエフェクトを操作者の指示にしたがって合成する合成手段と、
前記合成手段によってエフェクトが合成された動画像を出力する出力手段と、
前記出力手段によって出力された動画像に対する観客の反応を取得する取得手段と、
前記取得手段によって取得された観客の反応、前記ジェスチャー、前記エフェクトに関する情報を用いて、動画像に合成するエフェクトに関する処理を機械学習する学習手段
を有する動画像処理装置。 - 運動体が撮影された動画像を受け付ける第1ステップと、
前記動画像から運動体によるジェスチャーを抽出する第2ステップと、
前記第2ステップによって抽出されたジェスチャーに対応するエフェクトを、前記動画像に合成する第3ステップと、
前記第3ステップによってエフェクトが合成された動画像を出力する第4ステップと、
前記第4ステップによって出力された動画像に対する観客の反応を取得する第5ステップと、
前記第5ステップによって取得された観客の反応、前記ジェスチャー、前記エフェクトに関する情報を用いて、動画像に合成するエフェクトに関する処理を機械学習する第6ステップ
を有する動画像処理方法。 - 運動体が撮影された動画像を表示する第1ステップと、
前記運動体によるジェスチャーを抽出し、該ジェスチャーに対応するエフェクトを操作者の指示にしたがって合成する第2ステップと、
前記第2ステップによってエフェクトが合成された動画像を出力する第3ステップと、
前記第3ステップによって出力された動画像に対する観客の反応を取得する第4ステップと、
前記第4ステップによって取得された観客の反応、前記ジェスチャー、前記エフェクトに関する情報を用いて、動画像に合成するエフェクトに関する処理を機械学習する第5ステップ
を有する動画像処理方法。 - コンピュータを、
運動体が撮影された動画像を受け付ける受付手段と、
前記動画像から運動体によるジェスチャーを抽出する抽出手段と、
前記抽出手段によって抽出されたジェスチャーに対応するエフェクトを、前記動画像に合成する合成手段と、
前記合成手段によってエフェクトが合成された動画像を出力する出力手段と、
前記出力手段によって出力された動画像に対する観客の反応を取得する取得手段と、
前記取得手段によって取得された観客の反応、前記ジェスチャー、前記エフェクトに関する情報を用いて、動画像に合成するエフェクトに関する処理を機械学習する学習手段
として機能させる動画像処理プログラム。 - コンピュータを、
運動体が撮影された動画像を表示する表示手段と、
前記運動体によるジェスチャーを抽出し、該ジェスチャーに対応するエフェクトを操作者の指示にしたがって合成する合成手段と、
前記合成手段によってエフェクトが合成された動画像を出力する出力手段と、
前記出力手段によって出力された動画像に対する観客の反応を取得する取得手段と、
前記取得手段によって取得された観客の反応、前記ジェスチャー、前記エフェクトに関する情報を用いて、動画像に合成するエフェクトに関する処理を機械学習する学習手段
として機能させる動画像処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019137731A JP7374430B2 (ja) | 2019-07-26 | 2019-07-26 | 動画像処理装置、動画像処理方法及び動画像処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019137731A JP7374430B2 (ja) | 2019-07-26 | 2019-07-26 | 動画像処理装置、動画像処理方法及び動画像処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021022811A JP2021022811A (ja) | 2021-02-18 |
JP7374430B2 true JP7374430B2 (ja) | 2023-11-07 |
Family
ID=74574488
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019137731A Active JP7374430B2 (ja) | 2019-07-26 | 2019-07-26 | 動画像処理装置、動画像処理方法及び動画像処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7374430B2 (ja) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005333309A (ja) | 2004-05-19 | 2005-12-02 | Satoru Tokuhisa | 情報処理装置および情報処理方法、情報処理システム、並びに、プログラム |
JP2009088729A (ja) | 2007-09-28 | 2009-04-23 | Casio Comput Co Ltd | 合成画像出力装置および合成画像出力処理プログラム |
JP2011176456A (ja) | 2010-02-23 | 2011-09-08 | Nikon Corp | カメラ、および画像再生装置 |
JP2012138763A (ja) | 2010-12-27 | 2012-07-19 | Nikon Corp | 画像処理装置、電子カメラ、及び画像処理プログラム |
JP2013101527A (ja) | 2011-11-09 | 2013-05-23 | Sony Corp | 情報処理装置、表示制御方法、およびプログラム |
JP2019009754A (ja) | 2017-06-21 | 2019-01-17 | メディアフロント カンパニー リミテッド | リアルタイム増強合成技術を用いた映像生成サーバ、映像生成システム及び方法 |
JP2019075124A (ja) | 2017-10-18 | 2019-05-16 | ネイバー コーポレーションNAVER Corporation | カメラエフェクトを提供する方法およびシステム |
JP2019118098A (ja) | 2017-12-26 | 2019-07-18 | キヤノン株式会社 | 撮像装置及びその制御方法、プログラム、記憶媒体 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05232861A (ja) * | 1991-06-11 | 1993-09-10 | C S K Sogo Kenkyusho:Kk | カラオケシステム |
-
2019
- 2019-07-26 JP JP2019137731A patent/JP7374430B2/ja active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005333309A (ja) | 2004-05-19 | 2005-12-02 | Satoru Tokuhisa | 情報処理装置および情報処理方法、情報処理システム、並びに、プログラム |
JP2009088729A (ja) | 2007-09-28 | 2009-04-23 | Casio Comput Co Ltd | 合成画像出力装置および合成画像出力処理プログラム |
JP2011176456A (ja) | 2010-02-23 | 2011-09-08 | Nikon Corp | カメラ、および画像再生装置 |
JP2012138763A (ja) | 2010-12-27 | 2012-07-19 | Nikon Corp | 画像処理装置、電子カメラ、及び画像処理プログラム |
JP2013101527A (ja) | 2011-11-09 | 2013-05-23 | Sony Corp | 情報処理装置、表示制御方法、およびプログラム |
JP2019009754A (ja) | 2017-06-21 | 2019-01-17 | メディアフロント カンパニー リミテッド | リアルタイム増強合成技術を用いた映像生成サーバ、映像生成システム及び方法 |
JP2019075124A (ja) | 2017-10-18 | 2019-05-16 | ネイバー コーポレーションNAVER Corporation | カメラエフェクトを提供する方法およびシステム |
JP2019118098A (ja) | 2017-12-26 | 2019-07-18 | キヤノン株式会社 | 撮像装置及びその制御方法、プログラム、記憶媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP2021022811A (ja) | 2021-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7095722B2 (ja) | 情報処理装置およびプログラム | |
CN108322832B (zh) | 评论方法、装置、及电子设备 | |
TWI255141B (en) | Method and system for real-time interactive video | |
JP2006287749A (ja) | 撮像装置、及びその制御方法 | |
JP2005250950A (ja) | マーカ提示用携帯端末および拡張現実感システムならびにその動作方法 | |
Essid et al. | A multi-modal dance corpus for research into interaction between humans in virtual environments | |
CN113923462A (zh) | 视频生成、直播处理方法、设备和可读介质 | |
WO2006011399A1 (ja) | 情報処理装置および方法、記録媒体、並びにプログラム | |
JP2011517879A (ja) | 少なくとも1台のカメラによって生成された画像を表示するための方法及びシステム | |
JPWO2018135246A1 (ja) | 情報処理システム及び情報処理装置 | |
CN113822972A (zh) | 基于视频的处理方法、设备和可读介质 | |
JP7374430B2 (ja) | 動画像処理装置、動画像処理方法及び動画像処理プログラム | |
Verlinden et al. | Recording augmented reality experiences to capture design reviews | |
WO2018033952A1 (ja) | パノラマ画像合成解析システム、パノラマ画像合成解析方法及びプログラム | |
JP2008083672A (ja) | 表情影像を表示する方法 | |
JP5619214B2 (ja) | 画像処理装置、画像処理プログラム及び画像処理方法 | |
JP6896932B1 (ja) | プログラム、情報処理方法、情報処理装置、及びシステム | |
JP2013146511A (ja) | 人体の動作の変移を記録、解析し、表示する電子機器 | |
KR102244535B1 (ko) | 리플레이 영상 생성 장치 및 방법, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램 | |
JP6934552B1 (ja) | プログラム、情報処理方法、情報処理装置、及びシステム | |
JP2010160826A (ja) | 撮像装置および画像処理方法 | |
JP2012034383A (ja) | 画像処理装置、画像処理プログラム及び画像処理方法 | |
JP7216176B1 (ja) | 画像解析システム、画像解析方法およびプログラム | |
JP7216175B1 (ja) | 画像解析システム、画像解析方法およびプログラム | |
JP6903800B1 (ja) | プログラム、情報処理方法、情報処理装置、及びシステム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220721 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230531 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230606 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230804 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231017 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231017 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7374430 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |