JP7374430B2

JP7374430B2 - 動画像処理装置、動画像処理方法及び動画像処理プログラム

Info

Publication number: JP7374430B2
Application number: JP2019137731A
Authority: JP
Inventors: 一郎山下; 万莉宮▲崎▼; かおる植田; 淳宮▲崎▼
Original assignee: 株式会社オレンジテクラボ
Priority date: 2019-07-26
Filing date: 2019-07-26
Publication date: 2023-11-07
Anticipated expiration: 2039-07-26
Also published as: JP2021022811A

Description

本発明は、動画像処理装置、動画像処理方法及び動画像処理プログラムに関する。

特許文献１には、高精度な映像合成を実現することを課題とし、撮影された映像信号に他の映像信号を合成するための映像合成装置において、カードを含む３次元空間を撮影する撮像部と、撮影された映像から、前記カードの種類、３次元位置情報、姿勢情報、及び前記撮像部の内部情報を取得するカード情報取得部と、撮影された映像信号から得られる２次元の座標軸に基づいて合成する他の映像信号の表示位置を設定する座標入力部と、前記他の映像信号を表示する高さを設定する高さ情報入力部と、予め設定された座標変換情報に基づいて、２次元座標及び高さ座標を前記３次元空間上の３次元座標に変換する座標変換部と、前記３次元座標に基づいて、予め設定された前記他の映像の描画を行う映像描画部と、前記映像描画部により得られる映像と前記撮像部により得られる映像とを合成する映像合成部とを有することが開示されている。

特開２００７－２０６８０７号公報

動画像にエフェクトを合成するには、操作者による操作が必要である。
本発明は、動画像内の運動体によるジェスチャーによってエフェクトを合成するようにした動画像処理装置、動画像処理方法及び動画像処理プログラムを提供することを目的としている。

かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。なお、以下の「請求項」とあるのは、出願当初の請求項である。ただし、誤記の訂正を行っている。
請求項１の発明は、運動体が撮影された動画像を受け付ける受付手段と、前記動画像から運動体によるジェスチャーを抽出する抽出手段と、前記抽出手段によって抽出されたジェスチャーに対応するエフェクトを、前記動画像に合成する合成手段を有する動画像処理装置である。

請求項２の発明は、前記合成手段によってエフェクトが合成された動画像を出力する出力手段と、前記出力手段によって出力された観客の反応を取得する取得手段と、前記取得手段によって取得された観客の反応、前記ジェスチャー、前記エフェクトに関する情報を用いて、動画像に合成するエフェクトに関する処理を機械学習する学習手段をさらに有する請求項１に記載の動画像処理装置である。

請求項３の発明は、前記合成手段は、操作者による操作に応じて合成処理を行うこと、請求項２に記載の動画像処理装置によって機械学習された学習モデルを用いて合成処理を行うこと、又は、これらの組み合わせによって合成処理を行うこと、のいずれかを行う請求項２に記載の動画像処理装置である。

請求項４の発明は、前記抽出手段は、前記動画像から運動体の骨格を認識し、該骨格の動きを用いて、ジェスチャーを抽出する、請求項１から３のいずれか一項に記載の動画像処理装置である。

請求項５の発明は、前記合成手段は、前記運動体の骨格に合わせて、元のエフェクトを変形し、該変形後のエフェクトを前記動画像に合成する、請求項４に記載の動画像処理装置である。

請求項６の発明は、前記エフェクトは、ストーリー毎に定められており、前記合成手段は、予め定められたストーリーにしたがって、エフェクトを選択する、請求項１から５のいずれか一項に記載の動画像処理装置である。

請求項７の発明は、運動体が撮影された動画像を表示する表示手段と、前記運動体によるジェスチャーを抽出し、該ジェスチャーに対応するエフェクトを操作者の指示にしたがって合成する合成手段を有する動画像処理装置である。

請求項８の発明は、運動体が撮影された動画像を受け付ける第１ステップと、前記動画像から運動体によるジェスチャーを抽出する第２ステップと、前記第２ステップによって抽出されたジェスチャーに対応するエフェクトを、前記動画像に合成する第３ステップを有する動画像処理方法である。

請求項９の発明は、運動体が撮影された動画像を表示する第１ステップと、前記運動体によるジェスチャーを抽出し、該ジェスチャーに対応するエフェクトを操作者の指示にしたがって合成する第２ステップを有する動画像処理方法である。

請求項１０の発明は、コンピュータを、運動体が撮影された動画像を受け付ける受付手段と、前記動画像から運動体によるジェスチャーを抽出する抽出手段と、前記抽出手段によって抽出されたジェスチャーに対応するエフェクトを、前記動画像に合成する合成手段として機能させる動画像処理プログラムである。

請求項１１の発明は、コンピュータを、運動体が撮影された動画像を表示する表示手段と、前記運動体によるジェスチャーを抽出し、該ジェスチャーに対応するエフェクトを操作者の指示にしたがって合成する合成手段として機能させる動画像処理プログラムである。

請求項１の動画像処理装置によれば、動画像内の運動体によるジェスチャーによってエフェクトを合成することができる。

請求項２の動画像処理装置によれば、動画像に合成するエフェクトに関する処理を機械学習することができる。

請求項３の動画像処理装置によれば、操作者による操作、機械学習された学習モデル、又は、これらの組み合わせによって、合成処理を行うことができる。

請求項４の動画像処理装置によれば、動画像から運動体の骨格を認識し、該骨格の動きを用いて、ジェスチャーを抽出することができる。

請求項５の動画像処理装置によれば、運動体の骨格に合わせて、元のエフェクトを変形させることができる。

請求項６の動画像処理装置によれば、予め定められたストーリーにしたがって、エフェクトを選択することができる。

請求項７の動画像処理装置によれば、操作者が運動体によってジェスチャーが行われたか否かを判断する必要なく、ジェスチャーに対応するエフェクトを合成する操作を行うことができる。

請求項８の動画像処理方法によれば、動画像内の運動体によるジェスチャーによってエフェクトを合成することができる。

請求項９の動画像処理方法によれば、操作者が運動体によってジェスチャーが行われたか否かを判断する必要なく、ジェスチャーに対応するエフェクトを合成する操作を行うことができる。

請求項１０の動画像処理プログラムによれば、動画像内の運動体によるジェスチャーによってエフェクトを合成することができる。

請求項１１の動画像処理プログラムによれば、操作者が運動体によってジェスチャーが行われたか否かを判断する必要なく、ジェスチャーに対応するエフェクトを合成する操作を行うことができる。

本実施の形態の構成例についての概念的なモジュール構成図である。本実施の形態を利用したシステム構成例を示す説明図である。本実施の形態による処理例を示すフローチャートである。人物のワイヤーフレームの例を示す説明図である。ベクトル表現テーブルのデータ構造例を示す説明図である。骨格構造管理テーブルのデータ構造例を示す説明図である。ジェスチャー認識テーブルのデータ構造例を示す説明図である。エフェクト管理テーブルのデータ構造例を示す説明図である。本実施の形態によるユーザーインタフェース例を示す説明図である。本実施の形態によるユーザーインタフェース例を示す説明図である。本実施の形態によるユーザーインタフェース例を示す説明図である。本実施の形態によるユーザーインタフェース例を示す説明図である。本実施の形態によるエフェクト画像の例を示す説明図である。本実施の形態による動画像の１フレームの例を示す説明図である。本実施の形態によるエフェクトを合成した処理例を示す説明図である。本実施の形態によるエフェクトを合成した処理例を示す説明図である。本実施の形態による処理例を示すフローチャートである。本実施の形態による処理例を示すフローチャートである。本実施の形態による処理例を示すフローチャートである。エフェクト管理テーブルのデータ構造例を示す説明図である。本実施の形態による処理例を示すフローチャートである。本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。

以下、図面に基づき本発明を実現するにあたっての好適な一実施の形態の例を説明する。
図１は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア（「ソフトウェア」の解釈として、コンピュータ・プログラムを含む）、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム（例えば、コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム）、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するという意味である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、１モジュールを１プログラムで構成してもよいし、複数モジュールを１プログラムで構成してもよく、逆に１モジュールを複数プログラムで構成してもよい。また、複数モジュールは１コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって１モジュールが複数コンピュータで実行されてもよい。なお、１つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続（例えば、データの授受、指示、データ間の参照関係、ログイン等）の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態にしたがって、又はそれまでの状況・状態にしたがって定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、２以上の値（「２以上の値」には、もちろんのことながら、全ての値も含む）が同じであってもよい。また、「Ａである場合、Ｂをする」という記載は、「Ａであるか否かを判断し、Ａであると判断した場合はＢをする」の意味で用いる。ただし、Ａであるか否かの判断が不要である場合を除く。また、「Ａ、Ｂ、Ｃ」等のように事物を列挙した場合は、断りがない限り例示列挙であり、その１つのみを選んでいる場合（例えば、Ａのみ）を含む。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク（「ネットワーク」には、一対一対応の通信接続を含む）等の通信手段で接続されて構成されるほか、１つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」（つまり、社会システム）にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスクドライブ、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙの略）、外部記憶媒体、通信回線を介した記憶装置、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔの略）内のレジスタ等を含んでいてもよい。

本実施の形態である動画像処理装置１００は、動画像にエフェクト（Ｅｆｆｅｃｔ）を合成する機能を有しており、図１の例に示すように、動画像受付モジュール１０５、骨格認識モジュール１１０、骨格構造記述モジュール１１５、ジェスチャー認識モジュール１２０、エフェクト発生モジュール１２５、エフェクト自動指示モジュール１３０、手動エフェクト指示モジュール１３５、エフェクト合成モジュール１４０、動画像出力モジュール１４５、操作機械学習モジュール１５０を有している。
動画像処理装置１００は、動画像に撮影されている運動体がジェスチャー（予め定められた動作）を行った場合に、エフェクトをかけるようにしている。

動画像受付モジュール１０５は、骨格認識モジュール１１０、エフェクト合成モジュール１４０と接続されている。動画像受付モジュール１０５は、運動体が撮影された動画像を受け付け、その動画像を骨格認識モジュール１１０、エフェクト合成モジュール１４０に渡す。
ここで「運動体」は、撮影可能な物体であって、予め定められたジェスチャーの動作が可能なものである。例えば、運動体には、動物、機械を含む。より具体的には、人間、犬、猫、馬、鳥、魚等の動物であってもよいし、ロボット、自動車等の機械であってもよい。また、１フレーム内に複数の運動体があってもよいし、その複数の運動体には、複数の種類のものが混在していてもよい。例えば、複数人の人間が撮影されていてもよいし、人間と犬、人間とロボットのように、異なる種類の運動体が撮影されていてもよい。予め定められたジェスチャーとして、例えば、人間であれば手を振る等、猫であれば前足で顔をなでる等、自動車であれば、右折する、左折する、ワイパーの動作等がある。また、１つの運動体による動作だけでなく、複数の運動体による動作をジェスチャーに加えてもよい。例えば、二人の人間が手をつないでいる等の動作を、対象とするジェスチャーとしてもよい。
動画像を受け付けるとは、例えば、デジタルビデオカメラ（ＷＥＢカメラといわれるものを含む）等で撮影すること、ハードディスク（動画像処理装置１００に内蔵されているものの他に、ネットワークを介して接続されているもの等を含む）等に記憶されている動画像を読み出すこと等が含まれる。なお、動画像の内容としては、運動体が撮影されている可能性のあるものであればよい。

骨格認識モジュール１１０は、動画像受付モジュール１０５、骨格構造記述モジュール１１５と接続されている。骨格認識モジュール１１０は、動画像受付モジュール１０５が受け付けた動画像から運動体の骨格を認識する。例えば、動画像を入力して各関節の座標等を出力する技術として、ＡＩ画像解析（骨格認識）技術があり、具体的には、以下のものがある。これらの従来の技術を用いればよい。
（１）ＯｐｅｎＰｏｓｅ
https://github.com/CMU-Perceptual-Computing-Lab/openpose
（２）ＶｉｓｉｏｎＰｏｓｅ
https://www.next-system.com/visionpose

骨格構造記述モジュール１１５は、骨格認識モジュール１１０、ジェスチャー認識モジュール１２０と接続されている。骨格構造記述モジュール１１５は、骨格認識モジュール１１０によって認識された骨格に関する情報を用いて、骨格の構造を記述する。具体的には、各関節の座標、その座標間を結ぶベクトルを用いて、それらの関節又はベクトルが対応する部位（例えば、肩、手首、肘から手首まで等）を認識し、それらの部位の関係又は動作の記述を生成する。例えば、部位Ａが振られている、部位Ａと部位Ｂが重なっている、部位Ｃと部位Ｄが離れた等がある。

ジェスチャー認識モジュール１２０は、骨格構造記述モジュール１１５、エフェクト発生モジュール１２５と接続されている。ジェスチャー認識モジュール１２０は、動画像受付モジュール１０５が受け付けた動画像から運動体によるジェスチャーを抽出する。
また、ジェスチャー認識モジュール１２０は、動画像受付モジュール１０５が受け付けた動画像から運動体の骨格を認識し、その骨格の動きを用いて、ジェスチャーを抽出するようにしてもよい。例えば、骨格構造記述モジュール１１５によって記述された部位の関係又は動作を用いて、予め定められたジェスチャーを抽出すればよい。具体的には、前述の例で部位Ａが右手首、部位Ｂが左手首である場合、予め定められたジェスチャーとして「手首が振られている」があれば、「部位Ａが振られている」との動作がそれに該当するジェスチャーとして認識されることになる。。

エフェクト発生モジュール１２５は、ジェスチャー認識モジュール１２０、エフェクト自動指示モジュール１３０、手動エフェクト指示モジュール１３５、エフェクト合成モジュール１４０と接続されている。エフェクト発生モジュール１２５は、ジェスチャー認識モジュール１２０によって認識されたジェスチャーに対応するエフェクトを抽出する。例えば、ジェスチャーとエフェクトを対応させて記憶しているテーブルを用いて、ジェスチャーからエフェクトを決定する。前述の例で、ジェスチャー：「手首が振られている」に対応して、エフェクト：「赤い星形状の画像をその手首の周囲に合成する」がある場合、ジェスチャー認識モジュール１２０によって「手首が振られている」（部位Ａが振られている）が認識されたので、エフェクトとして「赤い星形状の画像をその手首の周囲に合成する」を抽出することになる。
なお、エフェクト発生モジュール１２５が抽出するエフェクトは、１つであってもよいし、複数であってもよい。

エフェクト自動指示モジュール１３０は、エフェクト発生モジュール１２５、操作機械学習モジュール１５０と接続されている。エフェクト自動指示モジュール１３０は、エフェクト発生モジュール１２５によって抽出されたエフェクトを、動画像受付モジュール１０５が受け付けた動画像に合成するタイミングをエフェクト合成モジュール１４０に対して指示する。また、エフェクト発生モジュール１２５によって抽出されたエフェクトが複数ある場合は、合成するエフェクトを選択するようにしてもよい。また、エフェクトを合成する位置を指定してもよい。例えば、合成するタイミングとして、エフェクト発生モジュール１２５によってエフェクトが抽出されたならば、すぐに合成するようにしてもよいし、予め定められた期間（例えば、１秒等）の後に合成するようにしてもよい。なお、この指示の処理は、操作機械学習モジュール１５０によって機械学習された結果（学習モデル）を用いるようにしてもよい。

手動エフェクト指示モジュール１３５は、動画像受付モジュール１０５が受け付けた動画像を、液晶ディスプレイ、有機ＥＬディスプレイ等の表示装置に表示する。そして、ジェスチャー認識モジュール１２０によって運動体によるジェスチャーが抽出された場合は、エフェクト発生モジュール１２５によって抽出されたエフェクトを、動画像に合成するための操作者による指示を受け付ける。その後、エフェクト合成モジュール１４０が、その指示にしたがって、動画像にエフェクトを合成する。詳細については、図１２の例を用いて後述する。
手動エフェクト指示モジュール１３５は、エフェクト発生モジュール１２５、操作機械学習モジュール１５０と接続されている。手動エフェクト指示モジュール１３５は、操作者の操作に応じて、エフェクト発生モジュール１２５によって抽出されたエフェクトを、動画像受付モジュール１０５が受け付けた動画像に合成するタイミングをエフェクト合成モジュール１４０に対して指示する。また、エフェクト発生モジュール１２５によって抽出されたエフェクトが複数ある場合は、合成するエフェクトを操作者の操作に応じて選択するようにしてもよい。また、エフェクトを合成する位置を指定してもよい。このユーザーインタフェースについては、図９、図１０、図１１、図１２の例を用いて後述する。なお、この操作者の操作を学習データとして、操作機械学習モジュール１５０によって機械学習するようにしてもよい。

エフェクト合成モジュール１４０は、動画像受付モジュール１０５、エフェクト発生モジュール１２５、動画像出力モジュール１４５と接続されている。エフェクト合成モジュール１４０は、ジェスチャー認識モジュール１２０によって抽出されたジェスチャーに対応するエフェクトを、動画像受付モジュール１０５が受け付けた動画像に合成する。
なお、エフェクト合成モジュール１４０は、操作者による操作に応じて合成処理を行うこと（手動エフェクト指示モジュール１３５による操作者の操作）、操作機械学習モジュール１５０によって機械学習された学習モデルを用いて合成処理を行うこと（エフェクト自動指示モジュール１３０による指示）、又は、これらの組み合わせによって合成処理を行うこと、のいずれかを行う。したがって、操作機械学習モジュール１５０における機械学習の教師モデルとしてなるデータは、操作者による操作によって発生するデータであってもよいし、学習モデルを用いて発生するデータであってもよい。
また、エフェクト合成モジュール１４０は、運動体の骨格に合わせて、元のエフェクトを変形し、その変形後のエフェクトを、動画像受付モジュール１０５が受け付けた動画像に合成するようにしてもよい。

また、エフェクトは、ストーリー毎に定められていてもよい。
そして、その場合、エフェクト合成モジュール１４０は、予め定められたストーリーにしたがって、エフェクトを選択するようにしてもよい。例えば、ストーリーとして「恋愛」があり、そのエフェクトとして「ハートマークの画像」等が用意されている。また、ストーリーが「争い」であれば、そのエフェクトとして「稲妻マークの画像」等が用意されている。

動画像出力モジュール１４５は、エフェクト合成モジュール１４０と接続されている。動画像出力モジュール１４５は、エフェクト合成モジュール１４０によってエフェクトが合成された動画像を出力する。動画像を出力するとは、例えば、ディスプレイ等の表示装置に表示すること、動画像データベース等の動画像記憶装置へ動画像を書き込むこと、メモリーカード等の記憶媒体に動画像を記憶すること、他の情報処理装置へ動画像を渡すこと等が含まれる。なお、合成後の動画像を圧縮、暗号化等の処理を行ってもよい。

操作機械学習モジュール１５０は、エフェクト自動指示モジュール１３０、手動エフェクト指示モジュール１３５と接続されている。操作機械学習モジュール１５０は、動画像出力モジュール１４５によって出力された観客の反応を取得する。
そして、操作機械学習モジュール１５０は、その取得された観客の反応、動画像受付モジュール１０５が受け付けた動画像（又は、ジェスチャーを認識したフレームの静止画像、その静止画像内のジェスチャーが撮影された一部分の画像等であってもよい。）、ジェスチャー、エフェクト、合成に関する情報を用いて、動画像に合成するエフェクトに関する処理を機械学習する。合成に関する情報として、手動エフェクト指示モジュール１３５によって行われた操作者の操作、エフェクト自動指示モジュール１３０によって行われた指示があり、具体的には、エフェクトの選択、エフェクトを合成するタイミング、位置等がある。

また、視聴者の反応がよかった場合は、機械学習の重みを強めるようにしてもよい。重みを強める場合の視聴者の反応として、例えば、（１）視聴者の音声をマイクで入力できる場合は、その音声の大きさが予め定められた閾値より大きいこと、音声認識を行い、認識結果が歓声、感嘆等であること等がある。（２）視聴者を撮影できる場合は、拍手をしている又は腕を上げている視聴者の数又は割合が予め定められた閾値より多いこと、エフェクトがかかっている映像を見ている視聴者の数又は割合が予め定められた閾値より多いこと等がある。また、（３）視聴者が視聴している動画像に対してテキストを入力できる場合（例えば、コメントとしてテキストを付加できる場合、その動画像に入力したテキストを重ね合わせることができる場合等）は、そのテキストに対して形態素解析等の言語処理を行い、肯定的意見が否定的意見よりも多いこと等がある。

図２は、本実施の形態を利用したシステム構成例を示す説明図である。この例では、動画像のリアルタイム放送に応用した場合のシステム構成を示している。
カメラシステム２００は、動画像を撮影し、その動画像を動画像処理装置１００に送信する。
動画像処理装置１００は、カメラシステム２００が撮影した動画像に対して、エフェクト効果をリアルタイムに付加する。
ユーザー端末２５０、大画面表示装置２６０は、エフェクトが重畳された動画像のリアルタイム放送を受信し、その動画像を再生する。例えば、ユーザー端末２５０として、パソコン、携帯情報通信機器等があり、大画面表示装置２６０として、デジタルサイネージ用ディスプレイ、コンサート会場等での大画面ディスプレイ等が該当する。動画像処理装置１００とユーザー端末２５０、大画面表示装置２６０間の通信回線は、無線、有線、これらの組み合わせであってもよく、例えば、通信インフラとしてのインターネット、イントラネット等であってもよいし、専用回線で構築してもよい。
例えば、コンサート会場で、出場者をカメラシステム２００で撮影し、その出場者があるジェスチャーを行うと、その動画像にエフェクトがかかり、そのコンサート会場にある大画面表示装置２６０で映し出される。大画面表示装置２６０でエフェクトがかかった映像を見た観客の反応を、動画像処理装置１００は観測する。観客の反応として、例えば、マイクを用いて、観客の音声を収集してもよいし、カメラを用いて、手を挙げる等の観客の動作等を撮影してもよい。音量が予め定められた閾値以上になった、手を挙げる人数が予め定められた閾値以上になった等の場合、そのときのエフェクト等を正の教師データとして、逆に、ブーイング等の音声を検知した場合、手を下げる人数が予め定められた閾値以上になった等の場合、そのときのエフェクト等を負の教師データとして、機械学習を行うようにしてもよい。

図３は、本実施の形態による処理例を示すフローチャートである。
ステップＳ３０２では、動画像を受け付ける。

ステップＳ３０４では、動画像から骨格を抽出する。ここで、抽出する骨格（ワイヤーフレーム）の例を、図４を用いて説明する。図４の例は、関節等の部位を持った３次元の人間モデルを示しており、骨格認識モジュール１１０が受け付けた動画像から人４００を抽出し、ワイヤーフレーム４１０を生成する。人の動作のワイヤーフレームモデルは、既知の技術であり、図４の例に示すような、人４００の体の各部位をワイヤーフレームの集合によって表現したものである。また、体の各部位のベクトル表現とは、例えば、「首，（ｖ２１，ｖ２１），（ｖ２２，ｖ２２）」のように、体の部位の名称と、開始点の座標、終了点の座標等の集合である。例えば、ベクトル表現テーブル５００を生成する。
図５は、ベクトル表現テーブル５００のデータ構造例を示す説明図である。ベクトル表現テーブル５００は、ベクトルＩＤ欄５１０、部位欄５２０、開始点欄５３０、終了点欄５４０を有しており、開始点欄５３０は、日時欄５３２、開始点座標欄５３４を有しており、終了点欄５４０は、日時欄５４２、終了点座標欄５４４を有している。ベクトルＩＤ欄５１０は、本実施の形態において、部位の動きを示すベクトルを一意に識別するための情報（具体的にはベクトルＩＤ：ＩＤｅｎｔｉｆｉｃａｔｉｏｎの略）を記憶している。部位欄５２０は、部位の名称を記憶している。開始点欄５３０は、その部位の開始点（一方の端点）を記憶している。日時欄５３２は、開始点を測定した日時を記憶している。開始点座標欄５３４は、開始点の座標を記憶している。終了点欄５４０は、その部位の終了点（他方の端点）を記憶している。日時欄５４２は、終了点を測定した日時を記憶している。終了点座標欄５４４は、終了点の座標を記憶している。

ステップＳ３０６では、複数フレームから骨格構造を生成する。例えば、複数のベクトル表現テーブル５００から時系列データである骨格構造管理テーブル６００を生成する。図６は、骨格構造管理テーブル６００のデータ構造例を示す説明図である。骨格構造管理テーブル６００は、骨格ＩＤ欄６０５、部位欄６１０、日時（１）欄６１５、ベクトル欄６２０、日時（２）欄６２５、ベクトル欄６３０を有している。骨格ＩＤ欄６０５は、本実施の形態において、骨格を一意に識別するための情報（具体的には骨格ＩＤ）を記憶している。部位欄６１０は、部位の名称を記憶している。日時（１）欄６１５は、日時（１）を記憶している。ベクトル欄６２０は、その日時（１）におけるベクトルを記憶している。例えば、ベクトル表現テーブル５００の開始点座標欄５３４、終了点座標欄５４４である。日時（２）欄６２５は、日時（２）を記憶している。ベクトル欄６３０は、その日時（２）におけるベクトルを記憶している。以下、日時（３）等のデータが続くことになる。つまり、骨格構造管理テーブル６００は、各部位の動きが記憶されている。

ステップＳ３０８では、骨格構造からジェスチャーを認識する。例えば、ジェスチャー認識テーブル７００を用いて、時系列データである骨格構造管理テーブル６００に対応するジェスチャーを認識する。
図７は、ジェスチャー認識テーブル７００のデータ構造例を示す説明図である。ジェスチャー認識テーブル７００は、ジェスチャー欄７０５、パターン欄７１０を有している。ジェスチャー欄７０５は、ジェスチャーを記憶している。パターン欄７１０は、そのジェスチャーを示すパターンを記憶している。パターンには、部位の動きが記憶されている。例えば、ジェスチャーを構成する各部位についての骨格構造管理テーブル６００に相当するデータである。ステップＳ３０６で生成された骨格構造管理テーブル６００と、ジェスチャー認識テーブル７００のパターン欄７１０を比較して、差異が予め定められた閾値以下であれば、そのパターンに合致したと判断して、そのパターンに対応するジェスチャーであると認識する。また、パターンとして、部位のサイズ（例えば、腕の長さ、肩幅等）を含めるようにしてもよい。これによって、例えば、子供又は大人だけのジェスチャーを抽出できるようになる。さらに、パターンとして、部位の角度（例えば、肘から手首の方向等）、複数の部位の位置関係（例えば、肩、手首、足首等の位置関係、二人の間の距離等）を含めるようにしてもよい。具体的には、パターンとして、鼻より右手首が高い位置にあること、隣の人との手首の距離が予め定められた閾値以下になったこと等を示すデータとなる。
ステップＳ３０８では、関節座標の遷移、座標間の（時系列、又は、空間的）関係から、手を挙げる、手を振る、手を繋ぐ等のジェスチャーを検出することになる。この検出によって、エフェクトの合成の開始のタイミングを決めるようにしてもよい。また、そのジェスチャーが終了したことも検出できる。つまり、パターンに合致しなくなったときが、そのジェスチャーが終了したことを示している。この終了を検出することによって、エフェクトの合成の終了のタイミングを決めるようにしてもよい。

ステップＳ３１０では、ジェスチャーに対応するエフェクトを抽出する。例えば、エフェクト管理テーブル８００を用いる。図８は、エフェクト管理テーブル８００のデータ構造例を示す説明図である。エフェクト管理テーブル８００は、ＩＤ欄８０５、ジェスチャー欄８１０、エフェクト数欄８１５、エフェクト画像欄８２０、合成位置欄８２５、開始時欄８４５、終了時欄８５０、大きさ欄８５５、色欄８６０を有しており、合成位置欄８２５は、部位欄８３０、Ｘ座標欄８３５、Ｙ座標欄８４０を有している。ＩＤ欄８０５は、ジェスチャーとエフェクトの対応のＩＤを記憶している。ジェスチャー欄８１０は、ジェスチャーを記憶している。エフェクト数欄８１５は、そのジェスチャーに対応するエフェクト数を記憶している。エフェクト画像欄８２０は、エフェクト画像を記憶している。合成位置欄８２５は、そのエフェクト画像を動画像に合成する場合の位置を記憶している。予め定められた位置（絶対座標）であってもよいし、ジェスチャーを構成している部位の位置との相対座標であってもよい。なお、図８の例は相対座標の例である。部位欄８３０は、部位を記憶している。この部位は、ジェスチャーを構成しているものであって、合成位置の基準となる部位である。Ｘ座標欄８３５は、その部位からのＸ座標軸における距離を記憶している。Ｙ座標欄８４０は、その部位からのＹ座標軸における距離を記憶している。つまり、Ｘ座標欄８３５、Ｙ座標欄８４０は、部位の中心位置（中心位置は例示であって、外接矩形の左上角等であってもよい）からＸ座標、Ｙ座標だけ離れた位置の指定に用いる。開始時欄８４５は、そのエフェクトを合成する開始時を記憶している。終了時欄８５０は、そのエフェクトの合成の終了時を記憶している。大きさ欄８５５は、そのエフェクト画像の大きさを記憶している。大きさは、画素数であってもよいし、又は、部位に対する倍率であってもよい。色欄８６０は、そのエフェクト画像の色を記憶している。なお、エフェクト数欄８１５内の数だけ、エフェクト数欄８１５以降にエフェクト画像欄８２０～色欄８６０の組み合わせが続く。「大きさ」、「色」の他に、エフェクト画像に対する変形処理として、回転角度、アフィン変換用の行列等を記憶するようにしてもよい。

ステップＳ３１２では、操作者の操作を受け付ける。つまり、人間が明示的に、エフェクトの選択、合成のタイミング、エフェクトを合成する位置等を指示するものである。図９、図１０、図１１、図１２の例に示すユーザーインタフェースを表示し、操作者の操作を受け付ける。なお、動画像に対してリアルタイムに指示するようにしてもよい。
図９、図１０、図１１、図１２の例にエフェクト切替ボタンと位置指定ボタンをそれぞれラジオボタンとして配置する。なお、物理的なボタンであってもよいが、ディスプレイやタッチパネルに表示するものであってもよい。また、キーボードのキーやテンキーにその機能を割り当ててもよい。また、位置指定ボタンの代わりに、動画像を表示しているタッチパネルである表示装置そのものに、エフェクトを合成する位置に指等を接触させるようにしてもよい。

図９は、本実施の形態によるユーザーインタフェース例を示す説明図である。
画面９００には、エフェクト切替ボタンであるエフェクト１ボタン９０２、エフェクト２ボタン９０４、エフェクト３ボタン９０６と、位置指定ボタンである左肩ボタン９０８、右肩ボタン９１０、左背景ボタン９１２、右背景ボタン９１４を表示する。例えば、エフェクト１ボタン９０２は、ハートマーク型の画像に対応し、エフェクト２ボタン９０４は、星型の画像に対応し、エフェクト３ボタン９０６は、稲妻型の画像に対応している。左肩ボタン９０８、右肩ボタン９１０、左背景ボタン９１２、右背景ボタン９１４は、合成する位置を指定するものである。例えば、エフェクト１ボタン９０２と左肩ボタン９０８が選択された場合は、動画像内の人物の左肩にハートマーク型の画像を合成する。また、エフェクト切替ボタン、位置指定ボタンは、ともに複数が選択されてもよい。

図１０は、本実施の形態によるユーザーインタフェース例を示す説明図である。
画面１０００には、エフェクト１領域１０１０、エフェクト２領域１０２０、エフェクト３領域１０４０を表示する。エフェクト１領域１０１０内には、エフェクト１ＯＮ／ＯＦＦボタン１０１２、左肩ボタン１０１４、右肩ボタン１０１６を表示する。エフェクト２領域１０２０内には、エフェクト２ＯＮ／ＯＦＦボタン１０２２、左肩ボタン１０２４、右肩ボタン１０２６、左背景ボタン１０２８、右背景ボタン１０３０を表示する。エフェクト３領域１０４０内には、エフェクト３ＯＮ／ＯＦＦボタン１０４２、左背景ボタン１０４４、右背景ボタン１０４６を表示する。エフェクトの種類毎に、ボタンを配置したものである。このように配置することによって、エフェクトの種類毎に、異なった合成位置を指定できるようにしている。図１０の例では、エフェクト１は、左肩と右肩の２箇所であるが、エフェクト２は、左肩、右肩、左背景、右背景の４箇所である。

図１１は、本実施の形態によるユーザーインタフェース例を示す説明図である。
画面１１００には、エフェクト１領域１１１０、エフェクト２領域１１２０、エフェクト３領域１１３０を表示する。エフェクト１領域１１１０内には、エフェクト１左肩ボタン１１１２、エフェクト１右肩ボタン１１１４を表示する。エフェクト２領域１１２０内には、エフェクト２左肩ボタン１１２２、エフェクト２右肩ボタン１１２４、エフェクト２左背景ボタン１１２６、エフェクト２右背景ボタン１１２８を表示する。エフェクト３領域１１３０内には、エフェクト３左背景ボタン１１３２、エフェクト３右背景ボタン１１３４を表示する。エフェクト切替と位置指定の機能を１つのボタンで指定できるようにしたものである。このようなボタンにすることによって、１つのボタンの選択で、エフェクトと位置を指定することができるようになる。

図１２は、本実施の形態によるユーザーインタフェース例を示す説明図である。
エフェクト操作画像１２００には、動画像１２１０、エフェクト（ハート）ボタン１２５２、エフェクト（羽根）ボタン１２５４、エフェクト（星）ボタン１２５６、エフェクト（稲妻）ボタン１２５８、左肩ボタン１２６０、右肩ボタン１２６２、左背景ボタン１２６４、右背景ボタン１２６６を表示する。
動画像１２１０には、動画像を表示する。図１２の例では、ジェスチャーを抽出した後の動画像の例を示している。例えば、人物１２１２、人物１２１４の骨格を抽出し、二人が手をつなぐというジェスチャー該当領域１２２０を抽出した例を示したものである。なお、図１２の例では、動画像１２１０内に人物１２１２、人物１２１４の骨格を動画像に重複して表示しているが、骨格を表示しなくてもよい。
また、ジェスチャーを抽出していない場合にあっては、右側のエフェクト（ハート）ボタン１２５２等、左肩ボタン１２６０等を表示しない、又は、選択不可能の表示としてもよい。そして、ジェスチャー該当領域１２２０を抽出した後に、右側のエフェクト（ハート）ボタン１２５２等、左肩ボタン１２６０等を表示してもよいし、又は、選択可能に表示してもよい。また、ジェスチャー該当領域１２２０のジェスチャーに適したエフェクト（ハート）ボタン１２５２等、左肩ボタン１２６０等を表示してもよい。つまり、エフェクト管理テーブル８００を用いて、抽出したジェスチャーに対応するエフェクト、合成する位置に対応するボタンを表示するようにしてもよい。
なお、図１２の例では、操作者は、エフェクト、合成する位置、合成するタイミングを指定していることになる。なお、合成するタイミングは、エフェクトのボタンと合成する位置のボタンの両者が選択された時点になる。
また、左肩ボタン１２６０等の代わりに、又は、左肩ボタン１２６０とともに、動画像１２１０内を直接、操作者が指等で触った位置を検知して、その位置を合成する位置として指定するようにしてもよい。
エフェクト操作画像１２００の右側のボタンの配列は、図９の例に沿ったものであるが、図１０、図１１の例に示す配列にしてもよい。
なお、全て手動で行う場合は、ジェスチャーを抽出していない場合であっても、右側のエフェクト（ハート）ボタン１２５２等、左肩ボタン１２６０等を表示しておいてもよい。

ステップＳ３１４では、受け付けた動画像に、ステップＳ３１２で受け付けた操作に応じて、エフェクトを合成する。
ステップＳ３１６では、合成した動画像を出力する。

図１３は、本実施の形態によるエフェクト画像の例を示す説明図である。エフェクト画像１３００は、複数の赤色のハートマーク型の画像である。このエフェクト画像１３００をエフェクト画像として合成する例を、図１４、図１５、図１６の例を用いて示す。

図１４は、本実施の形態による動画像の１フレームの例を示す説明図である。
画面１４００は、動画像処理装置１００が出力した画像を表示している。エフェクト画像１３００を合成する前の画像である。ここでは、２人の人間が手をつないだというジェスチャーを抽出する。
図１５は、本実施の形態によるエフェクトを合成した処理例を示す説明図である。図１５の例では、画面１４００には、つないだ手の上方向にエフェクト画像１５００ａを合成して表示している。
図１６は、本実施の形態によるエフェクトを合成した処理例を示す説明図である。図１６の例では、画面１４００には、図１５の例から数秒後の画像を表示している。
画面１４００には、つないだ手の上方向にエフェクト画像１５００ｂを合成して表示している。なお、エフェクト画像１５００ｂは、図１５の例に示したエフェクト画像１５００ａより大きくしている。これは、手をつないでいる時間に応じて、エフェクト画像を大きくするように設定されているからである。

図１７は、本実施の形態による処理例を示すフローチャートである。図３の例に示したフローチャートは、単に、操作者の操作に応じてエフェクトを合成したが、図１７の例に示すフローチャートでは、合成した動画像を視聴した観客の反応を参考にして、エフェクトの合成処理を機械学習するために教師データを収集するようにしたものである。ステップＳ１７０２からステップＳ１７１６までの処理は、図３の例に示したフローチャートのステップＳ３０２からステップＳ３１６までの処理と同等の処理である。

ステップＳ１７０２では、動画像を受け付ける。
ステップＳ１７０４では、動画像から骨格を抽出する。
ステップＳ１７０６では、複数フレームから骨格構造を生成する。
ステップＳ１７０８では、骨格構造からジェスチャーを認識する。
ステップＳ１７１０では、ジェスチャーに対応するエフェクトを抽出する。
ステップＳ１７１２では、操作者の操作を受け付ける。
ステップＳ１７１４では、受け付けた動画像に操作に応じて、エフェクトを合成する。
ステップＳ１７１６では、合成した動画像を出力する。

ステップＳ１７１８では、合成した動画像を視聴した観客の反応を抽出する。前述したように、観客の音声、動作、テキスト入力を抽出すればよい。
ステップＳ１７２０では、観客の反応、動画像から抽出した骨格の構造、ジェスチャー、エフェクトに関する情報を記憶する。これらの他に、動画像そのもの、合成対象となったフレーム画像、対象となったジェスチャーが撮影されている部分静止画像等を含めてもよい。

図１８は、本実施の形態による処理例を示すフローチャートである。図１７の例に示したフローチャートの処理を行った後に、機械学習を行う。
ステップＳ１８０２では、ステップＳ１７２０で記憶した情報から教師データとする情報を抽出する。例えば、全ての情報を教師データとしてもよいし、前述したように、視聴者の反応がよかった場面のデータだけを教師データとしてもよい。また、視聴者の反応がよかった場面のデータについては、正の教師データとして重みを強めるようにしてもよいし、逆に、視聴者の反応が悪かった場面のデータについては、負の教師データとして重みを弱めるようにしてもよい。

ステップＳ１８０４では、その教師データを用いて機械学習を行い、学習モデルを生成する。機械学習はニューラルネットワークをつくる「学習フェーズ」と、できあがったニューラルネットワークを使って正解を出す「予測フェーズ」の２つに分かれる。ステップＳ１８０４での処理は、「学習フェーズ」での処理である。

図１９は、本実施の形態による処理例を示すフローチャートである。
図１９の例に示すフローチャートは、図３の例に示したフローチャートのステップＳ３１２、Ｓ３１４をステップＳ１９１２、Ｓ１９１４に変更したものである。つまり、図１８の例に示したフローチャートのステップＳ１８０４の処理によって作成された学習モデルを使って、操作者の代わりにエフェクトの選択、エフェクトの合成位置の決定、エフェクトの変形処理等を行う。

ステップＳ１９０２では、動画像を受け付ける。
ステップＳ１９０４では、動画像から骨格を抽出する。
ステップＳ１９０６では、複数フレームから骨格構造を生成する。
ステップＳ１９０８では、骨格構造からジェスチャーを認識する。
ステップＳ１９１０では、ジェスチャーに対応するエフェクトを抽出する。

ステップＳ１９１２では、学習モデルを用いて、エフェクトを選択する。例えば、ステップＳ１９１０で抽出されたエフェクトが複数ある場合は、その中からエフェクトを選択する。
ステップＳ１９１４では、学習モデルを用いて、受け付けた動画像にエフェクトを合成する。具体的には、合成する位置、合成する時間、エフェクト画像の変形処理等を学習モデルの指示によって行う。
ステップＳ１９１６では、合成した動画像を出力する。
なお、図１９の例に示したフローチャートに、図１７の例に示したステップＳ１７１８、ステップＳ１７２０の処理を付加して、図１８の例に示したフローチャートによる機械学習を行うようにしてもよい。
また、学習モデルは、操作者のアシストをするようにしてもよい。つまり、学習モデルは、操作者が選択すべきエフェクト、合成の位置の候補を優先的に表示し、最終的な操作は操作者が行うようにしてもよい。

ストーリーを用いてエフェクトを合成する処理例を説明する。
合成処理を行う前に、ストーリーは予め定められている。例えば、二人が手を合わせるジェスチャーであっても、恋愛関係のストーリーの文脈では、親密さを示す行動の意味になるが、争い関係のストーリーの文脈では、けんかを始める行動の意味になる場合がある。
そこで、図８の例に示したエフェクト管理テーブル８００をエフェクト管理テーブル２０００とする。図２０は、エフェクト管理テーブル２０００のデータ構造例を示す説明図である。エフェクト管理テーブル２０００は、ＩＤ欄２００５、ジェスチャー欄２０１０、ストーリー欄２０１２、エフェクト数欄２０１５、エフェクト画像欄２０２０、合成位置欄２０２５、開始時欄２０４５、終了時欄２０５０、大きさ欄２０５５、色欄２０６０を有しており、合成位置欄２０２５は、部位欄２０３０、Ｘ座標欄２０３５、Ｙ座標欄２０４０を有している。つまり、エフェクト管理テーブル８００にストーリー欄２０１２を付加したものである。エフェクト数欄２０１５以降の欄は、そのジェスチャーとストーリーの組み合わせに対応するエフェクトに関する情報を記憶している。

図２１は、本実施の形態による処理例を示すフローチャートである。ストーリーを用いたエフェクトの合成処理を行うものである。具体的には、図３の例に示したフローチャートに、ステップＳ２１０２を付加し、ステップＳ３１０をステップＳ２１１２に変更したものである。

ステップＳ２１０２では、ストーリーを設定する。例えば、ストーリーの選択画面を表示し、操作者の操作に応じて、ストーリーを設定すればよい。また、予め定められたストーリーを設定してもよい。

ステップＳ２１０４では、動画像を受け付ける。
ステップＳ２１０６では、動画像から骨格を抽出する。
ステップＳ２１０８では、複数フレームから骨格構造を生成する。
ステップＳ２１１０では、骨格構造からジェスチャーを認識する。

ステップＳ２１１２では、ジェスチャー及びストーリーに対応するエフェクトを抽出する。具体的には、エフェクト管理テーブル２０００を用いて、ステップＳ２１１０で認識されたジェスチャーとステップＳ２１０２で設定されたストーリーの組み合わせに対応するエフェクトを抽出する。

ステップＳ２１１４では、操作者の操作を受け付ける。
ステップＳ２１１６では、受け付けた動画像に操作に応じて、エフェクトを合成する。
ステップＳ２１１８では、合成した動画像を出力する。

また、図２１の例に示したフローチャートに、図１７の例に示したフローチャートのステップＳ１７１８、Ｓ１７２０の処理を付加してもよい。その場合、設定されたストーリーも記憶するようにしてもよい。そして、図１８の例に示したフローチャートによって、教師データとして、ストーリーも含めて機械学習を行うようにしてもよい。また、図１９の例に示したフローチャートのステップＳ１９１０を、「ジェスチャー及びストーリーに対応するエフェクトを抽出する」としてもよい。

なお、本実施の形態としてのプログラムが実行されるコンピュータのハードウェア構成は、図２２に例示するように、一般的なコンピュータであり、具体的にはパーソナルコンピュータ、サーバーとなり得るコンピュータ等である。つまり、具体例として、処理部（演算部）としてＣＰＵ２２０１を用い、記憶装置としてＲＡＭ２２０２、ＲＯＭ２２０３、ＨＤＤ２２０４を用いている。ＨＤＤ２２０４として、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅの略）、フラッシュ・メモリであるＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅの略）等を用いてもよい。動画像受付モジュール１０５、骨格認識モジュール１１０、骨格構造記述モジュール１１５、ジェスチャー認識モジュール１２０、エフェクト発生モジュール１２５、エフェクト自動指示モジュール１３０、手動エフェクト指示モジュール１３５、エフェクト合成モジュール１４０、動画像出力モジュール１４５、操作機械学習モジュール１５０等のプログラムを実行するＣＰＵ２２０１と、そのプログラムやデータを記憶するＲＡＭ２２０２と、本コンピュータを起動するためのプログラム等が格納されているＲＯＭ２２０３と、元の動画像、エフェクト画像、合成後の動画像、ベクトル表現テーブル５００、骨格構造管理テーブル６００、ジェスチャー認識テーブル７００、エフェクト管理テーブル８００、エフェクト管理テーブル２０００等を記憶する補助記憶装置であるＨＤＤ２２０４と、キーボード、マウス、タッチスクリーン、マイク、カメラ（視線検知カメラ等を含む）等に対する利用者の操作（動作、音声、視線等を含む）に基づいてデータを受け付ける受付装置２２０６と、液晶ディスプレイ、有機ＥＬディスプレイ、スピーカー等の出力装置２２０５と、ネットワークインタフェースカード等の通信ネットワークと接続するための通信回線インタフェース２２０７、そして、それらをつないでデータのやりとりをするためのバス２２０８により構成されている。これらのコンピュータが複数台互いにネットワークによって接続されていてもよい。

前述の実施の形態のうち、コンピュータ・プログラムによるものについては、本ハードウェア構成のシステムにソフトウェアであるコンピュータ・プログラムを読み込ませ、ソフトウェアとハードウェア資源とが協働して、前述の実施の形態が実現される。
なお、図２２に示すハードウェア構成は、１つの構成例を示すものであり、本実施の形態は、図２２に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、プロセッサーとして、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔの略、ＧＰＧＰＵ（Ｇｅｎｅｒａｌ－ＰｕｒｐｏｓｅｃｏｍｐｕｔｉｎｇｏｎＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔｓの略）を含む）を用いてもよいし、一部のモジュールを専用のハードウェア（例えば特定用途向け集積回路（具体例として、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔの略）等がある）や再構成可能な集積回路（具体例として、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙの略）等がある）で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続している形態でもよく、さらに図２２に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、携帯情報通信機器（携帯電話、スマートフォン、モバイル機器、ウェアラブルコンピュータ等を含む）、情報家電、ロボット等のいずれか２つ以上の機能を有している画像処理装置）等に組み込まれていてもよい。

前述の実施の形態においては、エフェクトとして画像の例を示したが、この他に、動画像、音声、振動情報等を含めてもよい。
また、運動体の種類（種類として、例えば、人間、犬、自動車等）を認識し、予め定められた種類の運動体のジェスチャーだけを認識するようにしてもよい。さらに、特定の運動体のジェスチャーだけを認識するようにしてもよい。特定の運動体として、例えば、赤い服を着た人間のように服の特徴を抽出して予め定められた服を着た人間、顔認識を行って予め定められた人間等としてもよい。

なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通等のために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク（ＤＶＤ）であって、ＤＶＤフォーラムで策定された規格である「ＤＶＤ－Ｒ、ＤＶＤ－ＲＷ、ＤＶＤ－ＲＡＭ等」、ＤＶＤ＋ＲＷで策定された規格である「ＤＶＤ＋Ｒ、ＤＶＤ＋ＲＷ等」、コンパクトディスク（ＣＤ）であって、読出し専用メモリ（ＣＤ－ＲＯＭ）、ＣＤレコーダブル（ＣＤ－Ｒ）、ＣＤリライタブル（ＣＤ－ＲＷ）等、ブルーレイ・ディスク（Ｂｌｕ－ｒａｙ（登録商標）Ｄｉｓｃ）、光磁気ディスク（ＭＯ）、フレキシブルディスク（ＦＤ）、磁気テープ、ハードディスク、読出し専用メモリ（ＲＯＭ）、電気的消去及び書換可能な読出し専用メモリ（ＥＥＰＲＯＭ（登録商標））、フラッシュ・メモリ、ランダム・アクセス・メモリ（ＲＡＭ）、ＳＤ（ＳｅｃｕｒｅＤｉｇｉｔａｌの略）メモリーカード等が含まれる。
そして、前記のプログラムの全体又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク（ＬＡＮ）、メトロポリタン・エリア・ネットワーク（ＭＡＮ）、ワイド・エリア・ネットワーク（ＷＡＮ）、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、又は無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分若しくは全部であってもよく、又は別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して記録されていてもよい。また、圧縮や暗号化等、復元可能であればどのような態様で記録されていてもよい。

１００…動画像処理装置
１０５…動画像受付モジュール
１１０…骨格認識モジュール
１１５…骨格構造記述モジュール
１２０…ジェスチャー認識モジュール
１２５…エフェクト発生モジュール
１３０…エフェクト自動指示モジュール
１３５…手動エフェクト指示モジュール
１４０…エフェクト合成モジュール
１４５…動画像出力モジュール
１５０…操作機械学習モジュール
２００…カメラシステム
２５０…ユーザー端末
２６０…大画面表示装置

Claims

運動体が撮影された動画像を受け付ける受付手段と、
前記動画像から運動体によるジェスチャーを抽出する抽出手段と、
前記抽出手段によって抽出されたジェスチャーに対応するエフェクトを、前記動画像に合成する合成手段と、
前記合成手段によってエフェクトが合成された動画像を出力する出力手段と、
前記出力手段によって出力された動画像に対する観客の反応を取得する取得手段と、
前記取得手段によって取得された観客の反応、前記ジェスチャー、前記エフェクトに関する情報を用いて、動画像に合成するエフェクトに関する処理を機械学習する学習手段
を有する動画像処理装置。
前記取得手段は、前記観客の反応として、（１）前記観客の音声、（２）前記観客を撮影した画像、（３）前記観客が前記動画像に対して入力したテキスト、のいずれか１つ以上を用いる、
請求項１に記載の動画像処理装置。
前記合成手段は、
操作者による操作に応じて合成処理を行うこと、
請求項２に記載の動画像処理装置によって機械学習された学習モデルを用いて合成処理を行うこと、
又は、これらの組み合わせによって合成処理を行うこと、
のいずれかを行う請求項２に記載の動画像処理装置。
前記抽出手段は、前記動画像から運動体の骨格を認識し、該骨格の動きを用いて、ジェスチャーを抽出する、
請求項１から３のいずれか一項に記載の動画像処理装置。
前記合成手段は、前記運動体の骨格に合わせて、元のエフェクトを変形し、該変形後のエフェクトを前記動画像に合成する、
請求項４に記載の動画像処理装置。
前記エフェクトは、ストーリー毎に定められており、
前記合成手段は、予め定められたストーリーにしたがって、エフェクトを選択する、
請求項１から５のいずれか一項に記載の動画像処理装置。
運動体が撮影された動画像を表示する表示手段と、
前記運動体によるジェスチャーを抽出し、該ジェスチャーに対応するエフェクトを操作者の指示にしたがって合成する合成手段と、
前記合成手段によってエフェクトが合成された動画像を出力する出力手段と、
前記出力手段によって出力された動画像に対する観客の反応を取得する取得手段と、
前記取得手段によって取得された観客の反応、前記ジェスチャー、前記エフェクトに関する情報を用いて、動画像に合成するエフェクトに関する処理を機械学習する学習手段
を有する動画像処理装置。
運動体が撮影された動画像を受け付ける第１ステップと、
前記動画像から運動体によるジェスチャーを抽出する第２ステップと、
前記第２ステップによって抽出されたジェスチャーに対応するエフェクトを、前記動画像に合成する第３ステップと、
前記第３ステップによってエフェクトが合成された動画像を出力する第４ステップと、
前記第４ステップによって出力された動画像に対する観客の反応を取得する第５ステップと、
前記第５ステップによって取得された観客の反応、前記ジェスチャー、前記エフェクトに関する情報を用いて、動画像に合成するエフェクトに関する処理を機械学習する第６ステップ
を有する動画像処理方法。
運動体が撮影された動画像を表示する第１ステップと、
前記運動体によるジェスチャーを抽出し、該ジェスチャーに対応するエフェクトを操作者の指示にしたがって合成する第２ステップと、
前記第２ステップによってエフェクトが合成された動画像を出力する第３ステップと、
前記第３ステップによって出力された動画像に対する観客の反応を取得する第４ステップと、
前記第４ステップによって取得された観客の反応、前記ジェスチャー、前記エフェクトに関する情報を用いて、動画像に合成するエフェクトに関する処理を機械学習する第５ステップ
を有する動画像処理方法。
コンピュータを、
運動体が撮影された動画像を受け付ける受付手段と、
前記動画像から運動体によるジェスチャーを抽出する抽出手段と、
前記抽出手段によって抽出されたジェスチャーに対応するエフェクトを、前記動画像に合成する合成手段と、
前記合成手段によってエフェクトが合成された動画像を出力する出力手段と、
前記出力手段によって出力された動画像に対する観客の反応を取得する取得手段と、
前記取得手段によって取得された観客の反応、前記ジェスチャー、前記エフェクトに関する情報を用いて、動画像に合成するエフェクトに関する処理を機械学習する学習手段
として機能させる動画像処理プログラム。
コンピュータを、
運動体が撮影された動画像を表示する表示手段と、
前記運動体によるジェスチャーを抽出し、該ジェスチャーに対応するエフェクトを操作者の指示にしたがって合成する合成手段と、
前記合成手段によってエフェクトが合成された動画像を出力する出力手段と、
前記出力手段によって出力された動画像に対する観客の反応を取得する取得手段と、
前記取得手段によって取得された観客の反応、前記ジェスチャー、前記エフェクトに関する情報を用いて、動画像に合成するエフェクトに関する処理を機械学習する学習手段
として機能させる動画像処理プログラム。