JP7374430B2 - 動画像処理装置、動画像処理方法及び動画像処理プログラム - Google Patents

動画像処理装置、動画像処理方法及び動画像処理プログラム Download PDF

Info

Publication number
JP7374430B2
JP7374430B2 JP2019137731A JP2019137731A JP7374430B2 JP 7374430 B2 JP7374430 B2 JP 7374430B2 JP 2019137731 A JP2019137731 A JP 2019137731A JP 2019137731 A JP2019137731 A JP 2019137731A JP 7374430 B2 JP7374430 B2 JP 7374430B2
Authority
JP
Japan
Prior art keywords
moving image
effect
gesture
moving
effects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019137731A
Other languages
English (en)
Other versions
JP2021022811A (ja
Inventor
一郎 山下
万莉 宮▲崎▼
かおる 植田
淳 宮▲崎▼
Original Assignee
株式会社オレンジテクラボ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社オレンジテクラボ filed Critical 株式会社オレンジテクラボ
Priority to JP2019137731A priority Critical patent/JP7374430B2/ja
Publication of JP2021022811A publication Critical patent/JP2021022811A/ja
Application granted granted Critical
Publication of JP7374430B2 publication Critical patent/JP7374430B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Studio Circuits (AREA)
  • Image Analysis (AREA)

Description

本発明は、動画像処理装置、動画像処理方法及び動画像処理プログラムに関する。
特許文献1には、高精度な映像合成を実現することを課題とし、撮影された映像信号に他の映像信号を合成するための映像合成装置において、カードを含む3次元空間を撮影する撮像部と、撮影された映像から、前記カードの種類、3次元位置情報、姿勢情報、及び前記撮像部の内部情報を取得するカード情報取得部と、撮影された映像信号から得られる2次元の座標軸に基づいて合成する他の映像信号の表示位置を設定する座標入力部と、前記他の映像信号を表示する高さを設定する高さ情報入力部と、予め設定された座標変換情報に基づいて、2次元座標及び高さ座標を前記3次元空間上の3次元座標に変換する座標変換部と、前記3次元座標に基づいて、予め設定された前記他の映像の描画を行う映像描画部と、前記映像描画部により得られる映像と前記撮像部により得られる映像とを合成する映像合成部とを有することが開示されている。
特開2007-206807号公報
動画像にエフェクトを合成するには、操作者による操作が必要である。
本発明は、動画像内の運動体によるジェスチャーによってエフェクトを合成するようにした動画像処理装置、動画像処理方法及び動画像処理プログラムを提供することを目的としている。
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。なお、以下の「請求項」とあるのは、出願当初の請求項である。ただし、誤記の訂正を行っている。
請求項1の発明は、運動体が撮影された動画像を受け付ける受付手段と、前記動画像から運動体によるジェスチャーを抽出する抽出手段と、前記抽出手段によって抽出されたジェスチャーに対応するエフェクトを、前記動画像に合成する合成手段を有する動画像処理装置である。
請求項2の発明は、前記合成手段によってエフェクトが合成された動画像を出力する出力手段と、前記出力手段によって出力された観客の反応を取得する取得手段と、前記取得手段によって取得された観客の反応、前記ジェスチャー、前記エフェクトに関する情報を用いて、動画像に合成するエフェクトに関する処理を機械学習する学習手段をさらに有する請求項1に記載の動画像処理装置である。
請求項3の発明は、前記合成手段は、操作者による操作に応じて合成処理を行うこと、請求項2に記載の動画像処理装置によって機械学習された学習モデルを用いて合成処理を行うこと、又は、これらの組み合わせによって合成処理を行うこと、のいずれかを行う請求項2に記載の動画像処理装置である。
請求項4の発明は、前記抽出手段は、前記動画像から運動体の骨格を認識し、該骨格の動きを用いて、ジェスチャーを抽出する、請求項1から3のいずれか一項に記載の動画像処理装置である。
請求項5の発明は、前記合成手段は、前記運動体の骨格に合わせて、元のエフェクトを変形し、該変形後のエフェクトを前記動画像に合成する、請求項4に記載の動画像処理装置である。
請求項6の発明は、前記エフェクトは、ストーリー毎に定められており、前記合成手段は、予め定められたストーリーにしたがって、エフェクトを選択する、請求項1から5のいずれか一項に記載の動画像処理装置である。
請求項7の発明は、運動体が撮影された動画像を表示する表示手段と、前記運動体によるジェスチャーを抽出し、該ジェスチャーに対応するエフェクトを操作者の指示にしたがって合成する合成手段を有する動画像処理装置である。
請求項8の発明は、運動体が撮影された動画像を受け付ける第1ステップと、前記動画像から運動体によるジェスチャーを抽出する第2ステップと、前記第2ステップによって抽出されたジェスチャーに対応するエフェクトを、前記動画像に合成する第3ステップを有する動画像処理方法である。
請求項9の発明は、運動体が撮影された動画像を表示する第1ステップと、前記運動体によるジェスチャーを抽出し、該ジェスチャーに対応するエフェクトを操作者の指示にしたがって合成する第2ステップを有する動画像処理方法である。
請求項10の発明は、コンピュータを、運動体が撮影された動画像を受け付ける受付手段と、前記動画像から運動体によるジェスチャーを抽出する抽出手段と、前記抽出手段によって抽出されたジェスチャーに対応するエフェクトを、前記動画像に合成する合成手段として機能させる動画像処理プログラムである。
請求項11の発明は、コンピュータを、運動体が撮影された動画像を表示する表示手段と、前記運動体によるジェスチャーを抽出し、該ジェスチャーに対応するエフェクトを操作者の指示にしたがって合成する合成手段として機能させる動画像処理プログラムである。
請求項1の動画像処理装置によれば、動画像内の運動体によるジェスチャーによってエフェクトを合成することができる。
請求項2の動画像処理装置によれば、動画像に合成するエフェクトに関する処理を機械学習することができる。
請求項3の動画像処理装置によれば、操作者による操作、機械学習された学習モデル、又は、これらの組み合わせによって、合成処理を行うことができる。
請求項4の動画像処理装置によれば、動画像から運動体の骨格を認識し、該骨格の動きを用いて、ジェスチャーを抽出することができる。
請求項5の動画像処理装置によれば、運動体の骨格に合わせて、元のエフェクトを変形させることができる。
請求項6の動画像処理装置によれば、予め定められたストーリーにしたがって、エフェクトを選択することができる。
請求項7の動画像処理装置によれば、操作者が運動体によってジェスチャーが行われたか否かを判断する必要なく、ジェスチャーに対応するエフェクトを合成する操作を行うことができる。
請求項8の動画像処理方法によれば、動画像内の運動体によるジェスチャーによってエフェクトを合成することができる。
請求項9の動画像処理方法によれば、操作者が運動体によってジェスチャーが行われたか否かを判断する必要なく、ジェスチャーに対応するエフェクトを合成する操作を行うことができる。
請求項10の動画像処理プログラムによれば、動画像内の運動体によるジェスチャーによってエフェクトを合成することができる。
請求項11の動画像処理プログラムによれば、操作者が運動体によってジェスチャーが行われたか否かを判断する必要なく、ジェスチャーに対応するエフェクトを合成する操作を行うことができる。
本実施の形態の構成例についての概念的なモジュール構成図である。 本実施の形態を利用したシステム構成例を示す説明図である。 本実施の形態による処理例を示すフローチャートである。 人物のワイヤーフレームの例を示す説明図である。 ベクトル表現テーブルのデータ構造例を示す説明図である。 骨格構造管理テーブルのデータ構造例を示す説明図である。 ジェスチャー認識テーブルのデータ構造例を示す説明図である。 エフェクト管理テーブルのデータ構造例を示す説明図である。 本実施の形態によるユーザーインタフェース例を示す説明図である。 本実施の形態によるユーザーインタフェース例を示す説明図である。 本実施の形態によるユーザーインタフェース例を示す説明図である。 本実施の形態によるユーザーインタフェース例を示す説明図である。 本実施の形態によるエフェクト画像の例を示す説明図である。 本実施の形態による動画像の1フレームの例を示す説明図である。 本実施の形態によるエフェクトを合成した処理例を示す説明図である。 本実施の形態によるエフェクトを合成した処理例を示す説明図である。 本実施の形態による処理例を示すフローチャートである。 本実施の形態による処理例を示すフローチャートである。 本実施の形態による処理例を示すフローチャートである。 エフェクト管理テーブルのデータ構造例を示す説明図である。 本実施の形態による処理例を示すフローチャートである。 本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。
以下、図面に基づき本発明を実現するにあたっての好適な一実施の形態の例を説明する。
図1は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(「ソフトウェア」の解釈として、コンピュータ・プログラムを含む)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(例えば、コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するという意味である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(例えば、データの授受、指示、データ間の参照関係、ログイン等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態にしたがって、又はそれまでの状況・状態にしたがって定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、2以上の値(「2以上の値」には、もちろんのことながら、全ての値も含む)が同じであってもよい。また、「Aである場合、Bをする」という記載は、「Aであるか否かを判断し、Aであると判断した場合はBをする」の意味で用いる。ただし、Aであるか否かの判断が不要である場合を除く。また、「A、B、C」等のように事物を列挙した場合は、断りがない限り例示列挙であり、その1つのみを選んでいる場合(例えば、Aのみ)を含む。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(「ネットワーク」には、一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(つまり、社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスクドライブ、RAM(Random Access Memoryの略)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unitの略)内のレジスタ等を含んでいてもよい。
本実施の形態である動画像処理装置100は、動画像にエフェクト(Effect)を合成する機能を有しており、図1の例に示すように、動画像受付モジュール105、骨格認識モジュール110、骨格構造記述モジュール115、ジェスチャー認識モジュール120、エフェクト発生モジュール125、エフェクト自動指示モジュール130、手動エフェクト指示モジュール135、エフェクト合成モジュール140、動画像出力モジュール145、操作機械学習モジュール150を有している。
動画像処理装置100は、動画像に撮影されている運動体がジェスチャー(予め定められた動作)を行った場合に、エフェクトをかけるようにしている。
動画像受付モジュール105は、骨格認識モジュール110、エフェクト合成モジュール140と接続されている。動画像受付モジュール105は、運動体が撮影された動画像を受け付け、その動画像を骨格認識モジュール110、エフェクト合成モジュール140に渡す。
ここで「運動体」は、撮影可能な物体であって、予め定められたジェスチャーの動作が可能なものである。例えば、運動体には、動物、機械を含む。より具体的には、人間、犬、猫、馬、鳥、魚等の動物であってもよいし、ロボット、自動車等の機械であってもよい。また、1フレーム内に複数の運動体があってもよいし、その複数の運動体には、複数の種類のものが混在していてもよい。例えば、複数人の人間が撮影されていてもよいし、人間と犬、人間とロボットのように、異なる種類の運動体が撮影されていてもよい。予め定められたジェスチャーとして、例えば、人間であれば手を振る等、猫であれば前足で顔をなでる等、自動車であれば、右折する、左折する、ワイパーの動作等がある。また、1つの運動体による動作だけでなく、複数の運動体による動作をジェスチャーに加えてもよい。例えば、二人の人間が手をつないでいる等の動作を、対象とするジェスチャーとしてもよい。
動画像を受け付けるとは、例えば、デジタルビデオカメラ(WEBカメラといわれるものを含む)等で撮影すること、ハードディスク(動画像処理装置100に内蔵されているものの他に、ネットワークを介して接続されているもの等を含む)等に記憶されている動画像を読み出すこと等が含まれる。なお、動画像の内容としては、運動体が撮影されている可能性のあるものであればよい。
骨格認識モジュール110は、動画像受付モジュール105、骨格構造記述モジュール115と接続されている。骨格認識モジュール110は、動画像受付モジュール105が受け付けた動画像から運動体の骨格を認識する。例えば、動画像を入力して各関節の座標等を出力する技術として、AI画像解析(骨格認識)技術があり、具体的には、以下のものがある。これらの従来の技術を用いればよい。
(1)OpenPose
https://github.com/CMU-Perceptual-Computing-Lab/openpose
(2)VisionPose
https://www.next-system.com/visionpose
骨格構造記述モジュール115は、骨格認識モジュール110、ジェスチャー認識モジュール120と接続されている。骨格構造記述モジュール115は、骨格認識モジュール110によって認識された骨格に関する情報を用いて、骨格の構造を記述する。具体的には、各関節の座標、その座標間を結ぶベクトルを用いて、それらの関節又はベクトルが対応する部位(例えば、肩、手首、肘から手首まで等)を認識し、それらの部位の関係又は動作の記述を生成する。例えば、部位Aが振られている、部位Aと部位Bが重なっている、部位Cと部位Dが離れた等がある。
ジェスチャー認識モジュール120は、骨格構造記述モジュール115、エフェクト発生モジュール125と接続されている。ジェスチャー認識モジュール120は、動画像受付モジュール105が受け付けた動画像から運動体によるジェスチャーを抽出する。
また、ジェスチャー認識モジュール120は、動画像受付モジュール105が受け付けた動画像から運動体の骨格を認識し、その骨格の動きを用いて、ジェスチャーを抽出するようにしてもよい。例えば、骨格構造記述モジュール115によって記述された部位の関係又は動作を用いて、予め定められたジェスチャーを抽出すればよい。具体的には、前述の例で部位Aが右手首、部位Bが左手首である場合、予め定められたジェスチャーとして「手首が振られている」があれば、「部位Aが振られている」との動作がそれに該当するジェスチャーとして認識されることになる。。
エフェクト発生モジュール125は、ジェスチャー認識モジュール120、エフェクト自動指示モジュール130、手動エフェクト指示モジュール135、エフェクト合成モジュール140と接続されている。エフェクト発生モジュール125は、ジェスチャー認識モジュール120によって認識されたジェスチャーに対応するエフェクトを抽出する。例えば、ジェスチャーとエフェクトを対応させて記憶しているテーブルを用いて、ジェスチャーからエフェクトを決定する。前述の例で、ジェスチャー:「手首が振られている」に対応して、エフェクト:「赤い星形状の画像をその手首の周囲に合成する」がある場合、ジェスチャー認識モジュール120によって「手首が振られている」(部位Aが振られている)が認識されたので、エフェクトとして「赤い星形状の画像をその手首の周囲に合成する」を抽出することになる。
なお、エフェクト発生モジュール125が抽出するエフェクトは、1つであってもよいし、複数であってもよい。
エフェクト自動指示モジュール130は、エフェクト発生モジュール125、操作機械学習モジュール150と接続されている。エフェクト自動指示モジュール130は、エフェクト発生モジュール125によって抽出されたエフェクトを、動画像受付モジュール105が受け付けた動画像に合成するタイミングをエフェクト合成モジュール140に対して指示する。また、エフェクト発生モジュール125によって抽出されたエフェクトが複数ある場合は、合成するエフェクトを選択するようにしてもよい。また、エフェクトを合成する位置を指定してもよい。例えば、合成するタイミングとして、エフェクト発生モジュール125によってエフェクトが抽出されたならば、すぐに合成するようにしてもよいし、予め定められた期間(例えば、1秒等)の後に合成するようにしてもよい。なお、この指示の処理は、操作機械学習モジュール150によって機械学習された結果(学習モデル)を用いるようにしてもよい。
手動エフェクト指示モジュール135は、動画像受付モジュール105が受け付けた動画像を、液晶ディスプレイ、有機ELディスプレイ等の表示装置に表示する。そして、ジェスチャー認識モジュール120によって運動体によるジェスチャーが抽出された場合は、エフェクト発生モジュール125によって抽出されたエフェクトを、動画像に合成するための操作者による指示を受け付ける。その後、エフェクト合成モジュール140が、その指示にしたがって、動画像にエフェクトを合成する。詳細については、図12の例を用いて後述する。
手動エフェクト指示モジュール135は、エフェクト発生モジュール125、操作機械学習モジュール150と接続されている。手動エフェクト指示モジュール135は、操作者の操作に応じて、エフェクト発生モジュール125によって抽出されたエフェクトを、動画像受付モジュール105が受け付けた動画像に合成するタイミングをエフェクト合成モジュール140に対して指示する。また、エフェクト発生モジュール125によって抽出されたエフェクトが複数ある場合は、合成するエフェクトを操作者の操作に応じて選択するようにしてもよい。また、エフェクトを合成する位置を指定してもよい。このユーザーインタフェースについては、図9、図10、図11、図12の例を用いて後述する。なお、この操作者の操作を学習データとして、操作機械学習モジュール150によって機械学習するようにしてもよい。
エフェクト合成モジュール140は、動画像受付モジュール105、エフェクト発生モジュール125、動画像出力モジュール145と接続されている。エフェクト合成モジュール140は、ジェスチャー認識モジュール120によって抽出されたジェスチャーに対応するエフェクトを、動画像受付モジュール105が受け付けた動画像に合成する。
なお、エフェクト合成モジュール140は、操作者による操作に応じて合成処理を行うこと(手動エフェクト指示モジュール135による操作者の操作)、操作機械学習モジュール150によって機械学習された学習モデルを用いて合成処理を行うこと(エフェクト自動指示モジュール130による指示)、又は、これらの組み合わせによって合成処理を行うこと、のいずれかを行う。したがって、操作機械学習モジュール150における機械学習の教師モデルとしてなるデータは、操作者による操作によって発生するデータであってもよいし、学習モデルを用いて発生するデータであってもよい。
また、エフェクト合成モジュール140は、運動体の骨格に合わせて、元のエフェクトを変形し、その変形後のエフェクトを、動画像受付モジュール105が受け付けた動画像に合成するようにしてもよい。
また、エフェクトは、ストーリー毎に定められていてもよい。
そして、その場合、エフェクト合成モジュール140は、予め定められたストーリーにしたがって、エフェクトを選択するようにしてもよい。例えば、ストーリーとして「恋愛」があり、そのエフェクトとして「ハートマークの画像」等が用意されている。また、ストーリーが「争い」であれば、そのエフェクトとして「稲妻マークの画像」等が用意されている。
動画像出力モジュール145は、エフェクト合成モジュール140と接続されている。動画像出力モジュール145は、エフェクト合成モジュール140によってエフェクトが合成された動画像を出力する。動画像を出力するとは、例えば、ディスプレイ等の表示装置に表示すること、動画像データベース等の動画像記憶装置へ動画像を書き込むこと、メモリーカード等の記憶媒体に動画像を記憶すること、他の情報処理装置へ動画像を渡すこと等が含まれる。なお、合成後の動画像を圧縮、暗号化等の処理を行ってもよい。
操作機械学習モジュール150は、エフェクト自動指示モジュール130、手動エフェクト指示モジュール135と接続されている。操作機械学習モジュール150は、動画像出力モジュール145によって出力された観客の反応を取得する。
そして、操作機械学習モジュール150は、その取得された観客の反応、動画像受付モジュール105が受け付けた動画像(又は、ジェスチャーを認識したフレームの静止画像、その静止画像内のジェスチャーが撮影された一部分の画像等であってもよい。)、ジェスチャー、エフェクト、合成に関する情報を用いて、動画像に合成するエフェクトに関する処理を機械学習する。合成に関する情報として、手動エフェクト指示モジュール135によって行われた操作者の操作、エフェクト自動指示モジュール130によって行われた指示があり、具体的には、エフェクトの選択、エフェクトを合成するタイミング、位置等がある。
また、視聴者の反応がよかった場合は、機械学習の重みを強めるようにしてもよい。重みを強める場合の視聴者の反応として、例えば、(1)視聴者の音声をマイクで入力できる場合は、その音声の大きさが予め定められた閾値より大きいこと、音声認識を行い、認識結果が歓声、感嘆等であること等がある。(2)視聴者を撮影できる場合は、拍手をしている又は腕を上げている視聴者の数又は割合が予め定められた閾値より多いこと、エフェクトがかかっている映像を見ている視聴者の数又は割合が予め定められた閾値より多いこと等がある。また、(3)視聴者が視聴している動画像に対してテキストを入力できる場合(例えば、コメントとしてテキストを付加できる場合、その動画像に入力したテキストを重ね合わせることができる場合等)は、そのテキストに対して形態素解析等の言語処理を行い、肯定的意見が否定的意見よりも多いこと等がある。
図2は、本実施の形態を利用したシステム構成例を示す説明図である。この例では、動画像のリアルタイム放送に応用した場合のシステム構成を示している。
カメラシステム200は、動画像を撮影し、その動画像を動画像処理装置100に送信する。
動画像処理装置100は、カメラシステム200が撮影した動画像に対して、エフェクト効果をリアルタイムに付加する。
ユーザー端末250、大画面表示装置260は、エフェクトが重畳された動画像のリアルタイム放送を受信し、その動画像を再生する。例えば、ユーザー端末250として、パソコン、携帯情報通信機器等があり、大画面表示装置260として、デジタルサイネージ用ディスプレイ、コンサート会場等での大画面ディスプレイ等が該当する。動画像処理装置100とユーザー端末250、大画面表示装置260間の通信回線は、無線、有線、これらの組み合わせであってもよく、例えば、通信インフラとしてのインターネット、イントラネット等であってもよいし、専用回線で構築してもよい。
例えば、コンサート会場で、出場者をカメラシステム200で撮影し、その出場者があるジェスチャーを行うと、その動画像にエフェクトがかかり、そのコンサート会場にある大画面表示装置260で映し出される。大画面表示装置260でエフェクトがかかった映像を見た観客の反応を、動画像処理装置100は観測する。観客の反応として、例えば、マイクを用いて、観客の音声を収集してもよいし、カメラを用いて、手を挙げる等の観客の動作等を撮影してもよい。音量が予め定められた閾値以上になった、手を挙げる人数が予め定められた閾値以上になった等の場合、そのときのエフェクト等を正の教師データとして、逆に、ブーイング等の音声を検知した場合、手を下げる人数が予め定められた閾値以上になった等の場合、そのときのエフェクト等を負の教師データとして、機械学習を行うようにしてもよい。
図3は、本実施の形態による処理例を示すフローチャートである。
ステップS302では、動画像を受け付ける。
ステップS304では、動画像から骨格を抽出する。ここで、抽出する骨格(ワイヤーフレーム)の例を、図4を用いて説明する。図4の例は、関節等の部位を持った3次元の人間モデルを示しており、骨格認識モジュール110が受け付けた動画像から人400を抽出し、ワイヤーフレーム410を生成する。人の動作のワイヤーフレームモデルは、既知の技術であり、図4の例に示すような、人400の体の各部位をワイヤーフレームの集合によって表現したものである。また、体の各部位のベクトル表現とは、例えば、「首,(v21,v21),(v22,v22)」のように、体の部位の名称と、開始点の座標、終了点の座標等の集合である。例えば、ベクトル表現テーブル500を生成する。
図5は、ベクトル表現テーブル500のデータ構造例を示す説明図である。ベクトル表現テーブル500は、ベクトルID欄510、部位欄520、開始点欄530、終了点欄540を有しており、開始点欄530は、日時欄532、開始点座標欄534を有しており、終了点欄540は、日時欄542、終了点座標欄544を有している。ベクトルID欄510は、本実施の形態において、部位の動きを示すベクトルを一意に識別するための情報(具体的にはベクトルID:IDentificationの略)を記憶している。部位欄520は、部位の名称を記憶している。開始点欄530は、その部位の開始点(一方の端点)を記憶している。日時欄532は、開始点を測定した日時を記憶している。開始点座標欄534は、開始点の座標を記憶している。終了点欄540は、その部位の終了点(他方の端点)を記憶している。日時欄542は、終了点を測定した日時を記憶している。終了点座標欄544は、終了点の座標を記憶している。
ステップS306では、複数フレームから骨格構造を生成する。例えば、複数のベクトル表現テーブル500から時系列データである骨格構造管理テーブル600を生成する。図6は、骨格構造管理テーブル600のデータ構造例を示す説明図である。骨格構造管理テーブル600は、骨格ID欄605、部位欄610、日時(1)欄615、ベクトル欄620、日時(2)欄625、ベクトル欄630を有している。骨格ID欄605は、本実施の形態において、骨格を一意に識別するための情報(具体的には骨格ID)を記憶している。部位欄610は、部位の名称を記憶している。日時(1)欄615は、日時(1)を記憶している。ベクトル欄620は、その日時(1)におけるベクトルを記憶している。例えば、ベクトル表現テーブル500の開始点座標欄534、終了点座標欄544である。日時(2)欄625は、日時(2)を記憶している。ベクトル欄630は、その日時(2)におけるベクトルを記憶している。以下、日時(3)等のデータが続くことになる。つまり、骨格構造管理テーブル600は、各部位の動きが記憶されている。
ステップS308では、骨格構造からジェスチャーを認識する。例えば、ジェスチャー認識テーブル700を用いて、時系列データである骨格構造管理テーブル600に対応するジェスチャーを認識する。
図7は、ジェスチャー認識テーブル700のデータ構造例を示す説明図である。ジェスチャー認識テーブル700は、ジェスチャー欄705、パターン欄710を有している。ジェスチャー欄705は、ジェスチャーを記憶している。パターン欄710は、そのジェスチャーを示すパターンを記憶している。パターンには、部位の動きが記憶されている。例えば、ジェスチャーを構成する各部位についての骨格構造管理テーブル600に相当するデータである。ステップS306で生成された骨格構造管理テーブル600と、ジェスチャー認識テーブル700のパターン欄710を比較して、差異が予め定められた閾値以下であれば、そのパターンに合致したと判断して、そのパターンに対応するジェスチャーであると認識する。また、パターンとして、部位のサイズ(例えば、腕の長さ、肩幅等)を含めるようにしてもよい。これによって、例えば、子供又は大人だけのジェスチャーを抽出できるようになる。さらに、パターンとして、部位の角度(例えば、肘から手首の方向等)、複数の部位の位置関係(例えば、肩、手首、足首等の位置関係、二人の間の距離等)を含めるようにしてもよい。具体的には、パターンとして、鼻より右手首が高い位置にあること、隣の人との手首の距離が予め定められた閾値以下になったこと等を示すデータとなる。
ステップS308では、関節座標の遷移、座標間の(時系列、又は、空間的)関係から、手を挙げる、手を振る、手を繋ぐ等のジェスチャーを検出することになる。この検出によって、エフェクトの合成の開始のタイミングを決めるようにしてもよい。また、そのジェスチャーが終了したことも検出できる。つまり、パターンに合致しなくなったときが、そのジェスチャーが終了したことを示している。この終了を検出することによって、エフェクトの合成の終了のタイミングを決めるようにしてもよい。
ステップS310では、ジェスチャーに対応するエフェクトを抽出する。例えば、エフェクト管理テーブル800を用いる。図8は、エフェクト管理テーブル800のデータ構造例を示す説明図である。エフェクト管理テーブル800は、ID欄805、ジェスチャー欄810、エフェクト数欄815、エフェクト画像欄820、合成位置欄825、開始時欄845、終了時欄850、大きさ欄855、色欄860を有しており、合成位置欄825は、部位欄830、X座標欄835、Y座標欄840を有している。ID欄805は、ジェスチャーとエフェクトの対応のIDを記憶している。ジェスチャー欄810は、ジェスチャーを記憶している。エフェクト数欄815は、そのジェスチャーに対応するエフェクト数を記憶している。エフェクト画像欄820は、エフェクト画像を記憶している。合成位置欄825は、そのエフェクト画像を動画像に合成する場合の位置を記憶している。予め定められた位置(絶対座標)であってもよいし、ジェスチャーを構成している部位の位置との相対座標であってもよい。なお、図8の例は相対座標の例である。部位欄830は、部位を記憶している。この部位は、ジェスチャーを構成しているものであって、合成位置の基準となる部位である。X座標欄835は、その部位からのX座標軸における距離を記憶している。Y座標欄840は、その部位からのY座標軸における距離を記憶している。つまり、X座標欄835、Y座標欄840は、部位の中心位置(中心位置は例示であって、外接矩形の左上角等であってもよい)からX座標、Y座標だけ離れた位置の指定に用いる。開始時欄845は、そのエフェクトを合成する開始時を記憶している。終了時欄850は、そのエフェクトの合成の終了時を記憶している。大きさ欄855は、そのエフェクト画像の大きさを記憶している。大きさは、画素数であってもよいし、又は、部位に対する倍率であってもよい。色欄860は、そのエフェクト画像の色を記憶している。なお、エフェクト数欄815内の数だけ、エフェクト数欄815以降にエフェクト画像欄820~色欄860の組み合わせが続く。「大きさ」、「色」の他に、エフェクト画像に対する変形処理として、回転角度、アフィン変換用の行列等を記憶するようにしてもよい。
ステップS312では、操作者の操作を受け付ける。つまり、人間が明示的に、エフェクトの選択、合成のタイミング、エフェクトを合成する位置等を指示するものである。図9、図10、図11、図12の例に示すユーザーインタフェースを表示し、操作者の操作を受け付ける。なお、動画像に対してリアルタイムに指示するようにしてもよい。
図9、図10、図11、図12の例にエフェクト切替ボタンと位置指定ボタンをそれぞれラジオボタンとして配置する。なお、物理的なボタンであってもよいが、ディスプレイやタッチパネルに表示するものであってもよい。また、キーボードのキーやテンキーにその機能を割り当ててもよい。また、位置指定ボタンの代わりに、動画像を表示しているタッチパネルである表示装置そのものに、エフェクトを合成する位置に指等を接触させるようにしてもよい。
図9は、本実施の形態によるユーザーインタフェース例を示す説明図である。
画面900には、エフェクト切替ボタンであるエフェクト1ボタン902、エフェクト2ボタン904、エフェクト3ボタン906と、位置指定ボタンである左肩ボタン908、右肩ボタン910、左背景ボタン912、右背景ボタン914を表示する。例えば、エフェクト1ボタン902は、ハートマーク型の画像に対応し、エフェクト2ボタン904は、星型の画像に対応し、エフェクト3ボタン906は、稲妻型の画像に対応している。左肩ボタン908、右肩ボタン910、左背景ボタン912、右背景ボタン914は、合成する位置を指定するものである。例えば、エフェクト1ボタン902と左肩ボタン908が選択された場合は、動画像内の人物の左肩にハートマーク型の画像を合成する。また、エフェクト切替ボタン、位置指定ボタンは、ともに複数が選択されてもよい。
図10は、本実施の形態によるユーザーインタフェース例を示す説明図である。
画面1000には、エフェクト1領域1010、エフェクト2領域1020、エフェクト3領域1040を表示する。エフェクト1領域1010内には、エフェクト1 ON/OFFボタン1012、左肩ボタン1014、右肩ボタン1016を表示する。エフェクト2領域1020内には、エフェクト2 ON/OFFボタン1022、左肩ボタン1024、右肩ボタン1026、左背景ボタン1028、右背景ボタン1030を表示する。エフェクト3領域1040内には、エフェクト3 ON/OFFボタン1042、左背景ボタン1044、右背景ボタン1046を表示する。エフェクトの種類毎に、ボタンを配置したものである。このように配置することによって、エフェクトの種類毎に、異なった合成位置を指定できるようにしている。図10の例では、エフェクト1は、左肩と右肩の2箇所であるが、エフェクト2は、左肩、右肩、左背景、右背景の4箇所である。
図11は、本実施の形態によるユーザーインタフェース例を示す説明図である。
画面1100には、エフェクト1領域1110、エフェクト2領域1120、エフェクト3領域1130を表示する。エフェクト1領域1110内には、エフェクト1左肩ボタン1112、エフェクト1右肩ボタン1114を表示する。エフェクト2領域1120内には、エフェクト2左肩ボタン1122、エフェクト2右肩ボタン1124、エフェクト2左背景ボタン1126、エフェクト2右背景ボタン1128を表示する。エフェクト3領域1130内には、エフェクト3左背景ボタン1132、エフェクト3右背景ボタン1134を表示する。エフェクト切替と位置指定の機能を1つのボタンで指定できるようにしたものである。このようなボタンにすることによって、1つのボタンの選択で、エフェクトと位置を指定することができるようになる。
図12は、本実施の形態によるユーザーインタフェース例を示す説明図である。
エフェクト操作画像1200には、動画像1210、エフェクト(ハート)ボタン1252、エフェクト(羽根)ボタン1254、エフェクト(星)ボタン1256、エフェクト(稲妻)ボタン1258、左肩ボタン1260、右肩ボタン1262、左背景ボタン1264、右背景ボタン1266を表示する。
動画像1210には、動画像を表示する。図12の例では、ジェスチャーを抽出した後の動画像の例を示している。例えば、人物1212、人物1214の骨格を抽出し、二人が手をつなぐというジェスチャー該当領域1220を抽出した例を示したものである。なお、図12の例では、動画像1210内に人物1212、人物1214の骨格を動画像に重複して表示しているが、骨格を表示しなくてもよい。
また、ジェスチャーを抽出していない場合にあっては、右側のエフェクト(ハート)ボタン1252等、左肩ボタン1260等を表示しない、又は、選択不可能の表示としてもよい。そして、ジェスチャー該当領域1220を抽出した後に、右側のエフェクト(ハート)ボタン1252等、左肩ボタン1260等を表示してもよいし、又は、選択可能に表示してもよい。また、ジェスチャー該当領域1220のジェスチャーに適したエフェクト(ハート)ボタン1252等、左肩ボタン1260等を表示してもよい。つまり、エフェクト管理テーブル800を用いて、抽出したジェスチャーに対応するエフェクト、合成する位置に対応するボタンを表示するようにしてもよい。
なお、図12の例では、操作者は、エフェクト、合成する位置、合成するタイミングを指定していることになる。なお、合成するタイミングは、エフェクトのボタンと合成する位置のボタンの両者が選択された時点になる。
また、左肩ボタン1260等の代わりに、又は、左肩ボタン1260とともに、動画像1210内を直接、操作者が指等で触った位置を検知して、その位置を合成する位置として指定するようにしてもよい。
エフェクト操作画像1200の右側のボタンの配列は、図9の例に沿ったものであるが、図10、図11の例に示す配列にしてもよい。
なお、全て手動で行う場合は、ジェスチャーを抽出していない場合であっても、右側のエフェクト(ハート)ボタン1252等、左肩ボタン1260等を表示しておいてもよい。
ステップS314では、受け付けた動画像に、ステップS312で受け付けた操作に応じて、エフェクトを合成する。
ステップS316では、合成した動画像を出力する。
図13は、本実施の形態によるエフェクト画像の例を示す説明図である。エフェクト画像1300は、複数の赤色のハートマーク型の画像である。このエフェクト画像1300をエフェクト画像として合成する例を、図14、図15、図16の例を用いて示す。
図14は、本実施の形態による動画像の1フレームの例を示す説明図である。
画面1400は、動画像処理装置100が出力した画像を表示している。エフェクト画像1300を合成する前の画像である。ここでは、2人の人間が手をつないだというジェスチャーを抽出する。
図15は、本実施の形態によるエフェクトを合成した処理例を示す説明図である。図15の例では、画面1400には、つないだ手の上方向にエフェクト画像1500aを合成して表示している。
図16は、本実施の形態によるエフェクトを合成した処理例を示す説明図である。図16の例では、画面1400には、図15の例から数秒後の画像を表示している。
画面1400には、つないだ手の上方向にエフェクト画像1500bを合成して表示している。なお、エフェクト画像1500bは、図15の例に示したエフェクト画像1500aより大きくしている。これは、手をつないでいる時間に応じて、エフェクト画像を大きくするように設定されているからである。
図17は、本実施の形態による処理例を示すフローチャートである。図3の例に示したフローチャートは、単に、操作者の操作に応じてエフェクトを合成したが、図17の例に示すフローチャートでは、合成した動画像を視聴した観客の反応を参考にして、エフェクトの合成処理を機械学習するために教師データを収集するようにしたものである。ステップS1702からステップS1716までの処理は、図3の例に示したフローチャートのステップS302からステップS316までの処理と同等の処理である。
ステップS1702では、動画像を受け付ける。
ステップS1704では、動画像から骨格を抽出する。
ステップS1706では、複数フレームから骨格構造を生成する。
ステップS1708では、骨格構造からジェスチャーを認識する。
ステップS1710では、ジェスチャーに対応するエフェクトを抽出する。
ステップS1712では、操作者の操作を受け付ける。
ステップS1714では、受け付けた動画像に操作に応じて、エフェクトを合成する。
ステップS1716では、合成した動画像を出力する。
ステップS1718では、合成した動画像を視聴した観客の反応を抽出する。前述したように、観客の音声、動作、テキスト入力を抽出すればよい。
ステップS1720では、観客の反応、動画像から抽出した骨格の構造、ジェスチャー、エフェクトに関する情報を記憶する。これらの他に、動画像そのもの、合成対象となったフレーム画像、対象となったジェスチャーが撮影されている部分静止画像等を含めてもよい。
図18は、本実施の形態による処理例を示すフローチャートである。図17の例に示したフローチャートの処理を行った後に、機械学習を行う。
ステップS1802では、ステップS1720で記憶した情報から教師データとする情報を抽出する。例えば、全ての情報を教師データとしてもよいし、前述したように、視聴者の反応がよかった場面のデータだけを教師データとしてもよい。また、視聴者の反応がよかった場面のデータについては、正の教師データとして重みを強めるようにしてもよいし、逆に、視聴者の反応が悪かった場面のデータについては、負の教師データとして重みを弱めるようにしてもよい。
ステップS1804では、その教師データを用いて機械学習を行い、学習モデルを生成する。機械学習はニューラルネットワークをつくる「学習フェーズ」と、できあがったニューラルネットワークを使って正解を出す「予測フェーズ」の2つに分かれる。ステップS1804での処理は、「学習フェーズ」での処理である。
図19は、本実施の形態による処理例を示すフローチャートである。
図19の例に示すフローチャートは、図3の例に示したフローチャートのステップS312、S314をステップS1912、S1914に変更したものである。つまり、図18の例に示したフローチャートのステップS1804の処理によって作成された学習モデルを使って、操作者の代わりにエフェクトの選択、エフェクトの合成位置の決定、エフェクトの変形処理等を行う。
ステップS1902では、動画像を受け付ける。
ステップS1904では、動画像から骨格を抽出する。
ステップS1906では、複数フレームから骨格構造を生成する。
ステップS1908では、骨格構造からジェスチャーを認識する。
ステップS1910では、ジェスチャーに対応するエフェクトを抽出する。
ステップS1912では、学習モデルを用いて、エフェクトを選択する。例えば、ステップS1910で抽出されたエフェクトが複数ある場合は、その中からエフェクトを選択する。
ステップS1914では、学習モデルを用いて、受け付けた動画像にエフェクトを合成する。具体的には、合成する位置、合成する時間、エフェクト画像の変形処理等を学習モデルの指示によって行う。
ステップS1916では、合成した動画像を出力する。
なお、図19の例に示したフローチャートに、図17の例に示したステップS1718、ステップS1720の処理を付加して、図18の例に示したフローチャートによる機械学習を行うようにしてもよい。
また、学習モデルは、操作者のアシストをするようにしてもよい。つまり、学習モデルは、操作者が選択すべきエフェクト、合成の位置の候補を優先的に表示し、最終的な操作は操作者が行うようにしてもよい。
ストーリーを用いてエフェクトを合成する処理例を説明する。
合成処理を行う前に、ストーリーは予め定められている。例えば、二人が手を合わせるジェスチャーであっても、恋愛関係のストーリーの文脈では、親密さを示す行動の意味になるが、争い関係のストーリーの文脈では、けんかを始める行動の意味になる場合がある。
そこで、図8の例に示したエフェクト管理テーブル800をエフェクト管理テーブル2000とする。図20は、エフェクト管理テーブル2000のデータ構造例を示す説明図である。エフェクト管理テーブル2000は、ID欄2005、ジェスチャー欄2010、ストーリー欄2012、エフェクト数欄2015、エフェクト画像欄2020、合成位置欄2025、開始時欄2045、終了時欄2050、大きさ欄2055、色欄2060を有しており、合成位置欄2025は、部位欄2030、X座標欄2035、Y座標欄2040を有している。つまり、エフェクト管理テーブル800にストーリー欄2012を付加したものである。エフェクト数欄2015以降の欄は、そのジェスチャーとストーリーの組み合わせに対応するエフェクトに関する情報を記憶している。
図21は、本実施の形態による処理例を示すフローチャートである。ストーリーを用いたエフェクトの合成処理を行うものである。具体的には、図3の例に示したフローチャートに、ステップS2102を付加し、ステップS310をステップS2112に変更したものである。
ステップS2102では、ストーリーを設定する。例えば、ストーリーの選択画面を表示し、操作者の操作に応じて、ストーリーを設定すればよい。また、予め定められたストーリーを設定してもよい。
ステップS2104では、動画像を受け付ける。
ステップS2106では、動画像から骨格を抽出する。
ステップS2108では、複数フレームから骨格構造を生成する。
ステップS2110では、骨格構造からジェスチャーを認識する。
ステップS2112では、ジェスチャー及びストーリーに対応するエフェクトを抽出する。具体的には、エフェクト管理テーブル2000を用いて、ステップS2110で認識されたジェスチャーとステップS2102で設定されたストーリーの組み合わせに対応するエフェクトを抽出する。
ステップS2114では、操作者の操作を受け付ける。
ステップS2116では、受け付けた動画像に操作に応じて、エフェクトを合成する。
ステップS2118では、合成した動画像を出力する。
また、図21の例に示したフローチャートに、図17の例に示したフローチャートのステップS1718、S1720の処理を付加してもよい。その場合、設定されたストーリーも記憶するようにしてもよい。そして、図18の例に示したフローチャートによって、教師データとして、ストーリーも含めて機械学習を行うようにしてもよい。また、図19の例に示したフローチャートのステップS1910を、「ジェスチャー及びストーリーに対応するエフェクトを抽出する」としてもよい。
なお、本実施の形態としてのプログラムが実行されるコンピュータのハードウェア構成は、図22に例示するように、一般的なコンピュータであり、具体的にはパーソナルコンピュータ、サーバーとなり得るコンピュータ等である。つまり、具体例として、処理部(演算部)としてCPU2201を用い、記憶装置としてRAM2202、ROM2203、HDD2204を用いている。HDD2204として、例えば、HDD(Hard Disk Driveの略)、フラッシュ・メモリであるSSD(Solid State Driveの略)等を用いてもよい。動画像受付モジュール105、骨格認識モジュール110、骨格構造記述モジュール115、ジェスチャー認識モジュール120、エフェクト発生モジュール125、エフェクト自動指示モジュール130、手動エフェクト指示モジュール135、エフェクト合成モジュール140、動画像出力モジュール145、操作機械学習モジュール150等のプログラムを実行するCPU2201と、そのプログラムやデータを記憶するRAM2202と、本コンピュータを起動するためのプログラム等が格納されているROM2203と、元の動画像、エフェクト画像、合成後の動画像、ベクトル表現テーブル500、骨格構造管理テーブル600、ジェスチャー認識テーブル700、エフェクト管理テーブル800、エフェクト管理テーブル2000等を記憶する補助記憶装置であるHDD2204と、キーボード、マウス、タッチスクリーン、マイク、カメラ(視線検知カメラ等を含む)等に対する利用者の操作(動作、音声、視線等を含む)に基づいてデータを受け付ける受付装置2206と、液晶ディスプレイ、有機ELディスプレイ、スピーカー等の出力装置2205と、ネットワークインタフェースカード等の通信ネットワークと接続するための通信回線インタフェース2207、そして、それらをつないでデータのやりとりをするためのバス2208により構成されている。これらのコンピュータが複数台互いにネットワークによって接続されていてもよい。
前述の実施の形態のうち、コンピュータ・プログラムによるものについては、本ハードウェア構成のシステムにソフトウェアであるコンピュータ・プログラムを読み込ませ、ソフトウェアとハードウェア資源とが協働して、前述の実施の形態が実現される。
なお、図22に示すハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図22に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、プロセッサーとして、GPU(Graphics Processing Unitの略、GPGPU(General-Purpose computing on Graphics Processing Unitsの略)を含む)を用いてもよいし、一部のモジュールを専用のハードウェア(例えば特定用途向け集積回路(具体例として、ASIC(Application Specific Integrated Circuitの略)等がある)や再構成可能な集積回路(具体例として、FPGA(Field-Programmable Gate Arrayの略)等がある)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続している形態でもよく、さらに図22に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、携帯情報通信機器(携帯電話、スマートフォン、モバイル機器、ウェアラブルコンピュータ等を含む)、情報家電、ロボット等のいずれか2つ以上の機能を有している画像処理装置)等に組み込まれていてもよい。
前述の実施の形態においては、エフェクトとして画像の例を示したが、この他に、動画像、音声、振動情報等を含めてもよい。
また、運動体の種類(種類として、例えば、人間、犬、自動車等)を認識し、予め定められた種類の運動体のジェスチャーだけを認識するようにしてもよい。さらに、特定の運動体のジェスチャーだけを認識するようにしてもよい。特定の運動体として、例えば、赤い服を着た人間のように服の特徴を抽出して予め定められた服を着た人間、顔認識を行って予め定められた人間等としてもよい。
なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通等のために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD-R、DVD-RW、DVD-RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD-ROM)、CDレコーダブル(CD-R)、CDリライタブル(CD-RW)等、ブルーレイ・ディスク(Blu-ray(登録商標) Disc)、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digitalの略)メモリーカード等が含まれる。
そして、前記のプログラムの全体又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、又は無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分若しくは全部であってもよく、又は別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して記録されていてもよい。また、圧縮や暗号化等、復元可能であればどのような態様で記録されていてもよい。
100…動画像処理装置
105…動画像受付モジュール
110…骨格認識モジュール
115…骨格構造記述モジュール
120…ジェスチャー認識モジュール
125…エフェクト発生モジュール
130…エフェクト自動指示モジュール
135…手動エフェクト指示モジュール
140…エフェクト合成モジュール
145…動画像出力モジュール
150…操作機械学習モジュール
200…カメラシステム
250…ユーザー端末
260…大画面表示装置

Claims (11)

  1. 運動体が撮影された動画像を受け付ける受付手段と、
    前記動画像から運動体によるジェスチャーを抽出する抽出手段と、
    前記抽出手段によって抽出されたジェスチャーに対応するエフェクトを、前記動画像に合成する合成手段と、
    前記合成手段によってエフェクトが合成された動画像を出力する出力手段と、
    前記出力手段によって出力された動画像に対する観客の反応を取得する取得手段と、
    前記取得手段によって取得された観客の反応、前記ジェスチャー、前記エフェクトに関する情報を用いて、動画像に合成するエフェクトに関する処理を機械学習する学習手段
    を有する動画像処理装置。
  2. 前記取得手段は、前記観客の反応として、(1)前記観客の音声、(2)前記観客を撮影した画像、(3)前記観客が前記動画像に対して入力したテキスト、のいずれか1つ以上を用いる、
    請求項1に記載の動画像処理装置。
  3. 前記合成手段は、
    操作者による操作に応じて合成処理を行うこと、
    請求項2に記載の動画像処理装置によって機械学習された学習モデルを用いて合成処理を行うこと、
    又は、これらの組み合わせによって合成処理を行うこと、
    のいずれかを行う請求項2に記載の動画像処理装置。
  4. 前記抽出手段は、前記動画像から運動体の骨格を認識し、該骨格の動きを用いて、ジェスチャーを抽出する、
    請求項1から3のいずれか一項に記載の動画像処理装置。
  5. 前記合成手段は、前記運動体の骨格に合わせて、元のエフェクトを変形し、該変形後のエフェクトを前記動画像に合成する、
    請求項4に記載の動画像処理装置。
  6. 前記エフェクトは、ストーリー毎に定められており、
    前記合成手段は、予め定められたストーリーにしたがって、エフェクトを選択する、
    請求項1から5のいずれか一項に記載の動画像処理装置。
  7. 運動体が撮影された動画像を表示する表示手段と、
    前記運動体によるジェスチャーを抽出し、該ジェスチャーに対応するエフェクトを操作者の指示にしたがって合成する合成手段と、
    前記合成手段によってエフェクトが合成された動画像を出力する出力手段と、
    前記出力手段によって出力された動画像に対する観客の反応を取得する取得手段と、
    前記取得手段によって取得された観客の反応、前記ジェスチャー、前記エフェクトに関する情報を用いて、動画像に合成するエフェクトに関する処理を機械学習する学習手段
    を有する動画像処理装置。
  8. 運動体が撮影された動画像を受け付ける第1ステップと、
    前記動画像から運動体によるジェスチャーを抽出する第2ステップと、
    前記第2ステップによって抽出されたジェスチャーに対応するエフェクトを、前記動画像に合成する第3ステップと、
    前記第3ステップによってエフェクトが合成された動画像を出力する第4ステップと、
    前記第4ステップによって出力された動画像に対する観客の反応を取得する第5ステップと、
    前記第5ステップによって取得された観客の反応、前記ジェスチャー、前記エフェクトに関する情報を用いて、動画像に合成するエフェクトに関する処理を機械学習する第6ステップ
    を有する動画像処理方法。
  9. 運動体が撮影された動画像を表示する第1ステップと、
    前記運動体によるジェスチャーを抽出し、該ジェスチャーに対応するエフェクトを操作者の指示にしたがって合成する第2ステップと、
    前記第2ステップによってエフェクトが合成された動画像を出力する第3ステップと、
    前記第3ステップによって出力された動画像に対する観客の反応を取得する第4ステップと、
    前記第4ステップによって取得された観客の反応、前記ジェスチャー、前記エフェクトに関する情報を用いて、動画像に合成するエフェクトに関する処理を機械学習する第5ステップ
    を有する動画像処理方法。
  10. コンピュータを、
    運動体が撮影された動画像を受け付ける受付手段と、
    前記動画像から運動体によるジェスチャーを抽出する抽出手段と、
    前記抽出手段によって抽出されたジェスチャーに対応するエフェクトを、前記動画像に合成する合成手段と、
    前記合成手段によってエフェクトが合成された動画像を出力する出力手段と、
    前記出力手段によって出力された動画像に対する観客の反応を取得する取得手段と、
    前記取得手段によって取得された観客の反応、前記ジェスチャー、前記エフェクトに関する情報を用いて、動画像に合成するエフェクトに関する処理を機械学習する学習手段
    として機能させる動画像処理プログラム。
  11. コンピュータを、
    運動体が撮影された動画像を表示する表示手段と、
    前記運動体によるジェスチャーを抽出し、該ジェスチャーに対応するエフェクトを操作者の指示にしたがって合成する合成手段と、
    前記合成手段によってエフェクトが合成された動画像を出力する出力手段と、
    前記出力手段によって出力された動画像に対する観客の反応を取得する取得手段と、
    前記取得手段によって取得された観客の反応、前記ジェスチャー、前記エフェクトに関する情報を用いて、動画像に合成するエフェクトに関する処理を機械学習する学習手段
    として機能させる動画像処理プログラム。
JP2019137731A 2019-07-26 2019-07-26 動画像処理装置、動画像処理方法及び動画像処理プログラム Active JP7374430B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019137731A JP7374430B2 (ja) 2019-07-26 2019-07-26 動画像処理装置、動画像処理方法及び動画像処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019137731A JP7374430B2 (ja) 2019-07-26 2019-07-26 動画像処理装置、動画像処理方法及び動画像処理プログラム

Publications (2)

Publication Number Publication Date
JP2021022811A JP2021022811A (ja) 2021-02-18
JP7374430B2 true JP7374430B2 (ja) 2023-11-07

Family

ID=74574488

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019137731A Active JP7374430B2 (ja) 2019-07-26 2019-07-26 動画像処理装置、動画像処理方法及び動画像処理プログラム

Country Status (1)

Country Link
JP (1) JP7374430B2 (ja)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005333309A (ja) 2004-05-19 2005-12-02 Satoru Tokuhisa 情報処理装置および情報処理方法、情報処理システム、並びに、プログラム
JP2009088729A (ja) 2007-09-28 2009-04-23 Casio Comput Co Ltd 合成画像出力装置および合成画像出力処理プログラム
JP2011176456A (ja) 2010-02-23 2011-09-08 Nikon Corp カメラ、および画像再生装置
JP2012138763A (ja) 2010-12-27 2012-07-19 Nikon Corp 画像処理装置、電子カメラ、及び画像処理プログラム
JP2013101527A (ja) 2011-11-09 2013-05-23 Sony Corp 情報処理装置、表示制御方法、およびプログラム
JP2019009754A (ja) 2017-06-21 2019-01-17 メディアフロント カンパニー リミテッド リアルタイム増強合成技術を用いた映像生成サーバ、映像生成システム及び方法
JP2019075124A (ja) 2017-10-18 2019-05-16 ネイバー コーポレーションNAVER Corporation カメラエフェクトを提供する方法およびシステム
JP2019118098A (ja) 2017-12-26 2019-07-18 キヤノン株式会社 撮像装置及びその制御方法、プログラム、記憶媒体

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05232861A (ja) * 1991-06-11 1993-09-10 C S K Sogo Kenkyusho:Kk カラオケシステム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005333309A (ja) 2004-05-19 2005-12-02 Satoru Tokuhisa 情報処理装置および情報処理方法、情報処理システム、並びに、プログラム
JP2009088729A (ja) 2007-09-28 2009-04-23 Casio Comput Co Ltd 合成画像出力装置および合成画像出力処理プログラム
JP2011176456A (ja) 2010-02-23 2011-09-08 Nikon Corp カメラ、および画像再生装置
JP2012138763A (ja) 2010-12-27 2012-07-19 Nikon Corp 画像処理装置、電子カメラ、及び画像処理プログラム
JP2013101527A (ja) 2011-11-09 2013-05-23 Sony Corp 情報処理装置、表示制御方法、およびプログラム
JP2019009754A (ja) 2017-06-21 2019-01-17 メディアフロント カンパニー リミテッド リアルタイム増強合成技術を用いた映像生成サーバ、映像生成システム及び方法
JP2019075124A (ja) 2017-10-18 2019-05-16 ネイバー コーポレーションNAVER Corporation カメラエフェクトを提供する方法およびシステム
JP2019118098A (ja) 2017-12-26 2019-07-18 キヤノン株式会社 撮像装置及びその制御方法、プログラム、記憶媒体

Also Published As

Publication number Publication date
JP2021022811A (ja) 2021-02-18

Similar Documents

Publication Publication Date Title
JP7095722B2 (ja) 情報処理装置およびプログラム
US20100159430A1 (en) Educational system and method using virtual reality
CN108322832B (zh) 评论方法、装置、及电子设备
JP6448869B2 (ja) 画像処理装置、画像処理システム、及びプログラム
TWI255141B (en) Method and system for real-time interactive video
JP2006287749A (ja) 撮像装置、及びその制御方法
JP2005250950A (ja) マーカ提示用携帯端末および拡張現実感システムならびにその動作方法
WO2006011399A1 (ja) 情報処理装置および方法、記録媒体、並びにプログラム
CN113923462A (zh) 视频生成、直播处理方法、设备和可读介质
JP2011517879A (ja) 少なくとも1台のカメラによって生成された画像を表示するための方法及びシステム
WO2018135246A1 (ja) 情報処理システム及び情報処理装置
JP6275086B2 (ja) サーバ、データ提供方法及びサーバ用プログラム
CN113822972A (zh) 基于视频的处理方法、设备和可读介质
JP4829357B2 (ja) 画像処理装置及び画像処理方法
JP7374430B2 (ja) 動画像処理装置、動画像処理方法及び動画像処理プログラム
JPWO2018033952A1 (ja) パノラマ画像合成解析システム、パノラマ画像合成解析方法及びプログラム
JP2008083672A (ja) 表情影像を表示する方法
JP7130290B2 (ja) 情報抽出装置
US11978252B2 (en) Communication system, display apparatus, and display control method
TW201710982A (zh) 互動式擴增實境影音看屋系統
JP6896932B1 (ja) プログラム、情報処理方法、情報処理装置、及びシステム
JP2013232904A (ja) 画像処理装置、画像処理プログラム及び画像処理方法
JP2013146511A (ja) 人体の動作の変移を記録、解析し、表示する電子機器
JP6934552B1 (ja) プログラム、情報処理方法、情報処理装置、及びシステム
JP2010160826A (ja) 撮像装置および画像処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220721

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230531

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230606

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230804

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231017

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231017

R150 Certificate of patent or registration of utility model

Ref document number: 7374430

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150