JP2018049052A

JP2018049052A - 仮想楽器演奏プログラム、仮想楽器演奏装置および仮想楽器演奏方法

Info

Publication number: JP2018049052A
Application number: JP2016182847A
Authority: JP
Inventors: 翔太朗大森; Shotaro Omori; 誠義松本; Masayoshi Matsumoto; 優毅志賀; Masatake SHIGA
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2016-09-20
Filing date: 2016-09-20
Publication date: 2018-03-29
Anticipated expiration: 2036-09-20
Also published as: JP6728004B2

Abstract

【課題】携帯情報端末に容易に実装でき、かつ、ユーザにも負担をかけない仮想楽器演奏プログラム、仮想楽器演奏装置および仮想楽器演奏方法を提供する。【解決手段】本願に係る仮想楽器演奏プログラムは、取得手順と、判別手順と、解析手順と、出力制御手順とをコンピュータに実行させる。取得手順は、ユーザを撮像した撮像画像を取得する。判別手順は、取得手順によって取得された撮像画像中のユーザの姿勢を示す画素部分を抽出し、かかる画素部分に基づき、機械学習により生成された演奏姿勢の判別モデルを用いて上記姿勢に対応する楽器の種類を判別する。解析手順は、上記画素部分のオプティカルフローを解析する。出力制御手順は、解析手順の解析結果に応じて楽器の楽器音を出力する。【選択図】図２

Description

本発明は、仮想楽器演奏プログラム、仮想楽器演奏装置および仮想楽器演奏方法に関する。

従来、ユーザの行う仮想の楽器を弾く身振りから楽器の種類を特定し、特定した楽器の楽器音を出力する技術が知られている。

たとえば、特許文献１に開示の演奏装置は、ユーザを撮像した撮像画像からユーザの姿勢を取得し、かかる姿勢とデータベースに記憶された楽器演奏姿勢データとを照合して楽器を特定し、特定した楽器に応じた音色で楽音を生成する。

より具体的には、上記楽器演奏姿勢データには、各種楽器の一般的な演奏姿勢映像と、圧力センサ、加速度センサ、位置センサ、方向センサなどからなるセンサ群からの想定出力値とが含まれている。センサ群は、ユーザの身体に装着され、上記演奏装置は、かかるセンサ群を装着した状態で楽器を弾く身振りをするユーザの撮像画像と、センサ群からの実際の出力値とを取得し、データベースの上記楽器演奏姿勢データと照合する。

特開２００７−２６４０２５号公報

しかしながら、上記従来の技術は、データベースの上記楽器演奏姿勢データとの照合により楽器の種類を特定するため、楽器の種類が増えるのに伴い、必要となるデータ容量を膨大なものにしてしまう。このため、スマートフォンなどの携帯情報端末に実装するうえでは難がある。また、上記従来の技術は、センサ群をユーザの身体に装着させる必要があるため、ユーザにかける負担が大きい。

本願は、上記に鑑みてなされたものであって、携帯情報端末に容易に実装でき、かつ、ユーザにも負担をかけない仮想楽器演奏プログラム、仮想楽器演奏装置および仮想楽器演奏方法を提供することを目的とする。

本願に係る仮想楽器演奏プログラムは、取得手順と、判別手順と、解析手順と、出力制御手順とをコンピュータに実行させる。前記取得手順は、ユーザを撮像した撮像画像を取得する。前記判別手順は、前記取得手順によって取得された前記撮像画像中の前記ユーザの姿勢を示す画素部分を抽出し、該画素部分に基づき、機械学習により生成された演奏姿勢の判別モデルを用いて前記姿勢に対応する楽器の種類を判別する。前記解析手順は、前記画素部分のオプティカルフローを解析する。前記出力制御手順は、前記解析手順の解析結果に応じて前記楽器の楽器音を出力する。

実施形態の一態様によれば、携帯情報端末に容易に実装でき、かつ、ユーザにも負担をかけないという効果を奏する。

図１は、実施形態に係る仮想楽器演奏装置の概要説明図である。図２は、実施形態に係る仮想楽器演奏システムの構成の一例を示すブロック図である。図３は、実施形態に係る学習処理の説明図である。図４Ａは、楽器音のクラス分類の具体例を示す図（その１）である。図４Ｂは、楽器音のクラス分類の具体例を示す図（その２）である。図４Ｃは、楽器音のクラス分類の具体例を示す図（その３）である。図４Ｄは、楽器音のクラス分類の具体例を示す図（その４）である。図４Ｅは、楽器音のクラス分類の具体例を示す図（その５）である。図５Ａは、演奏状態制御の説明図（その１）である。図５Ｂは、演奏状態制御の説明図（その２）である。図５Ｃは、演奏状態制御の説明図（その３）である。図６Ａは、音高の決定方法の具体例を示す図（その１）である。図６Ｂは、音高の決定方法の具体例を示す図（その２）である。図６Ｃは、音高の決定方法の具体例を示す図（その３）である。図６Ｄは、音高の決定方法の具体例を示す図（その４）である。図７Ａは、ユーザの顔の表情を解析する場合の具体例を示す図（その１）である。図７Ｂは、ユーザの顔の表情を解析する場合の具体例を示す図（その２）である。図８は、実施形態に係る仮想楽器演奏装置が実行する仮想楽器演奏処理の処理手順を示すフローチャートである。図９Ａは、複数のユーザを想定した場合の説明図（その１）である。図９Ｂは、複数のユーザを想定した場合の説明図（その２）である。図１０は、仮想楽器演奏装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

以下に、本願に係る仮想楽器演奏プログラム、仮想楽器演奏装置および仮想楽器演奏方法の実施形態について図面を参照しつつ詳細に説明する。

また、以下においては、仮想楽器演奏プログラムが、スマートフォンに実装され、かかるスマートフォンが仮想楽器演奏装置１０として機能する場合を例に挙げて説明を行う。

〔１．仮想楽器演奏装置の概要〕
まず、実施形態に係る仮想楽器演奏装置１０の概要について説明する。図１は、実施形態に係る仮想楽器演奏装置１０の概要説明図である。

図１に示すように、実施形態に係る仮想楽器演奏装置１０は、たとえばスマートフォンなどの携帯端末を利用して実現することができる。ユーザＵには、特にユーザＵの姿勢や動作を検出するためのセンサ群を装着させる必要はない。

仮想楽器演奏装置１０はまず、仮想の楽器を演奏する身振りをするユーザＵを撮像する（ステップＳ１）。

そして、仮想楽器演奏装置１０は、撮像した撮像画像中のユーザＵの演奏姿勢に対応する画素部分を抽出する（ステップＳ２）。本実施形態では、かかる画素部分として、たとえば撮像画像中の肌色の部分を抽出する。肌色の部分、すなわち本実施形態は、楽器を演奏する身振りをするユーザＵの手や腕の部分（図中の破線の矩形Ｒ１に囲まれた部分参照）に着目するものである。かかる画素部分を以下、「肌色部分」と記載する。

そして、仮想楽器演奏装置１０は、肌色部分に基づき、機械学習による判別モデルを用いた楽器の判別を行う（ステップＳ３）。判別モデルは、たとえば学習用に撮像された撮像画像中の肌色部分のデータセットを用いた機械学習により、入力される肌色部分に対応する楽器の種類を判別する学習モデルとして予め生成される。機械学習のアルゴリズムには、ＳＶＭ（Support Vector Machine）やディープラーニングなど公知の技術を用いることができる。

なお、学習用の上記データセットは、各楽器が実際に演奏される場合の撮像画像に基づくものであってもよいし、ユーザＵが仮想の楽器を演奏する身振りをする場合の撮像画像に基づくものであってもよい。また、学習用としてでなく、仮想楽器演奏装置１０の実際の利用中に撮像された撮像画像によるフィードバックデータであってもよい。

また、仮想楽器演奏装置１０は、肌色部分のオプティカルフローを解析する（ステップＳ４）。すなわち、時間的に連続する肌色部分の動きをベクトル解析する。その解析結果は、ステップＳ３で判別された楽器の音の大きさおよび音色の決定に用いられる。

そして、仮想楽器演奏装置１０は、ステップＳ３で判別した楽器音をステップＳ４のオプティカルフローの解析結果に応じて出力する（ステップＳ５）。なお、図１には、判別された楽器の種類がギターであった場合の例を図示した。

このように、実施形態に係る仮想楽器演奏装置１０では、ユーザＵを撮像した撮像画像を取得し、取得された撮像画像中のユーザＵの演奏姿勢に対応する画素部分を抽出する。そして、かかる画素部分に基づき、機械学習により生成された判別モデルを用いて演奏姿勢に対応する楽器の種類を判別する。また、かかる画素部分のオプティカルフローを解析する。そして、その解析結果に応じて、上記判別された楽器の楽器音を出力する。

すなわち、本実施形態では、機械学習による判別モデルを用いた楽器の判別を行うので、保持すべきデータの容量が少量で済み、スマートフォンなどにも容易に実装することができる。また、本実施形態では、ユーザＵの動きをオプティカルフロー、すなわち画像情報のみから解析するので、ユーザＵの身体にセンサ群を装着させる必要がない。

したがって、本実施形態に係る仮想楽器演奏装置１０によれば、携帯情報端末に容易に実装でき、かつ、ユーザＵにも負担をかけないという効果を奏することができる。以下、図１を用いて説明した仮想楽器演奏装置１０を含む仮想楽器演奏システム１の構成について、さらに詳しく説明する。

〔２．仮想楽器演奏システムの構成〕
仮想楽器演奏システム１の構成について具体的に説明する。図２は、実施形態に係る仮想楽器演奏システム１の構成の一例を示すブロック図である。

なお、図２では、仮想楽器演奏システム１の説明に必要となる構成要素のみを示しており、一般的な構成要素についての記載を省略している。また、図２を用いた説明では、主に仮想楽器演奏装置１０について説明するが、サーバ装置２０から先に説明を進める。

図２に示すように、仮想楽器演奏システム１は、仮想楽器演奏装置１０と、サーバ装置２０とを備える。仮想楽器演奏装置１０およびサーバ装置２０は、通信ネットワークＮを介して相互に通信可能に接続される。通信ネットワークＮは、たとえばインターネットなどのＷＡＮ（Wide Area Network）である。

〔２．１．サーバ装置〕
サーバ装置２０は、携帯情報端末などを仮想楽器演奏装置１０として機能させるための配信サーバであり、通信部２１と、制御部２２と、記憶部２３とを備える。記憶部２３は、たとえば、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現され、図２の例では、判別モデル２３ａと、アプリ２３ｂと、音源データ２３ｃとを記憶する。

（通信部２１について）
通信部２１は、たとえばＮＩＣ（Network Interface Card）などのインターフェイスである。制御部２２は、通信部２１および通信ネットワークＮを介して、仮想楽器演奏装置１０との間で各種の情報を送受信可能である。

（制御部２２について）
制御部２２は、サーバ装置２０が配信サーバとして機能するうえでの全体制御を行う。具体的に、制御部２２は、たとえばＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）などによって、サーバ装置２０内部の記憶装置に記憶されている各種プログラムがＲＡＭ（Random Access Memory）を作業領域として実行されることにより実現される。また、制御部２２は、たとえば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現されてもよい。

制御部２２は、学習部２２ａと、配信部２２ｂとを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部２２の内部構成は、図２に示した構成に限られず、後述する情報処理を行うことができる構成であれば他の構成であってもよい。

（学習部２２ａについて）
学習部２２ａは、たとえば学習用の撮像画像中の肌色部分のデータセットを用いた機械学習により、入力される肌色部分に対応する楽器の種類を判別する学習モデルである判別モデル２３ａを生成し、配信用として記憶部２３へ記憶させる。

なお、学習用のデータセットは、予め用意されたものでもよいし、サーバ装置２０に接続されたカメラによって撮像されたものでもよい。また、通信ネットワークＮを介して仮想楽器演奏装置１０や他の装置などから収集されたものであってもよい。

また、学習部２２ａは、たとえば仮想楽器演奏装置１０が備えていてもよい（図中の仮想楽器演奏装置１０側に破線で示す「学習部１２ａ」参照）。また、学習部２２ａは、判別モデル２３ａの生成に特化した学習装置が備えていてもよい。

（学習処理について）
ここで、学習部２２ａが実行する学習処理について、図３を用いて説明する。図３は、実施形態に係る学習処理の説明図である。本実施形態では、学習部２２ａは、演奏姿勢（仮想の場合を含む）の撮像画像中で手や腕に対応する画素部分の特徴量をクラス分類して楽器の種類（すなわち楽器音）を判別するための機械学習を実行する。

具体的には、図３に示すように、学習部２２ａは、各楽器の演奏姿勢の撮像画像群からそれぞれ抽出された肌色部分の各学習用データセットに基づき、機械学習を実行する。たとえば、学習部２２ａは、「ギター」の演奏姿勢に対応するデータセットＤ１に基づき、かかるデータセットＤ１に含まれる各データの特徴量から、「ギター」をクラス分類する機械学習を実行する。

同様に、学習部２２ａは、「ベース」の演奏姿勢に対応するデータセットＤ２に基づき、「ベース」をクラス分類する機械学習を実行する。また、「キーボード」の演奏姿勢に対応するデータセットＤ３からは「キーボード」を、「ドラム」の演奏姿勢に対応するデータセットＤ４からは「ドラム」を、それぞれクラス分類する機械学習を実行する。そして、学習部２２ａは、各機械学習の結果として、入力される肌色部分に対し、対応する楽器の種類（たとえばクラスＩＤ）を出力する判別モデル２３ａを生成する。

（楽器音のクラス分類について）
ところで、同じ楽器であっても、たとえば奏法に応じ、出力される音には違いが出る場合がある。そこで、同じ楽器につき、分類されるクラスを細分化して、出力される楽器音がより演奏姿勢に応じたものとなるように機械学習が行われてもよい。

その具体例について図４Ａ〜図４Ｅを用いて説明する。図４Ａ〜図４Ｅは、楽器音のクラス分類の具体例を示す図（その１）〜（その５）である。

図４Ａには、判別モデル２３ａが出力するクラスＩＤに楽器音の種別を対応付けた楽器音種別情報を示している。たとえば、図４Ａに示すように、楽器が同じ「ギター」の場合であっても、クラスＩＤを細分化し、たとえばクラスＩＤ「ＸＸ１」に対しては種別「単音」を、クラスＩＤ「ＸＸ２」に対しては種別「和音」を、それぞれ対応付けることができる。

かかる場合、たとえば図４Ｂに示すように、ギターの各弦を爪弾く「アルペジオ奏法」の演奏姿勢に対応する肌色部分の学習用データセットを用いた機械学習を実行することで、種別「単音」をクラス分類してクラスＩＤ「ＸＸ１」に対応付けることが可能となる。

また、たとえば図４Ｃに示すように、ピックＰなどを持ってギターの弦をかき鳴らす「ストローク奏法」に対応する肌色部分の学習用データセットを用いた機械学習を実行することで、種別「和音」をクラス分類してクラスＩＤ「ＸＸ２」に対応付けることが可能となる。

図４Ａに戻り、楽器が同じ「ベース」の場合であっても同様である。たとえば、図４Ａに示すように、楽器が「ベース」の場合に、たとえばクラスＩＤ「ＹＹ１」に対しては種別「単音」を、クラスＩＤ「ＹＹ２」に対しては種別「スラップ音」を、それぞれ対応付けることができる。

なお、「ベース」が図３に図示したネックを垂直に近く構えるアップライトベースではなくエレクトリックベースである場合、まず「ギター」との区別がしにくいことが考えられる。

しかし、たとえば図４Ｄに示すように、「ベース」においてよく用いられるフィンガーピッキングである「ツーフィンガー奏法」の演奏姿勢に対応する肌色部分の学習用データセットを用いた機械学習を実行することで、「ギター」と「ベース」を区別し、さらに種別「（ベースの）単音」をクラス分類してクラスＩＤ「ＹＹ１」に対応付けることが可能となる。

また、たとえば図４Ｅに示すように、親指Ｔで弦を叩くように弾（はじ）くサムピングを含む「スラップ奏法」に対応する肌色部分の学習用データセットを用いた機械学習を実行することで、「ギター」と「ベース」を区別し、さらに種別「スラップ音」をクラス分類してクラスＩＤ「ＹＹ２」に対応付けることが可能となる。

なお、図４Ａ〜図４Ｅに図示した例はあくまで一例であって、「ギター」や「ベース」の他の奏法などに基づいて、上述のように細分化されたクラス分類を行ってよい。また、「ギター」や「ベース」に限らず、他の種類の楽器についても同様に行ってよい。

（配信部２２ｂについて）
図２の説明に戻り、配信部２２ｂについて説明する。配信部２２ｂは、記憶部２３に記憶された判別モデル２３ａ、アプリ２３ｂおよび音源データ２３ｃを、通信部２１および通信ネットワークＮを介して仮想楽器演奏装置１０へ必要に応じ配信する。

なお、アプリ２３ｂは仮想楽器演奏装置１０の機能を実現するアプリケーションプログラムであり、音源データ２３ｃはたとえば上述のクラスＩＤに対応付けられた各楽器音を含むデータである。

〔２．２．仮想楽器演奏装置〕
次に、仮想楽器演奏装置１０の構成について説明する。仮想楽器演奏装置１０は、通信部１１と、制御部１２と、記憶部１３とを備える。記憶部１３は、記憶部２３と同様に、たとえば、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。

また、仮想楽器演奏装置１０は、カメラ１４と、出力部１５とを備える。出力部１５は楽器音を出力するスピーカなどの出力デバイスである。

（通信部１１について）
通信部１１は、通信部２１と同様に、たとえばＮＩＣ（Network Interface Card）などのインターフェイスである。制御部１２は、通信部１１および通信ネットワークＮを介して、サーバ装置２０との間で各種の情報を送受信可能である。サーバ装置２０から配信された判別モデル２３ａ、アプリ２３ｂおよび音源データ２３ｃは、それぞれ判別モデル１３ａ、アプリ１３ｂおよび音源データ１３ｃとして記憶部１３へ記憶される。

（制御部１２について）
制御部１２は、図１を用いて説明した仮想楽器演奏処理の実行についての全体制御を行う。具体的に、制御部１２は、制御部２２と同様に、たとえばＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）などによって、仮想楽器演奏装置１０内部の記憶装置に記憶されている各種プログラム（たとえばアプリ１３ｂ）がＲＡＭ（Random Access Memory）を作業領域として実行されることにより実現される。また、制御部１２は、制御部２２と同様に、たとえば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現されてもよい。

制御部１２は、取得部１２ｂと、顔検出部１２ｃと、判別部１２ｄと、解析部１２ｅと、出力制御部１２ｆとを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１２の内部構成は、図２に示した構成に限られず、後述する情報処理を行うことができる構成であれば他の構成であってもよい。

また、既に述べたが、学習部２２ａと同等の機能を有する学習部１２ａを備えていてもよい。学習部１２ａについては学習部２２ａと同様のため、説明を省略する。

（取得部１２ｂについて）
取得部１２ｂは、カメラ１４によって撮像された、仮想の楽器を演奏する身振りをするユーザＵの撮像画像を取得する。

（顔検出部１２ｃについて）
顔検出部１２ｃは、取得部１２ｂによって取得された撮像画像中のユーザＵの顔を検出する。顔検出には、公知の顔検出アルゴリズムを用いることができる。顔検出部１２ｃによるユーザＵの顔検出は、仮想楽器演奏装置１０の演奏状態制御に利用することができる。

（演奏状態制御について）
図５Ａ〜図５Ｃは、演奏状態制御の説明図（その１）〜（その３）である。図５Ａに示すように、たとえば顔検出部１２ｃによりユーザＵの顔が検出されている場合に、制御部１２は、仮想楽器演奏装置１０を演奏状態とする制御を行う。また、顔検出部１２ｃによりユーザＵの顔が検出されていない場合に、制御部１２は、仮想楽器演奏装置１０を非演奏状態とする制御を行う。

これにより、特別な操作を行うことなく、カメラ１４による撮像画像中にユーザＵの顔が検出されるだけで、スムーズに仮想楽器演奏を開始することができる。

なお、ユーザＵが仮想の楽器を演奏する身振りは、たとえば音楽に乗って踊りながら、あるいは激しく行われることも多いと予測されることから、図５Ｂに示すように、たとえばユーザＵがターンなどして瞬間的な非検出状態となった場合は、演奏状態を継続するようにしてもよい。これにより、仮想楽器演奏がたびたび寸断するなどしてユーザＵに不快感を与えたりするのを防止することができる。

また、図５Ａおよび図５ＢではユーザＵの顔検出を例に挙げたが、図５Ｃに示すように、胴体検出部（図示略）をさらに備えることとしたうえで、胴体検出に基づく演奏状態制御を行ってもよい。すなわち、図５Ｃに示すように、ユーザＵの胴体Ｂが検出されている場合に、制御部１２は、仮想楽器演奏装置１０を演奏状態とする制御を行ってもよい。また、ユーザＵの胴体Ｂが検出されていない場合に、制御部１２は、仮想楽器演奏装置１０を非演奏状態とする制御を行ってもよい。

この場合、カメラ１４で複数のユーザＵを撮像する場合であっても、各人を容易に識別し、各人の演奏姿勢を容易に把握することができる。

（判別部１２ｄについて）
図２の説明に戻り、判別部１２ｄについて説明する。判別部１２ｄは、取得部１２ｂによって取得された撮像画像中の肌色部分を抽出し、かかる肌色部分に基づき、判別モデル１３ａを用いて肌色部分に対応する楽器の種類を判別する。このとき、具体的には、入力される肌色部分に対し、判別モデル１３ａからは対応するクラスＩＤが返され、判別部１２ｄはかかるクラスＩＤによって楽器の種類およびその音の種別を判別する。

（解析部１２ｅについて）
解析部１２ｅは、肌色部分のオプティカルフローを解析する。

（出力制御部１２ｆについて）
出力制御部１２ｆは、判別部１２ｄによって判別された楽器音を解析部１２ｅの解析結果に応じて出力部１５に出力させる。具体的には、出力制御部１２ｆは、解析部１２ｅの解析結果に含まれるオプティカルフローの大きさに基づいて楽器音の大きさを決定する。たとえば、出力制御部１２ｆは、オプティカルフローの大きさが大きいほど楽器音が大きくなるように楽器音の大きさを決定する。

また、出力制御部１２ｆは、解析部１２ｅの解析結果に含まれるオプティカルフローの向きに基づいて楽器音の音高を決定する。たとえば、出力制御部１２ｆは、オプティカルフローが、判別部１２ｄによって判別された楽器の高音域に対応する位置へ移動する向きを示すならば、楽器音が高くなるように楽器音の音高を決定する。

（音高の決定方法について）
ここで、音高の決定方法の具体例について、図６Ａ〜図６Ｄを用いて説明する。図６Ａ〜図６Ｄは、音高の決定方法の具体例を示す図（その１）〜（その４）である。

まず、図６Ａには、ギターやベースといった弦楽器の場合の一例を示す。図６Ａに示すギターＧのように、弾（はじ）いた弦の振動する長さを変更することによって音高を変える弦楽器の場合、たとえば右手と左手の間隔が短くなることで音高は高くなり、逆に間隔が長くなることで音高は低くなる。

すなわち、これは肌色部分のオプティカルフローに着目すれば、オプティカルフローが肌色部分の存在範囲を小さくする（肌色部分が近づく）向きを示す場合は、音高が高くなる場合に対応すると言える。逆にオプティカルフローが肌色部分の存在範囲を大きくする（肌色部分が離れる）向きを示す場合は、音高が低くなる場合に対応すると言える。

そこで、出力制御部１２ｆは、判別部１２ｄによって判別された楽器の種類が弦楽器である場合に、オプティカルフローが肌色部分の存在範囲を小さくする向きを示すならば、楽器音が高くなるように楽器音の音高を決定する。また、出力制御部１２ｆは、同じく弦楽器である場合に、オプティカルフローが肌色部分の存在範囲を大きくする向きを示すならば、楽器音が低くなるように楽器音の音高を決定する。

次に、図６Ｂには、キーボードのような鍵盤楽器の一例を示す。図６Ｂに示すように、仮想のキーボードＫを演奏する身振りをするユーザＵを撮像する場合、キーボードＫの音域は通常、図中のＹ軸の負方向側に行くに連れて高くなる。また、逆に、図中のＹ軸の正方向側に行くに連れて低くなる。

このため、図６Ｂに示す例の場合、出力制御部１２ｆは、判別部１２ｄによって判別された楽器の種類が鍵盤楽器であれば、肌色部分のオプティカルフローが図中のＹ軸の負方向側へ向かう向きを示すならば、楽器音が高くなるように楽器音の音高を決定する。また、出力制御部１２ｆは、同じく鍵盤楽器である場合に、肌色部分のオプティカルフローが図中のＹ軸の正方向側へ向かう向きを示すならば、楽器音が低くなるように楽器音の音高を決定する。

ところで、判別モデル生成のための機械学習に際して、学習用として仮想の楽器を演奏する身振りの撮像画像を用いてもよい点については既に述べた。これは、たとえば仮想の楽器について、通常とは異なる特別な姿勢で演奏しても、かかる撮像画像に基づく機械学習を実行すれば、その特別な姿勢による身振りによっても楽器の判別が可能となることを意味している。

分かりやすい例を図６Ｃおよび図６Ｄに示した。図６Ｃは、通常であれば鍵盤の盤面が図中のＺ軸の正方向側を向くはずのキーボードＫにつき、鍵盤の盤面が図中のＸ軸の正方向側（すなわち撮影者側）を向いていると仮定して、ユーザＵがかかるキーボードＫを演奏する身振りをする場合を示している。

すなわち、この場合、機械学習は鍵盤の盤面が撮影者側に向いたキーボードＫを空中で弾く身振りのユーザＵの撮像画像に基づいて実行される。そして、仮想楽器演奏の際にも、ユーザＵは同じく鍵盤の盤面が撮影者側に向いたキーボードＫを、空中で撮影者側へ手の甲を向けて弾く身振りをすれば、判別モデル１３ａにより楽器はキーボードＫと判別されることとなる。

かかる図６Ｃの場合、既に説明した図６Ｂの場合とは異なり、キーボードＫの音域は、図中のＹ軸の正方向側に行くに連れて高くなり、逆のＹ軸の負方向側に行くに連れて低くなる。

したがって、図６Ｃに示す例の場合、出力制御部１２ｆは、判別部１２ｄによって判別された楽器の種類が鍵盤の盤面を撮影者側へ向けた仮想の鍵盤楽器であれば、肌色部分のオプティカルフローが図中のＹ軸の正方向側へ向かう向きを示すならば、楽器音が高くなるように楽器音の音高を決定することとなる。また、出力制御部１２ｆは、同じ仮想の鍵盤楽器である場合に、肌色部分のオプティカルフローが図中のＹ軸の負方向側へ向かう向きを示すならば、楽器音が低くなるように楽器音の音高を決定することとなる。

図６Ｄは、図６Ｃと同様の例をドラムセットに当てはめた場合である。すなわち、図６Ｄは、通常は図中のＺ軸の正方向側から視た場合のドラムセットを、図中のＸ軸の正方向側から視た場合に置き換えた仮想のドラムセットＤｒである。

かかる仮想のドラムセットＤｒは、バスドラ３１と、ハイハット３２と、スネアドラム３３と、クラッシュシンバル３４と、ハイタム３５と、ロータム３６と、クラッシュシンバル３７と、ライドシンバル３８と、フロアタム３９とを有するものとする。

かかる図６Ｄの場合、機械学習は仮想のドラムセットＤｒを空中で演奏する身振りのユーザＵの撮像画像に基づいて実行される。そして、仮想楽器演奏の際にも、ユーザＵは同じくスネアドラム３３などの鼓面が撮影者側に向いたドラムセットＤｒを、空中で演奏する身振りをすれば、判別モデル１３ａにより楽器はドラムセットＤｒと判別されることとなる。

そして、かかる仮想のドラムセットＤｒにつき、出力制御部１２ｆは、オプティカルフローの向きに基づいてドラムセットＤｒの音高を決定する。たとえば、出力制御部１２ｆは、肌色部分のオプティカルフローが図中の矢印６０１の向きを示すならば、ドラムセットＤｒの音高をスネアドラム３３に応じた音高に決定することとなる。

同様に、出力制御部１２ｆは、オプティカルフローが図中の矢印６０２の向きを示すならば、音高をクラッシュシンバル３４に応じた音高に決定することとなる。また、オプティカルフローが図中の矢印６０３の向きを示すならば、音高をロータム３６に応じた音高に決定し、同じく図中の矢印６０４の向きを示すならば、音高をライドシンバル３８に応じた音高に決定することとなる。

（ユーザＵの表情を解析する場合について）
ところで、これまでは、肌色部分がユーザＵの手や腕を示すものとして説明してきたが、肌色部分にはたとえばユーザＵの顔を含んでもよい。かかる場合、たとえば顔に相当する肌色部分のオプティカルフローに基づいて、ユーザＵの表情を解析することができる。

そして、出力制御部１２ｆが、解析されたユーザＵの表情に応じて、音の大きさやテンポなどを決定してもよい。かかる場合の具体例を図７Ａおよび図７Ｂに示す。図７Ａおよび図７Ｂは、ユーザＵの顔の表情を解析する場合の具体例を示す図（その１）および（その２）である。

たとえば、図７Ａに示すように、ユーザＵの顔に相当する肌色部分のオプティカルフローの大きさおよび向きに基づいて、たとえばオプティカルフローの大きさが所定値より大きければ、出力制御部１２ｆは、ユーザＵが激しい表情を浮かべていると判定することができる。そして、かかる場合に、出力制御部１２ｆは、たとえばユーザＵの激しい表情に対応するオプティカルフローの大きさに応じて音の大きさを大きくしたり、テンポを速くしたりすることができる。

また、たとえば、図７Ｂに示すように、ユーザＵの顔に相当する肌色部分のオプティカルフローの大きさおよび向きに基づいて、たとえばオプティカルフローの大きさが所定値より小さければ、出力制御部１２ｆは、ユーザＵが穏やかな表情を浮かべていると判定することができる。そして、かかる場合に、出力制御部１２ｆは、たとえばユーザＵの穏やかな表情に対応するオプティカルフローの大きさに応じて音の大きさを小さくしたり、テンポを遅くしたりすることができる。

〔３．仮想楽器演奏処理の処理手順〕
次に、実施形態に係る仮想楽器演奏装置１０が実行する仮想楽器演奏処理の処理手順について説明する。図８は、実施形態に係る仮想楽器演奏装置１０が実行する仮想楽器演奏処理の処理手順を示すフローチャートである。なお、図８に示す処理手順では、判別モデル１３ａは予め生成され、記憶部１３に記憶されているものとする。

図８に示すように、取得部１２ｂが、カメラ１４からユーザＵを撮像した撮像画像を取得する（ステップＳ１０１）。そして、制御部１２が、顔検出部１２ｃがユーザＵの顔を検出したか否かを判定する（ステップＳ１０２）。

ここで、顔検出部１２ｃがユーザＵの顔を検出した場合（ステップＳ１０２，Ｙｅｓ）、制御部１２は、ステップＳ１０３へ制御を移す。一方、顔検出部１２ｃがユーザＵの顔を検出していない場合（ステップＳ１０２，Ｎｏ）、制御部１２は、ステップＳ１０１からの処理を繰り返す。

つづいて、判別部１２ｄは、取得部１２ｂによって取得された撮像画像中の肌色部分を抽出する（ステップＳ１０３）。そして、判別部１２ｄは、機械学習による判別モデル１３ａを用いて肌色部分に対応する楽器を判別する（ステップＳ１０４）。

そして、解析部１２ｅが、肌色部分のオプティカルフローを解析する（ステップＳ１０５）。そして、出力制御部１２ｆが、判別部１２ｄの判別した楽器音を解析部１２ｅによるオプティカルフローの解析結果に応じて出力する（ステップＳ１０６）。

そして、制御部１２は、アプリ終了操作があるか否かを判定する（ステップＳ１０７）。ここで、アプリ終了操作ありと判定された場合（ステップＳ１０７，Ｙｅｓ）、処理を終了する。また、アプリ終了操作なしと判定された場合（ステップＳ１０７，Ｎｏ）、ステップＳ１０１からの処理を繰り返す。

〔４．複数のユーザを想定した場合について〕
ところで、これまでは、１人のユーザＵを想定した場合について説明してきたが、実施形態に係る仮想楽器演奏装置１０は、複数のユーザＵについての仮想楽器演奏処理を行うことが可能である。

かかる場合について、図９Ａおよび図９Ｂを用いて説明する。図９Ａおよび図９Ｂは、複数のユーザＵを想定した場合の説明図（その１）および（その２）である。なお、ここでは複数のユーザＵは２人とするが、３人以上であってもよい。

図９Ａに示すように、仮想楽器演奏装置１０は、１台で複数のユーザＵ−１，Ｕ−２を撮像して（ステップＳ１１）、それぞれの姿勢に対応する楽器音を出力することができる（ステップＳ１２）。

具体的には、取得部１２ｂが、ユーザＵ−１，Ｕ−２が同時に存在する撮像画像を取得する。そして、判別部１２ｄが、ユーザＵ−１，Ｕ−２それぞれの肌色部分を抽出して、かかる肌色部分に基づき、判別モデル１３ａによりユーザＵ−１，Ｕ−２それぞれに対応する楽器音を判別する。

また、解析部１２ｅは、ユーザＵ−１，Ｕ−２それぞれの肌色部分のオプティカルフローを解析して、出力制御部１２ｆはその解析結果に応じて楽器音の大きさおよび音高を決定し、出力部１５に出力させる。このとき、出力制御部１２ｆは、ユーザＵ−１，Ｕ−２それぞれの楽器音がリズムやテンポなどをあわせて出力されるように、同期制御を行ってもよい。

また、演奏状態制御は、顔検出部１２ｃによりユーザＵ−１，Ｕ−２の少なくともいずれかの顔が検出されていれば、演奏状態が継続するようにしてもよい。複数のユーザＵの場合、それぞれがランダムに顔の向きを変えるため、全員の顔が検出され続けることは想定しにくいためである。

かかる図９Ａに示す例により、たとえばユーザＵは、仮想楽器演奏をバンド形態で楽しむことができる。

また、図９Ｂに示すように、仮想楽器演奏装置１０は、たとえば２台でそれぞれ個別にユーザＵ−１，Ｕ−２を撮像して（ステップＳ２１）、それぞれが相手方の撮像画像を取得し（ステップＳ２２）、ユーザＵ−１，Ｕ−２それぞれの姿勢に対応する楽器音を出力することもできる（ステップＳ２３−１，２３−２）。

具体的には、たとえば仮想楽器演奏装置１０−１の取得部１２ｂは、自装置で撮像されたユーザＵ−１の撮像画像と、仮想楽器演奏装置１０−２で撮像されたユーザＵ−２の撮像画像とを通信ネットワークＮを介したビデオ通信のプロトコルなどを用いて取得する。ここで、図９Ｂに示すように、相手方から取得した撮像画像は、自装置側にあわせて表示されることが好ましい。

そして、仮想楽器演奏装置１０−１の判別部１２ｄは、自装置側に取得した撮像画像中のユーザＵ−１，Ｕ−２それぞれの肌色部分を抽出して、かかる肌色部分に基づき、判別モデル１３ａによりユーザＵ−１，Ｕ−２それぞれに対応する楽器音を判別する。

また、仮想楽器演奏装置１０−１の解析部１２ｅは、自装置側で抽出したユーザＵ−１，Ｕ−２それぞれの肌色部分のオプティカルフローを解析する。そして、仮想楽器演奏装置１０−１の出力制御部１２ｆは、その解析結果に応じてユーザＵ−１，Ｕ−２それぞれの楽器音の大きさおよび音高を決定し、自装置の出力部１５に出力させる。

なお、仮想楽器演奏装置１０−２側では無論、相手方を仮想楽器演奏装置１０−１とした同様の処理が行われることとなる。

かかる図９Ｂに示す例により、複数のユーザＵは、たとえば互いに距離を隔てた場所に所在していても、仮想楽器演奏をバンド形態で楽しむことができる。

〔５．ハードウェア構成〕
なお、実施形態に係る仮想楽器演奏装置１０は、たとえば図１０に示すような構成のコンピュータ６０によって実現される。図１０は、仮想楽器演奏装置１０の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ６０は、ＣＰＵ（Central Processing Unit）６１、ＲＡＭ（Random Access Memory）６２、ＲＯＭ（Read Only Memory）６３、ＨＤＤ（Hard Disk Drive）６４、通信インターフェイス（Ｉ／Ｆ）６５、入出力インターフェイス（Ｉ／Ｆ）６６、およびメディアインターフェイス（Ｉ／Ｆ）６７を備える。

ＣＰＵ６１は、ＲＯＭ６３またはＨＤＤ６４に格納されたプログラムに基づいて動作し、各部の制御を行う。ＲＯＭ６３は、コンピュータ６０の起動時にＣＰＵ６１によって実行されるブートプログラムや、コンピュータ６０のハードウェアに依存するプログラム等を格納する。

ＨＤＤ６４は、ＣＰＵ６１によって実行されるプログラムおよび当該プログラムによって使用されるデータ等を格納する。通信インターフェイス６５は、通信部１１に対応し、通信ネットワークＮを介して他の機器からデータを受信してＣＰＵ６１へ送り、ＣＰＵ６１が生成したデータを、通信ネットワークＮを介して他の機器へ送信する。

ＣＰＵ６１は、入出力インターフェイス６６を介して、ディスプレイやスピーカ等の出力装置、および、キーボードやマウス等の入力装置を制御する。ＣＰＵ６１は、入出力インターフェイス６６を介して、入力装置からデータを取得する。また、ＣＰＵ６１は、生成したデータを、入出力インターフェイス６６を介して出力装置へ出力する。

メディアインターフェイス６７は、記録媒体６８に格納されたプログラムまたはデータを読み取り、ＲＡＭ６２を介してＣＰＵ６１に提供する。ＣＰＵ６１は、当該プログラムを、メディアインターフェイス６７を介して記録媒体６８からＲＡＭ６２上にロードし、ロードしたプログラムを実行する。記録媒体６８は、たとえばＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

コンピュータ６０が仮想楽器演奏装置１０として機能する場合、コンピュータ６０のＣＰＵ６１は、ＲＡＭ６２上にロードされたプログラムを実行することにより、学習部１２ａ、取得部１２ｂ、顔検出部１２ｃ、判別部１２ｄ、解析部１２ｅおよび出力制御部１２ｆの各機能を実現する。また、ＨＤＤ６４は、記憶部１３の機能を実現し、判別モデル１３ａ、アプリ１３ｂおよび音源データ１３ｃなどが格納される。

コンピュータ６０のＣＰＵ６１は、これらのプログラムを、記録媒体６８から読み取って実行するが、他の例として、他の装置から、通信ネットワークＮを介してこれらのプログラムを取得してもよい。

〔６．効果〕
実施形態に係る仮想楽器演奏システム１の仮想楽器演奏装置１０は、取得部１２ｂと、判別部１２ｄと、解析部１２ｅと、出力制御部１２ｆとを備える。取得部１２ｂは、ユーザＵを撮像した撮像画像を取得する。判別部１２ｄは、取得部１２ｂによって取得された撮像画像中のユーザＵの姿勢に対応する画素部分を抽出し、かかる画素部分に基づき、機械学習により生成された演奏姿勢の判別モデル１３ａを用いて上記姿勢に対応する楽器の種類を判別する。解析部１２ｅは、上記画素部分のオプティカルフローを解析する。出力制御部１２ｆは、判別された楽器の楽器音を解析部１２ｅの解析結果に応じて出力する。

これにより、機械学習による判別モデル１３ａを用いた楽器の判別を行うので、保持すべきデータの容量が少量で済み、スマートフォンなどの携帯情報端末にも容易に実装することができる。

また、ユーザＵの姿勢に対応する画素部分の動きをオプティカルフロー、すなわち画像情報のみから解析するので、モーションセンサなどのセンサ群をユーザＵの身体に装着させる必要がない。したがって、ユーザＵに負担をかけないという効果を奏する。

また、上記画素部分は、撮像画像中の肌色部分である。

これにより、ユーザＵの仮想楽器演奏の身振りの特徴量が顕著に現れる手や腕などの部分に絞ってモデル判別および画像解析を行えばよいので、処理負荷を抑えることができる。また、かかる肌色部分に基づく機械学習により、判別モデル１３ａのデータ容量も少量で済む。したがって、スマートフォンなどの携帯情報端末に容易に実装するのに資することができる。

また、出力制御部１２ｆは、解析部１２ｅの解析結果に含まれるオプティカルフローの大きさに基づいて楽器音の大きさを決定する。

これにより、ユーザＵの身振りの大きさに応じた精度の高い楽器音の出力を行うことができる。

また、出力制御部１２ｆは、オプティカルフローの大きさが大きいほど楽器音が大きくなるように楽器音の大きさを決定する。

これにより、ユーザＵの身振りがたとえば激しいものであれば、これに応じた音の大きな楽器音を出力することができるので、ユーザＵの身振りの大きさに応じた精度の高い楽器音の出力を行うことができる。また、ユーザＵにとっては、身振りを大きくすればこれに応じた音の大きな楽器音が出力されるので、ユーザＵに、自身の動作に連動した仮想楽器演奏の面白みを満喫させることができる。

また、出力制御部１２ｆは、解析部１２ｅの解析結果に含まれるオプティカルフローの向きに基づいて楽器音の音高を決定する。

これにより、ユーザＵの身振りに対応する位置が示す楽器の音域に応じた精度の高い楽器音の出力を行うことができる。

また、出力制御部１２ｆは、オプティカルフローが、判別部１２ｄによって判別された楽器の高音域に対応する位置へ移動する向きを示すならば、楽器音が高くなるように楽器音の音高を決定する。

これにより、ユーザＵの身振りに対応する位置が楽器の高音域を示す場合に、これに応じた高い音の楽器音を出力することができるので、ユーザＵの身振りに対応する位置が示す楽器の音域に応じた精度の高い楽器音の出力を行うことができる。また、ユーザＵにとっては、身振りにより楽器の高音域の位置を示せばこれに応じた高い音の楽器音が出力されるので、ユーザＵに、自身の動作に連動した仮想楽器演奏の面白みを満喫させることができる。

また、出力制御部１２ｆは、判別部１２ｄによって判別された楽器の種類が弦楽器である場合に、オプティカルフローが上記画素部分の存在範囲を小さくする向きを示すならば、楽器音が高くなるように楽器音の音高を決定する。

これにより、弦楽器の実際の演奏に近い身振り、たとえば高い音を出したければ弦の振動が短くなるように右手と左手を近づける身振りをすれば、これに応じた高い音の楽器音が出力されるので、精度の高い楽器音の出力を行うことができる。また、ユーザＵにとっては、弦楽器の実際の演奏に近い身振りをすれば、これに応じて楽器音を精度高く出力させることができるので、ユーザＵに、弦楽器の仮想演奏、たとえばエアギターの面白みを満喫させることができる。

また、撮像画像中のユーザＵの顔を検出する顔検出部１２ｃをさらに備え、出力制御部１２ｆは、顔検出部１２ｃによってユーザＵの顔が検出されている間、楽器音を出力する。

これにより、仮想楽器演奏の演奏状態制御を特別な操作を行うことなく実行することができる。すなわち、ユーザビリティを向上させることができる。

また、撮像画像中のユーザＵの胴体Ｂを検出する胴体検出部をさらに備え、出力制御部１２ｆは、胴体検出部によってユーザＵの胴体Ｂが検出されている間、楽器音を出力する。

これにより、カメラ１４で複数のユーザＵを撮像する場合であっても、各人を容易に識別し、各人の演奏姿勢を容易に把握することができる。そして、仮想楽器演奏の演奏状態制御を特別な操作を行うことなく実行することができる。すなわち、ユーザビリティを向上させることができる。

また、撮像画像中の上記画素部分に基づいて機械学習を実行することで判別モデル１３ａを生成する学習部１２ａをさらに備える。

これにより、ユーザＵの仮想楽器演奏の身振りの特徴量が顕著に現れる手や腕などの部分に絞った機械学習が実行され、生成される判別モデル１３ａもデータ容量の小さなものとなる。したがって、スマートフォンなどの携帯情報端末に容易に実装するのに資することができる。また、仮想楽器演奏装置１０の実際の利用中に撮像された撮像画像によるフィードバックデータに基づき、判別モデル１３ａを更新できるので、仮想楽器演奏装置１０を利用するに連れて、判別モデル１３ａの精度を向上させるのに資することができる。

〔７．その他〕
以上、本願の実施形態の一態様を図面に基づいて詳細に説明したが、これは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

たとえば上述した実施形態では、ユーザＵの身振りにつき、判別モデル１３ａを用いて対応する楽器音を決定することとしたが、楽器音は、たとえばスマートフォンへのタップ操作によって切替可能であるようにしてもよい。

また、上述した実施形態では、出力部１５がスピーカであることとしたが、出力部１５にディスプレイが含まれてもよい。かかる場合、出力制御部１２ｆは、たとえば判別部１２ｄによって判別された楽器の画像を、撮像されるユーザＵに重ね合わせてディスプレイに表示するようにしてもよい。これにより、仮想楽器演奏の身振りをするユーザＵだけでなく、撮影者などの見る側にも、仮想楽器演奏の楽しさを満喫させることができる。

１仮想楽器演奏システム
１０仮想楽器演奏装置
１１通信部
１２制御部
１２ａ学習部
１２ｂ取得部
１２ｃ顔検出部
１２ｄ判別部
１２ｅ解析部
１２ｆ出力制御部
１３記憶部
１３ａ判別モデル
１４カメラ
１５出力部
２０サーバ装置
２２制御部
２２ａ学習部
２２ｂ配信部
２３記憶部
２３ａ判別モデル

Claims

ユーザを撮像した撮像画像を取得する取得手順と、
前記取得手順によって取得された前記撮像画像中の前記ユーザの姿勢に対応する画素部分を抽出し、該画素部分に基づき、機械学習により生成された演奏姿勢の判別モデルを用いて前記姿勢に対応する楽器の種類を判別する判別手順と、
前記画素部分のオプティカルフローを解析する解析手順と、
前記解析手順の解析結果に応じて前記楽器の楽器音を出力する出力制御手順と
をコンピュータに実行させることを特徴とする仮想楽器演奏プログラム。
前記画素部分は、
前記撮像画像中の肌色部分であること
を特徴とする請求項１に記載の仮想楽器演奏プログラム。
前記出力制御手順は、
前記解析結果に含まれる前記オプティカルフローの大きさに基づいて前記楽器音の大きさを決定すること
を特徴とする請求項１または２に記載の仮想楽器演奏プログラム。
前記出力制御手順は、
前記オプティカルフローの大きさが大きいほど前記楽器音が大きくなるように該楽器音の大きさを決定すること
を特徴とする請求項３に記載の仮想楽器演奏プログラム。
前記出力制御手順は、
前記解析結果に含まれる前記オプティカルフローの向きに基づいて前記楽器音の音高を決定すること
を特徴とする請求項１〜４のいずれか一つに記載の仮想楽器演奏プログラム。
前記出力制御手順は、
前記オプティカルフローが、前記判別手順によって判別された前記楽器の高音域に対応する位置へ移動する向きを示すならば、前記楽器音が高くなるように該楽器音の音高を決定すること
を特徴とする請求項５に記載の仮想楽器演奏プログラム。
前記出力制御手順は、
前記判別手順によって判別された前記楽器の種類が弦楽器である場合に、前記オプティカルフローが前記画素部分の存在範囲を小さくする向きを示すならば、前記楽器音が高くなるように該楽器音の音高を決定すること
を特徴とする請求項５または６に記載の仮想楽器演奏プログラム。
前記撮像画像中の前記ユーザの顔を検出する顔検出手順、
を前記コンピュータにさらに実行させ、
前記出力制御手順は、
前記顔検出手順によって前記ユーザの顔が検出されている間、前記楽器音を出力すること
を特徴とする請求項１〜７のいずれか一つに記載の仮想楽器演奏プログラム。
前記撮像画像中の前記ユーザの胴体を検出する胴体検出手順、
を前記コンピュータにさらに実行させ、
前記出力制御手順は、
前記胴体検出手順によって前記ユーザの胴体が検出されている間、前記楽器音を出力すること
を特徴とする請求項１〜７のいずれか一つに記載の仮想楽器演奏プログラム。
前記撮像画像中の前記画素部分に基づいて機械学習を実行することで前記判別モデルを生成する学習手順
を前記コンピュータにさらに実行させること
を特徴とする請求項１〜９のいずれか一つに記載の仮想楽器演奏プログラム。
ユーザを撮像した撮像画像を取得する取得部と、
前記取得部によって取得された前記撮像画像中の前記ユーザの姿勢に対応する画素部分を抽出し、該画素部分に基づき、機械学習により生成された演奏姿勢の判別モデルを用いて前記姿勢に対応する楽器の種類を判別する判別部と、
前記画素部分のオプティカルフローを解析する解析部と、
前記解析部の解析結果に応じて前記楽器の楽器音を出力する出力制御部と
を備えることを特徴とする仮想楽器演奏装置。
ユーザを撮像した撮像画像を取得する取得工程と、
前記取得工程によって取得された前記撮像画像中の前記ユーザの姿勢に対応する画素部分を抽出し、該画素部分に基づき、機械学習により生成された演奏姿勢の判別モデルを用いて前記姿勢に対応する楽器の種類を判別する判別工程と、
前記画素部分のオプティカルフローを解析する解析工程と、
前記解析工程の解析結果に応じて前記楽器の楽器音を出力する出力制御工程と
を含むことを特徴とする仮想楽器演奏方法。