JP3817878B2

JP3817878B2 - 制御装置およびカラオケ装置

Info

Publication number: JP3817878B2
Application number: JP36175697A
Authority: JP
Inventors: 素明宮部
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 1997-12-09
Filing date: 1997-12-09
Publication date: 2006-09-06
Anticipated expiration: 2017-12-09
Also published as: JPH11175061A

Description

【０００１】
【発明の属する技術分野】
本発明は、演奏者や歌唱者等の人物の動画像から人物の所定の部位の状態を検出し、この状態に応じて楽音や映像の制御を行うことのできる制御装置およびカラオケ装置に関する。
【０００２】
【従来の技術】
従来、演奏者の身体の動作を楽音制御に用いる楽音制御装置等が知られている。従来の装置は演奏者の身体の肘や手等の各部位に曲げセンサーや加速度センサー等の計測機器を設置し、それらセンサーから得られる情報に応じて、所定の動作にあらかじめ設定された音高や音色を楽音として発生させるといった形態をとる。
【０００３】
また、伴奏音情報や歌詞情報や背景映像情報をあらかじめデジタル情報として記憶し、歌唱者のリクエストに応じて自動演奏や歌詞表示や背景映像の表示を行うカラオケ装置が一般的に知られている。従来のカラオケ装置において、伴奏音の演奏開始や停止、テンポやキーの調節等の自動演奏の制御は、カラオケ装置のコンソールパネルやリモートコントローラ上に配置された操作子により行われている。
【０００４】
【発明が解決しようとする課題】
しかし、従来の演奏者の身体の動作を、例えば楽音制御に用いる楽音制御装置においては、演奏者は種々の計測装置をその身体の各部に装着する必要がある。そのため、装置を使用するための装着作業が煩雑なものとなり、また、各種計測装置を装着することによって身体の不快感を生じるという問題があった。
【０００５】
また、従来のカラオケ装置における操作子は、歌唱者から離れたコンソールパネルに設置されていたり、リモートコントローラ上の細かなスイッチとして提供されている。したがって、歌唱者はコンソールパネルまで移動する必要や、リモートコントローラ上の細かなスイッチを操作するために歌詞から目を離す必要が生じるため、歌唱者は歌詞を歌唱すると同時に自動演奏の態様を制御をすることは容易ではないという問題があった。
【０００６】
本発明は、上記問題点を解決することを課題としてなされたものであり、その目的は画像から演奏者のジェスチャー等を検出することにより、自動演奏音や楽音発生指示等により発生される楽音信号等の音信号を制御をすることを可能とする制御装置およびカラオケ装置を提供することにある。
【０００７】
【課題を解決するための手段】
上記目的を達成するため、本発明に係る制御装置は、人物の映像を撮像する撮像手段と、前記撮像手段からの撮像情報に基づき前記人物の所定の部位の状態を検出する画像処理手段と、音信号を発生する音発生手段と、前記画像処理手段によって検出された前記人物の所定の部位の状態に基づいて前記人物の姿勢を判定する姿勢判定手段と、時間的に相前後する前記姿勢の組み合わせに基づいてジェスチャーを判定し、該判定したジェスチャーに対応した制御イベントを発生するイベント発生手段と、前記制御イベントに応じて前記音信号を制御する制御手段とを備えることを特徴とする。ここで、画像処理手段によって検出され人物の所定の部位の状態に基づいて判定される姿勢の組み合わせであるジェスチャーとは、人物の身体全体もしくは腕や脚、手指、身体各部の動作や姿勢によって表現されるジェスチャーのみならず、顔の眼や口の動き、あるいは表情変化なども含む。
【０００８】
上記構成の制御装置によれば、撮像される人物である演奏者の身体各部の所定の部位の状態に応じて音信号が制御される。演奏者は撮像手段の前で、身体全体あるいは腕や脚、手指、身体各部の動作や姿勢、もしくは、顔の眼や口の動き、あるいは表情変化などを行うことにより、非接触で音信号を制御することが可能となるため、機器を装着する煩わしさや機器の装着に伴う不快感を解消することができる。
【０００９】
さらに、本発明に係るカラオケ装置は、歌唱者の映像を撮像する撮像手段と、前記撮像手段からの撮像情報に基づき前記歌唱者の所定の部位の状態を検出する画像処理手段と、歌唱者の音声を入力する音声入力手段と、楽曲情報を記憶する楽曲情報記憶手段と、前記楽曲情報記憶手段から前記楽曲情報を読み出し、この読み出された楽曲情報に基づいて自動演奏を行う自動演奏手段と、前記音声入力手段から入力された音声および前記自動演奏手段による自動演奏音の少なくとも一方に対して効果を付加する効果付加手段と、映像情報を記憶する映像情報記憶手段と、前記映像情報記憶手段から前記映像情報を読み出し、この読み出された映像情報に基づいて映像の表示を行う映像表示手段と、前記画像処理手段によって検出された前記歌唱者の所定の部位の状態に基づいて前記人物の姿勢を判定する姿勢判定手段と、時間的に相前後する前記姿勢の組み合わせに基づいてジェスチャーを判定し、該判定したジェスチャーに対応した制御イベントを発生するイベント発生手段と、前記制御イベントに応じて、前記自動演奏、前記効果および前記映像表示のうち、前記自動演奏あるいは前記効果を含む少なくとも１つを制御する制御手段とを備えることを特徴とする。
【００１０】
上記構成のカラオケ装置によれば、歌唱者の所定の部位の状態に応じて、自動演奏、効果および映像表示のうち、自動演奏あるいは効果を含む少なくとも１つが制御される。歌唱者は撮像手段の前で、身体全体あるいは腕や脚、手指、身体各部の動作や姿勢、もしくは、顔の眼や口の動き、あるいは表情変化などを行うことにより、歌詞から目を離す等といったことを行わずに容易に自動演奏等の態様を制御することが可能となる。
【００１１】
【発明の実施の形態】
以下、本発明の好適な実施形態を図面を参照して説明する。
【００１２】
図１は本発明をカラオケ装置に適用した場合のブロック図である。
【００１３】
音声入力装置１ａはマイクとＡ／Ｄ回路等によって構成された装置である。この音声入力装置１ａは歌唱者の音声信号を楽音処理装置９へ出力する。
【００１４】
撮像装置１ｂは歌唱者を撮像する機器であり、本実施形態ではビデオカメラを使用する。この撮像装置１ｂは所定の標本周期毎に撮像した画像情報を画像処理装置２へ出力する。
【００１５】
三次元位置計測装置１ｃは磁場計測型のセンサーである。磁場計測型のセンサーは簡易な構成で高精度に三次元的な位置と方向を計測することが可能な機器として一般的に知られている。この三次元位置計測装置１ｃは歌唱者の後頭部に設置され、装着された人物の頭部の位置および方向を表す三次元位置情報を画像処理装置２および映像表示装置１０へ出力する。
【００１６】
画像処理装置２はビデオカメラによって撮影された歌唱者の画像と三次元位置計測装置１ｃから得られる歌唱者の三次元位置に基づいて歌唱者のジェスチャーを検出し、楽音処理装置９および映像表示装置１０へ制御イベントを送信する。このジェスチャーおよびジェスチャーの検出方法および制御イベントについては後段において詳述する。
【００１７】
楽音処理装置９は自動演奏手段９ａと効果付加手段９ｂとを備える装置である。自動演奏手段９ａは、所望の楽曲を自動演奏させるための楽曲情報を記憶した記憶装置９ｃから楽曲情報を読み出し、この読み出された楽曲情報に基づいて楽音信号を発生することにより伴奏音を自動演奏するものであって、画像処理装置２から受け取った制御イベントに応じて、テンポの調節等の制御を行った伴奏音信号を出力する。効果付加手段９ｂは、音声入力装置１ａから入力された歌唱者の音声信号や、自動演奏手段９ａからの自動演奏を行う伴奏音信号のすくなくとも一方に対し、画像処理装置２から受け取った制御イベントに応じて、リバーブ等の効果の付加を行った音信号を楽音出力装置１ｄへ出力する。
【００１８】
映像表示装置１０は画像処理装置２から受け取った制御イベントに従い、記憶装置１０ｂからＣＧ（ＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓ）の描画情報を読み出し、この描画情報に基づいたＣＧの作成および表示を行う。
【００１９】
また、映像表示装置１０における表示機器としてはＨＭＤ（ＨｅａｄＭｏｕｎｔＤｉｓｐｌａｙ）として一般的に知られている装置を使用する。ＨＭＤは使用者の頭部に装着され、両眼の視差を考慮した画像を左右に配置された液晶モニターに表示することにより、三次元的な物体の表示が可能である。また、ハーフミラーを介して前記液晶ディスプレイを設置することで、ＣＧによる虚像を実像と重ねあわせて表示することも可能である。このＨＭＤの後頭部に相当する場所に、先述の三次元位置計測装置１ｃが設置されている。
【００２０】
楽音出力装置１ｄはアンプやスピーカ等で構成される。楽音出力装置１ｄは効果を付加した自動演奏による伴奏音信号および歌唱者の音声信号を増幅し、スピーカから出力する。
【００２１】
図２は画像処理装置２における処理の流れをあらわした図である。
【００２２】
画像処理装置２においては、標本周期毎に撮像装置１ｂから歌唱者を含む画像情報を受け取り、その画像情報に基づき三次元モデルマッチングを行うことで、歌唱者の姿勢情報を獲得しジェスチャーの検出を行う。三次元モデルマッチングとは画像中の被写体の姿勢情報を獲得する一手法であり、姿勢を判別したい物体の三次元モデルと画像中の被写体とのマッチングを行い、三次元モデルの情報から被写体の姿勢情報を獲得するものである。ジェスチャーは、画像からの人物領域の抽出処理２ａ、人物の三次元モデルとのマッチング判定処理２ｃ、ジェスチャー判定処理２ｆを経て検出される。次に順を追って画像処理装置２における処理を説明する。
【００２３】
人物領域の抽出を行うシルエット化処理２ａは、あらかじめ人物の立ち位置の背景画像を撮像しておき、この背景画像と撮像装置１ｂから受信した歌唱者を含む画像との差分を取ることにより行う。人物領域を抽出した画像は圧縮・伸張処理が施される。すなわち，３ａのような画像に対し、３ｂのような背景画像の差分をとり、３ｃのようなノイズを含む人物画像を作成する。この人物画像に対し圧縮・伸張処理を施すことにより、３ｄのようなノイズの除去された人物シルエット画像を得ることができる。
【００２４】
圧縮・伸張処理は図４にあらわす処理で、画像に対し２値化処理を行い被写体の領域を抽出する処理において、照明等の状況によって混入するノイズを除去する一手法である。すなわち３ａのような被写体を撮像し、その画像を２値化した場合、ノイズを含む画像４ａが得られる。この画像４ａを方形の領域に分割し、各々の方形領域の平均値を画素値として持つ圧縮画像４ｂを作成する。この圧縮画像の各画素値に対し閾値処理を行い、圧縮画像を元の画像と同じサイズをもつ画像４ｃに伸張する。このような処理を行うことで画像中に含まれるノイズの除去を行うことができる。
【００２５】
例えば、元の画像が１００×１００画素の２値画像であり、５×５の方形領域Ｓｉ（ｉ＝０，１，２，…，３９９）に分割した場合、圧縮画像のサイズは２０×２０であり、圧縮画像の各画素Ｐｉの値は（Ｓｉ中の画素値の和）／２５である。圧縮画像の各画素Ｐｉに対する閾値を０．４とした場合、方形領域Ｓｉ中の値が１である画素の数が１０以下の場合はＰｉ＝０、それ以外の場合はＰｉ＝１とする。したがってこの場合、１０画素以下の領域はノイズとして除去されることになる。
【００２６】
次に、三次元モデルとのマッチング判定処理２ｃの説明をする前に三次元モデルについて簡単に説明する。三次元モデルは人体を模倣したモデルであり、運動学的な制約条件を持つ骨格とそれに付随する肉体を模倣したオブジェクトから構成される。本発明では図５に示すように人体を楕円球と円筒で近似し、Ｊ１〜Ｊ８、Ｊ１１、Ｊ１２の１０箇所に可動な関節をもつ人物の三次元モデルを使用する。
【００２７】
前記２ａにおいて抽出した人物のシルエット画像とのマッチング処理はこの人物の三次元モデルを動かすことによって行う。その際、次の制約条件を設け、人物の三次元モデルの姿勢に対する探索空間を限定する。
１各関節は運動学的な制約の下で動く。
２各関節の回転角速度は時間に対し連続的に変化する。
３各関節の状態は標本周期毎の処理における前回の処理における状態の近傍にある。
これらの条件は、肘等が逆方向に曲がらないこと、運動の方向が劇的に変化するような動作はないこと、あまりにも動作が早く動画像の連続したフレーム間でジャンプしているように見える動作がないことを意味している。
【００２８】
歌唱者はビデオカメラの前に立ち、しばらく静止した状態を保つ。この間、画像処理装置２は、標準的な人物の三次元モデルの頭部や胸部等の各オブジェクトのサイズや初期位置を、歌唱者の身体に適合するよう調節する。すなわち、記憶装置２ｇにあらかじめ記憶されている標準的な人物の三次元モデルを基準とし、頭部や胸部等のモデルの各部品の大きさや、頭部の位置Ｊ０を基準とした各関節Ｊｎ（ｎ＝１，２，…，１２）の位置を、歌唱者に適合するよう調節し、その歌唱者の三次元モデルを再び記憶装置２ｇに記憶する。記憶装置２ｇには、このように標準的な三次元モデルや、歌唱者の体型に適合させた歌唱者の三次元モデルのほか、先述の背景画像や標本周期毎の処理における前回の処理時の歌唱者の三次元モデルの各関節の状態が記憶されている。
【００２９】
マッチング判定処理２ｃに先立って、歌唱者の三次元モデルの姿勢が初期化される（図２中２ｂ）。すなわち、三次元モデルの可動な関節Ｊ１〜Ｊ８、Ｊ１１、Ｊ１２の回転角および回転角速度に対し、記憶装置２ｇに保存された前マッチング時刻における値を設定し（図２中２ｇから２ｂへの矢印）、現時刻におけるマッチングを行うための三次元モデルの初期姿勢を、前時刻における姿勢から線形に予測することで決定する。
【００３０】
撮像された人物とマッチングするように修正された歌唱者の三次元モデルは、ビデオカメラの視点から見た平面に投影され、人物のシルエット画像の作成（図２中２ａ）と同様の手順をもってシルエット化される（図２中２ｄ）。ただし、３次元モデルのシルエット画像は値として−１をもつ。
【００３１】
マッチング判定処理２ｃは、人物のシルエット画像と三次元モデルのシルエット画像を加算したマッチングデータを作成し、このマッチングデータを用いて行う。このマッチングデータは、人物のシルエット画像と三次元モデルのシルエット画像が重なっている領域および背景領域は０、人物のシルエットのみが存在する領域は＋１、三次元モデルのシルエットのみが存在する領域は−１の値を持つ。このマッチングデータの各座標の値の絶対値の和をマッチング度数とし、マッチング度数の値が閾値以下であれば、人物の画像と三次元モデルとのマッチングが成立したものとみなす。マッチング度数が閾値以上の場合は、マッチングデータの−１の領域が＋１の領域へ移動するように三次元モデルの姿勢の修正を行い（図２中２ｅ）、上述のマッチング判定を行う。
【００３２】
マッチングが成立したものとみなされた場合は、歌唱者の三次元モデルの姿勢を表す情報である各関節Ｊｎの状態が記憶装置２ｇに保存され（図２中２ｃから２ｇへの矢印）、ジェスチャー判定処理（図２中２ｆ）へと進む。
【００３３】
ところで、三次元モデルの自由度は非常に大きいため、上記の制約条件を加味しても、人物のシルエット画像にマッチングする姿勢を単純に決定することは困難である。しかし、本実施形態のように三次元位置計測装置１ｃを設置している場合、被写体の特定の場所（本実施形態においては被写体の後頭部）の位置と方向が既知となる。このような場合、図６のような階層構造をもって三次元モデルの姿勢の探索を効率的に行うことができる。
【００３４】
関節Ｊｍから関節ＪｎへのベクトルをＪｍｎで表す。頭部の位置Ｊ０と方向Ｊ０１が既知であるので、首の位置Ｊ１と方向Ｊ１２、Ｊ１３（もしくはＪ１４）は上記の３つの制約条件から容易に探索することができる。両碗、腹部、両足についても同様に、階層の上部にあるモデルの部位を基準として各々の位置および方向の決定を行う。ただし、ジェスチャーが上半身の姿勢のみで決定される場合は、図６中点線で示した探索は行わない。
【００３５】
以上のように画像から人物の姿勢が抽出された後、ジェスチャー判定処理２ｆを行う。この処理では、まず、マッチング判定処理２ｃにおいて得られた各関節の状態から図７のどの姿勢に合致するかを判定する。図７中のいずれかの姿勢に合致していれば、その姿勢をマッチング判定処理中の記憶手段（不図示）に記憶しておく。本発明におけるジェスチャーは、図７に例示するように、歌唱者の三次元モデルの両腕の状態によって定義される９つの二次元的な姿勢のうち、２つの姿勢の組み合わせによってあらわされる。ジェスチャーの定義は、不図示のジェスチャー判定テーブルに記憶されている。現在の処理において歌唱者の三次元モデルの姿勢（姿勢２）が判別された場合、その姿勢と、マッチング判定処理中の記憶手段に記憶された前回判別された歌唱者の三次元モデルの姿勢（姿勢１）とに基づいてジェスチャーの判別と対応するイベントの送信が行われる。
【００３６】
三次元モデルの９つの状態のうち、状態０は基本姿勢として扱い、状態０はすべてのジェスチャーの初期姿勢かつ終端姿勢であり、基本的に状態０から任意の状態へ移行し、再び状態０へ戻るまでを一つのジェスチャーとして解釈する。例えば、両腕を下げた状態０（姿勢１）から両腕を上げた状態８（姿勢２）へ移行した場合、これは繰り返し演奏開始を表すジェスチャーであり、両腕を上げた状態８（姿勢１）から両腕を下ろした状態０（姿勢２）に移行した場合、これは自動演奏終了をあらわすジェスチャーである。図８に代表的なジェスチャーを例示する。また、各々のジェスチャーには対応する制御イベントが定義されている。先述の例においては、各々繰り返し演奏開始制御イベントおよび自動演奏終了制御イベントが対応する。
【００３７】
また、図８中に例示したテンポアップとテンポダウンのように順動作と逆動作によって対となる制御イベントを割り当てている場合、それらの動作を分離して判別することが必要となる場合がある。例えばこの場合、単純にジェスチャーの判定を行うと、状態０、状態２、状態０というジェスチャーは、テンポアップした後すぐに元のテンポにテンポダウンするというジェスチャーとして解釈されうる。さらに、状態０から所定の状態へと移行する場合において、その中間姿勢もジェスチャーを構成する姿勢として解釈される場合もありえる。
【００３８】
そのため、本実施態様では状態０からある状態に移行し、その状態をしばらく保つようなジェスチャーを逆動作として定義し、状態０からある状態に移行し、速やかに状態０に戻るような動作を順動作として定義している。先ほどの例では状態０、状態２、状態２を維持、状態０というジェスチャーは逆動作である右腕を下ろすというジェスチャーとして解釈する。すなわち、状態０以外の例えば状態２のような姿勢が一旦保持された場合、その状態がジェスチャーの初期姿勢（姿勢１）として解釈される。また、中間的な姿勢であるため誤検出されうる状態（状態１、状態３、状態４、状態５、状態７）は、そのすぐ後に状態０以外の状態が検出された場合は無視される。
【００３９】
以上述べたように、画像処理装置２は撮影した人物の画像からジェスチャーを検出し、ジェスチャーに対応する制御イベントを楽音処理装置９および映像表示装置１０へ送信する。
【００４０】
図９は楽音処理装置９における処理の流れをあらわした図である。
【００４１】
自動演奏手段９ａは、記憶装置９ｃから楽曲情報を読み出し、この読み出された伴奏音情報に基づいて音信号を発生することにより伴奏音を自動演奏する。その際、画像処理装置２から送信される制御イベントに応じて自動演奏の制御が行われる。制御されるものとしては、テンポ、キー、演奏開始、演奏停止、演奏一時停止等があげられる。
【００４２】
効果付加手段９ｂは音声入力装置１ａからの入力である歌唱者の音声および自動演奏手段９ａからの自動演奏音に対し、画像処理装置２から送信される制御イベントに応じてリバーブ等の効果を付加する。効果を付加する回路については、従来用いられている回路をそのまま用いればよい。
【００４３】
なお、自動演奏手段９ａと効果付加手段９ｂにおいて、画像処理装置２から送信されてきた制御イベントが各々の処理内容に定義されていない場合は、その制御イベントは無視される。例えば、送信されてきた制御イベントがリバーブオン制御イベントである場合、効果音付加手段９ｂはリバーブを付加を実行するが、自動演奏手段９ａはこれに応じた処理は行わない。また、送信されてきた制御イベントが自動演奏終了制御イベントである場合、自動演奏手段９ａは自動演奏の停止を実行するが、効果付加手段９ｂはこれに応じた処理は行わない。
【００４４】
図１０は映像表示装置１０における処理の流れをあらわした図である。
【００４５】
映像表示装置１０は画像処理装置２から送信される制御イベントに応じて、記憶装置１０ｂから背景映像等の描画すべきオブジェクトのデータを読み出し、描画パラメータを設定した後、描画したＣＧアニメーションをＨＭＤ１０ｄに表示する。例えば、自動演奏一時停止制御イベントを受け取った場合には、その時点で描画していたオブジェクトを繰り返し表示し、一時停止解除制御イベントを受け取った後、再びＣＧアニメーションが開始される。
【００４６】
ここで、オブジェクトのデータは、ＣＧで描画する物体の三次元的な形状の情報やアニメーションを作成するための位置および姿勢情報等である。また、描画パラメータは、オブジェクトのデータと三次元位置計測装置から得られる歌唱者あるいは観客の視点に基づいて計算される、実際にＣＧの描画を行うためのパラメータである。ＨＭＤ１０ｂの左右の液晶ディスプレイに対し、両眼視差を考慮した視点の異なる映像が表示される。
【００４７】
なお、楽音処理装置９と同様、画像処理装置２から送信されてきた制御イベントが処理内容に定義されていない場合は、その制御イベントは無視される。例えば、送信されてきた制御イベントがリバーブオン制御イベントである場合、映像表示装置１０はこれに応じた処理は行わない。
【００４８】
次に上記実施形態における動作例について述べる。
【００４９】
図１１は実施の際における、各装置および人物の配置を模式的に示した図である。画像処理装置２、楽音処理装置９、映像表示装置１０を含む処理装置１１ｅには、ビデオカメラ１ｂ、マイク１ａ、ＨＭＤ１０ｄ、三次元位置計測装置１ｃが接続されている。ＨＭＤ１０ｄおよび三次元位置計測装置１ｃは歌唱者１１ａのみならず観客１１ｂも装着する。観客１１ｂの装着している三次元位置計測装置１ｃからの情報は映像表示装置１０にのみ送信される。なお、図では省略したが、このほかに、楽音出力装置、照明装置、磁場発生装置等が存在する。
【００５０】
歌唱者１１ａはビデオカメラの前に立ち、しばらく静止した状態を保つ。この間、画像処理装置２は、人物の三次元モデルの頭部や胸部等の各オブジェクトのサイズや初期位置を、歌唱者１１ａの身体に適合するよう調節する。この処理が完了され次第、歌唱者１１ａの動作の追跡が開始され、自動演奏による伴奏音が演奏開始となる。画像処理装置２は歌唱者１１ａの姿勢情報の獲得を常に実行し、歌唱者１１ａの動作が定義されているジェスチャーと合致するものであれば、楽音処理装置９および映像表示装置１０へ制御イベントを送信する。楽音処理装置９および映像表示装置１０は、動作が未定義の制御イベントを受け取った場合、その制御イベントを受け取る直前の状態を維持する。
【００５１】
歌唱者１１ａは歌いながら所定のジェスチャーをすることにより、効果付加の態様や自動演奏の態様および映像表示の態様を制御する。例えば、歌唱者１１ａが両腕を下ろした状態０から右腕を水平に上げた状態１に移行すると、画像処理装置２が歌唱者１１ａの動作からジェスチャーを検出し、リバーブオン制御イベントを送信する。楽音処理装置９中の効果付加手段９ｂはこの制御イベントに従い、歌唱者１１ａの音声および自動演奏音に対しリバーブを付加する。楽音処理装置９中の自動演奏手段９ａおよび映像表示装置１０は、この制御イベントに対する動作は行わず、それまでの状態を維持する。また、同じく歌唱者１１ａが両腕を下ろした状態０から両腕を垂直に上げた状態８に移行すると、繰り返し演奏開始制御イベントが送信され、自動演奏手段９ａおよび映像表示装置１０において、直前の自動演奏音および映像の繰り返し演奏もしくは再生が行われる。
【００５２】
各ＨＭＤには歌唱者１１ａもしくは観客１１ｂの各々の視点から見た、仮想的な人物や歌詞のようなＣＧアニメーション１１ｃが表示され、制御イベントに応じてその態様は変化する。先ほどの例と同じく、リバーブオン制御イベントの場合ＣＧアニメーション１１ｃの態様は変化せず、繰り返し演奏開始制御イベントの場合はその直前に表示されていたＣＧアニメーション１１ｃのパターンを繰り返し表示する。
【００５３】
記憶装置９ｃに収められた楽曲情報のすべてを演奏し終わるか、歌唱者１１ａが両腕を上げた状態から両腕を下げ、自動演奏終了制御イベントが送信されたら全ての処理を終了する。
【００５４】
以上が本発明に好適な実施形態である。
【００５５】
上記実施形態によれば、歌唱者１１ａはジェスチャーを行うことにより自動演奏、楽音に対する効果および映像表示を制御することができる。ジェスチャーの検出はビデオカメラによって撮像された、歌唱者１１ａの画像を基に行われるため、従来の身体の動作を計測し楽音制御を行う制御装置に比べ機器を装着する煩わしさや機器の装着に伴う不快感を解消することができる。
【００５６】
また、歌唱者１１ａは効果および自動演奏および映像表示の態様を制御する際、歌詞から目を離したり、操作パネルに移動する等の行為を必要としないため、歌いながらでも容易に自動演奏、効果および映像表示を制御することができる。
【００５７】
また、歌唱者１１ａおよび観客はＨＭＤ１０ｄを装着し、ＨＭＤ１０ｄには三次元的なＣＧを表示することが可能である。したがって、表現力豊かな、例えばあたかもコンサートホールで歌っているかのような映像を表示することもできる。
【００５８】
なお、前記実施態様における画像処理装置２、楽音処理装置９、映像表示装置１０は各々独立した装置として提供してもよいし、１または複数の処理装置上のソフトウェアとして提供してもよい。
【００５９】
前記実施形態において、肘を延ばした両腕の姿勢によって表現されるジェスチャーのみを用いたが、肘を曲げた姿勢や下半身の姿勢等も加えたジェスチャーを用いてもよいし、撮像手段の解像度と処理能力が十分に高ければ、手指等の姿勢を含めてもよい。これにより、例えば、指で狐の顔を形作ると狐の鳴声を発生し、Ｖサインを形作ると「ピース」と発音するといった制御が可能となる。さらに、このようなジェスチャーのみならず、顔の眼や口の動きや形状あるいは喜怒哀楽などの表情に応じて音信号を制御するようにしてもよい。
【００６０】
前記実施形態において、ジェスチャーを構成する姿勢を固定としたが、姿勢設定手段をさらに設け、ユーザが任意に設定を行なってもよい。
【００６１】
また、ジェスチャー判定処理２ｆにおいて姿勢、ジェスチャー、イベントは固定としたが、テーブル編集手段をさらに設け、ユーザがその組み合わせを任意に変更できるようにしてもよいし、曲毎やジャンル毎にあらかじめ設定しておき、歌唱者の選曲に応じて自動的に対応するテーブルが選択されるようにしてもよい。
【００６２】
前記実施態様において、三次元モデルマッチングを行う際、歌唱者１１ａの三次元位置を計測したが、歌唱者１１ａの立ち位置が固定であるような、あらかじめ撮像手段１ｂから歌唱者１１ａまでの距離が既知である場合は二次元位置の計測のみでよい。
【００６３】
また、三次元モデルの姿勢を線形に予測したが、非線型な関数を用いたり、統計学的な手法を用いて、三次元モデルの姿勢を予測してもよい。
【００６４】
前記実施形態の撮像装置１ｂにおいて、ビデオカメラは１台のみ設置されているが、２台以上設置し、多視点画像を用いて映像処理装置におけるジェスチャーの検出処理を行ってもよい。多視点の画像を用いる場合、三次元的な動作が検出可能となるという利点がある。
【００６５】
また、多視点画像を用いることにより、画像のみから歌唱者１１ａの三次元的な位置が獲得可能であるので、十分高速に処理を行うことができれば、前記実施形態で用いた三次元位置計測装置１ｃは設置しなくともよい。
【００６６】
前記実施形態の画像処理装置２において、撮影した画像とあらかじめ記憶しておいた背景画像との差分をとることによって人物領域の検出を行ったが、画素値情報に基づいた人物領域の抽出やオプティカルフローによる人物領域と動作の同時抽出を行ってもよい。
【００６７】
また、同処理装置におけるジェスチャー判定処理は、あらかじめ記憶された人物の姿勢のシルエット画像と撮影された人物のシルエット画像とを、ニューラルネットワークを用いた認識回路や固有空間を用いた類似度を判定する回路等を用いた処理としてもよい。
【００６８】
また、これら人物もしくはジェスチャーの検出方法を用いる場合は、歌唱者１１ａの三次元位置は必ずしも必要ではないため、前記実施形態で用いた三次元位置計測装置１ｃは設置しなくともよい。
【００６９】
また、同処理装置において、ノイズを除去する手法として圧縮・伸張処理を用いているが、同様な効果が得られる手法であればなんでもよい。
【００７０】
前記実施形態の楽音処理装置９において、さらに、記憶装置９ｃに主旋律情報を記憶しておき、入力音声と主旋律とのピッチ差を検出する手段９ｄと、このピッチ差および楽音情報の少なくとも一方に基づき、映像表示手段に制御イベントを出力する制御イベント発生手段９ｅを設けてもよい。楽音処理装置９に制御イベント発生手段を設けることで、楽音による映像の制御や、楽音と映像の同期が可能となる。この場合、映像表示装置１０において作成するＣＧは、伴奏音にあわせて踊る仮想的なダンサーや、歌詞であってもよい。
【００７１】
前記実施態様の映像表示装置１０において、歌唱者１１ａもしくは観客１１ｂが装着するＨＭＤに三次元的な映像を表示したが、従来の二次元的なモニターディスプレイにＣＧを表示してもよい。この場合、三次元的な映像を表示するならば、モニターディスプレイに左右両眼視差を考慮した映像を交互に表示し、その映像を切り替える周期と同期して、左右のグラスを交互に遮光するようにした液晶シャッター眼鏡を歌唱者１１ａもしくは観客１１ｂが装着すればよい。
【００７２】
前記実施態様においては本発明をカラオケ装置に適用したがその他の装置に適用可能である。例えば、電子楽器に適用する場合には、演奏者を撮像してそのジェスチャーを検出し、このジェスチャーに基づいて電子楽器を演奏操作することによって発生される楽音の音高、音色、音量等の特性を制御するようにした楽音制御装置に適用してもよい。
【００７３】
【発明の効果】
以上詳述した本発明の制御装置によれば、撮像される人物である演奏者の身体各部の所定の部位の状態に応じて音信号が制御される。演奏者は撮像手段の前で、身体全体あるいは腕や脚、手指、身体各部の動作や姿勢、もしくは、顔の眼や口の動き、あるいは表情変化などを行うことにより、非接触で音信号を制御することが可能となるため、機器を装着する煩わしさや機器の装着に伴う不快感を解消することができる。
【００７４】
また、本発明のカラオケ装置によれば、歌唱者の所定の部位の状態に応じて、自動演奏、効果および映像表示のうち、自動演奏あるいは効果を含む少なくとも１つが制御される。歌唱者は撮像手段の前で、身体全体あるいは腕や脚、手指、身体各部の動作や姿勢、もしくは、顔の眼や口の動き、あるいは表情変化などを行うことにより、歌詞から目を離す等といったことを行わずに容易に自動演奏等の態様を制御することが可能となる。
【図面の簡単な説明】
【図１】実施例の全体構成を表すブロック図である。
【図２】画像処理装置２の処理を表すブロック図である。
【図３】画像から人物を抽出する処理を表す図である。
【図４】圧縮・伸張処理を表す図である。
【図５】三次元モデルの概略図である。
【図６】三次元モデルの各部分に対する探索経路である。
【図７】ジェスチャーを構成する姿勢を表す図である。
【図８】代表的なジェスチャーを表す図である。
【図９】楽音処理装置９の処理を表すブロック図である。
【図１０】映像表示装置１０の処理を表すブロック図である。
【図１１】装置および人物の配置例を表す図である。
【符号の説明】
１ａ・・・音声入力装置（マイク＝音声入力手段）
１ｂ・・・撮像装置（ビデオカメラ＝撮像手段）
１ｃ・・・三次元位置計測装置（位置測定手段）
１ｄ・・・楽音出力装置
２・・・・画像処理装置（画像処理手段および制御手段）
９・・・・楽音処理装置（音発生手段）
９ａ・・・自動演奏装置（自動演奏手段）
９ｂ・・・効果付加装置（効果付加手段）
９ｃ・・・楽曲情報記憶装置（楽曲情報記憶手段）
１０・・・映像表示装置（映像表示手段）
１０ｂ・・映像情報記憶装置（映像情報記憶手段）
１０ｄ・・ＨＭＤ
１１ｃ・・ＣＧ

Claims

人物の映像を撮像する撮像手段と、
前記撮像手段からの撮像情報に基づき前記人物の所定の部位の状態を検出する画像処理手段と、
音信号を発生する音発生手段と、
前記画像処理手段によって検出された前記人物の所定の部位の状態に基づいて前記人物の姿勢を判定する姿勢判定手段と、
時間的に相前後する前記姿勢の組み合わせに基づいてジェスチャーを判定し、該判定したジェスチャーに対応した制御イベントを発生するイベント発生手段と、
前記制御イベントに応じて前記音信号を制御する制御手段と
を備えることを特徴とする制御装置。
前記音発生手段は、
楽曲情報を記憶する楽曲情報記憶手段と、
前記楽曲情報記憶手段から前記楽曲情報を読み出し、この読み出された楽曲情報に基づいて自動演奏を行う自動演奏手段とからなり、
前記イベント発生手段は、
前記自動演奏手段による前記自動演奏を制御する制御イベントを発生するものである
ことを特徴とする請求項１に記載の制御装置。
前記イベント発生手段は、
前記検出した状態に基づき前記音発生手段から発生される前記音信号の特性を制御する制御イベントを発生するものである
ことを特徴とする請求項１に記載の制御装置。
請求項１乃至３に記載の制御装置において、さらに、
映像を表示する映像表示手段を設け、
前記制御手段は前記制御イベントに応じて前記音信号および前記映像表示手段で表示される映像を制御するものである
ことを特徴とする請求項１乃至３に記載の制御装置。
請求項１乃至４に記載の制御装置において、
前記人物の位置を測定する三次元位置測定手段を備え、
前記画像処理手段は前記撮像手段からの撮像情報と前記三次元位置測定手段からの前記人物の位置情報を用いて前記人物の所定の部位の状態を検出するものである
ことを特徴とする請求項１乃至４に記載の制御装置。
歌唱者の映像を撮像する撮像手段と、
前記撮像手段からの撮像情報に基づき前記歌唱者の所定の部位の状態を検出する画像処理手段と、
歌唱者の音声を入力する音声入力手段と、
楽曲情報を記憶する楽曲情報記憶手段と、
前記楽曲情報記憶手段から前記楽曲情報を読み出し、この読み出された楽曲情報に基づいて自動演奏を行う自動演奏手段と、
前記音声入力手段から入力された音声および前記自動演奏手段による自動演奏音の少なくとも一方に対して効果を付加する効果付加手段と、
映像情報を記憶する映像情報記憶手段と、
前記映像情報記憶手段から前記映像情報を読み出し、この読み出された映像情報に基づいて映像の表示を行う映像表示手段と、
前記画像処理手段によって検出された前記歌唱者の所定の部位の状態に基づいて前記人物の姿勢を判定する姿勢判定手段と、
時間的に相前後する前記姿勢の組み合わせに基づいてジェスチャーを判定し、該判定したジェスチャーに対応した制御イベントを発生するイベント発生手段と、
前記制御イベントに応じて、前記自動演奏、前記効果および前記映像表示のうち、前記自動演奏あるいは前記効果を含む少なくとも１つを制御する制御手段と
を備えることを特徴とするカラオケ装置。
請求項６に記載のカラオケ装置において、
歌唱者の位置を測定する三次元位置測定手段を備え、
前記画像処理手段は前記撮像手段からの撮像情報と前記三次元位置測定手段からの歌唱者の位置情報を用いて歌唱者の所定の部位の状態を検出する
ことを特徴とする請求項６に記載のカラオケ装置。