JP3817878B2 - 制御装置およびカラオケ装置 - Google Patents

制御装置およびカラオケ装置 Download PDF

Info

Publication number
JP3817878B2
JP3817878B2 JP36175697A JP36175697A JP3817878B2 JP 3817878 B2 JP3817878 B2 JP 3817878B2 JP 36175697 A JP36175697 A JP 36175697A JP 36175697 A JP36175697 A JP 36175697A JP 3817878 B2 JP3817878 B2 JP 3817878B2
Authority
JP
Japan
Prior art keywords
singer
automatic performance
person
image
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP36175697A
Other languages
English (en)
Other versions
JPH11175061A (ja
Inventor
素明 宮部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP36175697A priority Critical patent/JP3817878B2/ja
Publication of JPH11175061A publication Critical patent/JPH11175061A/ja
Application granted granted Critical
Publication of JP3817878B2 publication Critical patent/JP3817878B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Description

【0001】
【発明の属する技術分野】
本発明は、演奏者や歌唱者等の人物の動画像から人物の所定の部位の状態を検出し、この状態に応じて楽音や映像の制御を行うことのできる制御装置およびカラオケ装置に関する。
【0002】
【従来の技術】
従来、演奏者の身体の動作を楽音制御に用いる楽音制御装置等が知られている。従来の装置は演奏者の身体の肘や手等の各部位に曲げセンサーや加速度センサー等の計測機器を設置し、それらセンサーから得られる情報に応じて、所定の動作にあらかじめ設定された音高や音色を楽音として発生させるといった形態をとる。
【0003】
また、伴奏音情報や歌詞情報や背景映像情報をあらかじめデジタル情報として記憶し、歌唱者のリクエストに応じて自動演奏や歌詞表示や背景映像の表示を行うカラオケ装置が一般的に知られている。従来のカラオケ装置において、伴奏音の演奏開始や停止、テンポやキーの調節等の自動演奏の制御は、カラオケ装置のコンソールパネルやリモートコントローラ上に配置された操作子により行われている。
【0004】
【発明が解決しようとする課題】
しかし、従来の演奏者の身体の動作を、例えば楽音制御に用いる楽音制御装置においては、演奏者は種々の計測装置をその身体の各部に装着する必要がある。そのため、装置を使用するための装着作業が煩雑なものとなり、また、各種計測装置を装着することによって身体の不快感を生じるという問題があった。
【0005】
また、従来のカラオケ装置における操作子は、歌唱者から離れたコンソールパネルに設置されていたり、リモートコントローラ上の細かなスイッチとして提供されている。したがって、歌唱者はコンソールパネルまで移動する必要や、リモートコントローラ上の細かなスイッチを操作するために歌詞から目を離す必要が生じるため、歌唱者は歌詞を歌唱すると同時に自動演奏の態様を制御をすることは容易ではないという問題があった。
【0006】
本発明は、上記問題点を解決することを課題としてなされたものであり、その目的は画像から演奏者のジェスチャー等を検出することにより、自動演奏音や楽音発生指示等により発生される楽音信号等の音信号を制御をすることを可能とする制御装置およびカラオケ装置を提供することにある。
【0007】
【課題を解決するための手段】
上記目的を達成するため、本発明に係る制御装置は、人物の映像を撮像する撮像手段と、前記撮像手段からの撮像情報に基づき前記人物の所定の部位の状態を検出する画像処理手段と、音信号を発生する音発生手段と、前記画像処理手段によって検出された前記人物の所定の部位の状態に基づいて前記人物の姿勢を判定する姿勢判定手段と、時間的に相前後する前記姿勢の組み合わせに基づいてジェスチャーを判定し、該判定したジェスチャーに対応した制御イベントを発生するイベント発生手段と、前記制御イベントに応じて前記音信号を制御する制御手段とを備えることを特徴とする。ここで、画像処理手段によって検出され人物の所定の部位の状態に基づいて判定される姿勢の組み合わせであるジェスチャーとは、人物の身体全体もしくは腕や脚、手指、身体各部の動作や姿勢によって表現されるジェスチャーのみならず、顔の眼や口の動き、あるいは表情変化なども含む。
【0008】
上記構成の制御装置によれば、撮像される人物である演奏者の身体各部の所定の部位の状態に応じて音信号が制御される。演奏者は撮像手段の前で、身体全体あるいは腕や脚、手指、身体各部の動作や姿勢、もしくは、顔の眼や口の動き、あるいは表情変化などを行うことにより、非接触で音信号を制御することが可能となるため、機器を装着する煩わしさや機器の装着に伴う不快感を解消することができる。
【0009】
さらに、本発明に係るカラオケ装置は、 歌唱者の映像を撮像する撮像手段と、前記撮像手段からの撮像情報に基づき前記歌唱者の所定の部位の状態を検出する画像処理手段と、歌唱者の音声を入力する音声入力手段と、楽曲情報を記憶する楽曲情報記憶手段と、前記楽曲情報記憶手段から前記楽曲情報を読み出し、この読み出された楽曲情報に基づいて自動演奏を行う自動演奏手段と、前記音声入力手段から入力された音声および前記自動演奏手段による自動演奏音の少なくとも一方に対して効果を付加する効果付加手段と、映像情報を記憶する映像情報記憶手段と、前記映像情報記憶手段から前記映像情報を読み出し、この読み出された映像情報に基づいて映像の表示を行う映像表示手段と、前記画像処理手段によって検出された前記歌唱者の所定の部位の状態に基づいて前記人物の姿勢を判定する姿勢判定手段と、時間的に相前後する前記姿勢の組み合わせに基づいてジェスチャーを判定し、該判定したジェスチャーに対応した制御イベントを発生するイベント発生手段と、前記制御イベントに応じて、前記自動演奏、前記効果および前映像表示のうち、前記自動演奏あるいは前記効果を含む少なくとも1つを制御する制御手段とを備えることを特徴とする。
【0010】
上記構成のカラオケ装置によれば、歌唱者の所定の部位の状態に応じて、自動演奏、効果および映像表示のうち、自動演奏あるいは効果を含む少なくとも1つが制御される。歌唱者は撮像手段の前で、身体全体あるいは腕や脚、手指、身体各部の動作や姿勢、もしくは、顔の眼や口の動き、あるいは表情変化などを行うことにより、歌詞から目を離す等といったことを行わずに容易に自動演奏等の態様を制御することが可能となる。
【0011】
【発明の実施の形態】
以下、本発明の好適な実施形態を図面を参照して説明する。
【0012】
図1は本発明をカラオケ装置に適用した場合のブロック図である。
【0013】
音声入力装置1aはマイクとA/D回路等によって構成された装置である。この音声入力装置1aは歌唱者の音声信号を楽音処理装置9へ出力する。
【0014】
撮像装置1bは歌唱者を撮像する機器であり、本実施形態ではビデオカメラを使用する。この撮像装置1bは所定の標本周期毎に撮像した画像情報を画像処理装置2へ出力する。
【0015】
三次元位置計測装置1cは磁場計測型のセンサーである。磁場計測型のセンサーは簡易な構成で高精度に三次元的な位置と方向を計測することが可能な機器として一般的に知られている。この三次元位置計測装置1cは歌唱者の後頭部に設置され、装着された人物の頭部の位置および方向を表す三次元位置情報を画像処理装置2および映像表示装置10へ出力する。
【0016】
画像処理装置2はビデオカメラによって撮影された歌唱者の画像と三次元位置計測装置1cから得られる歌唱者の三次元位置に基づいて歌唱者のジェスチャーを検出し、楽音処理装置9および映像表示装置10へ制御イベントを送信する。このジェスチャーおよびジェスチャーの検出方法および制御イベントについては後段において詳述する。
【0017】
楽音処理装置9は自動演奏手段9aと効果付加手段9bとを備える装置である。自動演奏手段9aは、所望の楽曲を自動演奏させるための楽曲情報を記憶した記憶装置9cから楽曲情報を読み出し、この読み出された楽曲情報に基づいて楽音信号を発生することにより伴奏音を自動演奏するものであって、画像処理装置2から受け取った制御イベントに応じて、テンポの調節等の制御を行った伴奏音信号を出力する。効果付加手段9bは、音声入力装置1aから入力された歌唱者の音声信号や、自動演奏手段9aからの自動演奏を行う伴奏音信号のすくなくとも一方に対し、画像処理装置2から受け取った制御イベントに応じて、リバーブ等の効果の付加を行った音信号を楽音出力装置1dへ出力する。
【0018】
映像表示装置10は画像処理装置2から受け取った制御イベントに従い、記憶装置10bからCG(Computer Graphics)の描画情報を読み出し、この描画情報に基づいたCGの作成および表示を行う。
【0019】
また、映像表示装置10における表示機器としてはHMD(Head Mount Display)として一般的に知られている装置を使用する。HMDは使用者の頭部に装着され、両眼の視差を考慮した画像を左右に配置された液晶モニターに表示することにより、三次元的な物体の表示が可能である。また、ハーフミラーを介して前記液晶ディスプレイを設置することで、CGによる虚像を実像と重ねあわせて表示することも可能である。このHMDの後頭部に相当する場所に、先述の三次元位置計測装置1cが設置されている。
【0020】
楽音出力装置1dはアンプやスピーカ等で構成される。楽音出力装置1dは効果を付加した自動演奏による伴奏音信号および歌唱者の音声信号を増幅し、スピーカから出力する。
【0021】
図2は画像処理装置2における処理の流れをあらわした図である。
【0022】
画像処理装置2においては、標本周期毎に撮像装置1bから歌唱者を含む画像情報を受け取り、その画像情報に基づき三次元モデルマッチングを行うことで、歌唱者の姿勢情報を獲得しジェスチャーの検出を行う。三次元モデルマッチングとは画像中の被写体の姿勢情報を獲得する一手法であり、姿勢を判別したい物体の三次元モデルと画像中の被写体とのマッチングを行い、三次元モデルの情報から被写体の姿勢情報を獲得するものである。ジェスチャーは、画像からの人物領域の抽出処理2a、人物の三次元モデルとのマッチング判定処理2c、ジェスチャー判定処理2fを経て検出される。次に順を追って画像処理装置2における処理を説明する。
【0023】
人物領域の抽出を行うシルエット化処理2aは、あらかじめ人物の立ち位置の背景画像を撮像しておき、この背景画像と撮像装置1bから受信した歌唱者を含む画像との差分を取ることにより行う。人物領域を抽出した画像は圧縮・伸張処理が施される。すなわち,3aのような画像に対し、3bのような背景画像の差分をとり、3cのようなノイズを含む人物画像を作成する。この人物画像に対し圧縮・伸張処理を施すことにより、3dのようなノイズの除去された人物シルエット画像を得ることができる。
【0024】
圧縮・伸張処理は図4にあらわす処理で、画像に対し2値化処理を行い被写体の領域を抽出する処理において、照明等の状況によって混入するノイズを除去する一手法である。すなわち3aのような被写体を撮像し、その画像を2値化した場合、ノイズを含む画像4aが得られる。この画像4aを方形の領域に分割し、各々の方形領域の平均値を画素値として持つ圧縮画像4bを作成する。この圧縮画像の各画素値に対し閾値処理を行い、圧縮画像を元の画像と同じサイズをもつ画像4cに伸張する。このような処理を行うことで画像中に含まれるノイズの除去を行うことができる。
【0025】
例えば、元の画像が100×100画素の2値画像であり、5×5の方形領域Si(i=0,1,2,…,399)に分割した場合、圧縮画像のサイズは20×20であり、圧縮画像の各画素Piの値は(Si中の画素値の和)/25である。圧縮画像の各画素Piに対する閾値を0.4とした場合、方形領域Si中の値が1である画素の数が10以下の場合はPi=0、それ以外の場合はPi=1とする。したがってこの場合、10画素以下の領域はノイズとして除去されることになる。
【0026】
次に、三次元モデルとのマッチング判定処理2cの説明をする前に三次元モデルについて簡単に説明する。三次元モデルは人体を模倣したモデルであり、運動学的な制約条件を持つ骨格とそれに付随する肉体を模倣したオブジェクトから構成される。本発明では図5に示すように人体を楕円球と円筒で近似し、J1〜J8、J11、J12の10箇所に可動な関節をもつ人物の三次元モデルを使用する。
【0027】
前記2aにおいて抽出した人物のシルエット画像とのマッチング処理はこの人物の三次元モデルを動かすことによって行う。その際、次の制約条件を設け、人物の三次元モデルの姿勢に対する探索空間を限定する。
1 各関節は運動学的な制約の下で動く。
2 各関節の回転角速度は時間に対し連続的に変化する。
3 各関節の状態は標本周期毎の処理における前回の処理における状態の近傍にある。
これらの条件は、肘等が逆方向に曲がらないこと、運動の方向が劇的に変化するような動作はないこと、あまりにも動作が早く動画像の連続したフレーム間でジャンプしているように見える動作がないことを意味している。
【0028】
歌唱者はビデオカメラの前に立ち、しばらく静止した状態を保つ。この間、画像処理装置2は、標準的な人物の三次元モデルの頭部や胸部等の各オブジェクトのサイズや初期位置を、歌唱者の身体に適合するよう調節する。すなわち、記憶装置2gにあらかじめ記憶されている標準的な人物の三次元モデルを基準とし、頭部や胸部等のモデルの各部品の大きさや、頭部の位置J0を基準とした各関節Jn(n=1,2,…,12)の位置を、歌唱者に適合するよう調節し、その歌唱者の三次元モデルを再び記憶装置2gに記憶する。記憶装置2gには、このように標準的な三次元モデルや、歌唱者の体型に適合させた歌唱者の三次元モデルのほか、先述の背景画像や標本周期毎の処理における前回の処理時の歌唱者の三次元モデルの各関節の状態が記憶されている。
【0029】
マッチング判定処理2cに先立って、歌唱者の三次元モデルの姿勢が初期化される(図2中2b)。すなわち、三次元モデルの可動な関節J1〜J8、J11、J12の回転角および回転角速度に対し、記憶装置2gに保存された前マッチング時刻における値を設定し(図2中2gから2bへの矢印)、現時刻におけるマッチングを行うための三次元モデルの初期姿勢を、前時刻における姿勢から線形に予測することで決定する。
【0030】
撮像された人物とマッチングするように修正された歌唱者の三次元モデルは、ビデオカメラの視点から見た平面に投影され、人物のシルエット画像の作成(図2中2a)と同様の手順をもってシルエット化される(図2中2d)。ただし、3次元モデルのシルエット画像は値として−1をもつ。
【0031】
マッチング判定処理2cは、人物のシルエット画像と三次元モデルのシルエット画像を加算したマッチングデータを作成し、このマッチングデータを用いて行う。このマッチングデータは、人物のシルエット画像と三次元モデルのシルエット画像が重なっている領域および背景領域は0、人物のシルエットのみが存在する領域は+1、三次元モデルのシルエットのみが存在する領域は−1の値を持つ。このマッチングデータの各座標の値の絶対値の和をマッチング度数とし、マッチング度数の値が閾値以下であれば、人物の画像と三次元モデルとのマッチングが成立したものとみなす。マッチング度数が閾値以上の場合は、マッチングデータの−1の領域が+1の領域へ移動するように三次元モデルの姿勢の修正を行い(図2中2e)、上述のマッチング判定を行う。
【0032】
マッチングが成立したものとみなされた場合は、歌唱者の三次元モデルの姿勢を表す情報である各関節Jnの状態が記憶装置2gに保存され(図2中2cから2gへの矢印)、ジェスチャー判定処理(図2中2f)へと進む。
【0033】
ところで、三次元モデルの自由度は非常に大きいため、上記の制約条件を加味しても、人物のシルエット画像にマッチングする姿勢を単純に決定することは困難である。しかし、本実施形態のように三次元位置計測装置1cを設置している場合、被写体の特定の場所(本実施形態においては被写体の後頭部)の位置と方向が既知となる。このような場合、図6のような階層構造をもって三次元モデルの姿勢の探索を効率的に行うことができる。
【0034】
関節Jmから関節JnへのベクトルをJmnで表す。頭部の位置J0と方向J01が既知であるので、首の位置J1と方向J12、J13(もしくはJ14)は上記の3つの制約条件から容易に探索することができる。両碗、腹部、両足についても同様に、階層の上部にあるモデルの部位を基準として各々の位置および方向の決定を行う。ただし、ジェスチャーが上半身の姿勢のみで決定される場合は、図6中点線で示した探索は行わない。
【0035】
以上のように画像から人物の姿勢が抽出された後、ジェスチャー判定処理2fを行う。この処理では、まず、マッチング判定処理2cにおいて得られた各関節の状態から図7のどの姿勢に合致するかを判定する。図7中のいずれかの姿勢に合致していれば、その姿勢をマッチング判定処理中の記憶手段(不図示)に記憶しておく。本発明におけるジェスチャーは、図7に例示するように、歌唱者の三次元モデルの両腕の状態によって定義される9つの二次元的な姿勢のうち、2つの姿勢の組み合わせによってあらわされる。ジェスチャーの定義は、不図示のジェスチャー判定テーブルに記憶されている。現在の処理において歌唱者の三次元モデルの姿勢(姿勢2)が判別された場合、その姿勢と、マッチング判定処理中の記憶手段に記憶された前回判別された歌唱者の三次元モデルの姿勢(姿勢1)とに基づいてジェスチャーの判別と対応するイベントの送信が行われる。
【0036】
三次元モデルの9つの状態のうち、状態0は基本姿勢として扱い、状態0はすべてのジェスチャーの初期姿勢かつ終端姿勢であり、基本的に状態0から任意の状態へ移行し、再び状態0へ戻るまでを一つのジェスチャーとして解釈する。例えば、両腕を下げた状態0(姿勢1)から両腕を上げた状態8(姿勢2)へ移行した場合、これは繰り返し演奏開始を表すジェスチャーであり、両腕を上げた状態8(姿勢1)から両腕を下ろした状態0(姿勢2)に移行した場合、これは自動演奏終了をあらわすジェスチャーである。図8に代表的なジェスチャーを例示する。また、各々のジェスチャーには対応する制御イベントが定義されている。先述の例においては、各々繰り返し演奏開始制御イベントおよび自動演奏終了制御イベントが対応する。
【0037】
また、図8中に例示したテンポアップとテンポダウンのように順動作と逆動作によって対となる制御イベントを割り当てている場合、それらの動作を分離して判別することが必要となる場合がある。例えばこの場合、単純にジェスチャーの判定を行うと、状態0、状態2、状態0というジェスチャーは、テンポアップした後すぐに元のテンポにテンポダウンするというジェスチャーとして解釈されうる。さらに、状態0から所定の状態へと移行する場合において、その中間姿勢もジェスチャーを構成する姿勢として解釈される場合もありえる。
【0038】
そのため、本実施態様では状態0からある状態に移行し、その状態をしばらく保つようなジェスチャーを逆動作として定義し、状態0からある状態に移行し、速やかに状態0に戻るような動作を順動作として定義している。先ほどの例では状態0、状態2、状態2を維持、状態0というジェスチャーは逆動作である右腕を下ろすというジェスチャーとして解釈する。すなわち、状態0以外の例えば状態2のような姿勢が一旦保持された場合、その状態がジェスチャーの初期姿勢(姿勢1)として解釈される。また、中間的な姿勢であるため誤検出されうる状態(状態1、状態3、状態4、状態5、状態7)は、そのすぐ後に状態0以外の状態が検出された場合は無視される。
【0039】
以上述べたように、画像処理装置2は撮影した人物の画像からジェスチャーを検出し、ジェスチャーに対応する制御イベントを楽音処理装置9および映像表示装置10へ送信する。
【0040】
図9は楽音処理装置9における処理の流れをあらわした図である。
【0041】
自動演奏手段9aは、記憶装置9cから楽曲情報を読み出し、この読み出された伴奏音情報に基づいて音信号を発生することにより伴奏音を自動演奏する。その際、画像処理装置2から送信される制御イベントに応じて自動演奏の制御が行われる。制御されるものとしては、テンポ、キー、演奏開始、演奏停止、演奏一時停止等があげられる。
【0042】
効果付加手段9bは音声入力装置1aからの入力である歌唱者の音声および自動演奏手段9aからの自動演奏音に対し、画像処理装置2から送信される制御イベントに応じてリバーブ等の効果を付加する。効果を付加する回路については、従来用いられている回路をそのまま用いればよい。
【0043】
なお、自動演奏手段9aと効果付加手段9bにおいて、画像処理装置2から送信されてきた制御イベントが各々の処理内容に定義されていない場合は、その制御イベントは無視される。例えば、送信されてきた制御イベントがリバーブオン制御イベントである場合、効果音付加手段9bはリバーブを付加を実行するが、自動演奏手段9aはこれに応じた処理は行わない。また、送信されてきた制御イベントが自動演奏終了制御イベントである場合、自動演奏手段9aは自動演奏の停止を実行するが、効果付加手段9bはこれに応じた処理は行わない。
【0044】
図10は映像表示装置10における処理の流れをあらわした図である。
【0045】
映像表示装置10は画像処理装置2から送信される制御イベントに応じて、記憶装置10bから背景映像等の描画すべきオブジェクトのデータを読み出し、描画パラメータを設定した後、描画したCGアニメーションをHMD10dに表示する。例えば、自動演奏一時停止制御イベントを受け取った場合には、その時点で描画していたオブジェクトを繰り返し表示し、一時停止解除制御イベントを受け取った後、再びCGアニメーションが開始される。
【0046】
ここで、オブジェクトのデータは、CGで描画する物体の三次元的な形状の情報やアニメーションを作成するための位置および姿勢情報等である。また、描画パラメータは、オブジェクトのデータと三次元位置計測装置から得られる歌唱者あるいは観客の視点に基づいて計算される、実際にCGの描画を行うためのパラメータである。HMD10bの左右の液晶ディスプレイに対し、両眼視差を考慮した視点の異なる映像が表示される。
【0047】
なお、楽音処理装置9と同様、画像処理装置2から送信されてきた制御イベントが処理内容に定義されていない場合は、その制御イベントは無視される。例えば、送信されてきた制御イベントがリバーブオン制御イベントである場合、映像表示装置10はこれに応じた処理は行わない。
【0048】
次に上記実施形態における動作例について述べる。
【0049】
図11は実施の際における、各装置および人物の配置を模式的に示した図である。画像処理装置2、楽音処理装置9、映像表示装置10を含む処理装置11eには、ビデオカメラ1b、マイク1a、HMD10d、三次元位置計測装置1cが接続されている。HMD10dおよび三次元位置計測装置1cは歌唱者11aのみならず観客11bも装着する。観客11bの装着している三次元位置計測装置1cからの情報は映像表示装置10にのみ送信される。なお、図では省略したが、このほかに、楽音出力装置、照明装置、磁場発生装置等が存在する。
【0050】
歌唱者11aはビデオカメラの前に立ち、しばらく静止した状態を保つ。この間、画像処理装置2は、人物の三次元モデルの頭部や胸部等の各オブジェクトのサイズや初期位置を、歌唱者11aの身体に適合するよう調節する。この処理が完了され次第、歌唱者11aの動作の追跡が開始され、自動演奏による伴奏音が演奏開始となる。画像処理装置2は歌唱者11aの姿勢情報の獲得を常に実行し、歌唱者11aの動作が定義されているジェスチャーと合致するものであれば、楽音処理装置9および映像表示装置10へ制御イベントを送信する。楽音処理装置9および映像表示装置10は、動作が未定義の制御イベントを受け取った場合、その制御イベントを受け取る直前の状態を維持する。
【0051】
歌唱者11aは歌いながら所定のジェスチャーをすることにより、効果付加の態様や自動演奏の態様および映像表示の態様を制御する。例えば、歌唱者11aが両腕を下ろした状態0から右腕を水平に上げた状態1に移行すると、画像処理装置2が歌唱者11aの動作からジェスチャーを検出し、リバーブオン制御イベントを送信する。楽音処理装置9中の効果付加手段9bはこの制御イベントに従い、歌唱者11aの音声および自動演奏音に対しリバーブを付加する。楽音処理装置9中の自動演奏手段9aおよび映像表示装置10は、この制御イベントに対する動作は行わず、それまでの状態を維持する。また、同じく歌唱者11aが両腕を下ろした状態0から両腕を垂直に上げた状態8に移行すると、繰り返し演奏開始制御イベントが送信され、自動演奏手段9aおよび映像表示装置10において、直前の自動演奏音および映像の繰り返し演奏もしくは再生が行われる。
【0052】
各HMDには歌唱者11aもしくは観客11bの各々の視点から見た、仮想的な人物や歌詞のようなCGアニメーション11cが表示され、制御イベントに応じてその態様は変化する。先ほどの例と同じく、リバーブオン制御イベントの場合CGアニメーション11cの態様は変化せず、繰り返し演奏開始制御イベントの場合はその直前に表示されていたCGアニメーション11cのパターンを繰り返し表示する。
【0053】
記憶装置9cに収められた楽曲情報のすべてを演奏し終わるか、歌唱者11aが両腕を上げた状態から両腕を下げ、自動演奏終了制御イベントが送信されたら全ての処理を終了する。
【0054】
以上が本発明に好適な実施形態である。
【0055】
上記実施形態によれば、歌唱者11aはジェスチャーを行うことにより自動演奏、楽音に対する効果および映像表示を制御することができる。ジェスチャーの検出はビデオカメラによって撮像された、歌唱者11aの画像を基に行われるため、従来の身体の動作を計測し楽音制御を行う制御装置に比べ機器を装着する煩わしさや機器の装着に伴う不快感を解消することができる。
【0056】
また、歌唱者11aは効果および自動演奏および映像表示の態様を制御する際、歌詞から目を離したり、操作パネルに移動する等の行為を必要としないため、歌いながらでも容易に自動演奏、効果および映像表示を制御することができる。
【0057】
また、歌唱者11aおよび観客はHMD10dを装着し、HMD10dには三次元的なCGを表示することが可能である。したがって、表現力豊かな、例えばあたかもコンサートホールで歌っているかのような映像を表示することもできる。
【0058】
なお、前記実施態様における画像処理装置2、楽音処理装置9、映像表示装置10は各々独立した装置として提供してもよいし、1または複数の処理装置上のソフトウェアとして提供してもよい。
【0059】
前記実施形態において、肘を延ばした両腕の姿勢によって表現されるジェスチャーのみを用いたが、肘を曲げた姿勢や下半身の姿勢等も加えたジェスチャーを用いてもよいし、撮像手段の解像度と処理能力が十分に高ければ、手指等の姿勢を含めてもよい。これにより、例えば、指で狐の顔を形作ると狐の鳴声を発生し、Vサインを形作ると「ピース」と発音するといった制御が可能となる。さらに、このようなジェスチャーのみならず、顔の眼や口の動きや形状あるいは喜怒哀楽などの表情に応じて音信号を制御するようにしてもよい。
【0060】
前記実施形態において、ジェスチャーを構成する姿勢を固定としたが、姿勢設定手段をさらに設け、ユーザが任意に設定を行なってもよい。
【0061】
また、ジェスチャー判定処理2fにおいて姿勢、ジェスチャー、イベントは固定としたが、テーブル編集手段をさらに設け、ユーザがその組み合わせを任意に変更できるようにしてもよいし、曲毎やジャンル毎にあらかじめ設定しておき、歌唱者の選曲に応じて自動的に対応するテーブルが選択されるようにしてもよい。
【0062】
前記実施態様において、三次元モデルマッチングを行う際、歌唱者11aの三次元位置を計測したが、歌唱者11aの立ち位置が固定であるような、あらかじめ撮像手段1bから歌唱者11aまでの距離が既知である場合は二次元位置の計測のみでよい。
【0063】
また、三次元モデルの姿勢を線形に予測したが、非線型な関数を用いたり、統計学的な手法を用いて、三次元モデルの姿勢を予測してもよい。
【0064】
前記実施形態の撮像装置1bにおいて、ビデオカメラは1台のみ設置されているが、2台以上設置し、多視点画像を用いて映像処理装置におけるジェスチャーの検出処理を行ってもよい。多視点の画像を用いる場合、三次元的な動作が検出可能となるという利点がある。
【0065】
また、多視点画像を用いることにより、画像のみから歌唱者11aの三次元的な位置が獲得可能であるので、十分高速に処理を行うことができれば、前記実施形態で用いた三次元位置計測装置1cは設置しなくともよい。
【0066】
前記実施形態の画像処理装置2において、撮影した画像とあらかじめ記憶しておいた背景画像との差分をとることによって人物領域の検出を行ったが、画素値情報に基づいた人物領域の抽出やオプティカルフローによる人物領域と動作の同時抽出を行ってもよい。
【0067】
また、同処理装置におけるジェスチャー判定処理は、あらかじめ記憶された人物の姿勢のシルエット画像と撮影された人物のシルエット画像とを、ニューラルネットワークを用いた認識回路や固有空間を用いた類似度を判定する回路等を用いた処理としてもよい。
【0068】
また、これら人物もしくはジェスチャーの検出方法を用いる場合は、歌唱者11aの三次元位置は必ずしも必要ではないため、前記実施形態で用いた三次元位置計測装置1cは設置しなくともよい。
【0069】
また、同処理装置において、ノイズを除去する手法として圧縮・伸張処理を用いているが、同様な効果が得られる手法であればなんでもよい。
【0070】
前記実施形態の楽音処理装置9において、さらに、記憶装置9cに主旋律情報を記憶しておき、入力音声と主旋律とのピッチ差を検出する手段9dと、このピッチ差および楽音情報の少なくとも一方に基づき、映像表示手段に制御イベントを出力する制御イベント発生手段9eを設けてもよい。楽音処理装置9に制御イベント発生手段を設けることで、楽音による映像の制御や、楽音と映像の同期が可能となる。この場合、映像表示装置10において作成するCGは、伴奏音にあわせて踊る仮想的なダンサーや、歌詞であってもよい。
【0071】
前記実施態様の映像表示装置10において、歌唱者11aもしくは観客11bが装着するHMDに三次元的な映像を表示したが、従来の二次元的なモニターディスプレイにCGを表示してもよい。この場合、三次元的な映像を表示するならば、モニターディスプレイに左右両眼視差を考慮した映像を交互に表示し、その映像を切り替える周期と同期して、左右のグラスを交互に遮光するようにした液晶シャッター眼鏡を歌唱者11aもしくは観客11bが装着すればよい。
【0072】
前記実施態様においては本発明をカラオケ装置に適用したがその他の装置に適用可能である。例えば、電子楽器に適用する場合には、演奏者を撮像してそのジェスチャーを検出し、このジェスチャーに基づいて電子楽器を演奏操作することによって発生される楽音の音高、音色、音量等の特性を制御するようにした楽音制御装置に適用してもよい。
【0073】
【発明の効果】
以上詳述した本発明の制御装置によれば、撮像される人物である演奏者の身体各部の所定の部位の状態に応じて音信号が制御される。演奏者は撮像手段の前で、身体全体あるいは腕や脚、手指、身体各部の動作や姿勢、もしくは、顔の眼や口の動き、あるいは表情変化などを行うことにより、非接触で音信号を制御することが可能となるため、機器を装着する煩わしさや機器の装着に伴う不快感を解消することができる。
【0074】
また、本発明のカラオケ装置によれば、歌唱者の所定の部位の状態に応じて、自動演奏、効果および映像表示のうち、自動演奏あるいは効果を含む少なくとも1つが制御される。歌唱者は撮像手段の前で、身体全体あるいは腕や脚、手指、身体各部の動作や姿勢、もしくは、顔の眼や口の動き、あるいは表情変化などを行うことにより、歌詞から目を離す等といったことを行わずに容易に自動演奏等の態様を制御することが可能となる。
【図面の簡単な説明】
【図1】実施例の全体構成を表すブロック図である。
【図2】画像処理装置2の処理を表すブロック図である。
【図3】画像から人物を抽出する処理を表す図である。
【図4】圧縮・伸張処理を表す図である。
【図5】三次元モデルの概略図である。
【図6】三次元モデルの各部分に対する探索経路である。
【図7】ジェスチャーを構成する姿勢を表す図である。
【図8】代表的なジェスチャーを表す図である。
【図9】楽音処理装置9の処理を表すブロック図である。
【図10】映像表示装置10の処理を表すブロック図である。
【図11】装置および人物の配置例を表す図である。
【符号の説明】
1a・・・音声入力装置(マイク=音声入力手段)
1b・・・撮像装置(ビデオカメラ=撮像手段)
1c・・・三次元位置計測装置(位置測定手段)
1d・・・楽音出力装置
2・・・・画像処理装置(画像処理手段および制御手段)
9・・・・楽音処理装置(音発生手段)
9a・・・自動演奏装置(自動演奏手段)
9b・・・効果付加装置(効果付加手段)
9c・・・楽曲情報記憶装置(楽曲情報記憶手段)
10・・・映像表示装置(映像表示手段)
10b・・映像情報記憶装置(映像情報記憶手段)
10d・・HMD
11c・・CG

Claims (7)

  1. 人物の映像を撮像する撮像手段と、
    前記撮像手段からの撮像情報に基づき前記人物の所定の部位の状態を検出する画像処理手段と、
    音信号を発生する音発生手段と、
    前記画像処理手段によって検出された前記人物の所定の部位の状態に基づいて前記人物の姿勢を判定する姿勢判定手段と、
    時間的に相前後する前記姿勢の組み合わせに基づいてジェスチャーを判定し、該判定したジェスチャーに対応した制御イベントを発生するイベント発生手段と、
    前記制御イベントに応じて前記音信号を制御する制御手段と
    を備えることを特徴とする制御装置。
  2. 前記音発生手段は、
    楽曲情報を記憶する楽曲情報記憶手段と、
    前記楽曲情報記憶手段から前記楽曲情報を読み出し、この読み出された楽曲情報に基づいて自動演奏を行う自動演奏手段とからなり、
    前記イベント発生手段は、
    前記自動演奏手段による前記自動演奏を制御する制御イベントを発生するものである
    ことを特徴とする請求項1に記載の制御装置。
  3. 前記イベント発生手段は、
    前記検出した状態に基づき前記音発生手段から発生される前記音信号の特性を制御する制御イベントを発生するものである
    ことを特徴とする請求項1に記載の制御装置。
  4. 請求項1乃至3に記載の制御装置において、さらに、
    映像を表示する映像表示手段を設け、
    前記制御手段は前記制御イベントに応じて前記音信号および前記映像表示手段で表示される映像を制御するものである
    ことを特徴とする請求項1乃至3に記載の制御装置。
  5. 請求項1乃至4に記載の制御装置において、
    前記人物の位置を測定する三次元位置測定手段を備え、
    前記画像処理手段は前記撮像手段からの撮像情報と前記三次元位置測定手段からの前記人物の位置情報を用いて前記人物の所定の部位の状態を検出するものである
    ことを特徴とする請求項1乃至4に記載の制御装置。
  6. 歌唱者の映像を撮像する撮像手段と、
    前記撮像手段からの撮像情報に基づき前記歌唱者の所定の部位の状態を検出する画像処理手段と、
    歌唱者の音声を入力する音声入力手段と、
    楽曲情報を記憶する楽曲情報記憶手段と、
    前記楽曲情報記憶手段から前記楽曲情報を読み出し、この読み出された楽曲情報に基づいて自動演奏を行う自動演奏手段と、
    前記音声入力手段から入力された音声および前記自動演奏手段による自動演奏音の少なくとも一方に対して効果を付加する効果付加手段と、
    映像情報を記憶する映像情報記憶手段と、
    前記映像情報記憶手段から前記映像情報を読み出し、この読み出された映像情報に基づいて映像の表示を行う映像表示手段と、
    前記画像処理手段によって検出された前記歌唱者の所定の部位の状態に基づいて前記人物の姿勢を判定する姿勢判定手段と、
    時間的に相前後する前記姿勢の組み合わせに基づいてジェスチャーを判定し、該判定したジェスチャーに対応した制御イベントを発生するイベント発生手段と、
    前記制御イベントに応じて、前記自動演奏、前記効果および前映像表示のうち、前記自動演奏あるいは前記効果を含む少なくとも1つを制御する制御手段と
    を備えることを特徴とするカラオケ装置。
  7. 請求項6に記載のカラオケ装置において、
    歌唱者の位置を測定する三次元位置測定手段を備え、
    前記画像処理手段は前記撮像手段からの撮像情報と前記三次元位置測定手段からの歌唱者の位置情報を用いて歌唱者の所定の部位の状態を検出する
    ことを特徴とする請求項6に記載のカラオケ装置。
JP36175697A 1997-12-09 1997-12-09 制御装置およびカラオケ装置 Expired - Fee Related JP3817878B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP36175697A JP3817878B2 (ja) 1997-12-09 1997-12-09 制御装置およびカラオケ装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP36175697A JP3817878B2 (ja) 1997-12-09 1997-12-09 制御装置およびカラオケ装置

Publications (2)

Publication Number Publication Date
JPH11175061A JPH11175061A (ja) 1999-07-02
JP3817878B2 true JP3817878B2 (ja) 2006-09-06

Family

ID=18474764

Family Applications (1)

Application Number Title Priority Date Filing Date
JP36175697A Expired - Fee Related JP3817878B2 (ja) 1997-12-09 1997-12-09 制御装置およびカラオケ装置

Country Status (1)

Country Link
JP (1) JP3817878B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000024237A (ko) * 2000-01-31 2000-05-06 김완호 댄스 평가 및 지도 기능을 갖는 노래 반주 시스템 및 방법
JP3558052B2 (ja) * 2000-06-02 2004-08-25 ヤマハ株式会社 マルチメディア実行システム、マルチメディアファイルの実行方法およびシーケンサにより読み出し可能なマルチメディアファイル構造体
EP1760689B1 (en) * 2004-06-09 2016-03-09 Toyota Motor Kyushu Inc. Musical sound producing apparatus and musical sound producing method
IL165817A0 (en) 2004-12-16 2006-01-15 Samsung Electronics U K Ltd Electronic music on hand portable and communication enabled devices
JP4496993B2 (ja) * 2005-03-08 2010-07-07 ヤマハ株式会社 楽音制御装置
TWI412392B (zh) * 2005-08-12 2013-10-21 Koninkl Philips Electronics Nv 互動式娛樂系統及其操作方法
JP4882443B2 (ja) * 2006-03-27 2012-02-22 ヤマハ株式会社 演奏装置
JP4137168B2 (ja) * 2007-10-10 2008-08-20 株式会社バンダイナムコゲームス ゲーム装置及び情報記憶媒体
JP6110731B2 (ja) * 2013-05-31 2017-04-05 株式会社第一興商 ジェスチャーによるコマンド入力識別システム
JP2016080908A (ja) * 2014-10-17 2016-05-16 ヤマハ株式会社 信号加工装置
JP7243026B2 (ja) 2018-03-23 2023-03-22 ヤマハ株式会社 演奏解析方法、演奏解析装置およびプログラム

Also Published As

Publication number Publication date
JPH11175061A (ja) 1999-07-02

Similar Documents

Publication Publication Date Title
JP4473754B2 (ja) 仮想試着装置
US6554706B2 (en) Methods and apparatus of displaying and evaluating motion data in a motion game apparatus
JP4310916B2 (ja) 映像表示装置
US7084874B2 (en) Virtual reality presentation
KR102210541B1 (ko) 실제 장면의 재현에 가상 이미지 및 오디오 데이터를 오버레이하는 방법 및 장치, 그리고 모바일 디바이스
JP3817878B2 (ja) 制御装置およびカラオケ装置
JP3452783B2 (ja) 振り付け採点機能を有するカラオケ装置
US8113953B2 (en) Image-linked sound output method and device
SG173496A1 (en) Method and system for rendering an entertainment animation
KR20010081193A (ko) 모션 캡쳐 기능을 활용한 3차원 가상 현실 기법의 댄스게임 장치
WO2022111168A1 (zh) 视频的分类方法和装置
WO2017029915A1 (ja) プログラム、表示装置、表示方法、放送システム及び放送方法
JP6431259B2 (ja) カラオケ装置、ダンス採点方法、およびプログラム
CN103218772A (zh) 控制点设定方法以及控制点设定装置
KR20020028578A (ko) 모션 게임 장치의 모션 데이터 디스플레이 방법 및 평가방법
JP2002041038A (ja) 仮想楽器演奏装置
KR20020011851A (ko) 인공시각과 패턴인식을 이용한 체감형 게임 장치 및 방법.
JP3588883B2 (ja) カラオケ装置
JP5928279B2 (ja) 運動支援装置及びプログラム
KR101050107B1 (ko) 영상 제어 장치
JP2008167867A (ja) ダンスロボット、ダンスロボットの制御方法及び制御プログラム
Segen et al. Visual interface for conducting virtual orchestra
JP6398938B2 (ja) 投影制御装置、及びプログラム
KR20120092960A (ko) 가상 캐릭터 제어 시스템 및 방법
JP4278288B2 (ja) 踊り映像強調合成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040402

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060117

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060306

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060523

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060605

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313532

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100623

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100623

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110623

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120623

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120623

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130623

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140623

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees