JP2009288446A

JP2009288446A - カラオケ映像編集装置及び方法及びプログラム

Info

Publication number: JP2009288446A
Application number: JP2008139798A
Authority: JP
Inventors: Uwe Kowalik; ウーウェコヴァリク; Kota Hidaka; 浩太日高; Yukinobu Taniguchi; 行信谷口; Takeshi Irie; 豪入江; Takashi Sato; 隆佐藤
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2008-05-28
Filing date: 2008-05-28
Publication date: 2009-12-10

Abstract

【課題】カラオケの歌唱者と聞き手を識別し、それぞれを相応しく編集するために、歌唱力と聞き手の態度を推定し、その推定結果に基づき、効果的に元のカラオケ映像を編集する。
【解決手段】本発明は、取得したカラオケの映像データを取得して、映像記憶手段に格納し、映像記憶手段から映像データを取得して、該映像データの人物を抽出し、歌唱者と聞き手を特定し、分離された聞き手の前記顔画像の表情及び音声に基づいて聞き手の感情状態を推定すると共に、歌唱者の歌唱のクオリティを推定し、該感情状態及び該歌唱のクオリティを評価結果記憶手段に格納し、評価結果記憶手段に格納されている推定結果に基づいて、前記映像記憶手段から取得した映像データを編集する。
【選択図】図１

Description

本発明は、カラオケ映像編集装置及び方法及びプログラムに係り、特に、カラオケ映像を自動編集するためのカラオケ映像編集装置及び方法及びプログラムに関する。

カラオケは、元々は日本で開発された人気のある視聴覚の娯楽システムで、カラオケのサウンド・システムに接続したマイクロフォンを使用して、ユーザが自分の好みの曲のメロディに合わせて歌うことを可能にするものである。カラオケ娯楽は、歌う喜びを共有し、互いに楽しい時間を過ごすことによって、顧客に感性的な雰囲気を提供するものである。このカラオケ映像を作成するニーズは高いが、何らかの編集工程を経ずに、魅力的な映像とすることは難しい。

編集のためには、何らかのシーン選択や、編集手段が必要となり、下記のいくつかの従来発明が既に提案されている。

まず、音声から強調された音声区間を抽出し、映像を短時間に視聴可能にする手法、要約映像を自動作成する手法がある（例えば、特許文献１参照）。

また、音声の感情状態に対応して要約映像を生成する手法がある（例えば、特許文献２参照）。

さらに、動物体が大きく写っている映像区間を作成することができ、ダイジェスト的な映像区間閲覧のためのインデックスを利用者に提供する手法がある（例えば、特許文献３参照）。
特許３８０３３１１号公報特開２００５−３４５４９６号公報特開２００６−２４４０７４号公報

しかしながら、従来提案されている手法は、要約映像を作成する手法や、特定シーンを抽出する手法としては有効に機能するが、有効な編集手段を示しているものではないため、カラオケ映像を自動編集することは困難である。

本発明は、上記の点に鑑みなされたもので、カラオケの歌唱者と聞き手を識別し、それぞれを相応しく編集するために、歌唱力と聞き手の態度を推定し、その推定結果に基づき、効果的に元のカラオケ映像を編集することが可能なカラオケ映像編集装置及び方法及びプログラムを提供することを目的とする。

図１は、本発明の原理構成図である。

本発明（請求項１）は、カラオケ映像を編集するカラオケ映像編集装置であって、
取得したカラオケの映像データを格納する映像記憶手段２００と、
映像記憶手段２００から映像データを取得して、該映像データの人物を抽出し、歌唱者と聞き手を特定する分離手段３００と、
分離手段３００により特定された聞き手の顔画像の表情及び音声に基づいて聞き手の感情状態を推定すると共に、歌唱者の歌唱のクオリティを推定し、該感情状態及び該歌唱のクオリティを評価結果記憶手段４５０に格納する評価手段４００と、
評価結果記憶手段４５０に格納されている推定結果に基づいて、映像記憶手段２００から取得した映像データを編集する編集手段５００と、を有する。

また、本発明（請求項２）は、編集手段５００において、
ネットワークを介して接続される、または、ローカルに、または、離れた場所に存在する記憶手段から編集済みの映像、または、映像データに表示するためのオブジェクトを取得して、該オブジェクトと評価手段の推定結果に基づいて、映像記憶手段２００の映像データを編集する手段を含む。

また、本発明（請求項３）は、分離手段３００において、
歌唱者が手に持つマイクに付与されたＩＤタグを検出するタグ検出手段、
映像データから顔または表情を検出する顔検出手段、
映像データの予め定められた位置に人がいるか否かを判定する位置判定手段、のいずれか１つの手段を用いて、歌唱者と聞き手の位置を決定する手段を含む。

また、本発明（請求項４）は、評価手段４００において、
分離手段２００により取得した聞き手の顔画像から、「微笑んだ」、「笑った」、「哀しい」、「驚いた」、「幸せそうな」、「ぼんやりとした」の少なくとも１つ以上の表情を、感性表現カテゴリに分類することにより、該聞き手の感情状態を決定する手段を含む。

また、本発明（請求項５）は、評価手段４００において、
歌唱者の歌声のパターンとカラオケのメロディのパターンとの整合性に基づいて、該歌唱者の歌唱クオリティを求める手段を含む。

また、本発明（請求項６）は、編集手段５００において、
評価手段４００により取得した聞き手の感情状態と歌唱者のクオリティに基づいて、映像データの編集に用いる画像、テキスト、音声が格納されているデータベースから少なくとも１つを合成パターンとして選択する手段を含む。

また、本発明（請求項７）は、編集手段５００において、
ネットワークを介して接続される、または、ローカルに、または、離れた場所に存在する分散カラオケ装置に配信された歌唱者に対する聞き手の映像を取得して、編集対象の映像フレーム内に合成して表示させる手段を含む。

図２は、本発明の原理を説明するための図である。

本発明（請求項８）は、カラオケ映像を編集するカラオケ映像編集方法であって、
取得したカラオケの映像データを取得して、映像記憶手段に格納する映像取得ステップ（ステップ１）と、
分離手段が、映像記憶手段から映像データを取得して、該映像データの人物を抽出し、歌唱者と聞き手を特定する分離ステップ（ステップ２）と、
評価手段が、分離ステップ（ステップ２）で分離された聞き手の顔画像の表情及び音声に基づいて聞き手の感情状態を推定すると共に、歌唱者の歌唱のクオリティを推定し、該感情状態及び該歌唱のクオリティを評価結果記憶手段に格納する評価ステップ（ステップ３）と、
編集手段が、評価結果記憶手段に格納されている推定結果に基づいて、映像記憶手段から取得した映像データを編集する編集ステップ（ステップ４）と、を行う。

また、本発明（請求項９）は、編集ステップ（ステップ４）において、
ネットワークを介して接続される、または、ローカルに、または、離れた場所に存在する記憶手段から編集済みの映像、または、映像データに表示するためのオブジェクトを取得して、該オブジェクトと評価手段の推定結果に基づいて、映像記憶手段の映像データを編集する。

また、本発明（請求項１０）は、分離ステップ（ステップ２）において、
歌唱者が手に持つマイクに付与されたＩＤタグを検出するタグ検出ステップ、
映像データから顔または表情を検出する顔検出ステップ、
映像データの予め定められた位置に人がいるか否かを判定する位置判定ステップ、のいずれか１つの処理を行うことにより、歌唱者と聞き手の位置を決定する。

また、本発明（請求項１１）は、評価ステップ（ステップ３）において、
分離ステップで特定された聞き手の顔画像から、「微笑んだ」、「笑った」、「哀しい」、「驚いた」、「幸せそうな」、「ぼんやりとした」の少なくとも１つ以上の表情を、感性表現カテゴリに分類することにより、該聞き手の感情状態を決定する。

また、本発明（請求項１２）は、評価ステップ（ステップ３）において
歌唱者の歌声のパターンとカラオケのメロディのパターンとの整合性に基づいて、該歌唱者の歌唱クオリティを求める。

また、本発明（請求項１３）は、編集ステップ（ステップ４）において、
評価ステップを行うことにより取得した聞き手の感情状態と歌唱者のクオリティに基づいて、映像データの編集に用いる画像、テキスト、音声が格納されているデータベースから少なくとも１つを合成パターンとして選択する。

また、本発明（請求項１４）は、編集ステップ（ステップ４）において、
ネットワークを介して接続される、または、ローカルに、または、離れた場所に存在する分散カラオケ装置に配信された歌唱者に対する聞き手の映像を取得して、編集対象の映像フレーム内に合成して表示させる。

本発明（請求項１５）は、請求項１乃至７のいずれか１項に記載のカラオケ映像編集装置を構成する各手段としてコンピュータを機能させるためのカラオケ映像編集プログラムである。

上記のように本発明によれば、カラオケ映像の画像処理により歌唱者と聞き手に分離し、歌唱力と聞き手の表情から映像データに種々の感性的なオブジェクトを重畳させて表示することにより、ユーザがそのディスプレイを見て楽しむことができる。

また、カラオケのシステムをネットワークで接続された環境時において共有することにより、その場にいない聞き手の感性状態も取得し、当該感性状態に応じてオブジェクトを選択し、重畳表示させることができる。

以下、図面と共に本発明の実施の形態を説明する。

図３は、本発明の動作イメージを示す。

本発明は、カメラとマイクロフォンによりカラオケ演奏の元となる映像を記録媒体に記録し、当該映像データから歌唱者と聞き手の画像領域を検出し、元の映像データに、歌唱者や聞き手の行動・状況に応じて選択された、例えば、テキスト、２Ｄ，３Ｄグラフィックなどのメディア素材と、検出領域及び／またはその回りの画像をオーバレイする。オーバレイする素材の選択は、聞き手及び／または、歌唱者の及び歌唱クオリティなどの感性状態によって決まる。例えば、歌唱クオリティがよい場合、システムは、進行中の画像フレーム内の演奏者のポジションの近くに、「恒星雲」画像または、「素晴らしい」といった何か喝采となるテキストを挿入する。

他の例では、本システムは、元の歌声に拍手の「称賛」サウンドをミックスして出力する。また、別の例では、演奏者が音楽に調子外れとなり、クオリティが落ちた場合、進行中の画像フレームに仮想の「雷雨」の表示をオーバレイとして選択することができる。

聞き手が「うれしそうな顔」を見せた場合に反応するために、本発明では、進行中の画像フレームにある聞き手の顔の位置近くに、アニメの「ハートマーク」画像等を挿入可能である。演奏が長いために、聞き手が曖昧な表情を見せた場合、本発明では、「雨雲」または、「Ｚｚｚｚｚ…（眠っているところを表現）」などのテキストを見合うような顔面の近くに挿入することができる。

図４は、本発明の第１の実施の形態における装置構成を示す。

同図に示す装置は、映像記憶部２００、歌唱者／聞き手分離部（以下、単に「分離部」と記す）３００、感性状態評価部４００、映像編集部５００から構成される。

映像記憶部２００は、ハードディスク等の記録媒体であり、カラオケ演奏の画像と音声が格納され、分離部３００によって読み出される。

分離部３００は、映像から歌唱者と聞き手を分離する。

図５は、本発明の第１の実施の形態における分離部の詳細な構成を示す。同図に示す分離部３００は、スイッチ３１０、ＩＤタグ・マーカ検出部３２０、顔検出部３３０、近接推定部３４０、画像領域ラベラ３５０から構成される。

スイッチ３１０は、視覚ベースとセンサベースのマーカ検出を切り替えるために使用される。

ＩＤタグ・マーカ検出部３２０は、マイクに付帯したＩＤタグまたは、マーカを画像処理、または、センサを利用して画像フレーム中のマイクの位置を推定する。

典型的なカラオケ環境の照明状態は暗い場合が多く、最適条件ではないため、歌唱者と聞き手検出のためには、様々な困難がある。この問題を解決するための方法として、人の位置決定と、演奏者と聞き手を分離するために、マイクに対して１個のＩＤタグを利用する。例えば、ＩＤタグは、上記のような照明環境において検出が容易なものを用い、例えば、カラー照明及び／または明るい幾何学模様、または、カラーパターンで構成することが可能である。ＩＤタグ・マーカ検出部３２０は、当該ＩＤタグを読み取れる機能、または、マイクにマーカを付与しておき、当該マーカを検出する機能を有するものとする。

顔検出部３３０は、映像記憶部２００から読み込んだ画像フレームから、特開平９−０５０５２８等の方法により顔の表情検出を行う。

近接推定部３４０は、顔検出部３３０から取得した顔画像とＩＤタグ・マーカ検出部３２０から取得したマイクの位置を取得して、顔画像とマーカ位置の間の距離を測定し、マーカの位置に最も近い顔画像の者を歌唱候補者と特定する。それ以外の顔画像は聞き手として特定する。

また、別の歌唱者と聞き手の分類方法として、歌唱候補者とマーカとの位置との間隔が所定の最大間隔より狭い場合に、当該顔画像の人物を歌唱者と分類する。なお、歌唱者の顔が検出されない場合は、リカバリ処理が実行される。リカバリ処理は、歌唱者の声がシステムで認識できる場合には、マーカ位置を基準として設定された固定領域を歌唱者とする。マーカ位置を軸として固定領域を順次変更する処理を繰り返すことで、歌唱者がいる領域を推定する。当該繰り返し処理は、歌唱者の音声に基づいて歌唱者を同定する場合も同様である。マイクロフォンが使われているか否かは容易に判定できるため、仮に利用されていない場合には、当該繰り返し処理は行わない。近接推定部３４０は、画像フレーム中の歌唱者と聞き手の位置を特定する領域マスク及び当該領域の情報を出力する。

画像領域ラベラは、歌唱者及び聞き手のそれぞれの画像領域の位置を特定する領域マスクを生成して一時的にメモリ（図示せず）に格納する。

感性状態評価部４００は、聞き手の感性状態を推定する機能と、歌唱者の歌唱音声のパターンを推定する機能を有する。

カラオケの雰囲気を推定できるいくつかのパラメータがある。例えば、ゆっくりした静かな音楽は、人が黙って耳を傾けさせる。テンポの速いロック・ソングを聴くときには、雰囲気は生き生きとすると考えられる。従って、進行中の音楽のテンポとメロディを分析すれば、進行中の選曲された音楽に左右される全体的なムードについての情報を得ることが可能である。

歌唱者が非常にポピュラーな楽曲を歌っているとき、聞き手はリズムに合わせてダンスや体を動かしたくなる。そのため、例えば、動作推定に基づく画像は、カラオケユーザの異なった感性を見極めるために使用できる。

上記のことから、感性状態評価部４００は、分離部３００から取得した聞き手の領域情報に基づいて聞き手を特定し、当該聞き手の顔の表情や音声を例えば、特願２００４−１６１４７１に記載されている音声の感情状態を推定する手法から、聞き手の感性状態を推定する。さらに、感性状態評価部４００は、歌唱者の歌唱クオリティを推定する。

図６は、本発明の第１の実施の形態における感性状態評価部の構成を示す。

同図に示す感性状態評価部４００は、顔表情検出部４１０、顔画像領域ラベラ４２０、音声パターン分析部４３０から構成される。

顔表情検出部４１０は、分離部３００から入力される聞き手の顔領域と、映像記憶部２００から取得した現フレームから顔表情を検出する。具体的には以下の通りである。

図７は、表情検出方法のフローチャートである。

ステップ１０１）顔表情検出部４１０において、入力された現フレームから分離部３００で取得した顔領域で特定された人物の顔画像領域を抽出する。

ステップ１０２）顔画像領域から鼻の先端、口角の左右の位置を特徴点として抽出する。

ステップ１０３）鼻の先端を基準としたときの口角の左右の位置との角度を計測して特徴とする。

ステップ１０４）笑い状態を検出する。角度の時間変化を求め、時間変化から平衡状態からの立上り状態、最大角度状態、平衡状態への立下り時状態の３状態に分割し、笑い状態の開始から終了までの連続的な変化を捉える。

上記のステップ１０１の顔画像領域抽出処理については、Adaboost学習による、Haar特徴を用いた識別器を用いる。ここで、多数の弱識別器をカスケード型とし、当該カスケード型識別器を識別対象の大きさ、位置を変化させて適用し、顔画像領域を特定する。これについては、例えば、文献「Paul Viola, Michael J. Jones. Robust Real-Time Face Detection. International Journal of Computer Vision. Vol. 57, No2 pp.137-154 (2004)」などに記載されている。

上記のステップ１０２の特徴点検出処理では、その事前処理として、図８の黒抜き丸で示す２５点の特徴点を抽出している。特徴点は、輪郭、目玉、眉毛、鼻、口に関連して割り振っている。この特徴点の抽出方法としては、例えば、文献「Lades M., Vorbruggen J., Buhmann J., Lange J., Konen W., von der Malsburg C., Wurtz R. Distortion Invariant Object Recognition in the Dynamic Link Architecture. IEEE Trans. Computers, Vol. 42, No. 3 pp.300-311(1993)」、「Wiskott L., Fellous J.-M., Kruger N., von der Malsburg C. Face Recognition by Elastic Bunch Graph Matching. IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 19. Issue 7, pp. 775-779 (1997)」等の公知の方法を用いるものとする。これらの公知技術を参照することにより、例えば、人物が顔を動かすなどの行為を行ったとしても安定して、図８に示す２５点の特徴を抽出可能である。この２５点の特徴のうち、図９に示す二重丸の３点（ｈ，ｉ，ｊ）のみを抽出し、残りの点は必要としない。これらは、鼻の先端、口角の左右の位置に相当する点である。また、２５点の特徴を抽出することなく、必要な３点のみを直接抽出してもよい。このような方法により、不要な点の抽出処理を省くことができる。

上記のステップ１０３では、鼻の先端を基準としたときの口角の左右位置との角度を計測して特徴とする。

上記のステップ１０４では、上記の角度の特徴量をαとしたとき、その時間履歴を図１０のように計測する。さらに、αの時間履歴から、同図に示すように、平衡状態からの立ち上がり状態、最大角度状態、平衡状態への立ち下がり状態の３状態に分割する。実際には、人間が平衡状態にあるときに必ずしも口の形状が閉まっている状態ではないことが想定される。また、通常会話しているときも口の形状は開閉状態となる。このような場合においても、笑っているか否かを判断するためには、例えば、特徴量αの時間変化を観測すればよい。具体的には、図１１に示すように、特徴量の時間微分ｄα／ｄｔと、２つの閾値を用いる。２つの閾値については、高閾値「thupper」と低閾値「thlower」と呼ぶこととする。この閾値は静的に設定されるものでもよく、後述する方法により動的に設定されるものであってもよい。

以下に、３状態に分割する方法について詳述する。

平衡状態からの立ち上がり状態については、その開始時刻を時間微分ｄα／ｄｔが高閾値thupperを超えた時刻の時間微分ｄα／ｄｔから時間的に前方向を観測し、最短時間でｄα／ｄｔ＝０となる時刻ｔ０とする。一方、終了時刻は、時間微分ｄα／ｄｔが高閾値thupper越えた時刻の時間微分ｄα／ｄｔから時間的に後ろ方向を観測し、最短時間でｄα／ｄｔ＝０となる時刻ｔ１とする。この時刻ｔ１は最大角度状態の開始時刻にも相当する。

平衡状態への立下り状態については、最大角度状態以降で、低閾値thlowerを下回った時刻の時間微分ｄα／ｄｔから時間的に前方向を観測し、最短時間でｄα／ｄｔ＝０となる時刻ｔ２を開始時刻とする。この時刻ｔ２は、最大角度状態の終了時刻にも相当する。一方、開始時刻は、時間微分ｄα／ｄｔが低閾値thlowerを下回った時刻の時間微分ｄα／ｄｔから時間的に後ろ方向を観測し、最短時間でｄα／ｄｔ＝０となる時刻ｔ３とする。

前述のように、立上がり状態の開始時刻から平衡状態への立下り終了時刻までが一連の笑い状態として判別される。

次に、前述の高閾値thupperと低閾値thlowerを動的に設定する方法について述べる。

例えば、高閾値と低閾値の標準偏差と平均値をそれぞれσupperとμupper、σlowerとμlowerとした場合、
thupper＝ａ・σupper＋ｂ・μupper 式（１）
thlower＝ｃ・σlower＋ｄ・μlower 式（２）
としてもよい。ここで、ａ，ｂ，ｃ，ｄは、係数で任意の値とし、例えば、予め、試験用動画像を用意し、統計的な学習工程を経て設定するものであってもよい。具体的には、人手により本手法による笑い状態の上記の３状態の開始時刻と終了時刻の正解集合を設定し、これと本発明によって抽出された上記の３状態の開始時刻と終了時刻との時間差を最小限とするようにａ，ｂ，ｃ，ｄを設定してもよい。

人間は、発話を一切していない状態においても口の形状が微小に変化していることが想定される。例えば、唇を噛みしめたり、つばを飲み込む動作を考えるだけでもこれらは容易に想像できる。これらの微小な変化が、角度αに影響する。また、笑いを含む発声行為についても、人間は規則的に口を開閉するもではなく、ある程度の不規則さを伴って開閉することが想定される。いわゆるこのようなノイズの影響を軽減させるために、例えば、検出した角度にメディアンフィルタを適用する対策を施してもよい。

また、本発明による時間微分ｄα／ｄｔでは、笑い状態と、一般の発声と区別が付かない場合も想定される。例えば、illegalと発声した場合、"ille"の部分でｄα／ｄtが増加し、"gal"の部分でｄα／ｄｔが減少するため、笑い状態と似ている挙動となる可能性がある。そのような場合には、例えば、最大角度状態の時間に着目し、t2−t1＞ttimeなどの時間的な閾値ttimeを設定することで問題を回避可能となる。

これまで、基本的な例を述べてきたが、例えば、角度αのみに着目している場合、例えば、引きつった笑いや、いやみを発言するときなどに頻出する。鼻の稜線を基準線としたときの左右非対称の状態においても笑い状態と判別する可能性がある。このような問題に対しては、図１２に示すように、口角の左右の位置ｉ，ｊを結ぶ線分の中心と、鼻の先端ｈとを結ぶ線分を基準線とし、基準線に対する左右の口角位置との角度をそれぞれ、α１、α２としてこれらの値の差を考慮することで対象であるか否かを判定すればよい。

例えば、それぞれの時間微分ｄα１／ｄｔ、ｄα２／ｄｔの時間履歴を測定し、これらの相関係数を求め、例えば、０．５以上であるときに対象としてもよい。また、それぞれの時間微分がｄα１／ｄｔ＞０、ｄα２／ｄｔ＞０となる時刻をｔｓ１、ｔｓ２としたときの│ｔｓ１−ｔｓ２│に閾値を設定するなどしてもよい。

上記の処理により検出された顔の特徴点検出によって、顔の表情を推定する。現在の顔の表情を推定するためには、特徴点の下部及び近くのテキストは勿論のこと、検出された特徴点間の幾何学的関係が、それ以上に、共通のパターン分類によって評価される。

当該顔表情検出部４１０は、各聞き手及び／または歌唱者の現在の感性状態に関しての、１セットの所定の顔の表情の種類をラベルとして出力する。例えば、顔の表情種類は、例えば、「微笑んだ」、「笑った」、「幸せそうな顔」、「悲しい顔」、「驚いた顔」、「退屈そうな顔」に係わるものであるが、これ以外のものであってもよい。

音声パターン分析部４３０は、一人以上の歌唱者によるカラオケのクオリティを、歌声とカラオケ音楽との整合性を計算して推定する。

歌声と所定の楽曲との類似性を計算する共通の方法は、例えば、"Jang. J.-s. et.al."A Query-by Singing System based on Dynamic Programming", International Workshop on Intelligent Systems Resolutions (the 9^th Bellman continuum), pp. 85-89,Hsinchu, Taiwan, Dec 2000"や、"Jang, j.-s. Roger et.al. "Microcontroller implementation of melody recognition: a prototype", Proceedings of the eleventh ACM international conference on Multimedia, November 2003 MULTIMEDIA '03"で記述されている。声の大きさを示す基本周波数の時間履歴、ピッチパターンは、例えば信号の波形をずらしながら、その差分の絶対値の総和を計算する方法ＡＭＤＦや、変形相関法などにより求めることができる。

このピッチパターンを歌唱音声並びに楽曲に適応し、その間隔を比較することで、歌唱クオリティを判定できる。すなわち、間隔が短ければ短いほど、クオリティは高くなる。

上記のようにして求められたラベル結果と、歌唱品質をメモリ（図示せず）に格納する。

次に、映像編集部５００について説明する。

図１３は、本発明の第１の実施の形態における映像編集部の構成を示す。

映像編集部５００は、検索部５１０と重畳部５３０から構成され、これらはメディアオブジェクトデータベース５２０と接続されている。

データベース５２０は、画像、２Ｄと３Ｄグラフィックス、テキストまたは、サウンドなどの媒体目標を含むローカルなデータベース、または、当該装置と離れた場所にあり、ネットワークで接続されているデータベースである。当該データベース５２０は、感性表現とクオリティに関するカテゴリが分類されて格納されている。当該データベース５２０は、グラフィック、サウンドまたはビデオ編集用の共通ツールにより、例えば、予め手動で作成される。

検索部５１０は、感性状態評価部４００のメモリ（図示せず）から読み出した、感性状態（ラベル結果）と歌唱クオリティ（品質評価）のパラメータに基づいてデータベース５２０を検索する。

図１４は、本発明の第１の実施の形態における感性状態と目的カテゴリのマッピングの例を示す。検索部５１０は、感性状態評価部４００から取得した感性状態及び歌唱クオリティに基づいて、データベース５２０に保存された感性カテゴリとクオリティカテゴリを検索する。検索の方法としては、簡単なマッピングは、例えば、感性状態評価部４００から感性状態として「幸せそうな顔」が入力されると、データベース２５０から「幸福カテゴリ」が検索される。また、精緻なマッピングの方法としては、時間／クオリティを考慮し、ランダム成分を付加して検索する方法がある。その一例として、現フレームの感性状態「幸せそうな顔」というラベル結果に加えて、当該感性状態を数値化したデータ（感性指数）を取得し、感性指数が統計的または動的閾値を上回る場合のみ、感性カテゴリとして「幸福」を検索する。

検索部５１０は、図１５に示すオブジェクトカテゴリから目標を検索するが、予想外の選択を避けるため、図１６に示すようなオブジェクト検索を実施するようにしてもよい。ここで、ランダム指数とは、笑っている顔から「笑っている顔」と対応付けられた画像がなくても、類似の画像を抽出するために存在するものである。具体的には「笑っている顔」というキーワードから連想される「ハッピー」「うれしい！」「うまい！」などの関連単語を予め対応付けておき、ランダム指数によって上記の関連単語を選択し、例えば、ランダム指数が示す関連単語が「ハッピー」の場合は、データベース２５０から「ハッピー」と関連するメディアオブジェクトを選択する。この例におけるマッピング機能は、この表現種類をデータベース２５０中のメディアオブジェクトカテゴリ「ハッピー」に対応するメディアオブジェクト「ハートマーク」にマッピングする。ランダム指数は、カテゴリ選択に利用される。

また、別の例として、検索部５１０のマッピング機能として、例えば、インターネットから取得した「幸せな」、または「退屈した」というキーワードに関連したオブジェクトを検索するために、Ｗｅｂ検索エンジン９０１を用いることも可能である。

コンパレータ９０２は、キーワードとの類似性に従い検索されたオブジェクトを集めてまとめ、検索したオブジェクトの最大数を含むクラスタから候補を選択する。そして、当該候補とデータベース２５０中のオブジェクトとの類似度を計算し、編集されたカラオケ映像に挿入されるために、カテゴリの中から最も類似度の高いオブジェクトを選択する。類似度による選択の方法としては、例えば、"Sun Y., Shimada S., Morimoto M: "Visual pattern discovery using web images", Proc. of the 8^th ACM international workshop on Multimedia information retrieval MIR '06, October 2006"や"Kondo I., Shimada S., Morimoto M.: "An Error-Tolerant Video Retrieval Method Based on the Shot Composition Sequence in a Scene", IEEE Conference on Multimedia and Expo 2007,pp.783-786."で詳述されている画像、ビデオまたはオーディオなどによって決まる。オーディオの類似度による選択方法としては、例えば、前述の文献"Jang. J.-s. et.al."A Query-by Singing System based on Dynamic Programming", International Workshop on Intelligent Systems Resolutions (the 9^th Bellman continuum), pp. 85-89,Hsinchu, Taiwan, Dec 2000"により行ってもよい。

重畳部５３０は、検索部５１０で検索されたメディア素材を映像記録部２００から読み出した映像データにオーバレイする。また、カラオケ演奏の雰囲気を描写する挿入済みの映像に、他の歌タイトル、演奏者の名前、歌のテキスト編などのメタデータを加えてもよい。これにより、当該メタデータを用いて映像データを検索することが可能となる。

図１８は、本発明の第１の実施の形態における重畳部で合成された例を示す。

重畳部５３０では、カラオケ演奏中の感性的な雰囲気を表現するために、検索部５１０で検索されたメディア素材を演奏者ａと聞き手ｂの検索済み画像領域の近くに挿入する。これは、ユーザが後で映像を見たときに、よりはっきりした状況を思い出させることを可能にする。

カラオケ中の典型的な状況は、誰も歌を歌っておらず、次の曲を探している状況である。この場合、次の曲を探しているときに、この部分を映像として入れることは、ユーザにとって退屈と考えられるため、その記録を止めることが望ましい。例えば、音声パワーに閾値をせっていし、無音または無音に近い状況を検出するなどして、当該区間では記録を止めるようにしてもよい。使用中のマイクに付けてあるＩＤタグは上下左右に移動することが想定されるが、未使用中は任意の位置で留まっているため、その動きをＩＤタグにより検出し、これに適用してもよい。また、マイクロフォンのスイッチのオン・オフを検出して適用してもよい。

［第２の実施の形態］
さらに、第２の実施の形態として、図１９に示すように、ネットワークを介して、第１の実施の形態で述べたカラオケ映像編集装置１００と遠隔の１個以上のターミナル１０１とインターネット１０２を介して相互接続し、ユーザ自身によるカラオケ映像の作成を含めて異なる場所で作成されたカラオケ映像を共有したり、ジョイント演奏を行うことが可能である。

また、異なるターミナルと接続する別の方法として、ネットワークのプロバイダが設定した専用ネットワークを使用することも可能である。ネットワーク上で多数のターミナルと接続する利点は、ユーザはそれぞれ異なった場所にいても、ジョイントのカラオケ演奏を楽しむことができる。

また、ネットワークを介して流された離れた場所のカラオケ映像を、映像編集部５００により実行されたオーバレイとして、自分自身の歌唱映像を選択し、挿入することが可能である。離れた場所の参加者は、自分の立場、すなわち、聞き手または歌唱者の立場で決まる適切なポジションにより映像が挿入される。例えば、前述の図１８の例では、離れた歌唱者のビデオ映像が、ローカルで検出済みの歌唱者の領域ｅ近くに挿入されて表示される。また、離れた場所にいる聞き手の映像ｆは、それぞれローカルに検出された聞き手の領域近くに挿入される。これは、思い出の映像を後で見るときに、より感情移入できる。すなわち、お互いがより身近に感じられる。

さらに、各ユーザのメタデータとして、例えば、名前、利用日時、歌唱履歴等をデータベースに保存しておくことにより、後々のデータベースのアクセスが容易になる。結果として、感性の態度とクオリティを保存する項目等が編集済みの映像がディスプレイに表示されるときに同時にデータベースに記録される。

このように、ユーザは、自動的に作成された感性カラオケ映像を楽しみ、そして共有することができる。

前述の図４の各構成要素の動作をプログラムとして構築し、カラオケ映像編集装置として利用されるコンピュータにインストールする、または、ネットワークを介して流通させることが可能である。

また、構築されたプログラムをハードディスクや、フレキシブルディスク・ＣＤ−ＲＯＭ等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。

本発明は、カラオケ映像編集技術や、コンサート等の映像データに適応可能である。

本発明の原理構成図である。本発明の原理を説明するための図である。本発明の動作イメージを示す図である。本発明の第１の実施の形態における装置構成図である。本発明の第１の実施の形態における分離部の詳細構成図である。本発明の第１の実施の形態における感性状態評価部の構成図である。表情検出処理のフローチャートである。特徴点抽出の事前準備として抽出した特徴点の例である。特徴量の例１である。笑い状態を３状態に分割した模式図である。笑い状態を３状態に分割する方法を示した模式図である。左右対称性を考慮して笑い状態を抽出するために用いる特徴量である。本発明の第１の実施の形態における映像編集部の構成図である。本発明の第１の実施の形態における感性状態と目的カテゴリの検索の例である。本発明の第１の実施の形態におけるオブジェクトカテゴリの例である。本発明の第１の実施の形態におけるオブジェクト検索の例（その１）である。本発明の第１の実施の形態におけるオブジェクト検索の例（その２）である。本発明の第１の実施の形態における編集済み映像の例である。本発明の第２の実施の形態におけるシステム構成図である。

符号の説明

１００カラオケ映像編集装置
１０１ネットワーク
１０２カラオケ端末
２００映像記憶手段、映像記憶部
３００分離手段、歌唱者／聞き手の分離部
３２０ＩＤタグ・マーカ検出部
３３０顔検出部
３４０近接推定部
３５０画像領域ラベラ
４００評価手段、感性状態評価部
４１０顔表情検出部
４２０顔画像領域ラベラ
４３０音声パターン分析部
４５０評価結果記憶手段
５００編集手段、映像編集部
５１０検索部
５２０メディアオブジェクトデータベース
５３０重畳部
９０１Ｗｅｂ検索エンジン
９０２コンパレータ

Claims

カラオケ映像を編集するカラオケ映像編集装置であって、
取得したカラオケの映像データを格納する映像記憶手段と、
前記映像記憶手段から映像データを取得して、該映像データの人物を抽出し、歌唱者と聞き手を特定する分離手段と、
前記分離手段により特定された前記聞き手の顔画像の表情及び音声に基づいて前記聞き手の感情状態を推定すると共に、前記歌唱者の歌唱のクオリティを推定し、該感情状態及び該歌唱のクオリティを評価結果記憶手段に格納する評価手段と、
前記評価結果記憶手段に格納されている推定結果に基づいて、前記映像記憶手段から取得した前記映像データを編集する編集手段と、
を有することを特徴とするカラオケ映像編集装置。
前記編集手段は、
ネットワークを介して接続される、または、ローカルに、または、離れた場所に存在する記憶手段から編集済みの映像、または、前記映像データに表示するためのオブジェクトを取得して、該オブジェクトと前記評価手段の推定結果に基づいて、前記映像記憶手段の前記映像データを編集する手段を含む、
請求項１記載のカラオケ映像編集装置。
前記分離手段は、
前記歌唱者が手に持つマイクに付与されたＩＤタグを検出するタグ検出手段、
前記映像データから顔または表情を検出する顔検出手段、
前記映像データの予め定められた位置に人がいるか否かを判定する位置判定手段、のいずれか１つの手段を用いて、前記歌唱者と前記聞き手の位置を決定する手段を含む
請求項１記載のカラオケ映像編集装置。
前記評価手段は、
前記分離手段により取得した前記聞き手の顔画像から、「微笑んだ」、「笑った」、「哀しい」、「驚いた」、「幸せそうな」、「ぼんやりとした」の少なくとも１つ以上の表情を、感性表現カテゴリに分類することにより、該聞き手の感情状態を決定する手段を含む
請求項１記載のカラオケ映像編集装置。
前記評価手段は、
前記歌唱者の歌声のパターンと前記カラオケのメロディのパターンとの整合性に基づいて、該歌唱者の前記歌唱クオリティを求める手段を含む
請求項１記載のカラオケ映像編集装置。
前記編集手段は、
前記評価手段により取得した前記聞き手の感情状態と前記歌唱者のクオリティに基づいて、前記映像データの編集に用いる画像、テキスト、音声が格納されているデータベースから少なくとも１つを合成パターンとして選択する手段を含む
請求項１記載のカラオケ映像編集装置。
前記編集手段は、
前記ネットワークを介して接続される、または、ローカルに、または、離れた場所に存在する分散カラオケ装置に配信された前記歌唱者に対する聞き手の映像を取得して、編集対象の映像フレーム内に合成して表示させる手段を含む
請求項２記載のカラオケ映像編集装置。
カラオケ映像を編集するカラオケ映像編集方法であって、
取得したカラオケの映像データを取得して、映像記憶手段に格納する映像取得ステップと、
分離手段が、前記映像記憶手段から映像データを取得して、該映像データの人物を抽出し、歌唱者と聞き手を特定する分離ステップと、
評価手段が、前記分離ステップで分離された前記聞き手の前記顔画像の表情及び音声に基づいて前記聞き手の感情状態を推定すると共に、前記歌唱者の歌唱のクオリティを推定し、該感情状態及び該歌唱のクオリティを評価結果記憶手段に格納する評価ステップと、
編集手段が、前記評価結果記憶手段に格納されている推定結果に基づいて、前記映像記憶手段から取得した前記映像データを編集する編集ステップと、
を行うことを特徴とするカラオケ映像編集方法。
前記編集ステップにおいて、
ネットワークを介して接続される、または、ローカルに、または、離れた場所に存在する記憶手段から編集済みの映像、または、前記映像データに表示するためのオブジェクトを取得して、該オブジェクトと前記評価手段の推定結果に基づいて、前記映像記憶手段の前記映像データを編集する、
請求項８記載のカラオケ映像編集方法。
前記分離ステップにおいて、
前記歌唱者が手に持つマイクに付与されたＩＤタグを検出するタグ検出ステップ、
前記映像データから顔または表情を検出する顔検出ステップ、
前記映像データの予め定められた位置に人がいるか否かを判定する位置判定ステップ、のいずれか１つの処理を行うことにより、前記歌唱者と前記聞き手の位置を決定する
請求項８記載のカラオケ映像編集方法。
前記評価ステップにおいて、
前記分離ステップで特定された前記聞き手の顔画像から、「微笑んだ」、「笑った」、「哀しい」、「驚いた」、「幸せそうな」、「ぼんやりとした」の少なくとも１つ以上の表情を、感性表現カテゴリに分類することにより、該聞き手の感情状態を決定する
請求項８記載のカラオケ映像編集方法。
前記評価ステップにおいて
前記歌唱者の歌声のパターンと前記カラオケのメロディのパターンとの整合性に基づいて、該歌唱者の前記歌唱クオリティを求める
請求項８記載のカラオケ映像編集方法。
前記編集ステップにおいて、
前記評価ステップを行うことにより取得した前記聞き手の感情状態と前記歌唱者のクオリティに基づいて、前記映像データの編集に用いる画像、テキスト、音声が格納されているデータベースから少なくとも１つを合成パターンとして選択する
請求項８記載のカラオケ映像編集方法。
前記編集ステップにおいて、
前記ネットワークを介して接続される、または、ローカルに、または、離れた場所に存在する分散カラオケ装置に配信された前記歌唱者に対する聞き手の映像を取得して、編集対象の映像フレーム内に合成して表示させる
請求項９記載のカラオケ映像編集方法。
請求項１乃至７のいずれか１項に記載のカラオケ映像編集装置を構成する各手段としてコンピュータを機能させるためのカラオケ映像編集プログラム。