JP2009288446A - カラオケ映像編集装置及び方法及びプログラム - Google Patents

カラオケ映像編集装置及び方法及びプログラム Download PDF

Info

Publication number
JP2009288446A
JP2009288446A JP2008139798A JP2008139798A JP2009288446A JP 2009288446 A JP2009288446 A JP 2009288446A JP 2008139798 A JP2008139798 A JP 2008139798A JP 2008139798 A JP2008139798 A JP 2008139798A JP 2009288446 A JP2009288446 A JP 2009288446A
Authority
JP
Japan
Prior art keywords
video
karaoke
editing
listener
singer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008139798A
Other languages
English (en)
Inventor
Uwe Kowalik
ウーウェ コヴァリク
Kota Hidaka
浩太 日高
Yukinobu Taniguchi
行信 谷口
Takeshi Irie
豪 入江
Takashi Sato
隆 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008139798A priority Critical patent/JP2009288446A/ja
Publication of JP2009288446A publication Critical patent/JP2009288446A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships

Abstract

【課題】カラオケの歌唱者と聞き手を識別し、それぞれを相応しく編集するために、歌唱力と聞き手の態度を推定し、その推定結果に基づき、効果的に元のカラオケ映像を編集する。
【解決手段】本発明は、取得したカラオケの映像データを取得して、映像記憶手段に格納し、映像記憶手段から映像データを取得して、該映像データの人物を抽出し、歌唱者と聞き手を特定し、分離された聞き手の前記顔画像の表情及び音声に基づいて聞き手の感情状態を推定すると共に、歌唱者の歌唱のクオリティを推定し、該感情状態及び該歌唱のクオリティを評価結果記憶手段に格納し、評価結果記憶手段に格納されている推定結果に基づいて、前記映像記憶手段から取得した映像データを編集する。
【選択図】図1

Description

本発明は、カラオケ映像編集装置及び方法及びプログラムに係り、特に、カラオケ映像を自動編集するためのカラオケ映像編集装置及び方法及びプログラムに関する。
カラオケは、元々は日本で開発された人気のある視聴覚の娯楽システムで、カラオケのサウンド・システムに接続したマイクロフォンを使用して、ユーザが自分の好みの曲のメロディに合わせて歌うことを可能にするものである。カラオケ娯楽は、歌う喜びを共有し、互いに楽しい時間を過ごすことによって、顧客に感性的な雰囲気を提供するものである。このカラオケ映像を作成するニーズは高いが、何らかの編集工程を経ずに、魅力的な映像とすることは難しい。
編集のためには、何らかのシーン選択や、編集手段が必要となり、下記のいくつかの従来発明が既に提案されている。
まず、音声から強調された音声区間を抽出し、映像を短時間に視聴可能にする手法、要約映像を自動作成する手法がある(例えば、特許文献1参照)。
また、音声の感情状態に対応して要約映像を生成する手法がある(例えば、特許文献2参照)。
さらに、動物体が大きく写っている映像区間を作成することができ、ダイジェスト的な映像区間閲覧のためのインデックスを利用者に提供する手法がある(例えば、特許文献3参照)。
特許3803311号公報 特開2005−345496号公報 特開2006−244074号公報
しかしながら、従来提案されている手法は、要約映像を作成する手法や、特定シーンを抽出する手法としては有効に機能するが、有効な編集手段を示しているものではないため、カラオケ映像を自動編集することは困難である。
本発明は、上記の点に鑑みなされたもので、カラオケの歌唱者と聞き手を識別し、それぞれを相応しく編集するために、歌唱力と聞き手の態度を推定し、その推定結果に基づき、効果的に元のカラオケ映像を編集することが可能なカラオケ映像編集装置及び方法及びプログラムを提供することを目的とする。
図1は、本発明の原理構成図である。
本発明(請求項1)は、カラオケ映像を編集するカラオケ映像編集装置であって、
取得したカラオケの映像データを格納する映像記憶手段200と、
映像記憶手段200から映像データを取得して、該映像データの人物を抽出し、歌唱者と聞き手を特定する分離手段300と、
分離手段300により特定された聞き手の顔画像の表情及び音声に基づいて聞き手の感情状態を推定すると共に、歌唱者の歌唱のクオリティを推定し、該感情状態及び該歌唱のクオリティを評価結果記憶手段450に格納する評価手段400と、
評価結果記憶手段450に格納されている推定結果に基づいて、映像記憶手段200から取得した映像データを編集する編集手段500と、を有する。
また、本発明(請求項2)は、編集手段500において、
ネットワークを介して接続される、または、ローカルに、または、離れた場所に存在する記憶手段から編集済みの映像、または、映像データに表示するためのオブジェクトを取得して、該オブジェクトと評価手段の推定結果に基づいて、映像記憶手段200の映像データを編集する手段を含む。
また、本発明(請求項3)は、分離手段300において、
歌唱者が手に持つマイクに付与されたIDタグを検出するタグ検出手段、
映像データから顔または表情を検出する顔検出手段、
映像データの予め定められた位置に人がいるか否かを判定する位置判定手段、のいずれか1つの手段を用いて、歌唱者と聞き手の位置を決定する手段を含む。
また、本発明(請求項4)は、評価手段400において、
分離手段200により取得した聞き手の顔画像から、「微笑んだ」、「笑った」、「哀しい」、「驚いた」、「幸せそうな」、「ぼんやりとした」の少なくとも1つ以上の表情を、感性表現カテゴリに分類することにより、該聞き手の感情状態を決定する手段を含む。
また、本発明(請求項5)は、評価手段400において、
歌唱者の歌声のパターンとカラオケのメロディのパターンとの整合性に基づいて、該歌唱者の歌唱クオリティを求める手段を含む。
また、本発明(請求項6)は、編集手段500において、
評価手段400により取得した聞き手の感情状態と歌唱者のクオリティに基づいて、映像データの編集に用いる画像、テキスト、音声が格納されているデータベースから少なくとも1つを合成パターンとして選択する手段を含む。
また、本発明(請求項7)は、編集手段500において、
ネットワークを介して接続される、または、ローカルに、または、離れた場所に存在する分散カラオケ装置に配信された歌唱者に対する聞き手の映像を取得して、編集対象の映像フレーム内に合成して表示させる手段を含む。
図2は、本発明の原理を説明するための図である。
本発明(請求項8)は、カラオケ映像を編集するカラオケ映像編集方法であって、
取得したカラオケの映像データを取得して、映像記憶手段に格納する映像取得ステップ(ステップ1)と、
分離手段が、映像記憶手段から映像データを取得して、該映像データの人物を抽出し、歌唱者と聞き手を特定する分離ステップ(ステップ2)と、
評価手段が、分離ステップ(ステップ2)で分離された聞き手の顔画像の表情及び音声に基づいて聞き手の感情状態を推定すると共に、歌唱者の歌唱のクオリティを推定し、該感情状態及び該歌唱のクオリティを評価結果記憶手段に格納する評価ステップ(ステップ3)と、
編集手段が、評価結果記憶手段に格納されている推定結果に基づいて、映像記憶手段から取得した映像データを編集する編集ステップ(ステップ4)と、を行う。
また、本発明(請求項9)は、編集ステップ(ステップ4)において、
ネットワークを介して接続される、または、ローカルに、または、離れた場所に存在する記憶手段から編集済みの映像、または、映像データに表示するためのオブジェクトを取得して、該オブジェクトと評価手段の推定結果に基づいて、映像記憶手段の映像データを編集する。
また、本発明(請求項10)は、分離ステップ(ステップ2)において、
歌唱者が手に持つマイクに付与されたIDタグを検出するタグ検出ステップ、
映像データから顔または表情を検出する顔検出ステップ、
映像データの予め定められた位置に人がいるか否かを判定する位置判定ステップ、のいずれか1つの処理を行うことにより、歌唱者と聞き手の位置を決定する。
また、本発明(請求項11)は、評価ステップ(ステップ3)において、
分離ステップで特定された聞き手の顔画像から、「微笑んだ」、「笑った」、「哀しい」、「驚いた」、「幸せそうな」、「ぼんやりとした」の少なくとも1つ以上の表情を、感性表現カテゴリに分類することにより、該聞き手の感情状態を決定する。
また、本発明(請求項12)は、評価ステップ(ステップ3)において
歌唱者の歌声のパターンとカラオケのメロディのパターンとの整合性に基づいて、該歌唱者の歌唱クオリティを求める。
また、本発明(請求項13)は、編集ステップ(ステップ4)において、
評価ステップを行うことにより取得した聞き手の感情状態と歌唱者のクオリティに基づいて、映像データの編集に用いる画像、テキスト、音声が格納されているデータベースから少なくとも1つを合成パターンとして選択する。
また、本発明(請求項14)は、編集ステップ(ステップ4)において、
ネットワークを介して接続される、または、ローカルに、または、離れた場所に存在する分散カラオケ装置に配信された歌唱者に対する聞き手の映像を取得して、編集対象の映像フレーム内に合成して表示させる。
本発明(請求項15)は、請求項1乃至7のいずれか1項に記載のカラオケ映像編集装置を構成する各手段としてコンピュータを機能させるためのカラオケ映像編集プログラムである。
上記のように本発明によれば、カラオケ映像の画像処理により歌唱者と聞き手に分離し、歌唱力と聞き手の表情から映像データに種々の感性的なオブジェクトを重畳させて表示することにより、ユーザがそのディスプレイを見て楽しむことができる。
また、カラオケのシステムをネットワークで接続された環境時において共有することにより、その場にいない聞き手の感性状態も取得し、当該感性状態に応じてオブジェクトを選択し、重畳表示させることができる。
以下、図面と共に本発明の実施の形態を説明する。
図3は、本発明の動作イメージを示す。
本発明は、カメラとマイクロフォンによりカラオケ演奏の元となる映像を記録媒体に記録し、当該映像データから歌唱者と聞き手の画像領域を検出し、元の映像データに、歌唱者や聞き手の行動・状況に応じて選択された、例えば、テキスト、2D,3Dグラフィックなどのメディア素材と、検出領域及び/またはその回りの画像をオーバレイする。オーバレイする素材の選択は、聞き手及び/または、歌唱者の及び歌唱クオリティなどの感性状態によって決まる。例えば、歌唱クオリティがよい場合、システムは、進行中の画像フレーム内の演奏者のポジションの近くに、「恒星雲」画像または、「素晴らしい」といった何か喝采となるテキストを挿入する。
他の例では、本システムは、元の歌声に拍手の「称賛」サウンドをミックスして出力する。また、別の例では、演奏者が音楽に調子外れとなり、クオリティが落ちた場合、進行中の画像フレームに仮想の「雷雨」の表示をオーバレイとして選択することができる。
聞き手が「うれしそうな顔」を見せた場合に反応するために、本発明では、進行中の画像フレームにある聞き手の顔の位置近くに、アニメの「ハートマーク」画像等を挿入可能である。演奏が長いために、聞き手が曖昧な表情を見せた場合、本発明では、「雨雲」または、「Zzzzz…(眠っているところを表現)」などのテキストを見合うような顔面の近くに挿入することができる。
図4は、本発明の第1の実施の形態における装置構成を示す。
同図に示す装置は、映像記憶部200、歌唱者/聞き手分離部(以下、単に「分離部」と記す)300、感性状態評価部400、映像編集部500から構成される。
映像記憶部200は、ハードディスク等の記録媒体であり、カラオケ演奏の画像と音声が格納され、分離部300によって読み出される。
分離部300は、映像から歌唱者と聞き手を分離する。
図5は、本発明の第1の実施の形態における分離部の詳細な構成を示す。同図に示す分離部300は、スイッチ310、IDタグ・マーカ検出部320、顔検出部330、近接推定部340、画像領域ラベラ350から構成される。
スイッチ310は、視覚ベースとセンサベースのマーカ検出を切り替えるために使用される。
IDタグ・マーカ検出部320は、マイクに付帯したIDタグまたは、マーカを画像処理、または、センサを利用して画像フレーム中のマイクの位置を推定する。
典型的なカラオケ環境の照明状態は暗い場合が多く、最適条件ではないため、歌唱者と聞き手検出のためには、様々な困難がある。この問題を解決するための方法として、人の位置決定と、演奏者と聞き手を分離するために、マイクに対して1個のIDタグを利用する。例えば、IDタグは、上記のような照明環境において検出が容易なものを用い、例えば、カラー照明及び/または明るい幾何学模様、または、カラーパターンで構成することが可能である。IDタグ・マーカ検出部320は、当該IDタグを読み取れる機能、または、マイクにマーカを付与しておき、当該マーカを検出する機能を有するものとする。
顔検出部330は、映像記憶部200から読み込んだ画像フレームから、特開平9−050528等の方法により顔の表情検出を行う。
近接推定部340は、顔検出部330から取得した顔画像とIDタグ・マーカ検出部320から取得したマイクの位置を取得して、顔画像とマーカ位置の間の距離を測定し、マーカの位置に最も近い顔画像の者を歌唱候補者と特定する。それ以外の顔画像は聞き手として特定する。
また、別の歌唱者と聞き手の分類方法として、歌唱候補者とマーカとの位置との間隔が所定の最大間隔より狭い場合に、当該顔画像の人物を歌唱者と分類する。なお、歌唱者の顔が検出されない場合は、リカバリ処理が実行される。リカバリ処理は、歌唱者の声がシステムで認識できる場合には、マーカ位置を基準として設定された固定領域を歌唱者とする。マーカ位置を軸として固定領域を順次変更する処理を繰り返すことで、歌唱者がいる領域を推定する。当該繰り返し処理は、歌唱者の音声に基づいて歌唱者を同定する場合も同様である。マイクロフォンが使われているか否かは容易に判定できるため、仮に利用されていない場合には、当該繰り返し処理は行わない。近接推定部340は、画像フレーム中の歌唱者と聞き手の位置を特定する領域マスク及び当該領域の情報を出力する。
画像領域ラベラは、歌唱者及び聞き手のそれぞれの画像領域の位置を特定する領域マスクを生成して一時的にメモリ(図示せず)に格納する。
感性状態評価部400は、聞き手の感性状態を推定する機能と、歌唱者の歌唱音声のパターンを推定する機能を有する。
カラオケの雰囲気を推定できるいくつかのパラメータがある。例えば、ゆっくりした静かな音楽は、人が黙って耳を傾けさせる。テンポの速いロック・ソングを聴くときには、雰囲気は生き生きとすると考えられる。従って、進行中の音楽のテンポとメロディを分析すれば、進行中の選曲された音楽に左右される全体的なムードについての情報を得ることが可能である。
歌唱者が非常にポピュラーな楽曲を歌っているとき、聞き手はリズムに合わせてダンスや体を動かしたくなる。そのため、例えば、動作推定に基づく画像は、カラオケユーザの異なった感性を見極めるために使用できる。
上記のことから、感性状態評価部400は、分離部300から取得した聞き手の領域情報に基づいて聞き手を特定し、当該聞き手の顔の表情や音声を例えば、特願2004−161471に記載されている音声の感情状態を推定する手法から、聞き手の感性状態を推定する。さらに、感性状態評価部400は、歌唱者の歌唱クオリティを推定する。
図6は、本発明の第1の実施の形態における感性状態評価部の構成を示す。
同図に示す感性状態評価部400は、顔表情検出部410、顔画像領域ラベラ420、音声パターン分析部430から構成される。
顔表情検出部410は、分離部300から入力される聞き手の顔領域と、映像記憶部200から取得した現フレームから顔表情を検出する。具体的には以下の通りである。
図7は、表情検出方法のフローチャートである。
ステップ101) 顔表情検出部410において、入力された現フレームから分離部300で取得した顔領域で特定された人物の顔画像領域を抽出する。
ステップ102) 顔画像領域から鼻の先端、口角の左右の位置を特徴点として抽出する。
ステップ103) 鼻の先端を基準としたときの口角の左右の位置との角度を計測して特徴とする。
ステップ104) 笑い状態を検出する。角度の時間変化を求め、時間変化から平衡状態からの立上り状態、最大角度状態、平衡状態への立下り時状態の3状態に分割し、笑い状態の開始から終了までの連続的な変化を捉える。
上記のステップ101の顔画像領域抽出処理については、Adaboost学習による、Haar特徴を用いた識別器を用いる。ここで、多数の弱識別器をカスケード型とし、当該カスケード型識別器を識別対象の大きさ、位置を変化させて適用し、顔画像領域を特定する。これについては、例えば、文献「Paul Viola, Michael J. Jones. Robust Real-Time Face Detection. International Journal of Computer Vision. Vol. 57, No2 pp.137-154 (2004)」などに記載されている。
上記のステップ102の特徴点検出処理では、その事前処理として、図8の黒抜き丸で示す25点の特徴点を抽出している。特徴点は、輪郭、目玉、眉毛、鼻、口に関連して割り振っている。この特徴点の抽出方法としては、例えば、文献「Lades M., Vorbruggen J., Buhmann J., Lange J., Konen W., von der Malsburg C., Wurtz R. Distortion Invariant Object Recognition in the Dynamic Link Architecture. IEEE Trans. Computers, Vol. 42, No. 3 pp.300-311(1993)」、「Wiskott L., Fellous J.-M., Kruger N., von der Malsburg C. Face Recognition by Elastic Bunch Graph Matching. IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 19. Issue 7, pp. 775-779 (1997)」等の公知の方法を用いるものとする。これらの公知技術を参照することにより、例えば、人物が顔を動かすなどの行為を行ったとしても安定して、図8に示す25点の特徴を抽出可能である。この25点の特徴のうち、図9に示す二重丸の3点(h,i,j)のみを抽出し、残りの点は必要としない。これらは、鼻の先端、口角の左右の位置に相当する点である。また、25点の特徴を抽出することなく、必要な3点のみを直接抽出してもよい。このような方法により、不要な点の抽出処理を省くことができる。
上記のステップ103では、鼻の先端を基準としたときの口角の左右位置との角度を計測して特徴とする。
上記のステップ104では、上記の角度の特徴量をαとしたとき、その時間履歴を図10のように計測する。さらに、αの時間履歴から、同図に示すように、平衡状態からの立ち上がり状態、最大角度状態、平衡状態への立ち下がり状態の3状態に分割する。実際には、人間が平衡状態にあるときに必ずしも口の形状が閉まっている状態ではないことが想定される。また、通常会話しているときも口の形状は開閉状態となる。このような場合においても、笑っているか否かを判断するためには、例えば、特徴量αの時間変化を観測すればよい。具体的には、図11に示すように、特徴量の時間微分dα/dtと、2つの閾値を用いる。2つの閾値については、高閾値「thupper」と低閾値「thlower」と呼ぶこととする。この閾値は静的に設定されるものでもよく、後述する方法により動的に設定されるものであってもよい。
以下に、3状態に分割する方法について詳述する。
平衡状態からの立ち上がり状態については、その開始時刻を時間微分dα/dtが高閾値thupperを超えた時刻の時間微分dα/dtから時間的に前方向を観測し、最短時間でdα/dt=0となる時刻t0とする。一方、終了時刻は、時間微分dα/dtが高閾値thupper越えた時刻の時間微分dα/dtから時間的に後ろ方向を観測し、最短時間でdα/dt=0となる時刻t1とする。この時刻t1は最大角度状態の開始時刻にも相当する。
平衡状態への立下り状態については、最大角度状態以降で、低閾値thlowerを下回った時刻の時間微分dα/dtから時間的に前方向を観測し、最短時間でdα/dt=0となる時刻t2を開始時刻とする。この時刻t2は、最大角度状態の終了時刻にも相当する。一方、開始時刻は、時間微分dα/dtが低閾値thlowerを下回った時刻の時間微分dα/dtから時間的に後ろ方向を観測し、最短時間でdα/dt=0となる時刻t3とする。
前述のように、立上がり状態の開始時刻から平衡状態への立下り終了時刻までが一連の笑い状態として判別される。
次に、前述の高閾値thupperと低閾値thlowerを動的に設定する方法について述べる。
例えば、高閾値と低閾値の標準偏差と平均値をそれぞれσupperとμupper、σlowerとμlowerとした場合、
thupper=a・σupper+b・μupper 式(1)
thlower=c・σlower+d・μlower 式(2)
としてもよい。ここで、a,b,c,dは、係数で任意の値とし、例えば、予め、試験用動画像を用意し、統計的な学習工程を経て設定するものであってもよい。具体的には、人手により本手法による笑い状態の上記の3状態の開始時刻と終了時刻の正解集合を設定し、これと本発明によって抽出された上記の3状態の開始時刻と終了時刻との時間差を最小限とするようにa,b,c,dを設定してもよい。
人間は、発話を一切していない状態においても口の形状が微小に変化していることが想定される。例えば、唇を噛みしめたり、つばを飲み込む動作を考えるだけでもこれらは容易に想像できる。これらの微小な変化が、角度αに影響する。また、笑いを含む発声行為についても、人間は規則的に口を開閉するもではなく、ある程度の不規則さを伴って開閉することが想定される。いわゆるこのようなノイズの影響を軽減させるために、例えば、検出した角度にメディアンフィルタを適用する対策を施してもよい。
また、本発明による時間微分dα/dtでは、笑い状態と、一般の発声と区別が付かない場合も想定される。例えば、illegalと発声した場合、"ille"の部分でdα/dtが増加し、"gal"の部分でdα/dtが減少するため、笑い状態と似ている挙動となる可能性がある。そのような場合には、例えば、最大角度状態の時間に着目し、t2−t1>ttimeなどの時間的な閾値ttimeを設定することで問題を回避可能となる。
これまで、基本的な例を述べてきたが、例えば、角度αのみに着目している場合、例えば、引きつった笑いや、いやみを発言するときなどに頻出する。鼻の稜線を基準線としたときの左右非対称の状態においても笑い状態と判別する可能性がある。このような問題に対しては、図12に示すように、口角の左右の位置i,jを結ぶ線分の中心と、鼻の先端hとを結ぶ線分を基準線とし、基準線に対する左右の口角位置との角度をそれぞれ、α1、α2としてこれらの値の差を考慮することで対象であるか否かを判定すればよい。
例えば、それぞれの時間微分dα1/dt、dα2/dtの時間履歴を測定し、これらの相関係数を求め、例えば、0.5以上であるときに対象としてもよい。また、それぞれの時間微分がdα1/dt>0、dα2/dt>0となる時刻をts1、ts2としたときの│ts1−ts2│に閾値を設定するなどしてもよい。
上記の処理により検出された顔の特徴点検出によって、顔の表情を推定する。現在の顔の表情を推定するためには、特徴点の下部及び近くのテキストは勿論のこと、検出された特徴点間の幾何学的関係が、それ以上に、共通のパターン分類によって評価される。
当該顔表情検出部410は、各聞き手及び/または歌唱者の現在の感性状態に関しての、1セットの所定の顔の表情の種類をラベルとして出力する。例えば、顔の表情種類は、例えば、「微笑んだ」、「笑った」、「幸せそうな顔」、「悲しい顔」、「驚いた顔」、「退屈そうな顔」に係わるものであるが、これ以外のものであってもよい。
音声パターン分析部430は、一人以上の歌唱者によるカラオケのクオリティを、歌声とカラオケ音楽との整合性を計算して推定する。
歌声と所定の楽曲との類似性を計算する共通の方法は、例えば、"Jang. J.-s. et.al."A Query-by Singing System based on Dynamic Programming", International Workshop on Intelligent Systems Resolutions (the 9th Bellman continuum), pp. 85-89,Hsinchu, Taiwan, Dec 2000"や、"Jang, j.-s. Roger et.al. "Microcontroller implementation of melody recognition: a prototype", Proceedings of the eleventh ACM international conference on Multimedia, November 2003 MULTIMEDIA '03"で記述されている。声の大きさを示す基本周波数の時間履歴、ピッチパターンは、例えば信号の波形をずらしながら、その差分の絶対値の総和を計算する方法AMDFや、変形相関法などにより求めることができる。
このピッチパターンを歌唱音声並びに楽曲に適応し、その間隔を比較することで、歌唱クオリティを判定できる。すなわち、間隔が短ければ短いほど、クオリティは高くなる。
上記のようにして求められたラベル結果と、歌唱品質をメモリ(図示せず)に格納する。
次に、映像編集部500について説明する。
図13は、本発明の第1の実施の形態における映像編集部の構成を示す。
映像編集部500は、検索部510と重畳部530から構成され、これらはメディアオブジェクトデータベース520と接続されている。
データベース520は、画像、2Dと3Dグラフィックス、テキストまたは、サウンドなどの媒体目標を含むローカルなデータベース、または、当該装置と離れた場所にあり、ネットワークで接続されているデータベースである。当該データベース520は、感性表現とクオリティに関するカテゴリが分類されて格納されている。当該データベース520は、グラフィック、サウンドまたはビデオ編集用の共通ツールにより、例えば、予め手動で作成される。
検索部510は、感性状態評価部400のメモリ(図示せず)から読み出した、感性状態(ラベル結果)と歌唱クオリティ(品質評価)のパラメータに基づいてデータベース520を検索する。
図14は、本発明の第1の実施の形態における感性状態と目的カテゴリのマッピングの例を示す。検索部510は、感性状態評価部400から取得した感性状態及び歌唱クオリティに基づいて、データベース520に保存された感性カテゴリとクオリティカテゴリを検索する。検索の方法としては、簡単なマッピングは、例えば、感性状態評価部400から感性状態として「幸せそうな顔」が入力されると、データベース250から「幸福カテゴリ」が検索される。また、精緻なマッピングの方法としては、時間/クオリティを考慮し、ランダム成分を付加して検索する方法がある。その一例として、現フレームの感性状態「幸せそうな顔」というラベル結果に加えて、当該感性状態を数値化したデータ(感性指数)を取得し、感性指数が統計的または動的閾値を上回る場合のみ、感性カテゴリとして「幸福」を検索する。
検索部510は、図15に示すオブジェクトカテゴリから目標を検索するが、予想外の選択を避けるため、図16に示すようなオブジェクト検索を実施するようにしてもよい。ここで、ランダム指数とは、笑っている顔から「笑っている顔」と対応付けられた画像がなくても、類似の画像を抽出するために存在するものである。具体的には「笑っている顔」というキーワードから連想される「ハッピー」「うれしい!」「うまい!」などの関連単語を予め対応付けておき、ランダム指数によって上記の関連単語を選択し、例えば、ランダム指数が示す関連単語が「ハッピー」の場合は、データベース250から「ハッピー」と関連するメディアオブジェクトを選択する。この例におけるマッピング機能は、この表現種類をデータベース250中のメディアオブジェクトカテゴリ「ハッピー」に対応するメディアオブジェクト「ハートマーク」にマッピングする。ランダム指数は、カテゴリ選択に利用される。
また、別の例として、検索部510のマッピング機能として、例えば、インターネットから取得した「幸せな」、または「退屈した」というキーワードに関連したオブジェクトを検索するために、Web検索エンジン901を用いることも可能である。
コンパレータ902は、キーワードとの類似性に従い検索されたオブジェクトを集めてまとめ、検索したオブジェクトの最大数を含むクラスタから候補を選択する。そして、当該候補とデータベース250中のオブジェクトとの類似度を計算し、編集されたカラオケ映像に挿入されるために、カテゴリの中から最も類似度の高いオブジェクトを選択する。類似度による選択の方法としては、例えば、"Sun Y., Shimada S., Morimoto M: "Visual pattern discovery using web images", Proc. of the 8th ACM international workshop on Multimedia information retrieval MIR '06, October 2006"や"Kondo I., Shimada S., Morimoto M.: "An Error-Tolerant Video Retrieval Method Based on the Shot Composition Sequence in a Scene", IEEE Conference on Multimedia and Expo 2007,pp.783-786."で詳述されている画像、ビデオまたはオーディオなどによって決まる。オーディオの類似度による選択方法としては、例えば、前述の文献"Jang. J.-s. et.al."A Query-by Singing System based on Dynamic Programming", International Workshop on Intelligent Systems Resolutions (the 9th Bellman continuum), pp. 85-89,Hsinchu, Taiwan, Dec 2000"により行ってもよい。
重畳部530は、検索部510で検索されたメディア素材を映像記録部200から読み出した映像データにオーバレイする。また、カラオケ演奏の雰囲気を描写する挿入済みの映像に、他の歌タイトル、演奏者の名前、歌のテキスト編などのメタデータを加えてもよい。これにより、当該メタデータを用いて映像データを検索することが可能となる。
図18は、本発明の第1の実施の形態における重畳部で合成された例を示す。
重畳部530では、カラオケ演奏中の感性的な雰囲気を表現するために、検索部510で検索されたメディア素材を演奏者aと聞き手bの検索済み画像領域の近くに挿入する。これは、ユーザが後で映像を見たときに、よりはっきりした状況を思い出させることを可能にする。
カラオケ中の典型的な状況は、誰も歌を歌っておらず、次の曲を探している状況である。この場合、次の曲を探しているときに、この部分を映像として入れることは、ユーザにとって退屈と考えられるため、その記録を止めることが望ましい。例えば、音声パワーに閾値をせっていし、無音または無音に近い状況を検出するなどして、当該区間では記録を止めるようにしてもよい。使用中のマイクに付けてあるIDタグは上下左右に移動することが想定されるが、未使用中は任意の位置で留まっているため、その動きをIDタグにより検出し、これに適用してもよい。また、マイクロフォンのスイッチのオン・オフを検出して適用してもよい。
[第2の実施の形態]
さらに、第2の実施の形態として、図19に示すように、ネットワークを介して、第1の実施の形態で述べたカラオケ映像編集装置100と遠隔の1個以上のターミナル101とインターネット102を介して相互接続し、ユーザ自身によるカラオケ映像の作成を含めて異なる場所で作成されたカラオケ映像を共有したり、ジョイント演奏を行うことが可能である。
また、異なるターミナルと接続する別の方法として、ネットワークのプロバイダが設定した専用ネットワークを使用することも可能である。ネットワーク上で多数のターミナルと接続する利点は、ユーザはそれぞれ異なった場所にいても、ジョイントのカラオケ演奏を楽しむことができる。
また、ネットワークを介して流された離れた場所のカラオケ映像を、映像編集部500により実行されたオーバレイとして、自分自身の歌唱映像を選択し、挿入することが可能である。離れた場所の参加者は、自分の立場、すなわち、聞き手または歌唱者の立場で決まる適切なポジションにより映像が挿入される。例えば、前述の図18の例では、離れた歌唱者のビデオ映像が、ローカルで検出済みの歌唱者の領域e近くに挿入されて表示される。また、離れた場所にいる聞き手の映像fは、それぞれローカルに検出された聞き手の領域近くに挿入される。これは、思い出の映像を後で見るときに、より感情移入できる。すなわち、お互いがより身近に感じられる。
さらに、各ユーザのメタデータとして、例えば、名前、利用日時、歌唱履歴等をデータベースに保存しておくことにより、後々のデータベースのアクセスが容易になる。結果として、感性の態度とクオリティを保存する項目等が編集済みの映像がディスプレイに表示されるときに同時にデータベースに記録される。
このように、ユーザは、自動的に作成された感性カラオケ映像を楽しみ、そして共有することができる。
前述の図4の各構成要素の動作をプログラムとして構築し、カラオケ映像編集装置として利用されるコンピュータにインストールする、または、ネットワークを介して流通させることが可能である。
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、カラオケ映像編集技術や、コンサート等の映像データに適応可能である。
本発明の原理構成図である。 本発明の原理を説明するための図である。 本発明の動作イメージを示す図である。 本発明の第1の実施の形態における装置構成図である。 本発明の第1の実施の形態における分離部の詳細構成図である。 本発明の第1の実施の形態における感性状態評価部の構成図である。 表情検出処理のフローチャートである。 特徴点抽出の事前準備として抽出した特徴点の例である。 特徴量の例1である。 笑い状態を3状態に分割した模式図である。 笑い状態を3状態に分割する方法を示した模式図である。 左右対称性を考慮して笑い状態を抽出するために用いる特徴量である。 本発明の第1の実施の形態における映像編集部の構成図である。 本発明の第1の実施の形態における感性状態と目的カテゴリの検索の例である。 本発明の第1の実施の形態におけるオブジェクトカテゴリの例である。 本発明の第1の実施の形態におけるオブジェクト検索の例(その1)である。 本発明の第1の実施の形態におけるオブジェクト検索の例(その2)である。 本発明の第1の実施の形態における編集済み映像の例である。 本発明の第2の実施の形態におけるシステム構成図である。
符号の説明
100 カラオケ映像編集装置
101 ネットワーク
102 カラオケ端末
200 映像記憶手段、映像記憶部
300 分離手段、歌唱者/聞き手の分離部
320 IDタグ・マーカ検出部
330 顔検出部
340 近接推定部
350 画像領域ラベラ
400 評価手段、感性状態評価部
410 顔表情検出部
420 顔画像領域ラベラ
430 音声パターン分析部
450 評価結果記憶手段
500 編集手段、映像編集部
510 検索部
520 メディアオブジェクトデータベース
530 重畳部
901 Web検索エンジン
902 コンパレータ

Claims (15)

  1. カラオケ映像を編集するカラオケ映像編集装置であって、
    取得したカラオケの映像データを格納する映像記憶手段と、
    前記映像記憶手段から映像データを取得して、該映像データの人物を抽出し、歌唱者と聞き手を特定する分離手段と、
    前記分離手段により特定された前記聞き手の顔画像の表情及び音声に基づいて前記聞き手の感情状態を推定すると共に、前記歌唱者の歌唱のクオリティを推定し、該感情状態及び該歌唱のクオリティを評価結果記憶手段に格納する評価手段と、
    前記評価結果記憶手段に格納されている推定結果に基づいて、前記映像記憶手段から取得した前記映像データを編集する編集手段と、
    を有することを特徴とするカラオケ映像編集装置。
  2. 前記編集手段は、
    ネットワークを介して接続される、または、ローカルに、または、離れた場所に存在する記憶手段から編集済みの映像、または、前記映像データに表示するためのオブジェクトを取得して、該オブジェクトと前記評価手段の推定結果に基づいて、前記映像記憶手段の前記映像データを編集する手段を含む、
    請求項1記載のカラオケ映像編集装置。
  3. 前記分離手段は、
    前記歌唱者が手に持つマイクに付与されたIDタグを検出するタグ検出手段、
    前記映像データから顔または表情を検出する顔検出手段、
    前記映像データの予め定められた位置に人がいるか否かを判定する位置判定手段、のいずれか1つの手段を用いて、前記歌唱者と前記聞き手の位置を決定する手段を含む
    請求項1記載のカラオケ映像編集装置。
  4. 前記評価手段は、
    前記分離手段により取得した前記聞き手の顔画像から、「微笑んだ」、「笑った」、「哀しい」、「驚いた」、「幸せそうな」、「ぼんやりとした」の少なくとも1つ以上の表情を、感性表現カテゴリに分類することにより、該聞き手の感情状態を決定する手段を含む
    請求項1記載のカラオケ映像編集装置。
  5. 前記評価手段は、
    前記歌唱者の歌声のパターンと前記カラオケのメロディのパターンとの整合性に基づいて、該歌唱者の前記歌唱クオリティを求める手段を含む
    請求項1記載のカラオケ映像編集装置。
  6. 前記編集手段は、
    前記評価手段により取得した前記聞き手の感情状態と前記歌唱者のクオリティに基づいて、前記映像データの編集に用いる画像、テキスト、音声が格納されているデータベースから少なくとも1つを合成パターンとして選択する手段を含む
    請求項1記載のカラオケ映像編集装置。
  7. 前記編集手段は、
    前記ネットワークを介して接続される、または、ローカルに、または、離れた場所に存在する分散カラオケ装置に配信された前記歌唱者に対する聞き手の映像を取得して、編集対象の映像フレーム内に合成して表示させる手段を含む
    請求項2記載のカラオケ映像編集装置。
  8. カラオケ映像を編集するカラオケ映像編集方法であって、
    取得したカラオケの映像データを取得して、映像記憶手段に格納する映像取得ステップと、
    分離手段が、前記映像記憶手段から映像データを取得して、該映像データの人物を抽出し、歌唱者と聞き手を特定する分離ステップと、
    評価手段が、前記分離ステップで分離された前記聞き手の前記顔画像の表情及び音声に基づいて前記聞き手の感情状態を推定すると共に、前記歌唱者の歌唱のクオリティを推定し、該感情状態及び該歌唱のクオリティを評価結果記憶手段に格納する評価ステップと、
    編集手段が、前記評価結果記憶手段に格納されている推定結果に基づいて、前記映像記憶手段から取得した前記映像データを編集する編集ステップと、
    を行うことを特徴とするカラオケ映像編集方法。
  9. 前記編集ステップにおいて、
    ネットワークを介して接続される、または、ローカルに、または、離れた場所に存在する記憶手段から編集済みの映像、または、前記映像データに表示するためのオブジェクトを取得して、該オブジェクトと前記評価手段の推定結果に基づいて、前記映像記憶手段の前記映像データを編集する、
    請求項8記載のカラオケ映像編集方法。
  10. 前記分離ステップにおいて、
    前記歌唱者が手に持つマイクに付与されたIDタグを検出するタグ検出ステップ、
    前記映像データから顔または表情を検出する顔検出ステップ、
    前記映像データの予め定められた位置に人がいるか否かを判定する位置判定ステップ、のいずれか1つの処理を行うことにより、前記歌唱者と前記聞き手の位置を決定する
    請求項8記載のカラオケ映像編集方法。
  11. 前記評価ステップにおいて、
    前記分離ステップで特定された前記聞き手の顔画像から、「微笑んだ」、「笑った」、「哀しい」、「驚いた」、「幸せそうな」、「ぼんやりとした」の少なくとも1つ以上の表情を、感性表現カテゴリに分類することにより、該聞き手の感情状態を決定する
    請求項8記載のカラオケ映像編集方法。
  12. 前記評価ステップにおいて
    前記歌唱者の歌声のパターンと前記カラオケのメロディのパターンとの整合性に基づいて、該歌唱者の前記歌唱クオリティを求める
    請求項8記載のカラオケ映像編集方法。
  13. 前記編集ステップにおいて、
    前記評価ステップを行うことにより取得した前記聞き手の感情状態と前記歌唱者のクオリティに基づいて、前記映像データの編集に用いる画像、テキスト、音声が格納されているデータベースから少なくとも1つを合成パターンとして選択する
    請求項8記載のカラオケ映像編集方法。
  14. 前記編集ステップにおいて、
    前記ネットワークを介して接続される、または、ローカルに、または、離れた場所に存在する分散カラオケ装置に配信された前記歌唱者に対する聞き手の映像を取得して、編集対象の映像フレーム内に合成して表示させる
    請求項9記載のカラオケ映像編集方法。
  15. 請求項1乃至7のいずれか1項に記載のカラオケ映像編集装置を構成する各手段としてコンピュータを機能させるためのカラオケ映像編集プログラム。
JP2008139798A 2008-05-28 2008-05-28 カラオケ映像編集装置及び方法及びプログラム Pending JP2009288446A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008139798A JP2009288446A (ja) 2008-05-28 2008-05-28 カラオケ映像編集装置及び方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008139798A JP2009288446A (ja) 2008-05-28 2008-05-28 カラオケ映像編集装置及び方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2009288446A true JP2009288446A (ja) 2009-12-10

Family

ID=41457731

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008139798A Pending JP2009288446A (ja) 2008-05-28 2008-05-28 カラオケ映像編集装置及び方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2009288446A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011215895A (ja) * 2010-03-31 2011-10-27 Ntt Docomo Inc コンテンツ評価装置及びコンテンツ評価方法
JP2012068419A (ja) * 2010-09-23 2012-04-05 Brother Ind Ltd カラオケ装置
JP2012208387A (ja) * 2011-03-30 2012-10-25 Xing Inc カラオケ装置
JP2012208281A (ja) * 2011-03-29 2012-10-25 Xing Inc カラオケ装置
WO2014162788A1 (ja) * 2013-04-02 2014-10-09 Necソリューションイノベータ株式会社 顔表情採点装置、ダンス採点装置、カラオケ装置、およびゲーム装置
EP2993615A1 (en) 2014-09-05 2016-03-09 Omron Corporation Scoring device and scoring method
CN108122270A (zh) * 2016-11-30 2018-06-05 卡西欧计算机株式会社 动态图像编辑装置以及动态图像编辑方法
JP2018157293A (ja) * 2017-03-16 2018-10-04 カシオ計算機株式会社 動画像処理装置、動画像処理方法及びプログラム
JP7306439B2 (ja) 2017-03-30 2023-07-11 日本電気株式会社 情報処理装置、情報処理方法、情報処理プログラムおよび情報処理システム

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011215895A (ja) * 2010-03-31 2011-10-27 Ntt Docomo Inc コンテンツ評価装置及びコンテンツ評価方法
JP2012068419A (ja) * 2010-09-23 2012-04-05 Brother Ind Ltd カラオケ装置
JP2012208281A (ja) * 2011-03-29 2012-10-25 Xing Inc カラオケ装置
JP2012208387A (ja) * 2011-03-30 2012-10-25 Xing Inc カラオケ装置
WO2014162788A1 (ja) * 2013-04-02 2014-10-09 Necソリューションイノベータ株式会社 顔表情採点装置、ダンス採点装置、カラオケ装置、およびゲーム装置
EP2993615A1 (en) 2014-09-05 2016-03-09 Omron Corporation Scoring device and scoring method
US9892652B2 (en) 2014-09-05 2018-02-13 Omron Corporation Scoring device and scoring method
CN108122270A (zh) * 2016-11-30 2018-06-05 卡西欧计算机株式会社 动态图像编辑装置以及动态图像编辑方法
JP2018088655A (ja) * 2016-11-30 2018-06-07 カシオ計算機株式会社 動画像編集装置及び動画像編集方法
JP2018157293A (ja) * 2017-03-16 2018-10-04 カシオ計算機株式会社 動画像処理装置、動画像処理方法及びプログラム
JP7306439B2 (ja) 2017-03-30 2023-07-11 日本電気株式会社 情報処理装置、情報処理方法、情報処理プログラムおよび情報処理システム

Similar Documents

Publication Publication Date Title
JP2009288446A (ja) カラオケ映像編集装置及び方法及びプログラム
US10699684B2 (en) Method for creating audio tracks for accompanying visual imagery
US11238900B2 (en) Event reel generator for video content
JP3941417B2 (ja) ソース音声信号内の新規点の識別方法
Tzanetakis Manipulation, analysis and retrieval systems for audio signals
Castellano et al. Automated analysis of body movement in emotionally expressive piano performances
Tzanetakis et al. Marsyas: A framework for audio analysis
US10134440B2 (en) Video summarization using audio and visual cues
Hua et al. Optimization-based automated home video editing system
Peeters Deriving musical structures from signal analysis for music audio summary generation:“sequence” and “state” approach
Kuo et al. Background music recommendation for video based on multimodal latent semantic analysis
WO2005069171A1 (ja) 文書対応付け装置、および文書対応付け方法
JP2006501502A (ja) オーディオトラックのオーディオサムネイルを生成するシステムおよび方法
KR102161080B1 (ko) 동영상의 배경음악 생성 장치, 방법 및 프로그램
Tzanetakis et al. A framework for audio analysis based on classification and temporal segmentation
Duan et al. Audiovisual analysis of music performances: Overview of an emerging field
Li et al. Skeleton Plays Piano: Online Generation of Pianist Body Movements from MIDI Performance.
Jeong et al. Träumerai: Dreaming music with stylegan
Liem et al. Comparative Analysis of Orchestral Performance Recordings: An Image-Based Approach.
EP3399438A1 (en) Method for creating preview track and apparatus using same
Sarasúa Context-aware gesture recognition in classical music conducting
Xu et al. Automatic generation of music slide show using personal photos
JP2007060606A (ja) ビデオの自動構造抽出・提供方式からなるコンピュータプログラム
Liao et al. Mining association patterns between music and video clips in professional MTV
JP4631251B2 (ja) メディア検索装置およびメディア検索プログラム