JP4488091B2

JP4488091B2 - 電子機器、映像コンテンツ編集方法及びプログラム

Info

Publication number: JP4488091B2
Application number: JP2008164652A
Authority: JP
Inventors: 昇村林
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2008-06-24
Filing date: 2008-06-24
Publication date: 2010-06-23
Anticipated expiration: 2028-06-24
Also published as: CN101615389B; US8494338B2; US20100008641A1; KR20100002090A; JP2010010780A; CN101615389A; KR101590186B1

Description

本発明は、映像コンテンツを編集可能な電子機器、当該電子機器における映像コンテンツ編集方法及びそのプログラムに関する。

従来から、カムコーダ等で撮影された映像コンテンツに、ＢＧＭ（Background Music）や効果音等を付加する編集作業が行われている。例えば、下記特許文献１には、編集対象映像の特徴（記録時間や画像枚数）を抽出し、予め定めたユーザが与える指示に基づいて、編集対象映像に最適な音楽を自動的に生成して編集対象映像に付加する映像信号編集装置が開示されている。
特開２００１−２０２０８２号公報（段落［００２４］、［００３１］、図２等）

しかしながら、上記特許文献１に記載のような技術においては、編集対象映像に音楽が付加されることで、元の編集対象映像に記録されている元の音声信号が消去されてしまう。したがって、シーンによっては、音楽を付加するよりもむしろ元の音声信号を残した方が編集対象映像をより印象深いものにすることができる場合があるが、上記特許文献１の技術を用いる場合はそれができないため、ユーザの利便性を欠くこととなる。また、一般的に、編集対象映像のどの区間に音楽を付加し、どの区間を元の音声信号のままにしておくかをユーザが手動で選択して編集することも考えられるが、その作業は非常に煩雑で面倒である。

以上のような事情に鑑み、本発明の目的は、シーンに応じて、元の映像コンテンツ中の音声信号を効果的に残しながら他の音声信号を付加することが可能な電子機器、映像コンテンツ編集方法及びプログラムを提供することにある。

上述の課題を解決するため、本発明の一の形態に係る電子機器は、第１の入力手段と、第２の入力手段と、第１の算出手段と、第２の算出手段と、設定手段と、生成手段とを有する。
上記第１の入力手段は、第１の映像コンテンツを構成する画像信号及び第１の音声信号を入力する。
上記第２の入力手段は、上記第１の音声信号とは異なる第２の音声信号を入力する。
上記第１の算出手段は、上記入力された画像信号から、人物の顔が表れた顔画像領域を検出して、当該検出された顔画像領域の確からしさを評価する顔評価値を算出する。
上記第２の算出手段は、上記入力された第１の音声信号から、上記人物の声を検出して、当該検出された声の大きさを評価する声評価値を算出する。
上記設定手段は、上記算出された顔評価値及び声評価値を基に、上記画像信号毎に、上記第１の音声信号の重みを示す第１の重み係数及び上記第２の音声信号の重みを示す第２の重み係数を設定する。
上記生成手段は、上記設定された第１及び第２の重み係数を基に、上記第１及び第２の音声信号を混合した第３の音声信号を生成し、当該第３の音声信号及び上記画像信号により構成される第２の映像コンテンツを生成する。
ここで電子機器とは、例えばＰＣ（Personal Computer）、ＨＤＤ（Hard Disk Drive）／ＤＶＤ／ＢＤ（Blu-ray Disc）等の記録媒体を用いた記録再生装置、デジタルビデオカメラ、携帯型ＡＶ機器、携帯電話機、ゲーム機器等の電化製品等である。第１の映像コンテンツとは、例えばカムコーダ等の機器により記録された映像コンテンツや、ネットワークを介して受信された映像コンテンツ等である。第２の音声信号とは、例えばＢＧＭや効果音用の音声信号である。
この構成により、電子機器は、第１の映像コンテンツ中に含まれる顔画像と声とを基に、第１及び第２の音声信号の重みを可変して、第１の映像コンテンツから第２の映像コンテンツを生成することができる。したがって、第１の映像コンテンツに単に別の音声を挿入するような場合に比べて、シーンに応じて、人物の声をそのまま残したり、別の音声を挿入したりすることで、編集効果を高めて、より印象的な第２の映像コンテンツを生成することができる。

上記設定手段は、上記顔評価値が第１の閾値以上であり、かつ、上記声評価値が第２の閾値以上である場合に、上記第１の重み係数を上記第２の重み係数よりも大きい第１の値に設定してもよい。
顔評価値と声評価値とが共に大きい場合には、第１の映像コンテンツに現れる人物が話している可能性が高いと考えられる。したがって、そのような場合には第１の重み係数を第２の重み係数よりも極力大きくして当該人物の声を強調することで、当該人物をより印象付けることができる。ここで、上記第１の値は１に設定されてもよい。

上記設定手段は、上記顔評価値が上記第１の閾値未満であり、かつ、上記声評価値が上記第２の閾値未満である場合に、上記第１の重み係数を上記第２の重み係数よりも小さい第２の値に設定してもよい。
顔評価値と声評価値とが共に小さい場合には、第１の映像コンテンツには人物が現れない可能性が高いと考えられる。したがって、そのような場合には第１の重み係数を第２の重み係数よりも極力小さくして、第２の音声信号を強調することで、第１の映像コンテンツの平凡なシーンをより魅力的なものに編集することができる。ここで、第２の値は０に設定されてもよい。

上記設定手段は、上記顔評価値が上記第１の閾値以上であり、かつ、上記声評価値が上記第２の閾値未満である場合に、上記顔評価値及び上記声評価値に応じて、上記第１の重み係数を上記第２の重み係数よりも大きく設定してもよい。
顔評価値が大きく、声評価値が小さい場合には、第１の映像コンテンツ中に人物の顔が表れているため、声は小さくとも、その人物が何らかの声を発していると考えられる。したがって、そのような場合には、第２の音声信号を付加しつつも、第１の音声信号の重みを大きくすることで、第１の音声信号を強調しながら第２の音声信号の効果を付加することができる。

上記設定手段は、上記顔評価値が上記第１の閾値未満であり、かつ、上記声評価値が上記第２の閾値以上である場合に、上記顔評価値及び上記声評価値に応じて、上記第１の重み係数を上記第２の重み係数よりも小さく設定してもよい。
顔評価値が小さく、声評価値が大きい場合には、第１の映像コンテンツに人物がほとんど映っていないため、人物の声が含まれていても、その声は画像とはあまり関係ない人物の声であると考えられる。したがって、そのような場合には、第１の音声信号を残しつつも、第２の音声信号の重みを大きくすることで、第１の音声信号の効果を残しながら第２の音声信号の効果を高めることができる。

上記電子機器は、特定の人物の顔の特徴を示す顔特徴データを記憶する記憶手段を更に具備してもよい。
この場合、上記第１の算出手段は、上記記憶された顔特徴データを基に、上記特定の人物の顔が表れた顔画像領域を検出可能であってもよい。
これにより、映像コンテンツ中に複数の人物の顔が現れる場合でも、特定の人物の顔を他の人物の顔と区別して検出することができる。したがって、特定の人物に特化して、第１及び第２の音声信号の重み係数設定処理をより効果的に実行することができる。

上記電子機器は、特定の人物の声の特徴を示す声特徴データを記憶する記憶手段を更に具備してもよい。
この場合、上記第２の算出手段は、上記記憶された声特徴データを基に、上記特定の人物の声を検出可能であってもよい。
これにより、映像コンテンツ中に複数の人物の声が含まれる場合でも、特定の人物の声を他の人物の声と区別して検出することができる。したがって、特定の人物に特化して、第１及び第２の音声信号の重み係数設定処理をより効果的に実行することができる。

本発明の別の形態に係る映像コンテンツ編集方法は、第１の映像コンテンツを構成する画像信号及び第１の音声信号を入力すること及び上記第１の音声信号とは異なる第２の音声信号を入力することを含む。
上記入力された画像信号からは、人物の顔が表れた顔画像領域を検出され、当該検出された顔画像領域の確からしさを評価する顔評価値を算出される。
上記入力された第１の音声信号からは、上記人物の声を検出され、当該検出された声の大きさを評価する声評価値を算出される。
上記算出された顔評価値及び声評価値を基に、上記画像信号毎に、上記第１の音声信号の重みを示す第１の重み係数及び上記第２の音声信号の重みを示す第２の重み係数が設定される。
上記設定された第１及び第２の重み係数を基に、上記第１及び第２の音声信号が混合された第３の音声信号が生成され、当該第３の音声信号及び上記画像信号により構成される第２の映像コンテンツが生成される。
この構成により、第１の映像コンテンツに単に別の音声を挿入するような場合に比べて、シーンに応じて、人物の声をそのまま残したり、別の音声を挿入したりすることで、編集効果を高めて、より印象的な第２の映像コンテンツを生成することができる。

本発明のまた別の形態に係るプログラムは、電子機器に、第１の入力ステップと、第２の入力ステップと、第１の算出ステップと、第２の算出ステップと、設定ステップと、生成ステップとを実行させるためのものである。
上記第１の入力ステップは、第１の映像コンテンツを構成する画像信号及び第１の音声信号を入力する。
上記第２の入力ステップは、上記第１の音声信号とは異なる第２の音声信号を入力する。
上記第１の算出ステップは、上記入力された画像信号から、人物の顔が表れた顔画像領域を検出して、当該検出された顔画像領域の確からしさを評価する顔評価値を算出する。
上記第２の算出ステップは、上記入力された第１の音声信号から、上記人物の声を検出して、当該検出された声の大きさを評価する声評価値を算出する。
上記設定ステップは、上記算出された顔評価値及び声評価値を基に、上記画像信号毎に、上記第１の音声信号の重みを示す第１の重み係数及び上記第２の音声信号の重みを示す第２の重み係数を設定する。
上記生成ステップは、上記設定された第１及び第２の重み係数を基に、上記第１及び第２の音声信号を混合した第３の音声信号を生成し、当該第３の音声信号及び上記画像信号により構成される第２の映像コンテンツを生成する。

以上のように、本発明によれば、シーンに応じて、元の映像コンテンツ中の音声信号を効果的に残しながら他の音声信号を付加することができる。

以下、本発明の実施の形態を図面に基づき説明する。

図１は、本発明の一実施形態に係る記録再生装置の構成を示すブロック図である。
同図に示すように、本実施形態に係る記録再生装置１００は、画像信号入力部１及び３、音声信号入力部２及び４、入力画像処理部５、入力音声処理部６、画像特徴検出部７、音声特徴検出部８、記録部９、記録媒体１０を有する。記録再生装置１００はまた、再生部１１、出力画像処理部１２、出力音声処理部１３、ユーザインタフェース部１４、ＣＰＵ（Central Processing Unit）１５及びＲＡＭ（Random Access Memory）１６を有する。

画像信号入力部１及び３は、各種有線通信用端子や無線通信用ユニットである。有線通信用端子としては、例えばＳ端子、ＲＣＡ端子、ＤＶＩ（Digital Visual Interface）端子、ＨＤＭＩ（High-Definition Multimedia Interface）端子、Ethernet（登録商標）端子等の有線通信用端子、ＵＳＢ（Universal Serial Bus）端子、IEEE 1394端子等が挙げられる。無線通信用ユニットとしては、例えば無線ＬＡＮ、Bluetooth（登録商標）、無線ＵＳＢ、無線ＨＤＭＩ等の各無線ユニットが挙げられる。しかし、有線通信用端子、無線通信用端子は、これらに限られるものではない。画像信号入力部１及び３は、各種ケーブルや無線ネットワークを介して、映像コンテンツの画像信号を記録再生装置１００内に入力し、入力画像処理部５へ供給する。ここで映像コンテンツとは、例えばカムコーダ等で撮影されたコンテンツやインターネット上のコンテンツである。

音声信号入力部２及び４も、各種有線通信用端子や無線通信用ユニットであり、Ｓ端子及びＤＶＩ端子を除いて上記各端子及び各ユニットとほぼ同様である。音声信号入力部２及び４は、上記各種ケーブルや無線ネットワークを介して、映像コンテンツの音声信号を記録再生装置１００内に入力し、入力音声処理部６へ供給する。

また、上記画像信号入力部１及び３、音声信号入力部２及び４は、図示しないアンテナを介して、デジタル放送信号に含まれる画像信号及び音声信号を記録再生装置１００内に入力するアンテナ入力端子及びチューナ等であってもよい。

入力画像処理部５は、入力された画像信号に、デジタル変換処理やエンコード処理等の種々の信号処理を施し、デジタル画像信号として画像特徴検出部７及び記録部９へ出力する。
入力音声処理部６は、入力された音声信号に、デジタル変換処理やエンコード処理等の種々の信号処理を施し、デジタル音声信号として音声特徴検出部８及び記録部９へ出力する。

画像特徴検出部７は、入力画像処理部５から供給された画像信号中から、人の顔が表れた顔画像（顔画像の領域）を検出して、当該顔画像領域の確からしさを評価する顔評価値を算出する。
音声特徴検出部８は、入力音声処理部６から供給された音声信号中から、人の声を検出し、当該検出された声の大きさを評価する声評価値を算出する。

記録部９は、入力画像処理部５から供給された画像信号及び入力音声処理部６から供給された音声信号を多重化して、記録媒体１０へ記録する。

記録媒体１０としては、例えばＨＤＤ、フラッシュメモリ等の内蔵型の記録媒体や、光ディスク、メモリカード等の可般性の記録媒体が挙げられる。光ディスクとしては、ＢＤ、ＤＶＤ、ＣＤ等が挙げられる。記録媒体１０は、種々の映像コンテンツ、各種プログラム及びデータ等を記憶する。記録媒体１０が内蔵型の記録媒体である場合、記録媒体１０は、ＯＳや、上記顔画像の検出処理、声の検出処理、それら検出処理の学習処理、映像コンテンツの音声編集処理等を実行するための各種プログラム及びデータを記憶する。記録媒体１０が可般性の記録媒体である場合、記録再生装置１００には、上記各種プログラムやデータを記録するための図示しない内蔵型の記録媒体が別途設けられる。

再生部１１は、記録媒体１０に記録された多重化された画像信号及び音声信号を読み出して分離し、分離された画像信号及び音声信号をデコードして、画像信号を出力画像処理部１２へ、音声信号を出力音声処理部１３へ供給する。映像信号及び音声信号の圧縮形式としては、例えばＭＰＥＧ（Moving Picture Expert Group）−２やＭＰＥＧ−４等が挙げられる。

出力画像処理部１２は、アナログ変換処理やＯＳＤ（On Screen Display）処理等の種々の信号処理を施し、当該画像信号を例えば記録再生装置１００に接続された液晶ディスプレイ等の外部機器や、記録再生装置１００に内蔵された液晶ディスプレイへ出力する。
出力音声処理部１３は、アナログ変換処理等の種々の信号処理を施し、当該音声信号を上記外部機器や内蔵液晶ディスプレイへ出力する。

ユーザインタフェース部１４は、例えばリモートコントローラの赤外線信号受光部や、操作ボタン、スイッチ、マウス、キーボード等であり、ユーザの操作による各種指令を入力してＣＰＵ１５へ出力する。

ＣＰＵ１５は、必要に応じてＲＡＭ１６等に適宜アクセスし、記録再生装置１００の各ブロックを統括的に制御する。ＲＡＭ１６は、ＣＰＵ１５の作業用領域等として用いられ、ＯＳ（Operating System）やプログラム、処理データ等を一時的に保持する。

外部音声ソース１７は、例えばＰＣや各種ＡＶ機器等の外部機器であり、映像コンテンツに挿入するためのＢＧＭ（または効果音）の音声信号（以下、ＢＧＭ音声と称する）を記憶し、各種インタフェースを介してＣＰＵ１５へ当該音声信号を入力する。しかし、外部音声ソース１７は、上記記録媒体１０等、記録再生装置１００に内蔵または装着された記録媒体であってもよい。

次に、以上のように構成された記録再生装置１００の動作について説明する。

本実施形態において、記録再生装置１００は、映像コンテンツを編集して、当該映像コンテンツに上記外部音声ソース１７に記憶されたＢＧＭ音声を挿入することが可能である。このＢＧＭ音声の挿入にあたり、記録再生装置１００は、上述したように、映像コンテンツの画像信号から顔画像を検出し、音声信号から声を検出して、それに応じてＢＧＭ音声の挿入の適否を判断する。このうち顔画像の検出のために、記録再生装置１００は、前処理として、学習処理を実行する。以下、この学習処理について説明する。

図２は、顔画像検出のための学習処理について概念的に示した図である。
同図に示すように、記録再生装置１００の上記記録媒体１０には、様々な人物の顔画像のサンプルを表す顔画像サンプルデータと、非顔画像のサンプルを表す非顔画像サンプルデータとがそれぞれ学習用データとしてデータベース化され記憶されている。

記録再生装置１００の画像特徴検出部７は、この顔画像サンプルデータベース及び非顔画像サンプルデータベースに記憶された各サンプル画像データを、特徴フィルターにかけ、個々の顔特徴を抽出し、特徴ベクトル（特徴データ）を検出する。

特徴フィルターは、同図に示すように、例えば画像中の長方形のある部分は検出し、ある部分はマスクするようなフィルターである。この特徴フィルターにより、顔画像サンプルデータからは、顔の目、眉毛、鼻、頬等の位置関係が顔特徴として検出され、非顔画像サンプルデータからは、顔以外の物体の形、その物体の各構成要素の位置関係等が非顔特徴として検出される。特徴フィルターとしては、長方形のフィルター以外にも、例えば円形の特徴を検出する分離度フィルターや、特定方位のエッジにより顔の各パーツの位置関係を検出するGaborフィルター等が用いられても構わない。また、顔特徴の検出には、特徴フィルター以外にも、例えば輝度分布情報や肌色情報等が用いられても構わない。
ここで、画像特徴検出部７は、サンプル画像データからは、顔領域の大きさ及び位置を認識できない。したがって、画像特徴検出部７は、上記特徴フィルターの枠の大きさを変えて特徴フィルターにかけた場合に、最も確からしい検出値が得られたときの特徴フィルターの大きさを、顔領域の大きさと認識して顔特徴の抽出を行う。また、画像特徴検出部７は、サンプル画像データの全ての領域を特徴フィルターでスキャンした場合に、最も確からしい検出値が得られたときの特徴フィルターの位置を、顔領域の位置と認識して顔特徴の抽出を行う。

画像特徴検出部７は、この顔画像サンプルデータ及び非顔画像サンプルデータから抽出された各特徴から、多次元の特徴ベクトルを生成する。そして、画像特徴検出部７は、この特徴ベクトルを、多次元ベクトル空間で表現し、統計的機械学習により判別関数を生成する。生成された判別関数は、例えば記録媒体１０等に記憶され、編集対象の映像コンテンツから顔画像を検出する際に用いられる。
また、判別関数を用いた判別分析処理の代わりに、例えばサポートベクターマシン（ＳＭＶ）、Ada-boost、ニューラルネットワーク等の機械学習的な手法を用いた判別分析処理が実行されてもよい。この場合、判別関数の代わりに、その判別処理を実行する処理モジュールが記録再生装置１００に組み込まれる。これは、以下の説明において判別関数が関係する処理についても同様である。

次に、本実施形態において、記録再生装置１００が映像コンテンツを編集して映像コンテンツにＢＧＭデータを挿入する処理について説明する。

図３は、記録再生装置１００の、映像コンテンツへのＢＧＭ挿入処理の流れを示したフローチャートである。
同図に示すように、まず、編集対象の映像コンテンツが、記録媒体１０から読み出され、または画像信号入力部１または３及び音声信号入力部２または４から入力される。続いてＣＰＵ１５は、当該映像コンテンツから、所定区間（所定数の連続フレーム）の画像信号及び音声信号を抽出する（ステップ３１）。抽出された所定区間の画像信号は、上記画像特徴検出部７へ供給され、所定区間の音声信号は、上記音声特徴検出部８へ供給される。

続いて、画像特徴検出部７は、上記判別関数を用いて、上記所定区間の画像信号から、顔画像領域を検出する（ステップ３２）。図４は、顔画像領域の検出処理について概念的に示した図である。同図に示すように、画像特徴検出部７は、所定区間の画像信号を上記特徴フィルターにかけ、顔特徴を抽出して、多次元の特徴ベクトルを生成する。そして、画像特徴検出部７は、当該特徴ベクトルの各次元の値を判別関数の各次元の変数に導入して、判別関数の出力が正負のいずれであるかにより、当該画像信号に顔画像領域が含まれるか否かを判定する。

そして、画像特徴検出部７は、この判別関数の出力値を基に、顔画像の検出の確からしさを評価する顔評価値Ｔｆを算出する（ステップ３２）。この顔評価値は、例えば、所定の明確な顔画像データを基に特徴ベクトルを生成してこれを判別関数に入力した場合における、判別関数の出力値を百分率で表した値とされる。

続いて、音声特徴検出部８は、所定区間の音声信号から、人の声が含まれる区間を検出する（ステップ３４）。図５は、声の検出処理について概念的に示した図である。同図においては、上記所定区間の音声信号のパワーが示されている。同図の波形Ａは、人の声を示しており、同図の波形Ｂは、人の声以外の音声を示している。

同図に示すように、音声特徴検出部８はまず、ノイズの影響を除去するために、音声パワーに関する閾値Ａｔｈを設定する。そして、音声特徴検出部８は、所定区間における平均パワーがＡｔｈよりも大きい場合には、その区間は音声区間であると判定し、Ａｔｈよりも小さい場合には、その区間は非音声区間であると判定する。すなわち、同図においては、波形Ａ及びＢ以外の音声信号は非音声区間とされる。

音声区間のうち、人の声には、子音、母音、息継ぎ等が含まれるため、音楽等の声以外の音声と比べて、所定パワー以上の継続区間が短いという特徴がある。この特徴を利用して、音声特徴検出部８は、時間に関する閾値Ｔｔｈを設定し、所定パワー以上の平均継続時間長がＴｔｈよりも小さい場合には、その区間は声区間とし、Ｔｔｈよりも大きい場合には、その区間は非声区間であると判定する。

続いて、音声特徴検出部８は、検出された声の大きさ（パワーレベル、振幅）を基に、声評価値Ｔｖを算出する（ステップ３５）この声評価値は、例えば検出可能な声の最大パワーレベルを１として、声のパワーレベルを百分率で表した値とされる。

続いて、ＣＰＵ１５は、上記顔評価値Ｔｆが、所定の閾値Ｔｆｓ以上であるか否かを判断する（ステップ３６）。ＣＰＵ１５は、顔評価値Ｔｆが閾値Ｔｆｓ以上である場合（Ｙｅｓ）、上記声評価値Ｔｖが所定の閾値Ｔｖｓ以上であるか否かを判断する（ステップ３７）。

ＣＰＵ１５は、声評価値Ｔｖが閾値Ｔｖｓ以上である場合（Ｙｅｓ）には、ＢＧＭ音声の重み係数ｋを、０．５よりも小さい所定の重みｋ１に設定し、映像コンテンツの音声信号の重み計数ｍを１−ｋ１に設定する。ｋ１は例えば０に設定されるが、０でない場合でも、極力０に近い値となるように設定される。

ＣＰＵ１５は、上記ステップ３７において、声評価値Ｔｖが閾値Ｔｖｓ未満である場合（Ｎｏ）には、顔評価値Ｔｆ及び声評価値Ｔｖに応じて上記重み係数ｋ及びｍを設定する（ステップ３９）。すなわち、重み係数ｋ及びｍのいずれも０または１ではないが、重み係数ｋは、重み係数ｍよりも小さく設定される。

ＣＰＵ１５は、上記ステップ３６において、顔評価値Ｔｆが閾値Ｔｆｓ未満である場合（Ｎｏ）、上記声評価値Ｔｖが所定の閾値Ｔｖｓ以上であるか否かを判断する（ステップ４０）。ＣＰＵ１５は、上記声評価値Ｔｖが閾値Ｔｖｓ以上である場合（Ｙｅｓ）には、顔評価値Ｔｆ及び声評価値Ｔｖに応じて上記重み係数ｋ及びｍを設定する（ステップ４１）。すなわち、重み係数ｋ及びｍのいずれも０または１ではないが、重み係数ｋは、重み係数ｍよりも大きく設定される。

ＣＰＵ１５は、上記ステップ４０において、声評価値Ｔｖが閾値Ｔｖｓ未満である場合（Ｎｏ）には、重み係数ｋを、０．５よりも大きい所定の重みｋ２に設定し、重み計数ｍを１−ｋ２に設定する。ｋ２は例えば１に設定されるが、１でない場合でも、極力１に近い値となるように設定される。

ＣＰＵ１５は、このように設定された重み係数ｋ及びｍに基づいて、映像コンテンツの所定区間毎（フレーム毎）に、映像コンテンツを編集して、外部音声ソース１７から入力されたＢＧＭ音声を挿入していく（ステップ４３）。

ＣＰＵ１５は、以上の処理を、映像コンテンツの全ての所定区間に対して実行するまで、または、ユーザ等から処理の中止が命令されるまで実行する（ステップ４４、４５）。ＣＰＵ１５は、編集後の映像コンテンツを、最終的に元の画像信号と多重化して、新たな映像コンテンツとして記録媒体１０に記録する。

図６は、以上説明した重み係数ｋ及びｍの設定処理を示した表である。同図に示すように、顔評価値及び声評価値が各閾値Ｔｆｓ及びＴｖｓ以上であるか否かに応じて、４つのパターンの重み係数が設定される。

図７は、上記顔評価値及び声評価値、重み係数ｋ及びｍ及び映像コンテンツの各フレーム画像との関係を示したグラフである。同図に示されるフレームｆ１〜ｆ６は、一例として、カムコーダ等で学校の運動会の様子が収録された映像コンテンツの一部のフレームを示している。

同図に示すように、映像コンテンツのフレームｆ１及びｆ２では、顔が小さすぎて、上記画像特徴検出部７により顔画像領域が検出されないため、顔評価値は低い（閾値Ｔｆｓ未満）。また、このフレームｆ１及びｆ２の区間では、遠くから撮影されており、人の声もほとんど集音されないため、声評価値も低い（閾値Ｔｖｓ未満）。そのため、この区間では、ＢＧＭ音声の重み係数ｋが高く、コンテンツの音声信号の重み係数ｍが低く設定されている。これにより、平凡なシーンをより魅力的なものに編集することができる。

フレームｆ３及びｆ４では、人がややアップで撮影され、集音される声もやや大きくなっているため、この区間では、顔評価値及び声評価値に応じて重み係数ｋ及びｍが設定される。これにより、人の音声も残しながら、同時にＢＧＭ挿入による効果も得ることができる。すなわち、画像特徴検出部７は、顔評価値が閾値Ｔｆｓ以上で声評価値が閾値Ｔｖｓ未満の場合には、ＢＧＭ音声の重みを低くすることで、画像に現れる人物の声を強調することができる。また、画像特徴検出部７は、顔評価値が閾値Ｔｆｓ未満で声評価値が閾値Ｔｖｓ以上の場合には、ＢＧＭ音声の重みを高くすることで、画像と無関係な人物の声よりも、ＢＧＭの効果を高めることができる。

フレームｆ５及びｆ６では、顔がはっきり検出できる程度に人がアップで撮影されているため、顔評価値は高い（閾値Ｔｆｓ以上）。また検出される声のパワーレベルも大きいため、声評価値も高い（閾値Ｔｖｓ未満）。そのため、この区間では、重み係数ｋは低く、重み係数ｍは高く設定されている。これにより、人の声を強調することで、その人をより印象付けることができる。

以上のように、本実施形態によれば、顔評価値及び声評価値に基づいて映像コンテンツにＢＧＭ音声を挿入することとしたため、シーンに応じて、元の映像コンテンツ中の音声信号を効果的に残しながら、ＢＧＭ音声を挿入することができる。これにより、単に一律にＢＧＭ音声を挿入する場合に比べて、映像コンテンツをより印象的な、思い出深いものとすることできる。

本発明は上述の実施形態にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。

上述の実施形態において、画像特徴検出部７は、人の顔画像のみならず、動物の顔画像を検出してもよい。また音声特徴検出部８は、人の声のみならず、動物の声を検出してもよい。

上述の実施形態において、画像特徴検出部７は、単に顔画像を検出するのみならず、特定の人物の顔画像を認識してもよい。この顔認識処理は、上記判別関数による顔検出処理の後に実行される。この顔認識処理には、エッジ強度画像、周波数強度画像、高次自己相関、カラー変換画像等を用いることができる。
図８は、エッジ強度画像を用いた顔認識処理を概念的に示した図である。
同図に示すように、記録媒体１０等には、顔認識したい人の特徴データ（辞書パターン）として、濃淡画像と、エッジ強度画像とが記憶されている。画像特徴検出部７は、検出された顔画像から、特徴データとして、濃淡画像及びエッジ強度画像を抽出する。そして、画像特徴検出部７は、この抽出した濃淡画像及びエッジ強度画像と、上記記憶された、顔認識したい人の濃淡画像及びエッジ強度画像とをパターンマッチングにより比較処理することで、特定の人の顔画像を認識することができる。この場合、画像特徴検出部７は、顔画像の認識率（マッチング率）を百分率で表して、顔評価値とすればよい。画像特徴検出部７は、目や鼻等の顔特徴点の情報が得られる場合には、上記エッジ強度画像等に加えてそれらの情報を併用することもできる。
この処理により、例えば上記図７の例では、多数の子供の中から、ユーザの子供の顔のみを検出及び認識する等、特定の人の顔の認識率に応じて、映像コンテンツにＢＧＭを挿入することができる。これにより、編集後の映像コンテンツをより印象深いものとすることができる。

上述の実施形態において、音声特徴検出部８は、単に声を検出するのみならず、特定の人物の声を認識してもよい。この声認識処理は、例えば、音声特徴検出部８が、認識したい人の声信号を周波数解析して、スペクトル特性を検出して上記記録媒体１０等に記憶しておき、検出された声のスペクトル特性と比較処理（パターンマッチング）することで実行される。スペクトル特性としては、子音部分及び母音部分のスペクトルピーク周波数、スペクトル間隔等が用いられる。また、息継ぎの間隔等も個人によって異なるため、音声特徴検出部８は、息継ぎの間隔に関する情報を上記スペクトル特性と併用しても構わない。この場合、音声特徴検出部８は、声認識率（マッチング率）を百分率で表して、声評価値とすればよい。
この処理により、特定の人の声の認識率に応じて、映像コンテンツにＢＧＭを挿入することができるため、編集後の映像コンテンツをより印象深いものとすることができる。

上述の実施形態においては、画像特徴検出部７は、顔評価値が閾値Ｔｆｓ未満で声評価値が閾値Ｔｖｓ以上の場合には、ＢＧＭ音声の重みを高く設定した。しかし、この場合、画像特徴検出部７は、逆にＢＧＭ音声の重みを低く設定してもよい。これにより、撮影対象人物と、撮影者の両方の声を残すことが可能となる。また、上記声の認識が可能な場合、撮影者の声を認識し、顔評価値が閾値Ｔｆｓ未満でも、撮影者の声の声評価値が閾値Ｔｖｓ以上の場合には、ＢＧＭ音声の重みを低く設定してもよい。これにより、撮影者の音声をより確実に効果的に残すことができる。

上述の実施形態においては、記録再生装置１００は、声の検出処理については学習処理を実行しないが、もちろん、学習処理を実行しても構わない。

上述の実施形態においては、本発明を記録再生装置に適用した例を示したが、本発明を、ＰＣ、デジタルビデオカメラ、携帯型ＡＶ機器、携帯電話機、ゲーム機器等の他の電子機器に適用することももちろん可能である。

本発明の一実施形態に係る記録再生装置の構成を示すブロック図である。本発明の一実施形態における顔画像検出のための学習処理について概念的に示した図である。本発明の一実施形態に係る記録再生装置の、映像コンテンツへのＢＧＭ挿入処理の流れを示したフローチャートである。本発明の一実施形態における顔画像領域の検出処理について概念的に示した図である。本発明の一実施形態における声の検出処理について概念的に示した図である。本発明の一実施形態における重み係数ｋ及びｍの設定処理を示した表である。本発明の一実施形態における上記顔評価値及び声評価値、重み係数ｋ及びｍ及び映像コンテンツの各フレーム画像との関係を示したグラフである。本発明の他の実施形態における、エッジ強度画像を用いた顔認識処理を概念的に示した図である。

符号の説明

１、３…画像信号入力部
２、４…音声信号入力部
５…入力画像処理部
６…入力音声処理部
７…画像特徴検出部
８…音声特徴検出部
９…記録部
１０…記録媒体
１１…再生部
１２…出力画像処理部
１３…出力音声処理部
１４…ユーザインタフェース部
１５…ＣＰＵ
１６…ＲＡＭ
１７…外部音声ソース
１００…記録再生装置

Claims

第１の映像コンテンツを構成する画像信号及び第１の音声信号を入力する第１の入力手段と、
前記第１の音声信号とは異なる第２の音声信号を入力する第２の入力手段と、
前記入力された画像信号から、人物の顔が表れた顔画像領域を検出して、当該検出された顔画像領域の確からしさを評価する顔評価値を算出する第１の算出手段と、
前記入力された第１の音声信号から、前記人物の声を検出して、当該検出された声の大きさを評価する声評価値を算出する第２の算出手段と、
前記算出された顔評価値及び声評価値を基に、前記画像信号毎に、前記第１の音声信号の重みを示す第１の重み係数及び前記第２の音声信号の重みを示す第２の重み係数を設定する設定手段と、
前記設定された第１及び第２の重み係数を基に、前記第１及び第２の音声信号を混合した第３の音声信号を生成し、当該第３の音声信号及び前記画像信号により構成される第２の映像コンテンツを生成する生成手段と
を具備する電子機器。
請求項１に記載の電子機器であって、
前記設定手段は、前記顔評価値が第１の閾値以上であり、かつ、前記声評価値が第２の閾値以上である場合に、前記第１の重み係数を前記第２の重み係数よりも大きい第１の値に設定する
電子機器。
請求項２に記載の電子機器であって、
前記設定手段は、前記顔評価値が前記第１の閾値未満であり、かつ、前記声評価値が前記第２の閾値未満である場合に、前記第１の重み係数を前記第２の重み係数よりも小さい第２の値に設定する
電子機器。
請求項３に記載の電子機器であって、
前記設定手段は、前記顔評価値が前記第１の閾値以上であり、かつ、前記声評価値が前記第２の閾値未満である場合に、前記顔評価値及び前記声評価値に応じて、前記第１の重み係数を前記第２の重み係数よりも大きく設定する
電子機器。
請求項３に記載の電子機器であって、
前記設定手段は、前記顔評価値が前記第１の閾値未満であり、かつ、前記声評価値が前記第２の閾値以上である場合に、前記顔評価値及び前記声評価値に応じて、前記第１の重み係数を前記第２の重み係数よりも小さく設定する
電子機器。
請求項３に記載の電子機器であって、
特定の人物の顔の特徴を示す顔特徴データを記憶する記憶手段を更に具備し、
前記第１の算出手段は、前記記憶された顔特徴データを基に、前記特定の人物の顔が表れた顔画像領域を検出可能である
電子機器。
請求項３に記載の電子機器であって、
特定の人物の声の特徴を示す声特徴データを記憶する記憶手段を更に具備し、
前記第２の算出手段は、前記記憶された声特徴データを基に、前記特定の人物の声を検出可能である
電子機器。
第１の映像コンテンツを構成する画像信号及び第１の音声信号を入力し、
前記第１の音声信号とは異なる第２の音声信号を入力し、
前記入力された画像信号から、人物の顔が表れた顔画像領域を検出して、当該検出された顔画像領域の確からしさを評価する顔評価値を算出し、
前記入力された第１の音声信号から、前記人物の声を検出して、当該検出された声の大きさを評価する声評価値を算出し、
前記算出された顔評価値及び声評価値を基に、前記画像信号毎に、前記第１の音声信号の重みを示す第１の重み係数及び前記第２の音声信号の重みを示す第２の重み係数を設定し、
前記設定された第１及び第２の重み係数を基に、前記第１及び第２の音声信号を混合した第３の音声信号を生成し、当該第３の音声信号及び前記画像信号により構成される第２の映像コンテンツを生成する
映像コンテンツ編集方法。
電子機器に、
第１の映像コンテンツを構成する画像信号及び第１の音声信号を入力するステップと、
前記第１の音声信号とは異なる第２の音声信号を入力するステップと、
前記入力された画像信号から、人物の顔が表れた顔画像領域を検出して、当該検出された顔画像領域の確からしさを評価する顔評価値を算出するステップと、
前記入力された第１の音声信号から、前記人物の声を検出して、当該検出された声の大きさを評価する声評価値を算出するステップと、
前記算出された顔評価値及び声評価値を基に、前記画像信号毎に、前記第１の音声信号の重みを示す第１の重み係数及び前記第２の音声信号の重みを示す第２の重み係数を設定するステップと、
前記設定された第１及び第２の重み係数を基に、前記第１及び第２の音声信号を混合した第３の音声信号を生成し、当該第３の音声信号及び前記画像信号により構成される第２の映像コンテンツを生成するステップと
を実行させるためのプログラム。