JP2003158643A

JP2003158643A - 信号処理方法及び信号処理装置

Info

Publication number: JP2003158643A
Application number: JP2001353922A
Authority: JP
Inventors: Tatsuro Yamauchi; 達郎山内
Original assignee: Shibasoku Co Ltd
Current assignee: Shibasoku Co Ltd
Priority date: 2001-11-20
Filing date: 2001-11-20
Publication date: 2003-05-30

Abstract

(57)【要約】【課題】本発明は、信号処理方法及び信号処理装置に
関し、例えば音声信号と映像信号とを同期させる信号処
理装置に適用して、音声解析、動画像解析により音声と
映像との時間ずれを検出する場合に、従来に比して高い
精度で時間ずれを検出することができるようにする。【解決手段】本発明は、映像信号ＳＹ、ＳＣの画像処
理により、人物の顔、目、唇の動きを順次検出して音声
発生のタイミングを検出する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、信号処理方法及び
信号処理装置に関し、例えば音声信号と映像信号とを同
期させる信号処理装置に適用することができる。本発明
は、映像信号の画像処理により、人物の顔、目、唇の動
きを順次検出して音声発生のタイミングを検出すること
により、音声解析、動画像解析により音声と映像との時
間ずれを検出する場合に、従来に比して高い精度で時間
ずれを検出することができるようにする。

【０００２】

【従来の技術】従来、放送現場においては、映像信号及
び音声信号が異なる伝送路により伝送される等により、
音声と映像との間で時間ずれが発生する。このため放送
現場においては、テスト用の映像信号及び音声信号を送
信側より受信側に伝送して解析することにより、時間ず
れを計測、補正するようになされている。

【０００３】これに対して特開２０００−１９６９１７
号公報、ＮＨＫエンジニアリングサービス：VEIW Vol.2
0 No1 P35 〜P36 等においては、音声解析、動画像解析
により音声と映像との間における音声発生のタイミング
のずれを検出することにより、時間ずれを検出する方法
が提案されるようになされている。

【０００４】これらの方法においては、音声信号の立ち
上がりにより音声発生のタイミングを音声より検出する
ようになされている。また指定した領域で動きベクトル
を検出することにより唇の動きを検出し、さらには色彩
を基準にして動きベクトルを検出することにより唇の動
きを検出し、このようにして検出した唇の動きの判定に
より、音声発生のタイミングを映像より検出するように
なされている。

【０００５】

【発明が解決しようとする課題】ところでこのような音
声解析、動画像解析により音声と映像との時間ずれを検
出する場合においては、テスト用の映像信号及び音声信
号を伝送しなくても、アナウンサー等の映像及び音声に
より時間ずれを検出できることにより、便利であると考
えられる。

【０００６】しかしながら従来の手法においては、映像
より音声発生のタイミングを検出する精度が低く、これ
により実用上未だ不十分な問題があった。すなわち指定
した領域で動きベクトルを検出して唇の動きを検出する
場合には、映像の変化に対応して適切に領域を設定する
ことが困難なことにより唇の動きを正確に検出できない
欠点がある。また色彩を基準にして動きベクトルを検出
して唇の動きを検出する場合には、唇が特異な色の場合
もあり、また唇と同一色による背景等が画面中に存在す
る場合、対象人物が正面を向いていない場合、さらには
複数の人物が画面中に登場する場合等において、正しく
唇の動きを検出することが困難になり、これによりこの
場合も唇の動きを正確に検出できない欠点がある。

【０００７】本発明は以上の点を考慮してなされたもの
で、音声解析、動画像解析により音声と映像との時間ず
れを検出する場合に、従来に比して高い精度で時間ずれ
を検出することができる信号処理方法及び信号処理装置
を提案しようとするものである。

【０００８】

【課題を解決するための手段】かかる課題を解決するた
め請求項１の発明においては、信号処理方法に適用し
て、映像信号の画像処理により、人物の顔を検出する顔
検出ステップと、顔検出ステップによる検出結果に基づ
く映像信号の画像処理により、人物の目を検出する目検
出ステップと、顔検出ステップ及び目検出ステップによ
る検出結果に基づいて、人物の唇が位置すると判断され
る領域を検出する領域検出ステップと、映像信号より動
きベクトルを検出する動きベクトル検出ステップと、動
きベクトル検出ステップで検出される動きベクトルよ
り、領域の動きベクトルを選択的に処理して、人物の唇
の動きを検出する動きベクトル処理ステップと、動きベ
クトル処理ステップによる検出結果に基づいて、人物の
発声のタイミングを検出する発声検出ステップと、映像
信号に対応する音声信号より、人物の発声に対応する音
声のタイミングを検出する音声検出ステップと、発声検
出ステップと、音声検出ステップとの検出結果に基づい
て、映像信号に対する音声信号の時間ずれ量を検出する
遅延時間検出ステップとを有するようにする。

【０００９】また請求項２の発明においては、請求項１
の構成において、領域検出ステップは、顔の位置、目の
位置及び顔の向きに基づいて、領域を検出する。

【００１０】また請求項３の発明においては、請求項１
の構成において、領域検出ステップは、動きベクトルに
基づいて、顔の動きを検出し、顔の位置、目の位置、顔
の向き、顔の動きに基づいて、領域を検出する。

【００１１】また請求項４の発明においては、請求項
１、請求項２又は請求項３の構成において、人物の発声
に対応する音声は、音声信号の音声解析による所定の音
声を発声するタイミングであり、所定の音声が、唇に動
きを伴う音声であるようにする。

【００１２】また請求項５の発明においては、請求項
１、請求項２、請求項３又は請求項４の構成において、
時間ずれ量に基づいて、映像信号及び又は音声信号を遅
延させて、映像信号及び音声信号における時間ずれ量を
補正する遅延ステップを有するようにする。

【００１３】また請求項６の発明においては、信号処理
装置に適用して、映像信号の画像処理により、人物の顔
を検出する顔検出手段と、顔検出手段による検出結果に
基づく映像信号の画像処理により、人物の目を検出する
目検出手段と、顔検出手段及び目検出手段による検出結
果に基づいて、人物の唇が位置すると判断される領域を
検出する領域検出手段と、映像信号より動きベクトルを
検出する動きベクトル検出手段と、動きベクトル検出手
段で検出される動きベクトルより、領域の動きベクトル
を選択的に処理して、人物の唇の動きを検出する動きベ
クトル処理手段と、動きベクトル処理手段による検出結
果に基づいて、人物の発声のタイミングを検出する発声
検出手段と、映像信号に対応する音声信号より、人物の
発声に対応する音声のタイミングを検出する音声検出手
段と、発声検出手段と、音声検出手段との検出結果に基
づいて、映像信号に対する音声信号の時間ずれ量を検出
する遅延時間検出手段とを有するようにする。

【００１４】また請求項７の発明においては、請求項６
の構成において、時間ずれ量に基づいて、映像信号及び
音声信号における時間ずれ量を補正する遅延手段を有す
るようにする。

【００１５】請求項１の構成によれば、信号処理方法に
適用して、映像信号の画像処理により、人物の顔を検出
する顔検出ステップと、顔検出ステップによる検出結果
に基づく映像信号の画像処理により、人物の目を検出す
る目検出ステップと、顔検出ステップ及び目検出ステッ
プによる検出結果に基づいて、人物の唇が位置すると判
断される領域を検出する領域検出ステップと、映像信号
より動きベクトルを検出する動きベクトル検出ステップ
と、動きベクトル検出ステップで検出される動きベクト
ルより、領域の動きベクトルを選択的に処理して、人物
の唇の動きを検出する動きベクトル処理ステップと、動
きベクトル処理ステップによる検出結果に基づいて、人
物の発声のタイミングを検出する発声検出ステップと、
映像信号に対応する音声信号より、人物の発声に対応す
る音声のタイミングを検出する音声検出ステップと、発
声検出ステップと、音声検出ステップとの検出結果に基
づいて、映像信号に対する音声信号の時間ずれ量を検出
する遅延時間検出ステップとを有することにより、人物
の顔、目、唇の動きを順次検出して音声発生のタイミン
グを検出するようになされ、これにより唇の色が特異な
場合、唇と同一色による背景等が画面中に存在する場
合、対象人物が正面を向いていない場合、複数の人物が
画面中に登場する場合等においても、さらには映像が変
化した場合でも、正しく唇の動きを検出することができ
る。これにより従来に比して時間ずれの検出精度を向上
することができる。

【００１６】また請求項２の構成によれば、請求項１の
構成において、領域検出ステップは、顔の位置、目の位
置及び顔の向きに基づいて、領域を検出することによ
り、人物の顔の向きが変化した場合に、この変化に追従
した領域の検出精度を向上することができる。

【００１７】また請求項３の構成によれば、請求項１の
構成において、領域検出ステップは、動きベクトルに基
づいて、顔の動きを検出し、顔の位置、目の位置、顔の
向き、顔の動きに基づいて、領域を検出することによ
り、人物の顔の向きが変化した場合に、この変化に追従
した領域の検出精度をさらに一段と向上することができ
る。

【００１８】また請求項４の構成によれば、請求項１、
請求項２又は請求項３の構成において、人物の発声に対
応する音声は、音声信号の音声解析による所定の音声を
発声するタイミングであり、所定の音声が、唇に動きを
伴う音声であることにより、映像と音声とから対応する
音声発声のタイミングを確実に検出することができ、こ
れにより時間ずれの検出精度を向上することができる。

【００１９】また請求項５の構成によれば、請求項１、
請求項２、請求項３又は請求項４の構成において、時間
ずれ量に基づいて、映像信号及び又は音声信号を遅延さ
せて、映像信号及び音声信号における時間ずれ量を補正
する遅延ステップを有することにより、このようにして
検出した時間ずれを補正して、高い精度で映像と音声と
の同期を図ることができる。

【００２０】また請求項６の構成によれば、信号処理装
置に適用して、映像信号の画像処理により、人物の顔を
検出する顔検出手段と、顔検出手段による検出結果に基
づく映像信号の画像処理により、人物の目を検出する目
検出手段と、顔検出手段及び目検出手段による検出結果
に基づいて、人物の唇が位置すると判断される領域を検
出する領域検出手段と、映像信号より動きベクトルを検
出する動きベクトル検出手段と、動きベクトル検出手段
で検出される動きベクトルより、領域の動きベクトルを
選択的に処理して、人物の唇の動きを検出する動きベク
トル処理手段と、動きベクトル処理手段による検出結果
に基づいて、人物の発声のタイミングを検出する発声検
出手段と、映像信号に対応する音声信号より、人物の発
声に対応する音声のタイミングを検出する音声検出手段
と、発声検出手段と、音声検出手段との検出結果に基づ
いて、映像信号に対する音声信号の時間ずれ量を検出す
る遅延時間検出手段とを有することにより、人物の顔、
目、唇の動きを順次検出して音声発生のタイミングを検
出するようになされ、これにより唇の色が特異な場合、
唇と同一色による背景等が画面中に存在する場合、対象
人物が正面を向いていない場合、複数の人物が画面中に
登場する場合等においても、さらには映像が変化した場
合でも、正しく唇の動きを検出することができる。これ
により従来に比して時間ずれの検出精度を向上すること
ができる。

【００２１】また請求項７の構成によれば、請求項６の
構成において、時間ずれ量に基づいて、映像信号及び音
声信号における時間ずれ量を補正する遅延手段を有する
ことにより、高い精度で映像と音声との同期を図ること
ができる。

【００２２】

【発明の実施の形態】以下、適宜図面を参照しながら本
発明の実施の形態を詳述する。

【００２３】（１）実施の形態の動作図１は、本発明の実施の形態に係る信号処理装置を示す
ブロック図である。この信号処理装置１は、輝度信号Ｓ
Ｙ及び色差信号ＳＣ（Ｐｂ、Ｐｒ）による映像と、音声
信号ＳＡによる音声との間の時間ずれを検出し、この検
出結果に基づいて音声信号ＳＡを遅延させて映像に音声
を同期させる。なおこの実施の形態において、信号処理
装置１には、ディジタル信号による輝度信号ＳＹ、色差
信号ＳＣ及び音声信号ＳＡが入力されるようになされて
いる。

【００２４】この信号処理装置１において、輪郭検出回
路２は、輝度信号ＳＹをエッジ検出処理することによ
り、輝度信号ＳＹによる映像において、輪郭の部分で信
号レベルが立ち上がる輪郭検出信号を輝度信号ＳＹと共
に出力する。輪郭検出回路３は、色差信号ＳＣ（Ｐｂ、
Ｐｒ）をエッジ検出処理することにより、色差信号ＳＣ
（Ｐｂ、Ｐｒ）による映像において、輪郭の部分で信号
レベルが立ち上がる輪郭検出信号を、対応する色差信号
ＳＣ（Ｐｂ、Ｐｒ）と共に出力する。

【００２５】顔検出回路４は、輪郭検出回路３より入力
される色差信号ＳＣの色相を基準にして、色差信号ＳＣ
より検出した輪郭検出信号で輝度信号ＳＹより検出した
輪郭検出信号をマスクすることにより、人物の肌色部分
の領域を検出する。さらにこのようにして検出した肌色
領域の形状を判定することにより、図２（Ａ）に示すよ
うに、人物の顔を検出する。なおこの場合に、顔の輪郭
パターンを数種類用意し、パターンマッチングを用いて
検出するようにしてもよい。顔検出回路４は、このよう
にして顔の輪郭を検出すると、この顔のサイズ（縦、
横）、傾き、位置等を検出し、対応する輝度信号ＳＹ、
輝度信号ＳＹによる輪郭検出信号、色差信号ＳＣと共に
検出結果を出力する。この処理において、顔検出回路４
は、顔と判断される複数領域が検出された場合、顔のサ
イズ検出結果より、最も大きな領域について、これらの
情報を出力する。

【００２６】これらにより輪郭検出回路２、３及び顔検
出回路４は、輝度信号ＳＹ及び色差信号ＳＣによる映像
信号の画像処理により、人物の顔を検出する顔検出手段
を構成するようになされている。

【００２７】目検出回路５は、顔検出回路４から得られ
る顔の検出結果より、目の位置を予測する。さらにこの
目検出回路５は、この予測結果と色差信号ＳＣによる色
相とを基準にして、輝度信号ＳＹより得られる輪郭検出
信号をマスクして処理することにより、図２（Ｂ）に示
すように、両目の輪郭を抽出する。さらにこようにして
検出した両目の輪郭より両目の位置情報を検出し、この
両目の位置情報より顔の向きを検出する。

【００２８】すなわち図２（Ｂ−１）に示すように、顔
が正面を向いている場合、両目の位置は、顔の中心線Ｌ
１からほぼ対称となる。これに対して図２（Ｂ−２）に
示すように、顔が横を向いている場合、両目の位置は、
顔の中心線Ｌ１から非対称となる。これにより目検出回
路５は、顔の傾きを考慮して顔の輪郭に中心線Ｌ１を設
定し、この中心線Ｌ１と目との距離をそれぞれ検出す
る。さらに顔のサイズによりこれら距離の差を正規化す
ることにより、顔の向きを検出し、対応する輝度信号Ｓ
Ｙによる輪郭検出信号、目の位置情報、顔検出回路４に
よる検出結果と共に検出結果を出力する。これにより目
検出回路５は、先の顔検出手段による検出結果に基づく
映像信号の画像処理により、人物の目を検出する目検出
手段を構成するようになされている。

【００２９】唇検出回路６は、目検出回路５から得られ
る顔の向き検出結果、目の位置情報、顔のサイズ情報、
顔の傾き情報により、口の位置を予測する。さらに唇検
出回路６は、この予測を基準にして、図２（Ｃ）に示す
ように、唇の範囲を示すウインドウを生成して出力す
る。かくするにつき口の位置においては、図２（Ｃ−
１）に示すように、顔の向きと目の位置により、ほぼ確
実に予想することができる。なおこの場合に、口の位置
の予測より、輝度信号ＳＹより得られる輪郭検出信号を
処理することにより、唇の輪郭を検出して唇の位置を検
出し、この位置検出結果よりウインドウを生成するよう
にしてもよい。また予め数種類のパターンを用意して、
パターン認識手法を用いてウインドウを生成することも
できる。これにより唇検出回路６は、先の顔検出手段及
び目検出手段による検出結果に基づいて、人物の唇が位
置すると判断される領域を検出する領域検出手段を構成
するようになされている。

【００３０】動きベクトル検出回路７は、輝度信号ＳＹ
を受け、前フィールドを基準にしてマクロブロック単位
で現フィールドの動きベクトルを検出して出力する。な
おこの場合に、前フレームを基準にして現フレームの動
きベクトルを検出するようにしてもよい。また検出手法
においては、勾配法、位相相関法等を種々に適用するこ
とができ、また併せて色差信号を用いて動きベクトルを
検出するようにしてもよい。これにより動きベクトル検
出回路７は、輝度信号ＳＹ及び色差信号ＳＣによる映像
信号より動きベクトルを検出する動きベクトル検出手段
を構成するようになされている。

【００３１】唇動き検出回路８は、唇検出回路６より出
力されるウインドウを基準にして動きベクトル検出回路
７で順次検出される動きベクトルを選択的に取得するこ
とにより、唇の部分の動きベクトルを検出する。さらに
このようにして検出した動きベクトルによる動きの中心
を検出し、この動きの中心を基準にした動きベクトルの
処理により、図２（Ｄ）に示すように、唇の両端、上下
に対応する部位の動きαを検出する。なおこの場合に唇
の部分の動きベクトルによる動きの中心を基準にした処
理に代えて、顔全体の動きベクトルを基準にした処理に
より、唇の両端、上下に対応する部位の動きを検出する
ようにしてもよい。さらに唇動き検出回路８は、このよ
うにして検出した唇の両端、上下に対応する部位の動き
の連続性を判定することにより、唇が大きく動く発声開
始のタイミングを検出し、検出結果を出力する。これに
より唇動き検出回路８は、先の動きベクトル検出手段で
検出される動きベクトルより、領域の動きベクトルを選
択的に処理して、人物の唇の動きを検出する動きベクト
ル処理手段を構成すると共に、この動きベクトル処理手
段による検出結果に基づいて、人物の発声のタイミング
を検出する発声検出手段とを構成するようになされてい
る。

【００３２】これらによりこの信号処理装置１では、輪
郭検出による画像処理により人物の顔、目、唇の動きを
順次検出して音声発生のタイミングを検出するようにな
されている。これにより信号処理装置１では、唇の色が
特異な場合、また唇と同一色による背景等が画面中に存
在する場合、対象人物が正面を向いていない場合、さら
には複数の人物が画面中に登場する場合等にあっても、
確実に唇の動きを検出することができ、これにより従来
に比して高い精度により映像より音声発生のタイミング
を検出することができるようになされている。

【００３３】音声検出回路９は、音声信号ＳＡの音声解
析により、唇の動きを伴う特定の音声発生のタイミング
を検出する。すなわち日本語において、「マ」、
「ミ」、「ム」、「メ」、「モ」、「パ」、「ピ」、
「プ」、「ペ」、「ポ」等の音声は、必ず唇が動き、ま
た動きも大きい特徴がある。これに対して「ア」、
「イ」、「ウ」、「エ」、「オ」、「サ」、「シ」、
「ス」、「セ」、「ソ」等の音声は、唇を動かさなくて
も発生可能であり、また唇が動いたとしても、動きが小
さい特徴がある。これにより音声検出回路９は、このよ
うな唇が大きく動く特定の音声発生のタイミングを検出
する。なお音声が英語の場合には、唇が大きく動く特定
の音声としては、例えば、「Ｂ」、「Ｐ」、「Ｖ」、
「Ｙ」等の発声が該当する。

【００３４】遅延検出回路１０は、音声検出回路９によ
るタイミング検出結果と、唇動き検出回路８によるタイ
ミング検出結果との比較により、音声に対する映像の遅
延時間を検出する。

【００３５】これにより音声検出回路９は、映像信号に
対応する音声信号ＳＡより、人物の発声に対応する音声
のタイミングを検出する音声検出手段を構成し、遅延検
出回路１０は、この発声検出手段と、先の音声検出手段
との検出結果に基づいて、映像信号に対する音声信号の
時間ずれ量を検出する遅延時間検出手段を構成するよう
になされている。

【００３６】遅延回路１１は、この遅延検出回路１０で
検出される遅延量により音声信号ＳＡを遅延させ、これ
により映像に音声を同期させて出力する。これにより映
像信号及び音声信号における時間ずれ量を補正する遅延
手段を構成するようになされている。

【００３７】（２）実施の形態の動作以上の構成において、この信号処理装置１では、輪郭検
出回路２及び３において、それぞれ輝度信号ＳＹ及び色
差信号ＳＣから輪郭が検出され、顔検出回路４におい
て、色彩を基準にしてこれら輪郭検出結果を処理して顔
の輪郭を検出する。さらに続いてこの顔の検出結果より
目検出回路５において、人物の目が検出され、顔検出回
路４の検出結果、目検出回路５の検出結果より、唇検出
回路６において、唇の位置を示す領域が検出される。こ
の信号処理装置１では、動きベクトル検出回路７におい
て、順次動きベクトルが検出され、唇動き検出回路８に
おいて、この動きベクトルが唇検出回路６で検出された
領域により選択的に処理されて唇の動きが検出される。
またこの唇動き検出回路８において、唇の動きより所定
の音声を発声したタイミングが検出される。また音声検
出回路９において、音声信号ＳＡの音声解析により所定
の音声を発声したタイミングが検出され、遅延検出回路
１０において、この映像による音声発声のタイミングと
音声による音声発声のタイミングとの差分が検出されて
映像と音声との時間ずれが検出され、遅延回路１１にお
いてこの時間ずれの分、音声信号が遅延され、これによ
り音声と映像との同期を図ることができる。

【００３８】信号処理装置１において、このようにして
時間ずれを検出するにつき、映像信号側については、画
像処理により、顔、目、唇の動きを順次検出して音声発
声のタイミングを検出したことにより、これら顔、目を
検出する際の処理により、唇の色彩が特異な色の場合、
唇と同一色による背景等が画面中に存在する場合、対象
人物が正面を向いていない場合、複数の人物が画面中に
登場する場合等においても、さらには映像が変化した場
合でも、正しく唇の位置を検出して唇の動きを検出する
ことができる。従ってその分、従来の比して時間ずれの
検出精度を向上することができ、またその結果、映像及
び音声の同期も高い精度により実施することができる。

【００３９】またいちいち領域を設定する等の操作を実
行しなくてよいことにより、その分オペレータの操作を
簡略化することができる。これらにより例えば、吹き替
え、アニメーション作成におけるアフレコ等に適応し
て、音声挿入を正確かつ自動的に実行することができ
る。

【００４０】すなわち顔の輪郭を検出することにより、
唇と同一色による背景等が画面中に存在する場合であっ
ても、確実に顔の輪郭を検出することができ、この顔の
人物の発声を確実に検出することができる。さらに多数
の人物が写し出されている場合でも、この顔検出の処理
において、この実施の形態のように、形状の大きさによ
り所望の顔を選択することにより、複数の人物が画面中
に登場する場合でも、特定人物の発声を確実に検出する
ことができる。また顔の向きの変化、顔の位置の変化等
の映像の変化についても、適切に対応して唇の動きを検
出することができる。また動きベクトル検出結果を処理
して唇の動きを検出することにより、唇の色が特異の色
である場合でも、確実に唇の動きを検出することができ
る。

【００４１】（３）実施の形態の効果以上の構成によれば、映像信号の画像処理により、人物
の顔、目、唇の動きを順次検出して音声発生のタイミン
グを検出することにより、音声解析、動画像解析により
音声と映像との時間ずれを検出する場合に、従来に比し
て高い精度で時間ずれを検出することができる。

【００４２】また顔の位置、目の位置及び顔の向きに基
づいて、唇の動き検出用の領域を検出することにより、
顔が正面を向いていない場合、顔の向きが変化した場合
等に適切に対応して唇の動きを検出することができ、そ
の分、従来に比して高い精度で時間ずれを検出すること
ができる。

【００４３】また音声解析により、唇に動きを伴う音声
であって、また動きの大きな音声の発声を検出すること
により、音声と映像との間で対応する音声発声のタイミ
ングを確実に検出することができ、その分、時間ずれの
検出精度を向上することができる。

【００４４】またこのようにして検出した時間ずれによ
り音声信号を遅延させて時間ずれを補正することによ
り、確実かつ高い精度で時間ずれを補正することができ
る。

【００４５】（４）他の実施の形態なお上述の実施の形態においては、顔の位置、目の位
置、顔の向きにより唇の動き検出用の領域を設定する場
合について述べたが、本発明はこれに限らず、これらに
加えて顔の動きを考慮して唇の動き検出用の領域を設定
するようにしてもよい。すなわち輪郭検出して得られる
顔の領域について、動きベクトルを選択的に取得するこ
とにより、顔の動きを検出することができる。従って、
例えば顔の位置、目の位置、顔の向きにより設定した唇
の動き検出用の領域を、この顔の動き検出結果により補
正するようにして、さらに一段と精度を向上することが
できる。

【００４６】また上述の実施の形態においては、時間ず
れの検出結果により音声信号を遅延させて時間ずれを補
正する場合について述べたが、本発明はこれに限らず、
必要に応じて映像信号を遅延させてもよく、さらには映
像信号と音声信号との双方を遅延させてもよい。

【００４７】また上述の実施の形態においては、時間ず
れの検出結果により時間ずれを補正する場合について述
べたが、本発明はこれに限らず、他の機器に時間ずれの
補正を委ねる場合にも広く適用することができる。

【００４８】また上述の実施の形態においては、ハード
ウエアの構成により時間ずれを検出する場合について述
べたが、本発明はこれに限らず、コンピュータにおける
プログラムの処理により時間ずれを検出する場合にも広
く適用することができる。

【００４９】

【発明の効果】上述のように本発明によれば、映像信号
の画像処理により、人物の顔、目、唇の動きを順次検出
して音声発生のタイミングを検出することにより、音声
解析、動画像解析により音声と映像との時間ずれを検出
する場合に、従来に比して高い精度で時間ずれを検出す
ることができる。

【図面の簡単な説明】

【図１】本発明の実施の形態に係る信号処理装置を示す
ブロック図である。

【図２】図１の信号処理装置の動作の説明に供する略線
図である。

【符号の説明】

１……信号処理装置、２、３……輪郭検出回路、４……
顔検出回路、５……目検出回路、６……唇検出回路、７
……動きベクトル検出回路、８……唇検出回路、音声検
出回路９、１０……遅延検出回路、１１……遅延回路

フロントページの続きＦターム(参考） 5B057 BA02 DA08 DB02 DB06 DB09 DC02 DC04 DC16 DC22 DC25 DC32 DC36 5C022 CA00 5D045 AB30 5L096 AA02 AA06 BA08 BA18 CA04 DA02 FA06 FA59 GA38 GA41 HA04

Claims

【特許請求の範囲】

【請求項１】映像信号の画像処理により、人物の顔を検
出する顔検出ステップと、前記顔検出ステップによる検出結果に基づく前記映像信
号の画像処理により、前記人物の目を検出する目検出ス
テップと、前記顔検出ステップ及び前記目検出ステップによる検出
結果に基づいて、前記人物の唇が位置すると判断される
領域を検出する領域検出ステップと、前記映像信号より動きベクトルを検出する動きベクトル
検出ステップと、前記動きベクトル検出ステップで検出される動きベクト
ルより、前記領域の動きベクトルを選択的に処理して、
前記人物の唇の動きを検出する動きベクトル処理ステッ
プと、前記動きベクトル処理ステップによる検出結果に基づい
て、前記人物の発声のタイミングを検出する発声検出ス
テップと、前記映像信号に対応する音声信号より、前記人物の発声
に対応する音声のタイミングを検出する音声検出ステッ
プと、前記発声検出ステップと、前記音声検出ステップとの検
出結果に基づいて、前記映像信号に対する前記音声信号
の時間ずれ量を検出する遅延時間検出ステップとを有す
ることを特徴とする信号処理方法。
【請求項２】前記領域検出ステップは、前記顔の位置、前記目の位置及び前記顔の向きに基づい
て、前記領域を検出することを特徴とする請求項１に記
載の信号処理方法。
【請求項３】前記領域検出ステップは、動きベクトルに基づいて、前記顔の動きを検出し、前記顔の位置、前記目の位置、前記顔の向き、前記顔の
動きに基づいて、前記領域を検出することを特徴とする
請求項１に記載の信号処理方法。
【請求項４】前記人物の発声に対応する音声は、前記音声信号の音声解析による所定の音声を発声するタ
イミングであり、前記所定の音声が、唇に動きを伴う音声であることを特
徴とする請求項１、請求項２又は請求項３に記載の信号
処理方法。
【請求項５】前記時間ずれ量に基づいて、前記映像信号
及び又は前記音声信号を遅延させて、前記映像信号及び
前記音声信号における前記時間ずれ量を補正する遅延ス
テップを有することを特徴とする請求項１、請求項２、
請求項３又は請求項４に記載の信号処理方法。
【請求項６】映像信号の画像処理により、人物の顔を検
出する顔検出手段と、前記顔検出手段による検出結果に基づく前記映像信号の
画像処理により、前記人物の目を検出する目検出手段
と、前記顔検出手段及び前記目検出手段による検出結果に基
づいて、前記人物の唇が位置すると判断される領域を検
出する領域検出手段と、前記映像信号より動きベクトルを検出する動きベクトル
検出手段と、前記動きベクトル検出手段で検出される動きベクトルよ
り、前記領域の動きベクトルを選択的に処理して、前記
人物の唇の動きを検出する動きベクトル処理手段と前記
動きベクトル処理手段による検出結果に基づいて、前記
人物の発声のタイミングを検出する発声検出手段と、前記映像信号に対応する音声信号より、前記人物の発声
に対応する音声のタイミングを検出する音声検出手段
と、前記発声検出手段と、前記音声検出手段との検出結果に
基づいて、前記映像信号に対する前記音声信号の時間ず
れ量を検出する遅延時間検出手段とを有することを特徴
とする信号処理装置。
【請求項７】前記時間ずれ量に基づいて、前記映像信号
及び前記音声信号における前記時間ずれ量を補正する遅
延手段を有することを特徴とする請求項６に記載の信号
処理装置。