JP2004260641A

JP2004260641A - 信号処理装置

Info

Publication number: JP2004260641A
Application number: JP2003050285A
Authority: JP
Inventors: Tatsuro Yamauchi; 達郎山内
Original assignee: Shibasoku Co Ltd
Current assignee: Shibasoku Co Ltd
Priority date: 2003-02-27
Filing date: 2003-02-27
Publication date: 2004-09-16

Abstract

【課題】本発明は、信号処理装置に関し、唇の動きに変化があった場合でも、十分に高い精度により音声と映像との時間ずれを検出することができるようにする。
【解決手段】本発明は、顎の上下動（Ｓ１）により初期偏位ベクトルの設定を切り換えて唇の動きベクトルＶを検出する。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、信号処理装置に関し、例えば音声信号と映像信号とを同期させる信号処理装置に適用することができる。本発明は、顎の上下動により初期偏位ベクトルの設定を切り換えて唇の動きベクトルを検出することにより、唇の動きに変化があった場合でも、十分に高い精度により音声と映像との時間ずれを検出することができるようにする。
【０００２】
【従来の技術】
従来、放送現場においては、映像信号及び音声信号が異なる伝送路により伝送される等により、音声と映像との間で時間ずれが発生する。このため放送現場においては、テスト用の映像信号及び音声信号を送信側より受信側に伝送して解析することにより、時間ずれを計測、補正するようになされている。
【０００３】
これに対して特開２０００−１９６９１７号公報、ＮＨＫエンジニアリングサービス：ＶＥＩＷＶｏｌ．２０Ｎｏ１Ｐ３５〜Ｐ３６等においては、音声解析、動画像解析により音声と映像との間における音声発生のタイミングのずれを検出することにより、時間ずれを検出する方法が提案されるようになされている。
【０００４】
これらの方法においては、音声信号の立ち上がりにより音声発生のタイミングを検出するようになされている。また指定した領域で動きベクトルを検出することにより唇の動きを検出し、さらには色彩を基準にして動きベクトルを検出することにより唇の動きを検出し、このようにして検出した唇の動きの判定により、音声発生のタイミングを検出するようになされている。
【０００５】
これに対してこのような動きベクトルの検出方法にあっては、動画像符号化装置で用いられているブロックマッチング法、反復勾配法（特開昭６２−２０６９８０号公報）が広く知られており、反復勾配法においては、ブロックマッチング法に比して検出精度が優れる特徴がある。
【０００６】
【特許文献１】
特開２０００−１９６９１７号公報
【特許文献２】
特開昭６２−２０６９８０号公報
【非特許文献１】
ＮＨＫエンジニアリングサービス：ＶＥＩＷＶｏｌ．２０Ｎｏ１Ｐ３５〜Ｐ３６
【０００７】
【発明が解決しようとする課題】
ところでこのような音声解析、動画像解析により音声と映像との時間ずれを検出する場合においては、テスト用の映像信号及び音声信号を伝送しなくても、アナウンサー等の映像及び音声により時間ずれを検出できることにより、便利であると考えられる。
【０００８】
しかしながら従来の手法においては、映像より音声発生のタイミングを検出する精度が低く、これにより実用上未だ不十分な問題があった。すなわち動きベクトルにより唇の動きを検出する場合、ブロックマッチング法に比して反復勾配法の方が検出精度が優れることにより、反復勾配法により唇の動きベクトルを検出して高い精度により音声発生のタイミングを検出できると考えられる。
【０００９】
しかしながら反復勾配法においては、それまで検出されている動きベクトルにより初期偏位ベクトルを設定し、この初期偏位ベクトルを基準にして偏位ベクトルを検出して動きベクトルを検出することにより、精度を確保して動きベクトルを検出する方式である。これにより例えば閉じた状態から唇が開いた場合、閉じた状態に対応する初期偏位ベクトル「０」の状態で偏位ベクトルを検出することになり、結局、偏位ベクトルのみにより動きベクトルを検出することになる。反復勾配法においては、初期偏位ベクトルを基準にして偏位ベクトルを検出して動きベクトルの検出精度を確保することにより、偏位ベクトルのみについて見れば精度を確保して検出し得る範囲が狭く（実用上、±３画素程度の範囲）、これによりこのように唇の動きに変化があった場合、この動きの変化に十分に追従して動きベクトルを検出し得なくなる。
【００１０】
また唇の動きが開く方向から閉じる方向に変化した場合、動きベクトルの極性が変化することになるが、初期偏位ベクトルにあっては唇が開く方向の極性に保持されたままであることにより、この場合も、同様に、唇の動きの変化に十分に追従して動きベクトルを検出し得なくなる。
【００１１】
これらによりこの方法にあっては、唇の動きに変化があった場合に、唇の動きを正確に把握することが困難な欠点があり、その分、十分に高い精度により音声と映像との時間ずれを検出することが困難な問題があった。なおこのような検出精度の低下は、唇の動きが早い場合、唇が小さい場合、より顕著となる。
【００１２】
本発明は以上の点を考慮してなされたもので、唇の動きに変化があった場合でも、十分に高い精度により音声と映像との時間ずれを検出することができる信号処理装置を提案しようとするものである。
【００１３】
【課題を解決するための手段】
かかる課題を解決するため請求項１の発明においては、映像信号の処理により、前記映像信号に係る人物の唇の動きベクトルを検出し、前記動きベクトルに基づいて、前記人物の発声のタイミングを検出すると共に、前記映像信号に対応する音声信号より、前記人物の発声に対応する音声のタイミングを検出し、該検出結果に基づいて、前記映像信号に対する前記音声信号の時間ずれ量を検出し、前記映像信号及び又は前記音声信号のタイミングを補正する信号処理装置に適用する。本発明は、前記人物の顎の上下動を検出する上下動検出手段と、前記上下動検出手段の検出結果に基づいて、前記顎の上下動の変化に応じて初期偏位ベクトルを設定する初期偏位ベクトル設定手段と、前記初期偏位ベクトルを基準にして前記唇の動きベクトルを検出する動きベクトル検出手段とを備えるようにする。
【００１４】
また請求項２の発明においては、請求項１の構成において、前記上下動検出手段は、前記映像信号を動き検出処理する動き検出手段と、動きが変化した領域を検出する領域検出手段と有し、前記領域検出手段の検出結果により、前記顎の上下動を検出する。
【００１５】
また請求項３の発明においては、請求項１又は請求項２の構成において、前記上下動検出手段は、前記人物の顔の動きベクトルを検出する顔の動きベクトル検出手段と、前記顔の動きベクトルにより前記顎の上下動に係る検出結果を補正する補正手段とを有するようにする。
【００１６】
また請求項４の発明においては、請求項１、請求項２又は請求項３の構成において、前記初期偏位ベクトル設定手段は、複数の初期偏位候補ベクトルより前記初期偏位ベクトルを選択して前記初期偏位ベクトルを設定し、前記初期偏位ベクトル設定手段は、前記顎の上下動の変化に応じて、前記初期偏位候補ベクトルの設定を切り換える。
【００１７】
また請求項５の発明においては、請求項４の構成において、前記初期偏位ベクトル設定手段は、前記顎の上下動の変化に応じて、既検出の縦方向の動きベクトルで大きさが最大のものと、既検出の動きベクトルの極性を反転したものとを、前記初期偏位候補ベクトルに加えることにより、前記顎の上下動の変化に応じて、前記初期偏位候補ベクトルの設定を切り換える。
【００１８】
また請求項６の発明においては、請求項４の構成において、前記初期偏位ベクトル設定手段は、前記顎が静止状態から下方向に動きを開始すると、既検出の縦方向の動きベクトルで大きさが最大のものを、前記初期偏位候補ベクトルに加え、前記顎が下方向から上方向に動きを切り換えると、既検出の動きベクトルの極性を反転したものを、前記初期偏位候補ベクトルに加えることにより、前記顎の上下動の変化に応じて、前記初期偏位候補ベクトルの設定を切り換える。
【００１９】
請求項１の構成によれば、映像信号の処理により、前記映像信号に係る人物の唇の動きベクトルを検出し、前記動きベクトルに基づいて、前記人物の発声のタイミングを検出すると共に、前記映像信号に対応する音声信号より、前記人物の発声に対応する音声のタイミングを検出し、該検出結果に基づいて、前記映像信号に対する前記音声信号の時間ずれ量を検出し、前記映像信号及び又は前記音声信号のタイミングを補正する信号処理装置に適用して、前記人物の顎の上下動を検出する上下動検出手段と、前記上下動検出手段の検出結果に基づいて、前記顎の上下動の変化に応じて初期偏位ベクトルを設定する初期偏位ベクトル設定手段と、前記初期偏位ベクトルを基準にして前記唇の動きベクトルを検出する動きベクトル検出手段とを備えることにより、唇の動きに連動する顎の動きに基づいて唇の動きの変化に追従して動きベクトルを検出可能に初期偏位ベクトルを設定することができる。これにより、例えば反復勾配法により唇の動きベクトルを検出して、唇の動きに変化があった場合でも、十分に高い精度により音声と映像との時間ずれを検出することができる。
【００２０】
また請求項２の構成によれば、請求項１の構成において、前記上下動検出手段は、前記映像信号を動き検出処理する動き検出手段と、動きが変化した領域を検出する領域検出手段とを有し、前記領域検出手段の検出結果により、前記顎の上下動を検出することにより、領域の拡大縮小により顎の上下動を検出することができ、その分、簡易かつ確実に顎の動きを検出して唇の動きベクトルを検出することができる。
【００２１】
また請求項３の発明においては、請求項１又は請求項２の構成において、前記上下動検出手段は、前記人物の顔の動きベクトルを検出する顔の動きベクトル検出手段と、前記顔の動きベクトルにより前記顎の上下動に係る検出結果を補正する補正手段とを有することにより、顔の動きによる顎の動きの誤検出を有効に回避することができる。
【００２２】
また請求項４の発明においては、請求項１、請求項２又は請求項３の構成において、前記初期偏位ベクトル設定手段は、複数の初期偏位候補ベクトルより前記初期偏位ベクトルを選択して前記初期偏位ベクトルを設定し、前記顎の上下動の変化に応じて、前記初期偏位候補ベクトルの設定を切り換えることにより、具体的に、顎の上下動の変化に応じて初期偏位ベクトルを設定して検出精度を向上することができる。
【００２３】
また請求項５の発明においては、請求項４の構成において、前記初期偏位ベクトル設定手段は、前記顎の上下動の変化に応じて、既検出の縦方向の動きベクトルで大きさが最大のものと、既検出の動きベクトルの極性を反転したものとを、前記初期偏位候補ベクトルに加えることにより、前記顎の上下動の変化に応じて、前記初期偏位候補ベクトルの設定を切り換えることにより、より具体的に、顎の上下動の変化に応じて初期偏位ベクトルを設定して検出精度を向上することができる。
【００２４】
また請求項６の発明においては、請求項４の構成において、前記初期偏位ベクトル設定手段は、前記顎が静止状態から下方向に動きを開始すると、既検出の縦方向の動きベクトルで大きさが最大のものを、前記初期偏位候補ベクトルに加え、前記顎が下方向から上方向に動きを切り換えると、既検出の動きベクトルの極性を反転したものを、前記初期偏位候補ベクトルに加えることにより、前記顎の上下動の変化に応じて、前記初期偏位候補ベクトルの設定を切り換えることにより、より具体的に、顎の上下動の変化に応じて初期偏位ベクトルを設定して検出精度を向上することができる。
【００２５】
【発明の実施の形態】
以下、適宜図面を参照しながら本発明の実施の形態を詳述する。
【００２６】
（１）第１の実施の形態
（１−１）第１の実施の形態の構成
図１は、本発明の実施の形態に係るリップシンク装置を示すブロック図である。このリップシンク装置１では、唇動き検出回路２により唇の動きＶを検出し、この検出結果に基づいて音声信号ＳＡを遅延させてビデオ信号ＳＶ（ＳＹ）と対応する音声信号ＳＡとのタイミングを一致させる。
【００２７】
すなわち唇動き検出回路２において、動き検出回路３は、ビデオ信号ＳＶを構成する輝度信号ＳＹを入力し、連続するフレーム間で対応する画素値を比較することにより、動きのある画素で信号レベルが立ち上がる動き検出信号を輝度信号ＳＹと共に出力する。なおこの動き検出にあっては、種々の手法を適用することができ、また連続するフィールド間で動き検出するようにしてもよい。
【００２８】
遅延回路４は、この動き検出信号を１フィールド遅延させて出力する。
【００２９】
動き領域検出回路５は、遅延回路４に入力される動き検出信号と、遅延回路４から出力される動き検出信号とを減算し、これにより顎と判断される領域における動きの変化（動き検出領域の偏移量）を示す領域検出信号Ｓ１を輝度信号ＳＹと共に出力する。なお動き領域検出回路５は、遅延回路４を介して入力される輝度信号ＳＹの処理により顎と判断される領域を予測し、この予測結果により、遅延回路４に入力される動き検出信号と、遅延回路４から出力される動き検出信号とをマスクして処理するようにしてもよい。
【００３０】
すなわち唇の動きは大半が上下方向の動きであり、しかも反復を繰り返す動きである。これにより唇の動きが静止した状態から動いたか、またこの動いた方向が開く方向であるか閉じる方向であるかを検出することができれば、これらに対応するように初期偏位ベクトルを設定して、反復勾配法により高い精度により唇の動きベクトルを検出することができる。
【００３１】
このような唇の動きに対して、顎は、動きが連動しており、唇が開く方向であれば、顎は、下方向に動き、唇が閉じる方向では、顎は上方向に動く。これにより顎が静止しているか、下方向へ動いたか、上方向に動いたかを検出することができれば、連動する唇の動きも検出することができる。
【００３２】
このような顎の動き方向の検出においては、反復勾配法により動きベクトルを検出する方法も考えられるが、反復勾配法により顎の動きベクトルを検出する場合にあっては、反復勾配法により唇の動きベクトルを検出する場合と同様に、動きの変化に追従して高い精度により動きベクトルを検出することが困難な欠点があり、結局、唇の動きに変化があった場合にも、十分に高い精度により唇の動きベクトルを検出することが困難になる。
【００３３】
しかしながら顎が動いた場合にあっては、対応する領域において、動きがあった領域の大きさが変化する。すなわち図２（Ａ）に示すように、静止状態にあっては、顎と判断される領域においては、連続するフィールドにおいて、何ら動きが無く、これにより動き検出回路３を介して得られる動き検出結果においては、何ら動き検出され無いことになる。これに対して唇を開くと、図２（Ｂ）に示すように、顎が下方向に動き、これにより顎に対応する動き検出回路３で検出される領域（動き検出領域）においては、図２（Ｃ）に示すように、面積が増大することになる。これに対してこのように唇が開いた状態から唇が閉じる方向に変化すると、図２（Ｄ）に示すように、顎が上方向に動き、これにより顎に対応する動き検出回路３で検出される領域（動き検出領域）においては、図２（Ｅ）に示すように、面積が減少することになる。
【００３４】
これにより図２（Ｆ）に示すように、このようにして検出される動き検出領域の時間軸方向の変化（動き検出領域の偏移量）に注目すれば、顎の動きが変化した時点を検出し得、この時点より唇の動きが変化した時点を検出することができる。すなわち顎が一様な速度により上方向又は下方向に動いている場合、顎が静止し続けている場合と同様に、連続するフィールドで検出される動き検出領域においては、ほぼ一定の面積であるのに対し、動きが変化した場合にあっては、面積が変化する。なおこの図２（Ｆ）に示す動き検出領域の偏移量に係る領域検出信号Ｓ１においては、図２（Ａ）〜（Ｅ）に対応する模式的なものである。これにより動き領域検出回路５は、このような顎の動きに係る領域検出信号Ｓ１を対応する輝度信号ＳＹと共に出力する。
【００３５】
初期偏位候補ベクトル設定回路６は、通常の処理においては、従来の反復勾配法に係る構成と同様に、加算回路９から出力される動きベクトルＶから、初期偏位候補ベクトルを選択して輝度信号ＳＹと共に出力する。すなわち初期偏位候補ベクトル設定回路６は、例えば１フィールド前の対応するマクロブロックで検出された動きベクトル、この対応するマクロブロックに対して水平方向、垂直方向に隣接するマクロブロックで検出された動きベクトル、同一フィールドにおける水平方向及び垂直方向の直前のマクロブロックで検出された動きベクトルをこれら初期偏位候補ベクトルに設定して出力する。
【００３６】
この処理において、初期偏位候補ベクトル設定回路６は、動き領域検出回路５を介して入力される輝度信号ＳＹの処理により、両目の位置をそれぞれ検出し、この位置検出結果より唇の領域を検出する。さらにこの唇の領域については、動き領域検出回路５から出力される領域検出信号Ｓ１に応じて初期偏位候補ベクトルを設定する。
【００３７】
すなわち初期偏位候補ベクトル設定回路６は、領域検出信号Ｓ１により顎が何ら動いていないと判断される場合、上述した他の領域に係る処理と同様に、初期偏位候補ベクトルを設定して出力する。これに対して領域検出信号Ｓ１により顎が静止状態から下方向への動きを開始したと判断される場合、同様の処理により検出される初期偏位候補ベクトルに、既検出の縦方向の動きベクトルで顎の動いた方向に大きさが最大のものを加え、これらを初期偏位候補ベクトルに設定する。
【００３８】
またこれとは逆に、領域検出信号Ｓ１により顎が下方向から上方向に動きを切り換えたと判断される場合、既検出の動きベクトルの縦方向の極性を反転したものを初期偏位候補ベクトルに加える。ここでこの実施の形態において、このような初期偏位候補ベクトルの選定に係る既検出の動きベクトルは、過去所定フィールド数の輝度信号ＳＹで検出された唇の動きベクトルＶであり、極性を切り換えて初期偏位候補ベクトルに設定する動きベクトルＶにあっては、例えば既検出の縦方向の動きベクトルで顎の動いた方向に大きさが最大のものが適用される。なおこのような顎の下方向から上方向への動きの変化にあっては、下方向に顎が動いた後、一時動きが停止した場合も含まれる。
【００３９】
これに対して領域検出信号Ｓ１により顎の上方向の動き、下方向の動きが継続している場合、上述した他の領域で設定する初期偏位ベクトルと同一の手法により初期偏位候補ベクトルを設定する。
【００４０】
初期偏位ベクトル選択回路７は、従来構成による反復勾配法に係る初期偏位ベクトル選択回路と同様にして、これら複数の初期偏位候補ベクトルから初期偏位ベクトルＶ０を選択する。すなわち初期偏位ベクトル選択回路７は、初期偏位候補ベクトルの設定に供した動きベクトルに対応するマクロブロックと、処理対象であるマクロブロックとの間で、それぞれ輝度信号ＳＹにより類似の程度を計算し、この計算結果により最も類似の程度の高いマクロブロックから求められた初期偏位候補ベクトルＶ０を選択する。なおこの類似の程度は、例えば画素値の差分絶対値和により求められる。初期偏位ベクトル選択回路７は、このようにして選択した初期偏位ベクトルＶ０を輝度信号ＳＹと共に出力する。
【００４１】
勾配法演算回路８は、初期偏位ベクトル選択回路７を基準にした勾配法に係る輝度信号ＳＹの演算処理により、偏位ベクトルを計算して出力する。加算回路９は、この偏位ベクトルと対応する初期偏位ベクトルとを加算し、これにより動きベクトルＶを計算して出力する。
【００４２】
音声検出回路１０は、音声信号ＳＡの音声解析により、唇の動きを伴う特定の音声発生のタイミングを検出する。すなわち日本語において、「マ」、「ミ」、「ム」、「メ」、「モ」、「パ」、「ピ」、「プ」、「ペ」、「ポ」等の音声は、必ず唇が動き、また動きも大きい特徴がある。これに対して「ア」、「イ」、「ウ」、「エ」、「オ」、「サ」、「シ」、「ス」、「セ」、「ソ」等の音声は、唇を動かさなくても発生可能であり、また唇が動いたとしても、動きが小さい特徴がある。これにより音声検出回路１０は、このような唇が大きく動く特定の音声発生のタイミングを検出する。なお音声が英語の場合には、唇が大きく動く特定の音声としては、例えば、「Ｂ」、「Ｐ」、「Ｖ」、「Ｙ」等の発声が該当する。
【００４３】
遅延検出回路１１は、音声検出回路１０によるタイミング検出結果と、唇動き検出回路２による動きベクトルＶの検出結果との比較により、音声に対する映像の遅延時間を検出する。遅延回路１２は、この遅延検出回路１１で検出される遅延量により音声信号ＳＡを遅延させ、これにより映像に音声を同期させて出力する。
【００４４】
これらによりこの実施の形態において、動き検出回路３、遅延回路４、動き領域検出回路５は、顎の上下動を検出する上下動検出手段を構成し、初期偏位候補ベクトル設定回路６、初期偏位ベクトル選択回路７は、この上下動検出手段の検出結果に基づいて、顎の上下動の変化に応じて初期偏位ベクトルを設定する初期偏位ベクトル設定手段を構成するようになされ、また勾配法演算回路８、加算回路９は、この初期偏位ベクトルを基準にして勾配法により唇の動きベクトルを検出する動きベクトル検出手段を構成するようになされている。またこの上下動検出手段に係る構成のうち、動き検出回路３は、輝度信号ＳＹによる映像信号を動き検出処理する動き検出手段を構成するのに対し、遅延回路４及び動き領域検出回路５は、この動き検出手段の検出結果に基づいて、顎の動き領域を検出する領域検出手段を構成するようになされている。
【００４５】
（１−２）第１の実施の形態の動作
以上の構成において、このリップシンク装置１では、例えば遠隔地から伝送されたビデオ信号のうち、輝度信号ＳＹが唇動き検出回路２で処理され、これによりこのビデオ信号による映像の人物について、唇の動きベクトルＶが検出される。また対応する音声信号ＳＡが音声検出回路１０に入力され、ここで音声発生のタイミングが検出され、遅延検出回路１１において、この音声発生のタイミングと唇動き検出回路２で検出される唇の動きベクトルＶとから、ビデオ信号と音声信号ＳＡとの時間ずれが検出され、この時間ずれを補正するように遅延回路１２により音声信号ＳＡのタイミングが補正される。これによりこのリップシンク装置１では、遠隔地から伝送されたビデオ信号と音声信号ＳＡについて、さらにはビデオ信号と対応する吹き替えの音声信号ＳＡについて、タイミングの一致を図ることができる。
【００４６】
このような処理に係るリップシンク装置１において、動きベクトルＶの検出に供する輝度信号ＳＹにおいては、動き検出回路３において連続するフレーム間で動きが検出され、遅延回路４によりこの動き検出結果が１フィールド遅延された後、動き領域検出回路５において、元の動き検出結果との間で差分値が検出され、これにより顎の上下動の変化に対応して動き検出領域の偏移量を示す領域検出信号Ｓ１が検出される。またこの領域検出信号Ｓ１により続く初期偏位候補ベクトル設定回路６において、顎が下方向への動きを開始したときと、顎が上方向への動きを開始したときとで、それぞれ既検出の動きベクトルＶのうちで、顎の動いた方向に大きさが最大のものと、さらに極性を反転したものとが前記初期偏位候補ベクトルに加えられ、これにより顎の上下動の変化に応じて、初期偏位候補ベクトルの設定が切り換えられ、この初期偏位候補ベクトルより初期偏位ベクトルが選択されて反復勾配法により唇の動きベクトルが検出される。これによりこのリップシンク装置１においては、顎の上下動により初期偏位ベクトルの設定を切り換えて唇の動きベクトルが検出される。
【００４７】
しかして反復勾配法による唇の動きベクトル検出においては、唇の動きが早い場合や、唇が小さい場合、精度が低下するものの、顎の動きにあっては、唇の動きに連動し、唇に比して動きの領域が大きい特徴がある。これにより顎の上下動により初期偏位ベクトルの設定を切り換えて唇の動きベクトル検出するようにすれば、従来に比して唇の動きの変化に迅速に対応して動きベクトルを検出することができ、その分、検出精度を向上することができる。
【００４８】
またこのような顎の動き検出に関して、リップシンク装置１においては、反復勾配法とは異なり、輝度信号ＳＹを動き検出し、この動き検出手段の検出結果に基づいて、顎の上下動を検出することにより、顎の動きに迅速に対応して動き検出することができる。これによりこのようにして検出される顎の動きにより初期偏位ベクトルの設定を切り換えて唇の動きベクトルを検出することにより、従来に比して格段的に高速度に唇の動きの変化に対応して動きベクトルを検出することができ、その分、検出精度を向上することができる。
【００４９】
またこのような初期偏位ベクトルの設定を、顎の上下動の変化に応じて、初期偏位候補ベクトルの設定を切り換えて実行することにより、簡易な処理により確実に初期偏位ベクトルを設定することができる。
【００５０】
また具体的に、顎の上下動の変化に応じて、既検出の縦方向の動きベクトルで顎の動いた方向に大きさが最大のものと、既検出の動きベクトルの極性を反転したものとを、初期偏位候補ベクトルに加えることにより、さらに具体的には、顎が静止状態から下方向に動きを開始すると、既検出の縦方向の動きベクトルで顎の動いた方向に大きさが最大のものを、初期偏位候補ベクトルに加え、顎が下方向から上方向に動きを切り換えると、既検出の動きベクトルの極性を反転したものを、初期偏位候補ベクトルに加えることにより、既検出の動きベクトルを有効に活用して適切に初期偏位ベクトルを設定することができる。
【００５１】
（１−３）第１の実施の形態の効果
以上の構成によれば、顎の上下動により初期偏位ベクトルの設定を切り換えて唇の動きベクトルを検出することにより、唇の動きに変化があった場合でも、十分に高い精度により音声と映像との時間ずれを検出することができる。
【００５２】
またこのとき、映像信号を動き検出し、この動き検出結果に基づいて顎の上下動を検出することにより、唇の動きの変化に迅速に対応して初期偏位ベクトルを設定することができ、これによっても検出精度を向上することができる。
【００５３】
またこのとき顎の上下動の変化に応じて、初期偏位候補ベクトルの設定を切り換えて初期偏位ベクトルを設定することにより、簡易な処理により確実に初期偏位ベクトルを設定することができる。
【００５４】
また具体的に、顎の上下動の変化に応じて、既検出の縦方向の動きベクトルで顎の動いた方向に大きさが最大のものと、既検出の動きベクトルの極性を反転したものとを、初期偏位候補ベクトルに加えることにより、さらに具体的には、顎が静止状態から下方向に動きを開始すると、既検出の縦方向の動きベクトルで顎の動いた方向に大きさが最大のものを、初期偏位候補ベクトルに加え、顎が下方向から上方向に動きを切り換えると、既検出の動きベクトルの極性を反転したものを、初期偏位候補ベクトルに加えることにより、既検出の動きベクトルを有効に活用して適切に初期偏位ベクトルを設定することができる。
【００５５】
（２）第２の実施の形態
図３は、本発明の第２の実施の形態に係るリップシンク装置を示すブロック図である。このリップシンク装置２１において、第１の実施の形態に係るリップシンク装置１と同一の構成は、対応する符号を付して示し、重複した説明は省略する。
【００５６】
このリップシンク装置２１においては、唇動き検出回路２２により唇の動きベクトルＶを検出し、この唇動き検出回路２２においては、動き検出回路３で検出した輝度信号ＳＹの動き検出結果を遅延回路２３によりほぼ１フィールド遅延させて動き領域検出回路５に出力する。この処理において、遅延回路２３は、輝度信号ＳＹを基準にした輪郭検出の処理により顔の領域を検出し、既に検出された動きベクトルＶからこの領域の動きベクトルを検出することにより、顔の動きを検出する。またこのようにして検出される顔の動きより、顔の上下方向の移動量を検出し、この検出結果により処理対象である動き検出回路３から出力される動き検出信号のタイミングを補正して出力する。
【００５７】
すなわち顎にあっては、顔が上下動した場合でもその位置が変化する。これによりこの実施の形態においては、顔の動きにより動き検出回路３から出力される動き検出信号を補正することにより、顎の部分についてのみ、上下動を検出できるようになされている。なおこの補正にあっては、顔全体で検出される動きベクトルのうちの垂直方向成分の分、出力のタイミングを補正することにより実行することができる。なおこのような顔全体の動きベクトルにあっては、顔と判断される領域に含まれるマクロブロックについて動きベクトルを検出し、この動きベクトルを平均化することにより検出することができ、このような顔の動きにあっては、顔の領域が広いことにより、また動き速度が遅く、動き量も小さいことにより、種々の手法を適用して簡易かつ確実に検出することができる。また顎の動きが垂直方向に集中することにより、このようにして検出される動きベクトルのうちの垂直方向成分のみ使用してタイミングを補正して、簡易な処理により検出精度を向上することができる。
【００５８】
これによりこの実施の形態において、遅延回路２３は、初期偏位ベクトル設定回路７等と共に、人物の顔の動きベクトルを検出する顔の動きベクトル検出手段を構成し、またこの顔の動きベクトルにより顎の上下動に係る検出結果を補正する補正手段を構成するようになされている。
【００５９】
図３の構成によれば、顎の上下動により初期偏位ベクトルの設定を切り換えて唇の動きベクトルを検出するようにして、顔の動きにより顎の動き検出結果を補正することにより、さらに一段と検出精度を向上することができる。
【００６０】
（３）他の実施の形態
なお上述の実施の形態においては、顎の動きの変化により既検出の動きベクトルを利用して初期偏位ベクトルを設定する場合について述べたが、本発明はこれに限らず、既検出の動きベクトルを利用する代わりに固定値の動きベクトルを初期偏位候補ベクトルに設定するようにしてもよい。
【００６１】
また上述の実施の形態においては、唇以外の部位についても動きベクトルを検出する場合について述べたが、本発明はこれに限らず、唇近傍の部位のみについて動きベクトルを検出するようにしてもよい。このようにすれば、その分、全体構成を簡略化することができる。
【００６２】
また上述の実施の形態においては、顎の動きについては、動き検出して処理する場合について述べたが、本発明はこれに限らず、実用上十分な検出精度を確保し得る場合には、例えばブロックマッチング法による動きベクトルを利用する場合等、種々の検出手法を広く適用することができる。
【００６３】
また上述の実施の形態においては、輝度信号により唇の動きベクトルを検出する場合について述べたが、本発明はこれに限らず、色差信号により唇の動きベクトルを検出する場合、輝度信号及び色差信号により唇の動きベクトルを検出する場合等に広く適用することができる。
【００６４】
また上述の実施の形態においては、時間ずれの検出結果により音声信号を遅延させて時間ずれを補正する場合について述べたが、本発明はこれに限らず、必要に応じて映像信号を遅延させてもよく、さらには映像信号と音声信号との双方を遅延させてもよい。
【００６５】
また上述の実施の形態においては、顎の動きにより初期偏位ベクトルを検出し、この初期偏位ベクトルを基準にして勾配法により唇の動きを検出する場合について述べたが、本発明はこれに限らず、勾配法に代えて他の動きベクトル検出手法により動きベクトルを検出する場合に広く適用することができる。
【００６６】
また上述の実施の形態においては、時間ずれの検出結果により時間ずれを補正する場合について述べたが、本発明はこれに限らず、他の機器に時間ずれの補正を委ねる場合等にも広く適用することができる。
【００６７】
また上述の実施の形態においては、ハードウエアの構成により時間ずれを検出する場合について述べたが、本発明はこれに限らず、コンピュータにおけるプログラムの処理により時間ずれを検出する場合にも広く適用することができる。
【００６８】
【発明の効果】
上述のように本発明によれば、顎の上下動により初期偏位ベクトルの設定を切り換えて唇の動きベクトルを検出することにより、唇の動きに変化があった場合でも、十分に高い精度により音声と映像との時間ずれを検出することができる。
【図面の簡単な説明】
【図１】本発明の第１の実施の形態に係るリップシンク装置を示すブロック図である。
【図２】図１のリップシンク装置の動作の説明に供する模式図である。
【図３】本発明の第２の実施の形態に係るリップシンク装置を示すブロック図である。
【符号の説明】
１、２１……リップシンク装置、２、２２……唇動き検出回路、３……動き検出回路、４、１２、２３……遅延回路、５……動き領域検出回路、６……初期偏位候補ベクトル設定回路、７……初期偏位ベクトル選択回路、８……勾配法演算回路、９……加算回路

Claims

映像信号の処理により、前記映像信号に係る人物の唇の動きベクトルを検出し、
前記動きベクトルに基づいて、前記人物の発声のタイミングを検出すると共に、前記映像信号に対応する音声信号より、前記人物の発声に対応する音声のタイミングを検出し、
該検出結果に基づいて、前記映像信号に対する前記音声信号の時間ずれ量を検出し、前記映像信号及び又は前記音声信号のタイミングを補正する信号処理装置において、
前記人物の顎の上下動を検出する上下動検出手段と、
前記上下動検出手段の検出結果に基づいて、前記顎の上下動の変化に応じて初期偏位ベクトルを設定する初期偏位ベクトル設定手段と、
前記初期偏位ベクトルを基準にして前記唇の動きベクトルを検出する動きベクトル検出手段と
を備えることを特徴する信号処理装置。
前記上下動検出手段は、
前記映像信号を動き検出処理する動き検出手段と、
前記動き検出手段の検出結果に基づいて、動きが変化した領域を検出する領域検出手段とを有し、
前記領域検出手段の検出結果により、前記顎の上下動を検出する
ことを特徴する請求項１に記載の信号処理装置。
前記上下動検出手段は、
前記人物の顔の動きベクトルを検出する顔の動きベクトル検出手段と、
前記顔の動きベクトルにより前記顎の上下動に係る検出結果を補正する補正手段とを有する
ことを特徴する請求項１又は請求項２に記載の信号処理装置。
前記初期偏位ベクトル設定手段は、
複数の初期偏位候補ベクトルより前記初期偏位ベクトルを選択して前記初期偏位ベクトルを設定し、
前記顎の上下動の変化に応じて、前記初期偏位候補ベクトルの設定を切り換える
ことを特徴する請求項１、請求項２又は請求項３に記載の信号処理装置。
前記初期偏位ベクトル設定手段は、
前記顎の上下動の変化に応じて、既検出の縦方向の動きベクトルで顎の動いた方向に大きさが最大のものと、既検出の動きベクトルの極性を反転したものとを、前記初期偏位候補ベクトルに加えることにより、
前記顎の上下動の変化に応じて、前記初期偏位候補ベクトルの設定を切り換える
ことを特徴する請求項４に記載の信号処理装置。
前記初期偏位ベクトル設定手段は、
前記顎が静止状態から下方向に動きを開始すると、既検出の縦方向の動きベクトルで顎の動いた方向に大きさが最大のものを、前記初期偏位候補ベクトルに加え、
前記顎が下方向から上方向に動きを切り換えると、既検出の動きベクトルの極性を反転したものを、前記初期偏位候補ベクトルに加えることにより、
前記顎の上下動の変化に応じて、前記初期偏位候補ベクトルの設定を切り換える
ことを特徴する請求項４に記載の信号処理装置。