JP2004260641A - 信号処理装置 - Google Patents
信号処理装置 Download PDFInfo
- Publication number
- JP2004260641A JP2004260641A JP2003050285A JP2003050285A JP2004260641A JP 2004260641 A JP2004260641 A JP 2004260641A JP 2003050285 A JP2003050285 A JP 2003050285A JP 2003050285 A JP2003050285 A JP 2003050285A JP 2004260641 A JP2004260641 A JP 2004260641A
- Authority
- JP
- Japan
- Prior art keywords
- vector
- jaw
- motion
- motion vector
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】本発明は、信号処理装置に関し、唇の動きに変化があった場合でも、十分に高い精度により音声と映像との時間ずれを検出することができるようにする。
【解決手段】本発明は、顎の上下動(S1)により初期偏位ベクトルの設定を切り換えて唇の動きベクトルVを検出する。
【選択図】 図1
【解決手段】本発明は、顎の上下動(S1)により初期偏位ベクトルの設定を切り換えて唇の動きベクトルVを検出する。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は、信号処理装置に関し、例えば音声信号と映像信号とを同期させる信号処理装置に適用することができる。本発明は、顎の上下動により初期偏位ベクトルの設定を切り換えて唇の動きベクトルを検出することにより、唇の動きに変化があった場合でも、十分に高い精度により音声と映像との時間ずれを検出することができるようにする。
【0002】
【従来の技術】
従来、放送現場においては、映像信号及び音声信号が異なる伝送路により伝送される等により、音声と映像との間で時間ずれが発生する。このため放送現場においては、テスト用の映像信号及び音声信号を送信側より受信側に伝送して解析することにより、時間ずれを計測、補正するようになされている。
【0003】
これに対して特開2000−196917号公報、NHKエンジニアリングサービス:VEIW Vol.20 No1 P35 〜P36 等においては、音声解析、動画像解析により音声と映像との間における音声発生のタイミングのずれを検出することにより、時間ずれを検出する方法が提案されるようになされている。
【0004】
これらの方法においては、音声信号の立ち上がりにより音声発生のタイミングを検出するようになされている。また指定した領域で動きベクトルを検出することにより唇の動きを検出し、さらには色彩を基準にして動きベクトルを検出することにより唇の動きを検出し、このようにして検出した唇の動きの判定により、音声発生のタイミングを検出するようになされている。
【0005】
これに対してこのような動きベクトルの検出方法にあっては、動画像符号化装置で用いられているブロックマッチング法、反復勾配法(特開昭62−206980号公報)が広く知られており、反復勾配法においては、ブロックマッチング法に比して検出精度が優れる特徴がある。
【0006】
【特許文献1】
特開2000−196917号公報
【特許文献2】
特開昭62−206980号公報
【非特許文献1】
NHKエンジニアリングサービス:VEIW Vol.20 No1 P35 〜P36
【0007】
【発明が解決しようとする課題】
ところでこのような音声解析、動画像解析により音声と映像との時間ずれを検出する場合においては、テスト用の映像信号及び音声信号を伝送しなくても、アナウンサー等の映像及び音声により時間ずれを検出できることにより、便利であると考えられる。
【0008】
しかしながら従来の手法においては、映像より音声発生のタイミングを検出する精度が低く、これにより実用上未だ不十分な問題があった。すなわち動きベクトルにより唇の動きを検出する場合、ブロックマッチング法に比して反復勾配法の方が検出精度が優れることにより、反復勾配法により唇の動きベクトルを検出して高い精度により音声発生のタイミングを検出できると考えられる。
【0009】
しかしながら反復勾配法においては、それまで検出されている動きベクトルにより初期偏位ベクトルを設定し、この初期偏位ベクトルを基準にして偏位ベクトルを検出して動きベクトルを検出することにより、精度を確保して動きベクトルを検出する方式である。これにより例えば閉じた状態から唇が開いた場合、閉じた状態に対応する初期偏位ベクトル「0」の状態で偏位ベクトルを検出することになり、結局、偏位ベクトルのみにより動きベクトルを検出することになる。反復勾配法においては、初期偏位ベクトルを基準にして偏位ベクトルを検出して動きベクトルの検出精度を確保することにより、偏位ベクトルのみについて見れば精度を確保して検出し得る範囲が狭く(実用上、±3画素程度の範囲)、これによりこのように唇の動きに変化があった場合、この動きの変化に十分に追従して動きベクトルを検出し得なくなる。
【0010】
また唇の動きが開く方向から閉じる方向に変化した場合、動きベクトルの極性が変化することになるが、初期偏位ベクトルにあっては唇が開く方向の極性に保持されたままであることにより、この場合も、同様に、唇の動きの変化に十分に追従して動きベクトルを検出し得なくなる。
【0011】
これらによりこの方法にあっては、唇の動きに変化があった場合に、唇の動きを正確に把握することが困難な欠点があり、その分、十分に高い精度により音声と映像との時間ずれを検出することが困難な問題があった。なおこのような検出精度の低下は、唇の動きが早い場合、唇が小さい場合、より顕著となる。
【0012】
本発明は以上の点を考慮してなされたもので、唇の動きに変化があった場合でも、十分に高い精度により音声と映像との時間ずれを検出することができる信号処理装置を提案しようとするものである。
【0013】
【課題を解決するための手段】
かかる課題を解決するため請求項1の発明においては、映像信号の処理により、前記映像信号に係る人物の唇の動きベクトルを検出し、前記動きベクトルに基づいて、前記人物の発声のタイミングを検出すると共に、前記映像信号に対応する音声信号より、前記人物の発声に対応する音声のタイミングを検出し、該検出結果に基づいて、前記映像信号に対する前記音声信号の時間ずれ量を検出し、前記映像信号及び又は前記音声信号のタイミングを補正する信号処理装置に適用する。本発明は、前記人物の顎の上下動を検出する上下動検出手段と、前記上下動検出手段の検出結果に基づいて、前記顎の上下動の変化に応じて初期偏位ベクトルを設定する初期偏位ベクトル設定手段と、前記初期偏位ベクトルを基準にして前記唇の動きベクトルを検出する動きベクトル検出手段とを備えるようにする。
【0014】
また請求項2の発明においては、請求項1の構成において、前記上下動検出手段は、前記映像信号を動き検出処理する動き検出手段と、動きが変化した領域を検出する領域検出手段と有し、前記領域検出手段の検出結果により、前記顎の上下動を検出する。
【0015】
また請求項3の発明においては、請求項1又は請求項2の構成において、前記上下動検出手段は、前記人物の顔の動きベクトルを検出する顔の動きベクトル検出手段と、前記顔の動きベクトルにより前記顎の上下動に係る検出結果を補正する補正手段とを有するようにする。
【0016】
また請求項4の発明においては、請求項1、請求項2又は請求項3の構成において、前記初期偏位ベクトル設定手段は、複数の初期偏位候補ベクトルより前記初期偏位ベクトルを選択して前記初期偏位ベクトルを設定し、前記初期偏位ベクトル設定手段は、前記顎の上下動の変化に応じて、前記初期偏位候補ベクトルの設定を切り換える。
【0017】
また請求項5の発明においては、請求項4の構成において、前記初期偏位ベクトル設定手段は、前記顎の上下動の変化に応じて、既検出の縦方向の動きベクトルで大きさが最大のものと、既検出の動きベクトルの極性を反転したものとを、前記初期偏位候補ベクトルに加えることにより、前記顎の上下動の変化に応じて、前記初期偏位候補ベクトルの設定を切り換える。
【0018】
また請求項6の発明においては、請求項4の構成において、前記初期偏位ベクトル設定手段は、前記顎が静止状態から下方向に動きを開始すると、既検出の縦方向の動きベクトルで大きさが最大のものを、前記初期偏位候補ベクトルに加え、前記顎が下方向から上方向に動きを切り換えると、既検出の動きベクトルの極性を反転したものを、前記初期偏位候補ベクトルに加えることにより、前記顎の上下動の変化に応じて、前記初期偏位候補ベクトルの設定を切り換える。
【0019】
請求項1の構成によれば、映像信号の処理により、前記映像信号に係る人物の唇の動きベクトルを検出し、前記動きベクトルに基づいて、前記人物の発声のタイミングを検出すると共に、前記映像信号に対応する音声信号より、前記人物の発声に対応する音声のタイミングを検出し、該検出結果に基づいて、前記映像信号に対する前記音声信号の時間ずれ量を検出し、前記映像信号及び又は前記音声信号のタイミングを補正する信号処理装置に適用して、前記人物の顎の上下動を検出する上下動検出手段と、前記上下動検出手段の検出結果に基づいて、前記顎の上下動の変化に応じて初期偏位ベクトルを設定する初期偏位ベクトル設定手段と、前記初期偏位ベクトルを基準にして前記唇の動きベクトルを検出する動きベクトル検出手段とを備えることにより、唇の動きに連動する顎の動きに基づいて唇の動きの変化に追従して動きベクトルを検出可能に初期偏位ベクトルを設定することができる。これにより、例えば反復勾配法により唇の動きベクトルを検出して、唇の動きに変化があった場合でも、十分に高い精度により音声と映像との時間ずれを検出することができる。
【0020】
また請求項2の構成によれば、請求項1の構成において、前記上下動検出手段は、前記映像信号を動き検出処理する動き検出手段と、動きが変化した領域を検出する領域検出手段とを有し、前記領域検出手段の検出結果により、前記顎の上下動を検出することにより、領域の拡大縮小により顎の上下動を検出することができ、その分、簡易かつ確実に顎の動きを検出して唇の動きベクトルを検出することができる。
【0021】
また請求項3の発明においては、請求項1又は請求項2の構成において、前記上下動検出手段は、前記人物の顔の動きベクトルを検出する顔の動きベクトル検出手段と、前記顔の動きベクトルにより前記顎の上下動に係る検出結果を補正する補正手段とを有することにより、顔の動きによる顎の動きの誤検出を有効に回避することができる。
【0022】
また請求項4の発明においては、請求項1、請求項2又は請求項3の構成において、前記初期偏位ベクトル設定手段は、複数の初期偏位候補ベクトルより前記初期偏位ベクトルを選択して前記初期偏位ベクトルを設定し、前記顎の上下動の変化に応じて、前記初期偏位候補ベクトルの設定を切り換えることにより、具体的に、顎の上下動の変化に応じて初期偏位ベクトルを設定して検出精度を向上することができる。
【0023】
また請求項5の発明においては、請求項4の構成において、前記初期偏位ベクトル設定手段は、前記顎の上下動の変化に応じて、既検出の縦方向の動きベクトルで大きさが最大のものと、既検出の動きベクトルの極性を反転したものとを、前記初期偏位候補ベクトルに加えることにより、前記顎の上下動の変化に応じて、前記初期偏位候補ベクトルの設定を切り換えることにより、より具体的に、顎の上下動の変化に応じて初期偏位ベクトルを設定して検出精度を向上することができる。
【0024】
また請求項6の発明においては、請求項4の構成において、前記初期偏位ベクトル設定手段は、前記顎が静止状態から下方向に動きを開始すると、既検出の縦方向の動きベクトルで大きさが最大のものを、前記初期偏位候補ベクトルに加え、前記顎が下方向から上方向に動きを切り換えると、既検出の動きベクトルの極性を反転したものを、前記初期偏位候補ベクトルに加えることにより、前記顎の上下動の変化に応じて、前記初期偏位候補ベクトルの設定を切り換えることにより、より具体的に、顎の上下動の変化に応じて初期偏位ベクトルを設定して検出精度を向上することができる。
【0025】
【発明の実施の形態】
以下、適宜図面を参照しながら本発明の実施の形態を詳述する。
【0026】
(1)第1の実施の形態
(1−1)第1の実施の形態の構成
図1は、本発明の実施の形態に係るリップシンク装置を示すブロック図である。このリップシンク装置1では、唇動き検出回路2により唇の動きVを検出し、この検出結果に基づいて音声信号SAを遅延させてビデオ信号SV(SY)と対応する音声信号SAとのタイミングを一致させる。
【0027】
すなわち唇動き検出回路2において、動き検出回路3は、ビデオ信号SVを構成する輝度信号SYを入力し、連続するフレーム間で対応する画素値を比較することにより、動きのある画素で信号レベルが立ち上がる動き検出信号を輝度信号SYと共に出力する。なおこの動き検出にあっては、種々の手法を適用することができ、また連続するフィールド間で動き検出するようにしてもよい。
【0028】
遅延回路4は、この動き検出信号を1フィールド遅延させて出力する。
【0029】
動き領域検出回路5は、遅延回路4に入力される動き検出信号と、遅延回路4から出力される動き検出信号とを減算し、これにより顎と判断される領域における動きの変化(動き検出領域の偏移量)を示す領域検出信号S1を輝度信号SYと共に出力する。なお動き領域検出回路5は、遅延回路4を介して入力される輝度信号SYの処理により顎と判断される領域を予測し、この予測結果により、遅延回路4に入力される動き検出信号と、遅延回路4から出力される動き検出信号とをマスクして処理するようにしてもよい。
【0030】
すなわち唇の動きは大半が上下方向の動きであり、しかも反復を繰り返す動きである。これにより唇の動きが静止した状態から動いたか、またこの動いた方向が開く方向であるか閉じる方向であるかを検出することができれば、これらに対応するように初期偏位ベクトルを設定して、反復勾配法により高い精度により唇の動きベクトルを検出することができる。
【0031】
このような唇の動きに対して、顎は、動きが連動しており、唇が開く方向であれば、顎は、下方向に動き、唇が閉じる方向では、顎は上方向に動く。これにより顎が静止しているか、下方向へ動いたか、上方向に動いたかを検出することができれば、連動する唇の動きも検出することができる。
【0032】
このような顎の動き方向の検出においては、反復勾配法により動きベクトルを検出する方法も考えられるが、反復勾配法により顎の動きベクトルを検出する場合にあっては、反復勾配法により唇の動きベクトルを検出する場合と同様に、動きの変化に追従して高い精度により動きベクトルを検出することが困難な欠点があり、結局、唇の動きに変化があった場合にも、十分に高い精度により唇の動きベクトルを検出することが困難になる。
【0033】
しかしながら顎が動いた場合にあっては、対応する領域において、動きがあった領域の大きさが変化する。すなわち図2(A)に示すように、静止状態にあっては、顎と判断される領域においては、連続するフィールドにおいて、何ら動きが無く、これにより動き検出回路3を介して得られる動き検出結果においては、何ら動き検出され無いことになる。これに対して唇を開くと、図2(B)に示すように、顎が下方向に動き、これにより顎に対応する動き検出回路3で検出される領域(動き検出領域)においては、図2(C)に示すように、面積が増大することになる。これに対してこのように唇が開いた状態から唇が閉じる方向に変化すると、図2(D)に示すように、顎が上方向に動き、これにより顎に対応する動き検出回路3で検出される領域(動き検出領域)においては、図2(E)に示すように、面積が減少することになる。
【0034】
これにより図2(F)に示すように、このようにして検出される動き検出領域の時間軸方向の変化(動き検出領域の偏移量)に注目すれば、顎の動きが変化した時点を検出し得、この時点より唇の動きが変化した時点を検出することができる。すなわち顎が一様な速度により上方向又は下方向に動いている場合、顎が静止し続けている場合と同様に、連続するフィールドで検出される動き検出領域においては、ほぼ一定の面積であるのに対し、動きが変化した場合にあっては、面積が変化する。なおこの図2(F)に示す動き検出領域の偏移量に係る領域検出信号S1においては、図2(A)〜(E)に対応する模式的なものである。これにより動き領域検出回路5は、このような顎の動きに係る領域検出信号S1を対応する輝度信号SYと共に出力する。
【0035】
初期偏位候補ベクトル設定回路6は、通常の処理においては、従来の反復勾配法に係る構成と同様に、加算回路9から出力される動きベクトルVから、初期偏位候補ベクトルを選択して輝度信号SYと共に出力する。すなわち初期偏位候補ベクトル設定回路6は、例えば1フィールド前の対応するマクロブロックで検出された動きベクトル、この対応するマクロブロックに対して水平方向、垂直方向に隣接するマクロブロックで検出された動きベクトル、同一フィールドにおける水平方向及び垂直方向の直前のマクロブロックで検出された動きベクトルをこれら初期偏位候補ベクトルに設定して出力する。
【0036】
この処理において、初期偏位候補ベクトル設定回路6は、動き領域検出回路5を介して入力される輝度信号SYの処理により、両目の位置をそれぞれ検出し、この位置検出結果より唇の領域を検出する。さらにこの唇の領域については、動き領域検出回路5から出力される領域検出信号S1に応じて初期偏位候補ベクトルを設定する。
【0037】
すなわち初期偏位候補ベクトル設定回路6は、領域検出信号S1により顎が何ら動いていないと判断される場合、上述した他の領域に係る処理と同様に、初期偏位候補ベクトルを設定して出力する。これに対して領域検出信号S1により顎が静止状態から下方向への動きを開始したと判断される場合、同様の処理により検出される初期偏位候補ベクトルに、既検出の縦方向の動きベクトルで顎の動いた方向に大きさが最大のものを加え、これらを初期偏位候補ベクトルに設定する。
【0038】
またこれとは逆に、領域検出信号S1により顎が下方向から上方向に動きを切り換えたと判断される場合、既検出の動きベクトルの縦方向の極性を反転したものを初期偏位候補ベクトルに加える。ここでこの実施の形態において、このような初期偏位候補ベクトルの選定に係る既検出の動きベクトルは、過去所定フィールド数の輝度信号SYで検出された唇の動きベクトルVであり、極性を切り換えて初期偏位候補ベクトルに設定する動きベクトルVにあっては、例えば既検出の縦方向の動きベクトルで顎の動いた方向に大きさが最大のものが適用される。なおこのような顎の下方向から上方向への動きの変化にあっては、下方向に顎が動いた後、一時動きが停止した場合も含まれる。
【0039】
これに対して領域検出信号S1により顎の上方向の動き、下方向の動きが継続している場合、上述した他の領域で設定する初期偏位ベクトルと同一の手法により初期偏位候補ベクトルを設定する。
【0040】
初期偏位ベクトル選択回路7は、従来構成による反復勾配法に係る初期偏位ベクトル選択回路と同様にして、これら複数の初期偏位候補ベクトルから初期偏位ベクトルV0を選択する。すなわち初期偏位ベクトル選択回路7は、初期偏位候補ベクトルの設定に供した動きベクトルに対応するマクロブロックと、処理対象であるマクロブロックとの間で、それぞれ輝度信号SYにより類似の程度を計算し、この計算結果により最も類似の程度の高いマクロブロックから求められた初期偏位候補ベクトルV0を選択する。なおこの類似の程度は、例えば画素値の差分絶対値和により求められる。初期偏位ベクトル選択回路7は、このようにして選択した初期偏位ベクトルV0を輝度信号SYと共に出力する。
【0041】
勾配法演算回路8は、初期偏位ベクトル選択回路7を基準にした勾配法に係る輝度信号SYの演算処理により、偏位ベクトルを計算して出力する。加算回路9は、この偏位ベクトルと対応する初期偏位ベクトルとを加算し、これにより動きベクトルVを計算して出力する。
【0042】
音声検出回路10は、音声信号SAの音声解析により、唇の動きを伴う特定の音声発生のタイミングを検出する。すなわち日本語において、「マ」、「ミ」、「ム」、「メ」、「モ」、「パ」、「ピ」、「プ」、「ペ」、「ポ」等の音声は、必ず唇が動き、また動きも大きい特徴がある。これに対して「ア」、「イ」、「ウ」、「エ」、「オ」、「サ」、「シ」、「ス」、「セ」、「ソ」等の音声は、唇を動かさなくても発生可能であり、また唇が動いたとしても、動きが小さい特徴がある。これにより音声検出回路10は、このような唇が大きく動く特定の音声発生のタイミングを検出する。なお音声が英語の場合には、唇が大きく動く特定の音声としては、例えば、「B」、「P」、「V」、「Y」等の発声が該当する。
【0043】
遅延検出回路11は、音声検出回路10によるタイミング検出結果と、唇動き検出回路2による動きベクトルVの検出結果との比較により、音声に対する映像の遅延時間を検出する。遅延回路12は、この遅延検出回路11で検出される遅延量により音声信号SAを遅延させ、これにより映像に音声を同期させて出力する。
【0044】
これらによりこの実施の形態において、動き検出回路3、遅延回路4、動き領域検出回路5は、顎の上下動を検出する上下動検出手段を構成し、初期偏位候補ベクトル設定回路6、初期偏位ベクトル選択回路7は、この上下動検出手段の検出結果に基づいて、顎の上下動の変化に応じて初期偏位ベクトルを設定する初期偏位ベクトル設定手段を構成するようになされ、また勾配法演算回路8、加算回路9は、この初期偏位ベクトルを基準にして勾配法により唇の動きベクトルを検出する動きベクトル検出手段を構成するようになされている。またこの上下動検出手段に係る構成のうち、動き検出回路3は、輝度信号SYによる映像信号を動き検出処理する動き検出手段を構成するのに対し、遅延回路4及び動き領域検出回路5は、この動き検出手段の検出結果に基づいて、顎の動き領域を検出する領域検出手段を構成するようになされている。
【0045】
(1−2)第1の実施の形態の動作
以上の構成において、このリップシンク装置1では、例えば遠隔地から伝送されたビデオ信号のうち、輝度信号SYが唇動き検出回路2で処理され、これによりこのビデオ信号による映像の人物について、唇の動きベクトルVが検出される。また対応する音声信号SAが音声検出回路10に入力され、ここで音声発生のタイミングが検出され、遅延検出回路11において、この音声発生のタイミングと唇動き検出回路2で検出される唇の動きベクトルVとから、ビデオ信号と音声信号SAとの時間ずれが検出され、この時間ずれを補正するように遅延回路12により音声信号SAのタイミングが補正される。これによりこのリップシンク装置1では、遠隔地から伝送されたビデオ信号と音声信号SAについて、さらにはビデオ信号と対応する吹き替えの音声信号SAについて、タイミングの一致を図ることができる。
【0046】
このような処理に係るリップシンク装置1において、動きベクトルVの検出に供する輝度信号SYにおいては、動き検出回路3において連続するフレーム間で動きが検出され、遅延回路4によりこの動き検出結果が1フィールド遅延された後、動き領域検出回路5において、元の動き検出結果との間で差分値が検出され、これにより顎の上下動の変化に対応して動き検出領域の偏移量を示す領域検出信号S1が検出される。またこの領域検出信号S1により続く初期偏位候補ベクトル設定回路6において、顎が下方向への動きを開始したときと、顎が上方向への動きを開始したときとで、それぞれ既検出の動きベクトルVのうちで、顎の動いた方向に大きさが最大のものと、さらに極性を反転したものとが前記初期偏位候補ベクトルに加えられ、これにより顎の上下動の変化に応じて、初期偏位候補ベクトルの設定が切り換えられ、この初期偏位候補ベクトルより初期偏位ベクトルが選択されて反復勾配法により唇の動きベクトルが検出される。これによりこのリップシンク装置1においては、顎の上下動により初期偏位ベクトルの設定を切り換えて唇の動きベクトルが検出される。
【0047】
しかして反復勾配法による唇の動きベクトル検出においては、唇の動きが早い場合や、唇が小さい場合、精度が低下するものの、顎の動きにあっては、唇の動きに連動し、唇に比して動きの領域が大きい特徴がある。これにより顎の上下動により初期偏位ベクトルの設定を切り換えて唇の動きベクトル検出するようにすれば、従来に比して唇の動きの変化に迅速に対応して動きベクトルを検出することができ、その分、検出精度を向上することができる。
【0048】
またこのような顎の動き検出に関して、リップシンク装置1においては、反復勾配法とは異なり、輝度信号SYを動き検出し、この動き検出手段の検出結果に基づいて、顎の上下動を検出することにより、顎の動きに迅速に対応して動き検出することができる。これによりこのようにして検出される顎の動きにより初期偏位ベクトルの設定を切り換えて唇の動きベクトルを検出することにより、従来に比して格段的に高速度に唇の動きの変化に対応して動きベクトルを検出することができ、その分、検出精度を向上することができる。
【0049】
またこのような初期偏位ベクトルの設定を、顎の上下動の変化に応じて、初期偏位候補ベクトルの設定を切り換えて実行することにより、簡易な処理により確実に初期偏位ベクトルを設定することができる。
【0050】
また具体的に、顎の上下動の変化に応じて、既検出の縦方向の動きベクトルで顎の動いた方向に大きさが最大のものと、既検出の動きベクトルの極性を反転したものとを、初期偏位候補ベクトルに加えることにより、さらに具体的には、顎が静止状態から下方向に動きを開始すると、既検出の縦方向の動きベクトルで顎の動いた方向に大きさが最大のものを、初期偏位候補ベクトルに加え、顎が下方向から上方向に動きを切り換えると、既検出の動きベクトルの極性を反転したものを、初期偏位候補ベクトルに加えることにより、既検出の動きベクトルを有効に活用して適切に初期偏位ベクトルを設定することができる。
【0051】
(1−3)第1の実施の形態の効果
以上の構成によれば、顎の上下動により初期偏位ベクトルの設定を切り換えて唇の動きベクトルを検出することにより、唇の動きに変化があった場合でも、十分に高い精度により音声と映像との時間ずれを検出することができる。
【0052】
またこのとき、映像信号を動き検出し、この動き検出結果に基づいて顎の上下動を検出することにより、唇の動きの変化に迅速に対応して初期偏位ベクトルを設定することができ、これによっても検出精度を向上することができる。
【0053】
またこのとき顎の上下動の変化に応じて、初期偏位候補ベクトルの設定を切り換えて初期偏位ベクトルを設定することにより、簡易な処理により確実に初期偏位ベクトルを設定することができる。
【0054】
また具体的に、顎の上下動の変化に応じて、既検出の縦方向の動きベクトルで顎の動いた方向に大きさが最大のものと、既検出の動きベクトルの極性を反転したものとを、初期偏位候補ベクトルに加えることにより、さらに具体的には、顎が静止状態から下方向に動きを開始すると、既検出の縦方向の動きベクトルで顎の動いた方向に大きさが最大のものを、初期偏位候補ベクトルに加え、顎が下方向から上方向に動きを切り換えると、既検出の動きベクトルの極性を反転したものを、初期偏位候補ベクトルに加えることにより、既検出の動きベクトルを有効に活用して適切に初期偏位ベクトルを設定することができる。
【0055】
(2)第2の実施の形態
図3は、本発明の第2の実施の形態に係るリップシンク装置を示すブロック図である。このリップシンク装置21において、第1の実施の形態に係るリップシンク装置1と同一の構成は、対応する符号を付して示し、重複した説明は省略する。
【0056】
このリップシンク装置21においては、唇動き検出回路22により唇の動きベクトルVを検出し、この唇動き検出回路22においては、動き検出回路3で検出した輝度信号SYの動き検出結果を遅延回路23によりほぼ1フィールド遅延させて動き領域検出回路5に出力する。この処理において、遅延回路23は、輝度信号SYを基準にした輪郭検出の処理により顔の領域を検出し、既に検出された動きベクトルVからこの領域の動きベクトルを検出することにより、顔の動きを検出する。またこのようにして検出される顔の動きより、顔の上下方向の移動量を検出し、この検出結果により処理対象である動き検出回路3から出力される動き検出信号のタイミングを補正して出力する。
【0057】
すなわち顎にあっては、顔が上下動した場合でもその位置が変化する。これによりこの実施の形態においては、顔の動きにより動き検出回路3から出力される動き検出信号を補正することにより、顎の部分についてのみ、上下動を検出できるようになされている。なおこの補正にあっては、顔全体で検出される動きベクトルのうちの垂直方向成分の分、出力のタイミングを補正することにより実行することができる。なおこのような顔全体の動きベクトルにあっては、顔と判断される領域に含まれるマクロブロックについて動きベクトルを検出し、この動きベクトルを平均化することにより検出することができ、このような顔の動きにあっては、顔の領域が広いことにより、また動き速度が遅く、動き量も小さいことにより、種々の手法を適用して簡易かつ確実に検出することができる。また顎の動きが垂直方向に集中することにより、このようにして検出される動きベクトルのうちの垂直方向成分のみ使用してタイミングを補正して、簡易な処理により検出精度を向上することができる。
【0058】
これによりこの実施の形態において、遅延回路23は、初期偏位ベクトル設定回路7等と共に、人物の顔の動きベクトルを検出する顔の動きベクトル検出手段を構成し、またこの顔の動きベクトルにより顎の上下動に係る検出結果を補正する補正手段を構成するようになされている。
【0059】
図3の構成によれば、顎の上下動により初期偏位ベクトルの設定を切り換えて唇の動きベクトルを検出するようにして、顔の動きにより顎の動き検出結果を補正することにより、さらに一段と検出精度を向上することができる。
【0060】
(3)他の実施の形態
なお上述の実施の形態においては、顎の動きの変化により既検出の動きベクトルを利用して初期偏位ベクトルを設定する場合について述べたが、本発明はこれに限らず、既検出の動きベクトルを利用する代わりに固定値の動きベクトルを初期偏位候補ベクトルに設定するようにしてもよい。
【0061】
また上述の実施の形態においては、唇以外の部位についても動きベクトルを検出する場合について述べたが、本発明はこれに限らず、唇近傍の部位のみについて動きベクトルを検出するようにしてもよい。このようにすれば、その分、全体構成を簡略化することができる。
【0062】
また上述の実施の形態においては、顎の動きについては、動き検出して処理する場合について述べたが、本発明はこれに限らず、実用上十分な検出精度を確保し得る場合には、例えばブロックマッチング法による動きベクトルを利用する場合等、種々の検出手法を広く適用することができる。
【0063】
また上述の実施の形態においては、輝度信号により唇の動きベクトルを検出する場合について述べたが、本発明はこれに限らず、色差信号により唇の動きベクトルを検出する場合、輝度信号及び色差信号により唇の動きベクトルを検出する場合等に広く適用することができる。
【0064】
また上述の実施の形態においては、時間ずれの検出結果により音声信号を遅延させて時間ずれを補正する場合について述べたが、本発明はこれに限らず、必要に応じて映像信号を遅延させてもよく、さらには映像信号と音声信号との双方を遅延させてもよい。
【0065】
また上述の実施の形態においては、顎の動きにより初期偏位ベクトルを検出し、この初期偏位ベクトルを基準にして勾配法により唇の動きを検出する場合について述べたが、本発明はこれに限らず、勾配法に代えて他の動きベクトル検出手法により動きベクトルを検出する場合に広く適用することができる。
【0066】
また上述の実施の形態においては、時間ずれの検出結果により時間ずれを補正する場合について述べたが、本発明はこれに限らず、他の機器に時間ずれの補正を委ねる場合等にも広く適用することができる。
【0067】
また上述の実施の形態においては、ハードウエアの構成により時間ずれを検出する場合について述べたが、本発明はこれに限らず、コンピュータにおけるプログラムの処理により時間ずれを検出する場合にも広く適用することができる。
【0068】
【発明の効果】
上述のように本発明によれば、顎の上下動により初期偏位ベクトルの設定を切り換えて唇の動きベクトルを検出することにより、唇の動きに変化があった場合でも、十分に高い精度により音声と映像との時間ずれを検出することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態に係るリップシンク装置を示すブロック図である。
【図2】図1のリップシンク装置の動作の説明に供する模式図である。
【図3】本発明の第2の実施の形態に係るリップシンク装置を示すブロック図である。
【符号の説明】
1、21……リップシンク装置、2、22……唇動き検出回路、3……動き検出回路、4、12、23……遅延回路、5……動き領域検出回路、6……初期偏位候補ベクトル設定回路、7……初期偏位ベクトル選択回路、8……勾配法演算回路、9……加算回路
【発明の属する技術分野】
本発明は、信号処理装置に関し、例えば音声信号と映像信号とを同期させる信号処理装置に適用することができる。本発明は、顎の上下動により初期偏位ベクトルの設定を切り換えて唇の動きベクトルを検出することにより、唇の動きに変化があった場合でも、十分に高い精度により音声と映像との時間ずれを検出することができるようにする。
【0002】
【従来の技術】
従来、放送現場においては、映像信号及び音声信号が異なる伝送路により伝送される等により、音声と映像との間で時間ずれが発生する。このため放送現場においては、テスト用の映像信号及び音声信号を送信側より受信側に伝送して解析することにより、時間ずれを計測、補正するようになされている。
【0003】
これに対して特開2000−196917号公報、NHKエンジニアリングサービス:VEIW Vol.20 No1 P35 〜P36 等においては、音声解析、動画像解析により音声と映像との間における音声発生のタイミングのずれを検出することにより、時間ずれを検出する方法が提案されるようになされている。
【0004】
これらの方法においては、音声信号の立ち上がりにより音声発生のタイミングを検出するようになされている。また指定した領域で動きベクトルを検出することにより唇の動きを検出し、さらには色彩を基準にして動きベクトルを検出することにより唇の動きを検出し、このようにして検出した唇の動きの判定により、音声発生のタイミングを検出するようになされている。
【0005】
これに対してこのような動きベクトルの検出方法にあっては、動画像符号化装置で用いられているブロックマッチング法、反復勾配法(特開昭62−206980号公報)が広く知られており、反復勾配法においては、ブロックマッチング法に比して検出精度が優れる特徴がある。
【0006】
【特許文献1】
特開2000−196917号公報
【特許文献2】
特開昭62−206980号公報
【非特許文献1】
NHKエンジニアリングサービス:VEIW Vol.20 No1 P35 〜P36
【0007】
【発明が解決しようとする課題】
ところでこのような音声解析、動画像解析により音声と映像との時間ずれを検出する場合においては、テスト用の映像信号及び音声信号を伝送しなくても、アナウンサー等の映像及び音声により時間ずれを検出できることにより、便利であると考えられる。
【0008】
しかしながら従来の手法においては、映像より音声発生のタイミングを検出する精度が低く、これにより実用上未だ不十分な問題があった。すなわち動きベクトルにより唇の動きを検出する場合、ブロックマッチング法に比して反復勾配法の方が検出精度が優れることにより、反復勾配法により唇の動きベクトルを検出して高い精度により音声発生のタイミングを検出できると考えられる。
【0009】
しかしながら反復勾配法においては、それまで検出されている動きベクトルにより初期偏位ベクトルを設定し、この初期偏位ベクトルを基準にして偏位ベクトルを検出して動きベクトルを検出することにより、精度を確保して動きベクトルを検出する方式である。これにより例えば閉じた状態から唇が開いた場合、閉じた状態に対応する初期偏位ベクトル「0」の状態で偏位ベクトルを検出することになり、結局、偏位ベクトルのみにより動きベクトルを検出することになる。反復勾配法においては、初期偏位ベクトルを基準にして偏位ベクトルを検出して動きベクトルの検出精度を確保することにより、偏位ベクトルのみについて見れば精度を確保して検出し得る範囲が狭く(実用上、±3画素程度の範囲)、これによりこのように唇の動きに変化があった場合、この動きの変化に十分に追従して動きベクトルを検出し得なくなる。
【0010】
また唇の動きが開く方向から閉じる方向に変化した場合、動きベクトルの極性が変化することになるが、初期偏位ベクトルにあっては唇が開く方向の極性に保持されたままであることにより、この場合も、同様に、唇の動きの変化に十分に追従して動きベクトルを検出し得なくなる。
【0011】
これらによりこの方法にあっては、唇の動きに変化があった場合に、唇の動きを正確に把握することが困難な欠点があり、その分、十分に高い精度により音声と映像との時間ずれを検出することが困難な問題があった。なおこのような検出精度の低下は、唇の動きが早い場合、唇が小さい場合、より顕著となる。
【0012】
本発明は以上の点を考慮してなされたもので、唇の動きに変化があった場合でも、十分に高い精度により音声と映像との時間ずれを検出することができる信号処理装置を提案しようとするものである。
【0013】
【課題を解決するための手段】
かかる課題を解決するため請求項1の発明においては、映像信号の処理により、前記映像信号に係る人物の唇の動きベクトルを検出し、前記動きベクトルに基づいて、前記人物の発声のタイミングを検出すると共に、前記映像信号に対応する音声信号より、前記人物の発声に対応する音声のタイミングを検出し、該検出結果に基づいて、前記映像信号に対する前記音声信号の時間ずれ量を検出し、前記映像信号及び又は前記音声信号のタイミングを補正する信号処理装置に適用する。本発明は、前記人物の顎の上下動を検出する上下動検出手段と、前記上下動検出手段の検出結果に基づいて、前記顎の上下動の変化に応じて初期偏位ベクトルを設定する初期偏位ベクトル設定手段と、前記初期偏位ベクトルを基準にして前記唇の動きベクトルを検出する動きベクトル検出手段とを備えるようにする。
【0014】
また請求項2の発明においては、請求項1の構成において、前記上下動検出手段は、前記映像信号を動き検出処理する動き検出手段と、動きが変化した領域を検出する領域検出手段と有し、前記領域検出手段の検出結果により、前記顎の上下動を検出する。
【0015】
また請求項3の発明においては、請求項1又は請求項2の構成において、前記上下動検出手段は、前記人物の顔の動きベクトルを検出する顔の動きベクトル検出手段と、前記顔の動きベクトルにより前記顎の上下動に係る検出結果を補正する補正手段とを有するようにする。
【0016】
また請求項4の発明においては、請求項1、請求項2又は請求項3の構成において、前記初期偏位ベクトル設定手段は、複数の初期偏位候補ベクトルより前記初期偏位ベクトルを選択して前記初期偏位ベクトルを設定し、前記初期偏位ベクトル設定手段は、前記顎の上下動の変化に応じて、前記初期偏位候補ベクトルの設定を切り換える。
【0017】
また請求項5の発明においては、請求項4の構成において、前記初期偏位ベクトル設定手段は、前記顎の上下動の変化に応じて、既検出の縦方向の動きベクトルで大きさが最大のものと、既検出の動きベクトルの極性を反転したものとを、前記初期偏位候補ベクトルに加えることにより、前記顎の上下動の変化に応じて、前記初期偏位候補ベクトルの設定を切り換える。
【0018】
また請求項6の発明においては、請求項4の構成において、前記初期偏位ベクトル設定手段は、前記顎が静止状態から下方向に動きを開始すると、既検出の縦方向の動きベクトルで大きさが最大のものを、前記初期偏位候補ベクトルに加え、前記顎が下方向から上方向に動きを切り換えると、既検出の動きベクトルの極性を反転したものを、前記初期偏位候補ベクトルに加えることにより、前記顎の上下動の変化に応じて、前記初期偏位候補ベクトルの設定を切り換える。
【0019】
請求項1の構成によれば、映像信号の処理により、前記映像信号に係る人物の唇の動きベクトルを検出し、前記動きベクトルに基づいて、前記人物の発声のタイミングを検出すると共に、前記映像信号に対応する音声信号より、前記人物の発声に対応する音声のタイミングを検出し、該検出結果に基づいて、前記映像信号に対する前記音声信号の時間ずれ量を検出し、前記映像信号及び又は前記音声信号のタイミングを補正する信号処理装置に適用して、前記人物の顎の上下動を検出する上下動検出手段と、前記上下動検出手段の検出結果に基づいて、前記顎の上下動の変化に応じて初期偏位ベクトルを設定する初期偏位ベクトル設定手段と、前記初期偏位ベクトルを基準にして前記唇の動きベクトルを検出する動きベクトル検出手段とを備えることにより、唇の動きに連動する顎の動きに基づいて唇の動きの変化に追従して動きベクトルを検出可能に初期偏位ベクトルを設定することができる。これにより、例えば反復勾配法により唇の動きベクトルを検出して、唇の動きに変化があった場合でも、十分に高い精度により音声と映像との時間ずれを検出することができる。
【0020】
また請求項2の構成によれば、請求項1の構成において、前記上下動検出手段は、前記映像信号を動き検出処理する動き検出手段と、動きが変化した領域を検出する領域検出手段とを有し、前記領域検出手段の検出結果により、前記顎の上下動を検出することにより、領域の拡大縮小により顎の上下動を検出することができ、その分、簡易かつ確実に顎の動きを検出して唇の動きベクトルを検出することができる。
【0021】
また請求項3の発明においては、請求項1又は請求項2の構成において、前記上下動検出手段は、前記人物の顔の動きベクトルを検出する顔の動きベクトル検出手段と、前記顔の動きベクトルにより前記顎の上下動に係る検出結果を補正する補正手段とを有することにより、顔の動きによる顎の動きの誤検出を有効に回避することができる。
【0022】
また請求項4の発明においては、請求項1、請求項2又は請求項3の構成において、前記初期偏位ベクトル設定手段は、複数の初期偏位候補ベクトルより前記初期偏位ベクトルを選択して前記初期偏位ベクトルを設定し、前記顎の上下動の変化に応じて、前記初期偏位候補ベクトルの設定を切り換えることにより、具体的に、顎の上下動の変化に応じて初期偏位ベクトルを設定して検出精度を向上することができる。
【0023】
また請求項5の発明においては、請求項4の構成において、前記初期偏位ベクトル設定手段は、前記顎の上下動の変化に応じて、既検出の縦方向の動きベクトルで大きさが最大のものと、既検出の動きベクトルの極性を反転したものとを、前記初期偏位候補ベクトルに加えることにより、前記顎の上下動の変化に応じて、前記初期偏位候補ベクトルの設定を切り換えることにより、より具体的に、顎の上下動の変化に応じて初期偏位ベクトルを設定して検出精度を向上することができる。
【0024】
また請求項6の発明においては、請求項4の構成において、前記初期偏位ベクトル設定手段は、前記顎が静止状態から下方向に動きを開始すると、既検出の縦方向の動きベクトルで大きさが最大のものを、前記初期偏位候補ベクトルに加え、前記顎が下方向から上方向に動きを切り換えると、既検出の動きベクトルの極性を反転したものを、前記初期偏位候補ベクトルに加えることにより、前記顎の上下動の変化に応じて、前記初期偏位候補ベクトルの設定を切り換えることにより、より具体的に、顎の上下動の変化に応じて初期偏位ベクトルを設定して検出精度を向上することができる。
【0025】
【発明の実施の形態】
以下、適宜図面を参照しながら本発明の実施の形態を詳述する。
【0026】
(1)第1の実施の形態
(1−1)第1の実施の形態の構成
図1は、本発明の実施の形態に係るリップシンク装置を示すブロック図である。このリップシンク装置1では、唇動き検出回路2により唇の動きVを検出し、この検出結果に基づいて音声信号SAを遅延させてビデオ信号SV(SY)と対応する音声信号SAとのタイミングを一致させる。
【0027】
すなわち唇動き検出回路2において、動き検出回路3は、ビデオ信号SVを構成する輝度信号SYを入力し、連続するフレーム間で対応する画素値を比較することにより、動きのある画素で信号レベルが立ち上がる動き検出信号を輝度信号SYと共に出力する。なおこの動き検出にあっては、種々の手法を適用することができ、また連続するフィールド間で動き検出するようにしてもよい。
【0028】
遅延回路4は、この動き検出信号を1フィールド遅延させて出力する。
【0029】
動き領域検出回路5は、遅延回路4に入力される動き検出信号と、遅延回路4から出力される動き検出信号とを減算し、これにより顎と判断される領域における動きの変化(動き検出領域の偏移量)を示す領域検出信号S1を輝度信号SYと共に出力する。なお動き領域検出回路5は、遅延回路4を介して入力される輝度信号SYの処理により顎と判断される領域を予測し、この予測結果により、遅延回路4に入力される動き検出信号と、遅延回路4から出力される動き検出信号とをマスクして処理するようにしてもよい。
【0030】
すなわち唇の動きは大半が上下方向の動きであり、しかも反復を繰り返す動きである。これにより唇の動きが静止した状態から動いたか、またこの動いた方向が開く方向であるか閉じる方向であるかを検出することができれば、これらに対応するように初期偏位ベクトルを設定して、反復勾配法により高い精度により唇の動きベクトルを検出することができる。
【0031】
このような唇の動きに対して、顎は、動きが連動しており、唇が開く方向であれば、顎は、下方向に動き、唇が閉じる方向では、顎は上方向に動く。これにより顎が静止しているか、下方向へ動いたか、上方向に動いたかを検出することができれば、連動する唇の動きも検出することができる。
【0032】
このような顎の動き方向の検出においては、反復勾配法により動きベクトルを検出する方法も考えられるが、反復勾配法により顎の動きベクトルを検出する場合にあっては、反復勾配法により唇の動きベクトルを検出する場合と同様に、動きの変化に追従して高い精度により動きベクトルを検出することが困難な欠点があり、結局、唇の動きに変化があった場合にも、十分に高い精度により唇の動きベクトルを検出することが困難になる。
【0033】
しかしながら顎が動いた場合にあっては、対応する領域において、動きがあった領域の大きさが変化する。すなわち図2(A)に示すように、静止状態にあっては、顎と判断される領域においては、連続するフィールドにおいて、何ら動きが無く、これにより動き検出回路3を介して得られる動き検出結果においては、何ら動き検出され無いことになる。これに対して唇を開くと、図2(B)に示すように、顎が下方向に動き、これにより顎に対応する動き検出回路3で検出される領域(動き検出領域)においては、図2(C)に示すように、面積が増大することになる。これに対してこのように唇が開いた状態から唇が閉じる方向に変化すると、図2(D)に示すように、顎が上方向に動き、これにより顎に対応する動き検出回路3で検出される領域(動き検出領域)においては、図2(E)に示すように、面積が減少することになる。
【0034】
これにより図2(F)に示すように、このようにして検出される動き検出領域の時間軸方向の変化(動き検出領域の偏移量)に注目すれば、顎の動きが変化した時点を検出し得、この時点より唇の動きが変化した時点を検出することができる。すなわち顎が一様な速度により上方向又は下方向に動いている場合、顎が静止し続けている場合と同様に、連続するフィールドで検出される動き検出領域においては、ほぼ一定の面積であるのに対し、動きが変化した場合にあっては、面積が変化する。なおこの図2(F)に示す動き検出領域の偏移量に係る領域検出信号S1においては、図2(A)〜(E)に対応する模式的なものである。これにより動き領域検出回路5は、このような顎の動きに係る領域検出信号S1を対応する輝度信号SYと共に出力する。
【0035】
初期偏位候補ベクトル設定回路6は、通常の処理においては、従来の反復勾配法に係る構成と同様に、加算回路9から出力される動きベクトルVから、初期偏位候補ベクトルを選択して輝度信号SYと共に出力する。すなわち初期偏位候補ベクトル設定回路6は、例えば1フィールド前の対応するマクロブロックで検出された動きベクトル、この対応するマクロブロックに対して水平方向、垂直方向に隣接するマクロブロックで検出された動きベクトル、同一フィールドにおける水平方向及び垂直方向の直前のマクロブロックで検出された動きベクトルをこれら初期偏位候補ベクトルに設定して出力する。
【0036】
この処理において、初期偏位候補ベクトル設定回路6は、動き領域検出回路5を介して入力される輝度信号SYの処理により、両目の位置をそれぞれ検出し、この位置検出結果より唇の領域を検出する。さらにこの唇の領域については、動き領域検出回路5から出力される領域検出信号S1に応じて初期偏位候補ベクトルを設定する。
【0037】
すなわち初期偏位候補ベクトル設定回路6は、領域検出信号S1により顎が何ら動いていないと判断される場合、上述した他の領域に係る処理と同様に、初期偏位候補ベクトルを設定して出力する。これに対して領域検出信号S1により顎が静止状態から下方向への動きを開始したと判断される場合、同様の処理により検出される初期偏位候補ベクトルに、既検出の縦方向の動きベクトルで顎の動いた方向に大きさが最大のものを加え、これらを初期偏位候補ベクトルに設定する。
【0038】
またこれとは逆に、領域検出信号S1により顎が下方向から上方向に動きを切り換えたと判断される場合、既検出の動きベクトルの縦方向の極性を反転したものを初期偏位候補ベクトルに加える。ここでこの実施の形態において、このような初期偏位候補ベクトルの選定に係る既検出の動きベクトルは、過去所定フィールド数の輝度信号SYで検出された唇の動きベクトルVであり、極性を切り換えて初期偏位候補ベクトルに設定する動きベクトルVにあっては、例えば既検出の縦方向の動きベクトルで顎の動いた方向に大きさが最大のものが適用される。なおこのような顎の下方向から上方向への動きの変化にあっては、下方向に顎が動いた後、一時動きが停止した場合も含まれる。
【0039】
これに対して領域検出信号S1により顎の上方向の動き、下方向の動きが継続している場合、上述した他の領域で設定する初期偏位ベクトルと同一の手法により初期偏位候補ベクトルを設定する。
【0040】
初期偏位ベクトル選択回路7は、従来構成による反復勾配法に係る初期偏位ベクトル選択回路と同様にして、これら複数の初期偏位候補ベクトルから初期偏位ベクトルV0を選択する。すなわち初期偏位ベクトル選択回路7は、初期偏位候補ベクトルの設定に供した動きベクトルに対応するマクロブロックと、処理対象であるマクロブロックとの間で、それぞれ輝度信号SYにより類似の程度を計算し、この計算結果により最も類似の程度の高いマクロブロックから求められた初期偏位候補ベクトルV0を選択する。なおこの類似の程度は、例えば画素値の差分絶対値和により求められる。初期偏位ベクトル選択回路7は、このようにして選択した初期偏位ベクトルV0を輝度信号SYと共に出力する。
【0041】
勾配法演算回路8は、初期偏位ベクトル選択回路7を基準にした勾配法に係る輝度信号SYの演算処理により、偏位ベクトルを計算して出力する。加算回路9は、この偏位ベクトルと対応する初期偏位ベクトルとを加算し、これにより動きベクトルVを計算して出力する。
【0042】
音声検出回路10は、音声信号SAの音声解析により、唇の動きを伴う特定の音声発生のタイミングを検出する。すなわち日本語において、「マ」、「ミ」、「ム」、「メ」、「モ」、「パ」、「ピ」、「プ」、「ペ」、「ポ」等の音声は、必ず唇が動き、また動きも大きい特徴がある。これに対して「ア」、「イ」、「ウ」、「エ」、「オ」、「サ」、「シ」、「ス」、「セ」、「ソ」等の音声は、唇を動かさなくても発生可能であり、また唇が動いたとしても、動きが小さい特徴がある。これにより音声検出回路10は、このような唇が大きく動く特定の音声発生のタイミングを検出する。なお音声が英語の場合には、唇が大きく動く特定の音声としては、例えば、「B」、「P」、「V」、「Y」等の発声が該当する。
【0043】
遅延検出回路11は、音声検出回路10によるタイミング検出結果と、唇動き検出回路2による動きベクトルVの検出結果との比較により、音声に対する映像の遅延時間を検出する。遅延回路12は、この遅延検出回路11で検出される遅延量により音声信号SAを遅延させ、これにより映像に音声を同期させて出力する。
【0044】
これらによりこの実施の形態において、動き検出回路3、遅延回路4、動き領域検出回路5は、顎の上下動を検出する上下動検出手段を構成し、初期偏位候補ベクトル設定回路6、初期偏位ベクトル選択回路7は、この上下動検出手段の検出結果に基づいて、顎の上下動の変化に応じて初期偏位ベクトルを設定する初期偏位ベクトル設定手段を構成するようになされ、また勾配法演算回路8、加算回路9は、この初期偏位ベクトルを基準にして勾配法により唇の動きベクトルを検出する動きベクトル検出手段を構成するようになされている。またこの上下動検出手段に係る構成のうち、動き検出回路3は、輝度信号SYによる映像信号を動き検出処理する動き検出手段を構成するのに対し、遅延回路4及び動き領域検出回路5は、この動き検出手段の検出結果に基づいて、顎の動き領域を検出する領域検出手段を構成するようになされている。
【0045】
(1−2)第1の実施の形態の動作
以上の構成において、このリップシンク装置1では、例えば遠隔地から伝送されたビデオ信号のうち、輝度信号SYが唇動き検出回路2で処理され、これによりこのビデオ信号による映像の人物について、唇の動きベクトルVが検出される。また対応する音声信号SAが音声検出回路10に入力され、ここで音声発生のタイミングが検出され、遅延検出回路11において、この音声発生のタイミングと唇動き検出回路2で検出される唇の動きベクトルVとから、ビデオ信号と音声信号SAとの時間ずれが検出され、この時間ずれを補正するように遅延回路12により音声信号SAのタイミングが補正される。これによりこのリップシンク装置1では、遠隔地から伝送されたビデオ信号と音声信号SAについて、さらにはビデオ信号と対応する吹き替えの音声信号SAについて、タイミングの一致を図ることができる。
【0046】
このような処理に係るリップシンク装置1において、動きベクトルVの検出に供する輝度信号SYにおいては、動き検出回路3において連続するフレーム間で動きが検出され、遅延回路4によりこの動き検出結果が1フィールド遅延された後、動き領域検出回路5において、元の動き検出結果との間で差分値が検出され、これにより顎の上下動の変化に対応して動き検出領域の偏移量を示す領域検出信号S1が検出される。またこの領域検出信号S1により続く初期偏位候補ベクトル設定回路6において、顎が下方向への動きを開始したときと、顎が上方向への動きを開始したときとで、それぞれ既検出の動きベクトルVのうちで、顎の動いた方向に大きさが最大のものと、さらに極性を反転したものとが前記初期偏位候補ベクトルに加えられ、これにより顎の上下動の変化に応じて、初期偏位候補ベクトルの設定が切り換えられ、この初期偏位候補ベクトルより初期偏位ベクトルが選択されて反復勾配法により唇の動きベクトルが検出される。これによりこのリップシンク装置1においては、顎の上下動により初期偏位ベクトルの設定を切り換えて唇の動きベクトルが検出される。
【0047】
しかして反復勾配法による唇の動きベクトル検出においては、唇の動きが早い場合や、唇が小さい場合、精度が低下するものの、顎の動きにあっては、唇の動きに連動し、唇に比して動きの領域が大きい特徴がある。これにより顎の上下動により初期偏位ベクトルの設定を切り換えて唇の動きベクトル検出するようにすれば、従来に比して唇の動きの変化に迅速に対応して動きベクトルを検出することができ、その分、検出精度を向上することができる。
【0048】
またこのような顎の動き検出に関して、リップシンク装置1においては、反復勾配法とは異なり、輝度信号SYを動き検出し、この動き検出手段の検出結果に基づいて、顎の上下動を検出することにより、顎の動きに迅速に対応して動き検出することができる。これによりこのようにして検出される顎の動きにより初期偏位ベクトルの設定を切り換えて唇の動きベクトルを検出することにより、従来に比して格段的に高速度に唇の動きの変化に対応して動きベクトルを検出することができ、その分、検出精度を向上することができる。
【0049】
またこのような初期偏位ベクトルの設定を、顎の上下動の変化に応じて、初期偏位候補ベクトルの設定を切り換えて実行することにより、簡易な処理により確実に初期偏位ベクトルを設定することができる。
【0050】
また具体的に、顎の上下動の変化に応じて、既検出の縦方向の動きベクトルで顎の動いた方向に大きさが最大のものと、既検出の動きベクトルの極性を反転したものとを、初期偏位候補ベクトルに加えることにより、さらに具体的には、顎が静止状態から下方向に動きを開始すると、既検出の縦方向の動きベクトルで顎の動いた方向に大きさが最大のものを、初期偏位候補ベクトルに加え、顎が下方向から上方向に動きを切り換えると、既検出の動きベクトルの極性を反転したものを、初期偏位候補ベクトルに加えることにより、既検出の動きベクトルを有効に活用して適切に初期偏位ベクトルを設定することができる。
【0051】
(1−3)第1の実施の形態の効果
以上の構成によれば、顎の上下動により初期偏位ベクトルの設定を切り換えて唇の動きベクトルを検出することにより、唇の動きに変化があった場合でも、十分に高い精度により音声と映像との時間ずれを検出することができる。
【0052】
またこのとき、映像信号を動き検出し、この動き検出結果に基づいて顎の上下動を検出することにより、唇の動きの変化に迅速に対応して初期偏位ベクトルを設定することができ、これによっても検出精度を向上することができる。
【0053】
またこのとき顎の上下動の変化に応じて、初期偏位候補ベクトルの設定を切り換えて初期偏位ベクトルを設定することにより、簡易な処理により確実に初期偏位ベクトルを設定することができる。
【0054】
また具体的に、顎の上下動の変化に応じて、既検出の縦方向の動きベクトルで顎の動いた方向に大きさが最大のものと、既検出の動きベクトルの極性を反転したものとを、初期偏位候補ベクトルに加えることにより、さらに具体的には、顎が静止状態から下方向に動きを開始すると、既検出の縦方向の動きベクトルで顎の動いた方向に大きさが最大のものを、初期偏位候補ベクトルに加え、顎が下方向から上方向に動きを切り換えると、既検出の動きベクトルの極性を反転したものを、初期偏位候補ベクトルに加えることにより、既検出の動きベクトルを有効に活用して適切に初期偏位ベクトルを設定することができる。
【0055】
(2)第2の実施の形態
図3は、本発明の第2の実施の形態に係るリップシンク装置を示すブロック図である。このリップシンク装置21において、第1の実施の形態に係るリップシンク装置1と同一の構成は、対応する符号を付して示し、重複した説明は省略する。
【0056】
このリップシンク装置21においては、唇動き検出回路22により唇の動きベクトルVを検出し、この唇動き検出回路22においては、動き検出回路3で検出した輝度信号SYの動き検出結果を遅延回路23によりほぼ1フィールド遅延させて動き領域検出回路5に出力する。この処理において、遅延回路23は、輝度信号SYを基準にした輪郭検出の処理により顔の領域を検出し、既に検出された動きベクトルVからこの領域の動きベクトルを検出することにより、顔の動きを検出する。またこのようにして検出される顔の動きより、顔の上下方向の移動量を検出し、この検出結果により処理対象である動き検出回路3から出力される動き検出信号のタイミングを補正して出力する。
【0057】
すなわち顎にあっては、顔が上下動した場合でもその位置が変化する。これによりこの実施の形態においては、顔の動きにより動き検出回路3から出力される動き検出信号を補正することにより、顎の部分についてのみ、上下動を検出できるようになされている。なおこの補正にあっては、顔全体で検出される動きベクトルのうちの垂直方向成分の分、出力のタイミングを補正することにより実行することができる。なおこのような顔全体の動きベクトルにあっては、顔と判断される領域に含まれるマクロブロックについて動きベクトルを検出し、この動きベクトルを平均化することにより検出することができ、このような顔の動きにあっては、顔の領域が広いことにより、また動き速度が遅く、動き量も小さいことにより、種々の手法を適用して簡易かつ確実に検出することができる。また顎の動きが垂直方向に集中することにより、このようにして検出される動きベクトルのうちの垂直方向成分のみ使用してタイミングを補正して、簡易な処理により検出精度を向上することができる。
【0058】
これによりこの実施の形態において、遅延回路23は、初期偏位ベクトル設定回路7等と共に、人物の顔の動きベクトルを検出する顔の動きベクトル検出手段を構成し、またこの顔の動きベクトルにより顎の上下動に係る検出結果を補正する補正手段を構成するようになされている。
【0059】
図3の構成によれば、顎の上下動により初期偏位ベクトルの設定を切り換えて唇の動きベクトルを検出するようにして、顔の動きにより顎の動き検出結果を補正することにより、さらに一段と検出精度を向上することができる。
【0060】
(3)他の実施の形態
なお上述の実施の形態においては、顎の動きの変化により既検出の動きベクトルを利用して初期偏位ベクトルを設定する場合について述べたが、本発明はこれに限らず、既検出の動きベクトルを利用する代わりに固定値の動きベクトルを初期偏位候補ベクトルに設定するようにしてもよい。
【0061】
また上述の実施の形態においては、唇以外の部位についても動きベクトルを検出する場合について述べたが、本発明はこれに限らず、唇近傍の部位のみについて動きベクトルを検出するようにしてもよい。このようにすれば、その分、全体構成を簡略化することができる。
【0062】
また上述の実施の形態においては、顎の動きについては、動き検出して処理する場合について述べたが、本発明はこれに限らず、実用上十分な検出精度を確保し得る場合には、例えばブロックマッチング法による動きベクトルを利用する場合等、種々の検出手法を広く適用することができる。
【0063】
また上述の実施の形態においては、輝度信号により唇の動きベクトルを検出する場合について述べたが、本発明はこれに限らず、色差信号により唇の動きベクトルを検出する場合、輝度信号及び色差信号により唇の動きベクトルを検出する場合等に広く適用することができる。
【0064】
また上述の実施の形態においては、時間ずれの検出結果により音声信号を遅延させて時間ずれを補正する場合について述べたが、本発明はこれに限らず、必要に応じて映像信号を遅延させてもよく、さらには映像信号と音声信号との双方を遅延させてもよい。
【0065】
また上述の実施の形態においては、顎の動きにより初期偏位ベクトルを検出し、この初期偏位ベクトルを基準にして勾配法により唇の動きを検出する場合について述べたが、本発明はこれに限らず、勾配法に代えて他の動きベクトル検出手法により動きベクトルを検出する場合に広く適用することができる。
【0066】
また上述の実施の形態においては、時間ずれの検出結果により時間ずれを補正する場合について述べたが、本発明はこれに限らず、他の機器に時間ずれの補正を委ねる場合等にも広く適用することができる。
【0067】
また上述の実施の形態においては、ハードウエアの構成により時間ずれを検出する場合について述べたが、本発明はこれに限らず、コンピュータにおけるプログラムの処理により時間ずれを検出する場合にも広く適用することができる。
【0068】
【発明の効果】
上述のように本発明によれば、顎の上下動により初期偏位ベクトルの設定を切り換えて唇の動きベクトルを検出することにより、唇の動きに変化があった場合でも、十分に高い精度により音声と映像との時間ずれを検出することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態に係るリップシンク装置を示すブロック図である。
【図2】図1のリップシンク装置の動作の説明に供する模式図である。
【図3】本発明の第2の実施の形態に係るリップシンク装置を示すブロック図である。
【符号の説明】
1、21……リップシンク装置、2、22……唇動き検出回路、3……動き検出回路、4、12、23……遅延回路、5……動き領域検出回路、6……初期偏位候補ベクトル設定回路、7……初期偏位ベクトル選択回路、8……勾配法演算回路、9……加算回路
Claims (6)
- 映像信号の処理により、前記映像信号に係る人物の唇の動きベクトルを検出し、
前記動きベクトルに基づいて、前記人物の発声のタイミングを検出すると共に、前記映像信号に対応する音声信号より、前記人物の発声に対応する音声のタイミングを検出し、
該検出結果に基づいて、前記映像信号に対する前記音声信号の時間ずれ量を検出し、前記映像信号及び又は前記音声信号のタイミングを補正する信号処理装置において、
前記人物の顎の上下動を検出する上下動検出手段と、
前記上下動検出手段の検出結果に基づいて、前記顎の上下動の変化に応じて初期偏位ベクトルを設定する初期偏位ベクトル設定手段と、
前記初期偏位ベクトルを基準にして前記唇の動きベクトルを検出する動きベクトル検出手段と
を備えることを特徴する信号処理装置。 - 前記上下動検出手段は、
前記映像信号を動き検出処理する動き検出手段と、
前記動き検出手段の検出結果に基づいて、動きが変化した領域を検出する領域検出手段とを有し、
前記領域検出手段の検出結果により、前記顎の上下動を検出する
ことを特徴する請求項1に記載の信号処理装置。 - 前記上下動検出手段は、
前記人物の顔の動きベクトルを検出する顔の動きベクトル検出手段と、
前記顔の動きベクトルにより前記顎の上下動に係る検出結果を補正する補正手段とを有する
ことを特徴する請求項1又は請求項2に記載の信号処理装置。 - 前記初期偏位ベクトル設定手段は、
複数の初期偏位候補ベクトルより前記初期偏位ベクトルを選択して前記初期偏位ベクトルを設定し、
前記顎の上下動の変化に応じて、前記初期偏位候補ベクトルの設定を切り換える
ことを特徴する請求項1、請求項2又は請求項3に記載の信号処理装置。 - 前記初期偏位ベクトル設定手段は、
前記顎の上下動の変化に応じて、既検出の縦方向の動きベクトルで顎の動いた方向に大きさが最大のものと、既検出の動きベクトルの極性を反転したものとを、前記初期偏位候補ベクトルに加えることにより、
前記顎の上下動の変化に応じて、前記初期偏位候補ベクトルの設定を切り換える
ことを特徴する請求項4に記載の信号処理装置。 - 前記初期偏位ベクトル設定手段は、
前記顎が静止状態から下方向に動きを開始すると、既検出の縦方向の動きベクトルで顎の動いた方向に大きさが最大のものを、前記初期偏位候補ベクトルに加え、
前記顎が下方向から上方向に動きを切り換えると、既検出の動きベクトルの極性を反転したものを、前記初期偏位候補ベクトルに加えることにより、
前記顎の上下動の変化に応じて、前記初期偏位候補ベクトルの設定を切り換える
ことを特徴する請求項4に記載の信号処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003050285A JP2004260641A (ja) | 2003-02-27 | 2003-02-27 | 信号処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003050285A JP2004260641A (ja) | 2003-02-27 | 2003-02-27 | 信号処理装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004260641A true JP2004260641A (ja) | 2004-09-16 |
Family
ID=33115739
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003050285A Pending JP2004260641A (ja) | 2003-02-27 | 2003-02-27 | 信号処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004260641A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007036743A (ja) * | 2005-07-27 | 2007-02-08 | Matsushita Electric Works Ltd | 複数画像合成方法及び撮像装置 |
JPWO2006100727A1 (ja) * | 2005-03-18 | 2008-08-28 | 富士通株式会社 | 映像装置における映像信号と音声信号との同期制御方法および装置 |
KR101462249B1 (ko) | 2010-09-16 | 2014-11-19 | 주식회사 케이티 | 비디오 컨텐츠의 시청각 정보 출력 오류를 검출하는 장치 및 방법 |
JP2021033048A (ja) * | 2019-08-23 | 2021-03-01 | サウンドハウンド,インコーポレイテッド | 車載装置、発声を処理する方法およびプログラム |
US11257493B2 (en) | 2019-07-11 | 2022-02-22 | Soundhound, Inc. | Vision-assisted speech processing |
-
2003
- 2003-02-27 JP JP2003050285A patent/JP2004260641A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2006100727A1 (ja) * | 2005-03-18 | 2008-08-28 | 富士通株式会社 | 映像装置における映像信号と音声信号との同期制御方法および装置 |
JP2007036743A (ja) * | 2005-07-27 | 2007-02-08 | Matsushita Electric Works Ltd | 複数画像合成方法及び撮像装置 |
KR101462249B1 (ko) | 2010-09-16 | 2014-11-19 | 주식회사 케이티 | 비디오 컨텐츠의 시청각 정보 출력 오류를 검출하는 장치 및 방법 |
US11257493B2 (en) | 2019-07-11 | 2022-02-22 | Soundhound, Inc. | Vision-assisted speech processing |
JP2021033048A (ja) * | 2019-08-23 | 2021-03-01 | サウンドハウンド,インコーポレイテッド | 車載装置、発声を処理する方法およびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20100302401A1 (en) | Image Audio Processing Apparatus And Image Sensing Apparatus | |
EP2375737B1 (en) | Device and method for frame rate conversion | |
US6400762B2 (en) | Video signal processing circuit and video signal processing method | |
KR20040108053A (ko) | 움직임 벡터 생성 장치 및 방법 | |
US8154654B2 (en) | Frame interpolation device, frame interpolation method and image display device | |
JP2006331136A (ja) | 動きベクトル検出装置 | |
JP2003158643A (ja) | 信号処理方法及び信号処理装置 | |
US8243801B2 (en) | Motion prediction apparatus and motion prediction method | |
JP2004260641A (ja) | 信号処理装置 | |
JP2005051460A (ja) | ビデオ信号処理装置及びビデオ信号の処理方法 | |
JPH06165134A (ja) | テレビジョン方式変換装置 | |
JP2010055001A (ja) | 映像信号処理装置及び映像信号処理方法 | |
JP2009075926A (ja) | 動画像顔検出装置および動画像顔検出方法 | |
JP2007074439A (ja) | 映像処理装置 | |
JPH09182077A (ja) | 画像符号化方法および画像符号化装置 | |
JP4250598B2 (ja) | 動き補償型ip変換処理装置及び動き補償型ip変換処理方法 | |
JPH0262178A (ja) | 画像処理装置の動き検出方式 | |
JP4956239B2 (ja) | フレームレート変換装置および映像表示装置 | |
JP2894962B2 (ja) | 動きベクトル検出装置 | |
JP2007097028A (ja) | 動きベクトル検出方法および動きベクトル検出回路 | |
JP2907663B2 (ja) | 動きベクトル検出方法 | |
JP2008118340A (ja) | 動きベクトル検出装置及びビデオ信号処理装置 | |
JPH099224A (ja) | リップシンク制御装置を用いた動画像および音声コーデック装置 | |
KR20090049034A (ko) | 이미지 처리 장치 | |
JP2009044450A (ja) | 3次元y/c分離回路 |