JP4801251B2

JP4801251B2 - 映像／音声ずれ補正方法及び装置

Info

Publication number: JP4801251B2
Application number: JP2000360086A
Authority: JP
Inventors: 潤一伊藤; 隆二増子; 丞天野; 章中村; 龍池沢; 俊郎大村
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2000-11-27
Filing date: 2000-11-27
Publication date: 2011-10-26
Anticipated expiration: 2020-11-27
Also published as: JP2002165153A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声信号を含む動画像とその音声との時間的なずれを検出し、ずれ量を補正する映像／音声ずれ補正方法及び装置に関するものである。
【０００２】
【従来の技術】
動画像と音声との間のずれを補正する方法のうち、動画像や音声に基準信号を乗せることなく補正する方法として、特開２０００−１９６９１７号公報が開示されている。
【０００３】
この提案では、入力動画像に含まれている音源の動きからその音源の第１の発生タイミングと、入力動画像の音声から音源の第２の発生タイミングを検出し、第１、第２の発生タイミングとの時間的なずれを計測するものである。
【０００４】
ここでは、以下の説明においては、音声の第１の発生タイミングを動き立て、第２の発生タイミングを音立てと云う。また、本明細書においては、音声には音響等をも含めることにする。
【０００５】
【発明が解決しようとする課題】
上述の公報においては、動画像の中に含まれている音源の動きを検出する手段として動きベクトルを計算しているが、音源として唇のように動きながら形状が変化する物体を対象とした場合に、正しい動きベクトルが得られない場合があり、ずれ量の計測結果の精度が上がらない場合がある。
【０００６】
また、原稿を読むために下を向くなど、唇そのものの位置と見え方が変化してしまうことにより、ずれ量の計測結果の精度が向上しない場合がある。
【０００７】
更に、息を吸うために口を開きその後に発声するなど、音声の発生タイミングと動きが最初からずれている場合は、先の公報の図４に示された音声の音立て点と唇の動きの関連が保てなくなり、ずれ量の計測結果の精度が上がらない場合がある。
【０００８】
映像と音声とのずれの量を音声を遅延させて補正する場合に、音声の遅延量を任意のタイミングで変更すると、遅延量を増大して音声遅延出力において出力済みの音声が繰り返されたり、遅延量を減少すると音声が切り詰められ、発話の内容が失われることがある。
【０００９】
本発明の目的は、上述の問題を解消し、動画像と音声の時間的なずれをより精度良く計測し、これを補正するための映像／音声ずれ補正方法を提供することにある。
【００１０】
【課題を解決するための手段】
上記目的を達成するための本発明に係る映像／音声ずれ補正方法は、動画像信号と音声信号を用いて映像と音声のずれを補正する方法において、動画像を見て検出窓を指示することにより選択された前記動画像信号中に含まれている音源の特徴を示すデータを二値化し、重心位置を求めて該重心位置からの分散を計算し前記音源の動きの変化量を基に音声の第１の発生タイミングを検出し、前記音声信号から前記音源の動きに相当する音声の第２の発生タイミングを検出し、前記第１、第２の発生タイミングを比較して前記動画像信号と前記音声信号間の時間的なずれ量を計測し、前記ずれ量に従って前記動画像信号と前記音声信号の何れか一方を遅延させることにより前記ずれ量を補正することを特徴とする。
【００２１】
また、本発明に係る映像／音声ずれ補正装置は、動画像信号と音声信号を用いて映像と音声のずれを補正する装置において、動画像を見て検出窓により前記動画像信号を選択する手段と、選択された前記動画像信号中に含まれている音源の特徴を示すデータを二値化し、重心位置を求めて該重心位置からの分散を計算し前記音源の動きの変化量を基に音声の第１の発生タイミングを検出する第１の検出回路と、前記音声信号から前記音源の動きに相当する音声の第２の発生タイミングを検出する第２の検出回路と、前記第１、第２の発生タイミングを比較して前記動画像信号と前記音声信号間の時間的なずれ量を計測する計測回路と、前記ずれ量に従って前記動画像信号と前記音声信号の何れか一方を遅延させることにより前記ずれ量を補正する補正回路とを有することを特徴とする。
【００２３】
【発明の実施の形態】
本発明を図示の実施の形態に基づいて詳細に説明する。
映像／音声ずれ補正方法に対して動画像信号、例えばハイビジョン、ＮＴＳＣ、ＰＡＬなどの形態の動画像信号と、動画像信号に付随する音声信号が入力される。本実施の形態では、発話時のように唇の動きを撮影した、例えばニュースなどのようなバストショットで撮影されたハイビジョン信号による動画像について説明する。
【００２４】
図１はブロック回路構成図であり、動画像信号が入力する検出窓切出回路１の出力は、Ａ／Ｄ変換回路２、前処理回路３、特徴点抽出回路４、唇重心位置・開閉速度検出回路５を介して動画像／音声ずれ検出回路６に接続されている。また、前処理回路３の出力は２値化適応制御回路７に接続され、２値化適応制御回路７は特徴点抽出回路４と接続されている。更に、唇重心位置・開閉速度検出回路５の出力は検出窓切出回路１に接続されている。
【００２５】
一方、音声信号はＡ／Ｄ変換回路８に入力され、Ａ／Ｄ変換回路８の出力は、音声分割回路９、音立て検出回路１０に順次に接続されている。また、音声信号は遅延素子を用いた本線系音声遅延回路１１、モニタ系音声遅延回路１２に接続されており、これらの遅延回路１１、１２には音声分割回路９、動画像／音声ずれ検出回路６の出力も接続されている。
【００２６】
そして、補正後の動画像信号として、元の動画像信号がそのまま出力され、動画像信号と同期がとられた音声信号は本線系音声遅延回路１１から出力され、試聴用の音声信号はモニタ系音声遅延回路１２から出力されるようになっている。
【００２７】
検出窓切出回路１では、動画像と音声の間のずれの計測に必要で、動画像の動きベクトルを検出する検出窓を指示する。音声の発生源、この場合は唇の動きの中に音声が発生するときの特有の動きがあることが知られているので、この特有の動きを動画像信号の解析により検出する。この解析では、唇の特長を表す画素に着目し、これらの分布状況の変化から唇の開閉量、唇の開閉速度を算出するという手法を用いる。
【００２８】
動画像信号の解析から得られる音声の発生タイミングと、音声信号から得られる音声の発生タイミングとを比較することにより、互いのずれ量を計測する。計測されたずれ量に基づいて、動画像或いは音声の何れか一方を遅延させることにより、双方の同期がとられる。
【００２９】
本実施の形態では、リアルタイムで動画像と音声のずれ補正を行うために、アナログ式の画像処理装置のタッチパネル式表示器に動画像を表示させる。オペレータはこの動画像を見て、動画像の中の唇部分に触れることで検出窓の初期の位置を決定し、画像処理機能を含む検出窓切出回路１により唇画像の近傍の動画像を切り出す。この切出処理により音源の背景の動画像部分を除去し、計測対象の動画像信号のドットつまり画素数が減少するので、後述する動画像解析処理時間を短縮することが可能となる。
【００３０】
例えばバストショットの場合に、縦１２８ドット、横１６０ドットのブロック中に唇画像が入る。切り出された動画像信号はＲＧＢ４：４：４フォーマットでＡ／Ｄ変換回路２によりアナログ・デジタル変換される。
【００３１】
また、オペレータにより初期の位置を設定された検出窓の位置は、後述する唇の重心位置、唇開閉速度を検出する唇重心位置・開閉速度検出回路５で求めた唇の重心位置情報を基に、フレーム毎に自動的に変更され、常に唇の重心を中心とする画像の切り出しが行われる。本実施の形態では、これを検出窓の自動追尾と称することにする。
【００３２】
更に、タッチパネル式表示器には検出窓を動画像上に重ねて表示する。これにより、オペレータは検出窓の指示の結果を確認することができる。また、オペレータは検出窓の自動追尾の結果を監視することができ、システムの稼働状況の確認が可能となる。
【００３３】
Ａ／Ｄ変換回路２で変換された動画像信号から、唇の重心位置、開閉量、開閉速度を検出するための前処理を前処理回路３で行う。本実施の形態では、動画像信号中の音源の音声を発生するための動きを音発生パターンと称することにする。具体的な前処理としては、唇特徴データの抽出に使用する後述の輝度成分パラメータ信号Ｙ、色成分パラメータ信号ｐ１、ｐ２、ｐ３、色差成分パラメータ信号Ｃｒの生成を信号処理プロセッサ等により行う。
【００３４】
次に、２値化適応制御回路７、特徴点抽出回路４により、前処理された動画像信号から唇の重心位置、唇の開閉量、唇の開閉速度を検出するために、唇画像の特徴を抽出し画像を２値化する。
【００３５】
顔画像中で、唇とその他の顔の部位との間には、色空間上の分布に違いがあり、多くの場合にこの色空間上の分布の違いを利用して唇とその他の顔の部位を判別できる。具体的には、縦Ｌｙドット、横Ｌｘドットの検出窓内の動画像のＲ、Ｇ、Ｂデータから、輝度成分パラメータ信号Ｙ、色成分パラメータ信号ｐ１、ｐ２、ｐ３、色差成分パラメータ信号Ｃｒを次式によりそれぞれ算出する。
【００３６】
Ｙ＝０．１Ｂ＋０．６Ｇ＋０．３Ｒ
ｐ１＝Ｂ／Ｒ
ｐ２＝Ｇ／Ｒ
ｐ３＝Ｂ／Ｇ
Ｃｒ＝Ｒ−Ｙ
【００３７】
動画像信号の各画素について、次式を満たす唇の画素を「１」、それ以外の画素を「０」として２値化する。
（ｐ１＜α）∩（ｐ２＜β）∩（ｐ３＞γ）∩（Ｃｒ＞δ）∩（Ｙ＞ε）＝１
【００３８】
ここで、α、β、γ、δ、εは２値化のための各パラメータの閾値である。
【００３９】
一般に、顔画像中の唇とその他の顔の部位の色空間上の分布は、動画像撮影時の照明の違い、話者の違いにより変動するため、上述の閾値を以下の方法で適応的に変更することで、これらの違いによる計算結果の違いを抑制する。
【００４０】
２値化した画素のうち、「１」の画素数が次式を満たすように、２値化のためのパラメータの閾値を変化させる。
ζ×Ｌｘ＜ｓｑ＜η×Ｌｘ
【００４１】
ここで、ｓｑは２値化した画素のうち「１」の画素数、ζ、ηは定数で、例えば、ζ＝４．２、η＝７．５である。また、各閾値は例えば、α：０．７固定、β：０．６８初期値、γ：０．７固定、δ：０．０６固定、ε：０．２３固定、である。
【００４２】
２値化されたデータには、場合によって鼻、頬、顎等、唇以外の顔の部位がノイズとして含まれている場合がある。これらのノイズ成分は、唇に比べて面積が小さく孤立点として現れるので、以下の方法でノイズを除去する。
【００４３】
検出窓内の２値化されたデータについて、左上から右下方向に走査して、水平方向に連続した（Ｌｘ／θ）区間内に、（Ｌｘ／ι）以上に「１」の画素が分布しているラインを予備ラインとする。
【００４４】
予備ラインが（Ｌｙ／κ）回以上に連続した場合の最上部分のラインを、唇開始ラインｌｙｓと見倣す。唇開始ラインよりも上方のラインのデータを「０」とし、ｌｙＳ＋Ｌｙ×λよりも下方のラインのデータを「０」とする。
【００４５】
ここで、例として、θ＝８．３３、ι＝６．２５、κ＝１２．７、λ＝０．７９とする。
【００４６】
唇重心位置・開閉速度検出回路５において、２値化適応制御回路７、特徴点抽出回路４により２値化された唇データを基に、唇の重心位置、開閉量、開閉速度を求める。先ず、唇を表す「１」である画素の集合Ｑ（ｑｘ、ｑｙ）の重心位置（Ｃｘ，Ｃｙ）を次式で求める。
Ｃｘ＝（Σｑｘ）／Ｑの総数
Ｃｙ＝（Σｑｙ）／Ｑの総数
【００４７】
次に、重心位置（Ｃｘ，Ｃｙ）からの集合Ｑ（ｑｘ，ｑｙ）の分散Ｍ（Ｍｘ，Ｍｙ）を次式により求め、この分散Ｍを唇の開閉量とする。
Ｍｘ＝Σ（｜Ｃｘ−Ｑｘ|）／Ｑの総数
Ｍｙ＝Σ（｜Ｃｙ−Ｑｙ|）／Ｑの総数
【００４８】
分散Ｍは水平と垂直方向に値を持つ２次元のベクトル値であり、その大きさは唇の開閉量を表す。また、分散Ｍは時間の関数であるので、時刻（ｔ）における分散をＭ（ｔ）と表すと、時刻（ｔ）における唇の開閉量は｜Ｍ（ｔ）｜で表すことができる。
【００４９】
また、唇の開閉量｜Ｍ（ｔ）｜を時間ｔで微分したＳ（ｔ）は、
Ｓ（ｔ） =ｄ｜Ｍ（ｔ）｜／ｄｔ
と定義され、Ｓ（ｔ）は唇の開閉速度を表す。Ｓ（ｔ）＞０のとき唇は開く方向にあり、Ｓ（ｔ）＜０のとき唇は閉じる方向にある。
【００５０】
切り出した唇の動画像が音声を発生する動きを示すときは、唇の開閉速度Ｓ（ｔ）が或る一定以上の値となっている。従って、上述の方法で開閉速度Ｓ（ｔ）を求め、この開閉速度Ｓ（ｔ）の大きさを音声の発生の有無の判定に利用する。
信号処理プロセッサは計算した開閉速度Ｓ（ｔ）と一定値を比較して、切り出した唇の動画像が音発生パターンであるか否かを判断する。
【００５１】
更に、上述の方法で求めた切り出した唇画像の重心位置を基に、前述の検出窓切出回路１で切り出す画像の次フレームでの中心位置を決定し、検出窓を自動追尾させる。
【００５２】
一方、入力された音声信号はＡ／Ｄ変換回路８においてＡ／Ｄ変換される。より具体的には、音声信号を量子化ビット数１６ビット、標本化周波数４８ｋＨｚでサンプリングすることによりＡ／Ｄ変換を行う。
【００５３】
音声分割回路９では、Ａ／Ｄ変換された音声信号から無音・有声／無声区間の分割を信号処理プロセッサにより行う。具体的には、音声の大きさが一定の閾値以下の場合を無音・無声とし、閾値以上を有声とする。このとき音声の大きさの他に、音声信号のゼロクロス回数を求め、音声の大きさに補正を施した上で、上述の閾値と比較を行う。
【００５４】
その第１の理由は、人の発話音で子音が発声された場合に、発声の開始点に比べて音声の大きさの立ち上がりが遅く現れるので、有音区間の開始点が実際よりも遅く検出されてしまう。ゼロクロス回数は子音発声の初期にその数が増大するという特徴を持つことを利用して、音声の大きさを補正する。
【００５５】
図２は「天気図（てんきず）」と発声したときの音声波形と、音声レベル、ゼロクロスカウント数である。「き」のＡの部分は発声点の振幅立ち上がりが弱く、レベルのみの集計方法ではＢの部分が発声点であると誤認識してしまう虞れがある。そこで、以下の手法によりこの部分の補正を行う。
【００５６】
音声レベルが或る一定の値以上でかつ一定の値以下である場合、例えばＡ〜Ｂにかけての部分で音声信号の極性が反転する回数を所定時間だけ計測する。反転した回数が所定値以上でかつ所定時間内に音声レベルが所定値以上になった場合に、その範囲の音声レベルを所定数倍し補正することにより、より正確な音立て点を求めることが可能となり精度が向上する。この方法は全ての子音で効果があり、「か」行と「さ」行の子音においては、特に著しい効果が認められる。
【００５７】
第２の理由は、人が発話する場合に話者の話し終わりである息継ぎ前に発声する音声の大きさが低下する傾向にある。これは、音立て点の検出精度を低下させる要因となり得る。ゼロクロス回数は息継ぎ前でも、その回数の低下傾向は見られないという特徴を持つので、以下の手法により、この部分の補正を行う。
【００５８】
音声レベルが所定値以上を保ち、かつゼロクロス量が所定値以上ある場合において、音声レベルが低下してきた場合に、音声レベルを上げて補正を行う。この補正により、音立ての検出精度を向上させることができる。
【００５９】
分割された有音区間の中の音立て部分を、音立て検出回路１０において検出する。音立て検出回路１０では、上述の処理を信号処理プロセッサにより行うことで、音声（無声・有声又は有音）／無音の区間を識別し、音立ての発生タイミングを検出する。
【００６０】
唇重心位置・開閉速度検出回路５により動画像信号から得られた音声の発生タイミングと、音立て検出回路１０の処理により音声信号から得られた音声の発生タイミングとの時間的な差分を計算すると、動画像信号と音声信号との間のずれを計算することができる。この処理は動画像／音声ずれ検出回路６において、信号処理プロセッサにより行われる。
【００６１】
入力された音声信号は本線系音声遅延回路１１、モニタ系音声遅延回路１２において、遅延素子等により動画像／音声ずれ検出回路６で計算されたずれ量分だけ本線系、モニタ系においてそれぞれ遅延される。なお、動画像／音声ずれ検出回路６において計測値を表示させ、その値を基に手動により音声遅延回路１１、１２の遅延量を設定することも可能である。これにより、動画像信号と音声信号との同期がとられ、これらの遅延回路１１、１２から出力がなされる。
【００６２】
音声遅延回路１１、１２を本線系とモニタ系の２系統としたのは、オペレータがモニタ系の試聴用音声信号と動画像信号によりずれ補正の結果確認した後に、本線系の音声遅延回路１１の遅延を更新できるようにするためである。
【００６３】
音声遅延回路１１、１２の遅延量を任意のタイミングで変更すると、遅延量を増大した場合に、音声遅延回路１１、１２の出力において出力済みの音声が繰り返されたり、遅延量を減少した場合に音声が切り詰められ発話の内容が失われることがあり、問題となる。
【００６４】
この問題を回避するため、本実施の形態では音声分割回路９で入力信号の無音・無声区間を検出し、音声遅延回路１１、１２において音声出力の無音・無声区間の長さを操作することにより、発話の内容を失うことなく、かつ聴感上違和感なく音声の遅延量の変更を行う。
【００６５】
なお、図３、図４は音声遅延量の変更例を示している。ここで、各記号は次のように表している。Ｔｓは入力音声の無音期間の長さ、Ｔｄ１は変更前の遅延量、Ｔｄ２は変更後の遅延量、ｔ１は無音期間の開始時刻、ｔ２は無音期間の終了時刻である。
【００６６】
図３は遅延量を増大させる場合（Ｔｄ１＜Ｔｄ２）を表しており、遅延量を増大する場合の手順は、
（ａ）入力音声信号を基に、時刻ｔ１〜ｔ２までの無音期間Ｔｓを検出する。
【００６７】
（ｂ）音声遅延回路１１、１２の出力は時刻（ｔ１＋Ｔｄ１）に無音となり、遅延量に変更がなければ時刻（ｔ２＋Ｔｄ１）で有音となるので、この間に例えば時刻（ｔ２＋Ｔｄ１）の直前に遅延量をＴｄ２に変更する。
【００６８】
（ｃ）音声遅延回路１１、１２の出力は、時刻（ｔ２＋Ｔｄ１）直後から時刻（ｔ２＋Ｔｄ２）までの期間、時刻（ｔ２＋Ｔｄ１−Ｔｄ２）から時刻ｔ２の入力音声が再度出力されるが、この間の入力音声は無音であるため、音声遅延回路１１、１２の出力は無音となる。
【００６９】
（ｄ）時刻（ｔ２＋Ｔｄ２）以降の音声遅延回路１１、１２の出力は、時刻ｔ２以降の入力音声がＴｄ２だけ遅延されて出力される。ただし、Ｔｄ２の最大値はＴｄ１＋Ｔｓとする。
【００７０】
図４は遅延量を減少させる場合（Ｔｄ１＞Ｔｄ２）を表し、遅延量を減少する場合の手順は、
（ｅ）入力音声信号を基に、時刻ｔ１〜ｔ２までの無音期間Ｔｓを検出する。
【００７１】
（ｆ）音声遅延回路１１、１２の出力は時刻（ｔ１＋Ｔｄ１）に無音となるので、この（ｔ１＋Ｔｄ１）の直後に遅延量をＴｄ２に変更する。
【００７２】
（ｇ）音声遅延回路１１、１２の出力は、時刻（ｔ１＋Ｔｄ１）直後から時刻（ｔ２＋Ｔｄ２）までの期間、時刻（ｔ１＋Ｔｄ１−Ｔｄ２）から時刻ｔ２の入力音声が出力されるが、この間の入力音声は無音であるため、音声遅延回路１１、１２の出力は無音となる。
【００７３】
（ｈ）時刻ｔ２＋Ｔｄ２以降の音声遅延回路１１、１２の出力は時刻ｔ２以降の入力音声がＴｄ２だけ遅延されて出力される。ただし、Ｔｄ２の最小値は（Ｔｄ１−Ｔｓ）とする。
【００７４】
動画像と音声のずれ量を測定する場合に、話し始め部分だけで動き立てと音立ての比較を行った場合に、話し始める前に唇が動くことがある、という点で問題がある。
【００７５】
図５は話者が話し始める前に息を吸い込まない場合の音声波形と、唇の開閉量を表している。音立て点Ｃ、Ｄは共に動き立て点Ｅ、Ｆと一致していることが分かる。図６は話し始める前に息を吸い込んだ場合で、音立て点Ｈが動き立て点Ｊと一致しない様子が分かる。また、話し始めでは、次の発声のために、発声前に次の発音声の口の形を整える場合がある。このため、話し始めだけを音立てとして捉えるのではなく、より短い時間間隔で、具体的には句読点以下の時間間隔で、音立て、動き立てを検出する必要がある。
【００７６】
図７は実際に「正午の天気図」と発声した時の音声波形である。本実施の形態では、１／４フレーム毎に音声信号の絶対値を合計し、閾値処理することにより、「し」、「よ」、「ご」、「の」、「て」、「き」の各文字で音立て点を検出する。このようにして、句読点以下の時間間隔で音立てを検出し、精度を向上させる。なお、図７で「し」、「き」の音立て点は、ゼロクロス回数による補正が行われている。
【００７７】
図８は動画像信号から検出した動き立てと、音声信号から検出した音立てから、映像と音声のずれ量を求める様子を示し、「天気図」と発声した場合の音声レベルと唇の開閉量を表している。なお、音声レベルは上述のゼロクロス回数により補正されている。点ＫとＬは上述の手法で検出された音立て点であり、点ＭとＮは上述の手法で検出された動き立て点である。この例では、音声と映像のずれ量は０フレームである。
【００７８】
先ず、音立てと動き立ての時間データを、必要なずれ量の測定範囲の時間分、例えば±１５フレーム分蓄積する。その後に、例えば音立て点を基準とし、動き立て点がどの位置に存在するかを調べる。この作業はＫの音立て点が検出されてから、動き立て点のデータが必要なずれ量検出範囲の時間分だけ蓄積した後に行う。また、このようにリアルタイムで集計作業を行うことにより、測定結果が即座に判明することも特長である。
【００７９】
この例の場合に、例えばＫの音立て点を基準に動き立て点を検索すると、点ＭとＮに見付けることができる。そして、Ｋの点とのずれ量を計算する。この例では、点Ｍのずれ量は０フレームであり、点Ｎのずれ量は＋６フレームであると仮定する。
【００８０】
次に、得られたこれらのずれ量データの統計量を求める。点Ｍの「ずれ量０フレーム」というデータが１つ検出されると、０フレームのスコアを１つ加算する。同様に、点Ｎの「ずれ量＋６フレーム」というデータで、＋６フレームのスコアを１つ加算する。
【００８１】
次に、Ｌの音立て点が検出される。この例の場合に、点ＭはＬから−６フレームのずれ量であるため、−６フレームのスコアを１つ加算する。また点ＮはＬから０フレームのずれ量にあるので、０フレームのスコアを１つ加算する。この例の場合では、２つの音立て点が検出され、動き立て点とのずれ量を計算し統計量を求めた結果、−６フレーム点に１つ、０フレームに２つ、＋６フレームに１つ、といったスコアになる。そのため、最もスコアの大きい０フレームをずれ量を計算結果とする。
【００８２】
図９は音立てと動き立ての相関が取れない場合を含んだ例を表している。○は真のずれ量に対してのスコアが加算される個所である。真のずれ量は一定であるのに対し、それ以外のずれ量は値が離散するため、真のずれ量のスコアが大きくなり、音立てと動き立ての相関が取れない場合を含んでいても、真のずれ量を求めることができる。この図９では、簡単のために検索方向を音立てに対して、右方向の遅れ方向のみとしている。
【００８３】
以上の実施の形態では、アナログの画像処理装置、Ａ／Ｄ変換回路、信号処理回路、遅延素子等で構成しているが、動画像信号及び音声信号をデジタル形態で取り扱う場合には、パーソナルコンピュータ、ワークステーション等の汎用コンピュータで映像／音声ずれ補正方法を実現できる。汎用コンピュータの構成は周知のため、その処理手順を図１０のフローチャート図に示す。この処理手順は説明の便宜上、機能表現を使用しているが、実際にはＣＰＵが実行可能なプログラム言語で記録媒体に保存され実行される。
【００８４】
保存目的の記録媒体としてはハードディスク、ＲＡＭなどを使用することができる。更には、フロッピーディスク、ＣＤ−ＲＯＭなどの携帯用記録媒体から汎用コンピュータ内の記録装置、記憶装置に実装してもよい。
【００８５】
図１０において、汎用コンピュータは動画像信号及び音声信号を入力する。アナログ形態の信号の場合にはビデオカード等によりアナログデジタル変換を行う。ステップＳ１０で複数フレーム分に相当する動画像信号及び音声信号を装置内部のメモリに一時保存する。
【００８６】
一時保存された動画像信号或いは先頭部分の静止画像をディスプレイに表示させ、ステップＳ２０で画像の切出領域をマウス等により範囲指定する。ステップ３０で一時保存された動画像（複数の静止画）から範囲指定された画像を切り出し、切り出した画像データをメモリの別領域に記憶する。ステップＳ４０で切り出した画像信号に対して上述の前処理が実行される。ステップＳ５０で前処理された動画像信号について、唇の重心位置、開閉速度が計算される。
【００８７】
計算結果として得られる唇の開閉速度を解析し、図８の点Ｍ、Ｎに相当するポイントをステップＳ６０で検出する。このポイントを示すデータは装置内のメモリに動き立てポイント、即ち音声の第１の発生タイミングとして一時記憶される。
【００８８】
次に、メモリに一時記憶されている複数フレーム分の音声信号を使用して、ステップＳ７０で無声・有声／無音区間を検出し、ステップＳ８０で音立てポイント、即ち音声の第２の発生タイミングを検出する。
【００８９】
ステップＳ９０でメモリに記憶されている動画像信号から検出した音声の第１の発生タイミングと、音声信号から検出した音声の第２の発生タイミングとの時間的なずれが計算される。ステップＳ１００で計算された時間だけ一時保存されている音声信号を遅延させ、ステップＳ１１０で一時保存されている動画像信号と音声信号を外部出力する。また、このとき計算されたずれ時間に複数の確からしい結果があった場合に、それらの結果をずれ量の候補として表示し、オペレータがそれぞれのずれ量の結果を試聴して最終的なずれ量を決定してもよい。
【００９０】
なお、ステップＳ１１０で必要に応じて遅延させた音声信号と動画像信号を装置内のハードディスクに保存してもよい。
【００９１】
以後、複数のフレーム単位で動画像信号が入力される毎に上述の処理が実行される。なお、ステップＳ２０でのマウス等による画像の切出領域の範囲指定は、初期的に実行され、切り出すべき領域が設定された後は、ステップＳ５０での唇の重心位置の計算結果に基づき、画像の切出領域の範囲指定は自動的に行われる。
【００９２】
【発明の効果】
以上説明したように本発明に係る映像／音声ずれ補正方法及び装置は、映像と音声とのずれを補正するに際して、動画像信号と音声信号から時間的なずれをより精度良く測定する。
【図面の簡単な説明】
【図１】実施の形態のブロック回路構成図である。
【図２】音声波形、音声レベル、ゼロクロス回数のタイムチャート図である。
【図３】音声遅延量の変更例のタイムチャート図である。
【図４】音声遅延量の変更例のタイムチャート図である。
【図５】音声波形、唇の開閉量のタイムチャート図である。
【図６】音声波形、唇の開閉量のタイムチャート図である。
【図７】音声波形のタイムチャート図である。
【図８】音声レベル、唇の開閉量のタイムチャート図である。
【図９】動き立てと音立てのずれ量の説明図である。
【図１０】処理手続のフローチャート図である。
【符号の説明】
１検出窓切出回路
２、８Ａ／Ｄ変換回路
３前処理回路
４特徴点抽出回路
５唇重心位置・開閉速度検出回路
６動画像／音声ずれ検出回路
７２値化適応制御回路
９音声分割回路
１０音立て検出回路
１１、１２音声遅延回路

Claims

動画像信号と音声信号を用いて映像と音声のずれを補正する方法において、動画像を見て検出窓を指示することにより選択された前記動画像信号中に含まれている音源の特徴を示すデータを二値化し、重心位置を求めて該重心位置からの分散を計算し前記音源の動きの変化量を基に音声の第１の発生タイミングを検出し、前記音声信号から前記音源の動きに相当する音声の第２の発生タイミングを検出し、前記第１、第２の発生タイミングを比較して前記動画像信号と前記音声信号間の時間的なずれ量を計測し、前記ずれ量に従って前記動画像信号と前記音声信号の何れか一方を遅延させることにより前記ずれ量を補正することを特徴とする映像／音声ずれ補正方法。
前記音源を自動追尾しながら、前記音源の動きから前記音声の第１の発生タイミングを検出することを特徴とする請求項１に記載の映像／音声ずれ補正方法。
前記自動追尾している前記音源の位置を、映像出力することを特徴とする請求項２に記載の映像／音声ずれ補正方法。
前記動画像信号と音声信号との時間的なずれ量を計測した結果について、複数の確からしい結果が求められた場合に、その複数の確からしい結果をずれ量の候補として表示し、それぞれの候補によって前記ずれ量が補正された映像／音声を視聴して最終的なずれ量を決定することを特徴とする請求項１〜３の何れか１つの請求項に記載の映像／音声ずれ補正方法。
音声信号のゼロクロス回数を計測し、該計測結果に基づいて話者の息継ぎ前に発声する音声レベルが低下する現象に起因する影響を補正し、前記音声の第２の発生タイミングの検出精度を向上させることを特徴とする請求項１〜４の何れか１つの請求項に記載の映像／音声ずれ補正方法。
音声信号のゼロクロス回数を計測し、該計測結果に基づいて発声音の母音と子音の違いによる前記音声の第２の発生タイミングの違いを補正し、前記音声の第２の発生タイミングの検出精度を向上させることを特徴とする請求項１〜４の何れか１つの請求項に記載の映像／音声ずれ補正方法。
前記動画像信号と前記音声信号から、前記音声の第１、第２の発生タイミングの検出を発話の句読点以下の時間間隔で行い、前記動画像信号と前記音声信号のずれ量の検出精度を向上させることを特徴とする請求項１〜６の何れか１つの請求項に記載の映像／音声ずれ補正方法。
前記動画像信号と前記音声信号とのずれ量を音声信号を遅延して補正する場合に、前記音声信号における音声の無音期間の長さを調整して前記音声信号の遅延量を調整することを特徴とする請求項１〜７の何れか１つの請求項に記載の映像／音声ずれ補正方法。
請求項１〜８の何れか１つの請求項の補正方法をＣＰＵが実行可能なプログラム言語で記憶したことを特徴とするプログラム。
請求項９のプログラムを記憶したことを特徴とする記録媒体。
動画像信号と音声信号を用いて映像と音声のずれを補正する装置において、動画像を見て検出窓により前記動画像信号を選択する手段と、選択された前記動画像信号中に含まれている音源の特徴を示すデータを二値化し、重心位置を求めて該重心位置からの分散を計算し前記音源の動きの変化量を基に音声の第１の発生タイミングを検出する第１の検出回路と、前記音声信号から前記音源の動きに相当する音声の第２の発生タイミングを検出する第２の検出回路と、前記第１、第２の発生タイミングを比較して前記動画像信号と前記音声信号間の時間的なずれ量を計測する計測回路と、前記ずれ量に従って前記動画像信号と前記音声信号の何れか一方を遅延させることにより前記ずれ量を補正する補正回路とを有することを特徴とする映像／音声ずれ補正装置。