JP4801251B2 - 映像/音声ずれ補正方法及び装置 - Google Patents

映像/音声ずれ補正方法及び装置 Download PDF

Info

Publication number
JP4801251B2
JP4801251B2 JP2000360086A JP2000360086A JP4801251B2 JP 4801251 B2 JP4801251 B2 JP 4801251B2 JP 2000360086 A JP2000360086 A JP 2000360086A JP 2000360086 A JP2000360086 A JP 2000360086A JP 4801251 B2 JP4801251 B2 JP 4801251B2
Authority
JP
Japan
Prior art keywords
audio
moving image
signal
video
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2000360086A
Other languages
English (en)
Other versions
JP2002165153A (ja
Inventor
潤一 伊藤
隆二 増子
丞 天野
章 中村
龍 池沢
俊郎 大村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2000360086A priority Critical patent/JP4801251B2/ja
Publication of JP2002165153A publication Critical patent/JP2002165153A/ja
Application granted granted Critical
Publication of JP4801251B2 publication Critical patent/JP4801251B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Synchronizing For Television (AREA)
  • Television Receiver Circuits (AREA)
  • Television Signal Processing For Recording (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、音声信号を含む動画像とその音声との時間的なずれを検出し、ずれ量を補正する映像/音声ずれ補正方法及び装置に関するものである。
【0002】
【従来の技術】
動画像と音声との間のずれを補正する方法のうち、動画像や音声に基準信号を乗せることなく補正する方法として、特開2000−196917号公報が開示されている。
【0003】
この提案では、入力動画像に含まれている音源の動きからその音源の第1の発生タイミングと、入力動画像の音声から音源の第2の発生タイミングを検出し、第1、第2の発生タイミングとの時間的なずれを計測するものである。
【0004】
ここでは、以下の説明においては、音声の第1の発生タイミングを動き立て、第2の発生タイミングを音立てと云う。また、本明細書においては、音声には音響等をも含めることにする。
【0005】
【発明が解決しようとする課題】
上述の公報においては、動画像の中に含まれている音源の動きを検出する手段として動きベクトルを計算しているが、音源として唇のように動きながら形状が変化する物体を対象とした場合に、正しい動きベクトルが得られない場合があり、ずれ量の計測結果の精度が上がらない場合がある。
【0006】
また、原稿を読むために下を向くなど、唇そのものの位置と見え方が変化してしまうことにより、ずれ量の計測結果の精度が向上しない場合がある。
【0007】
更に、息を吸うために口を開きその後に発声するなど、音声の発生タイミングと動きが最初からずれている場合は、先の公報の図4に示された音声の音立て点と唇の動きの関連が保てなくなり、ずれ量の計測結果の精度が上がらない場合がある。
【0008】
映像と音声とのずれの量を音声を遅延させて補正する場合に、音声の遅延量を任意のタイミングで変更すると、遅延量を増大して音声遅延出力において出力済みの音声が繰り返されたり、遅延量を減少すると音声が切り詰められ、発話の内容が失われることがある。
【0009】
本発明の目的は、上述の問題を解消し、動画像と音声の時間的なずれをより精度良く計測し、これを補正するための映像/音声ずれ補正方法を提供することにある。
【0010】
【課題を解決するための手段】
上記目的を達成するための本発明に係る映像/音声ずれ補正方法は、動画像信号と音声信号を用いて映像と音声のずれを補正する方法において、動画像を見て検出窓を指示することにより選択された前記動画像信号中に含まれている音源の特徴を示すデータを二値化し、重心位置を求めて該重心位置からの分散を計算し前記音源の動きの変化量を基に音声の第1の発生タイミングを検出し、前記音声信号から前記音源の動きに相当する音声の第2の発生タイミングを検出し、前記第1、第2の発生タイミングを比較して前記動画像信号と前記音声信号間の時間的なずれ量を計測し、前記ずれ量に従って前記動画像信号と前記音声信号の何れか一方を遅延させることにより前記ずれ量を補正することを特徴とする。
【0021】
また、本発明に係る映像/音声ずれ補正装置は、動画像信号と音声信号を用いて映像と音声のずれを補正する装置において、動画像を見て検出窓により前記動画像信号を選択する手段と、選択された前記動画像信号中に含まれている音源の特徴を示すデータを二値化し、重心位置を求めて該重心位置からの分散を計算し前記音源の動きの変化量を基に音声の第1の発生タイミングを検出する第1の検出回路と、前記音声信号から前記音源の動きに相当する音声の第2の発生タイミングを検出する第2の検出回路と、前記第1、第2の発生タイミングを比較して前記動画像信号と前記音声信号間の時間的なずれ量を計測する計測回路と、前記ずれ量に従って前記動画像信号と前記音声信号の何れか一方を遅延させることにより前記ずれ量を補正する補正回路とを有することを特徴とする。
【0023】
【発明の実施の形態】
本発明を図示の実施の形態に基づいて詳細に説明する。
映像/音声ずれ補正方法に対して動画像信号、例えばハイビジョン、NTSC、PALなどの形態の動画像信号と、動画像信号に付随する音声信号が入力される。本実施の形態では、発話時のように唇の動きを撮影した、例えばニュースなどのようなバストショットで撮影されたハイビジョン信号による動画像について説明する。
【0024】
図1はブロック回路構成図であり、動画像信号が入力する検出窓切出回路1の出力は、A/D変換回路2、前処理回路3、特徴点抽出回路4、唇重心位置・開閉速度検出回路5を介して動画像/音声ずれ検出回路6に接続されている。また、前処理回路3の出力は2値化適応制御回路7に接続され、2値化適応制御回路7は特徴点抽出回路4と接続されている。更に、唇重心位置・開閉速度検出回路5の出力は検出窓切出回路1に接続されている。
【0025】
一方、音声信号はA/D変換回路8に入力され、A/D変換回路8の出力は、音声分割回路9、音立て検出回路10に順次に接続されている。また、音声信号は遅延素子を用いた本線系音声遅延回路11、モニタ系音声遅延回路12に接続されており、これらの遅延回路11、12には音声分割回路9、動画像/音声ずれ検出回路6の出力も接続されている。
【0026】
そして、補正後の動画像信号として、元の動画像信号がそのまま出力され、動画像信号と同期がとられた音声信号は本線系音声遅延回路11から出力され、試聴用の音声信号はモニタ系音声遅延回路12から出力されるようになっている。
【0027】
検出窓切出回路1では、動画像と音声の間のずれの計測に必要で、動画像の動きベクトルを検出する検出窓を指示する。音声の発生源、この場合は唇の動きの中に音声が発生するときの特有の動きがあることが知られているので、この特有の動きを動画像信号の解析により検出する。この解析では、唇の特長を表す画素に着目し、これらの分布状況の変化から唇の開閉量、唇の開閉速度を算出するという手法を用いる。
【0028】
動画像信号の解析から得られる音声の発生タイミングと、音声信号から得られる音声の発生タイミングとを比較することにより、互いのずれ量を計測する。計測されたずれ量に基づいて、動画像或いは音声の何れか一方を遅延させることにより、双方の同期がとられる。
【0029】
本実施の形態では、リアルタイムで動画像と音声のずれ補正を行うために、アナログ式の画像処理装置のタッチパネル式表示器に動画像を表示させる。オペレータはこの動画像を見て、動画像の中の唇部分に触れることで検出窓の初期の位置を決定し、画像処理機能を含む検出窓切出回路1により唇画像の近傍の動画像を切り出す。この切出処理により音源の背景の動画像部分を除去し、計測対象の動画像信号のドットつまり画素数が減少するので、後述する動画像解析処理時間を短縮することが可能となる。
【0030】
例えばバストショットの場合に、縦128ドット、横160ドットのブロック中に唇画像が入る。切り出された動画像信号はRGB4:4:4フォーマットでA/D変換回路2によりアナログ・デジタル変換される。
【0031】
また、オペレータにより初期の位置を設定された検出窓の位置は、後述する唇の重心位置、唇開閉速度を検出する唇重心位置・開閉速度検出回路5で求めた唇の重心位置情報を基に、フレーム毎に自動的に変更され、常に唇の重心を中心とする画像の切り出しが行われる。本実施の形態では、これを検出窓の自動追尾と称することにする。
【0032】
更に、タッチパネル式表示器には検出窓を動画像上に重ねて表示する。これにより、オペレータは検出窓の指示の結果を確認することができる。また、オペレータは検出窓の自動追尾の結果を監視することができ、システムの稼働状況の確認が可能となる。
【0033】
A/D変換回路2で変換された動画像信号から、唇の重心位置、開閉量、開閉速度を検出するための前処理を前処理回路3で行う。本実施の形態では、動画像信号中の音源の音声を発生するための動きを音発生パターンと称することにする。具体的な前処理としては、唇特徴データの抽出に使用する後述の輝度成分パラメータ信号Y、色成分パラメータ信号p1、p2、p3、色差成分パラメータ信号Crの生成を信号処理プロセッサ等により行う。
【0034】
次に、2値化適応制御回路7、特徴点抽出回路4により、前処理された動画像信号から唇の重心位置、唇の開閉量、唇の開閉速度を検出するために、唇画像の特徴を抽出し画像を2値化する。
【0035】
顔画像中で、唇とその他の顔の部位との間には、色空間上の分布に違いがあり、多くの場合にこの色空間上の分布の違いを利用して唇とその他の顔の部位を判別できる。具体的には、縦Lyドット、横Lxドットの検出窓内の動画像のR、G、Bデータから、輝度成分パラメータ信号Y、色成分パラメータ信号p1、p2、p3、色差成分パラメータ信号Crを次式によりそれぞれ算出する。
【0036】
Y=0.1B+0.6G+0.3R
p1=B/R
p2=G/R
p3=B/G
Cr=R−Y
【0037】
動画像信号の各画素について、次式を満たす唇の画素を「1」、それ以外の画素を「0」として2値化する。
(p1<α)∩(p2<β)∩(p3>γ)∩(Cr>δ)∩(Y>ε)=1
【0038】
ここで、α、β、γ、δ、εは2値化のための各パラメータの閾値である。
【0039】
一般に、顔画像中の唇とその他の顔の部位の色空間上の分布は、動画像撮影時の照明の違い、話者の違いにより変動するため、上述の閾値を以下の方法で適応的に変更することで、これらの違いによる計算結果の違いを抑制する。
【0040】
2値化した画素のうち、「1」の画素数が次式を満たすように、2値化のためのパラメータの閾値を変化させる。
ζ×Lx<sq<η×Lx
【0041】
ここで、sqは2値化した画素のうち「1」の画素数、ζ、ηは定数で、例えば、ζ=4.2、η=7.5である。また、各閾値は例えば、α:0.7固定、β:0.68初期値、γ:0.7固定、δ:0.06固定、ε:0.23固定、である。
【0042】
2値化されたデータには、場合によって鼻、頬、顎等、唇以外の顔の部位がノイズとして含まれている場合がある。これらのノイズ成分は、唇に比べて面積が小さく孤立点として現れるので、以下の方法でノイズを除去する。
【0043】
検出窓内の2値化されたデータについて、左上から右下方向に走査して、水平方向に連続した(Lx/θ)区間内に、(Lx/ι)以上に「1」の画素が分布しているラインを予備ラインとする。
【0044】
予備ラインが(Ly/κ)回以上に連続した場合の最上部分のラインを、唇開始ラインlysと見倣す。唇開始ラインよりも上方のラインのデータを「0」とし、lyS+Ly×λよりも下方のラインのデータを「0」とする。
【0045】
ここで、例として、θ=8.33、ι=6.25、κ=12.7、λ=0.79とする。
【0046】
唇重心位置・開閉速度検出回路5において、2値化適応制御回路7、特徴点抽出回路4により2値化された唇データを基に、唇の重心位置、開閉量、開閉速度を求める。先ず、唇を表す「1」である画素の集合Q(qx、qy)の重心位置(Cx,Cy)を次式で求める。
Cx=(Σqx)/Qの総数
Cy=(Σqy)/Qの総数
【0047】
次に、重心位置(Cx,Cy)からの集合Q(qx,qy)の分散M(Mx,My)を次式により求め、この分散Mを唇の開閉量とする。
Mx=Σ(|Cx−Qx|)/Qの総数
My=Σ(|Cy−Qy|)/Qの総数
【0048】
分散Mは水平と垂直方向に値を持つ2次元のベクトル値であり、その大きさは唇の開閉量を表す。また、分散Mは時間の関数であるので、時刻(t)における分散をM(t)と表すと、時刻(t)における唇の開閉量は|M(t)|で表すことができる。
【0049】
また、唇の開閉量|M(t)|を時間tで微分したS(t)は、
S(t) =d|M(t)|/dt
と定義され、S(t)は唇の開閉速度を表す。S(t)>0のとき唇は開く方向にあり、S(t)<0のとき唇は閉じる方向にある。
【0050】
切り出した唇の動画像が音声を発生する動きを示すときは、唇の開閉速度S(t)が或る一定以上の値となっている。従って、上述の方法で開閉速度S(t)を求め、この開閉速度S(t)の大きさを音声の発生の有無の判定に利用する。
信号処理プロセッサは計算した開閉速度S(t)と一定値を比較して、切り出した唇の動画像が音発生パターンであるか否かを判断する。
【0051】
更に、上述の方法で求めた切り出した唇画像の重心位置を基に、前述の検出窓切出回路1で切り出す画像の次フレームでの中心位置を決定し、検出窓を自動追尾させる。
【0052】
一方、入力された音声信号はA/D変換回路8においてA/D変換される。より具体的には、音声信号を量子化ビット数16ビット、標本化周波数48kHzでサンプリングすることによりA/D変換を行う。
【0053】
音声分割回路9では、A/D変換された音声信号から無音・有声/無声区間の分割を信号処理プロセッサにより行う。具体的には、音声の大きさが一定の閾値以下の場合を無音・無声とし、閾値以上を有声とする。このとき音声の大きさの他に、音声信号のゼロクロス回数を求め、音声の大きさに補正を施した上で、上述の閾値と比較を行う。
【0054】
その第1の理由は、人の発話音で子音が発声された場合に、発声の開始点に比べて音声の大きさの立ち上がりが遅く現れるので、有音区間の開始点が実際よりも遅く検出されてしまう。ゼロクロス回数は子音発声の初期にその数が増大するという特徴を持つことを利用して、音声の大きさを補正する。
【0055】
図2は「天気図(てんきず)」と発声したときの音声波形と、音声レベル、ゼロクロスカウント数である。「き」のAの部分は発声点の振幅立ち上がりが弱く、レベルのみの集計方法ではBの部分が発声点であると誤認識してしまう虞れがある。そこで、以下の手法によりこの部分の補正を行う。
【0056】
音声レベルが或る一定の値以上でかつ一定の値以下である場合、例えばA〜Bにかけての部分で音声信号の極性が反転する回数を所定時間だけ計測する。反転した回数が所定値以上でかつ所定時間内に音声レベルが所定値以上になった場合に、その範囲の音声レベルを所定数倍し補正することにより、より正確な音立て点を求めることが可能となり精度が向上する。この方法は全ての子音で効果があり、「か」行と「さ」行の子音においては、特に著しい効果が認められる。
【0057】
第2の理由は、人が発話する場合に話者の話し終わりである息継ぎ前に発声する音声の大きさが低下する傾向にある。これは、音立て点の検出精度を低下させる要因となり得る。ゼロクロス回数は息継ぎ前でも、その回数の低下傾向は見られないという特徴を持つので、以下の手法により、この部分の補正を行う。
【0058】
音声レベルが所定値以上を保ち、かつゼロクロス量が所定値以上ある場合において、音声レベルが低下してきた場合に、音声レベルを上げて補正を行う。この補正により、音立ての検出精度を向上させることができる。
【0059】
分割された有音区間の中の音立て部分を、音立て検出回路10において検出する。音立て検出回路10では、上述の処理を信号処理プロセッサにより行うことで、音声(無声・有声又は有音)/無音の区間を識別し、音立ての発生タイミングを検出する。
【0060】
唇重心位置・開閉速度検出回路5により動画像信号から得られた音声の発生タイミングと、音立て検出回路10の処理により音声信号から得られた音声の発生タイミングとの時間的な差分を計算すると、動画像信号と音声信号との間のずれを計算することができる。この処理は動画像/音声ずれ検出回路6において、信号処理プロセッサにより行われる。
【0061】
入力された音声信号は本線系音声遅延回路11、モニタ系音声遅延回路12において、遅延素子等により動画像/音声ずれ検出回路6で計算されたずれ量分だけ本線系、モニタ系においてそれぞれ遅延される。なお、動画像/音声ずれ検出回路6において計測値を表示させ、その値を基に手動により音声遅延回路11、12の遅延量を設定することも可能である。これにより、動画像信号と音声信号との同期がとられ、これらの遅延回路11、12から出力がなされる。
【0062】
音声遅延回路11、12を本線系とモニタ系の2系統としたのは、オペレータがモニタ系の試聴用音声信号と動画像信号によりずれ補正の結果確認した後に、本線系の音声遅延回路11の遅延を更新できるようにするためである。
【0063】
音声遅延回路11、12の遅延量を任意のタイミングで変更すると、遅延量を増大した場合に、音声遅延回路11、12の出力において出力済みの音声が繰り返されたり、遅延量を減少した場合に音声が切り詰められ発話の内容が失われることがあり、問題となる。
【0064】
この問題を回避するため、本実施の形態では音声分割回路9で入力信号の無音・無声区間を検出し、音声遅延回路11、12において音声出力の無音・無声区間の長さを操作することにより、発話の内容を失うことなく、かつ聴感上違和感なく音声の遅延量の変更を行う。
【0065】
なお、図3、図4は音声遅延量の変更例を示している。ここで、各記号は次のように表している。Tsは入力音声の無音期間の長さ、Td1は変更前の遅延量、Td2は変更後の遅延量、t1は無音期間の開始時刻、t2は無音期間の終了時刻である。
【0066】
図3は遅延量を増大させる場合(Td1<Td2)を表しており、遅延量を増大する場合の手順は、
(a)入力音声信号を基に、時刻t1〜t2までの無音期間Tsを検出する。
【0067】
(b)音声遅延回路11、12の出力は時刻(t1+Td1)に無音となり、遅延量に変更がなければ時刻(t2+Td1)で有音となるので、この間に例えば時刻(t2+Td1)の直前に遅延量をTd2に変更する。
【0068】
(c)音声遅延回路11、12の出力は、時刻(t2+Td1)直後から時刻(t2+Td2)までの期間、時刻(t2+Td1−Td2)から時刻t2の入力音声が再度出力されるが、この間の入力音声は無音であるため、音声遅延回路11、12の出力は無音となる。
【0069】
(d)時刻(t2+Td2)以降の音声遅延回路11、12の出力は、時刻t2以降の入力音声がTd2だけ遅延されて出力される。ただし、Td2の最大値はTd1+Ts とする。
【0070】
図4は遅延量を減少させる場合(Td1>Td2)を表し、遅延量を減少する場合の手順は、
(e)入力音声信号を基に、時刻t1〜t2までの無音期間Tsを検出する。
【0071】
(f)音声遅延回路11、12の出力は時刻(t1+Td1)に無音となるので、この(t1+Td1)の直後に遅延量をTd2に変更する。
【0072】
(g)音声遅延回路11、12の出力は、時刻(t1+Td1)直後から時刻(t2+Td2)までの期間、時刻(t1+Td1−Td2)から時刻t2の入力音声が出力されるが、この間の入力音声は無音であるため、音声遅延回路11、12の出力は無音となる。
【0073】
(h)時刻t2+Td2以降の音声遅延回路11、12の出力は時刻t2以降の入力音声がTd2だけ遅延されて出力される。ただし、Td2の最小値は(Td1−Ts)とする。
【0074】
動画像と音声のずれ量を測定する場合に、話し始め部分だけで動き立てと音立ての比較を行った場合に、話し始める前に唇が動くことがある、という点で問題がある。
【0075】
図5は話者が話し始める前に息を吸い込まない場合の音声波形と、唇の開閉量を表している。音立て点C、Dは共に動き立て点E、Fと一致していることが分かる。図6は話し始める前に息を吸い込んだ場合で、音立て点Hが動き立て点Jと一致しない様子が分かる。また、話し始めでは、次の発声のために、発声前に次の発音声の口の形を整える場合がある。このため、話し始めだけを音立てとして捉えるのではなく、より短い時間間隔で、具体的には句読点以下の時間間隔で、音立て、動き立てを検出する必要がある。
【0076】
図7は実際に「正午の天気図」と発声した時の音声波形である。本実施の形態では、1/4フレーム毎に音声信号の絶対値を合計し、閾値処理することにより、「し」、「よ」、「ご」、「の」、「て」、「き」の各文字で音立て点を検出する。このようにして、句読点以下の時間間隔で音立てを検出し、精度を向上させる。なお、図7で「し」、「き」の音立て点は、ゼロクロス回数による補正が行われている。
【0077】
図8は動画像信号から検出した動き立てと、音声信号から検出した音立てから、映像と音声のずれ量を求める様子を示し、「天気図」と発声した場合の音声レベルと唇の開閉量を表している。なお、音声レベルは上述のゼロクロス回数により補正されている。点KとLは上述の手法で検出された音立て点であり、点MとNは上述の手法で検出された動き立て点である。この例では、音声と映像のずれ量は0フレームである。
【0078】
先ず、音立てと動き立ての時間データを、必要なずれ量の測定範囲の時間分、例えば±15フレーム分蓄積する。その後に、例えば音立て点を基準とし、動き立て点がどの位置に存在するかを調べる。この作業はKの音立て点が検出されてから、動き立て点のデータが必要なずれ量検出範囲の時間分だけ蓄積した後に行う。また、このようにリアルタイムで集計作業を行うことにより、測定結果が即座に判明することも特長である。
【0079】
この例の場合に、例えばKの音立て点を基準に動き立て点を検索すると、点MとNに見付けることができる。そして、Kの点とのずれ量を計算する。この例では、点Mのずれ量は0フレームであり、点Nのずれ量は+6フレームであると仮定する。
【0080】
次に、得られたこれらのずれ量データの統計量を求める。点Mの「ずれ量0フレーム」というデータが1つ検出されると、0フレームのスコアを1つ加算する。同様に、点Nの「ずれ量+6フレーム」というデータで、+6フレームのスコアを1つ加算する。
【0081】
次に、Lの音立て点が検出される。この例の場合に、点MはLから−6フレームのずれ量であるため、−6フレームのスコアを1つ加算する。また点NはLから0フレームのずれ量にあるので、0フレームのスコアを1つ加算する。この例の場合では、2つの音立て点が検出され、動き立て点とのずれ量を計算し統計量を求めた結果、−6フレーム点に1つ、0フレームに2つ、+6フレームに1つ、といったスコアになる。そのため、最もスコアの大きい0フレームをずれ量を計算結果とする。
【0082】
図9は音立てと動き立ての相関が取れない場合を含んだ例を表している。○は真のずれ量に対してのスコアが加算される個所である。真のずれ量は一定であるのに対し、それ以外のずれ量は値が離散するため、真のずれ量のスコアが大きくなり、音立てと動き立ての相関が取れない場合を含んでいても、真のずれ量を求めることができる。この図9では、簡単のために検索方向を音立てに対して、右方向の遅れ方向のみとしている。
【0083】
以上の実施の形態では、アナログの画像処理装置、A/D変換回路、信号処理回路、遅延素子等で構成しているが、動画像信号及び音声信号をデジタル形態で取り扱う場合には、パーソナルコンピュータ、ワークステーション等の汎用コンピュータで映像/音声ずれ補正方法を実現できる。汎用コンピュータの構成は周知のため、その処理手順を図10のフローチャート図に示す。この処理手順は説明の便宜上、機能表現を使用しているが、実際にはCPUが実行可能なプログラム言語で記録媒体に保存され実行される。
【0084】
保存目的の記録媒体としてはハードディスク、RAMなどを使用することができる。更には、フロッピーディスク、CD−ROMなどの携帯用記録媒体から汎用コンピュータ内の記録装置、記憶装置に実装してもよい。
【0085】
図10において、汎用コンピュータは動画像信号及び音声信号を入力する。アナログ形態の信号の場合にはビデオカード等によりアナログデジタル変換を行う。ステップS10で複数フレーム分に相当する動画像信号及び音声信号を装置内部のメモリに一時保存する。
【0086】
一時保存された動画像信号或いは先頭部分の静止画像をディスプレイに表示させ、ステップS20で画像の切出領域をマウス等により範囲指定する。ステップ30で一時保存された動画像(複数の静止画)から範囲指定された画像を切り出し、切り出した画像データをメモリの別領域に記憶する。ステップS40で切り出した画像信号に対して上述の前処理が実行される。ステップS50で前処理された動画像信号について、唇の重心位置、開閉速度が計算される。
【0087】
計算結果として得られる唇の開閉速度を解析し、図8の点M、Nに相当するポイントをステップS60で検出する。このポイントを示すデータは装置内のメモリに動き立てポイント、即ち音声の第1の発生タイミングとして一時記憶される。
【0088】
次に、メモリに一時記憶されている複数フレーム分の音声信号を使用して、ステップS70で無声・有声/無音区間を検出し、ステップS80で音立てポイント、即ち音声の第2の発生タイミングを検出する。
【0089】
ステップS90でメモリに記憶されている動画像信号から検出した音声の第1の発生タイミングと、音声信号から検出した音声の第2の発生タイミングとの時間的なずれが計算される。ステップS100で計算された時間だけ一時保存されている音声信号を遅延させ、ステップS110で一時保存されている動画像信号と音声信号を外部出力する。また、このとき計算されたずれ時間に複数の確からしい結果があった場合に、それらの結果をずれ量の候補として表示し、オペレータがそれぞれのずれ量の結果を試聴して最終的なずれ量を決定してもよい。
【0090】
なお、ステップS110で必要に応じて遅延させた音声信号と動画像信号を装置内のハードディスクに保存してもよい。
【0091】
以後、複数のフレーム単位で動画像信号が入力される毎に上述の処理が実行される。なお、ステップS20でのマウス等による画像の切出領域の範囲指定は、初期的に実行され、切り出すべき領域が設定された後は、ステップS50での唇の重心位置の計算結果に基づき、画像の切出領域の範囲指定は自動的に行われる。
【0092】
【発明の効果】
以上説明したように本発明に係る映像/音声ずれ補正方法及び装置は、映像と音声とのずれを補正するに際して、動画像信号と音声信号から時間的なずれをより精度良く測定する。
【図面の簡単な説明】
【図1】実施の形態のブロック回路構成図である。
【図2】音声波形、音声レベル、ゼロクロス回数のタイムチャート図である。
【図3】音声遅延量の変更例のタイムチャート図である。
【図4】音声遅延量の変更例のタイムチャート図である。
【図5】音声波形、唇の開閉量のタイムチャート図である。
【図6】音声波形、唇の開閉量のタイムチャート図である。
【図7】音声波形のタイムチャート図である。
【図8】音声レベル、唇の開閉量のタイムチャート図である。
【図9】動き立てと音立てのずれ量の説明図である。
【図10】処理手続のフローチャート図である。
【符号の説明】
1 検出窓切出回路
2、8 A/D変換回路
3 前処理回路
4 特徴点抽出回路
5 唇重心位置・開閉速度検出回路
6 動画像/音声ずれ検出回路
7 2値化適応制御回路
9 音声分割回路
10 音立て検出回路
11、12 音声遅延回路

Claims (11)

  1. 動画像信号と音声信号を用いて映像と音声のずれを補正する方法において、動画像を見て検出窓を指示することにより選択された前記動画像信号中に含まれている音源の特徴を示すデータを二値化し、重心位置を求めて該重心位置からの分散を計算し前記音源の動きの変化量を基に音声の第1の発生タイミングを検出し、前記音声信号から前記音源の動きに相当する音声の第2の発生タイミングを検出し、前記第1、第2の発生タイミングを比較して前記動画像信号と前記音声信号間の時間的なずれ量を計測し、前記ずれ量に従って前記動画像信号と前記音声信号の何れか一方を遅延させることにより前記ずれ量を補正することを特徴とする映像/音声ずれ補正方法。
  2. 前記音源を自動追尾しながら、前記音源の動きから前記音声の第1の発生タイミングを検出することを特徴とする請求項1に記載の映像/音声ずれ補正方法。
  3. 前記自動追尾している前記音源の位置を、映像出力することを特徴とする請求項2に記載の映像/音声ずれ補正方法。
  4. 前記動画像信号と音声信号との時間的なずれ量を計測した結果について、複数の確からしい結果が求められた場合に、その複数の確からしい結果をずれ量の候補として表示し、それぞれの候補によって前記ずれ量が補正された映像/音声を視聴して最終的なずれ量を決定することを特徴とする請求項1〜3の何れか1つの請求項に記載の映像/音声ずれ補正方法。
  5. 音声信号のゼロクロス回数を計測し、該計測結果に基づいて話者の息継ぎ前に発声する音声レベルが低下する現象に起因する影響を補正し、前記音声の第2の発生タイミングの検出精度を向上させることを特徴とする請求項1〜の何れか1つの請求項に記載の映像/音声ずれ補正方法。
  6. 音声信号のゼロクロス回数を計測し、該計測結果に基づいて発声音の母音と子音の違いによる前記音声の第2の発生タイミングの違いを補正し、前記音声の第2の発生タイミングの検出精度を向上させることを特徴とする請求項1〜の何れか1つの請求項に記載の映像/音声ずれ補正方法。
  7. 前記動画像信号と前記音声信号から、前記音声の第1、第2の発生タイミングの検出を発話の句読点以下の時間間隔で行い、前記動画像信号と前記音声信号のずれ量の検出精度を向上させることを特徴とする請求項1〜の何れか1つの請求項に記載の映像/音声ずれ補正方法。
  8. 前記動画像信号と前記音声信号とのずれ量を音声信号を遅延して補正する場合に、前記音声信号における音声の無音期間の長さを調整して前記音声信号の遅延量を調整することを特徴とする請求項1〜の何れか1つの請求項に記載の映像/音声ずれ補正方法。
  9. 請求項1〜の何れか1つの請求項の補正方法をCPUが実行可能なプログラム言語で記憶したことを特徴とするプログラム。
  10. 請求項のプログラムを記憶したことを特徴とする記録媒体。
  11. 動画像信号と音声信号を用いて映像と音声のずれを補正する装置において、動画像を見て検出窓により前記動画像信号を選択する手段と、選択された前記動画像信号中に含まれている音源の特徴を示すデータを二値化し、重心位置を求めて該重心位置からの分散を計算し前記音源の動きの変化量を基に音声の第1の発生タイミングを検出する第1の検出回路と、前記音声信号から前記音源の動きに相当する音声の第2の発生タイミングを検出する第2の検出回路と、前記第1、第2の発生タイミングを比較して前記動画像信号と前記音声信号間の時間的なずれ量を計測する計測回路と、前記ずれ量に従って前記動画像信号と前記音声信号の何れか一方を遅延させることにより前記ずれ量を補正する補正回路とを有することを特徴とする映像/音声ずれ補正装置。
JP2000360086A 2000-11-27 2000-11-27 映像/音声ずれ補正方法及び装置 Expired - Lifetime JP4801251B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000360086A JP4801251B2 (ja) 2000-11-27 2000-11-27 映像/音声ずれ補正方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000360086A JP4801251B2 (ja) 2000-11-27 2000-11-27 映像/音声ずれ補正方法及び装置

Publications (2)

Publication Number Publication Date
JP2002165153A JP2002165153A (ja) 2002-06-07
JP4801251B2 true JP4801251B2 (ja) 2011-10-26

Family

ID=18831739

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000360086A Expired - Lifetime JP4801251B2 (ja) 2000-11-27 2000-11-27 映像/音声ずれ補正方法及び装置

Country Status (1)

Country Link
JP (1) JP4801251B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7346506B2 (en) * 2003-10-08 2008-03-18 Agfa Inc. System and method for synchronized text display and audio playback
EP1736000A1 (en) * 2004-04-07 2006-12-27 Koninklijke Philips Electronics N.V. Video-audio synchronization
JP4630646B2 (ja) * 2004-11-19 2011-02-09 任天堂株式会社 息吹きかけ判別プログラム、息吹きかけ判別装置、ゲームプログラムおよびゲーム装置
WO2007049451A1 (ja) 2005-10-27 2007-05-03 National University Corporation Chiba University 映像と音声のずれ時間を、高精度かつ簡便に計測する方法および計測装置
JP5389594B2 (ja) * 2009-09-30 2014-01-15 富士フイルム株式会社 画像ファイル生成方法、そのプログラム、その記録媒体および画像ファイル生成装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09163333A (ja) * 1995-12-06 1997-06-20 Nec Corp 音声遅延制御装置
JPH1091789A (ja) * 1996-09-11 1998-04-10 Oki Electric Ind Co Ltd 単語認識装置
JPH10333695A (ja) * 1997-06-04 1998-12-18 Technol Res Assoc Of Medical & Welfare Apparatus 音声変換装置
JPH11308613A (ja) * 1998-04-22 1999-11-05 Nippon Telegr & Teleph Corp <Ntt> 映像音響同期方法および装置および映像音響同期プログラムを記録した記録媒体
JP4017748B2 (ja) * 1998-06-11 2007-12-05 日本放送協会 発話速度計測システム、方法および記録媒体
JP2000047683A (ja) * 1998-07-30 2000-02-18 Matsushita Electric Ind Co Ltd セグメンテーション補助装置及び媒体
JP3377463B2 (ja) * 1998-12-29 2003-02-17 日本放送協会 映像/音声ずれ補正システム、方法および記録媒体

Also Published As

Publication number Publication date
JP2002165153A (ja) 2002-06-07

Similar Documents

Publication Publication Date Title
JP4795919B2 (ja) 音声区間検出方法
US7680666B2 (en) Speech recognition system, speech recognition method, speech synthesis system, speech synthesis method, and program product
KR100820141B1 (ko) 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템
CN110866968A (zh) 基于神经网络生成虚拟人物视频的方法及相关设备
EP3226245A1 (en) System and method to insert visual subtitles in videos
KR20100094212A (ko) 아바타 얼굴 표정 제어장치
JP2014153663A (ja) 音声認識装置、および音声認識方法、並びにプログラム
JPH06332492A (ja) 音声検出方法および検出装置
JP2000112496A (ja) ビデオ・イメ―ジ及びビデオ・デ―タの獲得装置及び方法
CN101199208A (zh) 使用嘴唇和牙齿特征来测量音频视频同步的方法、系统和程序产品
WO2023035969A1 (zh) 语音与图像同步性的衡量方法、模型的训练方法及装置
US20130218570A1 (en) Apparatus and method for correcting speech, and non-transitory computer readable medium thereof
CN114466179B (zh) 语音与图像同步性的衡量方法及装置
JP4801251B2 (ja) 映像/音声ずれ補正方法及び装置
Prasad et al. Estimation of the invariant and variant characteristics in speech articulation and its application to speaker identification
JP2009278202A (ja) 映像編集装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2007018006A (ja) 音声合成システム、音声合成方法、音声合成プログラム
JP3377463B2 (ja) 映像/音声ずれ補正システム、方法および記録媒体
CN113939871A (zh) 讲话区间检测装置、讲话区间检测方法及讲话区间检测程序
Mannem et al. Acoustic and Articulatory Feature Based Speech Rate Estimation Using a Convolutional Dense Neural Network.
CN114494930B (zh) 语音与图像同步性衡量模型的训练方法及装置
CN114466178A (zh) 语音与图像同步性的衡量方法及装置
Yoshinaga et al. Audio-visual speech recognition using new lip features extracted from side-face images
JP4017748B2 (ja) 発話速度計測システム、方法および記録媒体
Talea et al. Automatic visual speech segmentation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070914

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110314

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110329

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110419

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110617

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110712

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110805

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140812

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4801251

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term