JP4065961B2

JP4065961B2 - 映像と音声のずれ時間を、高精度かつ簡便に計測する方法および計測装置

Info

Publication number: JP4065961B2
Application number: JP2007513550A
Authority: JP
Inventors: 宏明池田; 玲子岩井
Original assignee: 国立大学法人千葉大学
Priority date: 2005-10-27
Filing date: 2006-10-06
Publication date: 2008-03-26
Anticipated expiration: 2026-10-06
Also published as: US20100053340A1; US8358375B2; JPWO2007049451A1; WO2007049451A1

Description

本発明は、時間窓周波数領域で信号処理することにより、ディジタル映像とそれに付随するディジタル音声のずれ時間を、高精度かつ簡便に計測する方法および計測装置に関する。

近年、映像や音声をディジタル信号に置き変えて送信するディジタル方式が注目されており、実用・普及化が進みつつある。従来のアナログ方式と比べて、データ処理によりプログラム編集、ポストプロダクションが容易にでき、必要に応じてデータ圧縮が可能になり、この結果、各種品質のプログラムの制作が可能となる。記録媒体はアナログ式ビデオテープから、パーソナルコンピュータ内蔵ハードディスク装置やＤＶＤになる。また、伝送媒体も従来のアナログ方式と比べて、インターネットによる配送になるので、全国どこの地域でも、テレビ画像が二重写しになる「ゴースト」もなく、欲しい情報を簡単に入手でき、視聴者参加の放送番組も試行されている。

しかし、記録媒体内のテレビ情報を再現する装置内では、ディジタル映像とディジタル音声が別々に処理されるため、再現映像とそれに伴った再現音声の時間的なずれがより問題になる。また、インターネットプロトコルによるパケット伝送においては、多数のルータやネットワーク運用センターを経由して配送されるため、記録媒体内のデジタルテレビ情報に加わる不確定性が存在する。このため、国際連合電気通信諮問委員会(ITU)や国際電気標準会議(IEC)では、デジタルテレビに対応した、より高精度のずれ時間測定法の必要性が認識されている。一方、従来、ハイビジョン、ＮＴＳＣ、ＰＡＬなどアナログ形態の信号処理では、映像と音声のずれの検出・補正のため、例えば、以下のような方法が提案されている。

（１）従来技術１（特許文献１）
動画像とそれに付随する音声との間のずれを調整するために、動画像とそれに付随する音声のそれぞれに、レファレンス信号を挿入した、特殊な信号形態を対象にした技術が開示されている。
（２）従来技術２（特許文献２）
動画像とそれに付随する音声との間のずれを補正するために、ハイビジョン、ＮＴＳＣ、ＰＡＬなどアナログ形態の信号を対象にした技術が開示されている。
（３）従来技術３（特許文献３）
動画像とそれに付随する音声との間のずれを補正するために、ハイビジョン、ＮＴＳＣ、ＰＡＬなどアナログ形態の信号を対象にした従来技術１を改良する技術が開示されている。
（４）従来技術４（特許文献４）
動画像とそれに伴った音声との間のずれを補正するために、ハイビジョン、ＮＴＳＣ、ＰＡＬなどアナログ形態の信号を対象にした従来技術１及び従来技術２と異なる技術が開示されている。
特開平７−３８７７１号特開２０００−１９６９１７号特開２００２−１６５１５３号特開２００３−１５８６４３号

しかしながら、これらの従来の方法では、いずれも時間領域を用いており、ディジタル映像とそれに伴ったディジタル音声の時間的ずれを測定・補正するには以下の課題があり、簡易な構成で、高精度なディジタル映像とそれに付随するディジタル音声のずれ時間を計測することは困難である。
（１）高精度の測定
ずれ時間の測定精度は、映像フレーム時間間隔の制約を受けるが、この制約を受けないより高精度の実現が求められている。
（２）相互相関などの統計処理
映像とそれに伴った音声の時間的なずれには、統計的な揺らぎが有り得るが、ずれ時間を高精度に計測するための両タイミングに関する相互相関、相互共分散などの統計処理の適用が求められる。
（３）周波数領域での同定
時間的に変化する映像とそれに伴った音声の短時間フーリエ変換による、周波数領域でのずれ時間最確値の高精度な同定をする必要がある。
（４）ディジタルデータ対応
対象とするビデオ信号は、従来方式のハイビジョン、NTSC、PALばかりではなく、特に、インターネットなどディジタルネットワーク対応のビデオ形式、コンピュータ内蔵ハードディスク、DVDなど記録媒体に記録されたビデオ形式など、ディジタルデータに対応する必要がある。
（５）簡易性
ディジタルビデオは、PDP、 LCDなどの固定解像度大型表示装置、パーソナルコンピュータのモニタなどに再現されるが、ディジタル映像とそれに伴ったディジタル音声の時間的ずれの計測結果に基づいた補正を簡易に実現する必要がある。

本発明は、かかる事情に鑑みなされたものであって、上記課題を解決して、映像と音声のずれ時間を、高精度かつ簡便に計測する方法、特に、ディジタル映像信号とそれに伴ったディジタル音声信号の時間的なずれを測定・補正するのに最適な映像と音声のずれ時間を、高精度かつ簡便に計測する方法、プログラム、プログラムを記憶した記録媒体、プログラムによりディジタル映像信号とディジタル音声信号との間の時間的なずれを計測または補正する装置、ディジタル映像信号とディジタル音声信号との間の時間的なずれを計測または補正する装置を備えたディジタル映像信号およびディジタル音声信号処理装置を提供する。

そこで、本発明者は、上記目的を達成するため、鋭意研究した結果、次の点に着目して、以下のように、本発明を構成する。
（着目点）
従来、時間領域であったものを、本発明においては、時間窓周波数領域において、時系列周波数スペクトラムを対象に、統計的にずれ時間を同定する。即ち、以下のように本発明を構成する。

（発明の構成）
（１）請求項１に係る発明
請求項１の発明においては、ディジタル映像信号を構成するフレームについて、フレーム間補間により、計測に必要とする時間分解能に相当する時刻毎の内挿フレームを求め基本映像信号とし、基本映像信号を構成する各フレームの振幅領域差分を求め、各差分フレームの二次元フーリエ変換により空間周波数スペクトラムを求め、該空間周波数スペクトラムの低域成分を取り出し、該低域成分を基本映像信号の時系列周波数とみなし、ディジタル映像信号に伴うディジタル音声信号について、信号処理により高周波成分を除去する低域フィルタを通し、計測に必要とする時間分解能に相当する時刻毎のサンプルとなし得るように、短時間窓一次元フーリエ変換により、周波数スペクトラムを求め、該周波数スペクトラムから、低域周波数スペクトラムを取り出し、該低域成分を基本音声信号の時系列周波数とみなし、
基本映像信号の時系列周波数と基本音声信号の時系列周波数とに対して、相互相関係数を計算し、
該相互相関係数の最大値を求め、該最大値を与える時系列サンプル数から、該ディジタル映像信号と該ディジタル音声信号のずれ時間を統計的に同定し、計測する方法に関する。

（２）請求項２に係る発明
請求項２の発明は、請求項１の発明において、前記ディジタル映像信号を、映像フレーム間補間によりサンプリング間隔を計測時間分解能と等しくするように映像フレームを増加し、その短時間二次元フーリエ変換周波数スペクトラムから得られる情報を周波数領域の時系列信号とすることを特徴とする請求項１記載のディジタル映像信号とディジタル音声信号との間の時間的なずれを計測する方法に関する。

（３）請求項３に係る発明
請求項３の発明は、請求項１の発明において、前記ディジタル音声信号を、ディジタルフィルターにより高周波成分を除去し、請求項２記載の計測時間分解能と等しい時間窓毎の短時間一次元フーリエ変換を低周波領域ディジタル音声信号に施し、よって、現ディジタル音声信号に比べてサンプリング間隔を長くした、周波数領域の音声信号時系列を得る。それを、基本音声信号に関する情報とすることを特徴とする請求項１または２に記載のディジタル映像信号とディジタル音声信号のずれ時間を計測する方法に関する。

（４）請求項４に係る発明
請求項４の発明は、請求項１の発明において、請求項２記載の基本映像信号を、フレーム内で二次元フーリエ変換して、空間周波数成分ごとのフレーム内平均値を計算し、周波数領域における映像時系列データを生成し、請求項３記載の基本音声信号を、周波数成分ごとの時間窓内平均値を計算し、周波数領域における映像時系列データを生成し、計測時間分解能と等しい時間窓毎の２つの情報を生成し、請求項１から３いずれかに記載のディジタル映像信号とディジタル音声信号との間の時間的なずれを計測する方法に関する。

（５）請求項５に係る発明
請求項５の発明は、請求項１の発明において、請求項３に記載の基本音声信号を、計測要求時間分解能に等しい短時間窓フーリエ変換により、周波数領域における音声時系列データを抽出することを特徴とする請求項１から４いずれかに記載のディジタル映像信号とディジタル音声信号との間の時間的なずれを計測する方法に関する。

（６）請求項６に係る発明
請求項６の発明は、上記映像時系列データと上記音声時系列データの相互相関係数を計算し、
該相互相関係数の最大点を検出し、該最大点に対応したデータ位置を求めることを特徴とする請求項１から５いずれかに記載のディジタル映像信号とディジタル音声信号との間の時間的なずれを計測する。

（７）請求項７に係る発明
請求項７の発明は、上記により検出された相互相関係数の最大点とするサンプル点を、
サンプリング間隔に相当する時間から、ディジタル映像信号とディジタル音声信号との間の時間的なずれと同定することにより、請求項１から６いずれかに記載のディジタル映像信号とディジタル音声信号との間の時間的なずれを計測する方法に関する。

（８）請求項８に係る発明
請求項８の発明は、前記により同定されたディジタル映像信号とディジタル音声信号との間の時間的なずれに相当するサンプル数を、ディジタル音声に対してサンプルシフトを施し、ディジタル音声を遅延して補正することによりディジタル映像信号とディジタル音声信号との間の時間的なずれを補正する方法に関する。

（９）請求項９に係る発明
請求項９の発明においては、請求項１〜８の方法を備えたことを特徴とするプログラムである。
（１０）請求項１０に係る発明
請求項１０の発明においては、請求項９のプログラムを記憶したことを特徴とする記録媒体である。

（１１）請求項１１に係る発明
請求項１１の発明においては、請求項９または１０のプログラムによりディジタル映像信号とディジタル音声信号との間の時間的なずれを計測または補正する装置である。
（１２）請求項１２に係る発明
請求項１２の発明においては、前記ディジタル映像信号とディジタル音声信号との間の時間的なずれを計測または補正する装置を備えたことを特徴とするディジタル映像信号およびディジタル音声信号処理装置である。
（１３）請求項１３に係る発明
請求項１３の発明においては、前記ディジタル映像信号およびディジタル音声信号処理装置は、ネットワークによりディジタル映像信号およびディジタル音声が入力されることを特徴とするディジタル映像信号およびディジタル音声信号処理装置である。

以上のように構成された本発明は、以下に述べるように、上記課題を解決することができる。
（１）高精度の測定
従来、ずれ時間の測定精度は、映像フレーム時間間隔の制約を受けるが、この制約を受けないより高精度で実現するため、本発明は、必要な時間分解能に相当するように映像フレーム時間間隔をフレーム間内挿により実現するので、本課題（１）を解決することができる。
（２）相互相関などの統計処理
本発明の構成により、基本映像信号と基本音声信号とから得られる、時系列データの相互相関などの統計処理をするので、本課題（２）を解決することができる。
（３）周波数領域での同定
本発明の構成により、周波数領域での同定が可能になるので、本課題（３）を解決することができる。
（４）ディジタルデータ対応
本発明の構成により、ディジタルデータ対応とするので、本課題（４）を解決することができる。
（５）簡易性
本発明の構成により、特に、特許請求の範囲１０に記載の発明は、当該プログラムの主要部分をハードウェア化して、ディジタルテレビジョン受像機、ホームシアター機器、パーソナルコンピュータに実装するので、本課題（５）を解決することができる。

以下に、本発明の実施形態（以下、単に本発明という）を、図面により説明する。

本発明による実施例を、以下に示す。以下に使用する用語を説明する。発明の技術的範囲を限定するものではない。

ディジタルビデオは、ディジタル映像信号とそれに伴うディジタル音声信号を統合した信号である。
ディジタル映像信号は、ディジタルフレームの時間系列である。ディジタルフレームは、A/D変換によりカラー画像の画素をデータとしたものである。フレームと略記する。ディジタル音声信号は、A/D変換により音声信号をデータの時間系列としたものである。

次に、本発明による映像と音声のずれ時間を、高精度かつ簡便に計測する方法および計測装置を、以下に説明する。
（１）ディジタル映像信号とそれに伴ったディジタル音声信号について
例えば、ディジタル映像信号とそれに伴ったディジタル音声信号が統合されたディジタルビデオから、または、あらかじめコンピュータ可読形式のファイルとして記録されている媒体（例えば、AVI形式、DVD形式のCD等）から、ディジタル映像データとディジタル音声データとを、それぞれ分離して読み出す。実施例１では、ニュースを読むアナウンサのバストショットを想定する。ディジタル映像信号とそれに伴ったディジタル音声信号の処理と時間遅れの同定による計測処理は、本発明に係る方法を示す全体図の図１による。

（２）映像データ前処理について
映像データ前処理は、(V1)
映像フレームの読み込み、(V2)
アナウンサの口元部分の抽出、(V3)
口元部分のモノクロ画像変換、(V4)
画像の強調処理、(V5) ２次元高速フーリエ変換、(V6) フーリエ係数のフレーム内統計処理、(V7) スペクトル時系列内挿処理、(V8) 周波数領域時系列データ抽出とする。映像データ前処理の手順を図２に示す。

さらに、本発明に係る映像フレームの読み込み処理を、図３から７により、以下に、各ステップ毎に説明する。
(V1) 映像テータ入力
映像フレームの読み込みでは、ディジタル映像信号とディジタル音声信号との間の時間的なずれを計測または補正する対象部分のフレームのみを読み込む。
(V2) アナウンサの口元部分の抽出
アナウンサの口元部分の抽出は、従来技術に基づく指定部分の画像抽出によりに実現する。
(V3) 口元部分のモノクロ画像変換
上記抽出した口元部分を、モノクロ画像変換して、画素ごとの３次元カラーデータ（赤・緑・青）の線形結合により図３のように実現する。
(V4) フレーム内コントラスト強調処理
画像の強調処理は、コントラストを強調することにより図４のように行う。
(V5) フレーム内２次元フーリエ変換
ニ次元高速フーリエ変換は、上記（Ｖ４）による強調処理後の口元画像データに、一次元高速フーリエ変換を2回繰り返すことにより実現する。例を図５に示す。
(V6) フーリエ係数のフレーム内統計処理
周波数領域フレームデータに対して、フレーム内の統計処理（例えば、標準偏差の計算）を施し、フレームの特徴量を抽出する。
(V7) スペクトル時系列内挿処理
フーリエ係数の時間変化の内挿による補間処理は、空間周波数成分の低域平均のフレーム時間ごとのサンプルを元データとして、設定した時間分解能（実施例では2 ms）に相当するサンプルを得るように内挿することにより実現する。内挿後の時系列データ数をNV＋１とする。図６にその例を示す。点は内挿前データである。
(V8) 周波数領域時系列データ抽出
隣接するデータの差の絶対値を計算することにより、近似導関数絶対値を求める。時系列データ数はNVとなる。これを映像データの周波数領域特徴量の時系列データとする。その例を図７に示す。

次に、本発明に係る音声データ前処理について、図８から１１により、以下に、各ステップ毎に説明する。
（３）音声データ前処理
音声データ前処理は、(A1)
音声サンプルの読み込み、(A2)
音声サンプルの短時間窓１次元高速フーリエ変換、(A3) フーリエ係数の時間窓相当の時間ずれ修正、(A4) 時間差分による近似導関数の計算、(A5) 二乗平均の計算により、音声データの周波数領域特徴量の時系列データとする。音声データ前処理の手順を図８に示す。
(A1) 音声データの入力
音声サンプルの読み込みは、（２）映像データ前処理の(V1)に伴ったディジタル音声データサンプルを読み込む。その例を図９に示す。通常、ステレオからモノラルへ変換する。
(A2) 短時間窓フーリエ変換
音声サンプルの短時間窓１次元高速フーリエ変換は、短時間窓を（２）映像データ前処理(V7)におけるフーリエ係数の時間変化の補間処理における設定した時間分解能に等しくして、逐次時間窓を移動させながらフーリエ変換することにより、図１０に例示したように実現する。
なお、ディジタル音声信号を、ディジタルフィルターにより高周波成分を除去し、請求項２記載の計測時間分解能と等しい時間窓毎の短時間一次元フーリエ変換を低周波領域ディジタル音声信号に施し、該ディジタル音声信号に比べてサンプリング間隔を長くした周波数領域の音声信号時系列を得て、該音声信号時系列を、基本音声信号の周波数領域の時系列データとすることもできる。
(A3) 時間窓ずれ補正処理
フーリエ係数の時間窓相当の時間ずれ修正は、時間窓の1/2だけ時間がずれることの補正で、時間方向における相当量のデータのシフトにより実現する。基本周波数の時系列データ数をNA＋１とする。
(A4) 差分による近似導関数処理
時間差分による近似導関数の計算は、隣接するデータの差とする。
(A5) 周波数領域時系列データ抽出
二乗平均の計算は、差の二乗の平方根を計算することにより実現する。時系列データ数はNAとなる。これを音声データの周波数領域特徴量の時系列データとする。NA=NVである。その例を図１１に示す。
なお、基本映像信号は、フレーム内で二次元フーリエ変換して、空間周波数成分ごとのフレーム内平均値を計算し、周波数領域における映像時系列データを生成し、基本音声信号を、周波数成分ごとの時間窓内平均値を計算し、周波数領域における音声時系列データを生成し、計測時間分解能と等しい時間窓毎の２つの情報を生成することもできる。

本発明に係る上記前処理されたディジタル映像信号とそれに伴ったディジタル音声信号におけるずれ時間の同定処理について、図１２および１３により以下に説明する。
（４）同定処理について
ずれ時間の同定は、上記（２）（Ｖ８）による映像データの周波数領域特徴量の時系列データと、上記（３）（Ａ５）による音声データの周波数領域特徴量の時系列データに対して、図１２に示した手順で行う。同一の長さNA=NVの映像データの周波数領域特徴量の時系列データと音声データの周波数領域特徴量の時系列データとの間の相互相関係数を計算する。以下にさらに説明する。
先ず、上記映像時系列データと上記音声時系列データの相互相関係数を計算して、該相互相関係数の最大点を検出し、該最大点に対応したデータ位置を求める。次に、検出された相互相関係数の最大点とする該サンプル点を、サンプリング間隔に相当する時間から、ディジタル映像信号とディジタル音声信号との間の時間的なずれと同定する。相互相関係数の計算は、例えば、二つのランダム系列x_i,y_jの相互相関系列R_xy(m)の計算を式（１）のように適用する。
ここで、*は複素共役、Ｅ｛・｝は期待値で、x_n,y_nは同時生起定常ランダム系列であり、−∞＜ｎ＜＋∞が想定される、しかし、実際の問題では一定時間のサンプリング（サンプリング数、Ｎ＞１）を使って相互相関係数
を式(2)のように計算することになる。

（測定結果、補正）
本実施例による測定結果を図１３に示す。相互相関係数が最大となるサンプルデータ移動量に相当する時間をディジタル映像信号とディジタル音声信号との間の時間的なずれと同定することによりずれ時間を計測する。相関係数0.6681（最大値）の時、音声データに対して、映像データが、−0.0227秒遅延していることが判明して、高精度に測定できることを実証した。従って、このずれ時間に相当する音声信号サンプルを遅延することにより、ディジタル映像信号とディジタル音声信号との間の時間的なずれを補正することができる。即ち、上記（４）により同定されたディジタル映像信号とディジタル音声信号との間の時間的なずれに相当するサンプル数を、ディジタル音声に対してサンプルシフトを施し、ディジタル音声を遅延して補正することによりディジタル映像信号とディジタル音声信号との間の時間的なずれを補正する。

上記前処理されたディジタル映像信号とそれに伴ったディジタル音声信号におけるずれ時間のずれを計測・補正する方法を実現するための本発明に係る装置について、以下に説明する。
（５）ハードウェア
全ての信号をあらかじめA/D変換回路でディジタル信号に変換し、記録してあるので、高性能・高速マイクロプロセッサで実現できる。データ処理量が多い高速フーリエ変換については、DSPなどの専用プロセッサを併用することができる。簡素な構成で小型化が実現できるので、放送局ばかりか取材現場や中継局あるいは受信装置においてこれを搭載することができる。

（６）効果（処理結果）
以上のように構成された本発明の方法・装置による効果について、さらに以下に説明する。
（測定精度）
測定精度に関して、公共放送局（NHK）が放送したテレビニュースをディジタルビデオ（非圧縮AVI形式）として録画して、本発明を実施した。測定精度の効果を確認するために、音声データを分離し、意図的に時間ずれを導入した音声データと映像データのずれ時間を本発明方式により同定した。この結果、ずれ時間の高精度測定を実現した。従来方法・装置では、映像フレーム時間間隔の制約を受けるが、
該周波数領域における時系列データの相互相関を統計的に同定する方法によるので、この制約を受けることがない。

（相互相関の時計処理）
相互相関などの統計処理の効果としては、映像信号の特徴抽出及び音声信号の特徴抽出に基礎統計量を使い、それにより抽出した映像信号の時系列データと音声信号の時系列データ間の統計的な相互相関量を計算することにより、両時系列データ間のずれに相当するデータサンプル量を同定できるという効果を確認した。

（周波数領域における同定）
周波数領域における同定については、時間領域におけるディジタル映像信号及びディジタル音声信号を短時間窓高速フーリエ変換することにより、映像の時間的な変化とそれに伴う音声の時間的な変化を関連した周波数の時間的な変化として捕らえことができ、その効果を確認した。

（ディジタルデータ対応）
ディジタルデータ対応については、本実施例では対象をディジタルビデオとしているものの、アナログビデオについても、（効果１）に示したように、公知の技術であるA/D変換により容易にディジタルビデオを得ることができるので、本発明の効果を減ずるものではないことを確認した。

（簡易性）
簡易性については、本発明のソフトウェアを、磁気記録、光学記録、光磁気記録あるいはメモリ等の記録媒体に記録して、汎用のパーソナルコンピュータに実装することにより、簡便に実施でき、その効果を確認した。なお、パーソナルコンピュータによる計算はデータの積和が主要なものであるから、公知の技術であるDSPなどのハードウェアで置き換えることができ、さらに、小型化、高速化できる。

（まとめ）
以上から、上記課題１、２、３、４および５を解決して、映像と音声のずれ時間を、特に、従来測定ができなかった高精度なディジタル映像とそれに伴ったディジタル音声の時間的なずれを測定できることが判明した。

さらに、本発明で用いられる他の実施例を示す。
インターネットで広範に活用されている圧縮ディジタルオーディオ・ビディオ（例えば、リアルビデオやウインドウメディア）についても、ネットワークパケットを対象にしてこれをAVIファイル形式に変換する以外は、実施例１と同様の構成である。これにより、あらかじめコンピュータ可読形式のファイルとして記録されている媒体以外の実時間のディジタル映像信号とそれに伴ったディジタル音声信号についても、同等の効果を奏する。

加えて、本発明で用いられる他の実施例を示す。
ディジタル映像信号とそれに伴ったディジタル音声信号を再現する装置（ディジタルシネマシステム、ホームシアターシステム、パーソナルコンピュータ、ゲーム機等）では、例外なくディジタル映像信号処理再現に要する時間は、ディジタル音声信号処理再現に要する時間に比べて長くなる。このため、ディジタル音声信号を遅延させるが、遅延時間を計測結果に基づいて加減することにより、高精度でディジタル映像信号とそれに伴ったディジタル音声信号を同期させることができる。この機構を再現装置に組み込む以外は、実施例１と同様の構成である。これにより、再現対象のディジタル映像信号とそれに伴ったディジタル音声信号の同期のみならず、システム全体としての正しい同期を実現するという効果を奏する。

（他の実施例に関する付記）
本発明は、上記の実施例に限定されるものではなく、発明の技術的範囲内において、様々な変更をすることができる。また、極めて高精度かつ簡易な構成で実現できるため、信号処理装置と組み合わせて、リアルタイムでの動画と音声のずれ補正、記録、再生システムが可能であるため、放送局設備ばかりか小型中継局へ設置できる。

また、ディジタルビデオカメラへ搭載できる。あるいは、高精細のプラズマディスプレイ装置に応用できる。さらには、本発明に係るディジタル映像信号とディジタル音声信号との間の時間的なずれを計測または補正する装置を備えたプロジェクターにより、ディジタルシネマシステム、インターネットを利用したホームシアターシステム、テレビ機能を有するパーソナルコンピュータなどに応用することができる。

以上説明したように、本発明は、映像と音声のずれ時間を、高精度かつ簡便に計測する方法および計測装置を提供する。簡易な構成にも関わらず、極めて高精度に、ディジタル映像信号とディジタル音声信号との間の時間的なずれを計測または補正する装置を実現できるため、上記のように、リアルタイムでディジタル映像信号とディジタル音声信号との間の時間的なずれを計測または補正する記録、通信、再生システムが可能であるため、極めて、有用である。

本発明に係る方法を示す全体図本発明に係る映像データ前処理手順を示す図口元部分の抽出画像（モノクロ画像）の例示口元部分コントラスト強調処理の例示口元画像の2次元フーリエ変換の例示空間周波数成分の低域平均の時間的な変化映像データの周波数領域特徴量の時系列データの例示本発明に係る音声データ前処理手順を示す図音声データサンプルの時間的な変化の例示音声サンプルの短時間窓１次元高速フーリエ係数の時間的変化の例示音声データの周波数領域特徴量の時系列データの例示本発明に係るずれ時間の同定処理手順の図映像データの周波数領域特徴量の時系列データと音声データの周波数領域特徴量の時系列データとの間の相互相関係数の例示

Claims

ディジタル映像信号とディジタル音声信号との間の時間的なずれを計測する方法において、
映像フレームを読み込むステップと、
該映像フレームの指定部分の画像を抽出するステップと、
該ディジタル映像信号を構成するフレームについて、
フレーム間補間により、計測に必要とする時間分解能に相当する時刻毎の内挿フレームを求め基本映像信号とし、該基本映像信号を構成する各フレームの振幅領域差分を求め、各差分フレームの二次元フーリエ変換により空間周波数スペクトラムを求めて、該空間周波数スペクトラムの低域成分を取り出し、該低域成分を基本映像信号の時系列周波数とみなすステップと、
ディジタル映像信号に伴うディジタル音声信号について、
低域フィルタを通し高周波成分を除去し、計測に必要とする時間分解能に相当する時刻毎のサンプルとなし得るように、短時間窓一次元フーリエ変換により、周波数スペクトラムを求めるステップと、
該周波数スペクトラムから、低域周波数スペクトラムを取り出し、該低域成分を基本音声信号の時系列周波数とみなすステップと、
以上により得られた基本映像信号の時系列周波数と基本音声信号の時系列周波数とに対して、
相互相関係数を計算して得られた基本映像信号の周波数領域の時系列データと基本音声信号の周波数領域の時系列データとの該相互相関係数の最大値を求めるステップと、
該最大値を与える時系列サンプル数から、該ディジタル映像信号と該ディジタル音声信号のずれ時間を統計的に同定することを特徴とするディジタル映像信号とディジタル音声信号との間の時間的なずれを計測する方法。
請求項１のディジタル映像信号とディジタル音声信号との間の時間的なずれを計測する方法において、
前記ディジタル映像信号を、映像フレーム間補間によりサンプリング間隔を計測時間分解能と等しくするように映像フレームを増加し、
その短時間二次元フーリエ変換周波数スペクトラムから得られる情報を、基本映像信号の周波数領域の時系列データとすることを特徴とする請求項１記載のディジタル映像信号とディジタル音声信号との間の時間的なずれを計測する方法。
請求項１記載のディジタル音声信号を、ディジタルフィルターにより高周波成分を除去し、請求項２記載の計測時間分解能と等しい時間窓毎の短時間一次元フーリエ変換を低周波領域ディジタル音声信号に施し、
該ディジタル音声信号に比べてサンプリング間隔を長くした周波数領域の音声信号時系列を得て、
該音声信号時系列を、基本音声信号の周波数領域の時系列データとすることを特徴とする請求項２に記載のディジタル映像信号とディジタル音声信号のずれ時間を計測する方法。
請求項１記載のディジタル映像信号とディジタル音声信号との間の時間的なずれを計測する方法において、
基本映像信号を、フレーム内で二次元フーリエ変換して、空間周波数成分ごとのフレーム内平均値を計算し、周波数領域における映像時系列データを生成し、
基本音声信号を、周波数成分ごとの時間窓内平均値を計算し、周波数領域における音声時系列データを生成し、
計測時間分解能と等しい時間窓毎の２つの情報を生成することを特徴とする請求項１から３いずれかに記載のディジタル映像信号とディジタル音声信号との間の時間的なずれを計測する方法。
基本音声信号を、
計測要求時間分解能に等しい短時間窓フーリエ変換により、周波数領域における音声時系列データを抽出することを特徴とする請求項３または４に記載のディジタル映像信号とディジタル音声信号との間の時間的なずれを計測する方法。
上記映像時系列データと上記音声時系列データの相互相関係数を計算して該相互相関係数の最大点を検出し、
該最大点に対応したデータ位置を求めることを特徴とする請求項１から５いずれかに記載のディジタル映像信号とディジタル音声信号との間の時間的なずれを計測する方法。
請求項６により検出された相互相関係数の最大点とするサンプル点を、サンプリング間隔に相当する時間から、ディジタル映像信号とディジタル音声信号との間の時間的なずれと同定することを特徴とする請求項６に記載のディジタル映像信号とディジタル音声信号との間の時間的なずれを計測する方法。
請求項７により同定されたディジタル映像信号とディジタル音声信号との間の時間的なずれに相当するサンプル数を、ディジタル音声に対してサンプルシフトを施し、ディジタル音声を遅延して補正することによりディジタル映像信号とディジタル音声信号との間の時間的なずれを補正する方法。
請求項１から８いずれかに記載の方法をコンピュータに実行させるためのプログラム。
請求項９のプログラムを記録したコンピュータ読み取り可能な記録媒体。
請求項９のプログラムによりディジタル映像信号とディジタル音声信号との間の時間的なずれを計測または補正する装置。
請求項１１に記載の計測または補正装置を有することを特徴とするディジタル映像信号およびディジタル音声信号処理装置。
請求項１２に記載のディジタル映像信号およびディジタル音声信号処理装置は、ネットワークによりディジタル映像信号およびディジタル音声信号が入力されることを特徴とするディジタル映像信号およびディジタル音声信号処理装置。