JP4065961B2 - 映像と音声のずれ時間を、高精度かつ簡便に計測する方法および計測装置 - Google Patents

映像と音声のずれ時間を、高精度かつ簡便に計測する方法および計測装置 Download PDF

Info

Publication number
JP4065961B2
JP4065961B2 JP2007513550A JP2007513550A JP4065961B2 JP 4065961 B2 JP4065961 B2 JP 4065961B2 JP 2007513550 A JP2007513550 A JP 2007513550A JP 2007513550 A JP2007513550 A JP 2007513550A JP 4065961 B2 JP4065961 B2 JP 4065961B2
Authority
JP
Japan
Prior art keywords
time
audio signal
digital
video signal
digital audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007513550A
Other languages
English (en)
Other versions
JPWO2007049451A1 (ja
Inventor
宏明 池田
玲子 岩井
Original Assignee
国立大学法人 千葉大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立大学法人 千葉大学 filed Critical 国立大学法人 千葉大学
Application granted granted Critical
Publication of JP4065961B2 publication Critical patent/JP4065961B2/ja
Publication of JPWO2007049451A1 publication Critical patent/JPWO2007049451A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N17/004Diagnosis, testing or measuring for television systems or their details for digital television systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Television Receiver Circuits (AREA)

Description

本発明は、時間窓周波数領域で信号処理することにより、ディジタル映像とそれに付随するディジタル音声のずれ時間を、高精度かつ簡便に計測する方法および計測装置に関する。
近年、映像や音声をディジタル信号に置き変えて送信するディジタル方式が注目されており、実用・普及化が進みつつある。従来のアナログ方式と比べて、データ処理によりプログラム編集、ポストプロダクションが容易にでき、必要に応じてデータ圧縮が可能になり、この結果、各種品質のプログラムの制作が可能となる。記録媒体はアナログ式ビデオテープから、パーソナルコンピュータ内蔵ハードディスク装置やDVDになる。また、伝送媒体も従来のアナログ方式と比べて、インターネットによる配送になるので、全国どこの地域でも、テレビ画像が二重写しになる「ゴースト」もなく、欲しい情報を簡単に入手でき、視聴者参加の放送番組も試行されている。
しかし、記録媒体内のテレビ情報を再現する装置内では、ディジタル映像とディジタル音声が別々に処理されるため、再現映像とそれに伴った再現音声の時間的なずれがより問題になる。また、インターネットプロトコルによるパケット伝送においては、多数のルータやネットワーク運用センターを経由して配送されるため、記録媒体内のデジタルテレビ情報に加わる不確定性が存在する。このため、国際連合電気通信諮問委員会(ITU)や国際電気標準会議(IEC)では、デジタルテレビに対応した、より高精度のずれ時間測定法の必要性が認識されている。一方、従来、ハイビジョン、NTSC、PALなどアナログ形態の信号処理では、映像と音声のずれの検出・補正のため、例えば、以下のような方法が提案されている。
(1)従来技術1(特許文献1)
動画像とそれに付随する音声との間のずれを調整するために、動画像とそれに付随する音声のそれぞれに、レファレンス信号を挿入した、特殊な信号形態を対象にした技術が開示されている。
(2)従来技術2(特許文献2)
動画像とそれに付随する音声との間のずれを補正するために、ハイビジョン、NTSC、PALなどアナログ形態の信号を対象にした技術が開示されている。
(3)従来技術3(特許文献3)
動画像とそれに付随する音声との間のずれを補正するために、ハイビジョン、NTSC、PALなどアナログ形態の信号を対象にした従来技術1を改良する技術が開示されている。
(4)従来技術4(特許文献4)
動画像とそれに伴った音声との間のずれを補正するために、ハイビジョン、NTSC、PALなどアナログ形態の信号を対象にした従来技術1及び従来技術2と異なる技術が開示されている。
特開平7−38771号 特開2000−196917号 特開2002−165153号 特開2003−158643号
しかしながら、これらの従来の方法では、いずれも時間領域を用いており、ディジタル映像とそれに伴ったディジタル音声の時間的ずれを測定・補正するには以下の課題があり、簡易な構成で、高精度なディジタル映像とそれに付随するディジタル音声のずれ時間を計測することは困難である。
(1)高精度の測定
ずれ時間の測定精度は、映像フレーム時間間隔の制約を受けるが、この制約を受けないより高精度の実現が求められている。
(2)相互相関などの統計処理
映像とそれに伴った音声の時間的なずれには、統計的な揺らぎが有り得るが、ずれ時間を高精度に計測するための両タイミングに関する相互相関、相互共分散などの統計処理の適用が求められる。
(3)周波数領域での同定
時間的に変化する映像とそれに伴った音声の短時間フーリエ変換による、周波数領域でのずれ時間最確値の高精度な同定をする必要がある。
(4)ディジタルデータ対応
対象とするビデオ信号は、従来方式のハイビジョン、NTSC、PALばかりではなく、特に、インターネットなどディジタルネットワーク対応のビデオ形式、コンピュータ内蔵ハードディスク、DVDなど記録媒体に記録されたビデオ形式など、ディジタルデータに対応する必要がある。
(5)簡易性
ディジタルビデオは、PDP、 LCDなどの固定解像度大型表示装置、パーソナルコンピュータのモニタなどに再現されるが、ディジタル映像とそれに伴ったディジタル音声の時間的ずれの計測結果に基づいた補正を簡易に実現する必要がある。
本発明は、かかる事情に鑑みなされたものであって、上記課題を解決して、映像と音声のずれ時間を、高精度かつ簡便に計測する方法、特に、ディジタル映像信号とそれに伴ったディジタル音声信号の時間的なずれを測定・補正するのに最適な映像と音声のずれ時間を、高精度かつ簡便に計測する方法、プログラム、プログラムを記憶した記録媒体、プログラムによりディジタル映像信号とディジタル音声信号との間の時間的なずれを計測または補正する装置、ディジタル映像信号とディジタル音声信号との間の時間的なずれを計測または補正する装置を備えたディジタル映像信号およびディジタル音声信号処理装置を提供する。
そこで、本発明者は、上記目的を達成するため、鋭意研究した結果、次の点に着目して、以下のように、本発明を構成する。
(着目点)
従来、時間領域であったものを、本発明においては、時間窓周波数領域において、時系列周波数スペクトラムを対象に、統計的にずれ時間を同定する。即ち、以下のように本発明を構成する。
(発明の構成)
(1)請求項1に係る発明
請求項1の発明においては、ディジタル映像信号を構成するフレームについて、フレーム間補間により、計測に必要とする時間分解能に相当する時刻毎の内挿フレームを求め基本映像信号とし、基本映像信号を構成する各フレームの振幅領域差分を求め、各差分フレームの二次元フーリエ変換により空間周波数スペクトラムを求め、該空間周波数スペクトラムの低域成分を取り出し、該低域成分を基本映像信号の時系列周波数とみなし、ディジタル映像信号に伴うディジタル音声信号について、信号処理により高周波成分を除去する低域フィルタを通し、計測に必要とする時間分解能に相当する時刻毎のサンプルとなし得るように、短時間窓一次元フーリエ変換により、周波数スペクトラムを求め、該周波数スペクトラムから、低域周波数スペクトラムを取り出し、該低域成分を基本音声信号の時系列周波数とみなし、
基本映像信号の時系列周波数と基本音声信号の時系列周波数とに対して、相互相関係数を計算し、
該相互相関係数の最大値を求め、該最大値を与える時系列サンプル数から、該ディジタル映像信号と該ディジタル音声信号のずれ時間を統計的に同定し、計測する方法に関する。
(2)請求項2 に係る発明
請求項2の発明は、請求項1の発明において、前記ディジタル映像信号を、映像フレーム間補間によりサンプリング間隔を計測時間分解能と等しくするように映像フレームを増加し、その短時間二次元フーリエ変換周波数スペクトラムから得られる情報を周波数領域の時系列信号とすることを特徴とする請求項1記載のディジタル映像信号とディジタル音声信号との間の時間的なずれを計測する方法に関する。
(3)請求項3に係る発明
請求項3の発明は、請求項1の発明において、前記ディジタル音声信号を、ディジタルフィルターにより高周波成分を除去し、請求項2記載の計測時間分解能と等しい時間窓毎の短時間一次元フーリエ変換を低周波領域ディジタル音声信号に施し、よって、現ディジタル音声信号に比べてサンプリング間隔を長くした、周波数領域の音声信号時系列を得る。それを、基本音声信号に関する情報とすることを特徴とする請求項1または2に記載のディジタル映像信号とディジタル音声信号のずれ時間を計測する方法に関する。
(4)請求項4に係る発明
請求項4の発明は、請求項1の発明において、請求項2記載の基本映像信号を、フレーム内で二次元フーリエ変換して、空間周波数成分ごとのフレーム内平均値を計算し、周波数領域における映像時系列データを生成し、請求項3記載の基本音声信号を、周波数成分ごとの時間窓内平均値を計算し、周波数領域における映像時系列データを生成し、計測時間分解能と等しい時間窓毎の2つの情報を生成し、請求項1から3いずれかに記載のディジタル映像信号とディジタル音声信号との間の時間的なずれを計測する方法に関する。
(5)請求項5に係る発明
請求項5の発明は、請求項1の発明において、請求項3に記載の基本音声信号を、計測要求時間分解能に等しい短時間窓フーリエ変換により、周波数領域における音声時系列データを抽出することを特徴とする請求項1から4いずれかに記載のディジタル映像信号とディジタル音声信号との間の時間的なずれを計測する方法に関する。
(6)請求項6に係る発明
請求項6の発明は、上記映像時系列データと上記音声時系列データの相互相関係数を計算し、
該相互相関係数の最大点を検出し、該最大点に対応したデータ位置を求めることを特徴とする請求項1から5いずれかに記載のディジタル映像信号とディジタル音声信号との間の時間的なずれを計測する。
(7)請求項7に係る発明
請求項7の発明は、上記により検出された相互相関係数の最大点とするサンプル点を、
サンプリング間隔に相当する時間から、ディジタル映像信号とディジタル音声信号との間の時間的なずれと同定することにより、請求項1から6いずれかに記載のディジタル映像信号とディジタル音声信号との間の時間的なずれを計測する方法に関する。
(8)請求項8に係る発明
請求項8の発明は、前記により同定されたディジタル映像信号とディジタル音声信号との間の時間的なずれに相当するサンプル数を、ディジタル音声に対してサンプルシフトを施し、ディジタル音声を遅延して補正することによりディジタル映像信号とディジタル音声信号との間の時間的なずれを補正する方法に関する。
(9)請求項9に係る発明
請求項9の発明においては、請求項1〜8の方法を備えたことを特徴とするプログラムである。
(10)請求項10に係る発明
請求項10の発明においては、請求項9のプログラムを記憶したことを特徴とする記録媒体である。
(11)請求項11に係る発明
請求項11の発明においては、請求項9または10のプログラムによりディジタル映像信号とディジタル音声信号との間の時間的なずれを計測または補正する装置である。
(12)請求項12に係る発明
請求項12の発明においては、前記ディジタル映像信号とディジタル音声信号との間の時間的なずれを計測または補正する装置を備えたことを特徴とするディジタル映像信号およびディジタル音声信号処理装置である。
(13)請求項13に係る発明
請求項13の発明においては、前記ディジタル映像信号およびディジタル音声信号処理装置は、ネットワークによりディジタル映像信号およびディジタル音声が入力されることを特徴とするディジタル映像信号およびディジタル音声信号処理装置である。
以上のように構成された本発明は、以下に述べるように、上記課題を解決することができる。
(1)高精度の測定
従来、ずれ時間の測定精度は、映像フレーム時間間隔の制約を受けるが、この制約を受けないより高精度で実現するため、本発明は、必要な時間分解能に相当するように映像フレーム時間間隔をフレーム間内挿により実現するので、本課題(1)を解決することができる。
(2)相互相関などの統計処理
本発明の構成により、基本映像信号と基本音声信号とから得られる、時系列データの相互相関などの統計処理をするので、本課題(2)を解決することができる。
(3)周波数領域での同定
本発明の構成により、周波数領域での同定が可能になるので、本課題(3)を解決することができる。
(4)ディジタルデータ対応
本発明の構成により、ディジタルデータ対応とするので、本課題(4)を解決することができる。
(5)簡易性
本発明の構成により、特に、特許請求の範囲10に記載の発明は、当該プログラムの主要部分をハードウェア化して、ディジタルテレビジョン受像機、ホームシアター機器、パーソナルコンピュータに実装するので、本課題(5)を解決することができる。
以下に、本発明の実施形態(以下、単に本発明という)を、図面により説明する。
本発明による実施例を、以下に示す。以下に使用する用語を説明する。発明の技術的範囲を限定するものではない。
ディジタルビデオは、ディジタル映像信号とそれに伴うディジタル音声信号を統合した信号である。
ディジタル映像信号は、ディジタルフレームの時間系列である。ディジタルフレームは、A/D変換によりカラー画像の画素をデータとしたものである。フレームと略記する。ディジタル音声信号は、A/D変換により音声信号をデータの時間系列としたものである。
次に、本発明による映像と音声のずれ時間を、高精度かつ簡便に計測する方法および計測装置を、以下に説明する。
(1)ディジタル映像信号とそれに伴ったディジタル音声信号について
例えば、ディジタル映像信号とそれに伴ったディジタル音声信号が統合されたディジタルビデオから、または、あらかじめコンピュータ可読形式のファイルとして記録されている媒体(例えば、AVI形式、DVD形式のCD等)から、ディジタル映像データとディジタル音声データとを、それぞれ分離して読み出す。実施例1では、ニュースを読むアナウンサのバストショットを想定する。ディジタル映像信号とそれに伴ったディジタル音声信号の処理と時間遅れの同定による計測処理は、本発明に係る方法を示す全体図の図1による。
(2)映像データ前処理について
映像データ前処理は、(V1)
映像フレームの読み込み、(V2)
アナウンサの口元部分の抽出、(V3)
口元部分のモノクロ画像変換、(V4)
画像の強調処理、(V5) 2次元高速フーリエ変換、(V6) フーリエ係数のフレーム内統計処理、(V7) スペクトル時系列内挿処理、(V8) 周波数領域時系列データ抽出とする。映像データ前処理の手順を図2に示す。
さらに、本発明に係る映像フレームの読み込み処理を、図3から7により、以下に、各ステップ毎に説明する。
(V1) 映像テータ入力
映像フレームの読み込みでは、ディジタル映像信号とディジタル音声信号との間の時間的なずれを計測または補正する対象部分のフレームのみを読み込む。
(V2) アナウンサの口元部分の抽出
アナウンサの口元部分の抽出は、従来技術に基づく指定部分の画像抽出によりに実現する。
(V3) 口元部分のモノクロ画像変換
上記抽出した口元部分を、モノクロ画像変換して、画素ごとの3次元カラーデータ(赤・緑・青)の線形結合により図3のように実現する。
(V4) フレーム内コントラスト強調処理
画像の強調処理は、コントラストを強調することにより図4のように行う。
(V5) フレーム内2次元フーリエ変換
ニ次元高速フーリエ変換は、上記(V4)による強調処理後の口元画像データに、一次元高速フーリエ変換を2回繰り返すことにより実現する。例を図5に示す。
(V6) フーリエ係数のフレーム内統計処理
周波数領域フレームデータに対して、フレーム内の統計処理(例えば、標準偏差の計算)を施し、フレームの特徴量を抽出する。
(V7) スペクトル時系列内挿処理
フーリエ係数の時間変化の内挿による補間処理は、空間周波数成分の低域平均のフレーム時間ごとのサンプルを元データとして、設定した時間分解能(実施例では2 ms)に相当するサンプルを得るように内挿することにより実現する。内挿後の時系列データ数をNV+1とする。図6にその例を示す。点は内挿前データである。
(V8) 周波数領域時系列データ抽出
隣接するデータの差の絶対値を計算することにより、近似導関数絶対値を求める。時系列データ数はNVとなる。これを映像データの周波数領域特徴量の時系列データとする。その例を図7に示す。
次に、本発明に係る音声データ前処理について、図8から11により、以下に、各ステップ毎に説明する。
(3)音声データ前処理
音声データ前処理は、(A1)
音声サンプルの読み込み、(A2)
音声サンプルの短時間窓1次元高速フーリエ変換、(A3) フーリエ係数の時間窓相当の時間ずれ修正、(A4) 時間差分による近似導関数の計算、(A5) 二乗平均の計算により、音声データの周波数領域特徴量の時系列データとする。音声データ前処理の手順を図8に示す。
(A1) 音声データの入力
音声サンプルの読み込みは、(2)映像データ前処理の(V1)に伴ったディジタル音声データサンプルを読み込む。その例を図9に示す。通常、ステレオからモノラルへ変換する。
(A2) 短時間窓フーリエ変換
音声サンプルの短時間窓1次元高速フーリエ変換は、短時間窓を(2)映像データ前処理(V7)における フーリエ係数の時間変化の補間処理における設定した時間分解能に等しくして、逐次時間窓を移動させながらフーリエ変換することにより、図10に例示したように実現する。
なお、ディジタル音声信号を、ディジタルフィルターにより高周波成分を除去し、請求項2記載の計測時間分解能と等しい時間窓毎の短時間一次元フーリエ変換を低周波領域ディジタル音声信号に施し、該ディジタル音声信号に比べてサンプリング間隔を長くした周波数領域の音声信号時系列を得て、該音声信号時系列を、基本音声信号の周波数領域の時系列データとすることもできる。
(A3) 時間窓ずれ補正処理
フーリエ係数の時間窓相当の時間ずれ修正は、時間窓の1/2だけ時間がずれることの補正で、時間方向における相当量のデータのシフトにより実現する。基本周波数の時系列データ数をNA+1とする。
(A4) 差分による近似導関数処理
時間差分による近似導関数の計算は、隣接するデータの差とする。
(A5) 周波数領域時系列データ抽出
二乗平均の計算は、差の二乗の平方根を計算することにより実現する。時系列データ数はNAとなる。これを音声データの周波数領域特徴量の時系列データとする。NA=NVである。その例を図11に示す。
なお、基本映像信号は、フレーム内で二次元フーリエ変換して、空間周波数成分ごとのフレーム内平均値を計算し、周波数領域における映像時系列データを生成し、基本音声信号を、周波数成分ごとの時間窓内平均値を計算し、周波数領域における音声時系列データを生成し、計測時間分解能と等しい時間窓毎の2つの情報を生成することもできる。
本発明に係る上記前処理されたディジタル映像信号とそれに伴ったディジタル音声信号におけるずれ時間の同定処理について、図12および13により以下に説明する。
(4)同定処理について
ずれ時間の同定は、上記(2)(V8)による映像データの周波数領域特徴量の時系列データと、上記(3)(A5)による音声データの周波数領域特徴量の時系列データに対して、図12に示した手順で行う。同一の長さNA=NVの映像データの周波数領域特徴量の時系列データと音声データの周波数領域特徴量の時系列データとの間の相互相関係数を計算する。以下にさらに説明する。
先ず、上記映像時系列データと上記音声時系列データの相互相関係数を計算して、該相互相関係数の最大点を検出し、該最大点に対応したデータ位置を求める。次に、検出された相互相関係数の最大点とする該サンプル点を、サンプリング間隔に相当する時間から、ディジタル映像信号とディジタル音声信号との間の時間的なずれと同定する。相互相関係数の計算は、例えば、二つのランダム系列xi,yjの相互相関系列Rxy(m)の計算を式(1)のように適用する。
ここで、*は複素共役、E{・}は期待値で、xn,ynは同時生起定常ランダム系列であり、−∞<n<+∞が想定される、しかし、実際の問題では一定時間のサンプリング(サンプリング数、N>1)を使って相互相関係数
を式(2)のように計算することになる。
(測定結果、補正)
本実施例による測定結果を図13に示す。相互相関係数が最大となるサンプルデータ移動量に相当する時間をディジタル映像信号とディジタル音声信号との間の時間的なずれと同定することによりずれ時間を計測する。相関係数0.6681(最大値)の時、音声データに対して、映像データが、−0.0227秒遅延していることが判明して、高精度に測定できることを実証した。従って、このずれ時間に相当する音声信号サンプルを遅延することにより、ディジタル映像信号とディジタル音声信号との間の時間的なずれを補正することができる。即ち、上記(4)により同定されたディジタル映像信号とディジタル音声信号との間の時間的なずれに相当するサンプル数を、ディジタル音声に対してサンプルシフトを施し、ディジタル音声を遅延して補正することによりディジタル映像信号とディジタル音声信号との間の時間的なずれを補正する。
上記前処理されたディジタル映像信号とそれに伴ったディジタル音声信号におけるずれ時間のずれを計測・補正する方法を実現するための本発明に係る装置について、以下に説明する。
(5)ハードウェア
全ての信号をあらかじめA/D変換回路でディジタル信号に変換し、記録してあるので、高性能・高速マイクロプロセッサで実現できる。データ処理量が多い高速フーリエ変換については、DSPなどの専用プロセッサを併用することができる。簡素な構成で小型化が実現できるので、放送局ばかりか取材現場や中継局あるいは受信装置においてこれを搭載することができる。
(6)効果(処理結果)
以上のように構成された本発明の方法・装置による効果について、さらに以下に説明する。
(測定精度)
測定精度に関して、公共放送局(NHK)が放送したテレビニュースをディジタルビデオ(非圧縮AVI形式)として録画して、本発明を実施した。測定精度の効果を確認するために、音声データを分離し、意図的に時間ずれを導入した音声データと映像データのずれ時間を本発明方式により同定した。この結果、ずれ時間の高精度測定を実現した。従来方法・装置では、映像フレーム時間間隔の制約を受けるが、
該周波数領域における時系列データの相互相関を統計的に同定する方法によるので、この制約を受けることがない。
(相互相関の時計処理)
相互相関などの統計処理の効果としては、映像信号の特徴抽出及び音声信号の特徴抽出に基礎統計量を使い、それにより抽出した映像信号の時系列データと音声信号の時系列データ間の統計的な相互相関量を計算することにより、両時系列データ間のずれに相当するデータサンプル量を同定できるという効果を確認した。
(周波数領域における同定)
周波数領域における同定については、時間領域におけるディジタル映像信号及びディジタル音声信号を短時間窓高速フーリエ変換することにより、映像の時間的な変化とそれに伴う音声の時間的な変化を関連した周波数の時間的な変化として捕らえことができ、その効果を確認した。
(ディジタルデータ対応)
ディジタルデータ対応については、本実施例では対象をディジタルビデオとしているものの、アナログビデオについても、(効果1)に示したように、公知の技術であるA/D変換により容易にディジタルビデオを得ることができるので、本発明の効果を減ずるものではないことを確認した。
(簡易性)
簡易性については、本発明のソフトウェアを、磁気記録、光学記録、光磁気記録あるいはメモリ等の記録媒体に記録して、汎用のパーソナルコンピュータに実装することにより、簡便に実施でき、その効果を確認した。なお、パーソナルコンピュータによる計算はデータの積和が主要なものであるから、公知の技術であるDSPなどのハードウェアで置き換えることができ、さらに、小型化、高速化できる。
(まとめ)
以上から、上記課題1、2、3、4および5を解決して、映像と音声のずれ時間を、特に、従来測定ができなかった高精度なディジタル映像とそれに伴ったディジタル音声の時間的なずれを測定できることが判明した。
さらに、本発明で用いられる他の実施例を示す。
インターネットで広範に活用されている圧縮ディジタルオーディオ・ビディオ(例えば、リアルビデオやウインドウメディア)についても、ネットワークパケットを対象にしてこれをAVIファイル形式に変換する以外は、実施例1と同様の構成である。これにより、あらかじめコンピュータ可読形式のファイルとして記録されている媒体以外の実時間のディジタル映像信号とそれに伴ったディジタル音声信号についても、同等の効果を奏する。
加えて、本発明で用いられる他の実施例を示す。
ディジタル映像信号とそれに伴ったディジタル音声信号を再現する装置(ディジタルシネマシステム、ホームシアターシステム、パーソナルコンピュータ、ゲーム機等)では、例外なくディジタル映像信号処理再現に要する時間は、ディジタル音声信号処理再現に要する時間に比べて長くなる。このため、ディジタル音声信号を遅延させるが、遅延時間を計測結果に基づいて加減することにより、高精度でディジタル映像信号とそれに伴ったディジタル音声信号を同期させることができる。この機構を再現装置に組み込む以外は、実施例1と同様の構成である。これにより、再現対象のディジタル映像信号とそれに伴ったディジタル音声信号の同期のみならず、システム全体としての正しい同期を実現するという効果を奏する。
(他の実施例に関する付記)
本発明は、上記の実施例に限定されるものではなく、発明の技術的範囲内において、様々な変更をすることができる。また、極めて高精度かつ簡易な構成で実現できるため、信号処理装置と組み合わせて、リアルタイムでの動画と音声のずれ補正、記録、再生システムが可能であるため、放送局設備ばかりか小型中継局へ設置できる。
また、ディジタルビデオカメラへ搭載できる。あるいは、高精細のプラズマディスプレイ装置に応用できる。さらには、本発明に係るディジタル映像信号とディジタル音声信号との間の時間的なずれを計測または補正する装置を備えたプロジェクターにより、ディジタルシネマシステム、インターネットを利用したホームシアターシステム、テレビ機能を有するパーソナルコンピュータなどに応用することができる。
以上説明したように、本発明は、映像と音声のずれ時間を、高精度かつ簡便に計測する方法および計測装置を提供する。簡易な構成にも関わらず、極めて高精度に、ディジタル映像信号とディジタル音声信号との間の時間的なずれを計測または補正する装置を実現できるため、上記のように、リアルタイムでディジタル映像信号とディジタル音声信号との間の時間的なずれを計測または補正する記録、通信、再生システムが可能であるため、極めて、有用である。
本発明に係る方法を示す全体図 本発明に係る映像データ前処理手順を示す図 口元部分の抽出画像(モノクロ画像)の例示 口元部分コントラスト強調処理の例示 口元画像の2次元フーリエ変換の例示 空間周波数成分の低域平均の時間的な変化 映像データの周波数領域特徴量の時系列データの例示 本発明に係る音声データ前処理手順を示す図 音声データサンプルの時間的な変化の例示 音声サンプルの短時間窓1次元高速フーリエ係数の時間的変化の例示 音声データの周波数領域特徴量の時系列データの例示 本発明に係るずれ時間の同定処理手順の図 映像データの周波数領域特徴量の時系列データと音声データの周波数領域特徴量の時系列データとの間の相互相関係数の例示

Claims (13)

  1. ディジタル映像信号とディジタル音声信号との間の時間的なずれを計測する方法において、
    映像フレームを読み込むステップと、
    該映像フレームの指定部分の画像を抽出するステップと、
    該ディジタル映像信号を構成するフレームについて、
    フレーム間補間により、計測に必要とする時間分解能に相当する時刻毎の内挿フレームを求め基本映像信号とし、該基本映像信号を構成する各フレームの振幅領域差分を求め、各差分フレームの二次元フーリエ変換により空間周波数スペクトラムを求めて、該空間周波数スペクトラムの低域成分を取り出し、該低域成分を基本映像信号の時系列周波数とみなすステップと、
    ディジタル映像信号に伴うディジタル音声信号について、
    低域フィルタを通し高周波成分を除去し、計測に必要とする時間分解能に相当する時刻毎のサンプルとなし得るように、短時間窓一次元フーリエ変換により、周波数スペクトラムを求めるステップと、
    該周波数スペクトラムから、低域周波数スペクトラムを取り出し、該低域成分を基本音声信号の時系列周波数とみなすステップと、
    以上により得られた基本映像信号の時系列周波数と基本音声信号の時系列周波数とに対して、
    相互相関係数を計算して得られた基本映像信号の周波数領域の時系列データと基本音声信号の周波数領域の時系列データとの該相互相関係数の最大値を求めるステップと、
    該最大値を与える時系列サンプル数から、該ディジタル映像信号と該ディジタル音声信号のずれ時間を統計的に同定することを特徴とするディジタル映像信号とディジタル音声信号との間の時間的なずれを計測する方法。
  2. 請求項1のディジタル映像信号とディジタル音声信号との間の時間的なずれを計測する方法において、
    前記ディジタル映像信号を、映像フレーム間補間によりサンプリング間隔を計測時間分解能と等しくするように映像フレームを増加し、
    その短時間二次元フーリエ変換周波数スペクトラムから得られる情報を、基本映像信号の周波数領域の時系列データとすることを特徴とする請求項1記載のディジタル映像信号とディジタル音声信号との間の時間的なずれを計測する方法。
  3. 請求項1記載のディジタル音声信号を、ディジタルフィルターにより高周波成分を除去し、請求項2記載の計測時間分解能と等しい時間窓毎の短時間一次元フーリエ変換を低周波領域ディジタル音声信号に施し、
    該ディジタル音声信号に比べてサンプリング間隔を長くした周波数領域の音声信号時系列を得て、
    該音声信号時系列を、基本音声信号の周波数領域の時系列データとすることを特徴とする請求項2に記載のディジタル映像信号とディジタル音声信号のずれ時間を計測する方法。
  4. 請求項1記載のディジタル映像信号とディジタル音声信号との間の時間的なずれを計測する方法において、
    基本映像信号を、フレーム内で二次元フーリエ変換して、空間周波数成分ごとのフレーム内平均値を計算し、周波数領域における映像時系列データを生成し、
    基本音声信号を、周波数成分ごとの時間窓内平均値を計算し、周波数領域における音声時系列データを生成し、
    計測時間分解能と等しい時間窓毎の2つの情報を生成することを特徴とする請求項1から3いずれかに記載のディジタル映像信号とディジタル音声信号との間の時間的なずれを計測する方法。
  5. 基本音声信号を、
    計測要求時間分解能に等しい短時間窓フーリエ変換により、周波数領域における音声時系列データを抽出することを特徴とする請求項3または4に記載のディジタル映像信号とディジタル音声信号との間の時間的なずれを計測する方法。
  6. 上記映像時系列データと上記音声時系列データの相互相関係数を計算して該相互相関係数の最大点を検出し、
    該最大点に対応したデータ位置を求めることを特徴とする請求項1から5いずれかに記載のディジタル映像信号とディジタル音声信号との間の時間的なずれを計測する方法。
  7. 請求項6により検出された相互相関係数の最大点とするサンプル点を、サンプリング間隔に相当する時間から、ディジタル映像信号とディジタル音声信号との間の時間的なずれと同定することを特徴とする請求項6に記載のディジタル映像信号とディジタル音声信号との間の時間的なずれを計測する方法。
  8. 請求項7により同定されたディジタル映像信号とディジタル音声信号との間の時間的なずれに相当するサンプル数を、ディジタル音声に対してサンプルシフトを施し、ディジタル音声を遅延して補正することによりディジタル映像信号とディジタル音声信号との間の時間的なずれを補正する方法。
  9. 請求項1から8いずれかに記載の方法をコンピュータに実行させるためのプログラム。
  10. 請求項9のプログラムを記録したコンピュータ読み取り可能な記録媒体。
  11. 請求項9のプログラムによりディジタル映像信号とディジタル音声信号との間の時間的なずれを計測または補正する装置。
  12. 請求項11に記載の計測または補正装置を有することを特徴とするディジタル映像信号およびディジタル音声信号処理装置。
  13. 請求項12に記載のディジタル映像信号およびディジタル音声信号処理装置は、ネットワークによりディジタル映像信号およびディジタル音声信号が入力されることを特徴とするディジタル映像信号およびディジタル音声信号処理装置。
JP2007513550A 2005-10-27 2006-10-06 映像と音声のずれ時間を、高精度かつ簡便に計測する方法および計測装置 Active JP4065961B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2005312111 2005-10-27
JP2005312111 2005-10-27
PCT/JP2006/320098 WO2007049451A1 (ja) 2005-10-27 2006-10-06 映像と音声のずれ時間を、高精度かつ簡便に計測する方法および計測装置

Publications (2)

Publication Number Publication Date
JP4065961B2 true JP4065961B2 (ja) 2008-03-26
JPWO2007049451A1 JPWO2007049451A1 (ja) 2009-04-30

Family

ID=37967567

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007513550A Active JP4065961B2 (ja) 2005-10-27 2006-10-06 映像と音声のずれ時間を、高精度かつ簡便に計測する方法および計測装置

Country Status (3)

Country Link
US (1) US8358375B2 (ja)
JP (1) JP4065961B2 (ja)
WO (1) WO2007049451A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8965026B2 (en) * 2011-06-10 2015-02-24 Canopy Co. Method and apparatus for remote capture of audio in a handheld device
JP5477357B2 (ja) * 2010-11-09 2014-04-23 株式会社デンソー 音場可視化システム
JP2014207642A (ja) * 2013-04-16 2014-10-30 日本放送協会 リップシンク信号送信装置、同期ずれ量推定装置および同期ずれ量推定方法
JP6343171B2 (ja) * 2014-04-18 2018-06-13 日本放送協会 受信装置
US11226396B2 (en) 2019-06-27 2022-01-18 Gracenote, Inc. Methods and apparatus to improve detection of audio signatures
GB2586985B (en) * 2019-09-10 2023-04-05 Hitomi Ltd Signal delay measurement
US11659217B1 (en) * 2021-03-29 2023-05-23 Amazon Technologies, Inc. Event based audio-video sync detection

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0738771A (ja) 1993-07-22 1995-02-07 Nippon Television Network Corp 時間差調整装置
US5430485A (en) * 1993-09-30 1995-07-04 Thomson Consumer Electronics, Inc. Audio/video synchronization in a digital transmission system
JP3347242B2 (ja) * 1995-09-11 2002-11-20 ジークレフ音響株式会社 信号遅延時間検出装置およびこの検出装置を使用した音声遅延対策モニタ装置
JP3693393B2 (ja) * 1995-10-26 2005-09-07 池上通信機株式会社 擬似雑音信号を用いた位相差調整装置
US6836295B1 (en) * 1995-12-07 2004-12-28 J. Carl Cooper Audio to video timing measurement for MPEG type television systems
JP3727736B2 (ja) * 1996-11-08 2005-12-14 日本放送協会 映像と音声の時間差検知用の映像信号・音声信号発生装置
JP3377463B2 (ja) 1998-12-29 2003-02-17 日本放送協会 映像/音声ずれ補正システム、方法および記録媒体
JP4801251B2 (ja) 2000-11-27 2011-10-26 株式会社アサカ 映像/音声ずれ補正方法及び装置
JP4313522B2 (ja) * 2001-07-30 2009-08-12 日本放送協会 リップシンク制御装置
JP2003158643A (ja) 2001-11-20 2003-05-30 Shibasoku:Kk 信号処理方法及び信号処理装置
US7499104B2 (en) * 2003-05-16 2009-03-03 Pixel Instruments Corporation Method and apparatus for determining relative timing of image and associated information
JP3738018B2 (ja) * 2003-07-08 2006-01-25 アイベックステクノロジー株式会社 信号遅延測定装置、信号遅延測定方法および信号遅延測定プログラム
ATE373389T1 (de) * 2003-07-25 2007-09-15 Koninkl Philips Electronics Nv Verfahren und einrichtung zur erzeugung und erkennung von fingerabdrücken zur synchronisierung von audio und video
KR100694060B1 (ko) * 2004-10-12 2007-03-12 삼성전자주식회사 오디오 비디오 동기화 장치 및 그 방법
KR100875592B1 (ko) * 2005-03-18 2008-12-23 후지쯔 가부시끼가이샤 영상 장치에서의 영상 신호와 음성 신호와의 동기 제어방법 및 장치
US7948558B2 (en) * 2006-09-29 2011-05-24 The Directv Group, Inc. Audio video timing measurement and synchronization

Also Published As

Publication number Publication date
US20100053340A1 (en) 2010-03-04
US8358375B2 (en) 2013-01-22
JPWO2007049451A1 (ja) 2009-04-30
WO2007049451A1 (ja) 2007-05-03

Similar Documents

Publication Publication Date Title
JP4065961B2 (ja) 映像と音声のずれ時間を、高精度かつ簡便に計測する方法および計測装置
US7948558B2 (en) Audio video timing measurement and synchronization
US8363161B2 (en) Systems, methods, and apparatus for synchronization of audio and video signals
US8542747B2 (en) Low latency cadence detection for frame rate conversion
JP4290124B2 (ja) 動き系列パターン検出
BRPI0807594A2 (pt) Dispositivo de processamento de dados, método de processamento de dados, e, meio de armazenagem
KR20030062316A (ko) 미디어 샘플을 타임코딩하기 위한 방법, 시스템 및 데이터구조
JPH0513439B2 (ja)
KR20100021574A (ko) 화상처리장치, 화상처리방법 및 프로그램
US20060061690A1 (en) Unit for and method of sharpness enchancement
KR20100004110A (ko) 화상 처리 장치, 화상 처리 방법 및 프로그램
JP6163288B2 (ja) 主観的画像品質予測値生成方法、部分劣化測定方法、映像測定装置及び部分劣化測定装置
US8319888B2 (en) Method of determining field dominance in a sequence of video frames
JP5450279B2 (ja) 映像品質客観評価装置及び方法及びプログラム
WO2021048065A1 (en) Signal delay measurement
JP3495485B2 (ja) 画像変換装置
JP2827356B2 (ja) 画像信号伝送装置及び方法
JP4766567B2 (ja) 第1のフォーマットのピクチャ・シーケンスから第2のフォーマットのピクチャ・シーケンスを構築するための、第1のフォーマットのピクチャ・シーケンスへの追加フィールドまたは追加フレームの挿入を制御する方法および装置
US5805207A (en) Moving image reproduction system providing compensation for cinematographic artifacts
US20120293711A1 (en) Image processing apparatus, method, and program
JP3738018B2 (ja) 信号遅延測定装置、信号遅延測定方法および信号遅延測定プログラム
JP2003179886A (ja) 画像処理装置および方法、記録媒体、並びにプログラム
Mason et al. Factors affecting perception of audio-video synchronization in television
JP2007519335A (ja) ビデオ圧縮エンコーダのための3:2プルダウンスイッチオフ信号の生成装置
KR20060132877A (ko) 모션 보상 시간적 보간법을 사용하여 비디오를디인터레이스하기 위한 방법 및 장치

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071211

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150