JP2022077231A

JP2022077231A - 音響処理装置、音響処理方法、およびプログラム

Info

Publication number: JP2022077231A
Application number: JP2020187987A
Authority: JP
Inventors: 正伸船越; Masanobu Funakoshi
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-11-11
Filing date: 2020-11-11
Publication date: 2022-05-23
Also published as: US20220150384A1

Abstract

【課題】再生速度の変化による映像と音響との同期の精度の低下を抑制可能にする。【解決手段】音響処理装置は、映像タイムコードと再生速度とを含む情報を受信する情報受信手段（１）と、音響信号の断片を時刻と組にして蓄積する蓄積部からタイムコードに相当する時刻の音響信号を読み出す読出し手段（３）と、その音響信号に対して映像の再生速度に応じてタイムストレッチ処理を行う処理手段（４）と、読出し手段が出力する音響信号の時刻情報と処理手段が出力する音響信号の時刻情報とを生成する生成手段（８，９）と、音響信号を出力する出力手段（６）と、を有し、生成手段は、音響信号の断片の先頭サンプル時刻と再生速度とを組にした情報を、断片の数だけ表にした時刻情報を生成し、読出し手段は、読み出した音響信号を時刻情報とともに処理手段に出力し、処理手段は、タイムストレッチ処理した音響信号を時刻情報をとともに出力手段に出力する。【選択図】図１

Description

本発明は、音響信号を生成する技術に関する。

映像に音響を付加して再生する場合に、映像の内容と音の出力のタイミングとが合うように、映像と音響の同期をとる技術がある。特許文献１では、映像・音響処理装置において、入力部が、映像もしくは音響の各処理部の要求によって、それらのデータが入力された時刻と組にした映像・音響データを各処理部に出力することで、映像と音響を同期させる技術が開示されている。

特開２００７－１１０７４９号公報

映像と音響の同期を取るシステムにおいて、映像の再生速度が変化する場合、映像の再生速度に合わせて音響の再生速度も変更する必要がある。しかしながら、特許文献１の方法では、映像の再生速度の変化に応じた音響信号の時刻を精度よく取得することが困難となる場合がある。この結果、映像と音響との同期の精度が低下するという問題がある。

本発明は、再生速度の変化による映像と音響との同期の精度の低下を抑制することを目的とする。

本発明の音響処理装置は、映像のタイムコードと再生速度とを含む情報を受信する情報受信手段と、音響信号の断片を時刻と組にして蓄積する蓄積部から、前記情報受信手段が受信した前記タイムコードに相当する時刻の音響信号を読み出す読出し手段と、前記情報受信手段が受信した前記再生速度に応じて、前記読出し手段が前記読み出した音響信号に対して、タイムストレッチ処理を行う処理手段と、前記読出し手段が出力する音響信号の時刻情報と、前記処理手段が出力する音響信号の時刻情報とを生成する生成手段と、前記処理手段が出力した音響信号を出力する出力手段と、を有し、前記生成手段は、前記音響信号の断片の先頭サンプル時刻と当該音響信号に対する再生速度とを組にした情報を、前記断片の数だけ表にした前記時刻情報を生成し、前記読出し手段は、前記読み出した前記音響信号について前記生成手段が生成した前記時刻情報を、前記音響信号とともに前記処理手段に出力し、前記処理手段は、前記タイムストレッチ処理した前記音響信号について前記生成手段が生成した前記時刻情報を、前記音響信号とともに前記出力手段に出力することを特徴とする。

本発明によれば、再生速度の変化による映像と音響との同期の精度の低下を抑制可能になる。

第一実施形態の音響処理装置の一構成例を示す図である。仮想カメラ情報のデータ構成を示す図である。時刻情報テーブルのデータ構成を示す図である。音響処理装置のハードウェア構成を示す図である。音響処理のフローチャートである。音響信号読出し処理のフローチャートである。タイムストレッチ処理のフローチャートである。音響信号出力処理のフローチャートである。同期ずれ検知処理のフローチャートである。第二実施形態の音響処理装置の一構成例を示す図である。遅延処理のフローチャートである。先頭要素ポインタの説明に用いる図である。第二実施形態における同期ずれ検知処理のフローチャートである。

以下、本発明の実施形態を、添付の図面に基づいて詳細に説明する。なお、以下の実施形態において示す構成は一例にすぎず、本発明は図示された構成に限定されるものではない。また実施形態において同一の構成または処理については、同じ参照符号を付して説明する。

本実施形態では、ＣＧオブジェクトなどによって構築される仮想的な空間に仮想的なカメラ（以下、仮想カメラという）を配置することにより得られる自由視点映像に音響を付加する構成について説明する。なお、本実施形態における自由視点映像は、仮想視点映像とも呼ばれるものであり、ユーザにより手動で、あるいは、装置等により自動で仮想カメラの位置及び姿勢等が指定されることにより生成される映像である。また、本実施形態においては、自由視点映像に付加される音響信号を、自由視点音響という。
まず、本実施形態に係る音響処理装置について説明する前に、映像と音響を同期させる際に考慮すべき事項について説明する。
自由視点音響を生成するシステムにおいて、映像に見合う音響を生成するためには、映像信号の時刻情報の把握と共に、各種処理が施される音響信号の時刻情報をも把握する必要がある。例えば、仮想カメラの位置の座標に応じて、音像の定位方向や音場の方向などを変化させる処理を行う場合、処理対象の音響信号の時刻に合致する仮想カメラ座標を取得する必要がある。また、映像信号と音響信号の各々に対して行われる処理の違いにより、処理遅延に差が生じるため、映像と音響を同期再生する場合には、再生する映像信号と音響信号の双方の時刻を把握する必要がある。つまり音響信号に対して各処理を行う際には、音響信号の時刻を取得する必要がある。そして、再生される映像に、音響を同期させて再生するためには、映像信号と音響信号の双方の時刻を正確に把握した上で、音響再生速度を変更する必要がある。

ここで、再生速度変更に対する音響信号の処理として、一般的には、リサンプリング処理を基本とするタイムストレッチ処理が行われている。しかしながら、リサンプリング処理を行った場合、処理結果として得られる音響信号の１サンプルに対する時間長が変化してしまうことになる。前述した特許文献１の技術では一定速度の再生のみを考慮しており、再生速度が時間とともに変動する場合には、１サンプルに対する時間長が変化するため、時刻のみを送付しても再生速度変更後のデータに対する正確な時刻が計算できない。また、映像・音響システムにおける再生速度指示は映像フレームに対して行われる場合がほとんどであり、リサンプリング処理のサンプル長とは合致しない場合がある。そのため、後続の処理において、タイムストレッチ処理後の音響信号から任意の断片を取り出した時に、時間長が異なる複数種のサンプルデータが混在することになる。これらのことから、映像と音響の同期を取るシステムにおいて、再生速度が時々刻々と変化するような場合、前述した従来の手法では音響信号の正確な時刻を取得できない。
そこで本実施形態の音響処理装置は、時刻と再生速度を組にした要素を複数含めて表にした時刻情報（以下、時刻情報テーブルとする）を、音響信号の断片に付与することにより、処理対象の音響信号の正確な時刻を把握できるようにする。
以下、本実施形態における音響処理装置の構成および処理について詳細に説明する。

＜第一実施形態＞
図１は、第一実施形態に係る音響処理装置の機能構成例を示した図である。
図１において、情報受信部１は、不図示の情報処理装置等において生成された仮想カメラ情報を逐次受信（取得）し、仮想カメラ情報の中から映像のタイムコードを抽出して信号読出し部３へ出力する。本実施形態において、仮想カメラ情報とは、仮想カメラが仮想的に撮像して得られる映像の１フレームに一対一で対応する各種情報をまとめたデータである。

図２は、本実施形態に係る仮想カメラ情報の詳細なデータ構造例を示した図である。
図２に示すように、仮想カメラ情報は、フレーム連番、タイムコード、仮想カメラ方向、仮想カメラ画角、仮想カメラ座標、および再生速度からなる。このうち、フレーム連番は、映像フレームの順番を示す番号を指定する情報である。タイムコードは、仮想カメラ情報の時刻を示す情報である。仮想カメラ方向、仮想カメラ画角、および仮想カメラ座標は、一つのフレームにおける、仮想カメラの方向、画角、および座標を示す情報である。再生速度は、映像のフレームを再生する速度を示す情報である。なお本実施形態では、フレーム連番とタイムコードを別の項目として取り扱う。こうすることにより、タイムコードが同じでも、異なる仮想カメラの方向、画角、座標を持たせた別のカメラ情報を、別のフレームとして取り扱うことができる。これにより、繰り返し再生や時刻を戻して再度再生を行う場合などに、仮想カメラの状態を変えて映像、音響の生成、再生を行うことができる。

図１の説明に戻る。蓄積部２は、既定の時間長で断片化された音響信号に対して、先頭サンプルの時刻を示す情報を付与したデータ（音響信号データとする）が格納される。本実施形態において、音響信号は複数のチャンネルからなり、蓄積部２には、同じ時間区間に対する全ての音響信号チャンネルが一つのデータにまとめて格納されるものとする。なお、チャンネル毎に個別のデータとして格納されてもよく、本発明の主旨を逸脱しない範囲において適用できる。

信号読出し部３は、情報受信部１が仮想カメラ情報から抽出したタイムコードに相当する時刻の音響信号を、蓄積部２から検索して読出し、その読出した音響信号を内部出力バッファに格納する。また、信号読出し部３は、内部出力バッファに格納した音響信号の時刻と再生速度の組からなる情報を、時刻情報生成部８に出力する。
時刻情報生成部８は、信号読出し部３から得た情報に基づいて後述する時刻情報テーブルを生成して、信号読出し部３に出力する。そして、信号読出し部３は、その取得した時刻情報テーブルを、内部出力バッファに格納された音響信号とともに、タイムストレッチ部４へ出力する。本実施形態において、時刻情報テーブルとは、音響処理装置の各構成要素において、処理対象の音響信号に対する時刻関連情報をまとめて表にしたデータである。図３は時刻情報テーブル３０の一構成例を示した図である。時刻情報テーブル３０は、このテーブルのデータの状態を示す一つのフラグ（タイムストレッチ処理済フラグ３１）、サンプル時刻３２、再生速度３３、およびサンプル長３４の三つを組にした要素を複数格納する構成のテーブルである。

タイムストレッチ処理済フラグ３１は、時刻情報テーブル３０に含まれるサンプル時刻が、後述するタイムストレッチ処理以前のものか、以後のものかを示すフラグである。当該タイムストレッチ処理済フラグ３１の情報は、タイムストレッチ処理前である場合にはＯｆｆ（例えば０）になされ、一方、タイムストレッチ処理後である場合にはＯｎ（例えば１）になされる。本実施形態の場合、前述したようにリサンプリングを前提としたタイムストレッチ処理を行う。よって、タイムストレッチ処理の前後において、１サンプル当たりの時間長が異なってくる。例えば、本実施形態の音響処理装置で既定されている音響信号のサンプルレートをｆｓ［Ｈｚ］とし、再生速度２．０倍でタイムストレッチ処理を行うとする。この場合、１サンプル当たりの時間長は、タイムストレッチ処理前では１／ｆｓ［ｓｅｃ］であるが、タイムストレッチ処理後では２．０／ｆｓ［ｓｅｃ］となる。本実施形態において、タイムストレッチ処理済フラグ３１は、この状態の識別を行うための情報であり、ＯｎまたはＯｆｆによって時刻の計算方法を変える必要が生じる。

サンプル時刻３２は、音響信号の断片の先頭サンプルの時刻である。一つのサンプル時刻３２は、時、分、秒、ミリ秒、および余剰サンプル数から構成される。このうち、時、分、秒は、通常の時刻と同様の値が格納される。ミリ秒は、１０００分の１秒単位の値が整数で格納される。余剰サンプル数は、１０００分の１秒以下の時刻をサンプル数で示した値である。例えば、４８ｋＨｚのサンプリングレートの音響信号で再生速度が１．０の場合、０～４７の範囲の整数値が余剰サンプル数を示す値として格納される。
再生速度３３は、音響信号の断片に指定された再生速度倍率であり、例えば、通常再生の場合には１．０、倍速再生の場合には２．０が格納される。
サンプル長３４は、この音響信号の断片の１チャンネル当たりのサンプル長である。

図１の説明に戻る。タイムストレッチ部４は、信号読出し部３から出力された音響信号に対してタイムストレッチ処理を行う。詳細は後述するが、本実施形態の場合、タイムストレッチ部４は、信号読出し部３から出力された時刻情報テーブルと、後述するずれ検知部５が出力する時刻ずれ量とに基づいて、音響信号にタイムストレッチ処理を施す。そしてタイムストレッチ部４は、タイムストレッチ処理後の音響信号を内部出力バッファに格納する。またタイムストレッチ部４は、内部出力バッファに格納した音響信号の時刻と再生速度の組からなる情報を、時刻情報生成部９に出力する。
時刻情報生成部９は、タイムストレッチ部４から得られた情報を基に時刻情報テーブルを生成（再構成）して、タイムストレッチ部４に出力する。そしてタイムストレッチ部４は、取得した時刻情報テーブルを、内部出力バッファに格納されたタイムストレッチ処理後の音響信号とともに、信号出力部６へ出力する。

信号出力部６は、タイムストレッチ部４から出力されたデジタル信号である音響信号をアナログ音響信号に変換し、適宜増幅してスピーカー７に出力する。また、信号出力部６は、タイムストレッチ部４から取得した時刻情報テーブルに基づき、再生音響時刻を算出し、その再生音響時刻情報をずれ検知部５へ出力する。なお、再生音響の時刻情報とは、信号出力部６がスピーカー７に出力する音の時刻の情報である。

ずれ検知部５は、不図示の情報処理装置等から再生映像タイムコードを受信し、再生映像タイムコードに相当する時刻情報と、信号出力部６から取得した再生音響時刻情報とを比較し、それらの時刻のずれ量を検知する。そして、ずれ検知部５は、その検出した時刻ずれ量を示す情報を、制御信号としてタイムストレッチ部４に出力する。これにより、タイムストレッチ部４では、前述したように、信号読出し部３から出力された時刻情報テーブルと、ずれ検知部５が出力する時刻ずれ量に応じた制御信号とに基づいたタイムストレッチ処理を、音響信号に施すことができる。
スピーカー７は、信号出力部６から出力されたアナログ音響信号を音に変換して出力する。

図４は、図１で示した音響処理装置の機能構成をソフトウェアプログラムとして実施するためのハードウェア構成例を示した図である。
図４において、入出力部１０１は、不図示の情報処理装置等の外部装置から仮想カメラ情報と再生映像タイムコードの入力を受け付け、バス１０９を介して適宜ＣＰＵ１０２の指示に従って他の構成要素に送出する。
ＣＰＵ１０２は、ＲＯＭ１０７や外部記憶部１０４からプログラムを読み出してＲＡＭ１０３に展開して実行することでバス１０９を介して他の構成要素を制御し、またＲＡＭ１０３にデータを随時読み書きして各種計算を行う。本実施形態の場合、ＣＰＵ１０２は、音響処理プログラムを実行することによって、図１に示した音響処理装置の各機能および各処理を実現する。なお音響処理装置は、ＣＰＵ１０２とは異なる１又は複数の専用のハードウェアを有し、ＣＰＵ１０２による処理の少なくとも一部を専用のハードウェアが実行してもよい。専用のハードウェアの例としては、ＡＳＩＣ（特定用途向け集積回路）、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）、およびＤＳＰ（デジタルシグナルプロセッサ）などがある。

外部記憶部１０４は、例えばハードディスクドライブやソリッドステートドライブ等で構成される。外部記憶部１０４には、本実施形態に係る音響処理プログラムや長期蓄積されるデータを格納している。図１に示した蓄積部２の機能も、外部記憶部１０４によって実現される。
ＲＯＭ１０７は、例えば本ハードウェア装置を起動、終了するためのプログラムや、基本的な入出力を制御するプログラムなど、変更を必要としない固定的なプログラムや固定パラメータを格納しており、必要な時にＣＰＵ１０２からアクセスされる。なお、本実施形態の音響処理に係るプログラムは、ＲＯＭ１０７に格納されていてもよい。
ＲＡＭ１０３は、ＲＯＭ１０７や外部記憶部１０４から供給されるプログラムやデータ、通信ＩＦ１０８を介して外部から供給されるデータなどを一時記憶する。またＲＡＭ１０３は、実行中のプログラムの一部や付随するデータ、ＣＰＵの計算結果などを一時的に保存する。

操作部１０５は、ユーザからの各種指示操作を受け付けて操作信号に変換して、バス１０９を介してＣＰＵ１０２へ送信する。操作部１０５は、キーボードやマウス、ジョイスティック、タッチパネル等で構成される。ＣＰＵ１０２は、操作部１０５からの操作信号に応じて実行中のプログラム制御や他の構成の制御指示を行う。
表示部１０６は、ユーザに対して実行中のプログラムの状態やプログラムの出力を表示する。表示部１０６は、例えば液晶ディスプレイやＬＥＤ等を有して構成され、ユーザが音響処理装置を操作するためのＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）などを表示する。
通信ＩＦ１０８は、インターネットなどの通信網に対するデータの入出力を行うためのインターフェースである。なお、音響処理装置が外部の装置と有線で接続される場合には、通信用のケーブルが通信ＩＦ１０８に接続される。音響処理装置が外部の装置と無線通信する機能を有する場合には、通信ＩＦ１０８はアンテナを備える。バス１０９は、音響処理装置の各部をつないで情報を伝達する。
なお本実施形態では表示部１０６と操作部１０５が音響処理装置の内部に存在するものとするが、表示部１０６と操作部１０５の少なくとも一方が音響処理装置の外部に別の装置として存在していてもよい。

以上、説明したように、本実施形態では、ＣＰＵ１０２が、ＲＯＭ１０７や外部記憶部１０４に格納されたプログラムに従って処理を実行することにより、図１に示した音響処理装置の各機能および各処理を実行する。
図５は、図１に示した機能構成を有する本実施形態の音響処理装置において行われる音響処理の流れを示すフローチャートである。なお、以降の各フローチャートにおいて、参照符号の「Ｓ」は処理ステップを表している。

まずＳ１において、音響処理装置では、図１もしくは図４に示した各構成要素の初期化処理が行われる。以降のＳ２からＳ６までの各処理は、所定の条件を満たすまで繰り返される。なお本実施形態の場合、所定の条件とは、後述するようにユーザから終了指示がなされることである。

Ｓ２において、信号読出し部３は、情報受信部１が逐次受信した仮想カメラ情報に対応する音響信号データを、蓄積部２から読み出す。またこの音響信号読出し処理の間に、時刻情報生成部８は、時刻情報テーブルを生成して信号読出し部３に出力する。信号読出し部３は、時刻情報生成部８から出力された時刻情報テーブルを、蓄積部２から読み出した音響信号データとともに、タイムストレッチ部４へ送出する。このＳ２の処理の詳細は、後述する図６のフローチャートにおいて説明する。

次にＳ３において、タイムストレッチ部４は、信号読出し部３から受信した時刻情報テーブルと、ずれ検知部５から受信した時刻ずれ量とを基に、タイムストレッチ処理を行う。またこの処理の間に、時刻情報生成部９はタイムストレッチ処理の結果に合致するように時刻情報テーブルが生成（再構成）されて、タイムストレッチ部４に出力される。タイムストレッチ部４は、当該時刻情報テーブルをタイムストレッチ処理後の音響信号とともに信号出力部６へ送出する。このＳ３の処理の詳細は、後述する図７のフローチャートにおいて説明する。

次にＳ４において、信号出力部６は、タイムストレッチ処理後の音響信号に対してＤＡ（デジタルアナログ）変換や増幅を行い、スピーカー７に出力する。これによりスピーカー７からは音響信号に応じた音が出力される。また信号出力部６は、時刻情報テーブルに基づいて再生音響時刻を算出して、ずれ検知部５へ送出する。このＳ４の処理の詳細は、後述する図８のフローチャートにおいて説明する。

次にＳ５において、ずれ検知部５は、外部から受信する再生映像タイムコードと、信号出力部６から受信した再生音響信号の時刻とに基づいて、映像と音響との同期ずれを時刻ずれ量として検知して、タイムストレッチ部４に送る。このＳ５の処理の詳細は、後述する図９のフローチャートにおいて説明する。

次にＳ６において、音響処理装置は、操作部１０５を介して取得したユーザ操作により、終了指示があったかどうかを判定する。音響処理装置は、終了指示がない場合にはＳ２に戻り処理を続け、一方、終了指示があった場合には図５のフローチャートの処理を終了、つまり本実施形態の音響処理を終了する。

図６は、図５のＳ２における音響信号読出し処理の詳細な流れを示したフローチャートである。
まずＳ１０１において、信号読出し部３は、前回の処理において出力できずに余った音響信号データのサンプル時刻、再生速度、およびサンプル長の情報を、時刻情報生成部８に出力する。なお、これらサンプル時刻、再生速度、およびサンプル長の情報は、前回の処理においてＲＡＭ１０３上の規定領域に保存されているが、これらの情報が保存されていない場合、信号読出し部３は何も行わない。

以降のＳ１０２からＳ１０６までの処理は、所定の条件を満たすまで繰り返し行われる。図６のフローチャートの場合、所定の条件とは、信号読出し部３が有する出力バッファが満杯になることである。
Ｓ１０２において、信号読出し部３は、情報受信部１から出力された仮想カメラ情報を取得する。
次にＳ１０３において、信号読出し部３は、Ｓ１０２で受信した仮想カメラ情報中のタイムコードを、図３（ｂ）で示したサンプル時刻に変換する。なお、フレームベースであるタイムコードを時刻に変換する処理は、映像処理関連分野において公知の処理であるため、その詳細な説明は省略する。

次にＳ１０４において、信号読出し部３は、Ｓ１０３で得られたサンプル時刻の音響サンプルを先頭として、映像１フレーム分の時間長の音響信号を蓄積部２から読み出し、ＲＡＭ１０３上の規定領域に一時格納する。
次にＳ１０５において、信号読出し部３は、Ｓ１０４で読み出した音響信号を、内部の出力バッファの空き領域に書き込めるだけ追加する。出力バッファの空き領域が１フレーム分以上ある場合、信号読出し部３は、Ｓ１０４で読み出した全ての音響信号を書き込む。一方、出力バッファの空き領域が１フレーム分未満である場合、信号読出し部３は、その領域に書き込めるサンプル長だけ書き込む。なお、本実施形態において、出力バッファは、ＲＡＭ１０３上の規定領域に確保されている。また、出力バッファのサイズは、出力先であるタイムストレッチ部４が一回に処理する音響信号のサイズと同じサイズとしている。

次にＳ１０６において、信号読出し部３は、Ｓ１０３で得られたサンプル時刻の情報と、Ｓ１０２で受信した仮想カメラ情報内の再生速度の情報と、Ｓ１０５で書き込んだサンプル長の情報とを、時刻情報生成部８に出力する。
そしてＳ１０７において、信号読出し部３は、出力バッファが満杯になったかどうかを判定する。この判定の結果、出力バッファが満杯ではない場合、信号読出し部３は、Ｓ１０２に処理を戻して、次の繰り返し処理を行う。一方、出力バッファが満杯の場合、音響処理装置の処理は、Ｓ１０８の処理に進む。

Ｓ１０８に進むと、時刻情報生成部８は、ここまでの処理で信号読出し部３から出力された、サンプル時刻、再生速度、およびサンプル長の三つの組みを要素とする時刻情報テーブルを生成する。なお、これらの要素は、出力された順番にテーブルにまとめられる。このようにすることで、信号読出し部３の出力バッファに書き出された音響信号と整合する時刻情報テーブルが生成される。Ｓ１０８において生成された時刻情報テーブルは、信号読出し部３に出力される。そしてＳ１０９において、信号読出し部３は、時刻情報テーブルを出力バッファ内の音響信号データに付加して、当該音響信号データとともにタイムストレッチ部４に出力する。

次にＳ１１０において、信号読出し部３は、Ｓ１０５で出力バッファに書き込めなかった余剰分の音響信号データを出力バッファの先頭に書き込む。
次にＳ１１１において、信号読出し部３は、出力バッファの先頭サンプルの時刻を計算する。本実施形態の音響処理装置が入出力する音響信号における既定のサンプリングレートをｆｓとし、直前のＳ１０６で出力したサンプル時刻をＴ、サンプル長をＬとすると、出力バッファ先頭のサンプル時刻Ｔｗは下記式（１）で求められる。

Ｔｗ＝Ｔ＋Ｌ／ｆｓ式（１）

次にＳ１１２において、信号読出し部３は、Ｓ１１１で計算したサンプル時刻と、直前のＳ１０６で出力した再生速度と、Ｓ１１０で書き込んだサンプル長との、各情報を、ＲＡＭ１０３上の規定領域に一時保存する。これらの情報は、次回の音響信号読出し処理において、Ｓ１０１で時刻情報生成部８に出力される。
そして、このＳ１１２の処理を終えると、音響処理装置は、信号読出し処理を終了した後、リターンする。

図７は、図５のＳ３におけるタイムストレッチ処理の詳細な流れを示すフローチャートである。
まずＳ２０１において、タイムストレッチ部４は、前回の処理で出力できず余った音響信号データの、先頭サンプル時刻と再生速度とサンプル長の三つの組みを、時刻情報生成部９へ出力する。これらの情報は、ＲＡＭ１０３上の規定領域に一時保存されている。なお、余った音響信号データがない場合、タイムストレッチ部４は何もしない。
以降のＳ２０２からＳ２０６までの処理は、所定の条件を満たすまで繰り返し行われる。図７のフローチャートの場合、所定の条件とは、タイムストレッチ部４が有する出力バッファが満杯になることである。

Ｓ２０２において、タイムストレッチ部４は、信号読出し部３から入力された時刻情報テーブルに基づき、再生速度の再計算を行う。ここで、一般に、リサンプリングを基本とするタイムストレッチ処理では、処理単位に対して一つの再生速度に対する処理しか行えない。また本実施形態の場合、音響信号データは一処理単位で入力される。このため、タイムストレッチ部４は、入力された時刻情報テーブルに基づき、処理による時刻ずれを避ける唯一の再生速度を求める。
具体的には、タイムストレッチ部４は、サンプル長を重みとする再生速度の加重平均を計算する。例えば、図４（ａ）に示す時刻情報テーブルの場合、このテーブル中のサンプル長を全て加算したサンプル長総数をＬｔｎとし、時刻情報テーブルに含まれる要素の数をｎとすると、再生速度Ｖは式（２）で求めることができる。

Ｖ＝Σ（再生速度ｉ×サンプル長ｉ）／Ｌｔｎ式（２）
ただし１≦ｉ≦ｎ

次にＳ２０３において、タイムストレッチ部４は、ずれ検知部５から受信した時刻ずれ量に基づいて、Ｓ２０２で求めた再生速度を補正する。
ここで、ずれ検知部５からは、毎回の処理毎に最新の値の時刻ずれ量が送信されてくる。ただし、時刻ずれ量に基づく一回の処理で再生速度の補正を行うようにすると、フィードバック制御が大きく行われてしまうことがあり、場合によっては制御が収束せず再生速度の揺れ（変化）が激しくなる虞がある。また、再生速度を急激に制御した場合には、音質に問題が生じる虞がある。このため、タイムストレッチ部４は、ずれ検知部５から受信した時刻ずれ量のうち、予め設定した割合だけ再生速度を補正する。例えば、受信した時刻ずれ量をＭｔ［ｓｅｃ］とし、予め設定した割合をｒ（０＜ｒ＜１）、サンプル長総数をＬｔｎ、音響信号のサンプリングレートをｆｓ、再生速度をＶとすると、再生速度Ｖに対する補正速度Ｖｃは式（３）で求められる。

Ｖｃ＝（Ｌｔｎ＋Ｍｔ×ｒ／ｆｓ）／Ｌｔｎ×Ｖ式（３）

この処理によって、ずれ検知部５が検知した時刻ずれ量に応じて再生速度を適宜制御できるため、映像と音響のずれを補正することができる。
さらにＳ２０４において、タイムストレッチ部４は、Ｓ２０３で補正した再生速度を基に、入力された音響信号にタイムストレッチ処理を実行する。本実施形態では、リサンプリング処理を基本としたタイムストレッチ処理を行う。例えば、再生速度が０．５倍の場合、タイムストレッチ部４は、各サンプルの中間にサンプルを増やし、サンプル総数としては倍に増やすようなタイムストレッチ処理を行う。また例えば、再生速度が２．０倍の場合、タイムストレッチ部４は、サンプルの半分を間引くようなタイムストレッチ処理を行う。

ただし、サンプルの増減により、元信号にない高域の周波数成分や折り返し歪が発生するため、それらを取り除くため、適宜設計したＬＰＦ（ＬｏｗＰａｓｓＦｉｌｔｅｒ：低域通過フィルタ）処理を行う。なお、再サンプリングとＬＰＦ処理とを同時に行う処理として、本実施形態では、窓掛けしたＳｉｎｃ関数によりＦＩＲ係数を設計して重畳する処理を行う。また、再サンプリングすると、ピッチ（音程）が変化するため、本実施形態では、リサンプリング処理とともにピッチ変換を行って、元信号のピッチを保ったまま速度変換する処理を行う。そして、タイムストレッチ部４は、それらの処理結果として得られる音響信号を、ＲＡＭ１０３上の規定領域に保存する。

次にＳ２０５において、タイムストレッチ部４は、処理後の音響信号を、内部の出力バッファの空き領域に書き込めるだけ追加する。なお、タイムストレッチ部４の出力バッファは、ＲＡＭ１０３上の規定領域に確保されているとする。出力バッファのサイズは、後段の構成である信号出力部６における処理単位分を少なくとも確保する。

次にＳ２０６において、タイムストレッチ部４は、Ｓ２０５で出力バッファに書き込んだ音響信号のサンプル時刻と、Ｓ２０３で算出した再生速度と、Ｓ２０４のタイムストレッチ処理実行後のサンプル長との各情報を、時刻情報生成部９に出力する。

次にＳ２０７において、タイムストレッチ部４は、出力バッファが満杯になったかどうかを判定する。そして、タイムストレッチ部４は、判定の結果、出力バッファが満杯になっていない場合にはＳ２０２へ処理を戻し、次の繰り返し処理を行う。一方、出力バッファが満杯になった場合、音響処理装置は、Ｓ２０８へ処理を進める。

Ｓ２０８に進むと、時刻情報生成部９は、ここまでの処理でタイムストレッチ部４から出力された、サンプル時刻と再生速度とサンプル長との三つ組みを要素とする時刻情報テーブルを生成する。なお、これらの要素は、出力された順番にテーブルにまとめられる。このようにすることで、タイムストレッチ部４の出力バッファに書き出された音響信号と整合する時刻情報テーブルが生成される。生成された時刻情報テーブルは、タイムストレッチ部４に出力される。
次に、Ｓ２０９において、タイムストレッチ部４は、出力バッファ内のデータに時刻情報テーブルを付加する。そして、この時刻情報テーブルは、音響信号のデータとともに信号出力部６に出力される。

次にＳ２１０において、タイムストレッチ部４は、Ｓ２０５で出力バッファに書き込めなかった余剰分の音響信号データを、出力バッファ先頭に書き込む（コピーする）。
次にＳ２１１において、タイムストレッチ部４は、出力バッファ先頭のサンプル時刻を計算する。
さらにＳ２１２において、タイムストレッチ部４は、Ｓ２１１で計算したサンプル時刻とＳ２０３で計算した再生速度とＳ２１０でコピーしたサンプル長との各情報を、ＲＡＭ１０３上の規定領域に一時保存する。これらの情報は、次回のタイムストレッチ処理において、Ｓ２０１で時刻情報生成部９に出力される。
そして、このＳ２１２の処理を終えると、音響処理装置は、タイムストレッチ処理を終了した後、リターンする。

図８は、図５のＳ４における音声信号出力処理の詳細な流れを示したフローチャートである。Ｓ３０１からＳ３０２までの処理と、Ｓ３０３からＳ３１０までの処理は並列に実行される。なお、Ｓ３０３からＳ３１０までの処理は、音響信号を音に変換して出力する処理であり、音が途切れないようにする必要があるため、図８のようなフローとしている。

まずＳ３０１において、信号出力部６は、タイムストレッチ部４から受信した信号を、内部の一時バッファの末尾に追加する。本実施形態において、信号出力部６の内部の一時バッファは、例えばＲＡＭ１０３上の規定領域に確保されている。
次にＳ３０２において、信号出力部６は、タイムストレッチ部４から受信した時刻情報テーブルのフラグを除く三つ組みの要素を、内部に保持している時刻情報テーブル末尾に追加する。そして、このＳ３０２の処理を終えると、信号出力部６は、Ｓ３０１からＳ３０２までの処理を終了して、リターンする。

一方、Ｓ３０３からＳ３１０の処理は、所定の条件を満たすまで繰り返し行われる。このときの所定の条件は、ユーザから終了指示がなされたかどうかである。
まずＳ３０３において、信号出力部６は、一時バッファの先頭サンプルのサンプル時刻を、内部の時刻情報テーブルの先頭要素から読み取り、時刻に換算してずれ検知部５に出力する。サンプル時刻から時刻への換算は、余剰サンプル数をミリ秒以下の時間に変換する計算により行われる。以下、この時間を、「余剰時間」と呼称する。信号出力部６は、こうして得られた余剰時間の情報を、余剰サンプル数の代りに、ずれ検知部５に送る。音響信号のサンプリングレートをｆｓとし、余剰サンプル数をｍ、再生速度をＶとすると、余剰時間ｔｍは次式（４）により求めることができる。

ｔｍ＝ｍ×Ｖ／ｆｓ式（４）

次にＳ３０４において、信号出力部６は、一時バッファから、スピーカー出力単位分に相当するサンプル長分の音響信号を読み取ってＤＡ変換することで、デジタル音響信号をアナログ音響信号に変換する。なお、スピーカー出力単位分に相当するサンプル長は、図５のＳ１の初期設定により予め定められている。
次にＳ３０５において、信号出力部６は、Ｓ３０４で得られたアナログ音響信号を適宜増幅し、スピーカー７に出力する。これにより、スピーカー７からは、Ｓ３０３でずれ検知部５に出力した時刻の音響信号が音に変換されて出力される。

次にＳ３０６において、信号出力部６は、一時バッファの先頭サンプルを指すポインタを、一時バッファに蓄積されている未出力音響信号の先頭サンプルに移動する。
次にＳ３０７において、信号出力部６は、内部の時刻情報テーブルにおいて、Ｓ３０６で指定した先頭サンプルが含まれている要素を探索し、先頭要素とする。さらに、信号出力部６は、その要素内のサンプル位置を算出する。音響出力を行う段階においては、一時バッファに蓄積されているサンプルは全て同じ扱いとなる。よって、時刻情報テーブルの先頭要素から順にサンプル長を加算していき、スピーカー出力単位分のサンプル長を超えた要素が、先頭サンプルが含まれる要素となる。テーブル先頭からこの要素の前の要素までを含めた総サンプル長をＬａとし、スピーカー出力単位分のサンプル長をＬｏとすると、要素内のサンプル位置ｐは、次式（５）で計算できる。

ｐ＝Ｌｏ－Ｌａ＋１式（５）

次にＳ３０８において、信号出力部６は、Ｓ３０７で求めたサンプル位置に基づき、先頭サンプルの時刻を算出する。先頭サンプルの時刻は、サンプル位置ｐを時間に換算し、時刻情報テーブルの先頭要素のサンプル時刻ｔｏに加算することで求められる。求めるサンプル時刻をｔ、先頭要素の再生速度をｖとすると、サンプル時刻ｔは次式（６）で求めることができる。

ｔ＝ｔｏ＋（（ｐ－１）×ｖ）式（６）

このようにして求められたサンプル時刻は、時刻情報テーブルの先頭要素に格納される。
次にＳ３０９において、信号出力部６は、Ｓ３０７で求めたサンプル位置に基づき時刻情報テーブルの先頭要素のサンプル長を算出して更新する。サンプル位置をｐ、元のサンプル長をｌｆとすると、サンプル長ｌは次式（７）で求められる。

ｌ＝ｌｆ－（ｐ－１）式（７）

このようにして求められたサンプル長は、時刻情報テーブルの先頭要素に格納される。
次にＳ３１０において、音響処理装置は、操作部１０５を介したユーザ操作などによって終了指示があったかどうかを判定する。音響処理装置は、終了指示があった場合には図８のフローチャートのＳ３０３からＳ３０９の繰り返し処理を終了してリターンする。そうでない場合、音響処理装置はＳ３０３へ処理を戻し、これにより次の繰り返し処理が行われる。

図９は、図５のＳ５における同期ずれ検知処理の詳細な流れを示したフローチャートである。
まずＳ４０１において、ずれ検知部５は、外部より再生映像タイムコードを受信する。なお、再生映像タイムコードは、情報受信部１が受信する仮想カメラ情報に付加されるタイムコードと同じ時間軸を共有するものである。
次にＳ４０２において、ずれ検知部５は、Ｓ４０１で取得した再生映像タイムコードを時刻（再生映像時刻とする）に変換する。タイムコードを時刻に変換する手法は映像再生分野において公知であるためその詳細な説明は省略する。
次にＳ４０３において、ずれ検知部５は、信号出力部６から出力された音響信号の時刻（再生音響時刻とする）を受信する。

次にＳ４０４において、ずれ検知部５は、Ｓ４０２で得られた再生映像時刻とＳ４０３で受信した再生音響時刻との差分を計算する。この結果、映像と音響の同期ずれの時間を表す時刻ずれ量が得られる。ずれ検知部５は、Ｓ４０５で算出した時刻ずれ量の情報を、タイムストレッチ部４へ出力する。なお、出力した時刻ずれ量は、前述したように、図７のＳ２０２において、再生速度の再計算に加味され、さらにＳ２０３で補正され、その後、Ｓ２０４でのタイムストレッチ処理に用いられる。そして、Ｓ４０５の処理を終えると、ずれ検知部５は、同期ずれ検知処理を終了してリターンする。

以上説明したように、本実施形態の音響処理装置は、少なくとも時刻と再生速度とを、組にした要素を複数含む表である時刻情報テーブルを、音響信号の断片に付与することにより、処理対象の音響信号の正確な時刻を把握可能となる。すなわち第一実施形態の音響処理装置は、時刻と再生速度とサンプル長とを三つ組にした情報を要素とする時刻情報テーブルを、音響信号とともに送信することで、各処理モジュール（各機能部）が処理中のサンプルの正確な時刻を把握できる。本実施形態によれば、再生速度が時間とともに変化しても、各処理モジュールが処理中のサンプルの正確な時刻を把握できるため、タイムストレッチ処理後においても映像と音響の同期ずれを検知して、映像と音響を同期させることができる。

＜第二実施形態＞
第一実施形態では、タイムストレッチ処理の直後に音響出力を行う例について説明した。第二実施形態では、タイムストレッチ処理後に遅延処理を行い、タイムストレッチ処理と遅延処理の双方によって映像と音響の同期ずれを補正する例について説明する。第二実施形態において、第一実施形態と同様の構成及び処理については説明を省略する。また第二実施形態の音響処理装置のハードウェア構成は前述の図４と同様である。

図１０は、第二実施形態に係る音響処理装置の機能構成例を示した図である。図１０において、情報受信部１から時刻情報生成部９までは、図１と同じ構成要素であるためそれらの説明は省略する。第二実施形態に係る音響処理装置は、遅延部１１と時刻情報生成部１２とを備えている。
遅延部１１には、タイムストレッチ部４から出力された音響信号が入力され、また、ずれ検知部５が検知した時刻ずれ量が、遅延処理の制御信号として入力される。遅延部１１は、タイムストレッチ部４から出力された音響信号を、時刻ずれ量に応じた制御信号によって遅延させる。同時に、遅延部１１は、タイムストレッチ部４から出力される時刻情報テーブルの要素を、遅延させるサンプル数に則って変更し、時刻情報生成部１２へ出力する。
時刻情報生成部１２は、遅延部１１から送られた情報を基に時刻情報テーブルを生成（再構成）し、遅延部１１に出力する。そして遅延部１１は、音響信号の出力時に、時刻情報生成部１２にて生成された時刻情報テーブルを受信し、遅延処理後の音響信号とともに信号出力部６に出力する。

図１１は、第二実施形態の音響処理装置の遅延部１１における処理の流れを示したフローチャートである。なお、第二実施形態において、遅延部１１による遅延処理は、前述した図４のフローチャートのＳ３のタイムストレッチ処理とＳ４の音響信号出力処理との間で行われるものとする。

まずＳ５０１において、遅延部１１は、ずれ検知部５から、時刻ずれ量を表す情報（本実施形態ではずれ時間Ｔｓとする）を受信したかどうかを判定する。遅延部１１は、ずれ時間Ｔｓを受信した場合にはＳ５０２へ処理を進め、一方、受信していない場合にはＳ５０５へ処理を進める。なお、一般的に映像処理の方が音響処理よりはるかに処理負荷が大きいため、音響よりも映像が遅れることが多い。よって、本実施形態では、ずれ時間Ｔｓが正の場合は映像出力が音響出力より遅れていることを示すものとする。

Ｓ５０２からＳ５０４までは、ずれ検知部５から通知されたずれ時間の補正を行うための処理である。
まずＳ５０２において、遅延部１１は、ずれ時間Ｔｓをサンプル長ｓｓに変換する。ずれ時間Ｔｓは、音響出力時に検知された時刻ずれ量に応じた時間であるため、再生速度は関係しない。よって、第二実施形態において、音響信号のサンプリングレートをｆｓとすると、サンプル長ｓｓは次式（８）で求められる。

ｓｓ＝Ｔｓ［ｓｅｃ］／ｆｓ［Ｈｚ］式（８）

次にＳ５０３において、遅延部１１は、内部の遅延バッファの読出しポインタをサンプル長ｓｓ×チャンネル数だけ前にずらす。これにより、ずれ時間Ｔｓが遅延部１１による遅延時間に足されるため、同期ずれが補正される。
次にＳ５０４において、遅延部１１は、内部の時刻情報テーブルの先頭要素ポインタをサンプル長ｓｓのサンプル分だけ前にずらす。本実施形態において、先頭要素ポインタとは、内部の時刻情報テーブルに格納されている三つ組要素のうち、次に出力される先頭サンプルが含まれている要素を示すポインタである。

図１２は、第二実施形態における先頭要素ポインタが、遅延部１１の内部の時刻情報テーブルの先頭要素を指しているイメージを示した図である。図１２において、時間情報テーブル２０１は遅延部１１の内部の時刻情報テーブルを示しており、先頭要素ポインタ２０２は、要素を示すポインタ２０３と、サンプル位置２０４とによって構成されている。サンプル位置は、ポインタ２０３が指している要素の何番目のサンプルが先頭サンプルであるかを示している。なお図１２に例示した先頭要素ポインタ２０２は、サンプル時刻Ｔｌの要素のａ番目のサンプルが先頭サンプルである状態を示している。

ここで、図１２に例示している状態から、先頭要素ポインタ２０２をサンプル長ｓｓのサンプル分だけ前にずらすとする。この例の場合、遅延部１１は、まず各要素のサンプル長から、サンプル長ｓｓのサンプル分だけ前のサンプルが含まれる要素を探索する。この要素がサンプル時刻Ｔｊの要素である場合、時間をずらした後の先頭要素ポインタのサンプル位置ｂは、サンプル長ｓｓと、サンプル時刻Ｔｊのサンプル長Ｌｊと、サンプル時刻Ｔｋのサンプル長Ｌｋとから、次式（９）で計算できる。

ｂ＝Ｌｊ－（ｓｓ－（ａ－１）－Ｌｋ）式（９）

このように求めたサンプル位置は、先頭要素ポインタに格納される。このＳ５０４の処理によって、映像と音響との同期ずれの補正に応じて、時刻情報テーブルの要素を正確にずらすことができる。
次にＳ５０５において、遅延部１１は、タイムストレッチ部４から受信した音響信号を、遅延バッファ末尾に書き込む。
次にＳ５０６において、遅延部１１は、タイムストレッチ部４から受信した時刻情報テーブルの各要素を、内部の時刻情報テーブルの末尾に追加する。

Ｓ５０７からＳ５１２の処理において、遅延部１１は、出力する音響信号断片に対応する時刻情報テーブルを生成する処理を行う。
まずＳ５０７において、遅延部１１は、内部の時刻情報テーブルの先頭要素ポインタが指す要素に基づき、先頭要素のサンプル時刻とサンプル長を算出する。この計算は、先頭要素ポインタの先頭サンプル位置を用いて、第一実施形態におけるＳ３０８、Ｓ３０９と同様の計算を行う事により求められる。
次にＳ５０８において、遅延部１１は、Ｓ５０７で得られたサンプル時刻とサンプル長と先頭要素ポインタとが指す要素の再生速度を三つ組みとして時刻情報生成部１２へ出力する。

次にＳ５０９において、遅延部１１は、先頭要素ポインタが指すサンプルに、当該遅延部における処理単位サンプル長を加算したサンプルが含まれる末尾要素を探索する。遅延部１１の処理単位のサンプル長をｓｄとし、先頭要素のサンプル長をｓｔ、先頭要素ポインタのサンプル位置をｘ、先頭の次の要素からのサンプル長総計をｓｇとすると、探索では、次の式（１０）を満たす最初の後続の要素を見つければよい。

ｓｄ≦ｓｔ－ｘ＋１＋ｓｇ式（１０）

次にＳ５１０において、遅延部１１は、内部の時刻情報テーブルにおいて、先頭要素ポインタが指す要素の次の要素から、末尾要素の前の要素までの三つ組み要素を、順に時刻情報生成部１２へ出力する。
次にＳ５１１において、遅延部１１は、Ｓ５０９の探索処理で見つけた末尾要素のサンプル長を、処理単位末尾のサンプル位置に置換して、時刻情報生成部１２へ出力する。Ｓ５０９の条件の場合、先頭の次の要素から末尾要素の前の要素までのサンプル長総計をｓｐとすると、処理単位末尾のサンプル位置ｅは、次式（１１）で計算できる。

ｅ＝ｓｄ－（ｓｔ－ｘ＋１＋ｓｐ）式（１１）

Ｓ５１２は第一実施形態のＳ２０８と同様なので説明を省略する。
次にＳ５１３において、遅延部１１は、遅延バッファに格納されている音響信号のうち、読出しポインタから、処理単位サンプル長×チャンネル数分の音響信号を、Ｓ５１２で得られた時刻情報テーブルとともに出力する。これにより、遅延処理を行っても、音響信号と同期する時刻情報が音響信号とともに出力される。

次にＳ５１４において、遅延部１１は、遅延バッファの読出しポインタを処理単位サンプル長×チャンネル数分、つまり出力した音響信号分後ろにずらす。
次にＳ５１５において、遅延部１１は、内部の時刻情報テーブルの先頭要素ポインタを処理単位サンプル長分後ろにずらす。これは、Ｓ５１１で求めたサンプル位置ｅの次のサンプルを指すようにすればよい。そして、Ｓ５１５の処理を終えると、遅延部１１は遅延処理を終了してリターンする。

図１３は、第二実施形態のずれ検知部５における同期ずれ検知処理の詳細な流れを示すフローチャートである。Ｓ６０１からＳ６０４の処理は、第一実施形態のＳ４０１からＳ４０４の処理と同様であるため、それらの説明は省略する。
Ｓ６０５において、ずれ検知部５は、Ｓ６０４で算出した時刻ずれ量に対応したずれ時間Ｔが、既定の時間閾値Ｔｈを超えたかどうか判定する。ずれ検知部５は、ずれ時間Ｔが閾値Ｔｈを超えた場合にはＳ６０６の処理に進み、そうでない場合にはＳ６０８の処理に進む。

Ｓ６０６に進むと、ずれ検知部５は、時間Ｔ－Ｔｈをずれ時間として検知し、そのずれ時間を遅延部１１に知らせる。これにより、前述したように、遅延部１１は、このずれ時間を補正する処理を後に行う。
次にＳ６０７において、ずれ検知部５は、閾値Ｔｈの時間を、ずれ時間としてタイムストレッチ部４に出力する。これにより、タイムストレッチ部４は、この時間ずれを補正する処理を後に行う。

このように、第二実施形態では、時間の閾値が決められ、時刻ずれ量に対応したずれ時間のうち、閾値を超える時間ずれ分については遅延部１１で補正し、また閾値以下のずれ時間分についてはタイムストレッチ部４でタイムストレッチ処理する。第二実施形態の場合、ずれ時間は毎回の処理で補正されるため、映像処理や音響処理について何らかの大きな問題が生じない限り、大きな時間ずれは生じない。第二実施形態の場合、初回動作時で生じる映像と音響との大きな時間ずれは、主に遅延部１１により補正され、以降の処理では、主にタイムストレッチ処理で小さなずれが少しずつ補正されることになる。これにより、常に映像と音響のずれが自動的に補正されることになる。

そして、Ｓ６０７の処理を終えると、ずれ検知部５は、図１３の同期ずれ検知処理を終了してリターンする。
Ｓ６０８の処理は、図９のＳ４０５と同様であるため、その説明は省略する。Ｓ６０８の処理を終えると、ずれ検知部５は、図１３の同期ずれ検知処理を終了してリターンする。

以上説明したように、第二実施形態においては、タイムストレッチ処理後に遅延処理を行う場合にも、時刻情報テーブルを、音響信号とともに遅延させて送信することによって、各処理モジュールが処理中のサンプルの正確な時刻を把握できる。よって、映像との同期ずれを正確に検知することができる。また第二実施形態の場合、タイムストレッチ処理と遅延処理との組み合わせによって、映像と音響が大きくずれる場合でも、正確な同期ずれ補正を行うことが可能になる。

＜他の実施形態＞
前述した各実施形態では、時刻情報テーブルに１フレーム毎に要素を追加しているが、再生速度が変わらなければ複数フレーム分を一つの要素にまとめてもよい。
また、前述の各実施形態では、時刻情報テーブルの要素としてサンプル長を含めているが、サンプル長を省略して、後ろの要素の時刻差と再生速度を用いて算出するようにしてもよい。これにより、処理間で伝送するデータ量を削減することができる。
前述の例では、音響信号の時刻と再生する映像の時刻とを取得することで、映像と音響の同期再生を行うシステムを例に挙げたが、映像以外のデータや事象と音響の同期再生を行うシステムにも適用可能である。
その他、本発明の主旨を逸脱することがない範囲において、他の形態で実施することができる。

本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける一つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。
上述の実施形態は、何れも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明は、その技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。

１：情報受信部、２：蓄積部、３：信号読出し部、４：タイムストレッチ部、５：ずれ検知部、６：信号出力部、８，９，１２：時刻情報生成部、１１：遅延部

Claims

映像のタイムコードと再生速度とを含む情報を受信する情報受信手段と、
音響信号の断片を時刻と組にして蓄積する蓄積部から、前記情報受信手段が受信した前記タイムコードに相当する時刻の音響信号を読み出す読出し手段と、
前記情報受信手段が受信した前記再生速度に応じて、前記読出し手段が前記読み出した音響信号に対して、タイムストレッチ処理を行う処理手段と、
前記読出し手段が出力する音響信号の時刻情報と、前記処理手段が出力する音響信号の時刻情報とを生成する生成手段と、
前記処理手段が出力した音響信号を出力する出力手段と、を有し、
前記生成手段は、前記音響信号の断片の先頭サンプル時刻と当該音響信号に対する再生速度とを組にした情報を、前記断片の数だけ表にした前記時刻情報を生成し、
前記読出し手段は、前記読み出した前記音響信号について前記生成手段が生成した前記時刻情報を、前記音響信号とともに前記処理手段に出力し、
前記処理手段は、前記タイムストレッチ処理した前記音響信号について前記生成手段が生成した前記時刻情報を、前記音響信号とともに前記出力手段に出力する
ことを特徴とする音響処理装置。
前記生成手段は、前記音響信号の断片の前記先頭サンプル時刻と前記再生速度とに加え、前記音響信号の断片のサンプル長をも組にして、前記断片の数だけ表にした前記時刻情報を生成することを特徴とする請求項１に記載の音響処理装置。
前記生成手段は、前記タイムストレッチ処理の前後を示すフラグを前記表にさらに加えた前記時刻情報を生成することを特徴とする請求項１または請求項２に記載の音響処理装置。
再生される映像の前記タイムコードに相当する時刻と、前記出力手段から前記音響信号が出力される時刻とを比較して、前記再生される映像と前記出力される音響との間の時刻のずれ量を検知する検知手段をさらに有し、
前記検知手段は、前記検知した時刻のずれ量に応じた制御信号を前記処理手段に送り、
前記処理手段は、前記制御信号に基づいて前記タイムストレッチ処理を行うことによって、前記時刻のずれを補正することを特徴とする請求項１から請求項３のいずれか１項に記載の音響処理装置。
前記音響信号を遅延させる遅延手段をさらに有し、
前記生成手段は、前記遅延手段が遅延させる音響信号の時刻情報から、前記遅延手段が遅延させて出力する音響信号と同期する時刻情報を新たに生成することを特徴とする請求項１から請求項３のいずれか１項に記載の音響処理装置。
前記遅延手段は、前記処理手段が出力した前記音響信号を遅延させ、前記遅延した音響信号について前記生成手段が前記新たに生成した前記時刻情報を、前記音響信号とともに前記出力手段に出力することを特徴とする請求項５に記載の音響処理装置。
再生される映像の前記タイムコードに相当する時刻と、前記出力手段から前記音響信号が出力される時刻とを比較して、前記再生される映像と前記出力される音響との間における時刻のずれ量を検知する検知手段をさらに有し、
前記検知手段は、前記検知した時刻のずれ量に応じた制御信号を前記処理手段と前記遅延手段とに送り、
前記処理手段が前記制御信号に基づいて前記タイムストレッチ処理を行い、前記遅延手段が前記制御信号に基づいて前記音響信号を遅延させる処理を行うことによって、前記時刻のずれを補正することを特徴とする請求項６に記載の音響処理装置。
前記検知手段は、前記検知した時刻のずれ量が閾値より大きい場合に、前記ずれ量のうち前記閾値を超えた分を前記遅延手段への制御信号とし、前記ずれ量のうち前記閾値の分を前記処理手段への制御信号とすることを特徴とする請求項７に記載の音響処理装置。
前記検知手段は、前記検知した時刻のずれ量が閾値以下の場合、前記ずれ量に応じた制御信号を前記処理手段へ送り、前記遅延手段には制御信号を送信しないことを特徴とする請求項７または請求項８に記載の音響処理装置。
前記処理手段は、前記時刻情報に基づき、前記タイムストレッチ処理の単位ごとに一つの再生速度を計算し、前記再生速度を基に前記タイムストレッチ処理を行うことを特徴とする請求項１から請求項９のいずれか１項に記載の音響処理装置。
前記生成手段は、前記タイムストレッチ処理で用いた前記再生速度を基に前記時刻情報を新たに生成することを特徴とする請求項１０に記載の音響処理装置。
音響処理装置が実行する音響処理方法であって、
映像のタイムコードと再生速度とを含む情報を受信する情報受信工程と、
音響信号の断片を時刻と組にして蓄積する蓄積部から、前記情報受信工程にて受信された前記タイムコードに相当する時刻の音響信号を読み出す読出し工程と、
前記情報受信工程で受信された前記再生速度に応じて、前記読出し工程で前記読み出された音響信号に対して、タイムストレッチ処理を行う処理工程と、
前記読出し工程によって出力される音響信号の時刻情報と、前記処理工程によって出力される音響信号の時刻情報とを生成する生成工程と、
前記処理工程から出力された音響信号を出力する出力工程と、を有し、
前記生成工程は、前記音響信号の断片の先頭サンプル時刻と当該音響信号に対する再生速度とを組にした情報を、前記断片の数だけ表にした前記時刻情報を生成し、
前記読出し工程では、前記読み出した前記音響信号について前記生成工程により生成された前記時刻情報を、前記音響信号とともに前記処理工程に出力し、
前記処理工程は、前記タイムストレッチ処理した前記音響信号について前記生成工程により生成された前記時刻情報を、前記音響信号とともに前記出力工程に出力する
ことを特徴とする音響処理方法。
コンピュータを、請求項１から請求項１１のいずれか１項に記載の音響処理装置の各手段として機能させるためのプログラム。