JP2012108254A

JP2012108254A - 音声フォーマット変換装置および音声フォーマット変換方法

Info

Publication number: JP2012108254A
Application number: JP2010255987A
Authority: JP
Inventors: Hironori Iwai; 井大典岩
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2010-11-16
Filing date: 2010-11-16
Publication date: 2012-06-07
Also published as: US20120123787A1

Abstract

【課題】トランスコード処理の速度を向上させることが可能な装置および変換方法を提供する。
【解決手段】一実施形態によれば、音声データ分割部と、複数の音声フォーマット変換部と、音声データ結合部とを備える音声フォーマット変換装置が提供される。音声データ分割部は、入力オーディオストリームを分割して第１乃至第Ｎの分割オーディオストリーム（Ｎ：２以上の整数）を作成し、第ｉの分割オーディオストリーム（ｉ：１以上Ｎ−１以下の整数）の末尾に第ｉ＋１の分割オーディオストリームの先頭から所定数のフレームと同一のフレームを付加する。複数の音声フォーマット変換部は、第１乃至第Ｎの変換オーディオストリームを生成する。音声データ結合部は、第２乃至第Ｎの変換オーディオストリームの先頭から前記所定数のフレームを破棄した後、第１乃至第Ｎの変換オーディオストリームを順次結合し出力オーディオストリームを生成する。
【選択図】図１

Description

本発明の実施形態は、音声フォーマット変換装置および音声フォーマット変換方法に関する。

近年、パソコン、携帯電話、携帯オーディオプレイヤーなどで音楽を再生するための音声フォーマットとして、様々なフォーマット（ＭＰ３，ＡＡＣ，ＷＭＡ，ＡＣ３，ＡＭＲ，ＡＤＰＣＭ，ＷＡＶ，ＤＴＳ，ＭＰ２，Ｏｇｇ，ＡＶＣ−ＨＤ等）が存在する。ユーザは、これらの音楽フォーマットの中から、用途に応じて適当なものを選択して用いる。

例えばビデオカメラで動画を撮影する場合、動画に含まれる音声データは通常ＡＣ３（Dolby Digital, Audio Code Number 3）でエンコードされる。その後、ブルーレイディスクなどの記録媒体に伝送・記録する際、ＡＣ３でエンコードされたデータはＡＶＣ−ＨＤ（Advanced Video Codec High Definition）フォーマットに多重化されることが多い。さらに、記録媒体に記録されたデータを動画サイトにアップロードする場合、記録されたＡＣ３フォーマットの音声データはＡＡＣ（Advanced Audio Coding）又はＭＰ３（Mpeg Audio Layer-3）フォーマットに変換されることが多い。また、携帯電話で撮影したデータを携帯電話で送信する場合、ＡＡＣフォーマットの音声データはより圧縮率の高いＡＭＲ（Adaptive Multi-Rate）フォーマットに変換されることが想定される。

上記のように、用途に応じて、ある音声フォーマットのデータを別の音声フォーマットに変換する場面は多い。従って、ある音声フォーマットのデータを別の音声フォーマットのデータに変換する音声フォーマット変換処理（トランスコード処理）の速度を向上させる必要性が高まっている。

特開２０１０−１０８９５号公報

本発明が解決しようとする課題は、トランスコード処理の速度を向上させることが可能な装置および変換方法を提供することである。

本発明の一実施形態によれば、音声データ分割部と、第１乃至第Ｎの音声フォーマット変換部と、音声データ結合部とを備える音声フォーマット変換装置が提供される。

前記音声データ分割部は、複数のフレームからなる入力オーディオストリームから第１乃至第Ｎの分割オーディオストリーム（Ｎ：２以上の整数）を作成する。また、前記音声データ分割部は、前記第１乃至第Ｎの分割オーディオストリームのうち、前記第ｉの分割オーディオストリーム（ｉ：１以上Ｎ−１以下の整数）の末尾に前記第ｉ＋１の分割オーディオストリームの先頭から所定数のフレームと同一のフレームを付加する。

前記第１乃至第Ｎの音声フォーマット変換部は、前記音声データ分割部から入力された前記第１乃至第Ｎの分割オーディオストリームに対する音声フォーマット変換処理を並列に行い、第１乃至第Ｎの変換オーディオストリームを生成する。

前記音声データ結合部は、前記第２乃至第Ｎの変換オーディオストリームの先頭から前記所定数のフレームを破棄した後、前記第１乃至第Ｎの変換オーディオストリームを順次結合して出力オーディオストリームを生成する。

第１の実施形態に係る音声フォーマット変換装置の概略的な構成を示す。一実施形態に係る音声フォーマット変換方法のフローチャートを示す。図２Ａに続く、一実施形態に係る音声フォーマット変換方法のフローチャートを示す。（ａ）は入力オーディオストリームを示し、（ｂ）は第１の実施形態における分割オーディオストリームＡ及びＢを示す。（ａ）及び（ｂ）は第１の実施形態における変換オーディオストリームＡ及びＢをそれぞれ示し、（ｃ）は出力オーディオストリームを示す。遅延量テーブルの一例を示す。第２の実施形態に係る音声フォーマット変換装置の概略的な構成を示す。第２に実施形態における分割オーディオストリームＡ、Ｂ及びＣを示す。（ａ）、（ｂ）及び（ｃ）は第２の実施形態における変換オーディオストリームを示し、（ｄ）は出力オーディオストリームを示す。変形例における分割オーディオストリームを示す。変形例における変換オーディオストリームを示す。

以下、本発明に係る２つの実施形態について図面を参照しながら説明する。なお、各図において同等の機能を有する構成要素には同一の符号を付し、同一符号の構成要素の詳しい説明は繰り返さない。

（第１の実施形態）
図１は、第１の実施形態に係る音声フォーマット変換装置の概略的な構成を示している。音声フォーマット変換装置１００は、音声データ分割部１０と、第１の音声フォーマット変換部２０Ａと、第２の音声フォーマット変換部２０Ｂと、音声データ結合部３０とを備える。

次に、音声フォーマット変換装置１００の各構成要素について説明する。音声データ分割部１０は、複数のフレームからなる入力オーディオストリームから、複数の分割オーディオストリームを作成する。第１の実施形態では、第１及び第２の分割オーディオストリームを作成する。分割オーディオストリームを作成する際、音声データ分割部１０は、連続する２つの分割オーディオストリームについて、第１の分割オーディオストリームの末尾に第２の分割オーディオストリームの先頭から所定数のフレームと同一のフレームを付加する。この所定数は、遅延フレームの総数を考慮して決められる。

また、音声データ分割部１０は、この所定数を音声データ結合部３０に、分割オーディオストリームの結合時に破棄すべきフレーム数（破棄フレーム数）として通知する。

第１及び第２の音声フォーマット変換部２０Ａ、２０Ｂはそれぞれ、並列処理可能な異なるプロセッサコアに設けられており、入力された分割オーディオストリームに対する音声フォーマット変換処理を行い、変換オーディオストリームをそれぞれ生成する。分割オーディオストリームの変換処理が完了すると、音声フォーマット変換部２０Ａ，２０Ｂは変換処理完了通知および変換オーディオストリームを音声データ結合部３０に出力する。

音声フォーマット変換処理は、音声デコード処理、リサンプル処理、および音声エンコード処理を含む。音声デコード処理は、圧縮された音声データをデコードして時間ドメインの音声データに戻す処理である。リサンプル処理は、音声デコード処理で得られた音声データのサンプリングレートを変換する処理である。音声エンコード処理は、リサンプル処理された音声データを、指定された音声フォーマットで圧縮する処理である。

これら３つの処理はいずれも、処理対象となっている音声データよりも少し前の音声データ（例えば数十ｍｓ前の音声データ）を必要とする逐次的な処理である。したがって、必要な量の過去の音声データを保存しておくバッファ（遅延バッファ）が必要となる。このため、図１に示すように、音声フォーマット変換部２０Ａ，２０Ｂには、音声デコード処理用の遅延バッファ２１、リサンプル処理用の遅延バッファ２２および音声エンコード処理用の遅延バッファ２３が設けられている。必要となる遅延バッファのサイズは、音声デコード処理、リサンプル処理および音声エンコード処理ごとに異なり、また、それぞれの処理条件（フォーマット種別、サンプリングレートなど）によっても変化する。

音声データ結合部３０は、処理が完了した変換オーディオストリームを記憶装置３００に出力する。ここで、第２の音声フォーマット変換部２０Ｂから出力された変換オーディオストリームは、先頭から所定数のフレームを破棄して出力される。この所定数、即ち分割オーディオストリームの結合時に破棄されるフレーム数は、音声データ分割部１０から通知された破棄フレーム数である。即ち、音声データ結合部３０は、先頭から所定数のフレームが破棄された変換オーディオストリームを前の変換オーディオストリームの末尾に順次付加していき、出力オーディオストリームを生成する。

記憶装置２００は、入力オーディオストリームを格納し、記憶装置３００は出力オーディオストリームを格納する。なお、入出力用の記憶装置２００、３００を分けずに、まとめて一つの記憶装置としてもよい。入力オーディオストリームは音声データ分割部１０の処理の前に、ワークメモリ等に一旦すべてコピーしてもよい。また、より高速化を図るために、記憶装置２００から入力オーディオストリームのフレームを読み出す度に各音声フォーマット変換部に対し順番に読み出されたフレームを入力するようにしてもよい。この場合、不連続番号のフレームを読み出すことになるため、記憶装置２００としてランダムアクセス可能な記憶装置（半導体メモリ、光ディスク、磁気ディスク等）を用いることが必要である。

次に、第１の実施形態に係る音声フォーマット変換方法について説明する。ここでは、約３０秒分のＡＡＣフォーマットによるオーディオストリームのビットレート変換を例にとる。具体的な条件は以下の通りである。サンプリングレート（サンプリング周波数）は、変換前及び変換後ともに４８ｋＨｚである。チャネル数は、変換前５．１ｃｈ、変換後１ｃｈである。エンコードのビットレートは、変換前６４０ｋｂｐｓ、変換後４８ｋｂｐｓである。サンプル数は、変換前及び変換後ともに１０２４ｓａｍｐｌｅ／ｆｒａｍｅである。これらの条件は、ユーザによりアプリケーションのインタフェースを通じて入力される。または、予め音声フォーマットに基づき設定されていてもよい。なお、条件にプロセッサコアの数も含めることができる。

第１の実施形態に係る音声フォーマット変換方法について、図２Ａ及び図２Ｂのフローチャートに沿って説明する。入力オーディオストリームは、図３（ａ）に示すように、Ａ０〜Ａ１４０５の１４０６個のフレームから構成されているとする。

音声データ分割部１０は、第１及び第２の音声フォーマット変換部２０Ａ，２０Ｂにおける遅延フレームの総数を計算する（Ｓ１０１）。なお、遅延フレームの総数とは、音声デコード処理、リサンプル処理および音声エンコード処理における遅延フレーム数の合計である。

変換処理条件に対応する各処理の遅延フレーム数は、遅延量テーブルを参照して得られる。この遅延量テーブルは、音声フォーマット変換部における各処理ごとに存在し、各処理に必要となる遅延フレーム数を変換処理条件に対応させて格納している。なお、この遅延フレーム数は、遅延バッファのサイズを整数に切り上げた数である。

遅延量テーブルの一例を図５に示す。図５（ａ）は、音声デコード処理における音声フォーマットごとの遅延フレーム数を示している。図５（ｂ）は、リサンプル処理における、入出力サンプリング周波数ごとの遅延フレーム数を示している。図５（ｃ）は、音声エンコード処理における音声フォーマットごとの遅延フレーム数を示している。なお、遅延量テーブルは、音声フォーマット変換装置１００内のメモリやレジスタに配置してもよいし、音声フォーマット変換装置１００の外部に設けられたメモリに配置してもよい。

上記の条件（入出力フォーマット：ＡＡＣ、入出力データのサンプリング周波数：４８ｋｂｐｓ）の遅延フレーム数は、音声デコード処理“１”、リサンプル処理“０”および音声エンコード処理“１”であることがわかる。従って、第１及び第２の音声フォーマット変換部２０Ａ，２０Ｂにおいて生じる遅延フレームの総数Ｄは２となる。

音声データ分割部１０は、第１及び第２の音声フォーマット変換部２０Ａ、２０Ｂで処理される分割オーディオストリームの先頭フレーム番号をそれぞれ計算する（Ｓ１０２）。ｊ番目の音声フォーマット変換部に入力される分割オーディオストリームの先頭フレーム番号は、式（１）を用いて計算される。

ここで、Ｆ_head：先頭フレーム番号、Ｓ：入力オーディオストリームのフレーム数、Ｎ：音声フォーマット変換部の数である。関数Ｉｎｔは引数が整数でない場合、小数点以下を切り捨てて得られる整数値を返す。

Ｓ＝１４０６及びＮ＝２であるから、第１の音声フォーマット変換部２０Ａに入力される分割オーディオストリームの先頭フレーム番号は０となる。また、第２の音声フォーマット変換部２０Ｂに入力される分割オーディオストリームの先頭フレーム番号は７０３となる。

音声データ分割部１０は、音声フォーマット変換部２０Ａ、２０Ｂにより処理される分割オーディオストリームのフレーム数をそれぞれ計算する（Ｓ１０３）。

最終番以外の音声フォーマット変換部（ｊ＝１，２，・・・，Ｎ−１）により処理される分割オーディオストリームのフレーム数Ｘ１は、式（２）を用いて計算される。また、最終番の音声フォーマット変換部（ｊ＝Ｎ）により処理される分割オーディオストリームのフレーム数Ｘ２は、式（３）を用いて計算される。

Ｓ＝１４０６、Ｎ＝２、Ｄ＝２であるから、第１の音声フォーマット変換部２０Ａで処理される分割オーディオストリームのフレーム数は７０５となる。また、第２の音声フォーマット変換部２０Ｂで処理される分割オーディオストリームのフレーム数は７０３となる。

音声データ分割部１０は、計算された先頭フレーム番号およびフレーム数に基づき入力オーディオストリームを分割し、第１の分割オーディオストリームＡ及び第２の分割オーディオストリームＢを作成する（Ｓ１０４）。そして、音声データ分割部１０は、第１の分割オーディオストリームＡを第１の音声フォーマット変換部２０Ａに、第２の分割オーディオストリームＢを第２の音声フォーマット変換部２０Ｂにそれぞれ出力する。

図３（ｂ）は、第１の分割オーディオストリームＡ、及び第２の分割オーディオストリームＢを示している。第１の分割オーディオストリームＡは、Ａ０〜番号７０４のＡ７０４の７０５フレームからなり、第２の分割オーディオストリームＢは、Ａ７０３〜Ａ１４０５の７０３フレームからなる。

第１及び第２の分割オーディオストリームＡ、Ｂは、共通フレームＡ７０３、Ａ７０４を有する。すなわち、第１の分割オーディオストリームＡは、その末尾に、第２の分割オーディオストリームＢの先頭から所定数（この場合は２）のフレームと同一のフレームを有する。この共通フレームはいわば“のりしろ”として機能するものであり、共通フレーム数はＳ１０１で計算された遅延フレームの総数となる。

第１及び第２の音声フォーマット変換部２０Ａ、２０Ｂは、それぞれに入力された分割オーディオストリームに対して音声フォーマット変換処理を並列に実行する（Ｓ１０５）。その結果、音声フォーマット変換部２０Ａ（２０Ｂ）は、変換オーディオストリームＡ（Ｂ）を生成する。図４（ａ）は変換オーディオストリームＡを示し、図４（ｂ）は変換オーディオストリームＢを示している。なお、変換オーディオストリームＢのうち先頭の２フレームは、変換処理において遅延フレームの総数分の過去フレームを使用できないため、不完全となる。

第１及び第２の音声フォーマット変換部２０Ａ，２０Ｂは、音声フォーマット変換処理を完了すると、音声データ結合部３０に変換処理完了通知及び変換オーディオストリームＡ，Ｂを出力する。

ここで、音声データ結合部３０は、インデックスｊ＝１とする（Ｓ１０６）。音声データ結合部３０は、ｊ番目の音声フォーマット変換部の変換処理が完了したかどうかを判定する（Ｓ１０７）。変換処理が完了したかどうかは、各音声フォーマット変換部からの変換処理完了通知を受信したか否かにより判定する。

音声データ結合部３０は、インデックスｊが１か否かを判定する（Ｓ１０８）。インデックスｊ＝１の場合（Ｓ１０８−Ｙｅｓ）、音声データ結合部３０は、１番目の音声フォーマット変換部から出力された第１の変換オーディオストリームをそのままワークメモリに格納する（Ｓ１０９）。このワークメモリは音声データ結合部３０内や音声フォーマット変換装置１００に設けられたものを用いることができる。

インデックスｊが１でない場合（Ｓ１０８−Ｎｏ）、音声データ結合部３０は、ｊ番目の音声フォーマット変換部から出力された第ｊの変換オーディオストリームについて先頭から所定数のフレームを破棄した後、第（ｊ−１）の変換オーディオストリームの後ろに結合するようにワークメモリに格納する（Ｓ１１１）。この所定数（破棄フレーム数）は、Ｓ１０１で計算された遅延フレームの総数である。

第１の音声フォーマット変換部２０Ａからの第１の変換オーディオストリームＡは、そのままＢ０〜Ｂ７０４のフレームがワークメモリに出力される。一方、第２の音声フォーマット変換部２０Ｂからの第２の変換オーディオストリームＢは、音声データ結合部３０において、先頭の２フレームＢ７０３、Ｂ７０４が破棄され、Ｂ７０５〜Ｂ１４０５のフレームがワークメモリに出力される。

インデックスｊに１を加算する（Ｓ１１０）。そして、全ての音声フォーマット変換部の変換オーディオストリームをワークメモリに出力したかどうかを判定する（Ｓ１１２）。Ｙｅｓならば変換処理を終了し、ＮｏならばＳ１０７に戻る。

上記フロー処理を行うことで、各音声フォーマット変換部からの変換オーディオストリームを順次結合し、出力オーディオストリームを得る。図４（ｃ）は、ワークメモリに書き込まれた出力オーディオストリームを示している。この出力オーディオストリームは、従来のように入力オーディオストリームを分割せずに音声フォーマット変換処理した場合と同一である。

なお、出力オーディオストリームを生成する別の方法として、音声フォーマット変換装置１００の外に設けられた記憶装置３００において各変換オーディオストリームを結合してもよい。この場合、音声データ結合部３０は、変換オーディオストリームＡをワークメモリに格納することなく記憶装置３００に出力し、変換オーディオストリームＢについては先頭から所定数のフレームを破棄した後、変換オーディオストリームＡの後ろに結合するように記憶装置３００に出力する。

第１の実施形態では、音声変換処理における遅延バッファの影響を考慮し、遅延フレームの総数分の共通フレームを、分割オーディオストリームＡの末尾に付加する。そして、変換オーディオストリームＡ及びＢを結合する際に、変換オーディオストリームＢの不完全なフレームを破棄する。これにより、オーディオストリームを構成するフレームの連続性を損なうことなく、出力オーディオストリームを生成することができる。

このように第１の実施形態によれば、音声フォーマット変換処理を２個のプロセッサコアを用いて並列処理しているため、音声フォーマット変換処理を高速化することができる。

（第２の実施形態）
次に、第２の実施形態について説明する。第１の実施形態との相違点の一つは音声フォーマット変換部の数であり、第２の実施形態は音声フォーマット変換部がＮ個である。以下、第１の実施形態と異なる部分のみ説明する。

図６は、第２の実施形態に係る音声フォーマット変換装置の概略的な構成を示している。音声フォーマット変換装置１００Ａは、音声データ分割部１０と、第１〜第Ｎの音声フォーマット変換部２０Ａ，２０Ｂ，２０Ｃと、音声データ結合部３０とを備える。

各音声フォーマット変換部は、遅延バッファ２１、遅延バッファ２２および遅延バッファ２３を有する。各音声フォーマット変換部は、分割オーディオストリームの変換処理が完了すると、変換処理完了通知及び変換オーディオストリームを音声データ結合部３０に出力する。第１〜第Ｎの音声フォーマット変換部２０Ａ、２０Ｂ及び２０Ｃは、並列処理可能な異なるプロセッサコアにそれぞれ設けられている。

次に、第２の実施形態に係る音声フォーマット変換方法について説明する。ここでは、ＡＡＣフォーマットによるオーディオストリームのビットレート変換を例にとる。具体的に示す例として、音声フォーマット変換部は３つとし、入力オーディオストリームの構成（図３（ａ））、及びサンプリングレート等の変換処理の条件は、第１の実施形態の場合と同じとする。第２の実施形態に係る音声フォーマット変換方法も、図２Ａ及び図２Ｂに示すフローチャートに従う。

まず、音声データ分割部１０は、各音声フォーマット変換部２０において生じる遅延フレームの総数を計算する（Ｓ１０１）。入力フォーマットおよび変換処理条件から、各音声フォーマット変換部における遅延フレームの総数は２である。

音声データ分割部１０は、各音声フォーマット変換部２０に入力される分割オーディオストリームの先頭フレーム番号を計算する（Ｓ１０２）。Ｓ＝１４０６及びＮ＝３のとき、式（１）によれば、音声フォーマット変換部２０Ａ、２０Ｂ及び２０Ｃに入力される分割オーディオストリームの先頭フレーム番号は、それぞれ０、４６８及び９３６となる。

音声データ分割部１０は、各音声フォーマット変換部２０によって処理される分割オーディオストリームのフレーム数を計算する（Ｓ１０３）。Ｓ＝１４０６、Ｎ＝３、Ｄ＝２のとき、式（２）及び式（３）によれば、音声フォーマット変換部２０Ａ，２０Ｂ及び２０Ｃで処理される分割オーディオストリームのフレーム数は、いずれも４７０フレームとなる。

音声データ分割部１０は、先頭フレーム番号およびフレーム数に基づき入力オーディオストリームを分割し、第１乃至第Ｎの分割オーディオストリームを作成する（Ｓ１０４）。第１乃至第Ｎ−１の分割オーディオストリームは、末尾に遅延フレームの総数分の共通フレームが付加されている。そして、音声データ分割部１０は、第１乃至第Ｎの分割オーディオストリームをそれぞれ、第１乃至第Ｎの音声フォーマット変換部２０に出力する。

図７は、音声フォーマット変換部が３つの場合の分割オーディオストリームＡ，Ｂ及びＣを示している。分割オーディオストリームＡ及びＢは、共通フレーム（Ａ４６８及びＡ４６９）を有する。また、分割オーディオストリームＢ及びＣは、共通フレーム（Ａ９３６及びＡ９３７）を有する。これら共通フレーム数はいずれも遅延フレームの総数に等しい。

各音声フォーマット変換部２０は、入力された分割オーディオストリームに対して音声フォーマット変換処理を実行し、変換オーディオストリームをそれぞれ生成する。図８は、変換オーディオストリームＡ、Ｂ及びＣを示している。第２乃至第Ｎの変換オーディオストリームのうち先頭の２フレームは、変換処理において遅延フレームの総数分の過去フレームを使用できなかったため、不完全なものである。

その後、第１の実施形態と同様にＳ１０６〜Ｓ１１０の処理を行う。音声フォーマット変換部２０Ｂの変換オーディオストリームＢについては先頭の２フレームＢ４６８、Ｂ４６９を破棄する。また、音声フォーマット変換部２０Ｃの変換オーディオストリームＣについては先頭の２フレームＢ９３６、Ｂ９３７を破棄する。このように不完全なフレームを破棄して変換オーディオストリームを結合することで、出力オーディオストリーム（図８（ｄ））が得られる。

第２の実施形態では、Ｎ個の分割オーディオストリームのうち、第１乃至第Ｎ−１の分割オーディオストリームの末尾に、遅延フレームの総数分の共通フレームを付加し、変換処理を行う。そして、変換処理において不完全なフレームを破棄することにより、オーディオストリームを構成するフレームの連続性を損なうことがなく、出力オーディオストリームを生成することができる。また、第２の実施形態によれば、音声フォーマット変換処理を第１の実施形態よりもさらに高速化することができる。

次に、本実施形態の変形例について説明する。例えば、音声フォーマット変換部においてオーディオストリームの最終フレームに対して音声をフェードアウトするように処理する仕様となっている場合がある。また、音声フォーマットのサンプル数が入出力で異なる場合、変換オーディオストリームの最後のフレームの空き部分に０データが埋め込む場合がある。これらの場合には、変換オーディオストリームの最後のフレームが不完全なものとなり、出力オーディオストリームに用いることができない。

そこで、上記の場合には、分割する際に遅延フレームの総数＋１個の共通フレームを分割オーディオストリームの末尾に付加し、結合する際に変換オーディオストリームの最後のフレームを破棄する。

より具体的には、図９に示すように、音声データ分割部１０は、遅延フレームの総数（２）＋１（＝３個）の共通フレームを分割オーディオストリームＡ及びＢの末尾に付加しておく。なお、分割オーディオストリームＣは第２の実施形態の場合と同じである（図９（ｃ））。即ち、本変形例では、分割オーディオストリームＡ及びＢのフレーム数Ｘ１を求めるために、式（２）の代わりに式（４）を用いる。

そして、音声データ結合部３０は、変換オーディオストリームＢ及びＣの先頭から２フレームを破棄するとともに、変換オーディオストリームＡ及びＢの最後のフレームを破棄する（図１０）。さらに１フレーム分を付加して変換処理することにより、変換オーディオストリームＡ及びＢの最後のフレームが不完全となる場合でも、本実施形態においては所望の出力オーディオストリームを生成することができる。

本実施形態ではプロセッサコアが２つおよび３つであったが、これに限るものではなく、プロセッサコアの数、即ち音声フォーマット変換部の数は任意である。よって、音声フォーマット変換処理は並列処理可能なプロセッサコアの数に応じてスケーラブルに高速化することができる。

また、入力音声データは、圧縮されたデータに限らず、音声デコード処理が不要なＰＣＭデータであってもよい。

また、本実施形態においては、音声データ結合部３０による変換オーディオストリームの記憶装置３００への出力処理は、インデックスｊの小さい順に行ったが（Ｓ１０６乃至Ｓ１１２）、これに限らず、変換処理完了通知を受信した順に変換オーディオストリームを出力してもよい。

上記の記載に基づいて、当業者であれば、本発明の追加の効果や種々の変形を想到できるかもしれないが、本発明の態様は、上述した実施形態に限定されるものではない。特許請求の範囲に規定された内容及びその均等物から導き出される本発明の概念的な思想と趣旨を逸脱しない範囲で種々の追加、変更及び部分的削除が可能である。

１０音声データ分割部
２０Ａ，２０Ｂ，２０Ｃ音声フォーマット変換部
２１，２２，２３遅延バッファ
３０音声データ結合部
１００，１００Ａ音声フォーマット変換装置
２００記憶装置
３００記憶装置

Claims

複数のフレームからなる入力オーディオストリームから第１乃至第Ｎの分割オーディオストリーム（Ｎ：２以上の整数）を作成し、前記第１乃至第Ｎの分割オーディオストリームのうち、前記第ｉの分割オーディオストリーム（ｉ：１以上Ｎ−１以下の整数）の末尾に前記第ｉ＋１の分割オーディオストリームの先頭から所定数のフレームと同一のフレームを付加する、音声データ分割部と、
前記音声データ分割部から入力された前記第１乃至第Ｎの分割オーディオストリームに対する音声フォーマット変換処理を並列に行い、第１乃至第Ｎの変換オーディオストリームを生成する、第１乃至第Ｎの音声フォーマット変換部と、
前記第２乃至第Ｎの変換オーディオストリームの先頭から前記所定数のフレームを破棄した後、前記第１乃至第Ｎの変換オーディオストリームを順次結合して出力オーディオストリームを生成する、音声データ結合部と、
を備えることを特徴とする音声フォーマット変換装置。
前記所定数は、前記音声フォーマット変換部の音声デコード処理、リサンプル処理および音声エンコード処理における遅延フレームの総数に等しいことを特徴とする請求項１に記載の音声フォーマット変換装置。
前記音声データ結合部は、前記第２乃至第Ｎの変換オーディオストリームの先頭から前記所定数−１個のフレームを破棄し、前記第１乃至第Ｎ−１の変換オーディオストリームの最後のフレームを破棄した後、前記第１乃至第Ｎの変換オーディオストリームを順次結合して出力オーディオストリームを生成する、
ことを特徴とする請求項１に記載の音声フォーマット変換装置。
前記所定数は、前記音声フォーマット変換部の音声デコード処理、リサンプル処理および音声エンコード処理における遅延フレームの総数に１を加えた数に等しいことを特徴とする請求項３に記載の音声フォーマット変換装置。
第１乃至第Ｎ（Ｎ：２以上の整数）の音声フォーマット変換部における音声フォーマット変換処理されるオーディオストリームの先頭フレーム番号及び遅延フレームの総数を計算し、
前記先頭フレーム番号および前記遅延フレームの総数に基づき入力オーディオストリームから第１乃至第Ｎの分割オーディオストリームを作成し、
前記第１乃至第Ｎの音声フォーマット変換部において前記第１乃至第Ｎの分割オーディオストリームの音声フォーマット変換処理を並列に実行して、第１乃至第Ｎの変換オーディオストリームを生成し、
前記第２乃至第Ｎの変換オーディオストリームの先頭から前記遅延フレームの総数分のフレームを破棄した後、前記第１乃至第Ｎの変換オーディオストリームを順次結合して出力オーディオストリームを生成する、
ことを特徴とする音声フォーマット変換方法。