JP2012108254A - 音声フォーマット変換装置および音声フォーマット変換方法 - Google Patents

音声フォーマット変換装置および音声フォーマット変換方法 Download PDF

Info

Publication number
JP2012108254A
JP2012108254A JP2010255987A JP2010255987A JP2012108254A JP 2012108254 A JP2012108254 A JP 2012108254A JP 2010255987 A JP2010255987 A JP 2010255987A JP 2010255987 A JP2010255987 A JP 2010255987A JP 2012108254 A JP2012108254 A JP 2012108254A
Authority
JP
Japan
Prior art keywords
audio
frames
format conversion
streams
divided
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2010255987A
Other languages
English (en)
Inventor
Hironori Iwai
井 大 典 岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2010255987A priority Critical patent/JP2012108254A/ja
Priority to US13/049,567 priority patent/US20120123787A1/en
Publication of JP2012108254A publication Critical patent/JP2012108254A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

【課題】トランスコード処理の速度を向上させることが可能な装置および変換方法を提供する。
【解決手段】一実施形態によれば、音声データ分割部と、複数の音声フォーマット変換部と、音声データ結合部とを備える音声フォーマット変換装置が提供される。音声データ分割部は、入力オーディオストリームを分割して第1乃至第Nの分割オーディオストリーム(N:2以上の整数)を作成し、第iの分割オーディオストリーム(i:1以上N−1以下の整数)の末尾に第i+1の分割オーディオストリームの先頭から所定数のフレームと同一のフレームを付加する。複数の音声フォーマット変換部は、第1乃至第Nの変換オーディオストリームを生成する。音声データ結合部は、第2乃至第Nの変換オーディオストリームの先頭から前記所定数のフレームを破棄した後、第1乃至第Nの変換オーディオストリームを順次結合し出力オーディオストリームを生成する。
【選択図】図1

Description

本発明の実施形態は、音声フォーマット変換装置および音声フォーマット変換方法に関する。
近年、パソコン、携帯電話、携帯オーディオプレイヤーなどで音楽を再生するための音声フォーマットとして、様々なフォーマット(MP3,AAC,WMA,AC3,AMR,ADPCM,WAV,DTS,MP2,Ogg,AVC−HD等)が存在する。ユーザは、これらの音楽フォーマットの中から、用途に応じて適当なものを選択して用いる。
例えばビデオカメラで動画を撮影する場合、動画に含まれる音声データは通常AC3(Dolby Digital, Audio Code Number 3)でエンコードされる。その後、ブルーレイディスクなどの記録媒体に伝送・記録する際、AC3でエンコードされたデータはAVC−HD(Advanced Video Codec High Definition)フォーマットに多重化されることが多い。さらに、記録媒体に記録されたデータを動画サイトにアップロードする場合、記録されたAC3フォーマットの音声データはAAC(Advanced Audio Coding)又はMP3(Mpeg Audio Layer-3)フォーマットに変換されることが多い。また、携帯電話で撮影したデータを携帯電話で送信する場合、AACフォーマットの音声データはより圧縮率の高いAMR(Adaptive Multi-Rate)フォーマットに変換されることが想定される。
上記のように、用途に応じて、ある音声フォーマットのデータを別の音声フォーマットに変換する場面は多い。従って、ある音声フォーマットのデータを別の音声フォーマットのデータに変換する音声フォーマット変換処理(トランスコード処理)の速度を向上させる必要性が高まっている。
特開2010−10895号公報
本発明が解決しようとする課題は、トランスコード処理の速度を向上させることが可能な装置および変換方法を提供することである。
本発明の一実施形態によれば、音声データ分割部と、第1乃至第Nの音声フォーマット変換部と、音声データ結合部とを備える音声フォーマット変換装置が提供される。
前記音声データ分割部は、複数のフレームからなる入力オーディオストリームから第1乃至第Nの分割オーディオストリーム(N:2以上の整数)を作成する。また、前記音声データ分割部は、前記第1乃至第Nの分割オーディオストリームのうち、前記第iの分割オーディオストリーム(i:1以上N−1以下の整数)の末尾に前記第i+1の分割オーディオストリームの先頭から所定数のフレームと同一のフレームを付加する。
前記第1乃至第Nの音声フォーマット変換部は、前記音声データ分割部から入力された前記第1乃至第Nの分割オーディオストリームに対する音声フォーマット変換処理を並列に行い、第1乃至第Nの変換オーディオストリームを生成する。
前記音声データ結合部は、前記第2乃至第Nの変換オーディオストリームの先頭から前記所定数のフレームを破棄した後、前記第1乃至第Nの変換オーディオストリームを順次結合して出力オーディオストリームを生成する。
第1の実施形態に係る音声フォーマット変換装置の概略的な構成を示す。 一実施形態に係る音声フォーマット変換方法のフローチャートを示す。 図2Aに続く、一実施形態に係る音声フォーマット変換方法のフローチャートを示す。 (a)は入力オーディオストリームを示し、(b)は第1の実施形態における分割オーディオストリームA及びBを示す。 (a)及び(b)は第1の実施形態における変換オーディオストリームA及びBをそれぞれ示し、(c)は出力オーディオストリームを示す。 遅延量テーブルの一例を示す。 第2の実施形態に係る音声フォーマット変換装置の概略的な構成を示す。 第2に実施形態における分割オーディオストリームA、B及びCを示す。 (a)、(b)及び(c)は第2の実施形態における変換オーディオストリームを示し、(d)は出力オーディオストリームを示す。 変形例における分割オーディオストリームを示す。 変形例における変換オーディオストリームを示す。
以下、本発明に係る2つの実施形態について図面を参照しながら説明する。なお、各図において同等の機能を有する構成要素には同一の符号を付し、同一符号の構成要素の詳しい説明は繰り返さない。
(第1の実施形態)
図1は、第1の実施形態に係る音声フォーマット変換装置の概略的な構成を示している。音声フォーマット変換装置100は、音声データ分割部10と、第1の音声フォーマット変換部20Aと、第2の音声フォーマット変換部20Bと、音声データ結合部30とを備える。
次に、音声フォーマット変換装置100の各構成要素について説明する。音声データ分割部10は、複数のフレームからなる入力オーディオストリームから、複数の分割オーディオストリームを作成する。第1の実施形態では、第1及び第2の分割オーディオストリームを作成する。分割オーディオストリームを作成する際、音声データ分割部10は、連続する2つの分割オーディオストリームについて、第1の分割オーディオストリームの末尾に第2の分割オーディオストリームの先頭から所定数のフレームと同一のフレームを付加する。この所定数は、遅延フレームの総数を考慮して決められる。
また、音声データ分割部10は、この所定数を音声データ結合部30に、分割オーディオストリームの結合時に破棄すべきフレーム数(破棄フレーム数)として通知する。
第1及び第2の音声フォーマット変換部20A、20Bはそれぞれ、並列処理可能な異なるプロセッサコアに設けられており、入力された分割オーディオストリームに対する音声フォーマット変換処理を行い、変換オーディオストリームをそれぞれ生成する。分割オーディオストリームの変換処理が完了すると、音声フォーマット変換部20A,20Bは変換処理完了通知および変換オーディオストリームを音声データ結合部30に出力する。
音声フォーマット変換処理は、音声デコード処理、リサンプル処理、および音声エンコード処理を含む。音声デコード処理は、圧縮された音声データをデコードして時間ドメインの音声データに戻す処理である。リサンプル処理は、音声デコード処理で得られた音声データのサンプリングレートを変換する処理である。音声エンコード処理は、リサンプル処理された音声データを、指定された音声フォーマットで圧縮する処理である。
これら3つの処理はいずれも、処理対象となっている音声データよりも少し前の音声データ(例えば数十ms前の音声データ)を必要とする逐次的な処理である。したがって、必要な量の過去の音声データを保存しておくバッファ(遅延バッファ)が必要となる。このため、図1に示すように、音声フォーマット変換部20A,20Bには、音声デコード処理用の遅延バッファ21、リサンプル処理用の遅延バッファ22および音声エンコード処理用の遅延バッファ23が設けられている。必要となる遅延バッファのサイズは、音声デコード処理、リサンプル処理および音声エンコード処理ごとに異なり、また、それぞれの処理条件(フォーマット種別、サンプリングレートなど)によっても変化する。
音声データ結合部30は、処理が完了した変換オーディオストリームを記憶装置300に出力する。ここで、第2の音声フォーマット変換部20Bから出力された変換オーディオストリームは、先頭から所定数のフレームを破棄して出力される。この所定数、即ち分割オーディオストリームの結合時に破棄されるフレーム数は、音声データ分割部10から通知された破棄フレーム数である。即ち、音声データ結合部30は、先頭から所定数のフレームが破棄された変換オーディオストリームを前の変換オーディオストリームの末尾に順次付加していき、出力オーディオストリームを生成する。
記憶装置200は、入力オーディオストリームを格納し、記憶装置300は出力オーディオストリームを格納する。なお、入出力用の記憶装置200、300を分けずに、まとめて一つの記憶装置としてもよい。入力オーディオストリームは音声データ分割部10の処理の前に、ワークメモリ等に一旦すべてコピーしてもよい。また、より高速化を図るために、記憶装置200から入力オーディオストリームのフレームを読み出す度に各音声フォーマット変換部に対し順番に読み出されたフレームを入力するようにしてもよい。この場合、不連続番号のフレームを読み出すことになるため、記憶装置200としてランダムアクセス可能な記憶装置(半導体メモリ、光ディスク、磁気ディスク等)を用いることが必要である。
次に、第1の実施形態に係る音声フォーマット変換方法について説明する。ここでは、約30秒分のAACフォーマットによるオーディオストリームのビットレート変換を例にとる。具体的な条件は以下の通りである。サンプリングレート(サンプリング周波数)は、変換前及び変換後ともに48kHzである。チャネル数は、変換前5.1ch、変換後1chである。エンコードのビットレートは、変換前640kbps、変換後48kbpsである。サンプル数は、変換前及び変換後ともに1024sample/frameである。これらの条件は、ユーザによりアプリケーションのインタフェースを通じて入力される。または、予め音声フォーマットに基づき設定されていてもよい。なお、条件にプロセッサコアの数も含めることができる。
第1の実施形態に係る音声フォーマット変換方法について、図2A及び図2Bのフローチャートに沿って説明する。入力オーディオストリームは、図3(a)に示すように、A0〜A1405の1406個のフレームから構成されているとする。
音声データ分割部10は、第1及び第2の音声フォーマット変換部20A,20Bにおける遅延フレームの総数を計算する(S101)。なお、遅延フレームの総数とは、音声デコード処理、リサンプル処理および音声エンコード処理における遅延フレーム数の合計である。
変換処理条件に対応する各処理の遅延フレーム数は、遅延量テーブルを参照して得られる。この遅延量テーブルは、音声フォーマット変換部における各処理ごとに存在し、各処理に必要となる遅延フレーム数を変換処理条件に対応させて格納している。なお、この遅延フレーム数は、遅延バッファのサイズを整数に切り上げた数である。
遅延量テーブルの一例を図5に示す。図5(a)は、音声デコード処理における音声フォーマットごとの遅延フレーム数を示している。図5(b)は、リサンプル処理における、入出力サンプリング周波数ごとの遅延フレーム数を示している。図5(c)は、音声エンコード処理における音声フォーマットごとの遅延フレーム数を示している。なお、遅延量テーブルは、音声フォーマット変換装置100内のメモリやレジスタに配置してもよいし、音声フォーマット変換装置100の外部に設けられたメモリに配置してもよい。
上記の条件(入出力フォーマット:AAC、入出力データのサンプリング周波数:48kbps)の遅延フレーム数は、音声デコード処理“1”、リサンプル処理“0”および音声エンコード処理“1”であることがわかる。従って、第1及び第2の音声フォーマット変換部20A,20Bにおいて生じる遅延フレームの総数Dは2となる。
音声データ分割部10は、第1及び第2の音声フォーマット変換部20A、20Bで処理される分割オーディオストリームの先頭フレーム番号をそれぞれ計算する(S102)。j番目の音声フォーマット変換部に入力される分割オーディオストリームの先頭フレーム番号は、式(1)を用いて計算される。
Figure 2012108254
ここで、Fhead:先頭フレーム番号、S:入力オーディオストリームのフレーム数、N:音声フォーマット変換部の数である。関数Intは引数が整数でない場合、小数点以下を切り捨てて得られる整数値を返す。
S=1406及びN=2であるから、第1の音声フォーマット変換部20Aに入力される分割オーディオストリームの先頭フレーム番号は0となる。また、第2の音声フォーマット変換部20Bに入力される分割オーディオストリームの先頭フレーム番号は703となる。
音声データ分割部10は、音声フォーマット変換部20A、20Bにより処理される分割オーディオストリームのフレーム数をそれぞれ計算する(S103)。
最終番以外の音声フォーマット変換部(j=1,2,・・・,N−1)により処理される分割オーディオストリームのフレーム数X1は、式(2)を用いて計算される。また、最終番の音声フォーマット変換部(j=N)により処理される分割オーディオストリームのフレーム数X2は、式(3)を用いて計算される。
Figure 2012108254
S=1406、N=2、D=2であるから、第1の音声フォーマット変換部20Aで処理される分割オーディオストリームのフレーム数は705となる。また、第2の音声フォーマット変換部20Bで処理される分割オーディオストリームのフレーム数は703となる。
音声データ分割部10は、計算された先頭フレーム番号およびフレーム数に基づき入力オーディオストリームを分割し、第1の分割オーディオストリームA及び第2の分割オーディオストリームBを作成する(S104)。そして、音声データ分割部10は、第1の分割オーディオストリームAを第1の音声フォーマット変換部20Aに、第2の分割オーディオストリームBを第2の音声フォーマット変換部20Bにそれぞれ出力する。
図3(b)は、第1の分割オーディオストリームA、及び第2の分割オーディオストリームBを示している。第1の分割オーディオストリームAは、A0〜番号704のA704の705フレームからなり、第2の分割オーディオストリームBは、A703〜A1405の703フレームからなる。
第1及び第2の分割オーディオストリームA、Bは、共通フレームA703、A704を有する。すなわち、第1の分割オーディオストリームAは、その末尾に、第2の分割オーディオストリームBの先頭から所定数(この場合は2)のフレームと同一のフレームを有する。この共通フレームはいわば“のりしろ”として機能するものであり、共通フレーム数はS101で計算された遅延フレームの総数となる。
第1及び第2の音声フォーマット変換部20A、20Bは、それぞれに入力された分割オーディオストリームに対して音声フォーマット変換処理を並列に実行する(S105)。その結果、音声フォーマット変換部20A(20B)は、変換オーディオストリームA(B)を生成する。図4(a)は変換オーディオストリームAを示し、図4(b)は変換オーディオストリームBを示している。なお、変換オーディオストリームBのうち先頭の2フレームは、変換処理において遅延フレームの総数分の過去フレームを使用できないため、不完全となる。
第1及び第2の音声フォーマット変換部20A,20Bは、音声フォーマット変換処理を完了すると、音声データ結合部30に変換処理完了通知及び変換オーディオストリームA,Bを出力する。
ここで、音声データ結合部30は、インデックスj=1とする(S106)。音声データ結合部30は、j番目の音声フォーマット変換部の変換処理が完了したかどうかを判定する(S107)。変換処理が完了したかどうかは、各音声フォーマット変換部からの変換処理完了通知を受信したか否かにより判定する。
音声データ結合部30は、インデックスjが1か否かを判定する(S108)。インデックスj=1の場合(S108−Yes)、音声データ結合部30は、1番目の音声フォーマット変換部から出力された第1の変換オーディオストリームをそのままワークメモリに格納する(S109)。このワークメモリは音声データ結合部30内や音声フォーマット変換装置100に設けられたものを用いることができる。
インデックスjが1でない場合(S108−No)、音声データ結合部30は、j番目の音声フォーマット変換部から出力された第jの変換オーディオストリームについて先頭から所定数のフレームを破棄した後、第(j−1)の変換オーディオストリームの後ろに結合するようにワークメモリに格納する(S111)。この所定数(破棄フレーム数)は、S101で計算された遅延フレームの総数である。
第1の音声フォーマット変換部20Aからの第1の変換オーディオストリームAは、そのままB0〜B704のフレームがワークメモリに出力される。一方、第2の音声フォーマット変換部20Bからの第2の変換オーディオストリームBは、音声データ結合部30において、先頭の2フレームB703、B704が破棄され、B705〜B1405のフレームがワークメモリに出力される。
インデックスjに1を加算する(S110)。そして、全ての音声フォーマット変換部の変換オーディオストリームをワークメモリに出力したかどうかを判定する(S112)。Yesならば変換処理を終了し、NoならばS107に戻る。
上記フロー処理を行うことで、各音声フォーマット変換部からの変換オーディオストリームを順次結合し、出力オーディオストリームを得る。図4(c)は、ワークメモリに書き込まれた出力オーディオストリームを示している。この出力オーディオストリームは、従来のように入力オーディオストリームを分割せずに音声フォーマット変換処理した場合と同一である。
なお、出力オーディオストリームを生成する別の方法として、音声フォーマット変換装置100の外に設けられた記憶装置300において各変換オーディオストリームを結合してもよい。この場合、音声データ結合部30は、変換オーディオストリームAをワークメモリに格納することなく記憶装置300に出力し、変換オーディオストリームBについては先頭から所定数のフレームを破棄した後、変換オーディオストリームAの後ろに結合するように記憶装置300に出力する。
第1の実施形態では、音声変換処理における遅延バッファの影響を考慮し、遅延フレームの総数分の共通フレームを、分割オーディオストリームAの末尾に付加する。そして、変換オーディオストリームA及びBを結合する際に、変換オーディオストリームBの不完全なフレームを破棄する。これにより、オーディオストリームを構成するフレームの連続性を損なうことなく、出力オーディオストリームを生成することができる。
このように第1の実施形態によれば、音声フォーマット変換処理を2個のプロセッサコアを用いて並列処理しているため、音声フォーマット変換処理を高速化することができる。
(第2の実施形態)
次に、第2の実施形態について説明する。第1の実施形態との相違点の一つは音声フォーマット変換部の数であり、第2の実施形態は音声フォーマット変換部がN個である。以下、第1の実施形態と異なる部分のみ説明する。
図6は、第2の実施形態に係る音声フォーマット変換装置の概略的な構成を示している。音声フォーマット変換装置100Aは、音声データ分割部10と、第1〜第Nの音声フォーマット変換部20A,20B,20Cと、音声データ結合部30とを備える。
各音声フォーマット変換部は、遅延バッファ21、遅延バッファ22および遅延バッファ23を有する。各音声フォーマット変換部は、分割オーディオストリームの変換処理が完了すると、変換処理完了通知及び変換オーディオストリームを音声データ結合部30に出力する。第1〜第Nの音声フォーマット変換部20A、20B及び20Cは、並列処理可能な異なるプロセッサコアにそれぞれ設けられている。
次に、第2の実施形態に係る音声フォーマット変換方法について説明する。 ここでは、AACフォーマットによるオーディオストリームのビットレート変換を例にとる。具体的に示す例として、音声フォーマット変換部は3つとし、入力オーディオストリームの構成(図3(a))、及びサンプリングレート等の変換処理の条件は、第1の実施形態の場合と同じとする。第2の実施形態に係る音声フォーマット変換方法も、図2A及び図2Bに示すフローチャートに従う。
まず、音声データ分割部10は、各音声フォーマット変換部20において生じる遅延フレームの総数を計算する(S101)。入力フォーマットおよび変換処理条件から、各音声フォーマット変換部における遅延フレームの総数は2である。
音声データ分割部10は、各音声フォーマット変換部20に入力される分割オーディオストリームの先頭フレーム番号を計算する(S102)。S=1406及びN=3のとき、式(1)によれば、音声フォーマット変換部20A、20B及び20Cに入力される分割オーディオストリームの先頭フレーム番号は、それぞれ0、468及び936となる。
音声データ分割部10は、各音声フォーマット変換部20によって処理される分割オーディオストリームのフレーム数を計算する(S103)。S=1406、N=3、D=2のとき、式(2)及び式(3)によれば、音声フォーマット変換部20A,20B及び20Cで処理される分割オーディオストリームのフレーム数は、いずれも470フレームとなる。
音声データ分割部10は、先頭フレーム番号およびフレーム数に基づき入力オーディオストリームを分割し、第1乃至第Nの分割オーディオストリームを作成する(S104)。第1乃至第N−1の分割オーディオストリームは、末尾に遅延フレームの総数分の共通フレームが付加されている。そして、音声データ分割部10は、第1乃至第Nの分割オーディオストリームをそれぞれ、第1乃至第Nの音声フォーマット変換部20に出力する。
図7は、音声フォーマット変換部が3つの場合の分割オーディオストリームA,B及びCを示している。分割オーディオストリームA及びBは、共通フレーム(A468及びA469)を有する。また、分割オーディオストリームB及びCは、共通フレーム(A936及びA937)を有する。これら共通フレーム数はいずれも遅延フレームの総数に等しい。
各音声フォーマット変換部20は、入力された分割オーディオストリームに対して音声フォーマット変換処理を実行し、変換オーディオストリームをそれぞれ生成する。図8は、変換オーディオストリームA、B及びCを示している。第2乃至第Nの変換オーディオストリームのうち先頭の2フレームは、変換処理において遅延フレームの総数分の過去フレームを使用できなかったため、不完全なものである。
その後、第1の実施形態と同様にS106〜S110の処理を行う。音声フォーマット変換部20Bの変換オーディオストリームBについては先頭の2フレームB468、B469を破棄する。また、音声フォーマット変換部20Cの変換オーディオストリームCについては先頭の2フレームB936、B937を破棄する。このように不完全なフレームを破棄して変換オーディオストリームを結合することで、出力オーディオストリーム(図8(d))が得られる。
第2の実施形態では、N個の分割オーディオストリームのうち、第1乃至第N−1の分割オーディオストリームの末尾に、遅延フレームの総数分の共通フレームを付加し、変換処理を行う。そして、変換処理において不完全なフレームを破棄することにより、オーディオストリームを構成するフレームの連続性を損なうことがなく、出力オーディオストリームを生成することができる。また、第2の実施形態によれば、音声フォーマット変換処理を第1の実施形態よりもさらに高速化することができる。
次に、本実施形態の変形例について説明する。例えば、音声フォーマット変換部においてオーディオストリームの最終フレームに対して音声をフェードアウトするように処理する仕様となっている場合がある。また、音声フォーマットのサンプル数が入出力で異なる場合、変換オーディオストリームの最後のフレームの空き部分に0データが埋め込む場合がある。これらの場合には、変換オーディオストリームの最後のフレームが不完全なものとなり、出力オーディオストリームに用いることができない。
そこで、上記の場合には、分割する際に遅延フレームの総数+1個の共通フレームを分割オーディオストリームの末尾に付加し、結合する際に変換オーディオストリームの最後のフレームを破棄する。
より具体的には、図9に示すように、音声データ分割部10は、遅延フレームの総数(2)+1(=3個)の共通フレームを分割オーディオストリームA及びBの末尾に付加しておく。なお、分割オーディオストリームCは第2の実施形態の場合と同じである(図9(c))。即ち、本変形例では、分割オーディオストリームA及びBのフレーム数X1を求めるために、式(2)の代わりに式(4)を用いる。
Figure 2012108254
そして、音声データ結合部30は、変換オーディオストリームB及びCの先頭から2フレームを破棄するとともに、変換オーディオストリームA及びBの最後のフレームを破棄する(図10)。さらに1フレーム分を付加して変換処理することにより、変換オーディオストリームA及びBの最後のフレームが不完全となる場合でも、本実施形態においては所望の出力オーディオストリームを生成することができる。
本実施形態ではプロセッサコアが2つおよび3つであったが、これに限るものではなく、プロセッサコアの数、即ち音声フォーマット変換部の数は任意である。よって、音声フォーマット変換処理は並列処理可能なプロセッサコアの数に応じてスケーラブルに高速化することができる。
また、入力音声データは、圧縮されたデータに限らず、音声デコード処理が不要なPCMデータであってもよい。
また、本実施形態においては、音声データ結合部30による変換オーディオストリームの記憶装置300への出力処理は、インデックスjの小さい順に行ったが(S106乃至S112)、これに限らず、変換処理完了通知を受信した順に変換オーディオストリームを出力してもよい。
上記の記載に基づいて、当業者であれば、本発明の追加の効果や種々の変形を想到できるかもしれないが、本発明の態様は、上述した実施形態に限定されるものではない。特許請求の範囲に規定された内容及びその均等物から導き出される本発明の概念的な思想と趣旨を逸脱しない範囲で種々の追加、変更及び部分的削除が可能である。
10 音声データ分割部
20A,20B,20C 音声フォーマット変換部
21,22,23 遅延バッファ
30 音声データ結合部
100,100A 音声フォーマット変換装置
200 記憶装置
300 記憶装置

Claims (5)

  1. 複数のフレームからなる入力オーディオストリームから第1乃至第Nの分割オーディオストリーム(N:2以上の整数)を作成し、前記第1乃至第Nの分割オーディオストリームのうち、前記第iの分割オーディオストリーム(i:1以上N−1以下の整数)の末尾に前記第i+1の分割オーディオストリームの先頭から所定数のフレームと同一のフレームを付加する、音声データ分割部と、
    前記音声データ分割部から入力された前記第1乃至第Nの分割オーディオストリームに対する音声フォーマット変換処理を並列に行い、第1乃至第Nの変換オーディオストリームを生成する、第1乃至第Nの音声フォーマット変換部と、
    前記第2乃至第Nの変換オーディオストリームの先頭から前記所定数のフレームを破棄した後、前記第1乃至第Nの変換オーディオストリームを順次結合して出力オーディオストリームを生成する、音声データ結合部と、
    を備えることを特徴とする音声フォーマット変換装置。
  2. 前記所定数は、前記音声フォーマット変換部の音声デコード処理、リサンプル処理および音声エンコード処理における遅延フレームの総数に等しいことを特徴とする請求項1に記載の音声フォーマット変換装置。
  3. 前記音声データ結合部は、前記第2乃至第Nの変換オーディオストリームの先頭から前記所定数−1個のフレームを破棄し、前記第1乃至第N−1の変換オーディオストリームの最後のフレームを破棄した後、前記第1乃至第Nの変換オーディオストリームを順次結合して出力オーディオストリームを生成する、
    ことを特徴とする請求項1に記載の音声フォーマット変換装置。
  4. 前記所定数は、前記音声フォーマット変換部の音声デコード処理、リサンプル処理および音声エンコード処理における遅延フレームの総数に1を加えた数に等しいことを特徴とする請求項3に記載の音声フォーマット変換装置。
  5. 第1乃至第N(N:2以上の整数)の音声フォーマット変換部における音声フォーマット変換処理されるオーディオストリームの先頭フレーム番号及び遅延フレームの総数を計算し、
    前記先頭フレーム番号および前記遅延フレームの総数に基づき入力オーディオストリームから第1乃至第Nの分割オーディオストリームを作成し、
    前記第1乃至第Nの音声フォーマット変換部において前記第1乃至第Nの分割オーディオストリームの音声フォーマット変換処理を並列に実行して、第1乃至第Nの変換オーディオストリームを生成し、
    前記第2乃至第Nの変換オーディオストリームの先頭から前記遅延フレームの総数分のフレームを破棄した後、前記第1乃至第Nの変換オーディオストリームを順次結合して出力オーディオストリームを生成する、
    ことを特徴とする音声フォーマット変換方法。
JP2010255987A 2010-11-16 2010-11-16 音声フォーマット変換装置および音声フォーマット変換方法 Withdrawn JP2012108254A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010255987A JP2012108254A (ja) 2010-11-16 2010-11-16 音声フォーマット変換装置および音声フォーマット変換方法
US13/049,567 US20120123787A1 (en) 2010-11-16 2011-03-16 Audioaudio format converting apparatus and audioaudio format converting method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010255987A JP2012108254A (ja) 2010-11-16 2010-11-16 音声フォーマット変換装置および音声フォーマット変換方法

Publications (1)

Publication Number Publication Date
JP2012108254A true JP2012108254A (ja) 2012-06-07

Family

ID=46048605

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010255987A Withdrawn JP2012108254A (ja) 2010-11-16 2010-11-16 音声フォーマット変換装置および音声フォーマット変換方法

Country Status (2)

Country Link
US (1) US20120123787A1 (ja)
JP (1) JP2012108254A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022079776A1 (ja) * 2020-10-12 2022-04-21 株式会社デンソーテン 音声信号処理装置及び音声信号処理方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10083699B2 (en) * 2012-07-24 2018-09-25 Samsung Electronics Co., Ltd. Method and apparatus for processing audio data
CN104050968B (zh) * 2014-06-23 2017-02-15 东南大学 一种嵌入式音频采集端aac音频编码方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100575538B1 (ko) * 1999-07-14 2006-05-03 엘지전자 주식회사 오디오데이터 변환장치 및 이에서의 데이터 전송방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022079776A1 (ja) * 2020-10-12 2022-04-21 株式会社デンソーテン 音声信号処理装置及び音声信号処理方法
US11889277B2 (en) 2020-10-12 2024-01-30 Denso Ten Limited Sound signal processing device and sound signal processing method

Also Published As

Publication number Publication date
US20120123787A1 (en) 2012-05-17

Similar Documents

Publication Publication Date Title
US11115541B2 (en) Post-teleconference playback using non-destructive audio transport
TWI363563B (en) Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream
CN101189662B (zh) 带多级码本和冗余编码的子带话音编解码器
US8670990B2 (en) Dynamic time scale modification for reduced bit rate audio coding
JP5734517B2 (ja) 多チャンネル・オーディオ信号を処理する方法および装置
US9489962B2 (en) Sound signal hybrid encoder, sound signal hybrid decoder, sound signal encoding method, and sound signal decoding method
JP2005157390A (ja) 付加情報の挿入されたmpeg−4bsacオーディオビットストリームの符号化方法および復号化方法ならびに符号化装置および復号化装置
WO2009081567A1 (ja) ステレオ信号変換装置、ステレオ信号逆変換装置およびこれらの方法
WO2011048815A1 (ja) オーディオ符号化装置、復号装置、方法、回路およびプログラム
JP5785082B2 (ja) オーディオ・ストリームを合成する装置、方法及びプログラム
CN109983535B (zh) 具有子带能量平滑的基于变换的音频编解码器和方法
JP2012108254A (ja) 音声フォーマット変換装置および音声フォーマット変換方法
JP4256331B2 (ja) 音声データエンコード装置および音声データデコード装置
US9640190B2 (en) Decoding method, decoding apparatus, program, and recording medium therefor
JP2022539608A (ja) オーディオストリーム内のメタデータのコーディングのためおよびオーディオストリームのコーディングへの効率的なビットレートの割り当てのための方法およびシステム
WO2019216187A1 (ja) ピッチ強調装置、その方法、およびプログラム
JP4973422B2 (ja) 信号記録再生装置及び方法
US7239999B2 (en) Speed control playback of parametric speech encoded digital audio
Rybakov et al. Streaming Parrotron for on-device speech-to-speech conversion
JP2006153908A (ja) 音声データエンコード装置および音声データデコード装置
US20110010179A1 (en) Voice synthesis and processing
JP2018532153A (ja) オーディオ変換コーディングにおけるオーバーラップ率の信号適応スイッチングのための符号化器、復号器および方法
JP4741208B2 (ja) 音声合成用読み上げテキストデータ選択プログラムおよび音声合成用読み上げテキストデータ選択装置
JP4470122B2 (ja) 音声符号化装置、音声復号化装置、音声符号化プログラムおよび音声復号化プログラム
CN111866542A (zh) 音频信号处理方法、多媒体信息处理方法、装置及电子设备

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20140204