JP4516345B2 - 音声符号化情報処理装置および音声符号化情報処理プログラム - Google Patents

音声符号化情報処理装置および音声符号化情報処理プログラム Download PDF

Info

Publication number
JP4516345B2
JP4516345B2 JP2004118361A JP2004118361A JP4516345B2 JP 4516345 B2 JP4516345 B2 JP 4516345B2 JP 2004118361 A JP2004118361 A JP 2004118361A JP 2004118361 A JP2004118361 A JP 2004118361A JP 4516345 B2 JP4516345 B2 JP 4516345B2
Authority
JP
Japan
Prior art keywords
speech
frequency coefficient
coding information
speech coding
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004118361A
Other languages
English (en)
Other versions
JP2005301002A (ja
Inventor
智康 小森
善明 鹿喰
和久 井口
秀一 青木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2004118361A priority Critical patent/JP4516345B2/ja
Publication of JP2005301002A publication Critical patent/JP2005301002A/ja
Application granted granted Critical
Publication of JP4516345B2 publication Critical patent/JP4516345B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、音声を符号化した音声符号化情報を処理する音声符号化情報処理装置および音声符号化情報処理プログラムに関する。
従来、音声を符号化情報(音声符号化情報、いわゆる、音声ストリーム)に変換する変換符号化方法には、MPEG−layer1,2,3、ドルビーAC−3、MPEG−2 Advanced Audio Coding(AAC)等の各種の方法がある。
また、音声符号化情報(音声ストリーム)を処理するものとして、例えば、「ミキシング回路、符号化処理装置および符復号化装置」(特許文献1参照)、「AAC音声符号化の復号方法と符号化方法」(非特許文献1参照)、「オーディオデータのカスケード式符号化および復号化方法」(特許文献2参照)、「デジタル化オーディオ信号の伝送方法」(特許文献3参照)、「オーディオ信号の符号化方法及び符号化装置」(特許文献4参照)が挙げられる。
これらを簡単に説明すると、「ミキシング回路、符号化処理装置および符復号化装置」には、いわゆるビットストリームデータ同士のミキシングを可能にすることが開示されているが、ミキシング可能なビットストリームデータが、PCMデータ等のrawデータ(生データ、元のままのデータ)に限定されている。また、「AAC音声符号化の復号方法と符号化方法」には、文字通り、AAC音声符号化情報(AACの音声ストリーム)の復号方法と符号化方法の例が記述されているが、高音質化の方法や効率的な再符号化方法等は記述されていない。
また、「オーディオデータのカスケード式符号化および復号化方法」には、いわゆるタンデムコーデック時(カスケード式オーディオコーデック;オーディオ信号(音声)のカスケード式の符号化、復号化)に窓かけの同期をとる方法が開示されており、カスケード接続時に音声をベースバンド信号に復号してから再符号化する場合に、窓かけの同期をとることで、音声の音質劣化を改善可能なことが記述されている。しかし、音声符号化情報(音声ストリーム)の接続や、ミキシングを行った場合の音声の音質劣化に関しては、窓かけの同期をとることが、音声の音質劣化を改善できるか否か言及されていない。
また、「デジタル化オーディオ信号の伝送方法」には、タンデムコーデック時の符号化パラメータを継承して、音声を符号化する方法が開示されており、例えば、高レートの音声符号化情報(音声ストリーム)を低レートの音声符号化情報に変換する際に、符号化パラメータを利用することで、タンデムコーデック時の音声の音質劣化(符号化劣化)を減少させることや、エラー保護を行うことが開示されている。しかし、音声符号化情報(音声ストリーム)の接続や、ミキシングを行った場合の音声の音質劣化に関しては、窓かけの同期をとることが、音声の音質劣化を改善できるか否か言及されていない。
さらに、「オーディオ信号の符号化方法及び符号化装置」には、オーディオ信号(音声)を符号化した際の音質劣化を改善する方法と、オーディオ符号化エンコーダの計算量を減少させる方法とが開示されている。しかし、オーディオ符号化エンコーダの計算量を減少させることができるが、再量子化をする際に、効率的な符号化方法に関して言及されていない。
特開平9−321630号公報(段落0016〜0026、図1) 特表平9−503637号公報(発明の詳細な説明、全頁) 特開平1−501435号公報(4頁左下〜5頁左上、図1) 特開2003−271199号公報(段落0029〜0034、図1) ISO/IEC−13818−7:2003 part7:Advanced Audio Coding(AAC) part7全頁
しかしながら、従来の音声符号化情報(音声ストリーム)を処理するものでは、音声符号化情報が、一度時間領域のデータに変換された状態で、再度エンコード(再符号化)されて、音声符号化情報同士を加算したり、接続したりして行っていたので、再符号化時に符号化劣化が生じ、結果として、音声の音質劣化が発生してしまうという問題がある。
また、音声符号化情報(音声ストリーム)を処理する装置では、音声符号化情報を符号化・復号化するデコーダ・エンコーダを具備するために、回路規模が大きくなり、コストが増加すると共に、当該デコーダ・エンコーダによる演算量(計算量)が増加するという問題がある。
さらに、背景技術のところで、列記した「ミキシング回路、符号化処理装置および符復号化装置」および「オーディオ信号の符号化方法及び符号化装置」には、高音質化の方法や効率的な再符号化方法等が記載されておらず、「オーディオデータのカスケード式符号化および復号化方法」および「デジタル化オーディオ信号の伝送方法」には、音声の音質劣化を改善できるか否かが記載されておらず、実際に、音声符号化情報を処理する場合に、音声の音質劣化を改善して、効率的な再符号化を行うことが実現されていないという問題がある。
そこで、本発明では、前記した問題を解決し、回路規模を大きくすることなく、コストおよび演算量の増加を抑制し、符号化劣化が生じることなく、音声の音質劣化を防止して、効率的な再符号化を実現することができる音声符号化情報処理装置および音声符号化情報処理プログラムを提供することを目的とする。
前記課題を解決するため、請求項1に記載の音声符号化情報処理装置は、音声を符号化した音声符号化情報が複数集まってなる音声符号化情報群を周波数係数に変換して加算した後、前記音声符号化情報に変換する音声符号化情報処理装置であって、入力された前記音声符号化情報群を周波数係数に変換する周波数係数変換手段と、この周波数係数変換手段によって変換された周波数係数に、前記音声符号化情報それぞれの出力比率となるゲインを乗算するゲイン乗算手段と、このゲイン乗算手段から出力された周波数係数を加算する周波数係数加算手段と、この周波数係数加算手段によって加算された周波数係数を音声符号化情報に変換する音声符号化情報変換手段と、を備え、前記ゲイン乗算手段は、前記音声符号化情報のそれぞれに予め含まれている量子化精度情報を変更することで、前記ゲインを乗算する際の計算量を削減し、前記周波数係数加算手段は、前記周波数係数を加算する際に、前記周波数係数の量子化精度を制御する量子化精度制御手段を備え、前記量子化精度制御手段は、2つの前記音声符号化情報のそれぞれに予め含まれているスケールファクター値の差分にゲインと前記2つの前記音声符号化情報のうちの一方を変換した前記周波数係数とを乗じた値に、前記2つの前記音声符号化情報のうちの他方を変換した前記周波数係数を加えて量子化値を算出することで、前記量子化精度の計算量を削減する構成とした。
かかる構成によれば、音声符号化情報処理装置は、周波数係数変換手段によって、入力された複数の音声符号化情報(音声ストリーム)からなる音声符号化情報群を周波数係数に変換する。この周波数係数変換手段は、周波数係数加算手段で加算する単位(ブロック単位)で周波数係数に変換するか、周波数係数を示す要素に変換する。例えば、AACのsyntax(構成法、記述法)によると、周波数係数であるDCT係数は、スケールファクター値、量子化値の関数として記述される。
続いて、この音声符号化情報処理装置は、ゲイン乗算手段によって、この周波数係数変換手段によって変換された周波数係数に、前記音声符号化情報それぞれの出力比率となるゲインを乗算する。音声符号化情報処理装置は、周波数係数変換手段で変換された周波数係数に、ゲイン乗算手段によって、音声符号化情報の出力の比率となるゲイン(例えば、外部から入力された固定値[外部ゲイン])が乗算される。つまり、ゲイン乗算手段で周波数係数に掛けあわせるゲイン(値)は、周波数係数加算手段で加算された際の各音声符号化情報の割合を変化させるものであると言える。また、周波数係数が動的な値であり、可変する場合、当該周波数係数を時間領域の係数とみなして、畳み込みを行うことも可能である。時間領域の信号に畳み込みを行うことで、フィルターやEQ等を実現することができる。つまり、周波数領域の信号にも畳み込みを行うことで、音声符号化情報の成分を変更することができる。さらに、音声符号化情報処理装置は、ゲイン乗算手段によって、量子化精度情報を変更すること、例えば、AACの場合、量子化情報に記述されている量子化値を2倍にする代わりに、スケールファクターゲインを制御して、ほぼ2倍になるようにして、近似計算を行うことで、大幅に計算量の削減を実現することができる。そして、音声符号化情報処理装置は、周波数係数加算手段によって、このゲイン乗算手段から出力された周波数係数を加算する。つまり、この周波数係数加算手段は、周波数係数変換手段で変換されたブロック単位で周波数係数を加算する。そして、この音声符号化情報処理装置は、音声符号化情報変換手段によって、周波数係数加算手段で加算された周波数係数を音声符号化情報に変換する。この音声符号化情報変換手段では、まず、加算した周波数係数をコーデック(例えば、ハフマン符号化)した符号化データとし、次に、この符号化データを並べ替えたストリーム(音声ストリーム;音声符号化情報)として出力する。
また、音声符号化情報処理装置は、周波数係数加算手段が量子化精度制御手段を備え、量子化精度を制御することで、異なる量子化精度情報を持った、音声符号化情報の周波数係数を加算することができる。
また、音声符号化情報処理装置は、量子化精度制御手段が音声符号化情報のそれぞれに予め含まれている量子化精度情報、つまり、符号化後の音声の細かさを制御するものに基づいて、音声符号化情報を復号する際の誤差を大きくとってもいい場合であれば、周波数係数および量子化精度情報を計算する回数を減らすことができるため、計算量を大幅に削減することができる。
請求項に記載の音声符号化情報処理装置は、請求項1に記載の音声符号化情報処理装置において、接続点制御手段と、音声符号化情報切替手段と、をさらに備える構成とした。
かかる構成によれば、音声符号化情報処理装置は、接続点制御手段によって、音声符号化情報群に含まれている各音声符号化情報の接続する箇所を示す接続点近傍で、当該音声符号化情報を接続し、音声符号化情報切替手段によって、接続された音声符号化情報と、接続されなかった音声符号化情報とを切り替えて出力する。
請求項に記載の音声符号化情報処理プログラムは、音声を符号化した音声符号化情報が複数集まってなる音声符号化情報群を周波数係数に変換して加算した後、前記音声符号化情報に変換する装置を、入力された前記音声符号化情報群を周波数係数に変換する周波数係数変換手段、この周波数係数変換手段によって変換された周波数係数に、前記音声符号化情報それぞれの出力比率となるゲインを乗算するゲイン乗算手段、このゲイン乗算手段から出力された周波数係数を加算する周波数係数加算手段、この周波数係数加算手段によって加算された周波数係数を音声符号化情報に変換する音声符号化情報変換手段、として機能させ、前記ゲイン乗算手段は、前記音声符号化情報のそれぞれに予め含まれている量子化精度情報を変更することで、前記ゲインを乗算する際の計算量を削減し、前記周波数係数加算手段は、前記周波数係数を加算する際に、前記周波数係数の量子化精度を制御する量子化精度制御手段を備え、前記量子化精度制御手段は、2つの前記音声符号化情報のそれぞれに予め含まれているスケールファクター値の差分にゲインと前記2つの前記音声符号化情報のうちの一方を変換した前記周波数係数とを乗じた値に、前記2つの前記音声符号化情報のうちの他方を変換した前記周波数係数を加えて量子化値を算出することで、前記量子化精度の計算量を削減する構成とした。
かかる構成によれば、音声符号化情報処理プログラムは、周波数係数変換手段によって、入力された複数の音声符号化情報(音声ストリーム)からなる音声符号化情報群を周波数係数に変換する。続いて、この音声符号化情報処理プログラムは、周波数係数加算手段によって、周波数係数変換手段で変換された周波数係数を加算し、音声符号化情報変換手段によって、周波数係数加算手段で加算された周波数係数を音声符号化情報に変換する。この音声符号化情報変換手段では、まず、加算した周波数係数をコーデック(例えば、ハフマン符号化)した符号化データとし、次に、この符号化データを並べ替えたストリーム(音声ストリーム;音声符号化情報)として出力する。
請求項1、に記載の発明によれば、入力された複数の音声符号化情報(音声ストリーム)からなる音声符号化情報群を周波数係数に変換し、この変換された周波数係数を加算する。そして、加算された周波数係数を音声符号化情報に変換する。このため、音声符号化情報を周波数領域で処理することによって、従来のように、音声符号化情報を時間領域のデータに変換するために回路規模を大きくすることなく、コストおよび演算量の増加を抑制することができ、さらに、音声符号化情報の復号・符号化に伴って発生する符号化劣化が生じることなく、音声の音質劣化を防止することができる。
また、請求項1、3に記載の発明によれば、周波数係数を加算する際に、量子化精度を制御することで、異なる量子化精度情報を持った音声符号化情報を変換した周波数係数を加算することができる。
また、請求項1、3に記載の発明によれば、音声符号化情報のそれぞれに予め含まれている量子化精度情報、つまり、符号化後の音声の細かさを制御するものを利用して、量子化精度(丸め誤差)の計算量を削減することによって、回路規模を大きくすることなく、コストの増加を抑制することができる。
また、請求項1、3に記載の発明によれば、ゲイン(例えば、外部から入力された固定値[外部ゲイン])が乗算されるので、音声符号化情報の復号・符号化に伴って発生する符号化劣化が調整され、音声の音質劣化を防止することができる。
また、請求項1、3に記載の発明によれば、量子化精度情報を変更すること、例えば、AACの場合、量子化情報に記述されている量子化値を2倍にする代わりに、スケールファクターゲインを制御して、ほぼ2倍になるようにして、近似計算を行うことで、大幅に計算量の削減を実現することができる。
請求項に記載の発明によれば、音声符号化情報群に含まれている各音声符号化情報の接続する箇所を示す接続点近傍で、当該音声符号化情報を接続し、接続された音声符号化情報と、接続されなかった音声符号化情報とを切り替えて出力する。このため、接続点近傍での異音の発生を抑制することができると共に、接続点近傍以外での計算量を大きく削減し、接続点近傍以外での音の音質劣化を抑制することができる。
次に、本発明の実施形態について、適宜、図面を参照しながら詳細に説明する。
この実施形態の説明では、音声符号化情報処理装置について、第一実施形態から第六実施形態までの6個の実施形態を説明することとし、まず、第一実施形態から第六実施形態までのそれぞれの音声符号化情報処理装置の構成の説明、動作の説明を順次行うこととする。
〈音声符号化情報処理装置[第一実施形態]の構成〉
図1は、音声符号化情報処理装置のブロック図である。
この図1に示すように、音声符号化情報処理装置1は、複数の音声符号化情報(音声ストリーム)が入力され、これらの音声符号化情報(複数の音声符号化情報を音声符号化情報群という)を、周波数領域で加算して処理するもので、周波数係数変換手段3と、周波数係数加算手段5と、音声符号化情報変換手段7とを備えている。
周波数係数変換手段3は、音声符号化情報(音声ストリーム)を周波数領域上のデータである周波数係数(または、周波数係数を示す要素)に変換するものである。この周波数係数変換手段3は、周波数係数加算手段5で周波数係数の加算が行えるように、音声符号化情報(音声ストリーム)のブロック単位で、当該音声符号化情報を周波数係数に変換する。この実施形態では、周波数係数変換手段3は、音声符号化情報として、AACの音声ストリームを入力しており、当該周波数係数変換手段3は、AACの音声ストリームを、周波数係数であるDCT(Discrete Cosine Transform)係数に変換している。
また、この周波数係数変換手段3は、音声符号化情報(音声ストリーム)に含まれているヘッダ情報を分離して、音声符号化情報変換手段7に出力するものである。このヘッダ情報には、音声符号化情報の属性を定義したプロファイルと、サンプリング周波数と、チャンネルコンフィグレーション等が含まれている。つまり、音声符号化情報の内、本体の音声信号(オーディオ信号)以外の部分は、周波数係数に変換する必要が無いので、分離されて、改めて音声符号化情報に再符号化する際に用いられることとなる。
さらに、音声符号化情報の内において、本体の音声信号(オーディオ信号)以外の部分には、シングルチャンネルの音声符号化情報(音声ストリーム)であるのか、カップリングチャンネルの音声符号化情報であるのか、TNSやパルスコーディングが使用された音声符号化情報であるのかを示す情報が含まれている。
DCT係数は、時間領域の信号である音声符号化情報(音声ストリーム)を周波数領域の信号に変換したものであり、スケールファクター値と量子化値との関数によって表されるものである。
スケールファクター値は、DCT係数の値を制御する値の一つであり、量子化精度を制御する値である。
量子化値は、DCT係数を浮動小数点形式で表現した場合の仮数値(常用対数の正の小数部分)を指すものである。
また、スケールファクター値は、グローバルゲインとスケールファクターゲインとによって表されるものである。
グローバルゲインおよびスケールファクターゲインは、量子化精度をどのくらいにしているかを示している係数(量子化係数)のことであり、音声符号化情報の周波数帯域毎に量子化係数を変化させて、精度を変化させるためのものである。
また、周波数係数を示す要素として表すと、AACの音声ストリームは、DCT係数をK、量子化値をR、スケールファクター値をS、ゲインをG(G^S)とすると、K=R×G^S(GS)と表すことが可能となる。
また、スケールファクター値Sについて、グローバルゲインをglgとし、スケールファクターゲインをsfgとすると、スケールファクター値は、S=glg−sfg[sb]で表現される。
音声符号化情報処理装置1に入力される2つ(複数、ここでは2つ)の音声符号化情報を、音声ストリームAおよび音声ストリームBとすると、この周波数係数変換手段3から出力される周波数係数は、R_A[I]およびR_B[I]と表現することとする。但し、I=0〜1023である。また、音声ストリームAおよび音声ストリームBのゲインは、S_A[sb]およびS_B[sb]と表現することとし、S_A[sb]=S_B[sb]とする。但し、sb=0〜48である。
なお、sbは、スケールファクター値のインデックスであり、IはDCT係数、量子化値のインデックスである。また、DCT係数K、量子化値R、ゲインG(G^S)の具体的な算出(導出)方法については、ISO/IEC 13818−7 9.Noiseless Codingにおいて量子化値Rの算出方法が、同10.QuantizationにおいてDCT係数Kの算出方法が、同11.ScalefactorsにおいてゲインG(G^S)の算出方法がそれぞれ記載されている。このスケールファクター値のインデックスであるsbについて、周波数係数(DCT係数)のバンド分けの例を図14に示す。
この図14に示すように、スケールファクター値のインデックスsb(0〜48)と、offsetの値およびtopの値とが関連付けられている。
図1に戻って、音声符号化情報処理装置1の構成の説明を続ける。
周波数係数加算手段5は、周波数係数変換手段3で音声符号化情報(音声ストリーム)が変換された周波数係数を、ブロック単位で加算するものである。この実施形態では、周波数係数変換手段3は、音声符号化情報として、AACの音声ストリームを入力しており、この場合、1024周波数係数が1ブロック単位となる。加算する周波数係数は、予め周波数係数変換手段3で付加しておいたスケールファクター値のインデックスが同じもの同士である。つまり、S_A[sb]=S_B[sb]の条件を満たす場合に、新しい量子化値(加算した周波数係数)x_quant_new[I]=R_A[I]+R_B[I]で表すことができる。
音声符号化情報変換手段7は、周波数係数加算手段5によって加算された周波数係数(量子化値)を処理(再符号化、並べ替え)して、いわゆるストリーム(音声ストリーム)を生成するもので、ノイズレスコーディング部7aと、ビットストリームマルチプレクサ部7bとを備えている。
ノイズレスコーディング部7aは、加算された周波数係数(量子化値)を再符号化した符号化データに変換するものである。この実施形態では、ハフマン符号語に変換するものである。なお、具体的な算出方法は、ISO/IEC 13817−7 9章 ANNEX C.8 Noiseless Codingに詳細に記載されている。
また、このノイズレスコーディング部7aは、図15に示すハフマンテーブルを参照して、周波数係数(量子化値)をハフマン符号語に変換している。このハフマンテーブル(ハフマンコードブック)は、データを圧縮する圧縮方法に用いられるもので、よく使われるデータを少ないビット数で表して、逆にあまり使われていないデータを使用している他のデータのビット数よりも多いビット数で表すためのものである。
図1に戻って、音声符号化情報処理装置1の構成の説明を続ける。
ビットストリームマルチプレクサ部7bは、周波数係数変換手段3で分離された当初の音声符号化情報(音声ストリーム)に含まれていたヘッダ情報と、ノイズレスコーディング部7aで符号化された符号化データ(ハフマン符号語)とを、所定の形式に従って、並べ替えて出力するものである。
所定の形式とは、この実施形態では、ISO/IEC 13817−7 6章 syntaxに詳細に記載されている形式を指すものである。このsyntaxに記述されている音声フレームについて、簡単に説明する。
この音声フレームには、ヘッダ部と、データブロック部とがあり、ヘッダ部には各種システム情報(ヘッダ情報)が記述されており、データブロック部には、オーディオデータと、周波数係数変換手段3で変換されたDCT係数Kを表現するための量子化値RおよびゲインG^Sのパラメータとが記述されている。
〈音声符号化情報処理装置[第一実施形態]の動作〉
次に、図7に示すフローチャートを参照して、図1に示した音声符号化情報処理装置1の動作について説明する(適宜、図1参照)。
まず、音声符号化情報処理装置1は、入力された音声符号化情報(音声ストリーム)群を、周波数係数変換手段3によって、周波数係数に変換する(ステップS1)。続いて、音声符号化情報処理装置1は、周波数係数加算手段5によって、周波数係数を加算する(ステップS2)。
そして、音声符号化情報処理装置1は、音声符号化情報変換手段7のノイズレスコーディング部7aによって、加算した周波数係数を、ハフマン符号語にコーディング(符号化)し(ステップS3)、ビットストリームマルチプレクサ部7bによって、ハフマン符号語を並べ替えて、ストリーム化した音声符号化情報(音声ストリーム)に変換して出力する(ステップS4)。
この音声符号化情報処理装置1によれば、周波数係数変換手段3によって、入力された複数の音声符号化情報(音声ストリーム)からなる音声符号化情報群が周波数係数に変換され、周波数係数加算手段5によって、周波数係数変換手段3で変換された周波数係数が加算される。そして、音声符号化情報変換手段7によって、周波数係数加算手段5で加算された周波数係数(加算された音声ストリーム)が再符号化され、この再符号化されたハフマン符号語(符号化データ)が並べ替えられた音声符号化情報(音声ストリーム)として出力される。このため、音声符号化情報を周波数領域で処理することによって、従来のように、音声符号化情報を時間領域のデータに変換するために回路規模を大きくすることなく、コストおよび演算量の増加を抑制することができ、さらに、音声符号化情報の復号・符号化に伴って発生する符号化劣化が生じることなく、音声の音質劣化を防止することができる。
〈音声符号化情報処理装置[第二実施形態]の構成〉
図2は、音声符号化情報処理装置(第二実施形態)のブロック図である。
この図2に示すように、音声符号化情報処理装置1Aは、複数の音声符号化情報(音声ストリーム)が入力され、これらの音声符号化情報を、周波数領域で加算する際に、量子化精度を制御しながら処理するもので、周波数係数変換手段3と、周波数係数加算手段5Aと、音声符号化情報変換手段7Aとを備えている。図1に示した音声符号化情報処理装置1の構成と同じ構成については、同一の符号を付して、その説明を省略する。
周波数係数加算手段5Aは、周波数係数変換手段3で変換された周波数係数を、量子化精度を制御して加算するもので、量子化精度制御部5aを備えている。この実施形態では、周波数係数変換手段3に、音声符号化情報として、AACの音声ストリームが入力されており、この場合、1024周波数係数が1ブロック単位となる。そして、周波数係数加算手段5Aは、加算する音声フレームにおいて、同じインデックスを持つ周波数係数同士を足し合わせる。
量子化精度制御部5aは、量子化精度を制御する、つまり、スケールファクター値Sに応じて、量子化値Rを調整するものである。例えば、足し合わせるべき周波数係数の量子化値をR_A[I]およびR_B[I]とし、スケールファクター値をS_A[sb]およびS_B[sb]とし、DCT係数をK_A[I]およびK_B[I]とする。仮に、スケールファクター値S_A[sb]<スケールファクター値S_B[sb]であった場合、新しい量子化値R_new[I]は、R_new[I]=K_A[I]+K_B[I]G^(S_B[sb]−S_A[sb])となる。また、この量子化値の含まれるバンド(帯域)の新スケールファクター値はS_A[sb]を使用することができる。
スケールファクター値の符号化では、スケールファクター値S_A[sb]を使用することによって、当該スケールファクター値S_A[sb]を継承することができ、新しい量子化値R_new[I]の第2項K_B[I]G^(S_B[sb]−S_A[sb])の計算と、この第2項と第1項のK_A[I]との加算だけで、新しい量子化値R_new[I]を得ることができるため、第1項の乗算を、インデックスの数分減少させることができる。
また、予め、S_B[sb]−S_A[sb]の差と量子化値が丸められてしまう範囲との対応付がなされたテーブルを作成しておけば、S_B[sb]−S_A[sb]の差と量子化値が丸められてしまう範囲との大小比較と加算とによって、新しい量子化値R_new[I]を算出(導出)することが可能になる。
また、ここで説明した音声符号化情報(音声ストリーム)内の情報(S_A[sb])を継承して符号化を簡略化する方法以外に、単純に新しいDCT係数(周波数係数)をK_new[I]=K_A[I]+K_B[I]として、量子化値Rを算出(導出)する方法もある。
音声符号化情報変換手段7Aは、周波数係数加算手段5Aで周波数係数同士が加算されたものを音声符号化情報(音声ストリーム)に変換(再変換)するもので、量子化部7cと、ノイズレスコーディング部7aと、レート歪みコントローラ部7dと、ビットストリームマルチプレクサ部7bとを備えている。この音声符号化情報変換手段7Aは、スケールファクターバンド(周波数バンド毎)によって、量子化精度を制御するものである。但し、この音声符号化情報変換手段7Aは、聴覚モデルを考慮して、全スケールファクターバンドで量子化精度を制御することも可能である。
量子化部7cは、レート歪みコントローラ部7dによる制御に従って、周波数係数加算手段5Aで加算された周波数係数を量子化値Rに変換するものである。この量子化部7cにおける量子化値Rの具体的な算出方法は、ISO/IEC 13817−7 ANNEX C.7 Quantizationに詳細に記載されている。ここに記載されている一部分を抜粋して、量子化部7cの説明をする。
i番目のインデックスを持つ周波数係数の量子化値への出力を、x_quant_new[i]とし、音声符号化情報A、B(図に示した2つの音声符号化情報それぞれ)が周波数係数変換手段3に入力され、周波数係数加算手段5Aで加算されたi番目のインデックスを持つ周波数係数(係数出力)を、mdct_line_new[i]とし、補正項をcommon_scf_newとし、補正値(0.4054)をMAGIC_NUMBERとすると、
gain_new[sb]=2^{(3/16)×scf_new[sb]−common_scf_new}・・・数式(1)
x_quant_new[i]=(int){|mdct_line_new[i]|^(3/4)×gain_new[sb]+MAGIC_NUMBER}
・・・数式(2)
これら数式(1)および数式(2)を用いて、量子化部7cは、レート歪みコントローラ部7dによる制御(出力)により、scf_new[sb]、common_scf_newを更新して、周波数係数加算手段5Aから出力された周波数係数から量子化値を生成するものである。
レート歪みコントローラ部7dは、ビットレートが所定の値以下になるように、スケールファクターと、量子化部7cとを制御するものである。
つまり、このレート歪みコントローラ部7dは、許容される量子化ノイズの大きさ内において、必要なビット数が、使用可能なビット数を下回るまで、スケールファクター値の計算と、量子化値の計算とを繰り返し行って、所定の値以下になるように、ビットレートを削減していくものである。
この実施形態では、レート歪みコントローラ部7dは、ビットレートを削減する機能を有しているものであるが、量子化ノイズとビットレートとのトレードオフが実現できる機能を備えていれば、別の構成であってもよい。
〈音声符号化情報処理装置[第二実施形態]の動作〉
次に、図8に示すフローチャートを参照して、図2に示した音声符号化情報処理装置1Aの動作について説明する(適宜、図2参照)。
まず、音声符号化情報処理装置1Aは、入力された音声符号化情報(音声ストリーム)群を、周波数係数変換手段3によって、周波数係数に変換する(ステップS11)。続いて、音声符号化情報処理装置1Aは、周波数係数加算手段5Aによって、量子化精度を制御しつつ、周波数係数を加算する(ステップS12)。
そして、音声符号化情報処理装置1Aは、音声符号化情報変換手段7Aの量子化部7cによって、加算した周波数係数を量子化値に変換する(ステップS13)。そして、音声符号化情報処理装置1Aは、音声符号化情報変換手段7Aのノイズレスコーディング部7aによって、量子化値をハフマン符号語にコーディング(符号化)し(ステップS14)、レート歪みコントローラ部7dによって、ビットレートが所定の値以下であるか否かを判断する(ステップS15)。
ここで、音声符号化情報処理装置1Aは、レート歪みコントローラ部7dによって、ビットレートが所定の値以下であると判断しなかった場合(ステップS15、No)、ビットレートが所定の値以下になるように制御し(ステップS16)、さらに、ステップS14に戻り、再度、量子化値をハフマン符号語に変換する。
また、音声符号化情報処理装置1Aは、レート歪みコントローラ部7dによって、ビットレートが所定の値以下であると判断した場合(ステップS15、Yes)、音声符号化情報変換手段7Aのビットストリームマルチプレクサ部7bによって、ハフマン符号語を並べ替えて、ストリーム化した音声符号化情報(音声ストリーム)に変換して出力する(ステップS17)。
この音声符号化情報処理装置1Aによれば、周波数係数加算手段5Aによって、周波数係数を加算する際に、量子化精度を制御することで、異なる量子化精度情報を持った音声符号化情報を変換した周波数係数を加算することができる。
〈音声符号化情報処理装置[第三実施形態]の構成〉
図3は、音声符号化情報処理装置(第三実施形態)のブロック図である。
この図3に示すように、音声符号化情報処理装置1Bは、複数の音声符号化情報(音声ストリーム)が入力され、これらの音声符号化情報(複数の音声符号化情報を音声符号化情報群という)に対して、周波数領域で外部ゲインを乗算してから加算して処理するもので、周波数係数変換手段3と、周波数係数乗算手段(ゲイン乗算手段)9と、周波数係数加算手段5と、音声符号化情報変換手段7とを備えている。図1に示した音声符号化情報処理装置1の構成と同じ構成については、同一の符号を付して、その説明を省略する。
周波数係数乗算手段9は、周波数係数変換手段3で複数の音声符号化情報が変換された複数の周波数係数(周波数係数群)、或いは、量子化値とスケールファクター値とに対して、外部ゲインを乗算するものである。この周波数係数乗算手段9における外部ゲイン乗算の具体的な一例について説明する。
例えば、一方の音声符号化情報(音声ストリーム)Aの出力を2倍にすると共に、他方の音声符号化情報(音声ストリーム)Bの出力を1倍にする外部ゲインが入力された場合、この周波数係数乗算手段9の出力は、K_A_new[I]=2×K_A[I]、K_B_new[I]=K_B[I]となる。
ここで乗算する入力値(外部ゲイン)として、固定値(ここでは、2,1)の例として示したが、入力値(外部ゲイン)は動的な値であってもよく、さらに、畳み込みを行う処理等も想定できる。
〈音声符号化情報処理装置[第三実施形態]の動作〉
次に、図9に示すフローチャートを参照して、図3に示した音声符号化情報処理装置1Bの動作について説明する(適宜、図3参照)。
まず、音声符号化情報処理装置1Bは、入力された音声符号化情報(音声ストリーム)群を、周波数係数変換手段3によって、周波数係数に変換する(ステップS21)。続いて、音声符号化情報処理装置1Bは、周波数係数乗算手段9によって、周波数係数に外部ゲインを乗算する(ステップS22)。
そして、音声符号化情報処理装置1Bは、周波数係数加算手段5によって、外部ゲインを乗算した周波数係数を加算する(ステップ23)。そして、音声符号化情報処理装置1Bは、音声符号化情報変換手段7のノイズレスコーディング部7aによって、加算した周波数係数を、ハフマン符号語にコーディング(符号化)し(ステップS24)、ビットストリームマルチプレクサ部7bによって、ハフマン符号語を並べ替えて、ストリーム化した音声符号化情報(音声ストリーム)に変換して出力する(ステップS25)。
この音声符号化情報処理装置1Bによれば、周波数係数乗算手段9によって、周波数係数にゲイン(例えば、外部から入力された固定値[外部ゲイン])が乗算されるので、音声符号化情報の復号・符号化に伴って発生する符号化劣化が調整され、音声の音質劣化を防止することができる。
〈音声符号化情報処理装置[第四実施形態]の構成〉
図4は、音声符号化情報処理装置(第四実施形態)のブロック図である。
この図4に示すように、音声符号化情報処理装置1Cは、複数の音声符号化情報(音声ストリーム)が入力され、これらの音声符号化情報を、周波数領域で、外部ゲインを乗算してから加算する際に、量子化精度を制御しながら処理するもので、周波数係数変換手段3と、周波数係数乗算手段(ゲイン乗算手段)9Cと、周波数係数加算手段5Aと、音声符号化情報変換手段7Aとを備えている。図2、図3に示した音声符号化情報処理装置1A、1Bの構成と同じ構成については、同一の符号を付して、その説明を省略する。
周波数係数乗算手段9Cは、周波数係数変換手段3で複数の音声符号化情報が変換された複数の周波数係数(周波数係数群)、或いは、量子化値とスケールファクター値とに対して、外部ゲインを乗算する際に、計算処理を軽減するために、近似計算によって行うものである。この周波数係数乗算手段9Cにおける外部ゲイン乗算の具体的な一例について説明する。
例えば、AACの2つの音声符号化情報(音声ストリーム)A、Bが音声符号化情報処理装置1Cに入力され、一方の音声符号化情報(音声ストリーム)Aの出力を2倍にすると共に、他方の音声符号化情報(音声ストリーム)Bの出力を1倍にする外部ゲインが入力された場合、この周波数係数乗算手段9Cの出力は、K_A_new[I]=K_A[I]、K_B_new[I]=K_B[I]とする。
ここで、この周波数係数乗算手段9Cでは、計算処理軽減のために、次に示す数式(3)を用いて近似計算を行う。
gain_new_A[sb]=2^{(3/16)×scf_new[sb]−common_scf_new}・・・数式(3)
ここで、common_scf_newを5インクリメント(5増加させる)すると、全てのgain_new_A[sb]は、ほぼ1/2倍になる。すると、音声符号化情報変換手段7Aの出力は、量子化値に数式(3)の逆数を乗じた数値に比例するので、周波数係数、量子化値を2倍にする代わりに、スケールファクターゲインを制御して、ほぼ2倍になるように、近似計算を行うことによって、大幅に計算量を削減することが可能になる。
また、同計算をスケールファクターゲイン[sb]毎に行うことで、スケールファクターバンド(周波数係数であるスペクトルがスペクトル係数の複数のグループに分けられたもの)毎に乗算するゲインを変更することができる。このような近似計算によって、加算する周波数係数それぞれに乗算するゲインを変更するために生じる計算量を減らすことができる。
〈音声符号化情報処理装置[第四実施形態]の動作〉
次に、図10に示すフローチャートを参照して、図4に示した音声符号化情報処理装置1Cの動作について説明する(適宜、図4参照)。
まず、音声符号化情報処理装置1Cは、入力された音声符号化情報(音声ストリーム)群を、周波数係数変換手段3によって、周波数係数に変換する(ステップS31)。続いて、音声符号化情報処理装置1Cは、周波数係数乗算手段9Cによって、周波数係数に外部ゲインを乗算する(ステップS32)。
そして、音声符号化情報処理装置1Cは、周波数係数加算手段5Aによって、量子化精度を制御しつつ、周波数係数を加算する(ステップS33)。
そして、音声符号化情報処理装置1Cは、音声符号化情報変換手段7Aの量子化部7cによって、加算した周波数係数を量子化値に変換する(ステップS34)。そして、音声符号化情報処理装置1Cは、音声符号化情報変換手段7Aのノイズレスコーディング部7aによって、量子化値をハフマン符号語にコーディング(符号化)し(ステップS35)、レート歪みコントローラ部7dによって、ビットレートが所定の値以下であるか否かを判断する(ステップS36)。
ここで、音声符号化情報処理装置1Cは、レート歪みコントローラ部7dによって、ビットレートが所定の値以下であると判断しなかった場合(ステップS36、No)、ビットレートが所定の値以下になるように制御し(ステップS37)、さらに、ステップS35に戻り、再度、量子化値をハフマン符号語に変換する。
また、音声符号化情報処理装置1Cは、レート歪みコントローラ部7dによって、ビットレートが所定の値以下であると判断した場合(ステップS36、Yes)、音声符号化情報変換手段7Aのビットストリームマルチプレクサ部7bによって、ハフマン符号語を並べ替えて、ストリーム化した音声符号化情報(音声ストリーム)に変換して出力する(ステップS38)。
この音声符号化情報処理装置1Cによれば、周波数係数乗算手段9Cによって、近似計算を行うことで、スケールファクターゲイン(量子化情報)を変更した結果生じる計算量を、削減することができる。
〈音声符号化情報処理装置[第五実施形態]の構成〉
図5は、音声符号化情報処理装置(第五実施形態)のブロック図である。
この図5に示すように、音声符号化情報処理装置1Dは、複数の音声符号化情報(音声ストリーム)が入力され、これらの音声符号化情報を任意の接続点で接続させると共に、接続させた音声符号化情報を、周波数領域で外部ゲインを乗算してから加算処理するもので、接続点制御手段11と、周波数係数変換手段3と、周波数係数乗算手段9と、周波数係数加算手段5と、音声符号化情報変換手段7と、音声符号化情報切替手段13とを備えている。図3に示した音声符号化情報処理装置1Bの構成と同じ構成については、同一の符号を付して、その説明を省略する。
接続点制御手段11は、入力された音声符号化情報(音声ストリーム)群をどの時刻で、または、どの音声フレームで接続するか、或いは、どの音声フレームを加算処理するかが接続点制御入力信号として入力され、この接続点制御入力信号に基づいて、接続処理を行うと共に、加算処理する場合には、周波数係数変換手段3に出力し、加算処理しない場合には、音声符号化情報切替手段13に出力するものである。
なお、この接続点制御入力信号は、音声フレーム番号を特定したものである。
音声符号化情報切替手段13は、接続点制御手段11から出力された音声符号化情報(音声ストリーム)と、音声符号化情報変換手段7から出力された音声符号化情報(音声ストリーム)とを連続的に切り替えて出力するものである。
これら接続点制御手段11および音声符号化情報切替手段13によって、音声符号化情報(音声ストリーム)を接続する際の概念を図13に示す。図13は、AACの音声符号化情報(音声ストリーム)を時間的に重複して接続していく概念(接続の仕方)を説明した図である。図13に示すように、音声ストリームを模式的に示すと、時間領域の音声信号にsine窓(2048/256sample)をかけて、DCT変換およびハフマン符号化を行ったAACストリームを連続的に列べたストリーム列として表すことができる。図13に示した接続の仕方では、1024sampleの窓で「今日は」「は良い」「い天気です」の終端の音素と先端の音素とを接続した際の例である。
つまり、図13に示すように、「今日は」という音声符号化情報(音声ストリーム、ここでは、ストリーム列と記載)と、「は良い」という音声符号化情報と、「い天気です」という音声符号化情報とを接続する際に、接続点制御入力信号(音声フレーム番号)に従って、「今日は」のほぼ終端のAACストリームおよび「は良い」のほぼ先端の音声フレームと、「は良い」のほぼ終端のAACストリームおよび「い天気です」のほぼ先端の音声ストリームとをそれぞれ接続点として接続する。
なお、この接続点における音声符号化情報は、周波数係数変換手段3の方に出力され、周波数係数として、DCT領域(周波数領域)で足し合わされ、音声符号化情報変換手段7で、再量子化(再符号化)されて、音声符号化情報切替手段13に出力される。また、接続点以外の音声符号化情報は接続点制御手段11から音声符号化情報切替手段13にそのまま出力される。
具体的に説明すると、各音素の両端、ここでは、「今日は[ha]」の“a”と、「は良い[i]」の“i”のADTSフレームのDCT成分に関して、スケールファクターの大きさをゲインの大きい方に合わせて再量子化を行って、両窓のストリームを、例えば、周波数係数乗算手段9で1/2倍(外部ゲイン)し、周波数係数加算手段5で足し合わせた上で、音声符号化情報変換手段7でハフマン符号化を行って、所定のビットレートでTS化(音声ストリーム)して接続する。
〈音声符号化情報処理装置[第五実施形態]の動作〉
次に、図11に示すフローチャートを参照して、図5に示した音声符号化情報処理装置1Dの動作について説明する(適宜、図5参照)。
まず、音声符号化情報処理装置1Dは、入力された音声符号化情報(音声ストリーム)群について、音声符号化情報それぞれの接続点近傍であるか否かを、接続点制御手段11により接続点制御入力信号に従って判断する(ステップS41)。音声符号化情報それぞれの接続点近傍であると判断された場合(ステップS41、Yes)、音声符号化情報は、周波数係数変換手段3に入力され、音声符号化情報それぞれの接続点近傍であると判断されなかった場合(ステップS41、No)、音声符号化情報は、音声符号化情報切替手段13に入力される。
続いて、音声符号化情報処理装置1Dは、音声符号化情報を周波数係数変換手段3に入力すると、当該音声符号化情報を周波数係数に変換する(ステップS42)。そして、音声符号化情報処理装置1Dは、周波数係数乗算手段9によって、周波数係数に外部ゲインを乗算する(ステップS43)。
そして、音声符号化情報処理装置1Dは、周波数係数加算手段5によって、外部ゲインを乗算した周波数係数を加算する(ステップ44)。そして、音声符号化情報処理装置1Dは、音声符号化情報変換手段7のノイズレスコーディング部7aによって、加算した周波数係数を、ハフマン符号語にコーディング(符号化)し(ステップS45)、ビットストリームマルチプレクサ部7bによって、ハフマン符号語を並べ替えて、ストリーム化した音声符号化情報(音声ストリーム)に変換して出力する(ステップS46)。
その後、音声符号化情報処理装置1Dは、音声符号化情報切替手段13によって、接続点制御手段11から入力された音声符号化情報と、音声符号化情報変換手段7によって変換された音声符号化情報とを切り替えて出力する(ステップS47)。
この音声符号化情報処理装置1Dによれば、接続点制御手段11によって、接続点制御入力信号に従って、音声符号化情報群に含まれている各音声符号化情報の接続する箇所を示す接続点近傍で当該音声符号化情報が接続され、接続された音声符号化情報と、接続されなかった音声符号化情報とが、音声符号化情報切替手段13によって切り替えられて出力される。このため、接続点近傍での異音の発生を抑制することができると共に、接続点近傍以外での計算量を大きく削減し、接続点近傍以外での音の音質劣化を抑制することができる。
〈音声符号化情報処理装置[第六実施形態]の構成〉
図6は、音声符号化情報処理装置(第六実施形態)のブロック図である。
この図6に示すように、音声符号化情報処理装置1Eは、複数の音声符号化情報(音声ストリーム)が入力され、これらの音声符号化情報を任意の接続点で接続させると共に、接続させた音声符号化情報を、周波数領域で外部ゲインを乗算してから加算処理する際に、量子化精度を制御しながら行うもので、接続点制御手段11と、周波数係数変換手段3と、周波数係数乗算手段9と、周波数係数加算手段5Aと、音声符号化情報変換手段7Aと、音声符号化情報切替手段13とを備えている。図2、図5に示した音声符号化情報処理装置1A、1Dの構成と同じ構成については、同一の符号を付して、その説明を省略する。
この音声符号化情報処理装置1Eによれば、接続点制御手段11によって、接続点制御入力信号に従って、音声符号化情報群に含まれている各音声符号化情報の接続する箇所を示す接続点近傍で当該音声符号化情報が接続され、接続された音声符号化情報と、接続されなかった音声符号化情報とが、音声符号化情報切替手段13によって切り替えられて出力される。このため、接続点近傍での異音の発生を抑制することができると共に、接続点近傍以外での計算量を大きく削減し、接続点近傍以外での音の音質劣化を抑制することができる。また、音声符号化情報が接続される際に量子化精度が制御されつつ行われるので、計算量を減少させることができる。
〈音声符号化情報処理装置[第六実施形態]の動作〉
次に、図12に示すフローチャートを参照して、図6に示した音声符号化情報処理装置1Eの動作について説明する(適宜、図6参照)。
まず、音声符号化情報処理装置1Eは、入力された音声符号化情報(音声ストリーム)群について、音声符号化情報それぞれの接続点近傍であるか否かを、接続点制御手段11により接続点制御入力信号に従って判断する(ステップS51)。音声符号化情報それぞれの接続点近傍であると判断された場合(ステップS51、Yes)、音声符号化情報は、周波数係数変換手段3に入力され、音声符号化情報それぞれの接続点近傍であると判断されなかった場合(ステップS51、No)、音声符号化情報は、音声符号化情報切替手段13に入力される。
続いて、音声符号化情報処理装置1Eは、音声符号化情報を周波数係数変換手段3に入力すると、当該音声符号化情報を周波数係数に変換する(ステップS52)。そして、音声符号化情報処理装置1Eは、周波数係数乗算手段9によって、周波数係数に外部ゲインを乗算する(ステップS53)。
そして、音声符号化情報処理装置1Eは、周波数係数加算手段5Aによって、量子化精度を制御しつつ、外部ゲインを乗算した周波数係数を加算する(ステップ54)。そして、音声符号化情報処理装置1Eは、音声符号化情報変換手段7Aのの量子化部7cによって、加算した周波数係数を量子化値に変換する(ステップS55)。そして、音声符号化情報処理装置1Eは、音声符号化情報変換手段7Aのノイズレスコーディング部7aによって、量子化値をハフマン符号語にコーディング(符号化)し(ステップS56)、レート歪みコントローラ部7dによって、ビットレートが所定の値以下であるか否かを判断する(ステップS57)。
ここで、音声符号化情報処理装置1Eは、レート歪みコントローラ部7dによって、ビットレートが所定の値以下であると判断しなかった場合(ステップS57、No)、ビットレートが所定の値以下になるように制御し(ステップS58)、さらに、ステップS56に戻り、再度、量子化値をハフマン符号語に変換する。
また、音声符号化情報処理装置1Eは、レート歪みコントローラ部7dによって、ビットレートが所定の値以下であると判断した場合(ステップS57、Yes)、音声符号化情報変換手段7Aのビットストリームマルチプレクサ部7bによって、ハフマン符号語を並べ替えて、ストリーム化した音声符号化情報(音声ストリーム)に変換して出力する(ステップS59)
その後、音声符号化情報処理装置1Eは、音声符号化情報切替手段13によって、接続点制御手段11から入力された音声符号化情報と、音声符号化情報変換手段7Aによって変換された音声符号化情報とを切り替えて出力する(ステップS60)。
以上、本発明の実施形態について説明したが、本発明は前記実施形態には限定されない。例えば、本実施形態では、音声符号化情報処理装置1〜1Eとして説明したが、各装置1〜1Eの各構成の処理を一つずつの情報の処理過程ととらえた音声符号化情報処理方法とみなすことや、各装置1〜1Eの各構成の処理を汎用的または専用的なコンピュータ言語で記述して音声符号化情報処理プログラムとみなすことができる。これらの場合、音声符号化情報処理装置1〜1Eそれぞれと同様の効果が得られる。
本発明の実施形態に係る音声符号化情報処理装置(第一実施形態)のブロック図である。 本発明の実施形態に係る音声符号化情報処理装置(第二実施形態)のブロック図である。 本発明の実施形態に係る音声符号化情報処理装置(第三実施形態)のブロック図である。 本発明の実施形態に係る音声符号化情報処理装置(第四実施形態)のブロック図である。 本発明の実施形態に係る音声符号化情報処理装置(第五実施形態)のブロック図である。 本発明の実施形態に係る音声符号化情報処理装置(第六実施形態)のブロック図である。 図1に示した音声符号化情報処理装置(第一実施形態)の動作を説明するフローチャートである。 図2に示した音声符号化情報処理装置(第二実施形態)の動作を説明するフローチャートである。 図3に示した音声符号化情報処理装置(第三実施形態)の動作を説明するフローチャートである。 図4に示した音声符号化情報処理装置(第四実施形態)の動作を説明するフローチャートである。 図5に示した音声符号化情報処理装置(第五実施形態)の動作を説明するフローチャートである。 図6に示した音声符号化情報処理装置(第六実施形態)の動作を説明するフローチャートである。 AACの音声符号化情報(音声ストリーム)を時間的に重複して接続していく概念(接続の仕方)を説明した図である。 DCT係数のバンド分けを例示した図である。 ハフマンコードブックを例示した図である。
符号の説明
1、1A、1B、1C、1D、1E 音声符号化情報処理装置
3 周波数係数変換手段
5、5A 周波数係数加算手段
5a 量子化精度制御部(量子化精度制御手段)
7、7A 音声符号化情報変換手段
9、9C 周波数係数乗算手段(ゲイン乗算手段)
11 接続点制御手段
13 音声符号化情報切替手段

Claims (3)

  1. 音声を符号化した音声符号化情報が複数集まってなる音声符号化情報群を周波数係数に変換して加算した後、前記音声符号化情報に変換する音声符号化情報処理装置であって、
    入力された前記音声符号化情報群を周波数係数に変換する周波数係数変換手段と、
    この周波数係数変換手段によって変換された周波数係数に、前記音声符号化情報それぞれの出力比率となるゲインを乗算するゲイン乗算手段と、
    このゲイン乗算手段から出力された周波数係数を加算する周波数係数加算手段と、
    この周波数係数加算手段によって加算された周波数係数を音声符号化情報に変換する音声符号化情報変換手段と、を備え、
    前記ゲイン乗算手段は、前記音声符号化情報のそれぞれに予め含まれている量子化精度情報を変更することで、前記ゲインを乗算する際の計算量を削減し、
    前記周波数係数加算手段は、前記周波数係数を加算する際に、前記周波数係数の量子化精度を制御する量子化精度制御手段を備え、
    前記量子化精度制御手段は、2つの前記音声符号化情報のそれぞれに予め含まれているスケールファクター値の差分にゲインと前記2つの前記音声符号化情報のうちの一方を変換した前記周波数係数とを乗じた値に、前記2つの前記音声符号化情報のうちの他方を変換した前記周波数係数を加えて量子化値を算出することで、前記量子化精度の計算量を削減することを特徴とする音声符号化情報処理装置。
  2. 前記音声符号化情報それぞれの接続する箇所を示す接続点近傍で、当該音声符号化情報を接続する接続点制御手段と、
    この接続点制御手段で制御された接続点近傍で接続された音声符号化情報を、切り替えて出力する音声符号化情報切替手段と、
    を備えることを特徴とする請求項1に記載の音声符号化情報処理装置。
  3. 音声を符号化した音声符号化情報が複数集まってなる音声符号化情報群を周波数係数に変換して加算した後、前記音声符号化情報に変換する装置を、
    入力された前記音声符号化情報群を周波数係数に変換する周波数係数変換手段、
    この周波数係数変換手段によって変換された周波数係数に、前記音声符号化情報それぞれの出力比率となるゲインを乗算するゲイン乗算手段、
    このゲイン乗算手段から出力された周波数係数を加算する周波数係数加算手段、
    この周波数係数加算手段によって加算された周波数係数を音声符号化情報に変換する音声符号化情報変換手段、として機能させ、
    前記ゲイン乗算手段は、前記音声符号化情報のそれぞれに予め含まれている量子化精度情報を変更することで、前記ゲインを乗算する際の計算量を削減し、
    前記周波数係数加算手段は、前記周波数係数を加算する際に、前記周波数係数の量子化精度を制御する量子化精度制御手段を備え、
    前記量子化精度制御手段は、2つの前記音声符号化情報のそれぞれに予め含まれているスケールファクター値の差分にゲインと前記2つの前記音声符号化情報のうちの一方を変換した前記周波数係数とを乗じた値に、前記2つの前記音声符号化情報のうちの他方を変換した前記周波数係数を加えて量子化値を算出することで、前記量子化精度の計算量を削減することを特徴とする音声符号化情報処理プログラム。
JP2004118361A 2004-04-13 2004-04-13 音声符号化情報処理装置および音声符号化情報処理プログラム Expired - Fee Related JP4516345B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004118361A JP4516345B2 (ja) 2004-04-13 2004-04-13 音声符号化情報処理装置および音声符号化情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004118361A JP4516345B2 (ja) 2004-04-13 2004-04-13 音声符号化情報処理装置および音声符号化情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2005301002A JP2005301002A (ja) 2005-10-27
JP4516345B2 true JP4516345B2 (ja) 2010-08-04

Family

ID=35332597

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004118361A Expired - Fee Related JP4516345B2 (ja) 2004-04-13 2004-04-13 音声符号化情報処理装置および音声符号化情報処理プログラム

Country Status (1)

Country Link
JP (1) JP4516345B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4997781B2 (ja) * 2006-02-14 2012-08-08 沖電気工業株式会社 ミックスダウン方法およびミックスダウン装置
JP4823001B2 (ja) * 2006-09-27 2011-11-24 富士通セミコンダクター株式会社 オーディオ符号化装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62235996A (ja) * 1986-04-07 1987-10-16 東洋通信機株式会社 合成音質変化方法
JPH09198796A (ja) * 1996-01-17 1997-07-31 Hitachi Ltd 音響信号記録再生装置およびそれを用いたビデオカメラ
JP2001142497A (ja) * 1999-11-11 2001-05-25 Sony Corp ディジタル信号処理装置および処理方法、ディジタル信号記録装置および記録方法、並びに記録媒体
JP2002073090A (ja) * 2000-08-25 2002-03-12 Hitachi Ltd 音声再生装置
JP2002314429A (ja) * 2001-04-12 2002-10-25 Sony Corp 信号処理装置および信号処理方法
JP2002539477A (ja) * 1999-03-11 2002-11-19 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア 再帰デジタルオシレータを使用してデジタルオーディオ信号の加法合成を行う装置および方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62235996A (ja) * 1986-04-07 1987-10-16 東洋通信機株式会社 合成音質変化方法
JPH09198796A (ja) * 1996-01-17 1997-07-31 Hitachi Ltd 音響信号記録再生装置およびそれを用いたビデオカメラ
JP2002539477A (ja) * 1999-03-11 2002-11-19 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア 再帰デジタルオシレータを使用してデジタルオーディオ信号の加法合成を行う装置および方法
JP2001142497A (ja) * 1999-11-11 2001-05-25 Sony Corp ディジタル信号処理装置および処理方法、ディジタル信号記録装置および記録方法、並びに記録媒体
JP2002073090A (ja) * 2000-08-25 2002-03-12 Hitachi Ltd 音声再生装置
JP2002314429A (ja) * 2001-04-12 2002-10-25 Sony Corp 信号処理装置および信号処理方法

Also Published As

Publication number Publication date
JP2005301002A (ja) 2005-10-27

Similar Documents

Publication Publication Date Title
JP3391686B2 (ja) 符号化されたオーディオ信号を復号する方法及び装置
JP5161212B2 (ja) Itu−tg.711規格と相互動作が可能なマルチレイヤ埋め込みコーデックにおける雑音成形デバイスおよび方法
KR101508819B1 (ko) 멀티 모드 오디오 코덱 및 이를 위해 적응된 celp 코딩
JP5608660B2 (ja) エネルギ保存型マルチチャネルオーディオ符号化
RU2423740C2 (ru) Устройство и способ окончательной обработки спектральных значений и кодирующее устройство и декодер для аудиосигналов
JP5404412B2 (ja) 符号化装置、復号装置およびこれらの方法
CN103187065B (zh) 音频数据的处理方法、装置和系统
US7610195B2 (en) Decoding of predictively coded data using buffer adaptation
US6593872B2 (en) Signal processing apparatus and method, signal coding apparatus and method, and signal decoding apparatus and method
US8055499B2 (en) Transmitter and receiver for speech coding and decoding by using additional bit allocation method
Watson et al. Design and implementation of AAC decoders
JP4516345B2 (ja) 音声符号化情報処理装置および音声符号化情報処理プログラム
JP2003332914A (ja) ディジタル信号符号化方法、復号化方法、これらの装置及びプログラム
WO2004097798A1 (ja) 音声復号化装置、音声復号化方法、プログラム、記録媒体
JP5451603B2 (ja) デジタルオーディオ信号の符号化
JP4721355B2 (ja) 符号化データの符号化則変換方法および装置
JP5019437B2 (ja) オーディオビットレート変換方法および装置
JP3453116B2 (ja) 音声符号化方法及び装置
JP4273062B2 (ja) 符号化方法、符号化装置、復号化方法及び復号化装置
JP4409733B2 (ja) 符号化装置、符号化方法、及びその記録媒体
JP2001306095A (ja) オーディオ符号化装置及びオーディオ符号化方法
JPH0774642A (ja) 線形予測係数補間装置
Robinson et al. Audio Decoding on the C54X
JPH05165498A (ja) 音声符号化方法
JPH09269798A (ja) 音声符号化方法および音声復号化方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070226

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100420

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100514

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130521

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140521

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees