JP4548348B2 - 音声符号化装置及び音声符号化方法 - Google Patents

音声符号化装置及び音声符号化方法 Download PDF

Info

Publication number
JP4548348B2
JP4548348B2 JP2006010319A JP2006010319A JP4548348B2 JP 4548348 B2 JP4548348 B2 JP 4548348B2 JP 2006010319 A JP2006010319 A JP 2006010319A JP 2006010319 A JP2006010319 A JP 2006010319A JP 4548348 B2 JP4548348 B2 JP 4548348B2
Authority
JP
Japan
Prior art keywords
band
frequency
code amount
encoding
frequency conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006010319A
Other languages
English (en)
Other versions
JP2007193043A (ja
Inventor
博康 井手
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2006010319A priority Critical patent/JP4548348B2/ja
Priority to US11/653,506 priority patent/US20070168186A1/en
Priority to TW096101667A priority patent/TWI329302B/zh
Priority to CN2007100019506A priority patent/CN101004914B/zh
Priority to KR1020070004990A priority patent/KR100904605B1/ko
Publication of JP2007193043A publication Critical patent/JP2007193043A/ja
Application granted granted Critical
Publication of JP4548348B2 publication Critical patent/JP4548348B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Description

本発明は、音声符号化装置、及び音声符号化方法に関する。
従来から、音声信号に対し周波数変換とエントロピー符号化を施して、生成符号量を目標値に制御する音声符号化方法が知られている。このような音声符号化方法として、特許文献1には、周波数変換係数をエントロピー符号化する際に、生成符号量が目標値に達するまで、符号化する周波数変換係数を減らしながら、符号化を繰り返す方法が知られている。
特開2005−128404号公報
しかしながら、上述の従来の音声符号化方法は、生成符号量が目標値に達するまで何度も同様のエントロピー符号化を繰り返す必要があるため、演算量(処理量)が増大してしまうという問題があった。
本発明の課題は、音声符号化における演算量を低減させることである。
上記課題を解決するため、請求項1に記載の音声符号化装置は、音声信号に対して周波数変換を施す周波数変換手段と、前記音声信号の周波数帯域毎に、周波数帯域の重要度を算出する重要度算出手段と、前記重要度算出手段により算出された重要度の高い順番で、前記周波数変換手段で得られた周波数変換係数のエントロピー符号化を行う符号化手段と、前記エントロピー符号化による生成符号量と、予め設定された目標符号量を比較する比較手段と、を備え、前記符号化手段は、前記生成符号量が前記目標符号量になるまで、前記重要度の高い順番で周波数変換係数のエントロピー符号化を行い、その後、前記目標符号量となるために符号化の対象となった周波数帯域の周波数変換係数に対して周波数帯域順に再度エントロピー符号化を行うことを特徴としている。
請求項に記載の発明は、請求項に記載の音声符号化装置において、前記比較手段は、周波数帯域順に再度行われたエントロピー符号化による生成符号量と前記目標符号量を更に比較し、前記比較手段により、再度のエントロピー符号化による生成符号量が前記目標符号量を超えている場合、前記符号化手段は、生成符号の中から予め指定された周波数帯域の周波数変換係数を削除し、当該削除後に残った周波数帯域の周波数変換係数に対して再度エントロピー符号化を行うことを特徴としている。
請求項に記載の発明は、請求項1又は2に記載の音声符号化装置において、前記符号化手段は、前記エントロピー符号化としてレンジコーダによる符号化を用いることを特徴としている。
請求項に記載の発明は、請求項1〜の何れか一項に記載の音声符号化装置において、入力された音声信号を一定長のフレームに分割するフレーム化手段と、前記フレーム毎に、フレームに含まれる音声信号の振幅の最大値に基づいて当該音声信号の振幅を調整する振幅調整手段と、前記周波数変換手段により、前記振幅が調整された音声信号に周波数変換が施された後、当該周波数変換により得られる周波数変換係数の周波数帯域を、人間の聴覚の特性に基づいて、低域ほど狭く、高域ほど広く分割する帯域分割手段と、前記帯域分割手段により得られた各帯域毎に、周波数変換係数の絶対値の最大値を検索する検索手段と、前記検索手段により各帯域毎に得られた最大値が、各帯域で予め設定された量子化ビット数以下になるようなシフトビット数を算出するシフト数算出手段と、各帯域毎に、帯域中の周波数変換係数に対し、前記シフト数算出手段により算出されたシフトビット数分のシフト処理を施すシフト処理手段と、を備え、前記符号化手段は、前記シフト処理が施されたデータに対し、エントロピー符号化を施すことを特徴としている。
請求項に記載の発明は、請求項1〜の何れか一項に記載の音声符号化装置において、前記周波数変換手段は、前記周波数変換として変形離散コサイン変換を用いることを特徴としている。
請求項に記載の音声符号化方法は、音声信号に対して周波数変換を施し、前記音声信号の周波数帯域毎に、周波数帯域の重要度を算出し、前記算出された重要度の高い順番で周波数変換係数のエントロピー符号化を行い、前記エントロピー符号化による生成符号量と、予め設定された目標符号量を比較し、前記生成符号量が前記目標符号量になるまで、前記重要度の高い順番でエントロピー符号化を行い、前記目標符号量となるために符号化の対象となった周波数帯域の周波数変換係数に対して周波数帯域順に再度エントロピー符号化を行うことを特徴としている。
請求項7に記載の音声符号化方法は、請求項6に記載された音声符号化方法において、周波数帯域順に再度行われたエントロピー符号化による生成符号量と前記目標符号量を更に比較し、前記比較により、再度のエントロピー符号化による生成符号量が前記目標符号量を超えている場合、生成符号の中から予め指定された周波数帯域の周波数変換係数を削除し、当該削除後に残った周波数帯域の周波数変換係数に対して再度エントロピー符号化を行うことを特徴とする。
本発明によれば、エントロピー符号化を行う前に、予め周波数帯域毎に重要度を算出し、生成符号量が目標符号量になるまで、周波数帯域の重要度の高い順番で周波数変換係数の符号化を行うことにより、従来のように何度も符号化をやり直すことがなく、演算量を削減させることが可能となり、また、目標符号量で符号化された帯域に対して再度周波数帯域順にエントロピー符号化を施すことによって、符号化順を表すデータを送信する必要がなくなる。
以下、図面を参照して、本発明の実施形態について詳細に説明する。
まず、本実施形態における構成について説明する。
図1に、本実施形態に係る音声符号化装置100の構成を示す。音声符号化装置100は、図1に示すように、フレーム化部11、レベル調整部12、周波数変換部13、帯域分割部14、最大値検索部15、シフト数算出部16、シフト処理部17、量子化部18、帯域重要度算出部19、エントロピー符号化部20により構成される。音声符号化装置100への入力信号は、例えば、16kHzサンプリングで16bit量子化されたデジタル音声等とする。
フレーム化部11は、入力された音声信号を、符号化(圧縮)の処理単位である一定長のフレームに分割し、レベル調整部12に出力する。ここで、1つのフレームには、m個(m≧1)のブロックが含まれる長さにする。1ブロックは、1回のMDCT(Modified Discrete Cosine Transform:変形離散コサイン変換)を行う単位であり、MDCTの次数分の長さを有する。MDCTのタップ長は512タップが理想的である。
レベル調整部12は、フレーム毎に、入力された音声信号のレベル調整(振幅調整)を行い、レベル調整された信号を周波数変換部13に出力する。レベル調整とは、1フレーム中に含まれる信号の振幅の最大値を、指定されたビット(以下、制圧目標ビット)数に収まるようにすることである。音声信号では、10ビット程度に制圧することが考えられる。レベル調整は、例えば、1フレーム中の信号の最大振幅をnbit、制圧目標ビット数
をNとすると、フレーム中の信号を全て、式(1)を満たすshift_bit数分LSB(Least
Significant Bit:最下位ビット)側にシフトすることによって実現できる。
Figure 0004548348
なお、復号時には、振幅が制圧目標ビット以下に制圧された信号を元に戻す必要があるため、shift_bitを表す信号を、符号化信号の一部として出力する必要がある。
周波数変換部13は、入力された音声信号に対し周波数変換を施し、帯域分割部14に出力する。本実施形態では、音声信号の周波数変換としてMDCT(Modified Discrete Cosine Transform:変形離散コサイン変換)を用いることとする。入力された音声信号を{xn|n=0,…,M-1}とすると、MDCT係数(周波数変換係数){Xk|k=0,…,M/2-1}は式(2)のように定義される。
Figure 0004548348
ここで、hnは窓関数であり、式(3)のように定義される。
Figure 0004548348
帯域分割部14は、周波数変換部13から入力される周波数変換係数の周波数帯域を、人間の聴覚の特性に合わせて分割する。具体的に、帯域分割部14は、図3に示すように、周波数変換係数を、低域(低周波数帯域)ほど狭く、高域(高周波数帯域)ほど広く分割する。例えば、音声信号のサンプリング周波数が16kHzであった場合、分割のスレッシュが、187.5Hz、437.5Hz、687.5Hz、937.5Hz、1312.5Hz、1687.5Hz、2312.5Hz、3250Hz、4625Hz、6500Hzとなる11帯域に分割することが考えられる。
最大値検索部15は、帯域分割部14で分割された各帯域毎に、帯域中に含まれる周波数変換係数の絶対値の中から最大値を検索する。
シフト数算出部16は、最大値検索部15で得られた各分割帯域での最大値が、各分割帯域で予め設定された量子化ビット数以下になるように、シフトするビット数(以下、シフトビット数と呼ぶ。)を算出する。例えば、ある帯域での周波数変換係数の絶対値の最大値が1101010(2進数)であるときには、符号ビットを含めると8ビットとなり、その帯域で予め設定された量子化ビット数が6ビットである場合、シフトビット数は2ビットとなる。各帯域で予め設定される量子化ビット数は、人間の聴覚の特性に基づいて、低域ほど多く、高域ほど少なくなるのが好ましく、例えば、低域から高域にかけて、8〜5ビット程度が割り当てられる。
シフト処理部17は、各分割帯域毎に、分割帯域中の全ての周波数変換係数のデータを、シフト数算出部16で算出されたシフトビット数だけシフトし、量子化部18に出力する。なお、復号時には、周波数変換係数を元のビット数に戻す必要があるため、各帯域毎のシフトビット数を表す信号を、符号化信号の一部として出力する必要がある。
量子化部18は、シフト処理部17から入力されたシフト処理後の信号に対し、所定の量子化(例えば、スカラー量子化)を施し、帯域重要度算出部19に出力する。
帯域重要度算出部19は、後にエントロピー符号化部20で実行されるレンジコーダ(Range Coder)符号化によって、予め設定された目標符号量に合わせた符号を生成するため、量子化部18で算出された量子化値から周波数帯域毎に重要度を算出する。重要度として、各周波数帯域毎の合計エネルギーを用いることができる。1フレームにm個のブロックが含まれる場合、フレーム中のi番目の周波数帯域に含まれるm個の周波数変換係数を{fij|j=0,…,m-1}とすると、i番目の周波数帯域のエネルギーgiは式(4)のように表される。
Figure 0004548348
エネルギーgiの値が大きくなるにつれて重要度が高いものとする。図6は、帯域重要度算出部19による算出処理が終了した段階で得られているデータの関係を示すものであり、各周波数帯域毎にm個の周波数変換係数とエネルギーgiが算出されていることを表している。なお、エネルギーgiの値に、周波数に依存した重み係数を乗算するようにしてもよい。例えば、500Hz未満の周波数帯域には1.3、500Hz以上3500Hz未満の周波数帯域には1.1、3500Hz以上の周波数帯域には1.0を乗算することが考えられる。
エントロピー符号化部20は、量子化部18で量子化が施された各周波数帯域のデータに対して、帯域重要度算出部19で算出された重要度の高い順番で各周波数帯域毎に周波数帯域番号iとその周波数帯域に含まれるm個の周波数変換係数のエントロピー符号化を施し、予め設定された目標符号量になった時点までの生成符号を符号化データ(圧縮信号)として出力する。エントロピー符号化とは、データの統計的性質を利用して、出現頻度が多い符号には短い符号、出現頻度が少ない符号には長い符号を割り当てることで、全体の符号長を短く変換する符号化方式であり、ハフマン(Huffman)符号化、算術符号化、レンジコーダ(Range Coder)による符号化等がある。本実施形態では、エントロピー符号化としてレンジコーダによる符号化を用いるものとする。
図2に、本実施形態に係る音声復号装置200の構成を示す。音声復号装置200は、音声符号化装置100で符号化された信号を復号する装置であり、図2に示すように、エントロピー復号部21、逆量子化部22、帯域分割部23、シフト処理部24、周波数逆変換部25、レベル再現部26、フレーム合成部27により構成される。
エントロピー復号部21は、エントロピー符号化された入力信号を復号し、逆量子化部22に出力する。
逆量子化部22は、エントロピー復号部21で復号された周波数変換係数に対し逆量子化(例えば、スカラー逆量子化)を施す。このとき、逆量子化部22は、現在処理の対象であるフレームに含まれる周波数変換係数の帯域数が、元の(周波数変換時の)周波数変換係数の帯域数よりも少ない場合、不足分の周波数帯域については所定の値を挿入し、全ての周波数帯域が揃った周波数変換係数を帯域分割部23に出力する。不足分の周波数帯域に挿入する値は、入力された信号の周波数帯域のエネルギーの値よりも小さくなるような値(例えば、0)を挿入する。
帯域分割部23は、逆量子化により得られたデータを、符号化時の帯域分割と同様に、人間の聴覚の特性に合わせて、低域ほど狭く、高域ほど広く帯域分割する。
シフト処理部24は、逆量子化部22の逆量子化により得られた周波数変換係数のデータを、各分割帯域毎に符号化時にシフトしたビット数分だけ符号化時とは逆方向にシフトし、周波数逆変換部25に出力する。
周波数逆変換部25は、シフト処理部24でシフト処理が施された周波数変換係数データに対し、周波数逆変換(例えば、逆MDCT)を施して時間軸を有する音声信号に変換し、レベル再現部26に出力する。
レベル再現部26は、周波数逆変換部25から入力された音声信号のレベル調整(振幅調整)を行って元のレベルに戻し、フレーム合成部27に出力する。
フレーム合成部27は、符号化及び復号の処理単位であったフレームを合成し、合成後の信号を再生信号として出力する。
次に、本実施形態における動作について説明する。
まず、図4のフローチャートを参照して、音声符号化装置100において実行される音声符号化処理について説明する。
まず、入力された音声信号が一定長のフレームに分割される(ステップS11)。次いで、フレーム毎に、入力された音声信号のレベル(振幅)が調整され(ステップS12)、レベル調整後の音声信号に対し、MDCTが施される(ステップS13)。
次いで、MDCTにより得られたMDCT係数(周波数変換係数)が、人間の聴覚の特性に合わせて帯域分割される(ステップS14)。次いで、各分割帯域毎に、MDCT係数の絶対値の最大値が検索され(ステップS15)、各分割帯域での最大値が、各分割帯域で予め設定された量子化ビット数以下になるように、シフトビット数が算出される(ステップS16)。
次いで、各分割帯域毎に、分割帯域中の全てのMDCT係数に対し、ステップS16で算出されたシフトビット数だけシフト処理が施され(ステップS17)、シフト処理後の信号に対し、所定の量子化(例えば、スカラー量子化)が施される(ステップS18)。
次いで、ステップS18で算出された量子化値から周波数帯域毎に重要度が算出され(ステップS19)、重要度が高い帯域の順番でエントロピー符号化が行われ(ステップS20)、本音声符号化処理が終了する。ステップS20のエントロピー符号化については、後に図5を参照して詳細に説明する。
次に、図5のフローチャートを参照して、エントロピー符号化部20において実行されるエントロピー符号化(図4のステップS20)について詳細に説明する。
まず、ステップS19までの処理により得られた現在処理対象としているフレームの各周波数帯域についてのエネルギーに関するデータを参照して、最も重要度の高い周波数帯域のデータ(信号)が選択される(ステップS30)。次いで、周波数帯域番号iと、その周波数帯域におけるm個の周波数変換係数に対してレンジコーダ符号化が施される(ステップS31)。
次いで、ステップS31の符号化によって、生成符号量が目標符号量になったか否かが判定される(ステップS32)。ステップS32において、目標符号量になったと判定された場合(ステップS32;YES)、本エントロピー符号化が終了する。
ステップS32において、生成符号量が目標符号量に達していないと判定された場合(ステップS32;NO)、符号化が施されていない帯域のデータ(残データ)があるか否かが判定される(ステップS33)。
ステップS33において、残データがあると判定された場合(ステップS33;YES)、次に重要度の高い周波数帯域のデータが選択され(ステップS34)、その選択された周波数帯域について、ステップS31及びS32の処理が繰り返される。ステップS33において、残データがないと判定された場合(ステップS33;NO)、本エントロピー符号化が終了する。
次に、図7のフローチャートを参照して、音声復号装置200において実行される音声復号処理について説明する。
まず、エントロピー符号化が施された符号化信号が復号処理される(ステップT10)。この復号処理により、レベル調整のためのシフトビット数、分割帯域における最大値調整のためのシフトビット数、各周波数帯域における周波数帯域番号及び周波数変換係数に関するデータが得られる。そして周波数変換係数データに対し、逆量子化が施される(ステップT11)。ここで、現在処理対象とするフレームのMDCT係数の帯域数が、元のMDCT係数の帯域数よりも少ない場合、不足分の帯域に所定の値(例えば、0)が挿入される。
次いで、逆量子化により得られたMDCT係数が、符号化時に分割されたように、人間の聴覚の特性に合わせて帯域分割され(ステップT12)、当該MDCT係数に対し、各周波数帯域毎に、符号化時にシフトしたビット数分だけ符号化時とは逆方向にシフト処理が行われ(ステップT13)、シフト処理が施されたデータに対し、逆MDCTが施される(ステップT14)。次いで、逆MDCT後の音声信号がレベル調整により元のレベルに戻され(ステップT15)、符号化及び復号の処理単位であったフレームが合成され、本音声復号処理が終了する。
以上のように、本実施形態の音声符号化装置100及び音声復号装置200によれば、エントロピー符号化を行う前に、予め周波数帯域毎に重要度を算出し、算出された重要度の高い順番で生成符号量が目標符号量になるまで符号化を行うことにより、従来のように何度も符号化をやり直すことがなく、演算量を削減させることが可能となる。
次に、本実施形態の変形例について説明する。
<変形例1>
上述の実施形態では、重要度の高い周波数帯域の順番でエントロピー符号化を行ったため、符号化データに符号化順を表す周波数帯域を示す周波数帯域番号データを含ませて復号側に送信する必要があった。そこで、変形例1では、重要度の高い順番でエントロピー符号化を行った後、目標符号量で符号化された帯域に対して再度周波数帯域順にエントロピー符号化を施すことによって、符号化順を表すデータを送信する必要がなくなるような場合を示す。変形例1のエントロピー符号化部20において実行される符号化処理について、図8のフローチャートを参照して詳細に説明する。
まず、1回目の符号化として、図5に示すエントロピー符号化が行われる(ステップS40)。次いで、この符号化によって目標符号量とするために符号化対象となった周波数帯域(選択帯域)が特定される(ステップS41)。図9は、この選択帯域を特定する処理が終了した段階で得られているデータの関係を示すものであり、周波数帯域番号別に、周波数変換係数、エネルギーgi(式(4)参照)、その周波数帯域が符号化対象となったことを示すフラグが付けられることを示す。ステップS41において選択帯域として特定された周波数帯域は、フラグの値が1となり、選択帯域として特定されていない周波数帯域は、フラグの値が0となる。
次いで、ステップS41で特定された選択帯域(フラグの値が1の周波数帯域)に対し、今度は周波数順(例えば、周波数帯域番号の低い順)にエントロピー符号化(各周波数帯域における周波数変換係数に対するレンジコーダ符号化)が施され、また何番目の帯域の周波数変換係数が符号化されたかを示すデータ(例えば、図9のフラグを連続させたデータ)も符号化されて周波数変換係数の符号化データに付加され(ステップS42)、変形例1の符号化処理が終了する。
<変形例2>
特許文献1に記載のように、音声信号の入力に応じて、音声信号を示す各記号の出現確率を格納した生起確率表を逐次更新するようなレンジコーダ符号化を用いる場合、変形例1のように、1回目の符号化で所定の符号量に合うように符号化対象の周波数帯域を決定し、その後、符号化順を変えて符号化をやり直すと、生起確率表の違いから生成符号量に若干差が出てしまう場合がある。そこで、変形例2では、変形例1の符号化処理を行った後に、生成符号量が目標符号量を超えてしまった場合には、予め指定された帯域を削除することで、生成符号量を目標符号量に抑える場合を示す。変形例2のエントロピー符号化部20において実行される符号化処理について、図10のフローチャートを参照して詳細に説明する。
まず、変形例1と同様に、1回目の符号化として、図5に示すエントロピー符号化が行われ(ステップS50)、次いで、目標符号量で符号化するための周波数帯域(選択帯域)が特定される(ステップS51)。次いで、ステップS51で特定された選択帯域に対し、周波数順(周波数帯域番号の低い順)にエントロピー符号化が施される(ステップS52)。
次いで、現在の生成符号量が目標符号量を超えているか否かが判定される(ステップS53)。ステップS53において、現在の生成符号量が目標符号量を超えていないと判定された場合(ステップS53;NO)、変形例2の符号化処理が終了する。
ステップS53において、現在の生成符号量が目標符号量を超えていると判定された場合(ステップS53;YES)、符号化対象となったデータの中から、予め指定された帯域のデータ(例えば、最も高域側の帯域)が削除される(ステップS54)。次いで、ステップS54における帯域削除後に残った帯域のデータに対し、エントロピー符号化が施され(ステップS55)、変形例2の符号化処理が終了する。
本発明の実施形態に係る音声符号化装置の構成を示すブロック図。 本発明の実施形態に係る音声復号装置の構成を示すブロック図。 周波数変換係数の帯域分割を説明するための図。 本実施形態の音声符号化装置において実行される音声符号化処理を示すフローチャート。 本実施形態におけるエントロピー符号化の詳細を示すフローチャート。 周波数帯域番号別に周波数変換係数とエネルギーとの関係を示す図。 本実施形態の音声復号装置において実行される音声復号処理を示すフローチャート。 本実施形態の変形例1における符号化処理を示すフローチャート。 周波数帯域番号別に周波数変換係数、エネルギー、フラグの関係を示す図。 本実施形態の変形例2における符号化処理を示すフローチャート。
符号の説明
11 フレーム化部(フレーム化手段)
12 レベル調整部(振幅調整手段)
13 周波数変換部(周波数変換手段)
14 帯域分割部(帯域分割手段)
15 最大値検索部(検索手段)
16 シフト数算出部(シフト数算出手段)
17 シフト処理部(シフト処理手段)
18 量子化部
19 帯域重要度算出部(重要度算出手段)
20 エントロピー符号化部(符号化手段、比較手段)
21 エントロピー復号部(復号手段)
22 逆量子化部
23 帯域分割部
24 シフト処理部
25 周波数逆変換部(周波数逆変換手段)
26 レベル再現部
27 フレーム合成部
100 音声符号化装置
200 音声復号装置

Claims (7)

  1. 音声信号に対して周波数変換を施す周波数変換手段と、
    前記音声信号の周波数帯域毎に、周波数帯域の重要度を算出する重要度算出手段と、
    前記重要度算出手段により算出された重要度の高い順番で、前記周波数変換手段で得られた周波数変換係数のエントロピー符号化を行う符号化手段と、
    前記エントロピー符号化による生成符号量と、予め設定された目標符号量を比較する比較手段と、を備え、
    前記符号化手段は、前記生成符号量が前記目標符号量になるまで、前記重要度の高い順番で周波数変換係数のエントロピー符号化を行い、その後、前記目標符号量となるために符号化の対象となった周波数帯域の周波数変換係数に対して周波数帯域順に再度エントロピー符号化を行うことを特徴とする音声符号化装置。
  2. 前記比較手段は、周波数帯域順に再度行われたエントロピー符号化による生成符号量と前記目標符号量を更に比較し、
    前記比較手段により、再度のエントロピー符号化による生成符号量が前記目標符号量を超えている場合、前記符号化手段は、生成符号の中から予め指定された周波数帯域の周波数変換係数を削除し、当該削除後に残った周波数帯域の周波数変換係数に対して再度エントロピー符号化を行うことを特徴とする請求項に記載の音声符号化装置。
  3. 前記符号化手段は、前記エントロピー符号化としてレンジコーダによる符号化を用いることを特徴とする請求項1又は2に記載の音声符号化装置。
  4. 入力された音声信号を一定長のフレームに分割するフレーム化手段と、
    前記フレーム毎に、フレームに含まれる音声信号の振幅の最大値に基づいて当該音声信号の振幅を調整する振幅調整手段と、
    前記周波数変換手段により、前記振幅が調整された音声信号に周波数変換が施された後、当該周波数変換により得られる周波数変換係数の周波数帯域を、人間の聴覚の特性に基づいて、低域ほど狭く、高域ほど広く分割する帯域分割手段と、
    前記帯域分割手段により得られた各帯域毎に、周波数変換係数の絶対値の最大値を検索する検索手段と、
    前記検索手段により各帯域毎に得られた最大値が、各帯域で予め設定された量子化ビット数以下になるようなシフトビット数を算出するシフト数算出手段と、
    各帯域毎に、帯域中の周波数変換係数に対し、前記シフト数算出手段により算出されたシフトビット数分のシフト処理を施すシフト処理手段と、を備え、
    前記符号化手段は、前記シフト処理が施されたデータに対し、エントロピー符号化を施すことを特徴とする請求項1〜の何れか一項に記載の音声符号化装置。
  5. 前記周波数変換手段は、前記周波数変換として変形離散コサイン変換を用いることを特徴とする請求項1〜の何れか一項に記載の音声符号化装置。
  6. 音声信号に対して周波数変換を施し、
    前記音声信号の周波数帯域毎に、周波数帯域の重要度を算出し、
    前記算出された重要度の高い順番で周波数変換係数のエントロピー符号化を行い、
    前記エントロピー符号化による生成符号量と、予め設定された目標符号量を比較し、
    前記生成符号量が前記目標符号量になるまで、前記重要度の高い順番でエントロピー符号化を行い、
    前記目標符号量となるために符号化の対象となった周波数帯域の周波数変換係数に対して周波数帯域順に再度エントロピー符号化を行
    ことを特徴とする音声符号化方法。
  7. 周波数帯域順に再度行われたエントロピー符号化による生成符号量と前記目標符号量を更に比較し、
    前記比較により、再度のエントロピー符号化による生成符号量が前記目標符号量を超えている場合、生成符号の中から予め指定された周波数帯域の周波数変換係数を削除し、当該削除後に残った周波数帯域の周波数変換係数に対して再度エントロピー符号化を行うことを特徴とする請求項6に記載の音声符号化方法。
JP2006010319A 2006-01-18 2006-01-18 音声符号化装置及び音声符号化方法 Active JP4548348B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2006010319A JP4548348B2 (ja) 2006-01-18 2006-01-18 音声符号化装置及び音声符号化方法
US11/653,506 US20070168186A1 (en) 2006-01-18 2007-01-16 Audio coding apparatus, audio decoding apparatus, audio coding method and audio decoding method
TW096101667A TWI329302B (en) 2006-01-18 2007-01-17 Audio coding apparatus, audio decoding apparatus, audio coding method and audio decoding method
CN2007100019506A CN101004914B (zh) 2006-01-18 2007-01-17 声音编码装置和方法
KR1020070004990A KR100904605B1 (ko) 2006-01-18 2007-01-17 음성부호화장치, 음성복호장치, 음성부호화방법 및음성복호방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006010319A JP4548348B2 (ja) 2006-01-18 2006-01-18 音声符号化装置及び音声符号化方法

Publications (2)

Publication Number Publication Date
JP2007193043A JP2007193043A (ja) 2007-08-02
JP4548348B2 true JP4548348B2 (ja) 2010-09-22

Family

ID=38264338

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006010319A Active JP4548348B2 (ja) 2006-01-18 2006-01-18 音声符号化装置及び音声符号化方法

Country Status (5)

Country Link
US (1) US20070168186A1 (ja)
JP (1) JP4548348B2 (ja)
KR (1) KR100904605B1 (ja)
CN (1) CN101004914B (ja)
TW (1) TWI329302B (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009068083A1 (en) * 2007-11-27 2009-06-04 Nokia Corporation An encoder
JP5483813B2 (ja) * 2007-12-21 2014-05-07 株式会社Nttドコモ マルチチャネル音声音響信号符号化装置および方法、並びにマルチチャネル音声音響信号復号装置および方法
JP5018557B2 (ja) * 2008-02-29 2012-09-05 カシオ計算機株式会社 符号化装置、復号化装置、符号化方法、復号化方法及びプログラム
JP4978539B2 (ja) * 2008-04-07 2012-07-18 カシオ計算機株式会社 符号化装置、符号化方法及びプログラム。
JP2011064961A (ja) * 2009-09-17 2011-03-31 Toshiba Corp 音声再生装置および方法
JP5809066B2 (ja) * 2010-01-14 2015-11-10 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 音声符号化装置および音声符号化方法
WO2011155786A2 (ko) * 2010-06-09 2011-12-15 엘지전자 주식회사 엔트로피 복호화 방법 및 복호화 장치
ES2617958T3 (es) 2011-04-05 2017-06-20 Nippon Telegraph And Telephone Corporation Codificación de una señal acústica
CN107516531B (zh) 2012-12-13 2020-10-13 弗朗霍弗应用研究促进协会 语音声响编码装置和解码装置、语音声响编码和解码方法
JP6318904B2 (ja) 2014-06-23 2018-05-09 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
JP6398607B2 (ja) 2014-10-24 2018-10-03 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
CN112767953B (zh) * 2020-06-24 2024-01-23 腾讯科技(深圳)有限公司 语音编码方法、装置、计算机设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09106299A (ja) * 1995-10-09 1997-04-22 Nippon Telegr & Teleph Corp <Ntt> 音響信号変換符号化方法および復号化方法
JPH1049196A (ja) * 1996-07-30 1998-02-20 Eibitsuto:Kk デジタル音声信号の帯域分割符号化方法と復号化方法
JP2003076397A (ja) * 2001-09-03 2003-03-14 Mitsubishi Electric Corp 音響符号化装置、音響復号化装置、音響符号化方法及び音響復号化方法
JP2004289837A (ja) * 2003-03-22 2004-10-14 Samsung Electronics Co Ltd デジタルデータの符号化/復号化方法および装置
WO2005004113A1 (ja) * 2003-06-30 2005-01-13 Fujitsu Limited オーディオ符号化装置
JP2005345707A (ja) * 2004-06-02 2005-12-15 Casio Comput Co Ltd 音声処理装置及び音声符号化方法
JP2006010817A (ja) * 2004-06-23 2006-01-12 Victor Co Of Japan Ltd 音響信号符号化装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1197619A (en) * 1982-12-24 1985-12-03 Kazunori Ozawa Voice encoding systems
US5752225A (en) * 1989-01-27 1998-05-12 Dolby Laboratories Licensing Corporation Method and apparatus for split-band encoding and split-band decoding of audio information using adaptive bit allocation to adjacent subbands
JP2878796B2 (ja) * 1990-07-03 1999-04-05 国際電気株式会社 音声符号化器
US5608713A (en) * 1994-02-09 1997-03-04 Sony Corporation Bit allocation of digital audio signal blocks by non-linear processing
JP3274284B2 (ja) * 1994-08-08 2002-04-15 キヤノン株式会社 符号化装置およびその方法
TW384434B (en) * 1997-03-31 2000-03-11 Sony Corp Encoding method, device therefor, decoding method, device therefor and recording medium
KR100354531B1 (ko) * 1998-05-06 2005-12-21 삼성전자 주식회사 실시간 복호화를 위한 무손실 부호화 및 복호화 시스템
US6300888B1 (en) * 1998-12-14 2001-10-09 Microsoft Corporation Entrophy code mode switching for frequency-domain audio coding
KR100391935B1 (ko) * 1998-12-28 2003-07-16 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우. 오디오 신호를 코딩 또는 디코딩하는 방법 및 디바이스
US6499010B1 (en) * 2000-01-04 2002-12-24 Agere Systems Inc. Perceptual audio coder bit allocation scheme providing improved perceptual quality consistency
US6778953B1 (en) * 2000-06-02 2004-08-17 Agere Systems Inc. Method and apparatus for representing masked thresholds in a perceptual audio coder
JP2002135122A (ja) * 2000-10-19 2002-05-10 Nec Corp オーディオ信号符号化装置
CN1301014C (zh) * 2001-11-22 2007-02-14 松下电器产业株式会社 可变长度编码方法以及可变长度解码方法
US7110941B2 (en) * 2002-03-28 2006-09-19 Microsoft Corporation System and method for embedded audio coding with implicit auditory masking
US7433824B2 (en) * 2002-09-04 2008-10-07 Microsoft Corporation Entropy coding by adapting coding between level and run-length/level modes
JP4859368B2 (ja) * 2002-09-17 2012-01-25 ウラディミール・ツェペルコヴィッツ 高圧縮比を提供する要求資源最小の高速コーデック
US7333930B2 (en) * 2003-03-14 2008-02-19 Agere Systems Inc. Tonal analysis for perceptual audio coding using a compressed spectral representation
US7349842B2 (en) * 2003-09-29 2008-03-25 Sony Corporation Rate-distortion control scheme in audio encoding
JP4009781B2 (ja) * 2003-10-27 2007-11-21 カシオ計算機株式会社 音声処理装置及び音声符号化方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09106299A (ja) * 1995-10-09 1997-04-22 Nippon Telegr & Teleph Corp <Ntt> 音響信号変換符号化方法および復号化方法
JPH1049196A (ja) * 1996-07-30 1998-02-20 Eibitsuto:Kk デジタル音声信号の帯域分割符号化方法と復号化方法
JP2003076397A (ja) * 2001-09-03 2003-03-14 Mitsubishi Electric Corp 音響符号化装置、音響復号化装置、音響符号化方法及び音響復号化方法
JP2004289837A (ja) * 2003-03-22 2004-10-14 Samsung Electronics Co Ltd デジタルデータの符号化/復号化方法および装置
WO2005004113A1 (ja) * 2003-06-30 2005-01-13 Fujitsu Limited オーディオ符号化装置
JP2005345707A (ja) * 2004-06-02 2005-12-15 Casio Comput Co Ltd 音声処理装置及び音声符号化方法
JP2006010817A (ja) * 2004-06-23 2006-01-12 Victor Co Of Japan Ltd 音響信号符号化装置

Also Published As

Publication number Publication date
KR100904605B1 (ko) 2009-06-25
CN101004914B (zh) 2011-03-16
JP2007193043A (ja) 2007-08-02
TWI329302B (en) 2010-08-21
KR20070076519A (ko) 2007-07-24
US20070168186A1 (en) 2007-07-19
CN101004914A (zh) 2007-07-25
TW200805253A (en) 2008-01-16

Similar Documents

Publication Publication Date Title
JP4548348B2 (ja) 音声符号化装置及び音声符号化方法
JP4800645B2 (ja) 音声符号化装置、及び音声符号化方法
US8019601B2 (en) Audio coding device with two-stage quantization mechanism
JP5371931B2 (ja) 符号化装置、復号化装置、およびこれらの方法
KR102089602B1 (ko) 음성 복호 장치, 음성 부호화 장치, 음성 복호 방법, 음성 부호화 방법, 음성 복호 프로그램, 및 음성 부호화 프로그램
JP4978539B2 (ja) 符号化装置、符号化方法及びプログラム。
WO2006001159A1 (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
JP3344944B2 (ja) オーディオ信号符号化装置,オーディオ信号復号化装置,オーディオ信号符号化方法,及びオーディオ信号復号化方法
CN112970063A (zh) 用于利用生成模型的码率质量可分级编码的方法及设备
JP6032509B2 (ja) 復号装置、復号方法、およびプログラム
JP4533386B2 (ja) オーディオ符号化装置及びオーディオ符号化方法
JP4335245B2 (ja) 量子化装置、逆量子化装置、音声音響符号化装置、音声音響復号装置、量子化方法、および逆量子化方法
JP4259401B2 (ja) 音声処理装置及び音声符号化方法
JP5018557B2 (ja) 符号化装置、復号化装置、符号化方法、復号化方法及びプログラム
JP4273062B2 (ja) 符号化方法、符号化装置、復号化方法及び復号化装置
JP2009193015A (ja) 符号化装置、復号化装置、符号化方法、復号化方法及びプログラム
JP4438655B2 (ja) 符号化装置、復号装置、符号化方法及び復号方法
JP5188913B2 (ja) 量子化装置、量子化方法、逆量子化装置、逆量子化方法、音声音響符号化装置および音声音響復号装置
JP2006126592A (ja) 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法
JP2005283692A (ja) オーディオ信号圧縮方法
JP2006119363A (ja) 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法
JP2005345703A (ja) 音声処理装置及び音声符号化方法
JPH10228298A (ja) 音声信号符号化方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090414

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090605

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100615

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100628

R150 Certificate of patent or registration of utility model

Ref document number: 4548348

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130716

Year of fee payment: 3