JP6647370B2 - 音声音響符号化装置及び音声音響符号化方法 - Google Patents

音声音響符号化装置及び音声音響符号化方法 Download PDF

Info

Publication number
JP6647370B2
JP6647370B2 JP2018211253A JP2018211253A JP6647370B2 JP 6647370 B2 JP6647370 B2 JP 6647370B2 JP 2018211253 A JP2018211253 A JP 2018211253A JP 2018211253 A JP2018211253 A JP 2018211253A JP 6647370 B2 JP6647370 B2 JP 6647370B2
Authority
JP
Japan
Prior art keywords
band
spectrum
subband
limited
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018211253A
Other languages
English (en)
Other versions
JP2019040206A (ja
Inventor
河嶋 拓也
拓也 河嶋
押切 正浩
正浩 押切
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Publication of JP2019040206A publication Critical patent/JP2019040206A/ja
Application granted granted Critical
Publication of JP6647370B2 publication Critical patent/JP6647370B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、変換符号化方式を用いた音声音響符号化装置及び音声音響符号化方法に関する。
0.05−14kHz帯域の超広帯域(SWB:Super-Wide-Band)の音声信号または音楽信号を効率的に符号化できる方式として、ITU−T(International Telecommunication Union Telecommunication Standardization Sector)で規格化された非特許文献1及び非特許文献2に記載の技術がある。これらの技術では、7kHzまでの帯域をコア符号化部で符号化し、7kHz以上の帯域(以下、「拡張帯域」という)を拡張符号化部で符号化している。
コア符号化部では、符号励振線形予測(CELP:Code Excited Linear Prediction)を用いて符号化を行い、CELPでは符号化しきれない残差信号をMDCT(Modified Discrete Cosine Transform)にて周波数領域に変換した上で、FPC(Factorial Pulse Coding)またはAVQ(Algebraic Vector Quantization)と言った変換符号化で符号化している。拡張符号化部では、7kHz以上の拡張帯域において、7kHzまでの低域のスペクトルと相関の高い帯域を探索して、最も相関の高い帯域を拡張帯域の符号化に利用する手法等を用いて符号化している。なお、非特許文献1及び非特許文献2では、7kHzまでの低域側と7kHz以上の高域側には、それぞれ符号化ビット数があらかじめ決められており、低域側と高域側をそれぞれ決められた符号化ビット数で符号化している。
また、非特許文献3においても、SWBを符号化する方式がITU−Tで規格化されていることが開示されている。非特許文献3に記載の符号化装置では、入力信号をMDCTにより周波数領域に変換し、サブバンドに分割して、サブバンド毎に符号化を行う。具体的には、この符号化装置は、まず、各サブバンドエネルギーを算出し、符号化する。次に、周波数微細構造を符号化するために、サブバンドエネルギーに基づいて、各サブバンドに周波数微細構造を符号化するための符号化ビットを配分する。周波数微細構造は、格子ベクトル量子化(Lattice Vector Quantization)を用いて符号化される。格子ベクトル量子化も、FPCまたはAVQ同様、スペクトルの符号化に適した変換符号化の一種である。格子ベクトル量子化では、符号化ビットが十分に配分されないために、復号したスペクトルのエネルギーとサブバンドエネルギーとは誤差が大きい場合がある。この場合は、サブバンドエネルギーと復号スペクトルとのエネルギーの誤差を雑音ベクトルで埋める処理を行うことで符号化を行う。
また、非特許文献4では、AAC(Advanced Audio Coding)による符号化技術について述べられている。AACでは、聴覚モデルに基づいてマスキング閾値を算出し、マスキング閾値以下のMDCT係数を符号化対象から外すことにより、効率的に符号化を行っている。
ITU-T Standard G.718 AnnexB,2010年 ITU-T Standard G.729.1 AnnexE,2010年 ITU-T Standard G.719,2008年 MP3 AND AAC explained, AES 17th International Conference on High Quality Audio Coding, 1999年
非特許文献1及び非特許文献2では、コア符号化部が符号化する低域側と、拡張符号化部が符号化する高域側とにビットが固定で割り当てられており、信号の特性に応じて適切に低域と高域に符号化ビットを割り当てることができない。このため、入力信号の特性によっては十分な性能を発揮できないという課題がある。
一方、非特許文献3では、サブバンドエネルギーに応じて低域から高域まで適応的にビットを割り当てる仕組みはあるが、高域ほどスペクトルの誤差に対する感度が低いという聴覚特性に着目すると、高域には必要以上にビットが割り当てられやすいという課題がある。これについて以下に説明する。
符号化プロセスにおいて、まず、サブバンド毎に算出したサブバンドエネルギーが大きいほど、多くのビットが割り当てられるように各サブバンドで必要なビット量が算出される。ただし、変換符号化では、アルゴリズムの性質上、符号化ビット割り当てを1ビット増やしても符号化能力が向上せず、ある程度まとまったビット数を割り当てなければ符号化結果が変わらない場合がある。このため、ビット単位ではなく、このようなまとまったビット数の単位でビットの割り当てを行えば便利である。このような符号化に必要なビット数の単位を、ここではユニットと呼ぶことにする。割り当てられたユニット数が多いほど、スペクトルの形状及び振幅を正確に表現できる。なお、聴覚特性を考慮して、高域のサブバンドは低域に比べ、その帯域幅を広くとるのが一般的であるが、帯域幅が広いほど1ユニットに必要なビット量は多くなるから、1ユニットのビット数は帯域幅に応じて変えることにする。
本発明で想定する変換符号化では、スペクトルを周波数軸上の少数のパルス列で近似するため、その振幅情報と位置情報に、ユニット単位で割り当てられた符号化ビットを消費することになる。
さらに、非特許文献4では、聴覚特性上重要ではないMDCT係数を符号化対象から外すことにより、効率的に符号化を行っているが、符号化するスペクトル個々の位置情報は正確に表現している。このため、サブバンドの帯域幅が広いほど、個々のスペクトルの位置を表現するのに多くのビットを消費しなければならない。
しかしながら、高域になるほど、スペクトルの位置に対する聴覚の感度は低くなり、主要なスペクトル振幅、サブバンドエネルギーが表現できていれば聴感上の劣化は感じにくい。それにも関わらず、非特許文献3及び非特許文献4では、高域においても多くのビットを消費して、スペクトル個々の位置を正確に表現しようとしている。つまり、スペクトル位置を正確に表現するために、必要以上に符号化ビットを使用するという課題がある。
本発明の目的は、拡張帯域の音質の劣化を抑制しつつ、拡張帯域のスペクトルの符号化に割り当てる符号化ビット量を低減する音声音響符号化装置及び音声音響符号化方法を提供することである。
本発明の音声音響符号化装置は、時間領域の入力信号を周波数領域のスペクトルに変換する時間周波数変換手段と、拡張領域の周波数領域のスペクトルを複数のサブバンドに分割する分割手段と、前記拡張領域内の各サブバンドにおいて、1つ前のフレームにおけるサブバンドの最大振幅スペクトルと、現在のフレームにおけるサブバンドの前記最大振幅スペクトルとの距離が所定範囲内にある場合に、前記サブバンドよりも狭い限定帯域を現在のフレームに設定し、前記限定帯域の帯域幅は、前フレームの前記最大振幅スペクトルの周辺帯域を符号化対象の帯域として限定する、限定帯域設定手段と、前記限定帯域設定手段により限定帯域が設定された場合、現在のフレームにおけるサブバンドについて、前記限定帯域内のスペクトルを符号化し、前記限定帯域の外側のスペクトルは符号化しない、変換符号化手段と、を具備する構成を採る。
本発明の音声音響符号化方法は、時間領域の入力信号を周波数領域のスペクトルに変換する時間周波数変換工程と、拡張領域の周波数領域のスペクトルを複数のサブバンドに分割する分割工程と、前記拡張領域内の各サブバンドにおいて、1つ前のフレームにおけるサブバンドの最大振幅スペクトルと、現在のフレームにおけるサブバンドの前記最大振幅スペクトルとの距離が所定範囲内にある場合に、限定帯域を設定し、前記限定帯域の帯域幅は、前フレームの前記最大振幅スペクトルの周辺帯域を符号化対象の帯域として限定する、限定帯域設定工程と、前記限定帯域が設定された現在のフレームにおけるサブバンドについて、前記限定帯域のスペクトルを符号化し、前記限定帯域の外側のスペクトルは符号化しない、変換符号化工程と、を具備する構成を採る。
本発明の音声音響復号装置は、限定帯域を設定するか否かを示すフラグを含む、音声音響符号化データを復号する変換復号部と、1つ前のフレームにおけるサブバンドの最大振幅スペクトルの位置情報を記憶する記憶部と、復号されたバンドに符号化装置側で限定帯域が設定されているか否かを、復号されたフラグに基づいて認識し、限定帯域が設定されていると認識された場合、前記1つ前のフレームにおけるサブバンドの最大振幅スペクトル位置情報を用いて、前記限定帯域が設定された現在のフレームにおけるサブバンドについて、前記限定帯域のスペクトルを復号する、対象帯域復号手段と、を具備し、前記限定帯域は、符号化装置側において、前記各サブバンドにおいて、1つ前のフレームにおけるサブバンドの最大振幅スペクトルと、現在のフレームにおけるサブバンドの前記最大振幅スペクトルとの距離が所定範囲内にある場合に、限定帯域を設定し、前記限定帯域の帯域幅は、前フレームの前記最大振幅スペクトルの周辺帯域を符号化対象の帯域として限定される、構成を採る。
本発明の音声音響復号方法は、限定帯域を設定するか否かを示すフラグを含む、音声音響符号化データを復号し、1つ前のフレームにおけるサブバンドの最大振幅スペクトル位置情報を記憶し、復号されたバンドに符号化装置側で限定帯域が設定されているか否かを、復号されたフラグに基づいて認識し、限定帯域が設定されていると認識した場合、前記1つ前のフレームにおけるサブバンドの最大振幅スペクトル位置情報を用いて、前記限定帯域が設定された現在のフレームにおけるサブバンドについて、前記限定帯域のスペクトルを復号し、前記限定帯域は、符号化装置側において、前記各サブバンドにおいて、1つ前のフレームにおけるサブバンドの最大振幅スペクトルと、現在のフレームにおけるサブバンドの前記最大振幅スペクトルとの距離が所定範囲内にある場合に、限定帯域を設定し、前記限定帯域の帯域幅は、前フレームの前記最大振幅スペクトルの周辺帯域を符号化対象の帯域として限定される、構成を採る。
本発明によれば、拡張帯域の音質の劣化を抑制しつつ、拡張帯域のスペクトルの符号化に割り当てる符号化ビット量を低減することができる。
本発明の実施の形態1,3,5に係る音声音響符号化装置の構成を示すブロック図 帯域圧縮を説明するための図 ユニット数再算出部の動作を説明するための図 本発明の実施の形態1,3,5に係る音声音響復号装置の構成を示すブロック図 帯域伸張を説明するための図 本発明の実施の形態1に係る音声音響符号化装置の他の構成を示すブロック図 本発明の実施の形態1に係る音声音響復号装置の他の構成を示すブロック図 本発明の実施の形態2に係る音声音響符号化装置の構成を示すブロック図 本発明の実施の形態2に係る音声音響復号装置の構成を示すブロック図 位置補正情報に基づいて帯域伸張した様子を示す図 本発明の実施の形態4に係る声音響符号化装置の構成を示すブロック図 インタリーブを説明するための図 本発明の実施の形態4に係る声音響復号装置の構成を示すブロック図 帯域圧縮の一例を示す図 帯域伸張の一例を示す図 本発明の実施の形態6に係る音声音響符号化装置の構成を示すブロック図 帯域限定を行わない変換符号化の一例を示す図 帯域限定を行った変換符号化の一例を示す図 本発明の実施の形態6に係る音声音響復号装置の構成を示すブロック図
以下、本発明の実施の形態について、図面を参照して詳細に説明する。ただし、実施の形態において、同一機能を有する構成には同一符号を付し、重複する説明は省略する。
(実施の形態1)
図1は、本発明の実施の形態1に係る音声音響符号化装置100の構成を示すブロック図である。以下、図1を用いて、音声音響符号化装置100の構成について説明する。
時間周波数変換部101は、入力信号を取得し、取得した時間領域の入力信号を周波数領域に変換して、入力信号スペクトルとしてサブバンド分割部102に出力する。なお、実施の形態では、時間周波数変換としてMDCTを例に説明するが、FFT(Fast Fourier Transform)またはDCT(Discrete Cosine Transform)等の直交変換を用いてもよい。
サブバンド分割部102は、時間周波数変換部101から出力された入力信号スペクトルをM個のサブバンドに分割し、サブバンドのスペクトルをサブバンドエネルギー算出部103及び帯域圧縮部105に出力する。一般に、人間の聴覚特性を考慮して、低域ほど帯域幅が狭く、高域ほど帯域幅が広くなるような不均一分割を行う。本説明においても、これを前提に説明を行う。n番目のサブバンドのサブバンド長をW[n]で表し、サブバンドスペクトルベクトルは、Snで表すものとする。各Snには、W[n]個のスペクトルが格納される。また、W[k−1]≦W[k]の関係を持つものとする。このように不均一分割を行う符号化方式として、ITU−T G.719がある。G.719は、サンプリングレートが48kHzの入力信号を時間周波数変換する。その後、スペクトルを最低域では周波数軸上で8点毎にサブバンドに分割し、最高域では32点毎にサブバンドに分割している。なお、G.719は32kbpsから128kbpsと多くの符号化ビットを使える符号化方式であるが、さらに低ビットレート化を図るためには、各サブバンドの長さを長くすることが有用であり、特に高域ほどサブバンド長を長くする方が有用であると考えられる。
サブバンドエネルギー算出部103は、サブバンド分割部102から出力されたサブバンドスペクトルからサブバンド毎にエネルギーを算出して、量子化したサブバンドエネルギーをユニット数算出部104に出力し、サブバンドエネルギーを符号化したサブバンドエネルギー符号化データを多重化部108に出力する。ここでは、サブバンドエネルギーは、そのサブバンドに含まれるスペクトルのエネルギーを、底を2とする対数で表したものとする。サブバンドエネルギーの算出式を次式(1)に示す。
Figure 0006647370
ここで、nはサブバンド番号、E[n]はサブバンドnのサブバンドエネルギー、W[n]はサブバンドnのサブバンド長、Sn[i]はn番目のサブバンドのi番目のスペクトルを意味するものとする。なお、サブバンド長はサブバンドエネルギー算出部103に予め登録されているものとする。
ユニット数算出部104は、サブバンドエネルギー算出部103から出力された量子化サブバンドエネルギーに基づいて、サブバンドに割り当てる暫定的な割当ビット数を算出し、計算したユニット数とともにユニット数再算出部106に出力する。サブバンドエネルギー算出部103と同様に、サブバンド長はユニット数算出部104に予め登録されているものとする。基本的に、符号化ビットは、サブバンドエネルギーE[n]が大きいほど、多く割り当てられる。ただし、符号化ビットはユニット単位で割り当てられ、1ユニットあたりのビット数はサブバンド長に依存する。そのため、他のサブバンドでのビット配分も含めて最適に配分する必要がある。なお、ユニット数算出部104の詳細については後述する。
帯域圧縮部105は、サブバンド分割部102から出力されたサブバンドスペクトルを用いて、拡張帯域の各サブバンドを帯域圧縮し、低域側のサブバンド及び前記圧縮したサブバンドを含むサブバンド圧縮スペクトルを変換符号化部107に出力する。帯域圧縮の目的は、主要なスペクトルを符号化対象として残しつつ、スペクトル位置の情報を削除することで、変換符号化に要する符号化ビットを削減することである。なお、帯域圧縮部105の詳細については後述する。
ユニット数再算出部106は、ユニット数算出部104から出力された暫定的な割当ビット数及びユニット数に基づいて、帯域圧縮を行ったサブバンドにおいて削減したビットを拡張帯域外の低域に再配分する。ユニット数再算出部106は、再配分したビットに基づいて、ユニット数を再配分し、再配分ユニット数を変換符号化部107に出力する。なお、ユニット数再算出部106の詳細については後述する。
変換符号化部107は、帯域圧縮部105から出力されたサブバンド圧縮スペクトルを変換符号化により符号化して、変換符号化データを多重化部108に出力する。変換符号化方式として、例えばFPC、AVQ、または、LVQといった変換符号化方式を用いる。変換符号化部107では、入力されたサブバンド圧縮スペクトルを、ユニット数再算出部106から出力された再配分ユニット数で決定される符号化ビットを用いて符号化する。再配分ユニット数が多ければ多いほど、スペクトルを近似するパルス数を増やしたり、その振幅値をより正確にしたりすることができる。パルス数を増やすのか、その振幅精度を向上させるのかは、符号化対象の入力スペクトルと復号後のスペクトルとの歪を基準として決定する。
多重化部108は、サブバンドエネルギー算出部103から出力されたサブバンドエネルギー符号化データと、変換符号化部107から出力された変換符号化データとを多重化して符号化データとして出力する。
ここで、図1に示したユニット数算出部104におけるユニット数の配分方法について具体例を挙げて説明する。まず、ユニット数算出部104は、サブバンドエネルギー算出部103から出力されたサブバンドエネルギーに基づいて、各サブバンドに割り当てるビット数を計算する。以下、計算されたビット数を暫定的な割当ビット数という。例えば、スペクトル微細構造を符号化するために与えられた符号化ビットの総量が320ビット、式(1)で計算した後に量子化した各サブバンドのサブバンドエネルギーの合計が160であった場合、320/160=2.0であるので、各サブバンドのエネルギーに2.0を乗じたものを暫定的な割当ビット数とすることができる。
次に、ユニット数算出部104は、各サブバンドに実際に割り当てるビット(以下、「割当ビット数」という)を決定するが、変換符号化ではユニット単位で符号化ビットを割り当てることになるので、暫定的な割当ビット数をそのまま割当ビット数とすることができない。例えば、暫定的な割当ビット数が30、1ユニットが7ビットであった場合において、割当ビット数が暫定的な割当ビット数を超えないものとすると、ユニット数は4となり、割当ビット数は28、暫定的な割当ビット数に対して2ビットが余剰ビットとなる。
このように、サブバンド毎に割当ビット数を順次算出すると、全サブバンドについて算出が終了した時点で、符号化ビットに過不足が発生する恐れがある。そのため、効率的に符号化ビットを割り当てる工夫が必要となる。例えば、あるサブバンドで生じた余剰ビットを、次のサブバンドの暫定的な割当ビット数に加算していくことにより、ビットを過不足なく配分することが考えられる。
具体的な例を用いて説明する。ここでは簡単のため、スペクトルを近似するパルスの位置情報のみを符号化する例で説明し、かつ符号化されるパルスが増える毎にその位置情報分が単純に加算されるものとする。例えばサブバンド長を32とすると、32は2の5乗以下なので、サブバンド内のすべてのスペクトルの位置を符号化対象とするには最低限5ビット必要となる。つまり、このサブバンドにおける1ユニットは5ビットとなる。
サブバンドのエネルギーから計算される暫定的な割当ビット数が33であったとすると、割り当てられるユニット数は6、割当ビット数30となり、余剰ビットは3ビットとなる。しかしながら、前サブバンドにおいて2ビットの余剰ビットが発生していたとしたら、このサブバンドの暫定的な割当ビット数に前サブバンドの余剰ビット2を加算して、暫定的な割当ビット数が35となる。この結果、ユニット数は7となり、割当ビット数は35となる。すなわち、余剰ビットは0ビットとなる。これを順次全てのサブバンドで繰り返していくことにより、効率的なユニット配分が可能となる。
次に、図1に示した帯域圧縮部105における帯域圧縮方法について説明する。帯域圧縮方法として、ここでは、帯域圧縮対象サブバンドの低域側から順に2サンプルずつの組み合わせを作り、各組み合わせのうち絶対値振幅の大きい方のサンプルを残す場合を例に説明する。
図2に、帯域圧縮を説明するための図を示す。ただし、図2では、拡張帯域における帯域圧縮対象サブバンドnを抽出した様子を示し、サブバンド長をW(n)、横軸は周波数、縦軸はスペクトルの絶対値振幅を示すものとする。
図2(A)は、帯域圧縮前のサブバンドスペクトルを示す。この例では、帯域圧縮前の帯域幅はW(n)=8とする。帯域圧縮部105は、サブバンド分割部102から出力されたサブバンドスペクトルを低域側から順に2サンプルずつを組みとする組み合わせを作り、各組み合わせのうち絶対値振幅の大きいスペクトルを残す。図2(A)の例では、1番目と2番目に位置するスペクトルの組み合わせのうち2番目のスペクトルを選択し、1番目のスペクトルを破棄する。同様に、帯域圧縮部105は、3番目と4番目の組み合わせ、5番目と6番目の組み合わせ、7番目と8番目の組み合わせにおいてそれぞれ大きい方のスペクトルを選択する。選択した結果、図2(B)に示すようになり、位置2、4、5、8番目の4本のスペクトルが選択される。
次に、帯域圧縮部105は、選択したスペクトルを帯域圧縮する。帯域圧縮は、選択されたスペクトルを周波数軸上で低域側に詰めて配置することにより行われる。この結果、帯域圧縮サブバンドスペクトルは、図2(C)で表され、帯域圧縮後の帯域幅は、圧縮前に比べて半分の帯域幅となる。なお、圧縮前の帯域幅が奇数である場合も考慮すると、帯域圧縮後のサブバンド幅W’(n)は、以下の式(2)によって表すことができる。
Figure 0006647370
式(2)において、(int)は小数点以下を切り捨てて整数化する関数、%は剰余を算出する演算子を表す。
このように、拡張帯域における各帯域圧縮対象サブバンドでは、低域側から順に2サンプルずつを組みとする各組み合わせのうち絶対値振幅の大きいスペクトルを残しつつ、帯域幅を半分にすることができる。
次に、図1に示したユニット数再算出部106におけるユニット数再算出方法について説明する。ユニット数再算出部106では、暫定的な割当ビット数に近くなるように割当ビット数を算出する点は、ユニット数算出部104と同様であるが、帯域圧縮対象サブバンドでは、ユニット数算出部104において算出されたユニット数を維持することと、帯域圧縮対象サブバンドで削減したビットを低域に再配分するようにしている点が異なる。
ユニット数再算出部106は、帯域圧縮対象サブバンドで削減したビットを低域に再配分するために、まず、帯域圧縮対象サブバンドの割当ビット数を確定させる。ユニット数は固定、サブバンド長は帯域圧縮により減っているので、割当ビット数を減らすことができる。ここでは、帯域圧縮によってサブバンド長が半減する場合を例に説明しているので、1ユニット当たりのビット数は1ビット減少する。帯域圧縮対象サブバンドのユニット数の合計が10ユニットであった場合には、10ビット削減できる。
削減できたビットを低域サブバンドの暫定的な割当ビット数に加算することにより、低域サブバンドに対してユニット数を多く配分することができる。ここでは簡単のため、削減したビットを最も低域のサブバンドの暫定的な割当ビット数に加算するものとする。この結果、最も低域のサブバンドでは暫定的な割当ビット数が大きくなるため、配分されるユニット数が多くなることが期待できる。
以後、このサブバンドで生じる余剰ビットを順次、高域側のサブバンドの暫定的な割当ビット数に加算し、ユニットの再配分を行う。これを帯域圧縮対象サブバンドの直前のサブバンドまで繰り返すことで、帯域圧縮後の全てのサブバンドにユニットを再配分することができる。
図3に、ユニット数再算出部106の動作を説明するための図を示す。図3において、最上段(「サブバンド」と記載された段)は、サブバンドの分割イメージを示している。サブバンドは、1からMに分割され、サブバンド1が最も低域側のサブバンド、サブバンドMが最も高域側のサブバンドとする。また、サブバンド1からサブバンド(kh−1)までを帯域圧縮対象外の低域側のサブバンド、サブバンドkhからMまでを帯域圧縮対象のサブバンドとする。
また、中段(「ユニット数算出部出力」と記載された段)は、ユニット数算出部104から出力されたユニット数を示している。ユニット数は、サブバンドkに対して、ユニット数算出部104によりu(k)が割り当てられているものとする。
ユニット数再算出部106は、サブバンドkhからサブバンドMに対しては、ユニット数算出部104で算出されたu(k)をそのまま使用する。帯域幅を圧縮した後でもスペクトルを近似するパルスの本数を維持するためである。これにより、帯域圧縮サブバンドではスペクトル近似能力を維持しつつ、帯域幅が圧縮されるので、符号化ビットを削減でき、その削減ビットを余剰ビットにすることができる。
図3において、下段(「ユニット数再算出部出力」と記載された段)は、ユニット数再算出部106の出力のイメージを示している。ユニット数再算出部106は、サブバンドkhからサブバンドMまでは、ユニット数算出部104の出力をそのまま使用するので、ユニット数はu(k)のままである。ユニット数再算出部106は、余剰ビットを低域側のサブバンドに利用でき、新たにu’(k)を算出する。これにより、聴感上重要な低域スペクトルの符号化精度を上げることができるので、全体の音質を向上させることができる。
なお、上記の例では、帯域圧縮サブバンドで削減したビットを、最も低域のサブバンドの暫定的な割当ビット数に全て加算する例を示したが、削減したビット数を、まだ割当ビット数を算出していないサブバンドに均等に割り当て、これらサブバンドの暫定的な割当ビット数に加算するようにしてもよい。また、サブバンドエネルギーが大きいサブバンドにより多く加算するようにしてもよい。また、必ずしも低域側から高域側に向かって昇順で処理をしなくてもよい。
以上の構成により、音声音響符号化装置100は、拡張帯域の各サブバンドを帯域圧縮して符号化ビットを削減し、削減した符号化ビットを余剰ビットとして低域に再配分することにより、音質を向上させることができる。
図4は、本発明の実施の形態1に係る音声音響復号装置200の構成を示すブロック図である。ユニット数または1ユニットあたりのビット数は送信されないため、復号装置側で計算する必要がある。このため、符号化装置と同様に、ユニット数算出部とユニット数再算出部を持つ。以下、図4を用いて音声音響復号装置200の構成について説明する。
符号分離部201は、符号化データが入力され、入力された符号化データをサブバンドエネルギー符号化データと変換符号化データとに分離し、サブバンドエネルギー符号化データをサブバンドエネルギー復号部202に出力し、変換符号化データを変換符号化復号部205に出力する。
サブバンドエネルギー復号部202は、符号分離部201から出力されたサブバンドエネルギー符号化データを復号し、復号によって得られた量子化サブバンドエネルギーをユニット数算出部203に出力する。
ユニット数算出部203は、サブバンドエネルギー復号部202から出力された量子化サブバンドエネルギーを用いて、暫定的な割当ビット数とユニット数を算出し、算出した暫定的な割当ビット数とユニット数をユニット数再算出部204に出力する。なお、ユニット数算出部203は、音声音響符号化装置100のユニット数算出部104と同一であるため、その詳細な説明は省略する。
ユニット数再算出部204は、ユニット数算出部203から出力された暫定的な割当ビット数とユニット数に基づいて、再配分ユニット数を算出し、算出した再配分ユニット数を変換符号化復号部205に出力する。なお、ユニット数再算出部204は、音声音響符号化装置100のユニット数再算出部106と同一であるため、その詳細な説明は省略する。
変換符号化復号部205は、符号分離部201から出力された変換符号化データ、及び、ユニット数再算出部204から出力された再配分ユニット数に基づいて、サブバンド毎に復号した結果をサブバンド圧縮スペクトルとして帯域伸長部206に出力する。変換符号化復号部205は、再配分ユニット数から符号化に要した符号化ビット数を取得し、変換符号化データを復号する。
帯域伸張部206は、変換符号化復号部205から出力されたサブバンド圧縮スペクトルのうち、帯域圧縮対象外のサブバンドでは、そのままサブバンド圧縮スペクトルをサブバンドスペクトルとしてサブバンド統合部207に出力する。また、帯域伸張部206は、変換符号化復号部205から出力されたサブバンド圧縮スペクトルのうち、帯域圧縮対象サブバンドでは、サブバンド圧縮スペクトルをサブバンド長の幅に伸張して、サブバンドスペクトルとしてサブバンド統合部207に出力する。
本実施の形態では、音声音響符号化装置100の帯域圧縮部105において、帯域圧縮サブバンドの低域側から順に2サンプルずつの組み合わせを作り、各組み合わせのうち絶対値振幅の大きい方のサンプルを残す方法で帯域圧縮しているので、帯域伸張部206は、復号されたスペクトルを一つおきに、偶数番地もしくは奇数番地に格納することで本来の帯域幅(圧縮前の帯域幅)に伸張されたスペクトルを得ることができる。この場合、復号されたサブバンドスペクトルの位置のずれは最大1サンプルとなる。なお、帯域伸張部206の詳細については後述する。
サブバンド統合部207は、帯域伸張部206から出力されたサブバンドスペクトルを低域側から詰めて一つのベクトルに統合し、統合したベクトルを復号信号スペクトルとして周波数時間変換部208に出力する。
周波数時間変換部208は、サブバンド統合部207から出力された周波数領域の信号である復号信号スペクトルを時間領域の信号に変換して復号信号を出力する。
次に、図4に示した帯域伸張部206における帯域伸張方法について説明する。図5に帯域伸張を説明するための図を示す。ただし、図5では、図2と同様、サブバンド長をW(n)、横軸は周波数、縦軸はスペクトルの絶対値振幅を示すものとし、図2(C)で示したサブバンド圧縮スペクトルを伸張する場合について説明する。
帯域圧縮後の位置1に位置するサブバンド圧縮スペクトルは、圧縮前には位置1または位置2に存在していた。同様に、帯域圧縮後の位置2に位置するサブバンド圧縮スペクトルは、圧縮前には位置3または位置4に存在していた。同様に、帯域圧縮後の位置3と位置4に存在しているサブバンド圧縮スペクトルは、位置5または位置6、位置7または位置8にそれぞれ存在していた。
帯域伸張部206は、帯域圧縮後のスペクトルが帯域圧縮前にいずれかの位置に存在していたかは知りえないので、帯域圧縮後のスペクトルをいずれかの位置に配置することで伸張する。図5の例では、帯域圧縮後の位置1のサブバンド圧縮スペクトルは伸張後の位置1に、帯域圧縮後の位置2のサブバンド圧縮スペクトルは伸張後の位置3に配置するというように奇数番地に配置していく。この結果、伸張後のスペクトル位置5に存在するスペクトルのみが正しい位置に配置され、その他のスペクトル位置は1サンプルずれた位置に配置される。
以上の構成により、符号化データを、音声音響復号装置200により復号することができる。
このように、実施の形態1では、音声音響符号化装置100が、帯域圧縮対象サブバンドにおいて、サブバンドスペクトルを低域側から順に2サンプルずつを組みとする組み合わせを作り、各組み合わせのうち絶対値振幅の大きいスペクトルを選択し、選択したスペクトルを周波数軸上で低域側に詰めて配置することにより、聴感上重要ではないスペクトルを間引いて、帯域を圧縮することができる。また、これにより、スペクトルの変換符号化に必要な割当ビット数を削減することができる。
また、実施の形態1では、帯域圧縮対象サブバンドにおいて削減した割当ビット数を拡張帯域より低域のスペクトルの変換符号化のために再配分することにより、聴感上重要なスペクトルをより正確に表すことができるので、音質を向上させることができる。
なお、本実施の形態では、音声音響符号化装置100において、ユニット数算出部104がユニット数を算出し、ユニット数再算出部106が再配分ユニット数を算出する場合について説明した。しかし、本発明は、図6に示すように、音声音響符号化装置110として、ユニット数算出部104とユニット数再算出部106の機能を統合してユニット数算出部111としてもよい。
また、本実施の形態では、音声音響復号装置200において、ユニット数算出部203がユニット数を算出し、ユニット数再算出部204が再配分ユニット数を算出する場合について説明した。しかし、本発明は、図7に示すように、音声音響復号装置210として、ユニット数算出部203とユニット数再算出部204の機能を統合してユニット数算出部211としてもよい。
なお、本実施の形態では、帯域を圧縮する方法として、帯域圧縮対象サブバンドの低域側から順に2サンプルずつの組み合わせを作り、各組み合わせのうち絶対値振幅の大きい方のサンプルを残す場合について説明したが、別の帯域圧縮方法を用いてもよい。例えば、2サンプルずつの組み合わせに限らず、3サンプル以上のサンプル数で組み合わせを作り、各組み合わせのうち絶対値振幅の最も大きいサンプルを残すようにしてもよい。この場合、帯域圧縮によって削減できるビット数を増加させることができる。
また、高域になるほど組み合わせるサンプル数を多くするようにしてもよい。また、低域側から順に組み合わせを作ることに限らず、高域側から順に組み合わせを作るようにしてもよい。
(実施の形態2)
図8は、本発明の実施の形態2に係る音声音響符号化装置120の構成を示すブロック図である。以下、図8を用いて音声音響符号化装置120の構成について説明する。なお、図8が図1と異なる点は、ユニット数再算出部106を削除し、ユニット数算出部104をユニット数算出部111に変更し、サブバンドエネルギー減衰部121を追加した点である。
サブバンドエネルギー減衰部121は、サブバンドエネルギー算出部103から出力された量子化サブバンドエネルギーのうち、帯域圧縮対象サブバンドのサブバンドエネルギーを減衰させ、減衰させたサブバンドエネルギーをユニット数算出部111に出力する。
ここで、帯域圧縮対象サブバンドのサブバンドエネルギーを減衰させる理由について説明する。仮に、サブバンドエネルギーを減衰させないとすると、実施の形態1で説明したように、ユニット数算出部111によってこのサブバンドエネルギーをもとに暫定的な割当ビットが決まるが、帯域圧縮によって例えば帯域を半分にした場合、ユニットのビット数は1ビット削減されるので、余剰ビットが発生することになる。しかし、ユニット数再算出部106が無いので、この余剰ビットは高域側のサブバンドから低域側のサブバンドに必ずしも適切に再配分することができず無駄になる場合がある。
そこで、サブバンドエネルギー減衰部121は、帯域圧縮対象サブバンドに対して、当該サブバンドエネルギーを減衰させることにより、無駄な余剰ビットの発生を抑制している。ただし、帯域圧縮により、サブバンド長を半分にするとしても、主要なスペクトルは残しているので、サブバンドエネルギーを半分にしてしまうと過剰な減衰となってしまう。そのため、サブバンドエネルギー減衰部121は、例えば、サブバンドエネルギーに0.8倍等の定率を乗算したり、サブバンドエネルギーから3.0といった定数を減算したりしてもよい。
図9は、本発明の実施の形態2に係る音声音響復号装置220の構成を示すブロック図である。以下、図9を用いて音声音響符号化装置220の構成について説明する。なお、図9が図4と異なる点は、ユニット数再算出部204を削除し、ユニット数算出部104をユニット数算出部211に変更し、サブバンドエネルギー減衰部221を追加した点である。
サブバンドエネルギー減衰部221は、サブバンドエネルギー復号部202から出力されたサブバンドエネルギーのうち、帯域圧縮対象サブバンドのサブバンドエネルギーを減衰させ、減衰させたサブバンドエネルギーをユニット数算出部211に出力する。ただし、サブバンドエネルギー減衰部221は、音声音響符号化装置120のサブバンドエネルギー減衰部121と同一の条件で減衰を行う。
このように、実施の形態2では、音声音響符号化装置120が帯域圧縮対象サブバンドのサブバンドエネルギーを減衰させることにより、暫定的な割当ビットが符号化側と同じ値になるようにしている。
(実施の形態3)
実施の形態1では、帯域圧縮対象のサブバンドにおける伸張後のスペクトル位置が帯域圧縮前から変化する可能性がある。そこで、少なくとも、サブバンド内において聴感に大きな影響を及ぼす絶対値振幅が最大のスペクトル(以下、「振幅最大スペクトル」という)については、帯域圧縮の前後でスペクトル位置が変化しないようにすることが考えられる。
本発明の実施の形態3では、帯域圧縮対象のサブバンドにおける振幅最大スペクトルの復号後の位置を補正する場合について説明する。
本発明の実施の形態3に係る音声音響符号化装置及び音声音響復号装置の構成は、実施の形態1に示した図1、図4と同様の構成であり、帯域圧縮部105、帯域伸張部206の機能が異なるのみなので、図1、図4を援用し、異なる機能について説明する。また、以下において、図2(A)、図2(B)、図5を流用して説明する。
図1を参照するに、帯域圧縮部105は、サブバンド分割部102から出力されたサブバンドスペクトルから振幅最大スペクトルを探索する。帯域圧縮部105は、振幅最大スペクトルの位置が奇数番地に位置していれば0、偶数番地に位置していれば1とする位置補正情報を算出して変換符号化部107に出力する。図2(B)において、振幅最大スペクトルは位置2(偶数番地)に存在するスペクトルであるので、帯域圧縮部105は位置補正情報を1と算出する。算出された位置補正情報は、変換符号化部107によって符号化され、音声音響復号装置200に送信される。
図4を参照するに、帯域伸張部206は、変換符号化復号部205から出力されたサブバンド圧縮スペクトルのうち、帯域圧縮対象外のサブバンドでは、そのままサブバンド圧縮スペクトルをサブバンドスペクトルとしてサブバンド統合部207に出力する。また、帯域伸張部206は、変換符号化復号部205から出力されたサブバンド圧縮スペクトルのうち、帯域圧縮対象サブバンドでは、復号された位置補正情報に基づいて、振幅最大スペクトルを配置し、残りのサブバンド圧縮スペクトルをサブバンド長の幅に伸張して、サブバンドスペクトルとしてサブバンド統合部207に出力する。ここでは、位置補正情報が1であるので、振幅最大スペクトルは偶数番地に配置される。この結果を図10に示す。図2(A)と比べると、位置2に位置する振幅最大スペクトルが正確な位置に配置されていることが分かる。なお、振幅最大スペクトル以外は、最大1サンプルずれる可能性がある。
このように、位置補正情報に基づいて、振幅最大スペクトルを配置することにより、振幅最大スペクトルを帯域圧縮の前後でスペクトル位置を維持することができる。
なお、帯域を半分にする場合は、位置補正情報に1ビットの割り当てが必要となるので、ユニット数を5とすると、削減分の5ビットと増加する位置補正情報分の1ビットとから最終的な削減ビット数は4となる。また、1/4に帯域圧縮し、ユニット数を5とする場合には、削減分の10ビットと増加する位置補正情報分2ビットとから最終的な削減ビット数は8となる。
このように、実施の形態3では、音声音響符号化装置100は、帯域圧縮対象サブバンドの振幅最大スペクトルの位置が奇数番地に位置していれば0、偶数番地に位置していれば1とする位置補正情報を算出し、音声音響復号装置200に送信し、音声音響復号装置200が位置補正情報に基づいて、振幅最大スペクトルを配置することにより、サブバンド内において聴感に大きな影響を及ぼす振幅最大スペクトルを帯域圧縮の前後でスペクトル位置を維持することができる。
なお、本実施の形態では、振幅最大スペクトルの位置が奇数番地に位置していれば0、偶数番地に位置していれば1とする位置補正情報を算出すると説明したが、本発明はこれに限らない。例えば、振幅最大スペクトルの位置が奇数番地に位置していれば1、偶数番地に位置していれば0であってもよい。また、帯域圧縮対象サブバンドを1/3、1/4等に圧縮する場合には、それに伴った位置補正情報が算出される。
(実施の形態4)
実施の形態1では、帯域を圧縮する方法として、帯域圧縮対象サブバンドの低域側から順に2サンプルずつの組み合わせを作り、各組み合わせのうち絶対値振幅の大きい方のサンプルを残す場合について説明した。しかし、振幅最大スペクトルの次に大きい振幅のスペクトル(以下、「次点スペクトル」という)が振幅最大スペクトルと隣接するケースでは、次点スペクトルは符号化対象から外れてしまうことがある。次点スペクトルが振幅最大スペクトルと隣接するケースは、拡張帯域においては確率的に多いことが観測により確認されている。
そこで、本発明の実施の形態4では、帯域圧縮対象サブバンドのスペクトルの配置をあらかじめ定められた手順に従って変更し(以下、「インタリーブ」という)、振幅最大スペクトルと次点スペクトルとが隣り合わないようにする場合について説明する。
図11は、本発明の実施の形態4に係る音声音響符号化装置130の構成を示すブロック図である。以下、図11を用いて音声音響符号化装置130の構成について説明する。ただし、図11が図6と異なる点は、インタリーバ131を追加した点である。
インタリーバ131は、サブバンド分割部102から出力されたサブバンドスペクトルの配置をインタリーブし、配置をインタリーブしたサブバンドスペクトルを帯域圧縮部105に出力する。
図12に、インタリーブを説明するための図を示す。図12では、帯域圧縮対象サブバンドnを抽出した様子を示し、サブバンド長をW(n)、横軸は周波数、縦軸はスペクトルの絶対値振幅を示すものとする。
図12(A)は、帯域圧縮前のスペクトルを示しており、位置2のスペクトルが振幅最大スペクトルとし、位置1のスペクトルが次点スペクトルとする。ここで、実施の形態1に示した方法でスペクトルの選択を行うと、図12(B)に示すように、位置2のスペクトルが選択され、位置1の次点スペクトルは符号化対象から除外されてしまう。
図12(C)は、インタリーブ後のスペクトルを示す。具体的には、奇数番地をスペクトル上で低域側に並べ替え、偶数番地をスペクトル上で高域側に並べ替えた様子を示している。図中のOp(x)(x=1〜8)は、インタリーブ前のサブバンドスペクトル位置がxであることを示すものとする。
このように、インタリーバ131が帯域圧縮対象サブバンドにおけるスペクトルの配置をインタリーブすることにより、振幅最大スペクトルの位置は5に、次点スペクトルの位置は1となって、両者は離れることになる。このため、実施の形態1に示した方法で帯域圧縮を行っても、図12(D)に示すように、振幅最大スペクトルと次点スペクトルとを符号化対象とすることが可能となる。ただし、復号後のスペクトル位置のずれは、この例では最大2サンプルとなる。
図13は、本発明の実施の形態4に係る声音響復号装置230の構成を示すブロック図である。以下、図13を用いて音声音響復号装置230の構成について説明する。ただし、図13が図7と異なる点は、デインタリーバ231を追加した点である。
デインタリーバ231は、帯域伸張部206から出力されたサブバンド毎に分離されたサブバンドスペクトルのうち、帯域圧縮対象サブバンドでは、サブバンドスペクトルの配置をデインタリーブし、配置をデインタリーブしたサブバンドスペクトルをサブバンド統合部207に出力する。
このように、実施の形態4では、音声音響符号化装置130が帯域圧縮対象サブバンドのスペクトルの配置をインタリーブして帯域圧縮することにより、次点スペクトルと振幅最大スペクトルとが隣接する場合であっても、両者を離すことができ、帯域圧縮によって次点スペクトルが除外されることを回避することができる。
なお、本実施の形態と実施の形態1〜3のいずれかとは任意に組み合わせることが可能である。ちなみに、実施の形態3の振幅最大スペクトルに対する位置補正情報を符号化する方法と本実施の形態とを組み合わせた場合、インタリーブを行っても、振幅最大スペクトルの位置は正確に符号化することができる。
(実施の形態5)
実施の形態4では、インタリーブをすることで振幅最大スペクトルと次点スペクトルとが隣接する場合に、次点スペクトルが符号化対象から外れることを防ぐ方法について説明した。本発明の実施の形態5では、振幅最大スペクトル近辺を帯域圧縮対象から外すことで、次点スペクトルが符号化対象から外れることを防ぐ方法について説明する。
本発明の実施の形態5に係る音声音響符号化装置及び音声音響復号装置の構成は、実施の形態1に示した図1、図4と同様の構成であり、帯域圧縮部105、帯域伸張部206の機能が異なるのみなので、図1、図4を援用し、異なる機能について説明する。
図1を参照するに、帯域圧縮部105は、サブバンド分割部102から出力されたサブバンドスペクトルから振幅最大スペクトルを探索する。振幅最大スペクトルが複数あった場合は、低域側のスペクトルを振幅最大スペクトルとする。帯域圧縮部105は、探索した振幅最大スペクトル及びその近辺のスペクトルを抽出し、帯域圧縮対象外のスペクトル、すなわち、サブバンド圧縮スペクトルの一部とする。ここでは、例えば、振幅最大スペクトルの前後1サンプル、つまり、3サンプルを帯域圧縮対象から除外するものとする。
帯域圧縮部105は、帯域圧縮対象外のスペクトルより低域側の帯域圧縮を行い、帯域圧縮した結果をサブバンド圧縮スペクトルの低域側から配置する。帯域圧縮部105は、帯域圧縮対象外のスペクトルを、サブバンド圧縮スペクトルの高域側に続けて配置する。次に、帯域圧縮部105は、帯域圧縮対象外のスペクトルより高域側の帯域圧縮を行い、帯域圧縮した結果をサブバンド圧縮スペクトルの高域側に続けて配置する。
帯域圧縮部105がこのような処理を行うことにより、振幅最大スペクトルの近辺を帯域圧縮対象から除外したサブバンド圧縮スペクトルを得ることができ、隣接した振幅最大スペクトルと次点スペクトルとを符号化対象とすることが可能となる。なお、振幅最大スペクトルの伸張後の位置を正確に表さないのであれば、この帯域圧縮方法に関して音声音響復号装置200に送るべき情報は特にない。
図4を参照するに、帯域伸張部206は、変換符号化復号部205から出力されたサブバンド圧縮スペクトルのうち振幅最大値を探索する。音声音響符号化装置100と同様に、振幅最大値が複数検出された場合は、低域側のスペクトルを振幅最大スペクトルとする。この結果、帯域伸張部206は、振幅最大スペクトル近辺のスペクトルを帯域圧縮対象外のスペクトルとする。ここでは、振幅最大スペクトル及びその前後1サンプルずつ、計3サンプルを帯域圧縮対象外のスペクトルとして抽出する。
次に、帯域伸張部206は、帯域圧縮対象外のスペクトルより低域側のサブバンド圧縮スペクトルを伸張する。伸張は、サブバンド圧縮スペクトルの低域側スペクトルを奇数番地に順次配置し、帯域圧縮対象外のスペクトルの直前まで繰り返して行われる。帯域伸張部206は、伸張した低域側のサブバンドスペクトルの高域側に続けて、帯域圧縮対象外のスペクトルを配置する。次に、帯域伸張部206は、帯域圧縮対象外のスペクトルより高域側のサブバンド圧縮スペクトルを伸張し、伸張したサブバンドスペクトルを帯域圧縮対象外のスペクトルの高域側に配置する。
帯域伸張部206がこのような処理を行うことにより、振幅最大スペクトルの近辺を帯域圧縮対象から外したサブバンド圧縮スペクトルを伸張することができる。
次に、上述した帯域圧縮部105の帯域圧縮方法について説明する。図14に帯域圧縮の一例を示す。ここでは、サブバンド長を10とし、低域側から振幅値を、8,3,6,2,10,9,5,7,4,1とする。
帯域圧縮部105は、まず、サブバンドスペクトルの振幅最大スペクトルを探索し、振幅最大スペクトル及びその前後1サンプルずつ、計3サンプルを帯域圧縮対象外のスペクトルとして抽出する。この例では、位置5のスペクトルが最大なので、位置4,5,6のスペクトルが帯域圧縮対象外となる。すなわち、低域側の位置1,2,3と高域側の位置7,8,9,10に位置するスペクトルが帯域圧縮対象となる。この結果、図14に示すように、位置1,3のスペクトルが選択され、それに続いて、帯域圧縮対象外の位置4,5,6のスペクトルが配置され、続いて、位置8,10のスペクトルが選択されて、サブバンド圧縮スペクトルが構成される。
次に、上述した帯域伸張部206の帯域伸張方法について説明する。図15に帯域伸張の一例を示す。帯域伸張部206は、サブバンド圧縮スペクトルの振幅最大値を探索する。この例では、位置4のスペクトルが振幅最大スペクトルとなるため、位置3,4,5のスペクトルが帯域圧縮対象外のスペクトルとなる。すなわち、低域側の位置1,2のスペクトル、高域側の位置6,7のスペクトルは帯域圧縮されたスペクトルであることが分かる。
帯域伸張部206は、位置1、2のサブバンド圧縮スペクトルをサブバンドスペクトルの位置1,3にそれぞれ配置する。続いて、帯域伸張部206は、帯域圧縮対象外のスペクトルをそれに続けてサブバンドスペクトルの位置5,6,7に配置する。さらに、帯域伸張部206は、位置6,7のサブバンド圧縮スペクトルをサブバンドスペクトルの位置8,10に配置する。このような手順により、振幅最大スペクトル及びその近辺を帯域圧縮対象から外して帯域圧縮されたサブバンド圧縮スペクトルを伸張することが可能となる。
このように、実施の形態5では、音声音響符号化装置100が、帯域圧縮対象サブバンドにおける振幅最大スペクトル及びその近辺のスペクトルを帯域圧縮対象から除外し、その他のスペクトルを帯域圧縮することにより、次点スペクトルと振幅最大スペクトルとが隣接する場合であっても、帯域圧縮によって次点スペクトルが除外されることを回避することができる。
なお、本実施の形態では、振幅最大スペクトルの伸張後の位置が正確な位置とならない可能性があるが、実施の形態2で説明した位置補正情報を符号化及び送信することにより、正確な位置に配置することが可能である。
(実施の形態6)
一般的に、聴感上重要なスペクトルは、振幅が大きく、かつ、ほぼ同じ周波数である程度以上の長い時間継続して発生しているケースが多い。人間の音声における母音がこの特徴を持つが、音声以外の楽器が発する高帯域においても母音程ではないにしても、この特徴を多くのケースで観察できる。この特徴を利用して、前のフレームで主観上重要なスペクトルを抽出しておき、現フレームにおいてそのスペクトルの周辺帯域のみを符号化対象として限定して符号化することで、聴感上重要なスペクトルをより効率的に符号化できる。
原信号であるサブバンドスペクトルでは数フレームに渡って安定して出力されていたスペクトルが、サブバンドエネルギーの変動に伴い符号化ビット量がフレーム毎に変動するため、フレーム毎に符号化できたり符号化できなかったりといった現象が発生することがある。この場合、復号音声の明瞭性を劣化させノイジーにさせてしまう。
そこで、本発明の実施の形態6では、拡張帯域におけるサブバンドの全てのスペクトルを符号化対象とせず、聴感上重要なスペクトル周辺帯域のみを符号化対象とすることで、より効率的な符号化を実現できる構成について説明する。
図16は、本発明の実施の形態6に係る音声音響符号化装置140の構成を示すブロック図である。以下、図16を用いて音声音響符号化装置140の構成について説明する。ただし、図16が図1と異なる点は、ユニット数再算出部106と帯域圧縮部105を削除し、ユニット数算出部104をユニット数算出部141に変更し、変換符号化部107を変換符号化部142に変更し、多重化部108を多重化部145に変更し、変換符号化結果記憶部143及び対象帯域設定部144を追加した点である。
ユニット数算出部141は、サブバンドエネルギー算出部103から出力されたサブバンドエネルギーに基づいて、各サブバンドに割り当てる暫定的な割当ビット数を算出する。また、ユニット数算出部141は、後述する対象帯域設定部144から出力される帯域限定サブバンド情報に基づいて、変換符号化の符号化対象帯域のサブバンド長を取得する。取得したサブバンド長からユニット数が算出できるので、ユニット数算出部141は、暫定的な割当ビット数に近くなるように、符号化ビット量を算出する。ユニット数算出部141は、算出した符号化ビット量と同等の情報をユニット数として変換符号化部142に出力する。基本的に、符号化ビットは、サブバンドエネルギーE[n]が大きいほど、多くのビットが割り当てられるようにビット配分が行われる。ただし、ビット配分はユニット単位で割り当てられ、ユニットに要するビット数はサブバンド長に依存する。つまり、同じ暫定的な割当ビット数であっても、サブバンド長が短ければ、ユニットに必要なビットは少なくなることで、より多くのユニットが使えることになる。ユニットが多く使えると、より多くのスペクトルを符号化できたり、振幅の精度を上げたりすることができる。
変換符号化部142は、ユニット数算出部141から出力されたユニット数と、後述する対象帯域設定部144から出力される帯域限定サブバンド情報とを用いて、サブバンド分割部102から出力されたサブバンドスペクトルを変換符号化により符号化する。符号化した変換符号化データは多重化部145に出力される。また、変換符号化部142は、変換符号化データを復号し、復号したスペクトルを復号サブバンドスペクトルとして変換符号化結果記憶部143に出力する。変換符号化部142は、符号化する際には、ユニット数算出部141より出力されるユニット数と、対象帯域設定部144より出力される帯域限定サブバンド情報とから、符号化対象となる帯域の開始スペクトル位置、終了スペクトル位置、サブバンド長等を取得して変換符号化を行う。以後、対象帯域設定部144により設定される、通常のサブバンド長よりも短い符号化対象サブバンドを限定帯域と呼び、サブバンド内の全てのスペクトルを符号化対象とするときには全帯域と呼ぶこととする。変換符号化方式として、FPC、AVQ、または、LVQといった変換符号化方式を用いれば効率的に符号化できる。なお、限定帯域外のスペクトルは符号化対象から外れるため、変換符号化では符号化されない。ここでは、復号サブバンドスペクトルにおける限定帯域外のスペクトルは全て振幅を零にする。
変換符号化結果記憶部143は、変換符号化部142から出力された復号サブバンドスペクトル情報を記憶する。ここでは、説明を簡単にするため、変換符号化結果記憶部143は、そのサブバンドにおける振幅最大スペクトル(絶対値振幅が最大のスペクトル)の情報のみを記憶するものとする。変換符号化結果記憶部143は、記憶したスペクトルの位置を前フレームのスペクトル情報として、記憶したフレームの次のフレームで対象帯域設定部144に出力する。なお、ビットが少なくユニット数が零となった場合、及び、変換符号化が行われなかった場合には、スペクトルが記憶されていないことを示すようにする。例えば、前フレームのスペクトル情報を−1のように設定すればよい。
対象帯域設定部144は、変換符号化結果記憶部143から出力された前フレームのスペクトル情報と、サブバンド分割部102から出力されたサブバンドスペクトルとを用いて、帯域限定サブバンド情報を生成し、ユニット数算出部141及び変換符号化部142に出力する。帯域限定サブバンド情報は、符号化を行う帯域の開始スペクトル位置、終了スペクトル位置及び符号化対象帯域のサブバンド長が分かるものであればよい。
また、対象帯域設定部144は、サブバンドを帯域限定するか否かを示す帯域限定フラグを多重化部145に出力する。ここでは、帯域限定フラグが1のときに帯域限定を行い、帯域限定フラグが0のときに全帯域を符号化対象とするものとする。
多重化部145は、サブバンドエネルギー算出部103から出力されたサブバンドエネルギー符号化データと、変換符号化部142から出力された変換符号化データと、対象帯域設定部144から出力された帯域限定フラグとを多重化して符号化データとして出力する。
以上の構成により、音声音響符号化装置140は、前フレームの変換符号化結果を用いて、帯域限定した符号化データを生成することができる。
次に、図16に示した対象帯域設定部144における対象帯域設定方法について説明する。
対象帯域設定部144は、符号化対象のサブバンドに含まれる全てのスペクトルを変換符号化の対象とするか、聴感上重要なスペクトルの周辺に限定した帯域に含まれるスペクトルを変換符号化の対象とするかの判断を行う。聴感上重要なスペクトルか否かの判断方法を、以下に簡易的な方法で例示する。
サブバンドスペクトルの中で振幅最大スペクトルは聴感上重要性が高いと考えられる。現フレームにおいても、サブバンドスペクトルにおける振幅最大スペクトルが、前フレームの振幅最大スペクトルと近い帯域内にあれば、聴感上重要なスペクトルが時間的に連続していると判断できる。このようなケースでは、前フレームの聴感上重要なスペクトル周辺帯域のみに符号化範囲を絞ることができる。
例えば、n番目のサブバンドにおいて、前フレームの聴感上重要なスペクトルの位置をP[t−1,n]とする。符号化対象限定後の帯域の幅をWL[n]とすると、帯域限定後の符号化対象帯域の開始スペクトル位置はP[t−1,n]−(int)(WL[n]/2)、終了スペクトル位置はP[t−1,n]+(int)(WL[n])/2)で表される。ただし、ここでは、WL[n]は奇数、(int)は小数点を切り捨てる処理を表すものとする。ここで、サブバンド長W[n]を100、WL[n]を31とすると、一本のスペクトルの位置を表すのに最低限必要なビット量は、7ビットから5ビットに削減できる。
なお、WL[n]は、サブバンド毎にあらかじめ決めておくものとして説明するが、サブバンドスペクトルの特徴に応じて可変としてもよい。例えば、サブバンドエネルギーが大きいときは、WL[n]を広くし、フレームt−1におけるサブバンドエネルギーとフレームtにおけるサブバンドエネルギーの変化が少ないときは、WL[n]を狭くする方法等がある。
また、サブバンド長W[n]においては、W[n−1]≦W[n]の関係があったが、限定帯域幅WL[n]においては、その関係に拘束されなくてもよい。また、限定帯域の開始スペクトル位置、及び終了スペクトル位置が、元々のサブバンドの範囲外になる場合には、元々のサブバンドの開始スペクトル位置を限定帯域の開始スペクトル位置、もしくは、元々のサブバンドの終了スペクトル位置を限定帯域の終了スペクトル位置とするようにし、WL[n]は変更しないものとする。
ところで、限定帯域を前フレームでの変換符号化の結果のみで決めた場合、限定帯域外に主観上重要なスペクトルが移動した場合には、そのスペクトルは符号化されず、主観上重要ではない帯域を限定帯域として符号化し続ける危険がある。しかしながら、本例のように、限定帯域内に現サブバンドの振幅最大スペクトルが存在するか確認することにより、限定帯域外に主観上重要なスペクトルが存在するかを知ることができる。その場合には、全帯域を符号化対象とすることで、主観上重要なスペクトルの継時的な符号化に寄与することができる。
なお、対象帯域設定部144においては、聴感上重要な帯域を、前フレームと現フレームの振幅最大スペクトルの位置から算出する場合を例に説明したが、低域スペクトルの調波構造から高域スペクトルの調波構造を推定して、聴感上重要な帯域を算出するようにしてもよい。調波構造とは、低域のスペクトルがほぼ等間隔で高域にも存在する構造である。そのため、低域スペクトルから調波構造を推定し、高域における調波構造を推定することもできる。推定した帯域周辺を限定帯域として符号化することも可能である。この場合、低域スペクトルを先に符号化し、その符号化結果を用いてから高域のスペクトルを符号化するようにすれば、音声音響符号化装置と音声音響復号装置の間で同一の帯域限定サブバンド情報を得ることは可能である。
次に、上述した音声音響符号化装置140の一連の動作について説明する。
まず、帯域限定を行わない拡張帯域の符号化について、図17を用いて説明する。図17では、サブバンドn−1とサブバンドnの2つのサブバンドを表示しており、横軸は周波数、縦軸はスペクトル振幅の絶対値を表している。また、スペクトルは、各サブバンドにおける振幅最大スペクトルのみを表示している。また、時間的に連続する3つのフレームt−1,t,t+1を上から順に表示している。フレームt、サブバンドn−1の振幅最大スペクトルの位置をP[t、n−1]で表すものとする。
サブバンドエネルギー算出部103により算出されたサブバンドエネルギーにより、フレームt−1、サブバンドn−1の暫定的な割当ビット数は7ビット、サブバンドnの暫定的な割当ビット数は5ビットであったとする。以下、フレームtでは、5ビットと7ビット、フレームt+1では、7ビットと5ビットであったとする。
なお、サブバンドn−1のサブバンド長W[n−1]は100、サブバンド長W[n]は110であるとし、それぞれ2の7乗を下回るので、ユニットを簡単のため整数化して7ビットであるものとする。フレームt−1では、サブバンドn−1の暫定的な割当ビット数がユニットを超えるため、ひとつのスペクトルを符号化できる。一方、サブバンドnでは暫定的な割当ビット数がユニットを超えないため、スペクトルは符号化されない。フレームtでは、暫定的な割当ビット数が5ビットと7ビットなので、サブバンドnのみスペクトルが符号化され、フレームt+1では、暫定的な割当ビット数が7ビットと5ビットであるため、サブバンドn−1のスペクトルが変換符号化されるものとする。
このような場合、サブバンドn−1に着目すると、入力スペクトルでは、近い帯域内で連続してスペクトルが存在していたにも関わらず、暫定的な割当ビット数が若干足らないために、フレームtでスペクトルが符号化されず、t−1からt+1において時間的に連続して符号化されない。本例のように連続性が欠如した場合、復号信号の明瞭性を劣化させ、ノイジーな印象を与えてしまう。
次に、帯域限定を行った拡張帯域の符号化について、図18を用いて説明する。図18の基本的な構成は図17と同様である。また、フレームt−1については、図17に説明した例と全く同一であるものとする。
まず、フレームtのサブバンドnについて説明する。フレームt−1におけるサブバンドnは変換符号化では符号化されていないため、フレームtでは、対象帯域設定部144に変換符号化結果記憶部143から前フレームのスペクトル情報が−1として出力される。これにより、フレームtのサブバンドnでは、帯域限定を行わずにサブバンド内の全てのスペクトルを対象に変換符号化を行う。サブバンドnの帯域限定フラグは0に設定する。本例の場合、暫定的な割当ビット数は7ビットであるので、1つのスペクトルが符号化される。
次に、フレームtのサブバンドn−1について説明する。フレームt−1では、サブバンドn−1で変換符号化がされているため、変換符号化結果記憶部143から前フレームのスペクトル情報P[t−1,n−1]が対象帯域設定部144に出力される。対象帯域設定部144では、限定帯域をP[t−1,n−1]−(int)(WL[n−1]/2)から、P[t−1,n−1]+(int)(WL[n−1]/2)と設定する。次に、入力されるサブバンドスペクトルのうち、振幅最大スペクトルP[t,n−1]を探索する。本例においては、P[t,n−1]は限定帯域内に存在するので、サブバンドn−1の帯域限定フラグを1にセットする。また、対象帯域設定部144は、帯域限定サブバンド情報として、限定帯域の開始スペクトル位置P[t−1,n−1]−(int)(WL[n−1]/2)、終了スペクトル位置P[t−1,n−1]+(int)(WL[n−1]/2)、限定帯域幅WL[n−1]を出力する。
ユニット数算出部141では、サブバンド長がW[n−1]からWL[n−1]に短縮されたので、ユニット数が増える可能性が高くなる。
変換符号化部142では、サブバンド分割部102から出力されたサブバンドスペクトルのうち、対象帯域設定部144から出力された限定帯域サブバンド情報で指示される限定帯域内のスペクトルのみ符号化する。WL[n−1]が31であるとすると、31は2の5乗未満なのでユニットは簡単のため5で表す。この例では、暫定的な割当ビット数が5ビット、ユニットが5であるためひとつのスペクトルを符号化できる。以後、フレームt+1においても、フレームtと同様の手順で符号化できる。
上述したように、重要なスペクトル周辺帯域に限定して変換符号化することにより、サブバンドn−1に着目したとき、フレームt−1からt+1まで連続して変換符号化により符号化できることを示した。このように、聴感上重要なスペクトルを時間的に連続して符号化することが可能となるため、ノイズ感の少ない明瞭性の高い復号音声を得ることができる。
図19は、本発明の実施の形態6に係る声音響復号装置240の構成を示すブロック図である。以下、図19を用いて音声音響復号装置240の構成について説明する。ただし、図19が図7と異なる点は、符号分離部201を符号分離部241に、ユニット数算出部211をユニット数算出部242に、変換符号化復号部205を変換符号化復号部243に、サブバンド統合部207をサブバンド統合部246にそれぞれ変更し、変換符号化結果記憶部244及び対象帯域復号部245を追加した点である。
符号分離部241は、符号化データが入力され、入力された符号化データをサブバンドエネルギー符号化データ、変換符号化データ、帯域限定フラグに分離し、サブバンドエネルギー符号化データをサブバンドエネルギー復号部202に出力し、変換符号化データを変換符号化復号部243に出力し、帯域限定フラグを対象帯域復号部245に出力する。
ユニット数算出部242は、音声音響符号化装置140のユニット数算出部141と同一であるため、その詳細な説明は省略する。
変換符号化復号部243は、符号分離部241から出力された変換符号化データ、ユニット数算出部242から出力されたユニット数、および、対象帯域復号部245から出力された帯域限定サブバンド情報に基づいて、サブバンド毎に復号した結果を復号サブバンドスペクトルとしてサブバンド統合部246に出力する。なお、帯域限定された符号化データを復号した場合には、限定帯域外のスペクトルの振幅は全て零とし、出力するサブバンド長は帯域限定する前のサブバンド長W[n]のスペクトルとして出力する。
変換符号化結果記憶部244は、音声音響符号化装置140の変換符号化結果記憶部143とほぼ同一の機能を有する。ただし、フレーム消失、パケットロス等、通信路による誤りの影響を受けたときは、復号サブバンドスペクトルを変換符号化結果記憶部244に記憶することができないので、例えば、前フレームのスペクトル情報を−1のように設定する。
対象帯域復号部245は、符号分離部241から出力された帯域限定フラグと、変換符号化結果記憶部244から出力された前フレームのスペクトル情報とに基づいて、帯域限定サブバンド情報をユニット数算出部242と変換符号化復号部243とに出力する。対象帯域復号部245は、帯域限定フラグの値に応じて、帯域限定を行うか否かを決定する。ここでは、対象帯域復号部245は、帯域限定フラグが1のときには、帯域限定を行い、帯域限定を示す帯域限定サブバンド情報を出力する。一方、対象帯域復号部245は、帯域限定フラグが0のときには、帯域限定は行わずに、そのサブバンドの全スペクトルを符号化対象であることを示す帯域限定サブバンド情報を出力する。ただし、変換符号化結果記憶部244から出力された前フレームのスペクトル情報が−1であったとしても、帯域限定フラグが1であれば、対象帯域復号部245は、帯域限定を示す帯域限定サブバンド情報を算出する。これは、フレーム消失等により前フレームで変換符号化データの復号が行われなかった場合には、前フレームのスペクトル情報が−1となるが、音声音響符号化装置140においては帯域限定を行った変換符号化を行っているので、帯域限定を前提として変換符号化データを復号する必要があるためである。
サブバンド統合部246は、変換符号化復号部243から出力された復号サブバンドスペクトルを低域側から詰めて一つのベクトルに統合し、統合したベクトルを復号信号スペクトルとして周波数時間変換部208に出力する。
次に、上述した音声音響復号装置240の一連の動作について、図18を用いて説明する。
ここでは、フレームt−1において、サブバンドn−1は変換符号化されており、サブバンドnは変換符号化で符号化されていないものとする。フレームtにおいては、サブバンドn−1及びサブバンドnは変換符号化されており、サブバンドn−1は帯域限定により符号化されているものとする。
まず、フレームtについて説明する。対象帯域復号部245は、各サブバンドが、符号分離部241から出力された帯域限定フラグにより、帯域限定されずに変換符号化されたサブバンドか、帯域限定の上で変換符号化されたサブバンドかを知ることができる。帯域限定されずに変換符号化されたサブバンド、ここでは、サブバンドnは全てのスペクトル符号化対象として復号される。変換符号化復号部243は、符号分離部241から出力された符号化データを、対象帯域復号部245から出力されたサブバンド長W[n]、及び、ユニット数算出部242から出力されたユニット数を用いて復号することができる。
一方、対象帯域復号部245は、帯域限定フラグにより、サブバンドn−1が帯域限定された状態で符号化されていることを知ることができる。そのため、変換符号化復号部243は、符号分離部241から出力された符号化データを、対象帯域復号部245から出力されたサブバンドn−1の帯域限定サブバンド長WL[n−1]、及び、ユニット数算出部242から出力されたユニット数を用いて復号することができる。
ただし、このままでは、変換符号化復号部243は、復号した復号サブバンドスペクトルの正確な配置位置は特定できないので、前フレームのサブバンドn−1の復号結果を使って、正確な配置位置を特定する。変換符号化結果記憶部244には、P[t−1,n−1]が記憶されているものとする。対象帯域復号部245は、変換符号化結果記憶部244から出力されたP[t−1,n−1]を中心に、サブバンド幅がWL[n−1]となるように、帯域限定サブバンド情報を設定する。具体的には、帯域限定サブバンドの開始スペクトル位置をP[t−1,n−1]−(int)(WL[n−1]/2)、終了スペクトル位置をP[t−1,n−1]+(int)(WL[n−1]/2)とする。このようにして算出した帯域限定サブバンド情報を、変換符号化復号部243に出力する。
これにより、変換符号化復号部243は、復号したサブバンドスペクトルを正確な位置に配置できる。なお、帯域限定サブバンド情報で示される限定帯域外のスペクトルについてはスペクトルの振幅を零とする。
なお、フレームt−1が通信路の影響により受信できず、正しく復号できなかった場合は、変換符号化結果記憶部244には、正しい復号結果が記憶されない。そのため、フレームtにおいて帯域限定により符号化されたサブバンドの場合、復号サブバンドスペクトルを正確な位置に配置することはできない。この場合、帯域限定サブバンド情報の開始スペクトル位置、終了スペクトル位置を、例えば、サブバンド中央付近となるように固定としてもよい。また、変換符号化結果記憶部244において、過去に復号した結果を用いて推定するようにしてもよい。また、変換符号化復号部243が低域スペクトルから調波構造を算出し、当該サブバンドにおける調波構造を推定して、振幅最大スペクトルの位置を推定するようにしてもよい。
以上の一連の動作により、音声音響復号装置240は、帯域限定により符号化された符号化データを復号することができる。
以上の音声音響符号化装置140により、高域における継時性が高いスペクトルを効率的に符号化することが可能となり、また、音声音響復号装置240により、明瞭性の高い復号信号を得ることが可能となる。
このように、実施の形態6では、前フレームで主観上重要なスペクトル周辺帯域のみを符号化することにより、少ないビットで対象帯域を符号化できるため、時間的に継続して聴感上重要なスペクトルを符号化できる可能性を向上させることができる。この結果、明瞭性の高い復号信号を得ることが可能となる。
2012年11月5日出願の特願2012−243707及び2013年5月31日出願の特願2013−115917の日本出願に含まれる明細書、図面及び要約書の開示内容は、すべて本願に援用される。
本発明にかかる音声音響符号化装置、音声音響復号装置、音声音響符号化方法及び音声音響復号方法は、音声通話を行う通信装置等に適用できる。
101 時間周波数変換部
102 サブバンド分割部
103 サブバンドエネルギー算出部
104、203、111、141、211、242 ユニット数算出部
105 帯域圧縮部
106、204 ユニット数再算出部
107、142 変換符号化部
108、145 多重化部
121、221 サブバンドエネルギー減衰部
131 インタリーバ
143、244 変換符号化結果記憶部
144 対象帯域設定部
201、241 符号分離部
202 サブバンドエネルギー復号部
205、243 変換符号化復号部
206 帯域伸張部
207、246 サブバンド統合部
208 周波数時間変換部
231 デインタリーバ
245 対象帯域復号部

Claims (10)

  1. 時間領域の入力信号を周波数領域のスペクトルに変換する時間周波数変換手段と、
    拡張領域の周波数領域のスペクトルを複数のサブバンドに分割する分割手段と、
    前記拡張領域内の各サブバンドにおいて、1つ前のフレームにおけるサブバンドの最大振幅スペクトルと、現在のフレームにおけるサブバンドの前記最大振幅スペクトルとの距離が所定範囲内にある場合に、前記サブバンドよりも狭い限定帯域を現在のフレームに設定し、前記限定帯域の帯域幅は、前フレームの前記最大振幅スペクトルの周辺帯域を符号化対象の帯域として限定する、限定帯域設定手段と、
    前記限定帯域設定手段により限定帯域が設定された場合、現在のフレームにおけるサブバンドについて、前記限定帯域内のスペクトルを符号化し、前記限定帯域の外側のスペクトルは符号化しない、変換符号化手段と、
    を具備する音声音響符号化装置。
  2. 前記各サブバンドにおける前記最大振幅スペクトルの情報を記憶する記憶部をさらに備え、
    前記限定帯域設定手段は、前フレームの前記最大振幅スペクトルの情報を用いて、限定帯域を設定する、
    請求項1に記載の音声音響符号化装置。
  3. 前記限定帯域設定手段は、
    限定帯域を設定するか否かを示すフラグを出力する、
    請求項1に記載の音声音響符号化装置。
  4. 前記フラグが1のときに、前記限定帯域設定手段は限定帯域を設定する、
    請求項3に記載の音声音響符号化装置。
  5. 時間領域の入力信号を周波数領域のスペクトルに変換する時間周波数変換工程と、
    拡張領域の周波数領域のスペクトルを複数のサブバンドに分割する分割工程と、
    前記拡張領域内の各サブバンドにおいて、1つ前のフレームにおけるサブバンドの最大振幅スペクトルと、現在のフレームにおけるサブバンドの前記最大振幅スペクトルとの距離が所定範囲内にある場合に、限定帯域を設定し、前記限定帯域の帯域幅は、前フレームの前記最大振幅スペクトルの周辺帯域を符号化対象の帯域として限定する、限定帯域設定工程と、
    前記限定帯域が設定された現在のフレームにおけるサブバンドについて、前記限定帯域のスペクトルを符号化し、前記限定帯域の外側のスペクトルは符号化しない、変換符号化工程と、
    を具備する音声音響符号化方法。
  6. 前記各サブバンドにおける前記最大振幅スペクトルの情報を記憶する記憶工程をさらに備え、
    前記限定帯域設定工程は、前フレームの前記最大振幅スペクトルの情報を用いて、前記限定帯域を設定する、
    請求項5に記載の音声音響符号化方法。
  7. 前記限定帯域設定工程は、
    前記限定帯域を設定するか否かを示すフラグを出力する、
    請求項5に記載の音声音響符号化方法。
  8. 前記フラグが1のときに、前記限定帯域設定手段は限定帯域を設定する、
    請求項7に記載の音声音響符号化方法。
  9. 限定帯域を設定するか否かを示すフラグを含む、音声音響符号化データを復号する変換復号部と、
    1つ前のフレームにおけるサブバンドの最大振幅スペクトルの位置情報を記憶する記憶部と、
    復号されたバンドに符号化装置側で限定帯域が設定されているか否かを、復号されたフラグに基づいて認識し、
    限定帯域が設定されていると認識された場合、前記1つ前のフレームにおけるサブバンドの最大振幅スペクトル位置情報を用いて、前記限定帯域が設定された現在のフレームにおけるサブバンドについて、前記限定帯域のスペクトルを復号する、対象帯域復号手段と、
    を具備し、
    前記限定帯域は、符号化装置側において、前記各サブバンドにおいて、1つ前のフレームにおけるサブバンドの最大振幅スペクトルと、現在のフレームにおけるサブバンドの前記最大振幅スペクトルとの距離が所定範囲内にある場合に、限定帯域を設定し、前記限定帯域の帯域幅は、前フレームの前記最大振幅スペクトルの周辺帯域を符号化対象の帯域として限定される、
    音声音響復号装置。
  10. 限定帯域を設定するか否かを示すフラグを含む、音声音響符号化データを復号し、
    1つ前のフレームにおけるサブバンドの最大振幅スペクトル位置情報を記憶し、
    復号されたバンドに符号化装置側で限定帯域が設定されているか否かを、復号されたフラグに基づいて認識し、
    限定帯域が設定されていると認識した場合、前記1つ前のフレームにおけるサブバンドの最大振幅スペクトル位置情報を用いて、前記限定帯域が設定された現在のフレームにおけるサブバンドについて、前記限定帯域のスペクトルを復号し、
    前記限定帯域は、符号化装置側において、前記各サブバンドにおいて、1つ前のフレームにおけるサブバンドの最大振幅スペクトルと、現在のフレームにおけるサブバンドの前記最大振幅スペクトルとの距離が所定範囲内にある場合に、限定帯域を設定し、前記限定帯域の帯域幅は、前フレームの前記最大振幅スペクトルの周辺帯域を符号化対象の帯域として限定される、
    音声音響復号方法。
JP2018211253A 2012-11-05 2018-11-09 音声音響符号化装置及び音声音響符号化方法 Active JP6647370B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2012243707 2012-11-05
JP2012243707 2012-11-05
JP2013115917 2013-05-31
JP2013115917 2013-05-31

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2017204661A Division JP6435392B2 (ja) 2012-11-05 2017-10-23 音声音響符号化装置及び音声音響符号化方法

Publications (2)

Publication Number Publication Date
JP2019040206A JP2019040206A (ja) 2019-03-14
JP6647370B2 true JP6647370B2 (ja) 2020-02-14

Family

ID=50626940

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2014544326A Active JP6234372B2 (ja) 2012-11-05 2013-11-01 音声音響符号化装置、音声音響復号装置、音声音響符号化方法及び音声音響復号方法
JP2017204661A Active JP6435392B2 (ja) 2012-11-05 2017-10-23 音声音響符号化装置及び音声音響符号化方法
JP2018211253A Active JP6647370B2 (ja) 2012-11-05 2018-11-09 音声音響符号化装置及び音声音響符号化方法

Family Applications Before (2)

Application Number Title Priority Date Filing Date
JP2014544326A Active JP6234372B2 (ja) 2012-11-05 2013-11-01 音声音響符号化装置、音声音響復号装置、音声音響符号化方法及び音声音響復号方法
JP2017204661A Active JP6435392B2 (ja) 2012-11-05 2017-10-23 音声音響符号化装置及び音声音響符号化方法

Country Status (13)

Country Link
US (4) US9679576B2 (ja)
EP (3) EP4220636A1 (ja)
JP (3) JP6234372B2 (ja)
KR (2) KR102215991B1 (ja)
CN (2) CN107633847B (ja)
BR (1) BR112015009352B1 (ja)
CA (1) CA2889942C (ja)
ES (2) ES2969117T3 (ja)
MX (1) MX355630B (ja)
MY (2) MY171754A (ja)
PL (2) PL3584791T3 (ja)
RU (3) RU2648629C2 (ja)
WO (1) WO2014068995A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4325488A3 (en) * 2014-02-28 2024-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoding device, encoding device, decoding method, encoding method, terminal device, and base station device
AU2015291897B2 (en) 2014-07-25 2019-02-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Acoustic signal encoding device, acoustic signal decoding device, method for encoding acoustic signal, and method for decoding acoustic signal
CN107294579A (zh) 2016-03-30 2017-10-24 索尼公司 无线通信系统中的装置和方法以及无线通信系统
JP6348562B2 (ja) * 2016-12-16 2018-06-27 マクセル株式会社 復号化装置および復号化方法
US10825467B2 (en) * 2017-04-21 2020-11-03 Qualcomm Incorporated Non-harmonic speech detection and bandwidth extension in a multi-source environment
US11682406B2 (en) * 2021-01-28 2023-06-20 Sony Interactive Entertainment LLC Level-of-detail audio codec
CN115512711A (zh) * 2021-06-22 2022-12-23 腾讯科技(深圳)有限公司 语音编码、语音解码方法、装置、计算机设备和存储介质
CN117095685B (zh) * 2023-10-19 2023-12-19 深圳市新移科技有限公司 一种联发科平台终端设备及其控制方法

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2523286B2 (ja) 1986-08-01 1996-08-07 日本電信電話株式会社 音声符号化及び復号化方法
JP2570603B2 (ja) 1993-11-24 1997-01-08 日本電気株式会社 音声信号伝送装置およびノイズ抑圧装置
DE19730130C2 (de) * 1997-07-14 2002-02-28 Fraunhofer Ges Forschung Verfahren zum Codieren eines Audiosignals
JP4359949B2 (ja) * 1998-10-22 2009-11-11 ソニー株式会社 信号符号化装置及び方法、並びに信号復号装置及び方法
US6353808B1 (en) 1998-10-22 2002-03-05 Sony Corporation Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
JP4287545B2 (ja) * 1999-07-26 2009-07-01 パナソニック株式会社 サブバンド符号化方式
JP4008244B2 (ja) * 2001-03-02 2007-11-14 松下電器産業株式会社 符号化装置および復号化装置
JP2002374171A (ja) * 2001-06-15 2002-12-26 Sony Corp 符号化装置および方法、復号装置および方法、記録媒体、並びにプログラム
JP4506039B2 (ja) * 2001-06-15 2010-07-21 ソニー株式会社 符号化装置及び方法、復号装置及び方法、並びに符号化プログラム及び復号プログラム
JP2004094090A (ja) * 2002-09-03 2004-03-25 Matsushita Electric Ind Co Ltd オーディオ信号圧縮伸長装置及び方法
JP3877158B2 (ja) * 2002-10-31 2007-02-07 ソニー・エリクソン・モバイルコミュニケーションズ株式会社 周波数偏移検出回路及び周波数偏移検出方法、携帯通信端末
KR100851970B1 (ko) * 2005-07-15 2008-08-12 삼성전자주식회사 오디오 신호의 중요주파수 성분 추출방법 및 장치와 이를이용한 저비트율 오디오 신호 부호화/복호화 방법 및 장치
JP5142727B2 (ja) * 2005-12-27 2013-02-13 パナソニック株式会社 音声復号装置および音声復号方法
US7831434B2 (en) * 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
JP2010506207A (ja) * 2006-10-06 2010-02-25 エージェンシー フォー サイエンス,テクノロジー アンド リサーチ エンコード方法、デコード方法、エンコーダ、デコーダ、及びコンピュータプログラム製品
CN101548316B (zh) * 2006-12-13 2012-05-23 松下电器产业株式会社 编码装置、解码装置以及其方法
KR101291672B1 (ko) * 2007-03-07 2013-08-01 삼성전자주식회사 노이즈 신호 부호화 및 복호화 장치 및 방법
US7774205B2 (en) * 2007-06-15 2010-08-10 Microsoft Corporation Coding of sparse digital media spectral data
US8527265B2 (en) * 2007-10-22 2013-09-03 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
WO2009084221A1 (ja) * 2007-12-27 2009-07-09 Panasonic Corporation 符号化装置、復号装置およびこれらの方法
JPWO2009125588A1 (ja) * 2008-04-09 2011-07-28 パナソニック株式会社 符号化装置および符号化方法
JP5267115B2 (ja) * 2008-12-26 2013-08-21 ソニー株式会社 信号処理装置、その処理方法およびプログラム
JP5730860B2 (ja) * 2009-05-19 2015-06-10 エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュートElectronics And Telecommunications Research Institute 階層型正弦波パルスコーディングを用いるオーディオ信号の符号化及び復号化方法及び装置
JP5295380B2 (ja) * 2009-10-20 2013-09-18 パナソニック株式会社 符号化装置、復号化装置およびこれらの方法
CN102081927B (zh) * 2009-11-27 2012-07-18 中兴通讯股份有限公司 一种可分层音频编码、解码方法及系统
US20120029926A1 (en) * 2010-07-30 2012-02-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dependent-mode coding of audio signals
EP2676268B1 (en) * 2011-02-14 2014-12-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing a decoded audio signal in a spectral domain
JP5732614B2 (ja) 2011-05-24 2015-06-10 パナソニックIpマネジメント株式会社 放電灯点灯装置及びそれを用いた灯具並びに車両
JP2013115917A (ja) 2011-11-29 2013-06-10 Nec Tokin Corp 非接触電力伝送送電装置、非接触電力伝送受電装置、非接触電力伝送及び通信システム

Also Published As

Publication number Publication date
JP2018018100A (ja) 2018-02-01
PL2916318T3 (pl) 2020-04-30
US20190147897A1 (en) 2019-05-16
EP4220636A1 (en) 2023-08-02
MX355630B (es) 2018-04-25
ES2753228T3 (es) 2020-04-07
MX2015004981A (es) 2015-07-17
MY189358A (en) 2022-02-07
EP2916318B1 (en) 2019-09-25
US20170243594A1 (en) 2017-08-24
CN104737227B (zh) 2017-11-10
KR20200111830A (ko) 2020-09-29
KR20150082269A (ko) 2015-07-15
EP3584791B1 (en) 2023-10-18
US20180114535A1 (en) 2018-04-26
RU2648629C2 (ru) 2018-03-26
EP3584791A1 (en) 2019-12-25
US10210877B2 (en) 2019-02-19
RU2015116610A (ru) 2016-12-27
JP6435392B2 (ja) 2018-12-05
JP2019040206A (ja) 2019-03-14
EP2916318A4 (en) 2015-12-09
EP2916318A1 (en) 2015-09-09
US20150294673A1 (en) 2015-10-15
KR102161162B1 (ko) 2020-09-29
CN107633847A (zh) 2018-01-26
BR112015009352B1 (pt) 2021-10-26
CN104737227A (zh) 2015-06-24
RU2678657C1 (ru) 2019-01-30
JPWO2014068995A1 (ja) 2016-09-08
JP6234372B2 (ja) 2017-11-22
PL3584791T3 (pl) 2024-03-18
US9892740B2 (en) 2018-02-13
US9679576B2 (en) 2017-06-13
WO2014068995A1 (ja) 2014-05-08
BR112015009352A2 (pt) 2017-07-04
CA2889942C (en) 2019-09-17
KR102215991B1 (ko) 2021-02-16
RU2701065C1 (ru) 2019-09-24
CN107633847B (zh) 2020-09-25
CA2889942A1 (en) 2014-05-08
ES2969117T3 (es) 2024-05-16
BR112015009352A8 (pt) 2019-09-17
US10510354B2 (en) 2019-12-17
MY171754A (en) 2019-10-28

Similar Documents

Publication Publication Date Title
JP6647370B2 (ja) 音声音響符号化装置及び音声音響符号化方法
ES2643746T3 (es) Dispositivo de codificación de audio de voz, dispositivo de descodificación de audio de voz, método de codificación de audio de voz y método de descodificación de audio de voz
KR101803410B1 (ko) 인코딩 방법 및 장치
AU2015291897B2 (en) Acoustic signal encoding device, acoustic signal decoding device, method for encoding acoustic signal, and method for decoding acoustic signal
JP2005338850A (ja) デジタル信号の符号化方法及び装置ならびに復号化方法及び装置
CN110706715A (zh) 信号编码和解码的方法和设备
ES2707337T3 (es) Aparato de codificación de señal de audio, dispositivo de decodificación de señal de audio y métodos del mismo
JP4573670B2 (ja) 符号化装置、符号化方法、復号化装置及び復号化方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181109

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20190717

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20191114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200114

R150 Certificate of patent or registration of utility model

Ref document number: 6647370

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150