JP2016038435A - 符号化装置および方法、復号装置および方法、並びにプログラム - Google Patents

符号化装置および方法、復号装置および方法、並びにプログラム Download PDF

Info

Publication number
JP2016038435A
JP2016038435A JP2014160417A JP2014160417A JP2016038435A JP 2016038435 A JP2016038435 A JP 2016038435A JP 2014160417 A JP2014160417 A JP 2014160417A JP 2014160417 A JP2014160417 A JP 2014160417A JP 2016038435 A JP2016038435 A JP 2016038435A
Authority
JP
Japan
Prior art keywords
spectrum
extension
frequency
low
band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014160417A
Other languages
English (en)
Inventor
修一郎 錦織
Shuichiro Nishigori
修一郎 錦織
鈴木 志朗
Shiro Suzuki
志朗 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2014160417A priority Critical patent/JP2016038435A/ja
Priority to US15/500,253 priority patent/US10049677B2/en
Priority to EP15830713.2A priority patent/EP3179476B1/en
Priority to EP19199364.1A priority patent/EP3608910B1/en
Priority to CN201580041640.XA priority patent/CN106663449B/zh
Priority to PCT/JP2015/070924 priority patent/WO2016021412A1/ja
Publication of JP2016038435A publication Critical patent/JP2016038435A/ja
Priority to US16/037,574 priority patent/US10510353B2/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Abstract

【課題】低リソースな環境においても高音質な音声を得る符号化装置および方法、復号装置および方法、並びにプログラムを提供する。
【解決手段】分解部91は、供給された符号列を分解し、量子化低域スペクトル、スペクトル特性符号、および量子化拡張係数を得る。このとき、符号列にはスペクトル特性符号に応じて単一の量子化拡張係数または高域の帯域ごとの量子化拡張係数が含まれている。スペクトル逆量子化部92は、量子化低域スペクトルを逆量子化して低域スペクトルを得る。拡張係数逆量子化部93は量子化拡張係数を逆量子化して拡張係数を得る。拡張スペクトル生成部94は、低域スペクトルと、スペクトル特性符号に応じた拡張係数とに基づいて拡張スペクトルを生成する。IMDCT部95は、低域スペクトルと拡張スペクトルから帯域拡張された時系列信号を生成する。
【選択図】図6

Description

本技術は符号化装置および方法、復号装置および方法、並びにプログラムに関し、特に、低リソースな環境においても高音質な音声を得ることができるようにした符号化装置および方法、復号装置および方法、並びにプログラムに関する。
従来、音声信号に対する帯域拡張の概念を取り入れた符号化技術が知られている(例えば、特許文献1および特許文献2参照)。
そのような符号化技術では、音声信号として入力された時系列信号が低域成分と高域成分とに帯域分割され、低域の信号については通常の符号化が行われ、低域の信号と高域の信号の関係性や、高域の信号の特徴等が付加情報として伝送される。
また、復号時には、低域の信号が復元された後に、その低域の信号、および付加情報が用いられて拡張帯域の信号が生成され、低域の信号と拡張帯域の信号が合成されて、帯域拡張が実現される。
より具体的には、低域の信号が復元された後に、その低域の信号が帯域分割フィルタにより複数の各帯域に分割され、それらの分割された低域の信号と付加情報とが用いられて拡張帯域の信号が生成される。そして、低域の信号と拡張帯域の信号とが帯域合成フィルタにより合成されて、帯域拡張された時系列信号が得られる。
ところが、このように帯域分割フィルタや帯域合成フィルタを用いると、これらの帯域分割や帯域合成のフィルタ処理によって、信号の符号化から復号までの原理遅延を増加させてしまうことになる。そうすると、音声信号の入力から出力までの応答速度が低下してしまう。
また、通常の復号処理に加えて、フィルタバンクなどによる帯域分割や帯域合成といったフィルタ処理が必要になるため、処理量やメモリ使用量が大幅に増加し、組み込み機器などの低リソースな環境では復号装置の搭載が困難であった。
そこで、このような符号化技術を改善するものとして、周波数領域で帯域拡張を行うことができるようにする技術が提案されている(例えば、特許文献3参照)。
この技術では、符号化時にMDCT(Modified Discrete Cosine Transform)によって得られたスペクトルが低域側(ベースバンド)と高域側(拡張帯域)に分割され、ベースバンドの信号については通常の符号化が行われ、ベースバンドと拡張帯域のスペクトルの関係性や、拡張帯域のスペクトルの特徴等が付加情報として伝送される。
また、復号時にはベースバンドのスペクトルと付加情報とが用いられて拡張帯域のスペクトルが生成され、ベースバンドのスペクトルと拡張帯域のスペクトルが合成されて全帯域のスペクトルが生成される。さらに、得られた全帯域のスペクトルに対してIMDCT(Inverse Modified Discrete Cosine Transform)が行われ、これにより全帯域のスペクトルが時系列信号(時間信号)に変換される。
特許第5329714号公報 特許第5325293号公報 特開2011−215198号公報
しかしながら、MDCTで得られたスペクトル(以下、MDCTスペクトルとも称する)の各周波数ビンの値は、振幅成分と位相成分の両方の成分が織り込まれた値となっている。そのため、周波数領域で帯域拡張を行う技術では、復号時にMDCTスペクトルを用いて拡張帯域のスペクトルの振幅を細かく調整すると、各スペクトルの位相成分、および各スペクトル間の相互の位相関係が大きく崩れてしまう。
このような場合、例えば符号化および復号の対象となる音声信号が、ノイズ性の高い楽音や人の声などの信号であるときには、音声信号に聴感上の大きな音質劣化は生じない。
ところが、音声信号が単一楽器や効果音等の特定周波数にエネルギが集中している音声信号、すなわちトーナリティが高い信号である場合には、本来特定周波数に集中しているはずのエネルギが、復号により周囲の周波数のスペクトルに拡散してしまう。そうすると、復号により最終的に得られた音声信号はノイズ性を有することになり、聴感上の音質が劣化してしまう。
以上のように周波数領域で帯域拡張を行う技術では、時系列信号に対する帯域分割や帯域合成が不要であるため、遅延を生じさせることなく、低リソースな環境でも音声の符号化および復号を行うことができるが、高音質な音声を得ることができない場合があった。
本技術は、このような状況に鑑みてなされたものであり、低リソースな環境においても高音質な音声を得ることができるようにするものである。
本技術の第1の側面の復号装置は、低域スペクトルと、低域とは異なる拡張帯域の拡張スペクトルを得るための前記拡張帯域に対する単一の拡張係数、または前記拡張帯域を構成する複数の帯域ごとの拡張係数とを取得する取得部と、前記単一の前記拡張係数、または前記複数の帯域ごとの前記拡張係数に基づいて、前記拡張スペクトルを生成する生成部と、前記低域スペクトルと前記拡張スペクトルを合成する合成部とを備える。
前記生成部には、前記低域スペクトルおよび前記拡張係数に基づいて前記拡張スペクトルを生成させることができる。
前記生成部には、前記拡張係数に基づいて、前記低域スペクトルから得られたスペクトルのレベルを調整することで前記拡張スペクトルを生成させることができる。
前記生成部には、前記単一の前記拡張係数に基づいて前記拡張スペクトルを生成する場合、前記拡張係数に基づいて前記スペクトルの前記拡張帯域全体のレベルを調整させ、前記複数の帯域ごとの前記拡張係数に基づいて前記拡張スペクトルを生成する場合、前記帯域の前記拡張係数に基づいて、前記スペクトルの前記帯域のレベルを調整させることができる。
前記生成部には、前記拡張係数に基づいて、所定のノイズのレベルを調整することで前記拡張スペクトルを生成させることができる。
前記低域スペクトルの値が、元の時系列信号の振幅成分および位相成分により定まるようにすることができる。
前記低域スペクトルを、MDCTスペクトルとすることができる。
本技術の第1の側面の復号方法またはプログラムは、低域スペクトルと、低域とは異なる拡張帯域の拡張スペクトルを得るための前記拡張帯域に対する単一の拡張係数、または前記拡張帯域を構成する複数の帯域ごとの拡張係数とを取得し、前記単一の前記拡張係数、または前記複数の帯域ごとの前記拡張係数に基づいて、前記拡張スペクトルを生成し、前記低域スペクトルと前記拡張スペクトルを合成するステップを含む。
本技術の第1の側面においては、低域スペクトルと、低域とは異なる拡張帯域の拡張スペクトルを得るための前記拡張帯域に対する単一の拡張係数、または前記拡張帯域を構成する複数の帯域ごとの拡張係数とが取得され、前記単一の前記拡張係数、または前記複数の帯域ごとの前記拡張係数に基づいて、前記拡張スペクトルが生成され、前記低域スペクトルと前記拡張スペクトルが合成される。
本技術の第2の側面の符号化装置は、時系列信号を直交変換して得られたスペクトルから特徴量を抽出する特徴量抽出部と、前記特徴量に応じて、前記スペクトルの低域とは異なる拡張帯域の拡張スペクトルを得るための前記拡張帯域に対する単一の拡張係数、または前記拡張帯域を構成する複数の帯域ごとの拡張係数を前記スペクトルに基づいて算出する算出部と、前記スペクトルの低域成分である低域スペクトルと、前記拡張係数とを多重化して符号列を生成する多重化部とを備える。
前記特徴量を前記スペクトルのトーナリティを示す情報とすることができる。
前記算出部には、前記スペクトルのトーナリティが高い場合、前記単一の前記拡張係数を算出させ、前記スペクトルのトーナリティが低い場合、前記複数の帯域ごとの前記拡張係数を算出させることができる。
前記算出部には、前記スペクトルの前記拡張帯域の平均振幅と、前記低域スペクトルの平均振幅との比を前記拡張係数として算出させることができる。
前記算出手段には、前記スペクトルの低域のトーナリティが高く、前記スペクトルの前記拡張帯域のトーナリティが低い場合、前記スペクトルの前記拡張帯域の包絡情報を前記拡張係数として算出させることができる。
前記スペクトルの値が、前記時系列信号の振幅成分および位相成分により定まるようにすることができる。
前記直交変換をMDCTとすることができる。
本技術の第2の側面の符号化方法またはプログラムは、時系列信号を直交変換して得られたスペクトルから特徴量を抽出し、前記特徴量に応じて、前記スペクトルの低域とは異なる拡張帯域の拡張スペクトルを得るための前記拡張帯域に対する単一の拡張係数、または前記拡張帯域を構成する複数の帯域ごとの拡張係数を前記スペクトルに基づいて算出し、前記スペクトルの低域成分である低域スペクトルと、前記拡張係数とを多重化して符号列を生成するステップを含む。
本技術の第2の側面においては、時系列信号を直交変換して得られたスペクトルから特徴量が抽出され、前記特徴量に応じて、前記スペクトルの低域とは異なる拡張帯域の拡張スペクトルを得るための前記拡張帯域に対する単一の拡張係数、または前記拡張帯域を構成する複数の帯域ごとの拡張係数が前記スペクトルに基づいて算出され、前記スペクトルの低域成分である低域スペクトルと、前記拡張係数とが多重化されて符号列が生成される。
本技術の第1の側面および第2の側面によれば、低リソースな環境においても高音質な音声を得ることができる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。
符号化装置の構成例を示す図である。 スペクトルの領域と境界について説明する図である。 低域折り返し疑似振幅スペクトルについて説明する図である。 高域スペクトルの分割について説明する図である。 符号化処理を説明するフローチャートである。 復号装置の構成例を示す図である。 復号処理を説明するフローチャートである。 トーナリティの高い信号について説明する図である。 高域疑似振幅スペクトルの平均値について説明する図である。 拡張スペクトルのレベル調整について説明する図である。 レベル調整によるトーナリティの崩れについて説明する図である。 拡張スペクトルのレベル調整について説明する図である。 低域のトーナリティが高く、高域のトーナリティが低い信号の例を示す図である。 拡張スペクトルの生成と音質劣化について説明する図である。 包絡係数と拡張スペクトルの生成について説明する図である。 符号化処理を説明するフローチャートである。 復号処理を説明するフローチャートである。 コンピュータの構成例を示す図である。
以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈符号化装置の構成例〉
図1は、本技術を適用した符号化装置の一実施の形態の構成例を示す図である。
図1に示す符号化装置11はMDCT部21、スペクトル量子化部22、低域特徴量抽出部23、高域特徴量抽出部24、スペクトル特性決定部25、拡張係数算出部26、拡張係数量子化部27、および多重化部28を有している。
MDCT部21には、符号化対象の音声信号として、例えばサンプリング周波数Fs[kHz]の時系列信号である入力信号が供給される。
MDCT部21は、供給された入力信号に対して、直交変換として例えばMDCTを行い、直流成分である周波数Dc[kHz]から、サンプリング周波数Fsの半分の周波数Fs/2までのスペクトルを得る。
なお、以下では直交変換としてMDCTが行われる場合を例として説明を続けるが、直交変換により得られたスペクトルの値が、振幅成分と位相成分の両方の成分が織り込まれた値となるものであれば、MDCTに限らずどのような変換が行われてもよい。
また、ここでは符号化効率を向上させるため、実際に符号化されるのは、直交変換で得られたスペクトルのうちの周波数Dcから、聴感上敏感な周波数Fc[kHz]までの成分とされ、残りのスペクトルは棄損されるものとする。つまり、スペクトルのうちの周波数Fcから周波数Fs/2までの部分は棄損されるものとする。
さらに符号化効率を向上させるために、復号側において帯域拡張が行われるとする。
例えば図2に示すように、MDCT部21での直交変換で得られたスペクトルが低域スペクトル、高域スペクトル、および棄損スペクトルに分割されるものとする。なお、図2において縦軸はスペクトルの値、つまりレベルを示しており、横軸は周波数を示している。
この例ではスペクトル全体における、直流成分である周波数Dcから上限周波数Fb[kHz]までの成分が低域スペクトルとされており、入力信号の符号化時には、低域スペクトルに対して通常の符号化が行われる。
また、スペクトル全体における、上限周波数Fbから周波数Fcまでの成分が高域スペクトルとされている。入力信号の符号化時には、この高域スペクトルの符号化は行われないが、復号時には低域スペクトルと、後述する付加情報である拡張係数とが用いられて疑似的な高域スペクトル(以下、拡張スペクトルとも称する)が生成されて、帯域拡張が実現される。すなわち、復号時には、上限周波数Fbから周波数Fcまでの周波数帯域が、帯域拡張の対象である拡張帯域とされる。
さらに、スペクトル全体における周波数Fcから周波数Fs/2までの部分は棄損スペクトルとされて、棄損される。
なお、以下では、周波数Dcから上限周波数Fbまで帯域を低域と称し、上限周波数Fbから周波数Fcまでの帯域を高域と称することとする。また、以下では周波数Fcから周波数Fs/2までの帯域を棄損帯域と称することとする。
したがって、この例では、低域成分のみ入力信号の符号化が行われ、高域成分は復号時に帯域拡張により生成されることになる。
図1の説明に戻り、MDCT部21は、入力信号に対してMDCTを行い、その結果得られた全帯域のスペクトルのうちの低域スペクトルをスペクトル量子化部22および低域特徴量抽出部23に供給するとともに、高域スペクトルを高域特徴量抽出部24に供給する。
スペクトル量子化部22は、MDCT部21から供給された低域スペクトルを量子化し、その結果得られた量子化低域スペクトルを多重化部28に供給する。
低域特徴量抽出部23は、MDCT部21から供給された低域スペクトルから特徴量(以下、低域スペクトル特徴量とも称する)を抽出し、スペクトル特性決定部25に供給するとともに、低域スペクトルの振幅情報を拡張係数算出部26に供給する。
高域特徴量抽出部24は、MDCT部21から供給された高域スペクトルから特徴量(以下、高域スペクトル特徴量とも称する)を抽出し、スペクトル特性決定部25に供給するとともに、高域スペクトルの振幅情報を拡張係数算出部26に供給する。
ここで、低域スペクトル特徴量および高域スペクトル特徴量について説明する。
MDCT部21で得られたスペクトルから、低域スペクトル特徴量や高域スペクトル特徴量といった特徴量を抽出するためには、スペクトルの振幅の特性を観察することが必要となる。しかし、MDCT部21で得られるスペクトルは、例えばMDCTにより得られるMDCTスペクトルであり、MDCTスペクトルは、DFT(Discrete Fourier Transform)により得られるDFTスペクトルとは異なる性質を有している。なお、MDCTスペクトルはMDCT係数とも呼ばれている。
具体的には、DFTスペクトルには、振幅成分と位相成分とがそれぞれ独立に含まれている。これに対してMDCTスペクトルの値、つまりMDCTスペクトルの各周波数ビンにおける値は、振幅成分と位相成分の両成分が織り込まれた値となっている。すなわち、MDCTスペクトルの値は、入力信号の振幅成分と位相成分によって定まり、MDCTスペクトルの値からは、振幅成分と位相成分の何れか一方のみの値を知ることはできない。
そのため、DFTスペクトルを使用する場合には、振幅スペクトルまたはパワースペクトルを使用して信号の振幅を観察することが可能であるが、MDCTスペクトルの場合には、そのままの形ではMDCTスペクトルから信号の振幅を観察することは困難である。
したがって、MDCTスペクトルに対してMDCTの逆変換であるIMDCTを行い、入力信号を一度、時系列信号に戻してから、その時系列信号に対して特徴量抽出のためにDFTを行うことが考えられる。
しかし、そのような場合には符号化装置11にIMDCTやDFTの処理ブロックをさらに追加する必要があり、計算量と、ROM(Read Only Memory)やRAM(Random Access Memory)などのメモリ使用量との大幅な増加が見込まれることになる。そうすると、ポータブル機器などの演算リソースが限られた低リソース環境で、入力信号の符号化を行うことが困難となる。
そこで、本技術を適用した符号化装置11は、MDCTスペクトルに基づいて次式(1)により疑似振幅スペクトルSkを算出し、特徴量抽出に使用する。
Figure 2016038435
なお、式(1)において、疑似振幅スペクトルSkは、MDCTスペクトルのk番目の周波数ビンに対応する疑似振幅スペクトルを示しており、ykはk番目の周波数ビンに対応するMDCTスペクトルの値を示している。したがって、式(1)では、連続する3つの周波数ビンに対応するMDCTスペクトルの値に基づいて、1つの周波数ビンについて疑似振幅スペクトルSkが算出される。
このようにして得られた疑似振幅スペクトルSkの値は、振幅スペクトルに類似した値となる。つまり、疑似振幅スペクトルSkの値はDFTスペクトルの振幅スペクトルと強い相関を有する値となるため、疑似振幅スペクトルSkの値は、MDCTスペクトルの各周波数における疑似的な振幅値を示しているということができる。
なお、以下では、低域スペクトルについて求めた疑似振幅スペクトルを、特に低域疑似振幅スペクトルとも称し、高域スペクトルについて求めた疑似振幅スペクトルを、特に高域疑似振幅スペクトルとも称することとする。
低域特徴量抽出部23および高域特徴量抽出部24は、低域スペクトルおよび高域スペクトルの各周波数(周波数ビン)について、式(1)により疑似振幅スペクトルSkを算出し、得られた各周波数ビンの疑似振幅スペクトルSkから特徴量を算出する。
例えば、低域特徴量抽出部23および高域特徴量抽出部24は、低域スペクトル特徴量および高域スペクトル特徴量として、次式(2)の計算により、スペクトルのノイズ性の高さを示す指標となるSpectral Flatness(以下、SFとも称する)を算出する。
Figure 2016038435
なお、式(2)においてNは対象となるスペクトルの本数、つまり周波数ビンの数を示している。また、Siはi番目の周波数ビンの疑似振幅スペクトルの値を示している。
したがって、例えば高域スペクトルについてSFを求める場合、高域スペクトルの全周波数ビンについて求めた疑似振幅スペクトルSkの幾何平均に対する、高域スペクトルの全周波数ビンについて求めた疑似振幅スペクトルSkの算術平均の比がSFとなる。
このようにして算出されるSFは、スペクトルの平坦さの度合いを示しており、0.0乃至1.0の範囲の値をとる。
例えばSFの値が大きいほど、つまりSFの値が1.0に近いほどスペクトルの起伏が小さく平坦であり、スペクトルのノイズ性が高いことを示している。逆にSFの値が小さいほど、つまりSFの値が0.0に近いほどスペクトルのトーナリティが高い(ノイズ性が低い)ことを示している。
なお、特徴量としてSFが算出される例について説明したが、特徴量としてどのようなものが算出されるようにしてもよい。
例えばSF以外にもスペクトルのノイズ性の高さを示す指標、換言すればトーナリティの高さを示す指標はあるので、符号化装置11で要求される特徴量の精度や許容される計算量に応じて、ノイズ性の高さを示す他の指標を特徴量として算出してもよい。
SFとは異なる特徴量の例として、例えば次式(3)に示すスペクトル集中度Dを低域スペクトル特徴量や高域スペクトル特徴量として算出するようにしてもよい。
Figure 2016038435
なお、式(3)において、Nは対象となるスペクトルの本数、つまり周波数ビンの数を示している。また、Siはi番目の周波数ビンに対応する疑似振幅スペクトルの値を示しており、Max(Si)は各周波数ビンに対応する疑似振幅スペクトルSiのなかの最大値を示している。
したがって、式(3)の例では、疑似振幅スペクトルSkの最大値に対する、疑似振幅スペクトルSkの算術平均の比がスペクトル集中度Dとなる。
MDCTスペクトルでは、スペクトル集中度Dの値が大きいほどスペクトルの分布に偏りがあってトーナリティが高く、逆にスペクトル集中度Dの値が小さいほどスペクトルの分布が平坦でノイズ性が高い傾向が現れる。
このように、特徴量としてどのようなものが算出されてもよいが、以下では特徴量としてSFが算出されるものとして説明を続ける。
具体的には、低域特徴量抽出部23が低域スペクトル特徴量を算出する場合、図3に示すように、低域スペクトルについて算出した低域疑似振幅スペクトルを、上限周波数Fbを境界として高域側に折り返して得られる低域折り返し疑似振幅スペクトルについて、上述したSFを算出する。
なお、図3において、縦軸はスペクトルの値、つまりレベルを示しており、横軸は周波数を示している。
この例では、曲線C11により表される低域疑似振幅スペクトルが上限周波数Fbの位置で高域側に折り返されて、曲線C12により表される低域折り返し疑似振幅スペクトルとされている。したがって、低域疑似振幅スペクトルと低域折り返し疑似振幅スペクトルとは左右対称な波形となっている。
図1の説明に戻り、低域特徴量抽出部23は、折り返しにより得られた低域折り返し疑似振幅スペクトルのうちの上限周波数Fbから周波数Fcまでの帯域の各周波数ビンについて、式(2)の計算により低域スペクトル特徴量としてSFを算出する。なお、以下では、低域スペクトル特徴量として算出されたSFを特にSFLとも称することとする。
低域特徴量抽出部23は、このようにして得られた低域スペクトル特徴量としてのSFLをスペクトル特性決定部25に供給するとともに、低域折り返し疑似振幅スペクトルを振幅情報として拡張係数算出部26に供給する。このとき、例えば低域折り返し疑似振幅スペクトルにおける上限周波数Fbから周波数Fcまでの部分が拡張係数算出部26に供給される。
また、高域特徴量抽出部24は、高域スペクトルから得られた高域疑似振幅スペクトルの各周波数ビンについて、式(2)の計算により高域スペクトル特徴量としてSFを算出する。なお、以下では、高域スペクトル特徴量として算出されたSFを特にSFHとも称することとする。
高域特徴量抽出部24は、このようにして得られた高域スペクトル特徴量としてのSFHをスペクトル特性決定部25に供給するとともに、高域疑似振幅スペクトルを振幅情報として拡張係数算出部26に供給する。
スペクトル特性決定部25は、低域特徴量抽出部23から供給された低域スペクトル特徴量と、高域特徴量抽出部24から供給された高域スペクトル特徴量とに基づいて、符号化対象の入力信号のスペクトル特性を示すスペクトル特性符号を生成する。
例えば、低域スペクトル特徴量であるSFL、および高域スペクトル特徴量であるSFHが、ともに所定の閾値未満である場合、スペクトル特性符号は高いトーナリティを示す符号とされる。つまり、入力信号(MDCTスペクトル)はトーナリティが高いというスペクトル特性を有しているとされる。ここでは、高いトーナリティを示すスペクトル特性符号の値は「1」とされるものとする。
また、低域スペクトル特徴量であるSFL、および高域スペクトル特徴量であるSFHのうちの少なくとも何れか一方が閾値以上である場合、スペクトル特性符号は高いトーナリティではないことを示す符号とされる。つまり、入力信号は、トーナリティが高くない、換言すればノイズ性が高いというスペクトル特性を有しているとされる。ここでは、高いトーナリティではないことを示すスペクトル特性符号の値は「0」とされるものとする。
このように、MDCTスペクトルの低域成分および高域成分の両方においてトーナリティが高い場合には、スペクトル特性符号は「1」とされ、MDCTスペクトルの低域成分および高域成分の少なくとも一方のノイズ性が高い場合には、スペクトル特性符号は「0」とされる。
スペクトル特性決定部25は、このようにして得られたスペクトル特性符号を、拡張係数算出部26、拡張係数量子化部27、および多重化部28に供給する。
拡張係数算出部26は低域特徴量抽出部23からの低域折り返し疑似振幅スペクトル、高域特徴量抽出部24からの高域疑似振幅スペクトル、およびスペクトル特性決定部25からのスペクトル特性符号に基づいて拡張係数を算出し、拡張係数量子化部27に供給する。
ここで拡張係数は、復号時に周波数領域で高域のレベル調整を行うための情報であり、高域疑似振幅スペクトルと低域折り返し疑似振幅スペクトルのレベルの比を示している。換言すれば、拡張係数は高域スペクトルの平均振幅と低域スペクトルの平均振幅との比を示している。
具体的には、拡張係数算出部26は、スペクトル特性符号が「1」である場合、高域の範囲、つまり上限周波数Fbから周波数Fcまでの帯域の各周波数ビンの高域疑似振幅スペクトルの値の平均値を算出する。また、拡張係数算出部26は、上限周波数Fbから周波数Fcまでの帯域の各周波数ビンの低域折り返し疑似振幅スペクトルの値の平均値を算出し、高域疑似振幅スペクトルの平均値を、低域折り返し疑似振幅スペクトルの平均値で除算して得られる値を拡張係数とする。この場合、高域全体、つまり拡張帯域全体に対して1つの拡張係数が得られることになる。
これに対して、拡張係数算出部26はスペクトル特性符号が「0」である場合、例えば図4に示すように、人間の聴覚特性を考慮して、低域側から高域側にいくに従って分割された帯域幅が広くなるように高域を複数帯域に分割し、帯域ごとに拡張係数を算出する。
なお、図4において縦軸はスペクトルの値、つまりレベルを示しており、横軸は周波数を示している。
この例では、高域スペクトルの周波数帯域、つまり高域である上限周波数Fbから周波数Fcまでの周波数帯域が帯域B1乃至帯域B5の5つの帯域に分割されている。そして、分割により得られた各帯域の幅は、周波数Fc側にある帯域ほど広くなっている。
拡張係数算出部26は、高域を構成するこれらの帯域B1乃至帯域B5ごとに、高域疑似振幅スペクトルの値の平均値を、低域折り返し疑似振幅スペクトルの値の平均値で除算して得られる値を算出し、得られた値を各帯域の拡張係数とする。
例えば帯域B1内の各周波数ビンにおける高域疑似振幅スペクトルの値の平均値を、帯域B1内の各周波数ビンにおける低域折り返し疑似振幅スペクトルの値の平均値で除算して得られる値が帯域B1の拡張係数とされる。
したがって、高域を分割して得られたi番目の帯域(領域)の拡張係数Ciは、次式(4)により算出されることになる。
Figure 2016038435
なお、式(4)において、Skはi番目の帯域内のk番目の周波数ビンの高域疑似振幅スペクトルの値を示しており、Lkはi番目の帯域内のk番目の周波数ビンの低域折り返し疑似振幅スペクトルの値を示している。また、Mはi番目の帯域内のスペクトル数、つまり周波数ビンの数を示している。
拡張係数量子化部27は、スペクトル特性決定部25から供給されたスペクトル特性符号に基づいて、拡張係数算出部26から供給された拡張係数を量子化し、その結果得られた量子化拡張係数を多重化部28に供給する。
例えば、スペクトル特性符号が「1」である場合、高域全体に対して算出された単一の拡張係数に対してスカラ量子化が行われる。これに対して、スペクトル特性符号が「0」である場合、高域内の分割された帯域(領域)ごとに算出された複数の拡張係数に対してスカラ量子化またはベクトル量子化が行われる。
多重化部28は、スペクトル量子化部22からの量子化低域スペクトル、スペクトル特性決定部25からのスペクトル特性符号、および拡張係数量子化部27からの量子化拡張係数を多重化し、その結果得られた符号列を出力する。このとき、多重化部28は、量子化低域スペクトルをエントロピ符号化するとともに、量子化拡張係数の符号化も行う。
〈符号化処理の説明〉
続いて、符号化装置11の動作について説明する。
符号化装置11は、例えば外部から符号化対象となる入力信号が供給されると、符号化処理を開始し、入力信号の符号化を行う。以下、図5のフローチャートを参照して、符号化装置11による符号化処理について説明する。
ステップS11において、MDCT部21は供給された入力信号に対してMDCTを行う。そして、MDCT部21はMDCTにより得られたMDCTスペクトルのうちの低域部分を低域スペクトルとしてスペクトル量子化部22および低域特徴量抽出部23に供給するとともに、MDCTスペクトルのうちの高域部分を高域スペクトルとして高域特徴量抽出部24に供給する。
ステップS12において、スペクトル量子化部22は、MDCT部21から供給された低域スペクトルを量子化し、その結果得られた量子化低域スペクトルを多重化部28に供給する。
ステップS13において、低域特徴量抽出部23は、MDCT部21から供給された低域スペクトルから低域スペクトル特徴量を抽出する。
例えば低域特徴量抽出部23は、低域スペクトルの各周波数ビンについて上述した式(1)の計算を行い、低域疑似振幅スペクトルを算出する。
また、低域特徴量抽出部23は、得られた低域疑似振幅スペクトルを、上限周波数Fbで高域側に折り返し、低域折り返し疑似振幅スペクトルとする。このとき、例えば低域特徴量抽出部23は、折り返された低域疑似振幅スペクトルの周波数Fcより高い周波数の部分を棄損して低域折り返し疑似振幅スペクトルを生成する。
そして、低域特徴量抽出部23は、低域折り返し疑似振幅スペクトルの各周波数ビンについて上述した式(2)の計算を行い、低域スペクトル特徴量としてSFLを算出する。
低域特徴量抽出部23は、算出された低域スペクトル特徴量としてのSFLをスペクトル特性決定部25に供給するとともに、低域折り返し疑似振幅スペクトルを拡張係数算出部26に供給する。
ステップS14において、高域特徴量抽出部24は、MDCT部21から供給された高域スペクトルから高域スペクトル特徴量を抽出する。
例えば高域特徴量抽出部24は、高域スペクトルの各周波数ビンについて上述した式(1)を計算して高域疑似振幅スペクトルを算出するとともに、高域疑似振幅スペクトルの各周波数ビンについて式(2)の計算を行い、高域スペクトル特徴量としてSFHを算出する。
高域特徴量抽出部24は、算出された高域スペクトル特徴量としてのSFHをスペクトル特性決定部25に供給するとともに、高域疑似振幅スペクトルを拡張係数算出部26に供給する。
ステップS15において、スペクトル特性決定部25は、低域特徴量抽出部23から供給された低域スペクトル特徴量と、高域特徴量抽出部24から供給された高域スペクトル特徴量とに基づいて、スペクトル特性を示すスペクトル特性符号を生成する。
具体的には、スペクトル特性決定部25は、低域スペクトル特徴量であるSFL、および高域スペクトル特徴量であるSFHが、ともに閾値未満である場合、値が「1」であるスペクトル特性符号を生成する。
これに対して、スペクトル特性決定部25は、低域スペクトル特徴量であるSFL、および高域スペクトル特徴量であるSFHのうちの少なくとも何れか一方が閾値以上である場合、値が「0」であるスペクトル特性符号を生成する。
スペクトル特性決定部25は、生成されたスペクトル特性符号を拡張係数算出部26、拡張係数量子化部27、および多重化部28に供給する。
ステップS16において、拡張係数算出部26および拡張係数量子化部27は、スペクトル特性決定部25から供給されたスペクトル特性符号に基づいて、スペクトル特性が高いトーナリティを示すものであるか否かを判定する。
例えばスペクトル特性符号の値が「1」である場合、スペクトル特性が高いトーナリティを示すものであると判定される。
ステップS16において高いトーナリティを示すものであると判定された場合、処理はステップS17に進む。
ステップS17において、拡張係数算出部26は、低域特徴量抽出部23からの低域折り返し疑似振幅スペクトル、および高域特徴量抽出部24からの高域疑似振幅スペクトルに基づいて高域全体に対して単一(1つ)の拡張係数を算出し、拡張係数量子化部27に供給する。
すなわち、拡張係数算出部26は、上限周波数Fbから周波数Fcまでの帯域について、各周波数ビンにおける高域疑似振幅スペクトルの値の平均値を、各周波数ビンにおける低域折り返し疑似振幅スペクトルの値の平均値で除算し、拡張係数を算出する。
拡張係数が算出されると、その後、処理はステップS19へと進む。
一方、ステップS16において高いトーナリティを示すものでないと判定された場合、処理はステップS18に進む。
ステップS18において、拡張係数算出部26は、低域特徴量抽出部23からの低域折り返し疑似振幅スペクトル、および高域特徴量抽出部24からの高域疑似振幅スペクトルに基づいて、高域の分割された帯域ごとに拡張係数を算出し、拡張係数量子化部27に供給する。
すなわち、例えば拡張係数算出部26は、図4に示したように高域全体を帯域B1乃至帯域B5の5つの帯域に分割し、各帯域について上述した式(4)の計算を行って、帯域ごとに拡張係数を算出する。この場合、帯域B1乃至帯域B5の帯域ごとに1つの拡張係数が算出される。
拡張係数が算出されると、その後、処理はステップS19へと進む。
ステップS17またはステップS18において拡張係数が算出されると、ステップS19において、拡張係数量子化部27は、拡張係数算出部26から供給された拡張係数を量子化し、その結果得られた量子化拡張係数を多重化部28に供給する。
ステップS20において、多重化部28は、スペクトル量子化部22からの量子化低域スペクトル、スペクトル特性決定部25からのスペクトル特性符号、および拡張係数量子化部27からの量子化拡張係数を多重化し、符号列を生成する。このとき、多重化部28は、量子化低域スペクトルや量子化拡張係数を符号化した後、符号化された量子化低域スペクトルおよび量子化拡張係数と、スペクトル特性符号とを多重化する。
多重化部28は、多重化により得られた符号列を出力し、符号化処理は終了する。
以上のようにして符号化装置11は、低域スペクトル特徴量および高域スペクトル特徴量に基づいて入力信号のスペクトル特性を決定する。そして、符号化装置11は、復号時に周波数領域で高域のレベルを調整するための拡張係数として、スペクトル特性に応じて異なる拡張係数を算出する。
これにより、復号時に拡張係数を用いて周波数領域で高域のレベルを調整することができるとともに、スペクトル特性に応じた高域のレベル調整を実現することができる。したがって、原理遅延を増加させることなく、低リソースな環境においても高音質な音声を得ることができるようになる。
すなわち、周波数領域で高域のレベル調整を行うことができるので、復号時の帯域拡張による時間遅延が削減され、復号側のリソースの増加も抑制される。また、スペクトル特性に応じて高域のレベル調整を行うことができるので、トーナリティの高い信号でもトーナリティの低い信号でも聴感上の音質の劣化を抑制することができ、より高音質な音声を得ることができるようになる。
〈復号装置の構成例〉
続いて、符号化装置11から出力された符号列を復号する復号装置について説明する。
図6は、本技術を適用した復号装置の一実施の形態の構成例を示す図である。
図6の復号装置81は分解部91、スペクトル逆量子化部92、拡張係数逆量子化部93、拡張スペクトル生成部94、およびIMDCT部95を有している。
分解部91には、符号化装置11の多重化部28から出力された符号列が供給される。分解部91は、供給された符号列を分解して、符号列から量子化低域スペクトル、スペクトル特性符号、および量子化拡張係数を取得する。また、分解部91は、量子化低域スペクトルおよび量子化拡張係数の復号も行う。
分解部91は、符号列から得られた量子化低域スペクトルをスペクトル逆量子化部92に供給し、符号列から得られたスペクトル特性符号を拡張係数逆量子化部93、および拡張スペクトル生成部94に供給する。また、分解部91は、符号列から得られた量子化拡張係数を拡張係数逆量子化部93に供給する。
スペクトル逆量子化部92は、分解部91から供給された量子化低域スペクトルを逆量子化し、得られた低域スペクトルを拡張スペクトル生成部94およびIMDCT部95に供給する。拡張係数逆量子化部93は、分解部91から供給されたスペクトル特性符号に基づいて、分解部91から供給された量子化拡張係数を逆量子化し、得られた拡張係数を拡張スペクトル生成部94に供給する。
拡張スペクトル生成部94は、分解部91から供給されたスペクトル特性符号に基づいて、拡張係数逆量子化部93から供給された拡張係数、およびスペクトル逆量子化部92から供給された低域スペクトルから拡張スペクトルを生成し、IMDCT部95に供給する。
IMDCT部95は、スペクトル逆量子化部92から供給された低域スペクトルを低域のスペクトルとし、拡張スペクトル生成部94から供給された拡張スペクトルを高域(拡張帯域)のスペクトルとして、それらの低域スペクトルと拡張スペクトルを結合(合成)する。また、IMDCT部95は、低域スペクトルと拡張スペクトルを結合して得られたスペクトルに対してIMDCTによる直交変換を行い、その結果得られた時系列信号を、復号により得られた音声信号として出力する。
〈復号処理の説明〉
次に、復号装置81の動作について説明する。
復号装置81は、符号列が供給されると復号処理を開始して符号列を復号し、音声信号を出力する。以下、図7のフローチャートを参照して、復号装置81による復号処理について説明する。
ステップS51において、分解部91は供給された符号列を分解して、符号列から量子化低域スペクトル、スペクトル特性符号、および量子化拡張係数を取得する。
分解部91は、得られた量子化低域スペクトルをスペクトル逆量子化部92に供給し、スペクトル特性符号を拡張係数逆量子化部93、および拡張スペクトル生成部94に供給するとともに、量子化拡張係数を拡張係数逆量子化部93に供給する。なお、より詳細には、分解部91は量子化低域スペクトルおよび量子化拡張係数の復号を行って、復号された量子化低域スペクトルおよび量子化拡張係数を、スペクトル逆量子化部92および拡張係数逆量子化部93に供給する。
ステップS52において、スペクトル逆量子化部92は、分解部91から供給された量子化低域スペクトルを逆量子化し、得られた低域スペクトルを拡張スペクトル生成部94およびIMDCT部95に供給する。
ステップS53において、拡張係数逆量子化部93および拡張スペクトル生成部94は、分解部91から供給されたスペクトル特性符号に基づいて、スペクトル特性が高いトーナリティを示すものであるか否かを判定する。
例えばスペクトル特性符号の値が「1」である場合、スペクトル特性が高いトーナリティを示すものであると判定される。この場合、符号列には、高域全体に対して算出された1つ(単一)の拡張係数を得るための量子化拡張係数が含まれているので、分解部91から拡張係数逆量子化部93には、1つの量子化拡張係数が供給される。
逆にスペクトル特性符号の値が「0」である場合、スペクトル特性が高いトーナリティを示すものでない、つまり高いノイズ性を示すものであると判定される。この場合、符号列には、高域を構成する複数の帯域ごとに算出された各拡張係数を得るための量子化拡張係数が含まれているので、分解部91から拡張係数逆量子化部93には、高域の分割された帯域の数だけ量子化拡張係数が供給される。
ステップS53において高いトーナリティを示すものであると判定された場合、ステップS54において、拡張係数逆量子化部93は、分解部91から供給された単一の量子化拡張係数を逆量子化し、得られた拡張係数を拡張スペクトル生成部94に供給する。
ステップS55において、拡張スペクトル生成部94は、拡張係数逆量子化部93から供給された単一の拡張係数、およびスペクトル逆量子化部92から供給された低域スペクトルに基づいて拡張スペクトルを生成し、IMDCT部95に供給する。
具体的には、拡張スペクトル生成部94は、図3を参照して説明した例と同様にして、低域スペクトルを上限周波数Fbを境界として高域側に折り返し、その結果得られた折り返しスペクトルを、拡張スペクトルを得るための種スペクトルとする。
拡張スペクトル生成部94は、得られた種スペクトル全体、つまり各周波数ビンにおける種スペクトルの値に単一の拡張係数を乗算し、拡張スペクトルとする。すなわち、種スペクトルのレベルが、拡張係数によって符号化前の元の高域スペクトルのレベルに調整され、拡張スペクトルとされる。
このようにして得られた拡張スペクトルは、復号により得られた低域スペクトルと拡張係数とから推定された、元の入力信号の高域スペクトルである。
拡張スペクトルが得られると、その後、処理はステップS58へと進む。
一方、ステップS53において、スペクトル特性が高いトーナリティを示すものでない、つまり高いノイズ性を示すものであると判定された場合、処理はステップS56へと進む。
ステップS56において、拡張係数逆量子化部93は、分解部91から供給された高域を構成する複数の帯域ごとの量子化拡張係数を逆量子化し、得られた拡張係数を拡張スペクトル生成部94に供給する。これにより、例えば図4に示した帯域B1乃至帯域B5の各帯域(領域)の拡張係数が得られる。
ステップS57において、拡張スペクトル生成部94は、拡張係数逆量子化部93から供給された各帯域の拡張係数、およびスペクトル逆量子化部92から供給された低域スペクトルに基づいて拡張スペクトルを生成し、IMDCT部95に供給する。
具体的には、拡張スペクトル生成部94は、ステップS55における場合と同様の処理を行って種スペクトルを生成し、得られた種スペクトルの各帯域(領域)に対して、それらの帯域の拡張係数を乗算し、拡張スペクトルとする。
例えば図4に示したように高域が帯域B1乃至帯域B5の5つの帯域に分割される場合、種スペクトルの帯域B1の部分、より詳細には帯域B1内の各周波数ビンにおける種スペクトルの値に帯域B1の拡張係数が乗算され、拡張スペクトルの帯域B1の部分が生成される。同様にして他の帯域B2乃至帯域B5についても、種スペクトルのそれらの帯域に各帯域の拡張係数が乗算され、拡張スペクトルの各帯域部分が生成される。
拡張スペクトルが得られると、その後、処理はステップS58へと進む。
なお、ステップS55およびステップS57では、低域スペクトルを高域側に折り返して種スペクトルとする例について説明したが、これに限らず種スペクトルはどのようにして生成されてもよい。例えば低域スペクトルの一部の周波数帯域の部分を複製(コピー)して高域に貼り付けることで得られたスペクトルを種スペクトルとしてもよい。
ステップS55またはステップS57において拡張スペクトルが生成されると、ステップS58において、IMDCT部95はスペクトル逆量子化部92から供給された低域スペクトル、および拡張スペクトル生成部94から供給された拡張スペクトルに基づいて時系列信号を生成する。
すなわち、IMDCT部95は低域スペクトルと拡張スペクトルを結合(合成)して、低域と高域(拡張帯域)の全帯域成分を有するスペクトルを生成し、さらに結合により得られたスペクトルに対してIMDCTを行って時系列信号を得る。これにより、帯域拡張により高域成分が付加された時系列信号が得られる。
IMDCT部95は、このようにして得られた時系列信号を、復号により得られた音声信号として出力し、復号処理は終了する。
以上のようにして復号装置81は、スペクトル特性に応じた拡張係数を復号および逆量子化により得て、得られた拡張係数と、低域スペクトルを高域側に折り返して得られた種スペクトルとから拡張スペクトルを生成する。
このように、スペクトル特性に応じた拡張係数を用いて、高域成分である種スペクトルのレベルを調整し、拡張スペクトルとすることで、周波数領域で高域のレベルを調整することができるとともに、スペクトル特性に応じた高域のレベル調整を実現することができる。
これにより、原理遅延を増加させることなく、低リソースな環境でも高音質な音声を得ることができる。すなわち、周波数領域でレベル調整を行うことで、復号時の帯域拡張による遅延時間を削減し、リソースの増加も抑制することができる。また、トーナリティの高い信号でもトーナリティの低い信号でも帯域拡張による聴感上の音質の劣化を抑制し、より高音質な音声を得ることができる。
〈拡張スペクトルの生成について〉
ここで、復号装置81の拡張スペクトル生成部94による拡張スペクトルの生成について、より詳細に説明する。
上述したように拡張スペクトル生成部94は、スペクトル特性符号に基づいて、符号化前の元の信号がトーナリティの高い信号であるか、またはノイズ性の高い通常の信号であるかを区別して拡張スペクトルを生成している。
例えば図8に示すように、トーナリティの高い信号とノイズ性の高い通常の信号とは、それらの信号のスペクトル概形が異なる。なお、図8において縦軸はスペクトルの値、つまりレベルを示しており、横軸は周波数を示している。
図8では、曲線C21はノイズ性の高い信号、つまり通常の信号のスペクトルを表しており、曲線C22はトーナリティの高い信号のスペクトルを表している。
曲線C21で表されるノイズ性の高い信号は、全周波数帯域においてレベルが突出した部分がなく、スペクトルの波形はなだらかな山のような形状となっている。つまり、ノイズ性の高い信号には、エネルギが集中している部分がない。
これに対して、曲線C22で表されるトーナリティの高い信号は、特定の周波数にエネルギが集中し、その部分の波形が鋭く尖った山のようになっている。つまり、トーナリティの高い信号のスペクトルの波形は、エネルギが集中している周波数の部分が突出しており、なだらかな波形とはなっていない。
また、拡張スペクトルを生成する際には、低域スペクトルが上限周波数Fbで折り返されたものや、低域スペクトルを部分的に複製して高域に貼り付けたものなど、低域スペクトルから得られたスペクトルが種スペクトルとして用いられる。そして、この種スペクトルが拡張係数によりレベル調整、つまり振幅調整されて拡張スペクトルとされる。
ここで、ノイズ性の高い通常の信号では、各スペクトルで近接するもの同士の位相関係は聴感上においてそれほど重要ではなく、振幅レベルが重要である。そのため、種スペクトルのレベル調整にあたっては、種スペクトルのレベル(振幅)をなるべく符号化前の元の信号の高域スペクトルのレベルに近づけるために、細かな単位でレベル調整を行うことが望ましい。
すなわち、例えば図9に示すように符号化時に高域を4つの帯域に分割し、帯域ごとに拡張係数を算出したとする。なお、図9において縦軸はスペクトルの値、つまりレベルを示しており、横軸は周波数を示している。
この例では、高域スペクトルの周波数帯域、つまり高域である上限周波数Fbから周波数Fcまでの周波数帯域が帯域B11乃至帯域B14の4つの帯域(領域)に分割されている。そして、分割により得られた各帯域の幅は、周波数Fc側にある帯域ほど広くなっている。
このような場合、入力信号の符号化では、帯域B11乃至帯域B14の各帯域について、それらの帯域における高域疑似振幅スペクトルの平均値が算出される。この例では、直線L11乃至直線L14のそれぞれが、帯域B11乃至帯域B14のそれぞれにおける高域疑似振幅スペクトルの平均値、つまり高域スペクトルの平均振幅を表している。
また、帯域ごとに求められた高域疑似振幅スペクトルの平均値が、同じ帯域の低域折り返し疑似振幅スペクトルの平均値で除算されて得られた値が拡張係数として符号列に格納され、復号装置81へと伝送される。
すると、復号装置81では図10に示すように低域スペクトルから得られた種スペクトルが拡張係数によりレベル調整される。なお、図10において縦軸はスペクトルの値、つまりレベルを示しており、横軸は周波数を示している。また、図10において、図9における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図10では、曲線C31は符号列の復号により得られた低域スペクトルを表しており、曲線C32は低域スペクトルから得られた種スペクトルを表している。
この例では、曲線C31で表される低域スペクトルが上限周波数Fbで高域側に折り返されて、曲線C32で表される種スペクトルとされている。
このような種スペクトルの各帯域B11乃至帯域B14のそれぞれに対して、それらの帯域ごとに算出された拡張係数のそれぞれが乗算される。これにより、種スペクトルの各帯域のレベル、より詳細には各帯域の平均振幅が図中、矢印に示されるように元の信号の高域スペクトルの平均振幅に近づくように、種スペクトルのレベルが帯域B11乃至帯域B14の各帯域で調整される。
ところが、低域スペクトルがトーナリティの高い信号である場合、種スペクトルに対して帯域ごとに異なる拡張係数を乗算すると、拡張スペクトルの各帯域のレベル、つまり平均振幅は符号化前の元の高域スペクトルの平均振幅に近づくが、スペクトルの位相関係が各帯域で大幅に崩れてしまう。
そうすると、例えば図11に示すように拡張スペクトルのトーナリティが損なわれてしまう。なお、図11において縦軸はスペクトルの値、つまりレベルを示しており、横軸は周波数を示している。
この例では、曲線C41は符号化対象となった入力信号のMDCTスペクトルを表しており、曲線C42は、符号化対象となった入力信号の復号時に生成された低域スペクトルと拡張スペクトルを結合して得られたスペクトルを表している。したがって、この例では曲線C42で表されるスペクトルのうち、周波数Dcから上限周波数Fbまでの部分が低域スペクトルであり、上限周波数Fbから周波数Fcまでの部分が拡張スペクトルである。
この例では、元の入力信号は低域も高域もトーナリティの高い信号となっている。このような入力信号の復号時に、高域の帯域ごとに異なる拡張係数により種スペクトルのレベル調整を行うと、曲線C42に示されるようにスペクトルの位相関係が大幅に崩れ、拡張帯域のトーナリティが損なわれてしまう。
曲線C42で表されるスペクトルでは高域部分、つまり拡張スペクトルの波形が崩れてしまっており、元のMDCTスペクトルが有していたトーナリティが損なわれてしまっている。特に高域の分割された帯域同士の境界部分において波形が崩れやすく、トーナリティが損なわれやすい。
低域スペクトルを折り返して得られる種スペクトルは、そのままの状態、つまり拡張係数によるレベル調整を行う前の状態ではスペクトルの位相関係は保たれているため、トーナリティも保たれている。
しかし、種スペクトルのレベル(振幅)を調整しないと、拡張スペクトルに元の入力信号の高域スペクトルの振幅レベルを反映させることができない。そうすると高域、つまり拡張帯域の部分の音量が元の高域の音量とは異なるものとなってしまうため、適切な帯域拡張を実現できなくなってしまう。換言すれば、より高音質な音声を得ることができなくなってしまう。
そこで、本技術ではトーナリティの高い信号に対しては、種スペクトルのレベル調整を最小限の単位で行うことで、拡張スペクトルにおけるトーナリティの保持と振幅レベルの反映の両方を実現している。
具体的には、符号化時に拡張係数算出部26は、高域(拡張帯域)全体における高域疑似振幅スペクトルの平均値を、高域全体における低域折り返し疑似振幅スペクトルの平均値で除算して、拡張帯域に対して単一の拡張係数を算出する。
また、復号時には、拡張スペクトル生成部94は、種スペクトル全体に対して単一の拡張係数を乗算して拡張スペクトルとする。つまり、拡張帯域(高域)全体を単位として、種スペクトルのレベル調整が行われ、拡張スペクトルとされる。
このように拡張帯域を単位としてレベル調整を行うことで、例えば図12に示すように入力信号のトーナリティを保ちつつ、拡張スペクトルの高域の全体的な振幅レベルも元の入力信号の高域の振幅レベルと近いものとすることができる。なお、図12において縦軸はスペクトルの値、つまりレベルを示しており、横軸は周波数を示している。
図12では、曲線C51乃至曲線C53は、それぞれ元の入力信号のMDCTスペクトル、復号時の逆量子化により得られた低域スペクトル、および種スペクトルを表している。
この例では、曲線C51で表されるMDCTスペクトルは、低域部分および高域部分、すなわち低域スペクトルおよび高域スペクトルには、それぞれ特定の周波数にエネルギが集中している部分があり、トーナリティの高い信号となっている。また、曲線C51で表されるMDCTスペクトルでは、低域スペクトルの平均振幅が高域スペクトルの平均振幅よりも大きくなっている。
このようなMDCTスペクトルの高域スペクトルに対して、符号化時には、その高域スペクトルの帯域全体について、高域疑似振幅スペクトルの平均値が求められて単一の拡張係数が算出される。図12では、直線L21は高域(拡張帯域)における高域疑似振幅スペクトルの平均値、つまり高域スペクトルの平均振幅を表している。
また、復号時には曲線C52で表される低域スペクトルが折り返されて、曲線C53で表される種スペクトルとされ、この種スペクトルが拡張係数によって、図中の矢印により表されるようにレベル調整されて、拡張スペクトルとされる。
その際、単一の拡張係数によって拡張スペクトルの高域全体の平均振幅が直線L21で表される高域疑似振幅スペクトルの平均値に近づくようにされる。これにより、種スペクトルの各周波数のレベルが同じだけ調整されるので位相関係を崩すことなく、つまりトーナリティを保ちつつ、適切に振幅レベルも調整することができる。その結果、より高音質な音声を得ることができる。
また、拡張係数が単一であれば、符号化装置11から出力される符号列に格納される、帯域拡張に必要な付加情報の情報量も削減することができるので、その分だけ低域スペクトルの量子化に情報量を割り当てることが可能となり、全体的な音質の向上を見込むことができる。
〈第2の実施の形態〉
〈ランダムノイズによる拡張スペクトルの生成について〉
ところで、入力信号の低域のトーナリティが高い場合には、通常、その高域のトーナリティも高いことが多い。そのため、以上において説明した符号化処理では、低域スペクトル特徴量と高域スペクトル特徴量の両方が閾値未満である場合に、符号化対象の入力信号はトーナリティが高いというスペクトル特性を有しているとされていた。
しかし、頻度は多くないが、例えば図13に示すように低域スペクトルのトーナリティが高く、高域スペクトルのトーナリティが低いというスペクトル特性を有する入力信号もある。なお、図13において縦軸はスペクトルの値、つまりレベルを示しており、横軸は周波数を示している。
図13では、曲線C61は、符号化対象とされる入力信号のMDCTスペクトルを表している。特に、このMDCTスペクトルにおいて、周波数Dcから上限周波数Fbまでの部分が低域スペクトルであり、上限周波数Fbから周波数Fcまでの部分が高域スペクトルである。
例えば低域スペクトルには、特定の周波数にエネルギが集中している部分があり、トーナリティの高い信号となっている。これに対して、高域スペクトルには、特定の周波数にエネルギが集中している部分がなくトーナリティの低い信号、つまりノイズ性の高い信号となっている。
このように低域のトーナリティは高いが、高域のトーナリティは低い入力信号を符号化し、復号時に帯域拡張を行うとする。そのような場合、低域スペクトルの折り返しや部分的な複製により種スペクトルを生成し、その種スペクトルから拡張スペクトルを生成すると、例えば図14に示すように、拡張スペクトルに本来のノイズ性ではなくトーナリティが強く現れてしまうことがある。なお、図14において縦軸はスペクトルの値、つまりレベルを示しており、横軸は周波数を示している。
この例では、曲線C71は量子化低域スペクトルを逆量子化して得られた低域スペクトルを表しており、曲線C72は拡張スペクトルを表している。
この例では、元の時系列信号の高域スペクトルはトーナリティが低いものであったが、低域スペクトルのトーナリティが高いため、低域スペクトルの折り返しと、拡張係数によるレベル調整により得られた拡張スペクトルはトーナリティが高いものとなっている。すなわち、帯域拡張によって高域に本来の信号が有する特性と異なる特性が現れている。
このように高域に本来有していなかった高いトーナリティが現れると、復号処理により得られる時系列信号(音声信号)に聴感上、金属的な音が混じってしまうなど、違和感を生じさせる原因となってしまう。
そこで、低域スペクトルのトーナリティが高く、高域スペクトルのトーナリティが低い場合には、低域スペクトルの折り返しを種スペクトルとして使用せずに、例えば図15に示すようにランダムノイズを用いて拡張スペクトルを生成するようにしてもよい。なお、図15において縦軸はスペクトルの値、つまりレベルを示しており、横軸は周波数を示している。
図15では、曲線C81乃至曲線C83は、それぞれMDCTスペクトル、量子化低域スペクトルを逆量子化して得られた低域スペクトル、および拡張スペクトルを表している。
この例ではMDCTスペクトルの高域が帯域B31乃至帯域B33の3つの帯域に分割されており、周波数の高い帯域ほど帯域幅が広くなっている。高域が帯域B31乃至帯域B33の各帯域に分割されると、符号化時には、それらの帯域ごとに、帯域の包絡を示す包絡情報として包絡係数が算出される。例えば包絡係数は、算出対象の帯域における各周波数ビンの高域疑似振幅スペクトルの平均値とされる。
図15では、直線L31乃至直線L33のそれぞれが、帯域B31乃至帯域B33のそれぞれについて算出された包絡係数を示している。
包絡係数は、拡張スペクトル生成時にノイズ信号としてのランダムノイズのレベル調整を行うための拡張係数情報であるが、ここでは低域折り返し疑似振幅スペクトルおよび高域疑似振幅スペクトルから算出される拡張係数と区別するため、包絡係数と称することとする。なお、包絡係数の算出時における高域の分割数は、拡張係数算出時の高域の分割数と同じであってもよいし異なる数であってもよい。
包絡係数が算出されると、その包絡係数が量子化および符号化されて、量子化低域スペクトルやスペクトル特性符号と多重化され、符号列が生成される。
また、符号列の供給を受けた復号側では、符号列から取得された包絡係数と、ランダムノイズとが用いられて拡張スペクトルが生成される。
すなわち、復号時には拡張帯域である帯域B31乃至帯域B33の各周波数ビンごとに-1.0乃至1.0の範囲の値に正規化された乱数が生成され、それらの各周波数ビンごとの乱数からなるノイズ信号がランダムノイズとされる。そして、ランダムノイズに包絡係数が乗算されて拡張スペクトルとされる。
このようにして得られる拡張スペクトルは、乱数を正規化して得られたランダムノイズから生成されているため、曲線C83に示すように特定の周波数にエネルギが集中しておらずノイズ性の高いスペクトルとなっている。また、拡張スペクトルは、ランダムノイズを包絡係数によりレベル調整して得られたものであるので、その包絡は元のMDCTスペクトルの高域の包絡に近いものとなる。
したがって、復号により得られる時系列信号は、符号化された元の入力信号と同様に、低域スペクトルのトーナリティが高く、高域スペクトルのトーナリティが低いものとなる。
〈符号化処理の説明〉
次に、以上において説明した包絡係数が生成される場合に、符号化装置11により行われる符号化処理について説明する。
以下、図16のフローチャートを参照して、符号化装置11による符号化処理について説明する。なお、ステップS91乃至ステップS94の処理は、図5のステップS11乃至ステップS14の処理と同様であるので、その説明は省略する。
ステップS95において、スペクトル特性決定部25は、低域特徴量抽出部23から供給された低域スペクトル特徴量と、高域特徴量抽出部24から供給された高域スペクトル特徴量とに基づいて、スペクトル特性を示すスペクトル特性符号を生成する。
具体的には、スペクトル特性決定部25は、低域スペクトル特徴量であるSFL、および高域スペクトル特徴量であるSFHが、ともに閾値未満である場合、値が「1」であるスペクトル特性符号を生成する。スペクトル特性符号「1」は、入力信号(MDCTスペクトル)の低域および高域が、ともにスペクトル特性として高いトーナリティを有していることを示している。
また、スペクトル特性決定部25は、低域スペクトル特徴量であるSFLが閾値未満であり、高域スペクトル特徴量であるSFHが閾値以上である場合、値が「2」であるスペクトル特性符号を生成する。スペクトル特性符号「2」は、入力信号の低域(低域スペクトル)は高いトーナリティを有しており、入力信号の高域(高域スペクトル)は低いトーナリティ、つまり高いノイズ性を有していることを示している。
さらに、スペクトル特性決定部25は、低域スペクトル特徴量であるSFLが閾値以上である場合には、値が「0」であるスペクトル特性符号を生成する。スペクトル特性符号「0」は、入力信号がスペクトル特性として低いトーナリティを有していることを示している。
スペクトル特性決定部25は、生成されたスペクトル特性符号を拡張係数算出部26、拡張係数量子化部27、および多重化部28に供給する。
ステップS96において、拡張係数算出部26および拡張係数量子化部27は、スペクトル特性決定部25から供給されたスペクトル特性符号に基づいて、低域および高域のスペクトル特性がともに高いトーナリティを示すものであるか否かを判定する。
例えばスペクトル特性符号の値が「1」である場合、低域および高域のスペクトル特性が高いトーナリティを示すものであると判定される。
ステップS96において低域および高域のスペクトル特性が高いトーナリティを示すものであると判定された場合、処理はステップS97に進む。
ステップS97において、拡張係数算出部26は、低域特徴量抽出部23からの低域折り返し疑似振幅スペクトル、および高域特徴量抽出部24からの高域疑似振幅スペクトルに基づいて高域全体に対して単一の拡張係数を算出し、拡張係数量子化部27に供給する。
なお、ステップS97では、図5のステップS17と同様の処理が行われる。ステップS97において拡張係数が算出されると、その後、処理はステップS101へと進む。
また、ステップS96において低域および高域のスペクトル特性が高いトーナリティを示すものではないと判定された場合、処理はステップS98に進む。
ステップS98において、拡張係数算出部26および拡張係数量子化部27は、スペクトル特性符号に基づいて、低域のスペクトル特性が高いトーナリティを示し、高域のスペクトル特性が低いトーナリティを示すものであるか否かを判定する。
例えば、スペクトル特性符号の値が「2」である場合、低域のスペクトル特性が高いトーナリティを示し、高域のスペクトル特性が低いトーナリティを示すものであると判定される。
ステップS98において、低域のスペクトル特性が高いトーナリティを示し、高域のスペクトル特性が低いトーナリティを示すものであると判定された場合、処理はステップS99へと進む。
ステップS99において、拡張係数算出部26は、高域特徴量抽出部24からの高域疑似振幅スペクトルに基づいて、高域の分割された帯域ごとに包絡係数を算出し、拡張係数量子化部27に供給する。
すなわち、例えば拡張係数算出部26は、図15に示したように高域全体を帯域B31乃至帯域B33の3つの帯域に分割し、各帯域内の周波数ビンの高域疑似振幅スペクトルの平均値をそれらの帯域の包絡係数として算出する。
包絡係数が算出されると、その後、処理はステップS101へと進む。
一方、ステップS98において、低域のスペクトル特性が高いトーナリティを示し、高域のスペクトル特性が低いトーナリティを示すものであると判定されなかった場合、処理はステップS100へと進む。
ステップS100において、拡張係数算出部26は、低域特徴量抽出部23からの低域折り返し疑似振幅スペクトル、および高域特徴量抽出部24からの高域疑似振幅スペクトルに基づいて、高域の分割された帯域ごとに拡張係数を算出し、拡張係数量子化部27に供給する。なお、ステップS100では、図5のステップS18と同様の処理が行われる。ステップS100において拡張係数が算出されると、その後、処理はステップS101へと進む。
ステップS97またはステップS100において拡張係数が算出されたか、またはステップS99において包絡係数が算出されると、ステップS101において、拡張係数量子化部27は、拡張係数算出部26から供給された拡張係数または包絡係数を量子化する。
すなわち、拡張係数量子化部27は、ステップS97またはステップS100の処理が行われ、拡張係数が供給された場合、拡張係数を量子化し、その結果得られた量子化拡張係数を多重化部28に供給する。また、拡張係数量子化部27は、ステップS99の処理が行われ、包絡係数が供給された場合、包絡係数を量子化し、その結果得られた量子化包絡係数を多重化部28に供給する。このとき、例えば拡張係数または包絡係数に対して、スカラ量子化またはベクトル量子化が行われる。
ステップS102において、多重化部28は、スペクトル量子化部22からの量子化低域スペクトル、スペクトル特性決定部25からのスペクトル特性符号、および拡張係数量子化部27からの量子化拡張係数または量子化包絡係数を多重化し、符号列を生成する。このとき、多重化部28は、量子化低域スペクトルと、量子化拡張係数または量子化包絡係数とを符号化してから多重化を行う。
多重化部28は、多重化により得られた符号列を出力し、符号化処理は終了する。
以上のようにして符号化装置11は、低域スペクトル特徴量および高域スペクトル特徴量に基づいて入力信号のスペクトル特性を決定する。そして、符号化装置11は、スペクトル特性に応じて、復号時に拡張スペクトルを得るための情報として拡張係数または包絡係数を算出する。
これにより、復号時に拡張係数や包絡係数を用いて適切な拡張スペクトルを得ることができ、原理遅延を増加させることなく、低リソースな環境においても高音質な音声を得ることができるようになる。特に、包絡係数を用いて拡張スペクトルを生成する場合には、低域スペクトルのトーナリティが高いときでも、トーナリティの低い拡張スペクトルを得ることができる。
〈復号処理の説明〉
次に、符号化装置11により図16を参照して説明した符号化処理が行われた場合に、復号装置81により行われる復号処理を図17のフローチャートを参照して説明する。
なお、ステップS141およびステップS142の処理は、図7のステップS51およびステップS52の処理と同様であるので、その説明は省略する。但し、ステップS141では、符号列を分解して得られた量子化拡張係数または量子化包絡係数の何れかが、分解部91から拡張係数逆量子化部93に供給されることになる。
ステップS143において、拡張係数逆量子化部93および拡張スペクトル生成部94は、分解部91から供給されたスペクトル特性符号に基づいて、低域および高域のスペクトル特性が高いトーナリティを示すものであるか否かを判定する。
例えばスペクトル特性符号の値が「1」である場合、低域および高域のスペクトル特性が高いトーナリティを示すものであると判定される。この場合、符号列には単一の量子化拡張係数が含まれているので、その量子化拡張係数が分解部91から拡張係数逆量子化部93へと供給される。
ステップS143において低域および高域のスペクトル特性が高いトーナリティを示すものであると判定された場合、ステップS144およびステップS145の処理が行われて拡張スペクトルが生成され、IMDCT部95に供給される。
なお、これらのステップS144およびステップS145の処理は、図7のステップS54およびステップS55の処理と同様であるので、その説明は省略する。ステップS145の処理が行われると、その後、処理はステップS151へと進む。
また、ステップS143において低域および高域のスペクトル特性が高いトーナリティを示すものであると判定されなかった場合、処理はステップS146へと進む。
ステップS146において、拡張係数逆量子化部93および拡張スペクトル生成部94はスペクトル特性符号に基づいて、低域のスペクトル特性が高いトーナリティを示し、高域のスペクトル特性が低いトーナリティを示すものであるか否かを判定する。例えば、スペクトル特性符号の値が「2」である場合、低域のスペクトル特性が高いトーナリティを示し、高域のスペクトル特性が低いトーナリティを示すものであると判定される。
ステップS146において低域のスペクトル特性が高いトーナリティを示し、高域のスペクトル特性が低いトーナリティを示すものであると判定された場合、処理はステップS147へと進む。この場合、分解部91から拡張係数逆量子化部93には、高域の帯域ごとの量子化包絡係数が供給される。
ステップS147において、拡張係数逆量子化部93は、分解部91から供給された、高域を構成する複数の帯域ごとの量子化包絡係数を逆量子化し、得られた包絡係数を拡張スペクトル生成部94に供給する。これにより、例えば図15に示した帯域B31乃至帯域B33の包絡係数L31乃至包絡係数L33が得られる。
ステップS148において、拡張スペクトル生成部94は、拡張係数逆量子化部93から供給された各帯域の包絡係数に基づいて拡張スペクトルを生成し、IMDCT部95に供給する。
具体的には、拡張スペクトル生成部94は、拡張帯域の各周波数ビンに-1.0乃至1.0の範囲の値に正規化された乱数を割り当ててランダムノイズを生成し、そのランダムノイズの各帯域の周波数ビンにおける値に、各帯域の包絡係数を乗算し、拡張スペクトルとする。
拡張スペクトルが生成されると、その後、処理はステップS151へと進む。
さらに、ステップS146において低域のスペクトル特性が高いトーナリティを示し、高域のスペクトル特性が低いトーナリティを示すものであると判定されなかった場合、ステップS149およびステップS150の処理が行われる。
この場合、分解部91から拡張係数逆量子化部93に高域の帯域ごとの量子化拡張係数が供給されて逆量子化され、その結果得られた拡張係数と、低域スペクトルとから拡張スペクトルが生成される。なお、これらのステップS149およびステップS150の処理は、図7のステップS56およびステップS57の処理と同様であるので、その説明は省略する。
このようにして拡張スペクトルが生成されると、その後、処理はステップS151へと進む。
ステップS145、ステップS148、またはステップS150の処理が行われて拡張スペクトルが生成されると、ステップS151の処理が行われて時系列信号が生成されるが、ステップS151の処理は図7のステップS58の処理と同様であるので、その説明は省略する。
ステップS151において得られた時系列信号が、復号により得られた音声信号として出力されると、復号処理は終了する。
以上のようにして復号装置81は、スペクトル特性に応じた拡張係数または包絡係数を復号および逆量子化により得て、得られた拡張係数または包絡係数を用いて拡張スペクトルを生成する。
このように、スペクトル特性に応じた拡張係数または包絡係数を用いて、種スペクトルまたはラインダムノイズのレベルを調整し、拡張スペクトルとすることで、周波数領域で高域のレベルを調整することができるとともに、スペクトル特性に応じた高域のレベル調整を実現することができる。これにより、復号時の帯域拡張による遅延時間を削減し、低リソースな環境でも高音質な音声を得ることができる。
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図18は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)501,ROM502,RAM503は、バス504により相互に接続されている。
バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア511を駆動する。
以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブルメディア511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、本技術は、以下の構成とすることも可能である。
[1]
低域スペクトルと、低域とは異なる拡張帯域の拡張スペクトルを得るための前記拡張帯域に対する単一の拡張係数、または前記拡張帯域を構成する複数の帯域ごとの拡張係数とを取得する取得部と、
前記単一の前記拡張係数、または前記複数の帯域ごとの前記拡張係数に基づいて、前記拡張スペクトルを生成する生成部と、
前記低域スペクトルと前記拡張スペクトルを合成する合成部と
を備える復号装置。
[2]
前記生成部は、前記低域スペクトルおよび前記拡張係数に基づいて前記拡張スペクトルを生成する
[1]に記載の復号装置。
[3]
前記生成部は、前記拡張係数に基づいて、前記低域スペクトルから得られたスペクトルのレベルを調整することで前記拡張スペクトルを生成する
[2]に記載の復号装置。
[4]
前記生成部は、前記単一の前記拡張係数に基づいて前記拡張スペクトルを生成する場合、前記拡張係数に基づいて前記スペクトルの前記拡張帯域全体のレベルを調整し、前記複数の帯域ごとの前記拡張係数に基づいて前記拡張スペクトルを生成する場合、前記帯域の前記拡張係数に基づいて、前記スペクトルの前記帯域のレベルを調整する
[3]に記載の復号装置。
[5]
前記生成部は、前記拡張係数に基づいて、所定のノイズのレベルを調整することで前記拡張スペクトルを生成する
[1]に記載の復号装置。
[6]
前記低域スペクトルの値は、元の時系列信号の振幅成分および位相成分により定まる
[1]乃至[5]の何れか一項に記載の復号装置。
[7]
前記低域スペクトルは、MDCTスペクトルである
[6]に記載の復号装置。
[8]
低域スペクトルと、低域とは異なる拡張帯域の拡張スペクトルを得るための前記拡張帯域に対する単一の拡張係数、または前記拡張帯域を構成する複数の帯域ごとの拡張係数とを取得し、
前記単一の前記拡張係数、または前記複数の帯域ごとの前記拡張係数に基づいて、前記拡張スペクトルを生成し、
前記低域スペクトルと前記拡張スペクトルを合成する
ステップを含む復号方法。
[9]
低域スペクトルと、低域とは異なる拡張帯域の拡張スペクトルを得るための前記拡張帯域に対する単一の拡張係数、または前記拡張帯域を構成する複数の帯域ごとの拡張係数とを取得し、
前記単一の前記拡張係数、または前記複数の帯域ごとの前記拡張係数に基づいて、前記拡張スペクトルを生成し、
前記低域スペクトルと前記拡張スペクトルを合成する
ステップを含む処理をコンピュータに実行させるプログラム。
[10]
時系列信号を直交変換して得られたスペクトルから特徴量を抽出する特徴量抽出部と、
前記特徴量に応じて、前記スペクトルの低域とは異なる拡張帯域の拡張スペクトルを得るための前記拡張帯域に対する単一の拡張係数、または前記拡張帯域を構成する複数の帯域ごとの拡張係数を前記スペクトルに基づいて算出する算出部と、
前記スペクトルの低域成分である低域スペクトルと、前記拡張係数とを多重化して符号列を生成する多重化部と
を備える符号化装置。
[11]
前記特徴量は前記スペクトルのトーナリティを示す情報である
[10]に記載の符号化装置。
[12]
前記算出部は、前記スペクトルのトーナリティが高い場合、前記単一の前記拡張係数を算出し、前記スペクトルのトーナリティが低い場合、前記複数の帯域ごとの前記拡張係数を算出する
[11]に記載の符号化装置。
[13]
前記算出部は、前記スペクトルの前記拡張帯域の平均振幅と、前記低域スペクトルの平均振幅との比を前記拡張係数として算出する
[10]乃至[12]の何れか一項に記載の符号化装置。
[14]
前記算出手段は、前記スペクトルの低域のトーナリティが高く、前記スペクトルの前記拡張帯域のトーナリティが低い場合、前記スペクトルの前記拡張帯域の包絡情報を前記拡張係数として算出する
[11]に記載の符号化装置。
[15]
前記スペクトルの値は、前記時系列信号の振幅成分および位相成分により定まる
[10]乃至[14]の何れか一項に記載の符号化装置。
[16]
前記直交変換はMDCTである
[15]に記載の符号化装置。
[17]
時系列信号を直交変換して得られたスペクトルから特徴量を抽出し、
前記特徴量に応じて、前記スペクトルの低域とは異なる拡張帯域の拡張スペクトルを得るための前記拡張帯域に対する単一の拡張係数、または前記拡張帯域を構成する複数の帯域ごとの拡張係数を前記スペクトルに基づいて算出し、
前記スペクトルの低域成分である低域スペクトルと、前記拡張係数とを多重化して符号列を生成する
ステップを含む符号化方法。
[18]
時系列信号を直交変換して得られたスペクトルから特徴量を抽出し、
前記特徴量に応じて、前記スペクトルの低域とは異なる拡張帯域の拡張スペクトルを得るための前記拡張帯域に対する単一の拡張係数、または前記拡張帯域を構成する複数の帯域ごとの拡張係数を前記スペクトルに基づいて算出し、
前記スペクトルの低域成分である低域スペクトルと、前記拡張係数とを多重化して符号列を生成する
ステップを含む処理をコンピュータに実行させるプログラム。
11 符号化装置, 21 MDCT部, 22 スペクトル量子化部, 23 低域特徴量抽出部, 24 高域特徴量抽出部, 25 スペクトル特性決定部, 26 拡張係数算出部, 27 拡張係数量子化部, 28 多重化部, 81 復号装置, 91 分解部, 92 スペクトル逆量子化部, 93 拡張係数逆量子化部, 94 拡張スペクトル生成部, 95 IMDCT部

Claims (18)

  1. 低域スペクトルと、低域とは異なる拡張帯域の拡張スペクトルを得るための前記拡張帯域に対する単一の拡張係数、または前記拡張帯域を構成する複数の帯域ごとの拡張係数とを取得する取得部と、
    前記単一の前記拡張係数、または前記複数の帯域ごとの前記拡張係数に基づいて、前記拡張スペクトルを生成する生成部と、
    前記低域スペクトルと前記拡張スペクトルを合成する合成部と
    を備える復号装置。
  2. 前記生成部は、前記低域スペクトルおよび前記拡張係数に基づいて前記拡張スペクトルを生成する
    請求項1に記載の復号装置。
  3. 前記生成部は、前記拡張係数に基づいて、前記低域スペクトルから得られたスペクトルのレベルを調整することで前記拡張スペクトルを生成する
    請求項2に記載の復号装置。
  4. 前記生成部は、前記単一の前記拡張係数に基づいて前記拡張スペクトルを生成する場合、前記拡張係数に基づいて前記スペクトルの前記拡張帯域全体のレベルを調整し、前記複数の帯域ごとの前記拡張係数に基づいて前記拡張スペクトルを生成する場合、前記帯域の前記拡張係数に基づいて、前記スペクトルの前記帯域のレベルを調整する
    請求項3に記載の復号装置。
  5. 前記生成部は、前記拡張係数に基づいて、所定のノイズのレベルを調整することで前記拡張スペクトルを生成する
    請求項1に記載の復号装置。
  6. 前記低域スペクトルの値は、元の時系列信号の振幅成分および位相成分により定まる
    請求項1に記載の復号装置。
  7. 前記低域スペクトルは、MDCTスペクトルである
    請求項6に記載の復号装置。
  8. 低域スペクトルと、低域とは異なる拡張帯域の拡張スペクトルを得るための前記拡張帯域に対する単一の拡張係数、または前記拡張帯域を構成する複数の帯域ごとの拡張係数とを取得し、
    前記単一の前記拡張係数、または前記複数の帯域ごとの前記拡張係数に基づいて、前記拡張スペクトルを生成し、
    前記低域スペクトルと前記拡張スペクトルを合成する
    ステップを含む復号方法。
  9. 低域スペクトルと、低域とは異なる拡張帯域の拡張スペクトルを得るための前記拡張帯域に対する単一の拡張係数、または前記拡張帯域を構成する複数の帯域ごとの拡張係数とを取得し、
    前記単一の前記拡張係数、または前記複数の帯域ごとの前記拡張係数に基づいて、前記拡張スペクトルを生成し、
    前記低域スペクトルと前記拡張スペクトルを合成する
    ステップを含む処理をコンピュータに実行させるプログラム。
  10. 時系列信号を直交変換して得られたスペクトルから特徴量を抽出する特徴量抽出部と、
    前記特徴量に応じて、前記スペクトルの低域とは異なる拡張帯域の拡張スペクトルを得るための前記拡張帯域に対する単一の拡張係数、または前記拡張帯域を構成する複数の帯域ごとの拡張係数を前記スペクトルに基づいて算出する算出部と、
    前記スペクトルの低域成分である低域スペクトルと、前記拡張係数とを多重化して符号列を生成する多重化部と
    を備える符号化装置。
  11. 前記特徴量は前記スペクトルのトーナリティを示す情報である
    請求項10に記載の符号化装置。
  12. 前記算出部は、前記スペクトルのトーナリティが高い場合、前記単一の前記拡張係数を算出し、前記スペクトルのトーナリティが低い場合、前記複数の帯域ごとの前記拡張係数を算出する
    請求項11に記載の符号化装置。
  13. 前記算出部は、前記スペクトルの前記拡張帯域の平均振幅と、前記低域スペクトルの平均振幅との比を前記拡張係数として算出する
    請求項10に記載の符号化装置。
  14. 前記算出手段は、前記スペクトルの低域のトーナリティが高く、前記スペクトルの前記拡張帯域のトーナリティが低い場合、前記スペクトルの前記拡張帯域の包絡情報を前記拡張係数として算出する
    請求項11に記載の符号化装置。
  15. 前記スペクトルの値は、前記時系列信号の振幅成分および位相成分により定まる
    請求項10に記載の符号化装置。
  16. 前記直交変換はMDCTである
    請求項15に記載の符号化装置。
  17. 時系列信号を直交変換して得られたスペクトルから特徴量を抽出し、
    前記特徴量に応じて、前記スペクトルの低域とは異なる拡張帯域の拡張スペクトルを得るための前記拡張帯域に対する単一の拡張係数、または前記拡張帯域を構成する複数の帯域ごとの拡張係数を前記スペクトルに基づいて算出し、
    前記スペクトルの低域成分である低域スペクトルと、前記拡張係数とを多重化して符号列を生成する
    ステップを含む符号化方法。
  18. 時系列信号を直交変換して得られたスペクトルから特徴量を抽出し、
    前記特徴量に応じて、前記スペクトルの低域とは異なる拡張帯域の拡張スペクトルを得るための前記拡張帯域に対する単一の拡張係数、または前記拡張帯域を構成する複数の帯域ごとの拡張係数を前記スペクトルに基づいて算出し、
    前記スペクトルの低域成分である低域スペクトルと、前記拡張係数とを多重化して符号列を生成する
    ステップを含む処理をコンピュータに実行させるプログラム。
JP2014160417A 2014-08-06 2014-08-06 符号化装置および方法、復号装置および方法、並びにプログラム Pending JP2016038435A (ja)

Priority Applications (7)

Application Number Priority Date Filing Date Title
JP2014160417A JP2016038435A (ja) 2014-08-06 2014-08-06 符号化装置および方法、復号装置および方法、並びにプログラム
US15/500,253 US10049677B2 (en) 2014-08-06 2015-07-23 Encoding device and method, decoding device and method, and program
EP15830713.2A EP3179476B1 (en) 2014-08-06 2015-07-23 Coding device and method, and program
EP19199364.1A EP3608910B1 (en) 2014-08-06 2015-07-23 Decoding device and method, and program
CN201580041640.XA CN106663449B (zh) 2014-08-06 2015-07-23 编码装置和方法、解码装置和方法以及程序
PCT/JP2015/070924 WO2016021412A1 (ja) 2014-08-06 2015-07-23 符号化装置および方法、復号装置および方法、並びにプログラム
US16/037,574 US10510353B2 (en) 2014-08-06 2018-07-17 Encoding device and method, decoding device and method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014160417A JP2016038435A (ja) 2014-08-06 2014-08-06 符号化装置および方法、復号装置および方法、並びにプログラム

Publications (1)

Publication Number Publication Date
JP2016038435A true JP2016038435A (ja) 2016-03-22

Family

ID=55263684

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014160417A Pending JP2016038435A (ja) 2014-08-06 2014-08-06 符号化装置および方法、復号装置および方法、並びにプログラム

Country Status (5)

Country Link
US (2) US10049677B2 (ja)
EP (2) EP3608910B1 (ja)
JP (1) JP2016038435A (ja)
CN (1) CN106663449B (ja)
WO (1) WO2016021412A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110176247A (zh) * 2018-11-30 2019-08-27 株式会社索思未来 信号处理装置以及信号处理方法
JP2022521188A (ja) * 2019-02-21 2022-04-06 テレフオンアクチーボラゲット エルエム エリクソン(パブル) Mdct係数からのスペクトル形状予測

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016038435A (ja) 2014-08-06 2016-03-22 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
CN110070884B (zh) * 2019-02-28 2022-03-15 北京字节跳动网络技术有限公司 音频起始点检测方法和装置
DE112021001491T5 (de) * 2020-03-04 2023-01-12 Sony Group Corporation Decodierer, decodierverfahren, programm, codierer und codierverfahren
CN113190508B (zh) * 2021-04-26 2023-05-05 重庆市规划和自然资源信息中心 一种面向管理的自然语言识别方法

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5329714B1 (ja) 1969-09-16 1978-08-22
JPS5325293B2 (ja) 1973-05-02 1978-07-26
JPS5325293A (en) 1976-08-20 1978-03-08 Sumitomo Metal Ind Ltd Cooling and recovering method for granular metallurgical slag
NL7609610A (nl) 1976-08-30 1978-03-02 Philips Nv Werkwijze voor het maken van copieen van in- formatiesporen op dragers.
JP3579047B2 (ja) * 2002-07-19 2004-10-20 日本電気株式会社 オーディオ復号装置と復号方法およびプログラム
KR20070012832A (ko) * 2004-05-19 2007-01-29 마츠시타 덴끼 산교 가부시키가이샤 부호화 장치, 복호화 장치 및 이들의 방법
KR20070084002A (ko) * 2004-11-05 2007-08-24 마츠시타 덴끼 산교 가부시키가이샤 스케일러블 복호화 장치 및 스케일러블 부호화 장치
JP4899359B2 (ja) * 2005-07-11 2012-03-21 ソニー株式会社 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
US7630882B2 (en) * 2005-07-15 2009-12-08 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
CN101086845B (zh) * 2006-06-08 2011-06-01 北京天籁传音数字技术有限公司 声音编码装置及方法以及声音解码装置及方法
DE602007005729D1 (de) * 2006-06-19 2010-05-20 Sharp Kk Signalverarbeitungsverfahren, Signalverarbeitungsvorrichtung und Aufzeichnungsmedium
EP2063418A4 (en) * 2006-09-15 2010-12-15 Panasonic Corp AUDIO CODING DEVICE AND AUDIO CODING METHOD
EP2212884B1 (en) 2007-11-06 2013-01-02 Nokia Corporation An encoder
CN101925953B (zh) * 2008-01-25 2012-06-20 松下电器产业株式会社 编码装置、解码装置以及其方法
CA2729474C (en) 2008-07-11 2015-09-01 Frederik Nagel Apparatus and method for generating a bandwidth extended signal
CN101727906B (zh) * 2008-10-29 2012-02-01 华为技术有限公司 高频带信号的编解码方法及装置
PL4053838T3 (pl) * 2008-12-15 2023-11-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dekoder powiększania szerokości pasma audio, powiązany sposób oraz program komputerowy
US8463599B2 (en) * 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
US8983831B2 (en) * 2009-02-26 2015-03-17 Panasonic Intellectual Property Corporation Of America Encoder, decoder, and method therefor
PL2273493T3 (pl) * 2009-06-29 2013-07-31 Fraunhofer Ges Forschung Kodowanie i dekodowanie z rozszerzaniem szerokości pasma
CN101996640B (zh) * 2009-08-31 2012-04-04 华为技术有限公司 频带扩展方法及装置
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
RU2568278C2 (ru) * 2009-11-19 2015-11-20 Телефонактиеболагет Лм Эрикссон (Пабл) Расширение полосы пропускания звукового сигнала нижней полосы
JP5651980B2 (ja) 2010-03-31 2015-01-14 ソニー株式会社 復号装置、復号方法、およびプログラム
JP5850216B2 (ja) * 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
US9047875B2 (en) * 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
JP5707842B2 (ja) * 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
PL2677519T3 (pl) * 2011-02-18 2019-12-31 Ntt Docomo, Inc. Dekoder mowy, koder mowy, sposób dekodowania mowy, sposób kodowania mowy, program do dekodowania mowy i program do kodowania mowy
MX350162B (es) * 2011-06-30 2017-08-29 Samsung Electronics Co Ltd Aparato y método para generar señal extendida de ancho de banda.
CN102208188B (zh) * 2011-07-13 2013-04-17 华为技术有限公司 音频信号编解码方法和设备
CN103718240B (zh) * 2011-09-09 2017-02-15 松下电器(美国)知识产权公司 编码装置、解码装置、编码方法和解码方法
CN107993673B (zh) * 2012-02-23 2022-09-27 杜比国际公司 确定噪声混合因子的方法、系统、编码器、解码器和介质
EP2830062B1 (en) 2012-03-21 2019-11-20 Samsung Electronics Co., Ltd. Method and apparatus for high-frequency encoding/decoding for bandwidth extension
JP5997592B2 (ja) * 2012-04-27 2016-09-28 株式会社Nttドコモ 音声復号装置
JP2016038435A (ja) 2014-08-06 2016-03-22 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110176247A (zh) * 2018-11-30 2019-08-27 株式会社索思未来 信号处理装置以及信号处理方法
JP2020086366A (ja) * 2018-11-30 2020-06-04 株式会社ソシオネクスト 信号処理装置および信号処理方法
CN110176247B (zh) * 2018-11-30 2022-11-22 株式会社索思未来 信号处理装置以及信号处理方法
JP2022521188A (ja) * 2019-02-21 2022-04-06 テレフオンアクチーボラゲット エルエム エリクソン(パブル) Mdct係数からのスペクトル形状予測
JP7335968B2 (ja) 2019-02-21 2023-08-30 テレフオンアクチーボラゲット エルエム エリクソン(パブル) Mdct係数からのスペクトル形状予測
US11862180B2 (en) 2019-02-21 2024-01-02 Telefonaktiebolaget Lm Ericsson (Publ) Spectral shape estimation from MDCT coefficients

Also Published As

Publication number Publication date
US20170270940A1 (en) 2017-09-21
CN106663449B (zh) 2021-03-16
US20180322885A1 (en) 2018-11-08
EP3179476B1 (en) 2019-10-09
CN106663449A (zh) 2017-05-10
EP3179476A4 (en) 2018-01-03
US10510353B2 (en) 2019-12-17
EP3608910A1 (en) 2020-02-12
US10049677B2 (en) 2018-08-14
EP3608910B1 (en) 2021-08-25
WO2016021412A1 (ja) 2016-02-11
EP3179476A1 (en) 2017-06-14

Similar Documents

Publication Publication Date Title
US11705146B2 (en) Audio encoder and bandwidth extension decoder
JP6823121B2 (ja) 符号化装置および符号化方法
US8639500B2 (en) Method, medium, and apparatus with bandwidth extension encoding and/or decoding
KR101747918B1 (ko) 고주파수 신호 복호화 방법 및 장치
WO2016021412A1 (ja) 符号化装置および方法、復号装置および方法、並びにプログラム
JP6386634B2 (ja) オーディオ信号の符号化及び復号化方法並びにその装置
KR101375582B1 (ko) 대역폭 확장 부호화 및 복호화 방법 및 장치
JP2010079275A (ja) 周波数帯域拡大装置及び方法、符号化装置及び方法、復号化装置及び方法、並びにプログラム
KR20050010744A (ko) 오디오 복호 장치와 복호 방법 및 프로그램
JP5651980B2 (ja) 復号装置、復号方法、およびプログラム
JP2011059714A (ja) 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
CN110556122A (zh) 频带扩展方法、装置、电子设备及计算机可读存储介质
JPWO2015151451A1 (ja) 符号化装置、復号装置、符号化方法、復号方法、およびプログラム
JP4313993B2 (ja) オーディオ復号化装置およびオーディオ復号化方法
AU2015203736B2 (en) Audio encoder and bandwidth extension decoder
JP5892395B2 (ja) 符号化装置、符号化方法、およびプログラム
KR20130063990A (ko) 음성 신호의 대역폭 확장 방법 및 그 장치