JP6475250B2 - 音声/オーディオビットストリームを復号するための方法及び装置 - Google Patents

音声/オーディオビットストリームを復号するための方法及び装置 Download PDF

Info

Publication number
JP6475250B2
JP6475250B2 JP2016543574A JP2016543574A JP6475250B2 JP 6475250 B2 JP6475250 B2 JP 6475250B2 JP 2016543574 A JP2016543574 A JP 2016543574A JP 2016543574 A JP2016543574 A JP 2016543574A JP 6475250 B2 JP6475250 B2 JP 6475250B2
Authority
JP
Japan
Prior art keywords
frame
latest
latest frame
decoded
lsp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016543574A
Other languages
English (en)
Other versions
JP2017504832A (ja
Inventor
▲澤▼新 ▲劉▼
▲澤▼新 ▲劉▼
▲興▼涛 ▲張▼
▲興▼涛 ▲張▼
磊 苗
磊 苗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2017504832A publication Critical patent/JP2017504832A/ja
Application granted granted Critical
Publication of JP6475250B2 publication Critical patent/JP6475250B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0002Codebook adaptations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/932Decision in previous or following frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、オーディオ復号技術に関し、具体的には、音声/オーディオビットストリームを復号するための方法及び装置に関する。
本出願は、2013年12月31日に中国特許庁に出願され、“METHOD AND APPARATUS FOR DECODING SPEECH/AUDIO BITSTREAM”と表題が付けられた中国特許出願第201310751997.X号に対する優先権を主張するとともに、それはその全体における参照によりここに組み込まれている。
モバイル通信サービスでは、ネットワーク上のパケット損失や遅延変動に起因して、フレーム損失を引き起こすことが避けられず、その結果として、いくつかの音声/オーディオ信号は、復号されたパラメータを使用して再構成されることができず、フレーム消失隠蔽(英文:frame erasure concealment、略してFEC)技術を使用することによってのみ再構成されることができる。しかしながら、高いパケット損失率の場合において、もしデコーダ側のFEC技術のみが使用されるならば、出力される音声/オーディオ信号は、比較的低品質のものになり、高品質の通信の必要性を満たすことができない。
音声/オーディオのフレーム損失に起因する品質劣化の問題をより良く低減するために、冗長符号化アルゴリズムが生成される。エンコーダ側において、特定のビットレートが最新のフレームに関する情報を符号化するために使用されることに加えて、より低いビットレートが最新のフレーム以外のフレームの情報を符号化するために使用されるとともに、より低いビットレートにおけるビットストリームは、冗長なビットストリーム情報として使用され、最新のフレームに関する情報のビットストリームと共にデコーダ側に伝送される。デコーダ側において、最新のフレームが失われた場合に、もしジッタバッファ(英文:jitter buffer)又は受信されたビットストリームが最新のフレームを含む冗長なビットストリーム情報を記憶しているならば、最新のフレームは冗長なビットストリーム情報に従って再構成されることができ、それにより、再構成された音声/オーディオ信号の品質を改善する。最新のフレームの冗長なビットストリーム情報が存在しない場合にのみ、最新のフレームはFEC技術に基づいて再構成される。
既存の冗長符号化アルゴリズムにおいて、冗長なビットストリーム情報は、より低いビットレートを使用することによる符号化を用いて取得され、したがって、信号の不安定性が発生する可能性があり、その結果として、出力される音声/オーディオ信号の品質は高くなくなる、ということが上記から理解されることができる。
本発明の実施例は、音声/オーディオビットストリームのためのオーディオ冗長復号方法及び装置を提供し、それは、出力される音声/オーディオ信号の品質を改善することができる。
第1の態様によれば、音声/オーディオビットストリームを復号するための方法が提供され、当該方法は、最新のフレームが通常復号フレーム又は冗長復号フレームであるかどうかを判定するステップと、もし前記最新のフレームが通常復号フレーム又は冗長復号フレームであるならば、構文解析を用いて前記最新のフレームの復号されたパラメータを取得するステップと、前記最新のフレームの前記復号されたパラメータに対する後処理を実行して前記最新のフレームの後処理された復号されたパラメータを取得するステップと、前記最新のフレームの前記後処理された復号されたパラメータを使用して音声/オーディオ信号を再構成するステップとを含む。
第1の態様に関連して、第1の態様の第1の実施方法において、前記最新のフレームの前記復号されたパラメータは前記最新のフレームのスペクトルペアパラメータを含み、前記最新のフレームの前記復号されたパラメータに対する後処理を実行する前記ステップは、前記最新のフレームの前記スペクトルペアパラメータ及び前記最新のフレームの前のフレームのスペクトルペアパラメータを使用して前記最新のフレームの後処理されたスペクトルペアパラメータを取得するステップを含む。
第1の態様の第1の実施方法に関連して、第1の態様の第2の実施方法において、前記最新のフレームの前記後処理されたスペクトルペアパラメータは、下記の式、lsp[k]=α*lsp_old[k]+δ*lsp_new[k]、0≦k≦Mを具体的に使用することによる計算を通して取得され、ここで、lsp[k]は前記最新のフレームの前記後処理されたスペクトルペアパラメータであり、lsp_old[k]は前記前のフレームの前記スペクトルペアパラメータであり、lsp_new[k]は前記最新のフレームの前記スペクトルペアパラメータであり、Mはスペクトルペアパラメータの次数であり、αは前記前のフレームの前記スペクトルペアパラメータの加重値であり、δは前記最新のフレームの前記スペクトルペアパラメータの加重値であり、α≧0、δ≧0、及びα+δ=1である。
第1の態様の第1の実施方法に関連して、第1の態様の第3の実施方法において、前記最新のフレームの前記後処理されたスペクトルペアパラメータは、下記の式、lsp[k]=α*lsp_old[k]+β*lsp_mid[k]+δ*lsp_new[k]、0≦k≦Mを具体的に使用することによる計算を通して取得され、ここで、lsp[k]は前記最新のフレームの前記後処理されたスペクトルペアパラメータであり、lsp_old[k]は前記前のフレームの前記スペクトルペアパラメータであり、lsp_mid[k]は前記最新のフレームの前記スペクトルペアパラメータの中間値であり、lsp_new[k]は前記最新のフレームの前記スペクトルペアパラメータであり、Mはスペクトルペアパラメータの次数であり、αは前記前のフレームの前記スペクトルペアパラメータの加重値であり、βは前記最新のフレームの前記スペクトルペアパラメータの前記中間値の加重値であり、δは前記最新のフレームの前記スペクトルペアパラメータの加重値であり、α≧0、β≧0、δ≧0、及びα+β+δ=1である。
第1の態様の第3の実施方法に関連して、第1の態様の第4の実施方法において、前記最新のフレームが冗長復号フレームであるとともに、前記最新のフレームの前記信号クラスが無声音ではない場合に、もし前記最新のフレームの前記次のフレームの前記信号クラスが無声音であるか、又は、前記最新のフレームの前記前のフレームの前記スペクトル傾き係数が前記事前設定されたスペクトル傾き係数しきい値より小さいか、又は、前記最新のフレームの前記次のフレームの前記信号クラスが無声音であるとともに、前記最新のフレームの前記前のフレームの前記スペクトル傾き係数が前記事前設定されたスペクトル傾き係数しきい値より小さいならば、βの値は、0であるか又は設定しきい値より小さい。
第1の態様の第2から第4の実施方法のいずれか1つに関連して、第1の態様の第5の実施方法において、前記最新のフレームの前記信号クラスが無声音であり、前記最新のフレームの前記前のフレームが冗長復号フレームであり、そして前記最新のフレームの前記前のフレームの信号クラスが無声音ではない場合に、αの値は、0であるか又は設定しきい値より小さい。
第1の態様の第2から第5の実施方法のいずれか1つに関連して、第1の態様の第6の実施方法において、前記最新のフレームが冗長復号フレームであるとともに、前記最新のフレームの前記信号クラスが無声音ではない場合に、もし前記最新のフレームの前記次のフレームの前記信号クラスが無声音であるか、又は、前記最新のフレームの前記前のフレームの前記スペクトル傾き係数が前記事前設定されたスペクトル傾き係数しきい値より小さいか、又は、前記最新のフレームの前記次のフレームの前記信号クラスが無声音であるとともに、前記最新のフレームの前記前のフレームの前記スペクトル傾き係数が前記事前設定されたスペクトル傾き係数しきい値より小さいならば、δの値は、0であるか又は設定しきい値より小さい。
第1の態様の第4又は第6の実施方法のいずれか1つに関連して、第1の態様の第7の実施方法において、前記スペクトル傾き係数は正又は負であり得るとともに、より小さいスペクトル傾き係数は、前記スペクトル傾き係数に対応するフレームの、より無声音になる傾向がある信号クラスを示す。
第1の態様、又は第1の態様の第1から第7の実施方法のいずれか1つに関連して、第1の態様の第8の実施方法において、前記最新のフレームの前記復号されたパラメータは前記最新のフレームの適応コードブック利得を含み、前記最新のフレームが冗長復号フレームである場合に、もし前記最新のフレームの前記次のフレームが無声音フレームであるか、又は、前記最新のフレームの前記次のフレームの次のフレームが無声音フレームであるとともに、前記最新のフレームの最新のサブフレームの代数的コードブックが、前記最新のサブフレームの前のサブフレームの代数的コードブック又は前記最新のフレームの前記前のフレームの代数的コードブックの第1の数量倍であるならば、前記最新のフレームの前記復号されたパラメータに対する後処理を実行する前記ステップは、前記最新のフレームの前記最新のサブフレームの適応コードブック利得を減らすステップを含む。
第1の態様、又は第1の態様の第1から第7の実施方法のいずれか1つに関連して、第1の態様の第9の実施方法において、前記最新のフレームの前記復号されたパラメータは前記最新のフレームの適応コードブック利得を含み、前記最新のフレーム、又は前記最新のフレームの前記前のフレームが冗長復号フレームである場合に、もし前記最新のフレームの前記信号クラスが一般音であるとともに、前記最新のフレームの前記次のフレームの前記信号クラスが有声音であるか、又は、前記最新のフレームの前記前のフレームの前記信号クラスが一般音であるとともに、前記最新のフレームの前記信号クラスが有声音であり、そして、前記最新のフレームにおける1つのサブフレームの代数的コードブックが第2の数量倍だけ前記1つのサブフレームの前のサブフレームの代数的コードブックと異なるか、又は、前記最新のフレームにおける1つのサブフレームの代数的コードブックが第2の数量倍だけ前記最新のフレームの前記前のフレームの代数的コードブックと異なるならば、前記最新のフレームの前記復号されたパラメータに対する後処理を実行する前記ステップは、前記最新のフレームの最新のサブフレームの適応コードブック利得を、前記最新のフレームの前記最新のサブフレームの隣接するサブフレームの代数的コードブックに対する前記最新のフレームの前記最新のサブフレームの代数的コードブックの比率、前記最新のフレームの前記最新のサブフレームの前記隣接するサブフレームの適応コードブック利得に対する前記最新のフレームの前記最新のサブフレームの適応コードブック利得の比率、及び前記最新のフレームの前記前のフレームの前記代数的コードブックに対する前記最新のフレームの前記最新のサブフレームの前記代数的コードブックの比率
のうちの少なくとも1つに従って調整するステップを含む。
第1の態様、又は第1の態様の第1から第9の実施方法のいずれか1つに関連して、第1の態様の第10の実施方法において、前記最新のフレームの前記復号されたパラメータは前記最新のフレームの代数的コードブックを含み、前記最新のフレームが冗長復号フレームである場合に、もし前記最新のフレームの前記次のフレームの前記信号クラスが無声音であり、前記最新のフレームの前記前のフレームの前記スペクトル傾き係数が前記事前設定されたスペクトル傾き係数しきい値より小さいとともに、前記最新のフレームのうちの少なくとも1つのサブフレームの代数的コードブックが0であるならば、前記最新のフレームの前記復号されたパラメータに対する後処理を実行する前記ステップは、前記最新のフレームの前記最新のサブフレームの前記前のサブフレームのランダムノイズ又は非ゼロ代数的コードブックを前記最新のフレームの全て0のサブフレームの代数的コードブックとして使用するステップを含む。
第1の態様、又は第1の態様の第1から第10の実施方法のいずれか1つに関連して、第1の態様の第11の実施方法において、前記最新のフレームは冗長復号フレームであるとともに、前記復号されたパラメータは帯域幅拡張エンベロープを含み、前記最新のフレームが無声音フレームではないとともに、前記最新のフレームの前記次のフレームが無声音フレームである場合に、もし前記最新のフレームの前記前のフレームの前記スペクトル傾き係数が前記事前設定されたスペクトル傾き係数しきい値より小さいならば、前記最新のフレームの前記復号されたパラメータに対する後処理を実行する前記ステップは、前記最新のフレームの前記帯域幅拡張エンベロープに対する補正を、前記最新のフレームの前記前のフレームの帯域幅拡張エンベロープ及び前記最新のフレームの前記前のフレームの前記スペクトル傾き係数のうちの少なくとも1つに従って実行するステップを含む。
第1の態様の第11の実施方法に関連して、第1の態様の第12の実施方法において、前記最新のフレームの前記帯域幅拡張エンベロープに対して補正が実行される場合に使用される補正係数は、前記最新のフレームの前記前のフレームの前記スペクトル傾き係数に反比例するとともに、前記最新のフレームの前記帯域幅拡張エンベロープに対する前記最新のフレームの前記前のフレームの前記帯域幅拡張エンベロープの比率に正比例する。
第1の態様、又は第1の態様の第1から第10の実施方法のいずれか1つに関連して、第1の態様の第13の実施方法において、前記最新のフレームは冗長復号フレームであるとともに、前記復号されたパラメータは帯域幅拡張エンベロープを含み、前記最新のフレームの前記前のフレームが通常復号フレームである場合に、もし前記最新のフレームの前記信号クラスが前記最新のフレームの前記前のフレームの前記信号クラスと同じであるか、又は前記最新のフレームが冗長復号の予測モードであるならば、前記最新のフレームの前記復号されたパラメータに対する後処理を実行する前記ステップは、前記最新のフレームの前記前のフレームの帯域幅拡張エンベロープを使用して前記最新のフレームの前記帯域幅拡張エンベロープに対する調整を実行するステップを含む。
第2の態様によれば、音声/オーディオビットストリームを復号するためのデコーダが提供され、当該デコーダは、最新のフレームが通常復号フレーム又は冗長復号フレームであるかどうかを判定するように構成される判定ユニットと、前記判定ユニットが前記最新のフレームは通常復号フレーム又は冗長復号フレームであると判定する場合に、構文解析を用いて前記最新のフレームの復号されたパラメータを取得するように構成される構文解析ユニットと、前記構文解析ユニットにより取得された前記最新のフレームの前記復号されたパラメータに対する後処理を実行して前記最新のフレームの後処理された復号されたパラメータを取得するように構成される後処理ユニットと、前記後処理ユニットにより取得された前記最新のフレームの前記後処理された復号されたパラメータを使用して音声/オーディオ信号を再構成するように構成される再構成ユニットとを含む。
第2の態様に関連して、第2の態様の第1の実施方法において、前記後処理ユニットは、前記最新のフレームの前記復号されたパラメータが前記最新のフレームのスペクトルペアパラメータを含む場合に、前記最新のフレームの前記スペクトルペアパラメータ及び前記最新のフレームの前のフレームのスペクトルペアパラメータを使用して前記最新のフレームの後処理されたスペクトルペアパラメータを取得するように具体的に構成される。
第2の態様の第1の実施方法に関連して、第2の態様の第2の実施方法において、前記後処理ユニットは、下記の式、lsp[k]=α*lsp_old[k]+δ*lsp_new[k]、0≦k≦Mを使用して、計算を通して前記最新のフレームの前記後処理されたスペクトルペアパラメータを取得するように具体的に構成され、ここで、lsp[k]は前記最新のフレームの前記後処理されたスペクトルペアパラメータであり、lsp_old[k]は前記前のフレームの前記スペクトルペアパラメータであり、lsp_new[k]は前記最新のフレームの前記スペクトルペアパラメータであり、Mはスペクトルペアパラメータの次数であり、αは前記前のフレームの前記スペクトルペアパラメータの加重値であり、δは前記最新のフレームの前記スペクトルペアパラメータの加重値であり、α≧0、δ≧0、及びα+δ=1である。
第2の態様の第1の実施方法に関連して、第2の態様の第3の実施方法において、前記後処理ユニットは、下記の式、lsp[k]=α*st−>lsp_old[k]+β*lsp_mid[k]+δ*lsp_new[k]、0≦k≦Mを使用して、計算を通して前記最新のフレームの前記後処理されたスペクトルペアパラメータを取得するように具体的に構成され、ここで、lsp[k]は前記最新のフレームの前記後処理されたスペクトルペアパラメータであり、lsp_old[k]は前記前のフレームの前記スペクトルペアパラメータであり、lsp_mid[k]は前記最新のフレームの前記スペクトルペアパラメータの中間値であり、lsp_new[k]は前記最新のフレームの前記スペクトルペアパラメータであり、Mはスペクトルペアパラメータの次数であり、αは前記前のフレームの前記スペクトルペアパラメータの加重値であり、βは前記最新のフレームの前記スペクトルペアパラメータの前記中間値の加重値であり、δは前記最新のフレームの前記スペクトルペアパラメータの加重値であり、α≧0、β≧0、δ≧0、及びα+β+δ=1である。
第2の態様の第3の実施方法に関連して、第2の態様の第4の実施方法において、前記最新のフレームが冗長復号フレームであるとともに、前記最新のフレームの前記信号クラスが無声音ではない場合に、もし前記最新のフレームの前記次のフレームの前記信号クラスが無声音であるか、又は、前記最新のフレームの前記前のフレームの前記スペクトル傾き係数が前記事前設定されたスペクトル傾き係数しきい値より小さいか、又は、前記最新のフレームの前記次のフレームの前記信号クラスが無声音であるとともに、前記最新のフレームの前記前のフレームの前記スペクトル傾き係数が前記事前設定されたスペクトル傾き係数しきい値より小さいならば、βの値は、0であるか又は設定しきい値より小さい。
第2の態様の第2から第4の実施方法のいずれか1つに関連して、第2の態様の第5の実施方法において、前記最新のフレームの前記信号クラスが無声音であり、前記最新のフレームの前記前のフレームが冗長復号フレームであり、そして前記最新のフレームの前記前のフレームの信号クラスが無声音ではない場合に、αの値は、0であるか又は設定しきい値より小さい。
第2の態様の第2から第5の実施方法のいずれか1つに関連して、第2の態様の第6の実施方法において、前記最新のフレームが冗長復号フレームであるとともに、前記最新のフレームの前記信号クラスが無声音ではない場合に、もし前記最新のフレームの前記次のフレームの前記信号クラスが無声音であるか、又は、前記最新のフレームの前記前のフレームの前記スペクトル傾き係数が前記事前設定されたスペクトル傾き係数しきい値より小さいか、又は、前記最新のフレームの前記次のフレームの前記信号クラスが無声音であるとともに、前記最新のフレームの前記前のフレームの前記スペクトル傾き係数が前記事前設定されたスペクトル傾き係数しきい値より小さいならば、δの値は、0であるか又は設定しきい値より小さい。
第2の態様の第4又は第6の実施方法のいずれか1つに関連して、第2の態様の第7の実施方法において、前記スペクトル傾き係数は正又は負であり得るとともに、より小さいスペクトル傾き係数は、前記スペクトル傾き係数に対応するフレームの、より無声音になる傾向がある信号クラスを示す。
第2の態様、又は第2の態様の第1から第7の実施方法のいずれか1つに関連して、第2の態様の第8の実施方法において、前記後処理ユニットは、前記最新のフレームの前記復号されたパラメータが前記最新のフレームの適応コードブック利得を含むとともに、前記最新のフレームが冗長復号フレームである場合に、もし前記最新のフレームの前記次のフレームが無声音フレームであるか、又は、前記最新のフレームの前記次のフレームの次のフレームが無声音フレームであるとともに、前記最新のフレームの最新のサブフレームの代数的コードブックが、前記最新のサブフレームの前のサブフレームの代数的コードブック又は前記最新のフレームの前記前のフレームの代数的コードブックの第1の数量倍であるならば、前記最新のフレームの前記最新のサブフレームの適応コードブック利得を減らすように具体的に構成される。
第2の態様、又は第2の態様の第1から第7の実施方法のいずれか1つに関連して、第2の態様の第9の実施方法において、前記後処理ユニットは、前記最新のフレームの前記復号されたパラメータが前記最新のフレームの適応コードブック利得を含み、前記最新のフレーム、又は前記最新のフレームの前記前のフレームが冗長復号フレームであり、前記最新のフレームの前記信号クラスが一般音であるとともに、前記最新のフレームの前記次のフレームの前記信号クラスが有声音であるか、又は、前記最新のフレームの前記前のフレームの前記信号クラスが一般音であるとともに、前記最新のフレームの前記信号クラスが有声音であり、そして、前記最新のフレームにおける1つのサブフレームの代数的コードブックが第2の数量倍だけ前記1つのサブフレームの前のサブフレームの代数的コードブックと異なるか、又は、前記最新のフレームにおける1つのサブフレームの代数的コードブックが第2の数量倍だけ前記最新のフレームの前記前のフレームの代数的コードブックと異なる場合に、前記最新のフレームの最新のサブフレームの適応コードブック利得を、前記最新のフレームの前記最新のサブフレームの隣接するサブフレームの代数的コードブックに対する前記最新のフレームの前記最新のサブフレームの代数的コードブックの比率、前記最新のフレームの前記最新のサブフレームの前記隣接するサブフレームの適応コードブック利得に対する前記最新のフレームの前記最新のサブフレームの適応コードブック利得の比率、及び前記最新のフレームの前記前のフレームの前記代数的コードブックに対する前記最新のフレームの前記最新のサブフレームの前記代数的コードブックの比率のうちの少なくとも1つに従って調整するように具体的に構成される。
第2の態様、又は第2の態様の第1から第9の実施方法のいずれか1つに関連して、第2の態様の第10の実施方法において、前記後処理ユニットは、前記最新のフレームの前記復号されたパラメータが前記最新のフレームの代数的コードブックを含み、前記最新のフレームが冗長復号フレームであり、前記最新のフレームの前記次のフレームの前記信号クラスが無声音であり、前記最新のフレームの前記前のフレームの前記スペクトル傾き係数が前記事前設定されたスペクトル傾き係数しきい値より小さいとともに、前記最新のフレームのうちの少なくとも1つのサブフレームの代数的コードブックが0である場合に、前記最新のフレームの前記最新のサブフレームの前記前のサブフレームのランダムノイズ又は非ゼロ代数的コードブックを前記最新のフレームの全て0のサブフレームの代数的コードブックとして使用するように具体的に構成される。
第2の態様、又は第2の態様の第1から第10の実施方法のいずれか1つに関連して、第2の態様の第11の実施方法において、前記後処理ユニットは、前記最新のフレームが冗長復号フレームであるとともに、前記復号されたパラメータが帯域幅拡張エンベロープを含み、前記最新のフレームが無声音フレームではないとともに、前記最新のフレームの前記次のフレームが無声音フレームであり、前記最新のフレームの前記前のフレームの前記スペクトル傾き係数が前記事前設定されたスペクトル傾き係数しきい値より小さい場合に、前記最新のフレームの前記帯域幅拡張エンベロープに対する補正を、前記最新のフレームの前記前のフレームの帯域幅拡張エンベロープ及び前記最新のフレームの前記前のフレームの前記スペクトル傾き係数のうちの少なくとも1つに従って実行するように具体的に構成される。
第2の態様の第11の実施方法に関連して、第2の態様の第12の実施方法において、前記後処理ユニットが前記最新のフレームの前記帯域幅拡張エンベロープに対する補正を実行する場合に使用される補正係数は、前記最新のフレームの前記前のフレームの前記スペクトル傾き係数に反比例するとともに、前記最新のフレームの前記帯域幅拡張エンベロープに対する前記最新のフレームの前記前のフレームの前記帯域幅拡張エンベロープの比率に正比例する。
第2の態様、又は第2の態様の第2又は第10の実施方法のいずれか1つに関連して、第2の態様の第13の実施方法において、前記後処理ユニットは、前記最新のフレームが冗長復号フレームであり、前記復号されたパラメータが帯域幅拡張エンベロープを含み、前記最新のフレームの前記前のフレームが通常復号フレームであるとともに、前記最新のフレームの前記信号クラスが前記最新のフレームの前記前のフレームの前記信号クラスと同じであるか、又は前記最新のフレームが冗長復号の予測モードである場合に、前記最新のフレームの前記前のフレームの帯域幅拡張エンベロープを使用して前記最新のフレームの前記帯域幅拡張エンベロープに対する調整を実行するように具体的に構成される。
第3の態様によれば、音声/オーディオビットストリームを復号するためのデコーダが提供され、当該デコーダは、プロセッサとメモリとを備え、前記プロセッサは、最新のフレームが通常復号フレーム又は冗長復号フレームであるかどうかを判定し、もし前記最新のフレームが通常復号フレーム又は冗長復号フレームであるならば、構文解析を用いて前記最新のフレームの復号されたパラメータを取得し、前記最新のフレームの前記復号されたパラメータに対する後処理を実行して前記最新のフレームの後処理された復号されたパラメータを取得するとともに、前記最新のフレームの前記後処理された復号されたパラメータを使用して音声/オーディオ信号を再構成するように構成される。
第3の態様に関連して、第3の態様の第1の実施方法において、前記最新のフレームの前記復号されたパラメータは前記最新のフレームのスペクトルペアパラメータを含み、前記プロセッサは、前記最新のフレームの前記スペクトルペアパラメータ及び前記最新のフレームの前のフレームのスペクトルペアパラメータを使用して前記最新のフレームの後処理されたスペクトルペアパラメータを取得するように構成される。
第3の態様の第1の実施方法に関連して、第3の態様の第2の実施方法において、前記プロセッサは、下記の式、lsp[k]=α*lsp_old[k]+δ*lsp_new[k]、0≦k≦Mを具体的に使用して、計算を通して前記最新のフレームの前記後処理されたスペクトルペアパラメータを取得するように構成され、ここで、lsp[k]は前記最新のフレームの前記後処理されたスペクトルペアパラメータであり、lsp_old[k]は前記前のフレームの前記スペクトルペアパラメータであり、lsp_new[k]は前記最新のフレームの前記スペクトルペアパラメータであり、Mはスペクトルペアパラメータの次数であり、αは前記前のフレームの前記スペクトルペアパラメータの加重値であり、δは前記最新のフレームの前記スペクトルペアパラメータの加重値であり、α≧0、δ≧0、及びα+δ=1である。
第3の態様の第1の実施方法に関連して、第3の態様の第3の実施方法において、前記プロセッサは、下記の式、lsp[k]=α*lsp_old[k]+β*lsp_mid[k]+δ*lsp_new[k]、0≦k≦Mを具体的に使用して、計算を通して前記最新のフレームの前記後処理されたスペクトルペアパラメータを取得するように構成され、ここで、lsp[k]は前記最新のフレームの前記後処理されたスペクトルペアパラメータであり、lsp_old[k]は前記前のフレームの前記スペクトルペアパラメータであり、lsp_mid[k]は前記最新のフレームの前記スペクトルペアパラメータの中間値であり、lsp_new[k]は前記最新のフレームの前記スペクトルペアパラメータであり、Mはスペクトルペアパラメータの次数であり、αは前記前のフレームの前記スペクトルペアパラメータの加重値であり、βは前記最新のフレームの前記スペクトルペアパラメータの前記中間値の加重値であり、δは前記最新のフレームの前記スペクトルペアパラメータの加重値であり、α≧0、β≧0、δ≧0、及びα+β+δ=1である。
第3の態様の第3の実施方法に関連して、第3の態様の第4の実施方法において、前記最新のフレームが冗長復号フレームであるとともに、前記最新のフレームの前記信号クラスが無声音ではない場合に、もし前記最新のフレームの前記次のフレームの前記信号クラスが無声音であるか、又は、前記最新のフレームの前記前のフレームの前記スペクトル傾き係数が前記事前設定されたスペクトル傾き係数しきい値より小さいか、又は、前記最新のフレームの前記次のフレームの前記信号クラスが無声音であるとともに、前記最新のフレームの前記前のフレームの前記スペクトル傾き係数が前記事前設定されたスペクトル傾き係数しきい値より小さいならば、βの値は、0であるか又は設定しきい値より小さい。
第3の態様の第2から第4の実施方法のいずれか1つに関連して、第3の態様の第5の実施方法において、前記最新のフレームの前記信号クラスが無声音であり、前記最新のフレームの前記前のフレームが冗長復号フレームであり、そして前記最新のフレームの前記前のフレームの信号クラスが無声音ではない場合に、αの値は、0であるか又は設定しきい値より小さい。
第3の態様の第2から第5の実施方法のいずれか1つに関連して、第3の態様の第6の実施方法において、前記最新のフレームが冗長復号フレームであるとともに、前記最新のフレームの前記信号クラスが無声音ではない場合に、もし前記最新のフレームの前記次のフレームの前記信号クラスが無声音であるか、又は、前記最新のフレームの前記前のフレームの前記スペクトル傾き係数が前記事前設定されたスペクトル傾き係数しきい値より小さいか、又は、前記最新のフレームの前記次のフレームの前記信号クラスが無声音であるとともに、前記最新のフレームの前記前のフレームの前記スペクトル傾き係数が前記事前設定されたスペクトル傾き係数しきい値より小さいならば、δの値は、0であるか又は設定しきい値より小さい。
第3の態様の第4又は第6の実施方法のいずれか1つに関連して、第3の態様の第7の実施方法において、前記スペクトル傾き係数は正又は負であり得るとともに、より小さいスペクトル傾き係数は、前記スペクトル傾き係数に対応するフレームの、より無声音になる傾向がある信号クラスを示す。
第3の態様、又は第3の態様の第1から第7の実施方法のいずれか1つに関連して、第3の態様の第8の実施方法において、前記最新のフレームの前記復号されたパラメータは前記最新のフレームの適応コードブック利得を含み、前記最新のフレームが冗長復号フレームである場合に、もし前記最新のフレームの前記次のフレームが無声音フレームであるか、又は、前記最新のフレームの前記次のフレームの次のフレームが無声音フレームであるとともに、前記最新のフレームの最新のサブフレームの代数的コードブックが、前記最新のサブフレームの前のサブフレームの代数的コードブック又は前記最新のフレームの前記前のフレームの代数的コードブックの第1の数量倍であるならば、前記プロセッサは、前記最新のフレームの前記最新のサブフレームの適応コードブック利得を減らすように構成される。
第3の態様、又は第3の態様の第1から第7の実施方法のいずれか1つに関連して、第3の態様の第9の実施方法において、前記最新のフレームの前記復号されたパラメータは前記最新のフレームの適応コードブック利得を含み、前記最新のフレーム、又は前記最新のフレームの前記前のフレームが冗長復号フレームである場合に、もし前記最新のフレームの前記信号クラスが一般音であるとともに、前記最新のフレームの前記次のフレームの前記信号クラスが有声音であるか、又は、前記最新のフレームの前記前のフレームの前記信号クラスが一般音であるとともに、前記最新のフレームの前記信号クラスが有声音であり、そして、前記最新のフレームにおける1つのサブフレームの代数的コードブックが第2の数量倍だけ前記1つのサブフレームの前のサブフレームの代数的コードブックと異なるか、又は、前記最新のフレームにおける1つのサブフレームの代数的コードブックが第2の数量倍だけ前記最新のフレームの前記前のフレームの代数的コードブックと異なるならば、前記プロセッサは、前記最新のフレームの最新のサブフレームの適応コードブック利得を、前記最新のフレームの前記最新のサブフレームの隣接するサブフレームの代数的コードブックに対する前記最新のフレームの前記最新のサブフレームの代数的コードブックの比率、前記最新のフレームの前記最新のサブフレームの前記隣接するサブフレームの適応コードブック利得に対する前記最新のフレームの前記最新のサブフレームの適応コードブック利得の比率、及び前記最新のフレームの前記前のフレームの前記代数的コードブックに対する前記最新のフレームの前記最新のサブフレームの前記代数的コードブックの比率のうちの少なくとも1つに従って調整するように構成される。
第3の態様、又は第3の態様の第1から第9の実施方法のいずれか1つに関連して、第3の態様の第10の実施方法において、前記最新のフレームの前記復号されたパラメータは前記最新のフレームの代数的コードブックを含み、前記最新のフレームが冗長復号フレームである場合に、もし前記最新のフレームの前記次のフレームの前記信号クラスが無声音であり、前記最新のフレームの前記前のフレームの前記スペクトル傾き係数が前記事前設定されたスペクトル傾き係数しきい値より小さいとともに、前記最新のフレームのうちの少なくとも1つのサブフレームの代数的コードブックが0であるならば、前記プロセッサは、前記最新のフレームの前記最新のサブフレームの前記前のサブフレームのランダムノイズ又は非ゼロ代数的コードブックを前記最新のフレームの全て0のサブフレームの代数的コードブックとして使用するように構成される。
第3の態様、又は第3の態様の第1から第10の実施方法のいずれか1つに関連して、第3の態様の第11の実施方法において、前記最新のフレームは冗長復号フレームであるとともに、前記復号されたパラメータは帯域幅拡張エンベロープを含み、前記最新のフレームが無声音フレームではないとともに、前記最新のフレームの前記次のフレームが無声音フレームである場合に、もし前記最新のフレームの前記前のフレームの前記スペクトル傾き係数が前記事前設定されたスペクトル傾き係数しきい値より小さいならば、前記プロセッサは、前記最新のフレームの前記帯域幅拡張エンベロープに対する補正を、前記最新のフレームの前記前のフレームの帯域幅拡張エンベロープ及び前記最新のフレームの前記前のフレームの前記スペクトル傾き係数のうちの少なくとも1つに従って実行するように構成される。
第3の態様の第11の実施方法に関連して、第3の態様の第12の実施方法において、前記最新のフレームの前記帯域幅拡張エンベロープに対して補正が実行される場合に使用される補正係数は、前記最新のフレームの前記前のフレームの前記スペクトル傾き係数に反比例するとともに、前記最新のフレームの前記帯域幅拡張エンベロープに対する前記最新のフレームの前記前のフレームの前記帯域幅拡張エンベロープの比率に正比例する。
第3の態様、又は第3の態様の第1から第10の実施方法のいずれか1つに関連して、第3の態様の第13の実施方法において、前記最新のフレームは冗長復号フレームであるとともに、前記復号されたパラメータは帯域幅拡張エンベロープを含み、前記最新のフレームの前記前のフレームが通常復号フレームである場合に、もし前記最新のフレームの前記信号クラスが前記最新のフレームの前記前のフレームの前記信号クラスと同じであるか、又は前記最新のフレームが冗長復号の予測モードであるならば、前記プロセッサは、前記最新のフレームの前記前のフレームの帯域幅拡張エンベロープを使用して前記最新のフレームの前記帯域幅拡張エンベロープに対する調整を実行するように構成される。
本発明のいくつかの実施例において、構文解析を用いて最新のフレームの復号されたパラメータを取得したあとで、デコーダ側は、最新のフレームの復号されたパラメータに対する後処理を実行するとともに、最新のフレームの後処理された復号されたパラメータを使用して音声/オーディオ信号を再構成することができ、その結果、冗長復号フレームと通常復号フレームとの間で復号された信号が遷移する場合に、安定した品質が取得されることができ、出力される音声/オーディオ信号の品質を改善する。
本発明の実施例における技術的解決法をより明確に説明するために、下記は、実施例を説明するために必要とされる添付図面を簡単に説明する。明らかに、下記の説明における添付図面は本発明の単にいくつかの実施例を表すとともに、当業者は、創造的な努力なしでこれらの添付図面からさらに他の図面を導き出し得る。
本発明の一実施例による音声/オーディオビットストリームを復号するための方法の概要のフローチャートである。 本発明の別の実施例による音声/オーディオビットストリームを復号するための方法の概要のフローチャートである。 本発明の一実施例による音声/オーディオビットストリームを復号するためのデコーダの概略の構造図である。 本発明の別の実施例による音声/オーディオビットストリームを復号するためのデコーダの概略の構造図である。
本発明における技術的解決法を当業者により良く理解させるために、下記は、本発明の実施例における添付図面を参照して、本発明の実施例における技術的解決法を明確かつ十分に説明する。明らかに、説明される実施例は本発明の実施例の全てではなく単に一部である。創作的な努力なしで本発明の実施例に基づいて当業者により取得される他の全ての実施例は、本発明の保護範囲に含まれるものとする。
下記は、それぞれの説明を詳細に提供する。
本発明の明細書、請求項、及び添付図面において、“第1”及び“第2”という用語は、同様のオブジェクトを区別することを意図しているが、必ずしも特定の順序又はシーケンスを示していない。このように呼ばれるデータは、ここで説明された本発明の実施例が、例えば、ここで例示又は説明された順序以外の順序で実施されることができるように、適切な状況下で交換可能である、ということが理解されるべきである。さらに、“含む(include)”、“包含する(contain)”という用語、及び、あらゆる他の変形は、非排他的含有物をカバーすることを意図しており、例えば、ステップ又はユニットのリストを含むプロセス、方法、システム、製品若しくは装置は、必ずしもそれらのステップ又はユニットに限定されるものではなく、明示的に記載されていないか、又はそのようなプロセス、方法、システム、製品若しくは装置に固有の他のステップ又はユニットを含み得る。
本発明のこの実施例において提供される音声/オーディオビットストリームを復号するための方法が最初に説明される。本発明のこの実施例において提供される音声/オーディオビットストリームを復号するための方法は、デコーダにより実行される。デコーダは、音声を出力する必要があるあらゆる装置、例えば、携帯電話、ノート型パソコン、タブレットコンピュータ又はパーソナルコンピュータであり得る。
図1は、本発明の一実施例による音声/オーディオビットストリームを復号するための方法の手順を説明する。この実施例は、下記のステップを含む。
101:最新のフレームが通常復号フレーム又は冗長復号フレームであるかどうかを判定する。
通常復号フレームは、最新のフレームに関する情報が、最新のフレームのビットストリームから復号によって直接取得されることができることを意味する。冗長復号フレームは、最新のフレームに関する情報が、最新のフレームのビットストリームから復号によって直接取得されることはできないが、しかし最新のフレームの冗長なビットストリーム情報が、他のフレームのビットストリームから取得されることができることを意味する。
本発明の一実施例において、最新のフレームが通常復号フレームである場合に、本発明のこの実施例において提供される方法は、最新のフレームの前のフレームが冗長復号フレームである場合にのみ実行される。最新のフレームの前のフレーム、及び最新のフレームは、2つの直接に隣接するフレームである。本発明の別の実施例において、最新のフレームが通常復号フレームである場合に、本発明のこの実施例において提供される方法は、最新のフレームの前の特定の量のフレームの中に冗長復号フレームが存在する場合にのみ実行される。特定の量は、必要に応じて、例えば、2、3、4又は10に設定され得る。
102:もし最新のフレームが通常復号フレーム又は冗長復号フレームであるならば、構文解析を用いて最新のフレームの復号されたパラメータを取得する。
最新のフレームの復号されたパラメータは、スペクトルペアパラメータ、適応コードブック利得(英文:gain_pit)、代数的コードブック、及び帯域幅拡張エンベロープのうちの少なくとも1つを含み得るとともに、スペクトルペアパラメータは、線形スペクトルペア(英文:linear spectral pairs、略してLSP)パラメータ、及びイミタンススペクトルペア(英文:immittance spectral pairs、略してISP)パラメータのうちの少なくとも1つであり得る。本発明のこの実施例では、後処理は復号されたパラメータのうちのいずれか1つのパラメータのみに対して実行され得るか、又は後処理は全ての復号されたパラメータに対して実行され得る、ということが理解され得る。具体的には、後処理のために、いくつのパラメータが選択されるとともに、どのパラメータが選択されるかは、アプリケーションシナリオ及び環境に応じて選択されることができ、それらは、本発明のこの実施例では限定されない。
最新のフレームが通常復号フレームである場合に、最新のフレームの復号されたパラメータを取得するように、最新のフレームに関する情報は、最新のフレームのビットストリームから復号によって直接取得されることができる。最新のフレームが冗長復号フレームである場合に、最新のフレームの復号されたパラメータは、構文解析を用いて別のフレームのビットストリームにおける最新のフレームの冗長なビットストリーム情報に従って取得されることができる。
103:最新のフレームの復号されたパラメータに対する後処理を実行して最新のフレームの後処理された復号されたパラメータを取得する。
異なる復号されたパラメータに対して異なる後処理が実行され得る。例えば、スペクトルペアパラメータに対して実行される後処理は、最新のフレームの後処理されたスペクトルペアパラメータを取得するために、適応重み付けを実行するように、最新のフレームのスペクトルペアパラメータ、及び最新のフレームの前のフレームのスペクトルペアパラメータを使用することになり得る。例えば、適応コードブック利得に対して実行される後処理は、適応コードブック利得に対する調整、例えば減衰を実行することになり得る。
本発明のこの実施例は、特定の後処理に対して制限を課さない。具体的には、どのタイプの後処理が実行されるかは、必要に応じて、又はアプリケーション環境及びシナリオに従って、設定され得る。
104:最新のフレームの後処理された復号されたパラメータを使用して音声/オーディオ信号を再構成する。
この実施例では、構文解析を用いて最新のフレームの復号されたパラメータを取得したあとで、デコーダ側は、最新のフレームの復号されたパラメータに対する後処理を実行するとともに、最新のフレームの後処理された復号されたパラメータを使用して音声/オーディオ信号を再構成することができ、その結果、冗長復号フレームと通常復号フレームとの間で復号された信号が遷移する場合に、安定した品質が取得されることができ、出力される音声/オーディオ信号の品質を改善する、ということが上記から理解されることができる。
本発明の一実施例において、最新のフレームの復号されたパラメータは最新のフレームのスペクトルペアパラメータを含み、最新のフレームの復号されたパラメータに対する後処理を実行するステップは、最新のフレームのスペクトルペアパラメータ及び最新のフレームの前のフレームのスペクトルペアパラメータを使用して最新のフレームの後処理されたスペクトルペアパラメータを取得するステップを含み得る。具体的には、最新のフレームの後処理されたスペクトルペアパラメータを取得するために、最新のフレームのスペクトルペアパラメータ及び最新のフレームの前のフレームのスペクトルペアパラメータに対して適応重み付けが実行される。具体的には、本発明の一実施例において、計算を通して最新のフレームの後処理されたスペクトルペアパラメータを取得するために、下記の式、lsp[k]=α*lsp_old[k]+δ*lsp_new[k]、0≦k≦Mが使用されることができ、ここで、lsp[k]は最新のフレームの後処理されたスペクトルペアパラメータであり、lsp_old[k]は前のフレームのスペクトルペアパラメータであり、lsp_new[k]は最新のフレームのスペクトルペアパラメータであり、Mはスペクトルペアパラメータの次数であり、αは前のフレームのスペクトルペアパラメータの加重値であり、δは最新のフレームのスペクトルペアパラメータの加重値であり、α≧0、δ≧0、及びα+δ=1である。
本発明の別の実施例において、計算を通して最新のフレームの後処理されたスペクトルペアパラメータを取得するために、下記の式、lsp[k]=α*lsp_old[k]+β*lsp_mid[k]+δ*lsp_new[k]、0≦k≦Mが使用されることができ、ここで、lsp[k]は最新のフレームの後処理されたスペクトルペアパラメータであり、lsp_old[k]は前のフレームのスペクトルペアパラメータであり、lsp_mid[k]は最新のフレームのスペクトルペアパラメータの中間値であり、lsp_new[k]は最新のフレームのスペクトルペアパラメータであり、Mはスペクトルペアパラメータの次数であり、αは前のフレームのスペクトルペアパラメータの加重値であり、βは最新のフレームのスペクトルペアパラメータの中間値の加重値であり、δは最新のフレームのスペクトルペアパラメータの加重値であり、α≧0、β≧0、δ≧0、及びα+β+δ=1である。
前述の式におけるα、β、及びδの値は、異なるアプリケーション環境及びシナリオに従って変化し得る。例えば、最新のフレームの信号クラスが無声音であり、最新のフレームの前のフレームが冗長復号フレームであり、そして最新のフレームの前のフレームの信号クラスが無声音ではない場合に、αの値は、0であるか又は設定しきい値(α_TRESH)より小さく、ここで、α_TRESHの値はほぼ0に等しくなり得る。最新のフレームが冗長復号フレームであるとともに、最新のフレームの信号クラスが無声音ではない場合に、もし最新のフレームの次のフレームの信号クラスが無声音であるか、又は、最新のフレームの前のフレームのスペクトル傾き係数が事前設定されたスペクトル傾き係数しきい値より小さいか、又は、最新のフレームの次のフレームの信号クラスが無声音であるとともに、最新のフレームの前のフレームのスペクトル傾き係数が事前設定されたスペクトル傾き係数しきい値より小さいならば、βの値は、0であるか又は設定しきい値(β_TRESH)より小さく、ここで、β_TRESHの値はほぼ0に等しくなり得る。最新のフレームが冗長復号フレームであるとともに、最新のフレームの信号クラスが無声音ではない場合に、もし最新のフレームの次のフレームの信号クラスが無声音であるか、又は、最新のフレームの前のフレームのスペクトル傾き係数が事前設定されたスペクトル傾き係数しきい値より小さいか、又は、最新のフレームの次のフレームの信号クラスが無声音であるとともに、最新のフレームの前のフレームのスペクトル傾き係数が事前設定されたスペクトル傾き係数しきい値より小さいならば、δの値は、0であるか又は設定しきい値(δ_TRESH)より小さく、ここで、δ_TRESHの値はほぼ0に等しくなり得る。
スペクトル傾き係数は正又は負であり得るとともに、フレームのより小さいスペクトル傾き係数は、フレームの、より無声音になる傾向がある信号クラスを示す。
最新のフレームの信号クラスは、無声音(UNVOICED)、有声音(VOICED)、一般音(GENERIC)、遷移音(TRANSITION)、無音(INACTIVE)、又は同様のものであり得る。
したがって、スペクトル傾き係数しきい値の値については、異なる値が異なるアプリケーション環境及びシナリオに従って設定されることができ、例えば、0.16、0.15、0.165、0.1、0.161、又は0.159に設定され得る。
本発明の別の実施例において、最新のフレームの復号されたパラメータは最新のフレームの適応コードブック利得を含む。最新のフレームが冗長復号フレームである場合に、もし最新のフレームの次のフレームが無声音フレームであるか、又は、最新のフレームの次のフレームの次のフレームが無声音フレームであるとともに、最新のフレームの最新のサブフレームの代数的コードブックが、最新のサブフレームの前のサブフレームの代数的コードブック又は最新のフレームの前のフレームの代数的コードブックの第1の数量倍であるならば、最新のフレームの復号されたパラメータに対する後処理を実行するステップは、最新のフレームの最新のサブフレームの適応コードブック利得を減らすステップを含み得る。最新のフレーム、又は最新のフレームの前のフレームが冗長復号フレームである場合に、もし最新のフレームの信号クラスが一般音であるとともに、最新のフレームの次のフレームの信号クラスが有声音であるか、又は、最新のフレームの前のフレームの信号クラスが一般音であるとともに、最新のフレームの信号クラスが有声音であり、そして、最新のフレームにおける1つのサブフレームの代数的コードブックが第2の数量倍だけ1つのサブフレームの前のサブフレームの代数的コードブックと異なるか、又は、最新のフレームにおける1つのサブフレームの代数的コードブックが第2の数量倍だけ最新のフレームの前のフレームの代数的コードブックと異なるならば、最新のフレームの復号されたパラメータに対する後処理を実行するステップは、最新のフレームの最新のサブフレームの適応コードブック利得を、最新のフレームの最新のサブフレームの隣接するサブフレームの代数的コードブックに対する最新のフレームの最新のサブフレームの代数的コードブックの比率、最新のフレームの最新のサブフレームの隣接するサブフレームの適応コードブック利得に対する最新のフレームの最新のサブフレームの適応コードブック利得の比率、及び最新のフレームの前のフレームの代数的コードブックに対する最新のフレームの最新のサブフレームの代数的コードブックの比率
のうちの少なくとも1つに従って調整するステップを含む。
第1の数量及び第2の数量の値は、特定のアプリケーション環境及びシナリオに従って設定され得る。それらの値は、整数であり得るか、又は非整数であり得るとともに、ここで、第1の数量及び第2の数量の値は、同じであり得るか、又は異なり得る。例えば、第1の数量の値は、2、2.5、3、3.4、又は4であり得るとともに、第2の数量の値は、2、2.6、3、3.5、又は4であり得る。
最新のフレームの最新のサブフレームの適応コードブック利得が減らされる場合に使用される減衰率については、異なる値が異なるアプリケーション環境及びシナリオに従って設定され得る。
本発明の別の実施例において、最新のフレームの復号されたパラメータは最新のフレームの代数的コードブックを含む。最新のフレームが冗長復号フレームである場合に、もし最新のフレームの次のフレームの信号クラスが無声音であり、最新のフレームの前のフレームのスペクトル傾き係数が事前設定されたスペクトル傾き係数しきい値より小さいとともに、最新のフレームのうちの少なくとも1つのサブフレームの代数的コードブックが0であるならば、最新のフレームの復号されたパラメータに対する後処理を実行するステップは、最新のフレームの最新のサブフレームの前のサブフレームのランダムノイズ又は非ゼロ代数的コードブックを最新のフレームの全て0のサブフレームの代数的コードブックとして使用するステップを含む。スペクトル傾き係数しきい値については、異なる値が異なるアプリケーション環境又はシナリオに従って設定されることができ、例えば、0.16、0.15、0.165、0.1、0.161、又は0.159に設定され得る。
本発明の別の実施例において、最新のフレームの復号されたパラメータは最新のフレームの帯域幅拡張エンベロープを含む。最新のフレームが冗長復号フレームであり、最新のフレームが無声音フレームではないとともに、最新のフレームの次のフレームが無声音フレームである場合に、もし最新のフレームの前のフレームのスペクトル傾き係数が事前設定されたスペクトル傾き係数しきい値より小さいならば、最新のフレームの復号されたパラメータに対する後処理を実行するステップは、最新のフレームの帯域幅拡張エンベロープに対する補正を、最新のフレームの前のフレームの帯域幅拡張エンベロープ及びスペクトル傾き係数のうちの少なくとも1つに従って実行するステップを含み得る。最新のフレームの帯域幅拡張エンベロープに対して補正が実行される場合に使用される補正係数は、最新のフレームの前のフレームのスペクトル傾き係数に反比例するとともに、最新のフレームの帯域幅拡張エンベロープに対する最新のフレームの前のフレームの帯域幅拡張エンベロープの比率に正比例する。スペクトル傾き係数しきい値については、異なる値が異なるアプリケーション環境又はシナリオに従って設定されることができ、例えば、0.16、0.15、0.165、0.1、0.161、又は0.159に設定され得る。
本発明の別の実施例において、最新のフレームの復号されたパラメータは最新のフレームの帯域幅拡張エンベロープを含む。もし最新のフレームが冗長復号フレームであり、最新のフレームの前のフレームが通常復号フレームであるとともに、最新のフレームの信号クラスが最新のフレームの前のフレームの信号クラスと同じであるか、又は最新のフレームが冗長復号の予測モードであるならば、最新のフレームの復号されたパラメータに対する後処理を実行するステップは、最新のフレームの前のフレームの帯域幅拡張エンベロープを使用して最新のフレームの帯域幅拡張エンベロープに対する調整を実行するステップを含む。冗長復号の予測モードは、冗長なビットストリーム情報が符号化される場合に、より多くのビットが適応コード番号利得部分を符号化するために使用されるとともに、より少ないビットが代数的コードブック部分を符号化するために使用されるか、又は、代数的コードブック部分は符号化さえされないかもしれない、ということを示す。
本発明の一実施例において、無声音フレームと非無声音フレームとの間の遷移において(最新のフレームが無声音フレーム及び冗長復号フレームであり、最新のフレームの前のフレーム若しくは次のフレームが非無声音フレーム及び通常復号フレームであるか、又は最新のフレームが非無声音フレーム及び通常復号フレームであるとともに、最新のフレームの前のフレーム若しくは次のフレームが無声音フレーム及び冗長復号フレームである場合に)、無声音フレームと非無声音フレームとの間のフレーム間遷移におけるクリック(英文:click)現象を排除し、出力される音声/オーディオ信号の品質を改善するように、最新のフレームの復号されたパラメータに対して後処理が実行され得る、ということが上記から理解されることができる。本発明の別の実施例において、一般音フレームと有声音フレームとの間の遷移において(最新のフレームが一般音フレーム及び冗長復号フレームであり、最新のフレームの前のフレーム若しくは次のフレームが有声音フレーム及び通常復号フレームであるか、又は最新のフレームが有声音フレーム及び通常復号フレームであるとともに、最新のフレームの前のフレーム若しくは次のフレームが一般音フレーム及び冗長復号フレームである場合に)、一般音フレームと有声音フレームとの間の遷移におけるエネルギー不安定現象を是正し、出力される音声/オーディオ信号の品質を改善するように、最新のフレームの復号されたパラメータに対して後処理が実行され得る。本発明の別の実施例において、最新のフレームが冗長復号フレームであり、最新のフレームが無声音フレームではないとともに、最新のフレームの次のフレームが無声音フレームである場合に、時間領域帯域幅拡張におけるエネルギー不安定現象を是正し、出力される音声/オーディオ信号の品質を改善するように、最新のフレームの帯域幅拡張エンベロープに対して調整が実行され得る。
図2は、本発明の別の実施例による音声/オーディオビットストリームを復号するための方法の手順を説明する。この実施例は、下記のステップを含む。
201:最新のフレームが通常復号フレームであるかどうかを判定し、もし肯定の結果であるならば、ステップ204を実行し、そうでなければ、ステップ202を実行する。
具体的には、最新のフレームが通常復号フレームであるかどうかは、ジッタバッファ管理(英文:jitter buffer management、略してJBM)に基づいて判定され得る。
202:最新のフレームの冗長なビットストリーム情報が存在しているかどうかを判定し、もし肯定の結果であるならば、ステップ204を実行し、そうでなければ、ステップ203を実行する。
もし最新のフレームの冗長なビットストリーム情報が存在するならば、最新のフレームは冗長復号レームである。具体的には、最新のフレームの冗長なビットストリーム情報が存在するかどうかは、ジッタバッファ((英文:jitter buffer)又は受信されたビットストリームから判定され得る。
203:FEC技術に基づいて最新のフレームの音声/オーディオ信号を再構成し、手順を終了する。
204:構文解析を用いて最新のフレームの復号されたパラメータを取得する。
最新のフレームが通常復号フレームである場合に、最新のフレームの復号されたパラメータを取得するように、最新のフレームに関する情報は、最新のフレームのビットストリームから復号によって直接取得されることができる。最新のフレームが冗長復号フレームである場合に、最新のフレームの復号されたパラメータは、構文解析を用いて最新のフレームの冗長なビットストリーム情報に従って取得されることができる。
205:最新のフレームの復号されたパラメータに対する後処理を実行して最新のフレームの後処理された復号されたパラメータを取得する。
206:最新のフレームの後処理された復号されたパラメータを使用して音声/オーディオ信号を再構成する。
ステップ204〜206は、ステップ102〜104を参照することにより実行され得るとともに、詳細は再びここでは説明されない。
この実施例では、構文解析を用いて最新のフレームの復号されたパラメータを取得したあとで、デコーダ側は、最新のフレームの復号されたパラメータに対する後処理を実行するとともに、最新のフレームの後処理された復号されたパラメータを使用して音声/オーディオ信号を再構成することができ、その結果、冗長復号フレームと通常復号フレームとの間で復号された信号が遷移する場合に、安定した品質が取得されることができ、出力される音声/オーディオ信号の品質を改善する、ということが上記から理解されることができる。
本発明のこの実施例では、デコーダによって構文解析により取得された最新のフレームの復号されたパラメータは、最新のフレームのスペクトルペアパラメータ、最新のフレームの適応コードブック利得、最新のフレームの代数的コードブック、及び最新のフレームの帯域幅拡張エンベロープのうちの少なくとも1つを含み得る。たとえデコーダが構文解析を用いて復号されたパラメータのうちの少なくとも2つを取得するとしても、デコーダは、それでも少なくとも2つの復号されたパラメータのうちの一方のみに後処理を行ってもよい、ということが理解され得る。したがって、いくつの復号されたパラメータ及びどの復号されたパラメータに、デコーダが具体的に後処理を実行するかは、アプリケーション環境及びシナリオに従って設定され得る。
下記は、本発明の実施例による音声/オーディオビットストリームを復号するためのデコーダを説明する。デコーダは、具体的には、音声を出力する必要があるあらゆる装置、例えば、携帯電話、ノート型パソコン、タブレットコンピュータ又はパーソナルコンピュータであり得る。
図3は、本発明の一実施例による音声/オーディオビットストリームを復号するためのデコーダの構造を説明する。デコーダは、判定ユニット301、構文解析ユニット302、後処理ユニット303、及び再構成ユニット304を含む。
判定ユニット301は、最新のフレームが通常復号フレームであるかどうかを判定するように構成される。
通常復号フレームは、最新のフレームに関する情報が、最新のフレームのビットストリームから復号によって直接取得されることができることを意味する。冗長復号フレームは、最新のフレームに関する情報が、最新のフレームのビットストリームから復号によって直接取得されることはできないが、しかし最新のフレームの冗長なビットストリーム情報が、他のフレームのビットストリームから取得されることができることを意味する。
本発明の一実施例において、最新のフレームが通常復号フレームである場合に、本発明のこの実施例において提供される方法は、最新のフレームの前のフレームが冗長復号フレームである場合にのみ実行される。最新のフレームの前のフレーム、及び最新のフレームは、2つの直接に隣接するフレームである。本発明の別の実施例において、最新のフレームが通常復号フレームである場合に、本発明のこの実施例において提供される方法は、最新のフレームの前の特定の量のフレームの中に冗長復号フレームが存在する場合にのみ実行される。特定の量は、必要に応じて、例えば、2、3、4又は10に設定され得る。
構文解析ユニット302は、判定ユニット301が最新のフレームは通常復号フレーム又は冗長復号フレームであると判定する場合に、構文解析を用いて最新のフレームの復号されたパラメータを取得するように構成される。
最新のフレームの復号されたパラメータは、スペクトルペアパラメータ、適応コードブック利得(gain_pit)、代数的コードブック、及び帯域幅拡張エンベロープのうちの少なくとも1つを含み得るとともに、スペクトルペアパラメータは、LSPパラメータ、及びISPパラメータのうちの少なくとも1つであり得る。本発明のこの実施例では、後処理は復号されたパラメータのうちのいずれか1つのパラメータのみに対して実行され得るか、又は後処理は全ての復号されたパラメータに対して実行され得る、ということが理解され得る。具体的には、後処理のために、いくつのパラメータが選択されるとともに、どのパラメータが選択されるかは、アプリケーションシナリオ及び環境に応じて選択されることができ、それらは、本発明のこの実施例では限定されない。
最新のフレームが通常復号フレームである場合に、最新のフレームの復号されたパラメータを取得するように、最新のフレームに関する情報は、最新のフレームのビットストリームから復号によって直接取得されることができる。最新のフレームが冗長復号フレームである場合に、最新のフレームの復号されたパラメータは、構文解析を用いて別のフレームのビットストリームにおける最新のフレームの冗長なビットストリーム情報に従って取得されることができる。
後処理ユニット303は、構文解析ユニット302により取得された最新のフレームの復号されたパラメータに対する後処理を実行して最新のフレームの後処理された復号されたパラメータを取得するように構成される。
異なる復号されたパラメータに対して異なる後処理が実行され得る。例えば、スペクトルペアパラメータに対して実行される後処理は、最新のフレームの後処理されたスペクトルペアパラメータを取得するために、適応重み付けを実行するように、最新のフレームのスペクトルペアパラメータ、及び最新のフレームの前のフレームのスペクトルペアパラメータを使用することになり得る。例えば、適応コードブック利得に対して実行される後処理は、適応コードブック利得に対する調整、例えば減衰を実行することになり得る。
本発明のこの実施例は、特定の後処理に対して制限を課さない。具体的には、どのタイプの後処理が実行されるかは、必要に応じて、又はアプリケーション環境及びシナリオに従って、設定され得る。
再構成ユニット304は、後処理ユニット303により取得された最新のフレームの後処理された復号されたパラメータを使用して音声/オーディオ信号を再構成するように構成される。
この実施例では、構文解析を用いて最新のフレームの復号されたパラメータを取得したあとで、デコーダ側は、最新のフレームの復号されたパラメータに対する後処理を実行するとともに、最新のフレームの後処理された復号されたパラメータを使用して音声/オーディオ信号を再構成することができ、その結果、冗長復号フレームと通常復号フレームとの間で復号された信号が遷移する場合に、安定した品質が取得されることができ、出力される音声/オーディオ信号の品質を改善する、ということが上記から理解されることができる。
本発明の別の実施例において、復号されたパラメータはスペクトルペアパラメータを含み、後処理ユニット303は、最新のフレームの復号されたパラメータが最新のフレームのスペクトルペアパラメータを含む場合に、最新のフレームのスペクトルペアパラメータ及び最新のフレームの前のフレームのスペクトルペアパラメータを使用して最新のフレームの後処理されたスペクトルペアパラメータを取得するように具体的に構成され得る。具体的には、最新のフレームの後処理されたスペクトルペアパラメータを取得するために、最新のフレームのスペクトルペアパラメータ及び最新のフレームの前のフレームのスペクトルペアパラメータに対して適応重み付けが実行される。具体的には、本発明の一実施例において、後処理ユニット303は、計算を通して最新のフレームの後処理されたスペクトルペアパラメータを取得するために、下記の式、lsp[k]=α*lsp_old[k]+δ*lsp_new[k]、0≦k≦Mを使用することができ、ここで、lsp[k]は最新のフレームの後処理されたスペクトルペアパラメータであり、lsp_old[k]は前のフレームのスペクトルペアパラメータであり、lsp_new[k]は最新のフレームのスペクトルペアパラメータであり、Mはスペクトルペアパラメータの次数であり、αは前のフレームのスペクトルペアパラメータの加重値であり、δは最新のフレームのスペクトルペアパラメータの加重値であり、α≧0、及びδ≧0である。
本発明の一実施例において、後処理ユニット303は、計算を通して最新のフレームの後処理されたスペクトルペアパラメータを取得するために、下記の式、lsp[k]=α*lsp_old[k]+β*lsp_mid[k]+δ*lsp_new[k]、0≦k≦Mを使用することができ、ここで、lsp[k]は最新のフレームの後処理されたスペクトルペアパラメータであり、lsp_old[k]は前のフレームのスペクトルペアパラメータであり、lsp_mid[k]は最新のフレームのスペクトルペアパラメータの中間値であり、lsp_new[k]は最新のフレームのスペクトルペアパラメータであり、Mはスペクトルペアパラメータの次数であり、αは前のフレームのスペクトルペアパラメータの加重値であり、βは最新のフレームのスペクトルペアパラメータの中間値の加重値であり、δは最新のフレームのスペクトルペアパラメータの加重値であり、α≧0、β≧0、及びδ≧0である。
前述の式におけるα、β、及びδの値は、異なるアプリケーション環境及びシナリオに従って変化し得る。例えば、最新のフレームの信号クラスが無声音であり、最新のフレームの前のフレームが冗長復号フレームであり、そして最新のフレームの前のフレームの信号クラスが無声音ではない場合に、αの値は、0であるか又は設定しきい値(α_TRESH)より小さく、ここで、α_TRESHの値はほぼ0に等しくなり得る。最新のフレームが冗長復号フレームであるとともに、最新のフレームの信号クラスが無声音ではない場合に、もし最新のフレームの次のフレームの信号クラスが無声音であるか、又は、最新のフレームの前のフレームのスペクトル傾き係数が事前設定されたスペクトル傾き係数しきい値より小さいか、又は、最新のフレームの次のフレームの信号クラスが無声音であるとともに、最新のフレームの前のフレームのスペクトル傾き係数が事前設定されたスペクトル傾き係数しきい値より小さいならば、βの値は、0であるか又は設定しきい値(β_TRESH)より小さく、ここで、β_TRESHの値はほぼ0に等しくなり得る。最新のフレームが冗長復号フレームであるとともに、最新のフレームの信号クラスが無声音ではない場合に、もし最新のフレームの次のフレームの信号クラスが無声音であるか、又は、最新のフレームの前のフレームのスペクトル傾き係数が事前設定されたスペクトル傾き係数しきい値より小さいか、又は、最新のフレームの次のフレームの信号クラスが無声音であるとともに、最新のフレームの前のフレームのスペクトル傾き係数が事前設定されたスペクトル傾き係数しきい値より小さいならば、δの値は、0であるか又は設定しきい値(δ_TRESH)より小さく、ここで、δ_TRESHの値はほぼ0に等しくなり得る。
スペクトル傾き係数は正又は負であり得るとともに、フレームのより小さいスペクトル傾き係数は、フレームの、より無声音になる傾向がある信号クラスを示す。
最新のフレームの信号クラスは、無声音(英文:UNVOICED)、有声音(英文:VOICED)、一般音(英文:GENERIC)、遷移音(英文:TRANSITION)、無音(英文:INACTIVE)、又は同様のものであり得る。
したがって、スペクトル傾き係数しきい値の値については、異なる値が異なるアプリケーション環境及びシナリオに従って設定されることができ、例えば、0.16、0.15、0.165、0.1、0.161、又は0.159に設定され得る。
本発明の別の実施例において、後処理ユニット303は、最新のフレームの復号されたパラメータが最新のフレームの適応コードブック利得を含むとともに、最新のフレームが冗長復号フレームである場合に、もし最新のフレームの次のフレームが無声音フレームであるか、又は、最新のフレームの次のフレームの次のフレームが無声音フレームであるとともに、最新のフレームの最新のサブフレームの代数的コードブックが、最新のサブフレームの前のサブフレームの代数的コードブック又は最新のフレームの前のフレームの代数的コードブックの第1の数量倍であるならば、最新のフレームの最新のサブフレームの適応コードブック利得を減らすように具体的に構成される。
最新のフレームの最新のサブフレームの適応コードブック利得が減らされる場合に使用される減衰率については、異なる値が異なるアプリケーション環境及びシナリオに従って設定され得る。
第1の数量の値は、特定のアプリケーション環境及びシナリオに従って設定され得る。その値は、整数であり得るか、又は非整数であり得る。例えば、第1の数量の値は、2、2.5、3、3.4、又は4であり得る。
本発明の別の実施例において、後処理ユニット303は、最新のフレームの復号されたパラメータが最新のフレームの適応コードブック利得を含み、最新のフレーム、又は最新のフレームの前のフレームが冗長復号フレームであり、最新のフレームの信号クラスが一般音であるとともに、最新のフレームの次のフレームの信号クラスが有声音であるか、又は、最新のフレームの前のフレームの信号クラスが一般音であるとともに、最新のフレームの信号クラスが有声音であり、そして、最新のフレームにおける1つのサブフレームの代数的コードブックが第2の数量倍だけ1つのサブフレームの前のサブフレームの代数的コードブックと異なるか、又は、最新のフレームにおける1つのサブフレームの代数的コードブックが第2の数量倍だけ最新のフレームの前のフレームの代数的コードブックと異なる場合に、最新のフレームの最新のサブフレームの適応コードブック利得を、最新のフレームの最新のサブフレームの隣接するサブフレームの代数的コードブックに対する最新のフレームの最新のサブフレームの代数的コードブックの比率、最新のフレームの最新のサブフレームの隣接するサブフレームの適応コードブック利得に対する最新のフレームの最新のサブフレームの適応コードブック利得の比率、及び最新のフレームの前のフレームの代数的コードブックに対する最新のフレームの最新のサブフレームの代数的コードブックの比率のうちの少なくとも1つに従って調整するように具体的に構成される。
第2の数量の値は、特定のアプリケーション環境及びシナリオに従って設定され得る。その値は、整数であり得るか、又は非整数であり得る。例えば、第2の数量の値は、2、2.6、3、3.5、又は4であり得る。
本発明の別の実施例において、後処理ユニット303は、最新のフレームの復号されたパラメータが最新のフレームの代数的コードブックを含み、最新のフレームが冗長復号フレームであり、最新のフレームの次のフレームの信号クラスが無声音であり、最新のフレームの前のフレームのスペクトル傾き係数が事前設定されたスペクトル傾き係数しきい値より小さいとともに、最新のフレームのうちの少なくとも1つのサブフレームの代数的コードブックが0である場合に、最新のフレームの最新のサブフレームの前のサブフレームのランダムノイズ又は非ゼロ代数的コードブックを最新のフレームの全て0のサブフレームの代数的コードブックとして使用するように具体的に構成される。スペクトル傾き係数しきい値については、異なる値が異なるアプリケーション環境又はシナリオに従って設定されることができ、例えば、0.16、0.15、0.165、0.1、0.161、又は0.159に設定され得る。
本発明の別の実施例において、後処理ユニット303は、最新のフレームが冗長復号フレームであり、復号されたパラメータが帯域幅拡張エンベロープを含み、最新のフレームが無声音フレームではないとともに、最新のフレームの次のフレームが無声音フレームであり、最新のフレームの前のフレームのスペクトル傾き係数が事前設定されたスペクトル傾き係数しきい値より小さい場合に、最新のフレームの帯域幅拡張エンベロープに対する補正を、最新のフレームの前のフレームの帯域幅拡張エンベロープ及び最新のフレームの前のフレームのスペクトル傾き係数のうちの少なくとも1つに従って実行するように具体的に構成される。最新のフレームの帯域幅拡張エンベロープに対して補正が実行される場合に使用される補正係数は、最新のフレームの前のフレームのスペクトル傾き係数に反比例するとともに、最新のフレームの帯域幅拡張エンベロープに対する最新のフレームの前のフレームの帯域幅拡張エンベロープの比率に正比例する。スペクトル傾き係数しきい値については、異なる値が異なるアプリケーション環境又はシナリオに従って設定されることができ、例えば、0.16、0.15、0.165、0.1、0.161、又は0.159に設定され得る。
本発明の別の実施例において、後処理ユニット303は、最新のフレームが冗長復号フレームであり、復号されたパラメータが帯域幅拡張エンベロープを含み、最新のフレームの前のフレームが通常復号フレームであるとともに、最新のフレームの信号クラスが最新のフレームの前のフレームの信号クラスと同じであるか、又は最新のフレームが冗長復号の予測モードである場合に、最新のフレームの前のフレームの帯域幅拡張エンベロープを使用して最新のフレームの帯域幅拡張エンベロープに対する調整を実行するように具体的に構成される。
本発明の一実施例において、無声音フレームと非無声音フレームとの間の遷移において(最新のフレームが無声音フレーム及び冗長復号フレームであり、最新のフレームの前のフレーム若しくは次のフレームが非無声音フレーム及び通常復号フレームであるか、又は最新のフレームが非無声音フレーム及び通常復号フレームであるとともに、最新のフレームの前のフレーム若しくは次のフレームが無声音フレーム及び冗長復号フレームである場合に)、無声音フレームと非無声音フレームとの間のフレーム間遷移におけるクリック現象を排除し、出力される音声/オーディオ信号の品質を改善するように、最新のフレームの復号されたパラメータに対して後処理が実行され得る、ということが上記から理解されることができる。本発明の別の実施例において、一般音フレームと有声音フレームとの間の遷移において(最新のフレームが一般音フレーム及び冗長復号フレームであり、最新のフレームの前のフレーム若しくは次のフレームが有声音フレーム及び通常復号フレームであるか、又は最新のフレームが有声音フレーム及び通常復号フレームであるとともに、最新のフレームの前のフレーム若しくは次のフレームが一般音フレーム及び冗長復号フレームである場合に)、一般音フレームと有声音フレームとの間の遷移におけるエネルギー不安定現象を是正し、出力される音声/オーディオ信号の品質を改善するように、最新のフレームの復号されたパラメータに対して後処理が実行され得る。本発明の別の実施例において、最新のフレームが冗長復号フレームであり、最新のフレームが無声音フレームではないとともに、最新のフレームの次のフレームが無声音フレームである場合に、時間領域帯域幅拡張におけるエネルギー不安定現象を是正し、出力される音声/オーディオ信号の品質を改善するように、最新のフレームの帯域幅拡張エンベロープに対して調整が実行され得る。
図4は、本発明の別の実施例による音声/オーディオビットストリームを復号するためのデコーダの構造を説明する。デコーダは、少なくとも1つのバス401、バス401に接続された少なくとも1つのプロセッサ402、及びバス401に接続された少なくとも1つのメモリ403を含む。
プロセッサ402は、バス401を使用することによりメモリ403に記憶されるコードを読み出し、それにより、最新のフレームが通常復号フレーム又は冗長復号フレームであるかどうかを判定し、もし最新のフレームが通常復号フレーム又は冗長復号フレームであるならば、構文解析を用いて最新のフレームの復号されたパラメータを取得し、最新のフレームの復号されたパラメータに対する後処理を実行して最新のフレームの後処理された復号されたパラメータを取得するとともに、最新のフレームの後処理された復号されたパラメータを使用して音声/オーディオ信号を再構成する。
この実施例では、構文解析を用いて最新のフレームの復号されたパラメータを取得したあとで、デコーダ側は、最新のフレームの復号されたパラメータに対する後処理を実行するとともに、最新のフレームの後処理された復号されたパラメータを使用して音声/オーディオ信号を再構成することができ、その結果、冗長復号フレームと通常復号フレームとの間で復号された信号が遷移する場合に、安定した品質が取得されることができ、出力される音声/オーディオ信号の品質を改善する、ということが上記から理解されることができる。
本発明の一実施例において、最新のフレームの復号されたパラメータは最新のフレームのスペクトルペアパラメータを含み、プロセッサ402は、バス401を使用することによりメモリ403に記憶されるコードを読み出し、それにより、最新のフレームのスペクトルペアパラメータ及び最新のフレームの前のフレームのスペクトルペアパラメータを使用して最新のフレームの後処理されたスペクトルペアパラメータを取得する。具体的には、最新のフレームの後処理されたスペクトルペアパラメータを取得するために、最新のフレームのスペクトルペアパラメータ及び最新のフレームの前のフレームのスペクトルペアパラメータに対して適応重み付けが実行される。具体的には、本発明の一実施例において、計算を通して最新のフレームの後処理されたスペクトルペアパラメータを取得するために、下記の式、lsp[k]=α*lsp_old[k]+δ*lsp_new[k]、0≦k≦Mが使用されることができ、ここで、lsp[k]は最新のフレームの後処理されたスペクトルペアパラメータであり、lsp_old[k]は前のフレームのスペクトルペアパラメータであり、lsp_new[k]は最新のフレームのスペクトルペアパラメータであり、Mはスペクトルペアパラメータの次数であり、αは前のフレームのスペクトルペアパラメータの加重値であり、δは最新のフレームのスペクトルペアパラメータの加重値であり、α≧0、及びδ≧0である。
本発明の別の実施例において、計算を通して最新のフレームの後処理されたスペクトルペアパラメータを取得するために、下記の式、lsp[k]=α*lsp_old[k]+β*lsp_mid[k]+δ*lsp_new[k]、0≦k≦Mが使用されることができ、ここで、lsp[k]は最新のフレームの後処理されたスペクトルペアパラメータであり、lsp_old[k]は前のフレームのスペクトルペアパラメータであり、lsp_mid[k]は最新のフレームのスペクトルペアパラメータの中間値であり、lsp_new[k]は最新のフレームのスペクトルペアパラメータであり、Mはスペクトルペアパラメータの次数であり、αは前のフレームのスペクトルペアパラメータの加重値であり、βは最新のフレームのスペクトルペアパラメータの中間値の加重値であり、δは最新のフレームのスペクトルペアパラメータの加重値であり、α≧0、β≧0、及びδ≧0である。
前述の式におけるα、β、及びδの値は、異なるアプリケーション環境及びシナリオに従って変化し得る。例えば、最新のフレームの信号クラスが無声音であり、最新のフレームの前のフレームが冗長復号フレームであり、そして最新のフレームの前のフレームの信号クラスが無声音ではない場合に、αの値は、0であるか又は設定しきい値(α_TRESH)より小さく、ここで、α_TRESHの値はほぼ0に等しくなり得る。最新のフレームが冗長復号フレームであるとともに、最新のフレームの信号クラスが無声音ではない場合に、もし最新のフレームの次のフレームの信号クラスが無声音であるか、又は、最新のフレームの前のフレームのスペクトル傾き係数が事前設定されたスペクトル傾き係数しきい値より小さいか、又は、最新のフレームの次のフレームの信号クラスが無声音であるとともに、最新のフレームの前のフレームのスペクトル傾き係数が事前設定されたスペクトル傾き係数しきい値より小さいならば、βの値は、0であるか又は設定しきい値(β_TRESH)より小さく、ここで、β_TRESHの値はほぼ0に等しくなり得る。最新のフレームが冗長復号フレームであるとともに、最新のフレームの信号クラスが無声音ではない場合に、もし最新のフレームの次のフレームの信号クラスが無声音であるか、又は、最新のフレームの前のフレームのスペクトル傾き係数が事前設定されたスペクトル傾き係数しきい値より小さいか、又は、最新のフレームの次のフレームの信号クラスが無声音であるとともに、最新のフレームの前のフレームのスペクトル傾き係数が事前設定されたスペクトル傾き係数しきい値より小さいならば、δの値は、0であるか又は設定しきい値(δ_TRESH)より小さく、ここで、δ_TRESHの値はほぼ0に等しくなり得る。
スペクトル傾き係数は正又は負であり得るとともに、フレームのより小さいスペクトル傾き係数は、フレームの、より無声音になる傾向がある信号クラスを示す。
最新のフレームの信号クラスは、無声音(英文:UNVOICED)、有声音(英文:VOICED)、一般音(英文:GENERIC)、遷移音(英文:TRANSITION)、無音(英文:INACTIVE)、又は同様のものであり得る。
したがって、スペクトル傾き係数しきい値の値については、異なる値が異なるアプリケーション環境及びシナリオに従って設定されることができ、例えば、0.16、0.15、0.165、0.1、0.161、又は0.159に設定され得る。
本発明の別の実施例において、最新のフレームの復号されたパラメータは最新のフレームの適応コードブック利得を含む。最新のフレームが冗長復号フレームである場合に、もし最新のフレームの次のフレームが無声音フレームであるか、又は、最新のフレームの次のフレームの次のフレームが無声音フレームであるとともに、最新のフレームの最新のサブフレームの代数的コードブックが、最新のサブフレームの前のサブフレームの代数的コードブック又は最新のフレームの前のフレームの代数的コードブックの第1の数量倍であるならば、プロセッサ402は、バス401を使用することによりメモリ403に記憶されるコードを読み出し、それにより、最新のフレームの最新のサブフレームの適応コードブック利得を減らす。最新のフレーム、又は最新のフレームの前のフレームが冗長復号フレームである場合に、もし最新のフレームの信号クラスが一般音であるとともに、最新のフレームの次のフレームの信号クラスが有声音であるか、又は、最新のフレームの前のフレームの信号クラスが一般音であるとともに、最新のフレームの信号クラスが有声音であり、そして、最新のフレームにおける1つのサブフレームの代数的コードブックが第2の数量倍だけ1つのサブフレームの前のサブフレームの代数的コードブックと異なるか、又は、最新のフレームにおける1つのサブフレームの代数的コードブックが第2の数量倍だけ最新のフレームの前のフレームの代数的コードブックと異なるならば、最新のフレームの復号されたパラメータに対する後処理を実行するステップは、最新のフレームの最新のサブフレームの適応コードブック利得を、最新のフレームの最新のサブフレームの隣接するサブフレームの代数的コードブックに対する最新のフレームの最新のサブフレームの代数的コードブックの比率、最新のフレームの最新のサブフレームの隣接するサブフレームの適応コードブック利得に対する最新のフレームの最新のサブフレームの適応コードブック利得の比率、及び最新のフレームの前のフレームの代数的コードブックに対する最新のフレームの最新のサブフレームの代数的コードブックの比率のうちの少なくとも1つに従って調整するステップを含む。
第1の数量及び第2の数量の値は、特定のアプリケーション環境及びシナリオに従って設定され得る。それらの値は、整数であり得るか、又は非整数であり得るとともに、ここで、第1の数量及び第2の数量の値は、同じであり得るか、又は異なり得る。例えば、第1の数量の値は、2、2.5、3、3.4、又は4であり得るとともに、第2の数量の値は、2、2.6、3、3.5、又は4であり得る。
最新のフレームの最新のサブフレームの適応コードブック利得が減らされる場合に使用される減衰率については、異なる値が異なるアプリケーション環境及びシナリオに従って設定され得る。
本発明の別の実施例において、最新のフレームの復号されたパラメータは最新のフレームの代数的コードブックを含む。最新のフレームが冗長復号フレームである場合に、もし最新のフレームの次のフレームの信号クラスが無声音であり、最新のフレームの前のフレームのスペクトル傾き係数が事前設定されたスペクトル傾き係数しきい値より小さいとともに、最新のフレームのうちの少なくとも1つのサブフレームの代数的コードブックが0であるならば、プロセッサ402は、バス401を使用することによりメモリ403に記憶されるコードを読み出し、それにより、最新のフレームの最新のサブフレームの前のサブフレームのランダムノイズ又は非ゼロ代数的コードブックを最新のフレームの全て0のサブフレームの代数的コードブックとして使用する。スペクトル傾き係数しきい値については、異なる値が異なるアプリケーション環境又はシナリオに従って設定されることができ、例えば、0.16、0.15、0.165、0.1、0.161、又は0.159に設定され得る。
本発明の別の実施例において、最新のフレームの復号されたパラメータは最新のフレームの帯域幅拡張エンベロープを含む。最新のフレームが冗長復号フレームであり、最新のフレームが無声音フレームではないとともに、最新のフレームの次のフレームが無声音フレームである場合に、もし最新のフレームの前のフレームのスペクトル傾き係数が事前設定されたスペクトル傾き係数しきい値より小さいならば、プロセッサ402は、バス401を使用することによりメモリ403に記憶されるコードを読み出し、それにより、最新のフレームの帯域幅拡張エンベロープに対する補正を、最新のフレームの前のフレームの帯域幅拡張エンベロープ及び最新のフレームの前のフレームのスペクトル傾き係数のうちの少なくとも1つに従って実行する。最新のフレームの帯域幅拡張エンベロープに対して補正が実行される場合に使用される補正係数は、最新のフレームの前のフレームのスペクトル傾き係数に反比例するとともに、最新のフレームの帯域幅拡張エンベロープに対する最新のフレームの前のフレームの帯域幅拡張エンベロープの比率に正比例する。スペクトル傾き係数しきい値については、異なる値が異なるアプリケーション環境又はシナリオに従って設定されることができ、例えば、0.16、0.15、0.165、0.1、0.161、又は0.159に設定され得る。
本発明の別の実施例において、最新のフレームの復号されたパラメータは最新のフレームの帯域幅拡張エンベロープを含む。もし最新のフレームが冗長復号フレームであり、最新のフレームの前のフレームが通常復号フレームであるとともに、最新のフレームの信号クラスが最新のフレームの前のフレームの信号クラスと同じであるか、又は最新のフレームが冗長復号の予測モードであるならば、プロセッサ402は、バス401を使用することによりメモリ403に記憶されるコードを読み出し、それにより、最新のフレームの前のフレームの帯域幅拡張エンベロープを使用して最新のフレームの帯域幅拡張エンベロープに対する調整を実行する。
本発明の一実施例において、無声音フレームと非無声音フレームとの間の遷移において(最新のフレームが無声音フレーム及び冗長復号フレームであり、最新のフレームの前のフレーム若しくは次のフレームが非無声音フレーム及び通常復号フレームであるか、又は最新のフレームが非無声音フレーム及び通常復号フレームであるとともに、最新のフレームの前のフレーム若しくは次のフレームが無声音フレーム及び冗長復号フレームである場合に)、無声音フレームと非無声音フレームとの間のフレーム間遷移におけるクリック現象を排除し、出力される音声/オーディオ信号の品質を改善するように、最新のフレームの復号されたパラメータに対して後処理が実行され得る、ということが上記から理解されることができる。本発明の別の実施例において、一般音フレームと有声音フレームとの間の遷移において(最新のフレームが一般音フレーム及び冗長復号フレームであり、最新のフレームの前のフレーム若しくは次のフレームが有声音フレーム及び通常復号フレームであるか、又は最新のフレームが有声音フレーム及び通常復号フレームであるとともに、最新のフレームの前のフレーム若しくは次のフレームが一般音フレーム及び冗長復号フレームである場合に)、一般音フレームと有声音フレームとの間の遷移におけるエネルギー不安定現象を是正し、出力される音声/オーディオ信号の品質を改善するように、最新のフレームの復号されたパラメータに対して後処理が実行され得る。本発明の別の実施例において、最新のフレームが冗長復号フレームであり、最新のフレームが無声音フレームではないとともに、最新のフレームの次のフレームが無声音フレームである場合に、時間領域帯域幅拡張におけるエネルギー不安定現象を是正し、出力される音声/オーディオ信号の品質を改善するように、最新のフレームの帯域幅拡張エンベロープに対して調整が実行され得る。
本発明の実施例は、さらにコンピュータ記憶媒体を提供する。コンピュータ記憶媒体はプログラムを記憶し得るとともに、プログラムが実行される場合に、前述の方法の実施例において説明される音声/オーディオビットストリームを復号するための方法のいくつか又は全てのステップが含まれる。
簡潔な説明のために、前述の方法の実施例は一連の動作として表される、ということに注意する必要がある。しかしながら、本発明によれば、いくつかのステップは、他の順序で、又は同時に、実行され得るので、本発明は説明された動作の順序に限定されない、ということを当業者は認識するべきである。さらに、この明細書において説明された全ての実施例は、代表的な実施例であるとともに、関連する動作及びモジュールは本発明に必ずしも必須であるとは限らない、ということを当業者は同様に理解するべきである。
前述の実施例において、各実施例の記述は、それぞれの焦点を有している。1つの実施例において詳細に説明されない部分については、他の実施例における関連の記述に対して参照が行われ得る。
この出願において提供されたいくらかの実施例において、開示された装置は他の様式で実施され得る、ということが理解されるべきである。例えば、説明された装置の実施例は、単に代表的である。例えば、ユニットの分割は、単に論理的な機能の分割であるとともに、実際の実装例では他の分割であるかもしれない。例えば、複数のユニット又はコンポーネントは、別のシステムに結合され得るか若しくは統合され得るか、又は、いくつかの特徴は、無視され得るか若しくは実行されないかもしれない。さらに、表示されたか若しくは論じられた相互の結合又は直接的な結合又は通信接続は、いくつかインタフェースを使用することにより実施され得る。装置若しくはユニットの間の間接的な結合又は通信接続は、電子的方式又は他の方式において実施され得る。
別個の部品として説明されるユニットは、物理的に分離しているかもしれないし、又は物理的に分離していないかもしれないとともに、ユニットとして表示される部品は、物理的なユニットであるかもしれないし、又は物理的なユニットでないかもしれず、1つの位置に位置付けられるかもしれないし、又は複数のネットワークユニットに対して分散されるかもしれない。いくつか又は全てのユニットは、実施例の解決法の目的を達成するために、実際のニーズに従って選択され得る。
さらに、本発明の実施例における機能ユニットは1つの演算処理装置に統合され得るか、又は、それぞれのユニットは物理的に単独で存在し得るか、又は、2つ以上のユニットは1つのユニットに統合される。統合されたユニットは、ハードウェアの形式で実施され得るか、又は、ソフトウェア機能ユニットの形式で実施され得る。
前述の統合されたユニットがソフトウェア機能ユニットの形式で実施されるとともに、独立した製品として販売されるか又は使用される場合に、統合されたユニットはコンピュータ読み取り可能な記憶媒体に記憶され得る。そのような理解に基づくと、本発明の技術的解決法は本質的に、又は、従来技術に貢献する部分は、又は、技術的解決法の全て若しくはいくつかは、ソフトウェア製品の形式で実施され得る。コンピュータソフトウェア製品は、記憶媒体に記憶されるとともに、コンピュータ装置(それはパーソナルコンピュータ、サーバ、ネットワーク装置、若しくはメモリに接続されたプロセッサであり得る)に、本発明の前述の実施例において説明された方法のステップの全て又はいくつかを実行するように指示するためのいくらかの命令を含む。前述の記憶媒体は、USBフラッシュドライブ、読出し専用メモリ(英文:read-only memory、略してROM)、ランダムアクセスメモリ(英文:random access memory、略してRAM)、ポータブルハードドライブ、磁気ディスク又は光ディスクのような、プログラムコードを記憶することができるあらゆる媒体を含む。
前述の実施例は、単に本発明の技術的解決法を説明するように意図されているに過ぎず、本発明を限定するように意図されていない。前述の実施例を参照して本発明が詳細に説明されたが、当業者は、本発明の実施例の技術的解決法の範囲から逸脱することなく、前述の実施例において説明された技術的解決法にさらに修正を行い得るか、又は、それらのいくつかの技術的特徴に等価な置換を行い得る、ということを理解すべきである。

Claims (17)

  1. 音声/オーディオビットストリームを復号するための方法であって、
    最新のフレームが通常復号フレーム又は冗長復号フレームであるかどうかを判定するステップと、
    前記最新のフレームが通常復号フレーム又は冗長復号フレームである場合に、前記ビットストリームを構文解析して前記最新のフレームの復号されたパラメータを取得するステップと、
    前記最新のフレームの前記復号されたパラメータに対する後処理を実行して前記最新のフレームの後処理された復号されたパラメータを取得するステップと、
    前記最新のフレームの前記後処理された復号されたパラメータを使用して音声/オーディオ信号を再構成するステップとを含み、
    前記最新のフレームの前記復号されたパラメータが前記最新のフレームのスペクトルペアパラメータを含み、前記最新のフレームの前記復号されたパラメータに対する後処理を実行する前記ステップが、
    前記最新のフレームの前記スペクトルペアパラメータ及び前記最新のフレームの前のフレームのスペクトルペアパラメータを使用して前記最新のフレームの後処理されたスペクトルペアパラメータを取得するステップを含む、方法。
  2. 前記最新のフレームの前記後処理されたスペクトルペアパラメータが、下記の式、lsp[k]=α*lsp_old[k]+δ*lsp_new[k]、0≦k≦Mを使用することによる計算を通して取得され、
    ここで、lsp[k]が前記最新のフレームの前記後処理されたスペクトルペアパラメータであり、lsp_old[k]が前記前のフレームの前記スペクトルペアパラメータであり、lsp_new[k]が前記最新のフレームの前記スペクトルペアパラメータであり、Mがスペクトルペアパラメータの次数であり、αが前記前のフレームの前記スペクトルペアパラメータの加重値であり、δが前記最新のフレームの前記スペクトルペアパラメータの加重値であり、α≧0、δ≧0、及びα+δ=1である、請求項1に記載の方法。
  3. 前記最新のフレームの前記後処理されたスペクトルペアパラメータが、下記の式、lsp[k]=α*lsp_old[k]+β*lsp_mid[k]+δ*lsp_new[k]、0≦k≦Mを使用することによる計算を通して取得され、
    ここで、lsp[k]が前記最新のフレームの前記後処理されたスペクトルペアパラメータであり、lsp_old[k]が前記前のフレームの前記スペクトルペアパラメータであり、lsp_mid[k]が前記最新のフレームの前記スペクトルペアパラメータの中間値であり、lsp_new[k]が前記最新のフレームの前記スペクトルペアパラメータであり、Mがスペクトルペアパラメータの次数であり、αが前記前のフレームの前記スペクトルペアパラメータの加重値であり、βが前記最新のフレームの前記スペクトルペアパラメータの前記中間値の加重値であり、δが前記最新のフレームの前記スペクトルペアパラメータの加重値であり、α≧0、β≧0、δ≧0、及びα+β+δ=1である、請求項1に記載の方法。
  4. 前記最新のフレームが冗長復号フレームであるとともに、前記最新のフレームの信号クラスが無声音ではない場合に、もし前記最新のフレームの次のフレームの信号クラスが無声音であるか、又は、前記最新のフレームの前記前のフレームのスペクトル傾き係数が事前設定されたスペクトル傾き係数しきい値より小さいか、又は、前記最新のフレームの次のフレームの信号クラスが無声音であるとともに、前記最新のフレームの前記前のフレームのスペクトル傾き係数が事前設定されたスペクトル傾き係数しきい値より小さいならば、βの値が、0であるか又は設定しきい値より小さい、請求項3に記載の方法。
  5. 前記最新のフレームの信号クラスが無声音であり、前記最新のフレームの前記前のフレームが冗長復号フレームであり、そして前記最新のフレームの前記前のフレームの信号クラスが無声音ではない場合に、αの値が、0であるか又は設定しきい値より小さい、請求項2から請求項4のいずれか一項に記載の方法。
  6. 前記最新のフレームが冗長復号フレームであるとともに、前記最新のフレームの信号クラスが無声音ではない場合に、もし前記最新のフレームの次のフレームの前記信号クラスが無声音であるか、又は、前記最新のフレームの前記前のフレームのスペクトル傾き係数が事前設定されたスペクトル傾き係数しきい値より小さいか、又は、前記最新のフレームの前記次のフレームの前記信号クラスが無声音であるとともに、前記最新のフレームの前記前のフレームの前記スペクトル傾き係数が前記事前設定されたスペクトル傾き係数しきい値より小さいならば、δの値が、0であるか又は設定しきい値より小さい、請求項2から請求項5のいずれか一項に記載の方法。
  7. 前記スペクトル傾き係数が正又は負であり得るとともに、より小さいスペクトル傾き係数が、前記スペクトル傾き係数に対応するフレームの、より無声音になる傾向がある信号クラスを示す、請求項4又は請求項6に記載の方法。
  8. 前記最新のフレームの前記復号されたパラメータが前記最新のフレームの適応コードブック利得を含み、
    前記最新のフレームが冗長復号フレームである場合に、もし前記最新のフレームの次のフレームが無声音フレームであるか、又は、前記最新のフレームの前記次のフレームの次のフレームが無声音フレームであるとともに、前記最新のフレームの最新のサブフレームの代数的コードブックが、前記最新のサブフレームの前のサブフレームの代数的コードブック又は前記最新のフレームの前記前のフレームの代数的コードブックの第1の数量倍であるならば、前記最新のフレームの前記復号されたパラメータに対する後処理を実行する前記ステップが、
    前記最新のフレームの前記最新のサブフレームの適応コードブック利得を減らすステップを含む、請求項1から請求項7のいずれか一項に記載の方法。
  9. 前記最新のフレームの前記復号されたパラメータが前記最新のフレームの適応コードブック利得を含み、
    前記最新のフレーム、又は前記最新のフレームの前のフレームが冗長復号フレームである場合に、もし前記最新のフレームの信号クラスが一般音であるとともに、前記最新のフレームの次のフレームの前記信号クラスが有声音であるか、又は、前記最新のフレームの前記前のフレームの前記信号クラスが一般音であるとともに、前記最新のフレームの前記信号クラスが有声音であり、そして、前記最新のフレームにおける1つのサブフレームの代数的コードブックが第2の数量倍だけ前記1つのサブフレームの前のサブフレームの代数的コードブックと異なるか、又は、前記最新のフレームにおける1つのサブフレームの代数的コードブックが第2の数量倍だけ前記最新のフレームの前記前のフレームの代数的コードブックと異なるならば、前記最新のフレームの前記復号されたパラメータに対する後処理を実行する前記ステップが、
    前記最新のフレームの最新のサブフレームの適応コードブック利得を、前記最新のフレームの前記最新のサブフレームの隣接するサブフレームの代数的コードブックに対する前記最新のフレームの前記最新のサブフレームの代数的コードブックの比率、前記最新のフレームの前記最新のサブフレームの前記隣接するサブフレームの適応コードブック利得に対する前記最新のフレームの前記最新のサブフレームの適応コードブック利得の比率、及び前記最新のフレームの前記前のフレームの前記代数的コードブックに対する前記最新のフレームの前記最新のサブフレームの前記代数的コードブックの比率のうちの少なくとも1つに従って調整するステップを含む、請求項1から請求項7のいずれか一項に記載の方法。
  10. 前記最新のフレームの前記復号されたパラメータが前記最新のフレームの代数的コードブックを含み、
    前記最新のフレームが冗長復号フレームである場合に、もし前記最新のフレームの次のフレームの信号クラスが無声音であり、前記最新のフレームの前のフレームのスペクトル傾き係数が事前設定されたスペクトル傾き係数しきい値より小さいとともに、前記最新のフレームのうちの少なくとも1つのサブフレームの代数的コードブックが0であるならば、前記最新のフレームの前記復号されたパラメータに対する後処理を実行する前記ステップが、
    前記最新のフレームの前記最新のサブフレームの前記前のサブフレームのランダムノイズ又は非ゼロ代数的コードブックを前記最新のフレームの全て0のサブフレームの代数的コードブックとして使用するステップを含む、請求項1から請求項9のいずれか一項に記載の方法。
  11. 前記最新のフレームが冗長復号フレームであるとともに、前記復号されたパラメータが帯域幅拡張エンベロープを含み、
    前記最新のフレームが無声音フレームではないとともに、前記最新のフレームの次のフレームが無声音フレームである場合に、もし前記最新のフレームの前のフレームのスペクトル傾き係数が事前設定されたスペクトル傾き係数しきい値より小さいならば、前記最新のフレームの前記復号されたパラメータに対する後処理を実行する前記ステップが、
    前記最新のフレームの前記帯域幅拡張エンベロープに対する補正を、前記最新のフレームの前記前のフレームの帯域幅拡張エンベロープ及び前記最新のフレームの前記前のフレームの前記スペクトル傾き係数のうちの少なくとも1つに従って実行するステップを含む、請求項1から請求項10のいずれか一項に記載の方法。
  12. 前記最新のフレームの前記帯域幅拡張エンベロープに対して補正が実行される場合に使用される補正係数が、前記最新のフレームの前記前のフレームの前記スペクトル傾き係数に反比例するとともに、前記最新のフレームの前記帯域幅拡張エンベロープに対する前記最新のフレームの前記前のフレームの前記帯域幅拡張エンベロープの比率に正比例する、請求項11に記載の方法。
  13. 前記最新のフレームが冗長復号フレームであるとともに、前記復号されたパラメータが帯域幅拡張エンベロープを含み、
    前記最新のフレームの前のフレームが通常復号フレームである場合に、もし前記最新のフレームの信号クラスが前記最新のフレームの前記前のフレームの前記信号クラスと同じであるか、又は前記最新のフレームが冗長復号の予測モードであるならば、前記最新のフレームの前記復号されたパラメータに対する後処理を実行する前記ステップが、
    前記最新のフレームの前記前のフレームの帯域幅拡張エンベロープを使用して前記最新のフレームの前記帯域幅拡張エンベロープに対する調整を実行するステップを含む、請求項1から請求項10のいずれか一項に記載の方法。
  14. 音声/オーディオビットストリームを復号するためのデコーダであって、
    プロセッサとメモリとを備え、
    前記プロセッサが、最新のフレームが通常復号フレーム又は冗長復号フレームであるかどうかを判定し、前記最新のフレームが通常復号フレーム又は冗長復号フレームである場合に、前記ビットストリームを構文解析して前記最新のフレームの復号されたパラメータを取得し、前記最新のフレームの前記復号されたパラメータに対する後処理を実行して前記最新のフレームの後処理された復号されたパラメータを取得するとともに、前記最新のフレームの前記後処理された復号されたパラメータを使用して音声/オーディオ信号を再構成するように構成され、
    前記最新のフレームの前記復号されたパラメータが前記最新のフレームのスペクトルペアパラメータを含み、前記プロセッサが、前記最新のフレームの前記スペクトルペアパラメータ及び前記最新のフレームの前のフレームのスペクトルペアパラメータを使用して前記最新のフレームの後処理されたスペクトルペアパラメータを取得するように構成される、デコーダ。
  15. 前記最新のフレームの前記後処理されたスペクトルペアパラメータが、下記の式、lsp[k]=α*lsp_old[k]+δ*lsp_new[k]、0≦k≦Mを使用することによる計算を通して取得され、
    ここで、lsp[k]が前記最新のフレームの前記後処理されたスペクトルペアパラメータであり、lsp_old[k]が前記前のフレームの前記スペクトルペアパラメータであり、lsp_new[k]が前記最新のフレームの前記スペクトルペアパラメータであり、Mがスペクトルペアパラメータの次数であり、αが前記前のフレームの前記スペクトルペアパラメータの加重値であり、δが前記最新のフレームの前記スペクトルペアパラメータの加重値であり、α≧0、δ≧0、及びα+δ=1である、請求項14に記載のデコーダ。
  16. 前記最新のフレームの前記後処理されたスペクトルペアパラメータが、下記の式、lsp[k]=α*lsp_old[k]+β*lsp_mid[k]+δ*lsp_new[k]、0≦k≦Mを使用することによる計算を通して取得され、
    ここで、lsp[k]が前記最新のフレームの前記後処理されたスペクトルペアパラメータであり、lsp_old[k]が前記前のフレームの前記スペクトルペアパラメータであり、lsp_mid[k]が前記最新のフレームの前記スペクトルペアパラメータの中間値であり、lsp_new[k]が前記最新のフレームの前記スペクトルペアパラメータであり、Mがスペクトルペアパラメータの次数であり、αが前記前のフレームの前記スペクトルペアパラメータの加重値であり、βが前記最新のフレームの前記スペクトルペアパラメータの前記中間値の加重値であり、δが前記最新のフレームの前記スペクトルペアパラメータの加重値であり、α≧0、β≧0、δ≧0、及びα+β+δ=1である、請求項14に記載のデコーダ。
  17. コンピュータ記憶媒体であって、当該コンピュータ記憶媒体がプログラムを記憶し、前記プログラムが請求項1から請求項13のいずれか一項に記載の音声/オーディオビットストリームを復号するための方法を実行する、コンピュータ記憶媒体。
JP2016543574A 2013-12-31 2014-07-04 音声/オーディオビットストリームを復号するための方法及び装置 Active JP6475250B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201310751997.XA CN104751849B (zh) 2013-12-31 2013-12-31 语音频码流的解码方法及装置
CN201310751997.X 2013-12-31
PCT/CN2014/081635 WO2015100999A1 (zh) 2013-12-31 2014-07-04 语音频码流的解码方法及装置

Publications (2)

Publication Number Publication Date
JP2017504832A JP2017504832A (ja) 2017-02-09
JP6475250B2 true JP6475250B2 (ja) 2019-02-27

Family

ID=53493122

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016543574A Active JP6475250B2 (ja) 2013-12-31 2014-07-04 音声/オーディオビットストリームを復号するための方法及び装置

Country Status (7)

Country Link
US (2) US9734836B2 (ja)
EP (2) EP3076390B1 (ja)
JP (1) JP6475250B2 (ja)
KR (2) KR101941619B1 (ja)
CN (1) CN104751849B (ja)
ES (1) ES2756023T3 (ja)
WO (1) WO2015100999A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2626977T3 (es) * 2013-01-29 2017-07-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato, procedimiento y medio informático para sintetizar una señal de audio
CN104751849B (zh) * 2013-12-31 2017-04-19 华为技术有限公司 语音频码流的解码方法及装置
CN107369454B (zh) * 2014-03-21 2020-10-27 华为技术有限公司 语音频码流的解码方法及装置
CN106816158B (zh) * 2015-11-30 2020-08-07 华为技术有限公司 一种语音质量评估方法、装置及设备
CN111164682A (zh) 2017-10-24 2020-05-15 三星电子株式会社 使用机器学习的音频重建方法和设备

Family Cites Families (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4731846A (en) * 1983-04-13 1988-03-15 Texas Instruments Incorporated Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal
US5717824A (en) * 1992-08-07 1998-02-10 Pacific Communication Sciences, Inc. Adaptive speech coder having code excited linear predictor with multiple codebook searches
US5615298A (en) * 1994-03-14 1997-03-25 Lucent Technologies Inc. Excitation signal synthesis during frame erasure or packet loss
US5699478A (en) * 1995-03-10 1997-12-16 Lucent Technologies Inc. Frame erasure compensation technique
US5907822A (en) * 1997-04-04 1999-05-25 Lincom Corporation Loss tolerant speech decoder for telecommunications
US6385576B2 (en) * 1997-12-24 2002-05-07 Kabushiki Kaisha Toshiba Speech encoding/decoding method using reduced subframe pulse positions having density related to pitch
US6952668B1 (en) * 1999-04-19 2005-10-04 At&T Corp. Method and apparatus for performing packet loss or frame erasure concealment
DE60023237T2 (de) 1999-04-19 2006-07-13 At & T Corp. Verfahren zur verschleierung von paketverlusten
US6973425B1 (en) * 1999-04-19 2005-12-06 At&T Corp. Method and apparatus for performing packet loss or Frame Erasure Concealment
US6597961B1 (en) * 1999-04-27 2003-07-22 Realnetworks, Inc. System and method for concealing errors in an audio transmission
US6757654B1 (en) * 2000-05-11 2004-06-29 Telefonaktiebolaget Lm Ericsson Forward error correction in speech coding
EP1199709A1 (en) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Error Concealment in relation to decoding of encoded acoustic signals
US7031926B2 (en) * 2000-10-23 2006-04-18 Nokia Corporation Spectral parameter substitution for the frame error concealment in a speech decoder
US7069208B2 (en) 2001-01-24 2006-06-27 Nokia, Corp. System and method for concealment of data loss in digital audio transmission
JP3582589B2 (ja) * 2001-03-07 2004-10-27 日本電気株式会社 音声符号化装置及び音声復号化装置
US7590525B2 (en) * 2001-08-17 2009-09-15 Broadcom Corporation Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
US7047187B2 (en) * 2002-02-27 2006-05-16 Matsushita Electric Industrial Co., Ltd. Method and apparatus for audio error concealment using data hiding
US20040002856A1 (en) 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
CA2388439A1 (en) 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
US20040083110A1 (en) 2002-10-23 2004-04-29 Nokia Corporation Packet loss recovery based on music signal classification and mixing
JP4438280B2 (ja) * 2002-10-31 2010-03-24 日本電気株式会社 トランスコーダ及び符号変換方法
US7486719B2 (en) 2002-10-31 2009-02-03 Nec Corporation Transcoder and code conversion method
US6985856B2 (en) 2002-12-31 2006-01-10 Nokia Corporation Method and device for compressed-domain packet loss concealment
CA2457988A1 (en) 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
US20060088093A1 (en) * 2004-10-26 2006-04-27 Nokia Corporation Packet loss compensation
US7519535B2 (en) * 2005-01-31 2009-04-14 Qualcomm Incorporated Frame erasure concealment in voice communications
US7177804B2 (en) 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
CN100561576C (zh) * 2005-10-25 2009-11-18 芯晟(北京)科技有限公司 一种基于量化信号域的立体声及多声道编解码方法与系统
US8255207B2 (en) * 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
US8798172B2 (en) * 2006-05-16 2014-08-05 Samsung Electronics Co., Ltd. Method and apparatus to conceal error in decoded audio signal
WO2008007698A1 (fr) * 2006-07-12 2008-01-17 Panasonic Corporation Procédé de compensation des pertes de blocs, appareil de codage audio et appareil de décodage audio
US7638652B2 (en) 2006-07-13 2009-12-29 Mitsubishi Gas Chemical Company, Inc. Method for producing fluoroamine
AU2007318506B2 (en) 2006-11-10 2012-03-08 Iii Holdings 12, Llc Parameter decoding device, parameter encoding device, and parameter decoding method
KR20080075050A (ko) * 2007-02-10 2008-08-14 삼성전자주식회사 오류 프레임의 파라미터 갱신 방법 및 장치
EP2128855A1 (en) * 2007-03-02 2009-12-02 Panasonic Corporation Voice encoding device and voice encoding method
CN101256774B (zh) 2007-03-02 2011-04-13 北京工业大学 用于嵌入式语音编码的帧擦除隐藏方法及系统
US20100195490A1 (en) 2007-07-09 2010-08-05 Tatsuya Nakazawa Audio packet receiver, audio packet receiving method and program
CN100524462C (zh) 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
US8527265B2 (en) 2007-10-22 2013-09-03 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
US8515767B2 (en) 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
CN101261836B (zh) * 2008-04-25 2011-03-30 清华大学 基于过渡帧判决及处理的激励信号自然度提高方法
WO2009150290A1 (en) * 2008-06-13 2009-12-17 Nokia Corporation Method and apparatus for error concealment of encoded audio data
MX2011000375A (es) 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
BRPI0910784B1 (pt) 2008-07-11 2022-02-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Codificador e decodificador de áudio para estruturas de codificação de sinais de áudio amostrados
RU2515704C2 (ru) 2008-07-11 2014-05-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Аудиокодер и аудиодекодер для кодирования и декодирования отсчетов аудиосигнала
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
US8428938B2 (en) 2009-06-04 2013-04-23 Qualcomm Incorporated Systems and methods for reconstructing an erased speech frame
CN101777963B (zh) * 2009-12-29 2013-12-11 电子科技大学 一种基于反馈模式的帧级别编码与译码方法
CN101894558A (zh) 2010-08-04 2010-11-24 华为技术有限公司 丢帧恢复方法、设备以及语音增强方法、设备和系统
US9026434B2 (en) 2011-04-11 2015-05-05 Samsung Electronic Co., Ltd. Frame erasure concealment for a multi rate speech and audio codec
WO2012158159A1 (en) * 2011-05-16 2012-11-22 Google Inc. Packet loss concealment for audio codec
EP2518986B1 (en) * 2011-07-25 2018-03-21 Huawei Technologies Co., Ltd. A device and method for controlling echo in parameter domain
CN102438152B (zh) * 2011-12-29 2013-06-19 中国科学技术大学 可伸缩视频编码容错传输方法、编码器、装置和系统
US9275644B2 (en) * 2012-01-20 2016-03-01 Qualcomm Incorporated Devices for redundant frame coding and decoding
CN103366749B (zh) * 2012-03-28 2016-01-27 北京天籁传音数字技术有限公司 一种声音编解码装置及其方法
CN102760440A (zh) 2012-05-02 2012-10-31 中兴通讯股份有限公司 语音信号的发送、接收装置及方法
CN104751849B (zh) 2013-12-31 2017-04-19 华为技术有限公司 语音频码流的解码方法及装置
CN107369454B (zh) 2014-03-21 2020-10-27 华为技术有限公司 语音频码流的解码方法及装置

Also Published As

Publication number Publication date
EP3624115A1 (en) 2020-03-18
JP2017504832A (ja) 2017-02-09
CN104751849B (zh) 2017-04-19
EP3076390A4 (en) 2016-12-21
US9734836B2 (en) 2017-08-15
US20160343382A1 (en) 2016-11-24
CN104751849A (zh) 2015-07-01
KR101941619B1 (ko) 2019-01-23
KR20180023044A (ko) 2018-03-06
KR20160096191A (ko) 2016-08-12
EP3076390A1 (en) 2016-10-05
WO2015100999A1 (zh) 2015-07-09
EP3076390B1 (en) 2019-09-11
ES2756023T3 (es) 2020-04-24
KR101833409B1 (ko) 2018-02-28
US10121484B2 (en) 2018-11-06
US20170301361A1 (en) 2017-10-19

Similar Documents

Publication Publication Date Title
JP5587405B2 (ja) スピーチフレーム内の情報のロスを防ぐためのシステムおよび方法
EP2438592B1 (en) Method, apparatus and computer program product for reconstructing an erased speech frame
RU2418324C2 (ru) Поддиапазонный речевой кодекс с многокаскадными таблицами кодирования и избыточным кодированием
JP6475250B2 (ja) 音声/オーディオビットストリームを復号するための方法及び装置
JP6542345B2 (ja) 会話/音声ビットストリーム復号化方法および装置
US10504525B2 (en) Adaptive forward error correction redundant payload generation
AU2014292680A1 (en) Decoding method and decoding apparatus
JP4414705B2 (ja) 音源信号符号化装置、及び音源信号符号化方法
KR101452635B1 (ko) Lms 예측기를 이용한 패킷 손실 은닉 방법 및 이를 기록한 기록매체

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170804

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170822

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180508

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180723

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190131

R150 Certificate of patent or registration of utility model

Ref document number: 6475250

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250