JP2016505902A - 第1の符号化アルゴリズム及び第2の符号化アルゴリズムのうちの1つを選択するための装置及び方法 - Google Patents
第1の符号化アルゴリズム及び第2の符号化アルゴリズムのうちの1つを選択するための装置及び方法 Download PDFInfo
- Publication number
- JP2016505902A JP2016505902A JP2015554187A JP2015554187A JP2016505902A JP 2016505902 A JP2016505902 A JP 2016505902A JP 2015554187 A JP2015554187 A JP 2015554187A JP 2015554187 A JP2015554187 A JP 2015554187A JP 2016505902 A JP2016505902 A JP 2016505902A
- Authority
- JP
- Japan
- Prior art keywords
- estimated
- encoding algorithm
- speech signal
- encoding
- weighted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 161
- 238000000034 method Methods 0.000 title claims description 49
- 230000005236 sound signal Effects 0.000 claims abstract description 90
- 238000005259 measurement Methods 0.000 claims abstract description 47
- 230000003044 adaptive effect Effects 0.000 claims description 63
- 238000004590 computer program Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 10
- 230000005284 excitation Effects 0.000 claims description 5
- 230000001052 transient effect Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 2
- 238000012935 Averaging Methods 0.000 claims 1
- 238000013139 quantization Methods 0.000 claims 1
- 230000007246 mechanism Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000000969 carrier Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000007493 shaping process Methods 0.000 description 2
- VWDWKYIASSYTQR-UHFFFAOYSA-N sodium nitrate Chemical compound [Na+].[O-][N+]([O-])=O VWDWKYIASSYTQR-UHFFFAOYSA-N 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000010972 statistical evaluation Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
- G10L19/125—Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
Description
前記第1の符号化アルゴリズムを用いて前記音声信号の部分を実際に符号化及び復号することなく前記第1の符号化アルゴリズムに関連付けられた前記音声信号の部分についての第1の品質測定値を推定するための第1推定部と、
前記第2の符号化アルゴリズムを用いて前記音声信号の部分を実際に符号化及び復号することなく前記第2の符号化アルゴリズムに関連付けられた前記音声信号の部分についての第2の品質測定値を推定するための第2推定部と、
前記第1の品質測定値及び前記第2の品質測定値の比較に基づいて前記第1の符号化アルゴリズム又は前記第2の符号化アルゴリズムを選択するための制御部と、を備える装置を提供する。
前記第1の符号化アルゴリズムを用いて前記音声信号の部分を実際に符号化及び復号することなく前記第1の符号化アルゴリズムに関連付けられた前記音声信号の部分についての第1の品質測定値を推定するステップと、
前記第2の符号化アルゴリズムを用いて前記音声信号の部分を実際に符号化及び復号することなく前記第2の符号化アルゴリズムに関連付けられた前記音声信号の部分についての第2の品質測定値を推定するステップと、
前記第1の品質測定値及び前記第2の品質測定値の比較に基づいて前記第1の符号化アルゴリズム又は前記第2の符号化アルゴリズムを選択するステップと、を備える方法を提供する。
第1の(TCX)推定部は、音声信号40(入力信号)、重み付きLPC係数42及び重み付き音声信号44を入力として受け取る。
まず、ゲイン推定で用いられる変数を以下のように初期化する。
次に、以下の動作ブロックをNITER回(例えば、ここではNITER=10)だけ実行する。
2.オフセット=オフセット−fac
3.ener=0
4.i(0<=i<L/4)につき以下を行う。
5.ener>目標であれば、オフセット=オフセット+fac
繰り返しの結果がオフセット値である。繰り返しの後、グローバルゲインは、G=10^(オフセット/20)と推定される。
第2の推定部14は、前処理部22で既に計算された、重み付き音声信号44及び1組のピッチラグ48を受け取る。
xw(n−T),n=0,…,N
で近似され、ここでxwは、重み付き音声信号であり、Tは、対応のサブフレームのピッチラグであり、Nは、サブフレーム長である。従って、適応コードブックは、サブフレームをTだけ過去へずらしたものを用いることで近似される。このように、本発明の実施例においては、適応コードブックは極めて単純な態様で近似される。
Claims (37)
- 音声信号(40)の部分を符号化するための第1の特性を有する第1の符号化アルゴリズム及び第2の特性を有する第2の符号化アルゴリズムのうちの1つを選択することによって前記音声信号(40)の部分を符号化したものを得るための装置(10)であって、
前記第1の符号化アルゴリズムを用いて前記音声信号の部分を実際に符号化及び復号することなく前記第1の符号化アルゴリズムに関連付けられた前記音声信号の部分についての第1の品質測定値を推定するための第1推定部(12)と、
前記第2の符号化アルゴリズムを用いて前記音声信号の部分を実際に符号化及び復号することなく前記第2の符号化アルゴリズムに関連付けられた前記音声信号の部分についての第2の品質測定値を推定するための第2推定部(14)と、
前記第1の品質測定値及び前記第2の品質測定値の比較に基づいて前記第1の符号化アルゴリズム又は前記第2の符号化アルゴリズムを選択するための制御部(16)と、を備える、装置。 - 請求項1に記載の装置(10)であって、前記第1の符号化アルゴリズムは、音楽的及びノイズ的な信号に対してより好適な符号化アルゴリズムであり、前記第2の符号化アルゴリズムは、スピーチ的及びトランジェント的な信号に対してより好適な符号化アルゴリズムである、装置。
- 請求項2に記載の装置(10)であって、前記第1の符号化アルゴリズムは、変換符号化アルゴリズム、MDCT(修正離散余弦変換)ベースの符号化アルゴリズム又はTCX(変換符号化励振)符号化アルゴリズムであり、前記第2の符号化アルゴリズムは、CELP(コード励振線形予測)符号化アルゴリズム又はACELP(代数符号励振線形予測)符号化アルゴリズムである、装置。
- 請求項1から請求項3のうちの1つに記載の装置(10)であって、前記第1の推定部及び前記第2の推定部は、前記音声信号を重み付けしたものの部分に基づいてそれぞれの前記品質測定値を推定するように構成される、装置。
- 請求項1から請求項4のうちの1つに記載の装置(10)であって、前記第1の品質測定値及び前記第2の品質測定値は、前記音声信号を重み付けしたものの部分のSNR(信号対ノイズ比)又はセグメントSNRである、装置。
- 請求項1から請求項5のうちの1つに記載の装置(10)であって、前記第1の推定部(12)及び前記第2の推定部(14)は、前記音声信号を重み付けしたものの部分のエネルギーに基づき、且つ、それぞれの前記アルゴリズムによって前記信号部分を符号化した際に導入される推定歪みに基づいて、それぞれの前記品質測定値を推定するように構成され、前記第1の推定部(12)及び前記第2の推定部(14)は、前記音声信号を重み付けしたものの部分のエネルギーに応じて前記推定歪みを決定するように構成される、装置。
- 請求項1から請求項6のうちの1つに記載の装置(10)であって、前記第1の推定部(12)は、前記音声信号の部分を量子化した際に前記第1の符号化アルゴリズムにおいて用いられる量子化器が導入するであろう推定量子化器歪みを決定し、前記音声信号を重み付けしたものの部分のエネルギー及び前記推定量子化器歪みに基づいて前記第1の品質測定値を推定するように構成される、装置。
- 請求項7に記載の装置(10)であって、前記第1の推定部(12)は、前記第1の符号化アルゴリズムにおいて用いられる量子化器及びエントロピーコーダで符号化された際に前記音声信号の部分が所与の目標ビットレートをもたらすように前記音声信号の部分についてのグローバルゲインを推定するように構成され、第1の推定部(12)は更に、前記推定グローバルゲインに基づいて前記推定量子化器歪みを決定するように構成される、装置。
- 請求項8に記載の装置(10)であって、前記第1の推定部(12)は、前記推定グローバルゲインのパワーに基づいて前記推定量子化器歪みを決定するように構成される、装置。
- 請求項9に記載の装置(10)であって、前記第1の符号化アルゴリズムにおいて用いられる量子化器は、一様スカラ量子化器であり、前記第1の推定部(12)は、D=G*G/12の式を用いて前記推定量子化器歪みを決定するように構成され、ここで、Dは、推定量子化器歪みであり、Gは、推定グローバルゲインである、装置。
- 請求項7から請求項10のうちの1つに記載の装置(10)であって、前記第1の品質測定値は、前記重み付き音声信号の部分のセグメントSNRであり、前記第1の推定部(12)は、前記重み付き音声信号の部分における複数のサブ部分の各々に関連付けられた推定SNRを、前記重み付き音声信号における対応のサブ部分のエネルギー及び前記推定量子化器歪みに基づいて算出し、前記重み付き音声信号の部分のサブ部分に関連付けられたSNRの平均値を算出することによって前記セグメントSNRを推定して前記重み付き音声信号の部分についての推定セグメントSNRを得るように構成される、装置。
- 請求項1から請求項11のうちの1つに記載の装置(10)であって、前記第2の推定部(14)は、適応コードブックを用いて前記音声信号の部分を符号化した際に前記第2の符号化アルゴリズムにおいて用いられる前記適応コードブックが導入するであろう推定適応コードブック歪みを決定するように構成され、前記第2の推定部(14)は、前記音声信号を重み付けしたものの部分のエネルギー及び前記推定適応コードブック歪みに基づいて前記第2の品質測定値を推定するように構成される、装置。
- 請求項12に記載の装置(10)であって、前記音声信号の部分における複数のサブ部分の各々について、前記第2の推定部(14)は、前記重み付き音声信号のサブ部分を、前処理段階で決定されたピッチラグだけ過去へずらしたものに基づいて前記適応コードブックを近似し、前記重み付き音声信号の部分のサブ部分と近似適応コードブックとの誤差が最小になるように適応コードブックゲインを推定し、前記重み付き音声信号の部分のサブ部分と、前記適応コードブックゲインによってスケーリングされた近似適応コードブックとの誤差のエネルギーに基づいて前記推定適応コードブック歪みを決定するように構成される、装置。
- 請求項13に記載の装置(10)であって、前記第2の推定部(14)は、更に、前記音声信号の部分における各々のサブ部分について決定された推定適応コードブック歪みを、一定の因数だけ減少させるように構成される、装置。
- 請求項13又は請求項14に記載の装置(10)であって、前記第2の品質測定値は、前記重み付き音声信号の部分のセグメントSNRであり、前記第2の推定部(14)は、各々のサブ部分に関連付けられた推定SNRを、前記重み付き音声信号における対応のサブ部分のエネルギー及び前記推定適応コードブック歪みに基づいて算出し、前記サブ部分に関連付けられたSNRの平均値を算出することによって前記セグメントSNRを推定して前記重み付き音声信号の部分についての推定セグメントSNRを得るように構成される、装置。
- 請求項12に記載の装置(10)であって、前記第2の推定部(14)は、前記重み付き音声信号の部分を、前処理段階で決定されたピッチラグだけ過去へずらしたものに基づいて前記適応コードブックを近似し、前記重み付き音声信号の部分と近似適応コードブックとの誤差が最小になるように適応コードブックゲインを推定し、前記重み付き音声信号の部分と、前記適応コードブックゲインによってスケーリングされた近似適応コードブックとの誤差のエネルギーに基づいて前記推定適応コードブック歪みを決定するように構成される、装置。
- 請求項1から請求項16のうちの1つに記載の装置(10)であって、前記制御部(16)は、前記推定品質測定値同士を比較する際にヒステリシスを利用するように構成される、装置。
- 音声信号の部分を符号化するための装置(20)であって、請求項1から請求項17のうちの1つに記載の装置(10)と、前記第1の符号化アルゴリズムを実行するための第1のエンコーダステージ(26)と、前記第2の符号化アルゴリズムを実行するための第2のエンコーダステージ(28)と、を備え、前記符号化するための装置(20)は、前記制御部(16)による選択に応じて前記第1の符号化アルゴリズム又は前記第2の符号化アルゴリズムを用いて前記音声信号の部分を符号化するように構成される、符号化するための装置。
- 符号化及び復号するためのシステムであって、請求項18に記載の符号化するための装置(20)と、デコーダと、を備え、前記デコーダは、前記音声信号の部分を符号化したものと、アルゴリズムであって、それを用いて前記音声信号の部分を符号化し且つ前記音声信号の部分を符号化したものを復号するために用いられるアルゴリズムの指示とを受け取るように構成される、システム。
- 音声信号の部分を符号化するための第1の特性を有する第1の符号化アルゴリズム及び第2の特性を有する第2の符号化アルゴリズムのうちの1つを選択することによって前記音声信号の部分を符号化したものを得るための方法であって、
前記第1の符号化アルゴリズムを用いて前記音声信号の部分を実際に符号化及び復号することなく前記第1の符号化アルゴリズムに関連付けられた前記音声信号の部分についての第1の品質測定値を推定するステップと、
前記第2の符号化アルゴリズムを用いて前記音声信号の部分を実際に符号化及び復号することなく前記第2の符号化アルゴリズムに関連付けられた前記音声信号の部分についての第2の品質測定値を推定するステップと、
前記第1の品質測定値及び前記第2の品質測定値の比較に基づいて前記第1の符号化アルゴリズム又は前記第2の符号化アルゴリズムを選択するステップと、を備える、方法。 - 請求項20に記載の方法であって、前記第1の符号化アルゴリズムは、音楽的及びノイズ的な信号に対してより好適な符号化アルゴリズムであり、前記第2の符号化アルゴリズムは、スピーチ的及びトランジェント的な信号に対してより好適な符号化アルゴリズムである、方法。
- 請求項21に記載の方法であって、前記第1の符号化アルゴリズムは、変換符号化アルゴリズム、MDCT(修正離散余弦変換)ベースの符号化アルゴリズム又はTCX(変換符号化励振)符号化アルゴリズムであり、前記第2の符号化アルゴリズムは、CELP(符号励振線形予測)符号化アルゴリズム又はACELP(代数符号励振線形予測)符号化アルゴリズムである、方法。
- 請求項20から請求項22のうちの1つに記載の方法であって、前記第1の品質測定値及び前記第2の品質測定値は、前記音声信号を重み付けしたものの部分に基づいて推定される、方法。
- 請求項20から請求項23のうちの1つに記載の方法であって、前記第1の品質測定値及び前記第2の品質測定値は、前記音声信号を重み付けしたものの部分のSNR(信号対ノイズ比)又はセグメントSNRである、方法。
- 請求項20から請求項24のうちの1つに記載の方法であって、前記音声信号を重み付けしたものの部分のエネルギーに基づき、且つ、それぞれの前記アルゴリズムによって前記信号部分を符号化した際に導入される推定歪みに基づいて、それぞれの前記品質測定値を推定するステップと、前記音声信号を重み付けしたものの部分のエネルギーに応じて前記推定歪みを決定するステップ(108,116)と、を備える、方法。
- 請求項20から請求項25のうちの1つに記載の方法であって、前記音声信号の部分を量子化した際に前記第1の符号化アルゴリズムにおいて用いられる量子化器が導入するであろう推定量子化器歪みを決定するステップ(108)と、前記音声信号を重み付けしたものの部分のエネルギー及び前記推定量子化器歪みに基づいて前記品質測定値を推定するステップと、を備える、方法。
- 請求項26に記載の方法であって、前記第1の符号化アルゴリズムにおいて用いられる量子化器及びエントロピーコーダで符号化された際に前記音声信号の部分が所与の目標ビットレートをもたらすように前記音声信号の部分についてのグローバルゲインを推定するステップ(106)と、前記推定グローバルゲインに基づいて前記推定量子化器歪みを決定するステップ(108)と、を備える、方法。
- 請求項27に記載の方法であって、前記推定グローバルゲインのパワーに基づいて前記推定量子化器歪みを決定するステップを備える、方法。
- 請求項28に記載の方法であって、前記量子化器は、一様スカラ量子化器であり、前記推定量子化器歪みは、D=G*G/12の式を用いて決定され、ここで、Dは、推定量子化器歪みであり、Gは、推定グローバルゲインである、方法。
- 請求項26から請求項29のうちの1つに記載の方法であって、前記第1の品質測定値は、前記重み付き音声信号の部分のLPCフィルタリングしたもののセグメントSNRであり、前記方法は、前記重み付き音声信号の部分における複数のサブ部分の各々に関連付けられた推定SNRを、前記重み付き音声信号における対応のサブ部分のエネルギー及び前記推定量子化器歪みに基づいて算出し、前記重み付き音声信号の部分のサブ部分に関連付けられたSNRの平均値を算出することによって第1のセグメントSNRを推定して前記重み付き音声信号の部分についての推定セグメントSNRを得るステップを備える、方法。
- 請求項20から請求項30のうちの1つに記載の方法であって、適応コードブックを用いて前記音声信号の部分を符号化した際に前記第2の符号化アルゴリズムにおいて用いられる適応コードブックが導入するであろう推定適応コードブック歪みを決定するステップ(116)と、前記音声信号を重み付けしたものの部分のエネルギー及び前記推定適応コードブック歪みに基づいて前記第2の品質測定値を推定するステップと、を備える、方法。
- 請求項31に記載の方法であって、前記音声信号の部分における複数のサブ部分の各々について、前記重み付き音声信号のサブ部分を、前処理段階で決定されたピッチラグだけ過去へずらしたものに基づいて前記適応コードブックを近似するステップ(112)と、前記重み付き音声信号の部分のサブ部分と近似適応コードブックとの誤差が最小になるように適応コードブックゲインを推定するステップ(114)と、前記重み付き音声信号の部分のサブ部分と、前記適応コードブックゲインによってスケーリングされた近似適応コードブックとの誤差のエネルギーに基づいて前記推定適応コードブック歪みを決定するステップ(116)と、を備える、方法。
- 請求項32に記載の方法であって、前記音声信号の部分における各々のサブ部分について決定された推定適応コードブック歪みを、一定の因数だけ減少させるステップ(118)を備える、方法。
- 請求項32又は請求項33に記載の方法であって、前記第2の品質測定値は、前記重み付き音声信号の部分のセグメントSNRであり、前記方法は、各々のサブ部分に関連付けられた推定SNRを、前記重み付き音声信号における対応のサブ部分のエネルギー及び前記推定適応コードブック歪みに基づいて推定し、前記サブ部分に関連付けられたSNRの平均値を算出することによって前記セグメントSNRを推定して前記重み付き音声信号の部分についての推定セグメントSNRを得るステップを備える、方法。
- 請求項31に記載の方法であって、前記重み付き音声信号の部分を、前処理段階で決定されたピッチラグだけ過去へずらしたものに基づいて前記適応コードブックを近似するステップと、前記重み付き音声信号の部分と近似適応コードブックとの誤差が最小になるように適応コードブックゲインを推定するステップと、前記重み付き音声信号の部分と、前記適応コードブックゲインによってスケーリングされた近似適応コードブックとの誤差のエネルギーに基づいて前記推定適応コードブック歪みを決定するステップと、を備える、方法。
- 請求項20から請求項35のうちの1つに記載の方法であって、前記推定品質測定値同士を比較する際にヒステリシスを利用するステップを備える、方法。
- コンピュータにおいて実行された際に請求項20から請求項36のうちの1つに記載の方法を実行するためのプログラムコードを有するコンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361758100P | 2013-01-29 | 2013-01-29 | |
US61/758,100 | 2013-01-29 | ||
PCT/EP2014/051557 WO2014118136A1 (en) | 2013-01-29 | 2014-01-28 | Apparatus and method for selecting one of a first audio encoding algorithm and a second audio encoding algorithm |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016505902A true JP2016505902A (ja) | 2016-02-25 |
JP6148810B2 JP6148810B2 (ja) | 2017-06-14 |
Family
ID=50033499
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015554187A Active JP6148810B2 (ja) | 2013-01-29 | 2014-01-28 | 第1の符号化アルゴリズム及び第2の符号化アルゴリズムのうちの1つを選択するための装置及び方法 |
Country Status (19)
Country | Link |
---|---|
US (4) | US20150332698A1 (ja) |
EP (1) | EP2951820B1 (ja) |
JP (1) | JP6148810B2 (ja) |
KR (1) | KR101701081B1 (ja) |
CN (2) | CN110517700B (ja) |
AR (1) | AR094676A1 (ja) |
AU (1) | AU2014211583B2 (ja) |
BR (1) | BR112015018021B1 (ja) |
CA (1) | CA2899013C (ja) |
ES (1) | ES2616434T3 (ja) |
HK (1) | HK1218461A1 (ja) |
MX (1) | MX347410B (ja) |
MY (1) | MY189267A (ja) |
PL (1) | PL2951820T3 (ja) |
PT (1) | PT2951820T (ja) |
RU (1) | RU2618848C2 (ja) |
SG (1) | SG11201505947XA (ja) |
TW (1) | TWI549120B (ja) |
WO (1) | WO2014118136A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021521476A (ja) * | 2018-04-11 | 2021-08-26 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 機械学習に基づく音声符号化及び復号のための知覚に基づく損失関数 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2951820B1 (en) * | 2013-01-29 | 2016-12-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for selecting one of a first audio encoding algorithm and a second audio encoding algorithm |
EP2830051A3 (en) | 2013-07-22 | 2015-03-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals |
CN105096958B (zh) | 2014-04-29 | 2017-04-12 | 华为技术有限公司 | 音频编码方法及相关装置 |
PT3000110T (pt) | 2014-07-28 | 2017-02-15 | Fraunhofer Ges Forschung | Seleção de um de entre um primeiro algoritmo de codificação e um segundo algoritmo de codificação com o uso de redução de harmônicos. |
JP2016218345A (ja) * | 2015-05-25 | 2016-12-22 | ヤマハ株式会社 | 音素材処理装置および音素材処理プログラム |
WO2017050398A1 (en) * | 2015-09-25 | 2017-03-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder, decoder and methods for signal-adaptive switching of the overlap ratio in audio transform coding |
US10225730B2 (en) * | 2016-06-24 | 2019-03-05 | The Nielsen Company (Us), Llc | Methods and apparatus to perform audio sensor selection in an audience measurement device |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012110448A1 (en) * | 2011-02-14 | 2012-08-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1408146A (zh) | 2000-11-03 | 2003-04-02 | 皇家菲利浦电子有限公司 | 音频信号的参数编码 |
US6934676B2 (en) * | 2001-05-11 | 2005-08-23 | Nokia Mobile Phones Ltd. | Method and system for inter-channel signal redundancy removal in perceptual audio coding |
DE10124420C1 (de) * | 2001-05-18 | 2002-11-28 | Siemens Ag | Verfahren zur Codierung und zur Übertragung von Sprachsignalen |
DE102004007200B3 (de) * | 2004-02-13 | 2005-08-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audiocodierung |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
FI118835B (fi) | 2004-02-23 | 2008-03-31 | Nokia Corp | Koodausmallin valinta |
FI119533B (fi) * | 2004-04-15 | 2008-12-15 | Nokia Corp | Audiosignaalien koodaus |
JP2007538282A (ja) * | 2004-05-17 | 2007-12-27 | ノキア コーポレイション | 各種の符号化フレーム長でのオーディオ符号化 |
US7739120B2 (en) | 2004-05-17 | 2010-06-15 | Nokia Corporation | Selection of coding models for encoding an audio signal |
CN101124626B (zh) * | 2004-09-17 | 2011-07-06 | 皇家飞利浦电子股份有限公司 | 用于最小化感知失真的组合音频编码 |
US20090063158A1 (en) | 2004-11-05 | 2009-03-05 | Koninklijke Philips Electronics, N.V. | Efficient audio coding using signal properties |
EP1990799A1 (en) * | 2006-06-30 | 2008-11-12 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic |
US7873511B2 (en) * | 2006-06-30 | 2011-01-18 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic |
US7953595B2 (en) | 2006-10-18 | 2011-05-31 | Polycom, Inc. | Dual-transform coding of audio signals |
JP4984983B2 (ja) * | 2007-03-09 | 2012-07-25 | 富士通株式会社 | 符号化装置および符号化方法 |
US8527265B2 (en) * | 2007-10-22 | 2013-09-03 | Qualcomm Incorporated | Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs |
EP2144230A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
EP2146344B1 (en) | 2008-07-17 | 2016-07-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding/decoding scheme having a switchable bypass |
KR101649376B1 (ko) * | 2008-10-13 | 2016-08-31 | 한국전자통신연구원 | Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치 |
WO2011048118A1 (en) * | 2009-10-20 | 2011-04-28 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio signal encoder, audio signal decoder, method for providing an encoded representation of an audio content, method for providing a decoded representation of an audio content and computer program for use in low delay applications |
WO2012032759A1 (ja) * | 2010-09-10 | 2012-03-15 | パナソニック株式会社 | 符号化装置及び符号化方法 |
EP2951820B1 (en) * | 2013-01-29 | 2016-12-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for selecting one of a first audio encoding algorithm and a second audio encoding algorithm |
PT3000110T (pt) * | 2014-07-28 | 2017-02-15 | Fraunhofer Ges Forschung | Seleção de um de entre um primeiro algoritmo de codificação e um segundo algoritmo de codificação com o uso de redução de harmônicos. |
-
2014
- 2014-01-28 EP EP14702505.0A patent/EP2951820B1/en active Active
- 2014-01-28 MY MYPI2015001901A patent/MY189267A/en unknown
- 2014-01-28 PL PL14702505T patent/PL2951820T3/pl unknown
- 2014-01-28 RU RU2015136467A patent/RU2618848C2/ru active
- 2014-01-28 KR KR1020157020596A patent/KR101701081B1/ko active IP Right Grant
- 2014-01-28 CN CN201910556401.8A patent/CN110517700B/zh active Active
- 2014-01-28 JP JP2015554187A patent/JP6148810B2/ja active Active
- 2014-01-28 PT PT147025050T patent/PT2951820T/pt unknown
- 2014-01-28 ES ES14702505.0T patent/ES2616434T3/es active Active
- 2014-01-28 WO PCT/EP2014/051557 patent/WO2014118136A1/en active Application Filing
- 2014-01-28 CN CN201480019093.0A patent/CN105229736B/zh active Active
- 2014-01-28 BR BR112015018021-3A patent/BR112015018021B1/pt active IP Right Grant
- 2014-01-28 SG SG11201505947XA patent/SG11201505947XA/en unknown
- 2014-01-28 CA CA2899013A patent/CA2899013C/en active Active
- 2014-01-28 MX MX2015009745A patent/MX347410B/es active IP Right Grant
- 2014-01-28 AU AU2014211583A patent/AU2014211583B2/en active Active
- 2014-01-29 AR ARP140100292A patent/AR094676A1/es active IP Right Grant
- 2014-01-29 TW TW103103528A patent/TWI549120B/zh active
-
2015
- 2015-07-29 US US14/812,138 patent/US20150332698A1/en not_active Abandoned
-
2016
- 2016-06-06 HK HK16106405.8A patent/HK1218461A1/zh unknown
-
2018
- 2018-10-01 US US16/148,993 patent/US10622000B2/en active Active
-
2020
- 2020-03-31 US US16/836,857 patent/US11521631B2/en active Active
-
2022
- 2022-11-23 US US18/058,389 patent/US11908485B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012110448A1 (en) * | 2011-02-14 | 2012-08-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021521476A (ja) * | 2018-04-11 | 2021-08-26 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 機械学習に基づく音声符号化及び復号のための知覚に基づく損失関数 |
JP7387634B2 (ja) | 2018-04-11 | 2023-11-28 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 機械学習に基づく音声符号化及び復号のための知覚に基づく損失関数 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11908485B2 (en) | Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm | |
US10706865B2 (en) | Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm using harmonics reduction | |
JP5914527B2 (ja) | 過渡検出及び品質結果を使用してオーディオ信号の一部分を符号化する装置及び方法 | |
CA2910878C (en) | Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm using harmonics reduction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161201 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170425 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170520 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6148810 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |