JP2011518345A - スピーチライク信号及びノンスピーチライク信号のマルチモードコーディング - Google Patents

スピーチライク信号及びノンスピーチライク信号のマルチモードコーディング Download PDF

Info

Publication number
JP2011518345A
JP2011518345A JP2010550849A JP2010550849A JP2011518345A JP 2011518345 A JP2011518345 A JP 2011518345A JP 2010550849 A JP2010550849 A JP 2010550849A JP 2010550849 A JP2010550849 A JP 2010550849A JP 2011518345 A JP2011518345 A JP 2011518345A
Authority
JP
Japan
Prior art keywords
speech
signal
codebook
excitation
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010550849A
Other languages
English (en)
Other versions
JP2011518345A5 (ja
Inventor
ユー、ロンシャン
ラドハクリシュナン、レグナサン
アンダーソン、ロバート・エル
ダヴィッドソン、グラント・エー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of JP2011518345A publication Critical patent/JP2011518345A/ja
Publication of JP2011518345A5 publication Critical patent/JP2011518345A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/093Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本発明は、スピーチライク信号成分及びノンスピーチライク信号成分の両方を含むことがあるオーディオ信号のコーディングに関する。本発明は、LPCパラメータと、少なくとも1つのコードブックがノンスピーチライク信号に適した励振をもたらし、少なくとも1つのコードブックがピーチライク信号に適した励振をもたらす、コードベクトルを有する複数のコードブックと、それぞれがコードブックに関連づけられた複数の利得係数とにより制御される線型予測コーディング(LPC)合成フィルタを採用する、符号励振線形予測(CELP)オーディオエンコーディングとデコーディングの方法及び装置である。エンコーディングの方法及び装置は、オーディオ信号とコードブック励振から導き出した再構成したオーディオ信号との測度を最小にすることで、コードブックからコードベクトル及び/又は関連する利得係数を選択する。デコーディングの方法及び装置は、LPCパラメータ、コードベクトル、及び利得係数から、再構成した出力を生成する。

Description

(関連出願の相互参照)
本出願は、2008年3月14日出願の米国暫定特許出願番号61/069,449に基づく優先権を主張する。この暫定特許出願はそのすべてを参照として本明細書に組み込むものとする。
本発明は、特に、同時的な及び/又は時間的に連続するスピーチライク信号成分及びノンスピーチライク信号成分を含むオーディオ信号のエンコーディング及びデコーディングの方法及び装置に関する。スピーチライク信号コンテンツ及びノンスピーチライク信号コンテンツの変化に応じてエンコーディング特性及びデコーディング特性を変化させることのできるオーディオエンコーダー及びオーディオデコーダーは、技術的に、しばしば「マルチモード」「コーディック」(ここで、「コーディック」はエンコーダー及びデコーダーとすることができる)と称される。本発明はまた、オーディオ信号のエンコーディング及びデコーディングのような方法を実施するために記録媒体に記録させたコンピュータプログラムに関する。
本明細書全般において、「スピーチライク信号」は、a)単一の強い周期性を持つ成分(「有声」スピーチライク信号)、b)周期性のないランダムノイズ(「無声」スピーチライク信号)、又はc)このような信号タイプ間での変わり目、のいずれかを具備する信号を意味する。スピーチライク信号の例には、一人の話者からのスピーチ及び単一の楽器で演奏された音楽が含まれる。そして、ノンスピーチライク信号は、スピーチライク信号の特徴を有しない信号を意味する。ノンスピーチライク信号の例には、複数の楽器からの音楽信号及び異なる音の高さを持つ複数の話者(人間)の混ざり合ったスピーチが含まれる。
本発明の第1の特徴によれば、符号励振線形予測(CELP)オーディオエンコーディングの方法は、LPCパラメータにより制御されるLPC合成フィルタと、それぞれがコードベクトルを有する複数のコードブックであって、少なくとも1つのコードブックはノンスピーチライク信号よりスピーチライク信号に適した励振をもたらすことを特徴とし、少なくとも1つの他のコードブックは、スピーチライク信号よりノンスピーチライク信号に適した励振をもたらすことを特徴とする、コードブックと、それぞれがコードブックに関連づけられた複数の利得係数とを採用する。この方法は、LPCパラメータを生成するためにオーディオ信号に線型予測コーディング(LPC)分析を適用するステップと、オーディオ信号とコードブック励振から導き出した再構成したオーディオ信号との差異の測度を最小にすることで、少なくとも2つのコードブックからコードベクトル及び/又は関連する利得係数を選択するステップであって、これらのコードブックには、ノンスピーチライク信号に適した励振をもたらすコードブックと、スピーチライク信号に適した励振をもたらすコードブックとが含まれることを特徴とするステップと、オーディオ信号を再構成するためにCELPオーディオデコーダーで使用可能な出力を生成するステップであって、該出力にはLPCパラメータとコードベクトルと利得係数とが含まれることを特徴とするステップと、を具備する。前記最小にすることでは、再構成したオーディオ信号とオーディオ信号との差異を、クローズドループ方式で最小化することもできる。差異の測度は、知覚的に重み付けした測度とすることができる。
変化した形態において、そのコードブックの励振出力がスピーチライク信号よりノンスピーチライク信号に適するようなコードブックから導き出された信号は、線型予測コーディング合成フィルタでフィルタしなくてもよい。
ノンスピーチライク信号よりスピーチライクに適した励振出力をもたらす前記少なくとも1つのコードブックには、ノイズライクな励振を生成するコードブックと周期的励振を生成するコードブックとを含むことができ、励振出力がスピーチライク信号よりノンスピーチライク信号に適した励振をもたらす前記少なくとも1つの他のコードブックには、知覚的オーディオエンコーダーをエミュレートするのに役立つ正弦曲線の励振を生成するコードブックを含むことができる。
この方法は、LTPパラメータを生成するためにオーディオ信号に長期予測(LTP)分析を適用するステップであって、周期的励振を生成するコードブックは、LTPパラメータにより制御され、少なくとも前記周期的励振と前記ノイズライクな励振とを時間遅れさせて結合した信号入力として受け取る適応コードブックであり、前記出力にはさらにLTPパラメータが含まれることを特徴とするステップをさらに具備することができる。
前記適応コードブックは、選択的に、信号入力として、周期的励振とノイズライクな励振と正弦曲線の励振とを時間遅れさせた結合、又は、周期的励振とノイズライクな励振とを時間遅れさせた結合のいずれかを受け取ることができ、前記出力には、前記適応コードブックが励振の結合中に正弦曲線の励振を受け取ったかどうかの情報をさらに含めることができる。
この方法は、オーディオ信号を複数の信号のクラスの1つにクラス分けするステップと、このクラス分けに応じて動作モードを選択するステップと、オープンループ手法により、励振出力に寄与させるために、1以上のコードブックを選択するステップをさらに具備することができる。
この方法は、動作モードを選択するための信頼性レベルを決定するステップであって、高信頼性レベルを含む少なくとも2つの信頼性レベルがあることを特徴とするステップと、オープンループ手法により、信頼性レベルが高いときのみ、もっぱら励振にのみ寄与する1以上のコードブックを選択するステップとを、さらに、具備することができる。
本発明のもう1つの特徴によれば、符号励振線形予測(CELP)オーディオエンコーディングの方法は、LPCパラメータにより制御されるLPC合成フィルタと、それぞれがコードベクトルを有する複数のコードブックであって、少なくとも1つのコードブックはノンスピーチライク信号よりスピーチライク信号に適した励振をもたらすことを特徴とし、少なくとも1つの他のコードブックは、スピーチライク信号よりノンスピーチライク信号に適した励振をもたらすことを特徴とする、コードブックと、それぞれがコードブックに関連づけられた複数の利得係数とを採用する。この方法は、オーディオ信号をスピーチライク信号成分とノンスピーチライク信号成分とに分離するステップと、LPCパラメータを生成するためにオーディオ信号のスピーチライク信号成分に線型予測コーディング(LPC)分析を適用するステップと、コードベクトルの選択及び/又はノンスピーチライク信号よりスピーチライク信号に適した励振出力をもたらすコードブックに関連させた利得係数を変化させることにより、LPC合成フィルタ出力とオーディオ信号のスピーチライク信号成分との差異を最小化するステップと、コードベクトルの選択及び/又はスピーチライク信号よりノンスピーチライク信号に適した励振出力をもたらすコードブックに関連させた利得係数を変化させるステップと、オーディオ信号の近似値を生成するためにCELPオーディオデコーダーで用いることのできる出力をもたらすステップであって、該出力には、コードベクトルの選択及び/又は各コードブックと関連付けた利得と、LPCパラメータとが含まれることを特徴とするステップとを具備する。前記分離するステップでは、オーディオ信号をスピーチライク信号成分とノンスピーチライク信号成分とに分離することができる。
代替案の2つの変化した形態として、前記分離するステップでは、オーディオ信号からスピーチライク信号成分を分離し、オーディオ信号からスピーチライク信号成分を復元したものを減算することにより、ノンスピーチライク信号成分の近似値を導き出すことができ、又は、前記分離するステップでは、オーディオ信号からノンスピーチライク信号成分を分離し、オーディオ信号からノンスピーチライク信号成分を復元したものを減算することにより、スピーチライク信号成分の近似値を導き出すことができる。
第2の線型予測コーディング(LPC)合成フィルタを用意することができ、このような第2の線型予測コーディング合成フィルタにより、ノンスピーチライク信号成分を復元したものをフィルタすることができる。
ノンスピーチライク信号よりスピーチライク信号に適した励振出力をもたらす前記少なくとも1つのコードブックには、ノイズライクな励振を生成するコードブックと、周期的励振を生成するコードブックとを含むことができ、スピーチライク信号よりノンスピーチライク信号に適した励振出力をもたらす前記少なくとも1つのコードブックには、知覚的オーディオエンコーダーをエミュレートするのに役立つ正弦曲線の励振を生成するコードブックを含むことができる。
この方法は、LTPパラメータを生成するためにオーディオ信号のスピーチライク信号成分に長期予測(LTP)分析を適用するステップであって、この場合、周期的励振を生成するコードブックはLTPパラメータにより制御される適応コードブックとし、前記周期的励振と前記ノイズライクな励振とを時間遅れさせて結合した信号入力として受け取ることができる。
スピーチライク信号よりノンスピーチライク信号に適した励振出力をもたらすコードブックと関連づけられた、コードブックベクトルの選択及び/又は利得係数は、スピーチライク信号に応じて変化させることができる。
スピーチライク信号よりノンスピーチライク信号に適した励振出力をもたらすコードブックと関連づけられた、コードブックベクトルの選択及び/又は利得係数は、このノンスピーチライク信号とこのようなコードブックから復元された信号との差異を減少させるために変化することがある。
本発明の第3の特徴によれば、符号励振線形予測(CELP)オーディオデコーディングは、LPCパラメータにより制御されるLPC合成フィルタと、それぞれがコードベクトルを有する複数のコードブックであって、少なくとも1つのコードブックはスピーチライク信号よりノンスピーチライク信号に適した励振をもたらし、他の少なくとも1つのコードブックはスピーチライク信号よりノンスピーチライク信号に適した励振をもたらすことを特徴とするコードブックと、それぞれがコードブックに関連づけられた複数の利得係数とを採用する。この方法は、パラメータとコードベクトルと利得係数とを受け取るステップと、少なくとも1つのコードブック励振出力からLPC合成フィルタのための励振信号を導き出すステップと、LPCフィルタの出力又はLPC合成フィルタの出力と1つ以上のコードブックの励振の組み合わせからオーディオ出力信号を導き出すステップとを具備し、該組み合わせは、コードブックの各々と関連づけられたコードベクトル及び/又は利得係数により制御される。
ノンスピーチライク信号よりスピーチライク信号に適した励振出力をもたらす少なくとも1つのコードブックには、ノイズライクな励振を生成するコードブックと、周期的励振を生成するコードブックとを含むことができ、スピーチライク信号よりノンスピーチライク信号に適した励振出力をもたらす少なくとも1つの他のコードブックには、知覚的オーディオエンコーダーをエミュレートするのに役立つ正弦曲線の励振を生成するコードブックを含むことができる。
周期的励振を生成するコードブックは、LTPパラメータにより制御される適応コードブックとすることができ、少なくとも前記周期的励振と前記ノイズライクな励振とを時間遅れさせて結合した信号入力として受け取ることができ、前記方法は、LTPパラメータを受け取るステップをさらに具備することができる。
コードブックの全ての励振はLPCフィルタに適用することができ、前記適応コードブックは、選択的に、信号入力として、周期的励振とノイズライクな励振と正弦曲線の励振とを時間遅れさせた結合、又は、周期的励振とノイズライクな励振とだけを時間遅れさせた結合のいずれかを受け取ることができ、前記方法は、前記適応コードブックが励振の結合中に正弦曲線の励振を受け取ったかどうかの情報を受け取るステップをさらに具備することができる。
LPCフィルタの出力からオーディオ出力信号を導き出すステップにはポストフィルタを行うステップを含むことができる。
本発明の特徴に係るオーディオクラス分け階層決定ツリーの1つの例を示す。 本発明の特徴に係るオーディオクラス分け階層決定ツリーのもう1つの例を示す。 オーディオサンプルブロックを統計データに基づきクラス分けすることのできる、本発明の特徴に係るオーディオクラス分け階層決定ツリーのさらなる例を示す。 スピーチライク信号及びノンスピーチライク信号の結合をエンコーダーにおいて、スピーチライク信号成分及びノンスピーチライク信号成分に分離し、それぞれ、スピーチライク信号エンコーダー及びノンスピーチライク信号エンコーダーによりエンコードし、それぞれ、デコーダーにおいて、スピーチライク信号デコーダー及びノンスピーチライク信号デコーダーによりデコードし、そして結合する方法を示す本発明の特徴によるエンコード方法デコード方法又は装置の概念的ブロック図である。 図4aで示した方法に対する代替的な方法で実施する信号の分離における、本発明の特徴に係るエンコード方法デコード方法又は装置の概念的ブロック図である。 スピーチライク信号エンコーダー及びノンスピーチライク信号エンコーダーに共通する機能がそれぞれのエンコーダーから分離する、図4aの構成の変形を示した発明の特徴によるエンコード方法デコード方法又は装置の概念的機能ブロック図である。 スピーチライク信号とノンスピーチライク信号とを結合下信号をスピーチライク信号成分とノンスピーチライク信号成分とに分離する前にエンコーダーにおいて、処理し、部分的にデコードした結合した信号をデコーダーで共通にデコードするために、スピーチライク信号エンコーダー及びノンスピーチライク信号エンコーダーに共通する要素がそれぞれのエンコーダーから分離する、図5aの構成の変形を示した発明の特徴に係るエンコード方法デコード方法又は装置の概念的機能ブロック図である。 図4,5a,5b,7c,及び7dに示した信号分離装置又は機能の実施に用いることのできる周波数分析ベースの信号分離方法又は装置の概念的機能ブロック図である。 本発明の特徴に係る統合されたスピーチライク信号エンコーダー/ノンスピーチライク信号エンコーダーの実施例の第1の変形例の概念的機能ブロック図である。この変形例において、エンコーディングツールとパラメータの選択は、クローズドループ手法により全体的な復元誤差を最小限にすることで行うことができる。 本発明の特徴に係る統合されたスピーチライク信号エンコーダー/ノンスピーチライク信号エンコーダーの実施例の第2の変形例の概念的機能ブロック図である。この変形例において、エンコーディングツールの選択は、信号のクラス分けの結果に応じて行うことができる。パラメータは、図7aの例のような、クローズドループ手法により全体的な復元誤差を最小限にすることで行うことができる。 本発明の特徴に係る統合されたスピーチライク信号エンコーダー/ノンスピーチライク信号エンコーダーの実施例の第3の変形例の概念的機能ブロック図である。この変形例では、信号分離を採用する。 分離経路が(図4bの手法により)相互に依存する、図7cの変形例を示す概念的機能ブロック図である。 図7a,7b,7c,7dの実施例のエンコーダー内の1つの例で用いることのできるデコーダーの概念的機能ブロック図である。該デコーダーは本質的に図7a及び7bの実施例のローカルデコーダーと同一である。 図7a,7b,7c,7dの実施例のエンコーダー内の他の1つの例で用いることのできるデコーダーの概念的機能ブロック図である。
(発明の詳細な説明)
[コンテンツ分析に基づくオーディオのクラス分け]
オーディオコンテンツ分析は、オーディオセグメントをスピーチライク信号、ノンスピーチライク信号、等のようないくつかのオーディオのクラスの内の1つにクラス分けすることを手助けすることができる。入ってくるオーディオ信号の形式を知ることにより、オーディオエンコーダーは、特定のオーディオのクラスに適するモードを選択することにより、そのコーディングモードを信号特性の変更に適するようにすることができる。
入力オーディオ信号が圧縮データとして与えられると、第1のステップではこれを種々の長さのサンプルブロックに分割し、長いブロック長(AAC(アドバンストオーディオコーディング)知覚コーディングの場合は、例えば、42.6ミリセカンド)は、信号の変動の無い部分に用いることができ、短いブロック長(AACの場合は、例えば、5.3ミリセカンド)は、信号の過渡的な部分又は信号の出だし部分に用いることができる。このAACサンプルブロック長は例示としてのみ示したものである。特定のサンプルブロック長が本発明にとって重要というわけではない。一般に、最適なサンプルブロック長は信号に依存する。代替的に、固定長のサンプルブロックを採用することもできる。次いで、各サンプルブロック(セグメント)は、スピーチライク、ノンスピーチライク、及びノイズライクのようないくつかのオーディオクラスの内の1つにクラス分けすることができる。分類器は、特定のオーディオクラスに属する入力セグメントの信頼度の高い類似性の測度を出力することもできる。信頼度が閾値より高ければ、閾値はユーザが決めるものであるが、オーディオエンコーダーは、特定のオーディオクラスをエンコードするのに適したエンコーディングツールで構成することができ、このようなツールはオープンループ手法で選択することができる。例えば、分析した入力信号が、高い信頼度でスピーチライクであるとのクラス分けがなされた場合、本発明の特徴に係るマルチモードオーディオエンコーダー又はマルチモードオーディオエンコーディング機能は、CELPベースのピーチライク信号コーディング方法を選択し、セグメントの圧縮を行うことができる。同様に、分析した入力信号が、高い信頼度でノンスピーチライクであるとのクラス分けがなされた場合、本発明の特徴に係るマルチモードオーディオエンコーダーは、AAC、AC−3、又はそのエミュレーションのような知覚的変換エンコーダー又は知覚的変換エンコーディング機能を選択し、セグメントの圧縮を行うことができる。
一方、分類器の信頼度が低いとき、エンコーダーは、エンコーディングモードのクローズドループ手法による選択を選ぶことができる。クローズドループ手法による選択では、エンコーダーは使用可能なコーディングモードの各々を用いて入力セグメントをコード化する。ビット量が与えられると、知覚の質が最も高くなるようなコーディングモードを選択することができる。クローズドループモードの選択は、オープンループモードの選択よりコンピュータに負荷がかかることは明らかである。従って、オープンループベースの選択とクローズドループベースの選択とを切り替えるために分類器の信頼度の測度を用いることは、結果として、分類器の信頼度が高いときはいつでもコンピュータの負荷を節減することができる、モード選択上のハイブリッドなアプローチとなる。
図1及び図2は、本発明の特徴に係るオーディオクラス分け階層決定ツリーの2つの例を示す。例示の階層の各々に関して、オーディオクラスを識別した後、オーディオエンコーダーは、エンコーディングツール及びエンコーディングパラメータの観点から、そのオーディオに適したコーディングモードを適切に選択する。
図1のオーディオクラス分け階層決定ツリーの例において、入力オーディオは、第1の階層レベルでスピーチライク信号(決定ノード102)又はノンスピーチライク信号(決定ノード104)として最初に識別される。次いで、低い階層レベルで、スピーチライク信号は、音声スピーチライク信号及び非音声スピーチライク信号の混合(決定ノード106)と、音声スピーチライク信号(決定ノード108)と、非音声スピーチライク信号(決定ノード110)として識別される。ノンスピーチライク信号は、低い階層レベルで、ノンスピーチライク信号(決定ノード112)又はノイズとして識別される。このように、結果として、音声スピーチライク信号及び非音声スピーチライク信号の混合、音声スピーチライク信号、非音声スピーチライク信号、ノンスピーチライク信号、及びノイズの、5つのクラスになる。
図2のオーディオクラス分け階層例において、入力オーディオは、第1の階層レベルでスピーチライク信号(決定ノード202)と、ノンスピーチライク信号(決定ノード204)と、ノイズ(決定ノード206)として最初に識別される。スピーチライク信号は次に、低い階層レベルで、音声スピーチライク信号及び非音声スピーチライク信号の混合(決定ノード208)と、音声スピーチライク信号(決定ノード210)と、非音声スピーチライク信号(決定ノード212)として識別される。この低い階層レベルで、ノンスピーチライク信号は、ボーカル(決定ノード214)と、非ボーカル(決定ノード216)として識別される。このようにして、音声スピーチライク信号及び非音声スピーチライク信号の混合、音声スピーチライク信号、非音声スピーチライク信号、ボーカル、非ボーカル、及びノイズの、6つのクラスになる。
オーディオ信号をその統計量をベースにクラス分けすることも可能である。特に、異なる形式のオーディオ及びスピーチライク信号エンコーダー及びデコーダーは、LPC分析、LTP分析、MDCT変換、等のような豊富な信号処理セットを提供することができ、多くの場合、これらのツールの各々は、特定の統計的特性を持つ信号をコーディングするのに適しているだけかもしれない。例えば、LTP分析は、スピーチライク信号の音声セグメントのような強い調波エネルギーを持つ信号をコーディングするのに非常に力のあるツールである。しかしながら、強い調波エネルギーを持たない他の信号に対して、LTP分析を適用することにより、普通は、コーディングゲインを得ることはできない。スピーチライク信号/ノンスピーチライク信号コーディングツールと、適切か不適切かの信号タイプの不十分なリストを表1として以下に示す。ビットの経済的な仕様の観点から、使用可能なスピーチライク信号/ノンスピーチライク信号コーディングツールの適合性に基づきオーディオ信号セグメントをクラス分けし、各セグメントに正しいツールのセットを割り当てるのが好ましい。従って、本発明の特徴に係るオーディオクラス分け階層のさらなる例を図3に示す。オーディオエンコーダーは、コーディングツール及びコーディングパラメータの観点からそのオーディオのクラスに適したコーディングモードを選択する。
Figure 2011518345
図3のオーディオクラス分け階層決定ツリーの例によれば、オーディオサンプルブロックはその統計量に基づき異なったタイプにクラス分けすることができる。各タイプは、スピーチライク信号/ノンスピーチライク信号コーディングツール又はこれらの組み合わせの特定のサブセットでコーディングするのに適しているであろう。
図3を参照して、オーディオセグメント302(セグメント)は、定常として又は過渡として識別される。定常セグメントは、低時間分解能窓304に適用され、過渡セグメントは高時間分解能窓306に適用される。高い調波エネルギーを有する窓化された定常セグメントは、LTP分析「オン」(308)にて処理され、低い調波エネルギーを有する窓化された定常セグメントは、LTP分析「オフ」(310)にて処理される。ブロック308から高い相関を持つ残差が得られたとき、そのセグメントはタイプ1(312)にクラス分けされる。ブロック308からノイズライクな残差が得られたとき、そのセグメントはタイプ2(314)にクラス分けされる。ブロック310から高い相関を持つ残差が得られたとき、そのセグメントはタイプ3(316)にクラス分けされる。ブロック310からノイズライクな残差が得られたとき、そのセグメントはタイプ4(318)にクラス分けされる。
図3の説明を続けると、高い調波エネルギーを有する窓化された過渡セグメントはLTP分析「「オン」(320)にて処理され、低い調波エネルギーを有する窓化された過渡セグメントはLTP分析「オフ」(322)にて処理される。ブロック320から高い相関を持つ残差が得られたとき、そのセグメントはタイプ5(324)にクラス分けされる。ブロック320からノイズライクな残差が得られたとき、そのセグメントはタイプ6(326)にクラス分けされる。ブロック322から高い相関を持つ残差が得られたとき、そのセグメントはタイプ7(328)にクラス分けされる。ブロック322からノイズライクな残差が得られたとき、そのセグメントはタイプ8(330)にクラス分けされる。
次のような例を考える。タイプ1では、定常的なオーディオが主要な調波成分を有する。主要な調波を除去した残差が依然としてサンプル間で相関を有するとき、そのオーディオセグメントは、ノンスピーチ信号のバックグランドと混じったスピーチライク信号の音声スピーチライク部分であろう。調波エネルギーを除去するための動作中のLTPにより、この信号を長い分析窓でコード化し、MDCT変換コーディングのような変換コーディングにより残差をエンコードするのが最適であろう。タイプ3では、サンプル間で高い相関を有する定常的なオーディオであるが、顕著な調波構造を有しない。これは、ノンスピーチライク信号であることがあり。このような信号は、LPC分析を行っても行わなくても、長い分析窓を採用するMDCT変換コーディングにより、有利にコード化することができる。タイプ7は、過渡信号中にノイズライク統計量を有する、過渡的なオーディオ波形である。特定のサウンド効果におけるバーストノイズ又はスピーチライク信号中の閉鎖子音であり、短い分析窓で有利にエンコードすることができ、ガウスコードブックによりVQ(ベクトル量子化)することができる。
[オープンループモードとクローズドループモードとの切り替えで動作する信頼基準]
図1〜3に示した階層への例示した3つのオーディオクラス分けの選択を終えたあと、入力オーディオから抽出した特徴に基づいて選んだ信号タイプを検出するために分類器を組み立てなければならない。この目的に向けて、分類器を組み立てることの目的となる信号のそれぞれために、トレーニングデータを集めることができる。例えば、定常的で高い調波エネルギーを持ついくつかの例示的なオーディオセグメントを、図3のタイプ1の信号タイプを検出するために集めることができる。クラス分けを行う基準に基づいて、各オーディオサンプルブロックのために抽出した特徴の数をMとする。特定の信号タイプを特徴付ける確立密度関数をモデル化するために混合ガウス分布モデル(GMM)を用いることができる。Yを抽出した特徴を表現するM次元のランダムベクトルとする。Kは、混合係数、平均、及び分散を示すパラメータのセット、π、μ、及びRの表記法で示した、混合ガウス分布の数を示す。パラメータの完全なセットは、Kとθ=(π,μ,R)とで与えられる。全シーケンスY(n=1,2...N)は以下のように表すことができる。
式1
Figure 2011518345
ここで、Nは、モデル化した特定の信号タイプのトレーニング例から抽出した特性ベクトルの総計である。パラメータK及びθは、データの類似性(式(1)で表現)を最大化したパラメータを推定する、期待値最大化アルゴリズムを用いて推定した。
トレーニング中に、一旦各信号タイプに対するモデルパラメータを学習すると、トレーニングされた全モデルにおける(新しいオーディオセグメントにクラス分けされる)入力特性ベクトルの類似性が計算される。入力オーディオセグメントは、最大類似基準に基づき信号タイプのどれか1つに属するものとしてクラス分けすることができる。入力オーディオの特性ベクトルの類似性は、信頼基準としての役割も果たす。
原則として、信号タイプの各々に対してトレーニングデータを集めることができ、オーディオセグメントを表す特性のセットを抽出することができる。そして、機械の学習能力(生成的な(GMM)又は差別的な(サポートベクターマシーン))を用いて、選択した特性空間において、信号タイプの決定境界を定めることをモデル化することができる。最後に、新しいどんな入力オーディオセグメントに対しても、学習により得られた決定境界からどれだけ離れているかを測定することができ、クラス分けの決定における信頼度を表すためにこの測定値を用いることができる。例えば、決定境界に近い入力特性ベクトルに対するクラス分けの決定は、決定境界から遠くはなれた特性ベクトルに対するよりも信頼度は小さくなるであろう。
このような信頼基準に対するユーザが定義した閾値を用いて、検出した信号タイプの信頼度が高いときオープンループモードを選択し、それ以外はクローズドループを選択することができる。
[マルチモードコーディングと結合した、信号分離を用いたスピーチライク信号オーディオコーディング]
本発明のさらなる特徴としてオーディオセグメントを1以上の信号成分に分離することが含まれる。セグメント内のオーディオにはしばしば、例えば、スピーチライク信号成分とノンスピーチライク信号成分の混合、又は、スピーチライク信号成分とバックグラウンドノイズ成分の混合が含まれる。このような場合、ノンスピーチライク信号よりスピーチライク信号に適したエンコーディングツールでスピーチライク信号成分をコード化するほうが有利であり、スピーチライク信号よりノンスピーチライク信号成分又はバックグラウンドノイズに適したエンコーディングツールでノンスピーチライク信号成分又はバックグラウンド成分をコード化するほうが有利である。デコーダーにおいて、成分信号は、別にデコードしそして再結合させることができる。このようなエンコーディングツールの性能を最大化するために、成分信号を分析し、成分信号の特性に基づきエンコーディングツール間で動的にビットを割り当てることが好ましいであろう。例えば、入力信号が純粋なスピーチライク信号からなるとき、適応結合ビット割当てにより、スピーチライク信号エンコーディングツールにできるだけ多くのビットを割当て、ノンスピーチライク信号エンコーディングツールにできるだけ少ないビットを割り当てることができる。ビットの最適な割当てを補助するために、成分信号自身に加えて信号分離装置又は信号分離機能からの情報を用いることができる。このようなシステムの簡単な線図を図4aに示す。その変形を図4bに示す。
図4aに示すとおり、最初に、オーディオセグメント内のスピーチライク信号成分とノンスピーチライク信号成分とを、信号分離装置又は信号分離機能(信号分離装置)402により分離し、続いて、具体的にこれらのタイプの信号を対象としたエンコーディングツールを用いてコード化する。ビットは、信号分離装置402からの情報のみならず、成分信号の特性にも基づいて、適応結合ビット割当て機能又は適応結合ビット割当て装置(適応結合ビット割当て装置)404によりエンコーディングツールに割り当てられる。図4aでは、2つの成分に分離することが示されているが、当業者は、信号分離装置402は信号を3つ以上の成分に分離すること、又は信号を図4aに示したものとは異なる成分に分離することができることを理解するであろう。信号分離は、本発明に本質的なものではなく、信号分離のどのような方法をも用いることができることに留意すべきである。分離されたスピーチライク信号成分及び情報は、それらのビット割当て情報を含めて、スピーチライク信号エンコーダー又はスピーチライク信号エンコーディング機能(スピーチライク信号エンコーダー)406に適用される。分離されたノンスピーチライク信号成分及び、それらのビット割当てを含む情報は、ノンスピーチライク信号エンコーダー又はノンスピーチライク信号ンコーディング機能(ノンスピーチライク信号エンコーダー)408に適用される。エンコードされたスピーチライク信号、エンコードされたノンスピーチライク信号、及びそれらのビット割当てを含む情報は、エンコーダーから出力され、デコーダーに送られ、そこで、スピーチライク信号デコーダー又はスピーチライク信号デコーディング機能(スピーチライク信号デコーダー)410がスピーチライク信号成分をデコードし、ノンスピーチライク信号デコーダー又はノンスピーチライク信号デコーディング機能(ノンスピーチライク信号デコーダー)412がノンスピーチライク信号成分をデコードする。信号再結合装置又は信号再結合機能(信号再結合装置)414はスピーチライク信号成分とノンスピーチライク信号成分とを受け取りこれらを再結合する。好ましい実施の形態においては、信号再結合装置414は成分信号を線型結合させるが、パワー保存結合などの、成分信号を結合する他の方法も可能であり、本発明の技術範囲に含まれる。
図4aの例の変形を図4bに例示する。図4bにおいて、セグメント内のスピーチライク信号を、スピーチライク信号とノンスピーチライク信号とを結合した信号から、信号分離装置又は信号分離機能(信号分離装置)402’(これは、2つの信号成分ではなく1つの信号成分の出力を必要とする点で信号分離装置402とは異なる)により、分離する。分離したスピーチライク信号成分は、特にスピーチライク信号を対象としたエンコーディングツール(スピーチエンコーダー)406を用いてコード化される。固定数のビットをスピーチライク信号エンコーディングに割り当てることができる。図4bの変形例において、ノンスピーチライク信号成分は、スピーチライク信号エンコーダー406を補完するものであり、スピーチデコーディング装置又はスピーチデコーディング処理(スピーチライク信号デコーダー)407において、スピーチライク信号成分をデコーディングし、結合した入力信号からこの信号成分を引き去る(線型減算装置又は線型減算機能を概略的に409に示した)ことにより取得することができる。減算演算により得られたこのノンスピーチ信号成分は、ノンスピーチライク信号エンコーディング装置又はノンスピーチライク信号エンコーディング機能(ノンスピーチライク信号エンコーダー)408’に適用される。エンコーダー408’は、ビットがエンコーダー406に使われなくても、用いることができる。代替的に、信号分離装置402’は、ノンスピーチライク信号成分を分離し、デコーディングした後、スピーチライク信号成分を取得するために、結合した入力信号からこれらの信号成分を減算することもできる。エンコードされたスピーチライク信号、エンコードされたノンスピーチライク信号、及びこれらの信号へのビット割当てを含む情報は、エンコーダーから出力され、デコーダーに送られ、そこで、スピーチライク信号デコーダー又はスピーチライク信号デコーディング機能(スピーチライク信号デコーダー)410がスピーチライク信号成分をデコードし、ノンスピーチライク信号デコーダー又はノンスピーチライク信号デコーディング機能(ノンスピーチライク信号デコーダー)412がノンスピーチライク信号成分をデコードする。信号再結合装置又は信号再結合機能(信号再結合装置)414は、スピーチライク信号成分とノンスピーチライク信号成分とを受け取り、これらを再結合する。好ましい実施の形態において、信号再結合装置414は、成分信号を線型結合するが、パワー保存結合のような成分信号を結合する他の方法も可能であり、本発明の技術範囲に含まれる。
図4a及び4bでは、各成分信号に用いられる独自のエンコーディングツールを示したが、多くの場合、複数の成分信号のそれぞれを処理するために1以上のエンコーディングツールを用いることは有益であろう。このような場合、図5aの構成で生じるような、各成分信号に対して重複する動作を行うより、分離する前に結合した信号に共通のエンコーディングツールを適用し、次いで、図5bに示すように、独自のエンコーディングツールを分離した後の成分信号に適用することもできることが本発明のもう1つの特徴である。分離は2つのうちのどちらの方法でも行われる。ひとつの方法は、(例えば、図4a及び図7cに示したような)直接的な分離である。直接的な分離の場合、エンコーディング前に分離したスピーチライク信号成分とノンスピーチライク信号成分は、元の入力信号と同じである。(例えば図4b及び図7dに示したような)もうひとつの方法によれば、ノンスピーチライク信号エンコーディングツールへの入力は、入力信号と(再構成した)エンコード/デコードされたスピーチライク信号との差(又は、代替的に、入力信号と(再構成した)エンコード/デコードされたノンスピーチライク信号との差)として生成される。どちらの場合でも、スピーチライク信号エンコーディングツール及びノンスピーチライク信号エンコーディングツールは、共通の骨組みに統合することができ、知覚的に動機付けられた歪み基準により結合した最適化が可能となる。このような興味深い骨組みは、図7a‐7dに示されている。
共通のエンコーディングツールにより処理を行うための具体的なタイプは、本発明にとって重要ではないが、例示的な共通のコーディングエンコーディングツールは、オーディオ帯域幅拡大である。多くのオーディオ帯域幅拡大方法は、当業者に知られており、本発明に用いるのに適している。さらに図5aが単一の共通エンコーディングツールを示しているだけである一方、場合によっては、1つ以上の共通のエンコーディングツールを用いることが有益であることを理解すべきである。最後に、図4aに示したシステムとともに、図5aと図5bに示した構成は、成分信号の特性に基づきエンコーディングツールの性能を最大化するために、適応結合ビット割当て機能又は適応結合ビット割当て装置を持つ。
図5aを参照して、この例において、信号分離装置(図4aの信号分離装置に相当する)は入力信号をスピーチライク信号成分とノンスピーチライク信号成分とに分離する。図5aは、主として、スピーチライク信号エンコーダー又はスピーチライク信号エンコーディング機能(スピーチライク信号エンコーダー)508とノンスピーチライク信号エンコーダー又はノンスピーチライク信号エンコーディング機能(ノンスピーチライク信号エンコーダー)510に適用される前にスピーチライク信号成分とノンスピーチライク信号成分のそれぞれを処理する、共通エンコーダー又は共通エンコーディング機能(共通エンコーダー)504及び506が存在する点で、図4aと異なる。共通エンコーダー504及び506は、お互いに共通するスピーチライク信号エンコーダー406の部分(図4a)と、ノンスピーチライク信号エンコーダー408の部分(図4a)とをエンコーディングすることができる。従って、スピーチライク信号エンコーダー508とノンスピーチライク信号エンコーダー510は、エンコーダー406及び408に共通するエンコーダー又はエンコーディング機能を持たない点でスピーチライク信号エンコーダー406とノンスピーチライク信号エンコーダー408と異なる。適応ビット割当て(図4aの適応ビット割当て404に相当する)は、信号分離装置502からの情報と、共通エンコーダー504及び506からの出力信号を受け取る。エンコードされたスピーチライク信号、エンコードされたノンスピーチライク信号、及びこれらのビット割当てを含む情報は、図5aのエンコーダーから出力され、デコーダーに送られ、そこで、スピーチライク信号デコーダー又はスピーチライク信デコーディング機能(スピーチライク信号デコーダー)514がスピーチライク信号成分を部分的にデコードし、ノンスピーチライク信号デコーダー又はノンスピーチライク信デコーディング機能(ノンスピーチライク信号デコーダー)516がノンスピーチライク信号成分を部分的にデコードする。第1と第2の共通デコーダー又はデコーディング機能(共通デコーダー)518及び520は、スピーチライク信号とノンスピーチライク信号のデコーディングを完成させる。この共通デコーダーは、相互に共通する、スピーチライク信号デコーダー410(図4)の一部及びノンスピーチライク信号デコーダー412(図4)の一部に対してデコーディングを行う。信号再結合装置又は信号再結合機能(信号再結合装置)522はスピーチライク信号とノンスピーチライク信号を受け取り、図4の再結合装置414と同様にしてこれらの信号を再結合する。
図5bを参照すると、この例は、共通エンコーダー又は共通エンコーディング機能(共通エンコーダー)501が信号分離装置502の前にあり、共通デコーダー又はデコーディング機能(共通デコーダー)524が信号再結合装置524の後にある点で、図5aと異なる。従って、2つの実質的に同一の共通エンコーダーと2つの実質的に同一の共通デコーダーを採用するという冗長性が除かれている。
[信号分離装置の実施]
スピーチライク信号成分とノンスピーチライク信号成分とを結合したものからそれぞれの信号を分離するブラインド信号源分離(BSS)技術は当業者に知られている(例えば以下に記載した文献7を参照)。一般に、これらの技術は、図4、5a、5b、及び7cに示した信号分離装置又は信号分離機能に実装するために本発明に組み込むことができる。図6aにおいて、周波数分析に基づく信号分離方法又は信号分離装置が記載されている。このような方法又は装置も、図4、5a、5b、及び7cに示した信号分離装置又は信号分離機能に実装するために本発明に組み込むことができる。図6の方法又は装置において、結合したスピーチライク信号/ノンスピーチライク信号x[n]は、分析フィルターバンク又はフィルターバンク機能(分析フィルターバンク)602を用いて周波数領域に変換されX[i,m]を生成する(ここで「i」は指数、「m」はサンプル信号ブロックの指数である)。各周波数帯域iに対して、スピーチライク信号がこの周波数帯域に含まれている尤度を測定するために、スピーチライク信号検出装置が用いられる。0と1の間の値を持つ一対の分離利得係数は、尤度に従い、スピーチライク信号検出装置により測定される。一般にサブ帯域iがスピーチライク信号から強いエネルギーを含有する大きな尤度がある場合、スピーチライク信号利得Gs(i)に0より1に近い値が割り当てられ、その他の場合に、1より0に近い値が割り当てられる。ノンスピーチライク信号利得Gm(i)は、以下の逆の規則で割り当てられる。スピーチライク信号利得とノンスピーチライク信号利得の適用は、スピーチライク信号検出装置604出力のブロック606の乗算記号への適用によって、概略的に示される。これらそれぞれの分離利得は、周波数帯域信号X[i,m]に適用され、その結果生じた信号は、それぞれの分析フィルターバンク又は分析フィルターバンク機能(分析フィルターバンク)608及び610により逆変換し、それぞれ分離したスピーチライク信号とノンスピーチライク信号とを生成する。
[統合したマルチモードオーディオエンコーダー]
本発明に特徴に係る統合したマルチモードオーディオエンコーダーは、異なった入力信号を扱うことができるよう種々のエンコーディングツールを有する。与えられた入力信号に対してツール及びそのパラメータを選択する3つの異なる方法は以下の通りである。
1)知覚誤差を最小にするクローズドループ処理を用いる。
2)上記信号クラス分け技術を用い、クラス分け結果に基づきツールを選択する(図7b、以下に記載)。
3)上記信号クラス分け技術を用い、クラス分けした信号を別のツールに送る(図7c及び7d、以下に記載)。入力信号をスピーチライク信号成分ストリームとノンスピーチライク信号成分ストリームに分離するために、信号分離ツールを加えることができる。
本発明の特徴に係る統合したスピーチライク信号/ノンスピーチライク信号エンコーダーの第1の変形例を、図7aに示す。この変形例において、エンコーディングツールとそのパラメータは、クローズドループ技法で全体的な再構成誤差を最小にすることにより選定される。
図7aの例を詳細に参照すると、入力スピーチライク信号/ノンスピーチライク信号は、例えばPCM(パルス符号変調)形式であり、長いブロック長を信号の定常的な部分に用い、短いブロック長を信号の過渡的な部分又は信号の開始期間に用いることのできるような、可変長さの信号サンプルブロックに入力信号を分割する機能又は装置である、「区分け」712に適用される。このような可変ブロック長への区分けは、それ自体は、当業者によく知られている。代替的に、固定長のサンプルブロックを採用することもできる。
この動作を理解するために、図7aの例によるエンコーダーは、クローズドループの分析毎の合成技法を採用する、修正したCELPエンコーダーと考えることができる。従来のCELPエンコーダーのように、適応コードブック又は適応コードブック機能(適応コードブック)716、標準コードブック又は標準コードブック機能(標準コードブック)718、及びLPC合成フィルタ(LPC合成フィルタ)720を含む、ローカルデコーダー又はローカルデコーディング機能(ローカルデコーダー)714が用意される。標準コードブックは、入ってきた信号の、周期性の無い「無声の」スピーチライクランダムノイズライク部分のコーディングに寄与し、ピッチ適応コードブックは、入ってきた信号の、強い周期成分を持つ「有声の」スピーチライク部分のコーディングに寄与する。従来のCELPエンコーダーとは異なり、この例におけるエンコーダーは、多くの楽器からの音楽、及び(人の)話者からの、異なるピッチの混じり合ったスピーチのような、入ってきた信号のノンスピーチライク部分のコーディングに寄与する、構造化正弦関数コードブック又は構造化正弦関数コードブック機能(構造化正弦関数コードブック)722も採用する。さらにこのコードブックの詳細について以下に説明する。
また、従来のCELPエンコーダーとは異なり、これらのコードブック(Gは適応コードブック、Gは標準コードブック、Gは構造化正弦関数コードブック)の各々は、すべてのコードブックからの可変比率の励振の選択を可能とする。制御ループには、LPC合成フィルタ(装置又は機能)720の残差信号と入ってきた入力信号との差(この差は減算装置又は減算機能726により導き出される)が最小になるよう、例えば、2乗平均誤差技法を用いて、標準コードブック718の場合は、励振コードベクトルとそのベクトルに対するスカラー利得係数Gを選択し、適応コードブック716の場合は、LTPピッチパラメータを適用した結果得られた励振コードベクトルに対するスカラー利得係数Gを選択し、構造化正弦関数コードブックの場合は、利得値G(各正弦関数コードベクトルが、原則的に励振信号に寄与する)、「最小化」装置又は機能724が含まれる。コードブック利得G、G、及びGは、ブロック728に適用した矢印により概略的に示されている。この図又は他の図において表示を簡単にするため、コードブックコードベクトルの選択については示されていない。MSE(2乗平均誤差)計算装置又は同機能(最小化)724は、入力信号から参照用として受け取った心理音響モデルを採用する知覚的に意味のある方法で、元の信号とローカルでデコードした信号との歪みを最小化させるために動作する。さらに以下に説明するように、クローズドループの検索は、標準コードブックスカラー利得及び適応コードブックスカラー利得に対してのみ実用的であり、オープンループ技法は、正弦関数励振に寄与する多数の利得の観点から、構造化正弦関数コードブック利得ベクトルに必要となろう。
図7aの例における他の従来のCELPの要素には、区分けされた入力信号を分析し、適応コードブック716中のLTP(長期予測)抽出装置又はLTP抽出機能(LTP抽出装置)732にピッチ期間の測度を適用する、ピッチ分析装置又はピッチ分析機能(ピッチ分析)730が含まれている。ピッチパラメータは、量子化装置又は量子化機能(Q)741により量子化され、また、エンコード(例えばエントロピーエンコーディング)することができる。ローカルデコーダーにおいて、量子化された、そしておそらくエンコードされたパラメータは、必要に応じて、逆量子化装置又は逆量子化機能(Q−1)743により逆量子化され、そしてLTP抽出装置732に適用される。適応コードブック716には、その入力として、(1)適応コードブック励振と標準コードブック励振の組み合わせ、又は(2)適応コードブック励振、標準コードブック励振、及び、構造化正弦関数コードブック励振の組み合わせのいずれかを受け取る、LTPバッファ又はメモリー734装置又は機能(LTPバッファ)が含まれる。励振の組み合わせ(1)又は組み合わせ(2)の選択は、スイッチ736で概略的に示されている。組み合わせ(1)又は組み合わせ(2)の選択は、ゲインベクトルの決定に加えて、クローズドループによる最小化手法により行われる。従来のCELPエンコーダーにあるように、LPC合成フィルタ720パラメータは、適用され区分けされた入力信号を、LPC分析装置又はLPC分析機能(LPC分析)738により、分析することにより取得することができる。これらのパラメータは、次いで、量子化装置又は量子化機能(Q)740により量子化し、そしてエンコード(例えばエントロピーエンコーディング)することができる。ローカルデコーダーにおいて、量子化された、そしておそらくエンコードされたパラメータは、必要に応じて、逆量子化装置又は逆量子化機能(Q−1)742により逆量子化され、そしてLPC合成フィルタ720に適用される。同様に、LTPパラメータは、量子化装置又は量子化機能(Q)741により量子化し、そしてエンコード(例えばエントロピーエンコーディング)することができる。ローカルデコーダーにおいて、量子化された、そしておそらくエンコードされたパラメータは、必要に応じて、逆量子化装置又は逆量子化機能(Q−1)743により逆量子化され、そしてLTP抽出装置732に適用される。
図7aの例の出力ビットストリームには、少なくとも(1)この例ではスイッチ736の位置だけである制御信号、スカラーゲインG及びG、利得値Gのベクトル、標準コードブック励振コードベクトル指標と適応コードブック励振コードベクトル指標、ピッチ分析730からのLTPパラメータ、及びLPC分析738からのLPCパラメータを含むことができる。ビットストリームの更新頻度は信号に依存させることができる。実際には、信号の区分けと同じ速さでビットストリーム成分の更新を行うことが有効である。通常は、このような情報は適切な方法でフォーマット化され、多重化され、適切な装置又は機能(マルチプレクサ)701により、エントロピーコード化されてビットストリームに入る。このような情報をデコーダーに伝達する他のどのような方法でも採用することができる。
図7aの例の代替として、構造化正弦関数コードブックのゲイン調整された出力を、LPC合成フィルタ720に適用する前に、他のコードブック励振と結合するのではなく、LPC合成フィルタ720の出力と結合させることができる。この場合、スイッチ736の効果はなくなる。また、さらに以下に説明するようにこの代替案は修正したデコーダーの使用を必要とする。
本発明の特徴に係る統合したスピーチライク信号/ノンスピーチライク信号エンコーダーの第2の変形例を、図7bに示す。この変形例において、エンコーディングツールの選定は、信号のクラス分けの結果に応じて動作するモード選択ツールにより行われる。パラメータは、図7aの例に示したようなクローズドループ技法で全体的な再構成誤差を最小にすることにより選定される。
説明を簡単にするために、図7bの例と図7aの例との間の差異についてのみ説明する。一般的に図7aに対応する装置及び機能は図7bにおいて同一の参照番号を付番する。一般的に対応する装置及び機能間での差異を以下に説明する。
図7bの例には、区分けされた入力スピーチライク信号/ノンスピーチライク信号が適用される信号クラス分け装置又は信号クラス分け機能(信号クラス分け)752が含まれる。信号クラス分け752は、図1〜3に関連して上述したクラス分けの仕組みのうちの1つ、又は信号のクラスを特定する他の適切なクラス分けの仕組みを採用する。信号クラス分け752はまた、信号のクラスの選択の信頼性のレベルも決定する。高レベルの低レベルの2つの信頼性のレベルとすることができる。モード選択装置又はモード選択機能(モード選択)754は、信号のクラスと信頼性のレベルの情報を受け取り、信頼性が高いとき、そのクラスに基づき、採用する1以上のコードブックを特定し、他の除外して1つ又は2つを選択する。信頼性のレベルが高いとき、モード選択754は、スイッチ736の位置も選択する。オープンループで選択したコードブックのコードブック利得ベクトルの選択は、クローズドループ手法で行われる。モード選択754の信頼性レベルが低いとき、図7bの例が図7aの例と同じように動作する。モード選択754は、ピッチ(LTP)分析とLPC分析(例えば、信号が顕著なピッチパターンを有しないとき)のどちらか一方又は両方のスイッチを切ることもできる。
図7bの例の出力ビットストリームには、少なくとも(1)この例では1つ以上のコードブックの選択が含まれる制御信号、それぞれの比率、スイッチ736の位置、ゲインG、G、及びG、コードブックコードベクトル指標、ピッチ分析730からのLTPパラメータ、及びLPC分析738からのLPCパラメータを含むことができる。通常は、このような情報は、適切な方法でフォーマット化され、多重化され、適切な装置又は機能(マルチプレクサ)701により、エントロピーコード化されてビットストリームに入る。このような情報をデコーダーに伝達する適切な他のどのような方法でも採用することができる。ビットストリームの更新頻度は信号に依存させることができる。実際には、信号の区分けと同じ速さでビットストリーム成分の更新を行うことが有効である。
図7aの例のエンコーダーに対して、図7bの例のエンコーダーは過去の励振信号中の構造化正弦関数コードブック722からの寄与を含めるかどうかの決定について、さらなる柔軟性を有する。この決定は、オープンループ手法又はクローズドループ手法により行うことができる。(図7aの例のような)クローズドループ手法において、エンコーダーは、構造化正弦関数コードブックからの寄与を含む過去の励振信号及び構造化正弦関数コードブックからの寄与を含まない過去の励振信号を試しに用いて、良いコーディング結果が得られる励振信号を選択する。オープンループ手法において、信号クラス分けの結果に基づき、モード選択54により決定がなされる。
図7bの例の代替として、構造化正弦関数コードブックのゲイン調整された出力は、LPC合成フィルタ720に適用する前に他のコードブック励振と結合させるのではなく、LPC合成フィルタの出力と結合させてもよい。この場合、スイッチ736は、働かない。さらに、以下に説明するように、この代替例では修正したデコーダーの使用を必要とする。
本発明の特徴に係る統合したスピーチライク信号/ノンスピーチライク信号エンコーダーの第3の変形例を、図7c及び7dに示す。この変形例においては、信号分離を採用する。図7cの下位の変形例において、(図4aに示す形態で)分離経路は独立しており、図7dの下位の変形例において、(図4bに示す形態で)分離経路は相互依存している。説明を簡単にするために、図7cの例と図7aの例との間の差異についてのみ説明する。また、説明を簡単にするために、以下の図7dの説明において、図7dの例と図7cの例との間の差異についてのみ説明する。一般的に図7aに対応する装置及び機能は図7c及び7dにおいて同一の参照番号を付番する。図7c及び7dの説明のどちらにおいても、対応する装置及び機能間での差異を以下に説明する。
図7cの例の詳細を参照して、例えば、PCMフォーマットの、スピーチライク信号/ノンスピーチライク信号入力が、入力信号をスピーチライク信号成分とノンスピーチライク信号成分とに分離する信号分離装置又は信号分離機能(信号分離)762に適用される。図6に示したような分離装置又は他の適切な信号成分分離装置を採用することができる。信号分離762には、本質的に図7bのモード選択754と類似の機能が含まれる。従って、信号分離762は、図7bのモード選択754により制御信号が生成されるのと同様に制御信号(図7cには示されていない)制御信号を生成することができる。このような制御信号は、信号分離の結果に基づいて、1以上のコードブックを停止させることができる。
スピーチライク信号成分とノンスピーチライク信号成分とに分離するので、図7cは図7aとは多少異なっている。例えば、構造化正弦関数コードブックと関連づけられたクローズドループによる最小化は、適応コードブック及び標準コードブックと関連づけられたクローズドループによる最小化とは分離される。信号分離装置762からの分離された信号のそれぞれはそれ自身の区分け712に適用される。代替的に、1つの区分け712を信号分離762の前に採用することもできる。しかしながら、複数の区分け712の使用には、図示のとおり、分離し区分けした信号のそれぞれに独自のサンプルブロック長を持たせることができるという利点がある。従って、図7cに示すように、区分けしたスピーチライク信号成分は、ピッチ分析730及びLPC分析738に適用される。ピッチ分析730のピッチ出力は、量子化装置740及び逆量子化装置742を経由して、ローカルデコーダー714’(プライムマークは修正した要素を示す)内の適応コードブック716中の抽出装置732に適用される。LPC分析738パラメータは、量子化装置740により量子化され(そしておそらくエンコードされ)そして逆量子化装置742内で逆量子化される(そしておそらく、必要に応じて、デコードされる)。結果生じたLPCパラメータは、720−1及び720−2で示した、第1のLPC合成フィルタ720と第2のLPC合成フィルタ720の出現に適用される。720−2で示した、1つのLPCフィルタは、構造化正弦関数コードブック722からの励振と関係付けられ、他(720−1で示した)は、標準コードブック716及び適応コードブック718からの励振と関係付けられる。複数のLPC合成フィルタ720及びそれに関連するクローズドループ要素は、図7cの信号分離のトポロジーから生じる。最小化724(724−1と724−2)及び減算装置726(726−1と726−2)が各LPC合成フィルタ720と関連付けられ、各最小化724が、知覚的に関連性のある方法で最小化するためにそれに適用される(分離前の)入力信号を有するようにすることが、それに続く。最小化724−1は、概念的にブロック728−1に示すように、適応コードブックの利得及び標準コードブックの利得と、標準コードブック励振コードベクトルの選択とを制御する。最小化724−2は、概念的にブロック728−2に示すように、利得値の構造化正弦関数コードブックベクトルを制御する。
図7cの例の出力ビットストリームには、少なくとも(1)制御信号、(2)利得値Ga,Gr,及びGs、(3)標準コードブック励振コードベクトル指標、及び適応コードブック励振コードベクトル指標、(4)ピッチ分析730からのLTPパラメータ、及び(5)LPC分析738からのLPCパラメータ、を含めることができる。制御信号は、図7a及び7bの例で示したのと同じ情報を含有することができるが、一部の情報(例えば、(図7bの736)のスイッチ位置)は固定することができる。一般にこのような情報(上記の4つの範疇)は、適切な方法でフォーマットされ、適切な装置又は機能(マルチプレクサ)701で、多重化され、そしてエントロピーコード化されて、ビットストリームとなる。このような情報をデコーダーに伝達する他のどのような方法でも採用することができる。ビットストリームの更新頻度は信号に依存させることができる。実際には、信号の区分けと同じ速さでビットストリーム成分の更新を行うことが有効である。
図7cの例の代替として、LPC合成フィルタ720−2を省略することができる。図7a及び7bの代替の場合、この代替では、修正したデコーダーの使用が必要となる。
図7dの下位の変形例において、本発明の特徴に係る統合したスピーチライク信号/ノンスピーチライク信号エンコーダーの、信号分離を採用したもう1つの例を示す。図7dの下位の変形例において、分離経路は(図4bに示したような形態で)相互依存する。
図7dを参照して、入力信号をスピーチライク信号成分とノンスピーチライク信号成分に分離する信号分離762の代わりに、信号分離装置又は信号分離機能762’が入力信号からスピーチライク信号成分を分離する。分離していない入力信号成分と分離したスピーチライク信号成分とは、区分け装置又は区分け機能712で区分けされる。次に、次に、再構成したスピーチライク信号(LPC合成フィルタ720−1の出力)が、減算装置727で、区分けされた分離していない入力信号から減算され、コード化するために分離したノンスピーチライク信号を生成する。コード化すべき分離した信号は、次いで、LPC合成フィルタ720−2からの再構成したノンスピーチライク信号をそれから減算させ、ノンスピーチライク残差(誤差)信号を最小化装置又は最小化機能724’に適用させる。図7cの例の方法で、最小化724’では、スピーチライク信号残差(誤差)信号を減算装置726−1から受け取る。最小化724’では、また、区分けされた入力信号を、心理音響モデルに従い動作させることができるように、知覚的基準として受け取る。最小化724’では、2つの出力(1つは標準コードブック及び適応コードブックに関し、もう一つは正弦波コードブックに関する)2つの出力を制御することにより、それぞれの誤差入力信号を最小化する。最小化724’では、1つはスピーチライク信号誤差及び知覚的基準に応じて標準コードブック及び適応コードブックに制御出力を与える、もう一つは、ノンスピーチライク信号誤差及び知覚的基準に応じて正弦波コードブックに制御出力を与える、2つの独立した装置又は機能として実施することもできる。
図7dの例の代替として、LPC合成フィルタ720−2を省略することができる。図7a,7b,及び7cの代替の場合、この代替例では、修正したデコーダーを使うことが必要となる。
図7の3つの実施例の種々の関係は、以下の表を参照することでよく理解できよう。
Figure 2011518345
[標準コードブック]
標準コードブックの目的は、スピーチライク信号又はスピーチライク信号ライクオーディオ信号、特にスピーチライク信号の「無声の」スピーチライクノイズ又は変則的な部分の励振を生成することである。標準コードブックの各項目には、長さM、ここでMは分析窓の長さ、のコードブックベクトルが含まれる。従って、標準コードブックからの寄与er[m]は以下のように構成される。
式2
Figure 2011518345
ここで、C[i,m],m=1,...,Mは、コードブックのi番目の項目、g[i]は、標準コードブックのベクトル利得、そして、Nは、コードブックの全項目数である。経済的な理由により、利得g[i]は、少量のビットでコード化可能なように選択した項目の内の限られた数(1又は2)にはゼロでない値を持たせることが一般的である。標準コードブックは、ガウス乱数発生器(ガウスコードブック)により、又は正規位置でのマルチパルスのベクトル(代数的コードブック)から、加えることができる。この種のコードブックを加える方法についての詳細な情報は、例えば、以下の引用した参考文献9に記載されている。
[構造化正弦関数コードブック]
構造化正弦関数コードブックの目的は、ハーモニック信号及び複数の楽器によるノンスピーチライク信号、ノンスピーチライク信号と有声音を一緒にした信号、及び複数の有声音のスピーチライク信号のような、複雑なスペクトル特性を持つ入力信号に適したスピーチライク信号励振信号及びノンスピーチライク信号励振信号を生成することである。LPC合成フィルタ720の次数がゼロに設定され、正弦関数コードブックが排他的に用いられるとき、結果は、コーディックが知覚オーディオ変換コーディック(例えば、AAC(アドバンスドオーディオコーディング)又は、AC−3エンコーダーを含む)を笑むレートすることのできるコーディックとなる。
構造化正弦関数コードブックは、種々の周波数と位相の正弦関数信号の項目の構成要素となる。このコードブックは、変換に基づく知覚的オーディオエンコーダーからの特徴を含めるために、従来のCELPエンコーダーまで拡張することができる。このコードブックは、上述した信号のような、複雑すぎて標準コードブックにより効率的に生成することができないような、励振信号を生成する。好ましい実施の形態において、以下の正弦関数コードブックを用いることができ、コードブックベクトルは下記で与えられる。
式3
Figure 2011518345
コードブックベクトルは、離散コサイン変換(DCT)、又は、好ましくは修正離散コサイン変換(MDCT)のような、高速フーリエ変換(FFT)のインパルス応答を表す。ここでw[m]は窓関数である。正弦関数コードブックからの寄与e[m]は下記で与えられる。
式4
Figure 2011518345
従って、正弦関数コードブックからの寄与は、MDCT係数がベクトル利得gsとなるインパルス応答の線形結合とすることができる。ここで、C[i,m],m=1,...,2Mは、コードブックのi番目の項目であり、g[i]は、正弦関数コードブックのベクトル利得であり、そして、Nは、コードブックの全項目数である。このコードブックから生成された励振信号は、分析窓の2倍の長さを持つので、先のサンプルブックの2番目の半分の励振信号を現在のサンプルブロックの最初の半分に加えることにより最終的な励振信号が組み立てられるように、重複して加算する段階を用いるべきである。
[適応コードブック]
適応コードブックの目的は、スピーチライクオーディオ信号のための、特にスピーチライク信号の「有声の」スピーチライク部分のための励振を生成することである。場合によっては、残差信号、例えばスピーチ有声のセグメントが、時間(ピッチ)が経過した後、残差信号の波形を繰り返す、強い調和信号構造を呈することがある。この種の励振信号は、適応コードブックからの手助けにより効率的に生成することができる。図7a及び7bの例に示すように、適応コードブックは、先に生成された励振信号が記憶されているLTP(長期予測)バッファと、励振信号から検出したピッチ期間に従い、現在の励振信号を最もうまく表す過去の励振のLTPバッファから、抽出すべきLTPとを有する。従って、適応コードブックからの寄与e[m]は、以下で与えられる。
式5
Figure 2011518345
ここで、r[m−1−D],m=1,...,Mは、コードブックのi番目の項目であり、g[i]は、標準コードブックのベクトル利得であり、そして、Lは、コードブックの全項目数である。加えて、Dはピッチ周期、r[m]は、LTPバッファに記憶された先に生成された励振信号である。図7及び7bの例からわかるように、エンコーダーは、過去の励振信号中の正弦関数コードブックからの寄与を含める、又は含めないのさらなる柔軟性を有する。前者の場合r[m]は、以下で与えることができる。
式6
Figure 2011518345
後者の場合は、以下で与えることができる。
式7
Figure 2011518345
コード化すべき現在のサンプルブロック(m=1,...,M)について、r[m]の値は、m≦0に対してのみ求めることができる。ピッチ周期Dが分析窓長さMより小さい場合は、LTPバッファの周期的拡張が必要となる。すなわち、
式8
Figure 2011518345
最後に、LPCフィルタに対する励振信号e[n]は、上述の3つのコードブック、すなわち、
式9
Figure 2011518345
で与えられる。
Figure 2011518345
原則として、これは、これらの利得ベクトルの値について可能なすべての組み合わせを検索することで最適な利得ベクトルを決定することができるクローズドループ手法で行うことができる。しかし、実際には、このようなクローズドループ検索手法は、標準コードブックと適応コードブックに対してのみ実現可能であり、構造化正弦関数コードブックに対しては、可能な組み合わせが多すぎるので、実現可能ではない。この場合、最初に、標準コードブックと適応コードブックとをクローズドループ手法で検索する、順次的検索を用いることも可能であろう。構造化正弦関数利得ベクトルは、各コードブックの項目に対する利得を、他の2つのコードブックからの寄与を除去した後、コードブックの項目と残差信号との相関を量子化することにより決定する、オープンループ手法で決定することができる。
必要に応じて、デコーダーに送る前に、利得ベクトルのコンパクトな表現を取得するためにエントロピーエンコーダーを用いることができる。加えて、すべての利得がゼロになる利得ベクトルを、エスケープコードで効率的にコード化することができる。
[統合したマルチモードオーディオデコーダー]
図7a〜7dの例におけるどのエンコーダーとでも用いることのできるデコーダーを図7aに示す。このデコーダーは本質的に図7a及び7bのローカルデコーダーと同じであり、従って、その構成要素には同じ参照番号を用いる(例えば、図8aのLTPバッファ834は、図7a及び7bのLTPバッファ734に対応する)。従来のCELPスピーチデコーダーにおけるものに類似する代替的な適応ポストフィルタ装置又はポストフィルタ機能(ポストフィルタリング)801を、スピーチライク信号の出力信号を処理するために加えることができる。図8aを詳細に参照して、受け取ったビットストリームは、少なくとも、制御信号、ベクトル利得、G、G、及びG、LTPパラメータ、及びLPCパラメータを出力するために、逆多重化され、デフォーマットされ、そしてデコードされる。
上述のとおり、正弦関数コードブック722により作られた励振が、(図7a〜7dのエンコーディングの例の修正として)LPC合成フィルタリングなしの残差信号を作り出すために用いられるとき、修正したデコーダーを採用すべきである。そのようなデコーダーの例を図8bに示す。これは、正弦関数コードブック822の励振出力が、LPCフィルタされた適応コードブックの出力とLPCフィルタされた標準コードブック出力とに、フィルタされた後に結合される点で、図8aの例とは異なる。
[実施形態]
本発明は、ハードウェア又はソフトウェア又は両方を組み合わせたもの(例えば、プログラマブルロジックアレー)で実施することができる。特に記載がない限り、本発明の一部として含まれているアルゴリズム及び処理は本質的に、特定のコンピュータや他の装置と関連付けられるものではない。特に、種々の汎用機をこの記載に従って書かれたプログラムと共に用いてもよい、あるいは、要求の方法を実行するために、より特化した装置(例えば、集積回路)を構成することが便利かもしれない。このように、本発明は、それぞれ少なくとも1つのプロセッサ、少なくとも1つの記憶システム(揮発性及び非揮発性メモリー及び/又は記憶素子を含む)、少なくとも1つの入力装置又は入力ポート、及び少なくとも1つの出力装置又は出力ポートを具備する、1つ以上のプログラマブルコンピュータシステム上で実行される1つ以上のコンピュータプログラムにより実現することができる。ここに記載した機能を遂行し、出力情報を出力させるために入力データにプログラムコードを適用する。この出力情報は、公知の方法で、1以上の出力装置に適用される。
このようなプログラムの各々は、コンピュータシステムとの通信のために、必要とされるどんなコンピュータ言語(機械語、アセンブリ、又は、高級な、手続言語、論理型言語、又は、オブジェクト指向言語を含む)ででも実現することができる。いずれにせよ、言語はコンパイル言語であってもインタープリタ言語であってもよい。
このようなコンピュータプログラムの各々は、ここに記載の手順を実行するために、コンピュータにより記憶媒体又は記憶装置を読み込んだとき、コンピュータを設定し動作させるための、汎用プログラマブルコンピュータ又は専用プログラマブルコンピュータにより、読み込み可能な記憶媒体又は記憶装置(例えば、半導体メモリー又は半導体媒体、又は磁気又は光学媒体)に保存又はダウンロードすることが好ましい。本発明のシステムはまた、コンピュータプログラムにより構成されるコンピュータにより読み込み可能な記憶媒体として実行することを考えることもできる。ここで、この記憶媒体は、コンピュータシステムを、ここに記載した機能を実行するために、具体的にあらかじめ定めた方法で動作させる。
本発明の多くの実施の形態について記載した。しかしながら、本発明の精神と技術範囲を逸脱することなく多くの修正を加えることができることは明らかであろう。例えば、ここに記載したステップのいくつかの順序は独立であり、従って、記載とは異なる順序で実行することができる。
[参照としての編入]
以下の刊行物は参照としてそのすべてを本明細書に編入する。
(文献1)J.-H. Chen及び D. Wangによる、Proc. ICASSP-96, vol.1, May 1996、「Transform Predictive Coding of Wideband Speech Signals」
(文献2)S. Wangによる、Ph.D. Thesis, University of California, Santa Barbara, 1991、「Phonetic Segmentation Techniques for Speech Coding」
(文献3)A. Das、E. Paksoy、及びA. Gershoによる、Speech Coding and Synthesis, W.B. Kleijn and K.K.Paliwal Eds., Elsevier Science B.V., 1995、「Multimode and Variable-Rate Coding of Speech」
(文献4)B. Bessette、R. Lefebvre、及びR. Salamiによる、Proc. ICASSP-2005, March 2005、「Universal Speech/ Audio Coding using Hybrid ACELP/TCX Techniques」
(文献5)S. Ramprashadによる、IEEE Speech Coding Workshop, Helsinki, Finland, June 1999、「A Multimode Transform Predictive Coder (MTPC) for Speech and Audio」
(文献6)S. Ramprashadによる、IEEE Trans. On Speech and Audio Processing, March 2003、「The Multimode Transform Predictive Coding Paradigm」
(文献7)Shoji Makino(編集)、Te-Won Lee(編集)、Hiroshi Sawada(編集)、Springerによる、2007の「Blind Speech Separation (Signals and Communication Technology)」
(文献8)M. Yong、G. Davidson、及びA. Gershoによる、IEEE Intl. Conf. on Acoustics, Speech, and Signal Processing, 1988、「Encoding of LPC Spectral Parameters Using Switched-Adaptive Interframe Vector Prediction」
(文献9)A. M. Kondozによる、「Digital speech coding for low bit rate communication system」第2版、セクション7.3.4、Wiley、2004
以下の米国特許はそのすべてを参照として本明細書に編入する。
Ubale、他の、米国特許5,778,335
Uvliden、他の、米国特許7,146,311Bl
Lelinek、他の、米国特許7,203,638B2
Uvliden、他の、米国特許7,194,408B2
Koishida、他の、米国特許6,658,383B2
Khalil、他の、米国特許6,785,645B2
本発明の第3の特徴によれば、符号励振線形予測(CELP)オーディオデコーディングは、LPCパラメータにより制御されるLPC合成フィルタと、それぞれがコードベクトルを有する複数のコードブックであって、少なくとも1つのコードブックはノンスピーチライク信号よりスピーチライク信号に適した励振をもたらし、他の少なくとも1つのコードブックはスピーチライク信号よりノンスピーチライク信号に適した励振をもたらすことを特徴とするコードブックと、それぞれがコードブックに関連づけられた複数の利得係数とを採用する。この方法は、パラメータとコードベクトルと利得係数とを受け取るステップと、少なくとも1つのコードブック励振出力からLPC合成フィルタのための励振信号を導き出すステップと、LPCフィルタの出力又はLPC合成フィルタの出力と1つ以上のコードブックの励振の組み合わせからオーディオ出力信号を導き出すステップとを具備し、該組み合わせは、コードブックの各々と関連づけられたコードベクトル及び/又は利得係数により制御される。
[マルチモードコーディングと結合した、信号分離を用いたスピーチライク信号オーディオコーディング]
本発明のさらなる特徴としてオーディオセグメントを1以上の信号成分に分離することが含まれる。セグメント内のオーディオにはしばしば、例えば、スピーチライク信号成分とノンスピーチライク信号成分の混合が含まれる。このような場合、ノンスピーチライク信号よりスピーチライク信号に適したエンコーディングツールでスピーチライク信号成分をコード化するほうが有利であり、スピーチライク信号よりノンスピーチライクに適したエンコーディングツールでノンスピーチライクをコード化するほうが有利である。デコーダーにおいて、成分信号は、別にデコードしそして再結合させることができる。このようなエンコーディングツールの性能を最大化するために、成分信号を分析し、成分信号の特性に基づきエンコーディングツール間で動的にビットを割り当てることが好ましいであろう。例えば、入力信号が純粋なスピーチライク信号からなるとき、適応結合ビット割当てにより、スピーチライク信号エンコーディングツールにできるだけ多くのビットを割当て、ノンスピーチライク信号エンコーディングツールにできるだけ少ないビットを割り当てることができる。ビットの最適な割当てを補助するために、成分信号自身に加えて信号分離装置又は信号分離機能からの情報を用いることができる。このようなシステムの簡単な線図を図4aに示す。その変形を図4bに示す。
本発明の第3の特徴によれば、符号励振線形予測(CELP)オーディオデコーディングは、LPCパラメータにより制御されるLPC合成フィルタと、それぞれがコードベクトルを有する複数のコードブックであって、少なくとも1つのコードブックはノンスピーチライク信号よりスピーチライク信号に適した励振をもたらし、他の少なくとも1つのコードブックはスピーチライク信号よりノンスピーチライク信号に適した励振をもたらすことを特徴とするコードブックと、それぞれがコードブックに関連づけられた複数の利得係数とを採用する。この方法は、パラメータとコードベクトルと利得係数とを受け取るステップと、少なくとも1つのコードブック励振出力からLPC合成フィルタのための励振信号を導き出すステップと、LPCフィルタの出力又はLPC合成フィルタの出力と1つ以上のコードブックの励振の組み合わせからオーディオ出力信号を導き出すステップとを具備し、該組み合わせは、コードブックの各々と関連づけられたコードベクトル及び/又は利得係数により制御される。
[マルチモードコーディングと結合した、信号分離を用いたスピーチライク信号オーディオコーディング]
本発明のさらなる特徴としてオーディオセグメントを1以上の信号成分に分離することが含まれる。セグメント内のオーディオにはしばしば、例えば、スピーチライク信号成分とノンスピーチライク信号成分の混合、又は、スピーチライク信号成分とバックグラウンドノイズ成分の混合が含まれる。このような場合、ノンスピーチライク信号よりスピーチライク信号に適したエンコーディングツールでスピーチライク信号成分をコード化するほうが有利であり、スピーチライク信号よりノンスピーチライク信号又はバックグラウンドノイズに適したエンコーディングツールでノンスピーチライク信号成分又はバックグラウンド成分をコード化するほうが有利である。デコーダーにおいて、成分信号は、別にデコードしそして再結合させることができる。このようなエンコーディングツールの性能を最大化するために、成分信号を分析し、成分信号の特性に基づきエンコーディングツール間で動的にビットを割り当てることが好ましいであろう。例えば、入力信号が純粋なスピーチライク信号からなるとき、適応結合ビット割当てにより、スピーチライク信号エンコーディングツールにできるだけ多くのビットを割当て、ノンスピーチライク信号エンコーディングツールにできるだけ少ないビットを割り当てることができる。ビットの最適な割当てを補助するために、成分信号自身に加えて信号分離装置又は信号分離機能からの情報を用いることができる。このようなシステムの簡単な線図を図4aに示す。その変形を図4bに示す。

Claims (27)

  1. LPCパラメータにより制御されるLPC合成フィルタと、それぞれがコードベクトルを有する複数のコードブックであって、少なくとも1つのコードブックはノンスピーチライク信号よりスピーチライク信号に適した励振をもたらすことを特徴とし、少なくとも1つの他のコードブックは、スピーチライク信号よりノンスピーチライク信号に適した励振をもたらすことを特徴とする、コードブックと、それぞれがコードブックに関連づけられた複数の利得係数と、を採用する、符号励振線形予測(CELP)オーディオエンコーディングの方法であって、該方法は、
    LPCパラメータを生成するためにオーディオ信号に線型予測コーディング(LPC)分析を適用するステップと、
    前記オーディオ信号とコードブック励振から導き出した再構成したオーディオ信号と差異の測度を最小にすることで、少なくとも2つのコードブックからコードベクトル及び/又は関連する利得係数を選択するステップであって、これらのコードブックには、ノンスピーチライク信号に適した励振をもたらすコードブックと、スピーチライク信号に適した励振をもたらすコードブックとが含まれることを特徴とするステップと、
    オーディオ信号を再構成するためにCELPオーディオデコーダーで使用可能な出力を生成するステップであって、該出力にはLPCパラメータとコードベクトルと利得係数とが含まれることを特徴とするステップと、
    を具備することを特徴とする方法。
  2. 前記コードブックの励振出力から導き出した信号のいくつかは、前記線型予測コーディング合成フィルタによりフィルタされることを特徴とする請求項1に記載の方法。
  3. コードブックの励振出力がノンスピーチライク信号よりスピーチライク信号に適するようなコードブックから導き出された信号が、前記線型予測コーディング合成フィルタでフィルタされることを特徴とする請求項2に記載の方法。
  4. コードブックの励振出力がスピーチライク信号よりノンスピーチライク信号に適するようなコードブックから導き出された信号が、前記線型予測コーディング合成フィルタでフィルタされないことを特徴とする請求項3に記載の方法。
  5. ノンスピーチライク信号よりスピーチライクに適した励振出力をもたらす前記少なくとも1つのコードブックには、ノイズライクな励振を生成するコードブックと周期的励振を生成するコードブックとを含み、励振出力がスピーチライク信号よりノンスピーチライク信号に適した励振をもたらす前記少なくとも1つの他のコードブックには、知覚的オーディオエンコーダーをエミュレートするのに役立つ正弦曲線の励振を生成するコードブックを含むことを特徴とする請求項1乃至請求項4のいずれか1項に記載の方法。
  6. LTPパラメータを生成するために前記オーディオ信号に長期予測(LTP)分析を適用するステップであって、周期的励振を生成するコードブックは、LTPパラメータにより制御され、少なくとも前記周期的励振と前記ノイズライクな励振とを時間遅れさせて結合した信号入力として受け取る適応コードブックであり、前記出力にはさらにLTPパラメータが含まれることを特徴とするステップをさらに具備することを特徴とする請求項5に記載の方法。
  7. 前記適応コードブックは、選択的に、信号入力として、周期的励振とノイズライクな励振と正弦曲線の励振とを時間遅れさせた結合、又は、周期的励振とノイズライクな励振とを時間遅れさせた結合のいずれかを受け取ることができ、前記出力には、前記適応コードブックが励振の結合中に正弦曲線の励振を受け取ったかどうかの情報をさらに含めることができることを特徴とする請求項6に記載の方法。
  8. オーディオ信号を複数の信号のクラスの1つにクラス分けするステップと、
    このクラス分けに応じて動作モードを選択するステップと、
    オープンループ手法により、励振出力に寄与させるために、1以上のコードブックを選択するステップと、
    をさらに具備することを特徴とする請求項1乃至請求項7のいずれか1項に記載の方法。
  9. 前記動作モードを選択するステップの信頼性レベルを決定するステップであって、高信頼性レベルを含む少なくとも2つの信頼性レベルがあることを特徴とするステップと、オープンループ手法により、信頼性レベルが高いときのみ、排他的に励振に寄与する1以上のコードブックを選択するステップとを、さらに、具備することを特徴とする請求項8に記載の方法。
  10. 前記最小にすることは、再構成したオーディオ信号とクローズドループ中のオーディオ信号との差を最小にすることであることを特徴とする請求項1乃至請求項9のいずれか1項に記載の方法。
  11. 前記差異の測度は、知覚的に重み付けした測度であることを特徴とする請求項1乃至請求項10のいずれか1項に記載の方法。
  12. LPCパラメータにより制御されるLPC合成フィルタと、それぞれがコードベクトルを有する複数のコードブックであって、少なくとも1つのコードブックはノンスピーチライク信号よりスピーチライク信号に適した励振をもたらすことを特徴とし、少なくとも1つの他のコードブックは、スピーチライク信号よりノンスピーチライク信号に適した励振をもたらすことを特徴とする、コードブックと、それぞれがコードブックに関連づけられた複数の利得係数と、を採用する、符号励振線形予測(CELP)オーディオエンコーディングの方法であって、該方法は、
    オーディオ信号をスピーチライク信号成分とノンスピーチライク信号成分とに分離するステップと、
    LPCパラメータを生成するために前記オーディオ信号のスピーチライク信号成分に線型予測コーディング(LPC)分析を適用するステップと、
    ノンスピーチライク信号よりスピーチライク信号に適した励振出力をもたらすコードブックに関連させた、コードベクトルの選択及び/又は利得係数を変化させることにより、LPC合成フィルタ出力とオーディオ信号のスピーチライク信号成分との差異を最小化するステップと、
    スピーチライク信号よりノンスピーチライク信号に適した励振出力をもたらすコードブックに関連させた、コードベクトルの選択及び/又は利得係数を変化させるステップと、
    オーディオ信号の近似値を生成するためにCELPオーディオデコーダーで用いることのできる出力をもたらすステップであって、該出力には、コードベクトルの選択及び/又は各コードブックと関連付けた利得と、LPCパラメータとが含まれることを特徴とするステップと、
    を具備ことを特徴とする方法。
  13. 前記分離するステップでは、前記オーディオ信号をスピーチライク信号成分とノンスピーチライク信号成分とに分離することを特徴とする請求項12に記載の方法。
  14. 前記分離するステップでは、前記オーディオ信号から前記スピーチライク信号成分を分離し、前記オーディオ信号からスピーチライク信号成分を復元したものを減算することにより、前記ノンスピーチライク信号成分の近似値を導き出すことを特徴とする請求項12に記載の方法。
  15. 前記分離するステップでは、前記オーディオ信号から前記ノンスピーチライク信号成分を分離し、前記オーディオ信号からノンスピーチライク信号成分を復元したものを減算することにより、前記スピーチライク信号成分の近似値を導き出すことを特徴とする請求項12に記載の方法。
  16. 第2の線型予測コーディング(LPC)合成フィルタを用意するステップを具備し、該第2の線型予測コーディング合成フィルタにより、ノンスピーチライク信号成分を復元したものをフィルタすることを特徴とする請求項12乃至請求項15のいずれか1項に記載の方法。
  17. ノンスピーチライク信号よりスピーチライク信号に適した励振出力をもたらす前記少なくとも1つのコードブックには、ノイズライクな励振を生成するコードブックと、周期的励振を生成するコードブックとを含むことができ、スピーチライク信号よりノンスピーチライク信号に適した励振出力をもたらす前記少なくとも1つのコードブックには、知覚的オーディオエンコーダーをエミュレートするのに役立つ正弦曲線の励振を生成するコードブックを含むことを特徴とする請求項12乃至請求項16のいずれか1項に記載の方法。
  18. LTPパラメータを生成するためにオーディオ信号のスピーチライク信号成分に長期予測(LTP)分析を適用するステップを具備し、周期的励振を生成するコードブックはLTPパラメータにより制御される適応コードブックであり、前記周期的励振と前記ノイズライクな励振とを時間遅れさせて結合した信号入力として受け取ることを特徴とする請求項17に記載の方法。
  19. スピーチライク信号よりノンスピーチライク信号に適した励振出力をもたらすコードブックと関連づけられた、コードブックベクトルの選択及び/又は利得係数は、スピーチライク信号に応じて変化させることを特徴とする請求項12に記載の方法。
  20. スピーチライク信号よりノンスピーチライク信号に適した励振出力をもたらすコードブックと関連づけられた、コードブックベクトルの選択及び/又は利得係数は、このノンスピーチライク信号とこのようなコードブックから復元された信号との差異を減少させるために変化することを特徴とする請求項12に記載の方法。
  21. LPCパラメータにより制御されるLPC合成フィルタと、それぞれがコードベクトルを有する複数のコードブックであって、少なくとも1つのコードブックはノンスピーチライク信号よりスピーチライク信号に適した励振をもたらすことを特徴とし、少なくとも1つの他のコードブックは、スピーチライク信号よりノンスピーチライク信号に適した励振をもたらすことを特徴とする、コードブックと、それぞれがコードブックに関連づけられた複数の利得係数と、を採用する、符号励振線形予測(CELP)オーディオエンコーディングの方法であって、該方法は、
    パラメータとコードベクトルと利得係数とを受け取るステップと、
    少なくとも1つのコードブック励振出力から前記LPC合成フィルタのための励振信号を導き出すステップと、
    前記LPCフィルタの出力又は前記LPC合成フィルタの出力と前記1つ以上のコードブックの励振の組み合わせからオーディオ出力信号を導き出すステップとを具備し、該組み合わせは、コードブックの各々と関連づけられたコードベクトル及び/又は利得係数により制御されることを特徴とする方法。
  22. ノンスピーチライク信号よりスピーチライク信号に適した励振出力をもたらす前記少なくとも1つのコードブックは、ノイズライクな励振を生成するコードブックと、周期的励振を生成するコードブックとを含み、スピーチライク信号よりノンスピーチライク信号に適した励振出力をもたらす前記少なくとも1つの他のコードブックは、知覚的オーディオエンコーダーをエミュレートするのに役立つ正弦曲線の励振を生成するコードブックを含むことを特徴とする請求項21に記載の方法。
  23. 前記周期的励振を生成するコードブックは、LTPパラメータにより制御される適応コードブックであり、少なくとも前記周期的励振と前記ノイズライクな励振とを時間遅れさせて結合した信号入力として受け取り、前記方法は、LTPパラメータを受け取るステップをさらに具備することを特徴とする請求項22に記載の方法。
  24. 前記コードブックの全ての励振はLPCフィルタに適用され、前記適応コードブックは、選択的に、信号入力として、周期的励振とノイズライクな励振と正弦曲線の励振とを時間遅れさせた結合、又は、周期的励振とノイズライクな励振とだけを時間遅れさせた結合のいずれかを受け取り、前記方法は、前記適応コードブックが励振の結合中に正弦曲線の励振を受け取ったかどうかの情報を受け取るステップをさらに具備することを特徴とする請求項23に記載の方法。
  25. 前記LPCフィルタの出力からオーディオ出力信号を導き出すステップにはポストフィルタを行うステップが含まれることを特徴とする請求項21乃至請求項23のいずれか1項に記載の方法。
  26. 請求項1乃至請求項25のいずれか1項に記載の方法を実行することができるようにした装置。
  27. 請求項1乃至乃至請求項25のいずれか1項に記載の方法をコンピュータに実行させるために、コンピュータ読み取り可能媒体に記憶させた、コンピュータプログラム。
JP2010550849A 2008-03-14 2009-03-12 スピーチライク信号及びノンスピーチライク信号のマルチモードコーディング Pending JP2011518345A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US6944908P 2008-03-14 2008-03-14
US61/069,449 2008-03-14
PCT/US2009/036885 WO2009114656A1 (en) 2008-03-14 2009-03-12 Multimode coding of speech-like and non-speech-like signals

Publications (2)

Publication Number Publication Date
JP2011518345A true JP2011518345A (ja) 2011-06-23
JP2011518345A5 JP2011518345A5 (ja) 2012-05-10

Family

ID=40565281

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010550849A Pending JP2011518345A (ja) 2008-03-14 2009-03-12 スピーチライク信号及びノンスピーチライク信号のマルチモードコーディング

Country Status (5)

Country Link
US (1) US8392179B2 (ja)
EP (1) EP2269188B1 (ja)
JP (1) JP2011518345A (ja)
CN (1) CN101971251B (ja)
WO (1) WO2009114656A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2013129439A1 (ja) * 2012-02-28 2015-07-30 日本電信電話株式会社 符号化装置、この方法、プログラム及び記録媒体
JP2016537667A (ja) * 2013-10-18 2016-12-01 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 確定的及びノイズ状情報を用いてオーディオ信号を符号化/復号化する概念
US10373625B2 (en) 2013-10-18 2019-08-06 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101649376B1 (ko) 2008-10-13 2016-08-31 한국전자통신연구원 Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치
WO2010044593A2 (ko) 2008-10-13 2010-04-22 한국전자통신연구원 Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치
WO2011048118A1 (en) * 2009-10-20 2011-04-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal encoder, audio signal decoder, method for providing an encoded representation of an audio content, method for providing a decoded representation of an audio content and computer program for use in low delay applications
US9117458B2 (en) * 2009-11-12 2015-08-25 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
TWI459828B (zh) * 2010-03-08 2014-11-01 Dolby Lab Licensing Corp 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統
CA2789107C (en) * 2010-04-14 2017-08-15 Voiceage Corporation Flexible and scalable combined innovation codebook for use in celp coder and decoder
IL205394A (en) * 2010-04-28 2016-09-29 Verint Systems Ltd A system and method for automatically identifying a speech encoding scheme
US9275650B2 (en) * 2010-06-14 2016-03-01 Panasonic Corporation Hybrid audio encoder and hybrid audio decoder which perform coding or decoding while switching between different codecs
EP3422346B1 (en) 2010-07-02 2020-04-22 Dolby International AB Audio encoding with decision about the application of postfiltering when decoding
US8924200B2 (en) * 2010-10-15 2014-12-30 Motorola Mobility Llc Audio signal bandwidth extension in CELP-based speech coder
US10134440B2 (en) * 2011-05-03 2018-11-20 Kodak Alaris Inc. Video summarization using audio and visual cues
NO2669468T3 (ja) * 2011-05-11 2018-06-02
KR20130109793A (ko) * 2012-03-28 2013-10-08 삼성전자주식회사 잡음 감쇄를 위한 오디오 신호 부호화 방법 및 장치
KR102123770B1 (ko) * 2012-03-29 2020-06-16 텔레폰악티에볼라겟엘엠에릭슨(펍) 하모닉 오디오 신호의 변환 인코딩/디코딩
CN104769668B (zh) * 2012-10-04 2018-10-30 纽昂斯通讯公司 改进的用于asr的混合控制器
KR102446441B1 (ko) * 2012-11-13 2022-09-22 삼성전자주식회사 부호화 모드 결정방법 및 장치, 오디오 부호화방법 및 장치와, 오디오 복호화방법 및 장치
ES2613747T3 (es) 2013-01-08 2017-05-25 Dolby International Ab Predicción basada en modelo en un banco de filtros críticamente muestreado
JP6179122B2 (ja) * 2013-02-20 2017-08-16 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
KR102150496B1 (ko) 2013-04-05 2020-09-01 돌비 인터네셔널 에이비 오디오 인코더 및 디코더
US9418671B2 (en) * 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
US9224402B2 (en) 2013-09-30 2015-12-29 International Business Machines Corporation Wideband speech parameterization for high quality synthesis, transformation and quantization
ES2827278T3 (es) 2014-04-17 2021-05-20 Voiceage Corp Método, dispositivo y memoria no transitoria legible por ordenador para codificación y decodificación predictiva linealde señales sonoras en la transición entre tramas que tienen diferentes tasas de muestreo
EP2980795A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
US20160098245A1 (en) * 2014-09-05 2016-04-07 Brian Penny Systems and methods for enhancing telecommunications security
US9886963B2 (en) * 2015-04-05 2018-02-06 Qualcomm Incorporated Encoder selection
US10971157B2 (en) 2017-01-11 2021-04-06 Nuance Communications, Inc. Methods and apparatus for hybrid speech recognition processing
CN113287167A (zh) * 2019-01-03 2021-08-20 杜比国际公司 用于混合语音合成的方法、设备及系统
CN113938749B (zh) * 2021-11-30 2023-05-05 北京百度网讯科技有限公司 音频数据处理方法、装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5751903A (en) * 1994-12-19 1998-05-12 Hughes Electronics Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset
JP2003044097A (ja) * 2001-06-26 2003-02-14 Microsoft Corp 音声信号および音楽信号を符号化する方法
WO2006046547A1 (ja) * 2004-10-27 2006-05-04 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3328080B2 (ja) * 1994-11-22 2002-09-24 沖電気工業株式会社 コード励振線形予測復号器
TW321810B (ja) * 1995-10-26 1997-12-01 Sony Co Ltd
US5778335A (en) * 1996-02-26 1998-07-07 The Regents Of The University Of California Method and apparatus for efficient multiband celp wideband speech and music coding and decoding
KR100900113B1 (ko) * 1997-10-22 2009-06-01 파나소닉 주식회사 확산 펄스 벡터 생성 장치 및 방법
EP1686563A3 (en) 1997-12-24 2007-02-07 Mitsubishi Denki Kabushiki Kaisha Method and apparatus for speech decoding
CA2300077C (en) 1998-06-09 2007-09-04 Matsushita Electric Industrial Co., Ltd. Speech coding apparatus and speech decoding apparatus
SE521225C2 (sv) 1998-09-16 2003-10-14 Ericsson Telefon Ab L M Förfarande och anordning för CELP-kodning/avkodning
US6298322B1 (en) * 1999-05-06 2001-10-02 Eric Lindemann Encoding and synthesis of tonal audio signals using dominant sinusoids and a vector-quantized residual tonal signal
US6581032B1 (en) * 1999-09-22 2003-06-17 Conexant Systems, Inc. Bitstream protocol for transmission of encoded voice signals
US7020605B2 (en) 2000-09-15 2006-03-28 Mindspeed Technologies, Inc. Speech coding system with time-domain noise attenuation
US6947888B1 (en) * 2000-10-17 2005-09-20 Qualcomm Incorporated Method and apparatus for high performance low bit-rate coding of unvoiced speech
US6785645B2 (en) * 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
CA2501368C (en) * 2002-10-11 2013-06-25 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
KR100964402B1 (ko) * 2006-12-14 2010-06-17 삼성전자주식회사 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치
KR100883656B1 (ko) * 2006-12-28 2009-02-18 삼성전자주식회사 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5751903A (en) * 1994-12-19 1998-05-12 Hughes Electronics Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset
JP2003044097A (ja) * 2001-06-26 2003-02-14 Microsoft Corp 音声信号および音楽信号を符号化する方法
WO2006046547A1 (ja) * 2004-10-27 2006-05-04 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
JPN6014015630; Jian Zhang, et al.: 'Implementation of A Low Delay Modified CELP Coder at 4.8kb/s' Proc. GLOBECOM '95 Vol.3, 19951114, pp.1610-1614, IEEE *
JPN6014015632; Song Shaopeng, et al.: 'A Low Bit-Rate Audio Coder Based on Modified Sinusoidal Model' Proc. ICCCAS 2002 Vol.1, 20020629, pp.648-652, IEEE *
JPN6014015635; Jian Zhang, et al.: 'A 4.2 kb/s Low-Delay Speech Coder with Modified CELP' Signal Processing Letters Vol.4, No.11, 199711, pp.301-303, IEEE *
JPN6014015636; Cagri Ozgenc Etemoglu, et al.: 'Speech Coding with an Analysis-by-Synthesis Sinusoidal Model' Proc. ICASSP '00 Vol.3, 20000605, pp.1371-1374, IEEE *
JPN7014001184; Denis S. Likhachov et al.: 'Parameters Quantization in Sinusoidal Speech Coder on Basis of Human Auditory Model' Proc. SPECOM '2004 pp.195-202, 20040920, ISCA *
JPN7014001185; Ari Heikkinen: 'Development of a 4 kbit/s Hybrid Sinusoidal/CELP Speech Coder' SPEECH COMMUNICATION Vol.42, No.3-4, 200404, pp.353-371, Elsevier B.V. *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2013129439A1 (ja) * 2012-02-28 2015-07-30 日本電信電話株式会社 符号化装置、この方法、プログラム及び記録媒体
JP2016537667A (ja) * 2013-10-18 2016-12-01 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 確定的及びノイズ状情報を用いてオーディオ信号を符号化/復号化する概念
US10304470B2 (en) 2013-10-18 2019-05-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information
US10373625B2 (en) 2013-10-18 2019-08-06 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information
US10607619B2 (en) 2013-10-18 2020-03-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information
US10909997B2 (en) 2013-10-18 2021-02-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information
US11798570B2 (en) 2013-10-18 2023-10-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information
US11881228B2 (en) 2013-10-18 2024-01-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V. Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information

Also Published As

Publication number Publication date
CN101971251B (zh) 2012-08-08
EP2269188B1 (en) 2014-06-11
CN101971251A (zh) 2011-02-09
WO2009114656A1 (en) 2009-09-17
US8392179B2 (en) 2013-03-05
US20110010168A1 (en) 2011-01-13
EP2269188A1 (en) 2011-01-05

Similar Documents

Publication Publication Date Title
US8392179B2 (en) Multimode coding of speech-like and non-speech-like signals
KR102039399B1 (ko) 시간 도메인 코딩과 주파수 도메인 코딩 간의 분류 향상
KR101785885B1 (ko) 적응적 대역폭 확장 및 그것을 위한 장치
JP5325292B2 (ja) 信号の異なるセグメントを分類するための方法および識別器
CN101743586B (zh) 音频编码器、编码方法、解码器、解码方法
JP5325294B2 (ja) 共通の前処理を有する低ビットレート・オーディオ符号化/復号化方式
EP1982329B1 (en) Adaptive time and/or frequency-based encoding mode determination apparatus and method of determining encoding mode of the apparatus
KR102626320B1 (ko) 선형예측계수 양자화방법 및 장치와 역양자화 방법 및 장치
KR20080101873A (ko) 부호화/복호화 장치 및 방법
MX2011000362A (es) Esquema de codificacion/decodificacion de audio a baja velocidad binaria y conmutadores en cascada.
KR102593442B1 (ko) 선형예측계수 양자화방법 및 장치와 역양자화 방법 및 장치
RU2414009C2 (ru) Устройство и способ для кодирования и декодирования сигнала
KR20190045327A (ko) 오디오 코덱의 장기 예측을 위한 시스템 및 방법
Fuchs et al. Super-wideband spectral envelope modeling for speech coding

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20111011

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120312

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120312

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130122

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130521

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130821

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130828

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130920

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140422

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140722

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140729

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140821

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150310

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150710

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20150722

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20151002