JP2010518434A - オーディオ信号の符号化 - Google Patents
オーディオ信号の符号化 Download PDFInfo
- Publication number
- JP2010518434A JP2010518434A JP2009548654A JP2009548654A JP2010518434A JP 2010518434 A JP2010518434 A JP 2010518434A JP 2009548654 A JP2009548654 A JP 2009548654A JP 2009548654 A JP2009548654 A JP 2009548654A JP 2010518434 A JP2010518434 A JP 2010518434A
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- noise
- encoding
- analysis
- reduced
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 110
- 230000001629 suppression Effects 0.000 claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 22
- 238000000034 method Methods 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 description 8
- 238000013459 approach Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000010295 mobile communication Methods 0.000 description 4
- 230000002411 adverse Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
オーディオ符号化において、雑音低減されたオーディオ信号を得るよう、オリジナルのオーディオ信号に雑音抑圧処理が適用される。雑音低減されたオーディオ信号に基づいて符号化モードが選択される。次に、この選択された符号化モードを使用して、オリジナルのオーディオ信号が符号化される。
【選択図】図1
【選択図】図1
Description
本発明は、オーディオ信号の符号化に関する。特に、本発明は、そのような符号化をサポートする方法、装置、デバイス、システムおよびコンピュータプログラム製品に関する。
音声のようなオーディオ信号は、例えば効率的な送信や格納のために符号化される。音声用の符復号器(コーデック)は、通常、音声信号向けに最適化されており、固定ビットレートで動作することが非常に多い。しかし、一般のオーディオコーデックは、変化するビットレートで動作するように設定することもできる。そのようなオーディオコーデックは、最も低いビットレートでは、同様のレートの純粋な音声コーデックと同じように音声信号を処理することができる。最も高いビットレートでは、音楽および背景雑音を含むいかなる信号でも性能は優れたものとなると考えられ、この背景雑音は、ただの雑音ではなくオーディオ信号の一部と見なされうる。
さらなるオーディオ符号化の選択肢として、エンベデッド可変レート音声符号化(embedded variable rate speech coding)がある。これは階層符号化(layered coding)とも呼ばれる。エンベデッド可変レート音声符号化は、コア符号器により生成される主符号化データと、コア符号器により生成されるこの主符号化データをさらに正確にする付加的な拡張データとを含むビットストリームを作り出す。その結果、ビットストリームの1つまたは複数のサブセットを高品質で復号することが可能となる。ITU‐T標準は、ビットレート8〜32kbpsで、50〜7000Hzの広帯域コーデックを目標としている。コーデックのコアは8kbpsで動作することになり、粒度(granularity)が非常に細かい追加の層が、確認される音声およびオーディオの品質を高めることになる。例えば、同じエンベデッドビットストリーム(embedded bit stream)から、8/12/16/24および32kbpsという少なくとも5つのビットレートが得られることが最低限の目標である。
オーディオ信号を符号化するとき、場合によっては、音質を改良するために、実際の符号化に先行する処理ステップとして雑音抑圧が行われることもある。特に低い方のビットレートは雑音抑圧処理から恩恵を受けると思われるが、これは、雑音抑圧処理が、雑音の多い環境においてもある程度優れた出力品質を得られるようにすることができるためである。
雑音抑圧を用いずに動作するコーデックの低ビットレート性能は低い。これは、コーデックが雑音成分を含んだ信号全体を再生しようとするためである。結果として、波形特性および重要な音声特性を保つために十分なビットがないということになる。この問題は、ビットレートが増大するとともに軽減される。
したがって、ビットレートが高くなると、前処理がなくても高いオーディオ品質がもたらされる。音楽信号の場合は、雑音抑圧処理が、信号にさらなる歪みを加えることさえもある。したがって、可変ビットレートで高品質の符号化を実現するために、低ビットレート音声符号化ではより多く雑音抑圧を使用するが、高いビットレートのオーディオ/音声符号化では雑音抑圧を使用しないということが可能である。
エンベデッド可変ビットレート符号化に関しても、より低いビットレート、この場合であれば主に8および12kbpsは、雑音抑圧から恩恵を受けると考えられ、その一方で、高いビットレートは、前処理がなくても最高の音声およびオーディオ品質をもたらすと考えられる。この場合は、適応雑音抑圧法(adaptive noise suppression approach)を用いることができるであろう。すなわち、第1の雑音抑圧量がオーディオ信号に適用され、結果として生じる信号がコア符号器で符号化されることが可能であろう。さらに、第2の雑音抑圧量が同じオーディオ信号に適用されるか、または雑音抑圧処理は適用されず、結果として生じる信号が拡張データを生成するために使用されることが可能であろう。
種々のビットレートに加え、オーディオ符号器はさらに、オーディオ信号を符号化する種々の符号化モード(coding mode)からの選択を行うとよい。第1の符号化モードは例えば音声向け、第2のモードは音楽向け、さらに第3のモードは混合信号向けなどに最適化されているとよい。個々の符号化モードは、例えば符号化されるべき信号の、決定されたパラメータに基づいて選択されるとよい。
本発明は、低ビットレート符号化の場合には、上記の悪影響があっても、符号化されるべきオーディオ信号に対する雑音抑圧処理の適用が常に望ましいとは限らない可能性があるという考えから生じている。
しかし、背景雑音が大きいにもかかわらず雑音抑圧を行わないと、低ビットレートコーデックは、不適当な符号化モードを選択する傾向がある。不適当な符号化モードの適用は、結果として符号化の品質を制限し、低ビットレート符号化の場合におけるビット数の制限の悪影響がさらに顕著となる。コーデックが、音声特性だけでなく信号内の雑音特性も再生しようとするということが原因で、最適でないモードが頻繁に選択される可能性がある。結果として、コーデックが特に有声音声(voiced speech)や有声遷移(voicing transitions)用に最適な手法を備えていたとしても、雑音のような無声音声用の符号化モードや、一般的に全てのフレームを符号化するための非常に汎用的な符号化モードが、雑音のある音声に対して頻繁に使用されてしまう。
モード選択を、クリーンな信号と、雑音のある信号との両方に有効かつ可能となるように設計することもできると考えられるが、そのような手法は当然、クリーン信号と雑音のある信号と間での性能面における妥協点となる。さらにこれには、とりわけオフィスの雑音、街頭雑音、自動車雑音、干渉して話す人による雑音などを含むすべてのタイプの背景雑音に関してモード分類器を微調整するためのかなりの作業量が必要である。
雑音低減されたオーディオ信号を得るべく、オリジナルのオーディオ信号に対して雑音抑圧処理を行うことを含む方法を開示する。この方法は、雑音低減されたオーディオ信号に基づいて符号化モードを選択することをさらに含む。この方法は、選択された符号化モードを使用して、オリジナルのオーディオ信号を符号化することをさらに含む。
さらに、雑音低減されたオーディオ信号を得るべく、オリジナルのオーディオ信号に対して雑音抑圧処理を行うよう構成される雑音抑圧処理コンポーネントを含む装置を開示する。この装置は、雑音抑圧処理コンポーネントによって提供される雑音低減されたオーディオ信号に基づいて符号化モードを選択するように構成される、選択コンポーネントをさらに含む。この装置は、選択コンポーネントによって選択された符号化モードを使用して、オリジナルのオーディオ信号を符号化するよう設定された符号化コンポーネントをさらに含む。
説明される装置の各コンポーネントは、ハードウェアおよび/またはソフトウェアによって実装可能である。これらのコンポーネントは、例えば、必要な機能を実現するためのソフトウェアプログラムコードを実行するプロセッサにより実現されうる。あるいは、これらのコンポーネントは、例えばチップセットまたはチップなど、集積回路のような回路に実装することができるであろう。さらに、説明される装置は、言及されるコンポーネントのみを含む可能性もあるが、複数の追加コンポーネントをさらに備えていてもよい。
さらに、開示された装置に加えてオーディオ信号インターフェースを含む、電子デバイスを開示する。このオーディオ信号インターフェースは、例えばマイクロホンまたはマイクロホン用コネクタとすることができるが、オーディオ信号を提供するその他何らかのデバイスへのインターフェースとすることも同様に可能である。
さらに、開示された方法に従って符号化されたオーディオ信号を復号するよう構成されている復号コンポーネントを含む装置を開示する。
さらに、開示された装置に加えて、当該装置により符号化されたオーディオ信号を復号するように構成される復号コンポーネントを備える別の装置を含むシステムを開示する。
最後に、プログラムコードがコンピュータ可読媒体に格納されている、コンピュータプログラム製品が提案される。このプログラムコードは、プロセッサにより実行されると、提案される方法を実現する。このコンピュータプログラム製品は、例えば別個のメモリデバイスとすること、または電子デバイス内に組み込まれるメモリとすることができるであろう。
本発明の範囲は、そのようなコンピュータプログラムコードを、コンピュータプログラム製品およびコンピュータ可読媒体からは独立しても含むと理解されるべきである。
背景雑音がある間に、特殊化された利用可能な符号化モードがより頻繁に利用されれば、雑音抑圧処理を用いないオーディオ符号化の性能は、多くの場合に改善可能であろう。これは、説明されるように、符号化モードの決定のみのためにオーディオ信号に対して雑音抑圧処理を行うことによって実現することができるであろう。その結果、実際の符号化は、選択された符号化モードを使用してオリジナルのオーディオ信号に適用される。したがって、雑音のある信号を符号化してその重要な特性を保持する一方、符号化モードに関する決定は雑音除去された信号に基づく。結果として、最適な符号化モードを選択することができ、さらに背景雑音がクリーンな信号のモード選択に影響を及ぼすこともない。
提示される手法は、従来の符号化方法に比べ、雑音抑圧処理を用いずに、背景雑音がある場合の符号化性能の改善に適している。さらに、モードが選択される信号は常にクリーンであると想定できるので、クリーン信号と雑音のある信号との間の妥協に基づいてモード設計およびモード選択を行う必要がない。さらに、場合によっては望ましくない、雑音除去されたオーディオ信号の符号化を回避することができる。結果として、信号の自然さが保たれ、雑音除去された信号で時折聞こえることがある付加的な歪みがもたらされない。提示される手法は、低ビットレート符号化の場合に、限られたビット数の悪影響をある程度軽減するのにも適している。
当然のことながら、「オリジナルのオーディオ信号」という表現は、「雑音低減されたオーディオ信号」に対して区別するためのみに使用される。したがって、オリジナルのオーディオ信号の任意の適切な種類の前処理が、オリジナルのオーディオ信号の雑音抑圧処理および/またはオリジナルのオーディオ信号の符号化に先行することができる。
一実施形態では、雑音低減されたオーディオ信号にパラメータ解析を行いる。その結果、解析の結果を、符号化モードを選択するための基準として使用することができる。
いくつかのタイプの解析では、パラメータ解析の結果のみでは信頼性のある形で符号化モードを選択する十分な基準にならないこともあるであろう。そういった場合には、さらなる情報、具体的には雑音低減されたオーディオ信号が使用されてもよいが、これに限定されない。このようなパラメータ解析は、例えばピッチ解析とすることができる。この場合は、結果として生じるパラメータ値、具体的にはピッチ推定はさらに、オリジナルのオーディオ信号の符号化において使用されることが可能であろう。
提示される手法は、複数の利用可能な符号化モードのうちの選択された符号化モードを可能にする、任意のオーディオ符号化スキームと共に用いることができる。この手法は、例えば、エンベデッド可変ビットレート符号化スキームのような可変ビットレート符号化スキームと共に使用可能である。
提示される手法が可変ビットレート符号化スキームと共に使用される場合、雑音低減されたオーディオ信号に基づく符号化モード選択は低ビットレートにのみ用いられ、より高いビットレートには用いられないということが、このような区別は必須でないとしても、可能であろう。
説明される装置は、例えば、可変ビットレート‐エンベデッド可変レート(VBR‐EV: variable bit rate ‐ embedded variable rate)コーダのような符号器とすること、またはそれを含むことができるが、これに限定されない。
電子デバイスは、例えば移動端末またはパーソナルコンピュータとすることができるが、同様に、オーディオデータの符号化に使用される他の任意のデバイスとすることができる。
開示される手法は、例えば、ボイスオーバーIP(VoIP: Voice over IP)など、パケット交換ネットワークを介した送信用に、または、例えばグローバル移動通信システム(GSM: global system for mobile communication)における回路交換ネットワークを介した送信用に、オーディオ信号を符号化するために用いることができる。開示される手法はさらに、他のタイプのネットワークを介した送信用にオーディオ信号を符号化するため、またはいかなる送信からも独立してオーディオ信号を符号化するために用いることができる。
当然のことながら、提示されるすべての実施形態の特徴およびステップは、任意の適切な方法で組み合わせることができる。
添付の図面と併せて以下の詳細な説明について考察することで、本発明の他の目的および特徴が明らかとなる。なお、当然のことながら、図面は、本発明の範囲の定義としてではなく例示を目的としてのみ描かれており、本発明の範囲については添付の特許請求の範囲を参照すべきである。さらに、当然のことながら、図面は一定の縮尺で描かれてはおらず、本願明細書で説明される構成および手順を単に概念的に示すものとする。
図1は、本発明の第1の実施形態に従って符号化モード選択を可能にするシステムの概略ブロック図である。
システムは、第1の電子デバイス110と、第2の電子デバイス130とを含む。システムは、例えば移動通信システムとすることができ、その場合電子デバイス110、130は移動端末とすることができるであろう。
第1の電子デバイス110は、マイクロホン111、集積回路(IC: integrated circuit)112、および送信機(TX)113を含む。集積回路112または電子デバイス110は、本発明による装置の例示的実施形態と見なすことができるであろう。
集積回路112は、アナログデジタル変換器(ADC: analog‐to‐digital converter)114およびオーディオ符号化部120を含む。オーディオ符号化部120は、雑音抑圧器121、ピッチ推定器122、モード選択器123および符号器124を含む。マイクロホン111は、アナログデジタル変換器114に接続されている。アナログデジタル変換器114はさらに、一方では雑音抑圧器121に、他方では符号器124に接続されている。雑音抑圧器121はさらに、ピッチ推定器122およびモード選択器123を介して符号器124に接続されている。ピッチ推定器122はさらに、符号器124に直接接続されている。最後に、符号器124は、送信機113に接続されている。
符号器124の種類は任意に選択することができる。例えば、コア符号器と、いくつかの拡張層コーダとを含む、エンベデッド可変レート音声コーダとすることができるであろう。その場合、コア符号器は、例えば適応マルチレート広帯域(AMR‐WB: adaptive multirate wideband)符号器または可変レートマルチモード広帯域(VMR‐WB: variable‐rate multimode wideband)符号器など、代数符号励振型線形予測(ACELP: algebraic code excited linear prediction)符号器とすることができるであろう。拡張層コーダの選択は、例えば、拡張層の目的が、誤り耐性を最大限に高めることであるか、出力音声の品質を最大限に高めることであるか、または音楽信号の高品質の符号化を得ることであるかによって決まってもよいであろう。
当然のことながら、電子デバイス110は、図示されていない他の様々なコンポーネントを含むことができるであろう。集積回路112も、さらなるコンポーネントを含むことができるであろう。さらに、当然のことながら、アナログデジタル変換器114は、集積回路112の外部に配置されることも可能であり、マイクロホン111は、電子デバイス110の付属品という形で実現されることも可能であろう。なお、さらに、マイクロホン111、アナログデジタル変換器114、オーディオ符号器120および送信機113は、第1の電子デバイス110の1つ以上の他のコンポーネントを介して互いに接続されることも可能であろう。
第2の電子デバイス130は、受信機(RX)131、復号器132、デジタルアナログ変換器133およびスピーカ134を、この順で互いに接続された状態で含む。
当然のことながら、電子デバイス130も、図示されていないその他様々なコンポーネントを含むことができ、スピーカ134も付属デバイスという形で実現されることができるであろう。なお、さらに、受信機131、復号器132、デジタルアナログ変換器133およびスピーカ134は、電子デバイス130の1つ以上の他のコンポーネントを介して互いに接続されることも可能であろう。
以下、図1のシステムにおける本発明による例示的な動作について、図2を参照して説明する。図2は、オーディオ符号器120内の処理を示す流れ図である。
第1の電子デバイス110のユーザは、移動通信ネットワークを介して第2の電子デバイス130へ送信されるべきオーディオデータを入力するためにマイクロホン111を使用することができる。
アナログデジタル変換器114は、マイクロホン111を介して受け取ったアナログオーディオ信号を、デジタルオーディオ信号に変換する。
オーディオ符号器120は、アナログデジタル変換器114からデジタルオーディオ信号を受け取る。
オーディオ符号器120内で、受け取ったオーディオ信号が雑音抑圧器121に渡される。
雑音抑圧器121は、受け取ったオーディオ信号に対して雑音抑圧処理を行う(ステップ201)。雑音抑圧量は、例えば14dBにセットされてもよいが、同じくその他任意の所望の値にセットされてもよい。
結果として生じる雑音除去された信号は、ピッチ推定器122に渡される。ピッチ推定器122は、雑音除去された信号に対して通常のピッチ推定を実行し(ステップ202)、ピッチ推定の結果を、モード選択器123および符号器124の両方に提供する。
モード選択器123は、さらに、雑音抑圧器121から直接か、またはピッチ推定器122を介して、雑音除去された信号を受け取る。モード選択器123は、受け取ったピッチ推定および受け取った雑音除去済み信号を利用して、適切な符号化モードを選択し(ステップ203)、選択したモードを符号器124に指示する。ピッチ推定も雑音除去された信号に基づき決定されたため、背景雑音はモード選択に影響しない。したがって、選択されたモードは、意図的に入力されたオーディオデータに対して特に適切であることが期待できる。
符号器124は、雑音を含むオーディオ信号と、ピッチ推定と、選択された符号化モードの指示とを受け取る。
符号器124は、選択された符号化モードに従って、受け取った雑音を含むオーディオ信号に符号化を適用する(204)。雑音を含むオーディオ信号に符号化を適用することによって、信号の自然さが保たれる。
雑音を含むオーディオ信号に基づく符号化処理は、例えば周波数領域におけるイミッタンススペクトル対(ISF: immitance spectral pair in frequency domain)量子化およびACELPコードブック探索を含んでもよい。雑音を含むオーディオ信号に基づいて、所要のピッチ推定を改めて決定してもよいが、ピッチ推定器122によって提供されたままのピッチ推定結果を使用してもよい。
エンベデッド可変レート音声コーダの場合、コア符号器は、雑音を含むオーディオ信号を、例えば8kbpsのビットレートで符号化し、結果として生じる符号化データを第1の拡張層(enhancement layer)に提供する。第1の拡張層は、符号化データおよび雑音を含むオーディオ信号を受け取り、4kbpsの追加ビットレートで、符号化データの拡張データを生成する。さらなる複数の拡張層が、例えば、4kbps、8kbpsおよびさらに8kbpsという各追加ビットレートで、さらなる拡張データを生成してもよい。
符号化データおよび拡張層データは、符号化モード指示と共に単一のエンベデッドビットストリームにまとめられ、これが送信機113へ渡される。送信機113は、移動通信ネットワークを介してエンベデッドビットストリームを第2の電子デバイス130へ送信する(ステップ205)。第2の電子デバイス130の受信機131は、エンベデッドビットストリームを受信し、それを復号器132へ渡す。復号器132は、エンベデッドビットストリームの全体またはサブセットを復号し、デジタルオーディオデータを回復する。復号器132は、この目的を達成するために、8kbpsのビットレートの符号化データのみを使用してもよい。あるいは、さらに1つ以上の層の拡張層データ、ひいては12kbps、16kbps、24kbpsまたは32kbpsの総ビットレートを使用することが可能であると考えられる。
復号されたデジタルオーディオデータは、デジタルアナログ変換器133に渡され、デジタルアナログ変換器133は、デジタルオーディオデータをアナログオーディオデータに変換する。続いて、アナログオーディオデータは、スピーカ134を介してユーザに提示されるであろう。
雑音抑圧器121により示される機能は、雑音低減されたオーディオ信号を得るべく、オリジナルのオーディオ信号に対して雑音抑圧処理を行う手段とも見なすことができる。モード選択器123によって示される機能は、雑音低減されたオーディオ信号に基づいて符号化モードを選択する手段とも見なすことができる。符号器124によって示される機能は、決定された符号化モードを使用してオリジナルのオーディオ信号を符号化する手段とも見なすことができる。
当然のことながら、図1を参照しつつ示された実施形態は、様々に変更され得る。例えば、電子デバイス110、130の一方または両方を、移動端末とは違うデバイスとすることができるであろう。一例として、電子デバイスの一方はパーソナルコンピュータなどとすることができるであろう。さらに、集積回路112の機能は、個別コンポーネントまたはソフトウェアによって実現されることも可能であろう。さらに、モード選択は、ピッチ解析とは違うタイプのパラメータ解析などに基づいてもよい。
図3は、本発明の第2の実施形態に従って符号化モード選択を可能にする例示的な電子デバイス310の概略ブロック図である。
電子デバイス310は、この場合もやはり、例えば無線通信システムの移動端末とすることができるであろう。電子デバイス310は、本発明による装置の例示的実施形態と見なすことができるであろう。
電子デバイス310は、マイクロホン311を含み、マイクロホン311は、アナログデジタル変換器314を介してプロセッサ321に接続されている。プロセッサ321はさらに、デジタルアナログ変換器333を介してスピーカ334に接続されている。プロセッサ321はさらに、送受信機(TX/RX)313と、ユーザインターフェース(UI: user interface)315と、メモリ322とに接続されている。
プロセッサ321は、種々のプログラムコードを実行するように構成される。実装されるプログラムコードは、雑音除去されたオーディオ信号に基づいて選択された符号化モードを使用して雑音を含むオーディオ信号を符号化するための、オーディオ符号化コードを含む。実装されるプログラムコードはさらに、オーディオ復号コードを含む。実装されるプログラムコード323は、例えば、必要なときにいつでもプロセッサ321によって読み出されるよう、メモリ322内に格納されているとよい。メモリ322はさらに、例えば本発明に従って符号化されたデータなどのデータを格納するためのセクション324を提供することができるであろう。
ユーザインターフェース315は、ユーザが、電子デバイス310に対する、例えばキーパッドを介したコマンド入力、および/または電子デバイス310からの、例えばディスプレイを介した情報取得を行うことができるようにする。送受信機313は、例えば無線通信ネットワークを介した、他の電子デバイスとの通信を可能にする。
この場合もやはり当然のことながら、電子デバイス310の構造は、様々に補完および変更することができるであろう。
電子デバイス310のユーザは、他の何らかの電子デバイスへ送信されるべき、またはメモリ322のデータセクション324に格納されるべきオーディオデータを入力するために、マイクロホン311を使用するとよい。この目的を達成するために、関連するアプリケーションが、ユーザインターフェース315を介してユーザによって起動されている。このアプリケーションは、プロセッサ321によって実行されるとよく、メモリ322に格納されている符号化コードをプロセッサ321に実行させる。
アナログデジタル変換器314は、入力されたアナログオーディオ信号をデジタルオーディオ信号に変換し、このデジタルオーディオ信号をプロセッサ321に提供する。
続いて、プロセッサ321は、このデジタルオーディオ信号を、図1の電子デバイス110に関して図3を参照して説明されたのと同じ方法で処理するとよい。
結果として生じるビットストリームは、エンベデッドビットストリームとして、別の電子デバイスへの送信用に送受信機313に提供される。あるいは、符号化データは、例えば後から送信されるよう、または同じ電子デバイス310によって後から提示されるよう、メモリ322のデータセクション324に格納されることが可能であろう。
電子デバイス310はさらに、同様に符号化されたデータを備えるビットストリームを、その送受信機313を介して別の電子デバイスから受信することができるであろう。この場合、プロセッサ321は、メモリ322に格納されている復号プログラムコードを実行するとよい。プロセッサ321は、エンベデッドビットストリームにおいて受信したデータまたはデータの適切なサブセットを復号し、復号したデータをデジタルアナログ変換器333に提供する。デジタルアナログ変換器333は、復号されたデジタルデータをアナログオーディオデータに変換し、それを、スピーカ334を介して出力する。復号プログラムコードの実行は、ユーザインターフェース315を介してユーザによって呼び出されたアプリケーションによりトリガされることも同様に可能であると考えられる。
受信された符号化データは、スピーカ334を介して即時に再生されるのではなく、例えば後から再生できるようにするため、またはさらに別の電子デバイスに転送するために、メモリ322のデータセクション324に格納することもできるであろう。
符号化コードを実行するプロセッサ321によって示される各機能は、雑音低減されたオーディオ信号を得るためにオリジナルのオーディオ信号に対して雑音抑圧処理を行う手段;雑音低減されたオーディオ信号に基づき符号化モードを選択する手段;および決定された符号化モードを使用してオリジナルのオーディオ信号を符号化する手段と見なすこともできる。
あるいは、符号化コードの各機能モジュールは、雑音低減されたオーディオ信号を得るためにオリジナルのオーディオ信号に対して雑音抑圧処理を行う手段;雑音低減されたオーディオ信号に基づき符号化モードを選択する手段;および決定された符号化モードを使用してオリジナルのオーディオ信号を符号化する手段と見なすこともできる。
全体的にみると、提示された本発明の実施形態は、オーディオデータの符号化に適切な符号化モードを選択できるようにする。これによって、雑音を含むオーディオデータに適用される符号化モードとして、それが適切であれば、雑音抑圧を行わないモードが選択される場合もある。提示される改良されたモード選択法は、オーディオ符号化の性能を改善する。
本発明の好適な実施形態に対して適用される本発明の基本的な新規特徴を表現、説明および指摘してきたが、当然のことながら、当業者によって、説明されたデバイスおよび方法の形式および細部における種々の省略および代用および変更が、本発明の意図から逸脱することなくなされてもよい。例えば、実質的に同じ機能を実質的に同じ方法で実行して同じ結果を得る当該の構成要素および/または方法ステップの組み合わせはすべて、本発明の範囲内であることが明確に意図される。さらに、当然のことながら、本発明の任意の開示された形式または実施形態に関連して表現および/または説明された構造および/または構成要素および/または方法ステップは、設計上の選択の一般的な問題として、その他任意の、開示もしくは説明もしくは提案された形式または実施形態に組み込まれてもよい。したがって、本願明細書に添付されている特許請求の範囲によって示される通りにのみ限定されるものとする。さらに、特許請求の範囲では、ミーンズプラスファンクション節は、説明された機能を実行するものとして本願明細書で説明された構造を対象とし、構造上の等価物のみではなく等価な構造も対象とするものとする。
Claims (23)
- 雑音低減されたオーディオ信号を得るべく、オリジナルのオーディオ信号に対して雑音抑圧処理を行うことと;
前記雑音低減されたオーディオ信号に基づいて、符号化モードを選択することと;
前記選択された符号化モードを使用して、前記オリジナルのオーディオ信号を符号化することと;
を含む方法。 - 前記雑音低減されたオーディオ信号に対してパラメータ解析を行い、該解析の結果を前記符号化モードを選択する基準として使用する、請求項1に記載の方法。
- 前記雑音低減されたオーディオ信号にピッチ解析を行い、前記ピッチ解析の結果と、前記雑音低減されたオーディオ信号とを、前記符号化モードを選択する基準として使用する、請求項1に記載の方法。
- 前記オリジナルのオーディオ信号の前記符号化に前記ピッチ解析の結果を使用する、請求項3に記載の方法。
- 前記オリジナルのオーディオ信号の前記符号化は、エンベデッド可変ビットレート符号化である、請求項1に記載の方法。
- 前記雑音低減されたオーディオ信号に基づく前記符号化モード選択は、可変ビットレート符号化における低ビットレート符号化のためのみに用いられる、請求項1に記載の方法。
- 雑音低減されたオーディオ信号を得るべく、オリジナルのオーディオ信号に対して雑音抑圧処理を行うよう構成される、雑音抑圧処理コンポーネントと;
前記雑音抑圧処理コンポーネントによって提供される前記雑音低減されたオーディオ信号に基づいて、符号化モードを選択するように構成される選択コンポーネントと;
前記選択コンポーネントによって選択された符号化モードを使用して、前記オリジナルのオーディオ信号を符号化するように構成される符号化コンポーネントと;
を含む装置。 - 前記装置は、前記雑音低減されたオーディオ信号に対してパラメータ解析を行うよう構成される解析コンポーネントをさらに含み、前記選択コンポーネントは、前記解析の結果を、前記符号化モードを選択する基準として使用するように構成される、請求項7に記載の装置。
- 前記装置は、前記雑音低減されたオーディオ信号に対してピッチ解析を行うように構成される解析コンポーネントをさらに含み、前記選択コンポーネントは、前記ピッチ解析の結果と、前記雑音低減されたオーディオ信号とを、前記符号化モードを選択する基準として使用するように構成される、請求項7に記載の装置。
- 前記符号化コンポーネントは、さらに前記ピッチ解析の結果も使用して、前記オリジナルのオーディオ信号を符号化するように構成される、請求項9に記載の装置。
- 前記符号化コンポーネントは、エンベデッド可変ビットレート符号化を、前記オリジナルのオーディオ信号に適用するように構成される、請求項7に記載の装置。
- 前記符号化コンポーネントは、可変ビットレート符号化を前記オリジナルのオーディオ信号に適用するよう設定されており、前記選択コンポーネントは、前記符号化コンポーネントによって低ビットレート符号化が適用されることになっている場合にのみ、前記雑音低減されたオーディオ信号に基づいて符号化モードを選択するように構成される、請求項7に記載の装置。
- 請求項7に記載の装置と;
オーディオ信号インターフェースと;
を含む電子デバイス。 - 請求項1に記載の方法に従って符号化されたオーディオ信号を復号するよう構成される復号コンポーネントを含む装置。
- 請求項7に記載の装置と;
請求項7に記載の前記装置により符号化されたオーディオ信号を復号するように構成される復号コンポーネントを含む装置と;
を含むシステム。 - コンピュータ可読媒体にプログラムコードが格納されるコンピュータプログラム製品であって、前記プログラムコードは、プロセッサにより実行されると、以下のこと:
雑音低減されたオーディオ信号を得るべく、オリジナルのオーディオ信号に対して雑音抑圧処理を行うこと;
前記雑音低減されたオーディオ信号に基づいて、符号化モードを選択すること;
前記選択された符号化モードを使用して、前記オリジナルのオーディオ信号を符号化すること;
を実現する、コンピュータプログラム製品。 - 前記プログラムコードは、前記雑音低減されたオーディオ信号にパラメータ解析を適用し、前記解析の結果を、前記符号化モードを選択する基準として使用する、請求項16に記載のコンピュータプログラム製品。
- 前記プログラムコードは、前記雑音低減されたオーディオ信号にピッチ解析を適用し、前記ピッチ解析の結果と、前記雑音低減されたオーディオ信号とを、符号化モードを選択する基準として使用する、請求項16に記載のコンピュータプログラム製品。
- 前記プログラムコードは、前記オリジナルのオーディオ信号の符号化に、さらに前記ピッチ解析の結果も使用する、請求項18に記載のコンピュータプログラム製品。
- 前記オリジナルのオーディオ信号の前記符号化は、エンベデッド可変ビットレート符号化である、請求項16に記載のコンピュータプログラム製品。
- 前記雑音低減されたオーディオ信号に基づく前記符号化モード選択は、可変ビットレート符号化における低ビットレート符号化のためのみに用いられる、請求項16に記載のコンピュータプログラム製品。
- 雑音低減されたオーディオ信号を得るべく、オリジナルのオーディオ信号に対して雑音抑圧処理を行う手段と;
前記雑音低減されたオーディオ信号に基づいて、符号化モードを選択する手段と;
前記選択された符号化モードを使用して、前記オリジナルのオーディオ信号を符号化する手段と;
を含む装置。 - 前記装置は、前記雑音低減されたオーディオ信号に対してピッチ解析を行う手段をさらに含み、符号化モードを選択する前記手段は、前記ピッチ解析の結果を、前記符号化モードを選択する基準として使用する、請求項22に記載の装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/706,134 US8060363B2 (en) | 2007-02-13 | 2007-02-13 | Audio signal encoding |
PCT/EP2008/051039 WO2008098836A1 (en) | 2007-02-13 | 2008-01-29 | Audio signal encoding |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010518434A true JP2010518434A (ja) | 2010-05-27 |
Family
ID=39495321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009548654A Withdrawn JP2010518434A (ja) | 2007-02-13 | 2008-01-29 | オーディオ信号の符号化 |
Country Status (10)
Country | Link |
---|---|
US (1) | US8060363B2 (ja) |
EP (1) | EP2118890A1 (ja) |
JP (1) | JP2010518434A (ja) |
KR (1) | KR101075845B1 (ja) |
CN (1) | CN101611441B (ja) |
AU (1) | AU2008214753A1 (ja) |
CA (1) | CA2677774A1 (ja) |
RU (1) | RU2428748C2 (ja) |
WO (1) | WO2008098836A1 (ja) |
ZA (1) | ZA200906284B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018528480A (ja) * | 2015-09-25 | 2018-09-27 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 線形予測符号化を使用して低減された背景ノイズを有するオーディオ信号を符号化する符号器および方法 |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7461106B2 (en) | 2006-09-12 | 2008-12-02 | Motorola, Inc. | Apparatus and method for low complexity combinatorial coding of signals |
US8576096B2 (en) * | 2007-10-11 | 2013-11-05 | Motorola Mobility Llc | Apparatus and method for low complexity combinatorial coding of signals |
CA2702669C (en) * | 2007-10-15 | 2015-03-31 | Lg Electronics Inc. | A method and an apparatus for processing a signal |
US8639519B2 (en) * | 2008-04-09 | 2014-01-28 | Motorola Mobility Llc | Method and apparatus for selective signal coding based on core encoder performance |
US8868430B2 (en) * | 2009-01-16 | 2014-10-21 | Sony Corporation | Methods, devices, and computer program products for providing real-time language translation capabilities between communication terminals |
CN101615910B (zh) | 2009-05-31 | 2010-12-22 | 华为技术有限公司 | 压缩编码的方法、装置和设备以及压缩解码方法 |
US9838784B2 (en) | 2009-12-02 | 2017-12-05 | Knowles Electronics, Llc | Directional audio capture |
US8538035B2 (en) | 2010-04-29 | 2013-09-17 | Audience, Inc. | Multi-microphone robust noise suppression |
US8473287B2 (en) | 2010-04-19 | 2013-06-25 | Audience, Inc. | Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system |
US8781137B1 (en) | 2010-04-27 | 2014-07-15 | Audience, Inc. | Wind noise detection and suppression |
US8447596B2 (en) | 2010-07-12 | 2013-05-21 | Audience, Inc. | Monaural noise suppression based on computational auditory scene analysis |
KR101826331B1 (ko) * | 2010-09-15 | 2018-03-22 | 삼성전자주식회사 | 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법 |
US8311817B2 (en) * | 2010-11-04 | 2012-11-13 | Audience, Inc. | Systems and methods for enhancing voice quality in mobile device |
RU2505921C2 (ru) * | 2012-02-02 | 2014-01-27 | Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." | Способ и устройство кодирования и декодирования аудиосигналов (варианты) |
KR102446441B1 (ko) * | 2012-11-13 | 2022-09-22 | 삼성전자주식회사 | 부호화 모드 결정방법 및 장치, 오디오 부호화방법 및 장치와, 오디오 복호화방법 및 장치 |
US9536540B2 (en) | 2013-07-19 | 2017-01-03 | Knowles Electronics, Llc | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
FR3020732A1 (fr) * | 2014-04-30 | 2015-11-06 | Orange | Correction de perte de trame perfectionnee avec information de voisement |
WO2016040885A1 (en) | 2014-09-12 | 2016-03-17 | Audience, Inc. | Systems and methods for restoration of speech components |
US9820042B1 (en) | 2016-05-02 | 2017-11-14 | Knowles Electronics, Llc | Stereo separation and directional suppression with omni-directional microphones |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SU1660188A1 (ru) | 1988-09-08 | 1991-06-30 | Предприятие П/Я Р-6510 | Адаптивное устройство компенсации помех в речевом сигнале |
US5659622A (en) * | 1995-11-13 | 1997-08-19 | Motorola, Inc. | Method and apparatus for suppressing noise in a communication system |
US6233550B1 (en) | 1997-08-29 | 2001-05-15 | The Regents Of The University Of California | Method and apparatus for hybrid coding of speech at 4kbps |
JP3273599B2 (ja) * | 1998-06-19 | 2002-04-08 | 沖電気工業株式会社 | 音声符号化レート選択器と音声符号化装置 |
US6604070B1 (en) * | 1999-09-22 | 2003-08-05 | Conexant Systems, Inc. | System of encoding and decoding speech signals |
JP2001318694A (ja) * | 2000-05-10 | 2001-11-16 | Toshiba Corp | 信号処理装置、信号処理方法および記録媒体 |
US6862567B1 (en) * | 2000-08-30 | 2005-03-01 | Mindspeed Technologies, Inc. | Noise suppression in the frequency domain by adjusting gain according to voicing parameters |
TWI288915B (en) * | 2002-06-17 | 2007-10-21 | Dolby Lab Licensing Corp | Improved audio coding system using characteristics of a decoded signal to adapt synthesized spectral components |
KR100754439B1 (ko) * | 2003-01-09 | 2007-08-31 | 와이더댄 주식회사 | 이동 전화상의 체감 음질을 향상시키기 위한 디지털오디오 신호의 전처리 방법 |
EP1496500B1 (en) * | 2003-07-09 | 2007-02-28 | Samsung Electronics Co., Ltd. | Bitrate scalable speech coding and decoding apparatus and method |
GB0321093D0 (en) | 2003-09-09 | 2003-10-08 | Nokia Corp | Multi-rate coding |
CN1598926A (zh) | 2003-09-16 | 2005-03-23 | 株式会社东芝 | 具有噪声抑制的音频编码方法和设备 |
US7558729B1 (en) * | 2004-07-16 | 2009-07-07 | Mindspeed Technologies, Inc. | Music detection for enhancing echo cancellation and speech coding |
CN100561576C (zh) * | 2005-10-25 | 2009-11-18 | 芯晟(北京)科技有限公司 | 一种基于量化信号域的立体声及多声道编解码方法与系统 |
US7366658B2 (en) * | 2005-12-09 | 2008-04-29 | Texas Instruments Incorporated | Noise pre-processor for enhanced variable rate speech codec |
-
2007
- 2007-02-13 US US11/706,134 patent/US8060363B2/en active Active
-
2008
- 2008-01-29 AU AU2008214753A patent/AU2008214753A1/en not_active Abandoned
- 2008-01-29 EP EP08708356A patent/EP2118890A1/en not_active Withdrawn
- 2008-01-29 CN CN2008800048817A patent/CN101611441B/zh active Active
- 2008-01-29 JP JP2009548654A patent/JP2010518434A/ja not_active Withdrawn
- 2008-01-29 CA CA002677774A patent/CA2677774A1/en not_active Abandoned
- 2008-01-29 KR KR1020097018953A patent/KR101075845B1/ko active IP Right Grant
- 2008-01-29 WO PCT/EP2008/051039 patent/WO2008098836A1/en active Application Filing
- 2008-01-29 RU RU2009133417/09A patent/RU2428748C2/ru active
-
2009
- 2009-09-10 ZA ZA2009/06284A patent/ZA200906284B/en unknown
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018528480A (ja) * | 2015-09-25 | 2018-09-27 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 線形予測符号化を使用して低減された背景ノイズを有するオーディオ信号を符号化する符号器および方法 |
US10692510B2 (en) | 2015-09-25 | 2020-06-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder and method for encoding an audio signal with reduced background noise using linear predictive coding |
Also Published As
Publication number | Publication date |
---|---|
US8060363B2 (en) | 2011-11-15 |
CA2677774A1 (en) | 2008-08-21 |
WO2008098836A1 (en) | 2008-08-21 |
KR20090110377A (ko) | 2009-10-21 |
RU2009133417A (ru) | 2011-03-20 |
RU2428748C2 (ru) | 2011-09-10 |
CN101611441B (zh) | 2012-12-26 |
KR101075845B1 (ko) | 2011-10-25 |
CN101611441A (zh) | 2009-12-23 |
US20080192947A1 (en) | 2008-08-14 |
ZA200906284B (en) | 2011-02-23 |
EP2118890A1 (en) | 2009-11-18 |
AU2008214753A1 (en) | 2008-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101075845B1 (ko) | 오디오 신호 인코딩 | |
JP5203929B2 (ja) | スペクトルエンベロープ表示のベクトル量子化方法及び装置 | |
US8630864B2 (en) | Method for switching rate and bandwidth scalable audio decoding rate | |
RU2469419C2 (ru) | Способ и устройство для управления сглаживанием стационарного фонового шума | |
US20020035470A1 (en) | Speech coding system with time-domain noise attenuation | |
JP4176349B2 (ja) | マルチモードの音声符号器 | |
KR20030046451A (ko) | 음성 코딩을 위한 코드북 구조 및 탐색 방법 | |
JP5340965B2 (ja) | 定常的な背景雑音の平滑化を行うための方法及び装置 | |
US10607624B2 (en) | Signal codec device and method in communication system | |
EP2057626B1 (en) | Encoding an audio signal | |
CA2673745C (en) | Audio quantization | |
RU2707144C2 (ru) | Аудиокодер и способ для кодирования аудиосигнала |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20101207 |