JP2010518434A

JP2010518434A - オーディオ信号の符号化

Info

Publication number: JP2010518434A
Application number: JP2009548654A
Authority: JP
Inventors: アンスィラモ; ラッセラークソネン; アドリアナヴァスィレイチェ
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2007-02-13
Filing date: 2008-01-29
Publication date: 2010-05-27
Also published as: US8060363B2; CA2677774A1; WO2008098836A1; KR20090110377A; RU2009133417A; RU2428748C2; CN101611441B; KR101075845B1; CN101611441A; US20080192947A1; ZA200906284B; EP2118890A1; AU2008214753A1

Abstract

オーディオ符号化において、雑音低減されたオーディオ信号を得るよう、オリジナルのオーディオ信号に雑音抑圧処理が適用される。雑音低減されたオーディオ信号に基づいて符号化モードが選択される。次に、この選択された符号化モードを使用して、オリジナルのオーディオ信号が符号化される。
【選択図】図1

Description

本発明は、オーディオ信号の符号化に関する。特に、本発明は、そのような符号化をサポートする方法、装置、デバイス、システムおよびコンピュータプログラム製品に関する。

発明の背景

音声のようなオーディオ信号は、例えば効率的な送信や格納のために符号化される。音声用の符復号器（コーデック）は、通常、音声信号向けに最適化されており、固定ビットレートで動作することが非常に多い。しかし、一般のオーディオコーデックは、変化するビットレートで動作するように設定することもできる。そのようなオーディオコーデックは、最も低いビットレートでは、同様のレートの純粋な音声コーデックと同じように音声信号を処理することができる。最も高いビットレートでは、音楽および背景雑音を含むいかなる信号でも性能は優れたものとなると考えられ、この背景雑音は、ただの雑音ではなくオーディオ信号の一部と見なされうる。

さらなるオーディオ符号化の選択肢として、エンベデッド可変レート音声符号化（embedded variable rate speech coding）がある。これは階層符号化（layered coding）とも呼ばれる。エンベデッド可変レート音声符号化は、コア符号器により生成される主符号化データと、コア符号器により生成されるこの主符号化データをさらに正確にする付加的な拡張データとを含むビットストリームを作り出す。その結果、ビットストリームの１つまたは複数のサブセットを高品質で復号することが可能となる。ＩＴＵ‐Ｔ標準は、ビットレート８〜３２ｋｂｐｓで、５０〜７０００Ｈｚの広帯域コーデックを目標としている。コーデックのコアは８ｋｂｐｓで動作することになり、粒度（granularity）が非常に細かい追加の層が、確認される音声およびオーディオの品質を高めることになる。例えば、同じエンベデッドビットストリーム（embedded bit stream）から、８／１２／１６／２４および３２ｋｂｐｓという少なくとも５つのビットレートが得られることが最低限の目標である。

オーディオ信号を符号化するとき、場合によっては、音質を改良するために、実際の符号化に先行する処理ステップとして雑音抑圧が行われることもある。特に低い方のビットレートは雑音抑圧処理から恩恵を受けると思われるが、これは、雑音抑圧処理が、雑音の多い環境においてもある程度優れた出力品質を得られるようにすることができるためである。

雑音抑圧を用いずに動作するコーデックの低ビットレート性能は低い。これは、コーデックが雑音成分を含んだ信号全体を再生しようとするためである。結果として、波形特性および重要な音声特性を保つために十分なビットがないということになる。この問題は、ビットレートが増大するとともに軽減される。

したがって、ビットレートが高くなると、前処理がなくても高いオーディオ品質がもたらされる。音楽信号の場合は、雑音抑圧処理が、信号にさらなる歪みを加えることさえもある。したがって、可変ビットレートで高品質の符号化を実現するために、低ビットレート音声符号化ではより多く雑音抑圧を使用するが、高いビットレートのオーディオ／音声符号化では雑音抑圧を使用しないということが可能である。

エンベデッド可変ビットレート符号化に関しても、より低いビットレート、この場合であれば主に８および１２ｋｂｐｓは、雑音抑圧から恩恵を受けると考えられ、その一方で、高いビットレートは、前処理がなくても最高の音声およびオーディオ品質をもたらすと考えられる。この場合は、適応雑音抑圧法（adaptive noise suppression approach）を用いることができるであろう。すなわち、第１の雑音抑圧量がオーディオ信号に適用され、結果として生じる信号がコア符号器で符号化されることが可能であろう。さらに、第２の雑音抑圧量が同じオーディオ信号に適用されるか、または雑音抑圧処理は適用されず、結果として生じる信号が拡張データを生成するために使用されることが可能であろう。

種々のビットレートに加え、オーディオ符号器はさらに、オーディオ信号を符号化する種々の符号化モード（coding mode）からの選択を行うとよい。第１の符号化モードは例えば音声向け、第２のモードは音楽向け、さらに第３のモードは混合信号向けなどに最適化されているとよい。個々の符号化モードは、例えば符号化されるべき信号の、決定されたパラメータに基づいて選択されるとよい。

本発明は、低ビットレート符号化の場合には、上記の悪影響があっても、符号化されるべきオーディオ信号に対する雑音抑圧処理の適用が常に望ましいとは限らない可能性があるという考えから生じている。

しかし、背景雑音が大きいにもかかわらず雑音抑圧を行わないと、低ビットレートコーデックは、不適当な符号化モードを選択する傾向がある。不適当な符号化モードの適用は、結果として符号化の品質を制限し、低ビットレート符号化の場合におけるビット数の制限の悪影響がさらに顕著となる。コーデックが、音声特性だけでなく信号内の雑音特性も再生しようとするということが原因で、最適でないモードが頻繁に選択される可能性がある。結果として、コーデックが特に有声音声（voiced speech）や有声遷移（voicing transitions）用に最適な手法を備えていたとしても、雑音のような無声音声用の符号化モードや、一般的に全てのフレームを符号化するための非常に汎用的な符号化モードが、雑音のある音声に対して頻繁に使用されてしまう。

モード選択を、クリーンな信号と、雑音のある信号との両方に有効かつ可能となるように設計することもできると考えられるが、そのような手法は当然、クリーン信号と雑音のある信号と間での性能面における妥協点となる。さらにこれには、とりわけオフィスの雑音、街頭雑音、自動車雑音、干渉して話す人による雑音などを含むすべてのタイプの背景雑音に関してモード分類器を微調整するためのかなりの作業量が必要である。

雑音低減されたオーディオ信号を得るべく、オリジナルのオーディオ信号に対して雑音抑圧処理を行うことを含む方法を開示する。この方法は、雑音低減されたオーディオ信号に基づいて符号化モードを選択することをさらに含む。この方法は、選択された符号化モードを使用して、オリジナルのオーディオ信号を符号化することをさらに含む。

さらに、雑音低減されたオーディオ信号を得るべく、オリジナルのオーディオ信号に対して雑音抑圧処理を行うよう構成される雑音抑圧処理コンポーネントを含む装置を開示する。この装置は、雑音抑圧処理コンポーネントによって提供される雑音低減されたオーディオ信号に基づいて符号化モードを選択するように構成される、選択コンポーネントをさらに含む。この装置は、選択コンポーネントによって選択された符号化モードを使用して、オリジナルのオーディオ信号を符号化するよう設定された符号化コンポーネントをさらに含む。

説明される装置の各コンポーネントは、ハードウェアおよび／またはソフトウェアによって実装可能である。これらのコンポーネントは、例えば、必要な機能を実現するためのソフトウェアプログラムコードを実行するプロセッサにより実現されうる。あるいは、これらのコンポーネントは、例えばチップセットまたはチップなど、集積回路のような回路に実装することができるであろう。さらに、説明される装置は、言及されるコンポーネントのみを含む可能性もあるが、複数の追加コンポーネントをさらに備えていてもよい。

さらに、開示された装置に加えてオーディオ信号インターフェースを含む、電子デバイスを開示する。このオーディオ信号インターフェースは、例えばマイクロホンまたはマイクロホン用コネクタとすることができるが、オーディオ信号を提供するその他何らかのデバイスへのインターフェースとすることも同様に可能である。

さらに、開示された方法に従って符号化されたオーディオ信号を復号するよう構成されている復号コンポーネントを含む装置を開示する。

さらに、開示された装置に加えて、当該装置により符号化されたオーディオ信号を復号するように構成される復号コンポーネントを備える別の装置を含むシステムを開示する。

最後に、プログラムコードがコンピュータ可読媒体に格納されている、コンピュータプログラム製品が提案される。このプログラムコードは、プロセッサにより実行されると、提案される方法を実現する。このコンピュータプログラム製品は、例えば別個のメモリデバイスとすること、または電子デバイス内に組み込まれるメモリとすることができるであろう。

本発明の範囲は、そのようなコンピュータプログラムコードを、コンピュータプログラム製品およびコンピュータ可読媒体からは独立しても含むと理解されるべきである。

背景雑音がある間に、特殊化された利用可能な符号化モードがより頻繁に利用されれば、雑音抑圧処理を用いないオーディオ符号化の性能は、多くの場合に改善可能であろう。これは、説明されるように、符号化モードの決定のみのためにオーディオ信号に対して雑音抑圧処理を行うことによって実現することができるであろう。その結果、実際の符号化は、選択された符号化モードを使用してオリジナルのオーディオ信号に適用される。したがって、雑音のある信号を符号化してその重要な特性を保持する一方、符号化モードに関する決定は雑音除去された信号に基づく。結果として、最適な符号化モードを選択することができ、さらに背景雑音がクリーンな信号のモード選択に影響を及ぼすこともない。

提示される手法は、従来の符号化方法に比べ、雑音抑圧処理を用いずに、背景雑音がある場合の符号化性能の改善に適している。さらに、モードが選択される信号は常にクリーンであると想定できるので、クリーン信号と雑音のある信号との間の妥協に基づいてモード設計およびモード選択を行う必要がない。さらに、場合によっては望ましくない、雑音除去されたオーディオ信号の符号化を回避することができる。結果として、信号の自然さが保たれ、雑音除去された信号で時折聞こえることがある付加的な歪みがもたらされない。提示される手法は、低ビットレート符号化の場合に、限られたビット数の悪影響をある程度軽減するのにも適している。

当然のことながら、「オリジナルのオーディオ信号」という表現は、「雑音低減されたオーディオ信号」に対して区別するためのみに使用される。したがって、オリジナルのオーディオ信号の任意の適切な種類の前処理が、オリジナルのオーディオ信号の雑音抑圧処理および／またはオリジナルのオーディオ信号の符号化に先行することができる。

一実施形態では、雑音低減されたオーディオ信号にパラメータ解析を行いる。その結果、解析の結果を、符号化モードを選択するための基準として使用することができる。

いくつかのタイプの解析では、パラメータ解析の結果のみでは信頼性のある形で符号化モードを選択する十分な基準にならないこともあるであろう。そういった場合には、さらなる情報、具体的には雑音低減されたオーディオ信号が使用されてもよいが、これに限定されない。このようなパラメータ解析は、例えばピッチ解析とすることができる。この場合は、結果として生じるパラメータ値、具体的にはピッチ推定はさらに、オリジナルのオーディオ信号の符号化において使用されることが可能であろう。

提示される手法は、複数の利用可能な符号化モードのうちの選択された符号化モードを可能にする、任意のオーディオ符号化スキームと共に用いることができる。この手法は、例えば、エンベデッド可変ビットレート符号化スキームのような可変ビットレート符号化スキームと共に使用可能である。

提示される手法が可変ビットレート符号化スキームと共に使用される場合、雑音低減されたオーディオ信号に基づく符号化モード選択は低ビットレートにのみ用いられ、より高いビットレートには用いられないということが、このような区別は必須でないとしても、可能であろう。

説明される装置は、例えば、可変ビットレート‐エンベデッド可変レート（VBR‐EV: variable bit rate ‐ embedded variable rate）コーダのような符号器とすること、またはそれを含むことができるが、これに限定されない。

電子デバイスは、例えば移動端末またはパーソナルコンピュータとすることができるが、同様に、オーディオデータの符号化に使用される他の任意のデバイスとすることができる。

開示される手法は、例えば、ボイスオーバーＩＰ(VoIP: Voice over IP）など、パケット交換ネットワークを介した送信用に、または、例えばグローバル移動通信システム（GSM: global system for mobile communication）における回路交換ネットワークを介した送信用に、オーディオ信号を符号化するために用いることができる。開示される手法はさらに、他のタイプのネットワークを介した送信用にオーディオ信号を符号化するため、またはいかなる送信からも独立してオーディオ信号を符号化するために用いることができる。

当然のことながら、提示されるすべての実施形態の特徴およびステップは、任意の適切な方法で組み合わせることができる。

添付の図面と併せて以下の詳細な説明について考察することで、本発明の他の目的および特徴が明らかとなる。なお、当然のことながら、図面は、本発明の範囲の定義としてではなく例示を目的としてのみ描かれており、本発明の範囲については添付の特許請求の範囲を参照すべきである。さらに、当然のことながら、図面は一定の縮尺で描かれてはおらず、本願明細書で説明される構成および手順を単に概念的に示すものとする。

本発明の実施形態によるシステムの概略ブロック図である。図１の通信システムにおける動作を示す流れ図である。本発明の実施形態による電子デバイスの概略ブロック図である。

図１は、本発明の第１の実施形態に従って符号化モード選択を可能にするシステムの概略ブロック図である。

システムは、第１の電子デバイス１１０と、第２の電子デバイス１３０とを含む。システムは、例えば移動通信システムとすることができ、その場合電子デバイス１１０、１３０は移動端末とすることができるであろう。

第１の電子デバイス１１０は、マイクロホン１１１、集積回路（IC: integrated circuit）１１２、および送信機（ＴＸ）１１３を含む。集積回路１１２または電子デバイス１１０は、本発明による装置の例示的実施形態と見なすことができるであろう。

集積回路１１２は、アナログデジタル変換器（ADC: analog‐to‐digital converter）１１４およびオーディオ符号化部１２０を含む。オーディオ符号化部１２０は、雑音抑圧器１２１、ピッチ推定器１２２、モード選択器１２３および符号器１２４を含む。マイクロホン１１１は、アナログデジタル変換器１１４に接続されている。アナログデジタル変換器１１４はさらに、一方では雑音抑圧器１２１に、他方では符号器１２４に接続されている。雑音抑圧器１２１はさらに、ピッチ推定器１２２およびモード選択器１２３を介して符号器１２４に接続されている。ピッチ推定器１２２はさらに、符号器１２４に直接接続されている。最後に、符号器１２４は、送信機１１３に接続されている。

符号器１２４の種類は任意に選択することができる。例えば、コア符号器と、いくつかの拡張層コーダとを含む、エンベデッド可変レート音声コーダとすることができるであろう。その場合、コア符号器は、例えば適応マルチレート広帯域（AMR‐WB: adaptive multirate wideband）符号器または可変レートマルチモード広帯域（VMR‐WB: variable‐rate multimode wideband）符号器など、代数符号励振型線形予測（ACELP: algebraic code excited linear prediction）符号器とすることができるであろう。拡張層コーダの選択は、例えば、拡張層の目的が、誤り耐性を最大限に高めることであるか、出力音声の品質を最大限に高めることであるか、または音楽信号の高品質の符号化を得ることであるかによって決まってもよいであろう。

当然のことながら、電子デバイス１１０は、図示されていない他の様々なコンポーネントを含むことができるであろう。集積回路１１２も、さらなるコンポーネントを含むことができるであろう。さらに、当然のことながら、アナログデジタル変換器１１４は、集積回路１１２の外部に配置されることも可能であり、マイクロホン１１１は、電子デバイス１１０の付属品という形で実現されることも可能であろう。なお、さらに、マイクロホン１１１、アナログデジタル変換器１１４、オーディオ符号器１２０および送信機１１３は、第１の電子デバイス１１０の１つ以上の他のコンポーネントを介して互いに接続されることも可能であろう。

第２の電子デバイス１３０は、受信機（ＲＸ）１３１、復号器１３２、デジタルアナログ変換器１３３およびスピーカ１３４を、この順で互いに接続された状態で含む。

当然のことながら、電子デバイス１３０も、図示されていないその他様々なコンポーネントを含むことができ、スピーカ１３４も付属デバイスという形で実現されることができるであろう。なお、さらに、受信機１３１、復号器１３２、デジタルアナログ変換器１３３およびスピーカ１３４は、電子デバイス１３０の１つ以上の他のコンポーネントを介して互いに接続されることも可能であろう。

以下、図１のシステムにおける本発明による例示的な動作について、図２を参照して説明する。図２は、オーディオ符号器１２０内の処理を示す流れ図である。

第１の電子デバイス１１０のユーザは、移動通信ネットワークを介して第２の電子デバイス１３０へ送信されるべきオーディオデータを入力するためにマイクロホン１１１を使用することができる。

アナログデジタル変換器１１４は、マイクロホン１１１を介して受け取ったアナログオーディオ信号を、デジタルオーディオ信号に変換する。

オーディオ符号器１２０は、アナログデジタル変換器１１４からデジタルオーディオ信号を受け取る。

オーディオ符号器１２０内で、受け取ったオーディオ信号が雑音抑圧器１２１に渡される。

雑音抑圧器１２１は、受け取ったオーディオ信号に対して雑音抑圧処理を行う（ステップ２０１）。雑音抑圧量は、例えば１４ｄＢにセットされてもよいが、同じくその他任意の所望の値にセットされてもよい。

結果として生じる雑音除去された信号は、ピッチ推定器１２２に渡される。ピッチ推定器１２２は、雑音除去された信号に対して通常のピッチ推定を実行し（ステップ２０２）、ピッチ推定の結果を、モード選択器１２３および符号器１２４の両方に提供する。

モード選択器１２３は、さらに、雑音抑圧器１２１から直接か、またはピッチ推定器１２２を介して、雑音除去された信号を受け取る。モード選択器１２３は、受け取ったピッチ推定および受け取った雑音除去済み信号を利用して、適切な符号化モードを選択し（ステップ２０３）、選択したモードを符号器１２４に指示する。ピッチ推定も雑音除去された信号に基づき決定されたため、背景雑音はモード選択に影響しない。したがって、選択されたモードは、意図的に入力されたオーディオデータに対して特に適切であることが期待できる。

符号器１２４は、雑音を含むオーディオ信号と、ピッチ推定と、選択された符号化モードの指示とを受け取る。

符号器１２４は、選択された符号化モードに従って、受け取った雑音を含むオーディオ信号に符号化を適用する（２０４）。雑音を含むオーディオ信号に符号化を適用することによって、信号の自然さが保たれる。

雑音を含むオーディオ信号に基づく符号化処理は、例えば周波数領域におけるイミッタンススペクトル対（ISF: immitance spectral pair in frequency domain）量子化およびＡＣＥＬＰコードブック探索を含んでもよい。雑音を含むオーディオ信号に基づいて、所要のピッチ推定を改めて決定してもよいが、ピッチ推定器１２２によって提供されたままのピッチ推定結果を使用してもよい。

エンベデッド可変レート音声コーダの場合、コア符号器は、雑音を含むオーディオ信号を、例えば８ｋｂｐｓのビットレートで符号化し、結果として生じる符号化データを第１の拡張層（enhancement layer）に提供する。第１の拡張層は、符号化データおよび雑音を含むオーディオ信号を受け取り、４ｋｂｐｓの追加ビットレートで、符号化データの拡張データを生成する。さらなる複数の拡張層が、例えば、４ｋｂｐｓ、８ｋｂｐｓおよびさらに８ｋｂｐｓという各追加ビットレートで、さらなる拡張データを生成してもよい。

符号化データおよび拡張層データは、符号化モード指示と共に単一のエンベデッドビットストリームにまとめられ、これが送信機１１３へ渡される。送信機１１３は、移動通信ネットワークを介してエンベデッドビットストリームを第２の電子デバイス１３０へ送信する（ステップ２０５）。第２の電子デバイス１３０の受信機１３１は、エンベデッドビットストリームを受信し、それを復号器１３２へ渡す。復号器１３２は、エンベデッドビットストリームの全体またはサブセットを復号し、デジタルオーディオデータを回復する。復号器１３２は、この目的を達成するために、８ｋｂｐｓのビットレートの符号化データのみを使用してもよい。あるいは、さらに１つ以上の層の拡張層データ、ひいては１２ｋｂｐｓ、１６ｋｂｐｓ、２４ｋｂｐｓまたは３２ｋｂｐｓの総ビットレートを使用することが可能であると考えられる。

復号されたデジタルオーディオデータは、デジタルアナログ変換器１３３に渡され、デジタルアナログ変換器１３３は、デジタルオーディオデータをアナログオーディオデータに変換する。続いて、アナログオーディオデータは、スピーカ１３４を介してユーザに提示されるであろう。

雑音抑圧器１２１により示される機能は、雑音低減されたオーディオ信号を得るべく、オリジナルのオーディオ信号に対して雑音抑圧処理を行う手段とも見なすことができる。モード選択器１２３によって示される機能は、雑音低減されたオーディオ信号に基づいて符号化モードを選択する手段とも見なすことができる。符号器１２４によって示される機能は、決定された符号化モードを使用してオリジナルのオーディオ信号を符号化する手段とも見なすことができる。

当然のことながら、図１を参照しつつ示された実施形態は、様々に変更され得る。例えば、電子デバイス１１０、１３０の一方または両方を、移動端末とは違うデバイスとすることができるであろう。一例として、電子デバイスの一方はパーソナルコンピュータなどとすることができるであろう。さらに、集積回路１１２の機能は、個別コンポーネントまたはソフトウェアによって実現されることも可能であろう。さらに、モード選択は、ピッチ解析とは違うタイプのパラメータ解析などに基づいてもよい。

図３は、本発明の第２の実施形態に従って符号化モード選択を可能にする例示的な電子デバイス３１０の概略ブロック図である。

電子デバイス３１０は、この場合もやはり、例えば無線通信システムの移動端末とすることができるであろう。電子デバイス３１０は、本発明による装置の例示的実施形態と見なすことができるであろう。

電子デバイス３１０は、マイクロホン３１１を含み、マイクロホン３１１は、アナログデジタル変換器３１４を介してプロセッサ３２１に接続されている。プロセッサ３２１はさらに、デジタルアナログ変換器３３３を介してスピーカ３３４に接続されている。プロセッサ３２１はさらに、送受信機（ＴＸ／ＲＸ）３１３と、ユーザインターフェース（UI: user interface）３１５と、メモリ３２２とに接続されている。

プロセッサ３２１は、種々のプログラムコードを実行するように構成される。実装されるプログラムコードは、雑音除去されたオーディオ信号に基づいて選択された符号化モードを使用して雑音を含むオーディオ信号を符号化するための、オーディオ符号化コードを含む。実装されるプログラムコードはさらに、オーディオ復号コードを含む。実装されるプログラムコード３２３は、例えば、必要なときにいつでもプロセッサ３２１によって読み出されるよう、メモリ３２２内に格納されているとよい。メモリ３２２はさらに、例えば本発明に従って符号化されたデータなどのデータを格納するためのセクション３２４を提供することができるであろう。

ユーザインターフェース３１５は、ユーザが、電子デバイス３１０に対する、例えばキーパッドを介したコマンド入力、および／または電子デバイス３１０からの、例えばディスプレイを介した情報取得を行うことができるようにする。送受信機３１３は、例えば無線通信ネットワークを介した、他の電子デバイスとの通信を可能にする。

この場合もやはり当然のことながら、電子デバイス３１０の構造は、様々に補完および変更することができるであろう。

電子デバイス３１０のユーザは、他の何らかの電子デバイスへ送信されるべき、またはメモリ３２２のデータセクション３２４に格納されるべきオーディオデータを入力するために、マイクロホン３１１を使用するとよい。この目的を達成するために、関連するアプリケーションが、ユーザインターフェース３１５を介してユーザによって起動されている。このアプリケーションは、プロセッサ３２１によって実行されるとよく、メモリ３２２に格納されている符号化コードをプロセッサ３２１に実行させる。

アナログデジタル変換器３１４は、入力されたアナログオーディオ信号をデジタルオーディオ信号に変換し、このデジタルオーディオ信号をプロセッサ３２１に提供する。

続いて、プロセッサ３２１は、このデジタルオーディオ信号を、図１の電子デバイス１１０に関して図３を参照して説明されたのと同じ方法で処理するとよい。

結果として生じるビットストリームは、エンベデッドビットストリームとして、別の電子デバイスへの送信用に送受信機３１３に提供される。あるいは、符号化データは、例えば後から送信されるよう、または同じ電子デバイス３１０によって後から提示されるよう、メモリ３２２のデータセクション３２４に格納されることが可能であろう。

電子デバイス３１０はさらに、同様に符号化されたデータを備えるビットストリームを、その送受信機３１３を介して別の電子デバイスから受信することができるであろう。この場合、プロセッサ３２１は、メモリ３２２に格納されている復号プログラムコードを実行するとよい。プロセッサ３２１は、エンベデッドビットストリームにおいて受信したデータまたはデータの適切なサブセットを復号し、復号したデータをデジタルアナログ変換器３３３に提供する。デジタルアナログ変換器３３３は、復号されたデジタルデータをアナログオーディオデータに変換し、それを、スピーカ３３４を介して出力する。復号プログラムコードの実行は、ユーザインターフェース３１５を介してユーザによって呼び出されたアプリケーションによりトリガされることも同様に可能であると考えられる。

受信された符号化データは、スピーカ３３４を介して即時に再生されるのではなく、例えば後から再生できるようにするため、またはさらに別の電子デバイスに転送するために、メモリ３２２のデータセクション３２４に格納することもできるであろう。

符号化コードを実行するプロセッサ３２１によって示される各機能は、雑音低減されたオーディオ信号を得るためにオリジナルのオーディオ信号に対して雑音抑圧処理を行う手段；雑音低減されたオーディオ信号に基づき符号化モードを選択する手段；および決定された符号化モードを使用してオリジナルのオーディオ信号を符号化する手段と見なすこともできる。

あるいは、符号化コードの各機能モジュールは、雑音低減されたオーディオ信号を得るためにオリジナルのオーディオ信号に対して雑音抑圧処理を行う手段；雑音低減されたオーディオ信号に基づき符号化モードを選択する手段；および決定された符号化モードを使用してオリジナルのオーディオ信号を符号化する手段と見なすこともできる。

全体的にみると、提示された本発明の実施形態は、オーディオデータの符号化に適切な符号化モードを選択できるようにする。これによって、雑音を含むオーディオデータに適用される符号化モードとして、それが適切であれば、雑音抑圧を行わないモードが選択される場合もある。提示される改良されたモード選択法は、オーディオ符号化の性能を改善する。

本発明の好適な実施形態に対して適用される本発明の基本的な新規特徴を表現、説明および指摘してきたが、当然のことながら、当業者によって、説明されたデバイスおよび方法の形式および細部における種々の省略および代用および変更が、本発明の意図から逸脱することなくなされてもよい。例えば、実質的に同じ機能を実質的に同じ方法で実行して同じ結果を得る当該の構成要素および／または方法ステップの組み合わせはすべて、本発明の範囲内であることが明確に意図される。さらに、当然のことながら、本発明の任意の開示された形式または実施形態に関連して表現および／または説明された構造および／または構成要素および／または方法ステップは、設計上の選択の一般的な問題として、その他任意の、開示もしくは説明もしくは提案された形式または実施形態に組み込まれてもよい。したがって、本願明細書に添付されている特許請求の範囲によって示される通りにのみ限定されるものとする。さらに、特許請求の範囲では、ミーンズプラスファンクション節は、説明された機能を実行するものとして本願明細書で説明された構造を対象とし、構造上の等価物のみではなく等価な構造も対象とするものとする。

Claims

雑音低減されたオーディオ信号を得るべく、オリジナルのオーディオ信号に対して雑音抑圧処理を行うことと；
前記雑音低減されたオーディオ信号に基づいて、符号化モードを選択することと；
前記選択された符号化モードを使用して、前記オリジナルのオーディオ信号を符号化することと；
を含む方法。
前記雑音低減されたオーディオ信号に対してパラメータ解析を行い、該解析の結果を前記符号化モードを選択する基準として使用する、請求項１に記載の方法。
前記雑音低減されたオーディオ信号にピッチ解析を行い、前記ピッチ解析の結果と、前記雑音低減されたオーディオ信号とを、前記符号化モードを選択する基準として使用する、請求項１に記載の方法。
前記オリジナルのオーディオ信号の前記符号化に前記ピッチ解析の結果を使用する、請求項３に記載の方法。
前記オリジナルのオーディオ信号の前記符号化は、エンベデッド可変ビットレート符号化である、請求項１に記載の方法。
前記雑音低減されたオーディオ信号に基づく前記符号化モード選択は、可変ビットレート符号化における低ビットレート符号化のためのみに用いられる、請求項１に記載の方法。
雑音低減されたオーディオ信号を得るべく、オリジナルのオーディオ信号に対して雑音抑圧処理を行うよう構成される、雑音抑圧処理コンポーネントと；
前記雑音抑圧処理コンポーネントによって提供される前記雑音低減されたオーディオ信号に基づいて、符号化モードを選択するように構成される選択コンポーネントと；
前記選択コンポーネントによって選択された符号化モードを使用して、前記オリジナルのオーディオ信号を符号化するように構成される符号化コンポーネントと；
を含む装置。
前記装置は、前記雑音低減されたオーディオ信号に対してパラメータ解析を行うよう構成される解析コンポーネントをさらに含み、前記選択コンポーネントは、前記解析の結果を、前記符号化モードを選択する基準として使用するように構成される、請求項７に記載の装置。
前記装置は、前記雑音低減されたオーディオ信号に対してピッチ解析を行うように構成される解析コンポーネントをさらに含み、前記選択コンポーネントは、前記ピッチ解析の結果と、前記雑音低減されたオーディオ信号とを、前記符号化モードを選択する基準として使用するように構成される、請求項７に記載の装置。
前記符号化コンポーネントは、さらに前記ピッチ解析の結果も使用して、前記オリジナルのオーディオ信号を符号化するように構成される、請求項９に記載の装置。
前記符号化コンポーネントは、エンベデッド可変ビットレート符号化を、前記オリジナルのオーディオ信号に適用するように構成される、請求項７に記載の装置。
前記符号化コンポーネントは、可変ビットレート符号化を前記オリジナルのオーディオ信号に適用するよう設定されており、前記選択コンポーネントは、前記符号化コンポーネントによって低ビットレート符号化が適用されることになっている場合にのみ、前記雑音低減されたオーディオ信号に基づいて符号化モードを選択するように構成される、請求項７に記載の装置。
請求項７に記載の装置と；
オーディオ信号インターフェースと；
を含む電子デバイス。
請求項１に記載の方法に従って符号化されたオーディオ信号を復号するよう構成される復号コンポーネントを含む装置。
請求項７に記載の装置と；
請求項７に記載の前記装置により符号化されたオーディオ信号を復号するように構成される復号コンポーネントを含む装置と；
を含むシステム。
コンピュータ可読媒体にプログラムコードが格納されるコンピュータプログラム製品であって、前記プログラムコードは、プロセッサにより実行されると、以下のこと：
雑音低減されたオーディオ信号を得るべく、オリジナルのオーディオ信号に対して雑音抑圧処理を行うこと；
前記雑音低減されたオーディオ信号に基づいて、符号化モードを選択すること；
前記選択された符号化モードを使用して、前記オリジナルのオーディオ信号を符号化すること；
を実現する、コンピュータプログラム製品。
前記プログラムコードは、前記雑音低減されたオーディオ信号にパラメータ解析を適用し、前記解析の結果を、前記符号化モードを選択する基準として使用する、請求項１６に記載のコンピュータプログラム製品。
前記プログラムコードは、前記雑音低減されたオーディオ信号にピッチ解析を適用し、前記ピッチ解析の結果と、前記雑音低減されたオーディオ信号とを、符号化モードを選択する基準として使用する、請求項１６に記載のコンピュータプログラム製品。
前記プログラムコードは、前記オリジナルのオーディオ信号の符号化に、さらに前記ピッチ解析の結果も使用する、請求項１８に記載のコンピュータプログラム製品。
前記オリジナルのオーディオ信号の前記符号化は、エンベデッド可変ビットレート符号化である、請求項１６に記載のコンピュータプログラム製品。
前記雑音低減されたオーディオ信号に基づく前記符号化モード選択は、可変ビットレート符号化における低ビットレート符号化のためのみに用いられる、請求項１６に記載のコンピュータプログラム製品。
雑音低減されたオーディオ信号を得るべく、オリジナルのオーディオ信号に対して雑音抑圧処理を行う手段と；
前記雑音低減されたオーディオ信号に基づいて、符号化モードを選択する手段と；
前記選択された符号化モードを使用して、前記オリジナルのオーディオ信号を符号化する手段と；
を含む装置。
前記装置は、前記雑音低減されたオーディオ信号に対してピッチ解析を行う手段をさらに含み、符号化モードを選択する前記手段は、前記ピッチ解析の結果を、前記符号化モードを選択する基準として使用する、請求項２２に記載の装置。