JP2015507222A

JP2015507222A - 複数コーディングモード信号分類

Info

Publication number: JP2015507222A
Application number: JP2014552206A
Authority: JP
Inventors: アッティ、ベンカトラマン・スリニバサ; ドゥニ、イーサン・ロバート
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2012-01-13
Filing date: 2012-12-21
Publication date: 2015-03-05
Anticipated expiration: 2032-12-21
Also published as: SI2803068T1; IN2014MN01588A; CN104040626A; CN104040626B; HUE027037T2; JP5964455B2; BR112014017001A8; BR112014017001B1; ES2576232T3; KR20140116487A; US9111531B2; EP2803068A1; BR112014017001A2; EP2803068B1; US20130185063A1; WO2013106192A1; KR20170005514A; DK2803068T3

Abstract

アプリケーションを符号化するための改善されたオーディオ分類が提供される。前に利用可能であったスピーチ分類および音楽分類よりも高い精度および少ない複雑さをもつスピーチ分類および音楽分類を生成するために、初期分類が実行され、その後、より細かい分類が実行される。オーディオが、フレームごとにスピーチまたは音楽として分類される。フレームが初期分類によって音楽として分類された場合、そのフレームは、フレームが音楽であり、スピーチ（たとえば、初期分類によってスピーチとして分類されていないことがある、音である、および／または構造化された、スピーチ）でないことを確認するために、第２の、より細かい分類を受ける。実装形態に応じて、より細かい分類において、１つまたは複数のパラメータが使用され得る。例示的なパラメータは、発声、修正相関、信号アクティビティ、および長期ピッチ利得を含む。

Description

関連出願の相互参照
[0001] 本出願は、２０１２年１月１３日に出願された仮特許出願第６１／５８６，３７４号に対する、米国特許法１１９条（ｅ）項の利益に基づく優先権を主張する。本仮特許出願は、その全体が参照により本明細書に明確に組み込まれる。

[0002] デジタル技法による（スピーチ（speech）とも呼ばれる）ボイスおよび音楽の送信が普及し、ワイヤレス通信デバイス、携帯情報端末（ＰＤＡ）、ラップトップコンピュータ、デスクトップコンピュータ、移動無線電話および／または衛星無線電話などを含む、広範囲にわたるデバイスに組み込まれている。例示的な分野はワイヤレス通信である。ワイヤレス通信の分野は、たとえば、コードレス電話、ページング、ワイヤレスローカルループ、セルラー電話システムおよびＰＣＳ電話システムなどのワイヤレス電話、モバイルインターネットプロトコル（ＩＰ）電話、ならびに衛星通信システムを含む、多くの適用例（applications）を有する。

[0003] 電気通信ネットワークでは、送信通信デバイスと受信通信デバイスとの間で、情報が符号化形式で転送される。送信通信デバイスは、ボイス信号および／または音楽信号など、元の情報を符号化情報に符号化し、それを受信通信デバイスに送る。受信通信デバイスは、受信した符号化情報を復号して、元の情報を再生成する。符号化および復号は、コーデックを使用して実行される。ボイス信号および／または音楽信号の符号化は、送信通信デバイス中にあるコーデックにおいて実行され、復号は、受信通信デバイス中にあるコーデックにおいて実行される。

[0004] 現代のコーデックでは、スピーチ、音楽、および混合コンテンツなど、異なるタイプの入力ソースを処理するために、複数のコーディングモードが含まれる。最適性能のために、入力信号の各フレームについての最適コーディングモードが選択され、使用されるべきである。最も効率的なコーディング方式を選択し、最も低いデータレートを達成するために、正確な分類（accurate classification）が必要である。

[0005] この分類は、複雑さを省くために開ループ様式で行われ得る。この場合、最適モード分類器（optimal mode classifier）は、様々なコーディングモードの主要な特徴を考慮に入れるべきである。（代数符号励振線形予測（ＡＣＥＬＰ：algebraic code excited linear prediction）のようなスピーチコーディングモードなどの）いくつかのモードは、過去のフレームと現在のフレーム（past and current frames）との間の相関を活用する適応コードブック（ＡＣＢ：adaptive codebook）を含んでいる。（音楽／オーディオのための修正離散コサイン変換（ＭＤＣＴ：modified discrete cosine transform）コーディングモードなどの）いくつかの他のモードはそのような特徴を含んでいないことがある。したがって、前のフレームと高い相関を有する入力フレームが、ＡＣＢを有するモードまたは他のフレーム間相関モデリング技法（other inter-frame correlation modeling techniques）を含むモードに分類されることを保証することが重要である。

[0006] 以前のソリューションは、閉ループモード決定（closed-loop mode decisions）（たとえば、ＡＭＲ−ＷＢ＋、ＵＳＡＣ）または様々なタイプの開ループ決定（open-loop decisions）（たとえば、ＡＭＲ−ＷＢ＋、ＥＶＲＣ−ＷＢ）を使用していたが、これらのソリューションは複雑であるか、またはそれらのパフォーマンスが誤りを受けやすかった。

[0007] アプリケーションを符号化ための（for encoding applications）改善されたオーディオ分類（audio classification）が提供される。前に利用可能であったスピーチ分類および音楽分類（speech classifications and music classifications）よりも高い精度および少ない複雑さをもつスピーチ分類および音楽分類を生成するために、初期分類（an initial classification）が実行され、その後、より細かい分類（a finer classification）が実行される。

[0008] オーディオが、部分ごとに（たとえば、フレームごとに）スピーチまたは音楽として分類される。フレームが初期分類によって音楽として分類された場合、そのフレームは、フレームが音楽であり、スピーチ（たとえば、初期分類によってスピーチとして分類されていないことがある、音（tonal）である、および／または構造化された、スピーチ）でないことを確認するために、第２の、より細かい分類を受ける。

[0009] 実装形態に応じて、より細かい分類において、１つまたは複数のパラメータが使用され得る。例示的なパラメータは、発声（voicing）、修正相関（modified correlation）、信号アクティビティ、および長期ピッチ利得（long term pitch gain）を含む。これらのパラメータは例にすぎず、限定的なものではない。

[0010] 本概要は、詳細な説明において以下でさらに説明する概念の選択を簡略化された形で紹介するために与えるものである。本概要は、請求する主題の主要な特徴または本質的特徴を識別するものではなく、請求する主題の範囲を限定するために使用されるものでもない。

[0011] 上記の概要、ならびに例示的な実施形態についての以下の詳細な説明は、添付の図面とともに読めば、よりよく理解される。実施形態を例示する目的で、図面において実施形態の例示的な構成が示されているが、実施形態は、開示する特定の方法および手段に限定されない。

[0012] ソースデバイスが符号化ビットストリームを受信デバイスに送信する、例示的なシステムを示すブロック図。 [0013] 本明細書で説明するように使用され得る２つのデバイスのブロック図。 [0014] 複数コーディングモード信号分類およびエンコーダシステム（a multiple coding mode signal classification and encoder system）の実装形態のブロック図。 [0015] オーディオを分類するための方法の実装形態の動作フロー。 [0016] 例示的な移動局の図。 [0017] 例示的なコンピューティング環境を示す図。

詳細な説明

[0018] 開示する実施形態は、スピーチおよび音楽など、様々なタイプのオーディオを用いた環境における様々なコーディングモードのための分類技法を提示する。オーディオフレームのタイプは、最も効率的な方法で符号化するために、確実におよび正確に識別され得る。本明細書の例および説明はオーディオフレームに言及するが、より一般的には、オーディオ信号の一部分が企図され、本明細書で説明する実装形態に従って使用され得る。

[0019] 図１Ａは、ソースデバイス１２ａが、通信リンク１５を介して符号化ビットストリームを受信デバイス１４ａに送信する、例示的なシステム１０を示すブロック図である。ビットストリームは１つまたは複数のパケットとして表され得る。ソースデバイス１２ａと受信デバイス１４ａは両方ともデジタルデバイスであり得る。特に、ソースデバイス１２ａは、３ＧＰＰ２ＥＶＲＣ−Ｂ規格、またはスピーチ圧縮のためにデータをパケットに符号化することを利用する同様の規格に一致するデータを符号化し得る。システム１０のデバイス１２ａ、１４ａの一方または両方は、オーディオ符号化プロセスを改善するために、以下でより詳細に説明するように、（異なるコーディングモデルに基づく）符号化モードの、およびオーディオ（たとえば、スピーチおよび／または音楽）圧縮のための符号化レートの選択を実施し得る。ソースデバイスまたは受信デバイスを備え得る例示的な移動局については、図４に関して説明する。

[0020] 通信リンク１５は、ワイヤレスリンク、物理伝送線路、光ファイバー、ローカルエリアネットワーク、ワイドエリアネットワーク、またはインターネットなどのグローバルネットワークなど、パケットベースネットワーク、公衆交換電話網（ＰＳＴＮ：public switched telephone network）、あるいはデータを転送することが可能な任意の他の通信リンクを備え得る。通信リンク１５は記憶媒体に結合され得る。したがって、通信リンク１５は、圧縮スピーチデータをソースデバイス１２ａから受信デバイス１４ａに送信するための、任意の好適な通信媒体、または場合によっては異なるネットワークおよびリンクの集合を表す。

[0021] ソースデバイス１２ａは、サウンド（sound）をキャプチャする１つまたは複数のマイクロフォン１６を含み得る。連続的なサウンドはデジタイザ１８に送られる。デジタイザ１８は、離散間隔においてそのサウンドをサンプリングし、スピーチを量子化（デジタル化）する。デジタル化されたスピーチは、メモリ２０に記憶され、および／またはしばしば２０ｍｓフレームにわたって、デジタル化されたスピーチサンプルが符号化され得るエンコーダ２２に送られ得る。

[0022] より詳細には、エンコーダは、着信スピーチ信号を、時間のブロック、あるいは分析フレームまたは部分に分割する。時間（またはフレーム）における各セグメントの持続時間は、一般に、信号のスペクトルエンベロープ（spectral envelope）が比較的固定のままである（remain relatively stationary）ことが予想され得るほど十分に短くなるように選択される。たとえば、特定のアップリケ−ションに好適と見なされる任意のフレーム長またはサンプリングレートが使用され得るが、１つの典型的なフレーム長は２０ミリ秒（２０ｍｓ）であり、それは、８キロヘルツ（８ｋＨｚ）の典型的なサンプリングレートで１６０個のサンプルに対応する。

[0023] エンコーダ２２において実行される符号化プロセスは、送信機２４に送るための１つまたは複数のパケットを生成し、それは、通信リンク１５を介して受信デバイス１４ａに送信され得る。たとえば、エンコーダは、着信フレームを分析していくつかの関連するパラメータを抽出し、次いで、それらのパラメータを、２進表現に、すなわち、ビットのセットまたはバイナリデータパケットに量子化する。データパケットは、通信チャネル（すなわち、ワイヤードおよび／またはワイヤレスネットワーク接続）を介して受信機およびデコーダに送信される。デコーダは、データパケットを処理し、それらを逆量子化してパラメータを生成し、逆量子化されたパラメータを使用してオーディオフレームを再合成する。

[0024] エンコーダ２２は、たとえば、様々なハードウェア、ソフトウェアまたはファームウェア、あるいは本明細書で説明する符号化技法を制御するためにプログラマブルソフトウェアモジュールを実行する１つまたは複数のデジタル信号プロセッサ（ＤＳＰ）を含み得る。符号化技法を制御する際にＤＳＰをサポートするために、関連メモリおよび論理回路が与えられ得る。後述するように、スピーチフレームまたは音楽フレーム（a speech frame or a music frame）が判断され、符号化されているかどうかに応じて、符号化より前におよび／または符号化中に、符号化モードおよび符号化レートが変更され得る場合、エンコーダ２２はよりロバストに機能し得る。

[0025] 受信デバイス１４ａは、オーディオデータを受信し、復号することが可能な任意のデジタルオーディオデバイスの形態をとり得る。たとえば、受信デバイス１４ａは、たとえば、中間リンク、ルータ、他のネットワーク機器などを介して、送信機２４からパケットを受信するための受信機２６を含み得る。受信デバイス１４ａはまた、１つまたは複数のパケットを復号するためのデコーダ２８と、スピーチデコーダ２８によるパケットの復号後に、ユーザが、再構成されたオーディオを聞くことを可能にするための、１つまたは複数のスピーカー３０とを含み得る。

[0026] 場合によっては、図１Ｂに示すように、ソースデバイス１２ｂおよび受信デバイス１４ｂはそれぞれ、デジタルオーディオデータを符号化および復号するためのスピーチエンコーダ／デコーダ（コーデック）３２を含み得る。特に、ソースデバイス１２ｂと受信デバイス１４ｂの両方は、送信機および受信機ならびにメモリおよびスピーカーを含み得る。本明細書で企図される符号化技法の多くについて、スピーチおよび／または音楽を圧縮するためのエンコーダを含むデジタルオーディオデバイスに関して説明する。

[0027] ただし、エンコーダはコーデック３２の一部を形成し得ることを理解されたい。その場合、コーデックは、ハードウェア、ソフトウェア、ファームウェア、ＤＳＰ、マイクロプロセッサ、汎用プロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、個別ハードウェア構成要素、またはそれらの様々な組合せ内で実装され得る。さらに、コーダは、ＤＳＰ、ＡＳＩＣ、個別ゲート論理、ファームウェア、または任意の従来のプログラマブルソフトウェアモジュールおよびマイクロプロセッサを用いて実装され得ることを、当業者は理解されたい。ソフトウェアモジュールは、ＲＡＭメモリ、フラッシュメモリ、レジスタ、または当技術分野で知られている任意の他の形態の書込み可能な記憶媒体中に常駐し得る。代替として、任意の従来のプロセッサ、コントローラ、または状態機械が、マイクロプロセッサの代わりに使用され得る。例示的なコンピューティングデバイスについては、図５に関して説明する。

[0028] 図２は、複数コーディングモード信号分類およびエンコーダシステム（a multiple coding mode signal classification and encoder system）２００の実装形態のブロック図である。一実装形態では、システム２００は、図１Ａおよび図１Ｂに関して説明したソースデバイスまたは受信デバイスなど、デバイスとともに使用され得る。たとえば、システム２００は、ソースデバイス１２ａのエンコーダ２２に関連して動作し得る。

[0029] 複数コーディングモード信号分類およびエンコーダシステム２００は、（第１の分類器とも呼ばれる）初期分類器（an initial classifier）２１０と、（第２の分類器とも呼ばれる）細分類器（a fine classifier）２２０とを備える。システム２００はまた、細分類器２２０と、それの関連するより細かい分類機能とを有効または無効にするために（たとえば、ユーザによって）選択され得る、細分類器選択スイッチ２３０を備える。

[0030] スピーチコーダおよび音楽コーダ（speech coders and a music coder）など、様々なタイプのコーダが、システム２００内に備えられる。一実装形態では、「コーディングモード１」と呼ばれる第１のコーディングモード２４０（たとえば、符号励振線形予測（ＣＥＬＰ：code excited linear predictive）型コーダ、またはスピーチコーディングモードなど）が与えられ、初期分類器２１０による分類に応答して使用され得る。「コーディングモード２」と呼ばれる第２のコーディングモード２６０（たとえば、ＣＥＬＰ／変換ハイブリッドコーダ（a CELP/transform hybrid code）、または第２のスピーチコーディングモードなど）が与えられ、細分類器２２０による分類に応答して使用され得る。

[0031] 「コーディングモード３」と呼ばれる第３のコーディングモード２５０（たとえば、変換コーダ（a transform coder）、または音楽コーディングモードなど）が与えられ、初期分類器２１０および／または細分類器２２０による分類に応答して使用され得る。これらのタイプのコーディングモードおよびコーダはよく知られており、さらなる説明は簡潔のために省略する。コーディングモード１、２、および３について説明した例示的なコーディングモードおよびコーダは例にすぎず、限定的なものではない。任意の適切な（１つまたは複数の）スピーチコーディングモードおよび／または（１つまたは複数の）スピーチコーダならびに（１つまたは複数の）音楽コーディングモードおよび／または（１つまたは複数の）音楽コーダが使用され得る。

[0032] 図３は、オーディオを分類するための方法３００の実装形態の動作フローである。３１０において、初期分類器２１０は、入力オーディオフレーム（またはオーディオ信号の一部分をスピーチのような（speech-like）オーディオ信号または音楽のような（music-like）オーディオ信号として分類するための、オーディオ信号の他の部分）を受信し、３２０において、それをスピーチまたは音楽として分類する。初期分類器２１０は、オーディオフレームまたはその一部分をスピーチまたは音楽として分類する任意の分類器であり得る。

[0033] いくつかの実装形態では、初期分類器２１０は、（「分類器１」および「分類器２」として３２０に示されているが、実装形態に応じて任意の数の分類器が使用され得る）２つ以上の分類器を備え得る。たとえば、初期分類器は、スピーチのほうへ十分にバイアスされる分類器、および音楽のほうへよりバイアスされる分類器などの別の異なる分類器を備え得る。これらの２つの分類器は、３２０において、（実装形態に応じて）連続的にまたは時々同時に入力フレーム上で動作し得、それらの結果を組み合わせて、３３０または３４０のいずれかに送られる結果を形成する。

[0034] スピーチが初期分類器２１０によって音楽として検出される確率は小さい。したがって、いくつかのスピーチフレームは、初めに音楽として分類され得る。たとえば、スピーチを代表する、極めて低レベルの背景音楽または歌声の存在下でのスピーチは、初期分類器２１０によってスピーチとして分類されないことがある。代わりに、初期分類器２１０はそのような信号を音楽として分類し得る。たとえば、街頭雑音において車両ホーンが鳴る、または典型的なオフィスにおいて電話が鳴るなど、他の背景雑音の存在も、スピーチを音楽として誤分類することの増加の一因となり得る。

[0035] ３２０において、フレームが初期分類器２１０によってスピーチフレームであると判断された場合、符号化するためにそのフレームはコーディングモード１２４０（たとえば、ＣＥＬＰ型コーダ）に与えられる。いくつかの実装形態では、任意の知られているＣＥＬＰ型コーダが使用され得る。

[0036] 一方、３２０において、フレームが初期分類器２１０によって音楽フレームであると判断された場合、３４０において、（たとえば、それぞれ「有効にされる」および「有効にされない」に対応するデバイス上の「オン」および「オフ」選択スイッチを介して、前にその特徴を有効にしたユーザによって）より細かい分類が有効にされるかどうかを判断する。このより細かい分類は、第１の分類の決定を補強する第２のラウンドの分類である。一実装形態では、オーディオデータを処理するためのより細かい分類はユーザによって選択的に有効にされ得る。

[0037] ３４０において、より細かい分類が有効にされないと判断された場合、３５０において、音楽フレームとして符号化するためにそのフレームはコーディングモード３２５０（たとえば、変換コーダ）に与えられる。しかしながら、３４０において、より細かい分類が有効にされたと判断された場合、３６０において、追加の、より細かい分類のためにそのフレームは細分類器２２０に与えられる。より細かい分類は、スピーチフレームを音楽フレームとさらに区別するために使用される。

[0038] 一実装形態では、より細かい分類は、フレームが、有声スピーチ（voiced speech）の音特性および／または準定常特性（tonal and/or quasi-stationary characteristics）とは対照的に、いくつかのタイプの音楽の特性であるブロードバンド擬似雑音（broadband noise-like）であることを確認するために使用される。３６０におけるより細かい分類により、フレームが音楽フレームとして識別された場合、３５０において、音楽フレームとして符号化するためにそのフレームはコーディングモード３に送られる。

[0039] ３６０おけるより細かい分類により、フレームがスピーチフレームとして識別された場合、３７０において、スピーチフレームとして符号化するためにそのフレームはコーディングモード２２６０に送られる。上記のように、一実装形態では、コーディングモード２２６０は、音の（tonal）、および／または構造化されたスピーチフレームをコーディングするために使用され得るＣＥＬＰ／変換ハイブリッドコーダであり得る。代替実装形態では、３７０におけるコーディングモード２２６０は、３３０において使用されるコーディングモード１などのＣＥＬＰ型コーダであり得る。

[0040] 一実装形態では、（たとえば、細分類器２２０によって）３６０において実行されるより細かい分類は、フレームがスピーチフレームであるか音楽フレームであるかを判断するために、フレームの様々な特性または特徴を１つまたは複数のしきい値と比較し得る。

[0041] いくつかの実装形態では、フレームの発声（voicing）が第１のしきい値ＴＨＲ１と比較され得る。フレームの発声がＴＨＲ１よりも大きい場合、フレームはスピーチフレームであると判断される。ＴＨＲ１のための例示的な値は０．９９であるが、実装形態に応じて任意の値が使用され得る。発声は、（スピーチフレームとの無相関に対応する）０から（スピーチフレームとの高相関に対応する）１にわたる（range）。

[0042] いくつかの実装形態では、重み付け信号相関（weighted signal correlation）が第２のしきい値ＴＨＲ２と比較され得る。重み付け信号相関がＴＨＲ２よりも大きい場合、フレームはスピーチフレームであると判断される。ＴＨＲ２のための例示的な値は０．８７であるが、実装形態に応じて任意の値が使用され得る。信号相関は、（ランダム雑音に対応する）０から（高度に構造化されたサウンドに対応する）１にわたる。

[0043] いくつかの実装形態では、長期ピッチ利得が第３のしきい値ＴＨＲ３と比較され得る。長期ピッチ利得がＴＨＲ３よりも大きい場合、フレームはスピーチフレームであると判断される。ＴＨＲ３のための例示的な値は０．５であるが、実装形態に応じて任意の値が使用され得る。長期ピッチ利得は、過去の励起（past excitation）と現在の予測残差（current prediction residual）との間の正規化相互相関（normalized cross-correlation）である。長期ピッチ利得は、（過去のフレームの誤差が現在のフレームを表すのに十分でないことを示す）０から（過去のフレームの残余誤差を使用することが現在のフレームを完全に表すことができることを示す）１にわたる。

[0044] いくつかの実装形態では、現在のフレームの調性（tonality）が判断され、しきい値ＴＨＲ４と比較され得る。信号の調性は、スペクトル平坦度測度（spectral flatness measure）またはスペクトルピーク対平均比測度（spectral peak to average ratio measure）を使用して測定され得る。スペクトルが顕著な局所ピーク（prominent localized peaks）を含んでいない場合、スペクトル平坦度測度は１に近くなる傾向があるであろう。一方、スペクトルが局所ピークをもつ強い傾き（a strong tilt）を示す場合、スペクトル平坦度測度は０に近くなるであろう。調性がＴＨＲ４よりも大きい場合、フレームはスピーチフレームであると判断される。ＴＨＲ４のための例示的な値は０．７５であるが、実装形態に応じて任意の値が使用され得る。

[0045] 追加または代替として、いくつかの実装形態では、信号アクティビティがあるかどうかが判断され得る。信号アクティビティがない（すなわち、フレームがクワイエット（quiet）である）場合、符号化すべき有用な信号がないと判断され、フレームはスピーチフレームとして符号化され得る。

[0046] いくつかの実装形態では、３６０において、フレームがスピーチフレームであると判断するための条件のいずれも満たされない場合、フレームは音楽フレームであると判断される。

[0047] 実装形態に応じて任意の１つまたは複数の比較（comparisons）および／またはしきい値が使用され得るので、本明細書で説明した比較およびしきい値は限定的なものではない。実装形態に応じて、追加および／または代替の比較およびしきい値も使用され得る。

[0048] したがって、一実装形態では、フレームが、初めに（初期分類器２１０によって）スピーチとして分類された場合、それはＣＥＬＰコーダにパスされる。しかしながら、フレームが音楽として分類された場合、より細かい分類が有効にされるかどうかが検証される。より細かい分類は、外部ユーザ制御を使用して有効にされ得る。より細かい分類が有効にされない場合、初めに音楽として分類されたフレームは、符号化するために変換コーダにルーティングされる。より細かい分類が有効にされた場合、変換コーダとＣＥＬＰ／変換コーダのハイブリッドとの間で選択するために、いくつかの基準（たとえば、発声、修正相関、信号アクティビティ、長期ピッチ利得など）の論理的組合せが使用される。ＴＨＲ１、ＴＨＲ２、ＴＨＲ３およびＴＨＲ４は、実験的に判断され得るしきい値であり、たとえば、サンプリンレートおよび信号タイプに依存する。

[0049] 一実装形態では、強い音の信号が、（適応コードブックがない）ＭＤＣＴモードでコーディングされるのを防止され、代わりに、適応コードブックを利用する線形予測コーディング（ＬＰＣ：linear predictive coding）モードに与えられる。

[0050] 本明細書で説明したコーダおよび分類器の構成要素は、電子ハードウェア、コンピュータソフトウェア、または両方の組合として実装され得る。これらの構成要素について、それらの機能に関して本明細書で説明した。機能をハードウェアとして実装するか、ソフトウェアとして実装するかは、特定の適用例および全体的なシステムに課された設計制約に依存する。これらの状況下でのハードウェアおよびソフトウェアの互換性、および各特定の適用例について説明した機能をどのようにしたら最も良く実装することができるかを、当業者は認識されよう。

[0051] 本明細書で使用する「判断（determining）」という用語（およびそれの文法的変形）は、極めて幅広い意味で使用される。「判断」という用語は、多種多様なアクションを包含し、したがって、「判断」は、計算、算出、処理、導出、調査、探索（たとえば、テーブル、データベースまたは別のデータ構造での探索）、確認などを含むことができる。また、「判断」は、受信（たとえば、情報を受信すること）、アクセス（たとえば、メモリ中のデータにアクセスすること）などを含むことができる。また、「判断」は、解決、選択、選定、確立などを含むことができる。

[0052] 「信号処理（signal processing）」という用語（およびそれの文法的変形）は、信号の処理および解釈を指すことがある。対象となっている信号（signals of interest）は、サウンドと、画像と、多くの他のものとを含み得る。そのような信号の処理は、記憶および再構成と、雑音からの情報の分離と、圧縮と、特徴抽出とを含み得る。「デジタル信号処理」という用語は、デジタル表現における信号の調査（study）、およびこれらの信号の処理方法を指すことがある。デジタル信号処理は、移動局、非移動局、およびインターネットなど、多くの通信技術の要素である。デジタル信号処理のために利用されるアルゴリズムは、（ＤＳＰと略されることがある）デジタル信号プロセッサと呼ばれる専用マイクロプロセッサを利用し得る専用コンピュータを使用して実行され得る。

[0053] 別段に規定されていない限り、特定の特徴を有する装置の動作のいかなる開示も、類似の特徴を有する方法を開示する（その逆も同様）ことをも明確に意図し、特定の構成による装置の動作のいかなる開示も、類似の構成による方法を開示する（その逆も同様）ことをも明確に意図する。

[0054] 図４に、ワイヤレス通信システムにおける例示的な移動局４００の設計のブロック図を示す。移動局４００は、セルラーフォン、端末、ハンドセット、ＰＤＡ、ワイヤレスモデム、コードレスフォンなどであり得る。ワイヤレス通信システムは、ＣＤＭＡシステム、ＧＳＭ（登録商標）システムなどであり得る。

[0055] 移動局４００は、受信経路および送信経路を介して双方向通信を行うことが可能である。受信経路上では、基地局によって送信された信号は、アンテナ４１２によって受信され、受信機（ＲＣＶＲ）４１４に与えられる。受信機４１４は、受信信号を調整し、デジタル化し、さらなる処理のためにサンプルをデジタルセクション４２０に与える。送信経路上では、送信機（ＴＭＴＲ）４１６は、デジタルセクション４２０から送信されるべきデータを受信し、そのデータを処理し、調整し、被変調信号を生成し、被変調信号はアンテナ４１２を介して基地局に送信される。受信機４１４および送信機４１６は、ＣＤＭＡ、ＧＳＭなどをサポートし得るトランシーバの一部であり得る。

[0056] デジタルセクション４２０は、たとえば、モデムプロセッサ４２２、縮小命令セットコンピュータ／デジタル信号プロセッサ（ＲＩＳＣ／ＤＳＰ）４２４、コントローラ／プロセッサ４２６、内部メモリ４２８、汎用オーディオエンコーダ４３２、汎用オーディオデコーダ４３４、グラフィックス／ディスプレイプロセッサ４３６、および外部バスインターフェース（ＥＢＩ）４３８など、様々な処理、インターフェース、およびメモリユニットを含む。モデムプロセッサ４２２は、データ送信および受信のための処理、たとえば、符号化、変調、復調、および復号を実行し得る。ＲＩＳＣ／ＤＳＰ４２４は、ワイヤレスデバイス４００のための汎用専用処理を実行し得る。コントローラ／プロセッサ４２６は、デジタルセクション４２０内の様々な処理およびインターフェースユニットの動作を指示し得る。内部メモリ４２８は、デジタルセクション４２０内の様々なユニットのためのデータおよび／または命令を記憶し得る。

[0057] 汎用オーディオエンコーダ４３２は、オーディオソース４４２、マイクロフォン４４３などからの入力信号に対して符号化を実行し得る。汎用オーディオデコーダ４３４は、コード化オーディオデータに対して復号を実行し得、出力信号をスピーカー／ヘッドセット４４４に与え得る。グラフィックス／ディスプレイプロセッサ４３６は、ディスプレイユニット４４６に提示され得る、グラフィックス、ビデオ、画像、およびテキストのための処理を実行し得る。ＥＢＩ４３８は、デジタルセクション４２０とメインメモリ４４８との間のデータ転送を可能にし得る。

[0058] デジタルセクション４２０は、１つまたは複数のプロセッサ、ＤＳＰ、マイクロプロセッサ、ＲＩＳＣなどを用いて実装され得る。デジタルセクション４２０はまた、１つまたは複数の特定用途向け集積回路（ＡＳＩＣ）および／または何らかの他のタイプの集積回路（ＩＣ）上に作製され得る。

[0059] 図５に、例示的な実装形態および態様が実装され得る例示的なコンピューティング環境を示す。コンピューティングシステム環境は、好適なコンピューティング環境の一例にすぎず、使用または機能の範囲に関する任意の限定を示唆するものではない。

[0060] コンピュータによって実行される、プログラムモジュールなどのコンピュータ実行可能命令が使用され得る。概して、プログラムモジュールは、特定のタスクを実行するか、または特定の抽象データ型を実装する、ルーチン、プログラム、オブジェクト、構成要素、データ構造などを含む。通信ネットワークまたは他のデータ伝送媒体を介してリンクされるリモート処理デバイスによってタスクが実行される、分散コンピューティング環境が使用され得る。分散コンピューティング環境では、プログラムモジュールおよび他のデータは、メモリ記憶デバイスを含む、ローカルコンピュータ記憶媒体とリモートコンピュータ記憶媒体の両方に配置され得る。

[0061] 図５を参照すると、本明細書で説明する態様を実装するための例示的なシステムは、コンピューティングデバイス５００など、コンピューティングデバイスを含む。その最も基本的な構成では、コンピューティングデバイス５００は、一般に、少なくとも１つの処理ユニット５０２およびメモリ５０４を含む。コンピューティングデバイスの正確な構成およびタイプに応じて、メモリ５０４は、（ランダムアクセスメモリ（ＲＡＭ）などの）揮発性、（読取り専用メモリ（ＲＯＭ）、フラッシュメモリなどの）不揮発性、またはそれら２つの何らかの組合せであり得る。この最も基本的な構成は、破線５０６によって図５に示されている。

[0062] コンピューティングデバイス５００は追加の特徴および／または機能を有し得る。たとえば、コンピューティングデバイス５００は、限定はしないが、磁気ディスクまたは光ディスクあるいはテープを含む、追加のストレージ（リムーバブルおよび／または非リムーバブル）を含み得る。そのような追加のストレージは、リムーバブルストレージ５０８および非リムーバブルストレージ５１０によって図５に示されている。

[0063] コンピューティングデバイス５００は、一般に、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、デバイス５００によってアクセスされ得る任意の利用可能な媒体であり得、揮発性媒体および不揮発性媒体と、リムーバブル媒体および非リムーバブル媒体の両方を含む。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュールまたは他のデータなど、情報の記憶のための任意の方法または技術において実装される、揮発性媒体および不揮発性媒体と、リムーバブル媒体および非リムーバブル媒体とを含む。メモリ５０４、リムーバブルストレージ５０８、および非リムーバブルストレージ５１０は、コンピュータ記憶媒体のすべての例である。コンピュータ記憶媒体は、限定はしないが、ＲＡＭ、ＲＯＭ、電気消去可能プログラマブル読取り専用メモリ（ＥＥＰＲＯＭ（登録商標））、フラッシュメモリまたは他のメモリ技術、ＣＤ−ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）または他の光ストレージ、磁気カセット、磁気テープ、磁気ディスクストレージまたは他の磁気ストレージデバイス、あるいは所望の情報を記憶するために使用され得、コンピューティングデバイス５００によってアクセスされ得る任意の他の媒体を含む。いかなるそのようなコンピュータ記憶媒体も、コンピューティングデバイス５００の一部であり得る。

[0064] コンピューティングデバイス５００は、デバイスが他のデバイスと通信することを可能にする、（１つまたは複数の）通信接続５１２を含んでいることがある。コンピューティングデバイス５００はまた、キーボード、マウス、ペン、ボイス入力デバイス、タッチ入力デバイスなど、（１つまたは複数の）入力デバイス５１４を有し得る。ディスプレイ、スピーカー、プリンタなど、（１つまたは複数の）出力デバイス５１６も含まれ得る。これらのすべてのデバイスは、当技術分野でよく知られており、ここでは詳しく説明する必要はない。

[0065] 概して、本明細書で説明したいかなるデバイスも、ワイヤレスまたはワイヤードフォン、セルラーフォン、ラップトップコンピュータ、ワイヤレスマルチメディアデバイス、ワイヤレス通信ＰＣカード、ＰＤＡ、外部または内部モデム、ワイヤレスまたはワイヤードチャネルを介して通信するデバイスなど、様々なタイプのデバイスを表し得る。デバイスは、アクセス端末（ＡＴ）、アクセスユニット、加入者ユニット、移動局、モバイルデバイス、モバイルユニット、モバイルフォン、モバイル、リモート局、リモート端末、リモートユニット、ユーザデバイス、ユーザ機器、ハンドヘルドデバイス、非移動局、非モバイルデバイス、エンドポイントなど、様々な名前を有し得る。本明細書で説明したいかなるデバイスも、命令およびデータを記憶するためのメモリ、ならびにハードウェア、ソフトウェア、ファームウェア、またはそれらの組合せを有し得る。

[0066] 本明細書で説明した技法は、様々な手段によって実装され得る。たとえば、これらの技法は、ハードウェア、ファームウェア、ソフトウェア、またはそれらの組合せで実装され得る。さらに、本明細書の開示に関して説明した様々な例示的な論理ブロック、モジュール、回路、およびアルゴリズムステップは、電子ハードウェア、コンピュータソフトウェア、または両方の組合せとして実装され得ることを、当業者は諒解されよう。ハードウェアとソフトウェアのこの互換性を明確に示すために、様々な例示的な構成要素、ブロック、モジュール、回路、およびステップについて、上記では概してそれらの機能に関して説明した。そのような機能をハードウェアとして実装するか、ソフトウェアとして実装するかは、特定の適用例および全体的なシステムに課された設計制約に依存する。当業者は、説明した機能を特定の適用例ごとに様々な方法で実装し得るが、そのような実装の決定は、本開示の範囲からの逸脱を生じるものと解釈すべきではない。

[0067] ハードウェア実装の場合、本技法を実行するために使用される処理ユニットは、１つまたは複数のＡＳＩＣ、ＤＳＰ、デジタル信号処理デバイス（ＤＳＰＤ）、プログラマブル論理デバイス（ＰＬＤ）、ＦＰＧＡ、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、電子デバイス、本明細書で説明した機能を実行するように設計された他の電子ユニット、コンピュータ、またはそれらの組合せ内で実装され得る。

[0068] したがって、本明細書の開示に関して説明した様々な例示的な論理ブロック、モジュール、および回路は、汎用プロセッサ、ＤＳＰ、ＡＳＩＣ、ＦＰＧＡまたは他のプログラマブル論理デバイス、個別ゲートまたはトランジスタ論理、個別ハードウェア構成要素、あるいは本明細書で説明した機能を実行するように設計されたそれらの任意の組合せを用いて実装または実行され得る。汎用プロセッサはマイクロプロセッサであり得るが、代替として、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械であり得る。プロセッサは、コンピューティングデバイスの組合せ、たとえば、ＤＳＰとマイクロプロセッサとの組合せ、複数のマイクロプロセッサ、ＤＳＰコアと連携する１つまたは複数のマイクロプロセッサ、あるいは任意の他のそのような構成としても実装され得る。

[0069] ファームウェアおよび／またはソフトウェア実装の場合、本技法は、ＲＡＭ、ＲＯＭ、不揮発性ＲＡＭ、プログラマブルＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ、コンパクトディスク（ＣＤ）、磁気または光学データストレージデバイスなど、コンピュータ可読媒体上の命令として組み込まれ得る。命令は、１つまたは複数のプロセッサによって実行可能であり得、（１つまたは複数の）プロセッサに、本明細書で説明した機能のいくつかの態様を実行させ得る。

[0070] ソフトウェアで実装した場合、機能は、１つまたは複数の命令またはコードとしてコンピュータ可読媒体上に記憶されるか、あるいはコンピュータ可読媒体を介して送信され得る。コンピュータ可読媒体は、ある場所から別の場所へのコンピュータプログラムの転送を可能にする任意の媒体を含むコンピュータ通信媒体と、コンピュータ記憶媒体との両方を含む。記憶媒体は、汎用または専用コンピュータによってアクセスされ得る任意の利用可能な媒体であり得る。限定ではなく例として、そのようなコンピュータ可読媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＣＤ−ＲＯＭまたは他の光ディスクストレージ、磁気ディスクストレージまたは他の磁気ストレージデバイス、あるいは命令またはデータ構造の形態の所望のプログラムコード手段を搬送または記憶するために使用され得、汎用もしくは専用コンピュータ、または汎用もしくは専用プロセッサによってアクセスされ得る、任意の他の媒体を備えることができる。また、いかなる接続もコンピュータ可読媒体と適切に呼ばれる。たとえば、ソフトウェアが、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ）、または赤外線、無線、およびマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、ＤＳＬ、または赤外線、無線、およびマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。本明細書で使用するディスク（disk）およびディスク（disc）は、ＣＤ（disc）、レーザディスク（disc）、光ディスク（disc）、デジタル多用途ディスク（disc）（ＤＶＤ）、フロッピー（登録商標）ディスク（disk）およびｂｌｕ−ｒａｙ（登録商標）ディスク（disc）を含み、ディスク（disk）は、通常、データを磁気的に再生し、ディスク（disc）は、データをレーザで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲内に含まれるべきである。

[0071] ソフトウェアモジュールは、ＲＡＭメモリ、フラッシュメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、レジスタ、ハードディスク、リムーバブルディスク、ＣＤ−ＲＯＭ、または当技術分野で知られている任意の他の形態の記憶媒体中に常駐し得る。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代替として、記憶媒体はプロセッサに一体化され得る。プロセッサおよび記憶媒体はＡＳＩＣ中に常駐し得る。ＡＳＩＣはユーザ端末中に常駐し得る。代替として、プロセッサおよび記憶媒体は、ユーザ端末中に個別構成要素として常駐し得る。

[0072] 本開示についての以上の説明は、いかなる当業者も本開示を作成または使用することができるように与えたものである。本開示への様々な修正は当業者には容易に明らかとなり、本明細書で定義した一般原理は、本開示の趣旨または範囲から逸脱することなく他の変形形態に適用され得る。したがって、本開示は、本明細書で説明した例に限定されるものではなく、本明細書で開示した原理および新規の特徴に合致する最も広い範囲を与えられるべきである。

[0073] 例示的な実装形態は、１つまたは複数のスタンドアロンコンピュータシステムの文脈で、本開示の主題の態様を利用することに言及し得るが、主題は、そのように限定されるのではなく、ネットワークまたは分散コンピューティング環境など、任意のコンピューティング環境に関連して実施され得る。またさらに、本開示の主題の態様は、複数の処理チップまたはデバイスにおいてあるいはそれらにわたって実装され得、同様に複数のデバイスにわたって記憶が実施され得る。そのようなデバイスは、たとえば、ＰＣ、ネットワークサーバ、およびハンドヘルドデバイスを含み得る。

[0074] 主題について構造的機能および／または方法論的行為に特有の言語で説明したが、添付の特許請求の範囲において定義される主題は、必ずしも上記で説明した特定の特徴または行為に限定されるとは限らないことを理解されたい。むしろ、上記で説明した特定の特徴および行為は、特許請求の範囲を実施することの例示的な形態として開示される。

Claims

第１の分類器においてオーディオ信号の一部分を受信することと、
前記第１の分類器において前記オーディオ信号の前記一部分をスピーチとしてまたは音楽として分類することと、
前記一部分が前記第１の分類器によってスピーチとして分類された場合、第１のコーディングモードを使用して前記スピーチを符号化することと、
前記一部分が前記第１の分類器によって音楽として分類された場合、
前記一部分を第２の分類器に与えることと、
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類することと、
前記一部分が前記第２の分類器においてスピーチとして分類された場合、第２のコーディングモードを使用して前記一部分を符号化することと、
前記一部分が前記第２の分類器において音楽として分類された場合、第３のコーディングモードを使用して前記一部分を符号化することと
を備える方法。
前記オーディオ信号の前記一部分がフレームである、請求項１に記載の方法。
前記第１のコーディングモードが第１のスピーチコーダを備え、前記第２のコーディングモードが第２のスピーチコーダを備え、前記第３のコーディングモードが音楽コーダを備える、請求項１に記載の方法。
前記第１のスピーチコーダが符号励振線形予測（ＣＥＬＰ）型コーダであり、前記第２のスピーチコーダがＣＥＬＰ／変換ハイブリッドコーダであり、前記音楽コーダが変換コーダである、請求項３に記載の方法。
前記一部分を第２の分類器に与えるより前に、前記第２の分類器が有効にされるかどうかを判断することと、前記第２の分類器が有効にされない場合、前記第３のコーディングモードを用いて前記一部分を符号化することとをさらに備える、請求項１に記載の方法。
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類することは、前記一部分が音楽の特性を有するか有声スピーチの特性を有するかを分類するために、前記一部分の複数の特徴を１つまたは複数のしきい値と比較することを備える、請求項１に記載の方法。
音楽の前記特性が音楽のブロードバンド擬似雑音特性を備え、有声スピーチの前記特性が、有声スピーチの音特性または有声スピーチの準定常特性のうちの少なくとも１つを備える、請求項６に記載の方法。
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類することが、前記一部分の発声を第１のしきい値と比較すること、修正相関を第２のしきい値と比較すること、または長期ピッチ利得を第３のしきい値と比較することのうちの少なくとも１つを備える、請求項１に記載の方法。
前記発声が、スピーチとの無相関に対応する０から、スピーチとの高相関に対応する１にわたり、前記修正相関が、ランダム雑音に対応する０から、高度に構造化されたサウンドに対応する１にわたり、前記長期ピッチ利得が、過去の励起と現在の予測残差との間の正規化相互相関であり、前記長期ピッチ利得は、過去の部分の誤差が現在の部分を表すのに十分でないことを示す０から、前記過去の部分の残余誤差を使用することが前記現在の部分を完全に表すことができることを示す１にわたる、請求項８に記載の方法。
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類することは、前記一部分中に信号アクティビティがあるかどうかを判断することと、信号アクティビティがない場合、符号化すべき有用な信号がないと判断することと、前記一部分をスピーチとして符号化することとを備える、請求項１に記載の方法。
第１の分類器においてオーディオ信号の一部分を受信するための手段と、
前記第１の分類器において前記オーディオ信号の前記一部分をスピーチとしてまたは音楽として分類するための手段と、
前記一部分が前記第１の分類器によってスピーチとして分類された場合、第１のコーディングモードを使用して前記スピーチを符号化するための手段と、
前記一部分が前記第１の分類器によって音楽として分類されたとき、前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類するための手段と、
前記一部分が前記第２の分類器においてスピーチとして分類されたとき、第２のコーディングモードを使用して前記一部分を符号化するための手段と、
前記一部分が前記第２の分類器において音楽として分類されたとき、第３のコーディングモードを使用して前記一部分を符号化するための手段と
を備える装置。
前記オーディオ信号の前記一部分がフレームである、請求項１１に記載の装置。
前記第１のコーディングモードが第１のスピーチコーダを備え、前記第２のコーディングモードが第２のスピーチコーダを備え、前記第３のコーディングモードが音楽コーダを備える、請求項１１に記載の装置。
前記第１のスピーチコーダが符号励振線形予測（ＣＥＬＰ）型コーダであり、前記第２のスピーチコーダがＣＥＬＰ／変換ハイブリッドコーダであり、前記音楽コーダが変換コーダである、請求項１３に記載の装置。
前記一部分を第２の分類器に与えるより前に、前記第２の分類器が有効にされるかどうかを判断することと、前記第２の分類器が有効にされない場合、前記第３のコーディングモードを用いて前記一部分を符号化することとを行うための手段をさらに備える、請求項１１に記載の装置。
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類するための前記手段は、前記一部分が音楽の特性を有するか有声スピーチの特性を有するかを分類するために、前記一部分の複数の特徴を１つまたは複数のしきい値と比較するための手段を備える、請求項１１に記載の装置。
音楽の前記特性が音楽のブロードバンド擬似雑音特性を備え、有声スピーチの前記特性が、有声スピーチの音特性または有声スピーチの準定常特性のうちの少なくとも１つを備える、請求項１６に記載の装置。
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類するための前記手段が、前記一部分の発声を第１のしきい値と比較するための手段と、修正相関を第２のしきい値と比較するための手段と、長期ピッチ利得を第３のしきい値と比較するための手段とのうちの少なくとも１つを備える、請求項１１に記載の装置。
前記発声が、スピーチとの無相関に対応する０から、スピーチとの高相関に対応する１にわたり、前記修正相関が、ランダム雑音に対応する０から、高度に構造化されたサウンドに対応する１にわたり、前記長期ピッチ利得が、過去の励起と現在の予測残差との間の正規化相互相関であり、前記長期ピッチ利得は、過去の部分の誤差が現在の部分を表すのに十分でないことを示す０から、前記過去の部分の残余誤差を使用することが前記現在の部分を完全に表すことができることを示す１にわたる、請求項１８に記載の装置。
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類するための前記手段は、前記一部分中に信号アクティビティがあるかどうかを判断することと、信号アクティビティがない場合、符号化すべき有用な信号がないと判断することと、前記一部分をスピーチとして符号化することとを行うための手段を備える、請求項１１に記載の装置。
第１の分類器においてオーディオ信号の一部分を受信することと、
前記第１の分類器において前記オーディオ信号の前記一部分をスピーチとしてまたは音楽として分類することと、
前記一部分が前記第１の分類器によってスピーチとして分類された場合、第１のコーディングモードを使用して前記スピーチを符号化することと、
前記一部分が前記第１の分類器によって音楽として分類された場合、
前記一部分を第２の分類器に与えることと、
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類することと、
前記一部分が前記第２の分類器においてスピーチとして分類された場合、第２のコーディングモードを使用して前記一部分を符号化することと、
前記一部分が前記第２の分類器において音楽として分類された場合、第３のコーディングモードを使用して前記一部分を符号化することと
をプロセッサに行わせるためのコンピュータ可読命令を備える非一時的コンピュータ可読媒体。
前記オーディオ信号の前記一部分がフレームである、請求項２１に記載のコンピュータ可読媒体。
前記第１のコーディングモードが第１のスピーチコーダを備え、前記第２のコーディングモードが第２のスピーチコーダを備え、前記第３のコーディングモードが音楽コーダを備える、請求項２１に記載のコンピュータ可読媒体。
前記第１のスピーチコーダが符号励振線形予測（ＣＥＬＰ）型コーダであり、前記第２のスピーチコーダがＣＥＬＰ／変換ハイブリッドコーダであり、前記音楽コーダが変換コーダである、請求項２３に記載のコンピュータ可読媒体。
前記一部分を第２の分類器に与えるより前に、前記第２の分類器が有効にされるかどうかを判断することと、前記第２の分類器が有効にされない場合、前記第３のコーディングモードを用いて前記一部分を符号化することとを前記プロセッサに行わせる命令をさらに備える、請求項２１に記載のコンピュータ可読媒体。
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類することは、前記一部分が音楽の特性を有するか有声スピーチの特性を有するかを分類するために、前記一部分の複数の特徴を１つまたは複数のしきい値と比較することを備える、請求項２１に記載のコンピュータ可読媒体。
音楽の前記特性が音楽のブロードバンド擬似雑音特性を備え、有声スピーチの前記特性が、有声スピーチの音特性または有声スピーチの準定常特性のうちの少なくとも１つを備える、請求項２６に記載のコンピュータ可読媒体。
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類することが、前記一部分の発声を第１のしきい値と比較すること、修正相関を第２のしきい値と比較すること、または長期ピッチ利得を第３のしきい値と比較することのうちの少なくとも１つを備える、請求項２１に記載のコンピュータ可読媒体。
前記発声が、スピーチとの無相関に対応する０から、スピーチとの高相関に対応する１にわたり、前記修正相関が、ランダム雑音に対応する０から、高度に構造化されたサウンドに対応する１にわたり、前記長期ピッチ利得が、過去の励起と現在の予測残差との間の正規化相互相関であり、前記長期ピッチ利得は、過去の部分の誤差が現在の部分を表すのに十分でないことを示す０から、前記過去の部分の残余誤差を使用することが前記現在の部分を完全に表すことができることを示す１にわたる、請求項２８に記載のコンピュータ可読媒体。
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類することは、前記一部分中に信号アクティビティがあるかどうかを判断することと、信号アクティビティがない場合、符号化すべき有用な信号がないと判断することと、前記一部分をスピーチとして符号化することとを備える、請求項２１に記載のコンピュータ可読媒体。
第１の分類器においてオーディオ信号の一部分を受信することと、
前記第１の分類器において前記オーディオ信号の前記一部分をスピーチとしてまたは音楽として分類することと、
前記一部分が前記第１の分類器によってスピーチとして分類された場合、第１のコーディングモードを使用して前記スピーチを符号化することと、
前記一部分が前記第１の分類器によって音楽として分類された場合、
前記一部分を第２の分類器に与えることと、
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類することと、
前記一部分が前記第２の分類器においてスピーチとして分類された場合、第２のコーディングモードを使用して前記一部分を符号化することと、
前記一部分が前記第２の分類器において音楽として分類された場合、第３のコーディングモードを使用して前記一部分を符号化することと
を行うように構成されたプロセッサ。
前記オーディオ信号の前記一部分がフレームである、請求項３１に記載のプロセッサ。
前記第１のコーディングモードが第１のスピーチコーダを備え、前記第２のコーディングモードが第２のスピーチコーダを備え、前記第３のコーディングモードが音楽コーダを備える、請求項３１に記載のプロセッサ。
前記第１のスピーチコーダが符号励振線形予測（ＣＥＬＰ）型コーダであり、前記第２のスピーチコーダがＣＥＬＰ／変換ハイブリッドコーダであり、前記音楽コーダが変換コーダである、請求項３３に記載のプロセッサ。
前記プロセッサは、前記一部分を第２の分類器に与えるより前に、前記第２の分類器が有効にされるかどうかを判断することと、前記第２の分類器が有効にされない場合、前記第３のコーディングモードを用いて前記一部分を符号化することとを行うようにさらに構成された、請求項３１に記載のプロセッサ。
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類することは、前記一部分が音楽の特性を有するか有声スピーチの特性を有するかを分類するために、前記一部分の複数の特徴を１つまたは複数のしきい値と比較することを備える、請求項３１に記載のプロセッサ。
音楽の前記特性が音楽のブロードバンド擬似雑音特性を備え、有声スピーチの前記特性が、有声スピーチの音特性または有声スピーチの準定常特性のうちの少なくとも１つを備える、請求項３６に記載のプロセッサ。
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類することが、前記一部分の発声を第１のしきい値と比較すること、修正相関を第２のしきい値と比較すること、または長期ピッチ利得を第３のしきい値と比較することのうちの少なくとも１つを備える、請求項３１に記載のプロセッサ。
前記発声が、スピーチとの無相関に対応する０から、スピーチとの高相関に対応する１にわたり、前記修正相関が、ランダム雑音に対応する０から、高度に構造化されたサウンドに対応する１にわたり、前記長期ピッチ利得が、過去の励起と現在の予測残差との間の正規化相互相関であり、前記長期ピッチ利得は、過去の部分の誤差が現在の部分を表すのに十分でないことを示す０から、前記過去の部分の残余誤差を使用することが前記現在の部分を完全に表すことができることを示す１にわたる、請求項３８に記載のプロセッサ。
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類することは、前記一部分中に信号アクティビティがあるかどうかを判断することと、信号アクティビティがない場合、符号化すべき有用な信号がないと判断することと、前記一部分をスピーチとして符号化することとを備える、請求項３１に記載のプロセッサ。
オーディオ信号の一部分を受信し、前記オーディオ信号の前記一部分をスピーチとしてまたは音楽として分類し、前記一部分がスピーチとして分類された場合、第１のコーディングモードを使用して前記スピーチを符号化し、前記一部分が音楽として分類された場合、前記一部分を第２の分類器に与える、第１の分類器と、
前記一部分が前記第１の分類器によって音楽として分類された場合、前記一部分をスピーチとしてまたは音楽として分類し、前記一部分が前記第２の分類器においてスピーチとして分類された場合、第２のコーディングモードを使用して前記一部分を符号化し、前記一部分が前記第２の分類器において音楽として分類された場合、第３のコーディングモードを使用して前記一部分を符号化する、前記第２の分類器と
を備えるシステム。
前記オーディオ信号の前記一部分がフレームである、請求項４１に記載のシステム。
前記第１のコーディングモードが第１のスピーチコーダを備え、前記第２のコーディングモードが第２のスピーチコーダを備え、前記第３のコーディングモードが音楽コーダを備える、請求項４１に記載のシステム。
前記第１のスピーチコーダが符号励振線形予測（ＣＥＬＰ）型コーダであり、前記第２のスピーチコーダがＣＥＬＰ／変換ハイブリッドコーダであり、前記音楽コーダが変換コーダである、請求項４３に記載のシステム。
前記一部分を第２の分類器に与えるより前に、前記第２の分類器が有効にされるかどうかを判断することと、前記第２の分類器が有効にされない場合、前記第３のコーディングモードを用いて前記一部分を符号化することとをさらに備える、請求項４１に記載のシステム。
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類することは、前記一部分が音楽の特性を有するか有声スピーチの特性を有するかを分類するために、前記一部分の複数の特徴を１つまたは複数のしきい値と比較することを備える、請求項４１に記載のシステム。
音楽の前記特性が音楽のブロードバンド擬似雑音特性を備え、有声スピーチの前記特性が、有声スピーチの音特性または有声スピーチの準定常特性のうちの少なくとも１つを備える、請求項４６に記載のシステム。
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類することが、前記一部分の発声を第１のしきい値と比較すること、修正相関を第２のしきい値と比較すること、または長期ピッチ利得を第３のしきい値と比較することのうちの少なくとも１つを備える、請求項４１に記載のシステム。
前記発声が、スピーチとの無相関に対応する０から、スピーチとの高相関に対応する１にわたり、前記修正相関が、ランダム雑音に対応する０から、高度に構造化されたサウンドに対応する１にわたり、前記長期ピッチ利得が、過去の励起と現在の予測残差との間の正規化相互相関であり、前記長期ピッチ利得は、過去の部分の誤差が現在の部分を表すのに十分でないことを示す０から、前記過去の部分の残余誤差を使用することが前記現在の部分を完全に表すことができることを示す１にわたる、請求項４８に記載のシステム。
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類することは、前記一部分中に信号アクティビティがあるかどうかを判断することと、信号アクティビティがない場合、符号化すべき有用な信号がないと判断することと、前記一部分をスピーチとして符号化することとを備える、請求項４１に記載のシステム。