JP2015507222A5

JP2015507222A5 -

Info

Publication number: JP2015507222A5
Application number: JP2014552206A
Authority: JP
Filing date: 2012-12-21
Publication date: 2015-11-26
Anticipated expiration: 2032-12-21

Description

[0074] 主題について構造的機能および／または方法論的行為に特有の言語で説明したが、添付の特許請求の範囲において定義される主題は、必ずしも上記で説明した特定の特徴または行為に限定されるとは限らないことを理解されたい。むしろ、上記で説明した特定の特徴および行為は、特許請求の範囲を実施することの例示的な形態として開示される。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
［Ｃ１］
第１の分類器においてオーディオ信号の一部分を受信することと、
前記第１の分類器において前記オーディオ信号の前記一部分をスピーチとしてまたは音楽として分類することと、
前記一部分が前記第１の分類器によってスピーチとして分類された場合、第１のコーディングモードを使用して前記スピーチを符号化することと、
前記一部分が前記第１の分類器によって音楽として分類された場合、
前記一部分を第２の分類器に与えることと、
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類することと、
前記一部分が前記第２の分類器においてスピーチとして分類された場合、第２のコーディングモードを使用して前記一部分を符号化することと、
前記一部分が前記第２の分類器において音楽として分類された場合、第３のコーディングモードを使用して前記一部分を符号化することとを備える方法。
［Ｃ２］
前記オーディオ信号の前記一部分がフレームである、Ｃ１に記載の方法。
［Ｃ３］
前記第１のコーディングモードが第１のスピーチコーダを備え、前記第２のコーディングモードが第２のスピーチコーダを備え、前記第３のコーディングモードが音楽コーダを備える、Ｃ１に記載の方法。
［Ｃ４］
前記第１のスピーチコーダが符号励振線形予測（ＣＥＬＰ）型コーダであり、前記第２のスピーチコーダがＣＥＬＰ／変換ハイブリッドコーダであり、前記音楽コーダが変換コーダである、Ｃ３に記載の方法。
［Ｃ５］
前記一部分を第２の分類器に与えるより前に、前記第２の分類器が有効にされるかどうかを判断することと、前記第２の分類器が有効にされない場合、前記第３のコーディングモードを用いて前記一部分を符号化することとをさらに備える、Ｃ１に記載の方法。
［Ｃ６］
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類することは、前記一部分が音楽の特性を有するか有声スピーチの特性を有するかを分類するために、前記一部分の複数の特徴を１つまたは複数のしきい値と比較することを備える、Ｃ１に記載の方法。
［Ｃ７］
音楽の前記特性が音楽のブロードバンド擬似雑音特性を備え、有声スピーチの前記特性が、有声スピーチの音特性または有声スピーチの準定常特性のうちの少なくとも１つを備える、Ｃ６に記載の方法。
［Ｃ８］
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類することが、前記一部分の発声を第１のしきい値と比較すること、修正相関を第２のしきい値と比較すること、または長期ピッチ利得を第３のしきい値と比較することのうちの少なくとも１つを備える、Ｃ１に記載の方法。
［Ｃ９］
前記発声が、スピーチとの無相関に対応する０から、スピーチとの高相関に対応する１にわたり、前記修正相関が、ランダム雑音に対応する０から、高度に構造化されたサウンドに対応する１にわたり、前記長期ピッチ利得が、過去の励起と現在の予測残差との間の正規化相互相関であり、前記長期ピッチ利得は、過去の部分の誤差が現在の部分を表すのに十分でないことを示す０から、前記過去の部分の残余誤差を使用することが前記現在の部分を完全に表すことができることを示す１にわたる、Ｃ８に記載の方法。
［Ｃ１０］
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類することは、前記一部分中に信号アクティビティがあるかどうかを判断することと、信号アクティビティがない場合、符号化すべき有用な信号がないと判断することと、前記一部分をスピーチとして符号化することとを備える、Ｃ１に記載の方法。
［Ｃ１１］
第１の分類器においてオーディオ信号の一部分を受信するための手段と、
前記第１の分類器において前記オーディオ信号の前記一部分をスピーチとしてまたは音楽として分類するための手段と、
前記一部分が前記第１の分類器によってスピーチとして分類された場合、第１のコーディングモードを使用して前記スピーチを符号化するための手段と、
前記一部分が前記第１の分類器によって音楽として分類されたとき、前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類するための手段と、
前記一部分が前記第２の分類器においてスピーチとして分類されたとき、第２のコーディングモードを使用して前記一部分を符号化するための手段と、
前記一部分が前記第２の分類器において音楽として分類されたとき、第３のコーディングモードを使用して前記一部分を符号化するための手段とを備える装置。
［Ｃ１２］
前記オーディオ信号の前記一部分がフレームである、Ｃ１１に記載の装置。
［Ｃ１３］
前記第１のコーディングモードが第１のスピーチコーダを備え、前記第２のコーディングモードが第２のスピーチコーダを備え、前記第３のコーディングモードが音楽コーダを備える、Ｃ１１に記載の装置。
［Ｃ１４］
前記第１のスピーチコーダが符号励振線形予測（ＣＥＬＰ）型コーダであり、前記第２のスピーチコーダがＣＥＬＰ／変換ハイブリッドコーダであり、前記音楽コーダが変換コーダである、Ｃ１３に記載の装置。
［Ｃ１５］
前記一部分を第２の分類器に与えるより前に、前記第２の分類器が有効にされるかどうかを判断することと、前記第２の分類器が有効にされない場合、前記第３のコーディングモードを用いて前記一部分を符号化することとを行うための手段をさらに備える、Ｃ１１に記載の装置。
［Ｃ１６］
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類するための前記手段は、前記一部分が音楽の特性を有するか有声スピーチの特性を有するかを分類するために、前記一部分の複数の特徴を１つまたは複数のしきい値と比較するための手段を備える、Ｃ１１に記載の装置。
［Ｃ１７］
音楽の前記特性が音楽のブロードバンド擬似雑音特性を備え、有声スピーチの前記特性が、有声スピーチの音特性または有声スピーチの準定常特性のうちの少なくとも１つを備える、Ｃ１６に記載の装置。
［Ｃ１８］
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類するための前記手段が、前記一部分の発声を第１のしきい値と比較するための手段と、修正相関を第２のしきい値と比較するための手段と、長期ピッチ利得を第３のしきい値と比較するための手段とのうちの少なくとも１つを備える、Ｃ１１に記載の装置。
［Ｃ１９］
前記発声が、スピーチとの無相関に対応する０から、スピーチとの高相関に対応する１にわたり、前記修正相関が、ランダム雑音に対応する０から、高度に構造化されたサウンドに対応する１にわたり、前記長期ピッチ利得が、過去の励起と現在の予測残差との間の正規化相互相関であり、前記長期ピッチ利得は、過去の部分の誤差が現在の部分を表すのに十分でないことを示す０から、前記過去の部分の残余誤差を使用することが前記現在の部分を完全に表すことができることを示す１にわたる、Ｃ１８に記載の装置。
［Ｃ２０］
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類するための前記手段は、前記一部分中に信号アクティビティがあるかどうかを判断することと、信号アクティビティがない場合、符号化すべき有用な信号がないと判断することと、前記一部分をスピーチとして符号化することとを行うための手段を備える、Ｃ１１に記載の装置。
［Ｃ２１］
第１の分類器においてオーディオ信号の一部分を受信することと、
前記第１の分類器において前記オーディオ信号の前記一部分をスピーチとしてまたは音楽として分類することと、
前記一部分が前記第１の分類器によってスピーチとして分類された場合、第１のコーディングモードを使用して前記スピーチを符号化することと、
前記一部分が前記第１の分類器によって音楽として分類された場合、
前記一部分を第２の分類器に与えることと、
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類することと、
前記一部分が前記第２の分類器においてスピーチとして分類された場合、第２のコーディングモードを使用して前記一部分を符号化することと、
前記一部分が前記第２の分類器において音楽として分類された場合、第３のコーディングモードを使用して前記一部分を符号化することとをプロセッサに行わせるためのコンピュータ可読命令を備える非一時的コンピュータ可読媒体。
［Ｃ２２］
前記オーディオ信号の前記一部分がフレームである、Ｃ２１に記載のコンピュータ可読媒体。
［Ｃ２３］
前記第１のコーディングモードが第１のスピーチコーダを備え、前記第２のコーディングモードが第２のスピーチコーダを備え、前記第３のコーディングモードが音楽コーダを備える、Ｃ２１に記載のコンピュータ可読媒体。
［Ｃ２４］
前記第１のスピーチコーダが符号励振線形予測（ＣＥＬＰ）型コーダであり、前記第２のスピーチコーダがＣＥＬＰ／変換ハイブリッドコーダであり、前記音楽コーダが変換コーダである、Ｃ２３に記載のコンピュータ可読媒体。
［Ｃ２５］
前記一部分を第２の分類器に与えるより前に、前記第２の分類器が有効にされるかどうかを判断することと、前記第２の分類器が有効にされない場合、前記第３のコーディングモードを用いて前記一部分を符号化することとを前記プロセッサに行わせる命令をさらに備える、Ｃ２１に記載のコンピュータ可読媒体。
［Ｃ２６］
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類することは、前記一部分が音楽の特性を有するか有声スピーチの特性を有するかを分類するために、前記一部分の複数の特徴を１つまたは複数のしきい値と比較することを備える、Ｃ２１に記載のコンピュータ可読媒体。
［Ｃ２７］
音楽の前記特性が音楽のブロードバンド擬似雑音特性を備え、有声スピーチの前記特性が、有声スピーチの音特性または有声スピーチの準定常特性のうちの少なくとも１つを備える、Ｃ２６に記載のコンピュータ可読媒体。
［Ｃ２８］
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類することが、前記一部分の発声を第１のしきい値と比較すること、修正相関を第２のしきい値と比較すること、または長期ピッチ利得を第３のしきい値と比較することのうちの少なくとも１つを備える、Ｃ２１に記載のコンピュータ可読媒体。
［Ｃ２９］
前記発声が、スピーチとの無相関に対応する０から、スピーチとの高相関に対応する１にわたり、前記修正相関が、ランダム雑音に対応する０から、高度に構造化されたサウンドに対応する１にわたり、前記長期ピッチ利得が、過去の励起と現在の予測残差との間の正規化相互相関であり、前記長期ピッチ利得は、過去の部分の誤差が現在の部分を表すのに十分でないことを示す０から、前記過去の部分の残余誤差を使用することが前記現在の部分を完全に表すことができることを示す１にわたる、Ｃ２８に記載のコンピュータ可読媒体。
［Ｃ３０］
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類することは、前記一部分中に信号アクティビティがあるかどうかを判断することと、信号アクティビティがない場合、符号化すべき有用な信号がないと判断することと、前記一部分をスピーチとして符号化することとを備える、Ｃ２１に記載のコンピュータ可読媒体。
［Ｃ３１］
第１の分類器においてオーディオ信号の一部分を受信することと、
前記第１の分類器において前記オーディオ信号の前記一部分をスピーチとしてまたは音楽として分類することと、
前記一部分が前記第１の分類器によってスピーチとして分類された場合、第１のコーディングモードを使用して前記スピーチを符号化することと、
前記一部分が前記第１の分類器によって音楽として分類された場合、
前記一部分を第２の分類器に与えることと、
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類することと、
前記一部分が前記第２の分類器においてスピーチとして分類された場合、第２のコーディングモードを使用して前記一部分を符号化することと、
前記一部分が前記第２の分類器において音楽として分類された場合、第３のコーディングモードを使用して前記一部分を符号化することとを行うように構成されたプロセッサ。
［Ｃ３２］
前記オーディオ信号の前記一部分がフレームである、Ｃ３１に記載のプロセッサ。
［Ｃ３３］
前記第１のコーディングモードが第１のスピーチコーダを備え、前記第２のコーディングモードが第２のスピーチコーダを備え、前記第３のコーディングモードが音楽コーダを備える、Ｃ３１に記載のプロセッサ。
［Ｃ３４］
前記第１のスピーチコーダが符号励振線形予測（ＣＥＬＰ）型コーダであり、前記第２のスピーチコーダがＣＥＬＰ／変換ハイブリッドコーダであり、前記音楽コーダが変換コーダである、Ｃ３３に記載のプロセッサ。
［Ｃ３５］
前記プロセッサは、前記一部分を第２の分類器に与えるより前に、前記第２の分類器が有効にされるかどうかを判断することと、前記第２の分類器が有効にされない場合、前記第３のコーディングモードを用いて前記一部分を符号化することとを行うようにさらに構成された、Ｃ３１に記載のプロセッサ。
［Ｃ３６］
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類することは、前記一部分が音楽の特性を有するか有声スピーチの特性を有するかを分類するために、前記一部分の複数の特徴を１つまたは複数のしきい値と比較することを備える、Ｃ３１に記載のプロセッサ。
［Ｃ３７］
音楽の前記特性が音楽のブロードバンド擬似雑音特性を備え、有声スピーチの前記特性が、有声スピーチの音特性または有声スピーチの準定常特性のうちの少なくとも１つを備える、Ｃ３６に記載のプロセッサ。
［Ｃ３８］
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類することが、前記一部分の発声を第１のしきい値と比較すること、修正相関を第２のしきい値と比較すること、または長期ピッチ利得を第３のしきい値と比較することのうちの少なくとも１つを備える、Ｃ３１に記載のプロセッサ。
［Ｃ３９］
前記発声が、スピーチとの無相関に対応する０から、スピーチとの高相関に対応する１にわたり、前記修正相関が、ランダム雑音に対応する０から、高度に構造化されたサウンドに対応する１にわたり、前記長期ピッチ利得が、過去の励起と現在の予測残差との間の正規化相互相関であり、前記長期ピッチ利得は、過去の部分の誤差が現在の部分を表すのに十分でないことを示す０から、前記過去の部分の残余誤差を使用することが前記現在の部分を完全に表すことができることを示す１にわたる、Ｃ３８に記載のプロセッサ。
［Ｃ４０］
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類することは、前記一部分中に信号アクティビティがあるかどうかを判断することと、信号アクティビティがない場合、符号化すべき有用な信号がないと判断することと、前記一部分をスピーチとして符号化することとを備える、Ｃ３１に記載のプロセッサ。
［Ｃ４１］
オーディオ信号の一部分を受信し、前記オーディオ信号の前記一部分をスピーチとしてまたは音楽として分類し、前記一部分がスピーチとして分類された場合、第１のコーディングモードを使用して前記スピーチを符号化し、前記一部分が音楽として分類された場合、前記一部分を第２の分類器に与える、第１の分類器と、
前記一部分が前記第１の分類器によって音楽として分類された場合、前記一部分をスピーチとしてまたは音楽として分類し、前記一部分が前記第２の分類器においてスピーチとして分類された場合、第２のコーディングモードを使用して前記一部分を符号化し、前記一部分が前記第２の分類器において音楽として分類された場合、第３のコーディングモードを使用して前記一部分を符号化する、前記第２の分類器とを備えるシステム。
［Ｃ４２］
前記オーディオ信号の前記一部分がフレームである、Ｃ４１に記載のシステム。
［Ｃ４３］
前記第１のコーディングモードが第１のスピーチコーダを備え、前記第２のコーディングモードが第２のスピーチコーダを備え、前記第３のコーディングモードが音楽コーダを備える、Ｃ４１に記載のシステム。
［Ｃ４４］
前記第１のスピーチコーダが符号励振線形予測（ＣＥＬＰ）型コーダであり、前記第２のスピーチコーダがＣＥＬＰ／変換ハイブリッドコーダであり、前記音楽コーダが変換コーダである、Ｃ４３に記載のシステム。
［Ｃ４５］
前記一部分を第２の分類器に与えるより前に、前記第２の分類器が有効にされるかどうかを判断することと、前記第２の分類器が有効にされない場合、前記第３のコーディングモードを用いて前記一部分を符号化することとをさらに備える、Ｃ４１に記載のシステム。
［Ｃ４６］
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類することは、前記一部分が音楽の特性を有するか有声スピーチの特性を有するかを分類するために、前記一部分の複数の特徴を１つまたは複数のしきい値と比較することを備える、Ｃ４１に記載のシステム。
［Ｃ４７］
音楽の前記特性が音楽のブロードバンド擬似雑音特性を備え、有声スピーチの前記特性が、有声スピーチの音特性または有声スピーチの準定常特性のうちの少なくとも１つを備える、Ｃ４６に記載のシステム。
［Ｃ４８］
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類することが、前記一部分の発声を第１のしきい値と比較すること、修正相関を第２のしきい値と比較すること、または長期ピッチ利得を第３のしきい値と比較することのうちの少なくとも１つを備える、Ｃ４１に記載のシステム。
［Ｃ４９］
前記発声が、スピーチとの無相関に対応する０から、スピーチとの高相関に対応する１にわたり、前記修正相関が、ランダム雑音に対応する０から、高度に構造化されたサウンドに対応する１にわたり、前記長期ピッチ利得が、過去の励起と現在の予測残差との間の正規化相互相関であり、前記長期ピッチ利得は、過去の部分の誤差が現在の部分を表すのに十分でないことを示す０から、前記過去の部分の残余誤差を使用することが前記現在の部分を完全に表すことができることを示す１にわたる、Ｃ４８に記載のシステム。
［Ｃ５０］
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類することは、前記一部分中に信号アクティビティがあるかどうかを判断することと、信号アクティビティがない場合、符号化すべき有用な信号がないと判断することと、前記一部分をスピーチとして符号化することとを備える、Ｃ４１に記載のシステム。

Claims

デジタルオーディオデバイス内の第１の分類器においてオーディオ信号の一部分を受信することと、
前記デジタルオーディオデバイスが、前記第１の分類器において前記オーディオ信号の前記一部分をスピーチとしてまたは音楽として分類することと、
前記オーディオ信号の前記一部分を処理することと、
を備え、ここにおいて、前記オーディオ信号の前記一部分を処理することは、
前記一部分が前記第１の分類器によってスピーチとして分類された場合、前記デジタルオーディオデバイスが、第１のコーディングモードを使用して前記スピーチを符号化すること、または
前記一部分が前記第１の分類器によって音楽として分類された場合、
前記一部分を前記デジタルオーディオデバイス内の第２の分類器に与えることと、
前記デジタルオーディオデバイスが、前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類することと、
前記オーディオ信号の前記一部分を符号化することと、
を備え、ここにおいて、前記オーディオ信号の前記一部分を符号化することは、
前記一部分が前記第２の分類器においてスピーチとして分類された場合、前記デジタルオーディオデバイスが、第２のコーディングモードを使用して前記一部分を符号化すること、または
前記一部分が前記第２の分類器において音楽として分類された場合、前記デジタルオーディオデバイスが、第３のコーディングモードを使用して前記一部分を符号化すること
を備える、
方法。
前記オーディオ信号の前記一部分がフレームである、請求項１に記載の方法。
前記第１のコーディングモードが第１のスピーチコーダを備え、前記第２のコーディングモードが第２のスピーチコーダを備え、前記第３のコーディングモードが音楽コーダを備える、請求項１に記載の方法。
前記第１のスピーチコーダが符号励振線形予測（ＣＥＬＰ）型コーダであり、前記第２のスピーチコーダがＣＥＬＰ／変換ハイブリッドコーダであり、前記音楽コーダが変換コーダである、請求項３に記載の方法。
前記一部分を前記第２の分類器に与えるより前に、前記第２の分類器が有効にされるかどうかを判断することと、前記第２の分類器が有効にされない場合、前記第３のコーディングモードを用いて前記一部分を符号化することとをさらに備える、請求項１に記載の方法。
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類することは、前記一部分が音楽の特性を有するか有声スピーチの特性を有するかを分類するために、前記一部分の複数の特徴を１つまたは複数のしきい値と比較することを備える、請求項１に記載の方法。
音楽の前記特性が音楽のブロードバンド擬似雑音特性を備え、有声スピーチの前記特性が、有声スピーチの音特性または有声スピーチの準定常特性のうちの少なくとも１つを備える、請求項６に記載の方法。
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類することが、前記一部分の発声を第１のしきい値と比較すること、修正相関を第２のしきい値と比較すること、または長期ピッチ利得を第３のしきい値と比較することのうちの少なくとも１つを備える、請求項１に記載の方法。
前記発声が、スピーチとの無相関に対応する０から、スピーチとの高相関に対応する１にわたり、前記修正相関が、ランダム雑音に対応する０から、高度に構造化されたサウンドに対応する１にわたり、前記長期ピッチ利得が、過去の励起と現在の予測残差との間の正規化相互相関であり、前記長期ピッチ利得は、過去の部分の誤差が現在の部分を表すのに十分でないことを示す０から、前記過去の部分の残余誤差を使用することが前記現在の部分を完全に表すことができることを示す１にわたる、請求項８に記載の方法。
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類することは、前記一部分中に信号アクティビティがあるかどうかを判断することと、信号アクティビティがない場合、符号化すべき有用な信号がないと判断することと、前記一部分をスピーチとして符号化することとを備える、請求項１に記載の方法。
デジタルオーディオデバイス内の第１の分類器においてオーディオ信号の一部分を受信するための手段と、
前記デジタルオーディオデバイスが、前記第１の分類器において前記オーディオ信号の前記一部分をスピーチとしてまたは音楽として分類するための手段と、
前記一部分が前記第１の分類器によってスピーチとして分類された場合、前記デジタルオーディオデバイスが、第１のコーディングモードを使用して前記スピーチを符号化する、または、前記一部分が前記第１の分類器によって音楽として分類されたとき、前記デジタルオーディオデバイスが、第２の分類器において前記一部分をスピーチとしてまたは音楽として分類する、ための手段と、
前記一部分が前記第２の分類器においてスピーチとして分類されたとき、前記デジタルオーディオデバイスが、第２のコーディングモードを使用して前記一部分を符号化する、または、前記一部分が前記第２の分類器において音楽として分類されたとき、前記デジタルオーディオデバイスが、第３のコーディングモードを使用して前記一部分を符号化する、ための手段と
を備える装置。
前記オーディオ信号の前記一部分がフレームである、請求項１１に記載の装置。
前記第１のコーディングモードが第１のスピーチコーダを備え、前記第２のコーディングモードが第２のスピーチコーダを備え、前記第３のコーディングモードが音楽コーダを備える、請求項１１に記載の装置。
前記第１のスピーチコーダが符号励振線形予測（ＣＥＬＰ）型コーダであり、前記第２のスピーチコーダがＣＥＬＰ／変換ハイブリッドコーダであり、前記音楽コーダが変換コーダである、請求項１３に記載の装置。
前記一部分を前記第２の分類器に与えるより前に、前記第２の分類器が有効にされるかどうかを判断することと、前記第２の分類器が有効にされない場合、前記第３のコーディングモードを用いて前記一部分を符号化することとを行うための手段をさらに備える、請求項１１に記載の装置。
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類するための前記手段は、前記一部分が音楽の特性を有するか有声スピーチの特性を有するかを分類するために、前記一部分の複数の特徴を１つまたは複数のしきい値と比較するための手段を備える、請求項１１に記載の装置。
音楽の前記特性が音楽のブロードバンド擬似雑音特性を備え、有声スピーチの前記特性が、有声スピーチの音特性または有声スピーチの準定常特性のうちの少なくとも１つを備える、請求項１６に記載の装置。
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類するための前記手段が、前記一部分の発声を第１のしきい値と比較するための手段と、修正相関を第２のしきい値と比較するための手段と、長期ピッチ利得を第３のしきい値と比較するための手段とのうちの少なくとも１つを備える、請求項１１に記載の装置。
前記発声が、スピーチとの無相関に対応する０から、スピーチとの高相関に対応する１にわたり、前記修正相関が、ランダム雑音に対応する０から、高度に構造化されたサウンドに対応する１にわたり、前記長期ピッチ利得が、過去の励起と現在の予測残差との間の正規化相互相関であり、前記長期ピッチ利得は、過去の部分の誤差が現在の部分を表すのに十分でないことを示す０から、前記過去の部分の残余誤差を使用することが前記現在の部分を完全に表すことができることを示す１にわたる、請求項１８に記載の装置。
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類するための前記手段は、前記一部分中に信号アクティビティがあるかどうかを判断することと、信号アクティビティがない場合、符号化すべき有用な信号がないと判断することと、前記一部分をスピーチとして符号化することとを行うための手段を備える、請求項１１に記載の装置。
デジタルオーディオデバイス内の第１の分類器においてオーディオ信号の一部分を受信することと、
前記デジタルオーディオデバイスが、前記第１の分類器において前記オーディオ信号の前記一部分をスピーチとしてまたは音として分類することと、
前記オーディオ信号の前記一部分を処理することと、
をプロセッサに行わせるためのコンピュータ可読命令を備え、ここにおいて、前記オーディオ信号の前記一部分を処理することは、
前記一部分が前記第１の分類器によってスピーチとして分類された場合、前記デジタルオーディオデバイスが、第１のコーディングモードを使用して前記スピーチを符号化すること、または、
前記一部分が前記第１の分類器によって音楽として分類された場合、
前記一部分を前記デジタルオーディオデバイス内の第２の分類器に与えることと、
前記デジタルオーディオデバイスが、前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類することと、
前記オーディオ信号の前記一部分を符号化することと、
を備え、ここにおいて、前記オーディオ信号の前記一部分を符号化することは、
前記一部分が前記第２の分類器においてスピーチとして分類された場合、前記デジタルオーディオデバイスが、第２のコーディングモードを使用して前記一部分を符号化すること、または、
前記一部分が前記第２の分類器において音楽として分類された場合、前記デジタルオーディオデバイスが、第３のコーディングモードを使用して前記一部分を符号化すること
を備える、
非一時的コンピュータ可読媒体。
前記オーディオ信号の前記一部分がフレームである、請求項２１に記載のコンピュータ可読媒体。
前記第１のコーディングモードが第１のスピーチコーダを備え、前記第２のコーディングモードが第２のスピーチコーダを備え、前記第３のコーディングモードが音楽コーダを備える、請求項２１に記載のコンピュータ可読媒体。
前記第１のスピーチコーダが符号励振線形予測（ＣＥＬＰ）型コーダであり、前記第２のスピーチコーダがＣＥＬＰ／変換ハイブリッドコーダであり、前記音楽コーダが変換コーダである、請求項２３に記載のコンピュータ可読媒体。
前記一部分を前記第２の分類器に与えるより前に、前記第２の分類器が有効にされるかどうかを判断することと、前記第２の分類器が有効にされない場合、前記第３のコーディングモードを用いて前記一部分を符号化することとを前記プロセッサに行わせる命令をさらに備える、請求項２１に記載のコンピュータ可読媒体。
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類することは、前記一部分が音楽の特性を有するか有声スピーチの特性を有するかを分類するために、前記一部分の複数の特徴を１つまたは複数のしきい値と比較することを備える、請求項２１に記載のコンピュータ可読媒体。
音楽の前記特性が音楽のブロードバンド擬似雑音特性を備え、有声スピーチの前記特性が、有声スピーチの音特性または有声スピーチの準定常特性のうちの少なくとも１つを備える、請求項２６に記載のコンピュータ可読媒体。
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類することが、前記一部分の発声を第１のしきい値と比較すること、修正相関を第２のしきい値と比較すること、または長期ピッチ利得を第３のしきい値と比較することのうちの少なくとも１つを備える、請求項２１に記載のコンピュータ可読媒体。
前記発声が、スピーチとの無相関に対応する０から、スピーチとの高相関に対応する１にわたり、前記修正相関が、ランダム雑音に対応する０から、高度に構造化されたサウンドに対応する１にわたり、前記長期ピッチ利得が、過去の励起と現在の予測残差との間の正規化相互相関であり、前記長期ピッチ利得は、過去の部分の誤差が現在の部分を表すのに十分でないことを示す０から、前記過去の部分の残余誤差を使用することが前記現在の部分を完全に表すことができることを示す１にわたる、請求項２８に記載のコンピュータ可読媒体。
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類することは、前記一部分中に信号アクティビティがあるかどうかを判断することと、信号アクティビティがない場合、符号化すべき有用な信号がないと判断することと、前記一部分をスピーチとして符号化することとを備える、請求項２１に記載のコンピュータ可読媒体。
装置であって、
プロセッサと、
前記プロセッサと電子通信するメモリと、
前記メモリ内に記憶された命令と
を備え、前記命令は、
デジタルオーディオデバイス内の第１の分類器においてオーディオ信号の一部分を受信することと、
前記デジタルオーディオデバイスが、前記第１の分類器において前記オーディオ信号の前記一部分をスピーチとしてまたは音楽として分類することと、
前記オーディオ信号の前記一部分を処理することと、
を前記プロセッサによって実行可能であり、ここにおいて、前記オーディオ信号の前記一部分を処理することは、
前記一部分が前記第１の分類器によってスピーチとして分類された場合、前記デジタルオーディオデバイスが、第１のコーディングモードを使用して前記スピーチを符号化すること、または、
前記一部分が前記第１の分類器によって音楽として分類された場合、
前記一部分を前記デジタルオーディオデバイス内の第２の分類器に与えることと、
前記デジタルオーディオデバイスが、前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類することと、
前記オーディオ信号の前記一部分を符号化することと、
を備え、ここにおいて、前記オーディオ信号の前記一部分を符号化することは、
前記一部分が前記第２の分類器においてスピーチとして分類された場合、前記デジタルオーディオデバイスが第２のコーディングモードを使用して前記一部分を符号化すること、または、
前記一部分が前記第２の分類器において音楽として分類された場合、前記デジタルオーディオデバイスが第３のコーディングモードを使用して前記一部分を符号化すること
を備える、
装置。
前記オーディオ信号の前記一部分がフレームである、請求項３１に記載のプロセッサ。
前記第１のコーディングモードが第１のスピーチコーダを備え、前記第２のコーディングモードが第２のスピーチコーダを備え、前記第３のコーディングモードが音楽コーダを備える、請求項３１に記載のプロセッサ。
前記第１のスピーチコーダが符号励振線形予測（ＣＥＬＰ）型コーダであり、前記第２のスピーチコーダがＣＥＬＰ／変換ハイブリッドコーダであり、前記音楽コーダが変換コーダである、請求項３３に記載のプロセッサ。
前記命令はまた、前記一部分を前記第２の分類器に与えるより前に、前記第２の分類器が有効にされるかどうかを判断することと、前記第２の分類器が有効にされない場合、前記第３のコーディングモードを用いて前記一部分を符号化することとを実行可能である、請求項３１に記載のプロセッサ。
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類することを実行可能である前記命令は、前記一部分が音楽の特性を有するか有声スピーチの特性を有するかを分類するために、前記一部分の複数の特徴を１つまたは複数のしきい値と比較することを実行可能である命令を備える、請求項３１に記載のプロセッサ。
音楽の前記特性が音楽のブロードバンド擬似雑音特性を備え、有声スピーチの前記特性が、有声スピーチの音特性または有声スピーチの準定常特性のうちの少なくとも１つを備える、請求項３６に記載のプロセッサ。
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類することを実行可能である前記命令は、前記一部分の発声を第１のしきい値と比較することを実行可能である命令と、修正相関を第２のしきい値と比較することを実行可能である命令と、または長期ピッチ利得を第３のしきい値と比較することを実行可能である命令と、のうちの少なくとも１つを備える、請求項３１に記載のプロセッサ。
前記発声が、スピーチとの無相関に対応する０から、スピーチとの高相関に対応する１にわたり、前記修正相関が、ランダム雑音に対応する０から、高度に構造化されたサウンドに対応する１にわたり、前記長期ピッチ利得が、過去の励起と現在の予測残差との間の正規化相互相関であり、前記長期ピッチ利得は、過去の部分の誤差が現在の部分を表すのに十分でないことを示す０から、前記過去の部分の残余誤差を使用することが前記現在の部分を完全に表すことができることを示す１にわたる、請求項３８に記載のプロセッサ。
前記第２の分類器において前記一部分をスピーチとしてまたは音楽として分類することを実行可能である前記命令は、前記一部分中に信号アクティビティがあるかどうかを判断することと、信号アクティビティがない場合、符号化すべき有用な信号がないと判断することと、前記一部分をスピーチとして符号化することとを実行可能である命令を備える、請求項３１に記載のプロセッサ。