JP2015507222A5 - - Google Patents

Download PDF

Info

Publication number
JP2015507222A5
JP2015507222A5 JP2014552206A JP2014552206A JP2015507222A5 JP 2015507222 A5 JP2015507222 A5 JP 2015507222A5 JP 2014552206 A JP2014552206 A JP 2014552206A JP 2014552206 A JP2014552206 A JP 2014552206A JP 2015507222 A5 JP2015507222 A5 JP 2015507222A5
Authority
JP
Japan
Prior art keywords
speech
classifier
music
coder
coding mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014552206A
Other languages
English (en)
Other versions
JP5964455B2 (ja
JP2015507222A (ja
Filing date
Publication date
Priority claimed from US13/722,669 external-priority patent/US9111531B2/en
Application filed filed Critical
Publication of JP2015507222A publication Critical patent/JP2015507222A/ja
Publication of JP2015507222A5 publication Critical patent/JP2015507222A5/ja
Application granted granted Critical
Publication of JP5964455B2 publication Critical patent/JP5964455B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

[0074] 主題について構造的機能および/または方法論的行為に特有の言語で説明したが、添付の特許請求の範囲において定義される主題は、必ずしも上記で説明した特定の特徴または行為に限定されるとは限らないことを理解されたい。むしろ、上記で説明した特定の特徴および行為は、特許請求の範囲を実施することの例示的な形態として開示される。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[C1]
第1の分類器においてオーディオ信号の一部分を受信することと、
前記第1の分類器において前記オーディオ信号の前記一部分をスピーチとしてまたは音楽として分類することと、
前記一部分が前記第1の分類器によってスピーチとして分類された場合、第1のコーディングモードを使用して前記スピーチを符号化することと、
前記一部分が前記第1の分類器によって音楽として分類された場合、
前記一部分を第2の分類器に与えることと、
前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類することと、
前記一部分が前記第2の分類器においてスピーチとして分類された場合、第2のコーディングモードを使用して前記一部分を符号化することと、
前記一部分が前記第2の分類器において音楽として分類された場合、第3のコーディングモードを使用して前記一部分を符号化することとを備える方法。
[C2]
前記オーディオ信号の前記一部分がフレームである、C1に記載の方法。
[C3]
前記第1のコーディングモードが第1のスピーチコーダを備え、前記第2のコーディングモードが第2のスピーチコーダを備え、前記第3のコーディングモードが音楽コーダを備える、C1に記載の方法。
[C4]
前記第1のスピーチコーダが符号励振線形予測(CELP)型コーダであり、前記第2のスピーチコーダがCELP/変換ハイブリッドコーダであり、前記音楽コーダが変換コーダである、C3に記載の方法。
[C5]
前記一部分を第2の分類器に与えるより前に、前記第2の分類器が有効にされるかどうかを判断することと、前記第2の分類器が有効にされない場合、前記第3のコーディングモードを用いて前記一部分を符号化することとをさらに備える、C1に記載の方法。
[C6]
前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類することは、前記一部分が音楽の特性を有するか有声スピーチの特性を有するかを分類するために、前記一部分の複数の特徴を1つまたは複数のしきい値と比較することを備える、C1に記載の方法。
[C7]
音楽の前記特性が音楽のブロードバンド擬似雑音特性を備え、有声スピーチの前記特性が、有声スピーチの音特性または有声スピーチの準定常特性のうちの少なくとも1つを備える、C6に記載の方法。
[C8]
前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類することが、前記一部分の発声を第1のしきい値と比較すること、修正相関を第2のしきい値と比較すること、または長期ピッチ利得を第3のしきい値と比較することのうちの少なくとも1つを備える、C1に記載の方法。
[C9]
前記発声が、スピーチとの無相関に対応する0から、スピーチとの高相関に対応する1にわたり、前記修正相関が、ランダム雑音に対応する0から、高度に構造化されたサウンドに対応する1にわたり、前記長期ピッチ利得が、過去の励起と現在の予測残差との間の正規化相互相関であり、前記長期ピッチ利得は、過去の部分の誤差が現在の部分を表すのに十分でないことを示す0から、前記過去の部分の残余誤差を使用することが前記現在の部分を完全に表すことができることを示す1にわたる、C8に記載の方法。
[C10]
前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類することは、前記一部分中に信号アクティビティがあるかどうかを判断することと、信号アクティビティがない場合、符号化すべき有用な信号がないと判断することと、前記一部分をスピーチとして符号化することとを備える、C1に記載の方法。
[C11]
第1の分類器においてオーディオ信号の一部分を受信するための手段と、
前記第1の分類器において前記オーディオ信号の前記一部分をスピーチとしてまたは音楽として分類するための手段と、
前記一部分が前記第1の分類器によってスピーチとして分類された場合、第1のコーディングモードを使用して前記スピーチを符号化するための手段と、
前記一部分が前記第1の分類器によって音楽として分類されたとき、前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類するための手段と、
前記一部分が前記第2の分類器においてスピーチとして分類されたとき、第2のコーディングモードを使用して前記一部分を符号化するための手段と、
前記一部分が前記第2の分類器において音楽として分類されたとき、第3のコーディングモードを使用して前記一部分を符号化するための手段とを備える装置。
[C12]
前記オーディオ信号の前記一部分がフレームである、C11に記載の装置。
[C13]
前記第1のコーディングモードが第1のスピーチコーダを備え、前記第2のコーディングモードが第2のスピーチコーダを備え、前記第3のコーディングモードが音楽コーダを備える、C11に記載の装置。
[C14]
前記第1のスピーチコーダが符号励振線形予測(CELP)型コーダであり、前記第2のスピーチコーダがCELP/変換ハイブリッドコーダであり、前記音楽コーダが変換コーダである、C13に記載の装置。
[C15]
前記一部分を第2の分類器に与えるより前に、前記第2の分類器が有効にされるかどうかを判断することと、前記第2の分類器が有効にされない場合、前記第3のコーディングモードを用いて前記一部分を符号化することとを行うための手段をさらに備える、C11に記載の装置。
[C16]
前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類するための前記手段は、前記一部分が音楽の特性を有するか有声スピーチの特性を有するかを分類するために、前記一部分の複数の特徴を1つまたは複数のしきい値と比較するための手段を備える、C11に記載の装置。
[C17]
音楽の前記特性が音楽のブロードバンド擬似雑音特性を備え、有声スピーチの前記特性が、有声スピーチの音特性または有声スピーチの準定常特性のうちの少なくとも1つを備える、C16に記載の装置。
[C18]
前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類するための前記手段が、前記一部分の発声を第1のしきい値と比較するための手段と、修正相関を第2のしきい値と比較するための手段と、長期ピッチ利得を第3のしきい値と比較するための手段とのうちの少なくとも1つを備える、C11に記載の装置。
[C19]
前記発声が、スピーチとの無相関に対応する0から、スピーチとの高相関に対応する1にわたり、前記修正相関が、ランダム雑音に対応する0から、高度に構造化されたサウンドに対応する1にわたり、前記長期ピッチ利得が、過去の励起と現在の予測残差との間の正規化相互相関であり、前記長期ピッチ利得は、過去の部分の誤差が現在の部分を表すのに十分でないことを示す0から、前記過去の部分の残余誤差を使用することが前記現在の部分を完全に表すことができることを示す1にわたる、C18に記載の装置。
[C20]
前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類するための前記手段は、前記一部分中に信号アクティビティがあるかどうかを判断することと、信号アクティビティがない場合、符号化すべき有用な信号がないと判断することと、前記一部分をスピーチとして符号化することとを行うための手段を備える、C11に記載の装置。
[C21]
第1の分類器においてオーディオ信号の一部分を受信することと、
前記第1の分類器において前記オーディオ信号の前記一部分をスピーチとしてまたは音楽として分類することと、
前記一部分が前記第1の分類器によってスピーチとして分類された場合、第1のコーディングモードを使用して前記スピーチを符号化することと、
前記一部分が前記第1の分類器によって音楽として分類された場合、
前記一部分を第2の分類器に与えることと、
前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類することと、
前記一部分が前記第2の分類器においてスピーチとして分類された場合、第2のコーディングモードを使用して前記一部分を符号化することと、
前記一部分が前記第2の分類器において音楽として分類された場合、第3のコーディングモードを使用して前記一部分を符号化することとをプロセッサに行わせるためのコンピュータ可読命令を備える非一時的コンピュータ可読媒体。
[C22]
前記オーディオ信号の前記一部分がフレームである、C21に記載のコンピュータ可読媒体。
[C23]
前記第1のコーディングモードが第1のスピーチコーダを備え、前記第2のコーディングモードが第2のスピーチコーダを備え、前記第3のコーディングモードが音楽コーダを備える、C21に記載のコンピュータ可読媒体。
[C24]
前記第1のスピーチコーダが符号励振線形予測(CELP)型コーダであり、前記第2のスピーチコーダがCELP/変換ハイブリッドコーダであり、前記音楽コーダが変換コーダである、C23に記載のコンピュータ可読媒体。
[C25]
前記一部分を第2の分類器に与えるより前に、前記第2の分類器が有効にされるかどうかを判断することと、前記第2の分類器が有効にされない場合、前記第3のコーディングモードを用いて前記一部分を符号化することとを前記プロセッサに行わせる命令をさらに備える、C21に記載のコンピュータ可読媒体。
[C26]
前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類することは、前記一部分が音楽の特性を有するか有声スピーチの特性を有するかを分類するために、前記一部分の複数の特徴を1つまたは複数のしきい値と比較することを備える、C21に記載のコンピュータ可読媒体。
[C27]
音楽の前記特性が音楽のブロードバンド擬似雑音特性を備え、有声スピーチの前記特性が、有声スピーチの音特性または有声スピーチの準定常特性のうちの少なくとも1つを備える、C26に記載のコンピュータ可読媒体。
[C28]
前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類することが、前記一部分の発声を第1のしきい値と比較すること、修正相関を第2のしきい値と比較すること、または長期ピッチ利得を第3のしきい値と比較することのうちの少なくとも1つを備える、C21に記載のコンピュータ可読媒体。
[C29]
前記発声が、スピーチとの無相関に対応する0から、スピーチとの高相関に対応する1にわたり、前記修正相関が、ランダム雑音に対応する0から、高度に構造化されたサウンドに対応する1にわたり、前記長期ピッチ利得が、過去の励起と現在の予測残差との間の正規化相互相関であり、前記長期ピッチ利得は、過去の部分の誤差が現在の部分を表すのに十分でないことを示す0から、前記過去の部分の残余誤差を使用することが前記現在の部分を完全に表すことができることを示す1にわたる、C28に記載のコンピュータ可読媒体。
[C30]
前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類することは、前記一部分中に信号アクティビティがあるかどうかを判断することと、信号アクティビティがない場合、符号化すべき有用な信号がないと判断することと、前記一部分をスピーチとして符号化することとを備える、C21に記載のコンピュータ可読媒体。
[C31]
第1の分類器においてオーディオ信号の一部分を受信することと、
前記第1の分類器において前記オーディオ信号の前記一部分をスピーチとしてまたは音楽として分類することと、
前記一部分が前記第1の分類器によってスピーチとして分類された場合、第1のコーディングモードを使用して前記スピーチを符号化することと、
前記一部分が前記第1の分類器によって音楽として分類された場合、
前記一部分を第2の分類器に与えることと、
前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類することと、
前記一部分が前記第2の分類器においてスピーチとして分類された場合、第2のコーディングモードを使用して前記一部分を符号化することと、
前記一部分が前記第2の分類器において音楽として分類された場合、第3のコーディングモードを使用して前記一部分を符号化することとを行うように構成されたプロセッサ。
[C32]
前記オーディオ信号の前記一部分がフレームである、C31に記載のプロセッサ。
[C33]
前記第1のコーディングモードが第1のスピーチコーダを備え、前記第2のコーディングモードが第2のスピーチコーダを備え、前記第3のコーディングモードが音楽コーダを備える、C31に記載のプロセッサ。
[C34]
前記第1のスピーチコーダが符号励振線形予測(CELP)型コーダであり、前記第2のスピーチコーダがCELP/変換ハイブリッドコーダであり、前記音楽コーダが変換コーダである、C33に記載のプロセッサ。
[C35]
前記プロセッサは、前記一部分を第2の分類器に与えるより前に、前記第2の分類器が有効にされるかどうかを判断することと、前記第2の分類器が有効にされない場合、前記第3のコーディングモードを用いて前記一部分を符号化することとを行うようにさらに構成された、C31に記載のプロセッサ。
[C36]
前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類することは、前記一部分が音楽の特性を有するか有声スピーチの特性を有するかを分類するために、前記一部分の複数の特徴を1つまたは複数のしきい値と比較することを備える、C31に記載のプロセッサ。
[C37]
音楽の前記特性が音楽のブロードバンド擬似雑音特性を備え、有声スピーチの前記特性が、有声スピーチの音特性または有声スピーチの準定常特性のうちの少なくとも1つを備える、C36に記載のプロセッサ。
[C38]
前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類することが、前記一部分の発声を第1のしきい値と比較すること、修正相関を第2のしきい値と比較すること、または長期ピッチ利得を第3のしきい値と比較することのうちの少なくとも1つを備える、C31に記載のプロセッサ。
[C39]
前記発声が、スピーチとの無相関に対応する0から、スピーチとの高相関に対応する1にわたり、前記修正相関が、ランダム雑音に対応する0から、高度に構造化されたサウンドに対応する1にわたり、前記長期ピッチ利得が、過去の励起と現在の予測残差との間の正規化相互相関であり、前記長期ピッチ利得は、過去の部分の誤差が現在の部分を表すのに十分でないことを示す0から、前記過去の部分の残余誤差を使用することが前記現在の部分を完全に表すことができることを示す1にわたる、C38に記載のプロセッサ。
[C40]
前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類することは、前記一部分中に信号アクティビティがあるかどうかを判断することと、信号アクティビティがない場合、符号化すべき有用な信号がないと判断することと、前記一部分をスピーチとして符号化することとを備える、C31に記載のプロセッサ。
[C41]
オーディオ信号の一部分を受信し、前記オーディオ信号の前記一部分をスピーチとしてまたは音楽として分類し、前記一部分がスピーチとして分類された場合、第1のコーディングモードを使用して前記スピーチを符号化し、前記一部分が音楽として分類された場合、前記一部分を第2の分類器に与える、第1の分類器と、
前記一部分が前記第1の分類器によって音楽として分類された場合、前記一部分をスピーチとしてまたは音楽として分類し、前記一部分が前記第2の分類器においてスピーチとして分類された場合、第2のコーディングモードを使用して前記一部分を符号化し、前記一部分が前記第2の分類器において音楽として分類された場合、第3のコーディングモードを使用して前記一部分を符号化する、前記第2の分類器とを備えるシステム。
[C42]
前記オーディオ信号の前記一部分がフレームである、C41に記載のシステム。
[C43]
前記第1のコーディングモードが第1のスピーチコーダを備え、前記第2のコーディングモードが第2のスピーチコーダを備え、前記第3のコーディングモードが音楽コーダを備える、C41に記載のシステム。
[C44]
前記第1のスピーチコーダが符号励振線形予測(CELP)型コーダであり、前記第2のスピーチコーダがCELP/変換ハイブリッドコーダであり、前記音楽コーダが変換コーダである、C43に記載のシステム。
[C45]
前記一部分を第2の分類器に与えるより前に、前記第2の分類器が有効にされるかどうかを判断することと、前記第2の分類器が有効にされない場合、前記第3のコーディングモードを用いて前記一部分を符号化することとをさらに備える、C41に記載のシステム。
[C46]
前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類することは、前記一部分が音楽の特性を有するか有声スピーチの特性を有するかを分類するために、前記一部分の複数の特徴を1つまたは複数のしきい値と比較することを備える、C41に記載のシステム。
[C47]
音楽の前記特性が音楽のブロードバンド擬似雑音特性を備え、有声スピーチの前記特性が、有声スピーチの音特性または有声スピーチの準定常特性のうちの少なくとも1つを備える、C46に記載のシステム。
[C48]
前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類することが、前記一部分の発声を第1のしきい値と比較すること、修正相関を第2のしきい値と比較すること、または長期ピッチ利得を第3のしきい値と比較することのうちの少なくとも1つを備える、C41に記載のシステム。
[C49]
前記発声が、スピーチとの無相関に対応する0から、スピーチとの高相関に対応する1にわたり、前記修正相関が、ランダム雑音に対応する0から、高度に構造化されたサウンドに対応する1にわたり、前記長期ピッチ利得が、過去の励起と現在の予測残差との間の正規化相互相関であり、前記長期ピッチ利得は、過去の部分の誤差が現在の部分を表すのに十分でないことを示す0から、前記過去の部分の残余誤差を使用することが前記現在の部分を完全に表すことができることを示す1にわたる、C48に記載のシステム。
[C50]
前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類することは、前記一部分中に信号アクティビティがあるかどうかを判断することと、信号アクティビティがない場合、符号化すべき有用な信号がないと判断することと、前記一部分をスピーチとして符号化することとを備える、C41に記載のシステム。

Claims (40)

  1. デジタルオーディオデバイス内の第1の分類器においてオーディオ信号の一部分を受信することと、
    前記デジタルオーディオデバイスが、前記第1の分類器において前記オーディオ信号の前記一部分をスピーチとしてまたは音楽として分類することと、
    前記オーディオ信号の前記一部分を処理することと、
    を備え、ここにおいて、前記オーディオ信号の前記一部分を処理することは、
    前記一部分が前記第1の分類器によってスピーチとして分類された場合、前記デジタルオーディオデバイスが、第1のコーディングモードを使用して前記スピーチを符号化すること、または
    前記一部分が前記第1の分類器によって音楽として分類された場合、
    前記一部分を前記デジタルオーディオデバイス内の第2の分類器に与えることと、
    前記デジタルオーディオデバイスが、前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類することと、
    前記オーディオ信号の前記一部分を符号化することと、
    を備え、ここにおいて、前記オーディオ信号の前記一部分を符号化することは、
    前記一部分が前記第2の分類器においてスピーチとして分類された場合、前記デジタルオーディオデバイスが、第2のコーディングモードを使用して前記一部分を符号化すること、または
    前記一部分が前記第2の分類器において音楽として分類された場合、前記デジタルオーディオデバイスが、第3のコーディングモードを使用して前記一部分を符号化するこ
    を備える
    方法。
  2. 前記オーディオ信号の前記一部分がフレームである、請求項1に記載の方法。
  3. 前記第1のコーディングモードが第1のスピーチコーダを備え、前記第2のコーディングモードが第2のスピーチコーダを備え、前記第3のコーディングモードが音楽コーダを備える、請求項1に記載の方法。
  4. 前記第1のスピーチコーダが符号励振線形予測(CELP)型コーダであり、前記第2のスピーチコーダがCELP/変換ハイブリッドコーダであり、前記音楽コーダが変換コーダである、請求項3に記載の方法。
  5. 前記一部分を前記第2の分類器に与えるより前に、前記第2の分類器が有効にされるかどうかを判断することと、前記第2の分類器が有効にされない場合、前記第3のコーディングモードを用いて前記一部分を符号化することとをさらに備える、請求項1に記載の方法。
  6. 前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類することは、前記一部分が音楽の特性を有するか有声スピーチの特性を有するかを分類するために、前記一部分の複数の特徴を1つまたは複数のしきい値と比較することを備える、請求項1に記載の方法。
  7. 音楽の前記特性が音楽のブロードバンド擬似雑音特性を備え、有声スピーチの前記特性が、有声スピーチの音特性または有声スピーチの準定常特性のうちの少なくとも1つを備える、請求項6に記載の方法。
  8. 前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類することが、前記一部分の発声を第1のしきい値と比較すること、修正相関を第2のしきい値と比較すること、または長期ピッチ利得を第3のしきい値と比較することのうちの少なくとも1つを備える、請求項1に記載の方法。
  9. 前記発声が、スピーチとの無相関に対応する0から、スピーチとの高相関に対応する1にわたり、前記修正相関が、ランダム雑音に対応する0から、高度に構造化されたサウンドに対応する1にわたり、前記長期ピッチ利得が、過去の励起と現在の予測残差との間の正規化相互相関であり、前記長期ピッチ利得は、過去の部分の誤差が現在の部分を表すのに十分でないことを示す0から、前記過去の部分の残余誤差を使用することが前記現在の部分を完全に表すことができることを示す1にわたる、請求項8に記載の方法。
  10. 前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類することは、前記一部分中に信号アクティビティがあるかどうかを判断することと、信号アクティビティがない場合、符号化すべき有用な信号がないと判断することと、前記一部分をスピーチとして符号化することとを備える、請求項1に記載の方法。
  11. デジタルオーディオデバイス内の第1の分類器においてオーディオ信号の一部分を受信するための手段と、
    前記デジタルオーディオデバイスが、前記第1の分類器において前記オーディオ信号の前記一部分をスピーチとしてまたは音楽として分類するための手段と、
    前記一部分が前記第1の分類器によってスピーチとして分類された場合、前記デジタルオーディオデバイスが、第1のコーディングモードを使用して前記スピーチを符号化する、または、前記一部分が前記第1の分類器によって音楽として分類されたとき、前記デジタルオーディオデバイスが、第2の分類器において前記一部分をスピーチとしてまたは音楽として分類するための手段と、
    前記一部分が前記第2の分類器においてスピーチとして分類されたとき、前記デジタルオーディオデバイスが、第2のコーディングモードを使用して前記一部分を符号化する、または、前記一部分が前記第2の分類器において音楽として分類されたとき、前記デジタルオーディオデバイスが、第3のコーディングモードを使用して前記一部分を符号化するための手段と
    を備える装置。
  12. 前記オーディオ信号の前記一部分がフレームである、請求項11に記載の装置。
  13. 前記第1のコーディングモードが第1のスピーチコーダを備え、前記第2のコーディングモードが第2のスピーチコーダを備え、前記第3のコーディングモードが音楽コーダを備える、請求項11に記載の装置。
  14. 前記第1のスピーチコーダが符号励振線形予測(CELP)型コーダであり、前記第2のスピーチコーダがCELP/変換ハイブリッドコーダであり、前記音楽コーダが変換コーダである、請求項13に記載の装置。
  15. 前記一部分を前記第2の分類器に与えるより前に、前記第2の分類器が有効にされるかどうかを判断することと、前記第2の分類器が有効にされない場合、前記第3のコーディングモードを用いて前記一部分を符号化することとを行うための手段をさらに備える、請求項11に記載の装置。
  16. 前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類するための前記手段は、前記一部分が音楽の特性を有するか有声スピーチの特性を有するかを分類するために、前記一部分の複数の特徴を1つまたは複数のしきい値と比較するための手段を備える、請求項11に記載の装置。
  17. 音楽の前記特性が音楽のブロードバンド擬似雑音特性を備え、有声スピーチの前記特性が、有声スピーチの音特性または有声スピーチの準定常特性のうちの少なくとも1つを備える、請求項16に記載の装置。
  18. 前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類するための前記手段が、前記一部分の発声を第1のしきい値と比較するための手段と、修正相関を第2のしきい値と比較するための手段と、長期ピッチ利得を第3のしきい値と比較するための手段とのうちの少なくとも1つを備える、請求項11に記載の装置。
  19. 前記発声が、スピーチとの無相関に対応する0から、スピーチとの高相関に対応する1にわたり、前記修正相関が、ランダム雑音に対応する0から、高度に構造化されたサウンドに対応する1にわたり、前記長期ピッチ利得が、過去の励起と現在の予測残差との間の正規化相互相関であり、前記長期ピッチ利得は、過去の部分の誤差が現在の部分を表すのに十分でないことを示す0から、前記過去の部分の残余誤差を使用することが前記現在の部分を完全に表すことができることを示す1にわたる、請求項18に記載の装置。
  20. 前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類するための前記手段は、前記一部分中に信号アクティビティがあるかどうかを判断することと、信号アクティビティがない場合、符号化すべき有用な信号がないと判断することと、前記一部分をスピーチとして符号化することとを行うための手段を備える、請求項11に記載の装置。
  21. デジタルオーディオデバイス内の第1の分類器においてオーディオ信号の一部分を受信することと、
    前記デジタルオーディオデバイスが、前記第1の分類器において前記オーディオ信号の前記一部分をスピーチとしてまたは音として分類することと、
    前記オーディオ信号の前記一部分を処理することと、
    をプロセッサに行わせるためのコンピュータ可読命令を備え、ここにおいて、前記オーディオ信号の前記一部分を処理することは、
    前記一部分が前記第1の分類器によってスピーチとして分類された場合、前記デジタルオーディオデバイスが、第1のコーディングモードを使用して前記スピーチを符号化すること、または、
    前記一部分が前記第1の分類器によって音楽として分類された場合、
    前記一部分を前記デジタルオーディオデバイス内の第2の分類器に与えることと、
    前記デジタルオーディオデバイスが、前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類することと、
    前記オーディオ信号の前記一部分を符号化することと、
    を備え、ここにおいて、前記オーディオ信号の前記一部分を符号化することは、
    前記一部分が前記第2の分類器においてスピーチとして分類された場合、前記デジタルオーディオデバイスが、第2のコーディングモードを使用して前記一部分を符号化すること、または、
    前記一部分が前記第2の分類器において音楽として分類された場合、前記デジタルオーディオデバイスが、第3のコーディングモードを使用して前記一部分を符号化するこ
    を備える
    非一時的コンピュータ可読媒体。
  22. 前記オーディオ信号の前記一部分がフレームである、請求項21に記載のコンピュータ可読媒体。
  23. 前記第1のコーディングモードが第1のスピーチコーダを備え、前記第2のコーディングモードが第2のスピーチコーダを備え、前記第3のコーディングモードが音楽コーダを備える、請求項21に記載のコンピュータ可読媒体。
  24. 前記第1のスピーチコーダが符号励振線形予測(CELP)型コーダであり、前記第2のスピーチコーダがCELP/変換ハイブリッドコーダであり、前記音楽コーダが変換コーダである、請求項23に記載のコンピュータ可読媒体。
  25. 前記一部分を前記第2の分類器に与えるより前に、前記第2の分類器が有効にされるかどうかを判断することと、前記第2の分類器が有効にされない場合、前記第3のコーディングモードを用いて前記一部分を符号化することとを前記プロセッサに行わせる命令をさらに備える、請求項21に記載のコンピュータ可読媒体。
  26. 前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類することは、前記一部分が音楽の特性を有するか有声スピーチの特性を有するかを分類するために、前記一部分の複数の特徴を1つまたは複数のしきい値と比較することを備える、請求項21に記載のコンピュータ可読媒体。
  27. 音楽の前記特性が音楽のブロードバンド擬似雑音特性を備え、有声スピーチの前記特性が、有声スピーチの音特性または有声スピーチの準定常特性のうちの少なくとも1つを備える、請求項26に記載のコンピュータ可読媒体。
  28. 前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類することが、前記一部分の発声を第1のしきい値と比較すること、修正相関を第2のしきい値と比較すること、または長期ピッチ利得を第3のしきい値と比較することのうちの少なくとも1つを備える、請求項21に記載のコンピュータ可読媒体。
  29. 前記発声が、スピーチとの無相関に対応する0から、スピーチとの高相関に対応する1にわたり、前記修正相関が、ランダム雑音に対応する0から、高度に構造化されたサウンドに対応する1にわたり、前記長期ピッチ利得が、過去の励起と現在の予測残差との間の正規化相互相関であり、前記長期ピッチ利得は、過去の部分の誤差が現在の部分を表すのに十分でないことを示す0から、前記過去の部分の残余誤差を使用することが前記現在の部分を完全に表すことができることを示す1にわたる、請求項28に記載のコンピュータ可読媒体。
  30. 前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類することは、前記一部分中に信号アクティビティがあるかどうかを判断することと、信号アクティビティがない場合、符号化すべき有用な信号がないと判断することと、前記一部分をスピーチとして符号化することとを備える、請求項21に記載のコンピュータ可読媒体。
  31. 装置であって、
    プロセッサと、
    前記プロセッサと電子通信するメモリと、
    前記メモリ内に記憶された命令と
    を備え、前記命令は、
    デジタルオーディオデバイス内の第1の分類器においてオーディオ信号の一部分を受信することと、
    前記デジタルオーディオデバイスが、前記第1の分類器において前記オーディオ信号の前記一部分をスピーチとしてまたは音楽として分類することと、
    前記オーディオ信号の前記一部分を処理することと、
    を前記プロセッサによって実行可能であり、ここにおいて、前記オーディオ信号の前記一部分を処理することは、
    前記一部分が前記第1の分類器によってスピーチとして分類された場合、前記デジタルオーディオデバイスが、第1のコーディングモードを使用して前記スピーチを符号化すること、または、
    前記一部分が前記第1の分類器によって音楽として分類された場合、
    前記一部分を前記デジタルオーディオデバイス内の第2の分類器に与えることと、
    前記デジタルオーディオデバイスが、前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類することと、
    前記オーディオ信号の前記一部分を符号化することと、
    を備え、ここにおいて、前記オーディオ信号の前記一部分を符号化することは、
    前記一部分が前記第2の分類器においてスピーチとして分類された場合、前記デジタルオーディオデバイスが第2のコーディングモードを使用して前記一部分を符号化すること、または、
    前記一部分が前記第2の分類器において音楽として分類された場合、前記デジタルオーディオデバイスが第3のコーディングモードを使用して前記一部分を符号化するこ
    を備える、
    装置
  32. 前記オーディオ信号の前記一部分がフレームである、請求項31に記載のプロセッサ。
  33. 前記第1のコーディングモードが第1のスピーチコーダを備え、前記第2のコーディングモードが第2のスピーチコーダを備え、前記第3のコーディングモードが音楽コーダを備える、請求項31に記載のプロセッサ。
  34. 前記第1のスピーチコーダが符号励振線形予測(CELP)型コーダであり、前記第2のスピーチコーダがCELP/変換ハイブリッドコーダであり、前記音楽コーダが変換コーダである、請求項33に記載のプロセッサ。
  35. 前記命令また、前記一部分を前記第2の分類器に与えるより前に、前記第2の分類器が有効にされるかどうかを判断することと、前記第2の分類器が有効にされない場合、前記第3のコーディングモードを用いて前記一部分を符号化することとを実行可能である、請求項31に記載のプロセッサ。
  36. 前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類することを実行可能である前記命令は、前記一部分が音楽の特性を有するか有声スピーチの特性を有するかを分類するために、前記一部分の複数の特徴を1つまたは複数のしきい値と比較することを実行可能である命令を備える、請求項31に記載のプロセッサ。
  37. 音楽の前記特性が音楽のブロードバンド擬似雑音特性を備え、有声スピーチの前記特性が、有声スピーチの音特性または有声スピーチの準定常特性のうちの少なくとも1つを備える、請求項36に記載のプロセッサ。
  38. 前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類することを実行可能である前記命令は、前記一部分の発声を第1のしきい値と比較することを実行可能である命令と、修正相関を第2のしきい値と比較することを実行可能である命令と、または長期ピッチ利得を第3のしきい値と比較することを実行可能である命令と、のうちの少なくとも1つを備える、請求項31に記載のプロセッサ。
  39. 前記発声が、スピーチとの無相関に対応する0から、スピーチとの高相関に対応する1にわたり、前記修正相関が、ランダム雑音に対応する0から、高度に構造化されたサウンドに対応する1にわたり、前記長期ピッチ利得が、過去の励起と現在の予測残差との間の正規化相互相関であり、前記長期ピッチ利得は、過去の部分の誤差が現在の部分を表すのに十分でないことを示す0から、前記過去の部分の残余誤差を使用することが前記現在の部分を完全に表すことができることを示す1にわたる、請求項38に記載のプロセッサ。
  40. 前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類することを実行可能である前記命令は、前記一部分中に信号アクティビティがあるかどうかを判断することと、信号アクティビティがない場合、符号化すべき有用な信号がないと判断することと、前記一部分をスピーチとして符号化することとを実行可能である命令を備える、請求項31に記載のプロセッサ。
JP2014552206A 2012-01-13 2012-12-21 複数のコーディングモードのための、オーディオ信号を分類する方法および装置 Active JP5964455B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261586374P 2012-01-13 2012-01-13
US61/586,374 2012-01-13
US13/722,669 US9111531B2 (en) 2012-01-13 2012-12-20 Multiple coding mode signal classification
US13/722,669 2012-12-20
PCT/US2012/071217 WO2013106192A1 (en) 2012-01-13 2012-12-21 Multiple coding mode signal classification

Publications (3)

Publication Number Publication Date
JP2015507222A JP2015507222A (ja) 2015-03-05
JP2015507222A5 true JP2015507222A5 (ja) 2015-11-26
JP5964455B2 JP5964455B2 (ja) 2016-08-03

Family

ID=48780608

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014552206A Active JP5964455B2 (ja) 2012-01-13 2012-12-21 複数のコーディングモードのための、オーディオ信号を分類する方法および装置

Country Status (12)

Country Link
US (1) US9111531B2 (ja)
EP (1) EP2803068B1 (ja)
JP (1) JP5964455B2 (ja)
KR (2) KR20140116487A (ja)
CN (1) CN104040626B (ja)
BR (1) BR112014017001B1 (ja)
DK (1) DK2803068T3 (ja)
ES (1) ES2576232T3 (ja)
HU (1) HUE027037T2 (ja)
IN (1) IN2014MN01588A (ja)
SI (1) SI2803068T1 (ja)
WO (1) WO2013106192A1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9589570B2 (en) * 2012-09-18 2017-03-07 Huawei Technologies Co., Ltd. Audio classification based on perceptual quality for low or medium bit rates
EP2922052B1 (en) * 2012-11-13 2021-10-13 Samsung Electronics Co., Ltd. Method for determining an encoding mode
CN104347067B (zh) 2013-08-06 2017-04-12 华为技术有限公司 一种音频信号分类方法和装置
CN104424956B9 (zh) * 2013-08-30 2022-11-25 中兴通讯股份有限公司 激活音检测方法和装置
CN110992965B (zh) * 2014-02-24 2024-09-03 三星电子株式会社 信号分类方法和装置以及使用其的音频编码方法和装置
MX356883B (es) * 2014-05-08 2018-06-19 Ericsson Telefon Ab L M Codificador y discriminador de señal de audio.
CN105336338B (zh) 2014-06-24 2017-04-12 华为技术有限公司 音频编码方法和装置
CN106448688B (zh) 2014-07-28 2019-11-05 华为技术有限公司 音频编码方法及相关装置
US9886963B2 (en) * 2015-04-05 2018-02-06 Qualcomm Incorporated Encoder selection
CN104867492B (zh) * 2015-05-07 2019-09-03 科大讯飞股份有限公司 智能交互系统及方法
KR102398124B1 (ko) 2015-08-11 2022-05-17 삼성전자주식회사 음향 데이터의 적응적 처리
US10186276B2 (en) * 2015-09-25 2019-01-22 Qualcomm Incorporated Adaptive noise suppression for super wideband music
WO2017117234A1 (en) * 2016-01-03 2017-07-06 Gracenote, Inc. Responding to remote media classification queries using classifier models and context parameters
US10902043B2 (en) 2016-01-03 2021-01-26 Gracenote, Inc. Responding to remote media classification queries using classifier models and context parameters
JP6996185B2 (ja) * 2017-09-15 2022-01-17 富士通株式会社 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム
US12118987B2 (en) 2019-04-18 2024-10-15 Dolby Laboratories Licensing Corporation Dialog detector
CN116149499B (zh) * 2023-04-18 2023-08-11 深圳雷柏科技股份有限公司 用于鼠标的多模式切换控制电路及切换控制方法

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69232202T2 (de) * 1991-06-11 2002-07-25 Qualcomm, Inc. Vocoder mit veraendlicher bitrate
US5778335A (en) 1996-02-26 1998-07-07 The Regents Of The University Of California Method and apparatus for efficient multiband celp wideband speech and music coding and decoding
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6493665B1 (en) * 1998-08-24 2002-12-10 Conexant Systems, Inc. Speech classification and parameter weighting used in codebook search
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
JP2000267699A (ja) * 1999-03-19 2000-09-29 Nippon Telegr & Teleph Corp <Ntt> 音響信号符号化方法および装置、そのプログラム記録媒体、および音響信号復号装置
EP1959435B1 (en) * 1999-08-23 2009-12-23 Panasonic Corporation Speech encoder
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
US6625226B1 (en) * 1999-12-03 2003-09-23 Allen Gersho Variable bit rate coder, and associated method, for a communication station operable in a communication system
US6697776B1 (en) * 2000-07-31 2004-02-24 Mindspeed Technologies, Inc. Dynamic signal detector system and method
US6694293B2 (en) 2001-02-13 2004-02-17 Mindspeed Technologies, Inc. Speech coding system with a music classifier
US6785645B2 (en) 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
US6829579B2 (en) * 2002-01-08 2004-12-07 Dilithium Networks, Inc. Transcoding method and system between CELP-based speech codes
US7657427B2 (en) * 2002-10-11 2010-02-02 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
US7363218B2 (en) * 2002-10-25 2008-04-22 Dilithium Networks Pty. Ltd. Method and apparatus for fast CELP parameter mapping
FI118834B (fi) * 2004-02-23 2008-03-31 Nokia Corp Audiosignaalien luokittelu
CA2566368A1 (en) * 2004-05-17 2005-11-24 Nokia Corporation Audio encoding with different coding frame lengths
US8010350B2 (en) 2006-08-03 2011-08-30 Broadcom Corporation Decimated bisectional pitch refinement
CN1920947B (zh) * 2006-09-15 2011-05-11 清华大学 用于低比特率音频编码的语音/音乐检测器
CN101197130B (zh) * 2006-12-07 2011-05-18 华为技术有限公司 声音活动检测方法和声音活动检测器
KR100964402B1 (ko) * 2006-12-14 2010-06-17 삼성전자주식회사 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치
KR100883656B1 (ko) 2006-12-28 2009-02-18 삼성전자주식회사 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치
CN101226744B (zh) * 2007-01-19 2011-04-13 华为技术有限公司 语音解码器中实现语音解码的方法及装置
KR100925256B1 (ko) * 2007-05-03 2009-11-05 인하대학교 산학협력단 음성 및 음악을 실시간으로 분류하는 방법
CN101393741A (zh) * 2007-09-19 2009-03-25 中兴通讯股份有限公司 一种宽带音频编解码器中的音频信号分类装置及分类方法
CN101399039B (zh) * 2007-09-30 2011-05-11 华为技术有限公司 一种确定非噪声音频信号类别的方法及装置
CN101221766B (zh) * 2008-01-23 2011-01-05 清华大学 音频编码器切换的方法
CN101236742B (zh) * 2008-03-03 2011-08-10 中兴通讯股份有限公司 音乐/非音乐的实时检测方法和装置
JP5266341B2 (ja) * 2008-03-03 2013-08-21 エルジー エレクトロニクス インコーポレイティド オーディオ信号処理方法及び装置
US8768690B2 (en) * 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
KR101380297B1 (ko) * 2008-07-11 2014-04-02 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 상이한 신호 세그먼트를 분류하기 위한 판별기와 방법
KR101261677B1 (ko) * 2008-07-14 2013-05-06 광운대학교 산학협력단 음성/음악 통합 신호의 부호화/복호화 장치
CN101751920A (zh) * 2008-12-19 2010-06-23 数维科技(北京)有限公司 基于再次分类的音频分类装置及其实现方法
CN101814289A (zh) * 2009-02-23 2010-08-25 数维科技(北京)有限公司 低码率dra数字音频多声道编码方法及其系统
JP5519230B2 (ja) * 2009-09-30 2014-06-11 パナソニック株式会社 オーディオエンコーダ及び音信号処理システム
CN102237085B (zh) * 2010-04-26 2013-08-14 华为技术有限公司 音频信号的分类方法及装置
EP3686888A1 (en) 2011-02-15 2020-07-29 VoiceAge EVS LLC Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a celp codec

Similar Documents

Publication Publication Date Title
JP2015507222A5 (ja)
US20210327442A1 (en) Audio watermark encoding/decoding
JP5964455B2 (ja) 複数のコーディングモードのための、オーディオ信号を分類する方法および装置
Latif et al. Adversarial machine learning and speech emotion recognition: Utilizing generative adversarial networks for robustness
CA2827000C (en) Apparatus and method for error concealment in low-delay unified speech and audio coding (usac)
JP6185029B2 (ja) オーディオコーデックにおけるノイズ生成
Janicki et al. An assessment of automatic speaker verification vulnerabilities to replay spoofing attacks
JP4769663B2 (ja) 音声区間検出装置及び音声区間検出方法
JP5969513B2 (ja) 不活性相の間のノイズ合成を用いるオーディオコーデック
JP2016511436A5 (ja)
US8655656B2 (en) Method and system for assessing intelligibility of speech represented by a speech signal
JP2017523677A5 (ja)
RU2015142108A (ru) Устройство и способ для уменьшения шума квантования в декодере временной области
JP2016510134A5 (ja)
JP2016001877A (ja) モバイルデバイスのロケーションを決定するための方法および装置
JP6058824B2 (ja) パーソナライズされた帯域幅拡張
US10978081B2 (en) Audio watermark encoding/decoding
JP6439682B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
JP2017513046A5 (ja)
JP2018513408A (ja) エンコーダ選択
CN102576528A (zh) 用于语音活动检测的检测器和方法
JP2015509214A5 (ja)
KR102331279B1 (ko) 부호화 모드 결정방법 및 장치, 오디오 부호화방법 및 장치와, 오디오 복호화방법 및 장치
US10997971B2 (en) Wakeword detection using a secondary microphone
JP2016507087A (ja) 利得制御を行うシステムおよび方法