JP2015507222A - 複数コーディングモード信号分類 - Google Patents

複数コーディングモード信号分類 Download PDF

Info

Publication number
JP2015507222A
JP2015507222A JP2014552206A JP2014552206A JP2015507222A JP 2015507222 A JP2015507222 A JP 2015507222A JP 2014552206 A JP2014552206 A JP 2014552206A JP 2014552206 A JP2014552206 A JP 2014552206A JP 2015507222 A JP2015507222 A JP 2015507222A
Authority
JP
Japan
Prior art keywords
speech
classifier
music
coder
coding mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014552206A
Other languages
English (en)
Other versions
JP5964455B2 (ja
JP2015507222A5 (ja
Inventor
アッティ、ベンカトラマン・スリニバサ
ドゥニ、イーサン・ロバート
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2015507222A publication Critical patent/JP2015507222A/ja
Publication of JP2015507222A5 publication Critical patent/JP2015507222A5/ja
Application granted granted Critical
Publication of JP5964455B2 publication Critical patent/JP5964455B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

アプリケーションを符号化するための改善されたオーディオ分類が提供される。前に利用可能であったスピーチ分類および音楽分類よりも高い精度および少ない複雑さをもつスピーチ分類および音楽分類を生成するために、初期分類が実行され、その後、より細かい分類が実行される。オーディオが、フレームごとにスピーチまたは音楽として分類される。フレームが初期分類によって音楽として分類された場合、そのフレームは、フレームが音楽であり、スピーチ(たとえば、初期分類によってスピーチとして分類されていないことがある、音である、および/または構造化された、スピーチ)でないことを確認するために、第2の、より細かい分類を受ける。実装形態に応じて、より細かい分類において、1つまたは複数のパラメータが使用され得る。例示的なパラメータは、発声、修正相関、信号アクティビティ、および長期ピッチ利得を含む。

Description

関連出願の相互参照
[0001] 本出願は、2012年1月13日に出願された仮特許出願第61/586,374号に対する、米国特許法119条(e)項の利益に基づく優先権を主張する。本仮特許出願は、その全体が参照により本明細書に明確に組み込まれる。
[0002] デジタル技法による(スピーチ(speech)とも呼ばれる)ボイスおよび音楽の送信が普及し、ワイヤレス通信デバイス、携帯情報端末(PDA)、ラップトップコンピュータ、デスクトップコンピュータ、移動無線電話および/または衛星無線電話などを含む、広範囲にわたるデバイスに組み込まれている。例示的な分野はワイヤレス通信である。ワイヤレス通信の分野は、たとえば、コードレス電話、ページング、ワイヤレスローカルループ、セルラー電話システムおよびPCS電話システムなどのワイヤレス電話、モバイルインターネットプロトコル(IP)電話、ならびに衛星通信システムを含む、多くの適用例(applications)を有する。
[0003] 電気通信ネットワークでは、送信通信デバイスと受信通信デバイスとの間で、情報が符号化形式で転送される。送信通信デバイスは、ボイス信号および/または音楽信号など、元の情報を符号化情報に符号化し、それを受信通信デバイスに送る。受信通信デバイスは、受信した符号化情報を復号して、元の情報を再生成する。符号化および復号は、コーデックを使用して実行される。ボイス信号および/または音楽信号の符号化は、送信通信デバイス中にあるコーデックにおいて実行され、復号は、受信通信デバイス中にあるコーデックにおいて実行される。
[0004] 現代のコーデックでは、スピーチ、音楽、および混合コンテンツなど、異なるタイプの入力ソースを処理するために、複数のコーディングモードが含まれる。最適性能のために、入力信号の各フレームについての最適コーディングモードが選択され、使用されるべきである。最も効率的なコーディング方式を選択し、最も低いデータレートを達成するために、正確な分類(accurate classification)が必要である。
[0005] この分類は、複雑さを省くために開ループ様式で行われ得る。この場合、最適モード分類器(optimal mode classifier)は、様々なコーディングモードの主要な特徴を考慮に入れるべきである。(代数符号励振線形予測(ACELP:algebraic code excited linear prediction)のようなスピーチコーディングモードなどの)いくつかのモードは、過去のフレームと現在のフレーム(past and current frames)との間の相関を活用する適応コードブック(ACB:adaptive codebook)を含んでいる。(音楽/オーディオのための修正離散コサイン変換(MDCT:modified discrete cosine transform)コーディングモードなどの)いくつかの他のモードはそのような特徴を含んでいないことがある。したがって、前のフレームと高い相関を有する入力フレームが、ACBを有するモードまたは他のフレーム間相関モデリング技法(other inter-frame correlation modeling techniques)を含むモードに分類されることを保証することが重要である。
[0006] 以前のソリューションは、閉ループモード決定(closed-loop mode decisions)(たとえば、AMR−WB+、USAC)または様々なタイプの開ループ決定(open-loop decisions)(たとえば、AMR−WB+、EVRC−WB)を使用していたが、これらのソリューションは複雑であるか、またはそれらのパフォーマンスが誤りを受けやすかった。
[0007] アプリケーションを符号化ための(for encoding applications)改善されたオーディオ分類(audio classification)が提供される。前に利用可能であったスピーチ分類および音楽分類(speech classifications and music classifications)よりも高い精度および少ない複雑さをもつスピーチ分類および音楽分類を生成するために、初期分類(an initial classification)が実行され、その後、より細かい分類(a finer classification)が実行される。
[0008] オーディオが、部分ごとに(たとえば、フレームごとに)スピーチまたは音楽として分類される。フレームが初期分類によって音楽として分類された場合、そのフレームは、フレームが音楽であり、スピーチ(たとえば、初期分類によってスピーチとして分類されていないことがある、音(tonal)である、および/または構造化された、スピーチ)でないことを確認するために、第2の、より細かい分類を受ける。
[0009] 実装形態に応じて、より細かい分類において、1つまたは複数のパラメータが使用され得る。例示的なパラメータは、発声(voicing)、修正相関(modified correlation)、信号アクティビティ、および長期ピッチ利得(long term pitch gain)を含む。これらのパラメータは例にすぎず、限定的なものではない。
[0010] 本概要は、詳細な説明において以下でさらに説明する概念の選択を簡略化された形で紹介するために与えるものである。本概要は、請求する主題の主要な特徴または本質的特徴を識別するものではなく、請求する主題の範囲を限定するために使用されるものでもない。
[0011] 上記の概要、ならびに例示的な実施形態についての以下の詳細な説明は、添付の図面とともに読めば、よりよく理解される。実施形態を例示する目的で、図面において実施形態の例示的な構成が示されているが、実施形態は、開示する特定の方法および手段に限定されない。
[0012] ソースデバイスが符号化ビットストリームを受信デバイスに送信する、例示的なシステムを示すブロック図。 [0013] 本明細書で説明するように使用され得る2つのデバイスのブロック図。 [0014] 複数コーディングモード信号分類およびエンコーダシステム(a multiple coding mode signal classification and encoder system)の実装形態のブロック図。 [0015] オーディオを分類するための方法の実装形態の動作フロー。 [0016] 例示的な移動局の図。 [0017] 例示的なコンピューティング環境を示す図。
詳細な説明
[0018] 開示する実施形態は、スピーチおよび音楽など、様々なタイプのオーディオを用いた環境における様々なコーディングモードのための分類技法を提示する。オーディオフレームのタイプは、最も効率的な方法で符号化するために、確実におよび正確に識別され得る。本明細書の例および説明はオーディオフレームに言及するが、より一般的には、オーディオ信号の一部分が企図され、本明細書で説明する実装形態に従って使用され得る。
[0019] 図1Aは、ソースデバイス12aが、通信リンク15を介して符号化ビットストリームを受信デバイス14aに送信する、例示的なシステム10を示すブロック図である。ビットストリームは1つまたは複数のパケットとして表され得る。ソースデバイス12aと受信デバイス14aは両方ともデジタルデバイスであり得る。特に、ソースデバイス12aは、3GPP2 EVRC−B規格、またはスピーチ圧縮のためにデータをパケットに符号化することを利用する同様の規格に一致するデータを符号化し得る。システム10のデバイス12a、14aの一方または両方は、オーディオ符号化プロセスを改善するために、以下でより詳細に説明するように、(異なるコーディングモデルに基づく)符号化モードの、およびオーディオ(たとえば、スピーチおよび/または音楽)圧縮のための符号化レートの選択を実施し得る。ソースデバイスまたは受信デバイスを備え得る例示的な移動局については、図4に関して説明する。
[0020] 通信リンク15は、ワイヤレスリンク、物理伝送線路、光ファイバー、ローカルエリアネットワーク、ワイドエリアネットワーク、またはインターネットなどのグローバルネットワークなど、パケットベースネットワーク、公衆交換電話網(PSTN:public switched telephone network)、あるいはデータを転送することが可能な任意の他の通信リンクを備え得る。通信リンク15は記憶媒体に結合され得る。したがって、通信リンク15は、圧縮スピーチデータをソースデバイス12aから受信デバイス14aに送信するための、任意の好適な通信媒体、または場合によっては異なるネットワークおよびリンクの集合を表す。
[0021] ソースデバイス12aは、サウンド(sound)をキャプチャする1つまたは複数のマイクロフォン16を含み得る。連続的なサウンドはデジタイザ18に送られる。デジタイザ18は、離散間隔においてそのサウンドをサンプリングし、スピーチを量子化(デジタル化)する。デジタル化されたスピーチは、メモリ20に記憶され、および/またはしばしば20msフレームにわたって、デジタル化されたスピーチサンプルが符号化され得るエンコーダ22に送られ得る。
[0022] より詳細には、エンコーダは、着信スピーチ信号を、時間のブロック、あるいは分析フレームまたは部分に分割する。時間(またはフレーム)における各セグメントの持続時間は、一般に、信号のスペクトルエンベロープ(spectral envelope)が比較的固定のままである(remain relatively stationary)ことが予想され得るほど十分に短くなるように選択される。たとえば、特定のアップリケ−ションに好適と見なされる任意のフレーム長またはサンプリングレートが使用され得るが、1つの典型的なフレーム長は20ミリ秒(20ms)であり、それは、8キロヘルツ(8kHz)の典型的なサンプリングレートで160個のサンプルに対応する。
[0023] エンコーダ22において実行される符号化プロセスは、送信機24に送るための1つまたは複数のパケットを生成し、それは、通信リンク15を介して受信デバイス14aに送信され得る。たとえば、エンコーダは、着信フレームを分析していくつかの関連するパラメータを抽出し、次いで、それらのパラメータを、2進表現に、すなわち、ビットのセットまたはバイナリデータパケットに量子化する。データパケットは、通信チャネル(すなわち、ワイヤードおよび/またはワイヤレスネットワーク接続)を介して受信機およびデコーダに送信される。デコーダは、データパケットを処理し、それらを逆量子化してパラメータを生成し、逆量子化されたパラメータを使用してオーディオフレームを再合成する。
[0024] エンコーダ22は、たとえば、様々なハードウェア、ソフトウェアまたはファームウェア、あるいは本明細書で説明する符号化技法を制御するためにプログラマブルソフトウェアモジュールを実行する1つまたは複数のデジタル信号プロセッサ(DSP)を含み得る。符号化技法を制御する際にDSPをサポートするために、関連メモリおよび論理回路が与えられ得る。後述するように、スピーチフレームまたは音楽フレーム(a speech frame or a music frame)が判断され、符号化されているかどうかに応じて、符号化より前におよび/または符号化中に、符号化モードおよび符号化レートが変更され得る場合、エンコーダ22はよりロバストに機能し得る。
[0025] 受信デバイス14aは、オーディオデータを受信し、復号することが可能な任意のデジタルオーディオデバイスの形態をとり得る。たとえば、受信デバイス14aは、たとえば、中間リンク、ルータ、他のネットワーク機器などを介して、送信機24からパケットを受信するための受信機26を含み得る。受信デバイス14aはまた、1つまたは複数のパケットを復号するためのデコーダ28と、スピーチデコーダ28によるパケットの復号後に、ユーザが、再構成されたオーディオを聞くことを可能にするための、1つまたは複数のスピーカー30とを含み得る。
[0026] 場合によっては、図1Bに示すように、ソースデバイス12bおよび受信デバイス14bはそれぞれ、デジタルオーディオデータを符号化および復号するためのスピーチエンコーダ/デコーダ(コーデック)32を含み得る。特に、ソースデバイス12bと受信デバイス14bの両方は、送信機および受信機ならびにメモリおよびスピーカーを含み得る。本明細書で企図される符号化技法の多くについて、スピーチおよび/または音楽を圧縮するためのエンコーダを含むデジタルオーディオデバイスに関して説明する。
[0027] ただし、エンコーダはコーデック32の一部を形成し得ることを理解されたい。その場合、コーデックは、ハードウェア、ソフトウェア、ファームウェア、DSP、マイクロプロセッサ、汎用プロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、個別ハードウェア構成要素、またはそれらの様々な組合せ内で実装され得る。さらに、コーダは、DSP、ASIC、個別ゲート論理、ファームウェア、または任意の従来のプログラマブルソフトウェアモジュールおよびマイクロプロセッサを用いて実装され得ることを、当業者は理解されたい。ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、レジスタ、または当技術分野で知られている任意の他の形態の書込み可能な記憶媒体中に常駐し得る。代替として、任意の従来のプロセッサ、コントローラ、または状態機械が、マイクロプロセッサの代わりに使用され得る。例示的なコンピューティングデバイスについては、図5に関して説明する。
[0028] 図2は、複数コーディングモード信号分類およびエンコーダシステム(a multiple coding mode signal classification and encoder system)200の実装形態のブロック図である。一実装形態では、システム200は、図1Aおよび図1Bに関して説明したソースデバイスまたは受信デバイスなど、デバイスとともに使用され得る。たとえば、システム200は、ソースデバイス12aのエンコーダ22に関連して動作し得る。
[0029] 複数コーディングモード信号分類およびエンコーダシステム200は、(第1の分類器とも呼ばれる)初期分類器(an initial classifier)210と、(第2の分類器とも呼ばれる)細分類器(a fine classifier)220とを備える。システム200はまた、細分類器220と、それの関連するより細かい分類機能とを有効または無効にするために(たとえば、ユーザによって)選択され得る、細分類器選択スイッチ230を備える。
[0030] スピーチコーダおよび音楽コーダ(speech coders and a music coder)など、様々なタイプのコーダが、システム200内に備えられる。一実装形態では、「コーディングモード1」と呼ばれる第1のコーディングモード240(たとえば、符号励振線形予測(CELP:code excited linear predictive)型コーダ、またはスピーチコーディングモードなど)が与えられ、初期分類器210による分類に応答して使用され得る。「コーディングモード2」と呼ばれる第2のコーディングモード260(たとえば、CELP/変換ハイブリッドコーダ(a CELP/transform hybrid code)、または第2のスピーチコーディングモードなど)が与えられ、細分類器220による分類に応答して使用され得る。
[0031] 「コーディングモード3」と呼ばれる第3のコーディングモード250(たとえば、変換コーダ(a transform coder)、または音楽コーディングモードなど)が与えられ、初期分類器210および/または細分類器220による分類に応答して使用され得る。これらのタイプのコーディングモードおよびコーダはよく知られており、さらなる説明は簡潔のために省略する。コーディングモード1、2、および3について説明した例示的なコーディングモードおよびコーダは例にすぎず、限定的なものではない。任意の適切な(1つまたは複数の)スピーチコーディングモードおよび/または(1つまたは複数の)スピーチコーダならびに(1つまたは複数の)音楽コーディングモードおよび/または(1つまたは複数の)音楽コーダが使用され得る。
[0032] 図3は、オーディオを分類するための方法300の実装形態の動作フローである。310において、初期分類器210は、入力オーディオフレーム(またはオーディオ信号の一部分をスピーチのような(speech-like)オーディオ信号または音楽のような(music-like)オーディオ信号として分類するための、オーディオ信号の他の部分)を受信し、320において、それをスピーチまたは音楽として分類する。初期分類器210は、オーディオフレームまたはその一部分をスピーチまたは音楽として分類する任意の分類器であり得る。
[0033] いくつかの実装形態では、初期分類器210は、(「分類器1」および「分類器2」として320に示されているが、実装形態に応じて任意の数の分類器が使用され得る)2つ以上の分類器を備え得る。たとえば、初期分類器は、スピーチのほうへ十分にバイアスされる分類器、および音楽のほうへよりバイアスされる分類器などの別の異なる分類器を備え得る。これらの2つの分類器は、320において、(実装形態に応じて)連続的にまたは時々同時に入力フレーム上で動作し得、それらの結果を組み合わせて、330または340のいずれかに送られる結果を形成する。
[0034] スピーチが初期分類器210によって音楽として検出される確率は小さい。したがって、いくつかのスピーチフレームは、初めに音楽として分類され得る。たとえば、スピーチを代表する、極めて低レベルの背景音楽または歌声の存在下でのスピーチは、初期分類器210によってスピーチとして分類されないことがある。代わりに、初期分類器210はそのような信号を音楽として分類し得る。たとえば、街頭雑音において車両ホーンが鳴る、または典型的なオフィスにおいて電話が鳴るなど、他の背景雑音の存在も、スピーチを音楽として誤分類することの増加の一因となり得る。
[0035] 320において、フレームが初期分類器210によってスピーチフレームであると判断された場合、符号化するためにそのフレームはコーディングモード1 240(たとえば、CELP型コーダ)に与えられる。いくつかの実装形態では、任意の知られているCELP型コーダが使用され得る。
[0036] 一方、320において、フレームが初期分類器210によって音楽フレームであると判断された場合、340において、(たとえば、それぞれ「有効にされる」および「有効にされない」に対応するデバイス上の「オン」および「オフ」選択スイッチを介して、前にその特徴を有効にしたユーザによって)より細かい分類が有効にされるかどうかを判断する。このより細かい分類は、第1の分類の決定を補強する第2のラウンドの分類である。一実装形態では、オーディオデータを処理するためのより細かい分類はユーザによって選択的に有効にされ得る。
[0037] 340において、より細かい分類が有効にされないと判断された場合、350において、音楽フレームとして符号化するためにそのフレームはコーディングモード3 250(たとえば、変換コーダ)に与えられる。しかしながら、340において、より細かい分類が有効にされたと判断された場合、360において、追加の、より細かい分類のためにそのフレームは細分類器220に与えられる。より細かい分類は、スピーチフレームを音楽フレームとさらに区別するために使用される。
[0038] 一実装形態では、より細かい分類は、フレームが、有声スピーチ(voiced speech)の音特性および/または準定常特性(tonal and/or quasi-stationary characteristics)とは対照的に、いくつかのタイプの音楽の特性であるブロードバンド擬似雑音(broadband noise-like)であることを確認するために使用される。360におけるより細かい分類により、フレームが音楽フレームとして識別された場合、350において、音楽フレームとして符号化するためにそのフレームはコーディングモード3に送られる。
[0039] 360おけるより細かい分類により、フレームがスピーチフレームとして識別された場合、370において、スピーチフレームとして符号化するためにそのフレームはコーディングモード2 260に送られる。上記のように、一実装形態では、コーディングモード2 260は、音の(tonal)、および/または構造化されたスピーチフレームをコーディングするために使用され得るCELP/変換ハイブリッドコーダであり得る。代替実装形態では、370におけるコーディングモード2 260は、330において使用されるコーディングモード1などのCELP型コーダであり得る。
[0040] 一実装形態では、(たとえば、細分類器220によって)360において実行されるより細かい分類は、フレームがスピーチフレームであるか音楽フレームであるかを判断するために、フレームの様々な特性または特徴を1つまたは複数のしきい値と比較し得る。
[0041] いくつかの実装形態では、フレームの発声(voicing)が第1のしきい値THR1と比較され得る。フレームの発声がTHR1よりも大きい場合、フレームはスピーチフレームであると判断される。THR1のための例示的な値は0.99であるが、実装形態に応じて任意の値が使用され得る。発声は、(スピーチフレームとの無相関に対応する)0から(スピーチフレームとの高相関に対応する)1にわたる(range)。
[0042] いくつかの実装形態では、重み付け信号相関(weighted signal correlation)が第2のしきい値THR2と比較され得る。重み付け信号相関がTHR2よりも大きい場合、フレームはスピーチフレームであると判断される。THR2のための例示的な値は0.87であるが、実装形態に応じて任意の値が使用され得る。信号相関は、(ランダム雑音に対応する)0から(高度に構造化されたサウンドに対応する)1にわたる。
[0043] いくつかの実装形態では、長期ピッチ利得が第3のしきい値THR3と比較され得る。長期ピッチ利得がTHR3よりも大きい場合、フレームはスピーチフレームであると判断される。THR3のための例示的な値は0.5であるが、実装形態に応じて任意の値が使用され得る。長期ピッチ利得は、過去の励起(past excitation)と現在の予測残差(current prediction residual)との間の正規化相互相関(normalized cross-correlation)である。長期ピッチ利得は、(過去のフレームの誤差が現在のフレームを表すのに十分でないことを示す)0から(過去のフレームの残余誤差を使用することが現在のフレームを完全に表すことができることを示す)1にわたる。
[0044] いくつかの実装形態では、現在のフレームの調性(tonality)が判断され、しきい値THR4と比較され得る。信号の調性は、スペクトル平坦度測度(spectral flatness measure)またはスペクトルピーク対平均比測度(spectral peak to average ratio measure)を使用して測定され得る。スペクトルが顕著な局所ピーク(prominent localized peaks)を含んでいない場合、スペクトル平坦度測度は1に近くなる傾向があるであろう。一方、スペクトルが局所ピークをもつ強い傾き(a strong tilt)を示す場合、スペクトル平坦度測度は0に近くなるであろう。調性がTHR4よりも大きい場合、フレームはスピーチフレームであると判断される。THR4のための例示的な値は0.75であるが、実装形態に応じて任意の値が使用され得る。
[0045] 追加または代替として、いくつかの実装形態では、信号アクティビティがあるかどうかが判断され得る。信号アクティビティがない(すなわち、フレームがクワイエット(quiet)である)場合、符号化すべき有用な信号がないと判断され、フレームはスピーチフレームとして符号化され得る。
[0046] いくつかの実装形態では、360において、フレームがスピーチフレームであると判断するための条件のいずれも満たされない場合、フレームは音楽フレームであると判断される。
[0047] 実装形態に応じて任意の1つまたは複数の比較(comparisons)および/またはしきい値が使用され得るので、本明細書で説明した比較およびしきい値は限定的なものではない。実装形態に応じて、追加および/または代替の比較およびしきい値も使用され得る。
[0048] したがって、一実装形態では、フレームが、初めに(初期分類器210によって)スピーチとして分類された場合、それはCELPコーダにパスされる。しかしながら、フレームが音楽として分類された場合、より細かい分類が有効にされるかどうかが検証される。より細かい分類は、外部ユーザ制御を使用して有効にされ得る。より細かい分類が有効にされない場合、初めに音楽として分類されたフレームは、符号化するために変換コーダにルーティングされる。より細かい分類が有効にされた場合、変換コーダとCELP/変換コーダのハイブリッドとの間で選択するために、いくつかの基準(たとえば、発声、修正相関、信号アクティビティ、長期ピッチ利得など)の論理的組合せが使用される。THR1、THR2、THR3およびTHR4は、実験的に判断され得るしきい値であり、たとえば、サンプリンレートおよび信号タイプに依存する。
[0049] 一実装形態では、強い音の信号が、(適応コードブックがない)MDCTモードでコーディングされるのを防止され、代わりに、適応コードブックを利用する線形予測コーディング(LPC:linear predictive coding)モードに与えられる。
[0050] 本明細書で説明したコーダおよび分類器の構成要素は、電子ハードウェア、コンピュータソフトウェア、または両方の組合として実装され得る。これらの構成要素について、それらの機能に関して本明細書で説明した。機能をハードウェアとして実装するか、ソフトウェアとして実装するかは、特定の適用例および全体的なシステムに課された設計制約に依存する。これらの状況下でのハードウェアおよびソフトウェアの互換性、および各特定の適用例について説明した機能をどのようにしたら最も良く実装することができるかを、当業者は認識されよう。
[0051] 本明細書で使用する「判断(determining)」という用語(およびそれの文法的変形)は、極めて幅広い意味で使用される。「判断」という用語は、多種多様なアクションを包含し、したがって、「判断」は、計算、算出、処理、導出、調査、探索(たとえば、テーブル、データベースまたは別のデータ構造での探索)、確認などを含むことができる。また、「判断」は、受信(たとえば、情報を受信すること)、アクセス(たとえば、メモリ中のデータにアクセスすること)などを含むことができる。また、「判断」は、解決、選択、選定、確立などを含むことができる。
[0052] 「信号処理(signal processing)」という用語(およびそれの文法的変形)は、信号の処理および解釈を指すことがある。対象となっている信号(signals of interest)は、サウンドと、画像と、多くの他のものとを含み得る。そのような信号の処理は、記憶および再構成と、雑音からの情報の分離と、圧縮と、特徴抽出とを含み得る。「デジタル信号処理」という用語は、デジタル表現における信号の調査(study)、およびこれらの信号の処理方法を指すことがある。デジタル信号処理は、移動局、非移動局、およびインターネットなど、多くの通信技術の要素である。デジタル信号処理のために利用されるアルゴリズムは、(DSPと略されることがある)デジタル信号プロセッサと呼ばれる専用マイクロプロセッサを利用し得る専用コンピュータを使用して実行され得る。
[0053] 別段に規定されていない限り、特定の特徴を有する装置の動作のいかなる開示も、類似の特徴を有する方法を開示する(その逆も同様)ことをも明確に意図し、特定の構成による装置の動作のいかなる開示も、類似の構成による方法を開示する(その逆も同様)ことをも明確に意図する。
[0054] 図4に、ワイヤレス通信システムにおける例示的な移動局400の設計のブロック図を示す。移動局400は、セルラーフォン、端末、ハンドセット、PDA、ワイヤレスモデム、コードレスフォンなどであり得る。ワイヤレス通信システムは、CDMAシステム、GSM(登録商標)システムなどであり得る。
[0055] 移動局400は、受信経路および送信経路を介して双方向通信を行うことが可能である。受信経路上では、基地局によって送信された信号は、アンテナ412によって受信され、受信機(RCVR)414に与えられる。受信機414は、受信信号を調整し、デジタル化し、さらなる処理のためにサンプルをデジタルセクション420に与える。送信経路上では、送信機(TMTR)416は、デジタルセクション420から送信されるべきデータを受信し、そのデータを処理し、調整し、被変調信号を生成し、被変調信号はアンテナ412を介して基地局に送信される。受信機414および送信機416は、CDMA、GSMなどをサポートし得るトランシーバの一部であり得る。
[0056] デジタルセクション420は、たとえば、モデムプロセッサ422、縮小命令セットコンピュータ/デジタル信号プロセッサ(RISC/DSP)424、コントローラ/プロセッサ426、内部メモリ428、汎用オーディオエンコーダ432、汎用オーディオデコーダ434、グラフィックス/ディスプレイプロセッサ436、および外部バスインターフェース(EBI)438など、様々な処理、インターフェース、およびメモリユニットを含む。モデムプロセッサ422は、データ送信および受信のための処理、たとえば、符号化、変調、復調、および復号を実行し得る。RISC/DSP424は、ワイヤレスデバイス400のための汎用専用処理を実行し得る。コントローラ/プロセッサ426は、デジタルセクション420内の様々な処理およびインターフェースユニットの動作を指示し得る。内部メモリ428は、デジタルセクション420内の様々なユニットのためのデータおよび/または命令を記憶し得る。
[0057] 汎用オーディオエンコーダ432は、オーディオソース442、マイクロフォン443などからの入力信号に対して符号化を実行し得る。汎用オーディオデコーダ434は、コード化オーディオデータに対して復号を実行し得、出力信号をスピーカー/ヘッドセット444に与え得る。グラフィックス/ディスプレイプロセッサ436は、ディスプレイユニット446に提示され得る、グラフィックス、ビデオ、画像、およびテキストのための処理を実行し得る。EBI438は、デジタルセクション420とメインメモリ448との間のデータ転送を可能にし得る。
[0058] デジタルセクション420は、1つまたは複数のプロセッサ、DSP、マイクロプロセッサ、RISCなどを用いて実装され得る。デジタルセクション420はまた、1つまたは複数の特定用途向け集積回路(ASIC)および/または何らかの他のタイプの集積回路(IC)上に作製され得る。
[0059] 図5に、例示的な実装形態および態様が実装され得る例示的なコンピューティング環境を示す。コンピューティングシステム環境は、好適なコンピューティング環境の一例にすぎず、使用または機能の範囲に関する任意の限定を示唆するものではない。
[0060] コンピュータによって実行される、プログラムモジュールなどのコンピュータ実行可能命令が使用され得る。概して、プログラムモジュールは、特定のタスクを実行するか、または特定の抽象データ型を実装する、ルーチン、プログラム、オブジェクト、構成要素、データ構造などを含む。通信ネットワークまたは他のデータ伝送媒体を介してリンクされるリモート処理デバイスによってタスクが実行される、分散コンピューティング環境が使用され得る。分散コンピューティング環境では、プログラムモジュールおよび他のデータは、メモリ記憶デバイスを含む、ローカルコンピュータ記憶媒体とリモートコンピュータ記憶媒体の両方に配置され得る。
[0061] 図5を参照すると、本明細書で説明する態様を実装するための例示的なシステムは、コンピューティングデバイス500など、コンピューティングデバイスを含む。その最も基本的な構成では、コンピューティングデバイス500は、一般に、少なくとも1つの処理ユニット502およびメモリ504を含む。コンピューティングデバイスの正確な構成およびタイプに応じて、メモリ504は、(ランダムアクセスメモリ(RAM)などの)揮発性、(読取り専用メモリ(ROM)、フラッシュメモリなどの)不揮発性、またはそれら2つの何らかの組合せであり得る。この最も基本的な構成は、破線506によって図5に示されている。
[0062] コンピューティングデバイス500は追加の特徴および/または機能を有し得る。たとえば、コンピューティングデバイス500は、限定はしないが、磁気ディスクまたは光ディスクあるいはテープを含む、追加のストレージ(リムーバブルおよび/または非リムーバブル)を含み得る。そのような追加のストレージは、リムーバブルストレージ508および非リムーバブルストレージ510によって図5に示されている。
[0063] コンピューティングデバイス500は、一般に、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、デバイス500によってアクセスされ得る任意の利用可能な媒体であり得、揮発性媒体および不揮発性媒体と、リムーバブル媒体および非リムーバブル媒体の両方を含む。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュールまたは他のデータなど、情報の記憶のための任意の方法または技術において実装される、揮発性媒体および不揮発性媒体と、リムーバブル媒体および非リムーバブル媒体とを含む。メモリ504、リムーバブルストレージ508、および非リムーバブルストレージ510は、コンピュータ記憶媒体のすべての例である。コンピュータ記憶媒体は、限定はしないが、RAM、ROM、電気消去可能プログラマブル読取り専用メモリ(EEPROM(登録商標))、フラッシュメモリまたは他のメモリ技術、CD−ROM、デジタル多用途ディスク(DVD)または他の光ストレージ、磁気カセット、磁気テープ、磁気ディスクストレージまたは他の磁気ストレージデバイス、あるいは所望の情報を記憶するために使用され得、コンピューティングデバイス500によってアクセスされ得る任意の他の媒体を含む。いかなるそのようなコンピュータ記憶媒体も、コンピューティングデバイス500の一部であり得る。
[0064] コンピューティングデバイス500は、デバイスが他のデバイスと通信することを可能にする、(1つまたは複数の)通信接続512を含んでいることがある。コンピューティングデバイス500はまた、キーボード、マウス、ペン、ボイス入力デバイス、タッチ入力デバイスなど、(1つまたは複数の)入力デバイス514を有し得る。ディスプレイ、スピーカー、プリンタなど、(1つまたは複数の)出力デバイス516も含まれ得る。これらのすべてのデバイスは、当技術分野でよく知られており、ここでは詳しく説明する必要はない。
[0065] 概して、本明細書で説明したいかなるデバイスも、ワイヤレスまたはワイヤードフォン、セルラーフォン、ラップトップコンピュータ、ワイヤレスマルチメディアデバイス、ワイヤレス通信PCカード、PDA、外部または内部モデム、ワイヤレスまたはワイヤードチャネルを介して通信するデバイスなど、様々なタイプのデバイスを表し得る。デバイスは、アクセス端末(AT)、アクセスユニット、加入者ユニット、移動局、モバイルデバイス、モバイルユニット、モバイルフォン、モバイル、リモート局、リモート端末、リモートユニット、ユーザデバイス、ユーザ機器、ハンドヘルドデバイス、非移動局、非モバイルデバイス、エンドポイントなど、様々な名前を有し得る。本明細書で説明したいかなるデバイスも、命令およびデータを記憶するためのメモリ、ならびにハードウェア、ソフトウェア、ファームウェア、またはそれらの組合せを有し得る。
[0066] 本明細書で説明した技法は、様々な手段によって実装され得る。たとえば、これらの技法は、ハードウェア、ファームウェア、ソフトウェア、またはそれらの組合せで実装され得る。さらに、本明細書の開示に関して説明した様々な例示的な論理ブロック、モジュール、回路、およびアルゴリズムステップは、電子ハードウェア、コンピュータソフトウェア、または両方の組合せとして実装され得ることを、当業者は諒解されよう。ハードウェアとソフトウェアのこの互換性を明確に示すために、様々な例示的な構成要素、ブロック、モジュール、回路、およびステップについて、上記では概してそれらの機能に関して説明した。そのような機能をハードウェアとして実装するか、ソフトウェアとして実装するかは、特定の適用例および全体的なシステムに課された設計制約に依存する。当業者は、説明した機能を特定の適用例ごとに様々な方法で実装し得るが、そのような実装の決定は、本開示の範囲からの逸脱を生じるものと解釈すべきではない。
[0067] ハードウェア実装の場合、本技法を実行するために使用される処理ユニットは、1つまたは複数のASIC、DSP、デジタル信号処理デバイス(DSPD)、プログラマブル論理デバイス(PLD)、FPGA、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、電子デバイス、本明細書で説明した機能を実行するように設計された他の電子ユニット、コンピュータ、またはそれらの組合せ内で実装され得る。
[0068] したがって、本明細書の開示に関して説明した様々な例示的な論理ブロック、モジュール、および回路は、汎用プロセッサ、DSP、ASIC、FPGAまたは他のプログラマブル論理デバイス、個別ゲートまたはトランジスタ論理、個別ハードウェア構成要素、あるいは本明細書で説明した機能を実行するように設計されたそれらの任意の組合せを用いて実装または実行され得る。汎用プロセッサはマイクロプロセッサであり得るが、代替として、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械であり得る。プロセッサは、コンピューティングデバイスの組合せ、たとえば、DSPとマイクロプロセッサとの組合せ、複数のマイクロプロセッサ、DSPコアと連携する1つまたは複数のマイクロプロセッサ、あるいは任意の他のそのような構成としても実装され得る。
[0069] ファームウェアおよび/またはソフトウェア実装の場合、本技法は、RAM、ROM、不揮発性RAM、プログラマブルROM、EEPROM、フラッシュメモリ、コンパクトディスク(CD)、磁気または光学データストレージデバイスなど、コンピュータ可読媒体上の命令として組み込まれ得る。命令は、1つまたは複数のプロセッサによって実行可能であり得、(1つまたは複数の)プロセッサに、本明細書で説明した機能のいくつかの態様を実行させ得る。
[0070] ソフトウェアで実装した場合、機能は、1つまたは複数の命令またはコードとしてコンピュータ可読媒体上に記憶されるか、あるいはコンピュータ可読媒体を介して送信され得る。コンピュータ可読媒体は、ある場所から別の場所へのコンピュータプログラムの転送を可能にする任意の媒体を含むコンピュータ通信媒体と、コンピュータ記憶媒体との両方を含む。記憶媒体は、汎用または専用コンピュータによってアクセスされ得る任意の利用可能な媒体であり得る。限定ではなく例として、そのようなコンピュータ可読媒体は、RAM、ROM、EEPROM、CD−ROMまたは他の光ディスクストレージ、磁気ディスクストレージまたは他の磁気ストレージデバイス、あるいは命令またはデータ構造の形態の所望のプログラムコード手段を搬送または記憶するために使用され得、汎用もしくは専用コンピュータ、または汎用もしくは専用プロセッサによってアクセスされ得る、任意の他の媒体を備えることができる。また、いかなる接続もコンピュータ可読媒体と適切に呼ばれる。たとえば、ソフトウェアが、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線(DSL)、または赤外線、無線、およびマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、DSL、または赤外線、無線、およびマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。本明細書で使用するディスク(disk)およびディスク(disc)は、CD(disc)、レーザディスク(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピー(登録商標)ディスク(disk)およびblu−ray(登録商標)ディスク(disc)を含み、ディスク(disk)は、通常、データを磁気的に再生し、ディスク(disc)は、データをレーザで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲内に含まれるべきである。
[0071] ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、リムーバブルディスク、CD−ROM、または当技術分野で知られている任意の他の形態の記憶媒体中に常駐し得る。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代替として、記憶媒体はプロセッサに一体化され得る。プロセッサおよび記憶媒体はASIC中に常駐し得る。ASICはユーザ端末中に常駐し得る。代替として、プロセッサおよび記憶媒体は、ユーザ端末中に個別構成要素として常駐し得る。
[0072] 本開示についての以上の説明は、いかなる当業者も本開示を作成または使用することができるように与えたものである。本開示への様々な修正は当業者には容易に明らかとなり、本明細書で定義した一般原理は、本開示の趣旨または範囲から逸脱することなく他の変形形態に適用され得る。したがって、本開示は、本明細書で説明した例に限定されるものではなく、本明細書で開示した原理および新規の特徴に合致する最も広い範囲を与えられるべきである。
[0073] 例示的な実装形態は、1つまたは複数のスタンドアロンコンピュータシステムの文脈で、本開示の主題の態様を利用することに言及し得るが、主題は、そのように限定されるのではなく、ネットワークまたは分散コンピューティング環境など、任意のコンピューティング環境に関連して実施され得る。またさらに、本開示の主題の態様は、複数の処理チップまたはデバイスにおいてあるいはそれらにわたって実装され得、同様に複数のデバイスにわたって記憶が実施され得る。そのようなデバイスは、たとえば、PC、ネットワークサーバ、およびハンドヘルドデバイスを含み得る。
[0074] 主題について構造的機能および/または方法論的行為に特有の言語で説明したが、添付の特許請求の範囲において定義される主題は、必ずしも上記で説明した特定の特徴または行為に限定されるとは限らないことを理解されたい。むしろ、上記で説明した特定の特徴および行為は、特許請求の範囲を実施することの例示的な形態として開示される。

Claims (50)

  1. 第1の分類器においてオーディオ信号の一部分を受信することと、
    前記第1の分類器において前記オーディオ信号の前記一部分をスピーチとしてまたは音楽として分類することと、
    前記一部分が前記第1の分類器によってスピーチとして分類された場合、第1のコーディングモードを使用して前記スピーチを符号化することと、
    前記一部分が前記第1の分類器によって音楽として分類された場合、
    前記一部分を第2の分類器に与えることと、
    前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類することと、
    前記一部分が前記第2の分類器においてスピーチとして分類された場合、第2のコーディングモードを使用して前記一部分を符号化することと、
    前記一部分が前記第2の分類器において音楽として分類された場合、第3のコーディングモードを使用して前記一部分を符号化することと
    を備える方法。
  2. 前記オーディオ信号の前記一部分がフレームである、請求項1に記載の方法。
  3. 前記第1のコーディングモードが第1のスピーチコーダを備え、前記第2のコーディングモードが第2のスピーチコーダを備え、前記第3のコーディングモードが音楽コーダを備える、請求項1に記載の方法。
  4. 前記第1のスピーチコーダが符号励振線形予測(CELP)型コーダであり、前記第2のスピーチコーダがCELP/変換ハイブリッドコーダであり、前記音楽コーダが変換コーダである、請求項3に記載の方法。
  5. 前記一部分を第2の分類器に与えるより前に、前記第2の分類器が有効にされるかどうかを判断することと、前記第2の分類器が有効にされない場合、前記第3のコーディングモードを用いて前記一部分を符号化することとをさらに備える、請求項1に記載の方法。
  6. 前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類することは、前記一部分が音楽の特性を有するか有声スピーチの特性を有するかを分類するために、前記一部分の複数の特徴を1つまたは複数のしきい値と比較することを備える、請求項1に記載の方法。
  7. 音楽の前記特性が音楽のブロードバンド擬似雑音特性を備え、有声スピーチの前記特性が、有声スピーチの音特性または有声スピーチの準定常特性のうちの少なくとも1つを備える、請求項6に記載の方法。
  8. 前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類することが、前記一部分の発声を第1のしきい値と比較すること、修正相関を第2のしきい値と比較すること、または長期ピッチ利得を第3のしきい値と比較することのうちの少なくとも1つを備える、請求項1に記載の方法。
  9. 前記発声が、スピーチとの無相関に対応する0から、スピーチとの高相関に対応する1にわたり、前記修正相関が、ランダム雑音に対応する0から、高度に構造化されたサウンドに対応する1にわたり、前記長期ピッチ利得が、過去の励起と現在の予測残差との間の正規化相互相関であり、前記長期ピッチ利得は、過去の部分の誤差が現在の部分を表すのに十分でないことを示す0から、前記過去の部分の残余誤差を使用することが前記現在の部分を完全に表すことができることを示す1にわたる、請求項8に記載の方法。
  10. 前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類することは、前記一部分中に信号アクティビティがあるかどうかを判断することと、信号アクティビティがない場合、符号化すべき有用な信号がないと判断することと、前記一部分をスピーチとして符号化することとを備える、請求項1に記載の方法。
  11. 第1の分類器においてオーディオ信号の一部分を受信するための手段と、
    前記第1の分類器において前記オーディオ信号の前記一部分をスピーチとしてまたは音楽として分類するための手段と、
    前記一部分が前記第1の分類器によってスピーチとして分類された場合、第1のコーディングモードを使用して前記スピーチを符号化するための手段と、
    前記一部分が前記第1の分類器によって音楽として分類されたとき、前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類するための手段と、
    前記一部分が前記第2の分類器においてスピーチとして分類されたとき、第2のコーディングモードを使用して前記一部分を符号化するための手段と、
    前記一部分が前記第2の分類器において音楽として分類されたとき、第3のコーディングモードを使用して前記一部分を符号化するための手段と
    を備える装置。
  12. 前記オーディオ信号の前記一部分がフレームである、請求項11に記載の装置。
  13. 前記第1のコーディングモードが第1のスピーチコーダを備え、前記第2のコーディングモードが第2のスピーチコーダを備え、前記第3のコーディングモードが音楽コーダを備える、請求項11に記載の装置。
  14. 前記第1のスピーチコーダが符号励振線形予測(CELP)型コーダであり、前記第2のスピーチコーダがCELP/変換ハイブリッドコーダであり、前記音楽コーダが変換コーダである、請求項13に記載の装置。
  15. 前記一部分を第2の分類器に与えるより前に、前記第2の分類器が有効にされるかどうかを判断することと、前記第2の分類器が有効にされない場合、前記第3のコーディングモードを用いて前記一部分を符号化することとを行うための手段をさらに備える、請求項11に記載の装置。
  16. 前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類するための前記手段は、前記一部分が音楽の特性を有するか有声スピーチの特性を有するかを分類するために、前記一部分の複数の特徴を1つまたは複数のしきい値と比較するための手段を備える、請求項11に記載の装置。
  17. 音楽の前記特性が音楽のブロードバンド擬似雑音特性を備え、有声スピーチの前記特性が、有声スピーチの音特性または有声スピーチの準定常特性のうちの少なくとも1つを備える、請求項16に記載の装置。
  18. 前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類するための前記手段が、前記一部分の発声を第1のしきい値と比較するための手段と、修正相関を第2のしきい値と比較するための手段と、長期ピッチ利得を第3のしきい値と比較するための手段とのうちの少なくとも1つを備える、請求項11に記載の装置。
  19. 前記発声が、スピーチとの無相関に対応する0から、スピーチとの高相関に対応する1にわたり、前記修正相関が、ランダム雑音に対応する0から、高度に構造化されたサウンドに対応する1にわたり、前記長期ピッチ利得が、過去の励起と現在の予測残差との間の正規化相互相関であり、前記長期ピッチ利得は、過去の部分の誤差が現在の部分を表すのに十分でないことを示す0から、前記過去の部分の残余誤差を使用することが前記現在の部分を完全に表すことができることを示す1にわたる、請求項18に記載の装置。
  20. 前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類するための前記手段は、前記一部分中に信号アクティビティがあるかどうかを判断することと、信号アクティビティがない場合、符号化すべき有用な信号がないと判断することと、前記一部分をスピーチとして符号化することとを行うための手段を備える、請求項11に記載の装置。
  21. 第1の分類器においてオーディオ信号の一部分を受信することと、
    前記第1の分類器において前記オーディオ信号の前記一部分をスピーチとしてまたは音楽として分類することと、
    前記一部分が前記第1の分類器によってスピーチとして分類された場合、第1のコーディングモードを使用して前記スピーチを符号化することと、
    前記一部分が前記第1の分類器によって音楽として分類された場合、
    前記一部分を第2の分類器に与えることと、
    前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類することと、
    前記一部分が前記第2の分類器においてスピーチとして分類された場合、第2のコーディングモードを使用して前記一部分を符号化することと、
    前記一部分が前記第2の分類器において音楽として分類された場合、第3のコーディングモードを使用して前記一部分を符号化することと
    をプロセッサに行わせるためのコンピュータ可読命令を備える非一時的コンピュータ可読媒体。
  22. 前記オーディオ信号の前記一部分がフレームである、請求項21に記載のコンピュータ可読媒体。
  23. 前記第1のコーディングモードが第1のスピーチコーダを備え、前記第2のコーディングモードが第2のスピーチコーダを備え、前記第3のコーディングモードが音楽コーダを備える、請求項21に記載のコンピュータ可読媒体。
  24. 前記第1のスピーチコーダが符号励振線形予測(CELP)型コーダであり、前記第2のスピーチコーダがCELP/変換ハイブリッドコーダであり、前記音楽コーダが変換コーダである、請求項23に記載のコンピュータ可読媒体。
  25. 前記一部分を第2の分類器に与えるより前に、前記第2の分類器が有効にされるかどうかを判断することと、前記第2の分類器が有効にされない場合、前記第3のコーディングモードを用いて前記一部分を符号化することとを前記プロセッサに行わせる命令をさらに備える、請求項21に記載のコンピュータ可読媒体。
  26. 前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類することは、前記一部分が音楽の特性を有するか有声スピーチの特性を有するかを分類するために、前記一部分の複数の特徴を1つまたは複数のしきい値と比較することを備える、請求項21に記載のコンピュータ可読媒体。
  27. 音楽の前記特性が音楽のブロードバンド擬似雑音特性を備え、有声スピーチの前記特性が、有声スピーチの音特性または有声スピーチの準定常特性のうちの少なくとも1つを備える、請求項26に記載のコンピュータ可読媒体。
  28. 前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類することが、前記一部分の発声を第1のしきい値と比較すること、修正相関を第2のしきい値と比較すること、または長期ピッチ利得を第3のしきい値と比較することのうちの少なくとも1つを備える、請求項21に記載のコンピュータ可読媒体。
  29. 前記発声が、スピーチとの無相関に対応する0から、スピーチとの高相関に対応する1にわたり、前記修正相関が、ランダム雑音に対応する0から、高度に構造化されたサウンドに対応する1にわたり、前記長期ピッチ利得が、過去の励起と現在の予測残差との間の正規化相互相関であり、前記長期ピッチ利得は、過去の部分の誤差が現在の部分を表すのに十分でないことを示す0から、前記過去の部分の残余誤差を使用することが前記現在の部分を完全に表すことができることを示す1にわたる、請求項28に記載のコンピュータ可読媒体。
  30. 前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類することは、前記一部分中に信号アクティビティがあるかどうかを判断することと、信号アクティビティがない場合、符号化すべき有用な信号がないと判断することと、前記一部分をスピーチとして符号化することとを備える、請求項21に記載のコンピュータ可読媒体。
  31. 第1の分類器においてオーディオ信号の一部分を受信することと、
    前記第1の分類器において前記オーディオ信号の前記一部分をスピーチとしてまたは音楽として分類することと、
    前記一部分が前記第1の分類器によってスピーチとして分類された場合、第1のコーディングモードを使用して前記スピーチを符号化することと、
    前記一部分が前記第1の分類器によって音楽として分類された場合、
    前記一部分を第2の分類器に与えることと、
    前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類することと、
    前記一部分が前記第2の分類器においてスピーチとして分類された場合、第2のコーディングモードを使用して前記一部分を符号化することと、
    前記一部分が前記第2の分類器において音楽として分類された場合、第3のコーディングモードを使用して前記一部分を符号化することと
    を行うように構成されたプロセッサ。
  32. 前記オーディオ信号の前記一部分がフレームである、請求項31に記載のプロセッサ。
  33. 前記第1のコーディングモードが第1のスピーチコーダを備え、前記第2のコーディングモードが第2のスピーチコーダを備え、前記第3のコーディングモードが音楽コーダを備える、請求項31に記載のプロセッサ。
  34. 前記第1のスピーチコーダが符号励振線形予測(CELP)型コーダであり、前記第2のスピーチコーダがCELP/変換ハイブリッドコーダであり、前記音楽コーダが変換コーダである、請求項33に記載のプロセッサ。
  35. 前記プロセッサは、前記一部分を第2の分類器に与えるより前に、前記第2の分類器が有効にされるかどうかを判断することと、前記第2の分類器が有効にされない場合、前記第3のコーディングモードを用いて前記一部分を符号化することとを行うようにさらに構成された、請求項31に記載のプロセッサ。
  36. 前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類することは、前記一部分が音楽の特性を有するか有声スピーチの特性を有するかを分類するために、前記一部分の複数の特徴を1つまたは複数のしきい値と比較することを備える、請求項31に記載のプロセッサ。
  37. 音楽の前記特性が音楽のブロードバンド擬似雑音特性を備え、有声スピーチの前記特性が、有声スピーチの音特性または有声スピーチの準定常特性のうちの少なくとも1つを備える、請求項36に記載のプロセッサ。
  38. 前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類することが、前記一部分の発声を第1のしきい値と比較すること、修正相関を第2のしきい値と比較すること、または長期ピッチ利得を第3のしきい値と比較することのうちの少なくとも1つを備える、請求項31に記載のプロセッサ。
  39. 前記発声が、スピーチとの無相関に対応する0から、スピーチとの高相関に対応する1にわたり、前記修正相関が、ランダム雑音に対応する0から、高度に構造化されたサウンドに対応する1にわたり、前記長期ピッチ利得が、過去の励起と現在の予測残差との間の正規化相互相関であり、前記長期ピッチ利得は、過去の部分の誤差が現在の部分を表すのに十分でないことを示す0から、前記過去の部分の残余誤差を使用することが前記現在の部分を完全に表すことができることを示す1にわたる、請求項38に記載のプロセッサ。
  40. 前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類することは、前記一部分中に信号アクティビティがあるかどうかを判断することと、信号アクティビティがない場合、符号化すべき有用な信号がないと判断することと、前記一部分をスピーチとして符号化することとを備える、請求項31に記載のプロセッサ。
  41. オーディオ信号の一部分を受信し、前記オーディオ信号の前記一部分をスピーチとしてまたは音楽として分類し、前記一部分がスピーチとして分類された場合、第1のコーディングモードを使用して前記スピーチを符号化し、前記一部分が音楽として分類された場合、前記一部分を第2の分類器に与える、第1の分類器と、
    前記一部分が前記第1の分類器によって音楽として分類された場合、前記一部分をスピーチとしてまたは音楽として分類し、前記一部分が前記第2の分類器においてスピーチとして分類された場合、第2のコーディングモードを使用して前記一部分を符号化し、前記一部分が前記第2の分類器において音楽として分類された場合、第3のコーディングモードを使用して前記一部分を符号化する、前記第2の分類器と
    を備えるシステム。
  42. 前記オーディオ信号の前記一部分がフレームである、請求項41に記載のシステム。
  43. 前記第1のコーディングモードが第1のスピーチコーダを備え、前記第2のコーディングモードが第2のスピーチコーダを備え、前記第3のコーディングモードが音楽コーダを備える、請求項41に記載のシステム。
  44. 前記第1のスピーチコーダが符号励振線形予測(CELP)型コーダであり、前記第2のスピーチコーダがCELP/変換ハイブリッドコーダであり、前記音楽コーダが変換コーダである、請求項43に記載のシステム。
  45. 前記一部分を第2の分類器に与えるより前に、前記第2の分類器が有効にされるかどうかを判断することと、前記第2の分類器が有効にされない場合、前記第3のコーディングモードを用いて前記一部分を符号化することとをさらに備える、請求項41に記載のシステム。
  46. 前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類することは、前記一部分が音楽の特性を有するか有声スピーチの特性を有するかを分類するために、前記一部分の複数の特徴を1つまたは複数のしきい値と比較することを備える、請求項41に記載のシステム。
  47. 音楽の前記特性が音楽のブロードバンド擬似雑音特性を備え、有声スピーチの前記特性が、有声スピーチの音特性または有声スピーチの準定常特性のうちの少なくとも1つを備える、請求項46に記載のシステム。
  48. 前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類することが、前記一部分の発声を第1のしきい値と比較すること、修正相関を第2のしきい値と比較すること、または長期ピッチ利得を第3のしきい値と比較することのうちの少なくとも1つを備える、請求項41に記載のシステム。
  49. 前記発声が、スピーチとの無相関に対応する0から、スピーチとの高相関に対応する1にわたり、前記修正相関が、ランダム雑音に対応する0から、高度に構造化されたサウンドに対応する1にわたり、前記長期ピッチ利得が、過去の励起と現在の予測残差との間の正規化相互相関であり、前記長期ピッチ利得は、過去の部分の誤差が現在の部分を表すのに十分でないことを示す0から、前記過去の部分の残余誤差を使用することが前記現在の部分を完全に表すことができることを示す1にわたる、請求項48に記載のシステム。
  50. 前記第2の分類器において前記一部分をスピーチとしてまたは音楽として分類することは、前記一部分中に信号アクティビティがあるかどうかを判断することと、信号アクティビティがない場合、符号化すべき有用な信号がないと判断することと、前記一部分をスピーチとして符号化することとを備える、請求項41に記載のシステム。
JP2014552206A 2012-01-13 2012-12-21 複数のコーディングモードのための、オーディオ信号を分類する方法および装置 Active JP5964455B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261586374P 2012-01-13 2012-01-13
US61/586,374 2012-01-13
US13/722,669 2012-12-20
US13/722,669 US9111531B2 (en) 2012-01-13 2012-12-20 Multiple coding mode signal classification
PCT/US2012/071217 WO2013106192A1 (en) 2012-01-13 2012-12-21 Multiple coding mode signal classification

Publications (3)

Publication Number Publication Date
JP2015507222A true JP2015507222A (ja) 2015-03-05
JP2015507222A5 JP2015507222A5 (ja) 2015-11-26
JP5964455B2 JP5964455B2 (ja) 2016-08-03

Family

ID=48780608

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014552206A Active JP5964455B2 (ja) 2012-01-13 2012-12-21 複数のコーディングモードのための、オーディオ信号を分類する方法および装置

Country Status (12)

Country Link
US (1) US9111531B2 (ja)
EP (1) EP2803068B1 (ja)
JP (1) JP5964455B2 (ja)
KR (2) KR20170005514A (ja)
CN (1) CN104040626B (ja)
BR (1) BR112014017001B1 (ja)
DK (1) DK2803068T3 (ja)
ES (1) ES2576232T3 (ja)
HU (1) HUE027037T2 (ja)
IN (1) IN2014MN01588A (ja)
SI (1) SI2803068T1 (ja)
WO (1) WO2013106192A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017511905A (ja) * 2014-02-24 2017-04-27 サムスン エレクトロニクス カンパニー リミテッド 信号分類方法及びその装置、並びにそれを利用したオーディオ符号化方法及びその装置
US10678828B2 (en) 2016-01-03 2020-06-09 Gracenote, Inc. Model-based media classification service using sensed media noise characteristics

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9589570B2 (en) * 2012-09-18 2017-03-07 Huawei Technologies Co., Ltd. Audio classification based on perceptual quality for low or medium bit rates
CA2891413C (en) * 2012-11-13 2019-04-02 Samsung Electronics Co., Ltd. Method and apparatus for determining encoding mode
CN104347067B (zh) * 2013-08-06 2017-04-12 华为技术有限公司 一种音频信号分类方法和装置
CN104424956B9 (zh) * 2013-08-30 2022-11-25 中兴通讯股份有限公司 激活音检测方法和装置
EP3140831B1 (en) * 2014-05-08 2018-07-11 Telefonaktiebolaget LM Ericsson (publ) Audio signal discriminator and coder
CN105336338B (zh) * 2014-06-24 2017-04-12 华为技术有限公司 音频编码方法和装置
CN104143335B (zh) 2014-07-28 2017-02-01 华为技术有限公司 音频编码方法及相关装置
US9886963B2 (en) * 2015-04-05 2018-02-06 Qualcomm Incorporated Encoder selection
CN104867492B (zh) * 2015-05-07 2019-09-03 科大讯飞股份有限公司 智能交互系统及方法
KR102398124B1 (ko) 2015-08-11 2022-05-17 삼성전자주식회사 음향 데이터의 적응적 처리
US10186276B2 (en) * 2015-09-25 2019-01-22 Qualcomm Incorporated Adaptive noise suppression for super wideband music
WO2017117234A1 (en) * 2016-01-03 2017-07-06 Gracenote, Inc. Responding to remote media classification queries using classifier models and context parameters
JP6996185B2 (ja) * 2017-09-15 2022-01-17 富士通株式会社 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム
CN116149499B (zh) * 2023-04-18 2023-08-11 深圳雷柏科技股份有限公司 用于鼠标的多模式切换控制电路及切换控制方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000267699A (ja) * 1999-03-19 2000-09-29 Nippon Telegr & Teleph Corp <Ntt> 音響信号符号化方法および装置、そのプログラム記録媒体、および音響信号復号装置
JP2007538282A (ja) * 2004-05-17 2007-12-27 ノキア コーポレイション 各種の符号化フレーム長でのオーディオ符号化
JP2011075936A (ja) * 2009-09-30 2011-04-14 Panasonic Corp オーディオエンコーダ及びデコーダ
JP2011527454A (ja) * 2008-07-11 2011-10-27 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 縦列型スイッチを有する低ビットレートオーディオ符号化及び復号化

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2635914A1 (en) * 1991-06-11 1992-12-23 Qualcomm Incorporated Error masking in a variable rate vocoder
US5778335A (en) 1996-02-26 1998-07-07 The Regents Of The University Of California Method and apparatus for efficient multiband celp wideband speech and music coding and decoding
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6493665B1 (en) * 1998-08-24 2002-12-10 Conexant Systems, Inc. Speech classification and parameter weighting used in codebook search
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
AU6725500A (en) * 1999-08-23 2001-03-19 Matsushita Electric Industrial Co., Ltd. Voice encoder and voice encoding method
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
US6625226B1 (en) * 1999-12-03 2003-09-23 Allen Gersho Variable bit rate coder, and associated method, for a communication station operable in a communication system
US6697776B1 (en) * 2000-07-31 2004-02-24 Mindspeed Technologies, Inc. Dynamic signal detector system and method
US6694293B2 (en) 2001-02-13 2004-02-17 Mindspeed Technologies, Inc. Speech coding system with a music classifier
US6785645B2 (en) 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
US6829579B2 (en) * 2002-01-08 2004-12-07 Dilithium Networks, Inc. Transcoding method and system between CELP-based speech codes
US7657427B2 (en) * 2002-10-11 2010-02-02 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
US7363218B2 (en) * 2002-10-25 2008-04-22 Dilithium Networks Pty. Ltd. Method and apparatus for fast CELP parameter mapping
FI118834B (fi) * 2004-02-23 2008-03-31 Nokia Corp Audiosignaalien luokittelu
US8010350B2 (en) 2006-08-03 2011-08-30 Broadcom Corporation Decimated bisectional pitch refinement
CN1920947B (zh) * 2006-09-15 2011-05-11 清华大学 用于低比特率音频编码的语音/音乐检测器
CN101197130B (zh) * 2006-12-07 2011-05-18 华为技术有限公司 声音活动检测方法和声音活动检测器
KR100964402B1 (ko) * 2006-12-14 2010-06-17 삼성전자주식회사 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치
KR100883656B1 (ko) 2006-12-28 2009-02-18 삼성전자주식회사 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치
CN101226744B (zh) * 2007-01-19 2011-04-13 华为技术有限公司 语音解码器中实现语音解码的方法及装置
KR100925256B1 (ko) * 2007-05-03 2009-11-05 인하대학교 산학협력단 음성 및 음악을 실시간으로 분류하는 방법
CN101393741A (zh) * 2007-09-19 2009-03-25 中兴通讯股份有限公司 一种宽带音频编解码器中的音频信号分类装置及分类方法
CN101399039B (zh) * 2007-09-30 2011-05-11 华为技术有限公司 一种确定非噪声音频信号类别的方法及装置
CN101221766B (zh) * 2008-01-23 2011-01-05 清华大学 音频编码器切换的方法
BRPI0910285B1 (pt) 2008-03-03 2020-05-12 Lg Electronics Inc. Métodos e aparelhos para processamento de sinal de áudio.
CN101236742B (zh) * 2008-03-03 2011-08-10 中兴通讯股份有限公司 音乐/非音乐的实时检测方法和装置
US8768690B2 (en) * 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
RU2507609C2 (ru) * 2008-07-11 2014-02-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Способ и дискриминатор для классификации различных сегментов сигнала
KR101261677B1 (ko) * 2008-07-14 2013-05-06 광운대학교 산학협력단 음성/음악 통합 신호의 부호화/복호화 장치
CN101751920A (zh) * 2008-12-19 2010-06-23 数维科技(北京)有限公司 基于再次分类的音频分类装置及其实现方法
CN101814289A (zh) * 2009-02-23 2010-08-25 数维科技(北京)有限公司 低码率dra数字音频多声道编码方法及其系统
CN102237085B (zh) * 2010-04-26 2013-08-14 华为技术有限公司 音频信号的分类方法及装置
CA2821577C (en) 2011-02-15 2020-03-24 Voiceage Corporation Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a celp codec

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000267699A (ja) * 1999-03-19 2000-09-29 Nippon Telegr & Teleph Corp <Ntt> 音響信号符号化方法および装置、そのプログラム記録媒体、および音響信号復号装置
JP2007538282A (ja) * 2004-05-17 2007-12-27 ノキア コーポレイション 各種の符号化フレーム長でのオーディオ符号化
JP2011527454A (ja) * 2008-07-11 2011-10-27 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 縦列型スイッチを有する低ビットレートオーディオ符号化及び復号化
JP2011075936A (ja) * 2009-09-30 2011-04-14 Panasonic Corp オーディオエンコーダ及びデコーダ

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017511905A (ja) * 2014-02-24 2017-04-27 サムスン エレクトロニクス カンパニー リミテッド 信号分類方法及びその装置、並びにそれを利用したオーディオ符号化方法及びその装置
US10678828B2 (en) 2016-01-03 2020-06-09 Gracenote, Inc. Model-based media classification service using sensed media noise characteristics
US10902043B2 (en) 2016-01-03 2021-01-26 Gracenote, Inc. Responding to remote media classification queries using classifier models and context parameters

Also Published As

Publication number Publication date
SI2803068T1 (sl) 2016-07-29
IN2014MN01588A (ja) 2015-05-08
ES2576232T3 (es) 2016-07-06
US20130185063A1 (en) 2013-07-18
US9111531B2 (en) 2015-08-18
BR112014017001B1 (pt) 2020-12-22
BR112014017001A2 (pt) 2017-06-13
JP5964455B2 (ja) 2016-08-03
DK2803068T3 (en) 2016-05-23
HUE027037T2 (en) 2016-08-29
EP2803068A1 (en) 2014-11-19
KR20140116487A (ko) 2014-10-02
BR112014017001A8 (pt) 2017-07-04
EP2803068B1 (en) 2016-04-13
WO2013106192A1 (en) 2013-07-18
KR20170005514A (ko) 2017-01-13
CN104040626A (zh) 2014-09-10
CN104040626B (zh) 2017-08-11

Similar Documents

Publication Publication Date Title
JP5964455B2 (ja) 複数のコーディングモードのための、オーディオ信号を分類する方法および装置
US9875752B2 (en) Voice profile management and speech signal generation
KR101721303B1 (ko) 백그라운드 잡음의 존재에서 음성 액티비티 검출
US8924222B2 (en) Systems, methods, apparatus, and computer-readable media for coding of harmonic signals
US8600740B2 (en) Systems, methods and apparatus for context descriptor transmission
US9143571B2 (en) Method and apparatus for identifying mobile devices in similar sound environment
JP6058824B2 (ja) パーソナライズされた帯域幅拡張
JP6373873B2 (ja) 線形予測コーディングにおける適応型フォルマントシャープニングのためのシステム、方法、装置、及びコンピュータによって読み取り可能な媒体
US9293143B2 (en) Bandwidth extension mode selection
TW201434033A (zh) 用於判定音調脈衝週期信號界限之系統及方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151006

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151006

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20151006

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20151104

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160308

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160531

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160629

R150 Certificate of patent or registration of utility model

Ref document number: 5964455

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250