JP5325292B2 - 信号の異なるセグメントを分類するための方法および識別器 - Google Patents

信号の異なるセグメントを分類するための方法および識別器 Download PDF

Info

Publication number
JP5325292B2
JP5325292B2 JP2011516981A JP2011516981A JP5325292B2 JP 5325292 B2 JP5325292 B2 JP 5325292B2 JP 2011516981 A JP2011516981 A JP 2011516981A JP 2011516981 A JP2011516981 A JP 2011516981A JP 5325292 B2 JP5325292 B2 JP 5325292B2
Authority
JP
Japan
Prior art keywords
segment
audio signal
speech
music
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011516981A
Other languages
English (en)
Other versions
JP2011527445A (ja
Inventor
ギヨーム フックス
シュテファン バイエル
イェンス ヒルシュフェルト
ユールゲン ヘレ
イェレミー ルコンテ
フレドリック ナーゲル
ニコラウス レッテルバッハ
シュテファン ヴァブニック
嘉一 横谷
Original Assignee
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ filed Critical フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2011527445A publication Critical patent/JP2011527445A/ja
Application granted granted Critical
Publication of JP5325292B2 publication Critical patent/JP5325292B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Image Analysis (AREA)

Description

本発明は、少なくとも第1のタイプおよび第2のタイプのセグメントを含む信号の異なるセグメントを分類するための方法に関する。本発明の実施例は、オーディオ符号化の分野、および、特に、オーディオ信号を符号化する上で音声(speech)/音楽識別に関する。
従来技術において、MP3またはAACのような周波数領域の符号化スキームが、公知である。これらの周波数領域エンコーダは、時間領域/周波数領域変換、量子化誤差が音響心理モジュールからの情報を用いて制御される量子化ステージ、および量子化されたスペクトル係数および対応するサイド情報がコード表を使用してエントロピー符号化される符号化ステージに基づく。
他方では、3GPP TS 26.290において記載されているような、例えば、AMR−WB+のような音声処理に非常に適するエンコーダがある。そのような音声符号化スキームは、時間領域信号の線形予測フィルタリングを実行する。そのようなLPフィルタは、入力時間領域信号の線形予測分析から導出される。その後、結果として得るLPフィルタの係数は符号化され、そしてサイド情報として送信される。その処理は、線形予測符号化(LPC:Linear Prediction Coding)として知られる。フィルタの出力において、予測残差信号、または励振信号としても知られる予測誤差信号は、ACELPエンコーダの分析/合成ステージを用いて符号化されるか、または、あるいは、オーバーラップを伴うフーリエ変換を使用する変換エンコーダを用いて符号化される。ACELP符号化およびTCX符号化とも呼ばれる変換符号化励振コーディング(Transform Coded eXcitation coding)の間の選択は、閉ループアルゴリズム、または開ループアルゴリズムを用いて行われる。
AAC符号化スキームとスペクトル帯域幅多重化技術を組み合わせる高効率のAAC符号化のような周波数領域オーディオ符号化スキームも、用語“MPEGサラウンド”の項目で知られるジョイントステレオまたはマルチチャンネル符号化ツールに組み合わされる。周波数領域符号化スキームは、音楽信号に対して低ビットレートにおいて高品質を示すという点で、有利である。しかしながら、低ビットレートにおける音声信号の品質は、問題を含む。
他方では、例えば、AMR−WB+のような音声エンコーダも、高周波強化ステージおよびステレオ機能性を有する。音声符号化スキームは、低ビットレートにおいてさえ、音声信号に対して高品質を示すが、低ビットレートにおいて音楽信号に対して低品質を示す。
前述の入手可能な符号化スキームを考慮して、そのいくつかは、音声の符号化に対して適しており、そして、他は、音楽の符号化に対して適しており、符号化するためのオーディオ信号の自動のセグメンテーションおよび分類が、多くのマルチメディアアプリケーションの重要なツールであって、オーディオ信号において生じている異なるクラス毎に対する適切な処理を選択するために使用されうる。アプリケーションの全体のパフォーマンスは、オーディオ信号の分類の信頼性に強く依存している。実際、誤った分類は、次のプロセスの不適合な選択および同調を起こす。
図6は、オーディオ信号の識別に依存する音声および音楽を別々に符号化するために使用される従来のコーダの設計を示す。コーダの設計は、例えば、技術仕様書である「拡張された適応多重レート−広帯域(AMR−WB+)のコーデック(Extended Adaptive Multi−Rate−Wideband(AMR−WB+)codec)」,3GPP TS 26.290 V6.3.0,2005−06において記載されているように、AMR−WB+である適切な音声エンコーダ102を含む音声符号化部100を含む。さらに、コーダの設計は、例えば、映画および関連オーディオ情報の共通符号化(Generic Coding of Moving Picture and Associated Audio):先進的音響符号化(Advanced Audio Coding).国際標準13818−7,ISO/IEC JTC1/SC29/WG11 動画専門家集団(Moving Pictures Expert Group),1997において記載されているように、例えば、AAC音楽エンコーダである音楽エンコーダ106を含む音楽符号化部104を含む。
エンコーダ102および106の出力は、マルチプレクサ108の入力に接続される。エンコーダ102および106の入力は、入力オーディオ信号を伝えている入力ライン110に選択的に接続可能である。入力オーディオ信号は、図6において概略的に示されるスイッチ112によって音声エンコーダ102または音楽エンコーダ106に選択的に適用され、そして、スイッチ制御部114によって制御される。加えて、コーダの設計は、その入力オーディオ信号を入力で受信し、スイッチ制御部114に制御信号を出力もする音声/音楽識別器116を含む。スイッチ制御部114は、さらに、モードインジケータ信号が、符号化信号と共に送られうるように、マルチプレクサ108の第2の入力に入力されるライン118におけるモードインジケータ信号を出力する。モードインジケータ信号は、例えば、デコーダにおいて識別がなされる必要がないように、モードインジケータビットと関連するデータブロックが、音声符号化または音楽符号化のどちらか一方を指し示す1ビットのみ有しうる。適切なスイッチ信号は、デコーダ側に符号化されたデータと共に提示されるモードインジケータビットに基づいてというよりむしろ、適切な音声または音楽デコーダに受信されおよび符号化されたデータを送るためのモードインジケータに基づいて発生しうる。
図6は、ライン110に適用されるデジタル的に音声および音楽信号を符号化するために使用される旧来のコーダの設計である。一般に、音声エンコーダは音声においてよい結果を出し、オーディオエンコーダは、音楽においてよい結果を出す。汎用符号化スキームは、入力信号の性質に従って1つのコーダからもう一方へ切り替えるマルチコーダシステムを用いて設計されうる。ここで、重要な課題は、スイッチング素子を動かす適切な入力信号の分類器を設計することである。分類器は、図6において示される音声/音楽識別器116である。通常、オーディオ信号の信頼性の高い分類は、高い遅延を導くが、一方では、遅延は、実時間アプリケーションにおいて重要なファクタである。
一般に、音声/音楽識別器によって導かれる全体のアルゴリズムに関する遅延は、実時間アプリケーションにおいて、スイッチ型コーダを使用しうるように、十分に低いこと、が要求される。
図7は、図6において示すようなコーダの設計における経験から得られた遅延を例示する。音声/音楽識別器が、例えば、フレームごと、すなわち、64ミリ秒ごとに決定を供給すべきであるために、入力ライン110に適用された信号が、16kHzのサンプリングレートで1024個のサンプルのフレームに基づき符号化されると仮定される。2つのエンコーダの間の移行は、例えば、国際公開2008/071353A2号公報において記載されるような方法で達成され、そして、音声/音楽識別器は、音声/音楽識別器のために必要とされる遅延を考慮することのない合計1600個のサンプルにおいてスイッチ型デコーダのアルゴリズムに関する遅延を著しく増加させてはならない。さらに、音声/音楽の決定を、AACブロックスイッチが決定する同じフレームに提供することが更に望ましい。状態は、2048個のサンプルの長さを有するAACロングブロック120を例示している図7において表現される。すなわち、ロングブロック120は、1024個のサンプルの2つのフレーム、1024個のサンプルの1つのフレームのACCショートブロック122、および1024個のサンプルの1つのフレームのAMR−WB+スーパーフレーム124を含む。
図7において、AACブロック−スイッチの決定および音声/音楽の決定は、同じ期間をカバーする1024個のサンプルのフレーム126および128に取り入れられる。2つの決定は、あるモードを他のモードに適切に作動ための時間遷移窓(time transition windows)において使用することができる符号化させるためのこの特定の位置で取り入れられる。その結果、512+64個のサンプルの最小限の遅延は、2つの決定によって導かれる。この遅延は、1600個のサンプルの最小限の遅延を与えるAAC MDCTを形成する50%のオーバーラップによって生成された1024個のサンプルの遅延に追加されなければならない。従来のAACにおいて、ブロック−切り替えのみ提示され、そして遅延は、正確に1600個のサンプルである。過渡信号が、フレーム126において検出される場合、この遅延は、ロングブロックからショートブロックに同時に切り替えるために必要である。変換長さのこの切り替えは、プリエコーアーティファクト(pre−echo artifact)を回避するために望ましい。図7における復号化されたフレームは、どんな場合(ロングまたはショートブロック)においてもデコーダ側において、もとに戻されうる第1の全体フレームを表す。
音楽エンコーダとしてAACを使用するスイッチ型コーダにおいて、決定ステージからもたらされるスイッチ決定は、あまりに多くのさらなる遅延を元のAAC遅延に加えることを避けるべきである。追加の遅延は、決定ステージにおける信号分析のために必要とされる先読みフレーム132からもたらされる。従来の音声/音楽識別器は、先読みの約500msを使用する一方、例えば、16kHzのサンプリングレートにおいて、AAC遅延は、100msである。そして、それは、600msの遅延を伴う切り替えられた符号化構造を結果として得る。合計の遅延は、もとのAAC遅延の6倍である。
上述の従来のアプローチは、新規な方法の必要が、異なるタイプのセグメントを含んでいる信号を識別するために存在するように、望まない遅延が導かれ、オーディオ信号の信頼性の高い分類に関して不利である。ここで、スイッチ型コーダが実時間アプリケーションにも代用されるように、識別器によって導かれる追加のアルゴリズムに関する遅延は、十分に低い。
J.ワングら著(J.Wang,et.al.)「階層的な偏った決定木を有するリアルタイム音声/音楽分類(Real−time speech/music classification with a hierarchical oblique decision tree)」,ICASSP 2008,音響、音声および信号処理のIEEE国際会議(IEEE International Conference on Acoustics,Speech and Signal Processing),2008年3月31から2008年4月4日には、フレームの同数から導き出されたショートターム特性およびロングターム特性を使用する音声/音楽分類のためのアプローチを記載する。これらのショートターム特性およびロングターム特性は、信号を分類するために使用されるが、しかし、ショートターム特性の限られた性質だけが利用され、例えば、分類の反応性が利用されない。ただし、大部分のオーディオ符号化アプリケーションのための重要な役割を有する。
国際公開2008/071353号公報
J.ワングら著(J.Wang,et.al.)「階層的な偏った決定木を有するリアルタイム音声/音楽分類(Real−time speech/music classification with a hierarchical oblique decision tree)」,ICASSP 2008,音響、音声および信号処理のIEEE国際会議(IEEE International Conference on Acoustics,Speech and Signal Processing),2008年3月31から2008年4月4日
本発明の目的は、識別によって導かれるいかなる遅延も低く保つとともに、異なるタイプの信号セグメントにおいて識別するための改良された方法を提供することである。
この目的は、請求項1に記載の方法によって、および請求項14に記載の識別器によって達成される。
本発明の一実施形態は、信号の異なるセグメントを分類するための方法を提供し、信号は、少なくとも第1のタイプおよび第2のタイプのセグメントを含み、方法は、
信号から抽出される少なくとも一つのショートターム特性に基づいて信号をショートターム分類し、ショートターム分類結果を供給するステップと、
信号から抽出される少なくとも一つのショートターム特性および少なくとも一つのロングターム特性に基づいて信号をロングターム分類し、ロングターム分類結果を供給するステップと、
信号のセグメントが、第1のタイプか、または第2のタイプのいずれかを指し示す出力信号を提供するために、ショートターム分類結果およびロングターム分類結果を組み合わせるステップと、を含む。
本発明の他の実施形態は、識別器を提供し、
信号を受信し、信号から抽出される少なくとも一つのショートターム特性に基づいて、信号のショートターム分類結果を提供するために構成されるショートターム分類器であって、信号は、第1のタイプおよび第2のタイプを含む、ショートターム分類器と、
信号を受信し、信号から抽出される少なくとも一つのショートターム特性と少なくとも一つのロングターム特性に基づいて、信号のロングターム分類結果を提供するために構成されるロングターム分類器と、
信号のセグメントが、第1のタイプか、または第2のタイプのいずれかを指し示す出力信号を提供するために、ショートターム分類結果およびロングターム分類結果を組み合わせるために構成される決定回路と、を含む。
本発明の実施形態は、ショートターム分析結果とロングターム分析結果との比較の結果に基づいて、出力信号を提供する。
本発明の実施形態は、音声もしくは非音声、または更なるクラスとして、オーディオ信号の異なる非オーバーラップの短時間セグメントを分類するためのアプローチに関する。アプローチは、2つの異なる分析ウィンドウ長さの間の特性の抽出およびそれらの統計の分析に基づく。第1のウィンドウは長く、主に過去に目を向ける。第1のウィンドウは、信号の分類のための信頼性は高いが、遅延決定クルー(delayed decision clue)を得るために使用される。第2のウィンドウは短く、主に、現時点または現在のセグメントにおいて処理されるセグメントを考慮する。第2のウィンドウは、瞬時決定クルー(instantaneous decision clue)を得るために使用される。2つの決定クルーは、好ましくは、遅延クルーからのメモリ情報および瞬時クルーからの瞬間的な情報を得るヒステリシス決定を使用することによって、最適に組み合わされる。
本発明の実施形態は、2つの分類器が同じ特性の異なる統計を利用するように、ショートターム分類器およびロングターム分類器の両方において、ショートターム特性を使用する。ショートターム分類器は、瞬間的な情報のみを抽出する。なぜなら、それは、1つの特性のセットだけにアクセスするからである。例えば、それは、特性の意味を利用することができる。一方、ロングターム分類器は、いくつかの特性のセットにアクセスする。なぜなら、それはいくつかのフレームを考慮するからである。結果として、ロングターム分類器は、ショートターム分類器より多くのフレーム上の統計を利用することによって、より多くの特徴を利用することができる。例えば、ロングターム分類器は、時間の経過と共に特性の変化または特性の展開を利用することができる。このように、ロングターム分類器は、ショートターム分類器よりも多い情報を利用することができる。しかし、それは、遅延または待ち時間を導入する。しかしながら、遅延または待ち時間を導入するにもかかわらず、ロングターム特性は、ロングターム分類結果をより強固にし、そしてより信頼性を高くする。いくつかの実施形態において、ショートタームおよびロングターム分類器は、両方の分類器によって一度計算され、使用されうる同じショートターム特性を考慮することができる。このように、そのような実施形態において、ロングターム分類器は、ショートターム分類器から直接ショートターム特性を受信することができる。
新しいアプローチは、それにより、低遅延を導くと共に、強固な分類を得ることが可能である。従来のアプローチ以外の本発明の実施形態は、信頼性が高い決定を保つと共に、音声/音楽決定によって導かれる遅延を制限する。本発明の一実施形態において、先読みは、108msのみの全体の遅延を結果として得られる128個のサンプルに制限される。
本発明の実施例は、添付の図面を参照してその後詳述される。
図1は、本発明の実施形態による音声/音楽識別器のブロック図である。 図2は、図1の識別器のロングタームおよびショートターム分類器によって使用される分析ウィンドウを例示する。 図3は、図1の識別器において使用されるヒステリシス決定の例示である。 図4は、本発明の実施形態による識別器を含む典型的な符号化スキームのブロック図である。 図5は、図4の符号化スキームに対応する復号化スキームのブロック図である。 図6は、オーディオ信号の識別に依存する音声および音楽を別々に符号化するために使用される従来のコーダの設計を示す。 図7は、図6において示されるコーダの設計における経験から得られた遅延の例示である。
図1は、本発明の実施形態による音声/音楽識別器116のブロック図である。音声/音楽識別器116は、入力信号をその入力で受信するショートターム分類器150を含み、例えば、オーディオ信号は、音声および音楽のセグメントを含む。ショートターム分類器150は、ショートターム分類結果(瞬時決定クルー)を出力ライン152上に出力する。識別器116は、さらに、入力信号も受信し、ロングターム分類結果(遅延決定クルー)を出力ライン156上に出力するロングターム分類器154を含む。さらに、ヒステリシス決定回路158は、ライン160上に出力される音声/音楽決定信号を生成するための以下にさらに詳細に記載される、いわばショートターム分類器150およびロングターム分類器154からの出力信号の組み合せを提供され、そして、図6に関して記載されるようにいわば入力信号のセグメントの処理を更に制御するために使用される。すなわち、音声/音楽決定信号160は、音声エンコーダまたはオーディオエンコーダに分類されている入力信号セグメントを送るために使用されうる。
このように、本発明の実施形態によれば、2つの異なる分類器150および154は、入力ライン110を介してそれぞれの分類器に適用される入力信号に同時に使用される。2つの分類器は、ロングターム分類器154およびショートターム分類器150と呼ばれ、ここで、2つの分類器は、分析ウィンドウ上の動作における特性の統計の分析によって異なる。2つの分類器は、瞬時決定クルー(IDC)および遅延決定クルー(DDC)と呼ばれる出力信号152および156を供給する。ショートターム分類器150は、入力信号の性質についての瞬間の情報を捉えるための目的を有するショートターム特性に基づいてIDCを生成する。それらは、急速に、そしていつでも変化することができる信号のショートターム属性に関連する。その結果、ショートターム特性は、反応が早く、そして全体の識別処理へ長い遅延を導入しないことが要求される。例えば、音声は、5−20msの期間において準定常していると考慮されるので、ショートターム特性は、16kHzでサンプルされる信号における16msの各フレームで計算されうる。ロングターム分類器154は、(ロングターム特性)信号の長い観察から結果として得る特性に基づいてDDCを生成して、従って、より信頼性の高い分類を達成することを可能にする。
図2は、図1において示されるロングターム分類器154およびショートターム分類器150によって使用される分析ウィンドウを例示する。16kHzのサンプリングレートで1024個のサンプルのフレームであると仮定すれば、ロングタームクラシファイヤウィンドウ162の長さは、4*1024+128個のサンプルである。すなわち、ロングタームクラシファイヤウィンドウ162は、オーディオ信号の4つのフレームにまたがり、そして、追加の128個のサンプルは、その分析をするためにロングターム分類器154により必要とされる。「先読み」として参照されるこの追加の遅延は、引用符号164で図2において示される。図2は、また、1024+128個のサンプルであるショートタームクラシファイヤウィンドウ166を示す。すなわち、ショートタームクラシファイヤウィンドウは、オーディオ信号の一つのフレームにまたがり、追加の遅延は、現在のセグメントを分析するために必要とされる。現在のセグメントは、音声/音楽決定がなされることを必要とするセグメントとして、128において示される。
図2において示されるロングタームクラシファイヤウィンドウは、音声の4Hzのエネルギー変調特性を得るために、十分に長い。4Hzのエネルギー変調は、適切であり、そして、例えば、(Scheirer E.and Slaney M.)「堅固な複数の特徴の音声/音楽識別器の構成および評価(Construction and Evaluation of a Robust Multifeature Speech/Music Discriminator)」,ICASSP’97,ミュンヘン,1997によって使用される堅固な音声/音楽識別器において、従来から利用される音声の特徴を識別する。4Hzのエネルギー変調は、長い時間のセグメントにおける信号の観察によってのみ抽出されうる特徴である。音声/音楽識別器によって導かれる追加の遅延は、128個のサンプルの先読み164に等しい。そして、それは、H.ヘルマンスキー著(H.Hermansky)「音声の知覚的な線形予測(plp)分析(Perceptive linear prediction (plp) analysis of speech)」,(Journal of the Acoustical Society of America),vol.87,no.4,1738−1752ページ,1990およびH.ヘルマンスキーら著(H.Hermansky,et al.)「音声の線形予測分析に基づく知覚(Perceptually based linear predictive analysis of speech)」,ICASSP 5.509−512ページ,1985によって記載される知覚の線形予測分析のようなそれぞれの分析をさせるためにお互いの分類器150および154によって必要とされる。このように、図6において示されるようなエンコーダの設計における上述の実施形態の識別器を使用する場合、スイッチ型コーダ102および106の全体の遅延は、実時間アプリケーションのために十分に低い108msに等しい1600+128個のサンプルである。
次に、音声/音楽決定信号160を得るための識別器116の分類器150および154の出力信号152および156の結合を記載している図3を参照する。本発明の実施形態によると、遅延決定クルー(DDC)および瞬時決定クルー(IDC)は、ヒステリシス決定(Hysteriesis decision)を用いて組み合わされる。ヒステリシスプロセス(Hysterisis processe)は、それらを安定させるために、後処理決定に広く使用される。図3は、音声/音楽決定信号が音声のセグメントまたは音楽のセグメントであるとして入力信号の現在の処理されたセグメントを指し示すべきかどうかを決定するために、DDCおよびIDCの関数として2つの状態のヒステリシス決定を例示する。図3において、特性ヒステリシスサイクルが示され、IDCおよびDDCは、値が−1と1の間であって、ここで、−1は、尤度が全体的に音楽のようであるという意味であり、そして1は、尤度が全体的に音声のようであるという意味である、というような方法で、分類器150および154によって規格化される。
決定は、例えば、後述するように関数F(IDC,DDC)の値に基づく。図3において、F1(IDCDDC)は、F(IDC,DDC)が、音楽状態から音声状態に作動するために交差すべき閾値を示す。F2(IDCDDC)は、F(IDC,DDC)が、音声状態から音楽状態に作動するために交差すべき閾値を示す。インデックスnを有する現在のセグメントまたは現在のフレームのための最終決定D(n)は、以下の擬似コードに基づいて算出されうる。

%擬似コード
If(D(n−1)==music)
If(F(IDC,DDC)<F1(IDCDDC))
D(n)==music
Else
D(n)==speech
Else
If(F(IDC,DDC)>F2(IDCDDC))
D(n)==speech
Else
D(n)==music
%擬似コードの終了
本発明の実施形態によれば、関数F(IDC,DDC)および上述の閾値は、以下の通りに設定される:

F(IDC,DDC)=IDC
F1(IDC,DDC)=0.4−0.4*DDC
F2(IDC,DDC)=−0.4−0.4*DDC
あるいは、以下の定義が使用されうる:

F(IDC,DDC)=(2*IDC+DDC)/3
F1(IDC,DDC)=−0.75*DDC
F2(IDC,DDC)=−0.75*DDC
最後の定義を用いる場合、ヒステリシスサイクルは消滅し、そして、決定は、固有の適応できる閾値に基づくのみである。
本発明は、ヒステリシス決定に限られない。以下に、出力信号を得るための分析結果を組み合わせるための更なる実施形態が記載される。
シンプルな閾値処理は、DDCおよびIDCの両方の特性を利用する方法の閾値とすることによって、ヒステリシス決定の代わりに使用されうる。DDCは、より信頼性を有する識別クルーであることを考慮される。なぜなら、それは、信号のより長い観察によってもたらされるからである。また、一方、DDCは、部分的に信号の過去の観測に基づいて計算される。値DDCと閾値0とを比較し、DDC>0の場合、音声のようであるとしてセグメントを分類し、それ以外は、音楽のようであると分類することによって、従来の分類器は、遅延決定を有する。本発明の一実施形態において、われわれは、IDCを利用することによって閾値処理を適応させることができ、より敏感な決定をすることができる。この目的のために、閾値は、以下の擬似コードに基づいて適応することができる:

%適応閾値処理の擬似コード
If(DDC>−0.5*IDC)
D(n)==speech
Else
D(n)==music
%適応閾値処理の終了
他の実施形態において、DDCは、IDCの信頼性をより高くするために使用されうる。IDCは、敏感であるが、DDCほど信頼性が高くないことが知られている。さらに、過去および現在のセグメントの間におけるDDCの発展に目を向けることは、図2のフレーム166がセグメント162において算出されるDDCに影響する他の表示を与えることができる。DDC(n)の表記は、DDCの現在の値に対して使用され、DDC(n−1)は、過去の値に対して使用される。DDC(n)およびDDC(n−1)の両方の値を使用して、IDCは、以下に記載するように、決定木を使用することによって、より信頼性が高くなりうる:

%決定木の擬似コード
If(IDC>0 && DDC(n)>0)
D(n)=speech
Else if (IDC<0 && DDC(n)<0)
D(n)=music
Else if (IDC>0 && DDC(n)−DDC(n−1)>0)
D(n)=speech
Else if (IDC<0 && DDC(n)−DDC(n−1)<0)
D(n)=music
Else if (DDC>0)
D(n)=speech
Else
D(n)=music
%決定木の終了
上記の決定木において、両方のクルーが同じ尤度を示す場合、決定は直接行われる。2つのクルーが矛盾している表示を与える場合、我々は、DDCの進展を調べる。DDC(n)−DDC(n−1)の差が正である場合、我々は、現在のセグメントが音声のようであると推定しうる。そうでなければ、我々は、現在のセグメントが音楽のようであると推定しうる。この新規な表示が、IDCのように同じ傾向に進む場合、その後、最終決定が行われる。両方の試みが明確な決定を与えることに失敗する場合、IDCの信頼性は確認しえないので、決定は、遅延クルーDDCのみを考慮することによって行われる。
以下に、本発明の実施形態によるそれぞれの分類器150および154がより詳細に記載される。
まず、最初に、ロングターム分類器154について考えると、それは、256のサンプルのサブフレームごとに一組の特性を抽出することにある点に留意する。H.ヘルマンスキー(H.Hermansky)著,「音声の知覚線形予測(plp)分析(Perceptive linear prediction(plp)analysis of speech)」,アメリカ音響学会(Journal of Acoustical Society of America),第87巻,no.4,pp1738−1752,1990年、およびH.ヘルマンスキー(H.Hermansky,et al.)ら著,「音声の知覚的な線形予測分析(Perceptually based linear predictive analysis of speech)」,ICASSP 5.509−512,1985年によって記載されるように、第1の特性は、知覚線形予測ケプストラム係数(Perceptual Linear Prediction Cepstral Coefficient:PLPCC)である。PLPCCは、人の聴覚推定を用いることによって、スピーカ分類法に対して効率的である。この特性は、音声および音楽を識別するために用いられ、そして、実際に、時間とともに特徴変化に目を向けることによって音声の音節の4Hzの変調と同様に音声の特性フォルマントを識別することを可能にする。
しかしながら、より堅固にするために、PLPCCは、ピッチ情報を獲得することが可能である他の特性と組み合わされる。そして、それは、音声の他の重要な特徴であって、符号化において、重要な意味を持ちうる。実際、音声符号化は、入力信号が擬似単一周期信号であるという仮定に依存する。音声符号化スキームは、そのような信号に対して効率的である。一方、音声のピッチ特徴は、音楽コーダの多くの符号化効率を阻害する。音声の自然なビブラートを与えられる滑らかなピッチの遅延ばらつきは、高い符号化効率を得るために必要であるエネルギーを圧縮することができないために、音楽のコーダにおいて、周波数表現を構成する。
以下にピッチ特性が決定されうる。
声門パルスのエネルギー比率:
この特性は、声門パルスおよびLPC残留信号との間のエネルギー比率を計算する。声門パルスは、ピック−ピーキングアルゴリズム(pick−peaking algorithm)を用いて、LPC残留信号から抽出される。通常、有声音区間(voiced segment)のLPC残留は、声門の振動から来ている大きなパルスのような構造を示す。特性は、有声音区間の間、高い。
ロングタームのゲイン予測:
通常、ロングターム予測の間、音声コーダ(例えば、拡張適応マルチレート・ワイドバンド(Extended Adaptive Multi−Rate−Wideband:AMR−WB+)コーデック,3GPP TS 26.290 V6.3.0,2005−06)において計算されるゲインである。この特性は、信号の周期性を測定し、そして、ピッチ遅延推定に基づく。
ピッチの遅延ばらつき:
最後のサブフレームと比較される場合、この特性は、現在のピッチ遅延推定の差を決定する。有声音声に対して、この特性は、低くなければならないが、ゼロではなく、そして、円滑に進展しなければならない。
ロングターム分類器が所要の一組の特性を抽出すると、統計的分類器は、これらの抽出された特徴に使用される。分類器は、最初、音声トレーニングセットおよび音楽トレーニングセット上の特性を抽出することによってトレーニングされる。抽出された特性は、両方のトレーニングセット上の平均値0および分散1に規格化される。各トレーニングセットに対して、抽出され、規格化された特性は、ロングタームクラシファイヤウィンドウの範囲内で収集され、そして、5つのガウシアン(five Gaussians)を用いる混合ガウス分布モデル(Gaussians Mixture Model:GMM)によってモデル化される。トレーニングシーケンスの終わりに、一組の規格化しているパラメータおよび二組のGMMパラメータが得られ、そして保存される。
分類するフレームごとに、最初、特性は、規格化パラメータによって抽出されて、そして、規格化される。音声(lld_speech)のための最大の尤度、および音楽(lld_music)のための最大の尤度は、音声クラスのGMMおよび音楽クラスのGMMをそれぞれ用いて抽出され、そして規格化された特性のために計算される。そして、遅延決定クルーDDCは、以下のように計算される:

DDC=(lld_speech−lld_music)/(abs(lld_music)+abs(lld_speech))
DDCは、−1と1との間で境界が示され、音声のための最大の尤度が音楽のための最大の尤度よりも高い(lld_speech>lld_music)場合、正である。
ショートターム分類器は、ショートタームの特性としてPLPCCを使用する。ロングターム分類器以外で、この特性は、ウィンドウ128において分析されるのみである。この特性の統計は、5つのガウシアンを用いる混合ガウス分布モデル(GMM)によってこの短期において利用される。2つのモデルは、音楽のための一方、および音声のための他方でトレーニングされる。2つのモデルがロングターム分類器のために得られるものとは異なることは、通知するものに値する。分類するフレームごとに、最初、PLPCCが抽出され、そして、音声(lld_speech)のための最大の尤度および音楽(lld_music)のための最大の尤度が、音声クラスのGMMおよび音楽クラスのGMMをそれぞれ用いることで計算される。そして、瞬時決定クルー(IDC)は、以下のように計算される:

IDC=(lld_speech−lld_music)/(abs(lld_music)+abs(lld_speech))
IDCは−1と1との間で境界が示される。
このように、ショートターム分類器150は、特性(知覚線形予測ケプストラム係数:PLPCC)に基づく信号のショートターム分類結果を生成し、そして、ロングターム分類器154は、同じ特性(知覚線形予測ケプストラム係数:PLPCC)および上述した追加の特性(例えば、ピッチ特性)に基づく信号のロングターム分類結果を生成する。さらに、それがより長い観測窓にアクセスするとき、ロングターム分類器は、共通の特性(すなわち、PLPCC)の異なる特徴を利用することができる。このように、ショートタームおよびロングタームの結果を組み合わせた上で、ショートタームの特性は、分類のために十分に考慮される。すなわち、その性質が十分に利用される。
それぞれの分類器150および154のための更なる実施形態が、以下により詳細に説明される。
この実施形態によるショートターム分類器によって分析されるショートターム特性は、前述の知覚線形予測ケプストラム係数(PLPCC)に主に対応する。PLPCCは、MFCCと同様に音声およびスピーカ(speaker)の認識において広く使用される。PLPCCは、維持される。なぜなら、それらは、大部分の最新の音声コーダで使用され、スイッチ型オーディオコーダにおいて既に実装される線形予測(LP)の機能性の大部分を共有するからである。LPが抽出されたとき、PLPCCは、音声のフォルマント構造を抽出することができる。しかし、知覚的な考慮すべき問題に配慮することによって、PLPCCは、より多くの独立しているスピーカであり、言語情報をより的確に評価している。16のオーダーが、16kHzでサンプリングされた入力信号に使用される。
PLPCCとは別に、発声強さは、ショートターム特性として計算される。発声強さは、それだけで、真に識別していると考慮されず、特徴次元において、PLPCCに協同して有益となる。発声強さは、音声の有声および無声の発音のそれぞれに対応している少なくとも2つのクラスタでの特徴次元において取り出すことを可能にする。それは、異なるパラメータ、すなわち、ゼロクロスカウンター(Zero corossing Xounter:zc)、スペクトルの傾斜(spectral tilt:tilt)、(pitch stability:ps)および規格化されたピッチの相関(normalized correlation:nc)を使用するメリット演算に基づく。4つのパラメータ全ては、0は標準的な無声信号に対応し、1は標準的な有声信号に対応するという方法において、0と1との間で規格化される。この実施形態において、発声強さは、ミラン イェリネック(Milan Jelinek)およびレドワン サラミ(Redwan Salami)著「vmr−wb規格における広帯域の音声符号化の進展(Wideband speech coding advnces in vmr−wb standard)」,IEEE Trans.on Audio,Speech and Language Processing,vol.15 no.4,pp1167−1179,2007年5月に記載されるVMR−WB音声コーダにおいて使用される音声分類基準から着想される。それは、自己相関に基づく発展ピッチ追跡(evolved pitch tracker)に基づく。フレームインデックスkのために、発声強さは、以下の式を有する:
Figure 0005325292
ショートターム特性の識別能力は、分類器として、混合ガウス分布モデル(GMM)によって評価される。2つのGMM(一つは音声クラスのため、他は音楽クラスのため)が適用される。混合数は、パフォーマンスに対する効果を評価するために変動させられる。表1は、異なる混合数に対する正解率を示す。決定は、4つの連続したフレームのセグメントごとに計算される。それから、全体の遅延は、切り替えられたオーディオ符号化に適している64msに等しい。パフォーマンスは、混合数によって増加すると気づかされる。1−GMMと5−GMMとの間のギャップは、特に重要であり、音声のフォルマント表現は、1つのガウシアンによってのみ十分に定義されるにはあまりに複雑であるという事実によって説明されうる。
Figure 0005325292
表1:ショートターム特性分類の正確さ(%)
次に、ロングターム分類器154ついて考えると、多くの研究(例えば、M.J.キャリー(M.J.Carey)著「音声および音楽の識別のための特徴の比較(A comparison of features for speech and music discrimination)」,Proc.IEEE Int.Conf.Acoustic,Speech and Signal Processing,ICASSP,vol.12,pp149−152,1999年3月)はそれらの特性自体より多く識別しているために、統計特性の変化を考慮する。大まかな一般規則として、音楽は、より同じ状態が保たれていると考慮されることができ、通常、低い分散を示す。これに反して、信号が有声のセグメントと無声のセグメントとの間で周期的に変化する場合に、音声は、その目立った4Hzのエネルギー変調によって容易に特徴づけられうる。さらに、異なる音素の連続は、音声の特性をより一定にしない。この実施形態において、2つのロングターム特性が考慮される。1つは、分散の計算結果に基づき、他は、音声のピッチ輪郭の演繹的知識に基づく。ロングターム特性は、低遅延SMD(音声/音楽識別:speech/music discrimination)に適している。
PLPCCの分散の変動は、最後のフレームを強調するために、いくつかのフレームをカバーしているオーバーラップ分析ウィンドウにおける一組のPLPCCごとに分散を計算することから構成される。導かれた待ち時間を制限するために、分析ウィンドウは非対称であり、現在のフレームおよび過去の過程のみを考慮する。第1ステップにおいて、PLPCCの移動平均mam(k)は、以下に記載されるように、最後のNフレームまで計算される:
Figure 0005325292
ここで、PLPCm(k)は、k番目のフレームから来ている係数Mの合計より多くのm番目のケプストラム係数である。そして、移動分散mvm(k)は以下のように定義される:
Figure 0005325292
ここで、wは、本実施形態において、以下のように定義されるランプスロープ(ramp slope)である長さNのウィンドウである:
Figure 0005325292
移動分散は、最終的にケプストラム次元の平均値になる:
Figure 0005325292
音声のピッチは、目立った性質を有し、そして、それらの一部は、長い分析ウィンドウにおいて観察されうるのみである。実際に、音声のピッチは、有声音区間の間、なだらかに変動しているが、あまり一定ではない。これに反して、音楽は、音符(note)の全体の連続期間の間、非常に多くの場合一定ピッチを示し、そして、一時的現象の間、不意に変化する。ロングターム特性は、長期セグメントにおけるピッチ輪郭を観察することによって、この特徴を包含する。ピッチ輪郭パラメータpc(k)は以下のように定義される:
Figure 0005325292
ここで、p(k)は、16HzでサンプルされるLP残留信号におけるフレームインデックスkで計算されるピッチ遅延である。ピッチ輪郭パラメータから、音声メリットsm(k)は、音声が、有声音区間の間、なだらかに変動するピッチ遅延を、そして、無声音区間の間、高周波数に向かって強いスペクトルの傾斜を示すことを要求するような方法で計算される:
Figure 0005325292
ここで、nc(k)、tilt(k)およびv(k)は、上記(ショートターム分類器を参照)に定義される。そして、音声メリットは、上記で定義されるウィンドウwによって重み付けされ、そして、最後のNフレームでまとめられる:
Figure 0005325292
ピッチ輪郭は、信号が音声またはオーディオ符号化に適しているという重要な表示でもある。実際、音声コーダは、主に時間領域で機能し、信号が、約5msの短い時間セグメントにおいて、倍音および準定常であると仮定する。このように、それらは、能率的に音声の自然なピッチ変動をモデル化することができる。これに反して、同じ変動が、長い分析ウィンドウにおいて線形変換を利用する一般のオーディオエンコーダの効率を阻害する。そして、信号の主要なエネルギーは、いくつかの変換された係数に拡張される。
ショートターム特性に関しては、また、ロングターム特性は、このことによりロングターム分類結果(DDC)を得ている統計分類器を使用して評価される。2つの特性は、N=25フレーム(例えば、信号の過去の過程の400msを考慮する)を使用して計算される。線形判別分析(Linear Discriminat Analysis:LDA)は、低減された一次元のスペースにおいて3−GMMを用いる前に、最初に適用される。4つの連続するフレームのセグメントを分類する場合、表2は、トレーニングおよびテストセットにおいて測定されるパフォーマンスを示す。
Figure 0005325292
表2:ロングターム特性分類の正確さ(%)
本発明の実施形態による組み合わされた分類器システムは、それらが、それらの自己の特定の貢献を最終決定にもたらすとする方法により、ショートタームおよびロングターム特性を適切に組み合わせる。この目的のために、上述したように、ヒステリシス最終決定ステージが使用されうる。ここで、インスタント入力がIDCまたはショートターム識別クルー(short−term discriminating clue:STDC)によってもたらされると共に、メモリ効果は、DDCまたはロングターム識別クルー(long−term didcriminating clue:LTDC)によって駆動される。2つのクルーは、図1において図示されるように、ロングタームおよびショートターム分類器の出力である。決定は、IDCに基づいて行われるが、状態変化を起動させている閾値を動的に制御するDDCによって安定化される。
ロングターム分類器154は、3−GMMを受けてLDAで前に定義されるロングタームおよびショートターム特性の両方を使用する。DDCは、最後の4×Kフレームを通じて計算される音声クラスおよび音楽クラスのロングタームクラシファイヤの尤度の対数的関数比率に等しい。考慮されるフレームの数は、最終決定において、多かれ少なかれメモリ効果を追加するために、パラメータKを伴って変化することができる。これに反して、ショートターム分類器は、パフォーマンスおよび複雑さの間における良好な妥協を示す5−GMMでのショートターム特性のみを使用する。IDCは、最後の4フレームを通じて計算される音声クラスおよび音楽クラスのショートタームクラシファイヤの尤度の対数的関数比率に等しい。
発明のアプローチを評価するために、特に切り替えられたオーディオ符号化に対して、3種類の異なるパフォーマンスが評価された。第1の性能測定は、従来の音楽に対する音声(SvM)のパフォーマンスである。それは、大きい一組の音楽および音声の項目を通じて評価される。第2の性能測定は、3秒ごとに交互に音声および音楽を有する大きい固有の項目において行われる。そして、識別精度は、音声前後音楽パフォーマンス(SabM)と呼ばれ、主に、システムの反応性を反映する。最後に、決定の安定度は、音楽項目の上の音声の大きい一組における分類を実行することによって評価される。音声および音楽の間のミキシングは、1つの項目から他の項目まで異なるレベルで行われる。そして、音楽に重なる音声(SoM)のパフォーマンスは、フレームの合計数上で発生したクラススイッチの数の比率を計算することによって得られる。
ロングターム分類器およびショートターム分類器は、従来の1つの分類のアプローチを評価するための参照として使用される。ショートターム分類器は、低い安定度および全体の識別能力を有すると共に、良好な反応性を示す。一方、ロングターム分類器は、特に、4×Kのフレームの数を増加させることによって、決定の反応性を妥協することによって、より良い安定度および識別の作用を達成することができる。ちょうど従来のアプローチと比較される場合、本発明による組み合わされた分類器のシステムのパフォーマンスは、いくつかの利点を有する。1つの利点は、システムの反応性を維持すると共に、それが、音楽識別パフォーマンスに対して良好な純粋な音声を維持するということである。更なる利点は、反応性および安定度の間の良好なトレードオフである。
以下において、参照が、本発明の実施形態による識別器または決定ステージを含む典型的な符号化および復号化スキームを例示している図4および図5になされる。
図4において示される典型的な符号化スキームによれば、モノラル信号、ステレオ信号またはマルチチャネル信号は、共通の前処理ステージ200に入力される。
共通の前処理ステージ200は、ジョイントステレオ機能性、サラウンド機能性、および/または帯域幅拡張機能を有することができる。ステージ200の出力において、1つ以上のスイッチ202に入力されるモノラルチャネル、ステレオチャネルまたはマルチチャネルがある。ステージ200が2つ以上の出力を有する場合、すなわち、ステージ200が、ステレオ信号またはマルチチャネル信号を出力する場合、スイッチ202は、ステージ200の出力ごとに設けられている。模範となるように、ステレオ信号の第1チャネルは、音声チャネルでよく、そして、ステレオ信号の第2チャネルは、音楽チャネルでよい。この場合、決定ステージ204における決定は、同じ時刻で2つのチャネルの間で異なっていても良い。
スイッチ202は、決定ステージ204によって制御される。決定ステージは、本発明の実施形態による識別器を含み、そして入力として、ステージ200に入力された信号、またはステージ200によって出力された信号を受信する。あるいは、決定ステージ204は、モノラル信号、ステレオ信号もしくはマルチチャネル信号に含まれるか、またはそのような信号と少なくとも関係しているサイド情報も受信しうる。ここで、もともとモノラル信号、ステレオ信号またはマルチチャネル信号を作り出す場合に生成された情報が存在している。
ある実施形態において、決定ステージは、前処理ステージ200を制御しない。そして、ステージ204および200の間の矢印が存在しない。更なる実施形態において、ステージ200における処理は、決定に基づくステージ200における1以上のパラメータを設定するために、決定ステージ204によってある程度制御される。しかしながら、このことは、ステージ200における主な機能性は、ステージ204における決定にかかわりなく作動中であるように、ステージ200における一般的なアルゴリズムに影響しない。
決定ステージ204は、図4の上側のブランチで例示される周波数の符号化している部分206または図4の下側のブランチで例示されるLPC−領域符号化している部分208のいずれかにおいて、共通の前処理ステージの出力を供給するためにスイッチ202を作動させる。
ある実施形態において、スイッチ202は、2つの符号化ブランチ206,208の間で切り替わる。更なる実施形態において、第3の符号化ブランチもしくは同等の第4の符号化ブランチまたは更なる符号化ブランチのような付加的な符号化ブランチがありうる。3つの符号化ブランチを有する実施形態において、第3の符号化ブランチは、第2の符号化ブランチと類似しているが、第2のブランチ208における励振エンコーダ210と異なる励振エンコーダを含む。そのような実施形態において、第2のブランチは、LPCステージ212および例えばACELPのような励振エンコーダ210に基づくコードブックを含み、そして、第3のブランチは、LPCステージおよびLPCステージの出力信号のスペクトル表現において作用している励振エンコーダを含む。
周波数領域の符号化ブランチは、共通前処理ステージの出力信号をスペクトル領域に変換するために作動するスペクトル変換ブロック214を含む。スペクトル変換ブロックは、MDCTアルゴリズム、QMF、FFTアルゴリズム、ウェーブレット解析またはいくらかのフィルタバンクチャネルを有する精確にサンプルされるフィルタバンクのようなフィルタバンクを含むことができる。ここで、このフィルタバンクのサブバンド信号は、実数値信号、または虚数値信号である。スペクトル変換ブロック214の出力は、スペクトルオーディオエンコーダ216を使用して符号化され、AAC符号化スキームから公知であるように、それは、処理ブロックを含むことができる。
下側の符号化ブランチ208は、2種類の信号を出力するLPC212のようなソースモデルアナライザを含む。一方の信号は、LPC合成フィルタのフィルタ特性を制御するために使用されるLPC情報信号である。このLPC情報は、デコーダに送信される。他のLPCステージ212の出力信号は、励振信号またはLPC領域信号であり、そして、それは、励振エンコーダ210に入力される。励振エンコーダ210は、CELPエンコーダ、ACELPエンコーダまたはLPC領域信号を処理する他のいかなるエンコーダのようなソースフィルタモデルエンコーダによってもたらされる。
他の励振エンコーダの実装は、励振信号の変換符号化でもよい。このような実施形態においては、励振信号は、ACELPコードブックメカニズムを使用して符号化されない。しかし、励振信号は、スペクトル表現に変換され、そして、フィルタバンクの場合にはサブバンド信号のようなスペクトル表現値、またはFFTのような変換の場合には周波数係数がデータ圧縮を得るために符号化される。励振エンコーダのこの種の実装は、AMR−WB+から知られるTCX符号化モードである。
音楽信号は上側のブランチ206に入力され、音声信号は下側のブランチ208に入力されるというような方法で、決定ステージ204が音楽/音声識別を実行し、スイッチ202を制御するように、決定ステージ204における決定は信号に適応しうる。ある実施形態において、決定ステージ204は、その決定情報を出力ビットストリームに送り込む。その結果、デコーダは、正確なデコーディング動作を実行するためにこの決定情報を使用することができる。
そのようなデコーダは、図5において示される。送信の後、スペクトルオーディオエンコーダ216による信号出力は、スペクトルオーディオデコーダ218に入力される。スペクトルオーディオデコーダ218の出力は、時間領域コンバータ220に入力される。図4の励振エンコーダ210の出力は、LPC領域信号を出力する励振デコーダ222に入力される。LPC領域信号は、LPC合成ステージ224に入力される。そして、それは、更なる入力として、LPC分析ステージ212に対応することによって生成されるLPC情報を受信する。時間領域コンバータ220の出力および/またはLPC合成ステージ224の出力は、スイッチ226に入力される。スイッチ226は、例えば、決定ステージ204によって生成される、または例えば、元のモノラル信号、ステレオ信号、もしくはマルチチャネル信号のクリエイター(creator)によって外部的に提供されるスイッチ制御信号を介して制御される。
スイッチ226の出力は、共通の後処理ステージ228にその後入力される完全なモノラル信号である。そして、それは、ジョイントステレオ処理または帯域幅拡張処理等を実行することができる。あるいは、スイッチの出力は、ステレオ信号またはマルチチャネル信号でもよい。処理が2つのチャネルへのチャネルの低減を含む場合、それはステレオ信号である。3つのチャネルへのチャネルの低減をする場合、または、全くチャネルを低減せずスペクトル帯域多重化のみが実行される場合、それは、マルチチャネル信号でさえあればよい。
共通の後処理ステージの特定の機能性に応じて、共通の後処理ステージ228が帯域幅拡張動作を実行する場合、信号をブロック228に入力するより大きな帯域幅を有するモノラル信号、ステレオ信号、またはマルチチャネル信号が出力される。
ある実施形態において、スイッチ226は、2つの復号化ブランチ218,220および222,224の間で切り替わる。更なる実施形態において、第3の復号化ブランチ、もしくは第4の復号化ブランチ、または更なる復号化ブランチのような付加的な復号化ブランチがありうる。3つの復号化ブランチを有する実施形態において、第3の復号化ブランチは、第2の復号化ブランチと類似しているが、第2のブランチ222,224における励振デコーダ222と異なる励振デコーダを含む。そのような実施形態において、第2のブランチは、LPCステージ224および例えばACELPのような励振デコーダに基づくコードブックを含み、そして、第3のブランチは、LPCステージおよびLPCステージ224の出力信号のスペクトル表現において作用している励振デコーダを含む。
他の実施形態において、共通の前処理ステージは、出力として、2以上のチャネルを有する信号である入力信号をダウンミックスすることによって生成される、ジョイントステレオパラメータおよびモノラル出力信号を生成するサラウンド/ジョイントステレオブロックを含む。一般に、ブロックの出力での信号は、より多くのチャネルを有する信号でもよいが、ダウンミキシング動作のため、ブロックの出力でのチャネルの数は、ブロックに入力されるチャネルの数よりも小さい。この実施形態において、周波数符号化ブランチは、スペクトル変換ステージを含み、その後量子化/符号化ステージに接続される。量子化/符号化ステージは、例えば、AACエンコーダのような現在の周波数領域エンコーダとして知られるいずれかの機能性を含むことができる。さらに、量子化/符号化ステージにおける量子化動作は、周波数上の音響心理学的なマスキング閾値のような音響心理学的な情報を生成する音響心理学モジュールを介して制御される。ここで、この情報は、ステージに入力される。好ましくは、スペクトル変換は、MDCT演算を使用して行われるが、さらに好ましくは、タイムワープ(time−warped)MDCT演算が使用される。ここで、一般に、強さ、またはワープ強さは、ゼロおよび高いワープ強さとの間において制御されうる。ゼロワープ強さにおいて、MDCT演算は、公知技術の直接的な(straight−forward)MDCT演算である。LPC領域エンコーダは、ピッチゲイン、ピッチ遅延および/またはコードブックインデックスおよびコードゲインのようなコードブック情報を算出しているACELPコアを含む。
図のいくつかは、装置のブロック図を示すが、同時にこれらの図は、方法を示すことに留意されたい。ここで、ブロックの機能性は、方法のステップに対応する。
本発明の実施形態は、異なるセグメントまたはフレームを含むオーディオ入力信号に基づいて記載されていた。異なるセグメントまたはフレームは、音声情報または音楽情報に関連している。本発明は、そのような実施形態に制限されず、むしろ、信号の異なるセグメントを分類するアプローチは、3つ以上の異なるセグメントタイプを含むオーディオ信号にも適用され、少なくとも第1のタイプおよび第2のタイプのセグメントを含む。そして、それぞれは、異なる符号化スキームによって符号化されることが望ましい。このようなセグメントタイプの例は、以下の通りである:

− 定常/非定常セグメントは、異なるフィルタバンク、ウィンドウ、または符号化適合を使用することに役立ちうる。例えば、過渡信号は、純粋な正弦曲線が微細な周波数分解能フィルタバンクによって符号化されなければならない上に、微細な時間分解能フィルタバンクによって符号化されなければならない。
− 有声/無声:無声音区間があまりに多くのビットが無駄になることを別にすれば、有声音区間は、CELPのような音声コーダによってよく扱われる。パラメータ符号化は、より効率的である。
− 沈黙/活動:沈黙は、アクティブセグメントより少しのビットで符号化されうる。
− 調和的な/非調和的な:周波数領域における線形予測を使用して調和セグメント符号化のために使用することは有益である。
1つのブランチのみが処理される信号を受信し、他のブランチが信号を受信しないように、本発明の実施形態は、ブランチの間で切り替えるためにスイッチを使用する。しかしながら、別の実施形態において、スイッチは、処理ステージまたはブランチ(例えば、オーディオエンコーダおよび音声エンコーダ)の後に配置することもできる。その結果、両方のブランチは、並行して同じ信号を処理する。これらのブランチのうちの1つによって出力された信号は、例えば、出力ビットストリームに書き込まれるように、出力であるように選択される。
本発明の実施形態が、デジタル信号(そのセグメントは、特定のサンプリングレートで得られる定義済みの多数のサンプルによって決定される)に基づいて記載される一方、本発明は、そのような信号に限られず、むしろ、アナログ信号の特定の周波数範囲または期間によって決定されるセグメントにおけるアナログ信号にも適用できる。加えて、本発明の実施形態は、識別器に含んでいるエンコーダと組み合わせて記載されていた。基本的に、信号を分類するための本発明の実施形態によるアプローチは、異なる符号化スキームが、適切なデコーダに供給されうる符号化された信号を割り当てることによって分類される符号化された信号を受信しているデコーダに適用されうる。
本発明の方法のある実装要求に応じて、本発明の方法は、ハードウェアまたはソフトウェアに実装されうる。実装は、デジタル記録媒体を使用して実行され、特に、保存された電子的に読み込み可能な制御信号を有するディスク、DVDまたはCDが、本発明が実行されるプログラム可能なコンピュータシステムと協働する。従って、一般に、本発明は、機械読取可能な担持体に、ブログラムコードを保存するコンピュータプログラム製品である。コンピュータ上でコンピュータプログラム製品が稼動するとき、プログラムコードは、本発明を実行するように作動される。言い換えれば、したがって、本発明の方法は、コンピュータ上でコンピュータプログラムが稼動するとき、本発明の方法の少なくとも1つを実行するためのプログラムコードを有するコンピュータプログラムである。
上述した実施形態は、本発明の原理を単に図示するだけである。処理の修正および変更並びに本明細書において記載されている詳細は、他の当業者にとって明らかなものと理解される。従って、近い将来の特許請求の範囲によってのみ限られ、そして、本明細書の記載および実施形態として示される具体的な詳細によって限られないという意図である。
上述した実施形態において、信号は、複数のフレームを含むように記載される。ここで、現在のフレームは、切り替え決定のために評価される。スイッチング決定のために評価される現在の信号のセグメントが、1つのフレームでありうるという点に留意されたい。しかしながら、本発明は、そのような実施形態に限られない。むしろ、信号のセグメントは、例えば2以上の複数のフレームを含むこともできる。
更に、上述した実施形態において、ショートターム分類器およびロングターム分類器の両方が、同じショートターム特性を使用した。例えば、ショートターム特性がショートタームまたはロングターム分類器のうちの1つによって算出することができ、そして、他の分類器に供給された場合、一度だけショートターム特性を算出するために、そしてシステムの複雑さを低減する異なる方法における2つの分類器によって同様に利用する必要があるような異なる理由のために、このアプローチは使用される。また、2つの分類器が共通の特性を共有するので、ロングターム分類結果における現在のフレームの貢献が、それをショートターム分類結果によってより容易に推定される場合、ショートタームおよびロングターム分類器の間の比較の結果はより関連しうる。
しかしながら、本発明は、そのようなアプローチに制限されず、そして、ロングターム分類器は、ショートターム分類器として同じショートターム特性を使用することに制限されない。すなわち、ショートターム分類器およびロングターム分類器の両方は、お互いに異なるそれらそれぞれのショートターム特性を算出することができる。
上述の実施形態が、ショートターム特性としてPLPCCの使用に言及したが、他の特性が考慮されうる(例えば、PLPCCの変形)ことに留意されたい。

Claims (17)

  1. オーディオ信号の異なるセグメントを分類するための方法であって、前記オーディオ信号は、音声および音楽のセグメントを含み、前記方法は、
    前記オーディオ信号の現在のセグメントが音声のセグメントか、または音楽のセグメントかのいずれかを決定するために、前記オーディオ信号から抽出される少なくとも一つのショートターム特性に基づいて前記オーディオ信号をショートターム分類し(150)、そして、前記オーディオ信号の前記現在のセグメントが音声のセグメントか、または音楽のセグメントを指し示すショートターム分類結果(152)を供給するステップと、
    前記オーディオ信号の前記現在のセグメントが、音声のセグメントかまたは音楽のセグメントかのいずれかを決定するために、前記オーディオ信号から抽出される少なくとも一つのショートターム特性および少なくとも一つのロングターム特性に基づいて前記オーディオ信号をロングターム分類し、そして、前記オーディオ信号の現在のセグメントが、音声のセグメントか、または音楽のセグメントを指し示すロングターム分類結果(156)を供給するステップと、
    前記オーディオ信号の前記現在のセグメントが、音声のセグメントか、または音楽のセグメントかのいずれかを指し示す出力信号(160)を提供するために、前記ショートターム分類結果(152)および前記ロングターム分類結果(156)を組み合わせるステップ(158)と、
    を含む、方法。
  2. 前記組み合わせるステップは、前記ショートターム分類結果(152)と前記ロングターム分類結果(156)との比較に基づいて前記出力信号を提供するステップを含む、請求項1に記載の方法。
  3. 前記少なくとも一つのショートターム特性は、分類される前記オーディオ信号の現在のセグメントを分析することによって得られ、
    前記少なくとも一つのロングターム特性は、前記オーディオ信号の現在のセグメント、および前記オーディオ信号の一つ以上の以前のセグメントを分析することによって得られる、請求項1または請求項2に記載の方法。
  4. 前記少なくとも一つのショートターム特性は、第1の長さおよび第1の分析方法の分析ウィンドウ(168)を分析することによって得られ、
    前記少なくとも一つのロングターム特性は、第2の長さおよび第2の分析方法の分析ウィンドウ(162)を分析することによって得られ、前記第1の長さは、前記第2の長さよりも短く、そして、前記第1および前記第2の分析方法は異なる、請求項1ないし請求項3のいずれかに記載の方法。
  5. 前記第1の長さは、前記オーディオ信号の前記現在のセグメントにまたがり、前記第2の長さは、前記オーディオ信号の前記現在のセグメント、および前記オーディオ信号の一つ以上の以前のセグメントにまたがり、そして、前記第1および前記第2の長さは、分析期間をカバーしている追加期間(164)を含む、請求項4に記載の方法。
  6. 前記ショートターム分類結果(152)および前記ロングターム分類結果(156)を組み合わせるステップ(158)は、組み合わされた結果に基づくヒステリシス決定を含み、ここで、前記組み合わされた結果は、前記ショートターム分類結果(152)および前記ロングターム分類結果(156)を含み、それぞれは定義済みの重み係数によって重み付けされる、請求項1ないし請求項5のいずれかに記載の方法。
  7. 前記オーディオ信号は、デジタル信号であり、そして、前記オーディオ信号のセグメントは、特定のサンプリングレートで得られる定義済みの数のサンプル含む、請求項1ないし請求項6のいずれかに記載の方法。
  8. 前記少なくとも一つのショートターム特性はPLPCCパラメータを含み、
    前記少なくとも一つのロングターム特性はピッチ特徴情報を含む、請求項1ないし請求項7のいずれかに記載の方法。
  9. ショートターム分類に使用される前記ショートターム特性およびロングターム分類に使用される前記ロングターム特性は同じか、異なる、請求項1ないし請求項8のいずれかに記載の方法。
  10. 音声および音楽のセグメントを含むオーディオ信号を処理するための方法であって、前記方法は、請求項1ないし請求項9のいずれかに記載の方法による前記オーディオ信号の現在のセグメントを分類するステップ(116)と、
    前記分類するステップ(116)によって供給される前記出力信号(160)に依存し、第1の処理、または第2の処理により前記現在のセグメントを処理するステップ(102,206;106,208)と、
    前記処理されたセグメントを出力するステップと、
    を含む、方法。
  11. 前記セグメントが音声セグメントであることを前記出力信号(160)が指し示す場合、符号化されたセグメントを生成するために前記セグメントは音声エンコーダ(102)によって処理され、
    前記セグメントが音楽セグメントであることを前記出力信号(160)が指し示す場合、前記符号化されたセグメントを生成するために前記セグメントは音楽エンコーダ(106)によって処理される、請求項10に記載の方法。
  12. 前記セグメントの前記タイプを指し示す前記出力信号(160)から前記符号化されたセグメントおよび情報を組み合わせるステップ(108)を更に含む、請求項11に記載の方法。
  13. コンピュータに、請求項1ないし請求項12のいずれかに記載の方法を実行させるためのコンピュータプログラム。
  14. 識別器は、
    オーディオ信号を受信し、および前記オーディオ信号の現在のセグメントが音声のセグメントか、または音楽のセグメントかのいずれかを決定し、並びに前記オーディオ信号から抽出される少なくとも一つのショートターム特性に基づいて前記オーディオ信号のショートターム分類結果(152)を供給するために構成されるショートターム分類器(150)であって、前記ショートターム分類結果(152)は、前記オーディオ信号の前記現在のセグメントが音声のセグメントまたは音楽のセグメントを指し示し、前記オーディオ信号は少なくとも音声および音楽のセグメントを含む、ショートターム分類器(150)と、
    オーディオ信号を受信し、および前記オーディオ信号の現在のセグメントが音声のセグメントか、または音楽のセグメントかのいずれかを決定し、並びに前記オーディオ信号から抽出される少なくとも一つのショートターム特性および少なくとも一つのロングターム特性に基づいて前記オーディオ信号のロングターム分類結果(156)を供給するために構成され、前記ロングターム分類結果(156)は、前記オーディオ信号の前記現在のセグメントが音声のセグメントか、または音楽のセグメントを指し示す、ロングターム分類器(154)と、
    前記オーディオ信号の前記現在のセグメントが、音声のセグメントか、または音楽のセグメントかのいずれかを指し示す出力信号(160)を供給するために、前記ショートターム分類結果(152)および前記ロングターム分類結果(156)を組み合わせるために構成される決定回路(158)と、
    を含む、識別器。
  15. 前記決定回路(158)は、前記ショートターム分類結果(152)と前記ロングターム分類結果(156)との比較に基づいて前記出力信号を提供するために構成される、請求項14に記載の識別器。
  16. オーディオ信号処理するための装置であって、前記装置は、
    処理されるオーディオ信号を受信するために構成される入力(110)であって、前記オーディオ信号は、音声および音楽のセグメントを含む、前記入力(110)と、
    音声のセグメントを処理するために構成される第1の処理ステージ(10;206)と、
    音楽のセグメントを処理するために構成される第2の処理ステージ(104;208)と、
    前記入力に連結される請求項14または請求項15のいずれかに記載の識別器(116;204)と、
    前記入力および前記第1および前記第2の処理ステージの間に連結され、そして、前記入力(110)からの前記オーディオ信号を前記識別器(116)からの前記出力信号(160)に依存する前記第1および前記第2の処理ステージのうちの一つに適用するために構成される切り替え装置(112;202)と、
    を含む、装置。
  17. オーディオエンコーダは、
    請求項16に記載の装置を含み、
    前記第1の処理ステージ(100;206)は音声エンコーダ(102;216)を含み、前記第2の処理ステージ(104;208)は音楽エンコーダ(106;210)を含む、オーディオエンコーダ。
JP2011516981A 2008-07-11 2009-06-16 信号の異なるセグメントを分類するための方法および識別器 Active JP5325292B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US7987508P 2008-07-11 2008-07-11
US61/079,875 2008-07-11
PCT/EP2009/004339 WO2010003521A1 (en) 2008-07-11 2009-06-16 Method and discriminator for classifying different segments of a signal

Publications (2)

Publication Number Publication Date
JP2011527445A JP2011527445A (ja) 2011-10-27
JP5325292B2 true JP5325292B2 (ja) 2013-10-23

Family

ID=40851974

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011516981A Active JP5325292B2 (ja) 2008-07-11 2009-06-16 信号の異なるセグメントを分類するための方法および識別器

Country Status (20)

Country Link
US (1) US8571858B2 (ja)
EP (1) EP2301011B1 (ja)
JP (1) JP5325292B2 (ja)
KR (2) KR101281661B1 (ja)
CN (1) CN102089803B (ja)
AR (1) AR072863A1 (ja)
AU (1) AU2009267507B2 (ja)
BR (1) BRPI0910793B8 (ja)
CA (1) CA2730196C (ja)
CO (1) CO6341505A2 (ja)
ES (1) ES2684297T3 (ja)
HK (1) HK1158804A1 (ja)
MX (1) MX2011000364A (ja)
MY (1) MY153562A (ja)
PL (1) PL2301011T3 (ja)
PT (1) PT2301011T (ja)
RU (1) RU2507609C2 (ja)
TW (1) TWI441166B (ja)
WO (1) WO2010003521A1 (ja)
ZA (1) ZA201100088B (ja)

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5551695B2 (ja) * 2008-07-11 2014-07-16 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 音声符号器、音声復号器、音声符号化方法、音声復号化方法およびコンピュータプログラム
CN101847412B (zh) * 2009-03-27 2012-02-15 华为技术有限公司 音频信号的分类方法及装置
KR101666521B1 (ko) * 2010-01-08 2016-10-14 삼성전자 주식회사 입력 신호의 피치 주기 검출 방법 및 그 장치
SG189277A1 (en) * 2010-10-06 2013-05-31 Fraunhofer Ges Forschung Apparatus and method for processing an audio signal and for providing a higher temporal granularity for a combined unified speech and audio codec (usac)
US8521541B2 (en) * 2010-11-02 2013-08-27 Google Inc. Adaptive audio transcoding
CN103000172A (zh) * 2011-09-09 2013-03-27 中兴通讯股份有限公司 信号分类方法和装置
US20130090926A1 (en) * 2011-09-16 2013-04-11 Qualcomm Incorporated Mobile device context information using speech detection
EP2772914A4 (en) * 2011-10-28 2015-07-15 Panasonic Corp DECODER FOR HYBRID SOUND SIGNALS, COORDINATORS FOR HYBRID SOUND SIGNALS, DECODING PROCEDURE FOR SOUND SIGNALS AND CODING SIGNALING PROCESSES
CN103139930B (zh) 2011-11-22 2015-07-08 华为技术有限公司 连接建立方法和用户设备
US9111531B2 (en) 2012-01-13 2015-08-18 Qualcomm Incorporated Multiple coding mode signal classification
EP2702776B1 (en) * 2012-02-17 2015-09-23 Huawei Technologies Co., Ltd. Parametric encoder for encoding a multi-channel audio signal
US20130317821A1 (en) * 2012-05-24 2013-11-28 Qualcomm Incorporated Sparse signal detection with mismatched models
EP3301676A1 (en) 2012-08-31 2018-04-04 Telefonaktiebolaget LM Ericsson (publ) Method and device for voice activity detection
US9589570B2 (en) 2012-09-18 2017-03-07 Huawei Technologies Co., Ltd. Audio classification based on perceptual quality for low or medium bit rates
SG10201706626XA (en) * 2012-11-13 2017-09-28 Samsung Electronics Co Ltd Method and apparatus for determining encoding mode, method and apparatus for encoding audio signals, and method and apparatus for decoding audio signals
EP2954635B1 (en) * 2013-02-19 2021-07-28 Huawei Technologies Co., Ltd. Frame structure for filter bank multi-carrier (fbmc) waveforms
PT2959482T (pt) 2013-02-20 2019-08-02 Fraunhofer Ges Forschung Aparelho e método para codificar ou descodificar um sinal de áudio usando uma sobreposição dependente da localização de transiente
CN104347067B (zh) 2013-08-06 2017-04-12 华为技术有限公司 一种音频信号分类方法和装置
US9666202B2 (en) * 2013-09-10 2017-05-30 Huawei Technologies Co., Ltd. Adaptive bandwidth extension and apparatus for the same
KR101498113B1 (ko) * 2013-10-23 2015-03-04 광주과학기술원 사운드 신호의 대역폭 확장 장치 및 방법
EP3109861B1 (en) * 2014-02-24 2018-12-12 Samsung Electronics Co., Ltd. Signal classifying method and device, and audio encoding method and device using same
CN107452391B (zh) 2014-04-29 2020-08-25 华为技术有限公司 音频编码方法及相关装置
KR20180095123A (ko) 2014-05-15 2018-08-24 텔레폰악티에볼라겟엘엠에릭슨(펍) 오디오 신호 분류 및 코딩
CN107424622B (zh) 2014-06-24 2020-12-25 华为技术有限公司 音频编码方法和装置
US9886963B2 (en) * 2015-04-05 2018-02-06 Qualcomm Incorporated Encoder selection
ES2829413T3 (es) * 2015-05-20 2021-05-31 Ericsson Telefon Ab L M Codificación de señales de audio de múltiples canales
US10706873B2 (en) * 2015-09-18 2020-07-07 Sri International Real-time speaker state analytics platform
WO2017196422A1 (en) * 2016-05-12 2017-11-16 Nuance Communications, Inc. Voice activity detection feature based on modulation-phase differences
US10699538B2 (en) * 2016-07-27 2020-06-30 Neosensory, Inc. Method and system for determining and providing sensory experiences
WO2018048907A1 (en) 2016-09-06 2018-03-15 Neosensory, Inc. C/O Tmc+260 Method and system for providing adjunct sensory information to a user
CN107895580B (zh) * 2016-09-30 2021-06-01 华为技术有限公司 一种音频信号的重建方法和装置
US10744058B2 (en) 2017-04-20 2020-08-18 Neosensory, Inc. Method and system for providing information to a user
US10325588B2 (en) 2017-09-28 2019-06-18 International Business Machines Corporation Acoustic feature extractor selected according to status flag of frame of acoustic signal
KR20210102899A (ko) * 2018-12-13 2021-08-20 돌비 레버러토리즈 라이쎈싱 코오포레이션 이중 종단 미디어 인텔리전스
RU2761940C1 (ru) 2018-12-18 2021-12-14 Общество С Ограниченной Ответственностью "Яндекс" Способы и электронные устройства для идентификации пользовательского высказывания по цифровому аудиосигналу
WO2020214541A1 (en) 2019-04-18 2020-10-22 Dolby Laboratories Licensing Corporation A dialog detector
CN110288983B (zh) * 2019-06-26 2021-10-01 上海电机学院 一种基于机器学习的语音处理方法
WO2021062276A1 (en) 2019-09-25 2021-04-01 Neosensory, Inc. System and method for haptic stimulation
US11467668B2 (en) 2019-10-21 2022-10-11 Neosensory, Inc. System and method for representing virtual object information with haptic stimulation
US11079854B2 (en) 2020-01-07 2021-08-03 Neosensory, Inc. Method and system for haptic stimulation
US12062381B2 (en) * 2020-04-16 2024-08-13 Voiceage Corporation Method and device for speech/music classification and core encoder selection in a sound codec
US11497675B2 (en) 2020-10-23 2022-11-15 Neosensory, Inc. Method and system for multimodal stimulation
CN117178322A (zh) * 2021-01-08 2023-12-05 沃伊斯亚吉公司 用于声音信号的统一时域/频域编码的方法和装置
US11862147B2 (en) 2021-08-13 2024-01-02 Neosensory, Inc. Method and system for enhancing the intelligibility of information for a user
US20230147185A1 (en) * 2021-11-08 2023-05-11 Lemon Inc. Controllable music generation
US11995240B2 (en) 2021-11-16 2024-05-28 Neosensory, Inc. Method and system for conveying digital texture information to a user
CN116070174A (zh) * 2023-03-23 2023-05-05 长沙融创智胜电子科技有限公司 一种多类别目标识别方法及系统

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1232084B (it) * 1989-05-03 1992-01-23 Cselt Centro Studi Lab Telecom Sistema di codifica per segnali audio a banda allargata
JPH0490600A (ja) * 1990-08-03 1992-03-24 Sony Corp 音声認識装置
JPH04342298A (ja) * 1991-05-20 1992-11-27 Nippon Telegr & Teleph Corp <Ntt> 瞬時ピッチ分析方法及び有声・無声判定方法
RU2049456C1 (ru) * 1993-06-22 1995-12-10 Вячеслав Алексеевич Сапрыкин Способ передачи речевых сигналов
US6134518A (en) 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
JP3700890B2 (ja) * 1997-07-09 2005-09-28 ソニー株式会社 信号識別装置及び信号識別方法
RU2132593C1 (ru) * 1998-05-13 1999-06-27 Академия управления МВД России Многоканальное устройство для передачи речевых сигналов
SE0004187D0 (sv) 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
US6785645B2 (en) * 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
CN1279512C (zh) 2001-11-29 2006-10-11 编码技术股份公司 用于改善高频重建的方法和装置
AUPS270902A0 (en) * 2002-05-31 2002-06-20 Canon Kabushiki Kaisha Robust detection and classification of objects in audio using limited training data
JP4348970B2 (ja) * 2003-03-06 2009-10-21 ソニー株式会社 情報検出装置及び方法、並びにプログラム
JP2004354589A (ja) * 2003-05-28 2004-12-16 Nippon Telegr & Teleph Corp <Ntt> 音響信号判別方法、音響信号判別装置、音響信号判別プログラム
EP1758274A4 (en) * 2004-06-01 2012-03-14 Nec Corp SYSTEM, METHOD AND PROGRAM PROVIDING INFORMATION
US7130795B2 (en) * 2004-07-16 2006-10-31 Mindspeed Technologies, Inc. Music detection with low-complexity pitch correlation algorithm
JP4587916B2 (ja) * 2005-09-08 2010-11-24 シャープ株式会社 音声信号判別装置、音質調整装置、コンテンツ表示装置、プログラム、及び記録媒体
ES2343862T3 (es) 2006-09-13 2010-08-11 Telefonaktiebolaget Lm Ericsson (Publ) Metodos y disposiciones para un emisor y receptor de conversacion/audio.
CN1920947B (zh) * 2006-09-15 2011-05-11 清华大学 用于低比特率音频编码的语音/音乐检测器
US9583117B2 (en) * 2006-10-10 2017-02-28 Qualcomm Incorporated Method and apparatus for encoding and decoding audio signals
MX2009006201A (es) * 2006-12-12 2009-06-22 Fraunhofer Ges Forschung Codificador, decodificador y metodos para codificar y decodificar segmentos de datos que representan una corriente de datos del dominio temporal.
KR100964402B1 (ko) * 2006-12-14 2010-06-17 삼성전자주식회사 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치
KR100883656B1 (ko) * 2006-12-28 2009-02-18 삼성전자주식회사 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치
US8428949B2 (en) * 2008-06-30 2013-04-23 Waves Audio Ltd. Apparatus and method for classification and segmentation of audio content, based on the audio signal

Also Published As

Publication number Publication date
KR20130036358A (ko) 2013-04-11
US20110202337A1 (en) 2011-08-18
RU2011104001A (ru) 2012-08-20
AR072863A1 (es) 2010-09-29
KR101281661B1 (ko) 2013-07-03
MX2011000364A (es) 2011-02-25
HK1158804A1 (en) 2012-07-20
RU2507609C2 (ru) 2014-02-20
CA2730196A1 (en) 2010-01-14
EP2301011B1 (en) 2018-07-25
BRPI0910793B1 (pt) 2020-11-24
PT2301011T (pt) 2018-10-26
CA2730196C (en) 2014-10-21
CN102089803A (zh) 2011-06-08
KR101380297B1 (ko) 2014-04-02
ZA201100088B (en) 2011-08-31
PL2301011T3 (pl) 2019-03-29
TWI441166B (zh) 2014-06-11
CO6341505A2 (es) 2011-11-21
KR20110039254A (ko) 2011-04-15
ES2684297T3 (es) 2018-10-02
BRPI0910793A2 (pt) 2016-08-02
JP2011527445A (ja) 2011-10-27
MY153562A (en) 2015-02-27
US8571858B2 (en) 2013-10-29
EP2301011A1 (en) 2011-03-30
TW201009813A (en) 2010-03-01
AU2009267507A1 (en) 2010-01-14
AU2009267507B2 (en) 2012-08-02
CN102089803B (zh) 2013-02-27
WO2010003521A1 (en) 2010-01-14
BRPI0910793B8 (pt) 2021-08-24

Similar Documents

Publication Publication Date Title
JP5325292B2 (ja) 信号の異なるセグメントを分類するための方法および識別器
KR101645783B1 (ko) 오디오 인코더/디코더, 인코딩/디코딩 방법 및 기록매체
KR101224559B1 (ko) 캐스케이드 된 스위치를 구비하는 저 비트레이트 오디오 인코딩/디코딩 기법
KR102039399B1 (ko) 시간 도메인 코딩과 주파수 도메인 코딩 간의 분류 향상
RU2483364C2 (ru) Схема аудиокодирования/декодирования с переключением байпас
EP1982329B1 (en) Adaptive time and/or frequency-based encoding mode determination apparatus and method of determining encoding mode of the apparatus
RU2414010C2 (ru) Трансформация шкалы времени кадров в широкополосном вокодере
JP6291053B2 (ja) 音声処理のための無声/有声判定
JP2011518345A (ja) スピーチライク信号及びノンスピーチライク信号のマルチモードコーディング
Kulesza et al. High quality speech coding using combined parametric and perceptual modules
Rämö et al. Segmental speech coding model for storage applications.
Santini et al. A study of the perceptual relevance of the burst phase of stop consonants with implications in speech coding
Kulesza et al. Improving signal quality of a speech codec using hybrid perceptual-parametric algorithm
Al-Naimi et al. Improved line spectral frequency estimation through anti-aliasing filtering
Kulesza et al. High Quality Speech Coding using Combined Parametric and Perceptual Modules
Ismail et al. A novel particle based approach for robust speech spectrum Vector Quantization

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121127

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130221

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130522

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130719

R150 Certificate of patent or registration of utility model

Ref document number: 5325292

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250