JP2022532094A - コーディングされる音声信号内のアタックを検出し、検出されたアタックをコーディングするための方法およびデバイス - Google Patents

コーディングされる音声信号内のアタックを検出し、検出されたアタックをコーディングするための方法およびデバイス Download PDF

Info

Publication number
JP2022532094A
JP2022532094A JP2021566035A JP2021566035A JP2022532094A JP 2022532094 A JP2022532094 A JP 2022532094A JP 2021566035 A JP2021566035 A JP 2021566035A JP 2021566035 A JP2021566035 A JP 2021566035A JP 2022532094 A JP2022532094 A JP 2022532094A
Authority
JP
Japan
Prior art keywords
attack
stage
current frame
frame
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021566035A
Other languages
English (en)
Inventor
ヴァーツラフ・エクスラー
Original Assignee
ヴォイスエイジ・コーポレーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヴォイスエイジ・コーポレーション filed Critical ヴォイスエイジ・コーポレーション
Publication of JP2022532094A publication Critical patent/JP2022532094A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0002Codebook adaptations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/935Mixed voiced class; Transitions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/937Signal energy in various frequency bands

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

コーディングされる音声信号内のアタックを検出するための方法およびデバイスであって、音声信号が、いくつかのサブフレームをそれぞれが含む連続したフレーム内で処理される、方法。デバイスは、現在のフレームの最後のサブフレームにおいてアタックを検出するための第1段階のアタック検出器と、最後のサブフレームの前のサブフレームを含む現在のフレームのサブフレームのうちの1つにおいてアタックを検出するための第2段階のアタック検出器とを含む。現在のフレームが汎用コーディングモードを使用してコーディングされるように既に分類されたアクティブなフレームとして判定されないとき、アタックは検出されない。音声信号内のアタックをコーディングするための方法およびデバイスも、提供される。コーディングデバイスは、上述のアタック検出デバイスと、声門インパルス形状を入力された声門形状コードブックを用いる遷移コーディングモードを使用する検出されたアタックを含むサブフレームのエンコーダとを含む。

Description

本開示は、音声信号、たとえば、スピーチまたはオーディオ信号を、この音声信号を送信することおよび合成することを考慮してコーディングするための技術に関する。
これに限らないが、より詳細には、本開示は、コーディングされる音声信号、たとえば、スピーチまたはオーディオ信号内のアタックを検出し、検出されたアタックをコーディングするための方法およびデバイスに関する。
本開示および添付の請求項において、
- 用語「アタック」は、信号の低エネルギーから高エネルギーへの変化、たとえば、概して音声信号セグメント内の急なエネルギーの増大によって特徴付けられる有声の(voiced)オンセット(onset)(無声の(unvoiced)スピーチセグメントから有声のスピーチセグメントへの遷移)、その他の音声のオンセット、遷移、破裂音などを指す。
- 用語「オンセット」は、重大な音声イベント、たとえば、スピーチ、楽譜、またはその他の音声の始めを指す。
- 用語「破裂音」は、音声学において、すべての空気の流れが止むように声道が閉じられる子音を指す。
- 用語「検出されたアタックのコーディング」は、概してアタックの始めから数ミリ秒の長さの音声信号セグメントのコーディングを指す。
スピーチエンコーダは、スピーチ信号を、通信チャネルを介して送信されるかまたはストレージ媒体に記憶されるデジタルビットストリームに変換する。スピーチ信号は、デジタル化され、つまり、サンプリングされ、通常16ビット/サンプルで量子化される。スピーチエンコーダは、良好な主観的音声品質を維持しながらより少ない数のビットでこれらのデジタルサンプルを表現する役割を有する。スピーチデコーダまたはシンセサイザは、送信されたまたは記憶されたデジタルビットストリームに対して動作し、そのデジタルビットストリームをスピーチ信号に変換して戻す。
CELP(符号励振線形予測)コーディングは、主観的品質とビットレートとの間の良好な折り合いを実現するための最良の技術のうちの1つである。このコーディング技術は、ワイヤレスの応用と有線の応用との両方のいくつかのスピーチコーディング規格の基礎を形成する。CELPコーディングにおいては、サンプリングされたスピーチ信号が、通常、フレームと呼ばれるM個のサンプルの連続的なブロック単位に処理され、Mは、概して10~30msに対応するスピーチサンプルの所定の数である。LP(線形予測)フィルタが、毎フレーム計算され、送信される。LPフィルタの計算は、概して、先読み、たとえば、後続のフレームからの5~15msのスピーチセグメントを必要とする。それぞれのMサンプルフレームは、サブフレームと呼ばれるより小さなブロックに分割される。通常、サブフレームの数は、2から5個であり、結果として4~10msのサブフレームをもたらす。各サブフレームにおいては、励振(excitation)が、通常、2つの構成要素、過去の励振の寄与(contribution)および革新的な(innovative)固定コードブックの励振の寄与から得られる。過去の励振の寄与は、多くの場合、ピッチまたは適応コードブックの励振の寄与と呼ばれる。励振を特徴付けるパラメータは、コーディングされ、デコーダに送信され、そこで、励振は、再構築され、LP合成フィルタへの入力として供給される。
CELPに基づくスピーチコーデックは、それらの高い性能を達成するために予測に大きく依存する。そのような予測は、様々な種類であり得るが、通常、以前のフレームから選択された適応コードブックの励振の寄与を記憶する適応コードブックの使用を含む。CELPエンコーダは、過去の適応コードブックの励振の寄与の中で現在コーディングされているセグメントに最も似たセグメントを探索することによって有声のスピーチの準周期性を利用する。同じ過去の適応コードブックの励振の寄与は、デコーダにも記憶される。そのとき、エンコーダは、エンコーダにおいて使用されたのと同じ適応コードブックの励振の寄与をデコーダが再構築するためにピッチの遅延およびピッチの利得を送信すれば十分である。以前のスピーチセグメントと現在コーディングされているスピーチセグメントとの間の展開(evolution)(違い)が、固定コードブックから選択された固定コードブックの励振の寄与を使用してさらにモデル化される。
エンコーダの状態およびデコーダの状態が非同期になるとき、送信誤り(消失したフレームまたはパケット)の存在下で、CELPに基づくスピーチコーデックに固有の予測に関連する問題が現れる。予測が原因で、消失したフレームの影響は、消失したフレームにとどまらず、フレームの消失後、多くの場合、いくつかの後に続くフレームの間伝搬し続ける。当然、知覚的影響は、非常に煩わしくなり得る。無声のスピーチセグメントから有声のスピーチセグメントへの遷移(たとえば、子音または非アクティブなスピーチの期間と母韻との間の遷移)または2つの異なる有声のセグメントの間の遷移(たとえば、2つの母韻の間の遷移)などのアタックが、フレームの消失の隠蔽に関する最も問題となる場合に存在する。無声のスピーチセグメントから有声のスピーチセグメントへの遷移(有声のオンセット)が失われるとき、有声のオンセットのフレームの直前のフレームは、無声または非アクティブであり、したがって、意味のある励振の寄与が、適応コードブックのバッファ内に見つからない。エンコーダにおいては、過去の励振の寄与が、有声のオンセットのフレームの間に適応コードブックに蓄積し、後に続く有声のフレームが、過去の適応コードブックの励振の寄与を使用してコーディングされる。ほとんどのフレームエラー隠蔽(frame error concealment)技術は、見つからないフレームを隠蔽するために最後に正しく受信されたフレームからの情報を使用する。有声のオンセットのフレームが失われるとき、デコーダの適応コードブックのバッファは、したがって、以前のフレーム(無声のまたは非アクティブなフレーム)の雑音のような適応コードブックの励振の寄与を使用して更新される。したがって、励振の周期的部分(適応コードブックの励振の寄与)は、失われた有声のオンセットの後、デコーダ適応コードブック内にまったく見つからず、デコーダがこの欠損から回復することは、数フレームを要し得る。同様の状況が、失われた有声から有声への遷移の場合に発生する。その場合、遷移フレームの前に適応コードブックに記憶された励振の寄与は、概して、遷移の後に適応コードブックに記憶された励振の寄与と大きく異なる特徴を有する。この場合も、デコーダは、通常、失われたフレームを過去のフレーム情報を使用して隠蔽するので、エンコーダの状態およびデコーダの状態が、大きく異なるようになり、合成された信号が、重大な歪みに見舞われ得る。この問題に対する解決策が、参考文献[2]に紹介され、遷移フレームに続くフレームにおいて、フレーム間の従属関係がある適応コードブックが、非予測的な声門形状コードブック(glottal-shape codebook)によって置き換えられる。
CELPに基づくコーデックにおいて遷移フレームをコーディングするときの別の問題は、コーディングの効率である。以前のおよび現在のセグメントの励振が大きく異なる遷移をコーデックが処理するとき、コーディングの効率は下がる。通常、これらの場合は、有声のオンセット(無声のスピーチセグメントから有声のスピーチセグメントへの遷移)、その他の音声のオンセット、2つの異なる有声のセグメントの間の遷移(たとえば、2つの母韻の間の遷移)、破裂音などのアタックを符号化するフレームにおいて発生する。概ね、以下の2つの問題が、効率のそのような低下の原因となる(主に[1]参照)。第1の問題として、長期的予測の効率が悪く、したがって、総体的な励振への適応コードブックの励振の寄与の寄与が弱い。第2の問題は、フレーム内の急なエネルギーの増大に適切に反応することが通常不可能である、限られたビットバジェット(bit-budget)を使用するベクトル量子化器として設計されることが多い利得量子化器に関連する。この急なエネルギーの増大がフレームの終わりに近ければ近いほど、第2の問題はより重大になる。
上で検討された問題を克服するために、オンセットのフレームおよび遷移フレームなどのアタックを含むフレームのコーディングの効率を改善するための、ならびにより広く、CELPに基づくコーデックのコーディングの品質を改善するための方法およびデバイスに対するニーズが存在する。
第1の態様によれば、本開示は、コーディングされる音声信号内のアタックを検出するための方法であって、音声信号が、いくつかのサブフレームをそれぞれが含む連続したフレーム内で処理される、方法に関する。方法は、現在のフレームの最後のサブフレームにおいてアタックを検出するための第1段階のアタック検出と、最後のサブフレームの前のサブフレームを含む現在のフレームのサブフレームのうちの1つにおいてアタックを検出するための第2段階のアタック検出とを含む。
本開示は、上で定義されたアタック検出方法を含む、音声信号内のアタックをコーディングするための方法にも関する。コーディング方法は、非予測的なコードブックを用いるコーディングモードを使用して検出されたアタックを含むサブフレームを符号化するステップを含む。
別の態様によれば、本開示は、コーディングされる音声信号内のアタックを検出するためのデバイスであって、音声信号が、いくつかのサブフレームをそれぞれが含む連続したフレーム内で処理される、デバイスに関する。デバイスは、現在のフレームの最後のサブフレームにおいてアタックを検出するための第1段階のアタック検出器と、最後のサブフレームの前のサブフレームを含む現在のフレームのサブフレームのうちの1つにおいてアタックを検出するための第2段階のアタック検出器とを含む。
さらに、本開示は、音声信号内のアタックをコーディングするためのデバイスであって、上で定義されたアタック検出デバイスと、非予測的なコードブックを用いるコーディングモードを使用する検出されたアタックを含むサブフレームのエンコーダとを含む、デバイスに関する。
コーディングされる音声信号内のアタックを検出し、検出されたアタックをコーディングするための方法およびデバイスの上述のおよびその他の目的、利点、および特徴は、添付の図面を参照して例としてのみ与えられるそれらの方法およびデバイスの例示的な実施形態の以下の非限定的な説明を読むとより明らかになるであろう。
符号化される音声信号内のアタックを検出し、検出されたアタックをコーディングするための方法およびデバイスの実装のあり得る文脈を示す音声処理および通信システムの概略的なブロック図である。 図1の音声処理および通信システムの一部を形成するCELPに基づくエンコーダおよびデコーダの構造を示す概略的なブロック図である。 EVS(拡張ボイスサービス(Enhanced Voice Services))のコーディングモード分類方法の動作およびEVSのコーディングモード分類器のモジュールを同時に示すブロック図である。 コーディングされる音声信号内のアタックを検出するための方法の動作および方法を実施するためのアタック検出器のモジュールを同時に示すブロック図である。 復号されたスピーチ信号の品質に対する図4のアタック検出器およびTC(遷移コーディング(Transition Coding))コーディングモードの影響を示す第1の非限定的な説明のための例のグラフであり、曲線a)が、入力スピーチ信号を表し、曲線b)が、参照スピーチ信号の合成を表し、曲線c)が、図4のアタック検出器およびTCコーディングモードがオンセットのフレームを処理するために使用されるときの改善されたスピーチ信号の合成を表す。 復号されたスピーチ信号の品質に対する図4のアタック検出器およびTCコーディングモードの影響を示す第2の非限定的な説明のための例のグラフであり、曲線a)が、入力スピーチ信号を表し、曲線b)が、参照スピーチ信号の合成を表し、曲線c)が、図4のアタック検出器およびTCコーディングモードがオンセットのフレームを処理するために使用されるときの改善されたスピーチ信号の合成を表す。 コーディングされる音声信号内のアタックを検出し、検出されたアタックをコーディングするための方法およびデバイスを実施するためのハードウェア構成要素の例示的な構成の簡略化されたブロック図である。
コーディングされる音声信号内のアタックを検出し、検出されたアタックをコーディングするための方法およびデバイスの非限定的な例示的実施形態が、音声信号およびCELPに基づくコーデックに関連して以下の説明において説明されるが、これらの方法およびデバイスは、音声信号およびCELPに基づくコーデックへの応用に限定されず、それらの原理および概念は、任意のその他の種類の音声信号およびコーデックに適用され得ることに留意されたい。
以下の説明は、音声信号、たとえば、スピーチまたはオーディオ信号内のアタックを検出し、アタックが検出されるサブフレームにおいて遷移コーディング(TC)モードを強制することに関する。アタックの検出は、適応コードブックの代わりに声門形状コードブックがTCコーディングモードの一部として使用されるサブフレームを選択するために使用される可能性もある。
参考文献[4]に記載されたEVSコーデックにおいては、検出アルゴリズムが現在のフレームの最後のサブフレームにおいてアタックを検出するとき、TCコーディングモードの声門形状コードブックが、この最後のサブフレームにおいて使用される。本開示において、検出アルゴリズムは、アタックを含むより多くの数のフレームを検出するためだけでなく、そのようなフレームのコーディング時に、アタックが検出されるすべてのサブフレームにおいてTCコーディングモードおよび対応する声門形状コードブックの使用を強制するための第2段階の論理によって補足される。
上述の技術は、コーディングされる音声信号内で検出されるアタックのみでなく、特定の音楽セグメント(たとえば、カスタネット)のコーディングの効率を改善する。より広く、コーディングの品質が、改善される。
図1は、以下の説明において開示されるコーディングされる音声信号内のアタックを検出し、検出されたアタックをコーディングするための方法およびデバイスの実装のあり得る文脈を示す音声処理および通信システム100の概略的なブロック図である。
図1の音声処理および通信システム100は、通信チャネル101を介した音声信号の送信をサポートする。通信チャネル101は、たとえば、有線または光ファイバリンクを含む可能性がある。代替的に、通信チャネル101は、少なくとも部分的に無線周波数リンクを含む可能性がある。無線周波数リンクは、セルラ電話技術に見られる可能性があるような共有された帯域幅リソースを必要とする複数の同時通信をサポートすることが多い。示されていないが、通信チャネル101は、後で再生するために符号化された音声信号を記録し、記憶するシステム100の単一デバイス実装のストレージデバイスによって置き換えられる可能性がある。
引き続き図1を参照すると、たとえば、マイクロフォン102が、元のアナログ音声信号103を生成する。上述の説明に示されるように、音声信号103は、これに限らないが特にスピーチおよび/またはオーディオを含む可能性がある。
アナログ音声信号103は、そのアナログ音声信号103を元のデジタル音声信号105に変換するためにアナログ-デジタル(A/D)コンバータ104に供給される。元のデジタル音声信号105は、ストレージデバイス(図示せず)に記録され、そこから供給される可能性もある。
音声エンコーダ106は、デジタル音声信号105を符号化し、それによって、任意の誤り訂正チャネルエンコーダ108に配信されるビットストリーム107の形式で多重化される1組の符号化パラメータを生成する。任意の誤り訂正チャネルエンコーダ108は、存在するとき、結果として得られるビットストリーム111を通信チャネル101上で送信する前にビットストリーム107内の符号化パラメータのバイナリ表現に冗長性を加える。
受信機側では、任意の誤り訂正チャネルデコーダ109が、受信されたデジタルビットストリーム111内の上述の冗長な情報を利用して、通信チャネル101上での送信中に発生した可能性がある誤りを検出し、訂正し、受信された符号化パラメータを伴う誤り訂正されたビットストリーム112を生成する。音声デコーダ110は、合成されたデジタル音声信号113を生成するためにビットストリーム112内の受信された符号化パラメータを変換する。音声デコーダ110において再構築されたデジタル音声信号113は、デジタル-アナログ(D/A)コンバータ115において合成されたアナログ音声信号114に変換される。
合成されたアナログ音声信号114は、ラウドスピーカユニット116において再生される(当然ながら、ラウドスピーカユニット116は、ヘッドフォンによって置き換えられ得る)。代替的に、音声デコーダ110からのデジタル音声信号113は、ストレージデバイス(図示せず)に供給され、記録される可能性もある。
非限定的な例として、本開示によるコーディングされる音声信号内のアタックを検出し、検出されたアタックをコーディングするための方法およびデバイスは、図1の音声エンコーダ106およびデコーダ110に実装され得る。図1の音声処理および通信システム100は、コーディングされる音声信号内のアタックを検出し、検出されたアタックをコーディングするための方法およびデバイスと一緒に、エンコーダ106の入力およびデコーダ110の出力がステレオ音声信号の左および右チャネルからなる立体音響の場合を対象に含むように拡張され得ることに留意されたい。図1の音声処理および通信システム100は、コーディングされる音声信号内のアタックを検出し、検出されたアタックをコーディングするための方法およびデバイスと一緒に、マルチチャネルおよび/またはシーンに基づくオーディオ(scene-based audio)および/または独立したストリームの符号化および復号(たとえば、サラウンドおよび高次アンビソニックス)の場合を対象に含むようにさらに拡張され得る。
図2は、例示的な実施形態によれば図1の音声処理および通信システム100の一部であるCELPに基づくエンコーダおよびデコーダの構造を示す概略的なブロック図である。図2に示されるように、音声コーデックは、2つの基本的部分、すなわち、図1の上述の説明で両方とも導入された音声エンコーダ106および音声デコーダ110を含む。エンコーダ106は、元のデジタル音声信号105を供給され、元のアナログ音声信号103を表す、本明細書において下で説明される符号化パラメータ107を決定する。これらのパラメータ107は、デジタルビットストリーム111に符号化される。既に説明されたように、ビットストリーム111は、通信チャネル、たとえば、図1の通信チャネル101を使用してデコーダ110に送信される。音声デコーダ110は、元のデジタル音声信号105にできる限り似るように合成されたデジタル音声信号113を再構築する。
現在、ほとんどの普及しているスピーチコーディング技術は、線形予測(LP)、特に、CELPに基づいている。LPに基づくコーディングにおいては、合成されたデジタル音声信号230(図2)が、伝達関数1/A(z)を有するLP合成フィルタ216によって励振214をフィルタリングすることによって生成される。LPフィルタのフィルタパラメータA(z)を発見するための手順の例は、参考文献[4]に見つけられ得る。
CELPにおいて、励振214は、概して、2つの部分、すなわち、インデックスt(ピッチのラグ)に応じて適応コードブック218から過去の励振信号v(n)を選択することによって、および適応コードブックの利得gp 226によって過去の励振信号v(n)を増幅することによって生成される第1段階である適応コードブックの寄与222と、インデックスkに応じて固定コードブック220から革新的コードベクトルck(n)を選択することによって、および固定コードブック利得gc 228によって革新的コードベクトルck(n)を増幅することによって生成される第2段階である固定コードブックの寄与224とからなる。概して、適応コードブック222は、励振の周期的部分をモデル化し、固定コードブックの励振の寄与224は、音声信号の展開をモデル化するために追加される。
音声信号は、典型的には20msのフレーム毎に処理され、LPフィルタのフィルタパラメータA(z)が、フレーム毎に1回、エンコーダ106からデコーダ110に送信される。CELPにおいて、フレームは、励振を符号化するためにいくつかのサブフレームに分割される。典型的には、サブフレームの長さは、5msである。
CELPは、可能なデコーダ出力がエンコーダ106においてコーディングプロセス中に既に試され(合成され)、そして、元のデジタル音声信号105と比較される合成による分析(Analysis-by-Synthesis)と呼ばれる原理を使用する。したがって、エンコーダ106は、デコーダ110の要素と同様の要素を含む。これらの要素は、出力y1(n)が(デコーダ110の適応コードブックの利得226に対応する)適応コードブックの利得gp 240によって増幅される重み付けされた合成フィルタH(z) 238(LP合成フィルタ1/A(z)および知覚重み付けフィルタ(perceptual weighting filter)W(z)のカスケード)のインパルス応答と畳み込まれる過去の励振信号v(n)を供給する(デコーダ110の適応コードブック218に対応する)適応コードブック242からのインデックスt(ピッチのラグ)に応じて選択される(デコーダ110の適応コードブックの寄与222に対応する)適応コードブックの励振の寄与250を含む。これらの要素は、出力y2(n)が(デコーダ110の固定コードブックの利得228に対応する)固定コードブックの利得gc 248によって増幅される重み付けされた合成フィルタH(z) 246のインパルス応答と畳み込まれる革新的コードベクトルck(n)を供給する(デコーダ110の固定コードブック220に対応する)固定コードブック244からインデックスkに応じて選択される(デコーダ110の固定コードブックの寄与224に対応する)固定コードブックの励振の寄与252も含む。
エンコーダ106は、知覚重み付けフィルタW(z) 233と、LP合成フィルタ1/A(z)および知覚重み付けフィルタW(z)のカスケード(H(z))のゼロ入力応答の計算器234とを含む。減算器236、254、および256は、元のデジタル音声信号105と合成されたデジタル音声信号113と(図1)の間の平均二乗誤差232を計算するために使用される誤差信号を提供するために、知覚重み付けフィルタ233によってフィルタリングされた元のデジタル音声信号105から、計算器234からのゼロ入力応答、適応コードブックの寄与250、および固定コードブックの寄与252をそれぞれ減算する。
適応コードブック242および固定コードブック244は、知覚的に重み付けされた領域において元のデジタル音声信号105と合成されたデジタル音声信号113との間の平均二乗誤差232を最小化するように探索され、離散的時間インデックスn=0, 1, ..., N-1であり、Nはサブフレームの長さである。平均二乗誤差232の最小化は、デジタル音声信号105をコーディングするための最良の候補の(インデックスtによって特定される)過去の励振信号v(n)および(インデックスkによって特定される)革新的コードベクトルck(n)をもたらす。知覚重み付けフィルタW(z)は、周波数マスキング効果を利用し、概して、LPフィルタA(z)から導出される。WB(広帯域、典型的には50~7000Hzの帯域幅)信号のための知覚重み付けフィルタW(z)の例は、参考文献[4]に見つけられ得る。
LP合成フィルタ1/A(z)および重み付けフィルタW(z)のメモリが探索される革新的コードベクトルck(n)から独立しているので、このメモリ(LP合成フィルタ1/A(z)および知覚重み付けフィルタW(z)のカスケード(H(z))のゼロ入力応答)は、固定コードブックの探索の前に元のデジタル音声信号105から減算され得る(減算器236)。そして、候補の革新的コードベクトルck(n)のフィルタリングが、図2においてH(z)によって表されるフィルタ1/A(z)およびW(z)のカスケードのインパルス応答との畳み込みによって行われ得る。
エンコーダ106からデコーダ110に送信されるデジタルビットストリーム111は、概して、以下のパラメータ107、すなわち、LPフィルタA(z)の量子化されたパラメータ、適応コードブック242のインデックスtおよび固定コードブック244のインデックスk、ならびに適応コードブック242および固定コードブック244の利得gp 240およびgc 248を含む。デコーダ110においては、
- LPフィルタA(z)の受信された量子化されたパラメータが、LP合成フィルタ216を構築するために使用され、
- 受信されたインデックスtが、適応コードブック218に適用され、
- 受信されたインデックスkが、固定コードブック220に適用され、
- 受信された利得gpが、適応コードブックの利得226として使用され、
- 受信された利得gcが、固定コードブックの利得228として使用される。
CELPに基づくエンコーダおよびデコーダの構造および動作に関するさらなる説明は、たとえば、参考文献[4]に見つけられ得る。
また、以下の説明はEVS規格(参考文献[4])に言及するが、そこで説明される概念、原理、構造、および動作はその他の音声/スピーチ処理および通信規格に適用される可能性があることに留意されたい。
有声のオンセットのコーディング
より優れたコーディングの性能を得るために、参考文献[4]に記載のEVSコーデックのLPに基づくコアは、信号分類アルゴリズムと、信号の各カテゴリに合わせて仕立てられた6つの異なるコーディングモード、すなわち、非アクティブコーディング(IC)モード、無声コーディング(UC)モード、遷移コーディング(TC)モード、有声コーディング(VC)モード、汎用コーディング(GC: Generic Coding)モード、およびオーディオコーディング(AC)モード(図示せず)とを使用する。
図3は、EVSのコーディングモード分類方法300の動作およびEVSのコーディングモード分類器320のモジュールを同時に示す単純化された高レベルのブロック図である。
図3を参照すると、コーディングモード分類方法300は、アクティブフレーム検出動作301、無声フレーム検出動作302、オンセット後フレーム検出動作303、および安定的有声フレーム(stable voiced frame)検出動作304を含む。
アクティブフレーム検出動作301を実行するために、アクティブフレーム検出器311が、現在のフレームがアクティブであるのかまたは非アクティブであるのかを判定する。その目的のために、サウンドアクティビティ検出(SAD: sound activity detection)またはボイスアクティビティ検出(VAD: voice activity detection)が、使用され得る。非アクティブなフレームが検出される場合、ICコーディングモード321が選択され、手順が終了される。
検出器311がアクティブフレーム検出動作301中にアクティブなフレームを検出する場合、無声フレーム検出動作302が、無声フレーム検出器312を使用して実行される。特に、無声のフレームが検出される場合、無声フレーム検出器312が、検出された無声のフレームをコーディングするためにUCコーディングモード322を選択する。UCコーディングモードは、無声のフレームをコーディングするために設計される。UCコーディングモードにおいては、適応コードブックは使用されず、励振は線形ガウスコードブック(linear Gaussian codebook)から選択された2つのベクトルからなる。代替的に、UCのコーディングモードは、固定代数コードブック(fixed algebraic codebook)およびガウスコードブック(Gaussian codebook)からなる可能性がある。
現在のフレームが検出器312によって無声として分類されない場合、オンセット後フレーム検出動作303および対応するオンセット後フレーム検出器313ならびに安定的有声フレーム検出動作304および対応する安定的有声フレーム検出器314が、使用される。
オンセット後フレーム検出動作303において、検出器313は、有声のオンセットの後に続く有声のフレームを検出し、これらのフレームをコーディングするためにTCコーディングモード323を選択する。TCコーディングモード323は、過去の情報(適応コードブック)の使用を制限することによってフレームの消失の存在下のコーデックの性能を高めるように設計される。(フレームの消失のない)完全なチャネルの性能に対するTCコーディングモード323の影響を同時に最小化するために、モード323は、フレームの消失の観点から見て最も決定的に重要なフレームに対してのみ使用される。これらの最も決定的に重要なフレームは、有声のオンセットの後に続く有声のフレームである。
現在のフレームが有声のオンセットの後に続く有声のフレームでない場合、安定的有声フレーム検出動作304が、実行される。この動作中に、安定的有声フレーム検出器314は、準周期的な安定的有声フレームを検出するように設計される。現在のフレームが準周期的な安定的有声フレームとして検出される場合、検出器314は、安定的有声フレームを符号化するためにVCコーディングモード324を選択する。検出器314によるVCコーディングモードの選択は、平滑なピッチの展開によって条件付けられる。これは、代数符号励振線形予測(ACELP: Algebraic Code-Excited Linear Prediction)技術を使用するが、ピッチの展開がフレーム全体を通じて平滑であるとするならば、GCコーディングモードよりも多くのビットが固定(代数)コードブックに割り振られる。
現在のフレームが動作301~304の間に上述のフレームのカテゴリのうちの1つに分類されない場合、このフレームは、非定常的スピーチセグメントを含む可能性が高く、検出器314は、そのようなフレームを符号化するために、GCコーディングモード325、たとえば、汎用ACELPコーディングモードを選択する。
最後に、EVS規格のスピーチ/音楽分類アルゴリズム(図示せず)が、現在のフレームがACモードを使用してコーディングされるかどうかを判断するために実行される。ACモードは、包括的なオーディオ信号、これに限らないが特に音楽を効率的にコーディングするように設計された。
雑音のあるチャネルに関するコーデックの性能を改善するために、フレームエラー隠蔽(FEC)のためのフレーム分類と呼ばれる、図3を参照して前の段落において説明されたコーディングモード分類方法の改善が、適用される(参考文献[4])。FECのために異なるフレームの分類手法を使用することの裏側にある基本的発想は、FECのための理想的戦略が準定常的スピーチセグメントに関しておよび急速に変化する特徴を有するスピーチセグメントに関して異なるべきであるという事実である。EVS規格(参考文献[4])において、エンコーダで使用されるFECのためのフレーム分類は、以下の通り5つの異なるクラスを定義する。UNVOICEDクラスは、すべての無声のスピーチフレームおよびアクティブなスピーチのないすべてのフレームを含む。有声のオフセット(offset)フレームも、そのフレームの終わりが無声である傾向がある場合、UNVOICEDクラスとして分類され得る。UNVOICED TRANSITIONクラスは、フレームの終わりに起こり得る有声のオンセットを有する無声のフレームを含む。VOICED TRANSITIONクラスは、比較的弱い有声の特徴を有する有声のフレームを含む。VOICEDクラスは、安定的特徴を有する有声のフレームを含む。ONSETクラスは、UNVOICEDクラスまたはUNVOICED TRANSITIONクラスとして分類されたフレームの後の続く安定的特徴を有するすべての有声のフレームを含む。
図3のEVSのコーディングモード分類方法300およびEVSのコーディングモード分類器320に関するさらなる説明は、たとえば、参考文献[4]に見つけられ得る。
もともと、TCコーディングモードは、遷移フレームが失われる場合に誤りの伝搬を止めるのに役立つように遷移の後に続くフレームにおいて使用されるために導入された(参考文献[4])。さらに、TCコーディングモードは、コーディングの効率を高めるために遷移フレームにおいて使用され得る。特に、有声のオンセットの直前、適応コードブックは、通常、有声のセグメントの始めをコーディングするのにあまり役に立たないまたは効率的でない雑音のような信号を含む。目的は、有声のオンセットを符号化するために声門インパルス(glottal impulse)形状の単純化された量子化されたバージョンを入力されたより優れた非予測的なコードブックによって適応コードブックを補足することである。声門形状コードブックは、フレーム内の最初の声門インパルスを含む1つのサブフレームにおいて、より厳密に言えば、フレームの最初のピッチ周期内でLP残差信号(図2のsw(n))がその最大エネルギーを有するサブフレームにおいてのみ使用される。図3のTCコーディングモードに関するさらなる説明は、たとえば、参考文献[4]に見つけられ得る。
本開示は、TCコーディングモードの声門形状コードブックを使用して有声のオンセットをコーディングするEVSの概念をさらに拡張することを提案する。アタックがフレームの終わり頃に発生するとき、少数のビットによるフレームの先行部分(アタックを含むサブフレームの前のサブフレーム)のコーディングが十分であるので、フレームの終わり頃の励振をコーディングするためにビットバジェット(利用可能なビットの数)のできる限り多くの使用を強制することが、提案される。参考文献[4]に記載のEVSのTCコーディングモードとの違いは、フレームの最初のピッチ周期内のLP残差信号の実際の最大エネルギーとは無関係に、声門形状コードブックが、通常、フレーム内の最後のサブフレームにおいて使用されることである。
フレームの終わりを符号化するためにビットバジェットのほとんどを強制的に振り向けることによって、フレームの始めの音声信号の波形は、特に、固定コードブックがたとえば1または2パルス/サブフレームのみで形成される低ビットレートにおいて十分にモデル化されない可能性がある。しかし、人間の耳の感度が、ここで利用される。人間の耳は、アタックの前の音声信号の不正確なコーディングにあまり敏感でないが、そのようなアタックの後の音声信号セグメント、たとえば、有声のセグメントのコーディングのすべての欠陥にはずっと敏感である。アタックを構築するためにより多くの数のビットを強制的に振り向けることによって、後続の音声信号フレームの適応コードブックは、十分にモデル化されるアタックのセグメントに対応する過去の励振から恩恵を受けるのでより効率的である。結果として、主観的品質が、改善される。
本開示は、GCコーディングモードによってコーディングされるフレームがTCコーディングモードによって符号化されるべきかどうかを判定するためにこれらのフレームに対して動作する、アタックを検出するための方法および対応するアタック検出器を提案する。特に、アタックが検出されるとき、これらのフレームは、TCコーディングモードを使用してコーディングされる。したがって、TCコーディングモードを使用してコーディングされるフレームの総体的な数は、増加する。さらに、TCコーディングモードは過去の励振を使用しないので、フレームの消失に対するコーデックの固有の堅牢性が、この手法によって高められる。
アタック検出方法およびアタック検出器
図4は、アタック検出方法400の動作およびアタック検出器450のモジュールを同時に示すブロック図である。
アタック検出方法400およびアタック検出器450は、TCコーディングモードを使用してコーディングされるフレームを適切に選択する。以下の説明は、コーデック、この説明のための例においては、12.8kbpsの内部サンプリングレートを用い、長さが20msであり、4つのサブフレームからなるフレームを用いるCELPコーデックにおいて使用され得るアタック検出方法400およびアタック検出器450の例を図4に関連して説明する。そのようなコーデックの例は、より低いビットレート(≦13.2kbps)のEVSコーデック(参考文献[4])。異なる内部ビットレート、フレームの長さ、およびサブフレーム数を用いるその他の種類のコーデックへの応用も、想定され得る。
アタックの検出は、現在のフレームの入力音声信号のいくつかのセグメント内のエネルギーが計算される前処理から始まり、その後に、2段階で順に実行される検出と、最終判断とが続く。第1段階の検出は、現在のフレーム内の計算されたエネルギーを比較することに基づき、一方、第2段階の検出は、過去のフレームのエネルギー値も考慮に入れる。
セグメントのエネルギー
図4のエネルギー計算動作401において、エネルギー計算器451が、知覚的に重み付けされた入力音声信号sw(n)の複数の連続的な分析セグメント(analysis segment)内のエネルギーを計算し、n=0,...,N-1であり、Nはサンプル数で表されたフレームの長さである。そのようなエネルギーを計算するために、計算器451は、たとえば、次の式(1)
Figure 2022532094000002
を使用する可能性があり、Kは、分析音声信号セグメントの、サンプル数で表された長さであり、iは、セグメントのインデックスであり、N/Kは、セグメントの総数である。12.8kbpsの内部サンプリングレートで動作するEVS規格において、フレームの長さは、N=256サンプルであり、セグメントの長さは、たとえば、K=8に設定されることが可能であり、これは、合計N/K=32個の分析セグメントをもたらす。したがって、セグメントi=0,...,7は、第1のサブフレームに対応し、セグメントi=8,...,15は、第2のサブフレームに対応し、セグメントi=16,...,23は、第3のサブフレームに対応し、最後に、セグメントi=24,...,31は、現在のフレームの最後の(第4の)サブフレームに対応する。式(1)の非限定的な説明のための例において、セグメントは、連続的である。別の可能な実施形態においては、部分的に重なり合うセグメントが、使用され得る。
次に、最大エネルギーセグメント発見動作402において、最大エネルギーセグメント発見器452が、最大エネルギーを有するセグメントiを発見する。その目的のために、発見器452は、たとえば、次の式(2)を使用する可能性がある。
Figure 2022532094000003
最大エネルギーを有するセグメントは、下の2つの段階(以後、第1段階および第2段階)で検証される候補のアタックの位置を表す。
この説明において例として与えられる例示的な実施形態においては、GCコーディングモードを使用して処理されるために既に分類されたアクティブなフレーム(VAD=1、ローカルのVADが現在のフレームにおいて考慮される)のみが、下の第1段階および第2段階のアタック検出にかけられる。VAC(ボイスアクティビティ検出)に関するさらなる説明は、たとえば、参考文献[4]に見つけられ得る。判断動作403において、判断モジュール453が、VAD=1であり、現在のフレームがGCコーディングモードを使用して処理されるために分類されたかどうかを判定する。そうである場合、第1段階のアタック検出が、現在のフレームに対して実行される。そうでない場合、アタックは、検出されず、現在のフレームは、図3に示されたようにその前の分類に従って処理される。
スピーチと音楽との両方のフレームが、GCコーディングモードに分類されることが可能であり、したがって、アタック検出は、スピーチ信号のみでなく、通常の音声信号をコーディングする際に適用される。
第1段階のアタック検出
第1段階のアタック検出動作404および対応する第1段階のアタック検出器454が、図4を参照して以降で説明される。
第1段階のアタック検出動作404は、平均エネルギー計算動作405を含む。動作405を実行するために、第1段階のアタック検出器454は、たとえば、次の式(3)
Figure 2022532094000004
を使用する、現在のフレーム内の最後のサブフレームの前の分析セグメント全体の平均エネルギーの計算器455を含み、Pは、最後のサブフレームの前のセグメントの数である。N/K=32である非限定的な例示的実装において、パラメータPは、24に等しい。
同様に、平均エネルギー計算動作405において、計算器455は、例として、次の式(4)
Figure 2022532094000005
を使用して、現在のフレームのセグメントIattから始まり最後のセグメントまでの分析セグメント全体の平均エネルギーを計算する。
第1段階のアタック検出動作404は、比較動作406をさらに含む。比較動作406を実行するために、第1段階のアタック検出器454は、式(3)からの平均エネルギーE1と式(4)からの平均エネルギーE2との比を、フレームエラー隠蔽(FEC)のための上で検討されたフレーム分類(参考文献[4])によって実行される、「last_class」と表記される前のフレームの信号分類に応じた閾値と比較するための比較器456を含む。比較器456は、非限定的な例として、式(5)の次の論理
Figure 2022532094000006
を使用して第1段階のアタック検出からのアタックの位置Iatt1を決定し、β1およびβ2は、非限定的例によってβ1=8およびβ2=20にそれぞれ設定され得る閾値である。Iatt1=0であるとき、アタックは、検出されない。式(5)の論理を使用すると、十分に強くないすべてのアタックが、排除される。
誤って検出されるアタックの数をさらに減らすために、第1段階のアタック検出動作404は、セグメントエネルギー比較動作407をさらに含む。セグメントエネルギー比較動作407を実行するために、第1段階のアタック検出器454は、最大エネルギーEseg(Iatt)を有するセグメントを現在のフレームのその他の分析セグメントのエネルギーEseg(i)と比較するためのセグメントエネルギー比較器457を含む。したがって、動作406および比較器456によってIatt1>0と決定される場合、比較器457は、非限定的な例として、i=2,...,P-3に関して式(6)
Figure 2022532094000007
の比較を実行し、閾値β3は、真のアタックの検出の効率に支障をきたさずに誤って検出されるアタックをできる限り削減するために実験に基づいて決定される。非限定的な実験的実装において、閾値β3は、2に設定される。やはり、Iatt1=0であるとき、アタックは検出されない。
第2段階のアタック検出
第2段階のアタック検出動作410および対応する第2段階のアタック検出器460が、図4を参照して以降で説明される。
第2段階のアタック検出動作410は、有声クラス比較動作411を含む。有声クラス比較動作411を実行するために、第2段階のアタック検出器460は、現在のフレームのクラスがVOICEDであるか否かを判定するために上で検討されたEVSのFEC分類方法から情報を得るための有声クラス判断モジュール461を含む。現在のフレームのクラスがVOICEDである場合、判断モジュール461は、アタックが検出されないという判断を出力する。
アタックが第1段階のアタック検出動作404および第1段階のアタック検出器454(特に、比較動作406および比較器456または比較動作407および比較器457)において検出されなかった、つまり、Iatt1=0であり、現在のフレームの分類がVOICED以外である場合、第2段階のアタック検出動作410および第2段階のアタック検出器460が、適用される。
第2段階のアタック検出動作410は、平均エネルギー計算動作412を含む。動作412を実行するために、第2段階のアタック検出器460は、候補のアタックIattの前のN/K個の分析セグメント--前のフレームからのセグメントを含む--の平均エネルギーを、たとえば、式(7)
Figure 2022532094000008
を使用して計算するための平均エネルギー計算器462を含み、Eseg,past(i)は、前のフレームからのセグメント毎のエネルギーである。
第2段階のアタック検出動作410は、論理判断動作413を含む。動作413を実行するために、第2段階のアタック検出器460は、式(7)からの平均エネルギーに、たとえば、式(8)の下の論理
Figure 2022532094000009
を適用することによって第2段階のアタック検出器からのアタックの位置Iatt2を見つけるための論理判断モジュール463を含み、Iattは、式(2)において見つけられており、β4およびβ5は、この非限定的な例示的実装においてはβ4=16およびβ5=12にそれぞれ設定される閾値である。比較動作413および比較器463がIatt2=0であると決定するとき、アタックは検出されない。
最後に、第2段階のアタック検出動作410は、エネルギー比較動作414を含む。動作414を実行するために、第2段階のアタック検出器460は、比較動作413および比較器463において決定されたIatt2が0よりも大きいときに誤って検出されるアタックの数をさらに削減するために、以下の比を以下の閾値と、たとえば、式(9)
Figure 2022532094000010
に示されるように比較するためのエネルギー比較器464を含み、β6は、非限定的な例示的実装においてはβ6=20に設定された閾値であり、ELTは、非限定的な例として式(10)
Figure 2022532094000011
を使用して計算された長期的エネルギーである。この非限定的な例示的実装において、パラメータαは、0.95に設定される。やはり、Iatt2=0であるとき、アタックは検出されない。
最後に、エネルギー比較動作414において、エネルギー比較器464は、アタックが前のフレームにおいて検出されなかった場合、アタックの位置Iatt2を0に設定する。この場合、アタックは検出されない。
最終的なアタック検出の判断
現在のフレームがTCコーディングモードを使用してコーディングされるアタックフレームとして決定されるかどうかの最終判断が、第1段階404および第2段階410の検出動作中にそれぞれ取得されたアタックの位置Iatt1およびIatt2に基づいて行われる。
判断動作403および判断モジュール453において判定されたように、現在のフレームがアクティブであり(VAD=1)、GCコーディングモードでコーディングするために既に分類されている場合、たとえば、式(11)の下の論理
Figure 2022532094000012
が適用される。
特に、アタック検出方法400は、第1段階のアタック判断動作430を含む。動作430を実行するために、判断動作403および判断モジュール453において判定されたように、現在のフレームがアクティブであり(VAD=1)、GCコーディングモードでコーディングするために既に分類されている場合、アタック検出器450は、Iatt1≧Pであるかどうかを判定するための第1段階のアタック判断モジュール470をさらに含む。Iatt1≧Pである場合、Iatt1は、現在のフレームの最後のサブフレーム内の検出されたアタックの位置Iatt,finalであり、TCコーディングモードの声門形状コードブックがこの最後のサブフレームにおいて使用されると決定するために使用される。それ以外の場合、アタックは検出されない。
第2段階のアタック検出に関して、エネルギー比較動作414およびエネルギー比較器464において決定されたように、式(9)の比較が真である場合、またはアタックが前のフレーム内で検出された場合、Iatt2=0であり、アタックは検出されない。そうでない場合、アタック検出方法400のアタック判断動作440において、アタック検出器450のアタック判断モジュール480が、アタックが現在のフレーム内で位置Iatt,final=Iatt2に検出されると判定する。検出されたアタックの位置Iatt,finalは、どのサブフレームにおいてTCコーディングモードの声門形状コードブックが使用されるかを決定するために使用される。
検出されたアタックの最終的な位置Iatt,finalについての情報は、現在のフレームのどのサブフレームにおいてTCコーディングモード内の声門形状コードブックが使用されるか、およびどのTCモードの構成(参考文献[3]参照)が使用されるかを決定するために使用される。たとえば、4つのサブフレームおよびN/K=32個の分析セグメントに分割されるN=256サンプルのフレームの場合、声門形状コードブックは、最終的なアタックの位置Iatt,finalがセグメント1~7内で検出される場合、第1のサブフレームにおいて使用され、最終的なアタックの位置Iatt,finalがセグメント8~15内で検出される場合、第2のサブフレームにおいて使用され、最終的なアタックの位置Iatt,finalがセグメント16~23内で検出される場合、第3のサブフレームにおいて使用され、最後に、最終的なアタックの位置Iatt,finalがセグメント24~31内で検出される場合、現在のフレームの最後の(第4の)サブフレームにおいて使用される。値Iatt,final=0は、アタックが見つからなかったこと、および現在のフレームが元の分類に従って(通常はGCコーディングモードを使用して)コーディングされることをシグナリングする。
没入型ボイス/オーディオコーデックへの例示的実装
アタック検出方法400は、声門形状コードブック割り振り動作445を含む。動作445を実行するために、アタック検出器450は、TCコーディングモード内の声門形状コードブックを4つのサブフレームからなる現在のフレームの所与のサブフレームに式(12)の下の論理
Figure 2022532094000013
を使用して割り振るための声門形状コードブック割り振りモジュール485を含み、sbfrは、サブフレームインデックスであり、sbfr=0,...3であり、インデックス0は、第1のサブフレームを示し、インデックス1は、第2のサブフレームを示し、インデックス2は、第3のサブフレームを示し、インデックス3は、第4のサブフレームを示す。
実装の非限定的な例の上述の説明は、12.8kHzの内部サンプリングレートで動作し、4つのサブフレームと、したがって、サンプル数N=256を有するフレームとを有する前処理モジュールを想定する。コアコーデックが12.8kHzの内部サンプリングレートでACELPを使用する場合、最終的なアタックの位置Iatt,finalは、式(12)に定義されたようにサブフレームに割り振られる。しかし、コアコーデックが異なる内部サンプリングレートで、たとえば、内部サンプリングレートが16kHzであるより高いビットレート(EVSの場合、16.4kbps以上)で動作するとき、状況は異なる。20msのフレーム長を与えると、フレームは、この場合、5個のサブフレームからなり、そのようなフレームの長さは、N16=320サンプルである。実装のこの例においては、前処理の分類および分析が引き続き12.8kHzの内部サンプリングレートの領域で実行される可能性があるので、声門形状コードブック割り振りモジュール485は、声門形状コードブック割り振り動作445において、TCコーディングモード内の声門形状コードブックを使用してコーディングされるサブフレームを式(13)の下の論理
Figure 2022532094000014
を使用して選択し、演算子
Figure 2022532094000015
は、x以下の最も大きな整数を示す。式(13)の場合、sbfr=0,...4が式(12)と異なる一方、分析セグメントの数は式(12)と同じ、つまり、N/K=32である。したがって、声門形状コードブックは、最終的なアタックの位置Iatt,finalがセグメント1~6内で検出される場合、第1のサブフレームにおいて使用され、最終的なアタックの位置Iatt,finalがセグメント7~12内で検出される場合、第2のサブフレームにおいて使用され、最終的なアタックの位置Iatt,finalがセグメント13~19内で検出される場合、第3のサブフレームにおいて使用され、最終的なアタックの位置Iatt,finalがセグメント20~25内で検出される場合、第4のサブフレームにおいて使用され、最後に、最終的なアタックの位置Iatt,finalがセグメント26~31内で検出される場合、現在のフレームの最後の(第5の)サブフレームにおいて使用される。
図5は、復号された音楽信号の品質に対する図4のアタック検出器およびTCコーディングモードの影響を示す第1の非限定的な説明のための例のグラフである。特に、図5においては、カスタネットの音楽セグメントが示され、曲線a)が、入力(コーディングされていない)音楽信号を表し、曲線b)が、第1段階のアタック検出のみが使用されたときの復号された参照信号の合成を表し、曲線c)が、第1段階および第2段階のアタック検出全体とTCコーディングモードを使用するコーディングとが使用されるときの復号された改善された合成を表す。曲線b)およびc)を比較すると、曲線c)の合成のアタック(図5の500などの低振幅から高振幅へのオンセット)が、オンセットの始めのカスタネットの信号のエネルギーおよび鋭さを維持するという両方の観点で著しくより正確であることが分かる。
図6は、復号されたスピーチ信号の品質に対する図4のアタック検出器およびTCコーディングモードの影響を示す第2の非限定的な説明のための例のグラフであり、曲線a)が、入力(コーディングされていない)スピーチ信号を表し、曲線b)が、オンセットのフレームがGCコーディングモードを使用してコーディングされるときの復号された参照スピーチ信号の合成を表し、曲線c)が、第1段階および第2段階のアタック検出全体とTCコーディングモードを使用するコーディングとがオンセットのフレームにおいて使用されるときの復号された改善されたスピーチ信号の合成を表す。曲線b)およびc)を比較すると、アタック(図6の600などの低振幅から高振幅へのオンセット)のコーディングが、アタック検出動作400およびアタック検出器450ならびにTCコーディングモードがオンセットのフレームにおいて使用されるときに改善されることが分かる。さらに、オンセットの後のフレームは、曲線b)とc)との両方においてGCコーディングモードを使用してコーディングされ、オンセットの後のフレームのコーディングの品質が、曲線c)においてやはり改善されることが分かる。これは、オンセットの後のフレームにおけるGCコーディングモードの適応コードブックが、オンセットのフレームがTCコーディングモードを使用してコーディングされるときにうまく構築された励振を活用するからである。
図7は、コーディングされる音声信号内のアタックを検出し、検出されたアタックをコーディングするためのデバイスを形成し、コーディングされる音声信号内のアタックを検出し、検出されたアタックをコーディングするための方法を実施するハードウェア構成要素の例示的な構成の簡略化されたブロック図である。
コーディングされる音声信号内のアタックを検出し、検出されたアタックをコーディングするためのデバイスは、モバイル端末の一部として、ポータブルメディアプレイヤーの一部として、または任意の同様のデバイスに実装される可能性がある。(図7において700として特定される)コーディングされる音声信号内のアタックを検出し、検出されたアタックをコーディングするためのデバイスは、入力702、出力704、プロセッサ706、およびメモリ708を含む。
入力702は、たとえば、デジタル入力音声信号105(図1)を受信するように構成される。出力704は、符号化されたビットストリーム111を供給するように構成される。入力702および出力704は、共通のモジュール、たとえば、シリアル入力/出力デバイスに実装される可能性がある。
プロセッサ706は、入力702、出力704、およびメモリ708に動作可能なように接続される。プロセッサ706は、図2、図3、および図4のモジュールを含む音声エンコーダ106の様々なモジュールの機能を支援してコード命令を実行するための1つまたは複数のプロセッサとして実現される。
メモリ708は、プロセッサ706によって実行可能なコード命令を記憶するための非一時的メモリ、特に、実行されるときに図2、図3、および図4の動作およびモジュールを含む音声エンコーダ106の動作およびモジュールをプロセッサに実施させる非一時的命令を含むプロセッサ可読メモリを含む可能性がある。メモリ708は、プロセッサ706によって実行される様々な機能からの中間処理データを記憶するためのランダムアクセスメモリまたはバッファを含む可能性もある。
当業者は、コーディングされる音声信号内のアタックを検出し、検出されたアタックをコーディングするための方法およびデバイスの説明が例示的であるに過ぎず、限定的であるようにまったく意図されていないことを認めるであろう。その他の実施形態は、本開示の恩恵を受けるそのような当業者にそれらのその他の実施形態自体をたやすく示唆する。さらに、コーディングされる音声信号内のアタックを検出し、検出されたアタックをコーディングするための開示された方法およびデバイスは、ビットバジェットの割り当てまたは分配に関連する既存のニーズおよび問題に対する有益な解決策を提供するようにカスタマイズされる可能性がある。
明瞭にするために、コーディングされる音声信号内のアタックを検出し、検出されたアタックをコーディングするための方法およびデバイスの実装の決まり切った特徴のすべてが示され、説明されている訳ではない。もちろん、コーディングされる音声信号内のアタックを検出し、検出されたアタックをコーディングするための方法およびデバイスのいずれのそのような実際の実装の開発においても、アプリケーション、システム、ネットワーク、およびビジネスに関連する制約に準拠することなどの開発者の特定の目的を実現するために数多くの実装に固有の判断がなされる必要がある可能性があり、これらの特定の目的が実装毎および開発者毎に変わることは、理解されるであろう。さらに、開発の努力は複雑で、時間がかかる可能性があるが、それでもなお、本開示の恩恵を受ける音声処理の分野の当業者にとっては工学技術の日常的な仕事であることが、理解されるであろう。
本開示によれば、本明細書において説明されたモジュール、処理動作、および/またはデータ構造は、様々な種類のオペレーティングシステム、計算プラットフォーム、ネットワークデバイス、コンピュータプログラム、および/または汎用機械を使用して実装される可能性がある。加えて、当業者は、配線されたデバイス、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)などのより汎用目的の性質の少ないデバイスも使用される可能性があることを認めるであろう。一連の動作および下位動作を含む方法がプロセッサ、コンピュータ、またはマシンによって実装され、それらの動作および下位動作がプロセッサ、コンピュータ、またはマシンによって読み取り可能な一連の非一時的なコード命令として記憶される可能性がある場合、それらの動作および下位動作は、有形のおよび/または非一時的な媒体に記憶される可能性がある。
本明細書において説明されたコーディングされる音声信号内のアタックを検出し、検出されたアタックをコーディングするための方法およびデバイスのモジュールは、本明細書において説明された目的に好適なソフトウェア、ファームウェア、ハードウェア、またはソフトウェア、ファームウェア、もしくはハードウェアの任意の組合せを含む可能性がある。
本明細書において説明されたコーディングされる音声信号内のアタックを検出し、検出されたアタックをコーディングするための方法およびデバイスにおいて、様々な動作および下位動作は、様々な順序で実行される可能性があり、動作および下位動作の一部は、任意である可能性がある。
この上述の開示は非限定的な例示的実施形態としてなされているが、これらの実施形態は、本開示の精神および本質を逸脱することなく添付の請求項の範囲内で随意に修正される可能性がある。
参考文献
以下の参考文献は、本明細書で参照され、その内容すべてが、参照により本明細書に組み込まれる。
(1) V. Eksler, R. Salami, and M. Jelinek, "Efficient handling of mode switching and speech transitions in the EVS codec," in Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP), Brisbane, Australia, 2015
(2) V. Eksler, M. Jelinek, and R. Salami, "Method and Device for the Encoding of Transition Frames in Speech and Audio," WIPO Patent Application No. WO/2008/049221, 24 Oct. 2006
(3) V. Eksler and M. Jelinek, "Glottal-Shape Codebook to Improve Robustness of CELP Codecs," IEEE Trans. on Audio, Speech and Language Processing, vol. 18, no. 6, pp. 1208 - 1217, Aug. 2010
(4) 3GPP TS 26.445: "Codec for Enhanced Voice Services (EVS); Detailed Algorithmic Description"
追加の開示として、以下は、没入型ボイスおよびオーディオサービス(IVAS)コーデックにおいて実装される開示されたアタック検出器の非限定的な例の擬似コードである。
擬似コードはEVSに基づく。新しいIVASロジックは、影付きの背景で強調表示されている。
void detector( . . . )
{
attack_flag = 0; /* initialization */

attack = attack_det( . . . ); /* attack detection */

. . .

if (localVAD == 1 && *coder_type == GENERIC && attack > 0 && !(*sp_aud_decision2 == 1 && ton > 0.65f))
{
/* change coder_type to TC if attack has been detected */
*sp_aud_decision1 = 0;
*sp_aud_decision2 = 0;
*coder_type = TRANSITION;
*attack_flag = attack + 1;
}

return attack_flag;
}

static short attack_det(
const float *inp, /* i : input signal */
const short last_clas, /* i : last signal clas */
const short localVAD, /* i : local VAD flag */
const short coder_type, /* i : coder type */
const long total_brate, /* i : total bit-rate */
const short element_mode, /* i : IVAS element mode */
const short clas, /* i : signal class */
float finc_prev[], /* i/o: previous finc */
float *lt_finc, /* i/o: long-term mean finc */
short *last_strong_attack /* i/o: last strong attack flag */
)
{
short i, attack;
float etmp, etmp2, finc[ATT_NSEG];
short att_3lsub_pos;
short attack1;

att_3lsub_pos = ATT_3LSUB_POS;
if( total_brate >= ACELP_24k40 )
{
att_3lsub_pos = ATT_3LSUB_POS_16k; /* applicable only in EVS */
}

/* compute energy per section */
for( i=0; i<ATT_NSEG; i++ )
{
finc[i] = sum2_f( inp + i*ATT_SEG_LEN, ATT_SEG_LEN );
}

attack = maximum( finc, ATT_NSEG, &etmp );
attack1 = attack;

if( localVAD == 1 && coder_type == GENERIC )
{
/* compute mean energy in the first three sub-frames */
etmp = mean( finc, att_3lsub_pos );

/* compute mean energy after the attack */
etmp2 = mean( finc + attack, ATT_NSEG - attack );

/* and compare them */
if( etmp * 8 > etmp2 )
{
/* stop, if the attack is not sufficiently strong */
attack = 0;
}

if( last_clas == VOICED_CLAS && etmp * 20 > etmp2 )
{
/* stop, if the signal was voiced and the attack is not sufficiently strong*/
attack = 0;
}

/* compare wrt. other sections (reduces miss-classification) */
if( attack > 0 )
{
etmp2 = finc[attack];

for( i=2; i<att_3lsub_pos-2; i++ )
{
if( finc[i] * 2.0f > etmp2 )
{
/* stop, if the attack is not sufficiently strong */
attack = 0;
break;
}
}
}

if( attack == 0 && element_mode > EVS_MONO && (clas < VOICED_TRANSITION || clas == ONSET) )
{
mvr2r( finc, finc_prev, attack1 );

/* compute mean energy before the attack */
etmp = mean( finc_prev, ATT_NSEG );

etmp2 = finc[attack1];

if((etmp * 16 < etmp2) || (etmp * 12 < etmp2 && last_clas == UNVOICED_CLAS))
{
attack = attack1;
}

if( 20 * *lt_finc > etmp2 || *last_strong_attack )
{
attack = 0;
}
}
*last_strong_attack = attack;
}

/* compare wrt. other sections (reduces miss-classification) */
else if( attack > 0 )
{
etmp2 = finc[attack];

for( i=2; i<att_3lsub_pos-2; i++ )
{
if( i != attack && finc[i] * 1.3f > etmp2 )
{
/* stop, if the attack is not sufficiently strong */
attack = 0;
break;
}
}
*last_strong_attack = 0;
}

/* updates */
mvr2r( finc, finc_prev, ATT_NSEG );
*lt_finc = 0.95f * *lt_finc + 0.05f * mean( finc, ATT_NSEG );

return attack;
}

/* function to determine the sub-frame with glottal-shape codebook in TC mode frame */
void tc_classif_enc(
const short L_frame, /* i : length of the frame */
short *tc_subfr, /* o : TC sub-frame index */
short *position, /* o : maximum of residual signal index */
const short attack_flag, /* i : attack flag */
const short T_op[], /* i : open loop pitch estimates */
const float *res /* i : LP residual signal */
)
{
float temp;

*tc_subfr = -1;
if( attack_flag )
{
*tc_subfr = 3*L_SUBFR;

if( attack_flag > 0 )
{
if( L_frame == L_FRAME )
{
*tc_subfr = NB_SUBFR * (attack_flag-1) / 32 /*ATT_NSEG*/;
}
else
{
*tc_subfr = NB_SUBFR16k * (attack_flag-1) / 32 /*ATT_NSEG*/;
}
*tc_subfr *= L_SUBFR;
}
}

if( attack_flag )
{
*position = emaximum( res + *tc_subfr,min(T_op[0]+2,L_SUBFR), &temp ) + *tc_subfr;
}
else
. . .
100 音声処理および通信システム
101 通信チャネル
102 マイクロフォン
103 アナログ音声信号
104 アナログ-デジタル(A/D)コンバータ
105 デジタル音声信号
106 音声エンコーダ
107 ビットストリーム、符号化パラメータ
108 誤り訂正チャネルエンコーダ
109 誤り訂正チャネルデコーダ
110 音声デコーダ
111 ビットストリーム
112 誤り訂正されたビットストリーム
113 合成されたデジタル音声信号
114 合成されたアナログ音声信号
115 デジタル-アナログ(D/A)コンバータ
116 ラウドスピーカユニット
214 励振
216 LP合成フィルタ
218 適応コードブック
220 固定コードブック
222 適応コードブックの寄与
224 固定コードブックの寄与
226 適応コードブックの利得gp
228 固定コードブック利得gc
230 合成されたデジタル音声信号
232 平均二乗誤差
233 知覚重み付けフィルタW(z)
234 計算器
236 減算器
238 重み付けされた合成フィルタH(z)
240 適応コードブックの利得gp
242 適応コードブック
244 固定コードブック
246 重み付けされた合成フィルタH(z)
248 固定コードブックの利得gc
250 適応コードブックの励振の寄与
252 固定コードブックの励振の寄与
254 減算器
256 減算器
300 EVSのコーディングモード分類方法
301 アクティブフレーム検出動作
302 無声フレーム検出動作
303 オンセット後フレーム検出動作
304 安定的有声フレーム検出動作
311 アクティブフレーム検出器
312 無声フレーム検出器
313 オンセット後フレーム検出器
314 安定的有声フレーム検出器
320 EVSのコーディングモード分類器
321 ICコーディングモード
322 UCコーディングモード
323 TCコーディングモード
324 VCコーディングモード
325 GCコーディングモード
400 アタック検出方法
401 エネルギー計算動作
402 最大エネルギーセグメント発見動作
403 判断動作
404 第1段階のアタック検出動作
405 平均エネルギー計算動作
406 比較動作
407 セグメントエネルギー比較動作
410 第2段階のアタック検出動作
411 有声クラス比較動作
412 平均エネルギー計算動作
413 論理判断動作
414 エネルギー比較動作
430 第1段階のアタック判断動作
440 アタック判断動作
445 声門形状コードブック割り振る動作
450 アタック検出器
451 エネルギー計算器
452 最大エネルギーセグメント発見器
453 判断モジュール
454 第1段階のアタック検出器
455 計算器
456 比較器
457 セグメントエネルギー比較器
460 第2段階のアタック検出器
461 有声クラス判断モジュール
462 平均エネルギー計算器
463 論理判断モジュール
464 エネルギー比較器
470 第1段階のアタック判断モジュール
480 アタック判断モジュール
485 声門形状コードブック割り振りモジュール
700 デバイス
702 入力
704 出力
706 プロセッサ
708 メモリ

Claims (40)

  1. コーディングされる音声信号内のアタックを検出するためのデバイスであって、前記音声信号が、いくつかのサブフレームをそれぞれが含む連続したフレーム内で処理され、デバイスが、
    現在のフレームの最後のサブフレームにおいて前記アタックを検出するための第1段階のアタック検出器と、
    前記最後のサブフレームの前のサブフレームを含む前記現在のフレームのサブフレームのうちの1つにおいて前記アタックを検出するための第2段階のアタック検出器とを含む、デバイス。
  2. 前記現在のフレームが汎用コーディングモードを使用してコーディングされるように既に分類されたアクティブなフレームであると判定し、前記現在のフレームが汎用コーディングモードを使用してコーディングされるように既に分類されたアクティブなフレームとして判定されないときにアタックが検出されないことを示すための判断モジュールを含む請求項1に記載のアタック検出デバイス。
  3. 前記現在のフレームの複数の分析セグメント内の前記音声信号のエネルギーの計算器と、
    前記第1段階のアタック検出器および前記第2段階のアタック検出器によって検証される候補のアタックの位置を表す最大エネルギーを有する前記分析セグメントのうちの1つの発見器とを含む請求項1または2に記載のアタック検出デバイス。
  4. 前記第1段階のアタック検出器が、
    前記現在のフレーム内の前記最後のサブフレームの前の前記分析セグメント全体の第1の平均エネルギーの計算器と、
    最大エネルギーを有する前記分析セグメントから始まり前記現在のフレームの最後の分析セグメントまでの前記現在のフレームの前記分析セグメント全体の第2の平均エネルギーの計算器とを含む請求項3に記載のアタック検出デバイス。
  5. 前記第1段階のアタック検出器が、
    - 第1の閾値、または
    - 前のフレームの分類がVOICEDであるときの第2の閾値
    との前記第1の平均エネルギーと前記第2の平均エネルギーとの間の比の第1の比較器を含む請求項4に記載のアタック検出デバイス。
  6. 前記第1段階のアタック検出器が、前記第1の比較器による比較が第1段階のアタックが検出されることを示すとき、
    第3の閾値との、最大エネルギーの前記分析セグメントのエネルギーと前記現在のフレームのその他の分析セグメントのエネルギーとの間の比の第2の比較器を含む請求項5に記載のアタック検出デバイス。
  7. 前記第1の比較器および前記第2の比較器による比較が、第1段階のアタックの位置が候補のアタックの位置を表す最大エネルギーを有する前記分析セグメントであることを示すとき、
    前記第1段階のアタックの位置が前記現在のフレームの前記最後のサブフレームの前の分析セグメントの数以上であるかどうかを判定し、前記第1段階のアタックの位置が前記最後のサブフレームの前の分析セグメントの前記数以上である場合、検出されたアタックの位置を前記現在のフレームの前記最後のサブフレーム内の前記第1段階のアタックの位置として決定するための判断モジュールを含む請求項6に記載のアタック検出デバイス。
  8. 前記第2段階のアタック検出器が、前記第1段階のアタック検出器によってアタックが検出されないときに使用される請求項1から7のいずれか一項に記載のアタック検出デバイス。
  9. 前記現在のフレームがVOICEDとして分類されるかどうかを判定するための判断モジュールを含み、前記第2段階のアタック検出器が、前記現在のフレームがVOICEDとして分類されないときに使用される請求項8に記載のアタック検出デバイス。
  10. 前記第2段階のアタック検出器が、候補のアタックの位置を表す最大エネルギーを有する前記分析セグメントの前の分析セグメント全体の前記音声信号の平均エネルギーの計算器を含む請求項8または9に記載のアタック検出デバイス。
  11. 候補のアタックの位置を表す最大エネルギーを有する前記分析セグメントの前の前記分析セグメントが、前のフレームからの分析セグメントを含む請求項10に記載のアタック検出デバイス。
  12. 前記第2段階のアタック検出器が、
    - 第1の閾値、または
    - 前記前のフレームの分類がUNVOICEDであるときの第2の閾値
    との候補のアタックの位置を表す前記分析セグメントのエネルギーと計算された平均エネルギーとの間の比の第1の比較器を含む請求項11に記載のアタック検出デバイス。
  13. 前記第2段階のアタック検出器が、前記第2段階のアタック検出器の前記第1の比較器による比較が第2段階のアタックが検出されることを示すとき、
    第3の閾値との、候補のアタックの位置を表す前記分析セグメントの前記エネルギーと前記分析セグメントの長期的エネルギーとの間の比の第2の比較器を含む請求項12に記載のアタック検出デバイス。
  14. 前記第2段階のアタック検出器の前記第2の比較器が、前記前のフレームにおいてアタックが検出されたときにアタックを検出しない請求項13に記載のアタック検出デバイス。
  15. 前記第2段階のアタック検出器の前記第1の比較器および前記第2の比較器による比較が、第2段階のアタックの位置が候補のアタックの位置を表す最大エネルギーを有する前記分析セグメントであることを示すとき、
    検出されたアタックの位置を前記第2段階のアタックの位置として決定するための判断モジュールを含む請求項13に記載のアタック検出デバイス。
  16. 音声信号内のアタックをコーディングするためのデバイスであって、
    請求項1から15のいずれか一項に記載のアタック検出デバイスと、
    非予測的なコードブックを用いるコーディングモードを使用する検出されたアタックを含むサブフレームのエンコーダとを含む、デバイス。
  17. 前記コーディングモードが、遷移コーディングモードである請求項16に記載のアタックコーディングデバイス。
  18. 前記非予測的なコードブックが、声門インパルス形状を入力された声門形状コードブックである請求項17に記載のアタックコーディングデバイス。
  19. 前記アタック検出デバイスが、前記検出されたアタックの位置に基づいて前記遷移コーディングモードによってコーディングされるサブフレームを決定する請求項17に記載のアタックコーディングデバイス。
  20. コーディングされる音声信号内のアタックを検出するためのデバイスであって、前記音声信号が、いくつかのサブフレームをそれぞれが含む連続したフレーム内で処理され、デバイスが、
    少なくとも1つのプロセッサと、
    前記プロセッサに結合され、実行されるときに前記プロセッサに、
    現在のフレームの最後のサブフレームにおいて前記アタックを検出するための第1段階のアタック検出器、および
    前記最後のサブフレームの前の前記現在のフレームのサブフレームにおいて前記アタックを検出するための第2段階のアタック検出器を実施させる非一時的命令を含むメモリとを含む、デバイス。
  21. コーディングされる音声信号内のアタックを検出するためのデバイスであって、前記音声信号が、いくつかのサブフレームをそれぞれが含む連続したフレーム内で処理され、デバイスが、
    少なくとも1つのプロセッサと、
    前記プロセッサに結合され、実行されるときに前記プロセッサに、
    第1段階において、現在のフレームの最後のサブフレームに位置する前記アタックを検出させ、
    第2段階において、前記最後のサブフレームの前の前記現在のフレームのサブフレームに位置する前記アタックを検出させる非一時的命令を含むメモリとを含む、デバイス。
  22. コーディングされる音声信号内のアタックを検出するための方法であって、前記音声信号が、いくつかのサブフレームをそれぞれが含む連続したフレーム内で処理され、方法が、
    現在のフレームの最後のサブフレームにおいて前記アタックを検出するための第1段階のアタック検出と、
    前記最後のサブフレームの前のサブフレームを含む前記現在のフレームのサブフレームのうちの1つにおいて前記アタックを検出するための第2段階のアタック検出とを含む、方法。
  23. 前記現在のフレームが汎用コーディングモードを使用してコーディングされるように既に分類されたアクティブなフレームであると判定し、前記現在のフレームが汎用コーディングモードを使用してコーディングされるように既に分類されたアクティブなフレームとして判定されないときにアタックが検出されないことを示すステップを含む請求項22に記載のアタック検出方法。
  24. 前記現在のフレームの複数の分析セグメント内の前記音声信号のエネルギーを計算するステップと、
    前記第1段階のアタック検出および前記第2段階のアタック検出によって検証される候補のアタックの位置を表す最大エネルギーを有する前記分析セグメントのうちの1つを発見するステップとを含む請求項22または23に記載のアタック検出方法。
  25. 前記第1段階のアタック検出が、
    前記現在のフレーム内の前記最後のサブフレームの前の前記分析セグメント全体の第1の平均エネルギーを計算することと、
    最大エネルギーを有する前記分析セグメントから始まり前記現在のフレームの最後の分析セグメントまでの前記現在のフレームの前記分析セグメント全体の第2の平均エネルギーを計算することとを含む請求項24に記載のアタック検出方法。
  26. 前記第1段階のアタック検出が、
    第1の比較器を使用して、前記第1の平均エネルギーと前記第2の平均エネルギーとの間の比を
    - 第1の閾値、または
    - 前のフレームの分類がVOICEDであるときの第2の閾値
    と比較することを含む請求項25に記載のアタック検出方法。
  27. 前記第1段階のアタック検出が、前記第1の比較器による比較が第1段階のアタックが検出されることを示すとき、
    第2の比較器を使用して、最大エネルギーの前記分析セグメントのエネルギーと前記現在のフレームのその他の分析セグメントのエネルギーと間の比を第3の閾値と比較することを含む請求項26に記載のアタック検出方法。
  28. 前記第1の比較器および前記第2の比較器による比較が、第1段階のアタックの位置が候補のアタックの位置を表す最大エネルギーを有する前記分析セグメントであることを示すとき、
    前記第1段階のアタックの位置が前記現在のフレームの前記最後のサブフレームの前の分析セグメントの数以上であるかどうかを判定し、前記第1段階のアタックの位置が前記最後のサブフレームの前の分析セグメントの前記数以上である場合、検出されたアタックの位置を前記現在のフレームの前記最後のサブフレーム内の前記第1段階のアタックの位置として決定するステップを含む請求項27に記載のアタック検出方法。
  29. 前記第2段階のアタック検出が、前記第1段階のアタック検出によってアタックが検出されないときに使用される請求項22から28のいずれか一項に記載のアタック検出方法。
  30. 前記現在のフレームがVOICEDとして分類されるかどうかを判定するステップを含み、前記第2段階のアタック検出が、前記現在のフレームがVOICEDとして分類されないときに使用される請求項29に記載のアタック検出方法。
  31. 前記第2段階のアタック検出が、候補のアタックの位置を表す最大エネルギーを有する前記分析セグメントの前の分析セグメント全体の前記音声信号の平均エネルギーを計算することを含む請求項29または30に記載のアタック検出方法。
  32. 候補のアタックの位置を表す最大エネルギーを有する前記分析セグメントの前の前記分析セグメントが、前のフレームからの分析セグメントを含む請求項31に記載のアタック検出方法。
  33. 前記第2段階のアタック検出が、
    第1の比較器を使用して、候補のアタックの位置を表す前記分析セグメントのエネルギーと計算された平均エネルギーとの間の比を
    - 第1の閾値、または
    - 前記前のフレームの分類がUNVOICEDであるときの第2の閾値
    と比較することを含む請求項32に記載のアタック検出方法。
  34. 前記第2段階のアタック検出が、前記第2段階のアタック検出の前記第1の比較器による比較が第2段階のアタックが検出されることを示すとき、
    第2の比較器を使用して、候補のアタックの位置を表す前記分析セグメントの前記エネルギーと前記分析セグメントの長期的エネルギーとの間の比を第3の閾値と比較することを含む請求項33に記載のアタック検出方法。
  35. 前記第2段階のアタック検出の前記第2の比較器による比較が、前記前のフレームにおいてアタックが検出されたときにアタックを検出しない請求項34に記載のアタック検出方法。
  36. 前記第2段階のアタック検出の前記第1の比較器および前記第2の比較器による比較が、第2段階のアタックの位置が候補のアタックの位置を表す最大エネルギーを有する前記分析セグメントであることを示すとき、
    検出されたアタックの位置を前記第2段階のアタックの位置として決定するステップを含む請求項34に記載のアタック検出方法。
  37. 音声信号内のアタックをコーディングするための方法であって、
    請求項22から36のいずれか一項に記載のアタック検出方法と、
    非予測的なコードブックを用いるコーディングモードを使用して検出されたアタックを含むサブフレームを符号化するステップとを含む、方法。
  38. 前記コーディングモードが、遷移コーディングモードである請求項37に記載のアタックコーディング方法。
  39. 前記非予測的なコードブックが、声門インパルス形状を入力された声門形状コードブックである請求項38に記載のアタックコーディング方法。
  40. 検出されたアタックの位置に基づいて前記遷移コーディングモードによってコーディングされるサブフレームを決定するステップを含む請求項38に記載のアタックコーディング方法。
JP2021566035A 2019-05-07 2020-05-01 コーディングされる音声信号内のアタックを検出し、検出されたアタックをコーディングするための方法およびデバイス Pending JP2022532094A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962844225P 2019-05-07 2019-05-07
US62/844,225 2019-05-07
PCT/CA2020/050582 WO2020223797A1 (en) 2019-05-07 2020-05-01 Methods and devices for detecting an attack in a sound signal to be coded and for coding the detected attack

Publications (1)

Publication Number Publication Date
JP2022532094A true JP2022532094A (ja) 2022-07-13

Family

ID=73050501

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021566035A Pending JP2022532094A (ja) 2019-05-07 2020-05-01 コーディングされる音声信号内のアタックを検出し、検出されたアタックをコーディングするための方法およびデバイス

Country Status (8)

Country Link
US (1) US20220180884A1 (ja)
EP (1) EP3966818A4 (ja)
JP (1) JP2022532094A (ja)
KR (1) KR20220006510A (ja)
CN (1) CN113826161A (ja)
BR (1) BR112021020507A2 (ja)
CA (1) CA3136477A1 (ja)
WO (1) WO2020223797A1 (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7472059B2 (en) * 2000-12-08 2008-12-30 Qualcomm Incorporated Method and apparatus for robust speech classification
EP1550108A2 (en) * 2002-10-11 2005-07-06 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
CN101578508B (zh) * 2006-10-24 2013-07-17 沃伊斯亚吉公司 用于对语音信号中的过渡帧进行编码的方法和设备
KR100862662B1 (ko) * 2006-11-28 2008-10-10 삼성전자주식회사 프레임 오류 은닉 방법 및 장치, 이를 이용한 오디오 신호복호화 방법 및 장치
US8630863B2 (en) * 2007-04-24 2014-01-14 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding audio/speech signal

Also Published As

Publication number Publication date
CN113826161A (zh) 2021-12-21
KR20220006510A (ko) 2022-01-17
CA3136477A1 (en) 2020-11-12
WO2020223797A1 (en) 2020-11-12
EP3966818A4 (en) 2023-01-04
US20220180884A1 (en) 2022-06-09
EP3966818A1 (en) 2022-03-16
BR112021020507A2 (pt) 2021-12-07

Similar Documents

Publication Publication Date Title
KR101406113B1 (ko) 스피치 신호에서 천이 프레임을 코딩하기 위한 방법 및 장치
JP2971266B2 (ja) 低遅延celp符号化方法
US6134518A (en) Digital audio signal coding using a CELP coder and a transform coder
JP4390803B2 (ja) 可変ビットレート広帯域通話符号化におけるゲイン量子化方法および装置
KR100956623B1 (ko) 잔여분 변경에 의한 보코더 내부의 프레임들을 시간 와핑하는 시스템 및 방법
KR100711280B1 (ko) 소스 제어되는 가변 비트율 광대역 음성 부호화 방법 및장치
JP6692948B2 (ja) 異なるサンプリングレートを有するフレーム間の移行による音声信号の線形予測符号化および復号のための方法、符号器および復号器
KR102237718B1 (ko) 시간 영역 디코더에서 양자화 잡음을 감소시키기 위한 디바이스 및 방법
JP2004508597A (ja) オーディオ信号における伝送エラーの抑止シミュレーション
KR101698905B1 (ko) 정렬된 예견 부를 사용하여 오디오 신호를 인코딩하고 디코딩하기 위한 장치 및 방법
JP3565869B2 (ja) 伝送エラーの修正を伴う音声信号の復号方法
KR20120125513A (ko) 일반 오디오 및 음성 프레임들을 포함하는 오디오 신호를 위한 인코더
MXPA04011751A (es) Metodo y dispositivo para ocultamiento de borrado adecuado eficiente en codecs de habla de base predictiva lineal.
US20110029317A1 (en) Dynamic time scale modification for reduced bit rate audio coding
JP2007534020A (ja) 信号符号化
JP6170172B2 (ja) 符号化モード決定方法及び該装置、オーディオ符号化方法及び該装置、並びにオーディオ復号化方法及び該装置
AU2013345949A1 (en) Audio coding device, audio coding method, audio coding program, audio decoding device, audio decoding method, and audio decoding program
EP2608200B1 (en) Estimation of speech energy based on code excited linear prediction (CELP) parameters extracted from a partially-decoded CELP-encoded bit stream
Nishimura Data hiding in pitch delay data of the adaptive multi-rate narrow-band speech codec
KR102099293B1 (ko) 오디오 인코더 및 오디오 신호를 인코딩하는 방법
JP2022532094A (ja) コーディングされる音声信号内のアタックを検出し、検出されたアタックをコーディングするための方法およびデバイス
Miki et al. Pitch synchronous innovation code excited linear prediction (PSI‐CELP)

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230426

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240513