JP6185457B2 - 効率的なコンテンツ分類及びラウドネス推定 - Google Patents

効率的なコンテンツ分類及びラウドネス推定 Download PDF

Info

Publication number
JP6185457B2
JP6185457B2 JP2014506898A JP2014506898A JP6185457B2 JP 6185457 B2 JP6185457 B2 JP 6185457B2 JP 2014506898 A JP2014506898 A JP 2014506898A JP 2014506898 A JP2014506898 A JP 2014506898A JP 6185457 B2 JP6185457 B2 JP 6185457B2
Authority
JP
Japan
Prior art keywords
speech
audio signal
determining
loudness
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014506898A
Other languages
English (en)
Other versions
JP2014515124A (ja
Inventor
ミュント,ハーラルト
ビスワス,アリジット
マイスナー,ロルフ
Original Assignee
ドルビー・インターナショナル・アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー・インターナショナル・アーベー filed Critical ドルビー・インターナショナル・アーベー
Publication of JP2014515124A publication Critical patent/JP2014515124A/ja
Application granted granted Critical
Publication of JP6185457B2 publication Critical patent/JP6185457B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Description

本明細書は、音声信号の効率的なコンテンツ分類及びラウドネス推定のための方法及びシステムに関する。特に、それは、オーディオエンコーダ内の効率的なコンテンツ分類及びゲート化ラウドネス推定に関する。
PDA、スマートフォン、携帯電話及びポータブルメディアプレーヤーなどのポータブル携帯装置は、典型的には、オーディオ及び/又はビデオレンダリング機能を有し、重要なエンターテイメントプラットフォームになっている。この開発は、無線又は有線伝送機能の当該装置への普及の拡大によって促進される。High−Efficiency Advanced Audio Coding(HE−AAC)フォーマットなどのメディア伝送及び/又はストレージプロトコルのサポートによって、メディアコンテンツは、ポータブル携帯装置に連続的にダウンロード及び格納可能であり、これにより、メディアコンテンツの実質的に無制限の量を提供することができる。
HE−AACは、ISO/IEC14496−3のMPEG−4オーディオプロファイルとして規定されるデジタルオーディオの不可逆データ圧縮方式である。それは、ストリーミングオーディオなどの低ビットレートアプリケーションについて最適化されたLow Complexity AAC(AAC LC)の拡張である。HE−AACバージョン1プロファイル(HE−AAC v1)は、スペクトルバンド複製(SBR)を利用して、周波数領域における圧縮効率を向上させる。HE−AACバージョン2プロファイル(HE−AAC v2)は、ステレオ信号の圧縮効率を向上させるため、SBRとパラメトリックステレオ(PS)とを結び付ける。それは、AACplusコーデックの標準化された改良バージョンである。
デジタルブロードキャストの導入によって、特定の聴取環境にコンテンツを調整するため、受信側でゲイン値を制御することを可能にする時間可変的メタデータのコンセプトが確立された。一例として、対話についての全体的なラウドネス正規化情報(dialnorm)を含むドルビーデジタルに含まれるメタデータがある。本明細書及び請求項において、ドルビーデジタルという表現はドルビーデジタル及びドルビーデジタルプラス符号化システムの双方を含むと理解されることに留意すべきである。
異なるコンテンツタイプ及びメディアフォーマットにおけるラウドネスレベルの一貫性を保証するための1つの可能性は、ラウドネス正規化である。ラウドネス正規化の必須条件は、信号のラウドネスの推定である。ラウドネス推定の1つのアプローチが、ITU−R BS.1770−1勧告に提案されている。
ITU−R BS.1770−1勧告は、人間の聴力の心理音響モデルを考慮しながら、デジタルオーディオファイルのラウドネスを測定するためのアプローチである。それは、ヘッドエフェクトをモデル化するためのフィルタ及びハイパスフィルタにより各チャネルのオーディオ信号を前処理することを提案している。このとき、フィルタリングされた信号のパワーが、測定区間において推定される。マルチチャネルオーディオ信号について、ラウドネスは、すべてのチャネルの推定されたパワー値の加重和の対数として計算される。
ITU−R BS.1770−1勧告の1つの問題点は、すべての信号タイプが等しく扱われることである。長時間のサイレンスは、ラウドネスの結果を低下されることになるが、このサイレンスは主観的なラウドネスの印象に影響を与えない可能性がある。このようなポーズの一例は、2つの楽曲の間のサイレンスであり得る。
この問題に対処するシンプルであるが効率的な方法は、信号の主観的に有意な部分のみを考慮することである。この方法は、ゲート処理と呼ばれる。信号の各部分の優位性は、最小エネルギー、ラウドネスレベル閾値又は他の基準に基づき決定されてもよい。異なるゲート処理方法の具体例は、サイレンスゲート処理、適応的閾値ゲート処理及びスピーチゲート処理である。
ゲート処理のため、オーディオ信号に対する離散フーリエ変換(DFT)及び多の処理が、典型的には実行される。しかしながら、これは、望ましくない追加的な処理努力を生じさせる。さらに、ラウドネス計算をゲート処理するためのオーディオ信号の異なるクラスへの分類は、典型的には不完全であり、ラウドネス計算に影響を与える分類ミスを生じさせる。
従って、ゲート処理及びラウドネス計算を向上させるためオーディオ分類を向上させる必要がある。さらに、ゲート処理における計算努力を低下させることが望ましい。
本出願は、デジタルオーディオ信号におけるスピーチ/非スピーチセグメントの検出に関する。検出結果は、デジタルオーディオ信号のラウドネスレベル値を計算するのに利用されてもよい。典型的には、スピーチ/非スピーチセグメントの検出は、デジタルオーディオ信号から抽出される複数の特徴の集約に依拠する。すなわち、デジタルオーディオ信号セグメントがスピーチ又は非スピーチセグメントであるか判断するため、多数の基準が利用される。
典型的には、これらの特徴の少なくとも一部は、セグメントのスペクトルの計算に基づき。スペクトルを計算するため、符号化システムに大きな計算負担を課すDFTが利用されてもよい。しかしながら、最近の研究は、DFTを利用したスペクトルの明示的な計算は、例えば、MDCT(Modified Discrete Cosine Transform)データを代用することによって回避可能である。すなわち、MDCT係数が、デジタルオーディオ信号セグメントのスペクトルの計算に基づく特徴を決定するのに利用可能である。これは、特にデジタルオーディオ信号の符号化中にMDCTデータを生成するデジタルオーディオ信号エンコーダに関して効果的である。このケースでは、符号化方式からのMDCTデータは、スピーチ/非スピーチ検出のため利用されてもよく、これにより、デジタルオーディオ信号セグメントのDFTを回避することができる。これによって、デジタルオーディオ信号セグメントに対するDFTを不要にするすでに利用可能なMDCTデータが再利用されるため、全体的な計算複雑さが低減できる。上述した例では、MDCTデータはデジタルオーディオ信号セグメントのDFTを回避するのに効果的に利用可能であるが、エンコーダにおける変換表現はスペクトル表現として利用されてもよいことに留意すべきである。従って、変換表現は、例えば、MDST(Modified Discrete Sine Transform)又はMLT(Modified Lapped Transform)の実部若しくは虚部などであってもよい。さらに、スペクトル表現は、オーディオ信号のQuadrature Mirrorフィルタ、QMF、フィルタバンク表現を含むものであってもよい。
符号化方式がスケールファクタバンドエネルギーを生成するケースでは、スケールファクタバンドエネルギーは、スペクトルティルトに基づく特徴を決定するため利用されてもよい。さらに、符号化方式が1以上のブロックなどのデジタルオーディオ信号のセグメントのエネルギー値を生成する場合、時間領域におけるセグメントのエネルギーに基づくエネルギー特徴は、エネルギー自体を明示的に計算する代わりに当該情報を利用してもよい。
さらにスペクトルバンド複製(SBR)データが利用可能である場合、SBRペイロード量が信号開始の表示として効果的に利用されてもよく、スピーチ/非スピーチへの信号分類は、リズム情報を提供するSBRペイロード量の処理されたバージョンに基づくものであってもよい。従って、すでに利用可能なSBRデータはさらに、デジタルオーディオ信号におけるスピーチ/非スピーチセグメントの検出のためリズムベース特徴を決定するのに利用されてもよい。
概して、以下でより詳細に説明される提案される情報の再利用は、システムの全体的な計算複雑さを低減し、シナジー効果を提供する。
ある態様によると、オーディオ信号を符号化する方法が説明される。本方法は、オーディオ信号のスペクトル表現を決定することを含む、当該スペクトル表現の決定は、MDCT(Modified Discrete Cosine Transform)係数を決定することを含むものであってもよい。一般に、エンコーダにおける何れかの変換表現がスペクトル表現として利用可能である。変換表現は、例えば、MDST(Modified Discrete Sine Transform)又はMLT(Modified Lapped Transform)の実部若しくは虚部などであってもよい。さらに、スペクトル表現は、オーディオ信号のQMF(Quadrature Mirror Filter)フィルタバンク表現を有してもよい。
本方法はさらに、決定されたスペクトル表現を利用してオーディオ信号を符号化することを含む。オーディオ信号の部分は、決定されたスペクトル表現に基づきスピーチ又は非スピーチに分類されてもよく、オーディオ信号のラウドネス指標は、分類されたスピーチ部分に基づき決定され、特定された非スピーチ部分を無視してもよい。従って、オーディオ信号のスピーチ部分に着目したゲート化ラウドネス指標が、オーディオ信号を符号化するのに利用されるスペクトル表現から決定される。ラウドネス推定のため、オーディオ信号の別々のスペクトル表現は計算されず。ゲート化されたラウドネス指標の計算のためエンコーダにおける計算労力が低減される。
本方法はさらに、MDCT係数から擬似スペクトルを決定することを含むものであってもよい。スピーチ/非スピーチ部分の分類は、決定された擬似スペクトルの値に少なくとも部分的に基づくものであってもよい。MDCT係数から導出される擬似スペクトルは、ラウドネス推定においてスピーチ部分の分類に通常利用されるDFTスペクトルに対する近似として利用可能である。あるいは、MDCT係数は、スピーチ/非スピーチ分類の特徴として直接利用されてもよい。
本方法はさらに、スペクトルフラックス分散を決定することを含むものであってもよい。スピーチ/非スピーチ部分の分類は、スペクトルフラックス分散がスピーチ/非スピーチ分類のための良好な特徴であることが証明されているため、決定されたスペクトルフラックス分散に少なくとも部分的に基づくものであってもよい。スペクトルフラックス分散は、擬似スペクトルから決定されてもよい。また、スペクトルフラックス分散は、MDCT係数から決定され、有用な分類特徴であると証明されてもよい。
本方法はさらに、MDCT係数からスケールファクタバンドエネルギーを決定することを含むものであってもよい。スピーチ/非スピーチ部分の分類は、決定されたスケールファクタバンドエネルギーに少なくとも部分的に基づくものであってもよい。スケールファクタバンドエネルギーは、典型的には、オーディオ信号を符号化するエンコーダにおいて利用される。ここでは、スケールファクタバンドエネルギーは、オーディオ信号のスピーチ/非スピーチ部分の分類のための特徴として示唆される。
本方法はさらに、スケールファクタバンドエネルギーから平均スペクトルティルトを決定することを含むものであってもよい。スピーチ/非スピーチ部分の分類は、平均スペクトルティルトに少なくとも部分的に基づくものであってもよい。従って、スケールファクタバンドエネルギーに基づきスピーチの分類に利用される平均スペクトルティルト特徴を計算することが提案され、それは、極めて効率的な計算方法であり、追加的なスペクトル信号表現の計算を必要としない。
本方法はさらに、オーディオ信号のブロックのエネルギー値を決定することを含むものであってもよい。本方法は、ブロックエネルギーに基づきオーディオ信号におけるトランジェントを決定することにより継続され、これに応答してオーディオ信号の符号化ブロック長を決定してもよい。さらに、エネルギーベース特徴が、ブロックエネルギーに基づき決定される。スピーチ/非スピーチ部分の分類は、エネルギーベース特徴に少なくとも部分的に基づくものであってもよい。従って、オーディオ信号を符号化するのに適したブロックサイズを決定するため(ブロックスイッチング)エンコーダにおいて計算されるエネルギー値は、ポーズカウントメトリック、ショート及びロングリズム指標などのエネルギーベース分類特徴の計算において直接利用される。
スピーチ/非スピーチ部分の分類は、特にAdaBoostアルゴリズムなどの機械学習アルゴリズムに基づくものであってもよい。もちろん、ニューラルネットワークなどの他の機械学習アルゴリズムがまた利用可能である。
本方法はさらに、スピーチデータ及び非スピーチデータに基づく機械学習アルゴリズムのトレーニングを有してもよく、これにより、エラー関数を最小化するため、機械学習アルゴリズムのパラメータを調整する。トレーニング中、機械学習アルゴリズムは、スペクトルフラックスや平均スペクトルティルトなどの個別の特徴の重要性を学習し、分類中にこれらの特徴を評価するのに利用されるそれの内部的なウェイトを適応してもよい。
スペクトル表現は、ショートブロック及び/又はロングブロックについて決定されてもよい。AACエンコーダなどの多くのエンコーダが、オーディオ信号を符号化するため異なるブロック長を利用し、入力信号の性質にブロック長を調整するため、入力信号に基づき異なるブロック長の間でスイッチすることが可能である。本方法はさらに、所定数のショートブロックに対応するロングブロック表現のフレームとショートブロック表現とを整合させることを含むものであってもよく、これにより、所定数のショートブロックのMDCT係数をロングブロックのフレームにリオーダリングする。すなわち、ショートブロックはロングブロックに変換される。これは、分類及びラウドネス計算のための以降のモジュールが1つのブロックタイプしか処理する必要がないため、効果的であるかもしれない。さらに、それは、分類及びラウドネスの計算においてロングブロックに基づく固定時間構造を可能にする。
スペクトル表現がオーディオ信号のQuadrature Mirrorフィルタバンク表現を有する場合、本方法はさらに、決定されたスペクトル表現を利用してオーディオ信号のスペクトルバンド複製パラメータを符号化し、決定されたスペクトル表現に基づきスピーチ又は非スピーチにオーディオ信号の部分を分類することを含むものであってもよい。その後、スピーチ部分に基づくオーディオ信号のゲート化ラウドネス指標が決定されてもよい。上記と同様に、これは、高周波数再構成又はスペクトルバンド複製技術に基づき信号の高周波数部分を符号化するため、オーディオ信号を符号化するのに利用されるスペクトル表現に基づくゲート化ラウドネス計算を可能にする。
本方法はさらに、決定されたスペクトル表現を利用してオーディオ信号をビットストリームに符号化し、決定されたラウドネス指標をビットストリームに符号化することを含むものであってもよい。従って、オーディオ信号と共にダイヤルノーム又はプログラムリファレンスレベルなどのラウドネス指標を効率的に計算及び符号化するエンコーダが説明される。
オーディオ信号はマルチチャネル信号であってもよく、本方法はさらに、マルチチャネルオーディオ信号をダウンミキシングし、ダウンミキシングされた信号に対して分類ステップを実行することを含むものであってもよい。これは、モノ信号に基づく信号分類及び/又はラウドネス測定のための計算を行うことを可能にする。
本方法はさらに、オーディオ信号をダウンサンプリングし、ダウンサンプリングされた信号に対して分類ステップを実行することを含むものであってもよい。従って、ダウンサンプリングされた信号に基づく信号分類及び/又はラウドネス測定のための計算を行うことはさらに、要求される計算労力を低減する。
他の態様によると、上述された方法を実行するシステム、特にオーディオ信号をビットストリームに符号化するオーディオエンコーダが開示される。オーディオ信号は、HE−AAC、MP3、AAC、ドルビーデジタル、ドルビーデジタルプラス、AACに基づく他の何れかのコーデック又は上述された変換に基づく他の何れかのコーデックの1つに従って符号化されてもよい。
本システムは、スペクトルバンド複製又は高周波数再構成のためのスペクトル表現を決定するため、MDCT(Modified Discrete Cosine Transform)係数に基づきオーディオ信号のスペクトル表現を決定するためのMDCT計算ユニット及び/又はQMF(Quadrature Mirror Filter)フィルタバンクを含むSBR計算ユニットを有してもよい。
ある態様によると、オーディオ信号のスピーチ部分を分類する方法が説明される。オーディオ信号は、スピーチ信号及び/又は他の非スピーチ信号を有してもよい。当該分類は、オーディオ信号がスピーチであるか、及び/又はオーディオ信号の何れの部分がスピーチ信号であるかを決定することである。この分類は、オーディオ信号のゲート化ラウドネス指標の計算に効果的に利用されてもよい。スペクトルバンド複製(SBR)ペイロードは信号の開始の良好な指標であるため、信号分類はリズム情報を提供するSBRペイロードの処理されたバージョンに基づくものであってもよい。
本方法は、オーディオ信号の時間区間のスペクトルバンド複製データの量に関するペイロード量を決定するステップを有してもよい。スペクトルバンド複製ペイロード量は、オーディオ信号スペクトルの変化のための指標として利用可能であり、リズム情報を提供する。ペイロード量は、SBRエンベロープデータ、時間/周波数(T/F)グリッドデータ、トーンコンポーネントデータ及びノイズフロアデータ又はこれらの何れかの組み合わせを含むものであってもよい。特に、SBRエンベロープデータと共にこれらのコンポーネントの何れかの組み合わせが可能である。
典型的には、ペイロード量の決定ステップは、オーディオ信号のスペクトルバンド複製データを決定する際に、オーディオ信号の符号化中に実行される。この場合、スペクトルバンド複製データの量に関するペイロード量が、エンコーダのスペクトルバンド複製コンポーネントから直接受信可能である。スペクトルバンド複製ペイロード量は、オーディオ信号の時間区間についてスペクトルバンド複製コンポーネントにより生成されたスペクトルバンド複製データの量を示すものであってもよい。すなわち、ペイロード量は、符号化されたビットストリームに含まれるべき時間区間のスペクトルバンド複製データの量を示す。
生成されたスペクトルバンド複製データを含むオーディオ信号は、好ましくは、格納又は伝送のためビットストリームに符号化される。符号化されたビットストリームは、例えば、HE−AACビットストリーム又はMP3PROビットストリームなどであってもよい。他のビットストリームフォーマットもまた可能であり、当業者の到達範囲内である。
本方法は、オーディオ信号の連続的な時間区間について上述した決定するステップを繰り返すさらなるステップを有してもよく、これにより、ペイロード量のシーケンスを決定してもよい。
さらなるステップでは、本方法は、ペイロード量のシーケンスにおける周期性を特定してもよい。これは、ペイロード量のシーケンスにおけるピーク又は繰り返しパターンの周期性を特定することによって実行されてもよい。周期性の特定は、パワー値のセット及び対応する周波数を生じさせるペイロード量のシーケンスに対してスペクトル解析を実行することによって実行されてもよい。周期性は、パワー値のセットにおける相対的な最大値を決定し、対応する周波数として周期性を選択することによって、ペイロード量のシーケンスにおいて特定されてもよい。ある実施例では、絶対的な最大値が決定される。
スペクトル解析は、典型的には、ペイロード量のシーケンスの時間軸に沿って実行される。さらに、スペクトル解析は、典型的には、ペイロード量のシーケンスの複数のサブシーケンスに対して実行され、これにより、パワー値の複数のセットが生成される。例えば、サブシーケンスは、2秒などのオーディオ信号の特定の長さをカバーしてもよい。さらに、サブシーケンスは、50%などだけ互いにオーバラップしてもよい。また、パワー値の複数のセットが取得されてもよく、パワー値の各セットはオーディオ信号の特定の抜粋に対応する。完全なオーディオ信号のパワー値の全体的なセットは、パワー値の複数のセットを平均化することによって取得されてもよい。“平均化”という用語は、平均値の計算やメディアン値の決定などの各種タイプの数学演算をカバーすることが理解されるべきである。すなわち、パワー値の全体的なセットは、パワー値の複数のセットの平均パワー値又はメディアパワー値のセットを計算することによって取得されてもよい。ある実施例では、スペクトル解析の実行は、フーリエ変換(FT)や高速フーリエ変換(FFT)などの周波数変換の実行を含む。
パワー値のセットは、さらなる処理に送信されてもよい。ある実施例では、パワー値のセットは、それらの対応する周波数の人間の知覚的嗜好に関連するウェイトと乗算される。例えば、このような知覚的ウェイトは、人間によってより頻繁に検出されるテンポに対応する周波数を強調してもよく、人間により頻繁には検出されないテンポに対応する周波数は減衰される。
次に、本方法は、スピーチ又は非スピーチ信号を含むようオーディオ信号の少なくとも一部を分類するステップを有してもよい。当該分類は、好ましくは、抽出されたリズム情報に基づく。抽出されたリズム情報は、オーディオ信号の部分についてスピーチ/非スピーチ判定を行うための何れかのタイプの分類手段において、おそらく他の特徴と共にある特徴として利用されてもよい。
このとき、スピーチ/非スピーチ分類は、オーディオ信号のゲート化ラウドネスの計算に利用されてもよく、ラウドネスの計算はオーディオ信号のスピーチ部分に制限される。従って、オーディオ信号の知覚的に関連するスピーチ部分のみを考慮し、非スピーチ部分を無視するより知覚的に正確なラウドネスが提供される。ラウドネスデータは、符号化されたビットストリームに含まれてもよい。
本方法は、オーディオ信号のラウドネス値を提供するステップを有してもよい。ラウドネス関連値はまた、レベル化情報と呼ばれてもよい。ラウドネス値を決定するための手順又はアルゴリズムは、オーディオ信号の知覚的なラウドネス、すなわち、知覚されたエネルギーを表現するラウドネス関連値を決定するため、オーディオ信号の操作セットであってもよい。当該手順又はアルゴリズムは、オーディオプログラムのラウドネスを測定するためのITU−R BS.1770−1及び/又はリプレイゲインラウドネス計算方式であってもよい。ある実施例では、ラウドネスは、オーディオ信号のサイレンス及び/又は非スピーチ期間を無視するITU−R BS.1770−1に従って決定される。
当該分類は、AdaBoostアルゴリズムなどの機械学習アルゴリズムにおいて1つの特徴としてSBRペイロードから抽出されるリズム情報を利用して、スピーチ信号と非スピーチ信号とを区別してもよい。もちろん、ニューラルネットワークなどの他の機械学習アルゴリズムがまた利用されてもよい。リズム情報を最大限利用するため、分類手段が、スピーチ信号と非スピーチ信号とを区別するためトレーニングデータに対してトレーニングされる。分類手段は、トレーニングデータに対するエラー指標を低下させるため、分離のため入力信号として抽出されたリズム情報を利用し、それの内部パラメータ(ウェイトなど)を適応させるようにしてもよい。提案されたリズム情報は、HE−AACエンコーダにおいて利用される“古典的”な特徴などの他の特徴と共に分類手段により利用されてもよい。機械学習アルゴリズムは、分類のため提供された特徴を合成するためウェイトを決定してもよい。
ある実施例では、オーディオ信号は、時間軸に沿って後続するサブバンド係数ブロックのシーケンスにより表される。このようなサブバンド係数は例えば、MP3、AAC、HE−AAC、ドルビーデジタル及びドルビーデジタルプラスコーデックすのケースと同様にMDCT係数などであってもよい。
ある実施例では、オーディオ信号は、スペクトルバンド複製データと時間軸に沿った複数の以降のフレームとを有する符号化されたビットストリームにより表される。例えば、符号化されたビットストリームは、HE−AAC又はMP3PROビットストリームであってもよい。
本方法は、オーディオ信号に関するメタデータにラウドネス関連値を格納するステップを有してもよい。メタデータは、所定のシンタックス又はフォーマットであってもよい。ある実施例では、所定のフォーマットは、リプレイゲインシンタックスを利用する。あるいは又は加えて、所定のフォーマットはiTunesスタイルメタデータ又はID3v2タグに準拠してもよい。他の実施例では、ラウドネス関連値は、MPEG規格ISO14496−3による“プログラムリファレンスレベル”パラメータのフィルエレメントとしてドルビープラス又はHE−AACビットストリームにより送信されてもよい。
本方法は、メディアプレーヤーにメタデータを提供するステップを有してもよい。メタデータは、オーディオ信号と共に提供されてもよい。ある実施例では、オーディオ信号及びメタデータは1以上のファイルに格納されてもよい。これらのファイルは、RAM(Random Access Memory)又はコンパクトディスクなどの記憶媒体に格納されてもよい。ある実施例では、オーディオ信号及びメタデータは、HE−AACなどのメディアビットストリーム内などにおいてメディアプレーヤーに送信されてもよい。
さらなる態様によると、計算装置上で実行されると、プロセッサ上で実行され、本明細書に概略された方法のステップを実行するよう構成されるソフトウェアプログラムが説明される。
他の態様によると、計算装置上で実行されると、プロセッサ上で実行され、本明細書に概略された方法のステップを実行するよう構成されるソフトウェアプログラムを有する記憶媒体が説明される。
他の態様によると、コンピュータ上で実行されると、本明細書に概略される方法を実行するための実行可能命令を有するコンピュータプログラムが説明される。
他の態様によると、オーディオ信号のスピーチ部分を分類するよう構成されるシステムが説明される。本システムは、オーディオ信号の時間区間のスペクトルバンド複製データの量に関するペイロード量を決定する手段、オーディオ信号の連続する時間区間について上記決定する処理を繰り返し、これによりペイロード量のシーケンスを決定する手段、ペイロード量のシーケンスにおいて周期性を特定する手段、及び/又は特定された周期性からオーディオ信号のリズム情報を抽出する手段を有してもよい。本システムはさらに、抽出されたリズム情報に基づきスピーチ又は非スピーチを含むオーディオ信号の少なくとも一部を分類する手段を有する。さらに、スピーチ及び非スピーチ部分におけるオーディオ信号の分類に基づきオーディオ信号のラウドネスデータを決定する手段が提供される。特に、ラウドネスデータの決定は、分類手段により特定されるオーディオ信号のスピーチ部分に限定されてもよい。
他の態様によると、オーディオ信号のメタデータを有する符号化されたビットストリームを生成する方法が説明される。本方法は、オーディオ信号をペイロードデータのシーケンスに符号化するステップを有し、これにより、符号化されたビットストリームを生成してもよい。例えば、オーディオ信号は、HE−AAC、MP3、AAC、ドルビーデジタル又はドルビーデジタルプラスビットストリームに符号化されてもよい。本方法は、オーディオ信号のラウドネスに関するメタデータを決定し、メタデータを符号化されたビットストリームに挿入するステップを有してもよい。好ましくは、ラウドネスデータは、オーディオ信号についてリズム情報に基づき分類手段により決定されるように、オーディオ信号のスピーチ部分のみに対して決定される。オーディオ信号のリズム情報は本明細書に概略される方法の何れかに従って決定されてもよいことに留意すべきである。
さらなる態様によると、メタデータを有するオーディオ信号の符号化されたビットストリームが説明される。符号化されたビットストリームは、HE−AAC、MP3、AAC、ドルビーデジタル又はドルビーデジタルプラスビットストリームであってもよい。メタデータは、オーディオ信号のゲート化ラウドネス指標を表すデータを有してもよく、当該ゲート化ラウドネス指標は、本明細書に概略される分類手段の何れかによってオーディオ信号のスピーチ部分から導出される。
他の態様によると、オーディオ信号のメタデータを有する符号化されたビットストリームを生成するよう構成されるオーディオエンコーダが説明される。エンコーダは、オーディオ信号をペイロードデータのシーケンスに符号化し、これにより符号化されたビットストリームを生成する手段、オーディオ信号のラウドネスメタデータを決定する手段、及びメタデータを符号化されたビットストリームに挿入する手段を有してもよい。上述された方法と同様にして、エンコーダは、オーディオ信号のリズム情報を決定するための基礎として、オーディオ信号について計算されたスペクトルバンド複製データに依拠してもよい(特に、ビットストリームに挿入されるスペクトルバンド複製データのペイロード量)。その後、リズム情報は、ラウドネス推定をゲート化するため、オーディオ信号をスピーチ部分及び非スピーチ部分に分類するのに利用されてもよい。
さらなる態様によると、オーディオ信号の符号化されたビットストリームを復号化する対応する方法とオーディオ信号の符号化されたビットストリームを復号化するよう構成される対応するデコーダとが説明される。本方法及びデコーダは、符号化されたビットストリームから各メタデータ、特にリズム情報に関するメタデータを抽出するよう構成される。
予備的な複雑さの解析は、従来技術に対する提案されたスピーチ/非スピーチ分類の複雑さの低減の可能性が重要であることを示した。提案された実現形態がリサンプラを必要とせず、別々のスペクトル解析を利用しないことを想定する理論的アプローチによると、98%まで節約される。
本明細書に説明される実施例及び態様は、多数の異なる方法により組み合わせ可能であることに留意すべきである。特に、システムに関して概略される態様及び特徴はまた対応する方法に関して適用可能であることに留意すべきである。さらに、本明細書の開示はまた従属形式の請求項のバックリファレンスにより明示的に与えられる請求項の組み合わせ以外の他の請求項の組み合わせをカバーし、すなわち、請求項及びそれらの技術的特徴は何れかの順序及び形式により組み合わせ可能である。
本発明が、添付した図面を参照して、本発明の範囲又は趣旨を限定しない例示的な具体例により説明される。
図1は、入力オーディオ信号からラウドネスレベル情報を有する符号化出力オーディオ信号を生成するシステムを概略的に示す。 図2は、入力オーディオ信号からラウドネスレベル情報を推定するシステムを概略的に示す。 図3は、オーディオエンコーダからの情報を利用して入力オーディオ信号からラウドネスレベル情報を推定するシステムを概略的に示す。 図4は、ショートブロックのためMDCT係数をインタリーブする例を示す。 図5aは、異なるスペクトル変換により生成される一例となるオーディオ信号のスペクトル表現を示す。 図5bは、異なるスペクトル変換により計算される一例となるオーディオ信号のスペクトルフラックスを示す。 図6は、加重関数の一例を示す。 図7aは、SBRペイロードサイズの一例となるシーケンスと結果となる変調スペクトルを示す。 図7bは、SBRペイロードサイズの一例となるシーケンスと結果となる変調スペクトルを示す。 図7cは、SBRペイロードサイズの一例となるシーケンスと結果となる変調スペクトルを示す。 図7dは、SBRペイロードサイズの一例となるシーケンスと結果となる変調スペクトルを示す。
後述される実施例は、リズム特徴抽出、スピーチ分類及びラウドネス推定のための方法及びシステムの原理について単に例示される。ここに開示される構成及び詳細の改良及び変形は他の当業者に明らかであることが理解されるであろう。従って、係属中の特許請求項の範囲のみにより限定され、ここでの実施例の開示及び説明により提供される具体的な詳細によって限定されるものでないことは意図される。
一定の知覚レベルによりオーディオ出力を提供するアプローチは、オーディオコンテンツがレンダリングされるべきターゲット出力レベルを規定することである。このようなターゲット出力レベルは、例えば、−11dBFS(decibels relative to Full Scale)などであってもよい。特に、ターゲット出力レベルは、現在の聴取環境に依存してもよい。さらに、リファレンスレベルとも呼ばれるオーディオコンテンツの実際のラウドネスレベルが決定されてもよい。ラウドネスレベルは、好ましくは、メディアコンテンツに関して提供されるメタデータなどとして、メディアコンテンツと共に提供される。オーディオコンテンツをターゲット出力レベルで再生するため、再生中にマッチングゲイン値が適用されてもよい。マッチングゲイン値は、ターゲット出力レベルと実際のラウドネスレベルとの間の差分として決定されてもよい。
上述されたように、ドルビーデジタルなどのストリーミング及びブロードキャスティングのためのシステムは、典型的には、現在のプログラムのラウドネスレベルを示す“ダイヤルノーム(dialnorm)”値を有するメタデータを復号化装置に送信することに依拠する。ダイヤルノーム値は、典型的には、異なるプログラムについて異なる。ダイヤルノーム値がエンコーダにおいて決定されるという事実に関して、コンテンツ所有者は実際のデコーダまでの完全な信号チェーンを制御することが可能とされる。さらに、復号化装置における計算複雑さは、デコーダにおける現在のプログラムのラウドネス値を決定することが要求されていないため、低減可能である。代わりに、ラウドネス値が、現在のプログラムに関連するメタデータにおいて提供される。
オーディオ信号と共にメタデータを含めることは、ユーザの聴取体感の有意な向上を可能にした。快適なユーザ体感のため、異なるプログラムの全体的なサウンドレベル又はラウドネスが一貫していることが一般に望ましい。しかしながら、異なるプログラムのオーディオ信号は、通常は異なるソースからのものであり、異なる作成者によりマスタリングされ、スピーチの対話から音楽から低周波数効果の映画サウンドトラックまでにわたる多様なコンテンツを含むものであってもよい。このサウンドレベルの変化の可能性は、再生中に各種プログラムにおいて同一の全体的なサウンドレベルを維持することを困難にする。実際的な問題において、リスナが異なるプログラムの近くされたサウンドレベルの相違のため、あるプログラムを他のプログラムに関して音量を大きく又は小さくするよう調整するため、1つのプログラムから他のプログラムにスイッチするとき、再生ボリュームを調整する必要性を感じすることは望ましくない。プログラム間で一貫したサウンドレベルを維持するため、オーディオ信号を変更する技術は、一般に信号レベリングとして知られている。ダイアログのオーディオトラックに関して、知覚したサウンドレベルに関する指標は、オーディオ信号の加重平均されたレベルに基づくダイアログレベルとして知られている。ダイアログレベルは、しばしばデジタルフルスケールに関してデシベル(dB)のレベルを示す“ダイヤルノーム”パラメータを用いて指定される。
オーディオ符号化の範囲内において、いくつかのメタデータタイプが、ダイナミックレンジ圧縮及びラウドネスの説明を含むAC−3又はHE−AACなどのコーデックにおいて進化してきた。例えば、AC−3は、“ダイヤルノーム”と呼ばれる値を利用して、符号化されたオーディオ信号のラウドネス情報を提供する。HE−AACでは、等価な値は、データストリーム要素に含まれる“プログラムリファレンスレベル”と呼ばれる。再生装置はラウドネス値を読み、これに対応してゲインファクタにより出力信号を調整する。この方法では、オリジナルのオーディオ信号は変化しない。従って、メタデータモデルは非破壊的(non−destructive)と呼ばれる。
以下において、オーディオ信号をスピーチ及び非スピーチ部分に分類する方法が説明される。この分類は、参照することにより援用されるITU−R勧告BS.177−1などに従って、ラウドネス推定の計算をゲート化するのに利用されてもよい。その後、ラウドネス計算は、例えば、HE−AACフォーマットなどに従って、符号化されたビットストリームに挿入するための“ダイヤルノーム”値を決定するため、スピーチコンテンツを含むオーディオ部分に集中させることができる。一方では、オーディオの分類は、良好なラウドネス推定を実現するため可能な限り正確であるべきである。他方、ラウドネス計算と、特にスピーチ/非スピーチ分類とは効率的であるべきであり、可能な限りエンコーダに対する計算負荷を小さくする。従って、本明細書の一態様によると、ラウドネス計算と、特にスピーチ/非スピーチ分類とをエンコーダの処理に統合し、ラウドネス推定のため類似した値を再計算する代わりに、既存の計算とすでに生成されたデータとを利用することが提案されている。
上述されるように、ラウドネス推定の計算をオーディオ信号のスピーチ部分に限定することが効果的である。スピーチの以下の特徴の一部は、他の信号タイプと区別するのに重要である。スピーチは、摩擦音及び母音としても知られるボイス部分及び非ボイス部分を合成したものである。摩擦音は2つのサブカテゴリに分離可能である。“k”及び“t”などのサウンドは極めて一時的なものである一方、“s”及び“f”などのサウンドはノイズに類似したスペクトルを有する。スピーチのボイス部分と非ボイス部分とは、単語とセンテンスとの間の短い中断と共に、オーディオ信号の一定に変化するスペクトルを生じさせる。他方、音楽はスペクトルにおいてはるかにゆっくりとした小さな変動を有している。信号のスペクトルの大きさを観察すると、低エネルギーの極めて短い部分を観察することができる。これらの短い中断はスピーチコンテンツの指標である。
知覚のため信号のスピーチコンテンツの関連性の結果として、スピーチ部分を認識し、信号のこれらの部分のみからラウドネスを計算することが提案されている。このスピーチラウドネス値は、記述されるメタデータタイプの何れかにおいて利用可能である。
実施例によると、ゲート化されたラウドネス指標を計算するシステムは、4つのコンポーネントを有する。第1コンポーネントは、信号前処理に関し、リサンプラ及びミキサを有する。入力信号からモノ信号をダウンミキシングした後、信号は16kHzでリサンプリングされる。第2コンポーネントは、スピーチを特定するのに役立つ信号の異なる基準をカバーする7つの特徴を計算する。この7つの特徴は、スペクトルフラックスなどのスペクトル特徴と、ポーズカウントやゼロクロスレートなどの時間領域特徴との2つのグループに分類可能である。第3コンポーネントは、7つの特徴の特徴ベクトルに基づきバイナリ判定を行うAdaBoostと呼ばれる機械学習アルゴリズムである。すべての特徴が、16kHzのサンプリングレートによりモノ信号に基づき計算される。時間分解能は、各特徴が可能なベストな結果を実現するため個別に設定されてもよい。従って、すべての特徴は自らのブロック長を有してもよい。これに関して、ブロックは、特徴により処理される特定の時間サンプル量である。最後のコンポーネントは、ITU−R勧告に従う初期的なサンプリングレートにより実行されるラウドネス測定値を計算する。ラウドネス測定値は、分類手段からの現在の信号状態(スピーチ/その他)により0.5秒毎に更新される。従って、スピーチと全体的なラウドネスとを計算することが可能である。
上記のラウドネス測定値は、例えば、MDCTフィルタバンクを有するAACコアエンコーダを有するHE−AAC符号化方式などにおいて適用されてもよい。SBRエンコーダは、より低いビットレートについて利用され、QMFフィルタバンクを含む。ある実施例によると、MDCTフィルタバンク及び/又はQMFフィルタバンクにより提供されるスペクトル表現が、信号分類に利用される。スピーチ/その他の分類は、MDCTフィルタバンクの直後のAACコアに配置されてもよい。時間信号及びMDCT係数がそこから抽出できる。これはまた、128個のサンプルのブロックにおける信号のエネルギーを計算しているウィンドウスイッチングのための場所である。特定の周波数帯域のエネルギーを含むスケールファクタ帯域が、信号の量子化について必要とされる精度を推定するのに利用されてもよい。
図1は、入力オーディオ信号からラウドネスレベル情報を有する符号化された出力オーディオ信号を生成するシステム100を概略的に示す。本システムは、エンコーダ101及びラウドネス推定モジュール102を有する。さらに、本システムはゲート処理モジュール103を有する。
エンコーダ101は、信号ソースからオーディオ信号を受信する。例えば、信号ソースは、電子デバイスのメモリにオーディオデータを格納する電子デバイスであってもよい。オーディオ信号は、1以上のチャネルを有してもよい。例えば、オーディオ信号は、モノオーディオ信号、ステレオオーディオ信号又は5.1チャネルオーディオ信号であってもよい。オーディオ信号は、スピーチ、音楽又は他の何れかのタイプのオーディオ信号コンテンツから構成されてもよい。
さらに、オーディオ信号は、何れか適切なフォーマットにより電子デバイスのメモリに格納されてもよい。例えば、オーディオ信号は、WAV、AIFF、AU又はraw header−less PCMファイルに格納されてもよい。あるいは、オーディオ信号は、FLAC、Monkey‘s Audio(ファイル名の拡張子APE)、WavPack(ファイル名の拡張子WV)、Shorten、TTA、ATRAC Advanced Lossless、Apple Lossless(ファイル名の拡張子m4a)、MPEG−4 SLS、MPEG−4 ALS、MPEG−4 DST、Windows Media Audio Lossless(WMA Lossless)及びSHNファイルに格納されてもよい。さらに、オーディオ信号は、MP3、Vorbis、Musepack、AAC、ATRAC及びWindows Media Audio Lossy(WMA lossy)ファイルに格納されてもよい。
オーディオ信号は、有線又は無線接続を介し信号ソースからシステム100に送信されてもよい。あるいは、信号ソースはシステムの一部であってもよく、すなわち、システム100は、オーディオファイルを格納するコンピュータ上でホストされてもよい。システム100をホストするコンピュータは、インターネットやアクセスネットワークなどの有線又は無線ネットワークを介し他のコンピュータに接続されるデスクトップコンピュータ又はサーバであってもよい。
エンコーダ101は、特定の符号化技術に従ってオーディオ信号を符号化してもよい。特定の符号化技術は、DD+であってもよい。あるいは、特定の符号化技術は、Advanced Audio Coding(AAC)であってもよい。さらに、特定の符号化技術は、High Efficiency AAC(HE−AAC)であってもよい。HE−AAC符号化技術は、AAC符号化技術及びSBR符号化技術に基づくものであってもよい。AAC符号化技術は、少なくとも部分的にMDCTフィルタバンクに基づくものであってもよい。SBR符号化技術は、少なくとも部分的にはQMF(Quadrature Mirror Filter)フィルタバンクに基づくものであってもよい。
ラウドネス推定モジュール102は、特定のラウドネス推定技術によるとオーディオ信号のラウドネスを推定する。特定のラウドネス推定技術は、ITU−R BS.1770−1勧告に従うものであってもよい。あるいは、特定のラウドネス推定技術は、David RobinsonによりReplay Gainプロポーザルに従うものであってもよい(http://www.replaygain.org/を参照されたい)。特定のラウドネス推定がITU−R BS.1770−1に従うとき、ラウドネスは、サイレンス以外のコンテンツを有する入力オーディオ信号のセグメントに対して推定される。例えば、ラウドネスは、スピーチを有する入力オーディオ信号のセグメントに対して推定されてもよい。従来、ラウドネス推定モジュールは、ゲート処理モジュール103からラウドネス推定モジュールが現在のオーディオ入力サンプルに基づきラウドネスを推定すべきか示すゲート化信号を受信するかもしれない。例えば、ゲート化モジュール103は、オーディオ信号の現在のサンプル又は一部がスピーチを有することを示す信号をラウドネス推定モジュール102に送信するなど提供してもよい。当該信号は、1ビットから構成されるデジタル信号であってもよい。例えば、ビットがハイである場合、当該信号は、現在のオーディオサンプルがスピーチを有し、オーディオ入力信号のラウドネスを推定するためラウドネス推定モジュール102により処理されるべきであることを示すものであってもよい。ビットがローである場合、当該信号は、現在のオーディオ信号がスピーチを有さず、オーディオ入力信号のラウドネスを推定するためラウドネス推定モジュール102により処理されるべきでないことを示すものであってもよい。
ゲート処理モジュール103は、入力オーディオ信号を異なるコンテンツカテゴリに分類する。例えば、ゲート処理モジュール103は、入力オーディオ信号を非サイレンス及びサイレンスセグメントに、又はスピーチ及び非スピーチセグメントに分類してもよい。入力オーディオ信号をスピーチ及び非スピーチセグメントに分類するため、ゲート処理モジュール103は、入力オーディオ信号からラウドネスレベル情報を推定するシステム200を概略的に示す図2に示されるような各種技術を利用してもよい。例えば、ゲート処理モジュール103は、特徴の計算のための以下のサブモジュールの1以上を有してもよい。
以下の説明では、“特徴”、“ブロック”及び“フレーム”という用語が簡単に接続される。信号におけるスピーチ部分などの信号における特定のクラスの有無を示すことが可能な信号から特定の特徴を導出する指標である。すべての特徴は、2つの処理レベルで機能できる。短い信号の要約はブロック単位で処理される。ある特徴の長期の推定は、2秒の長さによるフレームにおいて行われる。ブロックは、すべての特徴の低レベル情報を計算するのに利用されるデータ量である。それは、信号の時間サンプル又はスペクトルデータを保持する。以下の式において、Mはブロックサイズとして定義される。フレームは、ある個数のブロックに基づく長期の指標である。更新レートは、典型的には、2秒の時間ウィンドウによると0.5秒である。以下の式では、Nはフレームサイズとして定義される。
ゲート処理モジュール103は、スペクトルフラックス分散(SFV)サブモジュール203を有してもよい。SFVサブモジュール203は、変換領域において機能し、スピーチ信号のスペクトルにおける速い変化を考慮するよう構成される。スペクトルのフラックスのメトリックとして、F(t)が、フレームtのスペクトルフラックスの平均二乗lノルムとして計算される(Mはフレームのブロック数である)。
Figure 0006185457
SFVサブモジュール203は、2つのブロックm及びm−1との間の重み付けされたユークリッド距離
Figure 0006185457
を計算してもよい。
Figure 0006185457
ここで、Wはブロックmのウェイトであり、
Figure 0006185457
である。ここで、X[k]は周波数2πk/Nにおける複素スペクトルの振幅及び位相を示す。従って、スペクトルフラックスを重み付けするため、現在及び以前のスペクトルエネルギーが計算される。ユークリッド距離とも呼ばれるlノルムは、2つのスペクトルの大きさの差分から計算される。重み付けは、2つのブロックX及びXm−1の全体的なエネルギーへの依存を除去するのに必要である。ブースティングアルゴリズムにわたされる結果は、128個の合計されたlノルム値から計算されてもよい。
ゲート処理モジュール103は、平均スペクトルティルト(AST)サブモジュール204を有してもよい。平均スペクトルティルトは、上述されたような類似する原理に基づくだけでなく、スペクトルのティルトを考慮して機能する。音楽は、通常はスペクトルの負のティルトを導く音調部分(tonal part)を大部分含む。スピーチもまた音調部分を含むが、これらは摩擦音により定期的に間欠的である。これらのノイズ状の信号は、より低いスペクトルにおける低エネルギーレベルのため正の傾きを導く。スピーチを含む信号部分について、速く変化するティルトが観察できる。他の信号タイプについて、ティルトは、典型的には同じレンジに留まる。スペクトルにおけるASTのメトリックF(t)として、ASTサブモジュール204は、
Figure 0006185457
を計算してもよく、ここで、
Figure 0006185457
であり、Gはブロックmの回帰係数である。対数領域におけるスペクトルパワー密度の和が累積され、重み付けされたスペクトルパワー密度と比較される。対数領域への収束は、
Figure 0006185457
による。
ゲート処理モジュール103は、ポーズカウントメトリック(PCM)サブモジュール205を有してもよい。PCMは、スピーチに対して極めて特徴的な小さな中断を認識する。当該特徴の低レベル部分は、N=128個のサンプル/ブロックについてエネルギーを計算する。PCMの値F(t)は、現在のフレームの平均エネルギーを計算し、フレームの各ブロック
Figure 0006185457
の平均エネルギーと現在のフレームの平均エネルギーとを比較することによって決定されてもよい。ブロックエネルギーが現在のフレームの平均エネルギー値の25%より低い場合、それはポーズとしてカウントされ、F(t)の数値がインクリメントされてもよい。この基準に適合する複数の連続的なブロックのみが1回のポーズとしてカウントされる。
ゲート処理モジュール103は、ゼロクロッシングスキュー(ZCS)サブモジュール206を有してもよい。ゼロクロッシングスキューは、ゼロクロッシングレート、すなわち、時間信号がゼロラインをクロスする回数に関する。それはまた、所与の時間フレームにおいて信号がどの程度の頻度で符号を変更するかにより記述できる。ZCSは、少数の低周波数のみとの組み合わせにおける高周波数の有無の良好な指標である。所与のフレームのスキューは、ボイススピーチと非ボイススピーチとを分類することを可能にする信号値の速い変化の指標である。ZCSの値F(t)は、
Figure 0006185457
を計算することによって決定されてもよく、Zはブロックmにおけるゼロクロッシングカウントである。
ゲート処理モジュール103は、ゼロクロッシングメジアン対平均レシオ(ZCM)サブモジュール207を有してもよい。当該特徴はまた、128個のゼロクロッシング値を抽出し、メディアン対平均レシオを計算する。メディアン値は、現在のフレームのすべてのゼロクロスカウントブロックをソートすることによって計算される。その後、それは、ソートされたアレイの中心点を抽出する。高いゼロクロッシングレートのブロックは、メディアンでなく平均値に影響を与える。ZCSの値F(t)は、
Figure 0006185457
を計算することによって決定されてもよく、ここで、Zmedianはフレームtのすべてのブロックのブロックゼロクロッシングレートのメディアンである。
ゲート処理モジュール103は、ショートリズム指標(SRM)サブモジュール208を有してもよい。上述された特徴は、かなりリズミカルな音楽では困難となる。例えば、ヒップホップ及びテクノ音楽は、誤った分類を導く可能性がある。これら2つのジャンルは、かなりリズミカルな部分を有し、当該部分はSRM及びLRM特徴と共に容易に検出可能である。SRMの値F(t)は、
Figure 0006185457
を計算することによって決定されてもよく、ここで、
Figure 0006185457
であり、d[m]はブロックmのゼロ平均シーケンスにおける要素であり、At[l]はlのブロックラグによるフレームtの自己相関値である。SRMは、分散ブロックの現在のフレームについて自己相関を計算する。その後、Aのサーチ範囲において最も大きなインデックスがサーチされる。
ゲート処理モジュール103は、ロングリズム指標(LRM)サブモジュール209を有してもよい。LRMの値F(t)は、エネルギーエンベロープの自己相関を計算することによって決定されてもよく、
Figure 0006185457
ここで、
Figure 0006185457
であり、AL[l]はフレームのtの自己相関スコアである。
(t)〜F(t)の特徴の少なくとも1つは、入力オーディオ信号をスピーチ及び非スピーチセグメントに分類するのに利用されてもよい。F(t)〜F(t)の特徴の2以上が利用される場合、各値は利用される特徴からバイナリ判定を導出可能な機械学習アルゴリズムにより処理されてもよい。機械学習アルゴリズムはさらに、ゲート処理モジュール103におけるさらなるサブモジュールであってもよい。例えば、機械学習アルゴリズムは、AdaBoostであってもよい。AdaBoostアルゴリズムは、参照することにより援用されるYoav Freund and Robert E.Schapire,A short introduction to boosting,Journal of Japanese Society for Artificial Intelligence,14(5),pages 771−780,1999に記載される。
AdaBoostは、いわゆる、弱学習アルゴリズムを強学習アルゴリズムにブースティングするのに利用されてもよい。上述されたシステム上で適用されると、AdaBoostは、F(t)〜F(t)の7つの値からバイナリ判定を導出するのに利用されてもよい。
AdaBoostは、具体例のデータベース上で訓練される。それは、入力として上記特徴の正しくラベル付けされた出力ベクトルを提供することによって訓練されてもよい。その後、それは、分類手段としてAdaBoostの実際の適用中に利用するためブースティングベクトルを提供することができる。ブースティングベクトルは、各特徴について閾値とウェイトとのセットであってもよい。それは、何れの特徴がスピーチ又は非スピーチ判定を行い、訓練中に決定された値によりそれを重み付けするかの情報を提供してもよい。
オーディオ信号から抽出された特徴は、“弱”学習アルゴリズムを表す。これらの“弱”学習アルゴリズムのそれぞれはシンプルな分類手段であり、その後、それは閾値と比較され、所与のウェイトによりファクタ化される。出力は、入力オーディオがスピーチであるか否かを判断するバイナリ分類である。
例えば、出力ベクトルは、スピーチ又は非スピーチについてY=−1,+1を仮定してもよい。AdaBoostは、いわゆるブースティングラウンドにおいて弱学習手段を複数回呼び出す。それは、ウェイト分布Dを維持し、それは、弱仮説が誤って分類される毎により高くランク付けされる。このようにして、仮説はトレーニングセットの困難な具体例に着目される必要がある。弱仮説の品質は、分布Dから計算可能である。
Figure 0006185457
例えば、20ラウンドのブースティングの実行後、トレーニングアルゴリズムは、ブースティングベクトルを返す。ブースティングのラウンド数は固定されず、20回など経験的に選択されてもよい。それを適用する労力が、やや小さい上述された訓練によるベクトルの利用と比較される。アルゴリズムは、各F(t)について1つである7つの値を有するベクトルを受信する。各ラウンドによって、アルゴリズムは当該ベクトルについて繰り返され、1つの特徴の結果を抽出し、それを閾値と比較し、符号の形式によりそれの意味を導出する。
以下は、バイナリスピーチ/他の分類のための一例となるコードである。
Figure 0006185457
エンコーダを訓練するため、スピーチの抜粋と非スピーチの抜粋とを有するトレーニングデータベースが符号化される。各抜粋は、正しい判定が何れであるかトレーニングアルゴリズムに通知するため、ラベル付けされる必要がある。その後、エンコーダは、入力としてのトレーニングファイルにより呼び出される。符号化処理中、すべての特徴結果が記録される。その後、トレーニングアルゴリズムは入力ベクトルに適用される。この結果をテストするため、異なるオーディオデータを有するテストデータベースが利用される。当該特徴が良好に機能した場合、各ブースティングラウンド後、トレーニング及びテストエラーは徐々に小さくなることを観察できる。このエラーは、誤って分類された入力ベクトルから計算される。
アルゴリズムは、可能な最小のエラーを生じさせる閾値を各特徴について選択している。その後、それはすべての誤って分類されたスタンプ(stump)をより大きく重み付けするようにしてもよい。次のブースティングラウンドにおいて、アルゴリズムは、可能な最小のエラーを有する閾値と他の特徴とを選択してもよい。ある時間後、異なるスタンプ(具体例/ベクトル)はもはや等しくは重み付けされないかもしれない。これは、この時点までの誤って分類されたすべての具体例がアルゴリズムからより注目されるようになっていることを意味する。これは、異なって重み付けされた分布により新たな閾値を考慮することによって、以降のブースティングラウンドにおいて再び特徴をコールすることを可能にする。
図3は、オーディオエンコーダからの情報を利用して入力オーディオ信号からラウドネスレベル情報を推定するシステム300を概略的に示す。
システム300は、エンコーダ101のサブモジュール、ラウドネス推定モジュール102及びゴート処理モジュール103を有する。例えば、システム300は、図2に関して説明されたサブモジュール203〜209の少なくとも1つを有する。さらに、システム301は、ブロックスイッチングサブモジュール311、MDCT変換サブモジュール312、スケールファクタバンドエネルギーサブモジュール313及びさらなるサブモジュールの少なくとも1つを有する。さらに、システム301は、オーディオ入力信号がマルチチャネル信号である場合、複数のダウンミキササブモジュール321〜223と、ショートブロックハンドリング及び擬似スペクトル生成のためのサブモジュール330とを有してもよい。オーディオ入力信号がマルチチャネル信号である場合、サブモジュール330はまたダウンミキサを有してもよい。
サブモジュール203〜209は、上述されるようなラウドネス推定を実行するラウドネス推定モジュール102にそれらの値F(t)〜F(t)を送信する。ラウドネス指標などのラウドネス推定モジュール102のラウドネス情報が、符号化されたオーディオ信号を搬送するビットストリームに符号化されてもよい。ラウドネス指標は、例えば、ドルビーデジタルダイヤルノーム値などであってもよい。
あるいは、ラウドネス指標は、リプレイゲイン値として格納されてもよい。リプレイゲイン値は、iTunesスタイルメタデータ又はID3v2タグに格納されてもよい。さらなる代替では、ラウドネス指標は、MPEGの“プログラムリファレンスレベル”を上書きするのに利用されてもよい。MPEGの“プログラムリファレンスレベル”は、ダイナミックレンジ圧縮(DRC)情報構造の一部としてMPEG4 AACビットストリームのフィルエレメントに配置されてもよい(ISO/IEC 14496−3 Subpart4)。
MDCT変換サブモジュール312に関連するブロックスイッチングサブモジュール311の処理が以下で説明される。
HE−AACによると、いくつかのMDCT(Modified Discrete Cosine Transform)係数を含むフレームが符号化中に生成される。典型的には、ロングブロックとショートブロックとの2つのタイプのブロックが区別されてもよい。ある実施例では、ロングブロックはフレームのサイズに等しい(すなわち、ある時間分解能に対応する1024個のスペクトル係数)。ショートブロックは、時間に関してオーディオ信号の特徴を適切に表現するため8倍以上の時間分解能(1024/128)を実現し、エコー前アーチファクトを回避するため、128個のスペクトル値を有する。この結果、フレームは、同じファクタ8だけの周波数分解能の低減を犠牲にして、8つのショートブロックにより構成される。この方式は、通常はブロックスイッチングサブモジュール311において実行可能な“AACブロックスイッチング方式”と呼ばれる。すなわち、ブロックスイッチングモジュール311は、ロングブロック又はショートブロックを生成するか判断する。ショートブロックがより低い周波数分解能を有する間、ショートブロックは、オーディオ信号における開始を決定するのに貴重な情報とリズム情報とを提供する。これは、多数の急な開始と、高品質の表現のための多数のショートブロックとを含むオーディオ及びスピーチ信号について特に関連する。
ショートブロックを有するフレームについて、MDCT係数をロングブロックにインタリーブすることが提案され、当該インタリーブはサブモジュール330により実行される。当該インタリーブは図4に示され、ここでは、8つのショートブロックの各自の係数が再グループ化され、すなわち、8つのブロック401〜408の第1MDCT係数が再グループ化され、8つのブロック401〜408の第2のMDCT係数に続き、以下同様となるように、8つのショートブロック401〜408のMDCT係数がインタリーブされる。これを実行することによって、対応するMDCT係数、すなわち、同じ周波数に対応するMDCT係数が一緒にグループ化される。フレーム内のショートブロックのインタリーブは、フレーム内で周波数分解能を“人工的”に増加させるための処理として理解されてもよい。周波数分解能を増加させるための他の手段が想定されてもよいことに留意すべきである。
図示された具体例では、1024個のMDCT係数を有するブロック410が、8つのショートブロックのシーケンスについて取得される。ロングブロックがまた1024個のMDCT係数を有するという事実のため、1024個のMDCT係数を有する完全なブロックシーケンスがオーディオ信号について取得される。すなわち、8つの連続するショートブロック401〜408からロングブロック410を構成することによって、ロングブロックのシーケンスが取得される。
エンコーダは、異なるタイプのオーディオ信号を処理するため、2つの異なるウィンドウを利用してもよい。ウィンドウは、MDCT解析のために利用されるデータサンプルの個数を記述する。1つの符号化方法は、1024個のサンプルのブロックサイズによるロングブロックを利用するものであってもよい。一時的なデータのケースでは、エンコーダは、8つのショートブロックのセットを構成してもよい。各ショートブロックは128個のサンプルを有し、従って2*128個のサンプルのMDCT長を有してもよい。ショートブロックは、プレエコーと呼ばれる減少を回避するのに利用される。これは、1024個のサンプルを予想するため、スペクトル特徴の計算において問題を生じさせる。ショートブロックのグループの出現が低いため、あるタイプの回避方法がこの問題について利用可能である。8つのショートブロックのすべてのセットは、1つのロングブロックに類似されてもよい。ロングブロックの最初の8つのインデックスは、図4に示されるように、8つのショートブロックのそれぞれから1つのインデックス番号から得られる。8つの第2インデックスは、8つのショートブロックのそれぞれの第2インデックスから得られ、以下同様である。
オーディオ信号においてトランジェント(transient)を検出するブロックスイッチングサブモジュール311は、128個の時間サンプルのブロックのエネルギーを計算することにより動作してもよい。
PCMとLRMという2つの特徴が信号のエネルギーにより機能する。さらに、SRM特徴は、信号の分散により機能する。信号のエネルギーと分散との相違は、当該分散がオフセットフリーな時間信号から計算されているということである。エンコーダは、フィルタバンクにわたす前にオフセットをすでに除去しているため、エンコーダにおいて分散とエネルギーとを計算する際の相違はほとんど不要である。ある実施例では、ブロックエネルギー推定値を利用してLRM、PCM及びRPM特徴を計算することが可能である。
AdaBoostアルゴリズムは、すべてのサンプリングレートについて特定のベクトルを必要とし、これに従って開始される。このため、実装の精度は利用されるサンプルレートに依存するかもしれない。
計算されるエネルギーは、任意的なダウンミキサモジュール322を介しブロックスイッチングモジュール311からSRMサブモジュール208、LRMサブモジュール209及びPCMサブモジュール205に提供されてもよい。
LRMサブモジュール209及びPCMサブモジュール205は、上述されるように、信号エネルギーに対して機能する一方、SRMサブモジュール208は、信号の分散により機能する。上述されるように、分散とエネルギーとの間の差分が無視できるように、信号オフセットが除去される。
図3に戻って、サブモジュール330の処理が以下においてさらに説明される。サブモジュール330は、MDCT変換サブモジュール312からMDCT係数を受信し、上述されたように、ショートブロックを処理する。MDCT係数は、擬似スペクトルを計算するのに利用されてもよい。擬似スペクトルYは、
Figure 0006185457
としてMDCT係数から計算されてもよい。
上記の式は、隣接するビンにより実際のビンを平均化することによって、DFTによるスペクトル解析に接近するように、MDCT係数から擬似スペクトルを計算する方法を説明する。DFT、MDCT係数及び擬似スペクトルにより生成されるスペクトルの具体例が図5aに示される。
擬似スペクトルは、サブモジュール330により提供される擬似スペクトルに基づきスペクトルフラックス分散を計算するSFVサブモジュール203に提供されてもよい。あるいは、MDCTは、F(t)がDFTデータ、MDCTデータ及び擬似スペクトルデータから計算される図5bに示されるように利用されてもよい。他の代替では、QMFデータが、例えば、HE−AACを用いて入力オーディオ信号を符号化するときに利用されてもよい。この場合、SFVサブモジュール203は、SBRサブモジュールからQMFデータを受信してもよい。
スピーチ/非スピーチ分類がエンコーダに関して図3において説明されたが、サブモジュールからの関連する情報が提供される限り、スピーチ/非スピーチ分類はまた他のコンテクストにおいて実現されてもよいことに留意すべきである。
ある実施例では、DFTスペクトル表現をMDCT表現及びSFVとAST特徴の計算に置換するため、追加的な処理が実行される。例えば、フィルタバンクデータが、左右のチャネルとしてダイヤルノーム計算モジュールにわたされてもよい。双方のチャネルのシンプルなダウンミックスは、左右のチャネルを加えることによって、すなわち、Xkmono=Xkleft+Xkrightによって実行されてもよい。
ダウンミックス後、スペクトルフラックスの計算にデータを提供するためのいくつかの可能性がある。1つのアプローチは、MDCT計算の大きさを計算することによって、SFVのスペクトル解析のためMDCT係数を利用することである。他のアプローチは、MDCT係数から擬似スペクトルを導出することである。
さらに、MDCT係数から計算される擬似スペクトルは、平均的なスペクトルティルトを計算するのに利用されてもよい。この場合、擬似スペクトルは、サブモジュール330からASTサブモジュール204に提供されてもよい。あるいは、MDCT係数が、平均的なスペクトルティルトを計算するのに利用されてもよい。この場合、MDCT係数は、サブモジュール312からASTサブモジュール204に提供されてもよい。さらなる代替では、スケールファクタバンドエネルギーが、平均的なスペクトルティルトを計算するのに利用されてもよい。この場合、スケールファクタバンドエネルギーサブモジュール313は、スケールファクタバンドエネルギーから平均的なスペクトルティルトの指標を計算するASTサブモジュール204にスケールファクタバンドエネルギーを提供してもよい。従来、スケールファクタバンドエネルギーはMDCTスペクトルから導出される周波数帯域からのエネルギー推定値であることに留意すべきである。
ある実施例によると、スケールファクタバンドエネルギーは、上述されるように、平均的なスペクトルティルトを計算するのに利用されるスペクトルパワー密度を置換するのに利用される。48kHzのサンプルレートのためのMDCTインデックスo_sets(Nm)の一例となるテーブルが、以下のテーブルに示される。スケールファクタエネルギーの計算は、以下のとおりである。
Figure 0006185457
対数領域への変換は、1024個のビンの代わりに46個のsfbエネルギーのみを利用する相違により上述された変換と等しい。
Figure 0006185457
すなわち、ASTは、以下のようにして上述されたDFTベース式を変更することから導出されてもよい。
・スケールファクタバンドレベルZ[k]によりDFTレベルX[k]を置換(m〜kを設定)
・kは1〜46まで実行される(使用されるスケールファクタバンドの個数)
・mは時間ブロックインデックス(ブロックサイズは1024個のサンプル)
・ファクタN/2が利用されるスケールファクタバンドの個数(46)と置換される必要がある
・Mは2秒の時間ウィンドウにおけるブロック数(1024個のサンプルのサイズの)に対応する
・tは現在の推定時間(過去2秒間をカバーする)に対応する
・ASTが0.5秒毎に計算された場合、tのサンプリング区間は0.5秒である。
異なる信号設定についてスケールファクタバンドエネルギーを変換する他の具体例は、本明細書の範囲内において当業者に明らかである。
Figure 0006185457
スケールファクタバンド(SFB)は、当該特徴の複雑さの低減のため、効果的に利用されてもよい。1024個のビンのフルMDCTスペクトルと比較して、46個のスケールファクタバンドを考慮することは複雑さが低い。スケールファクタバンドエネルギーは、MDCTスペクトルから導出される異なる周波数帯域からのエネルギー推定値である。これらの推定値は、各スケールファクタバンドにおける許容される量子化エラーを導出するため、エンコーダの心理音響モデルについてエンコーダにおいて利用される。
本明細書の他の態様によると、オーディオコンテンツのスピーチ/非スピーチ部分の分類のための新たな特徴が提案される。提案された特徴は、オーディオ信号の当該性質がスピーチ又は非スピーチの分類に有用な情報を搬送するため、オーディオ信号のリズム情報の推定に関連する。提案されたリズム特徴は、その後、オーディオの部分又はセグメントに対する判定を行うため、AdaBoost分類手段などの分類手段において他の特徴に加えて利用可能である。
効率化のため、オーディオ信号から直接的に又はビットストリームへの挿入用にエンコーダにより計算されたデータからリズム情報を抽出することが望ましいかもしれない。以下において、オーディオ信号のリズム情報をどのように決定するに関する方法が説明される。HE−AACエンコーダが着目される。
HE−AAC符号化は、高周波数再構成(HFR)又はスペクトルバンド複製(SBR)技術を利用する。SBR符号化処理は、トランジェント検出段階、適切な表現のための適応的T/F(時間/周波数)グリッド選択、エンベロープ推定段階及び信号の低周波数部分と高周波数部分との間の信号特性のミスマッチを訂正するための追加的な方法を有する。
SBRエンコーダにより生成されるペイロードの大部分はエンベロープのパラメータ表現から生じていることが観察された。信号特性に依存して、エンコーダは、オーディオセグメントの適切な表現とプレエコーアーチファクトを回避するのに適した時間周波数分解能を決定する。典型的には、時間について擬似静的セグメントに対してより高い周波数分解能が選択され、動的な推移に対してより高い時間分解能が選択される。
この結果、より長い時間セグメントはより短い時間セグメントより効率的に符号化可能であるという事実により、時間周波数分解能の選択は、SBRビットレートに対して有意な影響を有する。同時に、高速に変化するコンテンツに対して、すなわち、典型的にはより高いリズムを有するオーディオコンテンツに対して、オーディオ信号の適切な表現のため送信されるエンベロープの個数とエンベロープ係数の個数とは、低速に変化するコンテンツに対してより高くなる。選択された時間分解能の影響に加えて、この効果はさらにSBRデータのサイズに影響を与える。実際、基礎となるオーディオ信号のテンポ又はリズムの変化に対するSBRデータレートの感度は、mp3コーデックに関して利用されるハフマンコード長のサイズの感度より高いことが観察された。従って、SBRデータのビットレートの変化は、符号化されたビットストリームからリズムコンポーネントを直接的に決定するのに利用可能な貴重な情報として特定された。従って、SBRペイロードは、オーディオ信号における開始を推定するための良好なプロキシである。このとき、SBRにより導出されるリズム情報は、例えば、ラウドネスの計算をゲート化するためなど、スピーチ/非スピーチ分類のための特徴として利用可能である。
SBRペイロードのサイズは、リズム情報について利用可能である。SBRペイロードの大きさは、エンコーダのSBRコンポーネントから直接的に受信されてもよい。
図7aにおいて、SBRペイロードデータの具体例が提供される。x軸はフレーム番号を示し、y軸は対応するフレームのSBRペイロードデータのサイズを示す。SBRペイロードデータのサイズはフレーム毎に変化することが観察できる。以下において、SBRペイロードデータサイズのみが参照される。リズム情報が、SBRペイロードデータのサイズの周期性を特定することによって、SBRペイロードデータのサイズのシーケンス701から抽出されてもよい。特に、SBRペイロードデータのサイズのピークの周期性又は繰り返しパターンが特定されてもよい。これは、例えば、SBRペイロードデータのサイズの重複したサブシーケンスに対してFFTを適用するなどによって実行可能である。サブシーケンスは、6秒間など特定の信号長に対応してもよい。連続するサブシーケンスの重複は、50%のオーバラップであってもよい。その後、サブシーケンスのFFT係数が、完全なオーディオトラックの長さに対して平均化されてもよい。これは、図7bに示される変調スペクトル711として表現されてもよい完全なオーディオトラックについて平均化されたFFT係数を生成する。SBRペイロードデータのサイズの周期性を特定するための他の方法が想定されてもよいことに留意すべきである。
変調スペクトル711のピーク712、713、714は、繰り返しパターン、すなわち、ある生起頻度によるリズムパターンを示す。生起頻度はまた、変調頻度と呼ばれてもよい。可能な最大変調周波数は基礎となるコアオーディオコーデックの時間分解能により制限されることに留意すべきである。HE−AACは1/2のサンプリング周波数で動作するAACコアコーデックを有するデュアルレートッステムであると定義されるため、6秒長のシーケンス(128フレーム)及びサンプリング周波数F=44100Hzについて、約21.74Hz/2〜11Hzの可能な最大変調周波数が取得される。この可能な最大変調周波数は、スピーチのテンポ/リズムとほぼすべての音楽部分をカバーする約660BPMに対応する。便宜上、正確な処理を保証しながら、最大変調周波数は、600BPMに対応する10Hzに限定されてもよい。
図7bの変調スペクトルはさらにエンハンスされてもよい。例えば、図6に示される重み付け曲線600を利用した知覚的重み付けが、人間のテンポ/リズムの嗜好をモデル化するため、SBRペイロードデータ変調スペクトル711に適用されてもよい。図7cにおいて、結果として得られる知覚的に重み付けされたSBRペイロードデータ変調スペクトル721が示される。極めて低い及び極めて高いテンポが抑制されることが観察できる。特に、初期的なピーク712及び714とそれぞれ比較して、低周波数ピーク722及び高周波数ピーク724が低減されていることが理解できる。他方、中程度の周波数ピーク723は維持されている。
SBRペイロードデータに基づくリズム推定のための提案されたアプローチは、入力信号のビットレートから独立していることに留意すべきである。HE−AAC符号化ビットストリームのビットレートを変更するとき、エンコーダは、当該ビットレートにおいて実現可能な最高の出力品質に従ってSBRスタート及びストップ頻度を自動設定し、すなわち、SBRクロスオーバ頻度が変更される。にもかかわらず、SBRペイロードは、オーディオトラックの繰り返しのトランジェントコンポーネントに関して情報を有する。これは、SBRペイロード変調スペクトルが異なるビットレートについて示される図7dにおいて観察できる(16〜64kbits/s)。オーディオ信号の繰り返し部分(すなわち、ピーク733などの変調スペクトルのピーク)がすべてのビットレートに対して優位であり続けることが観察できる。また、エンコーダはビットレートを減少させながら、SBR部分のビットを節約しようとするため、異なる変調スペクトルにおいて変動があることが観察されてもよい。
結果としてのリズム特徴は、スピーチ/非スピーチ分類のための良好な特徴である。音声信号がスピーチ信号であるか、又は他の信号タイプに関するものであるか判断するため、異なるタイプの分類手段が適用されてもよい。例えば、AdaBoost分類手段は、リズム特徴と分類のための他の特徴とを重み付けするため利用されてもよい。リズム特徴は、例えば、HE−AACエンコーダのダイヤルノーム計算に利用されるショートリズム指標(SRM)及び/又はロングリズム指標(LRM)などのリズムに関する類似した特徴の代わりに又は加えて適用されてもよい。
本明細書におけるリズム特徴推定及びスピーチ分類について概略された方法はHE−AACのダイヤルノームなどのラウドネス値の分類をゲート処理するため適用されてもよいことに留意すべきである。提案された方法は、エンコーダのSBRコンポーネントにおける計算を利用し、大きな計算負荷を加えるものでない。
さらなる態様として、オーディオ信号のスピーチ/非スピーチ分類及び/又はラウドネス情報がメタデータの形態により符号化されたビットストリームに書き込まれてもよいことに留意すべきである。このようなメタデータは、メディアプレーヤーにより抽出及び利用されてもよい。
本明細書では、スピーチ/非スピーチ分類手段及びゲート化ラウドネス推定方法及びシステムが説明された。当該推定は、エンコーダにより決定されるようなHE−AAC SBRペイロードに基づき実行されてもよい。これは、極めて低い複雑さによりリズム特徴の決定を可能にする。SBRペイロードデータを利用して、リズム特徴が抽出されてもよい。提案された方法は、ビットレート及びSBRクロスオーバ周波数変動に対してロウバストであり、モノ及びマルチチャネル符号化オーディオ信号に適用可能である。それはまた、mp3PROなどの他のSBRエンハンスされたオーディオコーダに適用可能であり、コアコーデックアグノスティック(core codec agnostic)であるとみなすことができる。
本明細書に説明される方法及びシステムは、ソフトウェア、ファームウェア及び/又はハードウェアとして実現されてもよい。特定のコンポーネントは、デジタル信号プロセッサ又はマイクロプロセッサ上で実行されるソフトウェアとして実現されてもよい。他のコンポーネントは、例えば、ハードウェア及び/又は特定用途向け集積回路として実現されてもよい。説明された方法及びシステムに出現する信号は、RAMや光記憶媒体などの媒体に格納されてもよい。それらは、ラジオネットワーク、衛星ネットワーク、無線ネットワーク又は有線ネットワークなどのインターネットなどのネットワークを介し伝送されてもよい。本明細書に説明される方法及びシステムを利用する典型的な装置は、オーディオ信号を格納及び/又は再生するのに利用されるポータブル電子装置又は他のコンシューマ装置である。本方法及びシステムはまた、ダウンロード用の音楽信号などのオーディオ信号を格納及び提供するインターネットウェブサーバなどのコンピュータシステム上で利用されてもよい。

Claims (16)

  1. オーディオ信号を符号化する装置により実行される方法であって、
    前記オーディオ信号のスペクトル表現を決定するステップであって、MDCT(Modified Discrete Cosine Transform)係数を決定することを含む、前記決定するステップと、
    前記決定されたスペクトル表現を利用して前記オーディオ信号をビットストリームに符号化するステップと、
    記MDCT係数から擬似スペクトルを決定するステップであって、前記擬似スペクトルを決定するステップは、特定の周波数ビンmの特定のMDCT係数X について、前記擬似スペクトルの対応する係数Y をY =(X +(X m−1 −X m+1 1/2 として決定することを含み、X m−1 及びX m+1 はそれぞれ前記特定の周波数ビンmに隣接する周波数ビン(m−1)及び(m+1)のMDCT係数である、決定するステップと、
    前記決定された擬似スペクトルの値に基づき前記オーディオ信号の部分をスピーチ又は非スピーチであると分類するステップと、
    前記スピーチ部分に基づき前記オーディオ信号のラウドネス指標を決定するステップと、
    前記決定されたラウドネス指標を前記ビットストリームに符号化するステップと、
    を有する方法。
  2. 前記スペクトル表現を決定するステップは、QMF(Quadrature Mirror Filter)フィルタバンク表現を決定することを含む、請求項1記載の方法。
  3. スペクトルフラックス分散を決定するステップをさらに有し、
    前記スピーチ/非スピーチ部分の分類は、前記決定されたスペクトルフラックス分散に少なくとも部分的に基づく、請求項1又は2記載の方法。
  4. 前記MDCT係数からスケールファクタバンドエネルギーを決定するステップをさらに有し、
    前記スピーチ/非スピーチ部分の分類は、前記決定されたスケールファクタバンドエネルギーに少なくとも部分的に基づく、請求項1乃至何れか一項記載の方法。
  5. 前記スケールファクタバンドエネルギーから平均スペクトルティルトを決定するステップをさらに有し、
    前記スピーチ/非スピーチ部分の分類は、前記平均スペクトルティルトに少なくとも部分的に基づく、請求項記載の方法。
  6. 前記オーディオ信号のブロックのエネルギー値を決定するステップと、
    前記オーディオ信号のブロックのエネルギー値に基づきエネルギーベース特徴を決定するステップと、
    をさらに有し、
    前記スピーチ/非スピーチ部分の分類は、前記エネルギーベース特徴に少なくとも部分的に基づく、請求項1乃至何れか一項記載の方法。
  7. 前記スピーチ/非スピーチ部分の分類は、機械学習アルゴリズム、特にAdaBoostアルゴリズムに基づく、請求項1乃至何れか一項記載の方法。
  8. スピーチデータ及び非スピーチデータに基づき前記機械学習アルゴリズムをトレーニングするステップをさらに有し、これにより、エラー関数を最小化するため前記機械学習アルゴリズムのパラメータを調整する、請求項記載の方法。
  9. 前記スペクトル表現は、ショートブロック及び/又はロングブロックについて決定され、
    当該方法はさらに、所定数のショートブロックに対応するロングブロック表現のフレームとショートブロック表現とを整合させるステップを有し、これにより、前記所定数のショートブロックのMDCT係数をロングブロックの前記フレームにリオーダリングする、請求項1乃至何れか一項記載の方法。
  10. 前記オーディオ信号は、マルチチャネル信号であり、
    当該方法はさらに、前記マルチチャネル信号をダウンミキシングし、前記ダウンミキシングされた信号に対して前記分類するステップを実行するステップを有する、請求項1乃至何れか一項記載の方法。
  11. 前記オーディオ信号をダウンサンプリングし、前記ダウンサンプリングされた信号に対して前記分類するステップを実行するステップをさらに有する、請求項1乃至10何れか一項記載の方法。
  12. 前記オーディオ信号は、HE−AAC、MP3、AAC、ドルビーデジタル又はドルビーデジタルプラスの1つに従って符号化される、請求項1乃至11何れか一項記載の方法。
  13. コンピュータ装置上のプロセッサに請求項1乃至12何れか一項記載の方法のステップを実行させるためのソフトウェアプログラム。
  14. コンピュータ装置上のプロセッサに請求項1乃至12何れか一項記載の方法のステップを実行させるためのソフトウェアプログラムを記憶するコンピュータ可読記憶媒体。
  15. コンピュータ装置上のプロセッサに請求項1乃至12何れか一項記載の方法を実行させるためのコンピュータプログラム。
  16. オーディオ信号を符号化するシステムであって、
    前記オーディオ信号のスペクトル表現を決定する手段であって、MDCT(Modified Discrete Cosine Transform)係数を決定するよう構成される前記決定する手段と、
    前記決定されたスペクトル表現を利用して前記オーディオ信号をビットストリームに符号化する手段と、
    記MDCT係数から擬似スペクトルを決定する手段であって、前記擬似スペクトルを決定する手段は、特定の周波数ビンmの特定のMDCT係数X について、前記擬似スペクトルの対応する係数Y をY =(X +(X m−1 −X m+1 1/2 として決定することを含み、X m−1 及びX m+1 はそれぞれ前記特定の周波数ビンmに隣接する周波数ビン(m−1)及び(m+1)のMDCT係数である、決定する手段と、
    前記決定された擬似スペクトルの値に基づきスピーチ又は非スピーチであると前記オーディオ信号の部分を分類する手段と、
    前記スピーチ部分に基づき前記オーディオ信号のラウドネス指標を決定する手段と、
    前記決定されたラウドネス指標を前記ビットストリームに符号化する手段と、
    を有するシステム。
JP2014506898A 2011-04-28 2012-04-27 効率的なコンテンツ分類及びラウドネス推定 Expired - Fee Related JP6185457B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161480215P 2011-04-28 2011-04-28
US61/480,215 2011-04-28
PCT/EP2012/057856 WO2012146757A1 (en) 2011-04-28 2012-04-27 Efficient content classification and loudness estimation

Publications (2)

Publication Number Publication Date
JP2014515124A JP2014515124A (ja) 2014-06-26
JP6185457B2 true JP6185457B2 (ja) 2017-08-23

Family

ID=46027954

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014506898A Expired - Fee Related JP6185457B2 (ja) 2011-04-28 2012-04-27 効率的なコンテンツ分類及びラウドネス推定

Country Status (5)

Country Link
US (1) US9135929B2 (ja)
EP (1) EP2702589B1 (ja)
JP (1) JP6185457B2 (ja)
CN (1) CN103582913B (ja)
WO (1) WO2012146757A1 (ja)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2720222A1 (en) * 2012-10-10 2014-04-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient synthesis of sinusoids and sweeps by employing spectral patterns
CN104737228B (zh) 2013-01-21 2017-12-29 杜比实验室特许公司 利用节目响度和边界元数据的音频编码器和解码器
CN107578781B (zh) * 2013-01-21 2021-01-29 杜比实验室特许公司 利用响度处理状态元数据的音频编码器和解码器
BR122022020319B1 (pt) * 2013-01-28 2023-02-28 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V Método e aparelho para reprodução de áudio normalizado de mídia com e sem metadados de ruído integrado em novos dispositivos de mídia
CN107093991B (zh) 2013-03-26 2020-10-09 杜比实验室特许公司 基于目标响度的响度归一化方法和设备
TWI546799B (zh) 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
RU2740690C2 (ru) * 2013-04-05 2021-01-19 Долби Интернешнл Аб Звуковые кодирующее устройство и декодирующее устройство
JP6204681B2 (ja) * 2013-04-05 2017-09-27 日本放送協会 音響信号再生装置
PL3008726T3 (pl) 2013-06-10 2018-01-31 Fraunhofer Ges Forschung Urządzenie i sposób kodowania obwiedni sygnału audio, przetwarzania i dekodowania przez modelowanie reprezentacji sumy skumulowanej z zastosowaniem kwantyzacji i kodowania rozkładu
MY170179A (en) 2013-06-10 2019-07-09 Fraunhofer Ges Forschung Apparatus and method for audio signal envelope encoding, processing and decoding by splitting the audio signal envelope employing distribution quantization and coding
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
CN103413553B (zh) * 2013-08-20 2016-03-09 腾讯科技(深圳)有限公司 音频编码方法、音频解码方法、编码端、解码端和系统
WO2015036348A1 (en) 2013-09-12 2015-03-19 Dolby International Ab Time- alignment of qmf based processing data
EP2879131A1 (en) 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
US10063207B2 (en) * 2014-02-27 2018-08-28 Dts, Inc. Object-based audio loudness management
EP3201915B1 (en) * 2014-10-01 2018-12-12 Dolby International AB Efficient drc profile transmission
CN104637484B (zh) * 2015-02-03 2017-09-29 宁波大学 一种基于共生矩阵分析的mp3音频隐写检测方法
TW202242853A (zh) * 2015-03-13 2022-11-01 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
US10133538B2 (en) * 2015-03-27 2018-11-20 Sri International Semi-supervised speaker diarization
BR112017026915B1 (pt) 2015-06-17 2023-09-26 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V Processador e codificador de áudio e método para processar e gerar sinal de áudio
US9934790B2 (en) * 2015-07-31 2018-04-03 Apple Inc. Encoded audio metadata-based equalization
CN107785016A (zh) * 2016-08-31 2018-03-09 株式会社东芝 训练神经网络辅助模型的方法和装置及语音识别方法和装置
US10375131B2 (en) * 2017-05-19 2019-08-06 Cisco Technology, Inc. Selectively transforming audio streams based on audio energy estimate
CN108989706A (zh) * 2017-06-02 2018-12-11 北京字节跳动网络技术有限公司 基于音乐节奏生成特效的方法及装置
TWI702594B (zh) * 2018-01-26 2020-08-21 瑞典商都比國際公司 用於音訊信號之高頻重建技術之回溯相容整合
US10586546B2 (en) 2018-04-26 2020-03-10 Qualcomm Incorporated Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding
US10580424B2 (en) * 2018-06-01 2020-03-03 Qualcomm Incorporated Perceptual audio coding as sequential decision-making problems
US10734006B2 (en) 2018-06-01 2020-08-04 Qualcomm Incorporated Audio coding based on audio pattern recognition
US11024291B2 (en) 2018-11-21 2021-06-01 Sri International Real-time class recognition for an audio stream
KR20200127781A (ko) 2019-05-03 2020-11-11 한국전자통신연구원 주파수 복원 기법 기반 오디오 부호화 방법
CN110543482B (zh) * 2019-08-29 2022-04-26 中国信息通信研究院 一种最大时间间隔误差计算方法及系统

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001154698A (ja) * 1999-11-29 2001-06-08 Victor Co Of Japan Ltd オーディオ符号化装置及びその方法
JP2002116784A (ja) * 2000-10-06 2002-04-19 Sony Corp 情報信号処理装置、情報信号処理方法、情報信号記録再生装置及び情報信号記録媒体
US7454331B2 (en) * 2002-08-30 2008-11-18 Dolby Laboratories Licensing Corporation Controlling loudness of speech in signals that contain speech and other types of audio material
US7386357B2 (en) 2002-09-30 2008-06-10 Hewlett-Packard Development Company, L.P. System and method for generating an audio thumbnail of an audio track
CN1186765C (zh) 2002-12-19 2005-01-26 北京工业大学 2.3kb/s谐波激励线性预测语音编码方法
KR100754384B1 (ko) * 2003-10-13 2007-08-31 삼성전자주식회사 잡음에 강인한 화자위치 추정방법 및 장치와 이를 이용한카메라 제어시스템
US6980933B2 (en) * 2004-01-27 2005-12-27 Dolby Laboratories Licensing Corporation Coding techniques using estimated spectral magnitude and phase derived from MDCT coefficients
EP1797507B1 (en) 2004-10-08 2011-06-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an encoded rhythmic pattern
BRPI0518133A (pt) * 2004-10-13 2008-10-28 Matsushita Electric Ind Co Ltd codificador escalável, decodificador escalável, e método de codificação escalável
US8199933B2 (en) * 2004-10-26 2012-06-12 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
MX2007005027A (es) * 2004-10-26 2007-06-19 Dolby Lab Licensing Corp Calculo y ajuste de la sonoridad percibida y/o el balance espectral percibido de una senal de audio.
TWI397903B (zh) * 2005-04-13 2013-06-01 Dolby Lab Licensing Corp 編碼音訊之節約音量測量技術
JP4632136B2 (ja) 2006-03-31 2011-02-16 富士フイルム株式会社 楽曲テンポ抽出方法、装置及びプログラム
US8504181B2 (en) * 2006-04-04 2013-08-06 Dolby Laboratories Licensing Corporation Audio signal loudness measurement and modification in the MDCT domain
DE102006051673A1 (de) 2006-11-02 2008-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Nachbearbeiten von Spektralwerten und Encodierer und Decodierer für Audiosignale
CN101246686A (zh) 2007-02-15 2008-08-20 黎自奋 连续二次贝氏分类法辨认相似国语单音的方法及装置
ATE552651T1 (de) * 2008-12-24 2012-04-15 Dolby Lab Licensing Corp Audiosignallautheitbestimmung und modifikation im frequenzbereich
JP5168165B2 (ja) 2009-01-20 2013-03-21 ヤマハ株式会社 電子透かし情報の埋め込みおよび抽出を行うための装置およびプログラム
CN102422349A (zh) * 2009-05-14 2012-04-18 夏普株式会社 增益控制装置和增益控制方法、声音输出装置
TWI484473B (zh) 2009-10-30 2015-05-11 Dolby Int Ab 用於從編碼位元串流擷取音訊訊號之節奏資訊、及估算音訊訊號之知覺顯著節奏的方法及系統

Also Published As

Publication number Publication date
WO2012146757A1 (en) 2012-11-01
EP2702589B1 (en) 2017-04-05
US9135929B2 (en) 2015-09-15
CN103582913A (zh) 2014-02-12
EP2702589A1 (en) 2014-03-05
US20140039890A1 (en) 2014-02-06
JP2014515124A (ja) 2014-06-26
CN103582913B (zh) 2016-05-11

Similar Documents

Publication Publication Date Title
JP6185457B2 (ja) 効率的なコンテンツ分類及びラウドネス推定
EP2979359B1 (en) Equalizer controller and controlling method
EP2979358B1 (en) Volume leveler controller and controlling method
JP5543640B2 (ja) 複雑さがスケーラブルな知覚的テンポ推定
EP3598448B1 (en) Apparatuses and methods for audio classifying and processing
US9697840B2 (en) Enhanced chroma extraction from an audio codec
JP5325292B2 (ja) 信号の異なるセグメントを分類するための方法および識別器
JP2016194711A (ja) ピッチフィルタ及び関連する方法
US20140019125A1 (en) Low band bandwidth extended
US10950251B2 (en) Coding of harmonic signals in transform-based audio codecs
RU2782981C2 (ru) Модуль оценки подобия аудиосигналов, аудиокодер, способы и компьютерная программа
Uemura et al. Effects of audio compression on chord recognition
KR20230002332A (ko) 사운드 코덱에 있어서 스피치/뮤직 분류 및 코어 인코더 선택을 위한 방법 및 디바이스
Gao et al. A new approach to generating Pitch Cycle Waveform (PCW) for Waveform Interpolation codec
Camastra et al. Audio acquisition, representation and storage
Disse el Est Spec dio C

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150825

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151125

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160405

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170519

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170727

R150 Certificate of patent or registration of utility model

Ref document number: 6185457

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees