JP2020525853A - 密集性の過渡事象の検出及び符号化の複雑さの低減 - Google Patents

密集性の過渡事象の検出及び符号化の複雑さの低減 Download PDF

Info

Publication number
JP2020525853A
JP2020525853A JP2019572693A JP2019572693A JP2020525853A JP 2020525853 A JP2020525853 A JP 2020525853A JP 2019572693 A JP2019572693 A JP 2019572693A JP 2019572693 A JP2019572693 A JP 2019572693A JP 2020525853 A JP2020525853 A JP 2020525853A
Authority
JP
Japan
Prior art keywords
audio signal
feature value
feature
value
dense
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019572693A
Other languages
English (en)
Other versions
JP7257975B2 (ja
Inventor
ビスワス,アリジット
シューク,ミヒャエル
ムント,ハラルト
Original Assignee
ドルビー・インターナショナル・アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー・インターナショナル・アーベー filed Critical ドルビー・インターナショナル・アーベー
Priority claimed from PCT/EP2018/067970 external-priority patent/WO2019007969A1/en
Publication of JP2020525853A publication Critical patent/JP2020525853A/ja
Application granted granted Critical
Publication of JP7257975B2 publication Critical patent/JP7257975B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3059Digital compression and data reduction techniques where the original information is represented by a subset or similar information, e.g. lossy compression
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/60General implementation details not specific to a particular type of compression
    • H03M7/6011Encoder aspects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/665Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H20/00Arrangements for broadcast or for distribution combined with broadcast
    • H04H20/86Arrangements characterised by the broadcast information itself
    • H04H20/88Stereophonic broadcast systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本開示はオーディオ符号化のための方法及び装置に関連する。オーディオ信号の一部分をエンコードする方法は、オーディオ信号の一部分が密集性の過渡事象を含んでいそうであるか否かを決定するステップ、及びオーディオ信号の一部分が密集性の過渡事象を含んでいそうであると決定された場合に、実質的に一定の信号対雑音比を、オーディオ信号の一部分の周波数にわたって適用する量子化モードを利用して、オーディオ信号の一部分を量子化するステップを含む。本開示はオーディオ信号の一部分における密集性の過渡事象を検出する方法にも更に関連する。[図7]

Description

関連出願のクロス・リファレンス
本願は以下の出願:2017年7月3日付で出願された米国仮出願第62/528,198号、及び2017年7月3日付で出願された欧州出願第17179316.9号に基づく優先権を主張しており、これらは本願に援用される。
技術分野
本開示はオーディオ信号をエンコードする方法に関連する。本開示はオーディオ信号の一部分における密集性の過渡事象(dense transient events)を検出する方法に更に関連する。本開示はまた、例えばエンコーダ等の対応する装置にも関連している。
背景技術
知覚性又は損失性オーディオ・コーデック(例えば、MP3,AAC,HE−AAC,AC−4等)は、例えば拍手、パチパチと音を立てている炎、又は雨などの密集性の過渡事象を含むオーディオ信号を、知覚されるオーディオ品質の損失なしに圧縮することに伴う問題を有することが知られている。圧縮効率を増加させる従来の努力は、典型的には、エンコーダ側で大幅に増大する演算の複雑化、及び/又は知覚されるオーディオ品質の損失を招く傾向がある。
本開示は、例えば拍手、パチパチと音を立てている炎、又は雨などの密集性の過渡事象を含むオーディオ信号の音声符号化に関する上記の問題に対処し、そのようなオーディオ信号の改善された符号化のための方法及び装置を述べている。本開示は、オーディオ信号中の密集性の過渡事象を検出し、それらの適切な取り扱いを可能にすることを更に取り扱う。
本開示の態様によれば、オーディオ信号の一部分(例えば、フレーム)をエンコードする方法が開示される。方法はオーディオ信号の一部分の知覚エントロピー(a perceptual entropy:PE)に関連する第1特徴値を取得(例えば、決定、計算、又は演算)するステップを含むことができる。PEは、特定のオーディオ信号中に含まれる知覚的に関連する情報の尺度として、また特定のオーディオ信号の圧縮性に関する理論的限界を表現するものとして、音声符号化の分野で知られている。本方法は、(取得した)第1特徴値に基づいてオーディオ信号の一部分を量子化するための(例えば、MDCT係数などの、オーディオ信号の一部分の周波数係数を量子化するための)量子化モードを選択するステップを更に含むことができる。本方法は選択された量子化モードを利用してオーディオ信号の一部分を量子化するステップを更に含むことができる。量子化モードを選択するステップは、(取得した)第1特徴値に少なくとも部分的に基づいて、周波数にわたって(例えば、周波数バンドにわたって)(実質的に)一定の信号対雑音比(SNR)を適用する(例えば、強制する)量子化モードが、オーディオ信号の一部分に使用されることとするか否かを決定するステップを含んでもよい。この量子化モードは、コンスタントSNRモード又はコンスタントSNR量子化モードと言及されてもよい。周波数にわたって一定のSNRを適用することは、ノイズ・シェーピング(例えば、量子化ノイズ・シェーピング)を含んでもよい(例えば、関連してもよい)。このことは次に(例えば、量子化ステップ・サイズ、マスキング閾値などの)量子化パラメータの適切な選択又は修正を含み得る。量子化はバンド毎に実行されてもよい。更に、量子化は知覚モデル(例えば、心理音響モデル)に従って実行されてもよい。そのようなケースでは、例えば、量子化を実行する場合に、周波数にわたって実質的に一定のSNRを達成するために、スケール因子バンドのためのスケール因子、及び/又はマスキング閾値が選択又は修正されてもよい。
量子化で周波数にわたって一定のSNRを強制することにより、密集性の過渡事象(例えば、拍手、パチパチと音を立てる炎、雨、等々)含むオーディオ信号は、デコーディング後の音声の改善された知覚品質を達成する方法でエンコードされることが可能である。このコンスタントSNR量子化モードは、オーディオ信号をエンコードするためにはむしろ異例であり、他のタイプのオーディオ信号には適切でないかもしれないので、オーディオ信号の知覚エントロピーを参照することにより、オーディオ信号中の密集性の過渡事象の存在が先ず検出され、検出結果に従って量子化モードが選択される。これにより、密集性の過渡事象を含まない、又は密集性の過渡事象を含むだけではないオーディオ信号(例えば、音楽、会話、音楽及び/又は喝采に混ざった拍手など)の劣化は確実に回避され得る。知覚エントロピーは量子化の目的で最先端のオーディオ・コーデック(例えば、MP3,AAC,HE−AAC,AC−4等)において何らかの方法で決定されるので、上記の検出を実行することは、演算の複雑さ、遅延、及びメモリ・フットプリントを著しく増やすことにはならない。全体的に、提案される方法は、エンコーダ側で複雑さ及びメモリ・フットプリントを著しく増大させることなく、デコーディング後の音声知覚品質を改善する。
実施形態において、本方法は、第1特徴の時間平滑化された値を得るために、時間にわたって第1特徴値を平滑化するステップを更に含むことができる。従って、決定するステップは時間平滑化された第1特徴値に基づくことができる。
これにより、トグル(切り替え)が可聴アーチファクトを招き得る場合に、使用する量子化モードを決定することについての不要なトグルを回避することができる。それに応じて、オーディオ出力の知覚品質を更に向上させることが可能である。
実施形態において、決定するステップは、第1特徴値を、第1特徴値についての所定の閾値と比較するステップを含んでもよい。実質的に一定の信号対雑音比を周波数にわたって適用する(例えば、強制する)量子化モードは、比較結果に応じて条件付きで選択されてもよい。例えば、実質的に一定の信号対雑音比を周波数にわたって適用する(例えば、強制する)量子化モードは、第1特徴値が第1特徴値についての所定の閾値を上回る場合に(例えば、その場合に限って)選択されてもよい。
理解されているように、所定の閾値を上回る知覚エントロピーは、オーディオ信号中の密集性の過渡事象を示すことができる。従って、第1特徴値と閾値との比較は、オーティオ信号の一部分が、コンスタントSNR量子化モードを利用して量子化することに適しているか否かについての簡易且つ確実な判断を提示する。
実施形態において、決定するステップは、第1特徴値の時間変動に(更に)基づいてもよい。例えば、決定するステップは、経時的な標準偏差、平均値からの経時的な最大変位などの時間変動に基づいてもよい。例えば、決定するステップは、第1特徴値の経時的な変動と、変動についての所定の閾値とを比較するステップを含んでもよい。実質的に一定な信号対雑音比を周波数にわたって適用(例えば、強制)する量子化モードは、比較結果に従って条件付きで選択されてもよい。例えば、実質的に一定な信号対雑音比を周波数にわたって適用(例えば、強制)する量子化モードは、第1特徴値の変動が、変動についての所定の閾値未満である場合に(例えば、その場合に限って)選択されてもよい。所定の実装において、実質的に一定な信号対雑音比を周波数にわたって適用(例えば、強制)する量子化モードは、第1特徴値の比較と第1特徴値の経時的な変動の比較との結果に応じて条件付きで選択されてもよい。例えば、実質的に一定な信号対雑音比を周波数にわたって適用(例えば、強制)する量子化モードは、第1特徴値がそれぞれの閾値を上回っていること、及び第1特徴の経時的な変動がそれぞれの閾値を下回っていることの双方の場合に(例えば、その場合に限って)選択されてもよい。
理解されているように、平均より高いが時間変動が比較的少ない知覚エントロピーは、オーディオ信号中に密集性の過渡事象を示しているかもしれない。従って、第1特徴値の経時的な変動と閾値との比較は、オーディオ信号の一部分がコンスタントSNR量子化モードを用いて量子化することに適しているか否かの簡易且つ確実な判断を提示する。第1特徴値に関する双方の判断基準を組み合わせることは、コンスタントSNR量子化モードが適用されることとなるか否かについての更に確実な判断をもたらし得る。
実施形態において、第1特徴は知覚エントロピーに比例することができる。代替的に、第1特徴は知覚エントロピーの因子(成分)に比例することができる。第1特徴値は周波数ドメイン(例えば、MDCTドメイン)で取得されてもよい。
最先端のコーデックは何らかの方法で知覚エントロピーを計算するので、知覚エントロピーを第1特徴として参照することは、計算結果を再利用することを許容し、それにより、コンスタントSNR量子化モードが適用されることとなるか否かについての提案される判断に関し、複雑さ及びメモリ・フットプリントの著しい増大を回避することを許容する。
実施形態において、本方法は、オーディオ信号の一部分の周波数ドメイン(例えば、MDCTドメイン)における(スペクトルの)疎性の尺度(a measure of (spectral)sparsity)に関する第2特徴値を取得するステップを更に含むことができる。疎性の尺度は、フォーム・ファクタにより与えられてもよいし、又はそれに関連していてもよい。例えば、疎性の尺度は、フォーム・ファクタ又は知覚的に重み付けされたフォーム・ファクタに比例してもよい。決定するステップは、第2特徴値に(更に)基づいていてもよい。
疎性の尺度もまた参照することは、コンスタントSNR量子化モードを適用することが有利である場合と、そうではない場合とのよりいっそう改善された区別を許容する。
実施形態において、本方法は、第2特徴の時間平滑化された値を得るために、時間にわたって第2特徴値を平滑化するステップを更に含むことができる。決定するステップは時間平滑化された第2特徴値に基づくことができる。
これにより、トグル(切り替え)が可聴アーチファクトを招き得る場合に、使用する量子化モードを決定することについての不要なトグルを回避することができる。それに応じて、オーディオ出力の知覚品質を更に向上させることが可能である。
実施形態において、決定するステップは、第2特徴値を、第2特徴値についての所定の閾値と比較するステップを含んでもよい。実質的に一定の信号対雑音比を周波数にわたって適用する(例えば、強制する)量子化モードは、比較結果に応じて条件付きで選択されてもよい。例えば、実質的に一定の信号対雑音比を周波数にわたって適用する(例えば、強制する)量子化モードは、第2特徴値が第2特徴値についての所定の閾値を上回る場合に(例えば、その場合に限って)選択されてもよい。特に、第2特徴値が上記の判断でその閾値を上回る(即ち、超える)か否かの条件を参照することは、第2特徴が、スペクトル密度を増やす場合にその値が増加するように決められることを仮定しており(例えば、フォーム・ファクタの場合はそのようなケースである);逆のケースでは(即ち、第2特徴がスペクトル密度を増やす場合にその値が減少するように決められる場合)、実質的に一定の信号対雑音比を周波数にわたって適用する(例えば、強制する)量子化モードは、第2特徴値が第2特徴値についての所定の閾値未満である場合に(例えば、その場合に限って)選択されるであろう。
理解されているように、所定の閾値を上回る疎性の尺度(フォーム・ファクタ、知覚的に重み付けされたフォーム・ファクタ、又はゼロに量子化されていない周波数係数(周波数ライン)の推定数)は、オーディオ信号中の密集性の過渡事象、更にはコンスタントSNR量子化モードを適用することが有利である場合を示すことができる。従って、第2特徴値の閾値との比較は、オーディオ信号の一部分がコンスタントSNR量子化モードを用いる量子化に適しているか否かの判断についての簡易且つ確実な確証を提示する。
開示の別の態様は、オーディオ信号の一部分における密集性の過渡事象(例えば、拍手、パチパチと音を立てる炎、雨、等々)を検出する方法に関連する。本方法は、オーディオ信号の一部分の知覚エントロピーに関連する第1特徴値を取得(決定、計算、又は演算)するステップを含むことができる。本方法は、オーディオ信号の一部分が第1特徴値に少なくとも部分的に基づいて密集性の過渡事象を含む傾向があるか否かを決定するステップを更に含むことができる。
これにより、オーディオ信号の一部分は、複雑さ及びメモリ・フットプリントを著しく増やすことなく、密集性の過渡事象の内容に関して分類されることが可能である。
実施形態において、本方法は、オーディオ信号の一部分に関するメタデータを生成するステップを更に含むことができる。メタデータは、オーディオ信号の一部分が密集性の過渡事象を含んでいそうであるか否かの指標であってもよい。
そのようなメタデータを提供することは、オーディオ信号についてのより効率的且つ改善された後処理を可能にする。
実施形態において、本方法は、第1特徴の時間平滑化された値を得るために、時間にわたって第1特徴値を平滑化するステップを更に含むことができる。従って、決定するステップは時間平滑化された第1特徴値に基づくことができる。
実施形態において、決定するステップは、第1特徴値を、第1特徴値についての所定の閾値と比較するステップを含んでもよい。従って、オーディオ信号の一部分が密集性の過渡事象を含んでいそうであるか否かが、比較結果に応じて判断されてもよい。例えば、第1特徴値が第1特徴値の所定の閾値を上回る場合に(例えば、その場合に限って)、オーディオ信号の一部分が密集性の過渡事象を含んでいそうであると判断されてもよい。
実施形態において、決定するステップは第1特徴値の経時的な変動に(更に)基づいてもよい。例えば、決定するステップは、経時的な標準偏差、平均値からの経時的な最大変位などの時間変動に基づいてもよい。例えば、決定するステップは、第1特徴値の経時的な変動と、変動についての所定の閾値とを比較するステップを含んでもよい。次いで、オーディオ信号の一部分が密集性の過渡事象を含んでいそうであるか否かが、比較結果に基づいて判断されてもよい。例えば、第1特徴値の変動が変動の所定の閾値未満である場合に(例えば、その場合に限って)、オーディオ信号の一部分は密集性の過渡事象を含んでいそうであると判断されてもよい。所定の実装において、第1特徴値に対する比較と、第1特徴値の経時的な変動に関する比較との結果に従って、オーディオ信号の一部分が密集性の過渡事象を含んでいそうであるか否かが判断されてもよい。例えば、第1特徴値が夫々の閾値を上回っていること、及び第1特徴の経時的な変動が夫々の閾値を下回っていることの双方の場合に(例えば、その場合に限って)、オーディオ信号の一部分は密集性の過渡事象を含んでいそうであると判断されてもよい。
実施形態において、第1特徴は知覚エントロピーであってもよい。代替的に、第1特徴は知覚エントロピーのファクタ(コンポーネント)であってもよい。第1特徴値は周波数ドメイン(例えば、MDCTドメイン)で取得されてもよい。
実施形態において、本方法は、オーディオ信号の一部分の周波数ドメイン(例えば、MDCTドメイン)における(スペクトルの)疎性の尺度に関する第2特徴値を取得するステップを更に含むことができる。疎性の尺度は、フォーム・ファクタにより与えられてもよいし、又はそれに関連していてもよい。例えば、疎性の尺度は、フォーム・ファクタ又は知覚的に重み付けされたフォーム・ファクタに比例してもよい。決定するステップは、第2特徴値に(更に)基づいていてもよい。
実施形態において、本方法は、第2特徴の時間平滑化された値を得るために、時間にわたって第2特徴値を平滑化するステップを更に含むことができる。決定するステップは時間平滑化された第2特徴値に基づくことができる。
実施形態において、決定するステップは、第2特徴値を、第2特徴値についての所定の閾値と比較するステップを含むことができる。次いで、比較結果に従って、オーディオ信号の一部分は密集性の過渡事象を含んでいそうであるか否かが判断されてもよい。例えば、第2特徴値が第2特徴値についての所定の閾値を上回る場合に(例えば、その場合に限って)、オーディオ信号の一部分は密集性の過渡事象を含んでいそうであると判断されてもよい。特に、上記の判断で第2特徴値がその閾値を上回る(即ち、超える)か否かの条件を参照することは、第2特徴が、スペクトル密度の増大とともにその値が増加するように決められていることを仮定しており(例えば、フォーム・ファクタの場合はそのケースである);逆のケースでは(即ち、第2特徴が、スペクトル密度の増大とともにその値が減少するように決められている場合)、第2特徴値が第2特徴値の所定の閾値未満である場合に(例えば、その場合に限って)、オーディオ信号の一部分は密集性の過渡事象を含んでいそうであると決定されるであろう。
本開示の別の態様は、オーディオ信号の一部分をエンコードする方法に関連する。本方法は、オーディオ信号の一部分が密集性の過渡事象(例えば、拍手、パチパチと音を立てる炎、雨、等々)を含んでいそうであるか否かを決定するステップを含むことができる。本方法は、オーディオ信号の一部分が密集性の過渡事象を含んでいそうであると判断される場合に(例えば、その場合に限って)、(実質的に)一定の信号対雑音比を、オーディオ信号の一部分の周波数にわたって(例えば、周波数バンドにわたって)適用する(例えば、強制する)量子化モードを使用して、オーディオ信号の一部分を量子化するステップを更に含むことができる。
このコンスタントSNR量子化モードを使用することにより、密集性の過渡事象を含むオーディオ信号は、デコードされた出力音声の改善された知覚される音声品質を達成する方法でエンコードされることが可能である。一方、コンスタントSNR量子化モードを、密集性の過渡事象を含むと判断されるオーディオ信号の部分に(即ち、密集性の過渡事象が検出されている部分に)条件付きで適用することは、他のクラスのオーディオ信号(例えば、音楽及び/又はスピーチ等)の劣化を回避することを許容する。
実施形態において、本方法は、オーディオ信号の一部分の知覚エントロピーに関する第1特徴値を取得(例えば、決定、計算、又は演算)するステップを更に含むことができる。次いで、決定するステップは(取得した)第1特徴値に少なくとも部分的に基づくことができる。
実施形態において、本方法は、第1特徴の時間平滑化された値を得るために、時間にわたって第1特徴値を平滑化するステップを更に含むことができる。従って、決定するステップは時間平滑化された第1特徴値に基づくことができる。
実施形態において、決定するステップは、第1特徴値を、第1特徴値についての所定の閾値と比較するステップを含んでもよい。次いで、比較結果に従って、オーディオ信号の一部分は密集性の過渡事象を含んでいそうであるか否かが判断されてもよい。例えば、第1特徴値が第1特徴値の所定の閾値を上回る場合に(例えば、その場合に限って)、オーディオ信号の一部分は密集性の過渡事象を含んでいそうであると判断されてもよい。
実施形態において、決定するステップは第1特徴値の経時的な変動に(更に)基づいていてもよい。例えば、決定するステップは、経時的な標準偏差、平均値からの経時的な最大変位などの時間変動に基づいていてもよい。例えば、決定するステップは、第1特徴値の経時的な変動を、変動についての所定の閾値と比較するステップを含むことができる。次いで、比較結果に従って、オーディオ信号の一部分は密集性の過渡事象を含んでいそうであるか否かが判断されてもよい。例えば、第1特徴値の経時的な変動が変動についての所定の閾値を下回る場合に(例えば、その場合に限って)、オーディオ信号の一部分は密集性の過渡事象を含んでいそうであると判断されてもよい。所定の実装において、第1特徴値に対する比較、及び第1特徴値の経時的な変動に対する比較の結果に従って、オーディオ信号の一部分が密集性の過渡事象を含んでいそうであるか否かが判断されてもよい。例えば、第1特徴値が夫々の閾値を上回っていること、及び第1特徴の経時的な変動が夫々の閾値を下回っていることの双方の場合に(例えば、その場合に限って)、オーディオ信号の一部分は密集性の過渡事象を含んでいそうであると判断されてもよい。
実施形態において、第1特徴は知覚エントロピーに比例することができる。代替的に、第1特徴は知覚エントロピーのファクター(コンポーネント)に比例することができる。第1特徴値は周波数ドメイン(例えば、MDCTドメイン)で取得されてもよい。
実施形態において、本方法は、オーディオ信号の一部分の周波数ドメイン(例えば、MDCTドメイン)における(スペクトルの)疎性の尺度に関する第2特徴値を取得するステップを更に含むことができる。疎性の尺度はフォーム・ファクタにより与えられてもよいし又はそれに関連してもよい。例えば、疎性の尺度はフォーム・ファクタ又は知覚的に重み付けされたフォーム・ファクタに比例してもよい。決定するステップは第2特徴値に(更に)基づいていてもよい。
実施形態において、本方法は、第2特徴の時間平滑化された値を得るために、時間にわたって第2特徴値を平滑化するステップを更に含むことができる。従って、決定するステップは時間平滑化された第2特徴値に基づくことができる。
実施形態において、決定するステップは、第2特徴値を、第2特徴値についての所定の閾値と比較するステップを含むことができる。次いで、比較結果に従って、オーディオ信号の一部分は密集性の過渡事象を含んでいそうであるか否かが判断されてもよい。例えば、第2特徴値が第2特徴値についての所定の閾値を上回る場合に(例えば、その場合に限って)、オーディオ信号の一部分は密集性の過渡事象を含んでいそうであると判断されてもよい。特に、上記の判断で第2特徴値がその閾値を上回る(即ち、超える)か否かの条件を参照することは、第2特徴が、スペクトル密度の増大とともにその値が増加するように決められていることを仮定しており(例えば、フォーム・ファクタの場合はそのケースである);逆のケースでは(即ち、第2特徴が、スペクトル密度の増大とともにその値が減少するように決められている場合)、第2特徴値が第2特徴値の所定の閾値を下回る場合に(例えば、その場合に限って)、オーディオ信号の一部分は密集性の過渡事象を含んでいそうであると決定されるであろう。
別の態様は装置(例えば、オーディオ信号の一部分をエンコードするエンコーダ)に関連する。装置(例えば、エンコーダ)はプロセッサを含むことができる。装置は、プロセッサに結合され、プロセッサによる実行のための命令を格納するメモリを更に含むことができる。プロセッサは上記の態様及び実施形態のうちの任意の何れかの方法を実行するように構成されることが可能である。
別の態様はソフトウェア・プログラムに関連する。ソフトウェア・プログラムは、プロセッサにおける実行に適合させられており、コンピュータ・デバイスでの実行に備えて、本開示で説明される方法ステップを実行するように適合されていてもよい。
別の態様は記憶媒体に関連する。記憶媒体は、プロセッサでの実行に備えて、コンピュータ・デバイスで実行される場合に、本開示で説明される方法ステップを実行するように適合されていてもよい。
更に別の態様はコンピュータ・プログラム・プロダクトに関連する。コンピュータ・プログラムは、コンピュータで実行される場合に、本開示で説明される方法ステップを実行するための実行可能命令を含んでいてもよい。
本開示で説明されるような好ましい実施形態を含む方法及び装置は、スタンド・アローンで、又は本開示で開示される他の方法及びシステムとの組み合わせで使用されてもよいことに留意すべきである。更に、本開示で説明される方法及び装置の総ての態様は任意に組み合わせられることが可能である。特に、請求項の特徴は任意の方法で互いに組み合わせられることが可能である。
以下、本開示の例示的な実施形態が添付図面に関連して説明される:
本開示の実施形態が適用され得るエンコーダを概略的に示すブロック図である。 図1のエンコーダに対応するデコーダを概略的に示すブロック図である。 オーディオ信号の一部分をエンコードする本開示の実施形態による方法例を示すフローチャートである。 図3の方法の変形例を示すフローチャートである。 オーディオ信号の一部分における密集性の過渡事象を検出する本開示の実施形態による方法例を示すフローチャートである。 図5の方法の変形例を示すフローチャートである。 オーディオ信号の一部分をエンコードする本開示の実施形態による別の方法例を示すフローチャートである。 本開示の実施形態による方法の実現性を示すヒストグラムである。 本開示の実施形態による方法の実現性を示すヒストグラムである。 本開示の実施形態による方法の実現性を示すヒストグラムである。 本開示の実施形態による方法の実現性を示すヒストグラムである。 本開示の実施形態による方法の実現性を示すグラフである。 本開示の実施形態による方法の実現性を示すグラフである。 本開示の実施形態による方法の実現性を示すグラフである。 本開示の実施形態による方法の実現性を示すグラフである。
本開示は上記の問題に対処するための2つの方式(方法)を述べる。密集性の過渡事象を検出すること、及び密集性の過渡事象を含むオーディオ信号の一部分をエンコードすることにそれぞれ関連するこれらの方式は、個々に又は互いに関連して使用されることが可能である。
広義に言えば、本開示は、(拍手、パチパチと音を立てる炎、雨、等々の)密集性の過渡事象のオーディオ信号のオーディオ品質を、他のクラスのオーディオ信号のオーディオ品質に不都合に影響することなく改善することに関連している。本開示は、このゴールを達成することを、エンコーダ側での少ない複雑さで、無視できるメモリ・フットプリント及び遅延とともに更に追求する。この目的のため、本開示は、音声信号(の一部分)における密集性の過渡事象を検出する方法を、知覚オーディオ・エンコーダで既に算出されている特徴を利用しながら説明する。本開示は、特殊な一定の信号対雑音比の量子化ノイズ・シェーピング・モードを利用して、密集性・過渡事象オーディオ信号を量子化し、これらの密集性の過渡的なオーディオ信号のオーディオ品質を改善する方法を更に説明する。他のクラスのオーディオ信号の劣化を回避するために、本開示は、オーディオ信号中の密集性の過渡事象の検出結果に従って、この特殊な一定の信号対雑音比の量子化ノイズ・シェーピング・モードを条件付きで適用することを更に提案する。本開示はAC−4オーディオ・コーデックに特に、ただし排他的にではなく、適用可能である。
本開示を通じて、オーディオ信号の一部分は、オーディオ信号のうちの所定の長さ部分(例えば、時間ドメインにおけるもの、又は周波数ドメインにおけるもの)を意味するものとする。一部分は、所定数のサンプル(例えば、パルス符号変調(PCM)サンプル)、所定数のフレームに関連してもよいし、所定長の時間に広がるように(例えば、所定数のmsに広がるように)定められてもよいし、所定数の周波数係数(例えば、MDCT係数)に関連してもよい。例えば、オーディオ信号の一部分は、オーディオ信号のフレーム、又はオーディオ信号のサブ・フレームを示してもよい。更に、オーディオ信号は1つより多いチャネル(例えば、ステレオ構成における2チャネル、又は5.1チャネル、7.1チャネル等)を含んでもよい。この場合において、オーディオ信号の一部分は、上述したように、オーディオ信号のチャネルの所与のものにおける、オーディオ信号のうちの所定長のセクションを意味するものとする。特に、本開示はマルチ・チャネル・オーディオ信号のうちの任意の又は各々のチャネルに適用可能である。複数のチャネルは並列的又は逐次的に処理されることが可能である。更に、本開示は一連の複数の部分に適用されてもよいし、それぞれの部分は、提案される方法及び装置により逐次的に処理されてもよい。
更に、本開示を通じて、密集性の過渡事象は、(例えば、瞬間的な)ノイズ・バーストとして持続する一連の個々の短い(測定可能な)複数のイベント(例えば、拍手の手を叩く音、炎がパチパチと音を立てること、雨の跳ね返る音、等々)を意味するものとする。本開示の意味に属する密集性の過渡的な信号(密集性の過渡事象の信号)(及びその信号に関して、密集性の過渡事象のための提案ディテクタはターンONされるであろう)は、毎秒20ないし60回の測定可能な過渡的なイベントを含み、例えば、毎秒30ないし50回、典型的には40回の測定可能なイベントを含むものとする。密集性の過渡事象における以後の過渡的なイベントの間の時間インターバルは変動し得る。密集性の過渡事象は、(音楽などの)トーナルな(tonal)オーディオ信号、スピーチ(例えば、カスタネット)、及び疎らな(sparse)過渡事象とは異なる。更に、密集性の過渡事象はノイズが多く(即ち、強い安定的で周期的な成分を有しない)且つ粗いものであり得る(即ち、20−60Hzのレンジで変調される振幅を有する)。密集性の過渡事象はまた、サウンド・テクスチャ(sound textures)と言及されてもよい。密集性の過渡事象の具体例は、拍手、パチパチと音を立てる炎、雨、流水、泡、及び機械、等々を含む。
図1は開示の実施形態が適用され得るエンコーダ100(例えば、AC−4エンコーダ)のブロック図である。図2は対応するデコーダ200(例えば、AC−4デコーダ)のブロック図である。
エンコーダ100は、フィルタバンク分析ブロック110と、パラメトリック・コーディング・ブロック120と、フィルタバンク合成ブロック130と、時間−周波数変換ブロック140と、量子化ブロック150と、コーディング・ブロック160と、心理音響モデリング・ブロック170と、ビット割当ブロック190とを有する。パラメトリック・コーディング・ブロック120は、(不図示の)パラメトリック帯域幅拡張コーディング・ツール(A−SPX)と、パラメトリック・マルチ・チャネル・コーディング・ツールと、時間ノイズ・シェーピングのためのコンパンディング・ツールとを有することができる。時間−周波数変換ブロック140と、量子化ブロック150と、心理音響モデリング・ブロック170と、ビット割当ブロック190とは、エンコーダ100のオーディオ・スペクトル・フロントエンド(ASF)を形成すると言ってもよい。本開示はエンコーダ100のASFの実装(修正)に関連すると言ってもよい。特に、本開示は、密集性の過渡事象を検出するためにASFに配置される追加的なディテクタによりガイドされる異なるノイズ・シェーピングを実行するために、(例えば、AC−4の)AFCにおける心理音響モデルを修正することに関連すると言ってもよい。しかしながら、本開示はそのように限定されず、他のエンコーダに同様に適用されてもよい。
エンコーダ100は入力として入力オーディオ信号10(例えば、PCMサンプル等のオーディオ信号のサンプル、等々)を受信する。入力オーディオ信号10は1つ以上のチャネルを有することができ、例えば一対のチャネルを有するステレオ信号、又は5.1チャネル信号であってもよい。しかしながら、本開示は何らかの特定のチャネル数に限定されないものとする。入力オーディオ信号10(例えば、オーディオ信号のサンプル)は、オーディオ信号のフィルタバンク表現を得るために、フィルタバンク分析ブロック110におけるフィルタバンク分析(例えば、QMF分析)の影響を受ける。意図的な限定なしに、本開示の残りの部分において、QMFフィルタバンクが参照されるであろう。次いで、帯域幅拡張及び/又はチャネル拡張を含み得るパラメトリック・コーディングが、パラメトリック・コーディング・ブロック120で実行される。フィルタバンク合成ブロック130におけるフィルタバンク合成(例えば、QMF合成)の後に、オーディオ信号は、時間−周波数分析(例えば、MDCT分析)が実行される時間−周波数変換ブロック140に提供される。意図的な限定なしに、本開示の残りの部分において、時間−周波数変換の具体例としてMDCTが参照されるであろう。MDCTは(MDCT係数などの)周波数係数のブロックのシーケンスを生成する。周波数係数の各ブロックはオーディオ信号のサンプルのブロックに対応する。オーディオ信号のサンプルの各ブロックにおけるサンプル数は、MDCTによって使用される変換長によって与えられる。
次いで、心理音響モデリング・ブロック170において心理音響モデルがMDCT係数に適用される。心理音響モデルは、MDCT係数を周波数バンド(例えば、スケールファクタ・バンド)にグループ化することができ、周波数バンド各々の帯域幅は、周波数バンドの中心周波数における人間の聴覚感度の感度に依存する可能性がある。心理音響モデリングの後に、マスキング閾値180(例えば、心理音響閾値)がMDCT係数に適用され、ビット割当ブロック190において、各周波数バンドのビット割り当てが決定される。周波数バンドに割り当てられるビット数は、量子化ステップ・サイズ(例えば、スケールファクタ)に変換され得る。次いで、各周波数バンドにおける(マスクされた)MDCT係数は、各々の周波数バンドに対して決定されたビット割り当てに従って、量子化ブロック150で量子化され、即ちMDCT係数は心理音響モデルに従って量子化される。次いで、量子化されたMDCT係数はコーディング・ブロック160においてエンコードされる。最終的に、エンコーダ100はビットストリーム(例えば、AC−4ビットストリーム)20を出力し、ビットストリームは保存又はデコーダへの送信のために使用されることが可能である。特に、各ブロックにおける上記のオペレーションは、オーディオ信号の各チャネルについて実行され得る。
対応するデコーダ200(例えば、AC−4デコーダ)は、図2に示されており、インバース・コーディング・ブロック260と、インバース量子化ブロック250と、ステレオ及びマルチ・チャネル(MC)オーディオ処理ブロック245と、インバース時間−周波数変換ブロック240と、フィルタバンク分析ブロック230と、インバース・パラメトリック・コーディング・ブロック220と、フィルタバンク分析ブロック210とを有する。インバース・パラメトリック・コーディング・ブロック220は、コンパンディング・ブロック222と、A−SPXブロック224と、パラメトリック・マルチ・チャネル・コーディング・ブロック226とを有する。デコーダ200は、入力ビットストリーム(例えば、AC−4ビットストリーム)20を受信し、1つ以上のチャネルに対する出力信号(例えば、PCMサンプル)を出力する。デコーダ200のブロックは、エンコーダ100のブロックの夫々のオペレーションを逆にしている。
特に、以下に説明される何れの方法も、時間−周波数変換をオーディオ信号の一部分に適用することを含むことができる。AC−4オーディオ・コーデックの例では、MDCTがオーディオ信号(の一部分)に適用される。時間−周波数変換(例えば、MDCT)は、(予め)選択された変換長に従ってオーディオ信号(の一部分)(のサンプル)に適用されることが可能である(例えば、変換長によって決定される分析ウィンドウを利用する;MDCTのケースの場合、分析ウィンドウは、以前の、現在の、及び次のMDCTの変換長によって決定される)。出力として、これは周波数係数(例えば、MDCT係数)のブロックのシーケンスを生成する。シーケンス中の周波数係数の各ブロックはサンプルの各ブロックに対応し、サンプルの各ブロックのサンプル数は変換長によって与えられる。更に、周波数係数のブロックのシーケンスに対応するサンプルのブロックは、関連するオーディオ・コーデックに依存してフレーム又はハーフ・フレームに対応する可能性がある。更に、以下で説明される何れの方法においても、周波数バンドについて(例えば、所謂スケールファクタ・バンドについて、周波数サブ・バンドのグループ、例えばMDCTラインのグループ)、心理音響モデルが計算され得る。心理音響モデルによれば、周波数バンド(例えば、スケールファクタ・バンド)の総ての周波数係数(例えば、MDCT係数)は、同じスケールファクタで量子化されてもよく、スケールファクタは量子化器のステップ・サイズ(量子化ステップ・サイズ)を決定する。実際の量子化の前に、マスキング閾値が周波数バンドに適用され、所与の周波数バンドにおける周波数係数がどのように量子化されることとなるかを決定することができる。例えば、マスキング閾値は、おそらくは他の要因とともに、量子化のための量子化ステップ・サイズを決定することができる。以下に説明される方法のうちの少なくとも一部は、量子化のための量子化パラメータ(例えば、マスキング閾値及びスケールファクタ)を選択又は修正することに関連する。所定の条件が充足される場合、特定のノイズ・シェーピング方式が適用されるように(例えば、周波数にわたって一定のSNRが強制されるように)、量子化パラメータが選択又は修正される。
図3はオーディオ信号の一部分(例えば、フレーム)をエンコードする本開示の実施形態による方法例300を示すフローチャートである。この方法は、例えば拍手、パチパチと音を立てる炎、雨などの密集性の過渡事象を含むオーディオ信号の一部分をエンコードするために有利に適用されることが可能である。
ステップS310において、オーディオ信号の一部分の知覚エントロピーに関する第1特徴値が取得される。例えば、第1特徴値は、おそらくはオーディオ信号の一部分についての分析の後に決定、計算、又は演算されることが可能である。第1特徴値は周波数ドメイン(例えば、MDCTドメイン)で取得されてもよい。例えば、オーディオ信号の一部分は周波数ドメイン(例えば、MDCTドメイン)で分析されてもよい。代替的に、第1特徴値はまた時間ドメインで取得されてもよい。例えば、スピーチ・コーデックは典型的には線形予測に基づく時間ドメイン・コーデックである。線形予測フィルタ係数モデル信号スペクトル及びスピーチ・コーデックのマスキング・モデルは線形予測係数から導出され、その結果、知覚エントロピーに関連する特徴は時間ドメイン・コーデックにおいても導出されることが可能である。
知覚エントロピーの尺度を決定するアプローチは、James D.Johnston,Estimation of perceptual entropy using noise masking criteria,ICASSP,1988で説明されており、これは全体的に本願で援用される。ここで説明される任意のアプローチが目下の目的に使用され得る。しかしながら、本開示はこれらのアプローチに限定されないものとし、他のアプローチもまた実現可能である。
第1特徴はオーディオ信号の所与の部分の知覚エントロピーによって与えられてもよいし、又はそれに比例してもよい。
一般に、知覚エントロピーは、所与のオーディオ信号(の一部分)に含まれる知覚的に関連する情報量の尺度である。これは所与のオーディオ信号の圧縮性に関する理論的な限界を示す(ただし、オーディオ品質における知覚可能な損失は回避されるものと仮定する)。以下で詳述されるように、知覚エントロピーは、オーディオ信号の一部分のMDCT表現における各々の周波数バンドに関して決定されることが可能であり、一般に、所与の周波数バンド(例えば、スケールファクタ・バンド)に関し、所与の周波数バンドのエネルギ・スペクトル(エネルギ)と所与の周波数バンドに関する適用可能な心理音響モデルにおける心理音響閾値との間の比率に依存すると言うことができる。
より詳細には、第1特徴値は、例えば3GPP TS26.403(V1.0.0),セクション5.6.1.1.3で説明されている方法で心理音響モデルにより計算されることが可能であり、このセクションは全体的に本願に援用される。この心理音響モデルでは、知覚エントロピーは次のようにして決定される。
先ず、知覚エントロピーは次式により(周波数バンドの具体例として)各スケールファクタ・バンドについて決定される:
Figure 2020525853
ここで、c1=log(8),c2=log(2.5),c3=1−c2/c1である。n番目のスケールファクタ・バンドに対するエネルギ・スペクトル(又はエネルギ)enは、次式で与えられる:
Figure 2020525853
ここで、nは各々のスケールファクタ・バンドのインデックスを示し、X(k)はインデックスkに対する周波数係数(例えば、MDCTライン)の値であり、kOffset(n)はn番目のスケールファクタの最低周波数(即ち、第1)MDCTラインのインデックスである。数nlは、量子化後にゼロにならないスケールファクタ・バンド内のライン数の推定を示す。この数は次式によりフォーム・ファクタffac(n)から導出されることが可能である。
Figure 2020525853
フォーム・ファクタffac(n)は次のように定義される:
Figure 2020525853
上記において、thr(n)は、n番目のスケールファクタ・バンドに対する心理音響閾値を示す。心理音響閾値thr(n)を決定する1つの方法は文献3GPP TS26.403(V1.0.0)のセクション5.4.2に記載されており、このセクションは全体的に本願に援用される。
オーディオ信号の所与の部分(例えば、フレーム)の全体の知覚エントロピーは、スケールファクタ・バンド知覚エントロピーの合計である:
Figure 2020525853
ここで、peOffsetは、オーディオ信号の一部分(例えば、フレーム)をエンコードするために必要なビット数と知覚エントロピーとの間でより線形な関係を達成するように追加されることが可能な(幾つかの実装ではゼロになり得る)一定値である。
知覚エントロピーについての上記の表現は幾つかのコンポーネント(例えば、項および/または因子)に分割されることが可能であることが理解される。第1特徴値を取得する知覚エントロピーの完全な表現の代わりに、これらのコンポーネントのうちの何れか、幾つか、又は総ての組み合わせが使用されてもよいことが考えられる。
一般に、本開示の文脈で所与の周波数バンド(例えば、スケールファクタ・バンド)の知覚エントロピーは、所与の周波数バンドのエネルギ・スペクトル(エネルギ)enと所与の周波数バンドに対する心理音響閾値thrとの間の比率に依存すると言うことができる。従って、第1特徴は、所与の周波数バンドのエネルギ・スペクトル(エネルギ)enと所与の周波数バンドに対する心理音響閾値thrとの間の比率に依存すると言うことができる。
ステップS320において、オーディオ信号の一部分を量子化する量子化モードが、第1特徴値に基づいて選択される。一般に、量子化モードは第1特徴に基づいて選択されると言うことができる。これは、第1特徴値に少なくとも部分的に基づいて、実質的に一定の信号対雑音比を周波数にわたって(例えば、総ての周波数バンドについて)適用する(例えば、強制する)量子化モードが、オーディオ信号の一部分について(例えば、オーディオ信号の一部分を表す周波数ドメインの、MDCT係数などの周波数係数について)使用されることとするか否かの決定を含むことができる。この量子化モードは、コンスタントSNRモード、コンスタントSNR量子化モード、又はコンスタントSNR量子化ノイズ・シェーピング・モードと言及されてもよい。コンスタントSNR量子化モードを適用することは、密集性過渡事象・改善(例えば、拍手の改善)、あるいは単に改善をオーディオ信号の一部分に適用することと言及されてもよい。意図的な限定なしに、この改善を適用することはまた、本開示の残りの部分で処置(fix)を適用することとして言及されてもよく、この用語は改善が時間的な性質のみであることを意味してはいない。
特に、コンスタントSNR量子化モードを適用することは、オーディオ信号をエンコードするためにはむしろ異常な選択肢である。理解されているように、コンスタントSNR量子化モードは、密集性の過渡事象の一部分を量子化することに適しており、そのようなオーディオ信号の心地良い聴覚的結果をもたらし得る。しかしながら、環境を考慮すると、コンスタントSNR量子化モードを適用することは、音楽やスピーチ等の他のオーディオ信号、あるいは密集性の過渡事象と音楽やスピーチとの結合を劣化させてしまうかもしれず、その場合、典型的には、最良の知覚品質のために、一定でないSNRを必要とする。この問題はステップS320における量子化モードの選択プロセスにより対処される。
ステップS320における量子化モードの選択は、量子化プロセスで異なるノイズ・シェーピングを適用(例えば、強制)するために、オーディオ信号を量子化するのに使用される心理音響モデルを修正すること(例えば、周波数係数、又はMDCT係数を修正すること)に対応すると言うことができる。
選択的に、このステップにおいて、取得された第1特徴値は、ステップ320における選択の不要な切り替え(トグル)を回避するために、時間にわたって平滑化されてもよい。特に、第1特徴値の時間平滑化されたバージョンを考慮することにより、選択のフレーム間スイッチングを回避することができる。この場合、選択(例えば、決定)は、時間平滑化された第1特徴値に少なくとも部分的に基づくであろう。
理解されているように、知覚エントロピーは、密集性の過渡事象(例えば、拍手、パチパチと音を立てる炎、雨、等々)を含むオーディオ信号の部分を、スピーチや音楽を含む部分から区別するのに適した特徴である。これは図8のヒストグラムに示されている。このヒストグラム、及び本開示で議論される残りのヒストグラムは正規化されており、その結果、バーの高さは足すと1になり、均等なビン幅が使用される。このヒストグラムでは、水平軸は知覚エントロピーの(時間平滑化された)尺度を示し、縦軸は知覚エントロピー尺度のビン当たりの(正規化された)アイテム・カウントを示す。このヒストグラム関し、及び本開示における知覚エントロピーに関する残りのヒストグラムに関し、(エンコードされた)AC−4フレーム当たりの推定される合計ビット数が、知覚エントロピーの尺度として使用される。しかしながら、本開示による方法は、そのような知覚エントロピーの尺度を考慮することに限定されず、知覚エントロピーの他の尺度もまた実現可能である。ヒストグラム中のビン・カウント810(濃い灰色)は、拍手のアイテム(特に、処置により改善される拍手のアイテム)としてマニュアルで分類されている一群のオーディオ・アイテムに関連する一方、ビン・カウント820(白色)は、拍手でないアイテム(例えば、スピーチ又は音楽)としてマニュアルで分類されている一群のオーディオ・アイテムに関連する。ヒストグラムから分かるように、知覚エントロピーは、非・拍手アイテムに対するよりも、拍手アイテムに対して一貫して高くなっており、その結果、知覚エントロピーはオーディオ・アイテムの2クラス間の適切な区別をもたらすことができる。
更に、知覚エントロピーはまた、密集性の過渡事象を含み且つ処置により改善されるオーディオ信号の部分と、密集性の過渡事象を含むが処置により改善しないかもしれないオーディオ信号の部分(例えば、密集性の過渡事象を含むが、スピーチ及び/又は音楽も含む部分)とを識別するのに適した特徴である。これは図9のヒストグラムに示されており、この図では水平軸が知覚エントロピーの(時間平滑化された)尺度を示し、縦軸は知覚エントロピー尺度のビン当たりの(正規化された)アイテム・カウントを示す。ヒストグラム中のビン・カウント910(濃い灰色)は処置により改善される拍手アイテムとしてマニュアルで分類されている一群のオーディオ・アイテムに関連する一方、ビン・カウント920(白色)は処置により改善されない拍手アイテムとしてマニュアルで分類されている一群のオーディオ・アイテムに関連する。ヒストグラムから分かるように、知覚エントロピーは、処置により改善されない拍手アイテムに対するよりも、処置により改善される拍手アイテムに対して一貫して高くなっており、その結果、知覚エントロピーはオーディオ・アイテムの2クラス間の適切な区別をもたらすことができる。換言すると、(時間平滑化された)知覚エントロピーはまた、密集性の過渡事象(拍手、パチパチと音を立てる炎、雨、等々)に関連するオーディオ・アイテムを細分類するために使用されることも可能である。
従って、実質的に一定の信号対雑音比を周波数にわたって適用(例えば、強制)する量子化モードがオーディオ信号の一部分に使用されることとするか否かの決定は、第1特徴値(又は、利用可能ならば時間平滑化された第1特徴値)を、第1特徴値に対する所定の閾値と比較することを含むことができる。この閾値は、例えば、オーディオ・アイテムの拍手アイテム(又は、処置により改善される拍手アイテム)及び非・拍手アイテムへの確実な分類を保証する値を有するように、マニュアルで決定されてもよい。実質的に一定の信号対雑音比を周波数にわたって適用(例えば、強制)する量子化モードは、この比較結果に従って(例えば、依存して)条件付きで選択されてもよい。例えば、実質的に一定の信号対雑音比を周波数にわたって適用(例えば、強制)する量子化モードは、第1特徴値(又は、時間平滑化された第1特徴値)が、第1特徴に対する所定の閾値を上回る場合に(例えば、その場合に限って)選択されてもよい。なお、意図的な限定なしに、密集性の過渡事象を含むオーディオ・アイテムの具体例として、拍手が参照されているが、本開示はこの参照によって如何なる方法によっても限定されるように解釈されないものとする。
代替的又は追加的に、決定は第1特徴値の経時的な変動に基づいていてもよい(特に、経時的な変動は、第1特徴値の平滑化されていないバージョンから決定されるであろう)。この経時的な変動は、例えば、経時的な標準偏差、又は経時的な平均値からの最大変位であってもよい。一般に、時間変動は、第1特徴値の時間変動、又は時間的な尖度を示してもよい。
理解されているように、知覚エントロピーの時間変動もまた、密集性の過渡事象(例えば、拍手、パチパチと音を立てる炎、雨、等々)を含むオーディオ信号の部分を、スピーチ及び/又は音楽を含む部分から区別するのに適している。これは図12A、12B、及び図13A、図13Bのグラフに示されている。
図12Aは(密集性の過渡事象のオーディオ信号の具体例として)拍手オーディオ信号の様々なチャネルに対するブロード・バンド・エネルギ(dB)を時間の関数として示し、図12Bは拍手オーディオ信号の様々なチャネルに対する知覚エントロピーを時間の関数として示し、図13Aは音楽オーディオ信号の様々なチャネルに対するブロード・バンド・エネルギ(dB)を時間の関数として示し、図13Bは音楽オーディオ信号の様々なチャネルに対する知覚エントロピーを時間の関数として示す。これらのグラフから分かるように、密集性の過渡事象の信号(例えば、拍手信号)は、高い平均知覚エントロピーにおいて、知覚エントロピーの一貫して非常に低い標準偏差(時間に関して)を有する一方、非・密集性の過渡事象の信号は、知覚エントロピーの高いバーストを有し得るが、より低い平均知覚エントロピーにおけるものである。従って、知覚エントロピーの時間変動又は時間劣度を示す知覚エントロピーから導出される如何なる特徴もまた、密集性の過渡事象を検出し且つ例えば密集性の過渡事象を音楽及び/又はスピーチから区別するために使用されることが可能である。
従って、実質的に一定の信号対雑音比を周波数にわたって適用(例えば、強制)する量子化モードがオーディオ信号の一部分に使用されることとするか否かの判断は、第1特徴値の経時的な変動を、第1特徴値の経時的な変動に対する所定の閾値と比較することを含んでもよい。この閾値はまた、例えば第1特徴値に対する閾値に関して上述した基準に従ってマニュアルで決定されてもよい。次いで、実質的に一定の信号対雑音比を周波数にわたって適用(例えば、強制)する量子化モードを選択するか否かの決定は、この比較の結果に従って(例えば、それに応じて)行われてもよい。例えば、実質的に一定の信号対雑音比を周波数にわたって適用(例えば、強制)する量子化モードは、第1特徴値の経時的な変動が、第1特徴値の経時的な変動に対する所定の閾値を下回る場合に(例えば、その場合に限って)選択されてもよい。
上述したように、(時間平滑化された)第1特徴値、及び第1特徴値の経時的な変動のうちの双方又は一方が、コンスタントSNR量子化モードを使用するか否かを判断するために参照されてもよい。双方が参照される場合、実質的に一定の信号対雑音比を周波数にわたって適用(例えば、強制)する量子化モードを選択するか否かの判断は、それぞれの閾値に対する上記の比較双方の結果に従って(例えば、それらに応じて)行われてもよい。例えば、実質的に一定の信号対雑音比を周波数にわたって適用(例えば、強制)する量子化モードが、オーディオ信号の一部分に使用されることとなるのは、(時間平滑化される)第1特徴値が第1特徴値に対する所定の閾値を上回り、且つ第1特徴値の時間変動が第1特徴値の経時的な変動に対する所定の閾値を下回る場合に(例えば、その場合に限って)選択されてもよい。
一方、上記の判断基準が充足されない場合、実質的に一定のSNRを周波数にわたって適用しない(即ち、異なる周波数又は異なるバンドに異なるSNRを適用する)量子化モードが、この時点で選択され得る。換言すれば、コンスタントSNR量子化モードは、上記の判断基準が充足されるか否かに応じて条件付きで適用される。
ステップS330において、選択された量子化モードを利用してオーディオ信号の一部分が量子化される。より具体的には、オーディオ信号の一部分の周波数係数(例えば、MDCT係数)がこのステップで量子化されてもよい。量子化は心理音響モデルに従って実行されてもよい。更に、量子化はノイズ・シェーピング(即ち、量子化ノイズの整形)を含んでもよい。選択された量子化モードが、(実質的に)一定のSNRを周波数にわたって(例えば、周波数バンドにわたって)適用(例えば、強制)する量子化モードである場合、これは、実質的にSNRを周波数にわたって(例えば、スケールファクタ・バンド等の周波数バンドにわたって)達成するために、マスキング閾値及び/又は量子化ステップ・サイズ(例えば、スケールファクタ)等の適切な量子化パラメータを選択するステップ、又は量子化パラメータを適切に修正するステップを含むことができる。
特に、オーディオ信号(の一部分)の知覚エントロピーが、例えばAC−4等の最先端のオーディオ・エンコーダの通常の符号化動作の間に算出される。従って、量子化モードを選択する目的で知覚エントロピーを当てにすることは、符号化プロセスの複雑さ、遅延、及びメモリ・フットプリントを著しくは増大させない。
図4は図3の方法300の変形例400を示すフローチャートである。
変形例400におけるステップS410は図3の方法300のステップS310に対応し、このステップに関して為された任意の記述はここでも適用される。
ステップS415において、オーディオ信号の一部分についての周波数ドメインにおける疎性の尺度(例えば、スペクトルの希薄さ)に関する第2特徴値が取得される。例えば、第2特徴値は、おそらくはオーディオ信号の一部分の分析の後に決定、算出、又は計算されてもよい。第2特徴値は周波数ドメインで(例えば、MDCTドメインで)取得されてもよい。例えば、オーディオ信号の一部分は周波数ドメインで(例えば、MDCTドメインで)分析されてもよい。代替的に、第2特徴値はまた時間ドメインで取得されてもよい。幾つかの疎性尺度は、Niall P.Hurley and Scott T.Rickard,Comparing Measures of Sparsity,http://ieeexplore.ieee.org/xpl/RecentIssue.jsp?punumber=18,vol.55,issue 10,2009に記載されており、これは全体的に本願で援用される。そこに記載されている任意の疎性尺度が本願の目的に使用されてもよい。しかしながら、本開示はこれらの疎性尺度に限定されないものとし、他の疎性尺度もまた実現可能である。
疎性の尺度はフォーム・ファクタによって与えられてもよいし、又はそれに関連してもよい。即ち、第2特徴値はオーディオ信号の一部分に関する(周波数ドメインにおける)フォーム・ファクタによって与えられてもよいし、又はそれに関連してもよい。例えば、第2特徴値はフォーム・ファクタ又は知覚的に重み付けされたフォーム・ファクタに比例してもよい。知覚的に重み付けされたフォーム・ファクタは、ゼロに量子化されない(と予測される)(例えば、周波数バンド当たりの)幾つかの周波数係数の推定であると言うことができる。
一般に、フォーム・ファクタは、オーディオ信号の一部分を表す周波数ドメインの(例えば、各々の周波数バンドに対する)周波数係数の絶対値の平方根の総和に依存する。全体的なフォーム・ファクタは、総ての周波数バンドについてフォーム・ファクタを合計することによって取得されることが可能である。AC−4の知覚モデルの文脈でフォーム・ファクタを計算する仕方はステップS310の説明の文脈で上述されている。代替的に、知覚的に重み付けされたフォーム・ファクタが、疎性の尺度として(例えば、第2特徴として)使用されてもよい。知覚的に重み付けされたフォーム・ファクタの具体例は、S310の文脈で上述されている数nlにより与えられる。全体的な知覚的に重み付けされたフォーム・ファクタは、総ての周波数バンドについて、知覚的に重み付けされたフォーム・ファクタを合計することによって取得されてもよい。特に、本開示の残りの部分に関し、第2特徴は、オーディオ信号の(一部分の)スペクトル的により密集した表現に関してより高い値を有し、オーディオ信号の(一部分の)スペクトル的により疎らな表現に関してより低い値を有するように仮定される。
ステップS420において、オーディオ信号の一部分を量子化する量子化モードが、第1特徴値及び第2特徴値に(少なくとも部分的に)基づいて選択される。一般に、量子化モードは、第1特徴及び第2特徴に基づいて選択されると言うことができる。これは、第1特徴値及び第2特徴値に(少なくとも部分的に)基づいて、実質的に一定の信号対雑音比を周波数にわたって(例えば、総ての周波数バンドについて)適用する(例えば、強制する)量子化モードが、オーディオ信号の一部分について(例えば、オーディオ信号の一部分を表す周波数ドメインの、MDCT係数などの周波数係数について)使用されることとするか否かの決定を含むことができる。
ステップS420における量子化モードの選択は、量子化プロセスにおいて異なるノイズ・シェーピングを適用(例えば、強制)するために、オーディオ信号を量子化するために使用される心理音響モデルを修正すること(例えば、周波数係数、又はMDCT係数を修正すること)に対応すると言うことができる。
選択的に、このステップにおいて、取得された第2特徴値は、ステップ420における選択の不要な切り替え(トグル)を回避するために、時間にわたって平滑化されてもよい。特に、第2特徴値の時間平滑化されたバージョンを考慮することにより、選択のフレーム間スイッチングを回避することができる。この場合、選択(例えば、決定)は、(利用可能であれば、時間平滑化された)第1特徴値と時間平滑化された第2特徴値とに少なくとも部分的に基づくであろう。
第2特徴値をも考慮する理由は以下のとおりである。理解されているように、(時間平滑化された)知覚エントロピーだけでは、処置により改善される密集性の過渡事象のオーディオ・アイテム(例えば、拍手のアイテム等)と、(喝采を含む)スピーチ及び/又は音楽と一緒に密集性の過渡事象を含む(及び処置により改善されないかもしれない)オーディオ・アイテムとを区別するために、総ての状況下で十分ではないかもしれない。これは図10のヒストグラムに示されており、この図では、水平軸が知覚エントロピーの(時間平滑化された)尺度を示し、縦軸は知覚エントロピー尺度のビン当たりの(正規化された)アイテム・カウントを示す。ヒストグラム中のビン・カウント1010(濃い灰色)は処置により改善される拍手アイテムとしてマニュアルで分類されている一群のオーディオ・アイテムに関連する一方、ビン・カウント1120(白色)は(喝采を含む)スピーチ及び/又は音楽を含む拍手としてマニュアルで分類されている一群のオーディオ・アイテムに関連する。ヒストグラムから分かるように、オーディオ・アイテムのこれら2クラス間の区別は、状況によっては困難になり得る。
しかしながら、更に見受けられるように、周波数ドメインにおける疎性(スペクトル疎性)は、密集性の過渡事象(例えば、拍手、パチパチと音を立てる炎、雨、等々)を含み且つ処置により改善されるオーディオ信号の一部分を、(喝采を含む)スピーチ又は音楽と共にある密集性の過渡事象を含む部分(処置によって改善されないかもしれない部分)から区別するのに適した特徴である。これは図11のヒストグラムに示されており、この図では、水平軸が周波数ドメインにおける疎性の(時間平滑化された)尺度を示し、縦軸は周波数ドメインにおける疎性の尺度のビン当たりの(正規化された)アイテム・カウントを示す。このヒストグラムでは、ゼロに量子化されない周波数係数(例えば、MDCTライン)の推定数が、周波数ドメインにおける疎性の尺度として使用される。しかしながら、本開示による方法は、周波数ドメインにおけるそのような疎性尺度を考慮することに限定されず、周波数ドメインにおける他の疎性尺度もまた実現可能である。ヒストグラム中のビン・カウント1110(濃い灰色)は処置により改善される拍手アイテムとしてマニュアルで分類されている一群のオーディオ・アイテムに関連する一方、ビン・カウント1120(白色)は(喝采を含む)スピーチ及び/又は音楽を含む拍手としてマニュアルで分類されている一群のオーディオ・アイテムに関連する。ヒストグラムから分かるように、周波数ドメインにおける疎性の尺度は、(喝采を含む)スピーチ及び/又は音楽を含む拍手に関するアイテムに対するよりも、拍手のアイテムに対して一貫してより高くなっており、その結果、周波数ドメインにおける疎性は、オーディオ・アイテムの2クラス間の適切な区別をもたらすことができる。
従って、実質的に一定の信号対雑音比を周波数にわたって適用(例えば、強制)する量子化モードがオーディオ信号の一部分に使用されることとするか否かの決定は、第1特徴値に基づく決定に加えて(例えば、上記のステップS320参照)、 第2特徴値(又は、利用可能ならば時間平滑化された第2特徴値)を、第2特徴値に対する所定の閾値と比較することを含むことができる。この閾値は、例えば、オーディオ・アイテムを、処置により改善される拍手アイテムと、(喝采を含む)スピーチ及び/又は音楽を含む拍手に関連するアイテムとに確実に分類することを保証する値を有するように、マニュアルで決定されてもよい。実質的に一定の信号対雑音比を周波数にわたって適用(例えば、強制)する量子化モードは、比較結果に従って(例えば、依存して)条件付きで選択されてもよい。例えば、実質的に一定の信号対雑音比を周波数にわたって適用(例えば、強制)する量子化モードは、第2特徴値(又は、時間平滑化された第2特徴値)が、第2特徴に対する所定の閾値を上回る場合に(例えば、その場合に限って)選択されてもよい。なお、意図的な限定なしに、密集性の過渡事象を含むオーディオ・アイテムの具体例として、拍手が参照されているが、本開示はこの参照によって如何なる方法によっても限定されるように解釈されないものとする。
換言すれば、所定の実装において、実質的に一定の信号対雑音比を周波数にわたって適用(例えば、強制)する量子化モード選択するか否かの判断は、(時間平滑化された)第1特徴値と各自の閾値との比較の結果、及び/又は第1特徴値の時間変動と各自の閾値との比較の結果、及び(時間平滑化された)第2特徴値と各自の閾値との比較の結果に基づいていてもよい。例えば、(時間平滑化された)第1特徴値が第1特徴値の所定の閾値を上回り、及び/又は第1特徴値の時間変動が第1特徴値の時間変動に対する所定の閾値を下回り、及び(時間平滑化された)第2特徴値が第2特徴値の所定の閾値を上回る場合に(その場合に限って)、実質的に一定の信号対雑音比を周波数にわたって適用(例えば、強制)する量子化モードがオーディオ信号の一部分に使用されることとする、と決定されてもよい。
一方、上記の判断基準が充足されない場合、実質的に一定のSNRを周波数にわたって適用しない(即ち、異なる周波数又は周波数バンドに異なるSNRを適用する)量子化モードがこの時点で選択されてもよい。換言すれば、コンスタントSNR量子化モードは、上記の判断基準が満たされるか否かに応じて条件付きで適用される。
上記にもかかわらず、(例えば、方法300のステップS320で行われるように)ステップS420で第1特徴値だけを当てにすることは、密集性の過渡事象をエンコードする従来技術を上回る改善として全体的に知覚される聴覚的結果を依然としてもたらし得る。
変形例400のステップS430は、図3の方法300のステップS330に対応し、このステップに関して為された任意の記述はここでも適用される。
特に、オーディオ信号の(一部分の)フォーム・ファクタ及び知覚的に重み付けされたフォーム・ファクタはまた、例えばAC−4等の最先端のオーディオ・エンコーダの通常の符号化動作の間に算出される。従って、量子化モードを選択する目的で周波数ドメインで疎性尺度などのこれらの特徴を当てにすることは、符号化プロセスの複雑さ、遅延、及びメモリ・フットプリントを著しくは増大させない。
次に、図5を参照しながら、本開示の実施形態に従ってオーディオ信号の一部分における密集性の過渡事象(例えば、拍手、パチパチと音を立てる炎、雨、等々)を検出する(例えば、その部分が密集性の過渡事象を含んでいそうであるか否かに関し、オーディオ信号の一部分を分類する)方法500が説明される。ここで、その部分が密集性の過渡事象を含む確率が所定の確率閾値を超えることが判明した場合に(例えば、その場合に限って)、その部分は密集性の過渡事象を含んでいそうであると分類されることが理解される。
変形例500におけるステップS510は、図3の方法300のステップS310に対応し、このステップに関して為された任意の記述はここでも適用される。
ステップS520において、第1特徴値に少なくとも部分的に基づいて、オーティオ信号の一部分が密集性の過渡事象を含んでいそうであるか否かが判断される。このステップは、第1特徴値に少なくとも部分的に基づいて、実質的に一定の信号対雑音比を周波数に(例えば、総ての周波数バンドに)適用(例えば、強制)する量子化モードが図3の方法300のステップS320におけるオーティオ信号の一部分に使用されるものとするか否かを決定することに対応するが、この決定は、第1特徴値に少なくとも部分的に基づいて、オーディオ信号の一部分は密集性の過渡事象を含んでいそうであるか否かの決定で置換される。それ以外に関し、判断の詳細、特に判断基準は図3の方法300のステップS320におけるものと同じであり、このステップに関して為された任意の記述はここでも適用される。
ステップS510及びS520を実行する装置又はモジュールは、密集性の過渡事象を検出するディテクタとして言及されてもよい。
選択的なステップS530において、オーディオ信号の一部分に対するメタデータが生成される。メタデータは、オーディオ信号の一部分が密集性の過渡事象を含んでいそうであるか否かの(例えば、オーディオ信号の一部分が密集性の過渡事象を含んでいそうであるとステップS520で決定されたか否かの)指標であり得る。この目的のため、メタデータはオーディオ信号の一部分それぞれに対するバイナリ判定ビット(例えば、フラグ)を含んでもよく、そのビットは、オーディオ信号の一部分が密集性の過渡事象を含んでいそうである(と判断された)場合にセットされてもよい。
この種のメタデータを提供することは、密集性の過渡事象に関するより効率的な及び/又は改善された後処理を下流のデバイスが実行できるようにする。例えば、密集性の過渡事象に対する特定の後処理は、オーディオ信号の一部分が密集性の過渡事象を含んでいそうであることをメタデータが示している場合に(例えば、その場合に限って、あるいはその場合であってその場合に限り)、オーディオ信号の所与の部分について実行されてもよい。
しかしながら、ステップS520の判断(分類)の結果は、メタデータを生成することとは別に他の目的で使用されてもよく、本開示は判断(分類)の結果を示すメタデータを生成することに限定されるように解釈されないものとする。
図6は図5の方法500の変形例600を示すフローチャートである。
変形例600のステップS610は図5の方法500のステップS510に対応し(従って、図3の方法300のステップS310、及び図4の変形例400のステップS410に対応し)、このステップ(これらのステップ)に関して為された任意の記述はここでも適用される。
変形例600のステップS615は図4の変形例400のステップS415に対応し、このステップに関して為された任意の記述はここでも適用される。
ステップS620において、第1特徴値及び第2特徴値に(少なくとも部分的に)基づいて、オーディオ信号の一部分が密集性の過渡事象を含んでいそうであるか否かが判断される。このステップは、図4の変形例400のステップS420において、第1特徴値及び第2特徴値に少なくとも部分的に基づいて、実質的に一定の信号対雑音比を周波数にわたって(例えば、総ての周波数バンドにわたって)適用(例えば、強制)する量子化モードがオーディオ信号の一部分に使用されることとなるか否かの判断に対応するが、ただし、その判断は第1特徴値及び第2特徴値に(少なくとも部分的に)基づいて、オーディオ信号の一部分が密集性の過渡事象を含んでいそうであるか否かの判断に置換される。それ以外に関し、判断の詳細、特に判断基準は図4の方法400のステップS420におけるものと同じであり、このステップに関して為された任意の記述はここでも適用される。
変形例600のステップS630は図5のステップS530に対応し、このステップに関して為された任意の記述はここでも適用される。
次に、本開示の実施形態によるオーディオ信号の一部分(例えば、フレーム)をエンコードする別の方法例700が、図7のフローチャートに関連して説明される。この方法は、例えば拍手、パチパチと音を立てる炎、又は雨のような密集性の過渡事象を含むオーディオ信号の一部分をエンコードするために有利に適用され得る。
ステップS710において、オーディオ信号の一部分が密集性の過渡事象(例えば拍手、パチパチと音を立てる炎、雨、等々)を含んでいそうであるか否かが判断される。この判断は、図3の方法300のステップS320において、第1特徴値に少なくとも部分的に基づいて、実質的に一定の信号対雑音比を周波数にわたって適用する量子化モードがオーディオ信号の一部分に使用されることとなるか否かの判断、又は図4の変形例400のステップS420において、第1特徴値及び第2特徴値に少なくとも部分的に基づいて、実質的に一定の信号対雑音比を周波数にわたって適用する量子化モードがオーディオ信号の一部分に使用されることとなるか否かの判断と、同じ基準及び決定を含んでいてもよい。従って、このステップは、(図3の方法300のステップS310に関連して説明した方式で)第1特徴値を取得するステップ、及び/又は(図4の変形例400のステップS415に関連して説明した方式で)第2特徴値を取得するステップを含むことができる。しかしながら、本開示はこれらの判断に限定されず、オーディオ信号の一部分が密集性の過渡事象を含んでいそうであるか否かを判断する他のプロセスも実現可能である。
ステップS720において、オーディオ信号の一部分が密集性の過渡事象を含んでいそうであると判断された場合に(例えば、その場合に限って)、オーディオ信号の一部分は、(実質的に)一定の信号対雑音比をオーディオ信号の一部分の周波数にわたって適用する量子化モードを使用して量子化される。換言すると、コンスタントSNR量子化モードは、オーディオ信号の一部分が密集性の過渡事象を含んでいそうであると判断されるか否かに応じて条件付きで適用される。(実質的に)一定のSNRを適用する量子化モードは、例えば図3の方法300のステップS330に関連して説明されている。
上述したように、(実質的に)一定の信号対雑音比をオーディオ信号の一部分の周波数にわたって適用する量子化モード(コンスタントSNR量子化モード)は、密集性の過渡事象を含むオーディオ信号の一部分を量子化することに特に適している。ステップ710における判断は、コンスタントSNR量子化モードが相応しくないオーディオ信号の一部分が、この量子化モードを用いて量子化されないことを保証し、これによりそのような部分の劣化を回避する。
オーディオ信号の一部分をエンコードする提案方法、及びオーディオ信号の一部分における密集性の過渡事象を検出する提案方法は、それぞれ適切な装置(例えば、オーディオ信号の一部分をエンコードするエンコーダ)により実装され得ることが理解される。そのような装置(例えば、エンコーダ)は上記の個々のステップを実行するように構成された個々のユニットを含むことができる。例えば、方法300を実行するそのような装置は、上記のステップS310(及び同様に上記のステップS410、S510、及びS610)を実行するように構成された第1特徴決定ユニットと、上記のステップS320を実行するように構成された量子化モード選択ユニットと、上記のステップS330(及び同様に上記のステップS430及びS720)を実行するように構成された量子化ユニットとを含むことができる。同様に、方法300の変形例400を実行する装置は、第1特徴決定ユニットと、上記のステップS415を実行するように構成された第2特徴決定ユニットと、上記のステップS420を実行するように構成された修正量子化モード選択ユニットと、量子化ユニットとを含むことができる。方法500を実行する装置は、第1特徴決定ユニットと、上記のステップS520を実行するように構成されたオーディオ・コンテンツ決定ユニットと、選択的に上記のステップS530(及び同様に上記のステップS630)を実行するように構成されたメタデータ生成ユニットとを含むことができる。方法500の変形例600を実行する装置は、第1特徴決定ユニットと、第2特徴決定ユニットと、上記のステップS620を実行するように構成された修正オーディオ・コンテンツ決定ユニットと、選択的にメタデータ生成ユニットとを含むことができる。方法700を実行する装置は、上記のステップS710を実行するように構成された密集性過渡事象検出ユニットと、量子化ユニットとを含むことができる。そのような装置(例えば、エンコーダ)の個々のユニットは、個々のユニットそれぞれにより実行される処理を実行するように構成される、即ち上記の方法それぞれを実行するように構成されるコンピュータ・デバイスのプロセッサにより具現化されてもよいことが、更に理解される。このプロセッサはプロセッサのための個々の命令を格納するメモリに結合されていてもよい。
説明及び図面は提案される方法及び装置の原理を単に示しているに過ぎないことに留意すべきである。従って、本願で明示的には説明も図示もされていないが、本発明の原理を具現化し、且つ本願の精神及び範囲に包含される様々なアレンジを当業者は施し得るであろうということが、認められるであろう。更に、本願で記載されている総ての具体例は、技術を進歩させるように発明者等が貢献した提案される方法、装置、及び概念の原理を理解する際に読者を支援するような教育的な目的でしか原則として意図されておらず、そのように具体的に記載された具体例及び条件に限定することなく解釈されるべきである。更に、本願の原理、態様、及び実施形態、並びにそれらの具体例を記載する本願における総ての記述は、それらの均等物を包含するように意図されている。
本開示で説明される方法及び装置はソフトウェア、ファームウェア、及び/又はハードウェアとして実装されてもよい。所定のコンポーネントは、例えば、ディジタル信号プロセッサ又はマイクロプロセッサで動作するソフトウェアとして実装されてもよい。他のコンポーネントは、例えば、ハードウェアとして及び/又は特定用途向け集積回路として実装されてもよい。説明される方法及び装置において出くわす信号は、ランダム・アクセス・メモリ又は光記憶媒体などのメディアに格納されてもよい。それらは、無線ネットワーク、衛星ネットワーク、ワイヤレス・ネットワーク又は有線ネットワーク(例えば、インターネット)等のネットワークを介して転送されてもよい。

Claims (20)

  1. オーディオ信号の一部分をエンコードする方法であって:
    前記オーディオ信号の前記一部分が密集性の過渡事象を含んでいそうであるか否かを決定するステップ;及び
    前記オーディオ信号の前記一部分が密集性の過渡事象を含んでいそうであると決定された場合に、実質的に一定の信号対雑音比を、前記オーディオ信号の前記一部分の周波数にわたって適用する量子化モードを利用して、前記オーディオ信号の前記一部分を量子化するステップ;
    を含む方法。
  2. 前記オーディオ信号の前記一部分の知覚エントロピーに関する第1特徴値を取得するステップを更に有し、
    前記決定するステップは前記第1特徴値に少なくとも部分的に基づいている、請求項1に記載の方法。
  3. 前記オーディオ信号の前記一部分の周波数ドメインにおける疎性の尺度に関する第2特徴値を取得するステップを更に有し、
    前記決定するステップは前記第2特徴値に更に基づいている、請求項1又は2に記載の方法。
  4. 時間平滑化された第1特徴値を得るために、前記第1特徴値を時間に関して平滑化するステップを更に含み、
    前記決定するステップは平滑化された第1特徴値に基づいている、請求項2又は請求項2に従属する場合の請求項3に記載の方法。
  5. 前記決定するステップは、前記第1特徴値と、前記第1特徴値についての所定の閾値とを比較するステップを含み、及び
    前記実質的に一定の信号対雑音比を周波数にわたって適用する前記量子化モードは、前記第1特徴値が前記第1特徴値についての所定の閾値を上回っている場合に選択される、請求項2又は請求項2に従属する場合の請求項3又は4に記載の方法。
  6. 前記決定するステップは、前記第1特徴値の経時的な変動に基づいている、請求項2又は請求項2に従属する場合の請求項3−5のうちの何れか1項に記載の方法。
  7. 前記決定するステップは、前記第1特徴値の経時的な前記変動と、前記変動についての所定の閾値とを比較するステップを含み、及び
    前記実質的に一定の信号対雑音比を周波数にわたって適用する前記量子化モードは、前記第1特徴値の前記変動が前記変動についての所定の閾値を下回っている場合に選択される、請求項6に記載の方法。
  8. 時間平滑化された第2特徴値を得るために、前記第2特徴値を時間に関して平滑化するステップを更に含み、
    前記決定するステップは平滑化された第2特徴値に基づいている、請求項3又は請求項3に従属する場合の請求項4−7のうちの何れか1項に記載の方法。
  9. 前記決定するステップは、前記第2特徴値と、前記第2特徴値についての所定の閾値とを比較するステップを含み、及び
    前記実質的に一定の信号対雑音比を周波数にわたって適用する前記量子化モードは、前記第2特徴値が前記第2特徴値についての所定の閾値を上回っている場合に選択される、請求項3又は請求項3に従属する場合の請求項4−8のうちの何れか1項に記載の方法。
  10. 前記第1特徴は前記知覚エントロピーに比例し、及び
    選択的に、前記第1特徴値は周波数ドメインで取得される、請求項2又は請求項2に従属する場合の請求項3−9のうちの何れか1項に記載の方法。
  11. オーディオ信号の一部分をエンコードする方法であって:
    前記オーディオ信号の前記一部分の知覚エントロピーに関連する第1特徴値を取得するステップ;
    前記第1特徴値に基づいて前記オーディオ信号の前記一部分を量子化する量子化モードを選択するステップ;及び
    選択された前記量子化モードを利用して前記オーディオ信号の一部分を量子化するステップ;
    を含み、前記量子化モードを選択するステップは、前記第1特徴値に少なくとも部分的に基づいて、実質的に一定の信号対雑音比を周波数にわたって適用する量子化モードが前記オーディオ信号の前記一部分に使用されることとするか否かを決定するステップを含む、方法。
  12. 前記オーディオ信号の前記一部分の周波数ドメインにおける疎性の尺度に関連する第2特徴値を取得するステップを更に有し、
    前記決定するステップは前記第2特徴値に更に基づいている、請求項11に記載の方法。
  13. 前記決定するステップは前記第1特徴値の経時的な変動に基づいている、請求項11又は12に記載の方法。
  14. 前記第1特徴は前記知覚エントロピーに比例し、及び
    選択的に、前記第1特徴値は周波数ドメインで取得される、請求項11−13のうちの何れか1項に記載の方法。
  15. オーディオ信号の一部分における密集性の過渡事象を検出する方法であって:
    前記オーディオ信号の前記一部分の知覚エントロピーに関する第1特徴値を取得するステップ;及び
    前記第1特徴値に少なくとも部分的に基づいて、前記オーディオ信号の前記一部分は密集性の過渡事象を含んでいそうであるか否かを決定するステップ;
    を有する方法。
  16. 前記オーディオ信号の前記一部分のメタデータを生成するステップを更に含み、
    前記メタデータは、前記オーディオ信号の前記一部分は密集性の過渡事象を含んでいそうであるか否かの指標である、請求項15に記載の方法。
  17. 前記オーディオ信号の前記一部分の周波数ドメインにおける疎性の尺度に関連する第2特徴値を取得するステップを更に有し、
    前記決定するステップは前記第2特徴値に更に基づいている、請求項15又は16に記載の方法。
  18. 前記決定するステップは、前記第1特徴値の経時的な変動に基づいている、請求項15−17のうちの何れか1項に記載の方法。
  19. 前記第1特徴は前記知覚エントロピーに比例し、
    選択的に、前記第1特徴値は周波数ドメインで取得される、請求項15−18のうちの何れか1項に記載の方法。
  20. プロセッサと、前記プロセッサに結合され且つ前記プロセッサによる実行のための命令を格納するメモリとを含む装置であって、前記プロセッサは請求項1−19のうちの何れか1項に記載の方法を実行するように構成されている、装置。
JP2019572693A 2017-07-03 2018-07-03 密集性の過渡事象の検出及び符号化の複雑さの低減 Active JP7257975B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762528198P 2017-07-03 2017-07-03
EP17179316.9 2017-07-03
US62/528,198 2017-07-03
EP17179316 2017-07-03
PCT/EP2018/067970 WO2019007969A1 (en) 2017-07-03 2018-07-03 DETECTION AND CODING OF LOW COMPLEXITY DENSED TRANSIENT EVENTS

Publications (2)

Publication Number Publication Date
JP2020525853A true JP2020525853A (ja) 2020-08-27
JP7257975B2 JP7257975B2 (ja) 2023-04-14

Family

ID=62716090

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019572693A Active JP7257975B2 (ja) 2017-07-03 2018-07-03 密集性の過渡事象の検出及び符号化の複雑さの低減

Country Status (4)

Country Link
US (1) US11232804B2 (ja)
EP (1) EP3649640A1 (ja)
JP (1) JP7257975B2 (ja)
CN (1) CN110998722B (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08512150A (ja) * 1994-04-28 1996-12-17 モトローラ・インコーポレイテッド ニューラル・ネットワークを利用してテキストを可聴信号に変換する方法および装置
JP2007525715A (ja) * 2004-03-01 2007-09-06 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 推定値を決定するための方法および装置
JP2010500631A (ja) * 2006-08-15 2010-01-07 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション サイド情報なしの時間的ノイズエンベロープの自由な整形
JP2015504179A (ja) * 2012-01-09 2015-02-05 ドルビー ラボラトリーズ ライセンシング コーポレイション 適応型低周波数補償によってオーディオ・データを符号化するための方法及びシステム

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5285498A (en) * 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
JP3762579B2 (ja) * 1999-08-05 2006-04-05 株式会社リコー デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
AU2012208987B2 (en) 2004-03-01 2012-12-20 Dolby Laboratories Licensing Corporation Multichannel Audio Coding
US7302451B2 (en) 2004-05-07 2007-11-27 Mitsubishi Electric Research Laboratories, Inc. Feature identification of events in multimedia
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
ATE505912T1 (de) 2006-03-28 2011-04-15 Fraunhofer Ges Forschung Verbessertes verfahren zur signalformung bei der mehrkanal-audiorekonstruktion
US8352279B2 (en) 2008-09-06 2013-01-08 Huawei Technologies Co., Ltd. Efficient temporal envelope coding approach by prediction between low band signal and high band signal
EP2375410B1 (en) 2010-03-29 2017-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. A spatial audio processor and a method for providing spatial parameters based on an acoustic input signal
JP5775582B2 (ja) 2010-08-25 2015-09-09 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 結合ユニットとミキサーとを用いて過渡を含む信号を復号化する装置
WO2012037515A1 (en) * 2010-09-17 2012-03-22 Xiph. Org. Methods and systems for adaptive time-frequency resolution in digital data coding
EP2477188A1 (en) 2011-01-18 2012-07-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding and decoding of slot positions of events in an audio signal frame
ES2623291T3 (es) 2011-02-14 2017-07-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificación de una porción de una señal de audio utilizando una detección de transitorios y un resultado de calidad
JP5633431B2 (ja) * 2011-03-02 2014-12-03 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
EP2721610A1 (en) 2011-11-25 2014-04-23 Huawei Technologies Co., Ltd. An apparatus and a method for encoding an input signal
US8825188B2 (en) 2012-06-04 2014-09-02 Troy Christopher Stone Methods and systems for identifying content types
US9293146B2 (en) 2012-09-04 2016-03-22 Apple Inc. Intensity stereo coding in advanced audio coding
US9830917B2 (en) 2013-02-14 2017-11-28 Dolby Laboratories Licensing Corporation Methods for audio signal transient detection and decorrelation control
EP2830064A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
KR102231755B1 (ko) 2013-10-25 2021-03-24 삼성전자주식회사 입체 음향 재생 방법 및 장치
CN111968655B (zh) 2014-07-28 2023-11-10 三星电子株式会社 信号编码方法和装置以及信号解码方法和装置
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
WO2017080835A1 (en) 2015-11-10 2017-05-18 Dolby International Ab Signal-dependent companding system and method to reduce quantization noise
EP3182410A3 (en) * 2015-12-18 2017-11-01 Dolby International AB Enhanced block switching and bit allocation for improved transform audio coding

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08512150A (ja) * 1994-04-28 1996-12-17 モトローラ・インコーポレイテッド ニューラル・ネットワークを利用してテキストを可聴信号に変換する方法および装置
JP2007525715A (ja) * 2004-03-01 2007-09-06 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 推定値を決定するための方法および装置
JP2010500631A (ja) * 2006-08-15 2010-01-07 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション サイド情報なしの時間的ノイズエンベロープの自由な整形
JP2015504179A (ja) * 2012-01-09 2015-02-05 ドルビー ラボラトリーズ ライセンシング コーポレイション 適応型低周波数補償によってオーディオ・データを符号化するための方法及びシステム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GHIDO, FLORIN ET AL.: ""CODING OF FINE GRANULAR AUDIO SIGNALS USING HIGH RESOLUTION ENVELOPE PROCESSING (HREP)"", PROC. OF THE 2017 IEEE ICASSP, JPN6022032638, 5 March 2017 (2017-03-05), pages 701 - 705, XP033258508, ISSN: 0004845583, DOI: 10.1109/ICASSP.2017.7952246 *

Also Published As

Publication number Publication date
CN110998722B (zh) 2023-11-10
EP3649640A1 (en) 2020-05-13
US20200126572A1 (en) 2020-04-23
CN110998722A (zh) 2020-04-10
JP7257975B2 (ja) 2023-04-14
US11232804B2 (en) 2022-01-25

Similar Documents

Publication Publication Date Title
JP5567192B2 (ja) オーディオ信号エンコーダ、オーディオ信号をエンコードするための方法、及びコンピュータープログラム
KR20200010540A (ko) 대역폭 확장을 위한 고주파수 부호화/복호화 방법 및 장치
RU2733533C1 (ru) Устройство и способы для обработки аудиосигнала
JP5395250B2 (ja) 音声コーデックの品質向上装置およびその方法
KR20230066137A (ko) 신호 부호화방법 및 장치와 신호 복호화방법 및 장치
CN106716528B (zh) 对音频信号中的噪声进行估计的方法和装置以及传输音频信号的装置和系统
US20080255860A1 (en) Audio decoding apparatus and decoding method
RU2752520C1 (ru) Управление полосой частот в кодерах и/или декодерах
JP7257975B2 (ja) 密集性の過渡事象の検出及び符号化の複雑さの低減
JP7447085B2 (ja) コンパンディングによる密過渡イベントの符号化
WO2019007969A1 (en) DETECTION AND CODING OF LOW COMPLEXITY DENSED TRANSIENT EVENTS

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210701

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220727

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220809

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230307

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230404

R150 Certificate of patent or registration of utility model

Ref document number: 7257975

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150