JP6160072B2 - オーディオ信号符号化装置および方法、オーディオ信号伝送システムおよび方法、オーディオ信号復号装置 - Google Patents

オーディオ信号符号化装置および方法、オーディオ信号伝送システムおよび方法、オーディオ信号復号装置 Download PDF

Info

Publication number
JP6160072B2
JP6160072B2 JP2012267142A JP2012267142A JP6160072B2 JP 6160072 B2 JP6160072 B2 JP 6160072B2 JP 2012267142 A JP2012267142 A JP 2012267142A JP 2012267142 A JP2012267142 A JP 2012267142A JP 6160072 B2 JP6160072 B2 JP 6160072B2
Authority
JP
Japan
Prior art keywords
reverberation
sound
characteristic
masking
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012267142A
Other languages
English (en)
Other versions
JP2014115316A (ja
Inventor
太郎 外川
太郎 外川
千里 石川
千里 石川
洋平 岸
洋平 岸
猛 大谷
猛 大谷
鈴木 政直
政直 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2012267142A priority Critical patent/JP6160072B2/ja
Priority to US14/093,798 priority patent/US9424830B2/en
Priority to EP13195452.1A priority patent/EP2741287B1/en
Priority to CN201310641777.1A priority patent/CN103854656B/zh
Publication of JP2014115316A publication Critical patent/JP2014115316A/ja
Application granted granted Critical
Publication of JP6160072B2 publication Critical patent/JP6160072B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/08Arrangements for producing a reverberation or echo sound
    • G10K15/12Arrangements for producing a reverberation or echo sound using electronic time-delay networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Description

本明細書で議論される実施態様は、オーディオ信号符号化、復号、伝送技術に関するものである。
モバイル向けのマルチメディア放送では低ビットレートが求められており、音声などのオーディオ信号について、人の聴覚特性を考慮し、例えば知覚可能な音だけを符号化して送る符号化が行なわれている。
符号化を行う従来技術として、次のような技術が知られている(例えば特許文献1)。音声符号化装置は、次のものを備える。複数のフレームに分割された入力音声信号データを一時記憶する入力データメモリを備える。各フレームごとに周波数分割したデータとする周波数分割フィルタバンクを備える。量子化ステップ幅を計算すべきフレームを中に挟む前後のi個のフレームを受け該当するフレームのスペクトラム解析の結果とマスキングの効果を含む人間の聴覚特性とを用いて量子化ステップ幅を計算する心理聴覚分析部を備える。周波数分割フィルタバンクの出力を心理聴覚分析部の示す量子化ステップ幅で量子化する量子化器を備える。そして、量子化器の量子化したデータを多重化する多重化器を備える。また、心理聴覚分析部は、フレームの周波数解析を行うスペクトラム計算器と、マスキングカーブを求めるマスキングカーブ予測器と、量子化ステップ幅を求める量子化ステップ幅予測器を含む。
また、他の従来技術として、次のような技術が知られている(例えば特許文献2)。音楽等のオーディオ信号の場合、圧縮により省略される信号成分(マスキー)は、以前マスカーであったものが減衰したものが多い。そこで、伸長したオーディオ信号に残響を付与することにより、以前はマスカーであったが、今はマスキーとなっている信号成分を今の信号に取り込み、擬似的に原音のオーディオ信号を復元する。人間の聴覚マスキング特性は、周波数によって異なる。そこで、オーディオ信号を複数の周波数帯域の部分帯域信号に分割し、各周波数帯域のマスキング特性に合わせた特性の残響を付与する。
さらに、次のような技術も知られている(例えば特許文献3)。エンコーダでは、オーディオ信号が、エコーの無い信号部分と、オーディオ信号に関連する残響場についての情報とに分割され、好ましくは、残響時間及び残響振幅のようなほんの僅かなパラメータを用いる表現によって分割される。その後、エコーの無い信号が、オーディオコーデックを使用して符号化される。デコーダでは、エコーの無い信号部分が、オーディオコーデックを使用して復元される。
特開平9−321628号公報 特開2007−271686号公報 特表2008−503793号公報
これらの従来技術では、更なる低ビットレート化の要請に対して不十分であった。
本発明の一態様によれば、オーディオ信号符号化あるいはオーディオ信号復号において、更なる低ビットレート化を目的とする。
本発明の一態様によれば、オーティオ信号符号化装置において、オーディオ信号の量子化を行う量子化器、オーディオ信号で表されている音の再生によって再生環境で生じる音の残響が音に及ぼす残響マスキングの特性を取得する残響マスキング特性取得部、及び量子化器の量子化ステップ幅を残響マスキングの特性に基づいて制御する制御部を備えるものを提供する。
本発明の一態様によれば、更なる低ビットレート化が可能となるという効果を奏する。
入力オーディオ信号の符号化において、入力オーディオ信号の音質を向上させるために一般的に考えられる符号化装置の構成例を示す図である。 図1の構成による符号化装置の作用効果を説明する模式図である。 第1の実施形態である符号化装置のブロック図である。 図3の構成を有する第1の実施形態である符号化装置における残響特性309の説明図である。 残響なしと残響ありの場合における図3の符号化装置による符号化動作を説明する図である。 第2の実施形態であるオーディオ符号化装置のブロック図である。 残響特性記憶部612に記憶されるデータの構成例を示す図である。 図6の残響マスキング算出部602のブロック図である。 残響マスキングの特性として残響が音に及ぼす周波数マスキングを用いる場合のマスキング算出の例を示す説明図である。 残響マスキングの特性として残響が音に及ぼす継時マスキングを用いる場合のマスキング算出の例を示す説明図である。 図6のマスキング合成部603のブロック図である。 最大値算出部1101の動作説明図である。 図6の構成を有する第2の実施形態のオーディオ符号化装置の機能をソフトウェア処理によって実現する装置の制御動作を示すフローチャートである。 第3の実施形態であるオーディオ信号伝送システムのブロック図である。 図14の残響特性推定部1407のブロック図である。 図15の構成として示される残響特性推定部1407の機能をソフトウェア処理によって実現する装置の制御動作を示すフローチャートである。 再生環境の残響特性1408を事前送付する処理を行う場合の符号化装置1401と復号再生装置1402の制御処理を示すフローチャートである。 再生環境の残響特性1408を定期的に送付する処理を行う場合の符号化装置1401と復号再生装置1402の制御処理を示すフローチャートである。
以下、図面を参照しながら本発明の実施形態について詳細に説明する。
各実施形態について説明する前に、一般的に考えられる技術について説明する。
図1は、入力オーディオ信号の符号化において、入力オーディオ信号の音質を向上させるために一般的に考えられる符号化装置の構成例を示す図である。
離散信号として入力した入力音は、修正離散コサイン変換(MDCT:Modified Discrete Cosine Transform)部101において、周波数領域の信号に変換される。この周波数領域の各周波数成分信号は、量子化部102においてそれぞれ量子化される。各周波数成分信号毎に量子化された各量子化データは、多重化部103によって、符号化ビット列に多重化され、出力データとして出力される。
聴覚マスキング算出部103は、入力音の一定時間長のフレーム毎に周波数解析を行う。聴覚マスキング算出部103は、その計算結果と人間の聴覚特性であるマスキング効果とを考慮してマスキングカーブを求め、そのマスキングカーブから各量子化データの量子化ステップ幅を求め、量子化部102に通知する。量子化部102は、聴覚マスキング算出部103から通知された量子化ステップ幅で、修正離散コサイン変換部101から出力される周波数領域の各周波数信号成分を量子化する。
図2は、図1の構成による符号化装置の作用効果を説明する模式図である。
いま例えば、図1の入力音が模式的に、図2のS1、S2、S3、S4として示される音源周波数信号成分を持っているとする。この場合、人間は、例えば音源S2の電力値に対して、201で示されるマスキングカーブ(周波数特性)を有する。つまり人間は、入力音中に音源S2が存在するときに、図2のマスキングカーブ201よりも電力値が小さいマスキング範囲202内の各周波数電力成分は、聞こえにくくなる。すなわち、マスキングされる。
従って、この部分はもともと聞こえにくいため、図2において、マスキング範囲202内に電力値が入る音源S1および音源S3の各周波数信号成分に細かい量子化ステップ幅を割り当てて量子化しても、無駄である。一方、図2において、マスキング範囲202よりも電力値が上回る音源S2とS4については、人間は良く聞き分けることができるため、細かい量子化ステップ幅を与えるのが望ましい。
そこで、図2の符号化装置では、聴覚マスキング算出部103が、入力音を周波数分析することにより、図2のマスキングカーブ201を算出する。そして、聴覚マスキング算出部103は、電力値がマスキングカーブ201よりも小さくなる範囲に入ると予測される周波数信号成分については、その量子化ステップ幅を粗くする。一方、聴覚マスキング算出部103は、電力値がマスキングカーブ201よりも大きくなる範囲に入ると予測される周波数信号成分については、その量子化ステップ幅を細かくする。
このようにして、図1の構成を有する符号化装置では、細かく聞き分ける必要がない周波数信号成分については量子化ステップ幅を粗くして符号化ビット数を減らすことによって、符号化効率を向上させている。
このような符号化装置において、入力音について例えば、サンプリング周波数が48kHz(キロヘルツ)、ステレオ音声、符号化方式がAAC(Advanced Audio Coding)方式である場合を考える。この場合、ビットレートが例えば128kbps(キロビット/秒)のCD(Conpact Disk)音質であれば、図1の構成を有する符号化装置を用いることにより、符号化効率は向上すると考えられる。しかし、例えば96kbps以下のストリーミング音質、あるいは携帯電話の通話音質程度の低ビットレート条件になると、符号化された音声の音質が劣化してしまうという課題がある。従って、このような低ビットレート条件であっても、音質を落とさずに符号化ビット数を削減することが必要となる。
図3は、第1の実施形態である符号化装置のブロック図である。
図3において、量子化器301は、オーディオ信号の量子化を行う。より具体的には例えば、周波数分割部305がオーディオ信号を複数の周波数帯域の部分信号に分割し、量子化器301は複数の部分信号を各々量子化し、さらに多重化器306が、量子化器301によって量子化された複数の部分信号を多重化する。
次に、図3において、残響マスキング特性取得部302は、オーディオ信号で表されている音の再生によって再生環境で生じる音の残響が音に及ぼす残響マスキングの特性307を取得する。この残響マスキング特性取得部302は例えば、残響マスキングの特性307として、残響が音に及ぼす周波数マスキングの特性を取得する。あるいは、残響マスキング特性取得部302は例えば、残響マスキングの特性307として、残響が音に及ぼす継時マスキングの特性を取得する。また、残響マスキング特性取得部302は例えば、オーディオ信号と、再生環境の残響特性309と、予め用意されている人の聴覚心理モデルとを用いて残響マスキングの特性307を算出する。このとき、残響マスキング特性取得部302は例えば、残響特性309として、再生環境毎に予め用意されている残響特性から選択されたものを用いて残響マスキングの特性307を算出する。さらにこのとき、残響マスキング特性取得部302は、再生環境に対応する残響特性の選択情報を受け取ることにより、再生環境に対応する残響特性309を選択する。また、残響マスキング特性取得部302は例えば、残響特性309として、再生環境で収音した音と、その音を収音したときに再生環境で発せられていた音とに基づいた再生環境における残響特性の推定結果である残響特性を入力して、残響マスキングの特性307を算出する。
図3において、制御部303は、量子化器301の量子化ステップ幅308を、残響マスキングの特性307に基づいて制御する。この制御部303は例えば、残響マスキングの特性307に基づき、オーディオ信号で表されている音の大きさが残響によってマスクされる大きさである場合には、残響によってマスクされない大きさである場合よりも量子化ステップ幅308を広げる制御を行う。
上記構成に加えて更に、聴覚マスキング特性取得部304は、人の聴覚特性がオーディオ信号で表されている音に及ぼす聴覚マスキングの特性を取得する。そして、制御部303は、量子化器301の量子化ステップ幅308を、更に、聴覚マスキングの特性にも基づいて制御する。より具体的には、残響マスキング特性取得部302が、残響マスキングの特性307として、残響によってマスクされる音の大きさの周波数特性を取得し、聴覚マスキング特性取得部304が、聴覚マスキングの特性310として、人の聴覚特性によってマスクされる音の大きさの周波数特性を取得する。そして、制御部303は、残響マスキングの特性307の周波数特性と聴覚マスキングの特性310の周波数特性とにおいて、周波数毎に大きい方の特性を選択して得られる合成マスキング特性に基づいて量子化器301の量子化ステップ幅308を制御する。
図4は、図3の構成を有する第1の実施形態である符号化装置における残響特性309の説明図である。
送信側401において、入力音(図1のオーディオ信号に対応する)が符号化装置403にて符号化され、その結果得られた符号化データ405(図1の出力データに対応する)が、再生側402の再生装置404に伝送され、その再生装置404にて復号されて再生される。ここで、再生装置404がスピーカからユーザに対して放音を行うときの再生環境では、一般に直接音406に加えて、残響407が生じる。
第1の実施形態では、この再生環境における残響407の特性を残響特性309として、図3の構成を有する符号化装置403に与える。図3の構成を有する符号化装置403では、制御部303が、残響マスキング特性取得部302が残響特性309に基づいて取得した残響マスキングの特性307に基づいて、量子化器301の量子化ステップ幅308を制御する。より具体的には、制御部303は、残響マスキングの特性307の周波数特性と聴覚マスキング特性取得部304が取得した聴覚マスキングの特性310の周波数特性とにおいて、周波数毎に大きい方の特性を選択して得られる合成マスキング特性を生成する。制御部303は、この合成マスキング特性に基づいて量子化器301の量子化ステップ幅308を制御する。これにより、符号化装置403では、残響に埋もれる周波数はなるべく符号化されないように符号化データ405が出力される制御が実施される。
図5は、残響なしと残響ありの場合における図3の符号化装置による符号化動作を説明する図である。
図5(a)に示される残響なしの場合には、例えばオーディオ信号に2つの音源P1、P2が含まれている場合、聴覚マスキングの範囲は、それぞれの音源P1、P2に対して、501および502で示される各範囲となる。この場合、音源P1、P2とも、それぞれの電力値は、聴覚マスキングの範囲の上に出るため、図3の制御部303は、聴覚マスキングの特性に基づいて、音源P1、P2に対応するそれぞれの周波数信号成分に対して、量子化ステップ幅308として細かい値を割り当てる必要がある。
一方、残響ありの場合には、図4で説明したように、ユーザは、直接音406に加えて残響407の影響も受け、聴覚マスキングに加えて残響マスキングも受けることになる。
そこで、図3の制御部303は、聴覚マスキングの特性310に基づく聴覚マスキングの範囲501、502のほかに、残響マスキングの特性307に基づく残響マスキングの範囲503も考慮して各周波数信号成分の量子化ステップ幅308を制御する。具体的には、図5(b)に示される残響ありの場合で、残響マスキングの範囲503が聴覚マスキングの範囲501、502を全体的に包含するような場合を考える。すなわち、図4に示されるように、再生環境において残響407がかなり大きい場合である。そして、音源P2の周波数信号成分において、聴覚マスキングの範囲501、502の電力値よりも、残響マスキングの範囲503の電力値のほうが大きく、かつ音源P2の電力値が残響マスキングの範囲503内に入るような場合を考える。この場合には、図3の制御部303は、聴覚マスキングの特性310と残響マスキングの特性307に基づいて、音源P2に対応する周波数信号成分の量子化ステップ幅308を粗くする。
この結果、聴覚マスキングの特性310よりも残響マスキングの特性307のほうが大きい場合に、残響に埋もれる周波数はなるべく符号化されないように符号化が行われる。これにより、図3の第1の実施形態の符号化装置では、図1で説明した聴覚マスキングの特性のみに基づいて制御を行う一般的な構成の符号化装置に比べて、残響によりマスクされない音響成分のみを符号化することにより、符号化効率を改善することが可能となる。そして、低ビットレートにおける音質を向上させることが可能となる。
実験によれば、入力音が発話音声で、再生環境が残響が大きい室内等である条件で、マスクされる周波数帯域の割合が、聴覚マスキングのみの場合は入力音の全周波数帯域の7%程度であったのが、残響マスキングも考慮することにより24%程度になった。これにより、上述の条件において、第1の実施形態の符号化装置では、符号化効率を聴覚マスキングのみを考慮した符号化装置に対して、約3倍改善することが可能となった。
第1の実施形態によれば、更なる低ビットレートを実現でき、特に、残響がある場合において、同一S/Nを実現するために必要なビットレートを低くできるところに効果がある。第1の実施形態によれば、残響成分を積極的に符号化して再生側で付加するものではなく、再生側で発生する残響に埋もれる部分は符号化しないものである。
図6は、第2の実施形態であるオーディオ符号化装置のブロック図である。このオーディオ符号化装置は、入力された再生環境の種類(広い部屋、狭い部屋、浴室など)から再生環境の残響特性を選択し、残響マスキングを利用して入力信号の符号化効率を向上するオーディオ符号化装置である。この第2の実施形態の構成は、例えばマルチメディア放送機器のLSI(大規模集積回路)への利用が考えられる。
図6において、修正離散コサイン変換(MDCT:Modified Discrete Cosine Transform)部605は、入力信号(図3のオーディオ信号に対応する)を、一定時間長のフレーム単位ごとの周波数信号成分に分割する。MDCTは、フレーム単位で入力信号を切り出す窓データを半分ずつ重複させながら周波数変換を行う重複直交変換手法で、複数個の入力信号からその1/2個の周波数信号成分の係数列を出力することで変換後のデータ量を削減する、公知の周波数分割手法である。
残響特性記憶部612(図3の残響マスキング特性取得部302の一部に対応する)は、複数の再生環境の種類ごとに、複数の残響特性を記憶する。残響特性は、再生環境における残響(図4の407に対応する)のインパルス応答である。
残響特性選択部611(図3の残響マスキング特性取得部302の一部に対応する)は、残響特性記憶部612から、入力された再生環境の種類613に対応する残響特性609を読み出す。そして、残響特性選択部611は、その残響特性609を、残響マスキング算出部602(図3の残響マスキング特性取得部302の一部に対応する)に与える。
残響マスキング算出部602は、入力信号と、再生環境の残響特性609と、予め用意されている人の聴覚心理モデルとを用いて残響マスキングの特性607を算出する。
聴覚マスキング算出部604(図3の聴覚マスキング特性取得部304に対応する)は、入力信号から聴覚マスキング閾値(順向、逆向マスキング)である聴覚マスキングの特性610を算出する。この聴覚マスキング算出部604は例えば、入力信号として、一定長の複数のフレームを受け各フレームごとに周波数解析を行うスペクトラム計算部を具備する。聴覚マスキング算出部604はさらに、スペクトラム計算部の計算結果と人間の聴覚特性であるマスキング効果とを考慮して聴覚マスキングの特性610であるマスキングカーブを求めるマスキングカーブ予測部を具備する。(例えば特許文献1に記載を参照)
マスキング合成部603(図3の制御部303に対応する)は、残響マスキングの特性607の周波数特性と聴覚マスキングの特性610の周波数特性とにおいて、周波数毎に大きい方の特性を選択して得られる合成マスキング特性に基づいて量子化器601の量子化ステップ幅608を制御する。
量子化器601は、MDCT部605から出力される複数の周波数帯域の部分信号を、各周波数帯域に対応してマスキング合成部603から入力される対応する量子化ステップ幅608に対応する量子化ビット数で量子化を行う。具体的には、入力信号の周波数成分が合成マスキング特性の閾値に比較して大きい場合は量子化ビット数が大きく(量子化ステップ幅が細かく)され、入力信号の周波数成分が合成マスキング特性の閾値に比較して小さい場合は量子化ビット数小さく(量子化ステップ幅が粗く)される。
多重化器606は、量子化器601によって量子化された複数の周波数成分の部分信号のデータを、符号化ビット列に多重化する。
図6の第2の実施形態のオーディオ符号化装置の動作について、以下に説明する。
まず、複数の残響特性(インパルス応答)を事前に図6の残響特性記憶部612に記録する。図7は、残響特性記憶部612に記憶されるデータの構成例を示す図である。再生環境の種類と対応づけて残響特性を記録する。残響特性は、再生環境の種類に対応する典型的な室内インパルス応答の測定結果を用いる。
図6の残響特性選択部611は、再生環境の種類613を取得する。例えば、符号化装置に種類選択用ボタンを設け、再生環境に合わせてユーザが事前に種類を選択する。残響特性選択部611は、残響特性記憶部612を参照し、取得した再生環境の種類613に対応する残響特性609を出力する。
図8は、図6の残響マスキング算出部602のブロック図である。
残響信号生成部801は、下記数1式に基づいて、図6の残響特性選択部611から出力される残響特性609である残響環境のインパルス応答804を用いて、入力信号805から残響信号806を生成する公知のFIR(Finite Impulse Response:有限インパルス応答)フィルタである。
上記数1式において、x(t)は入力信号805、r(t)は残響信号806、h(t)は残響環境のインパルス応答804、THは、残響の開始時刻(例えば100ms(ミリ秒))である。
時間−周波数変換部802は、残響信号806に対応する残響スペクトル807を求める。具体的には、時間−周波数変換部802は例えば、高速フーリエ変換(FFT:Farst Fourier Transform)計算または離散コサイン変換(DCT:Discrete Cosine Transform)計算を実行する。FFT計算を実行する場合には、下記数2式の演算が実行される。
上記数2式において、r(t)は残響信号806、R(j)は残響スペクトル807、nは高速フーリエ変換を実行する残響信号806の分析離散時間長(例えば512点)、jは周波数ビン(周波数軸上の信号ポイント)である。
マスキング算出部803は、聴覚心理モデル808を用いて残響スペクトル807からマスキング閾値を求め、残響マスキング閾値809として出力する。この残響マスキング閾値809は、図6において、残響マスキングの特性607として残響マスキング算出部602からマスキング合成部603に与えられる。
図9は、図6の残響マスキングの特性607として残響が音に及ぼす周波数マスキングを用いる場合のマスキング算出の例を示す説明図である。図9(a)、(b)、または(c)において、横軸は残響スペクトル807の周波数、縦軸は各残響スペクトル807の電力[db(デシベル)]である。
まず、図8のマスキング算出部803は、図9で破線の特性カーブとして示される残響スペクトル807の特性において、電力ピーク901を推定する。図9(a)では2つの電力ピーク901が推定される。これら2つの電力ピーク901の各周波数をA、Bとする。
次に、図8のマスキング算出部803は、各電力ピーク901によるマスキング閾値を算出する。電力ピーク901の周波数A、Bが決まればマスキング範囲が決まるような周波数マスキングモデルが知られており、例えば文献「聴覚と音響心理」(コロナ社、p.111−112)に記載の周波数マスキング量を用いることができる。一般に、聴覚心理モデル808に基づけば、次のような特性がある。図9(a)に示される電力ピーク901において、例えば図9(a)の周波数Aを有する電力ピーク901のようにその周波数が低ければ、電力ピーク901を頂上としてその両側に下降するマスキングカーブ902Aの傾斜は急峻になる。この結果、周波数Aの周囲でマスキングされる周波数範囲は狭くなる。また、例えば図9(a)の周波数Bを有する電力ピーク901のようにその周波数が高ければ、電力ピーク901を頂上としてその両側に下降するマスキングカーブ902Bの傾斜は緩やかになる。この結果、周波数Bの周囲でマスキングされる周波数範囲は広くなる。マスキング算出部803は、このような周波数特性を聴覚心理モデル808として入力し、各周波数AおよびBの電力ピーク901毎に、周波数方向の対数値(デシベル値)例えば図9(b)の一点鎖線の三角特性に示されるようなマスキングカーブ902A、902Bを算出する。
最後に、図8のマスキング算出部803は、図9(a)の残響スペクトル807の特性カーブと図9(b)のマスキング閾値のマスキングカーブ902A、902Bとで、周波数ビンごとに、最大となる方を選択する。これにより、マスキング算出部803は、マスキング閾値を統合し、その統合結果を残響マスキング閾値809として出力する。図9(c)の例では、太実線の特性カーブとして残響マスキング閾値809が得られる。
図10は、図6の残響マスキングの特性607として残響が音に及ぼす継時マスキングを用いる場合のマスキング算出の例を示す説明図である。図10(a)または(b)において、横軸は時間、縦軸は各周波数帯域(周波数ビン)の残響信号806の周波数信号成分の各時間における電力[db(デシベル)]である。図10(a)または(b)はそれぞれ、図8の時間−周波数変換部802から出力される任意の一つの周波数帯域(周波数ビン)における周波数信号成分の時間変化を示すものである。
まず、図8のマスキング算出部803は、各周波数帯域の残響信号806の周波数信号成分1001の時間変化において、時間軸方向の電力ピーク1002を推定する。図10(a)では2つの電力ピーク1002が推定される。これら2つの電力ピーク1001の各時間をa,bとする。
次に、図8のマスキング算出部803は、各電力ピーク1002によるマスキング閾値を算出する。電力ピーク1002の時間a,bが決まれば各時間a,bを境として順向(各時間a,bに後続する時間方向)および逆向(各時間a,bに先行する時間方向)のマスキング範囲を決めることができる。この結果、マスキング算出部803は、各時間aおよびbの電力ピーク1002毎に、時間方向の対数値(デジベル値)で例えば図10(a)の一点鎖線の三角特性に示されるようなマスキングカーブ1003a、1003bを算出する。順向の各マスキング範囲は一般に電力ピーク1002の時間以後約100ミリ秒付近まで、逆向のマスキング範囲は一般に電力ピーク1002の時間以前約20ミリ秒付近までである。マスキング算出部803は、各時間aおよびbの電力ピーク1002毎に、上記順向および逆向の時間特性を聴覚心理モデル808として入力する。マスキング算出部803は、この時間特性に基づき、各電力ピーク1002から順向および逆向の各方向に時間が遠ざかるに従ってマスキング量が指数関数的に減少するマスキングカーブを算出する。
最後に、図8のマスキング算出部803は、周波数帯域毎に、図10(a)の残響信号の周波数信号成分1001と図10(a)のマスキング閾値のマスキングカーブ1003A、1003Bとで、離散時間毎に最大となる方を選択する。これにより、マスキング算出部803は、周波数帯域毎に、マスキング閾値を統合し、その統合結果をその周波数帯域の残響マスキング閾値809として出力する。図10(b)の例では、太実線の特性カーブとして残響マスキング閾値809が得られる。
以上、図8の構成を有する図6の残響マスキング算出部602が出力する残響マスキングの特性607(残響マスキング閾値809)の具体例として、2つの手法について説明した。一つは、残響スペクトル807上の電力ピーク901を中心として周波数方向のマスキングを行う周波数マスキング(図9)の手法である。もう一つは、残響信号806の各周波数信号成分の時間軸方向の電力ピーク1002を中心として順向および逆向のマスキングを行う継時マスキング(図10)の手法である。
残響マスキングの特性607(残響マスキング閾値809)を得るためのこれらのマスキング手法としては、そのどちらか一方が適用されてもよいし、両方が適用されてもよい。
図11は、図6のマスキング合成部603のブロック図である。マスキング合成部603は、最大値算出部1101を備える。最大値算出部1101は、図6の残響マスキング算出部602から残響マスキングの特性607として、残響マスキング閾値809(図8参照)を入力する。また、最大値算出部1101は、図6の聴覚マスキング算出部604から聴覚マスキングの特性610として、聴覚マスキング閾値1102を入力する。そして、最大値算出部1101は、周波数帯域(周波数ビン)毎に、残響マスキング閾値809と聴覚マスキング閾値1102とで、電力値が大きい方の値を選択し、合成マスキング閾値1103(合成マスキング特性)を算出する。
図12は、最大値算出部1101の動作説明図である。図12(a)において、周波数軸上の各周波数帯域(周波数ビン)毎に、残響マスキング閾値809と聴覚マスキング閾値1102の電力値が比較される。この結果、図12(b)に示されるように、最大値が合成マスキング閾値1103として算出される。
なお、各周波数帯域(周波数ビン)毎に、残響マスキング閾値809と聴覚マスキング閾値1102の電力値の最大値ではなく、残響マスキング閾値809と聴覚マスキング閾値1102の各対数電力値(デシベル値)が位相に応じた重み付けをされて合計され、その結果が合成マスキング閾値1103として算出されてもよい。
このようにして、第2の実施形態では、入力信号と残響の両方にマスクされて聞こえなくなる周波数範囲を算出することが可能となり、この合成マスキング閾値1103(合成マスキング特性)を用いることにより、さらに効率的な符号化が可能となる。
図13は、図6の構成を有する第2の実施形態のオーディオ符号化装置の機能をソフトウェア処理によって実現する装置の制御動作を示すフローチャートである。この制御動作は、オーディオ符号化装置を実現する特には図示しないプロセッサが、特には図示しないメモリに記憶された制御プログラムを実行する動作として実現される。
まず、入力された再生環境の種類613(図6)が取得される(ステップS1301)。
次に、図6の残響特性記憶部612から、入力された再生環境の種類613に対応する残響特性609のインパルス応答が選択されて読み出される(ステップS1302)。
以上のステップS1301およびS1302の処理は、図6の残響特性選択部611に対応する。
次に、入力信号が取得される(ステップS1303)。
そして、聴覚マスキング閾値1102(図11)が算出される(ステップS1304)。
以上のステップS1303およびS1304の処理は、図6の聴覚マスキング算出部604に対応する。
また、ステップS1302で得られた残響特性609のインパルス応答とステップS1303で得られた入力信号と、予め用意されている人の聴覚心理モデルとを用いて残響マスキング閾値809(図8)が算出される(ステップS1305)。ここでの算出処理は、図8から図10で説明したものと同様である。
以上のステップS1303およびS1305の処理は、図6および図8の残響マスキング算出部602に対応する。
次に、聴覚マスキング閾値1102と残響マスキング閾値809が合成され、合成マスキング閾値1103(図11)が算出される(ステップS1306)。ここでの合成処理は、図11および図12で説明したものと同様である。
このステップS1306の処理は、図6のマスキング合成部603に対応する。
次に、合成マスキング閾値1103を用いて、入力信号が量子化される(ステップS1307)。具体的には、入力信号の周波数成分が合成マスキング閾値1103に比較して大きい場合は量子化ビット数が大きく(量子化ステップ幅が細かく)され、入力信号の周波数成分が合成マスキング特性の閾値に比較して小さい場合は量子化ビット数小さく(量子化ステップ幅が粗く)される。
このステップS1307の処理は、図6のマスキング合成部603の一部の機能と量子化器601に対応する。
次に、ステップS1307で量子化された複数の周波数成分の部分信号のデータが、符号化ビット列に多重化される(ステップS1308)。
そして、生成された符号化ビット列が出力される(ステップS1309)。
以上のステップS1308およびS1309の処理は、図6の多重化器606に対応する。
第2の実施形態によれば、第1の実施形態の場合と同様に、更なる低ビットレート化が可能となる。また、オーディオ符号化装置内の残響特性記憶部612に残響特性609を記憶させることにより、符号化装置1401残響特性を外部から与えなくても再生環境の種類613を指定するだけで、残響マスキングの特性607を得ることが可能となる。
図14は、第3の実施形態であるオーディオ信号伝送システムのブロック図である。
このシステムは、復号再生装置1402における再生環境の残響特性1408を推定し、それを符号化装置1401に通知することにより、残響マスキングを利用して入力信号の符号化効率を向上するオーディオ信号伝送システムである。例えば、マルチメディア放送機器および受信端末への利用が考えられる。
まず、符号化装置1401を構成する量子化器601、残響マスキング算出部602、マスキング合成部603、聴覚マスキング算出部604、MDCT部605、および多重化器606の構成および機能は、第2の実施形態に係る図6に示されたものと同様である。
符号化装置1401内の多重化器606から出力された符号化ビット列1403は、復号再生装置1402において、復号部1404で受信される。
復号部1404は、符号化ビット列1403として符号化装置1401から送られてくる量子化されたオーディオ信号(入力信号)を復号する。復号方式としては、例えばAAC(Advanced Audio Coding)方式を採用することができる。
放音部1405は、復号されたオーディオ信号の音を含む音を再生環境で放音する。具体的には例えば、放音部1405は、オーティオ信号を増幅する増幅器と、増幅されたオーディオ信号を放音するスピーカを備える。
収音部1406は、放音部1405により放音された音を再生環境で収音する。具体的には例えば、収音部1406は、放音された音を収音するマイクと、マイクから出力された音声信号を増幅する増幅器と、増幅器から出力された音声信号をデジタル信号に変換するアナログ−デジタル変換器を備える。
残響特性推定部(推定部)1407は、収音部1406により収音された音と放音部1405により放音された音とに基づいて再生環境の残響特性1408を推定する。再生環境の残響特性1408は、例えば再生環境における残響(図4の407に対応する)のインパルス応答である。
残響特性送信部1409は、残響特性推定部1407により推定された再生環境の残響特性1408を、符号化装置1401へ送信する。
これに対して、符号化装置1401内の残響特性受信部1410は、復号再生装置1402から送られてきた再生環境の残響特性1408を受信し、残響マスキング算出部602に転送する。
符号化装置1401内の残響マスキング算出部602は、入力信号と、復号再生装置1402側から通知された再生環境の残響特性1408と、予め用意されている人の聴覚心理モデルとを用いて残響マスキングの特性607を算出する。図6に示した第2の実施形態では、残響マスキング算出部602は、残響特性選択部611が入力された再生環境の種類613に対応して残響特性記憶部612から読み出した再生環境の残響特性609を用いて残響マスキングの特性607を算出する。これに対して、図14に示される第3の実施形態では、復号再生装置1402にて推定された再生環境の残響特性1408を直接受信して残響マスキングの特性607を算出することができる。これにより、再生環境によりマッチした正確な残響マスキングの特性607を算出することが可能となり、符号化ビット列1403の圧縮効率をより高めて、更なる低ビットレート化が可能となる。
図15は、図14の残響特性推定部1407のブロック図である。
残響特性推定部1407は、図14の復号部1404で復号されたデータ1501と、放音部1405内のスピーカ1502で放音された直接音1504、残響1505を収音部1406内のマイク1503で収音した音を入力して動作する適応フィルタ1506を備える。適応フィルタ1506は、マイク1503からの音に自身の適応処理により出力した誤差信号1507を加算する動作を繰り返して、再生環境のインパルス応答を推定する。そして、適応処理が終了したフィルタ特性にインパルスが入力されることにより、インパルス応答としての再生環境の残響特性1408を得る。
なお、特性が既知のマイク1503を使って、適応フィルタ1506は、マイク1503の既知特性を差し引いて再生環境の残響特性1408を推定するように動作してもよい。
このように、第3の実施形態では、残響特性推定部1407が、放音部1405により放音された音が収音部1406に至るまでの伝達特性を適応フィルタ1506を用いて求めることで、再生環境の残響特性1408を精度良く推定することが可能となる。
図16は、図15の構成として示される残響特性推定部1407の機能をソフトウェア処理によって実現する装置の制御動作を示すフローチャートである。この制御動作は、復号再生装置1402を実現する特には図示しないプロセッサが、特には図示しないメモリに記憶された制御プログラムを実行する動作として実現される。
まず、図14の復号部1404から、復号されたデータ1501(図15)が取得される(ステップS1601)。
次に、復号されたデータ1501がスピーカ1502(図15)から放音される(ステップS1602)。
次に、再生環境に配置されたマイク1503で、音が収音される(ステップS1603)。
次に、適応フィルタ1506を用いて、復号されたデータ1501とマイク1503からの収音信号から、再生環境のインパルス応答が推定される(ステップS1604)。
適応処理が終了したフィルタ特性にインパルスが入力されることにより、インパルス応答としての再生環境の残響特性1408が出力される(ステップS1605)。
図14に示した第3の実施形態の構成において、残響特性推定部1407は、オーディオ信号の復号開始時に、予め用意されている試験音を放音部1405から放音させて、それを収音部1406から収音して再生環境の残響特性1408を推定するように動作できる。試験音は、符号化装置1401から送信されてもよいし、復号再生装置1402自身が生成してもよい。残響特性送信部1409は、オーディオ信号の復号開始時に残響特性推定部1407が推定した再生環境の残響特性1408を符号化装置1401へ送信する。これに対して、符号化装置1401内の残響マスキング算出部602は、残響特性受信部1410がオーディオ信号の復号開始時に受信した再生環境の残響特性1408に基づいて残響マスキングの特性607を取得する。
図17は、このように再生環境の残響特性1408を事前送付する処理を行う場合の符号化装置1401と復号再生装置1402の制御処理を示すフローチャートである。この制御処理は、ステップS1701からS1704までの処理は、復号再生装置1402を実現する特には図示しないプロセッサが、特には図示しないメモリに記憶された制御プログラムを実行する動作として実現される。また、ステップS1711からS1714までの処理は、符号化装置1401を実現する特には図示しないプロセッサが、特には図示しないメモリに記憶された制御プログラムを実行する動作として実現される。
まず、図14の復号再生装置1402が復号処理を開始すると、復号再生装置1402側で、開始後例えば1分間、再生環境残響特性609を推定する処理が実施される(ステップS1701)。ここでは、予め用意されている試験音が放音部1405から放音させられ、それが収音部1406から収音されて再生環境の残響特性1408が推定される。試験音は、符号化装置1401から送信されてもよいし、復号再生装置1402自身が生成してもよい。
次に、ステップS1701で推定された再生環境の残響特性1408が、図14の符号化装置1401へ送信される(ステップS1702)。
これに対して、符号化装置1401側では、再生環境の残響特性1408が受信される(ステップS1711)。これにより、前述した合成マスキング特性を生成して量子化ステップ幅を制御する処理が実行され、符号化効率の最適化が図られる。
その後、符号化装置1401において、入力信号を取得し(ステップS1712)、符号化ビット列1403を生成し(ステップS1713)、その符号化ビット列1403を復号再生装置1402側に送信(ステップS1714)する処理が、繰り返し実行開始される。
復号再生装置1402側では、符号化装置1401側から符号化ビット列1403が送られてくると、その符号化ビット列1403を受信、復号し(ステップS1703)、その結果得られる復号信号を再生、放音(ステップS1704)する処理が繰り返し実行される。
以上の再生環境の残響特性1408の事前送付処理により、ユーザが使用する再生環境にマッチしたオーディオ信号の伝送を行うことが可能となる。
一方、上述の事前送付処理ではなく、残響特性推定部1407は、所定時間毎に復号部1404が復号しているオーディオ信号の再生音を放音部1405から放音させて、それを収音部1406から収音して再生環境の残響特性1408を推定するように動作できる。所定時間毎とは、例えば30分毎である。残響特性送信部1409は、残響特性推定部1407が上記推定処理を行う度に、推定された再生環境の残響特性1408を符号化装置1401へ送信する。これに対して、符号化装置1401内の残響マスキング算出部602は、残響特性受信部1410が再生環境の残響特性1408を受信する度に残響マスキングの特性607の取得を行う。マスキング合成部603は、残響マスキング算出部602が残響マスキングの特性607を取得する度に、量子化ステップ幅の制御を更新する。
図18は、このように再生環境の残響特性1408を定期的に送付する処理を行う場合の符号化装置1401と復号再生装置1402の制御処理を示すフローチャートである。この制御処理は、ステップS1801からS1805までの処理は、復号再生装置1402を実現する特には図示しないプロセッサが、特には図示しないメモリに記憶された制御プログラムを実行する動作として実現される。また、ステップS1811からS1814までの処理は、符号化装置1401を実現する特には図示しないプロセッサが、特には図示しないメモリに記憶された制御プログラムを実行する動作として実現される。
図14の復号再生装置1402が復号処理を開始すると、復号再生装置1402側で、前回の残響推定から例えば30分以上が経過したか否かが判定される(ステップS1801)。
前回の残響推定から例えば30分以上が経過しておらずステップS1801の判定がNOならば、ステップS1804に移行して通常の復号処理が実施される。
前回の残響推定から例えば30分以上が経過しステップS1801の判定がYESになると、再生環境残響特性609を推定する処理が実施される(ステップS1802)。ここでは、符号化装置1401から送信された符号化ビット列1403に基づいて復号部1404において復号が行われているオーディオ信号の復号音が放音部1405から放音させられ、それが収音部1406から収音されて再生環境の残響特性1408が推定される。
次に、ステップS1802で推定された再生環境の残響特性1408が、図14の符号化装置1401へ送信される(ステップS1803)。
符号化装置1401側では、入力信号を取得し(ステップS1811)、符号化ビット列1403を生成し(ステップS1813)、その符号化ビット列1403を復号再生装置1402側に送信(ステップS1814)する処理が、繰り返し実行開始されている。この繰返し処理の中で、復号再生装置1402側から再生環境の残響特性1408が送信されてきた場合には、その再生環境の残響特性1408を受信する処理が実行される(ステップS1812)。これにより、前述した合成マスキング特性を生成して量子化ステップ幅を制御する処理が更新実行される。
復号再生装置1402側では、符号化装置1401側から符号化ビット列1403が送られてくると、その符号化ビット列1403を受信、復号し(ステップS1804)、その結果得られる復号信号を再生、放音(ステップS1805)する処理が繰り返し実行される。
以上の再生環境の残響特性1408の定期的な送付処理により、ユーザが使用する再生環境が時間経過とともに変化しても、その変化に符号化効率の最適化を追従させることが可能となる。
以上の第1〜第3の実施形態に関して、更に以下の付記を開示する。
(付記1)
オーディオ信号の量子化を行う量子化器、
前記オーディオ信号で表されている音の再生によって再生環境で生じる前記音の残響が前記音に及ぼす残響マスキングの特性を取得する残響マスキング特性取得部、及び
前記量子化器の量子化ステップ幅を前記残響マスキングの特性に基づいて制御する制御部、
を備えることを特徴とするオーディオ信号符号化装置。
(付記2)
前記制御部は、前記残響マスキングの特性に基づき、前記オーディオ信号で表されている音の大きさが前記残響によってマスクされる大きさである場合には、前記残響によってマスクされない大きさである場合よりも量子化ステップ幅を広げる制御を行うことを特徴とする付記1に記載のオーディオ信号符号化装置。
(付記3)
前記残響マスキング特性取得部は、前記残響マスキングの特性として、前記残響が前記音に及ぼす周波数マスキングの特性を取得することを特徴とする付記1又は2に記載のオーディオ信号符号化装置。
(付記4)
前記残響マスキング特性取得部は、前記残響マスキングの特性として、前記残響が前記音に及ぼす継時マスキングの特性を取得することを特徴とする付記1から3のうちのいずれか一項に記載のオーディオ信号符号化装置。
(付記5)
人の聴覚特性が前記オーディオ信号で表されている音に及ぼす聴覚マスキングの特性を取得する聴覚マスキング特性取得部を更に備え、
前記制御部は、前記量子化器の量子化ステップ幅を、更に、前記聴覚マスキングの特性にも基づいて制御する、
ことを特徴とする付記1から4のうちのいずれか一項に記載のオーディオ信号符号化装置。
(付記6)
前記残響マスキング特性取得部は、前記残響マスキングの特性として、前記残響によってマスクされる音の大きさの周波数特性を取得し、
前記聴覚マスキング特性取得部は、前記聴覚マスキングの特性として、人の聴覚特性によってマスクされる音の大きさの周波数特性を取得し、
前記制御部は、前記残響マスキングの特性である周波数特性と前記聴覚マスキングの特性である周波数特性とにおいて周波数毎に大きい方の特性を選択して得られる合成マスキング特性に基づいて前記量子化器の量子化ステップ幅を制御することを特徴とする付記5に記載のオーディオ信号符号化装置。
(付記7)
前記オーディオ信号を複数の周波数帯域の部分信号に分割する周波数分割部を更に備え、
前記量子化器は、前記複数の部分信号を各々量子化し、
前記量子化器によって量子化された複数の部分信号を多重化する多重化器を更に備える、
ことを特徴とする付記1から6のうちのいずれか一項に記載のオーディオ信号符号化装置。
(付記8)
前記残響マスキング特性取得部は、前記オーディオ信号と、前記再生環境の残響特性と、予め用意されている人の聴覚心理モデルとを用いて前記残響マスキングの特性を算出することを特徴とする付記1から7のうちのいずれか一項に記載のオーディオ信号符号化装置。
(付記9)
前記残響マスキング特性取得部は、前記残響特性として、再生環境毎に予め用意されている残響特性から選択されたものを用いて前記残響マスキングの特性を算出することを特徴とする付記8に記載のオーディオ信号符号化装置。
(付記10)
前記残響マスキング特性取得部は、前記再生環境に対応する残響特性の選択情報を受け取ることにより、前記再生環境に対応する残響特性を選択することを特徴とする付記9に記載のオーディオ信号符号化装置。
(付記11)
前記残響マスキング特性取得部は、前記残響特性として、前記再生環境で収音した音と、該音を収音したときに前記再生環境で発せられていた音とに基づいた前記再生環境における残響特性の推定結果を用いて前記残響マスキングの特性を算出することを特徴とする付記8に記載のオーディオ信号符号化装置。
(付記12)
オーディオ信号を符号化する符号化装置、及び
前記符号化装置により符号化されたオーディオ信号を復号して該オーディオ信号で表されている音を再生環境で再生する復号再生装置、
を備え、
前記符号化装置は、
オーディオ信号の量子化を行う量子化器、
前記量子化されたオーディオ信号を前記復号再生装置へ送信するオーディオ信号送信部、
前記オーディオ信号で表されている音の再生によって前記再生環境で生じる前記音の残響が前記音に及ぼす残響マスキングの特性を、前記オーディオ信号と、前記再生環境の残響特性と、予め用意されている人の聴覚心理モデルとを用いて算出して取得する残響マスキング特性取得部、
前記再生環境の残響特性を、前記復号再生装置から受信する残響特性受信部、及び
前記量子化器の量子化ステップ幅を前記残響マスキングの特性に基づいて制御する制御部、
を備え、
前記復号再生装置は、
前記符号化装置から送られてくる、前記量子化されたオーディオ信号を復号する復号部、
前記復号されたオーディオ信号の音を含む音を前記再生環境で放音する放音部、
前記放音部により放音された音を前記再生環境で収音する収音部、
前記収音部により収音された音と前記放音部により放音された音とに基づいて前記再生環境の残響特性を推定する推定部、及び
前記推定部により推定された前記再生環境の残響特性を前記符号化装置へ送信する残響特性送信部、
を備える、
ことを特徴とするオーディオ信号伝送システム。
(付記13)
前記推定部は、前記放音部により放音された音が前記収音部に至るまでの伝達特性を求めることによって、前記再生環境の残響特性を推定することを特徴とする付記12に記載のオーディオ信号伝送システム。
(付記14)
前記放音部は、予め用意されている試験音を放音し、
前記推定部は、前記試験音を用いて前記再生環境の残響特性を推定する、
ことを特徴とする付記12又は13に記載のオーディオ信号伝送システム。
(付記15)
前記放音部は、前記復号部により復号されたオーディオ信号で表されている音を放音し、
前記推定部は、前記復号部により復号されたオーディオ信号で表されている音を用いて前記再生環境の残響特性を推定する、
ことを特徴とする付記12又は13に記載のオーディオ信号伝送システム。
(付記16)
前記推定部は、前記オーディオ信号の復号開始時に前記再生環境の残響特性の推定を行い、
前記送信部は、前記オーディオ信号の復号開始時に前記推定部が推定した前記再生環境の残響特性を前記符号化装置へ送信し、
前記残響マスキング特性取得部は、前記残響特性受信部が前記オーディオ信号の復号開始時に受信した前記再生環境の残響特性に基づいて前記残響マスキングの特性を取得する、
ことを特徴とする付記14又は15に記載のオーディオ信号伝送システム。
(付記17)
前記推定部は、所定時間毎に前記再生環境の残響特性の推定を行い、
前記送信部は、前記推定部が前記再生環境の残響特性の推定を行う度に、推定された前記再生環境の残響特性を前記符号化装置へ送信し、
前記残響マスキング特性取得部は、前記残響特性受信部が前記再生環境の残響特性を受信する度に前記残響マスキングの特性の取得を行い、
前記制御部は、前記残響マスキング特性取得部が前記残響マスキングの特性を取得する度に、前記量子化ステップ幅の制御を更新する、
ことを特徴とする付記15に記載のオーディオ信号伝送システム。
(付記18)
オーディオ信号の量子化を行い、
前記オーディオ信号で表されている音の再生によって再生環境で生じる前記音の残響が前記音に及ぼす残響マスキングの特性を取得し、
前記量子化器の量子化ステップ幅を前記残響マスキングの特性に基づいて制御する、
ことを備えることを特徴とするオーディオ信号符号化方法。
(付記19)
オーディオ信号を符号化する符号化装置において、
前記符号化装置により符号化されたオーディオ信号を復号して該オーディオ信号で表されている音を再生環境で再生する復号再生装置から前記再生環境の残響特性を受信し、
前記オーディオ信号で表されている音の再生によって前記再生環境で生じる前記音の残響が前記音に及ぼす残響マスキングの特性を、前記オーディオ信号と、前記受信した再生環境の残響特性と、予め用意されている人の聴覚心理モデルとを用いて算出して取得し、
量子化器の量子化ステップ幅を前記残響マスキングの特性に基づいて制御し、
前記量子化ステップ幅が制御された量子化器を用いて前記オーディオ信号の量子化を行い、
前記量子化されたオーディオ信号を前記復号再生装置へ送信する、
ことを備え、
前記復号再生装置において、
前記符号化装置から送られてくる、前記量子化されたオーディオ信号を復号し、
前記復号されたオーディオ信号の音を含む音を前記再生環境で放音し、
前記放音された音を前記再生環境で収音し、
前記収音された音と前記放音された音とに基づいて前記再生環境の残響特性を推定し、
前記推定された前記再生環境の残響特性を前記符号化装置へ送信する、
ことを備える、
ことを特徴とするオーディオ信号伝送方法。
(付記20)
符号化装置から送られてくる、量子化されたオーディオ信号を復号する復号部、
前記復号されたオーディオ信号の音を含む音を再生環境で放音する放音部、
前記放音部により放音された音を前記再生環境で収音する収音部、
前記収音部により収音された音と前記放音部により放音された音とに基づいて前記再生環境の残響特性を推定する推定部、及び
前記推定部により推定された前記再生環境の残響特性を前記符号化装置へ送信する残響特性送信部、
を備えることを特徴とするオーディオ信号復号装置。
(付記21)
符号化装置から送られてくる、量子化されたオーディオ信号を復号し、
前記復号されたオーディオ信号の音を含む音を再生環境で放音し、
前記放音された音を前記再生環境で収音し、
前記収音された音と前記放音された音とに基づいて前記再生環境の残響特性を推定し、
前記推定された前記再生環境の残響特性を前記符号化装置へ送信する、
ことを備えることを特徴とするオーディオ信号復号方法。
101、605 修正離散コサイン変換(MDCT:Modified Discrete Cosine Transform)部
102 量子化部
103 多重化部
104、604 聴覚マスキング算出部
201 マスキングカーブ
202 マスキング範囲
301、601 量子化器
302 残響マスキング特性取得部
303 制御部
304 聴覚マスキング特性取得部
305 周波数分割部
306、606 多重化器
307、607 残響マスキングの特性
308、608 量子化ステップ幅
309、609 残響特性
310、610 聴覚マスキングの特性
401 送信側
402 受信側
403、1401 符号化装置
404 再生装置
405 符号化データ
406、1504 直接音
407、1505 残響
501、502 聴覚マスキングの範囲
503 残響マスキングの範囲
602 残響マスキング算出部
603 マスキング合成部
604 聴覚マスキング算出部
611 残響特性選択部
612 残響特性記憶部
613 再生環境の種類
801 残響信号生成部
802 時間−周波数変換部
803 マスキング算出部
804 残響環境のインパルス応答
805 入力信号
806 残響信号
807 残響スペクトル
808 聴覚心理モデル
809 残響マスキング閾値
901、1002 電力ピーク
902A、902B、1003a、1003b マスキングカーブ
1001 残響信号の周波数成分
1101 最大値算出部
1102 聴覚マスキング閾値
1103 合成マスキング閾値
1402 復号再生装置
1403 符号化ビット列
1404 復号部
1405 放音部
1406 収音部
1407 残響特性推定部
1408 再生環境の残響特性
1409 残響特性送信部
1410 残響特性受信部
1501 復号されたデータ
1502 スピーカ
1503 マイク
1506 適応フィルタ
1507 誤差信号

Claims (10)

  1. オーディオ信号の量子化を行う量子化器、
    前記オーディオ信号で表されている音の再生によって再生環境で生じる前記音の残響が前記音に及ぼす残響マスキングの特性を、前記再生環境で放音された音が収音部に至るまでの伝達特性を用いて推定する残響マスキング特性取得部、及び
    前記量子化器の量子化ステップ幅を前記残響マスキングの特性に基づいて制御する制御部、
    を備えることを特徴とするオーディオ信号符号化装置。
  2. 前記制御部は、前記残響マスキングの特性に基づき、前記オーディオ信号で表されている音の大きさが前記残響によってマスクされる大きさである場合には、前記残響によってマスクされない大きさである場合よりも量子化ステップ幅を広げる制御を行うことを特徴とする請求項1に記載のオーディオ信号符号化装置。
  3. 前記残響マスキング特性取得部は、前記残響マスキングの特性として、前記残響が前記音に及ぼす周波数マスキングの特性を取得することを特徴とする請求項1又は2に記載のオーディオ信号符号化装置。
  4. 前記残響マスキング特性取得部は、前記残響マスキングの特性として、前記残響が前記音に及ぼす継時マスキングの特性を取得することを特徴とする請求項1から3のうちのいずれか一項に記載のオーディオ信号符号化装置。
  5. 人の聴覚特性が前記オーディオ信号で表されている音に及ぼす聴覚マスキングの特性を取得する聴覚マスキング特性取得部を更に備え、
    前記制御部は、前記量子化器の量子化ステップ幅を、更に、前記聴覚マスキングの特性にも基づいて制御する、
    ことを特徴とする請求項1から4のうちのいずれか一項に記載のオーディオ信号符号化装置。
  6. 前記残響マスキング特性取得部は、前記残響マスキングの特性として、前記残響によってマスクされる音の大きさの周波数特性を取得し、
    前記聴覚マスキング特性取得部は、前記聴覚マスキングの特性として、人の聴覚特性によってマスクされる音の大きさの周波数特性を取得し、
    前記制御部は、前記残響マスキングの特性である周波数特性と前記聴覚マスキングの特性である周波数特性とにおいて周波数毎に大きい方の特性を選択して得られる合成マスキング特性に基づいて前記量子化器の量子化ステップ幅を制御することを特徴とする請求項5に記載のオーディオ信号符号化装置。
  7. オーディオ信号を符号化する符号化装置、及び
    前記符号化装置により符号化されたオーディオ信号を復号して該オーディオ信号で表されている音を再生環境で再生する復号再生装置、
    を備え、
    前記符号化装置は、
    オーディオ信号の量子化を行う量子化器、
    前記量子化されたオーディオ信号を前記復号再生装置へ送信するオーディオ信号送信部、
    前記オーディオ信号で表されている音の再生によって前記再生環境で生じる前記音の残響が前記音に及ぼす残響マスキングの特性を、前記オーディオ信号と、前記再生環境で放音された音が収音部に至るまでの伝達特性を用いて推定する残響特性と、予め用意されている人の聴覚心理モデルとを用いて算出して取得する残響マスキング特性取得部、
    前記再生環境の残響特性を、前記復号再生装置から受信する残響特性受信部、及び
    前記量子化器の量子化ステップ幅を前記残響マスキングの特性に基づいて制御する制御部、
    を備え、
    前記復号再生装置は、
    前記符号化装置から送られてくる、前記量子化されたオーディオ信号を復号する復号部、
    前記復号されたオーディオ信号の音を含む音を前記再生環境で放音する放音部、
    前記放音部により放音された音を前記再生環境で収音する収音部、
    前記収音部により収音された音と前記放音部により放音された音とに基づいて前記再生環境の残響特性を推定する推定部、及び
    前記推定部により推定された前記再生環境の残響特性を前記符号化装置へ送信する残響特性送信部、
    を備える、
    ことを特徴とするオーディオ信号伝送システム。
  8. オーディオ信号の量子化を行い、
    前記オーディオ信号で表されている音の再生によって再生環境で生じる前記音の残響が前記音に及ぼす残響マスキングの特性を、前記再生環境で放音された音が収音部に至るまでの伝達特性を用いて推定し、
    前記量子化器の量子化ステップ幅を前記残響マスキングの特性に基づいて制御する、
    ことを備えることを特徴とするオーディオ信号符号化方法。
  9. オーディオ信号を符号化する符号化装置において、
    前記符号化装置により符号化されたオーディオ信号を復号して該オーディオ信号で表されている音を再生環境で再生する復号再生装置から前記再生環境の残響特性を受信し、
    前記オーディオ信号で表されている音の再生によって前記再生環境で生じる前記音の残響が前記音に及ぼす残響マスキングの特性を、前記オーディオ信号と、前記再生環境で放音された音が収音部に至るまでの伝達特性を用いて推定する残響特性と、予め用意されている人の聴覚心理モデルとを用いて算出して取得し、
    量子化器の量子化ステップ幅を前記残響マスキングの特性に基づいて制御し、
    前記量子化ステップ幅が制御された量子化器を用いて前記オーディオ信号の量子化を行い、
    前記量子化されたオーディオ信号を前記復号再生装置へ送信する、
    ことを備え、
    前記復号再生装置において、
    前記符号化装置から送られてくる、前記量子化されたオーディオ信号を復号し、
    前記復号されたオーディオ信号の音を含む音を前記再生環境で放音し、
    前記放音された音を前記再生環境で収音し、
    前記収音された音と前記放音された音とに基づいて前記再生環境の残響特性を推定し、
    前記推定された前記再生環境の残響特性を前記符号化装置へ送信する、
    ことを備える、
    ことを特徴とするオーディオ信号伝送方法。
  10. 符号化装置から送られてくる、量子化されたオーディオ信号を復号する復号部、
    前記復号されたオーディオ信号の音を含む音を再生環境で放音する放音部、
    前記放音部により放音された音を前記再生環境で収音する収音部、
    前記収音部により収音された音と前記放音部により放音された音とに基づいて前記再生環境の残響特性を、前記再生環境で放音された音が収音部に至るまでの伝達特性を用いて推定する推定部、及び
    前記推定部により推定された前記再生環境の残響特性を前記符号化装置へ送信する残響特性送信部、
    を備えることを特徴とするオーディオ信号復号装置。
JP2012267142A 2012-12-06 2012-12-06 オーディオ信号符号化装置および方法、オーディオ信号伝送システムおよび方法、オーディオ信号復号装置 Expired - Fee Related JP6160072B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2012267142A JP6160072B2 (ja) 2012-12-06 2012-12-06 オーディオ信号符号化装置および方法、オーディオ信号伝送システムおよび方法、オーディオ信号復号装置
US14/093,798 US9424830B2 (en) 2012-12-06 2013-12-02 Apparatus and method for encoding audio signal, system and method for transmitting audio signal, and apparatus for decoding audio signal
EP13195452.1A EP2741287B1 (en) 2012-12-06 2013-12-03 Apparatus and method for encoding audio signal, system and method for transmitting audio signal
CN201310641777.1A CN103854656B (zh) 2012-12-06 2013-12-03 音频信号编码装置和方法、传输系统和方法以及解码装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012267142A JP6160072B2 (ja) 2012-12-06 2012-12-06 オーディオ信号符号化装置および方法、オーディオ信号伝送システムおよび方法、オーディオ信号復号装置

Publications (2)

Publication Number Publication Date
JP2014115316A JP2014115316A (ja) 2014-06-26
JP6160072B2 true JP6160072B2 (ja) 2017-07-12

Family

ID=49679446

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012267142A Expired - Fee Related JP6160072B2 (ja) 2012-12-06 2012-12-06 オーディオ信号符号化装置および方法、オーディオ信号伝送システムおよび方法、オーディオ信号復号装置

Country Status (4)

Country Link
US (1) US9424830B2 (ja)
EP (1) EP2741287B1 (ja)
JP (1) JP6160072B2 (ja)
CN (1) CN103854656B (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10418042B2 (en) 2014-05-01 2019-09-17 Nippon Telegraph And Telephone Corporation Coding device, decoding device, method, program and recording medium thereof
CN105280188B (zh) * 2014-06-30 2019-06-28 美的集团股份有限公司 基于终端运行环境的音频信号编码方法和系统
CN108665902B (zh) 2017-03-31 2020-12-01 华为技术有限公司 多声道信号的编解码方法和编解码器
CN113207058B (zh) * 2021-05-06 2023-04-28 恩平市奥达电子科技有限公司 一种音频信号的传输处理方法
CN114495968B (zh) * 2022-03-30 2022-06-14 北京世纪好未来教育科技有限公司 语音处理方法、装置、电子设备及存储介质

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2976429B2 (ja) * 1988-10-20 1999-11-10 日本電気株式会社 アドレス制御回路
JP3446216B2 (ja) 1992-03-06 2003-09-16 ソニー株式会社 音声信号処理方法
JP2820117B2 (ja) 1996-05-29 1998-11-05 日本電気株式会社 音声符号化装置
KR100261254B1 (ko) 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치
US6154552A (en) * 1997-05-15 2000-11-28 Planning Systems Inc. Hybrid adaptive beamformer
JP3750705B2 (ja) * 1997-06-09 2006-03-01 松下電器産業株式会社 音声符号化伝送方法及び音声符号化伝送装置
JP2000148191A (ja) 1998-11-06 2000-05-26 Matsushita Electric Ind Co Ltd ディジタルオーディオ信号の符号化装置
JP3590342B2 (ja) 2000-10-18 2004-11-17 日本電信電話株式会社 信号符号化方法、装置及び信号符号化プログラムを記録した記録媒体
CN1898724A (zh) * 2003-12-26 2007-01-17 松下电器产业株式会社 语音/乐音编码设备及语音/乐音编码方法
ATE539431T1 (de) 2004-06-08 2012-01-15 Koninkl Philips Electronics Nv Kodierung von tonsignalen mit hall
GB0419346D0 (en) * 2004-09-01 2004-09-29 Smyth Stephen M F Method and apparatus for improved headphone virtualisation
US8284947B2 (en) * 2004-12-01 2012-10-09 Qnx Software Systems Limited Reverberation estimation and suppression system
DE102005010057A1 (de) * 2005-03-04 2006-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms
JP4175376B2 (ja) * 2006-03-30 2008-11-05 ヤマハ株式会社 オーディオ信号処理装置、オーディオ信号処理方法、及びオーディオ信号処理プログラム
KR101435411B1 (ko) * 2007-09-28 2014-08-28 삼성전자주식회사 심리 음향 모델의 마스킹 효과에 따라 적응적으로 양자화간격을 결정하는 방법과 이를 이용한 오디오 신호의부호화/복호화 방법 및 그 장치
TWI475896B (zh) * 2008-09-25 2015-03-01 Dolby Lab Licensing Corp 單音相容性及揚聲器相容性之立體聲濾波器
US9467790B2 (en) 2010-07-20 2016-10-11 Nokia Technologies Oy Reverberation estimator
US8761410B1 (en) * 2010-08-12 2014-06-24 Audience, Inc. Systems and methods for multi-channel dereverberation
CN102436819B (zh) * 2011-10-25 2013-02-13 杭州微纳科技有限公司 无线音频压缩、解压缩方法及音频编码器和音频解码器

Also Published As

Publication number Publication date
CN103854656A (zh) 2014-06-11
CN103854656B (zh) 2017-01-18
US9424830B2 (en) 2016-08-23
JP2014115316A (ja) 2014-06-26
US20140161269A1 (en) 2014-06-12
EP2741287B1 (en) 2015-08-19
EP2741287A1 (en) 2014-06-11

Similar Documents

Publication Publication Date Title
CN107851440B (zh) 经编码音频扩展的基于元数据的动态范围控制
JP3870193B2 (ja) 高周波再構成に用いる符号器、復号器、方法及びコンピュータプログラム
RU2381571C2 (ru) Синтезирование монофонического звукового сигнала на основе кодированного многоканального звукового сигнала
KR100981694B1 (ko) 스테레오 신호들의 코딩
JP6160072B2 (ja) オーディオ信号符号化装置および方法、オーディオ信号伝送システムおよび方法、オーディオ信号復号装置
US20060004566A1 (en) Low-bitrate encoding/decoding method and system
KR20180104701A (ko) 채널 간 시간 차를 추정하기 위한 장치 및 방법
JP2012198555A (ja) オーディオ信号の重要周波数成分の抽出方法及びその装置、及びこれを利用した低ビット率オーディオ信号の符号化及び/または復号化方法及びその装置
Hwang Multimedia networking: From theory to practice
JP2006139306A (ja) アダプティブディザを減算し、埋没チャンネルビットを挿入し、フィルタリングすることによりマルチビット符号ディジタル音声を符号化する方法及び装置、及びこの方法のための符号化及び復号化装置
JP2013543712A (ja) 音を増強させるための方法及びシステム
EP3762923B1 (en) Audio coding
JP4021124B2 (ja) デジタル音響信号符号化装置、方法及び記録媒体
CN105745703A (zh) 信号编码方法和装置以及信号解码方法和装置
KR20070122414A (ko) 디지털 신호 처리 장치, 디지털 신호 처리 방법, 디지털신호 처리 프로그램, 디지털 신호 재생 장치 및 디지털신호 재생 방법
JP2004199075A (ja) ビット率調節可能なステレオオーディオ符号化・復号化方法及びその装置
WO2016016051A1 (en) Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
JP4944317B2 (ja) デジタルオーディオ圧縮アプリケーションにおいてオーディオ材料を事前に分類する方法および装置
US9311925B2 (en) Method, apparatus and computer program for processing multi-channel signals
KR102605961B1 (ko) 고해상도 오디오 코딩
JP2013073230A (ja) オーディオ符号化装置
JPWO2010150767A1 (ja) 符号化方法、復号方法、それらの方法を用いた装置、プログラム、記録媒体
JP7262593B2 (ja) ハイレゾリューションオーディオ符号化
WO2020149227A1 (ja) 復号装置、復号方法、及びプログラム
CN113302684B (zh) 高分辨率音频编解码

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150804

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161018

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170516

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170529

R150 Certificate of patent or registration of utility model

Ref document number: 6160072

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees