JP5722912B2 - 音響通信方法及び音響通信方法を実行させるためのプログラムを記録した記録媒体 - Google Patents

音響通信方法及び音響通信方法を実行させるためのプログラムを記録した記録媒体 Download PDF

Info

Publication number
JP5722912B2
JP5722912B2 JP2012541958A JP2012541958A JP5722912B2 JP 5722912 B2 JP5722912 B2 JP 5722912B2 JP 2012541958 A JP2012541958 A JP 2012541958A JP 2012541958 A JP2012541958 A JP 2012541958A JP 5722912 B2 JP5722912 B2 JP 5722912B2
Authority
JP
Japan
Prior art keywords
signal
acoustic communication
mask
communication method
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012541958A
Other languages
English (en)
Other versions
JP2013512474A (ja
Inventor
ヒ−ウォン・ジュン
ジュン−ホ・コ
サン−ムク・イ
ギ−サン・イ
セルゲイ・ジドコフ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2013512474A publication Critical patent/JP2013512474A/ja
Application granted granted Critical
Publication of JP5722912B2 publication Critical patent/JP5722912B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)
  • Noise Elimination (AREA)

Description

本発明は、音響信号を用いて移動装置間でディジタルデータを送信するための音響通信のための方法及び装置に関し、特に、音響心理モデルを用いる音響通信のための方法及び装置に関する。
音響通信(acoustic communication)は、移動装置間でディジタル情報を転送するための可能な方法のうちの1つである。音響通信の長所のうちの1つは、データ通信プロトコルが任意の無線基盤通信システム(radio-based communication system)に要求されるアンテナ及びRFフロントエンド(front-end)などのような追加のハードウェア素子なしに完全にソフトウェアのみを用いて既存の装置上に実現されることができるというものである。
幾つかの方法は、人間の耳に楽であり人間が理解可能な追加の情報を伝達することができるように音楽又はスピーチ信号による音響通信をマスキング(masking)するための様々な方法が提案されてきた。このような方法は、“D.Gruhl, A.Lu and W.Bender,“Echo Hiding”, Proceedings of the First International Workshop on Information Hiding, Cambridge, U.K., May 30 -June 1, 1996, pp. 293-315”に開示されたようなエコーによる埋込み(Echo-Hiding)又は“L. Boney, et al., Digital watermarks for audio signals,” IEEE Intl. Conf. on Multimedia Computing and Systems, pp.473-480, March 1996”で説明したようにノイズレベル以下の拡散スペクトル信号(spread-spectrum signal)を付加する方法を含む。
図1は、オーディオプログラムを音響通信信号と混合(mixing)する従来の方法を示す図である。このような方法を実現するための装置100は、音響通信信号生成器110、結合器120、及びスピーカ130を含む。上述した方法において、拡散スペクトル信号のような低いレベル通信信号は、音楽、スピーチ、アラーム音などのようなオーディオプログラムに単純に付加される。音響通信信号生成器110から出力される音響通信信号及びオーディオプログラムは、結合器120により結合される(又は混合される)。この結合された信号は、スピーカ130を通して音波の形態で放射される。
不幸にも、従来の方法は、音響通信チャネルの容量を完全に活用することができず、したがって、非常に低いビットレート、すなわち、秒当たりの数ビットだけを実現する。
“Y. Nakashima, et al., in Evaluation and Demonstration of Acoustic OFDM, Proc. Fortieth Asilomar Conference on Signals, Systems and Computers, 2006. ACSSC 2006, pp. 1747-1751”に記述されたタイプのような良好な方法は、スピーチ/音楽オーディオプログラムの高周波数ビンをスペクトル形態(spectrally shaped)の通信信号に置き換えることに基づく。
図2は、既知の周波数代替技術を用いる音響通信信号と混合したオーディオ信号の生成方法を説明するための図である。このような方法を実現するための装置200は、高速フーリエ変換(Fast Fourier Transform:FFT)ブロック210、帯域スプリッタ(band splitter)220、逆高速フーリエ変換(Inverse Fast Fourier Transform:IFFT)ブロック230、順方向エラー訂正(Forward Error Correction:FEC)符号化ブロック240、直交周波数分割多重(Orthogonal Frequency Division Multiplexing:OFDM)変調器250、結合器260、及びスピーカ270を含む。
FFTブロック210は、音楽又はスピーチのようなオリジナルオーディオ信号(又はプログラム)のFFTを実行する。この後に、帯域スプリッタ220は、FFTが実行されたオーディオ信号を高周波数ビン及び低周波数ビンに分割し、低周波数ビンをIFFTブロック230に出力し、高周波数ビンをOFDM変調器250に出力する。IFFTブロック230は、高周波数ビンが除去されたオリジナルオーディオ信号(低周波数ビンに対応する)の逆高速フーリエ変換を実行する。
FEC符号化ブロック240は、入力されたディジタルデータの順方向エラー訂正(Forward Error Correction:FEC)符号化を実行する。OFDM変調器250は、高周波数ビンに従って符号化されたディジタルデータのOFDMを実行し、このデータを出力し、OFDM変調器からの音響通信信号は、高周波数ビンと同様の形態のスペクトル包絡(spectral envelope)を有する。言い換えれば、高周波数ビンは、音響通信信号に置き換えられる。
図3a及び図3bは、周波数代替技術に従って生成される信号を示す図である。図3aは、オリジナルオーディオ信号330の周波数スペクトルを示し、図3bは、代替音響通信信号を有する変形されたオーディオ信号330aの周波数スペクトルを示す。この時に、各周波数スペクトルにおいて、横軸は周波数を示し、縦軸は信号強度を示す。図3aに示すように、オリジナルオーディオ信号330は、周波数分割に基づいて高周波数ビン(又は領域)320及び低周波数ビン310に分割される。図3bに示すように、変形されたオーディオ信号330aの低周波数ビン310はオリジナルオーディオ信号の低周波数ビンと同一であり、オリジナルオーディオ信号の高周波数ビン320は変形されたオーディオ信号の音響通信信号325に置き換えられる。
このような方法は、オリジナルオーディオ信号及び音響通信信号が分離された周波数帯域で送信されるために、音響信号受信器の単純な実装を可能にする。しかしながら、このような方法は2つの短所を有する。
1番目に、オリジナルオーディオ信号及び音響通信信号の間で周波数領域での急激な転移(sharp transition)が存在するために(図3bを参照)、このような方法は、オリジナルオーディオ信号、すなわち、音楽/スピーチ信号の品質を低下させる。
2番目に、このような方法は、音響通信信号が相対的に高いオーディオ周波数に集中するために使用可能信号帯域幅を完全に活用することができない。結果的に、音楽/スピーチオーディオプログラムが高周波数ビンを含まないか又は受信装置マイクロフォンが高周波数ビンを含む全広帯域オーディオスペクトルを検出することができない場合に、音響データ通信は不可能である(減少したビットレートでも)。
本発明の目的は、少なくとも上述した問題点及び/又は不都合に取り組み、少なくとも以下の便宜を提供することにある。すなわち、本発明の目的は、オリジナルオーディオ信号と代替音響通信信号間の急激な境界を避けることができる音響通信のための装置及び方法を提供することにある。
本発明の他の目的は、オリジナルオーディオ信号の全スペクトルを効率的に使用することができる音響通信のための装置及び方法を提供することにある。
上記のような目的を達成するために、本発明の一態様によれば、音響通信方法は、オーディオ信号の高周波数部分が減衰するように前記オーディオ信号をフィルターリングするステップと、前記オーディオ信号及び前記フィルターリングされた信号間の差に対応する残留信号を生成するステップと、予め定められた心理音響モデルに基づいて前記オーディオ信号に対する心理音響マスクを生成するステップと、前記残留信号を前記心理音響マスクと結合することにより音響信号スペクトルマスクを生成するステップと、前記音響信号スペクトルマスクに従ってディジタルデータを変調することにより音響通信信号を生成するステップと、前記音響通信信号を前記フィルターリングされた信号と結合するステップとを有することを特徴とする。
本発明による音響通信のための方法及び装置は、少なくとも次のような長所を提供する。
1番目に、本発明によると、音響通信信号をオーディオプログラムに挿入することによる歪んだ信号のオーディオ感度を減少させることができる。
2番目に、本発明によると、受信マイクロフォンが全広帯域オーディオスペクトルを検出しないか又はオーディオプログラムが高周波数ビンを含まない場合にもデータ送信を許容するようにすべてのオーディオ帯域幅を効率的に使用することができる。
本発明の他の目的、利点、及び顕著な特徴は、添付の図面及び本発明の実施形態からなされる以下の詳細な説明から、当業者にとって明確になるはずである。
オーディオプログラムを音響通信信号と混合する従来の方法を説明するための図である。 既知の周波数代替技術を用いる音響通信信号と混合したオーディオ信号を示す図である。 周波数代替技術に従って生成される信号を示す図である。 周波数代替技術に従って生成される信号を示す図である。 本発明の実施形態に従う音響通信を実行するための装置を示す図である。 本発明の実施形態に従う信号生成手順の異なるステップでの信号スペクトルを示す図である。 本発明の実施形態に従う信号生成手順の異なるステップでの信号スペクトルを示す図である。 本発明の実施形態に従う信号生成手順の異なるステップでの信号スペクトルを示す図である。 本発明の実施形態に従う信号生成手順の異なるステップでの信号スペクトルを示す図である。 本発明の実施形態に従う信号生成手順の異なるステップでの信号スペクトルを示す図である。 本発明の実施形態に従う信号生成手順の異なるステップでの信号スペクトルを示す図である。 周波数マスキングしきい値の算出及びしきい以下の音響通信信号の配置を行う方法を説明するための図である。 本発明の実施形態による心理音響マスクを算出するための方法の主要ステップを示すフローチャートである。
当業者は、図面内の要素が単純化及び明瞭化のために例示されただけであり、そのスケールに基づいて示されないことが分かる。例えば、本発明の様々な実施形態の理解を助けるために図面内のいくつかの要素の大きさは他の要素と比較して誇張されることができる。
また、方法のステップ及び装置の要素は、図面内で通常のシンボルで表現され、発明の細部事項だけが図示されることに留意しなければならない。また、当業者に知られている細部事項は省略することができる。本発明において、“第1”及び“第2”のような相対的な用語は1つの要素を別の要素から分割するために使用されることもあり、これは、このような要素間の任意の実際の関係又は順序を意味しない。
本発明の実施形態において、2個の基本的なアイディアが記載されている。1番目に、オリジナルオーディオ信号と代替音響通信信号間の急激な境界を避ける。2番目に、このような追加が人間の耳で知覚されないという点で全体の使用可能なオーディオ信号スペクトル内に少量の音響通信信号を付加する。
したがって、本発明による音響通信信号を生成するために、音楽又はスピーチのようなオリジナルオーディオ信号は、高周波数ビンを徐々に減衰させるハイシェルフ(high-shelf)フィルターでフィルターリングされる。例えば、ここに説明される図5bを参照する。この後に、オリジナル信号と減衰した信号間の差が算出される。このような残留信号のスペクトル形態が保存される。また、いわゆる、心理音響(又は周波数)マスキングしきい値(psychoacoustic masking threshold)がオリジナルオーディオ信号のスペクトル形態に従って算出される。心理音響マスキングしきい値の算出は、所定の周波数の強いオーディオ信号が存在する場合に近接した周波数のオーディオ信号は通常のリスナーに聞こえなくなってしまうという事実に基づく。このような効果は、図6を参照して概略的に例示され説明される。
このような効果は、“周波数マスキング効果”と知られており、可聴しきい値以下の信号周波数ビンを除去する非可逆オーディオ圧縮アルゴリズム(lossy audio compression algorithms)に広く活用されている。本発明において、周波数マスキングしきい値は、音響通信信号をマスキングしきい値以下に配置することにより聞こえないようにするために算出される。
最後に、2つのスペクトル形態、すなわち、残留スペクトル及び周波数マスキングしきい値から導出される心理音響マスキングスペクトルは、音響通信信号のための最終的なスペクトル包絡マスクを生成するために結合される。
図4は、本発明の望ましい実施形態による音響通信を実行するための装置を示す図である。図5a乃至図5fは、本発明による信号生成手順の異なるステップ上の信号スペクトルを示す図である。
図4に示すように、装置400は、高周波数減衰フィルター410、第1の結合器422、FFTブロック430、包絡推定ブロック440、心理音響モデリングブロック450、第2の結合器424、オブジェクト符号化ブロック460、多重搬送波変調器470、第3の結合器426、及びスピーカ480を含む。
図5aは、オリジナルオーディオ信号510の周波数スペクトルを示す図である。図5a及び図5c乃至図5fにおいて、横軸は周波数を示し、縦軸は信号強度を示す。周波数スペクトルのアウトライン、すなわち、包絡だけが図示されているが、このような包絡は、複数の周波数ビンを含む。
高周波数減衰フィルター410は、中間周波数領域及び高周波数領域でスペクトルエネルギーを次第に減少させるフィルター応答特性を有する。図5bは、高周波数減衰フィルター410のフィルター応答特性520を示し、横軸は周波数を示し、縦軸は信号透過率を示す。図5bを参照すると、高周波数減衰フィルター410は、何の変更なしに低周波数領域の信号をほとんどそのまま通過させ、中間周波数領域及び高周波数領域の信号を次第に減少させることがわかる。
オリジナルオーディオ信号は、高周波数減衰(又はハイシェルフ)フィルター410でフィルターリングされる。図5bに示すように、フィルター応答特性で急激な遮断周波数(cut-off frequency)が存在しない(例えば、図5bを参照)。したがって、高周波数減衰フィルター410により導入されたスペクトル歪みはより人間の耳に刺激が少ない。
図5cは、オリジナルオーディオ信号510及びフィルターリングされた信号530の周波数スペクトルを示す図である。
オリジナルオーディオ信号及びフィルターリングされた信号は、第1の結合器422に入力され、第1の結合器422は、オリジナル信号とフィルターリングされた信号間の差、すなわち、残留信号を出力する。
図5dは、第1の結合器422から出力される残留信号540の周波数スペクトルを示す。残留信号540は、オリジナル信号510とフィルターリングされた信号530間の差に対応する。
FFTブロック430は、残留信号の高速フーリエ変換(FFT)を実行する。言い換えれば、FFTブロック430は、時間ドメインでの残留信号を周波数ドメインでの信号に変換する。
包絡推定ブロック440は、この変換された残留信号を分析し、残留信号のスペクトル形態である包絡を推定(又は検出)する。
このような残留信号がオリジナルオーディオ信号(又はプログラム)から除去されるために、これは、同一のスペクトル形態を有する音響通信信号により補償されなければならない。しかしながら、上述したように、そのスペクトルマスクが周波数マスキングしきい値(実質的な可聴しきい値)を超過しない場合に、追加の音響通信信号をオーディオ品質を損なうことなく追加することも可能である。本発明の実施形態において、音響通信信号を2回生成することを避けるために単純に2個のスペクトルマスクを結合する。
心理音響モデリングブロック450は、例えば、ISO−IEC 11172,part 3,Annex D.で定義された通常の心理音響モデルに従ってオリジナルオーディオ信号から心理音響マスクを算出する。
図6は、周波数マスキングしきい値の算出及び上記しきい値以下の音響通信信号の配置を行う方法を説明するための図である。図6は、理解の便宜のために、1つのマスカー610を有するオリジナルオーディオ信号に対する周波数マスキングしきい値(すなわち、実際の可聴しきい値)640を示す。
絶対可聴しきい値630は、静かな雰囲気でも人間の耳で聞き難い周波数別しきい値の強度分布を示す。1つのマスカー610は、オリジナルオーディオ信号で周辺周波数ビン(マスキー)620と比較して最大信号強度を有する周波数ビンである。マスカー610なしに、絶対可聴しきい値630を超過するマスキー620は、耳に聞こえることができる。本例において、マスキー(すなわち、小さい声)620がマスカー(すなわち、大きい声)610により隠れることにより、マスキー620が耳に聞こえない。このような効果をマスキング効果と呼ぶ。このようなマスキング効果を反映すると、マスキー620に対する実際の可聴しきい値は、絶対可聴しきい値630より上昇(又は増加)し、このような上昇した可聴しきい値を周波数マスキングしきい値640と呼ぶ。言い換えれば、周波数マスキングしきい値640以下の周波数ビンは、耳に聞こえることができない。
図4をさらに参照すると、心理音響モデリングブロック450により算出される心理音響マスクは、周波数マスキングしきい値とオリジナルオーディオ信号間の差に対応する。
図5eは、心理音響モデリングブロック450から出力される心理音響マスク550を示す。図5eにおいて、比較のために、オリジナルオーディオ信号510が図示される。
第2の結合器424は、包絡推定ブロック440から入力された第1のマスク、すなわち、残留信号スペクトルを心理音響モデリングブロック450から入力された第2のマスク、すなわち、オリジナルオーディオ信号に対する心理音響マスクと結合して最終の音響信号スペクトルマスクを生成した後に、生成された音響信号スペクトルマスクを多重搬送波変調器470に出力する。最終の音響信号スペクトルマスクは、音響通信スペクトルを生成するために使用される。
図5fは、第2の結合器424から出力される音響信号スペクトルマスク560を示す。図5e及び図5dにそれぞれ示すように、音響信号スペクトルマスク560は、心理音響マスク550と残留信号540との和に対応する。
オブジェクト符号化ブロック460は、入力されたディジタルデータをシンボル又はオブジェクトに符号化して出力する。例えば、オブジェクト符号化ブロック460は、直交振幅変調(Quadrature Amplitude Modulation:QAM)を実行することができる。
多重搬送波変調器470は、第2の結合器424から入力される音響信号スペクトルマスクに従って符号化されたディジタルデータ、すなわち、シンボルに対する多重搬送波変調を実行し、その得られた信号を出力する。例えば、多重搬送波変調器470は、オブジェクト符号化ブロック460から入力されたシンボルと第2の結合器424から入力された音響信号スペクトルマスク内の周波数ビンとを各々乗じた後に、その得られた結果値を結合して出力するOFDM変調を実行することができる。多重搬送波変調器470から出力される音響通信信号は、音響信号スペクトルマスクに含まれる同様の周波数スペクトルを有する。
第3の結合器426は、高周波数減衰フィルター410から入力されたフィルターリングされた信号を多重搬送波変調器470から出力された音響通信信号と結合する。スピーカ480は、結合された信号を音波の形態で放射する。
本発明の例において、多重搬送波通信信号が音響通信信号として使用されることが望ましい。その理由は、多重搬送波信号のための任意のスペクトル形態を形成することが非常に容易であるためである。しかしながら、これは、必須のものではなく、符号分割多重接続(code division multiple access:CDMA)信号又は拡散スペクトル信号が使用されることができる。
心理音響マスク算出方法は、好ましくは非可逆音声圧縮コーデックが使用され、例えば、これは、ISO−IEC 11172,part3,Annex D.で定義されるMPEGレイヤーII標準(MPEG layer II standard)からの心理音響モデルに基づくことができる。心理音響マスキングしきい値の算出は、ただ単一のマスカーからのマスキング効果の算出よりさらに複雑である。
上述したように、本発明で使用する心理音響マスクは、通常の心理音響モデルに従って算出されるので、以下簡略に説明する。
図7は、本発明による心理音響マスクを算出するための方法の主要ステップを示すフローチャートである。上記方法は、セグメント抽出ステップS10、FFTステップS20、トーナル成分検出ステップ(tonal component detection step)S30、非トーナル成分検出ステップS40、非相関トーナル及び非トーナル成分除去ステップS50、個別周波数マスク生成ステップS60、グローバルマスク生成ステップS70、及び心理音響マスク生成ステップS80を含む。
セグメント抽出ステップS10において、オリジナルオーディオ信号から時間的に短いセグメントを抽出し、本ステップは、セグメント単位で反復して実行される。
FFTステップS20において、オリジナルオーディオ信号のFFTを実行する。言い換えれば、オリジナルオーディオ信号は、時間ドメインから周波数ドメインに変換される。
トーナル成分検出ステップS30において、オリジナルオーディオ信号の周波数成分から隣接周波数成分の強度より大きい強度を有する最大周波数成分が検出される。最大周波数成分において、隣接周波数成分と最大周波数成分間の強度の差が予め定められた値以上である場合に、最大周波数成分は、トーナル成分として決定される。すなわち、トーナル成分検出ステップS30において、オリジナルオーディオ信号の周波数成分でサイン曲線と同様のトーナル成分、すなわち、純音成分が検出される。
非トーナル成分検出ステップS40において、最大周波数成分のうちからトーナル成分を除外した残りの最大周波数成分が非トーナル成分として決定される。すなわち、非トーナル成分検出ステップにおいて、オリジナルオーディオ信号の周波数成分からノイズと同様の非トーナル成分、すなわち、ノイズ成分が検出される。
言い換えれば、トーナル及び非トーナル成分は、オリジナルオーディオ信号のピーク成分に対応し、トーナル成分検出ステップS30は、ピーク成分からサイン曲線特性を有する純音成分を検出するステップに対応し、非トーナル成分検出ステップS40は、ピーク成分から純音と対比されるノイズ成分を検出するステップに対応する。
非相関トーナル及び非トーナル成分除去ステップS50において、トーナル及び非トーナル成分から絶対可聴しきい値未満の強度を有するトーナル及び非トーナル成分が除去される。すなわち、非相関トーナル及び非トーナル成分除去ステップS50において、主要成分だけを決定するために耳に聞こえない関係がないトーナル及び非トーナル成分を除去する。
個別周波数マスク生成ステップS60において、各主要成分(トーナル及び非トーナル)のための個別周波数マスクを算出する。周波数マスクは、主要成分の強度と対応する心理音響モデルで使用される予め定められたマスクに関連した関数(例えば、マスキングインデックス及びマスキング関数)の値とを合わせることにより算出される。この時に、マスキングインデックスは、トーナル及び非トーナル成分に応じて異なって設定され、マスキング関数は、トーナル及び非トーナル成分に対して同一に設定される。例えば、マスキングインデックスは、主要成分に対するバーク(Bark)周波数(又は臨界帯域レート)zの関数、例えば、a−b*z−c dBのように与えられることができる。このマスキング関数は、主要成分の強度X及びバーク距離dz(隣接したバーク周波数間の距離)の関数、例えば、d*(dz+1)−(e*X+f)dBのように与えられることができる。この時に、a乃至fの値は常数である。
グローバルマスク生成ステップS70において、個別周波数マスクは、単一グローバルマスクを形成するために絶対可聴しきい値と結合される。
心理音響マスク生成ステップS80において、グローバルマスクとオリジナルオーディオ信号間の差に対応する心理音響マスクが生成される。
上述したように、このステップは、すべての連続的な信号セグメントに対して実行されなければならず、セグメント持続時間は、約20〜40msであり、このような持続時間は、オーディオ信号の通常の準定常持続時間(quasi-stationary duration)である。したがって、最上の性能及び単純な実現のために、残留信号スペクトルを分析するのに使用されるFFT分析ウィンドーの持続時間と多重搬送波信号シンボルの持続時間とを同一に設定することができる。
また、本発明は、オリジナルオーディオ信号での歪みと通信データレート間の非常に柔軟な制御を提供し、これは、音響通信信号で累積信号対雑音比(cumulative signal-to-noise ratio)により決定される。実際に、減衰フィルターの形態を調節することにより歪み及びデータレートを容易にトレードオフすることができる。このフィルターがより少ない減衰を導入する場合に、オリジナル信号はより少なく歪まれ、音響通信信号での全信号対雑音比も減少される。しかしながら、これは、全データレートを減少させ、その逆の関係も成立する。ここで、‘信号’は、音響通信信号自体を意味し、オリジナルオーディオ信号が音響通信受信器によりランダム雑音として取り扱われるために(本発明において、音響通信受信器は、オリジナルオーディオ信号の情報を有しないと仮定する)、‘雑音’は、オリジナルオーディオ信号を意味する。
本発明は、移動電話、携帯用マルチメディア装置、ネットブック(netbook)などのような移動装置間のデータ転送のための音響通信システムで使用されることができる。例えば、本発明は、RU2009119776及び2010年5月18日付で米国特許庁に特許出願され、12/782,520の出願番号が割り当てられた“エンコーダ、デコーダ、エンコーディング及びデコーディング方法”を名称とする米国特許公開公報2010−0290484 A1に記述された客体送信のための音響通信システムとともに使用されることができ、これらは、本明細書に参照文献として併合される。本発明は、汎用プロセッサ又はディジタル信号プロセッサチップを用いてソフトウェアで実現されるか又はハードウェア又はこれらの組み合せとして実現されることができる。
本発明の実施形態は、ハードウェア、ソフトウェア、又はハードウェア及びソフトウェアの組み合わせの形態で実現されることができる。このような任意のソフトウェアは、例えば、削除又は再起録が可能であるか否かに関係なく、ROMなどの記憶装置のような揮発性又は非揮発性記憶装置、又は例えば、RAM、メモリチップ、装置又は集積回路のようなメモリ、又は例えばCD、DVD、磁気ディスク又は磁気テープなどの光学的又は磁気的に読み取り可能な媒体に格納されることができる。記憶装置及び記憶媒体は、本発明の実施形態を実現する指示を含むプログラム又はプログラムを格納するのに適合した機械可読の記憶装置の実施形態である。したがって、本発明の実施形態は、本願に説明したようなシステム又は方法を実現するためのコードを含むプログラム及びこのようなプログラムを格納する機械可読記憶装置を提供する。また、このようなプログラムは、有線又は無線接続を通じて送信される通信信号のような任意の媒体を通して電子的に移送され、実施形態はこれと均等なことを適切に含む。
以上、本発明を具体的な実施形態を参照して詳細に説明してきたが、本発明の範囲及び趣旨を逸脱することなく様々な変更が可能であるということは、当業者には明らかであり、本発明の範囲は、上述の実施形態に限定されるべきではなく、特許請求の範囲の記載及びこれと均等なものの範囲内で定められるべきである。
100、200、400 装置
110 音響通信信号生成器
120、260、422、424、426 結合器
130、270、480 スピーカ
210、430 高速フーリエ変換ブロック
220 帯域スプリッタ
230 逆高速フーリエ変換ブロック
240 順方向エラー訂正符号化ブロック
250 直行周波数分割多重変調
310 低周波数ビン
320 高周波数ビン
325 音響通信信号
330、510 オリジナルオーディオ信号
410 高周波数減衰フィルター
440 包絡推定ブロック
450 心理音響モデリングブロック
460 オブジェクト符号化ブロック
470 多重搬送波変調器
530 フィルターリングされた信号
540 残留信号
550 心理音響マスク
560 音響信号スペクトルマスク
610 マスカー
620 マスキー
630 絶対可聴しきい値
640 周波数マスキングしきい値

Claims (10)

  1. 音響通信方法であって、
    オーディオ信号の高周波数部分が減衰するように前記オーディオ信号をフィルターリングするステップと、
    前記オーディオ信号及び前記フィルターリングされた信号間の差に対応する残留信号を生成するステップと、
    予め定められた心理音響モデルに基づいて前記オーディオ信号に対する心理音響マスクを生成するステップと、
    前記残留信号を前記心理音響マスクと結合することにより音響信号スペクトルマスクを生成するステップと、
    前記音響信号スペクトルマスクに従ってディジタルデータを多重搬送波変調(multicarrier modulation)することにより音響通信信号を生成するステップと、
    前記音響通信信号を前記フィルターリングされた信号と結合するステップとを有することを特徴とする音響通信方法。
  2. 前記オーディオ信号をフィルターリングするステップは、低い周波数から高い周波数に行くほど順次に減少する周波数応答を有する周波数選択減衰フィルターを用いて実行されることを特徴とする請求項1に記載の音響通信方法。
  3. 前記残留信号のスペクトル包絡を検出するステップをさらに有することを特徴とする請求項1に記載の音響通信方法。
  4. 前記スペクトル包絡を検出するステップは、
    前記残留信号の高速フーリエ変換(FFT)を行うステップと、
    変換された残留信号のスペクトル包絡を推定するステップとを有することを特徴とする請求項3に記載の音響通信方法。
  5. 前記心理音響マスクを生成するステップは、
    前記オーディオ信号のピーク成分を検出するステップと、
    前記ピーク成分に対して個別周波数マスクを算出するステップと、
    前記個別周波数マスクを絶対可聴しきい値と結合することによりグローバルマスクを生成するステップと、
    前記グローバルマスクと前記オーディオ信号間の差に対応する前記心理音響マスクを生成するステップとを有することを特徴とする請求項1に記載の音響通信方法。
  6. 前記ピーク成分を検出する前に、前記オーディオ信号の高速フーリエ変換(FFT)を行うステップをさらに有することを特徴とする請求項5に記載の音響通信方法。
  7. 前記ピーク成分を検出するステップは、
    前記オーディオ信号のトーナル及び非トーナル成分を検出するステップと、
    前記トーナル及び非トーナル成分から絶対可聴しきい値未満の強度を有するトーナル及び非トーナル成分を除去するステップとを有することを特徴とする請求項5に記載の音響通信方法。
  8. 前記音響通信信号は多重搬送波信号であることを特徴とする請求項1に記載の音響通信方法。
  9. 前記結合された音響通信信号及び前記フィルターリングされた信号をスピーカを用いて音波の形態で放射するステップをさらに有することを特徴とする請求項1に記載の音響通信方法。
  10. コンピュータに請求項1乃至請求項9のいずれか一項に記載の音響通信方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2012541958A 2009-12-10 2010-12-09 音響通信方法及び音響通信方法を実行させるためのプログラムを記録した記録媒体 Expired - Fee Related JP5722912B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US28537209P 2009-12-10 2009-12-10
KR10-2010-0118134 2010-11-25
KR1020100118134A KR101764926B1 (ko) 2009-12-10 2010-11-25 음향 통신을 위한 장치 및 방법
PCT/KR2010/008811 WO2011071322A2 (en) 2009-12-10 2010-12-09 Device and method for acoustic communication

Publications (2)

Publication Number Publication Date
JP2013512474A JP2013512474A (ja) 2013-04-11
JP5722912B2 true JP5722912B2 (ja) 2015-05-27

Family

ID=44399078

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012541958A Expired - Fee Related JP5722912B2 (ja) 2009-12-10 2010-12-09 音響通信方法及び音響通信方法を実行させるためのプログラムを記録した記録媒体

Country Status (6)

Country Link
US (2) US8521518B2 (ja)
EP (1) EP2510517B1 (ja)
JP (1) JP5722912B2 (ja)
KR (1) KR101764926B1 (ja)
CN (1) CN102652337B (ja)
WO (1) WO2011071322A2 (ja)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11431312B2 (en) 2004-08-10 2022-08-30 Bongiovi Acoustics Llc System and method for digital signal processing
US10158337B2 (en) 2004-08-10 2018-12-18 Bongiovi Acoustics Llc System and method for digital signal processing
US10848118B2 (en) 2004-08-10 2020-11-24 Bongiovi Acoustics Llc System and method for digital signal processing
US8284955B2 (en) 2006-02-07 2012-10-09 Bongiovi Acoustics Llc System and method for digital signal processing
US10848867B2 (en) 2006-02-07 2020-11-24 Bongiovi Acoustics Llc System and method for digital signal processing
US10701505B2 (en) 2006-02-07 2020-06-30 Bongiovi Acoustics Llc. System, method, and apparatus for generating and digitally processing a head related audio transfer function
US10069471B2 (en) 2006-02-07 2018-09-04 Bongiovi Acoustics Llc System and method for digital signal processing
KR101764926B1 (ko) * 2009-12-10 2017-08-03 삼성전자주식회사 음향 통신을 위한 장치 및 방법
CN102387504B (zh) * 2010-09-03 2014-04-02 华为技术有限公司 公共信道处理方法、装置及系统
US9047867B2 (en) 2011-02-21 2015-06-02 Adobe Systems Incorporated Systems and methods for concurrent signal recognition
RU2505868C2 (ru) * 2011-12-07 2014-01-27 Ооо "Цифрасофт" Способ встраивания цифровой информации в аудиосигнал
US8843364B2 (en) * 2012-02-29 2014-09-23 Adobe Systems Incorporated Language informed source separation
JP5997592B2 (ja) 2012-04-27 2016-09-28 株式会社Nttドコモ 音声復号装置
WO2013169935A1 (en) * 2012-05-08 2013-11-14 Zulu Holdings, Inc. Methods and apparatuses for communication of audio tokens
US8737645B2 (en) * 2012-10-10 2014-05-27 Archibald Doty Increasing perceived signal strength using persistence of hearing characteristics
US9344828B2 (en) * 2012-12-21 2016-05-17 Bongiovi Acoustics Llc. System and method for digital signal processing
US9883318B2 (en) 2013-06-12 2018-01-30 Bongiovi Acoustics Llc System and method for stereo field enhancement in two-channel audio systems
US9264004B2 (en) 2013-06-12 2016-02-16 Bongiovi Acoustics Llc System and method for narrow bandwidth digital signal processing
EP2830065A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
US9906858B2 (en) 2013-10-22 2018-02-27 Bongiovi Acoustics Llc System and method for digital signal processing
US9615813B2 (en) 2014-04-16 2017-04-11 Bongiovi Acoustics Llc. Device for wide-band auscultation
US10639000B2 (en) 2014-04-16 2020-05-05 Bongiovi Acoustics Llc Device for wide-band auscultation
US10820883B2 (en) 2014-04-16 2020-11-03 Bongiovi Acoustics Llc Noise reduction assembly for auscultation of a body
US9564146B2 (en) 2014-08-01 2017-02-07 Bongiovi Acoustics Llc System and method for digital signal processing in deep diving environment
KR101651625B1 (ko) 2014-12-30 2016-08-26 가락전자 주식회사 디지털 필터의 신속한 주파수 응답 표시 방법
US9638672B2 (en) 2015-03-06 2017-05-02 Bongiovi Acoustics Llc System and method for acquiring acoustic information from a resonating body
WO2017087495A1 (en) 2015-11-16 2017-05-26 Bongiovi Acoustics Llc Surface acoustic transducer
US9621994B1 (en) 2015-11-16 2017-04-11 Bongiovi Acoustics Llc Surface acoustic transducer
CN110998711A (zh) * 2017-08-16 2020-04-10 谷歌有限责任公司 动态音频数据传输掩蔽
US10827265B2 (en) * 2018-01-25 2020-11-03 Cirrus Logic, Inc. Psychoacoustics for improved audio reproduction, power reduction, and speaker protection
AU2019252524A1 (en) 2018-04-11 2020-11-05 Bongiovi Acoustics Llc Audio enhanced hearing protection system
EP3830822A4 (en) * 2018-07-17 2022-06-29 Cantu, Marcos A. Assistive listening device and human-computer interface using short-time target cancellation for improved speech intelligibility
US11252517B2 (en) 2018-07-17 2022-02-15 Marcos Antonio Cantu Assistive listening device and human-computer interface using short-time target cancellation for improved speech intelligibility
WO2020028833A1 (en) 2018-08-02 2020-02-06 Bongiovi Acoustics Llc System, method, and apparatus for generating and digitally processing a head related audio transfer function
JP7450909B2 (ja) * 2019-10-24 2024-03-18 インターマン株式会社 マスキング音発生方法
CN111370017B (zh) * 2020-03-18 2023-04-14 苏宁云计算有限公司 一种语音增强方法、装置、系统
US11159888B1 (en) 2020-09-18 2021-10-26 Cirrus Logic, Inc. Transducer cooling by introduction of a cooling component in the transducer input signal
US11153682B1 (en) * 2020-09-18 2021-10-19 Cirrus Logic, Inc. Micro-speaker audio power reproduction system and method with reduced energy use and thermal protection using micro-speaker electro-acoustic response and human hearing thresholds

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0907258B1 (en) * 1997-10-03 2007-01-03 Matsushita Electric Industrial Co., Ltd. Audio signal compression, speech signal compression and speech recognition
KR100341197B1 (ko) * 1998-09-29 2002-06-20 포만 제프리 엘 오디오 데이터로 부가 정보를 매립하는 방법 및 시스템
JP2001127643A (ja) * 1999-10-29 2001-05-11 Sony Corp 信号処理装置及びその方法並びにプログラム格納媒体
US6947893B1 (en) 1999-11-19 2005-09-20 Nippon Telegraph & Telephone Corporation Acoustic signal transmission with insertion signal for machine control
JP2001148670A (ja) * 1999-11-19 2001-05-29 Nippon Telegr & Teleph Corp <Ntt> 音響信号伝達方法および音響信号伝達装置
AU2211102A (en) * 2000-11-30 2002-06-11 Scient Generics Ltd Acoustic communication system
JP3692959B2 (ja) * 2001-04-04 2005-09-07 日本ビクター株式会社 電子透かし情報埋め込み装置
JP2003280697A (ja) * 2002-03-22 2003-10-02 Sanyo Electric Co Ltd 音声圧縮方法および音声圧縮装置
KR100467617B1 (ko) * 2002-10-30 2005-01-24 삼성전자주식회사 개선된 심리 음향 모델을 이용한 디지털 오디오 부호화방법과그 장치
KR100554680B1 (ko) * 2003-08-20 2006-02-24 한국전자통신연구원 크기 변화에 강인한 양자화 기반 오디오 워터마킹 장치 및방법
KR100713452B1 (ko) * 2003-12-06 2007-05-02 삼성전자주식회사 오디오 신호를 부호화하는 장치 및 방법
CN1677491A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
FR2889347B1 (fr) * 2005-09-20 2007-09-21 Jean Daniel Pages Systeme de diffusion sonore
KR100868763B1 (ko) * 2006-12-04 2008-11-13 삼성전자주식회사 오디오 신호의 중요 주파수 성분 추출 방법 및 장치와 이를이용한 오디오 신호의 부호화/복호화 방법 및 장치
JP5177657B2 (ja) 2008-08-08 2013-04-03 国立大学法人九州工業大学 音響特性制御装置
KR101764926B1 (ko) * 2009-12-10 2017-08-03 삼성전자주식회사 음향 통신을 위한 장치 및 방법
RU2505868C2 (ru) * 2011-12-07 2014-01-27 Ооо "Цифрасофт" Способ встраивания цифровой информации в аудиосигнал

Also Published As

Publication number Publication date
US8521518B2 (en) 2013-08-27
KR101764926B1 (ko) 2017-08-03
US20130346070A1 (en) 2013-12-26
EP2510517A2 (en) 2012-10-17
US9251807B2 (en) 2016-02-02
CN102652337A (zh) 2012-08-29
WO2011071322A3 (en) 2011-09-29
EP2510517B1 (en) 2017-10-25
KR20110066085A (ko) 2011-06-16
US20110144979A1 (en) 2011-06-16
EP2510517A4 (en) 2016-07-06
WO2011071322A2 (en) 2011-06-16
JP2013512474A (ja) 2013-04-11
CN102652337B (zh) 2014-02-19

Similar Documents

Publication Publication Date Title
JP5722912B2 (ja) 音響通信方法及び音響通信方法を実行させるためのプログラムを記録した記録媒体
US10607629B2 (en) Methods and apparatus for decoding based on speech enhancement metadata
JP5730881B2 (ja) 録音の適応的ダイナミックレンジ強化
CN109391877A (zh) 自动调谐音频压缩器以防止失真
EP1531551A1 (en) Signal encoding device, method, signal decoding device, and method
US9326085B2 (en) Device and method for generating an ambience signal
KR101969316B1 (ko) 디지털 정보를 오디오 신호에 임베딩하는 방법, 기계로 읽을 수 있는 저장 매체 및 통신 단말
JPH08237132A (ja) 信号符号化方法及び装置、信号復号化方法及び装置、並びに情報記録媒体及び情報伝送方法
US20110206223A1 (en) Apparatus for Binaural Audio Coding
US20110206209A1 (en) Apparatus
JP6608380B2 (ja) 耐雑音性を改良した通信システム、方法および装置
KR20070122414A (ko) 디지털 신호 처리 장치, 디지털 신호 처리 방법, 디지털신호 처리 프로그램, 디지털 신호 재생 장치 및 디지털신호 재생 방법
Attari et al. Robust audio watermarking algorithm based on DWT using Fibonacci numbers
JP5295372B2 (ja) デジタルオーディオ信号におけるプリエコーの減衰
US9311925B2 (en) Method, apparatus and computer program for processing multi-channel signals
Eichelberger et al. Receiving data hidden in music
JPH08166799A (ja) 高能率符号化方法及び装置
JP4973397B2 (ja) 符号化装置および符号化方法、ならびに復号化装置および復号化方法
JP2013073230A (ja) オーディオ符号化装置
US11121721B2 (en) Method of error concealment, and associated device
JP3263881B2 (ja) 情報符号化方法及び装置、情報復号化方法及び装置並びに情報記録媒体及び情報伝送方法
JPH09160593A (ja) 信号符号化方法及び装置
JP2015227912A (ja) オーディオ符号化装置、および方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130730

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130903

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140520

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140820

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20141226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150302

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150326

R150 Certificate of patent or registration of utility model

Ref document number: 5722912

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees