JP2013512474A

JP2013512474A - 音響通信のための装置及び方法

Info

Publication number: JP2013512474A
Application number: JP2012541958A
Authority: JP
Inventors: ヒ−ウォン・ジュン; ジュン−ホ・コ; サン−ムク・イ; ギ−サン・イ; セルゲイ・ジドコフ
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2009-12-10
Filing date: 2010-12-09
Publication date: 2013-04-11
Anticipated expiration: 2030-12-09
Also published as: JP5722912B2; WO2011071322A3; EP2510517A2; CN102652337B; WO2011071322A2; US20130346070A1; EP2510517A4; KR101764926B1; EP2510517B1; CN102652337A; US9251807B2; US8521518B2; US20110144979A1; KR20110066085A

Abstract

オーディオ信号の高周波数部分が減衰するように上記オーディオ信号をフィルターリングするステップと、上記オーディオ信号及び上記フィルターリングされた信号間の差に対応する残留信号を生成するステップと、予め定められた心理音響モデルに基づいて上記オーディオ信号に対する心理音響マスクを生成するステップと、上記残留信号を上記心理音響マスクと結合することにより音響信号スペクトルマスクを生成するステップと、上記音響信号スペクトルマスクに従ってディジタルデータを変調することにより音響通信信号を生成するステップと、上記音響通信信号を上記フィルターリングされた信号と結合するステップとを有する音響通信方法が開示される。

Description

本発明は、音響信号を用いて移動装置間でディジタルデータを送信するための音響通信のための方法及び装置に関し、特に、音響心理モデルを用いる音響通信のための方法及び装置に関する。

音響通信（acoustic communication）は、移動装置間でディジタル情報を転送するための可能な方法のうちの１つである。音響通信の長所のうちの１つは、データ通信プロトコルが任意の無線基盤通信システム（radio-based communication system）に要求されるアンテナ及びＲＦフロントエンド（front-end）などのような追加のハードウェア素子なしに完全にソフトウェアのみを用いて既存の装置上に実現されることができるというものである。

幾つかの方法は、人間の耳に楽であり人間が理解可能な追加の情報を伝達することができるように音楽又はスピーチ信号による音響通信をマスキング（masking）するための様々な方法が提案されてきた。このような方法は、“D.Gruhl, A.Lu and W.Bender,“Echo Hiding”, Proceedings of the First International Workshop on Information Hiding, Cambridge, U.K., May 30 -June 1, 1996, pp. 293-315”に開示されたようなエコーによる埋込み（Echo-Hiding）又は“L. Boney, et al., Digital watermarks for audio signals,” IEEE Intl. Conf. on Multimedia Computing and Systems, pp.473-480, March 1996”で説明したようにノイズレベル以下の拡散スペクトル信号（spread-spectrum signal）を付加する方法を含む。

図１は、オーディオプログラムを音響通信信号と混合（mixing）する従来の方法を示す図である。このような方法を実現するための装置１００は、音響通信信号生成器１１０、結合器１２０、及びスピーカ１３０を含む。上述した方法において、拡散スペクトル信号のような低いレベル通信信号は、音楽、スピーチ、アラーム音などのようなオーディオプログラムに単純に付加される。音響通信信号生成器１１０から出力される音響通信信号及びオーディオプログラムは、結合器１２０により結合される（又は混合される）。この結合された信号は、スピーカ１３０を通して音波の形態で放射される。

不幸にも、従来の方法は、音響通信チャネルの容量を完全に活用することができず、したがって、非常に低いビットレート、すなわち、秒当たりの数ビットだけを実現する。

“Y. Nakashima, et al., in Evaluation and Demonstration of Acoustic OFDM, Proc. Fortieth Asilomar Conference on Signals, Systems and Computers, 2006. ACSSC 2006, pp. 1747-1751”に記述されたタイプのような良好な方法は、スピーチ／音楽オーディオプログラムの高周波数ビンをスペクトル形態（spectrally shaped）の通信信号に置き換えることに基づく。

図２は、既知の周波数代替技術を用いる音響通信信号と混合したオーディオ信号の生成方法を説明するための図である。このような方法を実現するための装置２００は、高速フーリエ変換（Fast Fourier Transform：ＦＦＴ）ブロック２１０、帯域スプリッタ（band splitter）２２０、逆高速フーリエ変換（Inverse Fast Fourier Transform：ＩＦＦＴ）ブロック２３０、順方向エラー訂正（Forward Error Correction：ＦＥＣ）符号化ブロック２４０、直交周波数分割多重（Orthogonal Frequency Division Multiplexing：ＯＦＤＭ）変調器２５０、結合器２６０、及びスピーカ２７０を含む。

ＦＦＴブロック２１０は、音楽又はスピーチのようなオリジナルオーディオ信号（又はプログラム）のＦＦＴを実行する。この後に、帯域スプリッタ２２０は、ＦＦＴが実行されたオーディオ信号を高周波数ビン及び低周波数ビンに分割し、低周波数ビンをＩＦＦＴブロック２３０に出力し、高周波数ビンをＯＦＤＭ変調器２５０に出力する。ＩＦＦＴブロック２３０は、高周波数ビンが除去されたオリジナルオーディオ信号（低周波数ビンに対応する）の逆高速フーリエ変換を実行する。

ＦＥＣ符号化ブロック２４０は、入力されたディジタルデータの順方向エラー訂正（Forward Error Correction：ＦＥＣ）符号化を実行する。ＯＦＤＭ変調器２５０は、高周波数ビンに従って符号化されたディジタルデータのＯＦＤＭを実行し、このデータを出力し、ＯＦＤＭ変調器からの音響通信信号は、高周波数ビンと同様の形態のスペクトル包絡（spectral envelope）を有する。言い換えれば、高周波数ビンは、音響通信信号に置き換えられる。

図３ａ及び図３ｂは、周波数代替技術に従って生成される信号を示す図である。図３ａは、オリジナルオーディオ信号３３０の周波数スペクトルを示し、図３ｂは、代替音響通信信号を有する変形されたオーディオ信号３３０ａの周波数スペクトルを示す。この時に、各周波数スペクトルにおいて、横軸は周波数を示し、縦軸は信号強度を示す。図３ａに示すように、オリジナルオーディオ信号３３０は、周波数分割に基づいて高周波数ビン（又は領域）３２０及び低周波数ビン３１０に分割される。図３ｂに示すように、変形されたオーディオ信号３３０ａの低周波数ビン３１０はオリジナルオーディオ信号の低周波数ビンと同一であり、オリジナルオーディオ信号の高周波数ビン３２０は変形されたオーディオ信号の音響通信信号３２５に置き換えられる。

このような方法は、オリジナルオーディオ信号及び音響通信信号が分離された周波数帯域で送信されるために、音響信号受信器の単純な実装を可能にする。しかしながら、このような方法は２つの短所を有する。

１番目に、オリジナルオーディオ信号及び音響通信信号の間で周波数領域での急激な転移（sharp transition）が存在するために（図３ｂを参照）、このような方法は、オリジナルオーディオ信号、すなわち、音楽／スピーチ信号の品質を低下させる。

２番目に、このような方法は、音響通信信号が相対的に高いオーディオ周波数に集中するために使用可能信号帯域幅を完全に活用することができない。結果的に、音楽／スピーチオーディオプログラムが高周波数ビンを含まないか又は受信装置マイクロフォンが高周波数ビンを含む全広帯域オーディオスペクトルを検出することができない場合に、音響データ通信は不可能である（減少したビットレートでも）。

本発明の目的は、少なくとも上述した問題点及び／又は不都合に取り組み、少なくとも以下の便宜を提供することにある。すなわち、本発明の目的は、オリジナルオーディオ信号と代替音響通信信号間の急激な境界を避けることができる音響通信のための装置及び方法を提供することにある。

本発明の他の目的は、オリジナルオーディオ信号の全スペクトルを効率的に使用することができる音響通信のための装置及び方法を提供することにある。

上記のような目的を達成するために、本発明の一態様によれば、音響通信方法は、オーディオ信号の高周波数部分が減衰するように前記オーディオ信号をフィルターリングするステップと、前記オーディオ信号及び前記フィルターリングされた信号間の差に対応する残留信号を生成するステップと、予め定められた心理音響モデルに基づいて前記オーディオ信号に対する心理音響マスクを生成するステップと、前記残留信号を前記心理音響マスクと結合することにより音響信号スペクトルマスクを生成するステップと、前記音響信号スペクトルマスクに従ってディジタルデータを変調することにより音響通信信号を生成するステップと、前記音響通信信号を前記フィルターリングされた信号と結合するステップとを有することを特徴とする。

本発明による音響通信のための方法及び装置は、少なくとも次のような長所を提供する。

１番目に、本発明によると、音響通信信号をオーディオプログラムに挿入することによる歪んだ信号のオーディオ感度を減少させることができる。

２番目に、本発明によると、受信マイクロフォンが全広帯域オーディオスペクトルを検出しないか又はオーディオプログラムが高周波数ビンを含まない場合にもデータ送信を許容するようにすべてのオーディオ帯域幅を効率的に使用することができる。

本発明の他の目的、利点、及び顕著な特徴は、添付の図面及び本発明の実施形態からなされる以下の詳細な説明から、当業者にとって明確になるはずである。

オーディオプログラムを音響通信信号と混合する従来の方法を説明するための図である。既知の周波数代替技術を用いる音響通信信号と混合したオーディオ信号を示す図である。周波数代替技術に従って生成される信号を示す図である。周波数代替技術に従って生成される信号を示す図である。本発明の実施形態に従う音響通信を実行するための装置を示す図である。本発明の実施形態に従う信号生成手順の異なるステップでの信号スペクトルを示す図である。本発明の実施形態に従う信号生成手順の異なるステップでの信号スペクトルを示す図である。本発明の実施形態に従う信号生成手順の異なるステップでの信号スペクトルを示す図である。本発明の実施形態に従う信号生成手順の異なるステップでの信号スペクトルを示す図である。本発明の実施形態に従う信号生成手順の異なるステップでの信号スペクトルを示す図である。本発明の実施形態に従う信号生成手順の異なるステップでの信号スペクトルを示す図である。周波数マスキングしきい値の算出及びしきい以下の音響通信信号の配置を行う方法を説明するための図である。本発明の実施形態による心理音響マスクを算出するための方法の主要ステップを示すフローチャートである。

当業者は、図面内の要素が単純化及び明瞭化のために例示されただけであり、そのスケールに基づいて示されないことが分かる。例えば、本発明の様々な実施形態の理解を助けるために図面内のいくつかの要素の大きさは他の要素と比較して誇張されることができる。

また、方法のステップ及び装置の要素は、図面内で通常のシンボルで表現され、発明の細部事項だけが図示されることに留意しなければならない。また、当業者に知られている細部事項は省略することができる。本発明において、“第１”及び“第２”のような相対的な用語は１つの要素を別の要素から分割するために使用されることもあり、これは、このような要素間の任意の実際の関係又は順序を意味しない。

本発明の実施形態において、２個の基本的なアイディアが記載されている。１番目に、オリジナルオーディオ信号と代替音響通信信号間の急激な境界を避ける。２番目に、このような追加が人間の耳で知覚されないという点で全体の使用可能なオーディオ信号スペクトル内に少量の音響通信信号を付加する。

したがって、本発明による音響通信信号を生成するために、音楽又はスピーチのようなオリジナルオーディオ信号は、高周波数ビンを徐々に減衰させるハイシェルフ（high-shelf）フィルターでフィルターリングされる。例えば、ここに説明される図５ｂを参照する。この後に、オリジナル信号と減衰した信号間の差が算出される。このような残留信号のスペクトル形態が保存される。また、いわゆる、心理音響（又は周波数）マスキングしきい値（psychoacoustic masking threshold）がオリジナルオーディオ信号のスペクトル形態に従って算出される。心理音響マスキングしきい値の算出は、所定の周波数の強いオーディオ信号が存在する場合に近接した周波数のオーディオ信号は通常のリスナーに聞こえなくなってしまうという事実に基づく。このような効果は、図６を参照して概略的に例示され説明される。

このような効果は、“周波数マスキング効果”と知られており、可聴しきい値以下の信号周波数ビンを除去する非可逆オーディオ圧縮アルゴリズム（lossy audio compression algorithms）に広く活用されている。本発明において、周波数マスキングしきい値は、音響通信信号をマスキングしきい値以下に配置することにより聞こえないようにするために算出される。

最後に、２つのスペクトル形態、すなわち、残留スペクトル及び周波数マスキングしきい値から導出される心理音響マスキングスペクトルは、音響通信信号のための最終的なスペクトル包絡マスクを生成するために結合される。

図４は、本発明の望ましい実施形態による音響通信を実行するための装置を示す図である。図５ａ乃至図５ｆは、本発明による信号生成手順の異なるステップ上の信号スペクトルを示す図である。

図４に示すように、装置４００は、高周波数減衰フィルター４１０、第１の結合器４２２、ＦＦＴブロック４３０、包絡推定ブロック４４０、心理音響モデリングブロック４５０、第２の結合器４２４、オブジェクト符号化ブロック４６０、多重搬送波変調器４７０、第３の結合器４２６、及びスピーカ４８０を含む。

図５ａは、オリジナルオーディオ信号５１０の周波数スペクトルを示す図である。図５ａ及び図５ｃ乃至図５ｆにおいて、横軸は周波数を示し、縦軸は信号強度を示す。周波数スペクトルのアウトライン、すなわち、包絡だけが図示されているが、このような包絡は、複数の周波数ビンを含む。

高周波数減衰フィルター４１０は、中間周波数領域及び高周波数領域でスペクトルエネルギーを次第に減少させるフィルター応答特性を有する。図５ｂは、高周波数減衰フィルター４１０のフィルター応答特性５２０を示し、横軸は周波数を示し、縦軸は信号透過率を示す。図５ｂを参照すると、高周波数減衰フィルター４１０は、何の変更なしに低周波数領域の信号をほとんどそのまま通過させ、中間周波数領域及び高周波数領域の信号を次第に減少させることがわかる。

オリジナルオーディオ信号は、高周波数減衰（又はハイシェルフ）フィルター４１０でフィルターリングされる。図５ｂに示すように、フィルター応答特性で急激な遮断周波数（cut-off frequency）が存在しない（例えば、図５ｂを参照）。したがって、高周波数減衰フィルター４１０により導入されたスペクトル歪みはより人間の耳に刺激が少ない。

図５ｃは、オリジナルオーディオ信号５１０及びフィルターリングされた信号５３０の周波数スペクトルを示す図である。

オリジナルオーディオ信号及びフィルターリングされた信号は、第１の結合器４２２に入力され、第１の結合器４２２は、オリジナル信号とフィルターリングされた信号間の差、すなわち、残留信号を出力する。

図５ｄは、第１の結合器４２２から出力される残留信号５４０の周波数スペクトルを示す。残留信号５４０は、オリジナル信号５１０とフィルターリングされた信号５３０間の差に対応する。

ＦＦＴブロック４３０は、残留信号の高速フーリエ変換（ＦＦＴ）を実行する。言い換えれば、ＦＦＴブロック４３０は、時間ドメインでの残留信号を周波数ドメインでの信号に変換する。

包絡推定ブロック４４０は、この変換された残留信号を分析し、残留信号のスペクトル形態である包絡を推定（又は検出）する。

このような残留信号がオリジナルオーディオ信号（又はプログラム）から除去されるために、これは、同一のスペクトル形態を有する音響通信信号により補償されなければならない。しかしながら、上述したように、そのスペクトルマスクが周波数マスキングしきい値（実質的な可聴しきい値）を超過しない場合に、追加の音響通信信号をオーディオ品質を損なうことなく追加することも可能である。本発明の実施形態において、音響通信信号を２回生成することを避けるために単純に２個のスペクトルマスクを結合する。

心理音響モデリングブロック４５０は、例えば、ＩＳＯ−ＩＥＣ１１１７２，ｐａｒｔ３，ＡｎｎｅｘＤ．で定義された通常の心理音響モデルに従ってオリジナルオーディオ信号から心理音響マスクを算出する。

図６は、周波数マスキングしきい値の算出及び上記しきい値以下の音響通信信号の配置を行う方法を説明するための図である。図６は、理解の便宜のために、１つのマスカー６１０を有するオリジナルオーディオ信号に対する周波数マスキングしきい値（すなわち、実際の可聴しきい値）６４０を示す。

絶対可聴しきい値６３０は、静かな雰囲気でも人間の耳で聞き難い周波数別しきい値の強度分布を示す。１つのマスカー６１０は、オリジナルオーディオ信号で周辺周波数ビン（マスキー）６２０と比較して最大信号強度を有する周波数ビンである。マスカー６１０なしに、絶対可聴しきい値６３０を超過するマスキー６２０は、耳に聞こえることができる。本例において、マスキー（すなわち、小さい声）６２０がマスカー（すなわち、大きい声）６１０により隠れることにより、マスキー６２０が耳に聞こえない。このような効果をマスキング効果と呼ぶ。このようなマスキング効果を反映すると、マスキー６２０に対する実際の可聴しきい値は、絶対可聴しきい値６３０より上昇（又は増加）し、このような上昇した可聴しきい値を周波数マスキングしきい値６４０と呼ぶ。言い換えれば、周波数マスキングしきい値６４０以下の周波数ビンは、耳に聞こえることができない。

図４をさらに参照すると、心理音響モデリングブロック４５０により算出される心理音響マスクは、周波数マスキングしきい値とオリジナルオーディオ信号間の差に対応する。

図５ｅは、心理音響モデリングブロック４５０から出力される心理音響マスク５５０を示す。図５ｅにおいて、比較のために、オリジナルオーディオ信号５１０が図示される。

第２の結合器４２４は、包絡推定ブロック４４０から入力された第１のマスク、すなわち、残留信号スペクトルを心理音響モデリングブロック４５０から入力された第２のマスク、すなわち、オリジナルオーディオ信号に対する心理音響マスクと結合して最終の音響信号スペクトルマスクを生成した後に、生成された音響信号スペクトルマスクを多重搬送波変調器４７０に出力する。最終の音響信号スペクトルマスクは、音響通信スペクトルを生成するために使用される。

図５ｆは、第２の結合器４２４から出力される音響信号スペクトルマスク５６０を示す。図５ｅ及び図５ｄにそれぞれ示すように、音響信号スペクトルマスク５６０は、心理音響マスク５５０と残留信号５４０との和に対応する。

オブジェクト符号化ブロック４６０は、入力されたディジタルデータをシンボル又はオブジェクトに符号化して出力する。例えば、オブジェクト符号化ブロック４６０は、直交振幅変調（Quadrature Amplitude Modulation：ＱＡＭ）を実行することができる。

多重搬送波変調器４７０は、第２の結合器４２４から入力される音響信号スペクトルマスクに従って符号化されたディジタルデータ、すなわち、シンボルに対する多重搬送波変調を実行し、その得られた信号を出力する。例えば、多重搬送波変調器４７０は、オブジェクト符号化ブロック４６０から入力されたシンボルと第２の結合器４２４から入力された音響信号スペクトルマスク内の周波数ビンとを各々乗じた後に、その得られた結果値を結合して出力するＯＦＤＭ変調を実行することができる。多重搬送波変調器４７０から出力される音響通信信号は、音響信号スペクトルマスクに含まれる同様の周波数スペクトルを有する。

第３の結合器４２６は、高周波数減衰フィルター４１０から入力されたフィルターリングされた信号を多重搬送波変調器４７０から出力された音響通信信号と結合する。スピーカ４８０は、結合された信号を音波の形態で放射する。

本発明の例において、多重搬送波通信信号が音響通信信号として使用されることが望ましい。その理由は、多重搬送波信号のための任意のスペクトル形態を形成することが非常に容易であるためである。しかしながら、これは、必須のものではなく、符号分割多重接続（code division multiple access：ＣＤＭＡ）信号又は拡散スペクトル信号が使用されることができる。

心理音響マスク算出方法は、好ましくは非可逆音声圧縮コーデックが使用され、例えば、これは、ＩＳＯ−ＩＥＣ１１１７２，ｐａｒｔ３，ＡｎｎｅｘＤ．で定義されるＭＰＥＧレイヤーＩＩ標準（MPEG layer II standard）からの心理音響モデルに基づくことができる。心理音響マスキングしきい値の算出は、ただ単一のマスカーからのマスキング効果の算出よりさらに複雑である。

上述したように、本発明で使用する心理音響マスクは、通常の心理音響モデルに従って算出されるので、以下簡略に説明する。

図７は、本発明による心理音響マスクを算出するための方法の主要ステップを示すフローチャートである。上記方法は、セグメント抽出ステップＳ１０、ＦＦＴステップＳ２０、トーナル成分検出ステップ（tonal component detection step）Ｓ３０、非トーナル成分検出ステップＳ４０、非相関トーナル及び非トーナル成分除去ステップＳ５０、個別周波数マスク生成ステップＳ６０、グローバルマスク生成ステップＳ７０、及び心理音響マスク生成ステップＳ８０を含む。

セグメント抽出ステップＳ１０において、オリジナルオーディオ信号から時間的に短いセグメントを抽出し、本ステップは、セグメント単位で反復して実行される。

ＦＦＴステップＳ２０において、オリジナルオーディオ信号のＦＦＴを実行する。言い換えれば、オリジナルオーディオ信号は、時間ドメインから周波数ドメインに変換される。

トーナル成分検出ステップＳ３０において、オリジナルオーディオ信号の周波数成分から隣接周波数成分の強度より大きい強度を有する最大周波数成分が検出される。最大周波数成分において、隣接周波数成分と最大周波数成分間の強度の差が予め定められた値以上である場合に、最大周波数成分は、トーナル成分として決定される。すなわち、トーナル成分検出ステップＳ３０において、オリジナルオーディオ信号の周波数成分でサイン曲線と同様のトーナル成分、すなわち、純音成分が検出される。

非トーナル成分検出ステップＳ４０において、最大周波数成分のうちからトーナル成分を除外した残りの最大周波数成分が非トーナル成分として決定される。すなわち、非トーナル成分検出ステップにおいて、オリジナルオーディオ信号の周波数成分からノイズと同様の非トーナル成分、すなわち、ノイズ成分が検出される。

言い換えれば、トーナル及び非トーナル成分は、オリジナルオーディオ信号のピーク成分に対応し、トーナル成分検出ステップＳ３０は、ピーク成分からサイン曲線特性を有する純音成分を検出するステップに対応し、非トーナル成分検出ステップＳ４０は、ピーク成分から純音と対比されるノイズ成分を検出するステップに対応する。

非相関トーナル及び非トーナル成分除去ステップＳ５０において、トーナル及び非トーナル成分から絶対可聴しきい値未満の強度を有するトーナル及び非トーナル成分が除去される。すなわち、非相関トーナル及び非トーナル成分除去ステップＳ５０において、主要成分だけを決定するために耳に聞こえない関係がないトーナル及び非トーナル成分を除去する。

個別周波数マスク生成ステップＳ６０において、各主要成分（トーナル及び非トーナル）のための個別周波数マスクを算出する。周波数マスクは、主要成分の強度と対応する心理音響モデルで使用される予め定められたマスクに関連した関数（例えば、マスキングインデックス及びマスキング関数）の値とを合わせることにより算出される。この時に、マスキングインデックスは、トーナル及び非トーナル成分に応じて異なって設定され、マスキング関数は、トーナル及び非トーナル成分に対して同一に設定される。例えば、マスキングインデックスは、主要成分に対するバーク（Bark）周波数（又は臨界帯域レート）ｚの関数、例えば、ａ−ｂ＊ｚ−ｃｄＢのように与えられることができる。このマスキング関数は、主要成分の強度Ｘ及びバーク距離ｄｚ（隣接したバーク周波数間の距離）の関数、例えば、ｄ＊（ｄｚ＋１）−（ｅ＊Ｘ＋ｆ）ｄＢのように与えられることができる。この時に、ａ乃至ｆの値は常数である。

グローバルマスク生成ステップＳ７０において、個別周波数マスクは、単一グローバルマスクを形成するために絶対可聴しきい値と結合される。

心理音響マスク生成ステップＳ８０において、グローバルマスクとオリジナルオーディオ信号間の差に対応する心理音響マスクが生成される。

上述したように、このステップは、すべての連続的な信号セグメントに対して実行されなければならず、セグメント持続時間は、約２０〜４０ｍｓであり、このような持続時間は、オーディオ信号の通常の準定常持続時間（quasi-stationary duration）である。したがって、最上の性能及び単純な実現のために、残留信号スペクトルを分析するのに使用されるＦＦＴ分析ウィンドーの持続時間と多重搬送波信号シンボルの持続時間とを同一に設定することができる。

また、本発明は、オリジナルオーディオ信号での歪みと通信データレート間の非常に柔軟な制御を提供し、これは、音響通信信号で累積信号対雑音比（cumulative signal-to-noise ratio）により決定される。実際に、減衰フィルターの形態を調節することにより歪み及びデータレートを容易にトレードオフすることができる。このフィルターがより少ない減衰を導入する場合に、オリジナル信号はより少なく歪まれ、音響通信信号での全信号対雑音比も減少される。しかしながら、これは、全データレートを減少させ、その逆の関係も成立する。ここで、‘信号’は、音響通信信号自体を意味し、オリジナルオーディオ信号が音響通信受信器によりランダム雑音として取り扱われるために（本発明において、音響通信受信器は、オリジナルオーディオ信号の情報を有しないと仮定する）、‘雑音’は、オリジナルオーディオ信号を意味する。

本発明は、移動電話、携帯用マルチメディア装置、ネットブック（netbook）などのような移動装置間のデータ転送のための音響通信システムで使用されることができる。例えば、本発明は、ＲＵ２００９１１９７７６及び２０１０年５月１８日付で米国特許庁に特許出願され、１２／７８２，５２０の出願番号が割り当てられた“エンコーダ、デコーダ、エンコーディング及びデコーディング方法”を名称とする米国特許公開公報２０１０−０２９０４８４Ａ１に記述された客体送信のための音響通信システムとともに使用されることができ、これらは、本明細書に参照文献として併合される。本発明は、汎用プロセッサ又はディジタル信号プロセッサチップを用いてソフトウェアで実現されるか又はハードウェア又はこれらの組み合せとして実現されることができる。

本発明の実施形態は、ハードウェア、ソフトウェア、又はハードウェア及びソフトウェアの組み合わせの形態で実現されることができる。このような任意のソフトウェアは、例えば、削除又は再起録が可能であるか否かに関係なく、ＲＯＭなどの記憶装置のような揮発性又は非揮発性記憶装置、又は例えば、ＲＡＭ、メモリチップ、装置又は集積回路のようなメモリ、又は例えばＣＤ、ＤＶＤ、磁気ディスク又は磁気テープなどの光学的又は磁気的に読み取り可能な媒体に格納されることができる。記憶装置及び記憶媒体は、本発明の実施形態を実現する指示を含むプログラム又はプログラムを格納するのに適合した機械可読の記憶装置の実施形態である。したがって、本発明の実施形態は、本願に説明したようなシステム又は方法を実現するためのコードを含むプログラム及びこのようなプログラムを格納する機械可読記憶装置を提供する。また、このようなプログラムは、有線又は無線接続を通じて送信される通信信号のような任意の媒体を通して電子的に移送され、実施形態はこれと均等なことを適切に含む。

以上、本発明を具体的な実施形態を参照して詳細に説明してきたが、本発明の範囲及び趣旨を逸脱することなく様々な変更が可能であるということは、当業者には明らかであり、本発明の範囲は、上述の実施形態に限定されるべきではなく、特許請求の範囲の記載及びこれと均等なものの範囲内で定められるべきである。

１００、２００、４００装置
１１０音響通信信号生成器
１２０、２６０、４２２、４２４、４２６結合器
１３０、２７０、４８０スピーカ
２１０、４３０高速フーリエ変換ブロック
２２０帯域スプリッタ
２３０逆高速フーリエ変換ブロック
２４０順方向エラー訂正符号化ブロック
２５０直行周波数分割多重変調
３１０低周波数ビン
３２０高周波数ビン
３２５音響通信信号
３３０、５１０オリジナルオーディオ信号
４１０高周波数減衰フィルター
４４０包絡推定ブロック
４５０心理音響モデリングブロック
４６０オブジェクト符号化ブロック
４７０多重搬送波変調器
５３０フィルターリングされた信号
５４０残留信号
５５０心理音響マスク
５６０音響信号スペクトルマスク
６１０マスカー
６２０マスキー
６３０絶対可聴しきい値
６４０周波数マスキングしきい値

Claims

音響通信方法であって、
オーディオ信号の高周波数部分が減衰するように前記オーディオ信号をフィルターリングするステップと、
前記オーディオ信号及び前記フィルターリングされた信号間の差に対応する残留信号を生成するステップと、
予め定められた心理音響モデルに基づいて前記オーディオ信号に対する心理音響マスクを生成するステップと、
前記残留信号を前記心理音響マスクと結合することにより音響信号スペクトルマスクを生成するステップと、
前記音響信号スペクトルマスクに従ってディジタルデータを変調することにより音響通信信号を生成するステップと、
前記音響通信信号を前記フィルターリングされた信号と結合するステップと
を有することを特徴とする音響通信方法。
前記オーディオ信号をフィルターリングするステップは、低い周波数から高い周波数に行くほど順次に減少する周波数応答を有する周波数選択減衰フィルターを用いて実行されることを特徴とする請求項１に記載の音響通信方法。
前記残留信号のスペクトル包絡を検出するステップをさらに有することを特徴とする請求項１に記載の音響通信方法。
前記スペクトル包絡を検出するステップは、
前記残留信号の高速フーリエ変換（ＦＦＴ）を行うステップと、
前記変換された残留信号のスペクトル包絡を推定するステップとを有することを特徴とする請求項３に記載の音響通信方法。
前記心理音響マスクを生成するステップは、
前記オーディオ信号のピーク成分を検出するステップと、
前記ピーク成分に対して個別周波数マスクを算出するステップと、
前記個別周波数マスクを絶対可聴しきい値と結合することによりグローバルマスクを生成するステップと、
前記グローバルマスクと前記オーディオ信号間の差に対応する前記心理音響マスクを生成するステップと
を有することを特徴とする請求項１に記載の音響通信方法。
前記ピーク成分を検出する前に、前記オーディオ信号の高速フーリエ変換（ＦＦＴ）を行うステップをさらに有することを特徴とする請求項５に記載の音響通信方法。
前記ピーク成分を検出するステップは、
前記オーディオ信号のトーナル及び非トーナル成分を検出するステップと、
前記トーナル及び非トーナル成分から絶対可聴しきい値未満の強度を有するトーナル及び非トーナル成分を除去するステップとを有することを特徴とする請求項５に記載の音響通信方法。
前記音響通信信号は多重搬送波信号であることを特徴とする請求項１に記載の音響通信方法。
前記結合された音響通信信号及び前記フィルターリングされた信号をスピーカを用いて音波の形態で放射するステップをさらに有することを特徴とする請求項１に記載の音響通信方法。
前記音響通信方法を実行するためのプログラムを記録した機械により読み取られることができる請求項１乃至請求項９に記載の記憶装置。
前記機械により読み取られることができる記憶装置を含むことを特徴とする請求項１０に記載の音響通信装置。