JP4339793B2 - 音響チャネルと圧縮によるデータ通信 - Google Patents

音響チャネルと圧縮によるデータ通信 Download PDF

Info

Publication number
JP4339793B2
JP4339793B2 JP2004540027A JP2004540027A JP4339793B2 JP 4339793 B2 JP4339793 B2 JP 4339793B2 JP 2004540027 A JP2004540027 A JP 2004540027A JP 2004540027 A JP2004540027 A JP 2004540027A JP 4339793 B2 JP4339793 B2 JP 4339793B2
Authority
JP
Japan
Prior art keywords
sound
parameters
relationships
digital data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004540027A
Other languages
English (en)
Other versions
JP2006507720A (ja
Inventor
ガードナー、ウィリアム・ロバート
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2006507720A publication Critical patent/JP2006507720A/ja
Application granted granted Critical
Publication of JP4339793B2 publication Critical patent/JP4339793B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B3/00Line transmission systems
    • H04B3/50Systems for transmission between fixed stations via two-conductor transmission lines
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/66Arrangements for connecting between networks having differing types of switching systems, e.g. gateways

Description

本発明は一般にデータ通信に関し、特に、音響チャネルによるデータ通信に関する。
通信技術の進化は、情報の共有及び/又は転送をより容易により高速にしてきた。ハイボリュームなデータが、(例えばインターネットのような)ローカル又はワイドエリアネットワーク、携帯ネットワーク、及び/又は衛星通信システムのようなデータ送信システムによって通信することができる。これらのシステムは、複雑化されたハードウェア及び/又はソフトウェアを必要とし、一般に高いデータレート及び/又は長い送信範囲のために設計されている。
例えばパーソナルコンピュータとパーソナルデジタルアシスタント(PDA)との間のように、極めて近いところにおけるデータ転送のために、上述したシステムは、ユーザに対して便利な通信媒体を提供しないかもしれない。従って、例えば、無線周波数(RF)又は赤外線(IR)のような通信媒体を使ってデータを送信する様々な通信システムが開発されてきた。しかしながら、これらのシステムもまた専門化された通信ハードウェアを必要とするので、実施するにはしばしば高価であったり、実際的ではなかったりする。更に、単純な有線接続を、データ送信に使用することもできる。しかしながら、有線接続を使用するためには、ユーザは、物理的に線を持ち、通信のための接続を行わねばならない。これはユーザに対して負担及び不便をもたらしうる。
更に、電子商取引の増加によって、不正活動の機会もまた増大してきた。犯罪者の手にかかった不適切なアイデンティティは、無実のパーティに損害をもたらしうる。最悪ケースのシナリオは、個人の信用度と銀行口座を利用するために、犯罪者は、パーティのアイデンティティを盗み取ることである。その結果、許可されていない人が個人情報を盗み取ることを阻止するために、パーティ間で送信された個人情報を隠すことができるような様々なセキュリティ及び暗号スキームが開発されてきた。しかしながら、個人情報の隠蔽は、電子商取引処理における高いレベルの顧客信頼を達成するために必要なセキュリティの一つの局面に過ぎない。
別の局面は認証である。個人の電子認証は、現在、例えばパスワードや個人識別番号(PIN)などの知識による認証、例えばクレジットカードや近接カードなどのポータブルオブジェクトによる認証、及び/又は例えば指紋、DNA、署名などの個人特徴(バイオメトリクス)による認証を実行することによってなされている。しかしながら、電子的セキュリティ手段に対する現在の依存のために、個人が複数の認証オブジェクトを持ち運んだり、あるいは複数のパスワードを記憶するように強制されることも珍しくない。従って、知識による認証は、複数のパスワード及び/又はPINを記憶するように強制された個人にとって問題がある。そのような情報を書き留めることは、パスワードやPINコードの盗難に対して個人を無防備にする。
従って、極めて近接した情報の通信及び/又は認証を行うために簡単でユーザフレンドリな方法に対する必要性がある。更に、データの最終目的地は、極めて近接しているとは限らない。例えば、個人は、しばしば音声圧縮と解凍とを含む電話又は移動電話を用いて情報を送りたいかもしれない。音声圧縮及び解凍は、情報をかなり歪める。従って、音声圧縮/解凍を含む通信ネットワークを介した場合であっても同様に、極めて近接した情報の通信及び/又は認証を行う方法に対する必要性がある。
米国特許第5,414,796号 "Trellis-coded modulation with redundant signal set-part I: Introduction, "IEEE Communications Magazine, vol. 25, no., 2, Feb. 1987, by G. Ungerboeck "Trellis-coded modulation with redundant signal set-part II: State of the art, "IEEE Communications Magazine, vol. 25, no., 2, Feb. 1987, by G. Ungerboeck "Digital Communications, by J. Proakis, 1995, McGraw Hill"
ここで開示された実施例は、音を用いたデータ通信のための装置及び方法を提供することによって、上述した必要性に対処する。一つの局面では、デジタルデータを送信する装置は、送信されるデジタルデータを一つ又は複数の種類の音パラメータに変換する手段と、一つ又は複数の種類の音パラメータに基づいて音を生成する手段とを備えている。デジタルデータを受信する装置は、受信した音から、一つ又は複数の種類の音パラメータを抽出する手段と、抽出された一つ又は複数の種類の音パラメータを、デジタルデータに変換する手段とを備えている。これら装置のうちの何れか一方、又は両方は更に、一つ又は複数の種類の音パラメータとビットパターンとの間の一つ又は複数の関係のセットを格納する手段を備えている。ここで、前記変換する手段は、前記一つ又は複数の関係のセットに基づいて変換する。この格納する手段は、一つ又は複数の関係のセットを定義するルックアップテーブルを格納する。
別の局面では、デジタルデータを送信する方法は、送信されるデジタルデータを一つ又は複数の種類の音パラメータに変換することと、一つ又は複数の種類の音パラメータに基づいて音を生成することとを備えている。デジタルデータを受信する方法は、受信した音から、一つ又は複数の種類の音パラメータを抽出することと、抽出された一つ又は複数の種類の音パラメータを、デジタルデータに変換することとを備えている。これら方法のうちの何れか一方、又は両方は更に、一つ又は複数の種類の音パラメータとビットパターンとの間の一つ又は複数の関係のセットを格納することを備えている。ここで、前記変換することは、前記一つ又は複数の関係のセットに基づいて変換する。格納することは、一つ又は複数の関係のセットを定義するルックアップテーブルを格納することを含む。
また別の局面では、デジタルデータを送信する装置は、デジタルデータを一つ又は複数の種類の音パラメータに変換するよう構成されたデータコーダと、データコーダに接続され、一つ又は複数の種類の音パラメータに基づいて音を生成するように構成された音シンセサイザとを備えている。デジタルデータを受信する装置は、音を受信し、受信した音から、一つ又は複数の種類の音パラメータを抽出するように構成された音アナライザと、音アナライザに接続され、抽出された一つ又は複数の種類の音パラメータを、デジタルデータに変換するように構成されたデータデコーダとを備えている。これら装置のうちの何れか一方、又は両方は更に、一つ又は複数の種類の音パラメータとビットパターンとの間の一つ又は複数の関係のセットを格納するように構成された記憶媒体を備えている。そして、データコーダ/デコーダは、一つ又は複数の関係のセットに基づいて変換するように構成されている。
更に別の局面では、デジタルデータを送信するために使用される機械読取可能媒体は、送信されるデジタルデータを一つ又は複数の種類の音パラメータに変換するコードと、一つ又は複数の種類の音パラメータに基づいて音を生成するコードとを備えている。デジタルデータを受信するために使用される機械読取可能媒体は、受信した音から、一つ又は複数の種類の音パラメータを抽出するコードと、抽出された一つ又は複数の種類の音パラメータを、デジタルデータに変換するコードとを備えている。
更なる局面では、デジタルデータの送信及び受信を行う装置は、送信されるデジタルデータを一つ又は複数の種類の音パラメータに変換する手段と、一つ又は複数の種類の音パラメータに基づいて音を生成する手段と、受信した音から、一つ又は複数の種類の音パラメータを抽出する手段と、抽出された一つ又は複数の種類の音パラメータを、デジタルデータに変換する手段とを備えている。
本出願は同時係属中の米国特許仮出願番号60/413,981、"Data Communication Through Acoustic Channels And Compression"、(2002年9月25日出願)からの優先権の利益を主張する。上記仮出願の開示は、全ての目的のために全体がここで参照として組み込まれる。
様々な実施例が、同一の参照番号が同一の要素を参照している以下の図面を参照して詳細に記載される。
以下に記載した実施例は、デジタルデータが、音を用いて送受信されるようにする。一般に、デジタルデータは、音を合成するために使用される少なくとも一つの音パラメータに変換又はマップされる。その後、この音パラメータを使って人工音が生成される。従って、この生成された人工音は、デジタル音を符号化し、この音を送ることによって、デジタルデータが送信される。データを復元する時、受信された音から、適切な音パラメータが抽出され、音パラメータがデジタルデータに再び変換される。データ及びパラメータ間での変換を行うために、選択された特徴を持っているあるパラメータが、予め定めたパターンのバイナリビットを表すように関係のセットが定義される。
ここで開示したように、用語「音」は、音響波と、圧力波と、気体、液体、又は固体を伝播してきた振動とにあてはまる。音は、超音波、可聴音、及び超低周波音を含む。用語「可聴音」は、おおよそ20Hzから20kHzである可聴スペクトル内にある周波数の音にあてはまる。用語「超音波音」は、可聴スペクトルより高い周波数にある音にあてはまる。用語「超低周波音」は、可聴スペクトルよりも低い周波数にある音にあてはまる。用語「記憶媒体」は、読出専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、磁気ディスク記憶媒体、光記憶媒体、フラッシュメモリデバイス、及び/又はその他の機械読取可能媒体を含み、データを記憶するための一つ又は複数のデバイスを表す。用語「機械読取可能媒体」は、限定される訳ではないが、携帯型又は固定型の記憶装置と、光記憶装置と、命令及び/又はデータを格納できるその他のデバイスとを含む。
図1は、音を用いてデジタルデータを送ることができる送信デバイス100の一つの実施例を示す。
図2は、送信デバイス100によって送られたデータを受信できる受信デバイス200の一つの実施例を示す。送信デバイス100は、送信するデジタルデータを、少なくとも一つの音パラメータに変換するデータコーダ120を備えている。その後、音シンセサイザ130はデータコーダ120からの音パラメータに基づいて音を生成する。受信デバイス200は、受信した音から、適切な音パラメータを抽出する音アナライザ210と、音アナライザ210によって抽出されたパラメータをデジタルデータに変換するデータデコーダ230とを備える。
図3は、音を用いてデジタルデータを送る送信処理300を示し、図4は、音を用いてデジタルデータを受信する受信処理400を示す。送信するために、送信されるデジタルデータは、音を合成する場合に使用される少なくとも一つのパラメータに変換又はマップされる(310)。その後、音パラメータに基づき音が生成され(320)、送られる。ここでは、データコーダ120は、送信するデジタルデータを変換し、音シンセサイザ120は、音を生成する。音が受信された時、音パラメータが抽出され(410)、デジタルデータに再び変換される(420)。ここでは、音アナライザ210は適切なパラメータを抽出し、データデコーダ230は、このパラメータをデジタルデータに変換する。
更に詳しくは、デジタルデータを、少なくとも一つの音パラメータ(以後、データシンボルと呼ぶ)に変換するために、少なくとも一つのパラメータとビットパラメータとの関係のセットが定義される。この関係のセットに基づいて、データコーダ120は、このデータをパラメータに変換し、データデコーダ230は、パラメータからデータに変換する。ここでは、データコーダ120とデータデコーダ230とが同一の関係のセットを使用する限りにおいては、変換のために任意の適切な関係が定義される。また、データコーダ120とデータデコーダ230とは、プロセッサ(図示せず)を備えているか、またはプロセッサ(図示せず)として実施される。このプロセッサは、関係のセットを用いて、デジタルデータとパラメータとの間の変換を行う。
また、送信デバイス100と受信デバイス200とは更に、関係のセットを格納する記憶媒体(図示せず)を備えている。この記憶媒体の位置は、送信デバイス100と受信デバイス200との動作に影響を与えないことは、当該技術分野における熟練者にとっては明らかであろう。従って、送信デバイス100では、記憶媒体は、データコーダ120の一部として実施されるか、又はデータコーダ120に対して外部に配置された任意の適切な記憶媒体である。同様に、受信デバイス200では、記憶媒体は、データデコーダ230の一部として実施されるか、又はデータデコーダ230に対して外部に配置された任意の適切な記憶媒体である。
一つの実施例では、送信デバイス100と受信デバイス200との両方又は何れか一方は、記憶媒体内のルックアップテーブル(LUT)とともに実装される。LUTは、パラメータとビットパターンとの間の関係を予め定義する。その後、LUTは、受信したデジタルデータを、少なくとも一つのパラメータに変換するためにデータコーダ120によって使用される。同様に、LUTは、音アナライザ210によって抽出されたパラメータをデジタルデータに変換するためにデータデコーダ230によって使用される。
以下に示すテーブルは、デジタルデータと一つのパラメータとの間の変換を行うためのLUTの例である。ここで、A,B,C,Dは、ピッチ値又はピッチ値の範囲である。
Figure 0004339793
示されるように、LUTは、ビットパターンとピッチ値との間の関係を定義している。ピッチ値は、音を合成する場合に使用されるパラメータである。従って、例えばデジタルデータ”010001”を送信するために、ビットパターンは、LUTに基づいてピッチ値”BAB”に変換される。このデジタルデータを表すピッチ値”BAB”は、その後、3つの連続フレーム内の音を生成するために使用される。このピッチは、一つのフレームに亘ってコンスタントである。デジタルデータを受信するために、このピッチ値”BAB”は、受信した音から抽出され、LUTに基づいてビットパターン”010001”に変換される。
説明の目的のために、このLUTでは一つのパラメータが用いられていることに留意されたい。しかしながら、このシステムで許容されるいかなる数のパラメータも、パラメータとビットパターンとの間の関係を定義するのに使用されうる。また、各パラメータは、異なるビットパターンに対応して4よりも多いか、又は4よりも少ない異なる値を持つように定義されることもできる。ここでは、各値は、一つの値、又は値の範囲を表す。例えば、上記テーブル内のピッチ値”A”は、一つのピッチレベルを表すか、あるピッチ値の範囲内のピッチレベルを表す。更に、ピッチ以外の種類のパラメータも、システムに実装された音シンセサイザに基づいて使用されうる。音シンセサイザに基づいて、ここで使用された単数のパラメータ又は複数のパラメータは、超音波音又は超低周波音と同様に、可聴音を合成するためにも使用されうる。
上述された送信デバイス及び/又は受信デバイスは、様々な応用において使用される。図5(a)に示すように、データを表す音は、一つのデバイスから別のデバイスへの情報の転送、共有、及び/又は交換のために使用することができる。この情報は、限定される訳ではないが、個人情報、例えば名前や電話番号や住所のようなコンタクト情報、ビジネス情報、カレンダ情報、メモ、ソフトウェア、又はこれらの組み合わせを含む。また、デバイスは単なる送信デバイスとしても、単なる受信デバイスとしても、送信デバイスと受信デバイスの両方として実施されても良い。例えば、送信デバイス100と受信デバイス200とを実現するデバイスの一つの実施例では、データコーダ120とデータデコーダ230とが結合されたり、もしも実装されているのであれば更にLUTもまた結合することができる。従って、実装により可能とされ、また通信の種類に依存して、通信は、一方向であるか、または双方向でありうる。
別のアプリケーションでは、図5(b)に示すように、送信デバイスはセキュリティトークンであり、受信デバイスは認証デバイスである。データを表す音は、無線認証を実行するために使用することができる。ここでは、送信されたデータは、個人を認証するための暗号署名を含む。暗号は、当該技術分野でよく知られており、一般に、個人情報を暗号化する処理である。暗号化された情報を解読するためには、「鍵」が必要とされる。従って、認証デバイスは、個人のアイデンティティを検証し、個人と種々の外部デバイスとの間の処理を可能にするために使用される。従って、データは、個人を検証するためにセキュリティトークンから認証デバイスへ送られることができる。認証システムの中には、セキュリティトークンと認証デバイスとの間の双方向通信があることに留意されたい。そのような場合、セキュリティトークンと認証デバイスとの両方が、送信デバイス及び受信デバイスを備えて実施される。送信デバイス100と受信デバイス200との両方が実施される場合、データコーダ120とデータデコーダ230とが結合され、もしも実装されているのでれば更にLUTもまた結合することができる。
更に、データを表す音が直接的に送信され受信される一方、データを表す音は、図5(c)に示すような通信ネットワークを通って送受信される。ここでは、この通信ネットワークは、音を送信することができる多くのネットワークのうちの一つでありうる。
一つの応用では、データを表す音が、音声コーダ又はボーコーダを介して一つのデバイスから別のデバイスに送信される。音声は、単純にサンプリングされ、設定データレートでデジタイズされることによって送信される。しかしながら、音声圧縮により、データレートの大幅な減少が可能となる。人間の音声生成モデルに関連したパラメータを抽出することによって音声を圧縮する技術を適用するデバイスは、一般にボーコーダと呼ばれる。そのようなデバイスは一般に、到来する音声を分析して関連するパラメータを抽出するエンコーダ又は音声シンセサイザと、送信チャネルを介して受信したパラメータを使って音声を再合成するデコーダ又は音声シンセサイザとから構成される。音声は、パラメータが計算されている間に、時間ブロック、すなわち分析フレームに分割される。その後このパラメータは、新たなフレームのそれぞれについて更新される。
図6は、データを表す音がボーコーダを介してデバイス610からデバイス620に送信されるシステム600を示す。このシステムは、加入者ユニット、遠隔局、又はユーザ機器とも呼ばれる複数の移動局(MS)630,690と、基地局(BS)640と、移動交換センタ(MSC)又はスイッチ650とを含む無線通信ネットワークを備えている。この構成に依存して、システム600は更に、パケットデータサービングノード(PDSN)又はインターネットワーキング機能(IWF)670、インターネットプロトコル(IP)ネットワーク680、及び/又は公衆通信交換網(PSTN)660を含む。任意の数の送信デバイス、受信デバイス、MS、BS、BSC、及びPDSNが存在しうることが、当該技術分野における熟練者に理解されるであろう。同様に、当該技術分野では、様々な構成及び動作のMS630、BS640、MSC650、PSTN660、PDSN670、及びIPネットワーク680が良く知られているので、これ以上述べない。
システム600では、デバイス610は、例えば送信デバイス100を用いて実施され、デバイス620は、例えば受信デバイス200を用いて実施される。また、エンコーダとデコーダとの両方を備えたボーコーダは、移動局630,690及び基地局640内に実装される。システム600の動作について図7を用いて説明する。
図7は、デバイス610からデバイス620へ音を用いてデータを送信する処理の例を示す。図7では、送信されるデータが少なくとも一つの音声パラメータに変換される(710)。次に、少なくとも一つの音声パラメータを用いて、人工音声が生成され(720)、MS630に送られる(725)。ここでは、データは、例えば定義された関係のセットに基づいてデータコーダ120によって変換又はマップされる。そして人工音声が、例えば音シンセサイザ130によって生成される。また、この人工音声は、MS630,690及びBS640に実装されたボーコーダが行うものと同様の方法で合成される。
MS630のボーコーダのエンコーダ部は、到来する人工音声を符号化する(730)。すなわち、到来する人工音声が分析され、適切な音声パラメータが抽出される。この音声パラメータは、基地局640に送信される(735)。基地局640内のボーコーダのデコーダ部は、受信した音声パラメータを用いて音声のデコードすなわち再合成を行う(740)。この再合成された音声は、MSC650に制御されることによって、デバイス620又は適切な目的地に送られる。
この再合成された音声は、デバイス620の構成に依存して、BS640からデバイス620へ直接的に送られるか、又は転送される(742)。あるいは、再合成された音声は、BS640からMS690を通ってデバイス690へ転送される(744)。ここで、音声パラメータは、BS640によって送られ、MS690によって音声にデコードされるか又は再合成され(750)、デバイス620に送られる(755)。あるいは、再合成された音声はまた、PSTN660を通って(760)、或いはIPネットワーク680を用いてPSDN670を通って(770)、BS640からデバイス620へ転送される(746、748)。
デバイス620が、MS690、PSTN660、又はIPネットワーク680のうちの一つから、再合成された音声を受信したとき、適切な音声パラメータが抽出され(780)、データに再び変換される(790)。ここで、適切な音声パラメータは、例えば音アナライザ210によって抽出される。そして、このパラメータは、例えば、定義された関係のセットを用いてデータデコーダ230によって変換される。また、適切な音声パラメータは、MS630,690及びBS640内に実装されたボーコーダが行うものと同様の方法で抽出される。
別の実施例では、デジタルデータを表す人工音声は、図8に示すように、電話を用いてPSTN660を通ってデバイスAからデバイスBへ直接送られる。同様に、デジタルデータを表す人工音声は、図9に示すように、例えばコンピュータを用いてIPネットワーク670を通ってデバイスAからデバイスBへ直接送られる。ここで、コンピュータは、IPネットワーク670に接続可能で、音を処理することができる任意のデバイスである。
従って、デジタルデータは、音声パラメータとして送られ、受信される。音声パラメータの種類は、ボーコードアルゴリズムにおいて音声を再合成するために使用される音声モデルに依存する。ボーコーダは、しばしば妥当な忠実さによって、全体のスペクトル形状と発声ピッチとを符号化する。従って、一つの実施例では、ピッチ及び/又はスペクトル情報は、データを送信するために使用される。更に、波形の全体の振幅もまた使用されうる。
更に詳しくは、ボーコードアルゴリズムの一例は、コード励起された線形予測(Code Excited Linear Prediction)すなわちCELP音声モデルである。これは、本発明の譲受人に譲渡された米国特許第5,414,796号、"Variable Rate Vocoder"に記載されている。CELP又はCELPの変形は、しばしばボーコーダで使用されている。
一般に、CELP音声デコーダは、音声の各フレームについて「励起信号」を生成することによって合成された音声を生成する。この信号は、フレームの長さであり、一般にスペクトル的に白に近い。エンコーダは可能な励起信号の「コードブック」から、各フレームについてどの励起信号が、選択されたのかを特定する。異なるCELPアルゴリズムは、励起コードブックについて異なる構造を持つ。これらの構造は、一般に、良品質の再構築された音声を提供しながら、可能な励起信号の全ての中から、可能な限り簡単な計算によって最良のものを見つけ出す探索処理を行うために選択される。この励磁信号は、ゲインファクタによってスケールされる。ゲインファクタは、フレームについて、オリジナル音声のボリュームに良く相関付けられている。このスケールされた励起信号は、「ピッチフィルタ」と通される。ピッチフィルタは、音声信号に長期間の冗長性を導入する。このフィルタの「ゲイン」は、ピッチ変化に適用させるために動的に変えられる。そして、このピッチフィルタの出力は、音声信号に短期間の冗長性を導入する線形予測コード(LPC:Linear Predictive Coding)に通される。従って、CELP符号化処理は一般に励起ベクトル、励起ゲイン、ピッチフィルタパラメータ、及びLPCフィルタパラメータを選択し、デコーダのLPCフィルタの出力を、オリジナル音声に近くマッチするようにする。
もしもシステム600に実装されたボーコーダがCELP音声モデルに基づくのであれば、ビットパラメータとピッチフィルタパラメータとの間の関係が定義される。ビットパターンとLPCフィルタパラメータとの間の関係もまた定義することができる。従って、定義された関係に基づいて、送信されたデータの全て又は一部が、ピッチフィルタパラメータ、又はLPCフィルタパラメータ、又はその両方に変換される。
説明の目的のために、ピッチフィルタパラメータとLPCフィルタパラメータとの両方が、この関係の定義に使用されると仮定する。そのような場合には、例えば、ピッチ周波数は、約2サンプルの間隔で、約8kHzのサンプリングレートで、おおよそ20から100サンプルの範囲で選択される。この結果、ピッチ周波数に対しておおよそ32の可能性となる。これによって、5ビットの情報がこのピッチパラメータによって運ばれるようになる。
また、例えば、CELPボーコーダが8ポールを持つLPCフィルタを実現していると仮定すると、4つの共鳴周波数又は4対の複素共役ポールの位置は、デジタルデータをLPCパラメータにマッピングするために特定される。一般に、音声は、おおよそ300から3000Hzの狭帯域で送信される。もしも共鳴周波数が約250Hzの間隔をおいて配置されるのであれば、ポールを配置することが可能な約11の位置がある。もしも4対のポールが選択されるのであれば、11の位置における4ポールの位置の組み合わせの数が、以下に示す式によって与えられる。
Figure 0004339793
これによって、8ビットの情報が、LPCパラメータによって運ばれるようになる。上記に類似した方法で、いくつかのビットはゲインファクタに符号化される。しかしながら、もしもLPCフィルタポール位置とピッチ周波数とが、上記の例のように使用されたのであれば、結果として得られるコードワードは、ボーコーダフレーム毎に8+5=13ビットの長さとなる。
商業用システムのボーコーダフレームは、一般に約10から20ミリ秒の長さである。このような場合、データはボーコーダフレームサイズの範囲をカバーするために約20ミリ秒長さのフレーム(以後、「データフレーム」と呼ぶ)を持つ音声パラメータに符号化される。しかしながら、デバイス610,620は、MS630,690内のボーコーダのフレーム化と同期していない。従って、少なくとも部分的にボーコーダ音声フレームとオーバラップするために大きなフレームサイズが選択される。例えば、40ミリ秒のデータフレームが、デバイス610,620のために実施できる。もしそうなら、少なくとも20ミリ秒の連続サンプルは、少なくとも一つのボーコーダフレームによって符号化される。受信機では、ボーコーダフレームとデータフレームとの間の最大のオーバラップを与える20ミリ秒のウィンドウが識別される。デジタルデータ送信の開始においては、デジタルデータが送信されていることを示すために同期プリアンブルが送信されることに注意されたい。受信機によって受信された時、この同期プリアンブルによって、受信機は、デジタルデータ送信の開始を検出できるようになる。従って、このプリアンブル信号が一旦検出されると、データとボーコーダフレームとの間のオーバラップが最大となる位置が検出される。この情報は、データフレームをデコードするために使用する最良のサンプルウィンドウを推定するために将来のフレームにおいて使用される。
また、データフレームで運ばれるビットのうちいくつかは、ピッチ及び/又はLPC共鳴周波数を検出する場合におけるエラーに対する保護を提供するために冗長として使用される。もしもピッチ及びLPC共鳴周波数が符号化に使用されれば、ピッチ/共鳴周波数値は、「データシンボル」と称される2次元シンボル空間を提供する。ユーザデータは、まず、畳み込みコードのようなエラー修正コードを用いて符号化される。この符号化されたビットシーケンスは、その後、インタリーブされる。コード化され、インタリーブされたビットシーケンスは、nビットからなるグループに分割される。そして、各nビットグループは、データシンボル上にマップされる。上述した例では、13ビットからなるグループ(ピッチ値から5、LPC共鳴周波数から8)がデータシンボル上にマップされる。
更に詳しくは、エンコードされたビットをデータシンボルに変換及び/又はマップするために多くの異なる方法を使用することができる。例えば、Trellisコードを使用することができる。あるいは、エンコードされたビットをデータシンボルにマップするためにGrayマッピングを使用することができる。Trellisコードは、"Trellis-coded modulation with redundant signal set-part I: Introduction, "IEEE Communications Magazine, vol. 25, no., 2, Feb. 1987, by G. Ungerboeck、及び"Trellis-coded modulation with redundant signal set-part II: State of the art, "IEEE Communications Magazine, vol. 25, no , 2, Feb. 1987, by G. Ungerboeckに記載されている。Grayマッピングは、"Digital Communications, by J. Proakis, 1995, McGraw Hill"に記載されている。
音声フレーム毎に送信可能なデータの量は、例えば、音声パラメータを表すビットの数、及び/又はフレームサイズのような種々の要因に依存する。例えば、もしもPビットがピッチフィルタパラメータを表せば、Pビット又はPビット未満のビットパターンが、ピッチフィルタパラメータに対応するように定義される。
上記記述では、本発明の完全な理解を与えるために特定の詳細が与えられている。しかしながら、本発明はこれら特定の詳細なしに実施可能であることは、当該技術分野における通常の熟練者によって理解されるであろう。また、本データ通信システムの様々な局面、特徴、及び実施例は、フローチャート、流れ図、構造図、ブロック図として示すことができる処理として記載される。フローチャートは、シーケンシャルな処理として動作を記載しているが、動作の多くは、並行してあるいは同時に実施することが可能である。更に、動作の要求は、再アレンジされうる。動作が完了したときに処理が停止する。処理は、方法、機能、手続き、ソフトウェア、サブルーチン、サブプログラム等に対応している。処理が機能に対応しているとき、その停止は、呼出機能又は主機能へのこの機能の戻りに対応する。
更に、実施例は、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、又はこれらの任意の組み合わせによって実施されうる。ソフトウェア、ファームウェア、ミドルウェア、又はマイクロコードに実装されたとき、必要なタスクを実行するプログラムコード又はコードセグメントは、記憶媒体に格納される。プロセッサは、必要なタスクを実行しうる。コードセグメントは、手続きと、機能と、サブプログラムと、プログラムと、ルーチンと、サブルーチンと、モジュールと、ソフトウェアパッケージと、クラスと、命令、データ構造、プログラム文の任意の組み合わせとを表しうる。コードセグメントは、情報、データ、アーギュメント、パラメータ、又はメモリコンテンツを渡したり、受信することによって、別のコードセグメントやハードウェア回路に接続される。情報、アーギュメント、パラメータ、データ等は、メモリ共有、メッセージパス、トークンパス、ネットワーク送信等の任意の適切な手段を経由して渡され、転送され、送信される。
従って、前述した実施例は、単なる一例であり、本発明を限定するものと解釈されるものではない。本ティーチングは、別の種類の装置に対して容易に適用可能である。本発明の記述は、例示することを意図しており、特許請求の範囲を制限することを意図していない。当該技術分野における熟練者にとって多くの代替、修正、及び変形は明らかである。
図1は、音を用いてデータを送信するデバイスの一つの実施例を示す。 図2は、音を用いてデータを受信するデバイスの一つの実施例を示す。 図3は、音を用いてデータを送信する処理の一つの実施例を示す。 図4は、音を用いてデータを受信する処理の一つの実施例を示す。 図5は、音を用いてデータの通信の一例を示す。 図6は、音を用いてデータを無線通信ネットワークを介して送信するシステムの一つの実施例を示す。 図7は、音を用いてデータを無線通信ネットワークを介して送信する処理の一つの実施例を示す。 図8は、音を用いてデータをPSTNを介して送信することを示す。 図9は、音を用いてデータをIPネットワークを介して送信することを示す。

Claims (24)

  1. デジタルデータを送信する装置であって、
    一つ又は複数の音パラメータとビットパターンとの間の一つ又は複数の関係のセットを格納する記憶媒体と、
    前記デジタルデータ内のビットパターンを、前記一つ又は複数の関係のセットに従って、一つ又は複数の対応する音パラメータに変換するデータコーダと、
    前記データコーダに接続され、前記一つ又は複数の対応する音パラメータに基づいて音を生成する音シンセサイザと
    を備える装置
  2. 前記記憶媒体は、前記一つ又は複数の関係のセットを予め定義するルックアップテーブルを備える請求項1に記載の装置
  3. 音パラメータは、一つの値、又は値の範囲を表す請求項1に記載の装置
  4. 前記一つ又は複数の音パラメータは、一つ又は複数の音声パラメータを含む請求項1に記載の装置
  5. デジタルデータを受信する装置であって、
    一つ又は複数の音パラメータとビットパターンとの間の一つ又は複数の関係のセットを格納する記憶媒体と、
    音を受信し、前記受信した音から、一つ又は複数の音パラメータを抽出する音アナライザと、
    前記音アナライザに接続され、前記抽出された一つ又は複数の音パラメータを、前記一つ又は複数の関係のセットに従って、デジタルデータに変換するデータデコーダと
    を備える装置
  6. 前記記憶媒体は、前記一つ又は複数の関係のセットを予め定義するルックアップテーブルを備える請求項5に記載の装置
  7. 音パラメータは、一つの値、又は値の範囲を表す請求項5に記載の装置
  8. 前記抽出された一つ又は複数の音パラメータは、一つ又は複数の音声パラメータを含む請求項5に記載の装置
  9. デジタルデータを送信する方法であって、
    一つ又は複数の音パラメータとビットパターンとの間の一つ又は複数の関係のセットを格納することと、
    送信されるデジタルデータ内のビットパターン、前記関係に基づいて、一つ又は複数の対応する音パラメータに変換することと、
    前記一つ又は複数の対応する音パラメータに基づいて音を生成することと
    を備える方法
  10. 前記一つ又は複数の関係のセットを格納することは、前記一つ又は複数の関係のセットを予め定義するルックアップテーブルを格納することを備える請求項9に記載の方法
  11. 音パラメータは、一つの値、又は値の範囲を表す請求項9に記載の方法
  12. 前記一つ又は複数の音パラメータは、一つ又は複数の音声パラメータを含む請求項9に記載の方法
  13. デジタルデータを受信する方法であって、
    一つ又は複数の音パラメータとビットパターンとの間の一つ又は複数の関係のセットを格納することと、
    受信した音から、一つ又は複数の音パラメータを抽出することと、
    前記抽出された一つ又は複数の音パラメータを、前記格納された関係に従って、前記デジタルデータに変換することと
    を備える方法
  14. 前記一つ又は複数の関係のセットを格納することは、前記一つ又は複数の関係のセットを予め定義するルックアップテーブルを格納することを備える請求項13に記載の方法
  15. 音パラメータは、一つの値、又は値の範囲を表す請求項13に記載の方法
  16. 前記抽出された一つ又は複数の音パラメータは、一つ又は複数の音声パラメータを含む請求項13に記載の方法
  17. デジタルデータを送信する装置であって、
    一つ又は複数の音パラメータとビットパターンとの間の一つ又は複数の関係のセットを格納する手段と、
    送信されるデジタルデータ内のビットパターンを一つ又は複数の対応する音パラメータに変換するために、前記一つ又は複数の関係のセットを用いる手段と、
    前記一つ又は複数の対応する音パラメータに基づいて音を生成する手段と
    を備える装置
  18. 前記格納する手段は、前記一つ又は複数の関係のセットを予め定義するルックアップテーブルを格納する請求項17に記載の装置
  19. デジタルデータを受信する装置であって、
    一つ又は複数の音パラメータとビットパターンとの間の一つ又は複数の関係のセットを格納する手段と、
    受信した音から、一つ又は複数の音パラメータを抽出する手段と、
    前記抽出された一つ又は複数の種類の音パラメータを、デジタルデータに変換するために、前記一つ又は複数の関係のセットを用いる手段と
    を備える装置
  20. 前記格納する手段は、前記一つ又は複数の関係のセットを予め定義するルックアップテーブルを格納する請求項19に記載の装置
  21. デジタルデータを送信するために使用される機械読取可能媒体であって、
    一つ又は複数の音パラメータとビットパターンとの間の一つ又は複数の関係のセットと、
    送信されるデジタルデータ内のビットパターン、前記一つ又は複数の関係に従って、一つ又は複数の対応する音パラメータに変換するコードと、
    前記一つ又は複数の対応する音パラメータに変換するコードと
    を備える機械読取可能媒体
  22. デジタルデータを受信するために使用される機械読取可能媒体であって、
    一つ又は複数の音パラメータとビットパターンとの間の一つ又は複数の関係のセットと、
    受信した音から、一つ又は複数の音パラメータを抽出するコードと、
    前記抽出された一つ又は複数の種類の音パラメータを、前記一つ又は複数の関係のセットに従って、デジタルデータに変換するコードと
    を備える機械読取可能媒体
  23. デジタルデータを送受信する装置であって、
    一つ又は複数の音パラメータとビットパターンとの間の一つ又は複数の関係のセットを格納する手段と、
    送信されるデジタルデータ内のビットパターンを、前記一つ又は複数の関係のセットに従って、一つ又は複数の対応する音パラメータに変換する手段と、
    前記一つ又は複数の対応する音パラメータに変換する手段と、
    受信した音から、一つ又は複数の音パラメータを抽出する手段と、
    前記抽出された一つ又は複数の音パラメータを、前記一つ又は複数の関係のセットに従って、デジタルデータに変換する手段と
    を備える装置
  24. 前記格納する手段は、前記一つ又は複数の関係のセットを予め定義するルックアップテーブルを格納する請求項23に記載の装置
JP2004540027A 2002-09-25 2003-09-25 音響チャネルと圧縮によるデータ通信 Expired - Fee Related JP4339793B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US41398102P 2002-09-25 2002-09-25
US10/669,475 US20040225500A1 (en) 2002-09-25 2003-09-23 Data communication through acoustic channels and compression
PCT/US2003/030527 WO2004030260A2 (en) 2002-09-25 2003-09-25 Data communication through acoustic channels and compression

Publications (2)

Publication Number Publication Date
JP2006507720A JP2006507720A (ja) 2006-03-02
JP4339793B2 true JP4339793B2 (ja) 2009-10-07

Family

ID=32045265

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004540027A Expired - Fee Related JP4339793B2 (ja) 2002-09-25 2003-09-25 音響チャネルと圧縮によるデータ通信

Country Status (6)

Country Link
US (1) US20040225500A1 (ja)
EP (1) EP1556853A4 (ja)
JP (1) JP4339793B2 (ja)
KR (1) KR20050053704A (ja)
AU (1) AU2003277001A1 (ja)
WO (1) WO2004030260A2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102007007627A1 (de) * 2006-09-15 2008-03-27 Rwth Aachen Steganographie in digitalen Signal-Codierern
US8369799B2 (en) 2007-10-25 2013-02-05 Echostar Technologies L.L.C. Apparatus, systems and methods to communicate received commands from a receiving device to a mobile device
EP2266257B1 (en) * 2008-03-31 2018-07-18 Echostar Technologies L.L.C. Systems, methods and apparatus for transmitting data over a voice channel of a wireless telephone network
US8867571B2 (en) 2008-03-31 2014-10-21 Echostar Technologies L.L.C. Systems, methods and apparatus for transmitting data over a voice channel of a wireless telephone network
US8661515B2 (en) * 2010-05-10 2014-02-25 Intel Corporation Audible authentication for wireless network enrollment
DE102013218070A1 (de) * 2013-09-10 2015-03-12 THE ModulaTeam GmbH System und Verfahren zur Übertragung von Daten über heterogene Sprachnetze

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4903301A (en) * 1987-02-27 1990-02-20 Hitachi, Ltd. Method and system for transmitting variable rate speech signal
CA1334868C (en) * 1987-04-14 1995-03-21 Norio Suda Sound synthesizing method and apparatus
TW224191B (ja) * 1992-01-28 1994-05-21 Qualcomm Inc
US5633983A (en) * 1994-09-13 1997-05-27 Lucent Technologies Inc. Systems and methods for performing phonemic synthesis
EP0777209A4 (en) * 1995-06-16 1999-12-22 Sony Corp SOUND GENERATION METHOD AND APPARATUS
US5953392A (en) * 1996-03-01 1999-09-14 Netphonic Communications, Inc. Method and apparatus for telephonically accessing and navigating the internet
JP3687181B2 (ja) * 1996-04-15 2005-08-24 ソニー株式会社 有声音/無声音判定方法及び装置、並びに音声符号化方法
JPH1049199A (ja) * 1996-08-02 1998-02-20 Nec Corp 無音圧縮音声符号化復号化装置
FR2753860B1 (fr) * 1996-09-25 1998-11-06 Procede et systeme pour securiser les prestations de services a distance des organismes financiers
AU4497097A (en) * 1996-09-25 1998-04-17 Qualcomm Incorporated Method and apparatus for detecting bad data packets received by a mobile telephone using decoded speech parameters
US5907822A (en) * 1997-04-04 1999-05-25 Lincom Corporation Loss tolerant speech decoder for telecommunications
US6026356A (en) * 1997-07-03 2000-02-15 Nortel Networks Corporation Methods and devices for noise conditioning signals representative of audio information in compressed and digitized form
US6208959B1 (en) * 1997-12-15 2001-03-27 Telefonaktibolaget Lm Ericsson (Publ) Mapping of digital data symbols onto one or more formant frequencies for transmission over a coded voice channel
US6408272B1 (en) * 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
US6737572B1 (en) * 1999-05-20 2004-05-18 Alto Research, Llc Voice controlled electronic musical instrument
IL138109A (en) * 2000-08-27 2009-11-18 Enco Tone Ltd Method and devices for digitally signing files, using a mobile device

Also Published As

Publication number Publication date
US20040225500A1 (en) 2004-11-11
JP2006507720A (ja) 2006-03-02
WO2004030260A3 (en) 2004-12-16
AU2003277001A8 (en) 2004-04-19
KR20050053704A (ko) 2005-06-08
WO2004030260A2 (en) 2004-04-08
EP1556853A2 (en) 2005-07-27
AU2003277001A1 (en) 2004-04-19
EP1556853A4 (en) 2006-01-04

Similar Documents

Publication Publication Date Title
US8187202B2 (en) Method and apparatus for acoustical outer ear characterization
JP2001320780A (ja) 無線ネットワークにおいて用いる移動局および無線ネットワークにおいて移動局と基地局との間で信号を送信する際に用いる方法
US20110044324A1 (en) Method and Apparatus for Voice Communication Based on Instant Messaging System
US20070299669A1 (en) Audio Encoding Apparatus, Audio Decoding Apparatus, Communication Apparatus and Audio Encoding Method
JP3022462B2 (ja) 振動波の符号化方法及び復号化方法
LaDue et al. A data modem for GSM voice channel
JP2000187496A (ja) デジタル無線チャネル上の自動音声/話者認識
US20130272518A1 (en) Speech encryption method and device, speech decryption method and device
Kheddar et al. Pitch and fourier magnitude based steganography for hiding 2.4 kbps melp bitstream
Abro et al. Towards security of GSM voice communication
JP4339793B2 (ja) 音響チャネルと圧縮によるデータ通信
CN107689226A (zh) 基于iLBC编码的一种小容量语音信息隐藏方法
Kotnik et al. Data transmission over GSM voice channel using digital modulation technique based on autoregressive modeling of speech production
Ambika et al. Secure Speech Communication–A Review
Özkan et al. Data transmission via GSM voice channel for end to end security
US7684980B2 (en) Information flow transmission method whereby said flow is inserted into a speech data flow, and parametric codec used to implement same
Krasnowski Joint source-cryptographic-channel coding for real-time secure voice communications on voice channels
CN112822017A (zh) 基于声纹识别和语音信道传输的端到端身份认证方法
Rehman et al. Effective model for real time end to end secure communication over gsm voice channel
KR20070103816A (ko) 음성신호를 이용한 카드정보 전달 시스템 및 그 방법
CN117294473A (zh) 音频数据加密传输方法、装置、电子设备及可读存储介质
Krasnowski et al. A novel distortion-tolerant speech encryption scheme for secure voice communication
Enayah et al. Securing Telecommunication based on Speaker Voice as the Public Key
CN1701352A (zh) 经由声音信道的数据通信和压缩
Stansfield et al. Coding and cryptography for speech and vision

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090127

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090424

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090602

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090702

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120710

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees