JPH10509534A - 非対称音声圧縮処理を利用する超低ビット・レート音声メッセージング・システム - Google Patents

非対称音声圧縮処理を利用する超低ビット・レート音声メッセージング・システム

Info

Publication number
JPH10509534A
JPH10509534A JP9511922A JP51192297A JPH10509534A JP H10509534 A JPH10509534 A JP H10509534A JP 9511922 A JP9511922 A JP 9511922A JP 51192297 A JP51192297 A JP 51192297A JP H10509534 A JPH10509534 A JP H10509534A
Authority
JP
Japan
Prior art keywords
predetermined
templates
distance
speech
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9511922A
Other languages
English (en)
Inventor
デービス,ウォルター・リー
ハン,ジアンーチェン
ジャシンスキ,レオン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Solutions Inc
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Publication of JPH10509534A publication Critical patent/JPH10509534A/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B5/00Near-field transmission systems, e.g. inductive or capacitive transmission systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Devices For Executing Special Programs (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

(57)【要約】 音声メッセージを処理して、低ビット・レートのスピーチ伝送処理を行う装置は、音声メッセージを処理して、一連のパラメータ・フレームを含む2次元パラメータ・マトリクス(502)に配列されたスピーチ・パラメータを生成する。この2次元パラメータ・マトリクス(502)は、所定の2次元マトリクス変換関数(414)を用いて変換され、2次元変換マトリクス(506)を得る。次に、所定のテンプレートのセットのテンプレートと2次元変換マトリクス(506)との間の距離を表す距離値が導出される。導出された距離値は、所定のテンプレートのセットのテンプレートを識別するインデクスによって識別される。導出された距離値は比較され、所定のテンプレートのセットのうち最短距離を有するテンプレートに対応するインデクスが選択され、送信される。

Description

【発明の詳細な説明】 非対称音声圧縮処理を利用する 超低ビット・レート音声メッセージング・システム 発明の分野 本発明は、一般に、通信システムに関し、さらに詳しくは、極めて低いデータ 転送レートを提供し、非対称音声圧縮処理(asymmetric voice compression proc essing)を行う圧縮音声デジタル通信システムに関する。 発明の背景 従来、ページング・システムなどの通信システムは、システムを有利に運用す るためには、メッセージの長さ,ユーザの数およびユーザの便宜性について妥協 する必要があった。ユーザ数およびメッセージの長さは、チャネルの渋滞を避け 、また長い伝送時間遅延を避けるために制限された。ユーザの便宜性は、チャネ ル容量,チャネル上のユーザ数,システム機能およびメッセージングの種類によ って直接影響される。ページング・システムでは、所定の電話番号をかけるため 単純にユーザに報知するトーン専用ペー ジャは、チャネル容量が最も高いが、ユーザにとっては幾分不便であった。従来 のアナログ音声ページャでは、ユーザはより詳細なメッセージを受信できたが、 与えられたチャネル上のユーザ数は著しく制限された。また、リアルタイム装置 であるアナログ音声ページャは、受信メッセージを保存してリピートする方法を ユーザに提供しないという欠点があった。数字または英数字ディスプレイおよび メモリを具備するデジタル・ページャの登場は、旧来のページャに伴う問題の多 くを克服した。これらのデジタル・ページャは、ページング・チャネルのメッセ ージ処理容量を改善し、後で見るためにメッセージを保存する方法をユーザに提 供する。 数字または英数字ディスプレイを具備するデジタル・ページャには多くの長所 があるが、音声報知を備えたページャを希望するユーザも依然存在した。限られ た容量のデジタル・チャネル上でこのサービスを提供するため、さまざまな音声 圧縮方法および合成方法が試みられ、それぞれの方法にはある程度の成功または 制限があった。音声シンセサイザなどの方法は、数字または英数字ディスプレイ を、発呼者の声と似ても似つかないコンピュータ生成音声に単純に置き換えた。 また、双方向無線装置によって採用された標準的なデジタル音声圧縮方法は、ペ ージング・チャネル上で利用するために必要な程度の圧縮を行うことができなか った。現在の技術水準を利用してデジタル符号化され た音声メッセージはチャネル容量の大部分を独占してしまうので、このようなシ ステムは商業的には成功しない可能性がある。 従って、ページング・システムにおけるページング・チャネルのように、通信 システムにおけるチャネルの最適利用のために必要なのは、生成データが極めて 高く圧縮され、かつ通信チャネル上で送信される通常データと混在できるように 、音声メッセージをデジタル符号化する装置である。さらに、ページャなどの通 信受信装置における処理が最小限に抑えられるように、音声メッセージをデジタ ル符号化する通信システムが必要とされる。 発明の概要 本発明の第1実施例に従って、音声メッセージを処理して、低ビット・レート のスピーチ伝送を行う方法が提供される。この方法は、音声メッセージを処理し て、スピーチ・パラメータを生成する段階;スピーチ・パラメータを、一連のパ ラメータ・フレームからなる2次元パラメータ・マトリクスに配列する段階;所 定の2次元マトリクス変換関数を利用して2次元パラメータ・マトリクスを変換 し、2次元変換マトリクスを得る段階;所定のテンプレートのセットのテンプレ ートと2次元変換行列との間の距離を表す距離値であって、所定のテンプレート のセットのテンプレ ートを識別するインデクスによって識別される距離値を導出する段階;導出され た距離値のセットを比較して、所定のテンプレートのセットのうち、導出された 距離値のセットの最短距離を有するテンプレートに対応するインデクスを選択す る段階;および所定のテンプレートのセットのうち、選択された最短距離を有す るテンプレートに対応するインデクスを送信する段階によって構成される。 本発明の第1態様に従って、音声メッセージを処理して、低ビット・レートの スピーチ伝送を行う非対称音声圧縮プロセッサが提供される。この非対称音声圧 縮プロセッサは、入力スピーチ・プロセッサ,信号プロセッサおよび送信機によ って構成される。入力スピーチ・プロセッサは、音声メッセージを処理して、デ ジタル化音声データを生成する。信号プロセッサは、デジタル化音声データから スピーチ・パラメータを生成し;スピーチ・パラメータを、一連のパラメータ・ フレームからなる2次元パラメータ・マトリクスに配列し;所定の2次元マトリ クス変換関数を利用して2次元パラメータ・マトリクスを変換し、2次元変換マ トリクスを得て;所定のテンプレートのセットのテンプレートと2次元変換マト リクスとの間の距離を表す距離値であって、所定のテンプレートのセットのテン プレートに対応するインデクスによって識別される距離値を導出し;導出された 距離値を比較して、所定のテンプレートのセットのうち、導出された距離値の最 短距離を有するテンプレート に対応するインデクスを選択するようにプログラムされる。送信機は、所定のテ ンプレートのセットのうち、選択された最短距離を有するテンプレートに対応す るインデクスを送信する。 本発明の第2実施例に従って、低ビット・レート・スピーチ伝送を処理して、 音声メッセージを与える方法が提供される。この方法は、所定のテンプレートの セットのうち1つまたはそれ以上のテンプレートに対応する1つまたはそれ以上 のインデクスを受信する段階,受信した1つまたはそれ以上のインデクスに対応 する1つまたはそれ以上のテンプレートからスピーチ・パラメータのアレイを生 成する段階,スピーチ・パラメータのアレイを処理して、解凍された(decompres sed)デジタル音声データを生成する段階;および解凍されたデジタル音声データ から音声メッセージを生成する段階によって構成される。 本発明の第2態様に従って、低ビット・レート・スピーチ伝送を受信して、音 声メッセージを与える通信装置が提供される。この通信装置は、所定のテンプレ ートのセットのうち1つまたはそれ以上のテンプレートに対応する1つまたはそ れ以上のインデクスを受信する受信機と、受信した1つまたはそれ以上のインデ クスに対応する1つまたはそれ以上のテンプレートからスピーチ・パラメータの アレイを生成するようにプログラムされた信号プロセッサと、スピーチ・パラメ ータのアレイを処理し、解凍されたデジ タル・スピーチ・データを生成するスピーチ・シンセサイザと、解凍されたデジ タル・スピーチ・データから音声メッセージを生成するコンバータとによって構 成される。 本発明の第3実施例に従って、音声メッセージを処理して、低ビット・レート ・スピーチ伝送を行う方法が提供される。この方法は、音声メッセージ全体を受 信する段階,音声メッセージ全体を処理して、スピーチ・パラメータ・マトリク スを表す一連の所定のテンプレートを識別する一連のインデクスを導出する段階 およびこの一連のインデクスを送信する段階によって構成される。 図面の簡単な説明 第1図は、本発明によるデジタル音声圧縮プロセスを利用する通信システムの ブロック図である。 第2図は、本発明によるデジタル音声圧縮プロセスを利用するページング端末 および関連するページング送信機の電気ブロック図である。 第3図は、第2図のページング端末の動作を示すフローチャートである。 第4図は、第2図のページング端末において利用されるデジタル信号プロセッ サの動作を示すフローチャートである。 第5図は、第4図のデジタル信号プロセッサにおいて利 用されるデジタル音声圧縮プロセスの一部を示す図である。 第6図は、第4図のデジタル信号プロセッサにおいて利用されるデジタル音声 圧縮プロセスの詳細を示す図である。 第7図は、第4図のデジタル信号プロセッサにおいて利用される別のデジタル 音声圧縮プロセスの詳細を示す図である。 第8図は、第2図のページング端末において利用されるデジタル信号プロセッ サの電気ブロック図である。 第9図は、本発明による圧縮音声送信フォーマットを示す図である。 第10図は、本発明によるデジタル音声圧縮プロセスを利用するページング受 信機の電気ブロック図である。 第11図は、第10図のページング受信機において利用されるデジタル信号プ ロセッサの電気ブロック図である。 第12図は、第10図のページング受信機の動作を示すフローチャートである 。 第13図は、第10図のページング受信機において利用されるデジタル音声デ ータ解凍手順を示すフローチャートである。 第14図は、第11図のデジタル信号プロセッサにおいて利用されるデジタル 音声解凍プロセスの詳細を示す図である。 第15図は、前処理されたコードブックにおいて利用される別のデジタル音声 解凍プロセスの詳細を示す図である。 第16図は、セグメント化されたコードブックにおいて利用される別のデジタ ル音声解凍プロセスの詳細を示す図である。 好適な実施例の説明 第1図は、本発明による非対称音声圧縮処理を用いて超低ビット・スピーチ伝 送を利用する、ページング・システムなどの通信システムのブロック図を示す。 本発明の非対称音声圧縮処理は、以下で説明するように、一般に320〜480 ミリ秒の極めて長いスピーチ・セグメントを表すため32ビットBCHコードワ ードを利用する。従来の電話方法を利用すると、32ビットは0.5ミリ秒のス ピーチ・セグメントを表す。デジタル音声圧縮プロセスは、極めて長いスピーチ ・セグメントに対して極めて演算性の高いプロセスを実行するために必要な時間 を与える、ページング・システムや他の非リアルタイム通信システムの非リアル タイム性に適応される。非リアルタイム通信では、音声メッセージ全体を受信し て、このメッセージを処理するのに十分な時間がある。リアルタイム通信システ ムでは2秒の遅延は許容できないが、ページング・システムでは2分の遅延も容 易に許容できる。デジタル音声圧縮プロセスの非対称性は、ページャなどの携帯 通信装置において実行するために必要な処理を最小限に抑え、そのためこのプロ セスはページング用途や、他の同様な非リアルタイム音声通信にとって理想的と なる。デジタル音声圧縮プロセスの極めて演算性の高い部分はシステムの固定部 分で実行され、その結果、以下で説明するように、システムの携帯部分ではほと んど演算を実行する必要がない。 一例として、本発明を説明するためページング・システムが用いられるが、他 の非リアルタイム通信システムも本発明の恩恵を得られることが理解される。ペ ージング・システムは、それぞれが異なるサービスを必要とするさまざまなユー ザに対してサービスを提供するように設計される。あるユーザは数字メッセージ ング・サービスを必要とし、別のユーザは英数字メッセージング・サービスを必 要とし、さらに別のユーザは音声メッセージング・サービスを必要とする。ペー ジング・システムでは、発呼者は、一般電話交換網(PSTN)104を介して 電話102でページング端末106と通信することにより、ページを発呼する。 ページング端末106は、発呼者に受信者の識別および送信すべきメッセージを 催促する。必要な情報を受けると、ページング端末106は、メッセージがペー ジング端末106によって受信されたことを示す催促を返送する。ページング端 末106はメッセージを符号化し、符号化メッセージを送信キューに入れる。適 切な時間に、メッセージは、送信機108および送信アンテナ110を利用して ページング送信機108によって送信される。なお、同報送信シ ステムでは、異なる地理的エリアを網羅する多数の送信機を利用できることが理 解される。 送信アンテナ110から送信された信号は受信アンテナ112によって受信さ れ、第1図ではページング受信機として示される通信装置114によって処理さ れる。ページングされた人物は通知され、メッセージは採用されるメッセージン グの種類に応じて表示あるいは報知される。 本発明によるデジタル音声圧縮プロセスを利用するページング端末106およ びページング送信機108の電気ブロック図を第2図に示す。第2図に示すペー ジング端末106は、市販のRCC(Radio Common Carrier)システムにおけるよ うな、多数の同時ユーザにサービスを提供するために用いられるタイプである。 ページング端末106は、コントローラ216によって制御される多数の入力装 置,信号処理装置および出力装置を利用する。コントローラ216とページング 端末106を構成する各装置との間の通信は、デジタル制御バス210によって 処理される。デジタル化音声およびデータの通信は、入力時分割多重化ハイウェ イ212および出力時分割多重化ハイウェイ218によって処理される。デジタ ル制御バス210,入力時分割多重化ハイウェイ212および出力時分割多重化 ハイウェイ218は、ページング端末106の拡張を行うために拡張できること が理解される。 入力スピーチ・プロセッサ205は、PSTN104と ページング端末106との間でインタフェースとなる。PTN接続は、デジタル PSTN接続202として第2図において示される複数のライン当たり多重呼出 (multi-callper Iine)の多重化デジタル接続202か、あるいは複数のライン当 たり単一呼出(single call per line)のアナログPSTN接続208のいずれで もよい。 各デジタルPSTN接続202は、デジタル電話インタフェース204によっ て担当される。デジタル電話インタフェース204は、本発明によるデジタル音 声圧縮プロセスの動作のため必要な信号処理,同期,逆多重化(demultiplexing) ,シグナリング,監視および調整保護(regulatory protection)を行う。また、 デジタル電話インタフェース204は、デジタル化音声フレームの一時的な格納 を行い、入力時分割多重化ハイウェイ212へのアクセスを行うために必要なタ イムスロットの交換およびタイムスロット整合を促進する。以下で説明するよう に、サービス要求および監視応答は、コントローラ216によって制御される。 デジタル電話インタフェース204とコントローラ216との間の通信は、デジ タル制御バス210上で行われる。 各アナログPSTN接続208は、アナログ電話インタフェース206によっ て担当される。アナログ電話インタフェース206は、本発明によるデジタル音 声圧縮プロセスの動作のため必要な信号処理,シグナリング,監視,ア ナログ/デジタル変換およびデジタル/アナログ変換ならびに調整保護を行う。 アナログ/デジタル・コンバータ207からのデジタル化音声メッセージのフレ ームは、入力時分割多重化ハイウェイ212へのアクセスを行うために必要なタ イムスロットの交換およびタイムスロット整合を促進するため、アナログ電話イ ンタフェース206に一時的に格納される。以下で説明するように、サービス要 求および監視応答は、コントローラ216によって制御される。アナログ電話イ ンタフェース206とコントローラ216との間の通信は、デジタル制御バス2 10上で行われる。 着呼が検出されると、サービス要求がアナログ電話インタフェース206また はデジタル電話インタフェース204からコントローラ216に送出される。コ ントローラ216は、複数のデジタル信号プロセッサからデジタル信号プロセッ サ214を選択する。コントローラ216は、サービスを要求するアナログ電話 インタフェース206またはデジタル電話インタフェース204を、選択された デジタル信号プロセッサ214に入力時分割多重化ハイウェイ212を介して結 合する。 デジタル信号プロセッサ214は、ページング・プロセスを完了するために必 要なすべての信号処理機能を実行するようにプログラムできる。デジタル信号プ ロセッサ214によって実行される一般的な信号処理機能には、本発明によるデ ジタル音声圧縮,DTMF(dual tone multi frequency)復号および生成,モデム・トーン生成および復号ならびに録音済み音 声催促の生成が含まれる。デジタル信号プロセッサ214は、上記の機能のうち 一つまたはそれ以上を実行するようにプログラムできる。2つ以上のタスクを実 行するようにプログラムされたデジタル信号プロセッサ214の場合、コントロ ーラ216は、デジタル信号プロセッサ214が選択されたときに実行する必要 がある特定のタスクを割り当て、また一つのタスクのみを実行するようにプログ ラムされたデジタル信号プロセッサ214の場合、コントローラ216は、ペー ジング・プロセスにおける次のステップを完了するために必要な特定の機能を実 行するようにプログラムされたデジタル信号プロセッサ214を選択する。DT MF復号および生成,モデムトーン生成および復号ならびに録音済み音声催促の 生成を実行するデジタル信号プロセッサ214の動作は、当業者に周知である。 超低ビット・レート非対称音声圧縮プロセッサの機能を実行するデジタル信号プ ロセッサ214の動作について、以下で詳細に説明する。 音声メッセージの場合のページ要求の処理は、次のように進行する。アナログ 電話インタフェース206またはデジタル電話インタフェース204に結合され たデジタル信号プロセッサ214は、発呼者に音声メッセージを催促する。デジ タル信号プロセッサ214は、以下で説明するプロセスを利用して、受信した音 声メッセージを圧縮する。 圧縮プロセスによって生成された圧縮デジタル音声メッセージは、コントローラ 216の制御により、出力時分割多重化ハイウェイ218を介してページング・ プロトコル・エンコーダ228に結合される。ページング・プロトコル・エンコ ーダ228は、データを適切なページング・プロトコルに符号化する。以下で詳 しく説明するこのような一つのプロトコルにPOCSAG(Post Office Committ ee Standard Advisory Group)プロトコルがある。なお、他のシグナリング・プ ロトコルも利用できることが理解される。コントローラ216は、出力時分割多 重化ハイウェイ218を介して符号化データをデータ保存装置226に格納する ようにページング・プロトコル・エンコーダ228に指示する。適切な時間に、 符号化データは、コントローラ216の制御により、出力時分割多重化ハイウェ イ218を介して送信機制御ユニット220にダウンロードされ、ページング送 信機108および送信アンテナ110を用いて送信される。 数字メッセージングの場合、ページ要求の処理は、デジタル信号プロセッサ2 14によって実行されるプロセスを除いて、音声メッセージ・ページと同様に進 行する。デジタル信号プロセッサ214は、発呼者にDTMFメッセージを催促 する。デジタル信号プロセッサ214は、受信したDTMF信号を復号し、デジ タル・メッセージを生成する。デジタル信号プロセッサ214によって生成され たデ ジタル・メッセージは、音声メッセージの場合にデジタル信号プロセッサ214 によって生成されたデジタル音声メッセージと同じように処理される。 英数字ページの処理は、デジタル信号プロセッサ214によって実行されるプ ロセスを除いて、音声メッセージと同様に進行する。デジタル信号プロセッサ2 14は、モデム・トーンを復号および生成するようにプログラムされる。デジタ ル信号プロセッサ214は、ページ入力端末(PET:page entry terminal)プ ロトコルなど標準的なユーザ・インタフェース・プロトコルの一つを利用して、 発呼者とインタフェースする。なお、他の通信プロトコルも利用できることが理 解される。デジタル信号プロセッサ214によって生成されたデジタル・メッセ ージは、音声メッセージングの場合にデジタル信号プロセッサ214によって生 成されたデジタル音声メッセージと同じように処理される。 第3図は、音声メッセージを処理する際に、第2図に示すページング端末10 6の動作を説明するフローチャートである。フローチャート300に2つのエン トリ・ポイントが示される。第1エントリ・ポイントは、デジタルPSTN接続 202に関連するプロセス用であり、第2エントリ・ポイントは、アナログPS TN接続208に関連するプロセス用である。デジタルPSTN接続202の場 合、プロセスはステップ302から開始し、デジタルPSTN ライン上で要求を受信する。デジタルPSTN接続202からのサービス要求は 、着信データ・ストリーム内のビット・パターンによって示される。デジタル電 話インタフェース204はサービス要求を受けて、この要求をコントローラ21 6に渡す。 ステップ304において、サービスを要求するデジタル・チャネルから受信し た情報は、デジタル・フレーム逆多重化(digital frame de-multiplexing)によ って着信データ・ストリームから分離される。一般に、デジタルPSTN接続2 02から受信されるデジタル信号は、着信データ・ストリームに多重化された複 数のデジタル・チャネルを含む。サービスを要求するデジタル・チャネルは逆多 重化され、デジタル化スピーチ・データは、タイムスロット整合および入力時分 割多重化ハイウェイ212上へのデータの多重化を促進するため一時的に格納さ れる。入力時分割多重化ハイウェイ212上のデジタル化スピーチ・データのタ イムスロットは、コントローラ216によって割り当てられる。逆に、デジタル PSTN接続202への送信のためデジタル信号プロセッサ214によって生成 されたデジタル化スピーチ・データは、送信のため適切にフォーマットされ、発 信データ・ストリームに多重化される。 同様に、アナログPSTN接続208では、アナログPSTNラインからの要 求を受信した場合、プロセスはステップ306から開始する。アナログPSTN 接続208で は、着呼は低周波数AC信号またはDCシグナリングのいずれかによって通知さ れる。アナログ電話インタフェース206は要求を受けて、この要求をコントロ ーラ216に渡す。 ステップ308において、アナログ音声メッセージはデジタル・データ・スト リームに変換される。全期間中に受信されたアナログ信号は、アナログ音声メッ セージという。アナログ信号は、アナログ/デジタル・コンバータ207によっ てサンプリングされて、音声メッセージ・サンプルを生成し、またデジタル化さ れて、デジタル化スピーチ・サンプルを生成する。アナログ信号のサンプルは、 音声メッセージ・サンプルという。デジタル化音声サンプルは、デジタル化スピ ーチ・データという。デジタル化スピーチ・データは、コントローラ216によ って割り当てられたタイムスロットにおいて、入力時分割多重化ハイウェイ21 2上に多重化される。逆に、デジタル信号プロセッサ214から来る入力時分割 多重化ハイウェイ212上の音声データは、デジタル/アナログ変換されてから 、アナログPSTN接続208に送信される。 第3図に示すように、アナログPSTN接続208およびデジタルPSTN接 続202の処理経路はステップ310において収斂し、ここでデジタル信号プロ セッサは着呼を処理するために割り当てられる。コントローラ216は、デジタ ル音声圧縮プロセスを実行するためにプログラムさ れたデジタル信号プロセッサ214を選択する。割り当てられたデジタル信号プ ロセッサ214は、前回割り当てられたタイムスロットにおいて入力時分割多重 化ハイウェイ212上のデータを読み込む。 デジタル信号プロセッサ214によって読み込まれたデータは、ステップ31 2において、処理のため非圧縮スピーチ・データとして格納される。格納された 非圧縮スピーチ・データは、以下で詳細に説明するステップ314において処理 される。処理ステップ314から得られた圧縮音声データは、以下で説明するよ うに、ステップ316においてページング・チャネル上で送信するために適切に 符号化される。ステップ318において、符号化データは、その後送信するため に、ページング・キューに格納される。適切な時間に、キューされたデータはス テップ320において送信機108に送出され、ステップ322において送信さ れる。 本発明のデジタル音声圧縮プロセスは、スピーチ・データの極めて長いセグメ ントを解析し、極めて高度な圧縮を得る。第4図は、デジタル化スピーチ・デー タを処理する際に第2図のページング端末において用いられるデジタル信号プロ セッサの動作を示す、ステップ314を詳説したフローチャートである。非圧縮 音声データとしてデジタル信号プロセッサ214に格納済みのデジタル化スピー チ・データ402は、ステップ404において解析され、利得 が正規化される。デジタル・スピーチ・メッセージの振幅は音節単位に調整され 、システムのダイナミック・レンジをフル活用し、見掛け信号対雑音性能を改善 する。 正規化された非圧縮スピーチ・データは、ステップ406において、短期間の スピーチ・セグメントを表す所定の数のデジタル化スピーチ・サンプルにグルー プ化される。短期間のスピーチ・サンプルを表すグループ化されたスピーチ・サ ンプルは、ここではスピーチ・フレームの生成という。一般に、このグループは 20〜30ミリ秒のスピーチ・データを収容する。ステップ408において、短 期間のスピーチ・セグメントに対してスピーチ解析が行われ、スピーチ・パラメ ータを生成する。スピーチ解析プロセスは、一般には線形予測符号(LPC:li near predictive code)プロセスである。LPCプロセスは短期間のスピーチ・ セグメントを解析し、多数のパラメータを計算する。多くの異なるスピーチ解析 プロセスが知られている。どのスピーチ解析方法が設計されるシステムの条件を 最もよく満たすかは、当業者に明らかである。本明細書で説明するデジタル音声 圧縮プロセスは、好ましくは、13個のパラメータを計算する。最初の3つのパ ラメータは、スピーチ・セグメントにおける全エネルギと、特性ピッチ値と、発 声情報(voicing information)とを量子化する。残りの10個のパラメータはス ペクトラル・パラメータといい、基本的にはデジタル・フィルタの係数を表す。 本発明の好適 な実施例では、各パラメータは8ビットのデジタル・ワードを用いて量子化され るが、他の量子化レベルも利用できることが理解される。 ステップ410において、ステップ408において計算された13個のパラメ ータは、一連のパラメータ・フレームを構成する2次元パラメータ・マトリクス またはパラメータ・スタックにスタックされる。この13個のパラメータはマト リクスの1つの行(row)を占め、本明細書ではスピーチ・パラメータ・フレーム という。ステップ412において、2次元スピーチ・データ・マトリクスのセグ メントは、所定の数のパラメータ・フレームのアレイにセグメント化される。各 アレイは、一般に8〜32個のフレームを有する。アレイが大きければ大きいほ ど、以下で説明する演算ステップの程度が大きくなることが理解される。デジタ ル信号プロセッサの現在の技術レベルおよび現在のページング市場に伴う経済性 からみて、8個のスピーチ・パラメータ・フレームのアレイがダイナミック・ス ピーチの期間にとって最適であると考えられる。16個以上のスピーチ・パラメ ータ・フレームのアレイもダイナミック特性の低いスピーチや沈黙の期間につい て利用できるが、本説明に限り、8個のスピーチ・パラメータ・フレームのアレ イが用いられる。スピーチ・パラメータ・フレームのアレイは、本明細書のはじ めで触れた極めて長い音声セグメントを表す。この極めて長い音声セグメントは 、一例として、 8つのフレームを含み、各フレームは20〜30ミリ秒のスピーチ・データまた はアナログ音声メッセージの160〜240ミリ秒のセグメントを含む。 ステップ414において、所定の2次元マトリクス変換関数を用いた数学変換 プロセスがスピーチ・パラメータ・フレームの各アレイに対して適用される。こ の変換プロセスは、スピーチ・パラメータ・フレームのアレイを2次元変換アレ イに変換する。2次元変換アレイとは、重要度の順番に配列されたパラメータの アレイのことである。用いられる数学プロセスは、好ましくは、2次元離散的余 弦変換(discrete cosine transform)関数であるが、変換アレイを生成するため に利用できる他の変換も利用できることが理解される。 ステップ416において、2次元変換アレイは、音声テンプレート(voice tem plate)とも呼ばれる所定のテンプレートのセットと比較される。この所定のテン プレートのセットは、ここではコードブックという。本発明の別の実施例では、 コードブックは2つ以上のテンプレートのセットを収容できることを以下で説明 する。テンプレートの一つのセットを有するページング用途の一般的なコードブ ックは、一例として、512個〜1024個のテンプレートを有する。マトリク ス量子化関数は、2次元変換アレイをコードブック内の各テンプレートと比較し 、コードブックと各テンプレートとの間の加重距離(weighted distance)を算出する。この加重距離は、ここでは距離値ともいう。以下でさら に詳しく説明するように、極めて長いスピーチ・セグメントを表すため、2次元 変換アレイへの最短距離を有するテンプレートのインデクス420が選択される 。導出される距離値は、所定のテンプレートのセットのうちのテンプレートを識 別するインデクスによって識別される。 ステップ416において選択されたインデクス420は、ページング・チャネ ル上で送信するため所定のシグナリング・プロトコルに符号化される。以下でさ らに詳しく説明するように、本発明で用いられるプロトコルの一つのコード・ワ ードに2つのインデクスを符号化できる。ステップ408〜416は、すべての 極めて長いスピーチ・セグメントがインデクスとして量子化されるまで繰り返さ れる。 第5図は、第4図のデジタル信号プロセッサにおいて利用されるデジタル音声 圧縮プロセスを示す図である。ステップ410において説明した2次元スピーチ ・データ・マトリクスは、2次元パラメータ・マトリクス502として示される 。2次元パラメータ・マトリクス502は、ステップ408において生成された 各スピーチ・パラメータ・フレームについて一つの行(row)を有する。括弧50 4は、スピーチ・パラメータのアレイを形成する8つのパラメータ・フレームを 囲む。ステップ414において説明した所定の2次元マトリクス変換関数は、ス ピーチ・パラメータ のアレイを2次元変換アレイ506に変換する。2次元変換アレイ506は、変 換されたデータが重要度の順番に配列され、最上位データが2次元変換アレイ5 06の左上隅に格納され、最下位データが2次元変換アレイ506の右下隅に格 納されることを示す。 第6図は、ステップ416におけるマトリクス量子化のために実行されるプロ セスを示す図である。2次元変換アレイ506は、ai,jと記された基準識別子 を有して示され、ここで「a」は2次元変換アレイを表し、下付き文字「i」は アレイの行(row)を表し、下付き文字「j」はアレイの列(column)を表す。コー ドブック604は、複数のページ「k」を有するアレイ「b」として示され、こ こでページはk=0からk=nまで番号が付けられる。コードブック604の各 ページは、一つの音声テンプレートを表す2次元アレイである。コードブック6 04のセルは、b(k)i,jと記され、ここで「b(k)」はコードブックおよ びページを表し、下付き文字「i」はページb(k)上のアレイの行を表し、下 付き文字「j」はページb(k)上のアレイの列を表す。 ステップ416において実行される距離計算は、コードブック604内の各ペ ージb(k)についてテンプレート内のセルの値を、2次元変換アレイ506内 の対応するセルの値から減算し、その結果を二乗し、所定の加重アレイ606の 対応するセルの加重値でこの二乗結果を乗算し、 そして3つのアレイの各セルに対してこのプロセスが実行されるまでこのプロセ スを繰り返すことである。2次元変換アレイ506とテンプレート・ページb( k)との間の距離は、以前の計算値の加重二乗結果の和である。この統計的距離 は、テンプレートのページ番号b(k)またはインデクスに対応する番地「k」 にて、距離アレイ610(dk)に格納される。 上記の距離計算は、次式のように表すことができる: ただし、 dkは、2次元変換アレイ506とテンプレート・ページb(k)との間 の距離に等しく、 wi,jは、所定の加重アレイ606のセルi,jにおける加重値に等しく 、 ai,jは、2次元変換アレイ506のセルi,jにおける値に等しく、 b(k)i,jは、コードブック604のセルi,jにおける値に等しい。 2次元変換アレイ506とコードブック604における各ページb(k)のす べてのテンプレートとの間の距離が算出された後、距離アレイ610は、最短距 離を有するセ ルについて検索される。コードブック604におけるページb(k)に対応する 、最短距離を有するセルのインデクスはインデクス・アレイ612に格納される 。本発明では、インデクスとは、コードブック(604)b(k)を構成する1 024ページのうちの一つのページを表す10ビットのコードワードであり、上 述の極めて長い音声セグメントを表す括弧504によって囲まれるスピーチ・パ ラメータ・アレイを表す。一連のこれらのインデクスを利用して、通信装置11 4のコードブックに格納された重複テンプレートを指すことにより、以下で説明 するように、あまり処理せずに元の音声メッセージを実質的に複製できる。 離散的余弦変換プロセスは、デジタル信号処理およびスピーチ圧縮の技術分野 の当業者に周知である。コードブックの生成にはトレーニング・プロセスが伴い 、このプロセスも当業者に周知である。加重アレイは、一連のトライアル加重ア レイおよびリスニング・テスト(listening test)を伴う経験プロセスによって生 成される。 本発明の別の実施例を第7図に示す。ここでは、2次元変換アレイ506は等 しくないサイズの2つのセグメント、すなわちセグメントI 701とセグメン トII 702とに分割されるが、特定の条件では、2つのセグメントは等しい サイズでもよいことが理解される。小さいほうのセグメントであるセグメントI 701は上位のデータを表し、大きいほうのセグメントであるセグメントII 70 2は下位のデータを表す。コードブック604は、テンプレート・セットI 7 03およびテンプレート・セットII 704として識別される2つの対応する セグメントに分割される。同様に、テンプレート・セットII 704は下位の データを表し、テンプレート・セットI 703よりも少ないテンプレートを有 する。加重アレイ602は、セグメントI 705およびセグメントII 70 6に同様に分割される。2次元変換アレイ506のセグメントI 701と、コ ードブック604のテンプレート・セットI 703のすべてのテンプレートと の間の距離は、上記のように加重アレイ計算608および所定の加重アレイ60 6セグメントI 705を利用して算出される。この距離は距離アレイ710の 第1列に格納される。同様に、2次元変換アレイ506のセグメントII 70 2と、コードブック604のテンプレート・セットII 704のすべてのテン プレートとの間の距離は、上記のように計算され、距離アレイ710の第2列に 格納される。すべての距離が算出されると、距離アレイ710の列Iは、2次元 変換アレイ506のセグメントI 701に対して最短距離を有する、コードブ ック604のテンプレート・セットI 703のテンプレートを表すインデクス について検索される。同様に、距離アレイ710の列IIは、2次元変換アレイ 506のセグメントII 702に対して最短距離を有する、コードブック60 4のテンプレート・セットI I 704のテンプレートを表すインデクスについて検索される。列Iおよび列 IIからのインデクスは、上記のように極めて長い音声セグメントを表すコード ワードを形成し、インデクス・アレイ712に格納される。2次元変換アレイ5 06のセグメントII 702は、ここでは所定のテンプレートの第2セットと もいう。2次元変換アレイ506のセグメント化はコードワードを長くする一方 で、このようなセグメント化は音声品質を改善し、演算量(computational effor t)を低減する。さらなる分割は音声品質をさらに改善し、演算時間をさらに短縮 するが、より多くのデータが送信されるという犠牲が払われる。 本発明の別の実施例では、異なる話者をよりよく表すため、2つ以上のコード ブック604が設けられる。例えば、一方のコードブックは女性話者の音声を表 すために利用でき、第2のコードブックは男性話者の音声を表すために利用でき る。スペイン語,日本語など言語の違いを反映する追加コードブックを設けるこ とができることが理解される。複数のコードブックを利用する場合、異なるPS TN電話アクセス番号を利用して、異なる言語を区別できる。各固有のPSTN アクセス番号は、PSTN接続のグループと関連付けられ、PSTN接続の各グ ループは特定の言語および対応するコードブックに対応する。固有PSTNアク セス番号を利用しない場合、ユーザは音声メッセージを入力する前に、DTMF 番号などの所定のコードを入力する ことにより情報を与えるように催促でき、各DTMF番号は特定の言語および対 応するコードブックに対応する。発呼者の言語が利用されるPSTNラインまた は受信したDTMF番号によって識別されると、デジタル信号プロセッサ214 は、デジタル信号プロセッサ214に格納された所定の言語のセットに対応する 所定のコードブックのセットから、所定の言語に対応する所定のコードブックを 選択する。その後のすべての音声催促は、識別された言語で与えることができる 。入力スピーチ・プロセッサ205は、この言語を識別する情報を受けて、この 情報を適切なデジタル信号プロセッサ214に転送する。あるいは、デジタル信 号プロセッサ214は、デジタル・スピーチ・データを解析して、言語または方 言を判定でき、適切なコードブックを選択する。 コードブック識別子(code book identifier)は、音声メッセージを圧縮するた めに用いられたコードブックを識別するために用いられる。コードブック識別子 は一連のインデクスと共に符号化され、以下で説明するように通信装置114に 送出される。コードブック識別を伝達する別の方法では、コードブックを識別す るヘッダを、インデクス・データを含むメッセージに追加する。 本発明のさらに別の実施例では、ステップ412においてスピーチ・パラメー タのアレイに分割されるスピーチ・パラメータの数は上記のように固定されずに 、2次元パラ メータ・マトリクスに対応する可変数のパラメータ・フレームを表す。上述のよ うに、8個のスピーチ・パラメータ・フレームからなるアレイは、ダイナミック なスピーチの期間について最適であり、16個以上のスピーチ・パラメータ・フ レームからなるアレイはダイナミック特性の低いスピーチや沈黙の期間について 最適と考えられる。本実施例では、2次元スピーチ・データ・マトリクスの解析 が実行され、この解析を用いて、括弧504によって囲まれたスピーチ・パラメ ータ・アレイを構成するフレームの数を判定する。適切なテンプレートを有する 追加コードブックは、別の数のフレームを選択する期間中に利用するために追加 できる。選択されたフレームの数は、通信装置114に送信されるデータと共に 符号化される。 第8図は、第2図に示すページング端末106において利用されるデジタル信 号プロセッサ214の電気ブロック図を示す。デジタル信号処理に関連する演算 を実行するように特別に設計されたいくつかの標準的な市販のデジタル信号プロ セッサICのうちの一つのようなプロセッサ804が用いられる。デジタル信号 プロセッサICは、モトローラ社製のDSP56100など、いくつかの異なる 製造業者から入手できる。プロセッサ804は、ROM806,RAM810, デジタル入力ポート812,デジタル出力ポート814および制御バス・ポート 816に、プロセッサ・アドレスおよびデータ・バス808を介して結合され る。ROM806は、利用されるメッセージングの種類およびコントローラ21 6との制御インタフェースに必要な信号処理機能を実行するために、プロセッサ 804によって用いられる命令を格納する。ROM806は、圧縮音声メッセー ジングに関連する機能を実行するために用いられる命令を収容する。RAM81 0は、データおよびプログラム変数,距離アレイ610,インデクス・アレイ6 12,入力音声データ・バッファおよび出力音声データ・バッファを一時的に格 納する。デジタル入力ポート812は、データ入力機能およびデータ出力機能の 制御下で、プロセッサ804と入力時分割多重化ハイウェイ212との間のイン タフェースとなる。デジタル出力ポートは、データ出力機能の制御下で、プロセ ッサ804と出力時分割多重化ハイウェイ218との間のインタフェースとなる 。制御バス・ポート816は、プロセッサ804とデジタル制御バス210との 間のインタフェースとなる。クロック802は、プロセッサ804のタイミング 信号を生成する。 ROM806は、一例として、コントローラ・インタフェース機能ルーチン, データ入力機能ルーチン,利得正規化機能ルーチン,フレーム化機能ルーチン, 短期間予測(short term prediction)機能ルーチン,パラメータ・スタック機能 ルーチン,2次元セグメント化機能ルーチン,2次元変換機能ルーチン,マトリ クス量子化機能ルーチン,データ出力機能ルーチン,1つ以上のコード・ブック およ び上記のようなマトリクス加重アレイを収容する。RAM810は、プログラム 変数,入力音声バッファおよび出力音声バッフアの一時的な格納を行う。 第9図は、上記のように2つの10ビット・インデクスを符号化するように適 応された、POCSAGシグナリング・フォーマットにおいて利用される典型的 なPOCSAGフレーム900を示す。以下に示す表Iは、一例として、本発明 によりデジタル圧縮音声を伝達するために用いられる各ビットの割り当てを記載 する。各POCSAGフレーム900は、情報を伝達するために用いられる22 ビット、すなわち2つの10ビット・コードワードと、2機能ビットとを有する 。各10ビット・コードワードは、最大1024個の異なるコードブック・イン デクスのうちの一つを指定できる。以下の表Iに示すように、第1機能ビットは 、圧縮されたスピーチ・セグメントのサイズを定義するために用いられるセグメ ント・サイズ識別子である。機能ビット1は、ステップ412において、8個ま たは16個のスピーチ・パラメータ・フレームがスピーチ・パラメータのアレイ にセグメント化されたのかを示す。第2機能ビットは、音声メッセージを圧縮す るために用いたコードブックを識別するために用いられるコードブック識別子で ある。残りのビットは、当技術分野で周知なように、誤り検出および訂正のため に用いられるパリティ・ビットである。 本発明の利点は、以下の例によって示すことができる。 1200ビット/秒(bps)におけるPOCSAGフレーム900の全送信時 間は26.7ミリ秒(ms)であり、2400bpsでは時間は13.3msに 短縮される。本発明の特定の実施例では、POCSAGフレーム900は、2つ の240msスピーチ・セグメントを表すインデクス・アレイ612のうちの2 つのインデクスを含む。従って、本発明のこの特定の実施例により、480ms のスピーチが13.3msで送信され、時間圧縮比は40:1となる。また、こ の例についてデータ圧縮比も計算できる。従来の電話方法は音声を64キロビッ ト/秒のレートでスピーチを符号化する。このレートでは、480msのスピー チは30,720ビットを要する。本発明を利用すると、同じ480msのスピ ーチは32ビットで送信でき、データ圧縮率は960:1となる。この結果得ら れるデータは、従来の電話方法のビット・レートに比べて、極めて低いビット・ レートの送信に適する。なお、圧縮プロセスにおいて用いられる前記のパラメー タは変更でき、その結果、異なる圧縮率および異なる音質が得られることが理解 される。 第10図は、ページング受信機など通信装置114の電気ブロック図である。 送信アンテナ110から送信された信号は、受信アンテナ112によって受信さ れる。受信アンテナ112は受信機1004に結合される。受信機1004は、 受信アンテナ112によって受信された信号を処理し、送信された符号化データ の複製である受信機出力信号1016を生成する。符号化データは、POCSA Gプロトコルなどの所定のシグナリング・プロトコルで符号化される。デジタル 信号プロセッサ1008は受信機出力信号1016を処理し、以下で説明するよ うに、解凍されたデジタル・スピーチ・データ1018を生成する。デジタル/ アナログ・コンバータは、解凍デジタル・スピーチ・ データ1018をアナログ信号に変換し、このアナログ信号は音声増幅器101 2によって増幅され、スピーカ1014によって報知される。 また、デジタル信号プロセッサ1008は、通信装置114の各機能の基本的 な制御を行う。デジタル信号プロセッサ1008は、バッテリ節電スイッチ10 06,コード・メモリ1022,ユーザ・インタフェース1024およびメッセ ージ・メモリ1026に制御バス1020を介して結合される。コード・メモリ 1022は、コントローラが選択呼出機能を実行するために必要な固有識別情報 またはアドレス情報を格納する。ユーザ・インタフェース1024は、メッセー ジの受信を示す音声,視覚または機械的な信号をユーザに与え、またユーザが受 信機を制御するためにコマンドを入力するためのディスプレイやプッシュボタン を含むことができる。メッセージ・メモリ1026は、後で見るためにメッセー ジを格納したり、ユーザがメッセージを反復できるようにする場所を提供する。 バッテリ節電スイッチ1006は、システムが他のページャと通信していたり、 送信中でない期間中に受信機への電力供給を選択的に停止する手段を提供し、そ れにより電力消費を低減し、当業者に周知なようにバッテリ寿命を延長させる。 第11図は、通信装置114において利用されるデジタル信号プロセッサ10 08の電気ブロック図を示す。プロセッサ1104は、第8図に示すプロセッサ 804と類似 している。ただし、デジタル音声メッセージを解凍する場合に実行される演算量 は圧縮プロセス中に実行される演算量よりもはるかに少なく、かつ電力消費は携 帯ページング受信機において重要なため、プロセッサ1104は遅くて低電力型 でもよい。プロセッサ1104は、ROM1106、RAM1108,デジタル 入力ポート1112,デジタル出力ポート1114および制御バス・ポート11 16に、プロセッサ・アドレスおよびデータ・バス1110を介して結合される 。ROM1106は、メッセージを解凍し、制御バス・ポート1116とインタ フェースするために必要な信号処理機能を実行するためにプロセッサ1104に よって用いられる命令を格納する。ROM1106は、圧縮音声メッセージング に伴う機能を実行するための命令を収容する。RAM1108は、データおよび プログラム変数の一時的な格納を行う。デジタル入力ポート1112は、データ 入力機能の制御下で、プロセッサ1104と受信機1004との間のインタフェ ースとなる。デジタル出力ポート1114は、出力制御機能の制御下で、プロセ ッサ1104とデジタル/アナログ・コンバータとの間のインタフェースとなる 。制御バス・ポート1116は、プロセッサ1104と制御バス1020との間 のインタフェースとなる。クロック1102は、プロセッサ1104のタイミン グ信号を生成する。 ROM1106は、一例として、受信機制御機能ルーチ ン,ユーザ・インタフェース機能ルーチン,データ入力機能ルーチン,POCS AG復号機能ルーチン,コード・メモリ・インタフェース機能ルーチン,アドレ ス比較機能ルーチン,逆量子化(de-quantization)機能ルーチン,逆2次元変換( inverse two dimensional transform)機能ルーチン,メッセージ・メモリ・イン タフェース機能ルーチン,スピーチ・シンセサイザ機能ルーチン,出力制御機能 ルーチンおよび上記のような1つ以上のコードブックを収容する。 第12図は、通信装置114の動作を説明するフローチャートである。ステッ プ1202において、デジタル信号プロセッサ1008は、受信機1004に電 力を供給するためコマンドをバッテリ節電スイッチ1006に送出する。デジタ ル信号プロセッサ1008は、ページング端末がPOCSAGプリアンブルで変 調された信号を送信中であることを示すビット・パターンについて受信機出力信 号1016を監視する。 ステップ1204において、POCSAGプリアンブルの有無について判定が 行われる。プリアンブルが検出されない場合、デジタル信号プロセッサ1008 は、所定の時間だけ受信機への電力の供給を禁止するためバッテリ節電スイッチ 1006にコマンドを送出する。この所定の時間の後、ステップ1202におい て、当技術分野で周知なように、プリアンブルの監視が再度繰り返される。ステ ップ 1206において、POCSAGプリアンブルが検出された場合、デジタル信号 プロセッサ1008は受信機出力信号1016と同期する。 同期が確立されると、デジタル信号プロセッサ1008は、通信装置114に 割り当てられたフレームが期待されるまで、受信機への電力供給を中止するため バッテリ節電スイッチ1006にコマンドを発行してもよい。割り当てられたフ レームにて、デジタル信号プロセッサ1008は、受信機1004に電力を供給 するためバッテリ節電スイッチ1006にコマンドを送出する。ステップ120 8において、デジタル信号プロセッサ1008は、通信装置114に割り当てら れたアドレスと一致するアドレスについて受信機出力信号1016を監視する。 一致がなければ、デジタル信号プロセッサ1008は、同期コードワードの次の 送信または次の割り当てられたフレームまで、受信機への電力供給を禁止するた めバッテリ節電スイッチ1006にコマンドを送出し、その後ステップ1202 は繰り返される。アドレス一致があれば、ステップ1210において、受信機へ の電力は維持され、データが受信される。 ステップ1212において、ステップ1210において受信されたデータに対 して誤り訂正を行って、再生された音声の品質を改善できる。POCSAGフレ ーム900において示される9パリティ・ビットは、誤り訂正プロセスにおいて 用いられる。POCSAG誤り訂正方法は当業者 に周知である。訂正されたデータは、ステップ1214において格納される。格 納されたデータは、ステップ1216において処理される。デジタル音声データ の処理は、以下で説明する解凍プロセスである。 ステップ1218において、デジタル信号プロセッサ1008は、1つ以上の インデクスとして受信された解凍音声データをメッセージ・メモリ1026に格 納し、ユーザに報知するためコマンドをユーザ・インタフェースに送出する。ス テップ1220において、ユーザはメッセージを再生するためコマンドを入力す る。ステップ1222において、デジタル信号プロセッサ1008は、メッセー ジ・メモリに格納された解凍音声データをデジタル/アナログ・コンバータ10 10に送ることによって応答する。デジタル/アナログ・コンバータ1010は 、解凍されたデジタル・スピーチ・データ1018をアナログ信号に変換し、こ のアナログ信号は音声増幅器1012によって増幅され、スピーカ1014によ って報知される。 第13図は、デジタル音声解凍プロセスの概略を示すフローチャートである。 ステップ1304において、ページング・プロトコル・デコーダは、デジタル・ スピーチ・メッセージを表す所定のテンプレートのセットのうち1つ以上のテン プレートに対応する一連のインデクスで符号化されたデータを受信する。インデ クスは、受信したPOCSAG符号化データ1302から抽出されてから、格納 され る。ステップ1306において、格納されたインデクスは、デジタル信号プロセ ッサ1008のROMに格納されたコードブックにおいて対応するテンプレート を見つけるために用いられる。 ステップ1308において、受信したPOCSAG符号化データから抽出され たインデクスにより指定されたコードブックにおけるテンプレートに対して、所 定の逆マトリクス変換関数を利用して、逆2次元変換が実行される。この逆2次 元変換は、元のスピーチ・パラメータを表すLPCスピーチ・パラメータのアレ イを生成する。利用される所定の逆2次元変換プロセスは、好ましくは、逆2次 元離散的余弦変換プロセスであるが、LPCスピーチ・パラメータのアレイを生 成するために利用できる他の変換も利用できることが理解される。 ステップ1310において、LPCパラメータはスピーチ・データ1312を 生成するために用いられる。復元されたメッセージ・データは、デジタル/アナ ログ変換のためにRAM1108に格納され、ユーザに要求時に報知される。 第14図は、第13図に示す音声解答プロセスのステップを示す図である。ス テップ1304において受信・格納されたインデクスは、インデクス・アレイ1 402に格納される。インデクス・アレイ1042内の各インデクスは、コード ブック604内のページを指す。コードブック60 4は、圧縮プロセスにおいて用いられたテンプレートを複製する所定のテンプレ ートの複製セットからなる。インデクス・アレイ1402に格納されたインデク スは、受信された順番に一度に一つずつ選択される。選択されたインデクスによ って指定されたコードブックにおける各ページに対して、所定の逆マトリクス関 数を利用して、逆2次元変換1308が実行される。逆2次元変換1308は、 スピーチ・パラメータ1408の2次元アレイを生成する。これらのパラメータ はLPCスピーチ・パラメータであり、スピーチ・データ1312を生成するた めステップ1310においてスピーチ・データ・シンセサイザによって用いられ る。所定の逆マトリクス関数は、好ましくは、逆2次元離散的余弦関数である。 一つ以上の所定の言語に対応する一つ以上のコードブックをROM1106に 格納できる。適切なコードブックは、受信機出力信号1016において受信デー タと符号化された識別子に基づいて、デジタル信号プロセッサ1008によって 選択される。 第15図に示す本発明の別の実施例では、受信プロセスにおいて必要なデジタ ル信号処理は、コードブック604に格納されたテンプレートを前処理すること によって軽減される。コードブック604におけるテンプレートは、テンプレー トに対して実行される逆2次元変換によって生じるLPCパラメータのアレイと 実質的に同じサイズである。 LPCパラメータの生成アレイは元のテンプレートと実質的に同じサイズなので 、テンプレートを収容するコードブック604は、LPCパラメータのアレイを 収容するコードブック1504と置き換えられる。そうすることにより、逆2次 元変換は展開中に一回実行するだけで、各音声メッセージ・セグメントを処理す る際に反復する必要はない。スピーチ・パラメータの2次元アレイ1048は、 コードブック1504のページをコピーするだけで生成される。 第16図は、第7図に示した別の実施例に伴うセグメント化音声解凍プロセス のステップを示す図である。インデクス・アレイ1602は、各セグメント化ペ ージについて格納された2つのインデクスを有する。第1インデクスは、圧縮プ ロセス中に圧縮された第1セグメントに対応するテンプレート・セットI 70 3のうちのテンプレートを選択する。第2インデクスは、圧縮プロセス中に圧縮 された第2セグメントに対応するテンプレート・セットII 704のうちのテ ンプレートを選択する。第1の選択されたページからのテンプレート・セットI 703のうちのテンプレートによって表されるセグメントIは、第2の選択さ れたページからのテンプレート・セットII 704のうちのテンプレートによ って表されるセグメントIIと合成され、セグメントI 1609およびセグメ ントII 1608によって構成される2次元変換アレイを形成する。逆2次元 変換1306が実行され、スピーチ・パラメータ の2次元アレイ1408を生成する。 以上のように、本発明は、生成データが極めて高く圧縮され、かつページング ・チャネルまたは他の同様な通信チャネル上で送信される通常のデータと容易に 混在できるように、音声メッセージをデジタル符号化する。さらに、音声メッセ ージは、ページャまたは同様な携帯装置における処理が最小限に抑えられるよう に、デジタル符号化される。本発明の特定の実施例について図説してきたが、更 なる修正および改善は当業者に想起されることが理解される。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ジャシンスキ,レオン アメリカ合衆国フロリダ州フォート・ロー ダーデール、イースト・ラス・オラス・ブ ルバード2429

Claims (1)

  1. 【特許請求の範囲】 1.音声メッセージを処理して、低ビット・レート・スピーチ伝送を行う非対称 音声圧縮プロセッサであって: 前記音声メッセージを処理して、デジタル化スピーチ・データを生成する入力 スピーチ・プロセッサ; 信号プロセッサであって、 前記デジタル化スピーチ・データからスピーチ・パラメータを生成し; 一連のパラメータ・フレームからなる2次元パラメータ・マトリクスに前 記スピーチ・パラメータを配列し; 所定の2次元マトリクス変換関数を利用して前記2次元パラメータ・マト リクスを変換し、2次元変換マトリクスを得て; 所定のテンプレートのセットのテンプレートと前記2次元変換マトリクス との間の距離を表す距離値であって、前記所定のテンプレートのセットのテンプ レートに対応するインデクスによって識別される距離値を導出し; 導出された前記距離値を比較し、また前記所定のテンプレートのセットの うち、導出された前記距離値の最短距離を有するテンプレートに対応するインデ クスを選択するようにプログラムされた信号プロセッサ;および 前記所定のテンプレートのセットのうち、選択された前記最短距離を有するテ ンプレートに対応する前記インデク スを送信する送信機; によって構成されることを特徴とする非対称音声圧縮プロセッサ。 2.前記所定の2次元マトリクス変換関数は、2次元離散的余弦関数であること を特徴とする請求項1記載の非対称音声圧縮プロセッサ。 3.選択された前記最短距離に対応する前記インデクスを、送信のため所定のシ グナリング・プロトコルで符号化するエンコーダをさらに含んで構成されること を特徴とする請求項1記載の非対称音声圧縮プロセッサ。 4.前記信号プロセッサは、前記音声メッセージを表すスピーチ・パラメータの 2次元スピーチ・データ・マトリクスを生成するようにさらにプログラムされ、 また前記一連のパラメータ・フレームは、前記2次元スピーチ・データ・マトリ クスの一部を構成することを特徴とする請求項1記載の非対称音声圧縮プロセッ サ。 5.前記信号プロセッサは、一連のインデクスをインデクス・アレイに格納する メモリをさらに含んで構成され、インデクスは、前記2次元スピーチ・データ・ マトリクスの前記一部を最もよく表す最短距離を有するテンプレートに対応する ことを特徴とする請求項4記載の非対称音声圧縮プロセッサ。 6.前記信号プロセッサは、式: ただし、 dkは、前記所定のテンプレートのセットおよび2次元変換マトリクスの うちのテンプレートの距離を表し、 (ai,j−b(k)i,j)は、前記所定のテンプレートの各テンプレートの 対応するセルと、前記2次元変換マトリクスとの間の差を表し、 wi,jは、所定の加重アレイの対応するセルを表す、 を用いて距離値を計算することにより距離値を導出することを特徴とする請求 項1記載の非対称音声圧縮プロセッサ。 7.前記所定のテンプレートのセットは、所定のテンプレートの第1セットおよ び所定のテンプレートの少なくとも第2セットによって構成され、また前記信号 プロセッサは、前記所定のテンプレートの第1セットの各テンプレートと前記2 次元変換マトリクスの第1部分との間の距離を表す第1距離値であって、前記所 定のテンプレートの第1セットの各テンプレートに対応する第1インデクスによ って識別される第1距離値を導出し、また前記信号プロセッサは、 前記所定のテンプレートの少なくとも第2セットの各テンプレートと前記 2次元変換マトリクスの少なくとも第2部分との間の距離を表す少なくとも第2 距離値であって、前記所定のテンプレートの少なくとも第2セットの各 テンプレートに対応する少なくとも第2インデクスによって識別される少なくと も第2距離値を導出するようにさらにプログラムされ、 前記信号プロセッサは、 前記所定のテンプレートの第1セットについて第1距離値の第1セットを 導出し、および 前記所定のテンプレートの少なくとも第2セットについて少なくとも第2 距離値の少なくとも第2セットをさらに導出することによって距離値のセットを 導出し、 前記信号プロセッサは、導出された前記第1距離値の第1セットを比較して、 前記少なくとも第1距離値の第1セットについて最短距離を有する第1距離値を 選択し、また 導出された前記少なくとも第2距離値の少なくとも第2セットを比較して、前 記少なくとも第2距離値の少なくとも第2セットについて最短距離を有する少な くとも第2距離値を選択し、 前記送信機は、選択された前記第1距離値に対応する第1インデクスを送信し 、かつ選択された前記少なくとも第2距離値に対応する少なくとも第2インデク スをさらに送信することを特徴とする請求項1記載の非対称音声圧縮プロセッサ 。 8.所定のテンプレートの第2セットは、所定のテンプレートの第1セットより も少ないテンプレートからなること を特徴とする請求項1記載の非対称音声圧縮プロセッサ。 9.前記所定のテンプレートのセットはコードブックを表し、 前記信号プロセッサは、 生成された前記スピーチ・パラメータを解析して、音声メッセージの特性 を判定し、 コードブックのセットのうち、前記判定された音声メッセージの特性に対 応する所定のコードブックを選択するようにさらにプログラムされ、 前記送信機は、前記選択された所定のコードブックを識別するコードブック識 別子をさらに送信することを特徴とする請求項1記載の非対称音声圧縮プロセッ サ非対称音声圧縮プロセッサ。 10.所定のテンプレートのセットはコードブックを表し、 前記入力スピーチ・プロセッサは所定の言語の音声メッセージを受信し、前記 所定の言語を識別する情報をさらに受信し、 前記信号プロセッサは、所定の言語のセットに対応する所定のコードブックの セットから、前記所定の言語に対応する所定のコードブックを選択し、および 前記送信機は、前記選択された所定のコードブックを識別するコードブック識 別子を送信することを特徴とする請求項1記載の非対称音声圧縮プロセッサ。
JP9511922A 1995-09-14 1996-06-28 非対称音声圧縮処理を利用する超低ビット・レート音声メッセージング・システム Pending JPH10509534A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US08/528,455 US5781882A (en) 1995-09-14 1995-09-14 Very low bit rate voice messaging system using asymmetric voice compression processing
US08/528,455 1995-09-14
PCT/US1996/011340 WO1997010584A1 (en) 1995-09-14 1996-06-28 Very low bit rate voice messaging system using asymmetric voice compression processing

Publications (1)

Publication Number Publication Date
JPH10509534A true JPH10509534A (ja) 1998-09-14

Family

ID=24105751

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9511922A Pending JPH10509534A (ja) 1995-09-14 1996-06-28 非対称音声圧縮処理を利用する超低ビット・レート音声メッセージング・システム

Country Status (9)

Country Link
US (1) US5781882A (ja)
EP (1) EP0792502B1 (ja)
JP (1) JPH10509534A (ja)
KR (1) KR100257361B1 (ja)
CN (1) CN1121682C (ja)
AT (1) ATE222394T1 (ja)
DE (1) DE69622985T2 (ja)
ES (1) ES2183000T3 (ja)
WO (1) WO1997010584A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6137863A (en) * 1996-12-13 2000-10-24 At&T Corp. Statistical database correction of alphanumeric account numbers for speech recognition and touch-tone recognition
US6154579A (en) * 1997-08-11 2000-11-28 At&T Corp. Confusion matrix based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
US6219453B1 (en) 1997-08-11 2001-04-17 At&T Corp. Method and apparatus for performing an automatic correction of misrecognized words produced by an optical character recognition technique by using a Hidden Markov Model based algorithm
US6205428B1 (en) * 1997-11-20 2001-03-20 At&T Corp. Confusion set-base method and apparatus for pruning a predetermined arrangement of indexed identifiers
US6208965B1 (en) 1997-11-20 2001-03-27 At&T Corp. Method and apparatus for performing a name acquisition based on speech recognition
US6223158B1 (en) 1998-02-04 2001-04-24 At&T Corporation Statistical option generator for alpha-numeric pre-database speech recognition correction
US6205261B1 (en) 1998-02-05 2001-03-20 At&T Corp. Confusion set based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
US7937260B1 (en) * 1998-06-15 2011-05-03 At&T Intellectual Property Ii, L.P. Concise dynamic grammars using N-best selection
US6400805B1 (en) 1998-06-15 2002-06-04 At&T Corp. Statistical database correction of alphanumeric identifiers for speech recognition and touch-tone recognition
US7031925B1 (en) 1998-06-15 2006-04-18 At&T Corp. Method and apparatus for creating customer specific dynamic grammars
JP3784583B2 (ja) * 1999-08-13 2006-06-14 沖電気工業株式会社 音声蓄積装置
US7778826B2 (en) * 2005-01-13 2010-08-17 Intel Corporation Beamforming codebook generation system and associated methods
KR101218776B1 (ko) 2006-01-11 2013-01-18 삼성전자주식회사 다운믹스된 신호로부터 멀티채널 신호 생성방법 및 그 기록매체

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2305855A1 (fr) * 1975-03-28 1976-10-22 Westinghouse Electric Corp Transistor mnos a drain-source protege vis-a-vis des radiations
US4479124A (en) * 1979-09-20 1984-10-23 Texas Instruments Incorporated Synthesized voice radio paging system
US4612414A (en) * 1983-08-31 1986-09-16 At&T Information Systems Inc. Secure voice transmission
US4701943A (en) * 1985-12-31 1987-10-20 Motorola, Inc. Paging system using LPC speech encoding with an adaptive bit rate
US4769642A (en) * 1985-12-31 1988-09-06 Motorola, Inc. Paging receiver with LPC speech synthesizer
US4811376A (en) * 1986-11-12 1989-03-07 Motorola, Inc. Paging system using LPC speech encoding with an adaptive bit rate
US4815134A (en) * 1987-09-08 1989-03-21 Texas Instruments Incorporated Very low rate speech encoder and decoder
US4873520A (en) * 1987-11-02 1989-10-10 Motorola, Inc. Paging receiver for storing digitized voice messages
US4885577A (en) * 1988-03-02 1989-12-05 Motorola, Inc. Paging system for providing a data message and a voice message to a unique address of a paging receiver
JPH02287399A (ja) * 1989-04-28 1990-11-27 Fujitsu Ltd ベクトル量子化制御方式
US4975956A (en) * 1989-07-26 1990-12-04 Itt Corporation Low-bit-rate speech coder using LPC data reduction processing
JP3102015B2 (ja) * 1990-05-28 2000-10-23 日本電気株式会社 音声復号化方法
US5371853A (en) * 1991-10-28 1994-12-06 University Of Maryland At College Park Method and system for CELP speech coding and codebook for use therewith
US5495555A (en) * 1992-06-01 1996-02-27 Hughes Aircraft Company High quality low bit rate celp-based speech codec
US5327520A (en) * 1992-06-04 1994-07-05 At&T Bell Laboratories Method of use of voice message coder/decoder
FR2700632B1 (fr) * 1993-01-21 1995-03-24 France Telecom Système de codage-décodage prédictif d'un signal numérique de parole par transformée adaptative à codes imbriqués.

Also Published As

Publication number Publication date
DE69622985D1 (de) 2002-09-19
US5781882A (en) 1998-07-14
ATE222394T1 (de) 2002-08-15
CN1121682C (zh) 2003-09-17
WO1997010584A1 (en) 1997-03-20
EP0792502A4 (en) 1998-12-23
CN1165574A (zh) 1997-11-19
DE69622985T2 (de) 2002-11-28
ES2183000T3 (es) 2003-03-16
KR970707528A (ko) 1997-12-01
KR100257361B1 (ko) 2000-05-15
EP0792502B1 (en) 2002-08-14
EP0792502A1 (en) 1997-09-03

Similar Documents

Publication Publication Date Title
US5724410A (en) Two-way voice messaging terminal having a speech to text converter
CA2213699C (en) A communication system and method using a speaker dependent time-scaling technique
TW318926B (ja)
CA2244007C (en) Method and apparatus for storing and forwarding voice signals
US5828995A (en) Method and apparatus for intelligible fast forward and reverse playback of time-scale compressed voice messages
US5881104A (en) Voice messaging system having user-selectable data compression modes
US5689440A (en) Voice compression method and apparatus in a communication system
US5781882A (en) Very low bit rate voice messaging system using asymmetric voice compression processing
US5666350A (en) Apparatus and method for coding excitation parameters in a very low bit rate voice messaging system
US5682462A (en) Very low bit rate voice messaging system using variable rate backward search interpolation processing
JP2001242896A (ja) 音声符号化/復号装置およびその方法
CN1212604C (zh) 基于可变速语音编码的语音合成器
JP3279288B2 (ja) デジタル移動通信方式
WO1997013242A1 (en) Trifurcated channel encoding for compressed speech
JP2000078246A (ja) 無線電話装置
JPH1117627A (ja) 移動電話機
JP2000244614A (ja) 移動無線端末装置
TW295753B (ja)
JPH09298591A (ja) 音声符号化装置
JPH11340928A (ja) ディジタル移動体通信端末
JPH09261754A (ja) 転送方法、送信方法、送信装置および複合端末