JP2002536694A - 音声コーダのための、1/8レート乱数発生のための方法と手段 - Google Patents

音声コーダのための、1/8レート乱数発生のための方法と手段

Info

Publication number
JP2002536694A
JP2002536694A JP2000597797A JP2000597797A JP2002536694A JP 2002536694 A JP2002536694 A JP 2002536694A JP 2000597797 A JP2000597797 A JP 2000597797A JP 2000597797 A JP2000597797 A JP 2000597797A JP 2002536694 A JP2002536694 A JP 2002536694A
Authority
JP
Japan
Prior art keywords
random
speech
variable
random variable
speech coder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000597797A
Other languages
English (en)
Inventor
チャン、チエンチュン
シェン、タオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2002536694A publication Critical patent/JP2002536694A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

(57)【要約】 【課題】垂直なリールコンベヤーによるリールの操作装置。 【解決手段】 第一のランダム変数(random variable)の値を発生するように構成された乱数発生器とランダム数発生器に接続されたコーデックを具備する音声ボコーダが開示されている。乱数発生器は、ランダム乱数発生器に接続された記憶媒体、該記憶媒体は第二のランダム変数の値を含み、第二のランダム変数は第一のランダム変数の蓄積分散関数の逆変換を具備する。該コーデックは第一及び第二のランダム変数の値で入力無音フレームを符号化するために、及び第一と第二のランダム変数で無音フレームを再生するために構成される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】
本発明は広く音声プロセスの分野に関連する、そして、より具体的には、音声
コーダ(speech coder)のための1/8レート乱数(random number)を発生するた
めの方法と装置に関連する。
【0002】
【従来の技術】
デジタル技術による音声の送信は、特に長距離及びデジタル無線電話用途で広
がってきている。このことは、順次、再構築された音声の知覚される品質を維持
しながら,チャネル上で送れる情報の最小量を決定することへの関心を生み出し
てきた。仮に音声が単にサンプリングされデジタル化されることにより送信され
れば、秒あたり64キロビット(kbps)オーダー(order)のデータレート
が、従前のアナログ電話の音声品質を達成するために要求される。しかしながら
、適正な符号化、送信、そして受信器での再合成(rethynthesis)を伴う、音声
分析の使用を通して、データレートの顕著な削減が達成できる。
【0003】 人間の音声の発生モデル(model)に関連するパラーメータを抽出することに
より、音声を圧縮する技術を採用する装置は音声コーダと呼ばれる。音声コーダ
は入力の音声信号を時間のブロック、または分析フレームに分割する。音声コー
ダは典型的に符号器と復号器、またはコーデックを具備する。符号器は、一定の
関連するパラーメータを抽出するために入力の音声フレームを分析する、そして
次にパラーメータを2進表現(binary representation)、即ち、1組のビット
または1組の2進データパケット(binary deta packet)に量子化する。データパ
ケットは通信チャネルで受信器と復号器に伝送される。復号器はデータパケット
を処理し、パラーメータを作成するためにそれらの量子化を戻し(unquantitize
)、そして、次に量子化から戻された(unquantitized)パラーメータを使い音
声フレームを再合成する(rethythesize)。
【0004】 音声コーダの機能は、デジタル化された音声信号を、音声に固有の全ての自然
な冗長性(redundancies)を除去することにより、低ビットレート信号に圧縮す
ることである。デジタル圧縮は、入力音声フレームを一組のパラーメータで表現
し、そしてパラーメータを一組のビットで表現するために量子化を採用すること
で達成される。仮に、入力音声のフレームがビットNiの数を持つとき、そして音
声コーダで作成されたデータパケットがビットNOの数を持つとき、音声コーダに
より達成される圧縮係数は、Cr=Ni/NOである。課題(challenge)は、目標の圧
縮係数を達成しながら、復号された音声の高い音声品質を保つことである。音声
コーダの性能は(1)いかに良く音声モデル、または上述の分析と合成の処理の
組合せが実行されるか、そして(2)いかに良くパラーメータ量子化処理が、各
フレーム当たりのNOビットの目標ビットレートで実行されるかに依存する。音声
モデルの達成目標はこのように、各フレームための小さい組のパラーメータで、
音声信号のエッセンス(essence)、または目標の音声品質を獲得することであ
る。
【0005】 良く知られている音声コーダは、L.B.Rabiner,とR.W.Schaferによる、「音声
信号のデジタル処理396−453(1978)」(L.B.Rabiner & R.W.Schafe
r,Digital Processing of Speech Signal 396-453(1978))に述べられているコ
ード励起線形分析(code exited linear predictive)(CELP)コーダであり、こ
れは、ここに記述して完全に組み込まれる、。CELPコーダでは、音声信号内の短
期相関関係,または冗長性(redundancies)は、短期フォルマントフィルタ(forma
nt filter)の係数を見出す、線形予測(linear prediction)(LP)分析により除
去される。入力の音声フレームに短期予測フィルタを適用することは、さらに長
期予測フィルタパラーメータとそれに続くランダム的(stochastic)コードブック
でモデル化され、そして量子化されるLP剰余(residue)信号を発生する。この
ように、CELPコード化(coding)は時間領域音声波形を符号化するタスク(task
)を、LP短期フィルタ係数を符号化することとLP剰余を符号化することの別々の
タスクに分割する。例示的な可変レートCELPコーダが、本発明の譲受人(assign
ee)に譲渡され(assigned)、そしてここに記述されて完全に組み込まれる、米
国特許番号5,414,796に述べられている。
【0006】 従前の音声コーダでは、無声音(nonspeech)または無音(silence)は、単 に符号化されないことの代わりに、頻繁に(可変レート音声コーダにおけるフル
レート、ハーフレート、または4/1レートに対して)1/8レートで符号化される
。無音を1/8レートで符号化するために、現在の音声フレームのエネルギーが測
定され、量子化され、そして復号器へ伝送される。同等なエネルギーを持つ(聞
き手にとり)快適な(comfort)雑音が復号器側で再生される。雑音は通常、ホ
ワイト(white)ガウス雑音としてモデル化される。例えば、均一ランダム分散
をもつランダム変数(random variable)を持つ二つの統計的に独立した、同じ
く分散されたランダム変数を持つ中心極限定理(central limit theorem)を使用
することも含めて、ランダムランダムデジタル信号プロセッサー(DSP)内でガ
ウスランダム(random)雑音を発生する数種の方法が存在する。しかしながら、
集中的(intensive)な計算は、ランダム変数の平方根の計算、コサイン(cosine
)とサイン(sine)の変換、対数関数、等のような、非線型の、数学的演算または
変換を含めて、実行されねばならない。そのような演算は高いメモリ容量を必要
とし、そして非常に計算集中的(computation-intensive)である(computation-i
ntensive)。例えば、関数のサインとコサインを計算することは関数のテーラ級
数展開の計算を必要とする。このように、メモリの必要性と計算の要求を減少す
る符号化と復号化関する必要性(need)がある。
【0007】
【課題を解決するための手段】
本発明は、メモリの必要性と計算の要求を減少する符号化と復号化の方法に向
けられている。従って、本発明の一つの観点において、音声コーダは有利的に、
第一のランダム変数(random variable)の値を発生するように構成された乱数
発生器;乱数発生器に結合された記憶メディア、第二のランダム変数の値を有す
る記憶メディア、第一のランダム変数の累積分散関数(cumulative distribution
function)の逆変換(inverse transformation)を具備する第二のランダム変数;
及び、乱数発生器に接続された符号器を備える。符号器は、入力無音のフレーム
を第一と第二のランダム変数の値で符号化するためと、そして無音フレームを第
一と第二のランダム変数の値で再発生(regenerate)するために構成されている。
【0008】 本発明の他の観点において、無音のフレームを符号化する方法は、第一のラン
ダム変数の値を発生する;第二のランダム変数の値を記憶する、該第二のランダ
ム変数は第一のランダム変数の累積分散関数の逆変換を具備するランダム;無音
のフレームを第一と第二のランダム変数で符号化する;及び無音のフレームを第
一と第二のランダム変数の値で再発生する、工程を含むことが好ましい。
【0009】 本発明の他の観点において、音声コーダは、第一のランダム変数の値を発生す
る手段;第二のランダム変数の値を記憶する手段、第二のランダム変数は第一の
ランダム変数の累積分散関数の逆変換を具備する;無音のフレームを第一と第二
のランダム変数で符号化する手段;及び無音のフレームを第一のと第二のランダ
ム変数で再発生する手段、を含むことが好ましい。
【0010】
【発明の実施の形態】
図1で、第一の符号器10はデジタル化された音声サンプル(n)を受信しそして
、伝送媒体12または通信チャネル12で第一の復号器14へ送信するために、
サンプル(n)を符号化する。復号器14は符号化された音声サンプルを復号し、
そして出力音声信号ssynth(n)を合成する。逆方向への送信のために、第二の復
号器16は、通信チャネル18で送信されるところの、デジタル化された音声サ
ンプルssynth(n)を符号化する。第二の復号器20は符号化されたサンプルを受
けて復号する、そして合成された出力音声信号ssynth(n)を発生する。
【0011】 音声サンプル(n)は、例えば、パルス符号変調(PCM)、圧伸された(compande
d)μ-lawまたはA-法則(A-law)等の当技術で知られる各種の方法に従いデジタ
ル化されまた量子化された音声信号を表す。当技術で知られるように、音声サン
プル(n)は、各フレームが所定の数のデジタル化された音声サンプル(n)を備え
る入力データのフレームに構成される。例示的な実施例では、8kHzのサンプ
リングレートが、160個のサンプルを備える各20msのフレームと共に使用
される。下記の実施例では、データ伝送のレートは、フレーム対フレームベース
で13.2kbps(フルレート)から6.2kbps(ハーフレート)、2.
6kbps(1/4レート)、そして1kbps(1/8レート)へ有効的に変え
られる。データ伝送のレートを変えることは、より低いビットレートが比較的少
ない音声情報を含むフレームに選択的に使用できるので、有効である。当業者に
理解されているように、他のサンプリングレート、フレームサイズやデータ伝送
のレートも使用できる。
【0012】 第一の符号器10と第二の復号器20は共に第一の音声コーダまたは音声コーデ
ックを構成する。同様に、第二の符号器16と第一の復号器14は共に第二の音
声コーダを構成する。当業者には、音声コーダはデジタル信号プロセッサ(DSP
)、特定用途集積回路(ASIC)、離散利得ロジック(discrete gain logic)、フ
ァームウエア、またはいずれの一般のプログラム可能なソフトウエアモジュール
とマイクロプロセッサで実施できると理解されている。ソフトウエアモジュール
はRAMメモリ、フラッシュメモリ、抵抗、または当技術で知られたいずれの他の
書き込み可能な記憶メディア内に所在できる。代わりに、いずれの一般的なプロ
セッサ、コントローラ、状態マシン(state machine)はマイクロプロセッサの代
わりができる。音声符号化専用に設計された例示的なASICが、本特許の譲受人(
assignee)に譲渡され、引用されて、ここに全体的に組み込まれる(incorporate
d)米国特許番号5,727,123、及び1994年2月16日に出願され、本発明の
譲受者(assignee)に譲渡され、引用された、ここに全体的に組み込まれる「ボコ
ーダーASIC」(VOCODER ASIC)と題された、米国申請続番号08/197,417
に記述されている。
【0013】 図2で、音声コーダに使える符号器100は、モード決定モジュール102、
ピッチ推定モジュール104、LP分析モジュール106、LP分析フィルター10
8、LP量子化モジュール110と剰余量子化モジュール112を含む。入力音声
フレーム(n)はモード決定モジュール102、ピッチ推定モジュール104、LP
分析モジュール106、LP分析フィルター108に供給される。モード決定モジ
ュール102は、各入力音声フレーム(n)の周期数(periodicity)に基づきモード
インデックスIMとモードMを供する。周期数に従い音声フレームを分類する各種
の方法が、1997年3月11に出願され、本発明の譲受者(assigneeに譲渡され(assig
ned)、引用されて、ここに全体的に組み込まれる、米国出願番号08/815,
354、「低減レート可変レートボコードを実行するための方法と装置」(METH
OD AND APPARATUS FOR PERFORMING REDUCED RATE VARIABLE RATE VOCODNG )に
記述されている。そのような方法は通信産業協会(Telecommunication Industry
Association)の産業暫定標準(Industry Interim Standards)TIA/EIA IS-127及び
TIA/EIA IS-127にも編入されている。
【0014】 ピッチ推定モジュール104は、各入力音声フレーム(n)に基づきピッチインデ
ックスIPと遅れ(lag)値POを作成する。LP分析モジュール106は、LPパラーメー
タaを発生するために、各入力音声フレーム(n)の線形予測分析を実行する。L
PパラーメータaはLP量子化モジュール110に供給される。LP量子化モジュール11
0はモードMをも受信する。LP量子化モジュール110はLPインデックスILPと量子化
されたLPパラーメータ
【0015】
【数1】 を作成する(以下、このLPパラーメータを「aΛ」と記す)。LP分析フィルター1
08は、入力音声フレーム(n)に加えて、量子化されたLPパラーメータaΛ
受ける。LP分析フィルタ108は、入力音声フレーム(n)と量子化された線形予測
パラーメータaΛに基づき、復元された音声間のエラーを表すところの、LP剰余
信号R[n]を発生する。LP剰余信号R[n]、モードM、量子化されたLPパラーメータ
Λは剰余量子化モジュール112に供給される。これらの値に基づき、剰余量
子化モジュール112は剰余インデックスIRと量子化された剰余信号
【0016】
【数2】 を作成する。(以下、この剰余信号を「RΛ[n]」と記す) 図3で、音声コーダに使える復号器200は、LPパラーメータ復号モジュール
202、剰余復号モジュール204、モード復号モジュール206、及びLP合成フ
ィルタ208を含む。モード復号モジュール206はモードインデックスIMを受け
、復号し、それよりモードMを発生する。LPパラーメータ復号モジュール202はモ
ードMとLPインデックスILPを受ける。LPパラーメータ復号モジュール202は、量
子化されたLPパラーメータaΛを作成するために、それらの受けた値を復号する
。剰余復号モジュール204は、剰余インデックスIR、ピッチインデックスIP、モ
ードインデックスIMを受ける。剰余復号モジュール204は、量子化された剰余
信号RΛ[n]を発生するために、それらの受けた値を復号する。量子化された剰
余信号RaΛ[n]と量子化されたLPパラーメータaΛは、それらから、復号され
た出力音声信号
【0017】
【数3】 を合成するところの、LP合成フィルタ208へ供給される。(以下、出力音声信号を
「sΛ[n]」と記す) 図2の符号器100の及び図3の復号器200の各種モジュールの実行と実施
は当技術で知られており、前述の米国特許番号5,414,796及び、L.B.Ra
biner,とR.W.Schaferによる、「音声信号のデジタル処理396−453(19
78)」(l.B.Rabiner & R.W.Schafer,Digital Processing of Speech Signal
396-453(1978))に述べられている。
【0018】 図4のフローチャートに図示されているように、一つの実施例に合致する音声
コーダは、伝送のための音声サンプルを処理する一組の工程に従う。音声コーダ
(表示されていない)は、前述の米国特許番号5,414,796に述べられている可変
レートボコーダ(variable rate vocoder)のような、8kbpsのコード励起
線形分析(code exited linear predictive)(CELP)コーダまたは13kbps
のCELPコーダでよい。代わりに、音声コーダは符号分割多重アクセス(code divi
sion multiple access)(CDMA)強化可変レートコーダ(enhanced variable rate
coder )(EVRC)でよい。
【0019】 工程300で、音声コーダは連続するフレームで音声信号のデジタルサンプルを
受ける。所定のフレームを受けた時に、音声コーダは工程302へ進む。工程302で
,音声コーダはフレームのエネルギーを検出する。エネルギーはフレームの言語
行為(speech activity)の物差し(measure)である。音声検出が、デジタル化さ
れた音声サンプルの振幅の二乗(squares)を総和することと、しきい値に対し結
果のエネルギーを比較することにより実行される。一つの実施例では、しきい値
は背景雑音の変化するレベルに基づき順応する。例示的な可変しきい値音声活性
度検出器(variable threshhold speech activity detector)が前述の米国特許番
号5,414,796に述べられている。いくつかの無声音の声音は極端に低エネルギー
サンプルで背景雑音としてあやまって符号化されてしまう可能性がある。この発
生を防止するために、前述の米国特許番号5,414,796に述べられているように、
低エネルギーサンプルのスペクトルチルト(spectral tilt)が、背景雑音から
無声音の音声を識別するために使うことができる。
【0020】 フレームのエネルギーを検出した後に、音声コーダは工程304へ進む。工程30
4で、音声コーダは、検出されたフレームのエネルギーが該フレームを音声情報
を含むものと識別するのに充分か否かを決定する。仮に、検出されたフレームの
エネルギーが所定のしきい値レベルより下回れば、音声コーダは工程306へ進む
。工程306で,音声コーダはフレームを背景雑音(即ち、無音声,又は無音)とし
て符号化する。一つの実施例では、背景雑音フレームは1/8レート,又は1kbp
sで符号化される。仮に、工程304で、検出されたフレームのエネルギーが所定
のしきい値のレベルを満たすか越えれば,該フレームは音声と識別され,音声コー
ダは工程308へ進む。工程308で、音声コーダはフレームが無声音の音声かどうか
を決定する、即ち、音声コーダはフレームの周期性(periodicity)を試験する。
周期性決定の各種の既知の方法は、例えば、ゼロクロス(zero crossing)の使用
と規格化自己相関関数(normalized autocorrelation functions)(NACFs)の使
用を含む。特に、ゼロクロスとNACFsを周期性の検出のために使うことは、1997
年3月11に出願され、本発明の譲受人(assignee)に譲渡され(assigned)、引用
されて、ここに全ぶ編入されている、「低減レート可変レートボコードを実行す
るための方法と装置」(METHOD AND APPARATUS FOR PERFORMING REDUCED RATE V
ARIABLE RATE VOCODING )と題された、米国出願番号08/815,354に記
述されている。加えて、無声音の音声より、有声の音声を識別するために使われ
る上記の方法は通信産業協会(Telecommunication Industry Association)の産業
暫定標準(Industry Interim Standards)TIA/EIA IS-127及びTIA/EIA IS-127に編
入されている。仮に、工程308で、フレームが無声音の音声と決定されると、
音声コーダは工程310へ進む。工程310で、音声コーダはフレームを無声音
の音声として符号化する。一つの実施例では、無音声の音声フレームは1/4レー
トまたは2.6kbpsで符号化される。仮に、工程308 でフレームが無声音の音声でないと決定されれば、音声コーダは工程312へ進
む。
【0021】 工程312では、音声コーダは、当技術で知られる、例えば、前述の米国出願
番号08/815,354で述べられているような周期性検出の方法を使い、フ
レームが遷移(transitional)音声かどうかを決定する。仮に、フレームが遷移音
声と決定されれば、音声コーダは工程314へ進む。工程314で,フレームは遷移音
声(即ち、無声音の音声から有声の音声への遷移)として符号化される。一つの
実施例では、遷移音声フレームはフルレート、または13.2kbpsで符号化される。
【0022】 工程312で,仮に、音声コーダがフレームは遷移音声ではないと決定すれば、音
声コーダは工程316へ進む。工程316で,音声コーダはフレームを有声の音声とし
て符号化する。一つの実施例では、有声の音声はフルレート、または13.2kbpsで
符号化される。
【0023】 工程312で、音声コーダはフレームが遷移音声でないことを確定し、音声コ
ーダは工程316へ進む。工程316で,音声コーダはフレームを有声の音声として符
号化する。一つの実施例では、有声の音声はフルレート、または13.2kbpsで符号
化できる。
【0024】 一つの実施例では、音声コーダは、無音のフレームを1/8レートで符号化する
ために、ルックアップテーブル(lookup table)(LUT)(図示されていない)を
使用する。例示的な、特定の実施例に従ったLUTのデータが図7に表形式で示さ
れている。LUTはROMメモリで有効に実施できるが、しかし代わりに、いずれの
一般的な形の不揮発性のメモリで実施された記憶メディアでよい。ゼロの平均と
1の分散を持つガウスランダム変数(Gaussian randam variable)が、無音のフ
レームを符号化するために有効に発生される。特定の実施例では,音声符号器は
デジタル信号プロセッサの部分として実施される。ファームウエアの命令(firm
ware instruction)が音声コーダにより、ランダム変数を発生し、そしてLUT
にアクセスするために、使用される。代わりの実施では、ランダム変数を発生し
、そしてLUTにアクセスするために、RAMメモリに含まれるソフトウエアモ
ジュールが使用できる。代わりに、ランダム変数は、抵抗とFIFOのようなデ
ィスクリートのハードウエアの構成要素で発生できる。
【0025】 図5に示されているように、ガウスランダム変数Xの確率密度関数(probability
density function )(pdf)
【0026】
【数4】 (以下、確率密度関数を「(cdf)fx(χ)」と記す)は、標準偏差σと分散σ2 を持つ平均mを中心とする鐘形の曲線である。ガウスpdf fx(χ)は次の等式を
満足する:
【0027】
【数5】 累積分散関数(cdf)fx(χ)は、所定の時間でランダム変数Xが特定の値X
より小さいか同じ確率ランダムと定義される。ゆえに、
【0028】
【数6】 図6に示されているように、(cdf)fx(χ)は、ランダム変数xが無限大に
近づくに連れて1に近づき、そして、xが負の無限大に近づくに連れてゼロに近
づく。F(X)に等しい第二のランダム変数、Υ、は、Xがゼロの平均と1の分散
を持つガウスランダム変数である場合、Xの分散にかかわらず、ゼロと1の間に均
一に分散されたランダム変数である。Υの逆変換(inverse transformation)を
採用(take)することはX=F-1(Υ)を導く。
【0029】 一般的な音声コーダでは、一組の統計的に独立の、ゼロの平均と1の分散を持
つガウス関数UとVは、一組みの統計的に独立のランダム変数WとZより次の等式で
計算される。
【0030】
【数7】 ランダム変数WとZは、統計的に独立であり、同じように分散(distribute)さ
れ、そしてゼロと1の間で均一に分散される。しかしながら、上記の計算は(テ
ーラ級数の展開を必要とするところの)サインとコサインの計算、対数、そして
平方根計算を必要とする。その様な計算は比較的大きな処理能力とメモリ要件を
必要とする。例えば、そのような音声コーダは、TIA/EAI 暫定標準IS-127、
強化可変レートコーデック、広帯域符号分割デジタルシステムのための音声サー
ビスオプション3(TIA/EIA Iterim Standard IS-127,”Enhanced Variable Rat
e Codec,Speech Service Option 3 for Widebannd Spread Spectrum Digital Sy
stem”)に定義されている。定義されている音声コーダは、1/8レートの符号化
と復号をするためのプラットフォームのなかで比較的大きい量の計算力を消費す
る。
【0031】 記述された実施例では、上記の計算を実行する必要性を除く為にLUTが使用さ
れる。Υ=Fx(χ)ゆえに、逆変換はX=F-1(Υ)であることを示す。上述のように
、Xはいずれの分散でもよい。図7に示されているように、LUTは有効にゼロの平
均と1の分散を持つガウスランダム変数cdfに基づいている。特定の実施例で
は, Υは1とゼロの間に均一に分散されているので、Υは1とゼロの間で256レベ
ルに量子化される。Υの値を導くために、ゼロと1の間の乱数(random number)
が発生される。呼応するガウス乱数、Xが、逆変換方程式で計算され、そしてLUT
に記憶される。X値に対する量子化されたΥをマップするために、Υ値でアクセ
スされるLUTが使用される。
【0032】 一つの実施例では、ゼロと1の間で、256レベルにΥを量子化するのに半分
に縮小されたLUTが使用される。当業者は理解するように、LUTサイズを半分に縮
小することは(reductiopn)は可能である。それは、 FX(χ)=0.5の周囲で、cdf、FX(χ)が非対称であるからである。言い換え
ると、FX(m+x)=0.5−FX(m−x)であり、ここで、mはFX(χ)の平均であ
るから、F-1(y+0.5)=―F-1(―y+0.5)である。代わりの実施では
、LUTサイズは半分に縮小されないが、しかしかわりに、分解能(resolution)が
増加される(即ち、量子化誤りが減少する)。
【0033】 このように、新しくそして改善された、音声コーダのための1/8レートの乱数
を発生するの方法と装置が説明されてきた。当業者は、ここで開示された実施に
関連する各種の説明的な論理ブロックとアルゴリズムの工程は、デジタル信号処
理(DSP)、用途特定IC(ASIC)、ディスクリートゲートまたはトランジスターロ
ジック、例えば、抵抗やFIFOのようなディスクリートのハードウエアの構成要素
、一組のファ―ムウエア命令を実行するプロセッサ、または、いずれかの一般的
なプログラマブルソフトウエアモジュールとプロセッサで、実施または実行でき
ることを、理解するであろう。プロセッサは有効的にマイクロプロセッサでよい
、しかし代わりに、プロセッサはいずれの一般的なプロセッサ、コントローラ、
マイクロコントローラまたは状態マシンでよい。ソフトウエアモジュールはRAM
メモリ、フラッシュメモリ、抵抗、または、当業界で知られたいずれかの書き込
み可能な記憶メディアに所在できる。当業者は、上記の記述で全体的に参照され
たデータ、命令、コマンド、情報、信号、ビット、記号とチップは有効的に電圧
、電流、電磁波、磁界または磁性体、光フィールド(optical field)、または
それらのいずれの組合せで表わされることを、更に理解するであろう。
【0034】 本発明の好ましい実施例がこのように示されそして説明されてきた。当業者に
とり、然しながら、本発明の精神または範囲から離脱することなく、多数の変更
がここに開示された実施に対して作ることが可能であることは、明白であろう。
従って、本発明は、次の請求に従うことを除き、制限的なものではない。
【図面の簡単な説明】
【図1】 音声コーダで各端を終端された通信チャネルのブロックダイアグラムである。
【図2】 符号器のブロックダイアグラムである。
【図3】 復号器のブロックダイアグラムである。
【図4】 音声符号化の決定プロセスを図示するフローチャートである。
【図5】 ランダム変数のランダム密度関数対ランダム変数のグラフである。
【図6】 ランダム変数の蓄積分散関数対ランダム変数のグラフである。
【図7】 ルックアップテーブルのためのガウスデータの表である。
【符号の説明】
12…伝送媒体,18…通信チャネル,100…符号器,200…復号器
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,SD,SL,SZ,TZ,UG,ZW ),EA(AM,AZ,BY,KG,KZ,MD,RU, TJ,TM),AE,AL,AM,AT,AU,AZ, BA,BB,BG,BR,BY,CA,CH,CN,C R,CU,CZ,DE,DK,DM,EE,ES,FI ,GB,GD,GE,GH,GM,HR,HU,ID, IL,IN,IS,JP,KE,KG,KP,KR,K Z,LC,LK,LR,LS,LT,LU,LV,MA ,MD,MG,MK,MN,MW,MX,NO,NZ, PL,PT,RO,RU,SD,SE,SG,SI,S K,SL,TJ,TM,TR,TT,TZ,UA,UG ,UZ,VN,YU,ZA,ZW (72)発明者 シェン、タオ アメリカ合衆国 カリフォルニア州 92131 サン・ディエゴ、カミニト・コロ ラド 10829 Fターム(参考) 5D045 CC05 DA20

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 下記を具備する、音声コーダ: 第一のランダム変数(random variable)の値を発生するように構成された乱
    数発生器; ランダム乱数発生器に接続された記憶媒体、該記憶媒体は第二のランダム変数
    の値を含み、第二のランダム変数は第一のランダム変数の蓄積分散関数の逆変換
    を具備する;及び ランダム数発生器に接続されたコーデック、該コーデックは第一及び第二のラ
    ンダム変数の値で入力無音フレームを符号化するために、及び 第一と第二のランダム変数で無音フレームを再生するために構成される。
  2. 【請求項2】 符号器が入力の無音フレームを1kbpsで符号化するため
    に構成される、請求項1の音声コーダ。
  3. 【請求項3】 音声コーダが強化可変レート符号器(enhanced variable rat
    e order)である、請求項1の音声コーダ
  4. 【請求項4】 第一と第二のランダム変数は統計的にお互いに独立であっ
    て、そして、ゼロと1の間で均一に分散された値を持つ第一と第二のガウスラン
    ダム変数(random variables)を具備する、請求項1の音声コーダ。
  5. 【請求項5】 記憶媒体が、第一のランダム変数の値によりアドレスされる
    ルックアップテーブルを具備する、請求項1の音声コーダ。
  6. 【請求項6】 下記の工程を具備する、無音のフレームを符号化する方法: 第一のランダム変数の値を発生する; 第二のランダム変数の値を記憶する、該第二のランダム変数は第一のランダム
    変数の蓄積分散関数の逆変換を具備する;そして 無音のフレームを第一と第二のランダム変数の値で符号化する;そして 第一と第二のランダム変数の値で無音のフレームを再生(regenerate)する。
  7. 【請求項7】 符号化する工程が1kbpsで実行される、請求項6の方法
  8. 【請求項8】 第一のと第二のランダム変数は統計的にお互いに独立であっ
    て、そして、ゼロと1の間に均一に分散される第一と第二のガウスランダム変数
    を具備する、請求項6の方法。
  9. 【請求項9】 記憶工程が、第一のランダム変数の値によりアドレスされる
    ルックアップテーブルに、第二のランダム変数の値を記憶することを具備する、
    請求項6の方法。
  10. 【請求項10】 下記を具備する、音声コーダ: 第一のランダム変数の値を発生する手段; 第二のランダム変数の値を記憶する手段、第二のランダム変数は第一のランダ
    ム変数の蓄積分散関数の逆変換を具備する;そして 無音のフレームを第一と第二のランダム変数の値で符号化する手段;そして 無音のフレームを第一と第二のランダム変数の値で再生する手段。
  11. 【請求項11】 符号化するための手段が、1kbpsで無音のフレームを
    符号化するように構成された、請求項10の音声コーダ。
  12. 【請求項12】 音声コーダが強化可変レートコーダである、請求項10の
    音声コーダ。
  13. 【請求項13】 第一の第二のランダム変数は統計的にお互いに独立であっ
    て、そして、ゼロと1の間に均一に分散される第一の第二のガウスランダム変数
    を具備する、請求項10の音声コーダ。
  14. 【請求項14】 記憶媒体が第一のランダム変数の値によりアドレスされる
    ルックアップテーブルを具備する、請求項10の音声コーダ。
JP2000597797A 1999-02-08 2000-02-04 音声コーダのための、1/8レート乱数発生のための方法と手段 Pending JP2002536694A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/248,516 US6226607B1 (en) 1999-02-08 1999-02-08 Method and apparatus for eighth-rate random number generation for speech coders
US09/248,516 1999-02-08
PCT/US2000/002901 WO2000046796A1 (en) 1999-02-08 2000-02-04 Method and apparatus for eighth-rate random number generation for speech coders

Publications (1)

Publication Number Publication Date
JP2002536694A true JP2002536694A (ja) 2002-10-29

Family

ID=22939494

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000597797A Pending JP2002536694A (ja) 1999-02-08 2000-02-04 音声コーダのための、1/8レート乱数発生のための方法と手段

Country Status (11)

Country Link
US (2) US6226607B1 (ja)
EP (1) EP1159739B1 (ja)
JP (1) JP2002536694A (ja)
KR (1) KR20010093324A (ja)
CN (1) CN1144177C (ja)
AT (1) ATE309599T1 (ja)
AU (1) AU3589200A (ja)
DE (1) DE60023851T2 (ja)
ES (1) ES2255991T3 (ja)
HK (1) HK1041740B (ja)
WO (1) WO2000046796A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7161931B1 (en) * 1999-09-20 2007-01-09 Broadcom Corporation Voice and data exchange over a packet based network
US20070110042A1 (en) * 1999-12-09 2007-05-17 Henry Li Voice and data exchange over a packet based network
US6754624B2 (en) * 2001-02-13 2004-06-22 Qualcomm, Inc. Codebook re-ordering to reduce undesired packet generation
US20050234712A1 (en) * 2001-05-28 2005-10-20 Yongqiang Dong Providing shorter uniform frame lengths in dynamic time warping for voice conversion
US7292550B2 (en) * 2003-03-27 2007-11-06 Kyocera Wireless Corp. System and method for minimizing voice packet loss during a wireless communications device candidate frequency search (CFS)
US7469209B2 (en) * 2003-08-14 2008-12-23 Dilithium Networks Pty Ltd. Method and apparatus for frame classification and rate determination in voice transcoders for telecommunications
US7613606B2 (en) * 2003-10-02 2009-11-03 Nokia Corporation Speech codecs
US7536298B2 (en) * 2004-03-15 2009-05-19 Intel Corporation Method of comfort noise generation for speech communication
WO2006008932A1 (ja) * 2004-07-23 2006-01-26 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法
EP2246845A1 (en) * 2009-04-21 2010-11-03 Siemens Medical Instruments Pte. Ltd. Method and acoustic signal processing device for estimating linear predictive coding coefficients
KR101104985B1 (ko) * 2009-11-06 2012-01-16 양창근 난수 생성 방법 및 시스템
US20110191129A1 (en) * 2010-02-04 2011-08-04 Netzer Moriya Random Number Generator Generating Random Numbers According to an Arbitrary Probability Density Function
US9454653B1 (en) 2014-05-14 2016-09-27 Brian Penny Technologies for enhancing computer security
US10594687B2 (en) 2013-05-14 2020-03-17 Kara Partners Llc Technologies for enhancing computer security
US10057250B2 (en) 2013-05-14 2018-08-21 Kara Partners Llc Technologies for enhancing computer security
CN110619881B (zh) * 2019-09-20 2022-04-15 北京百瑞互联技术有限公司 一种语音编码方法、装置及设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5307441A (en) * 1989-11-29 1994-04-26 Comsat Corporation Wear-toll quality 4.8 kbps speech codec
ES2225321T3 (es) * 1991-06-11 2005-03-16 Qualcomm Incorporated Aparaato y procedimiento para el enmascaramiento de errores en tramas de datos.
TW271524B (ja) * 1994-08-05 1996-03-01 Qualcomm Inc
US5794199A (en) 1996-01-29 1998-08-11 Texas Instruments Incorporated Method and system for improved discontinuous speech transmission
JP3575967B2 (ja) * 1996-12-02 2004-10-13 沖電気工業株式会社 音声通信システムおよび音声通信方法
US6041297A (en) * 1997-03-10 2000-03-21 At&T Corp Vocoder for coding speech by using a correlation between spectral magnitudes and candidate excitations

Also Published As

Publication number Publication date
US6226607B1 (en) 2001-05-01
HK1041740B (zh) 2004-12-31
CN1339151A (zh) 2002-03-06
CN1144177C (zh) 2004-03-31
US20010007974A1 (en) 2001-07-12
DE60023851D1 (de) 2005-12-15
ES2255991T3 (es) 2006-07-16
ATE309599T1 (de) 2005-11-15
KR20010093324A (ko) 2001-10-27
WO2000046796A9 (en) 2001-10-11
AU3589200A (en) 2000-08-25
HK1041740A1 (en) 2002-07-19
EP1159739B1 (en) 2005-11-09
EP1159739A1 (en) 2001-12-05
DE60023851T2 (de) 2006-08-10
WO2000046796A1 (en) 2000-08-10

Similar Documents

Publication Publication Date Title
JP4444749B2 (ja) 減少レート、可変レートの音声分析合成を実行する方法及び装置
JP5543405B2 (ja) フレームエラーに対する感度を低減する符号化体系パターンを使用する予測音声コーダ
JP5425682B2 (ja) ロバストな音声分類のための方法および装置
RU2331933C2 (ru) Способы и устройства управляемого источником широкополосного кодирования речи с переменной скоростью в битах
JP4270866B2 (ja) 非音声のスピーチの高性能の低ビット速度コード化方法および装置
JP4907826B2 (ja) 閉ループのマルチモードの混合領域の線形予測音声コーダ
JP2002536694A (ja) 音声コーダのための、1/8レート乱数発生のための方法と手段
JP2002544551A (ja) 遷移音声フレームのマルチパルス補間的符号化
WO2000030075A1 (en) Closed-loop variable-rate multimode predictive speech coder
JP2004502203A (ja) 準周期信号の位相を追跡するための方法および装置