JPH08328591A - 短期知覚重み付けフィルタを使用する合成分析音声コーダに雑音マスキングレベルを適応する方法 - Google Patents

短期知覚重み付けフィルタを使用する合成分析音声コーダに雑音マスキングレベルを適応する方法

Info

Publication number
JPH08328591A
JPH08328591A JP8123685A JP12368596A JPH08328591A JP H08328591 A JPH08328591 A JP H08328591A JP 8123685 A JP8123685 A JP 8123685A JP 12368596 A JP12368596 A JP 12368596A JP H08328591 A JPH08328591 A JP H08328591A
Authority
JP
Japan
Prior art keywords
short
signal
parameter
spectrum
spectral
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8123685A
Other languages
English (en)
Other versions
JP3481390B2 (ja
Inventor
Proust Stephane
ステファン・プルースト
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CENTRE NAT ETD TELECOMM
Orange SA
France Telecom R&D SA
Original Assignee
CENTRE NAT ETD TELECOMM
France Telecom SA
Centre National dEtudes des Telecommunications CNET
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CENTRE NAT ETD TELECOMM, France Telecom SA, Centre National dEtudes des Telecommunications CNET filed Critical CENTRE NAT ETD TELECOMM
Publication of JPH08328591A publication Critical patent/JPH08328591A/ja
Application granted granted Critical
Publication of JP3481390B2 publication Critical patent/JP3481390B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Filters That Use Time-Delay Elements (AREA)

Abstract

(57)【要約】 【課題】短期知覚重み付けフィルタを使用する合成分析
音声コーダに雑音マスキングレベルを適応する。 【解決手段】伝達関数W(z)=A(z/γ1)/A(z/γ2)
を有する短期知覚重み付けフィルタを使用する合成分析
音声コーダでは、スペクトル拡張係数γ1及びγ2は、短
期線形予測分析中に得られたスペクトラパラメータに基
づいて動的に適応させられる。この適応に役立つスペク
トルパラメータは、特に、音声信号のスペクトルの全傾
斜を表すパラメータ及び短期合成フィルタの共振特性を
表すパラメータを含んでもよい。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、合成による分析の
技術を使用する音声の符号化に関するものである。
【0002】
【従来の技術】合成音声符号化分析方法は、通常下記の
ステップからなる。短期合成フィルタを規定するパラメ
ータを決定するために連続フレームとしてディジタル化
される音声信号の次数pの線形予測分析ステップ、音声
信号を表す合成信号を生成するための短期合成フィルタ
に印加される励振信号を規定する励振パラメータの決定
ステップであって、この励振パラメータの少なくともい
くつかは、音声信号と少なくとも一つの知覚重み付けフ
ィルタによる合成信号との差のフィルタリングの結果生
じる誤差信号のエネルギーを最小にすることによって決
定されていること、短期合成フィルタを規定するパラメ
ータの量子化値と励振パラメータの量子化値の発生ステ
ップ。
【0003】線形予測によって得られる短期合成フィル
タのパラメータは、声道及び入力信号のスペクトル特性
の伝達関数を表す。いろいろなクラスの合成分析コーダ
を区別できる、短期合成フィルタに印加される励振信号
をモデル化するいろいろな方法がある。存在する大方の
コーダでは、励振信号は、声帯の振動による母音のよう
な有声音の長期周期性を利用できる適応コードブックに
よるか又は長期合成フィルタによって合成された長期成
分を含んでいる。CELPコーダ(“符号励振線形予測(Co
de Excited Linear Prediction)",エム・アール・シュロ
ーダー(M.R.Schroder)及びビー・エス・アタル(B.S.Atal)
著の“符号励振線形予測(Code Excited Linear Predic
tion)(CELP):非常に低いビット速度での高品質音声(Hig
h Quality Speech at Very Low Bit Rates)”,Proc.ICA
SSP'85,Tampa,March 1985,ページ937〜940を参照)で
は、誤差励振は、確率コードブックから抽出される波形
によってモデル化され、利得と乗算される。CELPコーダ
は、通常の電話帯域において、音声の品質をそこなわな
いで、64キロビット/秒(従来のPCMコーダ)から16キロビ
ット/秒(LD-CELPコーダ)まで及び大部分の最新のコーダ
に対しては8キロビット/秒以下にさえ必要とされるディ
ジタルビット速度を減少することを可能にしている。こ
れらのコーダは、今日では一般に電話伝送で使用される
が、記憶、広帯域電話又は衛星伝送のような多数の他の
アプリケーションを提供する。本発明が適用される合成
分析コーダの他の例としては、特に、MP-LPCコーダ(マ
ルチパルス線形予測コーディング(Multi-PulseLinear P
redictive Coding),ビー・エス・アタル(B.S.Atal)及びジ
ー・アール・レミデ(J.R.Remde)著の“低ビット速度での
自然に聞こえる音声を発生するためのLPC励振の新しい
モデル”(A New Model of LPC Excitation for Produci
ng Natural-Sounding Speech at Low Bit Rates),Proc.
ICASSP'82,Paris,May 1982,Vol.1,ページ614〜617を参
照)があげられ、この場合、誤差励振はそれに割り当て
られたそれぞれの利得を有する可変位置パルスによって
モデル化されており、他の例としてはVSELPコーダ(ベク
トル和励振線形予測(Vector-Sum Excited Linear Predi
ction),アイ・エー・ガーソン(I.A. Gerson)及びエム・エ
ー・ジャーシウク(M.A.Jasiuk)著の“8キロビット/秒で
のベクトル和励振線形予測(VSELP)音声符号化(Vector-
Sum Excited Linear Prediction(VSELP) Speech Coding
at 8kbits/s)",Proc. ICASSP'90 Albuquerque,April
1990,Vol.1,ページ461〜464を参照)があり、この場合、
励振がそれぞのコードブックから抽出されたパルスベク
トルの線形結合によってモデル化される。
【0004】コーダは、合成信号と最初の音声信号との
間の知覚的に重み付けられた誤差を最小にする“閉ルー
プ”処理において誤差励振を評価する。知覚重み付け
が、平均二乗誤差の直接最小化に関しては、合成音声の
主観的知覚を実質的に改善することが公知である。短期
知覚重み付けは、最小誤差判定基準内で信号レベルが比
較的高い重要な音声スペクトルの領域を減ずることであ
る。すなわち、聞き手によって知覚される雑音は、フラ
ットであったスペクトルがフォルマント間の領域内より
もフォルマント領域内でより多くの雑音を受け取るよう
な形状にされるならば、減少される。これを達成するた
めに、短期知覚重み付けフィルタは、下記の式の伝達関
数をしばしば有する。 W(z)=A(z)/A(z/γ) で、係数aiは線形予測解析ステップで得られる線形予
測係数であり、かつγは0と1との間にあるスペクトル拡
張係数を示す。この式の重み付けは、ビー・エス・アタル
(B.S.Atal)及びエム・アール・シューローダー(M.R.Schr
oeder)著の“音声信号の予測コーディング及び主観的誤
差判定基準(Predictive Coding of SpeechSignals and
Subjective Error Criteria)”, IEEE Trans. on Acous
tics,Speech,and Signal Processing, Vol. ASSP-27, N
o. 3, June 1979、 ページ247〜254によって提案されて
いる。γ=1に関しては、いかなるマスキングもない。
すなわち、二乗誤差の最小化は、合成信号に基づいて実
行される。γ=0であるならば、マスキングは完全であ
る。すなわち、最少化は誤差に基づいて実行され、符号
化雑音は音声信号と同一のスペクトル包絡を有する。
【0005】下記の式の伝達関数W(z)を知覚重み付け
のために選択することで一般化することができる。 W(z)=A(z/γ1)/A(z/γ2) γ1及びγ2は、0≦γ2≦γ1≦1であるようなスペクトル
拡張係数を示している。ジェー・エッチ・チェーン(J.H.
Chen)及びエー・ガーショウ(A.Gersho)著の“適応後フィ
ルタリングを有する4800Bpsでの実時間ベクトルAPC音声
コーディング(Real-Time Vector APC Speech Coding at
4800 Bps with Adaptive Postfiltering)”,Proc.ICAS
SP'87,April 1987,ページ2185〜2188を参照のこと。γ1
=γ2であるとき、マスキングがなくて、γ1=1及びγ2
=0であるとき、マスキングが完全であることに注目さ
れたい。スペクトル拡張係数γ1及びγ2は、所望の雑音
マスキングのレベルを決定する。マスキングがあまりに
も弱いと、一定の粗い量子化雑音が知覚される。マスキ
ングがあまりにも強いとフォルマントの形状に影響を及
ぼし、したがってひずみが非常に聞こえるようになる。
【0006】大部分の強力な最新のコーダでは、LTP遅
延及びおそらく位相(わずかな遅延)を含む長期予測値の
パラメータ又は係数セット(マルチタップLTPフィル
タ)もまた、知覚重み付けフィルタを含む閉ループ手順
によって各フレーム又はサブフレームの間に決定され
る。あるコーダでは、音声信号の短期モデル化を利用
し、雑音のフォルマント分布を提供する知覚重み付けフ
ィルタは、高調波に対応するピークにおける雑音のエネ
ルギーを増加し、これらのピーク間で雑音のエネルギー
を減少させる調波重み付けフィルタ及び/又は特に広帯
域アプリケーションにおいて高周波でマスクされない雑
音の出現を防止するように意図された傾斜補正フィルタ
で補われる。
【0007】
【課題を解決するための手段】本発明は主に、短期知覚
重み付けフィルタW(z)に関連している。短期知覚フィ
ルタのスペクトル拡張パラメータγ、すなわちγ1又は
γ2の選択は、通常、主観的検査の助けを借りて最適化
される。この選択はその後固定される。しかしながら、
出願人は、入力信号のスペクトル特性によって、スペク
トル拡張パラメータの最適値がかなり大きな変動を受け
得ることを観察している。したがって、なされた選択は
多少は満足する妥協という性格のものである。本発明の
目的は、知覚重み付けフィルタのより良い特性によって
符号化信号の主観的品質を向上させることにある。他の
目的は、いろいろな種類の入力信号に対してコーダの性
能をより均一にすることにある。他の目的は、この改良
に対して更に複雑なことを必要としないことにある。
【0008】本発明は、このように、知覚重み付けフィ
ルタが前述のように一般式W(z)=A(z/γ1)/A(z/
γ2)の伝送関数を有し、かつスペクトル拡張係数γ1
γ2の少なくとも一つの値が線形予測分析ステップで得
られたスペクトルパラメータに基づいて適応される、最
初に示したタイプの合成解析音声符号化方法に関するも
のである。知覚重み付けフィルタの係数γ1及びγ2を適
応できるようにすることによって、音声ピックアップの
特性、音声のいろいろな特性又は顕著な背景雑音(例え
ば、移動無線電話における自動車雑音)に依存するかな
り大きい変動を有し得る入力信号のいろいろなスペクト
ル特性に対して符号化雑音マスキングレベルを最適化す
ることが可能になる。知覚される主観的品質は向上し、
コーダの性能はいろいろな種類の入力に対してより均一
になる。
【0009】それに基づきスペクトル拡張係数の少なく
とも一つの値が適応されるスペクトルパラメータが、音
声信号のスペクトルの全ての傾斜を表す少なくとも一つ
のパラメータを含むことが好ましい。音声スペクトル
は、低周波(大人の男性の太い音声の60Hzから子供の
音声の500Hzに及ぶおおよそ基本の周波数)で平均し
てより多いエネルギーを有し、それゆえに一般に下向き
の傾斜を有する。しかしながら、大人の男性の太い音声
は、より減衰された高周波を有し、したがってより大き
い傾斜のスペクトルを有する。音声ピックアップ系によ
って適用される前フィルタリングはこの傾斜に大きな影
響を有する。従来の電話送受話器は、この傾斜効果をか
なり減衰する、IRSと呼ばれるハイパス前フィルタリ
ングを実行する。しかしながら、それよりも最新のある
装置でなされる“線形”入力は重要な低周波の全てを保
持する。弱いマスキング(γ1とγ2との間の小さい間
隙)は、信号の傾斜と比較して知覚フィルタの傾斜を減
衰し過ぎる。信号がこれらの周波数でほとんどエネルギ
ーを有しないならば、高周波での雑音レベルは大きなま
まであり、信号そのものよりも大きくなる。耳は、高周
波のマスクされていない雑音を知覚し、それはしばしば
高調波特性を持っているのでなおさら耳障りである。こ
のエネルギー差を適当にモデル化するためにはフィルタ
の傾斜の簡単な補正では適当でない。この問題は音声ス
ペクトルの全傾斜を考慮に入れたスペクトル拡張係数の
適応によって、より良く処理することができる。それに
基づきスペクトル拡張係数の少なくとも一つの値が適応
されるスペクトルパラメータが、短期合成フィルタ(LP
C)の共振特性を表す少なくとも一つのパラメータをさら
に含むことが好ましい。音声信号は、電話帯域における
4個又は5個までのフォルマントを有する。スペクトル
の輪郭線を特徴付けるこれらの“こぶ”は、一般にかな
り丸くされる。しかしながら、LPC分析は、不安定性に
近いフィルタになることもある。したがって、LPCフィ
ルタに対応するスペクトルは、小さい帯域幅にわたって
大きなエネルギーを有する、比較的はっきりとしたピー
クを含む。マスキングが大きくなればなるほど、雑音の
スペクトルはLPCスペクトルに接近する。しかしなが
ら、雑音分布におけるエネルギーピークの存在は非常に
やっかいである。エネルギーピークの存在によって、か
なりのエネルギー範囲内でフォルマントレベルで歪みが
生じ、それはかなり耳障りである。したがって、本発明
は、LPCフィルタの共振特性が増加するにつれてマスキ
ングのレベルを減少することを可能にするものである。
【0010】短期合成フィルタがラインスペクトルパラ
メータ又はラインスペクトル周波数(LSP又はLSF)によっ
て表されるとき、γ1及び/又はγ2のどの値に基づいて
適応される、短期合成フィルタの共振特性を表すパラメ
ータは、2つの連続ラインスペクトル周波数間の差の最
小であり得る。
【0011】
【発明の実施の形態】本発明の他の特徴及び利点は、添
付図面を参照しながら好ましいが限定していない実例の
実施例に関する下記の説明で明かになる。本発明は、CE
LP形の音声コーダへのその適用において下記に示されて
いる。しかしながら、本発明はまた、他の種類の合成分
析コーダ(MP−LPC、VSELP...)に適用できることも理
解される。CELPコーダ及びCELPデコーダで実施される音
声合成処理が、図1に示されている。励振発生器10は、
インデックスkに応じて所定のコードブックに属する励
振コードckを供給する。増幅器12は、この励振コード
と励振利得βとを乗算し、この結果得られる信号は長期
合成フィルタ14に委ねられる。フィルタ14からの出力信
号uは順に短期合成フィルタ16に委ねられ、それからの
出力sは、ここでは合成音声信号とみなされるものを構
成する。もちろん、他のフィルタ、例えば、後置フィル
タも音声符号化の分野で周知であるように、デコーダレ
ベルで具備することができる。
【0012】前述の信号は、例えば8kHzに等しいサ
ンプリング速度Feで例えば16ビットによって表される
ディジタル信号である。合成フィルタ14、16は、一般に
純粋な再帰型フィルタである。長期合成フィルタ14は、
一般にB(z)=1−Gz-Tを有する式1/B(z)の伝達
関数を有する。遅延T及び利得Gは、コーダによって適
応できるように決定されている長期予測(LTP)パラメー
タを構成する。短期合成フィルタ16のLPCパラメータ
は、音声信号の線形予測によってコーダで決定される。
従って、フィルタ16の伝達関数は、下記の式を有する式
1/A(z)である。 次数p(一般にp≒10)の線形予測の場合、aiはi番目
の線形予測係数を表す。ここで、“励振信号”は、短期
合成フィルタ14に印加される信号u(n)を示す。この励
振信号は、LTP成分G・u(n-T)及び誤差成分、すなわ
ち刷新シーケンスβck(n)を含んでいる。合成分析コ
ーダでは、誤差成分を特徴付けるパラメータ及び、任意
にはLTP成分が、知覚重み付けフィルタを使用して閉ル
ープで評価される。図2は、CELPコーダの配置図を示し
ている。音声信号s(n)はディジタル信号で、例えば、
マイクロホン22の増幅され、かつフィルタリングされた
出力信号を処理するアナログ/ディジタル変換器20によ
って供給される。信号s(n)は、それ自身をL個のサン
プルのサブフレーム、すなわち励振フレームに分割され
るΛ個のサンプルの連続フレームとしてディジタル化さ
れる(例えば、Λ=240、L=40)。
【0013】LPC、LTP及びEXCパラメータ(インデックス
k及び励振利得β)は、3つのそれぞれの分析モジュー
ル24、26、28によってコーダレベルで得られる。次に、
これらのパラメータは、有効ディジタル伝送のために公
知の方法で量子化され、コーダからの出力信号を形成す
るマルチプレクサ30に委ねられる。これらのパラメータ
はコーダの特定のフィルタの初期状態を計算するために
モジュール32にも供給される。このモジュール32は本
来、図1で表されるような復号化チェーンを含む。デコ
ーダと同様に、モジュール32は、量子化LPC、LTP及びEX
Cパラメータに基づいて作動する。LPCパラメータの補間
が一般に行われるようにデコーダで実行されるならば、
同一の補間がモジュール32によって実行される。モジュ
ール32は、考慮中のサブフレームよりも先に合成及び励
振パラメータに基づいて決定されるデコーダの合成フィ
ルタ14、16の初期の状態の情報をコーダレベルで供給す
る。符号化処理の第1のステップでは、短期分析モジュ
ール24は、音声信号s(n)短期相関を分析することによ
ってLPCパラメータ(短期合成フィルタの係数ai)を決定
する。この決定は、音声信号のスペクトル内容の変化に
適応させるように、Λサンプルのフレーム毎に例えば一
度実行される。LPC分析法は当該技術分野で周知であ
る。例えば、1978年、プレンティスホール社発行のエル
・アール・ラビナー(L.R.Rabiner)及びアール・ダブリュ
ー・シャファー(R.W.Shafer)著による文献“音声信号の
ディジタル処理(Digital Processing of Speech Signal
s)”を参照してもよい。この文献は、特に下記のステッ
プを含むダービンのアルゴリズムを記載している。
【0014】フレームの長さが小さいならば(例えば、2
0〜30ms)、現在のフレーム及びおそらくそれよりも前
のサンプルを含む分析ウィンドウにわたって音声信号s
(n)のp個の自動相関関係R(i)(0≦i<p)の評価
ステップ:M≧Λ及びs*(n)=s(n)・f(n)を有す
る、 f(n)は、長さMのウィンドウ関数、例えば矩形関数又
はハミング関数を示す。 係数aiの再帰評価ステップ: E(0)=R(0) 1からpまでとるiに関しては、下記のことをする。 i (i)=ri E(i)=(1-ri 2).E(i-1) 1からi−1までとるjに関しては、下記のことをす
る。 aj (i)=aj (i-1)−ri.ai-j (i-1) 係数aiは、最新の反復で得られるai (p)に等しく選ば
れる。物理量E(p)は残留予測誤差のエネルギーであ
る。−1と1の間にある係数riは反射係数と呼ばれ
る。それらは、しばしばlog面積比LARi=LAR(ri)に
よって表され、関数LARは、LAR(r)=log10[(1−
r)/(1+r)]によって規定される。
【0015】LPCパラメータの量子化は、直接に係数ai
にわたって、反射係数riにわたって又はlog面積比L
ARiにわたって実行されることができる。他の可能性
は、ラインスペクトルパラメータを量子化することであ
る(LSPは“ラインスペクトル対”を表し、LSFは“ライ
ンスペクトル周波数”を表す)。0とπとの間で正規化さ
れたp個のラインスペクトル周波数ωi(1≦i≦p)は、
複素数1、exp(jω2)、exp(jω4)、....、ex
p(jωp)が、多項式P(z)=A(z)−z-(p+ 1)
(z- 1)の平方根であり、複素数exp(jω1)、exp
(jω3)、....、exp(jωp -1)、及び−1が、多項式
Q(z)=A(z)+z-(p+1)A(z-1)の平方根であるよう
なものである。量子化は、正規化周波数ωi又はその余
弦によって実行することができる。モジュール24は、本
発明を実施する際に有用である物理量ri、LARi及びωi
を規定するために上述されたダービンの古典アルゴリズ
ムによりLPC分析を実行できる。より最近に開発された
同一結果を与える他のアルゴリズム、特にレビンソンの
スプリットアルゴリズム(エス・サオウディ(S.Saoudi)、
ジェー・エム・ボウチャー(J.M.Boucher)及びエー・レーガ
イダー(A.Le Guyader)著の“音声符号化のためのLSPパ
ラメータを計算するための新しい有効なアルゴリズム”
(A new Efficient Algorithm to Compute the LSP Para
meters for Speech Coding),Signal Processing、Vol.2
8、1992、ページ201〜212を参照)又はチェビシェフの多
項式(ピー・キャバル(P.Kabal)及びアール・ピー・ラマシ
ャンドラ(R.P.Ramachandran)著の“チェビシェフ多項式
を使用するラインスペクトル周波数の計算”, IEEE Tra
ns.on Acoustics, Speech, and Signal Processing, Vo
l. ASSP-34, No.6, ページ1419〜1426, December 1986
を参照)を都合よく使用することができる。
【0016】符号化の次のステップは長期予測LTPパラ
メータを決定することである。例えば、L個のサンプル
のサブフレーム毎に一度決定される。減算器34は、ヌル
入力信号に対する短期合成フィルタ16の応答を音声信号
s(n)から減算する。この応答は伝達関数1/A(z)を
有するフィルタ36によって決定され、それの係数はモジ
ュール24によって決定されたLPCパラメータによって与
えられ、かつその初期状態sが合成信号の最後のp個の
サンプルに対応するようにモジュール32によって供給さ
れる。減算器34からの出力信号は、その役割が誤差が最
も知覚できるスペクトルの一部、すなわちフォルマント
間領域を強調することである知覚重み付けフィルタに委
ねられる。知覚重み付けフィルタの伝達関数W(z)は、
一般式W(z)=A(z/γ1)/A(z/γ2)であり、γ1及び
γ2は、0≦γ2≦γ1≦1であるような2つのスペクトル
拡張係数である。本発明は、LPC分析モジュール24によ
って決定されたスペクトルパラメータに基づいてγ1
びγ2の値を動的に適応させることを提案する。この適
応は、さらに記載してある処理により、知覚重み付けを
評価するモジュール39によって実行される。知覚重み付
けフィルタは、0<i≦pに対してb0=1及びbi=−a
iγ2 iである場合は、下記の伝達関数を有する次数pの
全極点の連続する級数とみなすことができ、 0<i≦pに対してc0=1及びci=−aiγ1 iである場
合は、下記の伝達関数を有する次数pの全ゼロ点の連続
する級数とみなすことができる。 このように、モジュール39は、各フレームに対する係数
i及びciを計算し、これらをフィルタ38に供給する。
モジュール26によって実行される閉ループLPT分析は、
下記の正規化された相関関係を最大にする遅延Tを従来
のように各サブフレームに対して選択するものである。 ここで、x′(n)は、関連サブフレームの間のフィルタ
38からの出力信号を示し、yT(n)は、畳み込み積u(n
−T)*h′(n)を示す。上記の式では、h′(0)、h′
(1)、....、h′(L-1)は、伝達関数W(z)/A(z)を有
する重み付け合成フィルタのインパルス応答を示してい
る。このインパルス応答h′は、量子化及び補間後に必
要とされるならば、モジュール39によって供給される係
数bi及びciとサブフレームのために決定されるLPCパ
ラメータに基づいて、インパルスを計算するモジュール
40によって得られる。サンプルu(n−T)は、モジュー
ル32によって供給されるような長期合成フィルタ14の初
期状態である。サブフレームの長さよりも小さい遅延T
に関しては、欠けているサンプルu(n−T)は、初期の
サンプルに基づいて補間によって得られるか又は音声信
号から得られる。整数又は分数である遅延Tは、例えば
20のサンプルから143までのサンプルに及ぶ指定ウィン
ドウから選択される。閉ループ探索範囲を減少する、し
たがって計算される畳み込みyT(n)の数を減少するた
めに、フレーム毎に例えば1回開ループ遅延T′を決定
し、次に、減少された間隔約T′で各サブフレームに対
して閉ループ遅延を選択することがまず可能であろう。
開ループ探索はもっと単純に、伝達関数A(z)を有する
逆フィルタによって多分フィルタリングされる音声信号
s(n)の自動相関関係を最大にする遅延T′を決定する
ことである。一旦遅延Tが決定されると、長期予測利得
Gは下記によって得られる。
【0017】サブフレームに関するCELP励振を探索する
ために、最適遅延Tに関してモジュール26で計算された
信号GyT(n)は、まず減算器42によって信号x′(n)か
ら減算される。得られた信号x(n)は、逆フィルタ44に
委ねられ、逆フィルタ44は下記の式で表される信号を提
供する。 ここで、h(0)、h(1)、....、h(L-1)は、合成フィル
タ及び知覚重み付けフィルタから成る複合フィルタのイ
ンパルス応答を示し、この応答はモジュール40によって
計算される。すなわち、複合フィルタは、伝達関数W
(z)/A(z)・B(z)を有する。したがって、マトリック
ス表示では、下記のような式を得る。 x=(x(0)、x(1)、...、x(L-1))の場合、 D=(D(0)、D(1)、...、D(L-1))=x・H 及び
【数1】
【0018】ベクトルDは、励振探索モジュール28のた
めの目標ベクトルを構成する。このモジュール28は、下
記のような正規化相関関係Pk 2k 2を最大にするコー
ドブックからのコード語を決定する。 Pk=D・ck T αk 2=ck・HT・H・ck T=ck・U・ck T 最適インデックスkが決定されると、励振利得βはβ=
kk 2に等しくなるように取られる。図1を参照する
と、CELPデコーダは、コーダによる2進ストリーム出力
を受け取る多重分離装置8を備えている。EXC励振パラ
メータの量子化値とLTP合成パラメータ及びLPC合成パラ
メータの量子化値は合成信号sを再構成するために発生
器10、増幅器12及びフィルタ14、16に供給され、この合
成信号は例えば、増幅される前に変換器18によってアナ
ログ変換され、次に元の音声を復元するためにスピーカ
19に印加されることができる。それに基づいて係数γ1
及びγ2が適応されるスペクトルパラメータは、一方で
は音声スペクトルの全傾斜を表す最初の2つの反射係数
1=R(1)/R(0)及びr2=[R(2)-r1R(1)]/[(1
-r1 2)R(0)]と他方ではその分布が短期合成の共振特
性を表すラインスペクトル周波数とを含む。短期合成フ
ィルタの共振特性は、2つのラインスペクトル周波数間
の最小距離dminが減少するにつれ増加する。周波数ωi
は、昇順(0<ω1<ω2<...<ωp<π)で得られるの
で、下記の式を得る。 dmin=min(ωi+1−ωi) 1≦i<p
【0019】前述のダービンのアルゴリズムの最初の反
復で中止することによって、音声スペクトルのおおまか
な近似は、伝達関数1/(1-r1・z-1)によって生成され
る。したがって、合成フィルタの全傾斜(通常は負)
は、第1の反射係数r1が1に近づくにつれて絶対値で
増加する傾向がある。分析が反復を付加することによっ
て次数2まで続けられるならば、あまりおおまかでない
モデル化が、伝達関数1/[1-(r1-r12)・z-1-r2
-2)]を有する次数2のフィルタで達成される。次数2
のこのフィルタの低周波共振特性は、その極点がユニッ
ト円に近づくにつれて、すなわちr1が1に、r2が−1
に近づくにつれて増加する。したがって、音声スペクト
ルは、r1が1に近づき、r2が−1に近づくにつれて、
低周波で比較的大きなエネルギー(言い換えれば比較的
大きな負の全傾斜)を有すると結論付けることができ
る。音声スペクトルにおけるフォルマントピークはいく
つかのラインスペクトル周波数(2又は3)を一緒に束に
するのに対して、スペクトルの平たい部分はこれらの周
波数の均一な部分に対応することは公知である。したが
ってLPCフィルタの共振特性は、距離dminが減少するに
つれて増加する。一般に、合成フィルタのローパス特性
が増加する(r1は1に近づき、r2は−1に近づく)に
つれて、及び/又は合成フィルタの共振特性が減少する
(dminは増加する)につれて、より大きなマスキン
グが選定される(γ1とγ2との間のより大きな間隙)。
【0020】図3は、知覚重み付けを評価するためにモ
ジュール39が各フレームで実行する動作の典型的なフロ
ーチャートを示している。各フレームで、モジュール39
は、モジュール24からLPCパラメータai、ri(又はLA
Ri)及びωi(1≦i≦p)を受け取る。ステップ50では、
モジュール39は、1≦i<pに対してωi+1−ωiを最小
化することによつて2つの連続するラインスペクトル周
波数間の最小距離dminを評価する。フレームにわたる
スペクトルの全傾斜を表すパラメータ(r1及びr2)に基
づいて、モジュール39は、N個のクラスP0、P1、...、P
N-1の間のフレームの分類を実行する。図3の例では、
N=2である。クラスP1は、音声信号s(n)が低周波で比
較的効果的である(1に比較的近いr1及び−1に比較的
近いr2)場合に対応する。したがって、一般にクラスP1
ではクラスP0で取り入れられるよりも大きなマスキング
が取り入れられる。クラス間を極端に頻繁に遷移するこ
とを避けるために、いくらかのヒステリシスがr1及び
2の値に基づいて導入される。たとえばクラスP1に対
して各フレームからr1が正のしきい値T1よりも大き
く、かつr2が負のしきい値−T2よりも小さく、選択
し、クラスP0に対して各フレームからr1が他の正のし
きい値T1′よりも小さく(T1′<T1の場合)、かつr2
が他の負のしきい値−T2′よりも小さく(T2′<T2
場合)、選択すると仮定する。反射係数約±1の感度を
与えられると、このヒステリシスは、しきい値T1
1′、−T2、−T2′がそれぞれしきい値−S1、−S
1′、S2、S2′に対応するlog面積比LAR(図4を参
照)の領域で容易に視覚化できる。初期設定の際に、デ
フォルトクラスは、例えば、マスキングが最も少ないク
ラス(P0)である。ステップ52では、モジュール39は、前
のフレームがクラスP0の下又はクラスP1の下にくるかど
うかを調べる。前のフレームがクラスP0であるならば、
モジュール39は、54で、条件(LAR1<-S1及びLAR2
S2)をテストするか又はモジュール24がlog面積比LA
R1、LAR2の代わりに反射係数r1、r2を供給するなら
ば、同等な条件(r1>T1及びr2<−T2)をテストす
る。LAR1<-S1及びLAR2>S2ならば、クラスP1(ステップ
56)に遷移する。テスト54が、LAR1≧-S1又はLAR2≦S2
あることを示すならば、現在のフレームがクラスP0にと
どまる(ステップ56)。
【0021】ステップ52が前のフレームがクラスP1であ
ることを示すならば、モジュール39は、60で、条件(LAR
1>-S1′又はLAR2<S2′)をテストするか又はモジュー
ル24がlog面積比LAR1、LAR2の代わりに反射係数
1、r2を供給するならば、同等な条件(r1<T1′又
はr2>−T2′)をテストする。LAR1>-S1′又はLAR2
<S2′ならば、クラスP0(ステップ58)に遷移する。テス
ト60が、LAR1≦-S1′及びLAR2≧S2′であることを示す
ならば、現在のフレームがクラスP1にとどまる(ステッ
プ56)。図3で示される例では、2つのスペクトル拡張
係数の大きい方の係数γ1は、Г0≦Г1の場合、各クラ
スP0、P1で定数値Г0、Г1を有し、他のスペクトル拡張
係数γ2は、ラインスペクトル周波数間の最小距離dmin
の減少アフィン関数である。すなわち、λ0≧λ1≧0及
びμ1≧μ0≧0の場合、クラスP0ではγ2=-λ0・dm in
μ0で、クラスP1ではγ2=-λ1・dmin+μ1である。γ2
の値はまた極端に急な変動を避けるために結合すること
もできる。すなわち、クラスP0では、△min, 0≦γ2≦△
max,0、クラスP1では、△min,1≦γ2≦△max,1である。
現在のフレームの間に選ばれたクラスに応じて、モジュ
ール39は、ステップ56又は58でγ1及びγ2の値を割り当
て、次に、ステップ62で知覚重み付け因数の係数bi
びcを計算する。
【0022】前述のように、モジュール24がLPCパラメ
ータを計算するΛ個のサンプルのフレームは、励振信号
を決定するためにL個のサンプルのサブフレームに細分
割される。一般に、LPCパラメータの補間はサブフレー
ムレベルで実行される。この場合、補間されたLPCパラ
メータを使って、各サブフレーム又は励振フレームに対
して図3の処理を実施することが望ましい。出願人は、
8キロビット/sで作動する代数コードブックCELPコー
ダの場合に、そのためのLPCパラメータを各10msフレ
ーム(Λ=80)で計算し、係数γ1及びγ2を適応させる処
理をテストした。フレームは、励振信号を探索するため
に2つの5msサブフレーム(L=40)にそれぞれ分割さ
れる。フレームのために得られたLPCフィルタは第2の
これらのサブフレームに対して適用される。第1のサブ
フレームに関しては、補間がこのフィルタと前のフレー
ムの間に得られたフィルタとの間のLSE領域で実行され
る。マスキングレベルを適応させる手順は、LSFωiの補
間及び第1のサブフレームに対する反射係数γ1、γ2
補間によってサブフレームの速度で適用される。図3で
示される手順は、以下の数値とともに使用される。すな
わち、S1=1.74;S′1=1.52;S2=0.65;S2′=0.43;Г0
=0.94;λ0=0;μ0=0.6;Г1=0.98;λ1=6;μ1=1;△
min,1=0.4;△max,1=0.7、で周波数ωiは、0とπとの
間で正規化される。
【0023】余分な複雑なことがほとんどなく、コーダ
の大きな構造的変更のないこの適応手順は、符号化音声
の主観的品質に著しい改善をもたらすことができる。出
願人はまた、8キロビット/秒と16キロビット/秒との間
の可変ビット速度で(低遅延)LD-CELPコーダに適用され
た図3の処理で良好な結果を得た。傾斜クラスは前述の
場合と同一で、Г0=0.98;λ0=4;μ0=1;△min,0=0.
6;△max,0=0.8;Г1=0.98;λ1=6;μ1=1;△min,1=0.
2;△max,1=0.7であった。
【図面の簡単な説明】
【図1】本発明を実施することができるCELPデコーダの
概略配置図である。
【図2】本発明を実施することができるCELPコーダの概
略配置図である。
【図3】知覚重み付けを評価するための手順のフローチ
ャート図である。
【図4】関数log[(1−r)/(1+r)]のグラフを
示す。
【符号の説明】
10 励振発生器 12 増幅器 14 長期合成フィルタ 16 短期合成フィルタ 20 アナログ/ディジタル変換器 22 マイクロホン 24 分析モジュール 26 分析モジュール 28 分析モジュール

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】合成分析音声符号化方法において、 短期合成フィルタ(16)を規定するパラメータ(LPC)を
    決定するために連続フレームとしてディジタル化される
    音声信号(s(n))の次数pの線形予測分析ステップと、 前記音声信号を表す合成信号を生成するための短期合成
    フィルタに適用される励振信号を規定する励振パラメー
    タの決定ステップであって、前記励振パラメータの少な
    くともいくつかが、その伝達関数が式W(z)=A(z/γ
    1)/A(z/γ2)であるところの少なくとも一つの知覚重
    み付けフィルタによって前記音声信号と前記合成信号と
    の差のフィルタリングの結果生じる誤差信号のエネルギ
    ーを最小にすることによって決定されることと、ここ
    で、 係数aiは線形予測分析ステップで得られた線形予測係
    数であり、かつγ1及びγ2は0≦γ2≦γ1≦1であるよ
    うなスペクトル拡張係数を示し、 前記短期合成フィルタを規定するパラメータ及び励振パ
    ラメータの量子化値の生成ステップとからなり、 前記スペクトル拡張係数の少なくとも一つの値が前記線
    形予測分析ステップで得られたスペクトルパラメータに
    基づいて適応させられることを特徴とする合成分析音声
    符号化方法。
  2. 【請求項2】前記スペクトル拡張係数の少なくとも一つ
    の値がそれに基づいて適応される前記スペクトルパラメ
    ータが、前記音声信号のスペクトルの全傾斜を表す少な
    くとも一つのパラメータ(r1、r2)と前記短期合成フィ
    ルタ(16)の共振特性を表す少なくとも一つのパラメータ
    (dmin)とを含むことを特徴とする請求項1による方
    法。
  3. 【請求項3】前記スペクトルの全傾斜を表す前記パラメ
    ータが、前記線形予測分析中に決定される第1及び第2
    の反射係数(r1、r2)を含むことを特徴とする請求項2
    による方法。
  4. 【請求項4】前記共振特性を表す前記パラメータが、2
    つの連続ラインスペクトル周波数間の距離の最小
    (dmin)であることを特徴とする請求項2又は3による
    方法。
  5. 【請求項5】いくつかのクラス(P0、P1)の中の音声信号
    のフレームの分類が前記スペクトルの全傾斜を表すパラ
    メータ(r1、r2)に基づいて実行され、かつ各クラスに
    対して、2つのスペクトル拡張係数が、前記短期合成フ
    ィルタ(16)の共振特性が増加するにつれてそれらの差γ
    1−γ2が減少するように選定されることを特徴とする請
    求項2ないし4のいずれかによる方法。
  6. 【請求項6】第1の反射係数r1=R(1)/R(0)の値及び
    第2の反射係数r2=[R(2)-r1・R(1)]/[(1-r1 2)・R
    (0)]の値に基づいて選択された2つのクラスが提供さ
    れ、R(j)がj個のサンプルの遅延のための音声信号の
    自動相関関係を示し、かつ前記第1の反射係数(r1)が
    第1の正のしきい値(T1)よりも大きく、かつ前記第2
    の反射係数(r2)が第1の負のしきい値(−T2)よりも小
    さい第1のクラス(P1)が各フレームから選択され、前
    記第1の反射係数(r1)が前記第1の正のしきい値より
    も小さい第2の正のしきい値(T1′)よりも小さく又は
    前記第2の反射係数(r2)が前記第1の負のしきい値(−
    2)よりも絶対値で小さい第2の負のしきい値(−
    2′)よりも大きい第2のクラス(P0)が各フレームから
    選択されることを特徴とする請求項3ないし5のいずれ
    かによる方法。
  7. 【請求項7】各クラス(P0、P1)において、前記スペクト
    ル拡張係数の最大γ1が固定され、かつ前記スペクトル
    拡張係数の最小γ2が2つの連続ラインスペクトル周波
    数間の距離の最小(dmin)の減少アフィン関数であるこ
    とを特徴とする請求項4又は5による方法。
JP12368596A 1995-05-17 1996-05-17 短期知覚重み付けフィルタを使用する合成分析音声コーダに雑音マスキングレベルを適応する方法 Expired - Lifetime JP3481390B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR9505851 1995-05-17
FR9505851A FR2734389B1 (fr) 1995-05-17 1995-05-17 Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme

Publications (2)

Publication Number Publication Date
JPH08328591A true JPH08328591A (ja) 1996-12-13
JP3481390B2 JP3481390B2 (ja) 2003-12-22

Family

ID=9479077

Family Applications (1)

Application Number Title Priority Date Filing Date
JP12368596A Expired - Lifetime JP3481390B2 (ja) 1995-05-17 1996-05-17 短期知覚重み付けフィルタを使用する合成分析音声コーダに雑音マスキングレベルを適応する方法

Country Status (9)

Country Link
US (1) US5845244A (ja)
EP (1) EP0743634B1 (ja)
JP (1) JP3481390B2 (ja)
KR (1) KR100389692B1 (ja)
CN (1) CN1112671C (ja)
CA (1) CA2176665C (ja)
DE (1) DE69604526T2 (ja)
FR (1) FR2734389B1 (ja)
HK (1) HK1003735A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002013183A1 (fr) * 2000-08-09 2002-02-14 Sony Corporation Procede et dispositif de traitement de donnees vocales
JP2002062899A (ja) * 2000-08-23 2002-02-28 Sony Corp データ処理装置およびデータ処理方法、学習装置および学習方法、並びに記録媒体
JP2002149175A (ja) * 2000-11-14 2002-05-24 Sony Corp 音声処理装置および音声処理方法、学習装置および学習方法、並びに記録媒体
JP2002221999A (ja) * 2001-01-25 2002-08-09 Sony Corp データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
JP2002222000A (ja) * 2001-01-25 2002-08-09 Sony Corp データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
US7283961B2 (en) 2000-08-09 2007-10-16 Sony Corporation High-quality speech synthesis device and method by classification and prediction processing of synthesized sound
WO2011077509A1 (ja) * 2009-12-21 2011-06-30 富士通株式会社 音声制御装置、及び音声制御方法

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5621852A (en) * 1993-12-14 1997-04-15 Interdigital Technology Corporation Efficient codebook structure for code excited linear prediction coding
FR2729246A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
TW376611B (en) * 1998-05-26 1999-12-11 Koninkl Philips Electronics Nv Transmission system with improved speech encoder
US6304843B1 (en) * 1999-01-05 2001-10-16 Motorola, Inc. Method and apparatus for reconstructing a linear prediction filter excitation signal
GB2348342B (en) * 1999-03-25 2004-01-21 Roke Manor Research Improvements in or relating to telecommunication systems
USRE43209E1 (en) 1999-11-08 2012-02-21 Mitsubishi Denki Kabushiki Kaisha Speech coding apparatus and speech decoding apparatus
JP3594854B2 (ja) * 1999-11-08 2004-12-02 三菱電機株式会社 音声符号化装置及び音声復号化装置
US6678651B2 (en) * 2000-09-15 2004-01-13 Mindspeed Technologies, Inc. Short-term enhancement in CELP speech coding
US6842733B1 (en) * 2000-09-15 2005-01-11 Mindspeed Technologies, Inc. Signal processing system for filtering spectral content of a signal for speech coding
US7010480B2 (en) * 2000-09-15 2006-03-07 Mindspeed Technologies, Inc. Controlling a weighting filter based on the spectral content of a speech signal
US6850884B2 (en) * 2000-09-15 2005-02-01 Mindspeed Technologies, Inc. Selection of coding parameters based on spectral content of a speech signal
US7606703B2 (en) * 2000-11-15 2009-10-20 Texas Instruments Incorporated Layered celp system and method with varying perceptual filter or short-term postfilter strengths
DE10121532A1 (de) * 2001-05-03 2002-11-07 Siemens Ag Verfahren und Vorrichtung zur automatischen Differenzierung und/oder Detektion akustischer Signale
US6871176B2 (en) * 2001-07-26 2005-03-22 Freescale Semiconductor, Inc. Phase excited linear prediction encoder
CN100369111C (zh) * 2002-10-31 2008-02-13 富士通株式会社 话音增强装置
US7054807B2 (en) * 2002-11-08 2006-05-30 Motorola, Inc. Optimizing encoder for efficiently determining analysis-by-synthesis codebook-related parameters
US20040098255A1 (en) * 2002-11-14 2004-05-20 France Telecom Generalized analysis-by-synthesis speech coding method, and coder implementing such method
EP1579427A4 (en) * 2003-01-09 2007-05-16 Dilithium Networks Pty Ltd METHOD AND APPARATUS FOR IMPROVING THE QUALITY OF VOICE TRANSCODING
KR100554164B1 (ko) * 2003-07-11 2006-02-22 학교법인연세대학교 서로 다른 celp 방식의 음성 코덱 간의 상호부호화장치 및 그 방법
US7792670B2 (en) * 2003-12-19 2010-09-07 Motorola, Inc. Method and apparatus for speech coding
US7668712B2 (en) * 2004-03-31 2010-02-23 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
US7707034B2 (en) * 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
US7177804B2 (en) 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
KR100986957B1 (ko) * 2005-12-05 2010-10-12 퀄컴 인코포레이티드 토널 컴포넌트들을 감지하는 시스템들, 방법들, 및 장치들
US8260620B2 (en) * 2006-02-14 2012-09-04 France Telecom Device for perceptual weighting in audio encoding/decoding
US8688437B2 (en) 2006-12-26 2014-04-01 Huawei Technologies Co., Ltd. Packet loss concealment for speech coding
US8271273B2 (en) * 2007-10-04 2012-09-18 Huawei Technologies Co., Ltd. Adaptive approach to improve G.711 perceptual quality
CN102292767B (zh) * 2009-01-22 2013-05-08 松下电器产业株式会社 立体声音响信号编码装置、立体声音响信号解码装置及它们的编解码方法
US9728200B2 (en) * 2013-01-29 2017-08-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for adaptive formant sharpening in linear prediction coding
EP3079151A1 (en) 2015-04-09 2016-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and method for encoding an audio signal
US10699725B2 (en) * 2016-05-10 2020-06-30 Immersion Networks, Inc. Adaptive audio encoder system, method and article
US20170330575A1 (en) * 2016-05-10 2017-11-16 Immersion Services LLC Adaptive audio codec system, method and article
US10770088B2 (en) * 2016-05-10 2020-09-08 Immersion Networks, Inc. Adaptive audio decoder system, method and article
US10756755B2 (en) * 2016-05-10 2020-08-25 Immersion Networks, Inc. Adaptive audio codec system, method and article
US11380343B2 (en) 2019-09-12 2022-07-05 Immersion Networks, Inc. Systems and methods for processing high frequency audio signal

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4731846A (en) * 1983-04-13 1988-03-15 Texas Instruments Incorporated Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal
IT1180126B (it) * 1984-11-13 1987-09-23 Cselt Centro Studi Lab Telecom Procedimento e dispositivo per la codifica e decodifica del segnale vocale mediante tecniche di quantizzazione vettoriale
NL8500843A (nl) * 1985-03-22 1986-10-16 Koninkl Philips Electronics Nv Multipuls-excitatie lineair-predictieve spraakcoder.
US4969192A (en) * 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
WO1990013112A1 (en) * 1989-04-25 1990-11-01 Kabushiki Kaisha Toshiba Voice encoder
DE68914147T2 (de) * 1989-06-07 1994-10-20 Ibm Sprachcodierer mit niedriger Datenrate und niedriger Verzögerung.
US5307441A (en) * 1989-11-29 1994-04-26 Comsat Corporation Wear-toll quality 4.8 kbps speech codec
US5293449A (en) * 1990-11-23 1994-03-08 Comsat Corporation Analysis-by-synthesis 2,4 kbps linear predictive speech codec
JPH04284500A (ja) * 1991-03-14 1992-10-09 Nippon Telegr & Teleph Corp <Ntt> 低遅延符号駆動型予測符号化方法
US5371853A (en) * 1991-10-28 1994-12-06 University Of Maryland At College Park Method and system for CELP speech coding and codebook for use therewith
US5327520A (en) * 1992-06-04 1994-07-05 At&T Bell Laboratories Method of use of voice message coder/decoder
IT1257065B (it) * 1992-07-31 1996-01-05 Sip Codificatore a basso ritardo per segnali audio, utilizzante tecniche di analisi per sintesi.
JPH0744196A (ja) * 1993-07-29 1995-02-14 Olympus Optical Co Ltd 音声符号化復号化装置
US5615298A (en) * 1994-03-14 1997-03-25 Lucent Technologies Inc. Excitation signal synthesis during frame erasure or packet loss
US5574825A (en) * 1994-03-14 1996-11-12 Lucent Technologies Inc. Linear prediction coefficient generation during frame erasure or packet loss
JP2970407B2 (ja) * 1994-06-21 1999-11-02 日本電気株式会社 音声の励振信号符号化装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002013183A1 (fr) * 2000-08-09 2002-02-14 Sony Corporation Procede et dispositif de traitement de donnees vocales
US7283961B2 (en) 2000-08-09 2007-10-16 Sony Corporation High-quality speech synthesis device and method by classification and prediction processing of synthesized sound
US7912711B2 (en) 2000-08-09 2011-03-22 Sony Corporation Method and apparatus for speech data
JP2002062899A (ja) * 2000-08-23 2002-02-28 Sony Corp データ処理装置およびデータ処理方法、学習装置および学習方法、並びに記録媒体
JP2002149175A (ja) * 2000-11-14 2002-05-24 Sony Corp 音声処理装置および音声処理方法、学習装置および学習方法、並びに記録媒体
JP4517262B2 (ja) * 2000-11-14 2010-08-04 ソニー株式会社 音声処理装置および音声処理方法、学習装置および学習方法、並びに記録媒体
JP2002221999A (ja) * 2001-01-25 2002-08-09 Sony Corp データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
JP2002222000A (ja) * 2001-01-25 2002-08-09 Sony Corp データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
WO2011077509A1 (ja) * 2009-12-21 2011-06-30 富士通株式会社 音声制御装置、及び音声制御方法

Also Published As

Publication number Publication date
DE69604526T2 (de) 2000-07-20
FR2734389A1 (fr) 1996-11-22
CA2176665C (en) 2005-05-03
CA2176665A1 (en) 1996-11-18
EP0743634B1 (en) 1999-10-06
CN1138183A (zh) 1996-12-18
HK1003735A1 (en) 1998-11-06
KR960042516A (ko) 1996-12-21
KR100389692B1 (ko) 2003-11-17
US5845244A (en) 1998-12-01
FR2734389B1 (fr) 1997-07-18
JP3481390B2 (ja) 2003-12-22
DE69604526D1 (de) 1999-11-11
CN1112671C (zh) 2003-06-25
EP0743634A1 (en) 1996-11-20

Similar Documents

Publication Publication Date Title
JP3481390B2 (ja) 短期知覚重み付けフィルタを使用する合成分析音声コーダに雑音マスキングレベルを適応する方法
KR100421226B1 (ko) 음성 주파수 신호의 선형예측 분석 코딩 및 디코딩방법과 그 응용
US5307441A (en) Wear-toll quality 4.8 kbps speech codec
Salami et al. Design and description of CS-ACELP: A toll quality 8 kb/s speech coder
Chen et al. Adaptive postfiltering for quality enhancement of coded speech
EP1232494B1 (en) Gain-smoothing in wideband speech and audio signal decoder
US5752222A (en) Speech decoding method and apparatus
EP1141946B1 (en) Coded enhancement feature for improved performance in coding communication signals
EP0878790A1 (en) Voice coding system and method
Kleijn et al. The RCELP speech‐coding algorithm
US20050108005A1 (en) Method and device for adaptive bandwidth pitch search in coding wideband signals
EP0732686A2 (en) Low-delay code-excited linear-predictive coding of wideband speech at 32kbits/sec
US6912495B2 (en) Speech model and analysis, synthesis, and quantization methods
JP2002516420A (ja) 音声コーダ
WO1999030315A1 (fr) Procede et dispositif de traitement du signal sonore
JP2014500521A (ja) 低ビットレート低遅延の一般オーディオ信号の符号化
JP4040126B2 (ja) 音声復号化方法および装置
US5884251A (en) Voice coding and decoding method and device therefor
JPH09258795A (ja) ディジタルフィルタおよび音響符号化/復号化装置
EP3281197B1 (en) Audio encoder and method for encoding an audio signal
JP3490324B2 (ja) 音響信号符号化装置、復号化装置、これらの方法、及びプログラム記録媒体
Koishida et al. A wideband CELP speech coder at 16 kbit/s based on mel-generalized cepstral analysis
EP0713208B1 (en) Pitch lag estimation system
JP3192999B2 (ja) 音声符号化方法および音声符号化方法
JP3192051B2 (ja) 音声符号化装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030902

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071010

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081010

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091010

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101010

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111010

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111010

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121010

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121010

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131010

Year of fee payment: 10

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term