JPH0644195B2 - エネルギ正規化および無声フレーム抑制機能を有する音声分析合成システムおよびその方法 - Google Patents

エネルギ正規化および無声フレーム抑制機能を有する音声分析合成システムおよびその方法

Info

Publication number
JPH0644195B2
JPH0644195B2 JP59215061A JP21506184A JPH0644195B2 JP H0644195 B2 JPH0644195 B2 JP H0644195B2 JP 59215061 A JP59215061 A JP 59215061A JP 21506184 A JP21506184 A JP 21506184A JP H0644195 B2 JPH0644195 B2 JP H0644195B2
Authority
JP
Japan
Prior art keywords
frame
energy
frames
voice
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP59215061A
Other languages
English (en)
Other versions
JPS60107700A (ja
Inventor
アール.ドツデイントン ジヨージ
イー.パパミチヤリス パノス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Texas Instruments Inc
Original Assignee
Texas Instruments Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US06/541,497 external-priority patent/US4696039A/en
Priority claimed from US06/541,410 external-priority patent/US4696040A/en
Application filed by Texas Instruments Inc filed Critical Texas Instruments Inc
Publication of JPS60107700A publication Critical patent/JPS60107700A/ja
Publication of JPH0644195B2 publication Critical patent/JPH0644195B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は音声符号化システムに関するものである。
[従来の技術] 音声符号化システムには様々の用途があり,マイクロコ
ンピュータネットワークを用いたボイスメールや,マイ
クロコンピュータにより電話線で送受信するボイスメー
ルや,ユーザー自身のプログラムによる合成音声等があ
る。
こうした用途の多くはその必要条件が,合成音声を注意
深く符号化してROMやディスクに記憶させることので
きる音声合成システム(たとえは「Speak & S
pell」(商標)など)の場合の必要条件とはまった
く相違する。すなわち,このような用途においては,巧
妙なアルゴリズムをもった高速コンピュータをハンドツ
ィーキングと組み合わせて用いることにより,符号化音
声の最適化を図って良好な明瞭性を得るとともにビット
条件を緩和することが可能である。しかしながら,これ
ら以外の用途の多くの場合は,音声符号化のステップに
そのような恩恵はない。このことはとくにボイスメール
用のマイクロコンピュータネットワークの場合にもっと
も顕著であるが,ユーザーが自分自身の伝言を残した
り,システム診断用のメッージを生成させたり,あるい
は,プログラム動作中の信号を発生させたりしないよう
な用途の場合にも重要な点である。たとえば,ユーザー
が自分自身のソフトウエア中に合成音声を生成させるこ
とができるようなマイクロコンピュータシステムがあれ
ば,個人ユーザーのみならず音声を専門とする技術者の
いないソフトウエアハウス等にとって甚だ便利であろ
う。
[発明が解決しようとする問題点] 上記のような使用目的の場合とくに問題となるのはエネ
ルギの変化である。すなわち,話者の音声の強さは通常
のセンテンスの屈折に関するダイナミックレンジが広
く,さらに話者が違えば音量レベルも異り,また,同じ
話者の音声レベルでもその時々によって大幅に異なるも
のである。また,話し方の訓練を受けていない話者の音
量はとくに不規則かつ不用意に変化しがちであるが,そ
れを聞く相手はそのような変化を無視するのが普通であ
る。上記のようにダイナミックレンジが広いということ
は,すなわち,使用する音声符号化方式のダイナミック
レンジも広くなければならないということであり,従っ
て,符号化の分解能を適正なものとするためには使用ビ
ツト数を増大させなければならなくなる。
ところが,もしエネルギ正規化方式を利用することがで
きれば(たとえば,あらゆる音声をほぼ一定のエネルギ
レベルに調節する),これらの問題はいちじるしく改善
される。
エネルギ正規化方式を用いた場合には,さらに,入力し
た音声の明瞭度が向上する。すなわち,オーディオアン
プおよびラウドスピーカから得られるダイナミックレン
ジは人間の耳で容易に感知されるダイナミックレンジよ
りもはるかに低く,事実,スピーカーのダイナミックレ
ンジはマイクロホンのそれよりはずっと低いのが普通で
ある。このことは言い換えれば人間によって完全に明瞭
なダイナミックレンジであっても,スピーカを通した場
合には,たとえば符号化や復号化かを完全に行なったと
しても,わかりにくいものとなることがあるということ
に他ならない。
この明瞭性という問題は忠実度がさして高くはないスピ
ーカやオーディオアンプなどの場合にとくに顕著である
が、コンパクト型の低忠実度スピーカはそのコンパクト
かつ堅牢な構造や経済性などの点で最高級の音声分析合
成装置にほとんど必須のものである。
次に考慮しなければならないのは,多くの高級機種では
合成音声を聴く者が音量制御用のつまみを頻繁に回さな
くてもよいようにしなければならないということであ
る。音量制御が可能な機種では各入力合成音声信号に対
してダイナミックレンジをアナログ的に調節することに
より,スピーカの狭いダイナミックレンジによる狭い窓
をシフトさせることができるが,このような技術はボイ
スメールシステムその他多くの用途には好ましくない。
従来はアナログ自動利得調整により生の信号のエネルギ
正規化を行なっているが,自動利得調整はA/Dコンバー
タへの信号入力に歪みを生じさせる原因となる。すなわ
ち,(たとえば)反射係数を用いて音声データの符号化
を行なう場合,アナログ信号に自動利得調整を用いる
と,演算される反射係数にエラーが算出された反射係数
に生ずる。このエラーの性質自体を分析することは難し
いが,エラーはとにかく発生する。さらに,アナログ自
動利得調整のためにはアナログ回路を使用する必要があ
るが,ディジタル装置に特別のアナログ回路を導入する
ことは必ず当該ディジタルシステムのコスト増につなが
る。また,使用する自動利得調整回路の応答速度が早い
と,連続する異音のエネルギレベルが不適当なものとな
りかねない。一例として「six」なる単語の場合,そ
の歯擦音「S」は通常母音「i」よりも低エネルギであ
り,応答時間の早い自動利得調整回路を用いた場合に
は,語頭の「s」が「i」と同等のエネルギレベルに持
ち上げられるという不適切さがあるため,エネルギの正
規化を行なった単語「six」には極端に歯擦感の強い
音が伴う。他方,応答速度の低い自動利得調整回路を用
いたとしても,実質的な問題はなお残り,無声期間中に
ノイズフロアが信号レベルにまで上昇したり,あるいは
無声期間に引き続いて大きな声が発声された場合にその
制限が不十分となったりする問題が生ずる。
[発明の目的] 故に,本発明の目的は,音声信号のエネルギ正規化を行
なうことのできるディジタルシステムを提供することに
ある。
さらに,本発明の目的は,語頭の子音が必要以上に強く
発声されないような音声信号のエネルギ正規化方法を提
供することにある。
本発明の目的は,さらに,話者の発声におけるエネルギ
の変化に対して速やかに応答しうるとともに,その際相
隣る異音の相対的なエネルギレベルが語調により歪みを
生じないようにした音声信号のエネルギ正規化方法を提
供することにある。
エネルギの正規化において問題となるのは,さらに,無
声期間中におけるノイズの存在に起因する問題である。
すなわち,音声信号が現われていない期間中にエネルギ
正規化システムによってノイズフロアが正規のエネルギ
レベルに向って上昇すると,音声の明瞭性が損なわれて
聞く者に不快感を与える場合がある。さらには,無声期
間中ノイズ信号の正規化を行なうなど,帯域の相当部分
が無駄に使用されてしまうということもある。従って,
さらに本発明の目的は,無声期間中に帯域が徒らに使用
されないようにした音声符号化システムを提供すること
にある。
[問題点を解決しようとするための手段] 本発明は,上記のようなエネルギ正規化上の問題を,前
向きのエネルギ正規化方式を用いることによりディジタ
ル的に解決しようとするものである。すなわち,分析合
成システムの分析処理時には適応エネルギ正規化パラメ
ータをフレームからフレームへ送り,音声フレームはこ
れをある程度の長時間,たとえば,1/2秒間バッファに
蓄え,しかる後にその時点におけるエネルギ正規化パラ
メータに応じて正規化を行なう。このように,エネルギ
の正規化は各音声フレーム(それぞれの間隔はたとえば
20ミリ秒である)が,ずっと後からの(たとえば25フレ
ーム後からの)エネルギ正規化値に従って正規化される
という点で「前向き」の正規化方式である。なお,この
エネルギ正規化値は立上りが早く,立下りの遅いピーク
トラッキング値を用いて,フレームが入力され次第,そ
のフレームについて算出する。
さらに,本発明の新規な点は,無声フレームの抑制を行
うことにしたことにある。この無声フレームの抑制は2
種類のエネルギ等高線を付加的に用いることにより実行
する。一方のエネルギ等高線は,立上りが遅くかつ立下
りの早い値としてこれを無声フレーム期間中にのみ更新
し,従って該エネルギ等高線の低エンベローブのトラッ
キングを行なう(この結果,周辺ノイスレベルのトラッ
キングが行なわれる)。他方のエネルギ等高線は立上り
が早くかつ立下りの遅いパラメータとし,これは有声フ
レーム期間中にのみ更新し,従って該エネルギ等高線の
高エンベロープのトラッキングを行なう(その結果,平
均音声レベルのトラッキングが行なわれる)。スレショ
ルド値はこれら2つのパラメータのそれぞれの倍数の最
大値,たとえば5×低エンベロープパラメータの値と高
エンベロープの1/5のうち大きい方の値として算出す
る。スレショルド値以上でかつ有声の第1フレームが検
出されないときは,音声はまだ始まっていないものと判
定する。この場合には,システムはバッファされたフレ
ームの間でバックトラッキングを行なって,スレショル
ド値以上のエネルギをもつ直前のフレームをすべて「音
声」フレームであるとしてシステム内に含める。すなわ
ち,入力したパラメータのフレームが無声フレームであ
ると認められら後は,超スレショルド値のフレームが検
出されるまでは後続のフレームはすべてとりあえず無声
フレームであると判定されることになる。この時点で無
声フレーム抑制システムがはたらいて,少なくとも0.4
秒の間隔までのブロークンストリングのサブスレショル
ドエネルギが検出されるまでは無声フレーム抑制システ
ムにより,この超スレショルドエネルギ有声フレームの
直前のフレームの間でバックトラッキングを行なう。こ
のような0.4秒間隔の無声状態が検出された場合には,
バックトラッキングが停止してその0.4秒の無声フレー
ム後でかつ最初の有声超スレショルドエネルギフレーム
のみが有声フレームとして判定される。
音声の終端では有声フレームがスレショルド値T以下の
エネルギをもっていることが検出された場合に,ウエイ
ティングカウンタが動作を開始する。この場合エネルギ
が再度上記スレショルド値T以上とならずに待ち時間が
一定の上限値(例えば0.4秒)に達したら発生が中断さ
れたものと判定する。以上のようにして,有声が無声か
を判定することにより,無声フレームの符号化にビツト
が無駄に使われることがなく,また上述のように無声フ
レームの存在によってエネルギトラッキングに歪みを生
ずることがなく,さらに文章中の単語と単語との間に長
い無声期間をおきがちな,特に訓練を受けていない話者
からでも,長い発声語を入力することができるという利
点が得られる。
かくして,本発明,ディジタル音声信号の入力すべく接
続され,この音声信号から各フレームのパラメータがエ
ネルギ値を含む複数の音声パラメータのフレームのシー
ケンスを生成するアナライザと,後続のフレームのエネ
ルギ値に対して前記各音声フレームのエネルギ値を正規
化する手段と,前記各音声フレームの正規化エネルギパ
ラメータを含む前記各音声フレームに対する前記パラメ
ータをデータチャンネルに出力する出力手段とからなる
ことを特徴とする音声符号化システムを提供するもので
ある。
さらに,本発明は,ディジタル音声信号を入力すべく接
続され,この音声信号から各フレームのパラメータがエ
ネルギ値を含む複数の音声パラメータのフレームのシー
ケンスを生成するアナライザと,後続のフレームのエネ
ルギ値に対して前記各音声フレームのエネルギ値を正規
化する手段と,前記各音声フレームの正規化エネルギパ
ラメータを含む前記各音声フレームに対する前記パラメ
ータをデータチャンネルに出力する出力手段と,線型予
測符号化パラメータおよび励起パラメータを含む複数の
音声パラメータのフレームのシーケンスを入力する入力
手段と,前記線型予測符号化パラメータに基いて格子フ
ィルタを構成する手段と,前記励起パラメータに基い
て,前記格子フィルタに対する入力としての励起信号を
発生する手段と,前記格子フィルタの出力をエネルギパ
ラメータに基いて変調して音声信号出力とする手段とか
らなることを特徴とするボイスメールシステムを提供す
るものである。
さらに,本発明は,音声信号を分析してこの音声信号か
ら各フレームのパラメータがエネルギ値を含む複数の音
声パラメータのフレームのシーケンスを生成し,後続フ
レームのエネルギ値に対して前記各音声フレームのエネ
ルギ値を正規化し,前記各音声フレームの正規化エネル
ギパラメータを含む前記各音声フレームに対する前記パ
ラメータをデータチャンネル内に符号化することを特徴
とする音声符号化方法を提供するものである。
さらに,本発明は,音声入力信号を入力すべく接続され
この音,声信号から各フレームが複数のパラメータから
なりかつこれらのパラメータがエネルギ値を含む音声パ
ラメータのフレームのシーケンスを生成するアナライザ
と,これら連続するフレームを符号化するためのエンコ
ーダと,前記符号化手段に接続され前記エンコーダが実
際の音声信号と対応しないフレームのシーケンス符号化
を行なわないようにした無声フレーム抑制手段とからな
り,前記無声フレーム抑制手段は前記フレームの各々の
エネルギ値を第一および第二の適応的に更新されたスレ
ショルド値の関数と比較することを含む複数のステップ
を実行することにより,前記各フレームが無声あるいは
有声であると判定するようにし,この場合前記第一のス
レショルド値はこれを前記連続するフレームのエネルギ
値の高エンベロープの倍数と対応させるとともに,前記
第二のスレショルド値はこれを前記連続するフレームの
更新エネルギ値の低エンベロープの倍数と対応させ,さ
らに前記符号化ディジタル値をデータチャンネルに出力
する出力手段を含むことを特徴とする音声符号化システ
ムを提供するものである。
[実施例] 本発明は,新規は音声分析合成装置に関するもので,以
下にその実施例を各種説明するが,何れの場合にもVAX
11/780型のコンピュータをディジタルサウント社製モデ
ル200 A/D,D/Aコンバータと結合することにより,高分
解能,高ビツトレートのディジタル化を行なうことによ
り音声分析合成システムにおける合成処理を行なうよう
にするのが好ましい。この場合,通常のマイクロホンや
ラウンドスピーカ等に適当なアナログ増幅器,たとえ
ば,同じくディジタルサウンド社製モデル240のアナロ
グ増幅器等を用いてこのシステムと協働かせていること
は言うまでもない。
ただし,本発明により新規な技法はとくにマイクロコン
ピュータを主体とするシステムに適用することも可能で
あり,この場合は,上述のようなディジタイザはもとよ
り,VAXによる演算機能も不要である。さらにまた,本
発明装置の実施例の機能を高めるへく,後述するような
内蔵型低性能スピーカおよび付属品としてマイクロホン
を備えたTI社製「プロフェッショナルコンピュータ」
(商標)を用いるのがよい。
本発明装置の一実施例のシステム機構を第5図に示す。
同図において生の音声入力はマイクロホン10に入力され
た後,マイクアンプ12により増幅され,D/Aコンバータ1
4によりディジタイズされる。本発明実施例に用いるD/A
コンバータは高分解能型のもので8KHzのサンプルレー
トで16ビツトの分解能が得られるものである。このよう
な高サンプルレートで入力したデータは,所望のフレー
ムレートで音声パラメータに変換されることとなる。こ
のフレームレートは,本例では,50フレーム/秒とする
が,フレーム周期は10ないし30ミリ秒あるいはそれ以上
としてもよい。
本実施例においては,線型予測コードによる分析法を用
いて音声のコード化を行なうのが,このためには,入力
として一連のサンプル(本例では基本ビツトレートを80
00ビツト/秒とする)を用いて一組の線型予測コード化
パラメータ,たとえば下記のように10種類の反射係数K
1−K10およびピッチ,エネルギ等に関係するパラメー
タを得る。
本発明を実施するに当っては,まず可聴音声をシステム
にとって有意の入力に変換する。これは,たとえば,可
聴音声領域のマイクロホンをマイク用プリアンプおよび
A/Dコンバータに接続すること等によって実行する。本
例では,入力流れを8000回/秒のレートでサンプリング
を行なうことによって16ビツトの精度とし,この入力ビ
ツトの流れを任意に「フレーム」に分割するが,本例に
おいては,これらフレームの各々にはサンプルが160個
含まれているものとする。この場合,フレーム間の間隔
は20ミリ秒となるが,各フレームのLPC(線型予測コ
ード)パラメータは計算上240個(30ミリ秒)以上の範
囲となる。
本発明の一実施例においては,各音声入力フレームにお
ける一連のサンプルを一組の逆フィルタ係数akに変換
する。この逆フィルタ係数はよく知られた係数で,たと
えば「Linear Prediction A Tutoril Review」(マクハ
ウル,IEEE Proceedings,第63巻。561頁,1975年)にそ
の定義がある。この逆フィルタ係数akは,線型予測モ
デルの場合の予測係数となるもので,この予測係数によ
り時系列信号Skが入力ukと,当該時系列における過
去側Sk-nの線型組合せとの和としてモデル化される。
すなわち 各入力フレームには多数のサンプル点が含まれ,どの入
力フレーム内のサンプル点もそれ自体1個の時系列であ
ると考えることができる。本発明の一実施例においては
実際にサンプルフレームに対するフィルタ係数を得るの
に次のような手法を用いる。すなわち,まず時系列自己
相関値Riを次のようにして算出する。
ここに総和は入力フレーム内に含まれる全サンプル領域
にわたってとるものとする。本例では,11個の自己相
関値(R0−R10)を算出する。逆フィルタ係数は反復
法を用いて次のようにして求める。
E0=R(0)……(3) また1≦j≦i−1のとき ai(i)=ki ai(i)=ai(i-1)+ki ai(i-1)……(5) Ei=(1−ki)Ei−1……(6) 上記各式はi=1,2,……P (Pはモデルのシーケンスで,ここではP=10)。かく
て,最後の反復手順によりakの値が求まる。
上記の例は,ダービンの反復法を用いてサンプルフレー
ムについてのak値を求めるものであるが,ルルー・グ
ゲン法を用いてもよい。この場合は,正規化エラーエネ
ルギE(すなわち入力フレームの自己残留エネルギな
ど)を生成させてアルゴリズムの直接的な副産成分とす
る。ルルー・グゲン法のアルゴリズムによればさらに反
射係数ki(偏相関係数ともいう)が生成される。
この反射係数kiはきわめて安定なパラメータで,符号
化エラー(量子化雑音)が少ない。
上記ルルー・グゲン法については,たとえば,「IEEE T
ransactions on Acoustic Speech and Signal Processi
ng」(257頁,1977年6月)にその記載があり,そのア
ルゴリズムは反復法で次のように表わされる。
kh=-e(h)h+1/eo(h)……(7) eo(h+1)=eo(h)(1-k2h)……(8) ei(h+i)=ei(h)+kh-eh(h)+1-i……(9) このようなアルゴリズムにより,フィルタ係数akの代
りに中間インパルス応答見積りekを用いて反射係数k
iを算出することができる。
一方,線型予測符号化モデルは,それ自体周知のもの
で,たとえば「Digital Processing of Speech Signal
s」(ラビナーおよびシェーファー,1978年),「Linea
r Predictive coding of Speech」(アーケルおよびグ
レイ,1976年)その他に記載がある。これについて注意
を要することは,伝達される励起コードはエネルギやピ
ッチのみならず残留信号にかかわる付加的な情報をも含
むということであり,たとえば,ピッチの整数倍で,10
00Hzに略々等しい残留信号の帯域幅を符号化して励起信
号とする。このような方式については,たとえば米国特
許出願第484,720号(1983年4月13日出願)に記載が
ある。ただし,励起情報の符号化は上記方式をいろいろ
に変更して行なってもよい。同様に,LPCパラメータ
もいろいろな方法で符号化することができ,たとえば,
線型予測の係数の等量定式化には各種の方法があること
が知られている。この場合の線型予測係数はLPCフィ
ルタ係数akとして,反射係数Riとして、自己相関関
係Riとして、あるいは,その他間ルルー・グゲン法に
より得られるインパルス応答見積りパラメータE(i)等
のパラメータ群として表わされる。なお,LPCモデル
のシーケンスは必ずしも上述のように10である必要はな
く,8,12,14その他とすることもできることはいうま
でもない。
また,本発明による装置は,必ずしもLPC音声符号化
モデルと組み合わせて用いる必要はまったくない。すな
わち,本発明は音声フレームの各シーケンスのエネルギ
のみを該シーケンスのエネルギおよび発声についてのみ
変更するエネルギ正規化方法を提供するもので,従っ
て,本発明は関数変換技術やホルマントの符号化技術等
を含む各種の音声符号化方式を用いたシステムのエネル
ギ正規化技術に適用しうるものである。
かくて,あるエネルギ値を含むデータベクトルを各々有
する音声フレームのシーケンスに個々の入力サンプルを
変換した後は,本発明は当該データベクトルのエネルギ
値にかかわるものとなる。本例においては符号化された
パラメータは反射係数K1−K10,エネルギおよびピッ
チである。(ピッチに関するパラメータは無声フレーム
の符号化をピッチ=0としているため,発声決定パラメ
ータも含む。) 本発明によるシステムの動作はこの時点でスタートす
る。すなわち,各々がエネルギパラメータおよびモデル
化パラメータを含む符号化フレームのシーケンスを音声
分析セクションの生の出力として生成させる。この段階
ではエネルギパラメータのコード化分解能は,通信ない
し記憶チャンネル40で実際に伝送される符号化情報にお
ける場合よりもはるかに高い。本発明により一連のフレ
ームの正規化を行ない,無声フレームのコード化を抑制
する方法を第1図ないし第4図のエネルギ線図に示す。
ここに示した例は,音声分析セクションに生の出力とし
て受けたフレームの1シーケンス内における一連のフレ
ームiにみられるエネルギ値E(i)の例を示すものであ
る。
次にエネルギ正規化値(ENORM)の適応パラメータENORM
(i)をほぼ第1図に示す方法で生成させる。この場合,
初期パラメータENORM(0)としてはたとえばENORM(0)=10
0とし,引き続く各フレームにつき次のようにして更新
する。
すなわち,E(i)がENORM(i-1)より大であるときはENORM
(i)を α E(i)+(1−α)ENORM(i−1) に等しくなるように定め,それ以上の場合にはENORM(i)
を β E(i)+(1−β)ENORM(i−1) となるように定める。ここに,αは1に近い値で立上り
の速い時定数(好ましくは0.1秒とする)を与え,βは
0に近い値で立下りの遅い時定数(好ましくは4秒程度
とする)を与える定数である。なお,これらαおよびβ
についてはVAX11/780に用いられるソフトウエア中にそ
れぞれα−upおよびα−downとして示している。かく
て,適応パラメータENORMによりエンベロープトラッキ
ング手段が得られ,これによりフレームiのシーケンス
のピークエネルギのトラッキングを行なうことができる
ものである。
このような適応ピークトラッキングパラメータENORM(i)
を用いて各フレームのエネルギの正規化を行なうが,こ
れは直接には行なわない。すなわち,各フレームiはい
ったん前向きに正規化されたエネルギENORM*(i)でこれ
を割ることによってその正規化を行なう。ここに,ENOR
M*(i)は,遅延フレーム数が通常1/2秒(0.1ないし2秒
としてもよく,あるいはこの範囲外としてもよい)と等
価となるように選定したフレーム数をdとしたとき,EN
ORM*(i)がENORM(i+d)と等しくなるように定める。かく
て,各フレームのエネルギE(i)を,正規化エネルギENO
RM*(i)で割ることによりその正規化を行なう。すなわ
ち,E*(i)はE*(i)/ENORM*(i)に等しくなるように設定さ
れる。このためには,遅延量dに相当する音声フレーム
数をバッファして,その際,バッファ中にロードされた
最後のフレームに対するENORMの値から,該バッファ中
の最先のフレーム,すなわち現にそのバッファから取り
出し中のフレームに対するENORM*の値を得る。
このようなエネルギ正規化における遅延を導入すること
により,初期の低エネルギ期間のエネルギをその直後の
高エネルギ期間に対して正規化させて,語頭の子音の相
対エネルギが歪むのを避けることができる。すなわち,
音声の無声フレームは通常,有声フレームよりもエネル
ギ値がはるかに低く,このためたとえばシックス(si
x)という語の最初の異音「s」は母音「i」のエネル
ギレベルに対して正規化される必要があり,もし仮に異
音「S」をそれ自体のエネルギレベルについて正規化す
れば,そのエネルギは不当に高くなって,最初の子音
「s」がきわめてオーバーエンファシスされることにな
る。
また,立下りの時定数(パラメータβに相当する)がき
わめて長いため,単語の終りにおけるエネルギの正規化
が引き続く無声フレームのほぼゼロのエネルギ値により
歪むことはない。(さらに無声フレーム抑制方式を用い
た場合には該フレームの抑制によりENORMが甚だしく立
下るのが防止される。)すなわち,最後の無声子音に対
しては,βに相当する時定数が長いということは,単語
の終りから1/2秒後の無声フレームのエネルギ正規化値E
NORMが,最後の無声子音の直前の有声音韻により支配さ
れるということにほかならない。上記のようにすること
により,最後の無声子音が次の有声フレームに対して正
規化され,そのエネルギが不当に高くなることはない。
上記のような過程を経て,各音声フレームiに対して正
規化エネルギE*(i)が得られるが,本例においてはさら
に無声期間を抑制する手段を講ずる。このためには,第
5図に示すように無声状態の検出を行なうことにより,
特定のフレームが符号化されるのを選択的に防止する。
符号化されたフレームは選択されたモデルにおける残り
の音声パラメータ(本例ではピッチPおよび反射係数k
1−k10)とともに,正規化エネルギE*(i)により符号
化される。
本発明によればさらに,無声状態の検出は2個の包絡パ
ラメータELOWおよびEHIGHをキャリーさせることにより
行なう。これらパラメータは何れもある初期値(たとえ
ば100)から出発して各フレームiのエネルギE(i)およ
び当該フレームの有声あるいは無声状態に応じて更新さ
れる。
該フレームが無声フレームの場合は,小さい方のパラメ
ータELOWのみが次のようにして更新される。
すなわち,E(i)がELOWより大きいときはELOWをΥ・E
(i)+(1-Υ)ELOWに等しくとり,またELOWよりも小さい
かまたは等しいときおはδ・E(i)+(1-δ)ELOWに等しく
とる。ただし,Υは立上りの遅い時定数(通常は1秒)
に,δは立下りの速い時定数(通常は1秒)にそれぞれ
対応する。
かくして,ELOWはE(i)のエネルギ等高線の低エンベロ
ープのトラッキングを行なう。上記Υ,δをここではそ
れぞれALOWUP,ALOWDNと略記するととする。
他方,フレームiが有声フレームの場合にはEHIGHのみ
が次のようにして更新される。
すなわち,E(i)がEHIGHよりも大きいときはそのEHIGH
をεE(i)+(1−ε)EHIGHに等しくとり,小さいかまた
は等しいときはξ・〔E(i)+(1−ξ)〕EHIGHに等しくと
る。ただしεは立上りの速い時定数(通常は0.1秒)
に,ξは立下りの遅い時定数(通常は1秒)にそれぞれ
対応する。
かくて,EHIGHは前記エネルギ等高線の高エンベロープ
のトラッキングを行なう。第3図に上記パラメータELO
W,EHIGHを示す。なお,パラメータEHIGHは初期の一連の
無声フレーム期間中に更新されることはなく,パラメー
タELOWは次の一連の有声フレーム期間中は温存される。
次に上記パラメータELOWおよびEHIGHを用いて2個のス
レショルドパラメータTLOWおよびTHIGHを生成する。こ
れらシュレショルドパラメータTLOW,THIGHは次のよう
に定義される。すなわち TLOW=PL×ELOW THIGH=PH×EHIGH ただしPL,PHはスケーリング因子であり,たとえばPL=
5,PH=0.2とする。スレショルド値TはTLOWおよびTHI
GHの最大値として与えられる。
このようなスレショルド値Tに基いて,あるフレームの
有声,無声を次のようにして判断する。
すなわち,現フレームが無声フレームである場合には,
有声の超スレショルドエネルギ(すなわち有声)エネル
ギが検出されない限り,引き続くフレームがすべて無声
フレームであること,とりあえず仮定する。これらの仮
想無声フレームはその後実際には無声フレームではない
と認定される可能性があるため,いったんバッファ(少
なくとも1秒分のデータを含むものがよい)に格納す
る。しかして,あるフレームのフレームエネルギE(i)
がスレショルド値Tより大きくかつ該フレームが有声フ
レームであると判定された場合に限り,有声フレームを
検出する。すなわち,無声の超スレショルドエネルギフ
レームはそれ自体では音声が開始されたと判定するのに
充分ではないが,いったん有声の高エネルギフレームが
検知されると,バッファ内に先行フレームが再検定され
てT値以上のエネルギをもつ直前の無声フレームがすべ
て有声フレームであると判定される。かくて,ここに例
として用いた「six」なる単語の場合には,子音
「s」の無声超スレショルドエネルギフレームによって
音声信号が開始されたとの判断を促すが,「i」中の有
声超スレショルドエネルギフレームが検出された場合に
は,直前のフレームを再検定してT値以上のエネルギを
もつ「s」の対応フレームをも「音声」フレームである
として呈示する。
他方,現フレームが「音声」フレーム(有声フレーム)
である場合には単語の終り(すなわち符号化を要しない
「無声」フレームの始点)を以下のように検出する。す
なわち,ある有声フレームのエネルギE(i)がT値より
小さいときはウエーティングカウンタをスタートさせ,
エネルギE(i)がT値以上に増大することなく待ち時間
がある上限(たとえば0.4秒)に達した場合には,音声
が終了したと判定してT値以上のエネルギE(i)をもっ
ていた最後のフレームの後のフレームを無声フレームと
考える。従ってこれらフレームの符号化は行なわれな
い。
本発明装置におけるエネルギ正規化および無声フレーム
の抑制はいずれも音声発生決定に依存するもので,この
音声発生決定は,相関距離法を用いてピッチの決定と発
生の決定を同時に行なうダイナミックプログラミング法
により実行するのが好ましい。このようなシステムの例
としては,米国特許出願第484,718号(1983年4月13
日出願)にその記載があるが,このシステムは低エネル
ギフレームを無声フレームに分類する傾向がある点で都
合がよい。
次に,ビツトレートを最小として実際に符号化を行なう
手順について述べる。本実施例においては,5ビットを
用いて各フレームのエネルギを符号化し,3ビツトを計
10個の反射係数の各々にあて,さらに5ビツトをピッチ
にあてる。ただし,このようなビツトレートはデルタ符
号化方式の多数あるバリエーションのひとつを用いてさ
らに圧縮することができる。このデルタ符号化方式は一
連のフレームを通してパラメータ値のシーケンスに生成
多項式を適合させ,ついで,単純な線型デルタ符号化方
式その他を用いて当該多項式の係数のみの符号化を行な
う方式である。
本発明のさらに好ましい実施例においては,上述のよう
な分析システムを音声合成能力と組み合わせることによ
り,ボイスメールステーションすなわち,ユーザー自身
の話声による伝言等を伝えるステーションを実現するこ
とができる。このような組み合せシステムはきわめて僅
かなハードウエアを追加するだけで実現しうるもので,
前述のような分析セクションの符号化出力を適当なデー
タチャンネルに結合する。このデータチャンネルとして
は,たとえば,RS-232 UARTチップを接続したワイヤと
か,モデムによりアクセスする電話線とか,単にメモリ
ボードまたはメモリチップ等に接続したローカルデータ
バスとか,その他どのような形式のデータチャンネルを
用いてもよい。また,このようなデータチャンネルへの
接続は,容易かつ好便にこれを双方向型とすることがで
き,これにより,通信用チャンネルから受け取ったり,
あるいは,メモリから呼び出したりすることができるの
は当然である。このようなチャンネルから受け取ったデ
ータはエネルギ値を含む複数の音声パラメータを包含す
るものである。
LPCモデル化方式を用いた本実施例においては,デー
タチャンネルから入力した符号化データは励起情報のほ
かに各音声フレームに対するLPCフィルタパラメータ
を含んでいる。本例の場合は,各音声フレームのデータ
ベクトルはピッチおよびエネルギの他に10個の反射係数
があり,これらの反射係数により時制順格子フィルタを
構成し,励起パラメータから励起信号を生成してこの格
子フィルタに入力する。たとえば,該励起パラメータが
ピッチとエネルギである場合には,ピッチ期間に等しい
間隔のパルスを有声フレーム期間中(すなわち,ピッチ
の符号化値が非ゼロである期間中)に励起関数として入
力させ,またピッチがゼロに等しく符号化されたとき
(すなわち無声フレーム期間中)には有声フレーム期間
中に疑似ランダムノイズを励起関数として入力させる。
いずれの場合にも,エネルギパラメータを用いて励起関
数における冪を決定することができる。前記格子フィル
タの出力はLPCモデル化合成信号で,この信号は完全
にトランススペアレントではないが,その明瞭度は通常
きわめて良好である。ついで,この出力信号はD/A変換
されてそのアナログ出力がオーディオアンプに入力し,
ラウドスピーカなりヘッドホンなりを駆動することにな
る。
本発明装置のさらに好ましい実施例においては,上述の
ようなボイスメールシステムをマイクロコンピュータを
ベースとするシステムとし構成する。この場合には内蔵
音声ボードつきのTI社製「プロフェッショナルコンピ
ュータ」(商標)をボイスメール用の端末機として使用
するのがよい。この場合のハードウエア構成について
は,テキサス インスツルチメンツ プロフェッショナ
ルコンピュータ(商標)のものを用いてある。なお,こ
の構成は8088機をベースとするシステムにTMS 320数字
プロセッサチップを実装した特別のボードを加えてなる
ものである。このTMS 320により得られる高速倍数は信
号処理機能を行なう上できわめて便利である。また入出
力には8ビツトμ法則コーデック(コーダ/デコーダ)
の場合と同様,音声ボードに一対のオーディオアンプが
設けてある。このように構成した実施例は,コンバータ
について僅かな相異があるほかは,前述したVAXを用い
た実施例と同等の機能をもつものである。前記8ビツト
コーデックは,μ法則の変換を行なうもので,これは非
線型ではあるがすぐれたダイナミックレンジをもつもの
である。コーデックチップからの8ビットμ法則出力
は,ルックアップ表を用いて13ビツトの線型出力に変換
され,同様に音声合成動作においても前記格子フィルタ
のはたらきにより線型出力は同じルックアップ表を用い
て8ビットワードに予備変換され,この8ビットワード
により適宜コーデックのアナログ出力信号を得る。な
お,上記のようにマイクロコンピュータをベースとした
実施例の場合にも,内蔵スピーカやマイクロホン用ジャ
ックを備えるものである。
本発明を実施するにあたっては,さらに,上述のような
マイクロコンピュータをベースとするボイスメールステ
ーションを多数用いることによりマイクロコンピュータ
をベースとするボイスメールシステムを構成することが
できる。このようなシステムにおいては,各マイクロコ
ンピュータを通常のLANプロトコルを用いてローカル
エリアネットワーク中で相互接続したり,あるいはPBX
tilidsを用いて相互接続したりすることができる。この
場合に用いられる複数のマイクロコンピュータに基くボ
イスメールシステムに適用した実施例の特徴は,わずか
に伝送のメカニズムが,ASCIIデータのみならず二値デ
ータをも通過させることができるという点である。上述
のようなボイスメールシステムにおける音声分析合成能
力を有するマイクロコンピュータステーション間におけ
るように,ボイスメールシステムの機能は単にファイル
をまっすぐ前へ伝送するという機能のみであり,復合化
された音声データを表すファイルは,あるステーション
で分析処理により生成されて他のステーションでファイ
ルとして伝送され,ついでこの第二のステーションで合
成処理によりアナログデータに変換される。
[発明の効果] 本発明による音声符号化システムは,上記のように,デ
ィジタル音声信号を入力すべく接続され,この音声信号
から各フレームのパラメータがエネルギ値を含む複数の
音声パラメータのフレームのシーケンスを生成するアナ
ライザと,後続フレームのエネルギ値に対して前記各音
声フレームのエネルギ値を正規化する手段と,前記各音
声フレームの正規化エネルギパラメータを含む前記各音
声フレームに対する前記パラメータをデータチャンネル
に出力する出力手段とからなることを特徴とするもの
で,とくに音声フレームのエネルギを正規化することに
より,本発明には,語頭の子音が必要以上に強く発声さ
れず,また話者の発声におけるエネルギの変化に対して
速やかに応答しうるとともに,その際相隣る異音の相対
的なエネルギレベルが語調により歪みを生じないように
しうるという効果がある。
さらにまた,無声フレームの抑制を行なうことによっ
て,発声エネルギの正規化に起因する問題を効果的に解
決することが可能となる。すなわち,音声信号が現れて
いない期間のフレームを抑制することにより,エネルギ
正規化によってノイズフロアが正規のエネルギレベルに
向かって上昇するのを防止するとともに,無声期間中に
ノイズ信号の正規化が行なわれて帯域の相当部分が無駄
に使用されてしまうことがないという効果がある。
かくて本発明によるシステムの主たる特徴は音声分析合
成システムの分析部の特徴にあるが,これらの特徴は分
析部にとどまらず、システム全体に影響を与えるもの
で,その伝送ビツトあたりの明瞭な音声情報のスループ
ットが向上するとともに,合成部で合成された音声の知
覚特性が改善される等システムレベルでの改良を行なう
ことができる。とくに,マイクロコンピュータネットワ
ークを用いたボイスメールシステムに適用した場合には
チヤンネルの負荷を最小限にとどめることができるとい
う効果がある。
【図面の簡単な説明】
第1図は適応的に正規化したエネルギレベルENORMを一
連の音声フレームの連続するエネルギレベルから取り出
すようにした本発明の特徴のひとつを示す図,第2図は
正規化処理に前向きのエネルギ正規化曲線ENORMを用い
るようにした本発明の他の特徴を示す図,第3図は無声
フレームンの抑制を行なう場合に,一連の入力フレーム
のエネルギ値に対して高エンベロープ曲線および低エン
ベロープ曲線を連続的に保持するようにした本発明のさ
らに他の特徴を示す図,第4図はスレショルド曲線Tを
導くのに第3図のEHIGHおよびELOW曲線を用いるように
した本発明のさらに他の特徴を示す図,第5図は本発明
を実施した場合の構成図である。

Claims (28)

    【特許請求の範囲】
  1. 【請求項1】ディジタル音声信号を入力すべく接続さ
    れ、この音声信号から各フレームのパラメータがエネル
    ギ値を含む複数の音声パラメータのフレームのシーケン
    スを生成するアナライザと、後続フレームのエネルギ値
    に対して前記各音声フレームのエネルギ値を正規化する
    手段と、前記各音声フレームの正規化エネルギパラメー
    タを含む前記各音声フレームに対する前記パラメータを
    データチャンネルに出力する出力手段とからなることを
    特徴とする音声符号化システム。
  2. 【請求項2】前記各音声フレームのエネルギ値を主とし
    て各フレームよりも少なくとも0.1秒遅いフレームのエ
    ネルギ値に対して正規化するようにしてなる特許請求の
    範囲第1項に記載の音声符号化システム。
  3. 【請求項3】前記各音声フレームのエネルギ値を前記後
    続フレームのピークトラッキングパラメータに対して正
    規化し、このピークトラッキングパラメータを前記フレ
    ームのエネルギのシーケンスの高エンベロープとほぼ対
    応させてなる特許請求の範囲第1項に記載の音声符号化
    システム。
  4. 【請求項4】前記各音声フレームの音声パラメータによ
    り前記各フレームの有声または無声状態を示すようにし
    てなる特許請求の範囲第1項に記載の音声符号化システ
    ム。
  5. 【請求項5】ディジタル音声信号を入力すべく接続さ
    れ、この音声信号から各フレームのパラメータがエネル
    ギ値を含む複数の音声パラメータのフレームのシーケン
    スを生成するアナライザと、後続フレームのエネルギ値
    に対して前記各音声フレームのエネルギ値を正規化する
    手段と、前記各音声フレームの正規化エネルギパラメー
    タを含む前記各音声フレームに対する前記パラメータを
    データチャンネルに出力する出力手段と、線形予測符号
    化パラメータおよび励起パラメータを含む複数の音声パ
    ラメータのフレームのシーケンスを入力する入力手段
    と、前記線形予測符号化パラメータに基いて格子フィル
    タを構成する手段と、前記励起パラメータに基いて、前
    記格子フィルタに対する入力としての励起信号を発生す
    る手段と、フィルタの出力をエネルギパラメータに基い
    て変調して音声信号出力とする手段とからなることを特
    徴とするボイスメールシステム。
  6. 【請求項6】前記各音声フレームのエネルギ値を主とし
    て各フレームよりも少なくとも0.1秒遅いフレームのエ
    ネルギ値に対して正規化するようにしてなる特許請求の
    範囲第5項に記載のボイスメールシステム。
  7. 【請求項7】前記各音声フレームのエネルギ値を前記後
    続フレームのピークトラッキングパラメータに対して正
    規化し、このピークトラッキングパラメータを前記フレ
    ームのエネルギ値のシーケンスの高エンベロープとほぼ
    対応させてなる特許請求の範囲第5項または第6項に記
    載のボイスメールシステム。
  8. 【請求項8】前記各音声フレームの音声パラメータより
    前記各フレームの有声または無声状態を示すようにして
    なる特許請求の範囲第5項に記載のボイスメールシステ
    ム。
  9. 【請求項9】前記パラメータはさらに前記各音声フレー
    ムのピッチ情報を含み、前記アナライザにより各フレー
    ムのピッチと発声の両者を判定することにより、ピッチ
    と発声の判定が相隣るフレーム間で可能な限り円滑に変
    化するようにしてなる特許請求の範囲第8項に記載のボ
    イスメールシステム。
  10. 【請求項10】音声信号を分析してこの音声信号から各
    フレームのパラメータがエネルギ値を含む複数の音声パ
    ラメータのフレームのシーケンスを生成し、後続フレー
    ムのエネルギ値に対して前記各音声フレームのエネルギ
    値を正規化し、前記各音声フレームの正規化エネルギパ
    ラメータを含む前記各音声フレームに対する前記パラメ
    ータをデータチャンネル内に符号化することを特徴とす
    る音声符号化方法。
  11. 【請求項11】前記各音声フレームのエネルギ値を各フ
    レームよりも少なくとも0.1秒遅いフレームのエネルギ
    値のみに対して正規化するようにしてなる特許請求の範
    囲第10項に記載の音声符号化方法。
  12. 【請求項12】前記各音声フレームのエネルギ値を前記
    後続フレームのピークトラッキングパラメータに対して
    正規化し、このピークトラッキングパラメータを前記フ
    レームのエネルギ値のシーケンスの高エンベロープとほ
    ぼ対応させてなる特許請求の範囲第10項または第11
    項に記載の音声符号化方法。
  13. 【請求項13】音声入力信号を入力すべく接続され、こ
    の音声信号から各フレームが複数のパラメータからな
    り、かつ、これらのパラメータがエネルギ値を含む音声
    パラメータのフレームのシーケンスを生成するアナライ
    ザと、これら連続するフレームを符号化するためのエン
    コーダと、前記符号化手段に接続され前記エンコーダが
    実際の音声信号と対応しないフレームのシーケンスの符
    号化を行なわないようにした無声フレーム抑制手段とか
    らなり、前記無声フレーム抑制手段は前記フレームの各
    々のエネルギ値を第一および第二の適応的に更新された
    スレショルド値の関数と比較することを含む複数のステ
    ップを実行することにより、前記各フレームが無声ある
    いは音声であると判定するようにし、この場合前記第一
    のスレショルド値はこれを前記連続するフレームのエネ
    ルギ値の高エンベロープの倍数と対応させるとともに、
    前記第二のスレショルド値はこれを前記連続するフレー
    ムの更新エネルギ値の低エンベロープの倍数と対応さ
    せ、さらに前記符号化ディジタル値をデータチャンネル
    に出力する出力手段を含むことを特徴とする音声符号化
    システム。
  14. 【請求項14】前記アナライザにより前記各音声につい
    ての発声の決定を行ない、また前記無声フレーム抑制手
    段により前記第一のスレショルド値を前記フレームのう
    ち発声されたフレームの期間中のみこれを更新し、さら
    にまた前記第二のスレショルド値を前記フレームのうち
    発声されないフレームの期間中のみこれを更新するよう
    にしてなる特許請求の範囲第13項に記載の音声符号化
    システム。
  15. 【請求項15】前記無声フレーム抑制手段がいったん無
    声フレームを判定したときは有声超スレショルド値が検
    出されるまではその後有声フレームの判定を行なわず、
    この場合、前記有声超スレショルドエネルギフレームお
    よびこれに先行し、かつ少なくともそれぞれが前記スレ
    ショルドレベル以下のエネルギをもつフレームの所定の
    フレーム数だけ前記有声超スレショルドエネルギフレー
    ムから分離されていないすべての無声超スレショルドエ
    ネルギ音声フレームを有声フレームであると判定するよ
    うにしてなる特許請求の範囲第13項に記載の音声符号
    化システム。
  16. 【請求項16】前記無声フレーム抑制手段がいったん有
    声フレームを判定したときは、一連のサブスレショルド
    エネルギフレームが所定の時間間隔にわたって判定され
    たときにのみ、有声フレームの判定を行なうようにして
    なる特許請求の範囲第13項に記載の音声符号化システ
    ム。
  17. 【請求項17】前記無声フレーム抑制手段がいったん有
    声フレームを判定したときは、前記一連のサブスレショ
    ルドエネルギフレームが有声スレショルドエネルギフレ
    ームの後、前記所定の時間間隔にわたって検出されたと
    きにのみ、有声フレームの判定を行なうようにしてなる
    特許請求の範囲第13項に記載の音声符号化システム。
  18. 【請求項18】ディジタル音声信号を入力すべく接続さ
    れ、この音声信号から各フレームのパラメータがエネル
    ギ値を含む音声パラメータのフレームのシーケンスを生
    成するアナライザと、後続フレームのエネルギ値に対し
    て前記各音声フレームのエネルギ値を正規化する手段
    と、前記符号化手段に接続され前記エンコーダが実際の
    音声信号と対応しないフレームのシーケンスの符号化を
    行なわないようにした無声フレーム抑制手段とからな
    り、前記無声フレーム抑制手段は前記フレームの各々の
    エネルギ値を第一および第二の適応的に更新されたスレ
    ショルド値の関数と比較することを含む複数のステップ
    を実行することにより、前記各フレームが無声あるいは
    有声であると判定するようにし、この場合前記第一のス
    レショルド値はこれを前記連続するフレームのエネルギ
    値の高エンベロープの倍数と対応させるとともに、前記
    第二のスレショルド値はこれを前記連続するフレームの
    更新エネルギ値の低エンベロープの倍数と対応させ、さ
    らに前記符号化ディジタル値をデータチャンネルに出力
    する出力手段を含むことを特徴とする音声符号化システ
    ム。
  19. 【請求項19】前記無声フレーム抑制手段がいったん有
    声フレームを判定したときは、前記一連のサブスレショ
    ルドエネルギフレームが有声スレショルドエネルギフレ
    ームの後、前記所定の時間間隔にわたって検出されたと
    きにのみ、有声フレームの判定を行なうようにしてなる
    特許請求の範囲第18項に記載の音声符号化システム。
  20. 【請求項20】前記アナライザにより前記各音声につい
    ての発声の決定を行ない、また前記無声フレーム抑制手
    段により前記第一のスレショルド値を前記フレームのう
    ち発声されたフレームの期間中のみこれを更新し、さら
    にまた前記第二のスレショルド値を前記フレームのうち
    発声されないフレームの期間中のみこれを更新するよう
    にしてなる特許請求の範囲第18項に記載の音声符号化
    システム。
  21. 【請求項21】前記無声フレーム抑制手段がいったん無
    声フレームを判定したときは有声超スレショルド値が検
    出させるまではその後有声フレームの判定を行なわず、
    この場合、前記有声超スレショルドエネルギフレームお
    よびこれに先行し、かつ少なくともそれぞれが前記スレ
    ショルドレベル以下のエネルギをもつフレームの所定の
    フレーム数だけ前記有声超スレショルドエネルギフレー
    ムから分離されていないすべての無声超スレショルドエ
    ネルギ音声フレームを有声フレームであると判定するよ
    うにしてなる特許請求の範囲第18項に記載の音声符号
    化システム。
  22. 【請求項22】前記無声フレーム抑制手段がいったん有
    声フレームを判定したときは、一連のサブスレショルド
    エネルギフレームが所定の時間間隔にわたって判定され
    たときのみ、有声フレームの判定を行なうようにしてな
    る特許請求の範囲第17項に記載の音声符号化システ
    ム。
  23. 【請求項23】前記所定の時間間隔を0.2秒ないし0.8秒
    としてなる特許請求の範囲第21項または第22項に記
    載の音声符号化システム。
  24. 【請求項24】前記各音声フレームのエネルギ値を主と
    して各フレームよりも少なくとも0.1秒遅いフレームの
    エネルギ値に対して正規化するようにしてなる特許請求
    の範囲第18項に記載の音声符号化システム。
  25. 【請求項25】前記各音声フレームのエネルギ値を前記
    後続フレームのピークトラッキングパラメータに対して
    正規化し、このピークトラッキングパラメータを前記フ
    レームのエネルギ値のシーケンスの高エンベロープとほ
    ぼ対応させてなる特許請求の範囲第18項に記載の音声
    符号化システム。
  26. 【請求項26】ディジタル音声信号を入力すべく接続さ
    れ、この音声信号から各フレームのパラメータがエネル
    ギ値を含む音声パラメータのフレームのシーケンスを生
    成するアナライザと、後続フレームのエネルギ値に対し
    て前記各音声フレームのエネルギ値を正規化する手段
    と、前記符号化手段に接続され前記エンコーダが実際の
    音声信号と対応しないフレームのシーケンスの符号化を
    行なわないようにした無声フレーム抑制手段とからな
    り、前記無声フレーム抑制手段は前記フレームの各々の
    エネルギ値を第一および第二の適応的に更新されたスレ
    ショルド値の関数と比較することを含む複数のステップ
    を実行することにより前記各フレームが無声あるいは有
    声であると判定するようにし、この場合前記第一のスレ
    ショルド値はこれを前記連続するフレームのエネルギ値
    の高エンベロープの倍数と対応させるとともに、前記第
    二のスレショルド値はこれを前記引き続くフレームの更
    新エネルギ値の低エンベロープの倍数と対応させ、さら
    に前記符号化ディジタル値をデータチャンネルに出力す
    る出力手段と、線形予測符号化パラメータおよび励起パ
    ラメータを含む複数の音声パラメータのフレームのシー
    ケンスを入力する入力手段と、前記線形予測符号化パラ
    メータに基いて格子フィルタを構成する手段と、前記励
    起パラメータの基いて、前記格子フィルタに対する入力
    としての励起信号を発生する手段と、前記格子フィルタ
    の出力をエネルギパラメータに基いて変調して音声信号
    出力とする手段とを含むことを特徴とするボイスメール
    システム。
  27. 【請求項27】前記各音声フレームのエネルギ値を主と
    して各フレームよりも少なくとも0.1秒遅いフレームの
    エネルギ値に対して正規化するようにしてなる特許請求
    の範囲第26項に記載のボイスメールシステム。
  28. 【請求項28】前記各音声フレームのエネルギ値を前記
    後続フレームのピークトラッキングパラメータに対して
    正規化し、このピークトラッキングパラメータを前記フ
    レームのエネルギ値のシーケンスの高エンベロープとほ
    ぼ対応させてなる特許請求の範囲第26項、または第2
    7項に記載のボイスメールシステム。
JP59215061A 1983-10-13 1984-10-13 エネルギ正規化および無声フレーム抑制機能を有する音声分析合成システムおよびその方法 Expired - Lifetime JPH0644195B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US06/541,497 US4696039A (en) 1983-10-13 1983-10-13 Speech analysis/synthesis system with silence suppression
US06/541,410 US4696040A (en) 1983-10-13 1983-10-13 Speech analysis/synthesis system with energy normalization and silence suppression
US541410 1983-10-13
US541497 1983-10-13

Publications (2)

Publication Number Publication Date
JPS60107700A JPS60107700A (ja) 1985-06-13
JPH0644195B2 true JPH0644195B2 (ja) 1994-06-08

Family

ID=27066699

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59215061A Expired - Lifetime JPH0644195B2 (ja) 1983-10-13 1984-10-13 エネルギ正規化および無声フレーム抑制機能を有する音声分析合成システムおよびその方法

Country Status (3)

Country Link
EP (1) EP0140249B1 (ja)
JP (1) JPH0644195B2 (ja)
DE (1) DE3473373D1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2631147B1 (fr) * 1988-05-04 1991-02-08 Thomson Csf Procede et dispositif de detection de signaux vocaux
EP0747879B1 (en) * 1990-05-28 2002-08-07 Matsushita Electric Industrial Co., Ltd. Voice signal coding system
FR2686183A1 (fr) * 1992-01-15 1993-07-16 Idms Sa Systeme de numerisation d'un signal audio, procede et dispositif de mise en óoeuvre pour constituer une base de donnees numeriques.
JP3484757B2 (ja) * 1994-05-13 2004-01-06 ソニー株式会社 音声信号の雑音低減方法及び雑音区間検出方法
US5991718A (en) * 1998-02-27 1999-11-23 At&T Corp. System and method for noise threshold adaptation for voice activity detection in nonstationary noise environments
US6314396B1 (en) * 1998-11-06 2001-11-06 International Business Machines Corporation Automatic gain control in a speech recognition system
US6889186B1 (en) * 2000-06-01 2005-05-03 Avaya Technology Corp. Method and apparatus for improving the intelligibility of digitally compressed speech
GB2367467B (en) * 2000-09-30 2004-12-15 Mitel Corp Noise level calculator for echo canceller
US7535859B2 (en) * 2003-10-16 2009-05-19 Nxp B.V. Voice activity detection with adaptive noise floor tracking
US7660715B1 (en) 2004-01-12 2010-02-09 Avaya Inc. Transparent monitoring and intervention to improve automatic adaptation of speech models
US7529670B1 (en) 2005-05-16 2009-05-05 Avaya Inc. Automatic speech recognition system for people with speech-affecting disabilities
US7653543B1 (en) 2006-03-24 2010-01-26 Avaya Inc. Automatic signal adjustment based on intelligibility
US7962342B1 (en) 2006-08-22 2011-06-14 Avaya Inc. Dynamic user interface for the temporarily impaired based on automatic analysis for speech patterns
US7925508B1 (en) 2006-08-22 2011-04-12 Avaya Inc. Detection of extreme hypoglycemia or hyperglycemia based on automatic analysis of speech patterns
US7675411B1 (en) 2007-02-20 2010-03-09 Avaya Inc. Enhancing presence information through the addition of one or more of biotelemetry data and environmental data
US8041344B1 (en) 2007-06-26 2011-10-18 Avaya Inc. Cooling off period prior to sending dependent on user's state
US10049685B2 (en) 2013-03-12 2018-08-14 Aaware, Inc. Integrated sensor-array processor
WO2014165032A1 (en) 2013-03-12 2014-10-09 Aawtend, Inc. Integrated sensor-array processor
US10204638B2 (en) 2013-03-12 2019-02-12 Aaware, Inc. Integrated sensor-array processor

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58171099A (ja) * 1982-03-31 1983-10-07 富士通株式会社 音声パラメ−タ修正方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AT347504B (de) * 1975-04-18 1978-12-27 Siemens Ag Oesterreich Einrichtung zur automatischen lautstaerke- regelung
US4071695A (en) * 1976-08-12 1978-01-31 Bell Telephone Laboratories, Incorporated Speech signal amplitude equalizer
US4280192A (en) * 1977-01-07 1981-07-21 Moll Edward W Minimum space digital storage of analog information
FR2380612A1 (fr) * 1977-02-09 1978-09-08 Thomson Csf Dispositif de discrimination des signaux de parole et systeme d'alternat comportant un tel dispositif
US4351983A (en) * 1979-03-05 1982-09-28 International Business Machines Corp. Speech detector with variable threshold
FR2451680A1 (fr) * 1979-03-12 1980-10-10 Soumagne Joel Discriminateur parole/silence pour interpolation de la parole
FR2466825A1 (fr) * 1979-09-28 1981-04-10 Thomson Csf Dispositif de detection de signaux vocaux et systeme d'alternat comportant un tel dispositif
CA1147071A (en) * 1980-09-09 1983-05-24 Northern Telecom Limited Method of and apparatus for detecting speech in a voice channel signal

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58171099A (ja) * 1982-03-31 1983-10-07 富士通株式会社 音声パラメ−タ修正方法

Also Published As

Publication number Publication date
JPS60107700A (ja) 1985-06-13
DE3473373D1 (en) 1988-09-15
EP0140249B1 (en) 1988-08-10
EP0140249A1 (en) 1985-05-08

Similar Documents

Publication Publication Date Title
US4696039A (en) Speech analysis/synthesis system with silence suppression
US4696040A (en) Speech analysis/synthesis system with energy normalization and silence suppression
JPH0644195B2 (ja) エネルギ正規化および無声フレーム抑制機能を有する音声分析合成システムおよびその方法
EP0993670B1 (en) Method and apparatus for speech enhancement in a speech communication system
US6092039A (en) Symbiotic automatic speech recognition and vocoder
US5915235A (en) Adaptive equalizer preprocessor for mobile telephone speech coder to modify nonideal frequency response of acoustic transducer
EP0814458A2 (en) Improvements in or relating to speech coding
JPH09204199A (ja) 非活性音声の効率的符号化のための方法および装置
JP2002237785A (ja) 人間の聴覚補償によりsidフレームを検出する方法
KR100841096B1 (ko) 음성 코덱에 대한 디지털 오디오 신호의 전처리 방법
WO1998049673A1 (fr) Procede et dispositif destines a detecter des parties vocales, procede de conversion du debit de parole et dispositif utilisant ce procede et ce dispositif
US6424942B1 (en) Methods and arrangements in a telecommunications system
EP0779732A2 (en) Multi-point voice conferencing system over a wide area network
KR100216018B1 (ko) 배경음을 엔코딩 및 디코딩하는 방법 및 장치
JPH07129195A (ja) 音声復号化装置
KR100498177B1 (ko) 신호양자화기
JP3270922B2 (ja) 符号化,復号化方法及び符号化,復号化装置
JP3490324B2 (ja) 音響信号符号化装置、復号化装置、これらの方法、及びプログラム記録媒体
GB2336978A (en) Improving speech intelligibility in presence of noise
JP2905112B2 (ja) 環境音分析装置
JP3496618B2 (ja) 複数レートで動作する無音声符号化を含む音声符号化・復号装置及び方法
EP1944761A1 (en) Disturbance reduction in digital signal processing
JP2003323200A (ja) 音声符号化のための線形予測係数の勾配降下最適化
JPH0786952A (ja) 音声の予測符号化方法
Togawa et al. Development of speech technologies to support hearing through mobile terminal users