JP2738533B2 - マルチレベル・フィルタ励起を用いる音声合成 - Google Patents

マルチレベル・フィルタ励起を用いる音声合成

Info

Publication number
JP2738533B2
JP2738533B2 JP61504055A JP50405586A JP2738533B2 JP 2738533 B2 JP2738533 B2 JP 2738533B2 JP 61504055 A JP61504055 A JP 61504055A JP 50405586 A JP50405586 A JP 50405586A JP 2738533 B2 JP2738533 B2 JP 2738533B2
Authority
JP
Japan
Prior art keywords
frames
pitch
speech
excitation information
pulse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP61504055A
Other languages
English (en)
Other versions
JPS63500681A (ja
Inventor
パノス プレザス,デミトリオス
リン トムソン,ディヴィッド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Publication of JPS63500681A publication Critical patent/JPS63500681A/ja
Application granted granted Critical
Publication of JP2738533B2 publication Critical patent/JP2738533B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【発明の詳細な説明】 技術分野 本発明は圧縮して記憶または伝送し、その後に合成す
るための人間の音声信号のディジタル符号化に係り、特
に人間の音声の再生物を発生するべく合成フィルタを励
起する合成器中で使用される信号の型の関する。 発明の背景 音声を低ビット速度で記憶しまたは伝送するために音
声を表わすのに要求される1秒当りのビット数を最小化
するように人間の音声をディジタル化し、次いで符号化
する方法が知られている。アナログ音声サンプルは通常
幅が20ミリ秒のオーダの離散的な時間長を有するセグメ
ント即ちフレームに分割される。サンプリングは典型例
では8kHzの速度で実行され、各サンプルはマルチビット
のディジタル数値に符号化される。相続く符号化された
サンプルは更に人間の声道をモデル化する適当なフィル
タの係数/パラメータを決定する線形予測符号器(LP
C)で処理される。フィルタのパラメータは予め定めら
れた数の以前のサンプル値の重み付けられた和に基づい
て各信号サンプルの現在の値を推定するのに使用するこ
とが出来る。フィルタのパラメータは声道の伝達関数の
フォルマント構造をモデル化する。音声信号は解析的に
は励起信号とフォルマント伝達関数より成るものと見做
される。励起成分は喉頭より生じ、フォルマント成分は
声道の残りの部分に対し励起成分を作用させることによ
り生じる。励起成分は更に声帯により空気流に分与され
た基本周波数が存在するか否かに依存して有声または無
声に分類される。声帯により空気流に分与された基本周
波数が存在する場合には、励起成分は有声と分類され
る。励起が無声であると、励起成分は従来技術にあって
は単に白色雑音と分類される。音声を低ビット速度で伝
送するべく符号化するためには、音声のセグメントに対
するLPC係数を決定し、音声を再生する復号回路にこれ
らの係数を転送する必要がある。更に、励起成分を決定
し、この成分を復号回路、即ち合成器に転送する必要が
ある。 合成器で使用される励起を決定する1つの方法として
米国特許第4,472,832号中で述べられているマルチパル
ス励起モデルがある。この方法では各フレームに対して
パルスの数を決定し、該パルスはフォルマント・フィル
タを励起するべく合成器によって使用される。これらパ
ルスは前出の特許で述べられている合成による分析法に
よって決定される。このマルチ・パルス励起モデルは9.
6kbsのビット速度では良好に動作するがより低いビット
速度では音声合成の品質は劣化し始める。更に、音声の
有声領域期間中、合成された音声は多少粗くなり、元の
音声と異って来る。マルチ・パルス励起モデルの他の問
題点はパルスの計算は多数の複雑な数学的操作を必要と
するため各フレームに対しパルスを決定するのに多大の
計算を必要とすることである。 LPC合成音声に対する励起を決定するのに使用される
他の方法は音声領域期間中に喉頭によって発生されるピ
ッチ、即ち基本周波数を決定することである。合成器は
ピッチを受信すると相応する周波数を発生してフォルマ
ント・フィルタを励起する。音声が無声であると考えら
れる期間中、その事実が合成器に伝送され、合成器は白
色雑音を使用してフォルマント・フィルタを励起する。
この方法の問題点は白色雑音励起は破裂性子音、有声と
無声の音声フレーム系列の変位点および無声であると誤
って判定された有声フレームに対しては不十分な励起で
あることである。この問題点の結果、合成された音声は
元の音声と同じ音には聞えないことになる。 前述のことより、音声の有声および無声領域の両方を
正確にモデル化出来、無声および有声フレーム系列の間
の転移領域を適正に取扱い、かつ破裂性子音も再生する
ような励起モデルの必要性が存在する。 発明の概要 前述の問題点は本発明に従い図示の実施例により解決
された。この実施例では声道をモデル化するフィルタを
励起するのに使用する励起として音声の有声セグメント
期間中は基本周波数を使用し、音声の雑音セグメント期
間中は白色雑音励起を使用し、有声でも無声でもないセ
グメント期間中は経済的に効率的な方法で計算されたパ
ルスを使用している。励起モデルは整流された残差信号
の平均振幅に関する音声サンプルの残差信号の分散と関
連した閾値に基づいていつ雑音またはパルス励起を使用
するかを決定する。 図示の実施例は人間の音声に応動して音声をディジタ
ル化および量子化して複数個の音声フレームにするサン
プルおよび量子化回路を含んでいる。パラメータ・ユニ
ットは各々の音声フレームに対する声道を定義する音声
パラメータの組を計算するのに使用され、他のユニット
はフレームの内どれが有声であり、どれが無声であるか
を指示するのに使用される。各フレームに対し、ピッチ
検出ユニットはフレームの各々に対するピッチを決定
し、他の励起ユニットは複数個の他の型の励起情報を発
生する。チャネル符号器/組合せユニットは有声と指示
されたフレームに応動してピッチ情報を音声パラメータ
の組と組合わせて伝送し、無声と指示されたフレームに
応動して他の型の励起情報の1つを音声パラメータの組
と組合わせて伝送する。 他の励起ユニットはパルス型励起を発生するかあるい
は雑音型励起を合成器で使用すべきことを指示する。パ
ルス型励起は各フレームに対する音声サンプルから残差
サンプルを計算し、これら残差サンプルから最大パルス
の部分集合を決定することにより発生される。このパル
スの部分集合は励起の1つの型としてチャネル符号器に
より伝送されるパルス型励起を表わす。 本システムは各フレームに対し残差サンプルの分散お
よび整流された残差サンプルの平均振幅を計算すること
により雑音型励起を使用するのか、あるいはパルス型励
起を使用するのかを選択する。次に残差の分散と整流さ
れた残差の平均振幅の二乗の比較が行なわれる。分散と
平均振幅の二乗の比較の結果、予め定められた閾値より
大である場合にはパルス型励起情報を選択すべきことが
指示される。 また、音声パラメータの組はフレームの各々に対し線
形予測符号化パラメータの組を計算することにより得ら
れる。更に、各フレームに対するピッチは複数個の同一
のピッチ検出器により発生される。この場合各々のピッ
チ検出器は各フレームに対する音声サンプルの個々の予
め定められた部分に応動して個々のピッチ値を推定す
る。選定ユニットは各々のピッチ検出器からの個々の推
定されたピッチ値に応動して各々のフレームに対する最
終のピッチ値を決定する。 図示の実施例は各フレームに対する伝送された励起情
報および音声パラメータを受信するユニットを有する合
成器サブシステムを含んでいる。合成器サブシステムは
ピッチ情報を含んでいる各フレームに応動してピッチ情
報を使用して該フレームに対する音声パラメータに基づ
いて合成フィルタを励起する。励起情報がパルス型励起
であると、音声パラメータと共に伝送されたパルスは合
成フィルタを励起するのに使用される。雑音型励起が指
示されると、雑音発生器は雑音型励起を発生して合成フ
ィルタを駆動する合成サブシステム内において使用され
る。 先に詳述した機能はプログラム・インストラクション
の組を実行するディジタル信号プロセッサによって実行
され得る。この場合プログラム・インストラクションの
組は更にディジタル信号プロセッサの実行を制御するイ
ンストラクションの部分集合およびグループに細分割さ
れている。 図示の方法はアナログ音声をディジタル・サンプルの
フレームに変換する量子化装置およびディジタイザを有
するシステム中で機能し、該方法は各々が予め定められ
た数のディジタル・サンプルを有する複数個の音声フレ
ームを記憶し、各フレームに対する声道を定義する音声
パラメータの組を計算し、各フレームを有声または無声
と指示し、各フレームに対しピッチ型励起情報を発生
し、各フレームに対し複数個の他の型の励起情報を発生
し、フレームが有声と指示されたときはピッチ励起情報
を音声パラメータと組合せ、フレームが無声であると指
示されたときは音声パラメータを他の励起の型の1つと
組合わせるステップを実行する。 また、他の型の励起情報を発生するステップは、ディ
ジタル音声サンプルから各フレームに対する残差サンプ
ルを計算し、残差サンプルからパルス型励起情報である
パルスを決定するステップを実行することによりパルス
型励起情報を発生することを含んでいる。更に、パルス
は、残差サンプルから最大振幅を有する各フレームに対
する残差サンプル内のパルスの部分集合の位置を定める
ことにより決定される。 組合わせを行うステップは各フレームに対する残差サ
ンプルの分散および整流された残差サンプルの平均振幅
を計算し、計算された分散と計算された平均振幅の二乗
を比較し、比較の結果、予め定められた閾値より大であ
るとパルス型励起を選択することにより他の型の励起の
1つを選択することを含んでいる。 図面の簡単な説明 第1図は本発明に従う音声分析器のブロック図; 第2図は本発明に従う音声合成器のブロック図; 第3図は有声音声を模写する情報を含むパケットを示
す図; 第4図は雑音励起を使用する無声音声を模写する情報
を含むパケットを示す図; 第5図はパルス励起を使用する無声音声を模写する情
報を含むパケットを示す図; 第6図は第1図のピッチ検出器109のブロック図; 第7図は音声フレームの候補サンプルの図式表現図; 第8図は第1図のピッチ選出器111のブロック図; 第9図は第1および2図のディジタル信号プロセッサ
の使用法を示す図; 第10〜14図は第1図の分析回路を実現する第9図のデ
ィジタル信号プロセッサの実行を制御するプログラムの
フローチャート; 第15〜17図は第2図の合成器を実現する第9図のディ
ジタル信号プロセッサの実行を制御するプログラムのフ
ローチャートである。 詳細な説明 第1および2図は本発明の焦点である音声分析器およ
び音声合成器を夫々示す図である。第1図の音声分析器
は導線113を介して受信されたアナログ音声信号に応動
してこれらの信号を低ビット速度で符号化してチャネル
140を介して第2図の合成器200に伝送する。チャネル14
0は通信伝送路であっても良いし、後の時点において合
成された音声を要求する種々の応用用途に対して音声合
成を提供し得るような記憶装置であってもよい。そのよ
うな応用用途の1例としてディジタル計算機からの音声
出力がある。第1図に示す分析器はブロック100、112お
よび101を使用してアナログ音声情報をディジタル化
し、量子化する。ブロック102は量子化され、ディジタ
ル化されたサンプルに応動して、人間の声道をモデル化
する線形予測符号化(LPC)係数を発生する。これらの
係数の形成は米国特許第3,740,476号中で述べられてい
る装置または当業者にあって周知の任意の他の装置に従
って実行される。チャネル符号器129を除く第1図の残
りの素子はLPCフィルタ係数によって定義されたモデル
を励起する第2図の合成器200で使用される励起信号を
決定するのに使用される。チャネル符号器129はLPC係数
および励起を規定する情報に応動してこの情報を第3〜
5図に示すようにパケットの形態で合成器200に伝送す
る。第3〜5図はパケットの形態で伝送される情報を示
しているが、当業者にあってはこの情報をメモリ中に記
憶して合成器が後で使用出来るようにすること、あるい
はこの情報を合成器に並列に伝送し得ることは明らかで
ある。LPC係数および励起成分の伝送はフレーム毎に実
行される。ここで1フレームは160サンプルより成る。
励起成分は喉頭により音声に付与された基本周波数を規
定するピッチ、合成器が白色雑音発生器を使用するとい
う指示、あるいはピッチ検出器109および/または110に
よって決定された残差サンプルの組であって良い。 どの型の励起を伝送するかの決定は以下に示すような
仕方でブロック111、125および126によって実行され
る。ピッチ検出器109および110はブロック102からの残
差信号e(n)に応動してピッチ選出器111に対し信号
が有声であるか無声であるかを指示し;ブロック107お
よび108はディジタル化された音声サンプルx(n)に
応動して、これら信号が有声であるか無声であるかを決
定する。ピッチ選出器111はフレームが有声であるか無
声であるかの最終決定を行う。ピッチ選出器111がフレ
ームは有声であると決定すると、この事実を指示する信
号が信号路131を介してチャネル符号器129に伝送され
る。チャネル符号器129はこの指示に応動して第3図に
示すパケットを形成する。このパケットはLPC係数、フ
レームは有声であるとの指示、ピッチ選出器111からの
ピッチ情報、利得計算器136からの利得情報、および有
声系列の最初のフレームがピッチ選出器111から信号路1
32を介して処理されている場合には第1のパルスの位置
を含んでいる。 ピッチ選出器111がフレームは無声であると決定する
と、該ピッチ選出器111はこのことを知らせるために信
号路131を介して素子126およびチャネル符号器129に信
号を伝送する。第1図の分析器は合成器が白色雑音を使
用するという指示を送信すべきか否か、あるいはピッチ
検出器109または110によって決定されたパルスを合成器
に送信すべきか否かを決定しなければならない。後者の
決定は次のようにして実行される。即ち および とするとき なる条件が満されると、合成器における励起は白色雑音
となる。上記の条件が満されない場合には、パルス励起
が合成器200に伝送される。式(1)は次のように書き
直される: この式において、Nはフレーム当りのサンプル数である
160であり、Tは約1.8なる値を有している。式(2)の
右辺は第1図のブロック120〜122によって計算され、左
辺はブロック123および124によって計算される。比較器
125は乗算器122および124の出力に応動して式(2)を
評価する。比較器125からのこの評価値は信号路133を介
してチャネル符号器129および判定回路126に送信され
る。比較器125が乗算器124の出力は乗算器122の出力よ
り小さいか等しいことを指示すると比較器125は合成器
において白色雑音励起が使用されるべきことを指示する
信号を信号路133を介して送信する。チャネル符号器129
はこの信号に応動して第4図に示すパケットを形成す
る。このパケットは無声フレームを指示する“0"にセッ
トされたV/vビットと、白色雑音励起を使用すべきこと
を指示する“0"にセットされたパルス状ビットと、利得
ブロック136からの利得と、ブロック102からのLPC係数
とを有している。 比較器125は乗算器124の出力が乗算器122の出力より
大であると決定すると、比較器125は励起にパルスを使
用すべきことを指示する信号を信号路133を介して送信
する。現在のフレームに対し、この信号に応動して判定
回路126はピッチ検出器109および110からすべての候補
パルスを送信すべきなのか、またはこれらパルスの1つ
の組のみを送信すべきなのかを決定する。両方のピッチ
検出器からの候補パルスの総数が7以下であると、判定
回路126は信号路138を介してチャネル符号器129に“1"
を送信する。チャネル符号器129は比較器125からの信号
および判定回路126からの“1"に応動して信号路134およ
び135を介して伝送されるすべての候補パルスをすべて
使用して第5図に示すパケットを形成する。ピッチ検出
器109および110からの最大パルスの総数が7より大であ
ると、判定回路126は信号路138を介してチャネル符号器
129に“0"を送信し、信号路139を介してチャネル符号器
129に該チャネル符号器が信号路134または135上のパル
スを利用しようとしているかを指示する。この決定はど
のピッチ検出器が現在のフレームに対して最大のパルス
を有しているかに基づいて行なわれる。ピッチ検出器10
9が最大のパルスを発生すると、判定回路126は“1"をチ
ャネル符号器129に送信する。しかしピッチ検出器110が
最大のパルスを発生すると、判定回路126は“0"をチャ
ネル符号器129に送信する。チャネル符号器129は信号路
138を介して受信された“0"および信号路139を介して受
信された信号に応動して信号路133または134から指示さ
れたパルスの組を選択し、第5図に示すパケットを形成
する。このパケットは無声フレームであることを指示す
る“0"にセットされたV/vビット、パルス励起が使用さ
れることを指示する“1"にセットされたパルス・ビッ
ト、パルスの位置と振幅およびLPC係数を有している。 第2図に示す合成器200はチャネル140を介して受信さ
れた声道モデルおよび励起情報に応動して第1図の分析
器によって符号化された元のアナログ音声を再生する。
合成器200は以下のように機能する。第3図に示すよう
に有声情報パケットを受信すると、チャネル復号器201
はLPC係数を信号路216を介して合成フィルタ207に転送
し、ピッチ情報を信号路212を介して、電力レベルを信
号路211を介してピッチ発生器202に転送する。更に、そ
れが有声系列の最初の有声フレームであると、チャネル
復号器は第1のパルスの開始位置を信号路213を介して
ピッチ発生器202に送信する。V/vビットが有声フレーム
を指示する“1"に等しいと、チャネル復号器はセレクタ
206にピッチ発生器202の出力を選択させ、このピッチ発
生器202からの情報を信号路217を介して合成フィルタ20
7に加える。ピッチ発生器202は信号路211〜213を介して
受信された情報に応動して実際の音声の期間中に喉頭に
より発生された基本周波数を再生する。合成フィルタ20
7は声道モデルを規定するLPC係数およびピッチ発生器20
2から受信された励起に応動して音声を表わすディジタ
ル・サンプルを発生する。ディジタル・アナログ変換器
208はフィルタ207によって発生されたこれらディジタル
・サンプルに応動して導線218上に音声のアナログ表現
を発生させる。 チャネル復号器201は第4図に示すような雑音励起を
有する無声パケットを受信し、チャネル復号器201は受
信路214を介して信号を送信し、セレクタ205に白色雑音
発生器203の出力を選択させ、チャネル復号器201は信号
路214を介して信号を送信し、セレクタ206にセレクタ20
5の出力を選択させる。更に、チャネル復号器201は電力
ファクタを白色雑音発生器203に送信する。合成フィル
タ207は信号路216を介してチャネル復号器201から受信
されたLPC係数およびセレクタ205および206を介して受
信された白色雑音発生器203の出力に応動して音声のデ
ィジタル・サンプルを発生する。 チャネル復号器201がチャネル140から第5図に示すよ
うなパルス励起を有する無声フレームを受信すると、該
復号器201は信号路210を介してパルス発生器204に最大
パルスの振幅に対するパルスの位置と相対振幅を送信
し、信号路211を介して最大パルスの振幅を送信する。
更に、チャネル復号器201はセレクタ205および206を信
号路214および215を夫々介してパルス発生器204の出力
を選択させ、その出力を合成フィルタ207に転送させ
る。次に合成フィルタ207およびディジタル・アナログ
変換器208は音声を再生する。変換器208はその出力に独
立した低域フィルタを有している。更にチャネル復号器
201は信号路216を介してLPC係数を米国特許第3,740,476
号で述べられているかまたは当業者にあっては周知の合
成フィルタ207に送信する。 次に第1図に示すピッチ検出サブシステム150によっ
て実行されるピッチ検出機能について更に詳細に考察す
る。クリッパ103〜106は信号路115および116上の到来す
るxおよびeなるディジタル化された信号を正に向う波
形および負に向う波形に変換する。これらの信号を形成
する目的は混合波形は明らかな周期性を示さないかも知
れないのに対し、クリップされた信号は明らかな周期性
を示し得ることによる。従って周期性の検出がより容易
となる。クリッパ103および105はxおよびe信号を夫々
正に向う信号に変換し、クリッパ104および106はxおよ
びe信号を夫々負に向う信号に変換する。 ピッチ検出器107および110は各々それ自身の個々の入
力信号に応動して到来信号の周期性を決定する。ピッチ
検出器の出力はこれら信号を受信した2フレーム後に得
られる。ここで各フレームはこの例では160のサンプル
点から成っていることに注意されたい。ピッチ選出器11
1は4つのピッチ検出器の出力に応動して最終ピッチを
決定する。ピッチ検出器111の出力は信号路114を介して
伝送される。 第6図はピッチ検出器109のブロック図である。他の
ピッチ検出器も類似の設計である。最大値位置検出器
(ロケータ)601は各フレームのディジタル化された信
号に応動して周期性の検査を実行するパルスを検出す
る。最大値ロケータ601の出力は2組の数値である。即
ち候補サンプルである最大振幅を表わす数値Miと、これ
ら振幅のフレーム内の位置を表わす数値Diとである。こ
れら2組の数値はまたピッチ選出器111が現在のフレー
ムは無声であると決定すると、励起パルスとして使用す
るべく遅延回路145に転送される。距離検出器602はこれ
ら2組の数値に応動して周期的を候補パルスの部分集合
を決定する。この部分集合は距離検出器602のこのフレ
ームに対する周期性に関する決定を表わす。距離検出器
602の出力はピッチ追尾装置603に転送される。ピッチ追
尾装置603の目的はディジタル化された進行の相続くフ
レーム間のピッチ検出器のピッチに関する決定を制約す
ることである。この機能を実行するために、ピッチ追尾
装置603は以前の2つのフレームに対して決定されたピ
ッチを使用する。 次に最大値ロケータ601によって実行される動作につ
いて詳細に考察する。最大値ロケータ601はまずフレー
ムからのサンプルの中でそのフレーム中の大局的最大振
幅M0とその位置D0を同定する。周期性チェックのために
選択された他の点は以下のすべての条件を満さねばなら
ない。まず第1にパルスは局部最大値を有するものでな
ければならない。即ち取り出される次のパルスは既に取
り出されるかあるいは除去されたすべてのパルスを除く
フレーム中の最大振幅を有するものでなければならな
い。何故ならばピッチ・パルスは通常フレーム中の他の
サンプルより大きな振幅を有していると仮定しているの
でこの条件が適用される。第2に選択されたパルスの振
幅は大局的最大値のあるパーセントより大きいか等しく
なければならない。即ちgを閾値振幅パーセント(例え
ば25%)としてMi>gM0でなければならない。第3に、
パルスは既に位置が同定されたすべてのパルスから少く
とも18サンプルは離れていなければならない。この条件
は人間の音声で生じる最大のピッチは約444Hzであり、
これを8kHzのサンプル速度でサンプルすると18サンプル
になるという仮定に基づいている。 距離検出器602は再帰的動作をし、フレームの大局的
最大値M0から最も近隣の候補パルスへの距離を考察する
ことにより開始する。この距離は候補距離dcと呼ばれ、
次式で与えられる。 dc=|D0−Di| ここでDiは最も近隣の候補パルスのフレーム内の位置
である。フレーム中のこのようなパルスの部分集合がこ
の距離から息継ぎ間隔Bを加減したものだけ隔っていた
ならば、この候補距離は棄却され、新らしい候補距離を
用いて次の近隣候補パルスに対して再び同様な操作が開
始される。Bは4から7の間の値を有している。この新
らしい候補距離は次に隣接するパルスと大局的最大値パ
ルスの距離である。 ピッチ検出器602が距離dc±Bだけ隔った候補パルス
の部分集合を一度決定すると、内挿振幅テストが適用さ
れる。内挿振幅テストM0と次に隣接する候補パルスの各
々の間の線形内挿を実行し、M0に直接隣接する候補パル
スの振幅がこれら内挿値の少くともq%であることを要
求する。内挿振幅閾値q%は75%である。第7図に示す
候補パルスによって示される例を考察する。dcが正当な
候補距離であるためには次式が成立しなければならな
い。 ここで、 dc=|D0−D1|>18 であり、前述の如く次式が成立する。 Mi>gM0 i=1,2,3,4,5 ピッチ追尾装置603は距離検出器602の出力に応動して
ピッチの周波数と関連するピッチ距離推定値を評価す
る。ここでピッチ距離はピッチの周期を表わしているこ
とに注意されたい。ピッチ追尾装置603の機能は、必要
な場合には4つのテストを実行することによってピッチ
検出器から受信された距離ピッチ距離推定値を修正する
ことによってフレーム間でピッチ距離の推定値が矛盾を
生じないように制約を加えることである。ここで4つの
テストとは音声セグメント・スタートアップ・テスト、
最大息継ぎおよびピッチ倍化テスト、制限テストおよび
急激変更テストである。これらのテストの内の第1のテ
ストである音声セグメント・スタートアップ・テストは
有声領域の開始時点におけるピッチ距離の無矛盾性を保
証するために実行される。このテストは有声領域の開始
とのみ関係しているので、このテストは現在のフレーム
は0でないピッチ周期を有しているものと仮定してい
る。この仮定は先行するフレームおよび現在のフレーム
が有声領域中の第1および第2の音声フレームであると
いうことに等しい。ピッチ距離の推定値がT(i)(こ
こでiは距離検出器602からの現在のピッチ距離の推定
値を表わす)であるとすると、ピッチ検出器603は(各
検出器を通ると2フレーム分の遅延を与えるので)T
(i−2)を出力する。テストはT(i−3)およびT
(i−2)が0であるかまたはT(i−2)が0でなく
てT(i−3)およびT(i−4)が0であるときのみ
(これはフレームi−2およびi−1が有声領域中の夫
々第1および第2の有声フレームであることを意味す
る)実行される。音声セグメント・スタートアップ・テ
ストは2つの無矛盾性テストを実行する。即ち一方は第
1の有声フレームT(i−2)に対するテストであり、
他方は第2の有声フレームT(i−1)に対するテスト
である。これら2つのテストは相続くフレーム期間中に
実行される。音声セグメント・テストの目的は、有声領
域が実際には開始されていないときに有声領域の開始を
定義する確率を減少させることである。音声領域に対す
る他の無矛盾性テストが最大息継ぎおよびピッチ倍化テ
ストにおいて実行され、そこではただ1つの無矛盾性条
件が要求されるので前記2つのテストは重要な意味を有
している。第1の無矛盾性テストはT(i−2)中の右
の候補サンプルとT(i−1)およびT(i−2)中の
最も左の候補サンプルの距離がピッチ閾値B+2内にあ
ることを保証するために実行される。 第1の無矛盾性テストに合格すると、次のフレーム期
間中に第2の無矛盾性テストが実行され、第1の無矛盾
性テストが確認した結果と同じ結果がフレーム系列を右
に1つシフトしても得られることが確認される。第2の
無矛盾性テストに合格しないと、T(i−1)は0にセ
ットされ、(T(i−2)が0にセットされていなかっ
たとすると)フレームi−1は第2の有声フレームとは
なり得ないことを表わす。しかし、両方の無矛盾性テス
トに合格すると、フレームi−2およびi−1は有声領
域の開始を定義する。T(i−1)が0にセットされ、
T(i−2)は0でないと決定され、T(i−3)は0
であると(これはフレームi−2が2つの無声フレーム
の間の有声フレームであることを指示する)、急激変化
テストがこの状況を認知するが、この特殊なテストにつ
いては後述する。 最大息継ぎおよびピッチ倍化テストは有声領域中の2
つの隣接した有声フレームにわたるピッチの無矛盾性を
保証する。従ってこのテストはT(i−3)、T(i−
2)およびT(i−1)が0でないときにのみ実行され
る。最大息継ぎおよびピッチ倍化テストはまた距離検出
器602によって生じたピッチ倍化誤差をチェックし、補
正する。チェックのピッチ倍化部はT(i−2)および
T(i−1)が無矛盾であるかどうか、またはT(i−
2)がT(i−1)の2倍と無矛盾(これはピッチ倍化
誤りを意味する)であるかどうかをチェックする。この
テストはまず、Aが10なる値を有するものとして |T(i−2)−T(i−1)|A なる式によって実行されるテストの最大息継ぎ部の条件
を満すかどうかをチェックする。前式が満されると、T
(i−1)はピッチ距離の良好な推定値であり、修正す
る必要はない。しかし、テストの最大息継ぎ部の条件を
満さないと、テストのピッチ倍化部の条件を満すかどう
かを決定するテストを実行しなければならない。テスト
の第1の部分は、T(i−3)を0でないものとすると
き、 なる式で定義されるピッチ閾値内にT(i−2)とT
(i−1)の2倍の差があるかどうかをチェックする。
この条件が満されると、T(i−1)はT(i−2)に
セットされる。この条件が満されないと、T(i−1)
は0にセットされる。このテストの第2の部分はT(i
−3)が0に等しい場合に実行される。 |T(i−2)−2T(i−1)| および |T(i−1)−T(i)|>A であると T(i−1)=T(i−2) である。この条件が満されないとT(i−1)は0にセ
ットされる。 T(i−1)に対して実行される制限テストは計算さ
れたピッチが50Hz〜400Hzという人間の音声の範囲内に
あることを保証する。計算されたピッチがこの範囲内に
入らない場合には、T(i−1)は0にセットされ、フ
レームi−1は計算されたピッチを有する有声フレーム
ではあり得ないことを指示する。 急激変化テストは前述の3つのテストが実行された後
に実行され、その目的は他のテストが無声領域の中間に
ある有声フレームあるいは有声領域の中間にある無声フ
レームと判定したと決定することである。人間は通常こ
のような音声フレーム系列を発生し得ないから、急激変
化テストは有声−無声−有声あるいは無声−有声−無声
なる系列を除去することによって有声または無声区間は
少なくとも2フレーム長を有することを保証する。急激
変化テストは各々が前述の2つの系列を検出するよう設
計された2つの別個の手順より成る。ピッチ追尾装置60
3が前述と4つのテストを一度実行すると、該装置603は
第1図のピッチ・フィルタ111にT(i−2)を出力
する。ピッチ追尾装置603は距離検出器602から次に受信
されるピッチ距離に対する計算を実行するために他のピ
ッチ距離を保持する。 第8図は第1図のピッチ・フィルタ111を更に詳細に
示している。ピッチ値推定器801はピッチ検出器107〜11
0の出力に応動して2フレーム前のピッチの初期推定値
P(i−2)を形成し、ピッチ値追尾装置802はピッチ
値推定器801の出力に応動して3フレーム前の最終ピッ
チ値P(i−3)をフレームの進行に応じて矛盾がない
に制約する。ピッチ値の決定および送出に加えて、ピッ
チ・フィルタ111はV/u信号と有声領域の開始点における
最初のパルスの位置を発生し、送出する。 次にピッチ値推定器801が実行する機能について更に
詳細に考察する。一般に、ピッチ値推定器801によって
受信された4つのピッチ距離の推定値がすべて非0(こ
れは有声フレームを指示)であると、最大および最小の
推定値は棄却され、P(i−2)は残りの2つの推定値
の算術平均にセットされる。同様に、ピッチ距離の推定
値の内の3つが非0であると、最大および最小の推定値
が棄却され、ピッチ値推定器801はP(i−2)を残り
の非0の推定値に等しくセットする。推定値の内2つだ
けが非0であると、ピッチ値推定器801は2つの差がピ
ッチの閾値A内にあるときのみ2つのピッチ距離の推定
値の算術平均に等しくセットする。2つの値の差がピッ
チの閾値A内にない場合には、ピッチ値推定器801はP
(i−2)を0に等しくセットする。この決定は、幾つ
かの個々の検出器は誤ってある周期性を検出したが、フ
レームi−2は無声であることを指示している。4つの
ピッチ距離推定値の内1つだけが非0であると、ピッチ
値推定器801はP(i−2)をその非0の値に等しくセ
ットする。この場合、このピッチ距離の推定値の妥当性
をチェックして以前のピッチの推定値と矛盾がないよう
にするのがピッチ値追尾装置802の役目である。ピッチ
距離の推定値がすべて0に等しいと、ピッチ値推定器80
1はP(i−2)を0に等しくセットする。 次にピッチ値追尾装置802について詳細に考察する。
ピッチ値追尾装置802はピッチ値推定器801の出力に応動
して3フレーム前のピッチ値の推定値P(i−3)を
発生するが、この推定はP(i−2)およびP(i−
4)に基づいて行なわれる。ピッチ値P(i−3)は
フレームからフレームへの変化に応じて矛盾が生じない
ように選ばれる。 最初にチェックされることは有声−無声−有声、無声
−有声−無声、あるいは有声−有声−無声なる形を有す
るフレームの系列である。P(i−4)およびP(i−
2)が非0で、P(i−3)が0であることによって示
される第1の系列が生じると、最終ピッチ値P(i−
3)はピッチ値追尾装置802によってP(i−4)およ
びP(i−2)の算術平均に等しくセットされる。第2
の系列が生起すると、最終ピッチ値P(i−3)は0
にセットされる。第3の系列に関しては、ピッチ値追尾
装置はP(i−3)およびP(i−4)の差がピッチの
閾値A以内であるときP(i−4)およびP(i−3)
が非0であり、P(i−2)が0であることに応動して
(i−3)をP(i−3)およびP(i−4)の算
術平均にセットする。即ちピッチ値追尾装置802は |P(i−4)−P(i−3)|A なることに応動して次の操作を実行する。 P(i−3)およびP(i−4)が前述の条件を満さ
ない(即ち、両者の差がピッチ閾値A内にない)とピッ
チ値追尾装置802が決定すると、該ピッチ値追尾装置802
はP(i−3)をP(i−4)の値に等しくセットす
る。 前述の操作に加えて、ピッチ値追尾装置802はまたあ
る型の有声−有声−有声フレーム系列に対してピッチ値
の推定値を平滑する操作を実行する。この平滑化操作が
実行される3つの型のフレーム系列が生起する。第1の
系列は次の条件が成立するときである。 |P(i−4)−P(i−2)|A および |P(i−4)−P(i−3)|>A この条件が成立すると、ピッチ値追尾装置802は とセットすることにより平滑化操作を実行する。 第2の条件の組は次の関係が成立するときである。 |P(i−4)−P(i−2)|>A および |P(i−4)−P(i−3)|A この第2の条件の組が成立すると、ピッチ値追尾装置
802は次のようにセットする。 第3(最後)の条件の組は次式で定義される。 |P(i−4)−P(i−2)|>A および |P(i−4)−P(i−3)|>A この最後の条件が成立すると、ピッチ値追尾装置802
は次のようにセットする。 P(i−3)=P(i−4) 第9図はディジタル信号プロセッサを用いて実現した
第1および2図の分析器および合成器の実施例である。
第1および第2図に示す機能を実現するため、第10およ
び15図にフローチャートとして示すプログラムが第9図
のPROM901中に記憶されている。第9図の分析器/合成
器の組合せはチャネル906を介して類似のユニットに接
続されており、音声会話はこれら2つの分析器/合成器
ユニットを用いて通信される。RAM902は第1図に示す各
々のピッチ検出器に対する個々のパラメータの記憶を含
む種々の型の情報を記憶するのに使用される。ピッチ検
出器はPROM901中に記憶されたプログラムの命令を用い
て実現される。第9図の分析器/合成器はアナログ・デ
ィジタル変換器904を用いて到来音声をディジタル化
し、ディジタル・アナログ変換器905を用いてチャネル9
06を介して受信されたディジタル信号のアナログ表現を
出力する。 第10図はディジタル信号プロセッサ903によって実行
する第1図のLPC符号器およびフィルタ102のソフトウェ
ア的実現法を示している。第10図のフローチャートとし
て示すプログラムはブロック1001〜1012を実行すること
によりバーグ(Burg)のアルゴリズムを表現している。
このアルゴリズムは各フレームに対するLPC係数および
残差e(n)を計算する。残差e(n)が決定された
後、各フレームに対する電力がブロック1013、1014およ
び1015によって残差サンプルから計算される。 次に、第1図のピッチ検出器107〜110は第11図のブロ
ック1101によって実現される。ブロック1101は各々が第
9図のRAM902中に別個の記憶パラメータを有するプログ
ラム命令の共通の組を使用することによって正および負
の音声サンプルならびに正および負の残差サンプルに対
してピッチ検出が実行される。残差サンプルに対し、ピ
ッチ検出期間中に決定された候補パルスは後でパルス励
起として使用するために保存される。ピッチ検出が実行
された後、第1図のピッチ選出器111の機能はブロック1
102および1103によって実現される。V/uビットはブロッ
ク1102によりセットされる。後者のビットは判定ブロッ
ク1104により検定される。V/uビットが“1"にセットさ
れていて音声フレームが有声フレームであることを指示
すると、第14図のブロック1401〜1404および1406および
1407が実行される。ブロック1401および1042はピッチお
よび電力情報をチャネル符号器に夫々送信する。判定ブ
ロック1403はその有声フレームが一連の有声フレーム中
の最初のフレームであるかどうかを決定する。最初のフ
レームであると、ブロック1404はチャネル符号器に第1
のピッチ・パルスの位置を送信する。この情報は合成器
がピッチ情報を適正に使用するのに使われる。次に、ブ
ロック1406および1407はLPC係数kiをチャネル符号器に
送出する。次にチャネル符号器は周知の技法を用いたバ
イト形態でチャネルを介して合成器に受信した情報を送
信する。 V/uビットが“0"にセットされていると、判定ブロッ
ク1104は制御をブロック1105〜1201に切換える。このブ
ロック1105〜1201は式(2)の左辺および右辺を決定す
るのに必要な計算を実行する。これらの計算が実行され
ると、パルス励起を用いるか雑音励起を用いるかに関す
る決定が式(2)の最終ステップを実現する判定ブロッ
ク1202により実行される。雑音励起を使用すべきとの決
定がなされると、制御は第12図のブロック1203および第
14図のブロック1405〜1407にわたされる。これらのブロ
ックは合成器が雑音励起を使用するためにチャネル符号
器に対する情報を準備し転送する。 パルス励起を使用するとの判定がなされると、判定ブ
ロック1202は制御を第12図のブロック1204および1205に
わたす。ブロック1204を実行すると“1"がチャネル符号
器に送信され、パルス励起を実行すべきことを指示し、
ブロック1205を実行すると最大候補パルスの振幅がチャ
ネル符号器に送信される。最大候補パルスは第11図のブ
ロック1101によって実現されたピッチ検出器により決定
される。この情報がチャネル符号器に転送された後、第
13図の判定ブロック1301が実行される。判定ブロック13
01の目的は第11図のブロック1101によって見出された候
補パルスの内どれを合成器に転送すべきかを決定するこ
とである。残差ピッチ検出器によって見出された候補パ
ルスの総数が7以下であると、すべての候補パルスが転
送される。見出された候補パルスの数が7より大である
と、最大振幅の候補パルスを有していたピッチ検出器か
らの候補パルスがチャネルに転送される。パルスの総数
が7より大であると、最大振幅の候補パルスが負または
正の残差サンプルのいずれのサンプル中に存在していた
かを決定する判定ブロック1302が実行される。最大パル
ス振幅が負の残差サンプル中に存在するならば、ブロッ
ク1303および1304が実行され、候補パルスが負の残差サ
ンプルからチャネル符号器に転送される。最大振幅候補
パルスが正の残差サンプル中に存在するという決定が判
定ブロック1302によって行なわれると、ブロック1309お
よび1310が実行され、候補パルスが正の残差サンプルか
らチャネル符号器に送信される。ブロック1304により転
送された情報は各候補パルスの振幅と位置である。振幅
情報はブロック1205によりチャネル符号器に転送された
最大振幅の候補パルスの振幅に対する相対振幅である。 負および正の残差サンプル中の候補パルスの総数が7
以下であると判定ブロック1301により決定されると、ブ
ロック1305、1306、1307および1308が実行され、正およ
び負の残差サンプルに対するすべての候補パルスがチャ
ネル符号器に転送される。 前述の動作が実行された後、ブロック1311が実行さ
れ、チャネル符号器に対しすべてのパルスが伝送された
ことを指示する。ブロック1311の実行後、第14図のブロ
ック1406および1407が実行され、LPC係数がチャネル符
号器に転送される。ピッチ、雑音またはパルス励起情報
がLPC係数および電力情報と共にチャネル符号器に転送
されると、次のフレームに対して同様な操作が繰返され
る。 第2図の合成器を実現する第9図のディジタル信号プ
ロセッサ903のプログラムが第15,16および17図に示され
ている。第15図のフローチャート中に示されているプロ
グラム・ステップは合成フィルタ207を実現するプログ
ラム命令を駆動するのに使用される励起の型を決定す
る。第15図に示すプログラム・ステップはフレームの型
を決定し、ある種のパラメータを読み出す。ブロック15
01はまずチャネル復号器からV/vビットを得、第2図の
セレクタを実現する判定ブロック1502はV/uビットが夫
々有声または無声音声情報を指示する“1"または“0"の
いずれであるかを決定する。有声情報であると指示され
ると、ブロック1503および1504が実行され、チャネル復
号器からピッチおよび電力情報が得られる。この情報を
得た後、判定ブロック1505の実行によってこれが有声領
域の最初のフレームであるか否かを決定するチェックが
行なわれる。有声領域の最初のフレームである場合に
は、ブロック1506が実行され、有声フレーム内の最初の
ピッチ・パルスの位置が得られる。 情報が無声であると決定されると、ブロック1507が実
行される。このブロックはチャネル復号器からパルス・
ビットを得る。パルス・ビットが“1"であるか“0"であ
るかに基づいて判定を行うブロック1508はパルス励起ま
たは雑音励起を夫々使用するプログラム命令を実行し、
第2図のセレクタ205の役割を実行する。パルス・ビッ
トが“0"で雑音励起を指示する場合、電力はブロック15
12によってチャネル復号器から得られる。パルス・ビッ
トが“1"でパルス励起を指示する場合、ブロック1509〜
1511が実行され、パルス励起に使用される候補パルスの
最初のパルス位置が得られる。 第1のフレーム型パルスが決定されると、第16および
17図のフローチャート中に示すプログラム・ステップが
実行される。ブロック1603〜1610は励起に使用されるパ
ルスを決定し、ブロック1701〜1707は合成フィルタを実
現している。判定ブロック1603は音声のフレームが完全
に合成された時点を決定する。判定ブロック1604は再び
フレームが有声であるか無声であるかを決定する。有声
フレームであると、ブロック1610が実行され、ピッチ励
起のための次のパルスが決定され、合成フィルタのプロ
グラムされた命令はその後に実行される。 フレームが無声であると、判定ブロック1605が実行さ
れ、雑音励起とパルス励起のいずれを使用するかが決定
される。雑音励起が使用される場合には、判定ブロック
1606が使用され、合成フィルタのプログラムされた命令
によって使用されるパルスが得られる。パルス励起が使
用される場合には、ブロック1607〜1609が実行され、使
用される適正なパルス励起パルスが決定される。 合成フィルタは周知のLPC合成技法を使用してブロッ
ク1701〜1707により実現される。音声のフレーム全体が
合成された後、第16〜17図に示すプログラムされた命令
は音声の次のフレームに対して繰返される。 前述の実施例は本発明の原理を単に例示するものであ
り、当業者にあっては本発明の精神および範囲を逸脱す
ることなく他の装置を考案し得ることを理解されたい。
フロントページの続き (72)発明者 トムソン,ディヴィッド リン アメリカ合衆国 60555 イリノイズ, ウォーレヴィル,バーチウッド ドライ ヴ 3エス126 (56)参考文献 特開 昭56−147200(JP,A) 特開 昭58−12000(JP,A) 特開 昭57−6898(JP,A) 特開 昭60−87400(JP,A)

Claims (1)

  1. (57)【特許請求の範囲】 1.人間の音声を分析及び合成する処理システムであっ
    て、 各々が予め定められた数の該音声の瞬時振幅の等間隔サ
    ンプルを有する複数個の音声フレームを記憶する手段
    (112、101)と、 各々の音声フレームについて声道を規定する音声パラメ
    ータ信号の集合を計算する手段(102)と、 該音声フレームの各々についてその音声フレームが有声
    であるか無声であるかを決定する手段(111)と、 有声であると決定された該音声フレームの各々について
    ピッチ型励起情報を発生する手段(107−110)と、 無声であると決定された該音声フレームの各々について
    パルス型励起情報を生成する手段(109、110)と、 有声であると決定された該音声フレームの各々に応答し
    て該ピッチ型励起情報と該音声パラメータ信号の集合を
    結合する手段(129)とを含み、 該結合する手段は、更に無声であると決定された該音声
    フレームの各々に応答して該パルス型励起情報もしくは
    雑音型励起情報のうちのいずれか1つを選択する手段
    (120−125)及びその選択された1つを該音声パラメー
    タ信号の集合と結合する手段(129)を含むものであ
    り、そして 該処理システムは、更に 有声であると決定された該音声フレームの各々について
    該ピッチ型励起情報及び該音声パラメータ信号の集合を
    含む該結合された励起情報を通信するとともに、無声で
    あると決定された該音声フレームの各々について該パル
    ス型励起情報もしくは該雑音型励起情報のうちの選択さ
    れた1つ及び該音声パラメータ信号の集合を含む該結合
    された励起情報を通信する手段(129)を含むことを特
    徴とする音声の分析・合成処理システム。 2.請求の範囲第1項に記載のシステムにおいて、 該パルス型励起情報を生成する手段が、該複数の音声フ
    レームのうちの無声であると決定された各フレームにつ
    いて該音声サンプルからパルスを決定する手段を含むこ
    とを特徴とする音声の分析・合成処理システム。 3.請求の範囲第2項に記載のシステムにおいて、 該パルスを決定する手段が該複数の音声フレームのうち
    の無声であると決定された各フレームについて該音声サ
    ンプルから残差サンプルを計算する手段、及び該複数の
    音声フレームのうちの無声であると決定された各フレー
    ムについて最大の振幅を有する該残差サンプルのパルス
    の部分集合を配置する手段を含むことを特徴とする音声
    の分析・合成処理システム。 4.請求の範囲第3項に記載のシステムにおいて、 該パルス型励起情報もしくは雑音型励起情報のうちのい
    ずれか1つを選択する手段が、該複数の音声フレームの
    うちの無声であると決定された各フレームについて残差
    サンプルの分散を計算する手段、 該残差サンプルを整流する手段、 整流された残差サンプルの平均振幅を計算する手段、 該複数の音声フレームのうちの無声であると決定された
    各フレームにおける該整流された残差サンプルの平均振
    幅の2乗を計算する手段、 該複数の音声フレームのうちの無声であると決定された
    各フレームについて残差の計算された分散を整流された
    残差の平均振幅の計算された2乗と比較する手段、及び 比較結果が予め定められたしきい値よりも大きいとされ
    た際に該パルス型励起情報を選択すべきことを指定する
    手段を含むことを特徴とする音声の分析・合成処理シス
    テム。 5.請求の範囲第3項に記載のシステムにおいて、 該パルス型励起情報もしくは雑音型励起情報のうちのい
    ずれか1つを選択する手段が、該フレームの各々の各残
    差サンプルを2乗する手段、 該フレームの各々に対しての2乗残差サンプルのすべて
    の総和をとる手段、 該フレームの各々についての該2乗された残差サンプル
    の総和をとることによりフレーム中の該予め定められた
    数のサンプルを乗算してある値を発生する手段、 該フレームの各々における該残差サンプルの各々に対す
    る絶対値を得る手段、 該フレームの各々についての絶対値の残差サンプルのす
    べての総和をとる手段、 該フレームの各々についての総和された絶対値の残差サ
    ンプルを2乗して別の値を発生する手段、 該ある値を該フレームの各々についての該別の値と比較
    する手段、及び該比較の結果予め定められたしきい値よ
    りも大きいとされた際に該パルス型励起情報を選択すべ
    きことを指定する手段とを含むことを特徴とする音声の
    分析・合成処理システム。 6.請求の範囲第5項に記載のシステムにおいて、 該音声パラメータ信号の集合を計算する手段が 該フレームの各々について線形予測符号化された情報の
    集合を計算する手段を含むことを特徴とする音声の分析
    ・合成処理システム。 7.請求の範囲第6項に記載のシステムにおいて、 該ピッチ型励起情報を発生する手段がその各々が該フレ
    ームの各々の該音声サンプルの個々の予め定められた部
    分を利用するものである複数の同一の手段であって、該
    フレームの各々について個々のピッチ値を推定するため
    の複数の同一の手段、及び 該推定された個々のピッチ値の各々を推定する該推定手
    段の各々に応動して該フレームの各々について最終ピッ
    チを決定する手段を含むことを特徴とする音声の分析・
    合成処理システム。 8.請求の範囲第7項に記載のシステムにおいて、 該最終のピッチ値を決定する手段が、 各々が該フレームの各々について該推定手段の個々の1
    つから受信された該推定された個々のピッチ値から該最
    終のピッチを計算する手段、及び 該フレームの各々についての計算された最終値が該フレ
    ームの該各々に対して該フレームの以前のものから計算
    されたピッチ値と一致するように該ピッチ値を制約する
    手段を含むことを特徴とする音声の分析・合成処理シス
    テム。 9.請求の範囲第5項に記載のシステムにおいて、更に 該フレームの各々についての該結合された励起情報及び
    音声パラメータ信号の集合の通信されてきたものを受信
    する手段、 該ピッチ励起情報が通信されてきた際に、 該音声パラメータ信号の集合と該励起情報とを使用して
    各フレーム音声を合成する手段を含み、 該合成する手段が更に、該音声パラメータ信号の集合と
    該パルス型励起情報又は雑音型励起情報の1つを使用す
    るものであって、該パルス型励起情報又は雑音型励起情
    報の該1つが通信された際、該励起情報のうちの該1つ
    のものを利用して各フレーム音声を合成するものである
    ことを特徴とする音声の分析・合成処理システム。 10.請求の範囲第9項に記載のシステムにおいて、 該合成する手段が、更に 該パルス型励起情報又は雑音型励起情報が通信されてき
    た際に無声型の信号を発生する手段、 該パルス型励起情報が通信されてきた際にパルス型の信
    号を発生する手段、 該無声型の信号の存在及び該パルス型の信号の不存在に
    応動して雑音型励起信号を発生する手段、及び 該パルス型信号に応動して該パルス型励起情報を選択す
    る手段を含むことを特徴とする音声の分析・合成処理シ
    ステム。
JP61504055A 1985-08-28 1986-07-24 マルチレベル・フィルタ励起を用いる音声合成 Expired - Lifetime JP2738533B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US770631 1985-08-28
US06/770,631 US4890328A (en) 1985-08-28 1985-08-28 Voice synthesis utilizing multi-level filter excitation

Publications (2)

Publication Number Publication Date
JPS63500681A JPS63500681A (ja) 1988-03-10
JP2738533B2 true JP2738533B2 (ja) 1998-04-08

Family

ID=25089219

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61504055A Expired - Lifetime JP2738533B2 (ja) 1985-08-28 1986-07-24 マルチレベル・フィルタ励起を用いる音声合成

Country Status (6)

Country Link
US (1) US4890328A (ja)
EP (1) EP0235180B1 (ja)
JP (1) JP2738533B2 (ja)
KR (1) KR970001167B1 (ja)
CA (1) CA1258316A (ja)
WO (1) WO1987001500A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5060269A (en) * 1989-05-18 1991-10-22 General Electric Company Hybrid switched multi-pulse/stochastic speech coding technique
US5105464A (en) * 1989-05-18 1992-04-14 General Electric Company Means for improving the speech quality in multi-pulse excited linear predictive coding
IT1264766B1 (it) * 1993-04-09 1996-10-04 Sip Codificatore della voce utilizzante tecniche di analisi con un'eccitazione a impulsi.
GB2312360B (en) * 1996-04-12 2001-01-24 Olympus Optical Co Voice signal coding apparatus
US5937374A (en) * 1996-05-15 1999-08-10 Advanced Micro Devices, Inc. System and method for improved pitch estimation which performs first formant energy removal for a frame using coefficients from a prior frame
US6047254A (en) * 1996-05-15 2000-04-04 Advanced Micro Devices, Inc. System and method for determining a first formant analysis filter and prefiltering a speech signal for improved pitch estimation
JP4040126B2 (ja) * 1996-09-20 2008-01-30 ソニー株式会社 音声復号化方法および装置
US6154499A (en) * 1996-10-21 2000-11-28 Comsat Corporation Communication systems using nested coder and compatible channel coding
FI964975A (fi) * 1996-12-12 1998-06-13 Nokia Mobile Phones Ltd Menetelmä ja laite puheen koodaamiseksi
GB2322778B (en) * 1997-03-01 2001-10-10 Motorola Ltd Noise output for a decoded speech signal
US20030135374A1 (en) * 2002-01-16 2003-07-17 Hardwick John C. Speech synthesizer
US7698132B2 (en) * 2002-12-17 2010-04-13 Qualcomm Incorporated Sub-sampled excitation waveform codebooks
EP2830062B1 (en) * 2012-03-21 2019-11-20 Samsung Electronics Co., Ltd. Method and apparatus for high-frequency encoding/decoding for bandwidth extension
JP6860901B2 (ja) * 2017-02-28 2021-04-21 国立研究開発法人情報通信研究機構 学習装置、音声合成システムおよび音声合成方法
CN107600708B (zh) * 2017-08-28 2019-05-07 珠海格力电器股份有限公司 一种吸尘器的包装结构及包装方法
CN115273913B (zh) * 2022-07-27 2024-07-30 歌尔科技有限公司 语音端点检测方法、装置、设备及计算机可读存储介质

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3624302A (en) * 1969-10-29 1971-11-30 Bell Telephone Labor Inc Speech analysis and synthesis by the use of the linear prediction of a speech wave
FR2206889A5 (ja) * 1972-11-16 1974-06-07 Rhone Poulenc Sa
US3916105A (en) * 1972-12-04 1975-10-28 Ibm Pitch peak detection using linear prediction
US3903366A (en) * 1974-04-23 1975-09-02 Us Navy Application of simultaneous voice/unvoice excitation in a channel vocoder
US3979557A (en) * 1974-07-03 1976-09-07 International Telephone And Telegraph Corporation Speech processor system for pitch period extraction using prediction filters
US4058676A (en) * 1975-07-07 1977-11-15 International Communication Sciences Speech analysis and synthesis system
US4301329A (en) * 1978-01-09 1981-11-17 Nippon Electric Co., Ltd. Speech analysis and synthesis apparatus
CA1123955A (en) * 1978-03-30 1982-05-18 Tetsu Taguchi Speech analysis and synthesis apparatus
JPS602678B2 (ja) * 1980-04-18 1985-01-23 松下電器産業株式会社 音成合成方式
JPS576898A (en) * 1980-06-13 1982-01-13 Nippon Electric Co Voice synthesizer
JPS6040633B2 (ja) * 1981-07-15 1985-09-11 松下電工株式会社 無声破裂音源付きの音声合成装置
ATE15415T1 (de) * 1981-09-24 1985-09-15 Gretag Ag Verfahren und vorrichtung zur redundanzvermindernden digitalen sprachverarbeitung.
US4472832A (en) * 1981-12-01 1984-09-18 At&T Bell Laboratories Digital speech coder
US4561102A (en) * 1982-09-20 1985-12-24 At&T Bell Laboratories Pitch detector for speech analysis
US4696038A (en) * 1983-04-13 1987-09-22 Texas Instruments Incorporated Voice messaging system with unified pitch and voice tracking
US4669120A (en) * 1983-07-08 1987-05-26 Nec Corporation Low bit-rate speech coding with decision of a location of each exciting pulse of a train concurrently with optimum amplitudes of pulses
JPS6087400A (ja) * 1983-10-19 1985-05-17 日本電気株式会社 マルチパルス型音声符号復号化装置
US4701954A (en) * 1984-03-16 1987-10-20 American Telephone And Telegraph Company, At&T Bell Laboratories Multipulse LPC speech processing arrangement

Also Published As

Publication number Publication date
EP0235180A1 (en) 1987-09-09
KR880700388A (ko) 1988-03-15
US4890328A (en) 1989-12-26
CA1258316A (en) 1989-08-08
JPS63500681A (ja) 1988-03-10
WO1987001500A1 (en) 1987-03-12
KR970001167B1 (ko) 1997-01-29
EP0235180B1 (en) 1991-05-29

Similar Documents

Publication Publication Date Title
JP2738533B2 (ja) マルチレベル・フィルタ励起を用いる音声合成
JP2738534B2 (ja) 異なる型の励起情報を有するディジタル音声符号器
JPH0820878B2 (ja) 並列処理型ピッチ検出器
KR960002388B1 (ko) 언어 엔코딩 처리 시스템 및 음성 합성방법
JP5373217B2 (ja) 可変レートスピーチ符号化
EP0259950A1 (en) Digital speech sinusoidal vocoder with transmission of only a subset of harmonics
US5774836A (en) System and method for performing pitch estimation and error checking on low estimated pitch values in a correlation based pitch estimator
EP1766614A2 (en) Neuroevolution-based artificial bandwidth expansion of telephone band speech
JP3687181B2 (ja) 有声音/無声音判定方法及び装置、並びに音声符号化方法
EP0459363B1 (en) Voice signal coding system
US6456965B1 (en) Multi-stage pitch and mixed voicing estimation for harmonic speech coders
US5696873A (en) Vocoder system and method for performing pitch estimation using an adaptive correlation sample window
CA2317435A1 (en) Apparatus and method for hybrid excited linear prediction speech encoding
JPH10143199A (ja) 音声符号化方法および復号化方法
JPS5917839B2 (ja) 適応形線形予測装置
US6438517B1 (en) Multi-stage pitch and mixed voicing estimation for harmonic speech coders
JPH0782360B2 (ja) 音声分析合成方法
EP0713208A2 (en) Pitch lag estimation system
JP2002049395A (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JPH05224698A (ja) ピッチサイクル波形を平滑化する方法及び装置
JP4662406B2 (ja) 周波数解析方法および音響信号の符号化方法
JPH0728497A (ja) 音声符号化装置並びにその分析器及び合成器
JPH06208398A (ja) 音源波形生成方法
JP3984021B2 (ja) 音声/音響信号の符号化方法及び電子装置
Juraj et al. Automatic phoneme detection using CLPC

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term