JPH073640B2

JPH073640B2 - 音声パタンテンプレ−トを発生する装置及び方法

Info

Publication number: JPH073640B2
Application number: JP57202228A
Authority: JP
Inventors: フランク・クリストフア−・ピアツ; ロ−レンス・リチヤ−ド・ラビナ−; ジエイ・ゴ−ドン・ウイルポン
Original assignee: ウエスタ−ンエレクトリックカムパニ−，インコ−ポレ−テッド
Priority date: 1981-11-19
Filing date: 1982-11-19
Publication date: 1995-01-18
Anticipated expiration: 2010-01-18
Also published as: US4454586A; GB2109971B; DE3242866C2; CA1175569A; JPS58102299A; DE3242866A1; GB2109971A

Description

【発明の詳細な説明】技術分野本発明は音声処理に関し、特に自動音声合成及び認識の
ための音声パタン生に関する。

音声は通信のための便利で効率の良い手段であるが、一
般に機械類はスイッチ、キーボード、あるいはディスプ
レイ等を用い、符号によって通信するように構成されて
いる。電子技術の進歩により、計算機や自動制御装置の
ような機械に対して音声によるインターフェイスを与え
ることも可能になって来た。公知の技術によれば、符号
化された音声要素の語彙を蓄えている音声合成器に対し
て機械信号が印加される。合成器は機械信号に対応する
音声パタンを蓄えられた要素を接続して作り出す。この
音声パタンは電気音響変換器によって話されるメッセー
ジに変換される。音声認識器は発声された発音を受信し
この発音パタンを予め蓄えられた音声パタンと比較す
る。この発音パタンは、最も良く一致する蓄えられたパ
タンであるものと認識され、一致したパタンに対応する
機械信号が作り出される。このようにして機械との音声
通信が行なわれる。

音声合成の１つの形式では、音声パタンは蓄積された語
彙として記憶される。コード信号に応動して、選択され
たパタンが音声要素として蓄られた語彙から検索され、
メッセージ信号に組立てられる。メッセージ信号は次に
音響列に変換される。蓄えられた語彙内の基本音声単位
は大きなメッセージ単位とすることもできる。しかし、
多数の語彙が要求されると、異なったメッセージ音声パ
タンのためのメモリ量が不経済的なものになってしま
う。

部分メッセージ単位パタンを用いれば、メッセージの形
成に大きな融通性が生じ、語彙メモリも小さくてすむ。
例えば音素、準音節、又は２個組みのような部分語音声
単位を用いると、非常に少ない蓄積語彙から多種類のメ
ッセージを作ることができる。当業者には公知のよう
に、部分語音声単位は一般に通常の会話の語長のパタン
から抽出される。しかし、通常の会話から部分メッセー
ジ単位の特徴を発声する処理は複雑であり、時間のかか
る解析と専門家による介在と修正を必要とする。

ほとんどの音声認識システムは入力音声信号を受信し、
これらの音声信号を一連の音響特徴に変換する。この入
力音響特徴列が、音声単位ごとに予め得られている基準
特徴の一群と比較される。入力音声特徴が予め定めた評
価基準に従って蓄積基準特徴に一致した時に音声信号が
識別される。基準音声単位が発声語である時は、基準音
声特徴テンプレートは発声語の発音から直接抽出され
る。語彙が限られている時には語、節、又は文がテンプ
レートとして有用である。しかし、語彙が多い場合に
は、テンプレートメモリが大きくなりすぎてしまう。

音声合成の時と同様、音声認識においても部分メッセー
ジ単位の音声パタンを用いてテンプレートメモリを小さ
くすることが望ましい。1973年11月６日にG.L.Clapper
によって出願された米国特許第3,770,892号にあるよう
に、音声認識器において入力音声パタンを識別するため
に蓄積された部分メッセージ単位のテンプレートを直接
用いることもできるし、あるいは選択的に接続してより
長いメッセージパタンテンプレートを作ることもでき
る。特定の話者の音声パタンを用いる認識器では、シス
テムの使用者ごとに部分メッセージ単位の基準テンプレ
ートの語彙を得る必要がある。任意の話者の音声を認識
できる話者によらない方式では、極めて多数の代表する
部分メッセージ単位のテンプレートを必要とする、この
ためには多くの話者の音声パタン特徴を平均化又は分類
した後、多数の部分メッセージ単位のテンプレートを作
り出さねばならない。

理想的には、その人の音声を認識すべき個人ごとに一群
の部分メッセージ単位テンプレートを作るべきである。
しかし、テンプレートの形成には複雑で時間のかかる処
理が必要であるため、この方法では、２、３人以上にす
ることは困難である。1977年11月29日にM.Suzuki等によ
って出願された米国特許第4,060,694号は、複数の異な
った話者に対応できる音声認識装置を示している。この
システムでは、一群の音素特徴パラメータが１人の話者
から得られる。次に他の話者によって音素特徴を追加す
るのではなく、前に得られた音素特徴を人工的に変化さ
せて音素特徴にある範囲の幅を与えている。

発音音声を認識する前に、この発音に最も良く似た音素
群が人工的に作られた範囲から選択される。この方法に
より時間のかかる音素発声操作が省略されている。しか
し、人工的な音素群は実際の音の差と発音特性を近似す
るものに過ぎない。このため、人工的に形成した音素群
を用いると認識のあいまいさが増加する。

音声パタンテンプレートを発声する方法と装置はドイツ
特許公開2753277号に開示されている。そこに開示され
た技術は数字の認識に関するもので、有声部分のみを認
識している。この装置では、訓練モードにおいて、話す
べき特定の一連の数が要求される。次に操作者の発声を
分析して一連の音響特徴信号を発声する。各特徴信号は
一組の線型予測係数から成る。操作者の発声はさらに有
声音、無声音、サイレントとして分析され、有声部分に
対応する部分信号が抽出、記憶され、テンプレート形成
に用いられる。

この技術は柔軟性に欠け、より一般的な音声の処理には
応用できない。

本発明の目的は、既知の部分単位音声パタンを人手で解
析したりまた人工的に変化させることのない、改善され
た部分メッセージ単位のテンプレート形成方式を提供す
ることである。

発明の要約本発明においては、所望の部分単位に対応する部分列の
位置が既に定められている音響特徴信号の基準列を用い
る。これらの基準列は直接音声パタンテンプレートとし
て使用されるのではなく、同一の音声パタンについての
操作者の発声から得られる音響特徴信号の列と比較し
て、所望の部分単位に対応する部分列の位置を決定する
のに用いられる。これらの部分列は発声列から抽出され
た後音声パタンテンプレートを形成するのに用いられ
る。このようにして、全て操作者の発声から音声パタン
テンプレートを得る利点と、訓練行程を操作者にとって
わずらわしいものにすることなく有用な音声部分単位を
前もって選択することができる利点とが組合せて得られ
る。

基準音声パタンは基準語パタンであり、部分単位音声パ
タンは音素、準音節あるいは他の公知の語の要素として
得られる部分語単位のパタンである。

詳細な説明第１図は、部分語単位の音声パターン発声器のブロック
図であり、以前に蓄えられた基準テンプレートの一群に
基づいて、異った話者に対する一群の部分語単位のテン
プレートを供給するように構成されている。蓄えられて
いる基準テンプレートは句又はメッセージであり、その
下位単位は語又はより短いメッセージ単位である。メモ
リ150は当業者には公知の方法で予め抽出された一群の
基準語テ×８のEPROMあるいは類似の素子で構成でき
る。メモリ150内の各テンプレート、例えばＲ^Ｉは、一
連の音響特徴信号からなる。

Ｒ^Ｉ＝Ｒ^Ｉ（１）,R^Ｉ（２），…,R^Ｉ（ｍ），…，Ｒ^Ｉ（Ｍ_Ｉ） …（１）は、１人又はそれ以上の話者によって話された基準語
と、たとえば基準語の準音節のような指定された部分語
単位部の境界フレームNR1（Ｉ）及びNR2（Ｉ）に対応す
る信号を示している。たとえば、発音されれた基準語が
“back"の時、指定された部分語単位部分は最後の準音
節“ack"である。境界フレームは準音節“ack"の特徴信
号の位置を表わす。

第３図の流れ図は準音節音声パターン発声プロセスを示
している。最初、動作ブロック300で示すように、話者
は開始信号STと、話者識別信号SPを与える。インデック
ス開始ブロック305で示したように、基準語識別信号Ｉ
が１にセットされ、動作ブロック310で示したように、
話者が基準話Ｉの発音を入力するように要求する指令メ
ッセージが作られる。話者の発音が解析され、動作ブロ
ック315において、発音特徴信号の時間フレーム列Ｔ^Ｉ＝Ｔ^Ｉ（１）,T^Ｉ（２），…,T^Ｉ（Ｎ） …（２）が作られる。ブロック315において発音の長さが定めら
れた範囲と比較され、終了点誤りがチェックされる。発
音の長さが定められた範囲外にあると、制御は判定ブロ
ック320から動作ブロック370へ移り、発音をやり直せと
いうメッセージが作られる。次に動作ブロック310にお
いて語Ｉに対する発音要求が再び作られ、ブロック315
において、繰返された語Ｉの発音が解析される。

第１図において、準音節テンプレートを作るべき話者SP
は、一時的な開始信号STと話者識別信号SPとをコード発
生器103を介して制御器140に送る。発生器103は当業者
には公知のキーボードコード発生器で構成される。制御
器140は、たとえば、Electronic Design誌の1979年２月
号No.4の128−139頁にあるStephen Y Lau蓄の“Let a B
ipolar Processor Do Your Cotrol and take Advantage
of Its High Speed"に述べられているようなマイクロ
プロセッサ構成をとることができる。この制御器は、そ
こに印加される制御信号に応動して、その右側に示した
一連の制御信号を発生するように、永久に蓄えられた命
令に従って動作する。この制御器の蓄えられた命令は付
録ＡにFORTRAN言語によって示されている。

ST信号に応動して、制御器140は制御パルスWRS（語カウ
ンタリセット）とMST（メッセージ開始）を発生する。W
RSパルスは語カウンタ165をＩ＝１の状態にリセット
し、これによってメモリ150の最初の基準テンプレート
がアドレスされる。カウンタ165は74193型の集積回路で
実現できる。MSTパルスはメッセージ発生器135に印加さ
れる。この発生器は当業者には公知の方法で動作して、
話者に対し基準語Ｉ＝１の発音を指令する合成音声メッ
セージを発生する。メッセージ発生器135は、ナショナ
ルセミコンダクタ社のDT1050 DIGITALKER形の標準語キ
ットを用いることができる。指令メッセージが完了する
と、発生器135は信号MD（メッセージ終了）を制御器140
に印加して、話者の発音がマイクロホン101から得られ
るであろうことを知らせる。

信号MDに応動して、制御器140は制御パルスASを発生す
る。ASパルスは特徴信号発生器115に印加されてその動
作を開始させる。マイクロホン101からの音声信号は低
域フィルタ・サンプラ105に印加され、音声信号の帯域
幅がたとえば100Hzから3200Hzまでに制限されるととも
に、帯域制限された音声信号がたとえば6667Hzで周期的
にサンプルされる。一連の音声信号サンプルの各々は、
当業者には公知のように、アナログ・デジタル変換器11
0によってデジタルコード信号に変換される。

特徴信号発生器115は変換器110から符号化されたデジタ
ルサンプルを受信し、音声信号を表わす線形予測特徴信
号の時系列Ｔ^Ｉを発生する。発生器115はさらに一連の
特徴信号フレームの各々についてWR（書込み）パルスを
FIFOメモリ120及び122に印加する。一連のWRパルス応動
して、Ｔ^Ｉの特徴信号が先着順読出し（FIFO）メモリ12
0及び122に順に書込まれる。これらFIFOメモリの各々は
Signetics社の８×60形FIFORAM制御器を用いることがで
きる。

特徴信号発生器115は1978年５月30日にL.R.Rabiner等に
よって出願された米国特許第4,092,493号に述べられて
いる線形予測係数発生器及び1975年９月30日にL.R.Rabi
ner等によって出願された米国特許第3.909.532号に記さ
れている終了点検出器を含むことができる。この終了点
検出器はマイクロホン101に印加された音の終了を検出
する。予め定めた時間内に終了点が生じないと、発生器
115によってEPE（終了点誤り）信号が作られる。EPE信
号はオアゲート137を介してメッセージ発生器135へ印加
される。オアゲート137のERR出力により、制御器140はM
ST信号を作り、MSTは語を繰返すためのメッセージを発
生させる。発生器135からのMD（メッセージ終了）信号
が得られると、制御器140はASパルスを発生器115に印加
する。ASパルスは繰返される発音に対する特徴信号発生
を開始させる。

当業者には公知のように、音声の発音と速度は人によっ
て大きく異る。蓄えられている基準語特徴パタンＲ^Ｉは
Ｍ_Ｉ個のフレームを持つが、発音された特徴パタンＴ^Ｉ
はＮ≠Ｍ_Ｉ個のフレームを持つ。音声の速度の違いによ
る音声特徴パタンの差を除去するために、発音特徴信号
が線形的に変化され、第３図の動作ブロック325で示し
たように発音の長さをＭ_Ｉフレームに変えてしまう。こ
のためのスケールファクタN/M_Ｉは、後で逆方向に変化
させるために保持される。このようにして修正された音
声パタンＵ^ＩはＭ_Ｉフレームのパタンとなる。しかし、
発音の差により、修正された発音特徴信号列Ｕ^Ｉと基準
語特徴列Ｒ^Ｉとの間に非線形な関係を与えてしまう。

修正された発音パタンフレームと基準語パタンフレーム
との間の関係を求めるために、修正された発音特徴信号
列が、動作ブロック330において動的に時間的な歪を受
けて基準語特徴列に変化する。基準語と入力発音特徴信
号パタンとの最良の対応を表わす信号と、基準語フレー
ムに最良に対応する発音フレームの列に表わす一群の信
号σが動的時間歪によって作られる。対応信号は判定ブ
ロック335において予め定めたしきい値TH1と比較され
る。修正された発音パタン及び基準語パタンが十分良く
似ていない時には、ブロック370が実行されて前述のよ
うに発音が繰返される。

第１図で、発生器115は、語Ｉに対する特徴信号の発生
が終了するとADパルスを制御器140に印加する。この
時、メモリ120及び122の各々は、印加された発音による
一群の特徴信号Ｔ^Ｉを蓄えている。1977年４月26日にP.
E.Chrochiere等によって出願された米国特許第4,020,33
2号に示されている回路を含むことのできる線形時間歪
処理装置（リニア・タイム・ワープ・プロセサ）145
は、メモリ122からの特徴信号を修正して、基準テンプ
レートメモリ150に蓄えられている同じ語の基準特徴信
号と同じ時間長にする。すなわち、印加された発音のフ
レーム数（Ｎ）がメモリ150に蓄えられている語の基準
テンプレートのフレーム数（Ｍ_Ｉ）に変えられる。スケ
ールファクタN/N_Ｉに対応する信号SFが作られて処理装
置145に蓄えられる。

発生器115での特徴信号の発生が終了すると、制御パル
スADが発生器115から制御器140に印加される。このAD信
号に応動して制御器140はパルスLSを線形時間歪処理装
置145に印加し、線形時間歪動作を開始させる。処理装
置145はFIFOメモリ122から特徴信号列を受信し、これら
の特徴信号をＭ_Ｉフレームからなる修正された特徴信号Ｕ^Ｉ＝Ｕ^Ｉ（１）,U^Ｉ（２），…,U^Ｉ（ｊ），…，Ｕ^Ｉ（Ｍ_Ｉ） …（３）に変化させる。修正された発音特徴信号は処理装置145
内のフレームアドレス可能なメモリに蓄えられる。

修正された発音音声パタンと蓄えられている基準語音声
パタンとの間の時間整合は、基準語Ｒ^Ｉと修正された発
音Ｕ^Ｉとの間の発音の差を考慮して決めねばならい。当
業者には公知のように、修正された発音特徴信号は、最
良一致対応信号を形成するよう時間歪によって基準特徴信号に近づけら
れる。ただし、ｗ（ｉ）は特徴ベクトルＵ^Ｉ及びＲ^Ｉの
間の最適時間歪因子であり、である。

は修正された発音特徴Ｕ^Ｉのフレームｉと蓄えられてい
る基準特徴Ｒ^Ｉのフレームｊ＝ｗ（ｉ）との間の特徴ベ
クトル間の局所距離である。ｗ（ｉ）は通常、歪因子ｗ
（ｉ）の勾配が期待される音声パタンフレームの範囲に
対応するように制限される。式４の処理が完了した後、
Ｄ^Ｉ（Ｒ^Ｉ,U^Ｉ）は修正された発音特徴と基準語特徴と
の間の最良の類似性を表わし、歪因子ｗ（ｉ）は式４の
修正された発音特徴と基準特徴との間の時間整合路に対
応する。

動的時間歪処理において、蓄えられた基準特徴と修正さ
れた発音特徴との間で可能な時間整合路は、 DA（i,j）＝ｄ（i,j）＋min〔DA（ｉ−1,K）〕…（６）ｊ＝I₂≦ｋ≦ｊ−I₁ に従って点（i,j）として列挙される。ただし、１≦ｉ
≦Ｍ_Ｉは基準語特徴フレームで、１≦ｊ≦Ｍ_Ｉは修正さ
れた発音特徴フレームである。Ｄ_Ａ（i,j）は点（1,1）
から点（i,j）への経路についての累積された距離信号
である。

は、修正された発音特徴フレームｊにおける修正された
発音特徴ベクトルと、基準語特徴フレームｉにおける基
準語特徴ベクトルとの局所距離（式５）である。

式６の右端の項は基準語フレームｉ−１までと修正され
た発音フレームｊ−I₂≦ｋ≦ｊ−I₁との間の累積距離を
示している。フレームI₁は許容できる発音差を与えるよ
う選ばれる。もしｗ（ｉ−１）＝ｗ（ｉ−２）であれば
１にセットされ、そうでなければゼロにされる。I₂は通
常２にセットされる。よって、ｗ（ｉ−１）＝ｗ（ｉ−
２）であればｋはｊ−２からｉ−１の範囲の値をとり、
そうでなければｊ−２からｊまでの範囲をとる。動的時
間歪の構成はIEEE Transaction on Acoustics,Speech a
nd Speech Processing誌の1975年２月のASSP−23巻の67
−72頁にある。

F.Itakura著の論文“Minimum Prediction Pesidual Pri
nciple Applied to Sprrch Reconition"、及びIEEE Tra
nsactions on Acoustics,Speech and Signal Processin
g誌の1978年12月のASSP−26巻の575−582頁にあるL.R.R
abiner,A.E.Rosenberg及びS.E.Levinson著の論文“Cons
iderations in Dynamic Time Warping Algorithms for
Discrete Word Recognition"に詳細に示されている。

第１図の回路で、動的時間歪処理装置155は、式４に従
って全体の距離信号Ｄ^Ｉを発生する。前述のように、Ｄ
^Ｉは修正された発音特徴Ｕ^Ｉと基準語の基準語特徴Ｒ^Ｉ
との間の最良の類似性の測度となる。最良に対応する特
徴信号Ｕ^Ｉ（ｊ）及びＲ^Ｉ（ｉ）の間の時間歪経路ｗ
（ｉ）を表わす一群の時間整合信号も作られる。

DTW処理装置155は、マサチューセッツ州ウエストボロの
Data General Corporation社で発行され、同社が1979年
に版権を持っているMicroproducts Hardware Systemに
述べられているような処理装置、あるいは当業者に公知
の他の処理装置で実現できる。処理装置155は、マイク
ロNOVA MP 100システム処理装置、MP 1100 4K/8Kダイナ
ミックランダムアクセスメモリ、MP/100 8Kプログラム
可能読出し専用メモリ、及び１又はそれ以上のモデル42
2デジタルI/Oインターフェイス装置によって構成でき
る。この処理装置の一連の動作はその読出し専用メモリ
に永久に蓄えられた命令によって決定される。これらの
命令は付録ＢにFORTRANの言語の形式で示されている。
処理装置155が付録Ｂに示した、永久に蓄えられた命令
に従って動作すると、基準語フレームｉの各々について
式６の動的時間歪操作を行なう。時間整合のための基準
語フレームの選択は式６に従って行なわれる。

処理装置145において発音特徴の時間長変えが終了する
と、制御パルスLDにより、制御器140は状態を変え、信
号DSTを処理装置145に供給する。DST信号は一連の特徴
信号時間フレームに対する動的時間歪処理を開始させ
る。基準語フレームｉの各々において、基準語特徴信号
Ｒ^Ｉ（ｉ）がテンプレートメモリ150から処理装置155へ
転送される。フレームの範囲内で選択された一連の修正済み発音フレームｊがアドレ
スされ、特徴信号Ｕ^Ｉ（ｊ）が処理装置155に印加され
る。式７の範囲に対する累積距離信号Ｄ_Ａが処理装置15
5で作られ、ｗ（ｉ−１）とｗ（ｉ）との違いを表わす
信号σ＝ｉ−ｋが作られ各（ｉ、ｊ）点ごとに蓄えられ
る。最後の基準語フレームＭ_Ｉにおいて、最小累積距離
信号Ｄ_Ｉが選択され比較器160に印加される。

もし、選択された距離信号Ｄ_Ｉが予め定めたしきい値よ
り大きいと、TLE信号を発生する。この場合、蓄えられ
ている基準語パタンと修正された発音パタンとの類似性
が十分でなく、修正された発生パタン内の指定された準
音節についてのフレーム間隔を決定できない。従って、
語Ｉの新しい発音入力が要求される。信号TLEにより、
オアゲート137は制御信号ERRを発生し、この制御信号に
より前述のようにメッセージ発生器135が駆動される。
メッセージ発生器135は、発音の繰返しを要求するメッ
セージと語Ｉの発音であるメッセージを合成する。次に
制御器140は制御パルスASを特徴信号発生器115に印加し
て新しい発音の解析を開始させる。

処理装置155からの距離信号Ｄ_Ｉがしきい値TH1より小さ
いと、第１図の処理装置155からの制御パルスDDによ
り、制御器140はBTSパルスと、BT制御信号を発生する。
BTSパルスは動的時間歪処理装置155に印加され、第３図
の動作ブロック340で示されている逆追跡動作がこの処
理装置で開始される。処理装置155が逆追跡モードにあ
ると、一連の基準語フレームが逆順で作り出される。基
準語フレーム信号ｍ＝Ｍ_Ｉ,M_Ｉ−１，…,i,…,2,1は符
号化した、動的時間整合を表わす信号Ｒ_Ｒとして処理装
置から出力される。基準語フレームｉ＝Ｍ_Ｉがアドレス
された時、修正された発音の対応するフレームＦ_Ｓ＝Ｍ
_Ｉが作られる。基準フレームＭ_Ｉ−１では、対応する発
音フレームはＭ_Ｉ−σ（Ｍ_Ｉ）である。基準語フレーム
ｊの各々について処理が進むと、修正された発音フレー
ムｊ＝ｗ（ｉ＋１）−σ（ｉ＋１） …（８）が信号Ｆ_Ｓとして現われる。処理装置155のこの逆追跡
は付録ＢにFORTRAN言語で示した蓄積された命令によっ
て制御される。

逆追跡が進むと、修正された発音の準音節部が、第２図
に示した準音節フレーム選択器180で選択される。メモ
リ150内の基準語Ｉの各々について、基準語の準音節部
を表わす信号がメモリから得られる。第１図の回路で、
指定された準音節部の開始フレームに対応する信号NR1
（Ｉ）がメモリ150から選択器180内の比較器201の１つ
の入力に印加される。準音節部の終了フレームに対応す
る信号R2（Ｉ）はメモリ150から選択器180内の比較器20
3の１つの入力に印加される。比較器201及び203は１つ
又はそれ以上の7485型集積回路で実現できる。

逆追跡動作中の処理装置155からの一連の基準語フレー
ム信号Ｆ_Ｒは両方の比較器201及び203に印加される。基
準語フレーム信号Ｆ_Ｒが準音節終了点フレーム信号NR2
（Ｉ）に等しいと、比較器203の出力が付勢され、処理
装置155からの対応する修正ずみ発音フレームＦ_Ｓがラ
ッチ212に印加される。すなわちアンドゲート207は制御
信号Ｂ_Ｔと比較器203の付勢された出力とに応動してオ
ンになり、基準語準音節の終了フレームに対応する修正
された発音フレームがラッチ212に入れられる。ラッチ2
12及び第２図の他のラッチは１つ又はそれ以上の74273
型の集積回路で実現できる。

処理装置155における基準語フレームの列は同様に続け
られる。基準語フレーム信号Ｆ_Ｒが開始フレーム信号NR
1（Ｉ）に等しくなると、修正された発音の対応するフ
レームＦ_Ｓが、比較器201の付勢出力に応動してラッチ2
10に入れられる。処理装置155は基準語フレーム信号が
Ｆ_Ｒ＝１となるまで逆追跡動作をつづける。Ｆ_Ｒ＝１に
なると、処理装置155は逆追跡動作の終了を示す制御パ
ルスBTDを発生する。

この時、ラッチ210は、指定された準音節の開始フレー
ムに対応する修正ずみ発音フレームN1を含んでおり、ラ
ッチ212は修正ずみ発音内の指定された準音節の終了フ
レームに対応する修正ずみ発音フレーム信号N2を含んで
いる。しかし、修正された発音語は線形時間歪プロセッ
サ145で時間長を変えられたものであり、発音語の長さ
は基準語の長さに等しくなっている。この時間長変えの
時、修正された発音語長Ｎと入力の発音語長Ｍ_Ｉとの比
を表わす信号SFが作られている。

ラッチ210内の信号N1が乗算器215の１つの入力に印加さ
れ、スケールファクタSFがその別の入力に印加される。
乗算器215は元の発音語の指定された準音節の開始フレ
ームを表わす信号N1′を形成する。同様に、ラッチ212
からのN2信号は乗算器218でスケールファクタSFと乗算
され、元の発音語の指定された準音節の終了フレームを
表わす信号N2′となる。このようにして、元の発音語の
指定された準音節部はフレームN1′とN2′の間であると
決定される（第３図の動作ブロック345）。乗算器213及
び215の各々はTRWMPY−16HJ形の集積回路で実現でき
る。

第３図の動作ブロック340及び345の逆追跡動作の終りに
おいて、発音語の準音節部の境界フレームが乗算器215
及び213の出力で得られる。発音語の音声特徴信号列がF
IFOメモリ120に蓄えられる。第３図の動作ブロック350
で示されているように、発音語の指定された準音節部は
信号N1′及びN2′に応動して選択され、準音節メモリ12
5に蓄えられる。メモリ125はモステック社のMK4802形2K
×8RAM回路で実現できる。

逆追跡動作が完了すると制御パルスBTDが制御器140に印
加される。パルスBTDに応動して制御器140は状態を変
え、制御パルスXR及び制御信号WDSを発生する。XRパル
スは準音節フレームカウンタ226及び発音語フレームカ
ウンタ230をその初期状態にリセットする。これらのカ
ウンタは１つ又はそれ以上の74193形集積回路で実現で
きる。WDS信号は準音節特徴テンプレートメモリ125へ印
加され、FIFOメモリ120からの発音語特徴信号をそこに
書込むことを可能にする。

この時点で、識別された話者SPのＩ番目の語のＦ_Ｓ＝１
フレームがテンプレートメモリ125においてアドレスさ
れる。制御器140は一連のパルスXIを発生し、カウンタ2
30を順次増分させる。カウンタ230のＣ出力は一連の発
音語フレームを表わし、比較器220の１つの入力及び比
較器222の１つの入力に印加される。指定された準音節
の開始フレームN1′を表わす乗算器215の出力は比較器2
20の他の入力に印加される。カウンタ230からの発音語
フレーム信号Ｃが乗算器215からのフレーム信号N1′に
等しくなるまで比較器220の出力は消勢され、準音節カ
ウンタ226のFCフレーム出力は変化しない。この結果、F
IFOメモリ120からの一連の特徴信号が準音節特徴テンプ
レートメモリ125において基準語Ｉの第１フレーム位置
に書込まれる。

発音語フレームカウンタ230のＣ出力が乗算器215からの
準音節開始フレーム信号に等しくなると、比較器220が
付勢され、それにつづくXI計数パルスがアンドゲート22
4を介して準音節カウンタ226を増分させる。指定された
準音節開始フレームN1′に対する発音語特徴信号がテン
プレートメモリ125の基準語ＩのFC＝１位置に蓄えられ
る。比較器220は付勢されたままであるため、準音節カ
ウンタ226は連続して増分される。このようにして、指
定された準音節に対する一連の発音語特徴信号がテンプ
レートメモリ125の相続く位置に書込まれる。

発音語フレームカウンタ230の出力が指定された準音節
の終了フレームN2′に等しくなると比較器222が付勢さ
れる。指定された準音節の終了フレームで比較器222か
ら生じるXD信号は制御器140に印加される。制御器はXI
カウンタ増分パルスの発生を停止する。よって、指定さ
れた準音節内のすべての音語特徴信号がテンプレートメ
モリ125に蓄えられると、準音節フレーム選択器180の動
作が終了する。

制御器140は制御パルスXDに応動して制御パルスWIを語
カウンタ165に印加する。WIパルスは第３図のブロック3
55に示したように語カウンタ165を増分させ、メモリ150
内の次の基準語テンプレートがアドレスされる。計数出
力Ｉが最終語計数値IMAXよりも大きいと比較器170が付
勢される（判定ブロック360）。この場合、信号WDが出
され、第１図の回路はST（開始）信号が入力回路103か
ら受信されるまで待ちモードになる（動作ブロック36
5）。Ｉが最終基準語でない時には、信号▲▼が比
較器170から得られる。▲▼信号により、制御器140
は信号MSTを発生して、次の基準語の発音の要求がメッ
セージ発生器135で作られる。部分語単位のパタンがテ
ンプレートメモリ125に蓄えられた後、これらは音声認
識器や音声合成器である応用装置130に送られて用いら
れる。応用装置は、いうまでもなく、音声パタンテンプ
レートが用いられる任意の音声処理装置である。あるい
は、テンプレートは、読出し専用メモリに蓄えて音声処
理装置で用いることもできる。

本発明についてその特定の実施例を参照して説明した。
しかし、当業者にとっては、本発明の精神と範囲を逸脱
することなく形式や細部の種々の変更が可能であること
は明らかである。たとえば、基準音声パタンを接続した
語の連続したパタンに対応させ、部分単位音声パタンを
個々の語に対応させることができる。

【図面の簡単な説明】

第１図は本発明の一実施例である音声パタン発生器のブ
ロック図であり、第２図は第１図の回路の準音節セグメント選択器の詳細
なブロック図であり、第３図は本発明の音声パタン発生操作を示す流れ図であ
る。〔主要部分の符号の説明〕 115……特徴信号発生器 125……準音節特徴テンプレートメモリ 145……線形時間歪処理装置 150……基準テンプレートメモリ 155……動的時間歪処理装置 180……準音節フレーム選択器

フロントページの続き (72)発明者ロ−レンス・リチヤ−ド・ラビナ− アメリカ合衆国07922ニユ−ジヤ−シイ・ユニオン・バ−クレイ・ハイツ・シエアブルツク・ドライヴ58 (72)発明者ジエイ・ゴ−ドン・ウイルポンアメリカ合衆国07060ニユ−ジヤ−シイ・サマ−セツト・ウオ−レン・ラウンド・トツプ・ロ−ド75 (56)参考文献特開昭56−47100（ＪＰ，Ａ)

Claims

【特許請求の範囲】

【請求項１】音声パタンテンプレートを発生する装置で
あって、所定の基準音声パタンの発音を分析してこの発音を表わ
す音響特徴信号例を発生する手段、前記基準音声パタンの所定の部分単位に対応する音響特
徴信号の部分列を前記音響特徴信号列から抽出する手
段、前記部分列から前記音声パタンテンプレートを形成する
手段を含み、前記抽出手段は前記基準音声パタンを表わす音響特徴信号の基準列と、
前記部分単位に対応する音響特徴信号基準部分列の前記
基準列における位置を示す位置信号（NR1、NR2）とを記
憶する記憶手段（150）と、基準音声パタンの発音を表わす各音響特徴信号列と、こ
れと同一の基準音声パタンの基準列とを信号毎に比較し
て、前記発音を表わす音響特徴信号列と前記音響特徴基
準列との間の動的時間整合を表わす信号（Ｆ_Ｒ）を発生
する手段（145、155）と、前記時間整合信号と、前記音響特徴信号基準列に対する
位置信号（NR1、NR2）とに応動して、前記音響特徴信号
基準列の前記音響特徴信号基準部分列に対して前記時間
整合により関連づけられる、前記発音を表わす音響特徴
信号列から前記音響特徴信号部分列を選択する手段（18
0）とを含むことを特徴とする音声パタンテンプレート
を発生する装置。
【請求項２】音声パタンテンプレートを発生する方法で
あって、所定の基準音声パタンの発音を分析してこの発音を表わ
す音響特徴信号列を発生する工程、前記基準音声パタンの所定の部分単位に対応する音響特
徴信号の部分列を前記音響特徴信号列から抽出する工
程、前記部分列から前記音声パタンテンプレートを形成する
工程を含み、前記部分列を抽出するために、前記発音を表わす音響特
徴信号列を、同一の基準音声パタンを表わすあらかじめ
記憶された音響特徴信号の基準列と信号毎に比較して、
前記音響特徴信号列と前記基準列との間の動的時間整合
を表わす信号を発生すること、前記部分単位に対応する
基準部分列の、前記基準列における位置はあらかじめ定
められ記憶されていること、前記基準列の基準部分列に対して前記時間整合により関
連づけられる前記音響特徴信号列の部分列を選択するこ
と、を特徴とする音声パタンテンプレートを発生する方法。