JPS58102299A

JPS58102299A - 部分単位音声パタン発生装置

Info

Publication number: JPS58102299A
Application number: JP57202228A
Authority: JP
Inventors: フランク・クリストフア−・ピアツ; ロ−レンス・リチヤ−ド・ラビナ−; ジエイ・ゴ−ドン・ウイルポン
Original assignee: Western Electric Co Inc
Current assignee: AT&T Corp
Priority date: 1981-11-19
Filing date: 1982-11-19
Publication date: 1983-06-17
Anticipated expiration: 2010-01-18
Also published as: DE3242866A1; GB2109971A; JPH073640B2; CA1175569A; DE3242866C2; GB2109971B; US4454586A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】技術分野本発明は音声処理に関し、特に自動音声合成及び認識の
ための音声パタン発生に関する。

音声は通信のための便利で効率、の良い手段であるが、
一般に機械類はスイッチ、キーボード、あるいはディス
プレイ等を用い、符号によって通信するように構成され
ている。電子技術の進歩により、計算機や自動制御装置
のような機械に対して音声によるインターフェイスを与
えることも可能になって来た。公知の技術によれば、符
号化された音声要素の語案ヲ蓄えている音声合成器に対
して機械信号が印加される。合成器は機械信号に対応す
る音声パタン全蓄えられた要素を接続して作り出す。こ
の音声バタンは電気音響変換器によって話されるメツセ
ージに変換される。音声認識器は発声された発音を受信
しこの発音パタンを予め蓄えられた音声バタンと比較す
る。この発音パタンは、最も良く一致する蓄えられたパ
タンであるものと認識され、一致したバタンに対応する
機械信号が作り出される。このようにして機械との音声
通信が行なわれる。

音声合成の１つの形式では、音声バタンは蓄積された語
索として記憶される。コード信号に応動して、選択され
たパタンか音声要素として蓄えられた語粟から検索され
、メツセージ信号に組立てられる。メツセージ信号は次
に音響列に変換される。蓄えられた語粟内の基本音声単
位は大きなメツセージ単位とすることもできる。しかし
、多数の語粟が要求されると、異なったメツセージ音声
パタンのだめのメモリ量が不経済的なものになってしま
う。

部分メツセージ単位バタンを用いれば、メツセージの形
成に大きな融通性が生じ、語粟メモリも小さくてすむ。

例えば音素、準シラブル、又は２個組みのような部分語
音声単位を用いると、非常に少ない蓄積語案から多種類
のメツセージを作ることができる。当業者には公知のよ
うに、部分語音声単位は一般に通常の会話の語長のパタ
ンから抽出される。

しかし１、通常の会話から部分メツセージ単位の特徴を
発生する処理は複雑であり、時間のかかる解析と専門家
による介在と修正を必要とする。

はとんどの音声認識システムは人力音声信号を受信し、
これらの音声信号を一連の音響特徴に変換する。どの人
力音響特徴列が、音声単位ごとに予め得られている基準
特徴の一群と比較される。入力音声特徴が予め定めた評
価基準に従って蓄積基準特徴に一致した時に音声信号が
識別される。基準音声単位が発声語である時は、基準音
声特徴テンプレートは発声語の発音から直接抽出される
。語粟が限られている時には語−節、又は文がテンプレ
ートとして有用である。しかし、語粟が多い場合には、
テンプレートメモリが大きくなりすぎてしまう。

音声合成の時と同様、音声認識においても部分メツセー
ジ単位の音声バタンを用いてテンプレートメモリを小さ
くすることが望ましい。１９７３年１１月６日にＧ、　
Ｌ、　Ｃ１ａｐｐｅｒによって出願された米国特許第３
，７７０，８９２号にあるように、音声認識器において
人力音声バタンを識別するために蓄積された部分メツセ
ージ単位のテンプレート全直接用いることもできるし、
あるいは選択的に接続してより長いメツセージパタンテ
ンプレートを作ることもできる。特定の話者の音声バタ
ンを用いる認識器では、システムの使用者ごとに部分メ
ツセージ単位の基準テンプレートの語粟ヲ得る必要があ
る。任意の話者の音声全認識できる話者によらない方式
では、極めて多数の人を代表する部分メツセージ単位の
テンプレート’）ｒ必要とする。このためには多くの話
者の音声バタン特長を平均化又は分類した後、多数の部
分メツセージ単位のテンプレートを作り出さねばならな
い。

理想的には、その人の音声を認識すべき１１間人ごとに
一群の部分メツセージ単位テンプレートを作るべきであ
る。しかし、テンプレートの形成には複雑で時間のかか
る処理力；ｌ・要であるため、この方法では２．３Å以
上にすることは困難である。１９７７年１１月２９日に
ＫＳｕｚｕｋｉ　　等によって出願された米国特許第４
．０６０．６９４号は、複数の異なった話者に対応でき
る音声認識装置を示している。

このシステムでは、一群の音素特徴パラメータが１人の
話者から得られる。次に他の話者によって音素特徴を追
加するのではなく、前に得られた音素特徴を人工的に変
化させて音素特徴にある範囲の幅を与えている。

発音音声を認識する前に、この発音に最も良く似た音素
群が人工的に作られた範囲から選択される。この方法に
より時間のかかる音素発生操作が省略されている。しか
し、人工的な音素群は実際の音の差と発音特性を近似す
るものに過ぎない。このため、人工的に形成した音素群
を用いると認識のあいまいさが増加する。本発明の目的
は、既知の部分単位音声バタンを人手で解析したりまた
人工的に変化させることのない、改善された部分メツセ
ージ単位のテンプレート形成方式を提供することである
。

発明の要約本発明は複数個の基準音声パタンテンプレートが蓄えら
れている音声バタン発生装置に関する。各テンプレート
は、話された基準音声パタンの列からなる。基準音声パ
タンテンプレートの各々について、基準音声バタンテン
プレート特徴信号列内の予め定めた部分中位を表わす一
信号も蓄えられている。所定の基準音声パタンに対する
発音が解析されて発昌を表わす一連の音響特徴信号が作
られる。蓄えられている基準音声バタン特徴信号列と基
準音声バタン発音特徴信号列とに応動し、発音音声の特
徴信号の、蓄えられている特徴信号に対する時間整合を
表わす一群の信号が作られる。蓄えられている基準音声
パタンテンプレートの予め定めた部分単位に対応する発
音特徴信号の列が、時間整合信号と蓄えられている予め
定めた部分単位を表わす信号とに応動して選択される。

基準音声パタンは基準語パタンであシ、部分単位音声パ
タンは音素、準シラブルあるいは他の公知の語の要素と
して得られる部分語単位のパタンである。

詳細な説明第１図は、部分語単位の音声パターン発生器のブロック
図であり、以前に蓄えられた基準テンプレートの一群に
基づいて、異った話者に対する一群の部分語単位のテン
プレートを供給するように構成されている。蓄えられて
いる基準テンプレートは句又はメツセージであり、その
下位単位は語又はより短いメツセージ単位である。メモ
リ１５０は当業者には公知の方法で予め抽出された一群
の基準語テンプレートを含んでいる。メモリ１５０はイ
ンテル２７１６形２に×８のＥＦＲＯＭあるいは類似の
素子・で構成できる。メモリ１５０内の各テンプレート
、例えばＲ１は、一連の音響特徴信号からなる。

Ｒ”　＝Ｒ１（１）、　Ｒ１（２）、・・・、Ｒ１に）
、・・・、Ｒ１（Ｍｌ）・・・（１）は、１人又はそれ
以上の話者によって話された基準語と、たとえば基準語
の準シラブルのような指定された部分語単位部の境界フ
レームＮ　Ｒ１（Ｉ）及びＮ　Ｒ２（Ｉ）に対応する信
号を示している。たとえば、発音された基準語が”ｂａ
ｃｋ　″の時、指定された部分語単位部分は最後の準シ
ラブル’　ａｃｋ“である。境界フレームは準シラブル
’　ａｃｋ　“の特徴信号の１）７置を表わす。

第３図の流れ図は準シラブル音声パターン発生プロセス
を示している。最初、動作ブロック３００で示すように
、話者は開発信号ＳＴと、話者識別信号ＳＰｋ与える。

インデックス開始ブロック３０５で示したように、基準
語識別信号■が１にセットされ、動作ブロック３１０で
示したように、話者が基準語■の発音を入力するように
要求する指令メツセージが作られる。話者の発音が解析
され、動作ブロック３１５において、発音特徴信号の時
間フレーム列Ｔ　’　＝Ｔ　’（１）、　Ｔ　１（２）、・・・ＴＩ
（へ）　°°°（２）が作られる。ブロック３１５にお
いて発音の長さが定められた範囲と比較され、終了点誤
りがチェックされる。発音の長さが定められた範囲外に
あると、・制御は判定ブロック３２０から動作ブロック
３７０へ移り、発音をやり直せというメツセージが作ら
れる。次に動作ブロック３１０において語Ｉに対する発
音要求が再び作られ、ブロック３１５にあ・いて、繰返
された語Ｉの発音が解析される。

第１図において、準シラブルテンプレニトを作るべき話
者ｓｐは、一時的な開始信号ＳＴと話者識別信号ＳＰと
をコード発生器１０３を介して制御器１４０に送る。発
生器１０３は当業者には公知のキーボードコード発生器
で構成できる。制御器１４０は、たとえは、Ｅｌｅｃｔ
ｒｏｎｉｃ　Ｄｅｓｉｇｎ誌の１９７９年２月号屋４の
Ｌ２８−１３９頁にある３ｔｅｐｈｅｎＹＬａｕ著の’
　Ｌｅｔ　ａ　Ｂｉｐｏｌａｒ　Ｐｒｏｃｅｓｓｏｒ　
Ｄ。

Ｙｏｕｒ　Ｃｏｎｔｒｏｌ　ａｎｄ　ｔａｋｅ　Ａｄｖ
ａｎｔａｇｅ　ｏｆ　ＩｔｓＨｉｇｂ　５ｐｅｅｄ　“
に述べられているようなマイクロプロセッサ構成をとる
ことができる。この制御器は、そこに印加される制御信
号に応動して、その右側に示した一連の制御信号を発生
するように、永久に蓄えられた命令に従って動作する。

この制御器の蓄えられた命令は付録ＡにＦＯＲＴＲＡＮ
言語によって示されている。

ＳＴ倍信号応動して、制御器１４０はｉｔ’ｌｌ　Ｉｌ
ｌパルスＷＲ８（語カウンタリセット）とＭＳＴ（メツ
セージ開始）を発生する。ＷＲＳパルスは語カウンタ１
６５ｋＩ＝１の状態にリセットし、これによってメモリ
１５０の最初の基準テンプレートがアドレスされる。カ
ウンタ１６５は７４１９３型の集積回路で実現できる。

ＭＳＴパルスはメツセージ発生器１３５に印加される。

この発生器は当業者には公知の方法で動作、して、話者
、に対し基準語Ｉ＝１の発音を指令する合成音声メツセ
ージを発生する。メツセージ発生器１３５は、ナショナ
ルヤミコンダクタ社のＤＴ１０５０　ＤＩＧＩＴＡＬＫ
ＥＲ形の標準語案キットを用いることができる。

指令メツセージが完了すると、発生器１３５は信号ＭＤ
（メツセージ終了）を制御器１４０に印加して、話者の
発音がマイクロホン１０１から得られるであろうことを
知らせる。

信号ＭＤに応動して、制御器１４０は制御パルスＡＳ′
！！ｉ１″発生する。ＡＳパルスは特徴信号発生器１１
５に印加されてその動作を開始させる。マイクロホン１
０１からの音声信号は低域フィルタ・サンプラ１０５に
印加され、音声信号の帯域幅がたとえば１００Ｈｚ　か
ら３２００　Ｈｚ　までに制限されるとともに、帯域制
限された音声信号がたとえば６６６７　Ｈｚで周期的に
サンプルされる。一連の音声信号サンプルの各々は、当
業者には公知のように、アナログ・デジタル変換器１１
．０によってデジタルコード信号に変換される。

特徴信号発生器１１５は変換器１１０から符号化された
デジタルサンプルを受信し、音声信号を表わす線形予測
特徴信号の時系列Ｔｌ−１発生する。発生器１１５１ｄ
さらに一連の特徴信号フレームの各々についてＷＲ（書
込み）パルスｆ：Ｆ　Ｉ　ＦＯメモリ１２０及び１２２
に印加する。一連のＷＲパルスに応動して、Ｔ１　の特
徴信号が先着順読出しくＦＩＦＯ）メモリ１２０及び１
２２に順に書込まれる。これらＦＩＦＯメモリ９各々は
Ｓｉｇｎｅｔｉｃｓ社の８×６０形Ｆ　Ｉ　Ｆ　ＯＲＡ
Ｍ制制器を用いることができる。

特徴信号発生器１１５は１９７８年５月３０日にり、　
Ｒ，Ｒａｂ　ｉ　ｎｅ　ｒ等によって出願された米国特
許第４．０９２．４９３号に述べら−ｔでいる線形予測
係数発生器及び１９７５年９月３０日にり、　Ｒ，Ｒａ
ｂｉｎｅｒ等によって出願された米国特許第３．９０９
．５３２号に記されている終了点検出器を含むことがで
きる。この終了点検出器はマイクロホン１０１に印加さ
れた発音の終了を検出する。予め定めた時間内に終了点
が生じないと、発生器１１５によってＥＰＥ　（終了点
誤り）信号が作られる。ＥＰＥ信号はオアゲート１３７
を介してメツセージ発生器１３５へ印加される。オアゲ
ート１３７のＥＲＲ出力により、制御器１４０はＭＳＴ
信号金作り、ＭＳ↑は語を繰返すためのメツセージを発
生させる。発生器１３５からのＭＩ＞（メツセージ終了
）信号が得られると、制御器１４０はＡｓパルスを発生
器１１５に印加する。Ａｓパルスは繰返えされる発音に
対する特徴信号発生を開始させる。

当業者には公知のように、音声の発音と速度は人によっ
て大きく異る。蓄えられている基準語特徴バタンＲ１は
Ｍ１個のフレームを持つが、発音された特徴バタンＴＩ
はＮ＼Ｍ■ 個のフレームを持つ。音声の速度の違いによる音声特徴
バタンの差を除去するために、発音特徴信号が線形的に
変化され、第３図の動作ブロック３２５で示したように
発音の長さ全Ｍ１フレームに変えてしまう。このための
スケールファクタＮ／Ｍ、は、後で逆方向に変化させる
ために保持される。このようにし■ て修正された発音バタンＵ　はＭｌ　　フレームのバタ
ンとなる。しかし、発音の差により、修正された発音特
徴信号列Ｕ１　　と基準語特徴列Ｒ１との間に非線形な
関係を与えてしまう。

修正された発音バタンフレームと基準語バタンフレーム
との間の関係を求めるために、修正された発音特徴信号
列が、動作ブロック３３０において動的に時間的な歪を
受けて基準語特徴列に変化する。基準語と人力発音特徴
信号バタンとの最良の対応を表わす信号と、基準語フレ
ームに最良に対応する発音フレームの列を表わす一群の
信号σが動的時間歪によって作られる。対応信号は判定
ブロック３３５において予め定めたしきい値ＴＨＩと比
較される。修正された発音バタン及び基準語バタンか十
分良く似ていない時には、ブロック３７０が実行されて
前述のように一発音が繰返えされる。

第１図で、発生器１１５は、語■に対する特徴信号の発
生が終了するとＡＤパルス全制御器１４０に印加する。

この時、メモリ１２０及び１２２く各々は、印加された
発音による一群の特徴信号Ｔ１　　を蓄えている。１９
７７年４月２６日にＰ、’Ｅ、　Ｃｈｒｏｃｈｉｅｒｅ
　等によって出願された米国特許第４．０２０．３３２
号に示されている回路金倉むことのできる線形時間歪処
理装置（リニア・タイム・ワープ・プロセサ）１４５は
、メモリ１２２からの特゛徴信号を修正して、基準テン
プレートメモリ１５Ｇに蓄えられている同じ語の基準特
徴信号と同じ時間長にする。すなわち、印加された発音
のフレーム数（Ｎ）がメモリ１５０に蓄えられている語
の基準テンプレートのフレーム数（Ｍｌ）に変えられる
。スケールファクタＮ／Ｍ１に対応する信号ＳＦが作ら
れて処理装置１４５に蓄えられる。

発生器１１５での特徴信号の発生が終了すると、制御パ
ルスＡＤが発生器１１５から制御器１４０に印加される
。このＡＤ倍信号応動して制御器１４０はパルスＬＳ（
（線形時間歪処理装置１４５に印加し、線形時間歪動作
を開始させる。処理装置１４５はＦＩＦＯメモリ１２２
から特徴信号列を受信し、これらの特徴信号ヲＭＩ　フ
レームからなる修正さｔまた特徴信号Ｕ　■＝Ｕ　’（１）、　Ｕ　’（２）、・・・、Ｕｌ
（ｊ）、・・・、　Ｕ’　（Ｍｌ）　　・・・（３）に
変化させる。修正された発育特徴信号は処理装置１４５
内のフレームアドレス可能なメモリに蓄えられる。

修正された発育音声バタンと□蓄えられている基準語音
声バタンとの間の時間整合は、基準語ＲＩと修正された
発音Ｕ１との間の発汗の差を考慮して決−めねばならな
い。当業者には公知のように、修正された発音特徴信号
は、最良一致対応信号を形成するよう時間歪によって基準特徴信号に近づけら
れる。ただし、Ｗ（ｊ）は特徴へクトＪＬＵＩ　及びＲ
１の間の最適時間歪因子であシ、ｄ　（ｉ、　ｊ　）＝
ｄ（Ｒ１（ｔ）、　ｔｒｌ（ｊ）　）＝ｔｏｇ　（Ｒ１
（ｔ）・ｔｒ’（ｊ））−（５）のフレームｉと蓄えら
れている基準特徴Ｒ１のフレームｊ　＝　ｗ（ｉ）との
間の特徴ベクトル間の局所距離である。ｗ　（ｉ）は通
常、歪因子ｗ　（ｉ）の勾配が期待される音声バタンフ
レームの範囲に対応するように制限される。式４の処理
が完了した後、ＤＩ　（ＲＩ、　ＵＩ）は修正された発
音特徴と基準語特徴との間の最良の類似性を表わし、歪
因子、（ｉ）は式４の修正された発音特徴と基準特徴と
の間の時間整合路に対応する。

動的時間歪処理において、蓄えられた基準特徴と修正さ
れた発音特徴との間で可能な時間整谷路は、ＤＡい、　ｊ）＝ｄ　（ｔ、　ｊ）＋ｍｉｎ　（ＤＡ（
ｉ　−１，ｋ）　］　・・（６）ｊ　−Ｉｚ＜ｋりｊ　
−Ｉ　ｔに従って点（ｉ、ｊ）として列挙される。ただし、１≦
ｉ≦Ｍ１　は基準語特徴フレームで、ｌ≦ｊ≦町は修正
された発音特徴フレームである。ＤＡ（ｉ、ｊ）は点（
１，１）から点（ｉ、ｊ）への経路についての累積され
た距離信号である。ｄ（ｉ、ｊ）は、修正された発音特
徴フレームｊにおける修正された発音特徴ベクトルと、
基準語特徴フレームｌにおける基準語特徴ベクトルとの
局所距離（式５）弐６の右端の項は基準語フレーム１−
Ｉｔでと修正された発音フレームｊ−Ｉ２　〈ｋくｊ−Ｉｔ　との間の累積距離を示して
いる。フレーム■１は許容できる発音差を与えるよう選
弓れる。もしｗ　（ｉ　−１）　＝ｗ　（ｉ　−２）で
あれば１にセットされ、そうでなければゼロにされる。

Ｉ２は通常２にセットされる。よって、ｗ（ｉ−１）＝ｗ（ｉ−２）であればｋはｊ−２からｉ−１の範囲の値
をとシ、そうでなければｊ−２からｊｌでの範′囲をと
る。動的時間歪の構成はＩＥＥＥ　　Ｔｒａｎｓａｃｔ
ｉｏｎ　ｏｎ　Ａｃｏｕｓｔｉｃｓ　、　　５ｐｅｅｃ
ｈａｎｄ　５ｐｅｅｃｈ　Ｐｒｏｃｅｓｓｉｎｇ誌の１
９７５年２月のＡＳＳＰ−２３巻の６７−７２頁にある
、Ｆ。

Ｉｔａｋｕｒａ著の論文’　Ｍｉｎｉｍｕｍ　Ｐｒｅｄ
ｉｃｔｉｏｎＰｅｓｉｄｕａｌ　　Ｐｒ１ｎｃｉｐｌ’
ｅ　Ａｐｐｌｉｅｄ　　ｔｏ　５ｐｅｅｃｈＲｅｃｏｎ
ｉｔｉｏｎ　’　、及びＩＥＥＥ　Ｔｒａｎｓａｃｔｉ
ｏｎｓ　ｏｎＡｃｏｕｓｔｉｃｓ　、５ｐｅｅｃｈ　ａ
ｎｄ　Ｓｉｇｎａｌ　　Ｐｒｏｃｅｓｓｉｎｇ誌の１９
７８年１２月のＡＳＳＰ−２６巻の５７５−５８２頁に
あるり、　Ｒ，Ｒａｂ′１ｎｅｒ　。

Ａ、　Ｅ、　ｌ’Ｌｏｓｅｎｂｅｒｇ及びＳ、　Ｅ、　
Ｌｅｖｉｎｓｏｎ　　著の論文’　Ｃｏｎ５ｉｄｅｒａ
ｔｉｏｎｓ　ｉｎ　Ｄｙｎａｍｉｃ　ＴｉｍｅＷａｒｐ
ｉｎｇ　Ａｌｇｏｒｉｔｈｍｓ　ｆｏｒ　Ｄｉｓｃｒｅ
ｔｅ　ＷｏｒｄＲｅｃｏｇｎｉｔｉｏｎ　’に詳細に示
されている。

第１図の回路で、動的時間歪処理装置１５５は、式４に
従って全体の距離信号ＤＩ、５発生する。前述のように
、Ｄｌ　は修正された発音■ 特徴Ｕ　と基準語の基準語特徴ＲＩ　　との間の最良の
類似性の測度となる。最良に対応する特徴信号Ｕ’（ｊ
）及びＲ１（ｉ）　　の間の時間歪経路Ｗ（ｉ）を表わ
す一群の時間整合信号も作られる。

ＤＴＷ処理装置１５５は、マサチューセッツ州ウェスト
ボロのＤａｔａ　ＧｅｎｅｒａｌＣｏｒｐｏｒａｔｉｏ
ｎ社で発行され、同社が１９７９年に版権を持っている
Ｍｉ　ｃｒｏｐｒｏｄｕｃｔｓＨａｒｃｌｗａｒｅ　Ｓ
ｙｓｔｅｍに述べられているような処理装置、あるいは
当行者に公知の他の処理装置で実現できる。処理装置１
５５は、マイクＯＮ０ＶＡ　ＭＰ　１００シフ、テム処
理装置、ＭＰｌｌｏｏ　　４に／８にダイナミックラン
ダムアクセスメモリ、ＭＰ／１００　８にプログラム可
能読出し専用メモリ、及び１又はそれ以上のモデル４２
２デジタルＩ１０インターフエイス装置によって構成で
きる。この処理装置の一連の動作はその読出し専用メモ
リに永久に蓄えられた命令によって決定される。

これらの命令は付録ＢにＦＯＲＴＲＡＮの言語の形式で
示されている。処理装置１５５が付録Ｂに示した、永久
に蓄えられた命令に従って動作すると、基準語フレーム
ｉの各々について弐６の動的時間歪操作を行なう。時間
整合のだめの基準語フレームの選択は式６に従って行な
われる。

処理装置１４５において発音特徴の時間長変えが終了す
ると、制御パルスＬＤによシ、制御器１４０は状態を変
え、信号ＤＳＴ’ｉ処理装置１４５に供給する。ＤＳＴ
信号は一連の特徴信号時間フレームに対する動的時間歪
処理を開始させる。基準語フレームｉの各々において、
基準語特徴信号・Ｒ’（ｉ）　　がテンプレートメモリ
ー５０から処理装置１５５へ転送される。フレームの範
囲Ｌ（ｊ）　＝　ｍａ　Ｘ　［−（ｊ−１）　、Ｍ、Ｌ−
２（ＭＩ−ｊ）　、　１　）Ｈ（ｊ）　−ｍｉｎ（２（
ｊ　１）９Ｍｌ　　（Ｍｌ　、ｊ）９Ｍｌ）・・・（７
）内で選択された一連の修正済み発音フレームｊがアド
レスされ、特徴信号Ｕ’（ｊ）　　が処理装置１５５に
印加される。式７の範囲に対する累積距離信号ＤＡが処
理装置１５５で作られ、ｗ（ｉ−’１）とＷ　（ｉ）と
の違いを表わす信号σ＝ｉ−ｋが作られ各（ｔ、ｊ）点
ごとに蓄えられる。最後の基準語フレームＭ１　におい
て、最小累積距離信号ＤＩ　が選択され比較器１６０に
印、加される。

もし、選択された距離信号ＤＪ　が予め矩めたしきい値
より大きいと、ＴＬＥ信号を発生する。この場合、蓄え
られている基準語バタンと修正された発音バタンとの類
似性が十分でなく、修正された発生バタン内の指定され
た準シラブルについでのフレーム間隔を決定できない。

従って、語Ｉの新しい発音人力が要求される。信号ＴＬ
Ｅにより、オアゲート１３７は制御信号ＥＲＲｆ：発生
し、この制御信号により前述のようにメツセージ発生Ｉ
Ｊ１３５が駆動される。メツセージ発生器１３５は、発
音の繰返しを要求するメツセージと語■の発音であるメ
ツセージを合成する。次に制御器１４０は制御パルスＡ
Ｓを特徴イｇ号発生器１１５に印加して新しい発音の解
析を開始させる。

処理装置１５５からの距離信号Ｄ１　がしきい値ＴＨＩ
より小さいと、第１図の処理装置１５５からの制御パル
スＤＤにより、制御器１４０はＢＴＳパルスとＢＴ制御
信号を発生する。ＢＴＳパルスは動的時間歪処理装置１
５５に印加され、第３図の動作ブロック３４０で示され
ている逆追跡動作がこの処理装置で開始される。処理装
置１５５が逆追跡モードにあると、一連の基準語フレー
ムが逆順で作シ出される。基準語フレーム信号ｍ＝ＭＩ
　１Ｍｌ−１，・・・ｌｉｔ・・・、２，１　は符号化
祖号ＦＲとして処理装置から出力される。基準語フレー
ムｉ”＝　ＭＩ　がアドレスされた時、修正された発音
の対応するフレームＦＢ＝Ｍ□　が作られる。基準フレ
ームＭ１−１では、対応する発音フレームはＭ−σ（Ｍ
ｌ）である。基準語フレ■ −ムｊの各々について処理が進むと、修正された発音フ
レームｊ＝ｗ（ｉ＋１）−〇（ｉ＋１）　　　・・・（８）が
信号Ｆｓ　として現われる。処理装置１５５のこの逆追
跡は付録ＢにＦＯＲＴＲＡＮ　言ｍで示した蓄積された
命令によって制御される。

逆追跡が進むと、修正、された発音の準シラブル部が、
第２図に示した準シラブＪＬ−フレーム選択器１８０で
選択される。メモリ１５０内の基準語■の各々について
、基準語の準シラブル部を表わす信号がメモリから得ら
れる。

第１図の回路で、指定された準シラブノし部の開始フレ
ームに対応する信号Ｎ　Ｒ，ｔ　（Ｉ）力；メモリ１５
０から選択器１８０内の比較器２０１の１つの人力に印
加される。準シラブ）しＲの終了フレームに対応する信
号Ｎ　Ｒ２（Ｉ）はメモリ１５０から選択器１８０内の
比較器２０３の１つ９人力に印加される。比較器２０１
及び２０３は１つ又はそれ以上の７４８５型１４も積回
路で実現できる。

逆追跡動作中の処理装置１５５からの一連の基準フレー
ムＦＲは両方の比較器２０１及び２０３に印加される。

基準語フレーム４８吋ＦＲが準シラブル終了点フレーム
信号ＮＲ２（１）に等しいと、比較器２０３の出力が付
勢され。

処理装置からの対応する修正ずみ発音フレームＦ８　が
ラッチ２１２に印加される。すなわちアンドゲート２０
７は制御信号ＢＴ　と比較器２０３の付勢された出力と
に応動してオンになり、基準語率シラブルの終了フレー
ムに対応する修正された発音フレームがラッチ２１２に
入れられる。ラッチ２１２及び第２図の他のラッチは１
つ又はそれ以上の７４２７３型の集積回路で実現できる
。

処理装置１５５における基準語フレームの列は同様に続
けられる。フレーム信号ＦＲが開始フレーム信号Ｎ　Ｒ
１（Ｉ）に等しくなると、修正された発音の対応するフ
レームＦ８が、比較器２０１の付勢出力に応動してラッ
チ２１０に入れられる。処理装置１５５は基準フレーム
信号がＦＲ＝１となるまで逆追跡動作をつづける。ＦＲ
＝１になると、処理装置１５５は逆追跡動作の終了を示
す制御パルスＢＴＤを発生する。

この時、ラッチ２１０は、指定された準シラブルの開始
フレームに対応する修正ずみ発音フレームＮｌｉ含んで
おり、ラッチ２１２は修正ずみ発音内の指定された準シ
ラ・プルの終了フレームに対応する修正ずみ発音フレー
ム信号Ｎ２を含んでいる。しかし、修正された発音語は
線形時間歪プロセッサ１４５で時間長を変えられたもの
であり、発音語の長さは基準語の長さに等しくなってい
る。この時間長変えの時、修正された発音語長Ｎと人力
の発音語長Ｍ□　との比を表わす信号ＳＦが作られてい
る。

ラッチ２１０内の信号Ｎ１が乗算器２１５の１つの入力
に印加され、スケールファクタＳＦがその別の入力に印
加される。乗算器２１５は元の発音語の指定された準シ
ラブルの開始フレームを表わす信号Ｎｌ”ｚ形成する。

同様に、ラッチ２１２からのＮ２信号は乗算器２１８で
スケールファクタＳＦと乗１゜され、元の発音語の指定
された準シラブルの終了フレームを表わす信号Ｎ２’と
なる。このようにして、元の発音語の指定された準シラ
ブル部はフレームＮｌ’とＮ２’の間であると決定され
る（第３図の動作ブロック３４５）。

乗算器２１３及び２１５の各々はＴＲＷ　ＭＰＹ−１６
ＨＪ形の集積回路で実現できる。

第３図の動作ブロック３４０及び３４５の逆追跡動作の
終シにおいて、発音語の準シラブル部の境界フレームが
乗算器２１５及び２１３の出力で得られる。発音語の音
声特徴信号列がＦＩＦＯメモリ１２０に蓄えられる。

第３図の動作ブロック３５０で示されているように、発
音語の指定された準シラブル部は信号Ｎｌ’及びＮ２’
に応動して選択され、準シラブルメモリ１２５に蓄えら
れる。メモリ１２５はモスチック社のＭＫ４８０２形２
ＫＸ８ＲＡＭ回路で実現できる。

逆追跡動作が完了すると制御パルスＢＴＤが制御器１４
０に印加される。パルスＢＴＤに応動して制御器１４０
は状態を変え、制御パルスＸＲ及び制御信号ＷＤＳｉ発
生する。

ＸＲパルスは準シラブルフレームカウンタ２２６及び発
音語フレームカウンタ２３０’ｔその初期状態にリセッ
トする。これらのカウンタは１つ又はそれ以上の７４１
９３形集積回路で実現できる。ＷＤＳ信号は準シラブル
特徴テンプレートメモリー２５へ印加され、ＦＩＦＯメ
モリー２０からの発音語特徴信号全そこに書込むことを
可能にする。

この時点で、識別された話者ＳＰの１番［１の語のＦ　
＝１フレームがテンブレー゛トメモリ１２５においてア
ドレスされる。制御器１４０は′一連のパルスＸＩ’に
発生し、カウンタ２３０を順次増分させる。カウンタ２
３０のＣ出力は一連の発音語フレームを表わし、比較器
２２０の１つの入力及び比較器２２２の１つの入力に印
加さ□れる。指定された準シラブルの開始フレームＮｌ
”ｉ表わ−す乗算器２１５の出力は比較器２２０の他の
入力に印加さ７１る。カウンタ２３０からの発音語フレ
ーム信号Ｃが乗算器２１５からのフレーム信号Ｎｌ’に
等しくなるまで比較器２２０の出力は消勢され、準シラ
ブルカウンタ２２６のＦＣフレーム出力は変化しない。

この結果、ＦＩＦＯメモリ１２０から・の一連の特徴信
号が準シラブル特徴テンプレートメモリ１２５において
基準語Ｉの第１フレーム位置に書込まれる。

発音語フレームカウンタ２３０のＣ出力が乗算器２１５
からの準シラブル開始フレーム信号に等しくなると、比
較器２２０が付勢され、それにつづくＸＩ計数パルスが
アンドゲート２２４を介して準シラブルカウンタ２２６
を増分させる。指定された準シラブル開始フレームＮｌ
’に対する発音諸特徴信号がテンプレートメモリ１２５
の基準語■のＦＣ＝１位置に蓄えられる。比較器２２０
は付勢されたままであるため、準シラブルカウンタ２２
６は連続して増分される。このようにして、指定された
準シラブルに対する一連の発音諸特徴信号がテンプレー
トメモリ１２５の相続く位置に書込まれる。

発音語フレームカウンタ２３０の出力が指定された準シ
ラブルの終了フレームＮ２’に等しくなると比較器２２
２が付勢される。指定された準シラブルの終了フレーム
で比較器２２２から生じるＸＤ倍信号制御器１４０に印
加される。制御器はＸＩカウンタ増分パルスの発生を停
止する。よって、指定された準シラブル内のすべての発
音諸特徴信号がテンプレートメモリ１２５に蓄えられる
と、準シラブルフレーム選択器１８０の動作が終了する
。

制御器１４０は割部パルスＸＤに応動して制御パルスＷ
Ｉを語カウンタ１６５に印加する。ＷＩパルスは第３図
のブロック３５５に示したように語カウンタ１６５を増
分させ、メモリ１５０内の次の基準語テンプレートがア
ドレスされ為。語計数出力Ｉが最終語計数値Ｉ　ＭＡＸ
よシも大きいと比較器１７０が付勢される（判定ブロッ
ク３６０）。この場合、信号ＷＤが出され、第１図の回
路はＳＴ（開始）信号が入力回路１０３から受信される
まで待ちモードになる（動作ブロック３６５）。

■が最終基準語でない時には、信号ＷＤが比較器１７０
から得ちれる。ＷＤ倍信号より、制御器１４０は信号Ｍ
ＳＴ’ｉ発生して、次の基準語の発音の要求がメツセー
ジ発生器１３５で作られる。部分語単位のバタンかテン
プレートメモリ１２５に蓄えられた後、これらは音声認
識器や音声合成器である応用装置１３０に送られて用い
られる。応用装置は、いうまでもなく、音声パタンテン
プレートが用いられる任意の音声処理装置である。ある
いは、テンプレートは、読出し専用メモリに蓄えて音声
処理装置で用いることもできる。

本発明についてその特定の実施例を参照して説明した。

しかし、当業者にとっては、本発明の精神と範囲を逸脱
することなく形式や細部の種々の変更が可能であること
は明らかである。たとえば、基準音声バタンを接続した
語の連続したパタンに対応させ、部分栄位音声バタン全
開々の語に対応させることができる。

付　　　録ＩＡＩＥＮＤＦＥＮＴＲＹ　　　　ｌ０ＩＮＩＴＤＥＦ　　工ｗＣＤＥＦＴＭＰＳＦＥＮＴＲＹ　　　　ＷＡＩＴＤＥＦＡＲＧＳＤＥＦ　　ＩＷＤＤＥＦＴＭＰＳＦＥＮＴＲＹ　　　０ＵＴＰＵＴＤＥＦ　　工ＷＤＤＥＦ　　工ＭＳＫＤＥＦＴＭＰＳＦＥＮＴＲＹ　　　工ＮＰＵＴ付　　　録ｔＢ１ＣＡＬＬ讐ＡＩＴ　（ＤＳＴ）ＦＳＵＢＲＩＰ＝ＦＳＵＢＲ１ＤＩ＝ＤＯＩＦ（工ＭＰ、ＥＱ、０ＪＧＯＴｏ　２５１ＣＬＱＱＰ
　ＢＡＣＫ　Ｔｏ　ＢＥＧ工ＮＮ工ＮＧＧＯＴｏ　　９
９９ＮＤＰＲ１＝＝Ｏ。

ＮＤＲＥＴＤＥＦ　　工ＷＤＤＥＦ　　工ＭＳＫＣＮＤＦＥＮＴＲＹ　　　　　　　　　　０ＴＤＤＥＦ　　工
ＷＤＤＥＦＴＭＰＳＦＥＮＴＲＹ　　　　　　　　　工ＮＲＦＥＮＴＲＹ　
　　　　　　　　工ＮｔＪ、ＥＮＤ

【図面の簡単な説明】

第１図は本発明の一実施例である音声バタン発生器のブ
ロック図であり、第２図は第１図の回路の準シラブルセグメント選択器の
詳細なブロック図であり、第３図は本発明の音声バタン
発生操作を示す流れ図である。〔主要部分の符号の説明〕テンプレートを複数個・・・・・・第１図のメモリ蓄積
する手段　　　　　　１５０部分単位を表わす信号・・・・・・第１図のメモリを複
数個蓄積する手段　　１５０音響会話信号を発生ず・・・・・・第１図の特徴信号る
手段　　　　　　　　　発生器１１５　　　一時間整合
を表わす信号・・・・・・第１図の時間歪処を発生する
手段　　　　　理装置１４５，１５５選択する手段　　
　　・・・・・・第１図の準シラブルフレーム選択器８０第１頁の続き０発　明　者　ジエイ・ゴートン・ウィルポンアメリカ
合衆国０７０６０ニユージヤーシイ・サマーセット・ウオーレン・ラウンド・トップ・ロード７５

Claims

【特許請求の範囲】１、発声された所定の基準音声パタンを表わす音響特徴
信号の時間フレーム列から成る基準音声パタンテンプレ
ートを複数個蓄積する手段と、該基準音声パタンの各々
について該基準音声パタンテンプレート内の予め定めた
少なくと、も１つの部分単位を表わす信号を複数個蓄積
する手段と、基準音声パタンの発音を解析して該発音を
表わす一連の音響会話信号を発生する手段と、発音語特
徴信号列と蓄えられた基準音声パタン特徴信号列との時
間整合を表わす信号を発生する手段と、該時間整合信号
と該基準部分単位を表わす信号とに応動して該蓄積され
た基準音声パタンテンプレート内の予め定めた部分単位
に対応する一連の発音語特徴信号を選択する手段とを特
徴とする部分単位音声バタン発生装置。２、特許請求の範囲第１項記載の部分単位音声バタン発
生装置において、該部分単位蓄積手段が該基準パタンテ
ンプレートにおいて該部分単位の開始する時間フレーム
を表わす第１の信号と該部分単位の終了する時間フレー
ムを表わす第２の信号とを蓄える手段を含んでいること
と、該選択手段が該時間整合信号に応動して該第１の信
号に対応する発音語の第１の時間フレームと該第２の信
号に対応する発音語の第２の時間フレームとを検出する
手段と、該第１の時間フレームから該第２の時間フレー
ムまでの発音語特徴信号を蓄える手段とを含んでいるこ
ととを特徴とする装置。