JPS58102299A - 部分単位音声パタン発生装置 - Google Patents

部分単位音声パタン発生装置

Info

Publication number
JPS58102299A
JPS58102299A JP57202228A JP20222882A JPS58102299A JP S58102299 A JPS58102299 A JP S58102299A JP 57202228 A JP57202228 A JP 57202228A JP 20222882 A JP20222882 A JP 20222882A JP S58102299 A JPS58102299 A JP S58102299A
Authority
JP
Japan
Prior art keywords
signal
pronunciation
word
feature
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP57202228A
Other languages
English (en)
Other versions
JPH073640B2 (ja
Inventor
フランク・クリストフア−・ピアツ
ロ−レンス・リチヤ−ド・ラビナ−
ジエイ・ゴ−ドン・ウイルポン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
Western Electric Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Western Electric Co Inc filed Critical Western Electric Co Inc
Publication of JPS58102299A publication Critical patent/JPS58102299A/ja
Publication of JPH073640B2 publication Critical patent/JPH073640B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 技術分野 本発明は音声処理に関し、特に自動音声合成及び認識の
ための音声パタン発生に関する。
音声は通信のための便利で効率、の良い手段であるが、
一般に機械類はスイッチ、キーボード、あるいはディス
プレイ等を用い、符号によって通信するように構成され
ている。電子技術の進歩により、計算機や自動制御装置
のような機械に対して音声によるインターフェイスを与
えることも可能になって来た。公知の技術によれば、符
号化された音声要素の語案ヲ蓄えている音声合成器に対
して機械信号が印加される。合成器は機械信号に対応す
る音声パタン全蓄えられた要素を接続して作り出す。こ
の音声バタンは電気音響変換器によって話されるメツセ
ージに変換される。音声認識器は発声された発音を受信
しこの発音パタンを予め蓄えられた音声バタンと比較す
る。この発音パタンは、最も良く一致する蓄えられたパ
タンであるものと認識され、一致したバタンに対応する
機械信号が作り出される。このようにして機械との音声
通信が行なわれる。
音声合成の1つの形式では、音声バタンは蓄積された語
索として記憶される。コード信号に応動して、選択され
たパタンか音声要素として蓄えられた語粟から検索され
、メツセージ信号に組立てられる。メツセージ信号は次
に音響列に変換される。蓄えられた語粟内の基本音声単
位は大きなメツセージ単位とすることもできる。しかし
、多数の語粟が要求されると、異なったメツセージ音声
パタンのだめのメモリ量が不経済的なものになってしま
う。
部分メツセージ単位バタンを用いれば、メツセージの形
成に大きな融通性が生じ、語粟メモリも小さくてすむ。
例えば音素、準シラブル、又は2個組みのような部分語
音声単位を用いると、非常に少ない蓄積語案から多種類
のメツセージを作ることができる。当業者には公知のよ
うに、部分語音声単位は一般に通常の会話の語長のパタ
ンから抽出される。
しかし1、通常の会話から部分メツセージ単位の特徴を
発生する処理は複雑であり、時間のかかる解析と専門家
による介在と修正を必要とする。
はとんどの音声認識システムは人力音声信号を受信し、
これらの音声信号を一連の音響特徴に変換する。どの人
力音響特徴列が、音声単位ごとに予め得られている基準
特徴の一群と比較される。入力音声特徴が予め定めた評
価基準に従って蓄積基準特徴に一致した時に音声信号が
識別される。基準音声単位が発声語である時は、基準音
声特徴テンプレートは発声語の発音から直接抽出される
。語粟が限られている時には語−節、又は文がテンプレ
ートとして有用である。しかし、語粟が多い場合には、
テンプレートメモリが大きくなりすぎてしまう。
音声合成の時と同様、音声認識においても部分メツセー
ジ単位の音声バタンを用いてテンプレートメモリを小さ
くすることが望ましい。1973年11月6日にG、 
L、 C1apperによって出願された米国特許第3
,770,892号にあるように、音声認識器において
人力音声バタンを識別するために蓄積された部分メツセ
ージ単位のテンプレート全直接用いることもできるし、
あるいは選択的に接続してより長いメツセージパタンテ
ンプレートを作ることもできる。特定の話者の音声バタ
ンを用いる認識器では、システムの使用者ごとに部分メ
ツセージ単位の基準テンプレートの語粟ヲ得る必要があ
る。任意の話者の音声全認識できる話者によらない方式
では、極めて多数の人を代表する部分メツセージ単位の
テンプレート’)r必要とする。このためには多くの話
者の音声バタン特長を平均化又は分類した後、多数の部
分メツセージ単位のテンプレートを作り出さねばならな
い。
理想的には、その人の音声を認識すべき11間人ごとに
一群の部分メツセージ単位テンプレートを作るべきであ
る。しかし、テンプレートの形成には複雑で時間のかか
る処理力;l・要であるため、この方法では2.3Å以
上にすることは困難である。1977年11月29日に
KSuzuki  等によって出願された米国特許第4
.060.694号は、複数の異なった話者に対応でき
る音声認識装置を示している。
このシステムでは、一群の音素特徴パラメータが1人の
話者から得られる。次に他の話者によって音素特徴を追
加するのではなく、前に得られた音素特徴を人工的に変
化させて音素特徴にある範囲の幅を与えている。
発音音声を認識する前に、この発音に最も良く似た音素
群が人工的に作られた範囲から選択される。この方法に
より時間のかかる音素発生操作が省略されている。しか
し、人工的な音素群は実際の音の差と発音特性を近似す
るものに過ぎない。このため、人工的に形成した音素群
を用いると認識のあいまいさが増加する。本発明の目的
は、既知の部分単位音声バタンを人手で解析したりまた
人工的に変化させることのない、改善された部分メツセ
ージ単位のテンプレート形成方式を提供することである
発明の要約 本発明は複数個の基準音声パタンテンプレートが蓄えら
れている音声バタン発生装置に関する。各テンプレート
は、話された基準音声パタンの列からなる。基準音声パ
タンテンプレートの各々について、基準音声バタンテン
プレート特徴信号列内の予め定めた部分中位を表わす一
信号も蓄えられている。所定の基準音声パタンに対する
発音が解析されて発昌を表わす一連の音響特徴信号が作
られる。蓄えられている基準音声バタン特徴信号列と基
準音声バタン発音特徴信号列とに応動し、発音音声の特
徴信号の、蓄えられている特徴信号に対する時間整合を
表わす一群の信号が作られる。蓄えられている基準音声
パタンテンプレートの予め定めた部分単位に対応する発
音特徴信号の列が、時間整合信号と蓄えられている予め
定めた部分単位を表わす信号とに応動して選択される。
基準音声パタンは基準語パタンであシ、部分単位音声パ
タンは音素、準シラブルあるいは他の公知の語の要素と
して得られる部分語単位のパタンである。
詳細な説明 第1図は、部分語単位の音声パターン発生器のブロック
図であり、以前に蓄えられた基準テンプレートの一群に
基づいて、異った話者に対する一群の部分語単位のテン
プレートを供給するように構成されている。蓄えられて
いる基準テンプレートは句又はメツセージであり、その
下位単位は語又はより短いメツセージ単位である。メモ
リ150は当業者には公知の方法で予め抽出された一群
の基準語テンプレートを含んでいる。メモリ150はイ
ンテル2716形2に×8のEFROMあるいは類似の
素子・で構成できる。メモリ150内の各テンプレート
、例えばR1は、一連の音響特徴信号からなる。
R” =R1(1)、 R1(2)、・・・、R1に)
、・・・、R1(Ml)・・・(1)は、1人又はそれ
以上の話者によって話された基準語と、たとえば基準語
の準シラブルのような指定された部分語単位部の境界フ
レームN R1(I)及びN R2(I)に対応する信
号を示している。たとえば、発音された基準語が”ba
ck ″の時、指定された部分語単位部分は最後の準シ
ラブル’ ack“である。境界フレームは準シラブル
’ ack “の特徴信号の1)7置を表わす。
第3図の流れ図は準シラブル音声パターン発生プロセス
を示している。最初、動作ブロック300で示すように
、話者は開発信号STと、話者識別信号SPk与える。
インデックス開始ブロック305で示したように、基準
語識別信号■が1にセットされ、動作ブロック310で
示したように、話者が基準語■の発音を入力するように
要求する指令メツセージが作られる。話者の発音が解析
され、動作ブロック315において、発音特徴信号の時
間フレーム列 T ’ =T ’(1)、 T 1(2)、・・・TI
(へ) °°°(2)が作られる。ブロック315にお
いて発音の長さが定められた範囲と比較され、終了点誤
りがチェックされる。発音の長さが定められた範囲外に
あると、・制御は判定ブロック320から動作ブロック
370へ移り、発音をやり直せというメツセージが作ら
れる。次に動作ブロック310において語Iに対する発
音要求が再び作られ、ブロック315にあ・いて、繰返
された語Iの発音が解析される。
第1図において、準シラブルテンプレニトを作るべき話
者spは、一時的な開始信号STと話者識別信号SPと
をコード発生器103を介して制御器140に送る。発
生器103は当業者には公知のキーボードコード発生器
で構成できる。制御器140は、たとえは、Elect
ronic Design誌の1979年2月号屋4の
L28−139頁にある3tephenYLau著の’
 Let a Bipolar Processor 
D。
Your Control and take Adv
antage of ItsHigb 5peed “
に述べられているようなマイクロプロセッサ構成をとる
ことができる。この制御器は、そこに印加される制御信
号に応動して、その右側に示した一連の制御信号を発生
するように、永久に蓄えられた命令に従って動作する。
この制御器の蓄えられた命令は付録AにFORTRAN
言語によって示されている。
ST倍信号応動して、制御器140はit’ll Il
lパルスWR8(語カウンタリセット)とMST(メツ
セージ開始)を発生する。WRSパルスは語カウンタ1
65kI=1の状態にリセットし、これによってメモリ
150の最初の基準テンプレートがアドレスされる。カ
ウンタ165は74193型の集積回路で実現できる。
MSTパルスはメツセージ発生器135に印加される。
この発生器は当業者には公知の方法で動作、して、話者
、に対し基準語I=1の発音を指令する合成音声メツセ
ージを発生する。メツセージ発生器135は、ナショナ
ルヤミコンダクタ社のDT1050 DIGITALK
ER形の標準語案キットを用いることができる。
指令メツセージが完了すると、発生器135は信号MD
(メツセージ終了)を制御器140に印加して、話者の
発音がマイクロホン101から得られるであろうことを
知らせる。
信号MDに応動して、制御器140は制御パルスAS′
!!i1″発生する。ASパルスは特徴信号発生器11
5に印加されてその動作を開始させる。マイクロホン1
01からの音声信号は低域フィルタ・サンプラ105に
印加され、音声信号の帯域幅がたとえば100Hz か
ら3200 Hz までに制限されるとともに、帯域制
限された音声信号がたとえば6667 Hzで周期的に
サンプルされる。一連の音声信号サンプルの各々は、当
業者には公知のように、アナログ・デジタル変換器11
.0によってデジタルコード信号に変換される。
特徴信号発生器115は変換器110から符号化された
デジタルサンプルを受信し、音声信号を表わす線形予測
特徴信号の時系列Tl−1発生する。発生器1151d
さらに一連の特徴信号フレームの各々についてWR(書
込み)パルスf:F I FOメモリ120及び122
に印加する。一連のWRパルスに応動して、T1 の特
徴信号が先着順読出しくFIFO)メモリ120及び1
22に順に書込まれる。これらFIFOメモリ9各々は
Signetics社の8×60形F I F ORA
M制制器を用いることができる。
特徴信号発生器115は1978年5月30日にり、 
R,Rab i ne r等によって出願された米国特
許第4.092.493号に述べら−tでいる線形予測
係数発生器及び1975年9月30日にり、 R,Ra
biner等によって出願された米国特許第3.909
.532号に記されている終了点検出器を含むことがで
きる。この終了点検出器はマイクロホン101に印加さ
れた発音の終了を検出する。予め定めた時間内に終了点
が生じないと、発生器115によってEPE (終了点
誤り)信号が作られる。EPE信号はオアゲート137
を介してメツセージ発生器135へ印加される。オアゲ
ート137のERR出力により、制御器140はMST
信号金作り、MS↑は語を繰返すためのメツセージを発
生させる。発生器135からのMI>(メツセージ終了
)信号が得られると、制御器140はAsパルスを発生
器115に印加する。Asパルスは繰返えされる発音に
対する特徴信号発生を開始させる。
当業者には公知のように、音声の発音と速度は人によっ
て大きく異る。蓄えられている基準語特徴バタンR1は
M1個のフレームを持つが、発音された特徴バタンTI
はN\M■ 個のフレームを持つ。音声の速度の違いによる音声特徴
バタンの差を除去するために、発音特徴信号が線形的に
変化され、第3図の動作ブロック325で示したように
発音の長さ全M1フレームに変えてしまう。このための
スケールファクタN/M、は、後で逆方向に変化させる
ために保持される。このようにし■ て修正された発音バタンU はMl  フレームのバタ
ンとなる。しかし、発音の差により、修正された発音特
徴信号列U1  と基準語特徴列R1との間に非線形な
関係を与えてしまう。
修正された発音バタンフレームと基準語バタンフレーム
との間の関係を求めるために、修正された発音特徴信号
列が、動作ブロック330において動的に時間的な歪を
受けて基準語特徴列に変化する。基準語と人力発音特徴
信号バタンとの最良の対応を表わす信号と、基準語フレ
ームに最良に対応する発音フレームの列を表わす一群の
信号σが動的時間歪によって作られる。対応信号は判定
ブロック335において予め定めたしきい値THIと比
較される。修正された発音バタン及び基準語バタンか十
分良く似ていない時には、ブロック370が実行されて
前述のように一発音が繰返えされる。
第1図で、発生器115は、語■に対する特徴信号の発
生が終了するとADパルス全制御器140に印加する。
この時、メモリ120及び122く各々は、印加された
発音による一群の特徴信号T1  を蓄えている。19
77年4月26日にP、’E、 Chrochiere
 等によって出願された米国特許第4.020.332
号に示されている回路金倉むことのできる線形時間歪処
理装置(リニア・タイム・ワープ・プロセサ)145は
、メモリ122からの特゛徴信号を修正して、基準テン
プレートメモリ15Gに蓄えられている同じ語の基準特
徴信号と同じ時間長にする。すなわち、印加された発音
のフレーム数(N)がメモリ150に蓄えられている語
の基準テンプレートのフレーム数(Ml)に変えられる
。スケールファクタN/M1に対応する信号SFが作ら
れて処理装置145に蓄えられる。
発生器115での特徴信号の発生が終了すると、制御パ
ルスADが発生器115から制御器140に印加される
。このAD倍信号応動して制御器140はパルスLS(
(線形時間歪処理装置145に印加し、線形時間歪動作
を開始させる。処理装置145はFIFOメモリ122
から特徴信号列を受信し、これらの特徴信号ヲMI フ
レームからなる修正さtまた特徴信号 U ■=U ’(1)、 U ’(2)、・・・、Ul
(j)、・・・、 U’ (Ml)  ・・・(3)に
変化させる。修正された発育特徴信号は処理装置145
内のフレームアドレス可能なメモリに蓄えられる。
修正された発育音声バタンと□蓄えられている基準語音
声バタンとの間の時間整合は、基準語RIと修正された
発音U1との間の発汗の差を考慮して決−めねばならな
い。当業者には公知のように、修正された発音特徴信号
は、最良一致対応信号 を形成するよう時間歪によって基準特徴信号に近づけら
れる。ただし、W(j)は特徴へクトJLUI 及びR
1の間の最適時間歪因子であシ、d (i、 j )=
d(R1(t)、 trl(j) )=tog (R1
(t)・tr’(j))−(5)のフレームiと蓄えら
れている基準特徴R1のフレームj = w(i)との
間の特徴ベクトル間の局所距離である。w (i)は通
常、歪因子w (i)の勾配が期待される音声バタンフ
レームの範囲に対応するように制限される。式4の処理
が完了した後、DI (RI、 UI)は修正された発
音特徴と基準語特徴との間の最良の類似性を表わし、歪
因子、(i)は式4の修正された発音特徴と基準特徴と
の間の時間整合路に対応する。
動的時間歪処理において、蓄えられた基準特徴と修正さ
れた発音特徴との間で可能な時間整谷路は、 DAい、 j)=d (t、 j)+min (DA(
i −1,k) ] ・・(6)j −Iz<kりj 
−I t に従って点(i、j)として列挙される。ただし、1≦
i≦M1 は基準語特徴フレームで、l≦j≦町は修正
された発音特徴フレームである。DA(i、j)は点(
1,1)から点(i、j)への経路についての累積され
た距離信号である。d(i、j)は、修正された発音特
徴フレームjにおける修正された発音特徴ベクトルと、
基準語特徴フレームlにおける基準語特徴ベクトルとの
局所距離(式5)弐6の右端の項は基準語フレーム1−
Itでと修正された発音フレーム j−I2 〈kくj−It との間の累積距離を示して
いる。フレーム■1は許容できる発音差を与えるよう選
弓れる。もしw (i −1) =w (i −2)で
あれば1にセットされ、そうでなければゼロにされる。
I2は通常2にセットされる。よって、w(i−1)= w(i−2)であればkはj−2からi−1の範囲の値
をとシ、そうでなければj−2からjlでの範′囲をと
る。動的時間歪の構成はIEEE  Transact
ion on Acoustics 、  5peec
hand 5peech Processing誌の1
975年2月のASSP−23巻の67−72頁にある
、F。
Itakura著の論文’ Minimum Pred
ictionPesidual  Pr1ncipl’
e Applied  to 5peechRecon
ition ’ 、及びIEEE Transacti
ons onAcoustics 、5peech a
nd Signal  Processing誌の19
78年12月のASSP−26巻の575−582頁に
あるり、 R,Rab′1ner 。
A、 E、 l’Losenberg及びS、 E、 
Levinson  著の論文’ Con5idera
tions in Dynamic TimeWarp
ing Algorithms for Discre
te WordRecognition ’に詳細に示
されている。
第1図の回路で、動的時間歪処理装置155は、式4に
従って全体の距離信号DI、5発生する。前述のように
、Dl は修正された発音■ 特徴U と基準語の基準語特徴RI  との間の最良の
類似性の測度となる。最良に対応する特徴信号U’(j
)及びR1(i)  の間の時間歪経路W(i)を表わ
す一群の時間整合信号も作られる。
DTW処理装置155は、マサチューセッツ州ウェスト
ボロのData GeneralCorporatio
n社で発行され、同社が1979年に版権を持っている
Mi croproductsHarclware S
ystemに述べられているような処理装置、あるいは
当行者に公知の他の処理装置で実現できる。処理装置1
55は、マイクON0VA MP 100シフ、テム処
理装置、MPlloo  4に/8にダイナミックラン
ダムアクセスメモリ、MP/100 8にプログラム可
能読出し専用メモリ、及び1又はそれ以上のモデル42
2デジタルI10インターフエイス装置によって構成で
きる。この処理装置の一連の動作はその読出し専用メモ
リに永久に蓄えられた命令によって決定される。
これらの命令は付録BにFORTRANの言語の形式で
示されている。処理装置155が付録Bに示した、永久
に蓄えられた命令に従って動作すると、基準語フレーム
iの各々について弐6の動的時間歪操作を行なう。時間
整合のだめの基準語フレームの選択は式6に従って行な
われる。
処理装置145において発音特徴の時間長変えが終了す
ると、制御パルスLDによシ、制御器140は状態を変
え、信号DST’i処理装置145に供給する。DST
信号は一連の特徴信号時間フレームに対する動的時間歪
処理を開始させる。基準語フレームiの各々において、
基準語特徴信号・R’(i)  がテンプレートメモリ
ー50から処理装置155へ転送される。フレームの範
囲 L(j) = ma X [−(j−1) 、M、L−
2(MI−j) 、 1 )H(j) −min(2(
j 1)9Ml  (Ml 、j)9Ml)・・・(7
)内で選択された一連の修正済み発音フレームjがアド
レスされ、特徴信号U’(j)  が処理装置155に
印加される。式7の範囲に対する累積距離信号DAが処
理装置155で作られ、w(i−’1)とW (i)と
の違いを表わす信号σ=i−kが作られ各(t、j)点
ごとに蓄えられる。最後の基準語フレームM1 におい
て、最小累積距離信号DI が選択され比較器160に
印、加される。
もし、選択された距離信号DJ が予め矩めたしきい値
より大きいと、TLE信号を発生する。この場合、蓄え
られている基準語バタンと修正された発音バタンとの類
似性が十分でなく、修正された発生バタン内の指定され
た準シラブルについでのフレーム間隔を決定できない。
従って、語Iの新しい発音人力が要求される。信号TL
Eにより、オアゲート137は制御信号ERRf:発生
し、この制御信号により前述のようにメツセージ発生I
J135が駆動される。メツセージ発生器135は、発
音の繰返しを要求するメツセージと語■の発音であるメ
ツセージを合成する。次に制御器140は制御パルスA
Sを特徴イg号発生器115に印加して新しい発音の解
析を開始させる。
処理装置155からの距離信号D1 がしきい値THI
より小さいと、第1図の処理装置155からの制御パル
スDDにより、制御器140はBTSパルスとBT制御
信号を発生する。BTSパルスは動的時間歪処理装置1
55に印加され、第3図の動作ブロック340で示され
ている逆追跡動作がこの処理装置で開始される。処理装
置155が逆追跡モードにあると、一連の基準語フレー
ムが逆順で作シ出される。基準語フレーム信号m=MI
 1Ml−1,・・・lit・・・、2,1 は符号化
祖号FRとして処理装置から出力される。基準語フレー
ムi”= MI がアドレスされた時、修正された発音
の対応するフレームFB=M□ が作られる。基準フレ
ームM1−1では、対応する発音フレームはM−σ(M
l)である。基準語フレ■ −ムjの各々について処理が進むと、修正された発音フ
レーム j=w(i+1)−〇(i+1)   ・・・(8)が
信号Fs として現われる。処理装置155のこの逆追
跡は付録BにFORTRAN 言mで示した蓄積された
命令によって制御される。
逆追跡が進むと、修正、された発音の準シラブル部が、
第2図に示した準シラブJL−フレーム選択器180で
選択される。メモリ150内の基準語■の各々について
、基準語の準シラブル部を表わす信号がメモリから得ら
れる。
第1図の回路で、指定された準シラブノし部の開始フレ
ームに対応する信号N R,t (I)力;メモリ15
0から選択器180内の比較器201の1つの人力に印
加される。準シラブ)しRの終了フレームに対応する信
号N R2(I)はメモリ150から選択器180内の
比較器203の1つ9人力に印加される。比較器201
及び203は1つ又はそれ以上の7485型14も積回
路で実現できる。
逆追跡動作中の処理装置155からの一連の基準フレー
ムFRは両方の比較器201及び203に印加される。
基準語フレーム48吋FRが準シラブル終了点フレーム
信号NR2(1)に等しいと、比較器203の出力が付
勢され。
処理装置からの対応する修正ずみ発音フレームF8 が
ラッチ212に印加される。すなわちアンドゲート20
7は制御信号BT と比較器203の付勢された出力と
に応動してオンになり、基準語率シラブルの終了フレー
ムに対応する修正された発音フレームがラッチ212に
入れられる。ラッチ212及び第2図の他のラッチは1
つ又はそれ以上の74273型の集積回路で実現できる
処理装置155における基準語フレームの列は同様に続
けられる。フレーム信号FRが開始フレーム信号N R
1(I)に等しくなると、修正された発音の対応するフ
レームF8が、比較器201の付勢出力に応動してラッ
チ210に入れられる。処理装置155は基準フレーム
信号がFR=1となるまで逆追跡動作をつづける。FR
=1になると、処理装置155は逆追跡動作の終了を示
す制御パルスBTDを発生する。
この時、ラッチ210は、指定された準シラブルの開始
フレームに対応する修正ずみ発音フレームNli含んで
おり、ラッチ212は修正ずみ発音内の指定された準シ
ラ・プルの終了フレームに対応する修正ずみ発音フレー
ム信号N2を含んでいる。しかし、修正された発音語は
線形時間歪プロセッサ145で時間長を変えられたもの
であり、発音語の長さは基準語の長さに等しくなってい
る。この時間長変えの時、修正された発音語長Nと人力
の発音語長M□ との比を表わす信号SFが作られてい
る。
ラッチ210内の信号N1が乗算器215の1つの入力
に印加され、スケールファクタSFがその別の入力に印
加される。乗算器215は元の発音語の指定された準シ
ラブルの開始フレームを表わす信号Nl”z形成する。
同様に、ラッチ212からのN2信号は乗算器218で
スケールファクタSFと乗1゜され、元の発音語の指定
された準シラブルの終了フレームを表わす信号N2’と
なる。このようにして、元の発音語の指定された準シラ
ブル部はフレームNl’とN2’の間であると決定され
る(第3図の動作ブロック345)。
乗算器213及び215の各々はTRW MPY−16
HJ形の集積回路で実現できる。
第3図の動作ブロック340及び345の逆追跡動作の
終シにおいて、発音語の準シラブル部の境界フレームが
乗算器215及び213の出力で得られる。発音語の音
声特徴信号列がFIFOメモリ120に蓄えられる。
第3図の動作ブロック350で示されているように、発
音語の指定された準シラブル部は信号Nl’及びN2’
に応動して選択され、準シラブルメモリ125に蓄えら
れる。メモリ125はモスチック社のMK4802形2
KX8RAM回路で実現できる。
逆追跡動作が完了すると制御パルスBTDが制御器14
0に印加される。パルスBTDに応動して制御器140
は状態を変え、制御パルスXR及び制御信号WDSi発
生する。
XRパルスは準シラブルフレームカウンタ226及び発
音語フレームカウンタ230’tその初期状態にリセッ
トする。これらのカウンタは1つ又はそれ以上の741
93形集積回路で実現できる。WDS信号は準シラブル
特徴テンプレートメモリー25へ印加され、FIFOメ
モリー20からの発音語特徴信号全そこに書込むことを
可能にする。
この時点で、識別された話者SPの1番[1の語のF 
=1フレームがテンブレー゛トメモリ125においてア
ドレスされる。制御器140は′一連のパルスXI’に
発生し、カウンタ230を順次増分させる。カウンタ2
30のC出力は一連の発音語フレームを表わし、比較器
220の1つの入力及び比較器222の1つの入力に印
加さ□れる。指定された準シラブルの開始フレームNl
”i表わ−す乗算器215の出力は比較器220の他の
入力に印加さ71る。カウンタ230からの発音語フレ
ーム信号Cが乗算器215からのフレーム信号Nl’に
等しくなるまで比較器220の出力は消勢され、準シラ
ブルカウンタ226のFCフレーム出力は変化しない。
この結果、FIFOメモリ120から・の一連の特徴信
号が準シラブル特徴テンプレートメモリ125において
基準語Iの第1フレーム位置に書込まれる。
発音語フレームカウンタ230のC出力が乗算器215
からの準シラブル開始フレーム信号に等しくなると、比
較器220が付勢され、それにつづくXI計数パルスが
アンドゲート224を介して準シラブルカウンタ226
を増分させる。指定された準シラブル開始フレームNl
’に対する発音諸特徴信号がテンプレートメモリ125
の基準語■のFC=1位置に蓄えられる。比較器220
は付勢されたままであるため、準シラブルカウンタ22
6は連続して増分される。このようにして、指定された
準シラブルに対する一連の発音諸特徴信号がテンプレー
トメモリ125の相続く位置に書込まれる。
発音語フレームカウンタ230の出力が指定された準シ
ラブルの終了フレームN2’に等しくなると比較器22
2が付勢される。指定された準シラブルの終了フレーム
で比較器222から生じるXD倍信号制御器140に印
加される。制御器はXIカウンタ増分パルスの発生を停
止する。よって、指定された準シラブル内のすべての発
音諸特徴信号がテンプレートメモリ125に蓄えられる
と、準シラブルフレーム選択器180の動作が終了する
制御器140は割部パルスXDに応動して制御パルスW
Iを語カウンタ165に印加する。WIパルスは第3図
のブロック355に示したように語カウンタ165を増
分させ、メモリ150内の次の基準語テンプレートがア
ドレスされ為。語計数出力Iが最終語計数値I MAX
よシも大きいと比較器170が付勢される(判定ブロッ
ク360)。この場合、信号WDが出され、第1図の回
路はST(開始)信号が入力回路103から受信される
まで待ちモードになる(動作ブロック365)。
■が最終基準語でない時には、信号WDが比較器170
から得ちれる。WD倍信号より、制御器140は信号M
ST’i発生して、次の基準語の発音の要求がメツセー
ジ発生器135で作られる。部分語単位のバタンかテン
プレートメモリ125に蓄えられた後、これらは音声認
識器や音声合成器である応用装置130に送られて用い
られる。応用装置は、いうまでもなく、音声パタンテン
プレートが用いられる任意の音声処理装置である。ある
いは、テンプレートは、読出し専用メモリに蓄えて音声
処理装置で用いることもできる。
本発明についてその特定の実施例を参照して説明した。
しかし、当業者にとっては、本発明の精神と範囲を逸脱
することなく形式や細部の種々の変更が可能であること
は明らかである。たとえば、基準音声バタンを接続した
語の連続したパタンに対応させ、部分栄位音声バタン全
開々の語に対応させることができる。
付   録IAI END FENTRY    l0INIT DEF  工wC DEFTMPS FENTRY    WAIT DEFARGS DEF  IWD DEFTMPS FENTRY   0UTPUT DEF  工WD DEF  工MSK DEFTMPS FENTRY   工NPUT 付   録tB1 CALL讐AIT (DST) FSUBRIP=FSUBR1 DI=DO IF(工MP、EQ、0JGOTo 251CLQQP
 BACK To BEG工NN工NGGOTo  9
99 ND PR1==O。
ND RET DEF  工WD DEF  工MSK CND FENTRY          0TDDEF  工
WD DEFTMPS FENTRY         工NRFENTRY 
        工NtJ、END
【図面の簡単な説明】
第1図は本発明の一実施例である音声バタン発生器のブ
ロック図であり、 第2図は第1図の回路の準シラブルセグメント選択器の
詳細なブロック図であり、第3図は本発明の音声バタン
発生操作を示す流れ図である。 〔主要部分の符号の説明〕 テンプレートを複数個・・・・・・第1図のメモリ蓄積
する手段      150 部分単位を表わす信号・・・・・・第1図のメモリを複
数個蓄積する手段  150 音響会話信号を発生ず・・・・・・第1図の特徴信号る
手段         発生器115   一時間整合
を表わす信号・・・・・・第1図の時間歪処を発生する
手段     理装置145,155選択する手段  
  ・・・・・・第1図の準シラブルフレーム選択器 80 第1頁の続き 0発 明 者 ジエイ・ゴートン・ウィルポンアメリカ
合衆国07060ニユージ ヤーシイ・サマーセット・ウオ ーレン・ラウンド・トップ・ロ ード75

Claims (1)

  1. 【特許請求の範囲】 1、発声された所定の基準音声パタンを表わす音響特徴
    信号の時間フレーム列から成る基準音声パタンテンプレ
    ートを複数個蓄積する手段と、該基準音声パタンの各々
    について該基準音声パタンテンプレート内の予め定めた
    少なくと、も1つの部分単位を表わす信号を複数個蓄積
    する手段と、基準音声パタンの発音を解析して該発音を
    表わす一連の音響会話信号を発生する手段と、発音語特
    徴信号列と蓄えられた基準音声パタン特徴信号列との時
    間整合を表わす信号を発生する手段と、該時間整合信号
    と該基準部分単位を表わす信号とに応動して該蓄積され
    た基準音声パタンテンプレート内の予め定めた部分単位
    に対応する一連の発音語特徴信号を選択する手段とを特
    徴とする部分単位音声バタン発生装置。 2、特許請求の範囲第1項記載の部分単位音声バタン発
    生装置において、該部分単位蓄積手段が該基準パタンテ
    ンプレートにおいて該部分単位の開始する時間フレーム
    を表わす第1の信号と該部分単位の終了する時間フレー
    ムを表わす第2の信号とを蓄える手段を含んでいること
    と、該選択手段が該時間整合信号に応動して該第1の信
    号に対応する発音語の第1の時間フレームと該第2の信
    号に対応する発音語の第2の時間フレームとを検出する
    手段と、該第1の時間フレームから該第2の時間フレー
    ムまでの発音語特徴信号を蓄える手段とを含んでいるこ
    ととを特徴とする装置。
JP57202228A 1981-11-19 1982-11-19 音声パタンテンプレ−トを発生する装置及び方法 Expired - Lifetime JPH073640B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US06/322,748 US4454586A (en) 1981-11-19 1981-11-19 Method and apparatus for generating speech pattern templates
US322748 1981-11-19

Publications (2)

Publication Number Publication Date
JPS58102299A true JPS58102299A (ja) 1983-06-17
JPH073640B2 JPH073640B2 (ja) 1995-01-18

Family

ID=23256228

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57202228A Expired - Lifetime JPH073640B2 (ja) 1981-11-19 1982-11-19 音声パタンテンプレ−トを発生する装置及び方法

Country Status (5)

Country Link
US (1) US4454586A (ja)
JP (1) JPH073640B2 (ja)
CA (1) CA1175569A (ja)
DE (1) DE3242866A1 (ja)
GB (1) GB2109971B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58176699A (ja) * 1982-04-09 1983-10-17 株式会社日立製作所 音声標準パタ−ン登録方式

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58129682A (ja) * 1982-01-29 1983-08-02 Toshiba Corp 個人照合装置
JPS58145998A (ja) * 1982-02-25 1983-08-31 ソニー株式会社 音声過渡点検出方法
JPS58178396A (ja) * 1982-04-12 1983-10-19 株式会社日立製作所 音声認識用標準パタ−ン登録方式
US4696042A (en) * 1983-11-03 1987-09-22 Texas Instruments Incorporated Syllable boundary recognition from phonological linguistic unit string data
US4783811A (en) * 1984-12-27 1988-11-08 Texas Instruments Incorporated Method and apparatus for determining syllable boundaries
US4751737A (en) * 1985-11-06 1988-06-14 Motorola Inc. Template generation method in a speech recognition system
KR950007859B1 (ko) * 1986-01-03 1995-07-20 모토로라 인코포레이티드 음성화 혹은 핏치정보 없이 음성을 합성하는 방법 및 장치
JPS62220998A (ja) * 1986-03-22 1987-09-29 工業技術院長 音声認識装置
US4941178A (en) * 1986-04-01 1990-07-10 Gte Laboratories Incorporated Speech recognition using preclassification and spectral normalization
US4866756A (en) * 1986-04-16 1989-09-12 Call It Co. Interactive computerized communications systems with voice input and output
US4918733A (en) * 1986-07-30 1990-04-17 At&T Bell Laboratories Dynamic time warping using a digital signal processor
US4805219A (en) * 1987-04-03 1989-02-14 Dragon Systems, Inc. Method for speech recognition
US4843562A (en) * 1987-06-24 1989-06-27 Broadcast Data Systems Limited Partnership Broadcast information classification system and method
WO1989003573A1 (en) * 1987-10-09 1989-04-20 Sound Entertainment, Inc. Generating speech from digitally stored coarticulated speech segments
US4937870A (en) * 1988-11-14 1990-06-26 American Telephone And Telegraph Company Speech recognition arrangement
JP2768561B2 (ja) * 1990-12-19 1998-06-25 富士通株式会社 ネットワーク変形装置および作成装置
US5425128A (en) * 1992-05-29 1995-06-13 Sunquest Information Systems, Inc. Automatic management system for speech recognition processes
US5671328A (en) * 1992-12-30 1997-09-23 International Business Machines Corporation Method and apparatus for automatic creation of a voice recognition template entry
US5526466A (en) * 1993-04-14 1996-06-11 Matsushita Electric Industrial Co., Ltd. Speech recognition apparatus
US6463361B1 (en) * 1994-09-22 2002-10-08 Computer Motion, Inc. Speech interface for an automated endoscopic system
US6911916B1 (en) 1996-06-24 2005-06-28 The Cleveland Clinic Foundation Method and apparatus for accessing medical data over a network
US5983177A (en) * 1997-12-18 1999-11-09 Nortel Networks Corporation Method and apparatus for obtaining transcriptions from multiple training utterances
US7447626B2 (en) * 1998-09-28 2008-11-04 Udico Holdings Method and apparatus for generating a language independent document abstract
US7233899B2 (en) * 2001-03-12 2007-06-19 Fain Vitaliy S Speech recognition system using normalized voiced segment spectrogram analysis
US7567903B1 (en) * 2005-01-12 2009-07-28 At&T Intellectual Property Ii, L.P. Low latency real-time vocal tract length normalization
TW200835315A (en) * 2007-02-01 2008-08-16 Micro Star Int Co Ltd Automatically labeling time device and method for literal file
US10235993B1 (en) * 2016-06-14 2019-03-19 Friday Harbor Llc Classifying signals using correlations of segments
GB201621434D0 (en) 2016-12-16 2017-02-01 Palantir Technologies Inc Processing sensor logs
CN110782908B (zh) * 2019-11-05 2020-06-16 广州欢聊网络科技有限公司 一种音频信号处理的方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3770892A (en) * 1972-05-26 1973-11-06 Ibm Connected word recognition system
US3909532A (en) * 1974-03-29 1975-09-30 Bell Telephone Labor Inc Apparatus and method for determining the beginning and the end of a speech utterance
JPS50155105A (ja) * 1974-06-04 1975-12-15
US4092493A (en) * 1976-11-30 1978-05-30 Bell Telephone Laboratories, Incorporated Speech recognition system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58176699A (ja) * 1982-04-09 1983-10-17 株式会社日立製作所 音声標準パタ−ン登録方式

Also Published As

Publication number Publication date
DE3242866A1 (de) 1983-08-25
GB2109971A (en) 1983-06-08
JPH073640B2 (ja) 1995-01-18
CA1175569A (en) 1984-10-02
DE3242866C2 (ja) 1988-06-09
GB2109971B (en) 1985-07-10
US4454586A (en) 1984-06-12

Similar Documents

Publication Publication Date Title
JPS58102299A (ja) 部分単位音声パタン発生装置
JP3180655B2 (ja) パターンマッチングによる単語音声認識方法及びその方法を実施する装置
US5390278A (en) Phoneme based speech recognition
JPS5991500A (ja) 音声分析器
JPS58134699A (ja) 連続ワ−トストリング認識方法および装置
JPH0772840B2 (ja) 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
JPS58134700A (ja) 連続音声認識の改良
JP4340685B2 (ja) 音声認識装置及び音声認識方法
JPH07334184A (ja) 音響カテゴリ平均値計算装置及び適応化装置
CN110265028A (zh) 语音合成语料库的构建方法、装置及设备
JP4461557B2 (ja) 音声認識方法および音声認識装置
JP3277579B2 (ja) 音声認識方法および装置
JPH0283593A (ja) ノイズ適応形音声認識装置
JP2980382B2 (ja) 話者適応音声認識方法および装置
JP3652753B2 (ja) 発声変形音声認識装置及び音声認識方法
JP3532248B2 (ja) 学習音声パタンモデル使用音声認識装置
JPH0345839B2 (ja)
JP3503862B2 (ja) 音声認識方法及び音声認識プログラムを格納した記録媒体
JP3299170B2 (ja) 音声登録認識装置
JP2862306B2 (ja) 音声認識装置
Al Mahmud Performance analysis of hidden markov model in Bangla speech recognition
JPH09212190A (ja) 音声認識装置及び文認識装置
JPS60164800A (ja) 音声認識装置
JPH0527794A (ja) 音声認識方式
JPH08110797A (ja) パターンマッチング装置