JPH073640B2 - 音声パタンテンプレ−トを発生する装置及び方法 - Google Patents

音声パタンテンプレ−トを発生する装置及び方法

Info

Publication number
JPH073640B2
JPH073640B2 JP57202228A JP20222882A JPH073640B2 JP H073640 B2 JPH073640 B2 JP H073640B2 JP 57202228 A JP57202228 A JP 57202228A JP 20222882 A JP20222882 A JP 20222882A JP H073640 B2 JPH073640 B2 JP H073640B2
Authority
JP
Japan
Prior art keywords
signal
pronunciation
acoustic feature
sequence
voice pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP57202228A
Other languages
English (en)
Other versions
JPS58102299A (ja
Inventor
フランク・クリストフア−・ピアツ
ロ−レンス・リチヤ−ド・ラビナ−
ジエイ・ゴ−ドン・ウイルポン
Original Assignee
ウエスタ−ン エレクトリック カムパニ−,インコ−ポレ−テッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ウエスタ−ン エレクトリック カムパニ−,インコ−ポレ−テッド filed Critical ウエスタ−ン エレクトリック カムパニ−,インコ−ポレ−テッド
Publication of JPS58102299A publication Critical patent/JPS58102299A/ja
Publication of JPH073640B2 publication Critical patent/JPH073640B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

【発明の詳細な説明】 技術分野 本発明は音声処理に関し、特に自動音声合成及び認識の
ための音声パタン生に関する。
音声は通信のための便利で効率の良い手段であるが、一
般に機械類はスイッチ、キーボード、あるいはディスプ
レイ等を用い、符号によって通信するように構成されて
いる。電子技術の進歩により、計算機や自動制御装置の
ような機械に対して音声によるインターフェイスを与え
ることも可能になって来た。公知の技術によれば、符号
化された音声要素の語彙を蓄えている音声合成器に対し
て機械信号が印加される。合成器は機械信号に対応する
音声パタンを蓄えられた要素を接続して作り出す。この
音声パタンは電気音響変換器によって話されるメッセー
ジに変換される。音声認識器は発声された発音を受信し
この発音パタンを予め蓄えられた音声パタンと比較す
る。この発音パタンは、最も良く一致する蓄えられたパ
タンであるものと認識され、一致したパタンに対応する
機械信号が作り出される。このようにして機械との音声
通信が行なわれる。
音声合成の1つの形式では、音声パタンは蓄積された語
彙として記憶される。コード信号に応動して、選択され
たパタンが音声要素として蓄られた語彙から検索され、
メッセージ信号に組立てられる。メッセージ信号は次に
音響列に変換される。蓄えられた語彙内の基本音声単位
は大きなメッセージ単位とすることもできる。しかし、
多数の語彙が要求されると、異なったメッセージ音声パ
タンのためのメモリ量が不経済的なものになってしま
う。
部分メッセージ単位パタンを用いれば、メッセージの形
成に大きな融通性が生じ、語彙メモリも小さくてすむ。
例えば音素、準音節、又は2個組みのような部分語音声
単位を用いると、非常に少ない蓄積語彙から多種類のメ
ッセージを作ることができる。当業者には公知のよう
に、部分語音声単位は一般に通常の会話の語長のパタン
から抽出される。しかし、通常の会話から部分メッセー
ジ単位の特徴を発声する処理は複雑であり、時間のかか
る解析と専門家による介在と修正を必要とする。
ほとんどの音声認識システムは入力音声信号を受信し、
これらの音声信号を一連の音響特徴に変換する。この入
力音響特徴列が、音声単位ごとに予め得られている基準
特徴の一群と比較される。入力音声特徴が予め定めた評
価基準に従って蓄積基準特徴に一致した時に音声信号が
識別される。基準音声単位が発声語である時は、基準音
声特徴テンプレートは発声語の発音から直接抽出され
る。語彙が限られている時には語、節、又は文がテンプ
レートとして有用である。しかし、語彙が多い場合に
は、テンプレートメモリが大きくなりすぎてしまう。
音声合成の時と同様、音声認識においても部分メッセー
ジ単位の音声パタンを用いてテンプレートメモリを小さ
くすることが望ましい。1973年11月6日にG.L.Clapper
によって出願された米国特許第3,770,892号にあるよう
に、音声認識器において入力音声パタンを識別するため
に蓄積された部分メッセージ単位のテンプレートを直接
用いることもできるし、あるいは選択的に接続してより
長いメッセージパタンテンプレートを作ることもでき
る。特定の話者の音声パタンを用いる認識器では、シス
テムの使用者ごとに部分メッセージ単位の基準テンプレ
ートの語彙を得る必要がある。任意の話者の音声を認識
できる話者によらない方式では、極めて多数の代表する
部分メッセージ単位のテンプレートを必要とする、この
ためには多くの話者の音声パタン特徴を平均化又は分類
した後、多数の部分メッセージ単位のテンプレートを作
り出さねばならない。
理想的には、その人の音声を認識すべき個人ごとに一群
の部分メッセージ単位テンプレートを作るべきである。
しかし、テンプレートの形成には複雑で時間のかかる処
理が必要であるため、この方法では、2、3人以上にす
ることは困難である。1977年11月29日にM.Suzuki等によ
って出願された米国特許第4,060,694号は、複数の異な
った話者に対応できる音声認識装置を示している。この
システムでは、一群の音素特徴パラメータが1人の話者
から得られる。次に他の話者によって音素特徴を追加す
るのではなく、前に得られた音素特徴を人工的に変化さ
せて音素特徴にある範囲の幅を与えている。
発音音声を認識する前に、この発音に最も良く似た音素
群が人工的に作られた範囲から選択される。この方法に
より時間のかかる音素発声操作が省略されている。しか
し、人工的な音素群は実際の音の差と発音特性を近似す
るものに過ぎない。このため、人工的に形成した音素群
を用いると認識のあいまいさが増加する。
音声パタンテンプレートを発声する方法と装置はドイツ
特許公開2753277号に開示されている。そこに開示され
た技術は数字の認識に関するもので、有声部分のみを認
識している。この装置では、訓練モードにおいて、話す
べき特定の一連の数が要求される。次に操作者の発声を
分析して一連の音響特徴信号を発声する。各特徴信号は
一組の線型予測係数から成る。操作者の発声はさらに有
声音、無声音、サイレントとして分析され、有声部分に
対応する部分信号が抽出、記憶され、テンプレート形成
に用いられる。
この技術は柔軟性に欠け、より一般的な音声の処理には
応用できない。
本発明の目的は、既知の部分単位音声パタンを人手で解
析したりまた人工的に変化させることのない、改善され
た部分メッセージ単位のテンプレート形成方式を提供す
ることである。
発明の要約 本発明においては、所望の部分単位に対応する部分列の
位置が既に定められている音響特徴信号の基準列を用い
る。これらの基準列は直接音声パタンテンプレートとし
て使用されるのではなく、同一の音声パタンについての
操作者の発声から得られる音響特徴信号の列と比較し
て、所望の部分単位に対応する部分列の位置を決定する
のに用いられる。これらの部分列は発声列から抽出され
た後音声パタンテンプレートを形成するのに用いられ
る。このようにして、全て操作者の発声から音声パタン
テンプレートを得る利点と、訓練行程を操作者にとって
わずらわしいものにすることなく有用な音声部分単位を
前もって選択することができる利点とが組合せて得られ
る。
基準音声パタンは基準語パタンであり、部分単位音声パ
タンは音素、準音節あるいは他の公知の語の要素として
得られる部分語単位のパタンである。
詳細な説明 第1図は、部分語単位の音声パターン発声器のブロック
図であり、以前に蓄えられた基準テンプレートの一群に
基づいて、異った話者に対する一群の部分語単位のテン
プレートを供給するように構成されている。蓄えられて
いる基準テンプレートは句又はメッセージであり、その
下位単位は語又はより短いメッセージ単位である。メモ
リ150は当業者には公知の方法で予め抽出された一群の
基準語テ×8のEPROMあるいは類似の素子で構成でき
る。メモリ150内の各テンプレート、例えばRは、一
連の音響特徴信号からなる。
=R(1),R(2),…,R(m),…, R(M) …(1) は、1人又はそれ以上の話者によって話された基準語
と、たとえば基準語の準音節のような指定された部分語
単位部の境界フレームNR1(I)及びNR2(I)に対応す
る信号を示している。たとえば、発音されれた基準語が
“back"の時、指定された部分語単位部分は最後の準音
節“ack"である。境界フレームは準音節“ack"の特徴信
号の位置を表わす。
第3図の流れ図は準音節音声パターン発声プロセスを示
している。最初、動作ブロック300で示すように、話者
は開始信号STと、話者識別信号SPを与える。インデック
ス開始ブロック305で示したように、基準語識別信号I
が1にセットされ、動作ブロック310で示したように、
話者が基準話Iの発音を入力するように要求する指令メ
ッセージが作られる。話者の発音が解析され、動作ブロ
ック315において、発音特徴信号の時間フレーム列 T=T(1),T(2),…,TI(N) …(2) が作られる。ブロック315において発音の長さが定めら
れた範囲と比較され、終了点誤りがチェックされる。発
音の長さが定められた範囲外にあると、制御は判定ブロ
ック320から動作ブロック370へ移り、発音をやり直せと
いうメッセージが作られる。次に動作ブロック310にお
いて語Iに対する発音要求が再び作られ、ブロック315
において、繰返された語Iの発音が解析される。
第1図において、準音節テンプレートを作るべき話者SP
は、一時的な開始信号STと話者識別信号SPとをコード発
生器103を介して制御器140に送る。発生器103は当業者
には公知のキーボードコード発生器で構成される。制御
器140は、たとえば、Electronic Design誌の1979年2月
号No.4の128−139頁にあるStephen Y Lau蓄の“Let a B
ipolar Processor Do Your Cotrol and take Advantage
of Its High Speed"に述べられているようなマイクロ
プロセッサ構成をとることができる。この制御器は、そ
こに印加される制御信号に応動して、その右側に示した
一連の制御信号を発生するように、永久に蓄えられた命
令に従って動作する。この制御器の蓄えられた命令は付
録AにFORTRAN言語によって示されている。
ST信号に応動して、制御器140は制御パルスWRS(語カウ
ンタリセット)とMST(メッセージ開始)を発生する。W
RSパルスは語カウンタ165をI=1の状態にリセット
し、これによってメモリ150の最初の基準テンプレート
がアドレスされる。カウンタ165は74193型の集積回路で
実現できる。MSTパルスはメッセージ発生器135に印加さ
れる。この発生器は当業者には公知の方法で動作して、
話者に対し基準語I=1の発音を指令する合成音声メッ
セージを発生する。メッセージ発生器135は、ナショナ
ルセミコンダクタ社のDT1050 DIGITALKER形の標準語キ
ットを用いることができる。指令メッセージが完了する
と、発生器135は信号MD(メッセージ終了)を制御器140
に印加して、話者の発音がマイクロホン101から得られ
るであろうことを知らせる。
信号MDに応動して、制御器140は制御パルスASを発生す
る。ASパルスは特徴信号発生器115に印加されてその動
作を開始させる。マイクロホン101からの音声信号は低
域フィルタ・サンプラ105に印加され、音声信号の帯域
幅がたとえば100Hzから3200Hzまでに制限されるととも
に、帯域制限された音声信号がたとえば6667Hzで周期的
にサンプルされる。一連の音声信号サンプルの各々は、
当業者には公知のように、アナログ・デジタル変換器11
0によってデジタルコード信号に変換される。
特徴信号発生器115は変換器110から符号化されたデジタ
ルサンプルを受信し、音声信号を表わす線形予測特徴信
号の時系列Tを発生する。発生器115はさらに一連の
特徴信号フレームの各々についてWR(書込み)パルスを
FIFOメモリ120及び122に印加する。一連のWRパルス応動
して、Tの特徴信号が先着順読出し(FIFO)メモリ12
0及び122に順に書込まれる。これらFIFOメモリの各々は
Signetics社の8×60形FIFORAM制御器を用いることがで
きる。
特徴信号発生器115は1978年5月30日にL.R.Rabiner等に
よって出願された米国特許第4,092,493号に述べられて
いる線形予測係数発生器及び1975年9月30日にL.R.Rabi
ner等によって出願された米国特許第3.909.532号に記さ
れている終了点検出器を含むことができる。この終了点
検出器はマイクロホン101に印加された音の終了を検出
する。予め定めた時間内に終了点が生じないと、発生器
115によってEPE(終了点誤り)信号が作られる。EPE信
号はオアゲート137を介してメッセージ発生器135へ印加
される。オアゲート137のERR出力により、制御器140はM
ST信号を作り、MSTは語を繰返すためのメッセージを発
生させる。発生器135からのMD(メッセージ終了)信号
が得られると、制御器140はASパルスを発生器115に印加
する。ASパルスは繰返される発音に対する特徴信号発生
を開始させる。
当業者には公知のように、音声の発音と速度は人によっ
て大きく異る。蓄えられている基準語特徴パタンR
個のフレームを持つが、発音された特徴パタンT
はN≠M個のフレームを持つ。音声の速度の違いによ
る音声特徴パタンの差を除去するために、発音特徴信号
が線形的に変化され、第3図の動作ブロック325で示し
たように発音の長さをMフレームに変えてしまう。こ
のためのスケールファクタN/Mは、後で逆方向に変化
させるために保持される。このようにして修正された音
声パタンUはMフレームのパタンとなる。しかし、
発音の差により、修正された発音特徴信号列Uと基準
語特徴列Rとの間に非線形な関係を与えてしまう。
修正された発音パタンフレームと基準語パタンフレーム
との間の関係を求めるために、修正された発音特徴信号
列が、動作ブロック330において動的に時間的な歪を受
けて基準語特徴列に変化する。基準語と入力発音特徴信
号パタンとの最良の対応を表わす信号と、基準語フレー
ムに最良に対応する発音フレームの列に表わす一群の信
号σが動的時間歪によって作られる。対応信号は判定ブ
ロック335において予め定めたしきい値TH1と比較され
る。修正された発音パタン及び基準語パタンが十分良く
似ていない時には、ブロック370が実行されて前述のよ
うに発音が繰返される。
第1図で、発生器115は、語Iに対する特徴信号の発生
が終了するとADパルスを制御器140に印加する。この
時、メモリ120及び122の各々は、印加された発音による
一群の特徴信号Tを蓄えている。1977年4月26日にP.
E.Chrochiere等によって出願された米国特許第4,020,33
2号に示されている回路を含むことのできる線形時間歪
処理装置(リニア・タイム・ワープ・プロセサ)145
は、メモリ122からの特徴信号を修正して、基準テンプ
レートメモリ150に蓄えられている同じ語の基準特徴信
号と同じ時間長にする。すなわち、印加された発音のフ
レーム数(N)がメモリ150に蓄えられている語の基準
テンプレートのフレーム数(M)に変えられる。スケ
ールファクタN/Nに対応する信号SFが作られて処理装
置145に蓄えられる。
発生器115での特徴信号の発生が終了すると、制御パル
スADが発生器115から制御器140に印加される。このAD信
号に応動して制御器140はパルスLSを線形時間歪処理装
置145に印加し、線形時間歪動作を開始させる。処理装
置145はFIFOメモリ122から特徴信号列を受信し、これら
の特徴信号をMフレームからなる修正された特徴信号 U=U(1),U(2),…,U(j),…, U(M) …(3) に変化させる。修正された発音特徴信号は処理装置145
内のフレームアドレス可能なメモリに蓄えられる。
修正された発音音声パタンと蓄えられている基準語音声
パタンとの間の時間整合は、基準語Rと修正された発
音Uとの間の発音の差を考慮して決めねばならい。当
業者には公知のように、修正された発音特徴信号は、最
良一致対応信号 を形成するよう時間歪によって基準特徴信号に近づけら
れる。ただし、w(i)は特徴ベクトルU及びR
間の最適時間歪因子であり、 である。
は修正された発音特徴Uのフレームiと蓄えられてい
る基準特徴Rのフレームj=w(i)との間の特徴ベ
クトル間の局所距離である。w(i)は通常、歪因子w
(i)の勾配が期待される音声パタンフレームの範囲に
対応するように制限される。式4の処理が完了した後、
(R,U)は修正された発音特徴と基準語特徴と
の間の最良の類似性を表わし、歪因子w(i)は式4の
修正された発音特徴と基準特徴との間の時間整合路に対
応する。
動的時間歪処理において、蓄えられた基準特徴と修正さ
れた発音特徴との間で可能な時間整合路は、 DA(i,j)=d(i,j)+min〔DA(i−1,K)〕…(6) j=I2≦k≦j−I1 に従って点(i,j)として列挙される。ただし、1≦i
≦Mは基準語特徴フレームで、1≦j≦Mは修正さ
れた発音特徴フレームである。D(i,j)は点(1,1)
から点(i,j)への経路についての累積された距離信号
である。
は、修正された発音特徴フレームjにおける修正された
発音特徴ベクトルと、基準語特徴フレームiにおける基
準語特徴ベクトルとの局所距離(式5)である。
式6の右端の項は基準語フレームi−1までと修正され
た発音フレームj−I2≦k≦j−I1との間の累積距離を
示している。フレームI1は許容できる発音差を与えるよ
う選ばれる。もしw(i−1)=w(i−2)であれば
1にセットされ、そうでなければゼロにされる。I2は通
常2にセットされる。よって、w(i−1)=w(i−
2)であればkはj−2からi−1の範囲の値をとり、
そうでなければj−2からjまでの範囲をとる。動的時
間歪の構成はIEEE Transaction on Acoustics,Speech a
nd Speech Processing誌の1975年2月のASSP−23巻の67
−72頁にある。
F.Itakura著の論文“Minimum Prediction Pesidual Pri
nciple Applied to Sprrch Reconition"、及びIEEE Tra
nsactions on Acoustics,Speech and Signal Processin
g誌の1978年12月のASSP−26巻の575−582頁にあるL.R.R
abiner,A.E.Rosenberg及びS.E.Levinson著の論文“Cons
iderations in Dynamic Time Warping Algorithms for
Discrete Word Recognition"に詳細に示されている。
第1図の回路で、動的時間歪処理装置155は、式4に従
って全体の距離信号Dを発生する。前述のように、D
は修正された発音特徴Uと基準語の基準語特徴R
との間の最良の類似性の測度となる。最良に対応する特
徴信号U(j)及びR(i)の間の時間歪経路w
(i)を表わす一群の時間整合信号も作られる。
DTW処理装置155は、マサチューセッツ州ウエストボロの
Data General Corporation社で発行され、同社が1979年
に版権を持っているMicroproducts Hardware Systemに
述べられているような処理装置、あるいは当業者に公知
の他の処理装置で実現できる。処理装置155は、マイク
ロNOVA MP 100システム処理装置、MP 1100 4K/8Kダイナ
ミックランダムアクセスメモリ、MP/100 8Kプログラム
可能読出し専用メモリ、及び1又はそれ以上のモデル42
2デジタルI/Oインターフェイス装置によって構成でき
る。この処理装置の一連の動作はその読出し専用メモリ
に永久に蓄えられた命令によって決定される。これらの
命令は付録BにFORTRANの言語の形式で示されている。
処理装置155が付録Bに示した、永久に蓄えられた命令
に従って動作すると、基準語フレームiの各々について
式6の動的時間歪操作を行なう。時間整合のための基準
語フレームの選択は式6に従って行なわれる。
処理装置145において発音特徴の時間長変えが終了する
と、制御パルスLDにより、制御器140は状態を変え、信
号DSTを処理装置145に供給する。DST信号は一連の特徴
信号時間フレームに対する動的時間歪処理を開始させ
る。基準語フレームiの各々において、基準語特徴信号
(i)がテンプレートメモリ150から処理装置155へ
転送される。フレームの範囲 内で選択された一連の修正済み発音フレームjがアドレ
スされ、特徴信号U(j)が処理装置155に印加され
る。式7の範囲に対する累積距離信号Dが処理装置15
5で作られ、w(i−1)とw(i)との違いを表わす
信号σ=i−kが作られ各(i、j)点ごとに蓄えられ
る。最後の基準語フレームMにおいて、最小累積距離
信号Dが選択され比較器160に印加される。
もし、選択された距離信号Dが予め定めたしきい値よ
り大きいと、TLE信号を発生する。この場合、蓄えられ
ている基準語パタンと修正された発音パタンとの類似性
が十分でなく、修正された発生パタン内の指定された準
音節についてのフレーム間隔を決定できない。従って、
語Iの新しい発音入力が要求される。信号TLEにより、
オアゲート137は制御信号ERRを発生し、この制御信号に
より前述のようにメッセージ発生器135が駆動される。
メッセージ発生器135は、発音の繰返しを要求するメッ
セージと語Iの発音であるメッセージを合成する。次に
制御器140は制御パルスASを特徴信号発生器115に印加し
て新しい発音の解析を開始させる。
処理装置155からの距離信号Dがしきい値TH1より小さ
いと、第1図の処理装置155からの制御パルスDDによ
り、制御器140はBTSパルスと、BT制御信号を発生する。
BTSパルスは動的時間歪処理装置155に印加され、第3図
の動作ブロック340で示されている逆追跡動作がこの処
理装置で開始される。処理装置155が逆追跡モードにあ
ると、一連の基準語フレームが逆順で作り出される。基
準語フレーム信号m=M,MI−1,…,i,…,2,1は符
号化した、動的時間整合を表わす信号Rとして処理装
置から出力される。基準語フレームi=Mがアドレス
された時、修正された発音の対応するフレームF=M
が作られる。基準フレームM−1では、対応する発
音フレームはM−σ(M)である。基準語フレーム
jの各々について処理が進むと、修正された発音フレー
ム j=w(i+1)−σ(i+1) …(8) が信号Fとして現われる。処理装置155のこの逆追跡
は付録BにFORTRAN言語で示した蓄積された命令によっ
て制御される。
逆追跡が進むと、修正された発音の準音節部が、第2図
に示した準音節フレーム選択器180で選択される。メモ
リ150内の基準語Iの各々について、基準語の準音節部
を表わす信号がメモリから得られる。第1図の回路で、
指定された準音節部の開始フレームに対応する信号NR1
(I)がメモリ150から選択器180内の比較器201の1つ
の入力に印加される。準音節部の終了フレームに対応す
る信号R2(I)はメモリ150から選択器180内の比較器20
3の1つの入力に印加される。比較器201及び203は1つ
又はそれ以上の7485型集積回路で実現できる。
逆追跡動作中の処理装置155からの一連の基準語フレー
ム信号Fは両方の比較器201及び203に印加される。基
準語フレーム信号Fが準音節終了点フレーム信号NR2
(I)に等しいと、比較器203の出力が付勢され、処理
装置155からの対応する修正ずみ発音フレームFがラ
ッチ212に印加される。すなわちアンドゲート207は制御
信号Bと比較器203の付勢された出力とに応動してオ
ンになり、基準語準音節の終了フレームに対応する修正
された発音フレームがラッチ212に入れられる。ラッチ2
12及び第2図の他のラッチは1つ又はそれ以上の74273
型の集積回路で実現できる。
処理装置155における基準語フレームの列は同様に続け
られる。基準語フレーム信号Fが開始フレーム信号NR
1(I)に等しくなると、修正された発音の対応するフ
レームFが、比較器201の付勢出力に応動してラッチ2
10に入れられる。処理装置155は基準語フレーム信号が
=1となるまで逆追跡動作をつづける。F=1に
なると、処理装置155は逆追跡動作の終了を示す制御パ
ルスBTDを発生する。
この時、ラッチ210は、指定された準音節の開始フレー
ムに対応する修正ずみ発音フレームN1を含んでおり、ラ
ッチ212は修正ずみ発音内の指定された準音節の終了フ
レームに対応する修正ずみ発音フレーム信号N2を含んで
いる。しかし、修正された発音語は線形時間歪プロセッ
サ145で時間長を変えられたものであり、発音語の長さ
は基準語の長さに等しくなっている。この時間長変えの
時、修正された発音語長Nと入力の発音語長Mとの比
を表わす信号SFが作られている。
ラッチ210内の信号N1が乗算器215の1つの入力に印加さ
れ、スケールファクタSFがその別の入力に印加される。
乗算器215は元の発音語の指定された準音節の開始フレ
ームを表わす信号N1′を形成する。同様に、ラッチ212
からのN2信号は乗算器218でスケールファクタSFと乗算
され、元の発音語の指定された準音節の終了フレームを
表わす信号N2′となる。このようにして、元の発音語の
指定された準音節部はフレームN1′とN2′の間であると
決定される(第3図の動作ブロック345)。乗算器213及
び215の各々はTRWMPY−16HJ形の集積回路で実現でき
る。
第3図の動作ブロック340及び345の逆追跡動作の終りに
おいて、発音語の準音節部の境界フレームが乗算器215
及び213の出力で得られる。発音語の音声特徴信号列がF
IFOメモリ120に蓄えられる。第3図の動作ブロック350
で示されているように、発音語の指定された準音節部は
信号N1′及びN2′に応動して選択され、準音節メモリ12
5に蓄えられる。メモリ125はモステック社のMK4802形2K
×8RAM回路で実現できる。
逆追跡動作が完了すると制御パルスBTDが制御器140に印
加される。パルスBTDに応動して制御器140は状態を変
え、制御パルスXR及び制御信号WDSを発生する。XRパル
スは準音節フレームカウンタ226及び発音語フレームカ
ウンタ230をその初期状態にリセットする。これらのカ
ウンタは1つ又はそれ以上の74193形集積回路で実現で
きる。WDS信号は準音節特徴テンプレートメモリ125へ印
加され、FIFOメモリ120からの発音語特徴信号をそこに
書込むことを可能にする。
この時点で、識別された話者SPのI番目の語のF=1
フレームがテンプレートメモリ125においてアドレスさ
れる。制御器140は一連のパルスXIを発生し、カウンタ2
30を順次増分させる。カウンタ230のC出力は一連の発
音語フレームを表わし、比較器220の1つの入力及び比
較器222の1つの入力に印加される。指定された準音節
の開始フレームN1′を表わす乗算器215の出力は比較器2
20の他の入力に印加される。カウンタ230からの発音語
フレーム信号Cが乗算器215からのフレーム信号N1′に
等しくなるまで比較器220の出力は消勢され、準音節カ
ウンタ226のFCフレーム出力は変化しない。この結果、F
IFOメモリ120からの一連の特徴信号が準音節特徴テンプ
レートメモリ125において基準語Iの第1フレーム位置
に書込まれる。
発音語フレームカウンタ230のC出力が乗算器215からの
準音節開始フレーム信号に等しくなると、比較器220が
付勢され、それにつづくXI計数パルスがアンドゲート22
4を介して準音節カウンタ226を増分させる。指定された
準音節開始フレームN1′に対する発音語特徴信号がテン
プレートメモリ125の基準語IのFC=1位置に蓄えられ
る。比較器220は付勢されたままであるため、準音節カ
ウンタ226は連続して増分される。このようにして、指
定された準音節に対する一連の発音語特徴信号がテンプ
レートメモリ125の相続く位置に書込まれる。
発音語フレームカウンタ230の出力が指定された準音節
の終了フレームN2′に等しくなると比較器222が付勢さ
れる。指定された準音節の終了フレームで比較器222か
ら生じるXD信号は制御器140に印加される。制御器はXI
カウンタ増分パルスの発生を停止する。よって、指定さ
れた準音節内のすべての音語特徴信号がテンプレートメ
モリ125に蓄えられると、準音節フレーム選択器180の動
作が終了する。
制御器140は制御パルスXDに応動して制御パルスWIを語
カウンタ165に印加する。WIパルスは第3図のブロック3
55に示したように語カウンタ165を増分させ、メモリ150
内の次の基準語テンプレートがアドレスされる。計数出
力Iが最終語計数値IMAXよりも大きいと比較器170が付
勢される(判定ブロック360)。この場合、信号WDが出
され、第1図の回路はST(開始)信号が入力回路103か
ら受信されるまで待ちモードになる(動作ブロック36
5)。Iが最終基準語でない時には、信号▲▼が比
較器170から得られる。▲▼信号により、制御器140
は信号MSTを発生して、次の基準語の発音の要求がメッ
セージ発生器135で作られる。部分語単位のパタンがテ
ンプレートメモリ125に蓄えられた後、これらは音声認
識器や音声合成器である応用装置130に送られて用いら
れる。応用装置は、いうまでもなく、音声パタンテンプ
レートが用いられる任意の音声処理装置である。あるい
は、テンプレートは、読出し専用メモリに蓄えて音声処
理装置で用いることもできる。
本発明についてその特定の実施例を参照して説明した。
しかし、当業者にとっては、本発明の精神と範囲を逸脱
することなく形式や細部の種々の変更が可能であること
は明らかである。たとえば、基準音声パタンを接続した
語の連続したパタンに対応させ、部分単位音声パタンを
個々の語に対応させることができる。
【図面の簡単な説明】
第1図は本発明の一実施例である音声パタン発生器のブ
ロック図であり、 第2図は第1図の回路の準音節セグメント選択器の詳細
なブロック図であり、 第3図は本発明の音声パタン発生操作を示す流れ図であ
る。 〔主要部分の符号の説明〕 115……特徴信号発生器 125……準音節特徴テンプレートメモリ 145……線形時間歪処理装置 150……基準テンプレートメモリ 155……動的時間歪処理装置 180……準音節フレーム選択器
フロントページの続き (72)発明者 ロ−レンス・リチヤ−ド・ラビナ− アメリカ合衆国07922ニユ−ジヤ−シイ・ ユニオン・バ−クレイ・ハイツ・シエアブ ルツク・ドライヴ58 (72)発明者 ジエイ・ゴ−ドン・ウイルポン アメリカ合衆国07060ニユ−ジヤ−シイ・ サマ−セツト・ウオ−レン・ラウンド・ト ツプ・ロ−ド75 (56)参考文献 特開 昭56−47100(JP,A)

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】音声パタンテンプレートを発生する装置で
    あって、 所定の基準音声パタンの発音を分析してこの発音を表わ
    す音響特徴信号例を発生する手段、 前記基準音声パタンの所定の部分単位に対応する音響特
    徴信号の部分列を前記音響特徴信号列から抽出する手
    段、 前記部分列から前記音声パタンテンプレートを形成する
    手段を含み、 前記抽出手段は 前記基準音声パタンを表わす音響特徴信号の基準列と、
    前記部分単位に対応する音響特徴信号基準部分列の前記
    基準列における位置を示す位置信号(NR1、NR2)とを記
    憶する記憶手段(150)と、 基準音声パタンの発音を表わす各音響特徴信号列と、こ
    れと同一の基準音声パタンの基準列とを信号毎に比較し
    て、前記発音を表わす音響特徴信号列と前記音響特徴基
    準列との間の動的時間整合を表わす信号(F)を発生
    する手段(145、155)と、 前記時間整合信号と、前記音響特徴信号基準列に対する
    位置信号(NR1、NR2)とに応動して、前記音響特徴信号
    基準列の前記音響特徴信号基準部分列に対して前記時間
    整合により関連づけられる、前記発音を表わす音響特徴
    信号列から前記音響特徴信号部分列を選択する手段(18
    0)とを含むことを特徴とする音声パタンテンプレート
    を発生する装置。
  2. 【請求項2】音声パタンテンプレートを発生する方法で
    あって、 所定の基準音声パタンの発音を分析してこの発音を表わ
    す音響特徴信号列を発生する工程、 前記基準音声パタンの所定の部分単位に対応する音響特
    徴信号の部分列を前記音響特徴信号列から抽出する工
    程、 前記部分列から前記音声パタンテンプレートを形成する
    工程を含み、 前記部分列を抽出するために、前記発音を表わす音響特
    徴信号列を、同一の基準音声パタンを表わすあらかじめ
    記憶された音響特徴信号の基準列と信号毎に比較して、
    前記音響特徴信号列と前記基準列との間の動的時間整合
    を表わす信号を発生すること、前記部分単位に対応する
    基準部分列の、前記基準列における位置はあらかじめ定
    められ記憶されていること、 前記基準列の基準部分列に対して前記時間整合により関
    連づけられる前記音響特徴信号列の部分列を選択するこ
    と、 を特徴とする音声パタンテンプレートを発生する方法。
JP57202228A 1981-11-19 1982-11-19 音声パタンテンプレ−トを発生する装置及び方法 Expired - Lifetime JPH073640B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US06/322,748 US4454586A (en) 1981-11-19 1981-11-19 Method and apparatus for generating speech pattern templates
US322748 1981-11-19

Publications (2)

Publication Number Publication Date
JPS58102299A JPS58102299A (ja) 1983-06-17
JPH073640B2 true JPH073640B2 (ja) 1995-01-18

Family

ID=23256228

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57202228A Expired - Lifetime JPH073640B2 (ja) 1981-11-19 1982-11-19 音声パタンテンプレ−トを発生する装置及び方法

Country Status (5)

Country Link
US (1) US4454586A (ja)
JP (1) JPH073640B2 (ja)
CA (1) CA1175569A (ja)
DE (1) DE3242866A1 (ja)
GB (1) GB2109971B (ja)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58129682A (ja) * 1982-01-29 1983-08-02 Toshiba Corp 個人照合装置
JPS58145998A (ja) * 1982-02-25 1983-08-31 ソニー株式会社 音声過渡点検出方法
JPS58176699A (ja) * 1982-04-09 1983-10-17 株式会社日立製作所 音声標準パタ−ン登録方式
JPS58178396A (ja) * 1982-04-12 1983-10-19 株式会社日立製作所 音声認識用標準パタ−ン登録方式
US4696042A (en) * 1983-11-03 1987-09-22 Texas Instruments Incorporated Syllable boundary recognition from phonological linguistic unit string data
US4783811A (en) * 1984-12-27 1988-11-08 Texas Instruments Incorporated Method and apparatus for determining syllable boundaries
US4751737A (en) * 1985-11-06 1988-06-14 Motorola Inc. Template generation method in a speech recognition system
JP3219093B2 (ja) * 1986-01-03 2001-10-15 モトロ−ラ・インコ−ポレ−テッド 外部のボイシングまたはピッチ情報を使用することなく音声を合成する方法および装置
JPS62220998A (ja) * 1986-03-22 1987-09-29 工業技術院長 音声認識装置
US4941178A (en) * 1986-04-01 1990-07-10 Gte Laboratories Incorporated Speech recognition using preclassification and spectral normalization
US4866756A (en) * 1986-04-16 1989-09-12 Call It Co. Interactive computerized communications systems with voice input and output
US4918733A (en) * 1986-07-30 1990-04-17 At&T Bell Laboratories Dynamic time warping using a digital signal processor
US4805219A (en) * 1987-04-03 1989-02-14 Dragon Systems, Inc. Method for speech recognition
US4843562A (en) * 1987-06-24 1989-06-27 Broadcast Data Systems Limited Partnership Broadcast information classification system and method
EP0380572B1 (en) * 1987-10-09 1994-07-27 Sound Entertainment, Inc. Generating speech from digitally stored coarticulated speech segments
US4937870A (en) * 1988-11-14 1990-06-26 American Telephone And Telegraph Company Speech recognition arrangement
JP2768561B2 (ja) * 1990-12-19 1998-06-25 富士通株式会社 ネットワーク変形装置および作成装置
US5425128A (en) * 1992-05-29 1995-06-13 Sunquest Information Systems, Inc. Automatic management system for speech recognition processes
US5671328A (en) * 1992-12-30 1997-09-23 International Business Machines Corporation Method and apparatus for automatic creation of a voice recognition template entry
US5526466A (en) * 1993-04-14 1996-06-11 Matsushita Electric Industrial Co., Ltd. Speech recognition apparatus
US6463361B1 (en) * 1994-09-22 2002-10-08 Computer Motion, Inc. Speech interface for an automated endoscopic system
US6911916B1 (en) 1996-06-24 2005-06-28 The Cleveland Clinic Foundation Method and apparatus for accessing medical data over a network
US5983177A (en) * 1997-12-18 1999-11-09 Nortel Networks Corporation Method and apparatus for obtaining transcriptions from multiple training utterances
US7447626B2 (en) * 1998-09-28 2008-11-04 Udico Holdings Method and apparatus for generating a language independent document abstract
US7233899B2 (en) * 2001-03-12 2007-06-19 Fain Vitaliy S Speech recognition system using normalized voiced segment spectrogram analysis
US7567903B1 (en) * 2005-01-12 2009-07-28 At&T Intellectual Property Ii, L.P. Low latency real-time vocal tract length normalization
TW200835315A (en) * 2007-02-01 2008-08-16 Micro Star Int Co Ltd Automatically labeling time device and method for literal file
US10235993B1 (en) * 2016-06-14 2019-03-19 Friday Harbor Llc Classifying signals using correlations of segments
GB201621434D0 (en) 2016-12-16 2017-02-01 Palantir Technologies Inc Processing sensor logs
CN110782908B (zh) * 2019-11-05 2020-06-16 广州欢聊网络科技有限公司 一种音频信号处理的方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3770892A (en) * 1972-05-26 1973-11-06 Ibm Connected word recognition system
US3909532A (en) * 1974-03-29 1975-09-30 Bell Telephone Labor Inc Apparatus and method for determining the beginning and the end of a speech utterance
JPS50155105A (ja) * 1974-06-04 1975-12-15
US4092493A (en) * 1976-11-30 1978-05-30 Bell Telephone Laboratories, Incorporated Speech recognition system

Also Published As

Publication number Publication date
US4454586A (en) 1984-06-12
GB2109971B (en) 1985-07-10
DE3242866C2 (ja) 1988-06-09
CA1175569A (en) 1984-10-02
JPS58102299A (ja) 1983-06-17
DE3242866A1 (de) 1983-08-25
GB2109971A (en) 1983-06-08

Similar Documents

Publication Publication Date Title
JPH073640B2 (ja) 音声パタンテンプレ−トを発生する装置及び方法
Rao et al. Speech recognition using articulatory and excitation source features
JP3434838B2 (ja) ワードスポッティング法
Arora et al. Automatic speech recognition: a review
Juang et al. Automatic speech recognition–a brief history of the technology development
US5333275A (en) System and method for time aligning speech
US6490561B1 (en) Continuous speech voice transcription
CN112489629B (zh) 语音转写模型、方法、介质及电子设备
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
JPH0876788A (ja) 音声認識における混同しやすい語の検出方法
JP4340685B2 (ja) 音声認識装置及び音声認識方法
JP2001166789A (ja) 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置
Nadungodage et al. Continuous sinhala speech recognizer
Mariani Recent advances in speech processing
JP2745562B2 (ja) ノイズ適応形音声認識装置
Aggarwal et al. Discriminative techniques for Hindi speech recognition system
JP3277579B2 (ja) 音声認識方法および装置
Tunalı A speaker dependent, large vocabulary, isolated word speech recognition system for turkish
JPH1097293A (ja) 音声認識用単語辞書作成装置及び連続音声認識装置
Heo et al. Classification based on speech rhythm via a temporal alignment of spoken sentences
Raj et al. Design and implementation of speech recognition systems
Zue et al. Spoken language input
JP3110025B2 (ja) 発声変形検出装置
Manjunath et al. Improvement of phone recognition accuracy using source and system features
Kurian Development of Speech corpora for different Speech Recognition tasks in Malayalam language