JPH0554959B2

JPH0554959B2 -

Info

Publication number: JPH0554959B2
Application number: JP59234856A
Authority: JP
Inventors: Bikutoorubenbasa Jeraaru
Original assignee: Texas Instruments Inc
Current assignee: Texas Instruments Inc
Priority date: 1983-11-08
Filing date: 1984-11-07
Publication date: 1993-08-13
Also published as: FR2554623A1; JPS60123000A; EP0146434A1; DE3477857D1; US4975959A; EP0146434B1; FR2554623B1

Description

【発明の詳細な説明】

〈産業上の利用分野〉本発明は、音声認識システムに関し、さらに詳
しくは、不特定話者の音声を認識する装置に関連
する。〈従来の技術及び発明が解決しようとする問題
点〉音声認識の分野では、話者に対する独立性の問
題が解決すべき重要な問題である。特定話者の音声認識には、非常に有効である今
日一般に知られる音声認識プロセスは、不特定話
者の音声認識に用いる場合には、必要となる情報
処理システムの負担が大きく、満足のゆく解決方
法を提供することはできない。実際は、話者の特性に左右されない音声認識シ
ステムを提供する為、認識すべき単語に対し10個
のテンプレートデータを必要とする方法が既に発
表されている。（これは、1979年４月発行のIEEE
トランスアクシヨンオブASFP27巻２号掲載の
F.E.レブンソン他の「個々の単語認識の為の不特
定話者に対し参照テンプレートを選択する音声相
互結合技術」に示されている。）この技術では、データ処理上の負担及びランダ
ムアクセスメモリ（RAM）のサイズが既にかな
り増大することになり、さらに、困つたことに
は、このテンプレートデータは、多数の注意深く
選択した話者によつて発声される多数の語句から
抽出して得たものでなくてはならなかつた。この為に要求にあわせて語いを構成するごとに
非常に大変な、登録の為の作業が必要となつた。
これによつてこのようなシステムを使う可能性
は、限られてしまう。更に、音声入力を音声ユニツト列に変換しよう
とする分析による解決策で、いまだに高いレベル
の成果を得たものはない。この理由としては以下の点が考えられる。いくつもの開発計画において、分析による手法
が連続する音声の認識に関し、利用されてきた。
（1977年５月のプロシーデイング1977IEEEインタ
ーナシヨナルコンフアレンスオンASFP ヘ
ートフオードシテイ、799頁から802頁に掲載され
るL.D.エルマンの論文「HEARSAYシステムの
機能的説明」及び1978年11月13〜15日２巻コング
レスオブザAFCETアツトジフサーイベ
ツトの304〜314頁に掲載されるメリルその他の論
文「音声対話の為のシステム」に示される。）当然ながら、これによつてその他の困難な問題
点が加わる。重大な問題点としては、使用される語いに制限
のない（又は、語いが非常に広い）場合には音声
ユニツトへのセグメンテーシヨンを必要とし、こ
の段階でおこるエラーをとり除くことは非常に困
難であるという点があげられる。〈問題点を解決する為の手段及び作用〉従つてこの問題を解決するため、本発明では、
特に語いが限られる分析方法を使つてダイナミツ
クプログラムアルゴリズムによつて語いの中
の各単語に対し最適なセグメンテーシヨンを行う
ことを提案するものである。他の問題点は、見つけるべき音声ユニツトを示
す音声テンプレートを作りだすことに関して生じ
る。通常は、上記テンプレートは、任意の音声空間
（acoustic space）に音声ユニツトをマツピング
し、各々の音声空間について最適な代表領域を見
つけることによつて得られる。さらにこれらの領
域の重心は、それぞれ対応する音声ユニツトと結
びつけられる。（１人の話者についてのみならず多数の異なる
話者についてさえも）各領域の多くは重なりあう
ので、この音響空間に通常一点が決まり、これに
よつて音声ユニツトを表示している可能性が計算
される。この可能性は、対応する領域の重心から
この音声ユニツトまでの距離と比例する。これによつて使用される音響距離が各音の間に
知覚される距離と密接に関連することが仮定され
る。最短距離を見つけることは、あまり難しくはな
いが、最短でなく長めの距離に関しても関連性を
認めることができる関連を示す距離を持つ音声空
間にては残念ながら知られていない。故に従来の方法を使用すると、音声距離が常に
充分に短くなるように、より適当な音素表示又は
満足のゆくテンプレートをみつけださなくてはな
らない。これらは、どちらにしても、同じ位、困難であ
る。このような困難な作業を省くための簡単な方法
としては、本発明に従うと、音声空間のいずれの
領域も数個の音声ユニツトを表示するようにする
ことが提案される。さらに、各々の領域において音声ユニツトと関
連する可能性が試験用語句を発声した音声から計
算される。領域は、音響基礎（acoustic basis）によつ
て、任意の数の領域を設定することによつて規定
される。故にこれたの領域によつて望み通りの正確さで
「枠」を音声空間内に設定する。任意の点を与えられた領域と結びつけ従つて所
定数の音声ユニツトと結びつける為に使用される
最大距離は、必要な限り短くすることができる。この技術を使うことによつて音声距離を厳密に
認識と関連させる必要性は従来よりずつと少なく
なり各々の音声ユニツトに対し多数の正確なテン
プレートを設定する必要はなくなつた。この様な解決方法を実行するには、以前より多
くの領域を使うことになる。しかしながら、これ
によつて、不特定話者の音声認識装置の能力がか
なり向上される。〈実施例〉第１図の装置は、ベクトル量子化装置１を有す
る。ベクトル装置は、入力のうちの１つで分析が
行われる音声信号を受けとつている。ベクトル量子化装置１の他の入力は、メモリ２
に接続している。メモリ２は、スペクトルテンプ
レートの辞書データを記憶する。各々のテンプレ
ートと関連する音素の分布テーフルのグループを
記憶する装置の各グループは、各々のテンプレー
トと関連を持つ。量子化装置１の出力及び音声分布テーブルのグ
ループ記憶装置３の出力は、ダイナミツクプログ
ラミングによつて、その単語である可能性を決定
する装置４のそれぞれ対応する入力に接続され
る。この装置４は、音素の形式で単語辞書を記憶し
ているメモリ５と共働する。単語を発声した音声信号は、ベクトル量子化装
置１に於いて分析される。ベクトル量子化装置１
では、音響パラメータ（この中では、線形予測法
によつて得られるスペクトル係数）が、10〜
20msの時間フレームごとに計算される。このパ
ラメータは、この場合ではコークリツド距離を用
いて距離の計算が行われ、辞書の各々テンプレー
トについて比較し、最も近いものを見つけだされ
る。故に、音声入力信号はテンプレートアドレス
の列に変換される。この辞書のテンプレート列は、単語辞書５に記
憶される各々の単語と比較され、単純な音声表示
の形式で記憶される。音声表示と列内に含まれる辞書のテンプレート
との関連する可能性を用いることでダイナミツク
プログラミングアルゴリズムによつて、特定さ
れるべき上記テンプレート列を辞書５内の音素チ
エインに対応させる関連可能性の計算が可能にな
る。関連可能性が所定の閾値以上の値であれば、最
も高い可能性を持つ単語が話者によつて発音され
た単語であるとして選択される。ダイナミツクプログラムアルゴリズムによつ
て単語辞書５内の各々の単語とマツチさせる最適
な積分路を見つけている。このマツチング工程
は、単語マツチング装置４に於て行われる。この工程は、第２図のグラフで示される。この
図で横軸は特定すべき辞書内の単語縦軸は、音素
を示す。最適積分路は、おれ線６で示される。ここで
は、DPマツチングを行う上で考慮しなくてはな
らない最適パスを探すための領域制限の枠が７で
示される。この枠を使う技術によつて与えれられた１つの
音素片に関連するテンプレートの数を制限しなく
てもよくなる点に注意してほしい。しかし音素の
一定している部分も変化している部分もこの枠を
こえることができる。マツチングの可能性が最も高いパス６は、ダイ
ナミツクプログラミングによつて決定される。比較工程ごとに（ｘ軸上に）テンプレートによ
つて示される音素片が（ｙ軸上の）音素の一部で
ある可能性が関連する表Ｔの中から見つけられ
る。７ｃで示す点に到達するためには、DPパス制
限の枠７によつて最適パス６は点７ａからすぐに
左にのびるか（従つて水平にのびる部分のパスと
なる）または対角線上の点７ｂからのびるか（従
つて垂直にのびるパス部分を作ることがないよう
に）のいずれかに決まる。これらの各々のパスのマツチング可能性は、点
７ａからのパスと点７ｂからのパスの各々の可能
性をテーブルＴでみつけた点７ｃの可能性を掛け
ることによつて計算される。本実施例では、音素
片７ｘが音素０を示す可能性はＦ１である。７ｃに到達する路として選択される路は、最大
の可能性値を持つパスである。行列内に存在しうる各点に対しこのような工程
を行つてゆくと最大の可能性値を持つパス６にで
あう。水平方向に延びるパスの長さは、DPマツチン
グ制限の枠によつて制限されることはないが、実
際には、この長さは、可能性の計算をする上で列
内の音素片と与えられた音素との関連が上記関連
可能性と無関係でないことも考え合わせて各々の
音素の長さを統計にとつた分布を用いることで制
限されうる。そこで第３図に関連して辞書手段の構造とその
組合せの為の試験工程を示す。音響テンプレートの辞書は、同じ数の音素を含
み、多数の異なる話者によつて発音された試験用
の句のグループをもとに線形予測符号化法によつ
て分析を行い作りだされる。辞書が、平均的ゆがみを計測し、これに基づ
き、与えられた数のテンプレートに関し、最もよ
く試験用語句のグループを示す表示を提供できる
ようにテンプレートが選択される。第３図は、ダイナミツクグループアルゴリズ
ムに従う選択方法を示す。第３図では、試験用の
語句のグループ８とスペクトルテンプレート辞書
９が図示される。選択オペレーシヨンは、試験用
語句のグループ８の中のスペクトルテンプレート
１０を選択することから始まる。ここでは、辞書
内で最も近い近隣のテンプレートからの距離が所
定の閾値以上であるスペクトルテンプレート１０
が選択される。辞書のサイズは、ただ辞書を作る
為のプロセスを適当に中断することによつて望み
通りに大きさを制限できる。故に、試験用語句のグループに含まれる全ての
スペクトルテンプレートは、辞書内で最も近い点
を使つてクラス１１内にクラスター化される。そ
の後、各々のクラス１１の重心（クラスターセン
ター）がテンプレートとして選択される。同様の工程が平均距離が所定の閾値より小さく
なるまで、または距離の変化が計算処理が収束し
たことを示す非常に小さい値に達するまでくり返
し続けられる。故に、スペクトルテンプレート１３を含む辞書
９は、試験用語句のグルーブ内のスペクトルテン
プレートのクラス１１の重心１２の像によつて構
成される。第４図の行１４は、文を音素で示した表示の例
を示す。行１５は、変化する部分と変化しない部分に分
けるマニユアルによるセグメンテーシヨンを示
す。行１６は線形予測符号化音素片を示す。これらの符号化音素片１７は、スペクトルテン
プレート辞書１９内にこれに対応する音素片１３
を有している。これらの音素片のマツチングは、
スペクトル距離を用いてベクトルを符号化するこ
とによつて行われる。最後に、第４図の下の方には、各々のスペクト
ルテンプレートに関連する音素分布テーブル２０
が示されている。これらのテーブルが構成される
段階を示す第２図のテーブルＴにこれらのテーブ
ルが相当する。（第３図に示す）各々のクラス１１に現われる
音素の数を数えることによつてこれらの音声周波
数テーブルが得られる。このことは試験用語句のグルーブが音素にセグ
メンテーシヨンされ表示がつけられたことを意味
する。第１の試験用語句のグループに関しては、
上記オペレーシヨンは全くマニユアル操作で行な
わなくてはならないが、「満足ゆく程度の」辞書
が作られた後は、認識アルゴリズム自体を使つ
て、他の試験用語句も自動的なセグメンテーシヨ
ンが可能となりマニユアル操作は、その検証のみ
になる。辞書形成の為の試験工程のオペレーシヨンは、
第５Ａ図及び第５Ｂ図を参照して説明する。第５Ａ図は音素表示をつけるオペレーシヨンを
図示する。これらのオペレーシヨンは、試験用語句のグル
ープの音声のアナログからデジタルへの変換２１
及び線形予測法によるデジタル信号の分析２３工
程を含む。デジタル信号は、スペクトルデータ
フアイル２４内に記憶される。分析結果は、分析結果フアイル２５に入力され
さらに２６では音素表示を付与する操作が行わ
れ、これは、スピーカ２７で音声出力され、又
は、デイスプレイ２８でグラフ表示される。この
表示は第６図に示される。これらの結果は、音素
表示フアイル２９に記憶される。第５Ｂ図に示す通り、音素表示フアイル２９内
の音素表示は、最適のスペクトルテンプレート
の選択オペレーシヨン３０を行う間に、分析結果
フアイル２５内の分析結果と組合せられる。この選択オペレーシヨンの結果は、辞書フアイ
ル３１に転送される。音素と辞書内の音素片との
間の周波数の関連性が３２で計算され、これをも
とに３３で音素分布テーブルを作る。第５図で行われる方法は音素検出の為の特別な
プログラムを必要とする。この方法は、可能な限り正確に、かつ速く容易
にセグメンテーシヨンを行う為の、非常に融通性
の高いコマンドを持つオーデイオグラフ表示フイ
ードバツク装置を含んでいる。第６図のグラフ表示は、時間の関数で波形を示
し、同時に周波数、帯域、フオルマント周波数を
示している。プログラムは、音素及びそのフレームさらにそ
の他音声表示に関する何らかの情報を含む音素表
示フアイルを作りだす。この後の組のプログラムは、音素表示フアイル
と線形予測符号化法による分析オペレーシヨンの
結果を記憶する分析結果フアイル２５（第５Ａ
図）を、使つて上記のアルゴリズムと関連する音
素の周波数に従いテンプレート辞書を構成する。出力プログラムは結果を分類し、これをヒスト
グラムの形式で表示する。例えば以下で示すような試験用語句のグループ
は、計算される可能性がかたよることがないよう
な、音素分布を含むように選択される。試験用語句のグループ各々が10個の句を含む２つのリストは、各々の
音素の発生する数が平均して（平均16回）現われ
るように選択されている。

【表】

【表】これらの句は、全部で568の音素を含み10msの
フレームの63000の音素片からなる。男性または女性のアクセントが音調の異なる話
者が選択されこれらの語句を登録する。以下に、第１図の音声認識システム及び第５Ａ
図及び第５Ｂ図の試験用手段の構成部の実施例を
示す。第１図の音声認識システム１……Ａ／Ｄ変換器＋TMS320、２……約32か
ら64KビツトのROMメモリ、３……約16Kビツ
トのROMメモリ、４……スタンダードマイクロ
プロセツサ例えばテキサス・インスツルメンツの
TMS7000、５……RAM又はIPROMメモリ第５Ａ図及び第５Ｂ図の試験用手段２１……Ａ／Ｄ変換器、２３，２６，３０，３
２……ミニコンピユータ例えば適当にプログラム
されたデキサス・インスツルメンツのDS990−
12、２４，２５，２９……RAMメモリ、磁気メ
モリ、３１，３３……磁気メモリ。〈効果〉以上の様な構成により要求にあわせた語いの辞
書を形成するための登録の作業は簡単になり、か
つ音声ユニツトへの正確なセグメンテーシヨンが
可能になる。また、本発明の方法によると。音声から音声テ
ンプレートを作りだす作業が容易になる。従つて音声認識装置の能力は向上し応用可能な
範囲が広がる。

【図面の簡単な説明】

第１図は、不特定話者単語認識システムの主要
部分のブロツク図である。第２図は、認識すべき
単語と、音素片の形式で表示される辞書の単語と
を対応させる方法を示す図である。第３図は、本
発明に従う音声認識の為のベクトル辞書の形成工
程を示す図である。第４図は、テンプレート辞書
がそこから形成される領域に音素表示を付与する
工程を示す。第５Ａ図及び第５Ｂ図は本発明に従
う不特定話者音声認識の試験手段を示す図であ
る。第６図は、分析された信号を波形で示したも
の及び信号及び信号の音素片表示を構成するパラ
メータを示す図である。

Claims

【特許請求の範囲】１入力アナログ音声信号を解析することと、解析された音声信号を複数の音声単位に分割す
ることと、前記解析された音声信号の前記複数の音声単位
を、音素辞書に格納された複数の基準テンプレー
トと比較することと、ここで、各基準テンプレー
トは、音素の少なくとも一部を表し、及び準備モ
ードにおいて準備期間中に発せられた複数の音声
単位を表す音響空間を複数の音響区に分割するこ
とにより準備され、各音響区は複数の音声単位を
表し、前記音素辞書に格納された前記複数の基準テン
プレートの各々と関連する複数の音声分布テーブ
ルを複数の頻度テーブルとして提供することと、
特定音声単位がある音響区に含まれる確率は前記
複数の頻度テーブルにより定義され、前記複数の頻度テーブルに従つて、前記解析さ
れた音声信号の前記複数の音声単位を、音声形式
で語彙辞書に格納された複数の語と比較すること
と、及び認識されるべき音声のうち、前記語彙辞書に格
納された語に対応し、かつその構成音声単位の最
大確率を有する特定の語を前記複数の頻度テーブ
ルに従つて認識することとを具備することを特徴とする話者に影響を受けな
い音声認識方法。２前記入力アナログ音声信号はベクトル量子化
器で解析されて複数の音響パラメータを提供し、
該複数の音響パラメータは、予め決められた値の
各時間間隔に対して計算され、距離計算を利用し
て、前記語彙辞書に格納された各基準テンプレー
トと比較されることを特徴とする特許請求の範囲
第１項に記載の音声認識方法。３前記音素辞書は、最近接のものからの距離がしきい値より大きい
ものであるように、スペクトルテンプレートの準
備組内で複数のスペクトルテンプレートを選択す
ることと、前記スペクトルテンプレートの準備組内の最近
接のものの関数として、前記準備組のスペクトル
テンプレートを複数のクラスにグループ化するこ
とと、スペクトルテンプレートの辞書に、前記スペク
トルテンプレートの準備組からの前記スペクトル
テンプレートの各クラスの重心を基準テンプレー
トとして挿入することと、互いに最近接のスペクトルテンプレート間の平
均距離がしきい値距離より小さくなるまで、ある
いは該平均距離の変分が小さい基準値より小さく
なるまで、前記選択するステツプ、前記グループ
化するステツプ、及び前記挿入するステツプを繰
り返すことにより生成されることを特徴とする特許請求の範
囲第１項に記載の音声認識方法。４前記準備モードは、異なるアクセントと音調を有する予め決められ
た数の話者により発せられ、及びデジタル音声信
号に変換された語の準備組の語の音声から解析イ
ンデツクスとマーキングインデツクスを作り出す
ことと、前記解析インデツクスと前記マーキングインデ
ツクスから前記頻度テーブルを作り出すことを含
むことを特徴とする特許請求の範囲第１項に記載
の音声認識方法。