JP2764277B2

JP2764277B2 - 音声認識装置

Info

Publication number: JP2764277B2
Application number: JP63222313A
Authority: JP
Inventors: 明雄天野; 熹市川; 信夫畑岡
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1988-09-07
Filing date: 1988-09-07
Publication date: 1998-06-11
Anticipated expiration: 2013-06-11
Also published as: US5040215A; JPH0272397A

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は音声認識方式に係り、特に、多様であいまい
な性質が特徴である音声を良好に認識する方式に関す
る。

〔従来の技術〕

従来の音声認識装置では、アイ・イー・イー・イー・
トランザクシヨンオンアコーステイクススピーチ
アンドシグナルプロセシングエーエスエス
ピー 23 １（1973年）第67頁から第72頁（IEEE,Tran
s.on ASSP−23,No.1（1975）pp67−72）において論じら
れているように、認識対象となる音声の全てのカテゴリ
ーについて予じめ標準パターンを用意しておき、入力パ
ターンをこの各標準パターンと照合し最も類似度の高い
ものを認識結果とする方式をとっていた。

このような方式においては、認識の動作は標準パター
ンとの照合が基本となるが、音声の特徴が暗黙的に標準
パターンの中に取り込まれているために、認識動作の途
中経過についてもその正否を人間が判断することができ
ない。このため、認識装置の性能改善が試行錯誤的にな
り、知識が積み上らず、性能向上が望めず、系統的性能
改善が行えない。

このような問題点を解決する方式として、同一出願人
は特願昭62−33261において音素特有の特徴が特徴パタ
ーンの時系列の中に存在するか否かを調べる処理の名称
と手順を各音素特有の特徴毎に保持する手段と、認識対
象の音声の全カテゴリーの中から２つの組み合せ毎に、
その２つを識別するために行なう前記処理の名称および
処理結果の解釈の仕方を記述したテーブルを設け、本テ
ーブルの記述に従って対判定によつて認識処理を行なう
方法を考案した。この方法によれば、誤認識が生じたと
きの原因を究明するには、上記の対判定結果のうち、判
定を誤つているものを調べれば良く、この処理手順を改
良することにより、他の対判定結果に悪影響を及ぼすこ
となく、性能を改善することが出来る。

なお、以下の説明では、音声の認識単位として音韻を
例に取り上げて説明するが、認識の単位が音節や単語な
ど他の単位であつても同様に処理できることは言うまで
もない。

〔発明が解決しようとする課題〕

上記に例として示した二つの従来技術では、音声が本
来的に持つあいまいさ（発声器官上の不確実さや、発声
者の発声態度のあいまいさ、調音結合による構造的な変
形によるあいまいさ）や、分析等の技術上の制約による
分解能不足等によるあいまいさについて、十分に考慮さ
れておらず、確定的な論理処理により認識判断がなされ
ているため、十分な性能が得られないという問題があつ
た。

このような問題点を解決するために、これまでに、た
とえば、森島他“音響処理と記号処理とを融合した単語
音声認識システムの構成”信号論Ｄ、Vol J70−D,No.1
0,pp1890−1901（1987.10）及びR.De Mori et al“Use
of Fuzzy Algorithms for Phonetic and Phonemic Labe
ling of Continuous Speech"IEEE Trans.on PAMI,Vol.P
AMI−2,No.2,pp136−148（1980）に示されているよう
に、あいまいな処理に向いた論理であるフアジー論理を
導入した手法が提案されているが、これらは、いずれも
木探索形式の論理によつており、各論理判定が独立でき
ない。このために、第１の従来技術における問題点とし
て先に示した各処理の独立性がなく、性能改善を系統的
に積み上げて行くことが困難であるという問題点があ
る。

また、第二の従来技術として示した方法は、全音韻カ
テゴリーの中から２つづつすべての組みを取り出し、そ
の組毎に最適な対判定処理を構成するためには、一つ一
つその性質を解明し、処理方法を決定して行かねばなら
ないため、開発の手間が膨大になるという問題点があつ
た。

また、得られた結果が正しくないと判断されたとき、
処理のやりなおしをする手順が明確でないため正しく入
力している時でも再入力が必要という問題があつた。

本発明の目的の第１の目的は、音声の本来的に持つあ
いまい性を考慮に入れながら、各処理の独立性を保証
し、性能改善が系統的に実現され、高性能な認識を実現
する音声認識方式を提供することにある。

また、本発明の第２の目的は、音声毎に最適な処理方
式を自動的に学習し、決定して行くことの出来る音声認
識方式を提供することにある。

本発明の第３の目的は、認識結果が誤りであつたり、
その判定の結果、あるいは予め入力内容が予測される場
合に、予測された音声が入力されている可能性があるか
どうかを確認するための手順を与え、不必要な再入力を
さける手段を提供することにある。

〔課題を解決するための手段〕

上記目的は、音声の特徴抽出部をニユーラル・ネツト
ワークで構成し、入力音声のカテゴリーを判定する判定
部を、対判定型の判定処理で構成し組み合せることによ
つて達成される。

なお、対判定型の判定処理は、すべての音韻の中から
任意の二つの音韻を取りだした時に、入力がどちらの音
韻と見なす方が妥当かを判定する対判定部と、各対判定
部の結果を総合して入力が何という音韻かを判定する総
合判定部（結果集計部）から構成される。この対判定型
判定処理部では、（１）対判定部と総合判定部をフアジ
ー処理で構成し、ニユーラル・ネツトワークで構成した
特徴抽出部の出力をメンバシツプ関数とする場合、
（２）対判定部もニユーラル・ネツトワークで構成し、
総合判定部をフアジー処理で構成する場合、（３）すべ
てをニユーラル・ネツトワークで構成する場合に構成す
ることができる。

また、ここでニユーラル・ネツトワークとは、等価的
に並列プロセツシング・エレメントからなり、各プロセ
ツシング・エレメント間の結合はダイナミカルな自己プ
ログラミングによる、教師の有無にかかわらず自己学習
により行なわれるもの、及び予め学習され固定化された
結合によりなされているものの双方を含むものとする。

〔作用〕

ニユーラル・ネツトワークは構成階層数を増すことに
よつて、原理的に任意の写像（入出力関係）を実現でき
る。また、この任意の写像の具体的実現は、入力データ
と対応する出力データのサンプルを与え、適当な学習ア
ルゴリズムに従つて学習することにより行なわれる。そ
こで、入力データとして、音声波形又は、その音声波形
を変換して得られた周波数スペクトルなどの特徴パラメ
ータを、出力データとして、対判定処理に用いたい特徴
の有無（たとえばその入力音声の摩擦性の有無と１と０
の値で）与えることにより、任意の入力音声に対しその
特徴の存在の程度をあらわすようなメンバシツプ関数を
発生することが出来る。さらに、これらの特徴（摩擦
性、破裂性、鼻音性等等）の程度を入力とし、その音が
/p/と/k/のどちららしいか、といつた対判定結果を出力
する対判定部を構成することが出来る。この場合は、学
習として、特徴の程度を与え、その特徴を有する入力が
/p/なら/p/に対応する出力端子から１を/k/に対応する
出力端子には０を与えて学習を行なわせ、入力/k/な
ら、その逆の組み合せで学習させれば良い。

このように構成することにより、/p/と/k/の対判定を
行なう対判定部からは/p/らしさと/k/らしさを示すメン
バシツプ関数が出力される、他の音韻の対に対しても同
様である。

同じく、総合判定部をニユーラル・ネツトワークで構
成する場合は、各対判定部の出力を入力データとし、入
力された音韻名を出力データとしてニユーラル・ネツト
ワークを学習することにより、最終的に入力音声が何の
音韻かを判定することが可能となる。

次に対判定部及び、又は総合判定部をフアジー処理で
行なう場合について説明する。

ある原因ｘによつて現像ｙが観測された時に、両者の
関係をフアジイー関係Ｒであらわす。

ｙ＝ｘ・Ｒ …（１）対判定部では、各対等に各特徴のメンバシツプ関数か
らなる観測値ｙから、その観測値を生成した原因である
音韻ｘを逆推定することになる。これはＲを決めておけ
ば、フアジー論理の展開で実現することが可能である。
同様に総合判定部では、各対判定部の出力である、各対
の各々の音韻らしさを観測値ｙとして、その観測を生成
した原因である音韻ｘを逆推定することになる。これ
も、Ｒを決めておけば、フアジー論理の展開で実現する
ことが可能である。

フアジー処理には、このように、フアジー論理による
推定の他に、フアジー論理を利用して同様に処理を行な
うことも、もちろん可能である。

また、フアジー関係式（１）による逆推定により得ら
れる原因ｘはＲの決め方や、逆推定手順の選択により、
複数の解を求めることが出来る。従つて、認識結果を一
担出力し、その結果が妥当でない場合（たとえば、日本
語としてあり得ない音韻の組み合せが生じた場合など）
は、別の解を求め再出力するなどの処理（トツプ・ダウ
ン処理と呼ばれる）も可能となる。

さらに、フアジー関係式（１）の観測ベクトルｙを構
成する各要素のメンバシツプ関数の値を１から引いた値
を要素とする観測値ｙ′に用いて逆推定して得られる推
定原因ベクトルｘ′を構成する要素の中で０に近いメン
バシツプ関数となる原因は、「その原因はないとは言え
ない」という意味を持つ（裏推定と呼ぶ）。従つて、た
とえば認識結果を正解と思われる結果と対照させ、結果
が合わない場合に、裏推定を行ない、正解と思われる結
果が可能性として上つて来るかどうかを確認することが
可能である。

〔実施例〕

以下、本発明の一実施例を第１図により説明する。

入力部１からのデジタル化音声13は特徴抽出部２にお
いて所定時間毎に音声の特徴を表わす特徴パターンに変
換され特徴パターンの時系列10として出力される。候補
選択部３では特徴パターンの時系列10を入力とし、この
入力の中に存在すると考えられる音声のカテゴリーの上
位候補ｎ個（例えばｎ＝５）が出力される。候補選択部
３で選択されたｎ個の候補は対生成部４へ送られ、ここ
で対判定を行なう対象となる対nC₂個（ｎ＝５のとき、n
C₂＝10）を生成し対判定部５へ送る。対判定部５では対
生成部４から送られたnC₂個の対のそれぞれについて対
判定を行なうが、ここでは１つの対についての動作のみ
を説明する。いま与えられた音声のカテゴリーa,bの２
つであつたとすると、対判定部５ではａとｂを識別する
ための手掛りとなる音素特有の特徴（例えば、破裂性，
摩擦性，バスバ等）が入力された特徴パターンの時系列
中に存在するか否かを調査する処理を行なう。

この処理に関しては、各音素特有の特徴（以下音響キ
ユーと呼ぶ）のそれぞれについて、その名称と処理の手
順を予じめ第１の格納部６に格納しておく。また各カテ
ゴリーの対毎にその対の識別のために行なう前記処理の
名称と、その処理結果の解釈のしかた（変換表）を第２
の格納部７の中に格納しておく。

a,bの対が与えられると、まず、第２の格納部７の内
容を参照し、a,bの対の識別のためには特徴パターンの
時系列に対して何という名称の処理を施せばよいのかを
調べる。ここで求められた名称の処理の手順は第１の格
納部６に格納されているので、これを参照して処理を実
行する。処理結果に基づいて入力音声ａであるか、ｂで
あるかの判定を下さねばならないが、この判定は第２の
格納部７に予じめ格納されている処理結果の解釈の仕方
に基づい行なう。以上によりa,bの対に関する対判定が
完了するが、残りの全ての対に関しても同様の手順で対
判定を行なう。かくして、nC₂の対判定結果11が対判定
部５から得られ、この結果11が結果集計部８で集計さ
れ、この集計に基づいてｎ個の候補の順位付けが行なわ
れ、最終結果12として出力される。

入力部１はマイクロフオン，アナログ・アンプ，アナ
ログ・デジタル変換器等から構成されている通常のもの
であり、特に説明を要しないであろう。

特徴抽出部２としては、フイルタバンク分析、線形予
測分析（LPC）等が考えられるが、本実施例ではフイル
タバンク分析を用いることとし、第２図にその具体的実
施例を示す。入力音声x_nは中心周波数と帯域幅の違う複
数個のBPF群21と22に入力される。本実施例では周波数
分解能を上げるために２段のBPF構成としている。

BPF21,22は２次のバターワース型フイルタとなつてお
り、加算器２個、乗算器４個と遅延器２個から構成され
ている。BPF結果の波形は絶対値変換器（ABS）23にて整
流され、LPF24、サンプリング器25、さらにLPF26にて高
域周波数成分をカツトされながら出力値パタンx₁が求め
られる。LPFはBPF同様に周波数分解能をあげるために２
段構成となつており、LPF24,26はBPF同様の処理規模の
バターワース型となつている。尚、LPFの構成について
は特願昭55−135981「デイジタル低域通過濾波回路」に
詳細に説明されている。

フイルタ・バンクは本実施例では、100Hzから6KHzま
での帯域を対数間隔で配置した16チヤネルで構成したも
のを用いる。帯域や各フイルタの配置方法については、
様々な変形が可能なことは言うまでもない。

次に候補選択部３について説明する。

候補選択部としては、いくつかの方法が考えられる
が、本実施例では従来から用いられているテンプレート
マツチングを用いることとし、テンプレートマツチング
で得られた上位候補（距離値の小さい方からｎ個の候
補）を出力することとする。テンプレートマツチングの
具体的実現には文献「音声認識に適用した最小予測誤差
原理（Minimum Prediction Residual Principle Applie
d to Speech Recognition）」by F.Itakura et al.IEEE
Trans on Acoustics,Speech and Signal Processing,v
ol.ASSP−23,p.p.57〜72,Feb.′75に記載の方法を用い
ればよい。ただし、本文献では距離尺度として尤度比を
用いているが、本実施例では距離尺度を特徴パターン
（スペクトル）間のユーグリツド距離とすればよい。

対生成部４は候補選択部３から得られたｎ個の候補に
ついて考え得る全ての２つの組合せnC₂個を生成する。
これは単純な組合せ演算でありソフトウエアで簡単に実
現できる。第３図にその具体的フローを示す。図では候
補として挙げられたｎ個の音声のカテゴリーをC₁,C₂,…
C_nと表わしている。本フローに従つて、音声のカテゴリ
ーの対が（C₁,C₂），（C₁,C₃），…（C₁,C_n），（C₂,
C₃）…（C_n-1,C_n）という順で計nC₂個生成される。

次に対判定部５の具体的構成を第４図を用いて説明す
る。

デジタル化された音声13はフイルタ・バンク２により
周波数分析され、その16チヤネルの出力10−１〜10−16
は対判定部５に入力される。対判定部５内では、入力さ
れたフイルタ・バンク２の出力は音響キユー抽出プロセ
ツサ群41に加えられる。音響キユー抽出プロセツサは音
声の各音韻の特徴を表現する様々なキユーを抽出するも
のであり、本実施例では第５図に示すような20種類のも
のを用いた。もちろん、キユーの種類はこん他にも考え
られるし、また、このすべてを使う必要はなく、要求性
能や対象とする言語等により様々な組み合せがありうる
ことは言うまでもない。

また、この音響キュー抽出プロセッサの出力を特徴と
して候補選択部３の入力に用いても良いことも言うまで
もない。

各音響キュー抽出プロセッサ41等の出力は、換算部42
等を経て、対判定処理部群43−１〜43−ｎに加えられ
る。各対判定処理部43は、入力音声が音韻対aiとbiのど
ちらの可能性が高いかを判定処理するものであり、対の
種類だけ用意される。換算部42は、第１図の第２の格納
部７中に換算表の形式で記録されているものであり、音
響キュー抽出プロセッサの出力結果を、各対判定処理部
43の各々の判定に最適なように値を変換するためのもの
である。

もちろん、音響キュー抽出プロセッサを各対判定処理
部に最適なように、各々に専用のものを用意すれば、換
算部42等は不要であるし、また、各対判定処理部の判定
性能を若干落すことにすれば、換算部42等を省略するこ
とも可能などの変形がありうることは言うまでもない。
各対判定処理部43等の出力11−a,11−b,……,11−a_m,11
−b_mは結果集計部８（第１図参照）に入力される。

次に音響キュー抽出プロセッサの構成について、より
詳しく説明する。第５図の備考に示したａからｅまでの
記号は、音響キユーの性能を分類したものである。ａは
定常的性能をもつもの（タイプ１）であり、b,c,dは一
定の時間幅内での時間的変化に特徴のあるもの（タイプ
２）であつて、ｂは過度遷移的なもの、ｃは不連続性に
特徴のあるもの、ｄはある一時点の特性に特徴のあるも
のである。ｅは時間的順序関係に特徴のあるもの（タイ
プ３）である。本実施例では、この３つのタイプにもと
ずいて、音響キュー抽出プロセッサの構造を分類し、そ
れぞれにふさわしい基体構造をもつニユーラル・ネツト
ワークにより構成した。もちろん、タイプが共通であつ
ても、抽出する音響キユーが異なるから、それぞれにふ
さわしい値を出すように各ネツトワークは独立に学習さ
れるため、特性が異なることは言うまでもない。

タイプ１の音響キュー抽出プロセッサは第６図に示す
ような階層型のニユーラル・ネツトワークで構成した。
入力層Ｉと出力層Ｏの間に隠れ層を二層持つている。階
層型のニユーラル・ネツトワークについては、たとえ
ば、D,E,ルーメルハート等の著書「パラレルデイスト
リビユーテツドプロセツシング“MITプレス（D.E.Rum
elhart et al,“Parallel Distributed Processing“MI
T Press,Cambridge,（1986））などに学習法も含め詳し
く述べられている。入力ユニツトI_iと隠れ第１層のユニ
ツトH_1j間の結合重みをw_1ji,隠れ第１層の各ユニツトH
_1jと第２層の各ユニツトH_2k間の結合重みをw_2kj,隠れ第
２層の各ユニツトH_2kと出力層のユニツト０との結合重
みをw_3kとする。また、各層の各ユニツトの出力Ｏを次
のように構成した。

ただし、ｉ＝0,j＝0,k＝０は第６図の各層の右端にあ
る定数１を入力とするユニツトを意味し、各ユニツトの
域値が各々w_1jO,w_2kO,w_3Oとして等価的に得られるよう
に構成してある。このような音響キユー抽出プロセツサ
は、たとえば摩擦性を検出するように学習されている
と、摩擦音が入力されると、出力から１または、１に近
い値が出力され、それ以外の入力に対しては０又は０に
近い値が出力される。

次に学習手順について説明する。学習は予め別途同様
の構造を持つニユーラル・ネツトワークを計算機上等で
構成し、学習後重み係数を取り出し対応する音響キュー
抽出プロセッサに入れても良いし、以下に述べるような
学習手順が可能なような構成を装置内に設けておいても
良い。この構成自体は当業者には極めて簡単に実現でき
るが、一般にニユーラル・ネツトワークの学習には処理
時間や大量のデータを用意して、そのデータを入力して
学習させる必要があるため、装置毎に用意するよりも、
前述のように、別途計算機システム上に構成しておいた
方が経済的である。しかし、基本部分は予め別途学習し
ておくにしても、話者に適用させて特性を修飾させる機
能を持たせたい場合は、学習用の機能も装置上に実現し
ておくことが必要である（もちろん、この学習機能も装
置の音響キュー抽出プロセッサと同一部分を用いず、装
置の制御に用いる汎用プロセツサ上とソフトウエアで実
現し、学習後、各音響キュー抽出プロセッサにダウン・
ロードするような構成にした方がより一般的で望まし
い）。

学習の一般的手順は先述のルーメルハートの文献の第
一巻８章318−362頁に詳しく記述されている。本実施例
でも、この手順を参考に、本目的に合致するように考案
したものである。以下説明を簡単にするために、一般性
を失なうことなく（３）〜（５）に示した各層のユニツ
トの特性を皆同一とし、Ｉ_p,q＝Σｗ_ｐ−1,q,r・Ｏ_ｐ−1,r …（６）Ｏ_p,q＝ｆ（Ｉ_p,q） …（７）とする。ここにｐは入力からの層番号（ｐ＝1,2,3,
4）、ｑは第ｐ層の、ｒは第ｐ−１層のユニツト番号を
あらわすものとする。またT₀を学習目標値とする。

ここで、学習音声を大量に用意し、フイルタ・バンク
２（第４図参照）を通した出力を10ミリ秒毎に取り出
し、その毎々に、たとえば目視によつて第５図に示した
各音声キユーの特徴の有無を付して行く。今、たとえば
３番目の摩擦性を検出する音響キュー抽出プロセッサを
学習させる場合は、このようにして用意した音声を用い
て、同プロセツサの入力からフイルタ・バンク２の出力
を加え、出力側から学習目標値T₀として、摩擦性のもの
であれば「１」を、その他であれば「０」を提示して行
く。各ユニツトの入力信号による出力と学習目標から与
えられる目標値との間の誤差をδとすると、、前記文献
に従うと、各誤差δは次のように求められる。

出力層 δ_4.0＝（T₀−O₀）ｆ′（Ｉ_4.0） …（８）第３層 δ_3,q＝ｆ′（Ｉ_3,q・δ_4.0ｗ_3.0,q…（９）以下入力層まで同様に誤差δが求められる。この誤差を
用いて、各結合部の重みの修正量Δｗは次のように求め
られる。

Δｗ_ｐ−1,q,r＝α・δ_p,q・Ｏ_ｐ−1,r …（10） αは実験的に収束速度等を調べ設定してやれば良い。他
の音響キュー抽出プロセッサも、各キユー毎に同様に学
習させることによつて、各キユーの特徴の有無を［0,
1］の範囲の値として出力するものとして構成される。
その特徴を完全に持つ場合は１の値を、全くない場合は
０の値を出力し、その他の場合は、その程度によつて、
その中間の値を出力する。

タイプ２の音響キユー抽出プロセッサとタイプ３の音
響キュー抽出プロセッサは各々第７図と第８図に示すよ
うな構成の階層型のニユーラル・ネツトワークとした。

タイプ２とタイプ１の相異点は、ニユーラル・ネツト
ワークの各層の構成が見掛上二次元配列になつている点
である。この二次元配列を第７図ではわかりやすくする
ために簡単に平面で表現しているが、この各平面内にユ
ニツトが二次元的に配列されている。各層間の接続は、
各層内のユニツトを端から値に番号をつけ、その順に一
列に並べなおすと、タイプ１の場合と同じになる。従つ
て層間の処理や学習手順はタイプ１と同じである。両者
の相異点は、入力層へのデータ入力が異なつている点に
ある。すなわち、第７図において、斜め方向の16のユニ
ツトはフイルタ・バンク２の出力と直接つながつてお
り、横方向には、同じくフイルタ・バンクの出力の10ミ
リ秒前、20ミリ秒前，…,40ミリ秒前のデータが入力さ
れるよう構成されている点にある。従つて、フイルタ・
バンクの各チヤネルの出力は５段からなるシフト・レジ
スタに接続され、各レジスタの出力が、第１層のユニツ
トの入力となるよう構成されている。しかし、ニユーラ
ル・ネツトワーク内の接続はすべて平等に結合されてお
り、結合の程度は学習によつて決るから、40ミリ秒前ま
でのフイルタ・バンクのすべての出力16×５＝80データ
が入力されると見れば、ニユーラル・ネツトワークとし
てはタイプ１と本質的に同一の構造であることが理解さ
れよう。

タイプ３は、入力データの構造はタイプ２と類似して
いるが、ニユーラル・ネツトワーク内の結合に制約を設
けてある点に相点がある。第８図はこの差異がわかるよ
うに、フイルタ・バンク出力の特定の１チヤネルの出力
の部分の断面を取り出して、かつその一部を記したもの
である。即ち、第７図のものが奥行き方向に16チヤネル
分あり２次元的配置になつている。タイプ２との相異点
は、層間の接続に制約が設けられている。たとえばH1₂
ユニツトはI₁とは接続されておらず、I₂〜I₅に接続され
ている。H1₃はI₁,I₂とは接続されておらず、I₃〜I₆と接
続されている。I₁,I₂,…，はフイルタ・バンクのあるチ
ヤネルの出力を10ミリ秒毎にシフトしたものであるか
ら、時間的にずれた一部のデータのみが上位の層に結合
されていることになる。この点を除けば、タイプ３もタ
イプ１やタイプ２と全く同様である。学習に際しては、
（10）式の結果のいかんにかかわらず、結合しないユニ
ツト間の結合は常に０としておくことを除けば、学習手
順等は全く同様に実現することが出来る。なお、タイプ
２とタイプ３の説明図には各ユニツトの域値を自動学習
するための定数ユニツトの表示も省略してあるが、タイ
プ１と同様に構成しておくことが出来る点も言うまでも
ないことであろう。

次に、説明の都合上、対判定処理部43の説明を換算部
42に先立つて行なう。

対判定処理部43は、音響キュー抽出プロセッサ群の出
力を用いて、入力された音声が、aiとbiの二つの音韻、
たとえば/p/と/k/のどちらかと仮定した場合、それぞ
れ、どの程度その音韻らしいかを判定するものである。
どの音響キユーを用いるかの情報は第１図に示した第１
の格納部６に格納されている。従つて、認識しようとし
ている言語の音声に含まれる音韻の種類がＮ種の場合、
その全ての２つの組み合せｎ＝_NC₂個の対判定処理部を
考えることになる。担し、現実にほとんど誤りの生じな
い音韻の組み合せや、出現頻度が非常に少なく、誤りが
生じても実害の非常に小さい音韻を含む対については、
省略しても良いことは言うまでもなかろう。

本実施例では音響キュー抽出プロセッサの出力は［0,
1］を範囲の値を取るように設定されているから、これ
を第（３）式の観測ベクトルｙを構成するメンバシツプ
関数群と見なし、二つの音韻aiとbiの可能性の程度をフ
アジー関係Ｒによつて推定するよう、対判定処理部43を
構成した。第１図の第１の格納部６内の情報に従がい、
どの音響キュー抽出プロセッサｊ（複数）の出力を用い
るかを知り、（第４図のように結線で予め結んでおいて
も良い）、使用する音響キユーの出力μｊを先ず得る。
第２の格納部７中にある第９図に概念的に示したような
換算部42の表値に従がい、音韻ai及びbiらしさを示す値
μ_j,ai及びμ_j,biの値を使用する音響キユーのすべてに
対し取り込み、音韻aiとbiの各々に対して、フアジー論
理和を求め、その値を各々音韻aiとbiの対判定結果μ_ai
とμ_jiとして出力する。この値は第10図の表の対象位置
に示す関係の位置に格納される。フアジー論理和は、関
係するメンバシツプ関数の中の最大値を取る処理であ
り、本実施例では、関係する幾つかの音響キユーの内の
最も確からしいものを選択する方式によつている。

このようにして、すべての音韻の対を調べると第10図
のようなメンバシツプ関数の二次元の表を得ることがで
きる。このような値が対判定部５の出力となる。本表
で、たとえばμ_ptとは、入力を音韻/p/か/t/かと仮定し
た場合に、音韻/p/思われる程度をあらわすメンバシツ
プ関数値である。

次に第１図に示した、結果集計部（総合判定部）８の
説明を行なう。

結果集計部８では、第10図に示すような値から、入力
音韻はどれが最もらしいかを判定する処理を行なう。本
実施例では、フアジー論理積により、各音韻毎のもっと
もらしさと定義し、その最大値をもつて、入力音韻の推
定を行なう。ｎ番目に大きい値を与えるカテゴリー（音
韻）をもつて第ｎ位の認識結果と見なす。フアジー論理
積とは、メンバシツプ関数の最小値を求める処理と同じ
であり、この処理を行なうことによつて、対毎の判定
で、最悪でもこの音韻である程度はこの値であるという
値を選ぶことになる。

以上説明したように、本実施例では、対判定処理部43
と結果集計部８の処理は極く簡単な演算で良く、簡単な
ソフト処理で対応することが可能である。

次に、第２の実施例を説明しよう。第２の実施例は全
体の構造は第１の実施例と同じであるが、第１の実施例
の第４図に示した対判定処理部43を、フアジー処理の代
りにニユーラル・ネツトワークで構成したものである。
このニユーラル・ネツトワークを第11図に示す。音響キ
ュー抽出プロセッサ群41等、あるいは換算部42等からの
出力を入力層111−１〜111−ｎに入力すると、出力層の
ユニツト114−１と114−２より対判定出力（第４図の11
−ai,11−biに相当）を出力するように構成した。ニユ
ーラル・ネツトワークの基本構造は第６図の場合と全く
同じであり、出力層が対判定性能に対応して二つのユニ
ットで構成されている点が異なつている。学習時に、学
習入力として音韻aiを入力した場合は、ai側の出力層ユ
ニツトの学習目標値T_aiを１に、他の出力ユニツトの学
習目標値を０に、逆に学習入力音韻がbiのときは、その
逆となるように設定し、ai,biのいずれでもよいし入力
に対しては、両方とも０の値を設定し、第６図のニユー
ラル・ネツトワークを学習した場合と同じように学習さ
せてやれば良い。入力音韻が最も良く一致した場合は、
一致した側の出力から１に近い値が、一致しない場合は
０に近い値が出力されるよう学習される。

第12図は第３の実施例を説明する図である。本実施例
の場合も基体的全体構成は第１の実施例と同じである
が、第１図の結果集計部８をニユーラル・ネツトワーク
で構成した点が異なる。本実施例のニユーラル・ネツト
ワークは、第12図に示すごとく、見掛上各層は二次元と
なつており、出力層124は音韻の数だけのユニツトから
なる。入力層121の各ユニツトへは第４図の対判定部か
らの出力である第10図に示すような二次元状のデータが
入力されるが、第２層の各ユニツトとすべて結合されて
いるため、本質的には第１図の第１層と同じく一次元デ
ータと見なすことができる。第2,第３層も同様に本質的
に一次元構造である。学習に際しては、入力音声の対判
定結果を入力層121の各ユニツトに入力し、入力した音
声の音韻に相当する出力層124のユニツトの学習目標値
を１に、その他のユニットを０として、第６図のニユー
ラル・ネツトワークを学習した場合と同様の手順で結合
の重みを学習させればよい。学習が完了すると、音声が
入力されると、入力音声の音韻と推定される出力ユニツ
トの出力ほど１に近い値が出力されることになる。１に
近い方からのｎ番目に大きい値を与えるユニツトに対応
するカテゴリー名を持つて第ｎ位の認識結果と見なすこ
とが出来る。

〔発明の効果〕

本発明は、以上に説明したように構成されているので
以下に記載されるような効果を奏する。

ニユーラル・ネツトワークによる処理およびまたフア
ジー処理を用いているので、音声の本発明に持つている
あいまいさに柔軟に対応でき、高い認識性態を得ること
ができる。また、これらの処理を対判定型の論理構成で
用いているので、誤りが生じた場合の原因の発見や対策
が容易で、性能改善をつみ上げて行くことが容易であ
る。また、ニユーラル・ネツトワークの自動学習機能を
活用しているため、カテゴリー毎に適した処理方法が自
動的に設定されるため、高い認識性能が得られる。さら
に、各部分を予め構造的に分割し構成されているため、
各部の構成・学習が安定かつ容易に行なわれ、大規模な
ニユーラル・ネツト方式が持つ学習の困難さをさけるこ
とが可能となつている。

【図面の簡単な説明】

第１図は本発明の一実施例の全体構成を説明する図、第
２図は音声分析部の一実施例を説明する図、第３図は同
じく対生成部の動作を説明する図、第４図は対判定部を
説明する構成図、第５図は音声の特徴である音響キユー
としての例を示す図、第６図，第７図，第８図は音響キ
ュー抽出プロセッサを実現する三つのタイプのニユーラ
ル・ネツトワークを説明する図、第９図は音響キユープ
ロセツサ出力を対判定部で用いる際の選択方法の説明
図、第10図は対判定部の出力の構造を説明する図、第11
図は第２の実施例において、対判定部をニユーラル・ネ
ツトワークで構成する場合の説明図、第12図は第３の実
施例において、総合判定部をニユーラル・ネツトワーク
で構成する場合の説明図である。

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開昭60−4999（ＪＰ，Ａ) 電子情報通信学会技術研究報告［音声］ＳＰ88−15，Ｐ．31〜38（昭和63年６月) 日本音響学会講演論文集（昭和63年３月）３−Ｐ−11，Ｐ．249〜250 (58)調査した分野(Int.Cl.⁶，ＤＢ名) G10L 3/00 531 G10L 3/00 541 G10L 5/06 G10L 9/10 301 G06F 15/18 560 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】少なくとも、入力音声を分析する分析部
と、該分析部の出力の特徴を抽出する特徴抽出部と、入
力音声から抽出された該特徴のカテゴリーを判定する判
定部を有し、前記特徴抽出部はニューラル・ネットワー
クで構成され、前記判定部は複数個の対判定部と前記複
数個の対判定部の結果を集計し総合的に入力カテゴリが
なにかを判定する総合判定部よりなることを特徴とする
音声認識装置。
【請求項２】前記判定部がファジー処理又はニューラル
・ネットワークにより構成されることを特徴とする請求
項１記載の音声認識装置。
【請求項３】前記総合判定部がファジー処理又はニュー
ラル・ネットワークにより構成されることを特徴とする
請求項１又は２記載の音声認識装置。
【請求項４】前記特徴抽出部の出力が前記複数個の対判
定部に対して共通の入力信号となる請求項１から３のい
ずれかの請求項記載の音声認識装置。
【請求項５】前記ニューラル・ネットワークは複数個の
入力ユニットと１以上の出力ユニットを有し、上記入力
ユニットと上記出力ユニットとの間に複数個の隠れ層を
有し、上記出力ユニットの出力値の範囲が０から１であ
ることを特徴とする請求項１から４のいずれかの請求項
記載の音声認識装置。
【請求項６】前記ニューラル・ネットワークは、時間的
に複数時点の信号からなる入力ユニットと出力ユニット
を有し、上記入力ユニットと上記出力ユニットとの間に
複数個の隠れ層を有し、該隠れ層間の結合の一部は結合
を禁止されていることを特徴とする請求項１から４のい
ずれかの請求項記載の音声認識装置。
【請求項７】上記分析部の機能を上記特徴抽出部が兼ね
備えていることを特徴とする請求項１から６のいずれか
の請求項記載の音声認識装置。
【請求項８】上記特徴抽出部に用いられるニューラル・
ネットワークは、学習用音声又はそれを分析した結果を
入力層に加え、該学習用音声の持つ性質が、所期の性質
を有するときには値１を、その他の性質の場合は０を学
習目標値として出力ユニットに与えて学習することを特
徴とする請求項１から４のいずれかの請求項記載の音声
認識装置。
【請求項９】上記対判定部に用いられるニューラル・ネ
ットワークは、複数個の出力ユニットを有し、学習時に
は、学習用音声又はそれを分析した結果又はその特徴を
入力層に加え、該学習用音声が所期の第１のカテゴリー
の音声の場合は第１の出力ユニットの学習目標値として
１を、第２の出力ユニットの学習目標値として０を、該
学習用音声が所期の第２のカテゴリーの音声の場合は第
１の出力ユニットの学習目標値として０を、第２の出力
ユニットの学習目標値として１を、該学習用音声が所期
の第１および第２のいずれかのカテゴリーに属さない場
合は、第１及び第２の双方の出力ユニットの学習目標値
を共に０とする様に学習することを特徴とする請求項１
から４のいずれかの請求項記載の音声認識装置。
【請求項１０】上記総合判定部に用いられるニューラル
・ネットワークは、入力ユニット及び出力ユニットを有
し、学習時に、学習用音声より得た複数種類の対判定部
の出力結果を入力ユニットに加え、該学習用音声のカテ
ゴリーに対応する出力ユニットの学習目標値として１又
はそれに相当する値を、そん他の出力ユニット学習目標
値に０又はそれに相当する値を用いることを特徴とする
請求項１から４のいずれかの請求項記載の音声認識装
置。
【請求項１１】上記特徴抽出部の複数個の出力をそれぞ
れメンバシップ関数とみなせるように変換した値の中か
ら最大値を上記特徴抽出部の出力値とすることを特徴と
する請求項２記載の音声認識装置。