JP2764277B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2764277B2
JP2764277B2 JP63222313A JP22231388A JP2764277B2 JP 2764277 B2 JP2764277 B2 JP 2764277B2 JP 63222313 A JP63222313 A JP 63222313A JP 22231388 A JP22231388 A JP 22231388A JP 2764277 B2 JP2764277 B2 JP 2764277B2
Authority
JP
Japan
Prior art keywords
unit
learning
output
input
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP63222313A
Other languages
English (en)
Other versions
JPH0272397A (ja
Inventor
明雄 天野
熹 市川
信夫 畑岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP63222313A priority Critical patent/JP2764277B2/ja
Priority to US07/400,342 priority patent/US5040215A/en
Publication of JPH0272397A publication Critical patent/JPH0272397A/ja
Priority to US07/727,089 priority patent/US5179624A/en
Application granted granted Critical
Publication of JP2764277B2 publication Critical patent/JP2764277B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S706/00Data processing: artificial intelligence
    • Y10S706/90Fuzzy logic

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は音声認識方式に係り、特に、多様であいまい
な性質が特徴である音声を良好に認識する方式に関す
る。
〔従来の技術〕
従来の音声認識装置では、アイ・イー・イー・イー・
トランザクシヨン オン アコーステイクス スピーチ
アンド シグナルプロセシング エー エス エス
ピー 23 1(1973年)第67頁から第72頁(IEEE,Tran
s.on ASSP−23,No.1(1975)pp67−72)において論じら
れているように、認識対象となる音声の全てのカテゴリ
ーについて予じめ標準パターンを用意しておき、入力パ
ターンをこの各標準パターンと照合し最も類似度の高い
ものを認識結果とする方式をとっていた。
このような方式においては、認識の動作は標準パター
ンとの照合が基本となるが、音声の特徴が暗黙的に標準
パターンの中に取り込まれているために、認識動作の途
中経過についてもその正否を人間が判断することができ
ない。このため、認識装置の性能改善が試行錯誤的にな
り、知識が積み上らず、性能向上が望めず、系統的性能
改善が行えない。
このような問題点を解決する方式として、同一出願人
は特願昭62−33261において音素特有の特徴が特徴パタ
ーンの時系列の中に存在するか否かを調べる処理の名称
と手順を各音素特有の特徴毎に保持する手段と、認識対
象の音声の全カテゴリーの中から2つの組み合せ毎に、
その2つを識別するために行なう前記処理の名称および
処理結果の解釈の仕方を記述したテーブルを設け、本テ
ーブルの記述に従って対判定によつて認識処理を行なう
方法を考案した。この方法によれば、誤認識が生じたと
きの原因を究明するには、上記の対判定結果のうち、判
定を誤つているものを調べれば良く、この処理手順を改
良することにより、他の対判定結果に悪影響を及ぼすこ
となく、性能を改善することが出来る。
なお、以下の説明では、音声の認識単位として音韻を
例に取り上げて説明するが、認識の単位が音節や単語な
ど他の単位であつても同様に処理できることは言うまで
もない。
〔発明が解決しようとする課題〕
上記に例として示した二つの従来技術では、音声が本
来的に持つあいまいさ(発声器官上の不確実さや、発声
者の発声態度のあいまいさ、調音結合による構造的な変
形によるあいまいさ)や、分析等の技術上の制約による
分解能不足等によるあいまいさについて、十分に考慮さ
れておらず、確定的な論理処理により認識判断がなされ
ているため、十分な性能が得られないという問題があつ
た。
このような問題点を解決するために、これまでに、た
とえば、森島他“音響処理と記号処理とを融合した単語
音声認識システムの構成”信号論D、Vol J70−D,No.1
0,pp1890−1901(1987.10)及びR.De Mori et al“Use
of Fuzzy Algorithms for Phonetic and Phonemic Labe
ling of Continuous Speech"IEEE Trans.on PAMI,Vol.P
AMI−2,No.2,pp136−148(1980)に示されているよう
に、あいまいな処理に向いた論理であるフアジー論理を
導入した手法が提案されているが、これらは、いずれも
木探索形式の論理によつており、各論理判定が独立でき
ない。このために、第1の従来技術における問題点とし
て先に示した各処理の独立性がなく、性能改善を系統的
に積み上げて行くことが困難であるという問題点があ
る。
また、第二の従来技術として示した方法は、全音韻カ
テゴリーの中から2つづつすべての組みを取り出し、そ
の組毎に最適な対判定処理を構成するためには、一つ一
つその性質を解明し、処理方法を決定して行かねばなら
ないため、開発の手間が膨大になるという問題点があつ
た。
また、得られた結果が正しくないと判断されたとき、
処理のやりなおしをする手順が明確でないため正しく入
力している時でも再入力が必要という問題があつた。
本発明の目的の第1の目的は、音声の本来的に持つあ
いまい性を考慮に入れながら、各処理の独立性を保証
し、性能改善が系統的に実現され、高性能な認識を実現
する音声認識方式を提供することにある。
また、本発明の第2の目的は、音声毎に最適な処理方
式を自動的に学習し、決定して行くことの出来る音声認
識方式を提供することにある。
本発明の第3の目的は、認識結果が誤りであつたり、
その判定の結果、あるいは予め入力内容が予測される場
合に、予測された音声が入力されている可能性があるか
どうかを確認するための手順を与え、不必要な再入力を
さける手段を提供することにある。
〔課題を解決するための手段〕
上記目的は、音声の特徴抽出部をニユーラル・ネツト
ワークで構成し、入力音声のカテゴリーを判定する判定
部を、対判定型の判定処理で構成し組み合せることによ
つて達成される。
なお、対判定型の判定処理は、すべての音韻の中から
任意の二つの音韻を取りだした時に、入力がどちらの音
韻と見なす方が妥当かを判定する対判定部と、各対判定
部の結果を総合して入力が何という音韻かを判定する総
合判定部(結果集計部)から構成される。この対判定型
判定処理部では、(1)対判定部と総合判定部をフアジ
ー処理で構成し、ニユーラル・ネツトワークで構成した
特徴抽出部の出力をメンバシツプ関数とする場合、
(2)対判定部もニユーラル・ネツトワークで構成し、
総合判定部をフアジー処理で構成する場合、(3)すべ
てをニユーラル・ネツトワークで構成する場合に構成す
ることができる。
また、ここでニユーラル・ネツトワークとは、等価的
に並列プロセツシング・エレメントからなり、各プロセ
ツシング・エレメント間の結合はダイナミカルな自己プ
ログラミングによる、教師の有無にかかわらず自己学習
により行なわれるもの、及び予め学習され固定化された
結合によりなされているものの双方を含むものとする。
〔作用〕
ニユーラル・ネツトワークは構成階層数を増すことに
よつて、原理的に任意の写像(入出力関係)を実現でき
る。また、この任意の写像の具体的実現は、入力データ
と対応する出力データのサンプルを与え、適当な学習ア
ルゴリズムに従つて学習することにより行なわれる。そ
こで、入力データとして、音声波形又は、その音声波形
を変換して得られた周波数スペクトルなどの特徴パラメ
ータを、出力データとして、対判定処理に用いたい特徴
の有無(たとえばその入力音声の摩擦性の有無と1と0
の値で)与えることにより、任意の入力音声に対しその
特徴の存在の程度をあらわすようなメンバシツプ関数を
発生することが出来る。さらに、これらの特徴(摩擦
性、破裂性、鼻音性等等)の程度を入力とし、その音が
/p/と/k/のどちららしいか、といつた対判定結果を出力
する対判定部を構成することが出来る。この場合は、学
習として、特徴の程度を与え、その特徴を有する入力が
/p/なら/p/に対応する出力端子から1を/k/に対応する
出力端子には0を与えて学習を行なわせ、入力/k/な
ら、その逆の組み合せで学習させれば良い。
このように構成することにより、/p/と/k/の対判定を
行なう対判定部からは/p/らしさと/k/らしさを示すメン
バシツプ関数が出力される、他の音韻の対に対しても同
様である。
同じく、総合判定部をニユーラル・ネツトワークで構
成する場合は、各対判定部の出力を入力データとし、入
力された音韻名を出力データとしてニユーラル・ネツト
ワークを学習することにより、最終的に入力音声が何の
音韻かを判定することが可能となる。
次に対判定部及び、又は総合判定部をフアジー処理で
行なう場合について説明する。
ある原因xによつて現像yが観測された時に、両者の
関係をフアジイー関係Rであらわす。
y=x・R …(1) 対判定部では、各対等に各特徴のメンバシツプ関数か
らなる観測値yから、その観測値を生成した原因である
音韻xを逆推定することになる。これはRを決めておけ
ば、フアジー論理の展開で実現することが可能である。
同様に総合判定部では、各対判定部の出力である、各対
の各々の音韻らしさを観測値yとして、その観測を生成
した原因である音韻xを逆推定することになる。これ
も、Rを決めておけば、フアジー論理の展開で実現する
ことが可能である。
フアジー処理には、このように、フアジー論理による
推定の他に、フアジー論理を利用して同様に処理を行な
うことも、もちろん可能である。
また、フアジー関係式(1)による逆推定により得ら
れる原因xはRの決め方や、逆推定手順の選択により、
複数の解を求めることが出来る。従つて、認識結果を一
担出力し、その結果が妥当でない場合(たとえば、日本
語としてあり得ない音韻の組み合せが生じた場合など)
は、別の解を求め再出力するなどの処理(トツプ・ダウ
ン処理と呼ばれる)も可能となる。
さらに、フアジー関係式(1)の観測ベクトルyを構
成する各要素のメンバシツプ関数の値を1から引いた値
を要素とする観測値y′に用いて逆推定して得られる推
定原因ベクトルx′を構成する要素の中で0に近いメン
バシツプ関数となる原因は、「その原因はないとは言え
ない」という意味を持つ(裏推定と呼ぶ)。従つて、た
とえば認識結果を正解と思われる結果と対照させ、結果
が合わない場合に、裏推定を行ない、正解と思われる結
果が可能性として上つて来るかどうかを確認することが
可能である。
〔実施例〕
以下、本発明の一実施例を第1図により説明する。
入力部1からのデジタル化音声13は特徴抽出部2にお
いて所定時間毎に音声の特徴を表わす特徴パターンに変
換され特徴パターンの時系列10として出力される。候補
選択部3では特徴パターンの時系列10を入力とし、この
入力の中に存在すると考えられる音声のカテゴリーの上
位候補n個(例えばn=5)が出力される。候補選択部
3で選択されたn個の候補は対生成部4へ送られ、ここ
で対判定を行なう対象となる対nC2個(n=5のとき、n
C2=10)を生成し対判定部5へ送る。対判定部5では対
生成部4から送られたnC2個の対のそれぞれについて対
判定を行なうが、ここでは1つの対についての動作のみ
を説明する。いま与えられた音声のカテゴリーa,bの2
つであつたとすると、対判定部5ではaとbを識別する
ための手掛りとなる音素特有の特徴(例えば、破裂性,
摩擦性,バスバ等)が入力された特徴パターンの時系列
中に存在するか否かを調査する処理を行なう。
この処理に関しては、各音素特有の特徴(以下音響キ
ユーと呼ぶ)のそれぞれについて、その名称と処理の手
順を予じめ第1の格納部6に格納しておく。また各カテ
ゴリーの対毎にその対の識別のために行なう前記処理の
名称と、その処理結果の解釈のしかた(変換表)を第2
の格納部7の中に格納しておく。
a,bの対が与えられると、まず、第2の格納部7の内
容を参照し、a,bの対の識別のためには特徴パターンの
時系列に対して何という名称の処理を施せばよいのかを
調べる。ここで求められた名称の処理の手順は第1の格
納部6に格納されているので、これを参照して処理を実
行する。処理結果に基づいて入力音声aであるか、bで
あるかの判定を下さねばならないが、この判定は第2の
格納部7に予じめ格納されている処理結果の解釈の仕方
に基づい行なう。以上によりa,bの対に関する対判定が
完了するが、残りの全ての対に関しても同様の手順で対
判定を行なう。かくして、nC2の対判定結果11が対判定
部5から得られ、この結果11が結果集計部8で集計さ
れ、この集計に基づいてn個の候補の順位付けが行なわ
れ、最終結果12として出力される。
入力部1はマイクロフオン,アナログ・アンプ,アナ
ログ・デジタル変換器等から構成されている通常のもの
であり、特に説明を要しないであろう。
特徴抽出部2としては、フイルタバンク分析、線形予
測分析(LPC)等が考えられるが、本実施例ではフイル
タバンク分析を用いることとし、第2図にその具体的実
施例を示す。入力音声xnは中心周波数と帯域幅の違う複
数個のBPF群21と22に入力される。本実施例では周波数
分解能を上げるために2段のBPF構成としている。
BPF21,22は2次のバターワース型フイルタとなつてお
り、加算器2個、乗算器4個と遅延器2個から構成され
ている。BPF結果の波形は絶対値変換器(ABS)23にて整
流され、LPF24、サンプリング器25、さらにLPF26にて高
域周波数成分をカツトされながら出力値パタンx1が求め
られる。LPFはBPF同様に周波数分解能をあげるために2
段構成となつており、LPF24,26はBPF同様の処理規模の
バターワース型となつている。尚、LPFの構成について
は特願昭55−135981「デイジタル低域通過濾波回路」に
詳細に説明されている。
フイルタ・バンクは本実施例では、100Hzから6KHzま
での帯域を対数間隔で配置した16チヤネルで構成したも
のを用いる。帯域や各フイルタの配置方法については、
様々な変形が可能なことは言うまでもない。
次に候補選択部3について説明する。
候補選択部としては、いくつかの方法が考えられる
が、本実施例では従来から用いられているテンプレート
マツチングを用いることとし、テンプレートマツチング
で得られた上位候補(距離値の小さい方からn個の候
補)を出力することとする。テンプレートマツチングの
具体的実現には文献「音声認識に適用した最小予測誤差
原理(Minimum Prediction Residual Principle Applie
d to Speech Recognition)」by F.Itakura et al.IEEE
Trans on Acoustics,Speech and Signal Processing,v
ol.ASSP−23,p.p.57〜72,Feb.′75に記載の方法を用い
ればよい。ただし、本文献では距離尺度として尤度比を
用いているが、本実施例では距離尺度を特徴パターン
(スペクトル)間のユーグリツド距離とすればよい。
対生成部4は候補選択部3から得られたn個の候補に
ついて考え得る全ての2つの組合せnC2個を生成する。
これは単純な組合せ演算でありソフトウエアで簡単に実
現できる。第3図にその具体的フローを示す。図では候
補として挙げられたn個の音声のカテゴリーをC1,C2,…
Cnと表わしている。本フローに従つて、音声のカテゴリ
ーの対が(C1,C2),(C1,C3),…(C1,Cn),(C2,
C3)…(Cn-1,Cn)という順で計nC2個生成される。
次に対判定部5の具体的構成を第4図を用いて説明す
る。
デジタル化された音声13はフイルタ・バンク2により
周波数分析され、その16チヤネルの出力10−1〜10−16
は対判定部5に入力される。対判定部5内では、入力さ
れたフイルタ・バンク2の出力は音響キユー抽出プロセ
ツサ群41に加えられる。音響キユー抽出プロセツサは音
声の各音韻の特徴を表現する様々なキユーを抽出するも
のであり、本実施例では第5図に示すような20種類のも
のを用いた。もちろん、キユーの種類はこん他にも考え
られるし、また、このすべてを使う必要はなく、要求性
能や対象とする言語等により様々な組み合せがありうる
ことは言うまでもない。
また、この音響キュー抽出プロセッサの出力を特徴と
して候補選択部3の入力に用いても良いことも言うまで
もない。
各音響キュー抽出プロセッサ41等の出力は、換算部42
等を経て、対判定処理部群43−1〜43−nに加えられ
る。各対判定処理部43は、入力音声が音韻対aiとbiのど
ちらの可能性が高いかを判定処理するものであり、対の
種類だけ用意される。換算部42は、第1図の第2の格納
部7中に換算表の形式で記録されているものであり、音
響キュー抽出プロセッサの出力結果を、各対判定処理部
43の各々の判定に最適なように値を変換するためのもの
である。
もちろん、音響キュー抽出プロセッサを各対判定処理
部に最適なように、各々に専用のものを用意すれば、換
算部42等は不要であるし、また、各対判定処理部の判定
性能を若干落すことにすれば、換算部42等を省略するこ
とも可能などの変形がありうることは言うまでもない。
各対判定処理部43等の出力11−a,11−b,……,11−am,11
−bmは結果集計部8(第1図参照)に入力される。
次に音響キュー抽出プロセッサの構成について、より
詳しく説明する。第5図の備考に示したaからeまでの
記号は、音響キユーの性能を分類したものである。aは
定常的性能をもつもの(タイプ1)であり、b,c,dは一
定の時間幅内での時間的変化に特徴のあるもの(タイプ
2)であつて、bは過度遷移的なもの、cは不連続性に
特徴のあるもの、dはある一時点の特性に特徴のあるも
のである。eは時間的順序関係に特徴のあるもの(タイ
プ3)である。本実施例では、この3つのタイプにもと
ずいて、音響キュー抽出プロセッサの構造を分類し、そ
れぞれにふさわしい基体構造をもつニユーラル・ネツト
ワークにより構成した。もちろん、タイプが共通であつ
ても、抽出する音響キユーが異なるから、それぞれにふ
さわしい値を出すように各ネツトワークは独立に学習さ
れるため、特性が異なることは言うまでもない。
タイプ1の音響キュー抽出プロセッサは第6図に示す
ような階層型のニユーラル・ネツトワークで構成した。
入力層Iと出力層Oの間に隠れ層を二層持つている。階
層型のニユーラル・ネツトワークについては、たとえ
ば、D,E,ルーメルハート等の著書「パラレル デイスト
リビユーテツド プロセツシング“MITプレス(D.E.Rum
elhart et al,“Parallel Distributed Processing“MI
T Press,Cambridge,(1986))などに学習法も含め詳し
く述べられている。入力ユニツトIiと隠れ第1層のユニ
ツトH1j間の結合重みをw1ji,隠れ第1層の各ユニツトH
1jと第2層の各ユニツトH2k間の結合重みをw2kj,隠れ第
2層の各ユニツトH2kと出力層のユニツト0との結合重
みをw3kとする。また、各層の各ユニツトの出力Oを次
のように構成した。
ただし、i=0,j=0,k=0は第6図の各層の右端にあ
る定数1を入力とするユニツトを意味し、各ユニツトの
域値が各々w1jO,w2kO,w3Oとして等価的に得られるよう
に構成してある。このような音響キユー抽出プロセツサ
は、たとえば摩擦性を検出するように学習されている
と、摩擦音が入力されると、出力から1または、1に近
い値が出力され、それ以外の入力に対しては0又は0に
近い値が出力される。
次に学習手順について説明する。学習は予め別途同様
の構造を持つニユーラル・ネツトワークを計算機上等で
構成し、学習後重み係数を取り出し対応する音響キュー
抽出プロセッサに入れても良いし、以下に述べるような
学習手順が可能なような構成を装置内に設けておいても
良い。この構成自体は当業者には極めて簡単に実現でき
るが、一般にニユーラル・ネツトワークの学習には処理
時間や大量のデータを用意して、そのデータを入力して
学習させる必要があるため、装置毎に用意するよりも、
前述のように、別途計算機システム上に構成しておいた
方が経済的である。しかし、基本部分は予め別途学習し
ておくにしても、話者に適用させて特性を修飾させる機
能を持たせたい場合は、学習用の機能も装置上に実現し
ておくことが必要である(もちろん、この学習機能も装
置の音響キュー抽出プロセッサと同一部分を用いず、装
置の制御に用いる汎用プロセツサ上とソフトウエアで実
現し、学習後、各音響キュー抽出プロセッサにダウン・
ロードするような構成にした方がより一般的で望まし
い)。
学習の一般的手順は先述のルーメルハートの文献の第
一巻8章318−362頁に詳しく記述されている。本実施例
でも、この手順を参考に、本目的に合致するように考案
したものである。以下説明を簡単にするために、一般性
を失なうことなく(3)〜(5)に示した各層のユニツ
トの特性を皆同一とし、 Ip,q=Σwp−1,q,r・Op−1,r …(6) Op,q=f(Ip,q) …(7) とする。ここにpは入力からの層番号(p=1,2,3,
4)、qは第p層の、rは第p−1層のユニツト番号を
あらわすものとする。またT0を学習目標値とする。
ここで、学習音声を大量に用意し、フイルタ・バンク
2(第4図参照)を通した出力を10ミリ秒毎に取り出
し、その毎々に、たとえば目視によつて第5図に示した
各音声キユーの特徴の有無を付して行く。今、たとえば
3番目の摩擦性を検出する音響キュー抽出プロセッサを
学習させる場合は、このようにして用意した音声を用い
て、同プロセツサの入力からフイルタ・バンク2の出力
を加え、出力側から学習目標値T0として、摩擦性のもの
であれば「1」を、その他であれば「0」を提示して行
く。各ユニツトの入力信号による出力と学習目標から与
えられる目標値との間の誤差をδとすると、、前記文献
に従うと、各誤差δは次のように求められる。
出力層 δ4.0=(T0−O0)f′(I4.0) …(8) 第3層 δ3,q=f′(I3,q・δ4.03.0,q…(9) 以下入力層まで同様に誤差δが求められる。この誤差を
用いて、各結合部の重みの修正量Δwは次のように求め
られる。
Δwp−1,q,r=α・δp,q・Op−1,r …(10) αは実験的に収束速度等を調べ設定してやれば良い。他
の音響キュー抽出プロセッサも、各キユー毎に同様に学
習させることによつて、各キユーの特徴の有無を[0,
1]の範囲の値として出力するものとして構成される。
その特徴を完全に持つ場合は1の値を、全くない場合は
0の値を出力し、その他の場合は、その程度によつて、
その中間の値を出力する。
タイプ2の音響キユー抽出プロセッサとタイプ3の音
響キュー抽出プロセッサは各々第7図と第8図に示すよ
うな構成の階層型のニユーラル・ネツトワークとした。
タイプ2とタイプ1の相異点は、ニユーラル・ネツト
ワークの各層の構成が見掛上二次元配列になつている点
である。この二次元配列を第7図ではわかりやすくする
ために簡単に平面で表現しているが、この各平面内にユ
ニツトが二次元的に配列されている。各層間の接続は、
各層内のユニツトを端から値に番号をつけ、その順に一
列に並べなおすと、タイプ1の場合と同じになる。従つ
て層間の処理や学習手順はタイプ1と同じである。両者
の相異点は、入力層へのデータ入力が異なつている点に
ある。すなわち、第7図において、斜め方向の16のユニ
ツトはフイルタ・バンク2の出力と直接つながつてお
り、横方向には、同じくフイルタ・バンクの出力の10ミ
リ秒前、20ミリ秒前,…,40ミリ秒前のデータが入力さ
れるよう構成されている点にある。従つて、フイルタ・
バンクの各チヤネルの出力は5段からなるシフト・レジ
スタに接続され、各レジスタの出力が、第1層のユニツ
トの入力となるよう構成されている。しかし、ニユーラ
ル・ネツトワーク内の接続はすべて平等に結合されてお
り、結合の程度は学習によつて決るから、40ミリ秒前ま
でのフイルタ・バンクのすべての出力16×5=80データ
が入力されると見れば、ニユーラル・ネツトワークとし
てはタイプ1と本質的に同一の構造であることが理解さ
れよう。
タイプ3は、入力データの構造はタイプ2と類似して
いるが、ニユーラル・ネツトワーク内の結合に制約を設
けてある点に相点がある。第8図はこの差異がわかるよ
うに、フイルタ・バンク出力の特定の1チヤネルの出力
の部分の断面を取り出して、かつその一部を記したもの
である。即ち、第7図のものが奥行き方向に16チヤネル
分あり2次元的配置になつている。タイプ2との相異点
は、層間の接続に制約が設けられている。たとえばH12
ユニツトはI1とは接続されておらず、I2〜I5に接続され
ている。H13はI1,I2とは接続されておらず、I3〜I6と接
続されている。I1,I2,…,はフイルタ・バンクのあるチ
ヤネルの出力を10ミリ秒毎にシフトしたものであるか
ら、時間的にずれた一部のデータのみが上位の層に結合
されていることになる。この点を除けば、タイプ3もタ
イプ1やタイプ2と全く同様である。学習に際しては、
(10)式の結果のいかんにかかわらず、結合しないユニ
ツト間の結合は常に0としておくことを除けば、学習手
順等は全く同様に実現することが出来る。なお、タイプ
2とタイプ3の説明図には各ユニツトの域値を自動学習
するための定数ユニツトの表示も省略してあるが、タイ
プ1と同様に構成しておくことが出来る点も言うまでも
ないことであろう。
次に、説明の都合上、対判定処理部43の説明を換算部
42に先立つて行なう。
対判定処理部43は、音響キュー抽出プロセッサ群の出
力を用いて、入力された音声が、aiとbiの二つの音韻、
たとえば/p/と/k/のどちらかと仮定した場合、それぞ
れ、どの程度その音韻らしいかを判定するものである。
どの音響キユーを用いるかの情報は第1図に示した第1
の格納部6に格納されている。従つて、認識しようとし
ている言語の音声に含まれる音韻の種類がN種の場合、
その全ての2つの組み合せn=NC2個の対判定処理部を
考えることになる。担し、現実にほとんど誤りの生じな
い音韻の組み合せや、出現頻度が非常に少なく、誤りが
生じても実害の非常に小さい音韻を含む対については、
省略しても良いことは言うまでもなかろう。
本実施例では音響キュー抽出プロセッサの出力は[0,
1]を範囲の値を取るように設定されているから、これ
を第(3)式の観測ベクトルyを構成するメンバシツプ
関数群と見なし、二つの音韻aiとbiの可能性の程度をフ
アジー関係Rによつて推定するよう、対判定処理部43を
構成した。第1図の第1の格納部6内の情報に従がい、
どの音響キュー抽出プロセッサj(複数)の出力を用い
るかを知り、(第4図のように結線で予め結んでおいて
も良い)、使用する音響キユーの出力μjを先ず得る。
第2の格納部7中にある第9図に概念的に示したような
換算部42の表値に従がい、音韻ai及びbiらしさを示す値
μj,ai及びμj,biの値を使用する音響キユーのすべてに
対し取り込み、音韻aiとbiの各々に対して、フアジー論
理和を求め、その値を各々音韻aiとbiの対判定結果μai
とμjiとして出力する。この値は第10図の表の対象位置
に示す関係の位置に格納される。フアジー論理和は、関
係するメンバシツプ関数の中の最大値を取る処理であ
り、本実施例では、関係する幾つかの音響キユーの内の
最も確からしいものを選択する方式によつている。
このようにして、すべての音韻の対を調べると第10図
のようなメンバシツプ関数の二次元の表を得ることがで
きる。このような値が対判定部5の出力となる。本表
で、たとえばμptとは、入力を音韻/p/か/t/かと仮定し
た場合に、音韻/p/思われる程度をあらわすメンバシツ
プ関数値である。
次に第1図に示した、結果集計部(総合判定部)8の
説明を行なう。
結果集計部8では、第10図に示すような値から、入力
音韻はどれが最もらしいかを判定する処理を行なう。本
実施例では、フアジー論理積により、各音韻毎のもっと
もらしさと定義し、その最大値をもつて、入力音韻の推
定を行なう。n番目に大きい値を与えるカテゴリー(音
韻)をもつて第n位の認識結果と見なす。フアジー論理
積とは、メンバシツプ関数の最小値を求める処理と同じ
であり、この処理を行なうことによつて、対毎の判定
で、最悪でもこの音韻である程度はこの値であるという
値を選ぶことになる。
以上説明したように、本実施例では、対判定処理部43
と結果集計部8の処理は極く簡単な演算で良く、簡単な
ソフト処理で対応することが可能である。
次に、第2の実施例を説明しよう。第2の実施例は全
体の構造は第1の実施例と同じであるが、第1の実施例
の第4図に示した対判定処理部43を、フアジー処理の代
りにニユーラル・ネツトワークで構成したものである。
このニユーラル・ネツトワークを第11図に示す。音響キ
ュー抽出プロセッサ群41等、あるいは換算部42等からの
出力を入力層111−1〜111−nに入力すると、出力層の
ユニツト114−1と114−2より対判定出力(第4図の11
−ai,11−biに相当)を出力するように構成した。ニユ
ーラル・ネツトワークの基本構造は第6図の場合と全く
同じであり、出力層が対判定性能に対応して二つのユニ
ットで構成されている点が異なつている。学習時に、学
習入力として音韻aiを入力した場合は、ai側の出力層ユ
ニツトの学習目標値Taiを1に、他の出力ユニツトの学
習目標値を0に、逆に学習入力音韻がbiのときは、その
逆となるように設定し、ai,biのいずれでもよいし入力
に対しては、両方とも0の値を設定し、第6図のニユー
ラル・ネツトワークを学習した場合と同じように学習さ
せてやれば良い。入力音韻が最も良く一致した場合は、
一致した側の出力から1に近い値が、一致しない場合は
0に近い値が出力されるよう学習される。
第12図は第3の実施例を説明する図である。本実施例
の場合も基体的全体構成は第1の実施例と同じである
が、第1図の結果集計部8をニユーラル・ネツトワーク
で構成した点が異なる。本実施例のニユーラル・ネツト
ワークは、第12図に示すごとく、見掛上各層は二次元と
なつており、出力層124は音韻の数だけのユニツトから
なる。入力層121の各ユニツトへは第4図の対判定部か
らの出力である第10図に示すような二次元状のデータが
入力されるが、第2層の各ユニツトとすべて結合されて
いるため、本質的には第1図の第1層と同じく一次元デ
ータと見なすことができる。第2,第3層も同様に本質的
に一次元構造である。学習に際しては、入力音声の対判
定結果を入力層121の各ユニツトに入力し、入力した音
声の音韻に相当する出力層124のユニツトの学習目標値
を1に、その他のユニットを0として、第6図のニユー
ラル・ネツトワークを学習した場合と同様の手順で結合
の重みを学習させればよい。学習が完了すると、音声が
入力されると、入力音声の音韻と推定される出力ユニツ
トの出力ほど1に近い値が出力されることになる。1に
近い方からのn番目に大きい値を与えるユニツトに対応
するカテゴリー名を持つて第n位の認識結果と見なすこ
とが出来る。
〔発明の効果〕
本発明は、以上に説明したように構成されているので
以下に記載されるような効果を奏する。
ニユーラル・ネツトワークによる処理およびまたフア
ジー処理を用いているので、音声の本発明に持つている
あいまいさに柔軟に対応でき、高い認識性態を得ること
ができる。また、これらの処理を対判定型の論理構成で
用いているので、誤りが生じた場合の原因の発見や対策
が容易で、性能改善をつみ上げて行くことが容易であ
る。また、ニユーラル・ネツトワークの自動学習機能を
活用しているため、カテゴリー毎に適した処理方法が自
動的に設定されるため、高い認識性能が得られる。さら
に、各部分を予め構造的に分割し構成されているため、
各部の構成・学習が安定かつ容易に行なわれ、大規模な
ニユーラル・ネツト方式が持つ学習の困難さをさけるこ
とが可能となつている。
【図面の簡単な説明】
第1図は本発明の一実施例の全体構成を説明する図、第
2図は音声分析部の一実施例を説明する図、第3図は同
じく対生成部の動作を説明する図、第4図は対判定部を
説明する構成図、第5図は音声の特徴である音響キユー
としての例を示す図、第6図,第7図,第8図は音響キ
ュー抽出プロセッサを実現する三つのタイプのニユーラ
ル・ネツトワークを説明する図、第9図は音響キユープ
ロセツサ出力を対判定部で用いる際の選択方法の説明
図、第10図は対判定部の出力の構造を説明する図、第11
図は第2の実施例において、対判定部をニユーラル・ネ
ツトワークで構成する場合の説明図、第12図は第3の実
施例において、総合判定部をニユーラル・ネツトワーク
で構成する場合の説明図である。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭60−4999(JP,A) 電子情報通信学会技術研究報告[音声 ]SP88−15,P.31〜38(昭和63年6 月) 日本音響学会講演論文集(昭和63年3 月)3−P−11,P.249〜250 (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 531 G10L 3/00 541 G10L 5/06 G10L 9/10 301 G06F 15/18 560 JICSTファイル(JOIS)

Claims (11)

    (57)【特許請求の範囲】
  1. 【請求項1】少なくとも、入力音声を分析する分析部
    と、該分析部の出力の特徴を抽出する特徴抽出部と、入
    力音声から抽出された該特徴のカテゴリーを判定する判
    定部を有し、前記特徴抽出部はニューラル・ネットワー
    クで構成され、前記判定部は複数個の対判定部と前記複
    数個の対判定部の結果を集計し総合的に入力カテゴリが
    なにかを判定する総合判定部よりなることを特徴とする
    音声認識装置。
  2. 【請求項2】前記判定部がファジー処理又はニューラル
    ・ネットワークにより構成されることを特徴とする請求
    項1記載の音声認識装置。
  3. 【請求項3】前記総合判定部がファジー処理又はニュー
    ラル・ネットワークにより構成されることを特徴とする
    請求項1又は2記載の音声認識装置。
  4. 【請求項4】前記特徴抽出部の出力が前記複数個の対判
    定部に対して共通の入力信号となる請求項1から3のい
    ずれかの請求項記載の音声認識装置。
  5. 【請求項5】前記ニューラル・ネットワークは複数個の
    入力ユニットと1以上の出力ユニットを有し、上記入力
    ユニットと上記出力ユニットとの間に複数個の隠れ層を
    有し、上記出力ユニットの出力値の範囲が0から1であ
    ることを特徴とする請求項1から4のいずれかの請求項
    記載の音声認識装置。
  6. 【請求項6】前記ニューラル・ネットワークは、時間的
    に複数時点の信号からなる入力ユニットと出力ユニット
    を有し、上記入力ユニットと上記出力ユニットとの間に
    複数個の隠れ層を有し、該隠れ層間の結合の一部は結合
    を禁止されていることを特徴とする請求項1から4のい
    ずれかの請求項記載の音声認識装置。
  7. 【請求項7】上記分析部の機能を上記特徴抽出部が兼ね
    備えていることを特徴とする請求項1から6のいずれか
    の請求項記載の音声認識装置。
  8. 【請求項8】上記特徴抽出部に用いられるニューラル・
    ネットワークは、学習用音声又はそれを分析した結果を
    入力層に加え、該学習用音声の持つ性質が、所期の性質
    を有するときには値1を、その他の性質の場合は0を学
    習目標値として出力ユニットに与えて学習することを特
    徴とする請求項1から4のいずれかの請求項記載の音声
    認識装置。
  9. 【請求項9】上記対判定部に用いられるニューラル・ネ
    ットワークは、複数個の出力ユニットを有し、学習時に
    は、学習用音声又はそれを分析した結果又はその特徴を
    入力層に加え、該学習用音声が所期の第1のカテゴリー
    の音声の場合は第1の出力ユニットの学習目標値として
    1を、第2の出力ユニットの学習目標値として0を、該
    学習用音声が所期の第2のカテゴリーの音声の場合は第
    1の出力ユニットの学習目標値として0を、第2の出力
    ユニットの学習目標値として1を、該学習用音声が所期
    の第1および第2のいずれかのカテゴリーに属さない場
    合は、第1及び第2の双方の出力ユニットの学習目標値
    を共に0とする様に学習することを特徴とする請求項1
    から4のいずれかの請求項記載の音声認識装置。
  10. 【請求項10】上記総合判定部に用いられるニューラル
    ・ネットワークは、入力ユニット及び出力ユニットを有
    し、学習時に、学習用音声より得た複数種類の対判定部
    の出力結果を入力ユニットに加え、該学習用音声のカテ
    ゴリーに対応する出力ユニットの学習目標値として1又
    はそれに相当する値を、そん他の出力ユニット学習目標
    値に0又はそれに相当する値を用いることを特徴とする
    請求項1から4のいずれかの請求項記載の音声認識装
    置。
  11. 【請求項11】上記特徴抽出部の複数個の出力をそれぞ
    れメンバシップ関数とみなせるように変換した値の中か
    ら最大値を上記特徴抽出部の出力値とすることを特徴と
    する請求項2記載の音声認識装置。
JP63222313A 1988-09-07 1988-09-07 音声認識装置 Expired - Fee Related JP2764277B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP63222313A JP2764277B2 (ja) 1988-09-07 1988-09-07 音声認識装置
US07/400,342 US5040215A (en) 1988-09-07 1989-08-30 Speech recognition apparatus using neural network and fuzzy logic
US07/727,089 US5179624A (en) 1988-09-07 1991-07-09 Speech recognition apparatus using neural network and fuzzy logic

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63222313A JP2764277B2 (ja) 1988-09-07 1988-09-07 音声認識装置

Publications (2)

Publication Number Publication Date
JPH0272397A JPH0272397A (ja) 1990-03-12
JP2764277B2 true JP2764277B2 (ja) 1998-06-11

Family

ID=16780404

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63222313A Expired - Fee Related JP2764277B2 (ja) 1988-09-07 1988-09-07 音声認識装置

Country Status (2)

Country Link
US (1) US5040215A (ja)
JP (1) JP2764277B2 (ja)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5228087A (en) * 1989-04-12 1993-07-13 Smiths Industries Public Limited Company Speech recognition apparatus and methods
US5278911A (en) * 1989-05-18 1994-01-11 Smiths Industries Public Limited Company Speech recognition using a neural net
JP2664782B2 (ja) * 1989-10-09 1997-10-22 株式会社東芝 エレベータの群管理制御装置
JP2573715B2 (ja) * 1990-03-28 1997-01-22 三菱電機株式会社 エレベータ制御装置
US5630018A (en) * 1990-04-09 1997-05-13 Matsushita Electric Industrial Co., Ltd. Fuzzy inference device using neural network
JPH085596B2 (ja) * 1990-05-24 1996-01-24 三菱電機株式会社 エレベータ制御装置
US5529147A (en) * 1990-06-19 1996-06-25 Mitsubishi Denki Kabushiki Kaisha Apparatus for controlling elevator cars based on car delay
JP2760145B2 (ja) * 1990-09-26 1998-05-28 三菱電機株式会社 知識情報処理装置
IT1244912B (it) * 1991-01-31 1994-09-13 Texas Instruments Italia Spa Sistema di apprendimento per rete neuronica di opportuna architettura fisicamente inseribile nel processo di apprendimento.
JPH0782355B2 (ja) * 1991-02-22 1995-09-06 株式会社エイ・ティ・アール自動翻訳電話研究所 雑音除去と話者適応の機能を有する音声認識装置
ES2108127T3 (es) * 1991-07-25 1997-12-16 Siemens Ag Oesterreich Procedimiento y disposicion para el reconocimiento de palabras individuales de lenguaje hablado.
US5388183A (en) * 1991-09-30 1995-02-07 Kurzwell Applied Intelligence, Inc. Speech recognition providing multiple outputs
US5402520A (en) * 1992-03-06 1995-03-28 Schnitta; Bonnie S. Neural network method and apparatus for retrieving signals embedded in noise and analyzing the retrieved signals
FR2689292A1 (fr) * 1992-03-27 1993-10-01 Lorraine Laminage Procédé et système de reconnaissance vocale à réseau neuronal.
US5809461A (en) * 1992-03-30 1998-09-15 Seiko Epson Corporation Speech recognition apparatus using neural network and learning method therefor
AU4375393A (en) * 1992-05-22 1993-12-30 Indiana University Foundation Area-efficient implication circuits for very dense lukasiewicz logic arrays
TW223721B (ja) * 1992-06-18 1994-05-11 Telefonaktiebolager Lm Ericsson
JP3168779B2 (ja) * 1992-08-06 2001-05-21 セイコーエプソン株式会社 音声認識装置及び方法
JPH06110696A (ja) * 1992-09-29 1994-04-22 Nippon Motorola Ltd ファジイ推論のグレード演算回路
JPH09500223A (ja) * 1993-07-13 1997-01-07 ボルドー、テオドール・オースチン 多言語音声認識システム
CH686752A8 (de) * 1993-09-22 1996-08-15 Ascom Tech Ag Berner Technopark Verfahren zum Beurteilen der Übertragungsqualität einer Sprach-Übertragungsstrecke
US5832140A (en) * 1993-12-14 1998-11-03 Staplevision Inc. Automated quality assurance image processing system
EP0737342A1 (en) * 1993-12-17 1996-10-16 Quintet, Incorporated Method of automated signature verification
US5619616A (en) * 1994-04-25 1997-04-08 Minnesota Mining And Manufacturing Company Vehicle classification system using a passive audio input to a neural network
DK0681411T3 (da) * 1994-05-06 2003-05-19 Siemens Audiologische Technik Programmerbart høreapparat
WO1995034884A1 (fr) * 1994-06-13 1995-12-21 Matsushita Electric Industrial Co., Ltd. Analyseur de signaux
US5745649A (en) * 1994-07-07 1998-04-28 Nynex Science & Technology Corporation Automated speech recognition using a plurality of different multilayer perception structures to model a plurality of distinct phoneme categories
EP0712261A1 (de) * 1994-11-10 1996-05-15 Siemens Audiologische Technik GmbH Programmierbares Hörgerät
US5737485A (en) * 1995-03-07 1998-04-07 Rutgers The State University Of New Jersey Method and apparatus including microphone arrays and neural networks for speech/speaker recognition systems
US5867813A (en) * 1995-05-01 1999-02-02 Ascom Infrasys Ag. Method and apparatus for automatically and reproducibly rating the transmission quality of a speech transmission system
US6151592A (en) * 1995-06-07 2000-11-21 Seiko Epson Corporation Recognition apparatus using neural network, and learning method therefor
JP3697748B2 (ja) * 1995-08-21 2005-09-21 セイコーエプソン株式会社 端末、音声認識装置
US5956409A (en) * 1996-04-29 1999-09-21 Quintet, Inc. Secure application of seals
US5884294A (en) * 1997-04-18 1999-03-16 Northrop Grumman Corporation System and method for functional recognition of emitters
DE69731206D1 (de) * 1997-11-18 2004-11-18 St Microelectronics Srl Fuzzy-Logikverfahren zur indirekten Messung von überwachten physischen Signalen und entsprechende Messvorrichtung
US6304865B1 (en) 1998-10-27 2001-10-16 Dell U.S.A., L.P. Audio diagnostic system and method using frequency spectrum and neural network
EP1417678A1 (de) * 2001-08-13 2004-05-12 Hans Geiger Verfahren und vorrichtung zum erkennen einer phonetischen lautfolge oder zeichenfolge
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
JP7126061B2 (ja) * 2016-09-27 2022-08-26 パナソニックIpマネジメント株式会社 音声信号処理装置、音声信号処理方法、および制御プログラム
CN108288468B (zh) 2017-06-29 2019-07-19 腾讯科技(深圳)有限公司 语音识别方法及装置
RU2731334C1 (ru) 2019-03-25 2020-09-01 Общество С Ограниченной Ответственностью «Яндекс» Способ и система для формирования текстового представления фрагмента устной речи пользователя

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3287649A (en) * 1963-09-09 1966-11-22 Research Corp Audio signal pattern perception device
US3610831A (en) * 1969-05-26 1971-10-05 Listening Inc Speech recognition apparatus
JPS5844500A (ja) * 1981-09-11 1983-03-15 シャープ株式会社 音声認識方式
US4712243A (en) * 1983-05-09 1987-12-08 Casio Computer Co., Ltd. Speech recognition apparatus
JPS59216284A (ja) * 1983-05-23 1984-12-06 Matsushita Electric Ind Co Ltd パタ−ン認識装置
JPS604999A (ja) * 1983-06-24 1985-01-11 株式会社日立製作所 音声認識方法
US4805225A (en) * 1986-11-06 1989-02-14 The Research Foundation Of The State University Of New York Pattern recognition method and apparatus
JPH0634195B2 (ja) * 1987-01-27 1994-05-02 日本電気株式会社 音声認識装置
US4876731A (en) * 1988-02-19 1989-10-24 Nynex Corporation Neural network model in pattern recognition using probabilistic contextual information

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
日本音響学会講演論文集(昭和63年3月)3−P−11,P.249〜250
電子情報通信学会技術研究報告[音声]SP88−15,P.31〜38(昭和63年6月)

Also Published As

Publication number Publication date
US5040215A (en) 1991-08-13
JPH0272397A (ja) 1990-03-12

Similar Documents

Publication Publication Date Title
JP2764277B2 (ja) 音声認識装置
US5185848A (en) Noise reduction system using neural network
US5179624A (en) Speech recognition apparatus using neural network and fuzzy logic
AU684214B2 (en) System for recognizing spoken sounds from continuous speech and method of using same
CN112949708A (zh) 情绪识别方法、装置、计算机设备和存储介质
Bharali et al. Speech recognition with reference to Assamese language using novel fusion technique
US5864807A (en) Method and apparatus for training a speaker recognition system
JP2021124530A (ja) 情報処理装置、情報処理方法及びプログラム
CN112116165B (zh) 一种业务绩效确定方法和装置
Barnard et al. Real-world speech recognition with neural networks
Anindya et al. Development of Indonesian speech recognition with deep neural network for robotic command
Chen et al. Overlapped Speech Detection Based on Spectral and Spatial Feature Fusion.
CN113763992A (zh) 语音测评方法、装置、计算机设备和存储介质
CN114945980A (zh) 小尺寸多通道关键字定位
JP2996925B2 (ja) 音素境界検出装置及び音声認識装置
He et al. Mask-based blind source separation and MVDR beamforming in ASR
JPH04273298A (ja) 音声認識装置
Aswad et al. Developing MFCC-CNN based voice recognition system with data augmentation and overfitting solving techniques
GS et al. Synthetic speech classification using bidirectional LSTM Networks
Kaur et al. Speech based retrieval system for Punjabi language
Eltanashi et al. Proposed speaker recognition model using optimized feed forward neural network and hybrid time-mel speech feature
JPH04324499A (ja) 音声認識装置
Luluh et al. Identifying voices using convolution neural network models AlexNet and ResNet
JPH0442299A (ja) 音声区間検出装置
JP2792709B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees