JPH05313692A

JPH05313692A - 音声認識装置

Info

Publication number: JPH05313692A
Application number: JP4114682A
Authority: JP
Inventors: Hiroki Onishi; 宏樹大西
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 1992-05-07
Filing date: 1992-05-07
Publication date: 1993-11-26

Abstract

(57)【要約】【目的】パターンマッチングとニューラルネットワー
クとを併用して音声認識を行うことにより、使用者によ
って登録されていない語彙の認識を、使用者が登録して
いる語彙の認識と同程度の精度により行なおうとする。
すなわち、両方式による認識結果を効果的に比較し、両
認識方式間の認識性能の差が使用者によって感じられな
いように、音声認識装置の出力を制御しようとする。【構成】パターンマッチング部（５）は、入力音声パ
ターンとの比較において最も類似した標準パターンを検
出し、ニューラルネット部（８）は、入力音声パターン
が学習されている音声パターンと類似しているかどうか
を出力する。さらに、パターンマッチング部での比較結
果に基づいて、ニューラルネットワークの出力を有効と
するかどうかを決定する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は音声認識装置に関し、特
に、パターンマッチングとニューラルネットワークの両
方式を併用した音声認識装置に関する。

【０００２】

【従来の技術】従来、音声認識装置には、予め装置の使
用者（特定話者）が認識操作を行う前に自分の音声を標
準パターンとして登録しておき、認識操作時にこの標準
パターンに基づいて認識を行う音声認識装置（特定話者
音声認識装置）と、予め多数の話者の音声に基づいて標
準パターンを作成しておき、認識操作時に装置の使用者
の音声パターンに依存しない認識を行う音声認識装置
（不特定話者音声認識装置）とがある。

【０００３】特定話者音声認識装置については、使用者
の音声を標準パターンとするために、音声の認識率が高
いという特長がある。その上、後に説明する不特定話者
音声認識装置のように、予め多数話者の音声に基づいて
標準パターンを作成する必要がないために、使用者が任
意の語彙に対する音声を登録することができる。

【０００４】このような特定話者音声認識装置における
代表的な認識方式としてはパターンマッチングがよく用
いられる。パターンマッチングは、入力された音声パタ
ーンと標準パターンとを比較し、最も類似した標準パタ
ーンを選び出すものである。以下にパターンマッチング
による音声認識について簡単に述べる。

【０００５】パターンマッチングによる特定話者音声認
識装置では、実際の使用に先立ち、使用者の音声を分析
した結果である音声パターンを標準パターンとして標準
パターンメモリに格納しておく。そして、実際の認識時
に、入力される音声を分析して得られる音声パターンと
標準パターンメモリ中の各標準パターンとが比較され、
最も類似した標準パターンが認識結果とされる。

【０００６】図４は、パターンマッチングによる音声パ
ターンの認識の原理を示す図である。一般に、パターン
マッチングでは、パターン空間でのパターン間の距離に
基づいて識別が行われる。例えば、図４において、入力
パターン（ｘ）が３つのカテゴリ（Ａ、Ｂ、Ｃ）のどれ
に属するかを識別する場合、まず、それぞれのカテゴリ
を代表する標準パターン（ａ、ｂ、ｃ）と入力パターン
（ｘ）との間のパターン間距離が計算される。入力パタ
ーン（ｘ）と標準パターン（ａ、ｂ、ｃ）との間の距離
が、それぞれ、ｄ（ｘ，ａ）、ｄ（ｘ，ｂ）、ｄ（ｘ，
ｃ）であったとすると、これらのうち最も近い距離にあ
る標準パターン（ｃ）が認識結果とされる。

【０００７】また、次の式によって表されるように、図
示されない入力パターン（ｙ）が図４のどの円内（標準
パターンからの距離が一定のしきい値以下であるような
範囲内）にも入らないような場合には、入力パターン
（ｙ）は、カテゴリ群（Ａ、Ｂ、Ｃ）のいずれにも属さ
ないと判定される。

【０００８】ｍｉｎ（ｄ（ｙ，ａ），ｄ（ｙ，ｂ），ｄ
（ｙ，ｃ））＞ｄt ｄｔ：しきい値一方、不特定話者音声認識装置は、予め多数の人の音声
を収集・分類し、その音声パターンを分析することによ
り標準パターンを作成する。従って、前もって認識の対
象となる語彙を決めておく必要があるが、使用者の音声
の登録を必要としないので、どんな使用者でも使用でき
るという特長がある。例えば、数字などは、語彙が限ら
れており、読み方としても、使用者に依存せずほぼ共通
であるので、一般に不特定話者音声認識を用いた方が便
利である。

【０００９】しかしながら、不特定話者音声認識におい
ては、標準パターンが多数の人の音声に基づいて作成さ
れているために、必ずしも使用者の音声パターンと適合
するとは限らず、特定話者音声認識の場合よりも認識率
が低くなってしまう。

【００１０】そこで、不特定話者音声認識装置において
は、その認識方式として、ＨＭＭ法などの統計的手法や
ニューラルネットワークのように、高い認識性能が期待
される方式が用いられる。以下に、ニューラルネットワ
ークによる不特定話者音声認識について簡単に述べる。

【００１１】図５は、ニューラルネットワーク、特に識
別型のニューラルネットワークによる音声パターンの認
識の原理を示す図である。ニューラルネットワークの場
合、認識を行うに先立って、ニューラルネットワークが
標準パターンと同じ役割を果たすように、多数の人の音
声に基づいたネットワークの学習がなされる。ニューラ
ルネットワークの学習は、よく知られた誤差逆伝播法
（バックプロパゲーション法、以下ＢＰ法とする）によ
り行われる。

【００１２】例えば、Ｐ、Ｑ、Ｒというそれぞれのカテ
ゴリに属する音声パターンを用いてネットワークの学習
を行う場合には、入力層にこのような音声パターンを与
えた場合の出力層の出力と、出力層の該当するユニット
を”１”、それ以外を”０”とする教師信号と、の誤差
に基づいて、ネットワークの各ユニットを結ぶ重み係数
を変えていく。これを異なる入力パターンを与えるごと
に繰り返して行い、ネットワークの重み係数を最適な値
に修正していく。このように多数の話者の音声パターン
を与え、学習させることにより、不特定の話者の音声認
識方式として、高い認識性能が得られることになる。

【００１３】こうして学習がなされたニューラルネット
ワークの入力層に対して音声パターンを入力すると、出
力層は、例えば、０〜１までの間の類似性を示す値を出
力する。この値はパターン空間上の距離とは関係なく、
学習を行ったカテゴリ内の音声パターンに対しては、そ
のカテゴリに属することを示すのに十分な値が得られ
る。

【００１４】以上、特定話者音声認識方式と不特定話者
音声認識方式について簡単に述べたが、両方式は、使用
者や対象とする語彙に関して次の様な制約を持つ。すな
わち、特定話者音声認識装置は、使用者が定められると
いう制約を持つものの、任意の語彙を登録することがで
きる。また、不特定話者音声認識装置は、使用者は限定
されないものの、多数の人の音声に基づいて標準パター
ンを作成するために、使用できる語彙が限定される。

【００１５】そこで、特定話者音声認識装置と不特定話
者音声認識装置とを組み合わせて１つの音声認識装置と
し、認識対象の語彙によってそれぞれの認識装置を使い
分けることが考えられている。

【００１６】例えば、テレビを音声認識により制御する
場合、局名によるチャンネルの選択は、特定話者音声認
識装置によって、地域（使用者）に合わせて任意の言葉
で行い、音量の設定は、不特定話者音声認識によって、
使用者に依存しないよう共通化することを考える。

【００１７】このようにすれば、テレビ局の選択には特
定話者音声認識装置を用いるので、同じテレビ局が地域
によって異なった名前を使っていても、それらを「ティ
ービーエス」あるいは「毎日放送」のように使用者が使
い分けて登録することができる。また、音量等の数字の
認識には不特定話者音声認識装置を用いるので、音声の
登録を必要とせずにどのような使用者にも対応すること
ができる。

【００１８】しかしながら、先述のように、特定話者音
声認識装置は使用者自身の音声を標準パターンとするた
めに認識率が高いのに対して、不特定話者音声認識装置
は多数の人の音声に対応しなければならないので、一般
に不特定話者音声認識装置に比べて認識率が低くなって
しまう。このため、前述のテレビ制御の例においては、
選局を行う場合と音量制御を行う場合との間の認識率に
差が生じ、使用者が操作上の違和感を感じるといった問
題が生じる。

【００１９】そこで、特定話者音声認識にはパターンマ
ッチングを、不特定話者音声認識には高い認識精度が期
待できるニューラルネットワークを用いることができる
が、この場合、それぞれが異なった次元の値を出力する
ために認識結果を比較することが困難になる。

【００２０】しかも、パターンマッチングでは、音声パ
ターン空間内の任意の音声パターンに対してその出力
（標準パターンとの間のパターン間距離）を得ることが
できるのに対し、ニューラルネットワークでは、学習が
なされているパターン空間内の領域においては音声パタ
ーンがそのカテゴリに属することが明確になるような出
力が得られるが、学習がなされていないパターン空間内
の領域にある音声パターンに関してはその音声パターン
が学習されているパターン空間内に属するかどうかを示
す値を出力として得ることができない。このため、両方
の結果を一元的に比較して最終的な結果を決定すること
は不可能である。

【００２１】

【発明が解決しようとする課題】本発明は、上述したよ
うな従来の技術において生じる不都合に鑑みてなされた
ものであって、パターンマッチングとニューラルネット
ワークとを併用して音声認識を行うことにより、使用者
による音声の登録がなされていない語彙の認識を、使用
者による音声の登録がなされている語彙の認識と同程度
の精度により行なおうとするものである。

【００２２】具体的には、両方式による認識結果を効果
的に比較し、両認識方式間の認識性能の差が使用者によ
って感じられないように、音声認識装置の出力を制御し
ようとするものである。

【００２３】

【課題を解決するための手段】本発明の音声認識装置
は、入力音声を分析して音声パターンを作成する特徴抽
出部と、予め定められた話者の音声パターンを標準パタ
ーンとして格納する標準パターンメモリと、該標準パタ
ーンメモリの各パターンと上記音声パターンとを比較
し、最も類似した標準パターンを検出するパターンマッ
チング部と、予め不特定多数の話者の音声パターンを用
いて学習されており、入力される音声パターンが学習さ
れている音声パターンと類似しているかどうかを出力す
るニューラルネットワークと、を備え、上記パターンマ
ッチング部での比較結果に基づいて、上記ニューラルネ
ットワークによる出力を有効とするかどうかを決定する
ことを特徴とする。

【００２４】

【作用】本発明の音声認識装置によれば、特徴抽出部に
よって入力音声を分析して音声パターンを作成し、パタ
ーンマッチング部によって標準パターンメモリの各パタ
ーンと上記音声パターンとを比較して最も類似した標準
パターンを検出し、ニューラルネットワークによって入
力される音声パターンが学習されている音声パターンと
類似しているかどうかを出力する。

【００２５】さらに、パターンマッチング部での比較結
果に基づいて、ニューラルネットワークによる出力を有
効とするかどうかを決定する。

【００２６】

【実施例】以下、図と共に本発明による音声認識装置の
説明を行う。

【００２７】図１は本発明による音声認識装置の一実施
例を示す。図において、（１）は音声を入力するための
マイクロフォンであり、（２）はマイクロフォン（１）
から入力される音声を周波数分析して音声パターンを作
成する音声分析部であり、（３）は音声分析部（２）に
おいて作成される音声パターンを格納するための音声パ
ターンバッファである。

【００２８】（６）はパターンマッチング用の標準パタ
ーンを格納する標準パターンメモリであり、（５）は音
声パターンバッファ（３）の音声パターンと標準パター
ンメモリ（６）の標準パターンとをマッチングするパタ
ーンマッチング部である。

【００２９】また、（４）は音声パターンバッファ
（３）からパターンマッチング部（５）もしくは標準パ
ターンメモリ（６）への接続を切り替えるためのスイッ
チであって、パターンマッチング用の標準パターンの登
録時には登録側に設定され、音声認識時には認識側に設
定される。

【００３０】（８）は音声パターンバッファ（３）の音
声パターンの認識をニューラルネットワークによって、
重み係数メモリ（９）に格納されている重み係数に基づ
いて行うニューラルネットワーク部である。

【００３１】（１０）はニューラルネットワークの学習
用の音声パターンを格納する学習パターンメモリであ
り、（１１）はニューラルネットワークの学習用の教師
信号を格納する教師信号メモリである。

【００３２】また、（７）は音声パターンバッファ
（３）からニューラルネットワーク部（８）もしくは学
習パターンメモリ（１０）への接続を切り替えるための
スイッチであって、ニューラルネットワークの学習時に
は学習側に設定され、音声認識時には認識側に設定され
る。

【００３３】さらに、（１２）はパターンマッチング部
（５）からの出力値に基づいて、パターンマッチング部
（５）とニューラルネット部（７）のどちらの結果を出
力とするかを決定する出力制御部である。

【００３４】次に、上述のような構成による本発明装置
の動作につき説明する。

【００３５】まず、音声認識装置の使用に先立ち、標準
パターンの登録、並びに、ニューラルネットワークの学
習が行われる。

【００３６】パターンマッチング用の標準パターンの登
録は、スイッチ（４）が登録側に設定されている状態
で、マイクロフォン（１）から音声を入力し、音声分析
部（２）において作成される音声パターンが標準パター
ンメモリ（６）に各カテゴリごとに格納される。

【００３７】また、ニューラルネットワークの学習は、
スイッチ（７）が学習側に設定されている状態で、ま
ず、音声パターンバッファ（３）に取り込まれた学習用
の音声パターンを学習パターンメモリ（１０）に格納
し、同時に教師信号メモリ（１１）に教師信号を設定す
る。さらに、学習パターンメモリ（１０）に格納された
音声パターンを入力層へ入力し、教師信号メモリ（１
１）に格納された教師信号を出力層からの出力と見做し
て、両者の間での誤差に基づいてニューラルネットワー
クの重み係数を最適な値に修正する。修正された重み係
数は、重み係数メモリ（９）に格納される。

【００３８】音声認識時には、スイッチ（４）、（７）
は、それぞれ、認識側に設定される。マイクロフォン
（１）より入力された音声は音声分析部（２）で周波数
分析され、音声パターンが作成されて、音声パターンバ
ッファ（３）に格納される。音声パターンは、パターン
マッチング部（５）とニューラルネット部（８）に同時
に送られ、それぞれ、標準パターンと重み係数に基づい
て、認識結果を出力する。このとき、出力制御部（１
２）は、パターンマッチング部（５）からの出力値に基
づいて、パターンマッチング部（５）とニューラルネッ
ト部（８）のどちらの結果を出力とするかを決定する。

【００３９】以下に、両方式を用いて認識を行った場合
の認識結果の決定方法について具体的に述べる。

【００４０】図２並びに図３は、本実施例の音声認識装
置による、パターンマッチング並びにニューラルネット
による音声認識結果を示すものである。

【００４１】ここで、カテゴリ群（Ａ、Ｂ、Ｃ）に対し
ては、それぞれのカテゴリにおける標準音声パターンが
標準パターンメモリ（６）に登録されているものとし、
ニューラルネットワークはカテゴリ群（Ｐ、Ｑ、Ｒ）の
音声パターンを識別するように学習されているものとす
る。

【００４２】音声認識装置からの出力は出力制御部（１
２）によって制御されるが、実際にパターンマッチング
部（５）あるいはニューラルネット部（８）のどちらの
出力を選択するかは次の様にして行われる。即ち、パタ
ーンマッチングの出力に対して、図４の場合と同様に、
各標準パターンからそれぞれを取り巻く円までの距離を
しきい値として設定して、距離がしきい値を越えた場合
には、ニューラルネットワークの出力を有効とし、しき
い値以下の場合には、ニューラルネットワークの出力を
無効とする。

【００４３】図２の場合、パターンマッチング部（５）
により音声パターン（ｙ）が認識されると、最短のパタ
ーン間距離値としてｄ（ｙ，ａ）が出力制御部（１２）
へ出力される。また、ニューラルネットワーク部（８）
からは、カテゴリ（Ｐ）に対する最も高い類似性（Ｏｐ
＝０．８）が出力制御部（１２）へ出力される。

【００４４】出力制御部（１２）では、音声パターン
（ｙ）は標準パターン（ａ）から上述のしきい値以内の
距離にあるので、カテゴリ（Ａ）に属すると判定され
る。ここで、ニューラルネットワークによる認識結果か
らは（Ｏｐ＝０．８）が得られているが、パターンマッ
チングの方の出力がカテゴリ（Ａ）を判定するのに十分
な値であるのでニューラルネットワークからの出力は無
効となる。

【００４５】また、図３の場合、音声パターン（ｚ）の
認識の結果、パターンマッチング部（５）は、最短のパ
ターン間距離値としてｄ（ｚ，ａ）を出力制御部（１
２）へ出力し、ニューラルネットワーク部（８）から
は、カテゴリ（Ｐ）に対する最も高い類似性（Ｏｐ＝
０．９５）が出力制御部（１２）へ出力される。

【００４６】出力制御部（１２）では、音声パターン
（ｚ）は標準パターン（ａ）から上述のしきい値以遠に
あるので、カテゴリ（Ａ）には属さないと判定される。
従って、ニューラルネットワーク部（８）により得られ
る最も高い値の類似度（Ｏｐ＝０．９５）のカテゴリ
（Ｐ）に属すると判断される。

【００４７】このようにして、音声のカテゴリに応じ
て、最も適した方法により認識を行うことができるほ
か、両方式が混在していても、出力時点では同程度の認
識性能を保つことができる。

【００４８】

【発明の効果】以上に述べたように、本発明による音声
認識装置は、使用者が個人的に登録して使用したい語彙
の認識は、パターンマッチングにより行い、数字のよう
にどの使用者にも共通した、登録する手間を省きたい語
彙の認識は、ニューラルネットにより行うので、認識対
象に応じて両方式を使い分けて、効率的に認識できる音
声認識装置を実現することができる。

【００４９】さらに、パターンマッチング部での比較結
果の善し悪しに基づいてニューラルネットワークによる
認識結果を有効とするかどうかを決定するので、両方式
による結果の比較が可能となり、両認識方式間の認識性
能の差が使用者によって感じられない程度の、使いやす
い音声認識装置を提供することができる。

【図面の簡単な説明】

【図１】本発明による音声認識装置の一実施例を示す構
成図である。

【図２】実施例における音声パターン空間を表す図であ
る。

【図３】実施例における音声パターン空間を表す図であ
る。

【図４】パターンマッチングによる識別の原理図であ
る。

【図５】階層型のネットワークの構成図である。

【符号の説明】

１マイクロフォン２音声分析部３音声パターンバッファ４スイッチ５パターンマッチング部６標準パターンメモリ７スイッチ８ニューラルネットワーク部９重み係数メモリ１０学習パターンメモリ１１教師信号メモリ１２出力制御部

Claims

【特許請求の範囲】

【請求項１】入力音声を分析して音声パターンを作成
する特徴抽出部と、予め定められた話者の音声パターンを標準パターンとし
て格納する標準パターンメモリと、該標準パターンメモ
リの各パターンと上記音声パターンとを比較し、最も類
似した標準パターンを検出するパターンマッチング部
と、予め不特定多数の話者の音声パターンを用いて学習
されており、入力される音声パターンが学習されている
音声パターンと類似しているかどうかを出力するニュー
ラルネットワークと、を備え、上記パターンマッチング部での比較結果に基づいて、上
記ニューラルネットワークによる出力を有効とするかど
うかを決定することを特徴とした音声認識装置。