JPH05313692A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH05313692A JPH05313692A JP4114682A JP11468292A JPH05313692A JP H05313692 A JPH05313692 A JP H05313692A JP 4114682 A JP4114682 A JP 4114682A JP 11468292 A JP11468292 A JP 11468292A JP H05313692 A JPH05313692 A JP H05313692A
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- voice
- recognition
- neural network
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【目的】 パターンマッチングとニューラルネットワー
クとを併用して音声認識を行うことにより、使用者によ
って登録されていない語彙の認識を、使用者が登録して
いる語彙の認識と同程度の精度により行なおうとする。
すなわち、両方式による認識結果を効果的に比較し、両
認識方式間の認識性能の差が使用者によって感じられな
いように、音声認識装置の出力を制御しようとする。 【構成】 パターンマッチング部(5)は、入力音声パ
ターンとの比較において最も類似した標準パターンを検
出し、ニューラルネット部(8)は、入力音声パターン
が学習されている音声パターンと類似しているかどうか
を出力する。さらに、パターンマッチング部での比較結
果に基づいて、ニューラルネットワークの出力を有効と
するかどうかを決定する。
クとを併用して音声認識を行うことにより、使用者によ
って登録されていない語彙の認識を、使用者が登録して
いる語彙の認識と同程度の精度により行なおうとする。
すなわち、両方式による認識結果を効果的に比較し、両
認識方式間の認識性能の差が使用者によって感じられな
いように、音声認識装置の出力を制御しようとする。 【構成】 パターンマッチング部(5)は、入力音声パ
ターンとの比較において最も類似した標準パターンを検
出し、ニューラルネット部(8)は、入力音声パターン
が学習されている音声パターンと類似しているかどうか
を出力する。さらに、パターンマッチング部での比較結
果に基づいて、ニューラルネットワークの出力を有効と
するかどうかを決定する。
Description
【0001】
【産業上の利用分野】本発明は音声認識装置に関し、特
に、パターンマッチングとニューラルネットワークの両
方式を併用した音声認識装置に関する。
に、パターンマッチングとニューラルネットワークの両
方式を併用した音声認識装置に関する。
【0002】
【従来の技術】従来、音声認識装置には、予め装置の使
用者(特定話者)が認識操作を行う前に自分の音声を標
準パターンとして登録しておき、認識操作時にこの標準
パターンに基づいて認識を行う音声認識装置(特定話者
音声認識装置)と、予め多数の話者の音声に基づいて標
準パターンを作成しておき、認識操作時に装置の使用者
の音声パターンに依存しない認識を行う音声認識装置
(不特定話者音声認識装置)とがある。
用者(特定話者)が認識操作を行う前に自分の音声を標
準パターンとして登録しておき、認識操作時にこの標準
パターンに基づいて認識を行う音声認識装置(特定話者
音声認識装置)と、予め多数の話者の音声に基づいて標
準パターンを作成しておき、認識操作時に装置の使用者
の音声パターンに依存しない認識を行う音声認識装置
(不特定話者音声認識装置)とがある。
【0003】特定話者音声認識装置については、使用者
の音声を標準パターンとするために、音声の認識率が高
いという特長がある。その上、後に説明する不特定話者
音声認識装置のように、予め多数話者の音声に基づいて
標準パターンを作成する必要がないために、使用者が任
意の語彙に対する音声を登録することができる。
の音声を標準パターンとするために、音声の認識率が高
いという特長がある。その上、後に説明する不特定話者
音声認識装置のように、予め多数話者の音声に基づいて
標準パターンを作成する必要がないために、使用者が任
意の語彙に対する音声を登録することができる。
【0004】このような特定話者音声認識装置における
代表的な認識方式としてはパターンマッチングがよく用
いられる。パターンマッチングは、入力された音声パタ
ーンと標準パターンとを比較し、最も類似した標準パタ
ーンを選び出すものである。以下にパターンマッチング
による音声認識について簡単に述べる。
代表的な認識方式としてはパターンマッチングがよく用
いられる。パターンマッチングは、入力された音声パタ
ーンと標準パターンとを比較し、最も類似した標準パタ
ーンを選び出すものである。以下にパターンマッチング
による音声認識について簡単に述べる。
【0005】パターンマッチングによる特定話者音声認
識装置では、実際の使用に先立ち、使用者の音声を分析
した結果である音声パターンを標準パターンとして標準
パターンメモリに格納しておく。そして、実際の認識時
に、入力される音声を分析して得られる音声パターンと
標準パターンメモリ中の各標準パターンとが比較され、
最も類似した標準パターンが認識結果とされる。
識装置では、実際の使用に先立ち、使用者の音声を分析
した結果である音声パターンを標準パターンとして標準
パターンメモリに格納しておく。そして、実際の認識時
に、入力される音声を分析して得られる音声パターンと
標準パターンメモリ中の各標準パターンとが比較され、
最も類似した標準パターンが認識結果とされる。
【0006】図4は、パターンマッチングによる音声パ
ターンの認識の原理を示す図である。一般に、パターン
マッチングでは、パターン空間でのパターン間の距離に
基づいて識別が行われる。例えば、図4において、入力
パターン(x)が3つのカテゴリ(A、B、C)のどれ
に属するかを識別する場合、まず、それぞれのカテゴリ
を代表する標準パターン(a、b、c)と入力パターン
(x)との間のパターン間距離が計算される。入力パタ
ーン(x)と標準パターン(a、b、c)との間の距離
が、それぞれ、d(x,a)、d(x,b)、d(x,
c)であったとすると、これらのうち最も近い距離にあ
る標準パターン(c)が認識結果とされる。
ターンの認識の原理を示す図である。一般に、パターン
マッチングでは、パターン空間でのパターン間の距離に
基づいて識別が行われる。例えば、図4において、入力
パターン(x)が3つのカテゴリ(A、B、C)のどれ
に属するかを識別する場合、まず、それぞれのカテゴリ
を代表する標準パターン(a、b、c)と入力パターン
(x)との間のパターン間距離が計算される。入力パタ
ーン(x)と標準パターン(a、b、c)との間の距離
が、それぞれ、d(x,a)、d(x,b)、d(x,
c)であったとすると、これらのうち最も近い距離にあ
る標準パターン(c)が認識結果とされる。
【0007】また、次の式によって表されるように、図
示されない入力パターン(y)が図4のどの円内(標準
パターンからの距離が一定のしきい値以下であるような
範囲内)にも入らないような場合には、入力パターン
(y)は、カテゴリ群(A、B、C)のいずれにも属さ
ないと判定される。
示されない入力パターン(y)が図4のどの円内(標準
パターンからの距離が一定のしきい値以下であるような
範囲内)にも入らないような場合には、入力パターン
(y)は、カテゴリ群(A、B、C)のいずれにも属さ
ないと判定される。
【0008】min(d(y,a),d(y,b),d
(y,c))>dt dt:しきい値 一方、不特定話者音声認識装置は、予め多数の人の音声
を収集・分類し、その音声パターンを分析することによ
り標準パターンを作成する。従って、前もって認識の対
象となる語彙を決めておく必要があるが、使用者の音声
の登録を必要としないので、どんな使用者でも使用でき
るという特長がある。例えば、数字などは、語彙が限ら
れており、読み方としても、使用者に依存せずほぼ共通
であるので、一般に不特定話者音声認識を用いた方が便
利である。
(y,c))>dt dt:しきい値 一方、不特定話者音声認識装置は、予め多数の人の音声
を収集・分類し、その音声パターンを分析することによ
り標準パターンを作成する。従って、前もって認識の対
象となる語彙を決めておく必要があるが、使用者の音声
の登録を必要としないので、どんな使用者でも使用でき
るという特長がある。例えば、数字などは、語彙が限ら
れており、読み方としても、使用者に依存せずほぼ共通
であるので、一般に不特定話者音声認識を用いた方が便
利である。
【0009】しかしながら、不特定話者音声認識におい
ては、標準パターンが多数の人の音声に基づいて作成さ
れているために、必ずしも使用者の音声パターンと適合
するとは限らず、特定話者音声認識の場合よりも認識率
が低くなってしまう。
ては、標準パターンが多数の人の音声に基づいて作成さ
れているために、必ずしも使用者の音声パターンと適合
するとは限らず、特定話者音声認識の場合よりも認識率
が低くなってしまう。
【0010】そこで、不特定話者音声認識装置において
は、その認識方式として、HMM法などの統計的手法や
ニューラルネットワークのように、高い認識性能が期待
される方式が用いられる。以下に、ニューラルネットワ
ークによる不特定話者音声認識について簡単に述べる。
は、その認識方式として、HMM法などの統計的手法や
ニューラルネットワークのように、高い認識性能が期待
される方式が用いられる。以下に、ニューラルネットワ
ークによる不特定話者音声認識について簡単に述べる。
【0011】図5は、ニューラルネットワーク、特に識
別型のニューラルネットワークによる音声パターンの認
識の原理を示す図である。ニューラルネットワークの場
合、認識を行うに先立って、ニューラルネットワークが
標準パターンと同じ役割を果たすように、多数の人の音
声に基づいたネットワークの学習がなされる。ニューラ
ルネットワークの学習は、よく知られた誤差逆伝播法
(バックプロパゲーション法、以下BP法とする)によ
り行われる。
別型のニューラルネットワークによる音声パターンの認
識の原理を示す図である。ニューラルネットワークの場
合、認識を行うに先立って、ニューラルネットワークが
標準パターンと同じ役割を果たすように、多数の人の音
声に基づいたネットワークの学習がなされる。ニューラ
ルネットワークの学習は、よく知られた誤差逆伝播法
(バックプロパゲーション法、以下BP法とする)によ
り行われる。
【0012】例えば、P、Q、Rというそれぞれのカテ
ゴリに属する音声パターンを用いてネットワークの学習
を行う場合には、入力層にこのような音声パターンを与
えた場合の出力層の出力と、出力層の該当するユニット
を”1”、それ以外を”0”とする教師信号と、の誤差
に基づいて、ネットワークの各ユニットを結ぶ重み係数
を変えていく。これを異なる入力パターンを与えるごと
に繰り返して行い、ネットワークの重み係数を最適な値
に修正していく。このように多数の話者の音声パターン
を与え、学習させることにより、不特定の話者の音声認
識方式として、高い認識性能が得られることになる。
ゴリに属する音声パターンを用いてネットワークの学習
を行う場合には、入力層にこのような音声パターンを与
えた場合の出力層の出力と、出力層の該当するユニット
を”1”、それ以外を”0”とする教師信号と、の誤差
に基づいて、ネットワークの各ユニットを結ぶ重み係数
を変えていく。これを異なる入力パターンを与えるごと
に繰り返して行い、ネットワークの重み係数を最適な値
に修正していく。このように多数の話者の音声パターン
を与え、学習させることにより、不特定の話者の音声認
識方式として、高い認識性能が得られることになる。
【0013】こうして学習がなされたニューラルネット
ワークの入力層に対して音声パターンを入力すると、出
力層は、例えば、0〜1までの間の類似性を示す値を出
力する。この値はパターン空間上の距離とは関係なく、
学習を行ったカテゴリ内の音声パターンに対しては、そ
のカテゴリに属することを示すのに十分な値が得られ
る。
ワークの入力層に対して音声パターンを入力すると、出
力層は、例えば、0〜1までの間の類似性を示す値を出
力する。この値はパターン空間上の距離とは関係なく、
学習を行ったカテゴリ内の音声パターンに対しては、そ
のカテゴリに属することを示すのに十分な値が得られ
る。
【0014】以上、特定話者音声認識方式と不特定話者
音声認識方式について簡単に述べたが、両方式は、使用
者や対象とする語彙に関して次の様な制約を持つ。すな
わち、特定話者音声認識装置は、使用者が定められると
いう制約を持つものの、任意の語彙を登録することがで
きる。また、不特定話者音声認識装置は、使用者は限定
されないものの、多数の人の音声に基づいて標準パター
ンを作成するために、使用できる語彙が限定される。
音声認識方式について簡単に述べたが、両方式は、使用
者や対象とする語彙に関して次の様な制約を持つ。すな
わち、特定話者音声認識装置は、使用者が定められると
いう制約を持つものの、任意の語彙を登録することがで
きる。また、不特定話者音声認識装置は、使用者は限定
されないものの、多数の人の音声に基づいて標準パター
ンを作成するために、使用できる語彙が限定される。
【0015】そこで、特定話者音声認識装置と不特定話
者音声認識装置とを組み合わせて1つの音声認識装置と
し、認識対象の語彙によってそれぞれの認識装置を使い
分けることが考えられている。
者音声認識装置とを組み合わせて1つの音声認識装置と
し、認識対象の語彙によってそれぞれの認識装置を使い
分けることが考えられている。
【0016】例えば、テレビを音声認識により制御する
場合、局名によるチャンネルの選択は、特定話者音声認
識装置によって、地域(使用者)に合わせて任意の言葉
で行い、音量の設定は、不特定話者音声認識によって、
使用者に依存しないよう共通化することを考える。
場合、局名によるチャンネルの選択は、特定話者音声認
識装置によって、地域(使用者)に合わせて任意の言葉
で行い、音量の設定は、不特定話者音声認識によって、
使用者に依存しないよう共通化することを考える。
【0017】このようにすれば、テレビ局の選択には特
定話者音声認識装置を用いるので、同じテレビ局が地域
によって異なった名前を使っていても、それらを「ティ
ービーエス」あるいは「毎日放送」のように使用者が使
い分けて登録することができる。また、音量等の数字の
認識には不特定話者音声認識装置を用いるので、音声の
登録を必要とせずにどのような使用者にも対応すること
ができる。
定話者音声認識装置を用いるので、同じテレビ局が地域
によって異なった名前を使っていても、それらを「ティ
ービーエス」あるいは「毎日放送」のように使用者が使
い分けて登録することができる。また、音量等の数字の
認識には不特定話者音声認識装置を用いるので、音声の
登録を必要とせずにどのような使用者にも対応すること
ができる。
【0018】しかしながら、先述のように、特定話者音
声認識装置は使用者自身の音声を標準パターンとするた
めに認識率が高いのに対して、不特定話者音声認識装置
は多数の人の音声に対応しなければならないので、一般
に不特定話者音声認識装置に比べて認識率が低くなって
しまう。このため、前述のテレビ制御の例においては、
選局を行う場合と音量制御を行う場合との間の認識率に
差が生じ、使用者が操作上の違和感を感じるといった問
題が生じる。
声認識装置は使用者自身の音声を標準パターンとするた
めに認識率が高いのに対して、不特定話者音声認識装置
は多数の人の音声に対応しなければならないので、一般
に不特定話者音声認識装置に比べて認識率が低くなって
しまう。このため、前述のテレビ制御の例においては、
選局を行う場合と音量制御を行う場合との間の認識率に
差が生じ、使用者が操作上の違和感を感じるといった問
題が生じる。
【0019】そこで、特定話者音声認識にはパターンマ
ッチングを、不特定話者音声認識には高い認識精度が期
待できるニューラルネットワークを用いることができる
が、この場合、それぞれが異なった次元の値を出力する
ために認識結果を比較することが困難になる。
ッチングを、不特定話者音声認識には高い認識精度が期
待できるニューラルネットワークを用いることができる
が、この場合、それぞれが異なった次元の値を出力する
ために認識結果を比較することが困難になる。
【0020】しかも、パターンマッチングでは、音声パ
ターン空間内の任意の音声パターンに対してその出力
(標準パターンとの間のパターン間距離)を得ることが
できるのに対し、ニューラルネットワークでは、学習が
なされているパターン空間内の領域においては音声パタ
ーンがそのカテゴリに属することが明確になるような出
力が得られるが、学習がなされていないパターン空間内
の領域にある音声パターンに関してはその音声パターン
が学習されているパターン空間内に属するかどうかを示
す値を出力として得ることができない。このため、両方
の結果を一元的に比較して最終的な結果を決定すること
は不可能である。
ターン空間内の任意の音声パターンに対してその出力
(標準パターンとの間のパターン間距離)を得ることが
できるのに対し、ニューラルネットワークでは、学習が
なされているパターン空間内の領域においては音声パタ
ーンがそのカテゴリに属することが明確になるような出
力が得られるが、学習がなされていないパターン空間内
の領域にある音声パターンに関してはその音声パターン
が学習されているパターン空間内に属するかどうかを示
す値を出力として得ることができない。このため、両方
の結果を一元的に比較して最終的な結果を決定すること
は不可能である。
【0021】
【発明が解決しようとする課題】本発明は、上述したよ
うな従来の技術において生じる不都合に鑑みてなされた
ものであって、パターンマッチングとニューラルネット
ワークとを併用して音声認識を行うことにより、使用者
による音声の登録がなされていない語彙の認識を、使用
者による音声の登録がなされている語彙の認識と同程度
の精度により行なおうとするものである。
うな従来の技術において生じる不都合に鑑みてなされた
ものであって、パターンマッチングとニューラルネット
ワークとを併用して音声認識を行うことにより、使用者
による音声の登録がなされていない語彙の認識を、使用
者による音声の登録がなされている語彙の認識と同程度
の精度により行なおうとするものである。
【0022】具体的には、両方式による認識結果を効果
的に比較し、両認識方式間の認識性能の差が使用者によ
って感じられないように、音声認識装置の出力を制御し
ようとするものである。
的に比較し、両認識方式間の認識性能の差が使用者によ
って感じられないように、音声認識装置の出力を制御し
ようとするものである。
【0023】
【課題を解決するための手段】本発明の音声認識装置
は、入力音声を分析して音声パターンを作成する特徴抽
出部と、予め定められた話者の音声パターンを標準パタ
ーンとして格納する標準パターンメモリと、該標準パタ
ーンメモリの各パターンと上記音声パターンとを比較
し、最も類似した標準パターンを検出するパターンマッ
チング部と、予め不特定多数の話者の音声パターンを用
いて学習されており、入力される音声パターンが学習さ
れている音声パターンと類似しているかどうかを出力す
るニューラルネットワークと、を備え、上記パターンマ
ッチング部での比較結果に基づいて、上記ニューラルネ
ットワークによる出力を有効とするかどうかを決定する
ことを特徴とする。
は、入力音声を分析して音声パターンを作成する特徴抽
出部と、予め定められた話者の音声パターンを標準パタ
ーンとして格納する標準パターンメモリと、該標準パタ
ーンメモリの各パターンと上記音声パターンとを比較
し、最も類似した標準パターンを検出するパターンマッ
チング部と、予め不特定多数の話者の音声パターンを用
いて学習されており、入力される音声パターンが学習さ
れている音声パターンと類似しているかどうかを出力す
るニューラルネットワークと、を備え、上記パターンマ
ッチング部での比較結果に基づいて、上記ニューラルネ
ットワークによる出力を有効とするかどうかを決定する
ことを特徴とする。
【0024】
【作用】本発明の音声認識装置によれば、特徴抽出部に
よって入力音声を分析して音声パターンを作成し、パタ
ーンマッチング部によって標準パターンメモリの各パタ
ーンと上記音声パターンとを比較して最も類似した標準
パターンを検出し、ニューラルネットワークによって入
力される音声パターンが学習されている音声パターンと
類似しているかどうかを出力する。
よって入力音声を分析して音声パターンを作成し、パタ
ーンマッチング部によって標準パターンメモリの各パタ
ーンと上記音声パターンとを比較して最も類似した標準
パターンを検出し、ニューラルネットワークによって入
力される音声パターンが学習されている音声パターンと
類似しているかどうかを出力する。
【0025】さらに、パターンマッチング部での比較結
果に基づいて、ニューラルネットワークによる出力を有
効とするかどうかを決定する。
果に基づいて、ニューラルネットワークによる出力を有
効とするかどうかを決定する。
【0026】
【実施例】以下、図と共に本発明による音声認識装置の
説明を行う。
説明を行う。
【0027】図1は本発明による音声認識装置の一実施
例を示す。図において、(1)は音声を入力するための
マイクロフォンであり、(2)はマイクロフォン(1)
から入力される音声を周波数分析して音声パターンを作
成する音声分析部であり、(3)は音声分析部(2)に
おいて作成される音声パターンを格納するための音声パ
ターンバッファである。
例を示す。図において、(1)は音声を入力するための
マイクロフォンであり、(2)はマイクロフォン(1)
から入力される音声を周波数分析して音声パターンを作
成する音声分析部であり、(3)は音声分析部(2)に
おいて作成される音声パターンを格納するための音声パ
ターンバッファである。
【0028】(6)はパターンマッチング用の標準パタ
ーンを格納する標準パターンメモリであり、(5)は音
声パターンバッファ(3)の音声パターンと標準パター
ンメモリ(6)の標準パターンとをマッチングするパタ
ーンマッチング部である。
ーンを格納する標準パターンメモリであり、(5)は音
声パターンバッファ(3)の音声パターンと標準パター
ンメモリ(6)の標準パターンとをマッチングするパタ
ーンマッチング部である。
【0029】また、(4)は音声パターンバッファ
(3)からパターンマッチング部(5)もしくは標準パ
ターンメモリ(6)への接続を切り替えるためのスイッ
チであって、パターンマッチング用の標準パターンの登
録時には登録側に設定され、音声認識時には認識側に設
定される。
(3)からパターンマッチング部(5)もしくは標準パ
ターンメモリ(6)への接続を切り替えるためのスイッ
チであって、パターンマッチング用の標準パターンの登
録時には登録側に設定され、音声認識時には認識側に設
定される。
【0030】(8)は音声パターンバッファ(3)の音
声パターンの認識をニューラルネットワークによって、
重み係数メモリ(9)に格納されている重み係数に基づ
いて行うニューラルネットワーク部である。
声パターンの認識をニューラルネットワークによって、
重み係数メモリ(9)に格納されている重み係数に基づ
いて行うニューラルネットワーク部である。
【0031】(10)はニューラルネットワークの学習
用の音声パターンを格納する学習パターンメモリであ
り、(11)はニューラルネットワークの学習用の教師
信号を格納する教師信号メモリである。
用の音声パターンを格納する学習パターンメモリであ
り、(11)はニューラルネットワークの学習用の教師
信号を格納する教師信号メモリである。
【0032】また、(7)は音声パターンバッファ
(3)からニューラルネットワーク部(8)もしくは学
習パターンメモリ(10)への接続を切り替えるための
スイッチであって、ニューラルネットワークの学習時に
は学習側に設定され、音声認識時には認識側に設定され
る。
(3)からニューラルネットワーク部(8)もしくは学
習パターンメモリ(10)への接続を切り替えるための
スイッチであって、ニューラルネットワークの学習時に
は学習側に設定され、音声認識時には認識側に設定され
る。
【0033】さらに、(12)はパターンマッチング部
(5)からの出力値に基づいて、パターンマッチング部
(5)とニューラルネット部(7)のどちらの結果を出
力とするかを決定する出力制御部である。
(5)からの出力値に基づいて、パターンマッチング部
(5)とニューラルネット部(7)のどちらの結果を出
力とするかを決定する出力制御部である。
【0034】次に、上述のような構成による本発明装置
の動作につき説明する。
の動作につき説明する。
【0035】まず、音声認識装置の使用に先立ち、標準
パターンの登録、並びに、ニューラルネットワークの学
習が行われる。
パターンの登録、並びに、ニューラルネットワークの学
習が行われる。
【0036】パターンマッチング用の標準パターンの登
録は、スイッチ(4)が登録側に設定されている状態
で、マイクロフォン(1)から音声を入力し、音声分析
部(2)において作成される音声パターンが標準パター
ンメモリ(6)に各カテゴリごとに格納される。
録は、スイッチ(4)が登録側に設定されている状態
で、マイクロフォン(1)から音声を入力し、音声分析
部(2)において作成される音声パターンが標準パター
ンメモリ(6)に各カテゴリごとに格納される。
【0037】また、ニューラルネットワークの学習は、
スイッチ(7)が学習側に設定されている状態で、ま
ず、音声パターンバッファ(3)に取り込まれた学習用
の音声パターンを学習パターンメモリ(10)に格納
し、同時に教師信号メモリ(11)に教師信号を設定す
る。さらに、学習パターンメモリ(10)に格納された
音声パターンを入力層へ入力し、教師信号メモリ(1
1)に格納された教師信号を出力層からの出力と見做し
て、両者の間での誤差に基づいてニューラルネットワー
クの重み係数を最適な値に修正する。修正された重み係
数は、重み係数メモリ(9)に格納される。
スイッチ(7)が学習側に設定されている状態で、ま
ず、音声パターンバッファ(3)に取り込まれた学習用
の音声パターンを学習パターンメモリ(10)に格納
し、同時に教師信号メモリ(11)に教師信号を設定す
る。さらに、学習パターンメモリ(10)に格納された
音声パターンを入力層へ入力し、教師信号メモリ(1
1)に格納された教師信号を出力層からの出力と見做し
て、両者の間での誤差に基づいてニューラルネットワー
クの重み係数を最適な値に修正する。修正された重み係
数は、重み係数メモリ(9)に格納される。
【0038】音声認識時には、スイッチ(4)、(7)
は、それぞれ、認識側に設定される。マイクロフォン
(1)より入力された音声は音声分析部(2)で周波数
分析され、音声パターンが作成されて、音声パターンバ
ッファ(3)に格納される。音声パターンは、パターン
マッチング部(5)とニューラルネット部(8)に同時
に送られ、それぞれ、標準パターンと重み係数に基づい
て、認識結果を出力する。このとき、出力制御部(1
2)は、パターンマッチング部(5)からの出力値に基
づいて、パターンマッチング部(5)とニューラルネッ
ト部(8)のどちらの結果を出力とするかを決定する。
は、それぞれ、認識側に設定される。マイクロフォン
(1)より入力された音声は音声分析部(2)で周波数
分析され、音声パターンが作成されて、音声パターンバ
ッファ(3)に格納される。音声パターンは、パターン
マッチング部(5)とニューラルネット部(8)に同時
に送られ、それぞれ、標準パターンと重み係数に基づい
て、認識結果を出力する。このとき、出力制御部(1
2)は、パターンマッチング部(5)からの出力値に基
づいて、パターンマッチング部(5)とニューラルネッ
ト部(8)のどちらの結果を出力とするかを決定する。
【0039】以下に、両方式を用いて認識を行った場合
の認識結果の決定方法について具体的に述べる。
の認識結果の決定方法について具体的に述べる。
【0040】図2並びに図3は、本実施例の音声認識装
置による、パターンマッチング並びにニューラルネット
による音声認識結果を示すものである。
置による、パターンマッチング並びにニューラルネット
による音声認識結果を示すものである。
【0041】ここで、カテゴリ群(A、B、C)に対し
ては、それぞれのカテゴリにおける標準音声パターンが
標準パターンメモリ(6)に登録されているものとし、
ニューラルネットワークはカテゴリ群(P、Q、R)の
音声パターンを識別するように学習されているものとす
る。
ては、それぞれのカテゴリにおける標準音声パターンが
標準パターンメモリ(6)に登録されているものとし、
ニューラルネットワークはカテゴリ群(P、Q、R)の
音声パターンを識別するように学習されているものとす
る。
【0042】音声認識装置からの出力は出力制御部(1
2)によって制御されるが、実際にパターンマッチング
部(5)あるいはニューラルネット部(8)のどちらの
出力を選択するかは次の様にして行われる。即ち、パタ
ーンマッチングの出力に対して、図4の場合と同様に、
各標準パターンからそれぞれを取り巻く円までの距離を
しきい値として設定して、距離がしきい値を越えた場合
には、ニューラルネットワークの出力を有効とし、しき
い値以下の場合には、ニューラルネットワークの出力を
無効とする。
2)によって制御されるが、実際にパターンマッチング
部(5)あるいはニューラルネット部(8)のどちらの
出力を選択するかは次の様にして行われる。即ち、パタ
ーンマッチングの出力に対して、図4の場合と同様に、
各標準パターンからそれぞれを取り巻く円までの距離を
しきい値として設定して、距離がしきい値を越えた場合
には、ニューラルネットワークの出力を有効とし、しき
い値以下の場合には、ニューラルネットワークの出力を
無効とする。
【0043】図2の場合、パターンマッチング部(5)
により音声パターン(y)が認識されると、最短のパタ
ーン間距離値としてd(y,a)が出力制御部(12)
へ出力される。また、ニューラルネットワーク部(8)
からは、カテゴリ(P)に対する最も高い類似性(Op
=0.8)が出力制御部(12)へ出力される。
により音声パターン(y)が認識されると、最短のパタ
ーン間距離値としてd(y,a)が出力制御部(12)
へ出力される。また、ニューラルネットワーク部(8)
からは、カテゴリ(P)に対する最も高い類似性(Op
=0.8)が出力制御部(12)へ出力される。
【0044】出力制御部(12)では、音声パターン
(y)は標準パターン(a)から上述のしきい値以内の
距離にあるので、カテゴリ(A)に属すると判定され
る。ここで、ニューラルネットワークによる認識結果か
らは(Op=0.8)が得られているが、パターンマッ
チングの方の出力がカテゴリ(A)を判定するのに十分
な値であるのでニューラルネットワークからの出力は無
効となる。
(y)は標準パターン(a)から上述のしきい値以内の
距離にあるので、カテゴリ(A)に属すると判定され
る。ここで、ニューラルネットワークによる認識結果か
らは(Op=0.8)が得られているが、パターンマッ
チングの方の出力がカテゴリ(A)を判定するのに十分
な値であるのでニューラルネットワークからの出力は無
効となる。
【0045】また、図3の場合、音声パターン(z)の
認識の結果、パターンマッチング部(5)は、最短のパ
ターン間距離値としてd(z,a)を出力制御部(1
2)へ出力し、ニューラルネットワーク部(8)から
は、カテゴリ(P)に対する最も高い類似性(Op=
0.95)が出力制御部(12)へ出力される。
認識の結果、パターンマッチング部(5)は、最短のパ
ターン間距離値としてd(z,a)を出力制御部(1
2)へ出力し、ニューラルネットワーク部(8)から
は、カテゴリ(P)に対する最も高い類似性(Op=
0.95)が出力制御部(12)へ出力される。
【0046】出力制御部(12)では、音声パターン
(z)は標準パターン(a)から上述のしきい値以遠に
あるので、カテゴリ(A)には属さないと判定される。
従って、ニューラルネットワーク部(8)により得られ
る最も高い値の類似度(Op=0.95)のカテゴリ
(P)に属すると判断される。
(z)は標準パターン(a)から上述のしきい値以遠に
あるので、カテゴリ(A)には属さないと判定される。
従って、ニューラルネットワーク部(8)により得られ
る最も高い値の類似度(Op=0.95)のカテゴリ
(P)に属すると判断される。
【0047】このようにして、音声のカテゴリに応じ
て、最も適した方法により認識を行うことができるほ
か、両方式が混在していても、出力時点では同程度の認
識性能を保つことができる。
て、最も適した方法により認識を行うことができるほ
か、両方式が混在していても、出力時点では同程度の認
識性能を保つことができる。
【0048】
【発明の効果】以上に述べたように、本発明による音声
認識装置は、使用者が個人的に登録して使用したい語彙
の認識は、パターンマッチングにより行い、数字のよう
にどの使用者にも共通した、登録する手間を省きたい語
彙の認識は、ニューラルネットにより行うので、認識対
象に応じて両方式を使い分けて、効率的に認識できる音
声認識装置を実現することができる。
認識装置は、使用者が個人的に登録して使用したい語彙
の認識は、パターンマッチングにより行い、数字のよう
にどの使用者にも共通した、登録する手間を省きたい語
彙の認識は、ニューラルネットにより行うので、認識対
象に応じて両方式を使い分けて、効率的に認識できる音
声認識装置を実現することができる。
【0049】さらに、パターンマッチング部での比較結
果の善し悪しに基づいてニューラルネットワークによる
認識結果を有効とするかどうかを決定するので、両方式
による結果の比較が可能となり、両認識方式間の認識性
能の差が使用者によって感じられない程度の、使いやす
い音声認識装置を提供することができる。
果の善し悪しに基づいてニューラルネットワークによる
認識結果を有効とするかどうかを決定するので、両方式
による結果の比較が可能となり、両認識方式間の認識性
能の差が使用者によって感じられない程度の、使いやす
い音声認識装置を提供することができる。
【図1】本発明による音声認識装置の一実施例を示す構
成図である。
成図である。
【図2】実施例における音声パターン空間を表す図であ
る。
る。
【図3】実施例における音声パターン空間を表す図であ
る。
る。
【図4】パターンマッチングによる識別の原理図であ
る。
る。
【図5】階層型のネットワークの構成図である。
1 マイクロフォン 2 音声分析部 3 音声パターンバッファ 4 スイッチ 5 パターンマッチング部 6 標準パターンメモリ 7 スイッチ 8 ニューラルネットワーク部 9 重み係数メモリ 10 学習パターンメモリ 11 教師信号メモリ 12 出力制御部
Claims (1)
- 【請求項1】 入力音声を分析して音声パターンを作成
する特徴抽出部と、 予め定められた話者の音声パターンを標準パターンとし
て格納する標準パターンメモリと、該標準パターンメモ
リの各パターンと上記音声パターンとを比較し、最も類
似した標準パターンを検出するパターンマッチング部
と、予め不特定多数の話者の音声パターンを用いて学習
されており、入力される音声パターンが学習されている
音声パターンと類似しているかどうかを出力するニュー
ラルネットワークと、を備え、 上記パターンマッチング部での比較結果に基づいて、上
記ニューラルネットワークによる出力を有効とするかど
うかを決定することを特徴とした音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4114682A JPH05313692A (ja) | 1992-05-07 | 1992-05-07 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4114682A JPH05313692A (ja) | 1992-05-07 | 1992-05-07 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH05313692A true JPH05313692A (ja) | 1993-11-26 |
Family
ID=14644008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4114682A Pending JPH05313692A (ja) | 1992-05-07 | 1992-05-07 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH05313692A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH096390A (ja) * | 1995-06-22 | 1997-01-10 | Seiko Epson Corp | 音声認識対話処理方法および音声認識対話装置 |
US10832669B2 (en) | 2016-11-24 | 2020-11-10 | Samsung Electronics Co., Ltd. | Electronic device and method for updating channel map thereof |
JP2021189529A (ja) * | 2020-05-26 | 2021-12-13 | 国立大学法人 奈良先端科学技術大学院大学 | 半導体回路 |
-
1992
- 1992-05-07 JP JP4114682A patent/JPH05313692A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH096390A (ja) * | 1995-06-22 | 1997-01-10 | Seiko Epson Corp | 音声認識対話処理方法および音声認識対話装置 |
US10832669B2 (en) | 2016-11-24 | 2020-11-10 | Samsung Electronics Co., Ltd. | Electronic device and method for updating channel map thereof |
JP2021189529A (ja) * | 2020-05-26 | 2021-12-13 | 国立大学法人 奈良先端科学技術大学院大学 | 半導体回路 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6725197B1 (en) | Method of automatic recognition of a spelled speech utterance | |
EP1704668B1 (en) | System and method for providing claimant authentication | |
JP3968133B2 (ja) | 音声認識対話処理方法および音声認識対話装置 | |
JP3664739B2 (ja) | 話者の音声確認用の自動式時間的無相関変換装置 | |
US6397180B1 (en) | Method and system for performing speech recognition based on best-word scoring of repeated speech attempts | |
US4581755A (en) | Voice recognition system | |
EP0121248A1 (en) | Speaker verification system and process | |
JPH05249990A (ja) | パターンマッチング方法およびパターン認識装置 | |
US20010056345A1 (en) | Method and system for speech recognition of the alphabet | |
JP2008275987A (ja) | 音声認識装置および会議システム | |
JPH05313692A (ja) | 音声認識装置 | |
JP2000020089A (ja) | 音声認識方法及びその装置、並びに音声制御システム | |
JPS6332394B2 (ja) | ||
JP3835032B2 (ja) | 利用者照合装置 | |
JPH09326856A (ja) | 音声認識応答装置 | |
EP0386706A2 (en) | Speech recognition apparatus | |
JPS63186298A (ja) | 単語音声認識装置 | |
JP2003323196A (ja) | 音声認識システム、音声認識方法および音声認識用プログラム | |
JPS63106798A (ja) | 個人認証装置 | |
JPS6126133A (ja) | 音声認識入力装置 | |
JPH04152397A (ja) | 音声認識装置 | |
JPH10171488A (ja) | 音声認識方法及び装置及び記憶媒体 | |
JPS59212900A (ja) | 音声認識装置 | |
JPH03155599A (ja) | 音声認識装置 | |
JP2000250594A (ja) | 話者認識装置 |