JP3322536B2

JP3322536B2 - ニューラルネットワークの学習方法および音声認識装置

Info

Publication number: JP3322536B2
Application number: JP23577195A
Authority: JP
Inventors: 浩也村尾
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 1995-09-13
Filing date: 1995-09-13
Publication date: 2002-09-09
Anticipated expiration: 2015-09-13
Also published as: JPH0981190A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、ニューラルネッ
トワークの学習方法および音声認識装置に関する。

【０００２】

【従来の技術】従来から、ニューラルネットワークを用
いて音声を認識する音声認識装置が知られている。この
ような音声認識装置は、たとえば、録画番組の予約が音
声入力によって行われる録画装置等に利用される。

【０００３】図７は、従来の音声認識装置の構成を示し
ている。

【０００４】音声分析部１０１は、入力音声の音声パワ
ー信号と、入力音声に対する音声スペクトルとを生成す
る。入力音声の音声パワー信号は、音声区間検出部１０
２に送られる。入力音声に対する音声スペクトルは、音
声パターン作成部１０３に送られる。

【０００５】音声区間検出部１０２は、音声検出部１１
１および音声区間切出し部１１２とを備えている。音声
検出部１１１は、図８に示すように、音声検出用しきい
値αを用いて、音声パワー信号中の音声部分を検出す
る。

【０００６】音声区間切出し部１１２は、図８に示すよ
うに、切出し用しきい値βを用いて、音声認識に有効な
音声区間Ｌを求める。切出し用しきい値βは、音声検出
部１１１によって検出された音声部分より所定時間前の
雑音パワーに基づいて決定される。

【０００７】音声パターン作成部１０３は、音声区間切
出し部１１２によって求められた音声区間Ｌに対する音
声スペクトルに基づいて、音声パターンを作成する。作
成された音声パターンは、学習済のニューラルネットワ
ーク１０４に入力される。

【０００８】このニューラルネットワーク１０４の学習
は、次のように行なわれる。まず、各認識対象音声に対
する標準音声パターンを、予め収集した音声を用いてそ
れぞれ求める。各認識対象音声の標準音声パターンは、
各認識対象音声ごとに好適な１つの音声区間に基づいて
作成される。そして、各標準音声パターンを入力パター
ンとし、各入力パターンに対応する音声を表す音声識別
データを教師データとして、ニューラルネットワーク１
０４を学習させる。

【０００９】学習済のニューラルネットワーク１０４
に、音声パターンが入力されることにより、入力された
音声パターンに対応する出力パターンが得られる。この
出力パターンは、認識結果判定部１０５に送られる。認
識結果判定部１０５は、送られてきた出力パターンに基
づいて当該音声検出部分の音声を認識し、その認識結果
を出力する。

【００１０】

【発明が解決しようとする課題】このような音声認識装
置では、音声認識に有効な音声区間を設定するための切
出し用しきい値βは１つであるため、雑音が音声区間に
含まれることによって誤認識が発生したり、音声パワー
の小さい語尾等が音声区間から脱落することによって誤
認識が発生したりする可能性が高い。

【００１１】そこで、本出願人は、次のような音声認識
方法を開発した。つまり、図６に示すように、複数のし
きい値β１、β２、β３およびβ４を用いて、複数の音
声区間Ｌ１、Ｌ２、Ｌ３およびＬ４を設定する。各音声
区間Ｌ１〜Ｌ４それぞれに対して、音声パターンを作成
する。ニューラルネットワークに各音声パターンを入力
して、各音声パターンごとに出力パターンを得る。そし
て、得られたこれらの複数の出力パターンに基づいて、
音声を認識する。

【００１２】各認識対象音声を表す音声識別データは、
ニューラルネットワークの出力層の各ユニットに対応し
た数のデータから構成されているものとする。そして、
その１つのみが”１”で他が全て”０”のデータで構成
され、データ”１”の位置が各音声識別データごとに異
なっているものとする。

【００１３】このような音声認識方法では、図６の各音
声区間Ｌ１〜Ｌ４の認識結果は、たとえば、次のように
なることがある。すなわち、音声区間Ｌ１での認識結果
は”しち”で、出力最大値（ニューラルネットワークの
出力層のユニットの出力のうちの最大値）が０．９０で
ある。音声区間Ｌ２での認識結果は”に”で、出力最大
値が０．８５である。音声区間Ｌ３での認識結果は”
に”で、出力最大値が０．９１である。音声区間Ｌ４で
の認識結果は”に”で、出力最大値が０．８８である。

【００１４】このような場合には、最終認識結果として
は、出力最大値が”１”に最も近い音声区間Ｌ３での認
識結果”に”が、入力音声の認識結果として選択され、
本来”しち”と認識されるべきところが、”に”と誤認
識されてしまう。このような誤認識は、図６の各音声区
間Ｌ１〜Ｌ４の中に、好適な音声区間とは異なる区間が
存在し、それらの区間に基づく音声パターンはニューラ
ルネットワークの学習に用いられていないことに起因し
て生じる。

【００１５】この発明は、認識精度の向上が図れるニュ
ーラルネットワークの学習方法および音声認識装置を提
供することを目的とする。

【００１６】

【課題を解決するための手段】この発明によるニューラ
ルネットワークの学習方法は、複数の学習用入力パター
ンとそれに対する教師データとを用いてニューラルネッ
トワークを学習させた後、学習の妨げになる学習用入力
パターンを選択し、選択された学習用入力パターンにつ
いてはそれらに対する教師データを変更し、選択されな
かった学習用入力パターンについてはそれに対する本来
の教師データを用いて、追加学習を行なうことを特徴と
する。

【００１７】この発明によるニューラルネットワークの
学習方法によれば、より多くの学習用入力パターンにつ
いて、学習が進むようになるので、この方法で学習され
たニューラルネットワークを用いて文字認識、音声認識
等の認識処理を行なった場合には、認識性能が向上す
る。

【００１８】学習の妨げになる学習用入力パターンは、
たとえば、学習後のニューラルネットワークに学習用入
力パターンを入力することによって得られる出力と、当
該学習用入力パターンに対する本来の教師データとの誤
差に基づいて、選択される。追加学習においては、たと
えば、選択された学習の妨げになる学習用入力パターン
についてはそれらに対する教師データが反教師データに
変更される。

【００１９】反教師データは、各教師データがニューラ
ルネットワークの出力層の各ユニットに対応した数のデ
ータから構成されており、その１つのみが”１”で他が
全て”０”のデータで構成され、データ”１”の位置が
各教師データごとに異なっている場合には、全て”０”
のデータから構成される。

【００２０】各教師データがニューラルネットワークの
出力層の各ユニットに対応した数のデータから構成され
ており、その１つのみが”０”で他が全て”１”のデー
タで構成され、データ”０”の位置が各教師データごと
に異なっている場合には、反教師データは、全て”１”
のデータから構成される。

【００２１】この発明による第１の音声認識装置は、入
力音声に対して音声区間を設定する音声区間設定手段、
音声区間の特徴に基づいて、音声区間の音声パターンを
作成する音声パターン作成手段、および音声パターンが
入力されるニューラルネットワークを有しかつニューラ
ルネットワークの出力に基づいて入力音声を認識する音
声認識手段を備えており、各認識対象音声ごとに、好適
な音声区間に基づく学習用基準音声パターンと、好適な
音声区間とは異なる音声区間に基づく学習用追加音声パ
ターンとが作成され、各学習用基準音声パターンと各学
習用追加音声パターンとをそれぞれ入力パターンとし、
各入力パターンに対応する音声を表す音声識別データを
教師データとして、ニューラルネットワークが初期学習
され、学習用追加音声パターンのうち、初期学習済のニ
ューラルネットワークにそれが入力されて音声認識が行
なわれた結果、認識誤差が所定値より大きいものが学習
の妨げになる学習用追加音声パターンとして選択され、
選択された学習用追加音声パターン以外の学習用追加音
声パターンと学習用基準音声パターンとについては、そ
れぞれの音声パターンを入力パターンとし、各入力パタ
ーンに対応する音声を表す音声識別データを教師データ
として用い、選択された学習用追加音声パターンについ
ては、その音声パターンを入力パターンとし、教師デー
タとして反教師データを用いて、ニューラルネットワー
クが追加学習されていることを特徴とする。上記音声区
間の特徴としては、たとえば、音声スペクトルが挙げら
れる。

【００２２】反教師データは、各音声識別データがニュ
ーラルネットワークの出力層の各ユニットに対応した数
のデータから構成されており、その１つのみが”１”で
他が全て”０”のデータで構成され、データ”１”の位
置が各音声識別データごとに異なっている場合には、全
て”０”のデータから構成される。

【００２３】各音声識別データがニューラルネットワー
クの出力層の各ユニットに対応した数のデータから構成
されており、その１つのみが”０”で他が全て”１”の
データで構成され、データ”０”の位置が各音声識別デ
ータごとに異なっている場合には、反教師データは、全
て”１”のデータから構成される。

【００２４】この発明による第１の音声認識装置では、
入力音声に対して、音声区間が設定される。音声区間の
特徴に基づいて、音声区間の音声パターンが作成され
る。音声パターンがニューラルネットワークに入力され
る。そして、ニューラルネットワークの出力に基づいて
入力音声が認識される。

【００２５】この発明による第１の音声認識装置のニュ
ーラルネットワークの学習は、次のように行なわれてい
る。

【００２６】各認識対象音声ごとに、好適な音声区間に
基づく学習用基準音声パターンと、好適な音声区間とは
異なる音声区間に基づく学習用追加音声パターンとが作
成される。

【００２７】各学習用基準音声パターンと各学習用追加
音声パターンとをそれぞれ入力パターンとし、各入力パ
ターンに対応する音声を表す音声識別データを教師デー
タとして、ニューラルネットワークが初期学習される。

【００２８】学習用追加音声パターンのうち、初期学習
済のニューラルネットワークにそれが入力されて音声認
識が行なわれた結果、認識誤差が所定値より大きいもの
が学習の妨げになる学習用追加音声パターンとして選択
される。

【００２９】そして、選択された学習用追加音声パター
ン以外の学習用追加音声パターンと学習用基準音声パタ
ーンとについては、それぞれの音声パターンを入力パタ
ーンとし、各入力パターンに対応する音声を表す音声識
別データを教師データとして用い、選択された学習用追
加音声パターンについては、その音声パターンを入力パ
ターンとし、教師データとして反教師データを用いて、
ニューラルネットワークが追加学習される。

【００３０】この発明による第１の音声認識装置では、
ニューラルネットワークの学習においては、切り出し誤
りによって生じる学習用追加音声パターンのうち、他の
認識対象音声に対する学習用追加音声パターンと競合し
ないものについては、その音声パターンに対応する音声
識別データを教師データとして学習が行なわれ、競合す
るものについては反教師データを用いて学習が行なわれ
ているので、広い範囲の切り出し位置を許容でき、認識
性能が向上する。

【００３１】この発明による第２の音声認識装置は、入
力音声に対して複数の音声区間を設定する音声区間設定
手段、各音声区間の特徴に基づいて、各音声区間ごとの
音声パターンをそれぞれ作成する音声パターン作成手
段、および各音声区間ごとの音声パターンがそれぞれ入
力されるニューラルネットワークを有しかつ各音声区間
ごとの音声パターンに対するニューラルネットワークの
出力に基づいて入力音声を認識する音声認識手段を備え
ており、各認識対象音声ごとに、好適な音声区間に基づ
く学習用基準音声パターンと、好適な音声区間とは異な
る音声区間に基づく学習用追加音声パターンとが作成さ
れ、各学習用基準音声パターンと各学習用追加音声パタ
ーンとをそれぞれ入力パターンとし、各入力パターンに
対応する音声を表す音声識別データを教師データとし
て、ニューラルネットワークが初期学習され、学習用追
加音声パターンのうち、初期学習済のニューラルネット
ワークにそれが入力されて音声認識が行なわれた結果、
認識誤差が所定値より大きいものが学習の妨げになる学
習用追加音声パターンとして選択され、選択された学習
用追加音声パターン以外の学習用追加音声パターンと学
習用基準音声パターンとについては、それぞれの音声パ
ターンを入力パターンとし、各入力パターンに対応する
音声を表す音声識別データを教師データとして用い、選
択された学習用追加音声パターンについては、その音声
パターンを入力パターンとし、教師データとして反教師
データを用いて、ニューラルネットワークが追加学習さ
れていることを特徴とする。上記音声区間の特徴として
は、たとえば、音声スペクトルが挙げられる。

【００３２】この発明による第２の音声認識装置では、
入力音声に対して、複数の音声区間が設定される。各音
声区間の特徴に基づいて、各音声区間ごとの音声パター
ンがそれぞれ作成される。各音声区間ごとの音声パター
ンがニューラルネットワークにそれぞれ入力される。各
音声区間ごとの音声パターンに対するニューラルネット
ワークの出力に基づいて入力音声が認識される。

【００３３】この発明による第２の音声認識装置におけ
るニューラルネットワークの学習方法は、上記第１の音
声認識装置のニューラルネットワークの学習方法と同じ
である。

【００３４】この発明による第２の音声認識装置では、
ニューラルネットワークの学習においては、切り出し誤
りによって生じる学習用追加音声パターンのうち、他の
認識対象音声に対する学習用追加音声パターンと競合し
ないものについては、その音声パターンに対応する音声
識別データを教師データとして学習が行なわれ、競合す
るものについては反教師データを用いて学習が行なわれ
ているので、広い範囲の切り出し位置を許容でき、認識
性能が向上する。

【００３５】また、この発明による第２の音声認識装置
では、１つの入力音声に対して、複数の音声区間が設定
されている。そして、各音声区間の特徴に基づいて、当
該入力音声が認識されているので、雑音が音声区間に含
まれることによって誤認識が発生したり、音声パワーの
小さい語尾等が音声区間から脱落することによって誤認
識が発生したりするといったことが防止される。この結
果、音声認識精度が向上する。

【００３６】

【発明の実施の形態】以下、図１〜図６を参照して、こ
の発明の実施の形態について説明する。

【００３７】図１は、音声認識装置の構成を示してい
る。

【００３８】音声認識装置は、音声分析部１、音声区間
検出部２、音声パターン作成部３、ニューラルネットワ
ーク演算部４、認識結果記憶部５および認識結果判定部
６を備えている。音声区間検出部２は、音声検出部２
１、音声区間切出し部２２および切出し位置記憶部２３
を備えている。

【００３９】図２は、ニューラルネットワーク演算部４
に設けられているニューラルネットワークの構造の一例
を示している。

【００４０】このニューラルネットワークは、入力層４
１、中間層４２および出力層４３からなる。入力層４１
は、たとえば、１２８個（１６channel ×８frame ) の
入力ユニットから構成されている。中間層４２は、入力
層４１の各入力ユニットと相互に結合された、たとえ
ば、５０個の中間ユニットから構成されている。出力層
４３は、中間層４２の各中間ユニットと相互に結合され
た、たとえば、１５個の出力ユニットから構成されてい
る。

【００４１】ここでは、認識対象音声は１５個あるもの
とする。各認識対象音声を表す音声識別データは、出力
ユニット数に対応した１５個のデータからなり、その１
つのみが”１”で他が全て”０”のデータで構成されて
いるものとする。そして、データ”１”の位置が、各音
声識別データごとに異なっている。

【００４２】図３は、ニューラルネットワークの学習方
法を示している。

【００４３】（１）まず、各認識対象音声ごとに、複数
の学習用音声パターンが作成される（ステップ１）。

【００４４】つまり、各認識対象音声ごとに、次の３種
の切り出し条件によって、複数の学習用音声パターンが
作成される。

【００４５】（ａ）目視によって切り出された学習用基
準音声パターンたとえば、図４に示すように、所定の音声、たとえば
「しち」の標準音声信号に対する音声パワー信号を生成
する。そして、目視によって好適な音声区間Ｒ０を決定
する。そして、この区間Ｒ０のパターンを切り出すこと
により、学習用基準音声パターンを作成する。

【００４６】（ｂ）複数レベルのパワーしきい値によ
り、自動的に切り出された１または複数個の学習用追加
音声パターン図４に示すように、予め定めた好適なしきい値δ１に、
所定値を加えていくことにより、複数のしきい値δ２、
δ３、δ４を設定して、音声区間Ｒ１、Ｒ２、Ｒ３、Ｒ
４を決定する。そして、各区間Ｒ１、Ｒ２、Ｒ３、Ｒ４
のパターンをそれぞれ切り出すことにより、複数の学習
用追加音声パターンを作成する。

【００４７】（ｃ）切り出し位置を、目視によって決定
された切り出し位置から単語の外側に切り出し位置を移
動させて作成した１または複数個の学習用追加音声パタ
ーン図５に示すように、目視による好適な音声区間Ｒ０の始
端および後端の一方または両方を、音声区間Ｒ０の外側
に移動させて複数の音声区間Ｒ５、Ｒ６、Ｒ７、Ｒ８、
Ｒ９、Ｒ１０、Ｒ１１、Ｒ１２を設定する。そして、各
区間Ｒ５〜Ｒ１２のパターンをそれぞれ切り出すことに
より、複数の学習用追加音声パターンを作成する。

【００４８】各学習用音声パターンとしては、対応する
音声区間を８等分した各区間それぞれの平均スペクトル
が用いられている。また、各区間の音声スペクトルは、
予め定められた１６の周波数帯域に対する音声スペクト
ルから構成されている。

【００４９】（２）このようにして、全ての認識対象
音声に対する学習用音声パターン（学習用基準音声パタ
ーンと複数個の学習用追加音声パターン）が作成される
と、初期学習が行なわれる（ステップ２）。

【００５０】つまり、各認識対象音声に対する各学習用
音声パターン（学習用基準音声パターンと学習用追加音
声パターン）を入力パターンとし、各入力パターンに対
応する音声を表す音声識別データを教師データとして、
バックプロパゲーション法により、ニューラルネットワ
ークが学習せしめられる。

【００５１】（３）学習がある程度進んだ後、学習用
追加音声パターンに対する認識検査が行なわれる（ステ
ップ３）。

【００５２】この認識検査は、各学習用追加音声パター
ンごとに行なわれる。つまり、学習用追加音声パターン
が、初期学習済のニューラルネットワークに入力され
る。そして、その出力および次の数式１を用いて、学習
用追加音声パターンの出力誤差平均Ｅが求められる。

【００５３】

【数１】

【００５４】上記数式１において、Ｎは、認識対象音声
の数、すなわち出力層のユニット数（この例では１５）
である。また、ｔ_n（ｎ＝０、１…（Ｎ−１））は、学
習用追加音声パターンに対応する音声を表す音声識別デ
ータ（教師データ）である。また、Ｏ_n（ｎ＝０、１…
（Ｎ−１））は、出力層の各ユニットの出力である。

【００５５】そして、求められた出力誤差平均Ｅが、予
め定められた正の定数θより大きいか（Ｅ＞θ）否かが
判別される。求められた出力誤差平均Ｅが、予め定めら
れた正の定数θより大きい場合には、当該学習用追加音
声パターンは、０学習用音声パターンとして選択され
る。０学習用音声パターンを、上記出力誤差平均Ｅ以外
の学習用追加音声パターンの出力誤差に関する値、たと
えば、（１／Ｎ）・Σ（ｔ_n−Ｏ_n）²等に基づいて、
選択するようにしてもよい。

【００５６】（４）このようにして、全ての学習用追
加音声パターンについて、認識検査が行なわれると、追
加学習が行なわれる（ステップ４）。

【００５７】この追加学習においては、０学習用音声パ
ターンとして選択された学習用追加音声パターン以外の
学習用追加音声パターンと学習用基準音声パターンにつ
いては、それらをそれぞれ入力パターンとし、各入力パ
ターンに対応する音声を表す音声識別データを教師デー
タとして、バックプロパゲーション法により、ニューラ
ルネットワークが学習せしめられる。０学習用音声パタ
ーンとして選択された学習用追加音声パターンについて
は、それらをそれぞれ入力パターンとし、出力層の全ユ
ニットに”０”の教師データ（反教師データ）を与え
て、バックプロパゲーション法により、ニューラルネッ
トワークが学習せしめられる。

【００５８】（５）以下、θの値を徐々に小さくしな
がら、上記ステップ３とステップ４との処理を所要回繰
り返した後（ステップ５）、ニューラルネットワークの
学習を終了する。

【００５９】上記のような学習方法で学習が行なわれた
ニューラルネットワークを用いて音声認識を行なった場
合の利点について説明する。

【００６０】学習用音声パターンの中には、切り出し位
置によって、異なる認識対象音声から作成されているに
もかかわらず、互いに似たパターンが存在する場合が考
えられる。例えば数字の「いち」という音声を比較的高
いしきい値で切り出すと、それぞれの音声から「ち」と
いう音に類似したのような音声パターンが得られること
が推測される。また、「し」という音声の始端を目視に
よる切り出し位置から外側に移動させていくと、「い
ち」や「しち」などで語頭の「い」や「し」の発生が小
さいものと似たパターンが得られることが考えられる。

【００６１】このように異なる認識対象音声から作成さ
れているにもかかわらず類似した学習用音声パターンが
存在した場合、これらの類似した学習用音声パターンに
対して互いに異なる教師データを与えているため、その
部分は局所的に学習が進まず、出力誤差が大きいままで
あると考えられる。

【００６２】そこで、初期学習がある程度進んだ時点
で、学習用追加音声パターンを初期学習済のニューラル
ネットワークに入力し、学習用追加音声パターンのう
ち、ニューラルネットワークの出力誤差平均Ｅが一定値
θより大きいパターンを選択し、それらについては教師
データを０にした追加学習を行なっている。

【００６３】このような処理を何度か繰り返すと、各認
識対象音声の学習音声パターンには、切り出しを誤った
パターンのうち、他の認識対象音声の学習音声パターン
と競合しないものだけが、残っていくため、それらを学
習したニューラルネットワークは広い範囲の切り出し誤
りを許容することととなり、結果的に認識性能が向上す
る。

【００６４】図１の音声認識装置の動作について説明す
る。

【００６５】音声分析部１は、入力音声の音声パワー信
号と、入力音声に対する音声スペクトルとを生成する。
入力音声の音声パワー信号は、音声区間検出部２に送ら
れる。入力音声に対する音声スペクトルは、音声パター
ン作成部３に送られる。

【００６６】音声検出部２１は、図６に示すように、音
声検出用しきい値αを用いて、入力された音声パワー信
号中の音声部分を検出する。

【００６７】音声区間切出し部２２は、図６に示すよう
に、複数の切出し用しきい値β１、β２、β３、β４を
用いて、複数の音声区間を設定する。この例では、第１
から第４の音声区間Ｌ１、Ｌ２、Ｌ３、Ｌ４を設定す
る。そして、設定した各音声区間Ｌ１〜Ｌ４の開始点と
終了点とを、各音声区間Ｌ１〜Ｌ４に対応させて、切出
し位置記憶部２３に格納する。

【００６８】各切出し用しきい値β１、β２、β３、β
４は、たとえば、次のようにして設定される。まず、最
小の切出し用しきい値β１が、音声検出部２１によって
検出された音声部分の開始位置より所定時間前の雑音パ
ワーに基づいて決定される。そして、決定された最小の
切出し用しきい値β１に、定数γが加算されることによ
りしきい値β２が求められ、しきい値β２に定数γが加
算されることによりしきい値β３が求められ、しきい値
β３に定数γが加算されることによりしきい値β４が求
められる。

【００６９】音声パターン作成部３は、音声区間切出し
部２２によって求められた各音声区間Ｌ１〜Ｌ４に対す
る音声スペクトルに基づいて、各音声区間Ｌ１〜Ｌ４ご
とに音声パターンを作成して、ニューラルネットワーク
演算部４に入力させる。

【００７０】つまり、切出し位置記憶部２３に格納され
ている第１の音声区間Ｌ１の開始点と終了点とに基づい
て、当該音声区間Ｌ１に対する音声パターン（Ｐ１）を
作成する。この音声パターンとしては、当該音声区間を
８等分した各区間それぞれの平均スペクトルが用いられ
ている。そして、各区間の音声スペクトルパターンは、
予め定められた１６の周波数帯域に対する音声スペクト
ルから構成されている。作成された第１の音声パターン
（Ｐ１）は、学習済のニューラルネットワークに入力さ
れる。

【００７１】学習済のニューラルネットワークに、第１
の音声パターン（Ｐ１）が入力されることにより、第１
の音声パターン（Ｐ１）に対応する出力パターンが得ら
れる。そして、得られた出力パターンに基づいて、認識
結果と出力最大値（１５個の出力のうちの最大値）と
が、第１認識結果として認識結果記憶部５に記憶され
る。

【００７２】次に、切出し位置記憶部１３に格納されて
いる第２の音声区間Ｌ２の開始点と終了点とに基づい
て、当該音声区間Ｌ２に対する音声パターン（Ｐ２）が
作成され、作成された第２の音声パターン（Ｐ２）が学
習済のニューラルネットワークに入力される。これによ
り、第２の音声パターン（Ｐ２）に対応する出力パター
ンが得られる。得られた出力パターンに基づいて、認識
結果と出力最大値が、第２認識結果として認識結果記憶
部５に記憶される。

【００７３】次に、第３の音声区間Ｌ３の開始点と終了
点とに基づいて、当該音声区間Ｌ３に対する音声パター
ン（Ｐ３）が作成されて、学習済のニューラルネットワ
ークに入力される。これにより、第３の音声パターン
（Ｐ３）に対応する出力パターンが得られる。得られた
出力パターンに基づいて、認識結果と出力最大値が、第
３認識結果として認識結果記憶部５に記憶される。

【００７４】次に、第４の音声区間Ｌ４の開始点と終了
点とに基づいて、当該音声区間Ｌ４に対する音声パター
ン（Ｐ４）が作成されて、学習済のニューラルネットワ
ークに入力される。これにより、第４の音声パターン
（Ｐ４）に対応する出力パターンが得られる。得られた
出力パターンに基づいて、認識結果と出力最大値が、第
４認識結果として認識結果記憶部５に記憶される。

【００７５】このようにして、第１〜第４の音声パター
ン（Ｐ１〜Ｐ４）に対する第１〜第４の認識結果が得ら
れると、認識結果判定部６は、出力パターン記憶部５に
記憶されている第１〜第４の認識結果のうち、出力最大
値が”１”に最も近い音声認識結果を、当該検出音声部
分の音声認識結果として選択して出力する。つまり、音
声識別データ（教師データ）に類似度が最も高い出力パ
ターンに基づいて、入力音声が認識される。

【００７６】上記実施の形態では、１つの音声検出部分
に対して、複数の切出し用しきい値β１〜β４によって
得られた複数の音声区間Ｌ１〜Ｌ４が設定されている。
そして、各音声区間ごとの音声パターンに基づいて、当
該音声検出部分の音声が認識されているので、雑音が音
声区間に含まれることによって誤認識が発生したり、音
声パワーの小さい語尾等が音声区間から脱落することに
よって誤認識が発生したりするといったことが防止され
る。この結果、音声認識精度が向上する。

【００７７】また、上記実施の形態では、ニューラルネ
ットワークの学習においては、切り出し誤りによって生
じる音声パターンのうち、他の認識対象音声に対する学
習用追加音声パターンと競合しないものについては、そ
の音声パターンに対応する音声識別データを教師データ
として学習が行なわれ、競合するものについては”０”
の教師データ（反教師データ）を用いて学習が行なわれ
ているので、広い範囲の切り出し位置を許容でき、認識
性能が向上する。

【００７８】上記実施の形態では、入力音声に対して複
数のしきい値β１〜β４によって複数の音声区間が設定
されているが、入力音声に対して１つのしきい値によっ
て１の音声区間のみ設定するようにしてもよい。

【００７９】上記実施の形態では、音声区間は、入力音
声の音声パワーと、切出し用しきい値とに基づいて設定
されているが、音声パワー以外の音声区間判定用のパラ
メータと、そのパラメータに応じたしきい値とに基づい
て音声区間を設定してもよい。音声区間判定用のパラメ
ータとしては、音声パワー以外に、パワーの傾き、広域
パワー、低域パワー等がある。

【００８０】また、各音声区間ごとの音声パターンをそ
れぞれ作成するための、音声区間の特徴としては、音声
スペクトルの他、音声スペクトルの傾き、音声パワー等
を用いてもよい。

【００８１】

【発明の効果】この発明によれば、ニューラルネットワ
ークを用いて認識処理を行なう場合に、認識精度の向上
が図れる。

【図面の簡単な説明】

【図１】音声認識装置の構成を示すブロック図である。

【図２】図１のニューラルネットワーク演算部に設けら
れているニューラルネットワークの構造を示す模式図で
ある。

【図３】ニューラルネットワークの学習方法を説明する
ためのフローチャートである。

【図４】ニューラルネットワークの学習用基準音声パタ
ーンと、学習用追加音声パターンとを作成する方法を説
明するためのタイムチャートである。

【図５】ニューラルネットワークの他の学習用追加音声
パターンを作成する方法を説明するためのタイムチャー
トである。

【図６】図１の音声認識装置において、複数の切出し用
しきい値に基づいて複数の音声区間が設定されることを
示すタイムチャートである。

【図７】従来の音声認識装置の構成を示すブロック図で
ある。

【図８】図７の音声認識装置において、１つの切出し用
しきい値に基づいて１つの音声区間が設定されることを
示すタイムチャートである。

【符号の説明】

１音声分析部２音声区間検出部３音声パターン作成部４ニューラルネットワーク演算部５認識結果記憶部６認識結果判定部２１音声検出部２２音声区間切出し部２３切出し位置記憶部

フロントページの続き (56)参考文献特開平２−170265（ＪＰ，Ａ) 特開平５−165801（ＪＰ，Ａ) 特開平３−116099（ＪＰ，Ａ) 特開平５−334276（ＪＰ，Ａ) 特開平５−342188（ＪＰ，Ａ) 特開平６−289899（ＪＰ，Ａ) 特開平５−250347（ＪＰ，Ａ) 特開平６−274197（ＪＰ，Ａ) 特開昭59−174900（ＪＰ，Ａ) 特開平８−146996（ＪＰ，Ａ) 特開平８−146986（ＪＰ，Ａ) 特許2543603（ＪＰ，Ｂ２) 村尾、大倉、大西、飯田，ニューラルネットによる、音声切り出し誤りを考慮した不特定話者単語音声認識についての検討，日本音響学会1995年春季研究発表会講演論文集，日本，1995年３月，１− ５−６，11−12 村尾、大倉、飯田，音声切り出し誤りを考慮したニューラルネットの耐雑音性能評価，日本音響学会1995年秋季研究発表会講演論文集，日本，1995年９月，３ −２−４，113−114 山田、田中，教師信号と出力との差が増大する学習方式，1991年電子情報通信学会秋季大会講演論文集，日本，社団法人電子情報通信学会，1991年９月５日, 分冊６、Ｄ−12，６−12 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/16 G06F 15/18 520 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】複数の学習用入力パターンとそれに対す
る教師データとを用いてニューラルネットワークを学習
させた後、学習の妨げになる学習用入力パターンを選択
し、選択された学習用入力パターンについてはそれらに
対する教師データを変更し、選択されなかった学習用入
力パターンについてはそれに対する本来の教師データを
用いて、追加学習を行なうニューラルネットワークの学
習方法。
【請求項２】学習の妨げになる学習用入力パターン
は、学習後のニューラルネットワークに学習用入力パタ
ーンを入力することによって得られる出力と、当該学習
用入力パターンに対する本来の教師データとの誤差に基
づいて、選択される請求項１に記載のニューラルネット
ワークの学習方法。
【請求項３】追加学習においては、選択された学習の
妨げになる学習用入力パターンについてはそれらに対す
る教師データが反教師データに変更される請求項１およ
び２のいずれかに記載のニューラルネットワークの学習
方法。
【請求項４】入力音声に対して音声区間を設定する音
声区間設定手段、音声区間の特徴に基づいて、音声区間
の音声パターンを作成する音声パターン作成手段、およ
び音声パターンが入力されるニューラルネットワークを
有しかつニューラルネットワークの出力に基づいて入力
音声を認識する音声認識手段を備えており、各認識対象音声ごとに、好適な音声区間に基づく学習用
基準音声パターンと、好適な音声区間とは異なる音声区
間に基づく学習用追加音声パターンとが作成され、各学
習用基準音声パターンと各学習用追加音声パターンとを
それぞれ入力パターンとし、各入力パターンに対応する
音声を表す音声識別データを教師データとして、ニュー
ラルネットワークが初期学習され、学習用追加音声パタ
ーンのうち、初期学習済のニューラルネットワークにそ
れが入力されて音声認識が行なわれた結果、認識誤差が
所定値より大きいものが学習の妨げになる学習用追加音
声パターンとして選択され、選択された学習用追加音声
パターン以外の学習用追加音声パターンと学習用基準音
声パターンとについては、それぞれの音声パターンを入
力パターンとし、各入力パターンに対応する音声を表す
音声識別データを教師データとして用い、選択された学
習用追加音声パターンについては、その音声パターンを
入力パターンとし、教師データとして反教師データを用
いて、ニューラルネットワークが追加学習されている音
声認識装置。
【請求項５】入力音声に対して複数の音声区間を設定
する音声区間設定手段、各音声区間の特徴に基づいて、
各音声区間ごとの音声パターンをそれぞれ作成する音声
パターン作成手段、および各音声区間ごとの音声パター
ンがそれぞれ入力されるニューラルネットワークを有し
かつ各音声区間ごとの音声パターンに対するニューラル
ネットワークの出力に基づいて入力音声を認識する音声
認識手段を備えており、各認識対象音声ごとに、好適な音声区間に基づく学習用
基準音声パターンと、好適な音声区間とは異なる音声区
間に基づく学習用追加音声パターンとが作成され、各学
習用基準音声パターンと各学習用追加音声パターンとを
それぞれ入力パターンとし、各入力パターンに対応する
音声を表す音声識別データを教師データとして、ニュー
ラルネットワークが初期学習され、学習用追加音声パタ
ーンのうち、初期学習済のニューラルネットワークにそ
れが入力されて音声認識が行なわれた結果、認識誤差が
所定値より大きいものが学習の妨げになる学習用追加音
声パターンとして選択され、選択された学習用追加音声
パターン以外の学習用追加音声パターンと学習用基準音
声パターンとについては、それぞれの音声パターンを入
力パターンとし、各入力パターンに対応する音声を表す
音声識別データを教師データとして用い、選択された学
習用追加音声パターンについては、その音声パターンを
入力パターンとし、教師データとして反教師データを用
いて、ニューラルネットワークが追加学習されている音
声認識装置。
【請求項６】音声区間の特徴が音声スペクトルである
請求項４および５のいずれかに記載の音声認識装置。