JP3322491B2

JP3322491B2 - 音声認識装置

Info

Publication number: JP3322491B2
Application number: JP29172594A
Authority: JP
Inventors: 浩也村尾
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 1994-11-25
Filing date: 1994-11-25
Publication date: 2002-09-09
Anticipated expiration: 2017-09-09
Also published as: JPH08146996A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、音声によりデータを
入力するための音声認識装置に関し、たとえば、録画番
組の予約が音声入力によって行われる録画装置等に利用
される音声認識装置に関する。

【０００２】

【従来の技術】図６は、従来の音声認識装置の構成を示
している。

【０００３】音声分析部１０１は、入力音声の音声パワ
ー信号と、入力音声に対する音声スペクトルとを生成す
る。入力音声の音声パワー信号は、音声区間検出部１０
２に送られる。入力音声に対する音声スペクトルは、音
声パターン作成部１０３に送られる。

【０００４】音声区間検出部１０２は、音声検出部１１
１および音声区間切出し部１１２とを備えている。音声
検出部１１１は、図７に示すように、音声検出用しきい
値αを用いて、音声パワー信号中の音声部分を検出す
る。

【０００５】音声区間切出し部１１２は、図７に示すよ
うに、切出し用しきい値βを用いて、音声認識に有効な
音声区間Ｌを求める。切出し用しきい値βは、音声検出
部１１１によって検出された音声部分より所定時間前の
雑音パワーに基づいて決定される。

【０００６】音声パターン作成部１０３は、音声区間切
出し部１１２によって求められた音声区間Ｌに対する音
声スペクトルに基づいて、音声パターンを作成する。作
成された音声パターンは、学習済のニューラルネットワ
ーク１０４に入力される。

【０００７】このニューラルネットワーク１０４の学習
は、次のように行なわれる。まず、各認識対象音声に対
する標準音声パターンを、予め収集した音声を用いてそ
れぞれ求める。そして、各標準音声パターンを入力パタ
ーンとし、各入力パターンに対応する音声を表す音声識
別データを教師データとして、ニューラルネットワーク
１０４を学習させる。

【０００８】学習済のニューラルネットワーク１０４
に、音声パターンが入力されることにより、入力された
音声パターンに対応する出力パターンが得られる。この
出力パターンは、認識結果判定部１０５に送られる。認
識結果判定部１０５は、送られてきた出力パターンに基
づいて当該音声検出部分の音声を認識し、その認識結果
を出力する。

【０００９】

【発明が解決しようとする課題】このような音声認識装
置では、音声認識に有効な音声区間を設定するための切
出し用しきい値βは１つであるため、雑音が音声区間に
含まれることによって誤認識が発生したり、音声パワー
の小さい語尾等が音声区間から脱落することによって誤
認識が発生したりする可能性が高い。

【００１０】そこで、本出願人は、次のような音声認識
方法を開発した。つまり、図５に示すように、複数のし
きい値β１、β２、β３およびβ４を用いて、複数の音
声区間Ｌ１、Ｌ２、Ｌ３およびＬ４を設定する。各音声
区間Ｌ１〜Ｌ４それぞれに対して、音声パターンを作成
する。ニューラルネットワークに各音声パターンを入力
して、各音声パターンごとに出力パターンを得る。そし
て、得られたこれらの複数の出力パターンに基づいて、
音声を認識する。

【００１１】各認識対象音声を表す音声識別データは、
ニューラルネットワークの出力層の各ユニットに対応し
た数のデータから構成されているものとする。そして、
その１つのみが”１”で他が全て”０”のデータで構成
され、データ”１”の位置が各音声識別データごとに異
なっているものとする。

【００１２】このような音声認識方法では、図５の各音
声区間Ｌ１〜Ｌ２の認識結果は、たとえば、次のように
なることがある。すなわち、音声区間Ｌ１での認識結果
は”しち”で、出力最大値（ニューラルネットワークの
出力層のユニットの出力のうちの最大値）が０．９０で
ある。音声区間Ｌ２での認識結果は”に”で、出力最大
値が０．８５である。音声区間Ｌ３での認識結果は”
に”で、出力最大値が０．９１である。音声区間Ｌ４で
の認識結果は”に”で、出力最大値が０．８８である。

【００１３】このような場合には、最終認識結果として
は、出力最大値が”１”に最も近い音声区間Ｌ３での認
識結果”に”が、入力音声の認識結果として選択され、
本来”しち”と認識されるべきところが、”に”と誤認
識されてしまう。

【００１４】この発明は、認識精度の向上が図れる音声
認識装置を提供することを目的とする。

【００１５】

【課題を解決するための手段】この発明による第１の音
声認識装置は、入力音声に対して音声区間を設定する音
声区間設定手段、音声区間の特徴に基づいて、音声区間
の音声パターンを作成する音声パターン作成手段、およ
び音声パターンが入力されるニューラルネットワークを
有しかつニューラルネットワークの出力に基づいて入力
音声を認識する音声認識手段を備えており、各認識対象
音声ごとに、好適な音声区間に基づく初期学習用標準音
声パターンと、好適な音声区間とは異なる音声区間に基
づく追加学習用標準音声パターンとが作成され、初期学
習用標準音声パターンを入力パターンとし、各入力パタ
ーンに対応する音声を表す音声識別データを教師データ
として、ニューラルネットワークが初期学習され、追加
学習用標準音声パターンのうち、初期学習済のニューラ
ルネットワークにそれが入力されて音声認識が行なわれ
たときに、誤認識が生じたものを入力パターンとし、反
教師データを用いてニューラルネットワークが追加学習
されていることを特徴とする。上記音声区間の特徴とし
ては、たとえば、音声スペクトルが挙げられる。

【００１６】反教師データは、各音声識別データがニュ
ーラルネットワークの出力層の各ユニットに対応した数
のデータから構成されており、その１つのみが”１”で
他が全て”０”のデータで構成され、データ”１”の位
置が各音声識別データごとに異なっている場合には、全
て”０”のデータから構成される。

【００１７】各音声識別データがニューラルネットワー
クの出力層の各ユニットに対応した数のデータから構成
されており、その１つのみが”０”で他が全て”１”の
データで構成され、データ”０”の位置が各音声識別デ
ータごとに異なっている場合には、反教師データは、全
て”１”のデータから構成される。

【００１８】この発明による第２の音声認識装置は、入
力音声に対して複数の音声区間を設定する音声区間設定
手段、各音声区間の特徴に基づいて、各音声区間ごとの
音声パターンをそれぞれ作成する音声パターン作成手
段、および各音声区間ごとの音声パターンがそれぞれ入
力されるニューラルネットワークを有しかつ各音声区間
ごとの音声パターンに対するニューラルネットワークの
出力に基づいて入力音声を認識する音声認識手段を備え
ており、各認識対象音声ごとに、好適な音声区間に基づ
く初期学習用標準音声パターンと、好適な音声区間とは
異なる音声区間に基づく追加学習用標準音声パターンと
が作成され、初期学習用標準音声パターンを入力パター
ンとし、各入力パターンに対応する音声を表す音声識別
データを教師データとして、ニューラルネットワークが
初期学習され、追加学習用標準音声パターンのうち、初
期学習済のニューラルネットワークにそれが入力されて
音声認識が行なわれたときに、誤認識が生じたものを入
力パターンとし、反教師データを用いてニューラルネッ
トワークが追加学習されていることを特徴とする。上記
音声区間の特徴としては、たとえば、音声スペクトルが
挙げられる。

【００１９】

【作用】この発明による第１の音声認識装置では、入力
音声に対して、音声区間が設定される。音声区間の特徴
に基づいて、音声区間の音声パターンが作成される。音
声パターンがニューラルネットワークに入力される。そ
して、ニューラルネットワークの出力に基づいて入力音
声が認識される。

【００２０】この発明による第２の音声認識装置では、
入力音声に対して、複数の音声区間が設定される。各音
声区間の特徴に基づいて、各音声区間ごとの音声パター
ンがそれぞれ作成される。各音声区間ごとの音声パター
ンがニューラルネットワークにそれぞれ入力される。各
音声区間ごとの音声パターンに対するニューラルネット
ワークの出力に基づいて入力音声が認識される。

【００２１】この発明による第１または第２の音声認識
装置のニューラルネットワークの学習は、次のように行
なわれている。

【００２２】つまり、各認識対象音声ごとに、好適な音
声区間に基づく初期学習用標準音声パターンと、好適な
音声区間とは異なる音声区間に基づく追加学習用標準音
声パターンとが作成され、初期学習用標準音声パターン
を入力パターンとし、各入力パターンに対応する音声を
表す音声識別データを教師データとして、ニューラルネ
ットワークが初期学習される。

【００２３】また、追加学習用標準音声パターンのう
ち、初期学習済のニューラルネットワークにそれが入力
されて音声認識が行なわれたときに、誤認識が生じたも
のを入力パターンとし、反教師データを用いてニューラ
ルネットワークが追加学習される。

【００２４】

【実施例】以下、図１〜図５を参照して、この発明の実
施例について説明する。

【００２５】図１は、音声認識装置の構成を示してい
る。

【００２６】音声認識装置は、音声分析部１、音声区間
検出部２、音声パターン作成部３、ニューラルネットワ
ーク演算部４、認識結果記憶部５および認識結果判定部
６を備えている。音声区間検出部２は、音声検出部２
１、音声区間切出し部２２および切出し位置記憶部２３
を備えている。

【００２７】図２は、ニューラルネットワーク演算部４
に設けられているニューラルネットワークの構造の一例
を示している。

【００２８】このニューラルネットワークは、入力層４
１、中間層４２および出力層４３からなる。入力層４１
は、たとえば、１２８個（１６channel ×８frame ) の
入力ユニットから構成されている。中間層４２は、入力
層４１の各入力ユニットと相互に結合された、たとえ
ば、５０個の中間ユニットから構成されている。出力層
４３は、中間層４２の各中間ユニットと相互に結合され
た、たとえば、２０個の出力ユニットから構成されてい
る。

【００２９】ここでは、認識対象音声は２０個あるもの
とする。各認識対象音声を表す音声識別データは、出力
ユニットに対応した２０個のデータからなり、その１つ
のみが”１”で他が全て”０”のデータで構成されてい
るものとする。そして、データ”１”の位置が、各音声
識別データごとに異なっている。

【００３０】図３は、ニューラルネットワークの学習方
法を示している。各認識対象音声ごとに、初期学習用標
準音声パターンと追加学習用標準音声パターンとが作成
される（ステップ１）。

【００３１】つまり、たとえば、図４に示すように、所
定の音声、たとえば「しち」の標準音声信号に対する音
声パワー信号を生成する。そして、好適なしきい値δ１
を用いて、音声区間Ｒ１を設定する。また、他の１また
は複数のしきい値δ２、δ３…δｎ（この例では、δ
２、δ３、δ４）を用いて、音声区間Ｒ２、Ｒ３…Ｒｎ
（この例では、Ｒ２、Ｒ３、Ｒ４）を設定する。

【００３２】そして、各音声区間Ｒ１〜Ｒｎに対する標
準音声パターンが作成される。音声区間Ｒ１に対する標
準音声パターンが初期学習用標準音声パターンであり、
音声区間Ｒ２〜Ｒｎに対する標準音声パターンが追加学
習用標準音声パターンである。各標準音声パターンとし
ては、対応する音声区間を８等分した各区間それぞれの
平均スペクトルが用いられている。また、各区間の音声
スペクトルは、予め定められた１６の周波数帯域に対す
る音声スペクトルから構成されている。

【００３３】このようにして、全ての認識対象音声に対
する初期学習用標準音声パターンおよび追加学習用標準
音声パターンとが作成されると、初期学習が行なわれる
（ステップ２）。

【００３４】つまり、各認識対象音声に対する初期学習
用標準音声パターンを入力パターンとし、各入力パター
ンに対応する音声を表す音声識別データを教師データと
して、バックプロパゲーション法により、ニューラルネ
ットワークを学習させる。

【００３５】次に、追加学習用の入力パターンの選択処
理が行なわれる（ステップ３）。

【００３６】つまり、各認識対象音声に対する追加学習
用標準音声パターンを、初期学習済のニューラルネット
ワークに順次入力し、その出力に基づいて音声認識結果
を得る。追加学習用標準音声パターンのうち、誤認識が
発生したものを、追加学習用の入力パターンとして選択
する。

【００３７】たとえば、図４に示す音声区間Ｒ２、Ｒ３
およびＲ４に対する追加学習用標準音声パターンを初期
学習済のニューラルネットワークに順次入力して音声認
識を行なった場合に、各追加学習用標準音声パターンに
対して本来”しち”と認識されるべきところが、”に”
と誤認識されたとする。このような場合には、音声区間
Ｒ２、Ｒ３およびＲ４に対する追加学習用標準音声パタ
ーンは、追加学習用の入力パターンとして選択される。

【００３８】次に、追加学習が行なわれる（ステップ
４）。

【００３９】つまり、ステップ３で追加学習用の入力パ
ターンとして選択された各追加学習用標準音声パターン
と、ステップ１で作成された初期学習用標準音声パター
ンとを入力パターンとして、初期学習済のニューラルネ
ットワークを追加学習させる。この際、各追加学習用標
準音声パターンに対する教師データとしては、全て０の
データを用いる。また、初期学習用標準音声パターンに
対する教師データとしては、各初期学習用標準音声パタ
ーンに対応する音声を表す音声識別データが用いられ
る。

【００４０】図４を例にとると、音声区間Ｒ２、Ｒ３、
Ｒ４に対する追加学習用標準音声パターンが入力パター
ンとされ、全て０の教師データを用いて、追加学習が行
なわれる。

【００４１】図１の音声認識装置の動作について説明す
る。

【００４２】音声分析部１は、入力音声の音声パワー信
号と、入力音声に対する音声スペクトルとを生成する。
入力音声の音声パワー信号は、音声区間検出部２に送ら
れる。入力音声に対する音声スペクトルは、音声パター
ン作成部３に送られる。

【００４３】音声検出部２１は、図５に示すように、音
声検出用しきい値αを用いて、入力された音声パワー信
号中の音声部分を検出する。

【００４４】音声区間切出し部２２は、図５に示すよう
に、複数の切出し用しきい値β１、β２、β３、β４を
用いて、複数の音声区間を設定する。この例では、第１
から第４の音声区間Ｌ１、Ｌ２、Ｌ３、Ｌ４を設定す
る。そして、設定した各音声区間Ｌ１〜Ｌ４の開始点と
終了点とを、各音声区間Ｌ１〜Ｌ４に対応させて、切出
し位置記憶部２３に格納する。

【００４５】各切出し用しきい値β１、β２、β３、β
４は、たとえば、次のようにして設定される。まず、最
小の切出し用しきい値β１が、音声検出部２１によって
検出された音声部分の開始位置より所定時間前の雑音パ
ワーに基づいて決定される。そして、決定された最小の
切出し用しきい値β１に、定数γが加算されることによ
りしきい値β２が求められ、しきい値β２に定数γが加
算されることによりしきい値β３が求められ、しきい値
β３に定数γが加算されることによりしきい値β４が求
められる。

【００４６】音声パターン作成部３は、音声区間切出し
部２２によって求められた各音声区間Ｌ１〜Ｌ４に対す
る音声スペクトルに基づいて、各音声区間Ｌ１〜Ｌ４ご
とに音声パターンを作成して、ニューラルネットワーク
演算部４に入力させる。

【００４７】つまり、切出し位置記憶部２３に格納され
ている第１の音声区間Ｌ１の開始点と終了点とに基づい
て、当該音声区間Ｌ１に対する音声パターン（Ｐ１）を
作成する。この音声パターンとしては、当該音声区間を
８等分した各区間それぞれの平均スペクトルが用いられ
ている。そして、各区間の音声スペクトルパターンは、
予め定められた１６の周波数帯域に対する音声スペクト
ルから構成されている。作成された第１の音声パターン
（Ｐ１）は、学習済のニューラルネットワークに入力さ
れる。

【００４８】学習済のニューラルネットワークに、第１
の音声パターン（Ｐ１）が入力されることにより、第１
の音声パターン（Ｐ１）に対応する出力パターンが得ら
れる。そして、得られた出力パターンに基づいて、認識
結果と出力最大値（２０個の出力のうちの最大値）と
が、第１認識結果として認識結果記憶部５に記憶され
る。

【００４９】次に、切出し位置記憶部１３に格納されて
いる第２の音声区間Ｌ２の開始点と終了点とに基づい
て、当該音声区間Ｌ２に対する音声パターン（Ｐ２）が
作成され、作成された第２の音声パターン（Ｐ２）が学
習済のニューラルネットワークに入力される。これによ
り、第２の音声パターン（Ｐ２）に対応する出力パター
ンが得られる。得られた出力パターンに基づいて、認識
結果と出力最大値が、第２認識結果として認識結果記憶
部５に記憶される。

【００５０】次に、第３の音声区間Ｌ３の開始点と終了
点とに基づいて、当該音声区間Ｌ３に対する音声パター
ン（Ｐ３）が作成されて、学習済のニューラルネットワ
ークに入力される。これにより、第３の音声パターン
（Ｐ３）に対応する出力パターンが得られる。得られた
出力パターンに基づいて、認識結果と出力最大値が、第
３認識結果として認識結果記憶部５に記憶される。

【００５１】次に、第４の音声区間Ｌ４の開始点と終了
点とに基づいて、当該音声区間Ｌ４に対する音声パター
ン（Ｐ４）が作成されて、学習済のニューラルネットワ
ークに入力される。これにより、第４の音声パターン
（Ｐ４）に対応する出力パターンが得られる。得られた
出力パターンに基づいて、認識結果と出力最大値が、第
４認識結果として認識結果記憶部５に記憶される。

【００５２】このようにして、第１〜第４の音声パター
ン（Ｐ１〜Ｐ４）に対する第１〜第４の認識結果が得ら
れると、認識結果判定部６は、出力パターン記憶部５に
記憶されている第１〜第４の認識結果のうち、出力最大
値が”１”に最も近い音声認識結果を、当該検出音声部
分の音声認識結果として選択して出力する。つまり、音
声識別データ（教師データ）に類似度が最も高い出力パ
ターンに基づいて、入力音声が認識される。

【００５３】上記実施例では、１つの音声検出部分に対
して、複数の切出し用しきい値β１〜β４によって得ら
れた複数の音声区間Ｌ１〜Ｌ４が設定されている。そし
て、各音声区間ごとの音声パターンに基づいて、当該音
声検出部分の音声が認識されているので、雑音が音声区
間に含まれることによって誤認識が発生したり、音声パ
ワーの小さい語尾等が音声区間から脱落することによっ
て誤認識が発生したりするといったことが防止される。
この結果、音声認識精度が向上する。

【００５４】また、上記実施例では、各認識対象音声に
対して、複数のしきい値によって標準音声パターンを作
成し、それらの標準音声パターンのうち、他の音声と誤
認識される可能性のあるものについては、それらを入力
パターンとし、全て０の教師データを用いて、初期学習
済のニューラルネットワークが追加学習されている。こ
のため、音声パターンが初期学習用標準音声パターンに
近いときのみ、ニューラルネットワークから高感度の出
力パターンが得られる。この結果、認識精度が向上す
る。

【００５５】上記実施例では、入力音声に対して複数の
しきい値β１〜β４によって複数の音声区間が設定され
ているが、入力音声に対して１つのしきい値によって１
の音声区間のみ設定するようにしてもよい。

【００５６】上記実施例では、音声区間は、入力音声の
音声パワーと、切出し用しきい値とに基づいて設定され
ているが、音声パワー以外の音声区間判定用のパラメー
タと、そのパラメータに応じたしきい値とに基づいて音
声区間を設定してもよい。音声区間判定用のパラメータ
としては、音声パワー以外に、パワーの傾き、広域パワ
ー、低域パワー等がある。

【００５７】また、各音声区間ごとの音声パターンをそ
れぞれ作成するための、音声区間の特徴としては、音声
スペクトルの他、音声スペクトルの傾き、音声パワー等
を用いてもよい。

【００５８】

【発明の効果】この発明によれば、認識精度の向上が図
れる。

【図面の簡単な説明】

【図１】音声認識装置の構成を示すブロック図である。

【図２】図１のニューラルネットワーク演算部に設けら
れているニューラルネットワークの構造を示す模式図で
ある。

【図３】ニューラルネットワークの学習方法を説明する
ためのフローチャートである。

【図４】ニューラルネットワークの初期学習用標準音声
パターンと、追加学習用標準音声パターンとを作成する
方法を説明するためのタイムチャートである。

【図５】図１の音声認識装置において、複数の切出し用
しきい値に基づいて複数の音声区間が設定されることを
示すタイムチャートである。

【図６】従来の音声認識装置の構成を示すブロック図で
ある。

【図７】図６の音声認識装置において、１つの切出し用
しきい値に基づいて１つの音声区間が設定されることを
示すタイムチャートである。

【符号の説明】

１音声分析部２音声区間検出部３音声パターン作成部４ニューラルネットワーク演算部５認識結果記憶部６認識結果判定部２１音声検出部２２音声区間切出し部２３切出し位置記憶部

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平２−170265（ＪＰ，Ａ) 特開平５−165801（ＪＰ，Ａ) 特開平３−116099（ＪＰ，Ａ) 特開平５−334276（ＪＰ，Ａ) 特開平５−342188（ＪＰ，Ａ) 特開平６−289899（ＪＰ，Ａ) 特開平５−250347（ＪＰ，Ａ) 特開平６−274197（ＪＰ，Ａ) 特開昭59−174900（ＪＰ，Ａ) 特開平８−146986（ＪＰ，Ａ) 特許2543603（ＪＰ，Ｂ２) 村尾、大倉、大西、飯田，ニューラルネットによる、音声切り出し誤りを考慮した不特定話者認識についての検討，日本音響学会1995年春季研究発表会講演論文集，日本，1995年３月，１−５− ６，11−12 村尾、大倉、飯田，音声切り出し誤りを考慮したニューラルネットの耐雑音性能評価，日本音響学会1995年秋季研究発表会講演論文集，日本，1995年９月, ３−２−４，1130−114 山田、田中，教師信号と出力との差が増大する学習方式，1991年電子情報通信学会秋季大会講演論文集，日本，社団法人電子情報通信学会，1991年９月５日，分冊６，６−12 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/16 G06F 15/18 520 G06F 15/18 560 G10L 11/02 G10L 15/04 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】入力音声に対して音声区間を設定する音
声区間設定手段、音声区間の特徴に基づいて、音声区間
の音声パターンを作成する音声パターン作成手段、およ
び音声パターンが入力されるニューラルネットワークを
有しかつニューラルネットワークの出力に基づいて入力
音声を認識する音声認識手段を備えており、各認識対象音声ごとに、好適な音声区間に基づく初期学
習用標準音声パターンと、好適な音声区間とは異なる音
声区間に基づく追加学習用標準音声パターンとが作成さ
れ、初期学習用標準音声パターンを入力パターンとし、
各入力パターンに対応する音声を表す音声識別データを
教師データとして、ニューラルネットワークが初期学習
され、追加学習用標準音声パターンのうち、初期学習済
のニューラルネットワークにそれが入力されて音声認識
が行なわれたときに、誤認識が生じたものを入力パター
ンとし、反教師データを用いてニューラルネットワーク
が追加学習されている音声認識装置。
【請求項２】入力音声に対して複数の音声区間を設定
する音声区間設定手段、各音声区間の特徴に基づいて、
各音声区間ごとの音声パターンをそれぞれ作成する音声
パターン作成手段、および各音声区間ごとの音声パター
ンがそれぞれ入力されるニューラルネットワークを有し
かつ各音声区間ごとの音声パターンに対するニューラル
ネットワークの出力に基づいて入力音声を認識する音声
認識手段を備えており、各認識対象音声ごとに、好適な音声区間に基づく初期学
習用標準音声パターンと、好適な音声区間とは異なる音
声区間に基づく追加学習用標準音声パターンとが作成さ
れ、初期学習用標準音声パターンを入力パターンとし、
各入力パターンに対応する音声を表す音声識別データを
教師データとして、ニューラルネットワークが初期学習
され、追加学習用標準音声パターンのうち、初期学習済
のニューラルネットワークにそれが入力されて音声認識
が行なわれたときに、誤認識が生じたものを入力パター
ンとし、反教師データを用いてニューラルネットワーク
が追加学習されている音声認識装置。
【請求項３】音声区間の特徴が音声スペクトルである
請求項１および２のいずれかに記載の音声認識装置。