JPH08146986A

JPH08146986A - 音声認識装置

Info

Publication number: JPH08146986A
Application number: JP6291726A
Authority: JP
Inventors: Hiroya Murao; 浩也村尾
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 1994-11-25
Filing date: 1994-11-25
Publication date: 1996-06-07
Anticipated expiration: 2018-12-08
Also published as: JP3474949B2

Abstract

(57)【要約】【目的】この発明は、認識精度の向上が図れる音声認
識装置を提供することを目的とする。【構成】入力音声から得られる音声区間判定用のパラ
メータと、音声区間判定用の複数のしきい値とに基づい
て、複数の音声区間を設定する音声区間設定手段２、各
音声区間の特徴に基づいて、各音声区間ごとの音声パタ
ーンをそれぞれ作成する音声パターン作成手段３、およ
び各音声区間ごとの音声パターンに基づいて、入力音声
を認識する音声認識手段４、５、６を備えている。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、音声によりデータを
入力するための音声認識装置に関し、たとえば、録画番
組の予約が音声入力によって行われる録画装置等に利用
される音声認識装置に関する。

【０００２】

【従来の技術】図４は、従来の音声認識装置の構成を示
している。

【０００３】音声分析部１０１は、入力音声の音声パワ
ー信号と、入力音声に対する音声スペクトルとを生成す
る。入力音声の音声パワー信号は、音声区間検出部１０
２に送られる。入力音声に対する音声スペクトルは、音
声パターン作成部１０３に送られる。

【０００４】音声区間検出部１０２は、音声検出部１１
１および音声区間切出し部１１２とを備えている。音声
検出部１１１は、図５に示すように、音声検出用しきい
値αを用いて、音声パワー信号中の音声部分を検出す
る。

【０００５】音声区間切出し部１１２は、図５に示すよ
うに、切出し用しきい値βを用いて、音声認識に有効な
音声区間Ｌを求める。切出し用しきい値βは、音声検出
部１１１によって検出された音声部分より所定時間前の
雑音パワーに基づいて決定される。

【０００６】音声パターン作成部１０３は、音声区間切
出し部１１２によって求められた音声区間Ｌに対する音
声スペクトルに基づいて、音声パターンを作成する。作
成された音声パターンは、学習済のニューラルネットワ
ーク１０４に入力される。

【０００７】このニューラルネットワーク１０４の学習
は、次のように行なわれる。まず、各認識対象音声に対
する標準音声パターンを、予め収集した音声を用いてそ
れぞれ求める。そして、各標準音声パターンを入力パタ
ーンとし、各入力パターンに対応する音声を表す音声識
別データを教師データとして、ニューラルネットワーク
１０４を学習させる。

【０００８】学習済のニューラルネットワーク１０４
に、音声パターンが入力されることにより、入力された
音声パターンに対応する出力パターンが得られる。この
出力パターンは、認識結果判定部１０５に送られる。認
識結果判定部１０５は、送られてきた出力パターンに基
づいて当該音声検出部分の音声を認識し、その認識結果
を出力する。

【０００９】

【発明が解決しようとする課題】このような音声認識装
置では、音声認識に有効な音声区間を設定するための切
出し用しきい値βは１つであるため、雑音が音声区間に
含まれてしまうことによって誤認識が発生したり、音声
パワーの小さい語尾等が音声区間から脱落してしまうこ
とによって誤認識が発生したりする可能性が高い。図５
の例では、本来「しち」と認識すべきところが、「し」
と誤認識されてしまう。

【００１０】この発明は、認識精度の向上が図れる音声
認識装置を提供することを目的とする。

【００１１】

【課題を解決するための手段】この発明による第１の音
声認識装置は、入力音声から得られる音声区間判定用の
パラメータと、音声区間判定用の複数のしきい値とに基
づいて、複数の音声区間を設定する音声区間設定手段、
各音声区間の特徴に基づいて、各音声区間ごとの音声パ
ターンをそれぞれ作成する音声パターン作成手段、およ
び各音声区間ごとの音声パターンに基づいて、入力音声
を認識する音声認識手段を備えていることを特徴とす
る。

【００１２】入力音声から得られる音声区間判定用のパ
ラメータとしては、たとえば、音声パワーが挙げられ
る。また、各音声区間の特徴としては、たとえば、音声
スペクトルが挙げられる。

【００１３】この発明による第２の音声認識装置は、入
力音声の音声パワーと、音声区間判定用の複数のパワー
しきい値とに基づいて、複数の音声区間を設定する音声
区間設定手段、各音声区間の音声スペクトルに基づい
て、各音声区間ごとの音声パターンをそれぞれ作成する
音声パターン作成手段、および各音声区間ごとの音声パ
ターンに基づいて、入力音声を認識する音声認識手段を
備えていることを特徴とする。

【００１４】上記各パワーしきい値は、たとえば、入力
音声の音声検出部分より所定時間前の雑音パワーに基づ
いて決定される。

【００１５】この発明による第１または第２の音声認識
装置に用いられている音声認識手段としては、各認識対
象音声に対する標準音声パターンを入力パターンとし、
各入力パターンに対応する音声を表す音声識別データを
教師データとして、学習が行なわれたニューラルネット
ワーク、上記各音声区間ごとの音声パターンを上記ニュ
ーラルネットワークにそれぞれ入力して、上記各音声区
間ごとの音声パターンに対する出力パターンを求める手
段、および求められた全ての出力パターンのうち、教師
データとの類似度が最も高い出力パターンに基づいて、
入力音声を認識する手段を備えているものが用いられ
る。

【００１６】

【作用】この発明による第１の音声認識装置では、入力
音声から得られる音声区間判定用のパラメータと、音声
区間判定用の複数のしきい値とに基づいて、複数の音声
区間が設定される。各音声区間の特徴に基づいて、各音
声区間ごとの音声パターンがそれぞれ作成される。そし
て、各音声区間ごとの音声パターンに基づいて、入力音
声が認識される。

【００１７】この発明による第２の音声認識装置では、
入力音声の音声パワーと、音声区間判定用の複数のパワ
ーしきい値とに基づいて、複数の音声区間が設定され
る。各音声区間の音声スペクトルに基づいて、各音声区
間ごとの音声パターンがそれぞれ作成される。そして、
各音声区間ごとの音声パターンに基づいて、入力音声が
認識される。

【００１８】

【実施例】以下、図１〜図４を参照して、この発明の実
施例について説明する。

【００１９】図１は、音声認識装置の構成を示してい
る。

【００２０】音声認識装置は、音声分析部１、音声区間
検出部２、音声パターン作成部３、ニューラルネットワ
ーク演算部４、認識結果記憶部５および認識結果判定部
６を備えている。音声区間検出部２は、音声検出部２
１、音声区間切出し部２２および切出し位置記憶部２３
を備えている。

【００２１】図２は、ニューラルネットワーク演算部４
に設けられているニューラルネットワークの構造の一例
を示している。

【００２２】このニューラルネットワークは、入力層４
１、中間層４２および出力層４３からなる。入力層４１
は、たとえば、１２８個（１６channel ×８frame ) の
入力ユニットから構成されている。中間層４２は、入力
層４１の各入力ユニットと相互に結合された、たとえ
ば、５０個の中間ユニットから構成されている。出力層
４３は、中間層４２の各中間ユニットと相互に結合され
た、たとえば、２０個の出力ユニットから構成されてい
る。

【００２３】ここでは、認識対象音声は２０個あるもの
とする。各認識対象音声を表す音声識別データは、各出
力ユニットに対応した２０個のデータからなり、その１
つのみが”１”で他が全て”０”のデータで構成されて
いるものとする。そして、データ”１”の位置が、各音
声識別データごとに異なっている。

【００２４】このニューラルネットワークの学習は、次
のように行なわれる。まず、各認識対象音声に対する標
準音声パターンを、予め収集した音声を用いてそれぞれ
求める。各標準音声パターンとしては、対応する標準音
声信号の音声区間を８等分した各区間それぞれの平均ス
ペクトルが用いられている。また、各区間の音声スペク
トルは、予め定められた１６の周波数帯域に対する音声
スペクトルから構成されている。そして、求められた各
標準音声パターンを入力パターンとし、各入力パターン
に対応する音声を表す音声識別データを教師データとし
て、バックプロパゲーション法により、ニューラルネッ
トワークを学習させる。

【００２５】図１の音声認識装置の動作について説明す
る。

【００２６】音声分析部１は、入力音声の音声パワー信
号と、入力音声に対する音声スペクトルとを生成する。
入力音声の音声パワー信号は、音声区間検出部２に送ら
れる。入力音声に対する音声スペクトルは、音声パター
ン作成部３に送られる。

【００２７】音声検出部２１は、図３に示すように、音
声検出用しきい値αを用いて、入力された音声パワー信
号中の音声部分を検出する。

【００２８】音声区間切出し部２２は、図３に示すよう
に、複数の切出し用しきい値β１、β２、β３、β４を
用いて、複数の音声区間を設定する。この例では、第１
から第４の音声区間Ｌ１、Ｌ２、Ｌ３、Ｌ４を設定す
る。そして、設定した各音声区間Ｌ１〜Ｌ４の開始点と
終了点とを、各音声区間Ｌ１〜Ｌ４に対応させて、切出
し位置記憶部２３に格納する。

【００２９】各切出し用しきい値β１、β２、β３、β
４は、たとえば、次のようにして設定される。まず、最
小の切出し用しきい値β１が、音声検出部２１によって
検出された音声部分（音声検出部分）の開始位置より所
定時間前の雑音パワーに基づいて決定される。そして、
決定された最小の切出し用しきい値β１に、定数γが加
算されることによりしきい値β２が求められ、しきい値
β２に定数γが加算されることによりしきい値β３が求
められ、しきい値β３に定数γが加算されることにより
しきい値β４が求められる。

【００３０】音声パターン作成部３は、音声区間切出し
部２２によって求められた各音声区間Ｌ１〜Ｌ４に対す
る音声スペクトルに基づいて、各音声区間Ｌ１〜Ｌ４ご
とに音声パターンを作成して、ニューラルネットワーク
演算部４に入力させる。

【００３１】つまり、切出し位置記憶部２３に格納され
ている第１の音声区間Ｌ１の開始点と終了点とに基づい
て、当該音声区間Ｌ１に対する音声パターン（Ｐ１）を
作成する。この音声パターンは、当該音声区間を８等分
した各区間それぞれの平均スペクトルが用いられてい
る。そして、各区間の音声スペクトルパターンは、予め
定められた１６の周波数帯域に対する音声スペクトルか
ら構成されている。作成された第１の音声パターン（Ｐ
１）は、学習済のニューラルネットワークに入力され
る。

【００３２】学習済のニューラルネットワークに、第１
の音声パターン（Ｐ１）が入力されることにより、第１
の音声パターン（Ｐ１）に対応する出力パターンが得ら
れる。そして、得られた出力パターンに基づいて、認識
結果と出力最大値（２０個の出力のうちの最大値）と
が、第１認識結果として認識結果記憶部５に記憶され
る。

【００３３】次に、切出し位置記憶部１３に格納されて
いる第２の音声区間Ｌ２の開始点と終了点とに基づい
て、当該音声区間Ｌ２に対する音声パターン（Ｐ２）が
作成され、作成された第２の音声パターン（Ｐ２）が学
習済のニューラルネットワークに入力される。これによ
り、第２の音声パターン（Ｐ２）に対応する出力パター
ンが得られる。そして、得られた出力パターンに基づい
て、認識結果と出力最大値とが、第２認識結果として認
識結果記憶部５に記憶される。

【００３４】次に、第３の音声区間Ｌ３の開始点と終了
点とに基づいて、当該音声区間Ｌ３に対する音声パター
ン（Ｐ３）が作成されて、学習済のニューラルネットワ
ークに入力される。これにより、第３の音声パターン
（Ｐ３）に対応する出力パターンが得られる。そして、
得られた出力パターンに基づいて、認識結果と出力最大
値とが、第３認識結果として認識結果記憶部５に記憶さ
れる。

【００３５】次に、第４の音声区間Ｌ４の開始点と終了
点とに基づいて、当該音声区間Ｌ４に対する音声パター
ン（Ｐ４）が作成されて、学習済のニューラルネットワ
ークに入力される。これにより、第４の音声パターン
（Ｐ４）に対応する出力パターンが得られる。そして、
得られた出力パターンに基づいて、認識結果と出力最大
値とが、第４認識結果として認識結果記憶部５に記憶さ
れる。

【００３６】このようにして、第１〜第４の音声パター
ン（Ｐ１〜Ｐ４）に対する第１〜第４の認識結果が得ら
れると、認識結果判定部６は、認識結果記憶部５に記憶
されている第１〜第４の認識結果のうち、出力最大値
が”１”に最も近い音声認識結果を、当該検出音声部分
の音声認識結果として選択して出力する。つまり、音声
識別データ（教師データ）に類似度が最も高い出力パタ
ーンに基づいて、入力音声が認識される。

【００３７】上記実施例では、１つの音声検出部分に対
して、複数の切出し用しきい値β１〜β４によって得ら
れた複数の音声区間Ｌ１〜Ｌ４が設定されている。そし
て、各音声区間ごとの音声パターンに基づいて、当該音
声検出部分の音声が認識されているので、雑音が音声区
間に含まれてしまうことによって誤認識が発生したり、
音声パワーの小さい語尾等が音声区間から脱落してしま
うことによって誤認識が発生したりするといったことが
防止される。この結果、音声認識精度が向上する。

【００３８】図３の例では、切出し用しきい値β１によ
って設定された第１の音声区間Ｌ１の音声パターンに対
する出力パターンが、音声「しち」を表す音声識別デー
タ（教師データ）に最も近くなるので、当該音声検出部
に対しては「しち」と認識される。

【００３９】上記実施例では、複数の音声区間は、入力
音声の音声パワーと、複数の切出し用しきい値とに基づ
いて設定されているが、音声パワー以外の音声区間判定
用のパラメータと、そのパラメータに応じた複数のしき
い値とに基づいて複数の音声区間を設定してもよい。音
声区間判定用のパラメータとしては、音声パワー以外
に、パワーの傾き、広域パワー、低域パワー等がある。

【００４０】また、各音声区間ごとの音声パターンをそ
れぞれ作成するための、音声区間の特徴としては、音声
スペクトルの他、音声スペクトルの傾き、音声パワー等
を用いてもよい。

【００４１】また、この発明は、入力音声から作成され
た音声パターンと、標準音声パターンとの類似度を、Ｄ
Ｐマッチング法( DTW : dynamic time warping )等によ
って判定する音声認識装置にも適用することができる。

【００４２】

【発明の効果】この発明によれば、認識精度の向上が図
れる。

【図面の簡単な説明】

【図１】音声認識装置の構成を示すブロック図である。

【図２】図１のニューラルネットワーク演算部に用いら
れているニューラルネットワークの構造を示す模式図で
ある。

【図３】図１の音声認識装置において、複数の切出し用
しきい値に基づいて複数の音声区間が設定されることを
示すタイムチャートである。

【図４】従来の音声認識装置の構成を示すブロック図で
ある。

【図５】図４の音声認識装置において、１つの切出し用
しきい値に基づいて１つの音声区間が設定されることを
示すタイムチャートである。

【符号の説明】

１音声分析部２音声区間検出部３音声パターン作成部４ニューラルネットワーク演算部５認識結果記憶部６認識結果判定部２１音声検出部２２音声区間切出し部２３切出し位置記憶部

Claims

【特許請求の範囲】

【請求項１】入力音声から得られる音声区間判定用の
パラメータと、音声区間判定用の複数のしきい値とに基
づいて、複数の音声区間を設定する音声区間設定手段、各音声区間の特徴に基づいて、各音声区間ごとの音声パ
ターンをそれぞれ作成する音声パターン作成手段、およ
び各音声区間ごとの音声パターンに基づいて、入力音声
を認識する音声認識手段、を備えている音声認識装置。
【請求項２】入力音声の音声パワーと、音声区間判定
用の複数のパワーしきい値とに基づいて、複数の音声区
間を設定する音声区間設定手段、各音声区間の音声スペクトルに基づいて、各音声区間ご
との音声パターンをそれぞれ作成する音声パターン作成
手段、および各音声区間ごとの音声パターンに基づい
て、入力音声を認識する音声認識手段、を備えている音声認識装置。
【請求項３】上記各パワーしきい値は、入力音声の音
声検出部分より所定時間前の雑音パワーに基づいて決定
される請求項２に記載の音声認識装置。
【請求項４】上記音声認識手段は、各認識対象音声に対する標準音声パターンを入力パター
ンとし、各入力パターンに対応する音声を表す音声識別
データを教師データとして、学習が行なわれたニューラ
ルネットワーク、上記各音声区間ごとの音声パターンを上記ニューラルネ
ットワークにそれぞれ入力して、上記各音声区間ごとの
音声パターンに対する出力パターンを求める手段、およ
び求められた全ての出力パターンのうち、教師データと
の類似度が最も高い出力パターンに基づいて、入力音声
を認識する手段、を備えている請求項１、２および３のいずれかに記載の
音声認識装置。