JPH0792989A

JPH0792989A - 音声認識方法

Info

Publication number: JPH0792989A
Application number: JP5236880A
Authority: JP
Inventors: Takashi Miki; 敬三木
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1993-09-22
Filing date: 1993-09-22
Publication date: 1995-04-07

Abstract

(57)【要約】【目的】音声認識における音声入力期間の検出を確実
にする。【構成】分析部１１は入力信号の特徴を表す第１の特
徴ベクトルとパワーを算出し特徴ベクトル記憶部１２に
保存する。音声区間検出部１３は、設定された音声検出
用閾値で前記パワーから音声入力期間を検出する。音声
入力期間に入力された入力信号の第１の特徴ベクトルと
比較パタンに格納されていた認識対象音声の特徴を表す
第２の特徴ベクトルとがパタン照合部で比較されて音声
認識される。音声検出閾値設定部１８は音声認識の結果
に基づき、パワー補正テーブル１７に格納されている係
数を用いて雑音及び発声環境を補正し、音声検出用閾値
を更新する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、コンピュータ、制御装
置及びその他種々の機器の入力手段として用いられる音
声認識装置における音声区間検出方法に関するものであ
る。

【０００２】

【従来の技術】従来、このような分野の技術としては、
例えば、次のような文献に記載されるものがあった。文献１；特開昭62-73298号公報図２は、従来例の音声認識装置を示す構成ブロック図で
ある。図２の音声認識装置は、文献１に示されているよ
うな従来の認識装置の典型的なものであり、音声信号を
含んだ入力信号Ｓを入力する入力端子ＩＮと、その入力
信号Ｓをフレームと称する一定期間毎に入力信号Ｓの特
徴を表す第１の特徴ベクトルと各フレームｔ毎の入力信
号ＳのパワーＰｔを分析する分析部１と、それら第１の
特徴ベクトルの分析結果を格納する特徴ベクトル記憶部
２と、入力信号の各パワーＰｔから入力信号に音声信号
があるかを無いかを検出して音声の入力されている音声
入力期間を求める音声区間検出部３と、予め認識対象音
声の特徴ベクトルである第２の特徴ベクトルで構成され
た第２の時系列信号が格納されている比較パターン記憶
部４と、比較パターン記憶部４に格納されていた第２の
特徴ベクトルの時系列信号と特徴ベクトル記憶部２に格
納されていた第１の特徴ベクトルで構成された第１の時
系列信号を比較しするパタン照合部５とを、備えてい
る。

【０００３】次に、図２の認識装置の動作を説明する。
入力端子ＩＮから入力された入力信号Ｓに対して分析部
１は、短区間のフレームｔ毎に該入力のパワーＰｔと、
第１の特徴ベクトルを計算する。ここで、第１の特徴ベ
クトルとしては、周波数スペクトルを表現するスペクト
ルパラメータが一般的である。分析部１で求められた第
１の特徴ベクトルは、特徴ベクトル記憶部２で順次保存
される。音声区間検出部３は、各フレームｔにおける入
力信号ＳのそれぞれのパワーＰｔから音声入力期間を決
定する。即ち、音声区間検出部３は、パワーＰｔがある
所定期間以上音声検出用閾値Ｐｓｈを越えている区間を
見出だし、その区間を音声候補区間として記憶する。さ
らに、音声区間検出部３は、音声候補区間から所定の時
間以上パワーＰｔが音声検出用閾値Ｐｓｈを越える信号
Ｓが入力されない区間を見出だし、その時点を音声の終
了とする。音声入力の終了後、音声区間検出部３は、記
憶されている音声候補区間から音声入力の始端及び終端
を決定する。音声入力の始端は、音声候補区間中の最も
時間的に早いフレームとする。また、音声入力の終端
は、音声候補区間中の最も時間的に遅いフレームとす
る。音声入力期間の決定後、パタン照合部５は、音声入
力の始端から終端までの第１の特徴ベクトルで構成され
た第１の時系列信号（以下入力音声パタン）と、比較パ
タン記憶部４に格納された認識対象音声の平均的な第２
の特徴ベクトルで構成された複数の第２の時系列信号
（以下比較パタンという）とを照合して両者の類似度を
計算する。最大の類似度を与える例えば単語を表す比較
パタンに対して与えられた単語名が、認識結果として出
力される。

【０００４】なお、音声区間検出処理で重要な音声検出
用閾値Ｐｓｈは、以下（ｉ）〜(iii）の手順で決める方
法がある。（ｉ）背景雑音のレベル測定音声を入力しない状態での、すなわち雑音のみのパワー
Ｐｔの平均値の平均雑音パワーＰnoise が、測定され
る。（ii）音声レベル測定音声入力中のパワーＰｔの最大値すなわち最大音声パワ
ーＰvoice を測定する。 (iii）閾値設定音声検出用閾値をＰｓｈを（１）式で決める。Ｐｓｈ＝０．０３×Ｐvoice ＋０．９７×Ｐnoise ………（１）

【０００５】

【発明が解決しようとする課題】しかしながら、従来の
音声認識方法においては、次のような課題があった。音
声検出用閾値Ｐｓｈを設定するためには、予め、雑音の
みの入力されているに複数のフレームから平均雑音パワ
ーＰnoise と、音声信号の入力されているフレームで構
成された区間における最大音声パワーＰvoice とを測定
しておく必要がある。しかるに、雑音のレベルは時々刻
々変化し、音声のパワーも変化する。そこで、平均雑音
パワーＰnoise 及び最大音声パワーＰvoice を適宜再測
定し、音声検出用閾値Ｐｓｈを更新する必要があった。
しかしながら、高頻度で使用者に最大音声パワーＰvoic
e 測定用の発声を強いることは好ましくなく、認識動作
時の発声から最大音声パワーＰvoice の再測定を行う処
理が主に用いられている。一方、最大音声パワーＰvoic
e は、その音声区間に含まれている音韻と深い関係があ
る。例えば、母音“あ”のパワーＰｔは最も強く、母音
“い”のパワーＰｔは最も小さい。その結果、音声の入
力されている区間の最大パワーＰvoice は、単語毎に異
なる。しかしながら、認識時の発声を利用する従来の方
法では、これらの相違を考慮することができないので、
最大音声パワーＰvoice の値は信頼性に欠けていた。こ
の結果、音声検出用閾値が不適切になる場合があり、音
声検出精度の低下の一因となっていた。本発明は前記従
来技術が持っていた課題として、音声入力期間検出の信
頼性が低い点について解決をした音声認識方法を提供す
るものである。

【０００６】

【課題を解決するための手段】本発明は、前記課題を解
決するために、入力信号に対してフレーム毎に該入力信
号のパワー及びその入力信号の特徴を表す第１の特徴ベ
クトルを算出して保存する特徴ベクトル算出処理と、音
声検出用閾値と前記パワーをフレーム毎に比較して前記
入力信号中に音声信号を含んでいる前記フレームを検出
し、音声の入力されている音声入力期間を検出する音声
区間検出処理と、前記音声入力期間の複数の前記第１の
特徴ベクトルで構成された第１の時系列信号と、複数の
認識対象音声にそれぞれ対応した複数の第２の特徴ベク
トルで構成された第２の時系列信号とを比較し、該第２
の時系列信号のうち前記第１の時系列信号に最も類似し
た時系列信号に対応した認識対象音声名を求める音声認
識処理とを、行う音声認識方法において、次のような処
理を実行する。即ち、既に音声認識処理の終了した音声
入力期間のうちで過去の直近の音声入力期間における前
記パワーのうちの最大音声パワーを求める最大音声パワ
ー算出処理と、前記過去の直近の音声入力期間に対して
求められた認識対象音声名から該認識対象音声に対応し
た補正係数を求め、該補正係数で前記最大音声パワーを
補正する最大音声パワー補正処理と、前記音声入力期間
以外の期間の前記パワーから雑音の大きさを推定する背
景雑音パワー推定処理と、前記最大音声パワー補正処理
及び背景雑音パワー推定処理結果から以後の前記音声区
間検出処理に用いられる前記音声検出用閾値を更新する
音声検出閾値更新処理とを、実行する。

【０００７】

【作用】本発明によれば、以上のように音声認識方法を
構成したので、特徴ベクトル算出処理により、フレーム
毎に入力信号のパワー及びその入力信号の特徴を表す第
１の特徴ベクトルが算出されて保存される。音声区間検
出処理で、音声検出用閾値と前記パワーがフレーム毎に
比較され、入力信号中に音声信号を含んでいるフレーム
が検出されて音声入力期間が求められる。音声入力期間
が求められると、音声認識処理にて音声信号に対応した
認識対象音声が求められる。その後、最大音声パワー算
出処理により、既に音声認識処理の終了した音声入力期
間のうちで過去の直近の音声入力期間におけるパワーの
うちの最大音声パワーが求められる。最大音声パワー補
正処理は、その音声入力期間に対して求められた認識対
象音声名から該認識対象音声に対応した補正係数を求
め、最大音声パワーを補正する。背景雑音パワー推定処
理によって、音声入力期間以外の期間の雑音の大きさが
推定され、これら最大音声パワー補正処理及び背景雑音
パワー推定処理結果から、音声検出閾値更新処理で次の
認識処理に用いられる音声検出用閾値が更新される。従
って、前記課題を解決できるのである。

【０００８】

【実施例】図１は、本発明の音声認識方法を実施する装
置例を示す構成ブロック図である。図１の装置は、入力
された単語を認識する音声認識装置であり、音声信号を
含む入力信号Ｓを入力する入力端子ＩＮと、その入力信
号Ｓを各フレームＰｔ毎に入力信号Ｓの特徴をそれぞれ
表す第１の特徴ベクトルと各フレームＰｔ毎の入力信号
ＳのパワーＰｔをそれぞれ算出する分析部１１と、それ
ら第１の特徴ベクトル及びパワーＰｔの算出結果を保存
する特徴ベクトル記憶部１２と、そのパワーＰｔから入
力信号Ｓに音声信号があるかを無いかを検出して音声の
入力されている音声入力期間を求める音声区間検出部１
３と、予め認識対象音声（単語）の特徴ベクトルである
第２の特徴ベクトルで構成された第２の時系列信号が格
納されている比較パターン記憶部１４と、比較パターン
記憶部１４に格納されていた特徴ベクトルの時系列信号
と第１の特徴ベクトルで構成された第１の時系列信号を
比較しするパタン照合部１５とを、備えている。さら
に、この装置は、音声区間検出部１３からの音声入力期
間の情報を格納する音声区間記憶部１６と、認識対象音
声毎の最大音声パワー補正用データが格納されたパワー
補正テーブル１７と、パワーＰｔと音声入力期間の情報
から更新用の音声検出閾値を算出し音声区間検出部１３
へ供給する音声検出閾値設定部１８とを、設けている。

【０００９】次に、図１の音声認識装置の動作を説明す
る。入力端子ＩＮから入力された入力信号Ｓに対して分
析部１１は、短区間のフレームｔ毎に該入力のパワーＰ
ｔと第１の特徴ベクトルを算出して第１の特徴ベクトル
の時系列信号を生成する。第１の特徴ベクトルの算出方
法には、中心周波数の少しずつ異なる複数のバンドパス
フィルタ群を用いる方法や、ＦＦＴ（高速フーリエ変
換）によるスペクトル分析を用いる方法等が考えられ
る。ここでは、バンドパスフィルタ群を用いる方法を例
を説明する。分析部１１において、入力信号Ｓはアナロ
グ信号かデジタル信号に変換され、分析部１１中の各バ
ンドパスフィルタは、入力信号Ｓの複数の周波数成分を
抽出する。この様に各バンドパスフィルタによって振り
分けられたデータの系列をチャネルと称する。各チャネ
ル毎のフィルタの出力信号は整流され、フレームｔ毎に
フィルタの出力信号毎の平均値が求められる。この求め
られた平均値を帯域パワーと呼び、ｔ番目のフレームで
ｊ番目のチャネルの帯域パワーをＦｔｊと表す。次に、
分析部１１は、各フレーム毎にパワーＰｔを算出する。
パワーＰｔの算出は以下の（２）式で算出される。さら
に、各帯域パワーＦｔｊから複数の第１の特徴ベクトル
Ｇｔｊが（４）式で算出される。

【００１０】

【数１】第１の特徴ベクトルとパワーＰｔは、Ｎフレーム分だけ
特徴ベクトル記憶部１２に保存される。即ち、分析部１
１及び特徴ベクトル記憶部１２で特徴ベクトル算出処理
が行われる。音声区間検出部１３は、パワーＰｔに基づ
き、設定された音声検出用閾値Ｐｓｈで音声信号の連続
して入力されている期間を検出する音声区間検出処理を
行う。即ち、音声入力の始端のフレームＡ及び終端フレ
ームＢを決定する。音声区間検出部３は、パワーＰｔが
ある所定期間以上音声検出用閾値Ｐｓｈを越えている区
間を見出だし、その区間を音声候補区間として記憶す
る。さらに、音声区間検出部３は、音声候補区間検出
後、所定の時間以上パワーＰｔが音声検出用閾値Ｐｓｈ
を越える信号Ｓが入力されない区間を見出だし、その時
点を音声の終了とする。記憶された音声候補区間から、
音声区間検出部３は、音声入力の始端Ａ及び終端Ｂを決
定する。音声入力の始端は、音声候補区間中の最も時間
的に早いフレームとする。また、音声入力の終端は、音
声候補区間中の最も時間的に遅いフレームとする。これ
らの音声入力期間の情報は、音声区間記憶部１６に格納
される。音声区間が決定すると、パタン照合部１５は音
声入力の始端から終端までの第１の特徴ベクトルで構成
された第１の時系列信号すなわち入力音声パタンと比較
パタン記憶部４に格納された認識対象音声の平均的な第
２の特徴ベクトルで構成された複数の第２の時系列信号
の比較パタンとを、照合して両者の類似度を計算する。
最大の類似度を与える単語の比較パタンに対して与えら
れた単語名ｒが認識結果として出力される。

【００１１】以上の音声認識動作終了後、音声検出閾値
設定部１８が、次のステップ１〜ステップ４で以降の音
声検出用閾値を更新設定する。（ステップ１）最大音声パワーＰvoice 算出処理特徴ベクトル記憶部１２に記憶されているパワーＰｔの
内、音声認識の終了した直近の音声入力区間のフレーム
ＡＭ〜ＢＭ間（Ｍ番目の音声区間）に対応する複数のパ
ワーＰｔから、最大音声パワーＰvoice が（５）式で求
められる。なお、音声入力期間の情報は、音声区間記憶
部１６に格納されている。Ｐvoice ＝ｍａｘ｛Ｐｔ｝ ………（５）ＡＭ≦ｔ≦ＢＭ（ステップ２）最大音声パワー補正処理パタン照合部１５で求められた単語名ｒを用いて最大音
声パワーＰvoice を補正する。即ち、各単語名ｒにそれ
ぞれ対応した係数Ｔｒが、予めパワー補正テーブル１７
に格納されており、その係数Ｔｒによって最大音声パワ
ーＰvoice が（６）式で補正されて補正最大音声パワー
Ｐvoice1が求められる。Ｐvoice1 ＝Ｐvoice ＋Ｔr[r] ………（６）（ステップ３）背景雑音パワーＰnoise の推定処理音声区間検出部１３で決定された音声信号入力区間以外
の区間に対してパワーＰｔの平均値が求められ、このこ
とによって背景雑音パワーＰnoise が推定される。具体
的な計算範囲は、パワーＰｔの記憶領域の長さＮで制限
される。特徴ベクトル記憶部１２に記憶されているパワ
ーをＰｔとし、音声区間記憶部１６に記憶されている全
区間をフレームＡ１〜Ｂ１（１番目の音声区間）からフ
レームＡＭ〜ＢＭ（Ｍ番目の音声区間）とすると、背景
雑音パワーＰnoise は、（７）及び（８）式で算出され
る。

【００１２】

【数２】（ステップ４）音声検出閾値Ｐｓｈの更新処理補正最大音声パワーＰvoice1と背景雑音パワーＰnoise
から音声検出閾値Ｐｓｈが（９）式で更新される。Ｐｓｈ＝０．０３×Ｐvoice1＋０．９７×Ｐnoise ………（９）この更新された音声検出用閾値Ｐｓｈが次回の音声認識
時に用いられる。さらに、１回の発声で音声検出用閾値
Ｐｓｈを設定するのではなく、（１０）式で示す忘却型
学習法で徐々に更新する方法もある。Ｐｓｈ＝ａＰｓｈ（ｎ−１）＋（１−ａ）Ｐｓｈ^* ………（10）但し、Ｐｓｈ（ｎ）；ｎ回目の音声検出用閾値Ｐｓｈ^* ；ｎ−１回目の発声から（９）式で求めた
音声検出用閾値ａ；更新係数以上の音声検出閾値設定部１８での処理には、予めパワ
ー補正係数Ｔｒを設定する必要がある。補正係数Ｔｒの
設定は、次のステップＡ及びステップＢで行われる。

【００１３】ステップＡ音声パワー設定認識対象語の標準的な最大音声パワーを何等かの方法で
求める。例えば、認識対象語を数回発声して最大音声パ
ワーを計算する方法がある。最大音声パワーの計算は、
先の音声認識時の音声入力の場合と同様の手順で計算す
る。音声入力端子ＩＮから入力された単語名ｒの音声信
号は分析部１１で特徴ベクトルの時系列信号とパワーＰ
ｔ（ｒ）に変換される。音声区間検出部では、パワーＰ
ｔ（ｒ）に基づいて音声区間すなわち音声入力の始端フ
レームＡｒ及び終端フレームＢｒを決定し、パワーＰｔ
（ｒ）の最大音声パワーＰvoice （ｒ）が、（１１）式
で求られる。Ｐvoice （ｒ）＝ｍａｘ｛Ｐｔ（ｒ）｝ ………（11）Ａｒ≦ｔ≦Ｂｒさらに、複数の発声から音声パワーの最大値を求め、そ
の平均値をＰvoice （ｒ）としてもよい。また、標準的
な最大音声パワーを求める方法の例として、認識対象語
の発音表記等から、音声学の知識を利用して標準音声パ
ワーを推定する方法もある。ある単語の最大発声パワー
は、母音部分の最大パワーにほぼ等しい。異種母音間の
パワー比は、ほぼ個人に依らず一定であるとしてよい。
そのため、認識対象語の発音系列がわかれば、単語間の
最大パワー比は計算で求めることができる。図３は、一
般的な母音間のパワー比を示す図である。例えば、“や
まだ”“すずき”“いとう”という各単語の最大音声パ
ワー比は、母音“あ”“う”“お”のパワー比１：０．
７２：０．７５となる。このパワー比をそのままＰvoic
e （ｒ）とすればよい。

【００１４】ステップＢ音声パワー設定最大音声パワーＰvoice （ｒ）から認識対象語毎にパワ
ー補正係数Ｔｒ（ｒ）を設定する。パワー補正係数Ｔｒ
（ｒ）とは、全認識対象語の最大値Ｐvoice の平均値と
個々の補正係数Ｔｒ（ｒ）との差であり、（１２）及び
（１３）式で求める。

【数３】以上のように、本実施例では、常に変化する雑音環境や
音声のパワーに対応し、音声検出用閾値を常に更新する
ことができる。また、更新された音声検出用閾値は、認
識対象語自体の本来有するパワー特性が考慮されたもの
である。そのため、音声入力期間の検出の誤りを低減
し、信頼性の高い検出をする。ひいては高い音声認識性
能を得ることができる。なお、本発明は、上記実施例に
限定されず種々の変形が可能である。その変形例として
は、例えば次のようなものがある。（１）認識対象音声は単語としているが、単語に限定
されず、目的に応じて、話者の発声、１つの発音、ある
いは単語の連なった言葉等としても本発明は、実施例と
同様の効果を奏する。（２）音声候補区間を求め、音声入力の始端及び終端
を求めているが、これら音声入力の始端及び終端を求め
るアルゴリズムには種々の変形が可能である。（３）音声認識装置の構成は、図１に限定されず、例
えばパワー補正テーブル１７或いは比較パタン記憶部１
４は、外部の別装置や記憶媒体に設置した構成としても
よい。

【００１５】

【発明の効果】以上詳細に説明したように、本発明によ
れば、過去の直近の音声入力期間における音声認識結果
に基づいて、音声検出用閾値を更新する処理を実施す
る。即ち、更新された音声検出用閾値は、認識対象語自
体の本来有するパワー特性が考慮されたものである。そ
のため、常に変化する雑音環境や音声のパワーに対応す
ると共に、音声入力期間の検出の誤りを低減して信頼性
の高い検出をする。ひいては高い音声認識性能を得るこ
とができる。

【図面の簡単な説明】

【図１】本発明の音声認識方法を実施する装置例を示す
構成ブロック図である。

【図２】従来例の音声認識装置を示す構成ブロック図で
ある。

【図３】一般的な母音間のパワー比を示す図である。

【符号の説明】

１，１１分析部２，１２特徴ベクトル記憶部３，１３音声区間検出部４，１４比較パタン記憶部５，１５パタン照合部１６音声区間記憶部１７パワー補正テーブル１８音声検出閾値設定部

Claims

【特許請求の範囲】

【請求項１】入力信号に対してフレーム毎に該入力信
号のパワー及びその入力信号の特徴を表す第１の特徴ベ
クトルを算出して保存する特徴ベクトル算出処理と、音声検出用閾値と前記パワーをフレーム毎に比較して前
記入力信号中に音声信号を含んでいる前記フレームを検
出し、音声の入力されている音声入力期間を検出する音
声区間検出処理と、前記音声入力期間の複数の前記第１の特徴ベクトルで構
成された第１の時系列信号と、複数の認識対象音声にそ
れぞれ対応した複数の第２の特徴ベクトルで構成された
第２の時系列信号とを比較し、該第２の時系列信号のう
ち前記第１の時系列信号に最も類似した時系列信号に対
応した認識対象音声名を求める音声認識処理とを、行う音声認識方法において、既に音声認識処理の終了した音声入力期間のうちで過去
の直近の音声入力期間における前記パワーのうちの最大
音声パワーを求める最大音声パワー算出処理と、前記過去の直近の音声入力期間に対して求められた認識
対象音声名から該認識対象音声に対応した補正係数を求
め、該補正係数で前記最大音声パワーを補正する最大音
声パワー補正処理と、前記音声入力期間以外の期間の前記パワーから雑音の大
きさを推定する背景雑音パワー推定処理と、前記最大音声パワー補正処理及び背景雑音パワー推定処
理結果から以後の前記音声区間検出処理に用いられる前
記音声検出用閾値を更新する音声検出閾値更新処理と
を、実行することを特徴とする音声認識方法。