JPH0792989A - 音声認識方法 - Google Patents
音声認識方法Info
- Publication number
- JPH0792989A JPH0792989A JP5236880A JP23688093A JPH0792989A JP H0792989 A JPH0792989 A JP H0792989A JP 5236880 A JP5236880 A JP 5236880A JP 23688093 A JP23688093 A JP 23688093A JP H0792989 A JPH0792989 A JP H0792989A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- power
- input
- feature vector
- maximum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【目的】 音声認識における音声入力期間の検出を確実
にする。 【構成】 分析部11は入力信号の特徴を表す第1の特
徴ベクトルとパワーを算出し特徴ベクトル記憶部12に
保存する。音声区間検出部13は、設定された音声検出
用閾値で前記パワーから音声入力期間を検出する。音声
入力期間に入力された入力信号の第1の特徴ベクトルと
比較パタンに格納されていた認識対象音声の特徴を表す
第2の特徴ベクトルとがパタン照合部で比較されて音声
認識される。音声検出閾値設定部18は音声認識の結果
に基づき、パワー補正テーブル17に格納されている係
数を用いて雑音及び発声環境を補正し、音声検出用閾値
を更新する。
にする。 【構成】 分析部11は入力信号の特徴を表す第1の特
徴ベクトルとパワーを算出し特徴ベクトル記憶部12に
保存する。音声区間検出部13は、設定された音声検出
用閾値で前記パワーから音声入力期間を検出する。音声
入力期間に入力された入力信号の第1の特徴ベクトルと
比較パタンに格納されていた認識対象音声の特徴を表す
第2の特徴ベクトルとがパタン照合部で比較されて音声
認識される。音声検出閾値設定部18は音声認識の結果
に基づき、パワー補正テーブル17に格納されている係
数を用いて雑音及び発声環境を補正し、音声検出用閾値
を更新する。
Description
【0001】
【産業上の利用分野】本発明は、コンピュータ、制御装
置及びその他種々の機器の入力手段として用いられる音
声認識装置における音声区間検出方法に関するものであ
る。
置及びその他種々の機器の入力手段として用いられる音
声認識装置における音声区間検出方法に関するものであ
る。
【0002】
【従来の技術】従来、このような分野の技術としては、
例えば、次のような文献に記載されるものがあった。 文献1;特開昭62-73298号公報 図2は、従来例の音声認識装置を示す構成ブロック図で
ある。図2の音声認識装置は、文献1に示されているよ
うな従来の認識装置の典型的なものであり、音声信号を
含んだ入力信号Sを入力する入力端子INと、その入力
信号Sをフレームと称する一定期間毎に入力信号Sの特
徴を表す第1の特徴ベクトルと各フレームt毎の入力信
号SのパワーPtを分析する分析部1と、それら第1の
特徴ベクトルの分析結果を格納する特徴ベクトル記憶部
2と、入力信号の各パワーPtから入力信号に音声信号
があるかを無いかを検出して音声の入力されている音声
入力期間を求める音声区間検出部3と、予め認識対象音
声の特徴ベクトルである第2の特徴ベクトルで構成され
た第2の時系列信号が格納されている比較パターン記憶
部4と、比較パターン記憶部4に格納されていた第2の
特徴ベクトルの時系列信号と特徴ベクトル記憶部2に格
納されていた第1の特徴ベクトルで構成された第1の時
系列信号を比較しするパタン照合部5とを、備えてい
る。
例えば、次のような文献に記載されるものがあった。 文献1;特開昭62-73298号公報 図2は、従来例の音声認識装置を示す構成ブロック図で
ある。図2の音声認識装置は、文献1に示されているよ
うな従来の認識装置の典型的なものであり、音声信号を
含んだ入力信号Sを入力する入力端子INと、その入力
信号Sをフレームと称する一定期間毎に入力信号Sの特
徴を表す第1の特徴ベクトルと各フレームt毎の入力信
号SのパワーPtを分析する分析部1と、それら第1の
特徴ベクトルの分析結果を格納する特徴ベクトル記憶部
2と、入力信号の各パワーPtから入力信号に音声信号
があるかを無いかを検出して音声の入力されている音声
入力期間を求める音声区間検出部3と、予め認識対象音
声の特徴ベクトルである第2の特徴ベクトルで構成され
た第2の時系列信号が格納されている比較パターン記憶
部4と、比較パターン記憶部4に格納されていた第2の
特徴ベクトルの時系列信号と特徴ベクトル記憶部2に格
納されていた第1の特徴ベクトルで構成された第1の時
系列信号を比較しするパタン照合部5とを、備えてい
る。
【0003】次に、図2の認識装置の動作を説明する。
入力端子INから入力された入力信号Sに対して分析部
1は、短区間のフレームt毎に該入力のパワーPtと、
第1の特徴ベクトルを計算する。ここで、第1の特徴ベ
クトルとしては、周波数スペクトルを表現するスペクト
ルパラメータが一般的である。分析部1で求められた第
1の特徴ベクトルは、特徴ベクトル記憶部2で順次保存
される。音声区間検出部3は、各フレームtにおける入
力信号SのそれぞれのパワーPtから音声入力期間を決
定する。即ち、音声区間検出部3は、パワーPtがある
所定期間以上音声検出用閾値Pshを越えている区間を
見出だし、その区間を音声候補区間として記憶する。さ
らに、音声区間検出部3は、音声候補区間から所定の時
間以上パワーPtが音声検出用閾値Pshを越える信号
Sが入力されない区間を見出だし、その時点を音声の終
了とする。音声入力の終了後、音声区間検出部3は、記
憶されている音声候補区間から音声入力の始端及び終端
を決定する。音声入力の始端は、音声候補区間中の最も
時間的に早いフレームとする。また、音声入力の終端
は、音声候補区間中の最も時間的に遅いフレームとす
る。音声入力期間の決定後、パタン照合部5は、音声入
力の始端から終端までの第1の特徴ベクトルで構成され
た第1の時系列信号(以下入力音声パタン)と、比較パ
タン記憶部4に格納された認識対象音声の平均的な第2
の特徴ベクトルで構成された複数の第2の時系列信号
(以下比較パタンという)とを照合して両者の類似度を
計算する。最大の類似度を与える例えば単語を表す比較
パタンに対して与えられた単語名が、認識結果として出
力される。
入力端子INから入力された入力信号Sに対して分析部
1は、短区間のフレームt毎に該入力のパワーPtと、
第1の特徴ベクトルを計算する。ここで、第1の特徴ベ
クトルとしては、周波数スペクトルを表現するスペクト
ルパラメータが一般的である。分析部1で求められた第
1の特徴ベクトルは、特徴ベクトル記憶部2で順次保存
される。音声区間検出部3は、各フレームtにおける入
力信号SのそれぞれのパワーPtから音声入力期間を決
定する。即ち、音声区間検出部3は、パワーPtがある
所定期間以上音声検出用閾値Pshを越えている区間を
見出だし、その区間を音声候補区間として記憶する。さ
らに、音声区間検出部3は、音声候補区間から所定の時
間以上パワーPtが音声検出用閾値Pshを越える信号
Sが入力されない区間を見出だし、その時点を音声の終
了とする。音声入力の終了後、音声区間検出部3は、記
憶されている音声候補区間から音声入力の始端及び終端
を決定する。音声入力の始端は、音声候補区間中の最も
時間的に早いフレームとする。また、音声入力の終端
は、音声候補区間中の最も時間的に遅いフレームとす
る。音声入力期間の決定後、パタン照合部5は、音声入
力の始端から終端までの第1の特徴ベクトルで構成され
た第1の時系列信号(以下入力音声パタン)と、比較パ
タン記憶部4に格納された認識対象音声の平均的な第2
の特徴ベクトルで構成された複数の第2の時系列信号
(以下比較パタンという)とを照合して両者の類似度を
計算する。最大の類似度を与える例えば単語を表す比較
パタンに対して与えられた単語名が、認識結果として出
力される。
【0004】なお、音声区間検出処理で重要な音声検出
用閾値Pshは、以下(i)〜(iii)の手順で決める方
法がある。 (i) 背景雑音のレベル測定 音声を入力しない状態での、すなわち雑音のみのパワー
Ptの平均値の平均雑音パワーPnoise が、測定され
る。 (ii) 音声レベル測定 音声入力中のパワーPtの最大値すなわち最大音声パワ
ーPvoice を測定する。 (iii) 閾値設定 音声検出用閾値をPshを(1)式で決める。 Psh=0.03×Pvoice +0.97×Pnoise ………(1)
用閾値Pshは、以下(i)〜(iii)の手順で決める方
法がある。 (i) 背景雑音のレベル測定 音声を入力しない状態での、すなわち雑音のみのパワー
Ptの平均値の平均雑音パワーPnoise が、測定され
る。 (ii) 音声レベル測定 音声入力中のパワーPtの最大値すなわち最大音声パワ
ーPvoice を測定する。 (iii) 閾値設定 音声検出用閾値をPshを(1)式で決める。 Psh=0.03×Pvoice +0.97×Pnoise ………(1)
【0005】
【発明が解決しようとする課題】しかしながら、従来の
音声認識方法においては、次のような課題があった。音
声検出用閾値Pshを設定するためには、予め、雑音の
みの入力されているに複数のフレームから平均雑音パワ
ーPnoise と、音声信号の入力されているフレームで構
成された区間における最大音声パワーPvoice とを測定
しておく必要がある。しかるに、雑音のレベルは時々刻
々変化し、音声のパワーも変化する。そこで、平均雑音
パワーPnoise 及び最大音声パワーPvoice を適宜再測
定し、音声検出用閾値Pshを更新する必要があった。
しかしながら、高頻度で使用者に最大音声パワーPvoic
e 測定用の発声を強いることは好ましくなく、認識動作
時の発声から最大音声パワーPvoice の再測定を行う処
理が主に用いられている。一方、最大音声パワーPvoic
e は、その音声区間に含まれている音韻と深い関係があ
る。例えば、母音“あ”のパワーPtは最も強く、母音
“い”のパワーPtは最も小さい。その結果、音声の入
力されている区間の最大パワーPvoice は、単語毎に異
なる。しかしながら、認識時の発声を利用する従来の方
法では、これらの相違を考慮することができないので、
最大音声パワーPvoice の値は信頼性に欠けていた。こ
の結果、音声検出用閾値が不適切になる場合があり、音
声検出精度の低下の一因となっていた。本発明は前記従
来技術が持っていた課題として、音声入力期間検出の信
頼性が低い点について解決をした音声認識方法を提供す
るものである。
音声認識方法においては、次のような課題があった。音
声検出用閾値Pshを設定するためには、予め、雑音の
みの入力されているに複数のフレームから平均雑音パワ
ーPnoise と、音声信号の入力されているフレームで構
成された区間における最大音声パワーPvoice とを測定
しておく必要がある。しかるに、雑音のレベルは時々刻
々変化し、音声のパワーも変化する。そこで、平均雑音
パワーPnoise 及び最大音声パワーPvoice を適宜再測
定し、音声検出用閾値Pshを更新する必要があった。
しかしながら、高頻度で使用者に最大音声パワーPvoic
e 測定用の発声を強いることは好ましくなく、認識動作
時の発声から最大音声パワーPvoice の再測定を行う処
理が主に用いられている。一方、最大音声パワーPvoic
e は、その音声区間に含まれている音韻と深い関係があ
る。例えば、母音“あ”のパワーPtは最も強く、母音
“い”のパワーPtは最も小さい。その結果、音声の入
力されている区間の最大パワーPvoice は、単語毎に異
なる。しかしながら、認識時の発声を利用する従来の方
法では、これらの相違を考慮することができないので、
最大音声パワーPvoice の値は信頼性に欠けていた。こ
の結果、音声検出用閾値が不適切になる場合があり、音
声検出精度の低下の一因となっていた。本発明は前記従
来技術が持っていた課題として、音声入力期間検出の信
頼性が低い点について解決をした音声認識方法を提供す
るものである。
【0006】
【課題を解決するための手段】本発明は、前記課題を解
決するために、入力信号に対してフレーム毎に該入力信
号のパワー及びその入力信号の特徴を表す第1の特徴ベ
クトルを算出して保存する特徴ベクトル算出処理と、音
声検出用閾値と前記パワーをフレーム毎に比較して前記
入力信号中に音声信号を含んでいる前記フレームを検出
し、音声の入力されている音声入力期間を検出する音声
区間検出処理と、前記音声入力期間の複数の前記第1の
特徴ベクトルで構成された第1の時系列信号と、複数の
認識対象音声にそれぞれ対応した複数の第2の特徴ベク
トルで構成された第2の時系列信号とを比較し、該第2
の時系列信号のうち前記第1の時系列信号に最も類似し
た時系列信号に対応した認識対象音声名を求める音声認
識処理とを、行う音声認識方法において、次のような処
理を実行する。即ち、既に音声認識処理の終了した音声
入力期間のうちで過去の直近の音声入力期間における前
記パワーのうちの最大音声パワーを求める最大音声パワ
ー算出処理と、前記過去の直近の音声入力期間に対して
求められた認識対象音声名から該認識対象音声に対応し
た補正係数を求め、該補正係数で前記最大音声パワーを
補正する最大音声パワー補正処理と、前記音声入力期間
以外の期間の前記パワーから雑音の大きさを推定する背
景雑音パワー推定処理と、前記最大音声パワー補正処理
及び背景雑音パワー推定処理結果から以後の前記音声区
間検出処理に用いられる前記音声検出用閾値を更新する
音声検出閾値更新処理とを、実行する。
決するために、入力信号に対してフレーム毎に該入力信
号のパワー及びその入力信号の特徴を表す第1の特徴ベ
クトルを算出して保存する特徴ベクトル算出処理と、音
声検出用閾値と前記パワーをフレーム毎に比較して前記
入力信号中に音声信号を含んでいる前記フレームを検出
し、音声の入力されている音声入力期間を検出する音声
区間検出処理と、前記音声入力期間の複数の前記第1の
特徴ベクトルで構成された第1の時系列信号と、複数の
認識対象音声にそれぞれ対応した複数の第2の特徴ベク
トルで構成された第2の時系列信号とを比較し、該第2
の時系列信号のうち前記第1の時系列信号に最も類似し
た時系列信号に対応した認識対象音声名を求める音声認
識処理とを、行う音声認識方法において、次のような処
理を実行する。即ち、既に音声認識処理の終了した音声
入力期間のうちで過去の直近の音声入力期間における前
記パワーのうちの最大音声パワーを求める最大音声パワ
ー算出処理と、前記過去の直近の音声入力期間に対して
求められた認識対象音声名から該認識対象音声に対応し
た補正係数を求め、該補正係数で前記最大音声パワーを
補正する最大音声パワー補正処理と、前記音声入力期間
以外の期間の前記パワーから雑音の大きさを推定する背
景雑音パワー推定処理と、前記最大音声パワー補正処理
及び背景雑音パワー推定処理結果から以後の前記音声区
間検出処理に用いられる前記音声検出用閾値を更新する
音声検出閾値更新処理とを、実行する。
【0007】
【作用】本発明によれば、以上のように音声認識方法を
構成したので、特徴ベクトル算出処理により、フレーム
毎に入力信号のパワー及びその入力信号の特徴を表す第
1の特徴ベクトルが算出されて保存される。音声区間検
出処理で、音声検出用閾値と前記パワーがフレーム毎に
比較され、入力信号中に音声信号を含んでいるフレーム
が検出されて音声入力期間が求められる。音声入力期間
が求められると、音声認識処理にて音声信号に対応した
認識対象音声が求められる。その後、最大音声パワー算
出処理により、既に音声認識処理の終了した音声入力期
間のうちで過去の直近の音声入力期間におけるパワーの
うちの最大音声パワーが求められる。最大音声パワー補
正処理は、その音声入力期間に対して求められた認識対
象音声名から該認識対象音声に対応した補正係数を求
め、最大音声パワーを補正する。背景雑音パワー推定処
理によって、音声入力期間以外の期間の雑音の大きさが
推定され、これら最大音声パワー補正処理及び背景雑音
パワー推定処理結果から、音声検出閾値更新処理で次の
認識処理に用いられる音声検出用閾値が更新される。従
って、前記課題を解決できるのである。
構成したので、特徴ベクトル算出処理により、フレーム
毎に入力信号のパワー及びその入力信号の特徴を表す第
1の特徴ベクトルが算出されて保存される。音声区間検
出処理で、音声検出用閾値と前記パワーがフレーム毎に
比較され、入力信号中に音声信号を含んでいるフレーム
が検出されて音声入力期間が求められる。音声入力期間
が求められると、音声認識処理にて音声信号に対応した
認識対象音声が求められる。その後、最大音声パワー算
出処理により、既に音声認識処理の終了した音声入力期
間のうちで過去の直近の音声入力期間におけるパワーの
うちの最大音声パワーが求められる。最大音声パワー補
正処理は、その音声入力期間に対して求められた認識対
象音声名から該認識対象音声に対応した補正係数を求
め、最大音声パワーを補正する。背景雑音パワー推定処
理によって、音声入力期間以外の期間の雑音の大きさが
推定され、これら最大音声パワー補正処理及び背景雑音
パワー推定処理結果から、音声検出閾値更新処理で次の
認識処理に用いられる音声検出用閾値が更新される。従
って、前記課題を解決できるのである。
【0008】
【実施例】図1は、本発明の音声認識方法を実施する装
置例を示す構成ブロック図である。図1の装置は、入力
された単語を認識する音声認識装置であり、音声信号を
含む入力信号Sを入力する入力端子INと、その入力信
号Sを各フレームPt毎に入力信号Sの特徴をそれぞれ
表す第1の特徴ベクトルと各フレームPt毎の入力信号
SのパワーPtをそれぞれ算出する分析部11と、それ
ら第1の特徴ベクトル及びパワーPtの算出結果を保存
する特徴ベクトル記憶部12と、そのパワーPtから入
力信号Sに音声信号があるかを無いかを検出して音声の
入力されている音声入力期間を求める音声区間検出部1
3と、予め認識対象音声(単語)の特徴ベクトルである
第2の特徴ベクトルで構成された第2の時系列信号が格
納されている比較パターン記憶部14と、比較パターン
記憶部14に格納されていた特徴ベクトルの時系列信号
と第1の特徴ベクトルで構成された第1の時系列信号を
比較しするパタン照合部15とを、備えている。さら
に、この装置は、音声区間検出部13からの音声入力期
間の情報を格納する音声区間記憶部16と、認識対象音
声毎の最大音声パワー補正用データが格納されたパワー
補正テーブル17と、パワーPtと音声入力期間の情報
から更新用の音声検出閾値を算出し音声区間検出部13
へ供給する音声検出閾値設定部18とを、設けている。
置例を示す構成ブロック図である。図1の装置は、入力
された単語を認識する音声認識装置であり、音声信号を
含む入力信号Sを入力する入力端子INと、その入力信
号Sを各フレームPt毎に入力信号Sの特徴をそれぞれ
表す第1の特徴ベクトルと各フレームPt毎の入力信号
SのパワーPtをそれぞれ算出する分析部11と、それ
ら第1の特徴ベクトル及びパワーPtの算出結果を保存
する特徴ベクトル記憶部12と、そのパワーPtから入
力信号Sに音声信号があるかを無いかを検出して音声の
入力されている音声入力期間を求める音声区間検出部1
3と、予め認識対象音声(単語)の特徴ベクトルである
第2の特徴ベクトルで構成された第2の時系列信号が格
納されている比較パターン記憶部14と、比較パターン
記憶部14に格納されていた特徴ベクトルの時系列信号
と第1の特徴ベクトルで構成された第1の時系列信号を
比較しするパタン照合部15とを、備えている。さら
に、この装置は、音声区間検出部13からの音声入力期
間の情報を格納する音声区間記憶部16と、認識対象音
声毎の最大音声パワー補正用データが格納されたパワー
補正テーブル17と、パワーPtと音声入力期間の情報
から更新用の音声検出閾値を算出し音声区間検出部13
へ供給する音声検出閾値設定部18とを、設けている。
【0009】次に、図1の音声認識装置の動作を説明す
る。入力端子INから入力された入力信号Sに対して分
析部11は、短区間のフレームt毎に該入力のパワーP
tと第1の特徴ベクトルを算出して第1の特徴ベクトル
の時系列信号を生成する。第1の特徴ベクトルの算出方
法には、中心周波数の少しずつ異なる複数のバンドパス
フィルタ群を用いる方法や、FFT(高速フーリエ変
換)によるスペクトル分析を用いる方法等が考えられ
る。ここでは、バンドパスフィルタ群を用いる方法を例
を説明する。分析部11において、入力信号Sはアナロ
グ信号かデジタル信号に変換され、分析部11中の各バ
ンドパスフィルタは、入力信号Sの複数の周波数成分を
抽出する。この様に各バンドパスフィルタによって振り
分けられたデータの系列をチャネルと称する。各チャネ
ル毎のフィルタの出力信号は整流され、フレームt毎に
フィルタの出力信号毎の平均値が求められる。この求め
られた平均値を帯域パワーと呼び、t番目のフレームで
j番目のチャネルの帯域パワーをFtjと表す。次に、
分析部11は、各フレーム毎にパワーPtを算出する。
パワーPtの算出は以下の(2)式で算出される。さら
に、各帯域パワーFtjから複数の第1の特徴ベクトル
Gtjが(4)式で算出される。
る。入力端子INから入力された入力信号Sに対して分
析部11は、短区間のフレームt毎に該入力のパワーP
tと第1の特徴ベクトルを算出して第1の特徴ベクトル
の時系列信号を生成する。第1の特徴ベクトルの算出方
法には、中心周波数の少しずつ異なる複数のバンドパス
フィルタ群を用いる方法や、FFT(高速フーリエ変
換)によるスペクトル分析を用いる方法等が考えられ
る。ここでは、バンドパスフィルタ群を用いる方法を例
を説明する。分析部11において、入力信号Sはアナロ
グ信号かデジタル信号に変換され、分析部11中の各バ
ンドパスフィルタは、入力信号Sの複数の周波数成分を
抽出する。この様に各バンドパスフィルタによって振り
分けられたデータの系列をチャネルと称する。各チャネ
ル毎のフィルタの出力信号は整流され、フレームt毎に
フィルタの出力信号毎の平均値が求められる。この求め
られた平均値を帯域パワーと呼び、t番目のフレームで
j番目のチャネルの帯域パワーをFtjと表す。次に、
分析部11は、各フレーム毎にパワーPtを算出する。
パワーPtの算出は以下の(2)式で算出される。さら
に、各帯域パワーFtjから複数の第1の特徴ベクトル
Gtjが(4)式で算出される。
【0010】
【数1】 第1の特徴ベクトルとパワーPtは、Nフレーム分だけ
特徴ベクトル記憶部12に保存される。即ち、分析部1
1及び特徴ベクトル記憶部12で特徴ベクトル算出処理
が行われる。音声区間検出部13は、パワーPtに基づ
き、設定された音声検出用閾値Pshで音声信号の連続
して入力されている期間を検出する音声区間検出処理を
行う。即ち、音声入力の始端のフレームA及び終端フレ
ームBを決定する。音声区間検出部3は、パワーPtが
ある所定期間以上音声検出用閾値Pshを越えている区
間を見出だし、その区間を音声候補区間として記憶す
る。さらに、音声区間検出部3は、音声候補区間検出
後、所定の時間以上パワーPtが音声検出用閾値Psh
を越える信号Sが入力されない区間を見出だし、その時
点を音声の終了とする。記憶された音声候補区間から、
音声区間検出部3は、音声入力の始端A及び終端Bを決
定する。音声入力の始端は、音声候補区間中の最も時間
的に早いフレームとする。また、音声入力の終端は、音
声候補区間中の最も時間的に遅いフレームとする。これ
らの音声入力期間の情報は、音声区間記憶部16に格納
される。音声区間が決定すると、パタン照合部15は音
声入力の始端から終端までの第1の特徴ベクトルで構成
された第1の時系列信号すなわち入力音声パタンと比較
パタン記憶部4に格納された認識対象音声の平均的な第
2の特徴ベクトルで構成された複数の第2の時系列信号
の比較パタンとを、照合して両者の類似度を計算する。
最大の類似度を与える単語の比較パタンに対して与えら
れた単語名rが認識結果として出力される。
特徴ベクトル記憶部12に保存される。即ち、分析部1
1及び特徴ベクトル記憶部12で特徴ベクトル算出処理
が行われる。音声区間検出部13は、パワーPtに基づ
き、設定された音声検出用閾値Pshで音声信号の連続
して入力されている期間を検出する音声区間検出処理を
行う。即ち、音声入力の始端のフレームA及び終端フレ
ームBを決定する。音声区間検出部3は、パワーPtが
ある所定期間以上音声検出用閾値Pshを越えている区
間を見出だし、その区間を音声候補区間として記憶す
る。さらに、音声区間検出部3は、音声候補区間検出
後、所定の時間以上パワーPtが音声検出用閾値Psh
を越える信号Sが入力されない区間を見出だし、その時
点を音声の終了とする。記憶された音声候補区間から、
音声区間検出部3は、音声入力の始端A及び終端Bを決
定する。音声入力の始端は、音声候補区間中の最も時間
的に早いフレームとする。また、音声入力の終端は、音
声候補区間中の最も時間的に遅いフレームとする。これ
らの音声入力期間の情報は、音声区間記憶部16に格納
される。音声区間が決定すると、パタン照合部15は音
声入力の始端から終端までの第1の特徴ベクトルで構成
された第1の時系列信号すなわち入力音声パタンと比較
パタン記憶部4に格納された認識対象音声の平均的な第
2の特徴ベクトルで構成された複数の第2の時系列信号
の比較パタンとを、照合して両者の類似度を計算する。
最大の類似度を与える単語の比較パタンに対して与えら
れた単語名rが認識結果として出力される。
【0011】以上の音声認識動作終了後、音声検出閾値
設定部18が、次のステップ1〜ステップ4で以降の音
声検出用閾値を更新設定する。 (ステップ1) 最大音声パワーPvoice 算出処理 特徴ベクトル記憶部12に記憶されているパワーPtの
内、音声認識の終了した直近の音声入力区間のフレーム
AM〜BM間(M番目の音声区間)に対応する複数のパ
ワーPtから、最大音声パワーPvoice が(5)式で求
められる。なお、音声入力期間の情報は、音声区間記憶
部16に格納されている。 Pvoice =max{Pt} ………(5) AM≦t≦BM (ステップ2) 最大音声パワー補正処理 パタン照合部15で求められた単語名rを用いて最大音
声パワーPvoice を補正する。即ち、各単語名rにそれ
ぞれ対応した係数Trが、予めパワー補正テーブル17
に格納されており、その係数Trによって最大音声パワ
ーPvoice が(6)式で補正されて補正最大音声パワー
Pvoice1が求められる。 Pvoice1 = Pvoice + Tr[r] ………(6) (ステップ3) 背景雑音パワーPnoise の推定処理 音声区間検出部13で決定された音声信号入力区間以外
の区間に対してパワーPtの平均値が求められ、このこ
とによって背景雑音パワーPnoise が推定される。具体
的な計算範囲は、パワーPtの記憶領域の長さNで制限
される。特徴ベクトル記憶部12に記憶されているパワ
ーをPtとし、音声区間記憶部16に記憶されている全
区間をフレームA1〜B1(1番目の音声区間)からフ
レームAM〜BM(M番目の音声区間)とすると、背景
雑音パワーPnoise は、(7)及び(8)式で算出され
る。
設定部18が、次のステップ1〜ステップ4で以降の音
声検出用閾値を更新設定する。 (ステップ1) 最大音声パワーPvoice 算出処理 特徴ベクトル記憶部12に記憶されているパワーPtの
内、音声認識の終了した直近の音声入力区間のフレーム
AM〜BM間(M番目の音声区間)に対応する複数のパ
ワーPtから、最大音声パワーPvoice が(5)式で求
められる。なお、音声入力期間の情報は、音声区間記憶
部16に格納されている。 Pvoice =max{Pt} ………(5) AM≦t≦BM (ステップ2) 最大音声パワー補正処理 パタン照合部15で求められた単語名rを用いて最大音
声パワーPvoice を補正する。即ち、各単語名rにそれ
ぞれ対応した係数Trが、予めパワー補正テーブル17
に格納されており、その係数Trによって最大音声パワ
ーPvoice が(6)式で補正されて補正最大音声パワー
Pvoice1が求められる。 Pvoice1 = Pvoice + Tr[r] ………(6) (ステップ3) 背景雑音パワーPnoise の推定処理 音声区間検出部13で決定された音声信号入力区間以外
の区間に対してパワーPtの平均値が求められ、このこ
とによって背景雑音パワーPnoise が推定される。具体
的な計算範囲は、パワーPtの記憶領域の長さNで制限
される。特徴ベクトル記憶部12に記憶されているパワ
ーをPtとし、音声区間記憶部16に記憶されている全
区間をフレームA1〜B1(1番目の音声区間)からフ
レームAM〜BM(M番目の音声区間)とすると、背景
雑音パワーPnoise は、(7)及び(8)式で算出され
る。
【0012】
【数2】 (ステップ4) 音声検出閾値Pshの更新処理 補正最大音声パワーPvoice1と背景雑音パワーPnoise
から音声検出閾値Pshが(9)式で更新される。 Psh=0.03×Pvoice1+0.97×Pnoise ………(9) この更新された音声検出用閾値Pshが次回の音声認識
時に用いられる。さらに、1回の発声で音声検出用閾値
Pshを設定するのではなく、(10)式で示す忘却型
学習法で徐々に更新する方法もある。 Psh=aPsh(n−1)+(1−a)Psh* ………(10) 但し、 Psh(n);n回目の音声検出用閾値 Psh* ;n−1回目の発声から(9)式で求めた
音声検出用閾値 a ;更新係数 以上の音声検出閾値設定部18での処理には、予めパワ
ー補正係数Trを設定する必要がある。補正係数Trの
設定は、次のステップA及びステップBで行われる。
から音声検出閾値Pshが(9)式で更新される。 Psh=0.03×Pvoice1+0.97×Pnoise ………(9) この更新された音声検出用閾値Pshが次回の音声認識
時に用いられる。さらに、1回の発声で音声検出用閾値
Pshを設定するのではなく、(10)式で示す忘却型
学習法で徐々に更新する方法もある。 Psh=aPsh(n−1)+(1−a)Psh* ………(10) 但し、 Psh(n);n回目の音声検出用閾値 Psh* ;n−1回目の発声から(9)式で求めた
音声検出用閾値 a ;更新係数 以上の音声検出閾値設定部18での処理には、予めパワ
ー補正係数Trを設定する必要がある。補正係数Trの
設定は、次のステップA及びステップBで行われる。
【0013】ステップA 音声パワー設定 認識対象語の標準的な最大音声パワーを何等かの方法で
求める。例えば、認識対象語を数回発声して最大音声パ
ワーを計算する方法がある。最大音声パワーの計算は、
先の音声認識時の音声入力の場合と同様の手順で計算す
る。音声入力端子INから入力された単語名rの音声信
号は分析部11で特徴ベクトルの時系列信号とパワーP
t(r)に変換される。音声区間検出部では、パワーP
t(r)に基づいて音声区間すなわち音声入力の始端フ
レームAr及び終端フレームBrを決定し、パワーPt
(r)の最大音声パワーPvoice (r)が、(11)式
で求られる。 Pvoice (r)=max{Pt(r)} ………(11) Ar≦t≦Br さらに、複数の発声から音声パワーの最大値を求め、そ
の平均値をPvoice (r)としてもよい。また、標準的
な最大音声パワーを求める方法の例として、認識対象語
の発音表記等から、音声学の知識を利用して標準音声パ
ワーを推定する方法もある。ある単語の最大発声パワー
は、母音部分の最大パワーにほぼ等しい。異種母音間の
パワー比は、ほぼ個人に依らず一定であるとしてよい。
そのため、認識対象語の発音系列がわかれば、単語間の
最大パワー比は計算で求めることができる。図3は、一
般的な母音間のパワー比を示す図である。例えば、“や
まだ”“すずき”“いとう”という各単語の最大音声パ
ワー比は、母音“あ”“う”“お”のパワー比1:0.
72:0.75となる。このパワー比をそのままPvoic
e (r)とすればよい。
求める。例えば、認識対象語を数回発声して最大音声パ
ワーを計算する方法がある。最大音声パワーの計算は、
先の音声認識時の音声入力の場合と同様の手順で計算す
る。音声入力端子INから入力された単語名rの音声信
号は分析部11で特徴ベクトルの時系列信号とパワーP
t(r)に変換される。音声区間検出部では、パワーP
t(r)に基づいて音声区間すなわち音声入力の始端フ
レームAr及び終端フレームBrを決定し、パワーPt
(r)の最大音声パワーPvoice (r)が、(11)式
で求られる。 Pvoice (r)=max{Pt(r)} ………(11) Ar≦t≦Br さらに、複数の発声から音声パワーの最大値を求め、そ
の平均値をPvoice (r)としてもよい。また、標準的
な最大音声パワーを求める方法の例として、認識対象語
の発音表記等から、音声学の知識を利用して標準音声パ
ワーを推定する方法もある。ある単語の最大発声パワー
は、母音部分の最大パワーにほぼ等しい。異種母音間の
パワー比は、ほぼ個人に依らず一定であるとしてよい。
そのため、認識対象語の発音系列がわかれば、単語間の
最大パワー比は計算で求めることができる。図3は、一
般的な母音間のパワー比を示す図である。例えば、“や
まだ”“すずき”“いとう”という各単語の最大音声パ
ワー比は、母音“あ”“う”“お”のパワー比1:0.
72:0.75となる。このパワー比をそのままPvoic
e (r)とすればよい。
【0014】ステップB 音声パワー設定 最大音声パワーPvoice (r)から認識対象語毎にパワ
ー補正係数Tr(r)を設定する。パワー補正係数Tr
(r)とは、全認識対象語の最大値Pvoice の平均値と
個々の補正係数Tr(r)との差であり、(12)及び
(13)式で求める。
ー補正係数Tr(r)を設定する。パワー補正係数Tr
(r)とは、全認識対象語の最大値Pvoice の平均値と
個々の補正係数Tr(r)との差であり、(12)及び
(13)式で求める。
【数3】 以上のように、本実施例では、常に変化する雑音環境や
音声のパワーに対応し、音声検出用閾値を常に更新する
ことができる。また、更新された音声検出用閾値は、認
識対象語自体の本来有するパワー特性が考慮されたもの
である。そのため、音声入力期間の検出の誤りを低減
し、信頼性の高い検出をする。ひいては高い音声認識性
能を得ることができる。なお、本発明は、上記実施例に
限定されず種々の変形が可能である。その変形例として
は、例えば次のようなものがある。 (1) 認識対象音声は単語としているが、単語に限定
されず、目的に応じて、話者の発声、1つの発音、ある
いは単語の連なった言葉等としても本発明は、実施例と
同様の効果を奏する。 (2) 音声候補区間を求め、音声入力の始端及び終端
を求めているが、これら音声入力の始端及び終端を求め
るアルゴリズムには種々の変形が可能である。 (3) 音声認識装置の構成は、図1に限定されず、例
えばパワー補正テーブル17或いは比較パタン記憶部1
4は、外部の別装置や記憶媒体に設置した構成としても
よい。
音声のパワーに対応し、音声検出用閾値を常に更新する
ことができる。また、更新された音声検出用閾値は、認
識対象語自体の本来有するパワー特性が考慮されたもの
である。そのため、音声入力期間の検出の誤りを低減
し、信頼性の高い検出をする。ひいては高い音声認識性
能を得ることができる。なお、本発明は、上記実施例に
限定されず種々の変形が可能である。その変形例として
は、例えば次のようなものがある。 (1) 認識対象音声は単語としているが、単語に限定
されず、目的に応じて、話者の発声、1つの発音、ある
いは単語の連なった言葉等としても本発明は、実施例と
同様の効果を奏する。 (2) 音声候補区間を求め、音声入力の始端及び終端
を求めているが、これら音声入力の始端及び終端を求め
るアルゴリズムには種々の変形が可能である。 (3) 音声認識装置の構成は、図1に限定されず、例
えばパワー補正テーブル17或いは比較パタン記憶部1
4は、外部の別装置や記憶媒体に設置した構成としても
よい。
【0015】
【発明の効果】以上詳細に説明したように、本発明によ
れば、過去の直近の音声入力期間における音声認識結果
に基づいて、音声検出用閾値を更新する処理を実施す
る。即ち、更新された音声検出用閾値は、認識対象語自
体の本来有するパワー特性が考慮されたものである。そ
のため、常に変化する雑音環境や音声のパワーに対応す
ると共に、音声入力期間の検出の誤りを低減して信頼性
の高い検出をする。ひいては高い音声認識性能を得るこ
とができる。
れば、過去の直近の音声入力期間における音声認識結果
に基づいて、音声検出用閾値を更新する処理を実施す
る。即ち、更新された音声検出用閾値は、認識対象語自
体の本来有するパワー特性が考慮されたものである。そ
のため、常に変化する雑音環境や音声のパワーに対応す
ると共に、音声入力期間の検出の誤りを低減して信頼性
の高い検出をする。ひいては高い音声認識性能を得るこ
とができる。
【図1】本発明の音声認識方法を実施する装置例を示す
構成ブロック図である。
構成ブロック図である。
【図2】従来例の音声認識装置を示す構成ブロック図で
ある。
ある。
【図3】一般的な母音間のパワー比を示す図である。
1,11 分析部 2,12 特徴ベクトル記憶部 3,13 音声区間検出部 4,14 比較パタン記憶部 5,15 パタン照合部 16 音声区間記憶部 17 パワー補正テーブル 18 音声検出閾値設定部
Claims (1)
- 【請求項1】 入力信号に対してフレーム毎に該入力信
号のパワー及びその入力信号の特徴を表す第1の特徴ベ
クトルを算出して保存する特徴ベクトル算出処理と、 音声検出用閾値と前記パワーをフレーム毎に比較して前
記入力信号中に音声信号を含んでいる前記フレームを検
出し、音声の入力されている音声入力期間を検出する音
声区間検出処理と、 前記音声入力期間の複数の前記第1の特徴ベクトルで構
成された第1の時系列信号と、複数の認識対象音声にそ
れぞれ対応した複数の第2の特徴ベクトルで構成された
第2の時系列信号とを比較し、該第2の時系列信号のう
ち前記第1の時系列信号に最も類似した時系列信号に対
応した認識対象音声名を求める音声認識処理とを、 行う音声認識方法において、 既に音声認識処理の終了した音声入力期間のうちで過去
の直近の音声入力期間における前記パワーのうちの最大
音声パワーを求める最大音声パワー算出処理と、 前記過去の直近の音声入力期間に対して求められた認識
対象音声名から該認識対象音声に対応した補正係数を求
め、該補正係数で前記最大音声パワーを補正する最大音
声パワー補正処理と、 前記音声入力期間以外の期間の前記パワーから雑音の大
きさを推定する背景雑音パワー推定処理と、 前記最大音声パワー補正処理及び背景雑音パワー推定処
理結果から以後の前記音声区間検出処理に用いられる前
記音声検出用閾値を更新する音声検出閾値更新処理と
を、 実行することを特徴とする音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5236880A JPH0792989A (ja) | 1993-09-22 | 1993-09-22 | 音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5236880A JPH0792989A (ja) | 1993-09-22 | 1993-09-22 | 音声認識方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0792989A true JPH0792989A (ja) | 1995-04-07 |
Family
ID=17007159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP5236880A Pending JPH0792989A (ja) | 1993-09-22 | 1993-09-22 | 音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0792989A (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7050974B1 (en) * | 1999-09-14 | 2006-05-23 | Canon Kabushiki Kaisha | Environment adaptation for speech recognition in a speech communication system |
KR100704302B1 (ko) * | 2003-12-19 | 2007-04-05 | 한국전자통신연구원 | 적응 훈련 기법에 의한 기준 데이터 구축 방법 |
US7991614B2 (en) | 2007-03-20 | 2011-08-02 | Fujitsu Limited | Correction of matching results for speech recognition |
WO2012036305A1 (ja) * | 2010-09-17 | 2012-03-22 | 日本電気株式会社 | 音声認識装置、音声認識方法、及びプログラム |
US8326612B2 (en) | 2007-12-18 | 2012-12-04 | Fujitsu Limited | Non-speech section detecting method and non-speech section detecting device |
US9031841B2 (en) | 2011-12-28 | 2015-05-12 | Fujitsu Limited | Speech recognition apparatus, speech recognition method, and speech recognition program |
US9099088B2 (en) | 2010-04-22 | 2015-08-04 | Fujitsu Limited | Utterance state detection device and utterance state detection method |
JP2019028300A (ja) * | 2017-07-31 | 2019-02-21 | 日本電信電話株式会社 | 音響信号処理装置、方法及びプログラム |
-
1993
- 1993-09-22 JP JP5236880A patent/JPH0792989A/ja active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7050974B1 (en) * | 1999-09-14 | 2006-05-23 | Canon Kabushiki Kaisha | Environment adaptation for speech recognition in a speech communication system |
KR100704302B1 (ko) * | 2003-12-19 | 2007-04-05 | 한국전자통신연구원 | 적응 훈련 기법에 의한 기준 데이터 구축 방법 |
US7991614B2 (en) | 2007-03-20 | 2011-08-02 | Fujitsu Limited | Correction of matching results for speech recognition |
US8326612B2 (en) | 2007-12-18 | 2012-12-04 | Fujitsu Limited | Non-speech section detecting method and non-speech section detecting device |
US8798991B2 (en) | 2007-12-18 | 2014-08-05 | Fujitsu Limited | Non-speech section detecting method and non-speech section detecting device |
US9099088B2 (en) | 2010-04-22 | 2015-08-04 | Fujitsu Limited | Utterance state detection device and utterance state detection method |
WO2012036305A1 (ja) * | 2010-09-17 | 2012-03-22 | 日本電気株式会社 | 音声認識装置、音声認識方法、及びプログラム |
US9031841B2 (en) | 2011-12-28 | 2015-05-12 | Fujitsu Limited | Speech recognition apparatus, speech recognition method, and speech recognition program |
JP2019028300A (ja) * | 2017-07-31 | 2019-02-21 | 日本電信電話株式会社 | 音響信号処理装置、方法及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1355296B1 (en) | Keyword detection in a speech signal | |
US8271283B2 (en) | Method and apparatus for recognizing speech by measuring confidence levels of respective frames | |
US20070088548A1 (en) | Device, method, and computer program product for determining speech/non-speech | |
JP3451146B2 (ja) | スペクトルサブトラクションを用いた雑音除去システムおよび方法 | |
US20120239401A1 (en) | Voice recognition system and voice recognition method | |
JP2780676B2 (ja) | 音声認識装置及び音声認識方法 | |
US4991216A (en) | Method for speech recognition | |
JP2969862B2 (ja) | 音声認識装置 | |
JPH0792989A (ja) | 音声認識方法 | |
WO1997040491A1 (en) | Method and recognizer for recognizing tonal acoustic sound signals | |
JP4666129B2 (ja) | 発声速度正規化分析を用いた音声認識装置 | |
JP2817429B2 (ja) | 音声認識装置 | |
JP3493849B2 (ja) | 音声認識装置 | |
JP3026855B2 (ja) | 音声認識装置 | |
JP3007357B2 (ja) | 音声認識装置の辞書更新方式 | |
JPH0643893A (ja) | 音声認識方法 | |
JPH0619491A (ja) | 音声認識装置 | |
JPH0772899A (ja) | 音声認識装置 | |
JP2577891B2 (ja) | 単語音声予備選択装置 | |
JP3704080B2 (ja) | 音声認識方法及び音声認識装置並びに音声認識プログラム | |
JP3083855B2 (ja) | 音声認識方法及び装置 | |
JP3422822B2 (ja) | 音声認識装置 | |
JPH0627992A (ja) | 音声認識装置 | |
JPH096384A (ja) | 音声認識装置 | |
JPH05108088A (ja) | 音声区間検出装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20000118 |