JP2002287781A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JP2002287781A JP2002287781A JP2001085791A JP2001085791A JP2002287781A JP 2002287781 A JP2002287781 A JP 2002287781A JP 2001085791 A JP2001085791 A JP 2001085791A JP 2001085791 A JP2001085791 A JP 2001085791A JP 2002287781 A JP2002287781 A JP 2002287781A
- Authority
- JP
- Japan
- Prior art keywords
- data sequence
- frame
- speech
- recognition
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【課題】サブフレーム分析により始端位置と認識対象の
語頭を正確に検出して音声認識の認識率を向上すること
が出来る音声認識装置を提供する。 【解決手段】フレーム設定手段2は入力する学習用音声
データ列及び入力音声データ列の始端を検出し、処理対
象の音声データ列の中心がフレームの中心近辺になるよ
うにフレーム位置を設定する。音声分析手段3は学習用
音声データ列及び入力音声データ列に対しそれぞれ特徴
パラメータを算出し、標準パターン及び認識用パターン
を出力する。パターン照合手段44は認識用パターンと
標準パターンとの照合を行い、認識用パターンに類似度
が近い標準パターンに対応した文字列を辞書ファイル7
から音声認識結果として出力する。
語頭を正確に検出して音声認識の認識率を向上すること
が出来る音声認識装置を提供する。 【解決手段】フレーム設定手段2は入力する学習用音声
データ列及び入力音声データ列の始端を検出し、処理対
象の音声データ列の中心がフレームの中心近辺になるよ
うにフレーム位置を設定する。音声分析手段3は学習用
音声データ列及び入力音声データ列に対しそれぞれ特徴
パラメータを算出し、標準パターン及び認識用パターン
を出力する。パターン照合手段44は認識用パターンと
標準パターンとの照合を行い、認識用パターンに類似度
が近い標準パターンに対応した文字列を辞書ファイル7
から音声認識結果として出力する。
Description
【0001】
【発明の属する技術分野】本発明は音声認識率を向上し
た音声認識装置に関する。
た音声認識装置に関する。
【0002】
【従来の技術】従来の音声認識装置を、図4に示す概略
構成図を参照して説明すると、41は音声入力手段であ
り、マイクロホン等を介して入力される音声信号をロー
パスフィルタでサンプリング周波数の1/2周波数(ナ
イキスト周波数)以下に帯域制限し、ローパスフィルタ
から出力されるアナログ音声信号をサンプリング周波数
でディジタル音声信号に変換する。
構成図を参照して説明すると、41は音声入力手段であ
り、マイクロホン等を介して入力される音声信号をロー
パスフィルタでサンプリング周波数の1/2周波数(ナ
イキスト周波数)以下に帯域制限し、ローパスフィルタ
から出力されるアナログ音声信号をサンプリング周波数
でディジタル音声信号に変換する。
【0003】図5は、入力音声信号が“さっぽろ”(札
幌)の場合の信号波形図であり、時刻t1で始まり時刻
t2で完了する“さっ”と時刻t3で始まり時刻t4で
完了する“ぽろ”とから構成される。
幌)の場合の信号波形図であり、時刻t1で始まり時刻
t2で完了する“さっ”と時刻t3で始まり時刻t4で
完了する“ぽろ”とから構成される。
【0004】また図4の42は、音声認識用の標準パタ
ーンを生成するための入力音声データ列を格納する学習
用音声データ格納手段であり、学習音声データ列として
は、例えば“さっぽろ”、“とうきょう”、“おおさ
か”などを用いる。
ーンを生成するための入力音声データ列を格納する学習
用音声データ格納手段であり、学習音声データ列として
は、例えば“さっぽろ”、“とうきょう”、“おおさ
か”などを用いる。
【0005】また43は音声分析手段であり、入力音声
データ列と学習用音声データ列に含まれる雑音除去処
理、分析窓の時間軸方向の設定すなわち分析窓の長さ及
び位置の設定と、窓関数の設定、FFT分析(高速フー
リエ変換による周波数分析)、ケプストラム分析などの
処理を、入力音声データ列または学習用音声データ列に
対して実行し、処理結果として学習用音声データ列に対
しては標準パターン格納手段44に標準パターンを出力
し、認識対象の入力音声データ列に対しては認識用パタ
ーンを出力する。
データ列と学習用音声データ列に含まれる雑音除去処
理、分析窓の時間軸方向の設定すなわち分析窓の長さ及
び位置の設定と、窓関数の設定、FFT分析(高速フー
リエ変換による周波数分析)、ケプストラム分析などの
処理を、入力音声データ列または学習用音声データ列に
対して実行し、処理結果として学習用音声データ列に対
しては標準パターン格納手段44に標準パターンを出力
し、認識対象の入力音声データ列に対しては認識用パタ
ーンを出力する。
【0006】ここで窓関数としては、図6に示すハニン
グ窓の他に、ハミング窓、Blackman−Tuke
y窓等の種々の窓関数が提案されている。
グ窓の他に、ハミング窓、Blackman−Tuke
y窓等の種々の窓関数が提案されている。
【0007】また45はパターン照合手段であり、“さ
っぽろ”、“とうきょう”、“おおさか”などのテキス
トデータが格納された辞書ファイル46を参照し、音声
分析手段43から出力される認識用パターンと、標準パ
ターン格納手段44に格納された標準パターンとの照合
を行う。そして、標準パターンの候補の中から、認識用
パターンに類似度が近い標準パターンに対応した文字列
を辞書ファイル46から順に音声認識結果として出力す
る。
っぽろ”、“とうきょう”、“おおさか”などのテキス
トデータが格納された辞書ファイル46を参照し、音声
分析手段43から出力される認識用パターンと、標準パ
ターン格納手段44に格納された標準パターンとの照合
を行う。そして、標準パターンの候補の中から、認識用
パターンに類似度が近い標準パターンに対応した文字列
を辞書ファイル46から順に音声認識結果として出力す
る。
【0008】次に上記に説明した従来の音声認識装置の
動作について、概略説明する。
動作について、概略説明する。
【0009】最初に、音声入力手段41を介して標準パ
ターンを生成するための多数の学習用音声信号を入力
し、学習用音声データ列として学習用音声データ格納手
段42に取り込む。
ターンを生成するための多数の学習用音声信号を入力
し、学習用音声データ列として学習用音声データ格納手
段42に取り込む。
【0010】次に音声分析手段43は、学習用音声デー
タ列に対して分析窓の時間軸方向の設定と窓関数の設定
を行い、FFT分析などのスペクトラム解析とケプスト
ラム分析などの処理を行って特徴パラメータを算出し、
標準パターン格納手段44に隠れマルコフモデル(HM
M)に基づく音響モデルを出力する。このような手順で
標準パターン格納手段44に、多数の音響モデル群から
なる標準パターンを用意しておく。
タ列に対して分析窓の時間軸方向の設定と窓関数の設定
を行い、FFT分析などのスペクトラム解析とケプスト
ラム分析などの処理を行って特徴パラメータを算出し、
標準パターン格納手段44に隠れマルコフモデル(HM
M)に基づく音響モデルを出力する。このような手順で
標準パターン格納手段44に、多数の音響モデル群から
なる標準パターンを用意しておく。
【0011】次に音声分析手段43は、音声入力手段4
1を介して認識用パターンを生成するための認識対象の
音声データ列を入力し、学習用音声データ列に対して行
った処理と同様な処理を行い、認識用パターンを出力す
る。
1を介して認識用パターンを生成するための認識対象の
音声データ列を入力し、学習用音声データ列に対して行
った処理と同様な処理を行い、認識用パターンを出力す
る。
【0012】そしてパターン照合手段45は、辞書ファ
イル46を参照し、音声分析手段43から出力される認
識用パターンと、標準パターン格納手段44からの標準
パターンとの照合を行い、認識用パターンに類似度が近
い標準パターンに対応した文字列を辞書ファイル46か
ら順に音声認識結果として出力する。
イル46を参照し、音声分析手段43から出力される認
識用パターンと、標準パターン格納手段44からの標準
パターンとの照合を行い、認識用パターンに類似度が近
い標準パターンに対応した文字列を辞書ファイル46か
ら順に音声認識結果として出力する。
【0013】
【発明が解決しようとする課題】上記に説明した従来の
音声認識装置は、音声認識率を向上させるために種々の
工夫がなされている。例えば、音声認識率を向上させる
ために、大量の学習用音声データ列を用いて、対応する
標準パターンを作成することが行われている。しかしな
がらこの方法は、多数の話者からの入力音声信号を取り
込んだ上で、膨大な音声データ列を処理しなければなら
ないので多大な工数と費用がかかっているのが実状であ
る。
音声認識装置は、音声認識率を向上させるために種々の
工夫がなされている。例えば、音声認識率を向上させる
ために、大量の学習用音声データ列を用いて、対応する
標準パターンを作成することが行われている。しかしな
がらこの方法は、多数の話者からの入力音声信号を取り
込んだ上で、膨大な音声データ列を処理しなければなら
ないので多大な工数と費用がかかっているのが実状であ
る。
【0014】また学習用音声データ列を一部加工し、加
工した学習用音声編集データからなる標準パターンを生
成し、これを標準パターン格納手段44に加えること
で、音声認識率を向上させることが考えられている。
工した学習用音声編集データからなる標準パターンを生
成し、これを標準パターン格納手段44に加えること
で、音声認識率を向上させることが考えられている。
【0015】例えば、学習用音声データ列に想定される
各種のノイズを重畳させた学習用音声編集データを作成
し、この学習用音声編集データから標準編集パターンを
作成することが行われている。
各種のノイズを重畳させた学習用音声編集データを作成
し、この学習用音声編集データから標準編集パターンを
作成することが行われている。
【0016】しかしながら上述したような音声認識率を
向上させるための方法は、入力音声データ列または学習
用音声データ列を音声分析手段43で処理する際、音声
データ列の始端とフレームの左端とが非同期であるため
に処理すべき音声データ列が歪んでしまうという問題に
対しては、全く効果が無い。
向上させるための方法は、入力音声データ列または学習
用音声データ列を音声分析手段43で処理する際、音声
データ列の始端とフレームの左端とが非同期であるため
に処理すべき音声データ列が歪んでしまうという問題に
対しては、全く効果が無い。
【0017】すなわち、音声データ列の始端とフレーム
の左端とが非同期であるため、これらの距離が一定とな
らず、特徴パラメータを算出すべき音声データ列を、窓
関数により著しく変形させてしまうという問題がある。
の左端とが非同期であるため、これらの距離が一定とな
らず、特徴パラメータを算出すべき音声データ列を、窓
関数により著しく変形させてしまうという問題がある。
【0018】次に上述した問題について、図5(b)、
(c)を参照して具体的に説明する。
(c)を参照して具体的に説明する。
【0019】図5(b)は、図5(a)に示す信号波形
図に対し、第1フレーム51、第2フレーム52、第3
フレーム53、・・を設定した図であり、通常各フレー
ムは一定長で設定される。各フレームの音声データ列に
対してFFT処理するために、図6に示すような窓関数
が設定される。図5(c)は、第1フレーム51に対し
図6に示すハニング窓が設定された例である。
図に対し、第1フレーム51、第2フレーム52、第3
フレーム53、・・を設定した図であり、通常各フレー
ムは一定長で設定される。各フレームの音声データ列に
対してFFT処理するために、図6に示すような窓関数
が設定される。図5(c)は、第1フレーム51に対し
図6に示すハニング窓が設定された例である。
【0020】この図からわかるように、さっ”の最初の
音素が第1フレーム51の右端に位置するので、ハニン
グ窓によりこの音素が殆ど0に近い値に抑圧され、元の
音声データ列を著しく変形してしまい、正確な特徴パラ
メータを算出することが出来ないという問題が生じる。
音素が第1フレーム51の右端に位置するので、ハニン
グ窓によりこの音素が殆ど0に近い値に抑圧され、元の
音声データ列を著しく変形してしまい、正確な特徴パラ
メータを算出することが出来ないという問題が生じる。
【0021】この為本発明の目的は、サブフレーム分析
により始端位置を精度良く検出することで、認識対象の
語頭が正確に検出され認識率が優れた音声認識装置を提
供することにある。
により始端位置を精度良く検出することで、認識対象の
語頭が正確に検出され認識率が優れた音声認識装置を提
供することにある。
【0022】また本発明の目的は、フレームを複数のサ
ブフレームで構成し音声データ列の始端がどのサブフレ
ームに入っているかを検出し、処理対象の音声データ列
の中心がフレームの中心部近辺になるようにフレーム位
置を調整することによって、音声データ列が窓関数によ
り歪まずに特徴パラメータを算出することができる音声
認識装置を提供することにある。
ブフレームで構成し音声データ列の始端がどのサブフレ
ームに入っているかを検出し、処理対象の音声データ列
の中心がフレームの中心部近辺になるようにフレーム位
置を調整することによって、音声データ列が窓関数によ
り歪まずに特徴パラメータを算出することができる音声
認識装置を提供することにある。
【0023】
【課題を解決するための手段】そのため、本発明による
音声認識装置は、時系列に入力する入力音声データ列を
フレーム毎に分析して、前記入力音声データ列に対する
音声認識結果を生成する音声認識装置において、前記入
力音声データ列の開始を表す始端を検出し、前記始端か
ら始まる前記音声データ列が前記フレーム内に入るよう
に前記フレームの位置を設定し、設定したフレーム情報
と前記音声データ列とを出力するフレーム設定手段と、
学習用前記音声データ列を前記フレーム設定手段に入力
して得られた音声データ列から、この音声データ列の特
徴を表す標準パターンを生成すると共に、認識対象の前
記音声データ列を前記フレーム設定手段に入力して得ら
れた音声データ列から、この音声データ列の特徴を表す
認識用パターンを生成する音声分析手段と、前記認識用
音声データ列に対応した文字列が格納された辞書ファイ
ルと、前記標準パターンと前記認識用パターンとを照合
して、前記認識用パターンに類似度が近い前記標準パタ
ーンに対応した前記文字列を前記辞書ファイルから前記
音声認識結果として出力するパターン照合手段と、を備
えている。
音声認識装置は、時系列に入力する入力音声データ列を
フレーム毎に分析して、前記入力音声データ列に対する
音声認識結果を生成する音声認識装置において、前記入
力音声データ列の開始を表す始端を検出し、前記始端か
ら始まる前記音声データ列が前記フレーム内に入るよう
に前記フレームの位置を設定し、設定したフレーム情報
と前記音声データ列とを出力するフレーム設定手段と、
学習用前記音声データ列を前記フレーム設定手段に入力
して得られた音声データ列から、この音声データ列の特
徴を表す標準パターンを生成すると共に、認識対象の前
記音声データ列を前記フレーム設定手段に入力して得ら
れた音声データ列から、この音声データ列の特徴を表す
認識用パターンを生成する音声分析手段と、前記認識用
音声データ列に対応した文字列が格納された辞書ファイ
ルと、前記標準パターンと前記認識用パターンとを照合
して、前記認識用パターンに類似度が近い前記標準パタ
ーンに対応した前記文字列を前記辞書ファイルから前記
音声認識結果として出力するパターン照合手段と、を備
えている。
【0024】
【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して説明する。
て図面を参照して説明する。
【0025】図1は、本発明の第1の実施の形態による
音声認識装置の概略構成図であり、図4に示す従来の音
声認識装置に対して、フレーム設定手段2を設けている
点が大きく異なる。このため、図4の音声分析手段43
で行っていた分析窓の時間軸方向の設定すなわち分析窓
の長さ及び位置の設定については、フレーム設定手段2
で行うようにしている。その他の処理については、図4
に示す従来の音声認識装置を構成する構成要素とほぼ同
様な処理を行う。
音声認識装置の概略構成図であり、図4に示す従来の音
声認識装置に対して、フレーム設定手段2を設けている
点が大きく異なる。このため、図4の音声分析手段43
で行っていた分析窓の時間軸方向の設定すなわち分析窓
の長さ及び位置の設定については、フレーム設定手段2
で行うようにしている。その他の処理については、図4
に示す従来の音声認識装置を構成する構成要素とほぼ同
様な処理を行う。
【0026】次に図1に示す概略構成図を参照して説明
すると、1は音声入力手段であり、マイクロホン等を介
して入力される音声信号をローパスフィルタでナイキス
ト周波数以下に帯域制限し、ローパスフィルタから出力
されるアナログ音声信号をA/Dコンバータを用いてサ
ンプリング周波数でディジタル音声信号に変換する。
すると、1は音声入力手段であり、マイクロホン等を介
して入力される音声信号をローパスフィルタでナイキス
ト周波数以下に帯域制限し、ローパスフィルタから出力
されるアナログ音声信号をA/Dコンバータを用いてサ
ンプリング周波数でディジタル音声信号に変換する。
【0027】2はフレーム設定手段であり、入力音声デ
ータ列の始端を検出し、処理対象の音声データ列の中心
がフレームの中心近辺になるようにフレーム位置を設定
する。また5は、音声認識用の標準パターンを生成する
ために、フレーム設定手段2から出力された入力音声デ
ータ列とフレーム情報とを格納する学習用音声データ格
納手段である。
ータ列の始端を検出し、処理対象の音声データ列の中心
がフレームの中心近辺になるようにフレーム位置を設定
する。また5は、音声認識用の標準パターンを生成する
ために、フレーム設定手段2から出力された入力音声デ
ータ列とフレーム情報とを格納する学習用音声データ格
納手段である。
【0028】さらに3は音声分析手段であり、フレーム
設定手段2から出力された入力音声データ列と学習用音
声データ列に含まれる雑音除去処理、窓関数の設定、F
FT分析、ケプストラム分析などの処理を、入力音声デ
ータ列または学習用音声データ列に対して実行し、処理
結果として学習用音声データ列に対しては、標準パター
ン格納手段6に隠れマルコフモデル(HMM)に基づく
音響モデルを出力する。このような手順で標準パターン
格納手段6に、多数の音響モデル群からなる標準パター
ンを用意しておく。そして、認識対象の入力音声データ
列に対しても同様に、多数の音響モデル群からなる認識
用パターンをパターン照合手段4出力する。
設定手段2から出力された入力音声データ列と学習用音
声データ列に含まれる雑音除去処理、窓関数の設定、F
FT分析、ケプストラム分析などの処理を、入力音声デ
ータ列または学習用音声データ列に対して実行し、処理
結果として学習用音声データ列に対しては、標準パター
ン格納手段6に隠れマルコフモデル(HMM)に基づく
音響モデルを出力する。このような手順で標準パターン
格納手段6に、多数の音響モデル群からなる標準パター
ンを用意しておく。そして、認識対象の入力音声データ
列に対しても同様に、多数の音響モデル群からなる認識
用パターンをパターン照合手段4出力する。
【0029】また4はパターン照合手段であり、認識対
象語彙のテキストデータが格納された辞書ファイル7を
参照し、音声分析手段3から出力される認識用パターン
と、標準パターン格納手段6に格納された標準パターン
との照合を行う。そして、認識用パターンに類似度が近
い標準パターンに対応した文字列を辞書ファイル7から
順に音声認識結果として出力する。
象語彙のテキストデータが格納された辞書ファイル7を
参照し、音声分析手段3から出力される認識用パターン
と、標準パターン格納手段6に格納された標準パターン
との照合を行う。そして、認識用パターンに類似度が近
い標準パターンに対応した文字列を辞書ファイル7から
順に音声認識結果として出力する。
【0030】次に上記に説明した第1の実施の形態によ
る本発明の音声認識装置の動作について、概略説明す
る。
る本発明の音声認識装置の動作について、概略説明す
る。
【0031】最初に、音声入力手段1を介して標準パタ
ーンを生成するための多数の学習用音声データ列を順次
フレーム設定手段2に取り込む。
ーンを生成するための多数の学習用音声データ列を順次
フレーム設定手段2に取り込む。
【0032】次にフレーム設定手段2は、音声入力手段
1から出力された各学習用音声データ列の始端を検出
し、処理対象のフレーム長の幅を有する音声データ列の
中心がフレームの中心近辺になるようにフレーム位置を
設定する。ここで音声データ列の中心の算出方法として
は、音声データ列が存在する範囲の中心位置を算出する
方法、音声データ列の加重平均の位置を算出する方法な
ど様々な方法がある。
1から出力された各学習用音声データ列の始端を検出
し、処理対象のフレーム長の幅を有する音声データ列の
中心がフレームの中心近辺になるようにフレーム位置を
設定する。ここで音声データ列の中心の算出方法として
は、音声データ列が存在する範囲の中心位置を算出する
方法、音声データ列の加重平均の位置を算出する方法な
ど様々な方法がある。
【0033】次に音声分析手段3でFFT処理を行う
が、このFFT処理は非同期信号に関しては周波数分解
性能が低下するということが知られている。このためF
FT処理する期間の音声データ列を周期関数として扱う
ために、図6のように左端及び右端で漸近的に0に収束
する窓関数を音声データ列に乗じて音声データ列を近似
して、近似した音声データ列をFFT処理することで周
波数分解精度を向上させている。
が、このFFT処理は非同期信号に関しては周波数分解
性能が低下するということが知られている。このためF
FT処理する期間の音声データ列を周期関数として扱う
ために、図6のように左端及び右端で漸近的に0に収束
する窓関数を音声データ列に乗じて音声データ列を近似
して、近似した音声データ列をFFT処理することで周
波数分解精度を向上させている。
【0034】しかしながら一般的には、近似された音声
データ列のフレーム両端近辺の値は、窓関数の乗算によ
り大きく変わり、従来の音声認識装置で説明したよう
に、特徴パラメータの算出に大きな影響を与える。
データ列のフレーム両端近辺の値は、窓関数の乗算によ
り大きく変わり、従来の音声認識装置で説明したよう
に、特徴パラメータの算出に大きな影響を与える。
【0035】従って、窓関数が中心に対して左右対称で
ある場合は、フレームの中心に窓関数の中心を設定し、
かつ音声データ列の中心を合わせるように設定すれば、
窓関数の両端で抑圧される音声データ列は、特徴パラメ
ータの算出には実際上の影響を及ぼさないとして扱うこ
とが出来る。
ある場合は、フレームの中心に窓関数の中心を設定し、
かつ音声データ列の中心を合わせるように設定すれば、
窓関数の両端で抑圧される音声データ列は、特徴パラメ
ータの算出には実際上の影響を及ぼさないとして扱うこ
とが出来る。
【0036】またFFT処理では、2n(nは整数)で
サンプリングされるので、サブフレームの数は1/2n
である必要がある。具体的には、1/2,1/4,1/
8,・・・であるが、1/2ではサブフレーム数が少な
すぎて始端の検出精度が粗く、1/8以上では始端位置
を精度良く検出することが出来るが処理量が大きくなる
ので、n=4の場合すなわち1/4程度が妥当である。
サンプリングされるので、サブフレームの数は1/2n
である必要がある。具体的には、1/2,1/4,1/
8,・・・であるが、1/2ではサブフレーム数が少な
すぎて始端の検出精度が粗く、1/8以上では始端位置
を精度良く検出することが出来るが処理量が大きくなる
ので、n=4の場合すなわち1/4程度が妥当である。
【0037】図2(a),(b)を参照して具体的に説
明すると、図2(a)は図5に示す音声信号に対してフ
レーム21〜24・・・と各フレーム21〜24・・・
を構成するサブフレーム211〜214,221〜22
4・・・を初期設定した図を示しており、フレームの初
期設定としては従来の音声認識装置と同様な方法を用い
る。
明すると、図2(a)は図5に示す音声信号に対してフ
レーム21〜24・・・と各フレーム21〜24・・・
を構成するサブフレーム211〜214,221〜22
4・・・を初期設定した図を示しており、フレームの初
期設定としては従来の音声認識装置と同様な方法を用い
る。
【0038】次にフレーム設定手段2は、各サブフレー
ムに音声データ列が存在するか否かを検出する。この検
出方法の例としては、各サブフレームの音声パワーを算
出し、算出結果が設定したしきい値よりも大きい場合は
音声データ列の可能性があると判定し、しきい値よりも
小さい場合は雑音であると判定する。
ムに音声データ列が存在するか否かを検出する。この検
出方法の例としては、各サブフレームの音声パワーを算
出し、算出結果が設定したしきい値よりも大きい場合は
音声データ列の可能性があると判定し、しきい値よりも
小さい場合は雑音であると判定する。
【0039】そして音声データ列があると判定された場
合は、連続する次のサブフレームに音声データ列が存在
するか否かを判定し、音声データ列が存在すると判定さ
れた場合は、最終的に音声データ列と判定し、直前のサ
ブフレームの左端または中心の位置を始端として設定す
る。
合は、連続する次のサブフレームに音声データ列が存在
するか否かを判定し、音声データ列が存在すると判定さ
れた場合は、最終的に音声データ列と判定し、直前のサ
ブフレームの左端または中心の位置を始端として設定す
る。
【0040】1つのサブフレームだけで音声データ列で
あるか否かを判定すると、雑音を音声データ列として誤
判定してしまうことがあり、本発明の音声認識装置で
は、連続したサブフレームで音声データ列の判定を連続
して行い、雑音による誤判定を防いでいる。
あるか否かを判定すると、雑音を音声データ列として誤
判定してしまうことがあり、本発明の音声認識装置で
は、連続したサブフレームで音声データ列の判定を連続
して行い、雑音による誤判定を防いでいる。
【0041】図2(a)の場合は、フレーム21を構成
するサブフレーム214に音声データ列があると判定さ
れ、サブフレーム214に連続したサブフレーム221
にも音声データ列があると判定されるため、サブフレー
ム214,221にあるデータは音声データ列であると
最終的に判定される。
するサブフレーム214に音声データ列があると判定さ
れ、サブフレーム214に連続したサブフレーム221
にも音声データ列があると判定されるため、サブフレー
ム214,221にあるデータは音声データ列であると
最終的に判定される。
【0042】そして図2(b)に示すように、フレーム
21’の中心を音声データ列の中心に位置するように設
定し、フレーム22’をフレーム21’に合わせて設定
する。同様に、フレーム23’はフレーム22’に合わ
せて設定する。
21’の中心を音声データ列の中心に位置するように設
定し、フレーム22’をフレーム21’に合わせて設定
する。同様に、フレーム23’はフレーム22’に合わ
せて設定する。
【0043】図2(b)から明らかなように、フレーム
21’の中心位置を音声データ列の中心位置になるよう
に時間軸方向の設定をすると、窓関数によりフレーム2
1’の左辺近辺または右辺近辺で音声データ列が0に近
い値に抑圧されても、音声データ列が大きく歪むことは
ない。このため、音声分析手段3で精度良く特徴パラメ
ータを抽出することが出来る。
21’の中心位置を音声データ列の中心位置になるよう
に時間軸方向の設定をすると、窓関数によりフレーム2
1’の左辺近辺または右辺近辺で音声データ列が0に近
い値に抑圧されても、音声データ列が大きく歪むことは
ない。このため、音声分析手段3で精度良く特徴パラメ
ータを抽出することが出来る。
【0044】次に音声分析手段3は、学習用音声データ
列に対して、FFT分析などのスペクトラム解析とケプ
ストラム分析などの処理を行って特徴パラメータを算出
し、標準パターン格納手段6に隠れマルコフモデル(H
MM)に基づく音響モデルを出力する。このような手順
で標準パターン格納手段6に、多数の音響モデル群から
なる標準パターンを用意しておく。
列に対して、FFT分析などのスペクトラム解析とケプ
ストラム分析などの処理を行って特徴パラメータを算出
し、標準パターン格納手段6に隠れマルコフモデル(H
MM)に基づく音響モデルを出力する。このような手順
で標準パターン格納手段6に、多数の音響モデル群から
なる標準パターンを用意しておく。
【0045】次にフレーム設定手段2は、上記に説明し
た学習用音声データ列の場合と同様に、認識対象の入力
音声データ列についても入力音声データ列の始端を検出
し、処理対象の音声データ列の中心がフレームの中心近
辺になるようにフレーム位置を設定する。
た学習用音声データ列の場合と同様に、認識対象の入力
音声データ列についても入力音声データ列の始端を検出
し、処理対象の音声データ列の中心がフレームの中心近
辺になるようにフレーム位置を設定する。
【0046】次に音声分析手段3は、音声入力手段1と
フレーム設定手段2を介して認識用パターンを生成する
ための認識対象の音声データ列を入力し、学習用音声デ
ータ列に対して行った処理と同様な処理を行い、認識用
パターンを出力する。
フレーム設定手段2を介して認識用パターンを生成する
ための認識対象の音声データ列を入力し、学習用音声デ
ータ列に対して行った処理と同様な処理を行い、認識用
パターンを出力する。
【0047】そしてパターン照合手段4は、辞書ファイ
ル7を参照し、音声分析手段3から出力される認識用パ
ターンと、標準パターン格納手段6からの標準パターン
との照合を行い、認識用パターンに類似度が近い標準パ
ターンに対応した文字列を辞書ファイル7から順に音声
認識結果として出力する。
ル7を参照し、音声分析手段3から出力される認識用パ
ターンと、標準パターン格納手段6からの標準パターン
との照合を行い、認識用パターンに類似度が近い標準パ
ターンに対応した文字列を辞書ファイル7から順に音声
認識結果として出力する。
【0048】なお上記の説明において、フレームの中心
位置を音声データ列の中心位置になるように設定すると
して説明したが、厳密にフレームの中心位置と音声デー
タ列の中心位置とが一致する必要はなく、音声データ列
の存在範囲がフレーム内に入るようにするだけであって
も良い。
位置を音声データ列の中心位置になるように設定すると
して説明したが、厳密にフレームの中心位置と音声デー
タ列の中心位置とが一致する必要はなく、音声データ列
の存在範囲がフレーム内に入るようにするだけであって
も良い。
【0049】さらに、音声データ列の始端がフレームの
始点から一定時間後、例えばフレームの始端から23m
sec後になるようにフレームを設定するようにしても
良い。こうすることにより、確実に音声データ列の語頭
を検出することができ音声認識率を向上することが出来
る。
始点から一定時間後、例えばフレームの始端から23m
sec後になるようにフレームを設定するようにしても
良い。こうすることにより、確実に音声データ列の語頭
を検出することができ音声認識率を向上することが出来
る。
【0050】次に、本発明の第2の実施の形態について
図3を参照して説明する。
図3を参照して説明する。
【0051】図3は、本発明の第2の実施の形態による
音声認識装置の概略構成図であり、図1に示す音声認識
装置の概略構成図とは、学習用音声データ格納手段42
と学習用音声編集データ格納手段8とを設けている点が
異なっている。
音声認識装置の概略構成図であり、図1に示す音声認識
装置の概略構成図とは、学習用音声データ格納手段42
と学習用音声編集データ格納手段8とを設けている点が
異なっている。
【0052】音声入力手段1を介して多量の音声データ
列をこの学習用音声データ格納手段42に格納し、フレ
ーム設定手段2は学習用音声データ格納手段42に格納
された学習用音声データ列を入力し、上述した第1の実
施の形態で説明した方法により入力音声データ列の始端
を検出し、処理対象の音声データ列の中心がフレームの
中心近辺になるようにフレーム位置を設定し、学習用音
声データ列と、フレームの中心近辺が音声データ列の中
心近辺となるように設定されたフレーム情報とを学習用
音声編集データ格納手段8に出力する。
列をこの学習用音声データ格納手段42に格納し、フレ
ーム設定手段2は学習用音声データ格納手段42に格納
された学習用音声データ列を入力し、上述した第1の実
施の形態で説明した方法により入力音声データ列の始端
を検出し、処理対象の音声データ列の中心がフレームの
中心近辺になるようにフレーム位置を設定し、学習用音
声データ列と、フレームの中心近辺が音声データ列の中
心近辺となるように設定されたフレーム情報とを学習用
音声編集データ格納手段8に出力する。
【0053】本実施の形態による音声認識装置は、従来
の音声認識装置で使用され、学習用音声データ格納手段
42に格納された膨大な学習用音声データ列を再利用す
ることにより、標準パターンの作成を効率よく行うこと
ができる。すなわち図1に示す学習用音声データ格納手
段5に学習用音声データ列を入力することなく、フレー
ム設定手段2と音声分析手段3の処理を行うことによ
り、標準パターンを生成することが可能である。
の音声認識装置で使用され、学習用音声データ格納手段
42に格納された膨大な学習用音声データ列を再利用す
ることにより、標準パターンの作成を効率よく行うこと
ができる。すなわち図1に示す学習用音声データ格納手
段5に学習用音声データ列を入力することなく、フレー
ム設定手段2と音声分析手段3の処理を行うことによ
り、標準パターンを生成することが可能である。
【0054】
【発明の効果】以上説明したように本発明による音声認
識装置は、サブフレーム分析により始端位置を精度良く
検出することで、認識対象の語頭が正確に検出でき音声
認識の認識率を向上することが出来る。
識装置は、サブフレーム分析により始端位置を精度良く
検出することで、認識対象の語頭が正確に検出でき音声
認識の認識率を向上することが出来る。
【0055】また、フレームを複数のサブフレームで構
成し音声データ列の始端がどのサブフレームに入ってい
るかを検出し、処理対象の音声データ列の中心がフレー
ムの中心近辺になるようにフレーム位置を調整すること
によって、音声データ列が窓関数により歪まず、特徴パ
ラメータを精度良く算出することができる。
成し音声データ列の始端がどのサブフレームに入ってい
るかを検出し、処理対象の音声データ列の中心がフレー
ムの中心近辺になるようにフレーム位置を調整すること
によって、音声データ列が窓関数により歪まず、特徴パ
ラメータを精度良く算出することができる。
【図1】本発明の音声認識装置の第1の実施の形態を示
す概略構成図である。
す概略構成図である。
【図2】図1に示すフレーム設定手段2の動作を説明す
るための説明図である。
るための説明図である。
【図3】本発明の音声認識装置の第2の実施の形態を示
す概略構成図である。
す概略構成図である。
【図4】従来の音声認識装置の概略構成図である。
【図5】入力音声信号の一例を示す信号波形図である。
【図6】窓関数の一例であるハニング窓において、変数
xと関数値との関係を示す図である。
xと関数値との関係を示す図である。
1,41 音声入力手段 2 フレーム設定手段 3,43 音声分析手段 4,45 パターン照合手段 5,42 学習用音声データ格納手段 6,44 標準パターン格納手段 7,46 辞書ファイル 8 学習用音声編集データ格納手段
Claims (9)
- 【請求項1】 時系列に入力する入力音声データ列をフ
レーム毎に分析して、前記入力音声データ列に対する音
声認識結果を生成する音声認識装置において、 前記入力音声データ列の開始を表す始端を検出し、前記
始端から始まる前記音声データ列が前記フレーム内に入
るように前記フレームの位置を設定し、設定したフレー
ム情報と前記音声データ列とを出力するフレーム設定手
段と、 学習用前記音声データ列を前記フレーム設定手段に入力
して得られた音声データ列から、この音声データ列の特
徴を表す標準パターンを生成すると共に、認識対象の前
記音声データ列を前記フレーム設定手段に入力して得ら
れた音声データ列から、この音声データ列の特徴を表す
認識用パターンを生成する音声分析手段と、 前記認識対象の音声データ列に対応した文字列が格納さ
れた辞書ファイルと、 前記標準パターンと前記認識用パターンとを照合して、
前記認識用パターンに類似度が近い前記標準パターンに
対応した前記文字列を前記辞書ファイルから前記音声認
識結果として出力するパターン照合手段と、を備える音
声認識装置。 - 【請求項2】 前記学習用音声データ列と前記フレーム
情報とを格納し、これらを前記音声分析手段に出力する
学習用音声データ格納手段と、 前記標準パターンを格納し、この標準パターンを前記パ
ターン照合手段に出力する標準パターン格納手段と、を
設けた請求項1記載の音声認識装置。 - 【請求項3】 時系列に入力する入力音声データ列をフ
レーム毎に分析して、前記入力音声データ列に対する音
声認識結果を生成する音声認識装置において、 学習用前記音声データ列を格納する学習用音声データ格
納手段と、 前記学習用音声データ列及び認識対象の前記音声データ
列の開始を表す各始端を検出し、前記各始端から始まる
前記学習用音声データ列及び認識対象の前記音声データ
列がそれぞれ前記フレーム内に入るように前記フレーム
の位置を設定し、設定したフレーム情報と前記音声デー
タ列とを出力するフレーム設定手段と、 前記フレーム設定手段から出力された前記学習用音声デ
ータ列とこれに対応した前記フレーム情報とを格納する
学習用音声編集データ格納手段と、 前記学習用音声編集データ格納手段から出力された前記
学習用音声データ列とこれに対応した前記フレーム情報
から、この学習用音声データ列の特徴を表す標準パター
ンを生成すると共に、前記フレーム設定手段から出力さ
れた前記認識対象の音声データ列と対応する前記フレー
ム情報から、この認識対象の音声データ列の特徴を表す
認識用パターンを生成する音声分析手段と、 前記認識用音声データ列に対応した文字列が格納された
辞書ファイルと、 前記標準パターンと前記認識用パターンとを照合して、
前記認識用パターンに類似度が近い前記標準パターンに
対応した前記文字列を前記辞書ファイルから前記音声認
識結果として出力するパターン照合手段と、を備える音
声認識装置。 - 【請求項4】 前記フレーム設定手段は、前記認識対象
の音声データ列または前記学習用音声データ列の先頭
が、前記フレームをN(Nは整数)分割したサブフレー
ムのうちのどのサブフレームに存在するかを検出し、検
出した前記サブフレームの位置を前記始端として算出す
ることを特徴とする請求項1記載の音声認識装置。 - 【請求項5】 前記音声分析手段は、入力した前記認識
対象の音声データ列または前記学習用音声データ列をサ
ンプリング数n(nは整数)で高速フーリエ変換し、前
記整数NはN=2nで算出されることを特徴とする請求
項4記載の音声認識装置。 - 【請求項6】 前記フレーム設定手段は、前記フレーム
の時間軸方向の中心を、前記認識対象の音声データ列ま
たは前記学習用音声データ列の各時間軸方向の中心に設
定することを特徴とする請求項1記載の音声認識装置。 - 【請求項7】 前記フレーム設定手段は、前記認識対象
の音声データ列または前記学習用音声データ列の先頭
が、前記フレームをN(Nは整数)分割したサブフレー
ムのうちのどのサブフレームに存在するかを検出し、検
出した前記サブフレームの次の前記サブフレームに前記
認識対象の音声データ列または前記学習用音声データ列
が存在すると判定した場合、最初の前記サブフレームの
位置を前記始端として算出することを特徴とする請求項
1記載の音声認識装置。 - 【請求項8】 前記音声分析手段は、前記フレーム設定
手段で設定されたフレームの中心に窓関数の中心を設定
し、前記認識対象の音声データ列または前記学習用音声
データ列に対して周波数変換を行うことを特徴とする請
求項1記載の音声認識装置。 - 【請求項9】 前記フレーム設定手段は、前記認識対象
の音声データ列または前記学習用音声データ列の前記各
始端と前記フレームの始点との間隔をそれぞれ一定に設
定することを特徴とする請求項1記載の音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001085791A JP2002287781A (ja) | 2001-03-23 | 2001-03-23 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001085791A JP2002287781A (ja) | 2001-03-23 | 2001-03-23 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2002287781A true JP2002287781A (ja) | 2002-10-04 |
Family
ID=18941247
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001085791A Pending JP2002287781A (ja) | 2001-03-23 | 2001-03-23 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2002287781A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009031239A1 (ja) * | 2007-09-07 | 2009-03-12 | Panasonic Corporation | Ofdm受信装置 |
-
2001
- 2001-03-23 JP JP2001085791A patent/JP2002287781A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009031239A1 (ja) * | 2007-09-07 | 2009-03-12 | Panasonic Corporation | Ofdm受信装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3762327B2 (ja) | 音声認識方法および音声認識装置および音声認識プログラム | |
US6553342B1 (en) | Tone based speech recognition | |
JP4882899B2 (ja) | 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム | |
JP2005043666A (ja) | 音声認識装置 | |
WO2007046267A1 (ja) | 音声判別システム、音声判別方法及び音声判別用プログラム | |
Ismail et al. | Mfcc-vq approach for qalqalahtajweed rule checking | |
CN107564543A (zh) | 一种高情感区分度的语音特征提取方法 | |
US7908142B2 (en) | Apparatus and method for identifying prosody and apparatus and method for recognizing speech | |
Hasija et al. | Recognition of children Punjabi speech using tonal non-tonal classifier | |
JP2996019B2 (ja) | 音声認識装置 | |
Yavuz et al. | A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model. | |
JP4839970B2 (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
JP2000194392A (ja) | 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体 | |
JP2745562B2 (ja) | ノイズ適応形音声認識装置 | |
US9928832B2 (en) | Method and apparatus for classifying lexical stress | |
JP2002287781A (ja) | 音声認識装置 | |
Thakur et al. | Design of Hindi key word recognition system for home automation system using MFCC and DTW | |
CN107039046B (zh) | 一种基于特征融合的语音声效模式检测方法 | |
CN111696530B (zh) | 一种目标声学模型获取方法及装置 | |
JP2752981B2 (ja) | 音声認識装置 | |
JPH05303391A (ja) | 音声認識装置 | |
KR100488121B1 (ko) | 화자간 변별력 향상을 위하여 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법 | |
JPH0534679B2 (ja) | ||
JP2001013983A (ja) | 音声合成を用いた音声認識装置および音声認識方法 | |
JPS59170894A (ja) | 音声区間の切り出し方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20060308 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20070703 |