JP2004020945A

JP2004020945A - 音声認識装置、音声認識方法、および、音声認識プログラム

Info

Publication number: JP2004020945A
Application number: JP2002175944A
Authority: JP
Inventors: Tadashi Emori; 江森　正; Katsutoshi Okawa; 大川　克利
Original assignee: NEC Corp; Renesas Micro Systems Co Ltd
Current assignee: NEC Corp; Renesas Micro Systems Co Ltd
Priority date: 2002-06-17
Filing date: 2002-06-17
Publication date: 2004-01-22
Anticipated expiration: 2022-06-17
Also published as: JP3761497B2

Abstract

【課題】雑音の大きい環境においても認識性能の高い、頑健な音声認識装置の構成を提供する。
【解決手段】音声信号０１を短時間信号切り出し部１０で、フレーム単位の短時間信号１１を算出し、振幅スペクトル計算部２０で振幅スペクトル２１、雑音区間の振幅スペクトル２２、音声のパワー２３を算出する。平滑化制御部４０が、音声のパワー２３と、雑音振幅スペクトル推定部３０により算出されたノイズのパワー３２との音声雑音比に基づいて平滑化レベル４１を算出する。スペクトル平滑化部５０が、振幅スペクトル２１を、平滑化レベル４１に基づいて、周波数方向に平滑化し、平滑化振幅スペクトル５１を出力し、雑音引き算部６０が、平滑化振幅スペクトル５１から雑音振幅スペクトル推定部３０により算出された雑音振幅スペクトル３１を引いた修正振幅スペクトル６１を出力する。
【選択図】　　　図１

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識装置、音声認識方法、および、音声認識プログラムに関し、特に、スペクトルの平滑化を利用する音声認識装置、音声認識方法、および、音声認識プログラムに関する。
【０００２】
【従来の技術】
従来の音声認識装置の一例が「特開２００１−１３４２８６号公報」に記載されている。
【０００３】
図８は、この従来技術の構成を示すブロック図である。
【０００４】
図８を参照すると、この従来の音声認識装置は、短時間信号切り出し部２００と、パワースペクトル計算部２１０と、雑音パワースペクトル推定部２１５と、雑音引き算部２２０と、スペクトル平滑化部２３０と、特徴ベクトル計算部２４０と、音声認識処理部２５０とから構成される。
【０００５】
まず、入力された音声信号を短時間信号切り出し部２００によって、フレーム毎の短時間信号に切り出す。次に、パワースペクトル計算部２１０が切り出された短時間信号に対して、フーリエ変換などを行い、パワースペクトルを算出する。パワースペクトルは、振幅スペクトルを２乗したものである。ここで、発声による音声が入力されていない雑音区間では、雑音パワースペクトル推定部２１５が、パワースペクトルをもとに雑音パワースペクトルの推定を行う。
【０００６】
次に、雑音引き算部２２０が、パワースペクトルから雑音パワースペクトルを差し引き、定常雑音を除去する。次に、スペクトル平滑化部２３０が定常雑音を除去したパワースペクトルに対して、時間方向に平滑化を行う。
【０００７】
次に、特徴ベクトル計算部２４０が、平滑化後のパワースペクトルを用いて、音声の特徴を表す特徴ベクトルを求め、音声認識処理部２５０が、この特徴ベクトルと、あらかじめ学習音声によって作成された標準パターンとのパターンマッチングによって、音声認識処理を行う。このパターンマッチングの技術としては、「確率モデルによる音声認識」（中川聖一著、電子情報通信学会、平成９年１１月２０日、ＩＳＢＮ４−８８５５２−０７２−Ｘ）記載の技術が存在する。
【０００８】
また、「特開２００１−１３４２８７号公報」記載の技術は、ＳＮＲ（信号雑音比）を用い、周波数方向の平滑化を利用する雑音抑制の装置である。
【０００９】
【発明が解決しようとする課題】
第１の問題点は、上述の「特開２００１−１３４２８６号公報」では、メモリ使用量が増加することである。
【００１０】
その理由は、スペクトルを時間方向に平滑化するためには、少なくとも１フレーム前のスペクトルを保持しておく必要があるからである。
【００１１】
第２の問題点は、「特開２００１−１３４２８６号公報」では、認識性能が環境に依存することである。
【００１２】
その理由は、雑音が大きい環境では、スペクトルを平滑化することで、スペクトル中の雑音の影響が低減されるが、雑音が小さい環境では、スペクトルを平滑化することで、音声の特徴を落としてしまい認識性能が劣化してしまう恐れがあるからである。
【００１３】
第３の問題点は、「特開２００１−１３４２８７号公報」では、平滑化の精度が低いことである。
【００１４】
その理由は、周波数方向には、隣接する周波数のスペクトルのみ考慮しているからである。
【００１５】
本発明の目的は、平滑化の精度が高く、雑音の大きい環境においても認識性能の高い頑健な音声認識を実現することである。
【００１６】
【課題を解決するための手段】
本発明の第１の音声認識装置は、音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し部と、前記信号切り出し部からの短時間信号に基づいて音声の振幅スペクトルを算出する振幅スペクトル計算部と、前記振幅スペクトル計算部からの音声の振幅スペクトルを、事前に設定したゼロまたは正の整数である平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化部と、を有することを特徴とする。
【００１７】
本発明の第２の音声認識装置は、音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し部と、前記信号切り出し部からの短時間信号に基づいて音声の振幅スペクトル、音声の振幅スペクトルの周波数毎の２乗の総和である音声のパワーを算出する振幅スペクトル計算部と、前記振幅スペクトル計算部からの音声のパワーにしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御部と、前記振幅スペクトル計算部からの音声の振幅スペクトルを、前記平滑化制御部からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化部と、を有することを特徴とする。
【００１８】
本発明の第３の音声認識装置は、音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し部と、前記信号切り出し部からの短時間信号に基づいて音声の振幅スペクトル、雑音区間の振幅スペクトル、音声の振幅スペクトルの周波数毎の２乗の総和である音声のパワーを算出する振幅スペクトル計算部と、前記振幅スペクトル計算部からの雑音区間の振幅スペクトルの周波数毎の平均である雑音振幅スペクトルを算出し、雑音振幅スペクトルの周波数毎の２乗の総和であるノイズのパワーを算出する雑音振幅スペクトル推定部と、前記振幅スペクトル計算部からの音声のパワー、前記雑音振幅スペクトル推定部からのノイズのパワーとの比である音声雑音比を算出し、音声雑音比にしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御部と、前記振幅スペクトル計算部からの音声の振幅スペクトルを、前記平滑化制御部からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化部と、を有することを特徴とする。
【００１９】
本発明の第４の音声認識装置は、音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し部と、前記信号切り出し部からの短時間信号に基づいて音声の振幅スペクトル、雑音区間の振幅スペクトル、音声の振幅スペクトルの周波数毎の２乗の総和である音声のパワーを算出する振幅スペクトル計算部と、前記振幅スペクトル計算部からの雑音区間の振幅スペクトルの周波数毎の平均である雑音振幅スペクトルを算出し、雑音振幅スペクトルの周波数毎の２乗の総和であるノイズのパワーを算出する雑音振幅スペクトル推定部と、前記振幅スペクトル計算部からの音声のパワー、前記雑音振幅スペクトル推定部からのノイズのパワーとの比である音声雑音比を算出し、音声雑音比にしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御部と、前記振幅スペクトル計算部からの音声の振幅スペクトルを、前記平滑化制御部からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化部と、前記スペクトル平滑化部からの平滑化振幅スペクトルから前記雑音振幅スペクトル推定部からの雑音振幅スペクトルを減じて修正振幅スペクトルとして算出する雑音引き算部と、を有することを特徴とする。
【００２０】
本発明の第５の音声認識装置は、音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し部と、前記信号切り出し部からの短時間信号に基づいて音声の振幅スペクトル、雑音区間の振幅スペクトル、音声の振幅スペクトルの周波数毎の２乗の総和である音声のパワーを算出する振幅スペクトル計算部と、前記振幅スペクトル計算部からの雑音区間の振幅スペクトルの周波数毎の平均である雑音振幅スペクトルを算出し、雑音振幅スペクトルの周波数毎の２乗の総和であるノイズのパワーを算出する雑音振幅スペクトル推定部と、前記振幅スペクトル計算部からの音声のパワー、前記雑音振幅スペクトル推定部からのノイズのパワーとの比である音声雑音比を算出し、一定数のフレームの周波数毎の音声雑音比の平均を求め、音声雑音比の平均にしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御部と、前記振幅スペクトル計算部からの音声の振幅スペクトルを、前記平滑化制御部からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化部と、前記スペクトル平滑化部からの平滑化振幅スペクトルから前記雑音振幅スペクトル推定部からの雑音振幅スペクトルを減じて修正振幅スペクトルとして算出する雑音引き算部と、を有することを特徴とする。
【００２１】
本発明の第１の音声認識方法は、音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し手順と、前記信号切り出し手順からの短時間信号に基づいて音声の振幅スペクトルを算出する振幅スペクトル計算手順と、前記振幅スペクトル計算手順からの音声の振幅スペクトルを、事前に設定したゼロまたは正の整数である平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化手順と、を含むことを特徴とする。
【００２２】
本発明の第２の音声認識方法は、音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し手順と、前記信号切り出し手順からの短時間信号に基づいて音声の振幅スペクトル、音声の振幅スペクトルの周波数毎の２乗の総和である音声のパワーを算出する振幅スペクトル計算手順と、前記振幅スペクトル計算手順からの音声のパワーにしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御手順と、前記振幅スペクトル計算手順からの音声の振幅スペクトルを、前記平滑化制御手順からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化手順と、を含むことを特徴とする。
【００２３】
本発明の第３の音声認識方法は、音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し手順と、前記信号切り出し手順からの短時間信号に基づいて音声の振幅スペクトル、雑音区間の振幅スペクトル、音声の振幅スペクトルの周波数毎の２乗の総和である音声のパワーを算出する振幅スペクトル計算手順と、前記振幅スペクトル計算手順からの雑音区間の振幅スペクトルの周波数毎の平均である雑音振幅スペクトルを算出し、雑音振幅スペクトルの周波数毎の２乗の総和であるノイズのパワーを算出する雑音振幅スペクトル推定手順と、前記振幅スペクトル計算手順からの音声のパワー、前記雑音振幅スペクトル推定手順からのノイズのパワーとの比である音声雑音比を算出し、音声雑音比にしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御手順と、前記振幅スペクトル計算手順からの音声の振幅スペクトルを、前記平滑化制御手順からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化手順と、を含むことを特徴とする。
【００２４】
本発明の第４の音声認識方法は、音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し手順と、前記信号切り出し手順からの短時間信号に基づいて音声の振幅スペクトル、雑音区間の振幅スペクトル、音声の振幅スペクトルの周波数毎の２乗の総和である音声のパワーを算出する振幅スペクトル計算手順と、前記振幅スペクトル計算手順からの雑音区間の振幅スペクトルの周波数毎の平均である雑音振幅スペクトルを算出し、雑音振幅スペクトルの周波数毎の２乗の総和であるノイズのパワーを算出する雑音振幅スペクトル推定手順と、前記振幅スペクトル計算手順からの音声のパワー、前記雑音振幅スペクトル推定手順からのノイズのパワーとの比である音声雑音比を算出し、音声雑音比にしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御手順と、前記振幅スペクトル計算手順からの音声の振幅スペクトルを、前記平滑化制御手順からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化手順と、前記スペクトル平滑化手順からの平滑化振幅スペクトルから前記雑音振幅スペクトル推定手順からの雑音振幅スペクトルを減じて修正振幅スペクトルとして算出する雑音引き算手順と、を含むことを特徴とする。
【００２５】
本発明の第５の音声認識方法は、音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し手順と、前記信号切り出し手順からの短時間信号に基づいて音声の振幅スペクトル、雑音区間の振幅スペクトル、音声の振幅スペクトルの周波数毎の２乗の総和である音声のパワーを算出する振幅スペクトル計算手順と、前記振幅スペクトル計算手順からの雑音区間の振幅スペクトルの周波数毎の平均である雑音振幅スペクトルを算出し、雑音振幅スペクトルの周波数毎の２乗の総和であるノイズのパワーを算出する雑音振幅スペクトル推定手順と、前記振幅スペクトル計算手順からの音声のパワー、前記雑音振幅スペクトル推定手順からのノイズのパワーとの比である音声雑音比を算出し、一定数のフレームの周波数毎の音声雑音比の平均を求め、音声雑音比の平均にしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御手順と、前記振幅スペクトル計算手順からの音声の振幅スペクトルを、前記平滑化制御手順からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化手順と、前記スペクトル平滑化手順からの平滑化振幅スペクトルから前記雑音振幅スペクトル推定手順からの雑音振幅スペクトルを減じて修正振幅スペクトルとして算出する雑音引き算手順と、を含むことを特徴とする。
【００２６】
本発明の第１の音声認識プログラムは、音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し手順と、前記信号切り出し手順からの短時間信号に基づいて音声の振幅スペクトルを算出する振幅スペクトル計算手順と、前記振幅スペクトル計算手順からの音声の振幅スペクトルを、事前に設定したゼロまたは正の整数である平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化手順と、をコンピュータに実行させることを特徴とする。
【００２７】
本発明の第２の音声認識プログラムは、音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し手順と、前記信号切り出し手順からの短時間信号に基づいて音声の振幅スペクトル、音声の振幅スペクトルの周波数毎の２乗の総和である音声のパワーを算出する振幅スペクトル計算手順と、前記振幅スペクトル計算手順からの音声のパワーにしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御手順と、前記振幅スペクトル計算手順からの音声の振幅スペクトルを、前記平滑化制御手順からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化手順と、をコンピュータに実行させることを特徴とする。
【００２８】
本発明の第３の音声認識プログラムは、音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し手順と、前記信号切り出し手順からの短時間信号に基づいて音声の振幅スペクトル、雑音区間の振幅スペクトル、音声の振幅スペクトルの周波数毎の２乗の総和である音声のパワーを算出する振幅スペクトル計算手順と、前記振幅スペクトル計算手順からの雑音区間の振幅スペクトルの周波数毎の平均である雑音振幅スペクトルを算出し、雑音振幅スペクトルの周波数毎の２乗の総和であるノイズのパワーを算出する雑音振幅スペクトル推定手順と、前記振幅スペクトル計算手順からの音声のパワー、前記雑音振幅スペクトル推定手順からのノイズのパワーとの比である音声雑音比を算出し、音声雑音比にしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御手順と、前記振幅スペクトル計算手順からの音声の振幅スペクトルを、前記平滑化制御手順からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化手順と、をコンピュータに実行させることを特徴とする。
【００２９】
本発明の第４の音声認識プログラムは、音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し手順と、前記信号切り出し手順からの短時間信号に基づいて音声の振幅スペクトル、雑音区間の振幅スペクトル、音声の振幅スペクトルの周波数毎の２乗の総和である音声のパワーを算出する振幅スペクトル計算手順と、前記振幅スペクトル計算手順からの雑音区間の振幅スペクトルの周波数毎の平均である雑音振幅スペクトルを算出し、雑音振幅スペクトルの周波数毎の２乗の総和であるノイズのパワーを算出する雑音振幅スペクトル推定手順と、前記振幅スペクトル計算手順からの音声のパワー、前記雑音振幅スペクトル推定手順からのノイズのパワーとの比である音声雑音比を算出し、音声雑音比にしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御手順と、前記振幅スペクトル計算手順からの音声の振幅スペクトルを、前記平滑化制御手順からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化手順と、前記スペクトル平滑化手順からの平滑化振幅スペクトルから前記雑音振幅スペクトル推定手順からの雑音振幅スペクトルを減じて修正振幅スペクトルとして算出する雑音引き算手順と、をコンピュータに実行させることを特徴とする。
【００３０】
本発明の第５の音声認識プログラムは、音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し手順と、前記信号切り出し手順からの短時間信号に基づいて音声の振幅スペクトル、雑音区間の振幅スペクトル、音声の振幅スペクトルの周波数毎の２乗の総和である音声のパワーを算出する振幅スペクトル計算手順と、前記振幅スペクトル計算手順からの雑音区間の振幅スペクトルの周波数毎の平均である雑音振幅スペクトルを算出し、雑音振幅スペクトルの周波数毎の２乗の総和であるノイズのパワーを算出する雑音振幅スペクトル推定手順と、前記振幅スペクトル計算手順からの音声のパワー、前記雑音振幅スペクトル推定手順からのノイズのパワーとの比である音声雑音比を算出し、一定数のフレームの周波数毎の音声雑音比の平均を求め、音声雑音比の平均にしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御手順と、前記振幅スペクトル計算手順からの音声の振幅スペクトルを、前記平滑化制御手順からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化手順と、前記スペクトル平滑化手順からの平滑化振幅スペクトルから前記雑音振幅スペクトル推定手順からの雑音振幅スペクトルを減じて修正振幅スペクトルとして算出する雑音引き算手順と、をコンピュータに実行させることを特徴とする。
【００３１】
【発明の実施の形態】
次に、本発明の第１の実施の形態について図面を参照して詳細に説明する。
【００３２】
図１は、本発明の第１の実施の形態の構成を示す説明図である。
【００３３】
図２は、平滑化レベルを決定する仕方を示す説明図である。
【００３４】
図３は、平滑化の効果を示す説明図である。
【００３５】
図１を参照すると、本発明の第１の実施の形態は、短時間信号切り出し部１０と、振幅スペクトル計算部２０と、雑音振幅スペクトル推定部３０と、平滑化制御部４０と、スペクトル平滑化部５０と、雑音引き算部６０と、特徴ベクトル計算部７０と、音声認識処理部８０から構成される。
【００３６】
短時間信号切り出し部１０は、入力された音声信号０１を一定時間（フレーム）ごとの短時間信号１１に切り出す処理を行う。振幅スペクトル計算部２０は、短時間信号１１に対して、フーリエ変換などにより振幅スペクトル２１を算出する処理を行う。
【００３７】
雑音振幅スペクトル推定部３０は、雑音区間の振幅スペクトル２２から雑音振幅スペクトル３１を算出する処理を行う。平滑化制御部４０は、振幅スペクトル２１の２乗和である音声パワー２３と、雑音振幅スペクトル３１の２乗和であるノイズのパワー３２とから、音声とノイズとのパワー比であるフレームごとのＳＮＲを算出し、フレームごとのＳＮＲの値によってスペクトル平滑化部５０の平滑化レベル４１を決定する処理を行う。
【００３８】
スペクトル平滑化部５０は、平滑化制御部４０によって決定された平滑化レベル４１に従って、振幅スペクトル２１を平滑化し、平滑化振幅スペクトル５１を出力する処理を行う。雑音引き算部６０は、平滑化振幅スペクトル５１から定常雑音を除去し、雑音除去済みの修正振幅スペクトル６１を出力する処理を行う。
【００３９】
特徴ベクトル計算部７０は、雑音除去済みの修正振幅スペクトル６１から音声の特徴ベクトル７１を算出する処理を行う。音声認識処理部８０は、特徴ベクトル７１と標準パターンとを用いてパターンマッチングを行い、認識結果を出力する処理を行う。パターンマッチングとしては、たとえば、上記「確率モデルによる音声認識」に述べられているＤＰマッチングなどが利用可能である。
【００４０】
次に、本発明の第１の実施の形態の動作について図面を参照して説明する。
【００４１】
まず、短時間信号切り出し部１０が入力された音声信号０１からフレーム毎の短時間信号１１を出力する。詳細には、短時間信号切り出し部１０は、アナログの音声信号０１を一定時間毎（たとえば８［ＫＨｚ］で）にサンプリングし、デジタル信号に変換し、デジタルサンプリング信号として出力する。さらに、一定数（たとえば、１２８［個］）のデジタルサンプリング信号を集め、１フレームの短時間信号１１として出力する。
【００４２】
次に、振幅スペクトル計算部２０が短時間信号１１に対して、フーリエ変換等を行い、フレーム単位の振幅スペクトル２１（周波数毎の振幅を含む）を出力する。ここで、振幅スペクトル２１は、フーリエ変換後、各周波数に相当する点毎に、実部と虚部を２乗して加えたパワースペクトルの平方根をとったものである。
【００４３】
さらに、振幅スペクトル計算部２０は、振幅スペクトル２１から音声のパワー２３を出力する。音声のパワー２３は、周波数毎の振幅スペクトル２１を２乗し、その全周波数の総和をとったものである。
【００４４】
次に、雑音振幅スペクトル推定部３０が、音声の入力されていない区間、すなわち、雑音区間の振幅スペクトル２２をもとに、雑音振幅スペクトル３１を出力する。ここで、雑音区間を、たとえば、振幅スペクトル２１のうち、波形を入力し始めてから一定数のフレームと定義する。雑音振幅スペクトル３１は、雑音区間の振幅スペクトル２２の周波数毎の平均である。
【００４５】
さらに、雑音振幅スペクトル推定部３０は、雑音振幅スペクトル３１の周波数毎の値を２乗し、その全周波数の総和を求め、ノイズのパワー３２として出力する。
【００４６】
次に、平滑化制御部４０は、［式１］によりＳＮＲ（音声雑音比）を算出し、ＳＮＲから平滑化レベル４１を求め、出力する。
【００４７】
［式１］：ＳＮＲ＝（音声のパワー２３）／（ノイズのパワー３２）。
【００４８】
さらに、平滑化制御部４０は、ＳＮＲの値により、図２にしたがって、平滑化レベル４１（ｎ；ゼロまたは正の整数）を決定する。平滑化レベル４１（ｎ）は、平滑化を行う点数で、たとえば、ｎ＝１の場合、周波数ｋの振幅スペクトルに対し、両隣１個の振幅スペクトルを用いて平滑化を行う。ｎは、ＳＮＲが小さい（＝雑音が大きい）場合は大きく、ＳＮＲが大きい（＝雑音が小さい）場合は小さくする決定される。
【００４９】
ただし、ｎを大きくしすぎると認識性能が低下してしまうので、最大のバンド幅をＮとし、制御するＳＮＲの範囲をα，βとする。ここで、α、β、および、Ｎは、認識実験により認識率がもっとも良くなる値に事前に設定しておく。
【００５０】
図２を参照すると、ＳＮＲ＜αであれば、ｎ＝Ｎであり、α≦ＳＮＲ＜βであれば、ｎ＝Ｎ（ＳＮＲ−β）／（α−β）であり、β≦ＳＮＲであれば、ｎ＝０である。ｎ＝が整数でない場合には、たとえば、四捨五入し、整数にする。
【００５１】
次に、スペクトル平滑化部５０は、平滑化レベル４１、［式２］にしたがって、振幅スペクトル２１を平滑化し、平滑化振幅スペクトル５１を出力する。
【００５２】
［式２］：Ｐ’［ｋ，ｔ］＝ｒ［−ｎ］Ｐ［ｋ−ｎ，ｔ］＋・・・＋ｒ［０］Ｐ［ｋ，ｔ］＋・・・＋ｒ［ｎ］Ｐ［ｋ＋ｎ，ｔ］。
【００５３】
式２において、Ｐ［ｋ，ｔ］は、振幅スペクトル２１であり、Ｐ’［ｋ，ｔ］は、平滑化後の平滑化振幅スペクトル５１であり、ｋは、周波数に通し番号をつけたものであり、ｔは、フレームに通し番号をつけたものであり、ｒ［−ｎ］，・・・，ｒ［ｎ］は、平滑化係数である。平滑化係数ｒは、たとえば、ｒ［０］＝１、ｒ［±１］＝１／２、ｒ［±ｎ］＝２の−ｎ乗のように、ｒ［０］を中心として、中心から離れるにしたがい、小さな値になるようにする。このように、ある周波数の平滑化振幅スペクトル５１は、前後ｎの周波数の振幅スペクトル２１の値を考慮した周波数方向の平滑化がなされたものとなる。
【００５４】
図３を参照すると、スペクトル平滑化部５０により、振幅スペクトル２１が、滑らかな平滑化振幅スペクトル５１になることがわかる。
【００５５】
次に、雑音引き算部６０は、平滑化振幅スペクトル５１から雑音振幅スペクトル３１を差し引き（周波数ごとに）、雑音を除去した修正振幅スペクトル６１を求め、出力する。
【００５６】
次に、特徴ベクトル計算部７０は、修正振幅スペクトル６１を用いて、音声の特徴を表す特徴ベクトル７１を求め、出力する。次に、音声認識処理部８０は、この特徴ベクトル７１と、あらかじめ学習音声によって作成された標準パターンとのパターンマッチングによって、音声認識処理を行う。
【００５７】
次に、本発明の第２の実施の形態について図面を参照して詳細に説明する。
【００５８】
図４は、本発明の第２の実施の形態の構成を示すブロック図である。
【００５９】
図４を参照すると、短時間信号切り出し部１０が、入力された音声信号０１から、フレーム毎の短時間信号１１を出力する。次に、振幅スペクトル計算部２０が、短時間信号１１に対してフーリエ変換などを行い、振幅スペクトル２１を出力する。次に、スペクトル平滑化部５０が、振幅スペクトル２１に対して、［式２］を用い（ｎは、事前に固定値を設定する）、周波数方向の平滑化を行い、平滑化振幅スペクトル５１を出力する。次に、特徴ベクトル計算部７０が、平滑化振幅スペクトル５１から音声の特徴を表す特徴ベクトル７１を求め、出力する。次に、音声認識処理部８０が特徴ベクトル７１と、あらかじめ学習音声によって作成された標準パターンとのパターンマッチングによって、音声認識処理を行う。
【００６０】
次に、本発明の第３の実施の形態について図面を参照して詳細に説明する。
【００６１】
図５は、本発明の第３の実施の形態の構成を示すブロック図である。
【００６２】
図５を参照すると、短時間信号切り出し部１０が、入力された音声信号０１から、フレーム毎の短時間信号１１を出力する。次に、振幅スペクトル計算部２０が、短時間信号１１に対してフーリエ変換などを行い、振幅スペクトル２１を出力する。さらに、振幅スペクトル計算部２０が、振幅スペクトル２１に対して２乗和である音声のパワー２３を求め（たとえば、図２の横軸に音声のパワー２３をとる）、出力する。次に平滑化制御部４０が音声のパワー２３の大きさにより、平滑化レベル４１（ｎ）を決定し、出力する。次に、スペクトル平滑化部５０が、振幅スペクトル２１に対して、平滑化レベル４１（ｎ）を適用し、［式２］により周波数方向の平滑化を行い、平滑化振幅スペクトル５１を出力する。次に、特徴ベクトル計算部７０が、平滑化振幅スペクトル５１から音声の特徴を表す特徴ベクトル７１を求め、出力する。次に、音声認識処理部８０が特徴ベクトル７１と、あらかじめ学習音声によって作成された標準パターンとのパターンマッチングによって、音声認識処理を行う。
【００６３】
次に、本発明の第４の実施の形態について図面を参照して詳細に説明する。
【００６４】
図６は、本発明の第４の実施の形態の構成を示すブロック図である。
【００６５】
図６を参照すると、短時間信号切り出し部１０が、入力された音声信号０１から、フレーム毎の短時間信号１１を出力する。次に、振幅スペクトル計算部２０が、短時間信号１１に対してフーリエ変換などを行い、振幅スペクトル２１を出力する。さらに、振幅スペクトル計算部２０が、雑音区間の振幅スペクトル２２、音声のパワー２３を求め、出力する。次に、雑音振幅スペクトル推定部３０が、雑音区間の振幅スペクトル２２をもとに雑音振幅スペクトル３１を計算し、さらに、雑音振幅スペクトル３１の周波数毎の値を２乗し、その全周波数の総和を求め、ノイズのパワー３２として出力する。
【００６６】
次に、平滑化制御部４０は、［式１］によりＳＮＲ（音声雑音比）を算出し、ＳＮＲから図２にしたがって平滑化レベル４１（ｎ）を求め、出力する。次に、スペクトル平滑化部５０が、振幅スペクトル２１に対して、平滑化レベル４１（ｎ）を適用し、［式２］により周波数方向の平滑化を行い、平滑化振幅スペクトル５１を出力する。次に、特徴ベクトル計算部７０が、平滑化振幅スペクトル５１から音声の特徴を表す特徴ベクトル７１を求め、出力する。次に、音声認識処理部８０が特徴ベクトル７１と、あらかじめ学習音声によって作成された標準パターンとのパターンマッチングによって、音声認識処理を行う。
【００６７】
以上においては、平滑化するスペクトルとして、振幅スペクトル２１を用いているが、パワースペクトルを用いることも可能である。
【００６８】
また、平滑化レベル４１を他の計算式で求めることも可能である。
【００６９】
図７は、平滑化レベル４１を求める他の計算を示す説明図である。
【００７０】
図７を参照すると、発声単位で（発声が、ある事前に設定した時間内にあれば、それは１つの発声単位とする。たとえば、「今日は。よい天気ですね」と発声された場合、「今日は」と「よい天気ですね」との間の無音の間隔がある時間より短ければ、１発声単位、長ければ２発声単位となる）、一定数のフレームの周波数毎のＳＮＲの平均を求め、このＳＮＲ平均によって（図２の横軸にＳＮＲ平均を使用）、平滑化レベル４１を決定する。また、ＳＮＲ平均の替わりにＳＮＲのピーク値などを用いることも可能である。
【００７１】
また、周波数領域ごとに平滑化レベル４１を算出する計算式を変えて、平滑化を行うことも可能である。
【００７２】
また、図２の平滑化制御におけるＳＮＲの範囲α、βを、尤度が良くなるように設定することも可能である。
【００７３】
次に、本発明の第５の実施の形態について図面を参照して詳細に説明する。
【００７４】
本発明の第５の実施の形態は、本発明の第１の実施の形態の図１に示す短時間信号切り出し部１０、振幅スペクトル計算部２０、雑音振幅スペクトル推定部３０、平滑化制御部４０、スペクトル平滑化部５０、雑音引き算部６０、特徴ベクトル計算部７０、音声認識処理部８０と、それぞれ同等の機能を実現する各手順を含む方法である。
【００７５】
次に、本発明の第６の実施の形態について図面を参照して詳細に説明する。
【００７６】
本発明の第６の実施の形態は、本発明の第５の実施の形態の各手順をコンピュータ（図１に示す短時間信号切り出し部１０、振幅スペクトル計算部２０、雑音振幅スペクトル推定部３０、平滑化制御部４０、スペクトル平滑化部５０、雑音引き算部６０、特徴ベクトル計算部７０、音声認識処理部８０を含む）に実行させるプログラムである。
【００７７】
【発明の効果】
本発明の第１の効果は、信号雑音比の小さくなるような、雑音の大きい環境での認識性能を向上できることである。
【００７８】
その理由は、音声の振幅スペクトルを周波数方向に精緻に平滑化することで、周波数ごとの雑音成分のばらつきを低減することができるからである。また、周波数方向の平滑化レベルの値を大きくすることによって、より雑音の大きい環境で効果を得ることができる。
【００７９】
第２の効果は、環境に依存せずに安定した認識性能を得ることができることである。
【００８０】
その理由は、振幅スペクトルの平滑化は、雑音が大きい環境の認識性能は向上するが、静かな環境での認識性能には悪影響を及ぼすが、平滑化制御部で音声雑音比によって、静かな環境ではスペクトルの平滑化レベルを低くし、認識性能の劣化を防ぐことができるからである。
【００８１】
第３の効果は、メモリ使用量を増やすことなく、認識性能を向上させることができることである。
【００８２】
その理由は、振幅スペクトルの周波数方向の平滑化では、現在処理中のフレームのスペクトル情報のみを必要とし、新たにメモリを消費しないからである。
【図面の簡単な説明】
【図１】本発明の第１の実施の形態の構成を示す説明図である。
【図２】平滑化レベルを決定する仕方を示す説明図である。
【図３】平滑化の効果を示す説明図である。
【図４】本発明の第２の実施の形態の構成を示すブロック図である。
【図５】本発明の第３の実施の形態の構成を示すブロック図である。
【図６】本発明の第４の実施の形態の構成を示すブロック図である。
【図７】平滑化レベルを求める他の計算を示す説明図である。
【図８】従来技術の構成を示すブロック図である。
【符号の説明】
０１　　音声信号
１０　　短時間信号切り出し部
１１　　短時間信号
２０　　振幅スペクトル計算部
２１　　振幅スペクトル
２２　　雑音区間の振幅スペクトル
２３　　音声のパワー
３０　　雑音振幅スペクトル推定部
３１　　雑音振幅スペクトル
３２　　ノイズのパワー
４０　　平滑化制御部
４１　　平滑化レベル
５０　　スペクトル平滑化部
５１　　平滑化振幅スペクトル
６０　　雑音引き算部
６１　　修正振幅スペクトル
７０　　特徴ベクトル計算部
７１　　特徴ベクトル
８０　　音声認識処理部
２００　　短時間信号切り出し部
２１０　　パワースペクトル計算部
２１５　　雑音パワースペクトル推定部
２２０　　雑音引き算部
２３０　　スペクトル平滑化部
２４０　　特徴ベクトル計算部
２５０　　音声認識処理部

Claims

音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し部と、
前記信号切り出し部からの短時間信号に基づいて音声の振幅スペクトルを算出する振幅スペクトル計算部と、
前記振幅スペクトル計算部からの音声の振幅スペクトルを、事前に設定したゼロまたは正の整数である平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化部と、
を有することを特徴とする音声認識装置。
音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し部と、
前記信号切り出し部からの短時間信号に基づいて音声の振幅スペクトル、音声の振幅スペクトルの周波数毎の２乗の総和である音声のパワーを算出する振幅スペクトル計算部と、
前記振幅スペクトル計算部からの音声のパワーにしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御部と、
前記振幅スペクトル計算部からの音声の振幅スペクトルを、前記平滑化制御部からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化部と、
を有することを特徴とする音声認識装置。
音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し部と、
前記信号切り出し部からの短時間信号に基づいて音声の振幅スペクトル、雑音区間の振幅スペクトル、音声の振幅スペクトルの周波数毎の２乗の総和である音声のパワーを算出する振幅スペクトル計算部と、
前記振幅スペクトル計算部からの雑音区間の振幅スペクトルの周波数毎の平均である雑音振幅スペクトルを算出し、雑音振幅スペクトルの周波数毎の２乗の総和であるノイズのパワーを算出する雑音振幅スペクトル推定部と、
前記振幅スペクトル計算部からの音声のパワー、前記雑音振幅スペクトル推定部からのノイズのパワーとの比である音声雑音比を算出し、音声雑音比にしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御部と、
前記振幅スペクトル計算部からの音声の振幅スペクトルを、前記平滑化制御部からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化部と、
を有することを特徴とする音声認識装置。
音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し部と、
前記信号切り出し部からの短時間信号に基づいて音声の振幅スペクトル、雑音区間の振幅スペクトル、音声の振幅スペクトルの周波数毎の２乗の総和である音声のパワーを算出する振幅スペクトル計算部と、
前記振幅スペクトル計算部からの雑音区間の振幅スペクトルの周波数毎の平均である雑音振幅スペクトルを算出し、雑音振幅スペクトルの周波数毎の２乗の総和であるノイズのパワーを算出する雑音振幅スペクトル推定部と、
前記振幅スペクトル計算部からの音声のパワー、前記雑音振幅スペクトル推定部からのノイズのパワーとの比である音声雑音比を算出し、音声雑音比にしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御部と、
前記振幅スペクトル計算部からの音声の振幅スペクトルを、前記平滑化制御部からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化部と、
前記スペクトル平滑化部からの平滑化振幅スペクトルから前記雑音振幅スペクトル推定部からの雑音振幅スペクトルを減じて修正振幅スペクトルとして算出する雑音引き算部と、
を有することを特徴とする音声認識装置。
音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し部と、
前記信号切り出し部からの短時間信号に基づいて音声の振幅スペクトル、雑音区間の振幅スペクトル、音声の振幅スペクトルの周波数毎の２乗の総和である音声のパワーを算出する振幅スペクトル計算部と、
前記振幅スペクトル計算部からの雑音区間の振幅スペクトルの周波数毎の平均である雑音振幅スペクトルを算出し、雑音振幅スペクトルの周波数毎の２乗の総和であるノイズのパワーを算出する雑音振幅スペクトル推定部と、
前記振幅スペクトル計算部からの音声のパワー、前記雑音振幅スペクトル推定部からのノイズのパワーとの比である音声雑音比を算出し、一定数のフレームの周波数毎の音声雑音比の平均を求め、音声雑音比の平均にしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御部と、
前記振幅スペクトル計算部からの音声の振幅スペクトルを、前記平滑化制御部からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化部と、
前記スペクトル平滑化部からの平滑化振幅スペクトルから前記雑音振幅スペクトル推定部からの雑音振幅スペクトルを減じて修正振幅スペクトルとして算出する雑音引き算部と、
を有することを特徴とする音声認識装置。
音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し手順と、
前記信号切り出し手順からの短時間信号に基づいて音声の振幅スペクトルを算出する振幅スペクトル計算手順と、
前記振幅スペクトル計算手順からの音声の振幅スペクトルを、事前に設定したゼロまたは正の整数である平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化手順と、
を含むことを特徴とする音声認識方法。
音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し手順と、
前記信号切り出し手順からの短時間信号に基づいて音声の振幅スペクトル、音声の振幅スペクトルの周波数毎の２乗の総和である音声のパワーを算出する振幅スペクトル計算手順と、
前記振幅スペクトル計算手順からの音声のパワーにしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御手順と、
前記振幅スペクトル計算手順からの音声の振幅スペクトルを、前記平滑化制御手順からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化手順と、
を含むことを特徴とする音声認識方法。
音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し手順と、
前記信号切り出し手順からの短時間信号に基づいて音声の振幅スペクトル、雑音区間の振幅スペクトル、音声の振幅スペクトルの周波数毎の２乗の総和である音声のパワーを算出する振幅スペクトル計算手順と、
前記振幅スペクトル計算手順からの雑音区間の振幅スペクトルの周波数毎の平均である雑音振幅スペクトルを算出し、雑音振幅スペクトルの周波数毎の２乗の総和であるノイズのパワーを算出する雑音振幅スペクトル推定手順と、
前記振幅スペクトル計算手順からの音声のパワー、前記雑音振幅スペクトル推定手順からのノイズのパワーとの比である音声雑音比を算出し、音声雑音比にしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御手順と、
前記振幅スペクトル計算手順からの音声の振幅スペクトルを、前記平滑化制御手順からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化手順と、
を含むことを特徴とする音声認識方法。
音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し手順と、
前記信号切り出し手順からの短時間信号に基づいて音声の振幅スペクトル、雑音区間の振幅スペクトル、音声の振幅スペクトルの周波数毎の２乗の総和である音声のパワーを算出する振幅スペクトル計算手順と、
前記振幅スペクトル計算手順からの雑音区間の振幅スペクトルの周波数毎の平均である雑音振幅スペクトルを算出し、雑音振幅スペクトルの周波数毎の２乗の総和であるノイズのパワーを算出する雑音振幅スペクトル推定手順と、
前記振幅スペクトル計算手順からの音声のパワー、前記雑音振幅スペクトル推定手順からのノイズのパワーとの比である音声雑音比を算出し、音声雑音比にしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御手順と、
前記振幅スペクトル計算手順からの音声の振幅スペクトルを、前記平滑化制御手順からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化手順と、
前記スペクトル平滑化手順からの平滑化振幅スペクトルから前記雑音振幅スペクトル推定手順からの雑音振幅スペクトルを減じて修正振幅スペクトルとして算出する雑音引き算手順と、
を含むことを特徴とする音声認識方法。
音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し手順と、
前記信号切り出し手順からの短時間信号に基づいて音声の振幅スペクトル、雑音区間の振幅スペクトル、音声の振幅スペクトルの周波数毎の２乗の総和である音声のパワーを算出する振幅スペクトル計算手順と、
前記振幅スペクトル計算手順からの雑音区間の振幅スペクトルの周波数毎の平均である雑音振幅スペクトルを算出し、雑音振幅スペクトルの周波数毎の２乗の総和であるノイズのパワーを算出する雑音振幅スペクトル推定手順と、
前記振幅スペクトル計算手順からの音声のパワー、前記雑音振幅スペクトル推定手順からのノイズのパワーとの比である音声雑音比を算出し、一定数のフレームの周波数毎の音声雑音比の平均を求め、音声雑音比の平均にしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御手順と、
前記振幅スペクトル計算手順からの音声の振幅スペクトルを、前記平滑化制御手順からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化手順と、
前記スペクトル平滑化手順からの平滑化振幅スペクトルから前記雑音振幅スペクトル推定手順からの雑音振幅スペクトルを減じて修正振幅スペクトルとして算出する雑音引き算手順と、
を含むことを特徴とする音声認識方法。
音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し手順と、
前記信号切り出し手順からの短時間信号に基づいて音声の振幅スペクトルを算出する振幅スペクトル計算手順と、
前記振幅スペクトル計算手順からの音声の振幅スペクトルを、事前に設定したゼロまたは正の整数である平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化手順と、
をコンピュータに実行させることを特徴とする音声認識プログラム。
音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し手順と、
前記信号切り出し手順からの短時間信号に基づいて音声の振幅スペクトル、音声の振幅スペクトルの周波数毎の２乗の総和である音声のパワーを算出する振幅スペクトル計算手順と、
前記振幅スペクトル計算手順からの音声のパワーにしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御手順と、
前記振幅スペクトル計算手順からの音声の振幅スペクトルを、前記平滑化制御手順からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化手順と、
をコンピュータに実行させることを特徴とする音声認識プログラム。
音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し手順と、
前記信号切り出し手順からの短時間信号に基づいて音声の振幅スペクトル、雑音区間の振幅スペクトル、音声の振幅スペクトルの周波数毎の２乗の総和である音声のパワーを算出する振幅スペクトル計算手順と、
前記振幅スペクトル計算手順からの雑音区間の振幅スペクトルの周波数毎の平均である雑音振幅スペクトルを算出し、雑音振幅スペクトルの周波数毎の２乗の総和であるノイズのパワーを算出する雑音振幅スペクトル推定手順と、
前記振幅スペクトル計算手順からの音声のパワー、前記雑音振幅スペクトル推定手順からのノイズのパワーとの比である音声雑音比を算出し、音声雑音比にしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御手順と、
前記振幅スペクトル計算手順からの音声の振幅スペクトルを、前記平滑化制御手順からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化手順と、
をコンピュータに実行させることを特徴とする音声認識プログラム。
音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し手順と、
前記信号切り出し手順からの短時間信号に基づいて音声の振幅スペクトル、雑音区間の振幅スペクトル、音声の振幅スペクトルの周波数毎の２乗の総和である音声のパワーを算出する振幅スペクトル計算手順と、
前記振幅スペクトル計算手順からの雑音区間の振幅スペクトルの周波数毎の平均である雑音振幅スペクトルを算出し、雑音振幅スペクトルの周波数毎の２乗の総和であるノイズのパワーを算出する雑音振幅スペクトル推定手順と、
前記振幅スペクトル計算手順からの音声のパワー、前記雑音振幅スペクトル推定手順からのノイズのパワーとの比である音声雑音比を算出し、音声雑音比にしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御手順と、
前記振幅スペクトル計算手順からの音声の振幅スペクトルを、前記平滑化制御手順からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化手順と、
前記スペクトル平滑化手順からの平滑化振幅スペクトルから前記雑音振幅スペクトル推定手順からの雑音振幅スペクトルを減じて修正振幅スペクトルとして算出する雑音引き算手順と、
をコンピュータに実行させることを特徴とする音声認識プログラム。
音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し手順と、
前記信号切り出し手順からの短時間信号に基づいて音声の振幅スペクトル、雑音区間の振幅スペクトル、音声の振幅スペクトルの周波数毎の２乗の総和である音声のパワーを算出する振幅スペクトル計算手順と、
前記振幅スペクトル計算手順からの雑音区間の振幅スペクトルの周波数毎の平均である雑音振幅スペクトルを算出し、雑音振幅スペクトルの周波数毎の２乗の総和であるノイズのパワーを算出する雑音振幅スペクトル推定手順と、
前記振幅スペクトル計算手順からの音声のパワー、前記雑音振幅スペクトル推定手順からのノイズのパワーとの比である音声雑音比を算出し、一定数のフレームの周波数毎の音声雑音比の平均を求め、音声雑音比の平均にしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御手順と、
前記振幅スペクトル計算手順からの音声の振幅スペクトルを、前記平滑化制御手順からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化手順と、
前記スペクトル平滑化手順からの平滑化振幅スペクトルから前記雑音振幅スペクトル推定手順からの雑音振幅スペクトルを減じて修正振幅スペクトルとして算出する雑音引き算手順と、
をコンピュータに実行させることを特徴とする音声認識プログラム。