JP2004020945A - 音声認識装置、音声認識方法、および、音声認識プログラム - Google Patents

音声認識装置、音声認識方法、および、音声認識プログラム Download PDF

Info

Publication number
JP2004020945A
JP2004020945A JP2002175944A JP2002175944A JP2004020945A JP 2004020945 A JP2004020945 A JP 2004020945A JP 2002175944 A JP2002175944 A JP 2002175944A JP 2002175944 A JP2002175944 A JP 2002175944A JP 2004020945 A JP2004020945 A JP 2004020945A
Authority
JP
Japan
Prior art keywords
amplitude spectrum
noise
voice
smoothing
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002175944A
Other languages
English (en)
Other versions
JP3761497B2 (ja
Inventor
Tadashi Emori
江森 正
Katsutoshi Okawa
大川 克利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Renesas Micro Systems Co Ltd
Original Assignee
NEC Corp
Renesas Micro Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp, Renesas Micro Systems Co Ltd filed Critical NEC Corp
Priority to JP2002175944A priority Critical patent/JP3761497B2/ja
Publication of JP2004020945A publication Critical patent/JP2004020945A/ja
Application granted granted Critical
Publication of JP3761497B2 publication Critical patent/JP3761497B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

【課題】雑音の大きい環境においても認識性能の高い、頑健な音声認識装置の構成を提供する。
【解決手段】音声信号01を短時間信号切り出し部10で、フレーム単位の短時間信号11を算出し、振幅スペクトル計算部20で振幅スペクトル21、雑音区間の振幅スペクトル22、音声のパワー23を算出する。平滑化制御部40が、音声のパワー23と、雑音振幅スペクトル推定部30により算出されたノイズのパワー32との音声雑音比に基づいて平滑化レベル41を算出する。スペクトル平滑化部50が、振幅スペクトル21を、平滑化レベル41に基づいて、周波数方向に平滑化し、平滑化振幅スペクトル51を出力し、雑音引き算部60が、平滑化振幅スペクトル51から雑音振幅スペクトル推定部30により算出された雑音振幅スペクトル31を引いた修正振幅スペクトル61を出力する。
【選択図】   図1

Description

【0001】
【発明の属する技術分野】
本発明は、音声認識装置、音声認識方法、および、音声認識プログラムに関し、特に、スペクトルの平滑化を利用する音声認識装置、音声認識方法、および、音声認識プログラムに関する。
【0002】
【従来の技術】
従来の音声認識装置の一例が「特開2001−134286号公報」に記載されている。
【0003】
図8は、この従来技術の構成を示すブロック図である。
【0004】
図8を参照すると、この従来の音声認識装置は、短時間信号切り出し部200と、パワースペクトル計算部210と、雑音パワースペクトル推定部215と、雑音引き算部220と、スペクトル平滑化部230と、特徴ベクトル計算部240と、音声認識処理部250とから構成される。
【0005】
まず、入力された音声信号を短時間信号切り出し部200によって、フレーム毎の短時間信号に切り出す。次に、パワースペクトル計算部210が切り出された短時間信号に対して、フーリエ変換などを行い、パワースペクトルを算出する。パワースペクトルは、振幅スペクトルを2乗したものである。ここで、発声による音声が入力されていない雑音区間では、雑音パワースペクトル推定部215が、パワースペクトルをもとに雑音パワースペクトルの推定を行う。
【0006】
次に、雑音引き算部220が、パワースペクトルから雑音パワースペクトルを差し引き、定常雑音を除去する。次に、スペクトル平滑化部230が定常雑音を除去したパワースペクトルに対して、時間方向に平滑化を行う。
【0007】
次に、特徴ベクトル計算部240が、平滑化後のパワースペクトルを用いて、音声の特徴を表す特徴ベクトルを求め、音声認識処理部250が、この特徴ベクトルと、あらかじめ学習音声によって作成された標準パターンとのパターンマッチングによって、音声認識処理を行う。このパターンマッチングの技術としては、「確率モデルによる音声認識」(中川聖一著、電子情報通信学会、平成9年11月20日、ISBN4−88552−072−X)記載の技術が存在する。
【0008】
また、「特開2001−134287号公報」記載の技術は、SNR(信号雑音比)を用い、周波数方向の平滑化を利用する雑音抑制の装置である。
【0009】
【発明が解決しようとする課題】
第1の問題点は、上述の「特開2001−134286号公報」では、メモリ使用量が増加することである。
【0010】
その理由は、スペクトルを時間方向に平滑化するためには、少なくとも1フレーム前のスペクトルを保持しておく必要があるからである。
【0011】
第2の問題点は、「特開2001−134286号公報」では、認識性能が環境に依存することである。
【0012】
その理由は、雑音が大きい環境では、スペクトルを平滑化することで、スペクトル中の雑音の影響が低減されるが、雑音が小さい環境では、スペクトルを平滑化することで、音声の特徴を落としてしまい認識性能が劣化してしまう恐れがあるからである。
【0013】
第3の問題点は、「特開2001−134287号公報」では、平滑化の精度が低いことである。
【0014】
その理由は、周波数方向には、隣接する周波数のスペクトルのみ考慮しているからである。
【0015】
本発明の目的は、平滑化の精度が高く、雑音の大きい環境においても認識性能の高い頑健な音声認識を実現することである。
【0016】
【課題を解決するための手段】
本発明の第1の音声認識装置は、音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し部と、前記信号切り出し部からの短時間信号に基づいて音声の振幅スペクトルを算出する振幅スペクトル計算部と、前記振幅スペクトル計算部からの音声の振幅スペクトルを、事前に設定したゼロまたは正の整数である平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化部と、を有することを特徴とする。
【0017】
本発明の第2の音声認識装置は、音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し部と、前記信号切り出し部からの短時間信号に基づいて音声の振幅スペクトル、音声の振幅スペクトルの周波数毎の2乗の総和である音声のパワーを算出する振幅スペクトル計算部と、前記振幅スペクトル計算部からの音声のパワーにしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御部と、前記振幅スペクトル計算部からの音声の振幅スペクトルを、前記平滑化制御部からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化部と、を有することを特徴とする。
【0018】
本発明の第3の音声認識装置は、音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し部と、前記信号切り出し部からの短時間信号に基づいて音声の振幅スペクトル、雑音区間の振幅スペクトル、音声の振幅スペクトルの周波数毎の2乗の総和である音声のパワーを算出する振幅スペクトル計算部と、前記振幅スペクトル計算部からの雑音区間の振幅スペクトルの周波数毎の平均である雑音振幅スペクトルを算出し、雑音振幅スペクトルの周波数毎の2乗の総和であるノイズのパワーを算出する雑音振幅スペクトル推定部と、前記振幅スペクトル計算部からの音声のパワー、前記雑音振幅スペクトル推定部からのノイズのパワーとの比である音声雑音比を算出し、音声雑音比にしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御部と、前記振幅スペクトル計算部からの音声の振幅スペクトルを、前記平滑化制御部からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化部と、を有することを特徴とする。
【0019】
本発明の第4の音声認識装置は、音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し部と、前記信号切り出し部からの短時間信号に基づいて音声の振幅スペクトル、雑音区間の振幅スペクトル、音声の振幅スペクトルの周波数毎の2乗の総和である音声のパワーを算出する振幅スペクトル計算部と、前記振幅スペクトル計算部からの雑音区間の振幅スペクトルの周波数毎の平均である雑音振幅スペクトルを算出し、雑音振幅スペクトルの周波数毎の2乗の総和であるノイズのパワーを算出する雑音振幅スペクトル推定部と、前記振幅スペクトル計算部からの音声のパワー、前記雑音振幅スペクトル推定部からのノイズのパワーとの比である音声雑音比を算出し、音声雑音比にしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御部と、前記振幅スペクトル計算部からの音声の振幅スペクトルを、前記平滑化制御部からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化部と、前記スペクトル平滑化部からの平滑化振幅スペクトルから前記雑音振幅スペクトル推定部からの雑音振幅スペクトルを減じて修正振幅スペクトルとして算出する雑音引き算部と、を有することを特徴とする。
【0020】
本発明の第5の音声認識装置は、音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し部と、前記信号切り出し部からの短時間信号に基づいて音声の振幅スペクトル、雑音区間の振幅スペクトル、音声の振幅スペクトルの周波数毎の2乗の総和である音声のパワーを算出する振幅スペクトル計算部と、前記振幅スペクトル計算部からの雑音区間の振幅スペクトルの周波数毎の平均である雑音振幅スペクトルを算出し、雑音振幅スペクトルの周波数毎の2乗の総和であるノイズのパワーを算出する雑音振幅スペクトル推定部と、前記振幅スペクトル計算部からの音声のパワー、前記雑音振幅スペクトル推定部からのノイズのパワーとの比である音声雑音比を算出し、一定数のフレームの周波数毎の音声雑音比の平均を求め、音声雑音比の平均にしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御部と、前記振幅スペクトル計算部からの音声の振幅スペクトルを、前記平滑化制御部からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化部と、前記スペクトル平滑化部からの平滑化振幅スペクトルから前記雑音振幅スペクトル推定部からの雑音振幅スペクトルを減じて修正振幅スペクトルとして算出する雑音引き算部と、を有することを特徴とする。
【0021】
本発明の第1の音声認識方法は、音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し手順と、前記信号切り出し手順からの短時間信号に基づいて音声の振幅スペクトルを算出する振幅スペクトル計算手順と、前記振幅スペクトル計算手順からの音声の振幅スペクトルを、事前に設定したゼロまたは正の整数である平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化手順と、を含むことを特徴とする。
【0022】
本発明の第2の音声認識方法は、音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し手順と、前記信号切り出し手順からの短時間信号に基づいて音声の振幅スペクトル、音声の振幅スペクトルの周波数毎の2乗の総和である音声のパワーを算出する振幅スペクトル計算手順と、前記振幅スペクトル計算手順からの音声のパワーにしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御手順と、前記振幅スペクトル計算手順からの音声の振幅スペクトルを、前記平滑化制御手順からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化手順と、を含むことを特徴とする。
【0023】
本発明の第3の音声認識方法は、音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し手順と、前記信号切り出し手順からの短時間信号に基づいて音声の振幅スペクトル、雑音区間の振幅スペクトル、音声の振幅スペクトルの周波数毎の2乗の総和である音声のパワーを算出する振幅スペクトル計算手順と、前記振幅スペクトル計算手順からの雑音区間の振幅スペクトルの周波数毎の平均である雑音振幅スペクトルを算出し、雑音振幅スペクトルの周波数毎の2乗の総和であるノイズのパワーを算出する雑音振幅スペクトル推定手順と、前記振幅スペクトル計算手順からの音声のパワー、前記雑音振幅スペクトル推定手順からのノイズのパワーとの比である音声雑音比を算出し、音声雑音比にしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御手順と、前記振幅スペクトル計算手順からの音声の振幅スペクトルを、前記平滑化制御手順からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化手順と、を含むことを特徴とする。
【0024】
本発明の第4の音声認識方法は、音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し手順と、前記信号切り出し手順からの短時間信号に基づいて音声の振幅スペクトル、雑音区間の振幅スペクトル、音声の振幅スペクトルの周波数毎の2乗の総和である音声のパワーを算出する振幅スペクトル計算手順と、前記振幅スペクトル計算手順からの雑音区間の振幅スペクトルの周波数毎の平均である雑音振幅スペクトルを算出し、雑音振幅スペクトルの周波数毎の2乗の総和であるノイズのパワーを算出する雑音振幅スペクトル推定手順と、前記振幅スペクトル計算手順からの音声のパワー、前記雑音振幅スペクトル推定手順からのノイズのパワーとの比である音声雑音比を算出し、音声雑音比にしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御手順と、前記振幅スペクトル計算手順からの音声の振幅スペクトルを、前記平滑化制御手順からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化手順と、前記スペクトル平滑化手順からの平滑化振幅スペクトルから前記雑音振幅スペクトル推定手順からの雑音振幅スペクトルを減じて修正振幅スペクトルとして算出する雑音引き算手順と、を含むことを特徴とする。
【0025】
本発明の第5の音声認識方法は、音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し手順と、前記信号切り出し手順からの短時間信号に基づいて音声の振幅スペクトル、雑音区間の振幅スペクトル、音声の振幅スペクトルの周波数毎の2乗の総和である音声のパワーを算出する振幅スペクトル計算手順と、前記振幅スペクトル計算手順からの雑音区間の振幅スペクトルの周波数毎の平均である雑音振幅スペクトルを算出し、雑音振幅スペクトルの周波数毎の2乗の総和であるノイズのパワーを算出する雑音振幅スペクトル推定手順と、前記振幅スペクトル計算手順からの音声のパワー、前記雑音振幅スペクトル推定手順からのノイズのパワーとの比である音声雑音比を算出し、一定数のフレームの周波数毎の音声雑音比の平均を求め、音声雑音比の平均にしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御手順と、前記振幅スペクトル計算手順からの音声の振幅スペクトルを、前記平滑化制御手順からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化手順と、前記スペクトル平滑化手順からの平滑化振幅スペクトルから前記雑音振幅スペクトル推定手順からの雑音振幅スペクトルを減じて修正振幅スペクトルとして算出する雑音引き算手順と、を含むことを特徴とする。
【0026】
本発明の第1の音声認識プログラムは、音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し手順と、前記信号切り出し手順からの短時間信号に基づいて音声の振幅スペクトルを算出する振幅スペクトル計算手順と、前記振幅スペクトル計算手順からの音声の振幅スペクトルを、事前に設定したゼロまたは正の整数である平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化手順と、をコンピュータに実行させることを特徴とする。
【0027】
本発明の第2の音声認識プログラムは、音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し手順と、前記信号切り出し手順からの短時間信号に基づいて音声の振幅スペクトル、音声の振幅スペクトルの周波数毎の2乗の総和である音声のパワーを算出する振幅スペクトル計算手順と、前記振幅スペクトル計算手順からの音声のパワーにしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御手順と、前記振幅スペクトル計算手順からの音声の振幅スペクトルを、前記平滑化制御手順からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化手順と、をコンピュータに実行させることを特徴とする。
【0028】
本発明の第3の音声認識プログラムは、音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し手順と、前記信号切り出し手順からの短時間信号に基づいて音声の振幅スペクトル、雑音区間の振幅スペクトル、音声の振幅スペクトルの周波数毎の2乗の総和である音声のパワーを算出する振幅スペクトル計算手順と、前記振幅スペクトル計算手順からの雑音区間の振幅スペクトルの周波数毎の平均である雑音振幅スペクトルを算出し、雑音振幅スペクトルの周波数毎の2乗の総和であるノイズのパワーを算出する雑音振幅スペクトル推定手順と、前記振幅スペクトル計算手順からの音声のパワー、前記雑音振幅スペクトル推定手順からのノイズのパワーとの比である音声雑音比を算出し、音声雑音比にしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御手順と、前記振幅スペクトル計算手順からの音声の振幅スペクトルを、前記平滑化制御手順からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化手順と、をコンピュータに実行させることを特徴とする。
【0029】
本発明の第4の音声認識プログラムは、音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し手順と、前記信号切り出し手順からの短時間信号に基づいて音声の振幅スペクトル、雑音区間の振幅スペクトル、音声の振幅スペクトルの周波数毎の2乗の総和である音声のパワーを算出する振幅スペクトル計算手順と、前記振幅スペクトル計算手順からの雑音区間の振幅スペクトルの周波数毎の平均である雑音振幅スペクトルを算出し、雑音振幅スペクトルの周波数毎の2乗の総和であるノイズのパワーを算出する雑音振幅スペクトル推定手順と、前記振幅スペクトル計算手順からの音声のパワー、前記雑音振幅スペクトル推定手順からのノイズのパワーとの比である音声雑音比を算出し、音声雑音比にしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御手順と、前記振幅スペクトル計算手順からの音声の振幅スペクトルを、前記平滑化制御手順からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化手順と、前記スペクトル平滑化手順からの平滑化振幅スペクトルから前記雑音振幅スペクトル推定手順からの雑音振幅スペクトルを減じて修正振幅スペクトルとして算出する雑音引き算手順と、をコンピュータに実行させることを特徴とする。
【0030】
本発明の第5の音声認識プログラムは、音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し手順と、前記信号切り出し手順からの短時間信号に基づいて音声の振幅スペクトル、雑音区間の振幅スペクトル、音声の振幅スペクトルの周波数毎の2乗の総和である音声のパワーを算出する振幅スペクトル計算手順と、前記振幅スペクトル計算手順からの雑音区間の振幅スペクトルの周波数毎の平均である雑音振幅スペクトルを算出し、雑音振幅スペクトルの周波数毎の2乗の総和であるノイズのパワーを算出する雑音振幅スペクトル推定手順と、前記振幅スペクトル計算手順からの音声のパワー、前記雑音振幅スペクトル推定手順からのノイズのパワーとの比である音声雑音比を算出し、一定数のフレームの周波数毎の音声雑音比の平均を求め、音声雑音比の平均にしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御手順と、前記振幅スペクトル計算手順からの音声の振幅スペクトルを、前記平滑化制御手順からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化手順と、前記スペクトル平滑化手順からの平滑化振幅スペクトルから前記雑音振幅スペクトル推定手順からの雑音振幅スペクトルを減じて修正振幅スペクトルとして算出する雑音引き算手順と、をコンピュータに実行させることを特徴とする。
【0031】
【発明の実施の形態】
次に、本発明の第1の実施の形態について図面を参照して詳細に説明する。
【0032】
図1は、本発明の第1の実施の形態の構成を示す説明図である。
【0033】
図2は、平滑化レベルを決定する仕方を示す説明図である。
【0034】
図3は、平滑化の効果を示す説明図である。
【0035】
図1を参照すると、本発明の第1の実施の形態は、短時間信号切り出し部10と、振幅スペクトル計算部20と、雑音振幅スペクトル推定部30と、平滑化制御部40と、スペクトル平滑化部50と、雑音引き算部60と、特徴ベクトル計算部70と、音声認識処理部80から構成される。
【0036】
短時間信号切り出し部10は、入力された音声信号01を一定時間(フレーム)ごとの短時間信号11に切り出す処理を行う。振幅スペクトル計算部20は、短時間信号11に対して、フーリエ変換などにより振幅スペクトル21を算出する処理を行う。
【0037】
雑音振幅スペクトル推定部30は、雑音区間の振幅スペクトル22から雑音振幅スペクトル31を算出する処理を行う。平滑化制御部40は、振幅スペクトル21の2乗和である音声パワー23と、雑音振幅スペクトル31の2乗和であるノイズのパワー32とから、音声とノイズとのパワー比であるフレームごとのSNRを算出し、フレームごとのSNRの値によってスペクトル平滑化部50の平滑化レベル41を決定する処理を行う。
【0038】
スペクトル平滑化部50は、平滑化制御部40によって決定された平滑化レベル41に従って、振幅スペクトル21を平滑化し、平滑化振幅スペクトル51を出力する処理を行う。雑音引き算部60は、平滑化振幅スペクトル51から定常雑音を除去し、雑音除去済みの修正振幅スペクトル61を出力する処理を行う。
【0039】
特徴ベクトル計算部70は、雑音除去済みの修正振幅スペクトル61から音声の特徴ベクトル71を算出する処理を行う。音声認識処理部80は、特徴ベクトル71と標準パターンとを用いてパターンマッチングを行い、認識結果を出力する処理を行う。パターンマッチングとしては、たとえば、上記「確率モデルによる音声認識」に述べられているDPマッチングなどが利用可能である。
【0040】
次に、本発明の第1の実施の形態の動作について図面を参照して説明する。
【0041】
まず、短時間信号切り出し部10が入力された音声信号01からフレーム毎の短時間信号11を出力する。詳細には、短時間信号切り出し部10は、アナログの音声信号01を一定時間毎(たとえば8[KHz]で)にサンプリングし、デジタル信号に変換し、デジタルサンプリング信号として出力する。さらに、一定数(たとえば、128[個])のデジタルサンプリング信号を集め、1フレームの短時間信号11として出力する。
【0042】
次に、振幅スペクトル計算部20が短時間信号11に対して、フーリエ変換等を行い、フレーム単位の振幅スペクトル21(周波数毎の振幅を含む)を出力する。ここで、振幅スペクトル21は、フーリエ変換後、各周波数に相当する点毎に、実部と虚部を2乗して加えたパワースペクトルの平方根をとったものである。
【0043】
さらに、振幅スペクトル計算部20は、振幅スペクトル21から音声のパワー23を出力する。音声のパワー23は、周波数毎の振幅スペクトル21を2乗し、その全周波数の総和をとったものである。
【0044】
次に、雑音振幅スペクトル推定部30が、音声の入力されていない区間、すなわち、雑音区間の振幅スペクトル22をもとに、雑音振幅スペクトル31を出力する。ここで、雑音区間を、たとえば、振幅スペクトル21のうち、波形を入力し始めてから一定数のフレームと定義する。雑音振幅スペクトル31は、雑音区間の振幅スペクトル22の周波数毎の平均である。
【0045】
さらに、雑音振幅スペクトル推定部30は、雑音振幅スペクトル31の周波数毎の値を2乗し、その全周波数の総和を求め、ノイズのパワー32として出力する。
【0046】
次に、平滑化制御部40は、[式1]によりSNR(音声雑音比)を算出し、SNRから平滑化レベル41を求め、出力する。
【0047】
[式1]:SNR=(音声のパワー23)/(ノイズのパワー32)。
【0048】
さらに、平滑化制御部40は、SNRの値により、図2にしたがって、平滑化レベル41(n;ゼロまたは正の整数)を決定する。平滑化レベル41(n)は、平滑化を行う点数で、たとえば、n=1の場合、周波数kの振幅スペクトルに対し、両隣1個の振幅スペクトルを用いて平滑化を行う。nは、SNRが小さい(=雑音が大きい)場合は大きく、SNRが大きい(=雑音が小さい)場合は小さくする決定される。
【0049】
ただし、nを大きくしすぎると認識性能が低下してしまうので、最大のバンド幅をNとし、制御するSNRの範囲をα,βとする。ここで、α、β、および、Nは、認識実験により認識率がもっとも良くなる値に事前に設定しておく。
【0050】
図2を参照すると、SNR<αであれば、n=Nであり、α≦SNR<βであれば、n=N(SNR−β)/(α−β)であり、β≦SNRであれば、n=0である。n=が整数でない場合には、たとえば、四捨五入し、整数にする。
【0051】
次に、スペクトル平滑化部50は、平滑化レベル41、[式2]にしたがって、振幅スペクトル21を平滑化し、平滑化振幅スペクトル51を出力する。
【0052】
[式2]:P’[k,t]=r[−n]P[k−n,t]+・・・+r[0]P[k,t]+・・・+r[n]P[k+n,t]。
【0053】
式2において、P[k,t]は、振幅スペクトル21であり、P’[k,t]は、平滑化後の平滑化振幅スペクトル51であり、kは、周波数に通し番号をつけたものであり、tは、フレームに通し番号をつけたものであり、r[−n],・・・,r[n]は、平滑化係数である。平滑化係数rは、たとえば、r[0]=1、r[±1]=1/2、r[±n]=2の−n乗のように、r[0]を中心として、中心から離れるにしたがい、小さな値になるようにする。このように、ある周波数の平滑化振幅スペクトル51は、前後nの周波数の振幅スペクトル21の値を考慮した周波数方向の平滑化がなされたものとなる。
【0054】
図3を参照すると、スペクトル平滑化部50により、振幅スペクトル21が、滑らかな平滑化振幅スペクトル51になることがわかる。
【0055】
次に、雑音引き算部60は、平滑化振幅スペクトル51から雑音振幅スペクトル31を差し引き(周波数ごとに)、雑音を除去した修正振幅スペクトル61を求め、出力する。
【0056】
次に、特徴ベクトル計算部70は、修正振幅スペクトル61を用いて、音声の特徴を表す特徴ベクトル71を求め、出力する。次に、音声認識処理部80は、この特徴ベクトル71と、あらかじめ学習音声によって作成された標準パターンとのパターンマッチングによって、音声認識処理を行う。
【0057】
次に、本発明の第2の実施の形態について図面を参照して詳細に説明する。
【0058】
図4は、本発明の第2の実施の形態の構成を示すブロック図である。
【0059】
図4を参照すると、短時間信号切り出し部10が、入力された音声信号01から、フレーム毎の短時間信号11を出力する。次に、振幅スペクトル計算部20が、短時間信号11に対してフーリエ変換などを行い、振幅スペクトル21を出力する。次に、スペクトル平滑化部50が、振幅スペクトル21に対して、[式2]を用い(nは、事前に固定値を設定する)、周波数方向の平滑化を行い、平滑化振幅スペクトル51を出力する。次に、特徴ベクトル計算部70が、平滑化振幅スペクトル51から音声の特徴を表す特徴ベクトル71を求め、出力する。次に、音声認識処理部80が特徴ベクトル71と、あらかじめ学習音声によって作成された標準パターンとのパターンマッチングによって、音声認識処理を行う。
【0060】
次に、本発明の第3の実施の形態について図面を参照して詳細に説明する。
【0061】
図5は、本発明の第3の実施の形態の構成を示すブロック図である。
【0062】
図5を参照すると、短時間信号切り出し部10が、入力された音声信号01から、フレーム毎の短時間信号11を出力する。次に、振幅スペクトル計算部20が、短時間信号11に対してフーリエ変換などを行い、振幅スペクトル21を出力する。さらに、振幅スペクトル計算部20が、振幅スペクトル21に対して2乗和である音声のパワー23を求め(たとえば、図2の横軸に音声のパワー23をとる)、出力する。次に平滑化制御部40が音声のパワー23の大きさにより、平滑化レベル41(n)を決定し、出力する。次に、スペクトル平滑化部50が、振幅スペクトル21に対して、平滑化レベル41(n)を適用し、[式2]により周波数方向の平滑化を行い、平滑化振幅スペクトル51を出力する。次に、特徴ベクトル計算部70が、平滑化振幅スペクトル51から音声の特徴を表す特徴ベクトル71を求め、出力する。次に、音声認識処理部80が特徴ベクトル71と、あらかじめ学習音声によって作成された標準パターンとのパターンマッチングによって、音声認識処理を行う。
【0063】
次に、本発明の第4の実施の形態について図面を参照して詳細に説明する。
【0064】
図6は、本発明の第4の実施の形態の構成を示すブロック図である。
【0065】
図6を参照すると、短時間信号切り出し部10が、入力された音声信号01から、フレーム毎の短時間信号11を出力する。次に、振幅スペクトル計算部20が、短時間信号11に対してフーリエ変換などを行い、振幅スペクトル21を出力する。さらに、振幅スペクトル計算部20が、雑音区間の振幅スペクトル22、音声のパワー23を求め、出力する。次に、雑音振幅スペクトル推定部30が、雑音区間の振幅スペクトル22をもとに雑音振幅スペクトル31を計算し、さらに、雑音振幅スペクトル31の周波数毎の値を2乗し、その全周波数の総和を求め、ノイズのパワー32として出力する。
【0066】
次に、平滑化制御部40は、[式1]によりSNR(音声雑音比)を算出し、SNRから図2にしたがって平滑化レベル41(n)を求め、出力する。次に、スペクトル平滑化部50が、振幅スペクトル21に対して、平滑化レベル41(n)を適用し、[式2]により周波数方向の平滑化を行い、平滑化振幅スペクトル51を出力する。次に、特徴ベクトル計算部70が、平滑化振幅スペクトル51から音声の特徴を表す特徴ベクトル71を求め、出力する。次に、音声認識処理部80が特徴ベクトル71と、あらかじめ学習音声によって作成された標準パターンとのパターンマッチングによって、音声認識処理を行う。
【0067】
以上においては、平滑化するスペクトルとして、振幅スペクトル21を用いているが、パワースペクトルを用いることも可能である。
【0068】
また、平滑化レベル41を他の計算式で求めることも可能である。
【0069】
図7は、平滑化レベル41を求める他の計算を示す説明図である。
【0070】
図7を参照すると、発声単位で(発声が、ある事前に設定した時間内にあれば、それは1つの発声単位とする。たとえば、「今日は。よい天気ですね」と発声された場合、「今日は」と「よい天気ですね」との間の無音の間隔がある時間より短ければ、1発声単位、長ければ2発声単位となる)、一定数のフレームの周波数毎のSNRの平均を求め、このSNR平均によって(図2の横軸にSNR平均を使用)、平滑化レベル41を決定する。また、SNR平均の替わりにSNRのピーク値などを用いることも可能である。
【0071】
また、周波数領域ごとに平滑化レベル41を算出する計算式を変えて、平滑化を行うことも可能である。
【0072】
また、図2の平滑化制御におけるSNRの範囲α、βを、尤度が良くなるように設定することも可能である。
【0073】
次に、本発明の第5の実施の形態について図面を参照して詳細に説明する。
【0074】
本発明の第5の実施の形態は、本発明の第1の実施の形態の図1に示す短時間信号切り出し部10、振幅スペクトル計算部20、雑音振幅スペクトル推定部30、平滑化制御部40、スペクトル平滑化部50、雑音引き算部60、特徴ベクトル計算部70、音声認識処理部80と、それぞれ同等の機能を実現する各手順を含む方法である。
【0075】
次に、本発明の第6の実施の形態について図面を参照して詳細に説明する。
【0076】
本発明の第6の実施の形態は、本発明の第5の実施の形態の各手順をコンピュータ(図1に示す短時間信号切り出し部10、振幅スペクトル計算部20、雑音振幅スペクトル推定部30、平滑化制御部40、スペクトル平滑化部50、雑音引き算部60、特徴ベクトル計算部70、音声認識処理部80を含む)に実行させるプログラムである。
【0077】
【発明の効果】
本発明の第1の効果は、信号雑音比の小さくなるような、雑音の大きい環境での認識性能を向上できることである。
【0078】
その理由は、音声の振幅スペクトルを周波数方向に精緻に平滑化することで、周波数ごとの雑音成分のばらつきを低減することができるからである。また、周波数方向の平滑化レベルの値を大きくすることによって、より雑音の大きい環境で効果を得ることができる。
【0079】
第2の効果は、環境に依存せずに安定した認識性能を得ることができることである。
【0080】
その理由は、振幅スペクトルの平滑化は、雑音が大きい環境の認識性能は向上するが、静かな環境での認識性能には悪影響を及ぼすが、平滑化制御部で音声雑音比によって、静かな環境ではスペクトルの平滑化レベルを低くし、認識性能の劣化を防ぐことができるからである。
【0081】
第3の効果は、メモリ使用量を増やすことなく、認識性能を向上させることができることである。
【0082】
その理由は、振幅スペクトルの周波数方向の平滑化では、現在処理中のフレームのスペクトル情報のみを必要とし、新たにメモリを消費しないからである。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態の構成を示す説明図である。
【図2】平滑化レベルを決定する仕方を示す説明図である。
【図3】平滑化の効果を示す説明図である。
【図4】本発明の第2の実施の形態の構成を示すブロック図である。
【図5】本発明の第3の実施の形態の構成を示すブロック図である。
【図6】本発明の第4の実施の形態の構成を示すブロック図である。
【図7】平滑化レベルを求める他の計算を示す説明図である。
【図8】従来技術の構成を示すブロック図である。
【符号の説明】
01  音声信号
10  短時間信号切り出し部
11  短時間信号
20  振幅スペクトル計算部
21  振幅スペクトル
22  雑音区間の振幅スペクトル
23  音声のパワー
30  雑音振幅スペクトル推定部
31  雑音振幅スペクトル
32  ノイズのパワー
40  平滑化制御部
41  平滑化レベル
50  スペクトル平滑化部
51  平滑化振幅スペクトル
60  雑音引き算部
61  修正振幅スペクトル
70  特徴ベクトル計算部
71  特徴ベクトル
80  音声認識処理部
200  短時間信号切り出し部
210  パワースペクトル計算部
215  雑音パワースペクトル推定部
220  雑音引き算部
230  スペクトル平滑化部
240  特徴ベクトル計算部
250  音声認識処理部

Claims (15)

  1. 音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し部と、
    前記信号切り出し部からの短時間信号に基づいて音声の振幅スペクトルを算出する振幅スペクトル計算部と、
    前記振幅スペクトル計算部からの音声の振幅スペクトルを、事前に設定したゼロまたは正の整数である平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化部と、
    を有することを特徴とする音声認識装置。
  2. 音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し部と、
    前記信号切り出し部からの短時間信号に基づいて音声の振幅スペクトル、音声の振幅スペクトルの周波数毎の2乗の総和である音声のパワーを算出する振幅スペクトル計算部と、
    前記振幅スペクトル計算部からの音声のパワーにしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御部と、
    前記振幅スペクトル計算部からの音声の振幅スペクトルを、前記平滑化制御部からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化部と、
    を有することを特徴とする音声認識装置。
  3. 音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し部と、
    前記信号切り出し部からの短時間信号に基づいて音声の振幅スペクトル、雑音区間の振幅スペクトル、音声の振幅スペクトルの周波数毎の2乗の総和である音声のパワーを算出する振幅スペクトル計算部と、
    前記振幅スペクトル計算部からの雑音区間の振幅スペクトルの周波数毎の平均である雑音振幅スペクトルを算出し、雑音振幅スペクトルの周波数毎の2乗の総和であるノイズのパワーを算出する雑音振幅スペクトル推定部と、
    前記振幅スペクトル計算部からの音声のパワー、前記雑音振幅スペクトル推定部からのノイズのパワーとの比である音声雑音比を算出し、音声雑音比にしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御部と、
    前記振幅スペクトル計算部からの音声の振幅スペクトルを、前記平滑化制御部からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化部と、
    を有することを特徴とする音声認識装置。
  4. 音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し部と、
    前記信号切り出し部からの短時間信号に基づいて音声の振幅スペクトル、雑音区間の振幅スペクトル、音声の振幅スペクトルの周波数毎の2乗の総和である音声のパワーを算出する振幅スペクトル計算部と、
    前記振幅スペクトル計算部からの雑音区間の振幅スペクトルの周波数毎の平均である雑音振幅スペクトルを算出し、雑音振幅スペクトルの周波数毎の2乗の総和であるノイズのパワーを算出する雑音振幅スペクトル推定部と、
    前記振幅スペクトル計算部からの音声のパワー、前記雑音振幅スペクトル推定部からのノイズのパワーとの比である音声雑音比を算出し、音声雑音比にしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御部と、
    前記振幅スペクトル計算部からの音声の振幅スペクトルを、前記平滑化制御部からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化部と、
    前記スペクトル平滑化部からの平滑化振幅スペクトルから前記雑音振幅スペクトル推定部からの雑音振幅スペクトルを減じて修正振幅スペクトルとして算出する雑音引き算部と、
    を有することを特徴とする音声認識装置。
  5. 音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し部と、
    前記信号切り出し部からの短時間信号に基づいて音声の振幅スペクトル、雑音区間の振幅スペクトル、音声の振幅スペクトルの周波数毎の2乗の総和である音声のパワーを算出する振幅スペクトル計算部と、
    前記振幅スペクトル計算部からの雑音区間の振幅スペクトルの周波数毎の平均である雑音振幅スペクトルを算出し、雑音振幅スペクトルの周波数毎の2乗の総和であるノイズのパワーを算出する雑音振幅スペクトル推定部と、
    前記振幅スペクトル計算部からの音声のパワー、前記雑音振幅スペクトル推定部からのノイズのパワーとの比である音声雑音比を算出し、一定数のフレームの周波数毎の音声雑音比の平均を求め、音声雑音比の平均にしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御部と、
    前記振幅スペクトル計算部からの音声の振幅スペクトルを、前記平滑化制御部からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化部と、
    前記スペクトル平滑化部からの平滑化振幅スペクトルから前記雑音振幅スペクトル推定部からの雑音振幅スペクトルを減じて修正振幅スペクトルとして算出する雑音引き算部と、
    を有することを特徴とする音声認識装置。
  6. 音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し手順と、
    前記信号切り出し手順からの短時間信号に基づいて音声の振幅スペクトルを算出する振幅スペクトル計算手順と、
    前記振幅スペクトル計算手順からの音声の振幅スペクトルを、事前に設定したゼロまたは正の整数である平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化手順と、
    を含むことを特徴とする音声認識方法。
  7. 音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し手順と、
    前記信号切り出し手順からの短時間信号に基づいて音声の振幅スペクトル、音声の振幅スペクトルの周波数毎の2乗の総和である音声のパワーを算出する振幅スペクトル計算手順と、
    前記振幅スペクトル計算手順からの音声のパワーにしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御手順と、
    前記振幅スペクトル計算手順からの音声の振幅スペクトルを、前記平滑化制御手順からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化手順と、
    を含むことを特徴とする音声認識方法。
  8. 音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し手順と、
    前記信号切り出し手順からの短時間信号に基づいて音声の振幅スペクトル、雑音区間の振幅スペクトル、音声の振幅スペクトルの周波数毎の2乗の総和である音声のパワーを算出する振幅スペクトル計算手順と、
    前記振幅スペクトル計算手順からの雑音区間の振幅スペクトルの周波数毎の平均である雑音振幅スペクトルを算出し、雑音振幅スペクトルの周波数毎の2乗の総和であるノイズのパワーを算出する雑音振幅スペクトル推定手順と、
    前記振幅スペクトル計算手順からの音声のパワー、前記雑音振幅スペクトル推定手順からのノイズのパワーとの比である音声雑音比を算出し、音声雑音比にしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御手順と、
    前記振幅スペクトル計算手順からの音声の振幅スペクトルを、前記平滑化制御手順からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化手順と、
    を含むことを特徴とする音声認識方法。
  9. 音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し手順と、
    前記信号切り出し手順からの短時間信号に基づいて音声の振幅スペクトル、雑音区間の振幅スペクトル、音声の振幅スペクトルの周波数毎の2乗の総和である音声のパワーを算出する振幅スペクトル計算手順と、
    前記振幅スペクトル計算手順からの雑音区間の振幅スペクトルの周波数毎の平均である雑音振幅スペクトルを算出し、雑音振幅スペクトルの周波数毎の2乗の総和であるノイズのパワーを算出する雑音振幅スペクトル推定手順と、
    前記振幅スペクトル計算手順からの音声のパワー、前記雑音振幅スペクトル推定手順からのノイズのパワーとの比である音声雑音比を算出し、音声雑音比にしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御手順と、
    前記振幅スペクトル計算手順からの音声の振幅スペクトルを、前記平滑化制御手順からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化手順と、
    前記スペクトル平滑化手順からの平滑化振幅スペクトルから前記雑音振幅スペクトル推定手順からの雑音振幅スペクトルを減じて修正振幅スペクトルとして算出する雑音引き算手順と、
    を含むことを特徴とする音声認識方法。
  10. 音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し手順と、
    前記信号切り出し手順からの短時間信号に基づいて音声の振幅スペクトル、雑音区間の振幅スペクトル、音声の振幅スペクトルの周波数毎の2乗の総和である音声のパワーを算出する振幅スペクトル計算手順と、
    前記振幅スペクトル計算手順からの雑音区間の振幅スペクトルの周波数毎の平均である雑音振幅スペクトルを算出し、雑音振幅スペクトルの周波数毎の2乗の総和であるノイズのパワーを算出する雑音振幅スペクトル推定手順と、
    前記振幅スペクトル計算手順からの音声のパワー、前記雑音振幅スペクトル推定手順からのノイズのパワーとの比である音声雑音比を算出し、一定数のフレームの周波数毎の音声雑音比の平均を求め、音声雑音比の平均にしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御手順と、
    前記振幅スペクトル計算手順からの音声の振幅スペクトルを、前記平滑化制御手順からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化手順と、
    前記スペクトル平滑化手順からの平滑化振幅スペクトルから前記雑音振幅スペクトル推定手順からの雑音振幅スペクトルを減じて修正振幅スペクトルとして算出する雑音引き算手順と、
    を含むことを特徴とする音声認識方法。
  11. 音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し手順と、
    前記信号切り出し手順からの短時間信号に基づいて音声の振幅スペクトルを算出する振幅スペクトル計算手順と、
    前記振幅スペクトル計算手順からの音声の振幅スペクトルを、事前に設定したゼロまたは正の整数である平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化手順と、
    をコンピュータに実行させることを特徴とする音声認識プログラム。
  12. 音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し手順と、
    前記信号切り出し手順からの短時間信号に基づいて音声の振幅スペクトル、音声の振幅スペクトルの周波数毎の2乗の総和である音声のパワーを算出する振幅スペクトル計算手順と、
    前記振幅スペクトル計算手順からの音声のパワーにしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御手順と、
    前記振幅スペクトル計算手順からの音声の振幅スペクトルを、前記平滑化制御手順からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化手順と、
    をコンピュータに実行させることを特徴とする音声認識プログラム。
  13. 音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し手順と、
    前記信号切り出し手順からの短時間信号に基づいて音声の振幅スペクトル、雑音区間の振幅スペクトル、音声の振幅スペクトルの周波数毎の2乗の総和である音声のパワーを算出する振幅スペクトル計算手順と、
    前記振幅スペクトル計算手順からの雑音区間の振幅スペクトルの周波数毎の平均である雑音振幅スペクトルを算出し、雑音振幅スペクトルの周波数毎の2乗の総和であるノイズのパワーを算出する雑音振幅スペクトル推定手順と、
    前記振幅スペクトル計算手順からの音声のパワー、前記雑音振幅スペクトル推定手順からのノイズのパワーとの比である音声雑音比を算出し、音声雑音比にしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御手順と、
    前記振幅スペクトル計算手順からの音声の振幅スペクトルを、前記平滑化制御手順からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化手順と、
    をコンピュータに実行させることを特徴とする音声認識プログラム。
  14. 音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し手順と、
    前記信号切り出し手順からの短時間信号に基づいて音声の振幅スペクトル、雑音区間の振幅スペクトル、音声の振幅スペクトルの周波数毎の2乗の総和である音声のパワーを算出する振幅スペクトル計算手順と、
    前記振幅スペクトル計算手順からの雑音区間の振幅スペクトルの周波数毎の平均である雑音振幅スペクトルを算出し、雑音振幅スペクトルの周波数毎の2乗の総和であるノイズのパワーを算出する雑音振幅スペクトル推定手順と、
    前記振幅スペクトル計算手順からの音声のパワー、前記雑音振幅スペクトル推定手順からのノイズのパワーとの比である音声雑音比を算出し、音声雑音比にしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御手順と、
    前記振幅スペクトル計算手順からの音声の振幅スペクトルを、前記平滑化制御手順からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化手順と、
    前記スペクトル平滑化手順からの平滑化振幅スペクトルから前記雑音振幅スペクトル推定手順からの雑音振幅スペクトルを減じて修正振幅スペクトルとして算出する雑音引き算手順と、
    をコンピュータに実行させることを特徴とする音声認識プログラム。
  15. 音声信号からフレーム単位の短時間信号を出力する短時間信号切り出し手順と、
    前記信号切り出し手順からの短時間信号に基づいて音声の振幅スペクトル、雑音区間の振幅スペクトル、音声の振幅スペクトルの周波数毎の2乗の総和である音声のパワーを算出する振幅スペクトル計算手順と、
    前記振幅スペクトル計算手順からの雑音区間の振幅スペクトルの周波数毎の平均である雑音振幅スペクトルを算出し、雑音振幅スペクトルの周波数毎の2乗の総和であるノイズのパワーを算出する雑音振幅スペクトル推定手順と、
    前記振幅スペクトル計算手順からの音声のパワー、前記雑音振幅スペクトル推定手順からのノイズのパワーとの比である音声雑音比を算出し、一定数のフレームの周波数毎の音声雑音比の平均を求め、音声雑音比の平均にしたがってゼロまたは正の整数である平滑化レベルを算出する平滑化制御手順と、
    前記振幅スペクトル計算手順からの音声の振幅スペクトルを、前記平滑化制御手順からの平滑化レベルに基づいて、該当周波数の前後平滑化レベルの数の周波数のスペクトル、および該当周波数にそれぞれ異なる定数を乗じ、総和を平滑化振幅スペクトルとして算出するスペクトル平滑化手順と、
    前記スペクトル平滑化手順からの平滑化振幅スペクトルから前記雑音振幅スペクトル推定手順からの雑音振幅スペクトルを減じて修正振幅スペクトルとして算出する雑音引き算手順と、
    をコンピュータに実行させることを特徴とする音声認識プログラム。
JP2002175944A 2002-06-17 2002-06-17 音声認識装置、音声認識方法、および、音声認識プログラム Expired - Fee Related JP3761497B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002175944A JP3761497B2 (ja) 2002-06-17 2002-06-17 音声認識装置、音声認識方法、および、音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002175944A JP3761497B2 (ja) 2002-06-17 2002-06-17 音声認識装置、音声認識方法、および、音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2004020945A true JP2004020945A (ja) 2004-01-22
JP3761497B2 JP3761497B2 (ja) 2006-03-29

Family

ID=31174451

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002175944A Expired - Fee Related JP3761497B2 (ja) 2002-06-17 2002-06-17 音声認識装置、音声認識方法、および、音声認識プログラム

Country Status (1)

Country Link
JP (1) JP3761497B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2422237A (en) * 2004-12-21 2006-07-19 Fluency Voice Technology Ltd Dynamic coefficients determined from temporally adjacent speech frames
JP2008076975A (ja) * 2006-09-25 2008-04-03 Fujitsu Ltd 音信号補正方法、音信号補正装置及びコンピュータプログラム
JP2008252389A (ja) * 2007-03-29 2008-10-16 Casio Comput Co Ltd 撮像装置、雑音除去方法及びプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2422237A (en) * 2004-12-21 2006-07-19 Fluency Voice Technology Ltd Dynamic coefficients determined from temporally adjacent speech frames
JP2008076975A (ja) * 2006-09-25 2008-04-03 Fujitsu Ltd 音信号補正方法、音信号補正装置及びコンピュータプログラム
US8249270B2 (en) 2006-09-25 2012-08-21 Fujitsu Limited Sound signal correcting method, sound signal correcting apparatus and computer program
JP2008252389A (ja) * 2007-03-29 2008-10-16 Casio Comput Co Ltd 撮像装置、雑音除去方法及びプログラム

Also Published As

Publication number Publication date
JP3761497B2 (ja) 2006-03-29

Similar Documents

Publication Publication Date Title
WO2022012367A1 (zh) 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端
KR100304666B1 (ko) 음성 향상 방법
EP2546831B1 (en) Noise suppression device
WO2005124739A1 (ja) 雑音抑圧装置および雑音抑圧方法
JP5183828B2 (ja) 雑音抑圧装置
JP5875609B2 (ja) 雑音抑圧装置
JP2006087082A (ja) 多感覚音声強調のための方法および装置
WO2006123721A1 (ja) 雑音抑圧方法およびその装置
JP3588030B2 (ja) 音声区間判定装置及び音声区間判定方法
JP2008076975A (ja) 音信号補正方法、音信号補正装置及びコンピュータプログラム
US7885810B1 (en) Acoustic signal enhancement method and apparatus
JP3907194B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP4965891B2 (ja) 信号処理装置およびその方法
WO2022218254A1 (zh) 语音信号增强方法、装置及电子设备
US6965860B1 (en) Speech processing apparatus and method measuring signal to noise ratio and scaling speech and noise
EP4189677B1 (en) Noise reduction using machine learning
JP2000330597A (ja) 雑音抑圧装置
JP4434813B2 (ja) 雑音スペクトル推定方法、雑音抑圧方法および雑音抑圧装置
JP2008116686A (ja) 雑音抑圧装置
JP2005258158A (ja) ノイズ除去装置
JP4123835B2 (ja) 雑音抑圧装置および雑音抑圧方法
KR100784456B1 (ko) Gmm을 이용한 음질향상 시스템
JP2001159899A (ja) 騒音抑圧装置
JP3761497B2 (ja) 音声認識装置、音声認識方法、および、音声認識プログラム
JP3849679B2 (ja) 雑音除去方法、雑音除去装置およびプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20041008

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041026

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041214

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20050309

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050707

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20050811

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060110

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100120

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110120

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110120

Year of fee payment: 5

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110120

Year of fee payment: 5

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110120

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120120

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130120

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130120

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees