JP2001318687A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2001318687A
JP2001318687A JP2000315546A JP2000315546A JP2001318687A JP 2001318687 A JP2001318687 A JP 2001318687A JP 2000315546 A JP2000315546 A JP 2000315546A JP 2000315546 A JP2000315546 A JP 2000315546A JP 2001318687 A JP2001318687 A JP 2001318687A
Authority
JP
Japan
Prior art keywords
noise
spectrum
power spectrum
voice
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000315546A
Other languages
English (en)
Other versions
JP3933860B2 (ja
Inventor
Tomohiro Narita
知宏 成田
Tadashi Suzuki
鈴木  忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2000315546A priority Critical patent/JP3933860B2/ja
Publication of JP2001318687A publication Critical patent/JP2001318687A/ja
Application granted granted Critical
Publication of JP3933860B2 publication Critical patent/JP3933860B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

(57)【要約】 【課題】 従来の音声認識装置は、雑音用マイクロホン
への音声の洩れ込みが無視できない場合や、音声用と雑
音用とのマイクロホン間の雑音パターンに対する周波数
特性が変化する場合には、認識性能が低下するという課
題があった。 【解決手段】 音声認識装置において、音声用マイクロ
ホン1と雑音用マイクロホン2との間の音声に対する周
波数特性の差異を補正するために話者位置に応じた複数
の補正フィルタを記憶する音声補正用補正フィルタメモ
リ6と、音声用マイクロホン1と雑音用マイクロホン2
との間の雑音パターンに対する周波数特性の差異を補正
するために雑音パターンに応じた複数の補正フィルタを
記憶する雑音補正用補正フィルタメモリ10とを備え
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は音声認識装置に係
り、特に周囲に雑音がある環境下でも入力された音声に
重畳する背景雑音を除去したうえで、雑音が除去された
音声の特徴量と予め用意された標準音声パターンの特徴
量とを照合して入力された音声を認識する音声認識装置
に関するものである。
【0002】
【従来の技術】周囲に雑音または騒音がある環境下で発
声した音声には背景雑音が重畳しているために音声認識
率が低下する。図8は、雑音等がある環境下において音
声を認識する従来の音声認識装置の構成を示すブロック
図である。図において、tは時刻、Kは雑音源の数、x
(t)はマイクロホンの観測信号、s(t)は話者が発
声する音声信号、n(t)は雑音源k(1≦k≦K)
が出力する雑音信号、h (t)は話者からマイクロホ
ンへのインパルス応答、h (t)は雑音源kからマ
イクロホンへのインパルス応答、*は畳み込み演算を示
すものである。また、マイクロホン以外の音声認識装置
の構成要素を総括して認識処理部として示し、この認識
処理部はこの分野において周知である音声認識技術を用
いて構成されているものとする。図に示されるように、
マイクロホンの観測信号は音声信号に雑音信号が重畳し
たものである。したがって、雑音無し音声パターンと標
準音声パターンとを照合して認識処理を行う必要のある
音声認識装置においては、重畳雑音を除去する必要が生
じる。観測点における雑音信号は各雑音源から出力され
る各雑音信号が足し合わされたものである。以下では、
複数の雑音源からそれぞれ出力される雑音の組み合せに
より観測点において与えられる雑音に係る識別パターン
を“雑音パターン”と定義して、当該雑音パターンを出
力する仮想的な雑音源があるものとして説明を行なう。
【0003】重畳雑音を除去するための簡単で有効な手
法として、音声用マイクロホンと雑音用マイクロホンと
を用いた2入力スペクトルサブトラクション法(以下、
2入力SS法と称する)が広く用いられている。図9
は、例えば「2入力による雑音除去手法を用いた自動車
内の音声認識;信学技報SP89−81」に示された従
来の2入力SS法を用いた音声認識装置の構成を示す図
である。図において、101は背景雑音が重畳した音声
を収集する音声用マイクロホン、102は主に背景雑音
を収集する雑音用マイクロホン、103は音声用マイク
ロホン101が出力する雑音重畳音声信号を周波数変換
して雑音重畳音声に係るパワースペクトルを時系列に出
力する雑音重畳音声スペクトル演算手段、104は雑音
用マイクロホン102が出力する雑音パターン信号を周
波数変換して雑音パターンに係るパワースペクトルを時
系列に出力する雑音スペクトル演算手段、105は音声
用マイクロホン101と雑音用マイクロホン102との
間においての雑音パターンに対する伝達特性に係る周波
数特性についての差異を補正するためのフィルタを1つ
記憶する補正フィルタメモリ、106は補正フィルタメ
モリ105が記憶する補正フィルタを用いて雑音スペク
トル演算手段104から出力される雑音パターンに係る
パワースペクトルを補正して補正雑音パターンに係るパ
ワースペクトルを時系列に出力する雑音スペクトル補正
手段、107は雑音重畳音声スペクトル演算手段103
から出力される雑音重畳音声に係るパワースペクトルか
ら補正雑音パターンに係るパワースペクトルを減算して
雑音除去音声に係るパワースペクトルを時系列に出力す
る雑音除去音声スペクトル演算手段、108は雑音除去
音声スペクトル演算手段107から出力される雑音除去
音声に係るパワースペクトルから特徴ベクトルを生成し
て当該特徴ベクトルを時系列に出力する特徴ベクトル演
算手段、109は照合用の雑音の無い複数の標準音声パ
ターンに対する特徴ベクトルを予め記憶させる照合パタ
ーンメモリ、110は特徴ベクトル演算手段108から
出力される特徴ベクトルと照合パターンメモリ109内
に記憶された標準音声パターンに係る特徴ベクトルとを
照合して最大尤度を与える認識候補を認識結果として出
力する照合手段である。
【0004】次に動作について説明する。音声用マイク
ロホン101は、一般的に話者の近傍に設置されて、背
景雑音が重畳した音声を収集する。雑音用マイクロホン
102は、一般的に話者から離隔した位置に設置され
て、主に背景雑音を収集する。なお、この従来の音声認
識装置は、雑音用マイクロホン102への音声の洩れ込
みが無視できるほど小さい場合を想定して構成されてい
るものである。
【0005】雑音重畳音声スペクトル演算手段103
は、音声用マイクロホン101が出力する雑音重畳音声
信号に対して、一定時間毎にシフトする分析フレーム毎
にFFT(高速フーリエ変換)を用いて周波数変換を実
施し、雑音重畳音声信号に対する分析フレーム毎のパワ
ースペクトルを時系列に出力する。ここで、雑音重畳音
声信号のz変換をX1(z)、音声信号のz変換をS
(z)、雑音パターン信号のz変換をN(z)、話者か
ら音声用マイクロホン101への伝達特性をG
11(z)、雑音パターンについての仮想的な雑音源か
ら音声用マイクロホン101への伝達特性をG
21(z)とすると、以下の式(1)の関係が導かれ
る。 X1(z)=G11(z)・S(z) +G21(z)・N(z) (1)
【0006】また、複数の分析フレームにわたる信号の
遅延は生じないと仮定すれば、式(1)は以下の式
(2)のように表すことができる。 X1(ω)=G11(ω)・S(ω) +G21(ω)・N(ω) (2) 式(2)において、ωは角周波数、X1(ω)は分析
フレームiにおける音声用マイクロホンから出力される
雑音重畳音声信号に係るパワースペクトル、S (ω)
は分析フレームiにおいて話者が発声する音声に係るパ
ワースペクトル、N(ω)は分析フレームiにおいて
仮想的な雑音源が出力する雑音パターンに係るパワース
ペクトル、G11(ω)は話者から音声用マイクロホン
への伝達特性についての周波数特性(フィルタ)、G
21(ω)は仮想的な雑音源から音声用マイクロホンへ
の伝達特性についての周波数特性(フィルタ)である。
音声認識では、位相情報は不必要であるために、以降で
は、特に明示しない限り位相情報を考慮しない周波数領
域を対象として説明を行う。
【0007】雑音スペクトル演算手段104は、雑音用
マイクロホン102が出力する雑音パターン信号に対し
て、一定時間毎にシフトする分析フレーム毎にFFT
(高速フーリエ変換)を用いて周波数変換を実施して、
雑音パターン信号に対する分析フレーム毎のパワースペ
クトルを時系列に出力する。このとき、分析フレームi
における雑音パターンに係るパワースペクトルX2
(ω)は、以下の式(3)で表される。式(3)にお
いて、G22(ω)は雑音パターンについての仮想的な
雑音源から雑音用マイクロホン102への伝達特性につ
いての周波数特性である。 X2(ω)=G22(ω)・N(ω) (3)
【0008】補正フィルタメモリ105は、音声用マイ
クロホン101と雑音用マイクロホン102との間にお
ける雑音パターンに対する伝達特性に係る周波数特性の
差異を補正するためのフィルタH21(ω)=G
21(ω)/G22(ω)を記憶する。上述の「2入力
による雑音除去手法を用いた自動車内の音声認識」で
は、音声区間の直前の雑音区間において、以下に記され
る式(4)を用いて音声区間の直前の雑音区間から補正
フィルタを算出してその値を記憶する。式(4)におい
てTは音声区間の先頭の分析フレーム番号を示すもの
であり、式(4)により音声区間直前の20フレームに
おける雑音パターンに係るパワースペクトルについての
雑音用マイクロホンに対する音声用マイクロホンの周波
数成分毎の比の平均値が算出される。
【数1】
【0009】雑音スペクトル補正手段106は、補正フ
ィルタメモリ105に記憶された補正フィルタを用いて
雑音パターンに係るパワースペクトルを補正して、補正
雑音パターンに係るパワースペクトルを時系列に出力す
る。このとき、分析フレームiにおける補正雑音パター
ンに係るパワースペクトルX2’(ω)は以下の式
(5)のように表される。 X2’(ω)=H21(ω)・X2(ω) (5)
【0010】雑音除去音声スペクトル演算手段107
は、雑音重畳音声スペクトル演算手段103から分析フ
レーム毎に時系列にそれぞれ出力される雑音重畳音声に
係るパワースペクトルから、雑音スペクトル補正手段1
06から出力される補正雑音パターンに係るパワースペ
クトルを減算して、雑音除去音声に係るパワースペクト
ルを算出しこれを時系列に出力する。このとき、分析フ
レームiにおける雑音除去音声に係るパワースペクトル
S’(ω)は、以下の式(6)で表される。式(6)
において、αは補正雑音パターンに係るパワースペクト
ルの減算量を調整するパラメータであり、βは補正雑音
パターンに係るパワースペクトルの過剰な減算を防止す
るために雑音除去音声に係るパワースペクトルにおける
各周波数成分の下限値を設定するパラメータである。ま
た、max{}は括弧内の要素の中で最大の値の要素を
返す関数として与えられるものである。 S’(ω) =max{X1(ω)−αX2’(ω),β} (6)
【0011】ここで、H21(ω)=G21(ω)/G
22(ω)であるから、式(3)および式(5)から、
X2’(ω)=G21(ω)N(ω)となる。この
式および式(2)を式(6)に代入すると、α=1のと
きにSi’(ω)=G11(ω)S(ω)となって、
雑音が除去された音声に係るパワースペクトルを得るこ
とができる。
【0012】特徴ベクトル演算手段108は、雑音除去
音声スペクトル演算手段107が時系列に出力する雑音
除去音声に係るパワースペクトルをLPCケプストラム
等の音声認識において音響的な特徴を表現する特徴ベク
トルに変換して、当該特徴ベクトルを時系列に出力す
る。
【0013】照合手段110は、特徴ベクトル演算手段
108から出力される特徴ベクトルと、照合パターンメ
モリ109内に記憶された雑音無しの標準音声パターン
に係る特徴ベクトルとの照合を実施して、最大尤度を与
える音声認識候補を認識結果として出力する。
【0014】
【発明が解決しようとする課題】従来の2入力SS法を
用いた音声認識装置は上記のように構成されているの
で、雑音用マイクロホンへの音声の洩れ込みが無視でき
るほど小さく、かつ音声用マイクロホンと雑音用マイク
ロホンとの雑音パターンに対する伝達特性に係る周波数
特性の変動が小さい場合すなわち雑音源が固定されてい
る場合には比較的良好に動作する。しかし、雑音用マイ
クロホンへの音声の洩れ込みが無視できない場合や、雑
音源が複数あり雑音源が時間とともに入れ替わる場合等
で音声用マイクロホンと雑音用マイクロホンとの雑音パ
ターンに対する伝達特性に係る周波数特性が時々刻々変
化するような場合には、正確な雑音除去を実施すること
ができなくて認識性能が低下するという課題があった。
【0015】この発明は上記のような課題を解決するた
めになされたもので、雑音用マイクロホンに音声が洩れ
込んだ場合においても、雑音環境下で音声を正確に認識
することができる音声認識装置を得ることを目的とす
る。
【0016】また、この発明は、音声用マイクロホンと
雑音用マイクロホンとの雑音パターンに対する伝達特性
に係る周波数特性が時々刻々変化するような場合におい
ても、雑音環境下で音声を正確に認識することができる
音声認識装置を得ることを目的とする。
【0017】
【課題を解決するための手段】この発明に係る音声認識
装置は、背景雑音が重畳した音声を収集する音声用マイ
クロホンと、主に背景雑音を収集する雑音用マイクロホ
ンと、音声用マイクロホンが出力する雑音重畳音声信号
を周波数変換して雑音重畳音声に係るパワースペクトル
を時系列に出力する雑音重畳音声スペクトル演算手段
と、雑音用マイクロホンが出力する雑音パターン信号を
周波数変換して音声が洩れ込んだ雑音パターンに係るパ
ワースペクトルを時系列に出力する雑音スペクトル演算
手段と、音声用マイクロホンと雑音用マイクロホンとの
音声に対する伝達特性に係る周波数特性の差異を補正す
るためのフィルタを用いて雑音重畳音声に係るパワース
ペクトルを補正して補正雑音重畳音声に係るパワースペ
クトルを時系列に出力する雑音重畳音声スペクトル補正
手段と、音声が洩れ込んだ雑音パターンに係るパワース
ペクトルから補正雑音重畳音声に係るパワースペクトル
を減算して洩れ込み音声を除去した雑音パターンに係る
パワースペクトルを時系列に出力する洩れ込み音声除去
手段と、音声用マイクロホンと雑音用マイクロホンとの
雑音パターンに対する伝達特性に係る周波数特性の差異
を補正するためのフィルタを用いて洩れ込み音声を除去
した雑音パターンに係るパワースペクトルを補正して補
正雑音パターンに係るパワースペクトルを時系列に出力
する洩れ込み音声除去雑音スペクトル補正手段と、雑音
重畳音声に係るパワースペクトルから補正雑音パターン
に係るパワースペクトルを減算して雑音除去音声に係る
パワースペクトルを時系列に出力する雑音除去音声スペ
クトル演算手段と、雑音除去音声に係るパワースペクト
ルを基にして音声認識処理を実行する認識処理部とを備
えるようにしたものである。
【0018】この発明に係る音声認識装置は、センサに
よって話者の存在する位置を検出して当該位置データを
時系列に出力する話者位置検出手段と、音声用マイクロ
ホンと雑音用マイクロホンとの音声に対する伝達特性に
係る周波数特性の差異を補正するための複数の補正フィ
ルタを記憶する音声補正用補正フィルタメモリと、話者
位置検出手段から出力される話者の位置データに対応す
る補正フィルタを音声補正用補正フィルタメモリから選
択して当該補正フィルタを雑音重畳音声スペクトル補正
手段へ時系列に出力する音声補正用補正フィルタ選択手
段とを備えるようにしたものである。
【0019】この発明に係る音声認識装置は、背景雑音
が重畳した音声を収集する音声用マイクロホンと、主に
背景雑音を収集する雑音用マイクロホンと、音声用マイ
クロホンが出力する雑音重畳音声信号を周波数変換して
雑音重畳音声に係るパワースペクトルを時系列に出力す
る雑音重畳音声スペクトル演算手段と、雑音用マイクロ
ホンが出力する雑音パターン信号を周波数変換して雑音
パターンに係るパワースペクトルを時系列に出力する雑
音スペクトル演算手段と、音声用マイクロホンと雑音用
マイクロホンとの雑音パターンに対する伝達特性に係る
周波数特性の差異を補正するための複数の補正フィルタ
を記憶する雑音補正用補正フィルタメモリと、雑音補正
用補正フィルタメモリに記憶された複数の補正フィルタ
にそれぞれ対応する洩れ込み音声を除去した雑音パター
ンに係るパワースペクトルを記憶する代表雑音スペクト
ルメモリと、洩れ込み音声を除去した雑音パターンに係
るパワースペクトルと代表雑音スペクトルメモリに記憶
される複数の洩れ込み音声を除去した雑音パターンに係
るパワースペクトルとの間の距離値を演算して最短距離
値を与える雑音パターンを代表雑音スペクトルメモリか
ら選択して当該雑音パターンを識別する信号を時系列に
出力する雑音スペクトル選択手段と、雑音スペクトル選
択手段から出力される雑音パターン識別信号に対応する
補正フィルタを雑音補正用補正フィルタメモリから選択
して時系列に出力する雑音補正用補正フィルタ選択手段
と、雑音補正用補正フィルタ選択手段から出力される補
正フィルタを用いて雑音パターンに係るパワースペクト
ルを補正して補正雑音パターンに係るパワースペクトル
を時系列に出力する雑音スペクトル補正手段と、雑音重
畳音声に係るパワースペクトルから補正雑音に係るパワ
ースペクトルを減算して雑音除去音声に係るパワースペ
クトルを時系列に出力する雑音除去音声スペクトル演算
手段と、雑音除去音声に係るパワースペクトルを基にし
て音声認識処理を実行する認識処理部とを備えるように
したものである。
【0020】この発明に係る音声認識装置は、音声用マ
イクロホンと雑音用マイクロホンとの雑音パターンに対
する伝達特性に係る周波数特性の差異を補正するための
複数の補正フィルタを記憶する雑音補正用補正フィルタ
メモリと、雑音補正用補正フィルタメモリに記憶された
複数の補正フィルタにそれぞれ対応する洩れ込み音声を
除去した雑音パターンに係るパワースペクトルを記憶す
る代表雑音スペクトルメモリと、洩れ込み音声を除去し
た雑音パターンに係るパワースペクトルと代表雑音スペ
クトルメモリに記憶される複数の洩れ込み音声を除去し
た雑音パターンに係るパワースペクトルとの間の距離値
を演算して最短距離値を与える雑音パターンを代表雑音
スペクトルメモリから選択して当該雑音パターンを識別
する信号を時系列に出力する雑音スペクトル選択手段
と、雑音スペクトル選択手段から出力される雑音パター
ン識別信号に対応する補正フィルタを雑音補正用補正フ
ィルタメモリから選択して洩れ込み音声除去雑音スペク
トル補正手段へ時系列に出力する雑音補正用補正フィル
タ選択手段とを備えるようにしたものである。
【0021】この発明に係る音声認識装置は、背景雑音
が重畳した音声を収集する音声用マイクロホンと、主に
背景雑音を収集する雑音用マイクロホンと、音声用マイ
クロホンから出力される雑音重畳音声信号を周波数変換
して雑音重畳音声に係るパワースペクトルを時系列に出
力する雑音重畳音声スペクトル演算手段と、雑音用マイ
クロホンから出力される雑音パターン信号を周波数変換
して音声が洩れ込んだ雑音パターンに係るパワースペク
トルを時系列に出力する雑音スペクトル演算手段と、音
声用マイクロホンと雑音用マイクロホンとの音声に対す
る伝達特性に係る周波数特性の差異を補正するためのフ
ィルタを用いて、雑音重畳音声に係るパワースペクトル
を補正して補正雑音重畳音声に係るパワースペクトルを
時系列に出力する雑音重畳音声スペクトル補正手段と、
音声が洩れ込んだ雑音パターンに係るパワースペクトル
から補正雑音重畳音声に係るパワースペクトルを減算し
て洩れ込み音声を除去した雑音パターンに係るパワース
ペクトルを時系列に出力する洩れ込み音声除去手段と、
洩れ込み音声を除去した雑音パターンに係る複数のパワ
ースペクトルを記憶する第1の代表雑音スペクトルメモ
リと、第1の代表雑音スペクトルメモリに記憶される複
数の洩れ込み音声を除去した雑音パターンに係るパワー
スペクトルにそれぞれ対応する複数の重畳雑音パターン
に係るパワースペクトルを記憶する第2の代表雑音スペ
クトルメモリと、収集された洩れ込み音声を除去した雑
音パターンに係るパワースペクトルと、第1の代表雑音
スペクトルメモリに記憶される複数の洩れ込み音声を除
去した雑音パターンに係るパワースペクトルとの間の距
離値を演算して最短距離値を与える雑音パターンに係る
パワースペクトルを第1の代表雑音スペクトルメモリか
ら選択して、当該雑音パターンを識別する信号を時系列
に出力する第1の雑音スペクトル選択手段と、第1の雑
音スペクトル選択手段から出力される雑音パターン識別
信号に対応する重畳雑音パターンに係るパワースペクト
ルを第2の代表雑音スペクトルメモリから選択し時系列
に出力する第2の雑音スペクトル選択手段と、雑音重畳
音声に係るパワースペクトルから、第2の雑音スペクト
ル選択手段が選択した重畳雑音パターンに係るパワース
ペクトルを減算して雑音除去音声に係るパワースペクト
ルを時系列に出力する雑音除去音声スペクトル演算手段
と、雑音除去音声に係るパワースペクトルを基にして音
声認識処理を実行する認識処理部とを備えるようにした
ものである。
【0022】この発明に係る音声認識装置は、雑音用マ
イクロホンから出力される雑音パターン信号から雑音パ
ワーレベルを算出し当該雑音パワーレベルを時系列に出
力する雑音パワーレベル演算手段と、音声用マイクロホ
ンから出力される雑音重畳音声信号と雑音用マイクロホ
ンから出力される雑音パターン信号とに基づいて音声区
間を判定し、音声区間であるか否かの識別信号を時系列
に出力する音声区間検出手段と、雑音パワーレベル演算
手段から出力される雑音パワーレベルが閾値以下であり
かつ音声区間検出手段から出力される識別信号が音声区
間である旨を示している場合に、補正フィルタの学習を
実施することを示す識別信号を時系列に出力する補正フ
ィルタ学習決定手段と、補正フィルタ学習決定手段から
出力される識別信号が補正フィルタの学習を実施する旨
を示している場合に、雑音重畳音声スペクトル演算手段
から出力される雑音重畳音声に係るパワースペクトルと
雑音スペクトル演算手段から出力される雑音パターンに
係るパワースペクトルとに基づいて、話者位置検出手段
から出力される話者の位置データに対応する補正フィル
タを学習し当該補正フィルタを出力する補正フィルタ学
習手段とを備えるようにしたものである。
【0023】この発明に係る音声認識装置は、雑音用マ
イクロホンから出力される雑音パターン信号から雑音パ
ワーレベルを算出し当該雑音パワーレベルを時系列に出
力する雑音パワーレベル演算手段と、音声用マイクロホ
ンから出力される雑音重畳音声信号と雑音用マイクロホ
ンから出力される雑音パターン信号とに基づいて雑音区
間を判定し、雑音区間であるか否かの識別信号を時系列
に出力する雑音区間検出手段と、雑音パワーレベル演算
手段から出力される雑音パワーレベルが閾値以上であり
かつ雑音区間検出手段から出力される識別信号が雑音区
間である旨を示している場合に、雑音スペクトルの学習
を実施することを示す識別信号を時系列に出力する雑音
スペクトル学習決定手段と、雑音スペクトル学習決定手
段から出力される識別信号が雑音スペクトルの学習を実
施する旨を示している場合に、洩れ込み音声除去手段か
ら出力される洩れ込み音声を除去した雑音パターンに係
るパワースペクトルから、代表的な洩れ込み音声を除去
した雑音パターンに係るパワースペクトルを学習し当該
パワースペクトルを出力する第1の雑音スペクトル学習
手段と、雑音スペクトル学習決定手段から出力される識
別信号が雑音スペクトルの学習を実施する旨を示してい
る場合に、雑音重畳音声スペクトル演算手段から出力さ
れる雑音重畳音声に係るパワースペクトルから、第1の
雑音スペクトル学習手段から出力される代表的な洩れ込
み音声を除去した雑音パターンに係るパワースペクトル
に対応する重畳雑音パターンに係るパワースペクトルを
学習し当該パワースペクトルを出力する第2の雑音スペ
クトル学習手段とを備えるようにしたものである。
【0024】この発明に係る音声認識装置は、第1の雑
音スペクトル学習手段が、洩れ込み音声除去手段から出
力される複数の洩れ込み音声を除去した雑音パターンに
係るパワースペクトルを記憶する第1の雑音スペクトル
メモリと、第1の雑音スペクトルメモリに記憶される複
数の洩れ込み音声を除去した雑音パターンに係るパワー
スペクトルについて、それぞれのクラスのセントロイド
となるパワースペクトルと当該クラスに含まれる雑音パ
ターンのパワースペクトルとの間の距離値の総和が最小
となるようにクラスタリングを実施し、各クラスのセン
トロイドを代表的な洩れ込み音声を除去した雑音パター
ンに係るパワースペクトルとして出力する第1のクラス
タリング手段とを備え、第2の雑音スペクトル学習手段
が、第1の雑音スペクトルメモリに記憶される複数の洩
れ込み音声を除去した雑音パターンに係るパワースペク
トルとそれぞれ同一分析フレームに出力された複数の重
畳雑音パターンに係るパワースペクトルを記憶する第2
の雑音スペクトルメモリと、第2の雑音スペクトルメモ
リに記憶される複数の重畳雑音パターンに係るパワース
ペクトルに対して第1のクラスタリング手段におけるク
ラスタリング結果を反映するようにクラスタリングを実
施し、各クラスのセントロイドを代表的な重畳雑音パタ
ーンに係るパワースペクトルとして出力する第2のクラ
スタリング手段とを備えるようにしたものである。
【0025】この発明に係る音声認識装置は、第1の雑
音スペクトル学習手段は、洩れ込み音声除去手段から出
力される洩れ込み音声を除去した雑音パターンに係る複
数のパワースペクトルを記憶する第1の雑音スペクトル
メモリと、第1の雑音スペクトルメモリに記憶される洩
れ込み音声を除去した雑音パターンに係るパワースペク
トルからパワースペクトルの概形を表すパラメータを算
出し当該パラメータを出力するスペクトル概形パラメー
タ演算手段と、第1の雑音スペクトルメモリに記憶され
る洩れ込み音声を除去した雑音パターンに係るパワース
ペクトルからパワースペクトルの強度を表すパラメータ
を算出し当該パラメータを出力するスペクトル強度パラ
メータ演算手段と、スペクトル概形パラメータ演算手段
から出力されるパワースペクトルの概形を表すパラメー
タとスペクトル強度パラメータ演算手段から出力される
パワースペクトルの強度を表すパラメータに重みを掛け
て算出する距離値を用いて、第1の雑音スペクトルメモ
リに記憶される複数の洩れ込み音声を除去した雑音パタ
ーンに係るパワースペクトルをクラスタリングし、代表
的な洩れ込み音声を除去した雑音パターンに係るパワー
スペクトルを出力する重み付けクラスタリング手段とを
備えるようにしたものである。
【0026】
【発明の実施の形態】以下、この発明の実施の一形態を
説明する。 実施の形態1.図1は、この発明の実施の形態1による
音声認識装置の構成を示す図である。図において、1は
背景雑音が重畳した音声を収集する音声用マイクロホ
ン、2は主に背景雑音を収集する雑音用マイクロホン、
3は音声用マイクロホン1が出力する雑音重畳音声信号
を周波数変換して雑音重畳音声に係るパワースペクトル
を時系列に出力する雑音重畳音声スペクトル演算手段、
4は雑音用マイクロホン2が出力する雑音パターン信号
を周波数変換して音声が洩れ込んだ雑音パターンに係る
パワースペクトルを時系列に出力する雑音スペクトル演
算手段、5はセンサによって話者の存在する位置を検出
して当該位置データを時系列に出力する話者位置検出手
段、6は音声用マイクロホン1と雑音用マイクロホン2
との間においての音声の伝達特性に係る周波数特性の差
異を補正するためのフィルタを1または複数個記憶する
音声補正用補正フィルタメモリ、7は話者位置検出手段
5から出力される話者の位置データに対応する補正フィ
ルタを音声補正用補正フィルタメモリ6から選択して当
該補正フィルタを時系列に出力する音声補正用補正フィ
ルタ選択手段、8は音声補正用補正フィルタ選択手段7
から出力される補正フィルタを用いて対応する雑音重畳
音声に係るパワースペクトルを補正して補正雑音重畳音
声に係るパワースペクトルを時系列に出力する雑音重畳
音声スペクトル補正手段、9は雑音スペクトル演算手段
4から出力される音声が洩れ込んだ雑音パターンに係る
パワースペクトルから補正雑音重畳音声に係るパワース
ペクトルを減算して洩れ込み音声を除去した雑音パター
ンに係るパワースペクトルを時系列に出力する洩れ込み
音声除去手段、10は音声用マイクロホン1と雑音用マ
イクロホン2との間においての雑音パターンの伝達特性
に係る周波数特性の差異を補正するためのフィルタを1
または複数個記憶する雑音補正用補正フィルタメモリ、
11は雑音補正用補正フィルタメモリ10に記憶された
それぞれの補正フィルタに対応する代表的な洩れ込み音
声を除去した雑音パターンに係るパワースペクトルを記
憶する代表雑音スペクトルメモリ、12は洩れ込み音声
除去手段9から出力される洩れ込み音声を除去した雑音
パターンに係るパワースペクトルと代表雑音スペクトル
メモリ11に記憶される複数の代表的な洩れ込み音声を
除去した雑音パターンに係るパワースペクトルとの間の
距離値を演算して最短距離値を与える雑音パターンを代
表雑音スペクトルメモリ11から選択して当該雑音パタ
ーンを識別する信号を時系列に出力する雑音スペクトル
選択手段、13は雑音スペクトル選択手段12から出力
される雑音パターン識別信号に対応する補正フィルタを
雑音補正用補正フィルタメモリ10から選択して時系列
に出力する雑音補正用補正フィルタ選択手段、14は雑
音補正用補正フィルタ選択手段13から出力される補正
フィルタを用いて洩れ込み音声を除去した雑音パターン
に係るパワースペクトルを補正して補正雑音パターンに
係るパワースペクトルを時系列に出力する洩れ込み音声
除去雑音スペクトル補正手段、15は雑音重畳音声に係
るパワースペクトルから補正雑音パターンに係るパワー
スペクトルを減算して雑音除去音声に係るパワースペク
トルを時系列に出力する雑音除去音声スペクトル演算手
段、16は雑音除去音声に係るパワースペクトルから特
徴ベクトルを生成して当該特徴ベクトルを時系列に出力
する特徴ベクトル演算手段、17は照合用の複数の雑音
の無い標準音声パターンに係る特徴ベクトルを予め記憶
させる照合パターンメモリ、18は特徴ベクトル演算手
段16から時系列に出力される特徴ベクトルと照合パタ
ーンメモリ17内に記憶された雑音無し標準音声パター
ンに係る特徴ベクトルとを照合して最大尤度を与える認
識候補を認識結果として出力する照合手段である。な
お、特徴ベクトル演算手段16、照合パターンメモリ1
7および照合手段18を総括して、雑音除去音声に係る
パワースペクトルを基にして音声認識処理を実行する認
識処理部が与えられるものとみなすこともできる。
【0027】次に動作について説明する。音声用マイク
ロホン1は、一般的に話者の近傍に設置されて、背景雑
音が重畳した音声を収集する。雑音用マイクロホン2
は、一般的に話者から離隔した位置に設置されて、主に
背景雑音を収集する。なお、この発明の実施の形態1に
よる音声認識装置は、雑音源が複数個あって時間ととも
に雑音源が入れ替わる環境を想定するとともに雑音用マ
イクロホン2への音声の洩れ込みが無視できるほど小さ
くはない場合を想定して構成されているものである。
【0028】雑音重畳音声スペクトル演算手段3は、音
声用マイクロホン1が出力する雑音重畳音声信号に対し
て、一定時間毎にシフトする分析フレーム毎にFFT
(高速フーリエ変換)を用いて周波数変換を実施して、
雑音重畳音声信号に対する分析フレーム毎のパワースペ
クトルを時系列に出力する。このとき、分析フレームi
における雑音重畳音声に係るパワースペクトルX1
(ω)は以下の式(7)で表される。式(7)におい
て、S(ω)は分析フレームiにおける話者が発声す
る音声に係るパワースペクトル、N(ω)は分析フレ
ームiにおいて仮想的な雑音源が出力する雑音パターン
に係るパワースペクトル、G11 (x(i),
y(i))(ω)は分析フレームiにおける話者位置
(x(i),y(i))での話者から音声用マイクロホ
ン1への伝達特性についての周波数特性(フィルタ)、
21,i(ω)は分析フレームiにおける仮想的な雑
音源から音声用マイクロホン1への伝達特性についての
周波数特性(フィルタ)である。 X1(ω)=G11 (x(i),y(i))(ω)・S(ω) +G21,i(ω)・N(ω) (7)
【0029】雑音スペクトル演算手段4は、雑音用マイ
クロホン2が出力する雑音パターン信号に対して、同様
に一定時間毎にシフトする分析フレーム毎にFFT(高
速フーリエ変換)を用いて周波数変換を実施して、音声
の洩れ込んだ雑音パターン信号に対する分析フレーム毎
のパワースペクトルを時系列に出力する。このとき、分
析フレームiにおける音声の洩れ込んだ雑音に係るパワ
ースペクトルX2(ω)は以下の式(8)で表され
る。式(8)において、G12 (x(i),y( i))
(ω)は分析フレームiにおける話者位置(x(i),
y(i))での話者から雑音用マイクロホン2への伝達
特性についての周波数特性(フィルタ)、G
22,i(ω)は分析フレームiにおける仮想的な雑音
源から雑音用マイクロホン2への伝達特性についての周
波数特性(フィルタ)である。 X2(ω)=G12 (x(i),y(i))(ω)・S(ω) +G22,i(ω)・N(ω) (8)
【0030】話者位置検出手段5は、センサによって話
者のいる位置を検出して、分析フレームi毎に話者位置
データ(x(i),y(i))を時系列に出力する。
【0031】音声補正用補正フィルタメモリ6は、予め
話者位置(x,y)毎に学習される音声用マイクロホン
1と雑音用マイクロホン2との間においての音声の伝達
特性に係る周波数特性の差異を補正するフィルタW12
(x,y)(ω)=G12 x,y)(ω)/G11
(x,y)(ω)を記憶する。ここで、補正フィルタの
学習方法について述べる。各話者位置における補正フィ
ルタは、雑音のない環境または雑音を無視できる環境下
で発声された音声区間において事前学習される。このと
き、分析フレームjにおける音声用マイクロホン1が出
力する信号に係るパワースペクトルX1(ω)
voice、および雑音用マイクロホン2が出力する信
号に係るパワースペクトルX2(ω)voiceは以
下の式(9)で表される。式(9)は、背景雑音が無視
できるという仮定のもとに、式(7)および式(8)の
第2項を削除することで導かれる。
【数2】
【0032】したがって、話者位置(x(j),y
(j))での音声用マイクロホン1と雑音用マイクロホ
ン2との間においての音声の伝達特性に係る周波数特性
の差異を補正するためのフィルタW12
(x(j)、y(j))(ω)は、以下の式(10)を
用いて導かれる。
【数3】
【0033】音声補正用補正フィルタ選択手段7は、話
者位置検出手段5から時系列に出力される分析フレーム
iでの話者位置データ(x(i),y(i))に対応す
る補正フィルタW12 (x(i),y(i))(ω)=
12 (x(i),y(i) (ω)/G11
(x(i),y(i))(ω)を音声補正用補正フィル
タメモリ6から選択して分析フレームi毎に当該補正フ
ィルタを時系列に出力する。
【0034】雑音重畳音声スペクトル補正手段8は、音
声補正用補正フィルタ選択手段7から出力される補正フ
ィルタを用いて雑音重畳音声に係るパワースペクトルを
補正して、補正雑音重畳音声に係るパワースペクトルを
時系列に出力する。各分析フレームiにおける補正雑音
重畳音声に係るパワースペクトルX1’(ω)は以下
の式(11)で表される。 X1’(ω)= W12 (x(i),y(i))(ω)・X1(ω) (11)
【0035】洩れ込み音声除去手段9は、雑音スペクト
ル演算手段4から出力される音声が洩れ込んだ雑音パタ
ーンに係るパワースペクトルから、雑音重畳音声スペク
トル補正手段8から出力される補正雑音重畳音声に係る
パワースペクトルを減算して、洩れ込み音声を除去した
雑音パターンに係るパワースペクトルを時系列に出力す
る。分析フレームiにおける洩れ込み音声を除去した雑
音パターンに係るパワースペクトルY2(ω)は、以
下の式(12)で表される。
【数4】
【0036】雑音補正用補正フィルタメモリ10は、雑
音区間を用いた事前学習により、音声用マイクロホン1
と雑音用マイクロホン2との間においての雑音パターン
の伝達特性に係る周波数特性の差異を補正するフィルタ
を、想定される雑音パターンの種類に応じた適正な数で
あるN個だけ記憶する。また、代表雑音スペクトルメモ
リ11は、雑音補正用補正フィルタメモリ10が記憶す
るN個の補正フィルタのそれぞれに対応する雑音パター
ンに係るパワースペクトルを記憶する。
【0037】以下では、雑音補正用補正フィルタメモリ
10に記憶される補正フィルタおよび当該補正フィルタ
に対応する雑音パターンに係るパワースペクトルの学習
方法および記憶方法について説明する。雑音区間では、
分析フレームjにおいて音声用マイクロホンにより観測
されるパワースペクトルX1(ω)noiseは、以
下の式(13)で表される。式(13)は音声のない雑
音区間であることから、式(7)の第1項を削除するこ
とで導かれる。 X1(ω)noise=G21,j(ω)・N(ω) (13)
【0038】したがって、分析フレームjにおいてK個
の雑音源が出力するK個の雑音の組み合わせΩ(j)=
{N ,N ,…,N }に係る雑音パターンの
伝達特性についての音声用マイクロホン1と雑音用マイ
クロホン2との間においての周波数特性の差異を補正す
るフィルタWΩ(j) 21(ω)は、以下の式(14)
で表される。
【数5】
【0039】分析フレームjにおけるK個の雑音源から
の雑音の組み合わせに係る雑音パターンは未知である
が、分析フレームj,jにおいてΩ(j1)=Ω
(j2)であれば、WΩ(j1) 21(ω)=W
Ω(j2) 21(ω)であると考えられる。そこで、時
系列に出力されるX1(ω)noise/Y2
(ω)の値を適切な数のN個のクラスにクラスタリン
グする。クラスタリングは以下の式(15)で表わされ
る評価関数が最小になるように実施される。式(15)
において、W 21(ω)はクラスnのセントロイド、
Θ(n)はクラスnの要素が有する時系列番号の集合、
dis(X,Y)はパワースペクトルXとパワースペク
トルYとの間の距離値を返す関数である。
【数6】 また各クラスのセントロイドW 21(ω)は、以下の
式(16)から導かれる。式(16)においてMはク
ラスnの要素数である。
【数7】 クラスタリング終了後、N個のW 21(ω)が代表的
な補正フィルタとして出力され、雑音補正用補正フィル
タメモリ10に記憶される。
【0040】また、代表雑音スペクトルメモリ11は、
同様に時系列に出力される洩れ込み音声を除去した雑音
パターンに係るパワースペクトルY2(ω)をX1
(ω)noise/Y2(ω)のクラスタリング結果
に基づいてN個のクラスに分類した後に、各クラスn
(1≦n≦N)のセントロイドを代表的な洩れ込み音声
を除去したパワースペクトルY2(ω)として代表雑
音スペクトルメモリ11に記憶する。各クラスのセント
ロイドY2(ω)は以下の式(17)から導かれる。
式(17)において、Mはクラスnの要素数である。
【数8】 以上のように、N個の補正フィルタW 21(ω)がN
個にクラス分けされた雑音パターンに対応するようにそ
れぞれ記憶されるとともに、N組のY2(ω)とW
21(ω)との対応関係に基づいて任意のフレームjに
おける雑音パターンY2(ω)に対応する補正フィル
タWΩ(j) 21(ω)を導くことができる。すなわ
ち、K個の雑音源が出力するK個の雑音の組み合わせに
係る雑音パターンの数はほぼ無限にあると考えられる
が、任意の雑音パターンY2(ω)に最も類似する雑
音パターンを代表雑音スペクトルメモリ11に記憶され
た代表的なN個の雑音パターンから選択して、最も類似
する雑音パターンY2(ω)に対応する補正フィルタ
21(ω)をフレームjにおける補正フィルタWΩ
(j) 21(ω)として用いる。
【0041】雑音スペクトル選択手段12は、洩れ込み
音声除去手段9から時系列に出力される洩れ込み音声を
除去した雑音パターンに係るパワースペクトルと代表雑
音スペクトルメモリ11に記憶された代表的なN個の雑
音パターンに係るパワースペクトルとの間の距離値をそ
れぞれ演算して、洩れ込み音声を除去した雑音パターン
のパワースペクトルに対して最短距離値を与える代表雑
音パターンを代表雑音スペクトルメモリ11から選択し
て当該代表雑音パターンを識別する信号を出力する。こ
のとき、最短距離値を与える雑音パターンに係るパワー
スペクトルY2 l(i)(ω)は式(18)のように表
される。式(18)において、dis(X,Y)はパワ
ースペクトルXとパワースペクトルYとの間の距離を返
す関数、l(i)は分析フレームiにおいて最短距離値
を与える雑音パターンの番号を示す。
【数9】
【0042】雑音補正用補正フィルタ選択手段13は、
雑音スペクトル選択手段12から時系列に出力される雑
音パターン識別信号に対応する補正フィルタWl(i)
21(ω)を雑音補正用補正フィルタメモリ10から選
択して時系列に出力する。洩れ込み音声除去雑音スペク
トル補正手段14は、雑音補正用補正フィルタ選択手段
13から出力される補正フィルタを用いて、洩れ込み音
声除去手段9から出力される洩れ込み音声を除去した雑
音パターンに係るパワースペクトルを補正して、補正雑
音パターンに係るパワースペクトルを時系列に出力す
る。このとき、補正雑音パターンに係るパワースペクト
ルY2’(ω)は以下の式(19)で表される。 Y2’(ω)=Wl(i) 21(ω)Y2(ω) (19)
【0043】雑音除去音声スペクトル演算手段15は、
雑音重畳音声に係るパワースペクトルから補正雑音パタ
ーンに係るパワースペクトルを減算して、雑音除去音声
に係るパワースペクトルS’(ω)を時系列に出力す
る。このとき、分析フレームiにおける雑音除去音声に
係るパワースペクトルS’(ω)は、以下の式(2
0)で表される。式(20)において、αは補正雑音パ
ターンに係るパワースペクトルの減算量を調整するパラ
メータであり、βは補正雑音パターンに係るパワースペ
クトルの過剰な減算を防止するために雑音除去音声に係
るパワースペクトルにおける各周波数成分の下限値を設
定するパラメータである。また、max{}は括弧内の
要素の中で最大の値の要素を返す関数として与えられる
ものである。 S’(ω)= max{X1(ω)−αY2’(ω),β} (20)
【0044】ここで、分析フレームiにおけるK個の雑
音源が出力するK個の雑音の組み合わせΩ(i)に係る
雑音パターンに対する補正フィルタW
Ω(i) 21(ω)が既に事前学習において適切に記憶
されている場合には、Wl(i) 21(ω)=W
Ω(i) 21(ω)となる。したがって、式(12)お
よび式(19)から、Y2’(ω)=G
21,i(ω)・N(ω)となる。そして、この式お
よび式(7)を式(17)に代入すると、α=1のとき
に、S’(ω)=G
11 x(i),y(i))(ω)S(ω)となっ
て、雑音が除去された音声に係るパワースペクトルを得
ることができる。
【0045】特徴ベクトル演算手段16、照合パターン
メモリ17および照合手段18に係る動作は、従来の技
術の特徴ベクトル演算手段108、照合パターンメモリ
109および照合手段110とそれぞれ同様であるので
その説明を省略する。
【0046】以上のように、この実施の形態1によれ
ば、音声が洩れ込んだ雑音パターンに係るパワースペク
トルから補正雑音重畳音声に係るパワースペクトルを減
算して、洩れ込み音声を除去した雑音パターンに係るパ
ワースペクトルを時系列に出力する洩れ込み音声除去手
段を備えるように構成したので、雑音用マイクロホンへ
の音声の洩れ込みがあっても雑音パターンから洩れ込み
音声を除去して、雑音重畳音声に対して洩れ込み音声を
除去した雑音パターンの除去を実施することができるか
ら、音声認識の性能を向上することができるという効果
を奏する。
【0047】また、話者位置を検出して分析フレーム毎
に話者位置データを時系列に出力する話者位置検出手段
5と、話者位置毎に学習される音声用マイクロホン1と
雑音用マイクロホン2との間において音声の伝達特性に
係る周波数特性の差異を補正する複数のフィルタを記憶
する音声補正用補正フィルタメモリ6と、話者位置に対
応した補正フィルタを選択する音声補正用補正フィルタ
選択手段7とを備えるように構成したので、話者位置に
応じて適正な補正フィルタを選択して音声が洩れ込んだ
雑音パターンに係るパワースペクトルから洩れ込み音声
に係るパワースペクトルを正確に除去することができる
から、雑音重畳音声からの雑音パターンの除去を正確に
実施することができて、音声認識の性能をより向上する
ことができるという効果を奏する。
【0048】また、音声用マイクロホン1と雑音用マイ
クロホン2との間においての雑音の伝達特性に係る周波
数特性の差異を補正するための複数のフィルタを記憶す
る雑音補正用補正フィルタメモリ10と、雑音補正用補
正フィルタメモリ10に記憶されたそれぞれの補正フィ
ルタに対応する雑音パターンに係るパワースペクトルを
記憶する代表雑音スペクトルメモリ11と、洩れ込み音
声を除去した雑音パターンに係るパワースペクトルと代
表雑音スペクトルメモリ11に記憶される複数個の雑音
パターンに係るパワースペクトルとの間の距離値を演算
して最短距離値を与える雑音パターンを代表雑音スペク
トルメモリ11から選択して当該雑音パターンを識別す
る信号を時系列に出力する雑音スペクトル選択手段12
と、雑音スペクトル選択手段12から出力される雑音パ
ターン識別信号に対応する補正フィルタを雑音補正用補
正フィルタメモリ10から選択して時系列に出力する雑
音補正用補正フィルタ選択手段13とを備えるように構
成したので、洩れ込み音声が除去された雑音パターンに
応じて適正な補正フィルタを選択して補正雑音パターン
に係るパワースペクトルを生成し、雑音重畳音声に係る
パワースペクトルから補正雑音パターンに係るパワース
ペクトルを正確に除去することができるから、音声認識
の性能をより向上することができるという効果を奏す
る。
【0049】実施の形態2.図2は、この発明の実施の
形態2による音声認識装置の構成を示す図である。図2
において、図1と同一符号は同一または相当部分を示す
のでその説明を省略する。21は代表的な洩れ込み音声
を除去した雑音パターンに係るパワースペクトルを複数
個記憶する第1の代表雑音スペクトルメモリ、22は雑
音重畳音声についての代表的な重畳雑音パターンに係る
パワースペクトルを複数個記憶する第2の代表雑音スペ
クトルメモリ、23は洩れ込み音声除去手段9から出力
される洩れ込み音声を除去した雑音パターンに係るパワ
ースペクトルと第1の代表雑音スペクトルメモリ21に
記憶される複数の代表雑音パターンに係るパワースペク
トルとの間の距離値を演算して最短距離値を与える代表
雑音パターンを第1の代表雑音スペクトルメモリ21か
ら選択して当該代表雑音パターンを識別する信号を時系
列に出力する第1の雑音スペクトル選択手段、24は第
1の雑音スペクトル選択手段23から出力される代表雑
音パターン識別信号に対応した重畳雑音パターンに係る
パワースペクトルを第2の代表雑音スペクトルメモリ2
2から選択して時系列に出力する第2の雑音スペクトル
選択手段、25は雑音重畳音声スペクトル演算手段3か
ら出力される雑音重畳音声に係るパワースペクトルか
ら、第2の雑音スペクトル選択手段24から出力される
重畳雑音パターンに係るパワースペクトルを減算して雑
音除去音声に係るパワースペクトルを時系列に出力する
雑音除去音声スペクトル演算手段である。
【0050】次に動作について説明する。音声用マイク
ロホン1から洩れ込み音声除去手段9に係る動作並びに
特徴ベクトル演算手段16から照合手段18に係る動作
は実施の形態1と同様であるので、その説明を省略す
る。
【0051】第1の代表雑音スペクトルメモリ21は、
雑音区間を用いた事前学習により、洩れ込み音声を除去
した雑音パターンに係るパワースペクトルを、想定され
る雑音パターンの種類に応じた適正な数であるN個だけ
記憶する。また、第2の代表雑音スペクトルメモリ22
は、雑音区間を用いた事前学習により、第1の代表雑音
スペクトルメモリ21が記憶するN個の洩れ込み音声を
除去した雑音パターンに対応する重畳雑音パターンに係
るパワースペクトルを記憶する。
【0052】以下では、洩れ込み音声を除去した雑音パ
ターンに係るパワースペクトルおよび重畳雑音パターン
に係るパワースペクトルの学習方法および記憶方法につ
いて説明する。雑音区間では、分析フレームjにおいて
音声用マイクロホン1が出力するのは雑音重畳音声に重
畳している重畳雑音成分であり、そのパワースペクトル
X1(ω)noiseは以下の式(21)で表され
る。式(21)は音声のない雑音区間であるということ
から、式(7)の第1項を削除することで導かれる。 X1(ω)noise=G21,j(ω)・N(ω) (21) これは雑音重畳音声に重畳している重畳雑音パターンに
対するパワースペクトルであり、これをY1(ω)と
定義する。 Y1(ω)=G21,j(ω)・N(ω) (22)
【0053】分析フレームjにおいて、雑音重畳音声に
重畳している重畳雑音パターンに対するパワースペクト
ルY1(ω)を推定することができれば、雑音重畳音
声に係るパワースペクトルから推定されたY1(ω)
を減算することで、雑音除去を実施することができる。
そこで、洩れ込み音声を除去した雑音パターンに係るパ
ワースペクトルY2(ω)からY1(ω)を推定す
るために、洩れ込み音声を除去した雑音パターンに係る
パワースペクトルY2(ω)から重畳雑音パターンに
対するパワースペクトルY1(ω)への写像関係を以
下の手順で学習する。
【0054】分析フレームjにおいて、K個の雑音源が
出力するK個の雑音の組み合せΩ(j)={N ,N
,・・・,N }に係る雑音パターンは未知であ
るが、分析フレームj,jにおいてΩ(j)=Ω
(j)であれば、洩れ込み音声を除去した雑音パター
ンに係るパワースペクトルは等しく、すなわちY2
(ω)=Y2j2(ω)であると考えられる。そこで、
時系列に出力される洩れ込み音声を除去した雑音パター
ンに係る複数のパワースペクトルY2(ω)を適切な
数のN個のクラスにクラスタリングする。クラスタリン
グは以下の式(23)で表される評価関数Dが最小にな
るように実施される。式(23)において、Y2
(ω)はクラスnのセントロイド、Θ(n)はクラス
nの要素が有する時系列番号の集合、dis(X,Y)
はパワースペクトルXとパワースペクトルYとの間の距
離値を返す関数である。
【数10】 また、各クラスのセントロイドY2(ω)は式(1
7)を用いて導かれる。クラスタリング終了後、N個の
Y2(ω)が代表的な洩れ込み音声を除去した雑音パ
ターンに係るパワースペクトルとして出力され、第1の
代表雑音スペクトルメモリ21に記憶される。
【0055】また、同様に音声用マイクロホン1から時
系列に出力される重畳雑音パターンに係るパワースペク
トルY1(ω)をY2(ω)のクラスタリング結果
に基づいてN個のクラスに分類した後に、各クラスn
(1≦n≦N)のセントロイドを代表的な重畳雑音パタ
ーンに係るパワースペクトルY1(ω)として第2の
代表雑音スペクトルメモリ22に記憶する。各クラスの
セントロイドY1(ω)は、以下の式(24)から導
かれる。式(24)において、Θ(n)は上記クラスタ
リング手段が実施した洩れ込み音声を除去した雑音パタ
ーンに係るパワースペクトルのクラスタリングの結果と
してクラスnの要素が有する時系列番号の集合、M
クラスnの要素数である。
【数11】
【0056】以上のように、N個のY1(ω)、Y2
(ω)がN個にクラス分けされた雑音パターンに対応
するようにそれぞれ記憶されるとともに、N組のY2
(ω)とY1(ω)との対応関係に基づいて、任意の
フレームjにおける洩れ込み音声を除去した雑音パター
ンに係るパワースペクトルに対応した雑音重畳音声に重
畳している重畳雑音パターンに係るパワースペクトルを
導くことができる。すなわち、K個の雑音源が出力する
K個の雑音の組み合せで決まる洩れ込み音声を除去した
雑音パターンの数はほぼ無限にあると考えられるが、任
意の洩れ込み音声を除去した雑音パターンに最も類似す
る洩れ込み音声を除去した雑音パターンを第1の代表雑
音スペクトルメモリ21に記憶されたN個の洩れ込み音
声を除去した雑音パターンから選択して、最も類似する
洩れ込み音声を除去した雑音パターンに対応した雑音重
畳音声に重畳している重畳雑音パターンに係るパワース
ペクトルを第2の代表雑音スペクトルメモリ22から選
択して、フレームjにおける重畳雑音パターンに係るパ
ワースペクトルとして用いる。
【0057】第1の雑音スペクトル選択手段23は、洩
れ込み音声除去手段9から出力される洩れ込み音声を除
去した雑音パターンに係るパワースペクトルと、第1の
代表雑音スペクトルメモリ21に記憶されたN個の洩れ
込み音声を除去した雑音パターンに係るパワースペクト
ルとの間の距離値をそれぞれ演算して、洩れ込み音声を
除去した雑音パターンに係るパワースペクトルに対して
最短距離値を与える代表的な洩れ込み音声を除去した雑
音パターンを第1の代表雑音スペクトルメモリ21から
選択して当該雑音パターンを識別する信号を出力する。
分析フレームiにおいて最短距離値を与える洩れ込み音
声を除去した雑音パターンに係るパワースペクトルの番
号l(i)は式(25)を用いて導かれる。式(25)
において、dis(X,Y)はパワースペクトルXとパ
ワースペクトルYとの間の距離値を返す関数である。
【数12】
【0058】第2の雑音スペクトル選択手段24は、第
1の雑音スペクトル選択手段23から時系列に出力され
る雑音パターン識別信号に対応する重畳雑音パターンに
係るパワースペクトルY1l(i)(ω)を第2の代表
雑音スペクトルメモリ22から選択して時系列に出力す
る。
【0059】雑音除去音声スペクトル演算手段25は、
雑音重畳音声スペクトル演算手段3から出力される雑音
重畳音声に係るパワースペクトルから、第2の雑音スペ
クトル選択手段24から出力される重畳雑音パターンに
係るパワースペクトルを減算して、雑音除去音声に係る
パワースペクトルS’(ω)を時系列に出力する。こ
のとき、分析フレームiにおける雑音除去音声に係るパ
ワースペクトルS’(ω)は、以下の式(26)を用
いて導かれる。式(26)において、αは重畳雑音パタ
ーンに係るパワースペクトルの減算量を調整するパラメ
ータであり、βは重畳雑音パターンに係るパワースペク
トルの過剰な減算を防止するために雑音除去音声に係る
パワースペクトルにおける各周波数成分の下限値を設定
するパラメータである。また、max{}は括弧内の要
素の中で最大の値の要素を返す関数として与えられるも
のである。 S’(ω) =max{X1(ω)−αY1l(i)(ω),β} (26)
【0060】ここで、分析フレームiにおいてK個の雑
音源が出力するK個の雑音の組み合せΩ(i)に対する
重畳雑音パターンに係るパワースペクトルが適切に学習
されているならば、Y1l(i)(ω)=G
21,i(ω)N(ω)となる。これと式(7)を式
(23)に代入すると、α=1のとき、S’(ω)=
11 x(i),y(i))(ω)・S(ω)とな
り、雑音が除去された音声に係るパワースペクトルを得
ることができる。
【0061】図3は、雑音除去音声に係るパワースペク
トルを得る処理手順を示すブロック図である。既に述べ
たように、X1(ω)は雑音重畳音声に係るパワース
ペクトル、X2(ω)は音声が洩れ込んだ雑音パター
ンに係るパワースペクトル、Y2(ω)は洩れ込み音
声を除去した雑音パターンに係るパワースペクトル、Y
l(i)(ω)は推定された重畳雑音パターンに係る
パワースペクトル、S’(ω)は雑音除去音声に係る
パワースペクトル、W12(ω)は補正フィルタであ
る。図3に示されるように、音声が洩れ込んだ雑音パタ
ーンに係るパワースペクトルX2(ω)から雑音重畳
音声に係るパワースペクトルX1(ω)に補正フィル
タW12(ω)を適用したものを減算することで、洩れ
込み音声を除去した雑音パターンに係るパワースペクト
ルY2(ω)を得る。次に事前学習より求めたY2
(ω)とY1(ω)との写像関係から、Y2(ω)
に対応する重畳雑音パターンに係るパワースペクトルY
l(i)(ω)を推定する。最後に、雑音重畳音声に
係るパワースペクトルX1(ω)から推定されたY1
l(i)(ω)を減算することで、雑音除去音声に係る
パワースペクトルS’ (ω)を得ることができる。
【0062】以上のように、この実施の形態2によれ
ば、洩れ込み音声除去手段9を備えること、並びに話者
位置検出手段5、音声補正用補正フィルタメモリ6およ
び音声補正用補正フィルタ選択手段7を備えることにつ
いては実施の形態1と同等の効果を奏する。さらに、洩
れ込み音声を除去した雑音パターンに係るパワースペク
トルを複数記憶する第1の代表雑音スペクトルメモリ2
1と、重畳雑音パターンに係るパワースペクトルを複数
記憶する第2の代表雑音スペクトルメモリ22と、洩れ
込み音声を除去した雑音パターンに係るパワースペクト
ルと第1の代表雑音スペクトルメモリ21に記憶される
複数個の雑音パターンに係るパワースペクトルとの間の
距離値を演算して最短距離値を与える雑音パターンを第
1の代表雑音スペクトルメモリ21から選択して当該雑
音パターンを識別する信号を時系列に出力する第1の雑
音スペクトル選択手段23と、第1の雑音スペクトル選
択手段23から出力される雑音パターン識別信号に対応
する重畳雑音に係るパワースペクトルを第2の代表雑音
スペクトルメモリ22から選択して時系列に出力する第
2の雑音スペクトル選択手段24とを備えるように構成
したので、洩れ込み音声が除去された雑音パターンに応
じた適切な重畳雑音パターンに係るパワースペクトルを
選択して、雑音重畳音声に係るパワースペクトルから重
畳雑音パターンに係るパワースペクトルを正確に除去す
ることができるために、音声用マイクロホン1と雑音用
マイクロホン2との雑音パターンに対する伝達特性が時
々刻々変化するような場合においても、音声認識の性能
をより向上することができるという効果を奏する。
【0063】実施の形態3.実施の形態2による音声認
識装置は、補正フィルタおよび雑音パターンのパワース
ペクトル等に係る学習を事前に実施する必要があるため
に、事前の学習データに含まれないような雑音パターン
等が生ずる環境下においては、正確に雑音除去を実施す
ることができないことが予想される。この実施の形態3
は、実際に音声認識を行なっている環境下において補正
フィルタおよび雑音パターンのパワースペクトル等に係
る学習を実施する学習手段を備えることを特徴とする。
【0064】図4は、この発明の実施の形態3による音
声認識装置の構成を示す図である。図4において、図1
および図2と同一符号は同一または相当部分を示すので
その説明を省略する。31は雑音用マイクロホン2から
出力される雑音パターン信号から雑音パワーレベルを算
出し当該雑音パワーレベルを時系列に出力する雑音パワ
ーレベル演算手段、32は音声用マイクロホン1から出
力される雑音重畳音声信号と雑音用マイクロホン2から
出力される雑音パターン信号とに基づいて音声区間を判
定し、音声区間であるか否かの識別信号を時系列に出力
する音声区間検出手段、33は音声用マイクロホン1か
ら出力される雑音重畳音声信号と雑音用マイクロホン2
から出力される雑音パターン信号とに基づいて雑音区間
を判定し、雑音区間であるか否かの識別信号を時系列に
出力する雑音区間検出手段、34は雑音パワーレベル演
算手段31から出力される雑音パワーレベルが閾値以下
でありかつ音声区間検出手段32から出力される識別信
号が音声区間である旨を示している場合に、補正フィル
タの学習を実施することを示す識別信号を時系列に出力
する補正フィルタ学習決定手段、35は雑音パワーレベ
ル演算手段31から出力される雑音パワーレベルが閾値
以上でありかつ雑音区間検出手段33から出力される識
別信号が雑音区間である旨を示している場合に、雑音ス
ペクトルの学習を実施することを示す識別信号を時系列
に出力する雑音スペクトル学習決定手段、36は補正フ
ィルタ学習決定手段34から出力される識別信号が補正
フィルタの学習を実施する旨を示している場合に、雑音
重畳音声スペクトル演算手段3から出力される雑音重畳
音声に係るパワースペクトルと雑音スペクトル演算手段
4から出力される雑音パターンに係るパワースペクトル
とに基づいて、話者位置検出手段5から出力される話者
の位置データに対応する補正フィルタを学習し当該補正
フィルタを出力する補正フィルタ学習手段、37は雑音
スペクトル学習決定手段35から出力される識別信号が
雑音スペクトルの学習を実施する旨を示している場合
に、洩れ込み音声除去手段9から出力される洩れ込み音
声を除去した雑音パターンに係るパワースペクトルに基
づいて、代表的な洩れ込み音声を除去した雑音パターン
に係るパワースペクトルを学習し当該パワースペクトル
を出力する第1の雑音スペクトル学習手段、38は雑音
スペクトル学習決定手段35から出力される識別信号が
雑音スペクトルの学習を実施する旨を示している場合
に、雑音重畳音声スペクトル演算手段3から出力される
雑音重畳音声に係るパワースペクトルに基づいて、第1
の雑音スペクトル学習手段37から出力される代表的な
洩れ込み音声を除去した雑音パターンに対応する重畳雑
音パターンに係るパワースペクトルを学習し当該パワー
スペクトルを出力する第2の雑音スペクトル学習手段で
ある。
【0065】また、図5は、第1の雑音スペクトル学習
手段の内部構成を示した図である。図5において、41
は洩れ込み音声除去手段9から出力される洩れ込み音声
を除去した雑音パターンに係るパワースペクトルを複数
記憶する第1の雑音スペクトルメモリ、42は第1の雑
音スペクトルメモリ41に記憶される複数の洩れ込み音
声を除去した雑音パターンに係るパワースペクトルに対
してクラスタリングを実施し、クラスタリング結果にお
けるセントロイドに対応するパワースペクトルを代表的
な洩れ込み音声を除去した雑音パターンに係るパワース
ペクトルとして出力する第1のクラスタリング手段であ
る。
【0066】また、図6は、第2の雑音スペクトル学習
手段の内部構成を示した図である。図6において、43
は第1の雑音スペクトルメモリ41に記憶される複数の
洩れ込み音声を除去した雑音パターンに係るパワースペ
クトルとそれぞれ同一分析フレームに雑音重畳音声スペ
クトル演算手段3から出力された複数の重畳雑音パター
ンに係るパワースペクトルを記憶する第2の雑音スペク
トルメモリ、44は第2の雑音スペクトルメモリ43に
記憶される複数の重畳雑音パターンに係るパワースペク
トルに対して、第1のクラスタリング手段42のクラス
タリング結果に基づいてクラスタリングを実施し、クラ
スタリング結果におけるセントロイドに対応するパワー
スペクトルを代表的な重畳雑音パターンに係るパワース
ペクトルとして出力する第2のクラスタリング手段であ
る。
【0067】次に動作について説明する。音声用マイク
ロホン1から洩れ込み音声除去手段9に係る動作、特徴
ベクトル演算手段16から照合手段18に係る動作、並
びに第1の代表雑音スペクトルメモリ21から雑音除去
音声スペクトル演算手段25に係る動作については実施
の形態2と同様であるのでその説明を省略する。
【0068】雑音パワーレベル演算手段31は、雑音用
マイクロホン2から出力される雑音パターン信号につい
て雑音パワーレベルを算出し当該雑音パワーレベルを時
系列に出力する。時刻tにおける雑音用マイクロホン2
が出力する雑音パターン信号をx2(t)とすると、分
析フレームiにおける雑音パワーレベルLEVは以下
の式(27)から導くことができる。式(27)におい
て、x2(t)は時刻tにおける雑音用マイクロホン2
が出力する雑音パターン信号、Mは分析フレームのシフ
ト量、Lは1分析フレームのサンプル数である。
【数13】
【0069】音声区間検出手段32は、音声用マイクロ
ホン1から出力される雑音重畳音声信号と雑音用マイク
ロホン2から出力される雑音パターン信号から音声区間
を判定し、音声区間であるか否かの識別信号を時系列に
出力する。分析フレームiが音声区間であるか否かにつ
いては、以下の式(28)を満たすか否かにより判定す
る。式(28)において、P1は分析フレームiにお
ける雑音重畳音声信号のパワー、P2は分析フレーム
iにおける雑音パターン信号のパワー、THは音声区
間判定用の閾値である。
【数14】
【0070】雑音区間検出手段33は、音声用マイクロ
ホン1から出力される雑音重畳音声信号と雑音用マイク
ロホン2から出力される雑音パターン信号とに基づいて
雑音区間を判定し、雑音区間であるか否かの識別信号を
時系列に出力する。分析フレームiが雑音区間であるか
否かについては、以下の式(29)を満たすか否かによ
り判定する。式(29)において、P1は分析フレー
ムiにおける雑音重畳音声信号のパワー、P2は分析
フレームiにおける雑音パターン信号のパワー、TH
は雑音区間判定用の閾値である。
【数15】
【0071】補正フィルタ学習決定手段34は、雑音パ
ワーレベル演算手段31から出力される雑音パワーレベ
ルが閾値以下でありかつ音声区間検出手段32から出力
される識別信号が音声区間である旨を示している場合
に、補正フィルタの学習を実施することを示す識別信号
を時系列に出力する。すなわち、背景雑音の雑音パワー
レベルが小さく背景雑音の影響が無視できるような環境
で発声された音声区間において補正フィルタの学習を実
施することを示す識別信号を時系列に出力する。
【0072】雑音スペクトル学習決定手段35は、雑音
パワーレベル演算手段31から出力される雑音パワーレ
ベルが閾値以上でありかつ雑音区間検出手段33から出
力される識別信号が雑音区間である旨を示している場合
に、雑音スペクトルの学習を実施することを示す識別信
号を時系列に出力する。すなわち、背景雑音の雑音パワ
ーレベルが大きく音声が発声されていない雑音区間にお
いて雑音スペクトルの学習を実施することを示す識別信
号を時系列に出力する。
【0073】補正フィルタ学習手段36は、補正フィル
タ学習決定手段34から出力される識別信号が補正フィ
ルタの学習を実施する旨を示している場合に、雑音重畳
音声スペクトル演算手段3から出力される雑音重畳音声
に係るパワースペクトルと雑音スペクトル演算手段4か
ら出力される雑音パターンに係るパワースペクトルとに
基づいて、話者位置検出手段5から出力される話者の位
置データ(x(i),y(i))に対応する補正フィル
タW12 (x(i),y(i))(ω)を学習し当該補
正フィルタを出力する。学習された補正フィルタは、音
声補正用補正フィルタメモリ6に記憶される。背景雑音
が無視できるような環境下で発声が行われた場合に、分
析フレームjにおける雑音重畳音声スペクトル演算手段
3から出力される雑音重畳音声に係るパワースペクトル
X1(ω)および雑音スペクトル演算手段4から出力
される雑音パターンに係るパワースペクトルX2
(ω)は、以下の式(30)で表すことができる。式
(30)は、背景雑音が無視できるという仮定のもと
に、式(7)および式(8)の第2項を削除することで
導かれる。
【数16】 したがって、話者位置(x(j),y(j))での音声
用マイクロホン1と雑音用マイクロホン2との音声に対
する伝達特性に係る周波数特性の差異を補正するための
フィルタW12 (x(j),y(j))(ω)は以下の
式(31)を用いて導かれる。
【数17】
【0074】第1の雑音スペクトル学習手段37は、雑
音スペクトル学習決定手段35から出力される識別信号
が雑音スペクトルの学習を実施する旨を示している場合
に、洩れ込み音声除去手段9から出力される洩れ込み音
声を除去した雑音パターンに係るパワースペクトルに基
づいて、代表的な洩れ込み音声を除去した雑音パターン
に係るパワースペクトルを学習し当該パワースペクトル
を出力する。学習された代表的な洩れ込み音声を除去し
た雑音パターンに係るパワースペクトルは、第1の代表
雑音スペクトルメモリ21に記憶される。この第1の雑
音スペクトル学習手段37は、第1の雑音スペクトルメ
モリ41と第1のクラスタリング手段42とから構成さ
れる。
【0075】第1の雑音スペクトルメモリ41は、洩れ
込み音声除去手段9から出力される洩れ込み音声を除去
した雑音パターンに係るパワースペクトルを複数個記憶
する。
【0076】第1のクラスタリング手段42は、第1の
雑音スペクトルメモリ41に記憶される複数の洩れ込み
音声を除去した雑音パターンに係るパワースペクトルに
対してクラスタリングを実施し、クラスタリング結果に
おけるセントロイドに対応するパワースペクトルを代表
的な洩れ込み音声を除去した雑音パターンに係るパワー
スペクトルとして出力する。クラスタリングは、式(3
2)で表される評価関数Dが最小になるように実施され
る。式(32)において、Nはクラス数、Y2 (ω)
はクラスnのセントロイド、Θ(n)はクラスnの要素
が有する時系列番号の集合、iは現在第1の雑音スペク
トルメモリ41に記憶されている洩れ込み音声を除去し
た雑音パターンに係るパワースペクトルの時系列番号、
dis(X,Y)はパワースペクトルXとパワースペク
トルYとの間の距離値を返す関数である。
【数18】 また、各クラスのセントロイドY2(ω)は式(1
7)を用いて導かれる。クラスタリング終了後、N個の
Y2(ω)が代表的な洩れ込み音声を除去した雑音パ
ターンに係るパワースペクトルとして出力され、第1の
代表雑音スペクトルメモリ21に記憶される。
【0077】第2の雑音スペクトル学習手段38は、雑
音スペクトル学習決定手段35から出力される識別信号
が雑音スペクトルの学習を実施する旨を示している場合
に、雑音重畳音声スペクトル演算手段3が出力する雑音
重畳音声に係るパワースペクトルに基づいて、第1の雑
音スペクトル学習手段37が出力する代表的な洩れ込み
音声を除去した雑音パターンに係るパワースペクトルに
対応する重畳雑音パターンに係るパワースペクトルを学
習し当該パワースペクトルを出力する。学習された代表
的な重畳雑音パターンに係るパワースペクトルは、第2
の代表雑音スペクトルメモリ22に記憶される。この第
2の雑音スペクトル学習手段38は、第2の雑音スペク
トルメモリ43と第2のクラスタリング手段44とから
構成される。
【0078】第2の雑音スペクトルメモリ43は、第1
の雑音スペクトルメモリ41に記憶されている複数の洩
れ込み音声を除去した雑音パターンに係るパワースペク
トルと同一分析フレームにおいてそれぞれ出力された複
数の重畳雑音パターンに係るパワースペクトルを記憶す
る。雑音区間においては、分析フレームjにおける音声
用マイクロホン1が出力する雑音重畳音声に係るパワー
スペクトルは以下の式(33)で表される。式(33)
は音声のない雑音区間であるということから、式(7)
の第1項を削除することで導かれる。 X1(ω)=G21,j(ω)・N(ω) (33) これは雑音重畳音声において重畳している重畳雑音パタ
ーンに対するパワースペクトルであり、これを式(1
9)と同様にY1(ω)と定義する。 Y1(ω)=G21,j(ω)・N(ω) (34) すなわち、第2の雑音スペクトルメモリ43は、第1の
雑音スペクトルメモリ41に記憶されている複数の洩れ
込み音声を除去した雑音パターンに係るパワースペクト
ルY2(ω)が出力された分析フレームiとそれぞれ
同じ分析フレームにおいて雑音重畳音声スペクトル演算
手段3から出力された重畳雑音パターンに係るパワース
ペクトルY1(ω)を記憶する。
【0079】第2のクラスタリング手段44は、第2の
雑音スペクトルメモリ43が記憶する複数の重畳雑音パ
ターンに係るパワースペクトルに対して、第1のクラス
タリング手段42のクラスタリング結果に基づいてクラ
スタリングを実施し、クラスタリング結果におけるセン
トロイドに対応するパワースペクトルを代表的な重畳雑
音パターンに係るパワースペクトルとして出力する。各
クラスのセントロイドY1(ω)は式(21)を用い
て導かれる。クラスタリング終了後、N個のY1
(ω)が代表的な重畳雑音パターンに係るパワースペ
クトルとして出力され、第2の代表雑音スペクトルメモ
リ22に記憶される。
【0080】以上のように、N個のY1(ω)、Y2
(ω)がN個にクラス分けされた雑音パターンに対応
するようにそれぞれ記憶されるとともに、N組のY2
(ω)とY1(ω)との対応関係に基づいて任意のフ
レームjにおける洩れ込み音声を除去した雑音パターン
に係るパワースペクトルに対応する雑音重畳音声に重畳
している重畳雑音パターンに係るパワースペクトルを導
くことができる。
【0081】以上のように、この実施の形態3によれ
ば、雑音用マイクロホン2から出力される雑音パターン
信号から雑音パワーレベルを算出し当該雑音パワーレベ
ルを時系列に出力する雑音パワーレベル演算手段31
と、音声用マイクロホン1から出力される雑音重畳音声
信号と雑音用マイクロホン2から出力される雑音パター
ン信号とに基づいて音声区間を検出し音声区間か否かを
識別する信号を時系列に出力する音声区間検出手段32
と、雑音パワーレベル演算手段31から出力される雑音
パワーレベルが閾値以下でかつ音声区間検出手段32か
ら出力される識別信号が音声区間である旨を示している
場合に補正フィルタの学習を実施することを示す識別信
号を時系列に出力する補正フィルタ学習決定手段34
と、補正フィルタ学習決定手段34から出力される識別
信号が補正フィルタの学習を実施する旨を示している場
合に雑音重畳音声スペクトル演算手段3から出力される
雑音重畳音声に係るパワースペクトルと雑音スペクトル
演算手段4から出力される雑音パターンに係るパワース
ペクトルとに基づいて話者位置検出手段5から出力され
る話者の位置データに対応する補正フィルタを学習し当
該補正フィルタを出力する補正フィルタ学習手段36と
を備えるように構成したので、事前学習によって学習で
きなかった話者位置において発声が行われる場合におい
ても、雑音重畳音声に係るパワースペクトルの補正を正
確に行ない、音声が洩れ込んだ雑音パターンに係るパワ
ースペクトルから洩れ込み音声の除去を正確に実施する
ことができるから、音声認識の性能を向上することがで
きるという効果を奏する。
【0082】また、雑音用マイクロホン2から出力され
る雑音パターン信号から雑音パワーレベルを算出し当該
雑音パワーレベルを時系列に出力する雑音パワーレベル
演算手段31と、音声用マイクロホン1から出力される
雑音重畳音声信号と雑音用マイクロホン2から出力され
る雑音パターン信号とに基づいて雑音区間を検出し雑音
区間か否かを識別する信号を時系列に出力する雑音区間
検出手段33と、雑音パワーレベル演算手段31から出
力される雑音パワーレベルが閾値以上でありかつ雑音区
間検出手段33から出力される識別信号が雑音区間であ
る旨を示している場合に、雑音スペクトルの学習を実施
することを示す識別信号を時系列に出力する雑音スペク
トル学習決定手段35と、雑音スペクトル学習決定手段
35から出力される識別信号が雑音スペクトルの学習を
実施する旨を示している場合に、洩れ込み音声除去手段
9から出力される洩れ込み音声を除去した雑音パターン
に係るパワースペクトルに基づいて代表的な洩れ込み音
声を除去した雑音パターンに係るパワースペクトルを学
習し当該パワースペクトルを出力する第1の雑音スペク
トル学習手段37と、雑音スペクトル学習決定手段35
から出力される識別信号が雑音スペクトルの学習を実施
する旨を示している場合に、雑音重畳音声スペクトル演
算手段3から出力される雑音重畳音声に係るパワースペ
クトルに基づいて、第1の雑音スペクトル学習手段37
から出力される代表的な洩れ込み音声を除去した雑音パ
ターンに係るパワースペクトルに対応する重畳雑音パタ
ーンに係るパワースペクトルを学習し当該パワースペク
トルを出力する第2の雑音スペクトル学習手段38とを
備えるように構成したので、事前学習によって学習でき
なかった雑音パターンが音声に重畳した場合において
も、洩れ込み音声が除去された雑音パターンに応じて適
切な重畳雑音パターンに係るパワースペクトルを選択し
て、雑音重畳音声に係るパワースペクトルから当該重畳
雑音パターンに係るパワースペクトルを正確に除去する
ことができるから、音声認識の性能をより向上すること
ができるという効果を奏する。
【0083】さらに、第1の雑音スペクトル学習手段3
7が、洩れ込み音声除去手段9から出力される複数の洩
れ込み音声を除去した雑音パターンに係るパワースペク
トルを記憶する第1の雑音スペクトルメモリ41と、第
1の雑音スペクトルメモリ41に記憶される複数の洩れ
込み音声を除去した雑音パターンに係る複数のパワース
ペクトルについて、それぞれのクラスのセントロイドと
当該クラスに含まれる雑音パターンのパワースペクトル
との間の距離値の総和が最小となるようにクラスタリン
グを実施し、各クラスのセントロイドを代表的な洩れ込
み音声を除去した雑音パターンに係るパワースペクトル
として出力する第1のクラスタリング手段42とを備
え、第2の雑音スペクトル学習手段38が、第1の雑音
スペクトルメモリ41に記憶される複数の洩れ込み音声
を除去した雑音パターンに係るパワースペクトルとそれ
ぞれ同一分析フレームに出力された複数の重畳雑音パタ
ーンに係るパワースペクトルを記憶する第2の雑音スペ
クトルメモリ43と、第2の雑音スペクトルメモリ43
に記憶される複数の重畳雑音パターンに係るパワースペ
クトルに対して第1のクラスタリング手段42における
クラスタリング結果を反映するようにクラスタリングを
実施し、各クラスのセントロイドを代表的な重畳雑音パ
ターンに係るパワースペクトルとして出力する第2のク
ラスタリング手段44とを備えるように構成したので、
洩れ込み音声を除去した雑音パターンについてそれぞれ
のクラスのセントロイドと当該クラスに含まれるパワー
スペクトルとの間の距離値の総和が最小となるようにす
ることで適切なクラスタリングを実施するとともに、洩
れ込み音声を除去した雑音パターンおよび重畳雑音パタ
ーンについて各クラスのセントロイドを代表的なパワー
スペクトルとして記憶することで、洩れ込み音声を除去
した雑音パターンに係るパワースペクトルと重畳雑音に
係るパワースペクトルとの間の写像関係を精密に学習で
きるから、雑音重畳音声に係るパワースペクトルから重
畳雑音パターンに係るパワースペクトルを正確に除去す
ることができて、音声認識の性能をより向上することが
できるという効果を奏する。
【0084】実施の形態4.実施の形態2および実施の
形態3による音声認識装置では、単純なクラスタリング
によって、洩れ込み音声を除去した雑音パターンと重畳
雑音パターンとの間の写像関係を学習しているために、
雑音パワーレベルの変動が大きい場合等に過度に雑音の
強さ方向にのみ分解能を有して雑音の種類方向に分解能
を有しない写像関係を学習してしまい、結果的に正確に
雑音除去することができないことが予想される。そこ
で、この実施の形態4による音声認識装置は、クラスタ
リングの精度を上げて洩れ込み音声を除去した雑音パタ
ーンと重畳雑音パターンとの間の写像関係をより精密に
学習することを特徴とする。
【0085】図7は、この発明の実施の形態4による音
声認識装置における第1の雑音スペクトル学習手段の内
部構成を示す図である。図7において、図5と同一符号
は同一または相当部分を示すのでその説明を省略する。
51は第1の雑音スペクトルメモリ41に記憶される洩
れ込み音声を除去した雑音パターンに係るパワースペク
トルからパワースペクトルの概形を表すパラメータを算
出し当該パラメータを出力するスペクトル概形パラメー
タ演算手段、52は第1の雑音スペクトルメモリ41に
記憶される洩れ込み音声を除去した雑音パターンに係る
パワースペクトルからパワースペクトルの強度を表すパ
ラメータを算出し当該パラメータを出力するスペクトル
強度パラメータ演算手段、53はスペクトル概形パラメ
ータ演算手段51から出力されるパワースペクトルの概
形を表すパラメータとスペクトル強度パラメータ演算手
段52から出力されるパワースペクトルの強度を表すパ
ラメータとに重みを掛けて算出する距離値を用いて、第
1の雑音スペクトルメモリ41に記憶される複数の洩れ
込み音声を除去した雑音パターンに係るパワースペクト
ルをクラスタリングし、代表的な洩れ込み音声を除去し
た雑音パターンに係るパワースペクトルを出力する重み
付けクラスタリング手段である。
【0086】次に動作について説明する。スペクトル概
形パラメータ演算手段51は、洩れ込み音声除去手段9
から出力される洩れ込み音声を除去した雑音パターンに
係るパワースペクトルからパワースペクトルの概形を表
すパラメータを算出し時系列に出力する。具体的には式
(35)からY2(ω)のケプストラムC(p)を
求め、C(p)(1≦p≦P)をパワースペクトルの
概形を表すパラメータとする。Pはケプストラムの次数
である。また、式(35)においてF−1は逆FFTを
実施する関数である。 C(p)=F−1(ln(Y2(ω))) (35)
【0087】スペクトル強度パラメータ演算手段52
は、洩れ込み音声除去手段9から出力される洩れ込み音
声を除去した雑音パターンに係るパワースペクトルから
パワースペクトルの強度を表すパラメータを算出し時系
列に出力する。具体的には、式(35)からY2
(ω)のケプストラムC(p)を求め、C(0)
をパワースペクトルの強度を表すパラメータとする。
【0088】重み付けクラスタリング手段53は、スペ
クトル概形パラメータ演算手段51から出力されるパワ
ースペクトルの概形を表すパラメータとスペクトル強度
パラメータ演算手段52から出力されるパワースペクト
ルの強度を表すパラメータとに重みを掛けて算出する距
離値を用いて、第1の雑音スペクトルメモリ41に記憶
される複数の洩れ込み音声を除去した雑音パターンに係
るパワースペクトルをクラスタリングし、代表的な洩れ
込み音声を除去した雑音パターンに係るパワースペクト
ルを出力する。クラスタリングは、以下の式(36)で
表される評価関数Dが最小になるように実施される。式
(36)において、C(p)はクラスnのセントロイ
ド、Θ(n)はクラスnの要素が有する時系列番号の集
合、dis(X,Y)は指定された次数の範囲における
ケプストラムXとケプストラムYとの間の距離値を返す
関数である。Wは、パワースペクトルの概形を表すパラ
メータおよびパワースペクトルの強度を表すパラメータ
についての全体の距離値に対する寄与度の割合を決定す
る重み係数である。
【数19】 また、各クラスのセントロイドY2(ω)は式(1
7)を用いて導かれる。クラスタリング終了後、N個の
Y2(ω)が代表的な洩れ込み音声を除去した雑音パ
ターンに係るパワースペクトルとして出力され、第1の
代表雑音スペクトルメモリ21に記憶される。
【0089】以上のように、この実施の形態4によれ
ば、第1の雑音スペクトルメモリ41に記憶される洩れ
込み音声を除去した雑音パターンに係るパワースペクト
ルからパワースペクトルの概形を表すパラメータを算出
し当該パラメータを出力するスペクトル概形パラメータ
演算手段51と、第1の雑音スペクトルメモリ41に記
憶される洩れ込み音声を除去した雑音パターンに係るパ
ワースペクトルからパワースペクトルの強度を表すパラ
メータを算出し当該パラメータを出力するスペクトル強
度パラメータ演算手段52と、スペクトル概形パラメー
タ演算手段51から出力されるパワースペクトルの概形
を表すパラメータとスペクトル強度パラメータ演算手段
52から出力されるパワースペクトルの強度を表すパラ
メータとにそれぞれ重みを掛けて算出する距離値を用い
て、第1の雑音スペクトルメモリ41に記憶される複数
の洩れ込み音声を除去した雑音パターンに係るパワース
ペクトルをクラスタリングし、代表的な洩れ込み音声を
除去した雑音パターンに係るパワースペクトルを出力す
る重み付けクラスタリング手段53とを備えるように構
成したので、雑音パワーレベルの変動が激しい環境下等
においても、雑音の強度を表すパラメータに対する重み
を調整することによってより精密なクラスタリングが可
能となり、洩れ込み音声を除去した雑音パターンに係る
パワースペクトルと重畳雑音パターンに係るパワースペ
クトルとの間の写像関係をより精密に学習することがで
きることで、雑音重畳音声に係るパワースペクトルから
重畳雑音パターンに係るパワースペクトルを正確に除去
することができるために、音声認識の性能をより向上す
ることができるという効果を奏する。
【0090】
【発明の効果】以上のように、この発明によれば、音声
用マイクロホンと雑音用マイクロホンとの音声に対する
伝達特性に係る周波数特性の差異を補正するためのフィ
ルタを用いて雑音重畳音声に係るパワースペクトルを補
正して補正雑音重畳音声に係るパワースペクトルを時系
列に出力する雑音重畳音声スペクトル補正手段と、音声
が洩れ込んだ雑音パターンに係るパワースペクトルから
補正雑音重畳音声に係るパワースペクトルを減算して洩
れ込み音声を除去した雑音パターンに係るパワースペク
トルを時系列に出力する洩れ込み音声除去手段とを備え
るように構成したので、雑音用マイクロホンへの音声の
洩れ込みがある場合においても、雑音パターンから洩れ
込み音声を除去することができて、洩れ込み音声が除去
された雑音パターンを雑音重畳音声から除去することが
できるから、音声認識の性能を向上することができると
いう効果を奏する。
【0091】この発明によれば、センサによって話者の
存在する位置を検出して当該位置データを時系列に出力
する話者位置検出手段と、音声用マイクロホンと雑音用
マイクロホンとの音声に対する伝達特性に係る周波数特
性の差異を補正するための複数の補正フィルタを記憶す
る音声補正用補正フィルタメモリと、話者位置検出手段
から出力される話者の位置データに対応する補正フィル
タを音声補正用補正フィルタメモリから選択して当該補
正フィルタを雑音重畳音声スペクトル補正手段へ時系列
に出力する音声補正用補正フィルタ選択手段とを備える
ように構成したので、話者位置に応じて適正な補正フィ
ルタを選択して音声が洩れ込んだ雑音パターンに係るパ
ワースペクトルから洩れ込み音声に係るパワースペクト
ルを正確に除去することができるから、雑音重畳音声か
らの雑音除去を正確に実施することができて、音声認識
の性能をより向上することができるという効果を奏す
る。
【0092】この発明によれば、音声用マイクロホンと
雑音用マイクロホンとの雑音パターンに対する伝達特性
に係る周波数特性の差異を補正するための複数の補正フ
ィルタを記憶する雑音補正用補正フィルタメモリと、雑
音補正用補正フィルタメモリに記憶された複数の補正フ
ィルタにそれぞれ対応する雑音パターンに係るパワース
ペクトルを記憶する代表雑音スペクトルメモリと、収集
された雑音パターンに係るパワースペクトルと代表雑音
スペクトルメモリに記憶される複数の雑音パターンに係
るパワースペクトルとの間の距離値を演算して最短距離
値を与える雑音パターンを代表雑音スペクトルメモリか
ら選択して当該雑音パターンを識別する信号を時系列に
出力する雑音スペクトル選択手段と、雑音スペクトル選
択手段から出力される雑音パターン識別信号に対応する
補正フィルタを雑音補正用補正フィルタメモリから選択
して時系列に出力する雑音補正用補正フィルタ選択手段
とを備えるように構成したので、雑音用マイクロホンに
より収集された雑音パターンに応じて適正な補正フィル
タを選択して、雑音重畳音声に係るパワースペクトルか
ら雑音パターンに係るパワースペクトルを正確に除去す
ることができるから、音声認識の性能を向上することが
できるという効果を奏する。
【0093】この発明によれば、音声用マイクロホンと
雑音用マイクロホンとの雑音パターンに対する伝達特性
に係る周波数特性の差異を補正するための複数の補正フ
ィルタを記憶する雑音補正用補正フィルタメモリと、雑
音補正用補正フィルタメモリに記憶された複数の補正フ
ィルタにそれぞれ対応する雑音パターンに係るパワース
ペクトルを記憶する代表雑音スペクトルメモリと、洩れ
込み音声を除去した雑音パターンに係るパワースペクト
ルと代表雑音スペクトルメモリに記憶される複数の雑音
パターンに係るパワースペクトルとの間の距離値を演算
して最短距離値を与える雑音パターンを代表雑音スペク
トルメモリから選択して当該雑音パターンを識別する信
号を時系列に出力する雑音スペクトル選択手段と、雑音
スペクトル選択手段から出力される雑音パターン識別信
号に対応する補正フィルタを雑音補正用補正フィルタメ
モリから選択して洩れ込み音声除去雑音スペクトル補正
手段へ時系列に出力する雑音補正用補正フィルタ選択手
段とを備えるように構成したので、洩れ込み音声が除去
された雑音パターンに応じて適正な補正フィルタを選択
して、雑音重畳音声に係るパワースペクトルから雑音パ
ターンに係るパワースペクトルを正確に除去することが
できるから、音声認識の性能をより向上することができ
るという効果を奏する。
【0094】この発明によれば、洩れ込み音声を除去し
た雑音パターンに係る複数のパワースペクトルを記憶す
る第1の代表雑音スペクトルメモリと、第1の代表雑音
スペクトルメモリに記憶される複数の洩れ込み音声を除
去した雑音パターンに係るパワースペクトルにそれぞれ
対応する複数の重畳雑音パターンに係るパワースペクト
ルを記憶する第2の代表雑音スペクトルメモリと、洩れ
込み音声を除去した雑音パターンに係るパワースペクト
ルと、第1の代表雑音スペクトルメモリに記憶される複
数の洩れ込み音声を除去した雑音パターンに係るパワー
スペクトルとの間の距離値を演算して最短距離値を与え
る雑音パターンに係るパワースペクトルを第1の代表雑
音スペクトルメモリから選択して、当該雑音パターンを
識別する信号を時系列に出力する第1の雑音スペクトル
選択手段と、第1の雑音スペクトル選択手段から出力さ
れる雑音パターン識別信号に対応する重畳雑音パターン
に係るパワースペクトルを第2の代表雑音スペクトルメ
モリから選択し時系列に出力する第2の雑音スペクトル
選択手段とを備えるように構成したので、洩れ込み音声
が除去された雑音パターンに応じた適切な重畳雑音パタ
ーンに係るパワースペクトルを選択して、雑音重畳音声
に係るパワースペクトルから重畳雑音パターンに係るパ
ワースペクトルを正確に除去することができるために、
音声用マイクロホンと雑音用マイクロホンとの雑音パタ
ーンに対する伝達特性に係る周波数特性が時々刻々変化
するような場合においても、音声認識の性能をより向上
することができるという効果を奏する。
【0095】この発明によれば、雑音用マイクロホンか
ら出力される雑音パターン信号から雑音パワーレベルを
算出し当該雑音パワーレベルを時系列に出力する雑音パ
ワーレベル演算手段と、音声用マイクロホンから出力さ
れる雑音重畳音声信号と雑音用マイクロホンから出力さ
れる雑音パターン信号とに基づいて音声区間を判定し、
音声区間であるか否かの識別信号を時系列に出力する音
声区間検出手段と、雑音パワーレベル演算手段から出力
される雑音パワーレベルが閾値以下でありかつ音声区間
検出手段から出力される識別信号が音声区間である旨を
示している場合に、補正フィルタの学習を実施すること
を示す識別信号を時系列に出力する補正フィルタ学習決
定手段と、補正フィルタ学習決定手段から出力される識
別信号が補正フィルタの学習を実施する旨を示している
場合に、雑音重畳音声スペクトル演算手段から出力され
る雑音重畳音声に係るパワースペクトルと雑音スペクト
ル演算手段から出力される雑音パターンに係るパワース
ペクトルとに基づいて、話者位置検出手段から出力され
る話者の位置データに対応する補正フィルタを学習し当
該補正フィルタを出力する補正フィルタ学習手段とを備
えるように構成したので、事前学習によって学習できな
かった話者位置において発声が行われる場合において
も、雑音重畳音声に係るパワースペクトルの補正を正確
に行ない、音声が洩れ込んだ雑音パターンに対するパワ
ースペクトルから洩れ込み音声の除去を正確に実施する
ことができて、音声認識の性能を向上することができる
という効果を奏する。
【0096】この発明によれば、雑音用マイクロホンか
ら出力される雑音パターン信号から雑音パワーレベルを
算出し当該雑音パワーレベルを時系列に出力する雑音パ
ワーレベル演算手段と、音声用マイクロホンから出力さ
れる雑音重畳音声信号と雑音用マイクロホンから出力さ
れる雑音パターン信号とに基づいて雑音区間を判定し、
雑音区間であるか否かの識別信号を時系列に出力する雑
音区間検出手段と、雑音パワーレベル演算手段から出力
される雑音パワーレベルが閾値以上でありかつ雑音区間
検出手段から出力される識別信号が雑音区間である旨を
示している場合に、雑音スペクトルの学習を実施するこ
とを示す識別信号を時系列に出力する雑音スペクトル学
習決定手段と、雑音スペクトル学習決定手段から出力さ
れる識別信号が雑音スペクトルの学習を実施する旨を示
している場合に、洩れ込み音声除去手段から出力される
洩れ込み音声を除去した雑音パターンに係るパワースペ
クトルに基づいて、代表的な洩れ込み音声を除去した雑
音パターンに係るパワースペクトルを学習し当該パワー
スペクトルを出力する第1の雑音スペクトル学習手段
と、雑音スペクトル学習決定手段から出力される識別信
号が雑音スペクトルの学習を実施する旨を示している場
合に、雑音重畳音声スペクトル演算手段から出力される
雑音重畳音声に係るパワースペクトルに基づいて、第1
の雑音スペクトル学習手段から出力される代表的な洩れ
込み音声を除去した雑音パターンに係るパワースペクト
ルに対応する重畳雑音パターンに係るパワースペクトル
を学習し当該パワースペクトルを出力する第2の雑音ス
ペクトル学習手段とを備えるように構成したので、事前
学習によって学習できなかった雑音パターンが音声に重
畳した場合においても、洩れ込み音声が除去された雑音
パターンに応じて適切な重畳雑音パターンに係るパワー
スペクトルを選択して、雑音重畳音声に係るパワースペ
クトルから当該重畳雑音パターンに係るパワースペクト
ルを正確に除去することができるので、音声認識の性能
をより向上することができるという効果を奏する。
【0097】この発明によれば、第1の雑音スペクトル
学習手段が、洩れ込み音声除去手段から出力される複数
の洩れ込み音声を除去した雑音パターンに係るパワース
ペクトルを記憶する第1の雑音スペクトルメモリと、第
1の雑音スペクトルメモリに記憶される複数の洩れ込み
音声を除去した雑音パターンに係るパワースペクトルに
ついて、それぞれのクラスのセントロイドとなるパワー
スペクトルと当該クラスに含まれる雑音パターンのパワ
ースペクトルとの間の距離値の総和が最小となるように
クラスタリングを実施し、各クラスのセントロイドを代
表的な洩れ込み音声を除去した雑音パターンに係るパワ
ースペクトルとして出力する第1のクラスタリング手段
とを備え、第2の雑音スペクトル学習手段が、第1の雑
音スペクトルメモリに記憶される複数の洩れ込み音声を
除去した雑音パターンに係るパワースペクトルとそれぞ
れ同一分析フレームに出力された複数の重畳雑音パター
ンに係るパワースペクトルを記憶する第2の雑音スペク
トルメモリと、第2の雑音スペクトルメモリに記憶され
る複数の重畳雑音パターンに係るパワースペクトルに対
して第1のクラスタリング手段におけるクラスタリング
結果を反映するようにクラスタリングを実施し、各クラ
スのセントロイドを代表的な重畳雑音パターンに係るパ
ワースペクトルとして出力する第2のクラスタリング手
段とを備えるように構成したので、洩れ込み音声を除去
した雑音パターンについてそれぞれのクラスのセントロ
イドと当該クラスに含まれるパワースペクトルとの間の
距離の総和が最小となるようにすることで適切なクラス
タリングを実施するとともに、洩れ込み音声を除去した
雑音パターンおよび重畳雑音パターンについて各クラス
のセントロイドを代表的なパワースペクトルとして記憶
することで、洩れ込み音声を除去した雑音パターンに係
るパワースペクトルと重畳雑音パターンに係るパワース
ペクトルとの間の写像関係を精密に学習できるから、雑
音重畳音声に係るパワースペクトルから重畳雑音パター
ンに係るパワースペクトルを正確に除去することができ
て、音声認識の性能をより向上することができるという
効果を奏する。
【0098】この発明によれば、第1の雑音スペクトル
学習手段が、洩れ込み音声除去手段から出力される洩れ
込み音声を除去した雑音パターンに係る複数のパワース
ペクトルを記憶する第1の雑音スペクトルメモリと、第
1の雑音スペクトルメモリに記憶される洩れ込み音声を
除去した雑音パターンに係るパワースペクトルからパワ
ースペクトルの概形を表すパラメータを算出し当該パラ
メータを出力するスペクトル概形パラメータ演算手段
と、第1の雑音スペクトルメモリに記憶される洩れ込み
音声を除去した雑音パターンに係るパワースペクトルか
らパワースペクトルの強度を表すパラメータを算出し当
該パラメータを出力するスペクトル強度パラメータ演算
手段と、スペクトル概形パラメータ演算手段から出力さ
れるパワースペクトルの概形を表すパラメータとスペク
トル強度パラメータ演算手段から出力されるパワースペ
クトルの強度を表すパラメータとに重みを掛けて算出す
る距離値を用いて、第1の雑音スペクトルメモリに記憶
される複数の洩れ込み音声を除去した雑音パターンに係
るパワースペクトルをクラスタリングし、代表的な洩れ
込み音声を除去した雑音パターンに係るパワースペクト
ルを出力する重み付けクラスタリング手段とを備えるよ
うに構成したので、雑音パワーレベルの変動が激しい環
境下等においても、雑音の強度を表すパラメータに対す
る重みを調整することによってより精密なクラスタリン
グが可能となり、洩れ込み音声を除去した雑音パターン
に係るパワースペクトルと重畳雑音に係るパワースペク
トルとの間の写像関係をより精密に学習することができ
ることで、雑音重畳音声に係るパワースペクトルから重
畳雑音パターンに係るパワースペクトルを正確に除去す
ることができるために、音声認識の性能をより向上する
ことができるという効果を奏する。
【図面の簡単な説明】
【図1】 この発明の実施の形態1による音声認識装置
の構成を示す図である。
【図2】 この発明の実施の形態2による音声認識装置
の構成を示す図である。
【図3】 雑音除去音声に係るパワースペクトルを得る
処理手順を示すブロック図である。
【図4】 この発明の実施の形態3による音声認識装置
の構成を示す図である。
【図5】 第1の雑音スペクトル学習手段の内部構成を
示す図である。
【図6】 第2の雑音スペクトル学習手段の内部構成を
示す図である。
【図7】 この発明の実施の形態4による音声認識装置
の第1の雑音スペクトル学習手段の内部構成を示す図で
ある。
【図8】 雑音等がある環境下において音声を認識する
従来の音声認識装置の構成を示すブロック図である。
【図9】 従来の2入力SS法を用いた音声認識装置の
構成を示す図である。
【符号の説明】
1 音声用マイクロホン、2 雑音用マイクロホン、3
雑音重畳音声スペクトル演算手段、4 雑音スペクト
ル演算手段、5 話者位置検出手段、6 音声補正用補
正フィルタメモリ、7 音声補正用補正フィルタ選択手
段、8 雑音重畳音声スペクトル補正手段、9 洩れ込
み音声除去手段、10 雑音補正用補正フィルタメモ
リ、11 代表雑音スペクトルメモリ、12 雑音スペ
クトル選択手段、13 雑音補正用補正フィルタ選択手
段、14 洩れ込み音声除去雑音スペクトル補正手段
(雑音スペクトル補正手段)、15,25 雑音除去音
声スペクトル演算手段、16 特徴ベクトル演算手段、
17 照合パターンメモリ、18 照合手段、21 第
1の代表雑音スペクトルメモリ、22 第2の代表雑音
スペクトルメモリ、23 第1の雑音スペクトル選択手
段、24 第2の雑音スペクトル選択手段、31 雑音
パワーレベル演算手段、32 音声区間検出手段、33
雑音区間検出手段、34 補正フィルタ学習決定手
段、35 雑音スペクトル学習決定手段、36 補正フ
ィルタ学習手段、37 第1の雑音スペクトル学習手
段、38 第2の雑音スペクトル学習手段、41 第1
の雑音スペクトルメモリ、42 第1のクラスタリング
手段、43 第2の雑音スペクトルメモリ、44 第2
のクラスタリング手段、51 スペクトル概形パラメー
タ演算手段、52 スペクトル強度パラメータ演算手
段、53 重み付けクラスタリング手段。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) // G10L 101:02 G10L 7/08 A

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 背景雑音が重畳した音声を収集する音声
    用マイクロホンと、主に背景雑音を収集する雑音用マイ
    クロホンと、前記音声用マイクロホンが出力する雑音重
    畳音声信号を周波数変換して雑音重畳音声に係るパワー
    スペクトルを時系列に出力する雑音重畳音声スペクトル
    演算手段と、前記雑音用マイクロホンが出力する雑音パ
    ターン信号を周波数変換して音声が洩れ込んだ雑音パタ
    ーンに係るパワースペクトルを時系列に出力する雑音ス
    ペクトル演算手段と、前記音声用マイクロホンと前記雑
    音用マイクロホンとの音声に対する伝達特性に係る周波
    数特性の差異を補正するためのフィルタを用いて雑音重
    畳音声に係るパワースペクトルを補正して補正雑音重畳
    音声に係るパワースペクトルを時系列に出力する雑音重
    畳音声スペクトル補正手段と、音声が洩れ込んだ雑音パ
    ターンに係るパワースペクトルから補正雑音重畳音声に
    係るパワースペクトルを減算して洩れ込み音声を除去し
    た雑音パターンに係るパワースペクトルを時系列に出力
    する洩れ込み音声除去手段と、前記音声用マイクロホン
    と前記雑音用マイクロホンとの雑音パターンに対する伝
    達特性に係る周波数特性の差異を補正するためのフィル
    タを用いて洩れ込み音声を除去した雑音パターンに係る
    パワースペクトルを補正して補正雑音パターンに係るパ
    ワースペクトルを時系列に出力する洩れ込み音声除去雑
    音スペクトル補正手段と、雑音重畳音声に係るパワース
    ペクトルから補正雑音パターンに係るパワースペクトル
    を減算して雑音除去音声に係るパワースペクトルを時系
    列に出力する雑音除去音声スペクトル演算手段と、雑音
    除去音声に係るパワースペクトルを基にして音声認識処
    理を実行する認識処理部とを備えることを特徴とする音
    声認識装置。
  2. 【請求項2】 センサによって話者の存在する位置を検
    出して当該位置データを時系列に出力する話者位置検出
    手段と、音声用マイクロホンと雑音用マイクロホンとの
    音声に対する伝達特性に係る周波数特性の差異を補正す
    るための複数の補正フィルタを記憶する音声補正用補正
    フィルタメモリと、前記話者位置検出手段から出力され
    る話者の位置データに対応する補正フィルタを前記音声
    補正用補正フィルタメモリから選択して当該補正フィル
    タを雑音重畳音声スペクトル補正手段へ時系列に出力す
    る音声補正用補正フィルタ選択手段とを備えることを特
    徴とする請求項1記載の音声認識装置。
  3. 【請求項3】 背景雑音が重畳した音声を収集する音声
    用マイクロホンと、主に背景雑音を収集する雑音用マイ
    クロホンと、前記音声用マイクロホンが出力する雑音重
    畳音声信号を周波数変換して雑音重畳音声に係るパワー
    スペクトルを時系列に出力する雑音重畳音声スペクトル
    演算手段と、前記雑音用マイクロホンが出力する雑音パ
    ターン信号を周波数変換して雑音パターンに係るパワー
    スペクトルを時系列に出力する雑音スペクトル演算手段
    と、音声用マイクロホンと雑音用マイクロホンとの雑音
    パターンに対する伝達特性に係る周波数特性の差異を補
    正するための複数の補正フィルタを記憶する雑音補正用
    補正フィルタメモリと、前記雑音補正用補正フィルタメ
    モリに記憶された複数の補正フィルタにそれぞれ対応す
    る洩れ込み音声を除去した雑音パターンに係るパワース
    ペクトルを記憶する代表雑音スペクトルメモリと、洩れ
    込み音声を除去した雑音パターンに係るパワースペクト
    ルと前記代表雑音スペクトルメモリに記憶される複数の
    洩れ込み音声を除去した雑音パターンに係るパワースペ
    クトルとの間の距離値を演算して最短距離値を与える洩
    れ込み音声を除去した雑音パターンを前記代表雑音スペ
    クトルメモリから選択して当該雑音パターンを識別する
    信号を時系列に出力する雑音スペクトル選択手段と、前
    記雑音スペクトル選択手段から出力される雑音パターン
    識別信号に対応する補正フィルタを前記雑音補正用補正
    フィルタメモリから選択して時系列に出力する雑音補正
    用補正フィルタ選択手段と、前記雑音補正用補正フィル
    タ選択手段から出力される補正フィルタを用いて雑音パ
    ターンに係るパワースペクトルを補正して補正雑音パタ
    ーンに係るパワースペクトルを時系列に出力する雑音ス
    ペクトル補正手段と、雑音重畳音声に係るパワースペク
    トルから補正雑音に係るパワースペクトルを減算して雑
    音除去音声に係るパワースペクトルを時系列に出力する
    雑音除去音声スペクトル演算手段と、雑音除去音声に係
    るパワースペクトルを基にして音声認識処理を実行する
    認識処理部とを備えることを特徴とする音声認識装置。
  4. 【請求項4】 音声用マイクロホンと雑音用マイクロホ
    ンとの雑音パターンに対する伝達特性に係る周波数特性
    の差異を補正するための複数の補正フィルタを記憶する
    雑音補正用補正フィルタメモリと、前記雑音補正用補正
    フィルタメモリに記憶された複数の補正フィルタにそれ
    ぞれ対応する洩れ込み音声を除去した雑音パターンに係
    るパワースペクトルを記憶する代表雑音スペクトルメモ
    リと、洩れ込み音声を除去した雑音パターンに係るパワ
    ースペクトルと前記代表雑音スペクトルメモリに記憶さ
    れる複数の洩れ込み音声を除去した雑音パターンに係る
    パワースペクトルとの間の距離値を演算して最短距離値
    を与える雑音パターンを前記代表雑音スペクトルメモリ
    から選択して当該雑音パターンを識別する信号を時系列
    に出力する雑音スペクトル選択手段と、前記雑音スペク
    トル選択手段から出力される雑音パターン識別信号に対
    応する補正フィルタを前記雑音補正用補正フィルタメモ
    リから選択して洩れ込み音声除去雑音スペクトル補正手
    段へ時系列に出力する雑音補正用補正フィルタ選択手段
    とを備えることを特徴とする請求項1または請求項2記
    載の音声認識装置。
  5. 【請求項5】 背景雑音が重畳した音声を収集する音声
    用マイクロホンと、主に背景雑音を収集する雑音用マイ
    クロホンと、前記音声用マイクロホンから出力される雑
    音重畳音声信号を周波数変換して雑音重畳音声に係るパ
    ワースペクトルを時系列に出力する雑音重畳音声スペク
    トル演算手段と、前記雑音用マイクロホンから出力され
    る雑音パターン信号を周波数変換して音声が洩れ込んだ
    雑音パターンに係るパワースペクトルを時系列に出力す
    る雑音スペクトル演算手段と、前記音声用マイクロホン
    と前記雑音用マイクロホンとの音声に対する伝達特性に
    係る周波数特性の差異を補正するためのフィルタを用い
    て、雑音重畳音声に係るパワースペクトルを補正して補
    正雑音重畳音声に係るパワースペクトルを時系列に出力
    する雑音重畳音声スペクトル補正手段と、音声が洩れ込
    んだ雑音パターンに係るパワースペクトルから補正雑音
    重畳音声に係るパワースペクトルを減算して洩れ込み音
    声を除去した雑音パターンに係るパワースペクトルを時
    系列に出力する洩れ込み音声除去手段と、洩れ込み音声
    を除去した雑音パターンに係る複数のパワースペクトル
    を記憶する第1の代表雑音スペクトルメモリと、前記第
    1の代表雑音スペクトルメモリに記憶される複数の洩れ
    込み音声を除去した雑音パターンに係るパワースペクト
    ルにそれぞれ対応する複数の重畳雑音パターンに係るパ
    ワースペクトルを記憶する第2の代表雑音スペクトルメ
    モリと、収集された洩れ込み音声を除去した雑音パター
    ンに係るパワースペクトルと、前記第1の代表雑音スペ
    クトルメモリに記憶される複数の洩れ込み音声を除去し
    た雑音パターンに係るパワースペクトルとの間の距離値
    を演算して最短距離値を与える雑音パターンに係るパワ
    ースペクトルを前記第1の代表雑音スペクトルメモリか
    ら選択して、当該雑音パターンを識別する信号を時系列
    に出力する第1の雑音スペクトル選択手段と、前記第1
    の雑音スペクトル選択手段から出力される雑音パターン
    識別信号に対応する重畳雑音パターンに係るパワースペ
    クトルを前記第2の代表雑音スペクトルメモリから選択
    し時系列に出力する第2の雑音スペクトル選択手段と、
    雑音重畳音声に係るパワースペクトルから、前記第2の
    雑音スペクトル選択手段が選択した重畳雑音パターンに
    係るパワースペクトルを減算して雑音除去音声に係るパ
    ワースペクトルを時系列に出力する雑音除去音声スペク
    トル演算手段と、雑音除去音声に係るパワースペクトル
    を基にして音声認識処理を実行する認識処理部とを備え
    ることを特徴とする音声認識装置。
  6. 【請求項6】 センサによって話者の存在する位置を検
    出して当該位置データを時系列に出力する話者位置検出
    手段と、音声用マイクロホンと雑音用マイクロホンとの
    音声に対する伝達特性に係る周波数特性の差異を補正す
    るための複数の補正フィルタを記憶する音声補正用補正
    フィルタメモリと、前記話者位置検出手段から出力され
    る話者の位置データに対応する補正フィルタを前記音声
    補正用補正フィルタメモリから選択して当該補正フィル
    タを雑音重畳音声スペクトル補正手段へ時系列に出力す
    る音声補正用補正フィルタ選択手段とを備えることを特
    徴とする請求項5記載の音声認識装置。
  7. 【請求項7】 雑音用マイクロホンから出力される雑音
    パターン信号から雑音パワーレベルを算出し当該雑音パ
    ワーレベルを時系列に出力する雑音パワーレベル演算手
    段と、音声用マイクロホンから出力される雑音重畳音声
    信号と前記雑音用マイクロホンから出力される雑音パタ
    ーン信号とに基づいて音声区間を判定し、音声区間であ
    るか否かの識別信号を時系列に出力する音声区間検出手
    段と、前記雑音パワーレベル演算手段から出力される雑
    音パワーレベルが閾値以下でありかつ前記音声区間検出
    手段から出力される識別信号が音声区間である旨を示し
    ている場合に、補正フィルタの学習を実施することを示
    す識別信号を時系列に出力する補正フィルタ学習決定手
    段と、前記補正フィルタ学習決定手段から出力される識
    別信号が補正フィルタの学習を実施する旨を示している
    場合に、前記雑音重畳音声スペクトル演算手段から出力
    される雑音重畳音声に係るパワースペクトルと前記雑音
    スペクトル演算手段から出力される雑音パターンに係る
    パワースペクトルとに基づいて、話者位置検出手段から
    出力される話者の位置データに対応する補正フィルタを
    学習し当該補正フィルタを出力する補正フィルタ学習手
    段とを備えることを特徴とする請求項5または請求項6
    記載の音声認識装置。
  8. 【請求項8】 雑音用マイクロホンから出力される雑音
    パターン信号から雑音パワーレベルを算出し当該雑音パ
    ワーレベルを時系列に出力する雑音パワーレベル演算手
    段と、音声用マイクロホンから出力される雑音重畳音声
    信号と前記雑音用マイクロホンから出力される雑音パタ
    ーン信号とに基づいて雑音区間を判定し、雑音区間であ
    るか否かの識別信号を時系列に出力する雑音区間検出手
    段と、前記雑音パワーレベル演算手段から出力される雑
    音パワーレベルが閾値以上でありかつ前記雑音区間検出
    手段から出力される識別信号が雑音区間である旨を示し
    ている場合に、雑音スペクトルの学習を実施することを
    示す識別信号を時系列に出力する雑音スペクトル学習決
    定手段と、前記雑音スペクトル学習決定手段から出力さ
    れる識別信号が雑音スペクトルの学習を実施する旨を示
    している場合に、洩れ込み音声除去手段から出力される
    洩れ込み音声を除去した雑音パターンに係るパワースペ
    クトルから、代表的な洩れ込み音声を除去した雑音パタ
    ーンに係るパワースペクトルを学習し当該パワースペク
    トルを出力する第1の雑音スペクトル学習手段と、前記
    雑音スペクトル学習決定手段から出力される識別信号が
    雑音スペクトルの学習を実施する旨を示している場合
    に、雑音重畳音声スペクトル演算手段から出力される雑
    音重畳音声に係るパワースペクトルから、前記第1の雑
    音スペクトル学習手段から出力される代表的な洩れ込み
    音声を除去した雑音パターンに係るパワースペクトルに
    対応する重畳雑音パターンに係るパワースペクトルを学
    習し当該パワースペクトルを出力する第2の雑音スペク
    トル学習手段とを備えることを特徴とする請求項5また
    は請求項6記載の音声認識装置。
  9. 【請求項9】 第1の雑音スペクトル学習手段が、洩れ
    込み音声除去手段から出力される複数の洩れ込み音声を
    除去した雑音パターンに係るパワースペクトルを記憶す
    る第1の雑音スペクトルメモリと、前記第1の雑音スペ
    クトルメモリに記憶される複数の洩れ込み音声を除去し
    た雑音パターンに係るパワースペクトルについて、それ
    ぞれのクラスのセントロイドとなるパワースペクトルと
    当該クラスに含まれる雑音パターンのパワースペクトル
    との間の距離値の総和が最小となるようにクラスタリン
    グを実施し、各クラスのセントロイドを代表的な洩れ込
    み音声を除去した雑音パターンに係るパワースペクトル
    として出力する第1のクラスタリング手段とを備え、 第2の雑音スペクトル学習手段が、前記第1の雑音スペ
    クトルメモリに記憶される複数の洩れ込み音声を除去し
    た雑音パターンに係るパワースペクトルとそれぞれ同一
    分析フレームに出力された複数の重畳雑音パターンに係
    るパワースペクトルを記憶する第2の雑音スペクトルメ
    モリと、前記第2の雑音スペクトルメモリに記憶される
    複数の重畳雑音パターンに係るパワースペクトルに対し
    て前記第1のクラスタリング手段におけるクラスタリン
    グ結果を反映するようにクラスタリングを実施し、各ク
    ラスのセントロイドを代表的な重畳雑音パターンに係る
    パワースペクトルとして出力する第2のクラスタリング
    手段とを備えることを特徴とする請求項8記載の音声認
    識装置。
  10. 【請求項10】 第1の雑音スペクトル学習手段は、洩
    れ込み音声除去手段から出力される洩れ込み音声を除去
    した雑音パターンに係る複数のパワースペクトルを記憶
    する第1の雑音スペクトルメモリと、前記第1の雑音ス
    ペクトルメモリに記憶される洩れ込み音声を除去した雑
    音パターンに係るパワースペクトルからパワースペクト
    ルの概形を表すパラメータを算出し当該パラメータを出
    力するスペクトル概形パラメータ演算手段と、前記第1
    の雑音スペクトルメモリに記憶される洩れ込み音声を除
    去した雑音パターンに係るパワースペクトルからパワー
    スペクトルの強度を表すパラメータを算出し当該パラメ
    ータを出力するスペクトル強度パラメータ演算手段と、
    前記スペクトル概形パラメータ演算手段から出力される
    パワースペクトルの概形を表すパラメータと前記スペク
    トル強度パラメータ演算手段から出力されるパワースペ
    クトルの強度を表すパラメータに重みを掛けて算出する
    距離値を用いて、前記第1の雑音スペクトルメモリに記
    憶される複数の洩れ込み音声を除去した雑音パターンに
    係るパワースペクトルをクラスタリングし、代表的な洩
    れ込み音声を除去した雑音パターンに係るパワースペク
    トルを出力する重み付けクラスタリング手段とを備える
    ことを特徴とした請求項8記載の音声認識装置。
JP2000315546A 2000-02-28 2000-10-16 音声認識装置 Expired - Fee Related JP3933860B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000315546A JP3933860B2 (ja) 2000-02-28 2000-10-16 音声認識装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2000051425 2000-02-28
JP2000-51425 2000-02-28
JP2000315546A JP3933860B2 (ja) 2000-02-28 2000-10-16 音声認識装置

Publications (2)

Publication Number Publication Date
JP2001318687A true JP2001318687A (ja) 2001-11-16
JP3933860B2 JP3933860B2 (ja) 2007-06-20

Family

ID=26586228

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000315546A Expired - Fee Related JP3933860B2 (ja) 2000-02-28 2000-10-16 音声認識装置

Country Status (1)

Country Link
JP (1) JP3933860B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006279757A (ja) * 2005-03-30 2006-10-12 Casio Comput Co Ltd 撮像装置、音声記録方法及びプログラム
JP2007010897A (ja) * 2005-06-29 2007-01-18 Toshiba Corp 音響信号処理方法、装置及びプログラム
JP2008209768A (ja) * 2007-02-27 2008-09-11 Mitsubishi Electric Corp 雑音除去装置
JP2009031425A (ja) * 2007-07-25 2009-02-12 Nec Corp 雑音推定装置と方法およびプログラム
JP2014044313A (ja) * 2012-08-27 2014-03-13 Xacti Corp 雑音低減装置
CN109346067A (zh) * 2018-11-05 2019-02-15 珠海格力电器股份有限公司 语音信息的处理方法及装置、存储介质
CN110931007A (zh) * 2019-12-04 2020-03-27 苏州思必驰信息科技有限公司 语音识别方法及系统
CN111640428A (zh) * 2020-05-29 2020-09-08 北京百度网讯科技有限公司 一种语音识别方法、装置、设备和介质

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006279757A (ja) * 2005-03-30 2006-10-12 Casio Comput Co Ltd 撮像装置、音声記録方法及びプログラム
JP4639902B2 (ja) * 2005-03-30 2011-02-23 カシオ計算機株式会社 撮像装置、音声記録方法及びプログラム
JP2007010897A (ja) * 2005-06-29 2007-01-18 Toshiba Corp 音響信号処理方法、装置及びプログラム
JP2008209768A (ja) * 2007-02-27 2008-09-11 Mitsubishi Electric Corp 雑音除去装置
JP2009031425A (ja) * 2007-07-25 2009-02-12 Nec Corp 雑音推定装置と方法およびプログラム
JP2014044313A (ja) * 2012-08-27 2014-03-13 Xacti Corp 雑音低減装置
CN109346067A (zh) * 2018-11-05 2019-02-15 珠海格力电器股份有限公司 语音信息的处理方法及装置、存储介质
CN109346067B (zh) * 2018-11-05 2021-02-26 珠海格力电器股份有限公司 语音信息的处理方法及装置、存储介质
CN110931007A (zh) * 2019-12-04 2020-03-27 苏州思必驰信息科技有限公司 语音识别方法及系统
CN111640428A (zh) * 2020-05-29 2020-09-08 北京百度网讯科技有限公司 一种语音识别方法、装置、设备和介质
CN111640428B (zh) * 2020-05-29 2023-10-20 阿波罗智联(北京)科技有限公司 一种语音识别方法、装置、设备和介质

Also Published As

Publication number Publication date
JP3933860B2 (ja) 2007-06-20

Similar Documents

Publication Publication Date Title
EP1688921B1 (en) Speech enhancement apparatus and method
EP1638084B1 (en) Method and apparatus for multi-sensory speech enhancement
JP3591068B2 (ja) 音声信号の雑音低減方法
EP0886263B1 (en) Environmentally compensated speech processing
JP4244514B2 (ja) 音声認識方法および音声認識装置
JP4496186B2 (ja) 音源分離装置、音源分離プログラム及び音源分離方法
JP4753821B2 (ja) 音信号補正方法、音信号補正装置及びコンピュータプログラム
EP0686965B1 (en) Speech recognition apparatus with speaker adaptation using acoustic category mean value calculus
JP4568733B2 (ja) 雑音抑圧装置、雑音抑圧方法、雑音抑圧プログラムおよびコンピュータに読み取り可能な記録媒体
SE505156C2 (sv) Förfarande för bullerundertryckning genom spektral subtraktion
US20110238417A1 (en) Speech detection apparatus
EP3276621B1 (en) Noise suppression device and noise suppressing method
EP0970462A1 (en) Recognition system
US20020128830A1 (en) Method and apparatus for suppressing noise components contained in speech signal
JP2000330597A (ja) 雑音抑圧装置
JP2001318687A (ja) 音声認識装置
US11622208B2 (en) Apparatus and method for own voice suppression
JP2002236497A (ja) ノイズリダクションシステム
JPH06289891A (ja) 音声認識装置
JP7152112B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
JP2000010593A (ja) スペクトル雑音除去装置
WO2023228785A1 (ja) 音響信号処理装置、音響信号処理方法及びプログラム
JP2000259198A (ja) パターン認識装置および方法、並びに提供媒体
JP4242320B2 (ja) 音声認識方法、その装置およびプログラム、その記録媒体
KR20040073145A (ko) 음성인식기의 성능 향상 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041008

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060829

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060912

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070314

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 3933860

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100330

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110330

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110330

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120330

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130330

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130330

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140330

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees