JP2000163099A

JP2000163099A - 雑音除去装置、音声認識装置および記憶媒体

Info

Publication number: JP2000163099A
Application number: JP10334286A
Authority: JP
Inventors: Nobukimi Kobayashi; 宣公小林
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 1998-11-25
Filing date: 1998-11-25
Publication date: 2000-06-16

Abstract

(57)【要約】【課題】正確な雑音除去を行う雑音除去装置および認
識精度の高い音声認識装置を実現する。【解決手段】入力信号の短時間信号を切り出し（Ｓ１
２）、その短時間信号の周波数スペクトルを演算し（Ｓ
１４）、非音声区間であり（Ｓ１６：Ｎｏ）、定常雑音
である場合は（Ｓ１８：Ｙｅｓ）、その定常雑音の雑音
スペクトルを推定し（Ｓ２０）、音声が入力され、音声
区間と判定されると（Ｓ１６：Ｙｅｓ）、その音声区間
の入力信号の周波数スペクトルからＳ２０で推定した雑
音スペクトルを減算して雑音補正を行い（Ｓ２２）、そ
の補正された入力信号に基づいて音声認識を行う（Ｓ２
４）。このように、定常雑音のみに基づいて雑音スペク
トルを推定するため、正確な雑音除去を行うことがで
き、その雑音除去された入力信号に基づいて音声認識す
るため認識精度を高めることができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声に含まれる雑
音を除去する雑音除去装置、この雑音除去装置によって
雑音が除去された音声を認識する音声認識装置、および
その雑音除去をコンピュータに実行させるためのコンピ
ュータプログラムが記憶された記憶媒体に関する。

【０００２】

【従来の技術】従来、音声認識の対象となる入力信号に
雑音が含まれていると認識率が低下するため、スペクト
ルサブトラクション法などの雑音除去技術を用いて雑音
を除去する手法が提案されている。スペクトルサブトラ
クション法は、音声入力前の入力信号から推定した雑音
の周波数スペクトルを音声の周波数スペクトルから減算
する手法である。図８は、その手法を用いて雑音を除去
する過程を示す説明図であり、図８（ａ）は、音声入力
時の雑音スペクトルを示す説明図であり、図８（ｂ）
は、雑音推定時の雑音スペクトルを示す説明図であり、
図８（ｃ）は、雑音除去を行う前の入力信号のスペクト
ルを示す説明図であり、図８（ｄ）は、雑音除去を行っ
た後の入力信号のスペクトルを示す説明図であり、図８
（ｅ）は、真の入力音声のスペクトルを示す説明図であ
る。

【０００３】図８に示すように、雑音推定時に突発的な
雑音のような非定常雑音が発生すると、音声入力時の雑
音スペクトル（図８（ａ））と、雑音推定時の雑音スペ
クトル（図８（ｂ））とが大きく異なる。このような場
合にスペクトルサブトラクションすると、図８（ｄ）に
示すように、図８（ｅ）に示す真の入力音声のスペクト
ルとは大きく異なったものになってしまう。むしろ、図
８（ｃ）に示す雑音除去を行う前の入力信号のスペクト
ルの方が、図８（ｅ）に示す真の入力音声のスペクトル
に近いという結果になる。つまり、音声入力時の雑音ス
ペクトル（図８（ａ））と、雑音推定時の雑音スペクト
ル（図８（ｂ））とが大きく異なる場合は、スペクトル
サブトラクションを行うと、入力信号のスペクトルは、
真の入力音声のスペクトルとは大きく異なったものにな
るため、そのスペクトルに基づいて音声認識を行うと認
識率が低下するという問題があった。

【０００４】そこで、そのような事態をなくして認識率
を高めるために、たとえば、図６および図７に示す音声
認識装置が提案されている（特開平４−２３８３９９号
公報）。図６は、従来の音声認識装置の構成をブロック
で示す説明図であり、図７は、図６に示す音声認識装置
の処理の流れを示すフローチャートである。まず、従来
の音声認識装置の構成について図６を参照して説明す
る。音響入力部７０は、音を電気信号に変換し、周波数
スペクトル検出部７１は、上記電気信号の短時間周波数
スペクトルを検出する。区間検出部７２は、音声入力中
であるか否かを検出し、定常／非定常判定部７３は、区
間検出部７２で検出された音声入力中でない区間の入力
信号を用いて、周囲の雑音が定常であるか非定常である
かを判定する。雑音スペクトル推定部７４は、区間検出
部７２で検出された音声入力中でない区間の短時間周波
数スペクトルを用いて、周囲の雑音の周波数スペクトル
を推定し、雑音補正部７５は、音声入力中である場合に
おいて、定常／非定常判定部７３で周囲の雑音が定常で
あると判定された場合にのみ、入力音声の周波数スペク
トルから雑音スペクトル推定部７４で推定された雑音ス
ペクトルを減算することにより、入力信号から雑音成分
を除去する。音声認識部７６は、雑音補正部７５の出力
信号を用いて音声認識を行う。

【０００５】次に、図６に示す音声認識装置の処理の流
れについて図７を参照して説明する。まず、音響入力部
７０が音響信号を入力すると（ステップ（以下、Ｓと称
する）５０）、周波数スペクトル検出部７１が上記音響
信号の周波数スペクトルを検出する（Ｓ５１）。続い
て、区間検出部７２が音声入力中であるか否かを判定し
（Ｓ５２）、音声入力中でないと判定した場合は（Ｓ５
２：Ｎｏ）、雑音スペクトル推定部７４が、音声入力中
でない区間の短時間周波数スペクトルを用いて周囲の雑
音の周波数スペクトルを推定する（Ｓ５３）。また、区
間検出部７２が音声入力中であると判定した場合は（Ｓ
５２：Ｙｅｓ）、定常／非定常判定部７３が、Ｓ５３に
おける音声入力中でない区間の短時間周波数スペクトル
を用いて周囲の雑音が定常雑音であるか否かを判定する
（Ｓ５４）。そして、定常雑音であると判定された場合
は（Ｓ５４：Ｙｅｓ）、雑音補正部７５が、入力音声の
周波数スペクトルから雑音スペクトル推定部７４で推定
された雑音スペクトルを減算することにより、入力信号
の雑音補正を行う。また、定常雑音ではない、つまり非
定常であると判定された場合は（Ｓ５４：Ｎｏ）、雑音
補正を行わないで、入力音声の周波数スペクトルをその
まま用いて音声認識を行う（Ｓ５６）。

【０００６】

【発明が解決しようとする課題】しかし、上述のよう
に、上記従来の音声認識装置は、周囲の雑音が非定常雑
音であると判定された場合には雑音補正を行わないこと
から、雑音成分を含んだ入力音声に基づいて音声認識を
行うため、認識結果が低下するという問題がある。ま
た、音声入力中でない区間では、周囲の雑音が定常か非
定常かに関係なく、雑音の周波数スペクトルを推定する
ため、雑音の周波数スペクトルを正確に推定することが
できないという問題もある。

【０００７】そこで、本発明は、雑音の周波数スペクト
ルを正確に推定することにより、正確な雑音除去を行う
ことができる雑音除去装置、この雑音除去装置を用いる
ことにより音声認識の精度を高めることができる音声認
識装置、および上記雑音除去をコンピュータに実行させ
るためのコンピュータプログラムが記憶された記憶媒体
を実現することを目的とする。

【０００８】

【課題を解決するための手段】本発明は、上記目的を達
成するため、請求項１に記載の発明では、音声が入力さ
れる前の非音声信号と、音声信号とを有する入力信号を
所定の時間ごとの短時間信号に切り出す切出手段と、こ
の切出手段によって切り出された短時間信号ごとの周波
数スペクトルを求める時間軸／周波数軸変換手段と、前
記切出手段によって切り出された短時間信号のうち、前
記非音声信号の短時間信号が定常か非定常であるかを、
前記時間軸／周波数軸変換手段によって求められた周波
数スペクトルに基づいて判定する判定手段と、この判定
手段によって定常と判定された短時間信号の周波数スペ
クトルを用いて前記音声信号に含まれる雑音スペクトル
を推定する推定手段と、前記時間軸／周波数軸変換手段
によって求められた前記音声信号の周波数スペクトルか
ら、前記推定手段によって推定された雑音スペクトルを
減算する減算手段と、が備えられた雑音除去装置という
技術的手段を採用する。

【０００９】請求項２に記載の発明では、音声が入力さ
れる前の非音声信号と、音声信号とを有する入力信号を
所定の時間ごとの短時間信号に切り出す切出手段と、こ
の切出手段によって切り出された短時間信号ごとの周波
数スペクトルを求める時間軸／周波数軸変換手段と、前
記切出手段によって切り出された短時間信号のうち、前
記非音声信号の短時間信号が定常か非定常であるかを、
前記時間軸／周波数軸変換手段によって求められた周波
数スペクトルに基づいて判定する判定手段と、この判定
手段によって定常と判定された短時間信号の周波数スペ
クトルを用いて前記音声信号に含まれる雑音スペクトル
を推定する推定手段と、前記時間軸／周波数軸変換手段
によって求められた前記音声信号の周波数スペクトルか
ら、前記推定手段によって推定された雑音スペクトルを
減算する減算手段と、この減算手段によって雑音スペク
トルが減算された周波数スペクトルを用いて音声認識を
する音声認識手段と、が備えられた音声認識装置という
技術的手段を採用する。

【００１０】請求項３に記載の発明では、音声が入力さ
れる前の非音声信号と、音声信号とを有する入力信号を
所定の時間ごとの短時間信号に切り出す切出手段と、こ
の切出手段によって切り出された短時間信号ごとの周波
数スペクトルを求める時間軸／周波数軸変換手段と、前
記切出手段によって切り出された短時間信号のうち、前
記非音声信号の短時間信号が定常か非定常であるかを、
前記時間軸／周波数軸変換手段によって求められた周波
数スペクトルに基づいて判定する判定手段と、この判定
手段によって定常と判定された短時間信号の周波数スペ
クトルを用いて前記音声信号に含まれる雑音スペクトル
を推定する推定手段と、前記時間軸／周波数軸変換手段
によって求められた前記音声信号の周波数スペクトルか
ら、前記推定手段によって推定された雑音スペクトルを
減算する減算手段と、この減算手段によって雑音スペク
トルが減算された周波数スペクトルから短時間信号を求
める周波数軸／時間軸変換手段と、この周波数軸／時間
軸変換手段によって求められた短時間信号を用いて音声
認識をする音声認識手段と、が備えられたという技術的
手段を採用する。

【００１１】請求項４に記載の発明では、音声が入力さ
れる前の非音声信号と、音声信号とを有する入力信号を
所定の時間ごとの短時間信号に切り出す切出処理と、こ
の切出処理によって切り出された短時間信号ごとの周波
数スペクトルを求める時間軸／周波数軸変換処理と、前
記切出処理によって切り出された短時間信号のうち、前
記非音声信号の短時間信号が定常か非定常であるかを、
前記時間軸／周波数軸変換処理によって求められた周波
数スペクトルに基づいて判定する判定処理と、この判定
処理によって定常と判定された短時間信号の周波数スペ
クトルを用いて前記音声信号に含まれる雑音スペクトル
を推定する推定処理と、前記時間軸／周波数軸変換処理
によって求められた前記音声信号の周波数スペクトルか
ら、前記推定処理によって推定された雑音スペクトルを
減算する減算処理と、をコンピュータに実行させるため
の雑音除去プログラムを含むコンピュータプログラムが
記憶された記憶媒体という技術的手段を採用する。

【００１２】

【作用】請求項１ないし請求項４に記載の発明では、切
出手段（切出処理）は、音声が入力される前の非音声信
号と、音声信号とを有する入力信号を所定の時間ごとの
短時間信号に切り出し、時間軸／周波数軸変換手段は、
切出手段（切出処理）によって切り出された短時間信号
ごとの周波数スペクトルを求め、判定手段（判定処理）
は、切出手段（切出処理）によって切り出された短時間
信号のうち、非音声信号の短時間信号が定常か非定常で
あるかを、時間軸／周波数軸変換手段（時間軸／周波数
軸変換処理）によって求められた周波数スペクトルに基
づいて判定する。そして、推定手段（推定処理）は、判
定手段（判定処理）によって定常と判定された短時間信
号の周波数スペクトルを用いて音声信号に含まれる雑音
スペクトルを推定し、減算手段（減算処理）は、時間軸
／周波数軸変換手段（時間軸／周波数軸変換処理）によ
って求められた音声信号の周波数スペクトルから、推定
手段（推定処理）によって推定された雑音スペクトルを
減算する。つまり、判定手段（判定処理）が、短時間信
号のうち、非音声信号の短時間信号が定常か非定常であ
るかを判定し、推定手段（推定処理）は、定常と判定さ
れた短時間信号の周波数スペクトルを用いて音声信号に
含まれる雑音スペクトルを推定する。したがって、定常
と判定された短時間信号の周波数スペクトルのみを用い
て雑音スペクトルを推定することから、正確な雑音スペ
クトルを得ることができるため、正確な雑音除去を行う
ことができる雑音除去装置を実現できる。

【００１３】また、請求項２に記載の発明では、音声認
識手段は、上述の減算手段によって正確に雑音スペクト
ルが減算された周波数スペクトルを用いて音声認識をす
る。つまり、正確に雑音スペクトルの減算が行われた周
波数スペクトルを用いて音声認識を行うことができるた
め、認識率の高い音声認識装置を実現することができ
る。

【００１４】さらに、請求項３に記載の発明では、周波
数軸／時間軸変換手段は、上述の減算手段によって雑音
スペクトルが減算された周波数スペクトルから短時間信
号を求め、音声認識手段は、周波数軸／時間軸変換手段
によって求められた短時間信号を用いて音声認識をす
る。つまり、正確に雑音スペクトルが減算された周波数
スペクトルから短時間信号を求め、その短時間信号を用
いて音声認識を行うため、認識率の高い音声認識装置を
実現することができる。また、上記短時間信号を表示装
置へ出力することにより、雑音成分が除去された入力信
号の波形を見ることが可能である。

【００１５】そして、請求項４に記載の発明では、音声
が入力される前の非音声信号と、音声信号とを有する入
力信号を所定の時間ごとの短時間信号に切り出す切出処
理と、この切出処理によって切り出された短時間信号ご
との周波数スペクトルを求める時間軸／周波数軸変換処
理と、切出処理によって切り出された短時間信号のう
ち、非音声信号の短時間信号が定常か非定常であるか
を、時間軸／周波数軸変換処理によって求められた周波
数スペクトルに基づいて判定する判定処理と、この判定
処理によって定常と判定された短時間信号の周波数スペ
クトルを用いて音声信号に含まれる雑音スペクトルを推
定する推定処理と、時間軸／周波数軸変換処理によって
求められた音声信号の周波数スペクトルから、推定処理
によって推定された雑音スペクトルを減算する減算処理
と、をコンピュータに実行させるための雑音除去プログ
ラムを含むコンピュータプログラムが記憶された記憶媒
体という構成であるため、その記憶媒体を用いることに
より、上記請求項１に記載の雑音除去装置を実現でき
る。つまり、本発明の雑音除去装置は、たとえば、後述
する発明の実施の形態に記載するように、装置に内蔵さ
れたＣＰＵによって機能するため、上記記憶媒体として
のハードディスクドライブ（以下、ＨＤＤと略称する）
やＲＯＭなどを装置に設け、あるいは、上記記憶媒体に
記憶されているコンピュータプログラムをＨＤＤにイン
ストールすることにより、ＣＰＵが上記雑音除去プログ
ラムを実行可能となるからである。

【００１６】

【発明の実施の形態】以下、本発明の雑音除去装置、音
声認識装置および記憶媒体の一実施形態について図１な
いし図３を参照して説明する。図１は、本発明第１実施
形態の音声認識装置の主要構成をブロックで示す説明図
であり、図２は、図１に示す音声認識装置の主な機能を
ブロックで示す説明図であり、図３は、図１に示す音声
認識装置に備えられたＣＰＵが雑音除去および音声認識
を行うために実行する処理の流れを示すフローチャート
である。

【００１７】図１に示すように、本実施形態の音声認識
装置１０には、上記処理を実行するＣＰＵ２０と、本装
置を立ち上げるための基本ソフトなどが記憶されたＲＯ
Ｍ１２と、ＣＰＵが実行するプログラムなどが記憶され
たＨＤＤ１３と、ＨＤＤ１３から読出されたプログラ
ム、演算結果、認識結果などを一時的に記憶するＲＡＭ
１１と、ＣＰＵ２０にプログラムを実行させるコマンド
などを入力するキーボード１４と、入力された音声を電
気信号に変換するマイクロフォン１５と、音声認識結果
などを表示するディスプレイ１６とが備えられている。

【００１８】次に、音声認識装置１０の主な機能につい
て図２を参照して説明する。フレーム切出部２１は、マ
イクロフォン１５によって電気信号に変換された入力信
号から、音声の特徴量を分析するための区間を切り出
す。その切り出しは、たとえば窓関数などを用いて行
い、１つ前のフレームの先頭から次のフレームの先頭ま
でが１０ｍｓｅｃとなるように２０〜３０ｍｓｅｃの時
間長の短時間信号（フレーム信号）を切り出して行く。
周波数スペクトル演算部２２は、バンドパスフィルタ
群、または、ＦＦＴなどを用いて、フレーム切出部２１
で得られた短時間信号の周波数スペクトルを演算する。
音声区間検出部２３は、音声入力中ではない非音声区間
および音声入力中である音声区間を検出するものであ
り、フレーム切出部２１で得られたフレーム信号から短
時間パワー（フレームパワー）を求め、この短時間パワ
ーと、予め設定されている音声区間検出用しきい値とを
比較し、その音声区間検出用しきい値を超える短時間パ
ワーが一定時間継続した場合に、その区間を音声区間と
して検出する。なお、マイクロフォン１５にＯＮ／ＯＦ
Ｆスイッチを設けておき、そのＯＮ／ＯＦＦスイッチを
ＯＮさせている間を音声区間として検出することもでき
る。

【００１９】定常／非定常判定部２４は、非音声区間の
周囲の雑音が、定常雑音および非定常雑音のいずれであ
るかを各短時間信号ごとに判定する。たとえば、周波数
スペクトル演算部２２が、非音声区間の短時間信号に対
して演算した周波数スペクトルを用いて、その短時間信
号における各周波数帯域ごとの変化分（１つ前の短時間
信号の短時間スペクトルとの差）を求め、それら変化分
の絶対値の総和を演算し、その演算値が予め設定されて
いるしきい値を超えた場合に、その短時間信号の周囲の
雑音は、非定常雑音であると判定する方法を用いる。こ
のように、各短時間信号ごとに周波数スペクトルの全帯
域の変化分を用いて各短時間信号ごとに定常か非定常か
を判定するため、様々な種類（周波数）の雑音に対して
定常／非定常を判定することができる。なお、非音声区
間の入力信号の各短時間信号のパワーが、そのパワーの
平均値および分散値などから求めたしきい値を超えた場
合は、その短時間信号は非定常雑音であると判定する方
法を用いることもできる。

【００２０】雑音スペクトル推定部２５は、定常／非定
常判定部２４で定常と判定された短時間信号の周波数ス
ペクトルを用いて、各帯域ごとに周波数スペクトルの所
定時間、あるいは、音声区間が検出されるまでの平均値
を演算し、その平均値に基づいて周囲の雑音の周波数ス
ペクトルを推定する。雑音補正部２６は、音声区間の入
力信号から雑音成分を除去するものであり、各帯域ごと
に入力信号の周波数スペクトルから、雑音スペクトル推
定部２５で推定された雑音の周波数スペクトルを減算す
ることにより入力信号を補正する。音声認識部２７は、
雑音補正部２６によって補正された入力信号に基づいて
音声認識を行う。音声認識の手法としては、たとえば、
マルコフモデル、動的計画法などの公知の手法を用い
る。出力部２８は、音声認識部２７による認識結果をデ
ィスプレイ１６（図１）に出力する。

【００２１】次に、上記構成の音声認識装置１０の処理
の流れについて、それを示す図３のフローチャートを参
照して説明する。マイクロフォン１５から信号が入力さ
れると（Ｓ１０）、フレーム切出部２１は、その入力信
号の短時間信号をフレーム単位で切り出し（Ｓ１２）、
周波数スペクトル演算部２２は、切り出された短時間信
号の周波数スペクトルを演算する（Ｓ１４）。続いて、
音声区間検出部２３は、音声区間であるか非音声区間で
あるかを判定し（Ｓ１６）、非音声区間であると判定す
ると（Ｓ１６：Ｎｏ）、定常／非定常判定部２４が、周
波数スペクトル演算部２２によって演算された周波数ス
ペクトルに基づいて定常雑音であるか非定常雑音である
かを判定し（Ｓ１８）、定常雑音であると判定すると
（Ｓ１８：Ｙｅｓ）、雑音スペクトル推定部２５が、雑
音スペクトルを推定する（Ｓ２０）。また、定常／非定
常判定部２４が、非定常雑音であると判定した場合は
（Ｓ１８：Ｎｏ）、雑音スペクトルの推定を行わない。

【００２２】このように、音声区間検出部２３が音声区
間であると判定するまで上記Ｓ１０〜Ｓ２０を繰り返
し、雑音スペクトルの推定を続ける。そして、マイクロ
フォン１５から音声が入力され、音声区間検出部２３が
音声区間であると判定すると（Ｓ１６：Ｙｅｓ）、雑音
補正部２６が、入力信号の周波数スペクトルから、Ｓ２
０で推定された雑音スペクトルを減算する雑音補正を行
う（Ｓ２２）。続いて、音声認識部２７が、上記雑音補
正された入力信号に基づいて音声認識を行い（Ｓ２
４）、出力部２８が認識結果をディスプレイ１６へ出力
する（Ｓ２６）。

【００２３】以上のように、本実施形態の音声認識装置
１０を使用すれば、定常雑音と判定されたフレームの周
波数スペクトルに基づいてのみ雑音スペクトルを推定
し、その雑音スペクトルを用いて雑音補正を行うことが
できるため、正確な雑音補正を行うことができる。そし
て、その雑音補正された入力信号に基づいて音声認識を
行うため、音声認識の精度を高めることができる。よっ
て、周囲に非定常雑音が発声した場合であっても、雑音
補正を行うことができるため、音声認識の精度を高める
ことができる。

【００２４】次に、本発明第２実施形態の音声認識装置
について図４を参照して説明する。図４は、本第２実施
形態の音声認識装置の主な機能をブロックで示す説明図
である。本第２実施形態の音声認識装置は、図２に示し
たような音声区間検出部２３を省略できることを特徴と
する。音声認識装置３０では、まず、音声を入力する前
の無音信号をマイクロフォン１５へ入力し、フレーム切
出部２１によって無音信号から短時間信号を切り出し、
周波数スペクトル演算部２２によって短時間信号の周波
数スペクトルを演算する。続いて、定常／非定常判定部
２４が、その演算された周波数スペクトルに基づいて雑
音が定常か非定常かを判定し、定常と判定された場合
に、雑音スペクトル推定部２５が雑音スペクトルを推定
し、その雑音スペクトルを一時的にＲＡＭ１１（図１）
などに保存しておく。

【００２５】そして、マイクロフォン１５から音声が入
力されると、フレーム切出部２１が音声信号から短時間
信号を切り出し、周波数スペクトル演算部２２が短時間
信号の周波数スペクトルを演算し、雑音補正部２６が、
ＲＡＭ１１などに保存されている雑音スペクトルを読出
し、その読出した雑音スペクトルを上記演算された周波
数スペクトルから減算することにより雑音補正を行う。
そして、音声認識部２７が、雑音補正部２６により補正
された音声信号に基づいて音声認識を行い、出力部２８
が認識結果をディスプレイ１６へ出力する。以上のよう
に、本第２実施形態の音声認識装置３０を使用すれば、
音声を入力する前に無音信号を入力し、その無音信号の
雑音スペクトルを予め求めておくことにより、音声区間
検出部を設ける必要がなくなるため、その分、ＣＰＵの
負担を軽減することができる。

【００２６】次に、本発明第３実施形態の音声認識装置
について図５を参照して説明する。図５は、本第３実施
形態の音声認識装置の主な機能をブロックで示す説明図
である。本第３実施形態の音声認識装置は、雑音補正さ
れた入力信号の波形を見ることができることを特徴とす
る。なお、マイクロフォン１５から雑音補正部２６まで
の処理は、前述の第１実施形態の音声認識装置１０と同
じであるため、それらの説明を省略する。音声認識装置
４０は、短時間信号演算部３２を備えており、短時間信
号演算部３２は、雑音補正部２６によって雑音補正され
た周波数スペクトルを周波数／時間軸変換することによ
り短時間信号を演算する。音声認識部２７は、短時間信
号演算部３２によって演算された短時間信号に基づいて
音声認識を行い、出力部２８は、認識結果をディスプレ
イ１６へ出力する。また、出力部２８は、短時間信号演
算部３２によって演算された短時間信号をディスプレイ
１６へ出力するため、雑音補正された入力信号の波形を
ディスプレイ１６に表示することができる。

【００２７】以上のように、本第３実施形態の音声認識
装置４０を使用すれば、雑音補正された入力信号の波形
をディスプレイ１６に表示して見ることができるため、
たとえば、入力信号波形と認識結果との関係を調べるこ
とができる。

【００２８】ところで、図２に示す音声認識装置１０、
または、図４に示す音声認識装置３０が、請求項２に記
載の音声認識装置として機能する。また、マイクロフォ
ン１５、フレーム切出部２１、周波数スペクトル演算部
２２、定常／非定常判定部２４、雑音スペクトル推定部
２５および雑音補正部２６が、請求項１に記載の雑音除
去装置として機能する。さらに、図５に示す音声認識装
置４０が、請求項３に記載の音声認識装置として機能す
る。そして、ＣＰＵ２０が実行する図３のＳ１２が、本
発明の切出手段として機能し、Ｓ１４が時間軸／周波数
軸変換手段として機能し、Ｓ１６およびＳ１８が判定手
段として機能し、Ｓ２０が推定手段として機能し、Ｓ２
２が減算手段として機能し、Ｓ２４が音声認識手段とし
て機能する。

【００２９】

【発明の効果】以上のように、請求項１ないし請求項４
に記載の発明によれば、定常と判定された短時間信号の
周波数スペクトルを用いて音声信号に含まれる雑音スペ
クトルを推定し、その推定された雑音スペクトルを音声
信号の周波数スペクトルから減算する構成であるため、
正確な雑音除去を行うことができる雑音除去装置を実現
できる。

【００３０】また、請求項２に記載の発明によれば、上
述の減算手段によって正確に雑音スペクトルが減算され
た周波数スペクトルを用いて音声認識をする構成である
ため、認識率の高い音声認識装置を実現することができ
る。

【００３１】さらに、請求項３に記載の発明によれば、
上述の減算手段によって正確に雑音スペクトルが減算さ
れた周波数スペクトルから短時間信号を求め、その短時
間信号を用いて音声認識をする構成であるため、認識率
の高い音声認識装置を実現することができる。また、短
時間信号を表示装置などに出力することにより、音声認
識の対象となる入力信号の波形を見ることができる。

【図面の簡単な説明】

【図１】本発明第１実施形態の音声認識装置の主要構成
をブロックで示す説明図である。

【図２】図１に示す音声認識装置の主な機能をブロック
で示す説明図である。

【図３】図１に示す音声認識装置に備えられたＣＰＵが
雑音除去および音声認識を行うために実行する処理の流
れを示すフローチャートである。

【図４】本発明第２実施形態の音声認識装置の主な機能
をブロックで示す説明図である。

【図５】本発明第３実施形態の音声認識装置の主な機能
をブロックで示す説明図である。

【図６】従来の音声認識装置の構成をブロックで示す説
明図である。

【図７】図６に示す音声認識装置の処理の流れを示すフ
ローチャートである。

【図８】図８（ａ）は、音声入力時の雑音スペクトルを
示す説明図であり、図８（ｂ）は、雑音推定時の雑音ス
ペクトルを示す説明図であり、図８（ｃ）は、雑音除去
を行う前の入力信号のスペクトルを示す説明図であり、
図８（ｄ）は、雑音除去を行った後の入力信号のスペク
トルを示す説明図であり、図８（ｅ）は、真の入力音声
のスペクトルを示す説明図である。

【符号の説明】

１０音声認識装置１５マイクロフォン２０ＣＰＵ２１フレーム切出部（切出手段）２２周波数スペクトル演算部（時間軸／周波数軸変
換手段）２４定常／非定常判定部（判定手段）２５雑音スペクトル推定部（推定手段）２６雑音補正部（減算手段）２７音声認識部（音声認識手段）３２短時間信号演算部（周波数軸／時間軸変換手
段）

Claims

【特許請求の範囲】

【請求項１】音声が入力される前の非音声信号と、音
声信号とを有する入力信号を所定の時間ごとの短時間信
号に切り出す切出手段と、この切出手段によって切り出された短時間信号ごとの周
波数スペクトルを求める時間軸／周波数軸変換手段と、前記切出手段によって切り出された短時間信号のうち、
前記非音声信号の短時間信号が定常か非定常であるか
を、前記時間軸／周波数軸変換手段によって求められた
周波数スペクトルに基づいて判定する判定手段と、この判定手段によって定常と判定された短時間信号の周
波数スペクトルを用いて前記音声信号に含まれる雑音ス
ペクトルを推定する推定手段と、前記時間軸／周波数軸変換手段によって求められた前記
音声信号の周波数スペクトルから、前記推定手段によっ
て推定された雑音スペクトルを減算する減算手段と、が備えられたことを特徴とする雑音除去装置。
【請求項２】音声が入力される前の非音声信号と、音
声信号とを有する入力信号を所定の時間ごとの短時間信
号に切り出す切出手段と、この切出手段によって切り出された短時間信号ごとの周
波数スペクトルを求める時間軸／周波数軸変換手段と、前記切出手段によって切り出された短時間信号のうち、
前記非音声信号の短時間信号が定常か非定常であるか
を、前記時間軸／周波数軸変換手段によって求められた
周波数スペクトルに基づいて判定する判定手段と、この判定手段によって定常と判定された短時間信号の周
波数スペクトルを用いて前記音声信号に含まれる雑音ス
ペクトルを推定する推定手段と、前記時間軸／周波数軸変換手段によって求められた前記
音声信号の周波数スペクトルから、前記推定手段によっ
て推定された雑音スペクトルを減算する減算手段と、この減算手段によって雑音スペクトルが減算された周波
数スペクトルを用いて音声認識をする音声認識手段と、が備えられたことを特徴とする音声認識装置。
【請求項３】音声が入力される前の非音声信号と、音
声信号とを有する入力信号を所定の時間ごとの短時間信
号に切り出す切出手段と、この切出手段によって切り出された短時間信号ごとの周
波数スペクトルを求める時間軸／周波数軸変換手段と、前記切出手段によって切り出された短時間信号のうち、
前記非音声信号の短時間信号が定常か非定常であるか
を、前記時間軸／周波数軸変換手段によって求められた
周波数スペクトルに基づいて判定する判定手段と、この判定手段によって定常と判定された短時間信号の周
波数スペクトルを用いて前記音声信号に含まれる雑音ス
ペクトルを推定する推定手段と、前記時間軸／周波数軸変換手段によって求められた前記
音声信号の周波数スペクトルから、前記推定手段によっ
て推定された雑音スペクトルを減算する減算手段と、この減算手段によって雑音スペクトルが減算された周波
数スペクトルから短時間信号を求める周波数軸／時間軸
変換手段と、この周波数軸／時間軸変換手段によって求められた短時
間信号を用いて音声認識をする音声認識手段と、が備えられたことを特徴とする音声認識装置。
【請求項４】音声が入力される前の非音声信号と、音
声信号とを有する入力信号を所定の時間ごとの短時間信
号に切り出す切出処理と、この切出処理によって切り出された短時間信号ごとの周
波数スペクトルを求める時間軸／周波数軸変換処理と、前記切出処理によって切り出された短時間信号のうち、
前記非音声信号の短時間信号が定常か非定常であるか
を、前記時間軸／周波数軸変換処理によって求められた
周波数スペクトルに基づいて判定する判定処理と、この判定処理によって定常と判定された短時間信号の周
波数スペクトルを用いて前記音声信号に含まれる雑音ス
ペクトルを推定する推定処理と、前記時間軸／周波数軸変換処理によって求められた前記
音声信号の周波数スペクトルから、前記推定処理によっ
て推定された雑音スペクトルを減算する減算処理と、を
コンピュータに実行させるための雑音除去プログラムを
含むコンピュータプログラムが記憶された記憶媒体。