JP2000163099A - 雑音除去装置、音声認識装置および記憶媒体 - Google Patents

雑音除去装置、音声認識装置および記憶媒体

Info

Publication number
JP2000163099A
JP2000163099A JP10334286A JP33428698A JP2000163099A JP 2000163099 A JP2000163099 A JP 2000163099A JP 10334286 A JP10334286 A JP 10334286A JP 33428698 A JP33428698 A JP 33428698A JP 2000163099 A JP2000163099 A JP 2000163099A
Authority
JP
Japan
Prior art keywords
signal
time
noise
short
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10334286A
Other languages
English (en)
Inventor
Nobukimi Kobayashi
宣公 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP10334286A priority Critical patent/JP2000163099A/ja
Publication of JP2000163099A publication Critical patent/JP2000163099A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 正確な雑音除去を行う雑音除去装置および認
識精度の高い音声認識装置を実現する。 【解決手段】 入力信号の短時間信号を切り出し(S1
2)、その短時間信号の周波数スペクトルを演算し(S
14)、非音声区間であり(S16:No)、定常雑音
である場合は(S18:Yes)、その定常雑音の雑音
スペクトルを推定し(S20)、音声が入力され、音声
区間と判定されると(S16:Yes)、その音声区間
の入力信号の周波数スペクトルからS20で推定した雑
音スペクトルを減算して雑音補正を行い(S22)、そ
の補正された入力信号に基づいて音声認識を行う(S2
4)。このように、定常雑音のみに基づいて雑音スペク
トルを推定するため、正確な雑音除去を行うことがで
き、その雑音除去された入力信号に基づいて音声認識す
るため認識精度を高めることができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声に含まれる雑
音を除去する雑音除去装置、この雑音除去装置によって
雑音が除去された音声を認識する音声認識装置、および
その雑音除去をコンピュータに実行させるためのコンピ
ュータプログラムが記憶された記憶媒体に関する。
【0002】
【従来の技術】従来、音声認識の対象となる入力信号に
雑音が含まれていると認識率が低下するため、スペクト
ルサブトラクション法などの雑音除去技術を用いて雑音
を除去する手法が提案されている。スペクトルサブトラ
クション法は、音声入力前の入力信号から推定した雑音
の周波数スペクトルを音声の周波数スペクトルから減算
する手法である。図8は、その手法を用いて雑音を除去
する過程を示す説明図であり、図8(a)は、音声入力
時の雑音スペクトルを示す説明図であり、図8(b)
は、雑音推定時の雑音スペクトルを示す説明図であり、
図8(c)は、雑音除去を行う前の入力信号のスペクト
ルを示す説明図であり、図8(d)は、雑音除去を行っ
た後の入力信号のスペクトルを示す説明図であり、図8
(e)は、真の入力音声のスペクトルを示す説明図であ
る。
【0003】図8に示すように、雑音推定時に突発的な
雑音のような非定常雑音が発生すると、音声入力時の雑
音スペクトル(図8(a))と、雑音推定時の雑音スペ
クトル(図8(b))とが大きく異なる。このような場
合にスペクトルサブトラクションすると、図8(d)に
示すように、図8(e)に示す真の入力音声のスペクト
ルとは大きく異なったものになってしまう。むしろ、図
8(c)に示す雑音除去を行う前の入力信号のスペクト
ルの方が、図8(e)に示す真の入力音声のスペクトル
に近いという結果になる。つまり、音声入力時の雑音ス
ペクトル(図8(a))と、雑音推定時の雑音スペクト
ル(図8(b))とが大きく異なる場合は、スペクトル
サブトラクションを行うと、入力信号のスペクトルは、
真の入力音声のスペクトルとは大きく異なったものにな
るため、そのスペクトルに基づいて音声認識を行うと認
識率が低下するという問題があった。
【0004】そこで、そのような事態をなくして認識率
を高めるために、たとえば、図6および図7に示す音声
認識装置が提案されている(特開平4−238399号
公報)。図6は、従来の音声認識装置の構成をブロック
で示す説明図であり、図7は、図6に示す音声認識装置
の処理の流れを示すフローチャートである。まず、従来
の音声認識装置の構成について図6を参照して説明す
る。音響入力部70は、音を電気信号に変換し、周波数
スペクトル検出部71は、上記電気信号の短時間周波数
スペクトルを検出する。区間検出部72は、音声入力中
であるか否かを検出し、定常/非定常判定部73は、区
間検出部72で検出された音声入力中でない区間の入力
信号を用いて、周囲の雑音が定常であるか非定常である
かを判定する。雑音スペクトル推定部74は、区間検出
部72で検出された音声入力中でない区間の短時間周波
数スペクトルを用いて、周囲の雑音の周波数スペクトル
を推定し、雑音補正部75は、音声入力中である場合に
おいて、定常/非定常判定部73で周囲の雑音が定常で
あると判定された場合にのみ、入力音声の周波数スペク
トルから雑音スペクトル推定部74で推定された雑音ス
ペクトルを減算することにより、入力信号から雑音成分
を除去する。音声認識部76は、雑音補正部75の出力
信号を用いて音声認識を行う。
【0005】次に、図6に示す音声認識装置の処理の流
れについて図7を参照して説明する。まず、音響入力部
70が音響信号を入力すると(ステップ(以下、Sと称
する)50)、周波数スペクトル検出部71が上記音響
信号の周波数スペクトルを検出する(S51)。続い
て、区間検出部72が音声入力中であるか否かを判定し
(S52)、音声入力中でないと判定した場合は(S5
2:No)、雑音スペクトル推定部74が、音声入力中
でない区間の短時間周波数スペクトルを用いて周囲の雑
音の周波数スペクトルを推定する(S53)。また、区
間検出部72が音声入力中であると判定した場合は(S
52:Yes)、定常/非定常判定部73が、S53に
おける音声入力中でない区間の短時間周波数スペクトル
を用いて周囲の雑音が定常雑音であるか否かを判定する
(S54)。そして、定常雑音であると判定された場合
は(S54:Yes)、雑音補正部75が、入力音声の
周波数スペクトルから雑音スペクトル推定部74で推定
された雑音スペクトルを減算することにより、入力信号
の雑音補正を行う。また、定常雑音ではない、つまり非
定常であると判定された場合は(S54:No)、雑音
補正を行わないで、入力音声の周波数スペクトルをその
まま用いて音声認識を行う(S56)。
【0006】
【発明が解決しようとする課題】しかし、上述のよう
に、上記従来の音声認識装置は、周囲の雑音が非定常雑
音であると判定された場合には雑音補正を行わないこと
から、雑音成分を含んだ入力音声に基づいて音声認識を
行うため、認識結果が低下するという問題がある。ま
た、音声入力中でない区間では、周囲の雑音が定常か非
定常かに関係なく、雑音の周波数スペクトルを推定する
ため、雑音の周波数スペクトルを正確に推定することが
できないという問題もある。
【0007】そこで、本発明は、雑音の周波数スペクト
ルを正確に推定することにより、正確な雑音除去を行う
ことができる雑音除去装置、この雑音除去装置を用いる
ことにより音声認識の精度を高めることができる音声認
識装置、および上記雑音除去をコンピュータに実行させ
るためのコンピュータプログラムが記憶された記憶媒体
を実現することを目的とする。
【0008】
【課題を解決するための手段】本発明は、上記目的を達
成するため、請求項1に記載の発明では、音声が入力さ
れる前の非音声信号と、音声信号とを有する入力信号を
所定の時間ごとの短時間信号に切り出す切出手段と、こ
の切出手段によって切り出された短時間信号ごとの周波
数スペクトルを求める時間軸/周波数軸変換手段と、前
記切出手段によって切り出された短時間信号のうち、前
記非音声信号の短時間信号が定常か非定常であるかを、
前記時間軸/周波数軸変換手段によって求められた周波
数スペクトルに基づいて判定する判定手段と、この判定
手段によって定常と判定された短時間信号の周波数スペ
クトルを用いて前記音声信号に含まれる雑音スペクトル
を推定する推定手段と、前記時間軸/周波数軸変換手段
によって求められた前記音声信号の周波数スペクトルか
ら、前記推定手段によって推定された雑音スペクトルを
減算する減算手段と、が備えられた雑音除去装置という
技術的手段を採用する。
【0009】請求項2に記載の発明では、音声が入力さ
れる前の非音声信号と、音声信号とを有する入力信号を
所定の時間ごとの短時間信号に切り出す切出手段と、こ
の切出手段によって切り出された短時間信号ごとの周波
数スペクトルを求める時間軸/周波数軸変換手段と、前
記切出手段によって切り出された短時間信号のうち、前
記非音声信号の短時間信号が定常か非定常であるかを、
前記時間軸/周波数軸変換手段によって求められた周波
数スペクトルに基づいて判定する判定手段と、この判定
手段によって定常と判定された短時間信号の周波数スペ
クトルを用いて前記音声信号に含まれる雑音スペクトル
を推定する推定手段と、前記時間軸/周波数軸変換手段
によって求められた前記音声信号の周波数スペクトルか
ら、前記推定手段によって推定された雑音スペクトルを
減算する減算手段と、この減算手段によって雑音スペク
トルが減算された周波数スペクトルを用いて音声認識を
する音声認識手段と、が備えられた音声認識装置という
技術的手段を採用する。
【0010】請求項3に記載の発明では、音声が入力さ
れる前の非音声信号と、音声信号とを有する入力信号を
所定の時間ごとの短時間信号に切り出す切出手段と、こ
の切出手段によって切り出された短時間信号ごとの周波
数スペクトルを求める時間軸/周波数軸変換手段と、前
記切出手段によって切り出された短時間信号のうち、前
記非音声信号の短時間信号が定常か非定常であるかを、
前記時間軸/周波数軸変換手段によって求められた周波
数スペクトルに基づいて判定する判定手段と、この判定
手段によって定常と判定された短時間信号の周波数スペ
クトルを用いて前記音声信号に含まれる雑音スペクトル
を推定する推定手段と、前記時間軸/周波数軸変換手段
によって求められた前記音声信号の周波数スペクトルか
ら、前記推定手段によって推定された雑音スペクトルを
減算する減算手段と、この減算手段によって雑音スペク
トルが減算された周波数スペクトルから短時間信号を求
める周波数軸/時間軸変換手段と、この周波数軸/時間
軸変換手段によって求められた短時間信号を用いて音声
認識をする音声認識手段と、が備えられたという技術的
手段を採用する。
【0011】請求項4に記載の発明では、音声が入力さ
れる前の非音声信号と、音声信号とを有する入力信号を
所定の時間ごとの短時間信号に切り出す切出処理と、こ
の切出処理によって切り出された短時間信号ごとの周波
数スペクトルを求める時間軸/周波数軸変換処理と、前
記切出処理によって切り出された短時間信号のうち、前
記非音声信号の短時間信号が定常か非定常であるかを、
前記時間軸/周波数軸変換処理によって求められた周波
数スペクトルに基づいて判定する判定処理と、この判定
処理によって定常と判定された短時間信号の周波数スペ
クトルを用いて前記音声信号に含まれる雑音スペクトル
を推定する推定処理と、前記時間軸/周波数軸変換処理
によって求められた前記音声信号の周波数スペクトルか
ら、前記推定処理によって推定された雑音スペクトルを
減算する減算処理と、をコンピュータに実行させるため
の雑音除去プログラムを含むコンピュータプログラムが
記憶された記憶媒体という技術的手段を採用する。
【0012】
【作用】請求項1ないし請求項4に記載の発明では、切
出手段(切出処理)は、音声が入力される前の非音声信
号と、音声信号とを有する入力信号を所定の時間ごとの
短時間信号に切り出し、時間軸/周波数軸変換手段は、
切出手段(切出処理)によって切り出された短時間信号
ごとの周波数スペクトルを求め、判定手段(判定処理)
は、切出手段(切出処理)によって切り出された短時間
信号のうち、非音声信号の短時間信号が定常か非定常で
あるかを、時間軸/周波数軸変換手段(時間軸/周波数
軸変換処理)によって求められた周波数スペクトルに基
づいて判定する。そして、推定手段(推定処理)は、判
定手段(判定処理)によって定常と判定された短時間信
号の周波数スペクトルを用いて音声信号に含まれる雑音
スペクトルを推定し、減算手段(減算処理)は、時間軸
/周波数軸変換手段(時間軸/周波数軸変換処理)によ
って求められた音声信号の周波数スペクトルから、推定
手段(推定処理)によって推定された雑音スペクトルを
減算する。つまり、判定手段(判定処理)が、短時間信
号のうち、非音声信号の短時間信号が定常か非定常であ
るかを判定し、推定手段(推定処理)は、定常と判定さ
れた短時間信号の周波数スペクトルを用いて音声信号に
含まれる雑音スペクトルを推定する。したがって、定常
と判定された短時間信号の周波数スペクトルのみを用い
て雑音スペクトルを推定することから、正確な雑音スペ
クトルを得ることができるため、正確な雑音除去を行う
ことができる雑音除去装置を実現できる。
【0013】また、請求項2に記載の発明では、音声認
識手段は、上述の減算手段によって正確に雑音スペクト
ルが減算された周波数スペクトルを用いて音声認識をす
る。つまり、正確に雑音スペクトルの減算が行われた周
波数スペクトルを用いて音声認識を行うことができるた
め、認識率の高い音声認識装置を実現することができ
る。
【0014】さらに、請求項3に記載の発明では、周波
数軸/時間軸変換手段は、上述の減算手段によって雑音
スペクトルが減算された周波数スペクトルから短時間信
号を求め、音声認識手段は、周波数軸/時間軸変換手段
によって求められた短時間信号を用いて音声認識をす
る。つまり、正確に雑音スペクトルが減算された周波数
スペクトルから短時間信号を求め、その短時間信号を用
いて音声認識を行うため、認識率の高い音声認識装置を
実現することができる。また、上記短時間信号を表示装
置へ出力することにより、雑音成分が除去された入力信
号の波形を見ることが可能である。
【0015】そして、請求項4に記載の発明では、音声
が入力される前の非音声信号と、音声信号とを有する入
力信号を所定の時間ごとの短時間信号に切り出す切出処
理と、この切出処理によって切り出された短時間信号ご
との周波数スペクトルを求める時間軸/周波数軸変換処
理と、切出処理によって切り出された短時間信号のう
ち、非音声信号の短時間信号が定常か非定常であるか
を、時間軸/周波数軸変換処理によって求められた周波
数スペクトルに基づいて判定する判定処理と、この判定
処理によって定常と判定された短時間信号の周波数スペ
クトルを用いて音声信号に含まれる雑音スペクトルを推
定する推定処理と、時間軸/周波数軸変換処理によって
求められた音声信号の周波数スペクトルから、推定処理
によって推定された雑音スペクトルを減算する減算処理
と、をコンピュータに実行させるための雑音除去プログ
ラムを含むコンピュータプログラムが記憶された記憶媒
体という構成であるため、その記憶媒体を用いることに
より、上記請求項1に記載の雑音除去装置を実現でき
る。つまり、本発明の雑音除去装置は、たとえば、後述
する発明の実施の形態に記載するように、装置に内蔵さ
れたCPUによって機能するため、上記記憶媒体として
のハードディスクドライブ(以下、HDDと略称する)
やROMなどを装置に設け、あるいは、上記記憶媒体に
記憶されているコンピュータプログラムをHDDにイン
ストールすることにより、CPUが上記雑音除去プログ
ラムを実行可能となるからである。
【0016】
【発明の実施の形態】以下、本発明の雑音除去装置、音
声認識装置および記憶媒体の一実施形態について図1な
いし図3を参照して説明する。図1は、本発明第1実施
形態の音声認識装置の主要構成をブロックで示す説明図
であり、図2は、図1に示す音声認識装置の主な機能を
ブロックで示す説明図であり、図3は、図1に示す音声
認識装置に備えられたCPUが雑音除去および音声認識
を行うために実行する処理の流れを示すフローチャート
である。
【0017】図1に示すように、本実施形態の音声認識
装置10には、上記処理を実行するCPU20と、本装
置を立ち上げるための基本ソフトなどが記憶されたRO
M12と、CPUが実行するプログラムなどが記憶され
たHDD13と、HDD13から読出されたプログラ
ム、演算結果、認識結果などを一時的に記憶するRAM
11と、CPU20にプログラムを実行させるコマンド
などを入力するキーボード14と、入力された音声を電
気信号に変換するマイクロフォン15と、音声認識結果
などを表示するディスプレイ16とが備えられている。
【0018】次に、音声認識装置10の主な機能につい
て図2を参照して説明する。フレーム切出部21は、マ
イクロフォン15によって電気信号に変換された入力信
号から、音声の特徴量を分析するための区間を切り出
す。その切り出しは、たとえば窓関数などを用いて行
い、1つ前のフレームの先頭から次のフレームの先頭ま
でが10msecとなるように20〜30msecの時
間長の短時間信号(フレーム信号)を切り出して行く。
周波数スペクトル演算部22は、バンドパスフィルタ
群、または、FFTなどを用いて、フレーム切出部21
で得られた短時間信号の周波数スペクトルを演算する。
音声区間検出部23は、音声入力中ではない非音声区間
および音声入力中である音声区間を検出するものであ
り、フレーム切出部21で得られたフレーム信号から短
時間パワー(フレームパワー)を求め、この短時間パワ
ーと、予め設定されている音声区間検出用しきい値とを
比較し、その音声区間検出用しきい値を超える短時間パ
ワーが一定時間継続した場合に、その区間を音声区間と
して検出する。なお、マイクロフォン15にON/OF
Fスイッチを設けておき、そのON/OFFスイッチを
ONさせている間を音声区間として検出することもでき
る。
【0019】定常/非定常判定部24は、非音声区間の
周囲の雑音が、定常雑音および非定常雑音のいずれであ
るかを各短時間信号ごとに判定する。たとえば、周波数
スペクトル演算部22が、非音声区間の短時間信号に対
して演算した周波数スペクトルを用いて、その短時間信
号における各周波数帯域ごとの変化分(1つ前の短時間
信号の短時間スペクトルとの差)を求め、それら変化分
の絶対値の総和を演算し、その演算値が予め設定されて
いるしきい値を超えた場合に、その短時間信号の周囲の
雑音は、非定常雑音であると判定する方法を用いる。こ
のように、各短時間信号ごとに周波数スペクトルの全帯
域の変化分を用いて各短時間信号ごとに定常か非定常か
を判定するため、様々な種類(周波数)の雑音に対して
定常/非定常を判定することができる。なお、非音声区
間の入力信号の各短時間信号のパワーが、そのパワーの
平均値および分散値などから求めたしきい値を超えた場
合は、その短時間信号は非定常雑音であると判定する方
法を用いることもできる。
【0020】雑音スペクトル推定部25は、定常/非定
常判定部24で定常と判定された短時間信号の周波数ス
ペクトルを用いて、各帯域ごとに周波数スペクトルの所
定時間、あるいは、音声区間が検出されるまでの平均値
を演算し、その平均値に基づいて周囲の雑音の周波数ス
ペクトルを推定する。雑音補正部26は、音声区間の入
力信号から雑音成分を除去するものであり、各帯域ごと
に入力信号の周波数スペクトルから、雑音スペクトル推
定部25で推定された雑音の周波数スペクトルを減算す
ることにより入力信号を補正する。音声認識部27は、
雑音補正部26によって補正された入力信号に基づいて
音声認識を行う。音声認識の手法としては、たとえば、
マルコフモデル、動的計画法などの公知の手法を用い
る。出力部28は、音声認識部27による認識結果をデ
ィスプレイ16(図1)に出力する。
【0021】次に、上記構成の音声認識装置10の処理
の流れについて、それを示す図3のフローチャートを参
照して説明する。マイクロフォン15から信号が入力さ
れると(S10)、フレーム切出部21は、その入力信
号の短時間信号をフレーム単位で切り出し(S12)、
周波数スペクトル演算部22は、切り出された短時間信
号の周波数スペクトルを演算する(S14)。続いて、
音声区間検出部23は、音声区間であるか非音声区間で
あるかを判定し(S16)、非音声区間であると判定す
ると(S16:No)、定常/非定常判定部24が、周
波数スペクトル演算部22によって演算された周波数ス
ペクトルに基づいて定常雑音であるか非定常雑音である
かを判定し(S18)、定常雑音であると判定すると
(S18:Yes)、雑音スペクトル推定部25が、雑
音スペクトルを推定する(S20)。また、定常/非定
常判定部24が、非定常雑音であると判定した場合は
(S18:No)、雑音スペクトルの推定を行わない。
【0022】このように、音声区間検出部23が音声区
間であると判定するまで上記S10〜S20を繰り返
し、雑音スペクトルの推定を続ける。そして、マイクロ
フォン15から音声が入力され、音声区間検出部23が
音声区間であると判定すると(S16:Yes)、雑音
補正部26が、入力信号の周波数スペクトルから、S2
0で推定された雑音スペクトルを減算する雑音補正を行
う(S22)。続いて、音声認識部27が、上記雑音補
正された入力信号に基づいて音声認識を行い(S2
4)、出力部28が認識結果をディスプレイ16へ出力
する(S26)。
【0023】以上のように、本実施形態の音声認識装置
10を使用すれば、定常雑音と判定されたフレームの周
波数スペクトルに基づいてのみ雑音スペクトルを推定
し、その雑音スペクトルを用いて雑音補正を行うことが
できるため、正確な雑音補正を行うことができる。そし
て、その雑音補正された入力信号に基づいて音声認識を
行うため、音声認識の精度を高めることができる。よっ
て、周囲に非定常雑音が発声した場合であっても、雑音
補正を行うことができるため、音声認識の精度を高める
ことができる。
【0024】次に、本発明第2実施形態の音声認識装置
について図4を参照して説明する。図4は、本第2実施
形態の音声認識装置の主な機能をブロックで示す説明図
である。本第2実施形態の音声認識装置は、図2に示し
たような音声区間検出部23を省略できることを特徴と
する。音声認識装置30では、まず、音声を入力する前
の無音信号をマイクロフォン15へ入力し、フレーム切
出部21によって無音信号から短時間信号を切り出し、
周波数スペクトル演算部22によって短時間信号の周波
数スペクトルを演算する。続いて、定常/非定常判定部
24が、その演算された周波数スペクトルに基づいて雑
音が定常か非定常かを判定し、定常と判定された場合
に、雑音スペクトル推定部25が雑音スペクトルを推定
し、その雑音スペクトルを一時的にRAM11(図1)
などに保存しておく。
【0025】そして、マイクロフォン15から音声が入
力されると、フレーム切出部21が音声信号から短時間
信号を切り出し、周波数スペクトル演算部22が短時間
信号の周波数スペクトルを演算し、雑音補正部26が、
RAM11などに保存されている雑音スペクトルを読出
し、その読出した雑音スペクトルを上記演算された周波
数スペクトルから減算することにより雑音補正を行う。
そして、音声認識部27が、雑音補正部26により補正
された音声信号に基づいて音声認識を行い、出力部28
が認識結果をディスプレイ16へ出力する。以上のよう
に、本第2実施形態の音声認識装置30を使用すれば、
音声を入力する前に無音信号を入力し、その無音信号の
雑音スペクトルを予め求めておくことにより、音声区間
検出部を設ける必要がなくなるため、その分、CPUの
負担を軽減することができる。
【0026】次に、本発明第3実施形態の音声認識装置
について図5を参照して説明する。図5は、本第3実施
形態の音声認識装置の主な機能をブロックで示す説明図
である。本第3実施形態の音声認識装置は、雑音補正さ
れた入力信号の波形を見ることができることを特徴とす
る。なお、マイクロフォン15から雑音補正部26まで
の処理は、前述の第1実施形態の音声認識装置10と同
じであるため、それらの説明を省略する。音声認識装置
40は、短時間信号演算部32を備えており、短時間信
号演算部32は、雑音補正部26によって雑音補正され
た周波数スペクトルを周波数/時間軸変換することによ
り短時間信号を演算する。音声認識部27は、短時間信
号演算部32によって演算された短時間信号に基づいて
音声認識を行い、出力部28は、認識結果をディスプレ
イ16へ出力する。また、出力部28は、短時間信号演
算部32によって演算された短時間信号をディスプレイ
16へ出力するため、雑音補正された入力信号の波形を
ディスプレイ16に表示することができる。
【0027】以上のように、本第3実施形態の音声認識
装置40を使用すれば、雑音補正された入力信号の波形
をディスプレイ16に表示して見ることができるため、
たとえば、入力信号波形と認識結果との関係を調べるこ
とができる。
【0028】ところで、図2に示す音声認識装置10、
または、図4に示す音声認識装置30が、請求項2に記
載の音声認識装置として機能する。また、マイクロフォ
ン15、フレーム切出部21、周波数スペクトル演算部
22、定常/非定常判定部24、雑音スペクトル推定部
25および雑音補正部26が、請求項1に記載の雑音除
去装置として機能する。さらに、図5に示す音声認識装
置40が、請求項3に記載の音声認識装置として機能す
る。そして、CPU20が実行する図3のS12が、本
発明の切出手段として機能し、S14が時間軸/周波数
軸変換手段として機能し、S16およびS18が判定手
段として機能し、S20が推定手段として機能し、S2
2が減算手段として機能し、S24が音声認識手段とし
て機能する。
【0029】
【発明の効果】以上のように、請求項1ないし請求項4
に記載の発明によれば、定常と判定された短時間信号の
周波数スペクトルを用いて音声信号に含まれる雑音スペ
クトルを推定し、その推定された雑音スペクトルを音声
信号の周波数スペクトルから減算する構成であるため、
正確な雑音除去を行うことができる雑音除去装置を実現
できる。
【0030】また、請求項2に記載の発明によれば、上
述の減算手段によって正確に雑音スペクトルが減算され
た周波数スペクトルを用いて音声認識をする構成である
ため、認識率の高い音声認識装置を実現することができ
る。
【0031】さらに、請求項3に記載の発明によれば、
上述の減算手段によって正確に雑音スペクトルが減算さ
れた周波数スペクトルから短時間信号を求め、その短時
間信号を用いて音声認識をする構成であるため、認識率
の高い音声認識装置を実現することができる。また、短
時間信号を表示装置などに出力することにより、音声認
識の対象となる入力信号の波形を見ることができる。
【図面の簡単な説明】
【図1】本発明第1実施形態の音声認識装置の主要構成
をブロックで示す説明図である。
【図2】図1に示す音声認識装置の主な機能をブロック
で示す説明図である。
【図3】図1に示す音声認識装置に備えられたCPUが
雑音除去および音声認識を行うために実行する処理の流
れを示すフローチャートである。
【図4】本発明第2実施形態の音声認識装置の主な機能
をブロックで示す説明図である。
【図5】本発明第3実施形態の音声認識装置の主な機能
をブロックで示す説明図である。
【図6】従来の音声認識装置の構成をブロックで示す説
明図である。
【図7】図6に示す音声認識装置の処理の流れを示すフ
ローチャートである。
【図8】図8(a)は、音声入力時の雑音スペクトルを
示す説明図であり、図8(b)は、雑音推定時の雑音ス
ペクトルを示す説明図であり、図8(c)は、雑音除去
を行う前の入力信号のスペクトルを示す説明図であり、
図8(d)は、雑音除去を行った後の入力信号のスペク
トルを示す説明図であり、図8(e)は、真の入力音声
のスペクトルを示す説明図である。
【符号の説明】
10 音声認識装置 15 マイクロフォン 20 CPU 21 フレーム切出部(切出手段) 22 周波数スペクトル演算部(時間軸/周波数軸変
換手段) 24 定常/非定常判定部(判定手段) 25 雑音スペクトル推定部(推定手段) 26 雑音補正部(減算手段) 27 音声認識部(音声認識手段) 32 短時間信号演算部(周波数軸/時間軸変換手
段)

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 音声が入力される前の非音声信号と、音
    声信号とを有する入力信号を所定の時間ごとの短時間信
    号に切り出す切出手段と、 この切出手段によって切り出された短時間信号ごとの周
    波数スペクトルを求める時間軸/周波数軸変換手段と、 前記切出手段によって切り出された短時間信号のうち、
    前記非音声信号の短時間信号が定常か非定常であるか
    を、前記時間軸/周波数軸変換手段によって求められた
    周波数スペクトルに基づいて判定する判定手段と、 この判定手段によって定常と判定された短時間信号の周
    波数スペクトルを用いて前記音声信号に含まれる雑音ス
    ペクトルを推定する推定手段と、 前記時間軸/周波数軸変換手段によって求められた前記
    音声信号の周波数スペクトルから、前記推定手段によっ
    て推定された雑音スペクトルを減算する減算手段と、 が備えられたことを特徴とする雑音除去装置。
  2. 【請求項2】 音声が入力される前の非音声信号と、音
    声信号とを有する入力信号を所定の時間ごとの短時間信
    号に切り出す切出手段と、 この切出手段によって切り出された短時間信号ごとの周
    波数スペクトルを求める時間軸/周波数軸変換手段と、 前記切出手段によって切り出された短時間信号のうち、
    前記非音声信号の短時間信号が定常か非定常であるか
    を、前記時間軸/周波数軸変換手段によって求められた
    周波数スペクトルに基づいて判定する判定手段と、 この判定手段によって定常と判定された短時間信号の周
    波数スペクトルを用いて前記音声信号に含まれる雑音ス
    ペクトルを推定する推定手段と、 前記時間軸/周波数軸変換手段によって求められた前記
    音声信号の周波数スペクトルから、前記推定手段によっ
    て推定された雑音スペクトルを減算する減算手段と、 この減算手段によって雑音スペクトルが減算された周波
    数スペクトルを用いて音声認識をする音声認識手段と、 が備えられたことを特徴とする音声認識装置。
  3. 【請求項3】 音声が入力される前の非音声信号と、音
    声信号とを有する入力信号を所定の時間ごとの短時間信
    号に切り出す切出手段と、 この切出手段によって切り出された短時間信号ごとの周
    波数スペクトルを求める時間軸/周波数軸変換手段と、 前記切出手段によって切り出された短時間信号のうち、
    前記非音声信号の短時間信号が定常か非定常であるか
    を、前記時間軸/周波数軸変換手段によって求められた
    周波数スペクトルに基づいて判定する判定手段と、 この判定手段によって定常と判定された短時間信号の周
    波数スペクトルを用いて前記音声信号に含まれる雑音ス
    ペクトルを推定する推定手段と、 前記時間軸/周波数軸変換手段によって求められた前記
    音声信号の周波数スペクトルから、前記推定手段によっ
    て推定された雑音スペクトルを減算する減算手段と、 この減算手段によって雑音スペクトルが減算された周波
    数スペクトルから短時間信号を求める周波数軸/時間軸
    変換手段と、 この周波数軸/時間軸変換手段によって求められた短時
    間信号を用いて音声認識をする音声認識手段と、 が備えられたことを特徴とする音声認識装置。
  4. 【請求項4】 音声が入力される前の非音声信号と、音
    声信号とを有する入力信号を所定の時間ごとの短時間信
    号に切り出す切出処理と、 この切出処理によって切り出された短時間信号ごとの周
    波数スペクトルを求める時間軸/周波数軸変換処理と、 前記切出処理によって切り出された短時間信号のうち、
    前記非音声信号の短時間信号が定常か非定常であるか
    を、前記時間軸/周波数軸変換処理によって求められた
    周波数スペクトルに基づいて判定する判定処理と、 この判定処理によって定常と判定された短時間信号の周
    波数スペクトルを用いて前記音声信号に含まれる雑音ス
    ペクトルを推定する推定処理と、 前記時間軸/周波数軸変換処理によって求められた前記
    音声信号の周波数スペクトルから、前記推定処理によっ
    て推定された雑音スペクトルを減算する減算処理と、を
    コンピュータに実行させるための雑音除去プログラムを
    含むコンピュータプログラムが記憶された記憶媒体。
JP10334286A 1998-11-25 1998-11-25 雑音除去装置、音声認識装置および記憶媒体 Pending JP2000163099A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10334286A JP2000163099A (ja) 1998-11-25 1998-11-25 雑音除去装置、音声認識装置および記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10334286A JP2000163099A (ja) 1998-11-25 1998-11-25 雑音除去装置、音声認識装置および記憶媒体

Publications (1)

Publication Number Publication Date
JP2000163099A true JP2000163099A (ja) 2000-06-16

Family

ID=18275649

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10334286A Pending JP2000163099A (ja) 1998-11-25 1998-11-25 雑音除去装置、音声認識装置および記憶媒体

Country Status (1)

Country Link
JP (1) JP2000163099A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005292812A (ja) * 2004-03-09 2005-10-20 Nippon Telegr & Teleph Corp <Ntt> 音声雑音判別方法および装置、雑音低減方法および装置、音声雑音判別プログラム、雑音低減プログラム、およびプログラムの記録媒体
US7203640B2 (en) 2001-12-21 2007-04-10 Fujitsu Limited System and method for determining an intended signal section candidate and a type of noise section candidate
JP2010154092A (ja) * 2008-12-24 2010-07-08 Fujitsu Ltd 雑音検出装置及び雑音検出方法
JP2010230814A (ja) * 2009-03-26 2010-10-14 Fujitsu Ltd 音声信号評価プログラム、音声信号評価装置、音声信号評価方法
JP2010258938A (ja) * 2009-04-28 2010-11-11 Nippon Telegr & Teleph Corp <Ntt> 音響再生装置
WO2010146711A1 (ja) * 2009-06-19 2010-12-23 富士通株式会社 音声信号処理装置及び音声信号処理方法
JP2011141890A (ja) * 2001-10-09 2011-07-21 Immersion Corp コンピュータ装置からのオーディオ出力に基づく触覚フィードバック感覚
WO2014112023A1 (ja) * 2013-01-17 2014-07-24 日本電気株式会社 雑音除去システム、音声検出システム、音声認識システム、雑音除去方法および雑音除去プログラム
CN112885323A (zh) * 2021-02-22 2021-06-01 联想(北京)有限公司 音频信息处理方法、装置及电子设备

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011141890A (ja) * 2001-10-09 2011-07-21 Immersion Corp コンピュータ装置からのオーディオ出力に基づく触覚フィードバック感覚
US7203640B2 (en) 2001-12-21 2007-04-10 Fujitsu Limited System and method for determining an intended signal section candidate and a type of noise section candidate
JP2005292812A (ja) * 2004-03-09 2005-10-20 Nippon Telegr & Teleph Corp <Ntt> 音声雑音判別方法および装置、雑音低減方法および装置、音声雑音判別プログラム、雑音低減プログラム、およびプログラムの記録媒体
JP2010154092A (ja) * 2008-12-24 2010-07-08 Fujitsu Ltd 雑音検出装置及び雑音検出方法
JP2010230814A (ja) * 2009-03-26 2010-10-14 Fujitsu Ltd 音声信号評価プログラム、音声信号評価装置、音声信号評価方法
US8532986B2 (en) 2009-03-26 2013-09-10 Fujitsu Limited Speech signal evaluation apparatus, storage medium storing speech signal evaluation program, and speech signal evaluation method
JP2010258938A (ja) * 2009-04-28 2010-11-11 Nippon Telegr & Teleph Corp <Ntt> 音響再生装置
CN102804260A (zh) * 2009-06-19 2012-11-28 富士通株式会社 声音信号处理装置以及声音信号处理方法
WO2010146711A1 (ja) * 2009-06-19 2010-12-23 富士通株式会社 音声信号処理装置及び音声信号処理方法
JP5293817B2 (ja) * 2009-06-19 2013-09-18 富士通株式会社 音声信号処理装置及び音声信号処理方法
US8676571B2 (en) 2009-06-19 2014-03-18 Fujitsu Limited Audio signal processing system and audio signal processing method
EP2444966A4 (en) * 2009-06-19 2016-08-31 Fujitsu Ltd AUDIO SIGNAL PROCESSING DEVICE AND AUDIO SIGNAL PROCESSING METHOD
WO2014112023A1 (ja) * 2013-01-17 2014-07-24 日本電気株式会社 雑音除去システム、音声検出システム、音声認識システム、雑音除去方法および雑音除去プログラム
US9449616B2 (en) 2013-01-17 2016-09-20 Nec Corporation Noise reduction system, speech detection system, speech recognition system, noise reduction method, and noise reduction program
JPWO2014112023A1 (ja) * 2013-01-17 2017-01-19 日本電気株式会社 雑音除去システム、音声検出システム、音声認識システム、雑音除去方法および雑音除去プログラム
CN112885323A (zh) * 2021-02-22 2021-06-01 联想(北京)有限公司 音频信息处理方法、装置及电子设备

Similar Documents

Publication Publication Date Title
KR100870889B1 (ko) 음신호 처리 방법, 음신호 처리 장치 및 기록 매체
JP4484283B2 (ja) 音声処理装置及び方法
JP4868999B2 (ja) 音声認識方法、音声認識装置及びコンピュータプログラム
JP5621783B2 (ja) 音声認識システム、音声認識方法および音声認識プログラム
JP3451146B2 (ja) スペクトルサブトラクションを用いた雑音除去システムおよび方法
US20030093265A1 (en) Method and system of chinese speech pitch extraction
JP3105465B2 (ja) 音声区間検出方法
JP2000132181A (ja) 音声処理装置及び方法
JP2000163099A (ja) 雑音除去装置、音声認識装置および記憶媒体
JP2004347956A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP2000122688A (ja) 音声処理装置及び方法
JP5282523B2 (ja) 基本周波数抽出方法、基本周波数抽出装置、およびプログラム
JPH08160994A (ja) 雑音抑圧装置
JP4123835B2 (ja) 雑音抑圧装置および雑音抑圧方法
JP2003044078A (ja) 発声速度正規化分析を用いた音声認識装置
JP3106543B2 (ja) 音声信号処理装置
KR100194953B1 (ko) 유성음 구간에서 프레임별 피치 검출 방법
JP3259835B2 (ja) ピッチ情報抽出装置及びピッチ情報抽出方法ならびにピッチ情報抽出プログラムを格納した記憶媒体
JP3761497B2 (ja) 音声認識装置、音声認識方法、および、音声認識プログラム
KR100345402B1 (ko) 피치 정보를 이용한 실시간 음성 검출 장치 및 그 방법
JPH04230798A (ja) 雑音予測装置
JP3205141B2 (ja) 音声分析方式
KR970060044A (ko) 유색 잡음 환경에서 주파수 영역의 정보를 이용한 끝점 검출 방법
Zenteno et al. Robust voice activity detection algorithm using spectrum estimation and dynamic thresholding
JPH0844390A (ja) 音声認識装置

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20051207