JP3346200B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP3346200B2
JP3346200B2 JP33922196A JP33922196A JP3346200B2 JP 3346200 B2 JP3346200 B2 JP 3346200B2 JP 33922196 A JP33922196 A JP 33922196A JP 33922196 A JP33922196 A JP 33922196A JP 3346200 B2 JP3346200 B2 JP 3346200B2
Authority
JP
Japan
Prior art keywords
noise
spectrum
pattern
magnification
power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP33922196A
Other languages
English (en)
Other versions
JPH10177394A (ja
Inventor
滋樹 青島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP33922196A priority Critical patent/JP3346200B2/ja
Publication of JPH10177394A publication Critical patent/JPH10177394A/ja
Application granted granted Critical
Publication of JP3346200B2 publication Critical patent/JP3346200B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音声認識装置、特に
入力音声パターンから騒音パターンを差し引くことで音
声の特徴パターンを抽出する装置に関する。
【0002】
【従来の技術】従来より、騒音下における音声認識率を
向上させるべく、発声直前の騒音スペクトルを求め、発
声中の音声スペクトルから一定の割合で差し引く技術が
知られている(スペクトルサブトラクション)。ここ
で、差し引く倍率は実験的に定めた値に固定するのが一
般的であるが、騒音のパワーに応じて倍率を変化させる
ことも提案されている。
【0003】例えば、特開平7−146698号公報に
は、サブトラクションではないが、標準の音声パターン
(無騒音下)に騒音パターンを加算して入力音声パター
ンと比較する音声認識において、騒音パターンの結合量
を騒音パワーに応じて変化させる技術が提案されてい
る。
【0004】
【発明が解決しようとする課題】しかしながら、騒音の
パワーに応じて倍率(結合量)を変化させる方法は騒音
の種類がある程度一定の場合に有効であり、騒音の種類
が変化し、そのスペクトルが変化する場合には十分に対
応できない問題があった。例えば、騒音パワーがほとん
ど同一である2つの騒音があり、一方はそのスペクトル
が低周波域に偏重しており、他方はそうでない場合を想
定する。この場合、両騒音を同一の倍率で差し引くと、
音声認識にとって特に重要な低周波域の情報が抽出でき
ないおそれがある(前者の騒音では倍率が大きすぎ、後
者の騒音では倍率が不足する)。
【0005】本発明は、上記従来技術の有する課題に鑑
みなされたものであり、その目的は、騒音の種類が変化
しても、確実に入力音声の特徴パターンを抽出すること
ができ、もって騒音下における音声認識率を向上させる
ことができる装置を提供することにある。
【0006】
【課題を解決するための手段】上記目的を達成するため
に、第1の発明は、入力音声パターンから騒音パターン
を差し引いて得られる音声の特徴パターンを標準パター
ンと比較して認識する音声認識装置であって、騒音のス
ペクトルを算出するスペクトル算出手段と、騒音のパワ
ーを算出するパワー算出手段と、算出された前記騒音の
スペクトル及びパワーに基づいて前記入力パターンから
差し引く前記騒音パターンの倍率を変化させる倍率制御
手段とを有することを特徴とする。
【0007】また、第2の発明は、第1の発明におい
て、前記倍率制御手段は、前記騒音のスペクトルが平滑
である程前記倍率を増大させることを特徴とする。
【0008】
【発明の実施の形態】以下、図面に基づき本発明の実施
形態について説明する。
【0009】図1には、本実施形態の構成ブロック図が
示されている。マイク10からの入力音声信号は、A/
Dコンバータ12でデジタル信号に変換され、音響分析
部に供給される。音響分析部は、Log|FFT|回路
14、騒音学習回路16、騒音パターン記憶部18、ス
ペクトルサブトラクション回路20、特徴抽出部22を
有しており、発声前の騒音区間を切り出して騒音スペク
トルを求め、数フレーム分のスペクトルの平均を求めて
騒音パターン記憶部18に記憶する。そして、スペクト
ルサブトラクション回路20で騒音パターン記憶部18
に記憶された騒音スペクトルを入力音声スペクトルから
差し引いて騒音の影響を除去し音声の特徴を抽出する。
抽出された特徴量は、単語認識部24に供給され、単語
辞書26とのパターンマッチングにより入力された特徴
量に該当する単語を選択して出力する。以上の構成要素
が、スペクトルサブトラクションによる音声認識の基本
部分である。
【0010】そして、本実施形態において特徴的な要素
は、音響分析部がさらにパワー計算回路28、騒音パタ
ーン/倍率変換テーブル30、騒音スペクトルベクトル
量子化(VQ)回路32、騒音コードブック34及びサ
ブトラクト倍率制御回路36である。パワー計算回路2
8は、入力された騒音のパワーを算出するものであり、
算出されたパワーはサブトラクト倍率制御回路36に供
給される。騒音スペクトルベクトル量子化回路32は、
予めスペクトルエンベロープ毎に対応するコードが用意
された騒音コードブック34を用いて入力された騒音ス
ペクトルをコード化するものであり、コード化された騒
音スペクトル(騒音スペクトルコード)はサブトラクト
倍率制御回路36に供給される。騒音パワーと騒音スペ
クトルコードが入力されたサブトラクト倍率制御回路3
6では、騒音パターン/倍率変換テーブル30を参照し
て入力パワー/スペクトルコードに対応するサブトラク
ト倍率を読み出してスペクトルサブトラクション回路2
0に供給する。スペクトルサブトラクション回路20で
は、供給された倍率で騒音パターンを調整し、上述した
ように入力音声スペクトルから差し引くことで騒音の影
響を除去する。なお、騒音パターン/倍率変換テーブル
30は、音声認識を実行する前に予め複数の騒音サンプ
ルについて、そのパワー/スペクトルコードと最適サブ
トラクト倍率の関係を求め、2次元マトリクステーブル
としたものである。
【0011】図2には、騒音パターン/倍率変換テーブ
ルの内容が示されている。行成分は騒音パワーで、列成
分は騒音スペクトルコードである。例えば、騒音パワー
が150、騒音スペクトルコードがE06である場合に
は、サブトラクト倍率は0.47となる。上述したよう
に、騒音スペクトルコードは、騒音スペクトルのエンベ
ロープパターンを複数通りに分類したものであり、低周
波域に急峻なピークがあるようなエンベロープパターン
のスペクトルコードに比べ、平滑なエンベロープパター
ンのスペクトルコードの倍率は大きく設定されている
(図2において、スペクトルコードE03は低周波域に
ピークがある急峻なスペクトルを表しており、スペクト
ルコードG03は全ての周波数域にわたってほぼ平滑な
スペクトルを表している)。逆に言えば、低周波域にピ
ークのある急峻な騒音の場合には、サブトラクト倍率が
小さく設定される。これは、特に音声認識にとって重要
な低周波域の音声信号がサブトラクトにより消えないよ
うにするためである。また、騒音パワーが増大するに従
いサブトラクト倍率も大きく設定されている。この図か
ら、本実施形態では騒音パワーが異なる場合はもちろ
ん、騒音パワーが同一であっても、スペクトルの形状が
異なればサブトラクト倍率も異なることが理解されよ
う。
【0012】図3には、本実施形態における音響分析部
の処理フローチャートが示されている。まず、マイク1
0から入力された信号を所定時間幅で切り出し(S10
1)、切り出した区間が騒音区間であるか否かを判定す
る(S102)。発声前の区間である、つまり騒音区間
である場合には、次に騒音のパワーを既に計算したか否
かを判定する(S103)。パワーが計算されていない
場合にはパワーを算出し、パワー算出後は切り出した区
間の騒音信号のLog|FFT|を算出し(S10
4)、騒音学習、すなわち数区間の騒音スペクトルの平
均を算出して記憶部に記憶する(S105)。また、入
力された騒音スペクトルをベクトル量子化し、予め用意
されたコードブックでコード化する(S106)。騒音
のパワー及びスペクトルコードが得られた後、変換テー
ブルを参照することで現在の騒音に対応するスペクトル
サブトラクト倍率を読み出す(S107)。
【0013】そして、切り出された分析区間が音声区間
である場合には(S102でNO)、入力信号(音声と
騒音を含む)のLog|FFT|を算出し(S10
9)、S107で読み出したサブトラクト倍率を用いて
スペクトルサブトラクションを行なう(S110)。す
なわち、入力信号のスペクトルからサブトラクト倍率で
調整された騒音スペクトル(S105で学習し記憶され
たスペクトル)を差し引いて騒音の影響を除去する。そ
して、騒音が除去された音声スペクトルから特徴量を抽
出し(S111)、後段の音声認識部に出力する。
【0014】このように、本実施形態では、騒音パワー
のみならず、騒音スペクトルに基づいて倍率を変化させ
てスペクトルサブトラクションを行うので、騒音の種類
が変化しても対応することができ、多様な環境下におい
て音声認識率を向上させることができる。
【0015】なお、本実施形態において、騒音パワーと
騒音スペクトルに加え、音声パワーに基づいてサブトラ
クト倍率を変化させることも好適である。これにより、
話者の声量も考慮したスペクトルサブトラクションが可
能となる。この場合、騒音パワー/騒音スペクトルコー
ド/音声パワーと最適倍率の関係を予め求めて変換テー
ブル30として用意しておく必要がある。
【0016】
【発明の効果】以上説明したように、本発明によれば、
スペクトルサブトラクションにおいて騒音のパワーのみ
ならず騒音の種類(スペクトル)が変化してもこれに適
応して差し引く騒音の倍率を変化させるため、環境の変
化によらず高い音声認識率を得ることができる。
【図面の簡単な説明】
【図1】 本発明の実施形態の構成ブロック図である。
【図2】 騒音パターン/倍率変換テーブルの内容説明
図である。
【図3】 音響分析部の処理フローチャートである。
【符号の説明】
10 マイク、12 A/Dコンバータ、14 Log
|FFT|回路、16騒音学習回路、18 騒音パター
ン記憶部、20 スペクトルサブトラクション回路、2
2 特徴抽出部、24 単語認識部、26 単語辞書、
28 パワ−計算部、30 騒音パターン/倍率変換テ
ーブル、32 騒音スペクトルベクトル量子化回路、3
4 騒音コードブック、36 サブトラクト倍率制御回
路。

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力音声パターンから騒音パターンを差
    し引いて得られる音声の特徴パターンを標準パターンと
    比較して認識する音声認識装置であって、 騒音のスペクトルを算出するスペクトル算出手段と、 騒音のパワーを算出するパワー算出手段と、 算出された前記騒音のスペクトル及びパワーに基づいて
    前記入力パターンから差し引く前記騒音パターンの倍率
    を変化させる倍率制御手段と、 を有することを特徴とする音声認識装置。
  2. 【請求項2】 前記倍率制御手段は、前記騒音のスペク
    トルが平滑である程前記倍率を増大させることを特徴と
    する請求項1記載の音声認識装置。
JP33922196A 1996-12-19 1996-12-19 音声認識装置 Expired - Fee Related JP3346200B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP33922196A JP3346200B2 (ja) 1996-12-19 1996-12-19 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP33922196A JP3346200B2 (ja) 1996-12-19 1996-12-19 音声認識装置

Publications (2)

Publication Number Publication Date
JPH10177394A JPH10177394A (ja) 1998-06-30
JP3346200B2 true JP3346200B2 (ja) 2002-11-18

Family

ID=18325407

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33922196A Expired - Fee Related JP3346200B2 (ja) 1996-12-19 1996-12-19 音声認識装置

Country Status (1)

Country Link
JP (1) JP3346200B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006279185A (ja) * 2005-03-28 2006-10-12 Casio Comput Co Ltd 撮像装置、音声記録方法及びプログラム
JP2011118124A (ja) * 2009-12-02 2011-06-16 Murata Machinery Ltd 音声認識システムと認識方法

Also Published As

Publication number Publication date
JPH10177394A (ja) 1998-06-30

Similar Documents

Publication Publication Date Title
US7133826B2 (en) Method and apparatus using spectral addition for speaker recognition
EP1500087B1 (en) On-line parametric histogram normalization for noise robust speech recognition
CN112397083B (zh) 语音处理方法及相关装置
Zilovic et al. Speaker identification based on the use of robust cepstral features obtained from pole-zero transfer functions
US20090106030A1 (en) Method of signal encoding
CN110663080A (zh) 通过频谱包络共振峰的频移动态修改语音音色的方法和装置
US7162417B2 (en) Speech synthesizing method and apparatus for altering amplitudes of voiced and invoiced portions
RU2007131662A (ru) Способ формирования отпечатка для звукового сигнала
JP3346200B2 (ja) 音声認識装置
JPH10247093A (ja) オーディオ情報分類装置
US20080228477A1 (en) Method and Device For Processing a Voice Signal For Robust Speech Recognition
JPH07121197A (ja) 学習式音声認識方法
JPH0197997A (ja) 声質変換方法
JP2642694B2 (ja) 雑音除去方法
JPH11327593A (ja) 音声認識システム
CN115938382B (zh) 降噪控制方法、装置、设备及存储介质
JP3015477B2 (ja) 音声認識方法
JPH04295897A (ja) 神経回路網モデルによる音声認識方法
JPH10177393A (ja) 音声認識装置
JP4146949B2 (ja) 音声処理装置
JP3458285B2 (ja) 音声認識装置
Hataoka et al. Compact and robust speech recognition for embedded use on microprocessors
JP3012994B2 (ja) 音韻識別方法
JPH04264596A (ja) 雑音下音声認識方法
WO2007000816A1 (ja) 音声特徴抽出装置、話者認識装置、プログラム及び音声特徴抽出方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070906

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080906

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080906

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090906

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees