JPH10177394A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH10177394A
JPH10177394A JP8339221A JP33922196A JPH10177394A JP H10177394 A JPH10177394 A JP H10177394A JP 8339221 A JP8339221 A JP 8339221A JP 33922196 A JP33922196 A JP 33922196A JP H10177394 A JPH10177394 A JP H10177394A
Authority
JP
Japan
Prior art keywords
noise
spectrum
magnification
subtraction
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8339221A
Other languages
English (en)
Other versions
JP3346200B2 (ja
Inventor
Shigeki Aoshima
滋樹 青島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP33922196A priority Critical patent/JP3346200B2/ja
Publication of JPH10177394A publication Critical patent/JPH10177394A/ja
Application granted granted Critical
Publication of JP3346200B2 publication Critical patent/JP3346200B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 スペクトルサブトラクションを用いた音声認
識において、騒音の種類が変化する場合にも対応する。 【解決手段】 マイク10からの入力信号はA/Dコン
バータ12でデジタル化され、音響分析部に供給され
る。音響分析部のスペクトルサブトラクション回路20
は、入力信号(音声と騒音を含む)のスペクトルから騒
音パターン記憶部18に記憶された騒音スペクトルを差
し引いて騒音の影響を除去し、特徴を抽出する。パワー
計算回路28で騒音のパワーを算出し、騒音スペクトル
ベクトル量子化回路32で騒音スペクトルをコード化し
てサブトラクト倍率制御回路36に供給する。サブトラ
クト倍率制御回路36では、予め用意された変換テーブ
ルから入力パワーとスペクトルに対応するサブトラクト
倍率を読み出し、スペクトルサブトラクション回路20
に供給する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音声認識装置、特に
入力音声パターンから騒音パターンを差し引くことで音
声の特徴パターンを抽出する装置に関する。
【0002】
【従来の技術】従来より、騒音下における音声認識率を
向上させるべく、発声直前の騒音スペクトルを求め、発
声中の音声スペクトルから一定の割合で差し引く技術が
知られている(スペクトルサブトラクション)。ここ
で、差し引く倍率は実験的に定めた値に固定するのが一
般的であるが、騒音のパワーに応じて倍率を変化させる
ことも提案されている。
【0003】例えば、特開平7−146698号公報に
は、サブトラクションではないが、標準の音声パターン
(無騒音下)に騒音パターンを加算して入力音声パター
ンと比較する音声認識において、騒音パターンの結合量
を騒音パワーに応じて変化させる技術が提案されてい
る。
【0004】
【発明が解決しようとする課題】しかしながら、騒音の
パワーに応じて倍率(結合量)を変化させる方法は騒音
の種類がある程度一定の場合に有効であり、騒音の種類
が変化し、そのスペクトルが変化する場合には十分に対
応できない問題があった。例えば、騒音パワーがほとん
ど同一である2つの騒音があり、一方はそのスペクトル
が低周波域に偏重しており、他方はそうでない場合を想
定する。この場合、両騒音を同一の倍率で差し引くと、
音声認識にとって特に重要な低周波域の情報が抽出でき
ないおそれがある(前者の騒音では倍率が大きすぎ、後
者の騒音では倍率が不足する)。
【0005】本発明は、上記従来技術の有する課題に鑑
みなされたものであり、その目的は、騒音の種類が変化
しても、確実に入力音声の特徴パターンを抽出すること
ができ、もって騒音下における音声認識率を向上させる
ことができる装置を提供することにある。
【0006】
【課題を解決するための手段】上記目的を達成するため
に、第1の発明は、入力音声パターンから騒音パターン
を差し引いて得られる音声の特徴パターンを標準パター
ンと比較して認識する音声認識装置であって、騒音のス
ペクトルを算出するスペクトル算出手段と、騒音のパワ
ーを算出するパワー算出手段と、算出された前記騒音の
スペクトル及びパワーに基づいて前記入力パターンから
差し引く前記騒音パターンの倍率を変化させる倍率制御
手段とを有することを特徴とする。
【0007】また、第2の発明は、第1の発明におい
て、前記倍率制御手段は、前記騒音のスペクトルが平滑
である程前記倍率を増大させることを特徴とする。
【0008】
【発明の実施の形態】以下、図面に基づき本発明の実施
形態について説明する。
【0009】図1には、本実施形態の構成ブロック図が
示されている。マイク10からの入力音声信号は、A/
Dコンバータ12でデジタル信号に変換され、音響分析
部に供給される。音響分析部は、Log|FFT|回路
14、騒音学習回路16、騒音パターン記憶部18、ス
ペクトルサブトラクション回路20、特徴抽出部22を
有しており、発声前の騒音区間を切り出して騒音スペク
トルを求め、数フレーム分のスペクトルの平均を求めて
騒音パターン記憶部18に記憶する。そして、スペクト
ルサブトラクション回路20で騒音パターン記憶部18
に記憶された騒音スペクトルを入力音声スペクトルから
差し引いて騒音の影響を除去し音声の特徴を抽出する。
抽出された特徴量は、単語認識部24に供給され、単語
辞書26とのパターンマッチングにより入力された特徴
量に該当する単語を選択して出力する。以上の構成要素
が、スペクトルサブトラクションによる音声認識の基本
部分である。
【0010】そして、本実施形態において特徴的な要素
は、音響分析部がさらにパワー計算回路28、騒音パタ
ーン/倍率変換テーブル30、騒音スペクトルベクトル
量子化(VQ)回路32、騒音コードブック34及びサ
ブトラクト倍率制御回路36である。パワー計算回路2
8は、入力された騒音のパワーを算出するものであり、
算出されたパワーはサブトラクト倍率制御回路36に供
給される。騒音スペクトルベクトル量子化回路32は、
予めスペクトルエンベロープ毎に対応するコードが用意
された騒音コードブック34を用いて入力された騒音ス
ペクトルをコード化するものであり、コード化された騒
音スペクトル(騒音スペクトルコード)はサブトラクト
倍率制御回路36に供給される。騒音パワーと騒音スペ
クトルコードが入力されたサブトラクト倍率制御回路3
6では、騒音パターン/倍率変換テーブル30を参照し
て入力パワー/スペクトルコードに対応するサブトラク
ト倍率を読み出してスペクトルサブトラクション回路2
0に供給する。スペクトルサブトラクション回路20で
は、供給された倍率で騒音パターンを調整し、上述した
ように入力音声スペクトルから差し引くことで騒音の影
響を除去する。なお、騒音パターン/倍率変換テーブル
30は、音声認識を実行する前に予め複数の騒音サンプ
ルについて、そのパワー/スペクトルコードと最適サブ
トラクト倍率の関係を求め、2次元マトリクステーブル
としたものである。
【0011】図2には、騒音パターン/倍率変換テーブ
ルの内容が示されている。行成分は騒音パワーで、列成
分は騒音スペクトルコードである。例えば、騒音パワー
が150、騒音スペクトルコードがE06である場合に
は、サブトラクト倍率は0.47となる。上述したよう
に、騒音スペクトルコードは、騒音スペクトルのエンベ
ロープパターンを複数通りに分類したものであり、低周
波域に急峻なピークがあるようなエンベロープパターン
のスペクトルコードに比べ、平滑なエンベロープパター
ンのスペクトルコードの倍率は大きく設定されている
(図2において、スペクトルコードE03は低周波域に
ピークがある急峻なスペクトルを表しており、スペクト
ルコードG03は全ての周波数域にわたってほぼ平滑な
スペクトルを表している)。逆に言えば、低周波域にピ
ークのある急峻な騒音の場合には、サブトラクト倍率が
小さく設定される。これは、特に音声認識にとって重要
な低周波域の音声信号がサブトラクトにより消えないよ
うにするためである。また、騒音パワーが増大するに従
いサブトラクト倍率も大きく設定されている。この図か
ら、本実施形態では騒音パワーが異なる場合はもちろ
ん、騒音パワーが同一であっても、スペクトルの形状が
異なればサブトラクト倍率も異なることが理解されよ
う。
【0012】図3には、本実施形態における音響分析部
の処理フローチャートが示されている。まず、マイク1
0から入力された信号を所定時間幅で切り出し(S10
1)、切り出した区間が騒音区間であるか否かを判定す
る(S102)。発声前の区間である、つまり騒音区間
である場合には、次に騒音のパワーを既に計算したか否
かを判定する(S103)。パワーが計算されていない
場合にはパワーを算出し、パワー算出後は切り出した区
間の騒音信号のLog|FFT|を算出し(S10
4)、騒音学習、すなわち数区間の騒音スペクトルの平
均を算出して記憶部に記憶する(S105)。また、入
力された騒音スペクトルをベクトル量子化し、予め用意
されたコードブックでコード化する(S106)。騒音
のパワー及びスペクトルコードが得られた後、変換テー
ブルを参照することで現在の騒音に対応するスペクトル
サブトラクト倍率を読み出す(S107)。
【0013】そして、切り出された分析区間が音声区間
である場合には(S102でNO)、入力信号(音声と
騒音を含む)のLog|FFT|を算出し(S10
9)、S107で読み出したサブトラクト倍率を用いて
スペクトルサブトラクションを行なう(S110)。す
なわち、入力信号のスペクトルからサブトラクト倍率で
調整された騒音スペクトル(S105で学習し記憶され
たスペクトル)を差し引いて騒音の影響を除去する。そ
して、騒音が除去された音声スペクトルから特徴量を抽
出し(S111)、後段の音声認識部に出力する。
【0014】このように、本実施形態では、騒音パワー
のみならず、騒音スペクトルに基づいて倍率を変化させ
てスペクトルサブトラクションを行うので、騒音の種類
が変化しても対応することができ、多様な環境下におい
て音声認識率を向上させることができる。
【0015】なお、本実施形態において、騒音パワーと
騒音スペクトルに加え、音声パワーに基づいてサブトラ
クト倍率を変化させることも好適である。これにより、
話者の声量も考慮したスペクトルサブトラクションが可
能となる。この場合、騒音パワー/騒音スペクトルコー
ド/音声パワーと最適倍率の関係を予め求めて変換テー
ブル30として用意しておく必要がある。
【0016】
【発明の効果】以上説明したように、本発明によれば、
スペクトルサブトラクションにおいて騒音のパワーのみ
ならず騒音の種類(スペクトル)が変化してもこれに適
応して差し引く騒音の倍率を変化させるため、環境の変
化によらず高い音声認識率を得ることができる。
【図面の簡単な説明】
【図1】 本発明の実施形態の構成ブロック図である。
【図2】 騒音パターン/倍率変換テーブルの内容説明
図である。
【図3】 音響分析部の処理フローチャートである。
【符号の説明】
10 マイク、12 A/Dコンバータ、14 Log
|FFT|回路、16騒音学習回路、18 騒音パター
ン記憶部、20 スペクトルサブトラクション回路、2
2 特徴抽出部、24 単語認識部、26 単語辞書、
28 パワ−計算部、30 騒音パターン/倍率変換テ
ーブル、32 騒音スペクトルベクトル量子化回路、3
4 騒音コードブック、36 サブトラクト倍率制御回
路。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 入力音声パターンから騒音パターンを差
    し引いて得られる音声の特徴パターンを標準パターンと
    比較して認識する音声認識装置であって、 騒音のスペクトルを算出するスペクトル算出手段と、 騒音のパワーを算出するパワー算出手段と、 算出された前記騒音のスペクトル及びパワーに基づいて
    前記入力パターンから差し引く前記騒音パターンの倍率
    を変化させる倍率制御手段と、 を有することを特徴とする音声認識装置。
  2. 【請求項2】 前記倍率制御手段は、前記騒音のスペク
    トルが平滑である程前記倍率を増大させることを特徴と
    する請求項1記載の音声認識装置。
JP33922196A 1996-12-19 1996-12-19 音声認識装置 Expired - Fee Related JP3346200B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP33922196A JP3346200B2 (ja) 1996-12-19 1996-12-19 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP33922196A JP3346200B2 (ja) 1996-12-19 1996-12-19 音声認識装置

Publications (2)

Publication Number Publication Date
JPH10177394A true JPH10177394A (ja) 1998-06-30
JP3346200B2 JP3346200B2 (ja) 2002-11-18

Family

ID=18325407

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33922196A Expired - Fee Related JP3346200B2 (ja) 1996-12-19 1996-12-19 音声認識装置

Country Status (1)

Country Link
JP (1) JP3346200B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006279185A (ja) * 2005-03-28 2006-10-12 Casio Comput Co Ltd 撮像装置、音声記録方法及びプログラム
JP2011118124A (ja) * 2009-12-02 2011-06-16 Murata Machinery Ltd 音声認識システムと認識方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006279185A (ja) * 2005-03-28 2006-10-12 Casio Comput Co Ltd 撮像装置、音声記録方法及びプログラム
JP2011118124A (ja) * 2009-12-02 2011-06-16 Murata Machinery Ltd 音声認識システムと認識方法

Also Published As

Publication number Publication date
JP3346200B2 (ja) 2002-11-18

Similar Documents

Publication Publication Date Title
AU712412B2 (en) Speech processing
CN112397083B (zh) 语音处理方法及相关装置
Zilovic et al. Speaker identification based on the use of robust cepstral features obtained from pole-zero transfer functions
US20090106030A1 (en) Method of signal encoding
CN110663080A (zh) 通过频谱包络共振峰的频移动态修改语音音色的方法和装置
US7162417B2 (en) Speech synthesizing method and apparatus for altering amplitudes of voiced and invoiced portions
KR100216018B1 (ko) 배경음을 엔코딩 및 디코딩하는 방법 및 장치
JP3346200B2 (ja) 音声認識装置
JPH10247093A (ja) オーディオ情報分類装置
JPH0215080B2 (ja)
US20080228477A1 (en) Method and Device For Processing a Voice Signal For Robust Speech Recognition
JP2709926B2 (ja) 声質変換方法
JP2003157100A (ja) 音声通信方法及び装置、並びに音声通信プログラム
JPH07121197A (ja) 学習式音声認識方法
JPS6367197B2 (ja)
KR20000032269A (ko) 음향 기기의 음성인식장치
JPH11327593A (ja) 音声認識システム
JP2642694B2 (ja) 雑音除去方法
JP4146949B2 (ja) 音声処理装置
JP3015477B2 (ja) 音声認識方法
Hataoka et al. Compact and robust speech recognition for embedded use on microprocessors
JPH07334189A (ja) 音声情報分析装置
JPH0457098A (ja) 連続音声の音韻認識装置
JP3012994B2 (ja) 音韻識別方法
JP2002372982A (ja) 音響信号分析方法及び装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070906

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080906

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080906

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090906

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees