JPH0457097A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPH0457097A
JPH0457097A JP2168762A JP16876290A JPH0457097A JP H0457097 A JPH0457097 A JP H0457097A JP 2168762 A JP2168762 A JP 2168762A JP 16876290 A JP16876290 A JP 16876290A JP H0457097 A JPH0457097 A JP H0457097A
Authority
JP
Japan
Prior art keywords
reverberation
microphone
sound
voice
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2168762A
Other languages
English (en)
Inventor
Mizuhiro Hida
飛田 瑞広
Noboru Kanmura
管村 昇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2168762A priority Critical patent/JPH0457097A/ja
Publication of JPH0457097A publication Critical patent/JPH0457097A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、一般の室内環境で使用できる音声認識方法に
関する。
(従来の技術) 従来、一般の室内で発声した音声を認識しようとする場
合、収音した音と装置内の標準パターンが異なるため音
声認識率が低下する恐れがあった。
これは、標準パターンを作成した音声を収音した室内の
条件と実際に認識装置を使用する部屋の残響特性や反射
特性が異なることが原因である。このため、残響音等の
影響を極力排除してクリヤな音声を得るように、指向性
の鋭いマイクロホンを用いる方法、または残響のあるイ
ンパルスレスポンスから逆フィルタを求め、残響のある
音声に逆フイルタ処理を行なって残響を除去した音声に
ついて認識する方法等が用いられている。
(発明が解決しようとする課題) しかし、残響の大きな室内では、上記の方法によって残
響成分を十分に除去することは困難であり、実用上十分
な音声認識率を得ることができなかった。更に、使用す
る室内の環境条件が変化する毎にパターンマツチングを
行なうための標準テンプレートを作成する必要があった
。このため、送話者は、装置が設置される環境が変わる
度に各単語等を発声し、これら装置に学習させる必要が
あり、これらの音声を収集することは甚だ困難であった
本発明は、この様な点に鑑み、残響時間が大でかつ収音
距離が大の条件で収音した場合の音声でも、簡易な操作
を行なうことによって十分な認識性能を有する音声認識
方法を実現するものである。
(課題を解決するための手段) 上記課題を解決するため、本発明は、予めスピーカとマ
イクロホン間のインパルス信号による残響特性をスピー
カの位置を変えて求め、この残響特性を残響のないクリ
ーンな音声に付加して得られる残響模擬音声からパター
ンマツチング用の標準テンプレートを創成して認識を行
なうものである。
(作用) 本発明で用いるパターンマツチング用標準テンプレート
は、送話者が実際に使用する室内の複数箇所において、
インパルス信号による残響特性をもとに、残響のないク
リーンな音声信号から模擬的な標準残響音声パターンを
作成したものであるから、マイクロホンが設置される室
内環境が変わる場合においても、容易に音声認識できる
(実施例) 第1図は、本願発明による一実施例を示す。同図におい
て、■はマイクロホン、2はインパルス音を放射するた
めのスピーカ、3はインパルス信号発生部、4はA/D
変換部、5は切替えスイッチ、5AはA/D変換部4と
残響特性の評価・記憶部6を結線している状態、5Bは
A/D変換部4と音声分析部10を結線している状態、
6はスピーカとマイクロホン間の残響特性の評価・記憶
部、7は単語等のクリーン音声の辞書部、8は残響模擬
音声の創成部、9は標準テンプレート作成・蓄積部、1
0は認識すべき単語等を切り出す音声分析部、1)は認
識計算処理部、12は認識結果の出力・表示部、13は
インパルス信号発生部3とA/D変換部4を結ぶ制御用
の信号線である。
第2図は、室内の残響特性を求める場合のスピーカとマ
イクロホンの関係を示す。同図において、■はマイクロ
ホン、20の破線は送話者の行動範囲、21〜23は、
スピーカ2を設定する位置を示す。スピーカ2の位置2
1〜23は、送話者の行動範囲20内で、マイクロホン
lに対する送話者との距離(第2図中に示すd、2d、
3d等)ならびに角度(第2図中に示すα等)が、たと
えばほぼ等比間隔や等差間隔となるように選択する。
これは、収音した送話者の音声を少ない測定点でできる
だけ広い範囲を効率よくカバーするためである。スピー
カ2を順次これらの位置21〜23に配置してスピーカ
とマイクロホン間の残響特性を各々の場合について測定
する。
次に、残響特性の評価・記憶部6に収容するデータの作
成方法について述べる。
上記マイクロホンlおよびスピーカ2の配置条件に於て
、インパルス発生部3からインパルス信号を発生し、こ
れをスピーカ2に入力する。このインパルス信号の発生
と同期して、信号線13を介してスピーカ2の放射音を
マイクロホンlで収音する。マイクロホン1のアナログ
出力信号をA/D変換部4でA/D変換し、切替スイッ
チ5に導(。このとき切替スイッチ5は、同図に示した
5−A側に接続しておく。一定のサンプリング周期でA
/D変換した出力信号を、残響特性の評価・記憶部6に
入力し、直接音と初期反射音との到達時間差、ならびに
反射音や残響音の時間経過に伴う音圧レベルの変化特性
等をもとに、音声認識装置を使用する室内環境における
送話者とマイクロホン間の残響特性を求める。残響特性
の評価・記憶部6は、第2図で例示したような複数箇所
でスピーカの位置を順次変えて残響特性を求め記録する
。一方、クリーン音声辞書部7には、予め無響室や残響
の少ない防音室などで発声し音声をマイクロホンで収音
した音声信号を蓄えておく。残響模擬音声の創成部8は
、スピーカ2を各場所に移動して得た残響特性を用いて
、上記クリーン音声辞書部7内のクリーンな音声信号と
合成して、各々の残響模擬音声を作成する。
第3図は、残響模擬音声創成部8内で残響模擬音声を生
成する場合の例を示す。第3図(a)は、スピーカ2に
インパルス信号を与えたとき、マイクロホンlに発生す
る出力信号を示すインパルス応答特性である。LOは、
to秒後にスピーカ2からの放射音がマイクロホン1に
到達した際の直接音の音圧レベルを示す。Llはt1秒
後にインパルス音が各種の物体に当たりながらマイクロ
ホンlに到達した際の初期反射音の音圧レベルである。
以下同様に、L2以降は時間経過にともなう反射音の音
圧レベル変化の様子を示したものである。
次に第3図(b)を用いて、残響模擬音声を作成する方
法を述べる。
白丸印は、残響音のないクリーンな音声信号を示す。な
お、同図の白丸の時間間隔は、A/D変換時のサンプリ
ング周波数によって一義的に決まる。同図(a)の室内
残響特性がある場合、時刻10での音声信号S1は、時
刻Ll後においてL1/LOの値のレベルの変化を生じ
て黒丸印の値sllとなる。同様に、音声信号SlO音
圧レベルは、時刻tn後にはsinに低下する。よって
、時刻t1での音圧レベルは、もとの発声された直接音
の音圧レベルSa(白丸印)と上記sllの和となる。
時刻t2においては、音声信号Slの音圧レベルはL2
/LOの値を乗じた値にレベル変化を生じて黒丸印s1
2の値となる。同様に、時刻t2ての音圧レベルは、も
との発声された直接音Sb(白丸印)とS12の和とな
る。以下順次、t3〜tnにおいて、もとの直接音に残
響音を加算することによって音声信号S1が各時刻に及
ぼす残響音による音圧レベルを得る。また、時刻t1に
は音声信号Slの他、t1以前の音声信号S2.S3.
  ・・・が到達しており、同様にS21、S31. 
 ・・・・を加算して残響音を含む音声信号を作成する
。このようにして得た各時刻の音圧レベルの総和によっ
て形成される信号が残響音を含む残響模擬音声信号とな
る。
上記の方法をクリーンな音声辞書部7に収容しである種
々の単語等の音声について、各スピーカ2とマイクロホ
ン1の位置関係における残響特性をもとに行い、残響模
擬音声を創成する。
次に、残響模擬音声創成部8で作成した残響模擬音声か
ら、音声認識評価を行なう時に使用する標準テンプレー
トを作成し、その結果を標準テンプレート作成・蓄積部
9に蓄える。このとき蓄積される標準テンプレートは、
前述したように送話者の実使用時の行動範囲をカバーし
た位置に基づいて複数作成(マルチテンプレート)する
以上の行程が終了した時点で、音声認識の準備が完了し
た状態となる。次に、前述した切替スイッチ5を5−B
側に切り替え、音声認識装置の動作状態とする。この状
態以降では、スピーカ2及び、インパルス信号発生部3
の動作を停止する。
次に、送話者が発声した音声信号をマイクロホン1で収
音し、A/D変換部2でA/D変換して音声分析部IO
へ導く。音声分析部IOは、音声認識すべき音声信号部
分を切り出すとともに、評価分析に必要な各種のデータ
を計算する。この計算結果は、認識計算処理部1)に伝
送する。認識計算処理部1)は、この切り出した音声信
号部分について先に求めた標準テンプレート作成・蓄積
部9に蓄えた標準テンプレートと照合し、両パターンの
類似性について距離計算を行なう。この照合は、従来の
連続単語認識における動的計画法等を利用して行なう。
照合した結果は、出力表示部12等に出力する。
(発明の効果) 第4図は、本願発明による音声認識方法による単語音声
認識率を評価した結果の一例である。同図は、マイクロ
ホンの種類(無指向性・単一指向性)及び収音距離(大
・小)をパラメータとして1、残響時間(小・中・大)
による音声認識率の関係を示したものである。音声認識
条件が悪い場合(残響時間が大、収録距離が大)におい
ても、無指向性マイクロホンの場合90%以上、指向性
マイクロホンの場合約95%以上と高い音声認識率を得
ることができることが分かる。
一方、第5図は、従来の音声認識方法による単語音声認
識率を第4図と同様に評価した結果の一例である。なお
、標準テンプレートは残響音のない室内で発声した音声
を用いている。同図から、音声認識条件が悪い場合(残
響時間が大、収録距離が大)、音声認識率が低下してい
ることが分かる。また、無指向性マイクロホンを用いる
よりは、指向性を有したマイクロホンを用いたときの方
が、高い音声認識率が得られるが、その性能は十分でな
い。
第4図に示すように本願発明による音声認識率は、第5
図に示した従来の方法に比べて、特に残響時間や収音距
離の大きいところで約25〜35%高い値であり、良好
な特性が得られる以上説明したように、本願発明による
音声認識方法は、室内条件や、マイクロホンに対する距
離や角度等が変化する度毎に、学習のための発声を行な
う必要が無くなるため、学習を行なうための大幅な時間
の節約と送話者の発声負担の除去という大きな利点を有
するとともに、残響の大きな特性を有する室内に於ても
高い認識性能を得ることが出来る。
第1図は本願発明の音声認識方法の一実施例、第2図は
残響特性を収集する際のマイクロホンとスピーカの配置
の一例、第3図はクリーンな音声から残響模擬音声を創
成する説明図、第4図は本願発明の音声認識方法による
音声認識率の一例、第5図は従来の音声認識装置の音声
認識率を第4図と同じ条件で測定した場合の一例である
■はマイクロホン、2はインパルス音を放射するための
スピーカ、6はスピーカとマイクロホン間の残響特性の
評価・記憶部、7はクリーン音声の辞書部、8は残響模
擬音声の創成部、9は標準テンプレート作成・蓄積部、
1oは音声分析部、1)は認識計算処理部である。

Claims (2)

    【特許請求の範囲】
  1. (1)インパルス信号をスピーカに入力して得られる放
    射音をマイクロホンで受けることによって、該スピーカ
    と該マイクロホン間の残響特性を測定し、予め反射ある
    いは残響のない空間で収音した単語等の音声信号につい
    て前記残響特性を用いて残響音を付加した残響模擬音声
    を創成してパターンマッチング用の標準テンプレートを
    作成しておき、音声認識する場合は、送話者の音声をマ
    イクロホンで収音して得られる音声パターンを前記残響
    模擬音声のパターンマッチング用標準テンプレートと照
    合して音声認識を行なうことを特徴とする音声認識方法
  2. (2)請求項第1項記載の残響特性の測定は、前記マイ
    クロホンが収音すべき領域の代表的な複数の箇所におい
    てスピーカの位置を変えて行うことを特徴とする音声認
    識方法。
JP2168762A 1990-06-27 1990-06-27 音声認識方法 Pending JPH0457097A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2168762A JPH0457097A (ja) 1990-06-27 1990-06-27 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2168762A JPH0457097A (ja) 1990-06-27 1990-06-27 音声認識方法

Publications (1)

Publication Number Publication Date
JPH0457097A true JPH0457097A (ja) 1992-02-24

Family

ID=15873973

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2168762A Pending JPH0457097A (ja) 1990-06-27 1990-06-27 音声認識方法

Country Status (1)

Country Link
JP (1) JPH0457097A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007241304A (ja) * 2007-04-20 2007-09-20 Sony Corp 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JP2009271359A (ja) * 2008-05-08 2009-11-19 Toyota Motor Corp 処理装置、音声認識装置、音声認識システム、音声認識方法、及び音声認識プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007241304A (ja) * 2007-04-20 2007-09-20 Sony Corp 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JP2009271359A (ja) * 2008-05-08 2009-11-19 Toyota Motor Corp 処理装置、音声認識装置、音声認識システム、音声認識方法、及び音声認識プログラム
JP4532576B2 (ja) * 2008-05-08 2010-08-25 トヨタ自動車株式会社 処理装置、音声認識装置、音声認識システム、音声認識方法、及び音声認識プログラム

Similar Documents

Publication Publication Date Title
Vecchiotti et al. End-to-end binaural sound localisation from the raw waveform
Postma et al. Perceptive and objective evaluation of calibrated room acoustic simulation auralizations
CN110415681B (zh) 一种语音识别效果测试方法及系统
Christensen et al. The CHiME corpus: a resource and a challenge for computational hearing in multisource environments
Omologo et al. Use of the crosspower-spectrum phase in acoustic event location
Ratnam et al. Blind estimation of reverberation time
McCowan et al. Microphone array post-filter for diffuse noise field
JP4964204B2 (ja) 複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体
Weinstein et al. A 1020-node modular microphone array and beamformer for intelligent computing spaces
Raykar et al. Speaker localization using excitation source information in speech
Ravanelli et al. Impulse response estimation for robust speech recognition in a reverberant environment
Matassoni et al. The DIRHA-GRID corpus: baseline and tools for multi-room distant speech recognition using distributed microphones
Gamper et al. Predicting word error rate for reverberant speech
Bechler et al. Reliability criteria evaluation for TDOA estimates in a variety of real environments
WO2023051622A1 (zh) 提升远场语音交互性能的方法和远场语音交互系统
JPH0457097A (ja) 音声認識方法
JP2005181391A (ja) 音声処理装置および音声処理方法
Kim et al. Haptic conversion using detected sound event in home monitoring system for the hard-of-hearing
Firoozabadi et al. Combination of nested microphone array and subband processing for multiple simultaneous speaker localization
Youssef et al. From monaural to binaural speaker recognition for humanoid robots
Cirillo et al. Sound mapping in reverberant rooms by a robust direct method
US20050004792A1 (en) Speech characteristic extraction method speech charateristic extraction device speech recognition method and speech recognition device
Smith et al. Determining ITDs using two microphones on a flat panel during onset intervals with a biologically inspired spike-based technique
KR101073632B1 (ko) 반향 환경에서의 영교차 기반 다음원 국지화 방법 및 장치
Youssef et al. Binaural speaker recognition for humanoid robots