JP2990051B2 - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JP2990051B2 JP2990051B2 JP7279987A JP27998795A JP2990051B2 JP 2990051 B2 JP2990051 B2 JP 2990051B2 JP 7279987 A JP7279987 A JP 7279987A JP 27998795 A JP27998795 A JP 27998795A JP 2990051 B2 JP2990051 B2 JP 2990051B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- microphone
- signal
- input
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
【0001】
【発明の属する技術分野】本発明は音声認識装置に関
し、特に2つのマイクロフォンにより2入力音声検出を
行って音声区間を切り出し発声音声を認識処理する音声
認識装置に関する。
し、特に2つのマイクロフォンにより2入力音声検出を
行って音声区間を切り出し発声音声を認識処理する音声
認識装置に関する。
【0002】
【従来の技術】2つのマイクロフォンを使用した2入力
音声検出により発声音声を認識処理する第1の従来技術
として特開昭62−42197号公報の「音声区間検出
方法」がある。この第1の従来技術である「音声区間検
出方法」を図3のブロック図を参照して説明すると、こ
の音声区間検出方法は、発声者の音声と周囲ノイズのS
N比が大きくなるように設置したメインマイクロフォン
101と、メインマイクロフォン101に比べてSN比
が小さくなるように設置したサブマイクロフォン102
と、メインマイクロフォン101からの入力信号を前処
理するメインマイク前処理部103と、サブマイクロフ
ォン102からの入力信号を前処理するサブマイク前処
理部104と、メインマイクロフォン101からの入力
信号のパワーを算出するメインマイクパワー算出部と、
サブマイクロフォン104からの入力信号のパワーを算
出するサブマイクパワー算出部104からの入力のパワ
ーを算出するサブマイクパワー算出部106と、騒音学
習時にメインマイクパワー算出部105で算出した騒音
レベルのパワーに基づき音声区間算出のためのスレショ
ールドPT を設定する騒音学習部107と、騒音学習部
107により設定されたスレショールドPT と予め定め
られた時間のスレショールド時間のスレショールドtT
に基づき音声区間候補を検出する音声区間候補検出部1
08と、メインマイクパワー算出部105の出力とサブ
マイクパワー算出部106の出力との差(または比)を
求めるレベル差(または比)検出部109と、レベル差
検出部109の出力に基づき音声区間候補検出部108
により判定された音声区間候補を音声区間として採用す
るかまたはそれを棄却するかを決定する音声区間決定部
110と、音声区間決定部110で決定された音声区間
の発声音声を認識する音声認識部111とから構成され
る。この第1の従来例においては、入力用の2個のマイ
クロフォンの内メインマイクロフォン101は発声者の
正面20cmの位置に設置し、サブマイクロフォン10
2は横80cmの位置に設置している。また両マイクロ
フォン共、周囲ノイズは同じような条件で入力するよう
に設置してある。図3において、先ず音声が入力される
以前の周囲ノイズのパワーのレベルを、メインマイクロ
フォン101を用いて騒音学習部107において学習し
ておく。以後メインマイクロフォン101の入力パワー
レベルの監視を続け、音声区間候補108においてその
レベルが騒音学習部107で設定したスレショールドP
T より大である時間がスレショールドtT 以上のときに
その区間を音声区間候補とし、その条件を満たさない場
合には以上の動作を続ける。音声区間候補が見い出され
た場合には、レベル差検出部109はその区間におけ
る、メインマイクロフォン101からの入力の平均パワ
ーレベル(db)とサブマイクロフォン102からの入
力の平均パワーレベル(db)との差を計算し、音声区
間決定部110はその差が予め定めたスレショールドT
lem より大きいときにはその区間を音声区間とし、条件
を満たさないときにはその音声候補区間を棄却し、ノイ
ズレベル学習直後の動作に戻る。ここでパワーレベルの
スレショールドPT は、前述の学習された周囲ノイズの
パワーレベルに、予め定められた適当な値を加えた値と
する。時間のスレショールドtT 、およびパワーのレベ
ルの差のスレショールドTlem は、予めそれぞれ適当に
定められた値である。
音声検出により発声音声を認識処理する第1の従来技術
として特開昭62−42197号公報の「音声区間検出
方法」がある。この第1の従来技術である「音声区間検
出方法」を図3のブロック図を参照して説明すると、こ
の音声区間検出方法は、発声者の音声と周囲ノイズのS
N比が大きくなるように設置したメインマイクロフォン
101と、メインマイクロフォン101に比べてSN比
が小さくなるように設置したサブマイクロフォン102
と、メインマイクロフォン101からの入力信号を前処
理するメインマイク前処理部103と、サブマイクロフ
ォン102からの入力信号を前処理するサブマイク前処
理部104と、メインマイクロフォン101からの入力
信号のパワーを算出するメインマイクパワー算出部と、
サブマイクロフォン104からの入力信号のパワーを算
出するサブマイクパワー算出部104からの入力のパワ
ーを算出するサブマイクパワー算出部106と、騒音学
習時にメインマイクパワー算出部105で算出した騒音
レベルのパワーに基づき音声区間算出のためのスレショ
ールドPT を設定する騒音学習部107と、騒音学習部
107により設定されたスレショールドPT と予め定め
られた時間のスレショールド時間のスレショールドtT
に基づき音声区間候補を検出する音声区間候補検出部1
08と、メインマイクパワー算出部105の出力とサブ
マイクパワー算出部106の出力との差(または比)を
求めるレベル差(または比)検出部109と、レベル差
検出部109の出力に基づき音声区間候補検出部108
により判定された音声区間候補を音声区間として採用す
るかまたはそれを棄却するかを決定する音声区間決定部
110と、音声区間決定部110で決定された音声区間
の発声音声を認識する音声認識部111とから構成され
る。この第1の従来例においては、入力用の2個のマイ
クロフォンの内メインマイクロフォン101は発声者の
正面20cmの位置に設置し、サブマイクロフォン10
2は横80cmの位置に設置している。また両マイクロ
フォン共、周囲ノイズは同じような条件で入力するよう
に設置してある。図3において、先ず音声が入力される
以前の周囲ノイズのパワーのレベルを、メインマイクロ
フォン101を用いて騒音学習部107において学習し
ておく。以後メインマイクロフォン101の入力パワー
レベルの監視を続け、音声区間候補108においてその
レベルが騒音学習部107で設定したスレショールドP
T より大である時間がスレショールドtT 以上のときに
その区間を音声区間候補とし、その条件を満たさない場
合には以上の動作を続ける。音声区間候補が見い出され
た場合には、レベル差検出部109はその区間におけ
る、メインマイクロフォン101からの入力の平均パワ
ーレベル(db)とサブマイクロフォン102からの入
力の平均パワーレベル(db)との差を計算し、音声区
間決定部110はその差が予め定めたスレショールドT
lem より大きいときにはその区間を音声区間とし、条件
を満たさないときにはその音声候補区間を棄却し、ノイ
ズレベル学習直後の動作に戻る。ここでパワーレベルの
スレショールドPT は、前述の学習された周囲ノイズの
パワーレベルに、予め定められた適当な値を加えた値と
する。時間のスレショールドtT 、およびパワーのレベ
ルの差のスレショールドTlem は、予めそれぞれ適当に
定められた値である。
【0003】次に、2つのマイクロフォンを使用した2
入力音声検出により、特に周囲に雑音がある環境下でも
良好に発声音声の認識処理が行なえる第2および第3の
従来技術として特開昭58−196599号公報があ
る。
入力音声検出により、特に周囲に雑音がある環境下でも
良好に発声音声の認識処理が行なえる第2および第3の
従来技術として特開昭58−196599号公報があ
る。
【0004】一般に、周囲に雑音のある環境下で音声認
識が行なえるようにする場合には、図4に示すように音
声用マイクロフォン201以外に雑音用マイクロフォン
202を設け、この雑音用マイクロフォン202からの
出力信号を遅延器203で遅延させて利得制御器204
を通した後に減算器205に加え、この減算器205で
上記音声用マイクロフォン201からの出力信号との減
算処理を行なった後に上記減算器205の出力を特徴抽
出部206に加えて特徴部を抽出して記憶部207に記
憶しておき、音声認識に際して上記特徴抽出部206か
らの信号を認識部208にて上記記憶部207に記憶さ
れた特徴部とパターンマッチングの手法にて照合するこ
とにより行なっている。すなわち、この第2の従来技術
である音声認識装置においては、話者209が音声用マ
イクロホン201に向かって認識させる言葉を喋り、音
声用マイクロフォン201の出力信号から雑音用マイク
ロフォン202の出力信号を遅延器203で遅延させ、
利得制御器204で利得制御を行なった後に差し引くと
いう操作を行ない、話者209が発声する音声以外の音
(雑音)を除去して、その信号で音声認識を行なおうと
するものであった。しかしながら、この第2の従来技術
の音声認識装置では、雑音源から2つとマイクロフォン
201および202への伝幡距離の違いによって生じる
位相のずれを遅延器203にて補償することができる
が、この遅延器203は雑音源が単一の場合だけであ
り、雑音源が複数で異なる場所にある場合には位相のず
れを補正しきれず、音声認識は良好に行ないにくい欠点
があった。また、この音声認識装置を、自動車内等の狭
く閉じられた空間内で用いる場合には雑音源から発生す
る雑音による音声用のマイクロフォン201と雑音用マ
イクロフォン202の出力信号がレベルの差だけではな
く、音場特性により周波数もかなり変化しているので利
得制御器204により利得制御を行なっただけでは十分
に雑音を除去できず、音声認識は良好に行ないにくい欠
点があった。
識が行なえるようにする場合には、図4に示すように音
声用マイクロフォン201以外に雑音用マイクロフォン
202を設け、この雑音用マイクロフォン202からの
出力信号を遅延器203で遅延させて利得制御器204
を通した後に減算器205に加え、この減算器205で
上記音声用マイクロフォン201からの出力信号との減
算処理を行なった後に上記減算器205の出力を特徴抽
出部206に加えて特徴部を抽出して記憶部207に記
憶しておき、音声認識に際して上記特徴抽出部206か
らの信号を認識部208にて上記記憶部207に記憶さ
れた特徴部とパターンマッチングの手法にて照合するこ
とにより行なっている。すなわち、この第2の従来技術
である音声認識装置においては、話者209が音声用マ
イクロホン201に向かって認識させる言葉を喋り、音
声用マイクロフォン201の出力信号から雑音用マイク
ロフォン202の出力信号を遅延器203で遅延させ、
利得制御器204で利得制御を行なった後に差し引くと
いう操作を行ない、話者209が発声する音声以外の音
(雑音)を除去して、その信号で音声認識を行なおうと
するものであった。しかしながら、この第2の従来技術
の音声認識装置では、雑音源から2つとマイクロフォン
201および202への伝幡距離の違いによって生じる
位相のずれを遅延器203にて補償することができる
が、この遅延器203は雑音源が単一の場合だけであ
り、雑音源が複数で異なる場所にある場合には位相のず
れを補正しきれず、音声認識は良好に行ないにくい欠点
があった。また、この音声認識装置を、自動車内等の狭
く閉じられた空間内で用いる場合には雑音源から発生す
る雑音による音声用のマイクロフォン201と雑音用マ
イクロフォン202の出力信号がレベルの差だけではな
く、音場特性により周波数もかなり変化しているので利
得制御器204により利得制御を行なっただけでは十分
に雑音を除去できず、音声認識は良好に行ないにくい欠
点があった。
【0005】第3の従来技術である音声認識装置はこの
ような第2の従来技術の欠点を解消するためのものであ
り、音声用マイクロフォンと雑音用マイクロフォンの出
力信号をそれぞれ特徴抽出部で特徴部を抽出すると共に
上記雑音用マイクロフォンの出力信号について上記特徴
抽出部を構成する各チャンネル毎に利得制御し、これら
特徴抽出部で抽出したデータの差を取りパターンマッチ
ングして音声認識するように構成したものである。かか
る構成によれば、音声用マイクロフォンと雑音用マイク
ロフォンの出力信号のレベル差だけでなく、音場特性に
起因する周波数特性についても背景雑音の影響をあまり
受けることなく音声認識することができ、これによって
雑音環境下での音声認識を良好に行なうことができる利
点を有するものである。すなわち、音声認識においては
信号の位相情報は重要な意味を持たないので、特徴抽出
部では位相の情報は捨ててしまっている。よって、音声
用マイクロフォンと雑音用マイクロフォンの出力信号を
それぞれ特徴抽出部で特徴抽出した後に両信号の差をと
って、そのデータでパターンマッチングを行なっても、
背景雑音の影響をあまり受けずに音声認識を行なうこと
ができる。また、雑音用マイクロフォンの出力信号につ
いて特徴抽出部の各チャンネル信号毎に個々に利得制御
を行なうことによりレベル差および周波数特性の違いを
吸収することができるので、雑音の除去がより厳密に行
なえ、背景雑音が複雑に存在する場所でも安定した音声
認識をすることができる。
ような第2の従来技術の欠点を解消するためのものであ
り、音声用マイクロフォンと雑音用マイクロフォンの出
力信号をそれぞれ特徴抽出部で特徴部を抽出すると共に
上記雑音用マイクロフォンの出力信号について上記特徴
抽出部を構成する各チャンネル毎に利得制御し、これら
特徴抽出部で抽出したデータの差を取りパターンマッチ
ングして音声認識するように構成したものである。かか
る構成によれば、音声用マイクロフォンと雑音用マイク
ロフォンの出力信号のレベル差だけでなく、音場特性に
起因する周波数特性についても背景雑音の影響をあまり
受けることなく音声認識することができ、これによって
雑音環境下での音声認識を良好に行なうことができる利
点を有するものである。すなわち、音声認識においては
信号の位相情報は重要な意味を持たないので、特徴抽出
部では位相の情報は捨ててしまっている。よって、音声
用マイクロフォンと雑音用マイクロフォンの出力信号を
それぞれ特徴抽出部で特徴抽出した後に両信号の差をと
って、そのデータでパターンマッチングを行なっても、
背景雑音の影響をあまり受けずに音声認識を行なうこと
ができる。また、雑音用マイクロフォンの出力信号につ
いて特徴抽出部の各チャンネル信号毎に個々に利得制御
を行なうことによりレベル差および周波数特性の違いを
吸収することができるので、雑音の除去がより厳密に行
なえ、背景雑音が複雑に存在する場所でも安定した音声
認識をすることができる。
【0006】図5のブロック図を参照して説明すると、
音声波を集音する音声用マイクロフォン310と雑音用
マイクロフォン311の出力信号は別々の特徴抽出部3
12および313で特徴抽出し、雑音用マイクロフォン
311の出力信号から特徴抽出された各特徴抽出信号は
雑音が最も良く除去できるように各チャンネル毎に利得
制御器314にて利得制御した後に減算器315に加
え、この減算器315にて特徴抽出された音声用マイク
ロフォン310の信号から差し引く。登録時には上記減
算器315と出力を記憶部316に送り、認識時には上
記減算器315の出力を認識部317に送り、記憶部3
16に登録されているデータとパターン・マッチングを
行ない、最も距離の近かったものを認識結果として出力
する。
音声波を集音する音声用マイクロフォン310と雑音用
マイクロフォン311の出力信号は別々の特徴抽出部3
12および313で特徴抽出し、雑音用マイクロフォン
311の出力信号から特徴抽出された各特徴抽出信号は
雑音が最も良く除去できるように各チャンネル毎に利得
制御器314にて利得制御した後に減算器315に加
え、この減算器315にて特徴抽出された音声用マイク
ロフォン310の信号から差し引く。登録時には上記減
算器315と出力を記憶部316に送り、認識時には上
記減算器315の出力を認識部317に送り、記憶部3
16に登録されているデータとパターン・マッチングを
行ない、最も距離の近かったものを認識結果として出力
する。
【0007】
【発明が解決しようとする課題】これらの従来の音声認
識装置では音声用マイクロフォンと雑音用マイクロフォ
ンとは区別されており、音声入力用のマイクロフォンが
どちらかを使用前に確認する煩らわしさがあった。
識装置では音声用マイクロフォンと雑音用マイクロフォ
ンとは区別されており、音声入力用のマイクロフォンが
どちらかを使用前に確認する煩らわしさがあった。
【0008】また、音声マイクロフォンが視覚的に区別
されていても、装置への接続が誤って反対になっている
場合もあり得るため確認作業が不可欠であり、装置利用
上ミスを犯しやすいという問題があった。
されていても、装置への接続が誤って反対になっている
場合もあり得るため確認作業が不可欠であり、装置利用
上ミスを犯しやすいという問題があった。
【0009】
【0010】
【課題を解決するための手段】本発明による音声認識装
置は、第1および第2のマイクロフォンにより2入力音
声検出を行って発声音声を認識処理する音声認識装置に
おいて、第1の音声区間検出手段が、前記第1のマイク
ロフォンに向って発生されたときの発声音声前記第1の
マイクロフォンの第1の出力端から第1の音声信号とし
て音声入力端に入力するとともに前記第2のマイクロフ
ォンの第2の出力端から第1の騒音信号として雑音入力
端に入力して前記第1のマイクロフォンに向って発声さ
れた音声の音声区間を検出しその音声区間の前記第1の
音声信号を切り出して第3の音声信号として出力し、第
2の音声区間検出手段が、前記第2のマイクロフォンに
向って発声されたときの発声音声を前記第2とマイクロ
フォンの第1の出力端から第2の音声信号として音声入
力端に入力するとともに前記第1のマイクロフォンの第
2の出力端から第2の騒音信号として雑音入力端に入力
して前記第2のマイクロフォンに向って発声された音声
の音声区間を検出してその音声区間の前記第2の音声信
号を切り出して第4の音声信号として出力して、前記第
3の音声信号および前記第4の音声信号をもとに各々の
マイクロフォンに向って発声された発声音声の各々を認
識処理する。
置は、第1および第2のマイクロフォンにより2入力音
声検出を行って発声音声を認識処理する音声認識装置に
おいて、第1の音声区間検出手段が、前記第1のマイク
ロフォンに向って発生されたときの発声音声前記第1の
マイクロフォンの第1の出力端から第1の音声信号とし
て音声入力端に入力するとともに前記第2のマイクロフ
ォンの第2の出力端から第1の騒音信号として雑音入力
端に入力して前記第1のマイクロフォンに向って発声さ
れた音声の音声区間を検出しその音声区間の前記第1の
音声信号を切り出して第3の音声信号として出力し、第
2の音声区間検出手段が、前記第2のマイクロフォンに
向って発声されたときの発声音声を前記第2とマイクロ
フォンの第1の出力端から第2の音声信号として音声入
力端に入力するとともに前記第1のマイクロフォンの第
2の出力端から第2の騒音信号として雑音入力端に入力
して前記第2のマイクロフォンに向って発声された音声
の音声区間を検出してその音声区間の前記第2の音声信
号を切り出して第4の音声信号として出力して、前記第
3の音声信号および前記第4の音声信号をもとに各々の
マイクロフォンに向って発声された発声音声の各々を認
識処理する。
【0011】
【0012】また、本発明による音声認識装置は、発声
音声を電気信号に変換する近接して設置される第1のマ
イクロフォンおよび第2のマイクロフォンと、前記第1
のマイクロフォンの第1の出力端から出力される第1の
電気信号を第1の入力端に第1の音声信号として入力し
かつ前記第2のマイクロフォンの第2の出力端から出力
される第2の電気信号を所定の第1の遅延時間を有する
第1の遅延手段を通して第2の入力端に第1の雑音信号
として入力して前記第1の音声信号のレベルが前記第1
の雑音信号のレベルより大きいときのみ前記第1のマイ
クロフォンに向って発声し出力された前記第1の音声信
号の音声区間を検出して第1の音声区間とするとともに
その第1の音声区間の前記第1の音声信号を切り出して
第2の音声信号として出力する第1の音声検出手段と、
前記第2のマイクロフォンの第1の出力端から出力され
る前記第2の電気信号を第1の入力端に第3の音声信号
として入力しかつ前記第1のマイクロフォンの第2の出
力端から出力される前記第1の電気信号を所定の第2の
遅延時間を有する第2の遅延手段を通して第2の入力端
に第2の雑音信号として入力して前記第3の音声信号の
レベルが前記第2の雑音信号のレベルより大きいときの
み前記第2のマイクロフォンに向って発声し出力された
前記第3の音声信号の音声区間を検出して第2の音声区
間とするとともにその第2の音声区間の前記第3の音声
信号を切り出して第4の音声信号として出力する第2の
音声検出手段と、前記第1の音声検出手段からの前記第
3の音声信号の特徴量を算出して特徴ベクトル系列に変
換し第1の特徴ベクトル系列として出力する第1の特徴
抽出手段と、前記第2の音声検出手段からの前記第4の
音声信号の特徴量を算出して特徴ベクトル系列に変換し
第2の特徴ベクトル系列として出力する第2の特徴抽出
手段と、前記第1の特徴抽出手段から入力される前記第
1の特徴ベクトル系列と前記第2の特徴抽出手段から入
力される前記第2の特徴ベクトル系列とを比較して最初
に音声区間の終端が検出された方の特徴ベクトル系列を
選択して第3の特徴ベクトル系列として出力する選択手
段と、前記選択手段から入力される前記第3の特徴ベク
トル系列から前記第1のマイクロフォンあるいは前記第
2のマイクロフォンに向って発声された発声音声を認識
処理する認識処理手段と、を備える。
音声を電気信号に変換する近接して設置される第1のマ
イクロフォンおよび第2のマイクロフォンと、前記第1
のマイクロフォンの第1の出力端から出力される第1の
電気信号を第1の入力端に第1の音声信号として入力し
かつ前記第2のマイクロフォンの第2の出力端から出力
される第2の電気信号を所定の第1の遅延時間を有する
第1の遅延手段を通して第2の入力端に第1の雑音信号
として入力して前記第1の音声信号のレベルが前記第1
の雑音信号のレベルより大きいときのみ前記第1のマイ
クロフォンに向って発声し出力された前記第1の音声信
号の音声区間を検出して第1の音声区間とするとともに
その第1の音声区間の前記第1の音声信号を切り出して
第2の音声信号として出力する第1の音声検出手段と、
前記第2のマイクロフォンの第1の出力端から出力され
る前記第2の電気信号を第1の入力端に第3の音声信号
として入力しかつ前記第1のマイクロフォンの第2の出
力端から出力される前記第1の電気信号を所定の第2の
遅延時間を有する第2の遅延手段を通して第2の入力端
に第2の雑音信号として入力して前記第3の音声信号の
レベルが前記第2の雑音信号のレベルより大きいときの
み前記第2のマイクロフォンに向って発声し出力された
前記第3の音声信号の音声区間を検出して第2の音声区
間とするとともにその第2の音声区間の前記第3の音声
信号を切り出して第4の音声信号として出力する第2の
音声検出手段と、前記第1の音声検出手段からの前記第
3の音声信号の特徴量を算出して特徴ベクトル系列に変
換し第1の特徴ベクトル系列として出力する第1の特徴
抽出手段と、前記第2の音声検出手段からの前記第4の
音声信号の特徴量を算出して特徴ベクトル系列に変換し
第2の特徴ベクトル系列として出力する第2の特徴抽出
手段と、前記第1の特徴抽出手段から入力される前記第
1の特徴ベクトル系列と前記第2の特徴抽出手段から入
力される前記第2の特徴ベクトル系列とを比較して最初
に音声区間の終端が検出された方の特徴ベクトル系列を
選択して第3の特徴ベクトル系列として出力する選択手
段と、前記選択手段から入力される前記第3の特徴ベク
トル系列から前記第1のマイクロフォンあるいは前記第
2のマイクロフォンに向って発声された発声音声を認識
処理する認識処理手段と、を備える。
【0013】
【0014】
【発明の実施の形態】次に、本発明について図面を参照
して説明する。本発明の第1の実施例を示す図1を参照
すると、音声認識装置は、音声入力者から入力される発
声音声を電気信号に変換して出力端Aから音声信号aお
よび出力端Bから音声信号bを各々同一インピーダンス
および同一レベルで出力する単一指向性のマイクロフォ
ン1と、マイクロフォン1とは音声入力の方向を異にし
て音声入力者から入力される発声音声を電気信号に変換
して出力端Aから音声信号cおよび出力端Bから音声信
号dを各各同一インピーダンスおよび同一レベルで出力
する単一指向性のマイクロフォン2と、マイクロフォン
1の出力端Aから音声入力端Cに入力される音声信号a
をマイクロフォン1への音声入力者の発声音声として検
出するとともにマイクロフォン2の出力端Bから雑音入
力端Dに入力される音声信号cを雑音成分として検出し
てマイクロフォン1から入力される音声信号aの音声区
間を特定しその切り出された音声区間の音声信号を音声
信号eとして出力する音声区間検出部3と、マイクロフ
ォン1の出力端Bから雑音入力端Dに入力される音声信
号bを雑音成分として検出するとともにマイクロフォン
2の出力端Aから音声入力端Cに入力される音声信号c
をマイクロフォン2への音声入力者の発声音声として検
出してマイクロフォン2から入力される音声信号cの音
声区間を特定しその切り出された音声区間の音声信号を
音声信号fとして出力する音声区間検出部4と、音声区
間検出部3から入力される音声信号eの特徴量を算出し
て時系列の特徴ベクトルに変換し特徴ベクトル系列gと
して出力する特徴抽出部5と、音声区間検出部4から入
力される音声信号fの特徴量を算出して時系列の特徴ベ
クトルに変換し特徴ベクトル系列hとして出力する特徴
抽出部6と、特徴抽出部5から入力される特徴ベクトル
系列gと特徴抽出部6から入力される特徴ベクトル系列
hとを同時刻で比較して音声検出結果の終端が早く検出
された方つまり音声信号eの終端と音声信号fの終端の
うちの早く終端が検出された方の特徴量を認識対象の特
徴量として選択するように特徴ベクトル系列を選択して
特徴ベクトル系列iとして出力する選択部7と、選択部
7から入力される特徴ベクトル系列iの特徴量に対して
認識処理を行うことにより選択部7で選択された側のマ
イクロフォンに入力される発声音声を認識処理する認識
処理部8とから構成される。
して説明する。本発明の第1の実施例を示す図1を参照
すると、音声認識装置は、音声入力者から入力される発
声音声を電気信号に変換して出力端Aから音声信号aお
よび出力端Bから音声信号bを各々同一インピーダンス
および同一レベルで出力する単一指向性のマイクロフォ
ン1と、マイクロフォン1とは音声入力の方向を異にし
て音声入力者から入力される発声音声を電気信号に変換
して出力端Aから音声信号cおよび出力端Bから音声信
号dを各各同一インピーダンスおよび同一レベルで出力
する単一指向性のマイクロフォン2と、マイクロフォン
1の出力端Aから音声入力端Cに入力される音声信号a
をマイクロフォン1への音声入力者の発声音声として検
出するとともにマイクロフォン2の出力端Bから雑音入
力端Dに入力される音声信号cを雑音成分として検出し
てマイクロフォン1から入力される音声信号aの音声区
間を特定しその切り出された音声区間の音声信号を音声
信号eとして出力する音声区間検出部3と、マイクロフ
ォン1の出力端Bから雑音入力端Dに入力される音声信
号bを雑音成分として検出するとともにマイクロフォン
2の出力端Aから音声入力端Cに入力される音声信号c
をマイクロフォン2への音声入力者の発声音声として検
出してマイクロフォン2から入力される音声信号cの音
声区間を特定しその切り出された音声区間の音声信号を
音声信号fとして出力する音声区間検出部4と、音声区
間検出部3から入力される音声信号eの特徴量を算出し
て時系列の特徴ベクトルに変換し特徴ベクトル系列gと
して出力する特徴抽出部5と、音声区間検出部4から入
力される音声信号fの特徴量を算出して時系列の特徴ベ
クトルに変換し特徴ベクトル系列hとして出力する特徴
抽出部6と、特徴抽出部5から入力される特徴ベクトル
系列gと特徴抽出部6から入力される特徴ベクトル系列
hとを同時刻で比較して音声検出結果の終端が早く検出
された方つまり音声信号eの終端と音声信号fの終端の
うちの早く終端が検出された方の特徴量を認識対象の特
徴量として選択するように特徴ベクトル系列を選択して
特徴ベクトル系列iとして出力する選択部7と、選択部
7から入力される特徴ベクトル系列iの特徴量に対して
認識処理を行うことにより選択部7で選択された側のマ
イクロフォンに入力される発声音声を認識処理する認識
処理部8とから構成される。
【0015】以上の構成により、マイクロフォン1に向
って音声が発せられた場合は音声区間検出部3において
先に音声区間の終端が検出されるので、特徴抽出部5か
ら出力される特徴量つまり特徴ベクトル系列gが選択部
7で選択され、またマイクロフォン2に向って音声が発
せられた場合には音声区間検出部4において先に音声区
間の終端が検出されるので特徴抽出部6から出力される
特徴量つまり特徴ベクトル系列hが選択部7で選択され
るため、いずれのマイクロフォンに向って音声が発せら
れた場合でも、認識処理部8は各各の音声区間の特徴量
を個々に受理することができ、2つのマイクロフォンを
音声入力用および雑音入力用等に区別することなくいず
れのマイクロフォンをも音声入力用として使用すること
ができる。
って音声が発せられた場合は音声区間検出部3において
先に音声区間の終端が検出されるので、特徴抽出部5か
ら出力される特徴量つまり特徴ベクトル系列gが選択部
7で選択され、またマイクロフォン2に向って音声が発
せられた場合には音声区間検出部4において先に音声区
間の終端が検出されるので特徴抽出部6から出力される
特徴量つまり特徴ベクトル系列hが選択部7で選択され
るため、いずれのマイクロフォンに向って音声が発せら
れた場合でも、認識処理部8は各各の音声区間の特徴量
を個々に受理することができ、2つのマイクロフォンを
音声入力用および雑音入力用等に区別することなくいず
れのマイクロフォンをも音声入力用として使用すること
ができる。
【0016】詳述すると、マイクロフォン1とマイクロ
フォン2とは共に同一の出力インピーダンスを持つ単一
指向性のマイクロフォンであり、例えばマイクロフォン
1を垂直上向きに設置した場合はマイクロフォン2は水
平横向きに設置し、逆にマイクロフォン2を垂直上向き
に設置した場合はマイクロフォン1は水平横向きに設置
する。つまり、2つのマイクロフォンの向きが90度開
くように各々設置して一方のマイクロフォンに向って発
声された音声が他方のマイクロフォンに入力されるとき
にはその指向性により騒音相当レベルになるように設置
する。2つのマイクロフォン間の距離は例えば約60c
mとする。
フォン2とは共に同一の出力インピーダンスを持つ単一
指向性のマイクロフォンであり、例えばマイクロフォン
1を垂直上向きに設置した場合はマイクロフォン2は水
平横向きに設置し、逆にマイクロフォン2を垂直上向き
に設置した場合はマイクロフォン1は水平横向きに設置
する。つまり、2つのマイクロフォンの向きが90度開
くように各々設置して一方のマイクロフォンに向って発
声された音声が他方のマイクロフォンに入力されるとき
にはその指向性により騒音相当レベルになるように設置
する。2つのマイクロフォン間の距離は例えば約60c
mとする。
【0017】最初にマイクロフォン1に向って発声され
た音声を確認する場合の動作について説明する。今、マ
イクロフォン1に向って音声が発声されとすると、マイ
クロフォン1の出力端Aから出力される音声信号aは音
声区間検出部3の音声入力端Cに入力されるとともに同
じマイクロフォン1の出力端Bから出力される音声信号
bは音声信号aと同じレベルで音声区間検出部4の雑音
入力端Dに入力される。一方、マイクロフォン1に向っ
て発声された音声はマイクロフォン2にも達するが、実
際にマイクロフォン2に入力されるマイクロフォン1に
向って発声された音声はマイクロフォン2の設置方向に
よる指向性のためマイクロフォン2で電気変換されて音
声信号cおよび音声信号dとして出力されるレベルは騒
音程度のレベルとなる。このようにしてマイクロフォン
1に向って発声された音声はマイクロフォン2の出力端
Aから音声信号cとして音声区間検出部4の音声入力端
Cに入力され、また出力端Bから音声信号dとして音声
区間検出部3の雑音入力端Dに入力される。つまり、音
声区間検出部4に入力される騒音レベルの音声信号Cは
音声入力端Cに入力されるので音声として取り扱われ、
また音声区間検出部3に入力される騒音レベルの音声信
号dは雑音入力端Dに入力されるので雑音として取り扱
われることになる。そして、音声区間検出部3では、先
ずマイクロフォン1からの音声レベルとしての音声信号
aとマイクロフォン2からの騒音レベルとしての音声信
号dとのレベルを比較、つまり音声信号aをS(信号)
および音声信号dをN(雑音)としてS/N比すなわち
信号対雑音比を求め、そのS/N比が音声区間検出部3
内部で予め決められたS/N比スレショールドより大き
いときは音声入力端Cに入力される音声信号aをマイク
ロフォン1に向って発声された正規の音声信号とみな
し、反面S/N比スレショールドより小さいときは音声
信号aを正規の音声信号とはみなさない判定を行う。従
って、マイクロフォン1に向って音声が発声されたとき
は当然音声区間検出部3の入力端Cに入力される音声信
号aのレベルが入力端Dに入力されるマイクロフォン2
からの音声信号dのレベルよりもはるかに大きく、その
S/N比はS/N比スレショールドより確実に大きくな
るので、音声信号aをマイクロフォン1に向って発声さ
れた正規の音声として容易に判定することができる。一
方、音声区間検出部4では音声入力端Cに入力されるマ
イクロフォン2からの騒音レベルの音声信号cは雑音入
力端Dに入力されるマイクロフォン1からの正規の発声
音声レベルの音声信号bよりもはるかに小さく、そのS
/N比はS/N比スレショールドより確実に小さくなる
ので、音声信号cがマイクロフォン2に向って発生され
た正規の音声ではないことを容易に判定することができ
る。
た音声を確認する場合の動作について説明する。今、マ
イクロフォン1に向って音声が発声されとすると、マイ
クロフォン1の出力端Aから出力される音声信号aは音
声区間検出部3の音声入力端Cに入力されるとともに同
じマイクロフォン1の出力端Bから出力される音声信号
bは音声信号aと同じレベルで音声区間検出部4の雑音
入力端Dに入力される。一方、マイクロフォン1に向っ
て発声された音声はマイクロフォン2にも達するが、実
際にマイクロフォン2に入力されるマイクロフォン1に
向って発声された音声はマイクロフォン2の設置方向に
よる指向性のためマイクロフォン2で電気変換されて音
声信号cおよび音声信号dとして出力されるレベルは騒
音程度のレベルとなる。このようにしてマイクロフォン
1に向って発声された音声はマイクロフォン2の出力端
Aから音声信号cとして音声区間検出部4の音声入力端
Cに入力され、また出力端Bから音声信号dとして音声
区間検出部3の雑音入力端Dに入力される。つまり、音
声区間検出部4に入力される騒音レベルの音声信号Cは
音声入力端Cに入力されるので音声として取り扱われ、
また音声区間検出部3に入力される騒音レベルの音声信
号dは雑音入力端Dに入力されるので雑音として取り扱
われることになる。そして、音声区間検出部3では、先
ずマイクロフォン1からの音声レベルとしての音声信号
aとマイクロフォン2からの騒音レベルとしての音声信
号dとのレベルを比較、つまり音声信号aをS(信号)
および音声信号dをN(雑音)としてS/N比すなわち
信号対雑音比を求め、そのS/N比が音声区間検出部3
内部で予め決められたS/N比スレショールドより大き
いときは音声入力端Cに入力される音声信号aをマイク
ロフォン1に向って発声された正規の音声信号とみな
し、反面S/N比スレショールドより小さいときは音声
信号aを正規の音声信号とはみなさない判定を行う。従
って、マイクロフォン1に向って音声が発声されたとき
は当然音声区間検出部3の入力端Cに入力される音声信
号aのレベルが入力端Dに入力されるマイクロフォン2
からの音声信号dのレベルよりもはるかに大きく、その
S/N比はS/N比スレショールドより確実に大きくな
るので、音声信号aをマイクロフォン1に向って発声さ
れた正規の音声として容易に判定することができる。一
方、音声区間検出部4では音声入力端Cに入力されるマ
イクロフォン2からの騒音レベルの音声信号cは雑音入
力端Dに入力されるマイクロフォン1からの正規の発声
音声レベルの音声信号bよりもはるかに小さく、そのS
/N比はS/N比スレショールドより確実に小さくなる
ので、音声信号cがマイクロフォン2に向って発生され
た正規の音声ではないことを容易に判定することができ
る。
【0018】音声入力端Cに入力された音声信号aを正
規の音声と判定した音声区間検出部3では、次にフレー
ム周期ごとに入力される音声信号aの音声区間および音
声信号aの始端および終端を求めるために、予めマイク
ロフォン1およびマイクロフォン2のいずれに対しても
音声が発声されていないときの周辺雑音を含む雑音入力
端Dに入力される雑音レベルからその雑音レベルの所定
時間内、つまり現時刻から一定時間さかのぼった区間の
平均パワーを求めて雑音スレショールドを算出し、音声
信号のaの平均パワーがこの雑音スレショールドを越え
るまで一定周期ごとに雑音スレショールドの算出を繰返
し、音声信号aの平均パワーが最新の雑音スレショール
ド算出値を越えたときに音声信号aの始端として認識
し、雑音スレショールドに特定の係数を掛けた値を雑音
パワーとして音声信号aの平均パワーから差し引き、一
旦始端を認識した後は雑音スレショールドを固定して音
声信号bの終端が認識されるまで保持し続ける。そし
て、音声信号aの平均パワーが雑音スレショールドより
小さくなったときに音声信号aの終端を認識し、一旦終
端を認識した後は、その時刻から再び雑音スレショール
ドの算出を開始し、以後上述と同じ動作を繰返すことに
より音声信号aの音声区間およびその始端,終端を検出
し、音声信号eとして出力する。
規の音声と判定した音声区間検出部3では、次にフレー
ム周期ごとに入力される音声信号aの音声区間および音
声信号aの始端および終端を求めるために、予めマイク
ロフォン1およびマイクロフォン2のいずれに対しても
音声が発声されていないときの周辺雑音を含む雑音入力
端Dに入力される雑音レベルからその雑音レベルの所定
時間内、つまり現時刻から一定時間さかのぼった区間の
平均パワーを求めて雑音スレショールドを算出し、音声
信号のaの平均パワーがこの雑音スレショールドを越え
るまで一定周期ごとに雑音スレショールドの算出を繰返
し、音声信号aの平均パワーが最新の雑音スレショール
ド算出値を越えたときに音声信号aの始端として認識
し、雑音スレショールドに特定の係数を掛けた値を雑音
パワーとして音声信号aの平均パワーから差し引き、一
旦始端を認識した後は雑音スレショールドを固定して音
声信号bの終端が認識されるまで保持し続ける。そし
て、音声信号aの平均パワーが雑音スレショールドより
小さくなったときに音声信号aの終端を認識し、一旦終
端を認識した後は、その時刻から再び雑音スレショール
ドの算出を開始し、以後上述と同じ動作を繰返すことに
より音声信号aの音声区間およびその始端,終端を検出
し、音声信号eとして出力する。
【0019】一方、この間音声区間検出部4では音声入
力端Cに入力される音声信号cを正規の音声とは見做さ
ないので音声区間およびその始端,終端の検出は行わ
ず、従って音声区間検出部3が音声信号eを出力してい
る区間では音声区間検出部は音声信号fの出力を行わな
い。
力端Cに入力される音声信号cを正規の音声とは見做さ
ないので音声区間およびその始端,終端の検出は行わ
ず、従って音声区間検出部3が音声信号eを出力してい
る区間では音声区間検出部は音声信号fの出力を行わな
い。
【0020】逆に、音声区間検出部4の音声入力端Cに
入力された音声信号cが正規の音声として判定されたと
きには、つまりマイクロフォン2に向って音声が発声さ
れたときは、音声区間検出部4は上述と同様に音声信号
cの音声区間およびその始端,終端を検出して音声信号
fを出力するが、音声区間検出部3ではこのとき音声入
力端Cに入力される音声信号aをマイクロフォン1に向
って発声された正規の音声とは見做さないので音声区間
およびその始端,終端の検出は行わず、従ってこの区
間、つまり音声区間検出部4が音声信号fを出力してい
る区間は音声信号eを出力しない。
入力された音声信号cが正規の音声として判定されたと
きには、つまりマイクロフォン2に向って音声が発声さ
れたときは、音声区間検出部4は上述と同様に音声信号
cの音声区間およびその始端,終端を検出して音声信号
fを出力するが、音声区間検出部3ではこのとき音声入
力端Cに入力される音声信号aをマイクロフォン1に向
って発声された正規の音声とは見做さないので音声区間
およびその始端,終端の検出は行わず、従ってこの区
間、つまり音声区間検出部4が音声信号fを出力してい
る区間は音声信号eを出力しない。
【0021】このように、マイクロフォン1およびマイ
クロフォン2のいずれに向って音声が発声された場合で
も、音声が発生されたマイクロフォン側の音声区間検出
部では、自系統のマイクロフォンに向って発生された音
声の音声区間およびその始端,終端を正確に検出して、
その区間の発声音声信号を切り出すことができる。
クロフォン2のいずれに向って音声が発声された場合で
も、音声が発生されたマイクロフォン側の音声区間検出
部では、自系統のマイクロフォンに向って発生された音
声の音声区間およびその始端,終端を正確に検出して、
その区間の発声音声信号を切り出すことができる。
【0022】次に、特徴抽出部5では音声区間検出部3
で切り出され入力された音声信号eを帯域制限およびF
ET等のデータ変換により時間軸の音声波形から周波数
成分に変換し、さらにその変換された周波数成分を対数
スペクトル変換等によりスペクトル包絡を算出して時系
列の特徴ベクトルに変換し、その特徴ベクトルに音声区
間の始端および終端情報を付加して特徴ベクトル系列g
として出力する。特徴抽出部6も同様に機能して音声区
間検出部4で切り出され入力された音声信号fを時系列
の特徴ベクトルに変換し、その特徴ベクトルに音声区間
の始端および終端情報を付加して特徴ベクトル系列hと
して出力する。そして、選択部7では特徴抽出部5から
入力される特徴ベクトル系列gと特徴抽出部6から入力
される特徴ベクトル系列hとを常時監視しており、各々
の特徴ベクトルに付加されている音声区間の終端情報が
早く検出された方の特徴ベクトル系列を選択して特徴ベ
クトル系列iとして出力し、認識処理部8へ供給する。
で切り出され入力された音声信号eを帯域制限およびF
ET等のデータ変換により時間軸の音声波形から周波数
成分に変換し、さらにその変換された周波数成分を対数
スペクトル変換等によりスペクトル包絡を算出して時系
列の特徴ベクトルに変換し、その特徴ベクトルに音声区
間の始端および終端情報を付加して特徴ベクトル系列g
として出力する。特徴抽出部6も同様に機能して音声区
間検出部4で切り出され入力された音声信号fを時系列
の特徴ベクトルに変換し、その特徴ベクトルに音声区間
の始端および終端情報を付加して特徴ベクトル系列hと
して出力する。そして、選択部7では特徴抽出部5から
入力される特徴ベクトル系列gと特徴抽出部6から入力
される特徴ベクトル系列hとを常時監視しており、各々
の特徴ベクトルに付加されている音声区間の終端情報が
早く検出された方の特徴ベクトル系列を選択して特徴ベ
クトル系列iとして出力し、認識処理部8へ供給する。
【0023】以下、認識処理部8で特徴ベクトル系列か
ら発声音声を認識処理する技術は公知の技術であるので
説明を省略する。
ら発声音声を認識処理する技術は公知の技術であるので
説明を省略する。
【0024】続いて、本発明の第2の実施例について説
明する。第2の実施例である図2のブロック図を参照す
ると、マイクロフォン1,マイクロフォン2,特徴抽出
部5,特徴抽出部6,選択部7および認識処理部8は図
1のブロック図における第1の実施例の同じ記号のブロ
ックと各々機能が同一であるので説明を省略する。第1
の実施例との違いは、マイクロフォン1の出力端Bから
出力する音声信号bを遅延回路12を通して音声区間検
出部10の音声入力端Dに入力し、マイクロフォン2の
出力端Bから出力する音声信号dを遅延回路11を通し
て音声区間検出部9の音声入力端Dに入力する構成して
いることと、図1における音声区間検出部3および4に
おける各々の雑音入力端Dを図2における音声区間検出
部9および10では上述のように各々音声入力端として
音声入力端Cと同じ扱いの構成にしている。
明する。第2の実施例である図2のブロック図を参照す
ると、マイクロフォン1,マイクロフォン2,特徴抽出
部5,特徴抽出部6,選択部7および認識処理部8は図
1のブロック図における第1の実施例の同じ記号のブロ
ックと各々機能が同一であるので説明を省略する。第1
の実施例との違いは、マイクロフォン1の出力端Bから
出力する音声信号bを遅延回路12を通して音声区間検
出部10の音声入力端Dに入力し、マイクロフォン2の
出力端Bから出力する音声信号dを遅延回路11を通し
て音声区間検出部9の音声入力端Dに入力する構成して
いることと、図1における音声区間検出部3および4に
おける各々の雑音入力端Dを図2における音声区間検出
部9および10では上述のように各々音声入力端として
音声入力端Cと同じ扱いの構成にしている。
【0025】詳述すると、マイクロフォン1に向って発
声された音声はマイクロフォン1の出力端Aから音声信
号aとして音声区間検出部9の音声入力端Cに入力され
るとともにマイクロフォン2の出力端Bから騒音レベル
の音声信号dとして出力され、遅延回路11において所
定時間遅延されて音声信号d′として同じ音声区間検出
部9の音声入力端Dに入力される。そして音声区間検出
部9では、音声信号aと音声信号d′とのレベルを比較
してそのレベル差が内部で予め決められたレベル差スレ
ショールドよりも大きいときに、そのレベルの大きい
方、つまりここでは音声信号aを正規の発声音声信号と
判定し、その音声区間および始端,終端を検出する。一
方、音声区間検出部10ではマイクロフォン2の出力端
Aから入力される騒音レベルの音声信号cとマイクロフ
ォン1の出力端Bから出力されて遅延回路12を通して
入力される音声信号b′とのレベルを比較して、そのレ
ベル差が内部で予め決められたレベル差スレショールド
よりも大きいときに、そのレベルの大きい方、つまりこ
こでは音声信号b′を正規の発声音声信号として判定
し、その音声区間および始端,終端を検出する。つま
り、音声区間検出部9ではマイクロフォン1に向って発
声された自系の本来の発声音声を検出するが、音声区間
検出部10では自系のマイクロフォン2に向って発声さ
れた本来の発声音声を検出するのではなく、他系のマイ
クロフォン1に向って発声された発声音声をあたかも自
系のマイクロフォン2に向って発声された発声音声とし
て検出する。しかし、音声区間検出部10で検出される
音声信号b′の音声区間およびその始端,終端は、遅延
回路12における遅延により、音声区間検出部9で検出
される音声信号aの音声区間およびその始端,終端より
遅れて特徴抽出部hへ出力される。従って、選択部7に
は特徴抽出部5からと特徴ベクトル系列gと特徴抽出部
6からの特徴ベクトル系列hとが同時に入力されるが、
両信号を同時刻で比較した場合に特徴べクトル系列hに
付加されている音声信号b′の終端の方が特徴ベクトル
系列gに付加されている音声信号aの終端よりも必らず
遅れることになる。この結果、比較部7は終端が早く検
出された側の特徴ベクトル系列gを選択して認識処理部
8へ出力する。
声された音声はマイクロフォン1の出力端Aから音声信
号aとして音声区間検出部9の音声入力端Cに入力され
るとともにマイクロフォン2の出力端Bから騒音レベル
の音声信号dとして出力され、遅延回路11において所
定時間遅延されて音声信号d′として同じ音声区間検出
部9の音声入力端Dに入力される。そして音声区間検出
部9では、音声信号aと音声信号d′とのレベルを比較
してそのレベル差が内部で予め決められたレベル差スレ
ショールドよりも大きいときに、そのレベルの大きい
方、つまりここでは音声信号aを正規の発声音声信号と
判定し、その音声区間および始端,終端を検出する。一
方、音声区間検出部10ではマイクロフォン2の出力端
Aから入力される騒音レベルの音声信号cとマイクロフ
ォン1の出力端Bから出力されて遅延回路12を通して
入力される音声信号b′とのレベルを比較して、そのレ
ベル差が内部で予め決められたレベル差スレショールド
よりも大きいときに、そのレベルの大きい方、つまりこ
こでは音声信号b′を正規の発声音声信号として判定
し、その音声区間および始端,終端を検出する。つま
り、音声区間検出部9ではマイクロフォン1に向って発
声された自系の本来の発声音声を検出するが、音声区間
検出部10では自系のマイクロフォン2に向って発声さ
れた本来の発声音声を検出するのではなく、他系のマイ
クロフォン1に向って発声された発声音声をあたかも自
系のマイクロフォン2に向って発声された発声音声とし
て検出する。しかし、音声区間検出部10で検出される
音声信号b′の音声区間およびその始端,終端は、遅延
回路12における遅延により、音声区間検出部9で検出
される音声信号aの音声区間およびその始端,終端より
遅れて特徴抽出部hへ出力される。従って、選択部7に
は特徴抽出部5からと特徴ベクトル系列gと特徴抽出部
6からの特徴ベクトル系列hとが同時に入力されるが、
両信号を同時刻で比較した場合に特徴べクトル系列hに
付加されている音声信号b′の終端の方が特徴ベクトル
系列gに付加されている音声信号aの終端よりも必らず
遅れることになる。この結果、比較部7は終端が早く検
出された側の特徴ベクトル系列gを選択して認識処理部
8へ出力する。
【0026】同様に、マイクロフォン2に向って音声が
発声された場合には、音声区間検出部10で検出される
音声信号cの終端の方が音声区間検出部9で検出される
音声信号aの終端より早いので、選択部7はマイクロフ
ォン2側からの特徴ベクトル系列hを選択して認識処理
部8へ出力する。
発声された場合には、音声区間検出部10で検出される
音声信号cの終端の方が音声区間検出部9で検出される
音声信号aの終端より早いので、選択部7はマイクロフ
ォン2側からの特徴ベクトル系列hを選択して認識処理
部8へ出力する。
【0027】このように、マイクロフォン1およびマイ
クロフォン2のいずれの側に向って音声が発声されて
も、音声が発声されたマイクロフォンからの発声音声を
確実に選択して認識処理することができるので、双方の
マイクロフォンの一方を音声入力用および他方を雑音入
力用として限定する必要がなく、例えばマイクロフォン
1を音声入力用として使用するときはマイクロフォン2
が雑音入力用となり、マイクロフォン2を音声入力用と
するときにはマイクロフォン1が雑音入力用となる。
クロフォン2のいずれの側に向って音声が発声されて
も、音声が発声されたマイクロフォンからの発声音声を
確実に選択して認識処理することができるので、双方の
マイクロフォンの一方を音声入力用および他方を雑音入
力用として限定する必要がなく、例えばマイクロフォン
1を音声入力用として使用するときはマイクロフォン2
が雑音入力用となり、マイクロフォン2を音声入力用と
するときにはマイクロフォン1が雑音入力用となる。
【0028】
【発明の効果】以上説明したように本発明によれば、2
入力音声検出を行う音声認識装置において、2つのマイ
クロフォンの一方を音声入力用および他方を雑音入力用
として限定する必要がなく、例えば一方を音声入力用と
した場合は他方が雑音入力用となり、かつ他方を音声入
力用とした場合は一方が雑音入力用となるので、双方の
マイクロフォンを区別することなく音声入力用として使
用することができる。この結果、使用前にマイクロフォ
ンを音声入力用および雑音入力用として確認する煩雑さ
がなくなり、また双方のマイクロフォンの接続系統が相
互に間違っていた場合でもそのまま使用できるため、接
続確認の煩雑さも解消することができ、装置利用上のミ
スを犯すことがない。
入力音声検出を行う音声認識装置において、2つのマイ
クロフォンの一方を音声入力用および他方を雑音入力用
として限定する必要がなく、例えば一方を音声入力用と
した場合は他方が雑音入力用となり、かつ他方を音声入
力用とした場合は一方が雑音入力用となるので、双方の
マイクロフォンを区別することなく音声入力用として使
用することができる。この結果、使用前にマイクロフォ
ンを音声入力用および雑音入力用として確認する煩雑さ
がなくなり、また双方のマイクロフォンの接続系統が相
互に間違っていた場合でもそのまま使用できるため、接
続確認の煩雑さも解消することができ、装置利用上のミ
スを犯すことがない。
【図1】本発明の第1の実施例を示す音声認識装置のブ
ロック図である。
ロック図である。
【図2】本発明の第2の実施例を示す音声認識装置のブ
ロック図である。
ロック図である。
【図3】第1の従来例を示すブロック図である。
【図4】第2と従来例を示すブロック図である。
【図5】第3の従来例を示すブロック図である。
1,2 マイクロフォン 3,4 音声区間検出部 5,6 特徴抽出部 7 選択部 8 認識処理部 9,10 音声区間検出部 11,12 遅延回路 a〜f 音声信号 g,h,i 特徴ベクトル系列 b′,d′ 音声信号
───────────────────────────────────────────────────── フロントページの続き (72)発明者 友岡 靖夫 東京都港区芝五丁目7番1号 日本電気 株式会社内 (56)参考文献 特開 昭62−42197(JP,A) 特開 昭58−196599(JP,A) 特開 平4−146498(JP,A) 特開 平5−188997(JP,A) 特開 平6−27994(JP,A) 特開 平4−247498(JP,A) (58)調査した分野(Int.Cl.6,DB名) G10L 3/02 301 G10L 3/00 511 G10L 3/00 513 G10L 9/00 H04R 3/00 320
Claims (2)
- 【請求項1】 第1および第2のマイクロフォンにより
2入力音声検出を行って発声音声を認識する音声認識装
置において、 第1の音声区間検出手段が、第1のマイクロフォンに向
って発声されたときの発声音声を前記第1のマイクロフ
ォンの第1の出力端から第1の音声信号として第1の音
声入力端に入力するとともに第2のマイクロフォンの第
2の出力端から第1の騒音信号として第1の遅延手段を
通して第2の音声入力端に入力して前記第1のマイクロ
フォンに向って発声された音声の音声区間を検出しその
音声区間の前記第1の音声信号を切り出して第3の音声
信号として出力し、 第2の音声区間検出手段が、前記第2のマイクロフォン
に向って発声されたときの発声音声を前記第2のマイク
ロフォンの第1の出力端から第2の音声信号として第1
の音声入力端に入力するとともに前記第1のマイクロフ
ォンの第2の出力端から第2の騒音信号として第2の遅
延手段を通して第2の音声入力端に入力して前記第2の
マイクロフォンに向って発声された音声の音声区間を検
出してその音声区間の前記第2の音声信号を切り出して
第4の音声信号として出力し前記第3の音声信号および
前記第4の音声信号をもとに各々のマイクロフォンに向
って発声された発声音声の各々を認識処理することを特
徴とする音声認識装置。 - 【請求項2】 発声音声を電気信号に変換する近接して
設置される第1のマイクロフォンおよび第2のマイクロ
フォンと、 前記第1のマイクロフォンの第1の出力端から出力され
る第1の電気信号を第1の入力端に第1の音声信号とし
て入力しかつ前記第2のマイクロフォンの第2の出力端
から出力される第2の電気信号を所定の第1の遅延時間
を有する第1の遅延手段を通して第2の入力端に第1の
雑音信号として入力して前記第1の音声信号のレベルが
前記第1の雑音信号のレベルより大きいときのみ前記第
1のマイクロフォンに向って発声し出力された前記第1
の音声信号の音声区間を検出して第1の音声区間とする
とともにその第1の音声区間の前記第1の音声信号を切
り出して第2の音声信号として出力する第1の音声検出
手段と、 前記第2のマイクロフォンの第1の出力端から出力され
る前記第2の電気信号を第1の入力端に第3の音声信号
として入力しかつ前記第1のマイクロフォンの 第2の出
力端から出力される前記第1の電気信号を所定の第2の
遅延時間を有する第2の遅延手段を通して第2の入力端
に第2の雑音信号として入力して前記第3の音声信号の
レベルが前記第2の雑音信号のレベルより大きいときの
み前記第2のマイクロフォンに向って発声し出力された
前記第3の音声信号の音声区間を検出して第2の音声区
間とするとともにその第2の音声区間の前記第3の音声
信号を切り出して第4の音声信号として出力する第2の
音声検出手段と、 前記第1の音声検出手段からの前記第3の音声信号の特
徴量を算出して特徴ベクトル系列に変換し第1の特徴ベ
クトル系列として出力する第1の特徴抽出手段と、 前記第2の音声検出手段からの前記第4の音声信号の特
徴量を算出して特徴ベクトル系列に変換し第2の特徴ベ
クトル系列として出力する第2の特徴抽出手段と、 前記第1の特徴抽出手段から入力される前記第1の特徴
ベクトル系列と前記第2の特徴抽出手段から入力される
前記第2の特徴ベクトル系列とを比較して最初に音声区
間の終端が検出された方の特徴ベクトル系列を選択して
第3の特徴ベクトル系列として出力する選択手段と、 前記選択手段から入力される前記第3の特徴ベクトル系
列から前記第1のマイクロフォンあるいは前記第2のマ
イクロフォンに向って発声された発声音声を認識処理す
る認識処理手段と、 を備える ことを特徴とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7279987A JP2990051B2 (ja) | 1995-10-27 | 1995-10-27 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7279987A JP2990051B2 (ja) | 1995-10-27 | 1995-10-27 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09127982A JPH09127982A (ja) | 1997-05-16 |
JP2990051B2 true JP2990051B2 (ja) | 1999-12-13 |
Family
ID=17618732
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP7279987A Expired - Fee Related JP2990051B2 (ja) | 1995-10-27 | 1995-10-27 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2990051B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3277279B2 (ja) | 1999-11-30 | 2002-04-22 | 科学技術振興事業団 | ロボット聴覚装置 |
JP4696776B2 (ja) * | 2005-08-17 | 2011-06-08 | ソニー株式会社 | 音声処理装置及びマイク装置 |
KR100855592B1 (ko) * | 2007-01-11 | 2008-09-01 | (주)에이치씨아이랩 | 발성자 거리 특성에 강인한 음성인식 장치 및 그 방법 |
WO2019016938A1 (ja) * | 2017-07-21 | 2019-01-24 | 三菱電機株式会社 | 音声認識装置及び音声認識方法 |
-
1995
- 1995-10-27 JP JP7279987A patent/JP2990051B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH09127982A (ja) | 1997-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10579327B2 (en) | Speech recognition device, speech recognition method and storage medium using recognition results to adjust volume level threshold | |
US5208864A (en) | Method of detecting acoustic signal | |
EP0976303B1 (en) | Method and apparatus for noise reduction, particularly in hearing aids | |
US9269367B2 (en) | Processing audio signals during a communication event | |
EP0757342B1 (en) | User selectable multiple threshold criteria for voice recognition | |
CA2390287C (en) | Acoustic source range detection system | |
US20010029449A1 (en) | Apparatus and method for recognizing voice with reduced sensitivity to ambient noise | |
JP2006194959A (ja) | 音声検出装置、自動撮像装置、および音声検出方法 | |
WO2007138741A1 (ja) | 音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム | |
EP0459384B1 (en) | Speech signal processing apparatus for cutting out a speech signal from a noisy speech signal | |
JPH11249693A (ja) | 収音装置 | |
JP2990051B2 (ja) | 音声認識装置 | |
JP3789503B2 (ja) | 音声処理装置 | |
JP2019020678A (ja) | ノイズ低減装置および音声認識装置 | |
KR20030010432A (ko) | 잡음환경에서의 음성인식장치 | |
JP2000310993A (ja) | 音声検出装置 | |
JP3510458B2 (ja) | 音声認識システムおよび音声認識制御プログラムを記録した記録媒体 | |
CN116490924A (zh) | 声音采集系统、声音采集方法和程序 | |
JP2005157086A (ja) | 音声認識装置 | |
JP2913105B2 (ja) | 音響信号検出方法 | |
JP2001343985A (ja) | 音声スイッチ方法及び音声スイッチ | |
JP3106543B2 (ja) | 音声信号処理装置 | |
JPH04230796A (ja) | 音声信号処理装置 | |
JP3097764B2 (ja) | ガイダンス音声付き音声入力装置 | |
JP2648014B2 (ja) | 音声切り出し装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 19990921 |
|
LAPS | Cancellation because of no payment of annual fees |