JPH052399A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH052399A JPH052399A JP3152940A JP15294091A JPH052399A JP H052399 A JPH052399 A JP H052399A JP 3152940 A JP3152940 A JP 3152940A JP 15294091 A JP15294091 A JP 15294091A JP H052399 A JPH052399 A JP H052399A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- time
- input
- unit
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】
【目的】 本発明は周囲の環境が刻々変化する場合にこ
れに適応し、認識率の高い音声認識装置の提供を目的と
する。 【構成】 複数種類のノイズを重畳してそれぞれ作成さ
れた複数の音声認識辞書5−1〜nを備え、音声を入力
する入力部1と、入力した音声を分析する分析部2と、
ノイズの発生に関する例えば時間長、時刻、周期等の時
間的情報を予め記憶しておく記憶部62と、タイマ―6
1からの現在の時刻に対応するノイズを重畳して作成さ
れた音声認識辞書を記憶部の情報をもとに選択する選択
部6,4と、分析部の分析結果と選択部で選択した音声
認識辞書とを照合して入力した音声を認識する認識部3
とを備えた音声認識装置である。
れに適応し、認識率の高い音声認識装置の提供を目的と
する。 【構成】 複数種類のノイズを重畳してそれぞれ作成さ
れた複数の音声認識辞書5−1〜nを備え、音声を入力
する入力部1と、入力した音声を分析する分析部2と、
ノイズの発生に関する例えば時間長、時刻、周期等の時
間的情報を予め記憶しておく記憶部62と、タイマ―6
1からの現在の時刻に対応するノイズを重畳して作成さ
れた音声認識辞書を記憶部の情報をもとに選択する選択
部6,4と、分析部の分析結果と選択部で選択した音声
認識辞書とを照合して入力した音声を認識する認識部3
とを備えた音声認識装置である。
Description
【0001】
【産業上の利用分野】本発明は、荷物の区分け、券売機
等に用いられる音声認識装置に関する。
等に用いられる音声認識装置に関する。
【0002】
【従来の技術】近年、マンマシン・インタ―フェ―スと
して音声認識・合成の技術発展が目ざましく、荷物の区
分け、券売機等に音声認識装置が使用されている。しか
し、現在の音声認識装置の多くは、使用する環境のノイ
ズが多くなると認識率が低下してしまう。そこでこのノ
イズを人工的に重畳した学習用音声デ―タより作成した
音声認識辞書を用いるという手法、あるいは、ノイズ除
去の諸手法を用いて対応されていた。
して音声認識・合成の技術発展が目ざましく、荷物の区
分け、券売機等に音声認識装置が使用されている。しか
し、現在の音声認識装置の多くは、使用する環境のノイ
ズが多くなると認識率が低下してしまう。そこでこのノ
イズを人工的に重畳した学習用音声デ―タより作成した
音声認識辞書を用いるという手法、あるいは、ノイズ除
去の諸手法を用いて対応されていた。
【0003】しかしながら、ノイズを人工的に重畳した
学習用音声デ―タより作成した音声認識辞書を用いる場
合、ノイズの種類を限定しなければ認識性能は向上しな
いにも拘らず、周囲の環境は一様ではなく常に変化する
ため、ノイズを限定して音声認識辞書を用いることは困
難であった。
学習用音声デ―タより作成した音声認識辞書を用いる場
合、ノイズの種類を限定しなければ認識性能は向上しな
いにも拘らず、周囲の環境は一様ではなく常に変化する
ため、ノイズを限定して音声認識辞書を用いることは困
難であった。
【0004】さらに、ノイズ除去を行う方法を用いる場
合にも、一般にノイズは非定常・有色であるので、ノイ
ズの音声波としての特徴やそのノイズの発生のタイミン
グをとらえることが難しい。したがって、周囲の環境が
変化すると、発生したノイズに適したノイズ除去を十分
に行うことができなかった。
合にも、一般にノイズは非定常・有色であるので、ノイ
ズの音声波としての特徴やそのノイズの発生のタイミン
グをとらえることが難しい。したがって、周囲の環境が
変化すると、発生したノイズに適したノイズ除去を十分
に行うことができなかった。
【0005】
【発明が解決しようとする課題】このように従来の音声
認識装置では、上述したノイズ対策を行っていても、周
囲の環境が時事刻々変化するノイズに対して的確に対応
することができず、認識率を低下させる要因となってい
た。
認識装置では、上述したノイズ対策を行っていても、周
囲の環境が時事刻々変化するノイズに対して的確に対応
することができず、認識率を低下させる要因となってい
た。
【0006】本発明はこのような事情を考慮してなされ
たもので、その目的とするところは、周囲の環境の変化
に伴って時事刻々変化するノイズに対しても充分に認識
率の向上を図ることのできる実用性の高い音声認識装置
を提供することにある。
たもので、その目的とするところは、周囲の環境の変化
に伴って時事刻々変化するノイズに対しても充分に認識
率の向上を図ることのできる実用性の高い音声認識装置
を提供することにある。
【0007】
【課題を解決するための手段】第一の発明に係る音声認
識装置は、複数種類のノイズを重畳してそれぞれ作成さ
れた複数の音声認識辞書を備え、音声を入力する入力部
と、入力した音声を分析する分析部と、ノイズの発生に
関する例えば時間長、時刻、周期等の時間的情報を予め
記憶しておく記憶部と、タイマ―からの現在の時刻に対
応するノイズを重畳して作成された音声認識辞書を記憶
部の情報をもとに選択する選択部と、分析部の分析結果
と選択部で選択した音声認識辞書とを照合して入力した
音声を認識する認識部とを備えたことを特徴とするもの
である。
識装置は、複数種類のノイズを重畳してそれぞれ作成さ
れた複数の音声認識辞書を備え、音声を入力する入力部
と、入力した音声を分析する分析部と、ノイズの発生に
関する例えば時間長、時刻、周期等の時間的情報を予め
記憶しておく記憶部と、タイマ―からの現在の時刻に対
応するノイズを重畳して作成された音声認識辞書を記憶
部の情報をもとに選択する選択部と、分析部の分析結果
と選択部で選択した音声認識辞書とを照合して入力した
音声を認識する認識部とを備えたことを特徴とするもの
である。
【0008】第二の発明に係る音声認識装置は、複数種
類のノイズデ―タを保持し、音声を入力する入力部と、
上記と同様に予め記憶しておいたノイズの発生に関する
時間的情報を用いて現在の時刻に対応するノイズデ―タ
を選択する選択部と、選択部で選択されたノイズデ―タ
を用いて入力された音声からノイズを除去し、ノイズを
除去した音声を分析する分析部と、分析部の分析結果を
音声認識辞書と照合して入力した音声を認識する認識部
とを備えたことを特徴とするものである。
類のノイズデ―タを保持し、音声を入力する入力部と、
上記と同様に予め記憶しておいたノイズの発生に関する
時間的情報を用いて現在の時刻に対応するノイズデ―タ
を選択する選択部と、選択部で選択されたノイズデ―タ
を用いて入力された音声からノイズを除去し、ノイズを
除去した音声を分析する分析部と、分析部の分析結果を
音声認識辞書と照合して入力した音声を認識する認識部
とを備えたことを特徴とするものである。
【0009】
【作用】本発明によれば、予め記憶したノイズの発生の
時間的情報を参照して、あるノイズが発生する時刻や時
間長を得、その時点で発生するノイズと同じようなノイ
ズを重畳した音声デ―タより作成された音声認識辞書を
選択することにより、時間を追って変化する環境ノイズ
の下でも、ノイズの種類を限定した音声認識辞書を用い
ることができる。同様に、予め記憶したノイズの発生に
関する時間的情報を参照して、その時点で発生するノイ
ズに当たるノイズデ―タを選択してノイズ除去を行うこ
とにより、ノイズが時間とともに変化する環境下でも、
入力音声から適切にノイズを除去することができる。し
たがって、音声認識の性能を高めることができる。この
ようなノイズ対策を、対象音声が入力された時刻をモニ
タすることで、全自動的に行うことができる。
時間的情報を参照して、あるノイズが発生する時刻や時
間長を得、その時点で発生するノイズと同じようなノイ
ズを重畳した音声デ―タより作成された音声認識辞書を
選択することにより、時間を追って変化する環境ノイズ
の下でも、ノイズの種類を限定した音声認識辞書を用い
ることができる。同様に、予め記憶したノイズの発生に
関する時間的情報を参照して、その時点で発生するノイ
ズに当たるノイズデ―タを選択してノイズ除去を行うこ
とにより、ノイズが時間とともに変化する環境下でも、
入力音声から適切にノイズを除去することができる。し
たがって、音声認識の性能を高めることができる。この
ようなノイズ対策を、対象音声が入力された時刻をモニ
タすることで、全自動的に行うことができる。
【0010】
【実施例】以下、本発明を参照しながら本発明の一実施
例について説明する。 ○実施例1
例について説明する。 ○実施例1
【0011】図1は、本発明の第1の実施例に係る音声
認識装置のブロック図である。本装置は、音声入力部
1、音響分析部2、音声認識部3、認識辞書スイッチ
4、認識辞書部5、ノイズ対策部6により構成される。
認識装置のブロック図である。本装置は、音声入力部
1、音響分析部2、音声認識部3、認識辞書スイッチ
4、認識辞書部5、ノイズ対策部6により構成される。
【0012】音声入力部1は、マイクロホン等を通じて
電気信号に変換される入力音声を、例えば12kHz の標本
化周波数にて16bitsの量子化ビット数のデジタル信号に
変換し、音響分析部2に出力する。音響分析部2は、F
ET分析(高速フ―リエ変換による周波数分析)、LP
C(線形予測法)分析、ケプストラム分析、フィルタ分
析等の分析法のうちいずれかにより、例えば8ms毎に特
徴パラメ―タを求め、その時系列を音声認識部3に出力
する。音声認識部3では、音響分析部2から得た特徴パ
ラメ―タと認識辞書部5の認識辞書のリファレンス特徴
パラメ―タとの照合を行い、類似度を算出して、音声認
識する。例えば、音響分析部でFET分析して得られた
周波数スペクトルパタ―ンと認識辞書中の各単語のリフ
ァレンスパタ―ンとの照合を行い、複合類似度法により
類似度を計算して、最も類似度の高い単語を認識結果と
して出力する。ここで用いる認識辞書は、後述するノイ
ズ対策部6により選択されたものである。
電気信号に変換される入力音声を、例えば12kHz の標本
化周波数にて16bitsの量子化ビット数のデジタル信号に
変換し、音響分析部2に出力する。音響分析部2は、F
ET分析(高速フ―リエ変換による周波数分析)、LP
C(線形予測法)分析、ケプストラム分析、フィルタ分
析等の分析法のうちいずれかにより、例えば8ms毎に特
徴パラメ―タを求め、その時系列を音声認識部3に出力
する。音声認識部3では、音響分析部2から得た特徴パ
ラメ―タと認識辞書部5の認識辞書のリファレンス特徴
パラメ―タとの照合を行い、類似度を算出して、音声認
識する。例えば、音響分析部でFET分析して得られた
周波数スペクトルパタ―ンと認識辞書中の各単語のリフ
ァレンスパタ―ンとの照合を行い、複合類似度法により
類似度を計算して、最も類似度の高い単語を認識結果と
して出力する。ここで用いる認識辞書は、後述するノイ
ズ対策部6により選択されたものである。
【0013】ここで、認識辞書部5は複数の認識辞書1
〜nを保持している。各々の認識辞書は、本音声認識装
置が設置された環境での固有の特徴的環境音を、静かな
環境で収集された学習用音声に重畳して、パタ―ン変形
した音声デ―タより作成したものである。例えば、本装
置が学校のエレベ―タ内に設置された場合においては、
認識辞書1は、朝の登校時でエレベ―タが最も混雑して
いるときの、足音、話し声を多く含んだ環境ノイズを、
認識辞書2は、授業中でエレベ―タが比較的混まないと
きの、エレベ―タの動力音をわずかに含んだ環境ノイズ
を、それぞれ学習用音声に重畳した音声デ―タにより作
成されるものである。あるいはまた、例えば、本装置が
駅構内に設置された場合においては、認識辞書1は列車
の発着に伴う人の移動音を含む環境ノイズを、認識辞書
2はホ―ムで鳴るベル音を含む環境ノイズを、認識辞書
3は列車の動力音を含む環境ノイズを、それぞれ学習用
音声に重畳した音声デ―タにより作成されるものであ
る。なお、これらの認識辞書を、各状況の環境音と学習
用音声とが混合した音声を入力、分析した音声デ―タよ
り作成するという方法もある。
〜nを保持している。各々の認識辞書は、本音声認識装
置が設置された環境での固有の特徴的環境音を、静かな
環境で収集された学習用音声に重畳して、パタ―ン変形
した音声デ―タより作成したものである。例えば、本装
置が学校のエレベ―タ内に設置された場合においては、
認識辞書1は、朝の登校時でエレベ―タが最も混雑して
いるときの、足音、話し声を多く含んだ環境ノイズを、
認識辞書2は、授業中でエレベ―タが比較的混まないと
きの、エレベ―タの動力音をわずかに含んだ環境ノイズ
を、それぞれ学習用音声に重畳した音声デ―タにより作
成されるものである。あるいはまた、例えば、本装置が
駅構内に設置された場合においては、認識辞書1は列車
の発着に伴う人の移動音を含む環境ノイズを、認識辞書
2はホ―ムで鳴るベル音を含む環境ノイズを、認識辞書
3は列車の動力音を含む環境ノイズを、それぞれ学習用
音声に重畳した音声デ―タにより作成されるものであ
る。なお、これらの認識辞書を、各状況の環境音と学習
用音声とが混合した音声を入力、分析した音声デ―タよ
り作成するという方法もある。
【0014】ノイズ対策部6は、タイマ―(61)と時
間情報管理テ―ブル1(62)と対策部(63)とから
構成される。時間情報管理テ―ブル1は、例えば表1に
示すように、各々の認識辞書が使われるべき時間の情報
(曜日、時刻、時間等)と認識辞書(辞書番号)との対
応関係を保持している。このテ―ブルは例えば、上述し
たうち後者の例では、時刻表から列車の発着の時刻を参
照して作成される。
間情報管理テ―ブル1(62)と対策部(63)とから
構成される。時間情報管理テ―ブル1は、例えば表1に
示すように、各々の認識辞書が使われるべき時間の情報
(曜日、時刻、時間等)と認識辞書(辞書番号)との対
応関係を保持している。このテ―ブルは例えば、上述し
たうち後者の例では、時刻表から列車の発着の時刻を参
照して作成される。
【0015】
【表1】
【0016】対策部(63)の動作を図3のフロ―図に
従って説明する。まず、タイマ―(61)より時刻をモ
ニタする(S1)。次に、その時刻が当てはまる時間帯
を時間情報管理テ―ブル1(62)の曜日、時刻、時間
長等の項目より検索し、検索した時間帯に用いるべき認
識辞書番号を抽出する(S2)。例えば、タイマ―から
の時刻が水曜日の8:20:00であれば、表1の月〜金の
8:00:00〜8:24:59に当てはまるので、認識辞書番
号1を抽出し、タイマ―からの時刻が土曜日の9:25:
00であれば、表1の土〜日の8:00:00〜9:59:59に
当てはまるので、認識辞書番号4を抽出する。次に、抽
出した認識辞書番号の認識辞書が音声認識部3において
用いられるように、認識辞書スイッチ4を制御する(S
3)。そして、再びタイマ―からの時刻をモニタして同
様の処理を繰り返す。
従って説明する。まず、タイマ―(61)より時刻をモ
ニタする(S1)。次に、その時刻が当てはまる時間帯
を時間情報管理テ―ブル1(62)の曜日、時刻、時間
長等の項目より検索し、検索した時間帯に用いるべき認
識辞書番号を抽出する(S2)。例えば、タイマ―から
の時刻が水曜日の8:20:00であれば、表1の月〜金の
8:00:00〜8:24:59に当てはまるので、認識辞書番
号1を抽出し、タイマ―からの時刻が土曜日の9:25:
00であれば、表1の土〜日の8:00:00〜9:59:59に
当てはまるので、認識辞書番号4を抽出する。次に、抽
出した認識辞書番号の認識辞書が音声認識部3において
用いられるように、認識辞書スイッチ4を制御する(S
3)。そして、再びタイマ―からの時刻をモニタして同
様の処理を繰り返す。
【0017】このように、本実施例装置においては、環
境ノイズの発生に関する時間的情報を用いて、その場の
環境を反映した環境ノイズを重畳した学習用音声デ―タ
により作成した認識辞書を選択的に使用するため、環境
情報を効果的に利用して適切なノイズ対策を行うことが
でき、認識性能が向上する。
境ノイズの発生に関する時間的情報を用いて、その場の
環境を反映した環境ノイズを重畳した学習用音声デ―タ
により作成した認識辞書を選択的に使用するため、環境
情報を効果的に利用して適切なノイズ対策を行うことが
でき、認識性能が向上する。
【0018】なお、ここでの「タイマ―」は、任意のあ
る時点を基準としてある期間(例えば1ケ月、1週間、
1日等)中ある単位(秒、分、時間)で時間のカウント
をする装置であるが、これを通常の時計(場合によって
は日付や曜日つきの時計)に置き換えてもよい。 ○実施例2
る時点を基準としてある期間(例えば1ケ月、1週間、
1日等)中ある単位(秒、分、時間)で時間のカウント
をする装置であるが、これを通常の時計(場合によって
は日付や曜日つきの時計)に置き換えてもよい。 ○実施例2
【0019】図2は、第2の実施例に係る音声認識装置
のブロック図である。この音声認識装置は、音声入力部
1、音響分析部2、音声認識部3、ノイズ除去部8、ノ
イズデ―タ部9、ノイズデ―タスイッチ10、認識辞書
11、ノイズ対策部7により構成される。
のブロック図である。この音声認識装置は、音声入力部
1、音響分析部2、音声認識部3、ノイズ除去部8、ノ
イズデ―タ部9、ノイズデ―タスイッチ10、認識辞書
11、ノイズ対策部7により構成される。
【0020】音声入力部1、音響分析部2、音声認識部
3の機能は第1の実施例と同様である。但し、音響分析
部2にあるノイズ除去部8が、入力音声に含まれる環境
ノイズを除去する。
3の機能は第1の実施例と同様である。但し、音響分析
部2にあるノイズ除去部8が、入力音声に含まれる環境
ノイズを除去する。
【0021】ここでは、ノイズ除去の方法として、スペ
クトルサブストラクション法と呼ばれる手法を用いた場
合について説明する。まず、認識対象となる音声が入力
されていないときに環境ノイズを取り込み、そのノイズ
のバンド周波数毎のパワ―スペクトルを求めて、ノイズ
デ―タとする。つまり、バンド周波数毎のパワ―スペク
トル列:|x1 ||x2 |…|xn |(nはバンド数、
|xi |はバンド周波数iのパワ―スペクトル)がノイ
ズデ―タとなる。このノイズデ―タを作成するために取
り込む環境ノイズは、本音声認識装置が設置された環境
での固有の特徴的環境音である。ノイズデ―タはノイズ
デ―タ部9に複数(1〜n)保持される。例えば、本装
置が駅構内に設置されているならば、ノイズデ―タ1
は、列車の発着に伴い固定位置にあるベルから発せられ
るベル音を固定位置にあるマイクから入力してパワ―ス
ペクトル化したものにであり、ノイズデ―タ2は、列車
の発着に伴い人が移動するざわざわした音を入力してパ
ワ―スペクトル化したものである。
クトルサブストラクション法と呼ばれる手法を用いた場
合について説明する。まず、認識対象となる音声が入力
されていないときに環境ノイズを取り込み、そのノイズ
のバンド周波数毎のパワ―スペクトルを求めて、ノイズ
デ―タとする。つまり、バンド周波数毎のパワ―スペク
トル列:|x1 ||x2 |…|xn |(nはバンド数、
|xi |はバンド周波数iのパワ―スペクトル)がノイ
ズデ―タとなる。このノイズデ―タを作成するために取
り込む環境ノイズは、本音声認識装置が設置された環境
での固有の特徴的環境音である。ノイズデ―タはノイズ
デ―タ部9に複数(1〜n)保持される。例えば、本装
置が駅構内に設置されているならば、ノイズデ―タ1
は、列車の発着に伴い固定位置にあるベルから発せられ
るベル音を固定位置にあるマイクから入力してパワ―ス
ペクトル化したものにであり、ノイズデ―タ2は、列車
の発着に伴い人が移動するざわざわした音を入力してパ
ワ―スペクトル化したものである。
【0022】ノイズ対策部7は、タイマ―(71)と時
間情報管理テ―ブル2(72)と対策部(73)とから
構成される。時間情報管理テ―ブル2は、例えば表2に
示すように、各々のノイズデ―タが使われるべき時間の
情報(曜日、時刻、時間長等)とノイズデ―タとの対応
関係を保持している。このテ―ブルは、上述した例で
は、時刻表を参照して作成される。
間情報管理テ―ブル2(72)と対策部(73)とから
構成される。時間情報管理テ―ブル2は、例えば表2に
示すように、各々のノイズデ―タが使われるべき時間の
情報(曜日、時刻、時間長等)とノイズデ―タとの対応
関係を保持している。このテ―ブルは、上述した例で
は、時刻表を参照して作成される。
【0023】
【表2】
【0024】対策部(73)は、第1の実施例と同様
に、タイマ―(71)により現在の時刻をモニタし、時
間管理情報テ―ブル2(72)からある時刻に使われる
べきノイズデ―タ番号を抽出する。例えば、現在の時刻
が木曜日の8:00:00のとき、表2の月〜金、8:00:
00〜8:00:05に対応するノイズデ―タ番号1を抽出す
る。次に、抽出したノイズデ―タ番号のノイズデ―タが
ノイズ除去部8によって用いられるように、ノイズデ―
タスイッチ10を制御する。
に、タイマ―(71)により現在の時刻をモニタし、時
間管理情報テ―ブル2(72)からある時刻に使われる
べきノイズデ―タ番号を抽出する。例えば、現在の時刻
が木曜日の8:00:00のとき、表2の月〜金、8:00:
00〜8:00:05に対応するノイズデ―タ番号1を抽出す
る。次に、抽出したノイズデ―タ番号のノイズデ―タが
ノイズ除去部8によって用いられるように、ノイズデ―
タスイッチ10を制御する。
【0025】ノイズ除去部8では、音声入力部1に入力
された音声の全てのバンド周波数のパワ―スペクトルか
ら、ノイズ対策部7で選択されたノイズデ―タの|xi
|(i=1,2,…,n)をそれぞれ差し引く。つま
り、(入力音声のパワ―スペクトル|yi |−上記|x
i |)という処理を行う。
された音声の全てのバンド周波数のパワ―スペクトルか
ら、ノイズ対策部7で選択されたノイズデ―タの|xi
|(i=1,2,…,n)をそれぞれ差し引く。つま
り、(入力音声のパワ―スペクトル|yi |−上記|x
i |)という処理を行う。
【0026】認識対象となる音声がノイズと共に入力さ
れると、上記のように、音響分析部においてノイズ成分
を除去して認識対象となる音声信号のパワ―スペクトル
を推定し、このパワ―スペクトルパタ―ンを音声認識部
3において認識辞書11中のリファレンスパタ―ンと照
合して認識を行う。
れると、上記のように、音響分析部においてノイズ成分
を除去して認識対象となる音声信号のパワ―スペクトル
を推定し、このパワ―スペクトルパタ―ンを音声認識部
3において認識辞書11中のリファレンスパタ―ンと照
合して認識を行う。
【0027】ノイズ除去の方法としては、このほか、適
応フィルタを用いたアクティブノイズ制御等がある。こ
れは、ノイズの混入した音声を入力する入力部と、ノイ
ズのみを入力する入力部と、適応フィルタとを用いてノ
イズ除去を行うもので、この場合には、各時間帯のノイ
ズに対応する適応フィルタの初期値を、ノイズデ―タ1
〜nとして保持する。
応フィルタを用いたアクティブノイズ制御等がある。こ
れは、ノイズの混入した音声を入力する入力部と、ノイ
ズのみを入力する入力部と、適応フィルタとを用いてノ
イズ除去を行うもので、この場合には、各時間帯のノイ
ズに対応する適応フィルタの初期値を、ノイズデ―タ1
〜nとして保持する。
【0028】以上のように、環境音が時間帯によって変
化するとき、環境ノイズの発生に関する時間的情報を用
いて、その場の環境を反映したノイズデ―タを選択的に
使用してノイズ除去を行うため、S/N比を高めて認識
性能を向上させることができる。
化するとき、環境ノイズの発生に関する時間的情報を用
いて、その場の環境を反映したノイズデ―タを選択的に
使用してノイズ除去を行うため、S/N比を高めて認識
性能を向上させることができる。
【0029】なお、第1及び第2の実施例において、そ
れぞれ、認識辞書作成の際に重畳させる環境ノイズ及び
ノイズデ―タ作成の際に取り込む環境ノイズは、上で説
明したように状況に対応したものを収集して、後で時間
情報管理テ―ブル作成の際に時間と対応させていてもよ
いし、あるいは、まず状況の時間的変化を時間情報管理
テ―ブルの形に記述して、各時間帯における環境ノイズ
を収集しその番号の認識辞書かノイズデ―タを作成する
ようにしてもよい。 ○実施例3
れぞれ、認識辞書作成の際に重畳させる環境ノイズ及び
ノイズデ―タ作成の際に取り込む環境ノイズは、上で説
明したように状況に対応したものを収集して、後で時間
情報管理テ―ブル作成の際に時間と対応させていてもよ
いし、あるいは、まず状況の時間的変化を時間情報管理
テ―ブルの形に記述して、各時間帯における環境ノイズ
を収集しその番号の認識辞書かノイズデ―タを作成する
ようにしてもよい。 ○実施例3
【0030】図4は、第3の実施例に係る音声認識装置
のブロック図である。この音声認識装置は、第1と第2
の実施例を組み合わせたもので、認識辞書部5・認識辞
書スイッチ4とノイズ除去部8・ノイズデ―タ部9・ノ
イズデ―タスイッチ10とを両方備えている。また、ノ
イズ対策部67は、時間情報管理テ―ブル1及び2を両
方保持している。
のブロック図である。この音声認識装置は、第1と第2
の実施例を組み合わせたもので、認識辞書部5・認識辞
書スイッチ4とノイズ除去部8・ノイズデ―タ部9・ノ
イズデ―タスイッチ10とを両方備えている。また、ノ
イズ対策部67は、時間情報管理テ―ブル1及び2を両
方保持している。
【0031】処理の流れを簡単に説明する。ノイズ対策
部67では、タイマ―から音声を入力した時刻を知り、
時間情報管理テ―ブル2を参照してノイズデ―タ部9の
ノイズデ―タを選択し、時間情報管理テ―ブル1を参照
して認識辞書部5の認識辞書を選択する。ここで、時間
情報管理テ―ブル1と2を合体させた、時間の情報の項
目・ノイズデ―タ番号・認識辞書番号を1セットとする
テ―ブルを持つようにしてもよい。選択したノイズデ―
タを用いて、音響分析部2とその中のノイズ除去部8
が、分析と共にノイズ除去を行い、その結果を音声認識
部3に出力する。音声認識部3は、選択した認識辞書を
用いて認識を行う。ここで、認識辞書は、対応するノイ
ズデ―タを用いてノイズ除去を行ってもまだ残るノイズ
を学習用音声に重畳した音声デ―タをもとに作成された
ものである。
部67では、タイマ―から音声を入力した時刻を知り、
時間情報管理テ―ブル2を参照してノイズデ―タ部9の
ノイズデ―タを選択し、時間情報管理テ―ブル1を参照
して認識辞書部5の認識辞書を選択する。ここで、時間
情報管理テ―ブル1と2を合体させた、時間の情報の項
目・ノイズデ―タ番号・認識辞書番号を1セットとする
テ―ブルを持つようにしてもよい。選択したノイズデ―
タを用いて、音響分析部2とその中のノイズ除去部8
が、分析と共にノイズ除去を行い、その結果を音声認識
部3に出力する。音声認識部3は、選択した認識辞書を
用いて認識を行う。ここで、認識辞書は、対応するノイ
ズデ―タを用いてノイズ除去を行ってもまだ残るノイズ
を学習用音声に重畳した音声デ―タをもとに作成された
ものである。
【0032】本実施例では、第2の実施例におけるノイ
ズ除去の効果が不十分である場合にも、除去しきれなか
ったノイズに即した認識辞書を選択的に用いることによ
り、更に認識性能が向上する。 ○実施例4
ズ除去の効果が不十分である場合にも、除去しきれなか
ったノイズに即した認識辞書を選択的に用いることによ
り、更に認識性能が向上する。 ○実施例4
【0033】図5は、第4の実施例に係る音声認識装置
のブロック図である。この音声認識装置は、第1の実施
例と、ワ―ドスポッティング法により認識辞書を学習さ
せる機能とを組み合わせたもので、第1の実施例の構成
に、学習用音声デ―タファイル12、学習用音声デ―タ
加工部13、認識辞書作成部14を付加した構成を持
つ。
のブロック図である。この音声認識装置は、第1の実施
例と、ワ―ドスポッティング法により認識辞書を学習さ
せる機能とを組み合わせたもので、第1の実施例の構成
に、学習用音声デ―タファイル12、学習用音声デ―タ
加工部13、認識辞書作成部14を付加した構成を持
つ。
【0034】ワ―ドスポッティング法による認識辞書の
学習は、特願平1−255270号に述べられている方
式が利用できる。音声入力部1から認識すべき音声が入
力されていない(環境ノイズのみが入力されている)時
に、音声入力部1から入力され音響分析部2で分析され
た環境ノイズと、学習用音声デ―タファイル12の学習
用音声デ―タとを、学習用音声デ―タ加工部13におい
て重畳し、この結果を音響分析部2を通して認識辞書作
成部14に送る。
学習は、特願平1−255270号に述べられている方
式が利用できる。音声入力部1から認識すべき音声が入
力されていない(環境ノイズのみが入力されている)時
に、音声入力部1から入力され音響分析部2で分析され
た環境ノイズと、学習用音声デ―タファイル12の学習
用音声デ―タとを、学習用音声デ―タ加工部13におい
て重畳し、この結果を音響分析部2を通して認識辞書作
成部14に送る。
【0035】この認識辞書作成部14において、認識辞
書部5の内どの認識辞書を学習させるかという判断は、
ノイズ対策部6に保持されている、ある認識辞書が使用
されるべき時間とその辞書との対応関係の情報よりなさ
れる。例えば、タイマ―7からの時刻と時間情報管理テ
―ブル1の曜日、時刻、時間長が合致した辞書番号の認
識辞書を選択し、認識辞書スイッチ4を制御して、選択
した認識辞書をそのときの環境ノイズで学習させる。
書部5の内どの認識辞書を学習させるかという判断は、
ノイズ対策部6に保持されている、ある認識辞書が使用
されるべき時間とその辞書との対応関係の情報よりなさ
れる。例えば、タイマ―7からの時刻と時間情報管理テ
―ブル1の曜日、時刻、時間長が合致した辞書番号の認
識辞書を選択し、認識辞書スイッチ4を制御して、選択
した認識辞書をそのときの環境ノイズで学習させる。
【0036】本実施例では、実際にこの音声認識装置を
使用すると全く同一の環境で、その環境に特有のノイズ
を用いて認識辞書を作成するため、第一の実施例の効果
に加えて更に音声認識の性能を向上させることができ
る。 ○実施例5
使用すると全く同一の環境で、その環境に特有のノイズ
を用いて認識辞書を作成するため、第一の実施例の効果
に加えて更に音声認識の性能を向上させることができ
る。 ○実施例5
【0037】図6は、第5の実施例に係る音声認識装置
のブロック図である。この音声認識装置は、第3と第4
の実施例を組み合わせたもので、処理の流れは第3、第
4の実施例と同様である。 ○実施例6
のブロック図である。この音声認識装置は、第3と第4
の実施例を組み合わせたもので、処理の流れは第3、第
4の実施例と同様である。 ○実施例6
【0038】図7は、第6の実施例に係る音声認識装置
のブロック図である。第5の実施例までは、ノイズ対策
を講じて認識性能を高めるものであったが、本実施例
は、発声者を限定することにより認識性能を高めようと
するものである。この音声認識装置は、音声入力部1、
音響分析部2、音声認識部3、認識辞書11、発声者予
測部15、語彙・発声者対応テ―ブル16により構成さ
れる。音声入力部1、音響分析部2の機能は第1の実施
例と同様である。
のブロック図である。第5の実施例までは、ノイズ対策
を講じて認識性能を高めるものであったが、本実施例
は、発声者を限定することにより認識性能を高めようと
するものである。この音声認識装置は、音声入力部1、
音響分析部2、音声認識部3、認識辞書11、発声者予
測部15、語彙・発声者対応テ―ブル16により構成さ
れる。音声入力部1、音響分析部2の機能は第1の実施
例と同様である。
【0039】語彙・発声者対応テ―ブル16には、例え
ば語彙・発声者対応テ―ブル(表3)のように語彙毎に
その語彙を主に発話する人の集合を対応づけたものであ
る。例えば、「おかあちゃん」という語彙には、小学生
という集合が対応づけられている。
ば語彙・発声者対応テ―ブル(表3)のように語彙毎に
その語彙を主に発話する人の集合を対応づけたものであ
る。例えば、「おかあちゃん」という語彙には、小学生
という集合が対応づけられている。
【0040】
【表3】
【0041】発声者予測部15は、例えば時間情報管理
テ―ブル3(152)(表4)のように時間情報とその
時間に本音声認識装置の入力音声の発声者となる確率の
高い人の集合を対応づけた情報を保持している。そして
タイマ―(151)より時刻をモニタして、その時刻に
発声者となりやすい人の集合(これを予測発声者と呼
ぶ)を時間情報管理テ―ブル3より選択し、音声認識部
3に伝える。予測発声者とは例えば、人をある基準によ
りいくつかの集団に分け、集団に属する人がその時間帯
に本装置に音声を入力する頻度を集団毎に集計し、この
頻度が最も高い集団である。
テ―ブル3(152)(表4)のように時間情報とその
時間に本音声認識装置の入力音声の発声者となる確率の
高い人の集合を対応づけた情報を保持している。そして
タイマ―(151)より時刻をモニタして、その時刻に
発声者となりやすい人の集合(これを予測発声者と呼
ぶ)を時間情報管理テ―ブル3より選択し、音声認識部
3に伝える。予測発声者とは例えば、人をある基準によ
りいくつかの集団に分け、集団に属する人がその時間帯
に本装置に音声を入力する頻度を集団毎に集計し、この
頻度が最も高い集団である。
【0042】
【表4】
【0043】音声認識部3では、第1の実施例で説明し
たように複合類似度法により認識対象語彙の類似度を算
出する。そして、例えば単語を認識する際、発声者予測
部15より伝えられた現在の予測発声者と語彙・発声者
対応テ―ブル1の対象発声者の集合が一致する語彙(単
語)を確認し、一致する語彙(単語)の類似度に重みづ
けして大きくし、また一致しない語彙(単語)の類似度
を小さくする。次ぎに、重みづけられた類似度により認
識単語の判定を行う。
たように複合類似度法により認識対象語彙の類似度を算
出する。そして、例えば単語を認識する際、発声者予測
部15より伝えられた現在の予測発声者と語彙・発声者
対応テ―ブル1の対象発声者の集合が一致する語彙(単
語)を確認し、一致する語彙(単語)の類似度に重みづ
けして大きくし、また一致しない語彙(単語)の類似度
を小さくする。次ぎに、重みづけられた類似度により認
識単語の判定を行う。
【0044】例えば、店舗において月〜金曜日の15:30
〜17:00に小学生がいつもたくさん来る場合、発声者予
測部15により時間情報管理テ―ブル3を用いて小学生
の集合を表す情報が音声認識部3に伝えられる。音声認
識部3では、認識辞書11中の「キャンデイ」「おにい
ちゃん」「おかあちゃん」等の語彙は語彙・発声者対応
テ―ブル1より予測発声者が小学生であるために類似度
が重みづけられ大きくなるため、認識単語として判定さ
れやすくなる。よって、例えば小学生が20歳前後の男
性店員を「おにいちゃん」と呼んだ場合など音声を認識
してその店員に知らせる事ができる。
〜17:00に小学生がいつもたくさん来る場合、発声者予
測部15により時間情報管理テ―ブル3を用いて小学生
の集合を表す情報が音声認識部3に伝えられる。音声認
識部3では、認識辞書11中の「キャンデイ」「おにい
ちゃん」「おかあちゃん」等の語彙は語彙・発声者対応
テ―ブル1より予測発声者が小学生であるために類似度
が重みづけられ大きくなるため、認識単語として判定さ
れやすくなる。よって、例えば小学生が20歳前後の男
性店員を「おにいちゃん」と呼んだ場合など音声を認識
してその店員に知らせる事ができる。
【0045】このように、本実施例によれば、発声者と
なる確率の高い人の情報を用いて語彙の類似度に重みづ
けし、高い認識率を得ることができる。更に、発声者と
なる確率の高い人の情報を時間と対応づけて用いること
により、刻々と変化する環境に適応した認識を行うこと
ができる。 ○実施例7
なる確率の高い人の情報を用いて語彙の類似度に重みづ
けし、高い認識率を得ることができる。更に、発声者と
なる確率の高い人の情報を時間と対応づけて用いること
により、刻々と変化する環境に適応した認識を行うこと
ができる。 ○実施例7
【0046】図8は、第7の実施例に係る音声軟式装置
のブロック図である。この音声認識装置は、第1と第6
の実施例を組み合わせたもので、認識辞書部5、認識辞
書スイッチ4と語彙・発声者対応テ―ブル16とを両方
備えており、ノイズ対策部6と発声者予測部15の機能
を兼ね備えた環境適応部17を持つ。処理の流れは第
1、第6の実施例と同様である。 ○実施例8
のブロック図である。この音声認識装置は、第1と第6
の実施例を組み合わせたもので、認識辞書部5、認識辞
書スイッチ4と語彙・発声者対応テ―ブル16とを両方
備えており、ノイズ対策部6と発声者予測部15の機能
を兼ね備えた環境適応部17を持つ。処理の流れは第
1、第6の実施例と同様である。 ○実施例8
【0047】図9は、第8の実施例に係る音声認識装置
のブロック図である。この音声認識装置は、第2と第6
の実施例を組み合わせたもので、ノイズ除去部8、ノイ
ズデ―タ部9、ノイズデ―タスイッチ10と語彙・発声
者対応テ―ブル16とを両方備えており、ノイズ対策部
7と発声者予測部15の機能を兼ね備えた環境適応部1
8を持つ。処理の流れは第2、第6の実施例と同様であ
る。 ○実施例9
のブロック図である。この音声認識装置は、第2と第6
の実施例を組み合わせたもので、ノイズ除去部8、ノイ
ズデ―タ部9、ノイズデ―タスイッチ10と語彙・発声
者対応テ―ブル16とを両方備えており、ノイズ対策部
7と発声者予測部15の機能を兼ね備えた環境適応部1
8を持つ。処理の流れは第2、第6の実施例と同様であ
る。 ○実施例9
【0048】図10は、第9の実施例に係る音声認識装
置のブロック図である。第8の実施例までは、時間情報
管理テ―ブルのスケジュ―ル通りに環境が変化すること
を前提とするものであったが、本実施例は、環境の変化
の時間的なズレにも対応できるようにしたものである。
この音声認識装置は、音声入力部1、音響分析部2、音
声認識部3、認識辞書スイッチ4、認識辞書部5、ノイ
ズ対策部19、臨時事象選択部20により構成される。
置のブロック図である。第8の実施例までは、時間情報
管理テ―ブルのスケジュ―ル通りに環境が変化すること
を前提とするものであったが、本実施例は、環境の変化
の時間的なズレにも対応できるようにしたものである。
この音声認識装置は、音声入力部1、音響分析部2、音
声認識部3、認識辞書スイッチ4、認識辞書部5、ノイ
ズ対策部19、臨時事象選択部20により構成される。
【0049】環境の変化には、駅構内で電車が到着す
る、電車の発着にともなってベルが鳴る等の、観測可能
な「事象」が起きることによってもたらされるノイズ
と、群集によってかもし出されるざわざわした音や、早
朝に鳴く鳥の声等の、ノイズとそのノイズが発生する原
因との因果関係がはっきりせず事象という概念ではとら
えきれない「状況」のノイズとがある。第8の実施例ま
では、環境の変化を時間という枠でとらえて、前者も後
者も含めてノイズ対策をするものであった。ところがこ
の方法では、事象が予め定まった時間通りに起こらなか
った場合に対応することができない。
る、電車の発着にともなってベルが鳴る等の、観測可能
な「事象」が起きることによってもたらされるノイズ
と、群集によってかもし出されるざわざわした音や、早
朝に鳴く鳥の声等の、ノイズとそのノイズが発生する原
因との因果関係がはっきりせず事象という概念ではとら
えきれない「状況」のノイズとがある。第8の実施例ま
では、環境の変化を時間という枠でとらえて、前者も後
者も含めてノイズ対策をするものであった。ところがこ
の方法では、事象が予め定まった時間通りに起こらなか
った場合に対応することができない。
【0050】そこで、本実施例のノイズ対策部19は、
時間情報管理テ―ブル4(193)に、時刻とその時刻
に発生する事象とは対応づけた情報を保持している。例
えば、時刻t1 に事象B(例えば電車が到着する)、時
刻t4 に事象E(例えばサイレンが鳴る)が起こる予定
であることが記憶されている。認識辞書部5は、各ノイ
ズ毎に作成された認識辞書a,b,c,…と予備の汎用
認識辞書(あるノイズに特有のものではなく一般の認識
辞書)とを備えている。各認識辞書は、例えば、aは早
朝に鳴く鳥の声を含むノイズを、bは事象Bが起きたと
きのノイズを、cは事象Bに引き続いて起こるホ―ムの
ベル音とラッシュの音を含むノイズを、dは昼間行き来
する人の足音を含むノイズを、eは事象Eが起きたとき
のノイズを、それぞれ学習用音声に重畳した音声デ―タ
をもとに作成されている。さらに、本実施例のノイズ対
策部19は、事象・辞書テ―ブル(194)に、事象と
その事象が生起したときに用いるべき認識辞書とを対応
づけた情報を保持している。ここには、事象と対応づけ
られた認識辞書b,eが登録され、事象でくくれない状
況に対応する認識辞書a,dは登録されない。
時間情報管理テ―ブル4(193)に、時刻とその時刻
に発生する事象とは対応づけた情報を保持している。例
えば、時刻t1 に事象B(例えば電車が到着する)、時
刻t4 に事象E(例えばサイレンが鳴る)が起こる予定
であることが記憶されている。認識辞書部5は、各ノイ
ズ毎に作成された認識辞書a,b,c,…と予備の汎用
認識辞書(あるノイズに特有のものではなく一般の認識
辞書)とを備えている。各認識辞書は、例えば、aは早
朝に鳴く鳥の声を含むノイズを、bは事象Bが起きたと
きのノイズを、cは事象Bに引き続いて起こるホ―ムの
ベル音とラッシュの音を含むノイズを、dは昼間行き来
する人の足音を含むノイズを、eは事象Eが起きたとき
のノイズを、それぞれ学習用音声に重畳した音声デ―タ
をもとに作成されている。さらに、本実施例のノイズ対
策部19は、事象・辞書テ―ブル(194)に、事象と
その事象が生起したときに用いるべき認識辞書とを対応
づけた情報を保持している。ここには、事象と対応づけ
られた認識辞書b,eが登録され、事象でくくれない状
況に対応する認識辞書a,dは登録されない。
【0051】次に、臨時事象選択部20は、現在または
将来に起きる事象をノイズ対策部19に伝える機能を持
つ。例えば、電車の到着が10分遅れそうなときは、手
動で、予定時の10分後に電車が到着することをノイズ
対策部19に伝える。または、監視カメラを用いて、現
在起こっている事象を観測してその結果(到着予定の電
車が見えたかまだ見えないか)をノイズ対策部19に伝
える。
将来に起きる事象をノイズ対策部19に伝える機能を持
つ。例えば、電車の到着が10分遅れそうなときは、手
動で、予定時の10分後に電車が到着することをノイズ
対策部19に伝える。または、監視カメラを用いて、現
在起こっている事象を観測してその結果(到着予定の電
車が見えたかまだ見えないか)をノイズ対策部19に伝
える。
【0052】ノイズ対策部19の動きについて図11の
フロ―図を参照しながら述べる。タイマ―(191)よ
り現在の時刻tをモニタし、時間情報管理テ―ブル4
(193)から現在の時刻に起きる予定の事象を検出
し、これと臨時事象選択部20から送られてくる事象発
生の情報とが一致する場合(上記の例ではt=t1 に事
象Bが生起し、t=t4 に事象Eが生起し、t≠t1 ,
t4 には事象生起が観測されない場合)、第1の実施例
と同様に、時間と認識辞書を対応させた時間情報管理テ
―ブル1(192)を用いて、全認識辞書のうち1つを
選択する為に認識辞書スイッチ4を制御する(S10
3,S107,S115)。
フロ―図を参照しながら述べる。タイマ―(191)よ
り現在の時刻tをモニタし、時間情報管理テ―ブル4
(193)から現在の時刻に起きる予定の事象を検出
し、これと臨時事象選択部20から送られてくる事象発
生の情報とが一致する場合(上記の例ではt=t1 に事
象Bが生起し、t=t4 に事象Eが生起し、t≠t1 ,
t4 には事象生起が観測されない場合)、第1の実施例
と同様に、時間と認識辞書を対応させた時間情報管理テ
―ブル1(192)を用いて、全認識辞書のうち1つを
選択する為に認識辞書スイッチ4を制御する(S10
3,S107,S115)。
【0053】ここで、例えば電車の到着が遅れる等の事
象発生の時間のズレが生じた場合、臨時事象選択部20
から送られてくる電車が来ないという情報によって、時
間情報管理テ―ブル1の内容を一時的に変更する。例え
ば、t=t1に事象Bが生起しない場合には、時間情報
管理テ―ブル1の、事象Bに対応する認識辞書bが用い
られるはずであった時間t1 〜t2 の認識辞書の項をa
または汎用と書き換える(S104)。これは、事象が
起きなかったということはその直前の状況が続いている
と考えて、この状況に適した認識辞書を選択するためで
ある。直前のものが状況に適した認識辞書とはならない
場合には、汎用認識辞書を選択する。t=t4 に事象E
が生起しない場合も同様の考え方で時間情報管理テ―ブ
ル1の認識辞書の項を書き換える(S108)。なお、
t2 〜t3 に用いられるはずの認識辞書cは、事象Bに
引き続いてなる状況に即したものであるから、事象Bが
起こらない場合は時間t2 〜t3 の認識辞書の項もaま
たは汎用と書き換える。さらに、t≠t1 に事象Bが生
起した場合には、事象・辞書テ―ブル(194)を参照
して該当する認識辞書bを選択し(S110)、時間情
報管理テ―ブル1の、事象Bに対応する認識辞書bが用
いられるはずであった時間t1 〜t2 を(t−t1 )分
ずらすように書き換える(S111)。t≠t4 に事象
Eが生起した場合にも同様に事象・辞書テ―ブルにより
認識辞書eを選択して(S113)、時間情報管理テ―
ブル1の認識辞書eが用いられるばずであった時間の項
を書き換える(S114)。
象発生の時間のズレが生じた場合、臨時事象選択部20
から送られてくる電車が来ないという情報によって、時
間情報管理テ―ブル1の内容を一時的に変更する。例え
ば、t=t1に事象Bが生起しない場合には、時間情報
管理テ―ブル1の、事象Bに対応する認識辞書bが用い
られるはずであった時間t1 〜t2 の認識辞書の項をa
または汎用と書き換える(S104)。これは、事象が
起きなかったということはその直前の状況が続いている
と考えて、この状況に適した認識辞書を選択するためで
ある。直前のものが状況に適した認識辞書とはならない
場合には、汎用認識辞書を選択する。t=t4 に事象E
が生起しない場合も同様の考え方で時間情報管理テ―ブ
ル1の認識辞書の項を書き換える(S108)。なお、
t2 〜t3 に用いられるはずの認識辞書cは、事象Bに
引き続いてなる状況に即したものであるから、事象Bが
起こらない場合は時間t2 〜t3 の認識辞書の項もaま
たは汎用と書き換える。さらに、t≠t1 に事象Bが生
起した場合には、事象・辞書テ―ブル(194)を参照
して該当する認識辞書bを選択し(S110)、時間情
報管理テ―ブル1の、事象Bに対応する認識辞書bが用
いられるはずであった時間t1 〜t2 を(t−t1 )分
ずらすように書き換える(S111)。t≠t4 に事象
Eが生起した場合にも同様に事象・辞書テ―ブルにより
認識辞書eを選択して(S113)、時間情報管理テ―
ブル1の認識辞書eが用いられるばずであった時間の項
を書き換える(S114)。
【0054】このように、本実施例によれば、環境の変
化を事象によるものも状況ととらえられるものも時間と
いう枠でくくってノイズ対策をする場合に、事象が予め
定まった時間通りに起こらない非常事態にも対応するこ
とができる。
化を事象によるものも状況ととらえられるものも時間と
いう枠でくくってノイズ対策をする場合に、事象が予め
定まった時間通りに起こらない非常事態にも対応するこ
とができる。
【0055】
【発明の効果】以上説明したように本発明によれば、非
定常な環境ノイズに対して、そのノイズの時間的情報を
予め記憶して利用することにより、環境に適した音声認
識辞書を選択的に用いたり、適切なノイズ除去を行った
りすることが可能となり、認識性能の向上を図ることの
できる音声認識装置を提供できるという実用上多大なる
効果が奏せられる。
定常な環境ノイズに対して、そのノイズの時間的情報を
予め記憶して利用することにより、環境に適した音声認
識辞書を選択的に用いたり、適切なノイズ除去を行った
りすることが可能となり、認識性能の向上を図ることの
できる音声認識装置を提供できるという実用上多大なる
効果が奏せられる。
【図1】 第1の実施例に係る音声認識装置の構成図。
【図2】 第2の実施例に係る音声認識装置の構成図。
【図3】 ノイズ対策部6の動作を示すフロ―図。
【図4】 第3の実施例に係る音声認識装置の構成図。
【図5】 第4の実施例に係る音声認識装置の構成図。
【図6】 第5の実施例に係る音声認識装置の構成図。
【図7】 第6の実施例に係る音声認識装置の構成図。
【図8】 第7の実施例に係る音声認識装置の構成図。
【図9】 第8の実施例に係る音声認識装置の構成図。
【図10】 第9の実施例に係る音声認識装置の構成
図。
図。
【図11】 ノイズ対策部19の動作を示すフロ―図。
1 音声入力部
2 音響分析部
3 音声認識部
4 認識辞書スイッチ
5 認識辞書部
6,7,67,19 ノイズ対策部
61,71,151,191 タイマ―
62,192 時間情報管理テ―ブル1
72 時間情報管理テ―ブル2
193 時間情報管理テ―ブル4
194 事象・辞書テ―ブル
8 ノイズ除去部
9 ノイズデ―タ部
10 ノイズデ―タスイッチ
11 認識辞書
12 学習用音声デ―タファイル
13 学習用音声デ―タ加工部
14 認識辞書作成部
15 発声者予測部
152 時間情報管理テ―ブル3
16 語彙・発声者対応テ―ブル
17,18 環境適応部
20 臨時事象選択部
─────────────────────────────────────────────────────
フロントページの続き
(72)発明者 金澤 博史
神奈川県川崎市幸区小向東芝町1番地 株
式会社東芝総合研究所内
Claims (6)
- 【請求項1】 認識すべき音声を入力する入力手段と、
この入力手段により入力された音声を分析する分析手段
と、複数の音声認識辞書から、前記入力手段で音声が入
力された時間に対応した音声認識辞書を選択する選択手
段と、前記分析手段による分析結果と前記選択手段によ
り選択された音声認識辞書とを照合して、入力された前
記音声を認識する認識手段とを具備したことを特徴とす
る音声認識装置。 - 【請求項2】 複数の音声認識辞書を備え、音声を入力
する入力手段と、この入力手段により入力された音声を
分析する分析手段と、時間と前記時間に用いるべき音声
認識辞書とを対応づけて記憶しておく記憶手段と、前記
入力手段により音声が入力された時間を検出する時間検
出手段と、この時間検出手段により検出された時間に対
応する音声を認識辞書を前記記憶手段を用いて選択する
選択手段と、前記分析手段による分析結果と前記選択手
段により選択された音声認識辞書とを照合して入力され
た前記音声を認識する認識手段とを具備したことを特徴
とする音声認識装置。 - 【請求項3】 請求項2記載の音声認識装置において、
時間と前記時間に生起する予定の事象を予め記憶してお
く事象記憶手段と、事象と前記事象が生起した時に用い
るべき音声認識辞書とを対応づけて予め記憶しておく予
備記憶手段と、前記時間検出手段により検出された時間
に生起する事象を検知する事象検知手段と、この事象検
知手段により検知された事象に対応する音声認識辞書を
前記予備記憶手段を用いて選択する予備選択手段とを具
備し、前記時間検出手段により検出された時間に生起す
る予定の事象を前記事象記憶手段より調べ、この予定の
事象と前記事象検知手段により検知された事象とが一致
しない場合には、前記選択手段を前記予備選択手段に切
り換えて前記認識手段を動作させることを特徴とする音
声認識装置。 - 【請求項4】 認識すべき音声を入力する入力手段と、
予め記憶された複数のノイズデ―タから、前記入力手段
で音声が入力された時間に対応したノイズデ―タを1つ
選択する選択手段と、この選択手段により選択されたノ
イズデ―タを用いて、入力された前記音声からノイズを
除去すると共に前記音声を分析する分析手段と、この分
析手段による分析結果と、予め記憶された音声認識辞書
とを照合して、前記音声を認識する認識手段とを具備し
たことを特徴とする音声認識装置。 - 【請求項5】 複数のノイズデ―タを保持し、音声を入
力する入力手段と、時間と前記時間に用いるべきノイズ
デ―タとを対応づけて予め記憶しておく記憶手段と、前
記入力手段により音声が入力された時間を検出する時間
検出手段と、この時間検出手段により検出された時間に
対応するノイズデ―タを前記記憶手段を用いて選択する
選択手段と、この選択手段により選択されたノイズデ―
タを用いて前記入力手段により入力された音声からノイ
ズデ―タを除去すると共に前記入力された音声を分析す
る分析手段と、この分析手段による分析結果と音声認識
辞書とを照合して前記入力された音声を認識する認識手
段とを具備したことを特徴とする音声認識装置。 - 【請求項6】 音声を入力する入力手段と、この入力手
段により入力された音声を分析する分析手段と、この分
析手段による分析結果と音声認識辞書とを照合して前記
入力された音声を認識する認識手段とを有する音声認識
装置において、前記音声認識辞書中の語彙と前記語彙を
発声する発声集合とを対応づけて予め記憶しておく第1
の記憶手段と、予め時間と対応づけて、音声を入力する
確率の最も大きい発声集合を記憶しておく第2の記憶手
段と、前記入力手段により音声が入力された時間を検出
する時間検出手段と、この時間検出手段により検出され
た時間に対応する発声者集合を前記第2の記憶手段から
検索する検索手段とを具備し、前記認識手段において前
記分析結果と前記音声認識辞書とを照合する際に、前記
第1の記憶手段に記憶された発声者集合が前記検索手段
により検索された発声者集合と一致する語彙を一致しな
い語彙よりも優先度を高くして、認識を行うことを特徴
とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP03152940A JP3090344B2 (ja) | 1991-06-25 | 1991-06-25 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP03152940A JP3090344B2 (ja) | 1991-06-25 | 1991-06-25 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH052399A true JPH052399A (ja) | 1993-01-08 |
JP3090344B2 JP3090344B2 (ja) | 2000-09-18 |
Family
ID=15551480
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP03152940A Expired - Fee Related JP3090344B2 (ja) | 1991-06-25 | 1991-06-25 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3090344B2 (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001041448A1 (fr) * | 1999-11-30 | 2001-06-07 | Ecchandes Inc. | Systeme d'acquisition de donnees, oeil artificiel, dispositif de vision, capteur d'images, et appareil associe |
JP2003255984A (ja) * | 2002-03-06 | 2003-09-10 | Asahi Kasei Corp | 野鳥の鳴き声認識装置及びその認識方法 |
JP2004212641A (ja) * | 2002-12-27 | 2004-07-29 | Toshiba Corp | 音声入力システム及び音声入力システムを備えた端末装置 |
JP2005338286A (ja) * | 2004-05-25 | 2005-12-08 | Yamaha Motor Co Ltd | 対象音処理装置およびこれを用いた輸送機器システム、ならびに対象音処理方法 |
JP2006154190A (ja) * | 2004-11-29 | 2006-06-15 | Toshiba Corp | 音声移動制御装置および音声移動制御方法 |
US7209881B2 (en) | 2001-12-20 | 2007-04-24 | Matsushita Electric Industrial Co., Ltd. | Preparing acoustic models by sufficient statistics and noise-superimposed speech data |
US7581180B2 (en) * | 2000-05-12 | 2009-08-25 | Sony Corporation | Portable terminal, method for inputting the information, method and apparatus for dictionary retrieval and medium |
JP2012173649A (ja) * | 2011-02-23 | 2012-09-10 | Kyocera Corp | 通信機器及び表示システム |
KR20220103477A (ko) * | 2021-01-15 | 2022-07-22 | (주)소프트기획 | 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템 |
JP2023549975A (ja) * | 2020-11-24 | 2023-11-29 | グーグル エルエルシー | 実世界ノイズを使用した音声個性化および連合訓練 |
-
1991
- 1991-06-25 JP JP03152940A patent/JP3090344B2/ja not_active Expired - Fee Related
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001041448A1 (fr) * | 1999-11-30 | 2001-06-07 | Ecchandes Inc. | Systeme d'acquisition de donnees, oeil artificiel, dispositif de vision, capteur d'images, et appareil associe |
CN100355284C (zh) * | 1999-11-30 | 2007-12-12 | 伊强德斯股份有限公司 | 视觉装置 |
US7581180B2 (en) * | 2000-05-12 | 2009-08-25 | Sony Corporation | Portable terminal, method for inputting the information, method and apparatus for dictionary retrieval and medium |
US7209881B2 (en) | 2001-12-20 | 2007-04-24 | Matsushita Electric Industrial Co., Ltd. | Preparing acoustic models by sufficient statistics and noise-superimposed speech data |
JP2003255984A (ja) * | 2002-03-06 | 2003-09-10 | Asahi Kasei Corp | 野鳥の鳴き声認識装置及びその認識方法 |
JP2004212641A (ja) * | 2002-12-27 | 2004-07-29 | Toshiba Corp | 音声入力システム及び音声入力システムを備えた端末装置 |
JP2005338286A (ja) * | 2004-05-25 | 2005-12-08 | Yamaha Motor Co Ltd | 対象音処理装置およびこれを用いた輸送機器システム、ならびに対象音処理方法 |
JP2006154190A (ja) * | 2004-11-29 | 2006-06-15 | Toshiba Corp | 音声移動制御装置および音声移動制御方法 |
JP2012173649A (ja) * | 2011-02-23 | 2012-09-10 | Kyocera Corp | 通信機器及び表示システム |
JP2023549975A (ja) * | 2020-11-24 | 2023-11-29 | グーグル エルエルシー | 実世界ノイズを使用した音声個性化および連合訓練 |
KR20220103477A (ko) * | 2021-01-15 | 2022-07-22 | (주)소프트기획 | 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템 |
Also Published As
Publication number | Publication date |
---|---|
JP3090344B2 (ja) | 2000-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7222075B2 (en) | Detecting emotions using voice signal analysis | |
EP1100073A2 (en) | Classifying audio signals for later data retrieval | |
Rose et al. | Techniques for information retrieval from voice messages | |
JP3090344B2 (ja) | 音声認識装置 | |
JPH08512148A (ja) | トピック判別機 | |
CN110660201A (zh) | 到站提醒方法、装置、终端及存储介质 | |
JPH0816187A (ja) | 音声分析における音声認識方法 | |
WO2010056868A1 (en) | System and method for automatic speach to text conversion | |
NZ316124A (en) | Pattern recognition for speech recognising noise signals signatures | |
JP2017062349A (ja) | 検知装置及びその制御方法、コンピュータプログラム | |
CN110880328B (zh) | 到站提醒方法、装置、终端及存储介质 | |
EP1063635B1 (en) | Method and apparatus for improving speech command recognition accuracy using event-based constraints | |
CN111009261B (zh) | 到站提醒方法、装置、终端及存储介质 | |
US20220303391A1 (en) | Systems and methods for prioritizing emergency calls | |
CN111276156B (zh) | 一种实时语音流监控的方法 | |
EP0338035B1 (en) | Improvements in or relating to apparatus and methods for voice recognition | |
CN117912466A (zh) | 一种基于人工智能的辅助能源业务域智能管控的虚拟值班方法 | |
JP2011053569A (ja) | 音響処理装置およびプログラム | |
US20070192097A1 (en) | Method and apparatus for detecting affects in speech | |
CN111934800B (zh) | 一种广播内容监测方法及系统 | |
van Hengel et al. | Verbal aggression detection in complex social environments | |
Barker et al. | Energetic and informational masking effects in an audiovisual speech recognition system | |
JP5017246B2 (ja) | 辞書学習装置及びその方法 | |
Kim et al. | Discriminative training of GMM via log-likelihood ratio for abnormal acoustic event classification in vehicular environment | |
de Cheveigné | A mixed speech F0 estimation algorithm. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080721 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090721 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |