JPH05197385A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH05197385A
JPH05197385A JP4007320A JP732092A JPH05197385A JP H05197385 A JPH05197385 A JP H05197385A JP 4007320 A JP4007320 A JP 4007320A JP 732092 A JP732092 A JP 732092A JP H05197385 A JPH05197385 A JP H05197385A
Authority
JP
Japan
Prior art keywords
voice
pattern
recognition
input
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4007320A
Other languages
English (en)
Inventor
Masayuki Iida
正幸 飯田
Ryuji Suzuki
龍司 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP4007320A priority Critical patent/JPH05197385A/ja
Publication of JPH05197385A publication Critical patent/JPH05197385A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【構成】 音声入力部12で作成した音声パターンから
音響入力部16で作成した音響パターンを音響除去部2
4で除去し、残りの音声パターンを識別部26に送る。
識別部26で、その音声パターンと標準音声パターンメ
モリ28の標準音声パターンとの間で類似度を判別し、
ステレオ装置18に識別結果を出力して、ラジオ/カセ
ット/CD部32を制御する。 【効果】 雑音下であっても、良好に音声認識できる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は音声認識装置に関し、
特にたとえばテレビ,ラジオまたはステレオなどオーデ
ィオ出力を有する音響装置の動作中や自動車のエンジン
音など定常的な雑音を発生する環境下や特定の非定常雑
音を有する環境下において音声認識動作を行う、音声認
識装置に関する。
【0002】
【従来の技術】第1の従来技術としては、2本のマイク
を用い、1本は入力音声用に他の1本は雑音除去用に割
り当て、雑音混じりの入力音声から雑音を差し引くもの
が提案されている。また、第2の従来技術としては、定
常的な雑音に対してスペクトルサブトラクションによる
雑音除去手段などによって、認識性能の劣化を防ぐもの
が提案されている。さらに、特公平2−2157号(日
産自動車;車両用音声認識装置)において、イグニショ
ンスイッチのオン状態、すなわちエンジンが動作中には
音声の登録を禁止し、雑音の混じらない音声を登録する
ものが提案されている。
【0003】また、第3の従来技術としては、音に立ち
上がりと立ち下がりとがあり、音声によく似た波形の非
定常雑音に対しては、発生時間の長さを感知したり、判
定基準の閾値(リジェクト)を厳しく設定したり、ある
いはパスワードを併用したりして目的の音声と雑音とを
分離することが試みられている。
【0004】
【発明が解決しようとする課題】第1の従来技術では、
音響装置のオーディオ出力を対象にする場合、良好な認
識性能を得られるほど充分な雑音除去を実現できていな
い。第2の従来技術では、そのための信号処理が必要と
なるが、パワーのあるコンピュータが必要となり、コス
トが高くなる。また、特公平2−2157号の技術で
は、雑音の混じらない音声が標準音声パターンとなるた
め、静かな環境下では高い認識性能が得られるであろ
う。しかし、たとえば自動車が動いているときの音声入
力パターンは、雑音混じりであるため、入力音声パター
ンと標準音声パターンとの間での比較・識別結果は良好
でない。したがって、動いている自動車車内などの定常
雑音下で音声認識したいという本来の目的から外れてし
まう。
【0005】第3の従来技術では、発生時間の長さを監
視する方法においては、時間長の適正な設定や判定基準
の閾値の適正な設定が使用環境によって異なり一概に決
定することは困難である。たとえば閾値について考える
と、閾値を広くすれば雑音でも簡単に反応し、逆に、雑
音に反応しないように閾値を狭くすれば所望の音声まで
をも受け付けにくくなってしまう。また、パスワードを
併用する場合には、閾値の適正な設定が難しくまたパス
ワードを使用することによって余分に1語発声する必要
が生ずるため、面倒になってしまう。
【0006】それゆえに、この発明の主たる目的は、オ
ーディオ出力環境下において良好な認識性能が得られ、
音声認識装置を提供することである。この発明の他の目
的は、定常雑音下において良好な認識性能が低コストで
得られる、音声認識装置を提供することである。この発
明のさらに他の目的は、非定常雑音下において良好な認
識性能が簡単に得られる、音声認識装置を提供すること
である。
【0007】
【課題を解決するための手段】第1発明は、マイクから
入力される音声の特徴を抽出し音声パターンを作成する
音声パターン入力手段、音響装置から入力されるオーデ
ィオ出力の特徴を抽出し音響パターンを作成する音響パ
ターン入力手段、音声パターンから音響パターンを差し
引く音響除去手段、音声を認識する際の標準音声パター
ンが格納される標準音声パターンメモリ、および音声パ
ターンと標準音声パターンとの間で類似度を比較しその
認識結果に基づいて音響装置に操作命令を出力する識別
手段を備える、音声認識装置である。
【0008】第2発明は、マイクから入力される音声の
特徴を抽出し音声パターンを作成する音声パターン入力
手段、被制御機器自身およびそれに付属する機器の少な
くとも一方によって発生される定常雑音を検出する定常
雑音検出手段、音声パターンおよび定常雑音がともに入
力されたときにのみ音声登録するように操作される登録
操作手段、登録操作手段からの音声パターンおよび定常
雑音を認識モードの標準音声パターンとして格納する標
準音声パターンメモリ、および音声パターンと標準音声
パターンとの間で比較・識別する識別手段を備える、音
声認識装置である。
【0009】第3発明は、マイクから入力される音声の
特徴を抽出し音声パターンを作成する音声パターン入力
手段、定常雑音を発生する被制御機器自身およびそれに
付属する機器の少なくとも一方の電源スイッチがオンさ
れたか否かを検出するスイッチオン検出手段、スイッチ
オン検出手段によって電源スイッチのオン状態が検出さ
れたときにのみ音声登録するように操作される登録操作
手段、登録操作手段からの音声パターンおよび定常雑音
を認識モードの標準音声パターンとして格納する標準音
声パターンメモリ、および音声パターンと標準音声パタ
ーンとの間で比較・識別する識別手段を備える、音声認
識装置である。
【0010】第4発明は、マイクから入力された音声の
特徴を抽出し音声パターンを作成する音声パターン入力
手段、所定の音声命令として認識される目的語彙および
雑音として認識される雑音語彙が記憶された認識対象記
憶手段、および音声パターンが目的語彙として判定され
たときに音声パターンを出力し、音声パターンが雑音語
彙として判定されたときに音声パターンを出力しない識
別手段を備える、音声認識装置である。
【0011】
【作用】第1発明では、音響除去手段で音声パターンか
ら音響パターンを差し引くことによって、スピーカから
の雑音が除去された音声が得られる。識別手段によっ
て、音響パターンが差し引かれた音声パターンと標準音
声パターンメモリに格納された標準パターンとの間で類
似度が計算され、音響装置に認識結果を出力する。この
出力によってたとえばラジオ,カセットあるいはCDな
どが制御される。
【0012】第2発明では、登録スイッチがオンされか
つ定常雑音検出手段によって定常雑音が検出されれば登
録モードとなる。登録モードでは、音声パターンと定常
雑音とが標準音声パターンとして標準音声パターンメモ
リに格納される。一方、定常雑音が検出されなければ、
認識モードとなる。認識モードでは、認識部で入力され
た音声パターンと標準音声パターンメモリに格納された
標準音声パターンとの間で比較・識別し、その識別結果
を被制御機器に出力して、被制御機器に所定の動作を行
わせる。
【0013】第3発明では、登録スイッチがオンされか
つスイッチオン検出手段によって電波スイッチのオン状
態が検出されれば登録モードとなり、電波スイッチのオ
ン状態が検出されなければ認識モードとなる。登録モー
ドおよび認識モードでは、第2発明と同様に動作する。
第4発明では、識別手段によって、入力された音声パタ
ーンと認識対象記憶手段に記憶された目的語彙および雑
音語彙との間でパターンマッチングする。パターンマッ
チングの結果、音声パターンが目的語彙と判断されれば
カーオーディオにその音声パターンを出力し、一方音声
パターンが雑音語彙として判断されればカーオーディオ
には音声パターンは出力されない。このようにしてカー
オーディオが制御される。
【0014】
【発明の効果】第1発明によれば、各種の音響装置から
のスピーカ出力などの雑音下であっても、誤動作をする
ことなく良好に音声認識できる。第2および第3発明に
よれば、たとえば走行中の自動車の車内など定常雑音下
であっても低コストでかつ良好に音声認識できる。
【0015】第4発明によれば、発生時間長の設定や閾
値の設定などの微妙な調整、またはパスワードなどを使
用することなしに、特定の非定常雑音を認識対象語彙と
して判定することによって、比較的簡単にかつ高精度に
雑音を除去して良好に音声認識できる。この発明の上述
の目的,その他の目的,特徴および利点は、図面を参照
して行う以下の実施例の詳細な説明から一層明らかとな
ろう。
【0016】
【実施例】図1を参照して、この実施例の音声認識装置
10は音声入力部12を含む。音声入力部12には、音
声(操作命令)が取り込まれるマイクロフォン14から
電気信号に変換された音声が入力される。音声入力部1
2では、バンドパスフィルタ群(図示せず)によって音
声スペクトル分析を行い、音声パターンが作成される。
このとき、バンドパスフィルタ群の特定の1チャネルの
出力波形は、たとえば図2および図3に示すようにな
る。図2には、ステレオ装置2が演奏されていない静か
な状況で、「サンヨー」という音声をバンドパスフィル
タ群でスペクトル分析したときの特定フィルタ(1チャ
ネル)の出力波形を示す。また、図3には、音楽演奏中
に「サンヨー」を発声した場合であり、音声に音楽(雑
音)が加わると元の波形とはかなり異なったものとな
る。
【0017】また、音響入力部16には、音響装置であ
るステレオ装置18のオーディオ出力部20からのオー
ディオ出力が、減衰部22によって減衰された後に入力
される。オーディオ出力は、たとえばスピーカ用出力信
号などの電気信号、すなわち既知の雑音である。マイク
14とスピーカ36との関係が、たとえば周囲の環境の
影響を受けて一定とならないため、減衰部22において
オーディオ出力を必要以上に減衰させたりまたは減衰さ
せなかったりして、音声認識に悪影響を及ぼすことがあ
る。したがって、減衰部22では入力されたオーディオ
出力に、その環境に適応した所定の比率をかけて減衰さ
せるように調節し、音声パターンと音響パターンとのレ
ベルを調整する。減衰部22は、ステレオ装置18など
に付属のレベルメータ出力などの電気信号を利用しても
よい。
【0018】音響入力部16では、入力されたオーディ
オ出力について、音声入力部12と同様、バンドパスフ
ィルタ群(図示せず)によってオーディオ出力のスペク
トル分析を行い、音響パターンを作成する。そして、音
響除去部24では、音声入力部12で作成された音声パ
ターンから音響入力部16で作成された音響パターンを
差し引き、識別部26に送る。識別部26では、標準音
声パターンメモリ28に格納された複数の標準音声パタ
ーンと音響除去部24からの音声パターンとの間で類似
度を計算し、認識結果(操作命令)をステレオ制御部3
0に送る。ステレオ制御部30は、識別部26からの認
識結果に基づいて、ラジオ/カセット/CD部32を制
御する。なお、たとえばキーやリモコンなどを含むステ
レオ操作部34を操作して、ラジオ/カセット/CD部
32を制御してもよい。ラジオ/カセット/CD部32
のスタートにより、音楽などの情報がオーディオ出力部
20に出力され、オーディオ出力部20によって増幅さ
れてスピーカ36から出力される。
【0019】動作において、図4に示すようにステップ
S1においてマイク14から音声入力部12に音声が入
力される。そして音声入力部12では、ステップS3に
おいて音声スペクトル分析が行われ、ステップS5にお
いて音声パターンが作成されて音響除去部24に出力さ
れる。一方、ステップS7においてステレオ装置18か
らの音楽(オーディオ出力)が音響入力部16に入力さ
れる。音響入力部16では、ステップS9において音響
スペクトル分析が行われ、ステップS11において音響
パターンが作成され、音響除去部24に出力される。音
響除去部24では、ステップS13に示すように、音楽
の影響を除去すべく、(音声パターン=音声パターン−
音響パターン)の処理が行われ、識別部26に送る。識
別部26では、ステップS15において入力された音声
パターンと標準音声パターンとの間で類似度を計算して
パターンマッチングされる。識別部26からは、ステッ
プS17において認識結果を出力してその識別結果によ
ってステップS19においてステレオが制御される。し
たがって、ステップS21,S23,S25において、
認識結果に基づいて、それぞれラジオ,カセットおよび
CDが制御される。なお、ステップS27のようにステ
レオ操作部34のキー入力やリモコン入力(図示せず)
などによってステレオ制御してもよい。
【0020】具体的に、まず、ステレオ装置18が演奏
されていない静かな状況で音声が発生すると、音声はマ
イク14から取り込まれて音声入力部12で音声パター
ンが作成される。今、ステレオ装置18が演奏されてい
ない状態であるので、ステレオ装置22からはオーディ
オ出力が出されておらず、音響入力部16からは音響パ
ターンが作成されない。したがって、音響パターンが零
であるため、音響除去部14は事実上何の働きもせず、
音声入力部12からの音声パターンがそのまま識別部2
6に送られる。識別部26で所定の類似度の計算を行っ
てステレオ制御部30に認識結果を出力する。たとえば
ステレオ制御部30がたとえばカセットの再生スタート
を命令する「再生」を認識結果として受けた場合、ステ
レオ制御部30は、ラジオ/カセット/CD部32に対
してカセットが再生するよう制御し、カセットが実際に
再生スタートする。カセットのスタートによってカセッ
トテープ上の録音情報(音楽など)が再生されて、オー
ディオ出力部20によって増幅されスピーカ36から出
力される。同時に、オーディオ出力部20からのオーデ
ィオ出力情報は、減衰部22によって減衰され、音響入
力部16に伝えられる。
【0021】このようにカセットがスタートし、スピー
カ36から音楽が流れると、マイク14に音楽が入力さ
れるが、音声による操作命令がなければ、音声入力部1
2で作成される音声パターンは音楽だけである。したが
って、スピーカ36とマイク14との特性の影響を若干
受けるが、音響入力部16で作成される音響パターンに
近いもの(音声パターン≒音響パターン)となる。そし
て、音響除去部24では、(音声パターン−音響パター
ン)の処理を行うので、この場合(音響パターン−音響
パターン)≒0となり、以降の音声認識処理は何も行わ
れず、認識結果も出力されない。
【0022】また、音楽演奏中に音声による操作命令が
ある場合、音声入力部12で作成される音声パターン
は、音楽も混じっているため、(音声パターン≒音声パ
ターン+音響パターン)である。この場合音響除去部2
4では、(音声パターン+音響パターン)−(音響パタ
ーン)≒音声パターンの処理が行われ、音声パターンの
みが残る。
【0023】したがって、音楽が混じった音声が入力さ
れたとしても、既知の雑音である電気信号たるオーディ
オ出力を用いることによって、実質上、操作命令である
音声のみが音声認識される。なお、音響除去部24に入
力される音声パターンおよび音響パターンのタイミング
を一致させるため、遅延回路(図示せず)を挿入しても
よい。音声パターンを遅延させるには、音声入力部12
の入力側または出力側のいずれに遅延回路を挿入しても
よく、また、音声入力部12が遅延機能を備えてもよ
い。音響パターンを遅延させるには、音響入力部16の
入力側または出力側のいずれに遅延回路を挿入してもよ
く、また、音響入力部16が遅延機能を備えてもよい。
さらに、減衰部22とオーディオ出力部20との間に遅
延回路を挿入してもよい。
【0024】また、上述の実施例のように音響入力部1
6を独立して設けず、同様にスペクトル分析およびパタ
ーン作成を行う音声入力部12によって音声パターンお
よび音響パターンを作成するようにしてもよい。このと
き、音声入力部12から音響除去部24へは、音声パタ
ーンのみならず音響パターンも出力されることはいうま
でもない。
【0025】図5を参照して、他の実施例の音声認識装
置10はマイク14からの音声が入力される音声入力部
12を含む。音声入力部12は、バンドパスフィルタ群
によるスペクトル分析を行い、音声パターンを作成し、
音声登録操作部38に送る。音声登録操作部38には、
レベル判定部40を介して定常雑音検出部42が接続さ
れる。定常雑音検出部42は、認識結果によって制御さ
れる被制御機器44または付属する機器などから発生す
るたとえばエンジン音などの定常雑音を検出する。定常
雑音検出部42によって定常雑音が検出されれば、レベ
ル判定部40によってその定常雑音のレベルが判定され
る。定常雑音のレベルが所定値以下の場合には、図6に
示す登録操作部38のモードスイッチ駆動部46に信号
“H”が出力される。このとき、登録スイッチ48がオ
ンされていればモードスイッチ50を登録モード側に接
続する。すなわち、モードスイッチ駆動部46は論理積
構成をとっており、登録スイッチ48からの信号と定常
雑音検出部42からの検出信号とがともに“H”の場合
に駆動し、モードスイッチ50を登録モード側に接続す
る。したがって、音声登録時には、登録操作部38は作
成された音声パターンを標準音声パターンメモリ28へ
転送するよう動作し、標準音声パターンメモリ28では
順次、登録音声が標準音声パターンとして格納される。
【0026】定常雑音のレベルが極端に大きいと認識性
能が劣化する恐れがあるため、定常雑音のレベルが所定
値より大きい場合にはレベル判定部40は定常雑音検出
部42からの信号を“L”として、モードスイッチ駆動
部46に出力する。雑音が検出されない場合と雑音レベ
ルが所定値以上の場合には“L”として出力される。ま
た、定常雑音検出部42によって定常雑音が検出されな
い場合にも、モードスイッチ駆動部46に“L”の信号
が出力される。このとき、モードスイッチ駆動部46は
駆動されず、モードスイッチ50は認識モード側に接続
される。音声認識時には、入力された音声パターンは登
録操作部38によって識別部26へと伝送される。識別
部26では、入力された音声パターンと標準音声パター
ンメモリ28に格納された標準音声パターン群との間で
類似度を比較し、認識結果が出力される。この認識結果
に基づいて、被制御機器44が所定の動作を行う。
【0027】したがって、モードスイッチ駆動部46
に、定常雑音検出部42から“H”の信号が送られたと
きにのみ登録動作を行うので、実際の認識モードに近い
雑音環境下で標準音声パターンが作成される。すなわ
ち、標準音声パターンに実際の雑音を混入させるので、
良好な認識性能を得ることができる。動作において、図
7に示すメインプログラムでは、まずパワーオンにより
スタートし、ステップS29において登録スイッチ48
がオンしたか否かが判断される。登録スイッチ48がオ
ンされていればステップS31において図8に示す登録
ルーチンが実行される。登録ルーチンがスタートすれ
ば、ステップS33において定常雑音検出部42で定常
雑音が検出されたか否かが判断され、定常雑音が検出さ
れるまで待機する。そして、定常雑音が検出されれば、
ステップS35においてレベル判定部40で定常雑音の
レベルが所定値以内か否かが判断され、所定値以上であ
ればモードスイッチ駆動部46へ“L”の信号が出力さ
れ、ステップS33に戻る。ステップS35において定
常雑音のレベルが所定値以内であればモードスイッチ駆
動部46に“H”の信号が出力され、ステップS37に
進み、図9に示す音声パターン作成ルーチンが実行され
る。音声パターン作成ルーチンがスタートすると、ステ
ップS39においてマイク14から音声入力部12に音
声が入力される。音声入力部12では、ステップS41
において音声スペクトル分析を行い、ステップS43に
おいて音声パターンを作成する。そして、図8に戻り、
ステップS45において登録音声を標準パターンとし
て、標準パターンメモリ28へ格納する。
【0028】登録ルーチンが終了すれば、図7に戻り、
ステップS29において登録スイッチ48がオフされて
いる場合と同様、ステップS47に進む。ステップS4
7では、音声パターンが標準音声パターンメモリ28に
登録済であるか否かが判断され、登録されていない場合
にはステップS29に戻り、登録済である場合にはステ
ップS49に進む。ステップS49では音声入力部12
に音声入力があるか否かが判断され、音声入力がない場
合にはステップS29に戻り、音声入力がある場合には
ステップS51に進み、図10に示す認識ルーチンが実
行される。認識ルーチンがスタートすると、ステップS
53において図9に示す音声パターン作成ルーチンが実
行される。そして、ステップS55において識別部26
で、入力された音声パターンと標準音声パターンメモリ
28に格納された標準音声パターンとの間で類似度を計
算するパターンマッチングを行う。そして、ステップS
57において認識結果を被制御機器44に出力し、ステ
ップS59において被制御機器44を制御し、図7に示
すステップS29に戻る。
【0029】また、図11に示すその他の実施例の音声
認識装置10は定常雑音を発生する被制御機器44の電
源スイッチ、たとえばイグニションスイッチのオン状態
を検出するスイッチオン検出部52を用いて構成され
る。このとき、スイッチオン検出部52および登録スイ
ッチ48からそれぞれ出力される信号がともに“H”で
あるときに、登録モードとされる。
【0030】動作において、図8に示す登録ルーチンが
スタートすると、ステップS33′のようにスイッチオ
ン検出部52でイグニションスイッチがオンしているか
否かを検出する。このとき、イグニションスイッチがオ
ンされるまで待機し、イグニションスイッチがオンされ
ればモードスイッチ駆動部46に“H”の信号が出力さ
れ、ステップS37に進み、図9に示す音声パターン作
成ルーチンが実行される。その他の動作については、図
5に示す音声認識装置10と同様である。スイッチオン
検出部52を用いれば、電源スイッチのオン状態を検出
するだけで簡単に登録操作部38を操作できる。
【0031】さらに図12を参照して、さらにその他の
実施例の音声認識装置10は、特定の雑音語彙を積極的
に利用してパターンマッチングによって音声認識し、カ
ーオーディオ54を音声認識で操作するものである。な
お、標準音声パターンメモリ28には、音声認識の目的
の語彙群に相当する標準パターンA群と、雑音語彙群に
相当する標準パターンN群とが格納される。標準パター
ンA群とは、たとえば、カーオーディオ54を操作する
ための命令、たとえば「再生」,「早送り」,「ラジ
オ」および「カセット」などの音声を音声パターン化し
たものである。一方、標準パターンN群とは、使用環境
において頻繁に現れる特定の非定常雑音、たとえば『バ
ターン』というドア音、『ヒューン』というエアコン起
動音、および『ブーン』という自動車のすれちがい音な
どを音声パターン化したものである。
【0032】動作において、図13に示すようにスター
トすると、まずステップS61において、マイク14か
ら入力された音声は音声入力部12に送られる。音声入
力部12では、ステップS63において音声スペクトル
分析が行われ、ステップS65において音声パターンが
作成される。音声入力部12において音声パターン化さ
れた入力音声パターンは、ステップS67およびステッ
プS69において、それぞれ識別部26で標準パターン
A群および標準パターンN群との間で類似度が計算さ
れ、パターンマッチングされる。そして、ステップS7
1においてパターンマッチングの結果、類似度1番の標
準パターンを判断し、その結果は識別部26から出力さ
れ、この結果に基づいてカーオーディオ54が制御され
る。すなわち、類似度1番の標準パターンが標準パター
ンA群であればステップS73においてその認識結果を
カーオーディオ54に出力し、認識結果に基づいてカー
オーディオ54を制御する。一方、類似度1番の標準パ
ターンが標準パターンN群であれば、そのときの入力さ
れた音声は雑音であったとし認識結果としてカーオーデ
ィオ54には出力されず、ステップS61に戻る。
【0033】具体例として、まず「カセット」という音
声が入力され、続いて「早送り」という音声が入力さ
れ、その後『バターン』というドア音が入力された場合
について説明する。音声「カセット」は、標準音声パタ
ーンメモリ28に格納されたすべての標準音声パターン
とパターンマッチングされ、そのうち標準パターンA群
の中の音声パターン「カセット」が類似度1番と判定さ
れる。そして、この結果に基づいて、図示しないがカー
オーディオ54のカセットが動作状態になる。
【0034】次の音声「早送り」が入力されると、同様
にパターンマッチングされ、そのうち標準パターンA群
の中の音声パターン「早送り」が類似度1番と判定さ
れ、この結果に基づいてカセットが早送り状態になる。
続いて、雑音であるドア音『バターン』が入力される
と、同様にパターンマッチングされるが、標準パターン
N群の中のドア音はパターン『バターン』が類似度1番
と判定される。この結果、入力された音は雑音であると
して、カーオーディオ54には認識結果が出力されず、
カーオーディオ54は何ら動作しない。これら『バター
ン』というドア音、『ヒューン』というエアコン起動
音、および『ブーン』という自動車のすれちがい音など
の非定常雑音には、はっきりとした立ち上がりと立ち下
がりとがある。したがって、人間の発声とよく似てはい
るが、パターンとしてみると通常の音声とは異なる音声
パターンであるので、パターンマッチングによって人間
の音声と区別することは容易である。
【0035】なお、上述の例では、ドア音,エアコン起
動音および自動車のすれちがい音などの想定された環境
雑音のパターンが予め標準パターンN群に格納された方
式について述べた。しかし、これに限定されず、使用者
が環境雑音を登録する方式を採用してもよく、また、予
め格納されたものにさらに使用者が別の雑音を登録追加
する方式であってもよい。
【0036】また、図12に示す識別部26および標準
音声パターンメモリ28を用いる場合に限定されず、図
14に示す多層入力ネットワーク56を用いた神経回路
網モデルを応用して音声認識装置を構成してもよい。こ
の場合、音声入力部12から出力される音声パターンは
入力層に入力される。入力層は、バンドパスフィルタ群
(8チャネル;BPF1〜BPF8)による音声スペク
トル分析を16の時間軸(T1〜T16)について行え
るように、8×16ユニットに構成される。入力層から
の音声パターンは50ユニットの隠れ層を介して出力層
に送られる。出力層は、たとえば10ユニットの目的語
彙群と3ユニットの雑音語彙群とから構成され、「再
生」,「早送り」,「ラジオ」および「カセット」など
の目的語彙群と『バターン』,『ヒューン』などの雑音
語彙群とが出力される。
【0037】学習モードにおいて、まず、たとえば「再
生」という目的語彙が入力されると、教師付きBack-Pro
pagation学習が行われる。そして、この「再生」という
目的語彙について多数の音声データが次々と学習され
る。同様に、「早送り」,「ラジオ」および「カセッ
ト」などのすべての目的語彙毎に、上述の学習が行われ
る。さらに、『バターン』,『ヒューン』および『ブー
ン』などのすべての雑音語彙についても上述の順序で学
習される。次いで認識モードにおいて、音声入力される
と、その音声パターンが入力層に入力され、上述の学習
で得られたネットワーク情報を基に出力層から結果が出
力される。たとえば「再生」という目的語彙が正しく認
識された場合には、出力層からは目的語彙群の中の「再
生」が出力され、それに基づいてカーオーディオ54が
制御される。一方、たとえば『バターン』というドア音
が入力された場合には、出力層からは雑音語彙群中の
『バターン』が出力され、雑音入力があったと判断され
てカーオーディオ54は現状を維持する。他の目的語彙
および雑音語彙についても同様に認識され、カーオーデ
ィオ54が制御される。
【図面の簡単な説明】
【図1】この発明の一実施例を示すブロック図である。
【図2】フィルタの出力波形の一例を示す波形図であ
る。
【図3】フィルタの出力波形の他の一例を示す波形図で
ある。
【図4】図1の実施例の動作を示すフロー図である。
【図5】この発明の他の実施例を示すブロック図であ
る。
【図6】音声登録操作部の一構成例を示すブロック図で
ある。
【図7】図5の実施例のメインプログラムを示すフロー
図である。
【図8】図5の実施例の登録ルーチンを示すフロー図で
ある。
【図9】図5の実施例の音声パターン作成ルーチンを示
すフロー図である。
【図10】図5の実施例の認識ルーチンを示すフロー図
である。
【図11】この発明のその他の実施例を示すブロック図
である。
【図12】この発明のさらにその他の実施例を示すブロ
ック図である。
【図13】図12の実施例の動作を示すフロー図であ
る。
【図14】多層ニューラルネットワークを示す図解図で
ある。
【符号の説明】
10 …音声認識装置 12 …音声入力部 14 …マイク 16 …音響入力部 18 …ステレオ装置 20 …オーディオ出力部 22 …減衰部 24 …音響除去部 26 …識別部 28 …標準音声パターンメモリ 30 …ステレオ制御部 32 …ラジオ/カセット/CD部 36 …スピーカ 38 …音声登録操作部 40 …レベル判定部 42 …定常雑音検出部 44 …被制御機器 52 …スイッチオン検出部 54 …カーオーディオ 56 …多層ニューラルネットワーク
─────────────────────────────────────────────────────
【手続補正書】
【提出日】平成4年4月21日
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】請求項5
【補正方法】変更
【補正内容】
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0010
【補正方法】変更
【補正内容】
【0010】第4発明は、マイクから入力された音声の
特徴を抽出し音声パターンを作成する音声パターン入力
手段、所定の音声命令として認識される目的語彙および
雑音として認識される雑音語彙が記憶された認識対象記
憶手段、および音声パターンが目的語彙として判定され
たときに認識結果を出力し、音声パターンが雑音語彙と
して判定されたときに認識結果を出力しない識別手段を
備える、音声認識装置である。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0012
【補正方法】変更
【補正内容】
【0012】第2発明では、登録スイッチがオンされか
つ定常雑音検出手段によって定常雑音が検出されれば登
録モードとなる。登録モードでは、音声パターンと定常
雑音とが標準音声パターンとして標準音声パターンメモ
リに格納される。一方、定常雑音が検出されなければ、
登録モードとしない。認識モードでは、認識部で入力さ
れた音声パターンと標準音声パターンメモリに格納され
た標準音声パターンとの間で比較・識別し、その識別結
果を被制御機器に出力して、被制御機器に所定の動作を
行わせる。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0013
【補正方法】変更
【補正内容】
【0013】第3発明では、登録スイッチがオンされか
つスイッチオン検出手段によって電波スイッチのオン状
態が検出されれば登録モードとなり、電波スイッチのオ
ン状態が検出されなければ認識モードとなる。登録モー
ドおよび認識モードでは、第2発明と同様に動作する。
第4発明では、識別手段によって、入力された音声パタ
ーンと認識対象記憶手段に記憶された目的語彙および雑
音語彙との間でパターンマッチングする。パターンマッ
チングの結果、音声パターンが目的語彙と判断されれば
カーオーディオにその認識結果を出力し、一方音声パタ
ーンが雑音語彙として判断されればカーオーディオには
認識結果は出力されない。このようにしてカーオーディ
オが制御される。
【手続補正5】
【補正対象書類名】明細書
【補正対象項目名】0020
【補正方法】変更
【補正内容】
【0020】具体的に、まず、ステレオ装置18が演奏
されていない静かな状況で音声が発生すると、音声はマ
イク14から取り込まれて音声入力部12で音声パター
ンが作成される。今、ステレオ装置18が演奏されてい
ない状態であるので、減衰部22からはオーディオ出力
が出されておらず、音響入力部16からは音響パターン
が作成されない。したがって、音響パターンが零である
ため、音響除去部4は事実上何の働きもせず、音声入
力部12からの音声パターンがそのまま識別部26に送
られる。識別部26で所定の類似度の計算を行ってステ
レオ制御部30に認識結果を出力する。たとえばステレ
オ制御部30がたとえばカセットの再生スタートを命令
する「再生」を認識結果として受けた場合、ステレオ制
御部30は、ラジオ/カセット/CD部32に対してカ
セットが再生するよう制御し、カセットが実際に再生ス
タートする。カセットのスタートによってカセットテー
プ上の録音情報(音楽など)が再生されて、オーディオ
出力部20によって増幅されスピーカ36から出力され
る。同時に、オーディオ出力部20からのオーディオ出
力情報は、減衰部22によって減衰され、音響入力部1
6に伝えられる。

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】マイクから入力される音声の特徴を抽出し
    音声パターンを作成する音声パターン入力手段、 音響装置から入力されるオーディオ出力の特徴を抽出し
    音響パターンを作成する音響パターン入力手段、 前記音声パターンから前記音響パターンを差し引く音響
    除去手段、 音声を認識する際の標準音声パターンが格納される標準
    音声パターンメモリ、および前記音声パターンと前記標
    準音声パターンとの間で類似度を比較しその認識結果に
    基づいて前記音響装置に操作命令を出力する識別手段を
    備える、音声認識装置。
  2. 【請求項2】マイクから入力される音声の特徴を抽出し
    音声パターンを作成する音声パターン入力手段、 被制御機器自身およびそれに付属する機器の少なくとも
    一方によって発生される定常雑音を検出する定常雑音検
    出手段、 前記音声パターンおよび前記定常雑音がともに入力され
    たときにのみ音声登録するように操作される登録操作手
    段、 前記登録操作手段からの前記音声パターンおよび前記定
    常雑音を認識モードの標準音声パターンとして格納する
    標準音声パターンメモリ、および前記音声パターンと前
    記標準音声パターンとの間で比較・識別する識別手段を
    備える、音声認識装置。
  3. 【請求項3】さらに、前記定常雑音が一定の検出レベル
    を超えたときには音声登録しないようにするためのレベ
    ル検出手段を備える、請求項2記載の音声認識装置。
  4. 【請求項4】マイクから入力される音声の特徴を抽出し
    音声パターンを作成する音声パターン入力手段、 定常雑音を発生する被制御機器自身およびそれに付属す
    る機器の少なくとも一方の電源スイッチがオンされたか
    否かを検出するスイッチオン検出手段、 前記スイッチオン検出手段によって前記電源スイッチの
    オン状態が検出されたときにのみ音声登録するように操
    作される登録操作手段、 前記登録操作手段からの前記音声パターンおよび前記定
    常雑音を認識モードの標準音声パターンとして格納する
    標準音声パターンメモリ、および前記音声パターンと前
    記標準音声パターンとの間で比較・識別する識別手段を
    備える、音声認識装置。
  5. 【請求項5】マイクから入力された音声の特徴を抽出し
    音声パターンを作成する音声パターン入力手段、 所定の音声命令として認識される目的語彙および雑音と
    して認識される雑音語彙が記憶された認識対象記憶手
    段、および前記音声パターンが前記目的語彙として判定
    されたときに前記音声パターンを出力し、前記音声パタ
    ーンが前記雑音語彙として判定されたときに前記音声パ
    ターンを出力しない識別手段を備える、音声認識装置。
  6. 【請求項6】前記認識対象記憶手段は、前記目的語彙お
    よび前記雑音語彙をそれぞれ第1および第2の標準パタ
    ーンとして記憶する標準音声パターンメモリによって構
    成され、前記識別手段によって前記音声パターンと前記
    第1および第2の標準パターンとをパターン比較するこ
    とによって認識処理するようにした、請求項5記載の音
    声認識装置。
  7. 【請求項7】前記認識対象記憶手段および前記識別手段
    は神経回路網モデルによって構成され、 前記神経回路網モデルによって前記目的語彙および前記
    雑音語彙の学習処理および認識処理するようにした、請
    求項5記載の音声認識装置。
JP4007320A 1992-01-20 1992-01-20 音声認識装置 Pending JPH05197385A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4007320A JPH05197385A (ja) 1992-01-20 1992-01-20 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4007320A JPH05197385A (ja) 1992-01-20 1992-01-20 音声認識装置

Publications (1)

Publication Number Publication Date
JPH05197385A true JPH05197385A (ja) 1993-08-06

Family

ID=11662688

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4007320A Pending JPH05197385A (ja) 1992-01-20 1992-01-20 音声認識装置

Country Status (1)

Country Link
JP (1) JPH05197385A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003044069A (ja) * 2001-07-19 2003-02-14 Samsung Electronics Co Ltd 音声認識による誤動作の防止及び音声認識率の向上が可能な電子機器及び方法
WO2004107319A1 (ja) * 2003-05-30 2004-12-09 National Institute Of Advanced Industrial Science And Technology 既知音響信号除去方法及び装置
JP2012133226A (ja) * 2010-12-22 2012-07-12 Sogo Keibi Hosho Co Ltd 音認識装置および音認識方法
WO2022164448A1 (en) * 2021-01-29 2022-08-04 Hewlett-Packard Development Company, L.P. Acoustic pattern determination

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003044069A (ja) * 2001-07-19 2003-02-14 Samsung Electronics Co Ltd 音声認識による誤動作の防止及び音声認識率の向上が可能な電子機器及び方法
WO2004107319A1 (ja) * 2003-05-30 2004-12-09 National Institute Of Advanced Industrial Science And Technology 既知音響信号除去方法及び装置
GB2418577A (en) * 2003-05-30 2006-03-29 Nat Inst Of Advanced Ind Scien Method and device for removing known acoustic signal
GB2418577B (en) * 2003-05-30 2007-10-17 Nat Inst Of Advanced Ind Scien Method and device for removing known acoustic signal
JP2012133226A (ja) * 2010-12-22 2012-07-12 Sogo Keibi Hosho Co Ltd 音認識装置および音認識方法
WO2022164448A1 (en) * 2021-01-29 2022-08-04 Hewlett-Packard Development Company, L.P. Acoustic pattern determination

Similar Documents

Publication Publication Date Title
US5583965A (en) Methods and apparatus for training and operating voice recognition systems
EP1278183B1 (en) Voice operated electronic appliance
EP0077194B1 (en) Speech recognition system
JP4155383B2 (ja) 音声認識機器操作装置
JPH05197385A (ja) 音声認識装置
US7177806B2 (en) Sound signal recognition system and sound signal recognition method, and dialog control system and dialog control method using sound signal recognition system
JP2002258882A (ja) 音声認識システム及び情報記録媒体
KR100242337B1 (ko) 기록매체를 이용한 어학 학습 장치 및 재생방법
JP4796686B2 (ja) 自動音声認識器を訓練する方法
EP1065652B1 (en) Voice-based manipulation method and apparatus
JPH11265190A (ja) 音楽演奏装置
JP2000206987A (ja) 音声認識装置
CN109523997B (zh) 智能机器人和语音执行应用功能的方法、装置
JP2001296890A (ja) 車載機器習熟度判定装置および車載音声出力装置
JPH03160499A (ja) 音声認識装置
JP2000039900A (ja) 自己診断機能付き音声対話装置
CN113228170B (zh) 信息处理装置及非易失性存储介质
JP3301775B2 (ja) 音声認識制御装置
JP2003099094A (ja) 音声処理装置
JP2002182691A (ja) 音を出力する機器を制御する制御装置
JPH09127982A (ja) 音声認識装置
JPH11109987A (ja) 音声認識装置
JPH06202690A (ja) 音声認識による音響機器制御装置
JP3003130B2 (ja) 音声認識装置
JP2648014B2 (ja) 音声切り出し装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20010313