JPH04240899A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH04240899A JPH04240899A JP3023712A JP2371291A JPH04240899A JP H04240899 A JPH04240899 A JP H04240899A JP 3023712 A JP3023712 A JP 3023712A JP 2371291 A JP2371291 A JP 2371291A JP H04240899 A JPH04240899 A JP H04240899A
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- signal
- sound
- speech recognition
- sound information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 230000001755 vocal effect Effects 0.000 claims description 6
- 230000003111 delayed effect Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000000034 method Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【0001】
【産業上の利用分野】本発明は、マイクロホンから取り
込まれた単発ノイズを含む単語や単語単位の発声音を認
識する音声認識装置に関する。
込まれた単発ノイズを含む単語や単語単位の発声音を認
識する音声認識装置に関する。
【0002】
【従来の技術】従来の音声認識装置として、例えば、図
7に示すような構成のものが知られている。図7におい
て、マイクロホン1から取り込まれた発声音に対応する
音情報を増幅器2で増幅し、バンドパイフィルタ3で周
波数分析し、さらに、A/Dコンバータ4でディジタル
データに変換し、音声認識装置5に入力する。CPU7
では、モード選択スイッチ8が登録モードであれば、音
声認識部5の認識結果を、データメモリ6に登録し、認
識モードであれば、音声認識部5の認識結果を取り込み
、外部装置コントロール信号を出力する。
7に示すような構成のものが知られている。図7におい
て、マイクロホン1から取り込まれた発声音に対応する
音情報を増幅器2で増幅し、バンドパイフィルタ3で周
波数分析し、さらに、A/Dコンバータ4でディジタル
データに変換し、音声認識装置5に入力する。CPU7
では、モード選択スイッチ8が登録モードであれば、音
声認識部5の認識結果を、データメモリ6に登録し、認
識モードであれば、音声認識部5の認識結果を取り込み
、外部装置コントロール信号を出力する。
【0003】
【発明が解決しようとする課題】このような構成におい
て、音声認識部5が音声認識LSITC8861F/T
C8865F01(音声入力可能時間長、0.12〜1
.6[s])で構成した場合、単発ノイズ(発声単語よ
りも短いノイズ)も音声とされてしまう。この原因は、
音声認識部5が「あ」とか「い」とかの単音単位(登録
も単音)でも認識可能とされていることにあるが、ユー
ザが単音でなく、「会社」のような単語単位で認識させ
たい場合には、上述した問題が発生していた。 またこの問題を改善するために音声入力可能時間長のミ
ニマム値を大きくすると、逆に、ユーザが単音単位で認
識させたい場合に対応できなくなってしまう問題があっ
た。
て、音声認識部5が音声認識LSITC8861F/T
C8865F01(音声入力可能時間長、0.12〜1
.6[s])で構成した場合、単発ノイズ(発声単語よ
りも短いノイズ)も音声とされてしまう。この原因は、
音声認識部5が「あ」とか「い」とかの単音単位(登録
も単音)でも認識可能とされていることにあるが、ユー
ザが単音でなく、「会社」のような単語単位で認識させ
たい場合には、上述した問題が発生していた。 またこの問題を改善するために音声入力可能時間長のミ
ニマム値を大きくすると、逆に、ユーザが単音単位で認
識させたい場合に対応できなくなってしまう問題があっ
た。
【0004】本発明の目的は、単発ノイズであることを
認識させ、認識率を向上させ、また単発ノイズ判定をキ
ャンセルすることにより認識率向上にはならないが単音
単位でも認識可能にした音声認識装置を提供することに
ある。
認識させ、認識率を向上させ、また単発ノイズ判定をキ
ャンセルすることにより認識率向上にはならないが単音
単位でも認識可能にした音声認識装置を提供することに
ある。
【0005】
【課題を解決するための手段】このような目的を解決す
るために、本発明は、マイクロホンからの発声音に対応
する音情報を入力し、この音情報の所定の低周波領域で
の包絡線成分を抽出し、包絡線抽出信号を出力する抽出
手段と、この包絡線抽出信号を所定時間遅延して遅延信
号を出力する遅延手段と、この包絡線抽出信号および前
記遅延信号の各振幅レベルと予め定められた所定の基準
レベルとを比較して、振幅レベルが基準レベルを越えた
か否かを判定し、判定信号を出力する比較手段と、判定
信号を入力し、各振幅レベルが基準レベルを越えること
があった場合のみ、音情報を発声音と判断し、そうでな
い場合には音情報を単発ノイズと判断し、発声音と判断
したときのみ音声認識結果を出力するように音声認識部
を動作制御する認識制御手段とを備えたことを特徴とす
る。
るために、本発明は、マイクロホンからの発声音に対応
する音情報を入力し、この音情報の所定の低周波領域で
の包絡線成分を抽出し、包絡線抽出信号を出力する抽出
手段と、この包絡線抽出信号を所定時間遅延して遅延信
号を出力する遅延手段と、この包絡線抽出信号および前
記遅延信号の各振幅レベルと予め定められた所定の基準
レベルとを比較して、振幅レベルが基準レベルを越えた
か否かを判定し、判定信号を出力する比較手段と、判定
信号を入力し、各振幅レベルが基準レベルを越えること
があった場合のみ、音情報を発声音と判断し、そうでな
い場合には音情報を単発ノイズと判断し、発声音と判断
したときのみ音声認識結果を出力するように音声認識部
を動作制御する認識制御手段とを備えたことを特徴とす
る。
【0006】
【作用】本発明では、音情報の低周波領域での包絡線成
分とこの遅延信号の振幅レベルが基準レベルを越えたか
否かで単発ノイズかどうかを判断し、その結果で認識結
果を出力しているので、単発ノイズによる誤認識を防止
できる。
分とこの遅延信号の振幅レベルが基準レベルを越えたか
否かで単発ノイズかどうかを判断し、その結果で認識結
果を出力しているので、単発ノイズによる誤認識を防止
できる。
【0007】
【実施例】以下、本発明の実施例を図面により詳細に説
明する。図1は本発明による音声認識装置の一実施例の
システム構成図で、9はローパスフィルタ、10は遅延
回路、11はコンパレータ、12はラッチ回路、13は
判定スイッチを示す。その他の符号は図7のものと同じ
である。
明する。図1は本発明による音声認識装置の一実施例の
システム構成図で、9はローパスフィルタ、10は遅延
回路、11はコンパレータ、12はラッチ回路、13は
判定スイッチを示す。その他の符号は図7のものと同じ
である。
【0008】図2は図1のCPU7でのコントロールの
メインルーチンを示すフローチャートであり、図3およ
び図4はそれぞれ登録ルーチンおよび音声認識ルーチン
を示すフローチャートである。
メインルーチンを示すフローチャートであり、図3およ
び図4はそれぞれ登録ルーチンおよび音声認識ルーチン
を示すフローチャートである。
【0009】以下図1の動作を図2〜図4を参照して説
明する。 ■音声データ登録時 モード選択スイッチ8により、「登録モード」を選択す
る(図2、ステップ21,22)。CPU7はそれを判
断して、登録ルーチンに移行する。CPU7では、音声
認識部5に登録動作のコマンドを送る(図3、ステップ
31)。音声認識部5では、A/Dコンバータ4からの
音声の入力を待つ。この認識部5には音声トリガが内蔵
されており、A/Dコンバータ4より入力された、ある
レベル以上のデータ間のみを音声データとして取り込む
。増幅器2、バンドパスフィルタ3、A/Dコンバータ
4は常時作動しており、ユーザが発声した音声をマイク
ロホン1に入力し、増幅器2で増幅し、フィルタバンク
3で周波数分析し、その後、A/Dコンバータ4でディ
ジタルデータに変換する。認識部5に取り込まれた音声
データを、認識部5のコントロールにより登録メモリ6
に保存し、また、登録順に、コード番号を付加する。 ■音声認識時 モード選択スイッチ8により、「認識モード」を選択す
る(図2、ステップ23)。CPU7は、認識部5に認
識動作コマンドを送り(図4、ステップ41)、認識部
5は音声入力待ちとなる。ユーザが認識対象単語を発声
することにより、マイクロホン1に入力された音声デー
タを、■と同様にして認識部5に取り込み、■で登録さ
れた音声データとのDPマッチングを認識部5で実行し
、一番類似度の高い登録データのコード番号及びその類
似度をそれぞれCPU7に返す。
明する。 ■音声データ登録時 モード選択スイッチ8により、「登録モード」を選択す
る(図2、ステップ21,22)。CPU7はそれを判
断して、登録ルーチンに移行する。CPU7では、音声
認識部5に登録動作のコマンドを送る(図3、ステップ
31)。音声認識部5では、A/Dコンバータ4からの
音声の入力を待つ。この認識部5には音声トリガが内蔵
されており、A/Dコンバータ4より入力された、ある
レベル以上のデータ間のみを音声データとして取り込む
。増幅器2、バンドパスフィルタ3、A/Dコンバータ
4は常時作動しており、ユーザが発声した音声をマイク
ロホン1に入力し、増幅器2で増幅し、フィルタバンク
3で周波数分析し、その後、A/Dコンバータ4でディ
ジタルデータに変換する。認識部5に取り込まれた音声
データを、認識部5のコントロールにより登録メモリ6
に保存し、また、登録順に、コード番号を付加する。 ■音声認識時 モード選択スイッチ8により、「認識モード」を選択す
る(図2、ステップ23)。CPU7は、認識部5に認
識動作コマンドを送り(図4、ステップ41)、認識部
5は音声入力待ちとなる。ユーザが認識対象単語を発声
することにより、マイクロホン1に入力された音声デー
タを、■と同様にして認識部5に取り込み、■で登録さ
れた音声データとのDPマッチングを認識部5で実行し
、一番類似度の高い登録データのコード番号及びその類
似度をそれぞれCPU7に返す。
【0010】また、これと同時に、増幅器2からの出力
を、ローパスフィルタ9にも入力し、このフィルタ9で
、信号の包絡を求める。フィルタ9の出力を2つに分け
、方々を、例えば、約0.8[s](単発ノイズと音声
との音声区間のしきい値)の遅延を行う遅延回路10に
通す。コンパレータ11−1および11−2では、ロー
パスフィルタ9および遅延回路10の振幅レベルを基準
レベルと比較し、基準レベル以上の時に「1」を出力し
、その後、ラッチ回路12に入力する。ラッチ回路12
では、コンパレータ11−1および11−2の両方が同
時に「1」である時のみ、すなわち、現在の信号と0.
8[s]前の信号が両方「1」である時のみ、ラッチ回
路12の出力を「1」とする(その後はリセットが掛か
るまでは「1」出力のままである)。CPU7は、認識
部5から何らかの情報を得た時に、ラッチ回路12から
のデジタル信号を判断し(図4、ステップ43)、「1
」ならば「発声音」と判断し、認識結果を外部に出力す
る(図4、ステップ44)。そうでなければ、「単発ノ
イズ」として再度認識モードに入る。一方、「発声音」
と判断した場合、ラッチ回路へリセット信号を出力する
(図4、ステップ45)。
を、ローパスフィルタ9にも入力し、このフィルタ9で
、信号の包絡を求める。フィルタ9の出力を2つに分け
、方々を、例えば、約0.8[s](単発ノイズと音声
との音声区間のしきい値)の遅延を行う遅延回路10に
通す。コンパレータ11−1および11−2では、ロー
パスフィルタ9および遅延回路10の振幅レベルを基準
レベルと比較し、基準レベル以上の時に「1」を出力し
、その後、ラッチ回路12に入力する。ラッチ回路12
では、コンパレータ11−1および11−2の両方が同
時に「1」である時のみ、すなわち、現在の信号と0.
8[s]前の信号が両方「1」である時のみ、ラッチ回
路12の出力を「1」とする(その後はリセットが掛か
るまでは「1」出力のままである)。CPU7は、認識
部5から何らかの情報を得た時に、ラッチ回路12から
のデジタル信号を判断し(図4、ステップ43)、「1
」ならば「発声音」と判断し、認識結果を外部に出力す
る(図4、ステップ44)。そうでなければ、「単発ノ
イズ」として再度認識モードに入る。一方、「発声音」
と判断した場合、ラッチ回路へリセット信号を出力する
(図4、ステップ45)。
【0011】図5は単発ノイズの判定の様子を示すもの
で、(a)は単発ノイズの包絡線を示し、(b)は発声
音声の包絡線を示している。図から解るように、単発ノ
イズの場合、その包絡線は0.8[s]以上経過すると
、信号の振幅レベルは急激に低くなるが、発声音声の場
合、その包絡線は、0.8[s]以上経過しても変わら
ない。
で、(a)は単発ノイズの包絡線を示し、(b)は発声
音声の包絡線を示している。図から解るように、単発ノ
イズの場合、その包絡線は0.8[s]以上経過すると
、信号の振幅レベルは急激に低くなるが、発声音声の場
合、その包絡線は、0.8[s]以上経過しても変わら
ない。
【0012】図6は、図5の単発ノイズ判定の過程を簡
略的に示すもので、(a),(b),(c)は発声音声
の包絡線を示し、(d),(e),(f)は単発ノイズ
の包絡線を示す。図6におけるしきい値レベルとは、音
声か、定常雑音かを判断するために設けられたもので、
図1のコンパレータ11の基準レベルREFに相当する
。つまり、しきい値レベル(基準レベル)REFを越え
た信号がコンパレータ11に入力されたときに、コンパ
レータ11は「1」を出力する。これを受けたラッチ回
路12は両コンパレータ11−1,11−2の出力が「
1」の時のみ、CPU7に信号「1」を送る(それ以外
の時の出力は0である)。一度、信号が「1」になった
ら、ラッチ回路12の出力は「1」に固定され、CPU
7からのリセット(ラッチ回路12の出力を「0」とす
る。)のコントロール信号がないかぎり、そのままであ
る。
略的に示すもので、(a),(b),(c)は発声音声
の包絡線を示し、(d),(e),(f)は単発ノイズ
の包絡線を示す。図6におけるしきい値レベルとは、音
声か、定常雑音かを判断するために設けられたもので、
図1のコンパレータ11の基準レベルREFに相当する
。つまり、しきい値レベル(基準レベル)REFを越え
た信号がコンパレータ11に入力されたときに、コンパ
レータ11は「1」を出力する。これを受けたラッチ回
路12は両コンパレータ11−1,11−2の出力が「
1」の時のみ、CPU7に信号「1」を送る(それ以外
の時の出力は0である)。一度、信号が「1」になった
ら、ラッチ回路12の出力は「1」に固定され、CPU
7からのリセット(ラッチ回路12の出力を「0」とす
る。)のコントロール信号がないかぎり、そのままであ
る。
【0013】(c)または(f)のような信号がコンパ
レータに入力されてきた時のコンパレータの出力は、(
a)→(b)→(c)または(d)→(e)→(f)の
ようになる。発声音声の時には、信号がしきい値レベル
を越える時間が0.8[s]以上あるために、両コンパ
レータの出力が(b)の時点で「1」になるが、単発ノ
イズのときには、そのようなことはあり得ない。信号が
通り過ぎた後のラッチ回路12の出力は、発声音声の時
には「1」、単発ノイズの時には「0」となる。
レータに入力されてきた時のコンパレータの出力は、(
a)→(b)→(c)または(d)→(e)→(f)の
ようになる。発声音声の時には、信号がしきい値レベル
を越える時間が0.8[s]以上あるために、両コンパ
レータの出力が(b)の時点で「1」になるが、単発ノ
イズのときには、そのようなことはあり得ない。信号が
通り過ぎた後のラッチ回路12の出力は、発声音声の時
には「1」、単発ノイズの時には「0」となる。
【0014】これにより、しきい値レベルを越えて入っ
てきた信号が発声音声であったか、単発ノイズであった
かが、CPU7で判定できる。また、ユーザが単発判定
スイッチ13をオフにすることにより、単発の判定はで
きないが、ユーザは単音による音声の登録、認識が可能
となる。
てきた信号が発声音声であったか、単発ノイズであった
かが、CPU7で判定できる。また、ユーザが単発判定
スイッチ13をオフにすることにより、単発の判定はで
きないが、ユーザは単音による音声の登録、認識が可能
となる。
【0015】
【発明の効果】以上述べたように、本発明によれば、音
声認識装置において単発ノイズであるか否かを判断する
ことができ、認識率の向上が計れる。
声認識装置において単発ノイズであるか否かを判断する
ことができ、認識率の向上が計れる。
【図1】本発明による音声認識装置の一実施例のシステ
ム構成図である。
ム構成図である。
【図2】本発明のCPUのメインルーチンのフローチャ
ートである。
ートである。
【図3】登録動作のフローチャートである。
【図4】音声認識動作のフローチャートである。
【図5】単発ノイズの判定を示す説明図である。
【図6】単発ノイズの判定過程を示す説明図である。
【図7】従来の音声認識装置のシステム構成図である。
1 マイクロホン
5 音声認識部
7 CPU
8 モード選択スイッチ
10 遅延回路
11 コンパレータ
12 ラッチ回路
13 単発判定スイッチ
Claims (1)
- 【請求項1】 マイクロホンから取り込まれた発声音
に対応する音情報を登録時および認識時の音データに変
換し、音声認識部により両音データを比較して該比較結
果に基づいて音声認識を行う音声認識装置において、前
記音情報を入力し、該音情報の所定の低周波領域での包
絡線成分を抽出し、包絡線抽出信号を出力する抽出手段
と、該包絡線抽出信号を所定時間遅延して遅延信号を出
力する遅延手段と、前記包絡線抽出信号および前記遅延
信号の各振幅レベルと予め定められた所定の基準レベル
とを比較して該振幅レベルが基準レベルを越えたか否か
を判定し、判定信号を出力する比較手段と、該判定信号
を入力し、前記両振幅レベルが略同時に前記基準レベル
を越えた場合のみ前記音情報を発声音と判断し、前記以
外の越えない場合に前記音情報を単発ノイズと判断し、
発声音と判断したときのみ音声認識結果を出力するよう
に前記音声認識部を動作制御する認識制御手段とを有す
ることを特徴とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3023712A JPH04240899A (ja) | 1991-01-25 | 1991-01-25 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3023712A JPH04240899A (ja) | 1991-01-25 | 1991-01-25 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH04240899A true JPH04240899A (ja) | 1992-08-28 |
Family
ID=12117957
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP3023712A Pending JPH04240899A (ja) | 1991-01-25 | 1991-01-25 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH04240899A (ja) |
-
1991
- 1991-01-25 JP JP3023712A patent/JPH04240899A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6826533B2 (en) | Speech recognition apparatus and method | |
EP0077194B1 (en) | Speech recognition system | |
US5146504A (en) | Speech selective automatic gain control | |
JP3674990B2 (ja) | 音声認識対話装置および音声認識対話処理方法 | |
JP3284832B2 (ja) | 音声認識対話処理方法および音声認識対話装置 | |
US11437022B2 (en) | Performing speaker change detection and speaker recognition on a trigger phrase | |
JPH08185196A (ja) | 音声区間検出装置 | |
JP5375423B2 (ja) | 音声認識システム、音声認識方法および音声認識プログラム | |
JP2996019B2 (ja) | 音声認識装置 | |
JP2001154694A (ja) | 音声認識装置及び方法 | |
JPH04240899A (ja) | 音声認識装置 | |
JP3114757B2 (ja) | 音声認識装置 | |
JP2754960B2 (ja) | 音声認識装置 | |
JP2001042889A (ja) | 音声認識入力音声の音程正規化装置 | |
JP3360978B2 (ja) | 音声認識装置 | |
JPH04324499A (ja) | 音声認識装置 | |
JP3846500B2 (ja) | 音声認識対話装置および音声認識対話処理方法 | |
JPH03160499A (ja) | 音声認識装置 | |
JPS61140999A (ja) | 音声区間検出方式 | |
JP2666296B2 (ja) | 音声認識装置 | |
JPH0619491A (ja) | 音声認識装置 | |
JPH02103599A (ja) | 音声認識装置 | |
JP3020999B2 (ja) | パターン登録方法 | |
JP2975808B2 (ja) | 音声認識装置 | |
JP2000155600A (ja) | 音声認識システムおよび入力音声レベル警告方法 |