JPH04340598A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH04340598A JPH04340598A JP3141035A JP14103591A JPH04340598A JP H04340598 A JPH04340598 A JP H04340598A JP 3141035 A JP3141035 A JP 3141035A JP 14103591 A JP14103591 A JP 14103591A JP H04340598 A JPH04340598 A JP H04340598A
- Authority
- JP
- Japan
- Prior art keywords
- section
- voice
- noise
- input
- input gain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 claims abstract description 12
- 238000005259 measurement Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims description 6
- 238000000034 method Methods 0.000 abstract description 5
- 230000000694 effects Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【0001】
【技術分野】本発明は、音声認識装置に関し、より詳細
には、実環境下における音声認識技術に関する。例えば
、電話のハンズフリーマイクなどを用いた音声認識装置
に適用されるものである。
には、実環境下における音声認識技術に関する。例えば
、電話のハンズフリーマイクなどを用いた音声認識装置
に適用されるものである。
【0002】
【従来技術】電話のハンズフリーマイクを用いて音声認
識を行うような場合、発声者とマイクとの距離が一定で
ないために、音声の入力レベルも一定でなくなってしま
う。特に、発声者とマイクとの距離が離れた場合、音声
の入力レベルが小さくなってしまい、音声区間の検出が
非常に困難になってしまう。発声者とマイクとの距離が
離れた場合でも区間検出ができるようにするためには入
力ゲインを大きくすればよいが、入力ゲインを大きくす
ると周囲の騒音を音声と誤って検出してしまう恐れがあ
る。また、音声の入力レベルを一定にする方法としては
、オートゲインコントロール(AGC)を用いて、入力
信号が小さい場合は自動的にゲインを上げ、入力信号が
大きい場合は自動的にゲインを下げる方法がある。しか
し、この方法を用いると、音声区間の検出が非常に困難
になってしまうという問題点がある。なぜならば、音声
区間を検出する一般的な方法は、入力信号のパワーを用
いる方法なので、前記のようなAGCを用いると、音声
区間内と音声区間外のパワーの差がつきにくいからであ
る。
識を行うような場合、発声者とマイクとの距離が一定で
ないために、音声の入力レベルも一定でなくなってしま
う。特に、発声者とマイクとの距離が離れた場合、音声
の入力レベルが小さくなってしまい、音声区間の検出が
非常に困難になってしまう。発声者とマイクとの距離が
離れた場合でも区間検出ができるようにするためには入
力ゲインを大きくすればよいが、入力ゲインを大きくす
ると周囲の騒音を音声と誤って検出してしまう恐れがあ
る。また、音声の入力レベルを一定にする方法としては
、オートゲインコントロール(AGC)を用いて、入力
信号が小さい場合は自動的にゲインを上げ、入力信号が
大きい場合は自動的にゲインを下げる方法がある。しか
し、この方法を用いると、音声区間の検出が非常に困難
になってしまうという問題点がある。なぜならば、音声
区間を検出する一般的な方法は、入力信号のパワーを用
いる方法なので、前記のようなAGCを用いると、音声
区間内と音声区間外のパワーの差がつきにくいからであ
る。
【0003】
【目的】本発明は、上述のごとき実情に鑑みてなされた
もので、マイクから離れた距離で発声された音声も認識
できるようにした音声認識装置を提供することを目的と
してなされたものである。
もので、マイクから離れた距離で発声された音声も認識
できるようにした音声認識装置を提供することを目的と
してなされたものである。
【0004】
【構成】本発明は、上記目的を達成するために、(1)
音声を含む音響情報を収集する音響収集部と、該音響収
集部から得た信号を用いて音声の存在する区間を検出す
る区間検出部と、該区間検出部で音声と検出された区間
の信号のみを用いて認識処理を行う音声認識部とを有す
る音声認識装置において、周囲の騒音を測定する騒音測
定部と、前記区間検出部で騒音を音声と誤って検出しな
い程度に、前記音響収集部の入力レベルを上げる入力ゲ
イン調整部とを有すること、更には、(2)前記入力ゲ
イン調整部は、周囲の騒音が非常に小さい場合に入力ゲ
インが上がりすぎないように構成されていることを特徴
としたものである。以下、本発明の実施例に基づいて説
明する。
音声を含む音響情報を収集する音響収集部と、該音響収
集部から得た信号を用いて音声の存在する区間を検出す
る区間検出部と、該区間検出部で音声と検出された区間
の信号のみを用いて認識処理を行う音声認識部とを有す
る音声認識装置において、周囲の騒音を測定する騒音測
定部と、前記区間検出部で騒音を音声と誤って検出しな
い程度に、前記音響収集部の入力レベルを上げる入力ゲ
イン調整部とを有すること、更には、(2)前記入力ゲ
イン調整部は、周囲の騒音が非常に小さい場合に入力ゲ
インが上がりすぎないように構成されていることを特徴
としたものである。以下、本発明の実施例に基づいて説
明する。
【0005】図1は、本発明による音声認識装置の一実
施例(請求項1)を説明するための構成図で、図中、1
は音響収集部、2は騒音測定部、3は入力ゲイン調整部
A、4は区間検出部、5は音声認識部である。音響収集
部1で音声を含む音声情報を収集し、該音響収集部1か
ら得た信号を用いて、区間検出部4で音声の存在する区
間を検出する。該区間検出部4で音声と検出された区間
の信号のみを用いて音声認識部5で認識処理を行う。駆
音(雑音)測定部2により周囲の駆音を測定する。前記
区間検出部4で騒音を音声と誤って検出しない程度に、
前記音響収集部1の入力レベルを入力ゲイン調整部3で
上げる。音響収集部1は、マイクロフォンのような音響
・電気信号変換器を用いて、音を電気信号x(t)に変
換する。騒音測定部2は、音声が入力されていない区間
の音響収集部1から得られる信号x(t)の絶対値の短
時間平均値y(t)を
施例(請求項1)を説明するための構成図で、図中、1
は音響収集部、2は騒音測定部、3は入力ゲイン調整部
A、4は区間検出部、5は音声認識部である。音響収集
部1で音声を含む音声情報を収集し、該音響収集部1か
ら得た信号を用いて、区間検出部4で音声の存在する区
間を検出する。該区間検出部4で音声と検出された区間
の信号のみを用いて音声認識部5で認識処理を行う。駆
音(雑音)測定部2により周囲の駆音を測定する。前記
区間検出部4で騒音を音声と誤って検出しない程度に、
前記音響収集部1の入力レベルを入力ゲイン調整部3で
上げる。音響収集部1は、マイクロフォンのような音響
・電気信号変換器を用いて、音を電気信号x(t)に変
換する。騒音測定部2は、音声が入力されていない区間
の音響収集部1から得られる信号x(t)の絶対値の短
時間平均値y(t)を
【0006】
【数1】
【0007】で求め、S=MAX[y(t)]y(t)
の最大値を騒音レベルSとして求める。入力ゲイン調整
部3は、騒音測定部2で測定した騒音レベルSが後述の
区間検出部4で用いられる閾値Thより大きくならない
程度に入力ゲインGを調整するもので、Th=S・G+
α(0<α<Th) となるような入力ゲインGを求め、音響収集部1で得ら
れた信号x(t)に、この入力ゲインGをz(t)=x
(t)・G のようにかけることにより、入力ゲインを調整する。
の最大値を騒音レベルSとして求める。入力ゲイン調整
部3は、騒音測定部2で測定した騒音レベルSが後述の
区間検出部4で用いられる閾値Thより大きくならない
程度に入力ゲインGを調整するもので、Th=S・G+
α(0<α<Th) となるような入力ゲインGを求め、音響収集部1で得ら
れた信号x(t)に、この入力ゲインGをz(t)=x
(t)・G のようにかけることにより、入力ゲインを調整する。
【0008】区間検出部4は、入力ゲイン調整部3の出
力信号z(t)の絶対値の短時間平均値が、予め定めて
おいた閾値Thより大きな区間を音声区間とする方法が
ある。なお、この実施例の場合は、区間検出のパラメー
タとして、入力信号の絶対値の短時間平均値を用いたが
、差分信号の絶対値の短時間平均値などの他のパラメー
タを用いてもよい。音声認識部5は、区間検出部4で、
音声と検出された区間の入力ゲイン調整部3の出力信号
z(t)を用いて音声認識処理を行うもので、「2値の
TSPを用いた単語音声認識システムの開発」(安田
他、電気学会論文誌C108巻、昭和63年10月号
p.858〜865)記載の音声認識システムを用いる
。なお、騒音測定部2、入力ゲイン調整部3、区間検出
部4、音声認識部5には、前記実施例に記載したもの以
外の方法を用いても実現可能である。
力信号z(t)の絶対値の短時間平均値が、予め定めて
おいた閾値Thより大きな区間を音声区間とする方法が
ある。なお、この実施例の場合は、区間検出のパラメー
タとして、入力信号の絶対値の短時間平均値を用いたが
、差分信号の絶対値の短時間平均値などの他のパラメー
タを用いてもよい。音声認識部5は、区間検出部4で、
音声と検出された区間の入力ゲイン調整部3の出力信号
z(t)を用いて音声認識処理を行うもので、「2値の
TSPを用いた単語音声認識システムの開発」(安田
他、電気学会論文誌C108巻、昭和63年10月号
p.858〜865)記載の音声認識システムを用いる
。なお、騒音測定部2、入力ゲイン調整部3、区間検出
部4、音声認識部5には、前記実施例に記載したもの以
外の方法を用いても実現可能である。
【0009】図2は、以上の動作を説明するためのフロ
ーチャートである。以下、各ステップに従って順に説明
する。 step1;まず、音響信号x(t)を入力する。 step2;入力ゲインを調整するかどうかを判断する
。 step3;前記step2において、入力ゲインを調
整するのであれば、x(t)の絶対値の短時間平均値y
(t)を計算する。計算式は以下のとおりである。 y(t)=Σ|x(t)|/T step4;雑音レベルSを計算する。計算式は以下の
とおりである。 S=MAX(y(t)) step5;入力ゲインGを計算する。計算式は以下の
とおりである。 G=(Th−α)/S step6;前記step2において、入力ゲインの調
整をしないのであれば、出力信号z(t)を以下の計算
式により計算する。 z(t)=x(t)・G step7;次に音声区間中かどうかを判断する。音声
区間中でなければ終了する。 step8;前記step7において、音声区間中であ
れば、認識処理を行う。
ーチャートである。以下、各ステップに従って順に説明
する。 step1;まず、音響信号x(t)を入力する。 step2;入力ゲインを調整するかどうかを判断する
。 step3;前記step2において、入力ゲインを調
整するのであれば、x(t)の絶対値の短時間平均値y
(t)を計算する。計算式は以下のとおりである。 y(t)=Σ|x(t)|/T step4;雑音レベルSを計算する。計算式は以下の
とおりである。 S=MAX(y(t)) step5;入力ゲインGを計算する。計算式は以下の
とおりである。 G=(Th−α)/S step6;前記step2において、入力ゲインの調
整をしないのであれば、出力信号z(t)を以下の計算
式により計算する。 z(t)=x(t)・G step7;次に音声区間中かどうかを判断する。音声
区間中でなければ終了する。 step8;前記step7において、音声区間中であ
れば、認識処理を行う。
【0010】図5は、請求項1の効果の一例を示したも
ので、(a)は発声者が近くで発声した場合、(b)は
ゲイン調整なしで発声者が遠くで発声した場合、(c)
は本発明を用いて発声者が遠くで発声した場合である。 (b)では音声の欠落があるが、(c)では欠落が無い
ことが分かる。
ので、(a)は発声者が近くで発声した場合、(b)は
ゲイン調整なしで発声者が遠くで発声した場合、(c)
は本発明を用いて発声者が遠くで発声した場合である。 (b)では音声の欠落があるが、(c)では欠落が無い
ことが分かる。
【0011】図3は、本発明による音声認識装置の他の
実施例(請求項2)を説明するための構成図で、図中、
6は入力ゲイン調整部Bで、その他、図1と同じ作用を
する部分は同一の符号を付してある。入力ゲイン調整部
6は、騒音測定部2で測定した騒音レベルSが後述の区
間検出部4で用いられる閾値Thより大きくならない程
度に入力ゲインGを調整するもので、 Th=S・G+α(0<α<Th) となるような入力ゲインGを求め、Gが予め決めておい
た値GMAXより大きな場合、 G=GMAX とし、音響収集部1で得られた信号x(t)に、この入
力ゲインGを z(t)=x(t)・G のようにかけることにより、入力ゲインを調整する。
実施例(請求項2)を説明するための構成図で、図中、
6は入力ゲイン調整部Bで、その他、図1と同じ作用を
する部分は同一の符号を付してある。入力ゲイン調整部
6は、騒音測定部2で測定した騒音レベルSが後述の区
間検出部4で用いられる閾値Thより大きくならない程
度に入力ゲインGを調整するもので、 Th=S・G+α(0<α<Th) となるような入力ゲインGを求め、Gが予め決めておい
た値GMAXより大きな場合、 G=GMAX とし、音響収集部1で得られた信号x(t)に、この入
力ゲインGを z(t)=x(t)・G のようにかけることにより、入力ゲインを調整する。
【0012】図4は、図3における実施例の動作を説明
するためのフローチャートである。以下、各ステップに
従って順に説明する。 step1;まず、音響信号x(t)を入力する。 step2;入力ゲインを調整するかどうかを判断する
。 step3;前記step2において、入力ゲインを調
整するのであれば、x(t)の絶対値の短時間平均値y
(t)を計算する。計算式は以下のとおりである。 y(t)=Σ|x(t)|/T step4;雑音レベルSを計算する。計算式は以下の
とおりである。 S=MAX(y(t)) step5;入力ゲインGを計算する。計算式は以下の
とおりである。 G=min(S,Gmax) step6;前記step2において、入力ゲインの調
整をしないのであれば、出力信号z(t)を以下の計算
式により計算する。 z(t)=x(t)・G step7;次に音声区間中かどうかを判断する。音声
区間中でなければ終了する。 step8;前記step7において、音声区間中であ
れば、認識処理を行う。
するためのフローチャートである。以下、各ステップに
従って順に説明する。 step1;まず、音響信号x(t)を入力する。 step2;入力ゲインを調整するかどうかを判断する
。 step3;前記step2において、入力ゲインを調
整するのであれば、x(t)の絶対値の短時間平均値y
(t)を計算する。計算式は以下のとおりである。 y(t)=Σ|x(t)|/T step4;雑音レベルSを計算する。計算式は以下の
とおりである。 S=MAX(y(t)) step5;入力ゲインGを計算する。計算式は以下の
とおりである。 G=min(S,Gmax) step6;前記step2において、入力ゲインの調
整をしないのであれば、出力信号z(t)を以下の計算
式により計算する。 z(t)=x(t)・G step7;次に音声区間中かどうかを判断する。音声
区間中でなければ終了する。 step8;前記step7において、音声区間中であ
れば、認識処理を行う。
【0013】図6は請求項2の効果の一例を示したもの
で、(a)はゲイン調整なしの場合、(b)は請求項1
の場合、(c)は本発明を用いた場合である。(b)で
は入力ゲインが大き過ぎて飽和状態になっているが、(
c)ではその問題が解決されていることが分かる。
で、(a)はゲイン調整なしの場合、(b)は請求項1
の場合、(c)は本発明を用いた場合である。(b)で
は入力ゲインが大き過ぎて飽和状態になっているが、(
c)ではその問題が解決されていることが分かる。
【0014】
【効果】以上の説明から明らかなように、本発明による
と、以下のような効果がある。 (1)請求項1に対応する効果;周囲の騒音レベルに応
じて、入力レベルを上げるようにしてあるので、電話の
ハンズフリーマインを用いて音声認識を行う場合などの
ように、発声者とマイクの距離が離れた場合でも認識可
能な音声認識装置が実現する。 (2)請求項2に対応する効果;請求項1に記載の発明
では、周囲の騒音が小さい場合、入力ゲインが非常に大
きくなり過ぎて、入力信号が飽和状態になり、認識不可
能になる可能性があるが、本発明では、ゲインの上限を
決めてあるので、そのような可能性が無くなる。
と、以下のような効果がある。 (1)請求項1に対応する効果;周囲の騒音レベルに応
じて、入力レベルを上げるようにしてあるので、電話の
ハンズフリーマインを用いて音声認識を行う場合などの
ように、発声者とマイクの距離が離れた場合でも認識可
能な音声認識装置が実現する。 (2)請求項2に対応する効果;請求項1に記載の発明
では、周囲の騒音が小さい場合、入力ゲインが非常に大
きくなり過ぎて、入力信号が飽和状態になり、認識不可
能になる可能性があるが、本発明では、ゲインの上限を
決めてあるので、そのような可能性が無くなる。
【図1】 本発明による音声認識装置の一実施例を説
明するための構成図である。
明するための構成図である。
【図2】 本発明による音声認識装置の動作を説明す
るためのフローチャトである。
るためのフローチャトである。
【図3】 本発明による音声認識装置の他の実施例を
説明するための構成図である。
説明するための構成図である。
【図4】 本発明による他の音声認識装置の動作を説
明するためのフローチャートである。
明するためのフローチャートである。
【図5】 実施例の効果を説明するための図である。
【図6】 他の実施例の効果を説明するための図であ
る。
る。
1…音響収集部、2…騒音測定部、3…入力ゲイン調整
部A、4…区間検出部、5…音声認識部、6…入力ゲイ
ン調整部B。
部A、4…区間検出部、5…音声認識部、6…入力ゲイ
ン調整部B。
Claims (2)
- 【請求項1】 音声を含む音響情報を収集する音響収
集部と、該音響収集部から得た信号を用いて音声の存在
する区間を検出する区間検出部と、該区間検出部で音声
と検出された区間の信号のみを用いて認識処理を行う音
声認識部とを有する音声認識装置において、周囲の騒音
を測定する騒音測定部と、前記区間検出部で騒音を音声
と誤って検出しない程度に、前記音響収集部の入力レベ
ルを上げる入力ゲイン調整部とを有することを特徴とす
る音声認識装置。 - 【請求項2】 前記入力ゲイン調整部は周囲の騒音が
非常に小さい場合に入力ゲインが上がりすぎないように
構成されていることを特徴とする請求項1記載の音声認
識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3141035A JPH04340598A (ja) | 1991-05-16 | 1991-05-16 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3141035A JPH04340598A (ja) | 1991-05-16 | 1991-05-16 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH04340598A true JPH04340598A (ja) | 1992-11-26 |
Family
ID=15282716
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP3141035A Pending JPH04340598A (ja) | 1991-05-16 | 1991-05-16 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH04340598A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001039175A1 (fr) * | 1999-11-24 | 2001-05-31 | Fujitsu Limited | Procede et appareil de detection vocale |
-
1991
- 1991-05-16 JP JP3141035A patent/JPH04340598A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001039175A1 (fr) * | 1999-11-24 | 2001-05-31 | Fujitsu Limited | Procede et appareil de detection vocale |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8755546B2 (en) | Sound processing apparatus, sound processing method and hearing aid | |
EP1208563B1 (en) | Noisy acoustic signal enhancement | |
JP2654503B2 (ja) | 無線端末装置 | |
US9959886B2 (en) | Spectral comb voice activity detection | |
US4610023A (en) | Speech recognition system and method for variable noise environment | |
US9384759B2 (en) | Voice activity detection and pitch estimation | |
JPH071958B2 (ja) | 収音装置 | |
WO2016067644A1 (ja) | 音声調整装置 | |
JPH0968997A (ja) | 音声処理方法及び装置 | |
US6539350B1 (en) | Method and circuit arrangement for speech level measurement in a speech signal processing system | |
US20050091043A1 (en) | Acoustic signal processor | |
JP3131226B2 (ja) | 改良された百分位数予測器を備えた補聴器 | |
JPS6257040B2 (ja) | ||
JPH04340598A (ja) | 音声認識装置 | |
JPH0449952B2 (ja) | ||
JP3520430B2 (ja) | 左右音像方向抽出方法 | |
JP2000276191A (ja) | 音声認識方法 | |
JPH02176796A (ja) | 音声認識装置 | |
JPS6242197A (ja) | 音声区間検出方法 | |
JPH08298698A (ja) | 環境音分析装置 | |
JP3292098B2 (ja) | 聴覚補助装置 | |
JPH02178699A (ja) | 音声認識装置 | |
JPH0424692A (ja) | 音声区間検出方式 | |
JPS6367199B2 (ja) | ||
JPH0773175B2 (ja) | 自動利得制御装置 |