JPH04340598A

JPH04340598A - 音声認識装置

Info

Publication number: JPH04340598A
Application number: JP3141035A
Authority: JP
Inventors: Mitsugi Matsushita; 貢松下
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1991-05-16
Filing date: 1991-05-16
Publication date: 1992-11-26

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【技術分野】本発明は、音声認識装置に関し、より詳細
には、実環境下における音声認識技術に関する。例えば
、電話のハンズフリーマイクなどを用いた音声認識装置
に適用されるものである。

【０００２】

【従来技術】電話のハンズフリーマイクを用いて音声認
識を行うような場合、発声者とマイクとの距離が一定で
ないために、音声の入力レベルも一定でなくなってしま
う。特に、発声者とマイクとの距離が離れた場合、音声
の入力レベルが小さくなってしまい、音声区間の検出が
非常に困難になってしまう。発声者とマイクとの距離が
離れた場合でも区間検出ができるようにするためには入
力ゲインを大きくすればよいが、入力ゲインを大きくす
ると周囲の騒音を音声と誤って検出してしまう恐れがあ
る。また、音声の入力レベルを一定にする方法としては
、オートゲインコントロール（ＡＧＣ）を用いて、入力
信号が小さい場合は自動的にゲインを上げ、入力信号が
大きい場合は自動的にゲインを下げる方法がある。しか
し、この方法を用いると、音声区間の検出が非常に困難
になってしまうという問題点がある。なぜならば、音声
区間を検出する一般的な方法は、入力信号のパワーを用
いる方法なので、前記のようなＡＧＣを用いると、音声
区間内と音声区間外のパワーの差がつきにくいからであ
る。

【０００３】

【目的】本発明は、上述のごとき実情に鑑みてなされた
もので、マイクから離れた距離で発声された音声も認識
できるようにした音声認識装置を提供することを目的と
してなされたものである。

【０００４】

【構成】本発明は、上記目的を達成するために、（１）
音声を含む音響情報を収集する音響収集部と、該音響収
集部から得た信号を用いて音声の存在する区間を検出す
る区間検出部と、該区間検出部で音声と検出された区間
の信号のみを用いて認識処理を行う音声認識部とを有す
る音声認識装置において、周囲の騒音を測定する騒音測
定部と、前記区間検出部で騒音を音声と誤って検出しな
い程度に、前記音響収集部の入力レベルを上げる入力ゲ
イン調整部とを有すること、更には、（２）前記入力ゲ
イン調整部は、周囲の騒音が非常に小さい場合に入力ゲ
インが上がりすぎないように構成されていることを特徴
としたものである。以下、本発明の実施例に基づいて説
明する。

【０００５】図１は、本発明による音声認識装置の一実
施例（請求項１）を説明するための構成図で、図中、１
は音響収集部、２は騒音測定部、３は入力ゲイン調整部
Ａ、４は区間検出部、５は音声認識部である。音響収集
部１で音声を含む音声情報を収集し、該音響収集部１か
ら得た信号を用いて、区間検出部４で音声の存在する区
間を検出する。該区間検出部４で音声と検出された区間
の信号のみを用いて音声認識部５で認識処理を行う。駆
音（雑音）測定部２により周囲の駆音を測定する。前記
区間検出部４で騒音を音声と誤って検出しない程度に、
前記音響収集部１の入力レベルを入力ゲイン調整部３で
上げる。音響収集部１は、マイクロフォンのような音響
・電気信号変換器を用いて、音を電気信号ｘ（ｔ）に変
換する。騒音測定部２は、音声が入力されていない区間
の音響収集部１から得られる信号ｘ（ｔ）の絶対値の短
時間平均値ｙ（ｔ）を

【０００６】

【数１】

【０００７】で求め、Ｓ＝ＭＡＸ［ｙ（ｔ）］ｙ（ｔ）
の最大値を騒音レベルＳとして求める。入力ゲイン調整
部３は、騒音測定部２で測定した騒音レベルＳが後述の
区間検出部４で用いられる閾値Ｔｈより大きくならない
程度に入力ゲインＧを調整するもので、Ｔｈ＝Ｓ・Ｇ＋
α（０＜α＜Ｔｈ）となるような入力ゲインＧを求め、音響収集部１で得ら
れた信号ｘ（ｔ）に、この入力ゲインＧをｚ（ｔ）＝ｘ
（ｔ）・Ｇのようにかけることにより、入力ゲインを調整する。

【０００８】区間検出部４は、入力ゲイン調整部３の出
力信号ｚ（ｔ）の絶対値の短時間平均値が、予め定めて
おいた閾値Ｔｈより大きな区間を音声区間とする方法が
ある。なお、この実施例の場合は、区間検出のパラメー
タとして、入力信号の絶対値の短時間平均値を用いたが
、差分信号の絶対値の短時間平均値などの他のパラメー
タを用いてもよい。音声認識部５は、区間検出部４で、
音声と検出された区間の入力ゲイン調整部３の出力信号
ｚ（ｔ）を用いて音声認識処理を行うもので、「２値の
ＴＳＰを用いた単語音声認識システムの開発」（安田　
　他、電気学会論文誌Ｃ１０８巻、昭和６３年１０月号
ｐ．８５８〜８６５）記載の音声認識システムを用いる
。なお、騒音測定部２、入力ゲイン調整部３、区間検出
部４、音声認識部５には、前記実施例に記載したもの以
外の方法を用いても実現可能である。

【０００９】図２は、以上の動作を説明するためのフロ
ーチャートである。以下、各ステップに従って順に説明
する。ｓｔｅｐ１；まず、音響信号ｘ（ｔ）を入力する。ｓｔｅｐ２；入力ゲインを調整するかどうかを判断する
。ｓｔｅｐ３；前記ｓｔｅｐ２において、入力ゲインを調
整するのであれば、ｘ（ｔ）の絶対値の短時間平均値ｙ
（ｔ）を計算する。計算式は以下のとおりである。ｙ（ｔ）＝Σ｜ｘ（ｔ）｜／Ｔｓｔｅｐ４；雑音レベルＳを計算する。計算式は以下の
とおりである。Ｓ＝ＭＡＸ（ｙ（ｔ））ｓｔｅｐ５；入力ゲインＧを計算する。計算式は以下の
とおりである。Ｇ＝（Ｔｈ−α）／Ｓｓｔｅｐ６；前記ｓｔｅｐ２において、入力ゲインの調
整をしないのであれば、出力信号ｚ（ｔ）を以下の計算
式により計算する。ｚ（ｔ）＝ｘ（ｔ）・Ｇｓｔｅｐ７；次に音声区間中かどうかを判断する。音声
区間中でなければ終了する。ｓｔｅｐ８；前記ｓｔｅｐ７において、音声区間中であ
れば、認識処理を行う。

【００１０】図５は、請求項１の効果の一例を示したも
ので、（ａ）は発声者が近くで発声した場合、（ｂ）は
ゲイン調整なしで発声者が遠くで発声した場合、（ｃ）
は本発明を用いて発声者が遠くで発声した場合である。（ｂ）では音声の欠落があるが、（ｃ）では欠落が無い
ことが分かる。

【００１１】図３は、本発明による音声認識装置の他の
実施例（請求項２）を説明するための構成図で、図中、
６は入力ゲイン調整部Ｂで、その他、図１と同じ作用を
する部分は同一の符号を付してある。入力ゲイン調整部
６は、騒音測定部２で測定した騒音レベルＳが後述の区
間検出部４で用いられる閾値Ｔｈより大きくならない程
度に入力ゲインＧを調整するもので、Ｔｈ＝Ｓ・Ｇ＋α（０＜α＜Ｔｈ）となるような入力ゲインＧを求め、Ｇが予め決めておい
た値ＧＭＡＸより大きな場合、Ｇ＝ＧＭＡＸとし、音響収集部１で得られた信号ｘ（ｔ）に、この入
力ゲインＧをｚ（ｔ）＝ｘ（ｔ）・Ｇのようにかけることにより、入力ゲインを調整する。

【００１２】図４は、図３における実施例の動作を説明
するためのフローチャートである。以下、各ステップに
従って順に説明する。ｓｔｅｐ１；まず、音響信号ｘ（ｔ）を入力する。ｓｔｅｐ２；入力ゲインを調整するかどうかを判断する
。ｓｔｅｐ３；前記ｓｔｅｐ２において、入力ゲインを調
整するのであれば、ｘ（ｔ）の絶対値の短時間平均値ｙ
（ｔ）を計算する。計算式は以下のとおりである。ｙ（ｔ）＝Σ｜ｘ（ｔ）｜／Ｔｓｔｅｐ４；雑音レベルＳを計算する。計算式は以下の
とおりである。Ｓ＝ＭＡＸ（ｙ（ｔ））ｓｔｅｐ５；入力ゲインＧを計算する。計算式は以下の
とおりである。Ｇ＝ｍｉｎ（Ｓ，Ｇｍａｘ）ｓｔｅｐ６；前記ｓｔｅｐ２において、入力ゲインの調
整をしないのであれば、出力信号ｚ（ｔ）を以下の計算
式により計算する。ｚ（ｔ）＝ｘ（ｔ）・Ｇｓｔｅｐ７；次に音声区間中かどうかを判断する。音声
区間中でなければ終了する。ｓｔｅｐ８；前記ｓｔｅｐ７において、音声区間中であ
れば、認識処理を行う。

【００１３】図６は請求項２の効果の一例を示したもの
で、（ａ）はゲイン調整なしの場合、（ｂ）は請求項１
の場合、（ｃ）は本発明を用いた場合である。（ｂ）で
は入力ゲインが大き過ぎて飽和状態になっているが、（
ｃ）ではその問題が解決されていることが分かる。

【００１４】

【効果】以上の説明から明らかなように、本発明による
と、以下のような効果がある。（１）請求項１に対応する効果；周囲の騒音レベルに応
じて、入力レベルを上げるようにしてあるので、電話の
ハンズフリーマインを用いて音声認識を行う場合などの
ように、発声者とマイクの距離が離れた場合でも認識可
能な音声認識装置が実現する。（２）請求項２に対応する効果；請求項１に記載の発明
では、周囲の騒音が小さい場合、入力ゲインが非常に大
きくなり過ぎて、入力信号が飽和状態になり、認識不可
能になる可能性があるが、本発明では、ゲインの上限を
決めてあるので、そのような可能性が無くなる。

【図面の簡単な説明】

【図１】　　本発明による音声認識装置の一実施例を説
明するための構成図である。

【図２】　　本発明による音声認識装置の動作を説明す
るためのフローチャトである。

【図３】　　本発明による音声認識装置の他の実施例を
説明するための構成図である。

【図４】　　本発明による他の音声認識装置の動作を説
明するためのフローチャートである。

【図５】　　実施例の効果を説明するための図である。

【図６】　　他の実施例の効果を説明するための図であ
る。

【符号の説明】

１…音響収集部、２…騒音測定部、３…入力ゲイン調整
部Ａ、４…区間検出部、５…音声認識部、６…入力ゲイ
ン調整部Ｂ。

Claims

【特許請求の範囲】

【請求項１】　　音声を含む音響情報を収集する音響収
集部と、該音響収集部から得た信号を用いて音声の存在
する区間を検出する区間検出部と、該区間検出部で音声
と検出された区間の信号のみを用いて認識処理を行う音
声認識部とを有する音声認識装置において、周囲の騒音
を測定する騒音測定部と、前記区間検出部で騒音を音声
と誤って検出しない程度に、前記音響収集部の入力レベ
ルを上げる入力ゲイン調整部とを有することを特徴とす
る音声認識装置。
【請求項２】　　前記入力ゲイン調整部は周囲の騒音が
非常に小さい場合に入力ゲインが上がりすぎないように
構成されていることを特徴とする請求項１記載の音声認
識装置。