JP2009229899A

JP2009229899A - 音声認識装置および音声認識方法

Info

Publication number: JP2009229899A
Application number: JP2008076275A
Authority: JP
Inventors: Daisuke Yamamoto; 大介山本; Hiroshi Sugiyama; 博史杉山; Toshiyuki Koga; 敏之古賀; Kaoru Suzuki; 薫鈴木
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2008-03-24
Filing date: 2008-03-24
Publication date: 2009-10-08
Also published as: US20090240496A1

Abstract

【課題】音声認識を用いて機器を操作する場合においてノイズによる認識ミスを減らす。
【解決手段】マイク１からの入力音声を認識する音声認識装置である。マイク１からの入力音声を取得する音声取得部２と、入力音声に基づいて発話開始時刻と発話終了時刻とを検出する音声区間検出部３と、入力音声を識別する音声識別処理部４と、電気的ノイズ源となる可能性があってマイク１とユーザ１０との距離を測定する赤外光を発生する測距センサ１１と、音声区間検出部３で検出した発話開始時刻から発話終了時刻までの間、一時的に、測距センサ１１の動作を止めてマイク１に達する電気的ノイズ源からのノイズ発生を抑制するノイズ発生抑制手段と、を有する。測距センサ１１によって測定されたマイク１とユーザ１０との距離に応じてマイク１のゲインが調整される。
【選択図】図６

Description

本発明は、音声認識を用いて機器を操作するための音声認識方法およびその装置に関する。

近年、家電の多様化・情報化に伴い、テレビ・ビデオ・ＤＶＤプレイヤー・ハードディスクレコーダなどを初めとするＡＶ機器や、照明・エアコン・扇風機などの住宅設備機器・空調機器など多くの家電が遠隔から操作できるように赤外線などを使ったリモートコントローラ（以下リモコン）を備え、多くのリモコンが家庭内に存在している。また、これら機器がネットワークに接続されて、ネットワークを経由した操作も可能となってきている。このように遠隔から操作できる機器が多くなり、またそれぞれの機器自体も情報技術（ＩＴ）の進展に伴い多くの機能を持つようになり、操作ボタンが増え、操作手順も複雑になってきている。ユーザはそれらを機器に応じて複数のリモコンを持ち、また、それぞれの操作ボタンの意味を理解しなければ使えなくなっている。

このように煩雑な操作の困難を解決するために、動作の意味と操作の対応が理解しやすい音声で指示ができるように、家庭内での音声認識を使ったインタフェースが注目されている。しかし、音声認識は、周囲雑音による認識エラーが多く、認識率が低いのが問題となっている。

音声認識は、一般に、音声の音声区間（発話区間）を検出する音声区間検出処理と、検出した音声区間内の音声を語彙として認識する音声識別処理からなる。音声区間検出処理は音声パワーの閾値により処理する方法が一般的であり、周囲雑音よりも発話音声が大きければよく、音声区間検出処理は比較的ノイズに強い。一方、音声識別は、多くの認識語彙とのマッチングを行なうため、比較的ノイズ対して弱い。また、音声区間検出の課題として周囲雑音に反応し、音声識別でも偶然、認識語彙とマッチングし、音声発話がないのに誤反応、誤動作する場合がある。

これを避けるために、別途押しボタンスイッチを設け、発話時にボタンを押すPush-to-Talkと言われる方法や、口唇の動きを検出して検出する方法（特許文献１）、ユーザとの距離に応じて区間を検出し音響モデルセットを変更するという方法（特許文献２）が知られている。これらは無発話時の誤認識を避ける以外にも音声区間検出の精度を上げる効果もある。

また一方、装置側から発生するノイズを発話と誤認識し、誤操作することを防ぐために、ノイズ発生中には音声認識処理を停止する方法が知られている（特許文献３、特許文献４）。このうち、特許文献３は、車両操作中は処理停止するものであり、特許文献４はロボットのノイズ発生中は処理停止するものである。
特開平４−１８４４９５号公報特開２００３−１３１６８３号公報特開平４−２４６９６号公報特開２００２−１１６７９４号公報

音声認識において、音声識別の方が音声区間検出よりノイズに弱いため、音声区間は検出されるが音声識別でノイズが多く認識できない場合がある。また、音声区間検出の成否は音声区間検出時にＬＥＤを点灯することなどによりユーザに示すことができ、区間検出が成功するように再度、音量を変える、騒音を止めるなどして発話をやり直せる。一方、音声識別の成否は、操作されるまで分からず、またユーザの方でも対処しようがない。よって音声識別の識別率を上げる必要があり、そのためには音声識別時の音声をクリアに取得することが必要となる。

先に示したPush-to-Talkでは、ユーザが音声認識装置の近くにいてボタンを操作する、もしくはリモコンなどの操作ボタンを持つ必要がある。音声区間検出において口唇を検出する方法はヘッドセット以外では難しい。ノイズ発生中に音声認識処理を停止する方法は、冷却ファンや区間検出など常に動作が必要でノイズ源となるものの場合には、音声認識処理自体が行なわれなくなるので採用できない。

本発明は、上記事情に鑑みてなされたものであって、音声認識を用いて機器を操作する場合においてノイズによる認識ミスを減らすことを目的とする。

上記目的を達成するために、本発明に係る音声認識装置は、マイクからの入力音声を取得する音声取得部と、前記音声取得部で取得した入力音声に基づいて発話開始時刻と発話終了時刻とを検出する音声区間検出部と、前記音声取得部で取得した入力音声を識別する音声識別処理部と、前記音声区間検出部で検出した発話開始時刻から発話終了時刻までの間、前記音声取得部に達する電気的ノイズ源からのノイズ発生を抑制するノイズ発生抑制手段と、を有することを特徴とする。

また、本発明に係る音声認識方法は、マイクからの入力音声を音声取得部に入力する音声取得工程と、前記音声取得工程で取得した入力音声に基づいて発話開始を検出する発話開始検出工程と、前記発話開始検出の後に、前記音声取得部に達する電気的ノイズ源からのノイズ発生を抑制し、前記音声取得部に入力された音声を識別する音声識別処理工程と、前記音声取得部に入力された音声に基づいて発話終了を検出する発話終了検出工程と、前記発話終了検出の後に、前記入力音声の識別を停止する音声識別停止工程と、を有することを特徴とする。

本発明によれば、音声認識を用いて機器を操作する場合においてノイズによる認識ミスを減らすことができる。

以下、本発明の実施の形態を、図面を参照して説明する。ここで、互いに同一または類似の部分には共通の符号を付して、重複説明は省略する。

［第１の実施形態］
図１は本発明に係る音声認識装置の第１の実施形態を示すブロック図であり、図２は第１の実施形態における処理動作を示す流れ図である。

第１の実施形態の音声認識装置は、テレビなどのＡＶ機器や、照明や空調機器などの種々の機器（図示せず）をユーザの音声によって操作するものであって、図１に示すように、マイク１と、音声取得部２と、音声区間（発話区間）検出部３と、音声識別処理部４と、認識語彙データベース５とを有する。

ユーザからの入力音声は、マイク１を通して音声取得部２にてあるゲイン・サンプリングレートにて量子化される。

音声区間検出部３は、量子化された音声波形の音声パワーを算出し、ある閾値よりも大きければ、音声区間（発話区間）として検出する。

図３は、音声認識装置における音声区間前後の音声パワーの変化の例を示すグラフである。この図に示すように、音声波形の音声パワーが連続的に閾値を超えているときを音声区間として特定する。

なお、入力音声が音声パワー閾値を長時間超える場合は、相当程度の以上の環境騒音が入っている可能性があるため、音声パワー閾値自体を上げる処理を行なう。

音声識別処理部４は、音声区間として検出された音声波形を処理し、認識語彙データベース５と照合し、認識結果を出力する。テレビなどの操作対象機器を操作する際にはこの認識結果に対応する操作を実行する。

この実施形態では、音声区間検出部３が音声区間検出中には、入力音声への音響的・電気的ノイズ源となりうる周辺機器（冷却ファン・モータなど）６のうち、一時的に停止しても支障がない機器の動作を停止させる。音声区間は、ユーザからの発話音声であり常時検出されることは少ない。

図４は、音声認識装置における音声区間前後の音声パワーの変化の例を示すグラフであって、（ａ）はファンを含む周辺機器動作中の場合、（ｂ）はファンのみを停止させた場合、（ｃ）はファンを含む周辺機器を停止させた場合を示す。この図に示すように、入力音声への音響的・電気的ノイズ源となりうる周辺機器の動作を一時的に停止させることにより、音声識別処理部４において音声区間内の音声波形を処理する際のノイズを抑制することができ、音声識別の精度を向上させることができる。

図２において、マイク１から入力された音声は音声取得部２により量子化され、音声区間検出部３の音声パワー算出処理を行ない（ステップＳ１）、閾値以上であれば音声区間の始端を検出する。始端検出時には、対象とする周辺機器の動作を停止させる（ステップＳ２）。次に音声識別処理を行なう（ステップＳ３）。また、このときの音声パワーを算出し（ステップＳ４）、次に音声パワーが閾値以下となった時点で、周辺機器の動作を再開する（ステップＳ５）。図２に示す例では、音声識別処理（ステップＳ３）は、音声始端検出後、随時行なうが、他の例として、音声区間終端が検出された際に行なう方法もありうる。

本実施形態によれば、ＣＰＵ冷却ファンなどの音響的・電気的ノイズの大きい周辺機器を伴う操作対象機器に対して音声認識性能を向上することが可能となる。

［第２の実施形態］
図５は本発明に係る音声認識装置の第２の実施形態の概念を示す斜視図であり、図６は本発明に係る音声認識装置の第２の実施形態を示すブロック図である。

この実施形態では、図に示すようにユーザ１０とマイク１の間の距離を測定するために、マイク１の周辺に赤外測距センサ１１を設置する。

赤外測距センサ１１の検出結果によりユーザ１０がマイク１の近くにいないと判断される場合は、マイク１に入力された音声は、周囲騒音であると判断できるため、音声認識処理を停止し周囲騒音による誤動作を防ぐこともできる。ユーザ１０が検出された際には音声認識処理を行ない、その際の入力音声はユーザ１０の発話音声として、音声が飽和しないよう、また音声識別可能な分解能を持つようにマイクゲインを調整することができる。

さらに、発話適正距離提示として、周囲騒音に応じて、周囲騒音が大きい場合にはマイクゲインが小さいため近い距離に、周囲騒音が小さい場合にはマイクゲインが大きいため遠い距離に、ユーザが来た際に、適正距離として表示することができる。このことにより、ユーザ１０はその表示を見ながら、マイク１との距離を適切に調整することができる。また逆に、周辺騒音が小さい場合には、マイクゲインの方をユーザ１０との距離に応じて調整することもできる。すなわち、距離が遠ければゲインを上げ、距離が近ければゲインを下げる。

赤外光測距センサ１１は、たとえば、赤外線発光ダイオードとＰＩＮ型フォトダイオード（ＰＳＤ（Position Sensitive Detector）：位置検出素子）を用いて距離の検出を行なうものである。距離の検出方式は光学測距方式（反射光がセンサへ入射した位置をもとに三角測量の原理で距離計算する方式）である。この方式は検出の対象の色や反射率に影響されにくい特徴を持つ。赤外光測距センサは、安価で距離を算出可能なセンサであるが、赤外光をパルス発光するため電気的ノイズが大きい。

そこで、この実施形態では、第１の実施形態におけるノイズ発生源である周辺機器６として、赤外光測距センサ１１を設定し、音声区間検出中には、赤外光測距センサ１１の動作を停止させる。これにより、音声識別処理部４において音声区間内の音声波形を処理する際のノイズを抑制することができ、音声識別の精度を向上させることができる。

図７は、音声認識装置における音声区間前後の音声パワーの変化の例を示すグラフであって、（ａ）は赤外光測距センサ動作中の場合、（ｂ）は赤外光測距センサを動作させない場合を示す。この図からわかるように、赤外光測距センサの動作を停止することによって、電源を分けたり別段の電気ノイズ処理をしたりしなくても、電気ノイズを低減でき、音声認識率を高めることが可能となる。

［第３の実施形態］
図８は本発明に係る音声認識装置の第３の実施形態を示すブロック図である。第３の実施形態は第２の実施形態（図６）の変形例であって、マイク１の周辺に、赤外測距センサ１１に加えて焦電センサ１２も設置する。焦電センサ１２は、人体などの発熱物体から発生した赤外線の変化を検出することによってその発熱物体の移動を検出するものである。

赤外光測距センサ１１での距離情報だけでは、ユーザ１０以外の固定物があった場合に検出を失敗する可能性がある。また、赤外光測距センサ１１は測定範囲が狭いため、ユーザ１０のいる位置が赤外光測距センサ１１の法線上にいない場合には、ユーザ１０が検出されないという欠点がある。焦電センサ１２は、熱変化を捉え、人移動を体温変化で検出するため、人以外の物体は検出されにくい。また検出範囲が広い。一方、焦電センサ１２は、人でも動きがなければ検出されないため、検出時の赤外光測距センサ１１の検出距離と合わせて、ユーザ検出を行なうことで、高い精度での音声認識ノイズ低減処理につなげることが可能となる。

本発明に係る音声認識装置の第１の実施形態の構成を示すブロック図。本発明に係る音声認識装置の第１の実施形態における処理動作を示す流れ図。音声認識装置における音声区間前後の音声パワーの変化の例を示すグラフ。音声認識装置における音声区間前後の音声パワーの変化の例を示すグラフであって、（ａ）はファンを含む周辺機器動作中の場合、（ｂ）はファンを停止させた場合、（ｃ）はファンを含む周辺機器を停止させた場合を示す。本発明に係る音声認識装置の第２の実施形態の概念を示す斜視図。本発明に係る音声認識装置の第２の実施形態の構成を示すブロック図。音声認識装置における音声区間前後の音声パワーの変化の例を示すグラフであって、（ａ）は赤外光測距センサ動作中の場合、（ｂ）は赤外光測距センサを停止させた場合を示す。本発明に係る音声認識装置の第３の実施形態を示すブロック図。

符号の説明

１：マイク
２：音声取得部
３：音声区間（発話区間）検出部
４：音声識別処理部
５：認識語彙データベース
６：周辺機器
１０：ユーザ
１１：赤外光測距センサ
１２：焦電センサ

Claims

マイクからの入力音声を取得する音声取得部と、
前記音声取得部で取得した入力音声に基づいて発話開始時刻と発話終了時刻とを検出する音声区間検出部と、
前記音声取得部で取得した入力音声を識別する音声識別処理部と、
前記音声区間検出部で検出した発話開始時刻から発話終了時刻までの間、前記音声取得部に達する電気的ノイズ源からのノイズ発生を抑制するノイズ発生抑制手段と、
を有することを特徴とする音声認識装置。
前記マイクと前記入力音声の発生元となるユーザとの距離を測定する測距センサをさらに有し、
前記ノイズ発生抑制手段は、前記発話開始時刻から発話終了時刻までの間、前記測距センサの動作を停止すること、を特徴とする請求項１に記載の音声認識装置。
前記測距センサは赤外光を発生する測距センサであることを特徴とする請求項２に記載の音声認識装置。
前記測距センサによって測定された前記マイクとユーザとの距離に応じて前記マイクのゲインを調整するゲイン調整手段さらに有することを特徴とする請求項２または請求項３に記載の音声認識装置。
前記測距センサによって測定された前記マイクとユーザとの距離が所定の距離を超えているときに前記音声識別処理部による入力音声を識別する動作を停止させる遠距離音声識別停止手段をさらに有することを特徴とする請求項２ないし請求項４のいずれか一項に記載の音声認識装置。
発熱物体から発生した赤外線の変化を検出することによってその発熱物体の移動を検出する焦電センサをさらに有し、
この焦電センサからの出力に基づいて発熱物体が近傍にないと判定されたときに前記音声識別処理部による入力音声を識別する動作を停止させるユーザ不在音声識別停止手段をさらに有することを特徴とする請求項１ないし請求項５のいずれか一項に記載の音声認識装置。
マイクからの入力音声を音声取得部に入力する音声取得工程と、
前記音声取得工程で取得した入力音声に基づいて発話開始を検出する発話開始検出工程と、
前記発話開始検出の後に、前記音声取得部に達する電気的ノイズ源からのノイズ発生を抑制し、前記音声取得部に入力された音声を識別する音声識別処理工程と、
前記音声取得部に入力された音声に基づいて発話終了を検出する発話終了検出工程と、
前記発話終了検出の後に、前記入力音声の識別を停止する音声識別停止工程と、
を有することを特徴とする音声認識方法。