JP2009210956A

JP2009210956A - 操作方法およびそのための操作装置、プログラム

Info

Publication number: JP2009210956A
Application number: JP2008055735A
Authority: JP
Inventors: Akira Saso; 晃佐宗
Original assignee: National Institute of Advanced Industrial Science and Technology AIST
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2008-03-06
Filing date: 2008-03-06
Publication date: 2009-09-17
Anticipated expiration: 2028-03-06
Also published as: JP4982807B2

Abstract

【課題】情報家電製品等の操作対象を音声により容易且つ確実に操作する操作方法およびそのための操作装置、プログラムを提供すること。
【解決手段】操作方法は、全操作対象の辞書と文法の読込を行う手順ａ、発声位置−操作対象マップの読込を行う手順ｂ、マイクロフォンアレイから音声データの取り込みを行う手順ｃ、ユーザの発声位置と周囲雑音の到来方向推定を行う手順ｄ、ユーザの発声があると判断したとき、周囲雑音の抑圧と特徴補正を行うと同時に、頭部方向推定および操作対象の特定と操作対象に基づく辞書および文法の切替を行う手順ｅ、切り替えた操作対象の辞書と文法に基づいて求めた特徴補正の結果より音声認識処理を行う手順ｆ、音声認識結果を受け取ったときにはその結果により操作対象を遠隔制御し、これら以外の判断結果のときには手順ｃへ戻る手順からなる。
【選択図】図３

Description

本発明は、テレビ、ＤＶＤレコーダ、オーディオコンポなどの情報家電をはじめ、部屋のライトやエアコンなどの様々な家電製品を、音声で操作するインタフェース、即ち、情報家電操作方法およびそのための操作装置、プログラムに関する。

テレビ、ＤＶＤレコーダ、オーディオコンポなどの情報家電をはじめ、部屋のライトやエアコンなどの様々な家電製品を遠隔から操作するリモコンが広く普及し、使用されている。しかし、家電製品が増えるにつれて部屋の中に置かれるリモコンの数も増え、そのような多くのリモコンの置き場所の確保や使い分けが困難になるという問題が生じている。また、情報家電などではその機能が多様化するにつれてリモコンの操作も複雑になってしまい、特に高齢者などにとってそのようなリモコン操作は決して容易ではないという問題もある。

様々な情報家電を音声で操作できるインタフェースを構築するには、システムに対するユーザ発話の検出や音声コマンドの認識を、情報家電などから出力される干渉音があるなか、ヘッドセットマイクロフォンなどの装着型マイクロフォンを用いないでロバストに行える必要がある。また、簡単な音声コマンドで様々な情報家電を操作できるインタフェースの設計も重要である。
雑音環境下でも高い音声認識精度を実現するためには、マイクロフォンアレイと特徴補正を組み合わせたロバスト音声認識システムを用いることができる（特願２００３−３２０１８３号、特願２００６−２４０７２１号、特願２００６−２４８４８５号、特願２００６−０４５０９６号、特願２００６−０４４７１１号、特願２００６−２１１２１６号参照）。

しかし、このロバスト音声認識システムをそのまま家電製品の操作インタフェースとして用いる場合、操作する家電製品の数が多くなるほど、辞書に登録する語彙数の増加や認識文法の複雑化などが原因で、音声認識処理時間が長くなったり認識精度が劣化したりするなどの問題が生じる。また、例えば、電源のオン・オフなど全ての家電製品で共通に使われる音声コマンドは、どの家電製品の電源をオン・オフするのかを音声コマンドに含めなければならない。
特開２００５−０８４６５３号公報特願２００６−２４０７２１号特願２００６−２４８４８５号特開２００７−２２８１３５号公報特開２００７−２２２２５５号公報特願２００６−２１１２１６号

しかし、家電製品の呼び方はユーザによって様々な場合もあり、辞書に登録すべき語彙数を増やしてしまう原因にもなる。また、頻繁に用いる音声コマンドにこのような操作対象の家電製品名を含めてしまうと、長い音声コマンドを繰り返し発声しなければならないため、インタフェースの利便性を著しく欠くという問題も生じる。

本発明の目的は、情報家電製品等の操作対象を音声により容易且つ確実に操作する操作方法およびそのための操作装置、プログラムを提供することにある。

複数個のマイクロフォンを規則的に配置したマイクロフォンアレイを用いることにより音源の位置を特定する技術は発明者が既に提案している（特開２００７−２２８１３５号公報参照）。
ユーザが発声するときに推定される音源位置は凡そ口の位置に一致している。このことから、マイクロフォンアレイの出力音響信号からユーザがどの方向を向いているかという頭部方向推定が可能になる。
本発明では、マイクロフォンアレイによる頭部方向推定手段と以下の音声認識手段を用いることで、前述の目的を達成する。
例えば、リビングのソファーにマイクロフォンアレイを実装した環境を想定して、そのソファーに座ったユーザから見た家電製品の設置方向を予め登録しておく。そして、ユーザは操作対象の家電製品を見ながら音声コマンドを発声する。
インタフェースとなる情報家電操作方法および装置は、マイクロフォンアレイ処理で推定したユーザの頭部方向と予め登録しておいた各家電製品の設置方向を照合して、操作対象の家電製品を特定する。予め、家電製品毎に音声認識の辞書と文法を予め作成しておき、ユーザ発声時の頭部方向推定結果で操作対象の家電製品を特定し、その特定した家電製品用の辞書と文法に切替えて音声認識をする。
この音声認識の結果により情報機器の操作信号を出力する。
具体的には、以下の解決手段を採用する。
（１）操作方法は、
全操作対象の辞書と文法の読込を行う手順ａ、
発声位置−操作対象マップの読込を行う手順ｂ、
マイクロフォンアレイから音声データの取り込みを行う手順ｃ、
ユーザの発声位置と周囲雑音の到来方向推定を行う手順ｄ、
ユーザの発声があると判断したとき、周囲雑音の抑圧と特徴補正を行うと同時に、頭部方向推定および操作対象の特定と操作対象に基づく辞書および文法の切替を行う手順ｅ、
切り替えた操作対象の辞書と文法に基づいて求めた特徴補正の結果より音声認識処理を行う手順ｆ、
音声認識結果を受け取ったときにはその結果により操作対象を遠隔制御し、これら以外の判断結果のときには手順ｃへ戻る手順からなることを特徴とする。
（２）上記（１）記載の操作方法は、
前記発声位置−操作対象マップを、マイクロフォンアレイを実装したソファーなどに座っているユーザが、その周囲に設置してある各操作対象を見ながら発声したときに推定される発声位置とその操作対象を対応付ける発声位置−操作対象マップとして予め作成し、
前記操作対象の特定の手順における前記操作対象を、ユーザがコマンド音声を発声したときに推定された発声位置を基準として発声位置−操作対象マップを照会し特定することを特徴とする。
（３）操作装置は、
椅子に、少なくとも、一対のマイクロフォンアレイと、ＣＰＵおよび記憶装置と、リモートコントローラを設け、
マイクロフォンアレイは椅子の座席の両側方にそれぞれ設け、
ＣＰＵおよび記憶装置により請求項１又は２記載の操作方法を実行するようにしたことを特徴とする。
（４）プログラムは、
コンピュータに（１）又は（２）記載の手順を実行させるためのプログラムとする。

本発明は、雑音にロバストな音声認識を実現するために必要なマイクロフォンアレイを頭部方向推定にも併用することができるので、従来のカメラを用いた画像処理で頭部方向推定を行うシステムなどに比べて、装置のコストを抑えることができる。
また、推定したユーザの発声位置を、読み込んだ発声位置−操作対象マップに照会することで、操作対象を特定することができる。特に、マイクロフォンアレイ処理部の頭部方向推定結果を用いて操作対象の情報家電製品を特定するので、操作対象の家電製品名を含めない短い音声コマンドで様々な家電製品の操作ができるようになり、音声認識のための辞書に長い家電製品名を登録する必要がなくなり、操作が容易になる。

更に、家電製品毎に音声認識の辞書と文法を予め作成しておき、ユーザ発声時の頭部方向推定結果で操作対象の家電製品を特定し、その特定した家電製品用の辞書と文法に切替えて音声認識することで、１つの発話を認識するために必要な語彙数と文法の規模を小さくできる。これにより、音声認識処理時間を短くでき、また認識精度の劣化を防ぐことが可能になる。

以下、本発明の実施形態について説明する。なお、以下に示す実施形態は本発明の一実施形態であり、特にマイクロフォンアレイの実装方法などは当該実施形態に限定されるものではない。
図１は本発明の音声認識インタフェースを実装したソファーの概観図である。本発明は、ソファーの代わりに障害者用電動車いす等の任意のいすに適用できる。以下、ソファーについて説明する。
図１に示す本発明の音声認識インタフェースを実装した椅子、例えばソファー１は、２枚の直線状マイクロフォンアレイ２ａ、２ｂを肘掛３ａ、３ｂの先端に、ユーザから見て「ハ」の字になるように実装する。各マイクロフォンアレイ２ａ、２ｂには、任意数、例えば４つのマイクロフォンを３ｃｍ間隔で直線状に実装する。また、肘掛３には音声認識結果などを表示するディスプレイ４ａ、４ｂなども実装する。
音声認識インタフェースの主要構成部品は座席シート５内や背もたれ６に収納される。

マイクロフォン（図示省略）を複数個連設したマイクロフォンアレイ２ａ、２ｂは、例えば、左右の肘掛３ａ，３ｂの先端に配線を備えた支持体（図示省略）により支持する。両側のマイクロフォンアレイ２ａ、２ｂは、座席シートに座った人が見て「ハ」の字になるように配置する。このように配置することにより、各マイクロフォンは操作者の中心から略等距離となり、操作者の周囲の音を略同じレベルで集音することができるようになる。
マイクロフォンアレイ２ａ、２ｂのマイクロフォンは、任意数、位置調節自在に設けることにより、マイクロフォンの数、配置間隔等を任意に設定する。

図２は本発明の音声認識インタフェースの機能ブロック図である。
図２に示すように、音声認識インタフェース１０の機能はブロックで表すと、音声入力手段の一部を構成する２枚のマイクロフォンアレイ２ａ、２ｂ、マイクロフォンアンプ１２とＡＤＣ（アナログ・ディジタル変換器）１３を有する増幅変換器１１、表示手段となるディスプレイ１４、制御手段となるＣＰＵ（中央演算処理装置）１５、操作対象の制御手段となる赤外線学習リモートコントローラ１６、補助入力手段となるキーやタッチパネルなどの補助入力装置１７、記憶装置１８、と操作信号等を伝送する伝送線、例えばＬＡＮケーブル１９を有する。ＬＡＮケーブル１９の先には、ＣＰＵ１５により制御される駆動制御手段２０等が接続される。マイクロフォンアンプ１２、ＡＤＣ（アナログ・ディジタル変換器）１３、制御手段となるＣＰＵ（中央演算処理装置）１５と記憶装置１８等は、ソファー１の座席シート５や背もたれ６中に格納する。なお、ソファー１に移動用のモータ付き車輪を制御可能に設けることもできる。赤外線学習リモートコントローラ１６およびＬＡＮケーブル１９（駆動制御手段２０等を含む）は遠隔制御手段（リモートコントローラ）という。

（音声入力手段）
音声入力手段は、ユーザ音声を信号処理できる程度の音声として受音するために、相互に離間して配置した複数、この場合１対のマイクロフォンアレイ２ａおよび２ｂ、マイクロフォンアンプ１２とＡＤＣ（アナログ・ディジタル変換器）１３を有する増幅変換器１１からなる受音手段を備える。

（発声位置推定手段と制御手段）
ＣＰＵ（中央演算処理装置）１５は、機能的に発声位置推定手段や制御手段等を構成する。ＣＰＵ１５、表示手段となるディスプレイ１４、補助入力手段となるキーやタッチパネルなどの補助入力装置１７、および記憶装置１８は、これらを備えるマイクロコンピュータにより構成するのが好ましい。
図２のＣＰＵが構成する発声位置推定手段は、図６に示すような受音手段（マイクｍ１−ｍ８からなるマイクロフォンアレイ）で受音したマルチチャネル音声データに基づきユーザの発声位置（Ｐｘ、Ｐｙ）を推定し発声位置推定信号を出力する。図６はマイクロフォンアレイの機能説明図である。

図２のＣＰＵが構成する制御手段は、発声位置推定信号や補助操作信号等に基づき情報機器を操作するための操作信号をＬＡＮ１９を構成する伝送ケーブルや無線ＬＡＮ等に送受信する。
音声データのサンプリングレートは任意に設定でき、例えば８ｋＨｚとし、量子化ビット数は任意に設定でき、例えば１６ｂｉｔとする。処理精度を上げるときには、サンプリングレートおよび量子化ビット数を上げる。

（補助入力装置）
補助操作装置は、図示していないが、操作スイッチ６６で代表され、その他例えばジョイスティック（図示省略）からなる座標位置指定手段や緊急停止ボタン（図示省略）等によっても構成できる。

（ディスプレイ）
ディスプレイ１４は、発声位置推定信号やソファーの状態等を視覚的に示す。

（赤外線学習リモコン）
赤外線学習リモートコントローラ１６は、操作対象の制御手段となると共に、制御対象の位置や情報の送受信態様等を発声位置推定に使用できるように記憶するために使用する。赤外線学習リモートコントローラ１６は、ＬＡＮ１９から先を含んで遠隔制御手段（リモートコントローラ）として機能する。赤外線学習リモートコントローラ１６とＬＡＮ１９から先は、それぞれ別体又は一体で機能する。

（音声認識手段）
図５は本発明の音声認識処理手段のブロック構成図である。この音声認識処理手段は図２においてＣＰＵ１５と記憶装置１８から構成される。
音声認識処理手段４０は、マイクロフォンアレイ処理部４１と、音声認識処理部４２から構成される。
マイクロフォンアレイ処理部４１は、入力音声をひろうマイクロフォンアレイ音声入力手段４３と、手段４３の出力のひろった音から遠距離にある音源の音波到来方向を推定する遠距離にある音源の音波到来方向推定手段４５と、手段４３の出力のひろった音から近距離にある音源の位置を推定する近距離にある音源の位置推定手段４６と、手段４５および４６の音源位置情報に基づいて手段４３の出力のひろった音から抽出対象の音源の音声を分離する音源分離処理手段４４と、手段４５および４６の音源位置情報に基づいてユーザの発話を検出するユーザの発話検出手段４７と、ユーザの発話検出手段４７からの検出信号に応じて音源分離処理手段４４からの音声信号を切換出力する切換手段４８から構成される。
音声認識処理部４２は、切換手段４８からの音声信号に対して特徴を補正処理する特徴補正処理手段４９と、手段４９からの特徴を補正した音声信号を音声認識して認識結果を出力する音声認識手段５０から構成される。

図３は本発明の音声認識インタフェースの処理フロー図である。各手順（ステップ）を説明する。必要に応じて図２および図５を参照する。
（ＳＴＡＲＴ）
（手順５１）全操作対象の辞書と文法の読込：
操作対象毎に用意した音声認識の辞書と文法を全ての操作対象について読込み、記憶装置１８に記憶する。
（手順５２）発声位置−操作対象マップの読込：
ユーザの発声位置と操作対象を関連付けるマップを読み込み、記憶装置１８に記憶する。
（手順５３）マイクアレイから音声データの取り込み：
マイクロフォンアレイ２ａ、２ｂから出力される音声のアナログ信号をマイクロフォンアンプ１１で増幅した後、ＡＤＣ１２で１１．０２５ｋＨｚ、１６ビットでディジタル信号に変換し、記憶装置１８に一時記憶する。

（手順５４）ユーザの発声位置と周囲雑音の到来方向推定：
下記の音源位置推定手順を用いて、ソファーに座ったユーザの発声位置と周囲雑音の到来方向を推定する。
（音源位置推定手順）
図６は本発明のマイクロフォンアレイの機能説明図である。
マイクロフォンｍ１、ｍ２、ｍ３、ｍ４と、マイクロフォンｍ５、ｍ６、ｍ７、ｍ８は、ハの字になるように、図６に示されるように、対向して、配置される。また、各マイクロフォンと音源の位置等は図のような関係になっているものとする。
マイクロフォンアレイから例えば約１ｍ以内の近距離にある音源の位置を、マイクロフォンアレイで推定する方法について以下に説明する。

複数のマイクロフォンは３次元空間中の任意の位置に配置可能である。３次元空間中の任意の位置

に置かれた音源から出力された音響信号を、３次元空間中の任意の位置

に配置されたＱ個のマイクロフォンで受音する。音源と各マイクロフォン間の距離Ｒｑは次式で求められる。

音源から各マイクロフォンまでの伝播時間τｑは、音速をｖとすると、次式で求められる。

各マイクロフォンで受音した中心周波数ωの狭帯域信号の、音源のそれに対する利得ｇｑは、一般的に、音源とマイクロフォン間の距離Ｒｑと中心周波数ωの関数として定義される。

例えば、利得を距離Ｒｑだけの関数として、実験的に求めた次式のような関数を用いる。

中心周波数ωの狭帯域信号に関する、音源と各マイクロフォン間の伝達特性は、

と表される。そして、位置Ｐ０にある音源を表す位置ベクトルａ（ω，Ｐ０）を、次式のように、狭帯域信号に関する、音源と各マイクロフォン間の伝達特性を要素とする複素ベクトルとして定義する。

音源位置の推定はＭＵＳＩＣ法（相関行列を固有値分解することで信号部分空間と雑音部分空間を求め、任意の音源位置ベクトルと雑音部分空間の内積の逆数を求めることにより、音源の音波到来方向や位置を調べる手法）を用いて、以下の手順で行う。ｑ番目のマイクロフォン入力の短時間フーリエ変換を

で表し、これを要素として観測ベクトルを次のように定義する。

ここで、ｎはフレーム時刻のインデックスである。連続するＮ個の観測ベクトルから相関行列を次式により求める。

この相関行列の大きい順に並べた固有値を

とし、それぞれに対応する固有ベクトルを

とする。そして、音源数Ｓを次式により推定する。

もしくは、固有値に対する閾値を設け、その閾値を超える固有値の数を音源数Ｓとすることも可能である。
雑音部分空間の基底ベクトルから行列Ｒｎ（ω）を次のように定義し、

周波数帯域

および音源位置推定の探索領域Ｕを

として、

を計算する。そして、関数Ｆ（Ｐ）が極大値をとる座標ベクトルを求める。ここでは仮にＳ個の極大値を与える座標ベクトルがＰ１，Ｐ２，・・・，Ｐｓが推定されたとする。次にその各々の座標ベクトルにある音源のパワーを次式により求める。

そして、２つの閾値Ｆｔｈｒ，Ｐｔｈｒを用意し、各位置ベクトルにおけるＦ（Ｐｓ）とＰ（Ｐｓ）が次の条件を満足するときに、

連続するＮ個のフレーム時間内の座標ベクトルＰｌにおいて発声があったと判断する。
音源位置の推定処理は連続するＮ個のフレームを１つのブロックとして処理する。音源位置の推定をより安定に行うためには、フレーム数Ｎを増やす、そして／また連続するＮｂ個のブロックの全てで数２０の条件が満たされたら発声があったと判断する。ブロック数は任意に設定する。連続するＮフレームの時間内において、近似的に音源が静止していると見られるほどの速さで音源が移動している場合は、前記手法により音源の移動奇跡を捉えることができる。

（周囲雑音の音波到来方向推定手順）
マイクロフォンアレイから遠距離にある音源の音波が到来する方向を、マイクロフォンアレイで推定する手法について以下に述べる。
複数のマイクロフォンは３次元空間中の任意の位置に配置可能である。遠距離から到来する音波は平面波として観測されると考える。

図８は本発明のマイクロフォンアレイを用いた受音機能を説明する説明図である。
図８は、例として、任意の位置に配置された３個のマイクロフォンｍ１、ｍ２、ｍ３で、音源から到来した音波を受音する場合を示している。図７で、点ｃは基準点を示しており、この基準点のまわりで音波の到来方向を推定する。図７で、平面ｓは、基準点ｃを含む平面波の断面を示している。平面ｓの法線ベクトルｎは、そのベクトルの向きを音波の伝播方向と逆向きとし、次式のように定義する。

３次元空間中の音源の音波到来方向は２つのパラメータ（θ，φ）で表される。方向（θ，φ）から到来する音波を各マイクロフォンで受音し、そのフーリエ変換を求めることで受音信号を狭帯域信号に分解し、各受音信号の狭帯域信号毎に利得と位相を複素数として表し、それを要素として狭帯域信号毎に全受音信号分だけ並べたベクトルを音源の位置ベクトルと定義する。以下の処理において、方向（θ，φ）から到来する音波は、前述の位置ベクトルとして表現される。位置ベクトルは具体的に以下のように求められる。ｑ番目のマイクロフォンと平面ｓの間の距離ｒｑを次式により求める。

距離ｒｑは平面ｓに関してマイクロフォンが音源側に位置すれば正となり、逆に音源と反対側にある場合は負の値をとる。音速をｖとするとマイクロフォンと平面ｓ間の伝播時間Ｔｑは次式で表される。

平面ｓでの振幅を基準としてそこから距離ｒｑ離れた位置の振幅に関する利得を、狭帯域信号の中心周波数ωと距離ｒｑの関数として次のように定義する。

平面ｓでの位相を基準としてそこから距離ｒｑ離れた位置の位相差は、次式で表される。

以上より、平面ｓを基準として、各マイクロフォンで観測される狭帯域信号の利得と位相差は次式で表される。

Ｑ個のマイクで（θ、φ）方向から到来する音波を観測するとき、音源の位置ベクトルは、各マイクロフォンについて数２６の式に従い求めた値を要素とするベクトルとして次式のように定義される。

音源の位置ベクトルが定義されたら、音波の到来方向推定は、ＭＵＳＩＣ法を用いて行われる。数１５の式で与えられる行列Ｒｎ（ω）を用い、音波到来方向推定の探索領域Ｉを

として、

を計算する。そして、関数Ｊ（θ、φ）が極大値を与える方向（θ、φ）を求める。ここでは仮にＫ個の音源が存在し、極大値を与えるＫ個の音波到来方向（（θ１、φ１），・・・，（θＫ、φＫ））が推定されたとする。次にその各々の音波到来方向にある音源のパワーを次式により求める。

そして、２つの閾値Ｊｔｈｒ，Ｑｔｈｒを用意し、各到来方向におけるＪ（θｋ，φｋ）とＱ（θｋ，φｋ）が次の条件を満足するときに、

連続するＮ個のフレーム時間内の到来方向（θｋ，φｋ）において発声があったと判断する。音波の到来方向の推定処理は連続するＮ個のフレームを１つのブロックとして処理する。到来方向の推定をより安定に行うためには、フレーム数Ｎを増やす、そして／また連続するＮｂ個のブロックの全てで数３１の式の条件が満たされたらその方向から音波の到来があったと判断する。ブロック数は任意に設定する。連続するＮフレームの時間内において、近似的に音源が静止していると見られるほどの速さで音源が移動している場合は、前記手法により音波の到来方向の移動奇跡を捉えることができる。

近距離音源の位置推定結果と遠距離音源の音波到来方向推定結果は、続く発話検出処理や音源分離処理で重要な役割を果たすが、近距離音源と遠距離音源が同時に発生していて、更に、遠距離音源から到来する音波に対して近距離音源のパワーが著しく大きくなるとき、遠距離音源の音波の到来方向推定がうまく行えない場合がある。このような時は、近距離音源が発生する直前に推定された、遠距離音源の音波の到来方向推定結果を用いるなどして対処する。

（手順５５）ユーザの発声あり？：
下記の発話検出処理手順を用いてユーザの発声を検出し、ユーザの発声が検出されれば手順５６と手順５８へ進み、ユーザの発声が検出されなければ、手続５３へ戻る。
補助入力手段９によりユーザが音声認識機能を停止している場合は、発声検出結果にかかわらず手続５２へ戻る。
（発話検出処理手順）
複数の音源が存在している場合、どの音源が認識すべき音声なのかの特定は一般的に難しい。一方、音声を用いたインタフェースを採用するシステムでは、予めシステムのユーザがシステムに対して相対的にどのような位置で発声するかを表すユーザ発声領域を決めておくことができる。この場合、前述の方法でシステムの周囲に音源が複数存在しているとしても、各音源の位置や音波の到来方向を推定できれば、システムが予め想定しているユーザ発声領域に入る音源を選択することで容易にユーザの音声を特定できるようになる。

数（２０）や数（３１）の式の条件が満たされることで音源の存在を検出し、更に音源の位置や音波の到来方向の条件が満たされてユーザの発声が検出される。この検出結果は発話区間情報として、後続音声認識処理において重要な役割を果たす。音声認識を行う場合、入力信号の中から発話区間の開始時点と終了時点を検出する必要がある。しかし、周囲雑音が存在する雑音環境下での発話区間検出は必ずしも容易ではない。一般的に、発話区間の開始時点がずれると音声認識精度が著しく劣化してしまう。一方、複数の音源が存在していても、その音源がある位置や音波の到来方向において、数（１８）や数（２９）で表される関数は鋭いピークを示す。従って、この情報を用いて発話区間検出を行っている本発明音声認識手段は、複数の周囲雑音が存在しても頑健に発話区間検出が行え、高い音声認識精度を保つことができるという利点を持つ。

例えば、図７に示すようなユーザの発声領域を定義することができる。
図７は本発明による発話検出処理の機能説明図である。
この図７では簡単のためにＸ−Ｙ平面のみで表すが、一般的に３次元空間においても同様に任意のユーザ発声領域を定義することができる。図６では、任意の位置に配置された８個のマイクロフォンｍ１〜ｍ８を用いた処理を仮定し、近距離音源の探索領域および遠距離音源の探索領域のそれぞれで、ユーザ発声領域を定義している。近距離音源の探索空間は、（ＰｘＬ，ＰｙＬ）と（ＰｘＨ，ＰｙＨ）の２点を結ぶ直線を対角線とする矩形領域で、その領域内で（ＰＴｘＬ１，ＰＴｙＬ１）と（ＰＴｘＨ１，ＰＴｙＨ１）、（ＰＴｘＬ２，ＰＴｙＬ２）と（ＰＴｘＨ２，ＰＴｙＨ２）のそれぞれの２点を結ぶ直線を対角線とする２つの矩形領域をユーザの発声領域と定義している。従って、数（２０）の式により発声があったと判断された音源位置のなかで、その座標ベクトルが前記ユーザ発声領域内に入っているものを選択することで、近距離に存在する音源の中でユーザ音声を特定できる。

一方、遠距離音源の探索空間は点Ｃを基準として、角度θＬからθＨの方向を探索領域とし、その領域内で角度θＴＬ１からθＴＨ１の領域をユーザの発声領域と定義している。従って、数（３１）の式により発声があったと判断された音波の到来方向のなかで、到来方向が前記ユーザ発声領域内に入っているものを選択することで、遠距離に存在する音源の中でユーザ音声を特定できる。

（手順５６）周囲雑音の抑圧：
下記の音源分離処理手順を用いて周囲雑音を抑圧しユーザ音声を強調する音源分離処理を行う。
（音源分離処理手順）
発話検出された音源の位置推定結果または音波の到来方向推定結果を用いて、ユーザの音声を強調し周囲雑音を抑圧する音源分離処理について以下に説明する。
ユーザ音声の発話位置または到来方向は前記発話検出処理により求められている。また、周囲雑音の音源位置または到来方向も既に推定されている。これらの推定結果と数（８）と数（２７）の式の音源位置ベクトル、そして無指向性雑音の分散を表すσを用いて、行列Ｖ（ω）を次式のように定義する。

この相関行列の大きい順に並べた固有値を

とし、それぞれに対応する固有ベクトルを

とする。

ここで、相関行列Ｖ（ω）には近距離音源Ｓ個と遠距離音源Ｋ個を合わせて（Ｓ＋Ｋ）個の音源が含まれているから、固有値の大きい方から（Ｓ＋Ｋ）の固有値と固有ベクトルを用いて、Ｚ（ω）を次式のように定義する。

そして、近距離の座標ベクトルＰに居るユーザの音声を強調する分離フィルタＷ（ω）は、次式で与えられる。

数（３６）の分離フィルタに数（１０）の観測ベクトルを乗じることで座標ベクトルＰに居るユーザの音声ｖ（ω）が得られる。

この強調されたユーザ音声の波形信号は数（３７）の逆フーリエ変換を計算することで求められる。

一方、遠距離の方向（θ，φ）に居るユーザの音声を強調する場合の分離フィルタＭ（ω）は次式で与えられる。

数（３８）の式の分離フィルタに数（１０）の式の観測ベクトルを乗じることで方向（θ，φ）に居るユーザの強調音声ｖ（ω）が得られる。

この強調されたユーザ音声の波形信号は数（３７）の式の逆フーリエ変換を計算することで求められる。
連続するＮフレームの時間内において、近似的に音源が静止していると見られるほどの速さで音源が移動している場合は、前記手法により移動しているユーザの強調音声が得られる。

（手順５７）特徴補正：
ＣＰＵ１５で、手続５６により除去しきれなかった雑音歪の補正を、ユーザ音声から抽出した特徴量に対して行う。即ち、
隠れマルコフモデル（ＨＭＭ）に基づいて音声特徴量の補正を行う。ＨＭＭを用いることで、ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ（ＧＭＭ）では表現できない特徴量時系列の時間的構造と累積出力確率を用いて、雑音適応化分布の選択的な重み付けができるようになる。これにより、一時的な雑音変化による補正精度の劣化を抑制することができる。また、Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ（ＭＦＣＣ）領域で、クリーン音声から学習した既存の音響ＨＭＭを補正処理に用いる。

ここで、ＨＭＭの状態の集合をＳ、初期確率をπ_ｓ、状態ｊからｑへの遷移確率をａ_ｊｑ、状態ｊにおける特徴ベクトルｘの出力確率をｂ_ｊ（ｘ）で表す。出力確率は混合数をＭとすると、

で与えられるとする（ Σ_ｊｍは対角行列とする）。以後、ＨＭＭに関するパラメータの集合をθで表す。入力音声の特徴ベクトルｘは、一般的に、ベースのＭＦＣＣ以外にΔやΔΔを組み合わせて用いられるが、以下では補正処理の対象をベースのＭＦＣＣだけに限定する。このベースのＭＦＣＣをｚとし、ＨＭＭの全ての分布に対してベースの部分だけを抜きだした分布を

で表す。入力音声の開始Ｎフレームは無音区間と仮定し、雑音適応化分布

を次式に従い求める。

ここでｌｏｇ，ｅｘｐはベクトルの各要素に対する演算で、Ｃは離散コサイン変換行列を表す。

予備実験結果によると、通常のｌｏｇ−ａｄｄ方式より、上記数（数４３）による分布の適応を実施した方が認識率は若干良くなる。しかし、上記数（数４３）は、通常のｌｏｇ−ａｄｄより演算量が増えるため、演算量コストを優先させる場合は、ｌｏｇ−ａｄｄ方式を採用する。
一方、ビタビアルゴリズムによる確率計算は、以下の手順で行われる。
はじめに、フォワード係数に初期確率を入れる。

その後、各フレーム時刻ｔ＝１，２，…，Ｔの各状態ｓについて、

を求める。

このようにして得られるフォワード係数は、特徴ベクトルｘ_１，…，ｘ_ｔを出力し、フレーム時刻ｔにおいて状態ｓにある累積出力確率を表す。そして、最終フレームにおいて最大確率を選択する。

このようにして観測ベクトル時系列に対するＨＭＭの最大尤度が求められる。

本発明では、このフォワード係数を用いて、各フレーム時刻の各状態における雑音適応化分布の重み付けを行うことで、過去の特徴量の変遷に沿った分布選択による特徴量補正を実現する。そして、得られた補正特徴ベクトルでベースのＭＦＣＣを置き換えて、上記数４５の式により確率の逐次計算を行う。つまり、本発明は特徴量の補正処理と音響ＨＭＭの尤度計算を同時に行う。

（手順５８）頭部方向推定と操作対象の特定：
手続５４により推定したユーザの発声位置を、手続５２で読込んだ発声位置−操作対象マップに照会することで、操作対象を特定する。発声位置−操作対象マップを照合して発声位置になにも操作対象が登録されていない場合は、認識は行わず手続５３へ戻る。

（手順５９）操作対象に基づく辞書と文法の切替：
手続５２で読込んだ全操作対象の音声認識用辞書と文法の中から、手続５８で特定された操作対象の辞書と文法を選択し、それらを後続処理の音声認識へ引き渡す。

（手順６０）音声認識処理：
手続５７で補正処理を受けた音声特徴量を、手続５９で選択した辞書と文法を用いて下記の音声認識処理手順を実行する。
（音声認識処理手順）
前記音源分離処理は、指向性雑音に対しては有効であるが、無指向性雑音に対してはある程度雑音が残留してしまう。また、突発性雑音のように短時間で発生する雑音に対してもあまり雑音抑圧効果を望めない。そこで、前記音源分離処理により強調されたユーザ音声の認識に、例えば、特願２００３−３２０１８３号「背景雑音歪みの補正処理方法及びそれを用いた音声認識システム」で述べられている特徴補正法を組み込んだ音声認識エンジンを用いることで、残留雑音の影響を軽減する。なお本発明は、音声認識エンジンとして特願２００３−３２０１８３号に限定するものではなく、この他にも雑音に頑健な様々な手法を実装した音声認識エンジンを使用することが考えられる。

特願２００３−３２０１８３号で述べられている特徴補正法は、音声認識エンジンが予め音声認識のためにテンプレートモデルとして持っているＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ（ＨＭＭ）に基づいて雑音重畳音声の特徴量補正を行う。ＨＭＭは雑音のないクリーン音声から求めたＭｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ（ＭＦＣＣ）に基づいて学習されている。このため、特徴補正のために新たにパラメータを用意する必要がなく、既存の認識エンジンに比較的容易に特徴補正法を組み込むことができるという利点がある。この手法は雑音を定常成分と一時的に変化を示す非定常成分に分けて考え、定常成分に関しては発話直前の数フレームから雑音の定常成分を推定する。

ＨＭＭが持っている分布のコピーを生成し、推定した雑音の定常成分を加えることで定常雑音重畳音声の特徴量分布を生成する。観測された雑音重畳音声の特徴量の事後確率を、この定常雑音重畳音声の特徴量分布で評価することで、雑音の定常成分による歪を吸収する。しかし、この処理だけでは雑音の非定常成分による歪が考慮されていないので、雑音の非定常成分が存在する場合には、前記手段で求めた事後確率は正確ではなくなる。一方、特徴補正にＨＭＭを用いることで、特徴量時系列の時間的構造とそれに沿って求められる累積出力確率が利用可能となる。この累積出力確率から算出される重みを前述の事後確率に付与することにより、雑音の一時的に変化する非定常成分により劣化した事後確率の信頼度を改善することが出来る。

音声認識を行う場合、入力信号の中から発話区間の開始時点と終了時点を検出する必要がある。しかし、周囲雑音が存在する雑音環境下での発話区間検出は必ずしも容易ではない。特に、前記特徴補正を組み込んだ音声認識エンジンは、発話開始直前の数フレームから周囲雑音の定常的な特徴を推定するので、発話区間の開始時点がずれると認識精度が著しく劣化してしまう。一方、複数の音源が存在していても、その音源がある位置や音波の到来方向において、数（１８）や数（２９）の式で表される関数は鋭いピークを示す。従って、この情報を用いて発話区間検出を行っている本発明音声認識手段は、複数の周囲雑音が存在しても頑健に発話区間検出が行え、高い音声認識精度を保つことができる。

（手順６１）認識結果の受理：
手順６０の認識結果の信頼度を評価し、もし認識結果が受理されれば認識結果を図２のディスプレイ１４に表示して手続６２へ進む。もし認識結果が棄却された場合は認識できなかったことをディスプレイ１４に表示して手続５３へ戻り、以上の処理を繰り返す。

（手順６２）操作対象の制御：
手順５８で特定した操作対象に対して手続６０で認識した操作内容を、図２の制御手段となる赤外線学習リモコン１６とＬＡＮ１９を介して駆動制御手段２０へ適用し、次へ進む。

（手順６３）操作スイッチＯＦＦ：
操作スイッチのＯＦＦ状態を判断する。ＯＮ状態と判断された場合（Ｎｏの場合）には、手順５３へ戻り、ＯＦＦ状態と判断された場合（Ｙｅｓの場合）には、終了（ＳＴＯＰ）する。
（ＳＴＯＰ）
上記手順は、基本的にＣＰＵと記憶装置により適宜行うことができる。例えば、上記手順は、代表的に、以下の処理手段により実行することができる。
手順５３はマイクロフォンアレイ音声入力手段４３により、手順５４は推定手段４５および４６により、手順５５はユーザの発話検出手段４７により、手順５６および手順５８は音源分離処理手段４４と切替手段４８により、手順５７および手順５９は特徴補正処理手段４９により、手順６０は音声認識手段５０により実行することが可能である。

図４は本発明の音声認識インタフェースでユーザの発声位置を推定した結果である。
図４に示している全領域は、ユーザが正面や左右方向を向いて発声したときに、その口の位置が全て含まれるように定義した矩形型（幅２４ｃｍ前後方向１９ｃｍ）のユーザ発声領域を表している。このユーザ発声領域内を１ｃｍ間隔のグリッドに分割し、ユーザ発声がある場合はグリッド上の何れかの１つの交点として発声位置を推定する。
図４中、ユーザが正面を向いて音声コマンドを複数回発声したときに推定された発声位置をひし形のマークで表し、右を向いて発声したときの推定位置を三角形のマーク、そして左を向いて発声したときの推定位置を四角形のマークで表している。

手順５２と手順５８で用いる発声位置−操作対象マップとは、図４に示すグリッドの各交点に操作対象を対応付けたマップのことである。ユーザが発声するとグリッド上の１つの交点が発声位置として推定され、その交点に登録されている操作対象をその後の処理の操作対象として用いる。発声位置−操作対象マップ上の交点に操作対象が登録されていない場合は、認識処理を行わずに音声の入力待ちの状態に戻る。

例えば、リビングのソファーにマイクロフォンアレイを実装し、そのソファーから見た情報家電の置かれている方向を予め登録しておく。そして、その方向を向きながらユーザが発話すれば、その情報家電の操作を目的とした対システム発話であると容易に検出が可能になる。また、情報家電毎に音声認識の辞書と文法を用意し、それらを頭部方向の特定結果に基づき切り替えることで、音声コマンドの簡略化や音声認識の高速化およびロバスト化が可能になる。以上の機能が、カメラの視覚情報などを用いずに、音響信号だけで実現でき、開発コストを抑えることができる。

本発明の音声認識インタフェースを実装したソファーの概観図である。本発明の音声認識インタフェースの機能ブロック図である。本発明の音声認識インタフェースの処理フロー図である。本発明の音声認識インタフェースでユーザの発声位置を推定した結果である。本発明の音声認識手段のブロック構成図である。マイクロフォンアレイの機能説明図である。本発明による発話検出処理の機能説明図である。本発明のマイクロフォンアレイを用いた受音機能を説明する説明図である。

符号の説明

１ソファー
２ａ、２ｂマイクロフォンアレイ
３ａ、３ｂ肘掛
４ａ、４ｂディスプレイ
５座席シート
６背もたれ
１１増幅変換器
１２マイクロフォンアンプ
１３ＡＤＣ（アナログ・ディジタル変換器）
１４ディスプレイ
１５ＣＰＵ（中央演算処理装置）
１６赤外線学習リモートコントローラ
１７補助入力装置
１８記憶装置
１９ＬＡＮケーブル
４０音声認識処理手段
４１マイクロフォンアレイ処理部
４２音声認識処理部
４３マイクロフォンアレイ音声入力手段
４４音源分離処理手段
４５遠距離にある音源の音波到来方向推定手段
４６近距離にある音源の位置推定手段
４７ユーザの発話検出手段
４８切換手段
４９特徴補正処理手段
５０音声認識手段

Claims

全操作対象の辞書と文法の読込を行う手順ａ、発声位置−操作対象マップの読込を行う手順ｂ、マイクロフォンアレイから音声データの取り込みを行う手順ｃ、ユーザの発声位置と周囲雑音の到来方向推定を行う手順ｄ、ユーザの発声があると判断したとき、周囲雑音の抑圧と特徴補正を行うと同時に、頭部方向推定および操作対象の特定と操作対象に基づく辞書および文法の切替を行う手順ｅ、切り替えた操作対象の辞書と文法に基づいて求めた特徴補正の結果より音声認識処理を行う手順ｆ、音声認識結果を受け取ったときにはその結果により操作対象を遠隔制御し、これら以外の判断結果のときには手順ｃへ戻る手順からなることを特徴とする操作方法。
前記発声位置−操作対象マップを、マイクロフォンアレイを実装したソファーなどに座っているユーザが、その周囲に設置してある各操作対象を見ながら発声したときに推定される発声位置とその操作対象を対応付ける発声位置−操作対象マップとして予め作成し、
前記操作対象の特定の手順における前記操作対象を、ユーザがコマンド音声を発声したときに推定された発声位置を基準として発声位置−操作対象マップを照会し特定することを特徴とする請求項１記載の操作方法。
椅子に、少なくとも、一対のマイクロフォンアレイと、ＣＰＵおよび記憶装置と、リモートコントローラを設け、マイクロフォンアレイは椅子の座席の両側方にそれぞれ設け、ＣＰＵおよび記憶装置により請求項１又は２記載の操作方法を実行するようにしたことを特徴とする操作装置。
コンピュータに請求項１又は２記載の手順を実行させるためのプログラム。