JP6250297B2

JP6250297B2 - 音声入力装置、および画像表示装置

Info

Publication number: JP6250297B2
Application number: JP2013084503A
Authority: JP
Inventors: 徳井　圭; 圭徳井
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2013-04-15
Filing date: 2013-04-15
Publication date: 2017-12-20
Anticipated expiration: 2033-04-15
Also published as: JP2014207589A

Description

本発明は音声入力装置、および画像表示装置に関する技術であり、特に、音声情報を取得する複数のマイクロフォンと、画像情報を取得する撮像素子とを備え、取得される音声情報のノイズ低減技術に関する。

複数のマイクロフォンを備えるマイクアレイを使用して、特定方向からの音声情報を強調し、かつ、特定方向以外からの音声情報を抑制することにより、特定方向からの音声情報を取得する音声入力装置が開発されている。これは、複数のマイクロフォンから取得される音声情報から音源定位を行い、音源が存在する方向の音声情報を入力音声情報とすることで、特定方向の音声情報を入力音声情報として取得するものである。これにより、ユーザが発話した音声情報を取得することができる。

しかし、音声情報を取得する方向を音声情報のみにより制御するため、ユーザ以外の音源が存在する場合、ユーザ以外の音源の方向を特定方向として制御してしまうと、ユーザが意図しない音声情報が入力音声情報として取得されてしまう。

そこで、撮像素子で撮影された画像からユーザの方向を検出し、音声情報を取得する特定方向を検出したユーザの方向になるように制御し、ユーザの音声情報を取得する方法が提案されている。
例えば、特許文献１には、カメラにより撮影された撮影画像を用いて、発話者の体格や着座位置などにより変化する話者方向を特定し、マイクロフォンの指向性方向を適切に制御することで音声認識の精度を向上させる音声処理装置が開示されている。

特開２００９−２２５３７９号公報

しかしながら特許文献１のように、カメラにより撮影された撮影画像に基づいてマイクロフォンの指向性方向を制御する方法は、以下のような課題を有する。
ユーザが存在する方向と同一の方向に他の音源が存在している場合、ユーザからの音声情報と他の音源からの音声情報を分離して取得することができない。例えば、ユーザの背面に他の人物が存在する場合、撮像素子で撮影された画像からユーザの方向を特定するが、他の人物も同一方向にいるため、他の人物が発話した音声情報として取得してしまう。
また、複数のユーザが存在する場合、音声情報を取得する方向を適切に設定しないと、複数のユーザの音声情報がお互いにノイズとして含まれてしまい、各ユーザからの音声情報を取得することができない。

そこで本発明は、上記課題に鑑みてなされたものであり、ノイズである他の音源から発せられる音声情報を低減し、ユーザから発話される音声情報を取得する音声入力装置、および画像表示装置を提供する。

本発明の音声入力装置は、画像情報を取得する撮像素子と、音声情報を取得する複数のマイクロフォンを備え、撮像素子が取得した画像情報からユーザを検出するユーザ検出部と、マイクロフォンが取得した音声情報のうち、特定方向の音声情報を出力音声情報とするユーザ音声取得部とを備え、ユーザ音声取得部が、特定方向の基準とするマイクロフォンの位置を、ユーザ検出部で検出されるユーザの位置に基づいて変化させることを特徴とする。

さらに、本発明の音声入力装置は、ユーザ音声取得部が、ユーザ検出部で検出されたユーザの人数によって、特定方向の基準とするマイクロフォンの位置を変化させると好適である。

さらに、本発明の音声入力装置は、ユーザ音声取得部が、撮像素子を基準としたユーザの方向と、複数のマイクロフォンの中心を基準としたユーザの方向とがなす角より、撮像素子を基準としたユーザの方向と、特定方向とがなす角が大きくなるように、特定方向の基準を設定すると好適である。

さらに、本発明の音声入力装置は、ユーザ音声取得部が、撮像素子を基準としたユーザの方向と、複数のマイクロフォンの中心を基準としたユーザの方向とがなす角より、撮像素子を基準としたユーザの方向と、特定方向とがなす角が小さくなるように、特定方向の基準とするマイクロフォンの位置を設定すると好適である。

また、本発明の画像表示装置は、上記の音声入力装置と、音声入力装置が出力する音声情報を認識する音声認識部と、音声認識部で認識された結果に基づいて所定の制御を行う制御部を備えることを特徴とする。

本発明の音声入力装置によれば、マイクアレイで特定方向の音声情報を取得するときに、方向の基準となる基準マイクの位置を適切に設定することで、ノイズとなる他の音源から発せられる音声情報を低減することが可能となる。
また、本発明の画像表示装置では、ノイズとなる音声情報を低減できる音声入力装置を備えることにより、認識率の高い音声入力が可能な画像表示装置を実現することできる。

本発明の音声入力装置の構成例を示す図である。撮像素子により撮影された画像情報の例を示す図である。カメラ基準ユーザ角度を示す図である。カメラ基準ユーザ角度、カメラ基準ユーザ距離、およびマイクアレイ基準ユーザ角度の関係を示す図である。カメラ基準ユーザ角度とマイクアレイ基準ユーザ角度の例を示す図である。カメラ基準ユーザ角度とマイクアレイ基準ユーザ角度の他の例を示す図である。カメラ基準ユーザ角度とマイクアレイ基準ユーザ角度の更に他の例を示す図である。カメラ基準ユーザ角度とマイクアレイ基準ユーザ角度の更に他の例を示す図である。カメラ基準ユーザ角度とマイクアレイ基準ユーザ角度の更に他の例を示す図である。カメラ基準ユーザ角度とマイクアレイ基準ユーザ角度の更に他の例を示す図である。カメラ基準ユーザ角度とマイクアレイ基準ユーザ角度の更に他の例を示す図である。カメラ基準ユーザ角度とマイクアレイ基準ユーザ角度の更に他の例を示す図である。本発明の音声入力装置の他の構成例を示す図である。本発明の音声入力装置の更に他の構成例を示す図である。カメラ基準ユーザ角度とマイクアレイ基準ユーザ角度の更に他の例を示す図である。カメラ基準ユーザ角度とマイクアレイ基準ユーザ角度の更に他の例を示す図である。カメラ基準ユーザ角度とマイクアレイ基準ユーザ角度の更に他の例を示す図である。カメラ基準ユーザ角度とマイクアレイ基準ユーザ角度の更に他の例を示す図である。カメラ基準ユーザ角度とマイクアレイ基準ユーザ角度の更に他の例を示す図である。カメラ基準ユーザ角度とマイクアレイ基準ユーザ角度の更に他の例を示す図である。カメラ基準ユーザ角度とマイクアレイ基準ユーザ角度の更に他の例を示す図である。カメラ基準ユーザ角度とマイクアレイ基準ユーザ角度の更に他の例を示す図である。本発明の画像表示装置の構成例を示す図である。本発明の音声入力装置を備えた音声情報記録装置の構成例を示す図である。

以下、図面を使って本発明の実施の形態を詳細に説明する。なお、各図における表現は理解しやすいように誇張して記載しており、実際のものとは異なる場合がある。

（実施形態１）
図１は、本実施形態の構成を示す図である。本実施形態の音声入力装置１００は、撮像素子１０１、ユーザ検出部１０２、カメラ基準ユーザ角度算出部１０３、カメラ基準ユーザ距離算出部１０４、マイクアレイ基準ユーザ角度算出部１０５、マイクアレイ１０６、ユーザ音声取得部１０７を備える。
撮像素子１０１は画像情報を取得するもので、ＣＣＤ（Charge Coupled Device）やＣＭＯＳ（Complementary Metal Oxide Semiconductor）センサといった固体撮像素子とレンズなどにより構成される。

撮像素子１０１で取得した画像情報はユーザ検出部１０２に伝達され、画像情報内のユーザの情報が検出される。カメラ基準ユーザ角度算出部１０３、およびカメラ基準ユーザ距離算出部１０４は、ユーザ検出部１０２で検出されたユーザ情報に基づいて、撮像素子１０１で撮影された画像情報を基準としたユーザがいる方向（カメラ基準ユーザ方向）、および、ユーザまでの距離（カメラ基準ユーザ距離）を各々算出する。算出された情報はマイクアレイ基準ユーザ角度算出部１０５に伝達する。

マイクアレイ基準ユーザ角度算出部１０５では、伝達されたカメラ基準ユーザ方向とカメラ基準ユーザ距離とから、マイクアレイを基準としたユーザの方向（マイクアレイ基準ユーザ方向）を算出する。算出した情報はユーザ音声取得部１０７に伝達する。
マイクアレイ１０６は複数のマイクロフォンを備え、所定の間隔で配置される。例えば、一定間隔で一列に配置する。マイクロフォンは周囲の音声情報を取得し、各マイクロフォンで取得された音声情報はユーザ音声取得部１０７に伝達する。

ユーザ音声取得部１０７は、マイクアレイ基準ユーザ方向に基づいて、マイクアレイ１０６から伝達された入力音声情報から、ユーザ音声を取得して音声情報を出力する。
ここで、ユーザ検出部１０２、カメラ基準ユーザ角度算出部１０３、カメラ基準ユーザ距離算出部１０４、マイクアレイ基準ユーザ角度算出部１０５、およびユーザ音声取得部１０７は、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）によるソフトウエア処理、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）によるハードウエア処理によって実現することができる。

図２は、撮像素子で取得した撮影画像の画像情報から顔領域を検出する例を説明するための図である。本実施例では、ユーザ検出部１０２におけるユーザ検出を顔検出によって行う。顔検出は一般に使用されている方法を使用することができる。例えば、多数の顔画像から算出した標準的な顔画像を参照データとして保有しておき、その参照データとの相関値から顔を検出する方法がある。顔検出により、入力された撮影画像２００から、ユーザ２０１の顔検出領域２１０を検出する。これにより、撮影画像２００における顔検出領域２１０の位置や大きさを検出することができる。

カメラ基準ユーザ距離算出部１０４では、顔検出領域２１０の大きさに基づいてユーザ２０１までの距離を算出する。ユーザ２０１までの距離が遠ければ顔検出領域２１０は小さくなり、ユーザ２０１までの距離が近ければ顔検出領域２１０は大きくなる。ユーザ２０１までの距離は、顔検出領域２１０の大きさと距離との関係をＬＵＴ（ＬｏｏｋＵｐＴａｂｌｅ）などに記憶しておくことで算出することができる。

ここで、ユーザ検出部１０２において顔検出を行うときに、年齢や性別といった情報も算出しておき、顔検出領域２１０の大きさから算出される距離を補正すると良い。例えば、大人よりも子供の方が顔は小さいので、大人と子供で顔検出領域２１０が同じ大きさであった場合、子供の方が撮像素子１０１に近い位置にいることになる。また、距離の補正は、共通のＬＵＴを利用して、年齢などの情報により増減させる方法や、年齢などのグループごとにＬＵＴを保有するようにしても良い。

カメラ基準ユーザ角度算出部１０３では、顔検出領域２１０の位置に基づいてユーザ２０１の方向を示すカメラ基準ユーザ角度θを算出する。図３は、図２のシーンをユーザ上方から見たときを示す。ユーザ２０１の移動は、図３のような地面に対して水平方向に行われるため、本実施形態のカメラ基準ユーザ角度θは、撮像素子１０１の光軸であるカメラ基準軸１０からの水平方向への角度とする。カメラ基準ユーザ角度θは、撮像素子１０１の焦点距離、解像度などの既知の値と、ユーザの顔検出領域の位置から算出することが可能である。

図４は、カメラ基準ユーザ角度θ、およびカメラ基準ユーザ距離Ｌとマイクアレイ基準ユーザ角度φとの関係を示す図である。本実施形態のマイクアレイ１０６は、撮像素子１０１から水平方向にマイクロフォンが離間するように配置され、カメラ基準軸１０とマイクアレイ基準軸２０とが間隔Ｗだけ離間して配置している。カメラ基準軸１０は、撮像素子１０１の光軸に一致する軸であり、マイクアレイ基準軸２０は、マイクアレイ１０６のうちの特定のマイクロフォンを通りカメラ基準軸１０に平行な軸である。

カメラ基準ユーザ角度θは、カメラ基準ユーザ角度算出部１０３により算出されている。また、カメラ基準ユーザ距離Ｌは、カメラ基準ユーザ距離算出部１０４により算出される。カメラ基準ユーザ距離Ｌは、カメラ基準軸１０方向における撮像素子１０１からユーザ２０１までの距離であり、カメラ基準ユーザ距離算出部１０４が算出した撮像素子１０１からユーザ２０１までの距離と、カメラ基準ユーザ角度算出部１０３が算出したカメラ基準ユーザ角度θから算出することができる。

撮像素子１０１（カメラ基準軸１０）とマイクアレイ１０６（マイクアレイ基準軸２０）との距離である間隔Ｗは、音声入力装置が備えるものであり既知である。したがって、カメラ基準ユーザ角度θ、カメラ基準ユーザ距離Ｌ、間隔Ｗからマイクアレイ基準ユーザ角度φを算出することができる。
ここではカメラ基準軸１０からユーザ方向にカメラ基準ユーザ角度θだけ傾いた方向をカメラ基準ユーザ方向１１とし、マイクアレイ基準軸２０からユーザ方向にマイクアレイ基準ユーザ角度φだけ傾いた方向をマイクアレイ基準ユーザ方向２１とする。また、カメラ基準ユーザ方向１１とマイクアレイ基準ユーザ方向２１とのなす角度をαで表す。このときの角度αは、カメラ基準ユーザ方向１１とマイクアレイ基準ユーザ方向２１とのなす角度のうち、カメラ基準ユーザ方向１１とマイクアレイ基準ユーザ方向２１との交点、撮像素子１０１、及びマイクアレイ基準軸２０を設定したマイクロフォンの３点を頂点とする３角形の内角側の角度を示すものとする。

ユーザ音声取得部１０７は、マイクアレイ１０６から取得された入力音声情報から、マイクアレイ基準ユーザ角度算出部１０５で算出されたマイクアレイ基準ユーザ角度φに基づき、マイクアレイ基準ユーザ方向２１からの音声情報を取得する。このとき音声情報を取得する基準となるマイクロフォンは、マイクアレイ基準軸２０を設定したマイクロフォンとする。そしてマイクアレイ基準軸２０を設定したマイクロフォンを基準として、マイクアレイ基準ユーザ方向２１を特定方向とし、その特定方向からの音声情報を取得する。特定方向から音声情報を取得する角度範囲は、マイクアレイ基準ユーザ方向２１を含む一定の範囲を設定することができる。
特定の角度の音声取得は一般的な方法を使用することができ、例えば、マイクアレイ１０６の各マイクロフォンに到達する音声の時間差や音量差と、各マイクロフォンの音声取得特性と、各マイクロフォンの位置関係とから計算する。

時間差を使用する場合には、音源から遠いマイクロフォンは他のマイクロフォンに比べ遅延が大きくなる。また、音量を使用する場合には、音源から遠いマイクロフォンは他のマイクロフォンに比べ音量が小さくなる。このようにして、特定方向からの音声情報がどのようにマイクロフォンに到達するかを推定して音声情報を取得する。取得された音声情報は出力音声情報として出力する。

ここで、図４では、マイクアレイ基準軸２０をマイクアレイ１０６の一番右側のマイクロフォンに設定しているが、適切に設定することで、ユーザ以外が発した音声情報であるノイズを低減することができる。ノイズとなる音声情報は、画像情報から検出されたユーザの背後に存在するかもしれない他の人物から発生してしまう。画像情報は透視投影などで取得した２次元の画像情報であり、ユーザの背後の音源についての情報までは取得することができない。したがって、他の人物が発話した音声情報はノイズとなり、音声入力装置の出力音声情報で音声認識を行った場合誤動作をする可能性がある。

図５は、撮像素子１０１がマイクアレイ１０６の中央のマイクロフォン位置に配置され、マイクロフォンの配列方向において、マイクアレイ１０６の右端のマイクロフォンに近い位置にユーザが検出された場合を示す図である。マイクアレイ基準軸２０は、撮像素子１０１に対してユーザが検出された側と反対側で撮像素子１０１から最も遠いマイクロフォンに設定されている。一方、図６は、図５と同じ環境でマイクアレイ基準軸２０が、撮像素子１０１に対してユーザが検出された側で撮像素子１０１から最も遠いマイクロフォンに設定されている。

マイクアレイ１０６から特定方向の音声情報を取得する場合、マイクアレイ基準ユーザ方向２１を含む所定の角度幅の音声情報を取得する。例えば、マイクアレイ基準ユーザ角度φ±１０度の角度幅とする。このとき、撮像素子１０１で撮影された画像情報の周辺で歪が生じている場合などは、画像情報周辺ではユーザ検出部１０２でのユーザの位置検出精度が低下する可能性があるため、角度θの絶対値が大きくなるほど音声情報を取得する角度幅を大きくすると、ユーザの音声情報が取得できないなどの不具合を低減することができ好適である。
また、ユーザ検出部１０２でのユーザの顔領域が小さい場合、ユーザ位置の検出精度が低下する可能性があるため、カメラ基準ユーザ距離Ｌが大きくなるほど音声情報を取得する角度幅を大きくすると、ユーザの音声情報が取得できないなどの不具合を低減することができ好適である。

図５および図６において、撮像素子１０１によりユーザ２０１が撮影される範囲をユーザ撮影範囲１２とし、マイクアレイ１０６の特定のマイクロフォンを基準としてユーザ２０１による音声を取得できる範囲をユーザ音声取得範囲２２とする。ユーザ音声取得範囲２２は、マイクアレイ１０６による所定の角度幅の音声情報の取得範囲ではなく、ユーザ２０１による音声が取得できる範囲を示している。
撮像素子１０１からユーザ２０１の方向を見たとき、ユーザ２０１の背後領域にユーザ以外の人物が存在するかなどの情報は画像情報からは取得できない。つまり、ユーザ撮影範囲１２内でユーザ２０１の背後領域にいる他の人物は、画像情報からは認識することができない。

一方、マイクアレイ１０６のマイクアレイ基準軸２０を設定したマイクロフォンでは、そのマイクロフォンを基準としてユーザ２０１の方向からの音声を取得するが、このとき、ユーザ音声取得範囲２２内でユーザ２０１の背後に別の人物がいた場合、その別の人物からの音声も取得するため、ユーザ２０１からの音声情報と他の人物による音源からの音声情報を分離して取得することができずにノイズとなってしまう。

マイクアレイ１０６が音声情報を取得する特定方向の領域は、カメラ基準軸１０とマイクアレイ基準軸２０が異なると、撮像素子１０１からユーザ２０１の方向を見たときのユーザ領域とは異なる。つまり、マイクアレイ基準軸２０を設定する位置により、カメラから見たユーザ背後領域とマイクアレイ１０６による音声情報取得領域との重なりが変化する。
このときに、ユーザ撮影範囲１２内でユーザ２０１の背後の領域は、他のユーザが存在しているかもしれないため、この領域からは音声を取得しないようにすることが好ましい。このためには、ユーザ撮影範囲１２内のユーザ２０１の背後の領域と、ユーザ音声取得範囲２２とが重なる領域を最も小さくすることが好ましい。これにより、撮影画像からは認識できないユーザ２０１の背後のユーザからの音声取得をできる限り回避し、ノイズを低減させることができる。

図５と図６において、ユーザ撮影範囲１２内のユーザ２０１の背後の領域と、マイクアレイ基準軸２０を設定したマイクロフォンによるユーザ音声取得範囲２２との重なり領域（図中斜線で示す領域）Ｓの大きさは、図５よりも図６の場合の方が狭くなっている。これは、マイクアレイ基準軸２０の設定により、カメラ基準ユーザ方向１１とマイクアレイ基準ユーザ方向２１とがなす角度αが変化するためである。図５に比べ図６では、カメラ基準ユーザ方向１１とマイクアレイ基準ユーザ方向２１とがなす角度αが大きくなっており、図６の方が、撮影画像におけるユーザ背後領域からの音声取得領域（重なり領域Ｓ）が狭くなっている。これにより、ユーザ背後領域に他の人物が存在しても、音声情報として取得してしまう可能性を低減することができる。

撮像素子１０１とマイクアレイ１０６との配置が変化しても同様に効果を得ることができる。図７から図１２は、撮像素子１０１の片側にマイクロフォンが配置されている場合を示した図である。
図７および図８は、マイクロフォンの配列方向において撮像素子１０１とマイクアレイ１０６との間にユーザ２０１が検出された場合で、撮像素子１０１、検出されたユーザ２０１、マイクアレイ１０６の順で位置している。

図７では、マイクアレイ基準軸２０が撮像素子１０１に最も近いマイクロフォンに設定されており、図８では、マイクアレイ基準軸２０が撮像素子１０１から最も遠いマイクロフォンに設定されている。図７におけるカメラ基準ユーザ方向１１とマイクアレイ基準ユーザ方向２１とがなす角αよりも、図８におけるカメラ基準ユーザ方向１１とマイクアレイ基準ユーザ方向２１とがなす角αの方が大きくなっており、ユーザ撮影範囲１２内のユーザ２０１の背後の領域と、マイクアレイ基準軸２０を設定したマイクロフォンによるユーザ音声取得範囲２２との重なり領域（図中斜線で示す領域）Ｓは、図８の方が小さくなっている。これにより、ユーザの背後領域に存在するかもしれない他の人物からの音声情報を、ノイズとして取得することを低減できる。

撮像素子１０１とマイクアレイ１０６の配置が同様の状態で、ユーザの位置が変化しても同様の効果が得られる。図９および図１０は、マイクロフォンの配列方向において、検出されたユーザ２０１、撮像素子１０１、マイクアレイ１０６の順で位置している。図９ではマイクアレイ基準軸２０が撮像素子１０１に最も近いマイクロフォンに設定されており、図１０ではマイクアレイ基準軸２０が撮像素子１０１から最も遠いマイクロフォンに設定されている。

図９におけるカメラ基準ユーザ方向１１とマイクアレイ基準ユーザ方向２１とがなす角αよりも、図１０におけるカメラ基準ユーザ方向１１とマイクアレイ基準ユーザ方向２１とがなす角αの方が大きくなっており、ユーザ撮影範囲１２内のユーザ２０１の背後の領域と、マイクアレイ基準軸２０を設定したマイクロフォンによるユーザ音声取得範囲２２との重なり領域（図中斜線で示す領域）Ｓは、図１０の方が小さくなっている。これにより、ユーザの背後領域に存在するかもしれない他の人物からの音声情報を、ノイズとして取得することを低減できる。

また、図１１および図１２は、マイクロフォンの配列方向において、撮像素子１０１、マイクアレイ１０６、検出されたユーザ２０１の順で位置している。図１１ではマイクアレイ基準軸２０が撮像素子１０１に最も近いマイクロフォンに設定されており、図１２ではマイクアレイ基準軸２０が撮像素子１０１から最も遠いマイクロフォンに設定されている。図１１におけるカメラ基準ユーザ方向１１とマイクアレイ基準ユーザ方向２１とがなす角αよりも、図１２におけるカメラ基準ユーザ方向１１とマイクアレイ基準ユーザ方向２１とがなす角αの方が大きくなっており、ユーザ撮影範囲１２内のユーザ２０１の背後の領域と、マイクアレイ基準軸２０を設定したマイクロフォンによるユーザ音声取得範囲２２との重なり領域（図中斜線で示す領域）Ｓは、図１２の方が小さくなっている。これにより、ユーザの背後領域に存在するかもしれない他の人物からの音声情報を、ノイズとして取得することを低減できる。

以上で説明したように、カメラ基準ユーザ方向１１とマイクアレイ基準ユーザ方向２１とがなす角αが、大きくなるようにマイクアレイ基準軸２０を設定することで、ユーザの背後領域に存在するかもしれない他の人物からの音声情報を、ノイズとして取得することを低減できる。
ここでは初期設定としてマイクアレイ１０６の中央のマイクロフォンにマイクアレイ基準軸２０を設定しておき、初期設定よりカメラ基準ユーザ方向１１とマイクアレイ基準ユーザ方向２１とがなす角αが大きくなるようにマイクアレイ基準軸２０を設定することでノイズの低減を実現できる。

また、本実施形態では実在するマイクロフォンにマイクアレイ基準軸２０を設定するように説明をしたが、仮想的なマイクロフォンにマイクアレイ基準軸２０を設定しても良い。例えば、マイクロフォンＡとマイクロフォンＢの間に仮想マイクロフォンが存在すると仮定し、各マイクロフォンで取得された複数の音声情報から、仮想マイクロフォンにおける特定方向からの音声情報算出結果を推定する。これは、各マイクロフォンからの相対的な距離が分かっているため、音声情報の遅延量や音量などを推定することで実現できる。

ここで、ユーザ２０１の位置のみでマイクアレイ基準軸２０を再設定すると、ユーザ２０１が動きながら発話する場合、ユーザ２０１が発話した単語の途中で音声情報の取得結果が変化してしまい、音声認識などが正常に動作しない可能性がある。そこで、取得される音声情報が０に近づいたとき、すなわち、ユーザ２０１の発話が無い状態のときに、マイクアレイ基準軸２０を再設定することで、発話した音声情報に切れ目が生じていない音声情報を取得することが可能になり好適である。

上述した実施形態では、検出された顔の大きさからユーザまでの距離を算出する方法を説明したが、他の方法で距離を算出しても同様の効果を得ることができる。例えば、図１３のように、撮像素子１０８と距離算出部１０９とを備える方法が有る。撮像素子１０８は撮像素子１０１と同様に、固体撮像素子とレンズなどを備える。距離算出部１０９は、撮像素子１０１と撮像素子１０８とで取得される２つの画像情報の視差を算出し、ユーザ検出部と同様に各種のハードウエアやソフトウエアによって処理が実現される。

視差は一般に使用される方法が適用でき、例えば、２つの画像のブロックマッチングにより実現でき、撮像素子１０１で取得される画像情報に基準探索窓を設定し、撮像素子１０８で取得される画像情報に参照探索窓を設定し、参照探索窓を移動していく。ブロックマッチングは、ＳＡＤ（Sum of Absolute Difference）やＳＳＤ（Sum of Squared Difference）などにより類似度または相違度を評価することで行われる。算出された視差Ｄから距離を算出することができ、距離ＺはＺ＝Ｂ×ｆ／Ｄにより算出される。ここで、Ｂは２つの撮像素子間の距離である基線長であり、ｆは撮像素子の焦点距離である。

距離算出部１０９で算出された視差情報は、カメラ基準ユーザ距離算出部１０４に伝達され、ユーザ検出部１０２で検出されたユーザの画像内の位置に対応した距離情報を取得する。このようにして、２つの撮像素子から距離情報を算出しても良い。また、上記では画像情報全体の視差情報を算出する方法を説明したが、ユーザ検出部１０２で検出されたユーザの位置に基づいて、ユーザの顔領域に対してブロックマッチングを行うと、処理量を削減でき好適である。

また、図１４のように測距素子１１０を備え、測距素子１１０から距離情報を取得しても同様の効果を得ることができる。測距素子１１０には一般に使用される測距素子が適用でき、例えば、赤外線を照射して反射されてくるまでの時間により距離を計測するＴＯＦ（Time Of Flight）センサなどがある。また、照射する赤外線を２次元のパターンとし、その形状の変化から距離を取得するセンサもある。

測距素子１１０で取得された距離情報はカメラ基準ユーザ距離算出部１０４に伝達され、ユーザ検出部１０２で検出されたユーザの位置に対応した距離情報を取得してユーザまでの距離とする。以上の方法により、測距素子１１０から距離情報を取得しても同様の効果を得ることができる。

（実施形態２）
実施形態１では、ユーザ検出部１０２で検出されるユーザ２０１が１名である場合であったが、本実施形態２では複数人の人物が検出された場合の実施形態を説明する。本実施形態における音声入力装置１００の構成は、実施形態１と同様で図１、図１３、図１４に示す構成を有するものであり、共通する各部の詳細な説明は省略する。

図１５は、ユーザが第１のユーザ２０１および第２のユーザ２０２の２名であった場合で、ユーザ検出部１０２で検出されるユーザは第１のユーザ２０１および第２のユーザ２０２の２名となり、検出されるユーザの情報も第１のユーザ２０１および第２のユーザ２０２の２名分となる。
図１５では、検出された第１のユーザ２０１に対してマイクアレイ基準軸２０を撮像素子１０１から最も遠いマイクロフォンに設定している。このとき、カメラ基準ユーザ方向１１とマイクアレイ基準ユーザ方向２１とがなす角αが大きくなるようにマイクアレイ基準軸２０を設定しているが、音声情報を取得する領域に第２のユーザ２０２が存在するため、第１のユーザ２０１から取得したい音声情報に、第２のユーザ２０２から発せられた音声情報が含まれてしまう可能性がある。

この場合、第２のユーザ２０２から発せられた音声情報はノイズとなる。同様に、カメラ基準ユーザ方向１１とマイクアレイ基準ユーザ方向２１とがなす角αが大きくなるようにマイクアレイ基準軸２０を設定して、第２のユーザ２０２の音声情報を取得しようとすると、第１のユーザ２０１から発せられた音声情報が含まれてしまう可能性がある。

図１６では、ユーザ検出部１０２で検出された第２のユーザ２０２の位置が図１５と異なっている。同様に、カメラ基準ユーザ方向１１とマイクアレイ基準ユーザ方向２１とがなす角αが大きくなるようにマイクアレイ基準軸２０を設定すると、第１のユーザ２０１から取得する音声情報には第２のユーザ２０２が発した音声情報が含まれる可能性があり、第２のユーザ２０２から取得する音声情報には第１のユーザ２０１が発した音声情報が含まれる可能性がある。したがって、所望とするユーザからの音声情報にノイズが含まれる可能性がある。

そこで、カメラ基準ユーザ方向１１とマイクアレイ基準ユーザ方向２１とがなす角αが小さくなるように、マイクアレイ基準軸２０を設定して取得する音声情報のノイズを低減する。図１７は図１５と同じようにユーザ検出部１０２で第１のユーザ２０１および第２のユーザ２０２が検出された場合を示す。マイクアレイ基準軸２０は、カメラ基準ユーザ方向１１とマイクアレイ基準ユーザ方向２１とがなす角αが小さくなるように、撮像素子１０１に近いマイクロフォンに設定されている。カメラ基準ユーザ方向１１とマイクアレイ基準ユーザ方向２１とがなす角αが小さくなるように、マイクアレイ基準軸２０を設定することにより、第１のユーザ２０１の音声情報を取得する領域から第２のユーザ２０２が離れるため、第１のユーザ２０１から取得される音声情報から第２のユーザ２０２で発せられる音声情報を低減することができる。すなわち、第１のユーザ２０１から取得される音声情報のノイズを低減することが可能となる。

図１８は図１６と同じようにユーザ検出部１０２で第１のユーザ２０１および第２のユーザ２０２が検出された場合を示す。マイクアレイ基準軸２０は、カメラ基準ユーザ方向１１とマイクアレイ基準ユーザ方向２１とがなす角αが小さくなるように、撮像素子１０１に近いマイクロフォンに設定されている。このときも図１７の場合と同様に、カメラ基準ユーザ方向１１とマイクアレイ基準ユーザ方向２１とがなす角αが小さくなるように、マイクアレイ基準軸２０を設定することにより、第１のユーザ２０１の音声情報を取得する領域から第２のユーザ２０２が離れるため、第１のユーザ２０１から取得される音声情報における、第２のユーザ２０２で発せられる音声情報を低減することができる。すなわち、第１のユーザ２０１から取得される音声情報のノイズを低減することが可能となる。

また、図１７および図１８において、第２のユーザ２０２に対する音声情報の取得も可能で、各々図１９と図２０に対応する。第２のユーザ２０２の音声情報を取得するときのマイクアレイ基準軸２０は、第１のユーザ２０１の音声情報を取得するときのマイクアレイ基準軸２０と同じにしている。このとき、カメラ基準ユーザ方向１１とマイクアレイ基準ユーザ方向２１とがなす角αが小さくなるように、マイクアレイ基準軸２０は設定されており、第２のユーザ２０２から取得される音声情報における、第１のユーザ２０１で発せられる音声情報を低減することができる。すなわち、第２のユーザ２０２から取得される音声情報のノイズを低減することが可能となる。

ここで、音声情報を取得する方向は、マイクアレイ基準ユーザ方向２１に対して一定の角度幅を設定することができるため、図２１のように、マイクロフォンにより音声情報を取得する音声取得範囲２３が重複する可能性がある。図２１に示す音声取得角度範囲２３は、これまで示したようなマイクロフォンによりユーザの音声情が取得されるユーザ音声取得範囲２２ではなく、マイクアレイ１０６により取得する特定方向の音声情報の取得角度範囲を示すものであり、ユーザの大きさに関わりなく、例えばマイクアレイ基準ユーザ角度φ±１０度の範囲で設定されるものである。
音声取得角度範囲２３が重複すると、第１のユーザ２０１から取得される音声情報には第２のユーザ２０２が発した音声情報が含まれてしまい、第２のユーザ２０２から取得される音声情報には第１のユーザ２０１が発した音声情報が含まれてしまう可能性がある。

そこで、第１のユーザ２０１の音声取得角度範囲２３と第２のユーザ２０２の音声取得角度範囲２３とが重複しないように、音声情報を取得する範囲を変化させる。図２２に示すように、第１のユーザ２０１と第２のユーザ２０２の間に共通の角度範囲の境界Ｂを設定する。これにより、第１のユーザ２０１および第２のユーザ２０２から各々ノイズを低減した音声情報を取得できるため好適である。

音声情報を取得する音声取得角度範囲２３の制御を行う場合、マイクアレイ基準ユーザ方向２１に対する角度幅は変化させないで、マイクアレイ基準ユーザ方向２１を音声取得角度範囲２３が重複しないように補正する方法がある。また、マイクアレイ基準ユーザ方向２１を変化させないで、マイクアレイ基準ユーザ方向２１に対しての角度幅を音声取得角度範囲２３が重複しないように補正する方法でも良い。このとき、角度幅の補正は片方でも両方でも良いが、音声情報の取得角度範囲が極端に小さくならないようにするため、重複する側の片方を補正すると好適である。

以上により、カメラ基準ユーザ方向１１とマイクアレイ基準ユーザ方向２１とがなす角が小さくなるように、マイクアレイ基準軸２０を設定することにより、第１のユーザ２０１の音声情報を取得する領域から第２のユーザ２０２が離れるため、第１のユーザ２０１から取得される音声情報における、第２のユーザ２０２で発せられる音声情報を低減することが可能となる。

上記の実施形態では、ユーザ検出部１０２で検出されるユーザの人数が２名の場合で説明したが、本発明に係る実施形態は、３名以上の場合にも適用することが可能である。また、ユーザ検出部１０２で検出されるユーザの人数が変化して、検出されたユーザが２名から１名になった場合には、実施形態１で説明した制御にすることで、シーンに合わせてノイズを低減した音声情報を取得できる。すなわち、ユーザ検出部１０２で検出されるユーザに基づいて、マイクアレイ基準軸２０の設定方法を切り換えると、シーンに合わせてノイズを低減した音声情報を取得できるため好適である。

以上で説明したように、複数のユーザが検出されたときに、カメラ基準ユーザ方向１１とマイクアレイ基準ユーザ方向２１とがなす角αが、小さくなるようにマイクアレイ基準軸２０を設定することで、複数のユーザの音声情報を取得することによるノイズを低減できる。
ここでは初期設定としてマイクアレイ１０６の中央のマイクロフォンにマイクアレイ基準軸２０を設定しておき、初期設定よりカメラ基準ユーザ方向１１とマイクアレイ基準ユーザ方向２１とがなす角αが小さくなるようにマイクアレイ基準軸２０を設定することでノイズの低減を実現できる。

（実施形態３）
実施形態３は、実施形態１および実施形態２で説明した音声入力装置を備える画像表示装置である。本実施形態における音声入力装置の構成は、実施形態１および実施形態２と同様であるため、共通する各部の詳細な説明は省略する。

図２３は本実施形態の構成を示す図である。画像表示装置３００は、音声入力装置１００、音声認識部３０１、制御部３０２、画像表示部３０３、音声出力部３０４を備える。音声認識部３０１は、音声入力装置１００から出力された音声情報を認識する。音声情報を認識する方法は一般的な方法を使用することができる。例えば、単語の音声データを保有しておき、そのデータと入力された音声情報を比較して、その類似度により認識を行う方法がある。

音声認識部３０１で認識された音声認識結果は制御部３０２に伝達される。制御部３０２では音声認識結果に基づいて画像表示部３０３や音声出力部３０４などを制御する。ここで、音声認識部３０１や制御部３０２は、ＣＰＵでのソフトウエア処理、ＡＳＩＣでのハードウエア処理により実現できる。また、画像表示部３０３は、画像情報が表示可能な表示デバイスなどから構成され、例えば、液晶パネルとバックライト、有機ＥＬ（Electro Luminescence）パネルなどである。音声出力部３０４はスピーカなどにより構成されている。

制御部３０２による画像表示部３０３の制御としては、例えば、テレビ放送のチャンネル変更、画面の明るさ増減、などがある。音声入力装置１００からの音声認識結果が「明るく」であれば、画像表示部３０３の画面の明るさを高くし、音声認識結果が「暗く」であれば、画像表示部３０３の画面の明るさを低くする。また、音声出力部３０４の制御としては、例えば、テレビ放送の音量の増減がある。音声入力装置１００からの音声認識結果が「大きく」であれば、音声出力部３０４の音量を大きくし、音声認識結果が「低く」であれば、音声出力部３０４の音量を小さくする。

ここで、音声入力装置１００から出力される音声情報にノイズが多く含まれていると、音声認識部３０１での認識率の低下や誤認識が発生してしまう。つまり、制御部３０２が動作しなかったり、意図しない動作したりすることになる。したがって、実施形態１や実施形態２で説明したノイズを低減した音声情報が取得できる音声入力装置１００を備えることにより、音声入力操作による認識率を高め、誤動作を低減することが可能な画像表示装置２００を実現することが可能になる。

以上の説明では、制御部３０２による制御は画像表示部３０３と音声出力部３０４とで説明したが、他の機能を制御することも可能である。例えば、電源のＯＦＦ、インターネットへの接続、選択肢の選択および決定などがある。さらに、画像表示装置３００の制御だけでなく、画像表示装置３００に接続される機器などの制御も可能で、例えば、録画機への録画、エアコンの温度設定、照明器具のＯＮ／ＯＦＦなどがある。

ここで、上記で説明した音声入力装置１００を使用した音声情報による制御は、複数のユーザにより同時に操作しようとすると、相反する制御が同時に発生する場合がある。例えば、異なる放送番組への切り替え、音量の増加と減少などである。そこで、音声入力装置１００のユーザ検出部１０２において、操作の権利を特定のユーザのみに与えるようにすると好適である。例えば、画像表示装置３００からの距離、撮像素子で撮影されている時間などの評価基準を設定して、その基準に合わせて操作可能なユーザを決定する。

また、ジェスチャなどと組み合わせると、操作可能なユーザの切り換えが容易となり好適である。例えば、ユーザの顔の下の領域に手の平を配置するジェスチャを最も先に行ったユーザを音声による操作が可能なユーザとする。さらに、上記ジェスチャを行っている間だけ音声入力が可能としておくことで、意図しない音声情報が入力されて誤動作が発生しないようにできるため好適である。このとき、音声による操作が可能であることをユーザに通知するように、ＬＥＤ（Light Emitting Diode）を点灯したり、画像表示部に音声入力可能であることを表示したりすると、ユーザのジェスチャが認識されていることが確認できるため好適である。

（実施形態４）
実施形態４は、実施形態１および実施形態２で説明した音声入力装置を備える音声情報記録装置である。本実施形態における音声入力装置の構成は、実施形態１および実施形態２と同様であるため、共通する各部の詳細な説明は省略する。
図２４は本実施形態の構成を示す図である。音声情報記録装置４００は、音声入力装置１００、音声認識部３０１、記録部４０１を備える。本実施形態の音声入力装置１００は、ユーザ検出部１０２において、検出されたユーザが誰であるかの認識を行う。これは、人物画像と人物名とをあらかじめ登録しておくことで実現できる。音声入力装置１００は、ユーザ情報と音声情報とを関連付けて音声認識部３０１に伝達する。音声認識結果はテキストデータとしてユーザ情報と関連付けて記録部４０１に伝達される。

記録部４０１では、音声認識結果とユーザ情報とをデータとして記録する。これにより、発話したユーザの情報と、発話内容とを関連付けて記録できるようになる。ここで、音声入力装置１００は、ノイズを低減した音声情報を取得できるため、音声認識部３０１での認識率が向上し、ユーザの発話内容を精度良く記録することが可能になる。例えば、ユーザ情報と音声認識結果とを合わせて記録することにより、会議で誰がどんな発言をしたかなど、自動で会議の議事録を作成することも可能となる。

以上説明したように、本発明の音声入力装置は、画像情報を取得する撮像素子と、音声情報を取得する複数のマイクロフォンとを備えた音声入力装置であって、撮像素子が取得した画像情報からユーザを検出するユーザ検出部と、マイクロフォンが取得した音声情報から音源定位を行い、音源が存在する特定方向から取得した音声情報を出力音声情報とするユーザ音声取得部とを備え、ユーザ音声取得部は、特定方向の基準とするマイクロフォンの位置を、ユーザ検出部で検出されるユーザの位置に基づいて変化させる。これにより、ノイズである他の音源から発せられる音声情報を低減し、ユーザから発話される音声情報を取得することができる。

また、本発明の音声入力装置は、ユーザ音声取得部が、撮像素子を基準としたユーザの方向と、複数のマイクロフォンの中心を基準としたユーザの方向とがなす角より、撮像素子を基準としたユーザの方向と、特定方向とがなす角が大きくなるように、特定方向の基準とするマイクロフォンの位置を設定する。これにより、ユーザ背後領域に他の人物が存在しても、音声情報として取得してしまう可能性を低減することができる。

また、本発明の音声入力装置は、ユーザ音声取得部が、ユーザ検出部で検出されたユーザの人数によって、特定方向の基準とするマイクロフォンの位置を変化させる。これによりユーザの人数に応じて最適な音声情報取得制御を行うことができる。

また、本発明の音声入力装置は、ユーザ音声取得部が、ユーザ検出部で複数のユーザが検出された場合、撮像素子を基準としたユーザの方向と、複数のマイクロフォンの中心を基準としたユーザの方向とがなす角より、撮像素子を基準としたユーザの方向と、特定方向とがなす角が小さくなるように、特定方向の基準とするマイクロフォンの位置を設定する。これにより、複数のユーザが検出されたときにユーザ背後領域に他の人物が存在しても、音声情報として取得してしまう可能性を低減することができる。

また、本発明の画像表示装置は、上記の音声入力装置と、音声入力装置が出力する音声情報を認識する音声認識部と、音声認識部で認識された結果に基づいて所定の制御を行う制御部と、を備える。これにより、ノイズである他の音源からの発せられる音声情報を低減し、ユーザから発話される音声情報を取得し、これに基づいて制御を行う画像表示装置が得られる。

また、本発明の音声入力装置を備える音声情報記録装置は、上記の音声入力装置と、音声入力装置が出力する音声情報を認識する音声認識部とを備え、音声入力装置のユーザ検出部で検出されたユーザ情報と、音声入力装置の音声認識部で認識された結果を関連付けて記録する記録部を備える。これにより、ノイズである他の音源からの発せられる音声情報を低減し、ユーザから発話される音声情報を取得し、音声情報により認識された結果とユーザ情報とを関連付けて記憶できる音声情報記録装置が得られる。

１０…カメラ基準軸、１１…カメラ基準ユーザ方向、１２…ユーザ撮影範囲、２０…マイクアレイ基準軸、２１…マイクアレイ基準ユーザ方向、２２…ユーザ音声取得範囲、２３…音声取得角度範囲、１００…音声入力装置、１０１…撮像素子、１０２…ユーザ検出部、１０３…カメラ基準ユーザ角度算出部、１０４…カメラ基準ユーザ距離算出部、１０５…マイクアレイ基準ユーザ角度算出部、１０６…マイクアレイ、１０７…ユーザ音声取得部、１０８…撮像素子、１０９…距離算出部、１１０…測距素子、２００…撮影画像、２０１…ユーザ、２０２…ユーザ、２１０…顔検出領域、３００…画像表示装置、３０１…音声認識部、３０２…制御部、３０３…画像表示部、３０４…音声出力部、４０１…記録部。

Claims

画像情報を取得する撮像素子と、音声情報を取得する複数のマイクロフォンとを備えた音声入力装置であって、
前記撮像素子が取得した画像情報からユーザを検出するユーザ検出部と、
ユーザの方向の音声情報を取得するユーザ音声取得部とを備え、
前記ユーザ音声取得部は、検出されたユーザの位置に基づいて音声情報を取得する際の基準となるマイクロフォンを設定し、
前記ユーザ音声取得部は、任意の、検出されたユーザの位置に対して、前記撮像素子を基準としたユーザの方向と、前記複数のマイクロフォンのうちの中央のマイクロフォンを基準としたユーザの方向とがなす角より、前記撮像素子を基準としたユーザの方向と、前記基準となるマイクロフォンを基準としたユーザの方向とがなす角が大きくなるように、前記基準となるマイクロフォンを設定することを特徴とする音声入力装置。
画像情報を取得する撮像素子と、音声情報を取得する複数のマイクロフォンとを備えた音声入力装置であって、
前記撮像素子が取得した画像情報からユーザを検出するユーザ検出部と、
ユーザの方向の音声情報を取得するユーザ音声取得部とを備え、
前記ユーザ音声取得部は、検出されたユーザの位置に基づいて音声情報を取得する際の基準となるマイクロフォンを設定し、
前記ユーザ音声取得部は、任意の、検出されたユーザの位置に対して、前記撮像素子を基準としたユーザの方向と、前記複数のマイクロフォンのうちの中央のマイクロフォンを基準としたユーザの方向とがなす角より、前記撮像素子を基準としたユーザの方向と、前記基準となるマイクロフォンを基準としたユーザの方向とがなす角が小さくなるように、前記基準となるマイクロフォンを設定することを特徴とする音声入力装置。
画像情報を取得する撮像素子と、音声情報を取得する複数のマイクロフォンとを備えた音声入力装置であって、
前記撮像素子が取得した画像情報からユーザを検出するユーザ検出部と、
ユーザの方向の音声情報を取得するユーザ音声取得部とを備え、
前記ユーザ音声取得部は、検出されたユーザの位置に基づいて音声情報を取得する際の基準となるマイクロフォンを設定し、
前記ユーザ音声取得部は、
（ｉ）任意の、検出されたユーザの位置に対して、前記撮像素子を基準としたユーザの方向と、前記複数のマイクロフォンのうちの中央のマイクロフォンを基準としたユーザの方向とがなす角より、前記撮像素子を基準としたユーザの方向と、前記基準となるマイクロフォンを基準としたユーザの方向とがなす角が大きくなるように、前記基準となるマイクロフォンを設定する第一のモードと、
（ｉｉ）任意の、検出されたユーザの位置に対して、前記撮像素子を基準としたユーザの方向と、前記複数のマイクロフォンのうちの中央のマイクロフォンを基準としたユーザの方向とがなす角より、前記撮像素子を基準としたユーザの方向と、前記基準となるマイクロフォンを基準としたユーザの方向とがなす角が小さくなるように、前記基準となるマイクロフォンを設定する第二のモードと、
を切り替える、ことを特徴とする音声入力装置。
前記ユーザ音声取得部は、前記第一のモードと前記第二のモードとを、前記ユーザ検出部で検出されたユーザの人数に基づいて切り換えることを特徴とする、請求項３に記載の音声入力装置。
請求項１〜４のいずれか１項に記載の音声入力装置と、該音声入力装置が出力する音声情報を認識する音声認識部と、前記音声認識部で認識された結果に基づいて出力音声の制御を行う制御部と、前記音声情報に関連付けられた画像を表示する表示部と、を備えることを特徴とする画像表示装置。