JP5318258B1

JP5318258B1 - 集音装置

Info

Publication number: JP5318258B1
Application number: JP2012149561A
Authority: JP
Inventors: 豪田崎
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2012-07-03
Filing date: 2012-07-03
Publication date: 2013-10-16
Anticipated expiration: 2032-07-03
Also published as: JP2014010438A

Abstract

【課題】音源定位を高精度に行う。
【解決手段】集音装置１０は、検出部１４と、定位部１６と、駆動部１８と、第１算出部２６と、第１選択部２８と、第１駆動制御部３０と、を備える。検出部１４は、人位置を検出する。定位部１６は、音源位置を特定する。駆動部１８は、定位部１６の集音方向を変更する。第１算出部２６は、検出された人位置を基準方向とし、該基準方向に対する予め定めた複数の学習対象方向の各々を集音方向とした定位部１６の定位精度を算出する。第１選択部２８は、算出された定位精度の内、予め定めた閾値以上の定位精度の内の１つに対応する学習対象方向を選択する。第１駆動制御部３０は、定位部１６の集音方向が、選択された学習対象方向となるように、駆動部１８を制御する。
【選択図】図２

Description

本発明の実施形態は、集音装置に関する。

音情報から音源方向を特定する音源定位装置が知られている。また、音源定位装置に、物体を検知するセンサを別途設け、センサによる検知結果と音声の検出結果に基づいて、音源が存在する方向を推定する装置も開示されている。

特開２００８−１４５５７４号公報

しかしながら、音源定位を行う音源定位部における、集音方向毎の定位精度は一律ではなく、精度よく音源定位を行うことは困難であった。

本発明が解決しようとする課題は、音源定位を高精度に行うことができる、集音装置を提供することである。

実施形態の集音装置は、検出部と、定位部と、駆動部と、第１算出部と、第１選択部と、第１駆動制御部と、を備える。検出部は、人位置を検出する。定位部は、音源位置を特定する。駆動部は、前記定位部の集音方向を変更する。第１算出部は、検出された前記人位置を基準方向とし、該基準方向に対する予め定めた複数の学習対象方向の各々を集音方向とした前記定位部の定位精度を算出する。第１選択部は、算出された前記定位精度の内、予め定めた閾値以上の定位精度の内の１つに対応する前記学習対象方向を選択する。第１駆動制御部は、前記定位部の集音方向が、選択された前記学習対象方向となるように、前記駆動部を制御する。

集音装置の外観を示す模式図。集音装置を示す機能ブロック図。学習テーブルのデータ構造を示す模式図。集音処理の手順を示すフローチャート。精度算出処理の手順を示すフローチャート。定位精度の更新処理の手順を示すフローチャート。集音装置のハードウェア構成例を示すブロック図。

以下に添付図面を参照して、情報処理装置、情報処理端末、情報処理プログラム、及び情報処理方法の一の実施形態を詳細に説明する。

（実施の形態１）
図１は、集音装置１０の外観を示す模式図である。

図１に示すように、集音装置１０は、定位部１６と、検出部１４と、本体部１３と、を備える。

定位部１６は、音源位置を特定する。検出部１４は、人位置を検出する。本体部１３は、後述する各種処理を実行するための制御部（図１では図示省略）等を含む。

定位部１６及び検出部１４は、筐体３６に支持されている。筐体３６には、駆動部１８が設けられている。駆動部１８は、重力方向を回転軸として筐体３６を回転させる（図１中、矢印Ｐ方向参照）。このため、定位部１６及び検出部１４は、重力方向を回転軸として回転可能に支持されている。

なお、本実施の形態では、定位部１６及び検出部１４は、同じ筐体３６に支持されており、駆動部１８による筐体３６の回転に伴って重力方向を回転軸として同方向に回転される場合を説明する。しかし、定位部１６及び検出部１４は、異なる回転軸及び異なる回転角度で回転可能に支持されていてもよい。

図２は、集音装置１０を示す機能ブロック図である。

上述のように、検出部１４は、人位置を検出する。検出部１４は、世界座標系（グローバル座標系とも称する）における、人の位置を、人位置として検出する。検出部１４の人位置の検出精度は、定位部１６による音源位置の特定精度より高い。

なお、本実施の形態では、図１に示すように、検出部１４は、検出部１４の検出面の法線方向（図１中、矢印ＸＢ方向）を、世界座標系における０度方向（世界座標における重力方向に平行な面に対する法線方向）とみなして基準方向とし、該基準方向と、検出した人Ｍの方向（図１中、矢印ＸＣ方向）と、のなす角度（図１中、φ参照）を、人位置として検出する。以下、検出部１４によって検出された人位置を、人位置φと称して説明する。

図２に戻り、また、検出部１４は、集音装置１０の音響環境を検出する。音響環境とは、音に影響を与える各種の環境条件を示す。音響環境には、例えば、集音装置１０の周囲の物体の配置、湿度等があるが、これらに限られない。本実施の形態では、検出部１４は、音響環境として、集音装置１０の周囲の物体の配置を検出する場合を説明する。

検出部１４は、例えば、公知の撮像装置や、距離センサ等を搭載した構成が挙げられる。

本実施の形態では、検出部１４は、撮像部１４Ａと、第１演算部１４Ｂと、第２演算部１４Ｃと、を備える。撮像部１４Ａは、撮像によって撮像画像を取得する。撮像部１４Ａは、公知の撮像装置である。なお、検出部１４を、撮像部１４Ａを備えた構成とする場合、撮像部１４Ａにおけるカメラレンズの面を、検出部１４の検出面としてもよい。

第１演算部１４Ｂは、撮像部１４Ａで得られた撮像画像を解析し、撮像画像に含まれる人の人位置φを検出し、制御部１２へ出力する。なお、第１演算部１４Ｂは、公知の画像認識方法を用いて撮像画像を解析し、人の人位置φを演算する。なお、第１演算部１４Ｂは、撮像画像に含まれる顔の位置を人の位置とし、人位置φを演算することが好ましい。

第２演算部１４Ｃは、撮像部１４Ａで得られた撮像画像を解析し、公知の方法を用いて、撮像画像に含まれる人以外の物体の配置を、音響環境として演算する。そして、第２演算部１４Ｃは、演算した音響環境を、制御部１２へ送信する。なお、第２演算部１４Ｃは、例えば、撮像画像に含まれる各物体について、集音装置１０からの距離や形状を演算した演算結果を、音響環境として制御部１２へ出力する。この演算には、公知の画像処理方法を用いればよい。

なお、本実施の形態では、検出部１４が、人位置φ及び音響環境を検出する場合を説明するが、検出部１４は、人位置φを検出する機能部と、音響環境を検出する機能部と、を別体として有する構成であってもよい。

定位部１６は、音声を集音し、音源方向を特定する。定位部１６は、マイク１６Ｃ、及び第３演算部１６Ｄを備える。

マイク１６Ｃは、集音可能範囲の音声を受信し、音声信号として第３演算部１６Ｄへ出力する。本実施の形態では、マイク１６Ｃは、マイク１６Ａ及びマイク１６Ｂを含む。マイク１６Ａ及びマイク１６Ｂは、図１に示すように、一定距離を隔てて配置されており、音声を各々独立して集音し、第３演算部１６Ｃへ音声信号を出力する。なお、本実施の形態では、マイク１６Ｃは、２つのマイク（マイク１６Ａ及びマイク１６Ｂ）からなる場合を説明するが、マイク１６Ｃは２つのマイクに限られず、３つ以上であってもよい。

第３演算部１６Ｄは、マイク１６Ａ及びマイク１６Ｂから音声信号を受信し、これらの音声信号に基づいて、音源位置を演算する。音源位置の演算には、公知の演算方法を用いる。例えば、第３演算部１６Ｄは、マイク１６Ａから受信した音声信号と、マイク１６Ｂから受信した音声信号の各々から、音量、零交差法、周波数等に基づいて、音声を示す周波数帯域を切り出す。そして、切り出された周波数領域のマイク１６Ａの音声信号と、切り出された周波数帯域のマイク１６Ｂの音声信号と、の位相差や強度差から、音源位置を特定する。音源位置の特定方法は、上記方法に限られず、公知のＭＵＳＩＣ法を用いてもよい。

第３演算部１６Ｄは、第１座標系における音源位置を検出する。第１座標系とは、本実施の形態では、定位部１６（具体的にはマイク１６Ｃ）に固定された座標系であり、定位部１６の動きに伴って変わる座標系である。具体的には、第１座標系は、実空間上において、定位部１６を原点とし、集音方向にＸ軸（図１中、矢印ＸＡ参照）、水平方向にＹ軸、重力方向にＺ軸を設定した座標系である。

なお、本実施の形態では、集音方向とは、具体的には、定位部１６を原点とした水平方向の面における、集音可能な角度範囲の中心方向を示す（図１中、矢印ＸＡ参照）。定位部１６は、該集音方向と中心方向とした所定角度範囲内の音声を集音し、音源定位に用いる。

また、本実施の形態では、図１に示すように、定位部１６は、定位部１６の集音方向（図１中、矢印ＸＡ方向）を基準方向とし、該基準方向と、音源方向（例えば、人Ｍの方向（図１中、矢印ＸＣ方向））と、のなす角度（図１中、θｓ参照）を、音源位置として特定する。以下、定位部１６が特定した音源位置を、音源位置θｓと称して説明する。

第３演算部１６Ｄは、音源位置θｓを、制御部１２へ出力する。また、第３演算部１６Ｄは、マイク１６Ａ及びマイク１６Ｂから受信した音声信号から切り出した、音声を示す周波数帯域の音声信号を、制御部１２へ出力する。

駆動部１８は、制御部１２の制御によって、筐体３６を回転駆動することで、定位部１６の集音方向を変更する。すなわち、駆動部１８は、定位部１６を第２座標系の原点を通る重力方向を回転軸として、定位部１６を回転することで、定位部１６の集音方向を変更する。

記憶部２０は、学習テーブルを記憶する。学習テーブルは、検出部１４によって検出される人位置φに対応する、学習対象位置毎の定位精度を格納するためのテーブルである。

学習対象位置は、検出部１４で検出された人位置φを基準位置としたときの、ワールド座標系における学習対象とする位置を示す。本実施の形態では、学習対象位置は、定位精度の学習対象方向θｆを示す場合を説明する。学習対象方向θｆは、検出部１４で検出された人位置φを基準方向（角度０度の方向）としたときの、定位部１６の集音方向で示される。すなわち、学習対象方向θｆは、学習テーブルにおける対応する人位置φ（具体的には、検出部１４で検出された人位置φ）を基準方向とし、該基準方向と、検出部１４の集音方向（図１中、矢印ＸＡ参照）と、のなす角度で示される。

図３は、学習テーブルのデータ構造の一例を示す模式図である。

学習テーブルは、人位置φと、学習対象方向θｆと、差分合計と、データ数と、定位精度と、学習状態と、を対応付けて格納する。

学習テーブルに格納されている人位置φは、検出部１４によって検出された人位置φを示す。図３に示す例では、学習テーブルは、人位置φとして、−９０度〜−６０度、−６０度〜−３０度、−３０度〜０度、０度〜３０度、３０度〜６０度、６０度〜９０度の各々を定めているが、これらの値に限られない。

また、図３に示す例では、３０度毎の範囲で人位置φを定めているが、学習テーブルに格納される人位置φは、このような範囲を持った値に限られず、特定の値であってもよい。

学習対象方向θｆは、上述のように、定位精度の学習対象方向を示す。本実施の形態では、学習対象方向θｆとして、予め、−９０度、−６０度、−３０度、０度、３０度、６０度、９０度を定めている。なお、θｆが「３０度」、「６０度」、「９０度」である、とは、集音装置１０を上方側から見たときに、重力方向を回転軸として、検出部１４で検出された人位置φを基準方向として（角度０度の方向として）、定位部１６を左回転方向に３０度毎に回転駆動させた状態を示している。また、θｆが「−３０度」、「−６０度」、「−９０度」である、とは、集音装置１０を上方側から見たときに、重力方向を回転軸として、検出部１４で検出された人位置φを基準方向として（角度０度の方向として）、定位部１６を右回転方向に３０度毎回転駆動させた状態を示している。

なお、学習対象方向θｆは、上記のような３０度毎の値に限られず、予め任意の複数の角度を設定すればよい。

また、本実施の形態では、学習対象位置として、学習対象方向θｆを用いる場合を説明するが、対応する人位置φからの距離を学習対象位置として定めてもよい。なお、距離は、ワールド座標における人位置φからの距離として、複数の距離を定めればよい。また、学習対象位置は、これらの学習対象方向θｆと人位置φからの距離とを組み合わせたものであってもよい。

差分合計は、学習対象方向θｆと、該学習対象方向θｆを集音方向とするように集音方向を変更された定位部１６で特定した音源位置θｓと、の差分の絶対値の累積値である。

データ数とは、学習対象方向θｆと、該学習対象方向θｆを集音方向とするように集音方向を変更された定位部１６で特定した音源位置θｓと、の差分の絶対値の、算出回数を示す。このデータ数は、予め最大値（以下、閾値ＴＮと称する場合がある）が定められており、学習対象方向θｆと、該学習対象方向θｆを集音方向とするように集音方向を変更された定位部１６で特定した音源位置θｓと、の差分の絶対値の、算出が行われる度に、カウントアップされる。

なお、閾値ＴＮには、任意の値を予め定めればよい。図３では、閾値ＴＮとして、データ数１０個を予め定めた場合を示している。

学習テーブルに格納されている定位精度は、対応する学習対象方向θｆにおける、定位部１６の定位精度を示す。

学習状態とは、対応する学習対象方向θｆの定位精度が算出済であるか否かを示す。学習状態には、「学習済み」と、「未学習」と、がある。「学習済み」とは、対応する人位置φ及び学習対象方向θｆにおける、定位精度が算出済であることを示す。「学習未」とは、対応する人位置φ及び学習対象方向θｆにおける、定位精度が算出未であることを示す。

図２に戻り、制御部１２は、検出部１４、定位部１６、駆動部１８、及び記憶部２０に信号授受可能に接続されている。

制御部１２は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、及びＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などを含んで構成されるコンピュータである。

制御部１２は、第１取得部２２、第２取得部２４、第１算出部２６、第１選択部２８、第１駆動制御部３０、及び認識部３２を含む。

第１取得部２２は、検出部１４から人位置φを取得する。第２取得部２４は、定位部１６から音源位置θｓを取得する。また、第２取得部２４は、音声を示す周波数帯域の音声信号を定位部１６から取得する。

第１算出部２６は、検出部１４で検出された人位置φに対応する、予め定めた複数の学習対象方向θｆ毎の定位精度を算出する。

第１算出部２６は、第２選択部２６Ａと、第２駆動制御部２６Ｂと、第２算出部２６Ｃと、を含む。

第２選択部２６Ａは、検出部１４から取得した人位置φに対応する複数の学習対象方向θｆの内、未学習の学習対象方向θｆを選択する。第２駆動制御部２６Ｂは、第２選択部２６Ａで選択された学習対象方向θｆを集音方向とするように、駆動部１８を駆動制御する。

第２算出部２６Ｃは、第２選択部２６Ａで選択された学習対象方向θｆを集音方向とするように駆動された定位部１６で特定された音源位置θｓと、該学習対象方向θｆと、の差分の絶対値（|−θｓ−θｆ|）から、検出部１４から取得した人位置φ及び該学習対象方向θｆに対応する定位精度を算出する。

具体的には、第２算出部２６Ｃは、第２選択部２６Ａで選択された学習対象方向θｆを集音方向とするように駆動された定位部１６で特定された音源位置θｓと、該学習対象方向θｆと、の差分の絶対値（|−θｓ−θｆ|）の算出を、予め定めた回数（閾値ＴＮ）分実行する。そして、第２算出部２６Ｃは、これらの差分の絶対値の合計である差分合計を、閾値ＴＮで除算した値を、定位精度として算出する。

なお、本実施の形態では、第１算出部２６は、音源位置θｓと、該学習対象方向θｆと、の差分の絶対値（|−θｓ−θｆ|）を用いて定位精度を算出するので、図３に示すように、定位性度の数値の値が小さい程、定位精度が高い事を示す。

第１選択部２８は、第１取得部２２で検出部１４から取得した人位置φに対応する、学習対象方向θｆ毎に算出された定位精度であって、予め定めた閾値（第１閾値）以上の定位精度の内の１つに対応する学習対象方向θｆを選択する。例えば、第１選択部２８は、予め定めた閾値（第１閾値）以上の定位精度の内、最も定位精度の高い学習対象方向θｆを選択する。閾値としては、例えば、人位置φに対応する、前回算出された複数の定位精度の平均値を用いることができる。なお、ユーザの操作指示等によって閾値を変更可能としてもよい。

第１駆動制御部３０は、定位部１６の集音方向が、第１選択部２８で選択された学習対象方向θｆとなるように、駆動部１８を制御する。

このため、駆動部１８は、検出部１４で検出された人位置φに対して、最も定位精度の高い方向を向くように定位部１６の集音方向を変更する。

そして、認識部３２は、検出部１４で検出された人位置φに対して、最も定位精度の高い方向を向くように定位部１６の集音方向を変更された定位部１６で取得された、音声信号を用いて、音声認識を実行する。認識部３２は、公知の方法で音声認識を実行する。

次に、制御部１２で実行する集音処理を説明する。

図４は、制御部１２で実行する集音処理の手順を示すフローチャートである。

まず、第１算出部２６が、音響環境が変化したか否かを判断する（ステップＳ１００）。第１算出部２６では、前回ステップＳ１００の判断を行ったときに、第１取得部２２で取得された音響環境と、今回ステップＳ１００の判断時に第１取得部２２で取得された音響環境と、が不一致であるか否かを判別することで、ステップＳ１００の判断を行う。例えば、音響環境が物体の配置である場合、第１算出部２６は、前回ステップＳ１００の判断を行ってから、物体の配置が変化したか否かを判断する。

ステップＳ１００で肯定判断すると（ステップＳ１００：Ｙｅｓ）、ステップＳ１０２へ進む。ステップ１０２では、制御部１２が、記憶部２０の学習テーブルに格納されている全ての学習状態を「未学習」とすることで、全学習状態をリセットする（ステップＳ１０２）。そして、ステップＳ１０４へ進む。

なお、ステップＳ１０２の処理において、本実施の形態では、制御部１２は、記憶部２０の学習テーブルに格納されている、差分合計、データ数、定位精度の全てについても、初期値である「０」にリセットする。

なお、制御部１２は、ステップＳ１０２の処理において、記憶部２０の学習テーブルに格納されている定位精度の値はリセットせず、差分合計、データ数、及び学習状態についてのみリセットしてもよい。この場合、集音装置１０は、集音装置１０の音響環境が変わる前の定位精度も更に加味した状態で、最適な音源定位を行うことができる。

一方、ステップＳ１００で否定判断した場合についても（ステップＳ１００：Ｎｏ）、ステップＳ１０４へ進む。

ステップＳ１０４では、第１算出部２６が、検出部１４で検出された人位置φを読み取る（ステップＳ１０４）。ステップＳ１０４では、第１算出部２６は、ステップＳ１００で肯定判断したときに検出部１４で検出された人位置φを読み取る。

次に、記憶部２０から、第１算出部２６は、上記ステップＳ１０４で読み取った人位置φに対応する全学習状態を確認する（ステップＳ１０６）。

次に、第１算出部２６は、上記ステップＳ１０４で読み取った人位置φに対応する全ての学習状態が「学習済み」であるか否かを判断する（ステップＳ１０８）。ステップＳ１０８の処理によって、第１算出部２６は、ステップＳ１０４で読み取った人位置φに対する、各学習対象方向θｆの各々に対応する全ての定位精度が算出された状態であるか否かを判断する。

ステップＳ１０８で肯定判断すると（ステップＳ１０８）、第１選択部２８が、上記ステップＳ１０４で読み取った人位置φに対応する定位精度の内、最も高い定位精度に対応する学習対象方向θｆを記憶部２０から選択する（ステップＳ１１０）。なお、最も高い定位精度に対応する学習対象方向θｆが複数ある場合には、第１選択部２８は、これらの複数の学習対象方向θｆの内の１つを選択する。

次に、第１駆動制御部３０が、定位部１６の集音方向を、ステップＳ１１０で選択された学習対象方向θｆとするように駆動部１８を制御する（ステップＳ１１２）。

ステップＳ１１２の処理によって、定位部１６は、検出部１４で検出された人位置φを、該人位置φに対して最も定位精度の高い集音方向とするように、定位部１６の集音方向を変更する。

次に、認識部３２が、上記ステップＳ１１２の処理によって集音方向を変更された定位部１６で集音された音声信号に基づいて、音声認識を行う（ステップＳ１１４）。そして、本ルーチンを終了する。

一方、上記ステップＳ１０８で否定判断すると（ステップＳ１０８：Ｎｏ）、ステップＳ１１６へ進む。

ステップＳ１１６では、第２選択部２６Ａが、上記ステップＳ１０４で読み取った人位置φに対する複数の学習対象方向θｆの内、定位精度の学習状態が「未学習」の学習対象方向θｆの内の１つを、学習対象として選択する（ステップＳ１１６）。

次に、第２駆動制御部２６Ｂが、定位部１６の集音方向を、ステップＳ１１６で学習対象として選択された学習対象方向θｆとするように、駆動部１８を制御する（ステップＳ１１８）。ステップＳ１１８の処理によって、定位部１６の集音方向が、ステップＳ１１６で学習対象として選択された学習対象方向θｆとなるように、定位部１６が回転駆動される。

次に、第２算出部２６Ｃが、上記ステップＳ１１６において、第２選択部２６Ａで選択された学習対象方向θｆを集音方向とするように駆動された定位部１６で特定された音源位置θｓと、該学習対象方向θｆと、の差分の絶対値（|−θｓ−θｆ|）から、検出部１４から取得した人位置φ及び該学習対象方向θｆに対応する定位精度を算出する（詳細後述）。

詳細は後述するが、例えば、図３に示す学習テーブルにおける、人位置φとして「−９０度」がステップＳ１０４で読み取られ、ステップＳ１１６の処理によって、学習対象方向θｆ「３０度」が選択されたとする。この場合、第１算出部２６は、ステップＳ１２０の精度算出処理を実行することによって、人位置φ「−９０度」を基準方向とする学習対象方向θｆ「３０度」を集音方向とした定位部１６の定位精度を算出する。また、定位精度の算出を行うと、第１算出部２６は、対応する学習状態を「学習済み」に変更する。

そして、上記ステップＳ１０４へ戻る。

次に、第１算出部２６が実行する精度算出処理（図４のステップＳ１２０）を説明する。

図５は、第１算出部２６が実行する精度算出処理の手順を示すフローチャートである。

まず、第１算出部２６は、上記ステップＳ１０４で読み取った人位置φを第１取得部２２から読み取る（ステップＳ２００）。

次に、第１算出部２６は、上記ステップＳ２００で読み取った人位置φが、複数であるか否かを判断する（ステップＳ２０１）。すなわち、ステップＳ２０１において、第１算出部２６は、検出部１４で複数の人位置φが検出されたか否かを判断する。

ステップＳ２０１で否定判断すると（ステップＳ２０１：Ｎｏ）、後述するステップＳ２０４へ進む。一方、ステップＳ２０１で肯定判断すると（ステップＳ２０１：Ｙｅｓ）、ステップＳ２０２へ進む。

ステップＳ２０２では、第１算出部２６は、近距離に複数人存在するか否かを判断する（ステップＳ２０２）。近距離とは、予め定めた最小距離（第３閾値）未満の距離である。この最小距離は、定位部１６で個々に音源定位の可能な距離の最小値であり、定位部１６の性能によって定まる。本実施の形態では、第１算出部２６は、ステップＳ２００で読み取った人位置φ間の角度が、予め定めた第１角度未満であるか否かを判別することで、ステップＳ２０２の判断を行う。第１角度は、定位部１６で個々に音源定位の可能な最小角度であり、定位部１６の性能によって定まる。この第１角度は、予め記憶部２０に記憶しておけばよい。

次に、第１算出部２６は、定位部１６から、定位部１６で取得した音声情報、及び定位部１６で特定した音源位置θｓを読み取る（ステップＳ２０４）。第１算出部２６は、上記ステップＳ１１８の処理によって集音方向の変更された状態の定位部１６から、第２取得部２４で取得された音声情報及び音源位置θｓを読み取ることで、ステップＳ２０４の処理を行う。

次に、第２算出部２６Ｃは、上記ステップＳ１１６（図４参照）で学習対象として選択した学習対象方向θｆと、ステップＳ２０４で読み取った音源位置θｓと、の差分の絶対値（Ｄとする）を算出する（ステップＳ２０６）。なお、該差分の絶対値Ｄは、下記式（２）で示される。

Ｄ←|−θｓ−θｆ| ・・・（１）

次に、第１算出部２６は、上記ステップＳ２０６で算出した、学習対象方向θｆと音源位置θｓとの差分の絶対値Ｄが、予め定めた第２閾値ＴＤより小さいか否かを判断する（ステップＳ２０８）。

第２閾値ＴＤは、定位部１６がノイズの多い音声を用いて音源定位を行ったか否かを判断するための閾値であり、定位部１６の構成に応じて予め定める。

すなわち、ステップＳ２０８で否定判断する場合は（ステップＳ２０８：Ｎｏ）、推定される音源からの音以外の音、すなわち雑音が多く含まれている状態を示す。

ステップＳ２０８で否定判断すると（ステップＳ２０８：Ｎｏ）、本ルーチンを終了する。このため、第１算出部２６は、雑音が多く含まれている場合には、学習対象として設定した学習対象方向θｆについての定位精度の算出を行わない。

一方、ステップＳ２０８で肯定判断すると（ステップＳ２０８：Ｙｅｓ）、ステップＳ２１０へ進み、第２算出部２６Ｃが、定位精度の更新処理を実行し（ステップＳ２１０）、本ルーチンを終了する。

次に、ステップＳ２１０の定位精度の更新処理を説明する。

図６は、第１算出部２６の第２算出部２６Ｃが行う、定位精度の更新処理の手順を説明するフローチャートである。

まず、第２算出部２６Ｃが、記憶部２０から、上記ステップＳ２００で読み取った人位置φ、及び上記ステップＳ１１６（図４参照）で学習対象として選択した学習対象方向θｆに対応する、学習状態を確認する（ステップＳ３００）。

次に、第２算出部２６Ｃは、上記ステップＳ２００で読み取った人位置φ、及び上記ステップＳ１１６（図４参照）で学習対象として選択した学習対象方向θｆに対応する、学習状態が、「学習済み」であるか否かを判断する（ステップＳ３０２）。

ステップＳ３０２で肯定判断すると（ステップＳ３０２：Ｙｅｓ）、本ルーチンを終了する。一方、ステップＳ３０２で否定判断すると（ステップＳ３０２：Ｎｏ）、ステップＳ３０４へ進む。

ステップＳ３０４では、第２算出部２６Ｃは、差分合計を算出する（ステップＳ３０４）。具体的には、第２算出部２６Ｃは、記憶部２０から、上記ステップＳ２００で読み取った人位置φ、及び上記ステップＳ１１６（図４参照）で学習対象として選択した学習対象方向θｆに対応する差分合計を記憶部２０から読み取る。そして、第１算出部２６は、読み取った該差分合計に、上記ステップＳ２０６で算出した、学習対象方向θｆと音源位置θｓとの差分の絶対値Ｄを加算した結果を、新たな差分合計として算出する（ステップＳ３０４）。

次に、第２算出部２６Ｃは、差分合計を更新する（ステップＳ３０６）。詳細には、第２算出部２６Ｃは、ステップＳ３０４で算出した差分合計を、上記ステップＳ２００で読み取った人位置φ、及び上記ステップＳ１１６（図４参照）で学習対象として選択した学習対象方向θｆに対応する差分合計として、記憶部２０に記憶することで、差分合計を更新する。

次に、第２算出部２６Ｃは、記憶部２０における、上記ステップＳ２００で読み取った人位置φ、及び上記ステップＳ１１６（図４参照）で学習対象として選択した学習対象方向θｆに対応するデータ数であるＮの値を、１カウントアップする（ステップＳ３０８）。

次に、第２算出部２６Ｃは、記憶部２０における、上記ステップＳ２００で読み取った人位置φ、及び上記ステップＳ１１６（図４参照）で学習対象として選択した学習対象方向θｆに対応するデータ数であるＮの値が、予め定めた閾値ＴＮを超えたか否かを判断する（ステップＳ３１０）。

ステップＳ３１０で否定判断すると（ステップＳ３１０：Ｎｏ）、本ルーチンを終了する。

一方、ステップＳ３１０で肯定判断すると（ステップＳ３１０：Ｙｅｓ）、ステップＳ３１２へ進む。

ステップＳ３１２では、第２算出部２６Ｃは、上記ステップＳ２００で読み取った人位置φ、及び上記ステップＳ１１６（図４参照）で学習対象として選択した学習対象方向θｆに対応する、定位精度を算出する（ステップＳ３１２）。詳細には、第２算出部２６Ｃは、記憶部２０における、上記ステップＳ２００で読み取った人位置φ、及び上記ステップＳ１１６（図４参照）で学習対象として選択した学習対象方向θｆに対応する差分合計を、対応するデータ数（本実施の形態では閾値ＴＮ）で除算した値を、定位精度として算出する。

次に第２算出部２６Ｃは、ステップＳ３１２で算出した定位精度を、上記ステップＳ２００で読み取った人位置φ、及び上記ステップＳ１１６（図４参照）で学習対象として選択した学習対象方向θｆに対応する定位精度として記憶部２０に記憶する（ステップＳ３１４）。

次に、第２算出部２６Ｃは、記憶部２０における、上記ステップＳ２００で読み取った人位置φ、及び上記ステップＳ１１６（図４参照）で学習対象として選択した学習対象方向θｆに対応する学習状態を「学習済み」に変更し（ステップＳ３１６）、本ルーチンを終了する。

以上説明したように、本実施の形態の集音装置１０では、第１算出部２６が、検出部１４で検出された人位置φに対応する、該人位置φを基準方向とする予め定めた複数の学習対象方向θｆ毎の定位精度を算出する。そして、第１選択部２８は、第１取得部２２で検出部１４から取得した人位置φに対応する、学習対象方向θｆ毎に算出された定位精度の内、最も定位精度の高い学習対象方向θｆを選択する。第１駆動制御部３０は、定位部１６の集音方向が、第１選択部２８で選択された学習対象方向θｆとなるように、駆動部１８を制御する。

従って、検出された人位置φに対して最も定位精度の高い方向を向くように集音方向を変更された定位部１６により音源位置を特定することで、本実施の形態の集音装置１０では、音源定位を高精度に行うことができる。

また、認識部３２は、検出部１４で検出された人位置φに対して、最も定位精度の高い方向を向くように定位部１６の集音方向を変更された定位部１６で取得された、音声信号を用いて、音声認識を実行する。認識部３２は、公知の方法で音声認識を実行する。

このため、集音装置１０では、高精度に音声認識を行うことができる。

また、集音装置１０では、集音装置１０の音響環境に変化があった場合に、既に算出されている定位精度をリセットし、新たに定位精度を算出する。

このため、本実施の形態の集音装置１０では、音響環境に応じた定位精度を精度よく算出することができる。

また、第２選択部２６Ａは、検出部１４から取得した人位置φに対応する複数の学習対象方向θｆの内、未学習の学習対象方向θｆを選択する。第２駆動制御部２６Ｂは、第２選択部２６Ａで選択された学習対象方向θｆを集音方向とするように、駆動部１８を駆動制御する。そして、第２算出部２６Ｃは、第２選択部２６Ａで選択された学習対象方向θｆを集音方向とするように駆動された定位部１６で特定された音源位置θｓと、該学習対象方向θｆと、の差分の絶対値（|−θｓ−θｆ|）から、検出部１４から取得した人位置φ及び該学習対象方向θｆに対応する定位精度を算出する。

このため、本実施の形態の集音装置１０では、高精度に、学習対象方向θｆ毎の定位精度を算出することができる。

また、第２算出部２６Ｃは、第２選択部２６Ａで選択された学習対象方向θｆを集音方向とするように駆動された定位部１６で特定された音源位置θｓと、該学習対象方向θｆと、の差分の絶対値（|−θｓ−θｆ|）の算出を、予め定めた回数（閾値ＴＮ）分実行する。そして、第２算出部２６Ｃは、これらの差分の絶対値の合計である差分合計を、閾値ＴＮで除算した値を、定位精度として算出する。

このため、本実施の形態の集音装置１０では、更に高精度に、学習対象方向θｆ毎の定位精度を算出することができる。

また、集音装置１０では、定位精度が未学習の学習対象方向θｆを集音方向とするように定位部１６の集音方向を変更し、集音方向を変更された定位部１６で特定された音源位置θｓと、該学習対象方向θｆと、の差分の絶対値Ｄが、予め定めた第２閾値ＴＤより小さい場合に、定位精度の算出を行う。この第２閾値ＴＤは、定位部１６がノイズの多い音声を用いて音源定位を行ったか否かを判断するための閾値である。

このため、本実施の形態の集音装置１０では、定位精度の低下を抑制することができる。

また、第１算出部２６は、検出部１４が、複数の人位置を検出し、且つ、検出した人位置φによって特定される人の距離が、予め定めた最小距離（第３閾値）未満である場合には、定位精度の算出を行わない。

このため、集音装置１０は、学習対象方向θｆ毎の定位精度の低下を抑制することができる。

次に、上記に説明した集音装置１０のハードウェア構成について説明する。図７は、本実施の形態の集音装置１０のハードウェア構成例を示すブロック図である。

本実施の形態の集音装置１０は、検出部８０、通信Ｉ／Ｆ部８２、定位部８４、駆動部９６、ＣＰＵ８６、ＲＯＭ８８、ＲＡＭ９０、及びＨＤＤ９２等がバス９４により相互に接続されており、通常のコンピュータを利用したハードウェア構成となっている。

ＣＰＵ８６は、集音装置１０の全体の処理を制御する演算装置である。ＲＡＭ９０は、ＣＰＵ８６による各種処理に必要なデータを記憶する。ＲＯＭ８８は、ＣＰＵ８６による各種処理を実現するプログラム等を記憶する。ＨＤＤ９２は、上述した記憶部２０に格納されるデータ等を記憶する。通信Ｉ／Ｆ部８２は、外部装置や外部端末に通信回線等を介して接続し、接続した外部装置や外部端末との間でデータを送受信するためのインタフェースである。検出部８０、定位部８４、及び駆動部９６は、各々、上述した検出部１４、定位部１６、及び駆動部１８に相当する。

本実施の形態の集音装置１０で実行される上記集音処理を実行するためのプログラムは、ＲＯＭ８８等に予め組み込んで提供される。

なお、本実施の形態の集音装置１０で実行される上記集音処理を実行するためのプログラムは、これらの装置にインストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等のコンピュータで読み取り可能な記録媒体に記録されて提供するように構成してもよい。

また、本実施の形態の集音装置１０で実行される上記集音処理を実行するためのプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施の形態の集音装置１０で実行される上記集音処理を実行するためのプログラムを、インターネット等のネットワーク経由で提供または配布するように構成してもよい。

本実施の形態の集音装置１０で実行される上記集音処理を実行するためのプログラムは、上述した各部が記憶装置上に生成されるようになっている。

なお、上記ＨＤＤ９２に格納されている各種情報、すなわち記憶部１８に格納されている各種情報は、外部装置（例えばサーバ）に格納してもよい。この場合には、該外部装置とＣＰＵ８６と、を、ネットワーク等を介して接続した構成とすればよい。

なお、上記には、本発明の実施の形態を説明したが、本実施の形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施の形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施の形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０集音装置
１２制御部
１４検出部
１６定位部
１８駆動部
２０記憶部
２２第１取得部
２４第２取得部
２６算出部
２６Ａ第２選択部
２６Ｂ第２駆動制御部
２６Ｃ第２算出部
２８第１選択部
３０第１駆動制御部

Claims

人位置を検出する検出部と、
音源位置を特定する定位部と、
前記定位部の集音方向を変更する駆動部と、
検出された前記人位置を基準方向とし、該基準方向に対する予め定めた複数の学習対象方向の各々を集音方向とした前記定位部の定位精度を算出する第１算出部と、
算出された前記定位精度の内、予め定めた閾値以上の定位精度の内の１つに対応する前記学習対象方向を選択する第１選択部と、
前記定位部の集音方向が、選択された前記学習対象方向となるように、前記駆動部を制御する第１駆動制御部と、
を備えた集音装置。
前記第１算出部は、当該集音装置の音響環境が変化したときに、前記定位精度を算出する、請求項１に記載の集音装置。
前記第１算出部は、
検出された人位置に対応する複数の学習対象方向の内、定位精度が未学習の１の学習対象方向を選択する第２選択部と、
選択された該学習対象方向を集音方向とするように、前記駆動部を制御する第２駆動部と、
選択された該学習対象方向を集音方向とした前記定位部で特定された音源位置と、該学習対象方向と、の差分に基づいて、該音源位置及び該学習対象方向に対応する定位精度を算出する第２算出部と、
を含む、請求項１または請求項２に記載の集音装置。
前記第２算出部は、
選択された該学習対象方向を集音方向とした前記定位部で特定された音源位置と、該学習対象方向と、の差分の絶対値が、予め定めた第２閾値より小さい場合に、該音源位置及び該学習対象方向に対応する定位精度を算出する、請求項３に記載の集音装置。
前記第２算出部は、
前記検出部が前記人位置を複数検出し、且つ、検出した人位置によって特定される人の距離が予め定めた第３閾値未満である場合には、前記定位精度の算出を行わない、
請求項３または請求項４に記載の集音装置。
前記第２算出部は、
選択された該学習対象方向を集音方向とした前記定位部で特定された音源位置と、該学習対象方向と、の差分の絶対値を、予め定めた回数算出し、該差分の絶対値の合計値を、該回数で除算した値を、該音源位置及び該学習対象方向に対応する定位精度として算出する、請求項３〜請求項５の何れか１項に記載の集音装置。
前記定位部は、音声を収集し、前記音源位置を特定し、
当該集音装置は、
前記第１駆動制御部によって選択された前記学習対象方向を集音方向とした前記定位部で集音された音声に基づいて、音声認識を実行する音声認識部を更に備えた、請求項１〜請求項６の何れか１項に記載の集音装置。