JP5318258B1 - 集音装置 - Google Patents

集音装置 Download PDF

Info

Publication number
JP5318258B1
JP5318258B1 JP2012149561A JP2012149561A JP5318258B1 JP 5318258 B1 JP5318258 B1 JP 5318258B1 JP 2012149561 A JP2012149561 A JP 2012149561A JP 2012149561 A JP2012149561 A JP 2012149561A JP 5318258 B1 JP5318258 B1 JP 5318258B1
Authority
JP
Japan
Prior art keywords
unit
localization
learning target
sound
sound collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012149561A
Other languages
English (en)
Other versions
JP2014010438A (ja
Inventor
豪 田崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2012149561A priority Critical patent/JP5318258B1/ja
Application granted granted Critical
Publication of JP5318258B1 publication Critical patent/JP5318258B1/ja
Publication of JP2014010438A publication Critical patent/JP2014010438A/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

【課題】音源定位を高精度に行う。
【解決手段】集音装置10は、検出部14と、定位部16と、駆動部18と、第1算出部26と、第1選択部28と、第1駆動制御部30と、を備える。検出部14は、人位置を検出する。定位部16は、音源位置を特定する。駆動部18は、定位部16の集音方向を変更する。第1算出部26は、検出された人位置を基準方向とし、該基準方向に対する予め定めた複数の学習対象方向の各々を集音方向とした定位部16の定位精度を算出する。第1選択部28は、算出された定位精度の内、予め定めた閾値以上の定位精度の内の1つに対応する学習対象方向を選択する。第1駆動制御部30は、定位部16の集音方向が、選択された学習対象方向となるように、駆動部18を制御する。
【選択図】図2

Description

本発明の実施形態は、集音装置に関する。
音情報から音源方向を特定する音源定位装置が知られている。また、音源定位装置に、物体を検知するセンサを別途設け、センサによる検知結果と音声の検出結果に基づいて、音源が存在する方向を推定する装置も開示されている。
特開2008−145574号公報
しかしながら、音源定位を行う音源定位部における、集音方向毎の定位精度は一律ではなく、精度よく音源定位を行うことは困難であった。
本発明が解決しようとする課題は、音源定位を高精度に行うことができる、集音装置を提供することである。
実施形態の集音装置は、検出部と、定位部と、駆動部と、第1算出部と、第1選択部と、第1駆動制御部と、を備える。検出部は、人位置を検出する。定位部は、音源位置を特定する。駆動部は、前記定位部の集音方向を変更する。第1算出部は、検出された前記人位置を基準方向とし、該基準方向に対する予め定めた複数の学習対象方向の各々を集音方向とした前記定位部の定位精度を算出する。第1選択部は、算出された前記定位精度の内、予め定めた閾値以上の定位精度の内の1つに対応する前記学習対象方向を選択する。第1駆動制御部は、前記定位部の集音方向が、選択された前記学習対象方向となるように、前記駆動部を制御する。
集音装置の外観を示す模式図。 集音装置を示す機能ブロック図。 学習テーブルのデータ構造を示す模式図。 集音処理の手順を示すフローチャート。 精度算出処理の手順を示すフローチャート。 定位精度の更新処理の手順を示すフローチャート。 集音装置のハードウェア構成例を示すブロック図。
以下に添付図面を参照して、情報処理装置、情報処理端末、情報処理プログラム、及び情報処理方法の一の実施形態を詳細に説明する。
(実施の形態1)
図1は、集音装置10の外観を示す模式図である。
図1に示すように、集音装置10は、定位部16と、検出部14と、本体部13と、を備える。
定位部16は、音源位置を特定する。検出部14は、人位置を検出する。本体部13は、後述する各種処理を実行するための制御部(図1では図示省略)等を含む。
定位部16及び検出部14は、筐体36に支持されている。筐体36には、駆動部18が設けられている。駆動部18は、重力方向を回転軸として筐体36を回転させる(図1中、矢印P方向参照)。このため、定位部16及び検出部14は、重力方向を回転軸として回転可能に支持されている。
なお、本実施の形態では、定位部16及び検出部14は、同じ筐体36に支持されており、駆動部18による筐体36の回転に伴って重力方向を回転軸として同方向に回転される場合を説明する。しかし、定位部16及び検出部14は、異なる回転軸及び異なる回転角度で回転可能に支持されていてもよい。
図2は、集音装置10を示す機能ブロック図である。
上述のように、検出部14は、人位置を検出する。検出部14は、世界座標系(グローバル座標系とも称する)における、人の位置を、人位置として検出する。検出部14の人位置の検出精度は、定位部16による音源位置の特定精度より高い。
なお、本実施の形態では、図1に示すように、検出部14は、検出部14の検出面の法線方向(図1中、矢印XB方向)を、世界座標系における0度方向(世界座標における重力方向に平行な面に対する法線方向)とみなして基準方向とし、該基準方向と、検出した人Mの方向(図1中、矢印XC方向)と、のなす角度(図1中、φ参照)を、人位置として検出する。以下、検出部14によって検出された人位置を、人位置φと称して説明する。
図2に戻り、また、検出部14は、集音装置10の音響環境を検出する。音響環境とは、音に影響を与える各種の環境条件を示す。音響環境には、例えば、集音装置10の周囲の物体の配置、湿度等があるが、これらに限られない。本実施の形態では、検出部14は、音響環境として、集音装置10の周囲の物体の配置を検出する場合を説明する。
検出部14は、例えば、公知の撮像装置や、距離センサ等を搭載した構成が挙げられる。
本実施の形態では、検出部14は、撮像部14Aと、第1演算部14Bと、第2演算部14Cと、を備える。撮像部14Aは、撮像によって撮像画像を取得する。撮像部14Aは、公知の撮像装置である。なお、検出部14を、撮像部14Aを備えた構成とする場合、撮像部14Aにおけるカメラレンズの面を、検出部14の検出面としてもよい。
第1演算部14Bは、撮像部14Aで得られた撮像画像を解析し、撮像画像に含まれる人の人位置φを検出し、制御部12へ出力する。なお、第1演算部14Bは、公知の画像認識方法を用いて撮像画像を解析し、人の人位置φを演算する。なお、第1演算部14Bは、撮像画像に含まれる顔の位置を人の位置とし、人位置φを演算することが好ましい。
第2演算部14Cは、撮像部14Aで得られた撮像画像を解析し、公知の方法を用いて、撮像画像に含まれる人以外の物体の配置を、音響環境として演算する。そして、第2演算部14Cは、演算した音響環境を、制御部12へ送信する。なお、第2演算部14Cは、例えば、撮像画像に含まれる各物体について、集音装置10からの距離や形状を演算した演算結果を、音響環境として制御部12へ出力する。この演算には、公知の画像処理方法を用いればよい。
なお、本実施の形態では、検出部14が、人位置φ及び音響環境を検出する場合を説明するが、検出部14は、人位置φを検出する機能部と、音響環境を検出する機能部と、を別体として有する構成であってもよい。
定位部16は、音声を集音し、音源方向を特定する。定位部16は、マイク16C、及び第3演算部16Dを備える。
マイク16Cは、集音可能範囲の音声を受信し、音声信号として第3演算部16Dへ出力する。本実施の形態では、マイク16Cは、マイク16A及びマイク16Bを含む。マイク16A及びマイク16Bは、図1に示すように、一定距離を隔てて配置されており、音声を各々独立して集音し、第3演算部16Cへ音声信号を出力する。なお、本実施の形態では、マイク16Cは、2つのマイク(マイク16A及びマイク16B)からなる場合を説明するが、マイク16Cは2つのマイクに限られず、3つ以上であってもよい。
第3演算部16Dは、マイク16A及びマイク16Bから音声信号を受信し、これらの音声信号に基づいて、音源位置を演算する。音源位置の演算には、公知の演算方法を用いる。例えば、第3演算部16Dは、マイク16Aから受信した音声信号と、マイク16Bから受信した音声信号の各々から、音量、零交差法、周波数等に基づいて、音声を示す周波数帯域を切り出す。そして、切り出された周波数領域のマイク16Aの音声信号と、切り出された周波数帯域のマイク16Bの音声信号と、の位相差や強度差から、音源位置を特定する。音源位置の特定方法は、上記方法に限られず、公知のMUSIC法を用いてもよい。
第3演算部16Dは、第1座標系における音源位置を検出する。第1座標系とは、本実施の形態では、定位部16(具体的にはマイク16C)に固定された座標系であり、定位部16の動きに伴って変わる座標系である。具体的には、第1座標系は、実空間上において、定位部16を原点とし、集音方向にX軸(図1中、矢印XA参照)、水平方向にY軸、重力方向にZ軸を設定した座標系である。
なお、本実施の形態では、集音方向とは、具体的には、定位部16を原点とした水平方向の面における、集音可能な角度範囲の中心方向を示す(図1中、矢印XA参照)。定位部16は、該集音方向と中心方向とした所定角度範囲内の音声を集音し、音源定位に用いる。
また、本実施の形態では、図1に示すように、定位部16は、定位部16の集音方向(図1中、矢印XA方向)を基準方向とし、該基準方向と、音源方向(例えば、人Mの方向(図1中、矢印XC方向))と、のなす角度(図1中、θs参照)を、音源位置として特定する。以下、定位部16が特定した音源位置を、音源位置θsと称して説明する。
第3演算部16Dは、音源位置θsを、制御部12へ出力する。また、第3演算部16Dは、マイク16A及びマイク16Bから受信した音声信号から切り出した、音声を示す周波数帯域の音声信号を、制御部12へ出力する。
駆動部18は、制御部12の制御によって、筐体36を回転駆動することで、定位部16の集音方向を変更する。すなわち、駆動部18は、定位部16を第2座標系の原点を通る重力方向を回転軸として、定位部16を回転することで、定位部16の集音方向を変更する。
記憶部20は、学習テーブルを記憶する。学習テーブルは、検出部14によって検出される人位置φに対応する、学習対象位置毎の定位精度を格納するためのテーブルである。
学習対象位置は、検出部14で検出された人位置φを基準位置としたときの、ワールド座標系における学習対象とする位置を示す。本実施の形態では、学習対象位置は、定位精度の学習対象方向θfを示す場合を説明する。学習対象方向θfは、検出部14で検出された人位置φを基準方向(角度0度の方向)としたときの、定位部16の集音方向で示される。すなわち、学習対象方向θfは、学習テーブルにおける対応する人位置φ(具体的には、検出部14で検出された人位置φ)を基準方向とし、該基準方向と、検出部14の集音方向(図1中、矢印XA参照)と、のなす角度で示される。
図3は、学習テーブルのデータ構造の一例を示す模式図である。
学習テーブルは、人位置φと、学習対象方向θfと、差分合計と、データ数と、定位精度と、学習状態と、を対応付けて格納する。
学習テーブルに格納されている人位置φは、検出部14によって検出された人位置φを示す。図3に示す例では、学習テーブルは、人位置φとして、−90度〜−60度、−60度〜−30度、−30度〜0度、0度〜30度、30度〜60度、60度〜90度の各々を定めているが、これらの値に限られない。
また、図3に示す例では、30度毎の範囲で人位置φを定めているが、学習テーブルに格納される人位置φは、このような範囲を持った値に限られず、特定の値であってもよい。
学習対象方向θfは、上述のように、定位精度の学習対象方向を示す。本実施の形態では、学習対象方向θfとして、予め、−90度、−60度、−30度、0度、30度、60度、90度を定めている。なお、θfが「30度」、「60度」、「90度」である、とは、集音装置10を上方側から見たときに、重力方向を回転軸として、検出部14で検出された人位置φを基準方向として(角度0度の方向として)、定位部16を左回転方向に30度毎に回転駆動させた状態を示している。また、θfが「−30度」、「−60度」、「−90度」である、とは、集音装置10を上方側から見たときに、重力方向を回転軸として、検出部14で検出された人位置φを基準方向として(角度0度の方向として)、定位部16を右回転方向に30度毎回転駆動させた状態を示している。
なお、学習対象方向θfは、上記のような30度毎の値に限られず、予め任意の複数の角度を設定すればよい。
また、本実施の形態では、学習対象位置として、学習対象方向θfを用いる場合を説明するが、対応する人位置φからの距離を学習対象位置として定めてもよい。なお、距離は、ワールド座標における人位置φからの距離として、複数の距離を定めればよい。また、学習対象位置は、これらの学習対象方向θfと人位置φからの距離とを組み合わせたものであってもよい。
差分合計は、学習対象方向θfと、該学習対象方向θfを集音方向とするように集音方向を変更された定位部16で特定した音源位置θsと、の差分の絶対値の累積値である。
データ数とは、学習対象方向θfと、該学習対象方向θfを集音方向とするように集音方向を変更された定位部16で特定した音源位置θsと、の差分の絶対値の、算出回数を示す。このデータ数は、予め最大値(以下、閾値TNと称する場合がある)が定められており、学習対象方向θfと、該学習対象方向θfを集音方向とするように集音方向を変更された定位部16で特定した音源位置θsと、の差分の絶対値の、算出が行われる度に、カウントアップされる。
なお、閾値TNには、任意の値を予め定めればよい。図3では、閾値TNとして、データ数10個を予め定めた場合を示している。
学習テーブルに格納されている定位精度は、対応する学習対象方向θfにおける、定位部16の定位精度を示す。
学習状態とは、対応する学習対象方向θfの定位精度が算出済であるか否かを示す。学習状態には、「学習済み」と、「未学習」と、がある。「学習済み」とは、対応する人位置φ及び学習対象方向θfにおける、定位精度が算出済であることを示す。「学習未」とは、対応する人位置φ及び学習対象方向θfにおける、定位精度が算出未であることを示す。
図2に戻り、制御部12は、検出部14、定位部16、駆動部18、及び記憶部20に信号授受可能に接続されている。
制御部12は、CPU(Central Processing Unit)、ROM(Read Only Memory)、及びRAM(Random Access Memory)などを含んで構成されるコンピュータである。
制御部12は、第1取得部22、第2取得部24、第1算出部26、第1選択部28、第1駆動制御部30、及び認識部32を含む。
第1取得部22は、検出部14から人位置φを取得する。第2取得部24は、定位部16から音源位置θsを取得する。また、第2取得部24は、音声を示す周波数帯域の音声信号を定位部16から取得する。
第1算出部26は、検出部14で検出された人位置φに対応する、予め定めた複数の学習対象方向θf毎の定位精度を算出する。
第1算出部26は、第2選択部26Aと、第2駆動制御部26Bと、第2算出部26Cと、を含む。
第2選択部26Aは、検出部14から取得した人位置φに対応する複数の学習対象方向θfの内、未学習の学習対象方向θfを選択する。第2駆動制御部26Bは、第2選択部26Aで選択された学習対象方向θfを集音方向とするように、駆動部18を駆動制御する。
第2算出部26Cは、第2選択部26Aで選択された学習対象方向θfを集音方向とするように駆動された定位部16で特定された音源位置θsと、該学習対象方向θfと、の差分の絶対値(|−θs−θf|)から、検出部14から取得した人位置φ及び該学習対象方向θfに対応する定位精度を算出する。
具体的には、第2算出部26Cは、第2選択部26Aで選択された学習対象方向θfを集音方向とするように駆動された定位部16で特定された音源位置θsと、該学習対象方向θfと、の差分の絶対値(|−θs−θf|)の算出を、予め定めた回数(閾値TN)分実行する。そして、第2算出部26Cは、これらの差分の絶対値の合計である差分合計を、閾値TNで除算した値を、定位精度として算出する。
なお、本実施の形態では、第1算出部26は、音源位置θsと、該学習対象方向θfと、の差分の絶対値(|−θs−θf|)を用いて定位精度を算出するので、図3に示すように、定位性度の数値の値が小さい程、定位精度が高い事を示す。
第1選択部28は、第1取得部22で検出部14から取得した人位置φに対応する、学習対象方向θf毎に算出された定位精度であって、予め定めた閾値(第1閾値)以上の定位精度の内の1つに対応する学習対象方向θfを選択する。例えば、第1選択部28は、予め定めた閾値(第1閾値)以上の定位精度の内、最も定位精度の高い学習対象方向θfを選択する。閾値としては、例えば、人位置φに対応する、前回算出された複数の定位精度の平均値を用いることができる。なお、ユーザの操作指示等によって閾値を変更可能としてもよい。
第1駆動制御部30は、定位部16の集音方向が、第1選択部28で選択された学習対象方向θfとなるように、駆動部18を制御する。
このため、駆動部18は、検出部14で検出された人位置φに対して、最も定位精度の高い方向を向くように定位部16の集音方向を変更する。
そして、認識部32は、検出部14で検出された人位置φに対して、最も定位精度の高い方向を向くように定位部16の集音方向を変更された定位部16で取得された、音声信号を用いて、音声認識を実行する。認識部32は、公知の方法で音声認識を実行する。
次に、制御部12で実行する集音処理を説明する。
図4は、制御部12で実行する集音処理の手順を示すフローチャートである。
まず、第1算出部26が、音響環境が変化したか否かを判断する(ステップS100)。第1算出部26では、前回ステップS100の判断を行ったときに、第1取得部22で取得された音響環境と、今回ステップS100の判断時に第1取得部22で取得された音響環境と、が不一致であるか否かを判別することで、ステップS100の判断を行う。例えば、音響環境が物体の配置である場合、第1算出部26は、前回ステップS100の判断を行ってから、物体の配置が変化したか否かを判断する。
ステップS100で肯定判断すると(ステップS100:Yes)、ステップS102へ進む。ステップ102では、制御部12が、記憶部20の学習テーブルに格納されている全ての学習状態を「未学習」とすることで、全学習状態をリセットする(ステップS102)。そして、ステップS104へ進む。
なお、ステップS102の処理において、本実施の形態では、制御部12は、記憶部20の学習テーブルに格納されている、差分合計、データ数、定位精度の全てについても、初期値である「0」にリセットする。
なお、制御部12は、ステップS102の処理において、記憶部20の学習テーブルに格納されている定位精度の値はリセットせず、差分合計、データ数、及び学習状態についてのみリセットしてもよい。この場合、集音装置10は、集音装置10の音響環境が変わる前の定位精度も更に加味した状態で、最適な音源定位を行うことができる。
一方、ステップS100で否定判断した場合についても(ステップS100:No)、ステップS104へ進む。
ステップS104では、第1算出部26が、検出部14で検出された人位置φを読み取る(ステップS104)。ステップS104では、第1算出部26は、ステップS100で肯定判断したときに検出部14で検出された人位置φを読み取る。
次に、記憶部20から、第1算出部26は、上記ステップS104で読み取った人位置φに対応する全学習状態を確認する(ステップS106)。
次に、第1算出部26は、上記ステップS104で読み取った人位置φに対応する全ての学習状態が「学習済み」であるか否かを判断する(ステップS108)。ステップS108の処理によって、第1算出部26は、ステップS104で読み取った人位置φに対する、各学習対象方向θfの各々に対応する全ての定位精度が算出された状態であるか否かを判断する。
ステップS108で肯定判断すると(ステップS108)、第1選択部28が、上記ステップS104で読み取った人位置φに対応する定位精度の内、最も高い定位精度に対応する学習対象方向θfを記憶部20から選択する(ステップS110)。なお、最も高い定位精度に対応する学習対象方向θfが複数ある場合には、第1選択部28は、これらの複数の学習対象方向θfの内の1つを選択する。
次に、第1駆動制御部30が、定位部16の集音方向を、ステップS110で選択された学習対象方向θfとするように駆動部18を制御する(ステップS112)。
ステップS112の処理によって、定位部16は、検出部14で検出された人位置φを、該人位置φに対して最も定位精度の高い集音方向とするように、定位部16の集音方向を変更する。
次に、認識部32が、上記ステップS112の処理によって集音方向を変更された定位部16で集音された音声信号に基づいて、音声認識を行う(ステップS114)。そして、本ルーチンを終了する。
一方、上記ステップS108で否定判断すると(ステップS108:No)、ステップS116へ進む。
ステップS116では、第2選択部26Aが、上記ステップS104で読み取った人位置φに対する複数の学習対象方向θfの内、定位精度の学習状態が「未学習」の学習対象方向θfの内の1つを、学習対象として選択する(ステップS116)。
次に、第2駆動制御部26Bが、定位部16の集音方向を、ステップS116で学習対象として選択された学習対象方向θfとするように、駆動部18を制御する(ステップS118)。ステップS118の処理によって、定位部16の集音方向が、ステップS116で学習対象として選択された学習対象方向θfとなるように、定位部16が回転駆動される。
次に、第2算出部26Cが、上記ステップS116において、第2選択部26Aで選択された学習対象方向θfを集音方向とするように駆動された定位部16で特定された音源位置θsと、該学習対象方向θfと、の差分の絶対値(|−θs−θf|)から、検出部14から取得した人位置φ及び該学習対象方向θfに対応する定位精度を算出する(詳細後述)。
詳細は後述するが、例えば、図3に示す学習テーブルにおける、人位置φとして「−90度」がステップS104で読み取られ、ステップS116の処理によって、学習対象方向θf「30度」が選択されたとする。この場合、第1算出部26は、ステップS120の精度算出処理を実行することによって、人位置φ「−90度」を基準方向とする学習対象方向θf「30度」を集音方向とした定位部16の定位精度を算出する。また、定位精度の算出を行うと、第1算出部26は、対応する学習状態を「学習済み」に変更する。
そして、上記ステップS104へ戻る。
次に、第1算出部26が実行する精度算出処理(図4のステップS120)を説明する。
図5は、第1算出部26が実行する精度算出処理の手順を示すフローチャートである。
まず、第1算出部26は、上記ステップS104で読み取った人位置φを第1取得部22から読み取る(ステップS200)。
次に、第1算出部26は、上記ステップS200で読み取った人位置φが、複数であるか否かを判断する(ステップS201)。すなわち、ステップS201において、第1算出部26は、検出部14で複数の人位置φが検出されたか否かを判断する。
ステップS201で否定判断すると(ステップS201:No)、後述するステップS204へ進む。一方、ステップS201で肯定判断すると(ステップS201:Yes)、ステップS202へ進む。
ステップS202では、第1算出部26は、近距離に複数人存在するか否かを判断する(ステップS202)。近距離とは、予め定めた最小距離(第3閾値)未満の距離である。この最小距離は、定位部16で個々に音源定位の可能な距離の最小値であり、定位部16の性能によって定まる。本実施の形態では、第1算出部26は、ステップS200で読み取った人位置φ間の角度が、予め定めた第1角度未満であるか否かを判別することで、ステップS202の判断を行う。第1角度は、定位部16で個々に音源定位の可能な最小角度であり、定位部16の性能によって定まる。この第1角度は、予め記憶部20に記憶しておけばよい。
次に、第1算出部26は、定位部16から、定位部16で取得した音声情報、及び定位部16で特定した音源位置θsを読み取る(ステップS204)。第1算出部26は、上記ステップS118の処理によって集音方向の変更された状態の定位部16から、第2取得部24で取得された音声情報及び音源位置θsを読み取ることで、ステップS204の処理を行う。
次に、第2算出部26Cは、上記ステップS116(図4参照)で学習対象として選択した学習対象方向θfと、ステップS204で読み取った音源位置θsと、の差分の絶対値(Dとする)を算出する(ステップS206)。なお、該差分の絶対値Dは、下記式(2)で示される。
D←|−θs−θf| ・・・(1)
次に、第1算出部26は、上記ステップS206で算出した、学習対象方向θfと音源位置θsとの差分の絶対値Dが、予め定めた第2閾値TDより小さいか否かを判断する(ステップS208)。
第2閾値TDは、定位部16がノイズの多い音声を用いて音源定位を行ったか否かを判断するための閾値であり、定位部16の構成に応じて予め定める。
すなわち、ステップS208で否定判断する場合は(ステップS208:No)、推定される音源からの音以外の音、すなわち雑音が多く含まれている状態を示す。
ステップS208で否定判断すると(ステップS208:No)、本ルーチンを終了する。このため、第1算出部26は、雑音が多く含まれている場合には、学習対象として設定した学習対象方向θfについての定位精度の算出を行わない。
一方、ステップS208で肯定判断すると(ステップS208:Yes)、ステップS210へ進み、第2算出部26Cが、定位精度の更新処理を実行し(ステップS210)、本ルーチンを終了する。
次に、ステップS210の定位精度の更新処理を説明する。
図6は、第1算出部26の第2算出部26Cが行う、定位精度の更新処理の手順を説明するフローチャートである。
まず、第2算出部26Cが、記憶部20から、上記ステップS200で読み取った人位置φ、及び上記ステップS116(図4参照)で学習対象として選択した学習対象方向θfに対応する、学習状態を確認する(ステップS300)。
次に、第2算出部26Cは、上記ステップS200で読み取った人位置φ、及び上記ステップS116(図4参照)で学習対象として選択した学習対象方向θfに対応する、学習状態が、「学習済み」であるか否かを判断する(ステップS302)。
ステップS302で肯定判断すると(ステップS302:Yes)、本ルーチンを終了する。一方、ステップS302で否定判断すると(ステップS302:No)、ステップS304へ進む。
ステップS304では、第2算出部26Cは、差分合計を算出する(ステップS304)。具体的には、第2算出部26Cは、記憶部20から、上記ステップS200で読み取った人位置φ、及び上記ステップS116(図4参照)で学習対象として選択した学習対象方向θfに対応する差分合計を記憶部20から読み取る。そして、第1算出部26は、読み取った該差分合計に、上記ステップS206で算出した、学習対象方向θfと音源位置θsとの差分の絶対値Dを加算した結果を、新たな差分合計として算出する(ステップS304)。
次に、第2算出部26Cは、差分合計を更新する(ステップS306)。詳細には、第2算出部26Cは、ステップS304で算出した差分合計を、上記ステップS200で読み取った人位置φ、及び上記ステップS116(図4参照)で学習対象として選択した学習対象方向θfに対応する差分合計として、記憶部20に記憶することで、差分合計を更新する。
次に、第2算出部26Cは、記憶部20における、上記ステップS200で読み取った人位置φ、及び上記ステップS116(図4参照)で学習対象として選択した学習対象方向θfに対応するデータ数であるNの値を、1カウントアップする(ステップS308)。
次に、第2算出部26Cは、記憶部20における、上記ステップS200で読み取った人位置φ、及び上記ステップS116(図4参照)で学習対象として選択した学習対象方向θfに対応するデータ数であるNの値が、予め定めた閾値TNを超えたか否かを判断する(ステップS310)。
ステップS310で否定判断すると(ステップS310:No)、本ルーチンを終了する。
一方、ステップS310で肯定判断すると(ステップS310:Yes)、ステップS312へ進む。
ステップS312では、第2算出部26Cは、上記ステップS200で読み取った人位置φ、及び上記ステップS116(図4参照)で学習対象として選択した学習対象方向θfに対応する、定位精度を算出する(ステップS312)。詳細には、第2算出部26Cは、記憶部20における、上記ステップS200で読み取った人位置φ、及び上記ステップS116(図4参照)で学習対象として選択した学習対象方向θfに対応する差分合計を、対応するデータ数(本実施の形態では閾値TN)で除算した値を、定位精度として算出する。
次に第2算出部26Cは、ステップS312で算出した定位精度を、上記ステップS200で読み取った人位置φ、及び上記ステップS116(図4参照)で学習対象として選択した学習対象方向θfに対応する定位精度として記憶部20に記憶する(ステップS314)。
次に、第2算出部26Cは、記憶部20における、上記ステップS200で読み取った人位置φ、及び上記ステップS116(図4参照)で学習対象として選択した学習対象方向θfに対応する学習状態を「学習済み」に変更し(ステップS316)、本ルーチンを終了する。
以上説明したように、本実施の形態の集音装置10では、第1算出部26が、検出部14で検出された人位置φに対応する、該人位置φを基準方向とする予め定めた複数の学習対象方向θf毎の定位精度を算出する。そして、第1選択部28は、第1取得部22で検出部14から取得した人位置φに対応する、学習対象方向θf毎に算出された定位精度の内、最も定位精度の高い学習対象方向θfを選択する。第1駆動制御部30は、定位部16の集音方向が、第1選択部28で選択された学習対象方向θfとなるように、駆動部18を制御する。
このため、駆動部18は、検出部14で検出された人位置φに対して、最も定位精度の高い方向を向くように定位部16の集音方向を変更する。
従って、検出された人位置φに対して最も定位精度の高い方向を向くように集音方向を変更された定位部16により音源位置を特定することで、本実施の形態の集音装置10では、音源定位を高精度に行うことができる。
また、認識部32は、検出部14で検出された人位置φに対して、最も定位精度の高い方向を向くように定位部16の集音方向を変更された定位部16で取得された、音声信号を用いて、音声認識を実行する。認識部32は、公知の方法で音声認識を実行する。
このため、集音装置10では、高精度に音声認識を行うことができる。
また、集音装置10では、集音装置10の音響環境に変化があった場合に、既に算出されている定位精度をリセットし、新たに定位精度を算出する。
このため、本実施の形態の集音装置10では、音響環境に応じた定位精度を精度よく算出することができる。
また、第2選択部26Aは、検出部14から取得した人位置φに対応する複数の学習対象方向θfの内、未学習の学習対象方向θfを選択する。第2駆動制御部26Bは、第2選択部26Aで選択された学習対象方向θfを集音方向とするように、駆動部18を駆動制御する。そして、第2算出部26Cは、第2選択部26Aで選択された学習対象方向θfを集音方向とするように駆動された定位部16で特定された音源位置θsと、該学習対象方向θfと、の差分の絶対値(|−θs−θf|)から、検出部14から取得した人位置φ及び該学習対象方向θfに対応する定位精度を算出する。
このため、本実施の形態の集音装置10では、高精度に、学習対象方向θf毎の定位精度を算出することができる。
また、第2算出部26Cは、第2選択部26Aで選択された学習対象方向θfを集音方向とするように駆動された定位部16で特定された音源位置θsと、該学習対象方向θfと、の差分の絶対値(|−θs−θf|)の算出を、予め定めた回数(閾値TN)分実行する。そして、第2算出部26Cは、これらの差分の絶対値の合計である差分合計を、閾値TNで除算した値を、定位精度として算出する。
このため、本実施の形態の集音装置10では、更に高精度に、学習対象方向θf毎の定位精度を算出することができる。
また、集音装置10では、定位精度が未学習の学習対象方向θfを集音方向とするように定位部16の集音方向を変更し、集音方向を変更された定位部16で特定された音源位置θsと、該学習対象方向θfと、の差分の絶対値Dが、予め定めた第2閾値TDより小さい場合に、定位精度の算出を行う。この第2閾値TDは、定位部16がノイズの多い音声を用いて音源定位を行ったか否かを判断するための閾値である。
このため、本実施の形態の集音装置10では、定位精度の低下を抑制することができる。
また、第1算出部26は、検出部14が、複数の人位置を検出し、且つ、検出した人位置φによって特定される人の距離が、予め定めた最小距離(第3閾値)未満である場合には、定位精度の算出を行わない。
このため、集音装置10は、学習対象方向θf毎の定位精度の低下を抑制することができる。
次に、上記に説明した集音装置10のハードウェア構成について説明する。図7は、本実施の形態の集音装置10のハードウェア構成例を示すブロック図である。
本実施の形態の集音装置10は、検出部80、通信I/F部82、定位部84、駆動部96、CPU86、ROM88、RAM90、及びHDD92等がバス94により相互に接続されており、通常のコンピュータを利用したハードウェア構成となっている。
CPU86は、集音装置10の全体の処理を制御する演算装置である。RAM90は、CPU86による各種処理に必要なデータを記憶する。ROM88は、CPU86による各種処理を実現するプログラム等を記憶する。HDD92は、上述した記憶部20に格納されるデータ等を記憶する。通信I/F部82は、外部装置や外部端末に通信回線等を介して接続し、接続した外部装置や外部端末との間でデータを送受信するためのインタフェースである。検出部80、定位部84、及び駆動部96は、各々、上述した検出部14、定位部16、及び駆動部18に相当する。
本実施の形態の集音装置10で実行される上記集音処理を実行するためのプログラムは、ROM88等に予め組み込んで提供される。
なお、本実施の形態の集音装置10で実行される上記集音処理を実行するためのプログラムは、これらの装置にインストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供するように構成してもよい。
また、本実施の形態の集音装置10で実行される上記集音処理を実行するためのプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施の形態の集音装置10で実行される上記集音処理を実行するためのプログラムを、インターネット等のネットワーク経由で提供または配布するように構成してもよい。
本実施の形態の集音装置10で実行される上記集音処理を実行するためのプログラムは、上述した各部が記憶装置上に生成されるようになっている。
なお、上記HDD92に格納されている各種情報、すなわち記憶部18に格納されている各種情報は、外部装置(例えばサーバ)に格納してもよい。この場合には、該外部装置とCPU86と、を、ネットワーク等を介して接続した構成とすればよい。
なお、上記には、本発明の実施の形態を説明したが、本実施の形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施の形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施の形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
10 集音装置
12 制御部
14 検出部
16 定位部
18 駆動部
20 記憶部
22 第1取得部
24 第2取得部
26 算出部
26A 第2選択部
26B 第2駆動制御部
26C 第2算出部
28 第1選択部
30 第1駆動制御部

Claims (7)

  1. 人位置を検出する検出部と、
    音源位置を特定する定位部と、
    前記定位部の集音方向を変更する駆動部と、
    検出された前記人位置を基準方向とし、該基準方向に対する予め定めた複数の学習対象方向の各々を集音方向とした前記定位部の定位精度を算出する第1算出部と、
    算出された前記定位精度の内、予め定めた閾値以上の定位精度の内の1つに対応する前記学習対象方向を選択する第1選択部と、
    前記定位部の集音方向が、選択された前記学習対象方向となるように、前記駆動部を制御する第1駆動制御部と、
    を備えた集音装置。
  2. 前記第1算出部は、当該集音装置の音響環境が変化したときに、前記定位精度を算出する、請求項1に記載の集音装置。
  3. 前記第1算出部は、
    検出された人位置に対応する複数の学習対象方向の内、定位精度が未学習の1の学習対象方向を選択する第2選択部と、
    選択された該学習対象方向を集音方向とするように、前記駆動部を制御する第2駆動部と、
    選択された該学習対象方向を集音方向とした前記定位部で特定された音源位置と、該学習対象方向と、の差分に基づいて、該音源位置及び該学習対象方向に対応する定位精度を算出する第2算出部と、
    を含む、請求項1または請求項2に記載の集音装置。
  4. 前記第2算出部は、
    選択された該学習対象方向を集音方向とした前記定位部で特定された音源位置と、該学習対象方向と、の差分の絶対値が、予め定めた第2閾値より小さい場合に、該音源位置及び該学習対象方向に対応する定位精度を算出する、請求項3に記載の集音装置。
  5. 前記第2算出部は、
    前記検出部が前記人位置を複数検出し、且つ、検出した人位置によって特定される人の距離が予め定めた第3閾値未満である場合には、前記定位精度の算出を行わない、
    請求項3または請求項4に記載の集音装置。
  6. 前記第2算出部は、
    選択された該学習対象方向を集音方向とした前記定位部で特定された音源位置と、該学習対象方向と、の差分の絶対値を、予め定めた回数算出し、該差分の絶対値の合計値を、該回数で除算した値を、該音源位置及び該学習対象方向に対応する定位精度として算出する、請求項3〜請求項5の何れか1項に記載の集音装置。
  7. 前記定位部は、音声を収集し、前記音源位置を特定し、
    当該集音装置は、
    前記第1駆動制御部によって選択された前記学習対象方向を集音方向とした前記定位部で集音された音声に基づいて、音声認識を実行する音声認識部を更に備えた、請求項1〜請求項6の何れか1項に記載の集音装置。
JP2012149561A 2012-07-03 2012-07-03 集音装置 Expired - Fee Related JP5318258B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012149561A JP5318258B1 (ja) 2012-07-03 2012-07-03 集音装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012149561A JP5318258B1 (ja) 2012-07-03 2012-07-03 集音装置

Publications (2)

Publication Number Publication Date
JP5318258B1 true JP5318258B1 (ja) 2013-10-16
JP2014010438A JP2014010438A (ja) 2014-01-20

Family

ID=49595785

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012149561A Expired - Fee Related JP5318258B1 (ja) 2012-07-03 2012-07-03 集音装置

Country Status (1)

Country Link
JP (1) JP5318258B1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6385699B2 (ja) * 2014-03-31 2018-09-05 株式会社東芝 電子機器および電子機器の制御方法
JP6613503B2 (ja) * 2015-01-15 2019-12-04 本田技研工業株式会社 音源定位装置、音響処理システム、及び音源定位装置の制御方法
CN107785029B (zh) * 2017-10-23 2021-01-29 科大讯飞股份有限公司 目标语音检测方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001125594A (ja) * 1999-09-14 2001-05-11 Deutsche Thomson Brandt Gmbh ボイス制御のためにマイクロホンの指向特性を適合させる装置
JP2003209820A (ja) * 2002-01-16 2003-07-25 Optowave Laboratory Inc 画像配信装置
JP2005142640A (ja) * 2003-11-04 2005-06-02 Canon Inc 端末装置
JP2008522534A (ja) * 2004-12-02 2008-06-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ スピーカをマイクロホンとして使用する位置検出
JP2012211768A (ja) * 2011-03-30 2012-11-01 Advanced Telecommunication Research Institute International 音源定位装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001125594A (ja) * 1999-09-14 2001-05-11 Deutsche Thomson Brandt Gmbh ボイス制御のためにマイクロホンの指向特性を適合させる装置
JP2003209820A (ja) * 2002-01-16 2003-07-25 Optowave Laboratory Inc 画像配信装置
JP2005142640A (ja) * 2003-11-04 2005-06-02 Canon Inc 端末装置
JP2008522534A (ja) * 2004-12-02 2008-06-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ スピーカをマイクロホンとして使用する位置検出
JP2012211768A (ja) * 2011-03-30 2012-11-01 Advanced Telecommunication Research Institute International 音源定位装置

Also Published As

Publication number Publication date
JP2014010438A (ja) 2014-01-20

Similar Documents

Publication Publication Date Title
JP2020095748A (ja) 眼輻輳に基づいた視覚不注意の検出
JP5456832B2 (ja) 入力された発話の関連性を判定するための装置および方法
US9374647B2 (en) Method and apparatus using head movement for user interface
CN110875060A (zh) 语音信号处理方法、装置、系统、设备和存储介质
US9621984B1 (en) Methods to process direction data of an audio input device using azimuth values
WO2017092339A1 (zh) 一种收集传感器数据的处理方法和装置
CN110089131A (zh) 分布式音频捕获和混合控制
US20190313201A1 (en) Systems and methods for sound externalization over headphones
CN106898360B (zh) 音频信号处理方法、装置和电子设备
WO2013079782A1 (en) An audio driver user interface
JP5318258B1 (ja) 集音装置
JP2011061422A (ja) 情報処理装置、情報処理方法およびプログラム
WO2019105238A1 (zh) 重构语音信号的方法、终端及计算机存储介质
WO2019015159A1 (zh) 一种拾音方法及装置
US9582984B2 (en) Detecting physical separation of portable devices
CN107079219A (zh) 面向用户体验的音频信号处理
US10057683B2 (en) System for fitting audio signals for in-use ear
JP5134525B2 (ja) 方向情報分布推定装置、音源数推定装置、音源方向測定装置、音源分離装置、それらの方法、それらのプログラム
JP6878187B2 (ja) システム及び方法
KR20150082085A (ko) 명령-감지 메카니즘을 갖는 컴퓨팅 시스템 및 그 동작방법
CN109545217B (zh) 语音信号接收方法、装置、智能终端及可读存储介质
JP2011033369A (ja) 会議装置
CN115273431A (zh) 设备的寻回方法、装置、存储介质和电子设备
JP2014175932A (ja) 電子機器
EP2891957B1 (en) Computing system with command-sense mechanism and method of operation thereof

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130709

LAPS Cancellation because of no payment of annual fees