JP4926091B2 - 音響ポインティングデバイス、音源位置のポインティング方法及びコンピュータシステム - Google Patents

音響ポインティングデバイス、音源位置のポインティング方法及びコンピュータシステム Download PDF

Info

Publication number
JP4926091B2
JP4926091B2 JP2008037534A JP2008037534A JP4926091B2 JP 4926091 B2 JP4926091 B2 JP 4926091B2 JP 2008037534 A JP2008037534 A JP 2008037534A JP 2008037534 A JP2008037534 A JP 2008037534A JP 4926091 B2 JP4926091 B2 JP 4926091B2
Authority
JP
Japan
Prior art keywords
sound source
sound
source position
unit
pressure data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008037534A
Other languages
English (en)
Other versions
JP2009199158A (ja
Inventor
真人 戸上
貴志 住吉
康成 大淵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2008037534A priority Critical patent/JP4926091B2/ja
Priority to US12/269,155 priority patent/US20090207131A1/en
Priority to CN2008101761767A priority patent/CN101515197B/zh
Publication of JP2009199158A publication Critical patent/JP2009199158A/ja
Application granted granted Critical
Publication of JP4926091B2 publication Critical patent/JP4926091B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/041Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
    • G06F3/043Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means using propagating acoustic waves
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/041Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
    • G06F3/0416Control or interface arrangements specially adapted for digitisers

Description

本発明は、コンピュータにおける表示装置の画面上の1点をユーザが指定するためのポインティングデバイスに関し、特に、音響情報を用いたポインティングデバイスの技術に関する。
一般にマウスを用いたポインティングデバイスが、コンピュータの操作に使われることが多い。これはマウスの操作とコンピュータにおける表示装置の画面上のカーソルとが連動して動き、画面上で選択したいポイントは、カーソルをそのポイント上に移動させ、そのポイントの上でクリックすることで選択することができる。
また、タッチパネルを用いたポインティングデバイスについても、既に民生品として世の中に広まっている。タッチパネルでは、ディスプレイ上の各ポイントにユーザが画面を押す圧力を検出する素子を搭載し、各ポイント毎に押されたか否かを判定する。
音響情報を用いたポインティングデバイスとしては、画面を押したときに、超音波が出る特殊なペンを用いたデバイスが存在する(例えば、特許文献1参照)。
また、超音波とともに、光を発生し、受音・受光素子まで超音波と光が到達するまでの時間差を元に、ポインティング位置を検出する装置が存在する(例えば、特許文献2参照)。
また、ディスプレイ上に振動検出素子を設けて、指先がディスプレイに触れた際に、生じる振動の方向を検出し、それに基づき、ポイント位置を検出する装置が存在する(例えば、特許文献3参照)。
特開2002−351605号公報 特開2002−132436号公報 特開2002−351614号公報
しかしながら、コンピュータの操作にマウスを用いたポインティングデバイスでは、マウスを机に置かなければならず、使い勝手が悪い。また、タッチパネルは、付属機器は無いものの、特殊なディスプレイを必要とし、またディスプレイ上の各素子に押下圧力検出装置を付けなくてはならず、ディスプレイに近づいてポインティングする必要がある。
また、特許文献1、2に記載の技術では、ユーザは特殊なペンや座標入力装置を使用する必要がある。また、特許文献3に記載の技術では、表示面を接触して振動を発生させて振動を検出する必要がある。
上記問題点に鑑み、本発明は、コンピュータの操作に際し、付属機器を机の上に一切置くことなく、離れたところからでも、音の情報を用いてポインティング操作可能な音響ポインティングデバイス、音源位置のポインティング方法及び上記音響ポインティングデバイスを用いたコンピュータシステムを提供することを課題とする。
上記課題を解決するために、本発明による音響ポインティングデバイスは、検出すべき音の音源位置を検出し、前記音源位置を表示装置の画面上の1点に変換する音響ポインティングデバイスであって、複数のマイクロホン素子を保持するマイクロホンアレイと、前記マイクロホンアレイにより得られたアナログ音圧データをデジタル音圧データに変換するA/D変換部と、前記デジタル音圧データから、前記マイクロホン素子間の音の相関に基づいて前記検出すべき音の音源方向の推定を行う方向推定部と、前記デジタル音圧データのうち雑音レベルを推定し、前記雑音レベルと前記デジタル音圧データとに基づいて前記音の信号成分を算出して出力信号として出力する出力信号計算部と、前記音源方向と前記出力信号とを統合して前記音源位置を特定する統合部と、特定した前記音源位置を前記表示装置の前記画面上の1点に変換する制御部とを備える。
さらに、本発明による音響ポインティングデバイスは、前記マイクロホンアレイは複数のサブマイクロホンアレイからなり、前記サブマイクロホンアレイ毎に前記方向推定部で推定した前記音源方向を三角測量にて統合することにより、前記音源方向と前記音源位置までの距離を算出する三角測量部と、前記音源方向及び前記距離が予め定義する領域内にあるか否かを判定する定位判定部とを備え、 前記統合部は、前記出力信号と、前記領域内にある前記音源方向及び前記距離とを統合して前記音源位置を特定し、前記制御部は、特定した前記音源位置を前記表示装置の前記画面上の1点に変換する。
さらに、本発明による音響ポインティングデバイスは、前記マイクロホンアレイは複数のサブマイクロホンアレイからなり、前記デジタル音圧データを時間‐周波数領域からなる信号に変換する変換部と、前記サブマイクロホンアレイ毎に、前記信号を用いて前記方向推定部で推定した前記音源方向を三角測量にて統合することにより、前記音源方向及び前記音源位置までの距離を算出する三角測量部と、前記音源方向及び前記距離が予め定義する領域内にあるか否かを判定する定位判定部とを備え、前記統合部は、前記出力信号と、前記領域内にある前記音源方向及び前記距離とを統合して前記音源位置を特定し、前記制御部は、特定した前記音源位置を前記表示装置の前記画面上の1点に変換する。
さらに、本発明による音響ポインティングデバイスは、前記マイクロホンアレイは複数のサブマイクロホンアレイからなり、前記デジタル音圧データを時間‐周波数領域からなる信号に変換する変換部と、前記サブマイクロホンアレイ毎に、前記信号を用いて前記方向推定部で推定した前記音源方向を三角測量にて統合することにより、前記音源方向及び前記音源位置までの距離を算出する三角測量部と、前記音源方向及び前記距離が予め定義する領域内にあるか否かを判定する定位判定部と、前記出力信号計算部で出力した前記出力信号が予め定める閾値以上となるよう判定する出力信号判定部と、前記検出すべき音の周波数特性を予め記憶した音源周波数データベースと、前記音源位置から前記画面上の前記1点を特定できる変換テーブルを格納する画面変換データベースとを備え、前記統合部は、前記閾値以上となる前記出力信号を前記周波数特性で重み付けを行い、前記領域内にある前記音源方向並びに前記距離と統合して前記音源位置を特定し、前記制御部は、特定した前記音源位置を前記画面変換データベースの情報を用いて前記画面上の1点に変換する。
さらに、本発明では、上記音響ポインティングデバイスに用いる音源位置のポインティング方法、及び、上記音響ポインティングデバイスを備えるコンピュータシステムを提供する。
本発明によれば、コンピュータの操作に際し、付属機器を机の上に一切置くことなく、離れたところからでも、音の情報を用いてポインティング操作可能な音響ポインティングデバイスを提供することができる。
更に、上記音響ポインティングデバイスに用いる音源位置のポインティング方法を提供することができる。
更に、上記音響ポインティングデバイスを用いたコンピュータシステムを提供することができる。
以下に、本発明の実施の形態について、添付の図面を参照しながら詳細に説明する。
図1は、本発明に係る実施の形態の一例を示す音響ポインティングデバイスの概略構成図である。音響ポインティングデバイスは、例えば、パーソナル コンピュータ(以下、「PC」という)のマウス装置の代わりに用いるポインティングデバイスであり、ユーザが机を叩くことで、表示部に表れた特定の位置を指定することが可能なポインティングデバイスである。なお、机などを叩いた音等で音響ポインティングデバイスの音源として検出すべき音を、以下、「突発性音」という。図1に示す音響ポインティングデバイスは、少なくとも2以上のマイクロホン素子(以下、「マイクロホン」ともいう)より構成されるマイクロホンアレイ101、マイクロホンアレイ101で得られた各マイクロホン素子による多チャンネルの突発性音のアナログ音圧データをデジタル音圧データに変換するA/D(Analogue to Digital)変換部102、デジタル音圧データを特定量格納するバッファリング部201、デジタル音圧データを時間‐周波数領域の信号に変換するSTFT(Short Term Fourier Transform)部202、マイクロホンアレイを複数のサブマイクロホンアレイ(以下、「サブアレイ」ともいう)に分割し、同一サブマイクロホンアレイ内におけるマイクロホン素子間の音の相関により算出した突発性音の方向を方位角と仰角とに基づいて方向の推定を行う方向推定部203、サブマイクロホンアレイ毎に求めた音源方向を統合し、音源の方位角、仰角及び距離を測定する三角測量部206、三角測量部206で求めた音源の位置が予め定める範囲内か否かを判定する定位判定部207、デジタル音圧データから背景の雑音パワーを推定する雑音推定部204、デジタル音圧データと雑音パワーからSNR(Signal to Noise Ratio)を推定するSNR推定部205、SNR推定部205が出力するSNRの推定値が予め定める閾値以上となるSNRを出力するSNR判定部208、デジタル音圧データとSNRから信号パワーを計算するパワー計算部209、信号パワーが予め定める閾値以上となる信号パワーを出力するパワー判定部210、SNR判定部とパワー判定部とが同時に特定した時間‐周波数成分を定位判定部が予め定義した領域内の音源位置座標として出力する統合部211、及び、この音源位置座標を表示画面上の特定の点に変換する制御部212を備える。
更に、予め対象とする音の周波数特性を格納した音源周波数データベース(以下、「DB」という)208と、音源座標と表示画面上の特定の点とを対応付ける画面変換DB213とを備える。
なお、上記デジタル音圧データを時間領域からなる信号のみとして用いた場合は、STFT部202、パワー判定部210、SNR判定部及び音源周波数DB208を省略して音源位置を特定することも可能である。図2に、時間領域のみの信号を用いる上記音響ポインティングデバイスの概略構成図を示す。図2は、音源位置を特定するための最小限の構成を示している。ここで、出力信号計算部とは、雑音推定部204、SNR推定部205及びパワー計算部209をいう。更に、音源位置をより正確に特定するためには、三角測量部206及び定位判定部207を含む必要がある。
図3は、上記音響ポインティングデバイス及びそれを備えるコンピュータシステムのハードウェア構成図である。図3(a)は、上記音響ポインティングデバイスのハードウェアの構成図を示し、上述したマイクロホンアレイ101、上記アナログ音圧データをデジタル音圧データに変換するA/D変換部102、上記音響ポインティングデバイスに係る処理を行う中央演算装置103、メモリ104、及び、上記音響ポインティングデバイスに係るプログラムやマイクロホンアレイの各マイクロホン素子の物理座標を格納する記憶媒体105から構成される。図1に示す上記音響ポインティングデバイスのうち、マイクロホンアレイ101とA/D変換部102を除く各構成部は、中央演算装置103上で揮発性メモリ104を使用しながら上記プログラムが実行されることにより、実現される。
図3(b)は、上記音響ポインティングデバイスを備えるコンピュータシステムのハードウェア構成図である。上記コンピュータシステムは、音響ポインティングデバイス10、 音響ポインティングデバイス10の音源位置に関する情報を用いるプログラムを処理する中央演算装置20、上記プログラムや演算処理の際に用いる記憶装置30、及び、音源位置を画面上に表示するための表示装置を備える。
次に、図1に示す各構成部について更に詳細に説明する。
及び、音源位置を画面上の点として表示するための表示装置106を備える。
A/D変換部102により変換された多チャンネルのデジタル音圧データは、バッファリング部201にチャンネル毎に特定量貯められる。時間‐周波数領域での処理は、通常、1サンプル得られるたびに処理を行うのではなく、複数サンプル得られた後、一括して処理を行う。特定量の音圧データが貯まるまでは一切処理をせず、特定量のデジタル音圧データが貯まった後、初めて処理を行う。
バッファリング部201は、この特定量のデジタル音圧データを貯める機能を有する。各マイクロホン素子で得られたデジタル音圧データを、0から始まるインデックスiにより、マイクロホン素子ごとに区別して処理する。nを整数とし、デジタル変換を開始してからn回目にサンプリングされたi番目のマイクロホン素子のデジタル音圧データをxi(n)と表記する。
STFT(Short Term Fourier Transform)部202では、マイクロホン素子毎のデジタル音圧データを下記(式1)に従い、時間−周波数領域の信号に変換する。
Figure 0004926091
ここで、jは(式2)で定義される。
Figure 0004926091
また、Xi(f,τ)は、i番素子のf番目の周波数成分となる。fは0から始まり、N/2で終わる。Nは時間‐周波数領域の信号に変換するデジタル音圧データのデータ長とする。通常フレームサイズと呼ばれる。Sは通常フレームシフトと呼ばれ、時間‐周波数領域の信号に変換する際の、デジタル音圧データをずらす量となる。バッファリング部201は、マイクロホン素子ごとに、新しいSサンプルを取得するまで、デジタル音圧データを貯め続け、Sサンプル取得したのち、STFT部202で、時間‐周波数領域の信号に変換する。
τはフレームインデックスと呼ばれ、時間‐周波数領域の信号に変換した回数に相当する。τは0から始まる。w(n)は窓関数と呼ばれ、通常、ブラックマンウィンドウ、ハニング窓、ハミング窓といった関数が使われる。窓関数を用いることで、精度の高い時間‐周波数分解が可能となる。
時間‐周波数領域の信号に変換したデジタル音圧データは、方向推定部203に送られる。
方向推定部203では、まず、マイクロホンアレイを形成するマイク素子を複数のサブマイクロホンアレイに分割する。そしてサブマイクロホンアレイごとに、音源方向を各々の座標系で推定する。サブマイクロホンアレイへの分割は、例えば、R個のサブマイクロホンアレイに分割する場合、マイクロホンアレイを形成するM個のマイク素子は、R個のサブマイクロホンアレイのいずれか少なくとも1つに割り振られる。2つ以上のサブマイクロホンアレイに割り振られてもよく、この場合、複数のサブマイクロホンアレイが同一のマイク素子を有することとなる。
図4は、サブマイクロホンアレイを示す図である。図4(a)は、サブマイクロホンアレイの直線配置を示す図である。直線配置の場合は、マイクロホン素子が並ぶアレイ方向と直交する方向を角度0度と定め、音源とサブマイクロホンアレイを結ぶ直線と、その方向から半時計周りに上記直線との成す角θのみが推定可能となる。また、dはマイク間隔を表している。図4(b)は、上述したM個のマイク素子をR個のサブマイクロホンアレイに割り振られた状態を示す図であり、1個のサブマイクロホンアレイに3個のマイク素子が割り振られて構成されている。
サブマイクロホンアレイの2つのマイクロホン素子が机上面に平行に配置されたときは、上記角θは水平方向の方位角として推定される。一方、上記2つのマイクロホン素子が机上面に垂直に配置されたときは、上記角θは垂直方向の仰角として推定される。このようにして、方位角及び仰角が推定される。
サブマイクロホンアレイは、少なくとも2つのマイクロホン素子を有するものとし、有するマイクロホン素子が2つの場合は、θを(式3)で推定する。
Figure 0004926091
ここで、ρは、2つのマイクロホン素子の入力信号の、フレームτ、周波数インデックスfの位相差とする。Fは周波数インデックスfの周波数(Hz)とする。F=(f+0.5)/N×Fs/2とする。Fsは、A/D変換部102のサンプリングレートである。dは2つのマイクロホン素子の物理的な間隔(m)とする。cは音速(m/s)とする。音速は、厳密、温度や媒質の密度に依存し変化するが、通常340m/sなど1つの値に固定し用いる。
方向推定部203の内部の処理は、時間‐周波数毎に同一の処理であるため、以後、時間‐周波数のサフィックス(f,τ)は省略して表記する。方向推定部203の処理は時間‐周波数毎に同一の処理を行う。サブマクロホンアレイが3つ以上のマイクロホン素子を用いて、かつそれらが直線上に配置している場合、直線配置におけるSPIREアルゴリズムにより、その方向を高精度に算出することが可能である。SPIREアルゴリズムの詳細は、M. Togami, T. Sumiyoshi, and A. Amano,「Stepwise phase difference restoration method for sound source localization using multiple microphone pairs」,ICASSP2007, vol.I, pp.117-120, 2007.に記載されている。
SPIREアルゴリズムでは、隣接するマイクロホン素子の間隔(以下、「マイク間隔」という)の異なる複数のマイクロホンペアを用いるため、サブマクロホンアレイを構成するマイクロホン素子をそれぞれのマイク間隔が異なるように配置することが望ましい。各マイクロホンペアをマイク間隔が小さいものから順にソートする。pを、一つのマイクロホンペアを特定するための印でデックスとし、p=1が最もマイク間隔が短いマイクペアとなり、p=Pが最もマイク間隔が長いマイクロホンペアとする。p=1からp=Pまで、順に次の処理を実行する。まず、下記(式4)を満たす整数npを見つける。
Figure 0004926091
不等式で囲まれた範囲が2πに相当するため、必ず一つだけ解が見つかる。そして、下記(式5)を実行する。
Figure 0004926091
また、上記の処理をp=1に対して行う前に初期値として、下記(式6)を設定する。
Figure 0004926091
また、dpはp番目のマイクロホンペアのマイクロホン素子間の間隔とする。上記の処理をp=Pまで実行したのち(式7)で音源方向を推定する。
Figure 0004926091
音源方向推定の推定精度は、マイク間隔が長い程、高まることが知られているが、方向を推定する信号の半波長以上マイク間隔が長ければ、マイク間の位相差から一つの方向を特定することができず、同じ位相差を持つ二つ以上の方向が存在してしまうことが知られている(空間的エイリアシング)。SPIREアルゴリズムでは、長いマイク間隔で生じた二つ以上の推定方向のうち、短いマイク間隔で求めた音源方向に近い方向を選択するような機構を備えている。したがって、空間的エイリアシングが生じるような長いマイク間隔でも高精度に音源方向を推定することができるという利点を備えている。マイクペアが非直線配置の場合は、非直線配置用のSPIREアルゴリズムにより、方位角と場合によっては仰角についても算出することが可能となる。
また、上記デジタル音圧データが、時間‐周波数領域の信号でない場合、即ち、時間領域でのみ場合は、上記SPIREアルゴリズムは用いることができない。時間領域のみの場合は、GCC−PHAT(Generalized Cross Correlation PHAse Transform)法が用いられて、方向が推定される。
雑音推定部204では、STFT部202の出力信号から背景の雑音レベルを推定する。雑音レベルの推定には、MCRA(Minima Controlled Recursive Averaging)などを用いる。MCRAの雑音推定処理は、minimum statistics法をベースとする。minimum statistcis法は、周波数毎に、数フレームの間で最小のパワーを雑音パワーの推定値とする。一般に音声や机のたたき音は、周波数毎に、突発的に大きなパワーを持つことが多く、長い間大きいパワーを保持することは少ない。そのため、数フレームの間で、最小のパワーを取る成分は、雑音のみが含まれる成分と近似することができ、音声発話区間であっても、高精度に雑音パワーを推定可能である。推定したマイク素子・周波数毎の雑音パワーをNi(f,τ)と表記する。iはマイクロホン素子のインデックスであり、マイクロホン素子毎に雑音パワーを推定する。また雑音パワーは毎フレーム更新するため、τに依存する値となる。雑音推定部204は、推定したマイクロホン素子・周波数毎の雑音パワーNi(f,τ)を出力する。
時間領域のみの場合は、雑音は、突発性音と比較して、パワーの出力は小さいが継続時間が長くなる特徴があることから、雑音パワーの推定が可能となる。
SNR推定部205は、推定した雑音パワー及びマイクロホンアレイの入力信号Xi(f,τ)から下記(式8)でSNR(Signal To Noise Ratio)を推定する。
Figure 0004926091
SNRi(f,τ)は、マイクインデックスiのフレームτ、周波数インデックスfのSNRである。SNR推定部205は推定したSNRを出力する。SNR推定部205は、入力パワーを時間方向に平滑化するなどしても良い。平滑化することで、雑音に強い安定したSNR推定が可能である。
三角測量部206は、サブマクロホンアレイ毎に求めた音源方向を統合し、方位角と仰角及び音源位置までの距離を測定する。各サブマクロホンアレイ毎に各々の座標系で求めた音源方向について、i番目のサブマクロホンアレイで求めた音源方向を下記(式9)で表す。
Figure 0004926091
例えば、図4に示すように、アレイ方向と直交する方向を角度0度と定め、アレイ方向と直行する方向から半時計周りを音源方向と定義する。ここで、一般的には、音源方向は方位角と仰角の2要素で構成されるが、サブマクロホンアレイが直線配置の場合など、どちらか一方しか推定できない場合は、その一方の要素だけで構成されていても良い。 この場合、要素数は1つとなるi番目のサブマクロホンアレイの座標系で求めた音源方向を、絶対座標系における音源方向に変換する。変換した絶対座標系における音源方向をPiとする。i番目のサブマクロホンアレイの結果から、音源は、音源方向Pi上に存在すると推定することができる。このことより、全てのサブマクロホンアレイで求めた音源方向Piの交点が音源位置であると推定することが妥当だと考えられる。このことより、三角測量部206では、音源方向Piの交点を音源位置として出力する。
一般的には、音源方向Piの交点が一つに定まらない場合がある。そのような場合には、全てのサブマクロホンアレイの組について、二つの音源方向の交点を求めて、それら交点の平均値を音源位置として出力する。平均化することで、交点位置のばらつきについて、頑健性が増す。
場合によっては、二つの音源方向が交点を持たないことがある。その場合は、その交点を持たないサブマクロホンアレイの組で求めた解を、該当する時間‐周波数領域の音源位置推定のために使わないようにするか、または、該当する時間‐周波数領域では、音源位置推定を行わないようにする。交点を持たないときというのは、観測対象の音源以外の音源が存在するなどして、位相差の情報が雑音を含む場合と考えられる。したがって、このような時間‐周波数領域で推定した音源位置を使わないことで、より高精度な音源位置の推定が可能になる。
また、サブマクロホンアレイが直線配置の場合は、方位角及び仰角の両方を推定することはできず、サブマクロホンアレイのアレイ方向と音源との成す角のみが推定可能となる。この場合、サブマクロホンアレイのアレイ方向と音源との成す角が推定した値となるような平面上に音源が存在する。各サブマクロホンアレイで求めたこのような平面の交点を音源位置または音源方向として出力する。全てのサブマクロホンアレイが直線配置の場合は、全てのサブマクロホンアレイの組み合わせについて求めた平面の交点の平均値を音源位置として出力する。平均化することで、多少の交点位置のばらつきについて、頑健性が増す。
また、一部のサブマクロホンアレイが直線配置で、他のサブマクロホンアレイが非直線配置の場合は、直線配置のサブマクロホンアレイ1つと、非直線配置のサブマクロホンアレイ1つとを組み合わせることで、音源位置の推定値を一つ得ることができる。直線配置と非直線配置を組み合わせて使う場合は、交点が一つ決まるようなサブマクロホンアレイの最小数を1単位として、全てのサブマクロホンアレイの組み合わせで求めた交点の平均値を、最終的な音源位置の推定値として出力する。
定位判定部207は、三角測量部206で求めた音源位置が机の上であるかどうか、または、その音源位置が予め定めるたたきエリア内かどうかを判定する。三角測量部206で求めた音源位置の情報から計算される音源の机からの高さの絶対値が予め定める閾値以下かどうか、また、音源位置の情報から計算される音源の机の上での平面的な座標がたたきエリア内かどうかの二つの観点を同時に満たす場合は、定位判定部207から音源位置の情報として音源方向及び音源までの距離が出力される。なお、音源方向及び音源までの距離を方位角及び仰角として出力してもよい。また、定位判定部では、上述した二つの観点を同時に満たす場合は、正の判定結果を出力し、同時に満たさない場合は、負の判定結果を出力して、後述する統合部211において、正の判定結果と三角測量部から出力された音源方向及び距離を統合してもよい。たたきエリアの定義については、後述する。
SNR判定部208は、SNR推定部205が出力する時間‐周波数毎のSNRの推定値が予め定める閾値以上となる時間‐周波数成分を出力する。パワー計算部209は、SNR推定部205が出力する時間‐周波数毎のSNRから信号パワーPsを下記(式10)で計算する。
Figure 0004926091
ここで、Pxは入力信号のパワーとする。
パワー判定部210では、パワー計算部209が出力する時間‐周波数毎の信号パワーが予め定める閾値以上となる時間‐周波数成分を出力する。統合部211では、パワー判定210及びSNR判定208が同時に特定した時間‐周波数成分について、該当する成分のパワー計算209が出力するパワーを、音源周波数DB208に保持する周波数毎の重みで重み付けする。即ち、机を叩いた音など対象とする音の周波数特性が予め計測できる場合は、その周波数特性を音源周波数DB208に記憶する。そして音源周波数DB208に記憶しておいたパワーで重みをつけることで、より精度良く位置推定を行うことが可能となる。
パワー判定部210及びSNR判定部208が同時に特定しなかった時間‐周波数成分については、重みをゼロとする。また、定位判定部207でたたきエリア内で無いと判定された時間‐周波数成分についても、重みをゼロとする。
なお、本実施の形態においては、出力信号判定部は、SNR判定部208及びパワー判定部210を いう。
たたきエリアを一辺数cm程度の格子状に切り、時間‐周波数毎に、該当する成分の音源位置の推定結果がi番目の格子内に含まれる場合、その格子のパワーPiに該当する重み付きパワーを加える。全ての時間‐周波数毎でこのように格子のパワーの加算処理を行う。加算処理を行った後のパワーが最大となる格子を最終的な音源位置として出力する。格子の大きさや数は予め定義する。
また、格子のパワーの加算処理を行う時間長についても予め定義するか、または、VAD(Voice Activity Detection)を用いて、音声区間と判定された時間帯についてのみ、上記の加算処理を行うという構成をとっても良い。加算処理を行う時間を短くすることで、たたき音が鳴った後、その音源位置を判定するまでの反応時間を、より短くすることができる。しかし、短くすると雑音に弱くなるという欠点がある。
また、加算処理を行う時間を長くすることで、たたき音がなった後、その音源位置を判定するまでの反応時間は長くなるが、雑音に対して頑健になるという利点がある。このようなトレードオフの関係を考慮に入れて、加算処理を行う時間を決める必要があるが、一般的に叩き音は100ms程度の短い時間で鳴り止むため、加算処理を行う時間もその程度の時間に設定することが望まれる。また、格子の最大パワーが予め定める閾値より小さい場合は、たたき音が無かったものとして結果を破棄する。一方、格子の最大パワーが予め定める閾値より大きい場合は、その音源位置を出力して統合部211の処理を終了する。
制御部212では、統合部211が出力するたたき音の音源位置の座標を画面変換DB213の情報を元に、画面上の特定の点に変換する。
画面変換DB213は、音源位置の座標を入力として、画面上の特定の点を変換するためのテーブルを保持する。変換は、2行2列の行列による線形変換など、たたき音の音源位置から画面上の1点を特定できる変換でいずれでもよい。例えば、音源位置推定時に得た音源の高さに関する情報は無視し、音源の水平面上の位置情報と画面上の1点を対応つけて、変換した画面上の1点をあたかもマウスでクリックしたか、またはドラッグしたかのように、PCを制御する。また高さ情報を利用し、例えばある一定以上の高さから音が発生している場合は、画面上の一点をダブルクリックしたとみなし、またある一定以下の高さから音が発生している場合は、画面上の一点をクリックしたとみなすなど、高さ情報に応じて解釈を変えても良い。そうすることで、より多様なユーザ操作が可能となる。
図5は、机上におけるユーザのたたき位置の設定例を示す図である。たたかれる対象となる机301上に、事前にたたきエリアとして、机上のある平面を事前に指定する。推定したたたき音の音源位置がこのたたきエリア内である場合、その音は受理される。マイクロホンアレイは、サブマクロホンアレイ303〜305のように、ディスプレイ302上に設定しても良いし、別途机の上に設定しても良い。ここでは、サブマイクロホンアレイ303は、仰角を推定し、サブマイクロホンアレイ304、305は方位角を推定する。ディスプレイ上にサブマイクロホンアレイを設置することで、マイクロホンアレイの座標軸の中心とディスプレイの中心とをそろえることができ、より直感的にディスプレイの仮想空間上の一点を指定することが可能となる。
図6は、上記の机のたたき位置検出を用いて、ユーザが押した画面上のボタンを判別する装置の処理フローを示す図である。
システム起動後、終了判定501にて、コンピュータがシャットダウンした場合や、机のたたき位置検出プログラムの終了ボタンをユーザが押すなどの何らかの方法で、プログラムを終了するべきかどうかを判定する。
終了判定501にて、終了すると判定された場合、終了し処理が終わる。終了すると判定されなかった場合、処理はデジタル変換502に移り、マイクロホンアレイで取り込んだアナログ音圧データをデジタル音圧データに変換する。変換は、A/D変換部にて行う。変換後のデジタル化されたデジタル音圧データをコンピュータ上に取り込む。デジタル変換は、1サンプル毎に行っても良いし、机たたき音の最小処理長に合せるなどして、複数サンプル同時にコンピュータに取り込んでも良い。取り込んだデジタルデータを、時間‐周波数変換503にて、短時間フーリエ変換を用いて、時間‐周波数毎の成分に分解する。短時間フーリエ変換を用いることで、周波数成分ごとに音の到来方向を推定することが可能となる。
机たたき音プログラムを使う環境では、机たたき音のほかに、雑音として人の声が存在する場合が多い。人の声は時間‐周波数領域で、スパースな信号であり、一部の周波数帯域に成分が偏在することが知られている。したがって、このように時間‐周波数領域で、音源方向を推定することにより、人の声が偏在する周波数成分を容易に棄却することが可能となり、たたき音検出精度が向上する。
検出結果棄却判定505では、検出したたたき音が本当に机上のたたきエリア内におけるたたき音であるか否かを判定する。たたき音では無いと判定された場合、処理を終了判定501に移る。たたき音であると判定された場合、たたきエリアの各点と画面上の1点とのマッピングを予め定義しておき、ボタンを押した位置を判別する押下位置判別506により、そのマッピングに従い、たたいた位置の情報から画面上の1点を特定する。たたきエリアの位置にボタンが存在するか否かを、ボタン存在判定507で判定し、存在しないと判定した場合、処理を終了判定501に戻す。ボタンが存在すると判定された場合、そのボタンを画面上でマウス等他のポインティングデバイスを使ってクリックした場合と同様の処理をボタンアクション508として実行する。
図7は、定位判定部、パワー判定部、SNR判定部及び統合部の具体的な処理フローを示したものである。定位判定部207では、時間‐周波数成分毎に、複数のサブマクロホンアレイを用いて三角測量部で算出した音源方向及び距離、即ち、方位角及び仰角の情報を元に、上記方位角及び仰角が予め定義するたたきエリア内か否かを判定する(定位判定601)。予め定義するたたきエリアは、図5に記載のたたきエリアのように、机上の長方形のエリアであっても良いし、空間的に厚みを持っても良い。仰角と方位角の情報から、たたきエリアの中か否かを判断できる空間であれば良い。
パワー判定部210は、たたき音の大きさが上記MCRA法のような方式を用いて推定した雑音パワーと比べて大きいかどうかを判定する(雑音パワー比較602)。MCRA法は、音声と背景雑音が混ざった音の中から、背景雑音のパワーを推定する方式である。MCRA法は、最小統計量に基づく手法である。最小統計量とは、音声は突発的に大きな音量を持つとの仮説の下、過去数フレーム内で最小のパワーを背景雑音のパワーとみなす手法である。ただし、最小統計量で推定した背景雑音パワーは、実際の背景雑音のパワーより小さくなる傾向にある。MCRA法は、最小統計量で推定した背景雑音パワーを時間方向に平滑化するなどして補正し、実際の背景雑音のパワーに近い値を算出する手法である。たたき音は音声では無いが、突発的に大きなパワーを取るという観点では、音声と同様の統計的性質を示すため、MCRA法などの背景雑音パワーの推定法が適用可能となる。
雑音パワーよりたたき音のパワーが大きかった場合は、次に、背景雑音とたたき音のパワーのSNRを計算する。SNR判定部208は、計算したSNRよりたたき音パワーが大きいかどうかを判定(SNR判定603)し、大きかった場合は、その時間‐周波数成分をたたき音成分と判定する。
統合部211では、たたきエリアを予め、格子状に分割しておく。たたき音成分と判定された時間‐周波数成分を、その成分の方位角と仰角の推定値から、該当する格子内に割り当てる。割り当てる際、該当する格子に、そのたたき音成分のパワーに、周波数に依存した重みをかけた値を加算する。このような処理を、予め定義する周波数帯域及び、予め定義する時間長だけ行う。そして、パワーが最大となる格子を検出し(格子検出604)、その格子の方位角と仰角をたたき音の方位角と仰角として出力して音源位置を特定する。ここで、パワーが最大となる格子のパワーが予め定義する閾値を下回った場合は、たたき音は存在しなかったと判定する。
なお、定位判定部207、パワー判定部210及びSNR判定部208の各々の処理順序は、図7に示す順序に限定されるものではない。統合部211における処理の前に、定位判定部207、パワー判定部210及びSNR判定部208の各々の処理が終了していればよい。
図8は、典型的なたたき音の時間波形を示した図である。たたき音は、突発的に大きい値を取る(たたき音の直接音)。その後、たたき音の反響・残響成分が到来する。この反響・残響成分は、様々な方向から到来する音とみなすことができる。したがって、反響・残響成分を直接音と比較して、方向推定が困難であるため、たたき音の方向推定に使うのは望ましくない。反響・残響成分は、一般的には、直接音よりもパワーが小さいため、突発的に大きい音がした直後の、その突発的に大きい音よりパワーが小さい成分に関しては、たたき音とみなさないという方法で、判別可能である。そのような観点から、周波数判定部で、時間‐周波数毎のたたき音成分を各格子に割り当てる際も、前のフレームと比較して、パワーが小さい成分は、格子に割り当てないという処理を加えても良い。加えることで、反響・残響に強いたたき音検出が可能となる。
図9は、時間‐周波数成分毎の格子への成分割り当てについての模式図である。たたき音検出装置は、マウスなどのPC操作機器の代替品として使われることを想定している。そのため、たたき音検出装置が使われる環境では、人の話し声など、多数の音声音源が存在することが想定される。したがって、音声音源が存在する環境でもロバストに動作するたたき音検出装置が必要とされる。音声は、一般には、時間‐周波数領域で、スパースな信号と考えられている。つまり、音声は、時間‐周波数領域では一部の成分にパワーが偏在している。したがって、この偏在している一部の成分を取り除くことで、音声音源が存在する環境でもロバストにたたき音検出装置を動作させることが可能となる。
統合部211では、仰角と方位角とがたたきエリア内にあるかどうかを判定し、たたきエリア内にある場合のみ、たたき音とみなしている。このような判定を行うことで、音声成分が偏在する一部の時間‐周波数領域を棄却することが可能となる。
統合部211では、パワーが最大となる格子を出力するように動作するが、それぞれのサブマイクロホンアレイにパワーが最大となる方向を求めるようにした後、その最大方向を統合し、三角測量的にたたき音の音源方向を推定してもよい。
図10は、サブマクロホンアレイにおける方向毎の頻度の例を示す図である。例えば、図10に示すように、サブマクロホンアレイ毎に、それぞれのサブマクロホンアレイからみた方向毎のパワーを加算する。2次元平面又は3次元空間上に時間‐周波数成分を割り当てるという方式では、各格子毎の被割り当て数が極端に少なくなることも多い。このような場合は、それぞれのサブマクロホンアレイ毎に別々にヒストグラムを算出し、それぞれのヒストグラムの最大値を与える方向を別々に算出した後、三角測量で統合するほうがロバストな推定が可能となる。
図11は、たたきエリアを高さ方向に厚みを持たせて設定した例である。この例のように、たたきエリアを高さ方向に厚みを持たせることで、多少の仰角方向の推定誤差にロバストとなる他、指を空中で鳴らすなどした音を検出することが可能となる。
図12は、サブマクロホンアレイの配置の一例を示す図である。たたきエリアを取り囲むように、複数のサブマクロホンアレイ1101〜1104を配置した例である。図12に示すように、たたきエリアを取り囲むように配置することで、図5や図11に示したサブマクロホンアレイ303〜305の配置と比較して、より高精度に叩き音位置を検出することが可能となる。
図13は、上記音源ポインティングデバイスをたたき音検出装置に応用した応用例を示す図である。ディスプレイ1204を机の上に、表示面と机面とが並行になるように配置して、そのディスプレイ上に複数のサブマクロホンアレイ1201〜1203を配置する。たたき音エリアはディスプレイ画面全体とする。このような設定により、ユーザがディスプレイ上の表示面の一点を叩いた場合、その叩いた点がどこかを知ることができる。即ち、タッチパネルの代わりとして図13に示すようなたたき音検出装置を用いることが可能となる。またタッチパネルでは文字通り「タッチしたかどうか」しか検出できないが、本発明のたたき音検出装置を用いれば、たたきエリアを高さ方向に厚みを持たせて設定することで、空間上で指を鳴らした場合も検出することが可能となる。
図14は、たたき音検出装置を、野球の「ストライク判定装置」に応用した応用例である。いわゆるストライク判定装置では、図14に示すような、的1305に対して、投球エリア1301からボールを投げる。そして的1305上の1から9までのマスのうち、どのマスにあたったかを判定する。ボールが的にあたる際に生じる音は、突発的に大きなパワーを持つ突発性音のため、本発明のたたき音検出装置により検出することが可能である。この的に、図14に示すような複数のサブマクロホンアレイ1302〜1304を配置し、たたき音検出装置を適用することで、的にボールが当たった際に、1から9のどのマスにあたったか、またはフレームにあたったかを判定することが可能になる。フレームにボールが当たった際の金属音とマスにボールが当たったときの音は周波数特性が異なるため、たたき音と判定された周波数成分の特性を参照することで、フレームにボールが当たった場合とマスにボールが当たった場合とを区別することが可能となる。
図15は、たたき音検出装置を、サッカーの「ゴール位置判定装置」に応用した応用例である。構成としては、図14のストライク判定装置と同じ構成となる。キックエリア1401から蹴られたボールが的1405内の1から9のマスのうち、どのマスに当たったかをサブマクロホンアレイ1402〜1404を用いた、たたき音検出装置で判定する。
図16は、たたき音検出装置を、卓球の「バウンド位置判定装置」に応用した応用例である。卓球のボールがバウンドした位置を知ることが可能となる。構成としては、ストライク判定装置やゴール位置判定装置と同じである。コート1501上をボールがバウンドする位置を、サブマクロホンアレイ1502〜1507を用いたたたき音検出装置で、判定する。卓球のボールがコート1501をバウンドする際の音は突発的な音であるため、本たたき音検出装置で判定可能となる。これにより、卓球の実況中継などで、視聴者がこれまで得ることができなかった、ボールの軌跡についての情報を得ることが可能となる。
図17は、たたき音検出装置を、「テニスの壁うち」に応用し、壁に当たったボールの位置を検出する応用例である。テニスで良く行われる壁うちでは、これまで壁のどこに当たったのかを知る手段が無かったため、打った方向が良かったのか悪かったのかを判定することが出来なかった。壁1601に配置した複数のサブマクロホンアレイ1602〜1604を用いた、たたき音検出装置により、ボールの当たった位置を検出することが可能となる。例えば、ボールの当たった位置を記憶しておき、後でコンピュータのディスプレイ上に表示することで、当たった位置のばらつきが大きいなどといった結果を見ることが可能となる。
図18は、上記音源ポインティングデバイスをたたき音検出装置に応用した他の応用例を示す図である。ユーザが指をならすなど、机をたたく音以外の突発音を空中で鳴らした場合の使用例を示した図である。たたきエリアを高さ方向に厚みを持たせて設定することで、空中で鳴る突発音についても検出することが可能となる。
本発明に係る実施の形態の一例を示す音響ポインティングデバイスの概略構成図である。 時間領域のみの信号を用いる上記音響ポインティングデバイスの概略構成図である。 上記音響ポインティングデバイス及びそれを備えるコンピュータシステムのハードウェア構成図である。 上記音響ポインティングデバイスに用いるサブマイクロホンアレイの直線配置を示す図である。 上記音響ポインティングデバイスにおける机上のユーザのたたき位置の設定例を示す図である。 上記音響ポインティングデバイスにおけるたたき位置の検出フローを示す図である。 上記音響ポインティングデバイスにおける判定及び統合の処理フローを示す図である。 上記音響ポインティングデバイスにおけるたたき音の時間波形を示す図である。 上記音響ポインティングデバイスにおける時間‐周波数成分毎の格子の模式図である。 上記音響ポインティングデバイスにおける音源方向毎のパワーを示す図である。 上記音響ポインティングデバイスにおけるたたきエリアを高さ方向に設定した例を示す図である。 上記音響ポインティングデバイスにおけるサブマイクロホンアレイの配置を示す図である。 上記音源ポインティングデバイスをたたき音検出装置に応用した応用例を示す図である。 上記音源ポインティングデバイスをたたき音検出装置に応用した他の応用例を示す図である。 上記音源ポインティングデバイスをたたき音検出装置に応用した他の応用例を示す図である。 上記音源ポインティングデバイスをたたき音検出装置に応用した他の応用例を示す図である。 上記音源ポインティングデバイスをたたき音検出装置に応用した他の応用例を示す図である。 上記音源ポインティングデバイスをたたき音検出装置に応用した他の応用例を示す図である。
符号の説明
101…マイクロホンアレイ、102…A/D変換部、103…中央演算装置、104…揮発性メモリ、105…記憶媒体、106…表示装置、201…バッファリング部、202…STFT部、203…方向推定部、204…雑音推定部、205…SNR推定部、206…三角測量部、207…定位判定部、208…SNR判定部、209…パワー計算部、210…パワー判定部、211…統合部、212…制御部、213…画面変換DB、214…音源周波数DB、301…机、302…ディスプレイ、303、304、305…サブマイクロホンアレイ。

Claims (10)

  1. 検出すべき音の音源位置を検出し、前記音源位置を表示装置の画面上の1点に変換する音響ポインティングデバイスであって、
    複数のマイクロホン素子を保持するマイクロホンアレイと、
    前記マイクロホンアレイにより得られたアナログ音圧データをデジタル音圧データに変換するA/D変換部と、
    前記デジタル音圧データから、前記マイクロホン素子間の前記音の相関に基づいて前記検出すべき音の音源方向の推定を行う方向推定部と、
    前記デジタル音圧データのうち雑音レベルを推定し、前記雑音レベルと前記デジタル音圧データとに基づいて前記音の信号成分を算出して出力信号として出力する出力信号計算部と、
    前記音源方向と前記出力信号とを統合して前記音源位置を特定する統合部と、
    特定した前記音源位置を前記表示装置の前記画面上の1点に変換する制御部とを備える
    ことを特徴とする音響ポインティングデバイス。
  2. 請求項1に記載の音響ポインティングデバイスにおいて、
    前記マイクロホンアレイは複数のサブマイクロホンアレイからなり、
    前記サブマイクロホンアレイ毎に前記方向推定部で推定した前記音源方向を三角測量にて統合することにより、前記音源方向と前記音源位置までの距離を算出する三角測量部と、
    前記音源方向及び前記距離が予め定義する領域内にあるか否かを判定する定位判定部とを備え、
    前記統合部は、前記出力信号と、前記領域内にある前記音源方向及び前記距離とを統合して前記音源位置を特定し、
    前記制御部は、特定した前記音源位置を前記表示装置の前記画面上の1点に変換する
    ことを特徴とする音響ポインティングデバイス。
  3. 請求項1に記載の音響ポインティングデバイスにおいて、
    前記マイクロホンアレイは複数のサブマイクロホンアレイからなり、
    前記デジタル音圧データを時間‐周波数領域からなる信号に変換する変換部と、
    前記サブマイクロホンアレイ毎に、前記信号を用いて前記方向推定部で推定した前記音源方向を三角測量にて統合することにより、前記音源方向及び前記音源位置までの距離を算出する三角測量部と、
    前記音源方向及び前記距離が予め定義する領域内にあるか否かを判定する定位判定部とを備え、
    前記統合部は、前記出力信号と、前記領域内にある前記音源方向及び前記距離とを統合して前記音源位置を特定し、
    前記制御部は、特定した前記音源位置を前記表示装置の前記画面上の1点に変換する
    ことを特徴とする音響ポインティングデバイス。
  4. 請求項1に記載の音響ポインティングデバイスにおいて、
    前記マイクロホンアレイは複数のサブマイクロホンアレイからなり、
    前記デジタル音圧データを時間‐周波数領域からなる信号に変換する変換部と、
    前記サブマイクロホンアレイ毎に、前記信号を用いて前記方向推定部で推定した前記音源方向を三角測量にて統合することにより、前記音源方向及び前記音源位置までの距離を算出する三角測量部と、
    前記音源方向及び前記距離が予め定義する領域内にあるか否かを判定する定位判定部と、
    前記出力信号計算部で出力した前記出力信号が予め定める閾値以上となるよう判定する出力信号判定部と、
    前記検出すべき音の周波数特性を予め記憶した音源周波数データベースと、
    前記音源位置から前記画面上の前記1点を特定できる変換テーブルを格納する画面変換データベースとを備え、
    前記統合部は、前記閾値以上となる前記出力信号を前記周波数特性で重み付けを行い、前記領域内にある前記音源方向及び前記距離と統合して前記音源位置を特定し、
    前記制御部は、特定した前記音源位置を前記画面変換データベースの情報を用いて前記画面上の1点に変換する
    ことを特徴とする音響ポインティングデバイス。
  5. 検出すべき音の音源位置を処理装置で検出し、前記音源位置を表示装置の画面上の1点に変換する音源位置のポインティング方法であって、
    前記処理装置は、
    複数のマイクロホン素子を保持するマイクロホンアレイにより得られたアナログ音圧データをデジタル音圧データに変換し、
    前記デジタル音圧データから、前記マイクロホン素子間の前記音の相関に基づく前記音の音源方向の推定を行い、
    前記デジタル音圧データのうち雑音レベルを推定し、前記雑音レベルと前記デジタル音圧データとに基づいて前記音の信号成分を算出して出力信号として出力し、
    前記音源方向と前記出力信号とを統合することにより、前記音の音源位置を前記表示装置の前記画面上の点に変換する
    ことを特徴とする音源位置のポインティング方法。
  6. 請求項5に記載の音源位置のポインティング方法において、
    更に、前記処理装置は、
    前記マイクロホンアレイが複数のサブマイクロホンアレイからなり、
    前記サブマイクロホンアレイ毎に前記音源方向を推定し、三角測量にて統合することにより、前記音源方向及び前記音源位置までの距離を算出し、
    前記音源方向と前記出力信号とを統合することにより、前記音の音源位置を前記表示装置の前記画面上の点に変換する
    ことを特徴とする音源位置のポインティング方法。
  7. 請求項5に記載の音源位置のポインティング方法において、
    更に、前記処理装置は、
    前記マイクロホンアレイが複数のサブマイクロホンアレイからなり、
    前記記憶されたデジタル音圧データを抽出して時間‐周波数領域からなる信号に変換し、
    前記サブマイクロホンアレイ毎に前記信号を用いて前記音源方向を推定し、三角測量にて統合することにより、前記音源方向及び前記音源位置までの距離を算出し、
    前記音源方向及び前記距離が予め定義する領域内にあるか否かを判定し、
    前記出力信号と、前記領域内にある前記音源方向及び前記距離とを統合して前記音源位置を特定し、
    特定した前記音源位置を前記表示装置の前記画面上の1点に変換する
    ことを特徴とする音源位置のポインティング方法。
  8. 請求項5に記載の音源位置のポインティング方法において、
    更に、前記処理装置は、
    前記マイクロホンアレイが複数のサブマイクロホンアレイからなり、
    前記記憶されたデジタル音圧データを抽出して時間‐周波数領域からなる信号に変換し、
    前記サブマイクロホンアレイ毎に前記信号を用いて前記音源方向を推定し、三角測量にて統合することにより、前記音源方向及び前記音源位置までの距離を算出し、
    前記音源方向及び前記距離が予め定義する領域内にあるか否かを判定し、
    前記信号及び前記信号の雑音レベルをもとに算出した出力信号の出力が予め定める閾値以上となるように判定し、
    前記閾値以上の出力信号と、前記領域内にある前記音源方向と前記距離とを統合して前記音源位置を特定し、前記画面上の1点に変換する
    ことを特徴とする音源位置のポインティング方法。
  9. 少なくとも、検出すべき音の音源位置を画面上に表示するための表示装置と、
    前記音源位置を検出し、前記音源位置を前記表示装置の画面上の1点に変換する音響ポインティングデバイスと、
    前記音響ポインティングデバイスの前記音源位置に関する情報を用いるプログラムを処理する中央演算装置と、
    前記プログラムを格納する記憶装置とを備えるコンピュータシステムであって、
    前記音響ポインティングデバイスは、
    複数のマイクロホン素子を保持するマイクロホンアレイと、
    前記マイクロホンアレイにより得られたアナログ音圧データをデジタル音圧データに変換するA/D変換部と、
    デジタル音圧データから、前記マイクロホン素子間の前記音の相関に基づく前記音の音源方向の推定を行う方向推定部と、
    前記デジタル音圧データのうち雑音レベルを推定し、前記雑音レベルと前記デジタル音圧データとに基づいて前記音の信号成分を算出して出力信号として出力する出力信号計算部と、
    前記音源方向と前記出力信号とを統合して音源位置を特定する統合部と、
    特定した前記音源位置を前記表示装置の前記画面上の1点に変換する制御部と、
    を備える
    ことを特徴とするコンピュータシステム。
  10. 請求項9に記載のコンピュータシステムにおいて、
    更に、前記音響ポインティングデバイスは、
    前記マイクロホンアレイは複数のサブマイクロホンアレイからなり、
    前記デジタル音圧データを時間‐周波数領域からなる信号に変換する変換部と、
    前記サブマイクロホンアレイ毎に、前記信号を用いて前記方向推定部で推定した前記音源方向を三角測量にて統合することにより、前記音源方向及び前記音源位置までの距離を算出する三角測量部と、
    前記音源方向及び前記距離が予め定義する領域内にあるか否かを判定する定位判定部と、
    前記出力信号計算部で出力した出力信号が予め定める閾値以上となるよう判定する出力信号判定部と、
    前記検出すべき音の周波数特性を予め記憶した音源周波数データベースと、
    前記音源位置から前記画面上の前記1点を特定できる変換テーブルを格納する画面変換データベースとを備え、
    前記統合部は、前記閾値以上となる前記出力信号を前記周波数特性で重み付けを行い、前記領域内にある前記音源方向及び前記距離と統合して前記音源位置を特定し、
    前記制御部は、特定した前記音源位置を前記画面変換データベースの情報を用いて前記画面上の1点に変換する
    ことを特徴とするコンピュータシステム。
JP2008037534A 2008-02-19 2008-02-19 音響ポインティングデバイス、音源位置のポインティング方法及びコンピュータシステム Expired - Fee Related JP4926091B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2008037534A JP4926091B2 (ja) 2008-02-19 2008-02-19 音響ポインティングデバイス、音源位置のポインティング方法及びコンピュータシステム
US12/269,155 US20090207131A1 (en) 2008-02-19 2008-11-12 Acoustic pointing device, pointing method of sound source position, and computer system
CN2008101761767A CN101515197B (zh) 2008-02-19 2008-11-14 音响指示设备、音源位置的指示方法和计算机系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008037534A JP4926091B2 (ja) 2008-02-19 2008-02-19 音響ポインティングデバイス、音源位置のポインティング方法及びコンピュータシステム

Publications (2)

Publication Number Publication Date
JP2009199158A JP2009199158A (ja) 2009-09-03
JP4926091B2 true JP4926091B2 (ja) 2012-05-09

Family

ID=40954681

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008037534A Expired - Fee Related JP4926091B2 (ja) 2008-02-19 2008-02-19 音響ポインティングデバイス、音源位置のポインティング方法及びコンピュータシステム

Country Status (3)

Country Link
US (1) US20090207131A1 (ja)
JP (1) JP4926091B2 (ja)
CN (1) CN101515197B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10834501B2 (en) 2018-08-28 2020-11-10 Panasonic Intellectual Property Corporation Of America Information processing method, information processing device, and recording medium

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5452158B2 (ja) 2009-10-07 2014-03-26 株式会社日立製作所 音響監視システム、及び音声集音システム
US8488413B2 (en) * 2009-10-16 2013-07-16 Casio Computer Co., Ltd. Indicated position detecting apparatus and indicated position detecting method
JP5408621B2 (ja) * 2010-01-13 2014-02-05 株式会社日立製作所 音源探索装置及び音源探索方法
JP2011212433A (ja) 2010-03-19 2011-10-27 Nike Internatl Ltd マイクロホンアレイ及びその使用方法
CN108989721B (zh) * 2010-03-23 2021-04-16 杜比实验室特许公司 用于局域化感知音频的技术
US10158958B2 (en) 2010-03-23 2018-12-18 Dolby Laboratories Licensing Corporation Techniques for localized perceptual audio
US8935103B2 (en) 2010-07-15 2015-01-13 Nike, Inc. Method and system for golf ball fitting analysis
GB2507243B (en) * 2012-05-02 2019-10-30 Inputdynamics Ltd Acoustically detecting a tap on an object using an adaptive classifier
US9459733B2 (en) * 2010-08-27 2016-10-04 Inputdynamics Limited Signal processing systems
US9226069B2 (en) 2010-10-29 2015-12-29 Qualcomm Incorporated Transitioning multiple microphones from a first mode to a second mode
JP5702160B2 (ja) * 2011-01-20 2015-04-15 中部電力株式会社 音源推定方法及び音源推定装置
JP5516455B2 (ja) * 2011-02-23 2014-06-11 トヨタ自動車株式会社 接近車両検出装置及び接近車両検出方法
KR101272158B1 (ko) * 2011-05-02 2013-06-05 심플렉스 인터넷 주식회사 휴대용 기기 및 이를 이용한 문자 입력 방법
US9030520B2 (en) 2011-06-20 2015-05-12 Polycom, Inc. Automatic camera selection for videoconferencing
US9319821B2 (en) 2012-03-29 2016-04-19 Nokia Technologies Oy Method, an apparatus and a computer program for modification of a composite audio signal
JP2013213739A (ja) * 2012-04-02 2013-10-17 Nippon Telegr & Teleph Corp <Ntt> 音源位置推定装置、音源位置推定方法及びそのプログラム
KR20130120708A (ko) * 2012-04-26 2013-11-05 삼성전자주식회사 다중 디스플레이 패널을 사용하는 디스플레이 장치 및 방법
CN102866385B (zh) * 2012-09-10 2014-06-11 上海大学 一种基于球麦克风阵列的多声源定位方法
KR101339744B1 (ko) 2012-10-23 2013-12-11 한국과학기술원 소음 관측 장치
US10222911B2 (en) * 2013-04-12 2019-03-05 Semiconductor Energy Laboratory Co., Ltd. Semiconductor device and driving method of the same
EP2839769B1 (en) * 2013-08-23 2016-12-21 LG Electronics Inc. Robot cleaner and method for controlling the same
CN103593047B (zh) * 2013-10-11 2017-12-08 北京三星通信技术研究有限公司 移动终端及其操控方法
US9426568B2 (en) * 2014-04-15 2016-08-23 Harman International Industries, LLC Apparatus and method for enhancing an audio output from a target source
US20170039076A1 (en) * 2014-04-30 2017-02-09 Empire Technology Development Llc Adjusting tap position on touch screen
US10318016B2 (en) 2014-06-03 2019-06-11 Harman International Industries, Incorporated Hands free device with directional interface
US20170032367A1 (en) * 2014-07-06 2017-02-02 Joost van Beek Ultra-sound communication system
US10078399B2 (en) * 2015-09-21 2018-09-18 International Business Machines Corporation Computer device implemented audio triangulation
JP2017102085A (ja) * 2015-12-04 2017-06-08 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
CN105771221A (zh) * 2016-02-16 2016-07-20 深圳市衡泰信科技有限公司 足球模拟系统
CN105759246B (zh) * 2016-04-14 2018-01-02 中国计量学院 具有自校准功能的精度可调式网球击球点定位装置
CN107704180A (zh) * 2016-08-08 2018-02-16 中兴通讯股份有限公司 一种投影装置操作的方法和投影装置
CN106405499A (zh) * 2016-09-08 2017-02-15 南京阿凡达机器人科技有限公司 一种机器人定位声源的方法
WO2018147143A1 (ja) 2017-02-09 2018-08-16 ソニー株式会社 情報処理装置および情報処理方法
CN107063437A (zh) * 2017-04-12 2017-08-18 中广核研究院有限公司北京分公司 基于麦克风阵列的核电站噪声测试装置
GB201708100D0 (en) 2017-05-19 2017-07-05 Sintef Input device
GB201710085D0 (en) 2017-06-23 2017-08-09 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
GB201710093D0 (en) 2017-06-23 2017-08-09 Nokia Technologies Oy Audio distance estimation for spatial audio processing
JP7233035B2 (ja) * 2017-08-30 2023-03-06 パナソニックIpマネジメント株式会社 収音装置、収音方法、及びプログラム
CN110133595B (zh) * 2018-02-09 2023-05-23 北京搜狗科技发展有限公司 一种声源测向方法、装置和用于声源测向的装置
CN110782911A (zh) * 2018-07-30 2020-02-11 阿里巴巴集团控股有限公司 音频信号处理方法、装置、设备和存储介质
US10206036B1 (en) * 2018-08-06 2019-02-12 Alibaba Group Holding Limited Method and apparatus for sound source location detection
CN109471145B (zh) * 2018-10-17 2022-12-06 中北大学 一种基于四元声阵列平台的双声定位定姿法
CN111580050A (zh) * 2020-05-28 2020-08-25 国网上海市电力公司 一种用于识别gis设备异响声源位置的装置及方法
CN113470683A (zh) * 2021-06-25 2021-10-01 深圳市联洲国际技术有限公司 一种麦克风阵列的信号输出方法、装置、设备及存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06335548A (ja) * 1993-03-31 1994-12-06 Erumu:Kk 物体衝突位置検出装置
US5768474A (en) * 1995-12-29 1998-06-16 International Business Machines Corporation Method and system for noise-robust speech processing with cochlea filters in an auditory model
JP4195267B2 (ja) * 2002-03-14 2008-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、その音声認識方法及びプログラム
US7158126B2 (en) * 2002-04-08 2007-01-02 Koninklijke Philips Electronics N.V. Acoustic based pointing device
FR2841022B1 (fr) * 2002-06-12 2004-08-27 Centre Nat Rech Scient Procede pour localiser un impact sur une surface et dispositif pour la mise en oeuvre de ce procede
US7627139B2 (en) * 2002-07-27 2009-12-01 Sony Computer Entertainment Inc. Computer image and audio processing of intensity and input devices for interfacing with a computer program
JP4101791B2 (ja) * 2004-09-17 2008-06-18 シャープ株式会社 座標値入力システム、座標値入力方法、座標値入力プログラム、コンピュータ読み取り可能な記録媒体
US20060192763A1 (en) * 2005-02-25 2006-08-31 Ziemkowski Theodore B Sound-based virtual keyboard, device and method
US8073198B2 (en) * 2007-10-26 2011-12-06 Samsung Electronics Co., Ltd. System and method for selection of an object of interest during physical browsing by finger framing
US8121311B2 (en) * 2007-11-05 2012-02-21 Qnx Software Systems Co. Mixer with adaptive post-filtering
US8175728B2 (en) * 2007-12-13 2012-05-08 Georgia Tech Research Corporation Detecting user gestures with a personal mobile communication device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10834501B2 (en) 2018-08-28 2020-11-10 Panasonic Intellectual Property Corporation Of America Information processing method, information processing device, and recording medium

Also Published As

Publication number Publication date
JP2009199158A (ja) 2009-09-03
US20090207131A1 (en) 2009-08-20
CN101515197B (zh) 2011-03-23
CN101515197A (zh) 2009-08-26

Similar Documents

Publication Publication Date Title
JP4926091B2 (ja) 音響ポインティングデバイス、音源位置のポインティング方法及びコンピュータシステム
CN108320730B (zh) 音乐分类方法及节拍点检测方法、存储设备及计算机设备
US9536509B2 (en) Systems and methods for capturing and interpreting audio
JP6289936B2 (ja) 音源方向推定装置、音源方向推定方法およびプログラム
CN104254818B (zh) 音频用户交互辨识和应用程序接口
JP5124071B2 (ja) 接触検知装置
US7411581B2 (en) Touch pad
US20130141364A1 (en) User interface interaction using touch input force
EP2836851A1 (en) Systems, methods, and apparatus for estimating direction of arrival
JP2012530308A (ja) 2つ以上のトランスデューサを備えた物体の表面における、1つ以上の衝撃または接触の位置を決定する方法
AU2021205035B2 (en) Systems and methods for capturing and interpreting audio
US11907464B2 (en) Identifying a contact type
Dang et al. A feature-based data association method for multiple acoustic source localization in a distributed microphone array
Clarke et al. Diffimpact: Differentiable rendering and identification of impact sounds
JP2009246827A (ja) 音源及び仮想音源の位置特定装置、方法及びプログラム
JP2015200685A (ja) アタック位置検出プログラムおよびアタック位置検出装置
JP2020167471A5 (ja)
Kappis A stereo sonic interaction system triggered by impact sounds.
JP2009282644A (ja) インターフェイス装置とインターフェイス方法
Pätynen et al. Temporal differences in string bowing of symphony orchestra players
CN116419118A (zh) 一种输入检测装置、系统及其相关设备
Ji Development of tangible acoustic interfaces for human computer interaction
Carotenuto et al. A vibrating stylus as two-dimensional PC input device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120110

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120207

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150217

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4926091

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees