JP6947183B2 - 音源位置推定装置及びウェアラブルデバイス - Google Patents

音源位置推定装置及びウェアラブルデバイス Download PDF

Info

Publication number
JP6947183B2
JP6947183B2 JP2018539560A JP2018539560A JP6947183B2 JP 6947183 B2 JP6947183 B2 JP 6947183B2 JP 2018539560 A JP2018539560 A JP 2018539560A JP 2018539560 A JP2018539560 A JP 2018539560A JP 6947183 B2 JP6947183 B2 JP 6947183B2
Authority
JP
Japan
Prior art keywords
sound source
source position
calculation unit
microphones
cylindrical surface
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018539560A
Other languages
English (en)
Other versions
JPWO2018051663A1 (ja
Inventor
裕一郎 小山
裕一郎 小山
俊之 関矢
俊之 関矢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JPWO2018051663A1 publication Critical patent/JPWO2018051663A1/ja
Application granted granted Critical
Publication of JP6947183B2 publication Critical patent/JP6947183B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/28Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves by co-ordinating position lines of different shape, e.g. hyperbolic, circular, elliptical or radial
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/30Determining absolute distances from a plurality of spaced points of known location
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Otolaryngology (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Details Of Audible-Bandwidth Transducers (AREA)

Description

本開示は、音源位置推定装置及びウェアラブルデバイスに関する。
従来、例えば下記の特許文献1には、耳掛け式イヤホン装置において、装着位置のずれを防止することを想定した技術が記載されている。
特開2010−193344号公報
近時においては、時計型デバイス、眼鏡型デバイスなど、各種のウェアラブルデバイスが出現している。これらのウェアラブルデバイスは、使用中に身体に対する位置ずれ(装着ずれ)を起こす場合がある。
装着ずれが発生すると、ウェアラブルデバイスの動作に支障が生じる場合がある。特に、ウェアラブルデバイスがマイクロフォンを備えている場合、装着ずれによって音源に対するマイクロフォンの位置が変化してしまい、適正に音声情報を取得できなくなることがある。
上記特許文献1に記載された技術は、耳掛け式イヤホン装置における装着ずれを防止することは想定しているが、装着ずれが発生した場合の対処については何ら考慮していなかった。
このため、ウェアラブルデバイスに装着ずれが発生した場合であっても、装着ずれに起因する音源の位置を推定できるようにすることが望まれていた。
本開示によれば、リング状のウェアラブルデバイスに設けられた複数のマイクロフォンで得られる音声に基づいて、音源の周波数スペクトルを取得するスペクトル取得部と、前記周波数スペクトルに基づいて複数の前記マイクロフォンから前記音源までのそれぞれの距離を演算する距離演算部と、前記リング状のウェアラブルデバイスを円に近似して、前記リング状のウェアラブルデバイスを含む円柱面に前記音源が位置するものとして、前記それぞれの距離を半径とする球面と前記円柱面との交点を求めることで前記音源の位置を演算する音源位置演算部と、を備える、音源位置推定装置が提供される。
また、本開示によれば、複数のマイクロフォンが設けられたリング状の筐体と、複数の前記マイクロフォンで得られる音声に基づいて、音源の周波数スペクトルを取得するスペクトル取得部と、前記周波数スペクトルに基づいて複数の前記マイクロフォンから前記音源までのそれぞれの距離を演算する距離演算部と、前記筐体を円に近似して、前記筐体を含む円柱面に前記音源が位置するものとして、前記それぞれの距離を半径とする球面と前記円柱面との交点を求めることで前記音源の位置を演算する音源位置演算部と、を備える、音源位置推定装置と、を備えるウェアラブルデバイスが提供される。
以上説明したように本開示によれば、ウェアラブルデバイスに装着ずれが発生した場合であっても、装着ずれに起因する音源の位置を推定することが可能となる。
なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の一実施形態に係るネックバンド型デバイスの概略構成について説明する。 開口部の位置がユーザの正面を向いている正しい装着状態を示す模式図である。 図2に対してネックバンド型デバイスの開口部が手前側に回転し、装着ずれが発生した状態を示す模式図である。 口元座標(x,y,z)とネックバンド型デバイスとの位置関係を示す模式図である。 マイクロフォンが2つ設けられた場合に、マイク座標(x,y,z)とマイク座標(x,y,z)から口元座標(x,y,z)および口元座標と各マイク座標の距離d,dを求める手法を説明するための模式図である。 マイクロフォンが3つ以上(n個)設けられた場合に、マイク座標(x,y,z)から口元座標(x,y,z)および口元座標と各マイク座標の距離dを求める手法を説明するための模式図である。 マイクロフォンが点対称の位置にある場合を示す模式図である。 ネックバンド型デバイスにおける音源位置を推定する音源位置推定装置100の構成を示す模式図である。 ビームフォーミング演算部の構成を示す模式図である。 角度θと直径dを所望の値にするための構成を示す模式図である。 角度θと直径dを所望の値にするための構成を示す模式図である。 角度θと直径dを所望の値にするための構成を示す模式図である。 角度θと直径dを所望の値にするための構成を示す模式図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
なお、説明は以下の順序で行うものとする。
1.本実施形態に係るネックバンドの外観
2.ネックバンド型デバイスの装着ずれ
3.音源位置を特定するための演算
4.最適化計算について
5.音源位置推定装置の構成例
6.ビームフォーミング処理について
7.ネックバンド型デバイスの傾きと直径の設定
1.本実施形態に係るネックバンド型デバイスの外観
まず、図1を参照して、本開示の一実施形態に係るネックバンド型デバイス(リング状デバイス)1000の概略構成について説明する。図1に示すように、本実施形態に係るネックバンド型デバイス1000は、円形のリング状とされ、開口部1002が設けられている。ユーザは、開口部1002を開くことで、ネックバンド型デバイス1000を首に装着することができる。
ネックバンド型デバイス1000は、マイクロフォン1010、スピーカ1020、カメラ1030、GPS1040を備える。ネックバンド型デバイス1000は、ユーザの声の音声情報を音声認識により取得し、音声情報に応じて、スピーカ1020から音を発することでユーザに情報を提供する。また、ネックバンド型デバイス1000は、カメラ1030による撮像により画像情報を取得することができる。また、ネックバンド型デバイス1000は、GPS1040で取得したユーザの位置情報に応じて、推奨する場所、店舗等の情報をユーザに伝えることもできる。
以上のようなネックバンド型デバイス1000の機能は、基本的にユーザが発した声による指令に基づいて、ユーザがネックバンド型デバイス1000の操作を行うことなく、ハンズフリーによって実現される。このため、マイクロフォン1010がユーザの声を正確に認識するように構成されている。
2.ネックバンド型デバイスの装着ずれ
ネックバンド型デバイス1000のようにユーザの体に固定されていないデバイスでは、基準とする装着状態からずれた状態となることがある(このようなずれを「装着ずれ」と称することとする)。図2及び図3は、装着ずれを説明するための模式図である。図2は、通常装着時を示しており、開口部1002の位置がユーザの正面を向いており、正しい装着状態を示している。一方、図3は、図2に対してネックバンド型デバイス1000の開口部1002が手前側に回転し、装着ずれが発生した状態を示している。
ネックバンド型デバイス1000に複数のマイクロフォン1010を搭載することにより、ユーザの音声を強調する信号処理を行うことができるが、装着ずれがある場合には、ユーザの口元から各マイクロフォン1010までの伝達特性を逐次推定するような適応的な信号処理が必要となる。このため、本実施形態では、ネックバンド型デバイス1000に装着ずれがある場合においても、高性能な信号処理を可能とする。以下、詳細に説明する。
3.音源位置を特定するための演算
図1に示したように、ネックバンド型デバイス1000の形状は円Cに倣った略円形状である。このため、ネックバンド型デバイス1000の筐体に搭載された複数のマイクロフォン1010も円周上に存在する。これにより、図3に示した装着ずれは、ネックバンド型デバイス1000が張る2次元平面P(以降、回転面と呼ぶ)内における回転運動であり、その回転軸Sはネックバンド型デバイス1000が作る円Cの中心を通ると考えてよい。
図2及び図3に示すように、本実施形態に係るネックバンド型デバイス1000では、装着時に回転面と水平面のなす角度θとネックバンド型デバイス1000(円C)の直径dを適切に選ぶことにより、ユーザの口元から回転面へ垂線Vを下ろした場合に、ネックバンド型デバイス1000が作る円Cに交わるようにする。このような幾何学的関係を作ることで、装着ずれの程度に関わらず、垂線Vと円Cは交わることになる。角度θと直径dの具体的な設定方法、調整方法については、後述する。
このような幾何学的関係において、ユーザの口元座標(x,y,z)は、ネックバンド型デバイス1000の円Cを含む円柱の側面上の点であると数学的に表現することができる。図4は、口元座標(x,y,z)とネックバンド型デバイス1000との位置関係を示す模式図である。図4において、座標軸はネックバンド型デバイス1000に固定して定義している。また、図4では、マイクロフォン1010が3つ設けられた構成を示している。
図4に示すように、ユーザの口元座標(x,y,z)は、円Cを含む円柱の側面上の点であると考えることができるため、以下の式(1)が成立する。
Figure 0006947183
・・・(1)
式(1)を用いることで、既知のマイクロフォン1010の座標(マイク座標)から口元座標(x,y,z)を求めることができる。図5は、マイクロフォン1010が2つ設けられた場合に、マイク座標(x,y,z)とマイク座標(x,y,z)から口元座標(x,y,z)を求める手法を説明するための模式図である。
ここで、時刻tにおけるユーザの音声信号をs(t)とする。s(t)のフーリエ変換をs(ω)と表す。ただし、ω=2πfは角周波数、fは周波数である。以降では、ある狭帯域信号に限定し、s(ω)を単にsと表すことにし、周波数スペクトルと呼ぶ。図5において、口元座標(x,y,z)と各マイク座標の距離をd,dとすると、各マイクロフォン1010で観測された周波数スペクトルp,pは、以下の式(2)、式(3)で表すことができる。ただし、jは虚数単位、exp(a)はaの指数関数を表す。
Figure 0006947183
・・・(2),(3)
また、p≠pであれば、振幅比と位相差の関係から、以下の式(4)、式(5)により距離d,dが求まる。
Figure 0006947183
・・・(4),(5)
一方、幾何学的な関係から以下の式(6)、式(7)が成立する。
=(x−x+(y−y+z ・・・(6)
=(x−x+(y−y+z ・・・(7)
式(6)、式(7)に式(4)、式(5)から求まる距離d,dを代入し、式(1)を加えて連立方程式を解くことができる。式(6)、式(7)は球面を表す方程式であり、式(1)は円柱面を表す方程式であるため、口元座標(x,y,z)はそれらの交点として得ることができる。
解の算出には解析的な方法を用いても良いし、ニュートン法などの数値的な方法を用いても良い。交点(解)は2点存在する場合があるため、その場合にはy>0として1点に決定する。すなわち、装着ずれは±90度以内と仮定する。
以上のように、式(6)、式(7)のみでは口元座標を算出することはできないが、本実施形態のネックバンド型デバイス1000に特有な式(1)の関係を用いることにより、通常では算出不可能な口元座標を算出できる。また、口元座標のzが一度既知になると、zは装着ずれに応じて変化することはないため、以降は3つの方程式(式(1)、式(6)、式(7))に対して未知数が2つになり、最適化によりx,yを算出することが可能となる。なお、最適化計算の手法については、後で詳細に説明する。このように、ネックバンド型デバイス1000が存在する平面と垂直な軸に射影した口元座標を時間的に一定の値として扱うことで、推定パラメータ数を減らして最適化計算を行うことができる。そして、算出したx,yから距離d,dを再計算することにより、距離d,dをより高精度に算出することが可能である。これにより、例えばビームフォーミングなどの性能を大幅に向上することができる。また、口元座標に基づいてネックバンド型デバイス1000側で装着ずれの有無が分かるため、スピーカ1020から音声を発する等の手法によりユーザに装着ずれが発生していることを警告できる。
図6は、マイクロフォン1010が3つ以上(n個)設けられた場合に、マイク座標(x,y,z)から口元座標(x,y,z)を求める手法を説明するための模式図である。なお、i=1,...,nとする。
図6において、口元座標(x,y,z)と各マイク座標の距離をdとすると、各マイクロフォン1010で観測された周波数スペクトルpは、以下の式(8)で表すことができる。
Figure 0006947183
・・・(8)
また、振幅比と位相差の関係から、以下の式(9)、式(10)が得られる。この際、求めたいdの数よりも式の数の方が多いため、線形最適化によりdを得ることができる。
Figure 0006947183
・・・(9),(10)
また、マイクロフォン1010が2つの場合と同様に、幾何学的関係から以下の式(11)が成り立つ。
=(x−x+(y−y+z ・・・(11)
以上により、未知数はx,y,zの3つであり、n+1本の方程式が得られるため、非線形最適化により口元座標(x,y,z)を決定できる。また、得られた口元座標(x0,y0,z0)の値を用いて距離dを算出することにより、より高精度な距離dを得ることができる。
最適化計算では、式(9)、式(10)において、以下のような誤差λi,μiが含まれるものとする(但し、i=1の場合を除く)。
Figure 0006947183
・・・(9)’,(10)’
そして、最適化計算では、式(9)’、式(10)’において、以下の二乗誤差を最小にするd(i=1,・・・,n)を求める。
Figure 0006947183
最適化計算において、方程式の数が1つ増えることにより、距離dの精度が向上する。これにより、マイクロフォン1010から口元への伝達特性(ステアリングベクトル)が正確に得られることになり、ビームフォーミング等の信号処理の性能が向上する。特にn≧3の場合には、n=3では未知数の数と方程式の数が一致するため、最適化計算を行うことができないが、本実施形態に係る方法により最適化計算を行うことで精度の向上が期待できる。また、上記と同様、zが既知になると、未知数の数が減ることにより、より精度の向上が期待できる。
図7は、マイクロフォン1010が点対称の位置にある場合を示す模式図である。2つのマイクロフォン1010から口元座標(x,y,z)までの距離をl,lとすると、タレスの定理により以下の式(12)の関係が常に成立する。
+l =d ・・・(12)
口元座標(x,y,z)と各マイク座標の距離をd,dとすると、式(12)は以下の式(15)のように変形できる。
+d =d+2z ・・・(13)
式(13)が常に成り立つとして、式(1)の代わりに用いることで、口元座標(x,y,z)を求めることができる。
4.最適化計算について
本実施形態における最適化計算では、式(1)の扱い方により2つの方法が考えられる。ここでは一般化のため、任意の位置に3つ以上のマイクロフォン1010が配置されている場合を考える。
第1の方法は、制約付き最適化である。この方法では、ネックバンド型デバイス1000の形状が充分に理想的であり、式(1)が誤差なく成立すると考えられる場合に、式(1)を制約条件として以下の式(16)の二乗誤差を最小にする(x,y,z)を求める。
Figure 0006947183
・・・(16)
第2の方法は、制約無し最適化であって、ネックバンド型デバイス1000の形状が条件を充分には満たしていない場合に、式(1)にも誤差が含まれると考え、以下の式(17)、式(18)を設定する。
Figure 0006947183
・・・(19),(20)
そして、以下の式(19)の二乗誤差を最小にする(x,y,z)を求める。
Figure 0006947183
・・・(19)
5.音源位置推定装置の構成例
図8は、上述した演算によりネックバンド型デバイス1000における音源位置を推定する音源位置推定装置100の構成を示す模式図である。図8に示すように、音源位置推定装置100は、スペクトル取得部102、音源距離演算部104、音源位置演算部106、を有して構成されている。音源位置演算部106によって算出された距離diは、ビームフォーミング演算部108へ送られる。スペクトル取得部102は、マイクロフォン1010で観測された信号をAD変換し、帯域分割処理を行うことにより、周波数スペクトルpiを取得する。音源距離演算部104は、上述した式(4)、式(5)(または式(9)、式(10))に基づいて、口元座標とマイク座標との距離dを求める。音源位置演算部106は、上述した式(1)、式(6)、式(7)(または式(1)、式(11))に基づいて、口元座標(x,y,z)を演算する。また、音源位置演算部106は、求めた口元座標(x,y,z)とマイク座標に基づいて、距離dを再計算し、より高精度に距離dを算出する。ビームフォーミング演算部108は、高精度に再計算された距離diに基づいて、ビームフォーミング処理を行う。図8に示す音源位置推定装置100は、ネックバンド型デバイス1000の内部に設けられるが、音源位置推定装置100を外部機器(クラウドコンピュータ等)に設け、ネックバンド型デバイス1000から外部機器へ必要なパラメータを送信し、外部機器側で演算された音源位置をネックバンド型デバイス1000が受信しても良い。図8に示す音源位置推定装置100の各構成要素は、回路(ハードウェア)、またはCPUなどの中央演算処理装置とこれを機能させるためのプログラム(ソフトウェア)から構成されることができる。また、そのプログラムは、メモリ等の記録媒体に格納されることができる。
6.ビームフォーミング処理について
図9は、ビームフォーミング演算部108の構成を示す模式図である。ビームフォーミング演算部108は、スペクトル取得部108a、ビームフォーミング処理部108b、ビームフォーミング係数算出部108cを有して構成される。なお、スペクトル取得部108aは、スペクトル取得部102と同一の機能を有する構成要素である。
上述のように、口元座標(x,y,z)と各マイクロフォン1010のマイク座標(x,y,z)との距離dを精度良く求めることができるため、以下に説明するように、ビームフォーミング演算部108におけるビームフォーミング処理の性能向上を達成できる。先ず、得られた距離dを用いて、口元から各マイクロフォン1010までの伝達関数を並べた以下の式(20)のようなベクトル(ステアリングベクトル)を作成する。但し、式(20)において、cは音速、nはマイクロフォン1010の数である。また、上付きのTは転置を表す。
Figure 0006947183
・・・(20)
各マイクロフォン1010での周波数スペクトルを並べたベクトルp(式(21)参照)に対してフィルタwを乗じて目的信号以外の信号を抑圧する場合、目的音源は変化しないという拘束の下で出力パワーを最小にする以下の最適化問題の解として、以下の式(22)からフィルタwを得ることができる。
Figure 0006947183
・・・(22)
但し、E[α]はαの期待値である、また上付きのHは共役転置を表す。この最適化問題の解はpの共分散行列であるR(式(23)参照)を用いて以下の式(24)ように表すことができる。
Figure 0006947183
・・・(23),(24)
このようにして得られたフィルタwを用いて、以下の式(25)からqを得ることでビームフォーミング処理を実現する。
Figure 0006947183
・・・(25)
図9に示す構成において、スペクトル取得部108aは、マイクロフォン1010で観測された信号をAD変換し、帯域分割処理を行うことにより、周波数スペクトルpiを取得する。スペクトル取得部108aは、図8のスペクトル取得部102と同様の機能を有するため、両者は一体に構成されていて良い。ビームフォーミング処理部108bは、式(25)の演算処理を行う。また、ビームフォーミング係数算出部では、式(23)、式(24)によりフィルタwを算出する処理を行う。
以上のように本実施形態によれば、ネックバンド型デバイス1000において音源位置(口元座標(x,y,z))を算出することが可能となり、装着ずれがある状況下における各種信号処理(特にステアリングベクトルを用いたビームフォーミング)の性能を向上させることができる。また、マイクロフォン1010が2つの場合であっても、音源位置(口元座標)を算出することができる。更に、装着ずれをより高精度に検出してユーザへ通知することも可能となる。
7.ネックバンド型デバイスの傾きと直径の調整
次に、ネックバンド型デバイス1000の角度θと直径dの設定について説明する。上述した演算によりユーザの口元座標(x,y,z)を算出する際には、角度θと直径dを所定値に定めておくことが望ましい。図10〜図13は、角度θと直径dを所望の値にするための構成を示す模式図である。ネックバンド型デバイス1000の内周面には、図10に示す領域Aにおいて、図11に示すような傾斜面(傾き調整部)1004が設けられている。傾斜面1004は、ネックバンド型デバイス1000がユーザの首に装着された場合に、首と接触する。このため、傾斜面1004の角度を最適な角度に設定することで、角度θを所望の値に設定することができる。好適には、ネックバンド型デバイス1000の開口部1002側に重みを持たせておくことにより、傾斜面1004を確実にユーザの首に接触させることができる。傾斜面1004を備えるアタッチメントをネックバンド型デバイス1000に装着できるようにしても良い。
また、図10に示す領域Bにおいて、角度θを設定する部材を設けても良い。ネックバンド型デバイス1000の開口部1002の近傍に部材を設け、ネックバンド型デバイス1000の前方(開口部1002側)に重みをもたせておくことにより、装着者の体表(鎖骨周辺)とネックバンド型デバイス1000の筐体のすき間を埋めて角度を固定することもできる。図12は、ネックバンド型デバイス1000の開口部1002の近傍に突起部(傾き調整部)1006を設けた例を示す模式図である。この構成では、ネックバンド型デバイス1000がユーザの首に装着された場合に、突起部1006の先端が鎖骨の近傍に当接する。このため、突起部1006の長さを最適な長さに設定することで、角度θを所望の値に設定することができる。また、図13は、図12の突起部1006の代わりに、前方に行くにつれて太さが増す傾斜部(傾き調整部)1008を設けた例を示す模式図である。図13の構成例において、傾斜部1008の鎖骨側への長さを最適な長さに設定することで、角度θを所望の値に設定することができる。突起部1006、または傾斜部1008を備えるアタッチメントをネックバンド型デバイス1000に装着できるようにしても良い。
図10に示すように、ネックバンド型デバイス1000には、スライダー(直径調整部)1100が設けられており、後側筐体1110に対して前部筐体1120がスライド可能とされている。これにより、後側筐体1110に対して前部筐体1120がスライドさせることで、ネックバンド型デバイス1000の直径dを所望の値に設定することができる。なお、異なる直径dのネックバンド型デバイス1000を複数用意し、その中から所望の直径dを有するネックバンド型デバイス1000を選択するなどの手法を用いる場合は、ネックバンド型デバイス1000にスライダー1100を設けなくても良い。
なお、上述した傾斜面1004、突起部1006、傾斜部1008、スライダー1100による角度θ、直径dの設定は、平均的なユーザの身体(首回り)の寸法に応じて予め設定されていても良いし、傾斜面1004、突起部1006、傾斜部1008、スライダー1100を事後的に調整することで、個々のユーザに応じて角度θ、直径dを調整するものであっても良い。
以上説明したように本実施形態によれば、ネックバンド型デバイス1000における音源の位置(ユーザの口元の位置)を高精度に推定することができる。従って、音源の位置に基づいてビームフォーミング処理などの各種処理を最適に行うことが可能となる。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
なお、以下のような構成も本開示の技術的範囲に属する。
(1) リング状のウェアラブルデバイスに設けられた複数のマイクロフォンで得られる音声に基づいて、音源の周波数スペクトルを取得するスペクトル取得部と、
前記周波数スペクトルに基づいて複数の前記マイクロフォンから前記音源までのそれぞれの距離を演算する距離演算部と、
前記リング状のウェアラブルデバイスを円に近似して、前記リング状のウェアラブルデバイスを含む円柱面に前記音源が位置するものとして、前記それぞれの距離を半径とする球面と前記円柱面との交点を求めることで前記音源の位置を演算する音源位置演算部と、
を備える、音源位置推定装置。
(2) 前記音源位置演算部は、前記音源の位置を演算した後、前記音源の位置を再演算する際には、前記円柱面における前記円から前記音源までの距離を固定値として最適化演算を行うことで前記音源の位置を再演算する、前記(1)に記載の音源位置推定装置。
(3) 前記マイクロフォンは2つ設けられ、
音源位置演算部は、前記それぞれの距離を半径とする球面を表す2つの式と前記円柱面を表す式を連立して解くことで、前記球面と前記円柱面との交点を求める、前記(1)又は(2)に記載の音源位置推定装置。
(4) 前記マイクロフォンは3つ以上設けられ、
前記スペクトル取得部は、線形最適化により前記周波数スペクトルを取得する、前記(1)又は(2)に記載の音源位置推定装置。
(5) 前記マイクロフォンは3つ以上設けられ、
音源位置演算部は、前記それぞれの距離を半径とする球面を表す式と、前記円柱面を表す式とに基づいて、非線形最適化により前記音源の位置を演算する、(1)又は(2)に記載の音源位置推定装置。
(6) 前記音源位置演算部は、前記円柱面を表す式を制約条件として、非線形化最適化により前記音源の位置を演算する、前記(5)に記載の音源位置推定装置。
(7) 前記音源位置演算部は、前記リング状のウェアラブルデバイスを前記円に近似したことにより前記円柱面を表す式に含まれる誤差を考慮して、非線形化最適化により前記音源の位置を演算する、前記(5)に記載の音源位置推定装置。
(8) 前記マイクロフォンは前記円の中心に対して点対称の位置に設けられ、
前記音源位置演算部は、前記円柱面を表す式の代わりに、前記それぞれの距離と前記円の直径との関係を示す式を用いて前記球面と前記円柱面との交点を求める、前記(3)に記載の音源位置推定装置。
(9) 前記音源位置演算部は、前記音源の位置を演算した後、演算した前記音源の位置と複数の前記マイクロフォンのそれぞれの位置とに基づいて、複数の前記マイクロフォンから前記音源までのそれぞれの距離を再計算する、前記(1)〜(8)のいずれかに記載の音源位置推定装置。
(10) 前記音源位置演算部により再計算された前記音源までのそれぞれの距離に基づいて、ビームフォーミング処理が行われる、前記(9)に記載の音源位置推定装置。
(11) 前記スペクトル取得部は、複数の前記マイクロフォンで観測された信号をAD変換し、帯域分割処理を行うことにより、前記周波数スペクトルを取得する、前記(1)〜(10)のいずれかに記載の音源位置推定装置。
(12) 複数のマイクロフォンが設けられたリング状の筐体と、
複数の前記マイクロフォンで得られる音声に基づいて、音源の周波数スペクトルを取得するスペクトル取得部と、前記周波数スペクトルに基づいて複数の前記マイクロフォンから前記音源までのそれぞれの距離を演算する距離演算部と、前記筐体を円に近似して、前記筐体を含む円柱面に前記音源が位置するものとして、前記それぞれの距離を半径とする球面と前記円柱面との交点を求めることで前記音源の位置を演算する音源位置演算部と、を備える、音源位置推定装置と、
を備える、ウェアラブルデバイス。
(13) 前記円柱面に前記音源が位置するように、身体の装着部位に対する前記筐体の傾きを調整する傾き調整部を備える、前記(12)に記載のウェアラブルデバイス。
(14) 前記円柱面に前記音源が位置するように、前記筐体におけるリングの直径を調整する直径調整部を備える、前記(12)又は(13)に記載のウェアラブルデバイス。
100 音源位置推定装置
102 スペクトル取得部
104 音源距離演算部
106 音源位置演算部
1004,1008 傾斜部
1006 突起部
1008 スライダー

Claims (14)

  1. リング状のウェアラブルデバイスに設けられた複数のマイクロフォンで得られる音声に基づいて、音源の周波数スペクトルを取得するスペクトル取得部と、
    前記周波数スペクトルに基づいて複数の前記マイクロフォンから前記音源までのそれぞれの距離を演算する距離演算部と、
    前記リング状のウェアラブルデバイスを円に近似して、前記リング状のウェアラブルデバイスを含む円柱面に前記音源が位置するものとして、前記それぞれの距離を半径とする球面と前記円柱面との交点を求めることで前記音源の位置を演算する音源位置演算部と、
    を備える、音源位置推定装置。
  2. 前記音源位置演算部は、前記音源の位置を演算した後、前記音源の位置を再演算する際には、前記円柱面における前記円から前記音源までの距離を固定値として最適化演算を行うことで前記音源の位置を再演算する、請求項1に記載の音源位置推定装置。
  3. 前記マイクロフォンは2つ設けられ、
    音源位置演算部は、前記それぞれの距離を半径とする球面を表す2つの式と前記円柱面を表す式を連立して解くことで、前記球面と前記円柱面との交点を求める、請求項1又は2に記載の音源位置推定装置。
  4. 前記マイクロフォンは3つ以上設けられ、
    前記スペクトル取得部は、線形最適化により前記周波数スペクトルを取得する、請求項1又は2に記載の音源位置推定装置。
  5. 前記マイクロフォンは3つ以上設けられ、
    音源位置演算部は、前記それぞれの距離を半径とする球面を表す式と、前記円柱面を表す式とに基づいて、非線形最適化により前記音源の位置を演算する、請求項1又は2に記載の音源位置推定装置。
  6. 前記音源位置演算部は、前記円柱面を表す式を制約条件として、非線形化最適化により前記音源の位置を演算する、請求項5に記載の音源位置推定装置。
  7. 前記音源位置演算部は、前記リング状のウェアラブルデバイスを前記円に近似したことにより前記円柱面を表す式に含まれる誤差を考慮して、非線形化最適化により前記音源の位置を演算する、請求項5に記載の音源位置推定装置。
  8. 前記マイクロフォンは前記円の中心に対して点対称の位置に設けられ、
    前記音源位置演算部は、前記円柱面を表す式の代わりに、前記それぞれの距離と前記円の直径との関係を示す式を用いて前記球面と前記円柱面との交点を求める、請求項3に記載の音源位置推定装置。
  9. 前記音源位置演算部は、前記音源の位置を演算した後、演算した前記音源の位置と複数の前記マイクロフォンのそれぞれの位置とに基づいて、複数の前記マイクロフォンから前記音源までのそれぞれの距離を再計算する、請求項1〜8のいずれか1項に記載の音源位置推定装置。
  10. 前記音源位置演算部により再計算された前記音源までのそれぞれの距離に基づいて、ビームフォーミング処理が行われる、請求項9に記載の音源位置推定装置。
  11. 前記スペクトル取得部は、複数の前記マイクロフォンで観測された信号をAD変換し、帯域分割処理を行うことにより、前記周波数スペクトルを取得する、請求項1〜10のいずれか1項に記載の音源位置推定装置。
  12. 複数のマイクロフォンが設けられたリング状の筐体と、
    複数の前記マイクロフォンで得られる音声に基づいて、音源の周波数スペクトルを取得するスペクトル取得部と、前記周波数スペクトルに基づいて複数の前記マイクロフォンから前記音源までのそれぞれの距離を演算する距離演算部と、前記筐体を円に近似して、前記筐体を含む円柱面に前記音源が位置するものとして、前記それぞれの距離を半径とする球面と前記円柱面との交点を求めることで前記音源の位置を演算する音源位置演算部と、を備える、音源位置推定装置と、
    を備える、ウェアラブルデバイス。
  13. 前記円柱面に前記音源が位置するように、身体の装着部位に対する前記筐体の傾きを調整する傾き調整部を備える、請求項12に記載のウェアラブルデバイス。
  14. 前記円柱面に前記音源が位置するように、前記筐体におけるリングの直径を調整する直径調整部を備える、請求項12又は13に記載のウェアラブルデバイス。
JP2018539560A 2016-09-13 2017-08-02 音源位置推定装置及びウェアラブルデバイス Active JP6947183B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016178745 2016-09-13
JP2016178745 2016-09-13
PCT/JP2017/028102 WO2018051663A1 (ja) 2016-09-13 2017-08-02 音源位置推定装置及びウェアラブルデバイス

Publications (2)

Publication Number Publication Date
JPWO2018051663A1 JPWO2018051663A1 (ja) 2019-06-24
JP6947183B2 true JP6947183B2 (ja) 2021-10-13

Family

ID=61619549

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018539560A Active JP6947183B2 (ja) 2016-09-13 2017-08-02 音源位置推定装置及びウェアラブルデバイス

Country Status (4)

Country Link
US (1) US11402461B2 (ja)
EP (1) EP3515088A4 (ja)
JP (1) JP6947183B2 (ja)
WO (1) WO2018051663A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7103353B2 (ja) * 2017-05-08 2022-07-20 ソニーグループ株式会社 情報処理装置
CN111383649B (zh) * 2018-12-28 2024-05-03 深圳市优必选科技有限公司 一种机器人及其音频处理方法
JP6786139B1 (ja) * 2020-07-06 2020-11-18 Fairy Devices株式会社 音声入力装置
US20220084525A1 (en) * 2020-09-17 2022-03-17 Zhejiang Tonghuashun Intelligent Technology Co., Ltd. Systems and methods for voice audio data processing

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100371969B1 (ko) 2000-05-27 2003-02-14 (주)넥폰 넥폰
US6912178B2 (en) * 2002-04-15 2005-06-28 Polycom, Inc. System and method for computing a location of an acoustic source
JP5262818B2 (ja) 2009-02-20 2013-08-14 株式会社Jvcケンウッド 耳掛け式イヤホン装置、イヤホン装置用耳掛けアーム
JP5772447B2 (ja) * 2011-09-27 2015-09-02 富士ゼロックス株式会社 音声解析装置
JP6503559B2 (ja) 2014-10-20 2019-04-24 ソニー株式会社 音声処理システム
US9654868B2 (en) * 2014-12-05 2017-05-16 Stages Llc Multi-channel multi-domain source identification and tracking
WO2017065092A1 (ja) 2015-10-13 2017-04-20 ソニー株式会社 情報処理装置
EP3190811B1 (en) * 2016-01-04 2019-02-27 LG Electronics Inc. Portable sound equipment

Also Published As

Publication number Publication date
WO2018051663A1 (ja) 2018-03-22
US20190250245A1 (en) 2019-08-15
EP3515088A4 (en) 2019-07-31
EP3515088A1 (en) 2019-07-24
US11402461B2 (en) 2022-08-02
JPWO2018051663A1 (ja) 2019-06-24

Similar Documents

Publication Publication Date Title
JP6947183B2 (ja) 音源位置推定装置及びウェアラブルデバイス
US11706582B2 (en) Calibrating listening devices
JP6747538B2 (ja) 情報処理装置
US9848273B1 (en) Head related transfer function individualization for hearing device
US10129681B2 (en) Calibrating listening devices
CN107211216B (zh) 用于提供虚拟音频再现的方法和装置
EP2836852B1 (en) Systems and methods for mapping a source location
US20200107149A1 (en) Binaural Sound Source Localization
US20180199137A1 (en) Distributed Audio Microphone Array and Locator Configuration
JP2015502716A (ja) 空間パワー密度に基づくマイクロフォン位置決め装置および方法
US10674268B2 (en) System and method for operating a wearable loudspeaker device
WO2016118398A1 (en) Mountable sound capture and reproduction device for determining acoustic signal origin
JP2023508002A (ja) オーディオデバイス自動場所選定
US11330390B2 (en) Method for determining distance between ears of a wearer of a sound generating object and an ear-worn, sound generating object
CN116601514A (zh) 用于使用声信标来确定设备的位置和取向的方法和系统
EP3661233B1 (en) Wearable beamforming speaker array
WO2020077389A1 (en) "a method and system for determining an orientation of a user"
WO2022172648A1 (ja) 情報処理装置、情報処理方法、及び、プログラム
JP2020086143A (ja) 情報処理システム、情報処理方法、測定システム、及びプログラム
CN109963232A (zh) 音频信号播放装置及对应的音频信号处理方法
US9794685B2 (en) Video audio recording system, video audio recording device, and video audio recording method
US11792597B2 (en) Gaze-based audio beamforming
US20240089687A1 (en) Spatial audio adjustment for an audio device
CN115240244A (zh) 耳机出声口定位方法、系统、计算机设备和存储介质
Iyer et al. A Study of the Relationship between Head Related Transfer Functions and Elevations

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20190515

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190522

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200702

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200702

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210817

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210830

R151 Written notification of patent or utility model registration

Ref document number: 6947183

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151