JP6665379B2 - 聴覚支援システムおよび聴覚支援装置 - Google Patents

聴覚支援システムおよび聴覚支援装置 Download PDF

Info

Publication number
JP6665379B2
JP6665379B2 JP2015221387A JP2015221387A JP6665379B2 JP 6665379 B2 JP6665379 B2 JP 6665379B2 JP 2015221387 A JP2015221387 A JP 2015221387A JP 2015221387 A JP2015221387 A JP 2015221387A JP 6665379 B2 JP6665379 B2 JP 6665379B2
Authority
JP
Japan
Prior art keywords
sound
sound source
user
hearing
ear
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015221387A
Other languages
English (en)
Other versions
JP2017092732A (ja
Inventor
イシイ・カルロス・トシノリ
超然 劉
超然 劉
イアニ・エヴァン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2015221387A priority Critical patent/JP6665379B2/ja
Publication of JP2017092732A publication Critical patent/JP2017092732A/ja
Application granted granted Critical
Publication of JP6665379B2 publication Critical patent/JP6665379B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Stereophonic System (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Description

この発明は、音源定位および音源分離技術を用いて、使用者の聴覚の支援をするための技術に関する。
世界各国で共通して、その国における人口の1割〜2割程度が難聴・聴覚障害を持っているといわれている。2009年の日本補聴器販売店協会による「補聴器供給システムの在り方に関する研究」報告書の中で、日本の難聴者人口は15.7% (1944万人)と報告されている。そのうち、自覚のない難聴者(7.2%)、自覚がある難聴者(4.5%)、ほとんど使用しない補聴器所有者(1.0%)、常時または随時使用の補聴器所有者(2.7%)に分かれる。
高齢者の難聴は、神経細胞などの老化現象としての老人性難聴で、65歳以上では25〜40%、75歳以上では40〜66%の割合で見られる。高齢化に伴い、難聴者数は更に増加すると予想される。
日本で補聴器を使っている人は400万人程度であり、難聴者のうち5人に1人しか補聴器を使っていないことになる。補聴器を途中で使わなくなる難聴者も多い。
その理由としては、たとえば、一般の補聴器は、マイクが補聴器に埋め込まれているため、周囲の雑音も増幅されてしまうという根本的な問題があることが挙げられる。また、ハウリング(ピーピー音)も起きやすく利用者に苦痛を感じさせる。最近の補聴器は、デジタル処理の導入により、周波数帯域ごとの音量調整や騒音抑制などの機能が埋め込まれ、性能は上がっている。ハウリング防止の信号処理も施しているものがあるが、その分、音量を抑える必要があり、重度難聴には十分な音量が出力できない。
利用者が補聴器を止める原因は、多くの場合、利用者に合った補聴器を選べていない、または設定が難しく誤った設定で使用しているためとされているが、それらが適切であっても補聴器単体による快適さ(聞こえやすさ)には限界がある。
また、特許文献1には、選択可能な知覚空間的な音源の位置決めを備える聴覚装置が開示されている。特許文献1に開示の技術では、聴覚装置システムは、聴覚装置(右耳用の第1の補聴器と、左耳用の第2の補聴器とを備えるバイノーラル補聴器)と、聴覚装置に送信される選択された音声信号の到来の知覚方向をユーザが選択可能にする制御装置(スマートフォン)を備えている。このような構成により、会話キューを聞き取れるようにすることにより、患者の聴力が改善する。
このように補聴器への応用においては、バイノーラル処理(両耳に装着した補聴器のマイクを利用した信号処理)が、国内外で多く研究されている。例えば、非特許文献1には、バイノーラル信号を用いてブラインド信号処理とポストフィルタリングを中心に,両耳補聴器に適用した研究が開示されている。非特許文献2では、「聞き耳」型補聴システムの研究開発が報告されており、非特許文献3では、高齢者の聴覚機能の低下に向けた聴覚支援システムに関する研究が報告されている。
さらに、ピンマイクやペン型などの遠隔マイクにより、FM経由で遠隔の声を送受信する機能を持つ補聴器もあるが、遠隔のマイク周辺の雑音も増幅する問題や、音の方向を感知するための空間的情報も保たれない問題が残る。
空間的情報の伝達においては、マイク埋め込みの補聴器を両耳にかけることにより、ある程度解決されるが、自分の声も大きく聞こえる問題は残る。
聴覚を支援するための遠隔センサ・遠隔マイクによる空間的情報の伝達における問題点は、センサと音源の相対的角度が利用者と音源の相対的角度と異なることが原因で、音の方向情報を取得できる多チャンネルの場合でも生じる。聴覚支援を目的に多チャンネルのマイクロホンアレイ技術を活用した研究は国内外多数あるが、ほとんどが一つの音源を強調させ、モノラル信号を出力する仕組みで、空間的情報が失われる。
一方で、上述したような音の空間的情報を取得するには、マイクロホンアレイを用いた音源定位と、音源分離の技術を利用することができる。
音源定位に関して、実環境を想定した従来技術として特許文献2または特許文献3に記載のものがある。特許文献2または特許文献3に記載の技術は、分解能が高いMUSIC法と呼ばれる公知の音源定位の手法を用いている。
特許文献2または特許文献3に記載の発明では、マイクロホンアレイを用い、マイクロホンアレイからの信号をフーリエ変換して得られた受信信号ベクトルと、過去の相関行列とに基づいて現在の相関行列を計算する。このようにして求められた相関行列を固有値分解し、最大固有値と、最大固有値以外の固有値に対応する固有ベクトルで ある雑音空間とを求める。さらに、マイクロホンアレイのうち、1つのマイクロホンを基準として、各マイクの出力の位相差と、雑音空間と、最大固有値とに基づいて、MUSIC法により音源の方向を推定する。
さらに、特許文献4では、人間とそれ以外の雑音源とが混在している場合、人間の発生する音声と 雑音とを精度高く分離することを目的として、音源定位および音源分離をするシステムが開示されている。ここでは、音源定位装置は、人の位置を検出するLRF(レーザレンジファインダ)群と、マイクロホンアレイ群の出力から得られる複数チャンネルの音源信号の各々と、マイクロホンアレイに含まれる各マイクロホンの間の位置関係と、LRF群の出力とに基づいて、複数の方向の各々について、所定時間ごとにMUSICパワーを算出し、そのピークを音源位置として所定時間ごとに検出する音源定位処理部と、マイクロホンアレイの出力信号から、音源定位処理部により検出された音源位置からの音声信号を分離する音源分離処理部と、分離された音声信号の属性を人位置計測装置の出力を用いて高精度で 判定する音源種類同定処理部とを含む。
特開2015−136100号公報明細書 特開2008−175733号公報明細書 特開2011−220701号公報明細書 特開2012−211768号公報明細書
高藤、森、猿渡、鹿野 (2008). SIMOモデルに基づくICAと頭部伝達関数の影響を受けないバイナリマスク処理を組み合わせた両耳聴覚補助システム、電子情報通信学会技術研究報告. EA, 応用音響 108(143), 25-30, 2008. 鵜木祐史. 「聞き耳」 型補聴システムの研究開発.「戦略的情報通信研究開発推進事業SCOPE)」平成25年度新規採択課題 http://www.soumu.go.jp/main_content/000242634.pdf 高齢者の聴覚機能の低下に向けた聴覚支援システムに関する研究、文部科学省科学研究費基盤研究(C)、2014年04月 〜 2017年03月
しかしながら、たとえば、上述した特許文献1の技術では、ユーザがディスプレイ上で、音声を発している対象を表すシンボルを、自身の現在の環境に併せて、自分で移動させて知覚空間的な音源の位置決めを行う必要がある。このため、ユーザの負担が大きく、また、ユーザの頭の方向等が変化すると、聞こえてくる音の到来方向が、現実の空間中の音源の方向とはずれてしまい、違和感があるという問題がある。
また、特許文献2〜4に開示の技術でも、単に、音源からの音の到来方向の推定と音源からの音の分離を行うのみであるので、ユーザの耳に聞こえてくる音の到来方向と、現実に視覚的に把握される音源の方向とのずれについては、何ら検討がなされていない。
また、従来の補聴器では、以下のような問題点がある。
(1)利用者に必要な音と不要な音を選択することができない。
(2)音の空間的情報が失われる。
(3)設定が複雑で使いにくい。
この発明は、このような問題点を解決するためになされたものであって、その目的は、観測された3次元的な音環境を、聴覚を支援する人の頭の位置・姿勢に応じて再現することで、違和感のない聴覚の支援を実現することが可能な聴覚支援システムを提供することである。
この発明の他の目的は、環境内の個々の音を分離することにより、利用者に対して必要な音と不要な音を取捨選択的に制御することができる聴覚支援システムを提供することである。
この発明の1つの局面に従うと、対象空間内の利用者の聴覚を補助するための聴覚支援システムであって、対象空間に設置される音源定位装置を備え、音源定位装置は、対象空間における対象物の位置を検出する位置検出手段と、対象空間内に設置されるマイクロホンアレイからの出力に応じて、マイクロホンアレイについて音の到来方向を推定し、位置検出手段の検出結果と統合して、対象空間内での音源の位置を特定して出力する音源定位手段と、特定された音源の位置からの音を分離して出力するための音源分離手段とを含み、利用者の顔姿勢に応じて、対象空間内の音声を再構成するための空間感覚合成装置をさらに備え、空間感覚合成装置は、対象空間内の利用者の顔姿勢を検出するための顔姿勢検出手段と、利用者に装着され、利用者の両耳に対して対象空間の音環境を再現するための音再現手段と、音源定位手段から、音源の位置を受信し、検出された顔姿勢に応じて、対象空間の音源の位置から利用者の各耳への頭部伝達関数を用いて、音源分離手段からの分離音の信号から音再現手段により各耳へ再現するための音信号を合成する音空間再構成手段とを含み、音空間再構成手段は、利用者の顔の前方の所定範囲内にある音源からの音は強調され、所定範囲外にある音源からの音は減衰されるように、それぞれの音量を調節する。
好ましくは、空間感覚合成装置は、利用者の各耳の難聴特性に合わせて周波数帯域ごとの音量を補正する周波数特性補正手段をさらに備える。
好ましくは、音再現手段は、ヘッドホンまたはイヤホンであり、顔姿勢検出手段は、ヘッドホンに装着されたジャイロおよびコンパスを含む。
好ましくは、音再現手段は、ヘッドホンまたはイヤホンであり、顔姿勢検出手段は、撮像された利用者の画像から利用者の顔姿勢を推定する。
好ましくは、音源定位手段は、マイクロホンアレイに基づく音の到来方向と位置検出手段で検出された音源の位置が、交差することに応じて、音源の位置を特定する。
好ましくは、音源から利用者の各耳までの方向に応じた複数の頭部伝達関数の係数を保存するデータベースをさらに備え、音空間再構成手段は、対象空間において、対象空間の音源の位置から利用者の各耳への頭部伝達関数をデータベースから選択して、各耳へ空間的感覚を再現するための音信号を合成する。
この発明の他の局面に従うと、対象空間の音環境に関する情報を送信する環境センサ装置からの情報に基づき、対象空間の音環境を利用者の顔姿勢に応じて再現するための聴覚支援装置であって、環境センサ装置からは、対象空間における音源の位置を示す位置情報と、位置情報で特定された音源の位置からの音を分離した分離音の信号とが送信され、対象空間内の利用者の顔姿勢を検出するための顔姿勢検出手段と、利用者に装着され、利用者の両耳に対して音環境に対応する音を再現するための音再現手段と、音源位置の位置情報を受信し、検出された顔姿勢に応じて、対象空間の音源の位置から利用者の各耳への頭部伝達関数を用いて、分離音の信号から音再現手段により各耳へ再現するための音信号を合成する音空間再構成手段とを備え、音空間再構成手段は、利用者の顔の前方の所定範囲内にある音源からの音は強調され、所定範囲外にある音源からの音は減衰されるように、それぞれの音量を調節する。
好ましくは、利用者の各耳の難聴特性に合わせて周波数帯域ごとの音量を補正する周波数特性補正手段をさらに備える。
好ましくは、音再現手段は、ヘッドホンまたはイヤホンであり、顔姿勢検出手段は、ヘッドホンに装着されたジャイロおよびコンパスを含む。
好ましくは、音再現手段は、ヘッドホンまたはイヤホンであり、顔姿勢検出手段は、撮像された利用者の画像から利用者の顔姿勢を推定する。
好ましくは、音源から利用者の各耳までの方向に応じた複数の頭部伝達関数の係数を保存するデータベースをさらに備え、音空間再構成手段は、対象空間において、対象空間の音源の位置から利用者の各耳への頭部伝達関数をデータベースから選択して、各耳へ空間的感覚を再現するための音信号を合成する。
本発明によれば、観測された3次元的な音環境を、聴覚を支援する人の頭の位置・姿勢に応じて再現することで、違和感のない聴覚の支援を実現することが可能である。
また、本発明によれば、環境内の個々の音を分離することにより、利用者に対して必要な音と不要な音を取捨選択的に制御することができる。
本実施の形態の聴覚支援システム1000の利用場面のイメージ図である。 本実施の形態の聴覚支援システム1000の構成を説明するためのブロック図である。 音源定位装置300の構成を説明するための機能ブロック図である。 音源分離処理を説明するための機能ブロック図である。 空間感覚合成部500を説明するための機能ブロック図である。 音源定位装置300のハードウェア構成を説明するためのブロック図である。 インタフェースの画面表示例を示す図である。
以下、本発明の実施の形態の聴覚支援システムの構成について、図に従って説明する。なお、以下の実施の形態において、同じ符号を付した構成要素および処理工程は、同一または相当するものであり、必要でない場合は、その説明は繰り返さない。
なお、以下の説明では、音センサとしては、いわゆるマイクロホン、より特定的にはエレクトレットコンデンサマイクロホンを例にとって説明を行うが、音声を電気信号として検出できるセンサであれば、他の音センサであってもよい。
そして、操作者側の音環境の再生には、ステレオヘッドホンを例として説明することにする。もちろん、右耳と左耳に別々に音声を再生するイヤホンであってもよい。
図1は、本実施の形態の聴覚支援システム1000の利用場面のイメージ図である。
老人ホームや介護施設などの供用空間で複数の利用者が環境センサを共用し、聴覚支援システム1000は、ドアの音や足音、食器の音、エアコンの音など、不要・不快な音を抑圧し、利用者が注意している対話相手の声やテレビの音(利用者指向の注意対象)と利用者に背後から話しかけられた声(利用者向けの発話対象)を強調し、利用者に応じてその場で聞くべき音のみを提供する。
ここで、環境センサとは、後に説明するような音源定位と音源分離を行うための「マイクロホンアレイ」、対象物(特に、人)の空間内の位置をトラッキングするための「距離センサ(たとえば、レーザレンジファインダ:LRF)」を含む。特に、距離センサは、固定されたものだけでなく、自律移動可能なロボットに搭載されて、空間内を移動するものを含んでも良い。
図2は、本実施の形態の聴覚支援システム1000の構成を説明するためのブロック図である。
図2では、ユーザのいる空間の座標系は、(x,y,z)であるものとする。
聴覚支援システム1000において、環境音の観測などを実行する環境センサネットワークでは、1つ以上のマイクロホンアレイ10.1〜10.Mを含むマイクロホンアレイ群100と、複数のレーザレンジファインダ(LRF:Laser Range Finder)20.1〜20.Lを含むLRF群200と、マイクロホンアレイ群100とLRF群200との出力に基づいて、ユーザのいる環境に存在する音源の定位・トラッキングと音源の分離を行う音源定位装置300とを備える。
音源定位装置300において、人位置検出追跡部310は、LRF群200の出力を用いて、どの位置に人間が存在するかを示す情報(人位置情報と呼ぶ)を検出し、人の動きに応じて、非発声期間においても人位置の追跡を行う。音源定位部320は、マイクロホンアレイ群52の出力および人位置検出追跡部310から出力される人位置情報を受けて、マイクロホンアレイ群52から出力される音声信号に基づいて音源定位を行ない、音源分離部330は、音源を分離して分離した各音源からの音を収集し、分離音を出力する。また、音源定位部からの音源の方向および位置の情報(方向・位置情報と呼ぶ)も出力される。
聴覚支援システム1000の空間感覚合成部500は、音源分離部330からの分離音を受信して音量を正規化するための音量制御部510と、ユーザ2が装着したヘッドホン上のセンサ600からの情報を基に、ユーザ2の顔の向きを推定する顔姿勢推定部520と、受信した方向・位置情報と推定されたユーザ2の顔の向きに応じて、音源の位置および顔の向きから、左右のチャンネルに対応した頭部伝達関数(HRTF:Head Relative Transfer Function)をデータベース530から選択し、分離した音声に畳み込み演算を行い、ステレオヘッドホン610でユーザ2に再生する音声を再構成して合成する音空間再構成部540とを備える。
ユーザ2の頭部回転トラッキングのためのセンサ600としては、ヘッドホン610の上部に取り付けたジャイロセンサーおよびコンパスを用いることができる。
また、音量制御部510においては、分離した各音源のボリュームについては、ユーザ2が、表示部650に表示されるユーザインタフェースにて独立して調節することが可能な構成としてもよい。
図3は、音源定位装置300の構成を説明するための機能ブロック図である。
図3を参照して、音源定位部320は、各マイクロホンアレイ10.1〜10.Mからの信号によって、それぞれ、音の3次元到来方向(DOA:Direction Of Arrival)を推定する3次元空間DOA評価部3202.1〜3202.Mと、3次元空間地図を格納する3次元空間地図格納部3204とを備え、空間情報統合部3206は、3次元空間地図で表現される環境とマイクロホンアレイの位置関係、各音源のDOA、および人位置検出追跡部310からの情報を統合することで、3次元上での人位置情報を取得する。この人位置情報は、ヒューマントラッキングシステムを構成する人位置検出追跡部310により、非発声時にも常時追跡されている。
音源分離部330において、音源分離処理部3302.1〜3302.j(j:話者または注目する音源の数)は、推定した人位置情報に基づいて各人の音声を分離し、空間情報統合部3206からの位置情報と合わせて空間感覚合成部500に送信する。
以下、各部の動作について、さらに詳しく説明する。
(3次元音源定位)
音源定位に関しては、まず、3次元空間DOA評価部3202.1〜3202.Mが、各マイクロホンアレイ10.1〜10.Mのそれぞれに対してDOA推定を行う。空間情報統合部3206は、1つ以上のアレイによるDOA情報と人位置検出追跡部310からの人位置情報を統合することで、音源の3次元空間内の位置を推定する。
実環境での音のDOA推定は広く研究されてきており、MUSIC法は、複数のソースを高い分解能で定位できる最も有効な手法の一つであり、たとえば、上述した特許文献2,3にも開示されている。音源数を固定した数値に仮定し、しきい値を超えたMUSICスペクトルのピークを音源として認識する。ここでは、たとえば、MUSIC法の実装にあたり、100msごとに1度の分解能を有するように構成したとしても、動作クロック周波数2GHzのシングルコアCPUで、リアルタイムに音源の方向を探索することができる。
さらに、聴覚支援システム1000にとって、最も重要な音源は人の音声である。そこで、音源定位装置300では、人の声を漏れ無く抽出するために、複数の2次元LRFで構成したヒューマントラッキングシステムを使用する。空間情報統合部3206は、マイクロホンアレイからのDOA推定出力とLRFのトラッキング結果が同じ位置(または所定の距離以内の位置)で交差すれば、そこに音源がある可能性が高いと判断する。
ここで、音源定位装置300のように、2次元のLRFを用いている場合は、人位置情報は2次元に限られる。ここでは、検出された音源の位置が口元の高さの範囲内にあるかの制限(たとえば、z=1〜1.6m)もかけて音源の特定を行う。 無音区間や音源方向推定が不十分な区間では、最後に推定された口元の高さと最新の2次元位置情報を用いて、音源分離を行う。
(音源分離)
音源分離部330では、選択された複数の人物(および注目する音源)(個数:j)をパラレルに分離している。
図4は、このような音源分離処理を説明するための機能ブロック図である。
音源分離では,選択された複数の人物を並列に分離する。
ここで、マイクロホン(Mic)は、N本であるものとする。iは、1≦i≦Nとする。
まず、分離の第1ステップとして、定常雑音推定部3310.kは、エアコンなどの定常雑音抑圧(noise suppression)をマイクロホンのチャンネル毎に行う。雑音抑圧部3312.iは、定常雑音抑圧手法として、以下の式(1)に示すようにウィーナーフィルタ(Wiener filter)を用いる。
i(f)は、観測信号の周波数成分を表す。定常雑音(Ni(f))は、対象となる人の声が存在しない区間での平均スペクトルとして推定される。
雑音抑圧部3312.iによる定常雑音抑圧処理は、ポストフィルタとして、ビームフォーマを施した後に行うことも可能であるが、ここでは、musicalノイズの発生を抑えるため、ビームフォーマの前に施すものとする。
DSビームフォーマー部3314.1〜3314.jでは、音源定位部から得られる方向(方位角、仰角)と距離情報を基に、ビームフォーマを施す。ここでは、計算量が少なく且つロバストな遅延和ビームフォーマ(Delay-Sum Beamformer)を用いて、目的方向の人の声を分離・強調する。フレーム長は20msで、シフト長は10msである。
なお、話者または注目する音源の個数jについては、予め所定の値が設定されているものとする。
ここで、遅延和ビームフォーマについては、たとえば、以下の文献に開示がある。
文献1:国際公開WO2004/034734公報(再表2004-034734号公報)
ビームフォーミングの基本原理を、2マイクロホンの場合を例に簡単に説明する。
特性が全く等しい2個の全指向性マイクロホンを間隔dで配置し、これらに対して平面波が方向θから到来する状況を考える。この平面波は各マイクロホンにおいて、経路差dsinθの分だけ、伝搬遅延時間が異なる信号として受信される。ビームフォーミングを行う装置であるビームフォーマでは、或る方向θ0から到来する信号に関する伝搬遅延を補償するように、δ=dsinθ/c(cは音速)だけ、一方のマイクロホン信号を遅延させ、その出力信号を他方のマイクロホン信号と加算または減算する。
加算器の入力では、方向θから到来する信号の位相が一致する。従って、加算器の出力において、方向θから到来した信号は強調される。一方、θ以外の方向から到来した信号は、互いに位相が一致しないため、θから到来した信号ほど強調されることはない。その結果、加算器出力を用いるビームフォーマは、θにビーム(Beam:特に感度の高い方向)を有する指向性を形成する。対照的に、減算器では、方向θから到来する信号が完全にキャンセルされる。従って、減算器出力を用いるビームフォーマは、θにヌル(Null:特に感度の低い方向)を有する指向性を形成する。このように遅延と加算のみを行うビームフォーマを、「遅延和ビームフォーマ」と呼ぶ。
ここで、より一般に、空間に指向性音源Sと無指向性雑音源Nが存在すると仮定すると、遅延和ビームフォーマの出力は以下の形になる:
DS(f)は周波数fに対応したビームフォーマの出力で、Sdirは信号の方向、wSdirはSdir方向のビームフォーマレスポンスを指す。式の二つ目の項目は、分離音声に混在する雑音を表している。この雑音成分を低減させるために、各周波数に以下のようなウェイトを掛ける。
iはウェイト掛けした後のビームフォーマ出力である。ここでは、改めて、1≦i≦jとする。
また、チャネル間抑圧部3316は、DSビームフォーマのみでは、十分な音源分離が出来ず、チャンネル間の信号(妨害音)の漏れを抑えるための処理(inter-channel suppression)を行う。妨害音抑圧処理には、以下の式(5)に示すようにウィーナーフィルタ(Wiener filtering)を用いる。
i(f)は式(6)に示すように、分離された対象音以外の音源の中で、最も強い周波数成分を表す。上述の妨害音抑圧処理の一つの問題点として、同じ方向に対象音と妨害音が存在する場合、対象音に歪みが生じる可能性が高い。
そこで、ここでは対象音の方向(dir1)と妨害音の方向(dir2)の差が、所定の角度、たとえば5度以内であれば、以下の式(7)に従って、抑圧処理を行わない制約を設ける。
最後に、ゲイン正規化部3318.1〜3318.jは、音源とマイクロホンアレイの距離riによって、観測される音圧が異なるため、以下のようなゲインgiをかけることにより、距離による振幅の正規化(gain normalization)を施す。
図5は、空間感覚合成部500を説明するための機能ブロック図である。
空間感覚合成部500は、環境センサ側から提供される分離音を受信し、利用者と対象音源の相対的位置関係を考慮して、音の空間的感覚を再構築する。処理としては、複数音源に対する音量調整と、頭部伝達関数(HRTF)を用いた音像の合成となる。
音量制御部510は、音源分離部330からの分離音をそれぞれ受信して音量をそれぞれ正規化するための音量制御処理部5102.1〜5102.jを備える。
音量制御部510は、各音源とアレイの間の距離による違いを補正するため、分離した各音声に対して距離によって以下のように正規化を行う。
このうち、Nは音源の数で、distnはn番目の音源とアレイの距離を表す。giはi番目の音源からの分離音YPF,iに掛ける正規化ファクタで、Yiはi番目の音源の分離結果を示している。
顔姿勢推定部520は、ユーザ2が装着したヘッドホン上のセンサ600からの情報を基に、ユーザ2の顔の向きを推定する。
ただし、たとえば、ユーザ2の顔の向きを推定する方法は、このような構成に限定されるわけでなく、たとえば、ユーザ2の画像を撮像し、この撮像データからユーザ2の頭部姿勢を推定することとしてもよい。このような撮像画像による頭部姿勢の推定については、特に限定されないが、たとえば、以下の文献に開示がある。
文献2:特開2014−93006号公報
音空間再構成部540において、空間再構成部550は、環境センサ側から受信した方向・位置情報と推定されたユーザ2の顔の向きに応じて、座標系(x,y,z)における音源の位置を再構成し、推定された顔の向きから、左右のチャンネルに対応した正確な頭部伝達関数(HRTF:Head Relative Transfer Function)をデータベース530から選択する。
ここで、頭部伝達関数HRTFとは、任意に配置された音源から発せられたインパルス信号を、受聴者の外耳道入り口で測定したインパルス応答であり、たとえば、以下の文献にも開示がある。
文献3:特開2010−118978号公報
音空間再構成部540において、HRTF処理部5502.1〜5502.jは、分離され音量が制御された音声に、選択された頭部伝達関数との畳み込み演算を行い、左耳音合成部5504.1および右耳音合成部5504.2は、それぞれ左耳周波数特性補正部5506.1および右耳周波数特性補正部5506.2を通して、ステレオヘッドホン610の左右のスピーカでユーザ2に再生する左耳用音および右耳用音をそれぞれ合成する。
左耳周波数特性補正部5506.1および右耳周波数特性補正部5506.2は、予め測定されたユーザ2の難聴特性に合わせて、右耳および左耳のそれぞれについて、周波数帯域ごとの音量の制御を行う。たとえば、一例として、ユーザ2の右耳の高音域での聴覚能力が落ちているのであれば、これに併せて、右耳の高音域の音声を強調して補正する処理を実行する。
ヘッドホンを用いた3D音場の再現においては、日常、人は両耳に到達した音波の違いによって音源定位を行っていることを利用する。ヘッドホン610で、この違いを再現することで、ステレオヘッドホンで3D音場を合成することが可能になる。
頭部伝達関数HRTFは、空間内の音源から発した音波が人の両耳に到達する時点の違いを表現する関数であって、3D音場のバイナル再現に多く使われる。しかし、ヘッドホンを使って空間上に存在する音源を再現する際には、バーチャルな音源が聴者の頭部・体の動きと共に動いてしまうという問題点がある。人の日常経験を考えると、外部音源の位置は聴者の体の動きに関連せず、固定されている。ヘッドホンによる3D音場の再現ではこの経験と異なるため、臨場感にマイナスに働き、不自然な印象の原因となってしまう。さらに、頭部伝達関数を使った場合、前後の誤判断が起こるという問題がある。これは、前方にある音源が後方にあるように聞こえる、もしくはその逆の現象である。日常生活では音源を定位するために意識的・無意識的に頭部を回し、その効果を定位の補助に用いている。
これらを考慮し、聴覚支援システム1000では、ユーザ2の頭部回転をトラッキングすることで、頭部の向きに合わせたHRTFを用いてステレオ音声を合成する。正確なHRTFを選択するのに必要な連続的音源位置情報は、複数のマイクロホンアレイのDOA推定結果、および、人位置推定システムから取得されている。
すなわち、一つの音声を特定の方向から聞こえるようにするため、その方向に対応したHRTFによってフィルタリングしてステレオ化する。HRTFを表す係数のデータベースとしては、特に限定されないが、たとえば、一般公開されているKEMAR(Knowles Elec-tronics Manikin for Acoustic Research) ダミーヘッドのHRTFデータベースを利用することができる。KEMARは、HRTF研究のために一般的な頭部サイズを使って作られたダミーヘッドで、データベースには空間からのインパルス信号に対するダミーヘッドの左右耳のレスポンスとして、仰角−40度から90度までの総計710方向のインパルス応答が含まれている。各インパルス応答の長さは512サンプルで、サンプリング周波数は44.1kHzである。なお、被験者の頭部の形状に対応したHRTFを合成しておき、これをデータベースとして使用することも可能である。
HRTFを用いてダイナミックに音場を合成するには、頭部の向きのリアルタイム検出が必要であるため、上述のように、ヘッドホンの上部にジャイロセンサーとコンパスを取り付け、頭部回転のトラッキングを行う構成とすることができる。このとき、角度情報はシリアルおよびブルートゥース経由のいずれかでシステムに送られる。音場の合成に使う方向は音源方向から頭部角度を引いたもので、この方向に対応した左右チャンネルのインパルス応答がデータベースから選出され、分離結果と畳み込み演算を行った音声がユーザの両耳に再生される。
図6は、音源定位装置300のハードウェア構成を説明するためのブロック図である。
なお、空間感覚合成部500も、基本的には、同様の構成を有する。すなわち、図3〜図5に示した各機能ブロックの機能は、以下に説明するようなハードウェア上で動作するソフトウェアにより実現される。
図6に示されるように、音源定位装置300は、外部記録媒体64に記録されたデータを読み取ることができるドライブ装置52と、バス66に接続された中央演算装置(CPU:Central Processing Unit)56と、ROM(Read Only Memory) 58と、RAM(Random Access Memory)60と、不揮発性記憶装置54と、マイクフォンアレイ10.1〜10.Mからの音声データおよびレーザレンジファインダ20.1〜20.Lからの測距データを取込むためのデータ入力インタフェース(以下、データ入力I/F)68とを含んでいる。
外部記録媒体64としては、たとえば、CD−ROM、DVD−ROMのような光ディスクやメモリカードを使用することができる。ただし、記録媒体ドライブ52の機能を実現する装置は、光ディスクやフラッシュメモリなどの不揮発性の記録媒体に記憶されたデータを読み出せる装置であれば、対象となる記録媒体は、これらに限定されない。また、不揮発性記憶装置54の機能を実現する装置も、不揮発的にデータを記憶し、かつ、ランダムアクセスできる装置であれば、ハードディスクのような磁気記憶装置を使用してもよいし、フラッシュメモリなどの不揮発性半導体メモリを記憶装置として用いるソリッドステートドライブ(SSD:Solid State Drive)を用いることもできる。
このような音源定位装置300の主要部は、コンピュータハードウェアと、CPU56により実行されるソフトウェアとにより実現される。一般的にこうしたソフトウェアは、マスクROMやプログラマブルROMなどにより、音源定位装置300の製造時に記録されており、これが実行時にRAM60に読みだされる構成としてもよいし、ドライブ装置52により記録媒体64から読取られて不揮発性記憶装置54に一旦格納され、実行時にRAM60に読みだされる構成としてもよい。または、当該装置がネットワークに接続されている場合には、ネットワーク上のサーバから、一旦、不揮発性記憶装置54にコピーされ、不揮発性記憶装置54からRAM60に読出されてCPU56により実行される構成であってもよい。
図6に示したコンピュータのハードウェア自体およびその動作原理は一般的なものである。したがって、本発明の最も本質的な部分の1つは、不揮発性記憶装置54等の記録媒体に記憶されたソフトウェアである。
また、空間感覚合成部500の場合は、不揮発性記憶装置54にデータベース530も格納される構成とできる。
(音源ボリュームの調整)
聴覚支援システム1000では、選択されたすべての音源に対して、位置情報を反映したステレオ音声を合成し、足し合わせて、音場を表現する出力が再生される。しかし、これでは選択された各音源のボリュームが予測できない。もし、ユーザ側で各音源のボリュームを各々独立して操作することができれば、自分にとって注目したい音源に焦点をあてた音環境を作ることができる。
以下では、音場をコントロールするための2つの異なる操作パターンのユーザインタフェースについて説明する。
図7は、このようなインタフェースの画面表示例を示す図である。
まず、前提として、インターフェース画面では、音源定位装置300により特定された発話者(他の注目対象の音源も含む)の位置が、画面上に2次元マップとして表示されるものとする。また、ユーザ自身の位置は、斜線の入った丸で示す。
図7(a)に示す1つ目のインタフェースでは、ユーザが、周りにいる人のうち、強調したい人をマウスの左クリックで選択し、抑圧したい人を右マウスで選択する機能を設ける。強調したい人は黒丸で、抑圧したい人は、白丸で表現されている。
図7(b)に示す2つ目のインタフェースでは、ユーザの顔の向きによって各音源のボリュームが調整される。ユーザの顔方向を利用して音源の音量を操作するため、両手が解放される。ユーザの顔の前方の所定範囲内にある音源は強調され、所定範囲外にある音源は減衰される。ボリュームを調節するファクタはユーザの顔正面方向からの角度の大きさと比例するようにしてもよい。
図7(b)中では、ユーザの顔の向きは、斜線の入った丸に付随する矢印で示されている。
このような構成により、ユーザが注目する対象を指示するすることができ、音量制御部5102.1〜5102.jは、音源分離された分離音の信号の音量を、ユーザが注目する対象の音源からの音声が強調されるように個別に制御する。
以上説明したように、本実施の形態の聴覚支援システムでは、環境内の個々の音を分離することにより、これまで補聴器単体では出来なかった、利用者に対して必要な音と不要な音を取捨選択的に制御することができる。環境センサの利用により、対象音の強調と不要音の抑圧に加え、ハウリングの問題および自分の声が大きく聞こえる問題も解決できる。これにより、従来の補聴器より音量を上げることができ、対象となる音や声が聞きやすくなる。
また、本実施の形態の聴覚支援システムでは、環境センサにより分解された個々の音源に対し、センサと利用者の相対的な位置や向きに応じた音像(音の空間的情報の感覚)を再構築することができる。これにより、どの方向から音が鳴ったのか、といった空間的情報の知覚を可能にする。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
2 ユーザ、10.1〜10.M マイクロホンアレイ、20.1〜20.L LRF、100 マイクロホンアレイ群、200 LRF群、300 音源定位装置、310 人位置検出追跡部、320 音源定位部、330 音源分離部、500 音声合成装置、510 音量制御部、520 顔姿勢推定部、530 データベース、540 音空間再構成部、550 空間再構成部、600 センサ、610 ヘッドホン、650 表示部。

Claims (11)

  1. 対象空間内の利用者の聴覚を補助するための聴覚支援システムであって、
    前記対象空間に設置される音源定位装置を備え、前記音源定位装置は、
    前記対象空間における対象物の位置を検出する位置検出手段と、
    前記対象空間内に設置されるマイクロホンアレイからの出力に応じて、前記マイクロホンアレイについて音の到来方向を推定し、前記位置検出手段の検出結果と統合して、前記対象空間内での音源の位置を特定して出力する音源定位手段と、
    特定された音源の位置からの音を分離して出力するための音源分離手段とを含み、
    前記利用者の顔姿勢に応じて、対象空間内の音声を再構成するための空間感覚合成装置をさらに備え、前記空間感覚合成装置は、
    前記対象空間内の利用者の顔姿勢を検出するための顔姿勢検出手段と、
    前記利用者に装着され、前記利用者の両耳に対して前記対象空間の音環境を再現するための音再現手段と、
    前記音源定位手段から、前記音源の位置を受信し、検出された顔姿勢に応じて、前記対象空間の前記音源の位置から前記利用者の各耳への頭部伝達関数を用いて、前記音源分離手段からの分離音の信号から前記音再現手段により各耳へ再現するための音信号を合成する音空間再構成手段とを含み、
    前記音空間再構成手段は、前記利用者の顔の前方の所定範囲内にある音源からの音は強調され、所定範囲外にある音源からの音は減衰されるように、それぞれの音量を調節する、聴覚支援システム。
  2. 前記空間感覚合成装置は、前記利用者の各耳の難聴特性に合わせて周波数帯域ごとの音量を補正する周波数特性補正手段をさらに備える、請求項1に記載の聴覚支援システム。
  3. 前記音再現手段は、ヘッドホンまたはイヤホンであり、
    前記顔姿勢検出手段は、前記ヘッドホンに装着されたジャイロおよびコンパスを含む、請求項2記載の聴覚支援システム。
  4. 前記音再現手段は、ヘッドホンまたはイヤホンであり、
    前記顔姿勢検出手段は、撮像された前記利用者の画像から前記利用者の顔姿勢を推定する、請求項2記載の聴覚支援システム。
  5. 前記音源定位手段は、マイクロホンアレイに基づく音の到来方向と前記位置検出手段で検出された音源の位置が、交差することに応じて、前記音源の位置を特定する、請求項1〜のいずれか1項に記載の聴覚支援システム。
  6. 音源から利用者の各耳までの方向に応じた複数の頭部伝達関数の係数を保存するデータベースをさらに備え、
    前記音空間再構成手段は、
    前記対象空間において、前記対象空間の前記音源の位置から前記利用者の各耳への頭部伝達関数を前記データベースから選択して、各前記耳へ空間的感覚を再現するための音信号を合成する、請求項1〜のいずれか1項に記載の聴覚支援システム。
  7. 対象空間の音環境に関する情報を送信する環境センサ装置からの情報に基づき、前記対象空間の音環境を利用者の顔姿勢に応じて再現するための聴覚支援装置であって、前記環境センサ装置からは、前記対象空間における音源の位置を示す位置情報と、前記位置情報で特定された音源の位置からの音を分離した分離音の信号とが送信され、
    前記対象空間内の利用者の顔姿勢を検出するための顔姿勢検出手段と、
    前記利用者に装着され、前記利用者の両耳に対して前記音環境に対応する音を再現するための音再現手段と、
    前記音源位置の前記位置情報を受信し、検出された顔姿勢に応じて、前記対象空間の前記音源の位置から前記利用者の各耳への頭部伝達関数を用いて、前記分離音の信号から前記音再現手段により各耳へ再現するための音信号を合成する音空間再構成手段とを備え、
    前記音空間再構成手段は、前記利用者の顔の前方の所定範囲内にある音源からの音は強調され、所定範囲外にある音源からの音は減衰されるように、それぞれの音量を調節する、聴覚支援装置。
  8. 前記利用者の各耳の難聴特性に合わせて周波数帯域ごとの音量を補正する周波数特性補正手段をさらに備える、請求項記載の聴覚支援装置。
  9. 前記音再現手段は、ヘッドホンまたはイヤホンであり、
    前記顔姿勢検出手段は、前記ヘッドホンに装着されたジャイロおよびコンパスを含む、請求項または記載の聴覚支援装置。
  10. 前記音再現手段は、ヘッドホンまたはイヤホンであり、
    前記顔姿勢検出手段は、撮像された前記利用者の画像から前記利用者の顔姿勢を推定する、請求項記載の聴覚支援装置。
  11. 音源から利用者の各耳までの方向に応じた複数の頭部伝達関数の係数を保存するデータベースをさらに備え、
    前記音空間再構成手段は、
    前記対象空間において、前記対象空間の前記音源の位置から前記利用者の各耳への頭部伝達関数を前記データベースから選択して、各前記耳へ空間的感覚を再現するための音信号を合成する、請求項〜1のいずれか1項に記載の聴覚支援装置。
JP2015221387A 2015-11-11 2015-11-11 聴覚支援システムおよび聴覚支援装置 Active JP6665379B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015221387A JP6665379B2 (ja) 2015-11-11 2015-11-11 聴覚支援システムおよび聴覚支援装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015221387A JP6665379B2 (ja) 2015-11-11 2015-11-11 聴覚支援システムおよび聴覚支援装置

Publications (2)

Publication Number Publication Date
JP2017092732A JP2017092732A (ja) 2017-05-25
JP6665379B2 true JP6665379B2 (ja) 2020-03-13

Family

ID=58768533

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015221387A Active JP6665379B2 (ja) 2015-11-11 2015-11-11 聴覚支援システムおよび聴覚支援装置

Country Status (1)

Country Link
JP (1) JP6665379B2 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11209306B2 (en) 2017-11-02 2021-12-28 Fluke Corporation Portable acoustic imaging tool with scanning and analysis capability
US10003905B1 (en) 2017-11-27 2018-06-19 Sony Corporation Personalized end user head-related transfer function (HRTV) finite impulse response (FIR) filter
EP3503592B1 (en) 2017-12-19 2020-09-16 Nokia Technologies Oy Methods, apparatuses and computer programs relating to spatial audio
JP2019126033A (ja) * 2018-01-18 2019-07-25 株式会社電通ライブ 音声情報提供システム、音声情報提供装置、及びプログラム
US10142760B1 (en) 2018-03-14 2018-11-27 Sony Corporation Audio processing mechanism with personalized frequency response filter and personalized head-related transfer function (HRTF)
WO2019233588A1 (en) * 2018-06-07 2019-12-12 Sonova Ag Microphone device to provide audio with spatial context
EP3827227A1 (en) 2018-07-24 2021-06-02 Fluke Corporation Systems and methods for projecting and displaying acoustic data
US10856097B2 (en) 2018-09-27 2020-12-01 Sony Corporation Generating personalized end user head-related transfer function (HRTV) using panoramic images of ear
US11113092B2 (en) 2019-02-08 2021-09-07 Sony Corporation Global HRTF repository
US11451907B2 (en) 2019-05-29 2022-09-20 Sony Corporation Techniques combining plural head-related transfer function (HRTF) spheres to place audio objects
US11347832B2 (en) 2019-06-13 2022-05-31 Sony Corporation Head related transfer function (HRTF) as biometric authentication
EP4011099A1 (de) * 2019-08-06 2022-06-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. System und verfahren zur unterstützung von selektivem hören
US11146908B2 (en) 2019-10-24 2021-10-12 Sony Corporation Generating personalized end user head-related transfer function (HRTF) from generic HRTF
US11070930B2 (en) 2019-11-12 2021-07-20 Sony Corporation Generating personalized end user room-related transfer function (RRTF)
CN113284504A (zh) * 2020-02-20 2021-08-20 北京三星通信技术研究有限公司 姿态检测方法、装置、电子设备及计算机可读存储介质
WO2021187335A1 (ja) 2020-03-16 2021-09-23 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音響再生方法、音響再生装置およびプログラム
JPWO2022224586A1 (ja) * 2021-04-20 2022-10-27
WO2023199746A1 (ja) * 2022-04-14 2023-10-19 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音響再生方法、コンピュータプログラム及び音響再生装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008175733A (ja) * 2007-01-19 2008-07-31 Fujitsu Ltd 音声到来方向推定・ビームフォーミングシステム、移動装置及び音声到来方向推定・ビームフォーミング方法
WO2010084769A1 (ja) * 2009-01-22 2010-07-29 パナソニック株式会社 補聴装置
EP2328362B1 (en) * 2009-06-24 2013-08-14 Panasonic Corporation Hearing aid
JP5660362B2 (ja) * 2010-04-05 2015-01-28 株式会社国際電気通信基礎技術研究所 音源定位装置及びコンピュータプログラム
JP5724125B2 (ja) * 2011-03-30 2015-05-27 株式会社国際電気通信基礎技術研究所 音源定位装置
JP5954987B2 (ja) * 2011-12-28 2016-07-20 キヤノン株式会社 撮影装置及びその処理方法
JP5983313B2 (ja) * 2012-10-30 2016-08-31 富士通株式会社 情報処理装置、音像定位強調方法、及び音像定位強調プログラム
JP2015076797A (ja) * 2013-10-10 2015-04-20 富士通株式会社 空間情報提示装置、空間情報提示方法及び空間情報提示用コンピュータプログラム
DK201370793A1 (en) * 2013-12-19 2015-06-29 Gn Resound As A hearing aid system with selectable perceived spatial positioning of sound sources

Also Published As

Publication number Publication date
JP2017092732A (ja) 2017-05-25

Similar Documents

Publication Publication Date Title
JP6665379B2 (ja) 聴覚支援システムおよび聴覚支援装置
US10431239B2 (en) Hearing system
CN108369811B (zh) 分布式音频捕获和混合
US10397722B2 (en) Distributed audio capture and mixing
US10097921B2 (en) Methods circuits devices systems and associated computer executable code for acquiring acoustic signals
US10349197B2 (en) Method and device for generating and playing back audio signal
US9838825B2 (en) Audio signal processing device and method for reproducing a binaural signal
KR101547035B1 (ko) 다중 마이크에 의한 3차원 사운드 포착 및 재생
US10880669B2 (en) Binaural sound source localization
CN106664485A (zh) 基于自适应函数的一致声学场景再现的系统、装置和方法
KR101678305B1 (ko) 텔레프레즌스를 위한 하이브리드형 3d 마이크로폰 어레이 시스템 및 동작 방법
KR20160136716A (ko) 오디오 신호 처리 방법 및 장치
JP6587047B2 (ja) 臨場感伝達システムおよび臨場感再現装置
US20190306618A1 (en) Methods circuits devices systems and associated computer executable code for acquiring acoustic signals

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181016

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190826

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190917

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20191105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200127

R150 Certificate of patent or registration of utility model

Ref document number: 6665379

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250