JP2010079182A

JP2010079182A - ウェアラブル音認識装置

Info

Publication number: JP2010079182A
Application number: JP2008250268A
Authority: JP
Inventors: Akira Iwata; 彰岩田
Original assignee: Nagoya Institute of Technology NUC
Current assignee: Nagoya Institute of Technology NUC
Priority date: 2008-09-29
Filing date: 2008-09-29
Publication date: 2010-04-08
Anticipated expiration: 2028-09-29
Also published as: JP5279010B2

Abstract

【課題】使用者の視野の邪魔になることなく、使用者に音源の種類と方向とを報知可能な音認識装置を提供する。
【解決手段】左右のマイクロホン２Ｌ、２Ｒと、マイクロホン２Ｌ、２Ｒから入力された左右の入力音の時間差に基づいて音源の方向を識別し、その音源方向を示す方向情報を出力する音源定位部と、左右の入力音の少なくとも一方の周波数パターンに基づいて音源の種類を識別し、その音源種類を示す種類情報を出力する音源同定部と、使用者に接触する部位に設けられた振動部３Ｌ、３Ｒとを備え、振動部３Ｌ、３Ｒが、種類情報で示される音源種類に対する振動パターンで振動するように構成されるとともに、異なる音源方向に対しては振動部３Ｌ、３Ｒのうち少なくとも１つの異なるものが振動するウェアラブル音認識装置１。
【選択図】図１

Description

本発明は、聴覚障害者等が身に着けることができて、聴覚障害者等に音の方向と種類とを知らせることが可能なウェアラブル音認識装置に関する。

音による周辺環境把握の基本機能は、音源方向を識別する音源定位と、音源種類を識別する音源認識（音源同定）である。聴覚障害者等に日常的に周囲音を知らせるには、聴覚障害者等が身に着けられる、すなわち、ウェアラブルな装置であることが望ましい。下記特許文献１には、周囲音を視覚的に認識し得る眼鏡型の聴覚障害者用ヘッドマウントディスプレイ装置が記載されている。

なお、出願人による関連する出願に、下記特許文献２〜４がある。また、下記特許文献５、非特許文献１、２には、ニューラルネットワークを用いた音源認識装置（音源同定装置）が記載され、下記非特許文献３〜５には、ニューラルネットワークを用いた音源定位装置が記載されている。さらに、関連する文献として下記非特許文献６〜９がある。
特開２００７―３３４１４９号公報特開２００７−１６４０２７号公報特開２００８−７７１７７号公報特開２００８−８５４７２号公報特許第３１６４１００号公報坂口晋也、「パルスニューロンモデルを用いた音源認識に関する研究」、名古屋工業大学平成９年度卒業論文、１９９８年３月坂口晋也、黒柳奨、岩田彰、「環境把握のための音源識別システム」、電子情報通信学会ＮＣ研究会技術研究報告、社団法人電子情報通信学会、１９９９年１２月、ＮＣ９９−７０、ｐ．６１−６８黒柳奨、岩田彰、「パルス伝達型聴覚神経回路モデルによる音源方向知覚−時間差・音圧差の抽出−」、電子情報通信学会技術研究報告、社団法人電子情報通信学会、１９９３年３月、ＮＣ９２−１４９、ｐ．１６３−１７０黒柳奨、岩田彰、「パルスニューロンモデルのための教師あり学習則」、電子情報通信学会技術研究報告、社団法人電子情報通信学会、１９９８年３月、ＮＣ９７−１５１、ｐ．９５−１０２黒柳奨、平田浩一、岩田彰、「パルスニューラルネットワークのための競合学習手法」、電子情報通信学会ＮＣ研究会技術研究報告、社団法人電子情報通信学会、２００２年３月、ＮＣ２００１−２１０、ｐ．１１３−１２０中尾裕之、黒柳奨、岩田彰、「パルスニューラルネットワークによる音源の方向情報を用いた音像抽出モデル」、電子情報通信学会ＮＣ研究会技術研究報告、社団法人電子情報通信学会、２００１年３月、ＮＣ２０００−１０８、ｐ．３９−４６田中愛久、黒柳奨、岩田彰、「ＦＰＧＡのためのニューラルネットワークのハードウェア化手法」、電子情報通信学会ＮＣ研究会技術研究報告、社団法人電子情報通信学会、２００１年３月、ＮＣ２０００−１７９、ｐ．１７５−１８２二俣宣義、黒柳奨、岩田彰、「ＦＰＧＡのためのパルスニューロンモデルの実装方法」、電子情報通信学会ＮＣ研究会技術研究報告、社団法人電子情報通信学会、２００２年３月、ＮＣ２００１−２１１、ｐ．１２１−１２８黒柳奨、岩田彰、「聴覚情報処理システムのためのパルスニューロンモデルを用いた競合学習ニューラルネットワーク」、電子情報通信学会論文誌（Ｄ−ＩＩ）、２００４年７月、第Ｊ８７−Ｄ−ＩＩ巻、第７号、ｐ．１４９６−１５０４

しかし、上記特許文献１の聴覚障害者用ヘッドマウントディスプレイ装置は、視野の一部に文字情報で音の認識結果を表示するものであるため、使用者の視野の邪魔になる虞があった。

この発明は、上述した問題を解決するものであり、使用者の視野の邪魔になることなく、使用者に音源の種類と方向とを知らせることができる音認識装置を提供することを目的とする。

本発明のウェアラブル音認識装置は、使用者に装着されるものであって、左右のマイクロホンと、前記左のマイクロホンから入力された左の入力音と前記右のマイクロホンから入力された右の入力音との時間差に基づいて、音源が複数の音源方向のうちのどの音源方向にあるかを識別し、当該音源方向を示す方向情報を出力する音源定位部と、前記左の入力音または前記右の入力音の少なくとも一方の周波数パターンに基づいて、音源が複数の音源種類のうちのどの音源種類であるかを識別し、当該音源種類を示す種類情報を出力する音源同定部と、使用者が装着したときにそれぞれ使用者に接触するような部位に設けられた複数の振動部と、を備え、前記各音源種類に対してそれぞれ異なる振動パターンが設定され、前記方向情報と前記種類情報とに基づいて、１つ以上の前記振動部が前記種類情報で示される音源種類に対する振動パターンで振動するように構成されるとともに、異なる音源方向に対しては少なくとも１つの異なる前記振動部が振動するように構成されたことを特徴とする。

これによれば、使用者が装着したときに使用者に接触するような部位に振動部が設けられて、音源の方向によって少なくとも１つの異なる振動部が振動するとともに、音源の種類によって異なる振動パターンで振動部が振動するので、どの振動部が振動するかによって音源の方向が分かり、振動パターンによって音源の種類が分かる。したがって、使用者の視野の邪魔になることなく、使用者に音源の種類と方向とを知らせることができる。

また、好ましくは、使用者が装着したときに前記各音源方向に対向するような部位に、それぞれ前記振動部が設けられ、前記方向情報と前記種類情報とに基づいて、前記方向情報で示される音源方向に対向する前記部位の前記振動部が、前記種類情報で示される音源種類に対する振動パターンで振動するように構成されたことを特徴とする。

これによれば、振動を感じた方向が音源の方向であるので、使用者は感覚的に音の方向を知ることができる。

本発明のウェアラブル音認識装置によれば、振動で音源の方向と種類とを知らせるので、使用者の視野の邪魔になることなく、使用者に音源の種類と方向とを知らせることができる。

以下、本発明の一実施形態について図面に基づいて説明する。

音認識装置１は、図１、２に示すように、左右のマイクロホン２Ｌ、２Ｒと、マイクロホン２Ｌ、２Ｒが接続された認識処理部４と、認識処理部４に接続された電源５と、認識処理部４にそれぞれ接続された左右の振動部３Ｌ、３Ｒとから構成されている。音認識装置１は、眼鏡Ｇと一体型であり、マイクロホン２Ｌは眼鏡Ｇの左の蔓の外側に取着され、マイクロホン２Ｒは眼鏡Ｇの右の蔓の外側に取着されている。また、振動部３Ｌは眼鏡Ｇの左の蔓の使用者の耳の上に接触する部位の内側に取着され、振動部３Ｒは眼鏡Ｇの右の蔓の使用者の耳の上に接触する部位の内側に取着されている。さらに、眼鏡Ｇの一方の蔓の後端部３０に認識処理部４及び電源５が内蔵されている。認識処理部４は、カスタムＬＳＩにより構成され、電源５はボタン電池により構成されている。

認識処理部４は、図２に示すように、マイクロホン２Ｌ、２Ｒにそれぞれ接続された左右の入力信号処理部６、７と、入力信号処理部６、７の両方に接続された音源定位部８と、入力信号処理部７に接続された音源同定部９と、音源定位部８及び音源同定部９に接続された振動選択部１８とを備えている。なお、音源同定部９は、入力信号処理部６、７の少なくとも一方に接続されていればよい。振動選択部１８は、振動部３Ｌ、３Ｒに接続されている。

音源定位部８は、時間差検出部１０と左右方向検出部１１とを備え、音源同定部９は、周波数パターン検出部１２と音源種類検出部１３とを備えている。時間差検出部１０、左右方向検出部１１、周波数パターン検出部１２、及び、音源種類検出部１３は、いずれも、複数のパルスニューロンモデル（以下、「ＰＮモデル」と言う。）により構成されたニューラルネットワークから構成されている。ＰＮモデルとは、入出力信号としてパルス列を用いるニューロンモデルをいい、各ＰＮモデルはディジタル回路で構成される（非特許文献８の図４参照）。

図３に示すように、入力信号処理部６、７は、ＡＤ変換部１４Ｌ、１４Ｒと、人の聴覚系の蝸牛に相当する周波数分解部１５Ｌ、１５Ｒと、有毛細胞に相当する非線形変換部１６Ｌ、１６Ｒと、蝸牛神経に相当するパルス変換部１７Ｌ、１７Ｒとを備えている。ＡＤ変換部１４Ｌ、１４ＲはＡＤ変換回路で、周波数分解部１５Ｌ、１５Ｒ、非線形変換部１６Ｌ、１６Ｒ、パルス変換部１７Ｌ、１７Ｒは、それぞれディジタル回路で構成される。

そして、ＡＤ変換部１４Ｌ、１４Ｒは、それぞれマイクロホン２Ｌ、２Ｒから入力された信号をＡＤ変換する。周波数分解部１５Ｌ、１５Ｒは、バンドパスフィルタ（ＢＰＦ）群により構成され、ＡＤ変換された信号を所定の周波数範囲について対数スケールで複数（Ｎ個）の周波数帯域（以下、「周波数チャンネル」あるいは単に「チャンネル」という。）の信号に分解する。非線形変換部１６Ｌ、１６Ｒは、周波数分解部１５Ｌ、１５Ｒから入力された各周波数帯域の信号に対して、それぞれ、非線形変換を行うことによりその正の成分だけを取り出すとともに、ローパスフィルタ（ＬＰＦ）によりエンベロープ検出を行う。パルス変換部１７Ｌ、１７Ｒは、非線形変換部１６Ｌ、１６Ｒから入力された各周波数帯域の信号を、それぞれ、信号強度に比例したパルス頻度を持つパルス列に変換する。これらの処理により、入力信号処理部６、７は、左右の入力信号の各々を、周波数帯域毎に、信号強度すなわち音圧に応じたパルス頻度を持つパルス列に変換する。

時間差検出部１０は、図４に示すようなＰＮモデルからなる時間差抽出モデルと、パルス列をシフトさせつつ時間差抽出モデルに入力するための時間遅れ素子１９（図５参照）の列とから構成されている。時間差抽出モデルは、非特許文献３等に記載されているものと同様であるので詳説しないが、図４に示すように時間差抽出ニューロン（以下、「ＭＳＯニューロン」という。）２０を複数（但し、奇数個）並べたＭＳＯニューロン列を、周波数チャンネル毎に設けたものである。各ＭＳＯニューロン２０は、左のパルス信号が入力される左入力端子２１と、右のパルス信号が入力される右入力端子２２と、出力端子２３とを備え、全ＭＳＯニューロン２０において、左右の入力に対する重みを共通の固定値とし、閾値を重みの２倍又は重みの２倍に内部電位の基準値を加えた値とすること等により、パルス信号が左右から略同時に入力されたときに出力端子２３からパルス信号を出力するように構成される。なお、「略同時」とは、勿論、同時である場合を含む。

そして、時間差検出部１０は、図５に示すように、時間遅れ素子１９により、１クロック（単位時間）毎に、左のパルス列を右にシフトさせるとともに右のパルス列を左にシフトさせつつ、左右のパルス列を対応する周波数チャンネルのＭＳＯニューロン列に入力する。すなわち、左のパルス信号はＭＳＯニューロン列の一端（図５では左端）から他端（同右端）まで単位時間毎にシフトされつつ順次各ＭＳＯニューロン２０に入力され、右のパルス信号はＭＳＯニューロン列の他端（同右端）から一端（同左端）まで単位時間毎にシフトされつつ順次各ＭＳＯニューロン２０に入力される。

例えば各ＭＳＯニューロン列内のＭＳＯニューロン２０を２Ｊ＋１個とし、各ＭＳＯニューロン２０に−ＪからＪまでの番号を付すと、時刻ｔに、各ＭＳＯニューロン２０は下記［数１］に従って内部電位Ｉ^MSO _ji（ｔ）を演算し、この内部電位が所定の閾値を超えた場合にはｙ_ji（ｔ）＝１を出力し、超えない場合にはｙ_ji（ｔ）＝０を出力する。なお、ｊはＭＳＯニューロン２０の番号、ｉは周波数チャンネルの番号（ｉ＝１〜Ｎ）とする。下記［数１］において、ｐ^left _ji(t)は左の入力信号に対する局所膜電位、ｐ^right _ji(t)は右の入力信号に対する局所膜電位であり、ｗは全ニューロン２０で共通の結合重み、τは減衰時定数である。

これにより、時間差抽出モデルは、左右からパルス信号が略同時に入ってきた場合にはＭＳＯニューロン列における中央付近のニューロン２０が発火し、パルス信号が右よりも左から早く入ってきた場合にはＭＳＯニューロン列における右側のニューロン２０が発火し、パルス信号が左よりも右から早く入ってきた場合にはＭＳＯニューロン列における左側のニューロン２０が発火するというように、左右の入力信号間の時間差によって変化する発火パターンを、音の時間差情報として出力する。

すなわち、上述したように各ＭＳＯニューロン列内の各ＭＳＯニューロン２０に−ＪからＪまでの番号を付し、周波数チャンネルの数をＮとすると、時刻ｔに、時間差抽出モデルからは次のようなベクトルｙ_MSO（ｔ）が時間差情報として出力される。

ｙ_MSO（ｔ）＝（ｙ_−Ｊ１（ｔ），…，ｙ_０１（ｔ），…，ｙ_Ｊ１（ｔ），
ｙ_−Ｊ２（ｔ），…，ｙ_０２（ｔ），…，ｙ_Ｊ２（ｔ），
…，
ｙ_−ＪＮ（ｔ），…，ｙ_０Ｎ（ｔ），…，ｙ_ＪＮ（ｔ））
時間差検出部１０は、例えば図６に示すように、ディジタル回路で構成可能である。この構成例は、非特許文献８の第５章にも記載されているので詳説しない。なお、不応期の実装は、不応期をカウントするカウンタを設け、発火から不応期の間は発火しないようにして、発火とともにカウンタをリセットすることにより実現可能である。

左右方向検出部１１は、非特許文献９に記載された競合学習ニューラルネットワーク（以下、「ＣＯＮＰ」という。）から構成されている。ＣＯＮＰは、入力ベクトルの量子化を行うパルスニューラルネットワークである。以下、ＣＯＮＰについて説明する。

ＣＯＮＰは、図７に示すように、競合学習ニューロン群５０と制御ニューロン群６０とから構成され、競合学習ニューロン群５０は複数の競合学習ニューロン（以下、「ＣＬニューロン」という。）５１から構成され、制御ニューロン群はＣＬニューロン５１が１つも発火しなかったときに発火する無発火検出ニューロン（以下、「ＮＦＤニューロン」という。）６１とＣＬニューロン５１が複数発火したときに発火する複数発火検出ニューロン（以下、「ＭＦＤニューロン」という。）６２とから構成されている。

ＮＦＤニューロン６１とＭＦＤニューロン６２は、それらの発火状況に応じて各ＣＬニューロン５１の閾値を一律に変化させる（実際には、各ＣＬニューロン５１の内部電位を一律に変化させる）ことで、ＣＬニューロン群５０内でＣＬニューロン５１が１個だけ発火する状況を保持するためのＰＮモデルである。ＮＦＤニューロン６１とＭＦＤニューロン６２は、ＣＬニューロン群５０内のＣＬニューロン５１の数に応じた入力端子と、出力端子とを備え、各ＣＬニューロン５１から出力されたパルス信号を各入力端子で受け取って、ＮＦＤニューロン６１は、全てのＣＬニューロン５１からの信号が「０」の場合にのみ出力端子から「１」を出力し、ＭＦＤニューロン６２は、複数のＣＬニューロン５１から信号「１」を受け取った場合にのみ出力端子から「１」を出力する。

各ＣＬニューロン５１は、図８に示すように、入力パルスｘ_１（ｔ），ｘ_２（ｔ），…，ｘ_ｉ（ｔ），…，ｘ_ｎ（ｔ）がそれぞれ入力される入力端子５５１、５５２、…、５５ｉ、…、５５ｎと、ＮＦＤニューロン６１、ＭＦＤニューロン６２から出力されたパルス信号ｙ_nfd（ｔ）、ｙ_mfd（ｔ）がそれぞれ入力される入力端子５６、５７と、出力端子５８とを備えている。各入力端子５５ｉ（ｉ＝１〜ｎ）は２つに分岐して、一方は可変の結合重みｗ_hiを有するシナプス部５３ｉに、他方は固定の結合重み「１」を有するシナプス部５４ｉに接続されている。なお、ｈは、ＣＬニューロン群５０内で各ＣＬニューロン５１に付された番号であり、ｈ＝１〜Ｍとする。

ＣＯＮＰの動作について、図９−１、９−２に基づいて説明する。ＣＬニューロン群５０内の各ＣＬニューロン５１には、単位時間毎に、ｎ個の入力パルスからなる入力ベクトルｘ（ｔ）＝（ｘ_１（ｔ），ｘ_２（ｔ），…，ｘ_ｉ（ｔ），…，ｘ_ｎ（ｔ））（ｔ：時刻）が入力される（Ｓ１０１）。すると、ＮＦＤニューロン６１、ＭＦＤニューロン６２は、それぞれ、保持しておいた時刻（ｔ−１）における各ＣＬニューロン５１からの出力ｙ_ｈ（ｔ−１）に基づいて、時刻ｔにおける出力値ｙ_nfd（ｔ）、ｙ_mfd（ｔ）を演算して、各ＣＬニューロン５１に出力する（Ｓ１０２、Ｓ１０３）。なお、ＮＦＤニューロン６１、ＭＦＤニューロン６２において、それぞれ、時刻（ｔ−１）に各ＣＬニューロン５１からの出力ｙ_ｈ（ｔ−１）を用いて出力値ｙ_nfd（ｔ）、ｙ_mfd（ｔ）を演算して保持しておき、時刻ｔになったらｙ_nfd（ｔ）、ｙ_mfd（ｔ）を各ＣＬニューロン５１に出力するようにしてもよい。

次に、各ＣＬニューロン５１は、それぞれ、内部電位Ｉ_ｈ（ｔ）（ｈ＝１〜Ｍ）を演算し（Ｓ１０４）（下記［数５］参照）、内部電位Ｉ_ｈ（ｔ）が閾値ＴＨを超え、かつ、前回の発火時から不応期を経過している場合にはｙ_ｈ（ｔ）＝１を出力し、それ以外の場合にはｙ_ｈ（ｔ）＝０を出力する（Ｓ１０５）。

そして、学習時には、「１」を出力したＣＬニューロン５１について、シナプス部５４ｉにおける局所膜電位ｐｃｗ_iを用いて結合重みｗ_iを更新するとともに（Ｓ１０６）、そのＣＬニューロン５１の周辺のＣＬニューロン５１についても同様に結合重みを更新する（Ｓ１０７）。結合重みを更新するＣＬニューロン５１の範囲（すなわち、学習範囲）の決定方法としては、例えば、最初は全部のＣＬニューロン５１を学習範囲とし、線形的に範囲を縮小して、最後は勝者ニューロンだけを学習範囲とするような、次第に縮小する方法がある。そして、結合重みを更新したＣＬニューロン５１について結合重みのノルム（参照ベクトルのノルム）を１に正規化する（Ｓ１０８）。すなわち、ＣＯＮＰにおいては、勝者ニューロンのみならずその周辺のニューロンも学習を行うことにより、自己組織化マップ（ＳＯＭ）のアルゴリズムを実現している。

一方、学習時でない場合（認識時）は、結合重みの更新は行わない。そして、結合重みの更新のための係数αを定数γ（０≦γ）を乗じることにより更新し（Ｓ１０９）、次の入力ベクトルについてステップＳ１０１〜１０８の処理を行う。

ここで、ＣＯＮＰにおける内部電位Ｉ_ｈ（ｔ）の演算方法について説明する。まず、引数として、時刻ｔ、減衰時定数τ、結合重みｗ、時刻ｔにおける入力信号ｘ（ｔ）の４つを持つ関数Ｆを導入し、下記［数２］のように定義する。なお、△ｔ＝１／Ｆｓ（Ｆｓ：サンプリング周波数）とする。

すると、時刻ｔにおけるＰＮモデルの内部電位Ｉ（ｔ）は、局所膜電位ｐ_ｉ（ｔ）（ｉ＝１〜ｎ）の総和として、下記［数３］のように記述できる。τはｐ_i（ｔ）の減衰時定数である。

ＰＮモデルの不応期をＲＰ、時刻ｔにおける前回発火からの経過時間をＥＴ（ｔ）とし、ＥＴ（０）＞ＲＰとすると、ＰＮモデルの出力値ｙ（ｔ）は、以下のアルゴリズムにより計算される。なお、ＴＨは閾値である。

ｉｆＩ（ｔ）≧ＴＨａｎｄＥＴ（ｔ）＞ＲＰ
ｔｈｅｎｙ（ｔ）＝１，ＥＴ（ｔ）＝０
ｅｌｓｅｙ（ｔ）＝０，ＥＴ（ｔ）＝ＥＴ（ｔ−△ｔ）＋△ｔ
パラメータτ、ｗ_１、ｗ_２、…、ｗ_ｎ、ＴＨは、各ＰＮモデルにより可変の値であり、この組合せにより各ＰＮモデルの動作は決定される。

ここで、時刻ｔにおけるＮＦＤニューロン６１、ＭＦＤニューロン６２の出力をそれぞれｙ_ｎｆｄ（ｔ）、ｙ_ｍｆｄ（ｔ）、各ＣＬニューロン５１のＮＦＤニューロン６１、ＭＦＤニューロン６２に対する結合重みをそれぞれｗ_ｆｄ、−ｗ_ｆｄ（但し、ｗ_ｆｄ＞０）とすると、時刻ｔにおける番号ｈのＣＬニューロン５１の内部電位Ｉ_ｈ（ｔ）は前述の関数Ｆを用いて下記［数４］のように記述できる。ＣＯＮＰでは、ｐ_ｎｆｄ（ｔ）、ｐ_ｍｆｄ（ｔ）を閾値の動的変化量として扱う（但し、閾値ＴＨを変化させる代りに、閾値ＴＨと比較する内部電位Ｉ_ｈ（ｔ）をｐ_ｎｆｄ（ｔ）、ｐ_ｍｆｄ（ｔ）により調整する）ことでＣＬニューロン５１が１個だけ発火する状態を保持する。このため、減衰時定数τ_ｆｄは時定数τに対して充分大きいものとする。

ところで、入力パルス列によって発生する内部電位の総量が大きく変動する場合、この変動量を吸収するために閾値の変化が生じることになり、閾値の変化が入力ベクトルの方向変化に追従できない場合がある。そこで、ＣＯＮＰでは内部電位に対して、結合重みを１に固定したシナプス部５４ｉ（ｉ＝１〜ｎ）における局所膜電位ｐｃｗ_ｉ（ｔ）の総和を一定の比率β_ｐｃｗ（但し、０≦β_ｐｃｗ≦１）であらかじめ差引くことで、入力信号のノルム変動に対する内部電位の変化を抑制している。これにより上記［数４］のＩ_ｈ（ｔ）は下記［数５］のように修正され、各ＣＬニューロン５１は［数５］に従って内部電位Ｉ_ｈ（ｔ）を演算する。

ＣＯＮＰは簡単なディジタル回路によりハードウェア化可能であり、その例を図１０に示す。この例では、ＣＯＮＰは、それぞれＣＬニューロン５１に相当するＭ個のＣＬニューロン部５１Ｈと、ＮＦＤニューロン６１に相当する１個のＮＦＤニューロン部６１Ｈと、ＭＦＤニューロン６２に相当する１個のＭＦＤニューロン部６２Ｈとを備え、さらに、閾値変化量生成部６３、６４と内部電位抑制量生成部６５とを１個ずつ備えている。

各ＣＬニューロン部５１Ｈは、ＣＬニューロン５１の入力端子５５１、…、５５ｎに相当するｎ個の入力端子と、それらの入力端子から入力されたｎ個の入力パルスｘ_１（ｔ），…，ｘ_ｎ（ｔ）に対してそれぞれ重みを乗じるｎ個のＡＮＤ回路７１と、各ＡＮＤ回路７１からの出力を内部電位に加算する加算器７２と、内部電位を減衰して加算器７２に出力する減衰生成部７３と、加算器７２から出力された内部電位と閾値とを比較する比較器７４とを備え、比較器７４は、内部電位が閾値を超え、かつ、前回の発火時から不応期を経過している場合にはｙ_ｈ（ｔ）＝１、それ以外の場合にはｙ_ｈ（ｔ）＝０を出力する。なお、比較器７４には、後述するように、動的な閾値変化量としてｐ_nfd（ｔ）、ｐ_mfd（ｔ）が、内部電位の抑制量としてＳ_pcw（ｔ）が入力され、比較器７４は、これらの値で上記［数５］のように内部電位を調整してから閾値と比較する。

ＮＦＤニューロン部６１Ｈは、Ｍ個のＣＬニューロン部５１Ｈの出力端子にそれぞれ接続されたＭ個の入力端子と、それらの入力端子から入力されたＭ個の入力パルスｙ_１（ｔ），ｙ_２（ｔ），…，ｙ_Ｍ（ｔ）に対してそれぞれ重みを乗じるＭ個のＡＮＤ回路７６と、各ＡＮＤ回路７６からの出力を内部電位に加算する加算器７７と、内部電位を減衰して加算器７７に出力する減衰生成部７８と、加算器７７から出力された内部電位と閾値とを比較して、内部電位が閾値を超え、かつ、前回の発火時から不応期を経過している場合には１、それ以外の場合には０を出力する比較器７９とを備え、Ｍ個の入力パルスが全て０のとき発火するように構成されている。

ＭＦＤニューロン部６２Ｈは、ＮＦＤニューロン部６１Ｈと同様の構成であるが、重みや閾値を変更することにより、Ｍ個の入力パルスのうち複数が１のとき発火するように構成されている。

閾値変化量生成部６３、６４は、それぞれ、各ＣＬニューロン部５１ＨにおけるＮＦＤニューロン部６１Ｈ、ＭＦＤニューロン部６２Ｈからの出力に対する局所膜電位ｐ_nfd（ｔ）、ｐ_mfd（ｔ）を生成する部分であり、本来は各ＣＬニューロン部５１Ｈが共通に備える部分であるが、ＣＬニューロン部５１Ｈによって重みや減衰時定数は変わらないので、各ＣＬニューロン部５１Ｈから取り出して全体で１個としたものである。

閾値変化量生成部６３は、ＮＦＤニューロン部６１Ｈからの出力に対して重みｗ_fdを乗じるＡＮＤ回路８１と、ＡＮＤ回路８１からの出力を局所膜電位に加算する加算器８２と、局所膜電位を減衰して加算器８２に出力する減衰生成部８３とを備え、閾値の動的変化量として、加算器８２から局所膜電位ｐ_nfd（ｔ）を各ＣＬニューロン部５１Ｈの比較器７４に出力する。

閾値変化量生成部６４は、閾値変化量生成部６３と同様の構成を有し、各ＭＦＤニューロン部６２Ｈからの出力を用いて局所膜電位ｐ_mfd（ｔ）を生成して、閾値の動的変化量として、各ＣＬニューロン部５１Ｈの比較器７４に出力する。

内部電位抑制量生成部６５は、上述した入力信号のノルム変動に対する内部電位の変化の抑制量Ｓ_pcw（ｔ）を生成する部分であり、本来は、各ＣＬニューロン部５１Ｈにおいて、固定重み１のシナプス部５４ｉにおける局所膜電位ｐｃｗ_ｉ（ｔ）の総和に一定の比率β_pcwを乗じて生成するものであるが、ＣＬニューロン部５１Ｈによって重みや減衰時定数は変わらないので、各ＣＬニューロン部５１Ｈから取り出して全体で１個としたものである。内部電位抑制量生成部６５は、ｎ個の入力パルスに対してそれぞれ固定の重みβ_pcwを乗じるＡＮＤ回路８６と、ＡＮＤ回路８６からの出力を内部電位に加算する加算器８７と、内部電位を減衰して加算器８７に出力する減衰生成部８８とを備え、内部電位を抑制量Ｓ_pcw（ｔ）として、加算器８７から各ＣＬニューロン部５１Ｈの比較器７４に出力する。

なお、図１０に示すＣＯＮＰのハードウェア構成例では、学習機構（各ＣＬニューロン部５１Ｈにおける重みの更新機構）は搭載されていない。これは、学習はソフトウェアによるシミュレーションで行って、重みを決定しておき、その重みをハードウェア上に設定すればよいからである。勿論、学習機構のハードウェア化も可能であるが、回路構成の容易化や回路サイズの縮小のためには、学習はソフトウェア上で行っておくことが望ましい。

左右方向検出部１１は、上述した学習機構無しのハードウェア化されたＣＯＮＰから構成され、図４に示すように、ＣＬニューロン５１を１６個有している。１６個のＣＬニューロン５１は、番号１のものから番号１６のものまで１列に並べられており、番号が近いものほど距離が近いとされている。各ＣＬニューロン５１には、時間差検出部１０から出力された時間差情報（ベクトルｙ_MSO（ｔ））が入力される。左右方向検出部１１は、上述したようにソフトウェア上でのシミュレーションにより重みが決定されている結果、入力ベクトルｙ_MSO（ｔ）をその類似関係を保持したまま量子化可能とされている。すなわち、左右方向検出部１１は、互いに類似度の高い（方向の近い）ベクトルが入力されたときは互いに近いＣＬニューロン５１が発火し、互いに類似度の低い（方向の遠い）ベクトルが入力されたときは互いに遠いＣＬニューロン５１が発火する。したがって、左右方向検出部１１からは、左右方向における音源方向（音源の方向）を示す方向情報が、どのＣＬニューロン５１が発火するかで示されることとなる。ここでは、左右方向検出部１１は、音源が左右２方向のうちのいずれの方向であるかを識別するものとし、番号１〜８のＣＬニューロンからの発火信号は左、番号９〜１６のＣＬニューロンからの発火信号は右を示すものとする。

また、音源同定部９の周波数パターン検出部１２及び音源種類検出部１３も、それぞれ、上述した学習機構無しのハードウェア化されたＣＯＮＰから構成されている。

周波数パターン検出部１２は、入力信号処理部７から入力された入力信号に存在する周波数パターンを検出するものであり、入力信号に存在する周波数パターンをベクトル量子化して、ＣＬニューロン５１の発火パターンとして出力するように構成されている（非特許文献９の図５、図８参照）。

音源種類検出部１３は、学習時（すなわち、ソフトウェアによるシミュレーション時）にはＬＶＱ（Learning Vector Quantization）による教師有り学習を行うことにより、周波数パターン検出部１２から入力された発火パターンをさらにベクトル量子化して、その発火パターンに対応する音源種類（音源の種類）を示すＣＬニューロン５１が発火するように構成されている。なお、ＬＶＱについては周知であるのでここでは説明しない。したがって、音源種類検出部１３からは、音源種類を示す種類情報が、どのＣＬニューロン５１が発火するかで示されることとなる。

例えば、救急車の音には、それぞれ「ピー」「ポー」のように聞こえる２つの周波数パターンが存在するが、この２つの周波数パターンをそれぞれベクトル量子化するのが、周波数パターン検出部１２であり、これらベクトル量子化された２つのパターンをまとめてベクトル量子化して「救急車」を示す発火信号を出力するのが、音源種類検出部１３である。

本実施形態では、音源種類検出部１３は、音源が、「（一般の）自動車」「救急車」「インターフォン」「電話」の４種類のうちのいずれであるかを識別するものとし、ＣＬニューロン５１は８個として、番号１、２のＣＬニューロンからの発火信号は「自動車」、番号３、４のＣＬニューロンからの発火信号は「救急車」、番号５、６のＣＬニューロンからの発火信号は「インターフォン」、番号７、８のＣＬニューロンからの発火信号は「電話」を示すものとする。

認識処理部４の振動選択部１８は、上記４つの音源種類にそれぞれ対応する振動パターンを記憶している。なお、振動パターンは音源種類によって異なるものとされている。そして、振動選択部１８は、音源定位部８から出力された方向情報と音源同定部９から出力された種類情報とに基づいて、方向情報で示される音源方向が左であれば振動部３Ｌに、右であれば振動部３Ｒに、種類情報で示される音源種類に対する振動パターンに従って振動制御信号を出力するように構成されている。

振動部３Ｌ、３Ｒは、それぞれ、振動モータを備え、振動選択部１８から入力された振動制御信号に従って、振動モータで振動を発生するように構成されている。

以上のように構成された音認識装置１を、使用者が装着すると、振動部３Ｌ、３Ｒは、それぞれ使用者の左の耳の上、右の耳の上に接触することとなる。そして、マイクロホン２Ｌ、２Ｒが、それぞれ使用者の左側、右側の音を集音して、入力信号処理部６、７に入力する。入力信号処理部６、７は、左右の入力信号を、それぞれ、周波数チャンネル毎に音圧に応じたパルス頻度を持つパルス列に変換する。

音源定位部８の時間差検出部１０は、入力信号処理部６、７から入力されたパルス列に基づいて、左右の入力信号の時間差を示す時間差情報を出力する。そして、左右方向検出部１１は、時間差検出部１０から入力された時間差情報に基づいて、音源方向が左右のいずれであるかを示す方向情報を出力する。

一方、音源同定部９の周波数パターン検出部１２は、入力信号処理部６、７から入力されたパルス列に基づいて、入力信号に存在する周波数パターンをベクトル量子化して、ＣＬニューロン５１の発火パターンを出力する。そして、音源種類検出部１３は、周波数パターン検出部１２から入力された発火パターンをベクトル量子化して、その発火パターンに対応した音源種類を示す種類情報を出力する。

振動選択部１８は、音源定位部８から出力された方向情報と音源同定部９から出力された種類情報とに基づいて、方向情報で示される音源方向が左であれば振動部３Ｌに、右であれば振動部３Ｒに、種類情報で示される音源種類に対応する振動パターンに従って振動制御信号を出力し、これにより、振動部３Ｌ、３Ｒは、音源種類に対応する振動パターンに従って振動する。

振動部３Ｌ、３Ｒは、音認識装置１の使用者に接触する部位に設けられているため、使用者は直ぐに振動を感知することができ、その振動パターンで音源種類を知ることができるとともに、左側に設けられた振動部３Ｌが振動していれば音源が左に、右側に設けられた振動部３Ｒが振動していれば音源が右にあることが分かり、感覚的に音源の方向を知ることができる。

以上述べたように、音認識装置１は、使用者が音認識装置１を装着したときに使用者に接触するような部位に振動部３Ｌ、３Ｒが設けられて、方向情報で示される音源方向に対向するような部位の振動部３Ｌ、３Ｒ（すなわち、左方向なら振動部３Ｌ、右方向なら振動部３Ｒ）が、音源種類によって異なる振動パターンで振動するので、使用者の視野の邪魔をせずに使用者に音源の方向と種類を知らせることが可能であるとともに、振動を感じた方向に音源があるので、使用者は感覚的に音の方向を知ることができる。

なお、１の音源方向に対して複数の振動部を振動させるようにしてもよい。例えば、音認識装置１において音源定位部８で左、右、前の３方向を識別するようにし、音源方向が左の場合には振動部３Ｌのみを、右の場合には振動部３Ｒのみを振動させるが、前の場合には振動部３Ｌ、３Ｒの両方を振動させることとしてもよい。すなわち、互いに異なる音源方向に対しては少なくとも１つの異なる振動部が振動するように構成すればよい。どの振動部が振動するかによって音源の方向が分かるからである。上記の３方向の例では、音源方向が左の場合と右の場合とでは振動する振動部が前者は振動部３Ｌ、後者は振動部３Ｒとすべて異なり、左の場合と前の場合とでは振動部３Ｌは共通するが振動部３Ｒが異なり、右の場合と前の場合とでは振動部３Ｒは共通するが振動部３Ｌが異なる。

また、音認識装置１では、使用者が装着したときに各音源方向（すなわち左方と右方）に対向する部位にそれぞれ振動部３Ｌ、３Ｒを設け、方向情報で示される音源方向が左であれば振動部３Ｌを、右であれば振動部３Ｒを振動させたが、必ずしも、各音源方向に対向するような部位に振動部を設けて、方向情報で示される音源方向に対向する部位の振動部を振動させる必要は無い。但し、使用者が装着したときに各音源方向に対向するような部位にそれぞれ振動部を設けて、方向情報で示される音源方向に対向する部位の振動部を振動させれば、振動を感じた方向が音源方向であるので、使用者は感覚的に音の方向を知ることができる。

また、音認識装置１が識別可能な各音源種類に対してどの振動パターンを対応付けるかを使用者が設定できるようにしたり、振動強度を使用者が調整できるようにしたりしてもよい。

また、音認識装置は、図１１に示すように、既製の眼鏡に装着可能なアタッチメント型の音認識装置１Ｂとしてもよい。以下、音認識装置１と同じ構成要素には同じ符号を用いて説明すると、音認識装置１Ｂは、眼鏡の左右の蔓にそれぞれ嵌合可能な取付部３１Ｌ、３１Ｒを備え、取付部３１Ｌ、３１Ｒは互いに紐状部材３２で接続されている。取付部３１Ｌには、外側にマイクロホン２Ｌが、内側に振動部３Ｌが取着され、取付部３１Ｒには、外側にマイクロホン２Ｒが、内側に振動部３Ｒが取着されている。また、取付部３１Ｌ、３１Ｒの一方には、認識処理部４及び電源５が内蔵されている。音認識装置１Ｂは、取付部３１Ｌ、３１Ｒを既製の眼鏡の左右の蔓に、図中２点鎖線で示すようにそれぞれ嵌合して用いる。すると、音認識装置１Ｂは、音認識装置１と同様に動作して、振動部３Ｌ、３Ｒが振動により使用者に音源の方向と種類を報知する。

また、音認識装置を眼鏡以外のウェアラブルな形態としてもよく、例えば、帽子に一体化された帽子型としてもよい。帽子型の場合には、例えば振動部を帽子の内側の前部、後部、左側部、右側部にそれぞれ取着するとともに、音源定位部８で前後左右の４方向を識別することとし、前方、後方、左方、右方からの音に対しては、それぞれ、前部、後部、左側部、右側部に取着された振動部が振動するように構成してもよい。

また、時間差検出部１０として、特許文献２に記載された時間差検出器を用いてもよいし、左右方向検出部１１、周波数パターン検出部１２、音源種類検出部１３として、特許文献３記載の競合学習ニューラルネットワーク（ＣＯＮＰ−II）を用いてもよく、パルスニューラルネットワークではない装置を用いてもよい。すなわち、音源定位の方法、音源同定の方法は、上述した方法に限られない。

本発明の一実施形態に係る音認識装置の斜視図である。同実施形態に係る音認識装置のブロック構成図である。入力信号処理部の構成を示すブロック図である。時間差検出部及び左右方向検出部の模式図である。ＭＳＯニューロン列の構成を示す図である。時間差検出部をディジタル回路で構成した例であり、（ａ）は１クロックの前半の動作を、（ｂ）は後半の動作を説明するための図である。ＣＯＮＰの模式図である。ＣＯＮＰにおけるＣＬニューロンの模式図である。ＣＯＮＰの動作を示すフローチャートである。ＣＯＮＰの動作を示すフローチャートである。ＣＯＮＰをディジタル回路で構成した例である。本発明の他の実施形態に係る音認識装置である。

符号の説明

１、１Ｂ…音認識装置
２Ｌ、２Ｒ…マイクロホン
３Ｌ、３Ｒ…振動部
８…音源定位部
９…音源同定部

Claims

使用者に装着されるウェアラブル音認識装置であって、
左右のマイクロホンと、
前記左のマイクロホンから入力された左の入力音と前記右のマイクロホンから入力された右の入力音との時間差に基づいて、音源が複数の音源方向のうちのどの音源方向にあるかを識別し、当該音源方向を示す方向情報を出力する音源定位部と、
前記左の入力音または前記右の入力音の少なくとも一方の周波数パターンに基づいて、音源が複数の音源種類のうちのどの音源種類であるかを識別し、当該音源種類を示す種類情報を出力する音源同定部と、
使用者が装着したときにそれぞれ使用者に接触するような部位に設けられた複数の振動部と、
を備え、
前記各音源種類に対してそれぞれ異なる振動パターンが設定され、
前記方向情報と前記種類情報とに基づいて、１つ以上の前記振動部が前記種類情報で示される音源種類に対する振動パターンで振動するように構成されるとともに、異なる音源方向に対しては少なくとも１つの異なる前記振動部が振動するように構成されたことを特徴とするウェアラブル音認識装置。
使用者が装着したときに前記各音源方向に対向するような部位に、それぞれ前記振動部が設けられ、
前記方向情報と前記種類情報とに基づいて、前記方向情報で示される音源方向に対向する前記部位の前記振動部が、前記種類情報で示される音源種類に対する振動パターンで振動するように構成されたことを特徴とする請求項１記載のウェアラブル音認識装置。