JP5190840B2 - 複数音識別装置 - Google Patents

複数音識別装置 Download PDF

Info

Publication number
JP5190840B2
JP5190840B2 JP2008073429A JP2008073429A JP5190840B2 JP 5190840 B2 JP5190840 B2 JP 5190840B2 JP 2008073429 A JP2008073429 A JP 2008073429A JP 2008073429 A JP2008073429 A JP 2008073429A JP 5190840 B2 JP5190840 B2 JP 5190840B2
Authority
JP
Japan
Prior art keywords
neuron
sound
neurons
competitive learning
sound source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008073429A
Other languages
English (en)
Other versions
JP2009230337A (ja
Inventor
彰 岩田
奨 黒柳
要 岩佐
美穂 山田
Original Assignee
国立大学法人 名古屋工業大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立大学法人 名古屋工業大学 filed Critical 国立大学法人 名古屋工業大学
Priority to JP2008073429A priority Critical patent/JP5190840B2/ja
Publication of JP2009230337A publication Critical patent/JP2009230337A/ja
Application granted granted Critical
Publication of JP5190840B2 publication Critical patent/JP5190840B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、パルスニューロンモデルからなるパルスニューラルネットワークを用いて音源の種類を識別する音源識別装置に関し、特に、複数音が重なった音から各音源の種類を識別する複数音識別装置に関する。
パルスニューラルネットワークを用いた音源識別装置(音源同定装置)には、下記特許文献1、非特許文献1、2に記載されたものがある。また、音源定位装置の時間差検出機構を音源認識装置の前処理機構として用いるものとして、下記非特許文献3に記載されたものがある。さらに、関連する文献として下記非特許文献4〜7があり、出願人による関連する出願に下記特許文献2〜4がある。
非特許文献7には、聴覚情報処理システムのためのパルスニューロンモデルを用いた競合学習ニューラルネットワーク(以下、「CONP」という。)が開示されている。CONPは、Kohonenの競合学習モデルならびに自己組織化マップ(Self-Organizing Maps 以下、「SOM」という。)をパルスニューラルネットワークに適用したものであり、入力ベクトルの位相関係を保持したまま量子化を行うベクトル量子化ニューラルネットワークである。CONPを用いれば、聴覚情報処理に適したベクトル量子化が可能であることが非特許文献7で確認されている。
特許第3164100号公報 特願2006−252798 特願2006−260853 特願2007−283742 坂口晋也、「パルスニューロンモデルを用いた音源認識に関する研究」、名古屋工業大学平成9年度卒業論文、1998年3月 坂口晋也、黒柳奨、岩田彰、「環境把握のための音源識別システム」、電子情報通信学会NC研究会技術研究報告、社団法人電子情報通信学会、1999年12月、NC99−70、p.61−68 中尾裕之、黒柳奨、岩田彰、「パルスニューラルネットワークによる音源の方向情報を用いた音像抽出モデル」、電子情報通信学会NC研究会技術研究報告、社団法人電子情報通信学会、2001年3月、NC2000−108、p.39−46 田中愛久、黒柳奨、岩田彰、「FPGAのためのニューラルネットワークのハードウェア化手法」、電子情報通信学会NC研究会技術研究報告、社団法人電子情報通信学会、2001年3月、NC2000−179、p.175−182 黒柳奨、平田浩一、岩田彰、「パルスニューラルネットワークのための競合学習手法」、電子情報通信学会NC研究会技術研究報告、社団法人電子情報通信学会、2002年3月、NC2001−210、p.113−120 二俣宣義、黒柳奨、岩田彰、「FPGAのためのパルスニューロンモデルの実装方法」、電子情報通信学会NC研究会技術研究報告、社団法人電子情報通信学会、2002年3月、NC2001−211、p.121−128 黒柳奨、岩田彰、「聴覚情報処理システムのためのパルスニューロンモデルを用いた競合学習ニューラルネットワーク」、電子情報通信学会論文誌(D−II)、2004年7月、第J87−D−II巻、第7号、p.1496−1504
音源識別装置にCONPを適用することを考えた場合、実環境では入力音には複数の音源から発せられた音が重なっていることを前提とする必要がある。しかし、CONPは入力ベクトルを量子化して唯1つの競合学習ニューロンを発火させようとするものであるため、複数の音源から音が発せられている場合には、それらの混在パターンから1つの音源のみを特定し、複数の音源を識別することができないという問題があった。例えば、実環境においては、救急車の音は一般の自動車の音と重なっていることが多いが、CONPはその重なった音のパターンが一般の自動車の音のパターンに近ければ一般の自動車と認識し、救急車の音は認識できないという問題があった。
この発明は、上述した問題を解決するものであり、複数音(複数音源から発せられた音)の混在パターンから複数の音源の種類を識別することが可能な複数音識別装置を提供することを目的とする。
本発明の複数音識別装置は、音から生成されたパルス信号が入力されて、該入力パルス信号と結合重みとを用いて演算された内部電位値が閾値を超えたときに発火するように構成された複数個の競合学習パルスニューロンモデル部(以下、「競合学習ニューロン」という。)と、前記競合学習ニューロンの複数発火と無発火とを検出する検出手段と、を備え、前記検出手段からの出力を用いて、結合重みから構成される参照ベクトルが入力パルス信号から構成される入力ベクトルに最も近い前記競合学習ニューロンのみが発火する方向に、制御を行うように構成された複数音識別装置であって、認識単位時間内にいずれの前記競合学習ニューロンの発火頻度が最大になったかによって、1の音源種類の特定情報を出力した後、該特定情報で特定された音源種類を示す前記競合学習ニューロンの出力を0にして、次の認識単位時間内にいずれの前記競合学習ニューロンの発火頻度が最大になったかによって、他の音源種類の特定情報を出力することを特徴とする。
ここで、前記1の音源種類の特定情報で特定された音源種類を示す前記競合学習ニューロンの出力を0にするとともに、発火頻度が最大となった前記競合学習ニューロンの結合重みに基づいて前記各競合学習ニューロンの結合重みを減少させて、次の認識単位時間内にいずれの前記競合学習ニューロンの発火頻度が最大になったかによって、他の音源種類の特定情報を出力することが好ましい。
本発明の複数音認識装置によれば、最初に識別した音源種類を示す競合学習ニューロンの出力を0にして、次の音源種類を識別するので、複数音の混在パターンから複数の音源種類を識別することが可能となる。
以下、本発明の一実施形態である複数音識別装置について、図面に基づいて説明する。図1は、実施形態の複数音識別装置1を含む音源同定装置S全体の構成図である。音源同定装置Sは、AD変換部2と聴覚末梢系モデル部3と複数音識別装置1とから構成されている。AD変換部2は、マイクロホンで集音された入力信号をAD変換する。聴覚末梢系モデル部3は、人の聴覚系の蝸牛に相当する蝸牛モデル部4と、有毛細胞に相当する有毛細胞モデル部5と、蝸牛神経に相当する蝸牛神経モデル部6とを備えている。蝸牛モデル部4は、バンドパスフィルタ(BPF)群により構成され、AD変換部2でデジタル変換された入力信号を所定の周波数範囲について対数スケールで複数(N個)の周波数帯域(周波数チャンネル)の信号に分解する。有毛細胞モデル部5は、蝸牛モデル部4から入力された各周波数帯域の信号に対して、それぞれ、非線形変換を行うことによりその正の成分だけを取り出すとともに、ローパスフィルタ(LPF)によりエンベロープ検出を行う。蝸牛神経モデル部6は、有毛細胞モデル部5から入力された各周波数帯域の信号を、それぞれ、信号強度に比例したパルス頻度を持つパルス列に変換する。これらの処理により、聴覚末梢系モデル部3は、入力信号を周波数帯域毎に信号強度に応じたパルス頻度を持つパルス信号列に変換して、複数音識別装置1に出力する。
複数音識別装置1の説明に先立って、CONPについて説明する。まず、CONPの基本的構成について説明する。CONPは、図2に示すように、競合学習ニューロン群50と制御ニューロン群60とから構成され、競合学習ニューロン群50は複数の競合学習ニューロン(以下、「CLニューロン」ともいう。)51から構成されている。制御ニューロン群60は2つの制御ニューロン、すなわち、CLニューロン51が1つも発火(すなわち、パルス信号「1」を出力)しなかったときに発火する無発火検出ニューロン(以下、「NFDニューロン」ともいう。)61とCLニューロン51が複数発火したときに発火する複数発火検出ニューロン(以下、「MFDニューロン」ともいう。)62とから構成され、CLニューロン51の複数発火(すなわち、CLニューロン51が複数個発火したこと)と無発火(すなわち、CLニューロン51が1個も発火しなかったこと)とを検出する検出手段に相当する。
NFDニューロン61とMFDニューロン62は、それらの発火状況に応じて各CLニューロン51の閾値または内部電位を一律に変化させることで、CLニューロン群50内でCLニューロン51が唯1つ発火する方向に(すなわち、CLニューロン51が複数発火した場合は発火を抑制し、無発火だった場合には発火を促進するように)制御を行うためのパルスニューロンモデルである。以下、パルスニューロンモデルを「PNモデル」という。NFDニューロン61とMFDニューロン62は、CLニューロン群50内のCLニューロン51の数に応じたシナプス部を備え、各CLニューロン51から出力されたパルス信号を各シナプス部で受け取って、NFDニューロン61は、全てのCLニューロン51からの信号が「0」の場合にのみ「1」を出力し、MFDニューロン62は、複数のCLニューロン51から信号「1」を受け取った場合にのみ「1」を出力する。
各CLニューロン51は、図3に示すように、可変の結合重み(以下、単に「重み」ともいう。)whiを有するシナプス部531、…、53i、…、53Nと、固定の結合重み「1」を有するシナプス部541、…、54i、…、54Nとを備えたPNモデルであり、各入力パルス信号xi(t)はシナプス部53i、54iにそれぞれ入力される(i=1〜N、N:周波数チャンネルの数)。なお、hは、CLニューロン群50内で各CLニューロン51に付された番号(ニューロン番号)であり、h=1〜Mとする。
また、各CLニューロン51は、シナプス部56、57を備え、NFDニューロン61から出力されたパルス信号ynfd(t)がシナプス部56に、MFDニューロン62から出力されたパルス信号ymfd(t)がシナプス部57に入力される。
次に、CONPの基本的動作について、図4−1、4−2に基づいて説明する。CLニューロン群50内の各CLニューロン51には、単位時間毎に、N個の入力パルス信号からなる入力ベクトルx(t)=(x1(t),x2(t),…,xi(t),…,xN(t))(t:時刻)が入力される(ステップS101)。すると、NFDニューロン61、MFDニューロン62は、それぞれ、保持しておいた時刻(t−1)における各CLニューロン51からの出力yh(t−1)に基づいて、時刻tにおける出力値ynfd(t)、ymfd(t)を演算して、各CLニューロン51に出力する(S102、S103)。なお、NFDニューロン61、MFDニューロン62において、それぞれ、時刻(t−1)に各CLニューロン51からの出力yh(t−1)を用いて出力値ynfd(t)、ymfd(t)を演算して保持しておき、時刻tになったらynfd(t)、ymfd(t)を各CLニューロン51に出力するようにしてもよい。
次に、各CLニューロン51は、それぞれ、下記[数4]に従って内部電位Ih(t)を演算し(S104)、内部電位Ih(t)が閾値THを超え、かつ、前回の発火時から不応期を経過している場合にはyh(t)=1を出力し、それ以外の場合にはyh(t)=0を出力する(S105)。
そして、学習時には、「1」を出力したCLニューロン51について、シナプス部54iにおける局所膜電位pcwiを用いて、結合重みからなる参照ベクトルwh(t)=(wh1(t),wh2(t),…,whi(t),…,whN(t))が入力ベクトルx(t)に近づくように、結合重みwhi(t)を更新するとともに(S106)、そのCLニューロン51の周辺の(すなわち、そのCLニューロン51から学習範囲にある)CLニューロン51についても同様に結合重みを更新する(S107)。学習範囲の決定方法としては、例えば、最初は全部のCLニューロン51を範囲とし、線形的に範囲を縮小して、最後は勝者ニューロンの重みだけを更新するような、次第に縮小する方法がある。そして、重みを更新したCLニューロン51について重みのノルム(参照ベクトルのノルム)を1に正規化し(S108)、ステップS109に進む。このように、CONPにおいては、勝者ニューロンのみならずその周辺のニューロンも学習を行うことにより、SOMのアルゴリズムを実現している。一方、学習時でない場合(認識時)は、重みの更新は行わずに、ステップS109に進む。ステップS109では、学習係数αを、更新係数γを乗じることにより更新する。γは学習回数が増加するにつれて小さくする。CONPは、単位時間毎に以上の処理を繰返す。
なお、CONPでは、非特許文献7の4.1で説明しているように、参照ベクトルと入力ベクトルとの近さを両ベクトルの内積で評価する内積型SOMを用いているので、参照ベクトルのノルムを正規化するならば、入力ベクトルに参照ベクトルが近いCLニューロン51ほど、内部電位が大きくなり、発火し易いこととなる。
ここで、CONPにおける内部電位Ih(t)の演算方法について説明する。まず、引数として、時刻t、減衰時定数τ、結合重みw、時刻tにおける入力信号x(t)の4つを持つ関数Fを導入し、下記[数1]のように定義する。なお、△t=1/Fs(Fs:サンプリング周波数)とする。
Figure 0005190840
すると、時刻tにおけるPNモデルの内部電位I(t)は、局所膜電位pi(t)(i=1〜N)の総和として、下記[数2]のように記述できる。τはpi(t)の減衰時定数である。
Figure 0005190840
PNモデルの不応期をRP、時刻tにおける前回発火からの経過時間をET(t)とし、ET(0)>RPとすると、PNモデルの出力値y(t)は、以下のアルゴリズムにより計算される。
if I(t)≧TH and ET(t)>RP
then y(t)=1,ET(t)=0
else y(t)=0,ET(t)=ET(t−△t)+△t
パラメータτ、w1、w2、…、wN、THは、各PNモデルにより可変の値であり、この組合せにより各PNモデルの動作は決定される。
ここで、時刻tにおけるNFDニューロン61、MFDニューロン62の出力をそれぞれynfd(t)、ymfd(t)、各CLニューロン51のNFDニューロン61、MFDニューロン62に対する結合重みをそれぞれwfd、−wfd(但し、wfd>0)とすると、時刻tにおける番号hのCLニューロン51の内部電位Ih(t)は前述の関数Fを用いて下記[数3]のように記述できる。CONPでは、pnfd(t)、pmfd(t)を閾値の動的変化量として扱う(但し、閾値THを変化させる代りに、閾値THと比較する内部電位Ih(t)をpnfd(t)、pmfd(t)により調整する)ことでCLニューロン51が1個だけ発火する状態を保持しようとする。このため、減衰時定数τfdは時定数τに対して充分大きいものとする。
Figure 0005190840
ところで、入力パルス列によって発生する内部電位の総量が大きく変動する場合、この変動量を吸収するために閾値の変化が生じることになり、閾値の変化が入力ベクトルの方向変化に追従できない場合がある。そこで、CONPでは内部電位に対して、結合重みを1に固定したシナプス部54iにおける局所膜電位pcwi(t)の総和を一定の比率βpcw(但し、0≦βpcw≦1)であらかじめ差引くことで、入力信号のノルム変動に対する内部電位の変化を抑制している。これにより上記[数3]のIh(t)は下記[数4]のように修正され、各CLニューロン51は[数4]に従って内部電位Ih(t)を演算する。
Figure 0005190840
このように、CONPでは、pnfd(t)、pmfd(t)を用いて内部電位値を調整することにより、CLニューロン51のうち最も入力ベクトルに近い参照ベクトルをもつCLニューロン51のみが発火する方向に、制御を行う。
複数音識別装置1は、CONPを利用したものであり、その動作について、図5−1、5−2に基づいて説明する。以下、複数音識別装置1において上述したCONPと共通する構成要素については同じ符号を用い、その説明を適宜省略する。
まず、準備として、M個のCLニューロン51と、NFDニューロン61と、MFDニューロン62とからなるCONPに学習音を入力して、上述したように学習させ、各CLニューロン51の重みwhi(h:ニューロン番号、h=1〜M、i:周波数チャンネルの番号、i=1〜N)を決定する。そして、決定した重みwhiを複数音識別装置1の各CLニューロン51に設定する(ステップS201)。
また、学習の結果、例えば1番と2番のCLニューロン51は救急車の音を示し(すなわち、救急車の音が入力されたときに発火頻度が高くなり)、3番と4番のCLニューロン51は一般の自動車の音を示す等、各CLニューロン51はその発火頻度で音源の種類を示すこととなるので、複数音識別装置1に、同じ音源を示すCLニューロン51の番号を互いに対応付けて記憶させておく。
そして、複数音識別装置1は、CLニューロン51毎に重心μ及び分散Vを下記[数5][数6]に基づいて求め(S202)、所定の係数bにより、CLニューロン51毎に重みの削減の割合β=bVを求め、各CLニューロン51について記憶しておく(S203)。なお、[数5][数6]における重みwhiは、元の重みwhiからそのCLニューロン51の重みwh1, …,whi, …,whNのうちの最小のものの値を引いたものとする。
Figure 0005190840
Figure 0005190840
次に、複数音識別装置1は、認識を開始し(S204)、各CLニューロン51について、入力パルスxi(t)と各シナプス部53iの重みwhiに基づいて局所膜電位phi(t)を計算し(S205)、局所膜電位phi(t)、各シナプス部54iにおける局所膜電位pcwi(t)、NFDニューロン61からの出力に基づく局所膜電位pnfd(t)、及び、MFDニューロン62からの出力に基づく局所膜電位pmfd(t)に基づいて上記[数4]に従って内部電位Ih(t)を計算する(S206)。そして、内部電位Ih(t)が閾値TH以上となったCLニューロン51については、前回の発火から不応期を経過していれば「1」、経過していなければ「0」、それ以外のCLニューロン51については「0」を出力する(S207)。
複数音識別装置1は、各CLニューロン51の発火回数をカウントする。そして、認識終了か否か、すなわち、認識開始から所定の認識単位時間が経過したか否かを判定し(S208)、経過していなければ、次の入力パルスについてステップS205〜207の処理を行い、経過していればステップS209に進む。
ステップS209において、複数音識別装置1は、その認識単位時間において最も発火頻度が高かったCLニューロン51の番号kを記録し、その番号kを示す情報(音源種類の特定情報に相当。)を出力する。上述したように、学習の結果各CLニューロン51がどの音源を示すことになったかは分かっているので、この番号kにより音源の種類が特定されることとなる。
複数音識別装置1は、識別した(すなわち、番号を記録した)CLニューロン51の個数aが予め指定された個数A以上か否かを判断し、A以上であれば処理を終了し、A以上でなければステップS211に進む(S210)。Aは識別したい音源種類数である。
ステップS211において、複数音識別装置1は、同じ音源種類のニューロン番号を互いに対応付けて記憶しているので、その記憶に基づいて、最も発火頻度が高かったCLニューロン51を含め、そのCLニューロン51が示す音源種類と同じ音源種類を示すすべてのCLニューロン51の出力を「0」にする。例えば、1番と2番のCLニューロン51が救急車の音を示す場合において、1番のCLニューロン51が最も発火頻度が高かった場合には、1番と2番のCLニューロン51のいずれの出力も、以降は「0」にする。
そして、複数音識別装置1は、最も発火頻度が高かったCLニューロン51(番号kとする。)の各シナプス部53iの重みwkiに基づいて、CLニューロン51毎に重みの削減値βwkiを計算し(S212)、各CLニューロン51の各シナプス部53iにおける重みwhiからβwkiを減じることにより、重みwhiを削減する(S213)。但し、削減の結果重みwhiが負になってしまうときは、重みwhiを0とする。かかる重みwhiの更新を行った後、複数音識別装置1は、次の認識単位時間における認識処理(S205〜207)を行う。
以上のように動作する複数音識別装置1は、一般的なコンピュータでソフトウェアにより実現することが可能であるが、実環境に適用可能な高速処理を行うためには、例えば図6に示すような構成でハードウェア化することが好ましい。なお、PNモデル及びパルスニューラルネットワークはデジタル回路を用いてハードウェア化可能である(非特許文献4、6参照)。但し、回路構成の容易化のために、学習をソフトウェアにより一般のコンピュータ上で行って、最初の重みwhi及び削減割合βを設定しておくこととしてもよい。
図6の例では、複数音源識別装置1は、CONP部11と発火頻度判定部12とから構成されている。CONP部11は、上述した従来のCONPと同様の構成を有し、複数のCLニューロン51からなる競合学習ニューロン群50と、制御ニューロン群60とを備えている。
各CLニューロン51は、従来のCONPと同じく、各シナプス部53i、54iにおける局所膜電位の計算を行う局所膜電位計算部42と、内部電位の計算を行う内部電位計算部43と、内部電位が閾値以上であって、かつ、前回の発火からの経過時間が不応期を超えていれば、パルス信号「1」を出力し、そうでなければ「0」を出力する閾値判定部44とを備えている。
但し、CONP部11では、従来のCONPとは異なり、図5−1、5−2で説明したように、認識時にも、最も発火頻度が高かったCLニューロン51の重みを用いて、各CLニューロン51の重みの更新を行うため、各CLニューロン51は重みの更新を行う重み更新部41を備えている。
発火頻度判定部12は、各CLニューロン51から出力されたパルス信号を受け取り、認識単位時間毎に、その認識単位時間内に最も発火頻度が高かったCLニューロン51を検出する。そして、そのCLニューロン51の番号を記録するとともに、そのCLニューロン51を含めてそのCLニューロン51と同じ音源種類を示すCLニューロン51の出力を「0」にし、また、そのCLニューロン51の各シナプス部53iの重みを各CLニューロン51の重み更新部41に出力する。
制御ニューロン群60は、従来のCONPと同じく、CLニューロンが1個も発火しなかった場合に発火するNFDニューロン61(図6には図示せず。)と、CLニューロン51が複数個発火した場合に発火するMFDニューロン62(図6には図示せず。)とからなり、CLニューロン51の複数発火と無発火とを検出する検出手段に相当する。NFDニューロン61及びMFDニューロン62からの出力パルス信号は、調整値計算部40に入力される。
但し、制御ニューロン群60は、従来のCONPとは異なり、発火頻度判定部12を介して各CLニューロン51からの出力パルス信号を受け取る。したがって、認識単位時間内に最も発火頻度が高かったCLニューロン51及びそのCLニューロン51と同じ音源種類を示すCLニューロン51については、「0」のパルス信号を受け取ることになる。
調整値計算部40は、各CLニューロン51のシナプス部56、57に相当するものであり、内部電位の調整値、すなわち、NFDニューロン61からの出力に基づく局所膜電位とMFDニューロン62からの出力に基づく局所膜電位とを計算して、各CLニューロン51の内部電位計算部43に出力する。なお、シナプス部56、57における重み及び減衰時定数は各CLニューロン51で共通としているので、調整値計算部40は各CLニューロン51共通で1つとすることができる。
図6に示す複数音識別装置1の動作について、図5−1、5−2を用いて説明する。なお、各CLニューロン51の重みの設定(S201)、重心・分散の計算(S202)、及び、重みの削減割合βの計算(S203)は、コンピュータ上でソフトウェアにより行って、複数音識別装置1の各CLニューロン51に設定しておくものとする。
複数音識別装置1は、認識を開始すると(S204)、各CLニューロン51が、局所膜電位及び内部電位Ih(t)を計算し(S205、S206)、内部電位Ih(t)が閾値以上で、かつ、前回の発火から不応期を経過していれば「1」、それ以外の場合は「0」を、発火頻度判定部12に出力する(S207)。
発火頻度判定部12は、各CLニューロン51の発火回数をカウントする。そして、認識終了か否かを判定し(S208)、終了でなければ、次の入力パルスについてステップS205〜207の処理を行い、終了であればステップS209に進む。ステップS209において、発火頻度判定部12は、その認識単位時間において最も発火頻度が高かったCLニューロン51の番号kを記録し(S209)、その番号kを示す情報を出力する。
発火頻度判定部12は、識別したCLニューロン51の個数aが、識別したい音源種類数A以上であれば処理を終了し、A以上でなければステップS211に進む(S210)。ステップS211において、発火頻度判定部12は、記録した番号kのCLニューロン51が示す音源種類と同じ音源種類を示すすべてのCLニューロン51の出力を「0」にするとともに、番号kのCLニューロン51の各シナプス部53iの重みwkiを、各CLニューロン51に出力する。
各CLニューロン51は、重みwkiと保持しておいたβとに基づいて重みの削減値βwkiを計算し(S212)、各シナプス部53iにおける重みwhiを更新する(S213)。そして、複数音識別装置1は、次の認識単位時間における認識処理(S205〜207)を行う。
以下、実験例として比較例及び実験例1〜3を示す。なお、これらはいずれもコンピュータにおいてソフトウェアにより行った。各実験におけるパラメータを表1に示す。
Figure 0005190840
表1中、入力閾値とは、CLニューロン51への入力の総和の閾値であり、これを超えない場合には、入力パルスの頻度が少な過ぎるため発火をさせず、また、入力が小さいのに発火してしまうことを防ぐため、制御ニューロンからの出力を用いた閾値または内部電位の調整も行わないこととする。また、内部電位が安定するまでの時間とは、最初の入力により急激に上昇したCLニューロン51の内部電位が安定するまでの時間であり、最初の入力からこの時間までは発火をさせないようにする。
また、いずれの場合も、各CLニューロン51の結合重みの初期値は乱数(乱数の種=4)により与え、初期重みの最大値は0.1、最小値は0とした。また、学習回数は1000回で、学習半径は、すべてのCLニューロン51が学習する状態から線形的に減少し、800回の学習で自身のみが学習するように収束するものとした。
〈比較例〉従来のCONPの場合
比較例として、従来のCONPを用いて実験したものを示す。CONPとしては、8個のCLニューロン51を1列に並べたものを使用した。すなわち、h番(h=2〜7)のCLニューロン51と(h−1)番及び(h+1)番のCLニューロン51とは隣接するが、1番と8番のCLニューロン51は隣接しない。
学習音は、サンプリング周波数16kHz、量子化ビット数8bitとし、雑音の無い1秒間の音を使用し、最大音量を揃えた。学習音の種類は、(一般の)自動車の走行音、240Hzの純音(女声の基本周波数)、救急車のサイレン、2kHzの純音(自転車のベル音に含まれる周波数)とした。
学習の結果、1、2番のCLニューロン51が2kHzの純音、3、4番のCLニューロン51が救急車のサイレン、5、6番のCLニューロン51が自動車の走行音、7、8番のCLニューロン51が240Hzの純音を示すようになった。なお、音が4種類であるのに対し、CLニューロン51が8個であるので、隣接した2個のCLニューロン51が同じ音を学習している。各CLニューロン51の学習後の重みを、図7に示す。
認識実験に使用する音として、複数音(合成音)を学習音に使用したデータで次のように作成した。
1.自動車の走行音と240Hzの純音との合成音(自動車&240Hz)
2.自動車の走行音と救急車のサイレンとの合成音(自動車&救急車)
3.自動車の走行音と2kHzの純音との合成音(自動車&2kHz)
4.240Hzの純音と救急車のサイレンとの合成音(240Hz&救急車)
5.240Hzの純音と2kHzの純音との合成音(240Hz&2kHz)
6.救急車のサイレンと2kHzの純音との合成音(救急車&2kHz)
学習後、上記6種類の合成音を認識させた結果を表2に示す。この表は、例えば「自動車&240Hz」を入力した場合、自動車の音を示すCLニューロン51(表では「自動車」と表記)の認識率は67.6%、240Hzの純音を示すCLニューロン51(表では「240Hz」と表記)の認識率は21.9%、救急車のサイレンを示すCLニューロン51(表では「救急車」と表記)の認識率は8.2%、2Hzの純音を示すCLニューロン51(表では「2kHz」と表記)の認識率は2.3%であることを示している。なお、認識率=(認識単位時間あたりのそのCLニューロン51の発火数)÷(認識単位時間あたりのすべてのCLニューロン51の発火数)×100で計算した。認識単位時間は1secとした。
Figure 0005190840
表2により、例えば「240Hz&救急車」を入力した場合、認識率が最も高いのは「240Hz」、次いで「自動車」となっており、240Hzの純音は識別できているが、救急車のサイレンは識別できていない等、従来のCONPでは、合成音を構成する一方の音は識別できても、他方の音が識別できていないことが分かる。
〈実験例1〉CLニューロン51を削除した場合
CONPは、入力に対してCLニューロン51を1つだけ発火させようとするものである。したがって、合成音に対しても1つの音しか識別できないこととなる。そこで、認識率が最も高かったCLニューロン51によって示された音に対応するCLニューロン51(すなわち、識別された音を示すCLニューロン51)をすべて削除する(具体的には、CLニューロン51の出力を「0」にする。)ことによって、次に特徴の強い音を検出させることとする。
表3は、合成音をCONPに入力して、最初の認識単位時間内に認識率が最も高くなったCLニューロン51により音を識別した後、識別された音に対応するCLニューロン51の出力を「0」にして、次の認識単位時間における認識率を調べた結果である。
Figure 0005190840
表3から、例えば「自動車&240Hz」を入力した場合、最初に認識率が最も高かったのは「自動車」のCLニューロン51であるので(表2参照)、「自動車」を示すすべてのCLニューロン51(すなわち、5番と6番のCLニューロン51)の出力を0にすると、今度は「240Hz」が最も高くなり、先に識別されなかったもう一方の音が識別されたことが分かる。同様に、「自動車&2kHz」「240Hz&2kHz」「救急車&2kHz」の場合にも、もう一方の音が識別されている。
〈実験例2〉CLニューロン51の削除と重みの削減を行った場合
しかし、表3から分かるように、実験例1では「自動車&救急車」、「240Hz&救急車」の場合に次に識別された音は、それぞれ「240Hz」、「自動車」であり、誤認識している。これは、先に識別した音に対応するCLニューロン51を削除しても、先に識別した音に近い音が次に認識され易いからではないかと考えられる。
音の近さを図7に示す重みの値から解析すると、「自動車」の音に次に近いのは「240Hz」である。このため、「自動車&救急車」を入力した場合、「自動車」のCLニューロン51を削除しても、「自動車」に次に近い「240Hz」の内部電位が高くなり、次に識別される音が「240Hz」になってしまったと考えられる。「240Hz&救急車」の場合も同様である。
したがって、次に正しい音を識別するには、先に識別した音の影響を小さくすることが必要と考えられる。先に最も高い認識率となったCLニューロン51の重みは、先に識別した音のパターンを表しているため、その重みに従って定めた値を各CLニューロン51の重みから減じれば、先に識別した音の影響が小さくなると考えられる。
そこで、先に識別した音に対応するCLニューロン51を削除するとともに、先に最も高い認識率となったCLニューロン51(k番とする。)の重みwkiに基づいて、各CLニューロン51の各シナプス部53iにおける重みwhiからβwkiを減じることにより、重みwhiを減少させて(但し、負になってしまうときは0とする。)、次に最も認識率が高くなったCLニューロン51により次の音を識別することとした。
重みを減少させる割合βは、大きくし過ぎると重みの特徴を無くし、小さくし過ぎると変化が出ないため、重みの分散が大きければ大きく、小さければ小さくなるように、上述したように重みwhiの重心μと分散Vとからβ=bVで定めた。分散の大きい音、すなわち、広い周波数帯域を持つ音は影響が大きく、分散が小さい音、すなわち、ある一部の帯域に周波数ピークを持つ音は影響が小さいと考えられるからである。また、係数bは実験により適当に定めるものとし、ここでは、b=1/200とした。表4に各CLニューロン51の重心、分散、βの計算結果を示す。
Figure 0005190840
上述したようにCLニューロン51の削除と重みの削減とを行ったときの認識結果を表5に示す。
Figure 0005190840
表5から、例えば「自動車&救急車」の場合も次に「救急車」が認識されている等、いずれの場合でも、もう一方の音を正しく識別していることが分かる。
〈実験例3〉屋外環境の音に適用した場合
学習用データ及びテスト用データとして、救急車のサイレン、自動車の走行音、自転車のベル音の3種の音を、表6に示すような各環境で録音し、サンプリング周波数16kHz、量子化ビット数8bitで、最大音量を揃えた1秒間の音を作った。
Figure 0005190840
CONPとしては、6個のCLニューロン51を1列に並べたものを用い、学習用データを用いてCONPに学習をさせた。学習により、隣接した2個のCLニューロン51が同じ音を示すこととなった。学習後、テスト用データを用いてCONPに認識をさせた結果を表7に示す。
Figure 0005190840
表7から、屋外環境で録音したテスト用データにはいずれも自動車の騒音が入っている(すなわち、自動車の走行音との合成音となっている)ため、救急車のサイレンや自転車のベル音を入力した場合でも、従来のCONPでは「自動車」と誤認識してしまうことが分かる。
そこで、実験例2のように、先に識別された自動車の音を示すCLニューロン51を削除するとともに、先に最も認識率が高くなったCLニューロン51の重みを用いて各CLニューロン51の重みの削減を行ってから、入力音を識別させた結果を表8に示す。
Figure 0005190840
表8から、先に識別された音に重なっていたもう一方の音が識別されたことが分かり、実環境下の屋外環境の音に対しても実験例2の手法は有効であることが分かった。
以上の実験結果から、認識単位時間内にいずれのCLニューロン51の発火頻度が最大になったかによって、1の音源種類の特定情報を出力した後、その特定情報で特定された音源種類を示すCLニューロン51の出力を0にするとともに、発火頻度が最大となったCLニューロン51の結合重みに基づいて各CLニューロン51の結合重みを減少させて、次の認識単位時間内にいずれのCLニューロン51の発火頻度が最大になったかによって、他の音源種類の特定情報を出力する複数音識別装置1によれば、複数音の混在パターンから複数の音源種類を識別することが可能となる。
なお、実験例2のようにCLニューロン51の削除と重みの削減の両方を行うことが好ましいが、実験例1のようにCLニューロン51の削除のみを行うこととしてもよい。表3に示すように合成音によっては識別可能だからである。
また、参照ベクトルが入力ベクトルに最も近いCLニューロン51のみが発火する方向に制御するために、内部電位を調整する代りに閾値を調整してもよく、少なくとも内部電位または閾値のどちらか一方を調整すればよい。
また、結合重みの減少のさせ方についても、種々の方法を採ることができる。要するに、入力音における、先に識別された音の影響を減少させる方法であればよい。
本発明の一実施形態に係る複数音識別装置を含む音源同定装置の構成図である。 CONPの模式図である。 CLニューロンの模式図である。 CONPにおける処理の流れを示すフローチャートである。 CONPにおける処理の流れを示すフローチャートである。 同実施形態に係る複数音識別装置における処理の流れを示すフローチャートである。 同実施形態に係る複数音識別装置における処理の流れを示すフローチャートである。 同実施形態に係る複数音識別装置をハードウェア化した場合の構成図である。 各CLニューロンの学習後の重みを示すグラフである。
符号の説明
1…複数音識別装置
51…競合学習ニューロン
60…制御ニューロン群
40…調整値計算部

Claims (2)

  1. 音から生成されたパルス信号が入力されて、該入力パルス信号と結合重みとを用いて演算された内部電位値が閾値を超えたときに発火するように構成された複数個の競合学習パルスニューロンモデル部(以下、「競合学習ニューロン」という。)と、
    前記競合学習ニューロンの複数発火と無発火とを検出する検出手段と、
    を備え、
    前記検出手段からの出力を用いて、結合重みから構成される参照ベクトルが入力パルス信号から構成される入力ベクトルに最も近い前記競合学習ニューロンのみが発火する方向に、制御を行うように構成された複数音識別装置であって、
    認識単位時間内にいずれの前記競合学習ニューロンの発火頻度が最大になったかによって、1の音源種類の特定情報を出力した後、該特定情報で特定された音源種類を示す前記競合学習ニューロンの出力を0にして、次の認識単位時間内にいずれの前記競合学習ニューロンの発火頻度が最大になったかによって、他の音源種類の特定情報を出力することを特徴とする複数音識別装置。
  2. 前記1の音源種類の特定情報で特定された音源種類を示す前記競合学習ニューロンの出力を0にするとともに、発火頻度が最大となった前記競合学習ニューロンの結合重みに基づいて前記各競合学習ニューロンの結合重みを減少させて、次の認識単位時間内にいずれの前記競合学習ニューロンの発火頻度が最大になったかによって、他の音源種類の特定情報を出力することを特徴とする請求項1記載の複数音識別装置。
JP2008073429A 2008-03-21 2008-03-21 複数音識別装置 Expired - Fee Related JP5190840B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008073429A JP5190840B2 (ja) 2008-03-21 2008-03-21 複数音識別装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008073429A JP5190840B2 (ja) 2008-03-21 2008-03-21 複数音識別装置

Publications (2)

Publication Number Publication Date
JP2009230337A JP2009230337A (ja) 2009-10-08
JP5190840B2 true JP5190840B2 (ja) 2013-04-24

Family

ID=41245673

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008073429A Expired - Fee Related JP5190840B2 (ja) 2008-03-21 2008-03-21 複数音識別装置

Country Status (1)

Country Link
JP (1) JP5190840B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9269045B2 (en) * 2014-02-14 2016-02-23 Qualcomm Incorporated Auditory source separation in a spiking neural network
JP6864085B2 (ja) 2017-04-10 2021-04-21 ソフトバンク株式会社 情報処理装置、情報処理方法、およびプログラム
WO2018189793A1 (ja) 2017-04-10 2018-10-18 ソフトバンク株式会社 情報処理装置、情報処理方法、およびプログラム
JP6864084B2 (ja) * 2017-04-10 2021-04-21 ソフトバンク株式会社 情報処理装置、情報処理方法、およびプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4972739B2 (ja) * 2006-09-19 2012-07-11 国立大学法人 名古屋工業大学 音学習装置

Also Published As

Publication number Publication date
JP2009230337A (ja) 2009-10-08

Similar Documents

Publication Publication Date Title
US10373609B2 (en) Voice recognition method and apparatus
KR101844932B1 (ko) 신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치 및 이의 학습방법
KR102137151B1 (ko) 노이즈 캔슬링 장치 및 그 방법
US9524730B2 (en) Monaural speech filter
US5749072A (en) Communications device responsive to spoken commands and methods of using same
JP3987429B2 (ja) 音響環境状況の決定方法及び装置、同方法の使用及び聴音装置
KR102605736B1 (ko) 주파수 변화에 강인한 음향 이벤트 검출 방법 및 그 장치
JP2008085472A (ja) 音源定位・同定装置
JP5190840B2 (ja) 複数音識別装置
CN111133511A (zh) 声源分离系统
WO2005029467A1 (en) A method for recovering target speech based on amplitude distributions of separated signals
JP2020533723A (ja) パターン認識装置、パターン認識方法、及びパターン認識プログラム
Katthi et al. Deep canonical correlation analysis for decoding the auditory brain
US8335332B2 (en) Fully learning classification system and method for hearing aids
Geirnaert et al. Time-adaptive unsupervised auditory attention decoding using EEG-based stimulus reconstruction
CN117234455B (zh) 基于环境感知的音频装置智能控制方法及系统
US7085685B2 (en) Device and method for filtering electrical signals, in particular acoustic signals
CN109634554B (zh) 用于输出信息的方法和装置
CN114189795B (zh) 助听器尖峰噪声自适应调节方法及设备
Mogridge et al. Non-Intrusive Speech Intelligibility Prediction for Hearing-Impaired Users using Intermediate ASR Features and Human Memory Models
JP4972739B2 (ja) 音学習装置
CN112349298A (zh) 声音事件识别方法、装置、设备和存储介质
JP5131416B2 (ja) 適応フィルタの制御装置及び適応フィルタの制御方法
Luberadzka et al. Estimating fundamental frequency and formants based on periodicity glimpses: A deep learning approach
KR101619265B1 (ko) 음성 인식 시스템 및 그 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110302

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110304

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121225

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130122

R150 Certificate of patent or registration of utility model

Ref document number: 5190840

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160208

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees