JP6559382B1

JP6559382B1 - 音源方向推定装置、音源方向推定方法、及び音源方向推定プログラム

Info

Publication number: JP6559382B1
Application number: JP2019517124A
Authority: JP
Inventors: 阿部　芳春; 芳春阿部; 英明寺島
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2018-12-21
Filing date: 2018-12-21
Publication date: 2019-08-14
Anticipated expiration: 2038-12-21
Also published as: JPWO2020129231A1; TW202025142A; WO2020129231A1

Abstract

音源方向推定装置（１００）は、複数のマイクロホンから取得された複数チャンネルの音響信号（Ｄ１）を時間方向に複数のフレームに分割することによって、複数フレームの音響信号（Ｄ２）を作成するフレーム分割部（３０）と、入力層（５０）、パラメータ（Ｄ３）を記憶する記憶部（８０）、変換網（６０）及び出力層（７０）を有し、変換網（６０）は、入力層（５０）に入力された複数フレームの音響信号と学習データに基づいて作成された前記パラメータ（Ｄ３）とに基づいて、音源（ＳＳ）の方向を推定する演算を行い、演算の結果を、出力層（７０）を介して出力するニューラルネットワーク（４０）と、を備える。

Description

本発明は、複数のマイクロホンから出力された音響信号に基づいて音源の方向を推定する音源方向推定装置、並びに、複数のマイクロホンから出力された音響信号に基づいて音源の方向を推定するために使用される音源方向推定方法及び音源方向推定プログラムに関する。

非特許文献１は、互いに異なる位置に配置された複数のマイクロホンを有するマイクロホンアレーを用いることによって音源の位置を推定する技術、すなわち、音源定位の技術を記載している。この文献は、ビームフォーミング法とサブスペース法とを説明している。サブスペース法の代表例は、ＭＵＳＩＣ（ＭＵｌｔｉｐｌｅＳＩｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ）法である。これらの方法では、仮想的な音源がある方向を要素とするステアリングベクトルを用いて、音源の方向（すなわち、音の到来方向）を推定する。ステアリングベクトルは、インパルス応答の計測又は計算により事前に求められる。

浅野太、「音源定位」、［ｏｎｌｉｎｅ］、電子情報通信学会、知識の森、２群−６編−３章、インターネット〈URL:http://www.ieice-hbkb.org/files/02/02gun_06hen_03.pdf〉

しかしながら、ステアリングベクトルをインパルス応答から求めるためには、音源に入力される音源信号とマイクロホンアレーに備えられる複数のマイクロホンから出力された音響信号とをサンプル単位で時間同期をとりながら、音響信号をサンプリングするための、専用の設備（例えば、マルチチャンネルのレコーダ）が必要である。つまり、音源の方向の推定を可能するための事前の計測が、高コストであるという課題がある。

また、ステアリングベクトルを計算によって求めるためには、マイクロホンアレーに備えられる複数のマイクロホンの空間配置（一般には、３次元の座標である。）が既知である必要がある。しかし、複数のマイクロホンの空間配置が公表されていない場合には、複数のマイクロホンの空間配置を計測するための設備が必要である。つまり、音源の方向の推定を可能するための事前の計測が、高コストであるという課題がある。

本発明は、上記従来技術の課題を解決するためになされたものであり、複数のマイクロホンから出力された音響信号に基づいて、低コストで音源の方向を推定することができる音源方向推定装置、並びに、複数のマイクロホンから出力された音響信号に基づいて、低コストで音源の方向を推定可能にする音源方向推定方法及び音源方向推定プログラムを提供することを目的とする。

本発明の一態様に係る音源方向推定装置は、複数のマイクロホンから取得された複数チャンネルの音響信号を時間方向に複数のフレームに分割することによって、複数フレームの音響信号を作成するフレーム分割部と、入力層、パラメータを記憶する記憶部、変換網及び出力層を有し、前記変換網は、前記入力層に入力された前記複数フレームの音響信号と学習データに基づいて作成された前記パラメータとに基づいて、音源の方向を推定する演算を行い、前記演算の結果を、前記出力層を介して出力するニューラルネットワークと、を備え、前記出力層は、複数の出力ユニットを有し、前記パラメータは、前記複数のユニットのうちの２つの出力ユニットの間の出力の近接度が、前記２つの出力ユニットに対応付けられた音源の方向の間の近接度と符合する方向になるように更新する制約付きの学習によって得られたことを特徴とする。

本発明の他の態様に係る音源方向推定方法は、複数のマイクロホンから取得された複数チャンネルの音響信号を時間方向に複数のフレームに分割することによって、複数フレームの音響信号を作成するステップと、入力層、パラメータを記憶する記憶部、変換網及び出力層を有するニューラルネットワークの前記変換網が、前記入力層に入力された前記複数フレームの音響信号と学習データに基づいて作成された前記パラメータとに基づいて、音源の方向を推定する演算を行い、前記演算の結果を、前記出力層を介して出力するステップと、を有し、前記出力層は、複数の出力ユニットを有し、前記パラメータは、前記複数のユニットのうちの２つの出力ユニットの間の出力の近接度が、前記２つの出力ユニットに対応付けられた音源の方向の間の近接度と符合する方向になるように更新する制約付きの学習によって得られたことを特徴とする。

本発明によれば、複数のマイクロホンから出力された音響信号に基づいて、低コストで音源の方向を推定することができる。

本発明の実施の形態１に係る音源方向推定装置の構成を概略的に示す機能ブロック図である。実施の形態１に係る音源方向推定装置の外観を概略的に示す斜視図である。実施の形態１に係る音源方向推定装置のハードウェア構成の例を示すブロック図である。（Ａ）及び（Ｂ）は、マイクロホンアレーの構造を概略的に示す斜視図及び上面図である。学習データの取得時に使用される学習システムの例を示す構成図である。学習データの取得時に音源用コンピュータからスピーカに供給される計測用の音響信号のスペクトログラムを示す図である。取得された学習データのファイル構成の例を示す図である。実施の形態１におけるニューラルネットワークの構成を示す図である。図８に示される入力層の構成を示す図である。図８に示される変換網の「畳込層＃１」の構成を示す図である。図８に示される変換網の「畳込層＃２」の構成を示す図である。図８に示される変換網の「全結合層＃１」の構成を示す図である。図８に示される変換網の「全結合層＃２」の構成を示す図である。図８に示される変換網の平坦化層の構成を示す図である。図８に示される変換網の識別層の構成を示す図である。図８に示される出力層の構成を示す図である。図８に示されるニューラルネットワークのパラメータの学習プロセスを示す図である。図８に示されるニューラルネットワークのパラメータの学習プロセスを示すフローチャートである。実施の形態１における入力データ系列と教師データ系列の作成プロセスを示す図である。実施の形態１におけるバッチデータの作成プロセスを示す図である。実施の形態１における出力ユニット間の制約を示す説明図である。実施の形態１における音源方向の推定プロセスを示すフローチャートである。実施の形態１における表示部の表示の例を示す図である。本発明の実施の形態２に係る音源方向推定装置のニューラルネットワークの構成を示す図である。本発明の実施の形態３に係る音源方向推定装置のニューラルネットワークの構成を示す図である。実施の形態３における入力データ系列と教師データ系列の作成プロセスを示す図である。本発明の実施の形態４における入力データ系列と教師データ系列の作成プロセスを示す図である。本発明の実施の形態５における入力データ系列と教師データ系列の作成プロセスを示す図である。本発明の実施の形態６における学習データの作成方法を示す図である。本発明の実施の形態７における学習データの作成方法を示す図である。本発明の実施の形態８における学習データの作成方法を示す図である。本発明の実施の形態９における学習データの作成方法を示す図である。本発明の実施の形態１０における学習データの取得時に使用される学習システムの例を示す図である。複数のマイクロホンを有するマイクロホン製品から取得した音響信号から加工信号を生成する処理を示す説明図である。実施の形態１０に係る音源方向推定装置が取得した学習データのファイル構成を示す図である。

以下に、本発明の実施の形態に係る音源方向推定装置、音源方向推定方法、及び音源方向推定プログラムを、図面を参照しながら説明する。以下の実施の形態は、例にすぎず、本発明の範囲内で種々の変更が可能である。

実施の形態１．
〔音源方向推定装置の構成〕
図１は、本発明の実施の形態１に係る音源方向推定装置１００の構成を概略的に示す機能ブロック図である。音源方向推定装置１００は、実施の形態１に係る音源方向推定方法を実施することができる装置である。図１に示されるように、音源方向推定装置１００は、マイクロホンアレー１０から音響信号Ｄ１を受信する受信部２０と、音響信号Ｄ１を複数フレームの音響信号Ｄ２（「複数フレームの入力データ」とも言う。）に分割するフレーム分割部３０と、事前の学習によって取得されたパラメータＤ３を用いて音源ＳＳの方向を推定するための演算を行うニューラルネットワーク４０とを備えている。ニューラルネットワーク４０は、入力層５０と、変換網６０と、出力層７０と、パラメータＤ３を記憶する記憶部８０とを有している。記憶部８０は、ニューラルネットワーク４０の外部に備えられてもよい。音源方向推定装置１００は、例えば、音源方向推定プログラムを実行するコンピュータである。

音源方向推定装置１００は、音源ＳＳが存在する方向の推定のための演算の結果、すなわち、推定結果Ｄ４を出力する。推定結果Ｄ４は、画像を表示するディスプレイなどの表示部９０に出力される。音源ＳＳが存在する方向は、「音源方向」又は「音の到来方向」とも言う。表示部９０は、音源方向推定装置１００の一部であってもよい。また、マイクロホンアレー１０は、音源方向推定装置１００の一部であってもよい。

受信部２０は、互いに異なる位置に配置された複数のマイクロホン（すなわち、複数の受音素子）を有するマイクロホンアレー１０から、複数チャンネルの音響信号Ｄ１を受信する。この音響信号Ｄ１は、「受音信号」とも言う。

フレーム分割部３０は、受信部２０によって受信された複数チャンネルの音響信号Ｄ１を時間方向に複数のフレームに分割する。つまり、フレーム分割部３０は、複数チャンネルの音響信号Ｄ１の各々（すなわち、各チャンネルの音響信号）から複数フレームの音響信号Ｄ２を作成する。

入力層５０には、複数チャンネルの音響信号Ｄ１の各々から作成された複数フレームの音響信号Ｄ２が入力される。変換網６０は、入力層５０から入力された複数フレームの音響信号Ｄ２と記憶部８０に記憶されているパラメータＤ３とに基づいて、音源方向を推定するための演算を行う。出力層７０は、変換網６０によって行われた演算の結果である推定結果Ｄ４を出力する。

出力層７０から出力された推定結果Ｄ４は、表示部９０によって受信される。表示部９０は、推定結果Ｄ４、すなわち、音源方向を示す情報を表示する。

音源方向推定装置１００は、音源方向の推定結果Ｄ４を音声で通知するためのスピーカなどの音声出力部を備えてもよい。また、音源方向推定装置１００は、音源方向の推定結果Ｄ４を示す信号を、他の装置に送信するための通信部を備えてもよい。

図２は、マイクロホンアレー１０と音源方向推定装置１００の外観を概略的に示す斜視図である。図２の例では、表示部９０は、音源方向推定装置１００の一部として備えられている。図２に示される形態は、マイクロホンアレー１０と音源方向推定装置１００の例にすぎない。マイクロホンアレー１０の形状及び音源方向推定装置１００の形状は、他の形状であってもよい。

図３は、音源方向推定装置１００のハードウェア構成の例を示す図である。図３に示されるように、音源方向推定装置１００は、例えば、ソフトウェアとしてのプログラム、すなわち、実施の形態１に係る音源方向推定プログラムを格納する記憶装置としてのメモリ１０２と、メモリ１０２に格納された音源方向推定プログラムを実行する演算処理部としてのプロセッサ１０１とを備えている。プロセッサ１０１は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）である。実施の形態１に係る音源方向推定プログラムは、情報を記憶する記憶媒体から媒体情報読取装置（図示せず）を介して又はインターネットなどのネットワーク９１に接続可能なインタフェース（ＩＦ）を介してメモリ１０２に格納される。

また、音源方向推定装置１００は、半導体記憶装置、ハードディスクドライブ、などの記憶装置１０３を備えてもよい。記憶装置１０３は、データベースなどの各種情報を格納する。記憶装置１０３は、ＩＦを介して音源方向推定装置１００に接続される外部の記憶装置であってもよい。また、記憶装置１０３は、ＩＦ及びネットワーク９１を介して接続可能なクラウド上に存在する記憶装置であってもよい。

また、音源方向推定装置１００は、ユーザの音声を受音するマイクロホンアレー１０とＩＦを介して接続されており、表示部９０とＩＦを介して接続されている。さらに、音源方向推定装置１００は、マウス、キーボード、タッチパネル、などのユーザ操作部である入力装置（図示せず）を備えてもよい。

図１に示される音源方向推定装置１００の構成は、メモリ１０２に格納される音源方向推定プログラムを実行するプロセッサ１０１によって実現されることができる。また、図１に示される音源方向推定装置１００の構成の一部が、メモリ１０２に格納されている音源方向推定プログラムを実行するプロセッサ１０１によって実現されてもよい。また、図１に示される記憶部８０は、図３に示される記憶装置１０３の一部であってもよい。

〔マイクロホンアレー〕
図４（Ａ）及び（Ｂ）は、マイクロホンアレー１０の構造を概略的に示す斜視図及び上面図である。図４（Ａ）及び（Ｂ）に示されるように、マイクロホンアレー１０は、回転楕円体形状（すなわち、卵形状）の筐体と、この筐体の外側に、円周方向に等間隔に並ぶように配置された８個のマイクロホン＃１〜＃８とを有している。ここで、マイクロホン＃１〜＃８は、第１のマイクロホン〜第８のマイクロホンを意味する。８個のマイクロホン＃１〜＃８は、例えば、ＭＥＭＳ（ＭｉｃｒｏＥｌｅｃｔｒｏＭｅｃｈａｎｉｃａｌＳｙｓｔｅｍｓ）マイクロホン、すなわち、半導体マイクロホンである。ただし、マイクロホンアレー１０に備えられるマイクロホンの個数は、８個に限定されない。また、マイクロホンの配置は、図示の例に限定されない。

これらのＭＥＭＳマイクロホンによる集音によって生成された音響信号（「オーディオ信号」とも言う。）は、回転楕円体形状の筐体の内部に格納されている信号処理ボードにより、８チャンネルの音響信号に変換され、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ケーブルなどのケーブルを介して出力される。マイクロホンアレー１０は、音源方向推定装置としてのコンピュータ（例えば、図１に示される装置）又は学習用コンピュータ（例えば、後述の図５に示される学習用コンピュータ１２）の端子とケーブルで接続され、これらコンピュータに内蔵されるプログラムにより読み出される。読み出された信号は、例えば、サンプリングレート１６ｋＨｚ、２４ビット、８チャンネルのデジタル信号であるサンプリングデータである。

〔学習データの取得〕
次に、学習データであるパラメータＤ３の取得について説明する。パラメータＤ３は、学習システムによって取得され、図１に示される音源方向推定装置１００の記憶部８０に事前に格納される。図５は、学習データの取得時に使用される学習システムの例を示す構成図である。図５の学習システムは、音を出力する学習用音源としてのスピーカ１５と、スピーカ１５に計測用の音響信号を供給する音源用コンピュータ１６と、パラメータＤ３の調整の対象であるマイクロホンアレー１０と、マイクロホンアレー１０から見た音源であるスピーカ１５の方向を変更する雲台１１と、マイクロホンアレー１０の集音によって生成された音響信号を記録する学習用コンピュータ１２とを備えている。雲台１１は、マイクロホンアレー１０の方位角θと仰角φを調整可能な機構を備えている。

図６は、学習データの取得時に音源用コンピュータ１６から学習用音源としてのスピーカ１５に供給される計測用の音響信号のスペクトログラムを示す図である。計測用の音響信号は、マイクロホンアレー１０がカバーする周波数範囲をカバーする広帯域の信号である。計測用の音響信号は、例えば、マイクロホンアレー１０のサンプリングレートの１／２であるナイキストレートである８０００Ｈｚをカバーする広帯域の信号である。また、計測用の音響信号は、背景騒音の影響を避け、高いＳ／Ｎ比で音源信号を収録することができるようにするために、ＴＳＰ（ＴｉｍｅＳｔｒｅｔｃｈｅｄＰｕｌｓｅ）信号を時間軸上で多重化した多重ＴＳＰ信号を使用することが望ましい。なお、図６には、２重ＴＳＰ信号が示されている。

学習データの取得時には、音源用コンピュータ１６は、音源であるスピーカ１５を鳴動させ続ける。学習データの取得時には、学習用コンピュータ１２は、予め決められた試験計画書の指示に従って、雲台１１によって設定されるマイクロホンアレー１０の向き、すなわち、方位角θと仰角φとを調整する。この調整によって、マイクロホンアレー１０から見た学習用音源であるスピーカ１５の方向が変わる。方位角θと仰角φの組合せの各々において、音源用コンピュータ１６は、予め決められた計測時間（例えば、３０秒間）ずつ、マイクロホンアレー１０から出力された複数チャンネルの音響信号を受信して記録する。ここで、音源方向は、方位角θと仰角φとの組合せとして定義される。音源方向は、方位角のみ、又は、仰角のみで定義されてもよい。

図７は、学習用コンピュータ１２によって取得された学習データのファイル構成の例を示す図である。図７に示されるように、学習データは、信号データ（「波形データ」とも言う。）と、ラベルデータとを有する。信号データは、予め決められた複数の方向のデータのうちの、各方向のデータ毎に保存される。

例えば、図７の信号データの『方向＃１の音響信号（長さ３０秒）、Ｓ_１［４８００００，８］』は、「方向＃１」（すなわち、第１の方向）について３０秒間の測定で得られた音響信号であり、４８００００サンプル、８チャンネルであることを示す。

ラベルデータは、方向を表すデータであり、方位角θと仰角φの組合せ（すなわち、ｔｕｐｌｅ）で定義される。例えば、図７のラベルデータの『方向＃１、（０，０）』は、「方向＃１」は、（θ，φ）＝（０，０）、すなわち、θ＝０度かつφ＝０度を満たす方向であることを示す。ラベルデータは、図１に示されるニューラルネットワーク４０の学習時における教師データとして用いられる。

図７は、学習用コンピュータ１２が、仰角φを０度に固定し、方位角θを０度から１０度刻みで３５０度まで変えて、各方位角θ（すなわち、「方位＃１」〜「方位＃３６」の各々）において３０秒間計測を行い、その結果、３６個の信号データＳ_１［４８００００，８］〜Ｓ_３６［４８００００，８］を取得した例を示している。なお、ニューラルネットワーク４０のパラメータＤ３を学習によって取得する際には、各方向の信号データのうちの、時間区間が５秒から１５秒までの区間の信号データが学習データとして使用され、時間区間が１５秒から２５秒の区間の信号データが検証データとして使用される。

〔ニューラルネットワーク４０の構成〕
次に、図１に示されるニューラルネットワーク４０の構成を説明する。図８は、実施の形態１におけるニューラルネットワーク４０の構成を示す図である。図８に示されるように、ニューラルネットワーク４０は、入力層５０と、変換網６０と、出力層７０とを有している。変換網６０は、第１の畳込層である「畳込層＃１」すなわち畳込層６１と、第２の畳込層である「畳込層＃２」すなわち畳込層６２と、第１の全結合層である「全結合層＃１」すなわち全結合層６３と、第２の全結合層である「全結合層＃２」すなわち全結合層６４と、平坦化層６５と、識別層６６とを有している。なお、図において、「＊」は、フレームを識別するための整数である。

〔入力層５０〕
図９は、図８に示される入力層５０の構成を示す図である。図９に示されるように、入力層５０は、複数フレームの入力データ（図１におけるＤ２）を受理し、入力データの値を内部のユニット（すなわち、入力ユニット）にコピーする。複数フレームのデータ配列Ｘ［５００，８］は、５００サンプル／チャンネルで８チャンネルの音響信号である。つまり、入力層５０は、入力データであるデータ配列Ｘ［５００，８］を、５００行８列の配列のデータとして保持する。入力層５０は、入力層５０の内部のユニットの値のコピーである、５００行８列のデータ配列Ｘ［５００，８］を出力データとして出力する。図９の例では、入力層５０は、フレームの長さ（すなわち、複数フレームのデータ配列Ｘ［５００，８］のサンプル数である５００サンプル）に複数チャンネルの音響信号のチャンネル数（すなわち、８チャンネル）を掛けることによって得られた値（すなわち、４０００）に等しい数の入力ユニットを有する。

〔畳込層＃１〕
図１０は、図８に示される変換網６０の「畳込層＃１」すなわち畳込層６１の構成を示す図である。「畳込層＃１」は、入力層５０から出力されたデータ配列Ｘ［５００，８］を受理し、データ配列Ｘ［５００，８］とカーネル係数Ｗ_Ｃ１［１００，８，３１］との畳込演算を行い、この畳込演算の結果にバイアスｂ_Ｃ１［１００］を加算し、この加算の結果に半整流演算を適用して、半整流演算の結果であるデータ配列Ｘ［４７０，１００］を出力する。カーネル係数は、記憶部８０にパラメータとして記憶されているフィルタ係数である。「畳込層＃１」の演算は、以下の式（１）及び（２）で示される。

式（１）及び（２）において、Ｃｏｎｖは、畳込演算を表し、Ｒｅｌｕは、半整流演算を表す。半整流演算は、データ配列の各要素（すなわち、各成分）の値を、値０と比較して、各要素の値又は値０のうちの大きいほうの値を返す非線形演算である。半整流演算は、以下の式（３）で示される。

式（３）の左辺のＲｅｌｕ（ｘ）は、半整流演算を表す。式（３）の右辺のｍａｘ（０，ｘ）は、０とｘの値とを比較して、大きい方の値を表す。

また、式（１）において、

は、ブロードキャスト加算する演算子を表す。ブロードキャスト加算は、被加算対象に加算対象を加算する際に（すなわち、被加算対象の配列の要素に加算対象の配列の要素を加算する際に）、被加算対象の配列と加算対象の配列とが不一致であり被加算対象の配列の要素の数が不足していれば、被加算対象の不足している要素に同じ値を加算する処理を繰返して行い、被加算対象の配列と加算対象の配列とを一致させた後に、被加算対象に加算対象を加算する演算である。

なお、式（１）及び（２）において、「４７０」は、４７０＝５００−３１＋１から得られた値であり。また、式（１）において、「３１」は、カーネルのサイズ（すなわち、フィルタ長）である。また、式（１）及び（２）において、「１００」は、カーネルの数（すなわち、フィルタ数）である。「３１」及び「１００」は、いずれも、ハイパーパラメータである。ハイパーパラメータは、学習によって調整されないパラメータである。

〔畳込層＃２〕
図１１は、図８に示される変換網６０の「畳込層＃２」すなわち畳込層６２の構成を示す図である。「畳込層＃２」は、「畳込層＃１」から出力されたデータ配列Ｘ［４７０，１００］を受理し、データ配列Ｘ［４７０，１００］とカーネル係数Ｗ_Ｃ２［５０，１００，３１］との畳込演算を行い、この畳込演算の結果にバイアスｂ_Ｃ２［５０］を加算し、この加算の結果に半整流演算を適用して、半整流演算の結果であるデータ配列Ｘ［４４０，５０］を出力する。「畳込層＃２」の演算は、以下の式（４）及び（５）で示される。

式（４）及び（５）における「４４０」は、４４０＝４７０−３１＋１から得られた値である。また、式（４）において、「３１」は、カーネルのサイズ（すなわち、フィルタ長）である。また、式（４）及び（５）において、「５０」は、カーネルの数（すなわち、フィルタ数）である。

〔全結合層＃１〕
図１２は、図８に示される変換網６０の「全結合層＃１」すなわち全結合層６３の構成を示す図である。「全結合層＃１」は、「畳込層＃２」から出力されたデータ配列Ｘ［４４０，５０］に対し、重み係数Ｗ_Ｆ１［５０，２５６］を乗算し、この乗算の結果にバイアスｂ_Ｆ１［２５６］を加算し、この加算の結果に半整流演算を適用して、半整流演算の結果であるデータ配列Ｘ［４４０，２５６］を出力する。「全結合層＃１」の演算は、以下の式（６）で示される。

式（６）において、Ｐｒｏｄは、データ配列同士の乗算を示す演算を表す。また、式（６）において、

は、ブロードキャスト加算の演算子を表す。なお、式（６）において、「２５６」は、重み係数の数であり、ハイパーパラメータである。

〔全結合層＃２〕
図１３は、図８に示される変換網６０の「全結合層＃２」すなわち全結合層６４の構成を示す図である。「全結合層＃２」は、「全結合層＃１」から出力されたデータ配列Ｘ［４４０，２５６］に対し、重み係数Ｗ_Ｆ２［２５６，１２８］を乗算し、この乗算の結果にバイアスｂ_Ｆ２［１２８］を加算し、この加算の結果に半整流演算を適用して、半整流演算の結果であるデータ配列Ｘ［４４０，１２８］を出力する。「全結合層＃２」の演算は、以下の式（７）で示される。

式（７）におけるＰｒｏｄ及びブロードキャスト加算の意味は、式（６）の記号の意味と同じである。また、式（７）において、「１２８」は、重み係数の数であり、ハイパーパラメータである。

〔平坦化層〕
図１４は、図８に示される変換網６０の平坦化層６５の構成を示す図である。平坦化層６５は、「全結合層＃２」から出力されたデータ配列Ｘ［４４０，１２８］を受理し、受理されたデータ配列Ｘ［４４０，１２８］の次元数を１次元にする縮小を行い（すなわち、２次元のデータ配列を１次元のデータ配列であるベクトルに変換する平坦化を行い）、データ配列Ｘ［５６３２０］を出力する。平坦化層６５の演算は、以下の式（８）で示される。

式（８）において、Ｆｌａｔｔｅｎは、平坦化演算を表す。なお、式（８）において、「５６３２０」は、５６３２０＝４４０×１２８から得られた値である。

〔識別層〕
図１５は、図８に示される変換網６０の識別層６６の構成を示す図である。識別層６６は、平坦化層６５から出力されたデータ配列Ｘ［５６３２０］を受理し、受理されたデータ配列Ｘ［５６３２０］に重み係数Ｗ_ｏｕｔ［５６３２０，３６］を乗算し、この乗算の結果にバイアスｂ_ｏｕｔ［３６］を加算し、この加算の結果にソフトマックス演算を適用して、ソフトマックス演算の結果であるデータ配列Ｘ［３６］を出力する。識別層６６の演算は、以下の式（９）及び（１０）で示される。

式（１０）において、Ｓｏｆｔｍａｘは、ソフトマックス演算を表す。ソフトマックス演算は、データ配列の全要素に指数関数を適用し、それらの和で各値を正規化した結果を得る演算である。この演算は、以下の式（１１）で示される。

式（１１）において、ｉは、データ配列Ｘ［ｉ］のインデックス、Σは、インデックスｉに関するｅｘｐ（Ｘ［ｉ］）の総和を表す。

一般に、ソフトマックスの演算結果のデータ配列の要素は、その要素のインデックスに紐づけられた事象の出現確率を与えるものとして扱われる。本出願において、ソフトマックスの演算は、同様に扱われる。なお、式（９）及び（１０）において、「３６」は、重み係数の数である。また、「３６」は、識別する対象の数（クラス数）でもある。

〔出力層〕
図１６は、図８に示される出力層７０の構成を示す図である。出力層７０は、識別層６６から出力されたデータ配列Ｘ［３６］を保持する内部のユニット（すなわち、出力データの値を保持する出力ユニット）を持ち、出力層７０の出力配列として識別結果のデータ配列Ｙ［３６］を出力する。

〔ニューラルネットワークの学習〕
次に、ニューラルネットワーク４０の学習について説明する。図１７は、図８に示されるニューラルネットワーク４０のパラメータの学習プロセスを示す図である。図１７に示される処理は、ＣＰＵ、メモリ、ストレージ、及びＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）ボードを搭載した学習用コンピュータ（例えば、図５に示される学習用コンピュータ１２）で実行される。

学習用コンピュータには、深層学習のソフトウェアライブラリが備えられ、このソフトウェアライブラリ上には、学習プログラムが組み込まれている。学習用コンピュータには、入力データ系列Ｘ［＊，５００，８］と教師データ系列Ｙ［＊，３６］とからなる学習データが与えられ、学習用コンピュータにおいて学習プログラムが実行される。学習用コンピュータでは、学習データから取得されたバッチサイズのデータに対し、ニューラルネットワークを通して順伝播の出力データ系列Ｙ_ｏｕｔ［＊，３６］が計算される。

次に、順伝播の出力データ系列Ｙ_ｏｕｔ［＊，３６］と教師データ系列Ｙ［＊，３６］とのクロスエントロピー誤差が計算され、このクロスエントロピー誤差に出力ユニット間の制約Ｃ［１］が加算され、この加算の結果から損失が計算される。学習用コンピュータは、損失が小さくなる方向に、誤差逆伝播（すなわち、バックプロパゲーション）を行うことにより、パラメータを更新する。すべてのバッチデータに対して、誤差逆伝播によるパラメータの更新を繰り返すことで、学習データ全体に対するパラメータの更新が行われる。学習データの全体に対する更新処理を１つのエポックとすると、学習用コンピュータは、パラメータの更新をエポックの数に等しい回数繰り返し、最終的なパラメータが決定される。学習用コンピュータは、例えば、パラメータの確率的な更新アルゴリズムとして、公知のＡｄａｍ（ＡｄａｐｔｉｖｅＭｏｍｅｎｔＥｓｔｉｍａｔｉｏｎ）を用い、バッチサイズを３２、学習係数を０．０００１とし、２０エポック連続して損失の減少がなくなるまで、エポックを繰り返す。

図１８は、図８に示されるニューラルネットワーク４０のパラメータの学習プロセスを示すフローチャートである。まず、学習用コンピュータには、入力データ系列と教師データ系列とからなる学習データが与えられる。その後、学習用コンピュータは、学習プログラムを実行する。

ステップＳＴ１００１において、学習用コンピュータは、取得した学習データから、入力データ系列と教師データ系列を作成する。
ステップＳＴ１００２において、学習用コンピュータは、入力データ系列と教師データ系列の系列順をランダムに並び替える。
ステップＳＴ１００３において、学習用コンピュータは、並び替えられた入力データ系列と並び替えられた教師データ系列とからバッチデータを作成する。
ステップＳＴ１００４において、学習用コンピュータは、バッチデータ内の入力データをニューラルネットワークの入力層に入力し順伝播させる。
ステップＳＴ１００５において、学習用コンピュータは、ニューラルネットワークの出力層に得られる出力データ系列とバッチデータ内の教師データ系列との間のクロスエントロピー誤差を計算する。
ステップＳＴ１００６において、学習用コンピュータは、上記クロスエントロピー誤差に出力ユニット間の制約を加えることで、損失を計算する。
ステップＳＴ１００７において、学習用コンピュータは、上記損失が小さくなるようにパラメータを更新する。
ステップＳＴ１００８において、学習用コンピュータは、学習データ全体にわたりパラメータの更新が終了したら、次のエポックに進む。
ステップＳＴ１００９において、学習用コンピュータは、エポック毎に計算した上記損失の平均値がエポックに関して所定の回数、連続して減少しなくなったら、学習を終了する。

〔学習データの作成〕
次に、学習データの作成について説明する。図１９は、入力データ系列と教師データ系列の作成プロセスを示す図である。入力データ系列は、図６に示される信号データから作成される。まず、学習用コンピュータは、「方向＃１」の音響信号（長さ３０秒）の中から、時間区間が５秒から１５秒の間の１０秒間の区間のデータＳ_１［１６００００，８］を抽出する。ここで、「１６００００」はサンプル数、「８」はチャンネル数を示す。

次に、学習用コンピュータは、１０秒間の１６００００サンプルの信号データを５００サンプルずつのフレームに分割し、３２０個のフレームからなる入力データＸ_１［３２０，５００，８］を作成する。ここで、「３２０」はフレーム数、「５００」は、サンプル数、「８」はチャンネル数を示す。

同様に、学習用コンピュータは、「方向＃２」から「方向＃３６」のそれぞれの音響信号からも、時間区間が５秒から１５秒の間の１０秒間の区間の入力データＳ_２［１６００００，８］〜Ｓ_３６［１６００００，８］の各々に対して、フレーム分割を行い、３２０個のフレームからなる入力データＸ_２［３２０，５００，８］〜Ｘ_３６［３２０，５００，８］を作成する。

最後に、学習用コンピュータは、フレーム分割された入力データ配列Ｘ_１［３２０，５００，８］〜Ｘ_３６［３２０，５００，８］を連結することによって、入力データ系列Ｘ［１１５２０，５００，８］を作成する。ここで、「１１５２０」は、１１５２０＝３２０×３６で得られた値である。

教師データ系列も、図６に示される信号データと紐づけられたラベルデータから作成される。まず、学習用コンピュータは、「方向＃１」のラベルに対して、「方向＃１」の入力データのフレーム数である３２０個だけ、３６次元のＯｎｅ−Ｈｏｔベクトルを並べて、教師データＹ_１［３２０，３６］を作成する。

同様に、学習用コンピュータは、「方向＃２」から「方向＃３６」のラベルに対して、「方向＃２」から「方向＃３６」の入力データのフレーム数である３２０個だけ、３６次元のＯｎｅ−Ｈｏｔベクトルを並べて、教師データＹ_２［３２０，３６］からＹ_３６［３２０，３６］を作成する。

最後に、学習用コンピュータは、「方向＃１」から「方向＃３６」の教師データを連結することによって、教師データ系列Ｙ［１１５２０，３６］を作成する。

ここで、「３６」は、推定結果となり得る音源方向の数であり、ラベルの種類の数に等しい。また、Ｏｎｅ−Ｈｏｔベクトルは、ラベルに対応する次元の要素が１で、残りの全要素が０であるベクトルである。例えば、「方向＃１」のＯｎｅ−Ｈｏｔベクトルは、最初の次元の要素が１であり、残りの全要素が０である、３６次元のベクトルである。

〔バッチデータの作成〕
次に、パラメータを更新する単位であるバッチデータの作成について説明する。図２０は、バッチデータの作成プロセスを示す図である。バッチデータは、互いに紐づけられた入力データ系列と教師データ系列とから作成される。まず、学習用コンピュータは、エポック毎に、入力データ系列と教師データ系列をシャフルする。ここで、シャフルは、入力データ系列におけるインデックスの並び順をランダムに並び替えること、教師データ系列におけるインデックスの並び順をランダムに並べ変えることを意味する。すなわち、学習用コンピュータは、入力データ系列Ｘ［１１５２０，５００，８］及び入力データ系列Ｙ［１１５２０，３６］の第１次元の１１５２０個のインデックスを並べ替えて、並べ替えられた後の１１５２０個のインデックスに置き換える。以上の計算は、以下の式（１２）から（１４）で示される。

式（１２）において、Ｐｅｒｍ（１１５２０）は、長さ１１５２０のインデックスの配列において、インデックスをランダムに並べ替えた後のインデックスの配列である。

次に、図２０に示されるように、学習用コンピュータは、シャフルされた入力データ系列と教師データ系列とを、バッチサイズが３２である部分系列に分割する。バッチ分割の結果、３６０個のバッチデータ、すなわち、バッチデータ＃１〜＃３６０が作成される。ここで、「３２」は、バッチサイズであり、ハイパーパラメータである。また、「３６０」は、３６０＝１１５２０／３２から得られた値である。作成されたバッチデータは、図１７に示されるニューラルネットワークにおける学習プロセスに用いられる。

〔出力ユニット間の制約〕
次に、図１７に示される損失の計算において、クロスエントロピー誤差に加算される出力ユニット間の制約Ｃ［１］について説明する。図２１は、出力ユニット間の制約を示す説明図である。学習用コンピュータは、ニューラルネットワークから出力される出力データ系列Ｙ［＊，３６］の要素の自己相関行列に対して近接行列Ｗ_{ｐｒｏｘｉｍｉｔｙ}を掛ける計算を行い、この計算の結果の総和をとる計算を行い、この計算の結果である総和を出力ユニット間の制約Ｃ［１］として出力する。以上の処理は、以下の式（１５）から（１８）で示される。

式（１５）において、Ｙ_ｋ[３６]は出力データ系列Ｙ［＊，３６］中の系列インデックスｋが示す位置にある行ベクトル（すなわち、行ベクトルを列ベクトルに変換したベクトル）を表す。また、Ｄｏｔは、ベクトル間の外積を表す。また、式（１６）において、

は、アダマール積（すなわち、当該演算子を囲む左側の行列と右側の行列の間の要素ごとの積）を表す。

式（１７）において、Ｓｕｍは、データ配列の要素の総和を表す。式（１８）において、Σ_ｋは、系列インデックスｋに関する総和を表す。Ｗ_ｐは、制約に対する重み係数を表す。Ｗ_ｐは、ハイパーパラメータであり、例えば、０．６に設定される。

上記演算で得られる配列Ａ_ｋ［３６，３６］は、３６次元の出力データの次元間の相関を表す。ｉとｊを正の整数としたとき、ｉとｊを成分とするＡ_ｋ［ｉ，ｊ］は、Ｙ_ｋ［ｉ］とＹ_ｋ［ｊ］の積を表す。Ｗ_{ｐｒｏｘｉｍｉｔｙ}［ｉ，ｊ］は、ｉとｊが近接している方向であるとき、大きい値をとるように設定された近接度を表す近接重み係数行列である。近接重み係数行列は、事前に計算される。近接重み係数行列Ｗ_{ｐｒｏｘｉｍｉｔｙ}［ｉ，ｊ］は、以下の式（１９）及び（２０）で計算される。

式（１９）及び（２０）において、Ｐ［ｉ］は、「方向＃ｉ」にある距離１ｍの点の３次元ユークリッド空間上の座標を表す。θ_ｉは、「方向＃ｉ」の方位角θを表す。φ_ｉは、「方向＃ｉ」の仰角φを表す。また、ｃｏｓ、ｓｉｎ、ｅｘｐは、それぞれ余弦関数、正弦関数、指数関数を表す。また、σ_{ｐｒｏｘｉｍｉｔｙ}は、「方向＃ｉ」と「方向＃ｊ」の空間座標が離れる時の近接重み係数の減少度合を制御するパラメータを表す。σ_{ｐｒｏｘｉｍｉｔｙ}の値が小さいほど、距離に対する近接重み係数の減少度合が増大する。σ_{ｐｒｏｘｉｍｉｔｙ}の値は、ハイパーパラメータであり、例えば、０．２５に設定される。なお、上式のｅｘｐ関数内の負号により、「方向＃ｉ」と「方向＃ｊ」の空間座標がユークリッド空間で近いほど、Ｗ_{ｐｒｏｘｉｍｉｔｙ}［ｉ，ｊ］の値が大きくなる。このようにすれば、記憶部８０に記憶されるパラメータＤ３は、複数の出力ユニットのうちの２つの出力ユニットの間の出力の近接度が、これら２つの出力ユニットに対応付けられた音源の方向の間の近接度と符合する方向になるように更新される。

次に、学習されたニューラルネットワークを用いた音源方向の推定プロセスを説明する。図２２は、実施の形態１に係る音源方向推定装置１００による音源方向の推定プロセスを示すフローチャートである。まず、受信部２０は、マイクロホンアレー１０から出力された複数チャンネルの音響信号を受信する（ＳＴ２００１）。
次に、フレーム分割部３０は、受信した複数チャンネルの音響信号を複数のフレームに分割し（ＳＴ２００２）、分割によって得られた複数のフレームの音響信号をニューラルネットワーク４０の入力層５０に入力する（ＳＴ２００３）。
次に、ニューラルネットワーク４０は、入力層５０に入力された複数のフレームの音響信号に対して、入力層５０から変換網６０を介して出力層７０まで順伝播させる処理を行い、出力層７０から音源方向の識別の結果を出力する（ＳＴ２００４、ＳＴ２００５）。
次に、表示部９０は、出力層７０において得られる識別の結果を受け取り、識別の結果を表示する。

図２３は、表示部９０における表示の例を示す図である。図２３において、左のグラフは、出力層７０の３６次元の出力値、すなわち、データ配列Ｘ［３６］に、音響信号の強度を掛けて得られるスコアの時間変化を示す。図２３において、右の円形のグラフは、左のグラフの縦線で示される各時間のスコアを３６方向の極座標に表示したものである。円形のグラフは、６．５秒付近で、右奥方向の付近に音源があることを示している。

以上に説明したように、実施の形態１に係る音源方向推定装置１００、音源方向推定方向、又は音源方向推定プログラムを用いれば、互いに異なる位置に配置された複数のマイクロホンを有するマイクロホンアレー１０から出力された複数チャンネルの音響信号Ｄ１による音源方向の推定を、既知の音源方向から放射された音を受音するマイクロホンアレー１０から出力された音響信号に基づく学習データから得られたパラメータＤ３を用いて、行うことができる。このように、実施の形態１では、パラメータＤ３は、学習により自動的に調整することが可能である。

また、実施の形態１においては、パラメータＤ３は、マイクロホンアレー１０の任意の形態に対して適用可能である。すなわち、複数のマイクロホンの空間の配置、複数のマイクロホンを支えるための筐体の構造、又はこれらの両方がどのような形態であっても、パラメータＤ３を自動的に調整することが可能である。

さらに、実施の形態１においては、従来技術のようにステアリングベクトルを求めるための設備は不要であり、既知の方向の学習用音源を用いたシステムによって得られた学習データから、音源方向の推定に必要なパラメータＤ３を設計することができる。つまり、複数のマイクロホンの空間配置が不明であっても、低コストで音源方向を推定することができる。

実施の形態２．
〔入力ゲート層を設ける〕
図２４は、実施の形態２に係る音源方向推定装置のニューラルネットワーク４０ａの構成を示す図である。図２４において、図８に示される構成と同一又は対応する構成には、図８に示される符号と同じ符号が付されている。ニューラルネットワーク４０ａは、変換網６０ａの構成の点に関して、実施の形態１におけるニューラルネットワーク４０と異なる。ニューラルネットワーク４０ａの構成以外に関して、実施の形態２は、実施の形態１と同じである。

実施の形態２における変換網６０ａは、「畳込層＃１ａ」、「畳込層＃１ｂ」、「Ｓｉｇｍｏｉｄ層＃１」、「Ｔａｎｈ層＃１」、「ゲート層＃１」、「加算層＃１」、「畳込層＃２ａ」、「畳込層＃２ｂ」、「Ｓｉｇｍｏｉｄ層＃２」、「Ｔａｎｈ層＃２」、「ゲート層＃２」、及び「加算層＃２」を備えている点に関して、実施の形態１における変換網６０と異なる。「畳込層＃１ａ」と「畳込層＃１ｂ」の各々は、「畳込層＃１」と同じ構成を有する。「畳込層＃２ａ」と「畳込層＃２ｂ」の各々は、「畳込層＃２」と同じ構成を有する。「Ｓｉｇｍｏｉｄ層＃１」と「Ｓｉｇｍｏｉｄ層＃２」は、活性化関数であるＳｉｇｍｏｉｄ関数を用いた変換を行う。「Ｔａｎｈ層＃１」と「Ｔａｎｈ層＃２」は、活性化関数であるＴａｎｈ関数を用いた変換を行う。

「ゲート層＃１」は、ゲート信号として、「畳込層＃１ａ」と「Ｓｉｇｍｏｉｄ層＃１」のタンデム接続出力と、「畳込層＃１ｂ」と「Ｔａｎｈ層＃１」のタンデム接続出力と、を受理する。

同様に、「ゲート層＃２」は、「畳込層＃２ａ」と「Ｓｉｇｍｏｉｄ層＃２」のタンデム接続出力と、「畳込層＃２ｂ」と「Ｔａｎｈ層＃２」のタンデム接続出力と、を受理する。

「畳込層＃１」の出力と「ゲート層＃１」の出力とは、「加算層＃１」で加算される。同様に、「畳込層＃２」の出力と「ゲート層＃２」の出力とは、「加算層＃２」で加算される。

「ゲート層＃１」と「ゲート層＃２」の各々は、入力信号の大きさ（すなわち、強度）に応じて、入力を制御するゲート機能を果たす。したがって、実施の形態２に係る音源方向推定装置、音源方向推定方向、又は音源方向推定プログラムを用いれば、入力信号の大きさに依存しない音源方向の推定を行うことができる。

実施の形態３．
〔複数の音源方向を推定〕
図２５は、実施の形態３に係る音源方向推定装置のニューラルネットワーク４０ｂの構成を示す図である。図２５において、図８に示される構成と同一又は対応する構成には、図８に示される符号と同じ符号が付されている。ニューラルネットワーク４０ｂは、変換網６０ｂの構成の点に関して、実施の形態１におけるニューラルネットワーク４０と異なる。ニューラルネットワーク４０ｂの構成以外に関して、実施の形態３は、実施の形態１と同じである。

実施の形態３に係る音源方向推定装置のニューラルネットワーク４０ｂは、同時に鳴動する１つ以上の音源（ここでは、１個から３個までの音源）の方向を推定することを可能にする構成を有している。入力データ系列Ｘ［＊，５００，８］は、実施の形態１及び２におけるものと同じである。また、出力データ系列Ｙ_ｏｕｔ［＊，１０８］は、最大３個の音源方向を識別できるように、１０８次元の配列である。なお、「１０８」は、３６×３で得られた値である。また、「３」は、同時に検出可能な音源方向の数の最大数である。

ニューラルネットワーク４０ｂの「方向識別層＃１」、「方向識別層＃２」、「方向識別層＃３」は、それぞれ、独立したパラメータを有する音源方向の識別層である。「方向識別層＃１」、「方向識別層＃２」、「方向識別層＃３」は、最終的に、Ｓｏｆｔｍａｘ演算により、３６方向の確率を表す３６次元の配列を出力する。

音源数識別層は、入力層５０からのデータを受け取り、最終的に、Ｓｏｆｔｍａｘ演算を経て、音源数の推定結果を３次元配列として出力する。この３次元配列の、１次元目は、音源数が１である確率Ｐ（音源数＝１）を表し、２次元目は、音源数が２である確率Ｐ（音源数＝２）を表し、３次元目は、音源数が３である確率Ｐ（音源数＝３）を表す。確率Ｐ（音源数＝３）は、「ゲート層＃３」に入力される。確率Ｐ（音源数＝２）は、確率Ｐ（音源数＝３）が加算されることで、音源数が２以上である確率Ｐ（音源数≧２）に変換され、この確率Ｐ（音源数≧２）は、「ゲート層＃２」に入力される。確率Ｐ（音源数＝１）は、確率Ｐ（音源数＝３）と確率Ｐ（音源数＝２）が加算されることで、音源数が１以上である確率Ｐ（音源数≧１）に変換され、この確率Ｐ（音源数≧１）は、「ゲート層＃１」に入力される。

「方向識別層＃１」の出力は、「ゲート層＃１」によって制御されて連結層に与えられる。「方向識別層＃２」の出力は、「ゲート層＃２」によって制御されて連結層に与えられる。「方向識別層＃３」の出力は、「ゲート層＃３」によって制御されて連結層に与えられる。連結層は、各３６次元のベクトルを連結して１０８次元のベクトルに変換し、変換後のベクトルを出力層７０に出力する。

図２６は、実施の形態３における入力データ系列と教師データ系列の作成プロセスを示す図である。図２６は、例えば、「方向＃１」、「方向＃２」、「方向＃３」で、同時に鳴動する複数方向の音源が存在する場合における学習データの作成方法を示している。「利得＃１」、「利得＃２」、「利得＃３」は、それぞれ、「方向＃１」、「方向＃２」、「方向＃３」の音源から出力される音の大きさを調整するためのハイパーパラメータである。

入力データ系列Ｘ［＊，５００，８］は、「方向＃１」、「方向＃２」、「方向＃３」の各方向の音響信号に「利得＃１」、「利得＃２」、「利得＃３」をそれぞれ乗算し、乗算の結果を加算し、この加算の結果をフレーム分割することによって、作成される。

教師データ系列Ｙ［＊，１０８］は、「方向＃１」、「方向＃２」、「方向＃３」のＯｎｅ−Ｈｏｔ符号化したベクトルに、入力データ系列の作成で用いたものと同じ「利得＃１」、「利得＃２」、「利得＃３」をそれぞれ乗算し、乗算の結果得られたベクトルを連結し、この連結によって得られたベクトルの要素の総和を１とする正規化を行うことによって、作成される。

以上に説明したように、実施の形態３に係る音源方向推定装置、音源方向推定方向、又は音源方向推定プログラムを用いれば、同時に鳴動する複数の音源の方向を推定することができる。

実施の形態４．
〔方位角θと仰角φの同時識別〕
次に、学習データの作成プロセスの他の例を説明する。図１９では、教師データ系列は、方位角θとして「方向＃１」〜「方向＃３６」の教師データから教師データ系列を作成した。これに対し、実施の形態４では、方位角θとして１０度間隔の３６種類の角度、仰角φとして１５度間隔の６種類の角度の教師データから教師データ系列を作成している。学習データの作成プロセス以外に関して、実施の形態４は、実施の形態１と同じである。

図２７は、実施の形態４における入力データ系列と教師データ系列の作成プロセスを示す図である。図２７は、方位角θと仰角φとを同時に識別するための学習データの生成方法を示している。ここでは、音源方向は、方位角θと仰角φとの組合せ（θ，φ）として与えられる。また、ｎ（ｎは正の整数）番目の音源方向の方位角θｎと仰角φｎの組合せは、（θｎ，φｎ）で表記される。（θｎ，φｎ）は、以下の式（２１）及び（２２）で与えられる。

ここで、ｎは、音源方向を識別する番号、θｎは、「方向＃ｎ」の方位角、φｎは、「方向＃ｎ」の仰角を表す。また、ｉｎｔは、整数化演算、ｍｏｄは、剰余演算を表す。

実施の形態４では、方位角θは、０度から３５０度を１０度刻みで３６通りに設定される。仰角φは、０度から７５度を１５度刻みで６通りに設定される。この結果、識別する方向の数は、２１６（＝３６×６）通りとなる。例えば、「方向＃１」では、（θ１，φ１）＝（０，０）であり、「方向＃２」では、（θ２，φ２）＝（１０，０）であり、「方向＃２１６」では、（θ２１６，φ２１６）＝（３５０，７５）である。

以上の学習データを用いて音源方向を推定する音源方向推定装置のニューラルネットワークの構成は、実施の形態１から３におけるものと同様である。ただし、実施の形態１から３においては、ニューラルネットワークの識別層の次元数は「３６」であったが、実施の形態４ではニューラルネットワークの識別層の次元数は「２１６」である。

実施の形態４に係る音源方向推定装置、音源方向推定方向、又は音源方向推定プログラムを用いれば、音源の方位角θと仰角φとの組合せ（θ，φ）を推定することができる。

実施の形態５．
〔取得した学習データから仰角φを無視したデータの生成〕
上記実施の形態４では、学習データは、方位角θと仰角φを指定されて取得され、音源方向の識別層は、方位角θと仰角φを識別する例を説明した。しかし、実際には、仰角φの識別は不要である場合が多い。実施の形態５では、学習データは、方位角θと仰角φを指定されて取得されるが、音源方向の識別層は、方位角θだけを識別する例を説明する。識別層の処理以外に関して、実施の形態５は、実施の形態４と同じである。

図２８は、実施の形態５における入力データ系列と教師データ系列の作成プロセスを示す図である。取得した学習データは、方位角θと仰角φの組合せとして、２１６通りの方向がある。入力データ系列は、図２７の場合と同様に作成される。一方、教師データ系列は、ラベルデータの仰角φを無視した３６次元のＯｎｅ−Ｈｏｔベクトルが作成されこれが連結されたものである。

以上の学習データを用いて音源方向を推定する音源方向推定装置のニューラルネットワークの構成は、実施の形態１から３におけるものと同様である。また、実施の形態４においては、ニューラルネットワークの識別層の次元数は「２１６」であったが、実施の形態５においては、ニューラルネットワークの識別層の次元数は、実施の形態１から４の場合と同様に、「３６」である。

実施の形態５に係る音源方向推定装置、音源方向推定方向、又は音源方向推定プログラムを用いれば、音源の方位角θを推定することができる。

実施の形態６．
〔取得した学習データから利得を変えたデータの生成〕
実施の形態６では、音源から出力される音の大きさの変化に頑健（ｒｏｂｕｓｔ）な音源方向推定装置を説明する。実施の形態６は、パラメータＤ３の作成に使用される入力データ系列及び教師データ系列の元になる学習データとして、利得を用いて拡張された拡張学習データを用いる点が、実施の形態１から５と異なる。この点以外に関して、実施の形態６は、実施の形態１から５のいずれかと同じである。

図２９は、実施の形態６における学習データの作成方法を示す図である。実施の形態６では、取得された原本の学習データから、拡張学習データが作成される。このため、原本の学習データの信号データに対して、利得リスト［ｇ１，ｇ２，…，ｇｎ］中の各利得ｇ１，ｇ２，…，ｇｎのいずれかを乗算し、乗算の結果である信号データを作成し、作成された信号データを用いて、拡張学習データを作成する。同時に、ラベルデータに対しては、上記利得リストの中の利得の数だけ、コピーを作成し、拡張学習データのラベルデータとする。この拡張学習データを用いて、ニューラルネットワークにおける学習を行う。なお、上記の利得のリストは、学習のバッチごとに乱数に基づいて生成されてもよい。

以上の学習データを用いて音源方向を推定する音源方向推定装置のニューラルネットワークの構成は、実施の形態１から５におけるものと同様である。

また、実施の形態６に係る音源方向推定装置、音源方向推定方向、又は音源方向推定プログラムを用いれば、音源の大きさの変化に頑健な音源方向の推定が可能になる。

実施の形態７．
〔取得した学習データから、雑音を重畳したデータの生成〕
実施の形態７では、音源から出力される音以外の背景雑音の影響に頑健な音源方向推定装置を説明する。実施の形態７は、パラメータＤ３の作成に使用される入力データ系列及び教師データ系列の元になる学習データとして、背景雑音の傾斜及び利得を用いて拡張された拡張学習データを用いる点が、実施の形態１から６と異なる。この点以外に関して、実施の形態７は、実施の形態１から６のいずれかと同じである。

図３０は、実施の形態７における学習データの作成方法を示す図である。実施の形態７では、取得された原本の学習データから、拡張学習データが作成される。このため、原本の学習データの信号データに対して、雑音の傾斜及び利得のリスト内に記載された利得ｇ１〜ｇｎと傾斜ｅ１〜ｅｎとの組合せである

に応じた雑音を生成し、重畳し、拡張学習データ中の信号データを得る。同時に、ラベルデータに対して、上記リスト中の要素の数だけ、コピーを作成し、拡張学習データのラベルデータとする。なお、上記雑音の傾斜及び利得リストは、学習のバッチごとに乱数に基づいて生成されてもよい。

以上の学習データを用いて音源方向を推定する音源方向推定装置のニューラルネットワークの構成は、実施の形態１から６におけるものと同様である。

実施の形態７に係る音源方向推定装置、音源方向推定方向、又は音源方向推定プログラムを用いれば、背景雑音の影響に頑健な音源方向の推定が可能になる。

実施の形態８．
〔取得した学習データから、フィルタを掛けたデータの生成〕
実施の形態８では、音源の周波数特性の変化に頑健な音源方向推定装置を説明する。実施の形態８は、パラメータＤ３の作成に使用される入力データ系列及び教師データ系列の元になる学習データとして、中心周波数と帯域幅の変化に応じて拡張された拡張学習データを用いる点が、実施の形態１から７と異なる。この点以外に関して、実施の形態８は、実施の形態１から７のいずれかと同じである。

図３１は、実施の形態８における学習データの作成方法を示す図である。実施の形態８では、取得された原本の学習データから、拡張学習データを作成する。このため、原本の学習データの信号データに対して、デジタルフィルタの中心周波数及び帯域幅のリスト内に記載された中心周波数ｆ１〜ｆｎと帯域幅ｂ１〜ｂｎとの組合せである

に応じて、デジタルフィルタ（ここでは、帯域フィルタ）を通し、拡張学習データ中の信号データを得る。同時に、ラベルデータに対して、上記リスト中の要素の数だけ、コピーを作成し、拡張学習データのラベルデータとする。なお、上記デジタルフィルタの中心周波数及び帯域幅のリストは、学習のバッチごとに乱数に基づいて生成されてもよい。

以上の学習データを用いて音源方向を推定する音源方向推定装置のニューラルネットワークの構成は、実施の形態１から７におけるものと同様である。

実施の形態８に係る音源方向推定装置、音源方向推定方向、又は音源方向推定プログラムを用いれば、音源の周波数特性の変化に頑健な音源方向の推定が可能になる。

実施の形態９．
〔取得した学習データから、チャンネル間の遅延時間をずらしたデータの生成〕
同一製品のマイクロホンアレーは、互いに同じ仕様で製造されている。しかし、同一製品のマイクロホンアレー間には、製造バラツキによる性能の違いがある。例えば、各マイクロホンの特性のバラツキ、各マイクロホンの取り付け位置のバラツキ、又はこれらの両方によって、音源から音波が放射された時点から音波を受音した各マイクロホンで受音信号が生成される時点までの時間にバラツキが生じ、音源方向の推定に影響を与える。実施の形態９では、製品毎のバラツキに頑健な音源方向推定装置を説明する。実施の形態９は、パラメータＤ３の作成に使用される入力データ系列及び教師データ系列の元になる学習データとして、製品毎のバラツキに応じて拡張された拡張学習データを用いる点が、実施の形態１から８と異なる。この点以外に関して、実施の形態９は、実施の形態１から８のいずれかと同じである。

図３２は、実施の形態９における学習データの作成方法を示す図である。実施の形態９では、取得された原本の学習データから、拡張学習データを作成するために、原本の学習データの信号データに対して、各チャンネルｃｈ１〜ｃｈ８の遅延量のリスト

を用意する。ここで、［１］から［ｎ］は、リストごとの識別番号であり、ｎは、リストの長さを示す。

拡張学習データを用意するためには、各チャンネルｃｈ１〜ｃｈ８の遅延量ｄ１〜ｄ８に応じて、各チャンネルｃｈ１〜ｃｈ８の信号を遅延させるデジタルフィルタ、すなわち、「遅延層＃１」〜「遅延層＃８」を通し遅延させて、「遅延層＃１」〜「遅延層＃８」の出力を整形したデータを、拡張学習データ中の信号データとして得る。同時に、ラベルデータに対して、上記リスト中の要素の数だけ、コピーを作成し、拡張学習データのラベルデータとする。なお、上記遅延量のリストは、学習のバッチごとに乱数に基づいて生成されてもよい。

以上の学習データを用いて音源方向を推定する音源方向推定装置のニューラルネットワークの構成は、実施の形態１から８におけるものと同様である。

実施の形態９に係る音源方向推定装置、音源方向推定方向、又は音源方向推定プログラムを用いれば、製品の特性バラツキに頑健な音源方向の推定が可能になる。なお、実施の形態７〜９で述べたデータ拡張（つまり、学習データを拡張する手法）を、互いに組み合わせて適用してもよい。この場合、組み合わせた種類のデータ拡張に対応した頑健な音源方向の推定が可能になる。

実施の形態１０．
〔生の複数チャンネルの信号を変換したデータからの音源方向の推定〕
複数のマイクロホンを有する電気機器（以下「マイクロホン製品」と言う。）の中には、これら複数のマイクロホンで生成された受音信号間で、加減算などの信号処理を行い、加工されたオーディオ信号を出力するものがある。実施の形態１０では、元の受音信号が加工された信号を出力するマイクロホン製品から出力されたオーディオ信号から、このマイクロホン製品の内部の信号処理過程を知ることができない場合であっても、音源方向の推定を行うことのできる音源方向推定装置を提供する。つまり、実施の形態１０では、マイクロホン製品における音響信号の加工処理部が処理内容のわからないブラックボックスであっても、音源方向の推定を可能にできる方法を提供する。

図３３は、実施の形態１０における学習データの取得時に使用される学習システムの構成を示す図である。図３３において、図５に示される構成と同一又は対応する構成には、図５に示される符号と同じ符号が付されている。

図３４は、複数のマイクロホンを有するマイクロホン製品の内部で行われる、複数の受音信号から加工信号を生成する処理を示す説明図である。マイクロホン製品の内部で行われる、複数の受音信号から加工信号を生成する処理は、非公開のものであってもよい。非公開のものとは、加工信号を生成する処理の内容が、仕様書などによって公開示されておらず、マイクロホン製品の使用者が知ることができないものを意味する。図３５は、実施の形態１０に係る音源方向推定装置が取得した学習データのファイル構成を示す図である。

図３３に示されるように、雲台１１ａを駆動させて、マイクロホン製品１０ａの方位角θ及び仰角φを変えて、スピーカ１５からのＴＳＰ信号に基づく音を学習用コンピュータ１２にて収録する。学習用コンピュータ１２に記録されたＭチャンネルの加工信号から、図３５に示される学習データを作成する。ここで、マイクロホン製品１０ａは、図３４に示されるように、Ｎ個（Ｎは２以上の整数）のマイクロホンを有する。しかし、マイクロホン製品１０ａから外部に出力された信号は、これらマイクロホン製品１０ａの信号をブラックボックス内で加工された、Ｍチャンネル（Ｍは２以上の整数）の加工信号である。実施の形態１０では、この加工信号から音源方向を推定する。

実施の形態１０では、図３５の学習データを用いて、実施の形態１の場合と同様に、ニューラルネットワークにおける学習を行うことができる。実施の形態１０において、上記実施の形態１から９と異なる点は、８チャンネル音響信号の代わりに、Ｍチャンネルの加工信号を適用するため、配列の次元数「８」をＭに置き換えるだけである。

以上の学習データを用いて音源方向を推定する音源方向推定装置のニューラルネットワークの構成は、実施の形態１から９におけるものと同様である。

実施の形態１０に係る音源方向推定装置、音源方向推定方向、又は音源方向推定プログラムを用いれば、マイクロホン製品を用いて音源方向の推定を行うことができる。

変形例．
上記実施の形態１から１０では、各種のハイパーパラメータを説明したが、ハイパーパラメータの値は、上記説明のものに限定されない。

上記実施の形態１から１０では、畳込層の数、全結合層の数、として具体例な数を示した説明をしたが、これらの数は、他の数であってもよい。

上記実施の形態１から１０では、変換網の構成、変換網における各層の数、非線形層の活性化関数の種類などを具体的に説明したが、これらは、上記例に限定されない。

１０マイクロホンアレー、１０ａマイクロホン製品、１１，１１ａ雲台、１２学習用コンピュータ、１５スピーカ（学習時の音源）、１６音源用コンピュータ、２０受信部、３０フレーム分割部、４０，４０ａ，４０ｂニューラルネットワーク、５０入力層、６０，６０ａ，６０ｂ変換網、６１，６２畳込層、６３，６４全結合層、６５平坦化層、６６識別層、７０出力層、８０記憶部、９０表示部、１００音源方向推定装置、ＳＳ音源、 θ 方位角、 φ 仰角。

Claims

複数のマイクロホンから取得された複数チャンネルの音響信号を時間方向に複数のフレームに分割することによって、複数フレームの音響信号を作成するフレーム分割部と、
入力層、パラメータを記憶する記憶部、変換網及び出力層を有し、前記変換網は、前記入力層に入力された前記複数フレームの音響信号と学習データに基づいて作成された前記パラメータとに基づいて、音源の方向を推定する演算を行い、前記演算の結果を、前記出力層を介して出力するニューラルネットワークと、
を備え、
前記出力層は、複数の出力ユニットを有し、
前記パラメータは、前記複数のユニットのうちの２つの出力ユニットの間の出力の近接度が、前記２つの出力ユニットに対応付けられた音源の方向の間の近接度と符合する方向になるように更新する制約付きの学習によって得られた
ことを特徴とする音源方向推定装置。
前記入力層は、前記複数のフレームの各々の長さに対応するサンプル数に前記複数チャンネルの音響信号のチャンネル数を掛けることによって得られた値に等しい数の入力ユニットを有することを特徴とする請求項１に記載の音源方向推定装置。
前記入力層は、前記複数フレームの音響信号のそれぞれについて、前記複数のフレームの各々の長さに対応するサンプル数に前記複数チャンネルの音響信号のチャンネル数を掛けることによって得られた値に等しい数の入力ユニットを有することを特徴とする請求項１に記載の音源方向推定装置。
前記変換網は、前記入力層に入力された前記複数フレームの音響信号の各チャンネルの成分に対し、前記パラメータに含まれるフィルタ係数との畳込演算を行う第１の畳込層を含むことを特徴とする請求項１に記載の音源方向推定装置。
前記変換網は、前記第１の畳込層の後段に接続され、前記第１の畳込層から出力されるデータ配列に、前記パラメータに含まれるフィルタ係数との畳込演算を行う第２の畳込層を含むことを特徴とする請求項４に記載の音源方向推定装置。
前記出力層は、前記変換網によって推定され音源方向の数の最大数に等しい数の出力ユニットを有することを特徴とする請求項１から５のいずれか１項に記載の音源方向推定装置。
前記変換網は、１つ以上の全結合層をさらに含むことを特徴とする請求項４又は５に記載の音源方向推定装置。
複数のマイクロホンから取得された複数チャンネルの音響信号を時間方向に複数のフレームに分割することによって、複数フレームの音響信号を作成するフレーム分割部と、
入力層、パラメータを記憶する記憶部、変換網及び出力層を有し、前記変換網は、前記入力層に入力された前記複数フレームの音響信号と学習データに基づいて作成された前記パラメータとに基づいて、音源の方向を推定する演算を行い、前記演算の結果を、前記出力層を介して出力するニューラルネットワークと、
を備え、
前記変換網は、前記複数チャンネルの音響信号のフレーム毎の強度に応じて前記出力層に出力されるデータの値を制御するゲート層を含むことを特徴とする音源方向推定装置。
複数のマイクロホンから取得された複数チャンネルの音響信号を時間方向に複数のフレームに分割することによって、複数フレームの音響信号を作成するフレーム分割部と、
入力層、パラメータを記憶する記憶部、変換網及び出力層を有し、前記変換網は、前記入力層に入力された前記複数フレームの音響信号と学習データに基づいて作成された前記パラメータとに基づいて、音源の方向を推定する演算を行い、前記演算の結果を、前記出力層を介して出力するニューラルネットワークと、
を備え、
前記変換網は、推定される音源の数に等しい数の識別層と、前記識別層の出力を前記音源の出現確率に応じて制御するゲート層とを有することを特徴とする音源方向推定装置。
前記変換網は、前記１つ以上の全結合層の出力に、ソフトマックス演算を行い、前記ソフトマックス演算の結果を前記出力層に出力することを特徴とする請求項７に記載の音源方向推定装置。
前記音源の方向は、方位角、仰角、及び方位角と仰角との組合せのいずれかで示されることを特徴とする請求項１から１０のいずれか１項に記載の音源方向推定装置。
前記パラメータは、学習用コンピュータが、前記複数のマイクロホンを備えたマイクロホンアレー又はマイクロホン製品の方位角と仰角の少なくとも一方を変えて取得した原本の学習データから作成したデータであることを特徴とする請求項１から１１のいずれか１項に記載の音源方向推定装置。
前記パラメータは、前記学習用コンピュータが、前記原本の学習データにおける各要素に、予め用意された又は乱数に基づいて生成された利得を掛けて生成した拡張された学習データから作成したデータであることを特徴とする請求項１２に記載の音源方向推定装置。
前記パラメータは、前記学習用コンピュータが、前記原本の学習データにおける各要素に、予め用意された又は乱数に基づいて生成された雑音を重畳して生成した拡張された学習データから作成したデータであることを特徴とする請求項１２に記載の音源方向推定装置。
前記パラメータは、前記学習用コンピュータが、前記原本の学習データにおける各要素を、デジタルフィルタで予め用意された又は乱数に基づいて生成された中心周波数及び帯域幅を通過させて生成した拡張された学習データから作成したデータであることを特徴とする請求項１２に記載の音源方向推定装置。
前記パラメータは、前記学習用コンピュータが、前記原本の学習データにおける各チャンネル毎に、予め用意された又は乱数に基づいて生成された遅延量だけ遅延させて生成した拡張された学習データから作成したデータであることを特徴とする請求項１２に記載の音源方向推定装置。
前記パラメータは、前記学習用コンピュータが、前記マイクロホン製品が内部において取得する複数チャンネルの音響信号間の信号処理によって変換された複数チャンネルの加工信号から生成した学習データから作成したデータであることを特徴とする請求項１２に記載の音源方向推定装置。
複数のマイクロホンから取得された複数チャンネルの音響信号を時間方向に複数のフレームに分割することによって、複数フレームの音響信号を作成するステップと、
入力層、パラメータを記憶する記憶部、変換網及び出力層を有するニューラルネットワークの前記変換網が、前記入力層に入力された前記複数フレームの音響信号と学習データに基づいて作成された前記パラメータとに基づいて、音源の方向を推定する演算を行い、前記演算の結果を、前記出力層を介して出力するステップと、
を有し、
前記出力層は、複数の出力ユニットを有し、
前記パラメータは、前記複数のユニットのうちの２つの出力ユニットの間の出力の近接度が、前記２つの出力ユニットに対応付けられた音源の方向の間の近接度と符合する方向になるように更新する制約付きの学習によって得られた
ことを特徴とする音源方向推定方法。
複数のマイクロホンから取得された複数チャンネルの音響信号を時間方向に複数のフレームに分割することによって、複数フレームの音響信号を作成する処理と、
入力層、パラメータを記憶する記憶部、変換網及び出力層を有するニューラルネットワークの前記変換網が、前記入力層に入力された前記複数フレームの音響信号と学習データに基づいて作成された前記パラメータとに基づいて、音源の方向を推定する演算を行い、前記演算の結果を、前記出力層を介して出力する処理であって、前記出力層は、複数の出力ユニットを有し、前記パラメータは、前記複数のユニットのうちの２つの出力ユニットの間の出力の近接度が、前記２つの出力ユニットに対応付けられた音源の方向の間の近接度と符合する方向になるように更新する制約付きの学習によって得られたパラメータである処理と、
をコンピュータに実行させることを特徴とする音源方向推定プログラム。