JP6559382B1 - 音源方向推定装置、音源方向推定方法、及び音源方向推定プログラム - Google Patents

音源方向推定装置、音源方向推定方法、及び音源方向推定プログラム Download PDF

Info

Publication number
JP6559382B1
JP6559382B1 JP2019517124A JP2019517124A JP6559382B1 JP 6559382 B1 JP6559382 B1 JP 6559382B1 JP 2019517124 A JP2019517124 A JP 2019517124A JP 2019517124 A JP2019517124 A JP 2019517124A JP 6559382 B1 JP6559382 B1 JP 6559382B1
Authority
JP
Japan
Prior art keywords
sound source
layer
data
output
source direction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019517124A
Other languages
English (en)
Other versions
JPWO2020129231A1 (ja
Inventor
阿部 芳春
芳春 阿部
英明 寺島
英明 寺島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Application granted granted Critical
Publication of JP6559382B1 publication Critical patent/JP6559382B1/ja
Publication of JPWO2020129231A1 publication Critical patent/JPWO2020129231A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

音源方向推定装置(100)は、複数のマイクロホンから取得された複数チャンネルの音響信号(D1)を時間方向に複数のフレームに分割することによって、複数フレームの音響信号(D2)を作成するフレーム分割部(30)と、入力層(50)、パラメータ(D3)を記憶する記憶部(80)、変換網(60)及び出力層(70)を有し、変換網(60)は、入力層(50)に入力された複数フレームの音響信号と学習データに基づいて作成された前記パラメータ(D3)とに基づいて、音源(SS)の方向を推定する演算を行い、演算の結果を、出力層(70)を介して出力するニューラルネットワーク(40)と、を備える。

Description

本発明は、複数のマイクロホンから出力された音響信号に基づいて音源の方向を推定する音源方向推定装置、並びに、複数のマイクロホンから出力された音響信号に基づいて音源の方向を推定するために使用される音源方向推定方法及び音源方向推定プログラムに関する。
非特許文献1は、互いに異なる位置に配置された複数のマイクロホンを有するマイクロホンアレーを用いることによって音源の位置を推定する技術、すなわち、音源定位の技術を記載している。この文献は、ビームフォーミング法とサブスペース法とを説明している。サブスペース法の代表例は、MUSIC(MUltiple SIgnal Classification)法である。これらの方法では、仮想的な音源がある方向を要素とするステアリングベクトルを用いて、音源の方向(すなわち、音の到来方向)を推定する。ステアリングベクトルは、インパルス応答の計測又は計算により事前に求められる。
浅野太、「音源定位」、[online]、電子情報通信学会、知識の森、2群−6編−3章、インターネット〈URL:http://www.ieice-hbkb.org/files/02/02gun_06hen_03.pdf〉
しかしながら、ステアリングベクトルをインパルス応答から求めるためには、音源に入力される音源信号とマイクロホンアレーに備えられる複数のマイクロホンから出力された音響信号とをサンプル単位で時間同期をとりながら、音響信号をサンプリングするための、専用の設備(例えば、マルチチャンネルのレコーダ)が必要である。つまり、音源の方向の推定を可能するための事前の計測が、高コストであるという課題がある。
また、ステアリングベクトルを計算によって求めるためには、マイクロホンアレーに備えられる複数のマイクロホンの空間配置(一般には、3次元の座標である。)が既知である必要がある。しかし、複数のマイクロホンの空間配置が公表されていない場合には、複数のマイクロホンの空間配置を計測するための設備が必要である。つまり、音源の方向の推定を可能するための事前の計測が、高コストであるという課題がある。
本発明は、上記従来技術の課題を解決するためになされたものであり、複数のマイクロホンから出力された音響信号に基づいて、低コストで音源の方向を推定することができる音源方向推定装置、並びに、複数のマイクロホンから出力された音響信号に基づいて、低コストで音源の方向を推定可能にする音源方向推定方法及び音源方向推定プログラムを提供することを目的とする。
本発明の一態様に係る音源方向推定装置は、複数のマイクロホンから取得された複数チャンネルの音響信号を時間方向に複数のフレームに分割することによって、複数フレームの音響信号を作成するフレーム分割部と、力層、パラメータを記憶する記憶部、変換網及び出力層を有し、前記変換網は、前記入力層に入力された前記複数フレームの音響信号と学習データに基づいて作成された前記パラメータとに基づいて、音源の方向を推定する演算を行い、前記演算の結果を、前記出力層を介して出力するニューラルネットワークと、を備え、前記出力層は、複数の出力ユニットを有し、前記パラメータは、前記複数のユニットのうちの2つの出力ユニットの間の出力の近接度が、前記2つの出力ユニットに対応付けられた音源の方向の間の近接度と符合する方向になるように更新する制約付きの学習によって得られたことを特徴とする。
本発明の他の態様に係る音源方向推定方法は、複数のマイクロホンから取得された複数チャンネルの音響信号を時間方向に複数のフレームに分割することによって、複数フレームの音響信号を作成するステップと、力層、パラメータを記憶する記憶部、変換網及び出力層を有するニューラルネットワークの前記変換網が、前記入力層に入力された前記複数フレームの音響信号と学習データに基づいて作成された前記パラメータとに基づいて、音源の方向を推定する演算を行い、前記演算の結果を、前記出力層を介して出力するステップと、を有し、前記出力層は、複数の出力ユニットを有し、前記パラメータは、前記複数のユニットのうちの2つの出力ユニットの間の出力の近接度が、前記2つの出力ユニットに対応付けられた音源の方向の間の近接度と符合する方向になるように更新する制約付きの学習によって得られたことを特徴とする。
本発明によれば、複数のマイクロホンから出力された音響信号に基づいて、低コストで音源の方向を推定することができる。
本発明の実施の形態1に係る音源方向推定装置の構成を概略的に示す機能ブロック図である。 実施の形態1に係る音源方向推定装置の外観を概略的に示す斜視図である。 実施の形態1に係る音源方向推定装置のハードウェア構成の例を示すブロック図である。 (A)及び(B)は、マイクロホンアレーの構造を概略的に示す斜視図及び上面図である。 学習データの取得時に使用される学習システムの例を示す構成図である。 学習データの取得時に音源用コンピュータからスピーカに供給される計測用の音響信号のスペクトログラムを示す図である。 取得された学習データのファイル構成の例を示す図である。 実施の形態1におけるニューラルネットワークの構成を示す図である。 図8に示される入力層の構成を示す図である。 図8に示される変換網の「畳込層#1」の構成を示す図である。 図8に示される変換網の「畳込層#2」の構成を示す図である。 図8に示される変換網の「全結合層#1」の構成を示す図である。 図8に示される変換網の「全結合層#2」の構成を示す図である。 図8に示される変換網の平坦化層の構成を示す図である。 図8に示される変換網の識別層の構成を示す図である。 図8に示される出力層の構成を示す図である。 図8に示されるニューラルネットワークのパラメータの学習プロセスを示す図である。 図8に示されるニューラルネットワークのパラメータの学習プロセスを示すフローチャートである。 実施の形態1における入力データ系列と教師データ系列の作成プロセスを示す図である。 実施の形態1におけるバッチデータの作成プロセスを示す図である。 実施の形態1における出力ユニット間の制約を示す説明図である。 実施の形態1における音源方向の推定プロセスを示すフローチャートである。 実施の形態1における表示部の表示の例を示す図である。 本発明の実施の形態2に係る音源方向推定装置のニューラルネットワークの構成を示す図である。 本発明の実施の形態3に係る音源方向推定装置のニューラルネットワークの構成を示す図である。 実施の形態3における入力データ系列と教師データ系列の作成プロセスを示す図である。 本発明の実施の形態4における入力データ系列と教師データ系列の作成プロセスを示す図である。 本発明の実施の形態5における入力データ系列と教師データ系列の作成プロセスを示す図である。 本発明の実施の形態6における学習データの作成方法を示す図である。 本発明の実施の形態7における学習データの作成方法を示す図である。 本発明の実施の形態8における学習データの作成方法を示す図である。 本発明の実施の形態9における学習データの作成方法を示す図である。 本発明の実施の形態10における学習データの取得時に使用される学習システムの例を示す図である。 複数のマイクロホンを有するマイクロホン製品から取得した音響信号から加工信号を生成する処理を示す説明図である。 実施の形態10に係る音源方向推定装置が取得した学習データのファイル構成を示す図である。
以下に、本発明の実施の形態に係る音源方向推定装置、音源方向推定方法、及び音源方向推定プログラムを、図面を参照しながら説明する。以下の実施の形態は、例にすぎず、本発明の範囲内で種々の変更が可能である。
実施の形態1.
〔音源方向推定装置の構成〕
図1は、本発明の実施の形態1に係る音源方向推定装置100の構成を概略的に示す機能ブロック図である。音源方向推定装置100は、実施の形態1に係る音源方向推定方法を実施することができる装置である。図1に示されるように、音源方向推定装置100は、マイクロホンアレー10から音響信号D1を受信する受信部20と、音響信号D1を複数フレームの音響信号D2(「複数フレームの入力データ」とも言う。)に分割するフレーム分割部30と、事前の学習によって取得されたパラメータD3を用いて音源SSの方向を推定するための演算を行うニューラルネットワーク40とを備えている。ニューラルネットワーク40は、入力層50と、変換網60と、出力層70と、パラメータD3を記憶する記憶部80とを有している。記憶部80は、ニューラルネットワーク40の外部に備えられてもよい。音源方向推定装置100は、例えば、音源方向推定プログラムを実行するコンピュータである。
音源方向推定装置100は、音源SSが存在する方向の推定のための演算の結果、すなわち、推定結果D4を出力する。推定結果D4は、画像を表示するディスプレイなどの表示部90に出力される。音源SSが存在する方向は、「音源方向」又は「音の到来方向」とも言う。表示部90は、音源方向推定装置100の一部であってもよい。また、マイクロホンアレー10は、音源方向推定装置100の一部であってもよい。
受信部20は、互いに異なる位置に配置された複数のマイクロホン(すなわち、複数の受音素子)を有するマイクロホンアレー10から、複数チャンネルの音響信号D1を受信する。この音響信号D1は、「受音信号」とも言う。
フレーム分割部30は、受信部20によって受信された複数チャンネルの音響信号D1を時間方向に複数のフレームに分割する。つまり、フレーム分割部30は、複数チャンネルの音響信号D1の各々(すなわち、各チャンネルの音響信号)から複数フレームの音響信号D2を作成する。
入力層50には、複数チャンネルの音響信号D1の各々から作成された複数フレームの音響信号D2が入力される。変換網60は、入力層50から入力された複数フレームの音響信号D2と記憶部80に記憶されているパラメータD3とに基づいて、音源方向を推定するための演算を行う。出力層70は、変換網60によって行われた演算の結果である推定結果D4を出力する。
出力層70から出力された推定結果D4は、表示部90によって受信される。表示部90は、推定結果D4、すなわち、音源方向を示す情報を表示する。
音源方向推定装置100は、音源方向の推定結果D4を音声で通知するためのスピーカなどの音声出力部を備えてもよい。また、音源方向推定装置100は、音源方向の推定結果D4を示す信号を、他の装置に送信するための通信部を備えてもよい。
図2は、マイクロホンアレー10と音源方向推定装置100の外観を概略的に示す斜視図である。図2の例では、表示部90は、音源方向推定装置100の一部として備えられている。図2に示される形態は、マイクロホンアレー10と音源方向推定装置100の例にすぎない。マイクロホンアレー10の形状及び音源方向推定装置100の形状は、他の形状であってもよい。
図3は、音源方向推定装置100のハードウェア構成の例を示す図である。図3に示されるように、音源方向推定装置100は、例えば、ソフトウェアとしてのプログラム、すなわち、実施の形態1に係る音源方向推定プログラムを格納する記憶装置としてのメモリ102と、メモリ102に格納された音源方向推定プログラムを実行する演算処理部としてのプロセッサ101とを備えている。プロセッサ101は、例えば、CPU(Central Processing Unit)である。実施の形態1に係る音源方向推定プログラムは、情報を記憶する記憶媒体から媒体情報読取装置(図示せず)を介して又はインターネットなどのネットワーク91に接続可能なインタフェース(IF)を介してメモリ102に格納される。
また、音源方向推定装置100は、半導体記憶装置、ハードディスクドライブ、などの記憶装置103を備えてもよい。記憶装置103は、データベースなどの各種情報を格納する。記憶装置103は、IFを介して音源方向推定装置100に接続される外部の記憶装置であってもよい。また、記憶装置103は、IF及びネットワーク91を介して接続可能なクラウド上に存在する記憶装置であってもよい。
また、音源方向推定装置100は、ユーザの音声を受音するマイクロホンアレー10とIFを介して接続されており、表示部90とIFを介して接続されている。さらに、音源方向推定装置100は、マウス、キーボード、タッチパネル、などのユーザ操作部である入力装置(図示せず)を備えてもよい。
図1に示される音源方向推定装置100の構成は、メモリ102に格納される音源方向推定プログラムを実行するプロセッサ101によって実現されることができる。また、図1に示される音源方向推定装置100の構成の一部が、メモリ102に格納されている音源方向推定プログラムを実行するプロセッサ101によって実現されてもよい。また、図1に示される記憶部80は、図3に示される記憶装置103の一部であってもよい。
〔マイクロホンアレー〕
図4(A)及び(B)は、マイクロホンアレー10の構造を概略的に示す斜視図及び上面図である。図4(A)及び(B)に示されるように、マイクロホンアレー10は、回転楕円体形状(すなわち、卵形状)の筐体と、この筐体の外側に、円周方向に等間隔に並ぶように配置された8個のマイクロホン#1〜#8とを有している。ここで、マイクロホン#1〜#8は、第1のマイクロホン〜第8のマイクロホンを意味する。8個のマイクロホン#1〜#8は、例えば、MEMS(Micro Electro Mechanical Systems)マイクロホン、すなわち、半導体マイクロホンである。ただし、マイクロホンアレー10に備えられるマイクロホンの個数は、8個に限定されない。また、マイクロホンの配置は、図示の例に限定されない。
これらのMEMSマイクロホンによる集音によって生成された音響信号(「オーディオ信号」とも言う。)は、回転楕円体形状の筐体の内部に格納されている信号処理ボードにより、8チャンネルの音響信号に変換され、USB(Universal Serial Bus)ケーブルなどのケーブルを介して出力される。マイクロホンアレー10は、音源方向推定装置としてのコンピュータ(例えば、図1に示される装置)又は学習用コンピュータ(例えば、後述の図5に示される学習用コンピュータ12)の端子とケーブルで接続され、これらコンピュータに内蔵されるプログラムにより読み出される。読み出された信号は、例えば、サンプリングレート16kHz、24ビット、8チャンネルのデジタル信号であるサンプリングデータである。
〔学習データの取得〕
次に、学習データであるパラメータD3の取得について説明する。パラメータD3は、学習システムによって取得され、図1に示される音源方向推定装置100の記憶部80に事前に格納される。図5は、学習データの取得時に使用される学習システムの例を示す構成図である。図5の学習システムは、音を出力する学習用音源としてのスピーカ15と、スピーカ15に計測用の音響信号を供給する音源用コンピュータ16と、パラメータD3の調整の対象であるマイクロホンアレー10と、マイクロホンアレー10から見た音源であるスピーカ15の方向を変更する雲台11と、マイクロホンアレー10の集音によって生成された音響信号を記録する学習用コンピュータ12とを備えている。雲台11は、マイクロホンアレー10の方位角θと仰角φを調整可能な機構を備えている。
図6は、学習データの取得時に音源用コンピュータ16から学習用音源としてのスピーカ15に供給される計測用の音響信号のスペクトログラムを示す図である。計測用の音響信号は、マイクロホンアレー10がカバーする周波数範囲をカバーする広帯域の信号である。計測用の音響信号は、例えば、マイクロホンアレー10のサンプリングレートの1/2であるナイキストレートである8000Hzをカバーする広帯域の信号である。また、計測用の音響信号は、背景騒音の影響を避け、高いS/N比で音源信号を収録することができるようにするために、TSP(Time Stretched Pulse)信号を時間軸上で多重化した多重TSP信号を使用することが望ましい。なお、図6には、2重TSP信号が示されている。
学習データの取得時には、音源用コンピュータ16は、音源であるスピーカ15を鳴動させ続ける。学習データの取得時には、学習用コンピュータ12は、予め決められた試験計画書の指示に従って、雲台11によって設定されるマイクロホンアレー10の向き、すなわち、方位角θと仰角φとを調整する。この調整によって、マイクロホンアレー10から見た学習用音源であるスピーカ15の方向が変わる。方位角θと仰角φの組合せの各々において、音源用コンピュータ16は、予め決められた計測時間(例えば、30秒間)ずつ、マイクロホンアレー10から出力された複数チャンネルの音響信号を受信して記録する。ここで、音源方向は、方位角θと仰角φとの組合せとして定義される。音源方向は、方位角のみ、又は、仰角のみで定義されてもよい。
図7は、学習用コンピュータ12によって取得された学習データのファイル構成の例を示す図である。図7に示されるように、学習データは、信号データ(「波形データ」とも言う。)と、ラベルデータとを有する。信号データは、予め決められた複数の方向のデータのうちの、各方向のデータ毎に保存される。
例えば、図7の信号データの『方向#1の音響信号(長さ30秒)、S[480000,8]』は、「方向#1」(すなわち、第1の方向)について30秒間の測定で得られた音響信号であり、480000サンプル、8チャンネルであることを示す。
ラベルデータは、方向を表すデータであり、方位角θと仰角φの組合せ(すなわち、tuple)で定義される。例えば、図7のラベルデータの『方向#1、(0,0)』は、「方向#1」は、(θ,φ)=(0,0)、すなわち、θ=0度かつφ=0度を満たす方向であることを示す。ラベルデータは、図1に示されるニューラルネットワーク40の学習時における教師データとして用いられる。
図7は、学習用コンピュータ12が、仰角φを0度に固定し、方位角θを0度から10度刻みで350度まで変えて、各方位角θ(すなわち、「方位#1」〜「方位#36」の各々)において30秒間計測を行い、その結果、36個の信号データS[480000,8]〜S36[480000,8]を取得した例を示している。なお、ニューラルネットワーク40のパラメータD3を学習によって取得する際には、各方向の信号データのうちの、時間区間が5秒から15秒までの区間の信号データが学習データとして使用され、時間区間が15秒から25秒の区間の信号データが検証データとして使用される。
〔ニューラルネットワーク40の構成〕
次に、図1に示されるニューラルネットワーク40の構成を説明する。図8は、実施の形態1におけるニューラルネットワーク40の構成を示す図である。図8に示されるように、ニューラルネットワーク40は、入力層50と、変換網60と、出力層70とを有している。変換網60は、第1の畳込層である「畳込層#1」すなわち畳込層61と、第2の畳込層である「畳込層#2」すなわち畳込層62と、第1の全結合層である「全結合層#1」すなわち全結合層63と、第2の全結合層である「全結合層#2」すなわち全結合層64と、平坦化層65と、識別層66とを有している。なお、図において、「*」は、フレームを識別するための整数である。
〔入力層50〕
図9は、図8に示される入力層50の構成を示す図である。図9に示されるように、入力層50は、複数フレームの入力データ(図1におけるD2)を受理し、入力データの値を内部のユニット(すなわち、入力ユニット)にコピーする。複数フレームのデータ配列X[500,8]は、500サンプル/チャンネルで8チャンネルの音響信号である。つまり、入力層50は、入力データであるデータ配列X[500,8]を、500行8列の配列のデータとして保持する。入力層50は、入力層50の内部のユニットの値のコピーである、500行8列のデータ配列X[500,8]を出力データとして出力する。図9の例では、入力層50は、フレームの長さ(すなわち、複数フレームのデータ配列X[500,8]のサンプル数である500サンプル)に複数チャンネルの音響信号のチャンネル数(すなわち、8チャンネル)を掛けることによって得られた値(すなわち、4000)に等しい数の入力ユニットを有する。
〔畳込層#1〕
図10は、図8に示される変換網60の「畳込層#1」すなわち畳込層61の構成を示す図である。「畳込層#1」は、入力層50から出力されたデータ配列X[500,8]を受理し、データ配列X[500,8]とカーネル係数WC1[100,8,31]との畳込演算を行い、この畳込演算の結果にバイアスbC1[100]を加算し、この加算の結果に半整流演算を適用して、半整流演算の結果であるデータ配列X[470,100]を出力する。カーネル係数は、記憶部80にパラメータとして記憶されているフィルタ係数である。「畳込層#1」の演算は、以下の式(1)及び(2)で示される。
Figure 0006559382
式(1)及び(2)において、Convは、畳込演算を表し、Reluは、半整流演算を表す。半整流演算は、データ配列の各要素(すなわち、各成分)の値を、値0と比較して、各要素の値又は値0のうちの大きいほうの値を返す非線形演算である。半整流演算は、以下の式(3)で示される。
Figure 0006559382
式(3)の左辺のRelu(x)は、半整流演算を表す。式(3)の右辺のmax(0,x)は、0とxの値とを比較して、大きい方の値を表す。
また、式(1)において、
Figure 0006559382
は、ブロードキャスト加算する演算子を表す。ブロードキャスト加算は、被加算対象に加算対象を加算する際に(すなわち、被加算対象の配列の要素に加算対象の配列の要素を加算する際に)、被加算対象の配列と加算対象の配列とが不一致であり被加算対象の配列の要素の数が不足していれば、被加算対象の不足している要素に同じ値を加算する処理を繰返して行い、被加算対象の配列と加算対象の配列とを一致させた後に、被加算対象に加算対象を加算する演算である。
なお、式(1)及び(2)において、「470」は、470=500−31+1から得られた値であり。また、式(1)において、「31」は、カーネルのサイズ(すなわち、フィルタ長)である。また、式(1)及び(2)において、「100」は、カーネルの数(すなわち、フィルタ数)である。「31」及び「100」は、いずれも、ハイパーパラメータである。ハイパーパラメータは、学習によって調整されないパラメータである。
〔畳込層#2〕
図11は、図8に示される変換網60の「畳込層#2」すなわち畳込層62の構成を示す図である。「畳込層#2」は、「畳込層#1」から出力されたデータ配列X[470,100]を受理し、データ配列X[470,100]とカーネル係数WC2[50,100,31]との畳込演算を行い、この畳込演算の結果にバイアスbC2[50]を加算し、この加算の結果に半整流演算を適用して、半整流演算の結果であるデータ配列X[440,50]を出力する。「畳込層#2」の演算は、以下の式(4)及び(5)で示される。
Figure 0006559382
式(4)及び(5)における「440」は、440=470−31+1から得られた値である。また、式(4)において、「31」は、カーネルのサイズ(すなわち、フィルタ長)である。また、式(4)及び(5)において、「50」は、カーネルの数(すなわち、フィルタ数)である。
〔全結合層#1〕
図12は、図8に示される変換網60の「全結合層#1」すなわち全結合層63の構成を示す図である。「全結合層#1」は、「畳込層#2」から出力されたデータ配列X[440,50]に対し、重み係数WF1[50,256]を乗算し、この乗算の結果にバイアスbF1[256]を加算し、この加算の結果に半整流演算を適用して、半整流演算の結果であるデータ配列X[440,256]を出力する。「全結合層#1」の演算は、以下の式(6)で示される。
Figure 0006559382
式(6)において、Prodは、データ配列同士の乗算を示す演算を表す。また、式(6)において、
Figure 0006559382
は、ブロードキャスト加算の演算子を表す。なお、式(6)において、「256」は、重み係数の数であり、ハイパーパラメータである。
〔全結合層#2〕
図13は、図8に示される変換網60の「全結合層#2」すなわち全結合層64の構成を示す図である。「全結合層#2」は、「全結合層#1」から出力されたデータ配列X[440,256]に対し、重み係数WF2[256,128]を乗算し、この乗算の結果にバイアスbF2[128]を加算し、この加算の結果に半整流演算を適用して、半整流演算の結果であるデータ配列X[440,128]を出力する。「全結合層#2」の演算は、以下の式(7)で示される。
Figure 0006559382
式(7)におけるProd及びブロードキャスト加算の意味は、式(6)の記号の意味と同じである。また、式(7)において、「128」は、重み係数の数であり、ハイパーパラメータである。
〔平坦化層〕
図14は、図8に示される変換網60の平坦化層65の構成を示す図である。平坦化層65は、「全結合層#2」から出力されたデータ配列X[440,128]を受理し、受理されたデータ配列X[440,128]の次元数を1次元にする縮小を行い(すなわち、2次元のデータ配列を1次元のデータ配列であるベクトルに変換する平坦化を行い)、データ配列X[56320]を出力する。平坦化層65の演算は、以下の式(8)で示される。
Figure 0006559382
式(8)において、Flattenは、平坦化演算を表す。なお、式(8)において、「56320」は、56320=440×128から得られた値である。
〔識別層〕
図15は、図8に示される変換網60の識別層66の構成を示す図である。識別層66は、平坦化層65から出力されたデータ配列X[56320]を受理し、受理されたデータ配列X[56320]に重み係数Wout[56320,36]を乗算し、この乗算の結果にバイアスbout[36]を加算し、この加算の結果にソフトマックス演算を適用して、ソフトマックス演算の結果であるデータ配列X[36]を出力する。識別層66の演算は、以下の式(9)及び(10)で示される。
Figure 0006559382
式(10)において、Softmaxは、ソフトマックス演算を表す。ソフトマックス演算は、データ配列の全要素に指数関数を適用し、それらの和で各値を正規化した結果を得る演算である。この演算は、以下の式(11)で示される。
Figure 0006559382
式(11)において、iは、データ配列X[i]のインデックス、Σは、インデックスiに関するexp(X[i])の総和を表す。
一般に、ソフトマックスの演算結果のデータ配列の要素は、その要素のインデックスに紐づけられた事象の出現確率を与えるものとして扱われる。本出願において、ソフトマックスの演算は、同様に扱われる。なお、式(9)及び(10)において、「36」は、重み係数の数である。また、「36」は、識別する対象の数(クラス数)でもある。
〔出力層〕
図16は、図8に示される出力層70の構成を示す図である。出力層70は、識別層66から出力されたデータ配列X[36]を保持する内部のユニット(すなわち、出力データの値を保持する出力ユニット)を持ち、出力層70の出力配列として識別結果のデータ配列Y[36]を出力する。
〔ニューラルネットワークの学習〕
次に、ニューラルネットワーク40の学習について説明する。図17は、図8に示されるニューラルネットワーク40のパラメータの学習プロセスを示す図である。図17に示される処理は、CPU、メモリ、ストレージ、及びGPU(Graphics Processing Unit)ボードを搭載した学習用コンピュータ(例えば、図5に示される学習用コンピュータ12)で実行される。
学習用コンピュータには、深層学習のソフトウェアライブラリが備えられ、このソフトウェアライブラリ上には、学習プログラムが組み込まれている。学習用コンピュータには、入力データ系列X[*,500,8]と教師データ系列Y[*,36]とからなる学習データが与えられ、学習用コンピュータにおいて学習プログラムが実行される。学習用コンピュータでは、学習データから取得されたバッチサイズのデータに対し、ニューラルネットワークを通して順伝播の出力データ系列Yout[*,36]が計算される。
次に、順伝播の出力データ系列Yout[*,36]と教師データ系列Y[*,36]とのクロスエントロピー誤差が計算され、このクロスエントロピー誤差に出力ユニット間の制約C[1]が加算され、この加算の結果から損失が計算される。学習用コンピュータは、損失が小さくなる方向に、誤差逆伝播(すなわち、バックプロパゲーション)を行うことにより、パラメータを更新する。すべてのバッチデータに対して、誤差逆伝播によるパラメータの更新を繰り返すことで、学習データ全体に対するパラメータの更新が行われる。学習データの全体に対する更新処理を1つのエポックとすると、学習用コンピュータは、パラメータの更新をエポックの数に等しい回数繰り返し、最終的なパラメータが決定される。学習用コンピュータは、例えば、パラメータの確率的な更新アルゴリズムとして、公知のAdam(Adaptive Moment Estimation)を用い、バッチサイズを32、学習係数を0.0001とし、20エポック連続して損失の減少がなくなるまで、エポックを繰り返す。
図18は、図8に示されるニューラルネットワーク40のパラメータの学習プロセスを示すフローチャートである。まず、学習用コンピュータには、入力データ系列と教師データ系列とからなる学習データが与えられる。その後、学習用コンピュータは、学習プログラムを実行する。
ステップST1001において、学習用コンピュータは、取得した学習データから、入力データ系列と教師データ系列を作成する。
ステップST1002において、学習用コンピュータは、入力データ系列と教師データ系列の系列順をランダムに並び替える。
ステップST1003において、学習用コンピュータは、並び替えられた入力データ系列と並び替えられた教師データ系列とからバッチデータを作成する。
ステップST1004において、学習用コンピュータは、バッチデータ内の入力データをニューラルネットワークの入力層に入力し順伝播させる。
ステップST1005において、学習用コンピュータは、ニューラルネットワークの出力層に得られる出力データ系列とバッチデータ内の教師データ系列との間のクロスエントロピー誤差を計算する。
ステップST1006において、学習用コンピュータは、上記クロスエントロピー誤差に出力ユニット間の制約を加えることで、損失を計算する。
ステップST1007において、学習用コンピュータは、上記損失が小さくなるようにパラメータを更新する。
ステップST1008において、学習用コンピュータは、学習データ全体にわたりパラメータの更新が終了したら、次のエポックに進む。
ステップST1009において、学習用コンピュータは、エポック毎に計算した上記損失の平均値がエポックに関して所定の回数、連続して減少しなくなったら、学習を終了する。
〔学習データの作成〕
次に、学習データの作成について説明する。図19は、入力データ系列と教師データ系列の作成プロセスを示す図である。入力データ系列は、図6に示される信号データから作成される。まず、学習用コンピュータは、「方向#1」の音響信号(長さ30秒)の中から、時間区間が5秒から15秒の間の10秒間の区間のデータS[160000,8]を抽出する。ここで、「160000」はサンプル数、「8」はチャンネル数を示す。
次に、学習用コンピュータは、10秒間の160000サンプルの信号データを500サンプルずつのフレームに分割し、320個のフレームからなる入力データX[320,500,8]を作成する。ここで、「320」はフレーム数、「500」は、サンプル数、「8」はチャンネル数を示す。
同様に、学習用コンピュータは、「方向#2」から「方向#36」のそれぞれの音響信号からも、時間区間が5秒から15秒の間の10秒間の区間の入力データS[160000,8]〜S36[160000,8]の各々に対して、フレーム分割を行い、320個のフレームからなる入力データX[320,500,8]〜X36[320,500,8]を作成する。
最後に、学習用コンピュータは、フレーム分割された入力データ配列X[320,500,8]〜X36[320,500,8]を連結することによって、入力データ系列X[11520,500,8]を作成する。ここで、「11520」は、11520=320×36で得られた値である。
教師データ系列も、図6に示される信号データと紐づけられたラベルデータから作成される。まず、学習用コンピュータは、「方向#1」のラベルに対して、「方向#1」の入力データのフレーム数である320個だけ、36次元のOne−Hotベクトルを並べて、教師データY[320,36]を作成する。
同様に、学習用コンピュータは、「方向#2」から「方向#36」のラベルに対して、「方向#2」から「方向#36」の入力データのフレーム数である320個だけ、36次元のOne−Hotベクトルを並べて、教師データY[320,36]からY36[320,36]を作成する。
最後に、学習用コンピュータは、「方向#1」から「方向#36」の教師データを連結することによって、教師データ系列Y[11520,36]を作成する。
ここで、「36」は、推定結果となり得る音源方向の数であり、ラベルの種類の数に等しい。また、One−Hotベクトルは、ラベルに対応する次元の要素が1で、残りの全要素が0であるベクトルである。例えば、「方向#1」のOne−Hotベクトルは、最初の次元の要素が1であり、残りの全要素が0である、36次元のベクトルである。
〔バッチデータの作成〕
次に、パラメータを更新する単位であるバッチデータの作成について説明する。図20は、バッチデータの作成プロセスを示す図である。バッチデータは、互いに紐づけられた入力データ系列と教師データ系列とから作成される。まず、学習用コンピュータは、エポック毎に、入力データ系列と教師データ系列をシャフルする。ここで、シャフルは、入力データ系列におけるインデックスの並び順をランダムに並び替えること、教師データ系列におけるインデックスの並び順をランダムに並べ変えることを意味する。すなわち、学習用コンピュータは、入力データ系列X[11520,500,8]及び入力データ系列Y[11520,36]の第1次元の11520個のインデックスを並べ替えて、並べ替えられた後の11520個のインデックスに置き換える。以上の計算は、以下の式(12)から(14)で示される。
Figure 0006559382
式(12)において、Perm(11520)は、長さ11520のインデックスの配列において、インデックスをランダムに並べ替えた後のインデックスの配列である。
次に、図20に示されるように、学習用コンピュータは、シャフルされた入力データ系列と教師データ系列とを、バッチサイズが32である部分系列に分割する。バッチ分割の結果、360個のバッチデータ、すなわち、バッチデータ#1〜#360が作成される。ここで、「32」は、バッチサイズであり、ハイパーパラメータである。また、「360」は、360=11520/32から得られた値である。作成されたバッチデータは、図17に示されるニューラルネットワークにおける学習プロセスに用いられる。
〔出力ユニット間の制約〕
次に、図17に示される損失の計算において、クロスエントロピー誤差に加算される出力ユニット間の制約C[1]について説明する。図21は、出力ユニット間の制約を示す説明図である。学習用コンピュータは、ニューラルネットワークから出力される出力データ系列Y[*,36]の要素の自己相関行列に対して近接行列W proximity を掛ける計算を行い、この計算の結果の総和をとる計算を行い、この計算の結果である総和を出力ユニット間の制約C[1]として出力する。以上の処理は、以下の式(15)から(18)で示される。
Figure 0006559382
式(15)において、Y[36]は出力データ系列Y[*,36]中の系列インデックスkが示す位置にある行ベクトル(すなわち、行ベクトルを列ベクトルに変換したベクトル)を表す。また、Dotは、ベクトル間の外積を表す。また、式(16)において、
Figure 0006559382
は、アダマール積(すなわち、当該演算子を囲む左側の行列と右側の行列の間の要素ごとの積)を表す。
式(17)において、Sumは、データ配列の要素の総和を表す。式(18)において、Σは、系列インデックスkに関する総和を表す。Wは、制約に対する重み係数を表す。Wは、ハイパーパラメータであり、例えば、0.6に設定される。
上記演算で得られる配列A[36,36]は、36次元の出力データの次元間の相関を表す。iとjを正の整数としたとき、iとjを成分とするA[i,j]は、Y[i]とY[j]の積を表す。Wproximity[i,j]は、iとjが近接している方向であるとき、大きい値をとるように設定された近接度を表す近接重み係数行列である。近接重み係数行列は、事前に計算される。近接重み係数行列Wproximity[i,j]は、以下の式(19)及び(20)で計算される。
Figure 0006559382
式(19)及び(20)において、P[i]は、「方向#i」にある距離1mの点の3次元ユークリッド空間上の座標を表す。θは、「方向#i」の方位角θを表す。φは、「方向#i」の仰角φを表す。また、cos、sin、expは、それぞれ余弦関数、正弦関数、指数関数を表す。また、σproximityは、「方向#i」と「方向#j」の空間座標が離れる時の近接重み係数の減少度合を制御するパラメータを表す。σproximityの値が小さいほど、距離に対する近接重み係数の減少度合が増大する。σproximityの値は、ハイパーパラメータであり、例えば、0.25に設定される。なお、上式のexp関数内の負号により、「方向#i」と「方向#j」の空間座標がユークリッド空間で近いほど、Wproximity[i,j]の値が大きくなる。このようにすれば、記憶部80に記憶されるパラメータD3は、複数の出力ユニットのうちの2つの出力ユニットの間の出力の近接度が、これら2つの出力ユニットに対応付けられた音源の方向の間の近接度と符合する方向になるように更新される。
次に、学習されたニューラルネットワークを用いた音源方向の推定プロセスを説明する。図22は、実施の形態1に係る音源方向推定装置100による音源方向の推定プロセスを示すフローチャートである。まず、受信部20は、マイクロホンアレー10から出力された複数チャンネルの音響信号を受信する(ST2001)。
次に、フレーム分割部30は、受信した複数チャンネルの音響信号を複数のフレームに分割し(ST2002)、分割によって得られた複数のフレームの音響信号をニューラルネットワーク40の入力層50に入力する(ST2003)。
次に、ニューラルネットワーク40は、入力層50に入力された複数のフレームの音響信号に対して、入力層50から変換網60を介して出力層70まで順伝播させる処理を行い、出力層70から音源方向の識別の結果を出力する(ST2004、ST2005)。
次に、表示部90は、出力層70において得られる識別の結果を受け取り、識別の結果を表示する。
図23は、表示部90における表示の例を示す図である。図23において、左のグラフは、出力層70の36次元の出力値、すなわち、データ配列X[36]に、音響信号の強度を掛けて得られるスコアの時間変化を示す。図23において、右の円形のグラフは、左のグラフの縦線で示される各時間のスコアを36方向の極座標に表示したものである。円形のグラフは、6.5秒付近で、右奥方向の付近に音源があることを示している。
以上に説明したように、実施の形態1に係る音源方向推定装置100、音源方向推定方向、又は音源方向推定プログラムを用いれば、互いに異なる位置に配置された複数のマイクロホンを有するマイクロホンアレー10から出力された複数チャンネルの音響信号D1による音源方向の推定を、既知の音源方向から放射された音を受音するマイクロホンアレー10から出力された音響信号に基づく学習データから得られたパラメータD3を用いて、行うことができる。このように、実施の形態1では、パラメータD3は、学習により自動的に調整することが可能である。
また、実施の形態1においては、パラメータD3は、マイクロホンアレー10の任意の形態に対して適用可能である。すなわち、複数のマイクロホンの空間の配置、複数のマイクロホンを支えるための筐体の構造、又はこれらの両方がどのような形態であっても、パラメータD3を自動的に調整することが可能である。
さらに、実施の形態1においては、従来技術のようにステアリングベクトルを求めるための設備は不要であり、既知の方向の学習用音源を用いたシステムによって得られた学習データから、音源方向の推定に必要なパラメータD3を設計することができる。つまり、複数のマイクロホンの空間配置が不明であっても、低コストで音源方向を推定することができる。
実施の形態2.
〔入力ゲート層を設ける〕
図24は、実施の形態2に係る音源方向推定装置のニューラルネットワーク40aの構成を示す図である。図24において、図8に示される構成と同一又は対応する構成には、図8に示される符号と同じ符号が付されている。ニューラルネットワーク40aは、変換網60aの構成の点に関して、実施の形態1におけるニューラルネットワーク40と異なる。ニューラルネットワーク40aの構成以外に関して、実施の形態2は、実施の形態1と同じである。
実施の形態2における変換網60aは、「畳込層#1a」、「畳込層#1b」、「Sigmoid層#1」、「Tanh層#1」、「ゲート層#1」、「加算層#1」、「畳込層#2a」、「畳込層#2b」、「Sigmoid層#2」、「Tanh層#2」、「ゲート層#2」、及び「加算層#2」を備えている点に関して、実施の形態1における変換網60と異なる。「畳込層#1a」と「畳込層#1b」の各々は、「畳込層#1」と同じ構成を有する。「畳込層#2a」と「畳込層#2b」の各々は、「畳込層#2」と同じ構成を有する。「Sigmoid層#1」と「Sigmoid層#2」は、活性化関数であるSigmoid関数を用いた変換を行う。「Tanh層#1」と「Tanh層#2」は、活性化関数であるTanh関数を用いた変換を行う。
「ゲート層#1」は、ゲート信号として、「畳込層#1a」と「Sigmoid層#1」のタンデム接続出力と、「畳込層#1b」と「Tanh層#1」のタンデム接続出力と、を受理する。
同様に、「ゲート層#2」は、「畳込層#2a」と「Sigmoid層#2」のタンデム接続出力と、「畳込層#2b」と「Tanh層#2」のタンデム接続出力と、を受理する。
「畳込層#1」の出力と「ゲート層#1」の出力とは、「加算層#1」で加算される。同様に、「畳込層#2」の出力と「ゲート層#2」の出力とは、「加算層#2」で加算される。
「ゲート層#1」と「ゲート層#2」の各々は、入力信号の大きさ(すなわち、強度)に応じて、入力を制御するゲート機能を果たす。したがって、実施の形態2に係る音源方向推定装置、音源方向推定方向、又は音源方向推定プログラムを用いれば、入力信号の大きさに依存しない音源方向の推定を行うことができる。
実施の形態3.
〔複数の音源方向を推定〕
図25は、実施の形態3に係る音源方向推定装置のニューラルネットワーク40bの構成を示す図である。図25において、図8に示される構成と同一又は対応する構成には、図8に示される符号と同じ符号が付されている。ニューラルネットワーク40bは、変換網60bの構成の点に関して、実施の形態1におけるニューラルネットワーク40と異なる。ニューラルネットワーク40bの構成以外に関して、実施の形態3は、実施の形態1と同じである。
実施の形態3に係る音源方向推定装置のニューラルネットワーク40bは、同時に鳴動する1つ以上の音源(ここでは、1個から3個までの音源)の方向を推定することを可能にする構成を有している。入力データ系列X[*,500,8]は、実施の形態1及び2におけるものと同じである。また、出力データ系列Yout[*,108]は、最大3個の音源方向を識別できるように、108次元の配列である。なお、「108」は、36×3で得られた値である。また、「3」は、同時に検出可能な音源方向の数の最大数である。
ニューラルネットワーク40bの「方向識別層#1」、「方向識別層#2」、「方向識別層#3」は、それぞれ、独立したパラメータを有する音源方向の識別層である。「方向識別層#1」、「方向識別層#2」、「方向識別層#3」は、最終的に、Softmax演算により、36方向の確率を表す36次元の配列を出力する。
音源数識別層は、入力層50からのデータを受け取り、最終的に、Softmax演算を経て、音源数の推定結果を3次元配列として出力する。この3次元配列の、1次元目は、音源数が1である確率P(音源数=1)を表し、2次元目は、音源数が2である確率P(音源数=2)を表し、3次元目は、音源数が3である確率P(音源数=3)を表す。確率P(音源数=3)は、「ゲート層#3」に入力される。確率P(音源数=2)は、確率P(音源数=3)が加算されることで、音源数が2以上である確率P(音源数≧2)に変換され、この確率P(音源数≧2)は、「ゲート層#2」に入力される。確率P(音源数=1)は、確率P(音源数=3)と確率P(音源数=2)が加算されることで、音源数が1以上である確率P(音源数≧1)に変換され、この確率P(音源数≧1)は、「ゲート層#1」に入力される。
「方向識別層#1」の出力は、「ゲート層#1」によって制御されて連結層に与えられる。「方向識別層#2」の出力は、「ゲート層#2」によって制御されて連結層に与えられる。「方向識別層#3」の出力は、「ゲート層#3」によって制御されて連結層に与えられる。連結層は、各36次元のベクトルを連結して108次元のベクトルに変換し、変換後のベクトルを出力層70に出力する。
図26は、実施の形態3における入力データ系列と教師データ系列の作成プロセスを示す図である。図26は、例えば、「方向#1」、「方向#2」、「方向#3」で、同時に鳴動する複数方向の音源が存在する場合における学習データの作成方法を示している。「利得#1」、「利得#2」、「利得#3」は、それぞれ、「方向#1」、「方向#2」、「方向#3」の音源から出力される音の大きさを調整するためのハイパーパラメータである。
入力データ系列X[*,500,8]は、「方向#1」、「方向#2」、「方向#3」の各方向の音響信号に「利得#1」、「利得#2」、「利得#3」をそれぞれ乗算し、乗算の結果を加算し、この加算の結果をフレーム分割することによって、作成される。
教師データ系列Y[*,108]は、「方向#1」、「方向#2」、「方向#3」のOne−Hot符号化したベクトルに、入力データ系列の作成で用いたものと同じ「利得#1」、「利得#2」、「利得#3」をそれぞれ乗算し、乗算の結果得られたベクトルを連結し、この連結によって得られたベクトルの要素の総和を1とする正規化を行うことによって、作成される。
以上に説明したように、実施の形態3に係る音源方向推定装置、音源方向推定方向、又は音源方向推定プログラムを用いれば、同時に鳴動する複数の音源の方向を推定することができる。
実施の形態4.
〔方位角θと仰角φの同時識別〕
次に、学習データの作成プロセスの他の例を説明する。図19では、教師データ系列は、方位角θとして「方向#1」〜「方向#36」の教師データから教師データ系列を作成した。これに対し、実施の形態4では、方位角θとして10度間隔の36種類の角度、仰角φとして15度間隔の6種類の角度の教師データから教師データ系列を作成している。学習データの作成プロセス以外に関して、実施の形態4は、実施の形態1と同じである。
図27は、実施の形態4における入力データ系列と教師データ系列の作成プロセスを示す図である。図27は、方位角θと仰角φとを同時に識別するための学習データの生成方法を示している。ここでは、音源方向は、方位角θと仰角φとの組合せ(θ,φ)として与えられる。また、n(nは正の整数)番目の音源方向の方位角θnと仰角φnの組合せは、(θn,φn)で表記される。(θn,φn)は、以下の式(21)及び(22)で与えられる。
Figure 0006559382
ここで、nは、音源方向を識別する番号、θnは、「方向#n」の方位角、φnは、「方向#n」の仰角を表す。また、intは、整数化演算、modは、剰余演算を表す。
実施の形態4では、方位角θは、0度から350度を10度刻みで36通りに設定される。仰角φは、0度から75度を15度刻みで6通りに設定される。この結果、識別する方向の数は、216(=36×6)通りとなる。例えば、「方向#1」では、(θ1,φ1)=(0,0)であり、「方向#2」では、(θ2,φ2)=(10,0)であり、「方向#216」では、(θ216,φ216)=(350,75)である。
以上の学習データを用いて音源方向を推定する音源方向推定装置のニューラルネットワークの構成は、実施の形態1から3におけるものと同様である。ただし、実施の形態1から3においては、ニューラルネットワークの識別層の次元数は「36」であったが、実施の形態4ではニューラルネットワークの識別層の次元数は「216」である。
実施の形態4に係る音源方向推定装置、音源方向推定方向、又は音源方向推定プログラムを用いれば、音源の方位角θと仰角φとの組合せ(θ,φ)を推定することができる。
実施の形態5.
〔取得した学習データから仰角φを無視したデータの生成〕
上記実施の形態4では、学習データは、方位角θと仰角φを指定されて取得され、音源方向の識別層は、方位角θと仰角φを識別する例を説明した。しかし、実際には、仰角φの識別は不要である場合が多い。実施の形態5では、学習データは、方位角θと仰角φを指定されて取得されるが、音源方向の識別層は、方位角θだけを識別する例を説明する。識別層の処理以外に関して、実施の形態5は、実施の形態4と同じである。
図28は、実施の形態5における入力データ系列と教師データ系列の作成プロセスを示す図である。取得した学習データは、方位角θと仰角φの組合せとして、216通りの方向がある。入力データ系列は、図27の場合と同様に作成される。一方、教師データ系列は、ラベルデータの仰角φを無視した36次元のOne−Hotベクトルが作成されこれが連結されたものである。
以上の学習データを用いて音源方向を推定する音源方向推定装置のニューラルネットワークの構成は、実施の形態1から3におけるものと同様である。また、実施の形態4においては、ニューラルネットワークの識別層の次元数は「216」であったが、実施の形態5においては、ニューラルネットワークの識別層の次元数は、実施の形態1から4の場合と同様に、「36」である。
実施の形態5に係る音源方向推定装置、音源方向推定方向、又は音源方向推定プログラムを用いれば、音源の方位角θを推定することができる。
実施の形態6.
〔取得した学習データから利得を変えたデータの生成〕
実施の形態6では、音源から出力される音の大きさの変化に頑健(robust)な音源方向推定装置を説明する。実施の形態6は、パラメータD3の作成に使用される入力データ系列及び教師データ系列の元になる学習データとして、利得を用いて拡張された拡張学習データを用いる点が、実施の形態1から5と異なる。この点以外に関して、実施の形態6は、実施の形態1から5のいずれかと同じである。
図29は、実施の形態6における学習データの作成方法を示す図である。実施の形態6では、取得された原本の学習データから、拡張学習データが作成される。このため、原本の学習データの信号データに対して、利得リスト[g1,g2,…,gn]中の各利得g1,g2,…,gnのいずれかを乗算し、乗算の結果である信号データを作成し、作成された信号データを用いて、拡張学習データを作成する。同時に、ラベルデータに対しては、上記利得リストの中の利得の数だけ、コピーを作成し、拡張学習データのラベルデータとする。この拡張学習データを用いて、ニューラルネットワークにおける学習を行う。なお、上記の利得のリストは、学習のバッチごとに乱数に基づいて生成されてもよい。
以上の学習データを用いて音源方向を推定する音源方向推定装置のニューラルネットワークの構成は、実施の形態1から5におけるものと同様である。
また、実施の形態6に係る音源方向推定装置、音源方向推定方向、又は音源方向推定プログラムを用いれば、音源の大きさの変化に頑健な音源方向の推定が可能になる。
実施の形態7.
〔取得した学習データから、雑音を重畳したデータの生成〕
実施の形態7では、音源から出力される音以外の背景雑音の影響に頑健な音源方向推定装置を説明する。実施の形態7は、パラメータD3の作成に使用される入力データ系列及び教師データ系列の元になる学習データとして、背景雑音の傾斜及び利得を用いて拡張された拡張学習データを用いる点が、実施の形態1から6と異なる。この点以外に関して、実施の形態7は、実施の形態1から6のいずれかと同じである。
図30は、実施の形態7における学習データの作成方法を示す図である。実施の形態7では、取得された原本の学習データから、拡張学習データが作成される。このため、原本の学習データの信号データに対して、雑音の傾斜及び利得のリスト内に記載された利得g1〜gnと傾斜e1〜enとの組合せである
Figure 0006559382
に応じた雑音を生成し、重畳し、拡張学習データ中の信号データを得る。同時に、ラベルデータに対して、上記リスト中の要素の数だけ、コピーを作成し、拡張学習データのラベルデータとする。なお、上記雑音の傾斜及び利得リストは、学習のバッチごとに乱数に基づいて生成されてもよい。
以上の学習データを用いて音源方向を推定する音源方向推定装置のニューラルネットワークの構成は、実施の形態1から6におけるものと同様である。
実施の形態7に係る音源方向推定装置、音源方向推定方向、又は音源方向推定プログラムを用いれば、背景雑音の影響に頑健な音源方向の推定が可能になる。
実施の形態8.
〔取得した学習データから、フィルタを掛けたデータの生成〕
実施の形態8では、音源の周波数特性の変化に頑健な音源方向推定装置を説明する。実施の形態8は、パラメータD3の作成に使用される入力データ系列及び教師データ系列の元になる学習データとして、中心周波数と帯域幅の変化に応じて拡張された拡張学習データを用いる点が、実施の形態1から7と異なる。この点以外に関して、実施の形態8は、実施の形態1から7のいずれかと同じである。
図31は、実施の形態8における学習データの作成方法を示す図である。実施の形態8では、取得された原本の学習データから、拡張学習データを作成する。このため、原本の学習データの信号データに対して、デジタルフィルタの中心周波数及び帯域幅のリスト内に記載された中心周波数f1〜fnと帯域幅b1〜bnとの組合せである
Figure 0006559382
に応じて、デジタルフィルタ(ここでは、帯域フィルタ)を通し、拡張学習データ中の信号データを得る。同時に、ラベルデータに対して、上記リスト中の要素の数だけ、コピーを作成し、拡張学習データのラベルデータとする。なお、上記デジタルフィルタの中心周波数及び帯域幅のリストは、学習のバッチごとに乱数に基づいて生成されてもよい。
以上の学習データを用いて音源方向を推定する音源方向推定装置のニューラルネットワークの構成は、実施の形態1から7におけるものと同様である。
実施の形態8に係る音源方向推定装置、音源方向推定方向、又は音源方向推定プログラムを用いれば、音源の周波数特性の変化に頑健な音源方向の推定が可能になる。
実施の形態9.
〔取得した学習データから、チャンネル間の遅延時間をずらしたデータの生成〕
同一製品のマイクロホンアレーは、互いに同じ仕様で製造されている。しかし、同一製品のマイクロホンアレー間には、製造バラツキによる性能の違いがある。例えば、各マイクロホンの特性のバラツキ、各マイクロホンの取り付け位置のバラツキ、又はこれらの両方によって、音源から音波が放射された時点から音波を受音した各マイクロホンで受音信号が生成される時点までの時間にバラツキが生じ、音源方向の推定に影響を与える。実施の形態9では、製品毎のバラツキに頑健な音源方向推定装置を説明する。実施の形態9は、パラメータD3の作成に使用される入力データ系列及び教師データ系列の元になる学習データとして、製品毎のバラツキに応じて拡張された拡張学習データを用いる点が、実施の形態1から8と異なる。この点以外に関して、実施の形態9は、実施の形態1から8のいずれかと同じである。
図32は、実施の形態9における学習データの作成方法を示す図である。実施の形態9では、取得された原本の学習データから、拡張学習データを作成するために、原本の学習データの信号データに対して、各チャンネルch1〜ch8の遅延量のリスト
Figure 0006559382
を用意する。ここで、[1]から[n]は、リストごとの識別番号であり、nは、リストの長さを示す。
拡張学習データを用意するためには、各チャンネルch1〜ch8の遅延量d1〜d8に応じて、各チャンネルch1〜ch8の信号を遅延させるデジタルフィルタ、すなわち、「遅延層#1」〜「遅延層#8」を通し遅延させて、「遅延層#1」〜「遅延層#8」の出力を整形したデータを、拡張学習データ中の信号データとして得る。同時に、ラベルデータに対して、上記リスト中の要素の数だけ、コピーを作成し、拡張学習データのラベルデータとする。なお、上記遅延量のリストは、学習のバッチごとに乱数に基づいて生成されてもよい。
以上の学習データを用いて音源方向を推定する音源方向推定装置のニューラルネットワークの構成は、実施の形態1から8におけるものと同様である。
実施の形態9に係る音源方向推定装置、音源方向推定方向、又は音源方向推定プログラムを用いれば、製品の特性バラツキに頑健な音源方向の推定が可能になる。なお、実施の形態7〜9で述べたデータ拡張(つまり、学習データを拡張する手法)を、互いに組み合わせて適用してもよい。この場合、組み合わせた種類のデータ拡張に対応した頑健な音源方向の推定が可能になる。
実施の形態10.
〔生の複数チャンネルの信号を変換したデータからの音源方向の推定〕
複数のマイクロホンを有する電気機器(以下「マイクロホン製品」と言う。)の中には、これら複数のマイクロホンで生成された受音信号間で、加減算などの信号処理を行い、加工されたオーディオ信号を出力するものがある。実施の形態10では、元の受音信号が加工された信号を出力するマイクロホン製品から出力されたオーディオ信号から、このマイクロホン製品の内部の信号処理過程を知ることができない場合であっても、音源方向の推定を行うことのできる音源方向推定装置を提供する。つまり、実施の形態10では、マイクロホン製品における音響信号の加工処理部が処理内容のわからないブラックボックスであっても、音源方向の推定を可能にできる方法を提供する。
図33は、実施の形態10における学習データの取得時に使用される学習システムの構成を示す図である。図33において、図5に示される構成と同一又は対応する構成には、図5に示される符号と同じ符号が付されている。
図34は、複数のマイクロホンを有するマイクロホン製品の内部で行われる、複数の受音信号から加工信号を生成する処理を示す説明図である。マイクロホン製品の内部で行われる、複数の受音信号から加工信号を生成する処理は、非公開のものであってもよい。非公開のものとは、加工信号を生成する処理の内容が、仕様書などによって公開示されておらず、マイクロホン製品の使用者が知ることができないものを意味する。図35は、実施の形態10に係る音源方向推定装置が取得した学習データのファイル構成を示す図である。
図33に示されるように、雲台11aを駆動させて、マイクロホン製品10aの方位角θ及び仰角φを変えて、スピーカ15からのTSP信号に基づく音を学習用コンピュータ12にて収録する。学習用コンピュータ12に記録されたMチャンネルの加工信号から、図35に示される学習データを作成する。ここで、マイクロホン製品10aは、図34に示されるように、N個(Nは2以上の整数)のマイクロホンを有する。しかし、マイクロホン製品10aから外部に出力された信号は、これらマイクロホン製品10aの信号をブラックボックス内で加工された、Mチャンネル(Mは2以上の整数)の加工信号である。実施の形態10では、この加工信号から音源方向を推定する。
実施の形態10では、図35の学習データを用いて、実施の形態1の場合と同様に、ニューラルネットワークにおける学習を行うことができる。実施の形態10において、上記実施の形態1から9と異なる点は、8チャンネル音響信号の代わりに、Mチャンネルの加工信号を適用するため、配列の次元数「8」をMに置き換えるだけである。
以上の学習データを用いて音源方向を推定する音源方向推定装置のニューラルネットワークの構成は、実施の形態1から9におけるものと同様である。
実施の形態10に係る音源方向推定装置、音源方向推定方向、又は音源方向推定プログラムを用いれば、マイクロホン製品を用いて音源方向の推定を行うことができる。
変形例.
上記実施の形態1から10では、各種のハイパーパラメータを説明したが、ハイパーパラメータの値は、上記説明のものに限定されない。
上記実施の形態1から10では、畳込層の数、全結合層の数、として具体例な数を示した説明をしたが、これらの数は、他の数であってもよい。
上記実施の形態1から10では、変換網の構成、変換網における各層の数、非線形層の活性化関数の種類などを具体的に説明したが、これらは、上記例に限定されない。
10 マイクロホンアレー、 10a マイクロホン製品、 11,11a 雲台、 12 学習用コンピュータ、 15 スピーカ(学習時の音源)、 16 音源用コンピュータ、 20 受信部、 30 フレーム分割部、 40,40a,40b ニューラルネットワーク、 50 入力層、 60,60a,60b 変換網、 61,62 畳込層、 63,64 全結合層、 65 平坦化層、 66 識別層、 70 出力層、 80 記憶部、 90 表示部、 100 音源方向推定装置、 SS 音源、 θ 方位角、 φ 仰角。

Claims (19)

  1. 複数のマイクロホンから取得された複数チャンネルの音響信号を時間方向に複数のフレームに分割することによって、複数フレームの音響信号を作成するフレーム分割部と、
    力層、パラメータを記憶する記憶部、変換網及び出力層を有し、前記変換網は、前記入力層に入力された前記複数フレームの音響信号と学習データに基づいて作成された前記パラメータとに基づいて、音源の方向を推定する演算を行い、前記演算の結果を、前記出力層を介して出力するニューラルネットワークと、
    を備え、
    前記出力層は、複数の出力ユニットを有し、
    前記パラメータは、前記複数のユニットのうちの2つの出力ユニットの間の出力の近接度が、前記2つの出力ユニットに対応付けられた音源の方向の間の近接度と符合する方向になるように更新する制約付きの学習によって得られた
    ことを特徴とする音源方向推定装置。
  2. 前記入力層は、前記複数のフレームの各々の長さに対応するサンプル数に前記複数チャンネルの音響信号のチャンネル数を掛けることによって得られた値に等しい数の入力ユニットを有することを特徴とする請求項1に記載の音源方向推定装置。
  3. 前記入力層は、前記複数フレームの音響信号のそれぞれについて、前記複数のフレームの各々の長さに対応するサンプル数に前記複数チャンネルの音響信号のチャンネル数を掛けることによって得られた値に等しい数の入力ユニットを有することを特徴とする請求項1に記載の音源方向推定装置。
  4. 前記変換網は、前記入力層に入力された前記複数フレームの音響信号の各チャンネルの成分に対し、前記パラメータに含まれるフィルタ係数との畳込演算を行う第1の畳込層を含むことを特徴とする請求項1に記載の音源方向推定装置。
  5. 前記変換網は、前記第1の畳込層の後段に接続され、前記第1の畳込層から出力されるデータ配列に、前記パラメータに含まれるフィルタ係数との畳込演算を行う第2の畳込層を含むことを特徴とする請求項4に記載の音源方向推定装置。
  6. 前記出力層は、前記変換網によって推定され音源方向の数の最大数に等しい数の出力ユニットを有することを特徴とする請求項1から5のいずれか1項に記載の音源方向推定装置。
  7. 前記変換網は、1つ以上の全結合層をさらに含むことを特徴とする請求項4又は5に記載の音源方向推定装置。
  8. 複数のマイクロホンから取得された複数チャンネルの音響信号を時間方向に複数のフレームに分割することによって、複数フレームの音響信号を作成するフレーム分割部と、
    入力層、パラメータを記憶する記憶部、変換網及び出力層を有し、前記変換網は、前記入力層に入力された前記複数フレームの音響信号と学習データに基づいて作成された前記パラメータとに基づいて、音源の方向を推定する演算を行い、前記演算の結果を、前記出力層を介して出力するニューラルネットワークと、
    を備え、
    前記変換網は、前記複数チャンネルの音響信号のフレーム毎の強度に応じて前記出力層に出力されるデータの値を制御するゲート層を含むことを特徴とする音源方向推定装置。
  9. 複数のマイクロホンから取得された複数チャンネルの音響信号を時間方向に複数のフレームに分割することによって、複数フレームの音響信号を作成するフレーム分割部と、
    入力層、パラメータを記憶する記憶部、変換網及び出力層を有し、前記変換網は、前記入力層に入力された前記複数フレームの音響信号と学習データに基づいて作成された前記パラメータとに基づいて、音源の方向を推定する演算を行い、前記演算の結果を、前記出力層を介して出力するニューラルネットワークと、
    を備え、
    前記変換網は、推定される音源の数に等しい数の識別層と、前記識別層の出力を前記音源の出現確率に応じて制御するゲート層とを有することを特徴とする音源方向推定装置。
  10. 前記変換網は、前記1つ以上の全結合層の出力に、ソフトマックス演算を行い、前記ソフトマックス演算の結果を前記出力層に出力することを特徴とする請求項に記載の音源方向推定装置。
  11. 前記音源の方向は、方位角、仰角、及び方位角と仰角との組合せのいずれかで示されることを特徴とする請求項1から10のいずれか1項に記載の音源方向推定装置。
  12. 前記パラメータは、学習用コンピュータが、前記複数のマイクロホンを備えたマイクロホンアレー又はマイクロホン製品の方位角と仰角の少なくとも一方を変えて取得した原本の学習データから作成したデータであることを特徴とする請求項1から11のいずれか1項に記載の音源方向推定装置。
  13. 前記パラメータは、前記学習用コンピュータが、前記原本の学習データにおける各要素に、予め用意された又は乱数に基づいて生成された利得を掛けて生成した拡張された学習データから作成したデータであることを特徴とする請求項12に記載の音源方向推定装置。
  14. 前記パラメータは、前記学習用コンピュータが、前記原本の学習データにおける各要素に、予め用意された又は乱数に基づいて生成された雑音を重畳して生成した拡張された学習データから作成したデータであることを特徴とする請求項12に記載の音源方向推定装置。
  15. 前記パラメータは、前記学習用コンピュータが、前記原本の学習データにおける各要素を、デジタルフィルタで予め用意された又は乱数に基づいて生成された中心周波数及び帯域幅を通過させて生成した拡張された学習データから作成したデータであることを特徴とする請求項12に記載の音源方向推定装置。
  16. 前記パラメータは、前記学習用コンピュータが、前記原本の学習データにおける各チャンネル毎に、予め用意された又は乱数に基づいて生成された遅延量だけ遅延させて生成した拡張された学習データから作成したデータであることを特徴とする請求項12に記載の音源方向推定装置。
  17. 前記パラメータは、前記学習用コンピュータが、前記マイクロホン製品が内部において取得する複数チャンネルの音響信号間の信号処理によって変換された複数チャンネルの加工信号から生成した学習データから作成したデータであることを特徴とする請求項12に記載の音源方向推定装置。
  18. 複数のマイクロホンから取得された複数チャンネルの音響信号を時間方向に複数のフレームに分割することによって、複数フレームの音響信号を作成するステップと、
    力層、パラメータを記憶する記憶部、変換網及び出力層を有するニューラルネットワークの前記変換網が、前記入力層に入力された前記複数フレームの音響信号と学習データに基づいて作成された前記パラメータとに基づいて、音源の方向を推定する演算を行い、前記演算の結果を、前記出力層を介して出力するステップと、
    を有し、
    前記出力層は、複数の出力ユニットを有し、
    前記パラメータは、前記複数のユニットのうちの2つの出力ユニットの間の出力の近接度が、前記2つの出力ユニットに対応付けられた音源の方向の間の近接度と符合する方向になるように更新する制約付きの学習によって得られた
    ことを特徴とする音源方向推定方法。
  19. 複数のマイクロホンから取得された複数チャンネルの音響信号を時間方向に複数のフレームに分割することによって、複数フレームの音響信号を作成する処理と、
    力層、パラメータを記憶する記憶部、変換網及び出力層を有するニューラルネットワークの前記変換網が、前記入力層に入力された前記複数フレームの音響信号と学習データに基づいて作成された前記パラメータとに基づいて、音源の方向を推定する演算を行い、前記演算の結果を、前記出力層を介して出力する処理であって、前記出力層は、複数の出力ユニットを有し、前記パラメータは、前記複数のユニットのうちの2つの出力ユニットの間の出力の近接度が、前記2つの出力ユニットに対応付けられた音源の方向の間の近接度と符合する方向になるように更新する制約付きの学習によって得られたパラメータである処理と、
    をコンピュータに実行させることを特徴とする音源方向推定プログラム。
JP2019517124A 2018-12-21 2018-12-21 音源方向推定装置、音源方向推定方法、及び音源方向推定プログラム Active JP6559382B1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/047184 WO2020129231A1 (ja) 2018-12-21 2018-12-21 音源方向推定装置、音源方向推定方法、及び音源方向推定プログラム

Publications (2)

Publication Number Publication Date
JP6559382B1 true JP6559382B1 (ja) 2019-08-14
JPWO2020129231A1 JPWO2020129231A1 (ja) 2021-02-15

Family

ID=67614855

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019517124A Active JP6559382B1 (ja) 2018-12-21 2018-12-21 音源方向推定装置、音源方向推定方法、及び音源方向推定プログラム

Country Status (3)

Country Link
JP (1) JP6559382B1 (ja)
TW (1) TW202025142A (ja)
WO (1) WO2020129231A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220011064A (ko) * 2020-07-20 2022-01-27 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 음성 검출 방법 및 장치

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2607933A (en) * 2021-06-17 2022-12-21 Nokia Technologies Oy Apparatus, methods and computer programs for training machine learning models
TWI825481B (zh) * 2021-09-17 2023-12-11 英業達股份有限公司 噪音源檢測系統及方法、內儲程式之電腦程式產品及內儲程式之電腦可讀取記錄媒體

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017044916A (ja) * 2015-08-27 2017-03-02 本田技研工業株式会社 音源同定装置および音源同定方法
US20170353789A1 (en) * 2016-06-01 2017-12-07 Google Inc. Sound source estimation using neural networks
JP2018018350A (ja) * 2016-07-28 2018-02-01 富士通株式会社 画像認識装置、画像認識プログラム、画像認識方法および認識装置
JP2018026040A (ja) * 2016-08-12 2018-02-15 キヤノン株式会社 情報処理装置および情報処理方法
JP6320649B1 (ja) * 2017-03-31 2018-05-09 三菱電機株式会社 機械学習装置及び画像認識装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1060775A (en) * 1977-03-18 1979-08-21 Manfred A.A. Lupke Apparatus for perforating tubing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017044916A (ja) * 2015-08-27 2017-03-02 本田技研工業株式会社 音源同定装置および音源同定方法
US20170353789A1 (en) * 2016-06-01 2017-12-07 Google Inc. Sound source estimation using neural networks
JP2018018350A (ja) * 2016-07-28 2018-02-01 富士通株式会社 画像認識装置、画像認識プログラム、画像認識方法および認識装置
JP2018026040A (ja) * 2016-08-12 2018-02-15 キヤノン株式会社 情報処理装置および情報処理方法
JP6320649B1 (ja) * 2017-03-31 2018-05-09 三菱電機株式会社 機械学習装置及び画像認識装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
武田 龍: "「方向依存活性化関数を用いたDeep Neural Networkに基づく識別的音源定位」", 情報処理学会研究報告 音声言語情報処理(SLP), vol. Vol.2016-SLP-112 No.13, JPN6019004986, 30 July 2016 (2016-07-30), JP, pages 1 - 6, ISSN: 0004020723 *
澤田 夕暉: "「装着型多チャンネルマイクロホンによる音源方向推定について」", 2017年電子情報通信学会総合大会講演論文集 基礎・境界/NOLTA, JPN6019004984, 22 March 2017 (2017-03-22), pages 81, ISSN: 0004020722 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220011064A (ko) * 2020-07-20 2022-01-27 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 음성 검출 방법 및 장치
KR102599978B1 (ko) * 2020-07-20 2023-11-08 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 음성 검출 방법 및 장치

Also Published As

Publication number Publication date
JPWO2020129231A1 (ja) 2021-02-15
TW202025142A (zh) 2020-07-01
WO2020129231A1 (ja) 2020-06-25

Similar Documents

Publication Publication Date Title
CN110503128B (zh) 使用卷积生成对抗网络进行波形合成的谱图
US20210089967A1 (en) Data training in multi-sensor setups
JP4810109B2 (ja) 別個の信号の成分を分離する方法およびシステム
JP6559382B1 (ja) 音源方向推定装置、音源方向推定方法、及び音源方向推定プログラム
JP6807029B2 (ja) 音源分離装置および方法、並びにプログラム
JP6976804B2 (ja) 音源分離方法および音源分離装置
EP2731359B1 (en) Audio processing device, method and program
JPWO2009110574A1 (ja) 信号強調装置、その方法、プログラム及び記録媒体
JP2011076068A (ja) 複数の独立したプロセスによって作り出された信号のスペクトログラムの次元を削減するための方法およびシステム
WO2015159731A1 (ja) 音場再現装置および方法、並びにプログラム
JP6591477B2 (ja) 信号処理システム、信号処理方法及び信号処理プログラム
JP6371516B2 (ja) 音響信号処理装置および方法
US20190198036A1 (en) Information processing apparatus, information processing method, and recording medium
EP3994690B1 (en) Audio processing apparatus and method for denoising a multi-channel audio signal
JP2022135451A (ja) 音響処理装置、音響処理方法およびプログラム
JP2011133780A (ja) 信号分析装置、信号分析方法及び信号分析プログラム
CN109644304B (zh) 混响环境的源分离
EP3761665B1 (en) Acoustic signal processing device, acoustic signal processing method, and acoustic signal processing program
JP4946330B2 (ja) 信号分離装置及び方法
WO2021172181A1 (ja) 音響処理方法、推定モデルの訓練方法、音響処理システムおよびプログラム
JP2017152825A (ja) 音響信号解析装置、音響信号解析方法、及びプログラム
JP2019074621A (ja) 信号分離装置、信号分離方法及びプログラム
JP5520883B2 (ja) 信号分解装置、方法、及びプログラム
JP4849404B2 (ja) 信号処理装置、信号処理方法およびプログラム
KR101621718B1 (ko) 배음 구조 및 성김 구조 제약조건을 이용한 화성악기와 타악기 소리의 분리 방법

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190328

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190328

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20190328

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20190415

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190423

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190604

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190618

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190716

R150 Certificate of patent or registration of utility model

Ref document number: 6559382

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250