JP2021092695A - 音源分離装置、音源分離方法、およびプログラム - Google Patents

音源分離装置、音源分離方法、およびプログラム Download PDF

Info

Publication number
JP2021092695A
JP2021092695A JP2019223975A JP2019223975A JP2021092695A JP 2021092695 A JP2021092695 A JP 2021092695A JP 2019223975 A JP2019223975 A JP 2019223975A JP 2019223975 A JP2019223975 A JP 2019223975A JP 2021092695 A JP2021092695 A JP 2021092695A
Authority
JP
Japan
Prior art keywords
sound source
sound
acoustic signal
topic
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019223975A
Other languages
English (en)
Other versions
JP7292646B2 (ja
Inventor
一博 中臺
Kazuhiro Nakadai
一博 中臺
泰宏 鍵本
Yasuhiro Kagimoto
泰宏 鍵本
克寿 糸山
Katsutoshi Itoyama
克寿 糸山
健次 西田
Kenji Nishida
健次 西田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Tokyo Institute of Technology NUC
Original Assignee
Honda Motor Co Ltd
Tokyo Institute of Technology NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd, Tokyo Institute of Technology NUC filed Critical Honda Motor Co Ltd
Priority to JP2019223975A priority Critical patent/JP7292646B2/ja
Publication of JP2021092695A publication Critical patent/JP2021092695A/ja
Application granted granted Critical
Publication of JP7292646B2 publication Critical patent/JP7292646B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】同方向に複数の音源が存在する場合であっても、所望の音源を取り出すことができる音源分離装置、音源分離方法、およびプログラムを提供することを目的としている。【解決手段】音源分離装置は、音響信号を収音する複数のマイクロホンアレイと、少なくとも2つのマイクロホンアレイによって収音されたそれぞれの収音音響信号に、注目音源の第1音響信号と、注目音源と同じ方向の他の音源の第2音響信号とが含まれる場合、少なくとも2つのマイクロホンアレイによって収音されたそれぞれの収音音響信号に含まれている共通成分を抽出して、収音音響信号から前記第1音響信号を抽出する抽出部と、を備える。【選択図】図2

Description

本発明は、音源分離装置、音源分離方法、およびプログラムに関する。
複数の音源から特定の音源を抽出する技術が開発されている。例えば、位置情報を用いた音源分離手法としてビームフォーミングを用いる手法がある。ビームフォーミングでは、信号の到達時間差や位相差を用いることにより、方向情報に基づいた音源分離を行うことができる(例えば、特許文献1参照)。
特開2010−152107号公報
しかしながら、従来技術では、同方向に複数の音源が存在する場合に、所望の音源を取り出すことが困難であった。
本発明は、上記の問題点に鑑みてなされたものであって、同方向に複数の音源が存在する場合であっても、所望の音源を取り出すことができる音源分離装置、音源分離方法、およびプログラムを提供することを目的としている。
(1)上記目的を達成するため、本発明の一態様に係る音源分離装置は、音響信号を収音する複数のマイクロホンアレイと、少なくとも2つの前記マイクロホンアレイによって収音されたそれぞれの収音音響信号に、注目音源の第1音響信号と、前記注目音源と同じ方向の他の音源の第2音響信号とが含まれる場合、少なくとも2つの前記マイクロホンアレイによって収音されたそれぞれの前記収音音響信号に含まれている共通成分を抽出して、前記収音音響信号から前記第1音響信号を抽出する抽出部と、を備える。
(2)また、本発明の一態様に係る音源分離装置において、前記抽出部は、前記共通成分を、潜在的ディリクレ配分法を用いて抽出するようにしてもよい。
(3)また、本発明の一態様に係る音源分離装置において、前記収音音響信号に含まれている音のトピックを分類する分類部、をさらに備え、前記抽出部は、前記分類部によって、前記マイクロホンアレイ毎に分類された前記トピックを比較し、比較した結果、複数の前記マイクロホンアレイそれぞれが収音した前記収音音響信号において同じトピックである場合に、前記同じトピックを前記注目音源であると推定して、前記収音音響信号から、前記同じトピックに対応する音響信号を前記第1音響信号として抽出するようにしてもよい。
(4)また、本発明の一態様に係る音源分離装置において、前記分類部は、前記マイクロホンアレイそれぞれによって収音された前記収音音響信号を周波数スペクトルに変換し、前記マイクロホンアレイ毎の前記周波数スペクトルを、時間フレームにおいてM(Mは2以上の整数)個の区間に分割してセグメント化し、各セグメントに含まれている前記時間フレーム毎の周波数スペクトルを前記トピック毎に分類するようにしてもよい。
(5)また、本発明の一態様に係る音源分離装置において、前記抽出部は、時間区間毎の前記トピックの分布と、前記トピック毎の前記周波数スペクトルを量子化した量子化スペクトルの分布を推定し、前記トピックの分布と前記量子化スペクトルの分布の事後確率が、それぞれアクティブ状態を判別するための閾値より大きいものをアクティブ状態であるとし、同時刻の前記セグメントごとの前記トピックの分布を比較し、少なくとも2つの前記マイクロホンアレイにおいてアクティブになっている前記トピックを抽出することで前記共通成分を抽出するようにしてもよい。
(6)また、本発明の一態様に係る音源分離装置において、前記マイクロホンアレイに対して、前記注目音源の方向にビームを形成するように制御する制御部、をさらに備え、複数の前記マイクロホンアレイは、前記制御部の制御に応じて、前記注目音源の前記第1音響信号を含む前記収音音響信号を収音するようにしてもよい。
(7)また、本発明の一態様に係る音源分離装置において、前記マイクロホンアレイそれぞれが収音した前記収音音響信号に対して音源定位を行う音源定位部と、前記マイクロホンアレイそれぞれが収音した前記収音音響信号から、前記音源定位された定位結果に基づいて、前記第1音響信号を含む分離信号を分離する音源分離部と、をさらに備え、前記抽出部は、少なくとも2つの前記マイクロホンアレイそれぞれの前記収音音響信号から分離されたそれぞれの前記分離信号に含まれている共通成分を抽出して、前記収音音響信号から前記第1音響信号を抽出するようにしてもよい。
(8)上記目的を達成するため、本発明の一態様に係る音源分離方法は、複数のマイクロホンアレイが、音響信号を収音し、抽出部が、少なくとも2つの前記マイクロホンアレイによって収音されたそれぞれの収音音響信号に、注目音源の第1音響信号と、前記注目音源と同じ方向の他の音源の第2音響信号とが含まれる場合、少なくとも2つの前記マイクロホンアレイによって収音されたそれぞれの前記収音音響信号に含まれている共通成分を抽出して、前記収音音響信号から前記第1音響信号を抽出する。
(9)上記目的を達成するため、本発明の一態様に係るプログラムは、コンピュータに、複数のマイクロホンアレイによって音響信号を収音させ、少なくとも2つの前記マイクロホンアレイそれぞれによって収音された収音音響信号に、注目音源の第1音響信号と、前記注目音源と同じ方向の他の音源の第2音響信号とが含まれる場合、少なくとも2つの前記マイクロホンアレイによって収音されたそれぞれの前記収音音響信号に含まれている共通成分を抽出させ、前記収音音響信号から前記第1音響信号を抽出させる。
上述した(1)〜(9)によれば、収音音響信号に含まれている共通成分を抽出するようにしたので、同方向に複数の音源が存在する場合であっても、所望の音源を取り出すことができる。
また、上述した(2)によれば、潜在的ディリクレ配分法によって共通成分を抽出するようにしたので、精度良く所望の音源を取り出すことができる。
また、上述した(3)によれば、収音音響信号を音のトピックに分類して、一致しているトピックを共通成分をとして抽出するようにしたので、精度良く所望の音源を取り出すことができる。
また、上述した(4)によれば、収音音響信号をセグメントに分け、セグメント毎に音のトピックに分類して、一致しているトピックを共通成分をとして抽出するようにしたので、精度良く所望の音源を取り出すことができる。
また、上述した(5)によれば、同時刻のセグメントごとのトピック分布を比較し,少なくとも2つのマイクロホンアレイでアクティブになっているトピックを抽出して共通成分を抽出するようにしたので、精度良く所望の音源を取り出すことができる。
また、上述した(6)によれば、ビームフォーミングによって分離された収音音響信号に含まれている共通成分を抽出するようにしたので、同方向に複数の音源が存在する場合であっても、所望の音源を取り出すことができる。
また、上述した(7)によれば、音源定位処理と音源分離処理によって収音音響信号から分離信号を分離し、分離信号に含まれている共通成分を抽出するようにしたので、同方向に複数の音源が存在する場合であっても、所望の音源を取り出すことができる。
実施形態に係る分離対象の音源の位置例とマイクロホンアレイの配置例を示す図である。 第1実施形態に係る音源分離装置の構成例を示すブロック図である。 第1実施形態に係る音源分離装置が行う処理手順を示すフローチャートである。 周波数スペクトルの量子化スペクトル化を説明するための図である。 k−meansの処理手順例を示すフローチャートである。 LDAの量子化スペクトルのまとまりの生成過程例を示すフローチャートである。 LDAのグラフィカルモデルを表す図である。 実施形態に係るトピックモデルに対する変分ベイズ推定のアルゴリズムの一例である。 注目音源のスペクトル推定の例を示す図である。 クラスタ数K=600、セグメントの時間区間d=4秒、トピック数L=5のときの抽出音の一例を示す図である。 クラスタ数K=600、時間区間d=4秒の場合のトピック数Lに伴う分離性能の変化を示す図である。 クラスタ数K=100、300、600と、セグメントの長さの違いによる分離性能の変化を示す図である。 クラスタ数K=600、時間区間d=4秒、トピック数L=5の場合、無音成分とユニーク成分の除去を行う場合と行わない場合の分離性能を比較した評価結果を示す図である。 第2実施形態に係る音源分離装置の構成例を示すブロック図である。 無音区間と発話区間を説明するための図である。
以下、本発明の実施の形態について図面を参照しながら説明する。
まず、実施形態の概要を説明する。図1は、実施形態に係る分離対象の音源の位置例とマイクロホンアレイの配置例を示す図である。
図1に示す例では、4人の話者の音源S〜Sのうち、音源Sを注目音源とする。符号MA〜MAは、マイクロホンアレイである。マイクロホンアレイMAによって収音された音響信号を分離した分離音には音源SとSが含まれる。マイクロホンアレイMAによって収音された音響信号を分離した分離音には音源SとSが含まれる。マイクロホンアレイMAによって収音された音響信号を分離した分離音には音源SとSが含まれる。
図1のように注目音源Sは、複数のマイクロホンアレイで収音して分離した分離音に共通で含まれる場合がある。このため、以下に説明する各実施形態では、複数のマイクロホンアレイで収音して分離した分離音に共通で含まれる共通成分を抽出することで、所望の音源を分離する。
<第1実施形態>
第1実施形態では、音源方向が既知であり、ビームフォーミング法によって音源方向の音響信号を収音して分離する例を説明する。
[音源分離装置の構成例]
まず、本実施形態の音源分離装置1の構成例を説明する。
図2は、本実施形態に係る音源分離装置1の構成例を示すブロック図である。図2に示すように、音源分離装置1は、収音部2、および処理部3を備える。
収音部2は、第1マイクロホンアレイ2−1、第2マイクロホンアレイ2−2、および第3マイクロホンアレイ2−3を備える。なお、図2に示す構成では、収音部2が3つのマイクロホンアレイを備える例を説明するが、マイクロホンアレイの数は2つ以上であればよい。
処理部3は、ビームフォーミング制御部30、取得部31、変換部34、分類部35、除去部36、抽出部37、逆変換部38、および出力部39を備える。
[音源分離装置の動作、機能]
次に、音源分離装置1の各部の動作と機能例を説明する。
第1マイクロホンアレイ2−1、第2マイクロホンアレイ2−2、および第3マイクロホンアレイ2−3それぞれは、処理部3のビームフォーミング制御部30に応じて、既知の音源方向にビームを形成する。第1マイクロホンアレイ2−1、第2マイクロホンアレイ2−2、および第3マイクロホンアレイ2−3それぞれは、P(Pは2以上の整数)個ずつのマイクロホンを備えるマイクロホンアレイである。第1マイクロホンアレイ2−1、第2マイクロホンアレイ2−2、および第3マイクロホンアレイ2−3それぞれは、収音した音響信号を処理部3に出力する。なお、各マイクロホンアレイが出力する音響信号には、マイクロホンアレイを識別するための識別情報が含まれている。なお、各マイクロホンアレイが収音した音響信号は、ビームフォーミング法で既知の音源方向に形成された、例えば1つのビームによる1つの指向性マイクロホンによって収音された音響信号に相当する。なお、マイクロホンアレイそれぞれが集音する収音音響信号は、図1のように、注目音源の第1音響信号と、注目音源と同じ方向の他の音源の第2音響信号とが含まれている場合があるとする。
ビームフォーミング制御部30は、ビームフォーミング法によって既知の音源方向にビームを形成するように、第1マイクロホンアレイ2−1、第2マイクロホンアレイ2−2、および第3マイクロホンアレイ2−3それぞれを制御する。
取得部31は、第1マイクロホンアレイ2−1、第2マイクロホンアレイ2−2、および第3マイクロホンアレイ2−3それぞれが出力する音響信号(収音音響信号)を取得する。取得部31は、取得したマイクロホンアレイ毎の音響信号を変換部34に出力する。
変換部34は、取得部31が出力するマイクロホンアレイ毎の音響信号を取得する。変換部34は、マイクロホンアレイ毎の音響信号に対して短時間フーリエ変換(STFT;short−time Fourier transform)を行って、時間周波数領域の振幅スペクトル(以下、周波数スペクトルともいう)に変換する。変換部34は、変換したマイクロホンアレイ毎の周波数スペクトルを分類部35に出力する。
分類部35は、変換部34が出力するマイクロホンアレイ毎の周波数スペクトルを取得する。分類部35は、各マイクロホンアレイの周波数スペクトルを、時間フレームにおいてM(Mは2以上の整数)個の区間に分割してセグメント化する。分類部35は、時間フレーム毎の振幅スペクトルを1つのベクトルと見なして、各セグメントに含まれている時間フレーム毎の周波数スペクトルを量子化スペクトルとし、量子化スペクトルの数をカウントする。また、分類部35は、マイクロホンアレイ毎に、各セグメントに含まれている量子化スペクトルを、例えばk−means法のクラスタリング手法で分類する。なお、分類方法については、後述する。分類部35は、マイクロホンアレイ毎に、カウントした結果を示すカウント情報と、分類結果を示す分類情報を除去部36に出力する。
除去部36は、分類部35が出力するカウント情報と分類情報を取得する。除去部36は、量子化スペクトルからノイズ成分を除去する。ここで、人の話し声には、無音成分が多く含まれるため、多くの時間区間に含まれる量子化スペクトルが無音である可能性が高い。このため、除去部36は、例えば全区間の7割以上に出てくる分類単位と、3未満のセグメントにしか出てこない量子化スペクトルを除去する。除去部36は、ノイズ成分の除去後のカウント情報と分類情報を抽出部37に出力する。
抽出部37は、除去部36が出力するノイズ成分の除去後のカウント情報と分類情報を取得する。抽出部37は、取得したカウント情報と分類情報を用いて、例えば潜在的ディリクレ配分法(LDA;Latent Dirichlet Allocation)を用いて、マイクロホンアレイ毎かつセグメント毎に、周波数スペクトルを話者や発話内容に基づくトピックとして、トピック分布を推定する。抽出部37は、複数のマイクロホンアレイにおいて、トピックの時間同一性によるスペクトル抽出を行うことで、注目音源の推定時間周波数スペクトログラムを抽出する。具体的には、抽出部37は、時間区間ごとに推定したトピックを選び、推定したトピックが持つトピック分布に存在する周波数スペクトルだけを抽出する。なお、推定方法については後述する。抽出部37は、抽出したスペクトルを逆変換部38に出力する。
逆変換部38は、抽出部37が出力するスペクトルを取得する。逆変換部38は、取得したすスペクトルに対して、逆短時間フーリエ変換(ISTFT;Inverse short-time Fourier transform)を行うことで注目音源の推定信号を復元する。逆変換部38は、復元した注目音源の音響信号を出力部39に出力する。
出力部39は、例えばスピーカーである。出力部39は、逆変換部38が出力する音響信号を再生する。
[音源分離装置1の処理]
次に、音源分離装置1が行う処理手順例を説明する。
図3は、本実施形態に係る音源分離装置1が行う処理手順を示すフローチャートである。
(ステップS1)ビームフォーミング制御部30は、収音部2の各マイクロホンアレイに対して、既知の音源方向にビームを形成するように制御する。
(ステップS2)収音部2は、形成されたビームによって、音響信号を収音する。これにより、収音部2は、音源方向の音源に対応する音響信号を収音する。なお、収音された音響信号は、分離音であり、図1のように、同じ音源方向の複数の音源の音響信号を含む場合がある。
(ステップS3)変換部34は、収音されたマイクロホンアレイ毎の音響信号に対して短時間フーリエ変換を行って、周波数スペクトルに変換する。
(ステップS4)分類部35は、各マイクロホンアレイの周波数スペクトルを、時間フレームにおいてM個の区間に分割してセグメント化する。続けて、分類部35は、各セグメントに含まれている量子化スペクトルの数をカウントする。続けて、分類部35は、マイクロホンアレイ毎に、各セグメントに含まれている量子化スペクトルを、例えばk−means法のクラスタリング手法で分類する。
(ステップS5)除去部36は、量子化スペクトルからノイズ成分を除去する。
(ステップS6)抽出部37は、取得したカウント情報と分類情報を用いて、例えば潜在的ディリクレ配分法を用いて、マイクロホンアレイ毎かつセグメント毎に、周波数スペクトルを話者や発話内容に基づくトピックとして、トピック分布を推定する。
(ステップS7)抽出部37は、複数のマイクロホンアレイにおいて、トピックの時間同一性によるスペクトル抽出を行うことで、注目音源の推定時間周波数スペクトログラムを抽出する。
(ステップS8)逆変換部38は、取得したスペクトルに対して、逆短時間フーリエ変換を行うことで注目音源の推定信号を復元する。続けて、出力部39は、逆変換部38が出力する音響信号を再生する。
[LDAを用いた注目音源の抽出方法]
次に、LDAを用いた注目音源の抽出方法を説明する。
実施形態では、複数のマイクロホンアレイでビームフォーミングして得られた注目音源方向の各分離音に対して、全ての分離音に共通する成分だけを取り出すことで注目音源が抽出する。
実施形態では、時間フレームごとの周波数スペクトルを一つの量子化スペクトルとして扱い、時間区間ごとの周波数スペクトルの集合をセグメントとして扱う。このようにすることで、周波数スペクトルを話者や発話内容に基づくトピックと呼ばれるグループに分類することができる。
別の話者のスペクトルは異なるトピックに割り振られる場合は、ある時間区間で分離音のトピックが異なる場合は注目音源が存在していない。また、すべての分離音に同じトピックが割り当てられる場合は、そのトピックは注目音源である。
実施形態では、このようにしてトピックの時間同一性から注目音源のトピックを推定し,そのトピックがもつ周波数スペクトルだけを抜き出すことで共通成分を抽出する。
(前処理)
実施形態では、音響信号に対してLDAを適用するために、音を量子化スペクトル化する前処理を行う。
実施形態では、時間フレームごとの振幅スペクトルを一つの量子化スペクトルベクトルとみなし、例えば、k−means法のクラスタリング手法を用いて、似たような成分を持つ量子化スペクトルベクトルをいくつかのグループに分ける。
まず、k−means法による周波数スペクトルの量子化スペクトル化について説明する。
短時間フーリエ変換を音響信号X(t)に適用すると、時間周波数領域の振幅スペクトルY(ω、t)∈RF×T(Rは、正の実数全体の集合)が得られる。ここで,Fは周波数ビン数を表し、Tは時間フレーム数を表す。図4のように、時間フレームごとの振幅スペクトルy(t)を一つのベクトルとみなして量子化スペクトル化を行う。さらに、実施形態では、k−means法により、y(t)をK個のクラスk∈{1,…,K}に分類する。図4は、周波数スペクトルの量子化スペクトル化を説明するための図である。図4において、横軸は時間フレームであり、縦軸は周波数である。
ここで、k−meansの処理手順例を説明する。
図5は、k−meansの処理手順例を示すフローチャートである。なお、iはマイクロホンアレイの番号であり、Kは量子化スペクトルのクラスタのクラスタ数である。実施形態では、周波数ベクトル成分の類似性に基づき、マイクロホンアレイi毎、時間フレームt毎にクラスkが割り当てられる。
(ステップS11)分類部35は、y(t)をランダムにクラスタkに配分する。
(ステップS12)分類部35は、各クラスkに属するxitのクラスタ中心Vを計算する。
(ステップS13)分類部35は、yitを最も近いクラスタ中心Vに再配分する。
(ステップS14)分類部35は、変化が収束したか否か、事前に与えられた回数が終了したか否かを判別する。分類部35は、変化が収束した、または事前に与えられた回数が終了したと判別した場合(ステップS14;YES)、処理を終了する。分類部35は、変化が収束していない、かつ事前に与えられた回数が終了していないと判別した場合(ステップS14;NO)、ステップS12の処理に戻す。
次に、トピックモデルについて説明する。各分離音の共通成分を抽出するために、実施形態では、音響信号にトピックモデルを当てはめる。
トピックモデルは、大量の文書データから何らかの意味情報を発見するための道具として考えられたものである。トピックモデルは、文書データの解析手法として考案されたが、その構造モデルの汎用性の高さから、画像処理やソーシャルネットワーク解析、音響信号処理などでも使われている。音響信号処理分野では、例えば信号到来方向(DOA;Direction Of Arrival)情報にトピックモデルを用いた話者推定法が考案されている。
トピックモデルでは、セグメントm毎にトピック分布m=(θm1,…,θmL)が得られる。ここでθml=p(l|θ)は、セグメントmの量子化スペクトルにトピックlが割り当てられる確率を表し、θml≧0、Σθml=1を満たす。また、トピックlごとに量子化スペクトル分布φ=(φl1,…,φlK)が得られる。φlk=p(k|φ)は、トピックlにおける値kの現れやすさを表す確率であり、φlk≧0、Σφlk=1を満たす。
また、トピックモデルでは、量子化スペクトルの順序は考慮せず、どの量子化スペクトルが何回現れるかによってセグメントを表現する。そのため、各マイクロホンアレイiの分離信号をM個の区間に分割しセグメント化する。
分類部35は、このようにして得たセグメントmに対して、それぞれに含まれる量子化スペクトルkの数を数える。分類部35は、この操作によってLDAへの頻度行列W∈R3M×K(Rは、正の実数全体の集合)を作成する。なお、頻度行列Wの行数が3Mの理由は、3つのマイクロホンアレイのセグメント全体でLDAを計算するためである。
(LDAによる注目トピックの推定)
上述したように、前処理後、除去部36は、ノイズ成分を除去する。
実施形態では、前処理で作成された頻度行列Wに対してLDAを適用する。LDAの推定法については変分ベイズ法を用いる。
実施形態では、LDAを用いて、各セグメントのトピック分布θim={θ,…,θ}(ただし、i=1,…,N、m=1,…,M)と、トピック毎の量子化スペクトル分布φ={φl1,…,φlK}(ただし、l=1,…,L)を推定する。LDAでは、量子化スペクトル分布とトピック分布に多項分布,その事前分布にディリクレ分布を仮定する。ここで、多項分布は「値がkになる確率がφであるとき,K種類の離散値から1つの値を取り出す操作をN回行ったときの確率」を表す。多項分布は、次式(1)のように表される。なお、xは、分離音である。
Figure 2021092695
また、ディリクレ分布は、φ≧0、Σk=1 φ=1という制約を満たす多項分布のパラメータφ=(φ,…,φ)の確率分布であり、次式(2)のように表される。
Figure 2021092695
式(2)において、Γ(・)はガンマ関数を表し、分数部分は正規化項である。また、βはハイパーパラメータを表し、βの値によって多項分布のパラメータがφとなる確率が決まる。
図6は、LDAの量子化スペクトルのまとまりの生成過程例を示すフローチャートである。
なお、lはトピック番号を表し、mはセグメント番号を表し、Nはセグメントmに含まれる量子化スペクトル数を表している。また、セグメントmのn番目の量子化スペクトルに対して、zmnはトピック番号を表し、wmnは単語番号を表す。
この生成過程では、トピック分布と量子化スペクトル分布を多項分布で表し、事前分布としてはディリクレ分布を採用する。また、α、βはそれぞれのハイパーパラメータを表す。
(ステップS21〜S23)抽出部37は、トピックlについて、1〜Lまで分布を生成{φ〜Dirichlet(β)}する処理(ステップS22)を繰り返す。
(ステップS24〜S30)抽出部37は、セグメントmについて、1,…,Mまで、トピック分布を生成{θ〜Dirichlet(α)}(ステップS25)と、ステップS26〜S29の処理を繰り返す。
(ステップS26〜S29)抽出部37は、量子化スペクトルnについて、1,…,Nまで、トピックを生成{zmn〜Multinomial(θ)}(ステップS27)と、量子化スペクトルを生成{wmn〜Multinomial(φzmn)}(ステップS28)の処理を繰り返す。
ここで、LDAのグラフィカルモデルを説明する。
LDAのグラフィカルモデルは図7のようになる。図7は、LDAのグラフィカルモデルを表す図である。図7において、丸で囲われたノード(α、β、θ、φ、w、z)は未知変数を表し、四角で囲われた部分(L、N、M)は繰り返しを表す。グラフィカルモデルでは、各ノードの確率的依存関係が視覚的に表現される。
実施形態では、変分ベイズ法を用いてLDAの推定を行う。以下、変分ベイズ法によるトピック推定方法を説明する。
以下の説明において、トピックモデルの未知変数は、トピック集合Z、トピック分布集合Θ、量子化スペクトル分布集合Φである。
まず,トピックモデルの対数周辺尤度logp(W|α,β)の変分下限Fを次式(3)のように求める。
Figure 2021092695
式(3)において、3つ目の変形式の不等式は、イェンゼンの不等式を用いている。また、4つ目の式変形では、計算の簡単化のために変分事後分布をq(Z,Θ,Φ)=q(Z)q(Θ,Φ)と変形できることを仮定している。
次に変分事後分布q(z)の推定を行う。推定では、ラグランジュの未定乗数法を用いて、確率分布であるための制約条件Σq(z)=1のもとで変分下限Fの最大化を行う。推定では、F(q(Z))を次式(4)のように置き、式(4)の極値を求める。
Figure 2021092695
なお、式(4)において、λ(・)は、未定乗数である。
∂F(q(Z))/q(Z)=0を解くと、F((q(Z))を最大化するqmnlは、次式(5)のようになる。
Figure 2021092695
ただし、式(5)において、Ψ(・)は、ディガンマ関数である。
同様に、q(Θ、Φ)に対しても、変分下限Fの最大化を行う。F(q(Θ、Φ))を、次式(6)のようにおき、式(6)の極値を求める。
Figure 2021092695
∂F(q(Θ、Φ))/q(Θ、Φ)=0を解くと、トピック分布の変分事後分布q(Θ)は、次式(7)のようになる。
Figure 2021092695
式(7)において、トピック分布の変分事後分布q(Θ)のパラメータαmlは、次式(8)のように定義している。
Figure 2021092695
さらに、量子化スペクトル分布の変分事後分布q(Φ)は、次式(9)のように求めることができる。
Figure 2021092695
なお、式(9)において、パラメータβlkを、次式(10)と定義している。
Figure 2021092695
抽出部37は、パラメータαml、βlkを、式(8)と式(10)によって更新することで、トピック分布と量子化スペクトル分布を推定する。
図8は、本実施形態に係るトピックモデルに対する変分ベイズ推定のアルゴリズムの一例である。
(ステップS101)抽出部37は、変分事後パラメータαml、βlkを、ランダムな正の値で初期化する。
(ステップS102〜S114)抽出部37は、終了条件を満たすまでステップS102〜S114の処理を繰り返す。
(ステップS103)抽出部37は、パラメータαmn new=αに設定し、βlk new=βに設定することで、ステップS104以降のパラメータを初期化する。
(ステップS104〜S112)抽出部37は、ステップS104〜S112の処理をM回繰り返す。
(ステップS105〜S111)抽出部37は、ステップS105〜S111の処理をN回繰り返す。
(ステップS106〜S110)抽出部37は、ステップS106〜S110の処理をL回繰り返す。
(ステップS107)抽出部37は、式(5)の計算を行う。
(ステップS108)抽出部37は、パラメータαml new=αml new+qmnlに設定して、トピック分布の変分事後分布のパラメータを更新する。
(ステップS109)抽出部37は、パラメータβlwmn new=βlwmn new+qmnlに設定して、量子化スペクトル分布の変分事後分布のパラメータを更新する。
(ステップS110)抽出部37は、ステップS106〜S110の処理をL回繰り返した後、ステップS111の処理に進める。
(ステップS111)抽出部37は、ステップS105〜S111の処理をN回繰り返した後、ステップS112の処理に進める。
(ステップS112)抽出部37は、ステップS104〜S112の処理をM回繰り返した後、ステップS113の処理に進める。
(ステップS113)抽出部37は、パラメータαml=αml newに設定し、
βlk=βlk newに設定して更新する。
(ステップS114)抽出部37は、終了条件を満たした後、処理を終了する。なお、終了条件は、例えば所定の範囲に収束した場合または所定回数の処理を行った場合である。
これらの処理によって、LDAにより時間区間毎のトピック分布Θ∈R3M×Lと、トピック毎の量子化スペクトルの分布Φ∈RL×Kが推定される。なお、実施形態では、トピック分布と量子化スペクトル分布の事後確率が、それぞれ閾値γ、ηを超えたものをアクティブ状態であると定義する。
具体的には、トピック分布θimにどのトピックが含まれているかを判別するために閾値γと比較して、αimlを次式(11)のように決定する。
Figure 2021092695
また、量子化スペクトル分布においてアクティブパラメータβlkを閾値ηと比較して、βlkを次式(12)のように決定する。
Figure 2021092695
αiml=1である場合は、トピックlがそのセグメントに出現する確率が高いことを表している。また、βlk=1の場合は、クラスタkがトピックlに含まれている確率が高いことを表す。
別の時間区間m、m’に同じ音が含まれる場合、その音を含むトピックlは、どちらの時間区間でもアクティブ状態になる可能性が高い。つまり、αiml=αim’l=1となる可能性が高い。このため、同じ時間区間におけるそれぞれの入力音で同じトピックがアクティブ状態であれば、そのトピックは注目音源の可能性が高い。
図9は、注目音源のスペクトル推定の例を示す図である。図9において、符号g110は、マイクロホンアレイiが収音した音響信号であり、処理部3への入力信号である。また、符号g111は第1マイクロホンアレイ2−1が収音した音響信号を示し、符号g112は第2マイクロホンアレイ2−2が収音した音響信号を示し、符号g113は第3マイクロホンアレイ2−3が収音した音響信号を示す。また、符号g120は推定信号を表す。符号g111〜g113、g120において、横軸は時間フレームであり、縦軸は振幅である。
図9では、入力信号を時間区間ごとに最もアクティブなトピックを濃淡でして示している。符号g130の四角で囲まれた部分に着目すると、同じ時間区間で全ての入力信号が同じ色に色分けされているため、そのトピックは注目音源を表す。
実施形態では、同じ時間区間mにおいて、トピックlが全ての入力信号でαiml=1となっている場合に、このトピックlを抽出し、抽出したトピックを推定トピックとする。
さらに、抽出部37は、時間区間毎に推定トピックを選び、選んだ推定トピックが持つ量子化スペクトル分布のアクティブパラメータβlk=1となっている量子化スペクトルを抽出する。そして、逆変換部38は、抽出された量子化スペクトルに対して逆短時間フーリエ変換を行うことで注目音源の推定信号e(t)を復元する。
なお、図9に示した例では、3つの第1マイクロホンアレイ2−1〜第3マイクロホンアレイ2−3(図2)それぞれに、同じトピックが含まれている場合に、注目音源であると推定して抽出する例を説明したが、これに限らない。
図9の例は、図1に示したように、3つの第1マイクロホンアレイ2−1〜第3マイクロホンアレイ2−3それぞれが収音した音響信号に注目音源Sが含まれている例であるが、例えば3つの第1マイクロホンアレイ2−1〜第3マイクロホンアレイ2−3のうち、2つのマイクロホンアレイで収音した音響信号に注目信号が含まれている場合もあり得る。このような場合は、収音に用いた複数のマイクロホンアレイのうち、2つ以上のマイクロホンアレイに同じトピックが含まれている場合に、その共通のトピックを注目音源であると推定するようにしてもよい。
以上のように、本実施形態では、注目音源の内容(トピック)に注目した。そして、本実施形態では、複数のマイクロホンアレイで注目音源の方向の音を分離し、それぞれの音のトピックを、トピックモデルを用いて推定することにより、それぞれのマイクロホンアレイで共通するトピックを持つ部分を注目音源の音であると推定するようにした。
これにより本実施形態によれば、簡易に注目音源を分離することができる。
<評価結果>
次に、本実施形態の音源分離装置1を用いて評価を行った結果を説明する。
評価は、図1のように4人の音源に対して、3つのマイクロホンアレイを用いて収音して音源分離した。なお、音源には、サンプリング周波数16kHz、長さ30秒の男性による朗読音声を用いた。この4人の音源のうち、2人目の音声データを注目音源Sとした。また、1人目の音声を音源Sとし、3人目の音声を音源Sとし、4人目の音声を音源Sとした。注目音源Sは、前半30秒で発話し、それ以外の音源が後半30秒で発話しているようにした。このように、合計60秒の分離信号を3つ作成した。なお、評価では、注目音源と他の音源との発話時間が重なっていない状態で行った。また、全ての分離信号で注目音源の振幅や位相が等しいという条件で評価を行った。また、サンプリング周波数を16000Hzとし、短時間フーリエ変換の窓幅を512とし、短時間フーリエ変換のシフト幅を256とし、短時間フーリエ変換の窓関数としてハミング窓を用いた。
評価では、作成した分離信号X(t)に対して短時間フーリエ変換を行い、変換して得られた振幅スペクトルY(ω、t)をk−means法で量子化スペクトル化した。k−means法のクラスタ数は、K=100、300、600とした。セグメント化では、マイクロホンアレイ毎に、M=10、15、20、25個のセグメントに分割した、この時、各セグメントmの時間間隔は、それぞれd=6、4、3、2.4秒である。分離信号は、30秒の部分で注目音源からその他の音源で切り替わるため、d=3秒と6秒の場合は、セグメントの教会と音源の教会が一致しているため、全てのセグメントに1つの音源しか含まれていない。また、d=2.4秒と4秒の場合は、30秒をまたぐセグメントに注目音源とその他の音源が同時に含まれる。セグメント化の後、全体の7割以上に出現する量子化スペクトルと、3未満のセグメントのみに出現する量子化スペクトルを除去し、セグメント毎の頻度行列Wを作成した。
LDAの推定法として、上述した変分ベイズ法を用いた。またトピック分布と量子化スペクトル分布の事前分布には、どちらにもディリクレ分布を用いて、それぞれのハイパーパラメータの初期値を1/L、1/Kとした。さらに、アクティブ判定の閾値をγ=1/Lとし、η=1/Kとした。
また、音源分離性能の評価指標には,BssEvalのSource to Distortion Ratio(SDR)を使用した。SDRは、推定された音源信号と全てのノイズのエネルギー比を表す。計算には、Bss Eval toolboxを使いた。評価では、分離しない状態からどれだけSDR値が改善するかを評価した。また、評価では、推定信号はマイクロホンアレイ毎に得られるため、マイクロホンアレイ毎にSDRを計算し平均化したものを指標とした。
ここで、分離を行う混合音に含まれる真の目的音源信号s(t)に対し、推定信号s^(t)は、次式(13)のように分解できる。
Figure 2021092695
式(13)において、starget(t)は目的音源信号項、einterf(t)は混合音に含まれる他の音源に由来するノイズ項、enoise(t)は他の音源によらない外部からのノイズ項、eartif(t)は分離アルゴリズム由来のノイズ項を表す。
また、SDRの計算式は、次式(14)で表される。
Figure 2021092695
図10は、クラスタ数K=600、セグメントの時間区間d=4秒、トピック数L=5のときの抽出音の一例を示す図である。図10において、符号g201は、第1マイクロホンアレイ2−1で得られた注目音源方向の分離音の波形である。符号g202は、正解音源の信号波形である。符号g203は、第1マイクロホンアレイ2−1が収音した音響信号から抽出した推定信号の波形である。符号g201〜g203において、横軸は時刻(秒)であり、縦軸は振幅である。
図10の評価結果では、正解音源の波形と推定信号の波形を比較すると、推定信号が殆どの時間期間で正解音源部分を抽出できている。このように、本実施形態によれば、正解信号と同じ時間区間の音だけを精度良く取り出すことができる。
次に、各パラメータの値を変えたときに分離精度がどのように変化するか評価した結果を説明する。
図11は、クラスタ数K=600、時間区間d=4秒の場合のトピック数Lに伴う分離性能の変化を示す図である。横軸はトピック数であり、縦軸はSDR改善率[dB]である。
図11に示す評価結果において、SDR改善率は本実施形態の手法を適用した場合と適用しない場合のSDRの差分を表し、この値が高い値であるほど分離が高性能であることを意味する。この評価結果では、トピック数L=2の時、ほとんどSDR値が改善していないのに対し、トピック数Lが大きいほど分離性能が上がる傾向であった。このため、トピック数Lは、適用する音響信号に応じて変更するようにしてもよい。また、トピック数は、例えば機械学習によって設定や変更するようにしてもよい。
図12は、クラスタ数K=100、300、600と、セグメントの長さの違いによる分離性能の変化を示す図である。符号g310は分離性能の変化を示すグラフであり、符号g320は、符号g310のグラフの各値を示す表である。符号g310において、横軸はクラスタ数であり、縦軸はSDR改善率[dB]である。また、符号g311は時間間隔が2.4秒であり、符号g312は時間間隔が3秒であり、符号g313は時間間隔が4秒であり、符号g314は時間間隔が6秒である。
この評価結果では、k−meansのクラスタ数Kについてみると、Kが小さい時は分離精度が低い。この理由は、クラスタ数Kが少ないとき、異なる音も同じクラスに割り当てられてしまうため分離性能が低下するためである。また、Kが大きすぎると各周波数スペクトルに対して量子化スペクトル番号が一対一で割り当てられてしまう。
これらのことから、Kは小さすぎず大きすぎない適切な値を設定した方が、より精度を向上することができる。このため、クラスタ数Kは、適用する環境等に応じて設定するようにしてもよく、例えば機械学習によって設定や変更するようにしてもよい。
また、図12において、セグメントの違いについて比較すると、d=2.4秒、4秒の場合は、30秒付近で同じセグメントに注目音源とその他の音源が含まれる。この理由は、トピック分布が共起性に基づいて単語を分類するためである。このため、この評価では、d=2.4秒、4秒の場合に推定トピックに別の音源の持つ単語が含まれる可能性が高くなる。クラスタ数K=600では、d=3秒の場合にSDR値が高いのに対し、d=4秒の場合にSDR値が低くなっている。
図13は、クラスタ数K=600、時間区間d=4秒、トピック数L=5の場合、無音成分とユニーク成分の除去を行う場合と行わない場合の分離性能を比較した評価結果を示す図である。符号g410は評価結果をグラフで表したものであり、符号g420は符号g410のグラフの値を表で表したものである。符号g410において、横軸は時間区間dであり、縦軸はSDR改善率[dB]である。また、符号g411は無音除去ありの場合であり、符号g412は無音除去無しの場合である。
図13のように、比較例の無音除去しない場合はSDR値が劣化するが、本実施形態のように無音除去した場合はSDR値が大きく向上する。この理由は、評価に用いた人の朗読音は無音成分を多く持つため、複数の時間区間で無音成分を持つトピックがアクティブ状態と判別されたためである。
<第2実施形態>
第2実施形態では、音源それぞれの方向を音源定位処理と音源分離処理によって検出する例を説明する。
[音源分離装置1Aの構成例]
まず、本実施形態の音源分離装置1Aの構成例を説明する。
図14は、本実施形態に係る音源分離装置1Aの構成例を示すブロック図である。図14に示すように、音源分離装置1Aは、収音部2A、および処理部3Aを備える。なお、第1実施形態の音源分離装置1と同様の機能を有する機能部については、同じ符号を用いて説明を省略する。
収音部2Aは、第1マイクロホンアレイ2−1、第2マイクロホンアレイ2−2、および第3マイクロホンアレイ2−3を備える。
処理部3Aは、取得部31A、音源定位部32、音源分離部33、変換部34A、分類部35、除去部36、抽出部37、逆変換部38、および出力部39を備える。
[音源分離装置1Aの動作、機能]
次に、音源分離装置1Aの各部の動作と機能例を説明する。
第1マイクロホンアレイ2−1、第2マイクロホンアレイ2−2、および第3マイクロホンアレイ2−3それぞれは、収音したPチャネルの音響信号を処理部3Aに出力する。なお、各マイクロホンアレイが出力するPチャネルの音響信号には、マイクロホンアレイを識別するための識別情報が含まれている。
取得部31Aは、第1マイクロホンアレイ2−1、第2マイクロホンアレイ2−2、および第3マイクロホンアレイ2−3それぞれが出力するPチャネルの音響信号を取得する。取得部31Aは、取得したマイクロホンアレイ毎のPチャネルの音響信号を音源定位部32と音源分離部33に出力する。
音源定位部32は、取得部31Aが出力するマイクロホンアレイ毎のPチャネルの音響信号を取得する。音源定位部32は、取得したマイクロホンアレイ毎のPチャネルの音響信号に対して、例えばビームフォーミング法またはMUSIC法による音源定位処理を行って、音響信号に含まれる音源方向を推定する。音源定位部32は、マイクロホンアレイ毎に、推定した音源定位情報を音源分離部33に出力する。
音源分離部33は、音源定位部32が出力する音源定位情報と、取得部31Aが出力するマイクロホンアレイ毎のMチャネルの音響信号を取得する。音源分離部33は、マイクロホンアレイ毎に、Mチャネルの音響信号から音源定位された方向の音響信号を抽出する。音源分離部33は、例えばGHDSS(Geometric High-order Dicorrelation-based Source Separation)法によって、音源分離処理を行う。例えば、図1において、マイクロホンアレイMAが第1マイクロホンアレイ2−1の場合は、音源SとSが1チャネルの音響信号として抽出される。同様に、音源分離部33は、第2マイクロホンアレイ2−2によって収音されたPチャネルの音響信号に対して、音源に対応する音響信号を抽出する。音源分離部33は、第3マイクロホンアレイ2−3によって収音されたPチャネルの音響信号に対して、音源に対応する音響信号を抽出する。音源分離部33は、抽出したマイクロホンアレイ毎の音響信号を変換部34Aに出力する。
なお、本実施形態において、複数のマイクロホンアレイの基準方向は、例えば図1の複数のマイクロホンアレイMA〜MAの重心(注目音源S位置)方向等に設定するようにしてもよい。
第1実施形態では、ビームフォーミング法で形成されたビームによって注目音源を含む音響信号を収音することで、注目音源の音響信号を分離したが、本実施形態では、音源定位処理と音源分離処理によって、注目音源の音響信号を分離する。その後、処理部3Aは、第1実施形態と同様に、トピックの抽出、分類、共通トピックの抽出による推定トピックの推定等を行う。
本実施形態の音源分離装置1Aの構成によっても、第1実施形態と同様の効果を得ることができる。
<変形例>
上述した第1実施形態と第2実施形態では、k−means法によってクラスタリングを行う例を説明したが、これに限らない。クラスタリングは、他の周知の手法(例えば重み付き平均法等)を用いてもよい。
また、上述した第1実施形態と第2実施形態では、先にクラスタリングを行い、クラスタリング後に除去部36がノイズ成分を除去し、ノイズ成分が除去された後に注目音源を抽出する例を説明したが、これに限らない。
図15は、無音区間と発話区間を説明するための図である。
図15に示すように、音響信号には、一般的に無音区間g501が含まれている。このような無音区間を除去、または発話区間g502を抽出し、発話区間に対して所定の区間毎のからトピックを抽出するようにしてもよい。無音区間または発話区間の検出は、例えば音響信号の振幅に対する発話区間検出のための閾値と音響信号を比較して検出するようにしてもよい。
なお、本発明における音源分離装置1(または1A)の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音源分離装置1(または1A)が行う処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
1,1A…音源分離装置、
2,2A…収音部、
3,3A…処理部、
2−1…第1マイクロホンアレイ、
2−2…第2マイクロホンアレイ、
2−3…第3マイクロホンアレイ、
30…ビームフォーミング制御部、
31…取得部、
32…音源定位部、
33…音源分離部、
34,34A…変換部、
35…分類部、
36…除去部、
37…抽出部、
38…逆変換部、
39…出力部、
40…音源定位部

Claims (9)

  1. 音響信号を収音する複数のマイクロホンアレイと、
    少なくとも2つの前記マイクロホンアレイによって収音されたそれぞれの収音音響信号に、注目音源の第1音響信号と、前記注目音源と同じ方向の他の音源の第2音響信号とが含まれる場合、少なくとも2つの前記マイクロホンアレイによって収音されたそれぞれの前記収音音響信号に含まれている共通成分を抽出して、前記収音音響信号から前記第1音響信号を抽出する抽出部と、
    を備える音源分離装置。
  2. 前記抽出部は、
    前記共通成分を、潜在的ディリクレ配分法を用いて抽出する、
    請求項1に記載の音源分離装置。
  3. 前記収音音響信号に含まれている音のトピックを分類する分類部、をさらに備え、
    前記抽出部は、
    前記分類部によって、前記マイクロホンアレイ毎に分類された前記トピックを比較し、比較した結果、複数の前記マイクロホンアレイそれぞれが収音した前記収音音響信号において同じトピックである場合に、前記同じトピックを前記注目音源であると推定して、前記収音音響信号から、前記同じトピックに対応する音響信号を前記第1音響信号として抽出する、
    請求項1または請求項2に記載の音源分離装置。
  4. 前記分類部は、
    前記マイクロホンアレイそれぞれによって収音された前記収音音響信号を周波数スペクトルに変換し、前記マイクロホンアレイ毎の前記周波数スペクトルを、時間フレームにおいてM(Mは2以上の整数)個の区間に分割してセグメント化し、各セグメントに含まれている前記時間フレーム毎の周波数スペクトルを前記トピック毎に分類する、
    請求項3に記載の音源分離装置。
  5. 前記抽出部は、
    時間区間毎の前記トピックの分布と、前記トピック毎の前記周波数スペクトルを量子化した量子化スペクトルの分布を推定し、前記トピックの分布と前記量子化スペクトルの分布の事後確率が、それぞれアクティブ状態を判別するための閾値より大きいものをアクティブ状態であるとし、
    同時刻の前記セグメントごとの前記トピックの分布を比較し、少なくとも2つの前記マイクロホンアレイにおいてアクティブになっている前記トピックを抽出することで前記共通成分を抽出する、
    請求項4に記載の音源分離装置。
  6. 前記マイクロホンアレイに対して、前記注目音源の方向にビームを形成するように制御する制御部、をさらに備え、
    複数の前記マイクロホンアレイは、前記制御部の制御に応じて、前記注目音源の前記第1音響信号を含む前記収音音響信号を収音する、
    請求項1から請求項5のいずれか1項に記載の音源分離装置。
  7. 前記マイクロホンアレイそれぞれが収音した前記収音音響信号に対して音源定位を行う音源定位部と、
    前記マイクロホンアレイそれぞれが収音した前記収音音響信号から、前記音源定位された定位結果に基づいて、前記第1音響信号を含む分離信号を分離する音源分離部と、をさらに備え、
    前記抽出部は、
    少なくとも2つの前記マイクロホンアレイそれぞれの前記収音音響信号から分離されたそれぞれの前記分離信号に含まれている共通成分を抽出して、前記収音音響信号から前記第1音響信号を抽出する、
    請求項1から請求項5のいずれか1項に記載の音源分離装置。
  8. 複数のマイクロホンアレイが、音響信号を収音し、
    抽出部が、少なくとも2つの前記マイクロホンアレイによって収音されたそれぞれの収音音響信号に、注目音源の第1音響信号と、前記注目音源と同じ方向の他の音源の第2音響信号とが含まれる場合、少なくとも2つの前記マイクロホンアレイによって収音されたそれぞれの前記収音音響信号に含まれている共通成分を抽出して、前記収音音響信号から前記第1音響信号を抽出する、
    音源分離方法。
  9. コンピュータに、
    複数のマイクロホンアレイによって音響信号を収音させ、
    少なくとも2つの前記マイクロホンアレイそれぞれによって収音された収音音響信号に、注目音源の第1音響信号と、前記注目音源と同じ方向の他の音源の第2音響信号とが含まれる場合、少なくとも2つの前記マイクロホンアレイによって収音されたそれぞれの前記収音音響信号に含まれている共通成分を抽出させ、前記収音音響信号から前記第1音響信号を抽出させる、
    プログラム。
JP2019223975A 2019-12-11 2019-12-11 音源分離装置、音源分離方法、およびプログラム Active JP7292646B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019223975A JP7292646B2 (ja) 2019-12-11 2019-12-11 音源分離装置、音源分離方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019223975A JP7292646B2 (ja) 2019-12-11 2019-12-11 音源分離装置、音源分離方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2021092695A true JP2021092695A (ja) 2021-06-17
JP7292646B2 JP7292646B2 (ja) 2023-06-19

Family

ID=76312392

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019223975A Active JP7292646B2 (ja) 2019-12-11 2019-12-11 音源分離装置、音源分離方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP7292646B2 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014072708A (ja) * 2012-09-28 2014-04-21 Oki Electric Ind Co Ltd 収音装置及びプログラム
JP2015049398A (ja) * 2013-09-02 2015-03-16 本田技研工業株式会社 音響認識装置、音響認識方法、及び音響認識プログラム
JP2015079080A (ja) * 2013-10-16 2015-04-23 日本電信電話株式会社 音源位置推定装置、方法及びプログラム
WO2015125321A1 (ja) * 2014-02-21 2015-08-27 独立行政法人産業技術総合研究所 多角的歌声分析システム及び多角的歌声分析方法
JP2017044916A (ja) * 2015-08-27 2017-03-02 本田技研工業株式会社 音源同定装置および音源同定方法
JP2019068133A (ja) * 2017-09-28 2019-04-25 沖電気工業株式会社 収音装置、プログラム及び方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014072708A (ja) * 2012-09-28 2014-04-21 Oki Electric Ind Co Ltd 収音装置及びプログラム
JP2015049398A (ja) * 2013-09-02 2015-03-16 本田技研工業株式会社 音響認識装置、音響認識方法、及び音響認識プログラム
JP2015079080A (ja) * 2013-10-16 2015-04-23 日本電信電話株式会社 音源位置推定装置、方法及びプログラム
WO2015125321A1 (ja) * 2014-02-21 2015-08-27 独立行政法人産業技術総合研究所 多角的歌声分析システム及び多角的歌声分析方法
JP2017044916A (ja) * 2015-08-27 2017-03-02 本田技研工業株式会社 音源同定装置および音源同定方法
JP2019068133A (ja) * 2017-09-28 2019-04-25 沖電気工業株式会社 収音装置、プログラム及び方法

Also Published As

Publication number Publication date
JP7292646B2 (ja) 2023-06-19

Similar Documents

Publication Publication Date Title
US9524730B2 (en) Monaural speech filter
Giannakopoulos et al. A multi-class audio classification method with respect to violent content in movies using bayesian networks
JP6543844B2 (ja) 音源同定装置および音源同定方法
EP1670285A2 (en) Method to adjust parameters of a transfer function of a hearing device as well as a hearing device
Guo et al. Localising speech, footsteps and other sounds using resource-constrained devices
CN111341319B (zh) 一种基于局部纹理特征的音频场景识别方法及系统
US10548534B2 (en) System and method for anhedonia measurement using acoustic and contextual cues
JP6195548B2 (ja) 信号解析装置、方法、及びプログラム
JP6821615B2 (ja) マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム
CN107871499A (zh) 语音识别方法、系统、计算机设备及计算机可读存储介质
Nie et al. Deep stacking networks with time series for speech separation
Phan et al. A multi-channel fusion framework for audio event detection
JPWO2019171457A1 (ja) 音源分離装置、音源分離方法およびプログラム
KR20190140780A (ko) 음악 장르 분류 장치 및 방법
WO2005029463A1 (en) A method for recovering target speech based on speech segment detection under a stationary noise
JP2020095732A (ja) 対話行為推定方法、対話行為推定装置及びプログラム
JP7292646B2 (ja) 音源分離装置、音源分離方法、およびプログラム
SHANTHAKUMAR et al. Environmental sound classification using deep learning
JP5705190B2 (ja) 音響信号強調装置、音響信号強調方法、およびプログラム
Subba Ramaiah et al. A novel approach for speaker diarization system using TMFCC parameterization and Lion optimization
JP4170072B2 (ja) 音声抽出装置
Cipli et al. Multi-class acoustic event classification of hydrophone data
Ngo et al. Sound context classification based on joint learning model and multi-spectrogram features
Diez Gaspon et al. Deep learning for natural sound classification
Mandel et al. Learning a concatenative resynthesis system for noise suppression

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20200220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20200220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200417

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200417

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230523

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230529

R150 Certificate of patent or registration of utility model

Ref document number: 7292646

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150