JP7292646B2 - Sound source separation device, sound source separation method, and program - Google Patents
Sound source separation device, sound source separation method, and program Download PDFInfo
- Publication number
- JP7292646B2 JP7292646B2 JP2019223975A JP2019223975A JP7292646B2 JP 7292646 B2 JP7292646 B2 JP 7292646B2 JP 2019223975 A JP2019223975 A JP 2019223975A JP 2019223975 A JP2019223975 A JP 2019223975A JP 7292646 B2 JP7292646 B2 JP 7292646B2
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- sound
- topic
- signal
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
本発明は、音源分離装置、音源分離方法、およびプログラムに関する。 The present invention relates to a sound source separation device, a sound source separation method, and a program.
複数の音源から特定の音源を抽出する技術が開発されている。例えば、位置情報を用いた音源分離手法としてビームフォーミングを用いる手法がある。ビームフォーミングでは、信号の到達時間差や位相差を用いることにより、方向情報に基づいた音源分離を行うことができる(例えば、特許文献1参照)。 Technologies for extracting a specific sound source from a plurality of sound sources have been developed. For example, there is a method using beamforming as a sound source separation method using position information. In beamforming, sound source separation based on direction information can be performed by using arrival time differences and phase differences of signals (see, for example, Patent Document 1).
しかしながら、従来技術では、同方向に複数の音源が存在する場合に、所望の音源を取り出すことが困難であった。 However, with the conventional technology, it is difficult to extract a desired sound source when multiple sound sources exist in the same direction.
本発明は、上記の問題点に鑑みてなされたものであって、同方向に複数の音源が存在する場合であっても、所望の音源を取り出すことができる音源分離装置、音源分離方法、およびプログラムを提供することを目的としている。 The present invention has been made in view of the above problems, and provides a sound source separation device, a sound source separation method, and a sound source separation method capable of extracting a desired sound source even when a plurality of sound sources exist in the same direction. The purpose is to provide a program.
(1)上記目的を達成するため、本発明の一態様に係る音源分離装置は、音響信号を収音する複数のマイクロホンアレイと、少なくとも2つの前記マイクロホンアレイによって収音されたそれぞれの収音音響信号に、注目音源の第1音響信号と、前記注目音源と同じ方向の他の音源の第2音響信号とが含まれる場合、少なくとも2つの前記マイクロホンアレイによって収音されたそれぞれの前記収音音響信号に含まれている共通成分を抽出して、前記収音音響信号から前記第1音響信号を抽出する抽出部と、を備える。 (1) In order to achieve the above object, a sound source separation device according to an aspect of the present invention includes a plurality of microphone arrays for picking up acoustic signals, and each sound picked up by at least two of the microphone arrays. each of the picked sounds picked up by at least two of the microphone arrays, if the signal includes a first acoustic signal of a sound source of interest and a second acoustic signal of another sound source in the same direction as the sound source of interest; an extraction unit that extracts a common component included in the signals and extracts the first acoustic signal from the picked-up acoustic signal.
(2)また、本発明の一態様に係る音源分離装置において、前記抽出部は、前記共通成分を、潜在的ディリクレ配分法を用いて抽出するようにしてもよい。 (2) In the sound source separation device according to an aspect of the present invention, the extraction unit may extract the common component using a latent Dirichlet allocation method.
(3)また、本発明の一態様に係る音源分離装置において、前記収音音響信号に含まれている音のトピックを分類する分類部、をさらに備え、前記抽出部は、前記分類部によって、前記マイクロホンアレイ毎に分類された前記トピックを比較し、比較した結果、複数の前記マイクロホンアレイそれぞれが収音した前記収音音響信号において同じトピックである場合に、前記同じトピックを前記注目音源であると推定して、前記収音音響信号から、前記同じトピックに対応する音響信号を前記第1音響信号として抽出するようにしてもよい。 (3) The sound source separation device according to an aspect of the present invention further includes a classification unit that classifies topics of sounds included in the collected sound signal, wherein the extraction unit causes the classification unit to: The topics classified for each of the microphone arrays are compared, and if the topic is the same in the collected sound signals picked up by each of the plurality of microphone arrays as a result of the comparison, the same topic is the sound source of interest. , the acoustic signal corresponding to the same topic may be extracted from the picked-up acoustic signal as the first acoustic signal.
(4)また、本発明の一態様に係る音源分離装置において、前記分類部は、前記マイクロホンアレイそれぞれによって収音された前記収音音響信号を周波数スペクトルに変換し、前記マイクロホンアレイ毎の前記周波数スペクトルを、時間フレームにおいてM(Mは2以上の整数)個の区間に分割してセグメント化し、各セグメントに含まれている前記時間フレーム毎の周波数スペクトルを前記トピック毎に分類するようにしてもよい。 (4) Further, in the sound source separation device according to the aspect of the present invention, the classification unit converts the collected sound signals collected by the respective microphone arrays into frequency spectra, The spectrum may be segmented by dividing it into M (M is an integer equal to or greater than 2) sections in the time frame, and the frequency spectrum for each time frame included in each segment may be classified according to the topic. good.
(5)また、本発明の一態様に係る音源分離装置において、前記抽出部は、時間区間毎の前記トピックの分布と、前記トピック毎の前記周波数スペクトルを量子化した量子化スペクトルの分布を推定し、前記トピックの分布と前記量子化スペクトルの分布の事後確率が、それぞれアクティブ状態を判別するための閾値より大きいものをアクティブ状態であるとし、同時刻の前記セグメントごとの前記トピックの分布を比較し、少なくとも2つの前記マイクロホンアレイにおいてアクティブになっている前記トピックを抽出することで前記共通成分を抽出するようにしてもよい。 (5) In the sound source separation device according to an aspect of the present invention, the extraction unit estimates the distribution of the topic for each time interval and the distribution of the quantized spectrum obtained by quantizing the frequency spectrum for each topic. Then, when the posterior probabilities of the distribution of the topic and the distribution of the quantized spectrum are respectively larger than a threshold value for discriminating the active state, the state is defined as the active state, and the distribution of the topic for each of the segments at the same time is compared. and the common component may be extracted by extracting the topics that are active in at least two of the microphone arrays.
(6)また、本発明の一態様に係る音源分離装置において、前記マイクロホンアレイに対して、前記注目音源の方向にビームを形成するように制御する制御部、をさらに備え、複数の前記マイクロホンアレイは、前記制御部の制御に応じて、前記注目音源の前記第1音響信号を含む前記収音音響信号を収音するようにしてもよい。 (6) The sound source separation device according to an aspect of the present invention further includes a control unit that controls the microphone array to form a beam in the direction of the sound source of interest, wherein the plurality of microphone arrays may pick up the collected sound signal including the first sound signal of the sound source of interest under the control of the control unit.
(7)また、本発明の一態様に係る音源分離装置において、前記マイクロホンアレイそれぞれが収音した前記収音音響信号に対して音源定位を行う音源定位部と、前記マイクロホンアレイそれぞれが収音した前記収音音響信号から、前記音源定位された定位結果に基づいて、前記第1音響信号を含む分離信号を分離する音源分離部と、をさらに備え、前記抽出部は、少なくとも2つの前記マイクロホンアレイそれぞれの前記収音音響信号から分離されたそれぞれの前記分離信号に含まれている共通成分を抽出して、前記収音音響信号から前記第1音響信号を抽出するようにしてもよい。 (7) In the sound source separation device according to an aspect of the present invention, a sound source localization unit that performs sound source localization on the sound signals picked up by each of the microphone arrays, and the sound picked up by each of the microphone arrays. a sound source separation unit that separates a separated signal including the first sound signal from the collected sound signal based on the localization result of the sound source localization, wherein the extraction unit includes at least two of the microphone arrays. A common component included in each of the separated signals separated from each of the collected sound signals may be extracted to extract the first sound signal from the collected sound signals.
(8)上記目的を達成するため、本発明の一態様に係る音源分離方法は、複数のマイクロホンアレイが、音響信号を収音し、抽出部が、少なくとも2つの前記マイクロホンアレイによって収音されたそれぞれの収音音響信号に、注目音源の第1音響信号と、前記注目音源と同じ方向の他の音源の第2音響信号とが含まれる場合、少なくとも2つの前記マイクロホンアレイによって収音されたそれぞれの前記収音音響信号に含まれている共通成分を抽出して、前記収音音響信号から前記第1音響信号を抽出する。 (8) In order to achieve the above object, a sound source separation method according to an aspect of the present invention includes a plurality of microphone arrays picking up acoustic signals, and an extracting unit picking up the sounds by at least two of the microphone arrays. When each sound pickup sound signal includes a first sound signal of a sound source of interest and a second sound signal of another sound source in the same direction as the sound source of interest, each picked up by the at least two microphone arrays extracts a common component included in the collected sound signals, and extracts the first sound signal from the collected sound signals.
(9)上記目的を達成するため、本発明の一態様に係るプログラムは、コンピュータに、複数のマイクロホンアレイによって音響信号を収音させ、少なくとも2つの前記マイクロホンアレイそれぞれによって収音された収音音響信号に、注目音源の第1音響信号と、前記注目音源と同じ方向の他の音源の第2音響信号とが含まれる場合、少なくとも2つの前記マイクロホンアレイによって収音されたそれぞれの前記収音音響信号に含まれている共通成分を抽出させ、前記収音音響信号から前記第1音響信号を抽出させる。 (9) To achieve the above object, a program according to an aspect of the present invention causes a computer to pick up sound signals with a plurality of microphone arrays, and picks up sound picked up by each of at least two of the microphone arrays. each of the picked sounds picked up by at least two of the microphone arrays, if the signal includes a first acoustic signal of a sound source of interest and a second acoustic signal of another sound source in the same direction as the sound source of interest; A common component included in the signals is extracted, and the first acoustic signal is extracted from the picked-up acoustic signal.
上述した(1)~(9)によれば、収音音響信号に含まれている共通成分を抽出するようにしたので、同方向に複数の音源が存在する場合であっても、所望の音源を取り出すことができる。
また、上述した(2)によれば、潜在的ディリクレ配分法によって共通成分を抽出するようにしたので、精度良く所望の音源を取り出すことができる。
また、上述した(3)によれば、収音音響信号を音のトピックに分類して、一致しているトピックを共通成分をとして抽出するようにしたので、精度良く所望の音源を取り出すことができる。
また、上述した(4)によれば、収音音響信号をセグメントに分け、セグメント毎に音のトピックに分類して、一致しているトピックを共通成分をとして抽出するようにしたので、精度良く所望の音源を取り出すことができる。
また、上述した(5)によれば、同時刻のセグメントごとのトピック分布を比較し,少なくとも2つのマイクロホンアレイでアクティブになっているトピックを抽出して共通成分を抽出するようにしたので、精度良く所望の音源を取り出すことができる。
また、上述した(6)によれば、ビームフォーミングによって分離された収音音響信号に含まれている共通成分を抽出するようにしたので、同方向に複数の音源が存在する場合であっても、所望の音源を取り出すことができる。
また、上述した(7)によれば、音源定位処理と音源分離処理によって収音音響信号から分離信号を分離し、分離信号に含まれている共通成分を抽出するようにしたので、同方向に複数の音源が存在する場合であっても、所望の音源を取り出すことができる。
According to the above (1) to (9), since the common component included in the collected sound signal is extracted, even if a plurality of sound sources exist in the same direction, the desired sound source can be taken out.
Further, according to the above-mentioned (2), since the common component is extracted by the latent Dirichlet allocation method, a desired sound source can be extracted with high accuracy.
In addition, according to the above-mentioned (3), since the collected sound signals are classified into sound topics and the matching topics are extracted as common components, the desired sound source can be extracted with high accuracy. can.
Further, according to (4) described above, the collected sound signal is divided into segments, each segment is classified into sound topics, and matching topics are extracted as common components. A desired sound source can be extracted.
In addition, according to (5) above, topic distributions for each segment at the same time are compared, topics that are active in at least two microphone arrays are extracted, and common components are extracted. A desired sound source can be taken out well.
Further, according to (6) above, since the common component included in the collected sound signals separated by beamforming is extracted, even if a plurality of sound sources exist in the same direction, , the desired sound source can be extracted.
In addition, according to the above-described (7), the separated signals are separated from the collected sound signals by the sound source localization processing and the sound source separation processing, and the common components contained in the separated signals are extracted. A desired sound source can be extracted even when a plurality of sound sources exist.
以下、本発明の実施の形態について図面を参照しながら説明する。
まず、実施形態の概要を説明する。図1は、実施形態に係る分離対象の音源の位置例とマイクロホンアレイの配置例を示す図である。
図1に示す例では、4人の話者の音源S0~S3のうち、音源S0を注目音源とする。符号MA1~MA3は、マイクロホンアレイである。マイクロホンアレイMA1によって収音された音響信号を分離した分離音には音源S0とS1が含まれる。マイクロホンアレイMA2によって収音された音響信号を分離した分離音には音源S0とS2が含まれる。マイクロホンアレイMA3によって収音された音響信号を分離した分離音には音源S0とS3が含まれる。
BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, embodiments of the present invention will be described with reference to the drawings.
First, an outline of the embodiment will be described. FIG. 1 is a diagram showing a position example of a separation target sound source and an arrangement example of a microphone array according to the embodiment.
In the example shown in FIG. 1, among the sound sources S 0 to S 3 of the four speakers, the sound source S 0 is the target sound source. References MA 1 to MA 3 are microphone arrays. The separated sound obtained by separating the acoustic signal picked up by the microphone array MA1 includes the sound sources S0 and S1 . The separated sound obtained by separating the acoustic signal picked up by the microphone array MA2 includes the sound sources S0 and S2 . The separated sound obtained by separating the acoustic signal picked up by the microphone array MA3 includes the sound sources S0 and S3 .
図1のように注目音源S0は、複数のマイクロホンアレイで収音して分離した分離音に共通で含まれる場合がある。このため、以下に説明する各実施形態では、複数のマイクロホンアレイで収音して分離した分離音に共通で含まれる共通成分を抽出することで、所望の音源を分離する。 As shown in FIG. 1, the sound source of interest S0 may be commonly included in separated sounds picked up and separated by a plurality of microphone arrays. Therefore, in each of the embodiments described below, a desired sound source is separated by extracting a common component commonly included in separated sounds collected and separated by a plurality of microphone arrays.
<第1実施形態>
第1実施形態では、音源方向が既知であり、ビームフォーミング法によって音源方向の音響信号を収音して分離する例を説明する。
<First Embodiment>
In the first embodiment, an example will be described in which the direction of the sound source is known and the acoustic signal in the direction of the sound source is picked up and separated by the beamforming method.
[音源分離装置の構成例]
まず、本実施形態の音源分離装置1の構成例を説明する。
図2は、本実施形態に係る音源分離装置1の構成例を示すブロック図である。図2に示すように、音源分離装置1は、収音部2、および処理部3を備える。
収音部2は、第1マイクロホンアレイ2-1、第2マイクロホンアレイ2-2、および第3マイクロホンアレイ2-3を備える。なお、図2に示す構成では、収音部2が3つのマイクロホンアレイを備える例を説明するが、マイクロホンアレイの数は2つ以上であればよい。
処理部3は、ビームフォーミング制御部30、取得部31、変換部34、分類部35、除去部36、抽出部37、逆変換部38、および出力部39を備える。
[Configuration example of sound source separation device]
First, a configuration example of the sound
FIG. 2 is a block diagram showing a configuration example of the sound
The
The
[音源分離装置の動作、機能]
次に、音源分離装置1の各部の動作と機能例を説明する。
第1マイクロホンアレイ2-1、第2マイクロホンアレイ2-2、および第3マイクロホンアレイ2-3それぞれは、処理部3のビームフォーミング制御部30に応じて、既知の音源方向にビームを形成する。第1マイクロホンアレイ2-1、第2マイクロホンアレイ2-2、および第3マイクロホンアレイ2-3それぞれは、P(Pは2以上の整数)個ずつのマイクロホンを備えるマイクロホンアレイである。第1マイクロホンアレイ2-1、第2マイクロホンアレイ2-2、および第3マイクロホンアレイ2-3それぞれは、収音した音響信号を処理部3に出力する。なお、各マイクロホンアレイが出力する音響信号には、マイクロホンアレイを識別するための識別情報が含まれている。なお、各マイクロホンアレイが収音した音響信号は、ビームフォーミング法で既知の音源方向に形成された、例えば1つのビームによる1つの指向性マイクロホンによって収音された音響信号に相当する。なお、マイクロホンアレイそれぞれが集音する収音音響信号は、図1のように、注目音源の第1音響信号と、注目音源と同じ方向の他の音源の第2音響信号とが含まれている場合があるとする。
[Operation and function of the sound source separation device]
Next, an example of the operation and function of each part of the sound
Each of the first microphone array 2-1, the second microphone array 2-2, and the third microphone array 2-3 forms a beam in a known sound source direction according to the
ビームフォーミング制御部30は、ビームフォーミング法によって既知の音源方向にビームを形成するように、第1マイクロホンアレイ2-1、第2マイクロホンアレイ2-2、および第3マイクロホンアレイ2-3それぞれを制御する。
A
取得部31は、第1マイクロホンアレイ2-1、第2マイクロホンアレイ2-2、および第3マイクロホンアレイ2-3それぞれが出力する音響信号(収音音響信号)を取得する。取得部31は、取得したマイクロホンアレイ毎の音響信号を変換部34に出力する。
The
変換部34は、取得部31が出力するマイクロホンアレイ毎の音響信号を取得する。変換部34は、マイクロホンアレイ毎の音響信号に対して短時間フーリエ変換(STFT;short-time Fourier transform)を行って、時間周波数領域の振幅スペクトル(以下、周波数スペクトルともいう)に変換する。変換部34は、変換したマイクロホンアレイ毎の周波数スペクトルを分類部35に出力する。
The
分類部35は、変換部34が出力するマイクロホンアレイ毎の周波数スペクトルを取得する。分類部35は、各マイクロホンアレイの周波数スペクトルを、時間フレームにおいてM(Mは2以上の整数)個の区間に分割してセグメント化する。分類部35は、時間フレーム毎の振幅スペクトルを1つのベクトルと見なして、各セグメントに含まれている時間フレーム毎の周波数スペクトルを量子化スペクトルとし、量子化スペクトルの数をカウントする。また、分類部35は、マイクロホンアレイ毎に、各セグメントに含まれている量子化スペクトルを、例えばk-means法のクラスタリング手法で分類する。なお、分類方法については、後述する。分類部35は、マイクロホンアレイ毎に、カウントした結果を示すカウント情報と、分類結果を示す分類情報を除去部36に出力する。
The classifying
除去部36は、分類部35が出力するカウント情報と分類情報を取得する。除去部36は、量子化スペクトルからノイズ成分を除去する。ここで、人の話し声には、無音成分が多く含まれるため、多くの時間区間に含まれる量子化スペクトルが無音である可能性が高い。このため、除去部36は、例えば全区間の7割以上に出てくる分類単位と、3未満のセグメントにしか出てこない量子化スペクトルを除去する。除去部36は、ノイズ成分の除去後のカウント情報と分類情報を抽出部37に出力する。
The
抽出部37は、除去部36が出力するノイズ成分の除去後のカウント情報と分類情報を取得する。抽出部37は、取得したカウント情報と分類情報を用いて、例えば潜在的ディリクレ配分法(LDA;Latent Dirichlet Allocation)を用いて、マイクロホンアレイ毎かつセグメント毎に、周波数スペクトルを話者や発話内容に基づくトピックとして、トピック分布を推定する。抽出部37は、複数のマイクロホンアレイにおいて、トピックの時間同一性によるスペクトル抽出を行うことで、注目音源の推定時間周波数スペクトログラムを抽出する。具体的には、抽出部37は、時間区間ごとに推定したトピックを選び、推定したトピックが持つトピック分布に存在する周波数スペクトルだけを抽出する。なお、推定方法については後述する。抽出部37は、抽出したスペクトルを逆変換部38に出力する。
The
逆変換部38は、抽出部37が出力するスペクトルを取得する。逆変換部38は、取得したすスペクトルに対して、逆短時間フーリエ変換(ISTFT;Inverse short-time Fourier transform)を行うことで注目音源の推定信号を復元する。逆変換部38は、復元した注目音源の音響信号を出力部39に出力する。
The
出力部39は、例えばスピーカーである。出力部39は、逆変換部38が出力する音響信号を再生する。
The
[音源分離装置1の処理]
次に、音源分離装置1が行う処理手順例を説明する。
図3は、本実施形態に係る音源分離装置1が行う処理手順を示すフローチャートである。
[Processing of the sound source separation device 1]
Next, an example of processing procedures performed by the sound
FIG. 3 is a flowchart showing a processing procedure performed by the sound
(ステップS1)ビームフォーミング制御部30は、収音部2の各マイクロホンアレイに対して、既知の音源方向にビームを形成するように制御する。
(Step S1) The
(ステップS2)収音部2は、形成されたビームによって、音響信号を収音する。これにより、収音部2は、音源方向の音源に対応する音響信号を収音する。なお、収音された音響信号は、分離音であり、図1のように、同じ音源方向の複数の音源の音響信号を含む場合がある。
(Step S2) The
(ステップS3)変換部34は、収音されたマイクロホンアレイ毎の音響信号に対して短時間フーリエ変換を行って、周波数スペクトルに変換する。
(Step S3) The
(ステップS4)分類部35は、各マイクロホンアレイの周波数スペクトルを、時間フレームにおいてM個の区間に分割してセグメント化する。続けて、分類部35は、各セグメントに含まれている量子化スペクトルの数をカウントする。続けて、分類部35は、マイクロホンアレイ毎に、各セグメントに含まれている量子化スペクトルを、例えばk-means法のクラスタリング手法で分類する。
(Step S4) The
(ステップS5)除去部36は、量子化スペクトルからノイズ成分を除去する。
(Step S5) The
(ステップS6)抽出部37は、取得したカウント情報と分類情報を用いて、例えば潜在的ディリクレ配分法を用いて、マイクロホンアレイ毎かつセグメント毎に、周波数スペクトルを話者や発話内容に基づくトピックとして、トピック分布を推定する。
(Step S6) The
(ステップS7)抽出部37は、複数のマイクロホンアレイにおいて、トピックの時間同一性によるスペクトル抽出を行うことで、注目音源の推定時間周波数スペクトログラムを抽出する。
(Step S7) The
(ステップS8)逆変換部38は、取得したスペクトルに対して、逆短時間フーリエ変換を行うことで注目音源の推定信号を復元する。続けて、出力部39は、逆変換部38が出力する音響信号を再生する。
(Step S8) The
[LDAを用いた注目音源の抽出方法]
次に、LDAを用いた注目音源の抽出方法を説明する。
実施形態では、複数のマイクロホンアレイでビームフォーミングして得られた注目音源方向の各分離音に対して、全ての分離音に共通する成分だけを取り出すことで注目音源が抽出する。
[Method of extracting sound source of interest using LDA]
Next, a method of extracting a sound source of interest using LDA will be described.
In the embodiment, the sound source of interest is extracted by extracting only components common to all the separated sounds in the direction of the sound source of interest obtained by beamforming with a plurality of microphone arrays.
実施形態では、時間フレームごとの周波数スペクトルを一つの量子化スペクトルとして扱い、時間区間ごとの周波数スペクトルの集合をセグメントとして扱う。このようにすることで、周波数スペクトルを話者や発話内容に基づくトピックと呼ばれるグループに分類することができる。
別の話者のスペクトルは異なるトピックに割り振られる場合は、ある時間区間で分離音のトピックが異なる場合は注目音源が存在していない。また、すべての分離音に同じトピックが割り当てられる場合は、そのトピックは注目音源である。
実施形態では、このようにしてトピックの時間同一性から注目音源のトピックを推定し,そのトピックがもつ周波数スペクトルだけを抜き出すことで共通成分を抽出する。
In the embodiment, a frequency spectrum for each time frame is treated as one quantized spectrum, and a set of frequency spectra for each time interval is treated as a segment. In this way, the frequency spectrum can be classified into groups called topics based on speakers and speech content.
If different speakers' spectra are assigned to different topics, the sound source of interest does not exist if the topics of separated sounds are different in a certain time interval. Also, if the same topic is assigned to all the separated sounds, that topic is the sound source of interest.
In the embodiment, the topic of the sound source of interest is thus estimated from the temporal identity of the topic, and the common component is extracted by extracting only the frequency spectrum of the topic.
(前処理)
実施形態では、音響信号に対してLDAを適用するために、音を量子化スペクトル化する前処理を行う。
実施形態では、時間フレームごとの振幅スペクトルを一つの量子化スペクトルベクトルとみなし、例えば、k-means法のクラスタリング手法を用いて、似たような成分を持つ量子化スペクトルベクトルをいくつかのグループに分ける。
(Preprocessing)
In an embodiment, in order to apply LDA to an acoustic signal, preprocessing is performed to quantize and spectralize the sound.
In the embodiment, the amplitude spectrum for each time frame is regarded as one quantized spectral vector. For example, using the k-means clustering method, quantized spectral vectors having similar components are grouped into several groups Divide.
まず、k-means法による周波数スペクトルの量子化スペクトル化について説明する。
短時間フーリエ変換を音響信号Xi(t)に適用すると、時間周波数領域の振幅スペクトルYi(ω、t)∈RF×T(Rは、正の実数全体の集合)が得られる。ここで,Fは周波数ビン数を表し、Tは時間フレーム数を表す。図4のように、時間フレームごとの振幅スペクトルyi(t)を一つのベクトルとみなして量子化スペクトル化を行う。さらに、実施形態では、k-means法により、yi(t)をK個のクラスk∈{1,…,K}に分類する。図4は、周波数スペクトルの量子化スペクトル化を説明するための図である。図4において、横軸は時間フレームであり、縦軸は周波数である。
First, the quantization spectrum conversion of the frequency spectrum by the k-means method will be explained.
Applying the short-time Fourier transform to the acoustic signal X i (t) yields the amplitude spectrum Y i (ω,t)εR F×T in the time-frequency domain, where R is the set of all positive real numbers. where F represents the number of frequency bins and T represents the number of time frames. As shown in FIG. 4, the amplitude spectrum y i (t) for each time frame is regarded as one vector, and quantized spectrum conversion is performed. Furthermore, in the embodiment, the k-means method classifies y i (t) into K classes kε{1, . . . , K}. FIG. 4 is a diagram for explaining quantization spectrum conversion of a frequency spectrum. In FIG. 4, the horizontal axis is the time frame and the vertical axis is the frequency.
ここで、k-meansの処理手順例を説明する。
図5は、k-meansの処理手順例を示すフローチャートである。なお、iはマイクロホンアレイの番号であり、Kは量子化スペクトルのクラスタのクラスタ数である。実施形態では、周波数ベクトル成分の類似性に基づき、マイクロホンアレイi毎、時間フレームt毎にクラスkが割り当てられる。
Here, an example of the k-means processing procedure will be described.
FIG. 5 is a flowchart showing an example of the k-means processing procedure. Note that i is the number of the microphone array, and K is the number of clusters in the quantized spectrum. In an embodiment, a class k is assigned to each microphone array i and each time frame t based on similarity of frequency vector components.
(ステップS11)分類部35は、yi(t)をランダムにクラスタkに配分する。
(Step S11) The
(ステップS12)分類部35は、各クラスkに属するxitのクラスタ中心Vkを計算する。
(ステップS13)分類部35は、yitを最も近いクラスタ中心Vkに再配分する。
(Step S12) The
(Step S13) The
(ステップS14)分類部35は、変化が収束したか否か、事前に与えられた回数が終了したか否かを判別する。分類部35は、変化が収束した、または事前に与えられた回数が終了したと判別した場合(ステップS14;YES)、処理を終了する。分類部35は、変化が収束していない、かつ事前に与えられた回数が終了していないと判別した場合(ステップS14;NO)、ステップS12の処理に戻す。
(Step S14) The
次に、トピックモデルについて説明する。各分離音の共通成分を抽出するために、実施形態では、音響信号にトピックモデルを当てはめる。
トピックモデルは、大量の文書データから何らかの意味情報を発見するための道具として考えられたものである。トピックモデルは、文書データの解析手法として考案されたが、その構造モデルの汎用性の高さから、画像処理やソーシャルネットワーク解析、音響信号処理などでも使われている。音響信号処理分野では、例えば信号到来方向(DOA;Direction Of Arrival)情報にトピックモデルを用いた話者推定法が考案されている。
Next, the topic model will be explained. To extract the common component of each isolated sound, embodiments fit a topic model to the acoustic signal.
A topic model is conceived as a tool for discovering some kind of semantic information from a large amount of document data. The topic model was devised as an analysis method for document data, but due to the high versatility of its structure model, it is also used in image processing, social network analysis, and acoustic signal processing. In the field of acoustic signal processing, for example, a speaker estimation method using a topic model for signal direction of arrival (DOA) information has been devised.
トピックモデルでは、セグメントm毎にトピック分布m=(θm1,…,θmL)が得られる。ここでθml=p(l|θm)は、セグメントmの量子化スペクトルにトピックlが割り当てられる確率を表し、θml≧0、Σlθml=1を満たす。また、トピックlごとに量子化スペクトル分布φl=(φl1,…,φlK)が得られる。φlk=p(k|φl)は、トピックlにおける値kの現れやすさを表す確率であり、φlk≧0、Σkφlk=1を満たす。 In the topic model, topic distribution m=(θ m1 , . . . , θ mL ) is obtained for each segment m. where θ ml =p(l|θ m ) represents the probability that topic l is assigned to the quantized spectrum of segment m and satisfies θ ml ≧0 and Σ l θ ml =1. Also, a quantized spectral distribution φ l =(φ l1 , . . . ,φ lK ) is obtained for each topic l. φ lk =p(k|φ 1 ) is a probability representing the likelihood of appearance of value k in topic l and satisfies φ lk ≧0 and Σ k φ lk =1.
また、トピックモデルでは、量子化スペクトルの順序は考慮せず、どの量子化スペクトルが何回現れるかによってセグメントを表現する。そのため、各マイクロホンアレイiの分離信号をM個の区間に分割しセグメント化する。
分類部35は、このようにして得たセグメントmiに対して、それぞれに含まれる量子化スペクトルkの数を数える。分類部35は、この操作によってLDAへの頻度行列W∈R3M×K(Rは、正の実数全体の集合)を作成する。なお、頻度行列Wの行数が3Mの理由は、3つのマイクロホンアレイのセグメント全体でLDAを計算するためである。
Also, in the topic model, the order of quantized spectra is not taken into account, and segments are represented by how many times each quantized spectrum appears. Therefore, the separated signal of each microphone array i is divided into M sections for segmentation.
The
(LDAによる注目トピックの推定)
上述したように、前処理後、除去部36は、ノイズ成分を除去する。
実施形態では、前処理で作成された頻度行列Wに対してLDAを適用する。LDAの推定法については変分ベイズ法を用いる。
(Prediction of hot topics by LDA)
As described above, after preprocessing, the
In the embodiment, LDA is applied to the frequency matrix W created by preprocessing. A variational Bayesian method is used for estimating LDA.
実施形態では、LDAを用いて、各セグメントのトピック分布θim={θ1,…,θL}(ただし、i=1,…,N、m=1,…,M)と、トピック毎の量子化スペクトル分布φl={φl1,…,φlK}(ただし、l=1,…,L)を推定する。LDAでは、量子化スペクトル分布とトピック分布に多項分布,その事前分布にディリクレ分布を仮定する。ここで、多項分布は「値がkになる確率がφkであるとき,K種類の離散値から1つの値を取り出す操作をN回行ったときの確率」を表す。多項分布は、次式(1)のように表される。なお、xは、分離音である。 In an embodiment, LDA is used to determine the topic distribution θ im ={θ 1 , . . . , θ L } (where i=1, . Estimate the quantized spectral distribution φ l ={φ l1 , . . . , φ lK } (where l=1, . LDA assumes a multinomial distribution for the quantized spectrum distribution and the topic distribution, and a Dirichlet distribution for its prior distribution. Here, the multinomial distribution represents "the probability when the operation of extracting one value from K kinds of discrete values is performed N times when the probability that the value becomes k is φk ". A multinomial distribution is represented by the following formula (1). Note that x is a separated sound.
また、ディリクレ分布は、φk≧0、Σk=1 Kφk=1という制約を満たす多項分布のパラメータφ=(φ1,…,φk)の確率分布であり、次式(2)のように表される。 Further, the Dirichlet distribution is a probability distribution with parameters φ=( φ 1 , . is represented as
式(2)において、Γ(・)はガンマ関数を表し、分数部分は正規化項である。また、βはハイパーパラメータを表し、βの値によって多項分布のパラメータがφとなる確率が決まる。 In equation (2), Γ(•) represents the gamma function and the fractional part is the normalization term. Also, β represents a hyperparameter, and the value of β determines the probability that the parameter of the multinomial distribution is φ.
図6は、LDAの量子化スペクトルのまとまりの生成過程例を示すフローチャートである。
なお、lはトピック番号を表し、mはセグメント番号を表し、Nmはセグメントmに含まれる量子化スペクトル数を表している。また、セグメントmのn番目の量子化スペクトルに対して、zmnはトピック番号を表し、wmnは単語番号を表す。
この生成過程では、トピック分布と量子化スペクトル分布を多項分布で表し、事前分布としてはディリクレ分布を採用する。また、α、βはそれぞれのハイパーパラメータを表す。
FIG. 6 is a flow chart showing an example of a process of generating a set of LDA quantized spectra.
Note that l represents a topic number, m represents a segment number, and Nm represents the number of quantized spectra included in segment m. Also, for the nth quantized spectrum of segment m, z mn represents the topic number and w mn represents the word number.
In this generation process, the topic distribution and the quantized spectrum distribution are represented by multinomial distributions, and the Dirichlet distribution is used as the prior distribution. Also, α and β represent respective hyperparameters.
(ステップS21~S23)抽出部37は、トピックlについて、1~Lまで分布を生成{φl~Dirichlet(β)}する処理(ステップS22)を繰り返す。
(Steps S21 to S23) The
(ステップS24~S30)抽出部37は、セグメントmについて、1,…,Mまで、トピック分布を生成{θm~Dirichlet(α)}(ステップS25)と、ステップS26~S29の処理を繰り返す。
(Steps S24 to S30) The
(ステップS26~S29)抽出部37は、量子化スペクトルnについて、1,…,Nmまで、トピックを生成{zmn~Multinomial(θm)}(ステップS27)と、量子化スペクトルを生成{wmn~Multinomial(φzmn)}(ステップS28)の処理を繰り返す。
(Steps S26 to S29) The
ここで、LDAのグラフィカルモデルを説明する。
LDAのグラフィカルモデルは図7のようになる。図7は、LDAのグラフィカルモデルを表す図である。図7において、丸で囲われたノード(α、β、θ、φ、w、z)は未知変数を表し、四角で囲われた部分(L、N、M)は繰り返しを表す。グラフィカルモデルでは、各ノードの確率的依存関係が視覚的に表現される。
A graphical model of LDA will now be described.
A graphical model of LDA is shown in FIG. FIG. 7 is a diagram showing a graphical model of LDA. In FIG. 7, circled nodes (α, β, θ, φ, w, z) represent unknown variables, and squared portions (L, N, M) represent iterations. The graphical model visually represents the probabilistic dependencies of each node.
実施形態では、変分ベイズ法を用いてLDAの推定を行う。以下、変分ベイズ法によるトピック推定方法を説明する。
以下の説明において、トピックモデルの未知変数は、トピック集合Z、トピック分布集合Θ、量子化スペクトル分布集合Φである。
まず,トピックモデルの対数周辺尤度logp(W|α,β)の変分下限Fを次式(3)のように求める。
In embodiments, variational Bayesian methods are used to estimate LDA. A topic estimation method based on the variational Bayesian method will be described below.
In the following description, unknown variables of the topic model are topic set Z, topic distribution set Θ, and quantized spectrum distribution set Φ.
First, the lower limit of variation F of the logarithmic marginal likelihood logp(W|α, β) of the topic model is obtained by the following equation (3).
式(3)において、3つ目の変形式の不等式は、イェンゼンの不等式を用いている。また、4つ目の式変形では、計算の簡単化のために変分事後分布をq(Z,Θ,Φ)=q(Z)q(Θ,Φ)と変形できることを仮定している。 In Equation (3), Jensen's inequality is used as the third modified inequality. Also, in the fourth modification of the formula, it is assumed that the variational posterior distribution can be modified as q(Z, Θ, Φ)=q(Z)q(Θ, Φ) for simplification of calculation.
次に変分事後分布q(z)の推定を行う。推定では、ラグランジュの未定乗数法を用いて、確率分布であるための制約条件Σzq(z)=1のもとで変分下限Fの最大化を行う。推定では、F(q(Z))を次式(4)のように置き、式(4)の極値を求める。 Next, the variational posterior distribution q(z) is estimated. In the estimation, the Lagrangian method of undetermined multipliers is used to maximize the lower bound of variation F under the constraint Σ z q(z)=1 for probability distribution. In the estimation, F(q(Z)) is set as in the following equation (4), and the extremum of equation (4) is obtained.
なお、式(4)において、λ(・)は、未定乗数である。
∂F(q(Z))/q(Z)=0を解くと、F((q(Z))を最大化するqmnlは、次式(5)のようになる。
Note that, in Equation (4), λ(•) is an undetermined multiplier.
Solving ∂F(q(Z))/q(Z)=0, q mnl that maximizes F((q(Z)) is given by the following equation (5).
ただし、式(5)において、Ψ(・)は、ディガンマ関数である。
同様に、q(Θ、Φ)に対しても、変分下限Fの最大化を行う。F(q(Θ、Φ))を、次式(6)のようにおき、式(6)の極値を求める。
However, in Equation (5), Ψ(•) is a digamma function.
Similarly, the lower limit of variation F is maximized for q(Θ, Φ). F(q(Θ, Φ)) is given by the following equation (6), and the extremum of equation (6) is obtained.
∂F(q(Θ、Φ))/q(Θ、Φ)=0を解くと、トピック分布の変分事後分布q(Θ)は、次式(7)のようになる。 By solving ∂F(q(Θ, Φ))/q(Θ, Φ)=0, the variational posterior distribution q(Θ) of the topic distribution is given by the following equation (7).
式(7)において、トピック分布の変分事後分布q(Θ)のパラメータαmlは、次式(8)のように定義している。 In Equation (7), the parameter α ml of the variational posterior distribution q(Θ) of the topic distribution is defined as in Equation (8) below.
さらに、量子化スペクトル分布の変分事後分布q(Φ)は、次式(9)のように求めることができる。 Furthermore, the variational posterior distribution q(Φ) of the quantized spectral distribution can be obtained by the following equation (9).
なお、式(9)において、パラメータβlkを、次式(10)と定義している。 Note that in equation (9), the parameter βlk is defined as the following equation (10).
抽出部37は、パラメータαml、βlkを、式(8)と式(10)によって更新することで、トピック分布と量子化スペクトル分布を推定する。
The extracting
図8は、本実施形態に係るトピックモデルに対する変分ベイズ推定のアルゴリズムの一例である。 FIG. 8 is an example of a variational Bayesian estimation algorithm for a topic model according to this embodiment.
(ステップS101)抽出部37は、変分事後パラメータαml、βlkを、ランダムな正の値で初期化する。
(Step S101) The
(ステップS102~S114)抽出部37は、終了条件を満たすまでステップS102~S114の処理を繰り返す。
(Steps S102 to S114) The
(ステップS103)抽出部37は、パラメータαmn
new=αに設定し、βlk
new=βに設定することで、ステップS104以降のパラメータを初期化する。
(Step S103) The
(ステップS104~S112)抽出部37は、ステップS104~S112の処理をM回繰り返す。
(ステップS105~S111)抽出部37は、ステップS105~S111の処理をN回繰り返す。
(ステップS106~S110)抽出部37は、ステップS106~S110の処理をL回繰り返す。
(Steps S104 to S112) The
(Steps S105 to S111) The
(Steps S106 to S110) The
(ステップS107)抽出部37は、式(5)の計算を行う。
(ステップS108)抽出部37は、パラメータαml
new=αml
new+qmnlに設定して、トピック分布の変分事後分布のパラメータを更新する。
(ステップS109)抽出部37は、パラメータβlwmn
new=βlwmn
new+qmnlに設定して、量子化スペクトル分布の変分事後分布のパラメータを更新する。
(Step S107) The
(Step S108) The
(Step S109) The
(ステップS110)抽出部37は、ステップS106~S110の処理をL回繰り返した後、ステップS111の処理に進める。
(ステップS111)抽出部37は、ステップS105~S111の処理をN回繰り返した後、ステップS112の処理に進める。
(ステップS112)抽出部37は、ステップS104~S112の処理をM回繰り返した後、ステップS113の処理に進める。
(Step S110) After repeating the processes of steps S106 to S110 L times, the
(Step S111) After repeating the processes of steps S105 to S111 N times, the
(Step S112) After repeating the process of steps S104 to S112 M times, the
(ステップS113)抽出部37は、パラメータαml=αml
newに設定し、
βlk=βlk
newに設定して更新する。
(ステップS114)抽出部37は、終了条件を満たした後、処理を終了する。なお、終了条件は、例えば所定の範囲に収束した場合または所定回数の処理を行った場合である。
(Step S113) The
Update by setting β lk =β lk new .
(Step S114) The
これらの処理によって、LDAにより時間区間毎のトピック分布Θ∈R3M×Lと、トピック毎の量子化スペクトルの分布Φ∈RL×Kが推定される。なお、実施形態では、トピック分布と量子化スペクトル分布の事後確率が、それぞれ閾値γ、ηを超えたものをアクティブ状態であると定義する。
具体的には、トピック分布θimにどのトピックが含まれているかを判別するために閾値γと比較して、αimlを次式(11)のように決定する。
Through these processes, LDA estimates a topic distribution ΘεR 3M×L for each time interval and a quantized spectrum distribution ΦεR L×K for each topic. In the embodiment, the posterior probabilities of the topic distribution and the quantized spectrum distribution exceed the thresholds γ and η, respectively, as defined as the active state.
Specifically, in order to determine which topic is included in the topic distribution θ im , it is compared with a threshold value γ to determine α iml as shown in the following equation (11).
また、量子化スペクトル分布においてアクティブパラメータβlkを閾値ηと比較して、βlkを次式(12)のように決定する。 Also, the active parameter β lk in the quantized spectrum distribution is compared with the threshold η to determine β lk as shown in the following equation (12).
αiml=1である場合は、トピックlがそのセグメントに出現する確率が高いことを表している。また、βlk=1の場合は、クラスタkがトピックlに含まれている確率が高いことを表す。
別の時間区間m、m’に同じ音が含まれる場合、その音を含むトピックlは、どちらの時間区間でもアクティブ状態になる可能性が高い。つまり、αiml=αim’l=1となる可能性が高い。このため、同じ時間区間におけるそれぞれの入力音で同じトピックがアクティブ状態であれば、そのトピックは注目音源の可能性が高い。
If α iml =1, it indicates that topic l has a high probability of appearing in that segment. Also, when β lk =1, it indicates that there is a high probability that cluster k is included in topic l.
If the same sound is included in different time intervals m, m', the topic l containing that sound is likely to be active in both time intervals. That is, it is highly likely that α iml =α im'l =1. Therefore, if the same topic is in the active state for each input sound in the same time interval, that topic is highly likely to be the sound source of interest.
図9は、注目音源のスペクトル推定の例を示す図である。図9において、符号g110は、マイクロホンアレイiが収音した音響信号であり、処理部3への入力信号である。また、符号g111は第1マイクロホンアレイ2-1が収音した音響信号を示し、符号g112は第2マイクロホンアレイ2-2が収音した音響信号を示し、符号g113は第3マイクロホンアレイ2-3が収音した音響信号を示す。また、符号g120は推定信号を表す。符号g111~g113、g120において、横軸は時間フレームであり、縦軸は振幅である。
FIG. 9 is a diagram showing an example of spectral estimation of a sound source of interest. In FIG. 9 , symbol g110 is an acoustic signal picked up by the microphone array i, which is an input signal to the
図9では、入力信号を時間区間ごとに最もアクティブなトピックを濃淡でして示している。符号g130の四角で囲まれた部分に着目すると、同じ時間区間で全ての入力信号が同じ色に色分けされているため、そのトピックは注目音源を表す。
実施形態では、同じ時間区間mにおいて、トピックlが全ての入力信号でαiml=1となっている場合に、このトピックlを抽出し、抽出したトピックを推定トピックとする。
FIG. 9 shows the input signal with the most active topics shaded for each time interval. Focusing on the portion surrounded by the rectangle g130, all the input signals in the same time interval are colored in the same color, so that topic represents the sound source of interest.
In the embodiment, if the topic l satisfies α iml =1 for all input signals in the same time interval m, then the topic l is extracted and the extracted topic is taken as the estimated topic.
さらに、抽出部37は、時間区間毎に推定トピックを選び、選んだ推定トピックが持つ量子化スペクトル分布のアクティブパラメータβlk=1となっている量子化スペクトルを抽出する。そして、逆変換部38は、抽出された量子化スペクトルに対して逆短時間フーリエ変換を行うことで注目音源の推定信号ei(t)を復元する。
Furthermore, the extracting
なお、図9に示した例では、3つの第1マイクロホンアレイ2-1~第3マイクロホンアレイ2-3(図2)それぞれに、同じトピックが含まれている場合に、注目音源であると推定して抽出する例を説明したが、これに限らない。
図9の例は、図1に示したように、3つの第1マイクロホンアレイ2-1~第3マイクロホンアレイ2-3それぞれが収音した音響信号に注目音源S0が含まれている例であるが、例えば3つの第1マイクロホンアレイ2-1~第3マイクロホンアレイ2-3のうち、2つのマイクロホンアレイで収音した音響信号に注目信号が含まれている場合もあり得る。このような場合は、収音に用いた複数のマイクロホンアレイのうち、2つ以上のマイクロホンアレイに同じトピックが含まれている場合に、その共通のトピックを注目音源であると推定するようにしてもよい。
In the example shown in FIG. 9, when the same topic is included in each of the three first to third microphone arrays 2-1 to 2-3 (FIG. 2), the sound source is estimated to be the sound source of interest. Although an example of extracting by
The example of FIG. 9 is an example in which the sound source of interest S0 is included in the acoustic signals picked up by the three first to third microphone arrays 2-1 to 2-3 as shown in FIG. However, for example, the signal of interest may be included in acoustic signals picked up by two of the three microphone arrays 2-1 to 2-3. In such a case, when the same topic is included in two or more microphone arrays among the multiple microphone arrays used for picking up sound, the common topic is estimated to be the sound source of interest. good too.
以上のように、本実施形態では、注目音源の内容(トピック)に注目した。そして、本実施形態では、複数のマイクロホンアレイで注目音源の方向の音を分離し、それぞれの音のトピックを、トピックモデルを用いて推定することにより、それぞれのマイクロホンアレイで共通するトピックを持つ部分を注目音源の音であると推定するようにした。
これにより本実施形態によれば、簡易に注目音源を分離することができる。
As described above, in the present embodiment, attention is paid to the content (topic) of the sound source of interest. Then, in this embodiment, sounds in the direction of the sound source of interest are separated by a plurality of microphone arrays, and the topic of each sound is estimated using a topic model. is assumed to be the sound of the sound source of interest.
Thus, according to the present embodiment, it is possible to easily separate the sound source of interest.
<評価結果>
次に、本実施形態の音源分離装置1を用いて評価を行った結果を説明する。
評価は、図1のように4人の音源に対して、3つのマイクロホンアレイを用いて収音して音源分離した。なお、音源には、サンプリング周波数16kHz、長さ30秒の男性による朗読音声を用いた。この4人の音源のうち、2人目の音声データを注目音源S0とした。また、1人目の音声を音源S3とし、3人目の音声を音源S1とし、4人目の音声を音源S2とした。注目音源S0は、前半30秒で発話し、それ以外の音源が後半30秒で発話しているようにした。このように、合計60秒の分離信号を3つ作成した。なお、評価では、注目音源と他の音源との発話時間が重なっていない状態で行った。また、全ての分離信号で注目音源の振幅や位相が等しいという条件で評価を行った。また、サンプリング周波数を16000Hzとし、短時間フーリエ変換の窓幅を512とし、短時間フーリエ変換のシフト幅を256とし、短時間フーリエ変換の窓関数としてハミング窓を用いた。
<Evaluation results>
Next, the results of evaluation using the sound
For the evaluation, as shown in FIG. 1, the sound sources of four persons were picked up using three microphone arrays and the sound sources were separated. As the sound source, a reading voice by a man with a sampling frequency of 16 kHz and a length of 30 seconds was used. Of these four sound sources, the speech data of the second person was set as the target sound source S0 . Also, the first person's voice is the sound source S3 , the third person's voice is the sound source S1 , and the fourth person's voice is the sound source S2 . The sound source of interest S0 spoke in the
評価では、作成した分離信号Xi(t)に対して短時間フーリエ変換を行い、変換して得られた振幅スペクトルYi(ω、t)をk-means法で量子化スペクトル化した。k-means法のクラスタ数は、K=100、300、600とした。セグメント化では、マイクロホンアレイ毎に、M=10、15、20、25個のセグメントに分割した、この時、各セグメントmの時間間隔は、それぞれd=6、4、3、2.4秒である。分離信号は、30秒の部分で注目音源からその他の音源で切り替わるため、d=3秒と6秒の場合は、セグメントの教会と音源の教会が一致しているため、全てのセグメントに1つの音源しか含まれていない。また、d=2.4秒と4秒の場合は、30秒をまたぐセグメントに注目音源とその他の音源が同時に含まれる。セグメント化の後、全体の7割以上に出現する量子化スペクトルと、3未満のセグメントのみに出現する量子化スペクトルを除去し、セグメント毎の頻度行列Wを作成した。 In the evaluation, a short-time Fourier transform was performed on the separated signal X i (t) created, and the amplitude spectrum Y i (ω, t) obtained by the transform was quantized and spectralized by the k-means method. The number of clusters for the k-means method was K=100, 300, and 600. In the segmentation, each microphone array was divided into M = 10, 15, 20 and 25 segments, and the time intervals of each segment m were d = 6, 4, 3 and 2.4 seconds, respectively. be. Since the separation signal switches from the target sound source to other sound sources in the 30-second portion, when d = 3 seconds and 6 seconds, the churches of the segments and the churches of the sound sources match. Contains only sound sources. Also, when d=2.4 seconds and 4 seconds, the target sound source and other sound sources are simultaneously included in the segment extending over 30 seconds. After the segmentation, quantized spectra appearing in 70% or more of the whole and quantized spectra appearing only in less than 3 segments were removed to create a frequency matrix W for each segment.
LDAの推定法として、上述した変分ベイズ法を用いた。またトピック分布と量子化スペクトル分布の事前分布には、どちらにもディリクレ分布を用いて、それぞれのハイパーパラメータの初期値を1/L、1/Kとした。さらに、アクティブ判定の閾値をγ=1/Lとし、η=1/Kとした。 The variational Bayesian method described above was used as the LDA estimation method. Dirichlet distribution is used for both the topic distribution and the prior distribution of the quantized spectrum distribution, and the initial values of the respective hyperparameters are set to 1/L and 1/K. Further, the thresholds for active determination are set to γ=1/L and η=1/K.
また、音源分離性能の評価指標には,BssEvalのSource to Distortion Ratio(SDR)を使用した。SDRは、推定された音源信号と全てのノイズのエネルギー比を表す。計算には、Bss Eval toolboxを使いた。評価では、分離しない状態からどれだけSDR値が改善するかを評価した。また、評価では、推定信号はマイクロホンアレイ毎に得られるため、マイクロホンアレイ毎にSDRを計算し平均化したものを指標とした。 BssEval's Source to Distortion Ratio (SDR) was used as an evaluation index for sound source separation performance. SDR represents the energy ratio between the estimated source signal and all noise. The Bss Eval toolbox was used for the calculations. In the evaluation, how much the SDR value improved from the non-separated state was evaluated. In the evaluation, since the estimated signal is obtained for each microphone array, the SDR calculated and averaged for each microphone array was used as an index.
ここで、分離を行う混合音に含まれる真の目的音源信号si(t)に対し、推定信号s^i(t)は、次式(13)のように分解できる。 Here, for the true target sound source signal s i (t) contained in the mixed sound to be separated, the estimated signal s^ i (t) can be decomposed as shown in the following equation (13).
式(13)において、starget(t)は目的音源信号項、einterf(t)は混合音に含まれる他の音源に由来するノイズ項、enoise(t)は他の音源によらない外部からのノイズ項、eartif(t)は分離アルゴリズム由来のノイズ項を表す。
また、SDRの計算式は、次式(14)で表される。
In equation (13), s target (t) is the target sound source signal term, e interf (t) is the noise term derived from other sound sources contained in the mixed sound, and e noise (t) is the external The noise term from , e artif (t) represents the noise term from the separation algorithm.
Moreover, the calculation formula of SDR is represented by following Formula (14).
図10は、クラスタ数K=600、セグメントの時間区間d=4秒、トピック数L=5のときの抽出音の一例を示す図である。図10において、符号g201は、第1マイクロホンアレイ2-1で得られた注目音源方向の分離音の波形である。符号g202は、正解音源の信号波形である。符号g203は、第1マイクロホンアレイ2-1が収音した音響信号から抽出した推定信号の波形である。符号g201~g203において、横軸は時刻(秒)であり、縦軸は振幅である。 FIG. 10 is a diagram showing an example of extracted sounds when the number of clusters K=600, the segment time interval d=4 seconds, and the number of topics L=5. In FIG. 10, symbol g201 is the waveform of the separated sound in the target sound source direction obtained by the first microphone array 2-1. Symbol g202 is the signal waveform of the correct sound source. Symbol g203 is the waveform of the estimated signal extracted from the acoustic signal picked up by the first microphone array 2-1. In symbols g201 to g203, the horizontal axis is time (seconds) and the vertical axis is amplitude.
図10の評価結果では、正解音源の波形と推定信号の波形を比較すると、推定信号が殆どの時間期間で正解音源部分を抽出できている。このように、本実施形態によれば、正解信号と同じ時間区間の音だけを精度良く取り出すことができる。 In the evaluation results of FIG. 10, when the waveform of the correct sound source and the waveform of the estimated signal are compared, the correct sound source portion of the estimated signal can be extracted for most of the time period. Thus, according to this embodiment, it is possible to accurately extract only the sound in the same time interval as the correct signal.
次に、各パラメータの値を変えたときに分離精度がどのように変化するか評価した結果を説明する。
図11は、クラスタ数K=600、時間区間d=4秒の場合のトピック数Lに伴う分離性能の変化を示す図である。横軸はトピック数であり、縦軸はSDR改善率[dB]である。
図11に示す評価結果において、SDR改善率は本実施形態の手法を適用した場合と適用しない場合のSDRの差分を表し、この値が高い値であるほど分離が高性能であることを意味する。この評価結果では、トピック数L=2の時、ほとんどSDR値が改善していないのに対し、トピック数Lが大きいほど分離性能が上がる傾向であった。このため、トピック数Lは、適用する音響信号に応じて変更するようにしてもよい。また、トピック数は、例えば機械学習によって設定や変更するようにしてもよい。
Next, the results of evaluating how the separation accuracy changes when the value of each parameter is changed will be described.
FIG. 11 is a diagram showing changes in separation performance with the number of topics L when the number of clusters K=600 and the time interval d=4 seconds. The horizontal axis is the number of topics, and the vertical axis is the SDR improvement rate [dB].
In the evaluation results shown in FIG. 11, the SDR improvement rate represents the difference in SDR between when the method of this embodiment is applied and when it is not applied, and the higher the value, the higher the separation performance. . In this evaluation result, when the number of topics L=2, the SDR value hardly improved, whereas the separation performance tended to increase as the number of topics L increased. Therefore, the number of topics L may be changed according to the sound signal to be applied. Also, the number of topics may be set or changed by machine learning, for example.
図12は、クラスタ数K=100、300、600と、セグメントの長さの違いによる分離性能の変化を示す図である。符号g310は分離性能の変化を示すグラフであり、符号g320は、符号g310のグラフの各値を示す表である。符号g310において、横軸はクラスタ数であり、縦軸はSDR改善率[dB]である。また、符号g311は時間間隔が2.4秒であり、符号g312は時間間隔が3秒であり、符号g313は時間間隔が4秒であり、符号g314は時間間隔が6秒である。 FIG. 12 is a diagram showing changes in separation performance due to the number of clusters K=100, 300, 600 and the difference in segment length. Symbol g310 is a graph showing changes in separation performance, and symbol g320 is a table showing each value of the graph of symbol g310. In symbol g310, the horizontal axis is the number of clusters, and the vertical axis is the SDR improvement rate [dB]. Reference g311 indicates a time interval of 2.4 seconds, reference g312 indicates a time interval of 3 seconds, reference g313 indicates a time interval of 4 seconds, and reference g314 indicates a time interval of 6 seconds.
この評価結果では、k-meansのクラスタ数Kについてみると、Kが小さい時は分離精度が低い。この理由は、クラスタ数Kが少ないとき、異なる音も同じクラスに割り当てられてしまうため分離性能が低下するためである。また、Kが大きすぎると各周波数スペクトルに対して量子化スペクトル番号が一対一で割り当てられてしまう。
これらのことから、Kは小さすぎず大きすぎない適切な値を設定した方が、より精度を向上することができる。このため、クラスタ数Kは、適用する環境等に応じて設定するようにしてもよく、例えば機械学習によって設定や変更するようにしてもよい。
In this evaluation result, looking at the number of k-means clusters K, when K is small, the separation accuracy is low. The reason for this is that when the number of clusters K is small, different sounds are also assigned to the same class, resulting in degraded separation performance. Also, if K is too large, a quantized spectrum number will be assigned to each frequency spectrum on a one-to-one basis.
For these reasons, the accuracy can be further improved by setting K to an appropriate value that is neither too small nor too large. For this reason, the number of clusters K may be set according to the application environment or the like, and may be set or changed by machine learning, for example.
また、図12において、セグメントの違いについて比較すると、d=2.4秒、4秒の場合は、30秒付近で同じセグメントに注目音源とその他の音源が含まれる。この理由は、トピック分布が共起性に基づいて単語を分類するためである。このため、この評価では、d=2.4秒、4秒の場合に推定トピックに別の音源の持つ単語が含まれる可能性が高くなる。クラスタ数K=600では、d=3秒の場合にSDR値が高いのに対し、d=4秒の場合にSDR値が低くなっている。 Further, in FIG. 12, when comparing the difference between the segments, when d=2.4 seconds and 4 seconds, the sound source of interest and other sound sources are included in the same segment around 30 seconds. The reason for this is that the topic distribution classifies words based on co-occurrence. Therefore, in this evaluation, when d=2.4 seconds and 4 seconds, there is a high possibility that the estimated topic includes a word of another sound source. When the number of clusters is K=600, the SDR value is high when d=3 seconds, while the SDR value is low when d=4 seconds.
図13は、クラスタ数K=600、時間区間d=4秒、トピック数L=5の場合、無音成分とユニーク成分の除去を行う場合と行わない場合の分離性能を比較した評価結果を示す図である。符号g410は評価結果をグラフで表したものであり、符号g420は符号g410のグラフの値を表で表したものである。符号g410において、横軸は時間区間dであり、縦軸はSDR改善率[dB]である。また、符号g411は無音除去ありの場合であり、符号g412は無音除去無しの場合である。 FIG. 13 is a diagram showing the evaluation result comparing the separation performance between the case where the number of clusters K=600, the time interval d=4 seconds, and the number of topics L=5, with and without removing silent components and unique components. is. The reference g410 represents the evaluation results in a graph, and the reference g420 represents the values of the graph of the reference g410 in a table. In symbol g410, the horizontal axis is the time interval d, and the vertical axis is the SDR improvement rate [dB]. Reference g411 is the case with silence removal, and reference g412 is the case without silence removal.
図13のように、比較例の無音除去しない場合はSDR値が劣化するが、本実施形態のように無音除去した場合はSDR値が大きく向上する。この理由は、評価に用いた人の朗読音は無音成分を多く持つため、複数の時間区間で無音成分を持つトピックがアクティブ状態と判別されたためである。 As shown in FIG. 13, the SDR value deteriorates when silence is not removed in the comparative example, but the SDR value is greatly improved when silence is removed as in the present embodiment. The reason for this is that since the reading voice of the person used for the evaluation has many silent components, a topic having silent components in a plurality of time intervals was determined to be in the active state.
<第2実施形態>
第2実施形態では、音源それぞれの方向を音源定位処理と音源分離処理によって検出する例を説明する。
<Second embodiment>
In the second embodiment, an example in which the direction of each sound source is detected by sound source localization processing and sound source separation processing will be described.
[音源分離装置1Aの構成例]
まず、本実施形態の音源分離装置1Aの構成例を説明する。
図14は、本実施形態に係る音源分離装置1Aの構成例を示すブロック図である。図14に示すように、音源分離装置1Aは、収音部2A、および処理部3Aを備える。なお、第1実施形態の音源分離装置1と同様の機能を有する機能部については、同じ符号を用いて説明を省略する。
収音部2Aは、第1マイクロホンアレイ2-1、第2マイクロホンアレイ2-2、および第3マイクロホンアレイ2-3を備える。
処理部3Aは、取得部31A、音源定位部32、音源分離部33、変換部34A、分類部35、除去部36、抽出部37、逆変換部38、および出力部39を備える。
[Configuration example of sound
First, a configuration example of the sound
FIG. 14 is a block diagram showing a configuration example of the sound
The sound pickup section 2A includes a first microphone array 2-1, a second microphone array 2-2, and a third microphone array 2-3.
The
[音源分離装置1Aの動作、機能]
次に、音源分離装置1Aの各部の動作と機能例を説明する。
第1マイクロホンアレイ2-1、第2マイクロホンアレイ2-2、および第3マイクロホンアレイ2-3それぞれは、収音したPチャネルの音響信号を処理部3Aに出力する。なお、各マイクロホンアレイが出力するPチャネルの音響信号には、マイクロホンアレイを識別するための識別情報が含まれている。
[Operations and functions of the sound
Next, an example of the operation and function of each part of the sound
Each of the first microphone array 2-1, the second microphone array 2-2, and the third microphone array 2-3 outputs a picked-up P-channel acoustic signal to the
取得部31Aは、第1マイクロホンアレイ2-1、第2マイクロホンアレイ2-2、および第3マイクロホンアレイ2-3それぞれが出力するPチャネルの音響信号を取得する。取得部31Aは、取得したマイクロホンアレイ毎のPチャネルの音響信号を音源定位部32と音源分離部33に出力する。
The
音源定位部32は、取得部31Aが出力するマイクロホンアレイ毎のPチャネルの音響信号を取得する。音源定位部32は、取得したマイクロホンアレイ毎のPチャネルの音響信号に対して、例えばビームフォーミング法またはMUSIC法による音源定位処理を行って、音響信号に含まれる音源方向を推定する。音源定位部32は、マイクロホンアレイ毎に、推定した音源定位情報を音源分離部33に出力する。
The sound
音源分離部33は、音源定位部32が出力する音源定位情報と、取得部31Aが出力するマイクロホンアレイ毎のMチャネルの音響信号を取得する。音源分離部33は、マイクロホンアレイ毎に、Mチャネルの音響信号から音源定位された方向の音響信号を抽出する。音源分離部33は、例えばGHDSS(Geometric High-order Dicorrelation-based Source Separation)法によって、音源分離処理を行う。例えば、図1において、マイクロホンアレイMA1が第1マイクロホンアレイ2-1の場合は、音源S0とS1が1チャネルの音響信号として抽出される。同様に、音源分離部33は、第2マイクロホンアレイ2-2によって収音されたPチャネルの音響信号に対して、音源に対応する音響信号を抽出する。音源分離部33は、第3マイクロホンアレイ2-3によって収音されたPチャネルの音響信号に対して、音源に対応する音響信号を抽出する。音源分離部33は、抽出したマイクロホンアレイ毎の音響信号を変換部34Aに出力する。
The sound
なお、本実施形態において、複数のマイクロホンアレイの基準方向は、例えば図1の複数のマイクロホンアレイMA1~MA3の重心(注目音源S0位置)方向等に設定するようにしてもよい。 In this embodiment, the reference direction of the multiple microphone arrays may be set, for example, in the direction of the center of gravity (position of the sound source of interest S0 ) of the multiple microphone arrays MA 1 to MA 3 in FIG.
第1実施形態では、ビームフォーミング法で形成されたビームによって注目音源を含む音響信号を収音することで、注目音源の音響信号を分離したが、本実施形態では、音源定位処理と音源分離処理によって、注目音源の音響信号を分離する。その後、処理部3Aは、第1実施形態と同様に、トピックの抽出、分類、共通トピックの抽出による推定トピックの推定等を行う。
In the first embodiment, the acoustic signal of the sound source of interest is separated by picking up the acoustic signal including the sound source of interest using beams formed by the beamforming method. separates the acoustic signal of the sound source of interest. After that, the
本実施形態の音源分離装置1Aの構成によっても、第1実施形態と同様の効果を得ることができる。
The configuration of the sound
<変形例>
上述した第1実施形態と第2実施形態では、k-means法によってクラスタリングを行う例を説明したが、これに限らない。クラスタリングは、他の周知の手法(例えば重み付き平均法等)を用いてもよい。
<Modification>
In the first and second embodiments described above, an example of performing clustering by the k-means method has been described, but the present invention is not limited to this. Clustering may use other well-known techniques (for example, weighted average method, etc.).
また、上述した第1実施形態と第2実施形態では、先にクラスタリングを行い、クラスタリング後に除去部36がノイズ成分を除去し、ノイズ成分が除去された後に注目音源を抽出する例を説明したが、これに限らない。
In addition, in the above-described first and second embodiments, an example has been described in which clustering is performed first, noise components are removed by the
図15は、無音区間と発話区間を説明するための図である。
図15に示すように、音響信号には、一般的に無音区間g501が含まれている。このような無音区間を除去、または発話区間g502を抽出し、発話区間に対して所定の区間毎のからトピックを抽出するようにしてもよい。無音区間または発話区間の検出は、例えば音響信号の振幅に対する発話区間検出のための閾値と音響信号を比較して検出するようにしてもよい。
FIG. 15 is a diagram for explaining silent intervals and speech intervals.
As shown in FIG. 15, the acoustic signal generally includes a silent section g501. It is also possible to remove such a silent section or extract the speech section g502 and extract the topic from each predetermined section with respect to the speech section. Silent intervals or speech intervals may be detected, for example, by comparing a threshold value for detecting speech intervals with respect to the amplitude of the acoustic signal and the acoustic signal.
なお、本発明における音源分離装置1(または1A)の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音源分離装置1(または1A)が行う処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。 A program for realizing all or part of the functions of the sound source separation device 1 (or 1A) of the present invention is recorded on a computer-readable recording medium, and the program recorded on this recording medium is transferred to a computer system. All or part of the processing performed by the sound source separation device 1 (or 1A) may be performed by reading and executing the program. It should be noted that the "computer system" here includes hardware such as an OS and peripheral devices. Also, the "computer system" includes a WWW system provided with a home page providing environment (or display environment). The term "computer-readable recording medium" refers to portable media such as flexible discs, magneto-optical discs, ROMs and CD-ROMs, and storage devices such as hard discs incorporated in computer systems. In addition, "computer-readable recording medium" means a volatile memory (RAM) inside a computer system that acts as a server or client when a program is transmitted via a network such as the Internet or a communication line such as a telephone line. , includes those that hold the program for a certain period of time.
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。 Further, the above program may be transmitted from a computer system storing this program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in a transmission medium. Here, the "transmission medium" for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line. Further, the program may be for realizing part of the functions described above. Further, it may be a so-called difference file (difference program) that can realize the above-described functions in combination with a program already recorded in the computer system.
1,1A…音源分離装置、
2,2A…収音部、
3,3A…処理部、
2-1…第1マイクロホンアレイ、
2-2…第2マイクロホンアレイ、
2-3…第3マイクロホンアレイ、
30…ビームフォーミング制御部、
31…取得部、
32…音源定位部、
33…音源分離部、
34,34A…変換部、
35…分類部、
36…除去部、
37…抽出部、
38…逆変換部、
39…出力部、
40…音源定位部
1, 1A ... sound source separation device,
2, 2A ... sound pickup part,
3, 3A ... processing unit,
2-1 ... first microphone array,
2-2 ... second microphone array,
2-3 ... third microphone array,
30 ... beam forming control unit,
31 ... Acquisition unit,
32... Sound source localization section,
33... Sound source separation section,
34, 34A ... conversion unit,
35... Classifying section,
36 ... removal unit,
37 ... extraction part,
38 ... inverse transformation unit,
39 ... output section,
40... Sound source localization part
Claims (8)
少なくとも2つの前記マイクロホンアレイによって収音されたそれぞれの収音音響信号に、注目音源の第1音響信号と、前記注目音源と同じ方向の他の音源の第2音響信号とが含まれる場合、少なくとも2つの前記マイクロホンアレイによって収音されたそれぞれの前記収音音響信号に含まれている共通成分を抽出して、前記収音音響信号から前記第1音響信号を抽出する抽出部と、
前記収音音響信号に含まれている音のトピックを分類する分類部、を備え、
前記抽出部は、
前記分類部によって、前記マイクロホンアレイ毎に分類された前記トピックを比較し、比較した結果、複数の前記マイクロホンアレイそれぞれが収音した前記収音音響信号において同じトピックである場合に、前記同じトピックを前記注目音源であると推定して、前記収音音響信号から、前記同じトピックに対応する音響信号を前記第1音響信号として抽出する、音源分離装置。 a plurality of microphone arrays for picking up acoustic signals;
When each of the collected sound signals picked up by the at least two microphone arrays includes a first sound signal of a sound source of interest and a second sound signal of another sound source in the same direction as the sound source of interest, at least an extraction unit that extracts a common component included in each of the collected sound signals picked up by the two microphone arrays and extracts the first sound signal from the collected sound signals ;
a classification unit that classifies topics of sounds included in the collected sound signal;
The extractor is
The classifying unit compares the topics classified for each of the microphone arrays, and if the topic is the same in the collected sound signals picked up by each of the plurality of microphone arrays as a result of the comparison, the same topic is identified. A sound source separation device that presumes that the sound source is the target sound source and extracts an acoustic signal corresponding to the same topic from the collected sound signals as the first acoustic signal.
前記共通成分を、潜在的ディリクレ配分法を用いて抽出する、
請求項1に記載の音源分離装置。 The extractor is
extracting the common component using a latent Dirichlet allocation method;
The sound source separation device according to claim 1.
前記分類部は、
前記マイクロホンアレイ毎の前記周波数スペクトルを、時間フレームにおいてM(Mは2以上の整数)個の区間に分割してセグメント化し、各セグメントに含まれている前記時間フレーム毎の周波数スペクトルを前記トピック毎に分類する、
請求項1または請求項2に記載の音源分離装置。 further comprising a conversion unit that converts the collected sound signal collected by each of the microphone arrays into a frequency spectrum;
The classification unit
The frequency spectrum for each microphone array is segmented by dividing it into M (M is an integer equal to or greater than 2) sections in a time frame, and the frequency spectrum for each of the time frames included in each segment is divided into the topic. classify by
The sound source separation device according to claim 1 or 2 .
時間区間毎の前記トピックの分布と、前記トピック毎の前記周波数スペクトルを量子化した量子化スペクトルの分布を推定し、前記トピックの分布と前記量子化スペクトルの分布の事後確率が、それぞれアクティブ状態を判別するための閾値より大きいものをアクティブ状態であるとし、
同時刻の前記セグメントごとの前記トピックの分布を比較し、少なくとも2つの前記マイクロホンアレイにおいてアクティブになっている前記トピックを抽出することで前記共通成分を抽出する、
請求項3に記載の音源分離装置。 The extractor is
estimating the distribution of the topic for each time interval and the distribution of the quantized spectrum obtained by quantizing the frequency spectrum for each topic, and the posterior probabilities of the distribution of the topic and the distribution of the quantized spectrum each indicate an active state; Those larger than the threshold for discrimination are assumed to be in an active state,
extracting the common component by comparing the distribution of the topics for each of the segments at the same time and extracting the topics that are active in at least two of the microphone arrays;
The sound source separation device according to claim 3 .
複数の前記マイクロホンアレイは、前記制御部の制御に応じて、前記注目音源の前記第1音響信号を含む前記収音音響信号を収音する、
請求項1から請求項4のいずれか1項に記載の音源分離装置。 a control unit that controls the microphone array to form a beam in the direction of the sound source of interest;
The plurality of microphone arrays pick up the collected sound signal including the first sound signal of the sound source of interest under the control of the control unit.
The sound source separation device according to any one of claims 1 to 4 .
前記マイクロホンアレイそれぞれが収音した前記収音音響信号から、前記音源定位された定位結果に基づいて、前記第1音響信号を含む分離信号を分離する音源分離部と、をさらに備え、
前記抽出部は、
少なくとも2つの前記マイクロホンアレイそれぞれの前記収音音響信号から分離されたそれぞれの前記分離信号に含まれている共通成分を抽出して、前記収音音響信号から前記第1音響信号を抽出する、
請求項1から請求項4のいずれか1項に記載の音源分離装置。 a sound source localization unit that performs sound source localization on the sound signals picked up by each of the microphone arrays;
a sound source separation unit that separates a separated signal including the first acoustic signal from the collected sound signals picked up by each of the microphone arrays based on the localization result of the sound source localization;
The extractor is
Extracting a common component included in each of the separated signals separated from the collected sound signals of each of the at least two microphone arrays to extract the first sound signal from the collected sound signals;
The sound source separation device according to any one of claims 1 to 4 .
抽出部が、少なくとも2つの前記マイクロホンアレイによって収音されたそれぞれの収音音響信号に、注目音源の第1音響信号と、前記注目音源と同じ方向の他の音源の第2音響信号とが含まれる場合、少なくとも2つの前記マイクロホンアレイによって収音されたそれぞれの前記収音音響信号に含まれている共通成分を抽出して、前記収音音響信号から前記第1音響信号を抽出し、
分類部が、前記収音音響信号に含まれている音のトピックを分類し、
前記抽出部が、前記分類部によって、前記マイクロホンアレイ毎に分類された前記トピックを比較し、比較した結果、複数の前記マイクロホンアレイそれぞれが収音した前記収音音響信号において同じトピックである場合に、前記同じトピックを前記注目音源であると推定して、前記収音音響信号から、前記同じトピックに対応する音響信号を前記第1音響信号として抽出する、
音源分離方法。 A multiple microphone array picks up the acoustic signal,
The extraction unit causes each collected sound signal picked up by the at least two microphone arrays to include a first sound signal of a sound source of interest and a second sound signal of another sound source in the same direction as the sound source of interest. extracting a common component included in each of the collected sound signals picked up by at least two of the microphone arrays to extract the first sound signal from the collected sound signals ;
a classifying unit classifying sound topics included in the collected sound signal;
When the extraction unit compares the topics classified for each microphone array by the classification unit, and as a result of the comparison, the same topic is included in the collected sound signals picked up by each of the plurality of microphone arrays estimating the same topic as the sound source of interest, and extracting an acoustic signal corresponding to the same topic from the collected sound signal as the first acoustic signal;
sound source separation method.
複数のマイクロホンアレイによって音響信号を収音させ、
少なくとも2つの前記マイクロホンアレイそれぞれによって収音された収音音響信号に、注目音源の第1音響信号と、前記注目音源と同じ方向の他の音源の第2音響信号とが含まれる場合、少なくとも2つの前記マイクロホンアレイによって収音されたそれぞれの前記収音音響信号に含まれている共通成分を抽出させ、前記収音音響信号から前記第1音響信号を抽出させ、
前記収音音響信号に含まれている音のトピックを分類させ、
前記マイクロホンアレイ毎に分類された前記トピックを比較させ、比較させた結果、複数の前記マイクロホンアレイそれぞれが収音した前記収音音響信号において同じトピックである場合に、前記同じトピックを前記注目音源であると推定して、前記収音音響信号から、前記同じトピックに対応する音響信号を前記第1音響信号として抽出させる、
プログラム。 to the computer,
Acoustic signals are picked up by multiple microphone arrays,
When the collected sound signals picked up by each of the at least two microphone arrays include a first sound signal of a sound source of interest and a second sound signal of another sound source in the same direction as the sound source of interest, at least two extracting a common component included in each of the collected sound signals picked up by the two microphone arrays, and extracting the first sound signal from the collected sound signals ;
classifying sound topics contained in the collected sound signal;
Compare the topics classified for each of the microphone arrays, and if the topic is the same in the picked-up acoustic signals picked up by each of the plurality of microphone arrays as a result of the comparison, the same topic is picked up by the sound source of interest. estimating that there is, extracting an acoustic signal corresponding to the same topic from the collected sound signal as the first acoustic signal;
program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019223975A JP7292646B2 (en) | 2019-12-11 | 2019-12-11 | Sound source separation device, sound source separation method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019223975A JP7292646B2 (en) | 2019-12-11 | 2019-12-11 | Sound source separation device, sound source separation method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021092695A JP2021092695A (en) | 2021-06-17 |
JP7292646B2 true JP7292646B2 (en) | 2023-06-19 |
Family
ID=76312392
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019223975A Active JP7292646B2 (en) | 2019-12-11 | 2019-12-11 | Sound source separation device, sound source separation method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7292646B2 (en) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015125321A1 (en) | 2014-02-21 | 2015-08-27 | 独立行政法人産業技術総合研究所 | Multifaceted singing-voice analysis system and multifaceted singing-voice analysis method |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5482854B2 (en) * | 2012-09-28 | 2014-05-07 | 沖電気工業株式会社 | Sound collecting device and program |
JP6085538B2 (en) * | 2013-09-02 | 2017-02-22 | 本田技研工業株式会社 | Sound recognition apparatus, sound recognition method, and sound recognition program |
JP6106571B2 (en) * | 2013-10-16 | 2017-04-05 | 日本電信電話株式会社 | Sound source position estimating apparatus, method and program |
JP6543844B2 (en) * | 2015-08-27 | 2019-07-17 | 本田技研工業株式会社 | Sound source identification device and sound source identification method |
JP6943120B2 (en) * | 2017-09-28 | 2021-09-29 | 沖電気工業株式会社 | Sound collectors, programs and methods |
-
2019
- 2019-12-11 JP JP2019223975A patent/JP7292646B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015125321A1 (en) | 2014-02-21 | 2015-08-27 | 独立行政法人産業技術総合研究所 | Multifaceted singing-voice analysis system and multifaceted singing-voice analysis method |
Also Published As
Publication number | Publication date |
---|---|
JP2021092695A (en) | 2021-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9524730B2 (en) | Monaural speech filter | |
Luo et al. | Speaker-independent speech separation with deep attractor network | |
Dhanalakshmi et al. | Classification of audio signals using SVM and RBFNN | |
JP6543844B2 (en) | Sound source identification device and sound source identification method | |
Giannakopoulos et al. | A multi-class audio classification method with respect to violent content in movies using bayesian networks | |
JP2014502375A (en) | Passphrase modeling device and method for speaker verification, and speaker verification system | |
CN111341319B (en) | Audio scene identification method and system based on local texture features | |
US10548534B2 (en) | System and method for anhedonia measurement using acoustic and contextual cues | |
JP6821615B2 (en) | Mask estimation device, model learning device, sound source separation device, mask estimation method, model learning method, sound source separation method and program | |
Nie et al. | Deep stacking networks with time series for speech separation | |
Wang et al. | A structure-preserving training target for supervised speech separation | |
Tseng et al. | Combining sparse NMF with deep neural network: A new classification-based approach for speech enhancement | |
JP2016045221A (en) | Signal analysis device, method, and program | |
Ludeña-Choez et al. | Feature extraction based on the high-pass filtering of audio signals for Acoustic Event Classification | |
Agrawal et al. | Prosodic feature based text dependent speaker recognition using machine learning algorithms | |
Han et al. | Bird sound classification based on ECOC-SVM | |
Potharaju et al. | Classification of ontological violence content detection through audio features and supervised learning | |
Mogridge et al. | Non-intrusive speech intelligibility prediction for hearing-impaired users using intermediate ASR features and human memory models | |
JP6910002B2 (en) | Dialogue estimation method, dialogue activity estimation device and program | |
JP7292646B2 (en) | Sound source separation device, sound source separation method, and program | |
Ravindran et al. | Audio classification and scene recognition and for hearing aids | |
EP3847646B1 (en) | An audio processing apparatus and method for audio scene classification | |
Imoto et al. | Acoustic scene analysis from acoustic event sequence with intermittent missing event | |
Samui et al. | Deep Recurrent Neural Network Based Monaural Speech Separation Using Recurrent Temporal Restricted Boltzmann Machines. | |
Cipli et al. | Multi-class acoustic event classification of hydrophone data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20200220 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20200220 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200417 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200417 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211215 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221114 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221129 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230125 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230523 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230529 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7292646 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |