JP2019028406A - 音声信号分離装置、音声信号分離方法及び音声信号分離プログラム - Google Patents

音声信号分離装置、音声信号分離方法及び音声信号分離プログラム Download PDF

Info

Publication number
JP2019028406A
JP2019028406A JP2017151077A JP2017151077A JP2019028406A JP 2019028406 A JP2019028406 A JP 2019028406A JP 2017151077 A JP2017151077 A JP 2017151077A JP 2017151077 A JP2017151077 A JP 2017151077A JP 2019028406 A JP2019028406 A JP 2019028406A
Authority
JP
Japan
Prior art keywords
matrix
signal separation
voice
audio signal
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017151077A
Other languages
English (en)
Inventor
澤田 宏
Hiroshi Sawada
宏 澤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017151077A priority Critical patent/JP2019028406A/ja
Publication of JP2019028406A publication Critical patent/JP2019028406A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】観測信号から目的信号を取り出す線形変換のための行列を精度良く計算する。【解決手段】複数の観測信号をそれぞれ第1の時間周波数表現に変換する周波数領域変換手段と、前記周波数領域変換手段が変換した前記第1の時間周波数表現を第2の時間周波数表現に線型変換する線形変換手段と、前記線形変換手段が線形変換した前記第2の時間周波数表現の音声度を評価し、評価した前記音声度の変化を算出する音声度評価手段と、前記音声度評価手段が算出した前記音声度の変化に基づいて、前記線形変換に用いる行列を変更する行列最適化手段と、を有することを特徴とする。【選択図】図3

Description

本発明は、音声信号分離装置、音声信号分離方法及び音声信号分離プログラムに関する。
複数の観測信号に対して線形変換を施して目的の源信号(以下、「目的信号」と表す。)を精度良く取り出す従来技術として、独立成分分析(ICA:Independent Component Analysis)と、これを時間周波数表現に拡張した独立ベクトル分析(IVA:Independent Vector Analysis)とが知られている(非特許文献1及び2)。以下、ICA及びIVAについて説明する。
複数の信号が混合され、複数のマイクロホンj(j=1,・・・,J)で観測されたとする。このとき、各マイクロホンjでの観測信号に対して短時間フーリエ変換(STFT:Short-Time Fourier Transform)を適用して、時間周波数表現x(n,f)を得る。x(n,f)は、短時間フーリエ変換の結果であるため複素数である。ここで、n=1,・・・,Nは時間フレームの番号、f=1,・・・,Fは周波数ビンの番号を表す。
そして、複数のマイクロホンjをまとめ、観測信号ベクトルをx(n,f)=[x(n,f),・・・,x(n,f)]と定義する。また、線形変換のためのJ×J行列Wを周波数ビン毎f=1,・・・,Fに定義する。これにより、以下の式1により線形変換後の信号ベクトルy(n,f)=[y(n,f),・・・,y(n,f)]を得る。なお、Tは転置を表す。
Figure 2019028406
ICAでは、中心極限定理(複数の信号を混ぜるとガウス分布に近付く)に基づき、ガウス分布からの乖離度を非線形関数で評価し、その乖離度を高めるように線形変換の係数(すなわち、行列W)を変更していく。音声や音響信号に対しては、γを小さな正の数として、以下の式2に示す非線形関数Gが典型的に用いられる。
Figure 2019028406
ICAでは周波数ビンf毎に乖離度が高まる行列Wを求めるが、IVAでは全ての周波数を統合した結果
Figure 2019028406
のガウス分布からの乖離度を評価し、この乖離度j=1,・・・,Jの総和が高まるように全ての周波数の行列W,f=1,・・・,Fを同時に最適化する。その際には、以下の式3に示す非線形関数Gが典型的に用いられる。
Figure 2019028406
なお、最尤基準から導かれる全体として最適化すべき式は、ICAの場合、各周波数ビンf毎に、以下の式4である。
Figure 2019028406
一方、IVAの場合は、全周波数ビンを統合した以下の式5である。
Figure 2019028406
以上で説明したように、ICA及びIVAでは、非線形関数で評価されるガウス分布からの乖離度を手掛かりにして線形変換のための行列Wを最適化している。
Hyvarinen, A., Karhunen, J., and Oja, E. (2001) Independent Component Analysis, John Wiley & Sons. Lee, I., Kim, T., and Lee, T.W. (2007) "Fast fixed-point independent vector analysis algorithms for convolutive blind source separation," Signal Processing, 87 (8), 1859-1871.
ところで、上記の従来技術は、独立性やガウス分布からの乖離に着目しているため、ガウス分布に近い統計量を持つ雑音以外であれば、どのような種類の信号にも適用できるという汎用性がある。
しかしながら、ガウス分布からの乖離度を精度良く計算するためには(言い換えれば、線形変換のための行列を精度良く計算するためには)、十分な統計量を確保できる観測信号の長さが必要である。観測信号として音響信号を対象とした場合、経験的・実験的に1秒以上の長さが必要である。したがって、観測信号が短い場合(例えば、音響信号の長さが1秒未満である場合)には、線形変換のための行列を精度良く計算できないことがある。
そこで、本発明では、観測信号から目的信号を取り出す線形変換のための行列を精度良く計算することを目的とする。
上記課題を解決するため、複数の観測信号をそれぞれ第1の時間周波数表現に変換する周波数領域変換手段と、前記周波数領域変換手段が変換した前記第1の時間周波数表現を第2の時間周波数表現に線型変換する線形変換手段と、前記線形変換手段が線形変換した前記第2の時間周波数表現の音声度を評価し、評価した前記音声度の変化を算出する音声度評価手段と、前記音声度評価手段が算出した前記音声度の変化に基づいて、前記線形変換に用いる行列を変更する行列最適化手段と、を有することを特徴とする。
観測信号から目的信号を取り出す線形変換のための行列を精度良く計算することができる。
本発明の実施の形態における音声信号分離装置の構成の一例を示す図である。 本発明の実施の形態における音声信号分離装置のハードウェア構成の一例を示す図である。 本発明の実施の形態における音声信号分離装置の機能構成の一例を示す図である。 本発明の実施の形態における音声信号分離装置が実行する全体処理の一例を示すフローチャートである。 深層学習モデルにより音声度評価部を構成した場合の一例を説明する図である。
以下、本発明の実施の形態について、図面を参照しながら説明する。以下で説明する本発明の実施の形態では、観測信号は音響信号(人の声や雑音等の様々な音を示す信号)であるものとする。
<音声信号分離装置10の構成>
まず、本発明の実施の形態における音声信号分離装置10の構成について、図1を参照しながら説明する。図1は、本発明の実施の形態における音声信号分離装置10の構成の一例を示す図である。
図1に示す音声信号分離装置10は、観測信号から目的信号を分離して出力するコンピュータである。図1に示す音声信号分離装置10には、音声信号分離プログラム100がインストールされている。音声信号分離プログラム100は、複数のモジュールで構成されるプログラム群であっても良い。
なお、観測信号j(j=1,・・・,J)は、例えば、音声信号分離装置10と接続されるマイクロホンjで観測された音響信号である。また、目的信号は、観測信号jから分離される音声信号(例えば、人の音声を示す信号)である。ただし、目的信号として分離される音声信号は、人の音声を示す信号に限られず、任意の音又は音声を示す信号であっても良い。例えば、目的信号として、ある特定の機械音や動物の鳴き声等を示す信号であっても良い。
本発明の実施の形態における音声信号分離装置10は、音声信号分離プログラム100により、上記の式1で用いられる行列Wを最適化することで、入力された観測信号から目的信号を分離して(取り出して)、分離した目的信号を出力する。
なお、図1に示す音声信号分離装置10の構成は一例であって、他の構成であっても良い。例えば、音声信号分離装置10は、複数台のコンピュータで構成されていても良い。
<線形変換のための行列Wの最適化>
ここで、本発明の実施の形態における音声信号分離装置10による線形変換のための行列W(すなわち、線形変換の係数)の最適化の手法について説明する。本発明の実施の形態では、音声度を評価する関数Gを用いる。これは、
Figure 2019028406
と表記できる構造を持ち、信号j毎に評価した音声度の、全ての信号j=1,・・・,Jに関する総和である。関数Gは、線形変換後に全ての周波数を統合した結果
Figure 2019028406
の単一時間フレームあるいは連続する数フレームn=1,・・・,M(M≦N)を入力し、音声度を0から1等の値で出力する。
予め大量の音声データや雑音データ、その他の音データ等を用いた教師あり機械学習の仕組みにより、関数Gの内部構造を決定しておく。出力される音声度を高めるために修正すべき行列Wの微小量を決定するため、関数Gは、以下の式6で必要される偏微分が計算できることが要件である。
Figure 2019028406
なお、*は複素共役を表す。
最もシンプルなものは線形回帰モデルやロジスティック回帰モデルであり、より精度を上げるために段数を増やしたニューラルネットワーク(深層学習モデル)を用いることができる。すなわち、後述する音声度評価部130は、これらのモデルを用いて構成することができる。なお、決定木やランダムフォレスト等は、偏微分の計算が困難であり、要件を満たさない。
IVAの場合と同様に、最尤基準から導かれる全体として最適化すべき式は、以下の式7で与えられる。
Figure 2019028406
上記の式7を最大化するため、行列Wは、勾配上昇法(Gradient Ascent)に基づいて最適化される。すなわち、以下の式8に示すように、ηをステップサイズ(小さな正の値)として、行列Wに関する複素共役偏微分の方向に少しずつ変更していくことで最適化される。
Figure 2019028406
なお、上記の式8に示す最適化に必要な偏微分は、関数Gに求められる要件としての偏微分(上記の式6)を用いて、以下の式9により計算できる。なお、Hは共役転置(複素数の共役を取り、かつ、転置を行う)を表す。
Figure 2019028406
なお、勾配上昇法の代わりに、ICAやIVAで広く用いられている自然勾配法(Natural Gradient)を用いて、上記の式7を最適化しても良い。この場合は、上記の式8及び式9がそれぞれ以下の式10及び式11となる。
Figure 2019028406
Figure 2019028406
<音声信号分離装置10のハードウェア構成>
次に、本発明の実施の形態における音声信号分離装置10のハードウェア構成について、図2を参照しながら説明する。図2は、本発明の実施の形態における音声信号分離装置10のハードウェア構成の一例を示す図である。
図2に示す音声信号分離装置10は、入力装置11と、表示装置12と、外部I/F13と、RAM(Random Access Memory)14と、ROM(Read Only Memory)15と、CPU(Central Processing Unit)16と、通信I/F17と、補助記憶装置18とを有する。これら各ハードウェアは、それぞれがバスBを介して通信可能に接続されている。
入力装置11は、例えばキーボードやマウス、タッチパネル等であり、ユーザが各種操作を入力するのに用いられる。表示装置12は、例えばディスプレイ等であり、各種画面等を表示する。なお、音声信号分離装置10は、入力装置11及び表示装置12の少なくとも一方を有していなくても良い。
外部I/F13は、外部装置とのインタフェースである。外部装置には、記録媒体13a等がある。音声信号分離装置10は、外部I/F13を介して、記録媒体13a等の読み取りや書き込みを行うことができる。記録媒体13aには、音声信号分離プログラム100等が記録されていても良い。
記録媒体13aには、例えば、フレキシブルディスク、CD(Compact Disc)、DVD(Digital Versatile Disk)、SDメモリカード(Secure Digital memory card)、USB(Universal Serial Bus)メモリカード等がある。
RAM14は、プログラムやデータを一時保持する揮発性の半導体メモリである。ROM15は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリである。ROM15には、例えば、OS(Operating System)設定やネットワーク設定等が格納されている。
CPU16は、ROM15や補助記憶装置18等からプログラムやデータをRAM14上に読み出して処理を実行する演算装置である。
通信I/F17は、音声信号分離装置10をネットワークに接続するためのインタフェースである。音声信号分離プログラム100は、通信I/F17を介して、所定のサーバ等から取得(ダウンロード)されても良い。
補助記憶装置18は、例えばHDD(Hard Disk Drive)やSSD(Solid State Drive)等であり、プログラムやデータを格納している不揮発性の記憶装置である。補助記憶装置18に格納されているプログラムやデータには、例えば、OS、当該OS上において各種機能を実現するアプリケーションプログラム、音声信号分離プログラム100等がある。
本発明の実施の形態における音声信号分離装置10は、図2に示すハードウェア構成を有することにより、後述する各種処理を実現することができる。
<音声信号分離装置10の機能構成>
次に、本発明の実施の形態における音声信号分離装置10の機能構成について、図3を参照しながら説明する。図3は、本発明の実施の形態における音声信号分離装置10の機能構成の一例を示す図である。
図3に示す音声信号分離装置10は、周波数領域変換部110と、線形変換部120と、音声度評価部130と、行列最適化部140と、時間領域変換部150とを有する。これら各部は、音声信号分離プログラム100がCPU16に実行させる処理により実現される。
周波数領域変換部110は、各観測信号j(j=1,・・・,J)に対して短時間フーリエ変換を適用して、時間周波数表現x(n,f)=[x(n,f),・・・,x(n,f)]を得る。ここで、n=1,・・・,Nは時間フレームの番号、f=1,・・・,Fは周波数ビンの番号を表す。
なお、各観測信号jは、例えば、音声信号分離装置10と接続されるマイクロホンj等から入力される。ただし、各観測信号jは、例えば、補助記憶装置18等から読み込まれても良い。
線形変換部120は、上記の式1により、周波数領域変換部110により得られたx(n,f)を線型変換して、時間周波数表現y(n,f)=[y(n,f),・・・,y(n,f)]を得る。
音声度評価部130は、時間周波数表現y(n,f)の全ての周波数を統合した結果
Figure 2019028406
を用いて、行列最適化部140による行列Wの最適化に必要となる偏微分(すなわち、音声度Gの行列Wによる偏微分(式6))を計算する。
行列最適化部140は、音声度評価部130により計算された偏微分を用いて、線形変換部120による変換後の時間周波数表現y(n,f)の音声度Gが高まるように行列Wを更新する。
線形変換部120による線形変換と、音声度評価部130による偏微分の計算と、行列最適化部140による行列Wの更新とが、例えば、一定回数以上又は行列Wが収束する(すなわち、数回に渡りWの変化量が微小値以下となる)まで繰り返される。これにより、行列Wが最適化される。なお、線形変換部120による線形変換と、行列最適化部140による行列Wの更新とに用いられる行列Wは、適切な方法又はランダムに初期化されているものとする。
時間領域変換部150は、最適化された行列Wを用いて得られた時間周波数表現y(n,f)に対して短時間フーリエ変換の逆変換を適用して、目的信号を得る。これにより、目的信号が出力される。
<処理の詳細>
次に、本発明の実施の形態における音声信号分離装置10の処理の詳細について説明する。以降では、本発明の実施の形態における音声信号分離装置10について、図4を参照しながら説明する。図4は、本発明の実施の形態における音声信号分離装置10が実行する全体処理の一例を示すフローチャートである。
ステップS101:周波数領域変換部110は、各観測信号jに対して短時間フーリエ変換を適用して、時間周波数表現x(n,f)を得る。
ステップS102:線形変換部120は、上記の式1により、x(n,f)を線型変換して、時間周波数表現y(n,f)を得る。
ステップS103:音声度評価部130は、音声度Gの行列Wによる偏微分を計算する。
ここで、深層学習モデルにより音声度評価部130を構成した場合における偏微分の計算について説明する。線形変換の結果y(n,f)の全て周波数を統合したj番目の信号
Figure 2019028406
を入力とし、音声度を0から1の値で出力する深層学習モデル
Figure 2019028406
が、既に十分な量の教師データを用いて学習されているものとする。
一例として、複素数である時間周波数表現y(n,f)を
Figure 2019028406
(γは小さな正の数)として実数に変換した
Figure 2019028406
を入力とし、2個の中間層を持つ深層学習モデルを考える。中間層の値をh=[h11,・・・,hP1,h=[h12,・・・,hQ2とし、重みパラメータベクトルをv11,・・・,vP1,v12,・・・,vQ2,vとする。このとき、以下の式13〜式15が成り立つ。
Figure 2019028406
Figure 2019028406
Figure 2019028406
ここで、σはシグモイド関数やReLU(Rectified Linear Unit)等の適切な非線形関数である。
音声度評価部130では、上記の式9又は式11の計算に必要な偏微分(すなわち、式6に示す偏微分)を計算する。上記の深層学習モデルの場合、この偏微分は、連鎖律に従って、以下の式16により計算される。
Figure 2019028406
このうち、
Figure 2019028406
は、既知の深層学習ライブラリ等を用いて計算可能である。また、
Figure 2019028406
は、上記の式12から導かれる以下の式17により計算する。
Figure 2019028406
以上で説明した深層学習モデルを用いて構成した音声度評価部130を図5に示す。図5は、深層学習モデルにより音声度評価部130を構成した場合の一例を説明する図である。図5に示すように、音声度評価部130には、各j毎に、y(n,1),・・・,y(n,F)が入力され、上記の式12によりz(n,1),・・・,z(n,F)に変換される。そして、深層学習モデルは、入力されたz(n,1),・・・,z(n,F)を用いて、上記の式13〜式15により音声度Gを出力する。最後に、音声度評価部130は、上記の式16により、深層学習モデルが出力した音声度Gから偏微分を計算する。これにより、行列Wの最適化に必要な偏微分が得られる。
ステップS104:行列最適化部140は、音声度評価部130により計算された偏微分を用いて、線形変換部120による変換後の時間周波数表現y(n,f)の音声度Gが高まるように行列Wを更新する。すなわち、行列最適化部140は、全ての周波数ビンf=1,・・・,Fに対して、上記の式8及び式9若しくは上記の式10及び式11により行列Wを更新する。
上述したように、上記のステップS102〜ステップS104は、例えば、一定回数以上又は行列Wが収束するまで繰り返し実行される。これにより、行列Wが最適化される。
ステップS105:時間領域変換部150は、最適化された行列Wを用いて得られた時間周波数表現y(n,f)に対して短時間フーリエ変換の逆変換を適用して、目的信号を得る。
以上により、本発明の実施の形態における音声信号分離装置10では、観測信号から目的信号が分離され、分離された目的信号が出力される。しかも、本発明の実施の形態における音声信号分離装置10では、従来技術と比べて、より短い長さの観測信号(例えば、0.2秒程度等)に対しても、目的信号を取り出す線形変換のための行列Wを精度良く計算することができる。
これにより、本発明の実施の形態における音声信号分離装置10では、例えば、雑音の多い環境等においても、複数のマイクロホンで観測された音声等の明瞭度を高めることができる。このため、音声信号分離装置10により出力された音声信号を用いる処理(例えば、音声認識処理等)の処理結果の精度を高めることが可能となる。
本発明は、具体的に開示された上記の実施形態に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。
10 音声信号分離装置
100 音声信号分離プログラム
110 周波数領域変換部
120 線形変換部
130 音声度評価部
140 行列最適化部
150 時間領域変換部

Claims (8)

  1. 複数の観測信号をそれぞれ第1の時間周波数表現に変換する周波数領域変換手段と、
    前記周波数領域変換手段が変換した前記第1の時間周波数表現を第2の時間周波数表現に線型変換する線形変換手段と、
    前記線形変換手段が線形変換した前記第2の時間周波数表現の音声度を評価し、評価した前記音声度の変化を算出する音声度評価手段と、
    前記音声度評価手段が算出した前記音声度の変化に基づいて、前記線形変換に用いる行列を変更する行列最適化手段と、
    を有することを特徴とする音声信号分離装置。
  2. 前記音声度評価手段は、
    前記第2の時間周波数表現と、予め学習された深層学習モデルとに基づいて、前記音声度を評価する、
    ことを特徴とする請求項1に記載の音声信号分離装置。
  3. 前記行列最適化手段は、
    前記音声度評価手段が算出した前記音声度の変化に基づいて、勾配上昇法の手法により、前記音声度が高くなるように前記線形変換に用いる行列を変更する、
    ことを特徴とする請求項1又は2に記載の音声信号分離装置。
  4. 前記行列最適化手段は、
    前記音声度の前記行列による偏微分と、前記第1の時間周波数表現とを用いて、最尤基準から導かられる式の前記行列による偏微分を計算することで、前記行列を変更する、
    ことを特徴とする請求項3に記載の音声信号分離装置。
  5. 前記行列最適化手段は、
    前記音声度評価手段が算出した前記音声度の変化に基づいて、自然勾配法により、前記音声度が高くなるように前記線形変換に用いる行列を変更する、
    ことを特徴とする請求項1又は2に記載の音声信号分離装置。
  6. 前記行列最適化手段は、
    前記音声度の前記行列による偏微分を用いて、最尤基準から導かれる式の前記行列による偏微分と前記行列の共役転置と前記行列との積を計算することで、前記行列を変更する、
    ことを特徴とする請求項5に記載の音声信号分離装置。
  7. 複数の観測信号をそれぞれ第1の時間周波数表現に変換する周波数領域変換手順と、
    前記周波数領域変換手順が変換した前記第1の時間周波数表現を第2の時間周波数表現に線型変換する線形変換手順と、
    前記線形変換手順が線形変換した前記第2の時間周波数表現の音声度を評価し、評価した前記音声度の変化を算出する音声度評価手順と、
    前記音声度評価手順が算出した前記音声度の変化に基づいて、前記線形変換に用いる行列を変更する行列最適化手順と、
    をコンピュータが実行することを特徴とする音声信号分離方法。
  8. コンピュータを、請求項1乃至6の何れか一項に記載の音声信号分離装置における各手段として機能させるための音声信号分離プログラム。
JP2017151077A 2017-08-03 2017-08-03 音声信号分離装置、音声信号分離方法及び音声信号分離プログラム Pending JP2019028406A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017151077A JP2019028406A (ja) 2017-08-03 2017-08-03 音声信号分離装置、音声信号分離方法及び音声信号分離プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017151077A JP2019028406A (ja) 2017-08-03 2017-08-03 音声信号分離装置、音声信号分離方法及び音声信号分離プログラム

Publications (1)

Publication Number Publication Date
JP2019028406A true JP2019028406A (ja) 2019-02-21

Family

ID=65478336

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017151077A Pending JP2019028406A (ja) 2017-08-03 2017-08-03 音声信号分離装置、音声信号分離方法及び音声信号分離プログラム

Country Status (1)

Country Link
JP (1) JP2019028406A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111986695A (zh) * 2019-05-24 2020-11-24 中国科学院声学研究所 一种无重叠子带划分快速独立向量分析语音盲分离方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111986695A (zh) * 2019-05-24 2020-11-24 中国科学院声学研究所 一种无重叠子带划分快速独立向量分析语音盲分离方法及系统
CN111986695B (zh) * 2019-05-24 2023-07-25 中国科学院声学研究所 一种无重叠子带划分快速独立向量分析语音盲分离方法及系统

Similar Documents

Publication Publication Date Title
Grais et al. Deep neural networks for single channel source separation
US11003983B2 (en) Training of front-end and back-end neural networks
JP6976804B2 (ja) 音源分離方法および音源分離装置
JP6967197B2 (ja) 異常検出装置、異常検出方法及びプログラム
US9437208B2 (en) General sound decomposition models
JPWO2019176986A1 (ja) 信号処理システム、信号処理装置、信号処理方法、およびプログラム
KR102026226B1 (ko) 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템
JP5974901B2 (ja) 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム
JP6747447B2 (ja) 信号検知装置、信号検知方法、および信号検知プログラム
US9318106B2 (en) Joint sound model generation techniques
JP5994639B2 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
JP7423056B2 (ja) 推論器および推論器の学習方法
JP2019028406A (ja) 音声信号分離装置、音声信号分離方法及び音声信号分離プログラム
JP2020095732A (ja) 対話行為推定方法、対話行為推定装置及びプログラム
JP6499095B2 (ja) 信号処理方法、信号処理装置及び信号処理プログラム
JP2013186383A (ja) 音源分離装置、音源分離方法、およびプログラム
JP2019074621A (ja) 信号分離装置、信号分離方法及びプログラム
Zhipeng et al. Voiceprint recognition based on BP Neural Network and CNN
Alam et al. Radon transform of auditory neurograms: a robust feature set for phoneme classification
Ruiz-Muñoz et al. Dictionary extraction from a collection of spectrograms for bioacoustics monitoring
JP6734233B2 (ja) 信号処理装置、事例モデル生成装置、照合装置、信号処理方法及び信号処理プログラム
JP7333878B2 (ja) 信号処理装置、信号処理方法、及び信号処理プログラム
JP2010197596A (ja) 信号解析装置、信号解析方法、プログラム、及び記録媒体
JP5498452B2 (ja) 背景音抑圧装置、背景音抑圧方法、およびプログラム
Li et al. Automatic model order selection for convolutive non-negative matrix factorization