JP2019028406A - 音声信号分離装置、音声信号分離方法及び音声信号分離プログラム - Google Patents
音声信号分離装置、音声信号分離方法及び音声信号分離プログラム Download PDFInfo
- Publication number
- JP2019028406A JP2019028406A JP2017151077A JP2017151077A JP2019028406A JP 2019028406 A JP2019028406 A JP 2019028406A JP 2017151077 A JP2017151077 A JP 2017151077A JP 2017151077 A JP2017151077 A JP 2017151077A JP 2019028406 A JP2019028406 A JP 2019028406A
- Authority
- JP
- Japan
- Prior art keywords
- matrix
- signal separation
- voice
- audio signal
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】観測信号から目的信号を取り出す線形変換のための行列を精度良く計算する。【解決手段】複数の観測信号をそれぞれ第1の時間周波数表現に変換する周波数領域変換手段と、前記周波数領域変換手段が変換した前記第1の時間周波数表現を第2の時間周波数表現に線型変換する線形変換手段と、前記線形変換手段が線形変換した前記第2の時間周波数表現の音声度を評価し、評価した前記音声度の変化を算出する音声度評価手段と、前記音声度評価手段が算出した前記音声度の変化に基づいて、前記線形変換に用いる行列を変更する行列最適化手段と、を有することを特徴とする。【選択図】図3
Description
本発明は、音声信号分離装置、音声信号分離方法及び音声信号分離プログラムに関する。
複数の観測信号に対して線形変換を施して目的の源信号(以下、「目的信号」と表す。)を精度良く取り出す従来技術として、独立成分分析(ICA:Independent Component Analysis)と、これを時間周波数表現に拡張した独立ベクトル分析(IVA:Independent Vector Analysis)とが知られている(非特許文献1及び2)。以下、ICA及びIVAについて説明する。
複数の信号が混合され、複数のマイクロホンj(j=1,・・・,J)で観測されたとする。このとき、各マイクロホンjでの観測信号に対して短時間フーリエ変換(STFT:Short-Time Fourier Transform)を適用して、時間周波数表現xj(n,f)を得る。xj(n,f)は、短時間フーリエ変換の結果であるため複素数である。ここで、n=1,・・・,Nは時間フレームの番号、f=1,・・・,Fは周波数ビンの番号を表す。
そして、複数のマイクロホンjをまとめ、観測信号ベクトルをx(n,f)=[x1(n,f),・・・,xJ(n,f)]Tと定義する。また、線形変換のためのJ×J行列Wfを周波数ビン毎f=1,・・・,Fに定義する。これにより、以下の式1により線形変換後の信号ベクトルy(n,f)=[y1(n,f),・・・,yJ(n,f)]Tを得る。なお、Tは転置を表す。
Hyvarinen, A., Karhunen, J., and Oja, E. (2001) Independent Component Analysis, John Wiley & Sons.
Lee, I., Kim, T., and Lee, T.W. (2007) "Fast fixed-point independent vector analysis algorithms for convolutive blind source separation," Signal Processing, 87 (8), 1859-1871.
ところで、上記の従来技術は、独立性やガウス分布からの乖離に着目しているため、ガウス分布に近い統計量を持つ雑音以外であれば、どのような種類の信号にも適用できるという汎用性がある。
しかしながら、ガウス分布からの乖離度を精度良く計算するためには(言い換えれば、線形変換のための行列を精度良く計算するためには)、十分な統計量を確保できる観測信号の長さが必要である。観測信号として音響信号を対象とした場合、経験的・実験的に1秒以上の長さが必要である。したがって、観測信号が短い場合(例えば、音響信号の長さが1秒未満である場合)には、線形変換のための行列を精度良く計算できないことがある。
そこで、本発明では、観測信号から目的信号を取り出す線形変換のための行列を精度良く計算することを目的とする。
上記課題を解決するため、複数の観測信号をそれぞれ第1の時間周波数表現に変換する周波数領域変換手段と、前記周波数領域変換手段が変換した前記第1の時間周波数表現を第2の時間周波数表現に線型変換する線形変換手段と、前記線形変換手段が線形変換した前記第2の時間周波数表現の音声度を評価し、評価した前記音声度の変化を算出する音声度評価手段と、前記音声度評価手段が算出した前記音声度の変化に基づいて、前記線形変換に用いる行列を変更する行列最適化手段と、を有することを特徴とする。
観測信号から目的信号を取り出す線形変換のための行列を精度良く計算することができる。
以下、本発明の実施の形態について、図面を参照しながら説明する。以下で説明する本発明の実施の形態では、観測信号は音響信号(人の声や雑音等の様々な音を示す信号)であるものとする。
<音声信号分離装置10の構成>
まず、本発明の実施の形態における音声信号分離装置10の構成について、図1を参照しながら説明する。図1は、本発明の実施の形態における音声信号分離装置10の構成の一例を示す図である。
まず、本発明の実施の形態における音声信号分離装置10の構成について、図1を参照しながら説明する。図1は、本発明の実施の形態における音声信号分離装置10の構成の一例を示す図である。
図1に示す音声信号分離装置10は、観測信号から目的信号を分離して出力するコンピュータである。図1に示す音声信号分離装置10には、音声信号分離プログラム100がインストールされている。音声信号分離プログラム100は、複数のモジュールで構成されるプログラム群であっても良い。
なお、観測信号j(j=1,・・・,J)は、例えば、音声信号分離装置10と接続されるマイクロホンjで観測された音響信号である。また、目的信号は、観測信号jから分離される音声信号(例えば、人の音声を示す信号)である。ただし、目的信号として分離される音声信号は、人の音声を示す信号に限られず、任意の音又は音声を示す信号であっても良い。例えば、目的信号として、ある特定の機械音や動物の鳴き声等を示す信号であっても良い。
本発明の実施の形態における音声信号分離装置10は、音声信号分離プログラム100により、上記の式1で用いられる行列Wfを最適化することで、入力された観測信号から目的信号を分離して(取り出して)、分離した目的信号を出力する。
なお、図1に示す音声信号分離装置10の構成は一例であって、他の構成であっても良い。例えば、音声信号分離装置10は、複数台のコンピュータで構成されていても良い。
<線形変換のための行列Wfの最適化>
ここで、本発明の実施の形態における音声信号分離装置10による線形変換のための行列Wf(すなわち、線形変換の係数)の最適化の手法について説明する。本発明の実施の形態では、音声度を評価する関数Gを用いる。これは、
ここで、本発明の実施の形態における音声信号分離装置10による線形変換のための行列Wf(すなわち、線形変換の係数)の最適化の手法について説明する。本発明の実施の形態では、音声度を評価する関数Gを用いる。これは、
予め大量の音声データや雑音データ、その他の音データ等を用いた教師あり機械学習の仕組みにより、関数Gjの内部構造を決定しておく。出力される音声度を高めるために修正すべき行列Wfの微小量を決定するため、関数Gjは、以下の式6で必要される偏微分が計算できることが要件である。
最もシンプルなものは線形回帰モデルやロジスティック回帰モデルであり、より精度を上げるために段数を増やしたニューラルネットワーク(深層学習モデル)を用いることができる。すなわち、後述する音声度評価部130は、これらのモデルを用いて構成することができる。なお、決定木やランダムフォレスト等は、偏微分の計算が困難であり、要件を満たさない。
IVAの場合と同様に、最尤基準から導かれる全体として最適化すべき式は、以下の式7で与えられる。
次に、本発明の実施の形態における音声信号分離装置10のハードウェア構成について、図2を参照しながら説明する。図2は、本発明の実施の形態における音声信号分離装置10のハードウェア構成の一例を示す図である。
図2に示す音声信号分離装置10は、入力装置11と、表示装置12と、外部I/F13と、RAM(Random Access Memory)14と、ROM(Read Only Memory)15と、CPU(Central Processing Unit)16と、通信I/F17と、補助記憶装置18とを有する。これら各ハードウェアは、それぞれがバスBを介して通信可能に接続されている。
入力装置11は、例えばキーボードやマウス、タッチパネル等であり、ユーザが各種操作を入力するのに用いられる。表示装置12は、例えばディスプレイ等であり、各種画面等を表示する。なお、音声信号分離装置10は、入力装置11及び表示装置12の少なくとも一方を有していなくても良い。
外部I/F13は、外部装置とのインタフェースである。外部装置には、記録媒体13a等がある。音声信号分離装置10は、外部I/F13を介して、記録媒体13a等の読み取りや書き込みを行うことができる。記録媒体13aには、音声信号分離プログラム100等が記録されていても良い。
記録媒体13aには、例えば、フレキシブルディスク、CD(Compact Disc)、DVD(Digital Versatile Disk)、SDメモリカード(Secure Digital memory card)、USB(Universal Serial Bus)メモリカード等がある。
RAM14は、プログラムやデータを一時保持する揮発性の半導体メモリである。ROM15は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリである。ROM15には、例えば、OS(Operating System)設定やネットワーク設定等が格納されている。
CPU16は、ROM15や補助記憶装置18等からプログラムやデータをRAM14上に読み出して処理を実行する演算装置である。
通信I/F17は、音声信号分離装置10をネットワークに接続するためのインタフェースである。音声信号分離プログラム100は、通信I/F17を介して、所定のサーバ等から取得(ダウンロード)されても良い。
補助記憶装置18は、例えばHDD(Hard Disk Drive)やSSD(Solid State Drive)等であり、プログラムやデータを格納している不揮発性の記憶装置である。補助記憶装置18に格納されているプログラムやデータには、例えば、OS、当該OS上において各種機能を実現するアプリケーションプログラム、音声信号分離プログラム100等がある。
本発明の実施の形態における音声信号分離装置10は、図2に示すハードウェア構成を有することにより、後述する各種処理を実現することができる。
<音声信号分離装置10の機能構成>
次に、本発明の実施の形態における音声信号分離装置10の機能構成について、図3を参照しながら説明する。図3は、本発明の実施の形態における音声信号分離装置10の機能構成の一例を示す図である。
次に、本発明の実施の形態における音声信号分離装置10の機能構成について、図3を参照しながら説明する。図3は、本発明の実施の形態における音声信号分離装置10の機能構成の一例を示す図である。
図3に示す音声信号分離装置10は、周波数領域変換部110と、線形変換部120と、音声度評価部130と、行列最適化部140と、時間領域変換部150とを有する。これら各部は、音声信号分離プログラム100がCPU16に実行させる処理により実現される。
周波数領域変換部110は、各観測信号j(j=1,・・・,J)に対して短時間フーリエ変換を適用して、時間周波数表現x(n,f)=[x1(n,f),・・・,xJ(n,f)]Tを得る。ここで、n=1,・・・,Nは時間フレームの番号、f=1,・・・,Fは周波数ビンの番号を表す。
なお、各観測信号jは、例えば、音声信号分離装置10と接続されるマイクロホンj等から入力される。ただし、各観測信号jは、例えば、補助記憶装置18等から読み込まれても良い。
線形変換部120は、上記の式1により、周波数領域変換部110により得られたx(n,f)を線型変換して、時間周波数表現y(n,f)=[y1(n,f),・・・,yJ(n,f)]Tを得る。
音声度評価部130は、時間周波数表現y(n,f)の全ての周波数を統合した結果
行列最適化部140は、音声度評価部130により計算された偏微分を用いて、線形変換部120による変換後の時間周波数表現y(n,f)の音声度Gが高まるように行列Wfを更新する。
線形変換部120による線形変換と、音声度評価部130による偏微分の計算と、行列最適化部140による行列Wfの更新とが、例えば、一定回数以上又は行列Wfが収束する(すなわち、数回に渡りWfの変化量が微小値以下となる)まで繰り返される。これにより、行列Wfが最適化される。なお、線形変換部120による線形変換と、行列最適化部140による行列Wfの更新とに用いられる行列Wfは、適切な方法又はランダムに初期化されているものとする。
時間領域変換部150は、最適化された行列Wfを用いて得られた時間周波数表現y(n,f)に対して短時間フーリエ変換の逆変換を適用して、目的信号を得る。これにより、目的信号が出力される。
<処理の詳細>
次に、本発明の実施の形態における音声信号分離装置10の処理の詳細について説明する。以降では、本発明の実施の形態における音声信号分離装置10について、図4を参照しながら説明する。図4は、本発明の実施の形態における音声信号分離装置10が実行する全体処理の一例を示すフローチャートである。
次に、本発明の実施の形態における音声信号分離装置10の処理の詳細について説明する。以降では、本発明の実施の形態における音声信号分離装置10について、図4を参照しながら説明する。図4は、本発明の実施の形態における音声信号分離装置10が実行する全体処理の一例を示すフローチャートである。
ステップS101:周波数領域変換部110は、各観測信号jに対して短時間フーリエ変換を適用して、時間周波数表現x(n,f)を得る。
ステップS102:線形変換部120は、上記の式1により、x(n,f)を線型変換して、時間周波数表現y(n,f)を得る。
ステップS103:音声度評価部130は、音声度Gの行列Wfによる偏微分を計算する。
ここで、深層学習モデルにより音声度評価部130を構成した場合における偏微分の計算について説明する。線形変換の結果y(n,f)の全て周波数を統合したj番目の信号
一例として、複素数である時間周波数表現yj(n,f)を
音声度評価部130では、上記の式9又は式11の計算に必要な偏微分(すなわち、式6に示す偏微分)を計算する。上記の深層学習モデルの場合、この偏微分は、連鎖律に従って、以下の式16により計算される。
ステップS104:行列最適化部140は、音声度評価部130により計算された偏微分を用いて、線形変換部120による変換後の時間周波数表現y(n,f)の音声度Gが高まるように行列Wfを更新する。すなわち、行列最適化部140は、全ての周波数ビンf=1,・・・,Fに対して、上記の式8及び式9若しくは上記の式10及び式11により行列Wfを更新する。
上述したように、上記のステップS102〜ステップS104は、例えば、一定回数以上又は行列Wfが収束するまで繰り返し実行される。これにより、行列Wfが最適化される。
ステップS105:時間領域変換部150は、最適化された行列Wfを用いて得られた時間周波数表現y(n,f)に対して短時間フーリエ変換の逆変換を適用して、目的信号を得る。
以上により、本発明の実施の形態における音声信号分離装置10では、観測信号から目的信号が分離され、分離された目的信号が出力される。しかも、本発明の実施の形態における音声信号分離装置10では、従来技術と比べて、より短い長さの観測信号(例えば、0.2秒程度等)に対しても、目的信号を取り出す線形変換のための行列Wfを精度良く計算することができる。
これにより、本発明の実施の形態における音声信号分離装置10では、例えば、雑音の多い環境等においても、複数のマイクロホンで観測された音声等の明瞭度を高めることができる。このため、音声信号分離装置10により出力された音声信号を用いる処理(例えば、音声認識処理等)の処理結果の精度を高めることが可能となる。
本発明は、具体的に開示された上記の実施形態に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。
10 音声信号分離装置
100 音声信号分離プログラム
110 周波数領域変換部
120 線形変換部
130 音声度評価部
140 行列最適化部
150 時間領域変換部
100 音声信号分離プログラム
110 周波数領域変換部
120 線形変換部
130 音声度評価部
140 行列最適化部
150 時間領域変換部
Claims (8)
- 複数の観測信号をそれぞれ第1の時間周波数表現に変換する周波数領域変換手段と、
前記周波数領域変換手段が変換した前記第1の時間周波数表現を第2の時間周波数表現に線型変換する線形変換手段と、
前記線形変換手段が線形変換した前記第2の時間周波数表現の音声度を評価し、評価した前記音声度の変化を算出する音声度評価手段と、
前記音声度評価手段が算出した前記音声度の変化に基づいて、前記線形変換に用いる行列を変更する行列最適化手段と、
を有することを特徴とする音声信号分離装置。 - 前記音声度評価手段は、
前記第2の時間周波数表現と、予め学習された深層学習モデルとに基づいて、前記音声度を評価する、
ことを特徴とする請求項1に記載の音声信号分離装置。 - 前記行列最適化手段は、
前記音声度評価手段が算出した前記音声度の変化に基づいて、勾配上昇法の手法により、前記音声度が高くなるように前記線形変換に用いる行列を変更する、
ことを特徴とする請求項1又は2に記載の音声信号分離装置。 - 前記行列最適化手段は、
前記音声度の前記行列による偏微分と、前記第1の時間周波数表現とを用いて、最尤基準から導かられる式の前記行列による偏微分を計算することで、前記行列を変更する、
ことを特徴とする請求項3に記載の音声信号分離装置。 - 前記行列最適化手段は、
前記音声度評価手段が算出した前記音声度の変化に基づいて、自然勾配法により、前記音声度が高くなるように前記線形変換に用いる行列を変更する、
ことを特徴とする請求項1又は2に記載の音声信号分離装置。 - 前記行列最適化手段は、
前記音声度の前記行列による偏微分を用いて、最尤基準から導かれる式の前記行列による偏微分と前記行列の共役転置と前記行列との積を計算することで、前記行列を変更する、
ことを特徴とする請求項5に記載の音声信号分離装置。 - 複数の観測信号をそれぞれ第1の時間周波数表現に変換する周波数領域変換手順と、
前記周波数領域変換手順が変換した前記第1の時間周波数表現を第2の時間周波数表現に線型変換する線形変換手順と、
前記線形変換手順が線形変換した前記第2の時間周波数表現の音声度を評価し、評価した前記音声度の変化を算出する音声度評価手順と、
前記音声度評価手順が算出した前記音声度の変化に基づいて、前記線形変換に用いる行列を変更する行列最適化手順と、
をコンピュータが実行することを特徴とする音声信号分離方法。 - コンピュータを、請求項1乃至6の何れか一項に記載の音声信号分離装置における各手段として機能させるための音声信号分離プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017151077A JP2019028406A (ja) | 2017-08-03 | 2017-08-03 | 音声信号分離装置、音声信号分離方法及び音声信号分離プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017151077A JP2019028406A (ja) | 2017-08-03 | 2017-08-03 | 音声信号分離装置、音声信号分離方法及び音声信号分離プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019028406A true JP2019028406A (ja) | 2019-02-21 |
Family
ID=65478336
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017151077A Pending JP2019028406A (ja) | 2017-08-03 | 2017-08-03 | 音声信号分離装置、音声信号分離方法及び音声信号分離プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019028406A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111986695A (zh) * | 2019-05-24 | 2020-11-24 | 中国科学院声学研究所 | 一种无重叠子带划分快速独立向量分析语音盲分离方法及系统 |
-
2017
- 2017-08-03 JP JP2017151077A patent/JP2019028406A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111986695A (zh) * | 2019-05-24 | 2020-11-24 | 中国科学院声学研究所 | 一种无重叠子带划分快速独立向量分析语音盲分离方法及系统 |
CN111986695B (zh) * | 2019-05-24 | 2023-07-25 | 中国科学院声学研究所 | 一种无重叠子带划分快速独立向量分析语音盲分离方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Grais et al. | Deep neural networks for single channel source separation | |
US11003983B2 (en) | Training of front-end and back-end neural networks | |
JP6976804B2 (ja) | 音源分離方法および音源分離装置 | |
JP6967197B2 (ja) | 異常検出装置、異常検出方法及びプログラム | |
US9437208B2 (en) | General sound decomposition models | |
JPWO2019176986A1 (ja) | 信号処理システム、信号処理装置、信号処理方法、およびプログラム | |
KR102026226B1 (ko) | 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템 | |
JP5974901B2 (ja) | 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム | |
JP6747447B2 (ja) | 信号検知装置、信号検知方法、および信号検知プログラム | |
US9318106B2 (en) | Joint sound model generation techniques | |
JP5994639B2 (ja) | 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム | |
JP7423056B2 (ja) | 推論器および推論器の学習方法 | |
JP2019028406A (ja) | 音声信号分離装置、音声信号分離方法及び音声信号分離プログラム | |
JP2020095732A (ja) | 対話行為推定方法、対話行為推定装置及びプログラム | |
JP6499095B2 (ja) | 信号処理方法、信号処理装置及び信号処理プログラム | |
JP2013186383A (ja) | 音源分離装置、音源分離方法、およびプログラム | |
JP2019074621A (ja) | 信号分離装置、信号分離方法及びプログラム | |
Zhipeng et al. | Voiceprint recognition based on BP Neural Network and CNN | |
Alam et al. | Radon transform of auditory neurograms: a robust feature set for phoneme classification | |
Ruiz-Muñoz et al. | Dictionary extraction from a collection of spectrograms for bioacoustics monitoring | |
JP6734233B2 (ja) | 信号処理装置、事例モデル生成装置、照合装置、信号処理方法及び信号処理プログラム | |
JP7333878B2 (ja) | 信号処理装置、信号処理方法、及び信号処理プログラム | |
JP2010197596A (ja) | 信号解析装置、信号解析方法、プログラム、及び記録媒体 | |
JP5498452B2 (ja) | 背景音抑圧装置、背景音抑圧方法、およびプログラム | |
Li et al. | Automatic model order selection for convolutive non-negative matrix factorization |