JP2019028406A

JP2019028406A - 音声信号分離装置、音声信号分離方法及び音声信号分離プログラム

Info

Publication number: JP2019028406A
Application number: JP2017151077A
Authority: JP
Inventors: 澤田　宏; Hiroshi Sawada; 宏澤田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-08-03
Filing date: 2017-08-03
Publication date: 2019-02-21

Abstract

【課題】観測信号から目的信号を取り出す線形変換のための行列を精度良く計算する。【解決手段】複数の観測信号をそれぞれ第１の時間周波数表現に変換する周波数領域変換手段と、前記周波数領域変換手段が変換した前記第１の時間周波数表現を第２の時間周波数表現に線型変換する線形変換手段と、前記線形変換手段が線形変換した前記第２の時間周波数表現の音声度を評価し、評価した前記音声度の変化を算出する音声度評価手段と、前記音声度評価手段が算出した前記音声度の変化に基づいて、前記線形変換に用いる行列を変更する行列最適化手段と、を有することを特徴とする。【選択図】図３

Description

本発明は、音声信号分離装置、音声信号分離方法及び音声信号分離プログラムに関する。

複数の観測信号に対して線形変換を施して目的の源信号（以下、「目的信号」と表す。）を精度良く取り出す従来技術として、独立成分分析（ＩＣＡ：Independent Component Analysis）と、これを時間周波数表現に拡張した独立ベクトル分析（ＩＶＡ：Independent Vector Analysis）とが知られている（非特許文献１及び２）。以下、ＩＣＡ及びＩＶＡについて説明する。

複数の信号が混合され、複数のマイクロホンｊ（ｊ＝１，・・・，Ｊ）で観測されたとする。このとき、各マイクロホンｊでの観測信号に対して短時間フーリエ変換（ＳＴＦＴ：Short-Time Fourier Transform）を適用して、時間周波数表現ｘ_ｊ（ｎ，ｆ）を得る。ｘ_ｊ（ｎ，ｆ）は、短時間フーリエ変換の結果であるため複素数である。ここで、ｎ＝１，・・・，Ｎは時間フレームの番号、ｆ＝１，・・・，Ｆは周波数ビンの番号を表す。

そして、複数のマイクロホンｊをまとめ、観測信号ベクトルをｘ（ｎ，ｆ）＝［ｘ_１（ｎ，ｆ），・・・，ｘ_Ｊ（ｎ，ｆ）］^Ｔと定義する。また、線形変換のためのＪ×Ｊ行列Ｗ_ｆを周波数ビン毎ｆ＝１，・・・，Ｆに定義する。これにより、以下の式１により線形変換後の信号ベクトルｙ（ｎ，ｆ）＝［ｙ_１（ｎ，ｆ），・・・，ｙ_Ｊ（ｎ，ｆ）］^Ｔを得る。なお、Ｔは転置を表す。

ＩＣＡでは、中心極限定理（複数の信号を混ぜるとガウス分布に近付く）に基づき、ガウス分布からの乖離度を非線形関数で評価し、その乖離度を高めるように線形変換の係数（すなわち、行列Ｗ_ｆ）を変更していく。音声や音響信号に対しては、γを小さな正の数として、以下の式２に示す非線形関数Ｇが典型的に用いられる。

ＩＣＡでは周波数ビンｆ毎に乖離度が高まる行列Ｗ_ｆを求めるが、ＩＶＡでは全ての周波数を統合した結果

のガウス分布からの乖離度を評価し、この乖離度ｊ＝１，・・・，Ｊの総和が高まるように全ての周波数の行列Ｗ_ｆ，ｆ＝１，・・・，Ｆを同時に最適化する。その際には、以下の式３に示す非線形関数Ｇが典型的に用いられる。

なお、最尤基準から導かれる全体として最適化すべき式は、ＩＣＡの場合、各周波数ビンｆ毎に、以下の式４である。

一方、ＩＶＡの場合は、全周波数ビンを統合した以下の式５である。

以上で説明したように、ＩＣＡ及びＩＶＡでは、非線形関数で評価されるガウス分布からの乖離度を手掛かりにして線形変換のための行列Ｗ_ｆを最適化している。

Hyvarinen, A., Karhunen, J., and Oja, E. (2001) Independent Component Analysis, John Wiley & Sons. Lee, I., Kim, T., and Lee, T.W. (2007) "Fast fixed-point independent vector analysis algorithms for convolutive blind source separation," Signal Processing, 87 (8), 1859-1871.

ところで、上記の従来技術は、独立性やガウス分布からの乖離に着目しているため、ガウス分布に近い統計量を持つ雑音以外であれば、どのような種類の信号にも適用できるという汎用性がある。

しかしながら、ガウス分布からの乖離度を精度良く計算するためには（言い換えれば、線形変換のための行列を精度良く計算するためには）、十分な統計量を確保できる観測信号の長さが必要である。観測信号として音響信号を対象とした場合、経験的・実験的に１秒以上の長さが必要である。したがって、観測信号が短い場合（例えば、音響信号の長さが１秒未満である場合）には、線形変換のための行列を精度良く計算できないことがある。

そこで、本発明では、観測信号から目的信号を取り出す線形変換のための行列を精度良く計算することを目的とする。

上記課題を解決するため、複数の観測信号をそれぞれ第１の時間周波数表現に変換する周波数領域変換手段と、前記周波数領域変換手段が変換した前記第１の時間周波数表現を第２の時間周波数表現に線型変換する線形変換手段と、前記線形変換手段が線形変換した前記第２の時間周波数表現の音声度を評価し、評価した前記音声度の変化を算出する音声度評価手段と、前記音声度評価手段が算出した前記音声度の変化に基づいて、前記線形変換に用いる行列を変更する行列最適化手段と、を有することを特徴とする。

観測信号から目的信号を取り出す線形変換のための行列を精度良く計算することができる。

本発明の実施の形態における音声信号分離装置の構成の一例を示す図である。本発明の実施の形態における音声信号分離装置のハードウェア構成の一例を示す図である。本発明の実施の形態における音声信号分離装置の機能構成の一例を示す図である。本発明の実施の形態における音声信号分離装置が実行する全体処理の一例を示すフローチャートである。深層学習モデルにより音声度評価部を構成した場合の一例を説明する図である。

以下、本発明の実施の形態について、図面を参照しながら説明する。以下で説明する本発明の実施の形態では、観測信号は音響信号（人の声や雑音等の様々な音を示す信号）であるものとする。

＜音声信号分離装置１０の構成＞
まず、本発明の実施の形態における音声信号分離装置１０の構成について、図１を参照しながら説明する。図１は、本発明の実施の形態における音声信号分離装置１０の構成の一例を示す図である。

図１に示す音声信号分離装置１０は、観測信号から目的信号を分離して出力するコンピュータである。図１に示す音声信号分離装置１０には、音声信号分離プログラム１００がインストールされている。音声信号分離プログラム１００は、複数のモジュールで構成されるプログラム群であっても良い。

なお、観測信号ｊ（ｊ＝１，・・・，Ｊ）は、例えば、音声信号分離装置１０と接続されるマイクロホンｊで観測された音響信号である。また、目的信号は、観測信号ｊから分離される音声信号（例えば、人の音声を示す信号）である。ただし、目的信号として分離される音声信号は、人の音声を示す信号に限られず、任意の音又は音声を示す信号であっても良い。例えば、目的信号として、ある特定の機械音や動物の鳴き声等を示す信号であっても良い。

本発明の実施の形態における音声信号分離装置１０は、音声信号分離プログラム１００により、上記の式１で用いられる行列Ｗ_ｆを最適化することで、入力された観測信号から目的信号を分離して（取り出して）、分離した目的信号を出力する。

なお、図１に示す音声信号分離装置１０の構成は一例であって、他の構成であっても良い。例えば、音声信号分離装置１０は、複数台のコンピュータで構成されていても良い。

＜線形変換のための行列Ｗ_ｆの最適化＞
ここで、本発明の実施の形態における音声信号分離装置１０による線形変換のための行列Ｗ_ｆ（すなわち、線形変換の係数）の最適化の手法について説明する。本発明の実施の形態では、音声度を評価する関数Ｇを用いる。これは、

と表記できる構造を持ち、信号ｊ毎に評価した音声度の、全ての信号ｊ＝１，・・・，Ｊに関する総和である。関数Ｇ_ｊは、線形変換後に全ての周波数を統合した結果

の単一時間フレームあるいは連続する数フレームｎ＝１，・・・，Ｍ（Ｍ≦Ｎ）を入力し、音声度を０から１等の値で出力する。

予め大量の音声データや雑音データ、その他の音データ等を用いた教師あり機械学習の仕組みにより、関数Ｇ_ｊの内部構造を決定しておく。出力される音声度を高めるために修正すべき行列Ｗ_ｆの微小量を決定するため、関数Ｇ_ｊは、以下の式６で必要される偏微分が計算できることが要件である。

なお、＊は複素共役を表す。

最もシンプルなものは線形回帰モデルやロジスティック回帰モデルであり、より精度を上げるために段数を増やしたニューラルネットワーク（深層学習モデル）を用いることができる。すなわち、後述する音声度評価部１３０は、これらのモデルを用いて構成することができる。なお、決定木やランダムフォレスト等は、偏微分の計算が困難であり、要件を満たさない。

ＩＶＡの場合と同様に、最尤基準から導かれる全体として最適化すべき式は、以下の式７で与えられる。

上記の式７を最大化するため、行列Ｗ_ｆは、勾配上昇法（Gradient Ascent）に基づいて最適化される。すなわち、以下の式８に示すように、ηをステップサイズ（小さな正の値）として、行列Ｗ_ｆに関する複素共役偏微分の方向に少しずつ変更していくことで最適化される。

なお、上記の式８に示す最適化に必要な偏微分は、関数Ｇ_ｊに求められる要件としての偏微分（上記の式６）を用いて、以下の式９により計算できる。なお、Ｈは共役転置（複素数の共役を取り、かつ、転置を行う）を表す。

なお、勾配上昇法の代わりに、ＩＣＡやＩＶＡで広く用いられている自然勾配法（Natural Gradient）を用いて、上記の式７を最適化しても良い。この場合は、上記の式８及び式９がそれぞれ以下の式１０及び式１１となる。

＜音声信号分離装置１０のハードウェア構成＞
次に、本発明の実施の形態における音声信号分離装置１０のハードウェア構成について、図２を参照しながら説明する。図２は、本発明の実施の形態における音声信号分離装置１０のハードウェア構成の一例を示す図である。

図２に示す音声信号分離装置１０は、入力装置１１と、表示装置１２と、外部Ｉ／Ｆ１３と、ＲＡＭ（Random Access Memory）１４と、ＲＯＭ（Read Only Memory）１５と、ＣＰＵ（Central Processing Unit）１６と、通信Ｉ／Ｆ１７と、補助記憶装置１８とを有する。これら各ハードウェアは、それぞれがバスＢを介して通信可能に接続されている。

入力装置１１は、例えばキーボードやマウス、タッチパネル等であり、ユーザが各種操作を入力するのに用いられる。表示装置１２は、例えばディスプレイ等であり、各種画面等を表示する。なお、音声信号分離装置１０は、入力装置１１及び表示装置１２の少なくとも一方を有していなくても良い。

外部Ｉ／Ｆ１３は、外部装置とのインタフェースである。外部装置には、記録媒体１３ａ等がある。音声信号分離装置１０は、外部Ｉ／Ｆ１３を介して、記録媒体１３ａ等の読み取りや書き込みを行うことができる。記録媒体１３ａには、音声信号分離プログラム１００等が記録されていても良い。

記録媒体１３ａには、例えば、フレキシブルディスク、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disk）、ＳＤメモリカード（Secure Digital memory card）、ＵＳＢ（Universal Serial Bus）メモリカード等がある。

ＲＡＭ１４は、プログラムやデータを一時保持する揮発性の半導体メモリである。ＲＯＭ１５は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリである。ＲＯＭ１５には、例えば、ＯＳ（Operating System）設定やネットワーク設定等が格納されている。

ＣＰＵ１６は、ＲＯＭ１５や補助記憶装置１８等からプログラムやデータをＲＡＭ１４上に読み出して処理を実行する演算装置である。

通信Ｉ／Ｆ１７は、音声信号分離装置１０をネットワークに接続するためのインタフェースである。音声信号分離プログラム１００は、通信Ｉ／Ｆ１７を介して、所定のサーバ等から取得（ダウンロード）されても良い。

補助記憶装置１８は、例えばＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等であり、プログラムやデータを格納している不揮発性の記憶装置である。補助記憶装置１８に格納されているプログラムやデータには、例えば、ＯＳ、当該ＯＳ上において各種機能を実現するアプリケーションプログラム、音声信号分離プログラム１００等がある。

本発明の実施の形態における音声信号分離装置１０は、図２に示すハードウェア構成を有することにより、後述する各種処理を実現することができる。

＜音声信号分離装置１０の機能構成＞
次に、本発明の実施の形態における音声信号分離装置１０の機能構成について、図３を参照しながら説明する。図３は、本発明の実施の形態における音声信号分離装置１０の機能構成の一例を示す図である。

図３に示す音声信号分離装置１０は、周波数領域変換部１１０と、線形変換部１２０と、音声度評価部１３０と、行列最適化部１４０と、時間領域変換部１５０とを有する。これら各部は、音声信号分離プログラム１００がＣＰＵ１６に実行させる処理により実現される。

周波数領域変換部１１０は、各観測信号ｊ（ｊ＝１，・・・，Ｊ）に対して短時間フーリエ変換を適用して、時間周波数表現ｘ（ｎ，ｆ）＝［ｘ_１（ｎ，ｆ），・・・，ｘ_Ｊ（ｎ，ｆ）］^Ｔを得る。ここで、ｎ＝１，・・・，Ｎは時間フレームの番号、ｆ＝１，・・・，Ｆは周波数ビンの番号を表す。

なお、各観測信号ｊは、例えば、音声信号分離装置１０と接続されるマイクロホンｊ等から入力される。ただし、各観測信号ｊは、例えば、補助記憶装置１８等から読み込まれても良い。

線形変換部１２０は、上記の式１により、周波数領域変換部１１０により得られたｘ（ｎ，ｆ）を線型変換して、時間周波数表現ｙ（ｎ，ｆ）＝［ｙ_１（ｎ，ｆ），・・・，ｙ_Ｊ（ｎ，ｆ）］^Ｔを得る。

音声度評価部１３０は、時間周波数表現ｙ（ｎ，ｆ）の全ての周波数を統合した結果

を用いて、行列最適化部１４０による行列Ｗ_ｆの最適化に必要となる偏微分（すなわち、音声度Ｇの行列Ｗ_ｆによる偏微分（式６））を計算する。

行列最適化部１４０は、音声度評価部１３０により計算された偏微分を用いて、線形変換部１２０による変換後の時間周波数表現ｙ（ｎ，ｆ）の音声度Ｇが高まるように行列Ｗ_ｆを更新する。

線形変換部１２０による線形変換と、音声度評価部１３０による偏微分の計算と、行列最適化部１４０による行列Ｗ_ｆの更新とが、例えば、一定回数以上又は行列Ｗ_ｆが収束する（すなわち、数回に渡りＷ_ｆの変化量が微小値以下となる）まで繰り返される。これにより、行列Ｗ_ｆが最適化される。なお、線形変換部１２０による線形変換と、行列最適化部１４０による行列Ｗ_ｆの更新とに用いられる行列Ｗ_ｆは、適切な方法又はランダムに初期化されているものとする。

時間領域変換部１５０は、最適化された行列Ｗ_ｆを用いて得られた時間周波数表現ｙ（ｎ，ｆ）に対して短時間フーリエ変換の逆変換を適用して、目的信号を得る。これにより、目的信号が出力される。

＜処理の詳細＞
次に、本発明の実施の形態における音声信号分離装置１０の処理の詳細について説明する。以降では、本発明の実施の形態における音声信号分離装置１０について、図４を参照しながら説明する。図４は、本発明の実施の形態における音声信号分離装置１０が実行する全体処理の一例を示すフローチャートである。

ステップＳ１０１：周波数領域変換部１１０は、各観測信号ｊに対して短時間フーリエ変換を適用して、時間周波数表現ｘ（ｎ，ｆ）を得る。

ステップＳ１０２：線形変換部１２０は、上記の式１により、ｘ（ｎ，ｆ）を線型変換して、時間周波数表現ｙ（ｎ，ｆ）を得る。

ステップＳ１０３：音声度評価部１３０は、音声度Ｇの行列Ｗ_ｆによる偏微分を計算する。

ここで、深層学習モデルにより音声度評価部１３０を構成した場合における偏微分の計算について説明する。線形変換の結果ｙ（ｎ，ｆ）の全て周波数を統合したｊ番目の信号

を入力とし、音声度を０から１の値で出力する深層学習モデル

が、既に十分な量の教師データを用いて学習されているものとする。

一例として、複素数である時間周波数表現ｙ_ｊ（ｎ，ｆ）を

（γは小さな正の数）として実数に変換した

を入力とし、２個の中間層を持つ深層学習モデルを考える。中間層の値をｈ_１＝［ｈ_１１，・・・，ｈ_Ｐ１］^Ｔ，ｈ_２＝［ｈ_１２，・・・，ｈ_Ｑ２］^Ｔとし、重みパラメータベクトルをｖ_１１，・・・，ｖ_Ｐ１，ｖ_１２，・・・，ｖ_Ｑ２，ｖ_Ｇとする。このとき、以下の式１３〜式１５が成り立つ。

ここで、σはシグモイド関数やＲｅＬＵ（Rectified Linear Unit）等の適切な非線形関数である。

音声度評価部１３０では、上記の式９又は式１１の計算に必要な偏微分（すなわち、式６に示す偏微分）を計算する。上記の深層学習モデルの場合、この偏微分は、連鎖律に従って、以下の式１６により計算される。

このうち、

は、既知の深層学習ライブラリ等を用いて計算可能である。また、

は、上記の式１２から導かれる以下の式１７により計算する。

以上で説明した深層学習モデルを用いて構成した音声度評価部１３０を図５に示す。図５は、深層学習モデルにより音声度評価部１３０を構成した場合の一例を説明する図である。図５に示すように、音声度評価部１３０には、各ｊ毎に、ｙ_ｊ（ｎ，１），・・・，ｙ_ｊ（ｎ，Ｆ）が入力され、上記の式１２によりｚ_ｊ（ｎ，１），・・・，ｚ_ｊ（ｎ，Ｆ）に変換される。そして、深層学習モデルは、入力されたｚ_ｊ（ｎ，１），・・・，ｚ_ｊ（ｎ，Ｆ）を用いて、上記の式１３〜式１５により音声度Ｇ_ｊを出力する。最後に、音声度評価部１３０は、上記の式１６により、深層学習モデルが出力した音声度Ｇ_ｊから偏微分を計算する。これにより、行列Ｗ_ｆの最適化に必要な偏微分が得られる。

ステップＳ１０４：行列最適化部１４０は、音声度評価部１３０により計算された偏微分を用いて、線形変換部１２０による変換後の時間周波数表現ｙ（ｎ，ｆ）の音声度Ｇが高まるように行列Ｗ_ｆを更新する。すなわち、行列最適化部１４０は、全ての周波数ビンｆ＝１，・・・，Ｆに対して、上記の式８及び式９若しくは上記の式１０及び式１１により行列Ｗ_ｆを更新する。

上述したように、上記のステップＳ１０２〜ステップＳ１０４は、例えば、一定回数以上又は行列Ｗ_ｆが収束するまで繰り返し実行される。これにより、行列Ｗ_ｆが最適化される。

ステップＳ１０５：時間領域変換部１５０は、最適化された行列Ｗ_ｆを用いて得られた時間周波数表現ｙ（ｎ，ｆ）に対して短時間フーリエ変換の逆変換を適用して、目的信号を得る。

以上により、本発明の実施の形態における音声信号分離装置１０では、観測信号から目的信号が分離され、分離された目的信号が出力される。しかも、本発明の実施の形態における音声信号分離装置１０では、従来技術と比べて、より短い長さの観測信号（例えば、０．２秒程度等）に対しても、目的信号を取り出す線形変換のための行列Ｗ_ｆを精度良く計算することができる。

これにより、本発明の実施の形態における音声信号分離装置１０では、例えば、雑音の多い環境等においても、複数のマイクロホンで観測された音声等の明瞭度を高めることができる。このため、音声信号分離装置１０により出力された音声信号を用いる処理（例えば、音声認識処理等）の処理結果の精度を高めることが可能となる。

本発明は、具体的に開示された上記の実施形態に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。

１０音声信号分離装置
１００音声信号分離プログラム
１１０周波数領域変換部
１２０線形変換部
１３０音声度評価部
１４０行列最適化部
１５０時間領域変換部

Claims

複数の観測信号をそれぞれ第１の時間周波数表現に変換する周波数領域変換手段と、
前記周波数領域変換手段が変換した前記第１の時間周波数表現を第２の時間周波数表現に線型変換する線形変換手段と、
前記線形変換手段が線形変換した前記第２の時間周波数表現の音声度を評価し、評価した前記音声度の変化を算出する音声度評価手段と、
前記音声度評価手段が算出した前記音声度の変化に基づいて、前記線形変換に用いる行列を変更する行列最適化手段と、
を有することを特徴とする音声信号分離装置。
前記音声度評価手段は、
前記第２の時間周波数表現と、予め学習された深層学習モデルとに基づいて、前記音声度を評価する、
ことを特徴とする請求項１に記載の音声信号分離装置。
前記行列最適化手段は、
前記音声度評価手段が算出した前記音声度の変化に基づいて、勾配上昇法の手法により、前記音声度が高くなるように前記線形変換に用いる行列を変更する、
ことを特徴とする請求項１又は２に記載の音声信号分離装置。
前記行列最適化手段は、
前記音声度の前記行列による偏微分と、前記第１の時間周波数表現とを用いて、最尤基準から導かられる式の前記行列による偏微分を計算することで、前記行列を変更する、
ことを特徴とする請求項３に記載の音声信号分離装置。
前記行列最適化手段は、
前記音声度評価手段が算出した前記音声度の変化に基づいて、自然勾配法により、前記音声度が高くなるように前記線形変換に用いる行列を変更する、
ことを特徴とする請求項１又は２に記載の音声信号分離装置。
前記行列最適化手段は、
前記音声度の前記行列による偏微分を用いて、最尤基準から導かれる式の前記行列による偏微分と前記行列の共役転置と前記行列との積を計算することで、前記行列を変更する、
ことを特徴とする請求項５に記載の音声信号分離装置。
複数の観測信号をそれぞれ第１の時間周波数表現に変換する周波数領域変換手順と、
前記周波数領域変換手順が変換した前記第１の時間周波数表現を第２の時間周波数表現に線型変換する線形変換手順と、
前記線形変換手順が線形変換した前記第２の時間周波数表現の音声度を評価し、評価した前記音声度の変化を算出する音声度評価手順と、
前記音声度評価手順が算出した前記音声度の変化に基づいて、前記線形変換に用いる行列を変更する行列最適化手順と、
をコンピュータが実行することを特徴とする音声信号分離方法。
コンピュータを、請求項１乃至６の何れか一項に記載の音声信号分離装置における各手段として機能させるための音声信号分離プログラム。