JP7205635B2

JP7205635B2 - 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム

Info

Publication number: JP7205635B2
Application number: JP2021540733A
Authority: JP
Inventors: 宏佐藤; 翼落合; 慶介木下; マークデルクロア; 智広中谷; 厚徳小川
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2019-08-16
Filing date: 2020-08-07
Publication date: 2023-01-17
Anticipated expiration: 2040-08-07
Also published as: JPWO2021033587A1; WO2021033222A1; US20220335965A1; WO2021033587A1

Description

特許法第３０条第２項適用２０１９年９月１５～１９日にＧｒａｚ，Ａｕｓｔｒｉａで開催されたＩＮＴＥＲＳＰＥＥＣＨ２０１９にて公開

本発明は、音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラムに関する。

ニューラルネットワークを用いて混合音声信号から目的とする話者（目的話者）の音声信号を抽出する技術の開発が進められている。多くの目的話者抽出技術における従来のニューラルネットワークは、メインのニューラルネットワークと補助ニューラルネットワークとを有する構成を備える。

例えば、従来の目的話者抽出技術は、目的話者の手がかりとなる事前情報を補助ニューラルネットワークに入力することによって補助特徴量を抽出する。そして、従来の目的話者抽出技術は、入力された混合音声信号と補助特徴量とに基づいて、メインのニューラルネットワークにより、混合音声信号に含まれる目的話者の音声信号を抽出するためのマスク情報を推定する。このマスク情報を用いることによって、入力混合音声信号から目的話者の音声信号を抽出することができる。

このとき、目的話者の音声を抽出するための手がかりとして、事前録音された目的話者の音声信号を補助ニューラルネットワークに入力する方法（例えば、非特許文献１参照）と、目的話者の映像（主に、口周り）を補助ニューラルネットワークに入力する方法（例えば、非特許文献２参照）が知られている。

M. Delcroix, K. Zmolikova, K. Kinoshita, A. Ogawa, and T. Nakatani, "SINGLE CHANNEL TARGET SPEAKER EXTRACTION AND RECOGNITION WITH SPEAKER BEAM", in Proc. of ICASSP’18, pp.5554－5558, 2018. A. Ephrat, I. Mosseri, O. Lang, T. Dekel, K. Wilson, A. Hassidim, W. T. Freeman, and M. Rubinstein, "Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation", ACM Trans. on Graphics, Vol. 37, No. 4, 2018.

非特許文献１記載の技術では、音声信号における話者性を活用する都合上、混合音声信号内に声の性質が似た話者が存在する場合に、補助特徴量の抽出精度が低下してしまうという問題がある。一方、非特許文献２記載の技術では、口周りの映像に由来する言語関連の情報を活用するため、似た声の話者を含む混合音声信号に対しても比較的頑健に動作することが期待される。

また、非特許文献１記載の技術における話者手がかり（音声）は、一度事前録音さえしてしまえば、安定した品質で補助特徴量を抽出可能である。これに対し、非特許文献２記載の技術における話者手がかり（映像）は、時刻ごとの話者の動きによって品質が大きく異なってしまうため、常に精度よく目的話者の信号を抽出できるとは限らないという問題がある。

非特許文献２記載の技術では、例えば、話者の顔の向きが変化したり、他の話者や物が目的話者の前景に映りこむことで目的話者の一部が隠れてしまったりする結果、必ずしも一定の品質で話者の口の動きの情報が取れるとは限らない。この結果、非特許文献２記載の技術では、品質の悪い映像情報から得た補助情報を頼りにマスク情報を推定することによって、マスクの推定精度が低下してしまう可能性がある。

本発明は、上記に鑑みてなされたものであって、混合音声信号に含まれる目的話者の音声信号を安定した精度で推定することができる音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明に係る音声信号処理装置は、目的話者の音声信号の処理に関する複数の信号を、複数の補助ニューラルネットワークを用いて、信号ごとにそれぞれ複数の補助特徴量に変換する補助特徴量変換部と、メインニューラルネットワークを用いて、入力された混合音声信号の特徴量及び複数の補助特徴量を基に、混合音声信号に含まれる目的話者の音声信号に関する情報を推定する音声信号処理部と、を有することを特徴とする。

また、本発明に係る学習装置は、学習データの中から、学習用の混合音声信号及び学習用の目的話者の音声信号の処理に関する複数の信号を選択する選択部と、学習用の目的話者の音声信号の処理に関する複数の信号を、複数の補助ニューラルネットワークを用いて、信号ごとにそれぞれ複数の補助特徴量に変換する補助特徴量変換部と、メインニューラルネットワークを用いて、学習用の混合音声信号の特徴量及び複数の補助特徴量を基に、学習用の混合音声信号に含まれる目的話者の音声信号の処理に関する情報を推定する音声信号処理部と、所定基準を満たすまで、各ニューラルネットワークのパラメータを更新し、選択部と補助特徴量変換部と音声信号処理部との処理を繰り返し実行させることによって、所定基準を満たす各ニューラルネットワークのパラメータを設定する更新部と、を有することを特徴とする。

本発明によれば、混合音声信号に含まれる目的話者の音声信号を安定した精度で推定することができる。

図１は、実施の形態１に係る音声信号処理装置の構成の一例を示す図である。図２は、実施の形態１に係る学習装置の構成の一例を示す図である。図３は、実施の形態１に係る音声信号処理の処理手順を示すフローチャートである。図４は、実施の形態１に係る学習処理の処理手順を示すフローチャートである。図５は、実施の形態２に係る学習装置の構成の一例を示す図である。図６は、図５に示す音声信号処理部の一例を示す図である。図７は、図５に示す補助情報生成部の構成の一例を示す図である。図８は、実施の形態２に係る学習処理の処理手順を示すフローチャートである。図９は、図８に示す補助特徴量生成処理の処理手順を示すフローチャートである。図１０は、実施の形態３に係る学習装置の構成の一例を示す図である。図１１は、実施の形態４に係る学習装置の構成の一例を示す図である。図１２は、実施の形態４に係る学習処理の処理手順を示すフローチャートである。図１３は、実施の形態５に係る音声信号処理装置の構成の一例を示す図である。図１４は、プログラムが実行されることにより、音声信号処理装置或いは学習装置が実現されるコンピュータの一例を示す図である。

以下に、本願に係る音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。

なお、以下では、ベクトル、行列又はスカラーであるＡに対し、“＾Ａ”と記載する場合は「“Ａ”の直上に“＾”が記された記号」と同等であるとする。

［実施の形態１］
［音声信号処理装置］
まず、実施の形態１に係る音声信号処理装置について説明する。本実施の形態１に係る音声信号処理装置は、目的話者の音声信号の他に、入力される混合音声信号収録時の話者の映像情報を用いて補助情報を生成する。言い換えると、本実施の形態１に係る音声信号処理装置は、混合音声信号に含まれる目的話者の音声信号に関する情報を推定するメインニューラルネットワークに加え、２つの補助ニューラルネットワーク（第１補助ニューラルネットワーク及び第２補助ニューラルネットワーク）と、これら２つの補助ニューラルネットワークの出力を用いて１つの補助情報を生成する補助情報生成部とを有する。

図１は、実施の形態１に係る音声信号処理装置の構成の一例を示す図である。実施の形態１に係る音声信号処理装置１０は、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、ＣＰＵ（Central Processing Unit）等を含むコンピュータ等に所定のプログラムが読み込まれて、ＣＰＵが所定のプログラムを実行することで実現される。

図１に示すように、音声信号処理装置１０は、音声信号処理部１１、第１補助特徴量変換部１２、第２補助特徴量変換部１３及び補助情報生成部１４（生成部）を有する。音声信号処理装置１０には、複数の音源からの音声を含む混合音声信号が入力される。さらに、音声信号処理装置１０には、目的話者の音声信号、及び、入力された混合音声信号収録時の話者の映像情報が入力される。ここで、目的話者の音声信号とは、混合音声信号を取得しているシーンとは別のシーン（場所、時刻）において、目的話者が単独で発話したものを録音した信号である。目的話者の音声信号には、他の話者の音声は含まれないが、背景雑音等は含まれていてもよい。また、混合音声信号収録時の話者の映像情報は、音声信号処理装置１０の処理対象である混合音声信号を取得しているシーンにおける少なくとも目的話者を含む映像、例えば、その場にいる目的話者の様子を撮影した映像である。音声信号処理装置１０は、混合音声信号に含まれる目的話者の音声信号に関する情報を推定して出力する。

第１補助特徴量変換部１２は、第１補助ニューラルネットワークを用いて、入力話者の目的話者の音声信号を第１補助特徴量Ｚ_ｓ ^Ａに変換する。第１補助ニューラルネットワークは、入力された音声信号から特徴量を抽出するように学習させたＳＣｎｅｔ（Speaker Clue extraction network）である。第１補助特徴量変換部１２は、入力された目的話者の音声信号を第１補助ニューラルネットワークに入力することによって、目的話者の音声信号を第１補助特徴量Ｚ_ｓ ^Ａに変換して出力する。目的話者の音声信号としては、例えば、予め録音しておいた目的話者単独の音声信号に短時間フーリエ変換（ＳＴＦＴ：Short-Time Fourier Transform）を適用して得た振幅スペクトル特徴量Ｃ_ｓ ^Ａの系列を用いる。なお、ｓは、話者のインデックスを表す。

第２補助特徴量変換部１３は、第２補助ニューラルネットワークを用いて、入力される混合音声信号収録時の話者の映像情報を第２補助特徴量Ｚ_ｓ ^Ｖ（Ｚ_ｓ ^Ｖ＝ｚ_ｓｔ ^Ｖ；ｔ＝１，２，・・・，Ｔ）に変換する。第２補助ニューラルネットワークは、話者の映像情報から特徴量を抽出するように学習させたＳＣｎｅｔである。第２補助特徴量変換部１３は、混合音声信号収録時の話者の映像情報を第２補助ニューラルネットワークに入力することによって、混合音声信号収録時の話者の映像情報を第２補助特徴量Ｚ_ｓ ^Ｖに変換して出力する。

混合音声信号収録時の話者の映像情報としては、例えば、非特許文献１と同じ映像情報を用いればよい。具体的には、混合音声信号収録時の話者の映像情報として、映像から顔領域を抽出するように予め学習されたモデルを用いて、映像情報から目的話者の顔領域を抽出する際に得られる目的話者の顔領域に対応する埋め込みベクトル（face embedding vector）Ｃ_Ｓ ^Ｖを用いる。埋め込みベクトルは、例えば、参考文献１のFacenetで得られる特徴量である。映像情報のフレームが、混合音声信号のフレームと異なる場合には、映像情報のフレームを繰り返し配置して、フレーム数を合わせればよい。
参考文献１：F. Schroff, D. Kalenichenko, and J. Philbin, “Facenet: A unified embedding for face recognition and clustering”, in IEEE conf. on computer and pattern recognition (CVPR), pp. 815-823, 2015.

補助情報生成部１４は、第１補助特徴量Ｚ_ｓ ^Ａ及び第２補助特徴量Ｚ_ｓ ^Ｖを基に補助特徴量Ｚ_ｓ ^ＡＶ（Ｚ_ｓ ^ＡＶ＝ｚ_ｓｔ ^ＡＶ；ｔ＝１，２，・・・，Ｔ）を生成する。Ｔは、時間フレームの数を示す。補助情報生成部１４は、式（１）に示すように、第１補助特徴量Ｚ_ｓ ^Ａと第２補助特徴量Ｚ_ｓ ^Ｖとにそれぞれ注意重みを乗じた重みづけ和を、補助特徴量として出力するような注意機構により実現される。

ここで、注意重み｛α^Ψ _ｓｔ｝は、参考文献２に示されるような手法で予め学習しておく。
参考文献２：D. Bahdanau, K. Cho, and Y. Bengio, “Neural machine translation by jointly learning to aligh and translate”, in International Conf. on Learning Representations (ICLR), 2015.

また、注意重み｛α^Ψ _ｓｔ｝_{Ψ∈｛Ａ，Ｖ｝}は、混合音声信号の第１中間特徴量ｚ^Ｍ _ｔと目的話者の特徴量｛ｚ^Ψ _ｓｔ｝_{Ψ∈｛Ａ，Ｖ｝}とを用いて、式（２）、式（３）のように計算される。ｗ、Ｗ，Ｖ，ｖは、学習済みの重み、バイアスパラメータである。

音声信号処理部１１は、メインニューラルネットワークを用いて、混合音声信号に含まれる目的話者の音声信号に関する情報を推定する。目的話者の音声信号に関する情報とは、例えば、混合音声信号から目的話者の音声を抽出するためのマスク情報、あるいは、混合音声信号に含まれる目的話者の音声信号の推定結果そのものである。音声信号処理部１１は、入力された混合音声信号の特徴量、第１補助特徴量変換部１２によって変換された第１補助特徴量、及び、第２補助特徴量変換部１３によって変換された第２補助特徴量を基に、混合音声信号に含まれる目的話者の音声信号に関する情報を推定する。音声信号処理部１１は、第１変換部１１１、統合部１１２及び第２変換部１１３を有する。

第１変換部１１１は、第１メインニューラルネットワークを用いて、入力された混合音声信号Ｙを、第１中間特徴量Ｚ^Ｍ（Ｚ_ｔ ^Ｍ＝ｚ_ｔ ^Ｍ；ｔ＝１，２，・・・，Ｔ）に変換して出力する。第１メインニューラルネットワークは、混合音声信号を第１中間特徴量に変換する、学習済みのディープニューラルネットワーク（ＤＮＮ）である。入力混合音声信号Ｙとしては、たとえば、ＳＴＦＴを適用して得た情報を用いる。

統合部１１２は、式（４）に示すように、第１変換部１１１が変換した第１中間特徴量Ｚ^Ｍと、補助情報生成部１４が生成した補助情報Ｚ_ｓ ^ＡＶとを統合して第２中間特徴量Ｉ_ｓ（Ｉ_ｓ ^＝ｉ_ｓｔ；ｔ＝１，２，・・・，Ｔ）を生成する。

第２変換部１１３は、第２メインニューラルネットワークを用いて、混合音声信号に含まれる目的話者の音声信号に関する情報を推定する。第２メインニューラルネットワークは、入力された特徴量を基にマスク情報を推定するニューラルネットワークである。第２変換部１１３は、第２中間特徴量Ｉ_ｓを第２メインニューラルネットワークの入力とし、第２メインニューラルネットワークの出力を混合音声信号に含まれる目的話者の音声信号に関する情報として出力する。

第２ニューラルネットワークは、例えば、学習済みのＤＮＮと後続する線形変換層と、活性化層とから構成され、ＤＮＮにより第２中間特徴量を第３中間特徴量へ変換した後、線形変換層によりこれを第４中間特徴量へ変換し、第４中間特徴量にシグモイド関数を適用して出力である混合音声信号に含まれる目的話者の音声信号に関する情報を推定する。

混合音声信号に含まれる目的話者の音声信号に関する情報がマスク情報Ｍ_ｓである場合には、式（５）のように混合音声信号Ｙにマスク情報Ｍ_ｓを適用することによって、目的話者の音声信号＾Ｘ_ｓが得られる。なお、混合音声信号に含まれる目的話者の音声信号に関する情報として直接目的話者の音声信号の推定結果＾Ｘ_ｓを出力するように、メインニューラルネットワークを構成することも可能である。これは、後述の学習装置の学習のさせ方を変えることで実現できる。

［学習装置］
次に、音声信号処理装置１０で用いられる各ニューラルネットワークの学習を行うための学習装置の構成を説明する。図２は、実施の形態１に係る学習装置の構成の一例を示す図である。

実施の形態１に係る学習装置２０は、例えば、ＲＯＭ、ＲＡＭ、ＣＰＵ等を含むコンピュータ等に所定のプログラムが読み込まれて、ＣＰＵが所定のプログラムを実行することで実現される。図２に示すように、学習装置２０は、音声信号処理部２１、第１補助特徴量変換部２２、第２補助特徴量変換部２３、補助情報生成部２４、学習データ選択部２５及び更新部２６を有する。また、音声信号処理部２１は、第１変換部２１１、統合部２１２及び第２変換部２１３を有する。

学習装置２０の各処理部は、学習データ選択部２５及び更新部２６を除き、音声信号処理装置１０の同名の処理部と同様の処理を行う。また、学習装置２０に入力される混合音声信号、目的話者の音声信号、及び、入力された混合音声信号収録時の話者の映像情報は学習データであり、混合音声信号に含まれる目的話者単独の音声信号が既知であるものとする。また、学習装置２０の各ニューラルネットワークのパラメータには、予め適当な初期値が設定されている。

学習データ選択部２５は、学習データの中から、学習用の混合音声信号、目的話者の音声信号及び学習用の混合音声信号収録時の話者の映像情報の組を選択する。学習データは、予め学習用に用意された、混合音声信号、目的話者の音声信号及び混合音声信号収録時の話者の映像情報の組を複数含むデータ集合である。そして、学習データ選択部２５は、選択した学習用の混合音声信号、目的話者の音声信号及び学習用の混合音声信号収録時の話者の映像情報を、第１変換部２１１、第１補助特徴量変換部２２及び第２補助特徴量変換部２３にそれぞれ入力する。

更新部２６は、各ニューラルネットワークのパラメータの学習を行う。更新部２６は、メインニューラルネットワークの、第１補助ニューラルネットワーク及び第２補助ニューラルネットワークに対して、マルチタスク学習を実行させる。なお、更新部２６は、各ニューラルネットワークに対して、シングルタスク学習を実行させることも可能である。後述する評価実験に示すように、更新部２６が、各ニューラルネットワークにマルチタスク学習を実行させた場合、音声信号処理装置１０は、目的話者の音声信号及び混合音声信号収録時の話者の映像情報のいずれか一方のみの入力であっても、高い精度を保持できる。

具体的には、更新部２６は、所定基準を満たすまで、各ニューラルネットワークのパラメータを更新し、学習データ選択部２５、第１補助特徴量変換部２２、第２補助特徴量変換部２３、補助情報生成部２４及び音声信号処理部２１の処理を繰り返し実行させることによって、所定基準を満たす各ニューラルネットワークのパラメータを設定する。このように設定された各ニューラルネットワークのパラメータの値が、音声信号処理装置１０における各ニューラルネットワークのパラメータとして適用される。更新部２６は、周知である誤差逆伝搬法などのパラメータ更新の手法を用いてパラメータの更新を行う。

所定基準は、例えば、予め定めた繰り返し回数に到達した場合である。所定基準は、パラメータの更新量が所定の値未満となった場合でもよい。或いは、所定基準は、パラメータ更新のために計算する損失関数Ｌ_ＭＴＬの値が所定の値未満となった場合でもよい。

ここで、損失関数Ｌ_ＭＴＬとして、式（６）に示すように、第１損失Ｌ_ＡＶ、第２損失Ｌ_Ａ及び第３損失Ｌ_Ｖの重み付け和を用いる。損失は、学習用データ中の混合音声信号に含まれる目的話者の音声信号の推定結果（推定話者音声信号）と、正解の目的話者の音声信号（教師信号）との距離である。第１損失Ｌ_ＡＶは、第１補助ニューラルネットワークと第２補助ニューラルネットワークとの双方を用いて推定話者音声信号を得た場合の損失である。第２損失Ｌ_Ａは、第１補助ニューラルネットワークのみを推定話者音声信号を得た場合の損失である。第３損失Ｌ_Ｖは、第２補助ニューラルネットワークのみを用いて推定話者音声信号を得た場合の損失である。

各損失の重みα，β，γは、少なくとも１つ以上の重みが非零となるように設定すればよい。このため、いずれかの重みα，β，γを０として、対応する損失は考慮しない形としてもよい。

ここで、音声信号処理装置の実施形態の説明において、メインニューラルネットワークの出力である「混合音声信号に含まれる目的話者の音声信号に関する情報」は、混合音声信号から目的話者の音声信号を抽出するためのマスク情報とすることもできるし、混合音声信号に含まれる目的話者の音声信号の推定結果そのものとすることもできる旨を説明した。

メインニューラルネットワークの出力がマスク情報となるようにニューラルネットワークを学習させる場合は、本学習装置におけるメインニューラルネットワークの出力をマスク情報の推定結果とみなして、当該推定されたマスク情報を式（５）のように混合音声信号に適用することで推定話者音声信号を求め、この推定話者音声信号と教師信号との距離を上記損失として計算する。

メインニューラルネットワークの出力が、混合音声信号に含まれる目的話者の音声信号の推定結果となるようにニューラルネットワークを学習させる場合は、本学習装置におけるメインニューラルネットワークの出力を推定話者音声信号とみなして、上記損失を計算すればよい。

このように、第１補助ニューラルネットワークのパラメータ、第２補助ニューラルネットワークのパラメータ及びメインニューラルネットワークのパラメータは、音声信号処理部１１が、学習用の混合音声信号の特徴量と第１補助特徴量と学習用の混合音声信号の収録時の話者の映像情報から変換された第２補助特徴量とを用いて推定した推定話者音声信号に対する第１損失と、音声信号処理部１１が、学習用の混合音声信号の特徴量と第１補助特徴量とを基に推定した推定話者音声信号に対する第２損失と、音声信号処理部１１が、学習用の混合音声信号の特徴量と第２補助特徴量とを基に推定した推定話者音声信号に対する第３損失と、の重み付け和を小さくするように、各パラメータを更新していくことにより学習させる。

［音声信号処理の処理手順］
次に、音声信号処理装置１０が実行する音声信号処理の流れについて説明する。図３は、実施の形態に係る音声信号処理の処理手順を示すフローチャートである。

図３に示すように、音声信号処理装置１０は、混合音声信号、目的話者の音声信号、及び、入力された混合音声信号収録時の話者の映像情報の入力を受け付ける（ステップＳ１，Ｓ３，Ｓ５）。

第１変換部１１１は、第１メインニューラルネットワークを用いて、入力された混合音声信号Ｙを、第１中間特徴量に変換する（ステップＳ２）。第１補助特徴量変換部１２は、第１補助ニューラルネットワークを用いて、入力された話者の目的話者の音声信号を第１補助特徴量に変換する（ステップＳ４）。第２補助特徴量変換部１３は、第２補助ニューラルネットワークを用いて、入力された混合音声信号収録時の話者の映像情報を第２補助特徴量に変換する（ステップＳ６）。補助情報生成部１４は、第１補助特徴量及び第２補助特徴量を基に補助特徴量を生成する（ステップＳ７）。

統合部１１２は、第１変換部１１１が変換した第１中間特徴量と、補助情報生成部１４が生成した補助情報とを統合して第２中間特徴量を生成する（ステップＳ８）。第２変換部１１３は、第２メインニューラルネットワークを用いて、入力された第２中間特徴量を、混合音声信号に含まれる目的話者の音声信号に関する情報に変換する（ステップＳ９）。

［学習処理の処理手順］
次に、学習装置２０が実行する学習処理の流れについて説明する。図４は、実施の形態に係る学習処理の処理手順を示すフローチャートである。

図４に示すように、学習データ選択部２５は、学習データの中から、学習用の混合音声信号、目的話者の音声信号及び学習用の混合音声信号収録時の話者の映像情報の組を選択する（ステップＳ２１）。学習データ選択部２５は、選択した学習用の混合音声信号、目的話者の音声信号及び学習用の混合音声信号収録時の話者の映像情報を、第１変換部２１１、第１補助特徴量変換部２２及び第２補助特徴量変換部２３にそれぞれ入力する（ステップＳ２２，Ｓ２４，Ｓ２６）。ステップＳ２３，Ｓ２５，Ｓ２７～Ｓ３０は、図３に示すステップＳ２，Ｓ４，Ｓ６～Ｓ９と同じ処理である。

更新部２６は、所定基準を満たすか否かを判定する（ステップＳ３１）。所定基準を満たさない場合（ステップＳ３１：Ｎｏ）、更新部２６は、各ニューラルネットワークのパラメータを更新し、ステップＳ２１に戻り、学習データ選択部２５、第１補助特徴量変換部２２、第２補助特徴量変換部２３、補助情報生成部２４及び音声信号処理部２１の処理を繰り返し実行させる。所定基準を満たす場合（ステップＳ３１：Ｙｅｓ）、更新部２６は、所定基準を満たした各パラメータを、学習済みの各ニューラルネットワークのパラメータとして設定する（ステップＳ３２）。

［評価実験］
評価用に、LRS3-TED（Lip Reading Sentences 3）音声-映像コーパスに基づく混合音声信号のシミュレーションデータセットを生成した。データセットは、０．５ｄＢのＳＮＲ（Signal to Noise Ratio）での混合発話によって生成された２話者の混合音声信号を含むデータセットである。また、本評価では、入力混合音声信号Ｙとして、混合音声信号に短時間フーリエ変換（ＳＴＦＴ）を適用して得た情報を用いた。本評価では、目的話者の音声信号として、６０ｍｓウィンドウ長と２０ｍｓウィンドウシフトとで、音声信号にＳＴＦＴを適用して得た振幅スペクトル特徴量を使用した。本評価では、映像情報として、Facenetを用いて、毎ビデオフレーム（２５ｆｐｓ、例えば、３０ｍｓシフト）から抽出された、目的話者の顔領域に対応する埋め込みベクトルを使用した。

まず、従来手法と実施の形態の手法の音声信号処理の精度を比較した結果を表１に示す。

表１において、「Baseline-A」は音声情報に基づく補助情報を使用する従来の音声信号処理方法であり、「Baseline-V」は、映像情報に基づく補助情報を使用する従来の音声信号処理方法であり、「SpeakerBeam-AV」は、音声情報及び映像情報のそれぞれに基づく２つ補助情報を使用する本実施の形態に係る音声信号処理方法である。表１は、これらの方法をそれぞれ用いて、混合音声信号から抽出した目的話者の音声信号に対するＳＤＲ（Signal-to-Distortion Ratio）を示す。また、「Same」は目的話者と他の話者の性別が同じであることを表している。また、「Diff」は、目的話者と他の話者の性別が異なることを表している。「All」は、全混合音声信号に対するＳＤＲの平均を示す。

表１に示すように、SpeakerBeam-AVは、従来のBaseline-A，Baseline-Vと比して、いずれの条件においても、良い結果を示した。特に、従来の手法では精度が低くなりがちであったSame条件に対する結果についても、SpeakerBeam-AVは、Diff条件の結果により近い精度を示し、従来の手法と比して非常によい結果を示した。

次に、本実施の形態１に係る学習方法において、マルチタスク学習の実行の有無による、音声信号処理精度を評価した。表２は、本実施の形態１に係る学習方法において、マルチタスク学習を実行した場合と、マルチタスク学習ではなくシングルタスクでの学習を実行した場合における音声信号処理精度を比較した結果である。

「SpeakerBeam-AV」は、音声信号処理装置１０の各ニューラルネットワークに対してシングルタスクによる学習を実行された音声信号処理方法を示し、「SpeakerBeam-AV-MTL」は、音声信号処理装置１０の各ニューラルネットワークに対してマルチタスクよる学習を実行された音声信号処理方法を示す。｛α，β，γ｝は、式（６）式における各損失の重みα，β，γである。「Clues」の「AV」は、補助情報として、目的話者の音声信号と混合音声信号収録時の話者の映像情報との双方が入力された場合を示し、「A」は、補助情報として、目的話者の音声信号のみが入力された場合を示し、「V」は、補助情報として、混合音声信号収録時の話者の映像情報のみが入力された場合を示す。

表２に示すように、SpeakerBeam-AVは、目的話者の音声信号と混合音声信号収録時の話者の映像情報との双方が補助情報として入力された場合には、一定の精度を保持することができる。しかしながら、SpeakerBeam-AVは、目的話者の音声信号と混合音声信号収録時の話者の映像情報との一方のみが補助情報として入力された場合には、精度を保持することができない。

これに対し、SpeakerBeam-AV-MTLは、目的話者の音声と混合音声信号収録時の話者の映像情報との一方のみが補助情報として入力された場合にも、一定の精度を保持することができる。また、SpeakerBeam-AV-MTLは、目的話者の音声と混合音声信号収録時の話者の映像情報との一方のみが補助情報として入力された場合であっても、従来のBaseline-A，Baseline-V（表１参照）よりも高い精度を保持している。

また、SpeakerBeam-AV-MTLは、目的話者の音声信号と混合音声信号収録時の話者の映像情報との双方が補助情報として入力された場合も、SpeakerBeam-AVと同等の精度を示す。したがって、SpeakerBeam-AV-MTLを適用したシステムであれば、補助情報として目的話者の音声信号と混合音声信号収録時の話者の映像情報との双方が入力された場合（AV）、補助情報として目的話者の音声信号のみが入力された場合（A）、補助情報として混合音声信号収録時の話者の映像情報のみが入力された場合（V）のいずれの場合についても、それぞれ対応するモードに切り替えるだけで、高精度での音声信号処理を実行することができる。

［実施の形態１の効果］
本実施の形態１に係る音声信号処理装置１０は、補助情報として、目的話者の音声信号を第１補助ニューラルネットワークを用いて変換した第１補助特徴量と、入力される混合音声信号収録時の話者の映像情報を第２補助ニューラルネットワークを用いて変換した第２補助特徴量とを使用して、混合音声信号に含まれる目的話者の音声信号を抽出するためのマスク情報を推定する。

このように、音声信号処理装置１０は、安定した品質で補助特徴量を抽出可能である第１補助特徴量と、似た声の話者を含む混合音声信号に対しても頑健である第２補助特徴量との双方を使用してマスク情報を推定するため、安定した精度でマスク情報を推定することができる。

また、本実施の形態１に係る学習装置２０では、各ニューラルネットワークに対し、マルチタスク学習を実行させることによって、評価実験の結果にも示したように、目的話者の音声信号及び混合音声信号収録時の話者の映像情報のいずれか一方のみの入力であっても、音声信号処理装置１０において高い精度を保持できる。

したがって、本実施の形態１によれば、混合音声信号に含まれる目的話者の音声信号を抽出するためのマスク情報を安定した精度で推定することができる。

［実施の形態２］
ここで、補助情報に使用する信号は、目的話者の音声信号と混合音声信号収録時の話者の映像情報との２つに限らず、目的話者の音声信号の抽出に関する複数の信号であってもよい。目的話者の音声信号の処理に関する複数の信号は、混合音声信号が発声されるシーンまたはは前記目的話者から取得される信号である。本実施の形態２以降では、補助情報に使用する目的話者の音声信号の処理に関する信号として、目的話者の音声信号と混合音声信号収録時の話者の映像情報の他に、目的話者の他の手がかりとなる情報を用いた例を説明する。

ここで、実施の形態１に記載した注意重み（attention）を用いることで、目的話者の音声信号の処理に関する複数の信号（手がかり情報）のうち、各時刻においていずれの情報を利用するかを、例えば、手がかり情報の信頼性などに基づいて、選択的に利用できることが期待される。これに対し、実施の形態１に記載したattentionを用いたマルチモーダル目的話者抽出においては、attention機構が、手がかりの信頼性をとらえるように学習されず、期待されるような「選択的に利用するモーダルを振り分ける挙動」が得られない場合があった。この結果、attention機構を用いて手がかりを集約する場合と、用いずに各ベクトルの和や結合で手がかりを集約する場合との性能に差が生じない場合があった。

attention機構が思ったように動作しない原因として、各モーダルの補助特徴量のベクトルのノルムが、モーダルの集約前において、モーダル間で著しくアンバランスになる現象が生じていることが分かった。この各モーダルのノルムが一定でない現象によって、それらを重み付け和の形で集約するattentionの重みが、いくつの時にすべてのモーダルを均等に利用しているのか、或いは、いくつの時に一方のモーダルを重視しているのか、といった解釈性が損なわれていた。

そこで、本実施の形態２では、attentionに正規化機構を追加した、“normalized attention”と呼ぶ機構を有する学習装置を新規に提案する。

［学習装置］
図５は、実施の形態２に係る学習装置の構成の一例を示す図である。実施の形態２に係る学習装置２２０は、例えば、ＲＯＭ、ＲＡＭ、ＣＰＵ等を含むコンピュータ等に所定のプログラムが読み込まれて、ＣＰＵが所定のプログラムを実行することで実現される。図５に示すように、学習装置２２０は、特徴量変換部２３０、音声信号処理部２２１、補助情報生成部２２４、学習データ選択部２２５及び更新部２２６を有する。

特徴量変換部２３０には、目的話者の音声信号の処理に関する複数の信号として、入力話者の目的話者の音声信号及び混合音声信号収録時の話者の映像情報に加え、目的話者の他の手がかり情報が入力される。目的話者の他の手がかり情報として、例えば、混合音声信号が発声されるシーンにおける目的話者の収録機材に対する位置の情報、話者方向、混合音声信号が発声されるシーンにおける目的話者から取得したセンサ情報などがある。センサ情報は、例えばウェアラブルデバイスのセンサによって得られた心拍や筋電等の生体情報である。心拍は、例えば、装着者が発話する場合に心拍が上がる。目的話者の音声信号の処理に関する複数の信号は、混合音声信号とは異なる時点において、目的話者が単独で発話したときの音声信号、混合音声信号が発声されるシーンにおける話者の映像情報、混合音声信号が発声されるシーンにおける目的話者の収録機材に対する位置の情報、混合音声信号が発声されるシーンにおける目的話者から取得したセンサ情報などのいずれか２つ以上を含む。

特徴量変換部２３０は、目的話者の音声信号の処理に関する複数の信号を、複数の信号の各々に対応する複数の補助ニューラルネットワークを用いて、信号ごとにそれぞれ複数の補助特徴量に変換する。例えば、特徴量変換部２３０は、第１メインニューラルネットワークを用いて学習用の混合音声信号を変換して得た第１中間特徴量と、それぞれ入力された手がかり情報とを基に、各手がかり情報を各補助特徴量に変換する。特徴量変換部２３０は、第１補助特徴量変換部２２２と、第２補助特徴量変換部２２３と、第３補助特徴量変換部２２７とを有する。

第１補助特徴量変換部２２２は、第１補助特徴量変換部２２と同様に、第１補助ニューラルネットワークを用いて、入力話者の目的話者の音声信号を第１補助特徴量Ｚ_ｓ ^Ａに変換する。第２補助特徴量変換部２２３は、第２補助特徴量変換部２３と同様に、第２補助ニューラルネットワークを用いて、入力される混合音声信号収録時の話者の映像情報を第２補助特徴量Ｚ_ｓ ^Ｖに変換する。第３補助特徴量変換部２２７は、第３補助ニューラルネットワークを用いて、入力される目的話者の他の手がかり情報を第３補助特徴量Ｚ_ｓ ^Ｈ（Ｚ_ｓ ^Ｈ＝ｚ_ｓｔ ^Ｈ；ｔ＝１，２，・・・，Ｔ）に変換する。

音声信号処理部２２１は、音声信号処理部２１と同様に、メインニューラルネットワークを用いて、学習用の混合音声信号に含まれる目的話者の音声信号に関する情報を推定する。図６は、図５に示す音声信号処理部２２１の一例を示す図である。音声信号処理部２２１は、第１変換部２１１、統合部２２１２及び第２変換部２１３を有する。統合部２２１２は、第１変換部２１１が変換した第１中間特徴量と、補助情報生成部２２４が生成した補助特徴量とを統合して第２中間特徴量を生成する。

補助情報生成部２２４は、ニューラルネットワークを用いて、第１中間特徴量を参考にしながら、第１補助特徴量、第２補助特徴量、第３補助特徴量にそれぞれ対応する注意重み（attention）をそれぞれ乗じた重みづけ和を生成して、この重みづけ和を補助特徴量として統合部２２１２に出力する。図７は、図５に示す補助情報生成部２２４の構成の一例を示す図である。図７に示すように、補助情報生成部２２４は、注意重み計算部２２４１と、正規化部２２４２と、集約部２２４３と、スケーリング部２２４４とを有する。

注意重み計算部２２４１は、attention機構（参考文献３参照）における、各補助特徴量に乗じるattentionの値の計算を行う機能を有し、ニューラルネットワークを用いて注意重み（attention）の値を予測する。注意重み計算部２２４１は、attentionの計算を各時刻のサンプルに対して行う。すなわち、注意重み計算部２２４１は、各時刻に対して、入力話者の目的話者の音声信号を0.8、混合音声信号収録時の話者の映像情報を0.1、目的話者の他の手がかり情報を0.1の割合で利用するといった値を出力する。
参考文献３：A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser and I.Polosukhin, “Attention Is All You Need”, In Advances in neural information processing systems, pp. 5998-6008, 2017.

正規化部２２４２は、第１補助特徴量（特徴抽出済み目的話者音声情報）、第２補助特徴量（特徴抽出済み目的話者映像情報）、及び、第３補助特徴量（特徴抽出済み目的話者の他の手がかり情報）のそれぞれに対して、ノルムの正規化を行う。正規化部２２４２は、正規化を各時刻のサンプルに対して行い、演算としては一般的に用いられるベクトルの大きさでベクトルの各成分を除算するなどの方法を適用する。

集約部２２４３は、正規化された複数の補助特徴量に、注意重み計算部２２４１によって計算された各補助特徴量に対応する注意重みをそれぞれ乗じた重みづけ和を計算する（式（１）のうちΨ（Ψ∈｛Ａ，Ｖ，Ｈ｝）とする。詳細は、参考文献３参照。）。集約部２２４３は、重みづけ和の計算を各時刻フレームに対して行う。

スケーリング部２２４４は、正規化前のノルムの大きさを基に計算されたスケールを乗じた重みづけ和を、補助特徴量として音声信号処理部２２１に出力する。重みづけ和にスケールを乗じることによって、各補助特徴量が正規化されることで集約部２２４３の出力しうるベクトルのノルムが制限されてしまうという問題を解消する。例えば、正規化部２２４２において各補助特徴量のノルムが半分になった場合、スケーリング部２２４４は、スケールとして２倍を掛け合わせるなどの演算を行う。具体的なスケールの計算方法として、スケールｌを式（７）のように設定するなどの方法が考えられる。

式（７）において、ｚ_Ψは、モーダルΨ（Ψ∈｛Ａ，Ｖ，Ｈ｝）の補助特徴量である。

学習データ選択部２２５は、学習データの中から、学習用の混合音声信号と、目的話者の音声信号、学習用の混合音声信号収録時の話者の映像情報及び目的話者の他の手がかり情報との組を選択する。

更新部２２６は、各ニューラルネットワークのパラメータの学習を行う。更新部２６は、音声信号処理部２２１が有するメインニューラルネットワーク、特徴量変換部２３０が有する各補助ニューラルネットワーク、及び、補助情報生成部２２４が有するニューラルネットワークに対して、学習を実行させる。

具体的には、更新部２２６は、所定基準を満たすまで、各ニューラルネットワークのパラメータを更新し、学習データ選択部２２５、特徴量変換部２３０、補助情報生成部２２４及び音声信号処理部２２１の処理を繰り返し実行させることによって、所定基準を満たす各ニューラルネットワークのパラメータを設定する。このように設定された各ニューラルネットワークのパラメータの値が、後述する音声信号処理装置５１０における各ニューラルネットワークのパラメータとして適用される。更新部２２６は、周知である誤差逆伝搬法などのパラメータ更新の手法を用いてパラメータの更新を行う。

所定基準は、予め定めた繰り返し回数に到達した場合である。所定基準は、パラメータの更新量が所定の値未満となった場合でもよい。或いは、所定基準は、音声信号処理部２２１によって抽出された音声信号と、教師信号である真の目的話者音声との差異から計算される損失の値が所定の値未満となった場合でもよい。損失には、例えば、scale invariant signal to distortion ratioなどの一般的に用いられる公知の基準を用いることができる。

［学習処理］
次に、実施の形態２に係る学習処理について説明する。図８は、実施の形態２に係る学習処理の処理手順を示すフローチャートである。

図８に示すように、学習データ選択部２２５は、学習データの中から、学習用の混合音声信号、目的話者の音声信号と学習用の混合音声信号収録時の話者の映像情報と目的話者の他の手がかり情報との組を選択する（ステップＳ４１）。学習データ選択部２２５は、選択した学習用の混合音声信号、目的話者の音声信号、学習用の混合音声信号収録時の話者の映像情報及び目的話者の他の手がかり情報を、第１変換部２１１、第１補助特徴量変換部２２２、第２補助特徴量変換部２２３及び第３補助特徴量変換部２２７にそれぞれ入力する（ステップＳ４２，Ｓ４４，Ｓ４６，Ｓ４８）。

ステップＳ４３，Ｓ４５，Ｓ４７は、図４に示すステップＳ２３，Ｓ２５，Ｓ２７と同じ処理である。第３補助特徴量変換部２２７は、第３補助ニューラルネットワークを用いて、入力される目的話者の他の手がかり情報を第３補助特徴量に変換する（ステップＳ４９）。補助情報生成部２２４は、第１補助特徴量、第２補助特徴量、第３補助特徴量を基に補助特徴量を生成する（ステップＳ５０）。

統合部２２１２は、第１変換部２１１が変換した第１中間特徴量と、補助情報生成部２２４が生成した補助特徴量とを統合して第２中間特徴量を生成する（ステップＳ５１）。図８に示すステップＳ５２～ステップＳ５４は、図４に示すステップＳ３０～ステップＳ３２と同じ処理である。

［補助特徴生成処理］
次に、図８に示す補助特徴量生成処理（ステップＳ５０）について説明する。図９は、図８に示す補助特徴量生成処理の処理手順を示すフローチャートである。

図９に示すように、注意重み計算部２２４１は、各補助特徴量に乗じる注意重みの値を計算する（ステップＳ６１）。ステップＳ６１と平行して、正規化部２２４２は、第１補助特徴量、第２補助特徴量及び第３補助特徴量のそれぞれに対して、ノルムの正規化を行う（ステップＳ６２）。

集約部２２４３は、正規化された複数の補助特徴量に、注意重み計算部２２４１によって計算された各補助特徴量に対応する注意重みをそれぞれ乗じた重みづけ和を計算する集約処理を行う（ステップＳ６３）。そして、スケーリング部２２４４は、正規化前のノルムの大きさを基に計算されたスケールを乗じた重みづけ和を計算するスケーリング処理を行い（ステップＳ６４）、補助特徴量として音声信号処理部２２１に出力する。

［実施の形態２の効果］
このように、学習装置２２０は、各補助特徴量に対しノルムの正規化を行ってから、重みづけ和の計算を行うことで、各モーダル間における、各補助特徴量のベクトルのノルムの偏りが低減できる。

したがって、実施の形態２では、ノルムのアンバランスの問題を解消したことで、attentionを正常に学習しやすくして目的話者抽出性能を向上させ、かつ、attentionの値に解釈性を付与することができるようになる。すなわち、実施の形態２では、モーダル間のノルムアンバランスの問題が解消され、また、attention機構がより効果的に学習されることにより、目的話者の音声信号の抽出性能が向上する。

そして、attention機構の示す値が解釈性を持つことができる。言い換えると、実施の形態２では、attentionの値を見ることによって、どの手がかりが重視されているか、あるいはいずれの手がかりも効果的に機能していることが分かる。例えば音声手がかりを重視する値が出力されていた場合、映像手がかりに何か問題が生じている可能性がある、などattentionの値をもとに、各手がかりの状態を解釈することができる。

［実施の形態３］
実施の形態３では、attentionの学習をさらに効果的に行うことができるマルチタスク学習（attention guided training）について説明する。

［学習装置］
図１０は、実施の形態３に係る学習装置の構成の一例を示す図である。実施の形態３に係る学習装置３２０は、例えば、ＲＯＭ、ＲＡＭ、ＣＰＵ等を含むコンピュータ等に所定のプログラムが読み込まれて、ＣＰＵが所定のプログラムを実行することで実現される。図１０に示すように、学習装置３２０は、実施の形態２に係る学習装置２２０と比して、更新部２２６に代えて、更新部３２６を有する。なお、補助情報生成部２２４は、注意重み計算部２２４１によって計算された各補助特徴量に対応する注意重み（attention）の値を更新部３２６に出力する。また、補助情報生成部２２４は、正規化部２２４２及びスケーリング部２２４４を省いた構成（normalized attentionの適用なし）でもよい。

更新部３２６は、所定基準を満たすまで、各ニューラルネットワークのパラメータを更新し、学習データ選択部２２５、特徴量変換部２３０、補助情報生成部２２４及び音声信号処理部２２１の処理を繰り返し実行させることによって、所定基準を満たす各ニューラルネットワークのパラメータを設定する。更新部３２６は、注意重み計算部２２４１によって計算された各補助特徴量に対応する注意重みと、予め設定された各補助特徴量に対応する望ましい注意重みの値と、音声信号処理部２２１が推定した学習用の混合音声信号に含まれる目的話者の音声信号と、学習用の混合音声信号に含まれる目的話者の音声の教師信号とに基づいた目的関数を最適化するように各ニューラルネットワークのパラメータを更新する。目的関数は、例えば、後述する式（８）のような損失関数である。

更新部３２６は、補助情報生成部２２４における注意重み計算部２２４１によって計算された各補助特徴量に対応する注意重み（attention）の値＾α^Ψと、予め設定された各補助特徴量に対応する望ましい注意重み（attention）の値α^Ψと、音声信号処理部２２１が推定した学習用の混合音声信号に含まれる目的話者の音声信号＾ｘと、学習用の混合音声信号に含まれる目的話者の音声の教師信号（真の目的話者音声）ｘとを入力とする。そして、更新部３２６は、これらの情報に基づいた損失を計算し、計算した損失が所定の値未満となるようになるように、ニューラルネットワークに対してマルチタスク学習を実行させることで、各ニューラルネットワークのパラメータを更新する。

望ましいattentionの値としては、例えば、全ての目的話者の音声信号の処理に関する複数の信号を、目的話者の手がかり情報として利用可能な場合に、目的話者の音声信号の処理に関する第１の情報（例えば、入力話者の目的話者の音声信号）と、目的話者の音声信号の処理に関する第２の情報（例えば、混合音声信号収録時の話者の映像情報）に対して、第１の情報及び第２の情報を[0.5, 0.5]と設定し、第１の情報が利用不可能な場合に、[0.0, 1.0]と設定するなどの方法が考えられる。

学習には、一般的にニューラルネットワークの学習に用いられる逆伝搬などの公知の技術を用いることができる。実施の形態３では、例えば、損失関数Ｌとして、補助情報生成部２２４における注意重み計算部２２４１によって計算された各補助特徴量に対応する注意重み（attention）の値＾α^Ψと、予め設定された各補助特徴量に対応する望ましい注意重み（attention）の値α^Ψと、音声信号処理部２２１が推定した学習用の混合音声信号に含まれる目的話者の音声信号＾ｘと、学習用の混合音声信号に含まれる目的話者の音声の教師信号ｘとを用いて、式（８）のように設計する。

ここで、ｄ_１，ｄ_２はそれぞれ距離尺度であり、ｄ_１として、例えば、scale invariant signal to distortion ratioなどを用いることができ、ｄ_２として、例えばmean square errorを各時刻において計算したものの平均としたものなどを用いることができる。

［実施の形態３の効果］
このように、実施の形態３においては、補助情報生成部２２４における注意重み計算部２２４１によって計算された各補助特徴量に対応する注意重み（attention）の値＾α^Ψと、予め設定された各補助特徴量に対応する望ましい注意重み（attention）の値α^Ψとをさらに用いて、マルチタスク学習を行うため、attention機構がより効果的に学習され、目的話者の音声信号の抽出性能が向上する。

［実施の形態４］
実施の形態４では、attentionの学習をさらに効果的に行うことができるマルチタスク学習（clue condition aware training）について説明する。

［学習装置］
図１１は、実施の形態４に係る学習装置の構成の一例を示す図である。実施の形態４に係る学習装置４２０は、例えば、ＲＯＭ、ＲＡＭ、ＣＰＵ等を含むコンピュータ等に所定のプログラムが読み込まれて、ＣＰＵが所定のプログラムを実行することで実現される。図１１に示すように、学習装置３２０は、実施の形態２に係る学習装置２２０と比して、更新部２２６に代えて、更新部４２６を有する。学習装置３２０は、学習装置２２０と比して、信頼度予測部４２８（信頼度）をさらに有する。なお、特徴量変換部２３０は、各補助特徴量を信頼度予測部４２８に出力する。また、補助情報生成部２２４は、正規化部２２４２及びスケーリング部２２４４を省いた構成でもよい。

信頼度予測部４２８は、特徴量変換部２３０によって変換された各補助特徴量を基に、学習用の目的話者の音声信号の処理に関する複数の信号のそれぞれの各時刻における信頼度＾ｒ^Ψを予測する。信頼度予測部４２８は、信頼度を予測するモデルとして、例えば、ＣＮＮ（Convolution Neural Network）、ＬＳＴＭ（Long Short-Term Memory）、ＲＮＮ（Recurrent Neural Network）などのニューラルネットワークを用いる。

更新部４２６は、所定基準を満たすまで、各ニューラルネットワークのパラメータを更新し、学習データ選択部２２５、特徴量変換部２３０、補助情報生成部２２４、信頼度予測部４２８及び音声信号処理部２２１の処理を繰り返し実行させることによって、所定基準を満たす各ニューラルネットワークのパラメータを設定する。更新部４２６は、信頼度予測部４２８によって予測された各学習用の目的話者の音声信号の処理に関する複数の信号の信頼度と、予め求められた各学習用の目的話者の音声信号の処理に関する複数の信号の信頼度と、音声信号処理部２２１が推定した学習用の混合音声信号に含まれる目的話者の音声信号と、学習用の混合音声信号に含まれる目的話者の音声の教師信号とに基づいた目的関数を最適化するように各ニューラルネットワークのパラメータを更新する。目的関数は、例えば、後述する式（９）のような損失関数である。

更新部４２６は、信頼度予測部４２８によって予測された各学習用の目的話者の音声信号の処理に関する複数の信号の信頼度＾ｒ^Ψと、予め求められた各学習用の目的話者の音声信号の処理に関する複数の信号の信頼度ｒ^Ψ（各真の信頼度）と、音声信号処理部２２１が推定した学習用の混合音声信号に含まれる目的話者の音声信号＾ｘと、学習用の混合音声信号に含まれる目的話者の音声の教師信号（真の目的話者音声）ｘとを入力する。そして、更新部４２６は、これらの情報に基づいた損失を計算し、計算した損失が所定の値未満となるようになるように、ニューラルネットワークに対してマルチタスク学習を実行させることで、各ニューラルネットワークのパラメータを更新する。

各学習用の目的話者の音声信号の処理に関する複数の信号の信頼度として、例えば、例えば、混合音声信号収録時の話者の映像情報については、口周辺の領域のうち、手などで遮蔽されていない領域の割合とすることができる。すなわち、口周辺の領域の遮蔽がなければ1であり、全領域が遮蔽されていれば0である。

学習には一般的にニューラルネットワークの学習に用いられる逆伝搬などの公知の技術を用いることができる。実施の形態４では、例えば、損失関数Ｌとして、信頼度予測部４２８によって予測された各学習用の目的話者の音声信号の処理に関する複数の信号の信頼度＾ｒ^Ψと、予め求められた各学習用の目的話者の音声信号の処理に関する複数の信号の信頼度ｒ^Ψと、音声信号処理部２２１が推定した学習用の混合音声信号に含まれる目的話者の音声信号＾ｘと、学習用の混合音声信号に含まれる目的話者の音声の教師信号ｘとを用いて、式（９）のように設計する。

ここで、ｄ_１，ｄ_３はそれぞれ距離尺度であり、ｄ_１として、例えば、scale invariant signal to distortion ratioなどを用いることができ、ｄ_３として、例えばmean square errorを各時刻において計算したものの平均とすることなどができる。

［学習処理］
次に、実施の形態４に係る学習処理について説明する。図１２は、実施の形態４に係る学習処理の処理手順を示すフローチャートである。

図１２に示すステップＳ７１～ステップＳ８０は、図８に示すステップＳ４１～ステップＳ５０と同じ処理である。信頼度予測部４２８は、特徴量変換部２３０によって変換された各補助特徴量を基に、学習用の目的話者の音声信号の処理に関する複数の信号のそれぞれの各時刻における信頼度を予測する処理を行う（ステップＳ８１）。ステップＳ８２，Ｓ８３は、図８に示すステップＳ５１，Ｓ５２と同じ処理である。ステップＳ８４は、ステップＳ５３と同じ処理であり、更新部４２６は、所定基準として損失関数の値を用いる際には、式（９）に示す損失関数Ｌの値を用いる。ステップＳ８５は、図８に示すステップＳ５４と同じ処理である。

［実施の形態４の効果］
このように、実施の形態４においては、信頼度予測部４２８によって予測された学習用の目的話者の音声信号の処理に関する複数の信号のそれぞれの各時刻における信頼度と、予め求められた各学習用の目的話者の音声信号の処理に関する複数の信号の信頼度とをさらに用いて、マルチタスク学習を行うため、attention機構がより効果的に学習され、目的話者の音声信号の抽出性能が向上する。

［実施の形態５］
次に、実施の形態５に係る音声信号処理装置について説明する。図１３は、実施の形態５に係る音声信号処理装置の構成の一例を示す図である。実施の形態５に係る音声信号処理装置５１０は、例えば、ＲＯＭ、ＲＡＭ、ＣＰＵ等を含むコンピュータ等に所定のプログラムが読み込まれて、ＣＰＵが所定のプログラムを実行することで実現される。音声信号処理装置５１０は、音声信号処理部５１１、特徴量変換部５３０及び補助情報生成部５１４（生成部）を有する。

音声信号処理部５１１は、図５に示す音声信号処理部２２１と同じ機能を有する。補助情報生成部５１４は、図５に示す補助情報生成部２２４と同じ機能を有する。補助情報生成部５１４は、図７に示す補助情報生成部２２４と同様の構成（normalized attentionの適用あり）であってもよく、また、図７に示す補助情報生成部２２４から正規化部２２４２及びスケーリング部２２４４を省いた構成（normalized attentionの適用なし）でもよい。特徴量変換部５３０は、図５に示す第１補助特徴量変換部２２２と同じ機能を有する第１補助特徴量変換部５１２、図１に示す第２補助特徴量変換部２２３と同じ機能を有する第２補助特徴量変換部５１３、及び、第３補助ニューラルネットワークを用いて、入力される目的話者の他の手がかり情報を第３補助特徴量に変換する第３補助特徴量変換部５１７を有する。音声信号処理部５１１、特徴量変換部５３０及び補助情報生成部５１４が有する各ニューラルネットワークのパラメータは、学習装置２２０、学習装置３２０または学習装置４２０によって設定されたものである。

［評価実験］
評価用に、LRS3-TED（Lip Reading Sentences 3）音声-映像コーパスに基づく混合音声信号のシミュレーションデータセットを生成した。データセットは、０～５ｄＢのＳＮＲ（Signal to Noise Ratio）での混合発話によって生成された２話者の混合音声信号を含むデータセットである。実施の形態１に係る音声信号処理の精度と、実施の形態５に係る音声信号処理の精度を比較した結果を表３に示す。

表３において、「No.1」は、複数の補助特徴量を重みづけせずに加算した補助特徴量を適用した場合に対応する。また、「No.2」は、実施の形態１に係る音声信号処理装置１０であって複数の補助特徴量を各補助特徴量に対応する注意重みをそれぞれ乗じた重みづけ和を補助特徴量として適用した場合対応する。「No.3」～「No.7」は、実施の形態５に係る音声信号処理装置５１０に対応する。

このうち、「No.3」は、学習装置２２０によって各ニューラルネットワークのパラメータが設定された場合（normalized attention）に対応し、「No.4」は、学習装置３２０によって各ニューラルネットワークのパラメータが設定された場合（attention guided training、ただしnormalized attention適用なし）に対応し、「No.5」は、学習装置４２０によって各ニューラルネットワークのパラメータが設定された場合（clue condition aware training、ただしnormalized attention適用なし）に対応し、「No.6」は、学習装置３２０によって各ニューラルネットワークのパラメータが設定された場合（attention guided training、normalized attention適用あり）に対応し、「No.7」は、学習装置４２０によって各ニューラルネットワークのパラメータが設定された場合（clue condition aware training、ただしnormalized attention適用あり）に対応する。

「No.3」～「No.7」は、各ニューラルネットワークのパラメータが学習装置２２０，３２０，４２０のいずれによって設定された場合も、「No.2」よりもよい結果を示した。そして、「No.6」，「No.7」に示すように、attention guided training及びclue condition aware trainingのマルチタスク学習を適用した場合については、さらに、normalized attention（ノルム正規化）を適用することで精度を高めることができることがわかった。このように、実施の形態５に係る音声信号処理装置５１０は、実施の形態１よりもさらに音声信号処理の精度を高めることができる。

なお、「モーダル」という言葉は、システム（装置）への入力情報の種類（画像、音声、テキスト、センサデータ、統計情報など）を意味し、「マルチモーダル」とは、様々な種類の入力情報を利用することを指す。情報が取得される際の、カメラやマイク等の各手段から得られる情報を、それぞれのモーダルと呼ぶ。

［システム構成等］
図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。例えば、音声信号処理装置１０，５１０及び学習装置２０，２２０，３２０，４２０は、一体の装置であってもよい。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、ＣＰＵ及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部又は一部を公知の方法で自動的におこなうこともできる。また、本実施形態において説明した各処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
図１４は、プログラムが実行されることにより、音声信号処理装置１０，５１０及び学習装置２０，２２０，３２０，４２０が実現されるコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０３１に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１０４１に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１０４１に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

ハードディスクドライブ１０３１は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、音声信号処理装置１０，５１０及び学習装置２０，２２０，３２０，４２０の各処理を規定するプログラムは、コンピュータ１０００により実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０３１に記憶される。例えば、音声信号処理装置１０，５１０及び学習装置２０，２２０，３２０，４２０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０３１に記憶される。なお、ハードディスクドライブ１０３１は、ＳＳＤ（Solid State Drive）により代替されてもよい。

また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０３１に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０３１に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０３１に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１０４１等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。また、音声信号処理装置１０，５１０及び学習装置２０，２２０，３２０，４２０において使用するニューラルネットワークの処理は、ＧＰＵを用いて実行される場合もある。

以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例及び運用技術等は全て本発明の範疇に含まれる。

１０，５１０音声信号処理装置
２０，２２０，３２０，４２０学習装置
１１、２１，２２１，５１１音声信号処理部
１２，２２，２２２，５１２第１補助特徴量変換部
１３，２３，２２３，５１３第２補助特徴量変換部
１４，２４，２２４，５１４補助情報生成部
２５，２２５学習データ選択部
２６，２２６，３２６，４２６更新部
１１１，２１１第１変換部
１１２，２１２，２２１２統合部
１１３，２１３第２変換部
２３０，５３０特徴量変換部
２２７，５１７第３補助特徴変換部
４２８信頼度予測部
２２４１注意重み計算部
２２４２正規化部
２２４３集約部
２２４４スケーリング部

Claims

目的話者の音声信号の処理に関する複数の信号を、前記複数の信号の各々に対応する複数の補助ニューラルネットワークを用いて、前記信号ごとにそれぞれ複数の補助特徴量に変換する補助特徴量変換部と、
メインニューラルネットワークを用いて、入力された混合音声信号の特徴量及び前記複数の補助特徴量を基に、前記混合音声信号に含まれる前記目的話者の音声信号に関する情報を推定する音声信号処理部と、
を有し、
前記目的話者の音声信号の処理に関する前記複数の信号とは、モーダルの異なる２つ以上の情報であることを特徴とする音声信号処理装置。
前記補助特徴量変換部は、
第１補助ニューラルネットワークを用いて、入力された第１の信号を第１補助特徴量に変換する第１補助特徴量変換部と、
第２補助ニューラルネットワークを用いて、入力された第２の信号を第２補助特徴量に変換する第２補助特徴量変換部と、
を有し、
前記音声信号処理部は、
前記メインニューラルネットワークを用いて、前記入力された混合音声信号の特徴量、前記第１補助特徴量及び前記第２補助特徴量を基に、前記混合音声信号に含まれる目的話者の音声信号を抽出するためのマスク情報を推定し、
前記第１の信号は、前記混合音声信号とは異なる時点において、前記目的話者が単独で発話したときの音声信号であり、
前記第２の信号は、前記混合音声信号が発声されるシーンにおける話者の映像情報である
ことを特徴とする請求項１に記載の音声信号処理装置。
前記第１補助特徴量及び前記第２補助特徴量を基に補助情報を生成する生成部をさらに有し、
前記音声信号処理部は、第１メインニューラルネットワークを用いて前記混合音声信号を変換して得た第１中間特徴量と、前記補助情報とを統合して生成した第２中間特徴量を、入力とし、第２メインニューラルネットワークにより前記混合音声信号に含まれる目的話者の音声信号を抽出するためのマスク情報に変換することを特徴とする請求項２に記載の音声信号処理装置。
音声信号処理装置が実行する音声信号処理方法であって、
目的話者の音声信号の抽出に関する複数の信号を、複数の補助ニューラルネットワークを用いて、前記信号ごとにそれぞれ複数の補助特徴量に変換する工程と、
メインニューラルネットワークを用いて、入力された混合音声信号の特徴量及び前記複数の補助特徴量を基に、前記混合音声信号に含まれる前記目的話者の音声信号に関する情報を推定する工程と、
を含んだことを特徴とする音声信号処理方法。
コンピュータを、請求項１～３のいずれか一つに記載の音声信号処理装置として機能させるための音声信号処理プログラム。
学習データの中から、学習用の混合音声信号及び学習用の目的話者の音声信号の処理に関する複数の信号を選択する選択部と、
前記学習用の目的話者の音声信号の処理に関する複数の信号を、前記複数の信号の各々に対応する複数の補助ニューラルネットワークを用いて、前記信号ごとにそれぞれ複数の補助特徴量に変換する特徴量変換部と、
メインニューラルネットワークを用いて、前記学習用の混合音声信号の特徴量及び前記複数の補助特徴量を基に、前記学習用の混合音声信号に含まれる目的話者の音声信号の処理に関する情報を推定する音声信号処理部と、
所定基準を満たすまで、各ニューラルネットワークのパラメータを更新し、前記選択部と前記特徴量変換部と前記音声信号処理部との処理を繰り返し実行させることによって、前記所定基準を満たす各ニューラルネットワークのパラメータを設定する更新部と、
を有し、
前記目的話者の音声信号の処理に関する前記複数の信号とは、モーダルの異なる２つ以上の情報であることを特徴とする学習装置。
前記選択部は、前記学習データの中から、前記学習用の混合音声信号、学習用の目的話者の音声信号及び学習用の混合音声信号収録時の話者の映像情報を選択し、
前記特徴量変換部は、
第１補助ニューラルネットワークを用いて、前記目的話者の音声信号を第１補助特徴量に変換する第１補助特徴量変換部と、
第２補助ニューラルネットワークを用いて、前記学習用の混合音声信号収録時の話者の映像情報を第２補助特徴量に変換する第２補助特徴量変換部と、
を有し、
前記音声信号処理部は、前記メインニューラルネットワークを用いて、前記学習用の混合音声信号の特徴量、前記第１補助特徴量及び前記第２補助特徴量を基に、前記学習用の混合音声信号に含まれる目的話者の音声信号に関する情報を推定し、
前記更新部は、所定基準を満たすまで、各ニューラルネットワークのパラメータを更新し、前記選択部、前記第１補助特徴量変換部、前記第２補助特徴量変換部及び前記音声信号処理部の処理を繰り返し実行させることによって、前記所定基準を満たす各ニューラルネットワークのパラメータを設定することを特徴とする請求項６に記載の学習装置。
前記更新部は、前記音声信号処理部が、前記学習用の混合音声信号の特徴量と前記第１補助特徴量と前記第２補助特徴量とを用いて推定した前記学習用の混合音声信号に含まれる目的話者の音声の、教師信号に対する第１損失と、前記音声信号処理部が、前記学習用の混合音声信号の特徴量と前記第１補助特徴量とを基に推定した前記学習用の混合音声信号に含まれる目的話者の音声の、教師信号に対する第２損失と、前記学習用の混合音声信号の特徴量と前記第２補助特徴量とを基に推定した前記学習用の混合音声信号に含まれる目的話者の音声の、教師信号に対する第３損失と、の重み付け和が小さくなるように各ニューラルネットワークのパラメータを更新することを特徴とする請求項７に記載の学習装置。
ニューラルネットワークを用いて、前記複数の補助特徴量に各補助特徴量に対応する注意重みをそれぞれ乗じた重みづけ和を生成する補助情報生成部をさらに有し、
前記音声信号処理部は、前記メインニューラルネットワークを構成する第１メインニューラルネットワークを用いて前記混合音声信号を変換して得た第１中間特徴量と、前記重みづけ和とを統合して生成した第２中間特徴量を、入力とし、前記メインニューラルネットワークを構成する第２メインニューラルネットワークにより前記学習用の混合音声信号に含まれる目的話者の音声信号に関する情報を推定し、
前記補助情報生成部は、
前記第１中間特徴量と前記複数の補助特徴量とを基に、各補助特徴量にそれぞれ対応する注意重みを計算する注意重み計算部と、
前記複数の補助特徴量に、前記注意重み計算部によって計算された各補助特徴量に対応する注意重みをそれぞれ乗じた重みづけ和を計算する集約部と、
を有することを特徴とする請求項６に記載の学習装置。
前記補助情報生成部は、
各補助特徴量に対し、ノルムの正規化を行う正規化部と、
前記正規化前のノルムの大きさを基に計算されたスケールを乗じた前記重みづけ和を、前記音声信号処理部に出力するスケーリング部と、
をさらに有し、
前記集約部は、正規化された前記複数の補助特徴量に、前記注意重み計算部によって計算された各補助特徴量に対応する注意重みをそれぞれ乗じた重みづけ和を計算することを特徴とする請求項９に記載の学習装置。
前記音声信号処理部は、前記学習用の混合音声信号に含まれる目的話者の音声信号を推定し、
前記更新部は、前記注意重み計算部によって計算された各補助特徴量に対応する注意重みと、予め設定された各補助特徴量に対応する望ましい注意重みの値と、前記音声信号処理部が推定した前記学習用の混合音声信号に含まれる目的話者の音声信号と、前記学習用の混合音声信号に含まれる目的話者の音声の教師信号とに基づいた目的関数を最適化するように各ニューラルネットワークのパラメータを更新することを特徴とする請求項９または１０に記載の学習装置。
ニューラルネットワークを用いて、前記複数の補助特徴量を基に、前記学習用の目的話者の音声信号の処理に関する複数の信号のそれぞれの信頼度を予測する予測部をさらに有し、
前記音声信号処理部は、前記学習用の混合音声信号に含まれる目的話者の音声信号を推定し、
前記更新部は、前記予測部によって予測された各学習用の目的話者の音声信号の処理に関する複数の信号の信頼度と、予め求められた各学習用の目的話者の音声信号の処理に関する複数の信号の信頼度と、前記音声信号処理部が推定した前記学習用の混合音声信号に含まれる目的話者の音声信号と、前記学習用の混合音声信号に含まれる目的話者の音声の教師信号とに基づいた目的関数を最適化するように各ニューラルネットワークのパラメータを更新することを特徴とする請求項９または１０に記載の学習装置。
学習装置が実行する学習方法であって、
学習データの中から、学習用の混合音声信号及び学習用の目的話者の音声信号の処理に関する複数の信号を選択する工程と、
前記学習用の目的話者の音声信号の処理に関する複数の信号を、複数の補助ニューラルネットワークを用いて、前記信号ごとにそれぞれ複数の補助特徴量に変換する工程と、
メインニューラルネットワークを用いて、前記学習用の混合音声信号の特徴量及び前記複数の補助特徴量を基に、前記学習用の混合音声信号に含まれる目的話者の音声信号の処理に関する情報を推定する工程と、
所定基準を満たすまで、各ニューラルネットワークのパラメータを更新し、前記選択する工程と前記変換する工程と前記推定する工程を繰り返し実行させることによって、前記所定基準を満たす各ニューラルネットワークのパラメータを設定する工程と、
を含んだことを特徴とする学習方法。
コンピュータを、請求項６～１２のいずれか一つに記載の学習装置として機能させるための学習プログラム。