JP7205635B2 - 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム - Google Patents

音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム Download PDF

Info

Publication number
JP7205635B2
JP7205635B2 JP2021540733A JP2021540733A JP7205635B2 JP 7205635 B2 JP7205635 B2 JP 7205635B2 JP 2021540733 A JP2021540733 A JP 2021540733A JP 2021540733 A JP2021540733 A JP 2021540733A JP 7205635 B2 JP7205635 B2 JP 7205635B2
Authority
JP
Japan
Prior art keywords
speech signal
auxiliary
learning
unit
target speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021540733A
Other languages
English (en)
Other versions
JPWO2021033587A1 (ja
Inventor
宏 佐藤
翼 落合
慶介 木下
マーク デルクロア
智広 中谷
厚徳 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2021033587A1 publication Critical patent/JPWO2021033587A1/ja
Application granted granted Critical
Publication of JP7205635B2 publication Critical patent/JP7205635B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Description

特許法第30条第2項適用 2019年9月15~19日にGraz,Austriaで開催されたINTERSPEECH2019にて公開
本発明は、音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラムに関する。
ニューラルネットワークを用いて混合音声信号から目的とする話者(目的話者)の音声信号を抽出する技術の開発が進められている。多くの目的話者抽出技術における従来のニューラルネットワークは、メインのニューラルネットワークと補助ニューラルネットワークとを有する構成を備える。
例えば、従来の目的話者抽出技術は、目的話者の手がかりとなる事前情報を補助ニューラルネットワークに入力することによって補助特徴量を抽出する。そして、従来の目的話者抽出技術は、入力された混合音声信号と補助特徴量とに基づいて、メインのニューラルネットワークにより、混合音声信号に含まれる目的話者の音声信号を抽出するためのマスク情報を推定する。このマスク情報を用いることによって、入力混合音声信号から目的話者の音声信号を抽出することができる。
このとき、目的話者の音声を抽出するための手がかりとして、事前録音された目的話者の音声信号を補助ニューラルネットワークに入力する方法(例えば、非特許文献1参照)と、目的話者の映像(主に、口周り)を補助ニューラルネットワークに入力する方法(例えば、非特許文献2参照)が知られている。
M. Delcroix, K. Zmolikova, K. Kinoshita, A. Ogawa, and T. Nakatani, "SINGLE CHANNEL TARGET SPEAKER EXTRACTION AND RECOGNITION WITH SPEAKER BEAM", in Proc. of ICASSP’18, pp.5554-5558, 2018. A. Ephrat, I. Mosseri, O. Lang, T. Dekel, K. Wilson, A. Hassidim, W. T. Freeman, and M. Rubinstein, "Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation", ACM Trans. on Graphics, Vol. 37, No. 4, 2018.
非特許文献1記載の技術では、音声信号における話者性を活用する都合上、混合音声信号内に声の性質が似た話者が存在する場合に、補助特徴量の抽出精度が低下してしまうという問題がある。一方、非特許文献2記載の技術では、口周りの映像に由来する言語関連の情報を活用するため、似た声の話者を含む混合音声信号に対しても比較的頑健に動作することが期待される。
また、非特許文献1記載の技術における話者手がかり(音声)は、一度事前録音さえしてしまえば、安定した品質で補助特徴量を抽出可能である。これに対し、非特許文献2記載の技術における話者手がかり(映像)は、時刻ごとの話者の動きによって品質が大きく異なってしまうため、常に精度よく目的話者の信号を抽出できるとは限らないという問題がある。
非特許文献2記載の技術では、例えば、話者の顔の向きが変化したり、他の話者や物が目的話者の前景に映りこむことで目的話者の一部が隠れてしまったりする結果、必ずしも一定の品質で話者の口の動きの情報が取れるとは限らない。この結果、非特許文献2記載の技術では、品質の悪い映像情報から得た補助情報を頼りにマスク情報を推定することによって、マスクの推定精度が低下してしまう可能性がある。
本発明は、上記に鑑みてなされたものであって、混合音声信号に含まれる目的話者の音声信号を安定した精度で推定することができる音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明に係る音声信号処理装置は、目的話者の音声信号の処理に関する複数の信号を、複数の補助ニューラルネットワークを用いて、信号ごとにそれぞれ複数の補助特徴量に変換する補助特徴量変換部と、メインニューラルネットワークを用いて、入力された混合音声信号の特徴量及び複数の補助特徴量を基に、混合音声信号に含まれる目的話者の音声信号に関する情報を推定する音声信号処理部と、を有することを特徴とする。
また、本発明に係る学習装置は、学習データの中から、学習用の混合音声信号及び学習用の目的話者の音声信号の処理に関する複数の信号を選択する選択部と、学習用の目的話者の音声信号の処理に関する複数の信号を、複数の補助ニューラルネットワークを用いて、信号ごとにそれぞれ複数の補助特徴量に変換する補助特徴量変換部と、メインニューラルネットワークを用いて、学習用の混合音声信号の特徴量及び複数の補助特徴量を基に、学習用の混合音声信号に含まれる目的話者の音声信号の処理に関する情報を推定する音声信号処理部と、所定基準を満たすまで、各ニューラルネットワークのパラメータを更新し、選択部と補助特徴量変換部と音声信号処理部との処理を繰り返し実行させることによって、所定基準を満たす各ニューラルネットワークのパラメータを設定する更新部と、を有することを特徴とする。
本発明によれば、混合音声信号に含まれる目的話者の音声信号を安定した精度で推定することができる。
図1は、実施の形態1に係る音声信号処理装置の構成の一例を示す図である。 図2は、実施の形態1に係る学習装置の構成の一例を示す図である。 図3は、実施の形態1に係る音声信号処理の処理手順を示すフローチャートである。 図4は、実施の形態1に係る学習処理の処理手順を示すフローチャートである。 図5は、実施の形態2に係る学習装置の構成の一例を示す図である。 図6は、図5に示す音声信号処理部の一例を示す図である。 図7は、図5に示す補助情報生成部の構成の一例を示す図である。 図8は、実施の形態2に係る学習処理の処理手順を示すフローチャートである。 図9は、図8に示す補助特徴量生成処理の処理手順を示すフローチャートである。 図10は、実施の形態3に係る学習装置の構成の一例を示す図である。 図11は、実施の形態4に係る学習装置の構成の一例を示す図である。 図12は、実施の形態4に係る学習処理の処理手順を示すフローチャートである。 図13は、実施の形態5に係る音声信号処理装置の構成の一例を示す図である。 図14は、プログラムが実行されることにより、音声信号処理装置或いは学習装置が実現されるコンピュータの一例を示す図である。
以下に、本願に係る音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。
なお、以下では、ベクトル、行列又はスカラーであるAに対し、“^A”と記載する場合は「“A”の直上に“^”が記された記号」と同等であるとする。
[実施の形態1]
[音声信号処理装置]
まず、実施の形態1に係る音声信号処理装置について説明する。本実施の形態1に係る音声信号処理装置は、目的話者の音声信号の他に、入力される混合音声信号収録時の話者の映像情報を用いて補助情報を生成する。言い換えると、本実施の形態1に係る音声信号処理装置は、混合音声信号に含まれる目的話者の音声信号に関する情報を推定するメインニューラルネットワークに加え、2つの補助ニューラルネットワーク(第1補助ニューラルネットワーク及び第2補助ニューラルネットワーク)と、これら2つの補助ニューラルネットワークの出力を用いて1つの補助情報を生成する補助情報生成部とを有する。
図1は、実施の形態1に係る音声信号処理装置の構成の一例を示す図である。実施の形態1に係る音声信号処理装置10は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、CPU(Central Processing Unit)等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。
図1に示すように、音声信号処理装置10は、音声信号処理部11、第1補助特徴量変換部12、第2補助特徴量変換部13及び補助情報生成部14(生成部)を有する。音声信号処理装置10には、複数の音源からの音声を含む混合音声信号が入力される。さらに、音声信号処理装置10には、目的話者の音声信号、及び、入力された混合音声信号収録時の話者の映像情報が入力される。ここで、目的話者の音声信号とは、混合音声信号を取得しているシーンとは別のシーン(場所、時刻)において、目的話者が単独で発話したものを録音した信号である。目的話者の音声信号には、他の話者の音声は含まれないが、背景雑音等は含まれていてもよい。また、混合音声信号収録時の話者の映像情報は、音声信号処理装置10の処理対象である混合音声信号を取得しているシーンにおける少なくとも目的話者を含む映像、例えば、その場にいる目的話者の様子を撮影した映像である。音声信号処理装置10は、混合音声信号に含まれる目的話者の音声信号に関する情報を推定して出力する。
第1補助特徴量変換部12は、第1補助ニューラルネットワークを用いて、入力話者の目的話者の音声信号を第1補助特徴量Z に変換する。第1補助ニューラルネットワークは、入力された音声信号から特徴量を抽出するように学習させたSCnet(Speaker Clue extraction network)である。第1補助特徴量変換部12は、入力された目的話者の音声信号を第1補助ニューラルネットワークに入力することによって、目的話者の音声信号を第1補助特徴量Z に変換して出力する。目的話者の音声信号としては、例えば、予め録音しておいた目的話者単独の音声信号に短時間フーリエ変換(STFT:Short-Time Fourier Transform)を適用して得た振幅スペクトル特徴量C の系列を用いる。なお、sは、話者のインデックスを表す。
第2補助特徴量変換部13は、第2補助ニューラルネットワークを用いて、入力される混合音声信号収録時の話者の映像情報を第2補助特徴量Z (Z =zst ;t=1,2,・・・,T)に変換する。第2補助ニューラルネットワークは、話者の映像情報から特徴量を抽出するように学習させたSCnetである。第2補助特徴量変換部13は、混合音声信号収録時の話者の映像情報を第2補助ニューラルネットワークに入力することによって、混合音声信号収録時の話者の映像情報を第2補助特徴量Z に変換して出力する。
混合音声信号収録時の話者の映像情報としては、例えば、非特許文献1と同じ映像情報を用いればよい。具体的には、混合音声信号収録時の話者の映像情報として、映像から顔領域を抽出するように予め学習されたモデルを用いて、映像情報から目的話者の顔領域を抽出する際に得られる目的話者の顔領域に対応する埋め込みベクトル(face embedding vector)C を用いる。埋め込みベクトルは、例えば、参考文献1のFacenetで得られる特徴量である。映像情報のフレームが、混合音声信号のフレームと異なる場合には、映像情報のフレームを繰り返し配置して、フレーム数を合わせればよい。
参考文献1:F. Schroff, D. Kalenichenko, and J. Philbin, “Facenet: A unified embedding for face recognition and clustering”, in IEEE conf. on computer and pattern recognition (CVPR), pp. 815-823, 2015.
補助情報生成部14は、第1補助特徴量Z 及び第2補助特徴量Z を基に補助特徴量Z AV(Z AV=st AV;t=1,2,・・・,T)を生成する。Tは、時間フレームの数を示す。補助情報生成部14は、式(1)に示すように、第1補助特徴量Z と第2補助特徴量Z とにそれぞれ注意重みを乗じた重みづけ和を、補助特徴量として出力するような注意機構により実現される。
Figure 0007205635000001
ここで、注意重み{αΨ st}は、参考文献2に示されるような手法で予め学習しておく。
参考文献2:D. Bahdanau, K. Cho, and Y. Bengio, “Neural machine translation by jointly learning to aligh and translate”, in International Conf. on Learning Representations (ICLR), 2015.
また、注意重み{αΨ stΨ∈{A,V}は、混合音声信号の第1中間特徴量z と目的話者の特徴量{zΨ stΨ∈{A,V}とを用いて、式(2)、式(3)のように計算される。w、W,V,vは、学習済みの重み、バイアスパラメータである。
Figure 0007205635000002
Figure 0007205635000003
音声信号処理部11は、メインニューラルネットワークを用いて、混合音声信号に含まれる目的話者の音声信号に関する情報を推定する。目的話者の音声信号に関する情報とは、例えば、混合音声信号から目的話者の音声を抽出するためのマスク情報、あるいは、混合音声信号に含まれる目的話者の音声信号の推定結果そのものである。音声信号処理部11は、入力された混合音声信号の特徴量、第1補助特徴量変換部12によって変換された第1補助特徴量、及び、第2補助特徴量変換部13によって変換された第2補助特徴量を基に、混合音声信号に含まれる目的話者の音声信号に関する情報を推定する。音声信号処理部11は、第1変換部111、統合部112及び第2変換部113を有する。
第1変換部111は、第1メインニューラルネットワークを用いて、入力された混合音声信号Yを、第1中間特徴量Z(Z M= ;t=1,2,・・・,T)に変換して出力する。第1メインニューラルネットワークは、混合音声信号を第1中間特徴量に変換する、学習済みのディープニューラルネットワーク(DNN)である。入力混合音声信号Yとしては、たとえば、STFTを適用して得た情報を用いる。
統合部112は、式(4)に示すように、第1変換部111が変換した第1中間特徴量Zと、補助情報生成部14が生成した補助情報Z AVとを統合して第2中間特徴量I(I st;t=1,2,・・・,T)を生成する。
Figure 0007205635000004
第2変換部113は、第2メインニューラルネットワークを用いて、混合音声信号に含まれる目的話者の音声信号に関する情報を推定する。第2メインニューラルネットワークは、入力された特徴量を基にマスク情報を推定するニューラルネットワークである。第2変換部113は、第2中間特徴量Iを第2メインニューラルネットワークの入力とし、第2メインニューラルネットワークの出力を混合音声信号に含まれる目的話者の音声信号に関する情報として出力する。
第2ニューラルネットワークは、例えば、学習済みのDNNと後続する線形変換層と、活性化層とから構成され、DNNにより第2中間特徴量を第3中間特徴量へ変換した後、線形変換層によりこれを第4中間特徴量へ変換し、第4中間特徴量にシグモイド関数を適用して出力である混合音声信号に含まれる目的話者の音声信号に関する情報を推定する。
混合音声信号に含まれる目的話者の音声信号に関する情報がマスク情報Mである場合には、式(5)のように混合音声信号Yにマスク情報Mを適用することによって、目的話者の音声信号^Xが得られる。なお、混合音声信号に含まれる目的話者の音声信号に関する情報として直接目的話者の音声信号の推定結果^Xを出力するように、メインニューラルネットワークを構成することも可能である。これは、後述の学習装置の学習のさせ方を変えることで実現できる。
Figure 0007205635000005
[学習装置]
次に、音声信号処理装置10で用いられる各ニューラルネットワークの学習を行うための学習装置の構成を説明する。図2は、実施の形態1に係る学習装置の構成の一例を示す図である。
実施の形態1に係る学習装置20は、例えば、ROM、RAM、CPU等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。図2に示すように、学習装置20は、音声信号処理部21、第1補助特徴量変換部22、第2補助特徴量変換部23、補助情報生成部24、学習データ選択部25及び更新部26を有する。また、音声信号処理部21は、第1変換部211、統合部212及び第2変換部213を有する。
学習装置20の各処理部は、学習データ選択部25及び更新部26を除き、音声信号処理装置10の同名の処理部と同様の処理を行う。また、学習装置20に入力される混合音声信号、目的話者の音声信号、及び、入力された混合音声信号収録時の話者の映像情報は学習データであり、混合音声信号に含まれる目的話者単独の音声信号が既知であるものとする。また、学習装置20の各ニューラルネットワークのパラメータには、予め適当な初期値が設定されている。
学習データ選択部25は、学習データの中から、学習用の混合音声信号、目的話者の音声信号及び学習用の混合音声信号収録時の話者の映像情報の組を選択する。学習データは、予め学習用に用意された、混合音声信号、目的話者の音声信号及び混合音声信号収録時の話者の映像情報の組を複数含むデータ集合である。そして、学習データ選択部25は、選択した学習用の混合音声信号、目的話者の音声信号及び学習用の混合音声信号収録時の話者の映像情報を、第1変換部211、第1補助特徴量変換部22及び第2補助特徴量変換部23にそれぞれ入力する。
更新部26は、各ニューラルネットワークのパラメータの学習を行う。更新部26は、メインニューラルネットワークの、第1補助ニューラルネットワーク及び第2補助ニューラルネットワークに対して、マルチタスク学習を実行させる。なお、更新部26は、各ニューラルネットワークに対して、シングルタスク学習を実行させることも可能である。後述する評価実験に示すように、更新部26が、各ニューラルネットワークにマルチタスク学習を実行させた場合、音声信号処理装置10は、目的話者の音声信号及び混合音声信号収録時の話者の映像情報のいずれか一方のみの入力であっても、高い精度を保持できる。
具体的には、更新部26は、所定基準を満たすまで、各ニューラルネットワークのパラメータを更新し、学習データ選択部25、第1補助特徴量変換部22、第2補助特徴量変換部23、補助情報生成部24及び音声信号処理部21の処理を繰り返し実行させることによって、所定基準を満たす各ニューラルネットワークのパラメータを設定する。このように設定された各ニューラルネットワークのパラメータの値が、音声信号処理装置10における各ニューラルネットワークのパラメータとして適用される。更新部26は、周知である誤差逆伝搬法などのパラメータ更新の手法を用いてパラメータの更新を行う。
所定基準は、例えば、予め定めた繰り返し回数に到達した場合である。所定基準は、パラメータの更新量が所定の値未満となった場合でもよい。或いは、所定基準は、パラメータ更新のために計算する損失関数LMTLの値が所定の値未満となった場合でもよい。
ここで、損失関数LMTLとして、式(6)に示すように、第1損失LAV、第2損失L及び第3損失Lの重み付け和を用いる。損失は、学習用データ中の混合音声信号に含まれる目的話者の音声信号の推定結果(推定話者音声信号)と、正解の目的話者の音声信号(教師信号)との距離である。第1損失LAVは、第1補助ニューラルネットワークと第2補助ニューラルネットワークとの双方を用いて推定話者音声信号を得た場合の損失である。第2損失Lは、第1補助ニューラルネットワークのみを推定話者音声信号を得た場合の損失である。第3損失Lは、第2補助ニューラルネットワークのみを用いて推定話者音声信号を得た場合の損失である。
Figure 0007205635000006
各損失の重みα,β,γは、少なくとも1つ以上の重みが非零となるように設定すればよい。このため、いずれかの重みα,β,γを0として、対応する損失は考慮しない形としてもよい。
ここで、音声信号処理装置の実施形態の説明において、メインニューラルネットワークの出力である「混合音声信号に含まれる目的話者の音声信号に関する情報」は、混合音声信号から目的話者の音声信号を抽出するためのマスク情報とすることもできるし、混合音声信号に含まれる目的話者の音声信号の推定結果そのものとすることもできる旨を説明した。
メインニューラルネットワークの出力がマスク情報となるようにニューラルネットワークを学習させる場合は、本学習装置におけるメインニューラルネットワークの出力をマスク情報の推定結果とみなして、当該推定されたマスク情報を式(5)のように混合音声信号に適用することで推定話者音声信号を求め、この推定話者音声信号と教師信号との距離を上記損失として計算する。
メインニューラルネットワークの出力が、混合音声信号に含まれる目的話者の音声信号の推定結果となるようにニューラルネットワークを学習させる場合は、本学習装置におけるメインニューラルネットワークの出力を推定話者音声信号とみなして、上記損失を計算すればよい。
このように、第1補助ニューラルネットワークのパラメータ、第2補助ニューラルネットワークのパラメータ及びメインニューラルネットワークのパラメータは、音声信号処理部11が、学習用の混合音声信号の特徴量と第1補助特徴量と学習用の混合音声信号の収録時の話者の映像情報から変換された第2補助特徴量とを用いて推定した推定話者音声信号に対する第1損失と、音声信号処理部11が、学習用の混合音声信号の特徴量と第1補助特徴量とを基に推定した推定話者音声信号に対する第2損失と、音声信号処理部11が、学習用の混合音声信号の特徴量と第2補助特徴量とを基に推定した推定話者音声信号に対する第3損失と、の重み付け和を小さくするように、各パラメータを更新していくことにより学習させる。
[音声信号処理の処理手順]
次に、音声信号処理装置10が実行する音声信号処理の流れについて説明する。図3は、実施の形態に係る音声信号処理の処理手順を示すフローチャートである。
図3に示すように、音声信号処理装置10は、混合音声信号、目的話者の音声信号、及び、入力された混合音声信号収録時の話者の映像情報の入力を受け付ける(ステップS1,S3,S5)。
第1変換部111は、第1メインニューラルネットワークを用いて、入力された混合音声信号Yを、第1中間特徴量に変換する(ステップS2)。第1補助特徴量変換部12は、第1補助ニューラルネットワークを用いて、入力された話者の目的話者の音声信号を第1補助特徴量に変換する(ステップS4)。第2補助特徴量変換部13は、第2補助ニューラルネットワークを用いて、入力された混合音声信号収録時の話者の映像情報を第2補助特徴量に変換する(ステップS6)。補助情報生成部14は、第1補助特徴量及び第2補助特徴量を基に補助特徴量を生成する(ステップS7)。
統合部112は、第1変換部111が変換した第1中間特徴量と、補助情報生成部14が生成した補助情報とを統合して第2中間特徴量を生成する(ステップS8)。第2変換部113は、第2メインニューラルネットワークを用いて、入力された第2中間特徴量を、混合音声信号に含まれる目的話者の音声信号に関する情報に変換する(ステップS9)。
[学習処理の処理手順]
次に、学習装置20が実行する学習処理の流れについて説明する。図4は、実施の形態に係る学習処理の処理手順を示すフローチャートである。
図4に示すように、学習データ選択部25は、学習データの中から、学習用の混合音声信号、目的話者の音声信号及び学習用の混合音声信号収録時の話者の映像情報の組を選択する(ステップS21)。学習データ選択部25は、選択した学習用の混合音声信号、目的話者の音声信号及び学習用の混合音声信号収録時の話者の映像情報を、第1変換部211、第1補助特徴量変換部22及び第2補助特徴量変換部23にそれぞれ入力する(ステップS22,S24,S26)。ステップS23,S25,S27~S30は、図3に示すステップS2,S4,S6~S9と同じ処理である。
更新部26は、所定基準を満たすか否かを判定する(ステップS31)。所定基準を満たさない場合(ステップS31:No)、更新部26は、各ニューラルネットワークのパラメータを更新し、ステップS21に戻り、学習データ選択部25、第1補助特徴量変換部22、第2補助特徴量変換部23、補助情報生成部24及び音声信号処理部21の処理を繰り返し実行させる。所定基準を満たす場合(ステップS31:Yes)、更新部26は、所定基準を満たした各パラメータを、学習済みの各ニューラルネットワークのパラメータとして設定する(ステップS32)。
[評価実験]
評価用に、LRS3-TED(Lip Reading Sentences 3)音声-映像コーパスに基づく混合音声信号のシミュレーションデータセットを生成した。データセットは、0.5dBのSNR(Signal to Noise Ratio)での混合発話によって生成された2話者の混合音声信号を含むデータセットである。また、本評価では、入力混合音声信号Yとして、混合音声信号に短時間フーリエ変換(STFT)を適用して得た情報を用いた。本評価では、目的話者の音声信号として、60msウィンドウ長と20msウィンドウシフトとで、音声信号にSTFTを適用して得た振幅スペクトル特徴量を使用した。本評価では、映像情報として、Facenetを用いて、毎ビデオフレーム(25fps、例えば、30msシフト)から抽出された、目的話者の顔領域に対応する埋め込みベクトルを使用した。
まず、従来手法と実施の形態の手法の音声信号処理の精度を比較した結果を表1に示す。
Figure 0007205635000007
表1において、「Baseline-A」は音声情報に基づく補助情報を使用する従来の音声信号処理方法であり、「Baseline-V」は、映像情報に基づく補助情報を使用する従来の音声信号処理方法であり、「SpeakerBeam-AV」は、音声情報及び映像情報のそれぞれに基づく2つ補助情報を使用する本実施の形態に係る音声信号処理方法である。表1は、これらの方法をそれぞれ用いて、混合音声信号から抽出した目的話者の音声信号に対するSDR(Signal-to-Distortion Ratio)を示す。また、「Same」は目的話者と他の話者の性別が同じであることを表している。また、「Diff」は、目的話者と他の話者の性別が異なることを表している。「All」は、全混合音声信号に対するSDRの平均を示す。
表1に示すように、SpeakerBeam-AVは、従来のBaseline-A,Baseline-Vと比して、いずれの条件においても、良い結果を示した。特に、従来の手法では精度が低くなりがちであったSame条件に対する結果についても、SpeakerBeam-AVは、Diff条件の結果により近い精度を示し、従来の手法と比して非常によい結果を示した。
次に、本実施の形態1に係る学習方法において、マルチタスク学習の実行の有無による、音声信号処理精度を評価した。表2は、本実施の形態1に係る学習方法において、マルチタスク学習を実行した場合と、マルチタスク学習ではなくシングルタスクでの学習を実行した場合における音声信号処理精度を比較した結果である。
Figure 0007205635000008
「SpeakerBeam-AV」は、音声信号処理装置10の各ニューラルネットワークに対してシングルタスクによる学習を実行された音声信号処理方法を示し、「SpeakerBeam-AV-MTL」は、音声信号処理装置10の各ニューラルネットワークに対してマルチタスクよる学習を実行された音声信号処理方法を示す。{α,β,γ}は、式(6)式における各損失の重みα,β,γである。「Clues」の「AV」は、補助情報として、目的話者の音声信号と混合音声信号収録時の話者の映像情報との双方が入力された場合を示し、「A」は、補助情報として、目的話者の音声信号のみが入力された場合を示し、「V」は、補助情報として、混合音声信号収録時の話者の映像情報のみが入力された場合を示す。
表2に示すように、SpeakerBeam-AVは、目的話者の音声信号と混合音声信号収録時の話者の映像情報との双方が補助情報として入力された場合には、一定の精度を保持することができる。しかしながら、SpeakerBeam-AVは、目的話者の音声信号と混合音声信号収録時の話者の映像情報との一方のみが補助情報として入力された場合には、精度を保持することができない。
これに対し、SpeakerBeam-AV-MTLは、目的話者の音声と混合音声信号収録時の話者の映像情報との一方のみが補助情報として入力された場合にも、一定の精度を保持することができる。また、SpeakerBeam-AV-MTLは、目的話者の音声と混合音声信号収録時の話者の映像情報との一方のみが補助情報として入力された場合であっても、従来のBaseline-A,Baseline-V(表1参照)よりも高い精度を保持している。
また、SpeakerBeam-AV-MTLは、目的話者の音声信号と混合音声信号収録時の話者の映像情報との双方が補助情報として入力された場合も、SpeakerBeam-AVと同等の精度を示す。したがって、SpeakerBeam-AV-MTLを適用したシステムであれば、補助情報として目的話者の音声信号と混合音声信号収録時の話者の映像情報との双方が入力された場合(AV)、補助情報として目的話者の音声信号のみが入力された場合(A)、補助情報として混合音声信号収録時の話者の映像情報のみが入力された場合(V)のいずれの場合についても、それぞれ対応するモードに切り替えるだけで、高精度での音声信号処理を実行することができる。
[実施の形態1の効果]
本実施の形態1に係る音声信号処理装置10は、補助情報として、目的話者の音声信号を第1補助ニューラルネットワークを用いて変換した第1補助特徴量と、入力される混合音声信号収録時の話者の映像情報を第2補助ニューラルネットワークを用いて変換した第2補助特徴量とを使用して、混合音声信号に含まれる目的話者の音声信号を抽出するためのマスク情報を推定する。
このように、音声信号処理装置10は、安定した品質で補助特徴量を抽出可能である第1補助特徴量と、似た声の話者を含む混合音声信号に対しても頑健である第2補助特徴量との双方を使用してマスク情報を推定するため、安定した精度でマスク情報を推定することができる。
また、本実施の形態1に係る学習装置20では、各ニューラルネットワークに対し、マルチタスク学習を実行させることによって、評価実験の結果にも示したように、目的話者の音声信号及び混合音声信号収録時の話者の映像情報のいずれか一方のみの入力であっても、音声信号処理装置10において高い精度を保持できる。
したがって、本実施の形態1によれば、混合音声信号に含まれる目的話者の音声信号を抽出するためのマスク情報を安定した精度で推定することができる。
[実施の形態2]
ここで、補助情報に使用する信号は、目的話者の音声信号と混合音声信号収録時の話者の映像情報との2つに限らず、目的話者の音声信号の抽出に関する複数の信号であってもよい。目的話者の音声信号の処理に関する複数の信号は、混合音声信号が発声されるシーンまたはは前記目的話者から取得される信号である。本実施の形態2以降では、補助情報に使用する目的話者の音声信号の処理に関する信号として、目的話者の音声信号と混合音声信号収録時の話者の映像情報の他に、目的話者の他の手がかりとなる情報を用いた例を説明する。
ここで、実施の形態1に記載した注意重み(attention)を用いることで、目的話者の音声信号の処理に関する複数の信号(手がかり情報)のうち、各時刻においていずれの情報を利用するかを、例えば、手がかり情報の信頼性などに基づいて、選択的に利用できることが期待される。これに対し、実施の形態1に記載したattentionを用いたマルチモーダル目的話者抽出においては、attention機構が、手がかりの信頼性をとらえるように学習されず、期待されるような「選択的に利用するモーダルを振り分ける挙動」が得られない場合があった。この結果、attention機構を用いて手がかりを集約する場合と、用いずに各ベクトルの和や結合で手がかりを集約する場合との性能に差が生じない場合があった。
attention機構が思ったように動作しない原因として、各モーダルの補助特徴量のベクトルのノルムが、モーダルの集約前において、モーダル間で著しくアンバランスになる現象が生じていることが分かった。この各モーダルのノルムが一定でない現象によって、それらを重み付け和の形で集約するattentionの重みが、いくつの時にすべてのモーダルを均等に利用しているのか、或いは、いくつの時に一方のモーダルを重視しているのか、といった解釈性が損なわれていた。
そこで、本実施の形態2では、attentionに正規化機構を追加した、“normalized attention”と呼ぶ機構を有する学習装置を新規に提案する。
[学習装置]
図5は、実施の形態2に係る学習装置の構成の一例を示す図である。実施の形態2に係る学習装置220は、例えば、ROM、RAM、CPU等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。図5に示すように、学習装置220は、特徴量変換部230、音声信号処理部221、補助情報生成部224、学習データ選択部225及び更新部226を有する。
特徴量変換部230には、目的話者の音声信号の処理に関する複数の信号として、入力話者の目的話者の音声信号及び混合音声信号収録時の話者の映像情報に加え、目的話者の他の手がかり情報が入力される。目的話者の他の手がかり情報として、例えば、混合音声信号が発声されるシーンにおける目的話者の収録機材に対する位置の情報、話者方向、混合音声信号が発声されるシーンにおける目的話者から取得したセンサ情報などがある。センサ情報は、例えばウェアラブルデバイスのセンサによって得られた心拍や筋電等の生体情報である。心拍は、例えば、装着者が発話する場合に心拍が上がる。目的話者の音声信号の処理に関する複数の信号は、混合音声信号とは異なる時点において、目的話者が単独で発話したときの音声信号、混合音声信号が発声されるシーンにおける話者の映像情報、混合音声信号が発声されるシーンにおける目的話者の収録機材に対する位置の情報、混合音声信号が発声されるシーンにおける目的話者から取得したセンサ情報などのいずれか2つ以上を含む。
特徴量変換部230は、目的話者の音声信号の処理に関する複数の信号を、複数の信号の各々に対応する複数の補助ニューラルネットワークを用いて、信号ごとにそれぞれ複数の補助特徴量に変換する。例えば、特徴量変換部230は、第1メインニューラルネットワークを用いて学習用の混合音声信号を変換して得た第1中間特徴量と、それぞれ入力された手がかり情報とを基に、各手がかり情報を各補助特徴量に変換する。特徴量変換部230は、第1補助特徴量変換部222と、第2補助特徴量変換部223と、第3補助特徴量変換部227とを有する。
第1補助特徴量変換部222は、第1補助特徴量変換部22と同様に、第1補助ニューラルネットワークを用いて、入力話者の目的話者の音声信号を第1補助特徴量Z に変換する。第2補助特徴量変換部223は、第2補助特徴量変換部23と同様に、第2補助ニューラルネットワークを用いて、入力される混合音声信号収録時の話者の映像情報を第2補助特徴量Z に変換する。第3補助特徴量変換部227は、第3補助ニューラルネットワークを用いて、入力される目的話者の他の手がかり情報を第3補助特徴量Z (Z =zst ;t=1,2,・・・,T)に変換する。
音声信号処理部221は、音声信号処理部21と同様に、メインニューラルネットワークを用いて、学習用の混合音声信号に含まれる目的話者の音声信号に関する情報を推定する。図6は、図5に示す音声信号処理部221の一例を示す図である。音声信号処理部221は、第1変換部211、統合部2212及び第2変換部213を有する。統合部2212は、第1変換部211が変換した第1中間特徴量と、補助情報生成部224が生成した補助特徴量とを統合して第2中間特徴量を生成する。
補助情報生成部224は、ニューラルネットワークを用いて、第1中間特徴量を参考にしながら、第1補助特徴量、第2補助特徴量、第3補助特徴量にそれぞれ対応する注意重み(attention)をそれぞれ乗じた重みづけ和を生成して、この重みづけ和を補助特徴量として統合部2212に出力する。図7は、図5に示す補助情報生成部224の構成の一例を示す図である。図7に示すように、補助情報生成部224は、注意重み計算部2241と、正規化部2242と、集約部2243と、スケーリング部2244とを有する。
注意重み計算部2241は、attention機構(参考文献3参照)における、各補助特徴量に乗じるattentionの値の計算を行う機能を有し、ニューラルネットワークを用いて注意重み(attention)の値を予測する。注意重み計算部2241は、attentionの計算を各時刻のサンプルに対して行う。すなわち、注意重み計算部2241は、各時刻に対して、入力話者の目的話者の音声信号を0.8、混合音声信号収録時の話者の映像情報を0.1、目的話者の他の手がかり情報を0.1の割合で利用するといった値を出力する。
参考文献3:A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser and I.Polosukhin, “Attention Is All You Need”, In Advances in neural information processing systems, pp. 5998-6008, 2017.
正規化部2242は、第1補助特徴量(特徴抽出済み目的話者音声情報)、第2補助特徴量(特徴抽出済み目的話者映像情報)、及び、第3補助特徴量(特徴抽出済み目的話者の他の手がかり情報)のそれぞれに対して、ノルムの正規化を行う。正規化部2242は、正規化を各時刻のサンプルに対して行い、演算としては一般的に用いられるベクトルの大きさでベクトルの各成分を除算するなどの方法を適用する。
集約部2243は、正規化された複数の補助特徴量に、注意重み計算部2241によって計算された各補助特徴量に対応する注意重みをそれぞれ乗じた重みづけ和を計算する(式(1)のうちΨ(Ψ∈{A,V,H})とする。詳細は、参考文献3参照。)。集約部2243は、重みづけ和の計算を各時刻フレームに対して行う。
スケーリング部2244は、正規化前のノルムの大きさを基に計算されたスケールを乗じた重みづけ和を、補助特徴量として音声信号処理部221に出力する。重みづけ和にスケールを乗じることによって、各補助特徴量が正規化されることで集約部2243の出力しうるベクトルのノルムが制限されてしまうという問題を解消する。例えば、正規化部2242において各補助特徴量のノルムが半分になった場合、スケーリング部2244は、スケールとして2倍を掛け合わせるなどの演算を行う。具体的なスケールの計算方法として、スケールlを式(7)のように設定するなどの方法が考えられる。
Figure 0007205635000009
式(7)において、zΨは、モーダルΨ(Ψ∈{A,V,H})の補助特徴量である。
学習データ選択部225は、学習データの中から、学習用の混合音声信号と、目的話者の音声信号、学習用の混合音声信号収録時の話者の映像情報及び目的話者の他の手がかり情報との組を選択する。
更新部226は、各ニューラルネットワークのパラメータの学習を行う。更新部26は、音声信号処理部221が有するメインニューラルネットワーク、特徴量変換部230が有する各補助ニューラルネットワーク、及び、補助情報生成部224が有するニューラルネットワークに対して、学習を実行させる。
具体的には、更新部226は、所定基準を満たすまで、各ニューラルネットワークのパラメータを更新し、学習データ選択部225、特徴量変換部230、補助情報生成部224及び音声信号処理部221の処理を繰り返し実行させることによって、所定基準を満たす各ニューラルネットワークのパラメータを設定する。このように設定された各ニューラルネットワークのパラメータの値が、後述する音声信号処理装置510における各ニューラルネットワークのパラメータとして適用される。更新部226は、周知である誤差逆伝搬法などのパラメータ更新の手法を用いてパラメータの更新を行う。
所定基準は、予め定めた繰り返し回数に到達した場合である。所定基準は、パラメータの更新量が所定の値未満となった場合でもよい。或いは、所定基準は、音声信号処理部221によって抽出された音声信号と、教師信号である真の目的話者音声との差異から計算される損失の値が所定の値未満となった場合でもよい。損失には、例えば、scale invariant signal to distortion ratioなどの一般的に用いられる公知の基準を用いることができる。
[学習処理]
次に、実施の形態2に係る学習処理について説明する。図8は、実施の形態2に係る学習処理の処理手順を示すフローチャートである。
図8に示すように、学習データ選択部225は、学習データの中から、学習用の混合音声信号、目的話者の音声信号と学習用の混合音声信号収録時の話者の映像情報と目的話者の他の手がかり情報との組を選択する(ステップS41)。学習データ選択部225は、選択した学習用の混合音声信号、目的話者の音声信号、学習用の混合音声信号収録時の話者の映像情報及び目的話者の他の手がかり情報を、第1変換部211、第1補助特徴量変換部222、第2補助特徴量変換部223及び第3補助特徴量変換部227にそれぞれ入力する(ステップS42,S44,S46,S48)。
ステップS43,S45,S47は、図4に示すステップS23,S25,S27と同じ処理である。第3補助特徴量変換部227は、第3補助ニューラルネットワークを用いて、入力される目的話者の他の手がかり情報を第3補助特徴量に変換する(ステップS49)。補助情報生成部224は、第1補助特徴量、第2補助特徴量、第3補助特徴量を基に補助特徴量を生成する(ステップS50)。
統合部2212は、第1変換部211が変換した第1中間特徴量と、補助情報生成部224が生成した補助特徴量とを統合して第2中間特徴量を生成する(ステップS51)。図8に示すステップS52~ステップS54は、図4に示すステップS30~ステップS32と同じ処理である。
[補助特徴生成処理]
次に、図8に示す補助特徴量生成処理(ステップS50)について説明する。図9は、図8に示す補助特徴量生成処理の処理手順を示すフローチャートである。
図9に示すように、注意重み計算部2241は、各補助特徴量に乗じる注意重みの値を計算する(ステップS61)。ステップS61と平行して、正規化部2242は、第1補助特徴量、第2補助特徴量及び第3補助特徴量のそれぞれに対して、ノルムの正規化を行う(ステップS62)。
集約部2243は、正規化された複数の補助特徴量に、注意重み計算部2241によって計算された各補助特徴量に対応する注意重みをそれぞれ乗じた重みづけ和を計算する集約処理を行う(ステップS63)。そして、スケーリング部2244は、正規化前のノルムの大きさを基に計算されたスケールを乗じた重みづけ和を計算するスケーリング処理を行い(ステップS64)、補助特徴量として音声信号処理部221に出力する。
[実施の形態2の効果]
このように、学習装置220は、各補助特徴量に対しノルムの正規化を行ってから、重みづけ和の計算を行うことで、各モーダル間における、各補助特徴量のベクトルのノルムの偏りが低減できる。
したがって、実施の形態2では、ノルムのアンバランスの問題を解消したことで、attentionを正常に学習しやすくして目的話者抽出性能を向上させ、かつ、attentionの値に解釈性を付与することができるようになる。すなわち、実施の形態2では、モーダル間のノルムアンバランスの問題が解消され、また、attention機構がより効果的に学習されることにより、目的話者の音声信号の抽出性能が向上する。
そして、attention機構の示す値が解釈性を持つことができる。言い換えると、実施の形態2では、attentionの値を見ることによって、どの手がかりが重視されているか、あるいはいずれの手がかりも効果的に機能していることが分かる。例えば音声手がかりを重視する値が出力されていた場合、映像手がかりに何か問題が生じている可能性がある、などattentionの値をもとに、各手がかりの状態を解釈することができる。
[実施の形態3]
実施の形態3では、attentionの学習をさらに効果的に行うことができるマルチタスク学習(attention guided training)について説明する。
[学習装置]
図10は、実施の形態3に係る学習装置の構成の一例を示す図である。実施の形態3に係る学習装置320は、例えば、ROM、RAM、CPU等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。図10に示すように、学習装置320は、実施の形態2に係る学習装置220と比して、更新部226に代えて、更新部326を有する。なお、補助情報生成部224は、注意重み計算部2241によって計算された各補助特徴量に対応する注意重み(attention)の値を更新部326に出力する。また、補助情報生成部224は、正規化部2242及びスケーリング部2244を省いた構成(normalized attentionの適用なし)でもよい。
更新部326は、所定基準を満たすまで、各ニューラルネットワークのパラメータを更新し、学習データ選択部225、特徴量変換部230、補助情報生成部224及び音声信号処理部221の処理を繰り返し実行させることによって、所定基準を満たす各ニューラルネットワークのパラメータを設定する。更新部326は、注意重み計算部2241によって計算された各補助特徴量に対応する注意重みと、予め設定された各補助特徴量に対応する望ましい注意重みの値と、音声信号処理部221が推定した学習用の混合音声信号に含まれる目的話者の音声信号と、学習用の混合音声信号に含まれる目的話者の音声の教師信号とに基づいた目的関数を最適化するように各ニューラルネットワークのパラメータを更新する。目的関数は、例えば、後述する式(8)のような損失関数である。
更新部326は、補助情報生成部224における注意重み計算部2241によって計算された各補助特徴量に対応する注意重み(attention)の値^αΨと、予め設定された各補助特徴量に対応する望ましい注意重み(attention)の値αΨと、音声信号処理部221が推定した学習用の混合音声信号に含まれる目的話者の音声信号^xと、学習用の混合音声信号に含まれる目的話者の音声の教師信号(真の目的話者音声)xとを入力とする。そして、更新部326は、これらの情報に基づいた損失を計算し、計算した損失が所定の値未満となるようになるように、ニューラルネットワークに対してマルチタスク学習を実行させることで、各ニューラルネットワークのパラメータを更新する。
望ましいattentionの値としては、例えば、全ての目的話者の音声信号の処理に関する複数の信号を、目的話者の手がかり情報として利用可能な場合に、目的話者の音声信号の処理に関する第1の情報(例えば、入力話者の目的話者の音声信号)と、目的話者の音声信号の処理に関する第2の情報(例えば、混合音声信号収録時の話者の映像情報)に対して、第1の情報及び第2の情報を[0.5, 0.5]と設定し、第1の情報が利用不可能な場合に、[0.0, 1.0]と設定するなどの方法が考えられる。
学習には、一般的にニューラルネットワークの学習に用いられる逆伝搬などの公知の技術を用いることができる。実施の形態3では、例えば、損失関数Lとして、補助情報生成部224における注意重み計算部2241によって計算された各補助特徴量に対応する注意重み(attention)の値^αΨと、予め設定された各補助特徴量に対応する望ましい注意重み(attention)の値αΨと、音声信号処理部221が推定した学習用の混合音声信号に含まれる目的話者の音声信号^xと、学習用の混合音声信号に含まれる目的話者の音声の教師信号xとを用いて、式(8)のように設計する。
Figure 0007205635000010
ここで、d,dはそれぞれ距離尺度であり、dとして、例えば、scale invariant signal to distortion ratioなどを用いることができ、dとして、例えばmean square errorを各時刻において計算したものの平均としたものなどを用いることができる。
[実施の形態3の効果]
このように、実施の形態3においては、補助情報生成部224における注意重み計算部2241によって計算された各補助特徴量に対応する注意重み(attention)の値^αΨと、予め設定された各補助特徴量に対応する望ましい注意重み(attention)の値αΨとをさらに用いて、マルチタスク学習を行うため、attention機構がより効果的に学習され、目的話者の音声信号の抽出性能が向上する。
[実施の形態4]
実施の形態4では、attentionの学習をさらに効果的に行うことができるマルチタスク学習(clue condition aware training)について説明する。
[学習装置]
図11は、実施の形態4に係る学習装置の構成の一例を示す図である。実施の形態4に係る学習装置420は、例えば、ROM、RAM、CPU等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。図11に示すように、学習装置320は、実施の形態2に係る学習装置220と比して、更新部226に代えて、更新部426を有する。学習装置320は、学習装置220と比して、信頼度予測部428(信頼度)をさらに有する。なお、特徴量変換部230は、各補助特徴量を信頼度予測部428に出力する。また、補助情報生成部224は、正規化部2242及びスケーリング部2244を省いた構成でもよい。
信頼度予測部428は、特徴量変換部230によって変換された各補助特徴量を基に、学習用の目的話者の音声信号の処理に関する複数の信号のそれぞれの各時刻における信頼度^rΨを予測する。信頼度予測部428は、信頼度を予測するモデルとして、例えば、CNN(Convolution Neural Network)、LSTM(Long Short-Term Memory)、RNN(Recurrent Neural Network)などのニューラルネットワークを用いる。
更新部426は、所定基準を満たすまで、各ニューラルネットワークのパラメータを更新し、学習データ選択部225、特徴量変換部230、補助情報生成部224、信頼度予測部428及び音声信号処理部221の処理を繰り返し実行させることによって、所定基準を満たす各ニューラルネットワークのパラメータを設定する。更新部426は、信頼度予測部428によって予測された各学習用の目的話者の音声信号の処理に関する複数の信号の信頼度と、予め求められた各学習用の目的話者の音声信号の処理に関する複数の信号の信頼度と、音声信号処理部221が推定した学習用の混合音声信号に含まれる目的話者の音声信号と、学習用の混合音声信号に含まれる目的話者の音声の教師信号とに基づいた目的関数を最適化するように各ニューラルネットワークのパラメータを更新する。目的関数は、例えば、後述する式(9)のような損失関数である。
更新部426は、信頼度予測部428によって予測された各学習用の目的話者の音声信号の処理に関する複数の信号の信頼度^rΨと、予め求められた各学習用の目的話者の音声信号の処理に関する複数の信号の信頼度rΨ(各真の信頼度)と、音声信号処理部221が推定した学習用の混合音声信号に含まれる目的話者の音声信号^xと、学習用の混合音声信号に含まれる目的話者の音声の教師信号(真の目的話者音声)xとを入力する。そして、更新部426は、これらの情報に基づいた損失を計算し、計算した損失が所定の値未満となるようになるように、ニューラルネットワークに対してマルチタスク学習を実行させることで、各ニューラルネットワークのパラメータを更新する。
各学習用の目的話者の音声信号の処理に関する複数の信号の信頼度として、例えば、例えば、混合音声信号収録時の話者の映像情報については、口周辺の領域のうち、手などで遮蔽されていない領域の割合とすることができる。すなわち、口周辺の領域の遮蔽がなければ1であり、全領域が遮蔽されていれば0である。
学習には一般的にニューラルネットワークの学習に用いられる逆伝搬などの公知の技術を用いることができる。実施の形態4では、例えば、損失関数Lとして、信頼度予測部428によって予測された各学習用の目的話者の音声信号の処理に関する複数の信号の信頼度^rΨと、予め求められた各学習用の目的話者の音声信号の処理に関する複数の信号の信頼度rΨと、音声信号処理部221が推定した学習用の混合音声信号に含まれる目的話者の音声信号^xと、学習用の混合音声信号に含まれる目的話者の音声の教師信号xとを用いて、式(9)のように設計する。
Figure 0007205635000011
ここで、d,dはそれぞれ距離尺度であり、dとして、例えば、scale invariant signal to distortion ratioなどを用いることができ、dとして、例えばmean square errorを各時刻において計算したものの平均とすることなどができる。
[学習処理]
次に、実施の形態4に係る学習処理について説明する。図12は、実施の形態4に係る学習処理の処理手順を示すフローチャートである。
図12に示すステップS71~ステップS80は、図8に示すステップS41~ステップS50と同じ処理である。信頼度予測部428は、特徴量変換部230によって変換された各補助特徴量を基に、学習用の目的話者の音声信号の処理に関する複数の信号のそれぞれの各時刻における信頼度を予測する処理を行う(ステップS81)。ステップS82,S83は、図8に示すステップS51,S52と同じ処理である。ステップS84は、ステップS53と同じ処理であり、更新部426は、所定基準として損失関数の値を用いる際には、式(9)に示す損失関数Lの値を用いる。ステップS85は、図8に示すステップS54と同じ処理である。
[実施の形態4の効果]
このように、実施の形態4においては、信頼度予測部428によって予測された学習用の目的話者の音声信号の処理に関する複数の信号のそれぞれの各時刻における信頼度と、予め求められた各学習用の目的話者の音声信号の処理に関する複数の信号の信頼度とをさらに用いて、マルチタスク学習を行うため、attention機構がより効果的に学習され、目的話者の音声信号の抽出性能が向上する。
[実施の形態5]
次に、実施の形態5に係る音声信号処理装置について説明する。図13は、実施の形態5に係る音声信号処理装置の構成の一例を示す図である。実施の形態5に係る音声信号処理装置510は、例えば、ROM、RAM、CPU等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。音声信号処理装置510は、音声信号処理部511、特徴量変換部530及び補助情報生成部514(生成部)を有する。
音声信号処理部511は、図5に示す音声信号処理部221と同じ機能を有する。補助情報生成部514は、図5に示す補助情報生成部224と同じ機能を有する。補助情報生成部514は、図7に示す補助情報生成部224と同様の構成(normalized attentionの適用あり)であってもよく、また、図7に示す補助情報生成部224から正規化部2242及びスケーリング部2244を省いた構成(normalized attentionの適用なし)でもよい。特徴量変換部530は、図5に示す第1補助特徴量変換部222と同じ機能を有する第1補助特徴量変換部512、図1に示す第2補助特徴量変換部223と同じ機能を有する第2補助特徴量変換部513、及び、第3補助ニューラルネットワークを用いて、入力される目的話者の他の手がかり情報を第3補助特徴量に変換する第3補助特徴量変換部517を有する。音声信号処理部511、特徴量変換部530及び補助情報生成部514が有する各ニューラルネットワークのパラメータは、学習装置220、学習装置320または学習装置420によって設定されたものである。
[評価実験]
評価用に、LRS3-TED(Lip Reading Sentences 3)音声-映像コーパスに基づく混合音声信号のシミュレーションデータセットを生成した。データセットは、0~5dBのSNR(Signal to Noise Ratio)での混合発話によって生成された2話者の混合音声信号を含むデータセットである。実施の形態1に係る音声信号処理の精度と、実施の形態5に係る音声信号処理の精度を比較した結果を表3に示す。
Figure 0007205635000012
表3において、「No.1」は、複数の補助特徴量を重みづけせずに加算した補助特徴量を適用した場合に対応する。また、「No.2」は、実施の形態1に係る音声信号処理装置10であって複数の補助特徴量を各補助特徴量に対応する注意重みをそれぞれ乗じた重みづけ和を補助特徴量として適用した場合対応する。「No.3」~「No.7」は、実施の形態5に係る音声信号処理装置510に対応する。
このうち、「No.3」は、学習装置220によって各ニューラルネットワークのパラメータが設定された場合(normalized attention)に対応し、「No.4」は、学習装置320によって各ニューラルネットワークのパラメータが設定された場合(attention guided training、ただしnormalized attention適用なし)に対応し、「No.5」は、学習装置420によって各ニューラルネットワークのパラメータが設定された場合(clue condition aware training、ただしnormalized attention適用なし)に対応し、「No.6」は、学習装置320によって各ニューラルネットワークのパラメータが設定された場合(attention guided training、normalized attention適用あり)に対応し、「No.7」は、学習装置420によって各ニューラルネットワークのパラメータが設定された場合(clue condition aware training、ただしnormalized attention適用あり)に対応する。
「No.3」~「No.7」は、各ニューラルネットワークのパラメータが学習装置220,320,420のいずれによって設定された場合も、「No.2」よりもよい結果を示した。そして、「No.6」,「No.7」に示すように、attention guided training及びclue condition aware trainingのマルチタスク学習を適用した場合については、さらに、normalized attention(ノルム正規化)を適用することで精度を高めることができることがわかった。このように、実施の形態5に係る音声信号処理装置510は、実施の形態1よりもさらに音声信号処理の精度を高めることができる。
なお、「モーダル」という言葉は、システム(装置)への入力情報の種類(画像、音声、テキスト、センサデータ、統計情報など)を意味し、「マルチモーダル」とは、様々な種類の入力情報を利用することを指す。情報が取得される際の、カメラやマイク等の各手段から得られる情報を、それぞれのモーダルと呼ぶ。
[システム構成等]
図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。例えば、音声信号処理装置10,510及び学習装置20,220,320,420は、一体の装置であってもよい。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部又は一部を公知の方法で自動的におこなうこともできる。また、本実施形態において説明した各処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
図14は、プログラムが実行されることにより、音声信号処理装置10,510及び学習装置20,220,320,420が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1041に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、音声信号処理装置10,510及び学習装置20,220,320,420の各処理を規定するプログラムは、コンピュータ1000により実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1031に記憶される。例えば、音声信号処理装置10,510及び学習装置20,220,320,420における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。なお、ハードディスクドライブ1031は、SSD(Solid State Drive)により代替されてもよい。
また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1031に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。また、音声信号処理装置10,510及び学習装置20,220,320,420において使用するニューラルネットワークの処理は、GPUを用いて実行される場合もある。
以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例及び運用技術等は全て本発明の範疇に含まれる。
10,510 音声信号処理装置
20,220,320,420 学習装置
11、21,221,511 音声信号処理部
12,22,222,512 第1補助特徴量変換部
13,23,223,513 第2補助特徴量変換部
14,24,224,514 補助情報生成部
25,225 学習データ選択部
26,226,326,426 更新部
111,211 第1変換部
112,212,2212 統合部
113,213 第2変換部
230,530 特徴量変換部
227,517 第3補助特徴変換部
428 信頼度予測部
2241 注意重み計算部
2242 正規化部
2243 集約部
2244 スケーリング部

Claims (14)

  1. 目的話者の音声信号の処理に関する複数の信号を、前記複数の信号の各々に対応する複数の補助ニューラルネットワークを用いて、前記信号ごとにそれぞれ複数の補助特徴量に変換する補助特徴量変換部と、
    メインニューラルネットワークを用いて、入力された混合音声信号の特徴量及び前記複数の補助特徴量を基に、前記混合音声信号に含まれる前記目的話者の音声信号に関する情報を推定する音声信号処理部と、
    を有し、
    前記目的話者の音声信号の処理に関する前記複数の信号とは、モーダルの異なる2つ以上の情報であることを特徴とする音声信号処理装置。
  2. 前記補助特徴量変換部は、
    第1補助ニューラルネットワークを用いて、入力された第1の信号を第1補助特徴量に変換する第1補助特徴量変換部と、
    第2補助ニューラルネットワークを用いて、入力された第2の信号を第2補助特徴量に変換する第2補助特徴量変換部と、
    を有し、
    前記音声信号処理部は、
    前記メインニューラルネットワークを用いて、前記入力された混合音声信号の特徴量、前記第1補助特徴量及び前記第2補助特徴量を基に、前記混合音声信号に含まれる目的話者の音声信号を抽出するためのマスク情報を推定し、
    前記第1の信号は、前記混合音声信号とは異なる時点において、前記目的話者が単独で発話したときの音声信号であり、
    前記第2の信号は、前記混合音声信号が発声されるシーンにおける話者の映像情報である
    ことを特徴とする請求項1に記載の音声信号処理装置。
  3. 前記第1補助特徴量及び前記第2補助特徴量を基に補助情報を生成する生成部をさらに有し、
    前記音声信号処理部は、第1メインニューラルネットワークを用いて前記混合音声信号を変換して得た第1中間特徴量と、前記補助情報とを統合して生成した第2中間特徴量を、入力とし、第2メインニューラルネットワークにより前記混合音声信号に含まれる目的話者の音声信号を抽出するためのマスク情報に変換することを特徴とする請求項2に記載の音声信号処理装置。
  4. 音声信号処理装置が実行する音声信号処理方法であって、
    目的話者の音声信号の抽出に関する複数の信号を、複数の補助ニューラルネットワークを用いて、前記信号ごとにそれぞれ複数の補助特徴量に変換する工程と、
    メインニューラルネットワークを用いて、入力された混合音声信号の特徴量及び前記複数の補助特徴量を基に、前記混合音声信号に含まれる前記目的話者の音声信号に関する情報を推定する工程と、
    を含んだことを特徴とする音声信号処理方法。
  5. コンピュータを、請求項1~3のいずれか一つに記載の音声信号処理装置として機能させるための音声信号処理プログラム。
  6. 学習データの中から、学習用の混合音声信号及び学習用の目的話者の音声信号の処理に関する複数の信号を選択する選択部と、
    前記学習用の目的話者の音声信号の処理に関する複数の信号を、前記複数の信号の各々に対応する複数の補助ニューラルネットワークを用いて、前記信号ごとにそれぞれ複数の補助特徴量に変換する特徴量変換部と、
    メインニューラルネットワークを用いて、前記学習用の混合音声信号の特徴量及び前記複数の補助特徴量を基に、前記学習用の混合音声信号に含まれる目的話者の音声信号の処理に関する情報を推定する音声信号処理部と、
    所定基準を満たすまで、各ニューラルネットワークのパラメータを更新し、前記選択部と前記特徴量変換部と前記音声信号処理部との処理を繰り返し実行させることによって、前記所定基準を満たす各ニューラルネットワークのパラメータを設定する更新部と、
    を有し、
    前記目的話者の音声信号の処理に関する前記複数の信号とは、モーダルの異なる2つ以上の情報であることを特徴とする学習装置。
  7. 前記選択部は、前記学習データの中から、前記学習用の混合音声信号、学習用の目的話者の音声信号及び学習用の混合音声信号収録時の話者の映像情報を選択し、
    前記特徴量変換部は、
    第1補助ニューラルネットワークを用いて、前記目的話者の音声信号を第1補助特徴量に変換する第1補助特徴量変換部と、
    第2補助ニューラルネットワークを用いて、前記学習用の混合音声信号収録時の話者の映像情報を第2補助特徴量に変換する第2補助特徴量変換部と、
    を有し、
    前記音声信号処理部は、前記メインニューラルネットワークを用いて、前記学習用の混合音声信号の特徴量、前記第1補助特徴量及び前記第2補助特徴量を基に、前記学習用の混合音声信号に含まれる目的話者の音声信号に関する情報を推定し、
    前記更新部は、所定基準を満たすまで、各ニューラルネットワークのパラメータを更新し、前記選択部、前記第1補助特徴量変換部、前記第2補助特徴量変換部及び前記音声信号処理部の処理を繰り返し実行させることによって、前記所定基準を満たす各ニューラルネットワークのパラメータを設定することを特徴とする請求項6に記載の学習装置。
  8. 前記更新部は、前記音声信号処理部が、前記学習用の混合音声信号の特徴量と前記第1補助特徴量と前記第2補助特徴量とを用いて推定した前記学習用の混合音声信号に含まれる目的話者の音声の、教師信号に対する第1損失と、前記音声信号処理部が、前記学習用の混合音声信号の特徴量と前記第1補助特徴量とを基に推定した前記学習用の混合音声信号に含まれる目的話者の音声の、教師信号に対する第2損失と、前記学習用の混合音声信号の特徴量と前記第2補助特徴量とを基に推定した前記学習用の混合音声信号に含まれる目的話者の音声の、教師信号に対する第3損失と、の重み付け和が小さくなるように各ニューラルネットワークのパラメータを更新することを特徴とする請求項7に記載の学習装置。
  9. ニューラルネットワークを用いて、前記複数の補助特徴量に各補助特徴量に対応する注意重みをそれぞれ乗じた重みづけ和を生成する補助情報生成部をさらに有し、
    前記音声信号処理部は、前記メインニューラルネットワークを構成する第1メインニューラルネットワークを用いて前記混合音声信号を変換して得た第1中間特徴量と、前記重みづけ和とを統合して生成した第2中間特徴量を、入力とし、前記メインニューラルネットワークを構成する第2メインニューラルネットワークにより前記学習用の混合音声信号に含まれる目的話者の音声信号に関する情報を推定し、
    前記補助情報生成部は、
    前記第1中間特徴量と前記複数の補助特徴量とを基に、各補助特徴量にそれぞれ対応する注意重みを計算する注意重み計算部と、
    前記複数の補助特徴量に、前記注意重み計算部によって計算された各補助特徴量に対応する注意重みをそれぞれ乗じた重みづけ和を計算する集約部と、
    を有することを特徴とする請求項6に記載の学習装置。
  10. 前記補助情報生成部は、
    各補助特徴量に対し、ノルムの正規化を行う正規化部と、
    前記正規化前のノルムの大きさを基に計算されたスケールを乗じた前記重みづけ和を、前記音声信号処理部に出力するスケーリング部と、
    をさらに有し、
    前記集約部は、正規化された前記複数の補助特徴量に、前記注意重み計算部によって計算された各補助特徴量に対応する注意重みをそれぞれ乗じた重みづけ和を計算することを特徴とする請求項9に記載の学習装置。
  11. 前記音声信号処理部は、前記学習用の混合音声信号に含まれる目的話者の音声信号を推定し、
    前記更新部は、前記注意重み計算部によって計算された各補助特徴量に対応する注意重みと、予め設定された各補助特徴量に対応する望ましい注意重みの値と、前記音声信号処理部が推定した前記学習用の混合音声信号に含まれる目的話者の音声信号と、前記学習用の混合音声信号に含まれる目的話者の音声の教師信号とに基づいた目的関数を最適化するように各ニューラルネットワークのパラメータを更新することを特徴とする請求項9または10に記載の学習装置。
  12. ニューラルネットワークを用いて、前記複数の補助特徴量を基に、前記学習用の目的話者の音声信号の処理に関する複数の信号のそれぞれの信頼度を予測する予測部をさらに有し、
    前記音声信号処理部は、前記学習用の混合音声信号に含まれる目的話者の音声信号を推定し、
    前記更新部は、前記予測部によって予測された各学習用の目的話者の音声信号の処理に関する複数の信号の信頼度と、予め求められた各学習用の目的話者の音声信号の処理に関する複数の信号の信頼度と、前記音声信号処理部が推定した前記学習用の混合音声信号に含まれる目的話者の音声信号と、前記学習用の混合音声信号に含まれる目的話者の音声の教師信号とに基づいた目的関数を最適化するように各ニューラルネットワークのパラメータを更新することを特徴とする請求項9または10に記載の学習装置。
  13. 学習装置が実行する学習方法であって、
    学習データの中から、学習用の混合音声信号及び学習用の目的話者の音声信号の処理に関する複数の信号を選択する工程と、
    前記学習用の目的話者の音声信号の処理に関する複数の信号を、複数の補助ニューラルネットワークを用いて、前記信号ごとにそれぞれ複数の補助特徴量に変換する工程と、
    メインニューラルネットワークを用いて、前記学習用の混合音声信号の特徴量及び前記複数の補助特徴量を基に、前記学習用の混合音声信号に含まれる目的話者の音声信号の処理に関する情報を推定する工程と、
    所定基準を満たすまで、各ニューラルネットワークのパラメータを更新し、前記選択する工程と前記変換する工程と前記推定する工程を繰り返し実行させることによって、前記所定基準を満たす各ニューラルネットワークのパラメータを設定する工程と、
    を含んだことを特徴とする学習方法。
  14. コンピュータを、請求項6~12のいずれか一つに記載の学習装置として機能させるための学習プログラム。
JP2021540733A 2019-08-16 2020-08-07 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム Active JP7205635B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
PCT/JP2019/032193 WO2021033222A1 (ja) 2019-08-16 2019-08-16 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム
JPPCT/JP2019/032193 2019-08-16
PCT/JP2020/030523 WO2021033587A1 (ja) 2019-08-16 2020-08-07 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム

Publications (2)

Publication Number Publication Date
JPWO2021033587A1 JPWO2021033587A1 (ja) 2021-02-25
JP7205635B2 true JP7205635B2 (ja) 2023-01-17

Family

ID=74659871

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021540733A Active JP7205635B2 (ja) 2019-08-16 2020-08-07 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム

Country Status (3)

Country Link
US (1) US20220335965A1 (ja)
JP (1) JP7205635B2 (ja)
WO (2) WO2021033222A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004126198A (ja) 2002-10-02 2004-04-22 Institute Of Physical & Chemical Research 信号抽出システム、信号抽出方法および信号抽出プログラム
JP2017515140A (ja) 2014-03-24 2017-06-08 マイクロソフト テクノロジー ライセンシング,エルエルシー 混合音声認識
WO2018047643A1 (ja) 2016-09-09 2018-03-15 ソニー株式会社 音源分離装置および方法、並びにプログラム
WO2019017403A1 (ja) 2017-07-19 2019-01-24 日本電信電話株式会社 マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004126198A (ja) 2002-10-02 2004-04-22 Institute Of Physical & Chemical Research 信号抽出システム、信号抽出方法および信号抽出プログラム
JP2017515140A (ja) 2014-03-24 2017-06-08 マイクロソフト テクノロジー ライセンシング,エルエルシー 混合音声認識
WO2018047643A1 (ja) 2016-09-09 2018-03-15 ソニー株式会社 音源分離装置および方法、並びにプログラム
WO2019017403A1 (ja) 2017-07-19 2019-01-24 日本電信電話株式会社 マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
木下慶介他,SpeakerBeam:聞きたい人の声に耳を傾けるコンピュータ-深層学習に基づく音声の選択的聴取,NTT技術ジャーナル,一般社団法人電気通信協会,2018年09月,Vol.30, No.9,pp.12-15

Also Published As

Publication number Publication date
JPWO2021033587A1 (ja) 2021-02-25
WO2021033222A1 (ja) 2021-02-25
US20220335965A1 (en) 2022-10-20
WO2021033587A1 (ja) 2021-02-25

Similar Documents

Publication Publication Date Title
JP7023934B2 (ja) 音声認識方法及び装置
JP5768093B2 (ja) 音声処理システム
WO2019102884A1 (ja) ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体
JP7342915B2 (ja) 音声処理装置、音声処理方法、およびプログラム
CN103310784A (zh) 文本到语音的方法和系统
JP6543820B2 (ja) 声質変換方法および声質変換装置
Deena et al. Recurrent neural network language model adaptation for multi-genre broadcast speech recognition and alignment
JPWO2020039571A1 (ja) 音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システム
US20230343319A1 (en) speech processing system and a method of processing a speech signal
GB2603776A (en) Methods and systems for modifying speech generated by a text-to-speech synthesiser
US10157608B2 (en) Device for predicting voice conversion model, method of predicting voice conversion model, and computer program product
CN114424209A (zh) 序列到序列神经模型中的结构保留关注机制
JP6505346B1 (ja) Dnn音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラム
CN113611293B (zh) 一种蒙古语数据集扩充方法
JP2009086581A (ja) 音声認識の話者モデルを作成する装置およびプログラム
JP5974901B2 (ja) 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム
JP2021039219A (ja) 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム
JP2015041081A (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP7112348B2 (ja) 信号処理装置、信号処理方法及び信号処理プログラム
JP7205635B2 (ja) 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム
JP4964194B2 (ja) 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体
Yanagisawa et al. Noise robustness in HMM-TTS speaker adaptation
JP6518142B2 (ja) 言語モデル生成装置およびそのプログラム
JP4256314B2 (ja) 音声認識用音響モデル作成方法、音声認識用音響モデル作成装置、音声認識用音響モデル作成プログラム及びこのプログラムを記録した記録媒体
JPWO2019106758A1 (ja) 言語処理装置、言語処理システムおよび言語処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211228

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A801

Effective date: 20211228

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20211228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221212

R150 Certificate of patent or registration of utility model

Ref document number: 7205635

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150