JP7205635B2 - 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム - Google Patents
音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム Download PDFInfo
- Publication number
- JP7205635B2 JP7205635B2 JP2021540733A JP2021540733A JP7205635B2 JP 7205635 B2 JP7205635 B2 JP 7205635B2 JP 2021540733 A JP2021540733 A JP 2021540733A JP 2021540733 A JP2021540733 A JP 2021540733A JP 7205635 B2 JP7205635 B2 JP 7205635B2
- Authority
- JP
- Japan
- Prior art keywords
- speech signal
- auxiliary
- learning
- unit
- target speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Description
[音声信号処理装置]
まず、実施の形態1に係る音声信号処理装置について説明する。本実施の形態1に係る音声信号処理装置は、目的話者の音声信号の他に、入力される混合音声信号収録時の話者の映像情報を用いて補助情報を生成する。言い換えると、本実施の形態1に係る音声信号処理装置は、混合音声信号に含まれる目的話者の音声信号に関する情報を推定するメインニューラルネットワークに加え、2つの補助ニューラルネットワーク(第1補助ニューラルネットワーク及び第2補助ニューラルネットワーク)と、これら2つの補助ニューラルネットワークの出力を用いて1つの補助情報を生成する補助情報生成部とを有する。
参考文献1:F. Schroff, D. Kalenichenko, and J. Philbin, “Facenet: A unified embedding for face recognition and clustering”, in IEEE conf. on computer and pattern recognition (CVPR), pp. 815-823, 2015.
参考文献2:D. Bahdanau, K. Cho, and Y. Bengio, “Neural machine translation by jointly learning to aligh and translate”, in International Conf. on Learning Representations (ICLR), 2015.
次に、音声信号処理装置10で用いられる各ニューラルネットワークの学習を行うための学習装置の構成を説明する。図2は、実施の形態1に係る学習装置の構成の一例を示す図である。
次に、音声信号処理装置10が実行する音声信号処理の流れについて説明する。図3は、実施の形態に係る音声信号処理の処理手順を示すフローチャートである。
次に、学習装置20が実行する学習処理の流れについて説明する。図4は、実施の形態に係る学習処理の処理手順を示すフローチャートである。
評価用に、LRS3-TED(Lip Reading Sentences 3)音声-映像コーパスに基づく混合音声信号のシミュレーションデータセットを生成した。データセットは、0.5dBのSNR(Signal to Noise Ratio)での混合発話によって生成された2話者の混合音声信号を含むデータセットである。また、本評価では、入力混合音声信号Yとして、混合音声信号に短時間フーリエ変換(STFT)を適用して得た情報を用いた。本評価では、目的話者の音声信号として、60msウィンドウ長と20msウィンドウシフトとで、音声信号にSTFTを適用して得た振幅スペクトル特徴量を使用した。本評価では、映像情報として、Facenetを用いて、毎ビデオフレーム(25fps、例えば、30msシフト)から抽出された、目的話者の顔領域に対応する埋め込みベクトルを使用した。
本実施の形態1に係る音声信号処理装置10は、補助情報として、目的話者の音声信号を第1補助ニューラルネットワークを用いて変換した第1補助特徴量と、入力される混合音声信号収録時の話者の映像情報を第2補助ニューラルネットワークを用いて変換した第2補助特徴量とを使用して、混合音声信号に含まれる目的話者の音声信号を抽出するためのマスク情報を推定する。
ここで、補助情報に使用する信号は、目的話者の音声信号と混合音声信号収録時の話者の映像情報との2つに限らず、目的話者の音声信号の抽出に関する複数の信号であってもよい。目的話者の音声信号の処理に関する複数の信号は、混合音声信号が発声されるシーンまたはは前記目的話者から取得される信号である。本実施の形態2以降では、補助情報に使用する目的話者の音声信号の処理に関する信号として、目的話者の音声信号と混合音声信号収録時の話者の映像情報の他に、目的話者の他の手がかりとなる情報を用いた例を説明する。
図5は、実施の形態2に係る学習装置の構成の一例を示す図である。実施の形態2に係る学習装置220は、例えば、ROM、RAM、CPU等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。図5に示すように、学習装置220は、特徴量変換部230、音声信号処理部221、補助情報生成部224、学習データ選択部225及び更新部226を有する。
参考文献3:A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser and I.Polosukhin, “Attention Is All You Need”, In Advances in neural information processing systems, pp. 5998-6008, 2017.
次に、実施の形態2に係る学習処理について説明する。図8は、実施の形態2に係る学習処理の処理手順を示すフローチャートである。
次に、図8に示す補助特徴量生成処理(ステップS50)について説明する。図9は、図8に示す補助特徴量生成処理の処理手順を示すフローチャートである。
このように、学習装置220は、各補助特徴量に対しノルムの正規化を行ってから、重みづけ和の計算を行うことで、各モーダル間における、各補助特徴量のベクトルのノルムの偏りが低減できる。
実施の形態3では、attentionの学習をさらに効果的に行うことができるマルチタスク学習(attention guided training)について説明する。
図10は、実施の形態3に係る学習装置の構成の一例を示す図である。実施の形態3に係る学習装置320は、例えば、ROM、RAM、CPU等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。図10に示すように、学習装置320は、実施の形態2に係る学習装置220と比して、更新部226に代えて、更新部326を有する。なお、補助情報生成部224は、注意重み計算部2241によって計算された各補助特徴量に対応する注意重み(attention)の値を更新部326に出力する。また、補助情報生成部224は、正規化部2242及びスケーリング部2244を省いた構成(normalized attentionの適用なし)でもよい。
このように、実施の形態3においては、補助情報生成部224における注意重み計算部2241によって計算された各補助特徴量に対応する注意重み(attention)の値^αΨと、予め設定された各補助特徴量に対応する望ましい注意重み(attention)の値αΨとをさらに用いて、マルチタスク学習を行うため、attention機構がより効果的に学習され、目的話者の音声信号の抽出性能が向上する。
実施の形態4では、attentionの学習をさらに効果的に行うことができるマルチタスク学習(clue condition aware training)について説明する。
図11は、実施の形態4に係る学習装置の構成の一例を示す図である。実施の形態4に係る学習装置420は、例えば、ROM、RAM、CPU等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。図11に示すように、学習装置320は、実施の形態2に係る学習装置220と比して、更新部226に代えて、更新部426を有する。学習装置320は、学習装置220と比して、信頼度予測部428(信頼度)をさらに有する。なお、特徴量変換部230は、各補助特徴量を信頼度予測部428に出力する。また、補助情報生成部224は、正規化部2242及びスケーリング部2244を省いた構成でもよい。
次に、実施の形態4に係る学習処理について説明する。図12は、実施の形態4に係る学習処理の処理手順を示すフローチャートである。
このように、実施の形態4においては、信頼度予測部428によって予測された学習用の目的話者の音声信号の処理に関する複数の信号のそれぞれの各時刻における信頼度と、予め求められた各学習用の目的話者の音声信号の処理に関する複数の信号の信頼度とをさらに用いて、マルチタスク学習を行うため、attention機構がより効果的に学習され、目的話者の音声信号の抽出性能が向上する。
次に、実施の形態5に係る音声信号処理装置について説明する。図13は、実施の形態5に係る音声信号処理装置の構成の一例を示す図である。実施の形態5に係る音声信号処理装置510は、例えば、ROM、RAM、CPU等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。音声信号処理装置510は、音声信号処理部511、特徴量変換部530及び補助情報生成部514(生成部)を有する。
評価用に、LRS3-TED(Lip Reading Sentences 3)音声-映像コーパスに基づく混合音声信号のシミュレーションデータセットを生成した。データセットは、0~5dBのSNR(Signal to Noise Ratio)での混合発話によって生成された2話者の混合音声信号を含むデータセットである。実施の形態1に係る音声信号処理の精度と、実施の形態5に係る音声信号処理の精度を比較した結果を表3に示す。
図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。例えば、音声信号処理装置10,510及び学習装置20,220,320,420は、一体の装置であってもよい。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
図14は、プログラムが実行されることにより、音声信号処理装置10,510及び学習装置20,220,320,420が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
20,220,320,420 学習装置
11、21,221,511 音声信号処理部
12,22,222,512 第1補助特徴量変換部
13,23,223,513 第2補助特徴量変換部
14,24,224,514 補助情報生成部
25,225 学習データ選択部
26,226,326,426 更新部
111,211 第1変換部
112,212,2212 統合部
113,213 第2変換部
230,530 特徴量変換部
227,517 第3補助特徴変換部
428 信頼度予測部
2241 注意重み計算部
2242 正規化部
2243 集約部
2244 スケーリング部
Claims (14)
- 目的話者の音声信号の処理に関する複数の信号を、前記複数の信号の各々に対応する複数の補助ニューラルネットワークを用いて、前記信号ごとにそれぞれ複数の補助特徴量に変換する補助特徴量変換部と、
メインニューラルネットワークを用いて、入力された混合音声信号の特徴量及び前記複数の補助特徴量を基に、前記混合音声信号に含まれる前記目的話者の音声信号に関する情報を推定する音声信号処理部と、
を有し、
前記目的話者の音声信号の処理に関する前記複数の信号とは、モーダルの異なる2つ以上の情報であることを特徴とする音声信号処理装置。 - 前記補助特徴量変換部は、
第1補助ニューラルネットワークを用いて、入力された第1の信号を第1補助特徴量に変換する第1補助特徴量変換部と、
第2補助ニューラルネットワークを用いて、入力された第2の信号を第2補助特徴量に変換する第2補助特徴量変換部と、
を有し、
前記音声信号処理部は、
前記メインニューラルネットワークを用いて、前記入力された混合音声信号の特徴量、前記第1補助特徴量及び前記第2補助特徴量を基に、前記混合音声信号に含まれる目的話者の音声信号を抽出するためのマスク情報を推定し、
前記第1の信号は、前記混合音声信号とは異なる時点において、前記目的話者が単独で発話したときの音声信号であり、
前記第2の信号は、前記混合音声信号が発声されるシーンにおける話者の映像情報である
ことを特徴とする請求項1に記載の音声信号処理装置。 - 前記第1補助特徴量及び前記第2補助特徴量を基に補助情報を生成する生成部をさらに有し、
前記音声信号処理部は、第1メインニューラルネットワークを用いて前記混合音声信号を変換して得た第1中間特徴量と、前記補助情報とを統合して生成した第2中間特徴量を、入力とし、第2メインニューラルネットワークにより前記混合音声信号に含まれる目的話者の音声信号を抽出するためのマスク情報に変換することを特徴とする請求項2に記載の音声信号処理装置。 - 音声信号処理装置が実行する音声信号処理方法であって、
目的話者の音声信号の抽出に関する複数の信号を、複数の補助ニューラルネットワークを用いて、前記信号ごとにそれぞれ複数の補助特徴量に変換する工程と、
メインニューラルネットワークを用いて、入力された混合音声信号の特徴量及び前記複数の補助特徴量を基に、前記混合音声信号に含まれる前記目的話者の音声信号に関する情報を推定する工程と、
を含んだことを特徴とする音声信号処理方法。 - コンピュータを、請求項1~3のいずれか一つに記載の音声信号処理装置として機能させるための音声信号処理プログラム。
- 学習データの中から、学習用の混合音声信号及び学習用の目的話者の音声信号の処理に関する複数の信号を選択する選択部と、
前記学習用の目的話者の音声信号の処理に関する複数の信号を、前記複数の信号の各々に対応する複数の補助ニューラルネットワークを用いて、前記信号ごとにそれぞれ複数の補助特徴量に変換する特徴量変換部と、
メインニューラルネットワークを用いて、前記学習用の混合音声信号の特徴量及び前記複数の補助特徴量を基に、前記学習用の混合音声信号に含まれる目的話者の音声信号の処理に関する情報を推定する音声信号処理部と、
所定基準を満たすまで、各ニューラルネットワークのパラメータを更新し、前記選択部と前記特徴量変換部と前記音声信号処理部との処理を繰り返し実行させることによって、前記所定基準を満たす各ニューラルネットワークのパラメータを設定する更新部と、
を有し、
前記目的話者の音声信号の処理に関する前記複数の信号とは、モーダルの異なる2つ以上の情報であることを特徴とする学習装置。 - 前記選択部は、前記学習データの中から、前記学習用の混合音声信号、学習用の目的話者の音声信号及び学習用の混合音声信号収録時の話者の映像情報を選択し、
前記特徴量変換部は、
第1補助ニューラルネットワークを用いて、前記目的話者の音声信号を第1補助特徴量に変換する第1補助特徴量変換部と、
第2補助ニューラルネットワークを用いて、前記学習用の混合音声信号収録時の話者の映像情報を第2補助特徴量に変換する第2補助特徴量変換部と、
を有し、
前記音声信号処理部は、前記メインニューラルネットワークを用いて、前記学習用の混合音声信号の特徴量、前記第1補助特徴量及び前記第2補助特徴量を基に、前記学習用の混合音声信号に含まれる目的話者の音声信号に関する情報を推定し、
前記更新部は、所定基準を満たすまで、各ニューラルネットワークのパラメータを更新し、前記選択部、前記第1補助特徴量変換部、前記第2補助特徴量変換部及び前記音声信号処理部の処理を繰り返し実行させることによって、前記所定基準を満たす各ニューラルネットワークのパラメータを設定することを特徴とする請求項6に記載の学習装置。 - 前記更新部は、前記音声信号処理部が、前記学習用の混合音声信号の特徴量と前記第1補助特徴量と前記第2補助特徴量とを用いて推定した前記学習用の混合音声信号に含まれる目的話者の音声の、教師信号に対する第1損失と、前記音声信号処理部が、前記学習用の混合音声信号の特徴量と前記第1補助特徴量とを基に推定した前記学習用の混合音声信号に含まれる目的話者の音声の、教師信号に対する第2損失と、前記学習用の混合音声信号の特徴量と前記第2補助特徴量とを基に推定した前記学習用の混合音声信号に含まれる目的話者の音声の、教師信号に対する第3損失と、の重み付け和が小さくなるように各ニューラルネットワークのパラメータを更新することを特徴とする請求項7に記載の学習装置。
- ニューラルネットワークを用いて、前記複数の補助特徴量に各補助特徴量に対応する注意重みをそれぞれ乗じた重みづけ和を生成する補助情報生成部をさらに有し、
前記音声信号処理部は、前記メインニューラルネットワークを構成する第1メインニューラルネットワークを用いて前記混合音声信号を変換して得た第1中間特徴量と、前記重みづけ和とを統合して生成した第2中間特徴量を、入力とし、前記メインニューラルネットワークを構成する第2メインニューラルネットワークにより前記学習用の混合音声信号に含まれる目的話者の音声信号に関する情報を推定し、
前記補助情報生成部は、
前記第1中間特徴量と前記複数の補助特徴量とを基に、各補助特徴量にそれぞれ対応する注意重みを計算する注意重み計算部と、
前記複数の補助特徴量に、前記注意重み計算部によって計算された各補助特徴量に対応する注意重みをそれぞれ乗じた重みづけ和を計算する集約部と、
を有することを特徴とする請求項6に記載の学習装置。 - 前記補助情報生成部は、
各補助特徴量に対し、ノルムの正規化を行う正規化部と、
前記正規化前のノルムの大きさを基に計算されたスケールを乗じた前記重みづけ和を、前記音声信号処理部に出力するスケーリング部と、
をさらに有し、
前記集約部は、正規化された前記複数の補助特徴量に、前記注意重み計算部によって計算された各補助特徴量に対応する注意重みをそれぞれ乗じた重みづけ和を計算することを特徴とする請求項9に記載の学習装置。 - 前記音声信号処理部は、前記学習用の混合音声信号に含まれる目的話者の音声信号を推定し、
前記更新部は、前記注意重み計算部によって計算された各補助特徴量に対応する注意重みと、予め設定された各補助特徴量に対応する望ましい注意重みの値と、前記音声信号処理部が推定した前記学習用の混合音声信号に含まれる目的話者の音声信号と、前記学習用の混合音声信号に含まれる目的話者の音声の教師信号とに基づいた目的関数を最適化するように各ニューラルネットワークのパラメータを更新することを特徴とする請求項9または10に記載の学習装置。 - ニューラルネットワークを用いて、前記複数の補助特徴量を基に、前記学習用の目的話者の音声信号の処理に関する複数の信号のそれぞれの信頼度を予測する予測部をさらに有し、
前記音声信号処理部は、前記学習用の混合音声信号に含まれる目的話者の音声信号を推定し、
前記更新部は、前記予測部によって予測された各学習用の目的話者の音声信号の処理に関する複数の信号の信頼度と、予め求められた各学習用の目的話者の音声信号の処理に関する複数の信号の信頼度と、前記音声信号処理部が推定した前記学習用の混合音声信号に含まれる目的話者の音声信号と、前記学習用の混合音声信号に含まれる目的話者の音声の教師信号とに基づいた目的関数を最適化するように各ニューラルネットワークのパラメータを更新することを特徴とする請求項9または10に記載の学習装置。 - 学習装置が実行する学習方法であって、
学習データの中から、学習用の混合音声信号及び学習用の目的話者の音声信号の処理に関する複数の信号を選択する工程と、
前記学習用の目的話者の音声信号の処理に関する複数の信号を、複数の補助ニューラルネットワークを用いて、前記信号ごとにそれぞれ複数の補助特徴量に変換する工程と、
メインニューラルネットワークを用いて、前記学習用の混合音声信号の特徴量及び前記複数の補助特徴量を基に、前記学習用の混合音声信号に含まれる目的話者の音声信号の処理に関する情報を推定する工程と、
所定基準を満たすまで、各ニューラルネットワークのパラメータを更新し、前記選択する工程と前記変換する工程と前記推定する工程を繰り返し実行させることによって、前記所定基準を満たす各ニューラルネットワークのパラメータを設定する工程と、
を含んだことを特徴とする学習方法。 - コンピュータを、請求項6~12のいずれか一つに記載の学習装置として機能させるための学習プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/032193 WO2021033222A1 (ja) | 2019-08-16 | 2019-08-16 | 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム |
JPPCT/JP2019/032193 | 2019-08-16 | ||
PCT/JP2020/030523 WO2021033587A1 (ja) | 2019-08-16 | 2020-08-07 | 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2021033587A1 JPWO2021033587A1 (ja) | 2021-02-25 |
JP7205635B2 true JP7205635B2 (ja) | 2023-01-17 |
Family
ID=74659871
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021540733A Active JP7205635B2 (ja) | 2019-08-16 | 2020-08-07 | 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220335965A1 (ja) |
JP (1) | JP7205635B2 (ja) |
WO (2) | WO2021033222A1 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004126198A (ja) | 2002-10-02 | 2004-04-22 | Institute Of Physical & Chemical Research | 信号抽出システム、信号抽出方法および信号抽出プログラム |
JP2017515140A (ja) | 2014-03-24 | 2017-06-08 | マイクロソフト テクノロジー ライセンシング,エルエルシー | 混合音声認識 |
WO2018047643A1 (ja) | 2016-09-09 | 2018-03-15 | ソニー株式会社 | 音源分離装置および方法、並びにプログラム |
WO2019017403A1 (ja) | 2017-07-19 | 2019-01-24 | 日本電信電話株式会社 | マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法 |
-
2019
- 2019-08-16 WO PCT/JP2019/032193 patent/WO2021033222A1/ja active Application Filing
-
2020
- 2020-08-07 JP JP2021540733A patent/JP7205635B2/ja active Active
- 2020-08-07 WO PCT/JP2020/030523 patent/WO2021033587A1/ja active Application Filing
- 2020-08-07 US US17/635,354 patent/US20220335965A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004126198A (ja) | 2002-10-02 | 2004-04-22 | Institute Of Physical & Chemical Research | 信号抽出システム、信号抽出方法および信号抽出プログラム |
JP2017515140A (ja) | 2014-03-24 | 2017-06-08 | マイクロソフト テクノロジー ライセンシング,エルエルシー | 混合音声認識 |
WO2018047643A1 (ja) | 2016-09-09 | 2018-03-15 | ソニー株式会社 | 音源分離装置および方法、並びにプログラム |
WO2019017403A1 (ja) | 2017-07-19 | 2019-01-24 | 日本電信電話株式会社 | マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法 |
Non-Patent Citations (1)
Title |
---|
木下慶介他,SpeakerBeam:聞きたい人の声に耳を傾けるコンピュータ-深層学習に基づく音声の選択的聴取,NTT技術ジャーナル,一般社団法人電気通信協会,2018年09月,Vol.30, No.9,pp.12-15 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2021033587A1 (ja) | 2021-02-25 |
WO2021033222A1 (ja) | 2021-02-25 |
US20220335965A1 (en) | 2022-10-20 |
WO2021033587A1 (ja) | 2021-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7023934B2 (ja) | 音声認識方法及び装置 | |
JP5768093B2 (ja) | 音声処理システム | |
WO2019102884A1 (ja) | ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体 | |
JP7342915B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
CN103310784A (zh) | 文本到语音的方法和系统 | |
JP6543820B2 (ja) | 声質変換方法および声質変換装置 | |
Deena et al. | Recurrent neural network language model adaptation for multi-genre broadcast speech recognition and alignment | |
JPWO2020039571A1 (ja) | 音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システム | |
US20230343319A1 (en) | speech processing system and a method of processing a speech signal | |
GB2603776A (en) | Methods and systems for modifying speech generated by a text-to-speech synthesiser | |
US10157608B2 (en) | Device for predicting voice conversion model, method of predicting voice conversion model, and computer program product | |
CN114424209A (zh) | 序列到序列神经模型中的结构保留关注机制 | |
JP6505346B1 (ja) | Dnn音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラム | |
CN113611293B (zh) | 一种蒙古语数据集扩充方法 | |
JP2009086581A (ja) | 音声認識の話者モデルを作成する装置およびプログラム | |
JP5974901B2 (ja) | 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム | |
JP2021039219A (ja) | 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム | |
JP2015041081A (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP7112348B2 (ja) | 信号処理装置、信号処理方法及び信号処理プログラム | |
JP7205635B2 (ja) | 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム | |
JP4964194B2 (ja) | 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体 | |
Yanagisawa et al. | Noise robustness in HMM-TTS speaker adaptation | |
JP6518142B2 (ja) | 言語モデル生成装置およびそのプログラム | |
JP4256314B2 (ja) | 音声認識用音響モデル作成方法、音声認識用音響モデル作成装置、音声認識用音響モデル作成プログラム及びこのプログラムを記録した記録媒体 | |
JPWO2019106758A1 (ja) | 言語処理装置、言語処理システムおよび言語処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211228 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A801 Effective date: 20211228 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20211228 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221129 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221212 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7205635 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |