JP7192882B2 - 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム - Google Patents

発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム Download PDF

Info

Publication number
JP7192882B2
JP7192882B2 JP2020562317A JP2020562317A JP7192882B2 JP 7192882 B2 JP7192882 B2 JP 7192882B2 JP 2020562317 A JP2020562317 A JP 2020562317A JP 2020562317 A JP2020562317 A JP 2020562317A JP 7192882 B2 JP7192882 B2 JP 7192882B2
Authority
JP
Japan
Prior art keywords
rhythm
speech
utterance
conversion
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020562317A
Other languages
English (en)
Other versions
JPWO2020136948A1 (ja
Inventor
定男 廣谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2020136948A1 publication Critical patent/JPWO2020136948A1/ja
Application granted granted Critical
Publication of JP7192882B2 publication Critical patent/JP7192882B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/057Time compression or expansion for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

この発明は、音声信号の発話リズムを変換する技術に関する。
外国語を用いた音声コミュニケーションは、多くの人にとって困難な課題となっている。例えば、日本語を母語とする話者(以下、「日本語母語話者」と呼ぶ)は、英語を母語とする話者(以下、「英語母語話者」と呼ぶ)の話が聞き取れない、自分のしゃべった言葉が英語母語話者に伝わらず聞き返される等の問題を抱えている。日本語と英語の違いは、発話リズムやイントネーションなどの超文節的特徴になるため、これまで、日本語母語話者が発話した任意の英語音声の発話リズムを自動的に変換し、英語母語話者に聞き取り易くする技術が提案されてきた。
例えば、特許文献1では、日本語母語話者および英語母語話者が発話した大量の英語音声を用いて、非負値時空間分解法により得られた時間関数の発話リズム変換則(コードブック)を用いて発話リズムの変換を行っている。
特開2016-218386号公報
従来の発話リズム変換技術では、基本的に、ネイティブ話者が変換対象の音声と同一のテキストを発話した音声が必要とされる。これに対し、特許文献1の手法では、ネイティブ話者と非ネイティブ話者とが同一のテキストを発話した音声から発話リズムの変換則を表すガウス混合モデルを学習し、変換対象の音声信号の発話リズムにガウス混合モデルが最も良く当てはまるようにガウス分布を重み付け加算することで変換後の発話リズムを求める。これにより、ネイティブ話者が同一のテキストを発話した音声が存在しなくとも、発話リズムの変換を行うことができる。しかしながら、発話リズム間の関係は非線形であるため、特許文献1の手法では変換精度が十分に上がらないという課題があった。
この発明の目的は、上記のような技術的課題に鑑みて、発話リズムの変換を行う音声信号と同一のテキストから得られた音声信号がない場合でも精度よく発話リズムを変換することができる発話リズム変換技術を実現することである。
上記の課題を解決するために、この発明の第一の態様の発話リズム変換装置は、第一グループの話者が発話した第一音声信号から抽出した少なくとも音素の発話リズムに関する情報を含む第1特徴量ベクトルを入力とし、第一音声信号の発話リズムを、第二グループの話者の発話リズムに変換して出力するニューラルネットワークである発話リズム変換モデルを記憶するモデル記憶部と、第一グループの話者が発話した入力音声信号から声道スペクトルに関する情報と発話リズムに関する情報とを抽出する特徴量抽出部と、入力音声信号から抽出した発話リズムに関する情報を含む第1特徴量ベクトルを発話リズム変換モデルに入力して変換後の発話リズムを得る変換部と、変換後の発話リズムと入力音声信号から抽出した声道スペクトルに関する情報とを用いて出力音声信号を生成する音声合成部と、を含む。
上記の課題を解決するために、この発明の第二の態様のモデル学習装置は、第一グループの話者が発話した第一音声信号から抽出した少なくとも音素の発話リズムに関する情報を含む第1特徴量ベクトルと第二グループの話者が発話した第二音声信号から抽出した発話リズムに関する情報との組からなる学習データを記憶する学習データ記憶部と、学習データを用いて、第一音声信号から抽出した第1特徴量ベクトルを入力とし、第一音声信号の発話リズムを、第二グループの話者の発話リズムに変換して出力するニューラルネットワークを学習する学習部と、を含む。
この発明によれば、予め学習したニューラルネットワークを用いて発話リズムを変換することで、発話リズムの変換を行う音声信号と同一のテキストから得られた音声信号がない場合でも精度よく発話リズムを変換することができる。
図1は、発話リズム変換装置の機能構成を例示する図である。 図2は、発話リズム変換方法の処理手順を例示する図である。 図3は、モデル学習装置の機能構成を例示する図である。 図4は、モデル学習方法の処理手順を例示する図である。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
[第一実施形態]
この発明の第一実施形態は、事前に学習されたニューラルネットワーク(以下、「発話リズム変換モデル」と呼ぶ)を用いて、第一グループの話者による音声信号を、第二グループの話者の発話リズムに変換する発話リズム変換装置および方法と、事前に収集された学習データを用いて、発話リズム変換装置および方法が用いる発話リズム変換モデルを学習するモデル学習装置および方法である。第一グループとは、例えば、第一言語(例えば、日本語)を母語とする話者(以下、「日本語母語話者」と呼ぶ)である。第二グループとは、例えば、第二言語(例えば、英語)を母語とする話者(以下、「英語母語話者」と呼ぶ)である。
<発話リズム変換>
第一実施形態の発話リズム変換装置1は、図1に例示するように、モデル記憶部10、特徴量抽出部11、変換部12、および音声合成部13を備える。この発話リズム変換装置1が、図2に例示する各ステップの処理を行うことにより第一実施形態の発話リズム変換方法が実現される。
発話リズム変換装置1は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。発話リズム変換装置1は、例えば、中央演算処理装置の制御のもとで各処理を実行する。発話リズム変換装置1に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。発話リズム変換装置1の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。発話リズム変換装置1が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。
モデル記憶部10には、予め学習した発話リズム変換モデルが記憶されている。発話リズム変換モデルは、第一グループの話者が発話した音声を収録した音声信号から抽出した特徴量ベクトルを入力とし、第一グループの話者の発話リズムを第二グループの話者の発話リズムに変換して出力するニューラルネットワークである。発話リズム変換モデルは、第一グループの話者が第二言語で発話した音声を収録した音声信号(以下、「第一音声信号」と呼ぶ)と、第二グループの話者が第二言語で発話した音声を収録した音声信号(以下、「第二音声信号」と呼ぶ)との組からなるデータの集合(以下、「学習データ」と呼ぶ)を用いて、深層学習により、予め学習されたものである。学習データは、例えば、日本語母語話者が英語で発話した音声信号と、英語母語話者が同一のテキストを英語で発話した音声信号とを組にした十分な量のデータである。
ニューラルネットワークとしては、例えば、512ユニット、5層からなる多層パーセプトロン(MLP: Multi Layer Perceptron)や、5層、フィルタ数512で構成される畳み込みニューラルネットワーク(CNN: Convolutional Neural Network)等を用いればよい。畳み込みニューラルネットワークを用いる場合、入力側から順にフィルタを、例えば、(10, 2), (8, 1), (6, 1), (3, 1), (1, 2)とすればよい。
ステップS11において、特徴量抽出部11は、発話リズム変換装置1に入力された第一音声信号(以下、「入力音声信号」と呼ぶ)からフレーム毎に特徴量を抽出し、その特徴量を含む特徴量ベクトルを生成する。特徴量抽出部11は、抽出した特徴量ベクトルを、変換部12および音声合成部13へ出力する。
具体的には、特徴量抽出部11は、入力音声信号を声道スペクトルに関する情報と発話リズムに関する情報とに分解し、発話リズムに関する情報を含む第1特徴量ベクトルを変換部12に、声道スペクトルに関する情報を含む第2特徴量ベクトルを音声合成部13にそれぞれ出力する。
変換部12に出力される特徴量ベクトル(以下、「第1特徴量ベクトル」とする)は、少なくとも変換対象の音素ptに対応した発話リズム情報(Φ'1,t, D1,t)を含む。ただし、tは入力音声信号に含まれる音素の番号である。発話リズム情報の求め方は、例えば、特許文献1の段落[0011]-[0027]に記載された方法を用いることができる。抽出する特徴量は、発話リズム情報(Φ'1,t, D1,t)のほかに、音素ptの駆動時点(その音素を最もよく表す時刻)におけるメル周波数ケプストラム係数(MFCC: Mel-Frequency Cepstrum Coefficients)や基本周波数F0等、音声信号に関する既知の特徴量をさらに含んでいてもよい。
生成する第1特徴量ベクトルは、連続する所定数の音素についての特徴量を並べたベクトルである。例えば、変換対象の音素ptの特徴量を((Φ'1,t, D1,t), MFCC1,t, F01,t)とすれば、特徴量ベクトルは連続する3つの音素pt-1, pt, pt+1の特徴量を並べた(Φ'1,t-1, Φ'1,t, Φ'1,t+1, D1,t-1, D1,t, D1,t+1, MFCC1,t-1, MFCC1,t, MFCC1,t+1, Flag1,t-1, F01,t-1, Flag1,t, F01,t, Flag1,t+1, F01,t+1)Tと表すことができる。ここで、・T(上付きのT)は行列またはベクトルの転置を表す。Flagは有声か無声かを表す情報であり、例えば有声の場合は1、無声の場合は0が設定される。
特徴量抽出部11は、例えば、表1に示す要素からなる第1特徴量ベクトルを抽出する。表1において、1段目は要素の種類(属性)を表し、2段目はその要素を抽出した音素の番号を表し、3段目はその要素の次数を表す。
Figure 0007192882000001
Φ'Jは日本語母語話者のサンプリングした時間関数を10点でサンプリングしたものとする。ただし、Φ'Jの1次および10次(最終次)の値は常に0.5のため、第1特徴量ベクトルから除外する。DJは音素の継続時間長である。MFCCは音声認識等で用いられる音声信号から抽出されるメルケプストラム周波数であり、13次で分析し、0次項(ゲイン)を除いた13次を用いるものとする。F0は無音の値を補完してHzにlogを取り、平均値を引いて正規化したものとする。Flagは有声が1、無声が0のフラグ情報を表すものとする。この例では、入力音声信号に対する第1特徴量ベクトルは72次のベクトルとなる。
発話リズム変換モデルを多層パーセプトロン(MLP)で構成する場合は、この72次のベクトルを変換部12へ入力する。発話リズム変換モデルを畳み込みニューラルネットワーク(CNN)で構成する場合は、1つ前の音素pt-1に関する24次のベクトル(Φ'1,t-1, D1,t-1, MFCC1,t-1, Flag1,t-1, F01,t-1)Tと、現在の音素ptに関する24次のベクトル(Φ'1,t, D1,t, MFCC1,t, Flag1,t, F01,t)Tと、1つ後の音素pt+1に関する24次のベクトル(Φ'1,t+1, D1,t+1, MFCC1,t+1, Flag1,t+1, F01,t+1)Tとからなる24×3行列を変換部12へ入力する。
また、音声合成部13に出力される特徴量ベクトル(以下、「第2特徴量ベクトル」という)は、声道スペクトルに関する情報であり、例えばLSPパラメータ列である。特許文献1の[0011]-[0027]に記載された方法では、LSPパラメータの分析次数の総数をp、分析次数を表すインデックスをiとし、tを時刻を表すインデックスとして、入力音声信号である時系列信号Y(t)に対するLSPパラメータ列Y(t)={y1(t),…,yi(t),…,yp(t)}が得られるので、これを第2特徴量ベクトルとして用いれば良い。
ステップS12において、変換部12は、特徴量抽出部11から入力音声信号の第1特徴量ベクトルを受け取り、モデル記憶部10に記憶された発話リズム変換モデルへその第1特徴量ベクトルを入力して、入力音声信号の発話リズムを第二グループの話者の発話リズムに変換した変換後の発話リズム情報(Φ'2,t, D2,t)を得る。変換部12は、得られた変換後の発話リズム情報(Φ'2,t, D2,t)を音声合成部13へ出力する。
変換部12は、上述の72次の第1特徴量ベクトルを入力としたとき、ΦEを英語母語話者のサンプリングした時間関数を20点でサンプリングしたものとし、表2に示す要素からなる21次のベクトルを出力する。
Figure 0007192882000002
ステップS13において、音声合成部13は、特徴量抽出部11から入力音声信号の第2特徴量ベクトルを、変換部12から変換後の発話リズム情報(Φ'2,t, D2,t)を受け取り、入力音声信号の第2特徴量ベクトルと変換後の発話リズム情報(Φ'2,t, D2,t)とを用いて、入力音声信号の発話リズムを第二グループの話者の発話リズムに変換した出力音声信号を合成して出力する。音声合成の処理は、例えば、特許文献1の段落[0048]-[0054]に記載された方法を用いることができる。
<モデル学習>
第一実施形態のモデル学習装置2は、図3に例示するように、モデル記憶部10、学習データ記憶部20、および学習部21を備える。学習部21は、変換部211、終了判定部212、およびパラメータ更新部213を備える。このモデル学習装置2が、図4に例示する各ステップの処理を行うことにより第一実施形態のモデル学習方法が実現される。
モデル学習装置2は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。モデル学習装置2は、例えば、中央演算処理装置の制御のもとで各処理を実行する。モデル学習装置2に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。モデル学習装置2の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。モデル学習装置2が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。モデル学習装置2が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。
学習データ記憶部20には、予め収集した学習データが記憶されている。学習データは、第一音声信号から抽出した発話リズムに関する情報を含む第1特徴量ベクトルと、第二音声信号から抽出した発話リズムに関する情報との組からなるデータの集合である。学習データは、例えば、日本語母語話者が英語で発話した音声信号の第1特徴量ベクトルと、英語母語話者が同一のテキストを英語で発話した音声信号の発話リズムに関する情報とを組にした十分な量のデータである。第1特徴量ベクトルに含まれる特徴量の種類(属性)は、発話リズム変換装置1の特徴量抽出部11で抽出する特徴量と同様とする。学習データは、予め抽出した特徴量ベクトルではなく、音声信号そのものであってもよい。その場合、モデル学習装置2は、学習データの音声信号から特徴量ベクトルを都度抽出する特徴量抽出部を備えるように構成すればよい。
ステップS21において、学習部21は、学習データ記憶部20に記憶された学習データを用いて、第一音声信号から抽出した第1特徴量ベクトルを入力とし、第一音声信号の発話リズムを第二グループの話者の発話リズムに変換して出力するニューラルネットワークを学習する。学習部21は、学習済みのニューラルネットワークのパラメータを発話リズム変換モデルとしてモデル記憶部10へ記憶する。
ニューラルネットワークの学習は、具体的には、以下のようにして行う。
ステップS211において、変換部211は、予め適当な初期値が設定されたニューラルネットワークに、学習データ中の第一音声信号の第1特徴量ベクトルを入力し、変換後の発話リズム情報の推定値を求める。
ステップS212において、終了判定部212は、所定の終了条件を満たすか否かを判定する。終了条件を満たす場合(YES)には、学習を終了する。終了条件を満たさない場合(NO)には、ステップS213を実行し、その後再度ステップS211を実行する。所定の終了条件は、予め設定された繰り返し回数に到達したこと、発話リズム情報の推定値と正解データとの誤差が所定の閾値以下になったこと、パラメータの更新量が所定の閾値以下となったこと等を用いればよい。
ステップS213において、パラメータ更新部213は、変換部211で求めた発話リズム情報の推定値と、入力した第1特徴量ベクトルに対応する学習データ中の第二音声信号の発話リズム情報(正解データ)との比較結果に応じて、ニューラルネットワークの各パラメータを更新する。パラメータの更新は周知の誤差伝搬学習法などにより行えばよい。例えば、発話リズム情報の推定値と正解データとの平均二乗誤差を最小化するようにパラメータの更新(学習)を行う。
学習部21は、学習が終了したときのニューラルネットワークのパラメータをモデル記憶部10へ記憶する。発話リズム変換装置1へ直接記憶するために学習済みのニューラルネットワークのパラメータを出力し、モデル学習装置2はモデル記憶部10を備えないように構成してもよい。発話リズム変換装置1の変換部12は、学習済みのパラメータを設定したニューラルネットワークを発話リズム変換モデルとして、第一実施形態で説明した処理を実行する。
[第二実施形態]
第一実施形態では、日本語母語話者の3音素組の時間関数を英語母語話者の3音素組の中心音素の時間関数に変換していた。これに対して、第二実施形態では、日本語母語話者の時間関数全体を英語母語話者の時間関数全体に変換するように発話リズム変換モデルを構成する。第一実施形態の発話リズム変換モデルは、多層パーセプトロン(MLP)や畳み込みニューラルネットワーク(CNN)で構成したが、第二実施形態の発話リズム変換モデルは、再帰型ニューラルネットワーク(RNN)で構成する。
第一実施形態では、3音素組による局所的な変換が行われていたが、発話リズムは超文節的特徴であり、局所的な近似では不十分である。また、従来技術では、日本語母語話者の英語音声に含まれる言いよどみや言い間違いなどを別のモデルで表現し、不要であれば時間関数から削除していたが、この方法では時間関数が不連続になってしまうという問題がある。そのため、第二実施形態では、時系列を扱うことが可能な、自然言語処理や音声処理で広く用いられている、再帰型ニューラルネットワークを時間関数の変換に用いることにより、発話全体を考慮しながら時間関数の推定を可能とする。また、言いよどみや言い間違いなどに関して別のモデルを必要としないため、より自然な発話リズム変換を行うことが可能となる。
<発話リズム変換>
第二実施形態の特徴量抽出部11は、入力音声信号から発話リズムに関する情報を含む第1特徴量ベクトルと声道スペクトルに関する情報を含む第2特徴量ベクトルとを抽出する。各音素から求める発話リズム情報は第一実施形態と同様であるが、生成する第1特徴量ベクトルは、入力されたすべての音素(すなわち、発話全体)についての特徴量を連結したベクトル系列とする。
第二実施形態の発話リズム変換モデルは再帰型ニューラルネットワークで構成するため、ある音素ptに関する特徴量ベクトルは1つの音素の特徴量のみからなり、例えば、表3に示す要素からなる24次のベクトルとなる。
Figure 0007192882000003
第二実施形態の特徴量抽出部11は、発話リズム情報に加え、日本語母語話者の言いよどみや言い間違いなどを考慮するために、音素分類情報を抽出して第1特徴量ベクトルに含めてもよい。音素分類情報とは、例えば、発話開始を0、発話終了を1、ショートポーズを2、不要な挿入母音を3、などに設定した情報である。
第二実施形態の変換部12は、発話リズム変換モデルへ第1特徴量ベクトルを入力し、入力音声信号の発話リズムを第二グループの話者の発話リズムに変換した変換後の発話リズム情報を得る。各音素について得られる変換後の発話リズム情報は、第一実施形態と同様であり、例えば、表2に示した要素からなる21次のベクトルであるが、発話リズム変換モデルの出力ベクトルは、すべての音素(すなわち、発話全体)についての特徴量を連結したベクトル系列となる。
特徴量抽出部11が生成して音声合成部13に入力される第2特徴量ベクトルや、音声合成部13の処理は、第一実施形態と同様である。
<モデル学習>
第二実施形態で用いる学習データは、第一実施形態と同様に、例えば、日本語母語話者と英語母語話者が同一の英文(例えば、"I have a pen"など)を英語で発話したパラレルデータである。同じ英文ではあるが、日本語母語話者の英語音声は言いよどみや言い間違いなどが含まれるため、第二実施形態では、非パラレルなデータを扱える注意機構(attention)付系列変換モデル(Seq2Seq)を用いる。注意機構とは、Decoderが推論するためにEncoderのどの時刻に注意するかを示すものである。リズム変換では、Encoderの時刻とDecoderの時刻との対応がほぼ対角になることから、例えば、Guided Attention Loss(参考文献1参照)を利用する。これにより、言いよどみや言い間違いなどをスキップなどすることができる。ネットワーク構造は、音声合成などで用いられるTacotron2(参考文献2参照)を参考にして構築する。なお、入力ベクトルと出力ベクトルの音素数は一致していなくてもよい。
〔参考文献1〕Tachibana, Hideyuki & Uenoyama, Katsuya & Aihara, Shunsuke. (2017). Efficiently Trainable Text-to-Speech System Based on Deep Convolutional Networks with Guided Attention.
〔参考文献2〕Shen, J.; Pang, R.; Weiss, R.J.; Schuster, M.; Jaitly, N.; Yang, Z.; Chen, Z.; Zhang, Y.; Wang, Y.; Skerrv-Ryan, R.; et al. Natural TTS Synthesis by ConditioningWavenet on MEL Spectrogram Predictions. In Proceedings of the 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Calgary, AB, Canada, 12-17 May 2018; pp. 4779-4783. doi:10.1109/ICASSP.2018.8461368.
学習のための目的関数は、例えば、|Y^-Y|2 + |P^-P|2 + wGALとし、これを最小化するようにネットワークを学習する。ここで、Yは表3に示した特徴量ベクトルであり、Pは音素分類情報であり、^は推定値を表す。GALはGuided Attention Lossを表し、参考文献1の4.1章に記載されたWntに相当する。wは重みであり、例えば10000とする。|P^-P|2の代わりに、Pに対するエントロピーを用いてもよい。
[変形例]
発話リズム変換モデルに入力する第1特徴量ベクトルは、ゲイン(声の大きさ)、音素、調音特徴などを加えてもよい。
第一実施形態では、変換対象の音素ptと前後の音素pt-1, pt+1との3つ組を第1特徴量ベクトルに含めたが、音素pt-2, pt-1, pt, pt+1, pt+2の5つ組を第1特徴量ベクトルに含めてもよい。
発話リズム変換装置1の音声合成部13において、出力ベクトルの基本周波数F0を用いて、入力音声信号のイントネーションを変換した変換後音声信号を合成してもよい。
上述の実施形態では、発話リズム変換装置1とモデル学習装置2とを別々の装置として構成する例を説明したが、発話リズム変換装置1とモデル学習装置2とが備えるべき機能をすべて備えた一台の発話リズム変換装置として構成してもよい。すなわち、モデル記憶部10、特徴量抽出部11、変換部12、音声合成部13、学習データ記憶部20、および学習部21を含む発話リズム変換装置を構成することも可能である。
第一および第二実施形態により変換された時間関数およびF0は、ニューラルネットワークを用いたとしても、人間のそれらと比べて変動が小さく、自然な合成音声とならないことがわかっている。参考文献3の敵対的生成ネットワーク(GAN)を用いることで、この問題を解消することも可能である。
〔参考文献3〕Y. Saito, S. Takamichi and H. Saruwatari, "Statistical Parametric Speech Synthesis Incorporating Generative Adversarial Networks," in IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 26, no. 1, pp. 84-96, Jan. 2018.
以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (6)

  1. 第一グループの話者が発話した第一音声信号から抽出した少なくとも音素の発話リズムに関する情報を含むベクトルを入力とし、上記第一音声信号の発話リズムを、第二グループの話者の発話リズムに変換して出力するニューラルネットワークである発話リズム変換モデルを記憶するモデル記憶部と、
    上記第一グループの話者が発話した入力音声信号から、声道スペクトルに関する情報と、発話リズムに関する情報と付加特徴量とを含む第1特徴量ベクトルとを抽出する特徴量抽出部と、
    記第1特徴量ベクトルを上記発話リズム変換モデルに入力して変換後の発話リズムを得る変換部と、
    上記変換後の発話リズムと上記入力音声信号から抽出した声道スペクトルに関する情報とを用いて出力音声信号を生成する音声合成部とを含み、
    上記付加特徴量は、音素の駆動時点におけるメル周波数ケプストラム係数、及び有声無声フラグと基本周波数の、両方またはいずれか一方
    を含む発話リズム変換装置。
  2. 請求項1に記載の発話リズム変換装置であって、
    上記第1特徴量ベクトルは、前後に連続する複数の音素の発話リズムに関する情報をさらに含むものである、
    発話リズム変換装置。
  3. 第一グループの話者が発話した第一音声信号から抽出した少なくとも音素の発話リズムに関する情報と付加特徴量とを含む第1特徴量ベクトルと第二グループの話者が発話した第二音声信号から抽出した発話リズムに関する情報との組からなる学習データを記憶する学習データ記憶部と、
    上記学習データを用いて、上記第一音声信号から抽出した第1特徴量ベクトルを入力とし、上記第一音声信号の発話リズムを、上記第二グループの話者の発話リズムに変換して出力するニューラルネットワークを学習する学習部とを含み、
    上記付加特徴量は、音素の駆動時点におけるメル周波数ケプストラム係数、及び有声無声フラグと基本周波数の、両方またはいずれか一方
    を含むモデル学習装置。
  4. モデル記憶部に、第一グループの話者が発話した第一音声信号から抽出した少なくとも音素の発話リズムに関する情報を含むベクトルを入力とし、上記第一音声信号の発話リズムを、第二グループの話者の発話リズムに変換して出力するニューラルネットワークである発話リズム変換モデルが記憶されており、
    特徴量抽出部が、上記第一グループの話者が発話した入力音声信号から声道スペクトルに関する情報と、発話リズムに関する情報と付加特徴量とを含む第1特徴量ベクトルとを抽出し、
    変換部が、上記第1特徴量ベクトルを上記発話リズム変換モデルに入力して変換後の発話リズムを得、
    音声合成部が、上記変換後の発話リズムと上記入力音声信号から抽出した声道スペクトルに関する情報とを用いて出力音声信号を生成する発話リズム変換方法であって、
    上記付加特徴量は、音素の駆動時点におけるメル周波数ケプストラム係数、及び有声無声フラグと基本周波数の、両方またはいずれか一方である
    発話リズム変換方法。
  5. 学習データ記憶部に、第一グループの話者が発話した第一音声信号から抽出した少なくとも音素の発話リズムに関する情報と付加特徴量とを含む第1特徴量ベクトルと第二グループの話者が発話した第二音声信号から抽出した発話リズムに関する情報との組からなる学習データが記憶されており、
    学習部が、上記学習データを用いて、上記第一音声信号から抽出した第1特徴量ベクトルを入力とし、上記第一音声信号の発話リズムを、上記第二グループの話者の発話リズムに変換して出力するニューラルネットワークを学習するモデル学習方法であって、
    上記付加特徴量は、音素の駆動時点におけるメル周波数ケプストラム、及び有声無声フラグと基本周波数の、両方またはいずれか一方である
    モデル学習方法。
  6. 請求項1または2に記載の発話リズム変換装置もしくは請求項3に記載のモデル学習装置としてコンピュータを機能させるためのプログラム。
JP2020562317A 2018-12-26 2019-06-20 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム Active JP7192882B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018242126 2018-12-26
JP2018242126 2018-12-26
PCT/JP2019/024438 WO2020136948A1 (ja) 2018-12-26 2019-06-20 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2020136948A1 JPWO2020136948A1 (ja) 2021-09-30
JP7192882B2 true JP7192882B2 (ja) 2022-12-20

Family

ID=71127891

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020562317A Active JP7192882B2 (ja) 2018-12-26 2019-06-20 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム

Country Status (3)

Country Link
US (1) US11869529B2 (ja)
JP (1) JP7192882B2 (ja)
WO (1) WO2020136948A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200394994A1 (en) * 2019-06-12 2020-12-17 Nvidia Corporation Invertible neural network to synthesize audio signals
CN113299318B (zh) * 2021-05-24 2024-02-23 百果园技术(新加坡)有限公司 一种音频节拍的检测方法、装置、计算机设备和存储介质
WO2023112095A1 (ja) * 2021-12-13 2023-06-22 日本電信電話株式会社 音声合成装置、音声合成方法、及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016218386A (ja) 2015-05-26 2016-12-22 日本電信電話株式会社 発話リズム変換装置、方法及びプログラム
JP2016218309A (ja) 2015-05-22 2016-12-22 国立研究開発法人情報通信研究機構 音声認識装置及びコンピュータプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5143809B2 (ja) * 2009-10-09 2013-02-13 日本電信電話株式会社 時空間分解装置、発話リズム変換装置、これらの方法及びプログラム
WO2013008471A1 (ja) * 2011-07-14 2013-01-17 パナソニック株式会社 声質変換システム、声質変換装置及びその方法、声道情報生成装置及びその方法
GB2517503B (en) * 2013-08-23 2016-12-28 Toshiba Res Europe Ltd A speech processing system and method
JP6167063B2 (ja) * 2014-04-14 2017-07-19 日本電信電話株式会社 発話リズム変換行列生成装置、発話リズム変換装置、発話リズム変換行列生成方法、及びそのプログラム
CA3155320A1 (en) * 2016-09-06 2018-03-15 Deepmind Technologies Limited Generating audio using neural networks
US10896669B2 (en) * 2017-05-19 2021-01-19 Baidu Usa Llc Systems and methods for multi-speaker neural text-to-speech
US10510358B1 (en) * 2017-09-29 2019-12-17 Amazon Technologies, Inc. Resolution enhancement of speech signals for speech synthesis
WO2020118643A1 (en) * 2018-12-13 2020-06-18 Microsoft Technology Licensing, Llc Neural text-to-speech synthesis with multi-level text information

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016218309A (ja) 2015-05-22 2016-12-22 国立研究開発法人情報通信研究機構 音声認識装置及びコンピュータプログラム
JP2016218386A (ja) 2015-05-26 2016-12-22 日本電信電話株式会社 発話リズム変換装置、方法及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MORITZ,Niko et al.,A CHIME-3 CHALLENGE SYSTEM: LONG-TERM ACOUSTIC FEATURES FOR NOISE ROBUST AUTOMATIC SPEECH RECOGNITION,2015 IEEE Workshop on Automatic Speech Recognition and Understanding(ASRU),IEEE,2015年12月13日,pp.468-474

Also Published As

Publication number Publication date
WO2020136948A1 (ja) 2020-07-02
US20220076691A1 (en) 2022-03-10
JPWO2020136948A1 (ja) 2021-09-30
US11869529B2 (en) 2024-01-09

Similar Documents

Publication Publication Date Title
CN112204653B (zh) 通过机器学习的直接的语音到语音翻译
US10186252B1 (en) Text to speech synthesis using deep neural network with constant unit length spectrogram
JP6052814B2 (ja) 音声認識モデルの構築方法、音声認識方法、コンピュータ・システム、音声認識装置、プログラムおよび記録媒体
CN112435654B (zh) 通过帧插入对语音数据进行数据增强
US20140365221A1 (en) Method and apparatus for speech recognition
JP7192882B2 (ja) 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム
JP2002366187A (ja) 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JP2016218309A (ja) 音声認識装置及びコンピュータプログラム
JP2023539888A (ja) 声変換および音声認識モデルを使用した合成データ拡大
EP4266306A1 (en) A speech processing system and a method of processing a speech signal
JP6631883B2 (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
Dua et al. Spectral warping and data augmentation for low resource language ASR system under mismatched conditions
KR20220134347A (ko) 다화자 훈련 데이터셋에 기초한 음성합성 방법 및 장치
JP4964194B2 (ja) 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体
JP2020013008A (ja) 音声処理装置、音声処理プログラムおよび音声処理方法
JP7339151B2 (ja) 音声合成装置、音声合成プログラム及び音声合成方法
Ajayi et al. Systematic review on speech recognition tools and techniques needed for speech application development
WO2020166359A1 (ja) 推定装置、推定方法、及びプログラム
JP7028203B2 (ja) 音声認識装置、音声認識方法、プログラム
JP7173339B2 (ja) 発話評価装置、発話評価方法、およびプログラム
Bohouta Improving wake-up-word and general speech recognition systems
Kamath et al. Automatic Speech Recognition
Gulić et al. A digit and spelling speech recognition system for the croatian language
Sadashivappa MLLR Based Speaker Adaptation for Indian Accents

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220506

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220627

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221121

R150 Certificate of patent or registration of utility model

Ref document number: 7192882

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150