JP6777768B2 - 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム - Google Patents
単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム Download PDFInfo
- Publication number
- JP6777768B2 JP6777768B2 JP2018568548A JP2018568548A JP6777768B2 JP 6777768 B2 JP6777768 B2 JP 6777768B2 JP 2018568548 A JP2018568548 A JP 2018568548A JP 2018568548 A JP2018568548 A JP 2018568548A JP 6777768 B2 JP6777768 B2 JP 6777768B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- vector
- model
- learning
- vectorization model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 46
- 239000013598 vector Substances 0.000 claims description 136
- 230000015572 biosynthetic process Effects 0.000 claims description 37
- 238000003786 synthesis reaction Methods 0.000 claims description 37
- 238000006243 chemical reaction Methods 0.000 claims description 28
- 238000013528 artificial neural network Methods 0.000 claims description 23
- 230000014509 gene expression Effects 0.000 claims description 22
- 238000001308 synthesis method Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 34
- 230000011218 segmentation Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000000306 recurrent effect Effects 0.000 description 6
- 238000007796 conventional method Methods 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 238000004088 simulation Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 229940035289 tobi Drugs 0.000 description 1
- NLVFBUXFDBBNBW-PBSUHMDJSA-N tobramycin Chemical compound N[C@@H]1C[C@H](O)[C@@H](CN)O[C@@H]1O[C@H]1[C@H](O)[C@@H](O[C@@H]2[C@@H]([C@@H](N)[C@H](O)[C@@H](CO)O2)O)[C@H](N)C[C@@H]1N NLVFBUXFDBBNBW-PBSUHMDJSA-N 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Description
本発明は、音声合成や音声認識などの自然言語処理で用いられる単語をベクトル化する技術に関する。
自然言語処理等の分野で、単語をベクトル化する技術が提案されている。例えば、単語をベクトル化する技術としてWord2Vecが知られている(非特許文献1等)。単語ベクトル化装置90は、ベクトル化対象単語系列を入力とし、各単語を示す単語ベクトルを出力する(図1参照)。Word2Vec等の単語ベクトル化技術は、単語をベクトル化し、計算機上で扱いやすくすることができる。そのため、計算機上で扱われる音声合成、音声認識、機械翻訳、対話システム、検索システム等の様々な自然言語処理技術で単語ベクトル化技術が利用されている。
Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean, "Efficient estimation of word representations in vector space", 2013, ICLR
現在の単語ベクトル化技術で用いられているモデルfは、単語の表記の情報(テキストデータ)texLのみで学習される(図2参照)。例えば、Word2Vecでは、前後の単語からある単語を推定するContinuous Bag of Words(CBOW、図3A参照)、ある単語から前後の単語を推定するSkip-gram(図3B参照)等のニューラルネットワーク(単語ベクトル化モデル)92を学習することで、単語間の関係性を学習する。そのため、得られる単語ベクトルは、単語の意味(品詞等)等に基づきベクトル化しているものであり、発音等の情報を考慮することはできない。例えば、英単語"won't"、"want"、"don't"は、ストレスの位置が同じ、発音記号もほぼ同じであるため、発音がほぼ同一の単語だと考えられる。しかし、Word2Vec等ではそういった単語を類似したベクトルへ変換することができない。
本発明は、単語を、その単語の持つ音響的な特徴も考慮した単語ベクトルに変換する単語ベクトル化装置、単語ベクトル化装置で利用される単語ベクトル化モデルを学習する単語ベクトル化モデル学習装置、単語ベクトルを用いて合成音声データを生成する音声合成装置、それらの方法、及びプログラムを提供することを目的とする。
上記の課題を解決するために、本発明の一態様によれば、単語ベクトル化モデル学習装置は、学習用テキストデータに含まれる単語yL,s(t)を示すベクトルwL,s(t)と、学習用テキストデータに対応する音声データの音響特徴量であって単語yL,s(t)に対応する音響特徴量afL,s(t)とを用いて、単語ベクトル化モデルを学習する学習部を含む。単語ベクトル化モデルは単語を示すベクトルを入力とし、その単語に対応する音声データの音響特徴量を出力とするニューラルネットワークを含み、単語ベクトル化モデルは何れかの中間層の出力値を単語ベクトルとするモデルである。
上記の課題を解決するために、本発明の他の態様によれば、単語ベクトル化モデル学習装置が実行する単語ベクトル化モデル学習方法は、学習用テキストデータに含まれる単語yL,s(t)を示すベクトルwL,s(t)と、学習用テキストデータに対応する音声データの音響特徴量であって単語yL,s(t)に対応する音響特徴量afL,s(t)とを用いて、単語ベクトル化モデルを学習する学習ステップを含む。単語ベクトル化モデルは単語を示すベクトルを入力とし、その単語に対応する音声データの音響特徴量を出力とするニューラルネットワークを含み、単語ベクトル化モデルは何れかの中間層の出力値を単語ベクトルとするモデルである。
本発明によれば、音響的な特徴も考慮した単語ベクトルを得ることができるという効果を奏する。
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<第一実施形態のポイント>
近年、音声認識等の学習データとして、大量の音声データ及びその書き起こしテキスト(以下、音声認識用コーパスともいう)が用意されるようになっている。本実施形態では、単語ベクトル化モデルの学習データとして、従来用いられているテキスト(単語(形態素)の表記)に加え音声データを用いる。例えば、大量の音声データとテキストとを用いて、入力単語(テキストデータ)からその単語の持つ音響特徴量(スペクトル、音高パラメータ等)とその時間変動を推定するモデルを学習し、そのモデルを単語ベクトル化モデルとして使用する。
近年、音声認識等の学習データとして、大量の音声データ及びその書き起こしテキスト(以下、音声認識用コーパスともいう)が用意されるようになっている。本実施形態では、単語ベクトル化モデルの学習データとして、従来用いられているテキスト(単語(形態素)の表記)に加え音声データを用いる。例えば、大量の音声データとテキストとを用いて、入力単語(テキストデータ)からその単語の持つ音響特徴量(スペクトル、音高パラメータ等)とその時間変動を推定するモデルを学習し、そのモデルを単語ベクトル化モデルとして使用する。
このようにモデルを学習することで、単語間の発音等の類似性を考慮したベクトルを抽出することが可能になる。さらに、発音等の類似性を考慮した単語ベクトルの利用により、音声合成、音声認識等の音声処理技術の性能向上が可能となる。
<第一実施形態に係る単語ベクトル化モデル学習装置>
図4は第一実施形態に係る単語ベクトル化モデル学習装置110の機能ブロック図を、図5はその処理フローを示す。
図4は第一実施形態に係る単語ベクトル化モデル学習装置110の機能ブロック図を、図5はその処理フローを示す。
単語ベクトル化モデル学習装置110は、(1)学習用テキストデータtexLと、(2)学習用テキストデータtexLに対応する音声データに基づく情報xLと、(3)音声データ中の単語yL,s(t)がいつ発話されたかを示す単語セグメンテーション情報segL,s(t)とを入力とし、これらの情報を用いて学習した単語ベクトル化モデルfw→afを出力する。
従来の単語ベクトル化モデル学習装置91(図2参照)との大きな違いは、単語ベクトル化モデル学習装置91は単語ベクトル化モデルの学習データとしてテキストデータのみを用いているのに対し、本実施形態では音声データとそのテキストデータとを用いている点である。
本実施形態では、学習の際には、単語ベクトル化モデルfw→afの入力として単語情報(学習用テキストデータtexLに含まれる単語yL,s(t)を示す情報wL,s(t))、出力として音声情報(その単語yL,s(t)の音響特徴量afL,s(t))を使用することで(図6参照)、単語からその単語の音響特徴量を推定するニューラルネットワーク(単語ベクトル化モデル)を学習する。
単語ベクトル化モデル学習装置110は、CPUと、RAMと、以下の処理を実行するためのプログラムを記録したROMを備えたコンピュータで構成され、機能的には次に示すように構成されている。
単語ベクトル化モデル学習装置110は、単語表現変換部111、音声データ分割部112と、学習部113を含む。
単語ベクトル化モデルを学習する際に使用する学習データについて説明する。
学習用テキストデータtexLと、学習用テキストデータtexLに対応する音声データとして、例えば、大量の音声データ及びその書き起こしテキストデータからなるコーパス(音声認識用コーパス)等を利用することができる。つまり、人が大量に発声した音声(音声データ)と音声に対して文章(テキストデータ)を付与したものである(それぞれS個の文章)。この音声データには、一人の話者が発話した音声データのみを使用してもよいし、様々な話者が発話した音声データが混在したものを使用してもよい。
また、音声データ中の単語yL,s(t)がいつ発話されたかを示す単語セグメンテーション情報segL,s(t)(図7参照)も付与する。図7の例では、単語セグメンテーション情報として、各単語の開始時間と終了時間とを用いているが、他の情報を用いてもよい。例えば、ある単語の終了時間と次の単語の開始時間とが一致する場合には、開始時間と終了時間との何れか一方のみを単語セグメンテーション情報として用いてもよい。また、文章の開始時刻を指定し、発話時間だけを単語セグメンテーション情報として用いてもよい。例えば、"pause"=350, "This"=250, "is"=80,…とすることで、各単語の開始時間と終了時間とを特定することができる。要は、単語セグメンテーション情報は、単語yL,s(t)がいつ発話されたかを示すことができればどのような情報であってもよい。この単語セグメンテーション情報は人手で付与してもよいし、音声認識器等を使用して、音声データ、テキストデータから自動的に付与してもよい。本実施形態では、単語ベクトル化モデル学習装置110に音声データに基づく情報xL(t)と単語セグメンテーション情報segL,s(t)とが入力されている。ただし、単語ベクトル化モデル学習装置110に音声データに基づく情報xL(t)のみが入力され、単語ベクトル化モデル学習装置110内で強制アライメントにより各単語の単語境界を付与し、単語セグメンテーション情報segL,s(t)を求める構成としてもよい。
また、通常のテキストデータには、発声中の無音(short pause等)を表現する単語は含まれないが、本実施形態では音声データとの整合性を取るために、無音用の単語"pause"を使用する。
音声データに基づく情報xLは、実際の音声データであってもよいし、音声データから取得可能な音響特徴量であってもよい。本実施形態では、音声データから抽出した音響特徴量(スペクトルパラメータ、音高パラメータ(F0))とする。音響特徴量として、スペクトル、音高パラメータのどちらか一方、または両者を使用することも可能である。その他、音声データから信号処理等により抽出可能な音響特徴量(例えば、メルケプストラム、非周期性指標、対数F0、有声・無声フラグ等)を使用することも可能である。音声データに基づく情報xLが実際の音声データの場合には、音声データから音響特徴量を抽出する構成を設ければよい。
以下、各部の処理内容を説明する。
<単語表現変換部111>
単語表現変換部111は、学習用テキストデータtexLを入力とし、学習用テキストデータtexLに含まれる単語yL,s(t)を、その単語yL,s(t)を示すベクトルwL,s(t)に変換し(S111)、出力する。
単語表現変換部111は、学習用テキストデータtexLを入力とし、学習用テキストデータtexLに含まれる単語yL,s(t)を、その単語yL,s(t)を示すベクトルwL,s(t)に変換し(S111)、出力する。
学習用テキストデータtexL中の単語yL,s(t)を後段の学習部113で使用可能な表現(数値表現)へ変換する。なお、ベクトルwL,s(t)を表現変換後単語データともいう。
単語の数値表現の例として、最も一般的なものはone hot表現である。例えば、学習用テキストデータtexL中に含まれる単語がN種類であった場合、one hot表現では各単語をN次元のベクトルwL,s(t)として扱う。
wL,s(t)=[wL,s(t)(1),…,wL,s(t)(n),…,wL,s(t)(N)]
ここで、wL,s(t)は、学習用テキストデータtexL中のs番目(1≦s≦S)の文章のt番目(1≦t≦Ts)(Tsはs番目の文章に含まれる単語数)の単語のベクトルである。よって、各部で全てのs及び全てのtに対して処理を行う。また、wL,s(t)(n)は、wL,s(t)のn次元目の情報を表す。one-hot表現では、単語に該当する次元wL,s(t)(n)を1とし、それ以外の次元を0とするベクトルを構築する。
wL,s(t)=[wL,s(t)(1),…,wL,s(t)(n),…,wL,s(t)(N)]
ここで、wL,s(t)は、学習用テキストデータtexL中のs番目(1≦s≦S)の文章のt番目(1≦t≦Ts)(Tsはs番目の文章に含まれる単語数)の単語のベクトルである。よって、各部で全てのs及び全てのtに対して処理を行う。また、wL,s(t)(n)は、wL,s(t)のn次元目の情報を表す。one-hot表現では、単語に該当する次元wL,s(t)(n)を1とし、それ以外の次元を0とするベクトルを構築する。
<音声データ分割部112>
音声データ分割部112は、単語セグメンテーション情報segL,s(t)と音声データに基づく情報xLである音響特徴量とを入力とし、単語セグメンテーション情報segL,s(t)を用いて、音響特徴量を単語yL,s(t)の区分に応じて分割し(S112)、分割された音声データの音響特徴量afL,s(t)を出力する。
音声データ分割部112は、単語セグメンテーション情報segL,s(t)と音声データに基づく情報xLである音響特徴量とを入力とし、単語セグメンテーション情報segL,s(t)を用いて、音響特徴量を単語yL,s(t)の区分に応じて分割し(S112)、分割された音声データの音響特徴量afL,s(t)を出力する。
本実施形態では、後段の学習部113において、分割後の音響特徴量afL,s(t)を任意の固定長(次元数D)のベクトルとして表現する必要がある。そのため、以下の手順により、各単語の分割後の音響特徴量afL,s(t)を得る。
(1)単語セグメンテーション情報segL,s(t)中の単語yL,s(t)の時間情報に基づき、時系列の音響特徴量を単語yL,s(t)毎に分割する。例えば、音声データのフレームシフトが5msの場合、図7の例では、無音用の単語"pause"の音響特徴量として、1フレーム目から70フレーム目までの音響特徴量を得る。同様に単語"This"は71フレーム目から120フレーム目までの音響特徴量となる。
(2)上述の(1)で得られた各単語の音響特徴量は、得られる音響特徴量のフレーム数が異なるため、各単語の音響特徴量の次元数は異なる。そのため、得られた各単語の音響特徴量を固定長のベクトルへ変換する必要がある。変換手法として最も単純なものは、フレーム数が異なる各音響特徴量を任意の固定フレーム数へ変換することである。この変換は、線形補間等により実現できる。
(1)単語セグメンテーション情報segL,s(t)中の単語yL,s(t)の時間情報に基づき、時系列の音響特徴量を単語yL,s(t)毎に分割する。例えば、音声データのフレームシフトが5msの場合、図7の例では、無音用の単語"pause"の音響特徴量として、1フレーム目から70フレーム目までの音響特徴量を得る。同様に単語"This"は71フレーム目から120フレーム目までの音響特徴量となる。
(2)上述の(1)で得られた各単語の音響特徴量は、得られる音響特徴量のフレーム数が異なるため、各単語の音響特徴量の次元数は異なる。そのため、得られた各単語の音響特徴量を固定長のベクトルへ変換する必要がある。変換手法として最も単純なものは、フレーム数が異なる各音響特徴量を任意の固定フレーム数へ変換することである。この変換は、線形補間等により実現できる。
また、得られた分割後の音響特徴量に対し、何らかの次元圧縮手法によって、次元圧縮を行ったデータも分割後の音響特徴量afL,s(t)として使用することも可能である。次元圧縮手法として、例えば主成分分析(PCA)や離散コサイン変換(DCT)、ニューラルネットワークに基づく自己符号化器(Auto encoder)等を使用することが可能である。
<学習部113>
学習部113は、ベクトルwL,s(t)と、分割された音声データの音響特徴量afL,s(t)とを入力とし、これらの値を用いて、単語ベクトル化モデルfw→afを学習する(S113)。なお、単語ベクトル化モデルは単語を示すベクトルwL,s(t)(例えばN次元one hot表現)をその単語に対応する音声データの音響特徴量(例えばD次元ベクトル)に変換するニューラルネットワークである。例えば、単語ベクトル化モデルfw→afは次式により表される。
^afL,s(t)=fw→af(wL,s(t))
本実施形態において、利用可能なニューラルネットワークとして、通常のMultilayer perceptron(MLP)だけでなく、Recurrent Neural Network(RNN)、RNN-LSTM(long short term memory)等の前後の単語を考慮可能なニューラルネットワーク、またそれらを組み合わせたニューラルネットワークを使用することが可能である。
学習部113は、ベクトルwL,s(t)と、分割された音声データの音響特徴量afL,s(t)とを入力とし、これらの値を用いて、単語ベクトル化モデルfw→afを学習する(S113)。なお、単語ベクトル化モデルは単語を示すベクトルwL,s(t)(例えばN次元one hot表現)をその単語に対応する音声データの音響特徴量(例えばD次元ベクトル)に変換するニューラルネットワークである。例えば、単語ベクトル化モデルfw→afは次式により表される。
^afL,s(t)=fw→af(wL,s(t))
本実施形態において、利用可能なニューラルネットワークとして、通常のMultilayer perceptron(MLP)だけでなく、Recurrent Neural Network(RNN)、RNN-LSTM(long short term memory)等の前後の単語を考慮可能なニューラルネットワーク、またそれらを組み合わせたニューラルネットワークを使用することが可能である。
<第一実施形態に係る単語ベクトル化装置>
図8は第一実施形態に係る単語ベクトル化装置120の機能ブロック図を、図9はその処理フローを示す。
図8は第一実施形態に係る単語ベクトル化装置120の機能ブロック図を、図9はその処理フローを示す。
単語ベクトル化装置120は、ベクトル化対象となるテキストデータtexoを入力とし、学習した単語ベクトル化モデルfw→afを用いて、テキストデータtexoに含まれる単語yo,s(t)を単語ベクトルwo_2,s(t)に変換し、出力する。ただし、単語ベクトル化装置120において、1≦s≦Soであり、Soはベクトル化対象となるテキストデータtexoに含まれる文章の総数、1≦t≦Tsであり、Tsはベクトル化対象となるテキストデータtexoに含まれる文章sに含まれる単語yo,s(t)の総数である。
単語ベクトル化装置120は、CPUと、RAMと、以下の処理を実行するためのプログラムを記録したROMを備えたコンピュータで構成され、機能的には次に示すように構成されている。
単語ベクトル化装置120は、単語表現変換部121と単語ベクトル変換部122とを含む。単語ベクトル化装置120は、ベクトル化に先立ち、予め単語ベクトル化モデルfw→afを受け取り、単語ベクトル変換部122に設定しておく。
<単語表現変換部121>
単語表現変換部121は、テキストデータtexoを入力とし、テキストデータtexoに含まれる単語yo,s(t)を、その単語yo,s(t)を示すベクトルwo_1,s(t)に変換し(S121)、出力する。変換方法は、単語表現変換部111に対応する方法を用いればよい。
単語表現変換部121は、テキストデータtexoを入力とし、テキストデータtexoに含まれる単語yo,s(t)を、その単語yo,s(t)を示すベクトルwo_1,s(t)に変換し(S121)、出力する。変換方法は、単語表現変換部111に対応する方法を用いればよい。
<単語ベクトル変換部122>
単語ベクトル変換部122は、ベクトルwo_1,s(t)を入力とし、単語ベクトル化モデルfw→afを用いて、ベクトルwo_1,s(t)を単語ベクトルwo_2,s(t)に変換し(S122)、出力する。例えば、単語ベクトル化モデルfw→afのニューラルネットワークの順伝搬処理をベクトルwo_1,s(t)を入力として実施し、任意の中間層(ボトルネック層)の出力値(bottleneck feature)を単語yo,s(t)の単語ベクトルwo_2,s(t)として出力することで、ベクトルwo_1,s(t)から単語ベクトルwo_2,s(t)への変換を行う。
単語ベクトル変換部122は、ベクトルwo_1,s(t)を入力とし、単語ベクトル化モデルfw→afを用いて、ベクトルwo_1,s(t)を単語ベクトルwo_2,s(t)に変換し(S122)、出力する。例えば、単語ベクトル化モデルfw→afのニューラルネットワークの順伝搬処理をベクトルwo_1,s(t)を入力として実施し、任意の中間層(ボトルネック層)の出力値(bottleneck feature)を単語yo,s(t)の単語ベクトルwo_2,s(t)として出力することで、ベクトルwo_1,s(t)から単語ベクトルwo_2,s(t)への変換を行う。
<効果>
以上の構成により、音響的な特徴も考慮した単語ベクトルwo_2,s(t)を得ることができる。
以上の構成により、音響的な特徴も考慮した単語ベクトルwo_2,s(t)を得ることができる。
<変形例>
単語ベクトル化モデル学習装置は、学習部130のみを含む構成としてもよい。例えば、学習用テキストデータに含まれる単語yL,s(t)を示すベクトルwL,s(t)と、単語yL,s(t)に対応する音響特徴量afL,s(t)とは、別装置により、算出したものを用いてもよい。同様に、単語ベクトル化装置は、単語ベクトル変換部122のみを含む構成としてもよい。例えば、ベクトル化対象となるテキストデータに含まれる単語yo,s(t)を示すベクトルwo_1,s(t)は、別装置により、算出したものを用いてもよい。
単語ベクトル化モデル学習装置は、学習部130のみを含む構成としてもよい。例えば、学習用テキストデータに含まれる単語yL,s(t)を示すベクトルwL,s(t)と、単語yL,s(t)に対応する音響特徴量afL,s(t)とは、別装置により、算出したものを用いてもよい。同様に、単語ベクトル化装置は、単語ベクトル変換部122のみを含む構成としてもよい。例えば、ベクトル化対象となるテキストデータに含まれる単語yo,s(t)を示すベクトルwo_1,s(t)は、別装置により、算出したものを用いてもよい。
<第二実施形態>
第一実施形態と異なる部分を中心に説明する。
第一実施形態と異なる部分を中心に説明する。
第一実施形態では、音声データとして様々な話者の音声が含まれている場合、話者性の違いにより音声データが大きく異なってしまう。そのため、単語ベクトル化モデル学習を高精度に行うことは難しい。そこで、第二実施形態では、話者毎に音声データに基づく情報xLである音響特徴量に対し正規化を行う。このような構成とすることで、話者性の違いにより単語ベクトル化モデル学習の精度が下がる問題を軽減する。
図4は第二実施形態に係る単語ベクトル化モデル学習装置210の機能ブロック図を、図5はその処理フローを示す。
単語ベクトル化モデル学習装置210は、単語表現変換部111、音声データ正規化部214(図4中、破線で示す)と、音声データ分割部112と、学習部113とを含む。
<音声データ正規化部214>
音声データ正規化部214は、音声データに基づく情報xLである音響特徴量を入力とし、同一の発話者の、学習用テキストデータに対応する音声データの音響特徴量を正規化し(S121)、出力する。
音声データ正規化部214は、音声データに基づく情報xLである音響特徴量を入力とし、同一の発話者の、学習用テキストデータに対応する音声データの音響特徴量を正規化し(S121)、出力する。
正規化の手法として、例えば、音響特徴量中に各文章の発話者の情報が付与されている場合は、同一の発話者の音響特徴量から平均、分散を求め、z-scoreを求める。例えば、発話者の情報が付与されていない場合には、文章毎に話者が異なると想定し、文章ごとに音響特徴量から平均、分散を求め、z-scoreを求める。そして、z-scoreを正規化後音響特徴量として使用する。
音声データ分割部112では、正規化後の音響特徴量を用いる。
<効果>
このような構成とすることで、第一実施形態と同様の効果を得ることができる。さらに、話者性の違いにより単語ベクトル化モデル学習の精度が下がる問題を軽減できる。
このような構成とすることで、第一実施形態と同様の効果を得ることができる。さらに、話者性の違いにより単語ベクトル化モデル学習の精度が下がる問題を軽減できる。
<第三実施形態>
第一実施形態と異なる部分を中心に説明する。
第一実施形態と異なる部分を中心に説明する。
第一実施形態、第二実施形態では、単語ベクトル化モデル学習において、音声データに対応する音響特徴量とそのテキストデータを用いている。しかし、一般的に使用可能な音声データに含まれる単語の種類Nは、Web等から入手可能な大量のテキストデータに対して小さい。そのため、従来の学習用テキストデータのみで学習する単語ベクトル化モデルに対し、未知語が発生しやすくなるという課題がある。
本実施形態では、その課題を解決するために、単語表現変換部111,121において、従来の学習用テキストデータのみで学習する単語ベクトル化モデルを使用する。以下、差分のある単語表現変換部311,321について説明する(図4、図8参照)。また、本実施形態と第二実施形態とを併用することも可能である。
<単語表現変換部311>
単語表現変換部311は、学習用テキストデータtexLを入力とし、学習用テキストデータtexLに含まれる単語yL,s(t)を、その単語yL,s(t)を示すベクトルwL,s(t)に変換し(S311、図5参照)、出力する。
単語表現変換部311は、学習用テキストデータtexLを入力とし、学習用テキストデータtexLに含まれる単語yL,s(t)を、その単語yL,s(t)を示すベクトルwL,s(t)に変換し(S311、図5参照)、出力する。
本実施形態では、学習用テキストデータtexL中の各単語yL,s(t)に対して、言語情報に基づく単語ベクトル化モデルを用いて、単語を後段の学習部133で使用可能な表現(数値表現)へ変換し、ベクトルwL,s(t)を得る。言語情報に基づく単語ベクトル化モデルは、非特許文献1で挙げているWord2Vec等を用いることが可能である。
本実施形態では、まず第一実施形態と同様に単語をone hot表現へ変換する。この際の次元数Nとして、第一実施形態では学習用テキストデータtexL中の単語の種類としていたが、本実施形態では言語情報に基づく単語ベクトル化モデルの学習に使用した学習用テキストデータ中の単語の種類とする点が異なる。次に得られた各単語のone hot表現のベクトルに対し、言語情報に基づく単語ベクトル化モデルを用いて、ベクトルwL,s(t)を得る。ベクトルの変換方法は言語情報に基づく単語ベクトル化モデルによって異なるが、Word2Vecの場合は、本発明と同様に順伝搬処理を行い、中間層(ボトルネック層)の出力ベクトルを取り出すことで、ベクトルwL,s(t)を得ることができる。
単語表現変換部321においても同様の処理を行う(S321、図9参照)。
<効果>
このような構成により、第一実施形態と同様の効果を得ることができる。さらに、未知語の発生を従来の単語ベクトル化モデルと同程度とすることができる。
このような構成により、第一実施形態と同様の効果を得ることができる。さらに、未知語の発生を従来の単語ベクトル化モデルと同程度とすることができる。
<第四実施形態>
本実施形態では、第一実施形態から第三実施形態で生成した単語ベクトルを音声合成に利用する例について説明する。ただし、単語ベクトルは、音声合成以外の用途に用いることができることは言うまでもなく、本実施形態は単語ベクトルの用途を限定するものではない。
本実施形態では、第一実施形態から第三実施形態で生成した単語ベクトルを音声合成に利用する例について説明する。ただし、単語ベクトルは、音声合成以外の用途に用いることができることは言うまでもなく、本実施形態は単語ベクトルの用途を限定するものではない。
図10は第四実施形態に係る音声合成装置400の機能ブロック図を、図11はその処理フローを示す。
音声合成装置400は、音声合成用のテキストデータtexOを入力とし、合成音声データzoを出力する。
音声合成装置400は、CPUと、RAMと、以下の処理を実行するためのプログラムを記録したROMを備えたコンピュータで構成され、機能的には次に示すように構成されている。
音声合成装置400は、音素抽出部410と、単語ベクトル化装置120または320と、合成音声生成部420とを含む。単語ベクトル化装置120または320の処理内容については第一実施形態または第三実施形態で説明した通りである(S120,S320に相当)。単語ベクトル化装置120または320は、音声合成処理に先立ち、予め単語ベクトル化モデルfw→afを受け取り、単語ベクトル変換部122に設定しておく。
<音素抽出部410>
音素抽出部410は、音声合成用のテキストデータtexOを入力とし、テキストデータtexOに対応する音素情報poを抽出し(S410)、出力する。なお、音素抽出方法は既存のいかなる技術を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよい。
音素抽出部410は、音声合成用のテキストデータtexOを入力とし、テキストデータtexOに対応する音素情報poを抽出し(S410)、出力する。なお、音素抽出方法は既存のいかなる技術を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよい。
<合成音声生成部420>
合成音声生成部420は、音素情報poと単語ベクトルwo_2,s(t)とを入力とし、合成音声データzoを生成し(S420)、出力する。
合成音声生成部420は、音素情報poと単語ベクトルwo_2,s(t)とを入力とし、合成音声データzoを生成し(S420)、出力する。
例えば、合成音声生成部420は、音声合成用モデルを含む。例えば、音声合成用モデルは、単語の音素情報とその単語に対応する単語ベクトルとを入力とし、その単語に対する合成音声データを生成するための情報を出力するモデル(例えばdeep neural network(DNN)モデル)である。合成音声データを生成するための情報としては、メルケプストラム、非周期性指標、F0、有声・無声フラグ等(以下、これらの情報を要素とするベクトルを特徴ベクトルともいう)が考えられる。なお、音声合成処理に先立ち、学習用のテキストデータに対応する音素情報と単語ベクトルと特徴ベクトルとを与えて、音声合成用モデルを学習しておく。さらに、合成音声生成部420は、上述の音声合成用モデルに音素情報poと単語ベクトルwo_2,s(t)とを入力し、音声合成用のテキストデータtexOに対応する特徴ベクトルを取得し、ヴォコーダー等を用いて特徴ベクトルから合成音声データzoを生成し、出力する。
<効果>
このような構成により、音響的な特徴も考慮した単語ベクトルを用いて合成音声データを生成することができ、従来よりも自然な合成音声データを生成することができる。
このような構成により、音響的な特徴も考慮した単語ベクトルを用いて合成音声データを生成することができ、従来よりも自然な合成音声データを生成することができる。
<第五実施形態>
第四実施形態と異なる部分を中心に説明する。
第四実施形態と異なる部分を中心に説明する。
第四実施形態の音声合成法では、第一実施形態から第三実施形態の何れかの方法により単語ベクトル化モデルを学習する。第一実施形態の説明の中で、単語ベクトル化モデルを学習する際に音声認識用コーパス等を利用することができることを説明した。このとき、音声認識用コーパスを用いて、単語ベクトル化モデルを学習すると、音響特徴量は話者によって異なる。そのため、得られる単語ベクトルは音声合成用コーパスの話者にとって最適であるとは限らない。そこで、音声合成用コーパスの話者により適した単語ベクトルを得るために、音声認識用コーパスから学習した単語ベクトル化モデルに対して、音声合成用コーパスを用いて再学習を行う。
図10は第五実施形態に係る音声合成装置500の機能ブロック図を、図11はその処理フローを示す。
音声合成装置500は、音素抽出部410と単語ベクトル化装置120または320と、合成音声生成部420と再学習部530(図10中、破線で示す)を含む。再学習部530の処理内容について説明する。
<再学習部530>
再学習部530は、再学習に先立ち、予め、合成音声用コーパスから得られる音声データとテキストデータとを用いて、ベクトルwv,s(t)と、分割された音声データの音響特徴量afv,s(t)とを求める。なお、ベクトルwv,s(t)と、分割された音声データの音響特徴量afv,s(t)とは、それぞれ単語表現変換部111、311、音声データ分割部112と同様の方法により、求めることができる。なお、分割された音声データの音響特徴量afv,s(t)は音声合成用の音声データの音響特徴量と言える。
再学習部530は、再学習に先立ち、予め、合成音声用コーパスから得られる音声データとテキストデータとを用いて、ベクトルwv,s(t)と、分割された音声データの音響特徴量afv,s(t)とを求める。なお、ベクトルwv,s(t)と、分割された音声データの音響特徴量afv,s(t)とは、それぞれ単語表現変換部111、311、音声データ分割部112と同様の方法により、求めることができる。なお、分割された音声データの音響特徴量afv,s(t)は音声合成用の音声データの音響特徴量と言える。
再学習部530は、単語ベクトル化モデルfw→afと、ベクトルwv,s(t)と、分割された音声データの音響特徴量afv,s(t)とを用いて、単語ベクトル化モデルfw→afを再学習し、学習後の単語ベクトル化モデルfw→afを出力する。
単語ベクトル化装置120,320では、ベクトル化対象となるテキストデータtexoを入力とし、テキストデータtexoに含まれる単語yo,s(t)を、再学習後の単語ベクトル化モデルfw→afを用いて、単語ベクトルwo_2,s(t)に変換し、出力する。
<効果>
このような構成により、単語ベクトルを音声合成用コーパスの話者にとって最適なものとし、従来よりも自然な合成音声データを生成することができる。
このような構成により、単語ベクトルを音声合成用コーパスの話者にとって最適なものとし、従来よりも自然な合成音声データを生成することができる。
<シミュレーション>
(実験条件)
単語ベクトル化モデルfw→afの学習に用いる大規模音声データとして、英語ネイティブ話者5,372名が発話した約700時間の音声認識用コーパス(ASR corpus)を用いた。各発話には強制アライメントにより各単語の単語境界を付与している。音声合成用コーパス(TTS corpus)として、英語ネイティブ話者である女性1名のプロナレータが発話した約5時間の音声データを使用した。図12に両コーパスに関するその他の情報を示す。
(実験条件)
単語ベクトル化モデルfw→afの学習に用いる大規模音声データとして、英語ネイティブ話者5,372名が発話した約700時間の音声認識用コーパス(ASR corpus)を用いた。各発話には強制アライメントにより各単語の単語境界を付与している。音声合成用コーパス(TTS corpus)として、英語ネイティブ話者である女性1名のプロナレータが発話した約5時間の音声データを使用した。図12に両コーパスに関するその他の情報を示す。
単語ベクトル化モデルfw→afは、中間層としてBidirectional LSTM(BLSTM)3層、2層目の中間層の出力をボトルネック層とした。ボトルネック層以外の各層のユニット数は256とし、活性化関数にはRectied Linear Unit(ReLU)を用いた。単語ベクトルの次元数による性能の変化を検証するため、ボトルネック層のユニット数を16、32、64、128、256と変更した5つのモデルを学習している。未知語へ対応するために、学習データ中に出現頻度が2回以下の単語は全て未知語("UNK")とし、一単語としている。また、テキストデータと異なり、音声データ中には文頭、文中、文末に無音(ポーズ)が挿入されるため、本シミュレーションではポーズも単語("PAUSE")として扱っている。その結果、"UNK"、"PAUSE"を含め、計26,663次元を単語ベクトル化モデルfw→afの入力とした。単語ベクトル化モデルfw→afの出力には、各単語のF0を固定長(32サンプル)へリサンプリングし、そのDCT値の1次から5次を使用した。学習には、全データからランダムに選択した1%を交差検証(early stopping)のための開発データとし、それ以外のデータを学習データとして使用した。音声合成用コーパスを用いた再学習時には、後述の音声合成用モデルと同様に学習、開発データとして、それぞれ4,400文章、100文章を使用した。提案法と比較を行うために、テキストデータのみから学習した単語ベクトルとして、従来法(参考文献1、2参照)と同様に、82,390単語からなる80次元の単語ベクトル(参考文献3)を使用した。
(参考文献1)P. Wang et al:, "Word embedding for recurrent neural network based TTS synthesis", in ICASSP 2015, p.4879-4883, 2015.
(参考文献2)X. Wang et al:, "Enhance the word vector with prosodic information for the recurrent neural network based TTS system", in INTERSPEECH 2016, p.2856-2860, 2016.
(参考文献3)Mikolov, et al:, "Recurrent neural network based language model", in INTERSPEECH 2010, p.1045-1048, 2010.
この中には、未知語("UNK")、ポーズ("PAUSE")に相当する単語が存在しないため、本シミュレーションでは未知語は全単語の単語ベクトルの平均、ポーズは文末記号("</s>")の単語ベクトルを使用した。音声合成用モデルには、2層の全結合層と2層のUnidirectional LSTM(参考文献4)から構成されるネットワークを使用した。
(参考文献4)Zen et al: "Unidirectional long short-term memory recurrent neural network with recurrent output layer for low-latency speech synthesis", in ICASSP 2015, p.4470-4474, 2015.
各層のユニット数は256とし、活性化関数にはReLUを使用した。音声の特徴ベクトルとして、STRAIGHT(参考文献5)により抽出した平滑化スペクトルから求めた0次から39次のメルケプストラム、5次元の非周期性指標、対数F0、有声・無声フラグの計47次元を用いた。
(参考文献5)Kawahara et al:, "Restructuring speech representations using a pitch-adaptive time-frequency smoothing and an instantaneous-frequency-based F0 extraction: Possible role of a reptitive structure in sounds", Speech Communication, 27, p.187-207, 1999.
(参考文献1)P. Wang et al:, "Word embedding for recurrent neural network based TTS synthesis", in ICASSP 2015, p.4879-4883, 2015.
(参考文献2)X. Wang et al:, "Enhance the word vector with prosodic information for the recurrent neural network based TTS system", in INTERSPEECH 2016, p.2856-2860, 2016.
(参考文献3)Mikolov, et al:, "Recurrent neural network based language model", in INTERSPEECH 2010, p.1045-1048, 2010.
この中には、未知語("UNK")、ポーズ("PAUSE")に相当する単語が存在しないため、本シミュレーションでは未知語は全単語の単語ベクトルの平均、ポーズは文末記号("</s>")の単語ベクトルを使用した。音声合成用モデルには、2層の全結合層と2層のUnidirectional LSTM(参考文献4)から構成されるネットワークを使用した。
(参考文献4)Zen et al: "Unidirectional long short-term memory recurrent neural network with recurrent output layer for low-latency speech synthesis", in ICASSP 2015, p.4470-4474, 2015.
各層のユニット数は256とし、活性化関数にはReLUを使用した。音声の特徴ベクトルとして、STRAIGHT(参考文献5)により抽出した平滑化スペクトルから求めた0次から39次のメルケプストラム、5次元の非周期性指標、対数F0、有声・無声フラグの計47次元を用いた。
(参考文献5)Kawahara et al:, "Restructuring speech representations using a pitch-adaptive time-frequency smoothing and an instantaneous-frequency-based F0 extraction: Possible role of a reptitive structure in sounds", Speech Communication, 27, p.187-207, 1999.
音声信号のサンプリング周波数は22.05kHz、フレームシフトは5msとした。音声合成用モデルの学習、開発データとして、それぞれ4,400文章、100文章を使用し、それ以外の83文章を評価用データとして使用した。従来法との比較のために、音声合成用モデルの入力として以下の6種類を用いた。
1. 音素のみ(Quinphone)
2. 上述の1+韻律情報ラベル(Prosodic)
3. 上述の1+テキストデータ単語ベクトル(TxtVec)
4. 上述の1+提案法単語ベクトル(PropVec)
5. 上述の1+再学習後提案法単語ベクトル(PropVecFT)
6. 上述の5+韻律情報ラベル(PropVecFT+Prosodic)
韻律情報ラベルには、音節、単語、句の位置情報、各音節のストレス情報、ToBIのendtoneを使用した。また、本シミュレーションでは音声合成用モデルとしてUnidirectional LSTMを使用しているため、先の単語の単語ベクトルを考慮することができない。この問題を回避するため、単語ベクトルを使用する手法(3.〜6.)では、当該単語の単語ベクトルに加え、一単語先の単語ベクトルも音声合成用モデルの入力ベクトルとして使用した。
1. 音素のみ(Quinphone)
2. 上述の1+韻律情報ラベル(Prosodic)
3. 上述の1+テキストデータ単語ベクトル(TxtVec)
4. 上述の1+提案法単語ベクトル(PropVec)
5. 上述の1+再学習後提案法単語ベクトル(PropVecFT)
6. 上述の5+韻律情報ラベル(PropVecFT+Prosodic)
韻律情報ラベルには、音節、単語、句の位置情報、各音節のストレス情報、ToBIのendtoneを使用した。また、本シミュレーションでは音声合成用モデルとしてUnidirectional LSTMを使用しているため、先の単語の単語ベクトルを考慮することができない。この問題を回避するため、単語ベクトルを使用する手法(3.〜6.)では、当該単語の単語ベクトルに加え、一単語先の単語ベクトルも音声合成用モデルの入力ベクトルとして使用した。
(単語ベクトルの比較)
まず、提案法(第四実施形態)で得られた単語ベクトルとテキストデータのみから学習した単語ベクトルとの比較を行った。比較対象には、韻律情報(音節数、ストレス位置)が類似しているが意味が異なる単語、反対に韻律情報は異なるが意味は類似した単語を使用し、これらの単語ベクトルのコサイン類似度を比較した。提案法の単語ベクトルとして、音声認識用コーパスのみから学習した64次元の単語ベクトルを用いた。また、提案法ではBLSTMを使用しているため、前後の単語系列に依存して得られる単語ベクトルも変化する。そこで、以下の疑似的に作成した2文章中の"{}"内の単語から得られる単語ベクトルを比較対象とした。
(1) I closed the {gate / date / late / door}.
(2) It's a {piece / peace / portion / patch} of cake.
図13A、図13Bは、それぞれ文章(1),(2)に対して、各手法により得られた単語ベクトル間のコサイン類似度を示す。まず提案法では、韻律情報が類似した単語(piece,peace等)を比較すると、非常に高いコサイン類似度が得られている。一方、意味が類似した単語(piece、patch等)の場合、韻律情報が類似した単語より類似度は低く、提案法で得られたベクトルは単語間の韻律の類似性を反映することができていると考えられる。一方、テキストデータのみから学習した単語ベクトルの場合、韻律情報の類似性とは必ずしも一致しておらず、韻律の類似性を考慮できていないことが分かる。
まず、提案法(第四実施形態)で得られた単語ベクトルとテキストデータのみから学習した単語ベクトルとの比較を行った。比較対象には、韻律情報(音節数、ストレス位置)が類似しているが意味が異なる単語、反対に韻律情報は異なるが意味は類似した単語を使用し、これらの単語ベクトルのコサイン類似度を比較した。提案法の単語ベクトルとして、音声認識用コーパスのみから学習した64次元の単語ベクトルを用いた。また、提案法ではBLSTMを使用しているため、前後の単語系列に依存して得られる単語ベクトルも変化する。そこで、以下の疑似的に作成した2文章中の"{}"内の単語から得られる単語ベクトルを比較対象とした。
(1) I closed the {gate / date / late / door}.
(2) It's a {piece / peace / portion / patch} of cake.
図13A、図13Bは、それぞれ文章(1),(2)に対して、各手法により得られた単語ベクトル間のコサイン類似度を示す。まず提案法では、韻律情報が類似した単語(piece,peace等)を比較すると、非常に高いコサイン類似度が得られている。一方、意味が類似した単語(piece、patch等)の場合、韻律情報が類似した単語より類似度は低く、提案法で得られたベクトルは単語間の韻律の類似性を反映することができていると考えられる。一方、テキストデータのみから学習した単語ベクトルの場合、韻律情報の類似性とは必ずしも一致しておらず、韻律の類似性を考慮できていないことが分かる。
(音声合成における性能評価)
次に、提案法を音声合成へ利用した場合の有効性を評価するために客観評価を行った。客観評価尺度として、原音声と各手法から生成した対数F0のRMS誤差及び相関係数を用いた。各手法により得られたRMS誤差、相関係数をそれぞれ図14、図15に示す。
次に、提案法を音声合成へ利用した場合の有効性を評価するために客観評価を行った。客観評価尺度として、原音声と各手法から生成した対数F0のRMS誤差及び相関係数を用いた。各手法により得られたRMS誤差、相関係数をそれぞれ図14、図15に示す。
まず、従来法3種類の比較を行う。従来法の単語ベクトル(TxtVec)は、Quinphoneに対し、F0の生成精度が向上しているが、韻律情報を使用した場合(Prosodic)と比較すると生成精度が低く、従来研究(参考文献1)と同様の傾向が得られた。従来法と提案法(PropVec,第四実施形態)とを比較すると、提案法は単語ベクトルの次元数によらず、TxtVecに対しF0生成精度が向上していることが分かる。また、今回の実験条件では単語ベクトルの次元数を64とした場合が最も性能が高く、Prosodicに匹敵する性能が得られた。また、再学習後の単語ベクトル(PropVecFT,第五実施形態)は、単語ベクトルの次元数によらず、より高いF0生成精度が得られていることが分かる。特に、単語ベクトルの次元数が64の場合、Prosodicより高いF0生成精度が得られている。これらの結果より、単語ベクトル化モデル学習に大規模音声データを用いる提案法は音声合成において有効であると考えられる。最後に、提案法による単語ベクトルと韻律情報を併用した場合の有効性を検証する。PropVecFTとPropVecFT+Prosdicとを比較すると、すべての場合において、PropVecFT+Prosdicが高いF0生成精度が得られた。また、Prosodicとの比較においても、PropVecFT+Prosodicが全ての場合で高い精度が得られており、韻律情報と提案法単語ベクトルを併用した場合でも有効であると考えられる。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
Claims (8)
- 学習用テキストデータに含まれる単語yL,s(t)を示すベクトルwL,s(t)と、前記学習用テキストデータに対応する音声データの音響特徴量であって前記単語yL,s(t)に対応する音響特徴量afL,s(t)とを用いて、単語ベクトル化モデルを学習する学習部を含み、前記単語ベクトル化モデルは単語を示すベクトルを入力とし、その単語に対応する音声データの音響特徴量を出力とするニューラルネットワークを含み、前記単語ベクトル化モデルは何れかの中間層の出力値を単語ベクトルとするモデルである、
単語ベクトル化モデル学習装置。 - 請求項1の単語ベクトル化モデル学習装置であって、
学習用テキストデータに含まれる単語yL,s(t)を、その単語yL,s(t)を示す第一ベクトルwL,1,s(t)に変換し、第二単語ベクトル化モデルを用いて、前記第一ベクトルwL,1,s(t)を前記ベクトルwL,s(t)に変換する単語表現変換部を含み、前記第二単語ベクトル化モデルは音声データの音響特徴量を用いずに言語情報に基づき学習されたニューラルネットワークを含むモデルである、
単語ベクトル化モデル学習装置。 - 請求項1または請求項2の単語ベクトル化モデル学習装置において学習された単語ベクトル化モデルを用いる単語ベクトル化装置であって、
前記単語ベクトル化モデルを用いて、ベクトル化対象となるテキストデータに含まれる単語yo,s(t)を示すベクトルwo_1,s(t)を単語ベクトルwo_2,s(t)に変換する単語ベクトル変換部を含む、
単語ベクトル化装置。 - 請求項3の単語ベクトル化装置を用いてベクトル化された単語ベクトルを用いて、合成音声データを生成する音声合成装置であって、
ある単語の音素情報とその単語に対応する単語ベクトルとを入力とし、その単語に対する合成音声データを生成するための情報を出力するニューラルネットワークを含む音声合成モデルを用いて、前記単語yo,s(t)の音素情報と前記単語ベクトルwo_2,s(t)とを用いて、合成音声データを生成する合成音声生成部を含み、
前記単語ベクトル化モデルは、前記ベクトルwL,s(t)と前記音響特徴量afL,s(t)とを用いて学習された単語ベクトル化モデルを、さらに、単語を示すベクトルと、その単語に対応する音声データであって、音声合成用の音声データの音響特徴量とを用いて再学習されたものである、
音声合成装置。 - 学習用テキストデータに含まれる単語yL,s(t)を示すベクトルwL,s(t)と、前記学習用テキストデータに対応する音声データの音響特徴量であって前記単語yL,s(t)に対応する音響特徴量afL,s(t)とを用いて、単語ベクトル化モデルを学習する学習ステップを含み、前記単語ベクトル化モデルは単語を示すベクトルを入力とし、その単語に対応する音声データの音響特徴量を出力とするニューラルネットワークを含み、前記単語ベクトル化モデルは何れかの中間層の出力値を単語ベクトルとするモデルである、
単語ベクトル化モデル学習装置が実行する単語ベクトル化モデル学習方法。 - 請求項5の単語ベクトル化モデル学習方法において学習された単語ベクトル化モデルを用いる単語ベクトル化方法であって、
前記単語ベクトル化モデルを用いて、ベクトル化対象となるテキストデータに含まれる単語yo,s(t)を示すベクトルwo_1,s(t)を単語ベクトルwo_2,s(t)に変換する単語ベクトル変換ステップを含む、
単語ベクトル化装置が実行する単語ベクトル化方法。 - 請求項6の単語ベクトル化方法を用いてベクトル化された単語ベクトルを用いて、合成音声データを生成する音声合成方法であって、
ある単語の音素情報とその単語に対応する単語ベクトルとを入力とし、その単語に対する合成音声データを生成するための情報を出力するニューラルネットワークを含む音声合成モデルを用いて、前記単語yo,s(t)の音素情報と前記単語ベクトルwo_2,s(t)とを用いて、合成音声データを生成する合成音声生成ステップを含み、
前記単語ベクトル化モデルは、前記ベクトルwL,s(t)と前記音響特徴量afL,s(t)とを用いて学習された単語ベクトル化モデルを、さらに、単語を示すベクトルと、その単語に対応する音声データであって、音声合成用の音声データの音響特徴量とを用いて再学習されたものである、
音声合成装置が実行する音声合成方法。 - 請求項1若しくは請求項2の単語ベクトル化モデル学習装置、または、請求項3の単語ベクトル化装置、または、請求項4の音声合成装置として、コンピュータを機能させるためのプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017025901 | 2017-02-15 | ||
JP2017025901 | 2017-02-15 | ||
PCT/JP2018/004995 WO2018151125A1 (ja) | 2017-02-15 | 2018-02-14 | 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2018151125A1 JPWO2018151125A1 (ja) | 2019-12-12 |
JP6777768B2 true JP6777768B2 (ja) | 2020-10-28 |
Family
ID=63169325
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018568548A Active JP6777768B2 (ja) | 2017-02-15 | 2018-02-14 | 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20190362703A1 (ja) |
JP (1) | JP6777768B2 (ja) |
WO (1) | WO2018151125A1 (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7142333B2 (ja) | 2018-01-11 | 2022-09-27 | ネオサピエンス株式会社 | 多言語テキスト音声合成方法 |
US10741169B1 (en) * | 2018-09-25 | 2020-08-11 | Amazon Technologies, Inc. | Text-to-speech (TTS) processing |
US10872601B1 (en) * | 2018-09-27 | 2020-12-22 | Amazon Technologies, Inc. | Natural language processing |
CN109215632B (zh) * | 2018-09-30 | 2021-10-08 | 科大讯飞股份有限公司 | 一种语音评测方法、装置、设备及可读存储介质 |
EP3895157A4 (en) * | 2018-12-13 | 2022-07-27 | Microsoft Technology Licensing, LLC | NEURONAL TEXT-TO-Speech SYNTHESIS WITH MULTI-LEVEL TEXTUAL INFORMATION |
CN110288081A (zh) * | 2019-06-03 | 2019-09-27 | 北京信息科技大学 | 一种基于fw机制及lstm的递归网络模型及学习方法 |
US11141669B2 (en) * | 2019-06-05 | 2021-10-12 | Sony Corporation | Speech synthesizing dolls for mimicking voices of parents and guardians of children |
CN110266675B (zh) * | 2019-06-12 | 2022-11-04 | 成都积微物联集团股份有限公司 | 一种基于深度学习的xss攻击自动化检测方法 |
CN110427608B (zh) * | 2019-06-24 | 2021-06-08 | 浙江大学 | 一种引入分层形声特征的中文词向量表示学习方法 |
JP7093081B2 (ja) * | 2019-07-08 | 2022-06-29 | 日本電信電話株式会社 | 学習装置、推定装置、推定方法、およびプログラム |
JP7162579B2 (ja) * | 2019-09-27 | 2022-10-28 | Kddi株式会社 | 音声合成装置、方法及びプログラム |
US11238865B2 (en) * | 2019-11-18 | 2022-02-01 | Lenovo (Singapore) Pte. Ltd. | Function performance based on input intonation |
US11302300B2 (en) * | 2019-11-19 | 2022-04-12 | Applications Technology (Apptek), Llc | Method and apparatus for forced duration in neural speech synthesis |
KR102140976B1 (ko) * | 2020-03-30 | 2020-08-04 | (주)위세아이텍 | 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 피처를 추출하는 장치 및 방법 |
CN111985209B (zh) * | 2020-03-31 | 2024-03-29 | 北京来也网络科技有限公司 | 结合rpa和ai的文本语句识别方法、装置、设备及存储介质 |
CN113326310B (zh) * | 2021-06-18 | 2023-04-18 | 立信(重庆)数据科技股份有限公司 | 基于nlp的调研数据标准化方法及系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB8520777D0 (en) * | 1985-08-20 | 1985-09-25 | Pa Technology Ltd | Speech recognition |
JPH09212197A (ja) * | 1996-01-31 | 1997-08-15 | Just Syst Corp | ニューラルネットワーク |
CN101578659B (zh) * | 2007-05-14 | 2012-01-18 | 松下电器产业株式会社 | 音质转换装置及音质转换方法 |
JP5777178B2 (ja) * | 2013-11-27 | 2015-09-09 | 国立研究開発法人情報通信研究機構 | 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム |
KR102305584B1 (ko) * | 2015-01-19 | 2021-09-27 | 삼성전자주식회사 | 언어 모델 학습 방법 및 장치, 언어 인식 방법 및 장치 |
US9934775B2 (en) * | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US11069335B2 (en) * | 2016-10-04 | 2021-07-20 | Cerence Operating Company | Speech synthesis using one or more recurrent neural networks |
-
2018
- 2018-02-14 WO PCT/JP2018/004995 patent/WO2018151125A1/ja active Application Filing
- 2018-02-14 JP JP2018568548A patent/JP6777768B2/ja active Active
- 2018-02-14 US US16/485,067 patent/US20190362703A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
WO2018151125A1 (ja) | 2018-08-23 |
US20190362703A1 (en) | 2019-11-28 |
JPWO2018151125A1 (ja) | 2019-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6777768B2 (ja) | 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム | |
US11929059B2 (en) | Method, device, and computer readable storage medium for text-to-speech synthesis using machine learning on basis of sequential prosody feature | |
KR102265972B1 (ko) | 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템 | |
KR102401512B1 (ko) | 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체 | |
US11373633B2 (en) | Text-to-speech processing using input voice characteristic data | |
Yoshimura | Simultaneous modeling of phonetic and prosodic parameters, and characteristic conversion for HMM-based text-to-speech systems | |
Veaux et al. | Intonation conversion from neutral to expressive speech | |
Jemine | Real-time voice cloning | |
CN115485766A (zh) | 使用bert模型的语音合成韵律 | |
CN111640418B (zh) | 一种韵律短语识别方法、装置及电子设备 | |
KR20230043084A (ko) | 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체 | |
CN105654940B (zh) | 一种语音合成方法和装置 | |
WO2008038082A2 (en) | Prosody conversion | |
JP7379756B2 (ja) | 韻律的特徴からのパラメトリックボコーダパラメータの予測 | |
Jothilakshmi et al. | Large scale data enabled evolution of spoken language research and applications | |
JP2015041081A (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
CN113903326A (zh) | 语音合成方法、装置、设备及存储介质 | |
Yousfi et al. | Holy Qur'an speech recognition system Imaalah checking rule for warsh recitation | |
Ajayi et al. | Systematic review on speech recognition tools and techniques needed for speech application development | |
CN113628608A (zh) | 语音生成方法、装置、电子设备及可读存储介质 | |
CN115424604B (zh) | 一种基于对抗生成网络的语音合成模型的训练方法 | |
JP7357518B2 (ja) | 音声合成装置及びプログラム | |
Janyoi et al. | F0 modeling for isarn speech synthesis using deep neural networks and syllable-level feature representation. | |
KR100488121B1 (ko) | 화자간 변별력 향상을 위하여 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법 | |
Oralbekova et al. | Current advances and algorithmic solutions in speech generation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190801 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201006 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201008 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6777768 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |