JP7314450B2 - 音声合成方法、装置、機器、及びコンピュータ記憶媒体 - Google Patents
音声合成方法、装置、機器、及びコンピュータ記憶媒体 Download PDFInfo
- Publication number
- JP7314450B2 JP7314450B2 JP2022077078A JP2022077078A JP7314450B2 JP 7314450 B2 JP7314450 B2 JP 7314450B2 JP 2022077078 A JP2022077078 A JP 2022077078A JP 2022077078 A JP2022077078 A JP 2022077078A JP 7314450 B2 JP7314450 B2 JP 7314450B2
- Authority
- JP
- Japan
- Prior art keywords
- features
- model
- text
- prosody
- vocoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001308 synthesis method Methods 0.000 title claims description 28
- 230000015572 biosynthetic process Effects 0.000 claims description 163
- 238000003786 synthesis reaction Methods 0.000 claims description 163
- 238000012549 training Methods 0.000 claims description 105
- 238000000034 method Methods 0.000 claims description 77
- 238000000605 extraction Methods 0.000 claims description 55
- 230000008569 process Effects 0.000 claims description 30
- 238000012545 processing Methods 0.000 claims description 28
- 230000003595 spectral effect Effects 0.000 claims description 21
- 230000002457 bidirectional effect Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 8
- 230000006403 short-term memory Effects 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims 3
- 238000010586 diagram Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 16
- 238000001228 spectrum Methods 0.000 description 15
- 230000008859 change Effects 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 11
- 238000012986 modification Methods 0.000 description 10
- 230000004048 modification Effects 0.000 description 10
- 238000012805 post-processing Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000012937 correction Methods 0.000 description 7
- 238000010606 normalization Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000013461 design Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
- Telephone Function (AREA)
Description
合成待ちテキストを取得するステップと、
前記テキストから抽出された韻律特徴を取得するステップと、
前記テキストと前記韻律特徴を音声合成モデルに入力して、ボコーダ特徴を取得するステップと;
前記ボコーダ特徴をボコーダに入力して、合成された音声を取得するステップと、を含む。
合成待ちテキストを取得するためのテキスト取得ユニットと、
前記テキストから抽出された韻律特徴を取得するための韻律抽出ユニットと、
前記テキストと前記韻律特徴を音声合成モデルに入力して、ボコーダ特徴を取得し、前記ボコーダ特徴をボコーダに入力して、合成された音声を取得する音声合成ユニットと、を含む。
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが上記の方法を実行させる。
201では、合成待ちテキストを取得する。
第2のデコーダは、予測された前のフレームの音響特徴、及び第2のスプライシング特徴を使用して、現在のフレームの音響特徴を予測して前記後予測ネットワークに出力し、前記音響特徴は音声スペクトル特徴を含む。
601では、ボコーダ特徴におけるUV特徴シーケンスの値変化境界上の値が1のフレームに対して1つずつ判断し、当該フレームに対応するエネルギー特徴値が0より小さい場合、当該フレームのUV特徴値を0に修正する。
701では、トレーニングサンプルを取得し、各トレーニングサンプルは、テキストサンプルとテキストサンプルにラベリングされた韻律特徴及びボコーダ特徴を含む。
801では、トレーニングサンプルを取得し、各トレーニングサンプルは、テキストサンプルとテキストサンプルにラベリングされた音響特徴及びボコーダ特徴を含む。
901では、トレーニングサンプルを取得し、各トレーニングサンプルは、テキストサンプルとテキストサンプルにラベリングされたボコーダ特徴を含む。
1001では、トレーニングサンプルを取得し、各トレーニングサンプルは、テキストサンプルとテキストサンプルにラベリングされた音響特徴及びボコーダ特徴を含む。
テキスト取得ユニット1101は、合成待ちテキストを取得するために用いられる。
第1のトレーニング方式:モデルトレーニングユニット1104は、トレーニングサンプルを取得し、各トレーニングサンプルは、テキストサンプルとテキストサンプルにラベリングされた韻律特徴及びボコーダ特徴を含み、テキストサンプルと、ラベリングされた韻律特徴を音声合成モデルの入力とし、ラベリングされたボコーダ特徴を音声合成モデルのターゲット出力とし、音声合成モデルをトレーニングする。
特徴取得ユニット1201は、テキストに対して得られたボコーダ特徴を取得するために用いられる。
Claims (23)
- 音声合成方法であって、
合成待ちテキストを取得するステップと、
前記テキストから抽出された韻律特徴を取得するステップと、
前記テキストと前記韻律特徴を音声合成モデルに入力して、スペクトル特徴、エネルギー特徴、CAP(Coarse aperiodic parameter)特徴、LF0(Logarithmic fundamental frequency)特徴、及び、UV特徴のうちの少なくとも一つを含むボコーダ特徴を取得するステップと、
前記ボコーダ特徴をボコーダに入力して、合成された音声を取得するステップと、を含み、
前記音声合成モデルは、第2のエンコーダ、第2のデコーダ、及び後予測ネットワークを含み、
前記第2のエンコーダは、前記テキストから言語特徴を抽出した後、前記言語特徴と前記韻律特徴をスプライシングし、又は前記言語特徴、韻律特徴、及び話者特徴をスプライシングし、スプライシングされた第2のスプライシング特徴を前記第2のデコーダに出力し、
前記第2のデコーダは、予測された前のフレームの音響特徴、及び前記第2のスプライシング特徴を使用して、現在のフレームの音響特徴を予測して前記後予測ネットワークに出力し、前記音響特徴は音声スペクトル特徴を含み、
前記後予測ネットワークは音響特徴を使用してボコーダ特徴を予測して取得する、
音声合成方法。 - 前記テキストから抽出された韻律特徴を取得するステップは、前記テキストを韻律予測モデルに入力して、前記韻律特徴を取得するステップを含み、
前記韻律予測モデルは、第1のエンコーダと第1のデコーダを含み、
前記第1のエンコーダは、前記テキストから言語特徴を抽出した後、前記言語特徴を前記第1のデコーダに出力し、前記第1のデコーダは、予測された前のフレームの韻律特徴と前記言語特徴を使用して、現在のフレームの韻律特徴を予測して取得し、
又は、
前記第1のデコーダは、前記テキストから言語特徴を抽出した後、前記テキストから抽出された放送スタイル特徴と前記言語特徴をスプライシングし、取得された第1のスプライシング特徴を前記第1のデコーダに入力し、前記第1のデコーダは、予測された前のフレームの韻律特徴と前記第1のスプライシング特徴を使用して、現在のフレームの韻律特徴を予測して取得する、
請求項1に記載の音声合成方法。 - 前記第2のデコーダが予測された前のフレームの音響特徴、及び前記第2のスプライシング特徴を使用して、現在のフレームの音響特徴を予測するステップは、
前記第2のデコーダが、前記前のフレームの音響特徴が前予測ネットワークを経た後に取得された特徴と、注意力処理を行った後の前記第2のスプライシング特徴をスプライシングして、第3のスプライシング特徴を取得するステップと、前記第3のスプライシング特徴が長短期記憶ネットワークLSTM処理を経た後に線形予測層に入力し、線形予測層によって予測して現在のフレームの音響特徴を取得するステップと、を含む、
請求項1に記載の音声合成方法。 - 前記後予測ネットワークは音響特徴を使用してボコーダ特徴を予測して取得するステップは、
前記後予測ネットワークが音響特徴をCBHGモジュールで処理した後、次に、N個の予測モジュールの予測を経て、予測結果からボコーダ特徴を構成するステップを含み、前記予測モジュールは、双方向ゲート付き回帰ユニット(GRU)と線形投影層を含み、Nは正の整数である、
請求項1に記載の音声合成方法。 - 前記音声合成モデルは、以下の方式を使用して予めトレーニングして取得し、前記方式は、
トレーニングサンプルを取得し、各トレーニングサンプルは、テキストサンプル、前記テキストサンプルにラベリングされた韻律特徴、及びボコーダ特徴を含み、
前記テキストサンプルと、ラベリングされた前記韻律特徴を音声合成モデルの入力とし、ラベリングされた前記ボコーダ特徴を前記音声合成モデルのターゲット出力とし、前記音声合成モデルをトレーニングする、
請求項1に記載の音声合成方法。 - 前記音声合成モデルは、以下の方式を使用して予めトレーニングして取得し、前記方式は、
トレーニングサンプルを取得し、各トレーニングサンプルは、テキストサンプル、前記テキストサンプルにラベリングされた音響特徴、及びボコーダ特徴を含み、
ラベリングされた前記音響特徴を韻律抽出モデルの入力とし、前記韻律抽出モデルによって出力された韻律特徴と前記テキストサンプルを言語合成モデルの入力とし、ラベリングされた前記ボコーダ特徴を前記言語合成モデルのターゲット出力とし、前記韻律抽出モデルと前記音声合成モデルをトレーニングする、
請求項1に記載の音声合成方法。 - 前記音声合成モデルは、以下の方式を使用して予めトレーニングして取得し、前記方式は、
トレーニングサンプルを取得し、各トレーニングサンプルは、テキストサンプルと前記テキストサンプルにラベリングされたボコーダ特徴を含み、
前記テキストサンプルを韻律予測モデルの入力とし、前記韻律予測モデルによって出力された韻律特徴と前記テキストサンプルを言語合成モデルの入力とし、ラベリングされた前記ボコーダ特徴を前記言語合成モデルのターゲット出力とし、前記韻律予測モデルと前記音声合成モデルをトレーニングする、
請求項1に記載の音声合成方法。 - 前記音声合成モデルは、以下の方式を使用して予めトレーニングして取得し、前記方式は、
トレーニングサンプルを取得し、各トレーニングサンプルは、テキストサンプル、前記テキストサンプルにラベリングされた音響特徴、及びボコーダ特徴を含み、
ラベリングされた前記音響特徴を韻律抽出モデルの入力とし、前記韻律抽出モデルによって出力された韻律特徴と前記テキストサンプルを言語合成モデルの入力とし、ラベリングされた前記ボコーダ特徴を前記言語合成モデルのターゲット出力とし、前記テキストサンプルを韻律予測モデルの入力とし、前記韻律抽出モデルによって出力された韻律特徴を前記韻律予測モデルのターゲット出力とし、前記韻律予測モデル、韻律抽出モデル、及び前記音声合成モデルをトレーニングする、
請求項1に記載の音声合成方法。 - 前記韻律抽出モデルは、畳み込み層、双方向GRU層、及び注意力層を含み、
ラベリングされた前記音響特徴は、畳み込み層と双方向GRU層を経た後、取得された特徴と前記音声合成モデルにおける前記第2のエンコーダによって抽出された言語特徴を注意力層に入力して注意力処理を行って、韻律特徴を取得する、
請求項6又は8に記載の音声合成方法。 - 前記トレーニングサンプルを取得するステップは、
標準音声を取得し、前記標準音声に対応するテキストをテキストサンプルとして決定するステップと、
前記標準音声から音響特徴とボコーダ特徴のうちの少なくとも1つを前記テキストサンプルとして抽出してラベリングし、及び/又は、
前記テキストサンプルから韻律特徴を抽出して前記テキストサンプルをラベリングするステップと、を含む、
請求項5~8のいずれか一項に記載の音声合成方法。 - 音声合成装置であって、
合成待ちテキストを取得するためのテキスト取得ユニットと、
前記テキストから抽出された韻律特徴を取得するための韻律抽出ユニットと、
前記テキストと前記韻律特徴を音声合成モデルに入力して、スペクトル特徴、エネルギー特徴、CAP(Coarse aperiodic parameter)特徴、LF0(Logarithmic fundamental frequency)特徴、及び、UV特徴のうちの少なくとも一つを含むボコーダ特徴を取得し、前記ボコーダ特徴をボコーダに入力して、合成された音声を取得する音声合成ユニットと、を含み、
前記音声合成モデルは、第2のエンコーダ、第2のデコーダ、及び後予測ネットワークを含み、
前記第2のエンコーダは、前記テキストから言語特徴を抽出した後、前記言語特徴と前記韻律特徴をスプライシングし、又は前記言語特徴、韻律特徴、及び話者特徴をスプライシングし、スプライシングされた第2のスプライシング特徴を前記第2のデコーダに出力するために用いられ、
前記第2のデコーダは、予測された前のフレームの音響特徴、及び前記第2のスプライシング特徴を使用して、現在のフレームの音響特徴を予測して前記後予測ネットワークに出力するために用いられ、前記音響特徴は音声スペクトル特徴を含み、
前記後予測ネットワークは、音響特徴を使用してボコーダ特徴を予測して取得するために用いられる、
音声合成装置。 - 前記韻律抽出ユニットは、具体的には、前記テキストを韻律予測モデルに入力して、前記韻律特徴を取得するために用いられ、
前記韻律予測モデルは、第1のエンコーダと第1のデコーダを含み、
前記第1のエンコーダは、前記テキストから言語特徴を抽出した後、前記言語特徴を前記第1のデコーダに出力するために用いられ、前記第1のデコーダは、予測された前のフレームの韻律特徴と前記言語特徴を使用して、現在のフレームの韻律特徴を予測して取得し、又は、
前記第1のデコーダは、前記テキストから言語特徴を抽出した後、前記テキストから抽出された放送スタイル特徴と前記言語特徴をスプライシングし、取得された第1のスプライシング特徴を前記第1のデコーダに入力し、前記第1のデコーダに予測された前のフレームの韻律特徴と前記第1のスプライシング特徴を使用して、現在のフレームの韻律特徴を予測して取得するために用いられる、
請求項11に記載の音声合成装置。 - 前記第2のデコーダは、具体的には、前記前のフレームの音響特徴が前予測ネットワークを経た後に取得された特徴と、注意力処理を行った後の前記第2のスプライシング特徴をスプライシングし、第3のスプライシング特徴を取得し、前記第3のスプライシング特徴が長短期記憶ネットワークLSTM処理を経た後に線形予測層に入力し、線形予測層によって予測して現在のフレームの音響特徴を取得するために用いられる、
請求項11に記載の音声合成装置。 - 前記後予測ネットワークは、具体的には、音響特徴をCBHGモジュールで処理した後、次に、N個の予測モジュールの予測を経て、予測結果からボコーダ特徴を構成するために用いられ、前記予測モジュールは、双方向ゲート付き回帰ユニット(GRU)と線形投影層を含み、Nは正の整数である、
請求項11に記載の音声合成装置。 - 前記音声合成装置は、モデルトレーニングユニットをさらに含み、
前記モデルトレーニングユニットは、トレーニングサンプルを取得するために用いられ、各トレーニングサンプルは、テキストサンプル、前記テキストサンプルにラベリングされた韻律特徴、及びボコーダ特徴を含み、前記テキストサンプルと、ラベリングされた前記韻律特徴を音声合成モデルの入力とし、ラベリングされた前記ボコーダ特徴を前記音声合成モデルのターゲット出力とし、前記音声合成モデルをトレーニングする、
請求項11に記載の音声合成装置。 - 前記音声合成装置は、モデルトレーニングユニットをさらに含み、
前記モデルトレーニングユニットは、トレーニングサンプルを取得するために用いられ、各トレーニングサンプルは、テキストサンプル、前記テキストサンプルにラベリングされた音響特徴、及びボコーダ特徴を含み、ラベリングされた前記音響特徴を韻律抽出モデルの入力とし、前記韻律抽出モデルによって出力された韻律特徴と前記テキストサンプルを言語合成モデルの入力とし、ラベリングされた前記ボコーダ特徴を前記言語合成モデルのターゲット出力とし、前記韻律抽出モデルと前記音声合成モデルをトレーニングする、
請求項11に記載の音声合成装置。 - 前記音声合成装置は、モデルトレーニングユニットをさらに含み、
前記モデルトレーニングユニットは、トレーニングサンプルを取得するために用いられ、各トレーニングサンプルは、テキストサンプルと前記テキストサンプルにラベリングされたボコーダ特徴を含み、前記テキストサンプルを韻律予測モデルの入力とし、前記韻律予測モデルによって出力された韻律特徴と前記テキストサンプルを言語合成モデルの入力とし、ラベリングされた前記ボコーダ特徴を前記言語合成モデルのターゲット出力とし、前記韻律予測モデルと前記音声合成モデルをトレーニングする、
請求項11に記載の音声合成装置。 - 前記音声合成装置は、モデルトレーニングユニットをさらに含み、
前記モデルトレーニングユニットは、トレーニングサンプルを取得するために用いられ、各トレーニングサンプルは、テキストサンプル、前記テキストサンプルにラベリングされた音響特徴、及びボコーダ特徴を含み、ラベリングされた前記音響特徴を韻律抽出モデルの入力とし、前記韻律抽出モデルによって出力された韻律特徴と前記テキストサンプルを言語合成モデルの入力とし、ラベリングされた前記ボコーダ特徴を前記言語合成モデルのターゲット出力とし、前記テキストサンプルを韻律予測モデルの入力とし、前記韻律抽出モデルによって出力された韻律特徴を前記韻律予測モデルのターゲット出力とし、前記韻律予測モデル、韻律抽出モデル、及び前記音声合成モデルをトレーニングする、
請求項11に記載の音声合成装置。 - 前記韻律抽出モデルは、畳み込み層、双方向GRU層、及び注意力層を含み、
ラベリングされた前記音響特徴は、畳み込み層と双方向GRU層を経た後、取得された特徴と前記音声合成モデルにおける前記第2のエンコーダによって抽出された言語特徴を注意力層に入力して注意力処理を行って、韻律特徴を取得する、
請求項16又は18に記載の音声合成装置。 - 前記モデルトレーニングユニットは、具体的には、標準音声を取得し、前記標準音声に対応するテキストをテキストサンプルとして決定し、前記標準音声から音響特徴とボコーダ特徴のうちの少なくとも1つを前記テキストサンプルとして抽出してラベリングし、及び/又は、前記テキストサンプルから韻律特徴を抽出して前記テキストサンプルをラベリングするために用いられる、
請求項15~18のいずれか一項に記載の音声合成装置。 - 電子機器であって、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサに通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが請求項1~8のいずれかの一つに記載の音声合成方法を実行する、
電子機器。 - コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項1~8のいずれかの一つに記載の音声合成方法を実行させる、
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体。 - コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサによって実行される時に請求項1~8のいずれかの一つに記載の音声合成方法を実現する、
コンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110942295.4 | 2021-08-17 | ||
CN202110942295.4A CN113838452B (zh) | 2021-08-17 | 2021-08-17 | 语音合成方法、装置、设备和计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023027748A JP2023027748A (ja) | 2023-03-02 |
JP7314450B2 true JP7314450B2 (ja) | 2023-07-26 |
Family
ID=78960628
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022077078A Active JP7314450B2 (ja) | 2021-08-17 | 2022-05-09 | 音声合成方法、装置、機器、及びコンピュータ記憶媒体 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11996084B2 (ja) |
JP (1) | JP7314450B2 (ja) |
KR (1) | KR102611024B1 (ja) |
CN (1) | CN113838452B (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113838452B (zh) * | 2021-08-17 | 2022-08-23 | 北京百度网讯科技有限公司 | 语音合成方法、装置、设备和计算机存储介质 |
CN114360587A (zh) * | 2021-12-27 | 2022-04-15 | 北京百度网讯科技有限公司 | 识别音频的方法、装置、设备、介质及产品 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200394998A1 (en) | 2018-08-02 | 2020-12-17 | Neosapience, Inc. | Method, device, and computer readable storage medium for text-to-speech synthesis using machine learning on basis of sequential prosody feature |
JP2021085943A (ja) | 2019-11-26 | 2021-06-03 | 日本放送協会 | 音声合成装置及びプログラム |
Family Cites Families (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11282494A (ja) | 1998-03-27 | 1999-10-15 | Brother Ind Ltd | 音声合成装置および記憶媒体 |
TW430778B (en) | 1998-06-15 | 2001-04-21 | Yamaha Corp | Voice converter with extraction and modification of attribute data |
JP4584511B2 (ja) | 2001-09-10 | 2010-11-24 | Okiセミコンダクタ株式会社 | 規則音声合成装置 |
CN102201234B (zh) | 2011-06-24 | 2013-02-06 | 北京宇音天下科技有限公司 | 一种基于音调自动标注及预测的语音合成方法 |
CN102915737B (zh) | 2011-07-31 | 2018-01-19 | 中兴通讯股份有限公司 | 一种浊音起始帧后丢帧的补偿方法和装置 |
CN104517614A (zh) | 2013-09-30 | 2015-04-15 | 上海爱聊信息科技有限公司 | 基于各子带特征参数值的清浊音判决装置及其判决方法 |
US9472182B2 (en) | 2014-02-26 | 2016-10-18 | Microsoft Technology Licensing, Llc | Voice font speaker and prosody interpolation |
KR101706123B1 (ko) | 2015-04-29 | 2017-02-13 | 서울대학교산학협력단 | 파라미터 변경에 의해 음색을 변환하는 사용자 맞춤형 음성 보정 방법 및 이를 구현하는 음성 보정 장치 |
JP6472342B2 (ja) | 2015-06-29 | 2019-02-20 | 日本電信電話株式会社 | 音声合成装置、音声合成方法、およびプログラム |
CN108346424B (zh) | 2017-01-23 | 2021-11-19 | 北京搜狗科技发展有限公司 | 语音合成方法和装置、用于语音合成的装置 |
JP6802958B2 (ja) | 2017-02-28 | 2020-12-23 | 国立研究開発法人情報通信研究機構 | 音声合成システム、音声合成プログラムおよび音声合成方法 |
CN107481713B (zh) * | 2017-07-17 | 2020-06-02 | 清华大学 | 一种混合语言语音合成方法及装置 |
US10796686B2 (en) * | 2017-10-19 | 2020-10-06 | Baidu Usa Llc | Systems and methods for neural text-to-speech using convolutional sequence learning |
EP3739572A4 (en) * | 2018-01-11 | 2021-09-08 | Neosapience, Inc. | METHOD AND DEVICE FOR TEXT-TO-LANGUAGE SYNTHESIS USING MACHINE LEARNING AND COMPUTER-READABLE STORAGE MEDIUM |
KR102199067B1 (ko) * | 2018-01-11 | 2021-01-06 | 네오사피엔스 주식회사 | 다중 언어 텍스트-음성 합성 방법 |
CN109671422B (zh) | 2019-01-09 | 2022-06-17 | 浙江工业大学 | 一种获取纯净语音的录音方法 |
US10902841B2 (en) * | 2019-02-15 | 2021-01-26 | International Business Machines Corporation | Personalized custom synthetic speech |
CN111798832A (zh) * | 2019-04-03 | 2020-10-20 | 北京京东尚科信息技术有限公司 | 语音合成方法、装置和计算机可读存储介质 |
CN112151003A (zh) * | 2019-06-27 | 2020-12-29 | 百度在线网络技术(北京)有限公司 | 并行语音合成方法、装置、设备以及计算机可读存储介质 |
WO2021006117A1 (ja) | 2019-07-05 | 2021-01-14 | 国立研究開発法人情報通信研究機構 | 音声合成処理装置、音声合成処理方法、および、プログラム |
CN110534089B (zh) * | 2019-07-10 | 2022-04-22 | 西安交通大学 | 一种基于音素和韵律结构的中文语音合成方法 |
US20220377726A1 (en) | 2019-10-30 | 2022-11-24 | Hyundai Motor Company | Method and device for allocating sidelink resource in communication system |
CN110970014B (zh) * | 2019-10-31 | 2023-12-15 | 阿里巴巴集团控股有限公司 | 语音转换、文件生成、播音、语音处理方法、设备及介质 |
WO2021118604A1 (en) * | 2019-12-13 | 2021-06-17 | Google Llc | Training speech synthesis to generate distinct speech sounds |
WO2021127985A1 (zh) * | 2019-12-24 | 2021-07-01 | 深圳市优必选科技股份有限公司 | 语音转换方法、系统、装置及存储介质 |
GB2591245B (en) * | 2020-01-21 | 2022-06-15 | Samsung Electronics Co Ltd | An expressive text-to-speech system |
CN111508469A (zh) * | 2020-04-26 | 2020-08-07 | 北京声智科技有限公司 | 一种文语转换方法及装置 |
CN111681641B (zh) * | 2020-05-26 | 2024-02-06 | 微软技术许可有限责任公司 | 基于短语的端对端文本到语音(tts)合成 |
CN111754976B (zh) * | 2020-07-21 | 2023-03-07 | 中国科学院声学研究所 | 一种韵律控制语音合成方法、系统及电子装置 |
CN111883149B (zh) * | 2020-07-30 | 2022-02-01 | 四川长虹电器股份有限公司 | 一种带情感和韵律的语音转换方法及装置 |
CN112017644B (zh) * | 2020-10-21 | 2021-02-12 | 南京硅基智能科技有限公司 | 一种声音变换系统、方法及应用 |
CN112365880B (zh) * | 2020-11-05 | 2024-03-26 | 北京百度网讯科技有限公司 | 语音合成方法、装置、电子设备及存储介质 |
CN112382267A (zh) * | 2020-11-13 | 2021-02-19 | 北京有竹居网络技术有限公司 | 用于转换口音的方法、装置、设备以及存储介质 |
CN112365875B (zh) * | 2020-11-18 | 2021-09-10 | 北京百度网讯科技有限公司 | 语音合成方法、装置、声码器和电子设备 |
CN112541078A (zh) * | 2020-12-10 | 2021-03-23 | 平安科技(深圳)有限公司 | 新闻智能播报方法、装置、设备及存储介质 |
CN112712812B (zh) * | 2020-12-24 | 2024-04-26 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频信号生成方法、装置、设备以及存储介质 |
CN112863482B (zh) * | 2020-12-31 | 2022-09-27 | 思必驰科技股份有限公司 | 带有韵律的语音合成方法及系统 |
CN112786006B (zh) * | 2021-01-13 | 2024-05-17 | 北京有竹居网络技术有限公司 | 语音合成方法、合成模型训练方法、装置、介质及设备 |
CN113327579A (zh) * | 2021-08-03 | 2021-08-31 | 北京世纪好未来教育科技有限公司 | 语音合成方法、装置、存储介质和电子设备 |
CN113838452B (zh) * | 2021-08-17 | 2022-08-23 | 北京百度网讯科技有限公司 | 语音合成方法、装置、设备和计算机存储介质 |
-
2021
- 2021-08-17 CN CN202110942295.4A patent/CN113838452B/zh active Active
-
2022
- 2022-05-06 US US17/738,186 patent/US11996084B2/en active Active
- 2022-05-09 JP JP2022077078A patent/JP7314450B2/ja active Active
- 2022-05-10 KR KR1020220057485A patent/KR102611024B1/ko active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200394998A1 (en) | 2018-08-02 | 2020-12-17 | Neosapience, Inc. | Method, device, and computer readable storage medium for text-to-speech synthesis using machine learning on basis of sequential prosody feature |
JP2021085943A (ja) | 2019-11-26 | 2021-06-03 | 日本放送協会 | 音声合成装置及びプログラム |
Non-Patent Citations (2)
Title |
---|
Jonathan Shen et. al.,Natural TTS Synthesis by Conditioning Wavenet on MEL Spectrogram Predictions,2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),2018年04月15日,pages 4779-4783 |
Yanfeng Lu et. al.,Implementing Prosodic Phrasing in Chinese End-to-end Speech Synthesis,2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),2019年05月12日,pages 7050-7054 |
Also Published As
Publication number | Publication date |
---|---|
KR20230026242A (ko) | 2023-02-24 |
US11996084B2 (en) | 2024-05-28 |
CN113838452A (zh) | 2021-12-24 |
US20230059882A1 (en) | 2023-02-23 |
KR102611024B1 (ko) | 2023-12-06 |
JP2023027748A (ja) | 2023-03-02 |
CN113838452B (zh) | 2022-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7464621B2 (ja) | 音声合成方法、デバイス、およびコンピュータ可読ストレージ媒体 | |
US11450313B2 (en) | Determining phonetic relationships | |
JP7314450B2 (ja) | 音声合成方法、装置、機器、及びコンピュータ記憶媒体 | |
CN112771607A (zh) | 电子设备及其控制方法 | |
US11842728B2 (en) | Training neural networks to predict acoustic sequences using observed prosody info | |
CN113808571B (zh) | 语音合成方法、装置、电子设备以及存储介质 | |
US20230178067A1 (en) | Method of training speech synthesis model and method of synthesizing speech | |
US20230127787A1 (en) | Method and apparatus for converting voice timbre, method and apparatus for training model, device and medium | |
US11322133B2 (en) | Expressive text-to-speech utilizing contextual word-level style tokens | |
CN111696521A (zh) | 语音克隆模型的训练方法、可读存储介质和语音克隆方法 | |
CN113450758B (zh) | 语音合成方法、装置、设备及介质 | |
WO2022072936A2 (en) | Text-to-speech using duration prediction | |
JP7349523B2 (ja) | 音声認識方法、音声認識装置、電子機器、記憶媒体コンピュータプログラム製品及びコンピュータプログラム | |
CN113920987A (zh) | 一种语音识别的方法、装置、设备及存储介质 | |
JP7318161B2 (ja) | 音声処理方法、装置、機器、及びコンピュータ記憶媒体 | |
CN114242035A (zh) | 语音合成方法、装置、介质以及电子设备 | |
CN114512121A (zh) | 语音合成方法、模型训练方法及装置 | |
CN113744713A (zh) | 一种语音合成方法及语音合成模型的训练方法 | |
CN114373445B (zh) | 语音生成方法、装置、电子设备及存储介质 | |
CN115831090A (zh) | 语音合成方法、装置、设备及存储介质 | |
CN117711376A (zh) | 语种识别方法、系统、设备及存储介质 | |
CN118135994A (zh) | 语音合成方法、装置、设备及介质 | |
CN115114933A (zh) | 用于文本处理的方法、装置、设备和存储介质 | |
CN113793598A (zh) | 语音处理模型的训练方法和数据增强方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220509 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230314 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230602 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230613 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230615 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7314450 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |