JP2023027747A - 音声処理方法、装置、機器、及びコンピュータ記憶媒体 - Google Patents
音声処理方法、装置、機器、及びコンピュータ記憶媒体 Download PDFInfo
- Publication number
- JP2023027747A JP2023027747A JP2022075811A JP2022075811A JP2023027747A JP 2023027747 A JP2023027747 A JP 2023027747A JP 2022075811 A JP2022075811 A JP 2022075811A JP 2022075811 A JP2022075811 A JP 2022075811A JP 2023027747 A JP2023027747 A JP 2023027747A
- Authority
- JP
- Japan
- Prior art keywords
- features
- vocoder
- feature
- text
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 26
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 122
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 122
- 238000012986 modification Methods 0.000 claims abstract description 24
- 230000004048 modification Effects 0.000 claims abstract description 24
- 238000000034 method Methods 0.000 claims description 86
- 238000012549 training Methods 0.000 claims description 72
- 230000008569 process Effects 0.000 claims description 38
- 238000012545 processing Methods 0.000 claims description 34
- 230000003595 spectral effect Effects 0.000 claims description 34
- 238000010606 normalization Methods 0.000 claims description 18
- 230000008859 change Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 9
- 238000012937 correction Methods 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 2
- 238000001228 spectrum Methods 0.000 abstract description 17
- 238000000605 extraction Methods 0.000 description 33
- 238000010586 diagram Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 16
- 230000000694 effects Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 230000002457 bidirectional effect Effects 0.000 description 7
- 239000000284 extract Substances 0.000 description 5
- 238000012805 post-processing Methods 0.000 description 5
- 238000001308 synthesis method Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
Description
テキストに対して得られたボコーダ特徴を取得するステップと、
前記ボコーダ特徴におけるエネルギー特徴及び/又は音声スペクトル特徴に基づいて、前記ボコーダ特徴におけるUV(有声音及び無声音)特徴に対して値修正を行うステップと、
合成された音声を取得するように、修正後のボコーダ特徴をボコーダに提供するステップと、を含む。
テキストに対して得られたボコーダ特徴を取得するための特徴取得ユニットと、
前記ボコーダ特徴におけるエネルギー特徴及び/又は音声スペクトル特徴に基づいて、前記ボコーダ特徴におけるUV特徴に対して値修正を行うためのUV修正ユニットと、
合成された音声を取得するように、修正後のボコーダ特徴をボコーダに提供するための特徴送信ユニットと、を含む。
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが上記の方法を実行させる。
201では、テキストに対して得られたボコーダ特徴を取得する。
2021では、ボコーダ特徴におけるUV特徴シーケンスの値変化境界上の値が1のフレームに対して1つずつ判断し、当該フレームに対応するエネルギー特徴値が0より小さい場合、当該フレームのUV特徴値を0に修正する。
401では、合成しようとするテキストを取得する。
第2のデコーダは、予測された前のフレームの音響特徴、及び第2のスプライシング特徴を使用して、現在のフレームの音響特徴を予測して前記後予測ネットワークに出力し、前記音響特徴は音声スペクトル特徴を含む。
801では、トレーニングサンプルを取得し、各トレーニングサンプルは、テキストサンプルとテキストサンプルにラベリングされた韻律特徴及びボコーダ特徴を含む。
901では、トレーニングサンプルを取得し、各トレーニングサンプルは、テキストサンプルとテキストサンプルにラベリングされた音響特徴及びボコーダ特徴を含む。
1001では、トレーニングサンプルを取得し、各トレーニングサンプルは、テキストサンプルとテキストサンプルにラベリングされたボコーダ特徴を含む。
1101では、トレーニングサンプルを取得し、各トレーニングサンプルは、テキストサンプルとテキストサンプルにラベリングされた音響特徴及びボコーダ特徴を含む。
特徴取得ユニット1201は、テキストに対して得られたボコーダ特徴を取得するために用いられる。
テキスト取得ユニット1301は、合成しようとするテキストを取得するために用いられる。
第1のトレーニング方式:モデルトレーニングユニット1304は、トレーニングサンプルを取得し、各トレーニングサンプルは、テキストサンプルとテキストサンプルにラベリングされた韻律特徴及びボコーダ特徴を含み、テキストサンプルと、ラベリングされた韻律特徴を音声合成モデルの入力とし、ラベリングされたボコーダ特徴を音声合成モデルのターゲット出力とし、音声合成モデルをトレーニングする。
Claims (20)
- 音声処理方法であって、
テキストに対して得られたボコーダ特徴を取得するステップと、
前記ボコーダ特徴におけるエネルギー特徴及び/又は音声スペクトル特徴に基づいて、前記ボコーダ特徴におけるUV特徴に対して値修正を行うステップと、
合成された音声を取得するように、修正後のボコーダ特徴をボコーダに提供するステップと、を含む、
音声処理方法。 - 前記ボコーダ特徴におけるエネルギー特徴に基づいて、前記ボコーダ特徴におけるUV特徴に対して値修正を行うステップは、
前記ボコーダ特徴におけるUV特徴シーケンスの値変化境界上の値が1のフレームに対応するエネルギー特徴値が0より小さいか否かをそれぞれ判断し、そうである場合、当該フレームのUV特徴値を0に修正するステップと、
前記UV特徴シーケンスの値変化境界上の値が0のフレームに対応するエネルギー特徴値と、値が1の隣接フレームに対応するエネルギー特徴値との間の比率が予め設定された比率の閾値より大きいか否かをそれぞれ判断し、そうである場合、当該値が0のフレームのUV特徴値を1に修正するステップと、を含む、
請求項1に記載の音声処理方法。 - 前記ボコーダ特徴における音声スペクトル特徴に基づいて、前記ボコーダ特徴におけるUV特徴に対して値修正を行うステップは、
各フレームについて、当該フレームにおける前記音声スペクトル特徴の前のM次元の最大値が予め設定された第1の閾値より小さい場合、当該フレームのUV特徴値を1に設置するステップと、
当該フレームにおける前記音声スペクトル特徴の前のM次元の最大値が予め設定された第2の閾値より大きい場合、当該フレームのUV特徴値を0に設置するステップと、を含み、
前記Mは予め設定された正の整数であり、前記第2の閾値は前記第1の閾値より大きい、
請求項1に記載の音声処理方法。 - 前記音声スペクトル特徴はメルスペクトル特徴であり、
前記Mは20であり、
前記第1の閾値は2であり、
前記第2の閾値は2.5である、
請求項3に記載の音声処理方法。 - 前記ボコーダ特徴におけるエネルギー特徴及び/又は音声スペクトル特徴に基づいて、前記ボコーダ特徴におけるUV特徴に対して値修正を行うステップの前に、
予め設定された補間倍数に従って、前記ボコーダ特徴に対して線形補間処理を行うステップをさらに含む、
請求項1に記載の音声処理方法。 - 前記修正後のボコーダ特徴をボコーダに提供するステップの前に、
前記修正後のボコーダ特徴内の予め設定されたタイプの特徴シーケンスに対して逆正規化処理を行うステップをさらに含み、
前記逆正規化処理は、音声合成モデルのトレーニングプロセス中に前記予め設定されたタイプの特徴シーケンスに対して行われる正規化処理に対応し、
前記音声合成モデルは、前記テキストに対して得られたボコーダ特徴を取得するソースである、
請求項1から5のいずれか一項に記載の音声処理方法。 - 前記テキストに対して得られたボコーダ特徴を取得するステップは、
前記テキストから抽出された韻律特徴を取得するステップと、
前記テキストと前記韻律特徴を音声合成モデルに入力して、ボコーダ特徴を取得するステップと、を含み、
前記音声合成モデルは、第2のエンコーダ、第2のデコーダ、及び後予測ネットワークを含み、
前記第2のエンコーダは、前記テキストから言語特徴を抽出した後、前記言語特徴と前記韻律特徴をスプライシングし、又は、前記言語特徴、韻律特徴、及び話者特徴をスプライシングし、スプライシングされた第2のスプライシング特徴を前記第2のデコーダに出力し、
前記第2のデコーダは、予測された前のフレームの音響特徴、及び前記第2のスプライシング特徴を使用して、現在のフレームの音響特徴を予測して前記後予測ネットワークに出力し、前記音響特徴は音声スペクトル特徴を含み、
前記後予測ネットワークは音響特徴を使用してボコーダ特徴を予測して取得する、
請求項1から5のいずれか一項に記載の音声処理方法。 - 前記後予測ネットワークが音響特徴を使用してボコーダ特徴を予測して取得するステップは、
前記後予測ネットワークが音響特徴をCBHGモジュールで処理した後、次に、N個の予測モジュールの予測を経て、予測結果からボコーダ特徴を構成するステップを含み、
前記予測モジュールは、双方向ゲート付き回帰ユニット(GRU)と線形投影層を含み、
前記Nは正の整数である、
請求項7に記載の音声処理方法。 - 前記テキストから抽出された韻律特徴を取得するステップは、
前記テキストを韻律予測モデルに入力して、前記韻律特徴を取得するステップを含み、
前記韻律予測モデルは、第1のエンコーダと第1のデコーダを含み、
前記第1のエンコーダは、前記テキストから言語特徴を抽出した後、前記言語特徴を前記第1のデコーダに出力し、前記第1のデコーダは、予測された前のフレームの韻律特徴と前記言語特徴を使用して、現在のフレームの韻律特徴を予測して取得し、
又は、
前記第1のデコーダは、前記テキストから言語特徴を抽出した後、前記テキストから抽出された放送スタイル特徴と前記言語特徴をスプライシングし、取得された第1のスプライシング特徴を前記第1のデコーダに入力し、前記第1のデコーダは、予測された前のフレームの韻律特徴と前記第1のスプライシング特徴を使用して、現在のフレームの韻律特徴を予測して取得する、
請求項7に記載の音声処理方法。 - 音声処理装置であって、
テキストに対して得られたボコーダ特徴を取得するための特徴取得ユニットと、
前記ボコーダ特徴におけるエネルギー特徴及び/又は音声スペクトル特徴に基づいて、前記ボコーダ特徴におけるUV特徴に対して値修正を行うためのUV修正ユニットと、
合成された音声を取得するように、修正後のボコーダ特徴をボコーダに提供するための特徴送信ユニットと、を含む、
音声処理装置。 - 前記UV修正ユニットは、具体的には、前記ボコーダ特徴におけるUV特徴シーケンスの値変化境界上の値が1のフレームに対応するエネルギー特徴値が0より小さいか否かをそれぞれ判断し、そうである場合、当該フレームのUV特徴値を0に修正し、
前記UV特徴シーケンスの値変化境界上の値が0のフレームに対応するエネルギー特徴値と、値が1の隣接フレームに対応するエネルギー特徴値との間の比率が予め設定された比率の閾値より大きいか否かをそれぞれ判断し、そうである場合、当該値が0のフレームのUV特徴値を1に修正するために用いられる、
請求項10に記載の音声処理装置。 - 前記UV修正ユニットは、具体的には、各フレームについて、当該フレームにおける前記音声スペクトル特徴の前のM次元の最大値が予め設定された第1の閾値より小さい場合、当該フレームのUV特徴値を1に設置し、
当該フレームにおける前記音声スペクトル特徴の前のM次元の最大値が予め設定された第2の閾値より大きい場合、当該フレームのUV特徴値を0に設置するために用いられ、
前記Mは予め設定された正の整数であり、
前記第2の閾値は前記第1の閾値より大きい、
請求項10に記載の音声処理装置。 - 前記音声スペクトル特徴はメルスペクトル特徴であり、
前記Mは20であり、
前記第1の閾値は2であり、
前記第2の閾値は2.5である、
請求項12に記載の音声処理装置。 - 前記音声処理装置は、
予め設定された補間倍数に従って、前記特徴取得ユニットによって取得されたボコーダ特徴に対して線形補間処理を行い、線形補間処理後のボコーダ特徴を前記UV修正ユニットに提供するための線形補間ユニットをさらに含む、
請求項10に記載の音声処理装置。 - 前記音声処理装置は、前記UV修正ユニットによって修正されたボコーダ特徴内の予め設定されたタイプの特徴シーケンスに対して逆正規化処理を行い、処理後のボコーダ特徴を前記特徴送信ユニットに提供するための逆正規化ユニットをさらに含み、
前記逆正規化処理は、音声合成モデルのトレーニングプロセス中に前記予め設定されたタイプの特徴シーケンスに対して行われる正規化処理に対応し、
前記音声合成モデルは、前記テキストに対して得られたボコーダ特徴を取得するソースである、
請求項10から14のいずれか一項に記載の音声処理装置。 - 前記特徴取得ユニットは、具体的には、前記テキストから抽出された韻律特徴を取得し、前記テキストと前記韻律特徴を音声合成モデルに入力して、ボコーダ特徴を取得するために用いられ、
前記音声合成モデルは、第2のエンコーダ、第2のデコーダ、及び後予測ネットワークを含み、
前記第2のエンコーダは、前記テキストから言語特徴を抽出した後、前記言語特徴と前記韻律特徴をスプライシングし、又は前記言語特徴、韻律特徴、及び話者特徴をスプライシングし、スプライシングされた第2のスプライシング特徴を前記第2のデコーダに出力し、
前記第2のデコーダは、予測された前のフレームの音響特徴、及び前記第2のスプライシング特徴を使用して、現在のフレームの音響特徴を予測して前記後予測ネットワークに出力し、前記音響特徴は音声スペクトル特徴を含み、
前記後予測ネットワークは音響特徴を使用してボコーダ特徴を予測して取得する、
請求項10から14のいずれか一項に記載の音声処理装置。 - 前記特徴取得ユニットは、具体的には、前記テキストを韻律予測モデルに入力して、前記韻律特徴を取得するために用いられ、
前記韻律予測モデルは、第1のエンコーダと第1のデコーダを含み、
前記第1のエンコーダは、前記テキストから言語特徴を抽出した後、前記言語特徴を前記第1のデコーダに出力し、前記第1のデコーダは、予測された前のフレームの韻律特徴と前記言語特徴を使用して、現在のフレームの韻律特徴を予測して取得し、又は、
前記第1のデコーダは、前記テキストから言語特徴を抽出した後、前記テキストから抽出された放送スタイル特徴と前記言語特徴をスプライシングし、取得された第1のスプライシング特徴を前記第1のデコーダに入力し、前記第1のデコーダは、予測された前のフレームの韻律特徴と前記第1のスプライシング特徴を使用して、現在のフレームの韻律特徴を予測して取得する、
請求項16に記載の音声処理装置。 - 電子機器であって、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサに通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが請求項1~5のいずれかの一つに記載の音声処理方法を実行する、
電子機器。 - コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項1~5のいずれかの一つに記載の音声処理方法を実行させる、
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体。 - コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサによって実行される時に請求項1~5のいずれかの一つに記載の音声処理方法を実現する、
コンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110942535.0 | 2021-08-17 | ||
CN202110942535.0A CN113838453B (zh) | 2021-08-17 | 2021-08-17 | 语音处理方法、装置、设备和计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023027747A true JP2023027747A (ja) | 2023-03-02 |
JP7318161B2 JP7318161B2 (ja) | 2023-08-01 |
Family
ID=78960541
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022075811A Active JP7318161B2 (ja) | 2021-08-17 | 2022-05-02 | 音声処理方法、装置、機器、及びコンピュータ記憶媒体 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230056128A1 (ja) |
JP (1) | JP7318161B2 (ja) |
KR (1) | KR102611003B1 (ja) |
CN (1) | CN113838453B (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003084787A (ja) * | 2001-09-10 | 2003-03-19 | Oki Electric Ind Co Ltd | 規則音声合成装置 |
US20150243275A1 (en) * | 2014-02-26 | 2015-08-27 | Microsoft Corporation | Voice font speaker and prosody interpolation |
JP2017015821A (ja) * | 2015-06-29 | 2017-01-19 | 日本電信電話株式会社 | 音声合成装置、音声合成方法、およびプログラム |
JP2018141915A (ja) * | 2017-02-28 | 2018-09-13 | 国立研究開発法人情報通信研究機構 | 音声合成システム、音声合成プログラムおよび音声合成方法 |
WO2021006117A1 (ja) * | 2019-07-05 | 2021-01-14 | 国立研究開発法人情報通信研究機構 | 音声合成処理装置、音声合成処理方法、および、プログラム |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11282494A (ja) * | 1998-03-27 | 1999-10-15 | Brother Ind Ltd | 音声合成装置および記憶媒体 |
TW430778B (en) * | 1998-06-15 | 2001-04-21 | Yamaha Corp | Voice converter with extraction and modification of attribute data |
WO2005048239A1 (ja) * | 2003-11-12 | 2005-05-26 | Honda Motor Co., Ltd. | 音声認識装置 |
CN102201234B (zh) * | 2011-06-24 | 2013-02-06 | 北京宇音天下科技有限公司 | 一种基于音调自动标注及预测的语音合成方法 |
CN102915737B (zh) * | 2011-07-31 | 2018-01-19 | 中兴通讯股份有限公司 | 一种浊音起始帧后丢帧的补偿方法和装置 |
WO2013108685A1 (ja) * | 2012-01-17 | 2013-07-25 | ソニー株式会社 | 符号化装置および符号化方法、復号装置および復号方法、プログラム |
CN104517614A (zh) * | 2013-09-30 | 2015-04-15 | 上海爱聊信息科技有限公司 | 基于各子带特征参数值的清浊音判决装置及其判决方法 |
KR101706123B1 (ko) * | 2015-04-29 | 2017-02-13 | 서울대학교산학협력단 | 파라미터 변경에 의해 음색을 변환하는 사용자 맞춤형 음성 보정 방법 및 이를 구현하는 음성 보정 장치 |
CN105185372B (zh) * | 2015-10-20 | 2017-03-22 | 百度在线网络技术(北京)有限公司 | 个性化多声学模型的训练方法、语音合成方法及装置 |
CN108346424B (zh) * | 2017-01-23 | 2021-11-19 | 北京搜狗科技发展有限公司 | 语音合成方法和装置、用于语音合成的装置 |
US10796686B2 (en) * | 2017-10-19 | 2020-10-06 | Baidu Usa Llc | Systems and methods for neural text-to-speech using convolutional sequence learning |
JP7082357B2 (ja) * | 2018-01-11 | 2022-06-08 | ネオサピエンス株式会社 | 機械学習を利用したテキスト音声合成方法、装置およびコンピュータ読み取り可能な記憶媒体 |
CN109036375B (zh) * | 2018-07-25 | 2023-03-24 | 腾讯科技(深圳)有限公司 | 语音合成方法、模型训练方法、装置和计算机设备 |
CN109671422B (zh) * | 2019-01-09 | 2022-06-17 | 浙江工业大学 | 一种获取纯净语音的录音方法 |
CN111798832A (zh) * | 2019-04-03 | 2020-10-20 | 北京京东尚科信息技术有限公司 | 语音合成方法、装置和计算机可读存储介质 |
US11158302B1 (en) * | 2020-05-11 | 2021-10-26 | New Oriental Education & Technology Group Inc. | Accent detection method and accent detection device, and non-transitory storage medium |
CN112365880B (zh) * | 2020-11-05 | 2024-03-26 | 北京百度网讯科技有限公司 | 语音合成方法、装置、电子设备及存储介质 |
-
2021
- 2021-08-17 CN CN202110942535.0A patent/CN113838453B/zh active Active
-
2022
- 2022-04-29 KR KR1020220053449A patent/KR102611003B1/ko active IP Right Grant
- 2022-05-02 JP JP2022075811A patent/JP7318161B2/ja active Active
- 2022-05-04 US US17/736,175 patent/US20230056128A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003084787A (ja) * | 2001-09-10 | 2003-03-19 | Oki Electric Ind Co Ltd | 規則音声合成装置 |
US20150243275A1 (en) * | 2014-02-26 | 2015-08-27 | Microsoft Corporation | Voice font speaker and prosody interpolation |
JP2017015821A (ja) * | 2015-06-29 | 2017-01-19 | 日本電信電話株式会社 | 音声合成装置、音声合成方法、およびプログラム |
JP2018141915A (ja) * | 2017-02-28 | 2018-09-13 | 国立研究開発法人情報通信研究機構 | 音声合成システム、音声合成プログラムおよび音声合成方法 |
WO2021006117A1 (ja) * | 2019-07-05 | 2021-01-14 | 国立研究開発法人情報通信研究機構 | 音声合成処理装置、音声合成処理方法、および、プログラム |
Also Published As
Publication number | Publication date |
---|---|
KR102611003B1 (ko) | 2023-12-06 |
CN113838453B (zh) | 2022-06-28 |
KR20230026241A (ko) | 2023-02-24 |
US20230056128A1 (en) | 2023-02-23 |
CN113838453A (zh) | 2021-12-24 |
JP7318161B2 (ja) | 2023-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11769480B2 (en) | Method and apparatus for training model, method and apparatus for synthesizing speech, device and storage medium | |
US11488577B2 (en) | Training method and apparatus for a speech synthesis model, and storage medium | |
JP7314450B2 (ja) | 音声合成方法、装置、機器、及びコンピュータ記憶媒体 | |
CN112466288A (zh) | 语音识别方法、装置、电子设备及存储介质 | |
US20230178067A1 (en) | Method of training speech synthesis model and method of synthesizing speech | |
US20230127787A1 (en) | Method and apparatus for converting voice timbre, method and apparatus for training model, device and medium | |
CN113808571B (zh) | 语音合成方法、装置、电子设备以及存储介质 | |
CN111696521A (zh) | 语音克隆模型的训练方法、可读存储介质和语音克隆方法 | |
CN114495956A (zh) | 语音处理方法、装置、设备及存储介质 | |
CN114023342B (zh) | 一种语音转换方法、装置、存储介质及电子设备 | |
CN113706669B (zh) | 动画合成方法、装置、电子设备及存储介质 | |
CN113744713A (zh) | 一种语音合成方法及语音合成模型的训练方法 | |
JP7318161B2 (ja) | 音声処理方法、装置、機器、及びコンピュータ記憶媒体 | |
JP7349523B2 (ja) | 音声認識方法、音声認識装置、電子機器、記憶媒体コンピュータプログラム製品及びコンピュータプログラム | |
CN113851106B (zh) | 音频播放方法、装置、电子设备和可读存储介质 | |
KR20220104106A (ko) | 음성 합성 방법, 장치, 전자 기기 및 저장 매체 | |
CN114783409A (zh) | 语音合成模型的训练方法、语音合成方法及装置 | |
CN113920987A (zh) | 一种语音识别的方法、装置、设备及存储介质 | |
JP7397114B2 (ja) | テキスト生成方法、装置、電子機器及び記憶媒体 | |
CN114373445B (zh) | 语音生成方法、装置、电子设备及存储介质 | |
CN113689867B (zh) | 一种语音转换模型的训练方法、装置、电子设备及介质 | |
CN114420087B (zh) | 声学特征的确定方法、装置、设备、介质及产品 | |
CN115831090A (zh) | 语音合成方法、装置、设备及存储介质 | |
CN118133841A (zh) | 文本处理方法及装置、计算机可读存储介质和电子设备 | |
CN115953995A (zh) | 语音合成模型的训练方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220502 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230314 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230602 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230620 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230623 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7318161 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |