JP2022133408A - 音声変換方法、システム、電子機器、読取可能な記憶媒体及びコンピュータプログラム - Google Patents
音声変換方法、システム、電子機器、読取可能な記憶媒体及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2022133408A JP2022133408A JP2022109065A JP2022109065A JP2022133408A JP 2022133408 A JP2022133408 A JP 2022133408A JP 2022109065 A JP2022109065 A JP 2022109065A JP 2022109065 A JP2022109065 A JP 2022109065A JP 2022133408 A JP2022133408 A JP 2022133408A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- text
- features
- feature parameter
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000004590 computer program Methods 0.000 title claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 39
- 238000001228 spectrum Methods 0.000 claims abstract description 24
- 238000000605 extraction Methods 0.000 claims description 21
- 230000015654 memory Effects 0.000 claims description 18
- 238000004891 communication Methods 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 230000009467 reduction Effects 0.000 claims description 7
- 230000010354 integration Effects 0.000 claims description 4
- 230000006403 short-term memory Effects 0.000 claims description 4
- 230000002123 temporal effect Effects 0.000 claims description 4
- 230000007787 long-term memory Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 7
- 239000013598 vector Substances 0.000 description 5
- 230000008451 emotion Effects 0.000 description 4
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
Description
目標話者の第1の音声を取得することと、
元話者の音声を取得することと、
目標話者の第1の音声の第1の特徴パラメータを抽出することと、
元話者の音声の第2の特徴パラメータを抽出することと、
前記第1の特徴パラメータと前記第2の特徴パラメータとを処理して、メルスペクトラム情報を取得することと、
前記メルスペクトラム情報を変換して、目標話者の第1の音声と音色が同じ、且つ元話者の音声と内容が同じである目標話者の第2の音声を出力することと、を含む、
音声変換方法を提供している。
目標話者の第1の音声を取得するための第1の取得モジュールと、
元話者の音声を取得するための第2の取得モジュールと、
目標話者の第1の音声の第1の特徴パラメータを抽出するための第1の抽出モジュールと、
元話者の音声の第2の特徴パラメータを抽出するための第2の抽出モジュールと、
前記第1の特徴パラメータと前記第2の特徴パラメータとを処理してメルスペクトラム情報を取得するための処理モジュールと、
前記メルスペクトラム情報を変換して、目標話者の第1の音声と音色が同じ、且つ元話者の音声と内容が同じである目標話者の第2の音声を出力するための変換モジュールと、を含む、
音声変換システムを提供している。
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続するメモリとを有する電子機器であって、
前記メモリに、前記少なくとも1つのプロセッサによって実行され得るコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサによって実行されることで、前記少なくとも1つのプロセッサが本開示の第1の局面のいずれかに記載の方法を実行することができる、
電子機器を提供している。
従来の音声変換技術を基礎とし、元話者の音声の基本周波数に対する抽出及び処理を加えることで、該音声変換方法及びシステムは、音声感情、調子等の特質を保留する。
基本周波数:発音中の周波数が最も低い正弦波であり、基本周波数はこの音の音高を表すことができ、歌唱中の基本周波数はこの音の音高である。
声紋特徴:話者の音色を保存する特徴ベクトルであり、理想的な状況で、各話者は唯一かつ確定された声紋特徴ベクトルを有し、この声紋特徴ベクトルはこの話者を完全に代表することができ、指紋で類比することができる。
メルスペクトラム:周波数の単位はヘルツであり、人の耳に聞こえる周波数範囲は20~20000ヘルツであるが、人の耳がヘルツ単位に対して線形に敏感ではなく、低ヘルツに敏感であり、高ヘルツに敏感ではなく、ヘルツ周波数をメル周波数に変換すると、人の耳の周波数への感知度は線形になる。
長・短期記憶ネットワーク:長・短期記憶ネットワーク(LSTM,Long Short-Term Memory)は、時間循環ニューラルネットワークである。
ボコーダ:メルスペクトラム(melスペクトラム)情報を音声波形信号に合成するために用いられる。
目標話者の第1の音声を取得するための第1の取得モジュール501と、
元話者の音声を取得するための第2の取得モジュール502と、
目標話者の第1の音声の第1の特徴パラメータを抽出するための第1の抽出モジュール503と、
元話者の音声の第2の特徴パラメータを抽出するための第2の抽出モジュール504と、
前記第1の特徴パラメータと前記第2の特徴パラメータを処理してメルスペクトラム情報を取得するための処理モジュール505と、
前記メルスペクトラム情報を変換して、目標話者の第1の音声と音色が同じ、且つ元話者の音声と内容が同じである目標話者の第2の音声を出力するための変換モジュール506と、を含む、
音声変換システム5をさらに提供している。
目標話者の第1の音声の声紋特徴を抽出するための声紋特徴抽出モジュール5031と、
前記目標話者の第1の音声の声紋特徴に時間次元を付加して第1の特徴パラメータを取得するための声紋特徴処理モジュール5032と、を含む。
元話者の音声のテキストライク特徴を抽出するためのテキストライク特徴抽出モジュール5041と、
前記テキストライク特徴に対して次元削減処理を行って、時間に関連するテキストコードを取得するためのテキストコードモジュール5042と、
前記テキストライク特徴を処理して第1の基本周波数と第1の基本周波数表現とを取得するための基本周波数予測モジュール5043と、を含む。基本周波数予測モジュール5043は、その入力がテキストライク特徴であり、その出力が基本周波数と基本周波数予測モジュールにおける隠蔽層特徴であり、その目的がテキストライク特徴によって基本周波数を予測することである。トレーニング段階において、実際の基本周波数を目標として使用して、損失関数を算出し、応用段階において、テキストライク特徴によって基本周波数を予測する。基本周波数予測モジュール5043は、本質的にニューラルネットワークである。
前記第1の特徴パラメータと前記第2の特徴パラメータを統合符号化して音声の各フレームのコード特徴を取得するための統合モジュール5051と、
前記各フレームのコード特徴からデコーダーによって、メルスペクトラム情報を取得するためのデコーダーモジュール5052と、を含む。
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続するメモリとを有する電子機器であって、
前記メモリに、前記少なくとも1つのプロセッサによって実行され得るコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサによって実行されることで、前記少なくとも1つのプロセッサが第1の局面のいずれか一項に記載の方法を実行することができる、電子機器をさらに提供している。
501 第1の取得モジュール
502 第2の取得モジュール
503 第1の抽出モジュール
504 第2の抽出モジュール
5031 声紋特徴抽出モジュール
5032 声紋特徴処理モジュール
5041 テキストライク特徴抽出モジュール
5042 テキストコードモジュール
5043 基本周波数予測モジュール
505 処理モジュール
506 変換モジュール
5051 統合モジュール
5052 デコーダーモジュール
600 電子機器
601 計算手段
602 リードオンリーメモリ
603 ランダムアクセスメモリ
604 バス
605 I/Oインターフェース
606 入力手段
607 出力手段
608 記憶手段
609 通信手段
Claims (16)
- 目標話者の第1の音声を取得することと、
元話者の音声を取得することと、
目標話者の第1の音声の第1の特徴パラメータを抽出することと、
元話者の音声の第2の特徴パラメータを抽出することと、
前記第1の特徴パラメータと前記第2の特徴パラメータとを処理して、メルスペクトラム情報を取得することと、
前記メルスペクトラム情報を変換して、目標話者の第1の音声と音色が同じ、且つ元話者の音声と内容が同じである目標話者の第2の音声を出力することと、を含む、
音声変換方法。 - 前記取得された目標話者の第1の音声と取得された元話者の音声とは、いずれもオーディオ情報である、
請求項1に記載の音声変換方法。 - 前記第1の特徴パラメータは、時間次元情報を持つ声紋特徴を含む、
請求項1に記載の音声変換方法。 - 前記目標話者の第1の音声の第1の特徴パラメータを抽出することは、
目標話者の第1の音声の声紋特徴を抽出することと、
前記目標話者の第1の音声の声紋特徴に時間次元を付加して、第1の特徴パラメータを取得することと、を含む、
請求項3に記載の音声変換方法。 - 前記第2の特徴パラメータは、時間に関連するテキストコード、第1の基本周波数、及び第1の基本周波数表現を含む、
請求項1に記載の音声変換方法。 - 前記元話者の音声の第2の特徴パラメータを抽出することは、
元話者の音声のテキストライク特徴を抽出することと、
前記テキストライク特徴に対して次元削減処理を行って、時間に関連するテキストコードを取得することと、
前記テキストライク特徴を処理して第1の基本周波数と第1の基本周波数表現とを取得することと、を含む、
請求項5に記載の音声変換方法。 - 前記テキストライク特徴を処理して第1の基本周波数と第1の基本周波数表現とを取得することは、
前記元話者の音声と前記テキストライク特徴とを利用して、ニューラルネットワークによってトレーニングして、前記テキストライク特徴から基本周波数へのマッピングモデルを取得することと、
前記テキストライク特徴から基本周波数へのマッピングモデルを利用して、前記テキストライク特徴を処理して、第1の基本周波数と第1の基本周波数表現とを取得することと、を含む、
請求項6に記載の音声変換方法。 - 前記ニューラルネットワークによってトレーニングすることは、
畳み込み層と長・短期記憶ネットワークとを利用してトレーニングすることを含む、
請求項7に記載の音声変換方法。 - 前記第1の特徴パラメータと前記第2の特徴パラメータとを処理してメルスペクトラム情報を取得することは、
前記第1の特徴パラメータと前記第2の特徴パラメータとを統合符号化して、音声の各フレームのコード特徴を取得することと、
前記各フレームのコード特徴からデコーダーによって、メルスペクトラム情報を取得すことと、を含む、
請求項1に記載の音声変換方法。 - 目標話者の第1の音声を取得するための第1の取得モジュールと、
元話者の音声を取得するための第2の取得モジュールと、
目標話者の第1の音声の第1の特徴パラメータを抽出するための第1の抽出モジュールと、
元話者の音声の第2の特徴パラメータを抽出するための第2の抽出モジュールと、
前記第1の特徴パラメータと前記第2の特徴パラメータとを処理してメルスペクトラム情報を取得するための処理モジュールと、
前記メルスペクトラム情報を変換して、目標話者の第1の音声と音色が同じ、且つ元話者の音声と内容が同じである目標話者の第2の音声を出力するための変換モジュールと、を含む、
音声変換システム。 - 前記第1の抽出モジュールは、
目標話者の第1の音声の声紋特徴を抽出するための声紋特徴抽出モジュールと、
前記目標話者の第1の音声の声紋特徴に時間次元を付加して第1の特徴パラメータを取得するための声紋特徴処理モジュールと、を含む、
請求項10に記載の音声変換システム。 - 前記第2の抽出モジュールは、
元話者の音声のテキストライク特徴を抽出するためのテキストライク特徴抽出モジュールと、
前記テキストライク特徴に対して次元削減処理を行って、時間に関連するテキストコードを取得するためのテキストコードモジュールと、
前記テキストライク特徴を処理して第1の基本周波数と第1の基本周波数表現とを取得するための基本周波数予測モジュールと、を含む、
請求項10に記載の音声変換システム。 - 前記処理モジュールは、
前記第1の特徴パラメータと前記第2の特徴パラメータとを統合符号化して、音声の各フレームのコード特徴を取得するための統合モジュールと、
前記各フレームのコード特徴からデコーダーによって、メルスペクトラム情報を取得するためのデコーダーモジュールと、を含む、
請求項10に記載の音声変換システム。 - 少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続するメモリとを有する電子機器であって、
前記メモリに、前記少なくとも1つのプロセッサによって実行され得るコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサによって実行されることで、前記少なくとも1つのプロセッサが請求項1~9のいずれか一項に記載の音声変換方法を実行することができる、
電子機器。 - コンピュータに請求項1~9のいずれか一項に記載の方法を実行させるためのコンピュータコマンドを記憶している、
非一時的なコンピュータ読取可能な記憶媒体。 - プロセッサにより実行される場合に、請求項1~9のいずれか一項に記載の方法を実現するコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110909497.9A CN113571039B (zh) | 2021-08-09 | 2021-08-09 | 语音转换方法、系统、电子设备及可读存储介质 |
CN202110909497.9 | 2021-08-09 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022133408A true JP2022133408A (ja) | 2022-09-13 |
Family
ID=78171163
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022109065A Pending JP2022133408A (ja) | 2021-08-09 | 2022-07-06 | 音声変換方法、システム、電子機器、読取可能な記憶媒体及びコンピュータプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220383876A1 (ja) |
JP (1) | JP2022133408A (ja) |
CN (1) | CN113571039B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115457923A (zh) * | 2022-10-26 | 2022-12-09 | 北京红棉小冰科技有限公司 | 一种歌声合成方法、装置、设备及存储介质 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115064177A (zh) * | 2022-06-14 | 2022-09-16 | 中国第一汽车股份有限公司 | 基于声纹编码器的语音转换方法、装置、设备及介质 |
CN114882891A (zh) * | 2022-07-08 | 2022-08-09 | 杭州远传新业科技股份有限公司 | 一种应用于tts的语音转换方法、装置、设备及介质 |
CN116034423A (zh) * | 2022-11-18 | 2023-04-28 | 广州酷狗计算机科技有限公司 | 音频处理方法、装置、设备、存储介质及程序产品 |
CN116050433B (zh) * | 2023-02-13 | 2024-03-26 | 北京百度网讯科技有限公司 | 自然语言处理模型的场景适配方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016029779A (ja) * | 2014-07-25 | 2016-03-03 | Kddi株式会社 | 音声通信システムならびにその音声通信方法および装置 |
JP2019200408A (ja) * | 2018-05-18 | 2019-11-21 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 音声合成モデルを生成するための方法、及び装置 |
US20210217404A1 (en) * | 2018-05-17 | 2021-07-15 | Google Llc | Synthesis of Speech from Text in a Voice of a Target Speaker Using Neural Networks |
JP2021103328A (ja) * | 2020-09-25 | 2021-07-15 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | 音声変換方法、装置及び電子機器 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090063202A (ko) * | 2009-05-29 | 2009-06-17 | 포항공과대학교 산학협력단 | 감정 인식 장치 및 방법 |
CN105355193B (zh) * | 2015-10-30 | 2020-09-25 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
CN107767879A (zh) * | 2017-10-25 | 2018-03-06 | 北京奇虎科技有限公司 | 基于音色的音频转换方法及装置 |
CN107705783B (zh) * | 2017-11-27 | 2022-04-26 | 北京搜狗科技发展有限公司 | 一种语音合成方法及装置 |
CN107958669B (zh) * | 2017-11-28 | 2021-03-09 | 国网电子商务有限公司 | 一种声纹识别的方法及装置 |
JP7082357B2 (ja) * | 2018-01-11 | 2022-06-08 | ネオサピエンス株式会社 | 機械学習を利用したテキスト音声合成方法、装置およびコンピュータ読み取り可能な記憶媒体 |
CN108777140B (zh) * | 2018-04-27 | 2020-07-28 | 南京邮电大学 | 一种非平行语料训练下基于vae的语音转换方法 |
CN110223705B (zh) * | 2019-06-12 | 2023-09-15 | 腾讯科技(深圳)有限公司 | 语音转换方法、装置、设备及可读存储介质 |
CN113066511B (zh) * | 2021-03-16 | 2023-01-24 | 云知声智能科技股份有限公司 | 一种语音转换方法、装置、电子设备和存储介质 |
CN113223494B (zh) * | 2021-05-31 | 2024-01-30 | 平安科技(深圳)有限公司 | 梅尔频谱的预测方法、装置、设备及存储介质 |
-
2021
- 2021-08-09 CN CN202110909497.9A patent/CN113571039B/zh active Active
-
2022
- 2022-07-06 JP JP2022109065A patent/JP2022133408A/ja active Pending
- 2022-08-09 US US17/818,609 patent/US20220383876A1/en not_active Abandoned
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016029779A (ja) * | 2014-07-25 | 2016-03-03 | Kddi株式会社 | 音声通信システムならびにその音声通信方法および装置 |
US20210217404A1 (en) * | 2018-05-17 | 2021-07-15 | Google Llc | Synthesis of Speech from Text in a Voice of a Target Speaker Using Neural Networks |
JP2019200408A (ja) * | 2018-05-18 | 2019-11-21 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 音声合成モデルを生成するための方法、及び装置 |
JP2021103328A (ja) * | 2020-09-25 | 2021-07-15 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | 音声変換方法、装置及び電子機器 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115457923A (zh) * | 2022-10-26 | 2022-12-09 | 北京红棉小冰科技有限公司 | 一种歌声合成方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113571039A (zh) | 2021-10-29 |
US20220383876A1 (en) | 2022-12-01 |
CN113571039B (zh) | 2022-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11361751B2 (en) | Speech synthesis method and device | |
JP2022133408A (ja) | 音声変換方法、システム、電子機器、読取可能な記憶媒体及びコンピュータプログラム | |
US11664011B2 (en) | Clockwork hierarchal variational encoder | |
CN111276120B (zh) | 语音合成方法、装置和计算机可读存储介质 | |
JP7395792B2 (ja) | 2レベル音声韻律転写 | |
US11450313B2 (en) | Determining phonetic relationships | |
US11881210B2 (en) | Speech synthesis prosody using a BERT model | |
EP3753012A1 (en) | Direct speech-to-speech translation via machine learning | |
US20230127787A1 (en) | Method and apparatus for converting voice timbre, method and apparatus for training model, device and medium | |
US11960852B2 (en) | Robust direct speech-to-speech translation | |
CN113421584B (zh) | 音频降噪方法、装置、计算机设备及存储介质 | |
CN113963679A (zh) | 一种语音风格迁移方法、装置、电子设备及存储介质 | |
CN114242093A (zh) | 语音音色转换方法、装置、计算机设备和存储介质 | |
CN114495977A (zh) | 语音翻译和模型训练方法、装置、电子设备以及存储介质 | |
US20230015112A1 (en) | Method and apparatus for processing speech, electronic device and storage medium | |
WO2023116243A1 (zh) | 数据转换方法及计算机存储介质 | |
CN113314097B (zh) | 语音合成方法、语音合成模型处理方法、装置和电子设备 | |
CN113539239B (zh) | 语音转换方法、装置、存储介质及电子设备 | |
JP2020013008A (ja) | 音声処理装置、音声処理プログラムおよび音声処理方法 | |
CN114464163A (zh) | 语音合成模型的训练方法、装置、设备、存储介质和产品 | |
CN113870827A (zh) | 一种语音合成模型的训练方法、装置、设备及介质 | |
CN113160849B (zh) | 歌声合成方法、装置及电子设备和计算机可读存储介质 | |
KR102677459B1 (ko) | 2-레벨 스피치 운율 전송 | |
US20230081543A1 (en) | Method for synthetizing speech and electronic device | |
KR20240096867A (ko) | 2-레벨 스피치 운율 전송 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220706 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230721 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230816 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231113 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240213 |