JP2022133408A - 音声変換方法、システム、電子機器、読取可能な記憶媒体及びコンピュータプログラム - Google Patents

音声変換方法、システム、電子機器、読取可能な記憶媒体及びコンピュータプログラム Download PDF

Info

Publication number
JP2022133408A
JP2022133408A JP2022109065A JP2022109065A JP2022133408A JP 2022133408 A JP2022133408 A JP 2022133408A JP 2022109065 A JP2022109065 A JP 2022109065A JP 2022109065 A JP2022109065 A JP 2022109065A JP 2022133408 A JP2022133408 A JP 2022133408A
Authority
JP
Japan
Prior art keywords
speech
text
features
feature parameter
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022109065A
Other languages
English (en)
Inventor
懌翔 陳
Yixiang Chen
俊超 王
Chun-Chao Wang
永国 康
Yongguo Kang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022133408A publication Critical patent/JP2022133408A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

【課題】目標話者の音声感情、調子などの音色特徴を保留するとともに、演算コストを低減した音声変換方法、システム、電子機器、読取可能な記憶媒体及びコンピュータプログラムを提供する。【解決手段】音声変換方法は、目標話者の第1の音声を取得することと、元話者の音声を取得することと、目標話者の第1の音声の第1の特徴パラメータを抽出することと、元話者の音声の第2の特徴パラメータを抽出することと、第1の特徴パラメータと第2の特徴パラメータとを処理してメルスペクトラム情報を取得することと、メルスペクトラム情報を変換して、目標話者の第1の音声と音色が同じ、且つ、元話者の音声と内容が同じである目標話者の第2の音声を出力することと、を含む。【選択図】図1

Description

本開示は、音声、ディープラーニングなどの人工知能の技術分野に関し、特に音声変換技術に関する。
音声変換とは、元の語意情報を変更せずに保留する前提で、元話者の音声個性特徴を変更することで、目標話者の音声個性特徴を持たせ、一人の音声が変換された後に別人の音声に聞こえるようにすることである。音声変換の研究は、重要な応用価値と理論価値とを有する。音響特徴パラメータはいずれも、人のすべての個性特徴情報を表すことができないため、我々は、異なる人を最も代表し得る音声個性特徴パラメータを選択することで音声の変換を行う。
本開示は、音声変換効果を向上させ、元音声の音色を保留する音声変換方法、システム、電子機器、読取可能な記憶媒体及びコンピュータプログラムを提供している。
本開示の一局面によれば、音色の点で目標話者により近い音声変換方法であって、
目標話者の第1の音声を取得することと、
元話者の音声を取得することと、
目標話者の第1の音声の第1の特徴パラメータを抽出することと、
元話者の音声の第2の特徴パラメータを抽出することと、
前記第1の特徴パラメータと前記第2の特徴パラメータとを処理して、メルスペクトラム情報を取得することと、
前記メルスペクトラム情報を変換して、目標話者の第1の音声と音色が同じ、且つ元話者の音声と内容が同じである目標話者の第2の音声を出力することと、を含む、
音声変換方法を提供している。
本開示の別の局面によれば、音声変換システムであって、
目標話者の第1の音声を取得するための第1の取得モジュールと、
元話者の音声を取得するための第2の取得モジュールと、
目標話者の第1の音声の第1の特徴パラメータを抽出するための第1の抽出モジュールと、
元話者の音声の第2の特徴パラメータを抽出するための第2の抽出モジュールと、
前記第1の特徴パラメータと前記第2の特徴パラメータとを処理してメルスペクトラム情報を取得するための処理モジュールと、
前記メルスペクトラム情報を変換して、目標話者の第1の音声と音色が同じ、且つ元話者の音声と内容が同じである目標話者の第2の音声を出力するための変換モジュールと、を含む、
音声変換システムを提供している。
本開示の第3の局面によれば、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続するメモリとを有する電子機器であって、
前記メモリに、前記少なくとも1つのプロセッサによって実行され得るコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサによって実行されることで、前記少なくとも1つのプロセッサが本開示の第1の局面のいずれかに記載の方法を実行することができる、
電子機器を提供している。
本開示の第4の局面によれば、コンピュータに本開示の第1の局面のいずれかに記載の方法を実行させるためのコンピュータコマンドを記憶している、非一時的なコンピュータ読取可能な記憶媒体を提供している。
本開示の第5の局面によれば、プロセッサにより実行される場合に、本開示の第1の局面のいずれかに記載の方法を実現するコンピュータプログラムを提供している。
本開示が提供した技術案による有益な効果は、
従来の音声変換技術を基礎とし、元話者の音声の基本周波数に対する抽出及び処理を加えることで、該音声変換方法及びシステムは、音声感情、調子等の特質を保留する。
上記方法及びシステムを採用することで、音声変換を処理する時、演算コストがより小さく、ハードウェア要求がより低くなる。
理解されるべきこととして、本部分に記載された内容は、本開示の実施例のキーポイント又は重要な特徴を示すことを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明により容易に理解される。
ここで、図面は、本技術案をよりよく理解するために用いられ、本開示を限定するものではない。
図1は、本開示による音声変換方法の模式図である。 図2は、本開示による目標話者の第1の音声の第1の特徴パラメータを抽出する模式図である。 図3は、本開示による元話者の音声の第2の特徴パラメータを抽出する模式図である。 図4は、本開示による前記テキストライク特徴を処理して第1の基本周波数と第1の基本周波数表現とを取得する模式図である。 図5は、本開示による音声変換システムの模式図である。 図5-1は、本開示による第1の抽出モジュールの模式図である。 図5-2は、本開示による第2の抽出モジュールの模式図である。 図5-3は、本開示による処理モジュールの模式図である。 図6は、本開示の実施例の音声変換システムを実現するための電子機器のブロック図である。
以下、図面を参照して本開示の例示的な実施例を説明する。ここで、より理解しやすいために本開示の実施例の様々な詳細は含まれ、それらが例示的なものであると考えられるべきである。したがって、当業者であれば、ここで記載される実施例に対して様々な変更・修正を行うことができ、本開示の範囲及び精神から逸脱することはないと分るべきである。同様に、明確かつ簡潔に説明するために、以下の記載において周知の機能や構成に対する説明を省略する。
《用語の解釈》
基本周波数:発音中の周波数が最も低い正弦波であり、基本周波数はこの音の音高を表すことができ、歌唱中の基本周波数はこの音の音高である。
声紋特徴:話者の音色を保存する特徴ベクトルであり、理想的な状況で、各話者は唯一かつ確定された声紋特徴ベクトルを有し、この声紋特徴ベクトルはこの話者を完全に代表することができ、指紋で類比することができる。
メルスペクトラム:周波数の単位はヘルツであり、人の耳に聞こえる周波数範囲は20~20000ヘルツであるが、人の耳がヘルツ単位に対して線形に敏感ではなく、低ヘルツに敏感であり、高ヘルツに敏感ではなく、ヘルツ周波数をメル周波数に変換すると、人の耳の周波数への感知度は線形になる。
長・短期記憶ネットワーク:長・短期記憶ネットワーク(LSTM,Long Short-Term Memory)は、時間循環ニューラルネットワークである。
ボコーダ:メルスペクトラム(melスペクトラム)情報を音声波形信号に合成するために用いられる。
音声変換システム1とは、元話者の音声を目標話者と同じ音色の音声に変換する音響変換器のようなシステムを指す。よりオリジナルな音響変換器との相違点は、音声変換後の音声がよりリアルに聞こえ、同時に音色レベルでより目標話者に近いことにある。同時に、音声変換システムは、テキスト及び感情情報を十分に保留することもでき、それにより目標話者の大幅な代替性を達成する。
図1に示すように、本開示による第1の局面は、以下のステップを含む音声変換方法を提供している。
S101:目標話者の第1の音声を取得する。目標話者とは、音声変換しようとする目標対象を指す。ここで取得されたのはテキスト情報であってもよく、そしてオーディオに変換されて目標話者の第1の音声になる。特定の目標話者が指定されると、計算方法全体は汎化性を考慮する必要がなく、計算の圧縮可能な空間が大きくなり、これによって計算のコストがより小さい。
S102:元話者の音声、即ち、変換される対象の音声を取得する。取得されたのはテキスト情報であってもよく、そしてオーディオに変換されて元話者の音声になる。
S103:目標話者の第1の音声の第1の特徴パラメータを抽出する。人の音声情報特徴パラメータは種々の特徴を含み、各特徴は音声表現において果たす役割が異なる。音色特徴を表す音響パラメータは、大体、声紋特徴、フォルマントの帯域幅、メルケプストラム係数、フォルマントの位置、音声のエネルギー、基本音周期などを含む。基本音周期の逆数は基本周波数である。目標話者の第1の音声から抽出したのは、上記パラメータのうちのいずれか1つ又は複数であり得る。
S104:元話者の音声の第2の特徴パラメータを抽出する。上記第1の特徴パラメータと同様に、第2の特徴パラメータも、大体、上述したような種類を含む。なお、元話者の音声に含まれる情報から抽出したのは、テキストコード、第1の基本周波数、及び第1の基本周波数表現という特徴パラメータをさらに含む。
S105:前記第1の特徴パラメータと前記第2の特徴パラメータとを処理してメルスペクトラム情報を取得する。
S106:前記メルスペクトラム情報を変換して、目標話者の第1の音声と音色が同じ、且つ元話者の音声と内容が同じである目標話者の第2の音声を出力する。元話者の音声を目標話者の音声に変換することは、例えば、音声合成、マルチメディア分野、医学分野、音声通訳分野などの多数の分野に適用することができる。
前記取得された目標話者の第1の音声と取得された元話者の音声とは、いずれもオーディオ情報である。オーディオ情報を直接に音声変換に用いた方がより直接であり、変換後の音声がより明瞭になる。しかも、オーディオ情報は、話者の話し内容、感情、調子などの音素を含む。
前記第1の特徴パラメータは、時間次元情報を有する声紋特徴を含む。
図2に示すように、前記目標話者の第1の音声の第1の特徴パラメータを抽出することは、以下のステップを含む。
S201:目標話者の第1の音声の声紋特徴を抽出する。声紋特徴は、1つの話者が1つだけを有する、唯一且つ確定された特徴であり、人の指紋と類似する。
S202:前記目標話者の第1の音声の声紋特徴に時間次元を付加して第1の特徴パラメータを取得する。上記解釈から、声紋特徴が時間と関連しないパラメータであることを判明した。ここで声紋特徴と時間とを関連付けることは、以降の第1の特徴パラメータと第2の特徴パラメータとを一緒に処理しやすくするためである。ここで、声紋特徴処理を行うのは、畳み込み層のみならず、長・短期記憶ネットワークもある。
前記第2の特徴パラメータは、時間と関連するテキストコード、第1の基本周波数、及び第1の基本周波数表現を含む。ここで時間と関連する「テキストコード」を強調したのは、最後に音声変換のプロセスにおいて、音声が連続であり、且つ時間と関連しており、即ち、一文の各単語には前後があるためである。なお、時間ではなく、各文字のみを介して一文や一段落を区分すると、後で単独文字を組み合わせて目標話者の音声に変換する可能性があり、そうすると、元話者の音声感情、イントネーション、音色情報を持たない一文や一段落が現れることになり、非常に硬くなる。時間に基づいて一文や一段落を区分すれば、後で音声調子、音色情報を持つ一文や一段落を組み合わせて目標話者の声に変換することになる。無論、時間に関連するテキストコードによれば、音声変換後の音声効果により有利である。
図3に示すように、前記元話者の音声の第2の特徴パラメータを抽出することは、以下のステップを含む。
S301:元話者の音声のテキストライク特徴を抽出する。いわゆるテキストライク特徴とは、時間に関連するテキスト特徴である。例えば、元話者が話した一文を抽出して、該テキストライク特徴は、語意のみならず、時間情報も含み、即ち、一文の各文字の出現には時間的前後があり、或いは、一段落の各単語の出現には時間的前後がある。
S302:前記テキストライク特徴に対して次元削減処理を行って、時間に関連するテキストコードを取得する。テキストライク特徴と、時間に関連するテキストコードとは、いずれも各フレームの音声ごとに1つのベクトルを有する。テキストライク特徴に対して次元削減処理を行うことは、演算量を低減するためである。ここでは、畳み込み層のみで次元削減処理を行う。
S303:前記テキストライク特徴を処理して第1の基本周波数と第1の基本周波数表現とを取得する。前記テキストライク特徴は、時間に関連しているため、処理された第1の基本周波数及び第1の基本周波数表現も時間に関連している。即ち、第1の基本周波数及び第1の基本周波数表現も、各フレームの音声に対応している。
図4に示すように、前記テキストライク特徴を処理して第1の基本周波数と第1の基本周波数表現とを取得することは、以下のステップを含む。
S401:前記元話者の音声と前記テキストライク特徴とを利用して、ニューラルネットワークによってトレーニングして、前記テキストライク特徴から基本周波数へのマッピングモデルを取得する。
ニューラルネットワークをトレーニングするプロセスにおいて、元話者の音声のうちの基本周波数を抽出し、元話者が話した話しのうち、基本周波数に対応するテキストライク特徴を抽出して、テキストライク特徴から基本周波数へのマッピングモデルが取得されることになる。トレーニングプロセスにおいて、元話者の音声のうちの基本周波数がトレーニング校正のために用いられる。トレーニングプロセスにおいて、2つの損失関数が用いられ、1つは基本周波数の損失関数であり、もう1つは元話者の音声の自己再構成損失関数である。
S402:前記テキストライク特徴から基本周波数へのマッピングモデルを利用して、前記テキストライク特徴を処理して第1の基本周波数と第1の基本周波数表現を取得する。実際の応用段階において、トレーニング段階で取得されたテキストライク特徴から基本周波数へのマッピングモデルを採用して、テキストライク情報によって第1の基本周波数を予測する。さらに、このマッピングモデルの出力の隠蔽層は、第1の基本周波数表現を出力した。なお、テキストライク特徴から基本周波数へのマッピングモデルには、さらに長・短時間記憶ネットワークを付加する。前記長・短時間記憶ネットワークを付加する原因は、基本周波数が時間に関連するだけではなく、コンテキストにも関連する。そのため、長・短時間記憶ネットワークは、テキストライク特徴から基本周波数へのマッピングモデルに時間情報を付加するものである。同様に、ここでも、1つの文字の基本周波数に基づいて処理するわけではなく、一文又は一段落の基本周波数に基づいて処理する。即ち、時間に関連し、コンテキストに関連する基本周波数に基づいて後の音声変換を行う。このようにする利点は、変換後に、元話者の音声感情、調子などの音色要素を保留した。
前記ニューラルネットワークによってトレーニングすることは、畳み込み層と長・短期記憶ネットワークとを利用してトレーニングすることを含む。畳み込み層は、主に次元削減のために用いられ、長・短期記憶ネットワークは、主にテキストライク特徴から基本周波数へのマッピングモデルに時間情報を付加するために用いられる。
ここまで、上記声紋特徴が処理されて時間に関連する声紋特徴が取得される。テキストライク特徴が畳み込み層に次元削減されて時間に関連するテキストコードが取得される。第1の基本周波数も時間に関連している。第1の基本周波数は時間に関連しており、つまりフレームごとに1つの基本周波数があり、テキストライク特徴も時間に関連しており、フレームごとに1つがあるが、基本周波数は数値であり、一方、テキストライク特徴はベクトルであり、そのため、テキストライク特徴を1つの基本周波数へマッピングする。つまり、テキストライク特徴をテキストコードに次元削減する一方、テキストライク特徴から周波数領域へのマッピングを確立する。ここで、畳み込み層で次元削減の目的を達成し、同時に、畳み込み層はデータ空間を変換して、テキストライク特徴を基本周波数へマッピングする目的を果たす。
前記第1の特徴パラメータと前記第2の特徴パラメータとを処理してメルスペクトラム情報を取得することは、以下のことを含む。
前記第1の特徴パラメータと前記第2の特徴パラメータとを統合符号化して音声の各フレームのコード特徴を取得する。ここで前記第1の特徴パラメータは時間に関連する声紋特徴コードを指し、ここで前記第2の特徴パラメータは時間に関連するテキストコードと第1の基本周波数とを指す。時間に関連するテキストコードと第1の基本周波数との統合方式は直接に連結するものであり、一方、声紋特徴コードの付加方式は1つの重み行列とバイアスベクトルとを算出するものであり、つまり、声紋特徴コードを1つの全リンク層ネットワークに変換してから、テキストコードと計算することで、声紋特徴情報が付加される。
前記各フレームのコード特徴からデコーダーによって、メルスペクトラム情報が取得される。
その後、取得されたメルスペクトラム情報をボコーダに入力して、ボコーダによってメルスペクトラム情報を音声オーディオに変換する。この時の音声オーディオは、目標話者の音色を保留したが、その内容が元話者の音声内容になる音声である。音声変換の目的を達成した。ボコーダは従来技術に属し、ここでは説明を繰り返さない。
図5に示すように、本開示の第2の局面によれば、
目標話者の第1の音声を取得するための第1の取得モジュール501と、
元話者の音声を取得するための第2の取得モジュール502と、
目標話者の第1の音声の第1の特徴パラメータを抽出するための第1の抽出モジュール503と、
元話者の音声の第2の特徴パラメータを抽出するための第2の抽出モジュール504と、
前記第1の特徴パラメータと前記第2の特徴パラメータを処理してメルスペクトラム情報を取得するための処理モジュール505と、
前記メルスペクトラム情報を変換して、目標話者の第1の音声と音色が同じ、且つ元話者の音声と内容が同じである目標話者の第2の音声を出力するための変換モジュール506と、を含む、
音声変換システム5をさらに提供している。
図5-1に示すように、前記第1の抽出モジュール503は、
目標話者の第1の音声の声紋特徴を抽出するための声紋特徴抽出モジュール5031と、
前記目標話者の第1の音声の声紋特徴に時間次元を付加して第1の特徴パラメータを取得するための声紋特徴処理モジュール5032と、を含む。
図5-2に示すように、前記第2の抽出モジュール504は、
元話者の音声のテキストライク特徴を抽出するためのテキストライク特徴抽出モジュール5041と、
前記テキストライク特徴に対して次元削減処理を行って、時間に関連するテキストコードを取得するためのテキストコードモジュール5042と、
前記テキストライク特徴を処理して第1の基本周波数と第1の基本周波数表現とを取得するための基本周波数予測モジュール5043と、を含む。基本周波数予測モジュール5043は、その入力がテキストライク特徴であり、その出力が基本周波数と基本周波数予測モジュールにおける隠蔽層特徴であり、その目的がテキストライク特徴によって基本周波数を予測することである。トレーニング段階において、実際の基本周波数を目標として使用して、損失関数を算出し、応用段階において、テキストライク特徴によって基本周波数を予測する。基本周波数予測モジュール5043は、本質的にニューラルネットワークである。
図5-3に示すように、前記処理モジュール505は、
前記第1の特徴パラメータと前記第2の特徴パラメータを統合符号化して音声の各フレームのコード特徴を取得するための統合モジュール5051と、
前記各フレームのコード特徴からデコーダーによって、メルスペクトラム情報を取得するためのデコーダーモジュール5052と、を含む。
図6に示すように、本開示の第3の局面によれば、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続するメモリとを有する電子機器であって、
前記メモリに、前記少なくとも1つのプロセッサによって実行され得るコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサによって実行されることで、前記少なくとも1つのプロセッサが第1の局面のいずれか一項に記載の方法を実行することができる、電子機器をさらに提供している。
本開示の第4の局面によれば、コンピュータに本開示の第1の局面のいずれか一項に記載の方法を実行させるためのコンピュータコマンドを記憶している、非一時的なコンピュータ読取可能な記憶媒体をさらに提供している。
本開示の第5の局面によれば、プロセッサにより実行される場合に、本開示の第1の局面のいずれか一項に記載の方法を実現するコンピュータプログラムをさらに提供している。
本開示の実施例によれば、本開示は、電子機器、読取可能な記憶媒体及びコンピュータプログラムをさらに提供している。
図6は、本開示の実施例を実施することが可能な例示的電子機器600の模式的ブロック図を示している。電子機器は、様々な形式のデジタルコンピュータを示すことを目的とし、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ及び他の適切なコンピュータである。電子機器は、さらに様々な形式の移動装置を示してもよく、例えば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブル機器及び他の類似の演算装置である。本明細書に示された部材、それらの接続及び関係、並びにそれらの機能は、例示に過ぎず、本明細書に記載された及び/又は要求された本開示の実現を限定しない。
図6に示すように、機器600は、計算手段601を含み、計算手段601は、リードオンリーメモリ(ROM)602に記憶されたコンピュータプログラム又は記憶手段608からランダムアクセスメモリ(RAM)603にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行してもよい。RAM603には、さらに機器600の操作に必要な様々なプログラム及びデータを記憶してもよい。計算手段601、ROM602、及びRAM603は、バス604を介して相互に接続される。入出力(I/O)インターフェース605も、バス604に接続される。
機器600における複数の部品は、I/Oインターフェース605に接続され、例えばキーボード、マウス等の入力手段606と、例えば様々な種類のディスプレイ、スピーカ等の出力手段607と、例えば磁気ディスク、光ディスク等の記憶手段608と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信手段609とを含む。通信手段609は、機器600がインターネット等のコンピュータネットワーク及び/又は各種の電気ネットワークを介して他の機器と情報・データをやり取りすることを可能にする。
計算手段601は、処理及び演算能力を有する各種の汎用及び/又は専用の処理モジュールであってもよい。計算手段601の幾つかの例として、中央処理ユニット(CPU)、GPU(Graphics Processing Unit)、各種専用の人工知能(AI)演算チップ、各種機械学習モデルアルゴリズムをランニングする演算ユニット、DSP(Digital Signal Processor)、並びに任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されない。計算手段601は、前文で説明した各方法及び処理、例えば音声変換方法を実行する。例えば、幾つかの実施例において、音声変換方法は、例えば記憶手段608のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ROM602及び/又は通信手段609を介して機器600にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM603にロードされて計算手段601により実行される場合、前文で説明した音声変換方法の1つ又は複数のステップを実行してもよい。代替的に、他の実施例において、計算手段601は、他の任意の適切な方式(例えば、ファームウェアを介する)により音声変換方法を実行するように構成されてもよい。
本明細書で以上に説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラムマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムにおいて実施され、該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラムマブルプロセッサを含むプログラムマブルシステムで実行され及び/又は解釈されることが可能であり、該プログラムマブルプロセッサは、専用又は汎用のプログラムマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、かつデータ及び命令を該記憶システム、該少なくとも1つの入力装置、及び該少なくとも1つの出力装置に伝送することができることを含んでもよい。
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、それによって、プログラムコードがプロセッサ又はコントローラにより実行される時に、フローチャート及び/又はブロック図に規定された機能・操作が実施される。プログラムコードは、機器に完全に実行されてもよく、部分的に機器で実行されてもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるか又は完全に遠隔機器又はサーバで実行されてもよい。
本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置又は電子機器に使用され、又は命令実行システム、装置又は電子機器と組み合わせて使用されるプログラムを含んで又は記憶してもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又は電子機器、又は上記内容の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例としては、1つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、コンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又は上記内容の任意の適切な組み合わせを含む。
ユーザとの対話を提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを備え、ユーザは、該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置は、さらにユーザとの対話を提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、かついかなる形式(音声入力、語音入力又は、触覚入力を含む)でユーザからの入力を受信してもよい。
ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア部品を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド部品を含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェース又は該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態と対話することができる)、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムに実施されることが可能である。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によりシステムの部品を互いに接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを例示的に含む。
コンピュータシステムは、クライアント及びサーバを含んでもよい。クライアントとサーバ同士は、一般的に離れており、通常、通信ネットワークを介して対話する。クライアントとサーバとの関係は、該当するコンピュータ上でランニングし、クライアント-サーバの関係を有するコンピュータプログラムによって生成される。サーバは、クラウドサーバであってもよく、クラウドサーバは、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムのうちの1つのホスト製品であり、従来の物理ホストとVPSサービス(「Virtual Private Server」、又は「VPS」と略称する)に存在する管理難度が大きく、サービス拡張性が弱いという欠陥を解決する。サーバは、分散型システムのサーバであってもよく、又はブロックチェーンを組合せたサーバであってもよい。
理解されるべきこととして、以上に示された様々な形式のフローを使用してもよく、操作を改めてソーティングしたり、追加したり又は削除してもよい。例えば、本開示に記載の各操作は、並列に実行されたり、順次に実行されたり、又は異なる順序で実行されてもよく、本開示に開示された技術案が所望する結果を実現することができれば、本明細書はここで限定されない。
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことが可能であると理解すべきである。本開示の精神と原則内で行われる任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。
5 音声変換システム
501 第1の取得モジュール
502 第2の取得モジュール
503 第1の抽出モジュール
504 第2の抽出モジュール
5031 声紋特徴抽出モジュール
5032 声紋特徴処理モジュール
5041 テキストライク特徴抽出モジュール
5042 テキストコードモジュール
5043 基本周波数予測モジュール
505 処理モジュール
506 変換モジュール
5051 統合モジュール
5052 デコーダーモジュール
600 電子機器
601 計算手段
602 リードオンリーメモリ
603 ランダムアクセスメモリ
604 バス
605 I/Oインターフェース
606 入力手段
607 出力手段
608 記憶手段
609 通信手段

Claims (16)

  1. 目標話者の第1の音声を取得することと、
    元話者の音声を取得することと、
    目標話者の第1の音声の第1の特徴パラメータを抽出することと、
    元話者の音声の第2の特徴パラメータを抽出することと、
    前記第1の特徴パラメータと前記第2の特徴パラメータとを処理して、メルスペクトラム情報を取得することと、
    前記メルスペクトラム情報を変換して、目標話者の第1の音声と音色が同じ、且つ元話者の音声と内容が同じである目標話者の第2の音声を出力することと、を含む、
    音声変換方法。
  2. 前記取得された目標話者の第1の音声と取得された元話者の音声とは、いずれもオーディオ情報である、
    請求項1に記載の音声変換方法。
  3. 前記第1の特徴パラメータは、時間次元情報を持つ声紋特徴を含む、
    請求項1に記載の音声変換方法。
  4. 前記目標話者の第1の音声の第1の特徴パラメータを抽出することは、
    目標話者の第1の音声の声紋特徴を抽出することと、
    前記目標話者の第1の音声の声紋特徴に時間次元を付加して、第1の特徴パラメータを取得することと、を含む、
    請求項3に記載の音声変換方法。
  5. 前記第2の特徴パラメータは、時間に関連するテキストコード、第1の基本周波数、及び第1の基本周波数表現を含む、
    請求項1に記載の音声変換方法。
  6. 前記元話者の音声の第2の特徴パラメータを抽出することは、
    元話者の音声のテキストライク特徴を抽出することと、
    前記テキストライク特徴に対して次元削減処理を行って、時間に関連するテキストコードを取得することと、
    前記テキストライク特徴を処理して第1の基本周波数と第1の基本周波数表現とを取得することと、を含む、
    請求項5に記載の音声変換方法。
  7. 前記テキストライク特徴を処理して第1の基本周波数と第1の基本周波数表現とを取得することは、
    前記元話者の音声と前記テキストライク特徴とを利用して、ニューラルネットワークによってトレーニングして、前記テキストライク特徴から基本周波数へのマッピングモデルを取得することと、
    前記テキストライク特徴から基本周波数へのマッピングモデルを利用して、前記テキストライク特徴を処理して、第1の基本周波数と第1の基本周波数表現とを取得することと、を含む、
    請求項6に記載の音声変換方法。
  8. 前記ニューラルネットワークによってトレーニングすることは、
    畳み込み層と長・短期記憶ネットワークとを利用してトレーニングすることを含む、
    請求項7に記載の音声変換方法。
  9. 前記第1の特徴パラメータと前記第2の特徴パラメータとを処理してメルスペクトラム情報を取得することは、
    前記第1の特徴パラメータと前記第2の特徴パラメータとを統合符号化して、音声の各フレームのコード特徴を取得することと、
    前記各フレームのコード特徴からデコーダーによって、メルスペクトラム情報を取得すことと、を含む、
    請求項1に記載の音声変換方法。
  10. 目標話者の第1の音声を取得するための第1の取得モジュールと、
    元話者の音声を取得するための第2の取得モジュールと、
    目標話者の第1の音声の第1の特徴パラメータを抽出するための第1の抽出モジュールと、
    元話者の音声の第2の特徴パラメータを抽出するための第2の抽出モジュールと、
    前記第1の特徴パラメータと前記第2の特徴パラメータとを処理してメルスペクトラム情報を取得するための処理モジュールと、
    前記メルスペクトラム情報を変換して、目標話者の第1の音声と音色が同じ、且つ元話者の音声と内容が同じである目標話者の第2の音声を出力するための変換モジュールと、を含む、
    音声変換システム。
  11. 前記第1の抽出モジュールは、
    目標話者の第1の音声の声紋特徴を抽出するための声紋特徴抽出モジュールと、
    前記目標話者の第1の音声の声紋特徴に時間次元を付加して第1の特徴パラメータを取得するための声紋特徴処理モジュールと、を含む、
    請求項10に記載の音声変換システム。
  12. 前記第2の抽出モジュールは、
    元話者の音声のテキストライク特徴を抽出するためのテキストライク特徴抽出モジュールと、
    前記テキストライク特徴に対して次元削減処理を行って、時間に関連するテキストコードを取得するためのテキストコードモジュールと、
    前記テキストライク特徴を処理して第1の基本周波数と第1の基本周波数表現とを取得するための基本周波数予測モジュールと、を含む、
    請求項10に記載の音声変換システム。
  13. 前記処理モジュールは、
    前記第1の特徴パラメータと前記第2の特徴パラメータとを統合符号化して、音声の各フレームのコード特徴を取得するための統合モジュールと、
    前記各フレームのコード特徴からデコーダーによって、メルスペクトラム情報を取得するためのデコーダーモジュールと、を含む、
    請求項10に記載の音声変換システム。
  14. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信接続するメモリとを有する電子機器であって、
    前記メモリに、前記少なくとも1つのプロセッサによって実行され得るコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサによって実行されることで、前記少なくとも1つのプロセッサが請求項1~9のいずれか一項に記載の音声変換方法を実行することができる、
    電子機器。
  15. コンピュータに請求項1~9のいずれか一項に記載の方法を実行させるためのコンピュータコマンドを記憶している、
    非一時的なコンピュータ読取可能な記憶媒体。
  16. プロセッサにより実行される場合に、請求項1~9のいずれか一項に記載の方法を実現するコンピュータプログラム。
JP2022109065A 2021-08-09 2022-07-06 音声変換方法、システム、電子機器、読取可能な記憶媒体及びコンピュータプログラム Pending JP2022133408A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110909497.9A CN113571039B (zh) 2021-08-09 2021-08-09 语音转换方法、系统、电子设备及可读存储介质
CN202110909497.9 2021-08-09

Publications (1)

Publication Number Publication Date
JP2022133408A true JP2022133408A (ja) 2022-09-13

Family

ID=78171163

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022109065A Pending JP2022133408A (ja) 2021-08-09 2022-07-06 音声変換方法、システム、電子機器、読取可能な記憶媒体及びコンピュータプログラム

Country Status (3)

Country Link
US (1) US20220383876A1 (ja)
JP (1) JP2022133408A (ja)
CN (1) CN113571039B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115457923A (zh) * 2022-10-26 2022-12-09 北京红棉小冰科技有限公司 一种歌声合成方法、装置、设备及存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115064177A (zh) * 2022-06-14 2022-09-16 中国第一汽车股份有限公司 基于声纹编码器的语音转换方法、装置、设备及介质
CN114882891A (zh) * 2022-07-08 2022-08-09 杭州远传新业科技股份有限公司 一种应用于tts的语音转换方法、装置、设备及介质
CN116034423A (zh) * 2022-11-18 2023-04-28 广州酷狗计算机科技有限公司 音频处理方法、装置、设备、存储介质及程序产品
CN116050433B (zh) * 2023-02-13 2024-03-26 北京百度网讯科技有限公司 自然语言处理模型的场景适配方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016029779A (ja) * 2014-07-25 2016-03-03 Kddi株式会社 音声通信システムならびにその音声通信方法および装置
JP2019200408A (ja) * 2018-05-18 2019-11-21 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声合成モデルを生成するための方法、及び装置
US20210217404A1 (en) * 2018-05-17 2021-07-15 Google Llc Synthesis of Speech from Text in a Voice of a Target Speaker Using Neural Networks
JP2021103328A (ja) * 2020-09-25 2021-07-15 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 音声変換方法、装置及び電子機器

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090063202A (ko) * 2009-05-29 2009-06-17 포항공과대학교 산학협력단 감정 인식 장치 및 방법
CN105355193B (zh) * 2015-10-30 2020-09-25 百度在线网络技术(北京)有限公司 语音合成方法和装置
CN107767879A (zh) * 2017-10-25 2018-03-06 北京奇虎科技有限公司 基于音色的音频转换方法及装置
CN107705783B (zh) * 2017-11-27 2022-04-26 北京搜狗科技发展有限公司 一种语音合成方法及装置
CN107958669B (zh) * 2017-11-28 2021-03-09 国网电子商务有限公司 一种声纹识别的方法及装置
JP7082357B2 (ja) * 2018-01-11 2022-06-08 ネオサピエンス株式会社 機械学習を利用したテキスト音声合成方法、装置およびコンピュータ読み取り可能な記憶媒体
CN108777140B (zh) * 2018-04-27 2020-07-28 南京邮电大学 一种非平行语料训练下基于vae的语音转换方法
CN110223705B (zh) * 2019-06-12 2023-09-15 腾讯科技(深圳)有限公司 语音转换方法、装置、设备及可读存储介质
CN113066511B (zh) * 2021-03-16 2023-01-24 云知声智能科技股份有限公司 一种语音转换方法、装置、电子设备和存储介质
CN113223494B (zh) * 2021-05-31 2024-01-30 平安科技(深圳)有限公司 梅尔频谱的预测方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016029779A (ja) * 2014-07-25 2016-03-03 Kddi株式会社 音声通信システムならびにその音声通信方法および装置
US20210217404A1 (en) * 2018-05-17 2021-07-15 Google Llc Synthesis of Speech from Text in a Voice of a Target Speaker Using Neural Networks
JP2019200408A (ja) * 2018-05-18 2019-11-21 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声合成モデルを生成するための方法、及び装置
JP2021103328A (ja) * 2020-09-25 2021-07-15 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 音声変換方法、装置及び電子機器

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115457923A (zh) * 2022-10-26 2022-12-09 北京红棉小冰科技有限公司 一种歌声合成方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113571039A (zh) 2021-10-29
US20220383876A1 (en) 2022-12-01
CN113571039B (zh) 2022-04-08

Similar Documents

Publication Publication Date Title
US11361751B2 (en) Speech synthesis method and device
JP2022133408A (ja) 音声変換方法、システム、電子機器、読取可能な記憶媒体及びコンピュータプログラム
US11664011B2 (en) Clockwork hierarchal variational encoder
CN111276120B (zh) 语音合成方法、装置和计算机可读存储介质
JP7395792B2 (ja) 2レベル音声韻律転写
US11450313B2 (en) Determining phonetic relationships
US11881210B2 (en) Speech synthesis prosody using a BERT model
EP3753012A1 (en) Direct speech-to-speech translation via machine learning
US20230127787A1 (en) Method and apparatus for converting voice timbre, method and apparatus for training model, device and medium
US11960852B2 (en) Robust direct speech-to-speech translation
CN113421584B (zh) 音频降噪方法、装置、计算机设备及存储介质
CN113963679A (zh) 一种语音风格迁移方法、装置、电子设备及存储介质
CN114242093A (zh) 语音音色转换方法、装置、计算机设备和存储介质
CN114495977A (zh) 语音翻译和模型训练方法、装置、电子设备以及存储介质
US20230015112A1 (en) Method and apparatus for processing speech, electronic device and storage medium
WO2023116243A1 (zh) 数据转换方法及计算机存储介质
CN113314097B (zh) 语音合成方法、语音合成模型处理方法、装置和电子设备
CN113539239B (zh) 语音转换方法、装置、存储介质及电子设备
JP2020013008A (ja) 音声処理装置、音声処理プログラムおよび音声処理方法
CN114464163A (zh) 语音合成模型的训练方法、装置、设备、存储介质和产品
CN113870827A (zh) 一种语音合成模型的训练方法、装置、设备及介质
CN113160849B (zh) 歌声合成方法、装置及电子设备和计算机可读存储介质
KR102677459B1 (ko) 2-레벨 스피치 운율 전송
US20230081543A1 (en) Method for synthetizing speech and electronic device
KR20240096867A (ko) 2-레벨 스피치 운율 전송

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220706

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230721

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230816

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240213