JP7181332B2 - 音声変換方法、装置及び電子機器 - Google Patents

音声変換方法、装置及び電子機器 Download PDF

Info

Publication number
JP7181332B2
JP7181332B2 JP2021051620A JP2021051620A JP7181332B2 JP 7181332 B2 JP7181332 B2 JP 7181332B2 JP 2021051620 A JP2021051620 A JP 2021051620A JP 2021051620 A JP2021051620 A JP 2021051620A JP 7181332 B2 JP7181332 B2 JP 7181332B2
Authority
JP
Japan
Prior art keywords
speech
acoustic
network
model
content information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021051620A
Other languages
English (en)
Other versions
JP2021103328A (ja
Inventor
シーレイ ワン,
ウェンフー ワン,
タオ スン,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021103328A publication Critical patent/JP2021103328A/ja
Application granted granted Critical
Publication of JP7181332B2 publication Critical patent/JP7181332B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)

Description

本出願は、コンピュータ技術分野における音声変換、音声対話、自然言語処理、深層学習技術分野に関し、特に音声変換方法、装置、電子機器及び記憶媒体に関する。
音声変換方法は、1人のユーザの1つの音声をターゲットユーザの音色を有する1つの音声に変換することができ、すなわちターゲットユーザの音色の模倣を実現することができる。現在、関連技術における音声変換方法では、ユーザが音声クリップを事前に録音し、ユーザの音声クリップに基づいてモデルのトレーニングと更新を行った後、更新されたモデルに基づいて音声変換を行う必要があり、この方法はユーザの音声録音に高い要求があり、音声変換を行うたびにモデルを更新する必要があり、音声変換の待ち時間が長く、柔軟性が低い。
音声変換方法、装置、電子機器及び記憶媒体を提供する。
第1の態様によれば、音声変換方法を提供し、第1のユーザのソース音声と第2のユーザの参照音声を取得するステップと、前記ソース音声から第1の音声コンテンツ情報と第1の音響特性を抽出するステップと、前記参照音声から第2の音響特性を抽出するステップと、前記第1の音声コンテンツ情報、前記第1の音響特性及び前記第2の音響特性を予めトレーニングされた音声変換モデルに入力して、再構成された第3の音響特性を取得するステップであって、前記予めトレーニングされた音声変換モデルは第3のユーザの音声に基づいてトレーニングして取得されるステップと、前記第3の音響特性に基づいてターゲット音声を合成するステップと、を含む。
第2の態様によれば、音声変換装置を提供し、第1のユーザのソース音声と第2のユーザの参照音声を取得するための取得モジュールと、前記ソース音声から第1の音声コンテンツ情報と第1の音響特性を抽出するための第1の抽出モジュールと、前記参照音声から第2の音響特性を抽出するための第2の抽出モジュールと、前記第1の音声コンテンツ情報、前記第1の音響特性及び前記第2の音響特性を予めトレーニングされた音声変換モデルに入力して、再構成された第3の音響特性を取得するための変換モジュールであって、前記予めトレーニングされた音声変換モデルは第3のユーザの音声に基づいてトレーニングして取得される変換モジュールと、前記第3の音響特性に基づいてターゲット音声を合成するための合成モジュールと、を備える。
第3の態様によれば、電子機器を提供し、少なくとも1つのプロセッサと、該少なくとも1つのプロセッサと通信可能に接続されるメモリと、を備え、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが本出願の第1の態様に記載の音声変換方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
第4の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに本出願の第1の態様に記載の音声変換方法を実行させる。 第5の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムは、コンピュータに上記実施例に本出願の第1の態様に記載の音声変換方法を実行させる。
なお、この部分に記載されているコンテンツは、本開示の実施例の主なまたは重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していないことを理解されたい。本開示の他の特徴は、以下の説明を通して容易に理解される。
図面は、本技術案をよりよく理解するために使用されており、本出願を限定するものではない。
本出願の第1の実施例に係る音声変換方法の概略フローチャートである。 本出願の第2の実施例に係る音声変換方法のシーン概略図である。 本出願の第3の実施例に係る音声変換方法のシーン概略図である。 本出願の第4の実施例に係る音声変換方法における再構成された第3の音響特性を取得する概略フローチャートである。 本出願の第4の実施例に係る音声変換方法における予めトレーニングされた音声変換モデルを取得する概略フローチャートである。 本出願の第1の実施例に係る音声変換装置のブロック図である。 本出願の第2の実施例に係る音声変換装置のブロック図である。 本出願の実施例の音声変換方法を実現するための電子機器のブロック図である。
以下、図面を組み合わせて本出願の例示的な実施例を説明し、理解を容易にするためにその中には本出願の実施例の様々な詳細事項を含んでおり、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
図1は本出願の第1の実施例に係る音声変換方法の概略フローチャートである。
図1に示すように、本出願の1の実施例の音声変換方法は、ステップS101~S105を含む。
S101:第1のユーザのソース音声と第2のユーザの参照音声を取得する。
なお、本出願の実施例の音声認識方法の実行本体は、データ情報処理能力を有するハードウェアデバイス及び/又はこのハードウェアデバイスの動作を駆動するために必要なソフトウェアであることができる。選択可能に、実行本体は、ワークステーション、サーバ、コンピュータ、ユーザ端末及びその他の機器を備えることができる。ここで、ユーザ端末は、携帯電話、パソコン、インテリジェントな音声対話型デバイス、スマート家電、車載端末などを含むが、これらに限定されない。
なお、ソース音声は、第1のユーザが発音した、音色が変換されていない音声であり、第1のユーザの音色特徴を有し、参照音声は、第2のユーザが発音した音声であり、第2のユーザの音色特徴を有する。本開示の実施例における音声変換方法は、第1のユーザのソース音声を、第2のユーザの参照音声の表徴を有する第2のユーザの音色の1つの音声に変換して、第2のユーザの音色の模倣を実現することができる。ここで、第1のユーザ、第2のユーザは、人、インテリジェントな音声対話型デバイスなどを含むが、これらに限定されない。
選択可能に、第1のユーザのソース音声、第2のユーザの参照音声は、いずれも録音、ネットワーク転送など方式によって取得できる。
なお、録音の方式によって第1のユーザのソース音声及び/又は第2のユーザの参照音声を取得する場合、機器には音声収集装置があり、音声収集装置は、マイクロホン(Microphone)、マイクロホンアレイ(Microphone Array)などであってもよい。
または、ネットワーク転送の方式によって第1のユーザのソース音声及び/又は第2のユーザの参照音声を取得する場合、機器にはネットワーク装置があり、ネットワーク装置によって他の機器またはサーバとネットワーク転送を行うことができる。
具体的な実施では、本開示の実施例の音声変換方法はインテリジェントな音声対話型デバイスに適用されることができ、このインテリジェントな音声対話型デバイスは文章の朗読、質問応答などの機能を実現することができる。あるユーザが、インテリジェントな音声対話型デバイスのある文字を朗読する音色を自分の音色に置き換えたい場合、その応用シーンでは、インテリジェントな音声対話型デバイスがある文字を朗読するソース音声を取得し、自分の参照音声を録音することができる。
具体的な実施では、本開示の実施例の音声変換方法は、あるビデオAPP(Application、アプリケーション)に適用することもでき、このビデオAPPは、映画・テレビ作品の二次創作を実現することができ、例えば、ユーザは、映画・テレビ作品におけるある音声を、ある俳優の音色を有しながら語意が異なる音声に置き換えることができ、その応用シーンでは、ユーザが1つの自分のソース音声を録音し、ある俳優の参照音声をインターネットでダウンロードすることができる。
S102:ソース音声から第1の音声コンテンツ情報と第1の音響特性を抽出する。
本開示の実施例では、第1の音声コンテンツ情報は、ソース音声の音声テキスト、語意テキストを含むが、これに限定されない。第1の音響特性は、メル(Mel)特徴、メルケプストラム係数(Mel-scale Frequency Cepstral Coefficients、MFCC)特徴、知覚線形予測(Perceptual Linear Predict、PLP)特徴などを含むが、ここでは過度に限定しない。
具体的な実施では、音声認識モデルによってソース音声から第1の音声コンテンツ情報を抽出することができ、及び音響モデルによってソース音声から第1の音響特性を抽出することができ、音声認識モデル、音響モデルはいずれも実際の状況に基づいて予め設定できる。
S103:参照音声から第2の音響特性を抽出する。
ステップS103の具体的な実現プロセス及び原理は、上記実施例におけるソース音声から第1の音響特性を抽出する関連コンテンツを参照し、ここでは説明を省略する。
S104:第1の音声コンテンツ情報、第1の音響特性及び第2の音響特性を予めトレーニングされた音声変換モデルに入力して、再構成された第3の音響特性を取得し、予めトレーニングされた音声変換モデルは第3のユーザの音声に基づいてトレーニングして取得される。
本開示の実施例では、第3のユーザの音声に基づいて音声変換モデルを予めトレーニングして、第1の音声コンテンツ情報、第1の音響特性及び第2の音響特性に基づいて、再構成された第3の音響特性を取得するための予めトレーニングされた音声変換モデルを取得することができる。
なお、第3の音響特性に関する関連コンテンツは上記実施例における第1の音響特性の関連コンテンツを参照することができ、ここでは説明を省略する。
選択可能に、第1の音響特性、第2の音響特性及び第3の音響特性はいずれもメル特徴であってもよい。
なお、予めトレーニングされた音声変換モデルは第1のユーザ、第2のユーザに関係なく、関連技術中において毎回音声変換を行う前に、ユーザが長い時間の高品質な音声を録音し、ユーザで録音された音声に基づいて音声変換モデルをトレーニングと更新する必要がある方法と比較して、当該方法における音声変換モデルが予め構築され、後続に異なるユーザに基づいてトレーニングと更新する必要がなく、柔軟性が高く、コンピューティングリソースとストレージリソースの節約に役立ち、リアルタイムの音声変換を実現でき、音声変換の待ち時間を短縮することに役立ち、ユーザの音声録音に対する要件も低い。
なお、本開示の実施例の音声変換方法は、多言語、多音色切り替えなどの応用シーンに適用できる。ここで、多言語応用シーンは、第1のユーザのソース音声に対応する語種が第2のユーザの参照音声に対応する語種と異なる場合を指し、多音色切り替え応用シーンは、第1のユーザが一意で、第2のユーザが複数である場合を指す。
関連技術において、多言語、多音色切り替えなどの応用シーンでは、複数の異なる音声変換モデルを構築する必要があり、音声変換モデルのトレーニングと更新が煩雑で、音声変換の安定性と流動性が悪いのに対し、本出願では1つの音声変換モデルを予め構築しておくだけで、その後は異なるユーザによるトレーニングと更新が必要とされず、標準語を含む多言語、多音色切り替えなどの応用シーンでの音声変換の安定性と流動性を向上させることに役立つ。
S105:第3の音響特性に基づいてターゲット音声を合成する。
本開示の実施例では、ターゲット音声に対応する音色特徴は第2のユーザの参照音声に対応する音色特徴であってもよく、すなわち当該方法は第2のユーザの音色の模倣を実現することができる。
選択可能に、ターゲット音声に対応する音声コンテンツ情報はソース音声の第1の音声コンテンツ情報であってもよく、すなわち当該方法は第1のユーザのソース音声の音声コンテンツ情報を保留することができる。
選択可能に、ターゲット音声に対応する話速、感情、リズムなどの特徴はソース音声に対応する話速、感情、リズムなどの特徴であってもよく、すなわち当該方法は第1のユーザのソース音声の話速、感情、リズムなどの特徴を保留することができ、ターゲット音声とソース音声の一貫性を向上させることに役立つ。
選択可能に、ボコーダによって第3の音響モデルに基づいてターゲット音声を合成することができる。
要約すると、本出願の実施例の音声変換方法によれば、ソース音声の第1の音声コンテンツ情報と第1の音響特性、及び参照音声の第2の音響特性を予めトレーニングされた音声変換モデルに入力して、再構成された第3の音響特性を取得し、再構成された第3の音響特性に基づいてターゲット音声を合成し、音声変換モデルが予め構築され、かつ後続にトレーニングと更新の必要がなく、柔軟性が高く、リアルタイムの音声変換を実現でき、音声変換の待ち時間を短縮することに役立ち、多言語、多音色切り替えなどの応用シーンに適用することができる。
上記いずれかの実施例に基づいて、ステップS102におけるソース音声から第1の音声コンテンツ情報を抽出するステップは、ソース音声を予めトレーニングされた多言語自動音声認識モデルに入力して、音声事後確率行列を取得し、音声事後確率行列を第1の音声コンテンツ情報とするステップを含むことができる。
なお、音声事後確率行列(Phonetic Posterior Gram、PPG)は、音声の発信者に関係なく、音声の音声コンテンツ情報を特徴付けることができる。
本開示の実施例では、多言語自動音声認識(Automatic Speech Recognition、ASR)モデルによって音声事後確率行列を取得し、音声事後確率行列をソース音声の第1の音声コンテンツ情報とすることができる。ここで、多言語自動音声認識モデルはソース音声の語種に限定しなく、複数の異なる語種のソース音声に対して音声認識を行って、音声事後確率行列を取得することができる。
上記いずれかの実施例に基づいて、図2に示すように、ソース音声から第1の音声コンテンツ情報と第1の音響特性を抽出し、参照音声から第2の音響特性を抽出し、第1の音声コンテンツ情報、第1の音響特性、及び第2の音響特性を予めトレーニングされた音声変換モデルに入力して、再構成された第3の音響特性を取得し、その後第3の音響特性に基づいてターゲット音声を合成して、音声変換を実現することができる。
なお、音声変換モデルには複数のネットワークが含まれることができる。図3を例として、音声変換モデルは隠れ変数ネットワーク、音色ネットワーク及び再構成ネットワークを含むことができる。
さらに、図4に示すように、ステップS104における第1の音声コンテンツ情報、第1の音響特性及び第2の音響特性を予めトレーニングされた音声変換モデルに入力して、再構成された第3の音響特性を取得するステップは、ステップS201~S302を含むことができる。
S201:第1の音響特性を隠れ変数ネットワークに入力して、基本周波数エネルギーパラメータを取得する。
本開示の実施例では、隠れ変数ネットワークは、第1の音響特性に基づいてソース音声の基本周波数(Fundamental Frequency)とエネルギーパラメータを取得することができる。ここで、隠れ変数ネットワークは実際の状況に基づいて設定でき、エネルギーパラメータは、ソース音声の周波数、振幅などを含むが、ここでは過度に限定しない。
なお、ソース音声の基本周波数エネルギーパラメータはソース音声の低次元パラメータであり、ソース音声の基本周波数、エネルギーなどの低次元特徴を反映することができる。
選択可能に、前記第1の音響特性を隠れ変数ネットワークに入力して、基本周波数エネルギーパラメータを取得するステップは、第1の音響特性を隠れ変数ネットワークに入力して、隠れ変数ネットワークがフレームスケールで第1の音響特性を圧縮し、圧縮された第1の音響特性から基本周波数エネルギーパラメータを抽出するステップを含むことができる。これにより、当該方法は圧縮の方式によって第1の音響特性から基本周波数エネルギーパラメータを取得することができる。
具体的な実施では、ソース音声の長さがT秒であると仮定すると、隠れ変数ネットワークが第1の音響特性に基づいて、T*3の大きさの行列を取得することができ、行列にはソース音声の基本周波数エネルギーパラメータが含まれる。
S202:第2の音響特性を音色ネットワークに入力して、音色パラメータを取得する。
本開示の実施例では、音色ネットワークは、第2の音響特性に基づいて参照音声の音色パラメータを取得することができる。ここで、音色ネットワーク実際の状況に基づいて設定でき、例えば、音色ネットワークは、ディープニューラルネットワーク(Deep Neural Networks、DNN)、リカレントニューラルネットワーク(Recurrent Neural Networks、RNN)、畳み込みニューラルネットワーク(Convolutional Neural Networks、CNN)などを含むが、これに限定されない。
なお、参照音声の音色パラメータは参照音声の音色特徴を反映することができる。
選択可能に、前記第2の音響特性を音色ネットワークに入力して、音色パラメータを取得するステップは、第2の音響特性を音色ネットワークに入力するステップであって、音色ネットワークがディープリカレントニューラルネットワーク(Deep Recurrent Neural Networks、DRNN)及び変分オートエンコーダ(Variational Auto Encoder、VAE)によって第2の音響特性を抽象化して、音色パラメータを取得するステップを含むことができる。これにより、当該方法は、抽象化の方式によって第2の音響特性から音色パラメータを取得することができる。
具体的な実施では、音色ネットワークは、第2の音響特性に基づいて1*64の行列を取得することができ、行列には参照音声の音色パラメータが含まれる。
S203:第1の音声コンテンツ情報、基本周波数エネルギーパラメータ及び音色パラメータを再構成ネットワークに入力して、第3の音響特性を取得する。
本開示の実施例では、再構成ネットワークは、第1の音声コンテンツ情報、基本周波数エネルギーパラメータ及び音色パラメータに基づいて、第3の音響特性を取得することができる。ここで、再構成ネットワークに関する関連コンテンツは上記実施例における音色ネットワークの関連コンテンツを参照することができ、ここでは説明を省略する。
なお、第1の音声コンテンツ情報はソース音声の音声コンテンツ情報を反映することができ、基本周波数エネルギーパラメータはソース音声の基本周波数、エネルギーなどの低次元特徴を反映することができ、音色パラメータは参照音声の音色特徴を反映することができ、第1の音声コンテンツ情報、基本周波数エネルギーパラメータ及び音色パラメータに基づいて取得された第3の音響特性は、ソース音声の音声コンテンツ情報、及びソース音声の基本周波数、エネルギーなどの低次元特徴、及び参照音声の音色特徴を反映することができ、後に第3の音響特性に基づいてターゲット音声を合成する時に、第1のユーザのソース音声的音声コンテンツ情報を保留し、及びターゲット音声の基本周波数とエネルギーの安定性を保持し、及び第2のユーザの参照音声の音色特徴を保留することができるようにする。
選択可能に、前記第1の音声コンテンツ情報、基本周波数エネルギーパラメータ及び音色パラメータを再構成ネットワークに入力して、第3の音響特性を取得するステップは、第1の音声コンテンツ情報、基本周波数エネルギーパラメータ及び音色パラメータを再構成ネットワークに入力するステップであって、再構成ネットワークがディープリカレントニューラルネットワークによって、第1の音声コンテンツ情報、基本周波数エネルギーパラメータ及び音色パラメータに対して音響特性再構成を行って、第3の音響特性を取得するステップを含むことができる。
これにより、当該方法における音声変換モデルは、隠れ変数ネットワーク、音色ネットワーク及び再構成ネットワークを含み、隠れ変数ネットワークは第1の音響特性に基づいてソース音声の基本周波数エネルギーパラメータを取得することができ、音色ネットワークは第2の音響特性に基づいて参照音声の音色パラメータを取得することができ、再構成ネットワークは第1の音声コンテンツ情報、基本周波数エネルギーパラメータ及び音色パラメータに基づいて、第3の音響特性を取得することができ、これによって第3の音響特性に基づいてターゲット音声を合成する時に、第1のユーザのソース音声的音声コンテンツ情報を保留し、及びターゲット音声の基本周波数とエネルギーの安定性を保持し、及び第2のユーザの参照音声の音色特徴を保留することができる。
上記いずれかの実施例に基づいて、図5に示すように、予めトレーニングされた音声変換モデルを取得するステップは、ステップS301~S305を含むことができる。
S301:第3のユーザの第1の音声と第2の音声を取得する。
本開示の実施例では、第1の音声と第2の音声は異なる。
S302:第1の音声から第2の音声コンテンツ情報と第4の音響特性を抽出する。
S303:第2の音声から第5の音響特性を抽出する。
S304:第2の音声コンテンツ情報、第4の音響特性及び第5の音響特性をトレーニング対象の音声変換モデルに入力して、再構成された第6の音響特性を取得する。
ステップS301~S304の具体的な実現プロセス及び原理は、上記実施例における関連コンテンツを参照し、ここでは説明を省略する。
S305:第6の音響特性と第4の音響特性との相違に基づいて、トレーニング対象の音声変換モデルにおけるモデルパラメータを調整し、第6の音響特性と第4の音響特性との相違が予め設定されたトレーニング終了条件を満たすまで、第3のユーザの第1の音声と第2の音声を取得するステップに戻り、最後にモデルパラメータを調整した後のトレーニング対象の音声変換モデルを予めトレーニングされた音声変換モデルとして決定する。
本開示の実施例では、一度に同じユーザの2つの異なる音声を用いてトレーニング対象の音声変換モデルのトレーニングを行い、そのうちの1つの音声を上記実施例におけるソース音声とし、他の1つの音声を上記実施例における参照音声とし、本出願では第3のユーザの第1の音声、第2の音声を用いてトレーニング対象の音声変換モデルのトレーニングを行うことを例とする。
例えば、第3のユーザの第1の音声を上記実施例におけるソース音声として、第1の音声から第2の音声コンテンツ情報と第4の音響特性を抽出し、及び第3のユーザの第2の音声を上記実施例における参照音声として、第2の音声から第5の音響特性を抽出し、その後第2の音声コンテンツ情報、第4の音響特性及び第5の音響特性をトレーニング対象の音声変換モデルに入力して、再構成された第6の音響特性を取得することができる。
なお、第1の音声、第2の音声がいずれも第3のユーザで発音されており、この時のターゲット音声とソース音声との相違が大きくないため、再構成された第6の音響特性と第4の音響特性との相違がそれほど大きいものではないはずだ。この時に第6の音響特性と第4の音響特性との相違に基づいて、トレーニング対象の音声変換モデルにおけるモデルパラメータを調整し、第6の音響特性と第4の音響特性との相違が予め設定されたトレーニング終了条件を満たすまで、第3のユーザの第1の音声と第2の音声を取得するステップ及び後続のステップに戻って実行して、複数のセットのサンプルデータに基づいてトレーニング対象の音声変換モデルに対してトレーニングと更新を行い、最後にモデルパラメータを調整した後のトレーニング対象の音声変換モデルを予めトレーニングされた音声変換モデルとして決定することができる。
ここで、予め設定されたトレーニング終了条件は実際の状況に基づいて設定でき、例えば、第6の音響特性と第4の音響特性との相違が予め設定された閾値より小さいことと設置することができる
これにより、当該方法は、複数のセットのサンプルデータに基づいて、トレーニング対象の音声変換モデルに対してトレーニングと更新を行って、予めトレーニングされた音声変換モデルを取得することができる。
もう1つの可能な実施形態として、音声変換モデルには複数のネットワークが含まれることができ、各ネットワークは各自のネットワークパラメータに対応し、複数のセットのサンプルデータに基づいて、トレーニング対象の音声変換モデルにおける複数のネットワークに対して共同トレーニングを行って、トレーニング対象の音声変換モデルにおける各ネットワーク中のネットワークパラメータをそれぞれ調整し、予めトレーニングされた音声変換モデルを取得することができる。
図3を例として、音声変換モデルは隠れ変数ネットワーク、音色ネットワーク及び再構成ネットワークを含むことができ、複数のセットのサンプルデータに基づいて、トレーニング対象の音声変換モデルにおける隠れ変数ネットワーク、音色ネットワーク及び再構成ネットワークに対して共同トレーニングを行って、トレーニング対象の音声変換モデルにおける隠れ変数ネットワーク、音色ネットワーク及び再構成ネットワーク中のネットワークパラメータをそれぞれ調整し、予めトレーニングされた音声変換モデルを取得することができる。
図6は本出願の第1の実施例に係る音声変換装置のブロック図である。
図6に示すように、本出願の実施例の音声変換装置600は、取得モジュール601と、第1の抽出モジュール602と、第2の抽出モジュール603と、変換モジュール604と、合成モジュール605と、を備える。
取得モジュール601は、第1のユーザのソース音声と第2のユーザの参照音声を取得することに用いられ、第1の抽出モジュール602は、前記ソース音声から第1の音声コンテンツ情報と第1の音響特性を抽出することに用いられ、第2の抽出モジュール603は、前記参照音声から第2の音響特性を抽出することに用いられ、変換モジュール604は、前記第1の音声コンテンツ情報、前記第1の音響特性及び前記第2の音響特性を予めトレーニングされた音声変換モデルに入力して、再構成された第3の音響特性を取得することに用いられ、前記予めトレーニングされた音声変換モデルは第3のユーザの音声に基づいてトレーニングして得られたものであり、合成モジュール605は、前記第3の音響特性に基づいてターゲット音声を合成することに用いられる。
本出願の1つの実施例では、前記第1の抽出モジュール602はさらに、前記ソース音声を予めトレーニングされた多言語自動音声認識モデルに入力して、音声事後確率行列を取得し、及び前記音声事後確率行列を前記第1の音声コンテンツ情報とすることに用いられる。
本出願の1つの実施例では、前記第1の音響特性、前記第2の音響特性及び前記第3の音響特性はメル特徴である。
本出願の1つの実施例では、前記音声変換モデルは隠れ変数ネットワーク、音色ネットワーク及び再構成ネットワークを含み、前記変換モジュール604は、前記第1の音響特性を前記隠れ変数ネットワークに入力して、基本周波数エネルギーパラメータを取得するための第1の入力ユニットと、前記第2の音響特性を前記音色ネットワークに入力して、音色パラメータを取得するための第2の入力ユニットと、前記第1の音声コンテンツ情報、前記基本周波数エネルギーパラメータ及び前記音色パラメータを前記再構成ネットワークに入力して、前記第3の音響特性を取得するための第3の入力ユニットと、を備える。
本出願の1つの実施例では、前記第1の入力ユニットはさらに、前記第1の音響特性を前記隠れ変数ネットワークに入力し、前記隠れ変数ネットワークがフレームスケールで前記第1の音響特性を圧縮し、圧縮された第1の音響特性から基本周波数エネルギーパラメータを抽出することに用いられる。
本出願の1つの実施例では、前記第2の入力ユニットはさらに、前記第2の音響特性を前記音色ネットワークに入力することに用いられ、前記音色ネットワークはディープリカレントニューラルネットワーク及び変分オートエンコーダによって前記第2の音響特性を抽象化して、前記音色パラメータを取得する。
本出願の1つの実施例では、前記第3の入力ユニットはさらに、前記第1の音声コンテンツ情報、前記基本周波数エネルギーパラメータ及び前記音色パラメータを前記再構成ネットワークに入力することに用いられ、前記再構成ネットワークはディープリカレントニューラルネットワークによって前記第1の音声コンテンツ情報、前記基本周波数エネルギーパラメータ及び前記音色パラメータに対して音響特性再構成を行って、前記第3の音響特性を取得する。
本出願の1つの実施例では、図7に示すように、前記音声変換装置600は、前記第3のユーザの第1の音声と第2の音声を取得し、前記第1の音声から第2の音声コンテンツ情報と第4の音響特性を抽出し、前記第2の音声から第5の音響特性を抽出し、前記第2の音声コンテンツ情報、前記第4の音響特性及び前記第5の音響特性をトレーニング対象の音声変換モデルに入力して、再構成された第6の音響特性を取得し、及び前記第6の音響特性と前記第4の音響特性との相違に基づいて、前記トレーニング対象の音声変換モデルにおけるモデルパラメータを調整し、前記第6の音響特性と前記第4の音響特性との相違が予め設定されたトレーニング終了条件を満たすまで、前記第3のユーザの第1の音声と第2の音声を取得するステップに戻り、最後にモデルパラメータを調整した後の前記トレーニング対象の音声変換モデルを前記予めトレーニングされた音声変換モデルとして決定するためのモデルトレーニングモジュール606をさらに備える。
要約すると、本出願の実施例の音声変換装置によれば、ソース音声の第1の音声コンテンツ情報と第1の音響特徴、及び参照音声の第2の音響特徴を予めトレーニングされた音声変換モデルに入力して、再構成された第3の音響特徴を取得し、再構成された第3の音響特徴に基づいてターゲット音声を合成し、音声変換モデルが予め構築され、かつ後続にトレーニングと更新の必要がなく、柔軟性が高く、リアルタイムの音声変換を実現でき、音声変換の待ち時間を短縮することに役立ち、多語種、多音色切り替えなどの応用シーンに適用されることができる。
本出願の実施例によれば、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
本出願の実施例によれば、本出願は、コンピュータプログラムを提供し、コンピュータプログラムは、コンピュータに本出願によって提供される音声変換方法を実行させる。
図8に示すように、それは本出願の実施例に係る音声変換方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、携帯情報端末、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本出願の実現を制限することを意図したものではない。
図8に示すように、当該電子機器は、1つ又は複数のプロセッサ801と、メモリ802と、高速インターフェース及び低速インターフェースを備える各コンポーネントを接続するためのインターフェースと、を備える。各コンポーネントは、異なるバスで互いに接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、外部入力/出力装置(インターフェースに結合されたディスプレイデバイスなど)にGUIの図形情報をディスプレイするためにメモリに記憶されている命令を含む、電子機器内に実行される命令を処理することができる。他の実施形態では、必要であれば、複数のプロセッサ及び/又は複数のバスを、複数のメモリと複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各電子機器は、部分的な必要な操作(例えば、サーバアレイ、ブレードサーバ、又はマルチプロセッサシステムとする)を提供することができる。図8では、1つのプロセッサ801を例とする。
メモリ802は、本出願により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。ここで、前記メモリには、前記少なくとも1つのプロセッサが本出願により提供される音声変換方法を実行するように、少なくとも1つのプロセッサによって実行される命令を記憶が記憶されている。本出願の非一時的なコンピュータ読み取り可能な記憶媒体は、コンピュータが本出願により提供される音声変換方法を実行するためのコンピュータ命令を記憶する。
メモリ802は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例における音声変換方法に対応するプログラム命令/モジュール(例えば、図6に取得モジュール601、第1の抽出モジュール602、第2の抽出モジュール603、変換モジュール604及び合成モジュール605)のような、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶するために用いられる。プロセッサ801は、メモリ802に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記方法の実施例における音声変換方法を実現する。
メモリ802は、プログラム記憶領域とデータ記憶領域とを備えることができ、ここで、プログラム記憶領域は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域は、音声変換方法ことに基づく電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ802は、高速ランダムアクセスメモリを備えることができ、非一時的なメモリをさらに備えることができ、例えば、少なくとも1つのディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ802は、プロセッサ801に対して遠隔に設定されたメモリを選択的に備えることができ、これらの遠隔メモリは、ネットワークを介して音声変換の電子機器に接続されることができる。上記ネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定されない。
音声変換方法の電子機器は、入力装置803と出力装置804とをさらに備えることができる。プロセッサ801、メモリ802、入力装置803、及び出力装置804は、バス又は他の方式を介して接続することができ、図8では、バスを介して接続することを例とする。
入力装置803は、入力された数字又は文字情報を受信することができ、及び音声変換の電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インジケーターロッド、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置804は、ディスプレイデバイス、補助照明デバイス(例えば、LED)、及び触覚フィードバックデバイス(例えば、振動モータ)などを備えることができる。当該ディスプレイデバイスは、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを備えることができるが、これらに限定されない。いくつかの実施形態では、ディスプレイデバイスは、タッチスクリーンであってもよい。
本明細書で説明されるシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを備えるプログラム可能なシステムで実行及び/又は解釈することができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができる。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、高レベルのプロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語でこれらのコンピューティングプログラムを実施することができる。本明細書で使用されるように、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを備えるコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを備えるコンピューティングシステム(例えば、アプリケーションサーバー)、又はフロントエンドコンポーネントを備えるコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを備えるコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを互いに接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
コンピュータシステムは、クライアントとサーバとを備えることができる。クライアントとサーバは、一般的に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。
本出願の実施例の技術案によれば、サーバは、インテリジェントな音声対話型デバイスで送信されたユーザの第1の音声信号に基づいて、音声認識と語意解析を行って、ユーザの語意テキストを取得し、語意テキストに基づいてビジネスクエリ結果を取得し、インテリジェントな音声対話型デバイスにフィードバックすることができ、当該方法は、音声処理技術によってビジネス処理の自動化を実現し、ユーザがスタッフの協力なしに自らビジネスを処理することができ、人件費が低く、人々のビジネス処理の待ち時間と処理時間を減らすことに役立ち、ビジネス処理の効率を向上させる。
上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案の所望の結果を実現することができれば、本明細書では限定されない。
上記具体的な実施形態は、本出願に対する保護範囲の制限を構成するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本出願の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれなければならない。

Claims (17)

  1. 第1のユーザのソース音声と第2のユーザの参照音声を取得するステップと、
    前記ソース音声から第1の音声コンテンツ情報と第1の音響特性を抽出するステップと、
    前記参照音声から第2の音響特性を抽出するステップと、
    前記第1の音声コンテンツ情報、前記第1の音響特性及び前記第2の音響特性を予めトレーニングされた音声変換モデルに入力して、再構成された第3の音響特性を取得するステップであって、前記予めトレーニングされた音声変換モデルは第3のユーザの音声に基づいてトレーニングして取得されるステップと、
    前記第3の音響特性に基づいてターゲット音声を合成するステップと、
    前記第3のユーザの第1の音声と第2の音声を取得するステップと、
    前記第1の音声から第2の音声コンテンツ情報と第4の音響特性を抽出するステップと、
    前記第2の音声から第5の音響特性を抽出するステップと、
    前記第2の音声コンテンツ情報、前記第4の音響特性及び前記第5の音響特性をトレーニング対象の音声変換モデルに入力して、再構成された第6の音響特性を取得するステップと、
    前記第6の音響特性と前記第4の音響特性との相違に基づいて、前記トレーニング対象の音声変換モデルにおけるモデルパラメータを調整し、前記第6の音響特性と前記第4の音響特性との相違が予め設定されたトレーニング終了条件を満たすまで、前記第3のユーザの第1の音声と第2の音声を取得するステップに戻り、最後にモデルパラメータを調整した後の前記トレーニング対象の音声変換モデルを前記予めトレーニングされた音声変換モデルとして決定するステップと、
    を含む音声変換方法。
  2. 前記ソース音声から第1の音声コンテンツ情報を抽出するステップが、
    前記ソース音声を予めトレーニングされた多言語自動音声認識モデルに入力して、音声事後確率行列を取得するステップと、
    前記音声事後確率行列を前記第1の音声コンテンツ情報とするステップと、
    を含む請求項1に記載の音声変換方法。
  3. 前記第1の音響特性、前記第2の音響特性及び前記第3の音響特性がメル特徴である請求項1に記載の音声変換方法。
  4. 前記音声変換モデルが隠れ変数ネットワーク、音色ネットワーク及び再構成ネットワークを含み、前記第1の音声コンテンツ情報、前記第1の音響特性及び前記第2の音響特性を予めトレーニングされた音声変換モデルに入力して、再構成された第3の音響特性を取得するステップが、
    前記第1の音響特性を前記隠れ変数ネットワークに入力して、基本周波数エネルギーパラメータを取得するステップと、
    前記第2の音響特性を前記音色ネットワークに入力して、音色パラメータを取得するステップと、
    前記第1の音声コンテンツ情報、前記基本周波数エネルギーパラメータ及び前記音色パラメータを前記再構成ネットワークに入力して、前記第3の音響特性を取得するステップと、
    を含む請求項1に記載の音声変換方法。
  5. 前記第1の音響特性を前記隠れ変数ネットワークに入力して、基本周波数エネルギーパラメータを取得するステップが、前記第1の音響特性を前記隠れ変数ネットワークに入力し、前記隠れ変数ネットワークがフレームスケールで前記第1の音響特性を圧縮し、圧縮された第1の音響特性から基本周波数エネルギーパラメータを抽出するステップを含む請求項4に記載の音声変換方法。
  6. 前記第2の音響特性を前記音色ネットワークに入力して、音色パラメータを取得するステップが、前記第2の音響特性を前記音色ネットワークに入力し、前記音色ネットワークがディープリカレントニューラルネットワーク及び変分オートエンコーダによって前記第2の音響特性を抽象化して、前記音色パラメータを取得するステップを含む請求項4に記載の音声変換方法。
  7. 前記第1の音声コンテンツ情報、前記基本周波数エネルギーパラメータ及び前記音色パラメータを前記再構成ネットワークに入力して、前記第3の音響特性を取得するステップが、前記第1の音声コンテンツ情報、前記基本周波数エネルギーパラメータ及び前記音色パラメータを前記再構成ネットワークに入力し、前記再構成ネットワークがディープリカレントニューラルネットワークによって前記第1の音声コンテンツ情報、前記基本周波数エネルギーパラメータ及び前記音色パラメータに対して音響特性再構成を行って、前記第3の音響特性を取得するステップを含む請求項4に記載の音声変換方法。
  8. 第1のユーザのソース音声と第2のユーザの参照音声を取得するための取得モジュールと、
    前記ソース音声から第1の音声コンテンツ情報と第1の音響特性を抽出するための第1の抽出モジュールと、
    前記参照音声から第2の音響特性を抽出するための第2の抽出モジュールと、
    前記第1の音声コンテンツ情報、前記第1の音響特性及び前記第2の音響特性を予めトレーニングされた音声変換モデルに入力して、再構成された第3の音響特性を取得するための変換モジュールであって、前記予めトレーニングされた音声変換モデルは第3のユーザの音声に基づいてトレーニングして取得される変換モジュールと、
    前記第3の音響特性に基づいてターゲット音声を合成するための合成モジュールと、
    モデルトレーニングモジュールと、
    を備え、
    該モデルトレーニングモジュールが、
    前記第3のユーザの第1の音声と第2の音声を取得し、
    前記第1の音声から第2の音声コンテンツ情報と第4の音響特性を抽出し、
    前記第2の音声から第5の音響特性を抽出し、
    前記第2の音声コンテンツ情報、前記第4の音響特性及び前記第5の音響特性をトレーニング対象の音声変換モデルに入力して、再構成された第6の音響特性を取得し、
    前記第6の音響特性と前記第4の音響特性との相違に基づいて、前記トレーニング対象の音声変換モデルにおけるモデルパラメータを調整し、前記第6の音響特性と前記第4の音響特性との相違が予め設定されたトレーニング終了条件を満たすまで、前記第3のユーザの第1の音声と第2の音声を取得するステップに戻り、最後にモデルパラメータを調整した後の前記トレーニング対象の音声変換モデルを前記予めトレーニングされた音声変換モデルとして決定する音声変換装置。
  9. 前記第1の抽出モジュールが、
    前記ソース音声を予めトレーニングされた多言語自動音声認識モデルに入力して、音声事後確率行列を取得し、
    前記音声事後確率行列を前記第1の音声コンテンツ情報とする請求項に記載の音声変換装置。
  10. 前記第1の音響特性、前記第2の音響特性及び前記第3の音響特性がメル特徴である請求項に記載の音声変換装置。
  11. 前記音声変換モデルは隠れ変数ネットワーク、音色ネットワーク及び再構成ネットワークを含み、前記変換モジュールが、
    前記第1の音響特性を前記隠れ変数ネットワークに入力して、基本周波数エネルギーパラメータを取得するための第1の入力ユニットと、
    前記第2の音響特性を前記音色ネットワークに入力して、音色パラメータを取得するための第2の入力ユニットと、
    前記第1の音声コンテンツ情報、前記基本周波数エネルギーパラメータ及び前記音色パラメータを前記再構成ネットワークに入力して、前記第3の音響特性を取得するための第3の入力ユニットと、
    を備える請求項に記載の音声変換装置。
  12. 前記第1の入力ユニットが、前記第1の音響特性を前記隠れ変数ネットワークに入力し、前記隠れ変数ネットワークがフレームスケールで前記第1の音響特性を圧縮し、圧縮された第1の音響特性から基本周波数エネルギーパラメータを抽出する請求項11に記載の音声変換装置。
  13. 前記第2の入力ユニットが、前記第2の音響特性を前記音色ネットワークに入力し、前記音色ネットワークがディープリカレントニューラルネットワーク及び変分オートエンコーダによって前記第2の音響特性を抽象化して、前記音色パラメータを取得する請求項11に記載の音声変換装置。
  14. 前記第3の入力ユニットが、前記第1の音声コンテンツ情報、前記基本周波数エネルギーパラメータ及び前記音色パラメータを前記再構成ネットワークに入力し、前記再構成ネットワークがディープリカレントニューラルネットワークによって前記第1の音声コンテンツ情報、前記基本周波数エネルギーパラメータ及び前記音色パラメータに対して音響特性再構成を行って、前記第3の音響特性を取得する請求項11に記載の音声変換装置。
  15. 少なくとも1つのプロセッサと、
    該少なくとも1つのプロセッサと通信可能に接続されるメモリと、
    を備え、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令が、前記少なくとも1つのプロセッサが請求項1からのいずれか一項に記載の音声変換方法を実行できるように、前記少なくとも1つのプロセッサによって実行される電子機器。
  16. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令が、コンピュータに請求項1からのいずれか一項に記載の音声変換方法を実行させる非一時的なコンピュータ読み取り可能な記憶媒体。
  17. コンピュータに請求項1からのいずれか一項に記載の音声変換方法を実行させるコンピュータプログラム。
JP2021051620A 2020-09-25 2021-03-25 音声変換方法、装置及び電子機器 Active JP7181332B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011025400.X 2020-09-25
CN202011025400.XA CN112259072A (zh) 2020-09-25 2020-09-25 语音转换方法、装置和电子设备

Publications (2)

Publication Number Publication Date
JP2021103328A JP2021103328A (ja) 2021-07-15
JP7181332B2 true JP7181332B2 (ja) 2022-11-30

Family

ID=74234043

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021051620A Active JP7181332B2 (ja) 2020-09-25 2021-03-25 音声変換方法、装置及び電子機器

Country Status (5)

Country Link
US (1) US20210280202A1 (ja)
EP (1) EP3859735A3 (ja)
JP (1) JP7181332B2 (ja)
KR (1) KR102484967B1 (ja)
CN (1) CN112259072A (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113066498B (zh) * 2021-03-23 2022-12-30 上海掌门科技有限公司 信息处理方法、设备和介质
CN113314101B (zh) * 2021-04-30 2024-05-14 北京达佳互联信息技术有限公司 一种语音处理方法、装置、电子设备及存储介质
CN113223555A (zh) * 2021-04-30 2021-08-06 北京有竹居网络技术有限公司 视频生成方法、装置、存储介质及电子设备
CN113409767B (zh) * 2021-05-14 2023-04-25 北京达佳互联信息技术有限公司 一种语音处理方法、装置、电子设备及存储介质
CN113345411B (zh) * 2021-05-31 2024-01-05 多益网络有限公司 一种变声方法、装置、设备和存储介质
CN113345454B (zh) * 2021-06-01 2024-02-09 平安科技(深圳)有限公司 语音转换模型的训练、应用方法、装置、设备及存储介质
CN113470622B (zh) * 2021-09-06 2021-11-19 成都启英泰伦科技有限公司 一种可将任意语音转换成多个语音的转换方法及装置
CN113823300B (zh) * 2021-09-18 2024-03-22 京东方科技集团股份有限公司 语音处理方法及装置、存储介质、电子设备
CN113782052A (zh) * 2021-11-15 2021-12-10 北京远鉴信息技术有限公司 一种音色转换方法、装置、电子设备及存储介质
CN114267352B (zh) * 2021-12-24 2023-04-14 北京信息科技大学 一种语音信息处理方法及电子设备、计算机存储介质
CN114360558B (zh) * 2021-12-27 2022-12-13 北京百度网讯科技有限公司 语音转换方法、语音转换模型的生成方法及其装置
CN114255737B (zh) * 2022-02-28 2022-05-17 北京世纪好未来教育科技有限公司 语音生成方法、装置、电子设备
CN115294963A (zh) * 2022-04-12 2022-11-04 阿里巴巴达摩院(杭州)科技有限公司 语音合成模型产品
US20230335109A1 (en) * 2022-04-19 2023-10-19 Tencent America LLC Techniques for disentangled variational speech representation learning for zero-shot voice conversion
CN114678032B (zh) * 2022-04-24 2022-09-27 北京世纪好未来教育科技有限公司 一种训练方法、语音转换方法及装置和电子设备
US20230386479A1 (en) * 2022-05-27 2023-11-30 Tencent America LLC Techniques for improved zero-shot voice conversion with a conditional disentangled sequential variational auto-encoder
CN115457969A (zh) * 2022-09-06 2022-12-09 平安科技(深圳)有限公司 基于人工智能的语音转换方法、装置、计算机设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019109306A (ja) 2017-12-15 2019-07-04 日本電信電話株式会社 音声変換装置、音声変換方法及びプログラム
JP2019215500A (ja) 2018-06-14 2019-12-19 日本電信電話株式会社 音声変換学習装置、音声変換装置、方法、及びプログラム
JP2020027193A (ja) 2018-08-13 2020-02-20 日本電信電話株式会社 音声変換学習装置、音声変換装置、方法、及びプログラム

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100198577A1 (en) * 2009-02-03 2010-08-05 Microsoft Corporation State mapping for cross-language speaker adaptation
US9798653B1 (en) * 2010-05-05 2017-10-24 Nuance Communications, Inc. Methods, apparatus and data structure for cross-language speech adaptation
US9564120B2 (en) * 2010-05-14 2017-02-07 General Motors Llc Speech adaptation in speech synthesis
US9922641B1 (en) * 2012-10-01 2018-03-20 Google Llc Cross-lingual speaker adaptation for multi-lingual speech synthesis
JP5817854B2 (ja) * 2013-02-22 2015-11-18 ヤマハ株式会社 音声合成装置およびプログラム
US9195656B2 (en) * 2013-12-30 2015-11-24 Google Inc. Multilingual prosody generation
US9542927B2 (en) * 2014-11-13 2017-01-10 Google Inc. Method and system for building text-to-speech voice from diverse recordings
CN104575487A (zh) * 2014-12-11 2015-04-29 百度在线网络技术(北京)有限公司 一种语音信号的处理方法及装置
US9842105B2 (en) * 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US9754580B2 (en) * 2015-10-12 2017-09-05 Technologies For Voice Interface System and method for extracting and using prosody features
US10176819B2 (en) * 2016-07-11 2019-01-08 The Chinese University Of Hong Kong Phonetic posteriorgrams for many-to-one voice conversion
CN107863095A (zh) * 2017-11-21 2018-03-30 广州酷狗计算机科技有限公司 音频信号处理方法、装置和存储介质
CN111566655B (zh) * 2018-01-11 2024-02-06 新智株式会社 多种语言文本语音合成方法
CN109192218B (zh) * 2018-09-13 2021-05-07 广州酷狗计算机科技有限公司 音频处理的方法和装置
US11068668B2 (en) * 2018-10-25 2021-07-20 Facebook Technologies, Llc Natural language translation in augmented reality(AR)
KR102495888B1 (ko) * 2018-12-04 2023-02-03 삼성전자주식회사 사운드를 출력하기 위한 전자 장치 및 그의 동작 방법
CN111508511A (zh) * 2019-01-30 2020-08-07 北京搜狗科技发展有限公司 实时变声方法及装置
CN110097890B (zh) * 2019-04-16 2021-11-02 北京搜狗科技发展有限公司 一种语音处理方法、装置和用于语音处理的装置
DK3726856T3 (da) * 2019-04-17 2023-01-09 Oticon As Høreanordning omfattende en nøgleordsdetektor og en egen stemme-detektor
CN110288975B (zh) * 2019-05-17 2022-04-22 北京达佳互联信息技术有限公司 语音风格迁移方法、装置、电子设备及存储介质
US10997970B1 (en) * 2019-07-30 2021-05-04 Abbas Rafii Methods and systems implementing language-trainable computer-assisted hearing aids
CN110781394A (zh) * 2019-10-24 2020-02-11 西北工业大学 一种基于多源群智数据的个性化商品描述生成方法
CN110970014B (zh) * 2019-10-31 2023-12-15 阿里巴巴集团控股有限公司 语音转换、文件生成、播音、语音处理方法、设备及介质
CN111247584B (zh) * 2019-12-24 2023-05-23 深圳市优必选科技股份有限公司 语音转换方法、系统、装置及存储介质
CN111223474A (zh) * 2020-01-15 2020-06-02 武汉水象电子科技有限公司 一种基于多神经网络的语音克隆方法和系统
CN111326138A (zh) * 2020-02-24 2020-06-23 北京达佳互联信息技术有限公司 语音生成方法及装置
US11881210B2 (en) * 2020-05-05 2024-01-23 Google Llc Speech synthesis prosody using a BERT model
US11514888B2 (en) * 2020-08-13 2022-11-29 Google Llc Two-level speech prosody transfer
CN114203147A (zh) * 2020-08-28 2022-03-18 微软技术许可有限责任公司 用于文本到语音的跨说话者样式传递以及用于训练数据生成的系统和方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019109306A (ja) 2017-12-15 2019-07-04 日本電信電話株式会社 音声変換装置、音声変換方法及びプログラム
JP2019215500A (ja) 2018-06-14 2019-12-19 日本電信電話株式会社 音声変換学習装置、音声変換装置、方法、及びプログラム
JP2020027193A (ja) 2018-08-13 2020-02-20 日本電信電話株式会社 音声変換学習装置、音声変換装置、方法、及びプログラム

Also Published As

Publication number Publication date
EP3859735A3 (en) 2022-01-05
US20210280202A1 (en) 2021-09-09
KR102484967B1 (ko) 2023-01-05
CN112259072A (zh) 2021-01-22
KR20210106397A (ko) 2021-08-30
JP2021103328A (ja) 2021-07-15
EP3859735A2 (en) 2021-08-04

Similar Documents

Publication Publication Date Title
JP7181332B2 (ja) 音声変換方法、装置及び電子機器
JP7194779B2 (ja) 音声合成方法及び対応するモデルのトレーニング方法、装置、電子機器、記憶媒体、並びにコンピュータプログラム
CN112131988B (zh) 确定虚拟人物唇形的方法、装置、设备和计算机存储介质
CN104252861B (zh) 视频语音转换方法、装置和服务器
CN108831437B (zh) 一种歌声生成方法、装置、终端和存储介质
US10217260B1 (en) Real-time lip synchronization animation
JP2021196598A (ja) モデルトレーニング方法、音声合成方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN112309365B (zh) 语音合成模型的训练方法、装置、存储介质以及电子设备
US20220076657A1 (en) Method of registering attribute in speech synthesis model, apparatus of registering attribute in speech synthesis model, electronic device, and medium
CN115082602B (zh) 生成数字人的方法、模型的训练方法、装置、设备和介质
JP7395553B2 (ja) 文章翻訳方法、装置、電子機器及び記憶媒体
JP7167106B2 (ja) 口形特徴予測方法、装置及び電子機器
KR20190005103A (ko) 전자기기의 웨이크업 방법, 장치, 디바이스 및 컴퓨터 가독 기억매체
KR101426214B1 (ko) 텍스트 대 스피치 변환을 위한 방법 및 시스템
JP7331044B2 (ja) 情報処理方法、装置、システム、電子機器、記憶媒体およびコンピュータプログラム
US20230326369A1 (en) Method and apparatus for generating sign language video, computer device, and storage medium
US20230015112A1 (en) Method and apparatus for processing speech, electronic device and storage medium
JP7216065B2 (ja) 音声認識方法及び装置、電子機器並びに記憶媒体
JP2022020062A (ja) 特徴情報のマイニング方法、装置及び電子機器
WO2020167304A1 (en) Real-time lip synchronization animation
CN111768756B (zh) 信息处理方法、装置、车辆和计算机存储介质
EP3846164A2 (en) Method and apparatus for processing voice, electronic device, storage medium, and computer program product
CN117253477A (zh) 一种基于llm大模型及rpa的语音智能控制系统及方法
CN114093341A (zh) 数据处理方法、装置及介质
CN117877487A (zh) 语音识别系统、方法、电子设备和计算机可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210325

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220426

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220721

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221117

R150 Certificate of patent or registration of utility model

Ref document number: 7181332

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150