JP2019200408A - 音声合成モデルを生成するための方法、及び装置 - Google Patents

音声合成モデルを生成するための方法、及び装置 Download PDF

Info

Publication number
JP2019200408A
JP2019200408A JP2018247790A JP2018247790A JP2019200408A JP 2019200408 A JP2019200408 A JP 2019200408A JP 2018247790 A JP2018247790 A JP 2018247790A JP 2018247790 A JP2018247790 A JP 2018247790A JP 2019200408 A JP2019200408 A JP 2019200408A
Authority
JP
Japan
Prior art keywords
training
neural network
deep neural
text
initial deep
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018247790A
Other languages
English (en)
Other versions
JP6803365B2 (ja
Inventor
カン,ヨンクオ
Yongguo Kang
クー,ユイ
Yu GU
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Publication of JP2019200408A publication Critical patent/JP2019200408A/ja
Application granted granted Critical
Publication of JP6803365B2 publication Critical patent/JP6803365B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Signal Processing (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

【課題】基本周波数を入力することなく、テキスト情報に基づいて、対応するオーディオデータを得ることができる音声合成モデルを生成するための方法を提供する。【解決手段】方法は、テキストサンプル情報と対応するオーディオサンプルデータ及びオーディオサンプルデータの基本周波数とを含むトレーニングサンプルの、トレーニングサンプルセットを取得するステップと、初期ディープニューラルネットワークを取得するステップと、機械学習方法を利用して、トレーニングサンプルセット中のトレーニングサンプルのテキストサンプル情報を入力とし、入力されたテキストサンプル情報に対応するオーディオサンプルデータおよびオーディオサンプルデータの基本周波数を出力として、初期ディープニューラルネットワークに対してトレーニングを行い、トレーニング後の初期ディープニューラルネットワークを音声合成モデルとして確定するステップとを含む。【選択図】図2

Description

本願の実施例は、コンピュータ技術の分野に関し、具体的には、音声合成モデルを生成する方法、及び装置に関する。
音声合成(TTS:text−to−speech)の目標は、テキストを音声信号に合成することである。音声合成により、マン・マシン音声通信を実現することができる。音声合成は、波形接続型音声合成とパラメトリック音声合成とに分けることができる。
本願の実施例は、音声合成モデルを生成するための方法、及び装置を提出する。
第1の局面において、本願の実施例は、音声合成モデルを生成するための方法であって、テキストサンプル情報とテキストサンプル情報に対応されるオーディオサンプルデータ及びオーディオサンプルデータの基本周波数とを含むトレーニングサンプルの、トレーニングサンプルセットを取得するステップと、初期ディープニューラルネットワークを取得するステップと、機械学習方法を利用して、トレーニングサンプルセット中のトレーニングサンプルのテキストサンプル情報を入力とし、入力されたテキストサンプル情報に対応するオーディオサンプルデータおよびオーディオサンプルデータの基本周波数を出力として、初期ディープニューラルネットワークに対してトレーニングを行い、トレーニング後の初期ディープニューラルネットワークを音声合成モデルとして確定するステップとを含む方法を提供する。
幾らかの実施例において、機械学習方法を利用して、トレーニングサンプルセット中のトレーニングサンプルのテキストサンプル情報を入力とし、入力されたテキストサンプル情報に対応するオーディオサンプルデータおよびオーディオサンプルデータの基本周波数を出力として、初期ディープニューラルネットワークに対してトレーニングを行い、トレーニング後の初期ディープニューラルネットワークを音声合成モデルとして確定するステップは、トレーニングサンプルセットに基づいて、以下のトレーニングステップを実行するステップを含み、前記トレーニングステップは、トレーニングサンプルセットの中の少なくとも一つのトレーニングサンプルのテキストサンプル情報を、それぞれ、初期ディープニューラルネットワークに入力して、少なくとも一つのテキストサンプル情報の中のそれぞれのテキストサンプル情報に対応するオーディオデータおよびオーディオデータの基本周波数を得るステップと、少なくとも一つのテキストサンプル情報の中のそれぞれのテキストサンプル情報に対応するオーディオデータおよびオーディオデータの基本周波数を、該当するオーディオサンプルデータおよびオーディオサンプルデータの基本周波数と比較するステップと、比較結果に基づいて、初期ディープニューラルネットワークが所定の最適化目標に達したか否かを確定するステップと、初期ディープニューラルネットワークが最適化目標に達したと確定されたことに応答して、初期ディープニューラルネットワークを音声合成モデルとして確定するステップと、を含む。
幾らかの実施例において、トレーニングを行うことによって音声合成モデルを得るステップは、初期ディープニューラルネットワークが最適化目標に達していないと確定されたことに応答して、初期ディープニューラルネットワークのパラメータを調整し、そして、未使用のトレーニングサンプルを使用してトレーニングサンプルセットを構成して、調整後の初期ディープニューラルネットワークを初期ディープニューラルネットワークとして使用して、続いてトレーニングステップを実行するステップを含む。
第2の局面において、本願の実施例は、処理待ちテキスト情報を、取得するステップと、処理待ちテキスト情報を、上記の第1局面のいずれか一つの実現形態に記載の方法に従って生成された音声合成モデルに入力して、処理待ちテキスト情報に対応するオーディオデータを生成するステップを含む音声合成方法を提供する。
第3の局面において、本願の実施例は、音声合成モデルを生成するための装置を提供し、当該装置は、テキストサンプル情報とテキストサンプル情報に対応されるオーディオサンプルデータとオーディオサンプルデータの基本周波数とを含むトレーニングサンプルの、トレーニングサンプルセットを、取得するように配置されているトレーニングサンプルセット取得ユニットと、初期ディープニューラルネットワークを取得するように配置されているネットワーク取得ユニットと、機械学習方法を利用して、トレーニングサンプルセット中のトレーニングサンプルのテキストサンプル情報を入力とし、入力されたテキストサンプル情報に対応するオーディオサンプルデータおよびオーディオサンプルデータの基本周波数を出力として、初期ディープニューラルネットワークに対してトレーニングを行い、トレーニング後の初期ディープニューラルネットワークを音声合成モデルとして確定するように配置されているトレーニングユニットと、を備える。
幾らかの実施例において、トレーニングユニットは、さらに、トレーニングサンプルセットに基づいて、以下のトレーニングステップを実行するように配置されており、前記トレーニングステップは、トレーニングサンプルセットの中の少なくとも一つのトレーニングサンプルのテキストサンプル情報を、それぞれ、初期ディープニューラルネットワークに入力して、少なくとも一つのテキストサンプル情報の中のそれぞれのテキストサンプル情報に対応するオーディオデータおよびオーディオデータの基本周波数を得るステップと、少なくとも一つのテキストサンプル情報の中のそれぞれのテキストサンプル情報に対応するオーディオデータおよびオーディオデータの基本周波数を、対応するオーディオサンプルデータおよびオーディオサンプルデータの基本周波数と比較するステップと、比較結果に基づいて、初期ディープニューラルネットワークが所定の最適化目標に達したか否かを確定するステップと、初期ディープニューラルネットワークが最適化目標に達したと確定されたことに応答して、初期ディープニューラルネットワークを音声合成モデルとして確定するステップと、を含む。
幾らかの実施例において、トレーニングユニットは、さらに、初期ディープニューラルネットワークが最適化目標に達していないと確定されたことに応答して、初期ディープニューラルネットワークのパラメータを調整し、そして、未使用のトレーニングサンプルを使用してトレーニングサンプルセットを構成し、調整後の初期ディープニューラルネットワークを初期ディープニューラルネットワークとして使用して、続いてトレーニングステップを実行するステップを含む。
第4の局面において、本願の実施例は、処理待ちテキスト情報を、取得するように配置されている処理待ちテキスト情報取得ユニットと、処理待ちテキスト情報を、上記の第1の局面のいずれか一つの実現形態に記載の方法に従って生成された音声合成モデルに入力して、処理待ちテキスト情報に対応するオーディオデータを生成するように配置されている生成ユニットと、を備える音声合成装置を提供する。
第5の局面において、本願の実施例は、一つまたは複数のプロセッサと、一つまたは複数のプログラムが記憶されている記憶装置と、を備え、上記の一つまたは複数のプログラムが上記の一つまたは複数のプロセッサによって実行されると、上記の一つまたは複数のプロセッサが第1の局面のいずれか一つの実現形態に記載の方法を実現する電子機器を提供する。
第6の局面において、本願の実施例は、コンピュータプログラムが記憶されており、上記のプログラムがプロセッサによって実行されると、第1の局面のいずれか一つの実現形態に記載の方法が実現されるコンピュータ読み取り可能な媒体を提供する。
本願の実施例によって提供される音声合成モデルを生成するための方法、及び装置によると、まず、トレーニングサンプルセットを、取得する。ここで、トレーニングサンプルは、テキストサンプル情報と、テキストサンプル情報に対応するオーディオサンプルデータ及びオーディオサンプルデータの基本周波数と、を含む。その後、初期ディープニューラルネットワークを、取得する。最後に、機械学習方法を利用して、トレーニングサンプルセット中のトレーニングサンプルのテキストサンプル情報を入力とし、入力されたテキストサンプル情報に対応するオーディオサンプルデータおよびオーディオサンプルデータの基本周波数を出力として、初期ディープニューラルネットワークに対してトレーニングを行い、トレーニング後の初期ディープニューラルネットワークを音声合成モデルとして確定する。このようにして、生成された音声合成モデルより、基本周波数を入力することなく、テキスト情報に基づいて対応するオーディオデータを得ることができる。
以下の図面を参照してなされる非制限的な実施形態に対する詳細的な説明により、本発明の他の特徴、目の及び利点がより明らかになる。
本願を適用可能な例示的なシステムアーキテクチャ図である。 本願の音声合成モデルを生成する方法による一つの実施例のフローチャートである。 本願の音声合成モデルを生成するための方法による一つの応用シナリオの模式図である。 本願の音声合成モデルを生成するための方法による他の実施例のフローチャートである。 本願の音声合成モデルを生成するための装置による一つの実施例の構成模式図である。 本願実施例の電子機器を実現するのに適するコンピュータシステムの構成模式図である。
以下、図面を参照しながら実施例を併せて本発明をより詳しく説明する。ここで説明する具体的な実施例は、当該発明を説明するためのものに過ぎず、当該発明を限定するものではないことは理解される。なお、説明の便宜上、図面には発明に関連する部分のみを示す。
なお、矛盾のない限り、本願の実施例及び実施例における特徴を互いにに組み合せることができるものとする。以下、図面を参照しながら実施例を併せて本願を詳しく説明する。
図1は、本願実施例による音声合成モデルを生成するための方法または音声合成モデルを生成するための装置を適用可能な例示的なシステムアーキテクチャ100を示す。
図1に示すように、システムアーキテクチャ100は、端末機器101、102、103と、ネットワーク104と、サーバ105と、を含んでもよい。ネットワーク104は、端末機器101、102、103とサーバ105との間で通信リンクを提供するための媒介である。ネットワーク104は、例えば、有線通信リンク、無線通信リンク、光ファイバケーブルなど、様々な接続タイプを含んでもよい。
端末機器101、102、103は、ネットワーク104を介して、サーバ105とやりとりして、例えば、テキスト情報などをサーバ105に送信する。端末機器101、102、103には、例えば、録音アプリケーション、テキスト処理アプリケーション、オーディオ処理アプリケーションなど、様々なクライアントアプリケーションがインストールされていてもよい。
端末機器101、102、103は、ハードウェアであってもよく、ソフトウェアであってもよい。端末機器101、102、103は、ハードウェアである場合、記憶機能と送信機能を有する様々な電子機器であってもよく、電子機器は、スマートフォン、タブレット、電子ブックリーダー、ラップトップコンピュータ、デスクトップコンピュータなどを含むが、これらに限定されない。端末機器101、102、103は、ソフトウェアである場合、上記の例示された電子機器にインストールされてもよい。端末機器101、102、103は、複数のソフトウェア或いは複数のソフトウェアモジュールとして実現されても良く、一つのソフトウェア或いは一つのソフトウェアモジュールとして実現されてもよい。ここで具体的に限定しない。
サーバ105は、様々なサービスを提供するサーバ、例えば、端末機器101、102、103によって送信された情報を利用して音声合成モデルを生成するバックグラウンドサーバであってもよい。
なお、本願の実施例による音声合成モデルを生成するための方法は、サーバ105によって実行されても良い。この場合、音声合成モデルを生成する装置がサーバ105中に配置されてもよい。これに応じて、音声合成モデルを生成するための方法も、端末機器101、102、103によって実行されても良い。この場合、音声合成モデルを生成するための装置は、端末機器101、102、103中に配置され、例示的なシステムアーキテクチャ100にはサーバ105およびネットワーク104が存在しなくても良い。
なお、サーバは、ハードウェアであってもよく、ソフトウェアであってもよい。サーバは、ハードウェアである場合、複数のサーバからなる分散サーバー・クラスターとして実現されてもよく、一つのサーバとして実現されてもよい。サーバは、ソフトウェアである場合、複数のソフトウェア或いは複数のソフトウェアモジュール(例えば、分散型サービスを提供する)として実現されてもよく、一つのソフトウェア或いは一つのソフトウェアモジュールとして実現されてもよい。ここで具体的に限定しない。
図1の中の端末機器、ネットワーク、及びサーバの数は、模式的なものに過ぎないことは理解すべきである。実現の必要に応じて、任意の数の端末機器、ネットワーク、およびサーバを有してもよい。
続いて、図2を参考する。図2は、本願の音声合成モデルを生成するための方法による一つの実施例のプロセス200を示す。当該音声合成モデルを生成するための方法のプロセス200は、以下のステップ201〜ステップ203を含む。
ステップ201において、トレーニングサンプルセットを取得する。
本実施例において、音声合成モデルを生成するための方法の実行主体は、様々な手段によって、トレーニングサンプルセットを取得しても良い。トレーニングサンプルセットは、端末機器に予め記憶され、上記の実行主体が、有線接続或いは無線接続によって、端末機器から、トレーニングサンプルセットを、取得してもよい。これに応じて、トレーニングサンプルセットは上記の実行主体のローカルに記憶されてもよい。この場合、上記の実行主体は、ローカルから、トレーニングサンプルセットを直接に取得してもよい。
本実施例において、トレーニングサンプルセット中のトレーニングサンプルは、テキストサンプル情報と、テキストサンプル情報に対応するオーディオサンプルデータと、オーディオサンプルデータの基本周波数と、を含む。ここで、テキスト情報は、テキストおよび、テキストの言語的特徴を含んでもよい。テキスト情報は、具体的に、単語、フレーズ、音素、音節、文章の特徴(例えば、アクセント、単語内の音節の数、フレーズにおける音節の位置)、音素の時間長さの、少なくとも一つを含んでもよい。テキストサンプル情報は、トレーニングサンプルとして使用されるテキスト情報であってもよい。また、オーディオサンプルデータは、トレーニングサンプルとして使用されるオーディオデータであってもよい。オーディオサンプルデータの基本周波数は、オーディオサンプルデータの最低周波数であってもよい。なお、テキストサンプル情報に対応するオーディオサンプルデータは、朗読者がテキストサンプルを朗読し、録音して得えられたものでもよい。
本実施例において、例として、トレーニングサンプルセットには、既存のデータセットをそのまま使用してもよく、処理された(組み合わせ、追加と削除など)既存のデータセットを使用してもよい。なお、トレーニングサンプルセットは、大量のテキスト情報、および、それに対応するオーディオデータおよびオーディオデータの基本周波数に基づいて生成されてもよい。ここでは、トレーニングサンプルセットの生成方法は限定されない。
ステップ202において、初期ディープニューラルネットワークを取得する。
本実施例において、上記の実行主体は、端末機器或いはローカルから、初期ディープニューラルネットワークを、取得してもよい。なお、初期ディープニューラルネットワークは、トレーニングを行われていないディープニューラルネットワーク、或いは、トレーニングが完成していないディープニューラルネットワークであってもよい。ディープニューラルネットワークは、一般的に、大量のノード(ニューロンとも呼ばれる)同士が互いに接続して構成されており、それぞれのノードは、特定の出力関数を表し、励起関数と呼ばれる。それぞれ二つのノード同士の接続は、当該接続を通過する信号に対する一つの重み付値を表し、重み付けと呼ばれる。ネットワークの出力は、ネットワークの接続方法、重み付値、および励起関数によって異なる。
実践する際には、初期ディープニューラルネットワークとして、音声を合成するためのオープンソースのニューラルネットワークを選択してもよい。一例として、WaveNet、Deep Voice、Tacotronなどを選択してもよい。その中、WaveNetは、自己回帰のディープニューラルネットワークである。そのネットワーク構造には、拡張畳み込みニューラルネットワーク(dilated CNN)、残差ネットワーク、ゲート構造などが組み込まれている。なお、拡張畳み込みニューラルネットワークにより、畳み込みカーネルの受容野の増加を実現でき、より長い距離のコンテキスト情報を利用することができる。残差ネットワークは、前の入力を、ショートカット接続を介して、その後の出力に接続して、深層ネットワークの勾配消失の問題を解決することができる。ゲート構造は、LSTM(Long Short−Term Memory)モデルに利用され、入力情報に対して、効果的選択を行うことができる。したがって、WaveNetにより、入力されたテキスト特徴と基本周波数に基づく音声データの出力を実現できる。Deep Voice、Tacotronネットワークにも類似な構成が含まれている。
なお、これら音声を合成するためのオープンソースのニューラルネットワークに対して、実際の必要によって、その入力、出力、および、ネットワークの層数を、調整してもよい。例として、WaveNetに対して、その入力と出力を変更し、或いは、入力されたテキスト情報に基づいて基本周波数を得るための中間層を追加してもよい。同様に、Deep Voice、Tacotronなどのニューラルネットワークに対しても、必要によって調整してもよい。
ステップ203において、機械学習方法を利用して、トレーニングサンプルセット中のトレーニングサンプルのテキストサンプル情報を入力とし、入力されたテキストサンプル情報に対応するオーディオサンプルデータおよびオーディオサンプルデータの基本周波数を出力として、初期ディープニューラルネットワークに対してトレーニングを行い、トレーニング後の初期ディープニューラルネットワークを音声合成モデルとして確定する。
本実施例において、上記の実行主体は、トレーニングサンプルセット中のトレーニングサンプルのテキスト情報を入力とし、入力されたテキストサンプル情報に対応するオーディオサンプルデータおよびオーディオサンプルデータの基本周波数を出力として、様々な方法によって、初期ディープニューラルネットワークに対してトレーニングを行い、トレーニング後の初期ディープニューラルネットワークを音声合成モデルとして確定してもよい。ここで、トレーニング方法は、単一サンプルトレーニング方法、バッチサンプルトレーニング方法を含むが、これらに限定されない。
例として、上記の実行主体は、単一サンプルトレーニング方法によって、初期ディープニューラルネットワークに対してトレーニングを行い、トレーニング後の初期ディープニューラルネットワークを音声合成モデルとして確定しても良い。具体的には、以下のトレーニングステップを含む。
第一のステップにおいて、ステップ201で取得されたトレーニングサンプルセット中から、トレーニングサンプルを選択し、選択されたトレーニングサンプルに含まれたテキストサンプル情報を、上記のステップ202で取得された初期ディープニューラルネットワークに入力することで、入力されたテキストサンプル情報に対応するオーディオデータおよび当該オーディオデータの基本周波数を得る。
第二のステップにおいて、得られたオーディオデータと、対応するオーディオサンプルデータと、を比較することで、オーディオデータ損失値を得る。得られた当該オーディオデータの基本周波数と、対応するオーディオサンプルデータの基本周波数と、を比較することで、基本周波数損失値を得る。ここで、損失値は、所定の損失関数(loss function)に基づいて取得されても良い。実践する際には、損失関数は、一般的に、ニューラルネットワークの予測値(例えば、オーディオデータ)と実際の値(例えば、オーディオサンプルデータ)とのずれを推定するためのものであり、非負実数値関数である。一般的に、損失関数は、値が小さいほど、ニューラルネットワークのロバスト性は良好である。損失関数は、実際のニーズによって設定してもよく、ここでは限定しない。
第三のステップにおいて、得られたオーディオデータ損失値および基本周波数損失値を、ぞれぞれ目標オーディオデータ損失値および目標基本周波数損失値と比較する。その後、比較結果に基づいて、初期ディープニューラルネットワークに対するトレーニングが完成したか否かを確定する。例として、選択されたサンプルにおける目標基本周波数損失値に達したサンプルの割合を統計してもよい。当該割合が所定のサンプル割合(如95%)に達すると、初期ディープニューラルネットワークに対するトレーニングが完成と確定してもよい。
本実施例において、実行主体は、初期ディープニューラルネットワークに対するトレーニングが既に完成したと確定されると、続いて、第四のステップを実行してもよい。実行主体は、初期ディープニューラルネットワークに対するトレーニングが未完成と確定されると、初期ディープニューラルネットワークのパラメータを調整してもよい。例として、バックプロパゲーションアルゴリズムを利用して、初期ディープニューラルネットワークの重み付けを更新してもよい。その後、トレーニングサンプルセット中からトレーニングサンプルを選択して、続いて上記のトレーニングステップを実行してもよい。
第四のステップにおいて、初期ディープニューラルネットワークに対するトレーニングが完成と確定されたことに応答して、初期ディープニューラルネットワークを音声合成モデルとする一方、初期ディープニューラルネットワークに対するトレーニングが未完成と確定されたことに応答して、初期ディープニューラルネットワークの関連するパラメータを調整し、そして、調整後の初期ディープニューラルネットワークを初期ディープニューラルネットワークとして、トレーニングサンプルセット中からサンプルを再選択し、続いて、上記のトレーニングステップを実行する。
続いて、図3を参照する。図3は、本実施例の音声合成モデルを生成する方法による応用シナリオの一つの模式図である。図3の応用シナリオにおいて、サーバ301は、まず、携帯電話302からトレーニングサンプルセット303を取得してもよい。ここで、トレーニングサンプルセット303中のトレーニングサンプルは、テキストサンプル情報3031と、オーディオサンプルデータ3032と、オーディオサンプルデータの基本周波数3033と、を含んでもよい。その後、初期ディープニューラルネットワーク304を取得する。それから、テキストサンプル情報3031を初期ディープニューラルネットワーク304に入力することで、オーディオデータ3032’およびオーディオデータ基本周波数3033’を得る。得られたオーディオデータ3032’とオーディオサンプルデータ3032とを比較することで、オーディオデータ損失値305を得る。得られたオーディオデータ基本周波数3033’と、オーディオサンプルデータの基本周波数3033と、を比較することで、基本周波数損失値306を得る。得られたオーディオデータ損失値305および基本周波数損失値306を、それぞれ目標オーディオデータ損失値305’および目標基本周波数損失値306’と比較する。その後、比較結果に基づいて、初期ディープニューラルネットワークに対するトレーニングが完成したか否かを確定する。初期ディープニューラルネットワーク304に対するトレーニングが完成と確定されたことに応答して、初期ディープニューラルネットワーク304を音声合成モデル304’とする一方、初期ディープニューラルネットワーク304に対するトレーニングが未完成と確定されたことに応答して、初期ディープニューラルネットワーク304の関連するパラメータを調整し、そして、調整後の初期ディープニューラルネットワークを初期ディープニューラルネットワークとして、トレーニングサンプルセット中からサンプルを再選択し、続いて、上記のトレーニングステップを実行する。
本願の上記の実施例によって提供される方法によると、まず、トレーニングサンプルセットを取得する。ここで、トレーニングサンプルは、テキストサンプル情報と、テキストサンプル情報に対応するオーディオサンプルデータと、オーディオサンプルデータの基本周波数とを含む。その後、初期ディープニューラルネットワークを取得する。最後に、機械学習方法を利用して、トレーニングサンプルセット中のトレーニングサンプルのテキストサンプル情報を入力とし、入力されたテキストサンプル情報に対応するオーディオサンプルデータおよびオーディオサンプルデータの基本周波数を出力として、初期ディープニューラルネットワークに対してトレーニングを行うことによって、トレーニング後の初期ディープニューラルネットワークを音声合成モデルとして確定する。このように生成された音声合成モデルにより、テキスト情報に基づいて対応するオーディオデータを得ることができ、基本周波数を入力する必要がなくなる。
さらに、図4を参照する。図4は、音声合成モデルを生成する方法の他の実施例のプロセス400を示す。当該音声合成モデルを生成する方法のプロセス400は、以下のステップ401〜ステップ403を含む。
ステップ401において、トレーニングサンプルセットを取得する。
本実施例において、トレーニングサンプルは、テキストサンプル情報と、テキストサンプル情報に対応するオーディオサンプルデータと、オーディオサンプルデータの基本周波数とを含む。
ステップ402において、初期ディープニューラルネットワークを取得する。
上記のステップ401と402の具体的な処理およびその技術效果にいては、図2に対応する実施例のステップ201と202を参照することができ、ここでは繰り返し説明しない。
ステップ403において、トレーニングサンプルセットに基づいて、以下のトレーニングステップを実行する。
まず、トレーニングサンプルセットの中の少なくとも一つのトレーニングサンプルのテキストサンプル情報を、それぞれ、初期ディープニューラルネットワークに入力することによって、少なくとも一つのテキストサンプル情報の中のそれぞれのテキストサンプル情報に対応するオーディオデータおよびオーディオデータの基本周波数を得る。その後、少なくとも一つのテキストサンプル情報の中のそれぞれのテキストサンプル情報に対応するオーディオデータおよびオーディオデータの基本周波数を、対応するオーディオサンプルデータおよびオーディオサンプルデータの基本周波数と比較してもよい。比較結果に基づいて、初期ディープニューラルネットワークが所定の最適化目標に達したか否かを確定する。例として、最適化目標は、初期ディープニューラルネットワーク収束であってもよい。例として、最適化目標は、初期ディープニューラルネットワークの出力精度が所定の精度閾値よりも大きいことであってもよい。その中、出力のオーディオデータおよびオーディオデータの基本周波数と、対応するオーディオサンプルデータおよびオーディオサンプルデータの基本周波数と、の間の差分が、所定の差分閾値よりも小さくなると、出力したオーディオデータおよびオーディオデータの基本周波数が正確であると認められても良い。最後に、初期ディープニューラルネットワークが上記の最適化目標に達したと確定されたことに応答して、初期ディープニューラルネットワークを音声合成モデルとして確定する。
本実施例の幾らかのオプションとする実現形態において、トレーニングを行って音声合成モデルを得るステップ(上記のステップ403)は、初期ディープニューラルネットワークが最適化目標に達していないと確定されたことに応答して、初期ディープニューラルネットワークのパラメータを調整し、そして、未使用のトレーニングサンプルを使用してトレーニングサンプルセットを構成し、調整後の初期ディープニューラルネットワークを初期ディープニューラルネットワークとして使用して、続いてトレーニングステップを実行するステップをさらに含んでもよい。
図4から分かるように、本実施例においては、図2に対応する実施例と比較すると、毎回少なくとも一つのトレーニングサンプルを選択して、初期ディープニューラルネットワークに対してトレーニングを行う。即ち、バッチサンプルトレーニング方法を利用して、初期ディープニューラルネットワークに対してトレーニングを行う。このようにして、トレーニングのスピードを上げることができる。
さらに、図5を参考する。本願は、上記の各図面に示す方法の実現例として、音声合成モデルを生成する装置の一実施例を提供する。当該装置の実施例は図2に示す方法の実施例に対応するものである。当該装置は、具体的に様々な電子機器に適用することができる。
図5に示したように、本実施例の音声合成モデルを生成する装置500は、トレーニングサンプルセット取得ユニット501と、ネットワーク取得ユニット502と、トレーニングユニット503と、を備える。なお、トレーニングサンプルセット取得ユニット501は、テキストサンプル情報とテキストサンプル情報に対応するオーディオサンプルデータとオーディオサンプルデータの基本周波数とを含むトレーニングサンプルの、トレーニングサンプルセットを、取得するように配置されている。ネットワーク取得ユニット502は、初期ディープニューラルネットワークを取得するように配置されている。トレーニングユニット503は、機械学習方法を利用して、トレーニングサンプルセット中のトレーニングサンプルのテキストサンプル情報を入力とし、入力されたテキストサンプル情報に対応するオーディオサンプルデータおよびオーディオサンプルデータの基本周波数を出力として、初期ディープニューラルネットワークに対してトレーニングを行い、トレーニング後の初期ディープニューラルネットワークを音声合成モデルとして確定するように配置されている。
本実施例において、音声合成モデルを生成する装置500のトレーニングサンプルセット取得ユニット501とネットワーク取得ユニット502とトレーニングユニット503との具体的な処理及びこれらの技術效果については、図2に対応する実施例のステップ201〜203を参考することができ、ここでは繰り返し説明しない。
本実施例の幾らかのオプションとする実現形態において、トレーニングユニット503は、さらに、トレーニングサンプルセットに基づいて、以下のトレーニングステップを実行するように配置されても良い。前記トレーニングステップは、トレーニングサンプルセットの中の少なくとも一つのトレーニングサンプルのテキストサンプル情報を、それぞれ、初期ディープニューラルネットワークに入力して、少なくとも一つのテキストサンプル情報の中のそれぞれのテキストサンプル情報に対応するオーディオデータおよびオーディオデータの基本周波数を得るステップと、少なくとも一つのテキストサンプル情報の中のそれぞれのテキストサンプル情報に対応するオーディオデータおよびオーディオデータの基本周波数を、対応するオーディオサンプルデータおよびオーディオサンプルデータの基本周波数と比較するステップと、比較結果に基づいて、初期ディープニューラルネットワークが所定の最適化目標に達したか否かを確定するステップと、初期ディープニューラルネットワークが最適化目標に達したと確定したことに応答して、初期ディープニューラルネットワークを、音声合成モデルとして確定するステップと、を含む。
本実施例の幾らかのオプションとする実現形態において、トレーニングユニット503は、さらに、初期ディープニューラルネットワークが最適化目標に達していないと確定したことに応答して、初期ディープニューラルネットワークのパラメータを調整し、そして、未使用のトレーニングサンプルを使用してトレーニングサンプルセットを構成して、調整後の初期ディープニューラルネットワークを初期ディープニューラルネットワークとして使用して、続いてトレーニングステップを実行するように配置されてもよい。
本実施例において、トレーニングユニット503は、機械学習方法を利用して、トレーニングサンプルセット取得ユニット501によって取得されたトレーニングサンプルセット中のトレーニングサンプルのテキストサンプル情報を入力とし、入力されたテキストサンプル情報に対応するオーディオサンプルデータおよびオーディオサンプルデータの基本周波数を出力として、ネットワーク取得ユニット502によって取得された初期ディープニューラルネットワークに対してトレーニングを行い、トレーニング後の初期ディープニューラルネットワークを音声合成モデルとして確定する。このようにして、生成された音声合成モデルにより、基本周波数を入力することなく、テキスト情報に基づいて、対応するオーディオデータを得ることができる。
以下、図6を参考する。図6は、本願実施例の電子機器の実現に適するコンピュータシステム600の構成の模式図を示す。
図6に示すように、コンピュータシステム600は、読み出し専用メモリ(ROM)602に記憶されたプログラムまたは記憶部608からランダムアクセスメモリ(RAM)603のロードされたプログラムに基づいて、様々な適当な動作と処理を実行することができる中央処理装置(CPU)601を備える。RAM603には、システム600の操作に必要な様々なプログラムとデータがさらに記憶されている。CPU601、ROM602、及びRAM603は、バス604を介して相互に接続されている。入出力(I/O)インターフェース605も、バス604に接続されている。
I/Oインターフェース605には、キーボードやマウスなどを含む入力部606と、例えば陰極線管(CRT)や液晶ディスプレイ(LCD)およびスピーカーなどを含む出力部607と、ハードディスクなどを含む記憶部608と、例えばLANカードやモデムなどのネットワークインターフェースカードを含む通信部609とが接続されている。通信部609は、例えばインターネットのようなネットワークを介して、通信処理を実行する。ドライバ610も、必要に応じて、I/Oインターフェース605に接続されている。例えば、磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのような、取り外し可能な媒介611は、必要に従ってドライバ610に装着されることにより、当該ドライバ610から読みだされたコンピュータプログラムが必要に応じて記憶部608にインストールされるようになる。
特に、本発明の実施例によると、フローチャートを参照して上述されたプロセスは、コンピュータソフトウェアプログラムとして実現されてもよい。例えば、本発明の実施例は、コンピュータ読み取り可能な媒体にロードされ、フローチャートに示す方法を実行させるためのプログラムコードを含むコンピュータプログラムを有するコンピュータプログラム製品を含む。このような実施例において、当該コンピュータプログラムは、通信部609を介してネットワークから、ダウンロードしてインストールされ、及び/又は、取り外し可能な媒介611からインストールされてもよい。当該コンピュータプログラムが中央処理装置(CPU)601によって実行されると、本願の方法に限定される上記の機能が実行される。
なお、本願に記載されたコンピュータ読み取り可能な媒体は、コンピュータ読み取り可能な信号媒介、コンピュータ読み取り可能な記憶媒介、或いは、上記の両者の任意の組み合わせであってもよい。コンピュータ読み取り可能な記憶媒介は、例えば、電子、磁気、光学、電磁気、赤外線、半導体の、システム、装置、デバイス、或いはこれらの任意の組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能な記憶媒介の更なる具体的な例は、一つまたは複数のリード線を有する電気的接続、携帯型コンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラマブル読み出し専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、携帯型コンパクト磁気ディスク読み出し専用メモリ(CD−ROM)、光記憶デバイス、磁気記憶デバイス、または、上記の任意の適当な組み合わせを含んでもよいが、これらに限定されない。本願において、コンピュータ読み取り可能な記憶媒介は、プログラムを含むいかなる有形の媒介、または、プログラムを記憶するいかなる有形の媒介であってもよい。当該プログラムは、命令実行システム、装置、または、デバイスによって使用されてもよく、または、命令実行システム、装置、または、デバイスと結合して使用されてもよい。本願において、コンピュータ読み取り可能な信号媒介は、ベースバンドにおいて伝送され、或いは、キャリアの一部として伝送され、コンピュータ読み取り可能なプログラムコードが搭載されているデータ信号を含んでも良い。このように伝搬するデータ信号には、様々な形態を利用してもよく、電磁気信号、光信号、または、上記の任意の適当な組み合わせを含むが、これらに限定されない。コンピュータ読み取り可能な信号媒介は、コンピュータ読み取り可能な記憶媒介以外のいかなるコンピュータ読み取り可能な媒体であってもよい。当該コンピュータ読み取り可能な媒体は、命令実行システム、装置、または、デバイスに使用されるプログラム、または、命令実行システム、装置、または、デバイスと組み合わせて使用されるプログラムを、送信し、伝播し、または、伝送することができる。コンピュータ読み取り可能な媒体に含まれたプログラムコードは、無線、電線、光ケーブル、RF、または、上記の任意の適当な組み合わせを含む任意の適当な媒介で伝送されてもよいが、これらに限定されない。
一つまたは複数種のプログラム言語、または、それらの組み合わせで、本願の操作を実行するためのコンピュータプログラムコードをコーディングしてもよい。前記プログラム言語は、Java、Smalltalk、C++などのようなオブジェクト指向プログラム言語を含み、「C」言語または類似なプログラム言語のような通常の手続き型プログラム言語をさらに含む。プログラムコードは、全体がユーザコンピュータ上で実行されてもよく、一部がユーザコンピュータ上で実行されてもよく、一つの独立的なソフトウェアパッケージとして実行されてもよく、一部がユーザコンピュータ上で、もう一部がリモートコンピュータ上で実行されてもよく、全体がリモートコンピュータされてもよく、または、サーバ上で実行されてもよい。リモートコンピュータに関する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを介して、ユーザコンピュータに接続されてもよく、或いは、外部コンピュータに接続されてもよい(例えば、インターネットサービスプロバイダを使用してインターネットを介して接続される)。
図面のうち、フローチャートおよびブロック図は、本願の様々な実施例によるシステム、方法、及びコンピュータプログラム製品により実現可能なシステムアーキテクチャ、機能、及び操作を示す。これに関して、フローチャートまたはブロック図における各ブロックは、一つのモジュール、プログラムセグメント、または、コードの一部を表してもよい。当該モジュール、プログラムセグメント、または、コードの一部は、一つまたは複数の所定のロジック機能を実現するための実行可能な命令を含む。ちなみに、幾つかの置き換えとする実現において、ブロックに示される機能は、図面に示される順序と異なって行われてもよい。例えば、連続して示された二つのブロックは、実際には基本的に並行して実行されてもよいし、場合によって逆の順序で実行されてもよく、これは関連する機能に応じて決まれる。ちなみに、ブロック図及び/又はフローチャート内の各ブロック、および、ブロック図及び/又はフローチャート内のブロックの組み合わせは、所定の機能または操作を実行させる専用のハードウェアによるシステムで実現されてもよいし、或いは、専用のハードウェアとコンピュータ命令との組み合わせで実現されてもよい。
本願の実施例に記載された関連するユニットは、ソフトウェアの手段によって実現されてもよく、ハードウェアの手段によって実現されてもよい。記載されたユニットは、プロセッサに設置されてもよい。例えば、「トレーニングサンプルセット取得ユニットとネットワーク取得ユニットとトレーニングユニットとを含むプロセッサ」と記載してもよい。ここで、これらユニットの名称は、ある場合には当該ユニット自身を限定するものではない。例えば、トレーニングサンプルセット取得ユニットは、「トレーニングサンプルセットを取得するユニット」として記載されてもよい。
他の局面として、本願は、コンピュータ読み取り可能な媒体をさらに提供する。当該コンピュータ読み取り可能な媒体は、上記の実施例に記載された装置に含まれたものであってもよく、当該装置に実装されておらず、単独に存在するものであってもよい。上記のコンピュータ読み取り可能な媒体には、一つまたは複数のプログラムが搭載されており、上記の一つまたは複数のプログラムが当該装置によって実行されると、当該装置が、テキストサンプル情報とテキストサンプル情報に対応するオーディオサンプルデータとオーディオサンプルデータの基本周波数とを含むトレーニングサンプルの、トレーニングサンプルセットを取得し、初期ディープニューラルネットワークを取得し、機械学習方法を利用して、トレーニングサンプルセット中のトレーニングサンプルのテキストサンプル情報を入力とし、入力されたテキストサンプル情報に対応するオーディオサンプルデータおよびオーディオサンプルデータの基本周波数を出力として、初期ディープニューラルネットワークに対してトレーニングを行い、トレーニング後の初期ディープニューラルネットワークを音声合成モデルとして確定するように実行する。
上記の記載は、本願の好ましい実施例および適用される技術原理の説明に過ぎない。当業者は、本願に関する発明範囲が、上記の技術特徴の特定の組み合わせからなる技術案に限定されず、上記の発明の趣旨を逸脱しない範囲で上記の技術特徴またはその同等な特徴による任意の組み合わせからなる他の技術案も含まれることを理解すべきである。例えば、上記の特徴と本願に開示された類似な機能(当該機能に限定されない)を有する技術特徴とを互いに置き換えてなる技術案も含まれる。

Claims (10)

  1. 音声合成モデルを生成するための方法であって、
    テキストサンプル情報と、テキストサンプル情報に対応するオーディオサンプルデータ及びオーディオサンプルデータの基本周波数とを含むトレーニングサンプルの、トレーニングサンプルセットを、取得するステップと、
    初期ディープニューラルネットワークを、取得するステップと、
    機械学習方法を利用して、前記トレーニングサンプルセット中のトレーニングサンプルのテキストサンプル情報を入力とし、入力されたテキストサンプル情報に対応するオーディオサンプルデータおよびオーディオサンプルデータの基本周波数を出力として、前記初期ディープニューラルネットワークに対してトレーニングを行い、トレーニング後の前記初期ディープニューラルネットワークを音声合成モデルとして確定するステップと、
    を含む方法。
  2. 機械学習方法を利用して、前記トレーニングサンプルセット中のトレーニングサンプルのテキストサンプル情報を入力とし、入力されたテキストサンプル情報に対応するオーディオサンプルデータおよびオーディオサンプルデータの基本周波数を出力として、前記初期ディープニューラルネットワークに対してトレーニングを行い、トレーニング後の前記初期ディープニューラルネットワークを音声合成モデルとして確定するステップは、
    トレーニングサンプルセットに基づいて、以下のトレーニングステップを実行するステップを含み、
    前記トレーニングステップは、
    トレーニングサンプルセットの中の少なくとも一つのトレーニングサンプルのテキストサンプル情報を、それぞれ、初期ディープニューラルネットワークに入力して、前記少なくとも一つのテキストサンプル情報の中のそれぞれのテキストサンプル情報に対応するオーディオデータおよびオーディオデータの基本周波数を得るステップと、
    前記少なくとも一つのテキストサンプル情報の中のそれぞれのテキストサンプル情報に対応するオーディオデータおよびオーディオデータの基本周波数を、対応するオーディオサンプルデータおよびオーディオサンプルデータの基本周波数と比較するステップと、
    比較結果に基づいて、初期ディープニューラルネットワークが所定の最適化目標に達したか否かを確定するステップと、
    初期ディープニューラルネットワークが最適化目標に達したと確定されたことに応答して、初期ディープニューラルネットワークを音声合成モデルとして確定するステップと、
    を含む請求項1に記載の方法。
  3. トレーニングを行って音声合成モデルを得るステップは、
    初期ディープニューラルネットワークが最適化目標に達していないと確定されたことに応答して、初期ディープニューラルネットワークのパラメータを調整し、未使用のトレーニングサンプルを使用してトレーニングサンプルセットを構成し、調整後の初期ディープニューラルネットワークを初期ディープニューラルネットワークとして使用して、続いて前記トレーニングステップを実行するステップ、
    をさらに含む請求項2に記載の方法。
  4. 処理待ちテキスト情報を取得するステップと、
    前記処理待ちテキスト情報を、請求項1〜3の中のいずれか1項に記載の方法に従って生成された音声合成モデルに入力して、前記処理待ちテキスト情報に対応するオーディオデータを生成するステップと、
    を含む音声合成方法。
  5. 音声合成モデルを生成するための装置であって、
    テキストサンプル情報とテキストサンプル情報に対応するオーディオサンプルデータ及びオーディオサンプルデータの基本周波数とを含むトレーニングサンプルの、トレーニングサンプルセットを、取得するように配置されているトレーニングサンプルセット取得ユニットと、
    初期ディープニューラルネットワークを取得するように配置されているネットワーク取得ユニットと、
    機械学習方法を利用して、前記トレーニングサンプルセット中のトレーニングサンプルのテキストサンプル情報を入力とし、入力されたテキストサンプル情報に対応するオーディオサンプルデータおよびオーディオサンプルデータの基本周波数を出力として、前記初期ディープニューラルネットワークに対してトレーニングを行い、トレーニング後の前記初期ディープニューラルネットワークを音声合成モデルとして確定するように配置されているトレーニングユニットと、
    を備える装置。
  6. 前記トレーニングユニットは、さらに、トレーニングサンプルセットに基づいて、以下のトレーニングステップを実行するように配置されており、
    前記トレーニングステップは、
    トレーニングサンプルセットの中の少なくとも一つのトレーニングサンプルのテキストサンプル情報を、それぞれ、初期ディープニューラルネットワークに入力して、前記少なくとも一つのテキストサンプル情報の中のそれぞれのテキストサンプル情報に対応するオーディオデータおよびオーディオデータの基本周波数を得るステップと、
    前記少なくとも一つのテキストサンプル情報の中のそれぞれのテキストサンプル情報に対応するオーディオデータおよびオーディオデータの基本周波数を、対応するオーディオサンプルデータおよびオーディオサンプルデータの基本周波数と比較するステップと、
    比較結果に基づいて、初期ディープニューラルネットワークが所定の最適化目標に達したか否かを確定するステップと、
    初期ディープニューラルネットワークが最適化目標に達したと確定されたことに応答して、初期ディープニューラルネットワークを音声合成モデルとして確定するステップと、
    を含む請求項5に記載の装置。
  7. 前記トレーニングユニットは、さらに、
    初期ディープニューラルネットワークが最適化目標に達していないと確定されたことに応答して、初期ディープニューラルネットワークのパラメータを調整し、かつ、未使用のトレーニングサンプルを使用してトレーニングサンプルセットを構成して、調整後の初期ディープニューラルネットワークを初期ディープニューラルネットワークとして使用して、続いて前記トレーニングステップを実行するように配置されている請求項6に記載の装置。
  8. 処理待ちテキスト情報を取得するように配置されている処理待ちテキスト情報取得ユニットと、
    前記処理待ちテキスト情報を、請求項1〜3のいずれか一項に記載の方法に従って生成された音声合成モデルに入力して、前記処理待ちテキスト情報に対応するオーディオデータを生成するように配置されている生成ユニットと、
    を備える音声合成装置。
  9. 一つまたは複数のプロセッサと、
    一つまたは複数のプログラムが記憶されている記憶装置と、を備え、
    前記一つまたは複数のプログラムが前記一つまたは複数のプロセッサによって実行されると、前記一つまたは複数のプロセッサが、請求項1〜3のいずれか一項に記載の方法を実現する電子機器。
  10. コンピュータプログラムが記憶されており、前記プログラムがプロセッサによって実行されると、請求項1〜3のいずれか一項に記載の方法が実現されるコンピュータ読み取り可能な媒体。
JP2018247790A 2018-05-18 2018-12-28 音声合成モデルを生成するための方法、及び装置 Active JP6803365B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810478000.0A CN108630190B (zh) 2018-05-18 2018-05-18 用于生成语音合成模型的方法和装置
CN201810478000.0 2018-05-18

Publications (2)

Publication Number Publication Date
JP2019200408A true JP2019200408A (ja) 2019-11-21
JP6803365B2 JP6803365B2 (ja) 2020-12-23

Family

ID=63693772

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018247790A Active JP6803365B2 (ja) 2018-05-18 2018-12-28 音声合成モデルを生成するための方法、及び装置

Country Status (3)

Country Link
US (1) US11017762B2 (ja)
JP (1) JP6803365B2 (ja)
CN (1) CN108630190B (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112802452A (zh) * 2020-12-21 2021-05-14 出门问问(武汉)信息科技有限公司 垃圾指令识别方法及装置
CN113450760A (zh) * 2021-06-07 2021-09-28 北京一起教育科技有限责任公司 一种文本转语音的方法、装置及电子设备
CN113555009A (zh) * 2020-04-21 2021-10-26 京东数字科技控股有限公司 用于训练模型的方法和装置
JP2022133408A (ja) * 2021-08-09 2022-09-13 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 音声変換方法、システム、電子機器、読取可能な記憶媒体及びコンピュータプログラム

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109616093B (zh) * 2018-12-05 2024-02-27 平安科技(深圳)有限公司 端对端语音合成方法、装置、设备及存储介质
CN109584858A (zh) * 2019-01-08 2019-04-05 武汉西山艺创文化有限公司 一种基于ai人工智能的虚拟配音方法及其装置
CN109637525B (zh) * 2019-01-25 2020-06-09 百度在线网络技术(北京)有限公司 用于生成车载声学模型的方法和装置
CN109873779B (zh) * 2019-01-30 2021-05-11 浙江工业大学 一种基于lstm的分级式无线信号调制类型识别方法
CN111768761B (zh) * 2019-03-14 2024-03-01 京东科技控股股份有限公司 一种语音识别模型的训练方法和装置
CN110033755A (zh) * 2019-04-23 2019-07-19 平安科技(深圳)有限公司 语音合成方法、装置、计算机设备及存储介质
CN110135583B (zh) * 2019-05-23 2020-08-21 北京地平线机器人技术研发有限公司 标注信息的生成方法、标注信息的生成装置和电子设备
CN109979429A (zh) * 2019-05-29 2019-07-05 南京硅基智能科技有限公司 一种tts的方法及系统
CN111508466A (zh) * 2019-09-12 2020-08-07 马上消费金融股份有限公司 一种文本处理方法、装置、设备及计算机可读存储介质
CN110853616A (zh) * 2019-10-22 2020-02-28 武汉水象电子科技有限公司 一种基于神经网络的语音合成方法、系统与存储介质
CN112802443B (zh) * 2019-11-14 2024-04-02 腾讯科技(深圳)有限公司 语音合成方法及装置、电子设备和计算机可读存储介质
SG10201912562SA (en) * 2019-12-18 2021-07-29 Yitu Pte Ltd A training method, a readable storage medium and a voice cloning method for a voice cloning model
CN111079053A (zh) * 2019-12-19 2020-04-28 北京安兔兔科技有限公司 一种产品信息展示方法、装置、电子设备及存储介质
CN111133506A (zh) * 2019-12-23 2020-05-08 深圳市优必选科技股份有限公司 语音合成模型的训练方法、装置、计算机设备及存储介质
CN111143514B (zh) * 2019-12-27 2023-03-21 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN111179905A (zh) * 2020-01-10 2020-05-19 北京中科深智科技有限公司 一种快速配音生成方法及装置
CN111583903B (zh) * 2020-04-28 2021-11-05 北京字节跳动网络技术有限公司 语音合成方法、声码器训练方法、装置、介质及电子设备
CN111627428B (zh) * 2020-05-15 2023-11-14 北京青牛技术股份有限公司 构建压缩的语音识别模型的方法
CN111767953B (zh) 2020-06-30 2021-11-26 北京字节跳动网络技术有限公司 用于训练物品编码模型的方法和装置
CN111816168A (zh) * 2020-07-21 2020-10-23 腾讯科技(深圳)有限公司 一种模型训练的方法、语音播放的方法、装置及存储介质
CN112037760B (zh) * 2020-08-24 2022-01-07 北京百度网讯科技有限公司 语音频谱生成模型的训练方法、装置及电子设备
CN112116906B (zh) * 2020-08-27 2024-03-22 山东浪潮科学研究院有限公司 一种基于gan网络的现场混音方法、装置、设备及介质
CN112069293B (zh) * 2020-09-14 2024-04-19 上海明略人工智能(集团)有限公司 一种数据标注方法、装置、电子设备和计算机可读介质
CN112215294A (zh) * 2020-10-20 2021-01-12 深圳地平线机器人科技有限公司 数据样本的采集方法、装置、介质及电子设备
CN112652293A (zh) * 2020-12-24 2021-04-13 上海优扬新媒信息技术有限公司 语音合成模型训练及语音合成方法、装置及语音合成器
EP4310835A1 (en) * 2021-03-16 2024-01-24 Samsung Electronics Co., Ltd. Electronic device and personalized text-to-speech model generation method by electronic device
CN113192522B (zh) * 2021-04-22 2023-02-21 北京达佳互联信息技术有限公司 音频合成模型生成方法及装置、音频合成方法及装置
CN113327594B (zh) * 2021-06-11 2022-08-16 北京世纪好未来教育科技有限公司 语音识别模型训练方法、装置、设备及存储介质
CN113408664B (zh) * 2021-07-20 2024-04-16 北京百度网讯科技有限公司 训练方法、分类方法、装置、电子设备以及存储介质
CN113571047B (zh) * 2021-07-20 2024-07-23 杭州海康威视数字技术股份有限公司 一种音频数据的处理方法、装置及设备
CN113642727B (zh) * 2021-08-06 2024-05-28 北京百度网讯科技有限公司 神经网络模型的训练方法和多媒体信息的处理方法、装置
CN113488057B (zh) * 2021-08-18 2023-11-14 山东新一代信息产业技术研究院有限公司 面向康养的对话实现方法及系统
CN114969340B (zh) * 2022-05-30 2023-09-22 中电金信软件有限公司 一种对深度神经网络进行剪枝的方法及装置
CN118298835A (zh) * 2024-03-14 2024-07-05 天津大学 一种适用于目标建筑空间的抗混响语音信号的获取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150186359A1 (en) * 2013-12-30 2015-07-02 Google Inc. Multilingual prosody generation
JP2017032839A (ja) * 2015-08-04 2017-02-09 日本電信電話株式会社 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
US20170345411A1 (en) * 2016-05-26 2017-11-30 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
JP2018013721A (ja) * 2016-07-22 2018-01-25 国立研究開発法人情報通信研究機構 音声合成パラメータ生成装置及びそのためのコンピュータプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1224531B1 (de) * 1999-10-28 2004-12-15 Siemens Aktiengesellschaft Verfahren zum bestimmen des zeitlichen verlaufs einer grundfrequenz einer zu synthetisierenden sprachausgabe
GB2508411B (en) * 2012-11-30 2015-10-28 Toshiba Res Europ Ltd Speech synthesis
GB2524505B (en) * 2014-03-24 2017-11-08 Toshiba Res Europe Ltd Voice conversion
CN106297765B (zh) * 2015-06-04 2019-10-18 科大讯飞股份有限公司 语音合成方法及系统
CN104934028B (zh) * 2015-06-17 2017-11-17 百度在线网络技术(北京)有限公司 用于语音合成的深度神经网络模型的训练方法及装置
CN105118498B (zh) * 2015-09-06 2018-07-31 百度在线网络技术(北京)有限公司 语音合成模型的训练方法及装置
US10249289B2 (en) * 2017-03-14 2019-04-02 Google Llc Text-to-speech synthesis using an autoencoder
WO2018213565A2 (en) * 2017-05-18 2018-11-22 Telepathy Labs, Inc. Artificial intelligence-based text-to-speech system and method
CN107564511B (zh) * 2017-09-25 2018-09-11 平安科技(深圳)有限公司 电子装置、语音合成方法和计算机可读存储介质
CN107452369B (zh) * 2017-09-28 2021-03-19 百度在线网络技术(北京)有限公司 语音合成模型生成方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150186359A1 (en) * 2013-12-30 2015-07-02 Google Inc. Multilingual prosody generation
JP2017032839A (ja) * 2015-08-04 2017-02-09 日本電信電話株式会社 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
US20170345411A1 (en) * 2016-05-26 2017-11-30 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
JP2018013721A (ja) * 2016-07-22 2018-01-25 国立研究開発法人情報通信研究機構 音声合成パラメータ生成装置及びそのためのコンピュータプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113555009A (zh) * 2020-04-21 2021-10-26 京东数字科技控股有限公司 用于训练模型的方法和装置
CN112802452A (zh) * 2020-12-21 2021-05-14 出门问问(武汉)信息科技有限公司 垃圾指令识别方法及装置
CN113450760A (zh) * 2021-06-07 2021-09-28 北京一起教育科技有限责任公司 一种文本转语音的方法、装置及电子设备
JP2022133408A (ja) * 2021-08-09 2022-09-13 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 音声変換方法、システム、電子機器、読取可能な記憶媒体及びコンピュータプログラム

Also Published As

Publication number Publication date
US11017762B2 (en) 2021-05-25
US20190355344A1 (en) 2019-11-21
CN108630190B (zh) 2019-12-10
JP6803365B2 (ja) 2020-12-23
CN108630190A (zh) 2018-10-09

Similar Documents

Publication Publication Date Title
JP6803365B2 (ja) 音声合成モデルを生成するための方法、及び装置
US11869530B2 (en) Generating audio using neural networks
US10553201B2 (en) Method and apparatus for speech synthesis
JP6828001B2 (ja) 音声ウェイクアップ方法及び装置
US10388284B2 (en) Speech recognition apparatus and method
JP7066349B2 (ja) 翻訳方法、翻訳装置及びコンピュータプログラム
JP7208952B2 (ja) 対話モデルを生成するための方法及び装置
US11205417B2 (en) Apparatus and method for inspecting speech recognition
US11842728B2 (en) Training neural networks to predict acoustic sequences using observed prosody info
JP2020170200A (ja) エンドツーエンドのテキスト音声変換
US11282498B2 (en) Speech synthesis method and speech synthesis apparatus
US11355097B2 (en) Sample-efficient adaptive text-to-speech
CN112786007A (zh) 语音合成方法、装置、可读介质及电子设备
US11942077B2 (en) Electronic device and operating method thereof
CN111681661B (zh) 语音识别的方法、装置、电子设备和计算机可读介质
KR20210028041A (ko) 전자 장치 및 그 제어 방법
WO2022072936A2 (en) Text-to-speech using duration prediction
CN118230716A (zh) 深度学习模型的训练方法、语音合成方法、装置
KR102663654B1 (ko) 적응형 시각적 스피치 인식
KR20230096450A (ko) 캘리브레이션 보정을 이용하여 e2e 음성 인식 모델을 생성하는 음성 인식 모델 생성 방법 및 장치
CN115116426A (zh) 语音生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190124

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200212

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200602

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200930

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20200930

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20201008

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20201013

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201130

R150 Certificate of patent or registration of utility model

Ref document number: 6803365

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250