JP2019211747A - 音声接続合成の処理方法及び装置、コンピュータ設備及び読取り可能な媒体 - Google Patents

音声接続合成の処理方法及び装置、コンピュータ設備及び読取り可能な媒体 Download PDF

Info

Publication number
JP2019211747A
JP2019211747A JP2018239323A JP2018239323A JP2019211747A JP 2019211747 A JP2019211747 A JP 2019211747A JP 2018239323 A JP2018239323 A JP 2018239323A JP 2018239323 A JP2018239323 A JP 2018239323A JP 2019211747 A JP2019211747 A JP 2019211747A
Authority
JP
Japan
Prior art keywords
speech
synthesis
voice
library
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018239323A
Other languages
English (en)
Other versions
JP6786751B2 (ja
Inventor
サン、シャオフイ
Xiaohui Sun
グ、ユ
Yu GU
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Publication of JP2019211747A publication Critical patent/JP2019211747A/ja
Application granted granted Critical
Publication of JP6786751B2 publication Critical patent/JP6786751B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Abstract

【課題】大規模なコーパスを録音させずに、音声ライブラリにおいて選択可能な音声素片を多くすることにより、音声合成の効果の連続性及び自然度を向上させる。【解決手段】予めに訓練された音声合成モデル及び取得された合成テキストに基づいて、合成テキストに対応する合成音声を合成する。合成テキスト及び対応する合成音声を合成コーパスとして、音声ライブラリを更新することにより音声ライブラリを拡張し、拡張された音声ライブラリを利用して音声接続合成処理を行う。拡張する前の音声ライブラリには人工的に採集された原始コーパスを含む。音声ライブラリに対して拡張を行うことにより、音声ライブラリに十分なコーパスを含ませることができ、このようにして、拡張された音声ライブラリに基づいて音声接続処理を行うことにより、選択可能な音声素片が多くなり、音声合成の効果の連続性及び自然度が向上する。【選択図】図1

Description

本発明は、コンピュータ応用技術分野に関するものであり、特に音声接続合成の処理方法及び装置、コンピュータ設備及び読取り可能な媒体に関するものである。
音声合成は、ヒューマンコンピュータインタラクションの1つの重要な構成部分であり、常用な合成技術は、統計的なモデリングに基づくパラメータ合成及びセル選別に基づく接続合成という2つの種類がある。自然音声素片を採用するので、接続合成技術の音質が比較的に良いので、現在、商業合成システムは主に接続合成方法を採用する。一般的に使用される商業接続合成システムは、多くの場合に数万の音声を録音する必要があり、データ量が10時間以上の規模に達し、且つ、いずれのテキストに関しても許容な合成効果を保証できるように、データのチェック及びマーク等に多くの人手が必要である。
スター音合成や個性的な合成というシーンについては、多くの場合に、多量の音を採集することができない。スター録音のコストが比較的に高いので、大規模なコーパスを録音させることは現実ではなく、一方、個性的なシーンの場合、製品を使用する前に利用者に数万の音声を録音させることも現実ではない。しかし、これらのシーンは、大きなビジネス価値があり、スター音合成が、製品への関心及び製品の普及を効果的に向上させることができ、個性的な合成が、家人や自分の声を使用することで、ユーザの参与感や新鮮感を向上させ、ユーザ体験を効果的に向上させる。従来のスター音合成及び個性的な合成のシーンにおいて、音声ライブラリから少量のコーパスだけを採集でき、音声接続の時、音声ライブラリにおいて選択可能な音声素片があまり少ないので、音声合成の効果は連続性が低く、自然度が悪いので、接続された音声は殆ど正常に使用できない。
本発明は、音声合成の効果の連続性及び自然度を向上させるための音声接続合成の処理方法及び装置、コンピュータ設備及び読取り可能な媒体を提供する。
本発明に関する音声接続合成の処理方法であって、
予めに訓練された音声合成モデル及び取得された合成テキストに基づいて、音声ライブラリを拡張すること、
拡張された上記音声ライブラリを利用して音声接続合成処理を行うこと、を含み、
但し、拡張する前の上記音声ライブラリには人工的に採集された原始コーパスを含む。
更に好ましくは、上記音声接続合成の処理において、予めに訓練された音声合成モデル及び取得された合成テキストに基づいて、音声ライブラリを拡張することは、具体的に、
上記音声合成モデル及び取得された上記合成テキストを利用して、上記合成テキストに対応する合成音声を合成すること、
上記合成テキスト及び対応する上記合成音声を合成コーパスとして、上記音声ライブラリを更新すること、を含む。
更に好ましくは、上記音声接続合成の処理方法において、予めに訓練された音声合成モデル及び取得された合成テキストに基づいて、音声ライブラリを拡張する前、上記音声接続合成の処理方法は、
拡張する前の上記音声ライブラリにおける人工的に採集された上記原始コーパスに基づいて、上記音声合成モデルを訓練することを含む。
更に好ましくは、上記音声接続合成の処理方法において、上記原始コーパスには原始テキスト及び対応する原始音声を含み、
音声ライブラリにおける人工的に採集された原始コーパスに基づいて、音声合成モデルを訓練することは、具体的に、
上記原始テキスト及び対応する上記原始音声に基づいて、上記音声合成モデルを訓練することを含む。
更に好ましくは、上記音声接続合成の処理方法において、予めに訓練された音声合成モデル及び取得された合成テキストに基づいて、音声ライブラリを拡張する前、上記音声接続合成の処理方法は、
ネットワークから上記合成テキストを抽出することを含む。
更に好ましくは、上記音声接続合成の処理方法において、上記音声合成モデルとしてWaveNetモデルを採用する。
本発明に関する音声接続合成の処理装置であって、
予めに訓練された音声合成モデル及び取得された合成テキストに基づいて、音声ライブラリを拡張するための拡張モジュールと、
拡張された上記音声ライブラリを利用して音声接続合成処理を行うための処理モジュールと、を含み、
ただし、拡張する前の上記音声ライブラリには人工的に採集された原始コーパスを含む。
更に好ましくは、上記音声接続合成の処理装置において、上記拡張モジュールは、具体的に
上記音声合成モデル及び取得された上記合成テキストを利用して、上記合成テキストに対応する合成音声を合成し、
上記合成テキスト及び対応する上記合成音声を合成コーパスとして、上記音声ライブラリを更新するために用いられる。
更に好ましくは、上記音声接続合成の処理装置において、更に
拡張する前の上記音声ライブラリにおける人工的に採集された上記原始コーパスに基づいて、上記音声合成モデルを訓練するための訓練モジュールを含む。
更に好ましくは、上記音声接続合成の処理装置において、上記原始コーパスには原始テキスト及び対応する原始音声を含み、
上記訓練モジュールは、具体的に、上記原始テキスト及び対応する上記原始音声に基づいて、上記音声合成モデルを訓練するために用いられる。
更に好ましくは、上記音声接続合成の処理装置において、更に
ネットワークから上記合成テキストを抽出するための抽出モジュールを含む。
更に好ましくは、上記音声接続合成の処理装置において、上記音声合成モデルとしてWaveNetモデルを採用する。
本発明に関するコンピュータ設備であって、
1つ或いは複数のプロセッサと、
1つ或いは複数のプログラムが記憶されているメモリと、を含み、
上記1つ或いは複数のプログラムが上記1つ或いは複数のプロセッサによって実行される時、上記1つ或いは複数のプロセッサに上記音声接続合成の処理方法を実現させる。
本発明に関するコンピュータプログラムが記憶されているコンピュータ読取り可能な媒体であって、該コンピュータプログラムがプロセッサによって実行される時、上記音声接続合成の処理方法を実現する。
本発明の音声接続合成の処理方法及び装置、コンピュータ設備及び読取り可能な媒体は、予めに訓練された音声合成モデル及び取得された合成テキストに基づいて、音声ライブラリを拡張し、拡張された音声ライブラリを利用して音声接続合成処理を行い、ただし、拡張する前の音声ライブラリには人工的に採集された原始コーパスを含む。本発明の技術案によれば、音声ライブラリに十分なコーパスを含ませるように音声ライブラリに対して拡張を行い、このように拡張された音声ライブラリに基づいて音声接続処理を行う時、選択可能な音声素片が多くなり、音声合成の効果の連続性及び自然度を向上させることができ、且つ、音声合成の効果は連続性が非常に高く自然度もよいので、ユーザの正常な使用を満足することができる。
本発明の音声接続合成の処理方法の実施例1のフローチャートである。 本発明の音声接続合成の処理方法の実施例2のフローチャートである。 本発明の音声接続合成の処理装置の実施例1の構成図である。 本発明の音声接続合成の処理装置の実施例2の構成図である。 本発明のコンピュータ設備の実施例の構成図である。 本発明に提供されたコンピュータ設備の例の図である。
本発明の目的、技術案及び利点をより明確で簡潔させるために、以下、図面及び具体的な実施例を結合して本発明を詳細的に説明する。
図1は、本発明の音声接続合成の処理方法の実施例1のフローチャートである。図1に示すように、本実施例の音声接続合成の処理方法は、具体的に、以下のようなステップを含むことができる。
100、予めに訓練された音声合成モデル及び取得された合成テキストに基づいて、音声ライブラリを拡張する。但し、拡張する前の音声ライブラリには人工的に採集された原始コーパスを含む。
101、拡張された音声ライブラリを利用して音声接続合成処理を行う。
本実施例の音声接続合成の処理方法の実行本体が、音声接続合成の処理装置であり、該装置は、音声接続技術の要求を満足するように、音声接続合成時に必要な音声ライブラリに対して拡張処理を行い、音声ライブラリに十分なコーパスを含ませることで、拡張された上記音声ライブラリを利用して音声接続合成処理を行うことができる。
本実施例において、予めに訓練された音声合成モデル及び取得された合成テキストに基づいて音声ライブラリを拡張して、拡張された音声ライブラリに、人工的に採集された原始コーパスだけでなく、音声合成モデル及び取得された合成テキストに基づいて合成された合成コーパスも含ませる。このようにして、拡張された音声ライブラリに含まれているコーパスの内容が十分に豊富になり、後続に拡張された音声ライブラリを利用して音声接続合成処理を行うことができる。拡張された音声ライブラリにおけるコーパスが十分であるので、拡張された音声ライブラリを利用して音声接続合成処理を行う時、音声合成の効果は連続性が非常に高く、自然度もよくなり、正常な使用を満足することができる。
本実施例の音声接続合成の処理方法は、予めに訓練された音声合成モデル及び取得された合成テキストに基づいて音声ライブラリを拡張し、拡張された音声ライブラリを利用して音声接続合成処理を行い、但し、拡張する前の音声ライブラリに人工的に採集された原始コーパスを含む。本実施例の技術案によれば、音声ライブラリに対して拡張を行うことで音声ライブラリに十分なコーパスを含ませ、このようにして、拡張された音声ライブラリに基づいて音声接続処理を行う時、選択可能な音声素片が多くなっており、音声合成の効果の連続性及び自然度を向上させることができ、且つ、音声合成の効果は連続性が非常に高く自然度がよいので、ユーザの正常な使用を満足することができる。
図2は、本発明の音声接続合成の処理方法の実施例2のフローチャートである。図2に示すように、本実施例の音声接続合成の処理方法は、上記図1に示す実施例の技術案を基礎に、更に詳細に本発明の技術案を紹介する。図2に示すように、本実施例の音声接続合成の処理方法は、具体的に、以下のようなステップを含むことができる。
200、拡張する前の音声ライブラリにおける、人工的に採集された原始コーパスに基づいて音声合成モデルを訓練する。
201、ネットワークから合成テキストを抽出する。
202、音声合成モデル及び取得された合成テキストを利用して、該合成テキストに対応する合成音声を合成する。
203、合成テキスト及び対応する合成音声を合成コーパスとして音声ライブラリを更新する。
該ステップ202及びステップ203は、上記図1に示す実施例のステップ100の1つの具体的な実現方式である。
204、拡張された音声ライブラリを利用して音声接続合成処理を行う。
具体的に、本実施例において、まず、人工的に一部の原始コーパスを採集し、例えば、原始コーパスは原始テキスト及び対応する原始音声を含むことができる。本実施例の原始コーパスは、作業者によって人工的に採集されたものである。例えば、スター音合成のシーンにおいて、該原始コーパスにおける原始音声は、スターが提供された原始テキストに基づいて録音した音声である。個性的な合成のシーンにおいて、該原始コーパスは、ユーザ自分又は家人又は友達が提供された原始テキストに基づいて録音した音声である。特に、スターが原始音声を録音する過程における人工コストは比較的に高く、且つ時間及び労力が必要であるので、本実施例において、原始コーパスを採集する時、少ないデータ量だけを採集すればよく、例えば1時間だけの原始音声を採集すればよい。該原始コーパスにおける原始音声は、既に対応する音声発声者の音色等の特徴を含んでいる。本実施例において、音声ライブラリにおける人工的に採集された原始コーパスに基づいて、音声合成モデルを訓練して、該音声合成モデルによって合成された音声に原始コーパスの音声と同じ音色等の特徴を具備させ、このようにして、原始音声と該音声合成モデルによって合成された合成音声とが、同一のユーザから発出されたように聞こえる。
例えば、本実施例の音声合成モデルは、WaveNetモデルを採用することができる。該WaveNetモデルは、DeepMindチームによって2016年に提出された波形モデリング能力を有するモデルであり、提出されてから、該WaveNetモデルは、産業界及び学界において広く注目されている。
本実施例において、音声ライブラリにおける人工的に採集された原始コーパスに基づいて、音声合成モデルを訓練することは、具体的に原始テキスト及び対応する原始音声に基づいて音声合成モデルを訓練することである。例えば、まず原始コーパスから複数の訓練データを抽出することができ、ただし、訓練データ毎に、原始音声における1段の音声素片及び原始テキストにおける対応する1段のテキスト素片を含む。訓練する前は、該WaveNetモデルのパラメータに対して初期値を設定する。訓練の時、各訓練データのテキスト素片を該WaveNetモデルに入力し、WaveNetモデルは入力されたテキスト素片に基づいて合成後の音声素片を出力し、そして、該音声素片と訓練データの音声素片との交差エントロピーを計算し、次に勾配低下方法を採用してWaveNetモデルのパラメータを調整して、該交差エントロピーを1つの極小値に到達させ、即ちWaveNetモデルによって合成された音声素片と訓練データの音声素片とが十分に近接していることを表す。上記方式に従って、複数の訓練データを利用して絶えずWaveNetモデルに対して訓練を行って、WaveNetモデルのパラメータを確定することで、WaveNetモデルを確定し、WaveNetモデルの訓練が終了する。
上記実施例の方式によれば、WaveNetモデルに基づく音声合成モデルを取得した後、次に、該音声合成モデルに基づいて、合成コーパスを生成して音声ライブラリを拡張することができる。具体的に、まず合成テキストを取得する。具体的に、応用分野を結合して合成テキストを取得することができ、例えば、該音声接続合成は航空分野に用いられる場合に、ネットワークから航空分野における大量のテキストを合成テキストとして取得することができる。例えば、該音声接続合成は人工知能分野に用いられる場合に、ネットワークから人工知能分野における大量のテキストを合成テキストとして取得することができる。例えば、該音声接続合成は教育分野に用いられる場合に、ネットワークから教育分野における大量のテキストを合成テキストとして取得することができる。分野毎に、ネットワークから相関テーマのテキストを合成テキストとして取得することができる。そして、取得された合成テキストを訓練した音声合成モデルに入力し、該音声合成モデルは対応する合成音声を合成することができる。該合成音声は原始コーパスにおける原始音声と同じ音色等の特徴を有し、同じ人の声に聞こえる。最後に、合成テキスト及び対応する合成音声を合成コーパスとして音声ライブラリを更新することができる。本実施例の合成テキストは、1つの完全なテキストであってもよく、複数のテキストであってもよい。また、本実施例において、合成された合成音声の量は原始音声の量より大幅に大きく、例えば、原始音声が1時間だけの量であれば、合成された合成音声が20時間だけの音声量、ひいてはより多い音声量に到達することができ、このようにして、更新された音声ライブラリを利用して音声接続合成処理を行う場合、より多い音声接続合成の要求を満足することができ、音声接続の合成効果は連続性がよりよく、自然度もよくなるので、より多い実際応用の需求を満足することができる。
上記記載に基づいて、本実施例の音声接続合成の処理方法は、WaveNetモデルに基づく音声合成モデルのオフライン合成能力を利用したものであり、まず少ないデータ量(例えば1時間だけの録音データ)を利用して1つWaveNetモデルに基づく音声合成モデルを構築し、そして、該音声合成モデルを使用して20時間だけで、テキストの被覆率が広い大規模なコーパスを合成することができる。特に、本実施例において、合成音声応用の具体的なシーンに関して、該分野の出現頻度が高いコーパスを相応に増加することもできる。最後に、WaveNetモデルに基づく音声合成モデルによって合成されたこの20時間だけの規模のコーパスを使用して、接続合成システムを構築することができ、WaveNetモデルに基づく音声合成モデルによって合成された音声の音質が比較的に高いので、人工的に採集された音声と同じ音質に到達することができ、且つ音声ライブラリ規模を20時間だけのレベルまでに拡張したので、音声接続合成時に十分な選択待ち要素を保証することで、音声接続合成の効果は連続性がよく、自然度もよくすることを保証することができる。
本実施例の音声接続合成の処理方法は、伝統的な少量のコーパスだけを採集した音声ライブラリと比べて、少量データの場合に、合成結果の音質及び流暢さを大幅に向上させることができる。スター音声ライブラリを作成する時、スター録音のデータ量を減少してコストを低減することができ、個性的な音声ライブラリを作成する時、ユーザによって提供された少量なデータを使用して高忠実度な音を合成して、ユーザ体験を改善することができる。
本実施例の音声接続合成の処理方法は、既存な商業合成システム(例えば各会社の音声合成システム)の、少ないデータ量の場合の合成効果を迅速に更新することができる。将来、演算能力の向上及びWaveNetモデルの最適化に従って、ある時点で、該WaveNetモデルを直接にオンラインさせることもできる。
本実施例の音声接続合成の処理方法は、WaveNetのモデリング能力を十分に利用することができ、WaveNetを直接的に使用する時の高計算コスト、高遅延、低リアルタイムの問題も効率的に避けることができ、少ないデータ量の場合にオンライン合成効果を大幅に向上させることができる。
図3は、本発明の音声接続合成の処理装置の実施例1の構成図である。図3に示すように、本実施例の音声接続合成の処理装置は、具体的に、
予めに訓練された音声合成モデル及び取得された合成テキストに基づいて、音声ライブラリを拡張するための拡張モジュール10と、
拡張モジュール10によって拡張された音声ライブラリを利用して音声接続合成処理を行うための処理モジュール11と、を含むことができ、
但し、拡張する前の音声ライブラリには人工的に採集された原始コーパスを含む。
本実施例の音声接続合成の処理装置は、上記モジュールを採用することで音声接続合成処理を実現する原理及び技術効果が上記相関方法の実施例の実現との同じであり、詳細は上記相関方法の実施例の記載を参照することができ、ここで贅言しない。
図4は、本発明の音声接続合成の処理装置の実施例2の構成図である。図4に示すように、本実施例の音声接続合成の処理装置は、上記図3に示す実施例の技術案を基礎に、更に詳細に本発明の技術案を紹介する。
本実施例の音声接続合成の処理装置において、拡張モジュール10は、具体的に、
音声合成モデル及び取得された合成テキストを利用して、該合成テキストに対応する合成音声を合成すること、
合成テキスト及び対応する合成音声を合成コーパスとして音声ライブラリを更新することのために用いられる。
更に好ましくは、図4に示すように、本実施例の音声接続合成の処理装置において、
拡張する前の音声ライブラリにおける、人工的に採集された原始コーパスに基づいて、音声合成モデルを訓練するための訓練モジュール12を更に含む。
更に好ましくは、該原始コーパスには原始テキスト及び対応する原始音声を含むことができ、
訓練モジュール12は、具体的に、原始テキスト及び対応する原始音声に基づいて、音声合成モデルを訓練するために用いられる。
相応に、拡張モジュール10は、訓練モジュール12によって予めに訓練された音声合成モデル及び取得された合成テキストに基づいて、音声ライブラリを拡張するために用いられる。
更に好ましくは、図4に示すように、本実施例の音声接続合成の処理装置において、ネットワークから合成テキストを抽出するための抽出モジュール13を更に含む。
相応に、拡張モジュール10は、訓練モジュール12によって予めに訓練された音声合成モデル及び抽出モジュール13によって取得された合成テキストに基づいて、音声ライブラリを拡張するために用いられる。
更に好ましくは、本実施例の音声接続合成の処理装置において、音声合成モデルとしてWaveNetモデルを採用する。
本実施例の音声接続合成の処理装置は、上記モジュールを採用することで音声接続合成処理を実現する原理及び技術効果が上記相関方法の実施例の実現と同じであり、詳細は上記相関方法の実施例の記載を参照することができ、ここで贅言しない。
図5は、本発明のコンピュータ設備の実施例の構成図である。図5に示すように、本実施例のコンピュータ設備は、1つ或いは複数のプロセッサ30、及びメモリ40を含み、メモリ40が、1つ或いは複数のプログラムを記憶するためのものであり、メモリ40に記憶された1つ或いは複数のプログラムが1つ或いは複数のプロセッサ30によって実行される時、1つ或いは複数のプロセッサ30に上記図1〜図2に示す実施例の音声接続合成の処理方法を実現させる。図5に示す実施例において複数のプロセッサ30を含むことを例とする。
例えば、図6は、本発明に提供されたコンピュータ設備の例の図である。図6は、本発明の実施形態を実現するために適応する、例示的なコンピュータ設備12aのブロック図を示す。図6に示すコンピュータ設備12aは、1つの例だけであり、本発明の実施例の機能及び使用範囲を制限するものではない。
図6に示すように、コンピュータ設備12aは、汎用演算設備の形態で表現される。コンピュータ設備12aの構成要素には、1つ又は複数のプロセッサ16aと、システムメモリ28aと、異なるシステム構成要素(システムメモリ28aとプロセッサ16aとを含む)を接続するためのバス18aを含んでいるが、これに限定されない。
バス18aは、複数種類のバス構成の中の1つ又は複数の種類を示し、メモリバス又はメモリコントローラ、周辺バス、グラフィック加速ポート、プロセッサ又は複数種類のバス構成でのいずれかのバス構成を使用したローカルバスを含む。例えば、それらの架構には、工業標準架構(ISA)バス、マイクロチャンネル架構(MAC)バス、増強型ISAバス、ビデオ電子規格協会(VESA)ローカルバス及び周辺コンポーネント接続(PCI)バスを含んでいるが、これに限定されない。
コンピュータ設備12aは、典型的には複数のコンピュータシステム読取り可能な媒体を含む。それらの媒体は、コンピュータ設備12aにアクセスされて使用可能な任意な媒体であり、揮発性な媒体と不揮発性な媒体や移動可能な媒体と移動不可な媒体を含む。
システムメモリ28aは、揮発性なメモリ形態のコンピュータシステム読取り可能な媒体、例えばランダムアクセスメモリ(RAM)30a及び/又はキャッシュメモリ32aを含むことができる。コンピュータ設備12aには、更に他の移動可能/移動不可なコンピュータシステム記憶媒体や揮発性/不揮発性のコンピュータシステム記憶媒体を含むことができる。例として、ストレジ34aは、移動不可能な不揮発性磁媒体を読み書くために用いられる(図6に示していないが、常に「ハードディスクドライブ」とも呼ばれる)。図6に示していないが、移動可能な不揮発性磁気ディスク(例えば「フレキシブルディスク」)に対して読み書きを行うための磁気ディスクドライブ、及び移動可能な不揮発性光ディスク(例えばCD−ROM、DVD−ROM又は他の光媒体)に対して読み書きを行うための光ディスクドライブを提供できる。このような場合に、各ドライブは、それぞれ1つ又は複数のデータ媒体インターフェースによってバス18aに接続される。システムメモリ28aには少なくとも1つのプログラム製品を含み、該プログラム製品は1組の(例えば少なくとも1つの)プログラムモジュールを含み、それらのプログラムモジュールは、本発明の図1〜図4の各実施例の機能を実行するように配置される。
1組の(少なくとも1つの)プログラムモジュール42aを含むプログラム/実用ツール40aは、例えばシステムメモリ28aに記憶され、このようなプログラムモジュール42aは、オペレーティングシステム、1つの又は複数のアプリケーションプログラム、他のプログラムモジュール及びプログラムデータを含んでいるが、これに限定しておらず、それらの例示での1つ又はある組み合にはネットワーク環境の実現を含む可能性がある。プログラムモジュール42aは、常に本発明に記載されている上記図1〜4の各実施例における機能及び/或いは方法を実行する。
コンピュータ設備12aは、1つ又は複数の周辺設備14a(例えばキーボード、ポインティングデバイス、ディスプレイ24a等)と通信を行ってもよく、コンピュータ設備12aは、1つ又は複数のユーザと該コンピュータ設備12aとのインタラクティブを実現することができる設備と通信を行ってもよく、及び/又は該コンピュータ設備12aと1つ又は複数の他の演算設備との通信を実現することができるいずれかの設備(例えばネットワークカード、モデム等)と通信を行っても良い。このような通信は入力/出力(I/O)インターフェース22aによって行うことができる。そして、コンピュータ設備12aは、ネットワークアダプタ20aによって、1つ又は複数のネットワーク(例えばローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)及び/又は公衆回線網、例えばインターネット)と通信を行っても良い。図に示すように、ネットワークアダプタ20aは、バス18aによってコンピュータ設備12aの他のモジュールと通信を行う。当然のことながら、図に示していないが、コンピュータ設備12aと連携して他のハードウェア及び/又はソフトウェアモジュールを使用することができ、マイクロコード、設備ドライブ、冗長処理手段、外部磁気ディスクドライブアレイ、RAIDシステム、磁気テープドライブ及びデータバックアップストレジ等を含むが、これに限定されない。
プロセッサ16aは、メモリ28aに記憶されているプログラムを実行することで、様々な機能応用及びデータ処理、例えば本発明に記載されている実施例における音声接続合成の処理方法を実現する。
本発明は、コンピュータプログラムが記憶されているコンピュータ読取り可能な記憶媒体であって、当該プログラムがプロセッサによって実行される時、上記実施例に示すような音声接続合成の処理方法を実現するものを提供する。
本実施例のコンピュータ読み取り可能な媒体は、上記図6に示す実施例におけるシステムメモリ28aにおけるRAM30a、及び/或いはキャッシュメモリ32a、及び/或いはストレジ34aを含むことができる。
科学技術の発展に従い、コンピュータプログラムの伝送方式も、有形な媒体に限らず、ネットワーク等から直接ダウンロードすることもでき、或いは他の方式を採用して取得することもできる。従って、本実施例におけるコンピュータ読み取り可能な媒体は、有形な媒体だけでなく、無形な媒体を含んでもよい。
本実施例のコンピュータ読み取り可能な媒体は、1つ又は複数のコンピュータ読み取り可能な媒体の任意な組合を採用しても良い。コンピュータ読み取り可能な媒体は、コンピュータ読み取り可能な信号媒体又はコンピュータ読み取り可能な記憶媒体である。コンピュータ読み取り可能な記憶媒体は、例えば、電気、磁気、光、電磁気、赤外線、又は半導体のシステム、装置又はデバイス、或いは上記ものの任意な組合であるが、これに限定されない。コンピュータ読み取り可能な記憶媒体の更なる具体的な例(網羅していないリスト)には、1つ又は複数のワイヤを具備する電気的な接続、携帯式コンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュ)、光ファイバー、携帯式コンパクト磁気ディスクリードオンリーメモリ(CD−ROM)、光メモリ部材、磁気メモリ部材、又は上記ものの任意で適当な組合を含む。本願において、コンピュータ読み取り可能な記憶媒体は、プログラムを含む又は記憶する任意な有形な媒体であり、該プログラムは、命令実行システム、装置又はデバイスに使用される又はそれらと連携して使用されるができる。
コンピュータ読み取り可能な信号媒体には、ベースバンドにおいて伝搬されるデータ信号或いはキャリアの一部として伝搬されるデータ信号を含み、それにコンピュータ読み取り可能なプログラムコードが載っている。このような伝搬されるデータ信号について、複数種類の形態を採用でき、電磁気信号、光信号又はそれらの任意で適当な組合を含んでいるが、これに限定されない。コンピュータ読み取り可能な信号媒体は、コンピュータ読み取り可能な記憶媒体以外の任意なコンピュータ読み取り可能な媒体であってもよく、該コンピュータ読み取り可能な媒体は、命令実行システム、装置又はデバイスによって使用される又はそれと連携して使用されるプログラムを送信、伝搬又は伝送できる。
コンピュータ読み取り可能な媒体に記憶されたプログラムコードは、任意で適正な媒体によって伝送されてもよく、無線、電線、光ケーブル、RF等、又は上記ものの任意で適当な組合が含まれているが、これに限定されない。
1つ又は複数のプログラミング言語又はそれらの組合で、本発明の操作を実行するためのコンピュータプログラムコードを編集することができ、上記プログラミング言語は、オブジェクト向けのプログラミング言語、例えばJava(登録商標)、Smalltalk、C++が含まれ、通常のプロシージャ向けプログラミング言語、例えば「C」言語又は類似しているプログラミング言語も含まれる。プログラムコードは、完全的にユーザコンピュータに実行されてもよく、部分的にユーザコンピュータに実行されてもよく、1つの独立のソフトウェアパッケージとして実行されてもよく、部分的にユーザコンピュータに実行され且つ部分的に遠隔コンピュータに実行されてもよく、又は完全的に遠隔コンピュータ又はサーバに実行されてもよい。遠隔コンピュータに係る場合に、遠隔コンピュータは、ローカルエリアネットワーク(LAN)又は広域ネットワーク(WAN)を含む任意の種類のネットワークを介して、ユーザコンピュータ又は外部コンピュータに接続できる(例えば、インターネットサービス事業者を利用してインターネットを介して接続できる)。
本発明に開示されたいくつの実施例で開示された装置および方法などが、他の手段によって実現できることを理解すべきである。例えば、上述の装置に関する実施形態は例示だけであり、例えば、上記手段の区分がロジック機能上の区分だけであり、実際に実現する時、他の区分方式がある。
上記の分離部品として説明された手段が、物理的に分離されてもよく、物理的に分離されなくてもよく、手段として表される部品が、物理手段でもよく、物理手段でなくてもよく、1つの箇所に位置してもよく、又は複数のネットワークセルに分布されても良い。実際必要に基づいて、その中の一部又は全部を選択して、本実施例の態様の目的を実現することができる。
また、本発明の各実施例における各機能手段が1つの処理手段に集積されてもよく、各手段が物理的に独立に存在してもよく、2つ又は2つ以上の手段が1つの手段に集積されても良い。上記集積された手段は、ハードウェアの形式で実現してもよく、ハードウェア+ソフトウェア機能手段の形式で実現しても良い。
上記ソフトウェア機能手段の形式で実現する集積された手段は、1つのコンピュータ読み取り可能な記憶媒体に記憶されることができる。上記ソフトウェア機能手段は1つの記憶媒体に記憶されており、1台のコンピュータ設備(パソコン、サーバ、又はネットワーク設備等)又はプロセッサ(processor)に本発明の各実施例に記載された方法の一部の手順を実行させるための若干の命令を含む。前述の記憶媒体は、USBメモリ、モバイルハードディスク、リードオンリーメモリ(ROM,Read−Only Memory)、ランダムアクセスメモリ(RAM,Random Access Memory)、磁気ディスク又は光ディスク等のプログラムコードを記憶できる媒体を含む。
以上の説明は、本発明の好ましい例示だけであり、本発明を限定するものではなく、本発明の主旨及び原則の範囲で実現する任意な修正、等価置換、改良なども、いずれも本発明の保護する範囲に属すべきである。

Claims (14)

  1. 音声接続合成の処理方法であって、
    予めに訓練された音声合成モデル及び取得された合成テキストに基づいて、音声ライブラリを拡張すること、
    拡張された前記音声ライブラリを利用して音声接続合成処理を行うこと、を含み、
    但し、拡張する前の前記音声ライブラリには人工的に採集された原始コーパスを含む
    音声接続合成の処理方法。
  2. 予めに訓練された音声合成モデル及び取得された合成テキストに基づいて、音声ライブラリを拡張することは、具体的に、
    前記音声合成モデル及び取得された前記合成テキストを利用して、前記合成テキストに対応する合成音声を合成すること、
    前記合成テキスト及び対応する前記合成音声を合成コーパスとして、前記音声ライブラリを更新すること、を含む
    請求項1に記載の音声接続合成の処理方法。
  3. 予めに訓練された音声合成モデル及び取得された合成テキストに基づいて、音声ライブラリを拡張する前、前記音声接続合成の処理方法は、
    拡張する前の前記音声ライブラリにおける人工的に採集された前記原始コーパスに基づいて、前記音声合成モデルを訓練することを含む
    請求項1または2に記載の音声接続合成の処理方法。
  4. 前記原始コーパスには原始テキスト及び対応する原始音声を含み、
    音声ライブラリにおける人工的に採集された原始コーパスに基づいて、音声合成モデルを訓練することは、具体的に、
    前記原始テキスト及び対応する前記原始音声に基づいて、前記音声合成モデルを訓練することを含む
    請求項3に記載の音声接続合成の処理方法。
  5. 予めに訓練された音声合成モデル及び取得された合成テキストに基づいて、音声ライブラリを拡張する前、前記音声接続合成の処理方法は、
    ネットワークから前記合成テキストを抽出することを含む
    請求項1〜4のいずれか1項に記載の音声接続合成の処理方法。
  6. 前記音声合成モデルとしてWaveNetモデルを採用する
    請求項1〜5のいずれか1項に記載の音声接続合成の処理方法。
  7. 音声接続合成の処理装置であって、
    予めに訓練された音声合成モデル及び取得された合成テキストに基づいて、音声ライブラリを拡張するための拡張モジュールと、
    拡張された前記音声ライブラリを利用して音声接続合成処理を行うための処理モジュールと、を含み、
    ただし、拡張する前の前記音声ライブラリには人工的に採集された原始コーパスを含む
    音声接続合成の処理装置。
  8. 前記拡張モジュールは、具体的に
    前記音声合成モデル及び取得された前記合成テキストを利用して、前記合成テキストに対応する合成音声を合成し、
    前記合成テキスト及び対応する前記合成音声を合成コーパスとして、前記音声ライブラリを更新するために用いられる
    請求項7に記載の音声接続合成の処理装置。
  9. 前記音声接続合成の処理装置は、更に
    拡張する前の前記音声ライブラリにおける人工的に採集された前記原始コーパスに基づいて、前記音声合成モデルを訓練するための訓練モジュールを含む
    請求項7または8に記載の音声接続合成の処理装置。
  10. 前記原始コーパスには原始テキスト及び対応する原始音声を含み、
    前記訓練モジュールは、具体的に、前記原始テキスト及び対応する前記原始音声に基づいて、前記音声合成モデルを訓練するために用いられる
    請求項9に記載の音声接続合成の処理装置。
  11. 前記音声接続合成の処理装置は、更に
    ネットワークから前記合成テキストを抽出するための抽出モジュールを含む
    請求項7〜10のいずれか1項に記載の音声接続合成の処理装置。
  12. 前記音声合成モデルとしてWaveNetモデルを採用する
    請求項7〜11のいずれか1項に記載の音声接続合成の処理装置。
  13. コンピュータ設備であって、
    1つ或いは複数のプロセッサと、
    1つ或いは複数のプログラムが記憶されているメモリと、を含み、
    前記1つ或いは複数のプログラムが前記1つ或いは複数のプロセッサによって実行される時、前記1つ或いは複数のプロセッサに請求項1〜6のいずれか1項に記載の音声接続合成の処理方法を実現させる
    コンピュータ設備。
  14. プロセッサによって実行される時、請求項1〜6のいずれか1項に記載の音声接続合成の処理方法を実現する
    コンピュータプログラム。
JP2018239323A 2018-05-31 2018-12-21 音声接続合成の処理方法及び装置、コンピュータ設備及びコンピュータプログラム Active JP6786751B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810552365.3A CN108877765A (zh) 2018-05-31 2018-05-31 语音拼接合成的处理方法及装置、计算机设备及可读介质
CN201810552365.3 2018-05-31

Publications (2)

Publication Number Publication Date
JP2019211747A true JP2019211747A (ja) 2019-12-12
JP6786751B2 JP6786751B2 (ja) 2020-11-18

Family

ID=64335626

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018239323A Active JP6786751B2 (ja) 2018-05-31 2018-12-21 音声接続合成の処理方法及び装置、コンピュータ設備及びコンピュータプログラム

Country Status (3)

Country Link
US (1) US10803851B2 (ja)
JP (1) JP6786751B2 (ja)
CN (1) CN108877765A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111862933A (zh) * 2020-07-20 2020-10-30 北京字节跳动网络技术有限公司 用于生成合成语音的方法、装置、设备和介质
JP7393585B2 (ja) 2020-07-09 2023-12-06 グーグル エルエルシー テキスト読み上げのためのWaveNetの自己トレーニング

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180197438A1 (en) * 2017-01-10 2018-07-12 International Business Machines Corporation System for enhancing speech performance via pattern detection and learning
CN108877765A (zh) * 2018-05-31 2018-11-23 百度在线网络技术(北京)有限公司 语音拼接合成的处理方法及装置、计算机设备及可读介质
CN111369966A (zh) * 2018-12-06 2020-07-03 阿里巴巴集团控股有限公司 一种用于个性化语音合成的方法和装置
CN109448694A (zh) * 2018-12-27 2019-03-08 苏州思必驰信息科技有限公司 一种快速合成tts语音的方法及装置
CN110162176B (zh) * 2019-05-20 2022-04-26 北京百度网讯科技有限公司 语音指令的挖掘方法和装置终端、计算机可读介质
CN112242134A (zh) * 2019-07-01 2021-01-19 北京邮电大学 语音合成方法及装置
CN110390928B (zh) * 2019-08-07 2022-01-11 广州多益网络股份有限公司 一种自动拓增语料的语音合成模型训练方法和系统
KR20210042696A (ko) * 2019-10-10 2021-04-20 삼성전자주식회사 모델 학습 방법 및 장치
CN112634860B (zh) * 2020-12-29 2022-05-03 思必驰科技股份有限公司 儿童语音识别模型训练语料筛选方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005292433A (ja) * 2004-03-31 2005-10-20 Toshiba Corp 音声合成装置、音声合成方法および音声合成プログラム
JP2008545995A (ja) * 2005-03-28 2008-12-18 レサック テクノロジーズ、インコーポレーテッド ハイブリッド音声合成装置、方法および用途
JP2010237323A (ja) * 2009-03-30 2010-10-21 Toshiba Corp 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法
JP2015052748A (ja) * 2013-09-09 2015-03-19 株式会社日立超エル・エス・アイ・システムズ 音声データベース生成システム、音声データベース生成方法、及びプログラム
CN106297766A (zh) * 2015-06-04 2017-01-04 科大讯飞股份有限公司 语音合成方法及系统
CN107393556A (zh) * 2017-07-17 2017-11-24 京东方科技集团股份有限公司 一种实现音频处理的方法及装置

Family Cites Families (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7082396B1 (en) * 1999-04-30 2006-07-25 At&T Corp Methods and apparatus for rapid acoustic unit selection from a large speech corpus
US6865533B2 (en) * 2000-04-21 2005-03-08 Lessac Technology Inc. Text to speech
JP4680429B2 (ja) * 2001-06-26 2011-05-11 Okiセミコンダクタ株式会社 テキスト音声変換装置における高速読上げ制御方法
JP2003058181A (ja) * 2001-08-14 2003-02-28 Oki Electric Ind Co Ltd 音声合成装置
US20040030555A1 (en) * 2002-08-12 2004-02-12 Oregon Health & Science University System and method for concatenating acoustic contours for speech synthesis
US7280967B2 (en) * 2003-07-30 2007-10-09 International Business Machines Corporation Method for detecting misaligned phonetic units for a concatenative text-to-speech voice
US7430503B1 (en) * 2004-08-24 2008-09-30 The United States Of America As Represented By The Director, National Security Agency Method of combining corpora to achieve consistency in phonetic labeling
US7475016B2 (en) * 2004-12-15 2009-01-06 International Business Machines Corporation Speech segment clustering and ranking
CN1889170B (zh) * 2005-06-28 2010-06-09 纽昂斯通讯公司 基于录制的语音模板生成合成语音的方法和系统
JP2007024960A (ja) * 2005-07-12 2007-02-01 Internatl Business Mach Corp <Ibm> システム、プログラムおよび制御方法
CN101350195B (zh) * 2007-07-19 2012-08-22 财团法人工业技术研究院 语音合成器产生系统与方法
WO2011025532A1 (en) * 2009-08-24 2011-03-03 NovaSpeech, LLC System and method for speech synthesis using frequency splicing
CN102117614B (zh) * 2010-01-05 2013-01-02 索尼爱立信移动通讯有限公司 个性化文本语音合成和个性化语音特征提取
JPWO2011118207A1 (ja) * 2010-03-25 2013-07-04 日本電気株式会社 音声合成装置、音声合成方法および音声合成プログラム
JP5758713B2 (ja) * 2011-06-22 2015-08-05 株式会社日立製作所 音声合成装置、ナビゲーション装置および音声合成方法
CN104142909B (zh) * 2014-05-07 2016-04-27 腾讯科技(深圳)有限公司 一种汉字注音方法及装置
US9679554B1 (en) * 2014-06-23 2017-06-13 Amazon Technologies, Inc. Text-to-speech corpus development system
US10186251B1 (en) * 2015-08-06 2019-01-22 Oben, Inc. Voice conversion using deep neural network with intermediate voice training
CN105304080B (zh) * 2015-09-22 2019-09-03 科大讯飞股份有限公司 语音合成装置及方法
US9697820B2 (en) * 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
CN105206258B (zh) * 2015-10-19 2018-05-04 百度在线网络技术(北京)有限公司 声学模型的生成方法和装置及语音合成方法和装置
CN105185372B (zh) * 2015-10-20 2017-03-22 百度在线网络技术(北京)有限公司 个性化多声学模型的训练方法、语音合成方法及装置
US10147416B2 (en) * 2015-12-09 2018-12-04 Amazon Technologies, Inc. Text-to-speech processing systems and methods
US9934775B2 (en) * 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US10319365B1 (en) * 2016-06-27 2019-06-11 Amazon Technologies, Inc. Text-to-speech processing with emphasized output audio
US10339925B1 (en) * 2016-09-26 2019-07-02 Amazon Technologies, Inc. Generation of automated message responses
US10448115B1 (en) * 2016-09-28 2019-10-15 Amazon Technologies, Inc. Speech recognition for localized content
WO2018058425A1 (zh) * 2016-09-29 2018-04-05 中国科学院深圳先进技术研究院 虚拟现实引导催眠语音处理方法及装置
US11069335B2 (en) * 2016-10-04 2021-07-20 Cerence Operating Company Speech synthesis using one or more recurrent neural networks
US10565989B1 (en) * 2016-12-16 2020-02-18 Amazon Technogies Inc. Ingesting device specific content
US10276149B1 (en) * 2016-12-21 2019-04-30 Amazon Technologies, Inc. Dynamic text-to-speech output
US10325599B1 (en) * 2016-12-28 2019-06-18 Amazon Technologies, Inc. Message response routing
US10872598B2 (en) * 2017-02-24 2020-12-22 Baidu Usa Llc Systems and methods for real-time neural text-to-speech
US20180330713A1 (en) * 2017-05-14 2018-11-15 International Business Machines Corporation Text-to-Speech Synthesis with Dynamically-Created Virtual Voices
US10896669B2 (en) * 2017-05-19 2021-01-19 Baidu Usa Llc Systems and methods for multi-speaker neural text-to-speech
US10418033B1 (en) * 2017-06-01 2019-09-17 Amazon Technologies, Inc. Configurable output data formats
US10332517B1 (en) * 2017-06-02 2019-06-25 Amazon Technologies, Inc. Privacy mode based on speaker identifier
US10446147B1 (en) * 2017-06-27 2019-10-15 Amazon Technologies, Inc. Contextual voice user interface
US10672416B2 (en) * 2017-10-20 2020-06-02 Board Of Trustees Of The University Of Illinois Causing microphones to detect inaudible sounds and defense against inaudible attacks
US10600408B1 (en) * 2018-03-23 2020-03-24 Amazon Technologies, Inc. Content output management based on speech quality
US10770063B2 (en) * 2018-04-13 2020-09-08 Adobe Inc. Real-time speaker-dependent neural vocoder
CN108877765A (zh) * 2018-05-31 2018-11-23 百度在线网络技术(北京)有限公司 语音拼接合成的处理方法及装置、计算机设备及可读介质
CN108550363B (zh) * 2018-06-04 2019-08-27 百度在线网络技术(北京)有限公司 语音合成方法及装置、计算机设备及可读介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005292433A (ja) * 2004-03-31 2005-10-20 Toshiba Corp 音声合成装置、音声合成方法および音声合成プログラム
JP2008545995A (ja) * 2005-03-28 2008-12-18 レサック テクノロジーズ、インコーポレーテッド ハイブリッド音声合成装置、方法および用途
JP2010237323A (ja) * 2009-03-30 2010-10-21 Toshiba Corp 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法
JP2015052748A (ja) * 2013-09-09 2015-03-19 株式会社日立超エル・エス・アイ・システムズ 音声データベース生成システム、音声データベース生成方法、及びプログラム
CN106297766A (zh) * 2015-06-04 2017-01-04 科大讯飞股份有限公司 语音合成方法及系统
CN107393556A (zh) * 2017-07-17 2017-11-24 京东方科技集团股份有限公司 一种实现音频处理的方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7393585B2 (ja) 2020-07-09 2023-12-06 グーグル エルエルシー テキスト読み上げのためのWaveNetの自己トレーニング
CN111862933A (zh) * 2020-07-20 2020-10-30 北京字节跳动网络技术有限公司 用于生成合成语音的方法、装置、设备和介质

Also Published As

Publication number Publication date
US20190371291A1 (en) 2019-12-05
JP6786751B2 (ja) 2020-11-18
CN108877765A (zh) 2018-11-23
US10803851B2 (en) 2020-10-13

Similar Documents

Publication Publication Date Title
JP6786751B2 (ja) 音声接続合成の処理方法及び装置、コンピュータ設備及びコンピュータプログラム
JP6752872B2 (ja) 音声合成方法及び装置、コンピュータ設備、読取り可能な媒体及びプログラム
CN106688034B (zh) 具有情感内容的文字至语音转换
CN104538024B (zh) 语音合成方法、装置及设备
JP6019108B2 (ja) 文字に基づく映像生成
CN108573694B (zh) 基于人工智能的语料扩充及语音合成系统构建方法及装置
JP6936298B2 (ja) 三次元仮想ポートレートの口形の変化を制御する方法および装置
JP2014519082A5 (ja)
JP2019015951A (ja) 電子機器のウェイクアップ方法、装置、デバイス及びコンピュータ可読記憶媒体
JP2021168139A (ja) マンマシンインタラクションのための方法、装置、機器および媒体
US11847726B2 (en) Method for outputting blend shape value, storage medium, and electronic device
CN110085244A (zh) 直播互动方法、装置、电子设备及可读存储介质
US10453434B1 (en) System for synthesizing sounds from prototypes
CN112365877A (zh) 语音合成方法、装置、电子设备和存储介质
CN109754783A (zh) 用于确定音频语句的边界的方法和装置
CN111161695B (zh) 歌曲生成方法和装置
WO2021227308A1 (zh) 一种视频资源的生成方法和装置
CN115691544A (zh) 虚拟形象口型驱动模型的训练及其驱动方法、装置和设备
CN111696520A (zh) 智能配音方法、装置、介质及电子设备
CN111105776A (zh) 有声播放装置及其播放方法
CN112381926A (zh) 用于生成视频的方法和装置
CN112185340A (zh) 语音合成方法、语音合成装置、存储介质与电子设备
CN109300472A (zh) 一种语音识别方法、装置、设备及介质
CN114999441A (zh) 虚拟形象生成方法、装置、设备、存储介质以及程序产品
CN113963674A (zh) 作品生成的方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200428

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200929

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201001

R150 Certificate of patent or registration of utility model

Ref document number: 6786751

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250