JP6752872B2

JP6752872B2 - 音声合成方法及び装置、コンピュータ設備、読取り可能な媒体及びプログラム

Info

Publication number: JP6752872B2
Application number: JP2018244454A
Authority: JP
Inventors: グ，ユ; サン，シャオフィ
Original assignee: バイドゥオンラインネットワークテクノロジー（ベイジン）カンパニーリミテッド
Priority date: 2018-06-04
Filing date: 2018-12-27
Publication date: 2020-09-09
Anticipated expiration: 2038-12-27
Also published as: CN108550363A; US10825444B2; JP2019211748A; CN108550363B; US20190371292A1

Description

本発明は、コンピュータ応用技術分野に関するものであり、特に音声合成方法及び装置、コンピュータ設備、読取り可能な媒体及びプログラムに関するものである。

音声合成技術は、主に統計パラメータに基づく技術及びセル選別に基づく接続合成技術という２種類に分かられ、この２種類の音声合成方法は、それぞれの利点があるが、それぞれに相応する問題もある。

例えば、統計パラメータに基づく音声合成技術は、小規模の音庫だけが必要し、オフラインシーンにおける音声合成タスクに適用することができ、同時に、表現力合成、情感音声合成、話者変換等のタスクに応用しても良く、このような方法によって合成された音声が相対的に安定で連続性がよいが、音響モデルのモデリング能力の限定及び統計平滑等の効果の影響で、統計パラメータに基づく合成の音質が相対的に悪くなる。パラメータ合成と異なり、接続合成は、大規模の音庫が必要し、主にオンライン設備の音声合成タスクに応用され、接続合成は、音庫における波形素片を選別し、特定なアルゴリズムによって接続するという方式を採用するので、音声の音質が良く、自然音声に近いが、接続の方式を採用するので、多い異なる音声手段の間の連続性が悪くなる。合成のテキストが既定である場合に、候補手段による音庫からの選別の確度があまり高くなく、又は特定な語彙、語句が音庫におけるコーパスによって覆われていなければ、接続合成された音声は自然度及び連続性が悪いという問題が発生し、ユーザの聴感に厳しく影響する。該技術の問題点を解決するために、従来の技術において音庫を補足する方式を採用し、音庫へ新たに幾つかの対応するコーパスを補充し、相応する問題点を修復するように再び音庫を構造する。

しかし、従来の技術において、製品より問題音声を返送してから、再び発音者によってコーパスを補充して録音し、音庫を構造するまでは、相対的に長い繰り返し過程であり、問題音声の修復周期が長く、即時に修復するという効果を実現することができない。

本発明は、接続合成における自然度及び連続性が悪い問題音声を早速修復するための音声合成方法及び装置、コンピュータ設備、読取り可能な媒体及びプログラムを提供する。

本発明に関する音声合成方法は、
音声接続合成において問題音声があった時、予めに訓練された時間長さ予測モデル及び基本周波数予測モデルに基づいて、問題音声に対応する目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測すること、
上記目標テキストに対応する上記毎音素の状態の時間長さ及び毎フレームの基本周波数に基づいて、予めに訓練された音声合成モデルによって上記目標テキストに対応する音声を合成すること、を含み、
そのうち、上記時間長さ予測モデル、上記基本周波数予測モデル及び上記音声合成モデルはいずれも音声接続合成の音庫に基づいて訓練したものである。

更に好ましく、上記方法において、予めに訓練された時間長さ予測モデル及び基本周波数予測モデルに基づいて、目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測する前、上記音声合成方法は、更に
音庫におけるテキスト及び対応する音声に基づいて、上記時間長さ予測モデル、上記基本周波数予測モデル及び上記音声合成モデルを訓練することを含む。

更に好ましく、上記方法において、音庫におけるテキスト及び対応する音声に基づいて、上記時間長さ予測モデル、上記基本周波数予測モデル及び上記音声合成モデルを訓練することは、具体的に、
上記音庫におけるテキスト及び対応する音声から、複数の訓練テキスト及び対応する訓練音声を抽出すること、
上記複数の訓練音声から、各上記訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数をそれぞれに抽出すること、
各上記訓練テキスト及び対応する上記訓練音声における毎音素に対応する状態の時間長さに基づいて、上記時間長さ予測モデルを訓練すること、
各上記訓練テキスト及び対応する上記訓練音声における毎フレームに対応する基本周波数に基づいて、上記基本周波数予測モデルを訓練すること、
各上記訓練テキスト、対応する各上記訓練音声、対応する各上記訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数に基づいて、上記音声合成モデルを訓練すること、を含む。

更に好ましく、上記方法において、予めに訓練された時間長さ予測モデル及び基本周波数予測モデルに基づいて、目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測する前、上記音声合成方法は、
上記音庫を利用して音声接続合成を行う時、ユーザによって返送された上記問題音声及び上記問題音声に対応する上記目標テキストを受信すること、を更に含む。

更に好ましく、上記方法において、上記目標テキストに対応する上記毎音素の状態の時間長さ及び毎フレームの基本周波数に基づいて、予めに訓練された音声合成モデルによって上記目標テキストに対応する音声を合成した後、上記音声合成方法は、更に
上記目標テキスト及び対応する合成した上記音声を上記音庫に添加すること、を含む。
更に好ましく、上記方法において、上記音声合成モデルはＷａｖｅＮｅｔモデルを採用する。

本発明に関する音声合成装置は、
音声接続合成において問題音声があった時、予めに訓練された時間長さ予測モデル及び基本周波数予測モデルに基づいて、上記問題音声に対応する目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測するための予測モジュールと、
上記目標テキストに対応する上記毎音素の状態の時間長さ及び毎フレームの基本周波数に基づいて、予めに訓練された音声合成モデルによって、上記目標テキストに対応する音声を合成するための合成モジュールと、を含み、
そのうち、上記時間長さ予測モデル、上記基本周波数予測モデル及び上記音声合成モデルはいずれも音声接続合成の音庫に基づいて訓練したものである。

更に好ましく、上記装置において、更に
音庫におけるテキスト及び対応する音声に基づいて、上記時間長さ予測モデル、上記基本周波数予測モデル及び上記音声合成モデルを訓練するための訓練モジュールを含む。

更に好ましく、上記装置において、上記訓練モジュールは、具体的に、
上記音庫におけるテキスト及び対応する音声から、複数の訓練テキスト及び対応する訓練音声を抽出し、
上記複数の訓練音声から、各上記訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数をそれぞれに抽出し、
各上記訓練テキスト及び対応する上記訓練音声における毎音素に対応する状態の時間長さに基づいて、上記時間長さ予測モデルを訓練し、
各上記訓練テキスト及び対応する上記訓練音声における毎フレームに対応する基本周波数に基づいて、上記基本周波数予測モデルを訓練し、
各上記訓練テキスト、対応する各上記訓練音声、対応する各上記訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数に基づいて、上記音声合成モデルを訓練するために用いられる。

更に好ましく、上記装置において、更に
上記音庫を利用して音声接続合成を行う時、ユーザによって返送された上記問題音声及び上記問題音声に対応する上記目標テキストを受信するための受信モジュールを含む。

更に好ましく、上記装置において、更に
上記目標テキスト及び対応する合成した上記音声を上記音庫に添加するための添加モジュールを含む。

更に好ましく、上記装置において、上記音声合成モデルはＷａｖｅＮｅｔモデルを採用する。

本発明に関するコンピュータ設備は、
１つ或複数のプロセッサと、
１つ或複数のプログラムを記憶するためのメモリと、を含み、
上記１つ或複数のプログラムが上記１つ或複数のプロセッサによって実行される時、上記１つ或複数のプロセッサに上記音声合成方法を実現させる。

本発明に関するコンピュータ読取り可能な媒体は、コンピュータプログラムを記憶しており、該コンピュータプログラムがプロセッサによって実行される時、上記音声合成方法を実現する。

本発明の音声合成方法及び装置、コンピュータ設備及び読取り可能な媒体によれば、音声接続合成において問題音声があった時、予めに訓練された時間長さ予測モデル及び基本周波数予測モデルに基づいて、問題音声に対応する目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測すること、目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数に基づいて、予めに訓練された音声合成モデルによって目標テキストに対応する音声を合成すること、を含み、そのうち、時間長さ予測モデル、基本周波数予測モデル及び音声合成モデルは、いずれも音声接続合成の音庫に基づいて訓練したものである。本発明の技術案によれば、音声接続合成において問題音声があった時、上記方式に基づいて問題音声の修復を実現することができ、コーパスを補充し録音すること及び音庫を再び構造することを避け、効率的に問題音声の修復時間を短縮して、問題音声の修復コストを節約し、問題音声の修復効率を向上することができ、更に、本発明の技術案において、時間長さ予測モデル、基本周波数予測モデル及び音声合成モデルはいずれも音声接続合成の音庫に基づいて訓練したものであるので、モデル合成に基づいた音声の自然度及び連続性を保証することができ、且つ接続合成に基づいた音声音質と比べて、変更することがなく、ユーザの聴感に影響しない。

本発明の音声合成方法の実施例１のフローチャートである。本発明の音声合成方法の実施例２のフローチャートである本発明の音声合成装置の実施例１の構成図である。本発明の音声合成装置の実施例２の構成図である。本発明のコンピュータ設備の実施例の構成図である。本発明によって提供されたコンピュータ設備の例の図である。

本発明の目的、技術案及び利点をより明確で簡潔させるために、以下、図面及び具体的な実施例を結合して本発明を詳しく説明する。

図１は、本発明の音声合成方法の実施例１のフローチャートである。図１に示すように、本実施例の音声合成方法は、具体的に、以下のようなステップを含む。

１００、音声接続合成において問題音声があった時、予めに訓練された時間長さ予測モデル及び基本周波数予測モデルに基づいて、問題音声に対応する目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測すること、
１０１、目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数に基づいて、予めに訓練された音声合成モデルによって目標テキストに対応する音声を合成すること、
そのうち、時間長さ予測モデル、基本周波数予測モデル及び音声合成モデルはいずれも音声接続合成の音庫に基づいて訓練したものである。

本実施例の音声合成方法の実行本体は、音声合成装置である。具体的に、音声接続合成の過程において、合成待ちのテキストが音庫のコーパスによって完全に覆われていなければ、接続合成した音声は自然度及び連続性が悪いという問題が発生し、従来の技術において、該問題を修復するためにコーパスを補充して録音し、再び音庫を構造する必要があり、問題音声の修復周期が長くなってしまう。該問題を解決するために、本実施例において、音声合成装置を採用してこの部分の合成待ちのテキストに対する音声合成を実現し、従来の音声接続合成過程に問題音声が発生した時の補充案として、効率的に問題音声の修復周期を短縮するように、他の角度から音声合成を実現する。

具体的に、本実施例の音声合成方法において、予めに訓練された時間長さ予測モデル及び基本周波数予測モデルが必要する。そのうち、該時間長さ予測モデルは、目標テキストにおける毎音素の状態の時間長さを予測するために用いられる。そのうち、音素が、音声における最も小さいセルであり、例えば中国語の発音において、１つの子音又は韻母がそれぞれに１つの音素とすることができる。他の言語の発音において、毎発音も１つの音素に相当する。本実施例において、隠れマルコフモデルに従って毎音素を５個の状態に切り分けることができ、状態の時間長さとは該状態にある時間の長さである。本実施例において、予めに訓練された時間長さ予測モデルは、目標テキストにおける毎音素の全ての状態の時間長さを予測することができる。また、本実施例において、予めに基本周波数予測モデルを訓練しておき、該基本周波数予測モデルは、目標テキストの発音における毎フレームの基本周波数を予測することができる。

本実施例の目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数が、音声合成の必要特徴である。具体的に、目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を、予めに訓練された音声合成モデルに入力し、該音声合成モデルは、該目標テキストに対応する音声を合成し出力することができる。このようにして、接続合成において自然度及び連続性の悪いという問題があると、直接に本実施例の技術案を使用して音声合成を行うことができる。本実施例の音声合成の技術案において、時間長さ予測モデル、基本周波数予測モデル及び音声合成モデルはいずれも音声接続合成の音庫に基づいて訓練したものであるので、合成した音声の音質は音声接続合成の音庫における音質と同じ、即ち合成した発音と接続した発音とは同一の発音者からの音声に聞こえることを保証できることで、ユーザの聴感を保証し、ユーザの使用体験度を強化することができる。且つ、本実施例の音声合成技術案における時間長さ予測モデル、基本周波数予測モデル及び音声合成モデルは、いずれも予めに訓練されたものであるので、問題音声を修復する時、即時に修復するという効果を実現することができる。

本実施例の音声合成方法は、予めに訓練された時間長さ予測モデル及び基本周波数予測モデルに基づいて、目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測すること、目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数に基づいて、予めに訓練された音声合成モデルによって目標テキストに対応する音声を合成すること、を含み、そのうち、時間長さ予測モデル、基本周波数予測モデルと音声合成モデルは、いずれも音声接続合成の音庫に基づいて訓練したものである。本実施例の技術案によると、音声接続合成において問題音声があった時、上記方式に基づいて問題音声の修復を実現することができ、コーパスを補充し録音すること及び音庫を再び構造することを避け、効率的に問題音声の修復時間を短縮して、問題音声の修復コストを節約し、問題音声の修復効率を向上することができ、更に本実施例の技術案において、時間長さ予測モデル、基本周波数予測モデル及び音声合成モデルはいずれも音声接続合成の音庫に基づいて訓練したものであるので、モデル合成に基づいた音声の自然度及び連続性を保証することができ、且つ接続合成に基づいた音声音質と比べて、変更することがなく、ユーザの聴感に影響しない。

図２は、本発明の音声合成方法の実施例２のフローチャートである。図２に示すように、本実施例の音声合成方法は、上記図１に示す実施例の技術案を基礎として、更に詳細に本発明の技術案を説明する。図２に示すように、本実施例の音声合成方法は、具体的に、以下のようなステップを含むことができる。

２００、音庫におけるテキスト及び対応する音声に基づいて、時間長さ予測モデル、基本周波数予測モデル及び音声合成モデルを訓練すること。

具体的に、該ステップ２００は以下のようなステップを含むことができる。

（ａ）音庫におけるテキスト及び対応する音声から、複数の訓練テキスト及び対応する訓練音声を抽出すること、
（ｂ）複数の訓練音声から、各訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数をそれぞれに抽出すること、
（ｃ）各訓練テキスト及び対応する訓練音声における毎音素に対応する状態の時間長さに基づいて、時間長さ予測モデルを訓練すること、
（ｄ）各訓練テキスト及び対応する訓練音声における毎フレームに対応する基本周波数に基づいて、基本周波数予測モデルを訓練すること、
（ｅ）各訓練テキスト、対応する各訓練音声、対応する各訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数に基づいて、音声合成モデルを訓練すること。

本実施例の音声接続合成において使用される音庫は、十分な原始コーパスを含むことができ、該原始コーパスには、原始テキスト及び対応する原始音声を含むことができ、例えば２０時間だけの原始音声を含むことができる。まず、音庫から複数の訓練テキスト及び対応する訓練音声を抽出し、例えば毎訓練テキストが一言である。そして、隠れマルコフモデルに従って、複数の訓練音声から、各訓練音声における毎音素に対応する状態の時間長さをそれぞれに抽出し、同時に、複数の訓練音声における毎訓練音声における毎フレームに対応する基本周波数を抽出してもよい。そして、３つのモデルをそれぞれに訓練する。本実施例に係る複数の訓練テキスト及び対応する訓練音声の具体的な数は、実際の必要に基づいて設置することができ、例えば数万の訓練テキスト及び対応する訓練音声を抽出することができる。

例えば各訓練テキスト及び対応する訓練音声における毎音素に対応する状態の時間長さに基づいて、時間長さ予測モデルを訓練する。訓練する前、該時間長さ予測モデルに対して初期パラメータを設置することができる。そして、訓練テキストを入力し、時間長さ予測モデルによって該訓練テキストに対応する訓練音声における毎音素に対応する状態の予測時間長さを予測し、次に、時間長さ予測モデルによって予測した該訓練テキストに対応する訓練音声における毎音素に対応する状態の予測時間長さを、対応する訓練音声における毎音素に対応する状態の実時間長さと比較して、両者の差の値が予め設定した範囲内にあるかを判断し、予め設定した範囲内でなければ、両者の差の値が予め設定した範囲内に入るように、時間長さ予測モデルのパラメータを調整する。複数の訓練テキスト及び対応する訓練音声における毎音素に対応する状態の時間長さを利用して、絶えず時間長さ予測モデルを訓練して、時間長さ予測モデルのパラメータを確定することで、時間長さ予測モデルを確定し、時間長さ予測モデルの訓練が終了する。

また、具体的に各訓練テキスト及び対応する訓練音声における毎フレームに対応する基本周波数に基づいて、基本周波数予測モデルを訓練することができる。同様に、訓練する前、該基本周波数予測モデルに対して初期パラメータを設置することができる。基本周波数予測モデルによって、該訓練テキストに対応する訓練音声における毎フレームに対応する予測基本周波数を予測し、次に、基本周波数予測モデルによって予測した毎フレームの基本周波数を、対応する訓練音声における毎フレームの実基本周波数と比較して、両者の差の値が予め設定した範囲内にあるかを判断し、予め設定した範囲内でなければ、両者の差の値が予め設定した範囲内に入るように、時間長さ予測モデルのパラメータを調整する。複数の訓練テキスト及び対応する訓練音声における毎フレームに対応する基本周波数を利用して、絶えず基本周波数予測モデルを訓練して、基本周波数予測モデルのパラメータを確定することで、基本周波数予測モデルを確定し、基本周波数予測モデルの訓練が終了する。

そして、各訓練テキスト、対応する各訓練音声、対応する各訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数に基づいて、音声合成モデルを訓練してもよい。本実施例の音声合成モデルは、ＷａｖｅＮｅｔモデルを採用することができる。該ＷａｖｅＮｅｔモデルは、ＤｅｅｐＭｉｎｄチームは２０１６年に提出した波形モデリング能力を具備するモデルであり、該ＷａｖｅＮｅｔモデルは、提出されてから、産業界及び学界において広く注目される。

該音声合成モデル、例えばＷａｖｅＮｅｔモデルにおいて、毎訓練テキストの訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数を合成音声の必要特徴とする。訓練する前、該ＷａｖｅＮｅｔモデルに対して初期パラメータを設置する。訓練する時、各訓練テキスト、対応する各訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数を、該ＷａｖｅＮｅｔモデルに入力し、ＷａｖｅＮｅｔモデルは、入力した特徴に基づいて合成した音声を出力し、そして、該合成した音声と訓練音声との交差エントロピーを計算し、次に勾配低下方法によってＷａｖｅＮｅｔモデルのパラメータを調整して該交差エントロピーを極小値に到達させ、即ちＷａｖｅＮｅｔモデルによって合成した音声と対応する訓練音声とを十分に近接させる。上記方式に従って、複数の訓練テキスト、対応する複数の訓練音声、及び対応する各訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数を利用して、絶えずＷａｖｅＮｅｔモデルを訓練して、ＷａｖｅＮｅｔモデルのパラメータを確定することで、ＷａｖｅＮｅｔモデルを確定し、ＷａｖｅＮｅｔモデルの訓練が終了する。

本実施例に係る時間長さ予測モデル、基本周波数予測モデル及び音声合成モデルを訓練することは、オフライン訓練の過程であり、上記３つのモデルを取得して、接続音声合成において問題が発生した時、オンラインで使用することができる。

２０１、音庫を利用して音声接続合成を行う時、ユーザによって返送された問題音声及び問題音声に対応する目標テキストを受信したかを判断し、そうであれば、ステップ２０２を実行し、そうでなければ、続けて音庫を利用して音声接続合成を行うこと、
２０２、音声接続技術を利用して音庫に基づいて接続した目標テキストの音声が問題音声であることを確定し、ステップ２０３を実行すること。

音声接続合成において、音庫には目標テキストのコーパスが存在しなければ、接続した音声は連続性及び自然性が悪くなるので、この時、合成した音声が問題音声であり、常にユーザが正常に使用することができない。

２０３、予めに訓練された時間長さ予測モデル及び基本周波数予測モデルに基づいて、目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測し、ステップ２０４を実行すること、
２０４、目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数に基づいて、予めに訓練された音声合成モデルによって目標テキストに対応する音声を合成し、ステップ２０５を実行すること、
ステップ２０３及びステップ２０４は、上記図１に示す実施例のステップ１００及びステップ１０１を参照することができ、ここで贅言しない。

２０５、目標テキスト及び対応する合成した音声を音庫に添加し、音庫をアップスケールさせる。

上記処理によって、該目標テキストに対応する音声を合成することができ、そして、該音声を音庫に添加することができ、このようにして、後続音庫を使用して音声接続合成を行う時、音声接続合成の自然性及び連続性を向上することができる。問題音声があった時のみ、本実施例の方式で音声を合成し、且つ合成した音声が音庫における原始音声の音質と同じ、ユーザが聞く時、同一の発音者からの発音に聞こえ、ユーザの聴感に影響しない。且つ、本実施例の方式によると、絶えず音庫におけるコーパスを拡張して、後続音声接続合成を使用する効率を更に向上させることができ、本実施例の技術案によると、音庫を更新することで、音庫をアップスケールさせるだけでなく、更新後の音庫を使用する音声接続合成システムのサービスをアップスケールさせることができ、より多い音声接続合成の要求を満足することができる。

本実施例の音声合成方法は、音声接続合成において問題音声があった時、上記方式に基づいて問題音声の修復を実現することができ、コーパスを補充し録音すること及び音庫を再び構造することを避け、効率的に問題音声の修復時間を短縮して、問題音声の修復コストを節約し、問題音声の修復効率を向上することができ、更に本実施例の技術案において、時間長さ予測モデル、基本周波数予測モデル及び音声合成モデルはいずれも音声接続合成の音庫に基づいて訓練したものであるので、モデル合成に基づいた音声の自然度及び連続性を保証することができ、且つ接続合成に基づいた音声音質と比べて、変更することがなく、ユーザの聴感に影響しない。

図３は、本発明の音声合成装置の実施例１の構成図である。図３に示すように、本実施例の音声合成装置は、具体的に
音声接続合成において問題音声があった時、予めに訓練された時間長さ予測モデル及び基本周波数予測モデルに基づいて、問題音声に対応する目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測するための予測モジュール１０と、
予測モジュール１０によって予測された目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数に基づいて、予めに訓練された音声合成モデルによって目標テキストに対応する音声を合成するための合成モジュール１１と、を含み、
そのうち、時間長さ予測モデル、基本周波数予測モデル及び音声合成モデルはいずれも音声接続合成の音庫に基づいて訓練したものである。

本実施例の音声合成装置は、上記モジュールを採用することで音声合成を実現する実現原理及び技術効果が上記相関方法の実施例の実現と同じであり、詳細は上記相関方法の実施例の記載を参照することができ、ここで贅言しない。

図４は、本発明の音声合成装置の実施例２の構成図である。図４に示すように、本実施例の音声合成装置は、上記図３に示す実施例の技術案を基礎として、具体的に以下の部品を含むことができる。

図４に示すように、本実施例の音声合成装置は、庫におけるテキスト及び対応する音声に基づいて、時間長さ予測モデル、基本周波数予測モデル及び音声合成モデルを訓練するための訓練モジュール１２を更に含む。

相応に、予測モジュール１０は、訓練モジュール１２によって予めに訓練した時間長さ予測モデル及び基本周波数予測モデルに基づいて、問題音声に対応する目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測するために用いられ、
相応に、合成モジュール１１は、予測モジュール１０によって予測された目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数に基づいて、訓練モジュール１２によって予めに訓練した音声合成モデルによって目標テキストに対応する音声を合成するために用いられる。

更に好ましく、図４に示すように、本実施例の音声合成装置において、訓練モジュール１２は、具体的に、
音庫におけるテキスト及び対応する音声から、複数の訓練テキスト及び対応する訓練音声を抽出し、
複数の訓練音声から、各訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数をそれぞれに抽出すし、
各訓練テキスト及び対応する訓練音声における毎音素に対応する状態の時間長さに基づいて、時間長さ予測モデルを訓練し、
各訓練テキスト及び対応する訓練音声における毎フレームに対応する基本周波数に基づいて、基本周波数予測モデルを訓練し、
各訓練テキスト、対応する各訓練音声、対応する各訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数に基づいて、音声合成モデルを訓練するために用いられる。

更に好ましく、図４に示すように、本実施例の音声合成装置は、更に、音庫を利用して音声接続合成を行う時、ユーザによって返送された問題音声及び問題音声に対応する目標テキストを受信するための受信モジュール１３を含む。

相応に、受信モジュール１３は、予測モジュール１０を起動させることができ、受信モジュール１３はユーザによって返送された問題音声を受信した後、予測モジュール１０を起動させ、予めに訓練された時間長さ予測モデ及び基本周波数予測モデルに基づいて、目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測させる。

更に好ましく、図４に示すように、本実施例の音声合成装置は、更に、目標テキスト及び合成モジュール１１によって合成した対応する音声を音庫に添加するための添加モジュール１４を含む。

更に好ましく、本実施例の音声合成装置において、音声合成モデルはＷａｖｅＮｅｔモデルを採用する。

図５は、本発明のコンピュータ設備の実施例の構成図である。図５に示すように、本実施例のコンピュータ設備は、メモリ４０及び１つ或いは複数のプロセッサ３０を含み、メモリ４０は１つ或いは複数のプログラムを記憶するためのものであり、メモリ４０に記憶された１つ或いは複数のプログラムが１つ或いは複数のプロセッサ３０によって実行される時、１つ或いは複数のプロセッサ３０に上記図１〜図２に示す実施例の音声合成方法を実現させる。図５に示す実施例において複数のプロセッサ３０を含むことを例とする。

例えば、図６は、本発明に関するコンピュータ設備の例の図である。図６は、本発明の実施形態を実現するために適する、例示的なコンピュータ設備１２ａのブロック図を示す。

図６に示すコンピュータ設備１２ａは１つの例だけであり、本発明の実施例の機能及び使用範囲を制限するものではない。

図６に示すように、コンピュータ設備１２ａは汎用演算設備の形態で表現される。コンピュータ設備１２ａの構成要素には、１つ又は複数のプロセッサ１６ａと、システムメモリ２８ａと、異なるシステム構成要素（システムメモリ２８ａとプロセッサ１６ａとを含む）を接続するためのバス１８ａを含むが、これに限定されない。

バス１８ａは、複数種類のバス構成の中の１つ又は複数の種類を示し、メモリバス又はメモリコントローラ、周辺バス、グラフィック加速ポート、プロセッサ又は複数種類のバス構成でのいずれかのバス構成を使用したローカルバスを含む。例えば、それらの架構には、工業標準架構（ＩＳＡ）バス、マイクロチャンネル架構（ＭＡＣ）バス、増強型ＩＳＡバス、ビデオ電子規格協会（ＶＥＳＡ）ローカルバス及び周辺コンポーネント接続（ＰＣＩ）バスを含むが、これに限定されない。

コンピュータ設備１２ａには、典型的には複数のコンピュータシステム読取り可能な媒体を含む。それらの媒体は、コンピュータ設備１２ａにアクセスされて使用可能な任意な媒体であり、揮発性の媒体と不揮発性の媒体や移動可能な媒体と移動不可な媒体を含む。

システムメモリ２８ａは、揮発性メモリ形式のコンピュータシステム読取り可能な媒体、例えばランダムアクセスメモリ（ＲＡＭ）３０ａ及び／又はキャッシュメモリ３２ａを含むことができる。コンピュータ設備１２ａには、更に他の移動可能／移動不可なコンピュータシステム記憶媒体や揮発性／不揮発性のコンピュータシステム記憶媒体を含むことができる。例として、ストレジ３４ａは、移動不可能な不揮発性磁媒体を読み書くために用いられる（図６に示していないが、常に「ハードディスクドライブ」とも呼ばれる）。図６に示していないが、移動可能な不揮発性磁気ディスク（例えば「フレキシブルディスク」）に対して読み書きを行うための磁気ディスクドライブ、及び移動可能な不揮発性光ディスク（例えばＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ又は他の光媒体）に対して読み書きを行うための光ディスクドライブを提供できる。このような場合に、ドライブは、それぞれ１つ又は複数のデータ媒体インターフェースによってバス１８ａに接続される。システムメモリ２８ａは少なくとも１つのプログラム製品を含み、該プログラム製品には１組の（例えば少なくとも１つの）プログラムモジュールを含み、それらのプログラムモジュールは、本発明の図１〜図４の各実施例の機能を実行するように配置される。

１組の（少なくとも１つの）プログラムモジュール４２ａを含むプログラム／実用ツール４０ａは、例えばシステムメモリ２８ａに記憶され、このようなプログラムモジュール４２ａには、オペレーティングシステム、１つの又は複数のアプリケーションプログラム、他のプログラムモジュール及びプログラムデータを含むが、これに限定しておらず、それらの例示での１つ又はある組み合にはネットワーク環境の実現を含む可能性がある。プログラムモジュール４２ａは、常に本発明に記載された上記図１〜４の各実施例における機能及び／或いは方法を実行する。

コンピュータ設備１２ａは、１つ又は複数の周辺設備１４ａ（例えばキーボード、ポインティングデバイス、ディスプレイ２４ａ等）と通信を行ってもよく、ユーザと該コンピュータ設備１２ａとのインタラクティブを実現することができ１つ又は複数のる設備と通信を行ってもよく、及び／又は該コンピュータ設備１２ａと１つ又は複数の他の演算設備との通信を実現することができるいずれかの設備（例えばネットワークカード、モデム等）と通信を行っても良い。このような通信は入力／出力（Ｉ／Ｏ）インターフェース２２ａによって行うことができる。そして、コンピュータ設備１２ａは、ネットワークアダプタ２０ａによって１つ又は複数のネットワーク（例えばローカルエリアネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）及び／又は公衆回線網、例えばインターネット）と通信を行っても良い。図に示すように、ネットワークアダプタ２０ａは、バス１８ａによってコンピュータ設備１２ａの他のモジュールと通信を行う。当然のことながら、図に示していないが、コンピュータ設備１２ａと連携して他のハードウェア及び／又はソフトウェアモジュールを使用することができ、マイクロコード、設備ドライブ、冗長処理手段、外部磁気ディスクドライブアレイ、ＲＡＩＤシステム、磁気テープドライブ及びデータバックアップストレジ等を含むが、これに限定されない。

プロセッサ１６ａは、システムメモリ２８ａに記憶されているプログラムを実行することで、様々な機能応用及びデータ処理、例えば本発明に記載された音声合成方法を実現する。

本発明は、コンピュータプログラムを記憶したコンピュータ読取り可能な媒体も提供し、該プログラムがプロセッサによって実行される時、上記実施例に示すような音声合成方法方法を実現する。

本実施例のコンピュータ読み取り可能な媒体は、上記図６に示す実施例におけるシステムメモリ２８ａにおけるＲＡＭ３０ａ、及び／或いはキャッシュメモリ３２ａ、及び／或いはストレジ３４ａを含むことができる。

時間及び技術の進展に伴い、コンピュータプログラムの伝送方式も、有形の媒体に限らず、ネットワーク等から直接ダウンロードすることもでき、或いは他の方式を採用して取得することもできる。従って、本実施例におけるコンピュータ読み取り可能な媒体は、有形の媒体だけでなく、無形の媒体を含んでもよい。

本実施例のコンピュータ読み取り可能な媒体は、１つ又は複数のコンピュータコンピュータ読取り可能な媒体の任意な組合を採用しても良い。コンピュータ読取り可能な媒体は、コンピュータ読取り可能な信号媒体又はコンピュータ読取り可能な記憶媒体である。コンピュータ読取り可能な記憶媒体は、例えば、電気、磁気、光、電磁気、赤外線、又は半導体のシステム、装置又はデバイス、或いは上記ものの任意な組合であるが、これに限定されない。コンピュータ読取り可能な記憶媒体の更なる具体的な例（網羅していないリスト）には、１つ又は複数のワイヤを具備する電気的な接続、携帯式コンピュータ磁気ディスク、ハードディクス、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュ）、光ファイバー、携帯式コンパクト磁気ディスクリードオンリーメモリ（ＣＤ−ＲＯＭ）、光メモリ部材、磁気メモリ部材、又は上記ものの任意で適当な組合を含む。本願において、コンピュータ読取り可能な記憶媒体は、プログラムを含む又は記憶する任意な有形の媒体であってもよく、該プログラムは、命令実行システム、装置又はデバイスに使用される又はそれらと連携して使用されることができる。

コンピュータ読取り可能な信号媒体は、ベースバンドにおいて伝搬されるデータ信号或いはキャリアの１部として伝搬されるデータ信号を含み、それにコンピュータ読取り可能なプログラムコードが載っている。このような伝搬されるデータ信号について、複数種類の形態を採用でき、電磁気信号、光信号又はそれらの任意で適当な組合を含むが、これに限定されない。コンピュータ読取り可能な信号媒体は、コンピュータ読取り可能な記憶媒体以外の任意なコンピュータ読取り可能な媒体であってもよく、該コンピュータ読取り可能な媒体は、命令実行システム、装置又はデバイスによって使用される又はそれと連携して使用されるプログラムを送信、伝搬又は伝送できる。

コンピュータ読取り可能な媒体に記憶されたプログラムコードは、任意で適正な媒体によって伝送されてもよく、無線、電線、光ケーブル、ＲＦ等、又は上記ものの任意で適当な組合を含むが、これに限定されない。

１つ又は複数のプログラミング言語又はそれらの組合で、本発明の操作を実行するためのコンピュータプログラムコードを編集することができ、上記プログラミング言語は、オブジェクト向けのプログラミング言語、例えばＪａｖａ（登録商標）、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋が含まれ、通常のプロシージャ向けプログラミング言語、例えば「Ｃ」言語又は類似しているプログラミング言語も含まれる。プログラムコードは、完全的にユーザコンピュータに実行されてもよく、部分的にユーザコンピュータに実行されてもよく、１つの独立のソフトウェアパッケージとして実行されてもよく、部分的にユーザコンピュータに実行され且つ部分的に遠隔コンピュータに実行されてもよく、又は完全的に遠隔コンピュータ又はサーバに実行されてもよい。遠隔コンピュータに係る場合に、遠隔コンピュータは、ローカルエリアネットワーク（ＬＡＮ）又は広域ネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介して、ユーザコンピュータ、又は、外部コンピュータに接続できる（例えば、インターネットサービス事業者を利用してインターネットを介して接続できる）。

本発明に開示されたいくつの実施例で開示されたシステム、装置および方法は、他の形態によって実現できることを理解すべきだ。例えば、上述装置に関する実施例が例示だけであり、例えば、上記手段の区分がロジック機能上の区分だけであり、実際に実現する時、他の区分方式であってもよい。

上記分離部品として説明された手段が、物理的に分離されてもよく、物理的に分離されなくてもよく、手段として表される部品が、物理手段でもよく、物理手段でなくてもよく、１つの箇所に位置してもよく、又は複数のネットワークセルに分布されても良い。実際の必要に基づいて、その中の１部又は全部を選択して、本実施例の態様の目的を実現することができる。

また、本発明の各実施例における各機能手段が１つの処理手段に集積されてもよく、各手段が物理的に独立に存在してもよく、２つ又は２つ以上の手段が１つの手段に集積されても良い。上記集積された手段は、ハードウェアの形式で実現してもよく、ハードウェア＋ソフトウェア機能手段の形式で実現しても良い。

上記ソフトウェア機能手段の形式で実現する集積された手段は、１つのコンピュータ読取り可能な記憶媒体に記憶されることができる。上記ソフトウェア機能手段は１つの記憶媒体に記憶されており、１台のコンピュータ設備（パソコン、サーバ、又はネットワーク設備等）又はプロセッサ（ｐｒｏｃｅｓｓｏｒ）に本発明の各実施例に記載された方法の部分ステップを実行させるための若干の命令を含む。上記記憶媒体は、ＵＳＢメモリ、リムーバブルハードディスク、リードオンリーメモリ（ＲＯＭ，Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ，ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、磁気ディスク又は光ディスク等の、プログラムコードを記憶できる媒体を含む。

以上の説明は、本発明の好ましい例示だけであり、本発明を限定するものではなく、本発明の主旨及び原則の範囲で行った、いずれの修正、等価置換、改良なども全て本発明の保護する範囲に属すべきである。

Claims

コンピュータ設備によって実行される、音声合成装置における音声合成方法であって、
前記音声合成装置は、予測モジュールと、合成モジュールとを備え、
前記コンピュータ設備は、前記音声合成装置と通信可能であり、
前記コンピュータ設備から送信される命令に基づいて、
前記予測モジュールが、音声接続合成において問題音声があった時、予めに訓練された時間長さ予測モデル及び基本周波数予測モデルに基づいて、問題音声に対応する目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測することと、
前記合成モジュールが、前記目標テキストに対応する前記毎音素の状態の時間長さ及び毎フレームの基本周波数に基づいて、予めに訓練された音声合成モデルによって前記目標テキストに対応する音声を合成することと、を含み、
そのうち、前記時間長さ予測モデル、前記基本周波数予測モデル及び前記音声合成モデルはいずれも音声接続合成の音庫に基づいて訓練したものである
音声合成方法。
前記音声合成装置は、訓練モジュールをさらに備え、
前記予測モジュールが、予めに訓練された時間長さ予測モデル及び基本周波数予測モデルに基づいて、目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測する前、前記音声合成方法は、更に
前記訓練モジュールが、音庫におけるテキスト及び対応する音声に基づいて、前記時間長さ予測モデル、前記基本周波数予測モデル及び前記音声合成モデルを訓練することを含む
請求項１に記載された音声合成方法。
前記訓練モジュールが、音庫におけるテキスト及び対応する音声に基づいて、前記時間長さ予測モデル、前記基本周波数予測モデル及び前記音声合成モデルを訓練することは、具体的に、
前記音庫におけるテキスト及び対応する音声から、複数の訓練テキスト及び対応する訓練音声を抽出することと、
前記複数の訓練音声から、各前記訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数をそれぞれに抽出することと、
各前記訓練テキスト及び対応する前記訓練音声における毎音素に対応する状態の時間長さに基づいて、前記時間長さ予測モデルを訓練することと、
各前記訓練テキスト及び対応する前記訓練音声における毎フレームに対応する基本周波数に基づいて、前記基本周波数予測モデルを訓練することと、
各前記訓練テキスト、対応する各前記訓練音声、対応する各前記訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数に基づいて、前記音声合成モデルを訓練することと、を含む
請求項２に記載された音声合成方法。
前記音声合成装置は、受信モジュールをさらに備え、
前記予測モジュールが、予めに訓練された時間長さ予測モデル及び基本周波数予測モデルに基づいて、目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測する前、前記音声合成方法は、更に
前記受信モジュールが、前記音庫を利用して音声接続合成を行う時、ユーザによって返送された前記問題音声及び前記問題音声に対応する前記目標テキストを受信すること、を含む
請求項２に記載された音声合成方法。
前記音声合成装置は、添加モジュールをさらに備え、
前記合成モジュールが、前記目標テキストに対応する前記毎音素の状態の時間長さ及び毎フレームの基本周波数に基づいて、予めに訓練された音声合成モデルによって前記目標テキストに対応する音声を合成した後、前記音声合成方法は、更に
前記添加モジュールが、前記目標テキスト及び対応する合成した前記音声を前記音庫に添加すること、を含む
請求項２に記載された音声合成方法。
前記音声合成モデルはＷａｖｅＮｅｔモデルを採用する
請求項１〜５のいずれか１項に記載された音声合成方法。
音声合成装置であって、
音声接続合成において問題音声があった時、予めに訓練された時間長さ予測モデル及び基本周波数予測モデルに基づいて、前記問題音声に対応する目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測するための予測モジュールと、
前記目標テキストに対応する前記毎音素の状態の時間長さ及び毎フレームの基本周波数に基づいて、予めに訓練された音声合成モデルによって、前記目標テキストに対応する音声を合成するための合成モジュールと、を含み、
そのうち、前記時間長さ予測モデル、前記基本周波数予測モデル及び前記音声合成モデルはいずれも音声接続合成の音庫に基づいて訓練したものである
音声合成装置。
前記音声合成装置は、更に
音庫におけるテキスト及び対応する音声に基づいて、前記時間長さ予測モデル、前記基本周波数予測モデル及び前記音声合成モデルを訓練するための訓練モジュールを含む
請求項７に記載された音声合成装置。
前記訓練モジュールは、具体的に、
前記音庫におけるテキスト及び対応する音声から、複数の訓練テキスト及び対応する訓練音声を抽出し、
前記複数の訓練音声から、各前記訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数をそれぞれに抽出し、
各前記訓練テキスト及び対応する前記訓練音声における毎音素に対応する状態の時間長さに基づいて、前記時間長さ予測モデルを訓練し、
各前記訓練テキスト及び対応する前記訓練音声における毎フレームに対応する基本周波数に基づいて、前記基本周波数予測モデルを訓練し、
各前記訓練テキスト、対応する各前記訓練音声、対応する各前記訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数に基づいて、前記音声合成モデルを訓練するために用いられる
請求項８に記載された音声合成装置。
前記音声合成装置は、更に
前記音庫を利用して音声接続合成を行う時、ユーザによって返送された前記問題音声及び前記問題音声に対応する前記目標テキストを受信するための受信モジュールを含む
請求項８に記載された音声合成装置。
前記音声合成装置は、更に
前記目標テキスト及び対応する合成した前記音声を前記音庫に添加するための添加モジュールを含む
請求項８に記載された音声合成装置。
前記音声合成モデルはＷａｖｅＮｅｔモデルを採用する
請求項７〜１１のいずれか１項に記載された音声合成方法。
コンピュータ設備であって、
１つ或複数のプロセッサと、
１つ或複数のプログラムを記憶するためのメモリと、を含み、
前記１つ或複数のプログラムが前記１つ或複数のプロセッサによって実行される時、前記１つ或複数のプロセッサに請求項１〜６のいずれか１項に記載された音声合成方法を実現させる
コンピュータ設備。
コンピュータプログラムを記憶しているコンピュータ読取り可能な媒体であって、該コンピュータプログラムがプロセッサによって実行される時、請求項１〜６のいずれか１項に記載された音声合成方法を実現する
コンピュータ読取り可能な媒体。
コンピュータ設備において、プロセッサにより実行される場合、請求項１〜６のいずれか１項に記載の音声合成方法を実現することを特徴とするプログラム。