JP2019211747A

JP2019211747A - 音声接続合成の処理方法及び装置、コンピュータ設備及び読取り可能な媒体

Info

Publication number: JP2019211747A
Application number: JP2018239323A
Authority: JP
Inventors: サン、シャオフイ; Xiaohui Sun; グ、ユ; Yu GU
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2018-05-31
Filing date: 2018-12-21
Publication date: 2019-12-12
Anticipated expiration: 2038-12-21
Also published as: US20190371291A1; JP6786751B2; CN108877765A; US10803851B2

Abstract

【課題】大規模なコーパスを録音させずに、音声ライブラリにおいて選択可能な音声素片を多くすることにより、音声合成の効果の連続性及び自然度を向上させる。【解決手段】予めに訓練された音声合成モデル及び取得された合成テキストに基づいて、合成テキストに対応する合成音声を合成する。合成テキスト及び対応する合成音声を合成コーパスとして、音声ライブラリを更新することにより音声ライブラリを拡張し、拡張された音声ライブラリを利用して音声接続合成処理を行う。拡張する前の音声ライブラリには人工的に採集された原始コーパスを含む。音声ライブラリに対して拡張を行うことにより、音声ライブラリに十分なコーパスを含ませることができ、このようにして、拡張された音声ライブラリに基づいて音声接続処理を行うことにより、選択可能な音声素片が多くなり、音声合成の効果の連続性及び自然度が向上する。【選択図】図１

Description

本発明は、コンピュータ応用技術分野に関するものであり、特に音声接続合成の処理方法及び装置、コンピュータ設備及び読取り可能な媒体に関するものである。

音声合成は、ヒューマンコンピュータインタラクションの１つの重要な構成部分であり、常用な合成技術は、統計的なモデリングに基づくパラメータ合成及びセル選別に基づく接続合成という２つの種類がある。自然音声素片を採用するので、接続合成技術の音質が比較的に良いので、現在、商業合成システムは主に接続合成方法を採用する。一般的に使用される商業接続合成システムは、多くの場合に数万の音声を録音する必要があり、データ量が１０時間以上の規模に達し、且つ、いずれのテキストに関しても許容な合成効果を保証できるように、データのチェック及びマーク等に多くの人手が必要である。

スター音合成や個性的な合成というシーンについては、多くの場合に、多量の音を採集することができない。スター録音のコストが比較的に高いので、大規模なコーパスを録音させることは現実ではなく、一方、個性的なシーンの場合、製品を使用する前に利用者に数万の音声を録音させることも現実ではない。しかし、これらのシーンは、大きなビジネス価値があり、スター音合成が、製品への関心及び製品の普及を効果的に向上させることができ、個性的な合成が、家人や自分の声を使用することで、ユーザの参与感や新鮮感を向上させ、ユーザ体験を効果的に向上させる。従来のスター音合成及び個性的な合成のシーンにおいて、音声ライブラリから少量のコーパスだけを採集でき、音声接続の時、音声ライブラリにおいて選択可能な音声素片があまり少ないので、音声合成の効果は連続性が低く、自然度が悪いので、接続された音声は殆ど正常に使用できない。

本発明は、音声合成の効果の連続性及び自然度を向上させるための音声接続合成の処理方法及び装置、コンピュータ設備及び読取り可能な媒体を提供する。

本発明に関する音声接続合成の処理方法であって、
予めに訓練された音声合成モデル及び取得された合成テキストに基づいて、音声ライブラリを拡張すること、
拡張された上記音声ライブラリを利用して音声接続合成処理を行うこと、を含み、
但し、拡張する前の上記音声ライブラリには人工的に採集された原始コーパスを含む。

更に好ましくは、上記音声接続合成の処理において、予めに訓練された音声合成モデル及び取得された合成テキストに基づいて、音声ライブラリを拡張することは、具体的に、
上記音声合成モデル及び取得された上記合成テキストを利用して、上記合成テキストに対応する合成音声を合成すること、
上記合成テキスト及び対応する上記合成音声を合成コーパスとして、上記音声ライブラリを更新すること、を含む。

更に好ましくは、上記音声接続合成の処理方法において、予めに訓練された音声合成モデル及び取得された合成テキストに基づいて、音声ライブラリを拡張する前、上記音声接続合成の処理方法は、
拡張する前の上記音声ライブラリにおける人工的に採集された上記原始コーパスに基づいて、上記音声合成モデルを訓練することを含む。

更に好ましくは、上記音声接続合成の処理方法において、上記原始コーパスには原始テキスト及び対応する原始音声を含み、
音声ライブラリにおける人工的に採集された原始コーパスに基づいて、音声合成モデルを訓練することは、具体的に、
上記原始テキスト及び対応する上記原始音声に基づいて、上記音声合成モデルを訓練することを含む。

更に好ましくは、上記音声接続合成の処理方法において、予めに訓練された音声合成モデル及び取得された合成テキストに基づいて、音声ライブラリを拡張する前、上記音声接続合成の処理方法は、
ネットワークから上記合成テキストを抽出することを含む。

更に好ましくは、上記音声接続合成の処理方法において、上記音声合成モデルとしてＷａｖｅＮｅｔモデルを採用する。
本発明に関する音声接続合成の処理装置であって、
予めに訓練された音声合成モデル及び取得された合成テキストに基づいて、音声ライブラリを拡張するための拡張モジュールと、
拡張された上記音声ライブラリを利用して音声接続合成処理を行うための処理モジュールと、を含み、
ただし、拡張する前の上記音声ライブラリには人工的に採集された原始コーパスを含む。

更に好ましくは、上記音声接続合成の処理装置において、上記拡張モジュールは、具体的に
上記音声合成モデル及び取得された上記合成テキストを利用して、上記合成テキストに対応する合成音声を合成し、
上記合成テキスト及び対応する上記合成音声を合成コーパスとして、上記音声ライブラリを更新するために用いられる。

更に好ましくは、上記音声接続合成の処理装置において、更に
拡張する前の上記音声ライブラリにおける人工的に採集された上記原始コーパスに基づいて、上記音声合成モデルを訓練するための訓練モジュールを含む。

更に好ましくは、上記音声接続合成の処理装置において、上記原始コーパスには原始テキスト及び対応する原始音声を含み、
上記訓練モジュールは、具体的に、上記原始テキスト及び対応する上記原始音声に基づいて、上記音声合成モデルを訓練するために用いられる。

更に好ましくは、上記音声接続合成の処理装置において、更に
ネットワークから上記合成テキストを抽出するための抽出モジュールを含む。

更に好ましくは、上記音声接続合成の処理装置において、上記音声合成モデルとしてＷａｖｅＮｅｔモデルを採用する。

本発明に関するコンピュータ設備であって、
１つ或いは複数のプロセッサと、
１つ或いは複数のプログラムが記憶されているメモリと、を含み、
上記１つ或いは複数のプログラムが上記１つ或いは複数のプロセッサによって実行される時、上記１つ或いは複数のプロセッサに上記音声接続合成の処理方法を実現させる。

本発明に関するコンピュータプログラムが記憶されているコンピュータ読取り可能な媒体であって、該コンピュータプログラムがプロセッサによって実行される時、上記音声接続合成の処理方法を実現する。

本発明の音声接続合成の処理方法及び装置、コンピュータ設備及び読取り可能な媒体は、予めに訓練された音声合成モデル及び取得された合成テキストに基づいて、音声ライブラリを拡張し、拡張された音声ライブラリを利用して音声接続合成処理を行い、ただし、拡張する前の音声ライブラリには人工的に採集された原始コーパスを含む。本発明の技術案によれば、音声ライブラリに十分なコーパスを含ませるように音声ライブラリに対して拡張を行い、このように拡張された音声ライブラリに基づいて音声接続処理を行う時、選択可能な音声素片が多くなり、音声合成の効果の連続性及び自然度を向上させることができ、且つ、音声合成の効果は連続性が非常に高く自然度もよいので、ユーザの正常な使用を満足することができる。

本発明の音声接続合成の処理方法の実施例１のフローチャートである。本発明の音声接続合成の処理方法の実施例２のフローチャートである。本発明の音声接続合成の処理装置の実施例１の構成図である。本発明の音声接続合成の処理装置の実施例２の構成図である。本発明のコンピュータ設備の実施例の構成図である。本発明に提供されたコンピュータ設備の例の図である。

本発明の目的、技術案及び利点をより明確で簡潔させるために、以下、図面及び具体的な実施例を結合して本発明を詳細的に説明する。

図１は、本発明の音声接続合成の処理方法の実施例１のフローチャートである。図１に示すように、本実施例の音声接続合成の処理方法は、具体的に、以下のようなステップを含むことができる。

１００、予めに訓練された音声合成モデル及び取得された合成テキストに基づいて、音声ライブラリを拡張する。但し、拡張する前の音声ライブラリには人工的に採集された原始コーパスを含む。

１０１、拡張された音声ライブラリを利用して音声接続合成処理を行う。

本実施例の音声接続合成の処理方法の実行本体が、音声接続合成の処理装置であり、該装置は、音声接続技術の要求を満足するように、音声接続合成時に必要な音声ライブラリに対して拡張処理を行い、音声ライブラリに十分なコーパスを含ませることで、拡張された上記音声ライブラリを利用して音声接続合成処理を行うことができる。

本実施例において、予めに訓練された音声合成モデル及び取得された合成テキストに基づいて音声ライブラリを拡張して、拡張された音声ライブラリに、人工的に採集された原始コーパスだけでなく、音声合成モデル及び取得された合成テキストに基づいて合成された合成コーパスも含ませる。このようにして、拡張された音声ライブラリに含まれているコーパスの内容が十分に豊富になり、後続に拡張された音声ライブラリを利用して音声接続合成処理を行うことができる。拡張された音声ライブラリにおけるコーパスが十分であるので、拡張された音声ライブラリを利用して音声接続合成処理を行う時、音声合成の効果は連続性が非常に高く、自然度もよくなり、正常な使用を満足することができる。

本実施例の音声接続合成の処理方法は、予めに訓練された音声合成モデル及び取得された合成テキストに基づいて音声ライブラリを拡張し、拡張された音声ライブラリを利用して音声接続合成処理を行い、但し、拡張する前の音声ライブラリに人工的に採集された原始コーパスを含む。本実施例の技術案によれば、音声ライブラリに対して拡張を行うことで音声ライブラリに十分なコーパスを含ませ、このようにして、拡張された音声ライブラリに基づいて音声接続処理を行う時、選択可能な音声素片が多くなっており、音声合成の効果の連続性及び自然度を向上させることができ、且つ、音声合成の効果は連続性が非常に高く自然度がよいので、ユーザの正常な使用を満足することができる。

図２は、本発明の音声接続合成の処理方法の実施例２のフローチャートである。図２に示すように、本実施例の音声接続合成の処理方法は、上記図１に示す実施例の技術案を基礎に、更に詳細に本発明の技術案を紹介する。図２に示すように、本実施例の音声接続合成の処理方法は、具体的に、以下のようなステップを含むことができる。

２００、拡張する前の音声ライブラリにおける、人工的に採集された原始コーパスに基づいて音声合成モデルを訓練する。

２０１、ネットワークから合成テキストを抽出する。

２０２、音声合成モデル及び取得された合成テキストを利用して、該合成テキストに対応する合成音声を合成する。

２０３、合成テキスト及び対応する合成音声を合成コーパスとして音声ライブラリを更新する。

該ステップ２０２及びステップ２０３は、上記図１に示す実施例のステップ１００の１つの具体的な実現方式である。

２０４、拡張された音声ライブラリを利用して音声接続合成処理を行う。

具体的に、本実施例において、まず、人工的に一部の原始コーパスを採集し、例えば、原始コーパスは原始テキスト及び対応する原始音声を含むことができる。本実施例の原始コーパスは、作業者によって人工的に採集されたものである。例えば、スター音合成のシーンにおいて、該原始コーパスにおける原始音声は、スターが提供された原始テキストに基づいて録音した音声である。個性的な合成のシーンにおいて、該原始コーパスは、ユーザ自分又は家人又は友達が提供された原始テキストに基づいて録音した音声である。特に、スターが原始音声を録音する過程における人工コストは比較的に高く、且つ時間及び労力が必要であるので、本実施例において、原始コーパスを採集する時、少ないデータ量だけを採集すればよく、例えば１時間だけの原始音声を採集すればよい。該原始コーパスにおける原始音声は、既に対応する音声発声者の音色等の特徴を含んでいる。本実施例において、音声ライブラリにおける人工的に採集された原始コーパスに基づいて、音声合成モデルを訓練して、該音声合成モデルによって合成された音声に原始コーパスの音声と同じ音色等の特徴を具備させ、このようにして、原始音声と該音声合成モデルによって合成された合成音声とが、同一のユーザから発出されたように聞こえる。

例えば、本実施例の音声合成モデルは、ＷａｖｅＮｅｔモデルを採用することができる。該ＷａｖｅＮｅｔモデルは、ＤｅｅｐＭｉｎｄチームによって２０１６年に提出された波形モデリング能力を有するモデルであり、提出されてから、該ＷａｖｅＮｅｔモデルは、産業界及び学界において広く注目されている。

本実施例において、音声ライブラリにおける人工的に採集された原始コーパスに基づいて、音声合成モデルを訓練することは、具体的に原始テキスト及び対応する原始音声に基づいて音声合成モデルを訓練することである。例えば、まず原始コーパスから複数の訓練データを抽出することができ、ただし、訓練データ毎に、原始音声における１段の音声素片及び原始テキストにおける対応する１段のテキスト素片を含む。訓練する前は、該ＷａｖｅＮｅｔモデルのパラメータに対して初期値を設定する。訓練の時、各訓練データのテキスト素片を該ＷａｖｅＮｅｔモデルに入力し、ＷａｖｅＮｅｔモデルは入力されたテキスト素片に基づいて合成後の音声素片を出力し、そして、該音声素片と訓練データの音声素片との交差エントロピーを計算し、次に勾配低下方法を採用してＷａｖｅＮｅｔモデルのパラメータを調整して、該交差エントロピーを1つの極小値に到達させ、即ちＷａｖｅＮｅｔモデルによって合成された音声素片と訓練データの音声素片とが十分に近接していることを表す。上記方式に従って、複数の訓練データを利用して絶えずＷａｖｅＮｅｔモデルに対して訓練を行って、ＷａｖｅＮｅｔモデルのパラメータを確定することで、ＷａｖｅＮｅｔモデルを確定し、ＷａｖｅＮｅｔモデルの訓練が終了する。

上記実施例の方式によれば、ＷａｖｅＮｅｔモデルに基づく音声合成モデルを取得した後、次に、該音声合成モデルに基づいて、合成コーパスを生成して音声ライブラリを拡張することができる。具体的に、まず合成テキストを取得する。具体的に、応用分野を結合して合成テキストを取得することができ、例えば、該音声接続合成は航空分野に用いられる場合に、ネットワークから航空分野における大量のテキストを合成テキストとして取得することができる。例えば、該音声接続合成は人工知能分野に用いられる場合に、ネットワークから人工知能分野における大量のテキストを合成テキストとして取得することができる。例えば、該音声接続合成は教育分野に用いられる場合に、ネットワークから教育分野における大量のテキストを合成テキストとして取得することができる。分野毎に、ネットワークから相関テーマのテキストを合成テキストとして取得することができる。そして、取得された合成テキストを訓練した音声合成モデルに入力し、該音声合成モデルは対応する合成音声を合成することができる。該合成音声は原始コーパスにおける原始音声と同じ音色等の特徴を有し、同じ人の声に聞こえる。最後に、合成テキスト及び対応する合成音声を合成コーパスとして音声ライブラリを更新することができる。本実施例の合成テキストは、１つの完全なテキストであってもよく、複数のテキストであってもよい。また、本実施例において、合成された合成音声の量は原始音声の量より大幅に大きく、例えば、原始音声が１時間だけの量であれば、合成された合成音声が２０時間だけの音声量、ひいてはより多い音声量に到達することができ、このようにして、更新された音声ライブラリを利用して音声接続合成処理を行う場合、より多い音声接続合成の要求を満足することができ、音声接続の合成効果は連続性がよりよく、自然度もよくなるので、より多い実際応用の需求を満足することができる。

上記記載に基づいて、本実施例の音声接続合成の処理方法は、ＷａｖｅＮｅｔモデルに基づく音声合成モデルのオフライン合成能力を利用したものであり、まず少ないデータ量（例えば１時間だけの録音データ）を利用して１つＷａｖｅＮｅｔモデルに基づく音声合成モデルを構築し、そして、該音声合成モデルを使用して２０時間だけで、テキストの被覆率が広い大規模なコーパスを合成することができる。特に、本実施例において、合成音声応用の具体的なシーンに関して、該分野の出現頻度が高いコーパスを相応に増加することもできる。最後に、ＷａｖｅＮｅｔモデルに基づく音声合成モデルによって合成されたこの２０時間だけの規模のコーパスを使用して、接続合成システムを構築することができ、ＷａｖｅＮｅｔモデルに基づく音声合成モデルによって合成された音声の音質が比較的に高いので、人工的に採集された音声と同じ音質に到達することができ、且つ音声ライブラリ規模を２０時間だけのレベルまでに拡張したので、音声接続合成時に十分な選択待ち要素を保証することで、音声接続合成の効果は連続性がよく、自然度もよくすることを保証することができる。

本実施例の音声接続合成の処理方法は、伝統的な少量のコーパスだけを採集した音声ライブラリと比べて、少量データの場合に、合成結果の音質及び流暢さを大幅に向上させることができる。スター音声ライブラリを作成する時、スター録音のデータ量を減少してコストを低減することができ、個性的な音声ライブラリを作成する時、ユーザによって提供された少量なデータを使用して高忠実度な音を合成して、ユーザ体験を改善することができる。

本実施例の音声接続合成の処理方法は、既存な商業合成システム（例えば各会社の音声合成システム）の、少ないデータ量の場合の合成効果を迅速に更新することができる。将来、演算能力の向上及びＷａｖｅＮｅｔモデルの最適化に従って、ある時点で、該ＷａｖｅＮｅｔモデルを直接にオンラインさせることもできる。

本実施例の音声接続合成の処理方法は、ＷａｖｅＮｅｔのモデリング能力を十分に利用することができ、ＷａｖｅＮｅｔを直接的に使用する時の高計算コスト、高遅延、低リアルタイムの問題も効率的に避けることができ、少ないデータ量の場合にオンライン合成効果を大幅に向上させることができる。

図３は、本発明の音声接続合成の処理装置の実施例１の構成図である。図３に示すように、本実施例の音声接続合成の処理装置は、具体的に、
予めに訓練された音声合成モデル及び取得された合成テキストに基づいて、音声ライブラリを拡張するための拡張モジュール１０と、
拡張モジュール１０によって拡張された音声ライブラリを利用して音声接続合成処理を行うための処理モジュール１１と、を含むことができ、
但し、拡張する前の音声ライブラリには人工的に採集された原始コーパスを含む。

本実施例の音声接続合成の処理装置は、上記モジュールを採用することで音声接続合成処理を実現する原理及び技術効果が上記相関方法の実施例の実現との同じであり、詳細は上記相関方法の実施例の記載を参照することができ、ここで贅言しない。

図４は、本発明の音声接続合成の処理装置の実施例２の構成図である。図４に示すように、本実施例の音声接続合成の処理装置は、上記図３に示す実施例の技術案を基礎に、更に詳細に本発明の技術案を紹介する。

本実施例の音声接続合成の処理装置において、拡張モジュール１０は、具体的に、
音声合成モデル及び取得された合成テキストを利用して、該合成テキストに対応する合成音声を合成すること、
合成テキスト及び対応する合成音声を合成コーパスとして音声ライブラリを更新することのために用いられる。

更に好ましくは、図４に示すように、本実施例の音声接続合成の処理装置において、
拡張する前の音声ライブラリにおける、人工的に採集された原始コーパスに基づいて、音声合成モデルを訓練するための訓練モジュール１２を更に含む。

更に好ましくは、該原始コーパスには原始テキスト及び対応する原始音声を含むことができ、
訓練モジュール１２は、具体的に、原始テキスト及び対応する原始音声に基づいて、音声合成モデルを訓練するために用いられる。

相応に、拡張モジュール１０は、訓練モジュール１２によって予めに訓練された音声合成モデル及び取得された合成テキストに基づいて、音声ライブラリを拡張するために用いられる。

更に好ましくは、図４に示すように、本実施例の音声接続合成の処理装置において、ネットワークから合成テキストを抽出するための抽出モジュール１３を更に含む。

相応に、拡張モジュール１０は、訓練モジュール１２によって予めに訓練された音声合成モデル及び抽出モジュール１３によって取得された合成テキストに基づいて、音声ライブラリを拡張するために用いられる。

更に好ましくは、本実施例の音声接続合成の処理装置において、音声合成モデルとしてＷａｖｅＮｅｔモデルを採用する。

本実施例の音声接続合成の処理装置は、上記モジュールを採用することで音声接続合成処理を実現する原理及び技術効果が上記相関方法の実施例の実現と同じであり、詳細は上記相関方法の実施例の記載を参照することができ、ここで贅言しない。

図５は、本発明のコンピュータ設備の実施例の構成図である。図５に示すように、本実施例のコンピュータ設備は、１つ或いは複数のプロセッサ３０、及びメモリ４０を含み、メモリ４０が、１つ或いは複数のプログラムを記憶するためのものであり、メモリ４０に記憶された１つ或いは複数のプログラムが１つ或いは複数のプロセッサ３０によって実行される時、１つ或いは複数のプロセッサ３０に上記図１〜図２に示す実施例の音声接続合成の処理方法を実現させる。図５に示す実施例において複数のプロセッサ３０を含むことを例とする。

例えば、図６は、本発明に提供されたコンピュータ設備の例の図である。図６は、本発明の実施形態を実現するために適応する、例示的なコンピュータ設備１２ａのブロック図を示す。図６に示すコンピュータ設備１２ａは、１つの例だけであり、本発明の実施例の機能及び使用範囲を制限するものではない。

図６に示すように、コンピュータ設備１２ａは、汎用演算設備の形態で表現される。コンピュータ設備１２ａの構成要素には、１つ又は複数のプロセッサ１６ａと、システムメモリ２８ａと、異なるシステム構成要素（システムメモリ２８ａとプロセッサ１６ａとを含む）を接続するためのバス１８ａを含んでいるが、これに限定されない。

バス１８ａは、複数種類のバス構成の中の１つ又は複数の種類を示し、メモリバス又はメモリコントローラ、周辺バス、グラフィック加速ポート、プロセッサ又は複数種類のバス構成でのいずれかのバス構成を使用したローカルバスを含む。例えば、それらの架構には、工業標準架構（ＩＳＡ）バス、マイクロチャンネル架構（ＭＡＣ）バス、増強型ＩＳＡバス、ビデオ電子規格協会（ＶＥＳＡ）ローカルバス及び周辺コンポーネント接続（ＰＣＩ）バスを含んでいるが、これに限定されない。

コンピュータ設備１２ａは、典型的には複数のコンピュータシステム読取り可能な媒体を含む。それらの媒体は、コンピュータ設備１２ａにアクセスされて使用可能な任意な媒体であり、揮発性な媒体と不揮発性な媒体や移動可能な媒体と移動不可な媒体を含む。

システムメモリ２８ａは、揮発性なメモリ形態のコンピュータシステム読取り可能な媒体、例えばランダムアクセスメモリ（ＲＡＭ）３０ａ及び／又はキャッシュメモリ３２ａを含むことができる。コンピュータ設備１２ａには、更に他の移動可能／移動不可なコンピュータシステム記憶媒体や揮発性／不揮発性のコンピュータシステム記憶媒体を含むことができる。例として、ストレジ３４ａは、移動不可能な不揮発性磁媒体を読み書くために用いられる（図６に示していないが、常に「ハードディスクドライブ」とも呼ばれる）。図６に示していないが、移動可能な不揮発性磁気ディスク（例えば「フレキシブルディスク」）に対して読み書きを行うための磁気ディスクドライブ、及び移動可能な不揮発性光ディスク（例えばＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ又は他の光媒体）に対して読み書きを行うための光ディスクドライブを提供できる。このような場合に、各ドライブは、それぞれ１つ又は複数のデータ媒体インターフェースによってバス１８ａに接続される。システムメモリ２８ａには少なくとも１つのプログラム製品を含み、該プログラム製品は１組の（例えば少なくとも１つの）プログラムモジュールを含み、それらのプログラムモジュールは、本発明の図１〜図４の各実施例の機能を実行するように配置される。

１組の（少なくとも１つの）プログラムモジュール４２ａを含むプログラム／実用ツール４０ａは、例えばシステムメモリ２８ａに記憶され、このようなプログラムモジュール４２ａは、オペレーティングシステム、１つの又は複数のアプリケーションプログラム、他のプログラムモジュール及びプログラムデータを含んでいるが、これに限定しておらず、それらの例示での１つ又はある組み合にはネットワーク環境の実現を含む可能性がある。プログラムモジュール４２ａは、常に本発明に記載されている上記図１〜４の各実施例における機能及び／或いは方法を実行する。

コンピュータ設備１２ａは、1つ又は複数の周辺設備１４ａ（例えばキーボード、ポインティングデバイス、ディスプレイ２４ａ等）と通信を行ってもよく、コンピュータ設備１２ａは、1つ又は複数のユーザと該コンピュータ設備１２ａとのインタラクティブを実現することができる設備と通信を行ってもよく、及び／又は該コンピュータ設備１２ａと1つ又は複数の他の演算設備との通信を実現することができるいずれかの設備（例えばネットワークカード、モデム等）と通信を行っても良い。このような通信は入力／出力（Ｉ／Ｏ）インターフェース２２ａによって行うことができる。そして、コンピュータ設備１２ａは、ネットワークアダプタ２０ａによって、1つ又は複数のネットワーク（例えばローカルエリアネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）及び／又は公衆回線網、例えばインターネット）と通信を行っても良い。図に示すように、ネットワークアダプタ２０ａは、バス１８ａによってコンピュータ設備１２ａの他のモジュールと通信を行う。当然のことながら、図に示していないが、コンピュータ設備１２ａと連携して他のハードウェア及び／又はソフトウェアモジュールを使用することができ、マイクロコード、設備ドライブ、冗長処理手段、外部磁気ディスクドライブアレイ、ＲＡＩＤシステム、磁気テープドライブ及びデータバックアップストレジ等を含むが、これに限定されない。

プロセッサ１６ａは、メモリ２８ａに記憶されているプログラムを実行することで、様々な機能応用及びデータ処理、例えば本発明に記載されている実施例における音声接続合成の処理方法を実現する。

本発明は、コンピュータプログラムが記憶されているコンピュータ読取り可能な記憶媒体であって、当該プログラムがプロセッサによって実行される時、上記実施例に示すような音声接続合成の処理方法を実現するものを提供する。

本実施例のコンピュータ読み取り可能な媒体は、上記図６に示す実施例におけるシステムメモリ２８ａにおけるＲＡＭ３０ａ、及び／或いはキャッシュメモリ３２ａ、及び／或いはストレジ３４ａを含むことができる。

科学技術の発展に従い、コンピュータプログラムの伝送方式も、有形な媒体に限らず、ネットワーク等から直接ダウンロードすることもでき、或いは他の方式を採用して取得することもできる。従って、本実施例におけるコンピュータ読み取り可能な媒体は、有形な媒体だけでなく、無形な媒体を含んでもよい。

本実施例のコンピュータ読み取り可能な媒体は、１つ又は複数のコンピュータ読み取り可能な媒体の任意な組合を採用しても良い。コンピュータ読み取り可能な媒体は、コンピュータ読み取り可能な信号媒体又はコンピュータ読み取り可能な記憶媒体である。コンピュータ読み取り可能な記憶媒体は、例えば、電気、磁気、光、電磁気、赤外線、又は半導体のシステム、装置又はデバイス、或いは上記ものの任意な組合であるが、これに限定されない。コンピュータ読み取り可能な記憶媒体の更なる具体的な例（網羅していないリスト）には、１つ又は複数のワイヤを具備する電気的な接続、携帯式コンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュ）、光ファイバー、携帯式コンパクト磁気ディスクリードオンリーメモリ（ＣＤ−ＲＯＭ）、光メモリ部材、磁気メモリ部材、又は上記ものの任意で適当な組合を含む。本願において、コンピュータ読み取り可能な記憶媒体は、プログラムを含む又は記憶する任意な有形な媒体であり、該プログラムは、命令実行システム、装置又はデバイスに使用される又はそれらと連携して使用されるができる。

コンピュータ読み取り可能な信号媒体には、ベースバンドにおいて伝搬されるデータ信号或いはキャリアの一部として伝搬されるデータ信号を含み、それにコンピュータ読み取り可能なプログラムコードが載っている。このような伝搬されるデータ信号について、複数種類の形態を採用でき、電磁気信号、光信号又はそれらの任意で適当な組合を含んでいるが、これに限定されない。コンピュータ読み取り可能な信号媒体は、コンピュータ読み取り可能な記憶媒体以外の任意なコンピュータ読み取り可能な媒体であってもよく、該コンピュータ読み取り可能な媒体は、命令実行システム、装置又はデバイスによって使用される又はそれと連携して使用されるプログラムを送信、伝搬又は伝送できる。

コンピュータ読み取り可能な媒体に記憶されたプログラムコードは、任意で適正な媒体によって伝送されてもよく、無線、電線、光ケーブル、ＲＦ等、又は上記ものの任意で適当な組合が含まれているが、これに限定されない。

１つ又は複数のプログラミング言語又はそれらの組合で、本発明の操作を実行するためのコンピュータプログラムコードを編集することができ、上記プログラミング言語は、オブジェクト向けのプログラミング言語、例えばＪａｖａ（登録商標）、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋が含まれ、通常のプロシージャ向けプログラミング言語、例えば「Ｃ」言語又は類似しているプログラミング言語も含まれる。プログラムコードは、完全的にユーザコンピュータに実行されてもよく、部分的にユーザコンピュータに実行されてもよく、１つの独立のソフトウェアパッケージとして実行されてもよく、部分的にユーザコンピュータに実行され且つ部分的に遠隔コンピュータに実行されてもよく、又は完全的に遠隔コンピュータ又はサーバに実行されてもよい。遠隔コンピュータに係る場合に、遠隔コンピュータは、ローカルエリアネットワーク（ＬＡＮ）又は広域ネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介して、ユーザコンピュータ又は外部コンピュータに接続できる（例えば、インターネットサービス事業者を利用してインターネットを介して接続できる）。

本発明に開示されたいくつの実施例で開示された装置および方法などが、他の手段によって実現できることを理解すべきである。例えば、上述の装置に関する実施形態は例示だけであり、例えば、上記手段の区分がロジック機能上の区分だけであり、実際に実現する時、他の区分方式がある。

上記の分離部品として説明された手段が、物理的に分離されてもよく、物理的に分離されなくてもよく、手段として表される部品が、物理手段でもよく、物理手段でなくてもよく、１つの箇所に位置してもよく、又は複数のネットワークセルに分布されても良い。実際必要に基づいて、その中の一部又は全部を選択して、本実施例の態様の目的を実現することができる。

また、本発明の各実施例における各機能手段が１つの処理手段に集積されてもよく、各手段が物理的に独立に存在してもよく、２つ又は２つ以上の手段が１つの手段に集積されても良い。上記集積された手段は、ハードウェアの形式で実現してもよく、ハードウェア＋ソフトウェア機能手段の形式で実現しても良い。

上記ソフトウェア機能手段の形式で実現する集積された手段は、１つのコンピュータ読み取り可能な記憶媒体に記憶されることができる。上記ソフトウェア機能手段は１つの記憶媒体に記憶されており、１台のコンピュータ設備（パソコン、サーバ、又はネットワーク設備等）又はプロセッサ（ｐｒｏｃｅｓｓｏｒ）に本発明の各実施例に記載された方法の一部の手順を実行させるための若干の命令を含む。前述の記憶媒体は、ＵＳＢメモリ、モバイルハードディスク、リードオンリーメモリ（ＲＯＭ，Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ，ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、磁気ディスク又は光ディスク等のプログラムコードを記憶できる媒体を含む。

以上の説明は、本発明の好ましい例示だけであり、本発明を限定するものではなく、本発明の主旨及び原則の範囲で実現する任意な修正、等価置換、改良なども、いずれも本発明の保護する範囲に属すべきである。

Claims

音声接続合成の処理方法であって、
予めに訓練された音声合成モデル及び取得された合成テキストに基づいて、音声ライブラリを拡張すること、
拡張された前記音声ライブラリを利用して音声接続合成処理を行うこと、を含み、
但し、拡張する前の前記音声ライブラリには人工的に採集された原始コーパスを含む
音声接続合成の処理方法。
予めに訓練された音声合成モデル及び取得された合成テキストに基づいて、音声ライブラリを拡張することは、具体的に、
前記音声合成モデル及び取得された前記合成テキストを利用して、前記合成テキストに対応する合成音声を合成すること、
前記合成テキスト及び対応する前記合成音声を合成コーパスとして、前記音声ライブラリを更新すること、を含む
請求項１に記載の音声接続合成の処理方法。
予めに訓練された音声合成モデル及び取得された合成テキストに基づいて、音声ライブラリを拡張する前、前記音声接続合成の処理方法は、
拡張する前の前記音声ライブラリにおける人工的に採集された前記原始コーパスに基づいて、前記音声合成モデルを訓練することを含む
請求項１または２に記載の音声接続合成の処理方法。
前記原始コーパスには原始テキスト及び対応する原始音声を含み、
音声ライブラリにおける人工的に採集された原始コーパスに基づいて、音声合成モデルを訓練することは、具体的に、
前記原始テキスト及び対応する前記原始音声に基づいて、前記音声合成モデルを訓練することを含む
請求項３に記載の音声接続合成の処理方法。
予めに訓練された音声合成モデル及び取得された合成テキストに基づいて、音声ライブラリを拡張する前、前記音声接続合成の処理方法は、
ネットワークから前記合成テキストを抽出することを含む
請求項１〜４のいずれか１項に記載の音声接続合成の処理方法。
前記音声合成モデルとしてＷａｖｅＮｅｔモデルを採用する
請求項１〜５のいずれか１項に記載の音声接続合成の処理方法。
音声接続合成の処理装置であって、
予めに訓練された音声合成モデル及び取得された合成テキストに基づいて、音声ライブラリを拡張するための拡張モジュールと、
拡張された前記音声ライブラリを利用して音声接続合成処理を行うための処理モジュールと、を含み、
ただし、拡張する前の前記音声ライブラリには人工的に採集された原始コーパスを含む
音声接続合成の処理装置。
前記拡張モジュールは、具体的に
前記音声合成モデル及び取得された前記合成テキストを利用して、前記合成テキストに対応する合成音声を合成し、
前記合成テキスト及び対応する前記合成音声を合成コーパスとして、前記音声ライブラリを更新するために用いられる
請求項７に記載の音声接続合成の処理装置。
前記音声接続合成の処理装置は、更に
拡張する前の前記音声ライブラリにおける人工的に採集された前記原始コーパスに基づいて、前記音声合成モデルを訓練するための訓練モジュールを含む
請求項７または８に記載の音声接続合成の処理装置。
前記原始コーパスには原始テキスト及び対応する原始音声を含み、
前記訓練モジュールは、具体的に、前記原始テキスト及び対応する前記原始音声に基づいて、前記音声合成モデルを訓練するために用いられる
請求項９に記載の音声接続合成の処理装置。
前記音声接続合成の処理装置は、更に
ネットワークから前記合成テキストを抽出するための抽出モジュールを含む
請求項７〜１０のいずれか１項に記載の音声接続合成の処理装置。
前記音声合成モデルとしてＷａｖｅＮｅｔモデルを採用する
請求項７〜１１のいずれか１項に記載の音声接続合成の処理装置。
コンピュータ設備であって、
１つ或いは複数のプロセッサと、
１つ或いは複数のプログラムが記憶されているメモリと、を含み、
前記１つ或いは複数のプログラムが前記１つ或いは複数のプロセッサによって実行される時、前記１つ或いは複数のプロセッサに請求項１〜６のいずれか１項に記載の音声接続合成の処理方法を実現させる
コンピュータ設備。
プロセッサによって実行される時、請求項１〜６のいずれか１項に記載の音声接続合成の処理方法を実現する
コンピュータプログラム。