JP6400129B2

JP6400129B2 - 音声合成方法と装置

Info

Publication number: JP6400129B2
Application number: JP2016572810A
Authority: JP
Inventors: シェ，ヤン; リ，シウリン; バイ，ジエ
Original assignee: バイドゥオンラインネットワークテクノロジー（ペキン）カンパニーリミテッド
Priority date: 2015-07-15
Filing date: 2015-11-24
Publication date: 2018-10-03
Anticipated expiration: 2035-11-24
Also published as: US10115389B2; CN104992704A; CN104992704B; WO2017008426A1; KR101880378B1; KR20170021226A; US20170200445A1; JP2017527837A

Description

本出願は、バイドォオンラインネットワークテクノロジー（ペイジン）カンパニーリミテッドが２０１５年７月１５日に中国国家知識産権局に提出し、且つ発明の名称が「音声合成方法と装置」で、特許出願番号が2015101417099.Xである特許出願を優先権として主張するものであり、当該中国特許出願の全内容は参照により本明細書に組み入れられる。

本発明は、音声処理技術分野に関し、特に音声合成方法と装置に関する。

音声合成技術は、サービスの提供形態によりクラウドエンジンをベースにした音声合成（以下「オンライン音声合成」と略する）と、ローカルエンジンをベースした音声合成（以下「オフライン音声合成」と略する）と、いう二つに分けられる。オンライン音声合成は高い自然度と、高い適時性と、クライアント側の設備資源を占用しない利点がある。しかし、その欠点も非常に明らかである。音声合成のアプリケーション（Application、以下Appと略する）を使用することで、一回に大きいテキストをサーバ―側まで送信できるが、サーバー側で合成された音声データは段階わけて上記Appをインストールしてあるクライアント側に送り返されることになっている。しかも、音声のデータ量は圧縮されても相対的に大きい（例えば、4kb/s）ため、もしネットワークの環境が安定的でないなら、オンライン音声合成は非常に遅くなり、連続的な合成を実現できない。オフライン音声合成はネットワークに依存しなくてもよいため、合成サービスの安定性を確保できるが、合成の効果はオンラインより比較的に悪い。

以上、従来技術で使用された音声合成技術の製品はみな単独なオンライン音声合成又は単独なオフラインの音声に基づいたのである。オンライン音声合成にはデータ流量の消耗が大きいが、ネットワークエラーに遭遇した場合に、ユーザーにエラーが発生していることを注意させるしかできないが、オフライン音声合成の効果はあまり自然的ではないため、ユーザーの体験が比較的に悪い。

本発明の目的は、従来技術における少なくとも一つの技術的課題を解決することである。

そこで、本発明の第一の目的は、音声合成方法を提供することである。当該方法は、オンライン音声合成とオフライン音声合成との利点を合わせ、更に安定的、効果の更に自然的な音声合成サービスを提供でき、ユーザーの音声合成に関する要求をいつも順調に成し遂げられ、ユーザーの音声合成サービスに対する認可度とユーザーの体験度とを高める。

本発明の第二の目的は、音声合成装置を提供することである。

上記目的を実現するために、本発明の第一実施例にある音声の合成方法は、テキストを処理し、合成されるべきテキストを取得するステップと、ネットワークに接続される場合、前記合成待機テキストを、オンライン音声合成システムに送信し、音声合成するステップと、もし前記オンライン音声合成システムで音声合成する過程において、前記オンライン音声合成システムに故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、前記オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成するステップと、を含む。

本発明の実施例にある音声合成方法で、ネットワークに接続される場合、上記合成待機テキストを、オンライン音声合成システムに送信し、音声合成する。もし、上記オンライン音声合成システムで音声合成する過程において、オンライン音声合成システムに故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成する。オンライン音声合成とオフライン音声合成との利点を合わせて、更に安定的、効果の更に自然的な音声合成サービスを提供し、ユーザーの音声合成に関する要求をいつも順調に成し遂げられ、ユーザーの音声合成サービスに対する認可度とユーザーの体験度を高める。

上記目的を実現するために、本発明の第二の実施例にある音声合成装置は、テキストを処理し、合成されるべきテキストを取得するためのテキスト処理モジュールと、ネットワークに接続される場合、前記テキスト処理モジュールが取得した合成されるべきテキストを、オンライン音声合成システムに送信し、音声合成し、もし前記オンライン音声合成システムで音声合成する過程において、前記オンライン音声合成システムに故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、前記オンライン音声合成システムで音声の合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成するための送信モジュールと、を含む。

本発明の実施例にある音声合成装置で、ネットワークに接続される場合、送信モジュールは、上記合成待機テキストをオンライン音声合成システムに送信し、音声合成する。もし、上記オンライン音声合成システムで音声合成する過程において、オンライン音声合成システムに故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成する。オンライン音声合成とオフライン音声合成との利点を合わせて、更に安定的、効果の更に自然的な音声合成サービスを提供し、ユーザーの音声合成に関する要求をいつも順調に成し遂げられ、ユーザーの音声合成サービスに対する認可度とユーザーの体験度を高める。

本発明の実施例は更に電子設備が提供されている。電子設備は、一つ又は複数のプロセッサと、メモリーと、一つ又は複数のプログラムと、を含む。前記一つ又は複数のプログラムは、前記メモリーに保存され、前記一つ又は複数のプロセッサにより実行される場合、以下のように操作する。テキストを処理し、合成されるべきテキストを取得するステップと、ネットワークに接続される場合、前記合成されるべきテキストをオンライン音声合成システムに送信し、音声合成するステップと、もし前記オンライン音声合成システムで音声合成する過程において、前記オンライン音声合成システムに故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、前記オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成するステップと、を実行する。

本発明の実施例は更に不揮発コンピューター記憶媒体が提供される。前記ンピューター記憶媒体は、一つ又は複数のモジュールを保存し、前記一つ又は複数のモジュールが実行される場合、以下のように操作する。テキストを処理し、合成されるべきテキストを取得するステップと、ネットワークに接続される場合、前記合成されるべきテキストをオンライン音声合成システムに送信し、音声合成するステップと、もし前記オンライン音声合成システムで音声合成する過程において、前記オンライン音声合成システムに故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、前記オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成するステップと、を実行する。

本発明の付加的特徴と利点は、一部が下記の説明の中にあり、一部が下記の説明により、明らかになり、又は本発明の実践により、理解される。

本発明の上述および／又は付加的な特徴と利点は、下記の添付図面を参照した実施例に対する説明により、明らかになり、理解されることが容易になる。その中で、
本発明の音声合成方法の一つの実施例のフローチャートである。本発明の音声合成方法のもう一つの実施例のフローチャートである。本発明の音声合成方法の更にもう一つの実施例のフローチャートである。本発明の音声合成方法の更にもう一つの実施例のフローチャートである。本発明の音声合成装置の一つの実施例の構造を示す図である。本発明の音声合成方法のもう一つの実施例の構造を示す図である。

以下に、本発明の実施例を詳細に説明する。前記実施例の例が図面に示されるが、同一または類似する符号は、常に、相同又は類似の部品、又は、相同又は類似の機能を有する部品を表す。以下に、図面を参照しながら説明される実施例は例示的なものであり、本発明を解釈するためだけに用いられ、本発明を限定するものと理解されてはならない。逆に、本発明の実施例は付加の特権請求の範囲の主旨と内容範囲に入るすべての変化、修正と等しいものを含む。

図１は本発明の音声合成方法の一つの実施例のフローチャートである。図１のように、当該音声の合成方法は以下のステップを含める。

ステップ１０１：テキストを処理し、合成されるべきテキストを取得する。

具体的に、テキストの処理は、テキストに対する文単位の分け及び単語分割と、品詞の表記と、数字符号の処理と、ピンインの表記と、韻律停頓の予測処理と、を含める。

ステップ102：ネットワークに接続される場合、上記合成されるべきテキストをオンライン音声合成システムに送信し、音声を合成する。

本実施例で、ネットワークに接続される場合、クライアント側は上記合成されるべきテキストをオンライン音声合成システムに送信し、音声合成する。オンライン音声合成システムは、波形スプライスという合成方法を採用し、録音された音声の断片をある規則に従い、センテンスにつなぎ合わせる。このような合成方法は、音声の品質がよく、聞いた感じが自然的で、また人間の発音に近い利点を有する。音声の品質がよく、聞いた感じが自然的及び人間の発音に近いという利点の効果を満たすために、通常にグラウド側の音ライブラリーのモデルはみな非常に大きく（通常複数のGに達せる）、ローカルに直接に適用することができない。

ステップ103：上記オンライン音声合成システムで音声を合成する過程において、オンライン音声合成システムには故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成する。

本実施例で、上記オンライン音声合成システムで音声合成する過程において、前記オンライン音声合成システムに故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、クライアント側はオンライン音声合成システムで音声合成が完成されなかったテキストをオフライン音声合成システムに送信し、音声合成する。オフライン音声合成システムは通常にパラメーターを合成する方法を採用する。音ライブラリーから事前に音響学のパラメーターを抽出し、そして音響学のパラメーターとボコーダーを利用して、ヴォイスを改めて生成する必要がある。このような方法で、保存する必要のある音ライブラリーデータの大きさをMバイトのレベルに減少でき、オフライン音声合成はスマートフォンなどのモバイル設備に使われることになれるが、音響学のパラメーターは本当の声ではないため、オフライン音声合成システムは合成された音の自然度と音質の面で、オンライン音声合成システムより劣る。

更に、音声の合成が完成されてから、クライアント側は、オンライン音声合成システムの音声データを、オフライン音声合成システムの音声データにつなぎ合わせ、完全的な音声合成データを取得する。

上記音声合成方法で、ネットワークに接続される場合、上記合成待機テキストをオンライン音声合成システムに送信し、音声合成する。もし上記オンライン音声合成システムで音声合成する過程において、オンライン音声合成システムには故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、オンライン音声合成システムで音声合成が完成されなかったテキストをオフライン音声合成システムに送信し、音声合成する。そして、オンライン音声合成とオフライン音声合成の利点を合わせて、更に安定的、効果の更に自然的な音声合成サービスを提供し、ユーザーの音声合成に関する要求をいつも順調に成し遂げられ、ユーザーの音声合成サービスに対する認可度とユーザーの体験度を高める。

図２は本発明の音声合成方法のもう一つの実施例のフローチャートである。図２のように、ステップ103の後、以下のステップも含める。

ステップ201：オフライン音声合成システムで音声合成する過程において、上記オンライン合成システムの故障が解消されたり、又はネットワークとの接続が回復される場合、オフライン音声合成システムで音声の合成が完成されなかったテキストをオンライン音声合成システムに送信し、音声合成する。

即ち、上記オンライン音声合成システムで音声合成する過程において、オンライン音声合成システムには故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、クライアント側はオンライン音声合成システムで音声合成が完成されなかったテキストをオフライン音声合成システムに送信し、音声合成するとともに、クライアント側はオンライン音声合成システムの故障が解消されているか否か、又は当該クライアント側のネットワーク接続が回復されているか否か、を絶えずに検査する。いったん、クライアント側はオンライン音声合成システムの故障が解消されたり、又は当該クライアント側のネットワーク接続が回復されたのを決定したら、クライアント側は、引き続きオフライン音声合成システムで音声合成が完成されなかったテキストをオンライン音声合成システムに送信し、音声合成する。即ち、本実施例では、更なる音声合成の効果を取得するために、クライアント側はオンライン音声合成システムでの音声合成を優先的に採用する。オンライン音声合成システムには故障が現れたり、又はクライアント側のネットワーク接続が中断された場合のみに、オンライン音声合成システムで音声合成が完成されなかったテキストをオフライン音声合成システムに送信し、音声合成する。

ステップ202：音声の合成が完成されてから、オンライン音声合成システムの音声データをオフライン音声合成システムの音声データにつなぎ合わせ、完全的な音声合成データを取得する。

図３は本発明の音声合成方法の更にもう一つの実施例のフローチャートである。図３のように、ステップ101の後に、ステップ103の前に、更に以下のようなステップを含むことができる。

ステップ301：ネットワークに接続されていない場合、上記合成待機テキストをオフライン音声合成システムに送信し、音声合成する。

ステップ302：上記ネットワーク接続が回復されてから、オフライン音声合成システムで音声合成が完成されなかったテキストを、オンライン音声合成システムに送信し、音声合成する。

本実施例で、合成されるべきテキストを取得してから、もしネットワークに接続されていないなら、クライアント側は、まず上記合成待機テキストをオフライン音声合成システムに送信し、音声合成する。そして、クライアント側は持続的にネットワークとの接続が回復されているか否かを検査する。ネットワークとの接続が回復されたのが検査により、わかったら、クライアント側はオフライン音声合成システムで音声合成が完成されなかったテキストを、オンライン音声合成システムに送信し、音声合成する。

図４は本発明の音声合成方法の更にもう一つの実施例のフローチャートである。図４のように、ステップ102の後に、更に以下のようなステップを含むことができる。

ステップ401：オンライン音声合成システムにより送信した音声合成すでに完成済みのセンテンスと対応する音声データを受信して保存する。そのうち、上記音声合成すでに完成済みのセンテンスに対応する音声データは、オンライン音声合成システムで合成されるべきテキストに対して文単位に分け、分けて得たすべてのセンテンスに対して音声合成することにより取得されたのである。

例として、合成待機テキストｔに対して、ネットワークに接続される場合、クライアント側は、合成されるべきテキストｔをオンライン音声合成システムに送信する。オンライン音声合成システムは、合成されるべきテキストｔを受信してから、合成されるべきテキストｔに対し、文の単位に分け、[t1、t2、t3、…]に表記する。そして、[t1、t2、t3、…]に対して、音声合成し、更に得た音声データ[a1、a2、a3、…]をクライアント側に送信する。

本実施例で、ステップ103は、ステップ402とステップ403と、を含める。

ステップ402：オンライン音声合成システムに故障が現れたり、又はネットワークとの接続が中断された際に、受信した音声の合成がすでに完成済みのセンテンスに対応する音声データを踏まえて、オンライン音声合成システムで音声合成が完成されなかったテキストを決定する。

例として、上記オンライン音声合成システムで音声合成する過程において、オンライン音声合成システムに故障が現れたり、又はクライアント側のネットワーク接続が中断された場合、クライアント側は、オンライン音声合成システムに故障が現れた或いはネットワーク接続が中断された際に受信した音声の合成がすでに完成済みのセンテンスに対応する音声データを踏まえ、前記音声データは[a1、a2]と仮定する場合、ｔ3に対応する音声データを取得する際に、エラーが発生したことを決定できる。従って、オンライン音声合成システムで音声合成が完成されなかったテキストがt3及びその後のテキストであることを決定できる。

ステップ403：上記オンライン音声合成システムで音声合成が完成されなかったテキストをオフライン音声合成システムに送信し、音声合成することにより、上記オンライン音声合成システムで音声合成が完成されなかったテキストに対応する音声データを取得する。

具体的に、オンライン音声合成システムで音声合成が完成されなかったテキストがt3及びその後のテキストであることを決定してから、クライアント側は、t3及びその後のテキストをオフライン音声合成システムに送信し、音声合成し、t3及びその後のテキストに対応する音声データ[a3’、…]を得る。

本実施例で、音声の合成が完成されてから、クライアント側は、オンライン音声合成システムの音声データをオフライン音声合成システムの音声データにつなぎ合わせ、完全的な音声合成データ[a1、a2、a3’、…]を取得することができる。

上記音声合成方法はニューザ―の音声合成に対する体験を改善し、ネットワーク環境の制限を突破でき、各種のネットワーク環境でユーザーの音声合成に関する要求を完成できるとともに、単独なオフライン音声合成より、さらに喜ばしい合成効果を取得することができ、音声合成サービスをさらに安定的、信頼的にさせる。

図５は本発明の音声合成装置のもう一つの実施例の構造を示す図である。本実施例で、音声合成装置は、クライアント側或いはクライアント側の一部として、本発明図1に示された実施例にある流れを実現できる。そのうち、上記クライアントアプリは知能モバイル端末にインストールでき、上記知能モバイル端末はスマートフォン及び/又はタブレットコンピューターなどでよい。本実施例で、知能モバイル端末の形態について限定しない。

図５のように、当該音声合成装置は、テキスト処理モジュール５１と送信モジュール５２と、を含める。

そのうち、テキスト処理モジュール５１は、テキストを処理し、合成されるべきテキストを取得することに用いられる。本実施例で、テキスト処理モジュール５１は、具体的に、テキストの文単位の分け及び単語分割と、品詞の表記と、数字符号の処理と、ピンインの表記と、韻律停頓の予測処理とに用いられる。

送信モジュール５２は、ネットワークに接続される場合、テキスト処理モジュール５１が取得した合成されるべきテキストをオンライン音声合成システムに送信し、音声合成する。上記オンライン音声合成システムで音声合成する過程において、オンライン音声合成システムには故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、引き続きオンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成することに用いられる。

本実施例で、ネットワークに接続される場合、送信モジュール５２は、上記合成されるべきテキストをオンライン音声合成システムに送信し、音声合成する。オンライン音声合成システムは、波形スプライスという合成方法を採用し、録音された音声の断片をある規則に従い、センテンスにつなぎ合わせる。このような合成方法は音声の品質がよく、聞いた感じが自然的及び人間の発音に近い利点を有する。音声の品質がよく、聞いた感じが自然的及び人間の発音に近いという利点の効果を満たすために、通常にグラウド側の音ライブラリーモデルはみな非常に大きく（通常複数のGに達せる）、ローカルに直接に適用できるようがない。

上記オンライン音声合成システムで音声合成する過程において、オンライン音声合成システムに故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、送信モジュール５２は、オンライン音声合成システムで音声合成が完成されなかったテキストをオフライン音声合成システムに送信し、音声合成する。オフライン音声合成システムは、通常にパラメーターを合成する方法を採用し、音ライブラリーから事前に音響学のパラメーターを抽出し、そして音響学のパラメーターとボコーダーを利用して、音を改めて生成する必要がある。このような方法で、保存される必要のある音ライブラリーデータの大きさをMバイトレベルに減少することにより、オフライン音声合成はスマートフォンなどのモバイル設備に使われることになれるが、音響学のパラメーターは本当の声ではないため、オフライン音声合成システムは合成された音の自然度と音質の面で、オンライン音声合成システムより劣る。

更に、送信モジュール５２はオフライン音声合成システムで音声合成する過程において、もしオンライン合成システムに現れた故障が解消されたり、又は上記ネットワークとの接続が回復される場合、オフライン音声合成システムで音声合成が、完成されなかったテキストをオンライン音声合成システムに送信し、音声合成する。

即ち、上記オンライン音声合成システムで音声合成する過程において、オンライン音声合成システムに故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、送信モジュール５２は、オンライン音声合成システムで音声合成が完成されなかったテキストをオフライン音声合成システムに送信し、音声合成するとともに、クライアント側は、オンライン音声合成システムの故障が解消されているか否か、又は当該クライアント側のネットワーク接続が回復されているか否かを、持続的に検査する。いったん、クライアント側は、オンライン音声合成システムの故障が解消されたり、又は当該クライアント側のネットワーク接続が回復されたのを決定したら、送信モジュール５２は、引き続きオフライン音声合成システムで音声合成が完成されなかったテキストを、オンライン音声合成システムに送信し、音声合成する。即ち、本実施例では、更なるよい音声合成の効果を取得するために、クライアント側はオンライン音声合成システムでの音声合成を優先的に採用する。オンライン音声合成システムに故障が現れたり、又はクライアント側のネットワーク接続が中断された場合のみに、送信モジュール５２は、オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成する。

更に、送信モジュール５２は、ネットワークに接続されていない場合、テキスト処理モジュール５１が取得した合成待機テキストを、オフライン音声合成システムに送信し、音声を合成し、上記ネットワークとの接続が回復されてから、オフライン音声合成システムで音声合成が完成されなかったテキストを、オンライン音声合成システムに送信し、音声合成する。

本実施例で、テキスト処理モジュール５１が合成されるべきテキストを取得してから、もしネットワークに接続されていないなら、送信モジュール５２は、まず上記合成待機テキストをオフライン音声合成システムに送信し、音声合成する。そして、クライアント側は、持続的に、ネットワークとの接続が回復されているか否かを検査する。ネットワークとの接続が回復されたのが検査により、わかったら、送信モジュール５２は、オフライン音声合成システムで音声合成が完成されなかったテキストを、オンライン音声合成システムに送信し、音声合成する。その後、上記オンライン音声合成システムで音声合成する過程において、オンライン音声合成システムに故障が現れたり、又は実際の使用中にネットワークとの接続が中断された場合、送信モジュール52は、オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成する。さらに、オンライン音声合成システムの故障が解消されたり、又は上記ネットワーク接続が回復されたのを決定した後、引き続き、オフライン音声合成システムで音声合成が完成されなかったテキストを、オンライン音声合成システムに送信し、音声合成する。

上記音声合成装置で、ネットワークに接続される場合、送信モジュール５２は、上記合成待機テキストをオンライン音声合成システムに送信し、音声合成する。もし上記オンライン音声合成システムで音声合成する過程において、オンライン音声合成システムに故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成する。そして、オンライン音声合成とオフライン音声合成の利点を合わせて、更に安定的、効果の更に自然的な音声合成サービスを提供し、ユーザーの音声合成に関する要求をいつも順調に成し遂げられ、ユーザーの音声合成サービスに対する認可度とユーザーの体験度とを高める。

図６は本発明の音声合成装置の更にもう一つの実施例の構造を示す図である。図５の示した音声合成装置に比べ、差異は、図６の示した音声合成装置において更に接合モジュール５３をも含めることにある。

接合モジュール５３は、音声の合成が完成されてから、オンライン音声合成システムの音声データを、オフライン音声合成システムの音声データにつなぎ合わせ、完全的な音声合成データを取得することに用いられる。

更に、上記音声合成装置は、受信モジュール５４と保存モジュール５５と、を含める。

そのうち、受信モジュール５４は、送信モジュール５２が上記合成されるべきテキストをオンライン音声合成システムに送信し、音声合成した後、上記オンライン音声合成システムが送信した音声合成がすでに完成済みのセンテンスの対応する音声データを受信し、上記音声合成がすでに完成済みのセンテンスに対応する音声データは、オンライン音声合成システムが上記合成されるべきテキストに対して文単位に分けし、更に分けて得たすべてのセンテンスに対して、音声合成することにより取得されたものである。

保存モジュール５５は、受信モジュール５４が受信した音声合成がすでに完成済みのセンテンスに対応する音声データを、保存する。

例として、合成待機テキストｔに対して、ネットワークに接続される場合、送信モジュール５２は、合成されるべきテキストｔをオンライン音声合成システムに送信する。オンライン音声合成システムは、合成されるべきテキストｔを受信してから、合成されるべきテキストｔに対し、文単位に分け、[t1、t2、t3、…]に表記する。そして、[t1、t2、t3、…]に対して、音声合成し、更に得た音声データ[a1、a2、a3、…]をクライアント側に送信する。

さらに、上記音声合成装置は、決定モジュール５６を含める。

決定モジュール５６は、オンライン音声合成システムに故障が現れたり、又はネットワークとの接続が中断された際に受信した、音声の合成がすでに完成済みのセンテンスに対応する音声データを踏まえて、オンライン音声合成システムで音声の合成が完成されなかったテキストを決定する。例として、もし上記オンライン音声合成システムで音声合成する過程において、オンライン音声合成システムに故障が現れたり、或いはクライアント側のネットワーク接続が中断される場合、決定モジュール５６は、オンライン音声合成システムに故障が現れたり、或いはネットワークとの接続が中断された際に受信した、音声の合成がすでに完成済みのセンテンスに対応する（[a1、a2]と仮定する）音声データを踏まえて、ｔ3に対応する音声データを取得する際にエラーが発生したことを決定できる。従って、決定モジュール５６は、オンライン音声合成システムで音声合成が完成されなかったテキストがt3及びその後のテキストである、のを決定できる。

この場合、送信モジュール５２は、上記オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成し、上記オンライン音声合成システムで音声の合成が完成されなかったテキストに対応する音声データを取得する。

具体的に、決定モジュール５６により、オンライン音声合成システムで音声合成が完成されなかったテキストがt3及びその後のテキストであることを決定してから、送信モジュール５２は、t3及びその後のテキストをオフライン音声合成システムに送信し、音声合成し、t3及びその後のテキストに対応する音声データ[a3’、…]を取得する。

本実施例で、音声合成が完成されてから、接合モジュール５３は、オンライン音声合成システムの音声データとオフライン音声合成システムの音声データとをつなぎ、完全的な音声合成データ[a1、a2、a3’、…]を取得する。

上記音声合成装置は、ユーザーの音声合成に対する体験を改善し、ネットワーク環境の制限を突破でき、各種のネットワーク環境でユーザーの音声合成に関する要求を完成できるとともに、単独なオフライン音声合成より、さらに喜ばしい合成効果を取得でき、音声合成サービスをさらに安定的、信頼的にさせる。

本発明の実施例で以下のような電子設備も提供されている。一つ又は複数のプロセッサと、メモリーと、一つ又は複数のプログラムと、を含む。前記一つ又は複数のプログラムは、前記メモリーに保存され、前記一つ又は複数のプロセッサに実行される場合、以下の操作を行う。テキストを処理し、合成されるべきテキストを取得する。ネットワークに接続される場合、前記合成されるべきテキストをオンライン音声合成システムに送信し、音声合成する。もし前記オンライン音声合成システムで音声合成する過程において、前記ンライン音声合成システムに故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、前記オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成する。

本発明の実施例で、一種の不揮発コンピューター記憶媒体も提供される。前記ンピューター記憶媒体には一つ又は複数のモジュールが保存され、前記一つ又は複数のモジュールが実行される場合、以下の操作が行われる。テキストを処理し、合成されるべきテキストを取得する。ネットワークに接続される場合、前記合成されるべきテキストを、オンライン音声合成システムに送信し、音声合成する。もし前記オンライン音声合成システムで音声合成する過程において、前記オンライン音声合成システムに故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、前記オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成する。

説明する必要があるのは、本発明の説明で、用語「第一」、「第二」などは目的の説明にしか使われなく、相対的な重要性の指示又は暗示に理解されてはいけない。また、本発明の説明で、別途の説明がない限り、「複数」の意味は少なくとも二個を指す。

フローチャート又はここでその他の方式で説明されたあらゆる過程又は方法の説明は、特定な論理機能又は過程のステップを実現することに使われる一つ又は更なる多い実行可能なコマンドのコードのモジュール、セグメント又は一部を含み、更に本発明の好ましい実施例の範囲はほかの実現を含み、うち、示された又は議論された順序に従わずに、関連機能に基づいてほとんど同時の形態に従う又は反対の順序に従うことを含み、機能を実行できることを表すことに理解されることができる。これは本発明の実施例の当業者に理解されるべき。

理解すべきなのは、本発明の各部分はハードウェア、ソフトウェア、ファームウェア又はこれらの組み合わせによって実現されることができる。上記実施例で、複数のステップ又は方法は、メモリーに保存されている、かつ適切なコマンド実行システムに実行されるソフトウェア又はファームウェアによる実現されることができる。例えば、ハードウェアで実現するなら、もう一つの実施例でと同じく、本分野の下記の周知技術のあらゆる項目又はかれらの組み合わせで実現できる。データ信号の論理機能を実現する論理ゲート回路に使われる離散的論理回路を有し、論理ゲート回路を組み合わせる適切な専用集成回路、プログラマブル・ゲート・アレイ（PGA）、フィールド・プログラマブル・ゲート・アレイ（FPGA）などを有する。

当業者は、上記実施例方法にある全部又は一部のステップを実現するには、プログラムによる関連ハードウェアを指示するのを通して完成できるのを理解できる。前記プログラムは一種のコンピューター読み出し可能な記憶媒体に保存できる。当該プログラムは実行される場合、方法の実施例にあるステップの一つ又はその組み合わせが含まれる。

また、本発明の各実施例にある各機能セルは一つの処理モジュールに集成されることもできるし、各セルの単独的物理的な存在でもいいし、二つ又は二つ以上のセルは一つのモジュールに集成されることもできる。上記集成されたモジュールはハードウェアの形で実現されることもできるし、ソフトウェア機能を持つモジュールで実現されることもできる。前記集成されたモジュールはもしソフトウェア機能のモジュールで実現され、また独立の製品として販売又は使用されるのであるなら、一つのコンピューターの読み出し可能な記憶媒体に保存することもできる。

上記言及した読み出し可能な記憶媒体は読み出し専用メモリー、又は磁気ディスク、又はCDなどでよい。

本明細書の説明で、用語「一つの実施例」、「いくつかの実施例」、「例示」、「具体的な例示」、又は「いくつかの例示」などの説明意味は当該実施例又は例示に合わせて、説明された具体的な特徴、構造、材料又は特色が本発明の少なくとも一つの実施例又は例示に含まれていることを指す。本明細書で、上記用語の暗示的な表現は同じ実施例又は例示を指しているのに限らない。なお、説明された具体的な特徴、構造、材料又は特色が一つ又は複数のいずれかの実施例又は例示で適切な方式で組み合わせられる。

以上、本発明の実施例を示して説明したが、理解できるのは上記実施例が例示的なもので、本発明を限定するものであると理解されてはいけない。普通の当業者は本発明の範囲内で、上記実施例に対して各種の変化、補正、切り替え及び変形を行うことができる。

Claims

コンピュータがテキストを処理し、合成されるべきテキストを取得するステップと、
コンピュータがネットワークに接続されている場合、前記合成されるべきテキストをオンライン音声合成システムに送信し、音声合成するステップと、
前記オンライン音声合成システムで音声合成する過程において、前記オンライン音声合成システムに故障が発生したり、又は実際の使用中にネットワークとの接続が中断される場合、前記オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成するステップと、を含む、
ことを特徴とする音声合成方法。
前記オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成するステップの後に、
前記オフライン音声合成システムで音声合成する過程において、前記オンライン合成システムの故障が解消されたり、又は前記ネットワークとの接続が回復される場合、引き続き前記オフライン音声合成システムで音声合成が完成されなかったテキストを、前記オンライン音声合成システムに送信し、音声合成するステップ、を更に含む、
ことを特徴とする請求項１に記載の方法。
前記テキストを処理し、合成されるべきテキストを取得した後、前記オンライン音声合成システムで音声合成が完成されなかったテキストをオフライン音声合成システムに送信し、音声合成するステップの前に、
コンピュータがネットワークに接続されていない場合、前記合成されるべきテキストをオフライン音声合成システムに送信し、音声合成するステップと、
前記ネットワークと接続された後、前記オフライン音声合成システムで音声合成が完成されなかったテキストを、オンライン音声合成システムに送信し、音声合成するステップと、を更に含む、
ことを特徴とする請求項１に記載の方法。
音声合成が完成された後、コンピュータが前記オンライン音声合成システムの音声データとオフライン音声合成システムの音声データとをつなぎ合わせ、完全な音声合成データを取得するステップを更に含む、
ことを特徴とする請求項１ないし３のいずれかに記載の方法。
コンピュータが前記テキストを処理することは、テキストに対する文単位の分け及び単語分割と、品詞の表記と、数字符号の処理と、ピンインの表記と、韻律のポーズの予測処理と、を含む、
ことを特徴とする請求項１乃至３のいずれかに記載の方法。
前記合成されるべきテキストをオンライン音声合成システムに送信し、音声合成するステップの後に、
コンピュータが前記オンライン音声合成システムにより送信された、音声合成がすでに完成されたセンテンスに対応する音声データを、受信して保存するステップ、を更に含み、
前記音声合成がすでに完成されたセンテンスに対応する音声データは、オンライン音声合成システムで合成されるべきテキストを文単位に分け、文単位に分けて得られた各センテンスに対して音声合成することにより、取得されたものである、
ことを特徴とする請求項１又は２に記載の方法。
コンピュータが前記オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成するステップは、
前記オンライン音声合成システムに故障が発生したり又は前記ネットワークとの接続が中断された際に受信した、音声合成がすでに完成されたセンテンスに対応する音声データに基づいて、前記オンライン音声合成システムで音声合成が完成されなかったテキストを決定するステップと、
前記オンライン音声合成システムで音声合成が完成されなかったテキストを、前記オフライン音声合成システムに送信し、音声合成することにより、前記オンライン音声合成システムで音声合成が完成されなかったテキストに対応する音声データを取得するステップと、を含む、
ことを特徴とする請求項６に記載の方法。
テキストを処理し、合成されるべきテキストを取得するためのテキスト処理モジュールと、
音声合成装置がネットワークに接続されている場合、前記テキスト処理モジュールが取得した合成されるべきテキストを、オンライン音声合成システムに送信して、音声合成し、前記オンライン音声合成システムで音声合成する過程において、前記オンライン音声合成システムに故障が発生したり、又は実際の使用中にネットワークとの接続が中断される場合、前記オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成するための送信モジュールと、
を含む、
ことを特徴とする音声合成装置。
前記送信モジュールは、
更に、前記オフライン音声合成システムで音声合成する過程において、前記オンライン合成システムの故障が解消されたり、又は前記ネットワークとの接続が回復される場合、
引き続き前記オフライン音声合成システムで音声合成が完成されなかったテキストを、前記オンライン音声合成システムに送信し、音声合成する、
ことを特徴とする請求項８に記載の装置。
前記送信モジュールは、
更に、前記音声合成装置がネットワークに接続されていない場合、前記テキスト処理モジュールが取得した合成されるべきテキストを、オフライン音声合成システムに送信し、音声合成し、
前記ネットワークと接続された後、前記オフライン音声合成システムで音声合成が完成されなかったテキストを、オンライン音声合成システムに送信し、音声合成する、
ことを特徴とする請求項８に記載の装置。
音声合成が完成された後、前記オンライン音声合成システムの音声データと前記オフライン音声合成システムの音声データとをつなぎ合わせ、完全な音声合成データを取得するための接合モジュール、を更に含む、
ことを特徴とする請求項８ないし１０のいずれかに記載の装置。
前記テキスト処理モジュールは、具体的に、テキストに対する文単位の分け及び単語分割と、品詞の表記と、数字符号の処理と、ピンインの表記と、韻律停頓の予測処理とに用いられる、
ことを特徴とする請求項８ないし１０のいずれかに記載の装置。
前記送信モジュールが前記合成されるべきテキストを、オンライン音声合成システムに送信し、音声合成した後、前記オンライン音声合成システムが送信した音声合成がすでに完成されたセンテンスに対応する音声データを受信し、前記音声合成がすでに完成されたセンテンスに対応する音声データは、前記オンライン音声合成システムが前記合成されるべきテキストを文単位に分け、文単位に分けて得られた各センテンスに対して音声合成することにより取得されたものである、受信モジュールと、
前記受信モジュールが受信した音声合成がすでに完成されたセンテンスに対応する音声データを保存するための保存モジュールと、を更に含む、
ことを特徴とする請求項８又は９に記載の装置。
決定モジュールを更に含み、
前記決定モジュールは、前記オンライン音声合成システムに故障が発生したり、又は前記ネットワークとの接続が中断された際に受信した、音声合成がすでに完成されたセンテンスに対応する音声データに基づいて、前記オンライン音声合成システムで音声合成が完成されなかったテキストを決定し、
前記送信モジュールは、前記オンライン音声合成システムで音声合成が完成されなかったテキストを、前記オフライン音声合成システムに送信し、音声合成することにより、前記オンライン音声合成システムで音声合成が完成されなかったテキストに対応する音声データを取得する、
ことを特徴とする請求項１３に記載の装置。
一つ又は複数のプロセッサと、
メモリーと、
一つ又は複数のプログラムと、を含み、
前記一つ又は複数のプログラムは、前記メモリーに保存され、前記一つ又は複数のプロセッサにより実行される場合、請求項１〜７のいずれかに記載の方法を実行する、
ことを特徴とする電子機器。
一つ又は複数のモジュールを保存し、
前記一つ又は複数のモジュールが実行される場合、請求項１〜７のいずれかに記載の方法を実行する、
ことを特徴とする不揮発性コンピューター記憶媒体。