JP6373924B2

JP6373924B2 - 音声合成システムの最適化方法及び装置

Info

Publication number: JP6373924B2
Application number: JP2016201900A
Authority: JP
Inventors: 慶暢 ▲はお▼; 秀林李; 白　潔; 潔白; 海員唐
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2016-01-19
Filing date: 2016-10-13
Publication date: 2018-08-15
Anticipated expiration: 2036-10-13
Also published as: JP2017129840A; US10242660B2; CN105489216B; US20170206886A1; KR101882103B1; CN105489216A; KR20170087016A

Description

本発明は音声合成技術分野に関し、特に音声合成システムの最適化方法及び装置に関する。

モバイル・インターネットと人工知能技術との高速な発展に伴い、音声を放送する場面や、小説を聞く場面や、新聞を聞く場面や、インテリジェントな相互場面など、一連の音声合成の場面はますます増えていく。

現在、音声合成システムは、テキストに音声合成する際、まず入力されたテキストについて正規化するように前処理し、続いてテキストについて単語分割と、品詞注釈と、発音を注記するなどの操作をし、さらにテキストについて韻律レベルを予測し、音響学パラメーターを予測し、最後に最終的な音声結果を出力する。

しかしながら、音声合成システムの構成は一般的に一定なものであり、実際的な場面と負荷状況により、融通して設定されることができず、異なる環境での音声合成需要に適応することもできない。例えば、音声合成システムは、短時間で大量の音声合成要求を受信する場合に、音声合成システムの負荷能力を超える可能性があり、音声合成要求の山積みになり、ユーザーがフィードバックを受信することが遅延になり、ユーザーの使用体験に影響を与える。

本発明は、関連技術における技術的課題の一つを解決することを目的とする。そのため、本発明の目的の一つは、音声合成システムの最適化方法を提出し、音声合成システムの負荷レベルにより、融通して対応する音声合成経路を選択することができ、ユーザーのために、より安定的なサービスを提供し、遅延の発生を避け、ユーザーの使用体験を向上する、ことにある。

本発明の第二番の目的は、音声合成システムの最適化装置を提供することである。

上記の目的を達成するために、本発明の第一の側面の実施例は音声合成システムの最適化方法を提供し、音声合成システムの最適化方法は、テキスト情報を含む音声合成要求を受信するステップと、前記音声合成要求を受信した時の音声合成システムの負荷レベルを決定するステップと、前記負荷レベルに対応する音声合成経路を選択し、前記音声合成経路により、前記テキスト情報に対して音声合成するステップと、を含む。

本発明の実施例の音声合成システムの最適化方法は、テキスト情報を含む音声合成要求を受信し、音声合成要求を受信した時の音声合成システムの負荷レベルを決定し、負荷レベルに対応する音声合成経路を選択し、更に音声合成経路により、テキスト情報に音声合成し、音声合成システムの負荷レベルにより対応する音声合成経路を融通して選択することができ、音声合成を実現し、ユーザーに、より安定的なサービスを提供し、遅延の発生を避け、ユーザーの使用体験を向上する。

本発明の第二の側面の実施例は音声合成システムの最適化装置を提供し、前記音声合成システムの最適化装置は、テキスト情報を含む音声合成要求を受信するための受信モジュールと、前記音声合成要求を受信した時の音声合成システムの負荷レベルを決定するための決定モジュールと、前記負荷レベルに対応する音声合成経路を選択し、前記音声合成経路に基づいて前記テキスト情報に対して音声合成するための合成モジュールと、を含む。

本発明の実施例の音声合成システムの最適化装置は、まずテキスト情報を含む音声合成要求を受信し、続いて音声合成要求を受信した時の音声合成システムの負荷レベルを決定し、更に負荷レベルに対応する音声合成経路を選択し、音声合成経路に基づいて、テキスト情報について音声合成し、音声合成システムの負荷レベルに基づいて対応する音声合成経路を融通して選択することができ、音声合成を実現し、ユーザーのために、より安定的なサービスを提供し、遅延の発生を避け、ユーザーの使用体験を向上する。

本発明の一つの実施形態による音声合成システムの最適化方法のフローチャートである。本発明の具体的な実施形態による音声合成システムの最適化方法のフローチャートである。本発明の具体的な実施形態による音声合成システムのフレーム構造を示す模式図である。本発明の一つの実施形態による音声合成システムを最適化装置の構造を示す模式図である。

以下に、本発明の実施形態を詳細に説明する。前記実施形態の例が図面に示されるが、同一または類似する符号は、常に、相同又は類似の部品、或いは、相同又は類似の機能を有する部品を表す。以下に、図面を参照しながら説明される実施形態は例示的なものであり、本発明を解釈するためだけに用いられ、本発明を限定するものと理解されてはならない。

以下に、図面を参照しながら本発明の実施例の音声合成システムの最適化方法及び装置を説明する。

図１は本発明の一つの実施形態による音声合成システムの最適化方法のフローチャートである。

図１に示されたように、音声合成システムの最適化方法は、以下のようなステップを含む。

Ｓ１、テキスト情報を含む音声合成要求を受信する。

ここで、音声合成要求は多種の場面を含み、例えば、友達からのメッセージ等の文字情報を音声に変換したり、小説のテキスト情報を音声に変換して放送したりする場面などを含んでも良い。

本発明の一つの実施例において、ユーザーが各種のクライアントから、例えば、ウェブサイト式クライアントや、ＡＰＰ式クライアントから送信された音声合成要求を受信することができる。

Ｓ２、音声合成要求を受信した時の音声合成システムの負荷レベルを決定する。
具体的に、音声合成要求を受信した時、現時点で音声合成システムが受信した音声合成要求の数量と、これらの音声合成要求に対応する応答時間を取得し、そして音声合成要求の数量と平均応答時間に基づいて、負荷レベルを決定する。音声合成要求の数量が要求応答能力より少なく、また平均応答時間が予め設定した時間より短い場合、負荷レベルが第一レベルであると決定する。音声合成要求の数量が要求応答能力より少なく、また平均応答時間が予め設定した時間より長い場合、負荷レベルが第二レベルであると決定する。音声合成要求の数量が要求応答能力より多い場合、負荷レベルが第三レベルであると決定する。

例として、音声合成システムのグランドバックはサーバー群で構成され、仮にサーバー群の要求応答能力が１秒毎に５００個の要求に応答することであるが、この時、音声合成システムは、１秒間に受信した音声合成要求の数量は１００個だとし、またこの１００個の音声合成要求の平均応答時間が予め設定した時間である５００ミリ秒より短いとすると、現時点で音声合成システムは過負荷しておらず、性能が優れ、負荷レベルが第一レベルであると決定することができる。仮に音声合成システムは、１秒間で受信した音声合成要求の数量が１００個であるが、この１００個の音声合成要求の平均応答時間が予め設定した時間５００ミリ秒より長いとすると、現時点で音声合成システムは過負荷していないが、性能が下がりはじめ、負荷レベルが第二レベルであると決定することができる。仮に音声合成システムは、１秒間で受信した音声合成要求の数量が１０００個だとすると、現時点で音声合成システムは過負荷し、負荷レベルが第三レベルであると確認することができる。

Ｓ３、負荷レベルに対応する音声合成経路を選択し、音声合成経路に基づいてテキスト情報に対して音声合成する。

負荷レベルが第一レベルである場合、第一レベルに対応する第一経路を選択して、テキスト情報を音声合成することができる。ここで、第一経路はＬＳＴＭ（長期短期記憶、Long short-term memory）モデルと、波形接続モデルと、を含んでよく、また波形接続モデルは第一パラメーターで設定する。

負荷レベルが第二レベルである場合、第二レベルに対応する第二経路を選択して音声合成してもいい。ここで、第二経路は、ＨＴＳ（HMM-based Speech Synthesis System，隠れマルコフモデルによる音声合成システム）モデルと、波形接続モデルと、を含み、波形接続モデルは第二パラメーターで設定する。

負荷レベルが第三レベルである場合、第三レベルに対応する第三経路を選択して、テキスト情報を音声合成してもいい。ここで、第三経路は、ＨＴＳモデルと、ボコーダモデルと、を含む。

本発明の一つの実施例において、音声合成システムがテキスト情報に対して音声合成する際、まずテキスト前処理モジュールに基づいて、入力されたテキストを正規化するように前処理し、続いてテキスト分析モジュールに基づいて、テキストについて単語分割と、品詞注釈と、発音を注記するなどの操作し、更に韻律階層予測モジュールに基づいて、テキストに韻律レベルを予測し、また音響学モデルモジュールに基づいて、音響学パラメーターを予測し、最後に、音声合成モジュールに基づいて、最終的な音声結果を出力する。上記五つのモジュールに基づいて音声合成を実現する経路を構成する。

ここで、音響学モデルモジュールは、ＨＴＳに基づくモデルで実現することができ、またＬＳＴＭに基づくモデルで実現することもできる。ＨＴＳに基づく音響学モデルは、計算性能上、ＬＳＴＭに基づく音響学モデルより優れる。即ち、ＨＴＳに基づく音響学モデルは、消耗時間が比較的に少ない。それに対して、ＬＳＴＭに基づく音響学モデルは、音声合成の自然な流れの方面で、性能がより優れている。同じ理論により、音声合成モジュールは、ボコーダモデルに基づくパラメーター生成方式を利用してもよいが、波形接続モデルに基づく接合生成方式を利用してもよい。ボコーダモデルに基づく音声合成は、資源の消耗がより少なく、計算時間も短い。波形接合に基づく音声合成は、資源の消耗が多く、計算時間も長い一方、音声合成の質が高い。

つまり、音声合成を実現する過程において、複数の選択可能な実現方式があるモジュールがあるため、複数の実現経路を組み合わせることができる。例えば、音声合成システムの負荷レベルが第一レベルである場合、音声合成システムの性能が優れ、ＬＳＴＭの音響学モデルと波形接続モデルとを選択することにより、音声合成の効果がより良くなる。その中、波形接続モデルにおいて、合成待機の接合ユニットを選択する際、コンテキストのパラメーターと、ＫＬＤ（Kullback-Leibler divergence，相対エントロピー）距離パラメーターと、音響学パラメーター等のパラメーターの予め設定閾値を設定することにより、第一パラメーターとして設定する。これにより、選択された接合ユニットの数量が多くなり、計算量が増加しているが、多い合成待機の接合ユニットのうち質がより良い接合ユニットを選択することができ、音声合成の効果をあげることができる。音声合成システムの負荷レベルが第二レベルである場合、音声合成システムの性能が一定の影響を与えられるため、ＨＴＳモデルと波形接続モデルを選択することにより音声合成の効果を適切にし、処理スピードも速い。ここで、波形接続モデルにおいて合成待機の接合ユニットを選択する際、コンテキストのパラメーター、ＫＬＤ距離パラメーター、音響学パラメーター等のパラメーターに予め設定閾値を設定することにより、第二パラメーターとして設定する。これにより、選択された接合ユニットの数量を少なくし、音声合成のある程度の質量が保証された上で、応答スピードを向上する。音声合成システムの負荷レベルが第三レベルである場合、音声合成システムは既に負荷が超えられているため、ＨＴＳモデルとボコーダモデルとを選択する必要があり、最速のスピードで応答させ、ユーザーが適時にフィードバックの音声合成結果を受信できるように保証する。

本発明の実施例の音声合成システムの最適化方法は、テキスト情報を含む音声合成要求を受信し、音声合成要求を受信した時の音声合成システムの負荷レベルを決定し、また負荷レベルに対応する音声合成経路を選択し、音声合成経路により、テキスト情報を音声合成し、音声合成システムの負荷レベルにより対応する音声合成経路を融通して選択することができる。よって、音声合成を実現し、ユーザーのために、より安定的なサービスを提供し、遅延の発生を避け、ユーザーの使用体験を向上することができる。

図２は本発明の具体的な実施形態による音声合成システムを最適化方法のフローチャートである。

図２に示されたように、音声合成システムの最適化方法は、以下のようなステップを含む。

Ｓ２０１、複数の音声合成要求を受信する。

まず、音声合成システムの構成フレームについて簡単に説明する。音声合成システムは、テキスト情報に対して音声合成する際、まずテキスト前処理モジュール１により、入力されたテキストを正規化するように前処理し、続いてテキスト分析モジュール２により、テキストについて単語分割と、品詞注釈と、発音を注記することとなどの操作をし、さらに韻律階層予測モジュール３により、テキストの韻律レベルを予測し、また音響学モデルモジュール４により、音響学パラメーターを予測し、最後に音声合成モジュール５により、最終的な音声結果を出力する。図３に示されたように、上記五つのモジュールにより、音声合成を実現する経路を構成する。ここで、音響学モデルモジュール４は、ＨＴＳに基づくモデルで実現することができ、つまり、経路４Ａである。同様で、ＬＳＴＭに基づくモデルで実現することができ、つまり、経路４Ｂである。ＨＴＳに基づく音響学モデルは、計算性能上で、ＬＳＴＭに基づく音響学モデルより優れる。即ち、ＨＴＳに基づく音響学モデルは、消耗時間が少ない。それに対し、ＬＳＴＭに基づく音響学モデルは音声合成の自然な流れの方面で、性能がより優れている。同じ理論により、音声合成モジュール５は、ボコーダに基づくモデルのパラメーター生成方式、即ち経路５Ａを利用してもよく、又は波形接続モデルに基づく接合生成方式、即ち経路５Ｂを利用してもよい。ボコーダモデルに基づく音声合成は、資源消耗がより少なく、計算時間も短い。それに対し、波形接合に基づく音声合成は、資源消耗がより多く、計算時間消耗も長い一方、音声合成の質が高い。

波形接合モジュールの接合生成方式を採用する際、更に二つの方式が含まれる。一番目の方式は、波形接続モデルにおいて合成待機の接合ユニットを選択する際、コンテキストパラメーターと、ＫＬＤ距離パラメーターと、音響学パラメーター等のパラメーターの予め設定閾値を設定することで、第一パラメーターと設定し、つまり経路６Ａである。よって、選択された接合ユニットの数量が多く、計算量が増加されているが、より多くの合成待機の接合ユニットのうち質がより良い接合ユニットを選択することができ、音声合成の効果をあげることができる。二番目の方式は、波形接続モデルにおいて合成待機の接合ユニットを選択する際に、コンテキストパラメーターと、ＫＬＤ距離パラメーターと、音響学パラメーター等のパラメーターの予め設定閾値を設定することで、第二パラメーターと設定し、つまり経路６Ｂである。よって、選択された接合ユニットの数量が少なく、ある程度の音声合成の質が保証された上で、応答のスピードを向上する。よって、音声合成システムは複数の経路を提供し、異なる場面を動的に適合する。

本発明の一つの実施例において、音声合成システムは、ウェブクライアントとａｐｐクライアントにより、ユーザーが発送した音声合成要求を受信する。例えば、ユーザーは、ｗｅｂ側で音声合成要求を発送してもよいが、ａｐｐ側で音声合成要求を発送してもよい。

Ｓ２０２、音声合成システムの負荷レベルを取得する。

具体的に、音声合成システムは、合成音声効果が最高な場合のＱＰＳ（１秒間に応答できる合成要求の数、Query Per Second）と、音声合成要求の平均応答時間と、を取得し、上記二つの指標により、負荷レベルを三つのレベルに分けられる。第一負荷レベルは、現時点の音声合成要求負荷がＱＰＳより少なく、平均応答時間が５００ｍｓより短いことを示す。第二負荷レベルは、現時点の音声合成要求負荷がＱＰＳより少なく、平均応答時間が５００ｍｓより長いことを示す。第三負荷レベルは、現時点の音声合成要求負荷ＱＰＳより多いことをしめす。

Ｓ２０３、負荷レベルにより、対応する音声合成経路を選択し、テキストに対して音声合成する。

負荷レベルが決定された後、負荷レベルにより、動的に音声合成経路を選択することができる。

第一負荷レベル：当該負荷レベルの場合、現時点の音声合成要求負荷がＱＰＳより少なく、平均応答時間が５００ｍｓより短いため、音声合成システムの性能が優れている。よって、音声合成効果が良い一方時間かかる経路を選択しても良い。即ち、４Ｂ−５Ｂ−６Ａを選択しても良い。

第二負荷レベル：当該負荷レベルの場合、現時点の音声合成要求負荷がＱＰＳより少ない一方、平均応答時間が５００ｍｓを超えているため、音声合成システムの性能が影響を与えられている。よって、経路４Ａ−５Ｂ−６Ｂを利用することで、応答スピードを向上することができる。

第三負荷レベル：当該負荷レベルの場合、現時点の音声合成要求負荷がＱＰＳより多いため、音声合成システムが既に負荷を超えている。よって、時間消耗が少なく、計算がより速い経路４Ａ−５Ａを動的に選択し、音声合成をする。

更に、音声合成システムは、音声合成の応用場面により、音声合成の経路を融通して計画することもできる。例えば、小説を読む場合や、新聞を読む場合では、音声合成結果の高質量を求めるため、Ｘ類の音声合成要求と設定しても良い。しかしながら、音声放送や、ロボットとの交互発話は、音声合成結果の高質量を求めないため、Ｙ類の音声合成要求と設定してもよい。

音声合成システムが第一負荷レベルにある際、受信された音声合成要求は、いずれも音声合成効果が良い一方時間かかる経路を選択する。即ち、経路４Ｂ−５Ｂ−６Ａを選択する。

音声合成システムが第二負荷レベルに達する際、Ｙ類の音声合成要求の合成効果を優先に下げる。即ち、Ｙ類の音声合成要求を動的に調整して、経路４Ａ−５Ｂ−６Ｂを採用して音声合成する。Ｙ類の音声合成要求は時間消耗が少ない音声合成経路を採用するため、音声合成要求の平均応答時間を下げる。下げられた応答時間が第二負荷レベルを満足すれば、Ｘ類の音声合成要求は、依然として合成効果が良い経路４Ｂ−５Ｂ−６Ａを採用することができる。下げられた応答時間が第二負荷レベルを満足することができない場合に、全ての音声合成要求を動的に４Ａ−５Ｂ−６Ｂ合成経路を採用して、音声合成する。

同じ理論により、音声合成システムが第三負荷レベルに達する際、Y類の音声合成要求の合成効果を優先に下げる。即ち、動的にＹ類の音声合成要求を調整し、経路４Ａ−５Ａにより音声合成し、音声合成要求の平均応答時間を下げる。下げられた平均応答時間が５００ｍｓより短いという条件を満足すれば、Ｘ類の音声合成要求は経路４Ｂ−５Ｂ−６Ａで音声合成する。そうでなければ、Ｘ類の音声合成要求は経路４Ａ−５Ｂ−６Ｂで音声合成する。下げられた平均応答時間が依然として５００ｍｓを超えていれば、全ての音声合成要求はいずれも経路４Ａ−５Ａで音声合成する。

上記により、音声合成システムは、より融通して各種の音声合成の応用場面に対応することができ、ユーザーにより安定的な音声合成サービスを提供し、音声合成要求のトラフィックのピーク時に、ハードウェアのコストを増えないという前提で、積極的な対応策略を提供し、ユーザーが結果をフィードバックされる場合の高遅延を避ける。

上記の目的を達するために、本発明は、音声合成システムの最適化装置を更に提出する。

図４は、本発明の一つの実施形態による音声合成システムの最適化装置の構造を示す模式図である。

図４に示されたように、音声合成システムの最適化装置は、受信モジュール１１０と、決定モジュール１２０と、合成モジュール１３０と、を含む。そのうち、決定モジュール１２０は、取得ユニット１２１と、決定ユニット１２２と、を含む。

ここで、受信モジュール１１０は、テキスト情報を含む音声合成要求を受信する。そのうち、音声合成要求は、多種類の場面、例えば、友達からのメッセージ等の文字情報を音声に変換したり、小説のテキスト情報を音声に変換して放送したりする場面等を含む。

本発明の実施例において、受信モジュール１１０は、ユーザーが各種のクライアント側から、例えばｗｅｂ式クライアント側や、ＡＰＰ式クライアント側から送信した音声合成要求を受信する。

決定モジュール１２０は、音声合成要求を受信した時の音声合成システムの負荷レベルを決定する。具体的に、音声合成要求を受信した際、取得ユニット１２１は、現時点の音声合成システムが受信した音声合成要求の数量と、これらの音声合成要求に対応する平均応答時間と、を取得し、その後、決定ユニット１２２は、音声合成要求の数量と平均応答時間とにより、負荷レベルを決定する。音声合成要求の数量が要求応答能力より少なく、平均応答時間が予め設定した時間より短い場合、負荷レベルは第一レベルであると決定する。音声合成要求の数量が要求応答能力より少なく、平均応答時間が予め設定した時間より長い場合、負荷レベルは第二レベルであると決定する。音声合成要求数量が要求応答能力より多い場合、負荷レベルは第三レベルであると決定する。

例えば、音声合成システムのバックグランドはサーバー群で構成され、仮に、サーバー群の要求応答能力が１秒毎に５００個の要求に応答するとする。この時、音声合成システムは、１秒間で受信する音声合成要求の数量が１００個で、且つこの１００個の音声合成要求の平均応答時間が予め設定した時間である５００ミリ秒より短い場合、現時点で音声合成システムは負荷を超えず、性能が優れ、負荷レベルは第一レベルであると決定することができる。仮に、音声合成システムは、１秒間で受信する音声合成要求の数量が１００個であるが、この１００個の音声合成要求の平均応答時間が予め設定した時間である５００ミリ秒より長い場合、現時点で音声合成システムは負荷を超えていないが、性能が下がり始め、負荷レベルは第二レベルであると決定することができる。仮に、音声合成システムは、１秒間で、受信する音声合成要求の数量が１０００個だとすれば、現時点で音声合成システムは負荷を超え、負荷レベルは第三レベルであると決定することができる。

合成モジュール１３０は、負荷レベルに対応する音声合成経路を選択し、音声合成経路により、テキスト情報に対して音声合成する。

負荷レベルが第一レベルである場合、合成モジュール１３０は、第一レベルに対応する第一経路を選択し、テキスト情報に対して音声合成する。ここで、第一経路は、ＬＳＴＭモデルと、波形接続モデルと、を含み、波形接続モデルは第一パラメーターで設定する。

負荷レベルが第二レベルである場合、合成モジュール１３０は、第二レベルに対応する第二経路を選択し、テキスト情報に対して音声合成する。ここで、第二経路は、ＬＳＴＭモデルと、波形接続モデルと、を含み、波形接続モデルは第二パラメーターで設定する。

負荷レベルが第三レベルである場合、合成モジュール１３０は、第三レベルに対応する第三経路を選択し、テキスト情報に対して音声合成する。ここで、第三経路は、ＨＴＳモデルとボコーダモデルとを含む。

本発明の一つの実施例において、音声合成システムがテキスト情報に対して音声合成する際、まず、テキスト前処理モデルで、入力されたテキストを正規化するように前処理し、続いてテキスト分析モジュールで、テキストに単語分割と、品詞注釈と、発音を註記するなどの操作をし、更に韻律階層予測モジュールで、テキストの韻律レベルを予測し、また音響学モデルモジュールで、音響学パラメーターを予測し、最後に、音声合成モジュールで、最終的な音声結果を出力する。上記五つのモジュールにより、音声合成を実現する経路を構成する。

ここで、音響学モデルモジュールは、ＨＴＳに基づくモデルにより実現してもよく、更にＬＳＴＭに基づくモデルにより実現してもよい。ＨＴＳに基づく音響学モデルは、計算性能上、ＬＳＴＭに基づく音響学モデルより優れている。即ち、ＨＴＳに基づく音響学モデルは、時間消耗が少ない。それに対し、ＬＳＴＭに基づく音響学モデルは、音声合成の自然な流れの方面で、より優れている。同じ理論により、音声合成モジュールは、ボコーダモデルに基づくパラメーター生成方式を利用してもよいが、波形接続モデルに基づく接合生成方式を利用してもよい。ボコーダモデルに基づく音声合成は、資源消耗がより少なく、計算時間も短い。波形接合に基づく音声合成は、資源消耗が多く、計算時間も長いが、音声合成の質が高い。

つまり、音声合成を実現する過程に、複数の選択可能な実現方式があるモジュールがあるため、複数の実現経路を組み合わせることができる。例えば、音声合成システムの負荷レベルが第一レベルである場合、音声合成システムの性能が優れるため、ＬＳＴＭの音響学モデルと波形接続モデルとを選択することにより、音声合成の効果はより良い。その中、波形接続モデルにおいて、合成待機の接合ユニットを選択する際、コンテキストのパラメーターと、ＫＬＤ距離パラメーターと、音響学パラメーターと等のパラメーターの予め設定閾値を設定することで、第一パラメーターとして設定する。これにより、選択された接合ユニットの数量が多く、計算量が増加しているが、合成待機の接合ユニットのうち質がより良い接合ユニットを選択することができ、音声合成の効果をあげることができる。音声合成システムの負荷レベルが第二レベルである場合、音声合成システムの性能がある程度の影響を与えられるため、ＨＴＳモデルと波形接続モデルとを選択することにより、音声合成の効果を適切にし、処理スピードも速い。ここで、波形接続モデルにおいて、合成待機の接合ユニットを選択する際、コンテキストのパラメーターと、ＫＬＤ距離パラメーターと、音響学パラメーターと等のパラメーターの予め設定閾値を設定することで、第二パラメーターとして設定する。これにより、選択された接合ユニットの数量が少なく、ある程度の音声合成の質が保証された上、応答スピードを向上する。音声合成システムの負荷レベルが第三レベルである場合、音声合成システムは既に負荷を超えるため、ＨＴＳモデルとボコーダモデルとを選択する必要があり、最速のスピードで応答し、ユーザーが適時にフィードバックの音声合成結果を受信できることを保証する。

本発明の実施例による音声合成システムの最適化装置は、テキスト情報を含む音声合成要求を受信し、音声合成要求を受信した時の音声合成システムの負荷レベルを決定し、負荷レベルに対応する音声合成経路を選択し、更に音声合成経路により、テキスト情報に対して音声合成し、音声合成システムの負荷レベルにより、対応する音声合成経路を融通して選択することができ、音声合成を実現し、ユーザーにより安定的なサービスを提供し、遅延の発生を避け、ユーザーの使用体験を向上する。

本発明の説明において、「中心」、「縦方向」、「横方向」、「長さ」、「幅」、「厚み」、「上」、「下」、「前」、「後」、「左」、「右」、「鉛直」、「水平」、「頂」、「底」、「内」、「外」、「時計回り」、「逆時計回り」、「軸方向」、「半径方向」、「周方向」などの用語が示す方位又は位置関係は、図面に示す方位又は位置関係に基づき、本発明を便利にまたは簡単に説明するために使用されるものであり、指定された装置又は部品が特定の方位にあり、特定の方位において構造され操作されると指示又は暗示するものではないので、本発明に対する限定と理解してはいけない。

なお、「第一」、「第二」の用語は目的を説明するためだけに用いられるものであり、比較的な重要性を指示又は暗示するか、或いは示された技術的特徴の数を黙示的に指示すると理解してはいけない。そこで、「第一」、「第二」が限定されている特徴は一つ又はより多くの前記特徴を含むことを明示又は暗示するものである。本発明の説明において、明確且つ具体的な限定がない限り、「複数」とは、二つ又は二つ以上のことを意味する。

なお、本発明の説明において、明確な規定と限定がない限り、「取り付け」、「互いに接続」、「接続」、「固定」の用語の意味は広く理解されるべきである。例えば、固定接続や、着脱可能な接続や、あるいは一体的な接続でも可能である。机械的な接続や、電気的な接続や、あるいは互いに通信することも可能である。直接的に接続することや、中間媒体を介して間接的に接続することや、二つの部品の内部が連通することや、あるいは二つの部品の間に相互の作用関係があることも可能である。当業者にとって、具体的な場合により上記用語の本発明においての具体的な意味を理解することができる。

本発明において、明確な規定と限定がない限り、第一特徴が第二特徴の「上」又は「下」にあることは、第一特徴と第二特徴とが直接的に接触することを含んでも良いし、第一特徴と第二特徴とが中間媒体を介して間接的に接触することを含んでもよい。また、第一特徴が第二特徴の「上」、「上方」又は「上面」にあることは、第一特徴が第二特徴の真上及び斜め上にあることを含むか、或いは、単に第一特徴の水平高さが第二特徴より高いことだけを表す。第一特徴が第二特徴の「下」、「下方」又は「下面」にあることは、第一特徴が第二特徴の真下及び斜め下にあることを含むか、或いは、単に第一特徴の水平高さが第二特徴より低いことだけを表す。

本発明の説明において、「一つの実施形態」、「一部の実施形態」、「例示的な実施形態」、「示例」、「具体的な例示」、或いは「一部の例示」などの用語を参考した説明とは、該実施形態或いは例示に結合して説明された具体的な特徴、構成、材料或いは特徴が、本発明の少なくとも一つの実施形態或いは例示に含まれることである。本明細書において、上記用語に対する例示的な描写は、必ずしも同じ実施形態或いは例示を示すことではない。又、説明された具体的な特徴、構成、材料或いは特徴は、いずれか一つ或いは複数の実施形態又は例示において適切に結合することができる。なお、お互いに矛盾しない場合、当業者は本明細書で描写された異なる実施例或いは示例、及び異なる実施例或いは例示の特徴を結合且つ組み合わせることができる。

以上、本発明の実施例を示して説明したが、上記実施例は例示的なもので、本発明を限定するものであると理解してはいけない。当業者は、本発明の範囲内で、上記実施例に対して各種の変化、補正、切り替え及び変形を行うことができる。

Claims

テキスト情報を含む音声合成要求を受信するステップと、
前記音声合成要求が受信された時の音声合成システムの負荷レベルを決定するステップと、
前記負荷レベルに対応する音声合成経路を選択し、前記音声合成経路に基づいて、前記テキスト情報に対して音声合成するステップと、を含み、
前記音声合成要求が受信された時の音声合成システムの負荷レベルを決定するステップは、
現時点で音声合成システムが受信した音声合成要求の数量と、対応する平均応答時間と、を取得するステップと、
前記音声合成要求の数量と前記平均応答時間とに基づいて、前記負荷レベルを決定するステップと、を含む、
ことを特徴とする音声合成システムの最適化方法。
前記音声合成要求の数量と前記平均応答時間とに基づいて、前記負荷レベルを決定するステップは、
前記音声合成要求の数量が要求応答能力より少なく、且つ前記平均応答時間が予め設定された時間より短い場合、前記負荷レベルを第一レベルであると決定するステップと、
前記音声合成要求の数量が要求応答能力より少なく、且つ前記平均応答時間が予め設定された時間より長い場合、前記負荷レベルを第二レベルであると決定するステップと、
前記音声合成要求の数量が要求応答能力より多い場合、前記負荷レベルを第三レベルであると決定するステップと、を含む、
ことを特徴とする請求項１に記載の音声合成システムの最適化方法。
前記負荷レベルに対応する音声合成経路を選択し、前記音声合成経路に基づいて、前記テキスト情報に対して音声合成するステップは、
前記負荷レベルが第一レベルである場合、前記第一レベルに対応する第一経路を選択して、前記テキスト情報に対して音声合成するステップと、
前記負荷レベルが第二レベルである場合、前記第二レベルに対応する第二経路を選択して、前記テキスト情報に対して音声合成するステップと、
前記負荷レベルが第三レベルである場合、前記第三レベルに対応する第三経路を選択して、前記テキスト情報に対して音声合成するステップと、を含む、
ことを特徴とする請求項２に記載の音声合成システムの最適化方法。
前記第一経路は、長期短期記憶ＬＳＴＭモデルと、波形接続モデルと、を含み、
前記波形接続モデルは、第一パラメーターで設定する、
ことを特徴とする請求項３に記載の音声合成システムの最適化方法。
前記第二経路は、隠れマルコフモデルによる音声合成システムＨＴＳモデルと、波形接続モデルと、を含み、
前記波形接続モデルは、第二パラメーターで設定する、
ことを特徴とする請求項３に記載の音声合成システムの最適化方法。
前記第三経路は、ＨＴＳモデルと、ボコーダモデルと、を含む、
ことを特徴とする請求項３に記載の音声合成システムの最適化方法。
テキスト情報を含む音声合成要求を受信するための受信モジュールと、
前記音声合成要求を受信した時の音声合成システムの負荷レベルを決定するための決定モジュールと、
前記負荷レベルに対応する音声合成経路を選択し、前記音声合成経路に基づいて、前記テキスト情報に対して音声合成するための合成モジュールと、を含み、
前記決定モジュールは、
現時点で音声合成システムが受信した音声合成要求の数量と、対応する平均応答時間とを取得するための取得ユニットと、
前記音声合成要求の数量と前記平均応答時間とに基づいて、前記負荷レベルを決定するための決定ユニットと、を含む、
ことを特徴とする音声合成システムの最適化装置。
前記決定ユニットは、
前記音声合成要求の数量が要求応答能力より少なく、且つ前記平均応答時間が予め設定された時間より短い場合、前記負荷レベルを第一レベルであると決定し、
前記音声合成要求の数量が要求応答能力より少なく、且つ前記平均応答時間が予め設定された時間より長い場合、前記負荷レベルを第二レベルであると決定し、
前記音声合成要求の数量が要求応答能力より多い場合、前記負荷レベルを第三レベルであると決定する、
ことを特徴とする請求項７に記載の音声合成システムの最適化装置。
前記合成モジュールは、
前記負荷レベルが第一レベルである場合、前記第一レベルに対応する第一経路を選択して、前記テキスト情報に対して音声合成し、
前記負荷レベルが第二レベルである場合、前記第二レベルに対応する第二経路を選択して、前記テキスト情報に対して音声合成し、
前記負荷レベルが第三レベルである場合、前記第三レベルに対応する第三経路を選択して、前記テキスト情報に対して音声合成する、
ことを特徴とする請求項８に記載の音声合成システムの最適化装置。
前記第一経路は、長期短期記憶ＬＳＴＭモデルと、波形接続モデルと、を含み、
前記波形接続モデルは、第一パラメーターで設定する、
ことを特徴とする請求項９に記載の音声合成システムの最適化装置。
前記第二経路は、隠れマルコフモデルによる音声合成システムＨＴＳモデルと、波形接続モデルと、を含み、
前記波形接続モデルは、第二パラメーターで設定する、
ことを特徴とする請求項９に記載の音声合成システムの最適化装置。
前記第三経路は、ＨＴＳモデルと、ボコーダモデルと、を含む、
ことを特徴とする請求項９に記載の音声合成システムの最適化装置。