JP6373924B2 - 音声合成システムの最適化方法及び装置 - Google Patents

音声合成システムの最適化方法及び装置 Download PDF

Info

Publication number
JP6373924B2
JP6373924B2 JP2016201900A JP2016201900A JP6373924B2 JP 6373924 B2 JP6373924 B2 JP 6373924B2 JP 2016201900 A JP2016201900 A JP 2016201900A JP 2016201900 A JP2016201900 A JP 2016201900A JP 6373924 B2 JP6373924 B2 JP 6373924B2
Authority
JP
Japan
Prior art keywords
speech synthesis
level
load level
speech
synthesis system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016201900A
Other languages
English (en)
Other versions
JP2017129840A (ja
Inventor
慶暢 ▲はお▼
慶暢 ▲はお▼
秀林 李
秀林 李
白 潔
潔 白
海員 唐
海員 唐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Publication of JP2017129840A publication Critical patent/JP2017129840A/ja
Application granted granted Critical
Publication of JP6373924B2 publication Critical patent/JP6373924B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/38Flow based routing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L2013/021Overlap-add techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Description

本発明は音声合成技術分野に関し、特に音声合成システムの最適化方法及び装置に関する。
モバイル・インターネットと人工知能技術との高速な発展に伴い、音声を放送する場面や、小説を聞く場面や、新聞を聞く場面や、インテリジェントな相互場面など、一連の音声合成の場面はますます増えていく。
現在、音声合成システムは、テキストに音声合成する際、まず入力されたテキストについて正規化するように前処理し、続いてテキストについて単語分割と、品詞注釈と、発音を注記するなどの操作をし、さらにテキストについて韻律レベルを予測し、音響学パラメーターを予測し、最後に最終的な音声結果を出力する。
しかしながら、音声合成システムの構成は一般的に一定なものであり、実際的な場面と負荷状況により、融通して設定されることができず、異なる環境での音声合成需要に適応することもできない。例えば、音声合成システムは、短時間で大量の音声合成要求を受信する場合に、音声合成システムの負荷能力を超える可能性があり、音声合成要求の山積みになり、ユーザーがフィードバックを受信することが遅延になり、ユーザーの使用体験に影響を与える。
本発明は、関連技術における技術的課題の一つを解決することを目的とする。そのため、本発明の目的の一つは、音声合成システムの最適化方法を提出し、音声合成システムの負荷レベルにより、融通して対応する音声合成経路を選択することができ、ユーザーのために、より安定的なサービスを提供し、遅延の発生を避け、ユーザーの使用体験を向上する、ことにある。
本発明の第二番の目的は、音声合成システムの最適化装置を提供することである。
上記の目的を達成するために、本発明の第一の側面の実施例は音声合成システムの最適化方法を提供し、音声合成システムの最適化方法は、テキスト情報を含む音声合成要求を受信するステップと、前記音声合成要求を受信した時の音声合成システムの負荷レベルを決定するステップと、前記負荷レベルに対応する音声合成経路を選択し、前記音声合成経路により、前記テキスト情報に対して音声合成するステップと、を含む。
本発明の実施例の音声合成システムの最適化方法は、テキスト情報を含む音声合成要求を受信し、音声合成要求を受信した時の音声合成システムの負荷レベルを決定し、負荷レベルに対応する音声合成経路を選択し、更に音声合成経路により、テキスト情報に音声合成し、音声合成システムの負荷レベルにより対応する音声合成経路を融通して選択することができ、音声合成を実現し、ユーザーに、より安定的なサービスを提供し、遅延の発生を避け、ユーザーの使用体験を向上する。
本発明の第二の側面の実施例は音声合成システムの最適化装置を提供し、前記音声合成システムの最適化装置は、テキスト情報を含む音声合成要求を受信するための受信モジュールと、前記音声合成要求を受信した時の音声合成システムの負荷レベルを決定するための決定モジュールと、前記負荷レベルに対応する音声合成経路を選択し、前記音声合成経路に基づいて前記テキスト情報に対して音声合成するための合成モジュールと、を含む。
本発明の実施例の音声合成システムの最適化装置は、まずテキスト情報を含む音声合成要求を受信し、続いて音声合成要求を受信した時の音声合成システムの負荷レベルを決定し、更に負荷レベルに対応する音声合成経路を選択し、音声合成経路に基づいて、テキスト情報について音声合成し、音声合成システムの負荷レベルに基づいて対応する音声合成経路を融通して選択することができ、音声合成を実現し、ユーザーのために、より安定的なサービスを提供し、遅延の発生を避け、ユーザーの使用体験を向上する。
本発明の一つの実施形態による音声合成システムの最適化方法のフローチャートである。 本発明の具体的な実施形態による音声合成システムの最適化方法のフローチャートである。 本発明の具体的な実施形態による音声合成システムのフレーム構造を示す模式図である。 本発明の一つの実施形態による音声合成システムを最適化装置の構造を示す模式図である。
以下に、本発明の実施形態を詳細に説明する。前記実施形態の例が図面に示されるが、同一または類似する符号は、常に、相同又は類似の部品、或いは、相同又は類似の機能を有する部品を表す。以下に、図面を参照しながら説明される実施形態は例示的なものであり、本発明を解釈するためだけに用いられ、本発明を限定するものと理解されてはならない。
以下に、図面を参照しながら本発明の実施例の音声合成システムの最適化方法及び装置を説明する。
図1は本発明の一つの実施形態による音声合成システムの最適化方法のフローチャートである。
図1に示されたように、音声合成システムの最適化方法は、以下のようなステップを含む。
S1、テキスト情報を含む音声合成要求を受信する。
ここで、音声合成要求は多種の場面を含み、例えば、友達からのメッセージ等の文字情報を音声に変換したり、小説のテキスト情報を音声に変換して放送したりする場面などを含んでも良い。
本発明の一つの実施例において、ユーザーが各種のクライアントから、例えば、ウェブサイト式クライアントや、APP式クライアントから送信された音声合成要求を受信することができる。
S2、音声合成要求を受信した時の音声合成システムの負荷レベルを決定する。
具体的に、音声合成要求を受信した時、現時点で音声合成システムが受信した音声合成要求の数量と、これらの音声合成要求に対応する応答時間を取得し、そして音声合成要求の数量と平均応答時間に基づいて、負荷レベルを決定する。音声合成要求の数量が要求応答能力より少なく、また平均応答時間が予め設定した時間より短い場合、負荷レベルが第一レベルであると決定する。音声合成要求の数量が要求応答能力より少なく、また平均応答時間が予め設定した時間より長い場合、負荷レベルが第二レベルであると決定する。音声合成要求の数量が要求応答能力より多い場合、負荷レベルが第三レベルであると決定する。
例として、音声合成システムのグランドバックはサーバー群で構成され、仮にサーバー群の要求応答能力が1秒毎に500個の要求に応答することであるが、この時、音声合成システムは、1秒間に受信した音声合成要求の数量は100個だとし、またこの100個の音声合成要求の平均応答時間が予め設定した時間である500ミリ秒より短いとすると、現時点で音声合成システムは過負荷しておらず、性能が優れ、負荷レベルが第一レベルであると決定することができる。仮に音声合成システムは、1秒間で受信した音声合成要求の数量が100個であるが、この100個の音声合成要求の平均応答時間が予め設定した時間500ミリ秒より長いとすると、現時点で音声合成システムは過負荷していないが、性能が下がりはじめ、負荷レベルが第二レベルであると決定することができる。仮に音声合成システムは、1秒間で受信した音声合成要求の数量が1000個だとすると、現時点で音声合成システムは過負荷し、負荷レベルが第三レベルであると確認することができる。
S3、負荷レベルに対応する音声合成経路を選択し、音声合成経路に基づいてテキスト情報に対して音声合成する。
負荷レベルが第一レベルである場合、第一レベルに対応する第一経路を選択して、テキスト情報を音声合成することができる。ここで、第一経路はLSTM(長期短期記憶、Long short-term memory)モデルと、波形接続モデルと、を含んでよく、また波形接続モデルは第一パラメーターで設定する。
負荷レベルが第二レベルである場合、第二レベルに対応する第二経路を選択して音声合成してもいい。ここで、第二経路は、HTS(HMM-based Speech Synthesis System,隠れマルコフモデルによる音声合成システム)モデルと、波形接続モデルと、を含み、波形接続モデルは第二パラメーターで設定する。
負荷レベルが第三レベルである場合、第三レベルに対応する第三経路を選択して、テキスト情報を音声合成してもいい。ここで、第三経路は、HTSモデルと、ボコーダモデルと、を含む。
本発明の一つの実施例において、音声合成システムがテキスト情報に対して音声合成する際、まずテキスト前処理モジュールに基づいて、入力されたテキストを正規化するように前処理し、続いてテキスト分析モジュールに基づいて、テキストについて単語分割と、品詞注釈と、発音を注記するなどの操作し、更に韻律階層予測モジュールに基づいて、テキストに韻律レベルを予測し、また音響学モデルモジュールに基づいて、音響学パラメーターを予測し、最後に、音声合成モジュールに基づいて、最終的な音声結果を出力する。上記五つのモジュールに基づいて音声合成を実現する経路を構成する。
ここで、音響学モデルモジュールは、HTSに基づくモデルで実現することができ、またLSTMに基づくモデルで実現することもできる。HTSに基づく音響学モデルは、計算性能上、LSTMに基づく音響学モデルより優れる。即ち、HTSに基づく音響学モデルは、消耗時間が比較的に少ない。それに対して、LSTMに基づく音響学モデルは、音声合成の自然な流れの方面で、性能がより優れている。同じ理論により、音声合成モジュールは、ボコーダモデルに基づくパラメーター生成方式を利用してもよいが、波形接続モデルに基づく接合生成方式を利用してもよい。ボコーダモデルに基づく音声合成は、資源の消耗がより少なく、計算時間も短い。波形接合に基づく音声合成は、資源の消耗が多く、計算時間も長い一方、音声合成の質が高い。
つまり、音声合成を実現する過程において、複数の選択可能な実現方式があるモジュールがあるため、複数の実現経路を組み合わせることができる。例えば、音声合成システムの負荷レベルが第一レベルである場合、音声合成システムの性能が優れ、LSTMの音響学モデルと波形接続モデルとを選択することにより、音声合成の効果がより良くなる。その中、波形接続モデルにおいて、合成待機の接合ユニットを選択する際、コンテキストのパラメーターと、KLD(Kullback-Leibler divergence,相対エントロピー)距離パラメーターと、音響学パラメーター等のパラメーターの予め設定閾値を設定することにより、第一パラメーターとして設定する。これにより、選択された接合ユニットの数量が多くなり、計算量が増加しているが、多い合成待機の接合ユニットのうち質がより良い接合ユニットを選択することができ、音声合成の効果をあげることができる。音声合成システムの負荷レベルが第二レベルである場合、音声合成システムの性能が一定の影響を与えられるため、HTSモデルと波形接続モデルを選択することにより音声合成の効果を適切にし、処理スピードも速い。ここで、波形接続モデルにおいて合成待機の接合ユニットを選択する際、コンテキストのパラメーター、KLD距離パラメーター、音響学パラメーター等のパラメーターに予め設定閾値を設定することにより、第二パラメーターとして設定する。これにより、選択された接合ユニットの数量を少なくし、音声合成のある程度の質量が保証された上で、応答スピードを向上する。音声合成システムの負荷レベルが第三レベルである場合、音声合成システムは既に負荷が超えられているため、HTSモデルとボコーダモデルとを選択する必要があり、最速のスピードで応答させ、ユーザーが適時にフィードバックの音声合成結果を受信できるように保証する。
本発明の実施例の音声合成システムの最適化方法は、テキスト情報を含む音声合成要求を受信し、音声合成要求を受信した時の音声合成システムの負荷レベルを決定し、また負荷レベルに対応する音声合成経路を選択し、音声合成経路により、テキスト情報を音声合成し、音声合成システムの負荷レベルにより対応する音声合成経路を融通して選択することができる。よって、音声合成を実現し、ユーザーのために、より安定的なサービスを提供し、遅延の発生を避け、ユーザーの使用体験を向上することができる。
図2は本発明の具体的な実施形態による音声合成システムを最適化方法のフローチャートである。
図2に示されたように、音声合成システムの最適化方法は、以下のようなステップを含む。
S201、複数の音声合成要求を受信する。
まず、音声合成システムの構成フレームについて簡単に説明する。音声合成システムは、テキスト情報に対して音声合成する際、まずテキスト前処理モジュール1により、入力されたテキストを正規化するように前処理し、続いてテキスト分析モジュール2により、テキストについて単語分割と、品詞注釈と、発音を注記することとなどの操作をし、さらに韻律階層予測モジュール3により、テキストの韻律レベルを予測し、また音響学モデルモジュール4により、音響学パラメーターを予測し、最後に音声合成モジュール5により、最終的な音声結果を出力する。図3に示されたように、上記五つのモジュールにより、音声合成を実現する経路を構成する。ここで、音響学モデルモジュール4は、HTSに基づくモデルで実現することができ、つまり、経路4Aである。同様で、LSTMに基づくモデルで実現することができ、つまり、経路4Bである。HTSに基づく音響学モデルは、計算性能上で、LSTMに基づく音響学モデルより優れる。即ち、HTSに基づく音響学モデルは、消耗時間が少ない。それに対し、LSTMに基づく音響学モデルは音声合成の自然な流れの方面で、性能がより優れている。同じ理論により、音声合成モジュール5は、ボコーダに基づくモデルのパラメーター生成方式、即ち経路5Aを利用してもよく、又は波形接続モデルに基づく接合生成方式、即ち経路5Bを利用してもよい。ボコーダモデルに基づく音声合成は、資源消耗がより少なく、計算時間も短い。それに対し、波形接合に基づく音声合成は、資源消耗がより多く、計算時間消耗も長い一方、音声合成の質が高い。
波形接合モジュールの接合生成方式を採用する際、更に二つの方式が含まれる。一番目の方式は、波形接続モデルにおいて合成待機の接合ユニットを選択する際、コンテキストパラメーターと、KLD距離パラメーターと、音響学パラメーター等のパラメーターの予め設定閾値を設定することで、第一パラメーターと設定し、つまり経路6Aである。よって、選択された接合ユニットの数量が多く、計算量が増加されているが、より多くの合成待機の接合ユニットのうち質がより良い接合ユニットを選択することができ、音声合成の効果をあげることができる。二番目の方式は、波形接続モデルにおいて合成待機の接合ユニットを選択する際に、コンテキストパラメーターと、KLD距離パラメーターと、音響学パラメーター等のパラメーターの予め設定閾値を設定することで、第二パラメーターと設定し、つまり経路6Bである。よって、選択された接合ユニットの数量が少なく、ある程度の音声合成の質が保証された上で、応答のスピードを向上する。よって、音声合成システムは複数の経路を提供し、異なる場面を動的に適合する。
本発明の一つの実施例において、音声合成システムは、ウェブクライアントとappクライアントにより、ユーザーが発送した音声合成要求を受信する。例えば、ユーザーは、web側で音声合成要求を発送してもよいが、app側で音声合成要求を発送してもよい。
S202、音声合成システムの負荷レベルを取得する。
具体的に、音声合成システムは、合成音声効果が最高な場合のQPS(1秒間に応答できる合成要求の数、Query Per Second)と、音声合成要求の平均応答時間と、を取得し、上記二つの指標により、負荷レベルを三つのレベルに分けられる。第一負荷レベルは、現時点の音声合成要求負荷がQPSより少なく、平均応答時間が500msより短いことを示す。第二負荷レベルは、現時点の音声合成要求負荷がQPSより少なく、平均応答時間が500msより長いことを示す。第三負荷レベルは、現時点の音声合成要求負荷QPSより多いことをしめす。
S203、負荷レベルにより、対応する音声合成経路を選択し、テキストに対して音声合成する。
負荷レベルが決定された後、負荷レベルにより、動的に音声合成経路を選択することができる。
第一負荷レベル:当該負荷レベルの場合、現時点の音声合成要求負荷がQPSより少なく、平均応答時間が500msより短いため、音声合成システムの性能が優れている。よって、音声合成効果が良い一方時間かかる経路を選択しても良い。即ち、4B−5B−6Aを選択しても良い。
第二負荷レベル:当該負荷レベルの場合、現時点の音声合成要求負荷がQPSより少ない一方、平均応答時間が500msを超えているため、音声合成システムの性能が影響を与えられている。よって、経路4A−5B−6Bを利用することで、応答スピードを向上することができる。
第三負荷レベル:当該負荷レベルの場合、現時点の音声合成要求負荷がQPSより多いため、音声合成システムが既に負荷を超えている。よって、時間消耗が少なく、計算がより速い経路4A−5Aを動的に選択し、音声合成をする。
更に、音声合成システムは、音声合成の応用場面により、音声合成の経路を融通して計画することもできる。例えば、小説を読む場合や、新聞を読む場合では、音声合成結果の高質量を求めるため、X類の音声合成要求と設定しても良い。しかしながら、音声放送や、ロボットとの交互発話は、音声合成結果の高質量を求めないため、Y類の音声合成要求と設定してもよい。
音声合成システムが第一負荷レベルにある際、受信された音声合成要求は、いずれも音声合成効果が良い一方時間かかる経路を選択する。即ち、経路4B−5B−6Aを選択する。
音声合成システムが第二負荷レベルに達する際、Y類の音声合成要求の合成効果を優先に下げる。即ち、Y類の音声合成要求を動的に調整して、経路4A−5B−6Bを採用して音声合成する。Y類の音声合成要求は時間消耗が少ない音声合成経路を採用するため、音声合成要求の平均応答時間を下げる。下げられた応答時間が第二負荷レベルを満足すれば、X類の音声合成要求は、依然として合成効果が良い経路4B−5B−6Aを採用することができる。下げられた応答時間が第二負荷レベルを満足することができない場合に、全ての音声合成要求を動的に4A−5B−6B合成経路を採用して、音声合成する。
同じ理論により、音声合成システムが第三負荷レベルに達する際、Y類の音声合成要求の合成効果を優先に下げる。即ち、動的にY類の音声合成要求を調整し、経路4A−5Aにより音声合成し、音声合成要求の平均応答時間を下げる。下げられた平均応答時間が500msより短いという条件を満足すれば、X類の音声合成要求は経路4B−5B−6Aで音声合成する。そうでなければ、X類の音声合成要求は経路4A−5B−6Bで音声合成する。下げられた平均応答時間が依然として500msを超えていれば、全ての音声合成要求はいずれも経路4A−5Aで音声合成する。
上記により、音声合成システムは、より融通して各種の音声合成の応用場面に対応することができ、ユーザーにより安定的な音声合成サービスを提供し、音声合成要求のトラフィックのピーク時に、ハードウェアのコストを増えないという前提で、積極的な対応策略を提供し、ユーザーが結果をフィードバックされる場合の高遅延を避ける。
上記の目的を達するために、本発明は、音声合成システムの最適化装置を更に提出する。
図4は、本発明の一つの実施形態による音声合成システムの最適化装置の構造を示す模式図である。
図4に示されたように、音声合成システムの最適化装置は、受信モジュール110と、決定モジュール120と、合成モジュール130と、を含む。そのうち、決定モジュール120は、取得ユニット121と、決定ユニット122と、を含む。
ここで、受信モジュール110は、テキスト情報を含む音声合成要求を受信する。そのうち、音声合成要求は、多種類の場面、例えば、友達からのメッセージ等の文字情報を音声に変換したり、小説のテキスト情報を音声に変換して放送したりする場面等を含む。
本発明の実施例において、受信モジュール110は、ユーザーが各種のクライアント側から、例えばweb式クライアント側や、APP式クライアント側から送信した音声合成要求を受信する。
決定モジュール120は、音声合成要求を受信した時の音声合成システムの負荷レベルを決定する。具体的に、音声合成要求を受信した際、取得ユニット121は、現時点の音声合成システムが受信した音声合成要求の数量と、これらの音声合成要求に対応する平均応答時間と、を取得し、その後、決定ユニット122は、音声合成要求の数量と平均応答時間とにより、負荷レベルを決定する。音声合成要求の数量が要求応答能力より少なく、平均応答時間が予め設定した時間より短い場合、負荷レベルは第一レベルであると決定する。音声合成要求の数量が要求応答能力より少なく、平均応答時間が予め設定した時間より長い場合、負荷レベルは第二レベルであると決定する。音声合成要求数量が要求応答能力より多い場合、負荷レベルは第三レベルであると決定する。
例えば、音声合成システムのバックグランドはサーバー群で構成され、仮に、サーバー群の要求応答能力が1秒毎に500個の要求に応答するとする。この時、音声合成システムは、1秒間で受信する音声合成要求の数量が100個で、且つこの100個の音声合成要求の平均応答時間が予め設定した時間である500ミリ秒より短い場合、現時点で音声合成システムは負荷を超えず、性能が優れ、負荷レベルは第一レベルであると決定することができる。仮に、音声合成システムは、1秒間で受信する音声合成要求の数量が100個であるが、この100個の音声合成要求の平均応答時間が予め設定した時間である500ミリ秒より長い場合、現時点で音声合成システムは負荷を超えていないが、性能が下がり始め、負荷レベルは第二レベルであると決定することができる。仮に、音声合成システムは、1秒間で、受信する音声合成要求の数量が1000個だとすれば、現時点で音声合成システムは負荷を超え、負荷レベルは第三レベルであると決定することができる。
合成モジュール130は、負荷レベルに対応する音声合成経路を選択し、音声合成経路により、テキスト情報に対して音声合成する。
負荷レベルが第一レベルである場合、合成モジュール130は、第一レベルに対応する第一経路を選択し、テキスト情報に対して音声合成する。ここで、第一経路は、LSTMモデルと、波形接続モデルと、を含み、波形接続モデルは第一パラメーターで設定する。
負荷レベルが第二レベルである場合、合成モジュール130は、第二レベルに対応する第二経路を選択し、テキスト情報に対して音声合成する。ここで、第二経路は、LSTMモデルと、波形接続モデルと、を含み、波形接続モデルは第二パラメーターで設定する。
負荷レベルが第三レベルである場合、合成モジュール130は、第三レベルに対応する第三経路を選択し、テキスト情報に対して音声合成する。ここで、第三経路は、HTSモデルとボコーダモデルとを含む。
本発明の一つの実施例において、音声合成システムがテキスト情報に対して音声合成する際、まず、テキスト前処理モデルで、入力されたテキストを正規化するように前処理し、続いてテキスト分析モジュールで、テキストに単語分割と、品詞注釈と、発音を註記するなどの操作をし、更に韻律階層予測モジュールで、テキストの韻律レベルを予測し、また音響学モデルモジュールで、音響学パラメーターを予測し、最後に、音声合成モジュールで、最終的な音声結果を出力する。上記五つのモジュールにより、音声合成を実現する経路を構成する。
ここで、音響学モデルモジュールは、HTSに基づくモデルにより実現してもよく、更にLSTMに基づくモデルにより実現してもよい。HTSに基づく音響学モデルは、計算性能上、LSTMに基づく音響学モデルより優れている。即ち、HTSに基づく音響学モデルは、時間消耗が少ない。それに対し、LSTMに基づく音響学モデルは、音声合成の自然な流れの方面で、より優れている。同じ理論により、音声合成モジュールは、ボコーダモデルに基づくパラメーター生成方式を利用してもよいが、波形接続モデルに基づく接合生成方式を利用してもよい。ボコーダモデルに基づく音声合成は、資源消耗がより少なく、計算時間も短い。波形接合に基づく音声合成は、資源消耗が多く、計算時間も長いが、音声合成の質が高い。
つまり、音声合成を実現する過程に、複数の選択可能な実現方式があるモジュールがあるため、複数の実現経路を組み合わせることができる。例えば、音声合成システムの負荷レベルが第一レベルである場合、音声合成システムの性能が優れるため、LSTMの音響学モデルと波形接続モデルとを選択することにより、音声合成の効果はより良い。その中、波形接続モデルにおいて、合成待機の接合ユニットを選択する際、コンテキストのパラメーターと、KLD距離パラメーターと、音響学パラメーターと等のパラメーターの予め設定閾値を設定することで、第一パラメーターとして設定する。これにより、選択された接合ユニットの数量が多く、計算量が増加しているが、合成待機の接合ユニットのうち質がより良い接合ユニットを選択することができ、音声合成の効果をあげることができる。音声合成システムの負荷レベルが第二レベルである場合、音声合成システムの性能がある程度の影響を与えられるため、HTSモデルと波形接続モデルとを選択することにより、音声合成の効果を適切にし、処理スピードも速い。ここで、波形接続モデルにおいて、合成待機の接合ユニットを選択する際、コンテキストのパラメーターと、KLD距離パラメーターと、音響学パラメーターと等のパラメーターの予め設定閾値を設定することで、第二パラメーターとして設定する。これにより、選択された接合ユニットの数量が少なく、ある程度の音声合成の質が保証された上、応答スピードを向上する。音声合成システムの負荷レベルが第三レベルである場合、音声合成システムは既に負荷を超えるため、HTSモデルとボコーダモデルとを選択する必要があり、最速のスピードで応答し、ユーザーが適時にフィードバックの音声合成結果を受信できることを保証する。
本発明の実施例による音声合成システムの最適化装置は、テキスト情報を含む音声合成要求を受信し、音声合成要求を受信した時の音声合成システムの負荷レベルを決定し、負荷レベルに対応する音声合成経路を選択し、更に音声合成経路により、テキスト情報に対して音声合成し、音声合成システムの負荷レベルにより、対応する音声合成経路を融通して選択することができ、音声合成を実現し、ユーザーにより安定的なサービスを提供し、遅延の発生を避け、ユーザーの使用体験を向上する。
本発明の説明において、「中心」、「縦方向」、「横方向」、「長さ」、「幅」、「厚み」、「上」、「下」、「前」、「後」、「左」、「右」、「鉛直」、「水平」、「頂」、「底」、「内」、「外」、「時計回り」、「逆時計回り」、「軸方向」、「半径方向」、「周方向」などの用語が示す方位又は位置関係は、図面に示す方位又は位置関係に基づき、本発明を便利にまたは簡単に説明するために使用されるものであり、指定された装置又は部品が特定の方位にあり、特定の方位において構造され操作されると指示又は暗示するものではないので、本発明に対する限定と理解してはいけない。
なお、「第一」、「第二」の用語は目的を説明するためだけに用いられるものであり、比較的な重要性を指示又は暗示するか、或いは示された技術的特徴の数を黙示的に指示すると理解してはいけない。そこで、「第一」、「第二」が限定されている特徴は一つ又はより多くの前記特徴を含むことを明示又は暗示するものである。本発明の説明において、明確且つ具体的な限定がない限り、「複数」とは、二つ又は二つ以上のことを意味する。
なお、本発明の説明において、明確な規定と限定がない限り、「取り付け」、「互いに接続」、「接続」、「固定」の用語の意味は広く理解されるべきである。例えば、固定接続や、着脱可能な接続や、あるいは一体的な接続でも可能である。机械的な接続や、電気的な接続や、あるいは互いに通信することも可能である。直接的に接続することや、中間媒体を介して間接的に接続することや、二つの部品の内部が連通することや、あるいは二つの部品の間に相互の作用関係があることも可能である。当業者にとって、具体的な場合により上記用語の本発明においての具体的な意味を理解することができる。
本発明において、明確な規定と限定がない限り、第一特徴が第二特徴の「上」又は「下」にあることは、第一特徴と第二特徴とが直接的に接触することを含んでも良いし、第一特徴と第二特徴とが中間媒体を介して間接的に接触することを含んでもよい。また、第一特徴が第二特徴の「上」、「上方」又は「上面」にあることは、第一特徴が第二特徴の真上及び斜め上にあることを含むか、或いは、単に第一特徴の水平高さが第二特徴より高いことだけを表す。第一特徴が第二特徴の「下」、「下方」又は「下面」にあることは、第一特徴が第二特徴の真下及び斜め下にあることを含むか、或いは、単に第一特徴の水平高さが第二特徴より低いことだけを表す。
本発明の説明において、「一つの実施形態」、「一部の実施形態」、「例示的な実施形態」、「示例」、「具体的な例示」、或いは「一部の例示」などの用語を参考した説明とは、該実施形態或いは例示に結合して説明された具体的な特徴、構成、材料或いは特徴が、本発明の少なくとも一つの実施形態或いは例示に含まれることである。本明細書において、上記用語に対する例示的な描写は、必ずしも同じ実施形態或いは例示を示すことではない。又、説明された具体的な特徴、構成、材料或いは特徴は、いずれか一つ或いは複数の実施形態又は例示において適切に結合することができる。なお、お互いに矛盾しない場合、当業者は本明細書で描写された異なる実施例或いは示例、及び異なる実施例或いは例示の特徴を結合且つ組み合わせることができる。
以上、本発明の実施例を示して説明したが、上記実施例は例示的なもので、本発明を限定するものであると理解してはいけない。当業者は、本発明の範囲内で、上記実施例に対して各種の変化、補正、切り替え及び変形を行うことができる。

Claims (12)

  1. テキスト情報を含む音声合成要求を受信するステップと、
    前記音声合成要求が受信された時の音声合成システムの負荷レベルを決定するステップと、
    前記負荷レベルに対応する音声合成経路を選択し、前記音声合成経路に基づいて、前記テキスト情報に対して音声合成するステップと、を含
    前記音声合成要求が受信された時の音声合成システムの負荷レベルを決定するステップは、
    現時点で音声合成システムが受信した音声合成要求の数量と、対応する平均応答時間と、を取得するステップと、
    前記音声合成要求の数量と前記平均応答時間とに基づいて、前記負荷レベルを決定するステップと、を含む、
    ことを特徴とする音声合成システムの最適化方法。
  2. 前記音声合成要求の数量と前記平均応答時間とに基づいて、前記負荷レベルを決定するステップは、
    前記音声合成要求の数量が要求応答能力より少なく、且つ前記平均応答時間が予め設定された時間より短い場合、前記負荷レベルを第一レベルであると決定するステップと、
    前記音声合成要求の数量が要求応答能力より少なく、且つ前記平均応答時間が予め設定された時間より長い場合、前記負荷レベルを第二レベルであると決定するステップと、
    前記音声合成要求の数量が要求応答能力より多い場合、前記負荷レベルを第三レベルであると決定するステップと、を含む、
    ことを特徴とする請求項に記載の音声合成システムの最適化方法。
  3. 前記負荷レベルに対応する音声合成経路を選択し、前記音声合成経路に基づいて、前記テキスト情報に対して音声合成するステップは、
    前記負荷レベルが第一レベルである場合、前記第一レベルに対応する第一経路を選択して、前記テキスト情報に対して音声合成するステップと、
    前記負荷レベルが第二レベルである場合、前記第二レベルに対応する第二経路を選択して、前記テキスト情報に対して音声合成するステップと、
    前記負荷レベルが第三レベルである場合、前記第三レベルに対応する第三経路を選択して、前記テキスト情報に対して音声合成するステップと、を含む、
    ことを特徴とする請求項に記載の音声合成システムの最適化方法。
  4. 前記第一経路は、長期短期記憶LSTMモデルと、波形接続モデルと、を含み、
    前記波形接続モデルは、第一パラメーターで設定する、
    ことを特徴とする請求項に記載の音声合成システムの最適化方法。
  5. 前記第二経路は、隠れマルコフモデルによる音声合成システムHTSモデルと、波形接続モデルと、を含み、
    前記波形接続モデルは、第二パラメーターで設定する、
    ことを特徴とする請求項に記載の音声合成システムの最適化方法。
  6. 前記第三経路は、HTSモデルと、ボコーダモデルと、を含む、
    ことを特徴とする請求項に記載の音声合成システムの最適化方法。
  7. テキスト情報を含む音声合成要求を受信するための受信モジュールと、
    前記音声合成要求を受信した時の音声合成システムの負荷レベルを決定するための決定モジュールと、
    前記負荷レベルに対応する音声合成経路を選択し、前記音声合成経路に基づいて、前記テキスト情報に対して音声合成するための合成モジュールと、を含
    前記決定モジュールは、
    現時点で音声合成システムが受信した音声合成要求の数量と、対応する平均応答時間とを取得するための取得ユニットと、
    前記音声合成要求の数量と前記平均応答時間とに基づいて、前記負荷レベルを決定するための決定ユニットと、を含む、
    ことを特徴とする音声合成システムの最適化装置。
  8. 前記決定ユニットは、
    前記音声合成要求の数量が要求応答能力より少なく、且つ前記平均応答時間が予め設定された時間より短い場合、前記負荷レベルを第一レベルであると決定し、
    前記音声合成要求の数量が要求応答能力より少なく、且つ前記平均応答時間が予め設定された時間より長い場合、前記負荷レベルを第二レベルであると決定し、
    前記音声合成要求の数量が要求応答能力より多い場合、前記負荷レベルを第三レベルであると決定する、
    ことを特徴とする請求項に記載の音声合成システムの最適化装置。
  9. 前記合成モジュールは、
    前記負荷レベルが第一レベルである場合、前記第一レベルに対応する第一経路を選択して、前記テキスト情報に対して音声合成し、
    前記負荷レベルが第二レベルである場合、前記第二レベルに対応する第二経路を選択して、前記テキスト情報に対して音声合成し、
    前記負荷レベルが第三レベルである場合、前記第三レベルに対応する第三経路を選択して、前記テキスト情報に対して音声合成する、
    ことを特徴とする請求項に記載の音声合成システムの最適化装置。
  10. 前記第一経路は、長期短期記憶LSTMモデルと、波形接続モデルと、を含み、
    前記波形接続モデルは、第一パラメーターで設定する、
    ことを特徴とする請求項に記載の音声合成システムの最適化装置。
  11. 前記第二経路は、隠れマルコフモデルによる音声合成システムHTSモデルと、波形接続モデルと、を含み、
    前記波形接続モデルは、第二パラメーターで設定する、
    ことを特徴とする請求項に記載の音声合成システムの最適化装置。
  12. 前記第三経路は、HTSモデルと、ボコーダモデルと、を含む、
    ことを特徴とする請求項に記載の音声合成システムの最適化装置。
JP2016201900A 2016-01-19 2016-10-13 音声合成システムの最適化方法及び装置 Active JP6373924B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201610034930.8A CN105489216B (zh) 2016-01-19 2016-01-19 语音合成系统的优化方法和装置
CN201610034930.8 2016-01-19

Publications (2)

Publication Number Publication Date
JP2017129840A JP2017129840A (ja) 2017-07-27
JP6373924B2 true JP6373924B2 (ja) 2018-08-15

Family

ID=55676163

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016201900A Active JP6373924B2 (ja) 2016-01-19 2016-10-13 音声合成システムの最適化方法及び装置

Country Status (4)

Country Link
US (1) US10242660B2 (ja)
JP (1) JP6373924B2 (ja)
KR (1) KR101882103B1 (ja)
CN (1) CN105489216B (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107749931A (zh) * 2017-09-29 2018-03-02 携程旅游信息技术(上海)有限公司 互动式语音应答的方法、系统、设备及存储介质
CN112837669B (zh) * 2020-05-21 2023-10-24 腾讯科技(深圳)有限公司 语音合成方法、装置及服务器

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3446764B2 (ja) * 1991-11-12 2003-09-16 富士通株式会社 音声合成システム及び音声合成サーバ
JP3083640B2 (ja) * 1992-05-28 2000-09-04 株式会社東芝 音声合成方法および装置
KR0140131B1 (ko) * 1995-04-26 1998-07-01 김주용 이동통신 시스템에서 셀렉터와 다수개의 보코더 인터페이스 장치 및 방법
US6052666A (en) * 1995-11-06 2000-04-18 Thomson Multimedia S.A. Vocal identification of devices in a home environment
US7136816B1 (en) * 2002-04-05 2006-11-14 At&T Corp. System and method for predicting prosodic parameters
JP2004020613A (ja) * 2002-06-12 2004-01-22 Canon Inc サーバ、受信端末
CN1261846C (zh) * 2004-08-03 2006-06-28 威盛电子股份有限公司 一种计算机系统的实时电源管理方法及其系统
CN1787072B (zh) * 2004-12-07 2010-06-16 北京捷通华声语音技术有限公司 基于韵律模型和参数选音的语音合成方法
US8023574B2 (en) * 2006-05-05 2011-09-20 Intel Corporation Method and apparatus to support scalability in a multicarrier network
US20080154605A1 (en) * 2006-12-21 2008-06-26 International Business Machines Corporation Adaptive quality adjustments for speech synthesis in a real-time speech processing system based upon load
CN101849384A (zh) * 2007-11-06 2010-09-29 朗讯科技公司 用于控制网络系统负载均衡的方法、客户机、服务器以及网络系统
CN102117614B (zh) * 2010-01-05 2013-01-02 索尼爱立信移动通讯有限公司 个性化文本语音合成和个性化语音特征提取
JP2013057734A (ja) * 2011-09-07 2013-03-28 Toshiba Corp 音声変換装置、音声変換装システム、プログラムおよび音声変換方法
WO2013189063A1 (zh) * 2012-06-21 2013-12-27 华为技术有限公司 键值数据库的数据合并方法和装置
CN103841042B (zh) * 2014-02-19 2017-09-19 华为技术有限公司 在高运行效率下传输数据的方法和装置
CN104850612B (zh) * 2015-05-13 2020-08-04 中国电力科学研究院 一种基于增强凝聚层次聚类的配网用户负荷特征分类方法

Also Published As

Publication number Publication date
JP2017129840A (ja) 2017-07-27
US10242660B2 (en) 2019-03-26
CN105489216B (zh) 2020-03-03
US20170206886A1 (en) 2017-07-20
KR101882103B1 (ko) 2018-07-25
CN105489216A (zh) 2016-04-13
KR20170087016A (ko) 2017-07-27

Similar Documents

Publication Publication Date Title
CN111431941B (zh) 一种基于移动边缘计算的实时视频码率自适应方法
WO2020011154A1 (zh) 区块链透明分片方法、装置及系统
WO2022020092A1 (en) Content adaptive data center routing and forwarding in cloud computing environments
Liang et al. Enhancing video rate adaptation with mobile edge computing and caching in software-defined mobile networks
Chamola et al. Latency aware mobile task assignment and load balancing for edge cloudlets
CN1957640A (zh) 用于生成对低位速率应用的参数表示的方案
CN104219229B (zh) 虚拟桌面数据的传输方法和装置
JP6373924B2 (ja) 音声合成システムの最適化方法及び装置
US20180322879A1 (en) Multimodal transmission of packetized data
WO2017043309A1 (ja) 音声処理装置および方法、符号化装置、並びにプログラム
CN111211984B (zh) 优化cdn网络的方法、装置及电子设备
JP2006517698A (ja) マルチメディア・コンテンツを適合性変換する装置および方法
Abkenar et al. Energy optimization in association-free fog-IoT networks
CN113611296A (zh) 语音识别装置和拾音设备
CN101860538A (zh) 网络编码数据分段方法、视频传输方法及装置
CN110224904B (zh) 语音处理方法、装置、计算机可读存储介质和计算机设备
WO2021014933A1 (ja) 信号処理装置および方法、並びにプログラム
US11830476B1 (en) Learned condition text-to-speech synthesis
CN113672372A (zh) 一种基于强化学习的多边缘协同负载均衡任务调度方法
CN111951821B (zh) 通话方法和装置
US20230007423A1 (en) Signal processing device, method, and program
JP5257373B2 (ja) パケット送信装置、パケット送信方法及びパケット送信プログラム
JP2022122466A (ja) 通信システム、通信装置、及びプログラム
CN110933693B (zh) 一种信道确定以及数据处理方法、装置及电子设备
CN117789734B (zh) 音频处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180619

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180718

R150 Certificate of patent or registration of utility model

Ref document number: 6373924

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250