JP2017527837A - 音声合成方法と装置 - Google Patents

音声合成方法と装置 Download PDF

Info

Publication number
JP2017527837A
JP2017527837A JP2016572810A JP2016572810A JP2017527837A JP 2017527837 A JP2017527837 A JP 2017527837A JP 2016572810 A JP2016572810 A JP 2016572810A JP 2016572810 A JP2016572810 A JP 2016572810A JP 2017527837 A JP2017527837 A JP 2017527837A
Authority
JP
Japan
Prior art keywords
speech synthesis
text
synthesis system
online
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016572810A
Other languages
English (en)
Other versions
JP6400129B2 (ja
Inventor
シェ,ヤン
リ,シウリン
バイ,ジエ
Original Assignee
バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド, バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド filed Critical バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
Publication of JP2017527837A publication Critical patent/JP2017527837A/ja
Application granted granted Critical
Publication of JP6400129B2 publication Critical patent/JP6400129B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Abstract

本発明は音声合成方法と装置を提出する。当該音声合成方法はテキストを処理し、合成されるべきテキストを取得するステップと、ネットワークに接続される場合、前記合成待機テキストをオンライン音声合成システムに送信し、音声合成するステップと、前記オンライン音声合成システムで音声合成する過程において、前記オンライン音声合成システムに故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、前記オンライン音声合成システムで音声合成が完成されなかったテキストをオフライン音声合成システムに送信し、音声合成するステップと、を含む。本発明はオンライン音声合成とオフライン音声合成との利点を合わせ、更に安定的、効果の更に自然的な音声合成サービスを提供でき、ユーザーの音声合成に関する要求をいつも順調に成し遂げられ、ユーザーの音声合成サービスに対する認可度とユーザーの体験度を高める。【選択図】 図1

Description

本出願は、バイドォオンラインネットワークテクノロジー(ペイジン)カンパニーリミテッドが2015年7月15日に中国国家知識産権局に提出し、且つ発明の名称が「音声合成方法と装置」で、特許出願番号が2015101417099.Xである特許出願を優先権として主張するものであり、当該中国特許出願の全内容は参照により本明細書に組み入れられる。
本発明は、音声処理技術分野に関し、特に音声合成方法と装置に関する。
音声合成技術は、サービスの提供形態によりクラウドエンジンをベースにした音声合成(以下「オンライン音声合成」と略する)と、ローカルエンジンをベースした音声合成(以下「オフライン音声合成」と略する)と、いう二つに分けられる。オンライン音声合成は高い自然度と、高い適時性と、クライアント側の設備資源を占用しない利点がある。しかし、その欠点も非常に明らかである。音声合成のアプリケーション(Application、以下Appと略する)を使用することで、一回に大きいテキストをサーバ―側まで送信できるが、サーバー側で合成された音声データは段階わけて上記Appをインストールしてあるクライアント側に送り返されることになっている。しかも、音声のデータ量は圧縮されても相対的に大きい(例えば、4kb/s)ため、もしネットワークの環境が安定的でないなら、オンライン音声合成は非常に遅くなり、連続的な合成を実現できない。オフライン音声合成はネットワークに依存しなくてもよいため、合成サービスの安定性を確保できるが、合成の効果はオンラインより比較的に悪い。
以上、従来技術で使用された音声合成技術の製品はみな単独なオンライン音声合成又は単独なオフラインの音声に基づいたのである。オンライン音声合成にはデータ流量の消耗が大きいが、ネットワークエラーに遭遇した場合に、ユーザーにエラーが発生していることを注意させるしかできないが、オフライン音声合成の効果はあまり自然的ではないため、ユーザーの体験が比較的に悪い。
本発明の目的は、従来技術における少なくとも一つの技術的課題を解決することである。
そこで、本発明の第一の目的は、音声合成方法を提供することである。当該方法は、オンライン音声合成とオフライン音声合成との利点を合わせ、更に安定的、効果の更に自然的な音声合成サービスを提供でき、ユーザーの音声合成に関する要求をいつも順調に成し遂げられ、ユーザーの音声合成サービスに対する認可度とユーザーの体験度とを高める。
本発明の第二の目的は、音声合成装置を提供することである。
上記目的を実現するために、本発明の第一実施例にある音声の合成方法は、テキストを処理し、合成されるべきテキストを取得するステップと、ネットワークに接続される場合、前記合成待機テキストを、オンライン音声合成システムに送信し、音声合成するステップと、もし前記オンライン音声合成システムで音声合成する過程において、前記オンライン音声合成システムに故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、前記オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成するステップと、を含む。
本発明の実施例にある音声合成方法で、ネットワークに接続される場合、上記合成待機テキストを、オンライン音声合成システムに送信し、音声合成する。もし、上記オンライン音声合成システムで音声合成する過程において、オンライン音声合成システムに故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成する。オンライン音声合成とオフライン音声合成との利点を合わせて、更に安定的、効果の更に自然的な音声合成サービスを提供し、ユーザーの音声合成に関する要求をいつも順調に成し遂げられ、ユーザーの音声合成サービスに対する認可度とユーザーの体験度を高める。
上記目的を実現するために、本発明の第二の実施例にある音声合成装置は、テキストを処理し、合成されるべきテキストを取得するためのテキスト処理モジュールと、ネットワークに接続される場合、前記テキスト処理モジュールが取得した合成されるべきテキストを、オンライン音声合成システムに送信し、音声合成し、もし前記オンライン音声合成システムで音声合成する過程において、前記オンライン音声合成システムに故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、前記オンライン音声合成システムで音声の合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成するための送信モジュールと、を含む。
本発明の実施例にある音声合成装置で、ネットワークに接続される場合、送信モジュールは、上記合成待機テキストをオンライン音声合成システムに送信し、音声合成する。もし、上記オンライン音声合成システムで音声合成する過程において、オンライン音声合成システムに故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成する。オンライン音声合成とオフライン音声合成との利点を合わせて、更に安定的、効果の更に自然的な音声合成サービスを提供し、ユーザーの音声合成に関する要求をいつも順調に成し遂げられ、ユーザーの音声合成サービスに対する認可度とユーザーの体験度を高める。
本発明の実施例は更に電子設備が提供されている。電子設備は、一つ又は複数のプロセッサと、メモリーと、一つ又は複数のプログラムと、を含む。前記一つ又は複数のプログラムは、前記メモリーに保存され、前記一つ又は複数のプロセッサにより実行される場合、以下のように操作する。テキストを処理し、合成されるべきテキストを取得するステップと、ネットワークに接続される場合、前記合成されるべきテキストをオンライン音声合成システムに送信し、音声合成するステップと、もし前記オンライン音声合成システムで音声合成する過程において、前記オンライン音声合成システムに故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、前記オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成するステップと、を実行する。
本発明の実施例は更に不揮発コンピューター記憶媒体が提供される。前記ンピューター記憶媒体は、一つ又は複数のモジュールを保存し、前記一つ又は複数のモジュールが実行される場合、以下のように操作する。テキストを処理し、合成されるべきテキストを取得するステップと、ネットワークに接続される場合、前記合成されるべきテキストをオンライン音声合成システムに送信し、音声合成するステップと、もし前記オンライン音声合成システムで音声合成する過程において、前記オンライン音声合成システムに故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、前記オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成するステップと、を実行する。
本発明の付加的特徴と利点は、一部が下記の説明の中にあり、一部が下記の説明により、明らかになり、又は本発明の実践により、理解される。
本発明の上述および/又は付加的な特徴と利点は、下記の添付図面を参照した実施例に対する説明により、明らかになり、理解されることが容易になる。その中で、
本発明の音声合成方法の一つの実施例のフローチャートである。 本発明の音声合成方法のもう一つの実施例のフローチャートである。 本発明の音声合成方法の更にもう一つの実施例のフローチャートである。 本発明の音声合成方法の更にもう一つの実施例のフローチャートである。 本発明の音声合成装置の一つの実施例の構造を示す図である。 本発明の音声合成方法のもう一つの実施例の構造を示す図である。
以下に、本発明の実施例を詳細に説明する。前記実施例の例が図面に示されるが、同一または類似する符号は、常に、相同又は類似の部品、又は、相同又は類似の機能を有する部品を表す。以下に、図面を参照しながら説明される実施例は例示的なものであり、本発明を解釈するためだけに用いられ、本発明を限定するものと理解されてはならない。逆に、本発明の実施例は付加の特権請求の範囲の主旨と内容範囲に入るすべての変化、修正と等しいものを含む。
図1は本発明の音声合成方法の一つの実施例のフローチャートである。図1のように、当該音声の合成方法は以下のステップを含める。
ステップ101:テキストを処理し、合成されるべきテキストを取得する。
具体的に、テキストの処理は、テキストに対する文単位の分け及び単語分割と、品詞の表記と、数字符号の処理と、ピンインの表記と、韻律停頓の予測処理と、を含める。
Figure 2017527837
ステップ102:ネットワークに接続される場合、上記合成されるべきテキストをオンライン音声合成システムに送信し、音声を合成する。
本実施例で、ネットワークに接続される場合、クライアント側は上記合成されるべきテキストをオンライン音声合成システムに送信し、音声合成する。オンライン音声合成システムは、波形スプライスという合成方法を採用し、録音された音声の断片をある規則に従い、センテンスにつなぎ合わせる。このような合成方法は、音声の品質がよく、聞いた感じが自然的で、また人間の発音に近い利点を有する。音声の品質がよく、聞いた感じが自然的及び人間の発音に近いという利点の効果を満たすために、通常にグラウド側の音ライブラリーのモデルはみな非常に大きく(通常複数のGに達せる)、ローカルに直接に適用することができない。
ステップ103:上記オンライン音声合成システムで音声を合成する過程において、オンライン音声合成システムには故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成する。
本実施例で、上記オンライン音声合成システムで音声合成する過程において、前記オンライン音声合成システムに故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、クライアント側はオンライン音声合成システムで音声合成が完成されなかったテキストをオフライン音声合成システムに送信し、音声合成する。オフライン音声合成システムは通常にパラメーターを合成する方法を採用する。音ライブラリーから事前に音響学のパラメーターを抽出し、そして音響学のパラメーターとボコーダーを利用して、ヴォイスを改めて生成する必要がある。このような方法で、保存する必要のある音ライブラリーデータの大きさをMバイトのレベルに減少でき、オフライン音声合成はスマートフォンなどのモバイル設備に使われることになれるが、音響学のパラメーターは本当の声ではないため、オフライン音声合成システムは合成された音の自然度と音質の面で、オンライン音声合成システムより劣る。
更に、音声の合成が完成されてから、クライアント側は、オンライン音声合成システムの音声データを、オフライン音声合成システムの音声データにつなぎ合わせ、完全的な音声合成データを取得する。
上記音声合成方法で、ネットワークに接続される場合、上記合成待機テキストをオンライン音声合成システムに送信し、音声合成する。もし上記オンライン音声合成システムで音声合成する過程において、オンライン音声合成システムには故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、オンライン音声合成システムで音声合成が完成されなかったテキストをオフライン音声合成システムに送信し、音声合成する。そして、オンライン音声合成とオフライン音声合成の利点を合わせて、更に安定的、効果の更に自然的な音声合成サービスを提供し、ユーザーの音声合成に関する要求をいつも順調に成し遂げられ、ユーザーの音声合成サービスに対する認可度とユーザーの体験度を高める。
図2は本発明の音声合成方法のもう一つの実施例のフローチャートである。図2のように、ステップ103の後、以下のステップも含める。
ステップ201:オフライン音声合成システムで音声合成する過程において、上記オンライン合成システムの故障が解消されたり、又はネットワークとの接続が回復される場合、オフライン音声合成システムで音声の合成が完成されなかったテキストをオンライン音声合成システムに送信し、音声合成する。
即ち、上記オンライン音声合成システムで音声合成する過程において、オンライン音声合成システムには故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、クライアント側はオンライン音声合成システムで音声合成が完成されなかったテキストをオフライン音声合成システムに送信し、音声合成するとともに、クライアント側はオンライン音声合成システムの故障が解消されているか否か、又は当該クライアント側のネットワーク接続が回復されているか否か、を絶えずに検査する。いったん、クライアント側はオンライン音声合成システムの故障が解消されたり、又は当該クライアント側のネットワーク接続が回復されたのを決定したら、クライアント側は、引き続きオフライン音声合成システムで音声合成が完成されなかったテキストをオンライン音声合成システムに送信し、音声合成する。即ち、本実施例では、更なる音声合成の効果を取得するために、クライアント側はオンライン音声合成システムでの音声合成を優先的に採用する。オンライン音声合成システムには故障が現れたり、又はクライアント側のネットワーク接続が中断された場合のみに、オンライン音声合成システムで音声合成が完成されなかったテキストをオフライン音声合成システムに送信し、音声合成する。
ステップ202:音声の合成が完成されてから、オンライン音声合成システムの音声データをオフライン音声合成システムの音声データにつなぎ合わせ、完全的な音声合成データを取得する。
図3は本発明の音声合成方法の更にもう一つの実施例のフローチャートである。図3のように、ステップ101の後に、ステップ103の前に、更に以下のようなステップを含むことができる。
ステップ301:ネットワークに接続されていない場合、上記合成待機テキストをオフライン音声合成システムに送信し、音声合成する。
ステップ302:上記ネットワーク接続が回復されてから、オフライン音声合成システムで音声合成が完成されなかったテキストを、オンライン音声合成システムに送信し、音声合成する。
本実施例で、合成されるべきテキストを取得してから、もしネットワークに接続されていないなら、クライアント側は、まず上記合成待機テキストをオフライン音声合成システムに送信し、音声合成する。そして、クライアント側は持続的にネットワークとの接続が回復されているか否かを検査する。ネットワークとの接続が回復されたのが検査により、わかったら、クライアント側はオフライン音声合成システムで音声合成が完成されなかったテキストを、オンライン音声合成システムに送信し、音声合成する。
図4は本発明の音声合成方法の更にもう一つの実施例のフローチャートである。図4のように、ステップ102の後に、更に以下のようなステップを含むことができる。
ステップ401:オンライン音声合成システムにより送信した音声合成すでに完成済みのセンテンスと対応する音声データを受信して保存する。そのうち、上記音声合成すでに完成済みのセンテンスに対応する音声データは、オンライン音声合成システムで合成されるべきテキストに対して文単位に分け、分けて得たすべてのセンテンスに対して音声合成することにより取得されたのである。
例として、合成待機テキストtに対して、ネットワークに接続される場合、クライアント側は、合成されるべきテキストtをオンライン音声合成システムに送信する。オンライン音声合成システムは、合成されるべきテキストtを受信してから、合成されるべきテキストtに対し、文の単位に分け、[t1、t2、t3、…]に表記する。そして、[t1、t2、t3、…]に対して、音声合成し、更に得た音声データ[a1、a2、a3、…]をクライアント側に送信する。
本実施例で、ステップ103は、ステップ402とステップ403と、を含める。
ステップ402:オンライン音声合成システムに故障が現れたり、又はネットワークとの接続が中断された際に、受信した音声の合成がすでに完成済みのセンテンスに対応する音声データを踏まえて、オンライン音声合成システムで音声合成が完成されなかったテキストを決定する。
例として、上記オンライン音声合成システムで音声合成する過程において、オンライン音声合成システムに故障が現れたり、又はクライアント側のネットワーク接続が中断された場合、クライアント側は、オンライン音声合成システムに故障が現れた或いはネットワーク接続が中断された際に受信した音声の合成がすでに完成済みのセンテンスに対応する音声データを踏まえ、前記音声データは[a1、a2]と仮定する場合、t3に対応する音声データを取得する際に、エラーが発生したことを決定できる。従って、オンライン音声合成システムで音声合成が完成されなかったテキストがt3及びその後のテキストであることを決定できる。
ステップ403:上記オンライン音声合成システムで音声合成が完成されなかったテキストをオフライン音声合成システムに送信し、音声合成することにより、上記オンライン音声合成システムで音声合成が完成されなかったテキストに対応する音声データを取得する。
具体的に、オンライン音声合成システムで音声合成が完成されなかったテキストがt3及びその後のテキストであることを決定してから、クライアント側は、t3及びその後のテキストをオフライン音声合成システムに送信し、音声合成し、t3及びその後のテキストに対応する音声データ[a3’、…]を得る。
本実施例で、音声の合成が完成されてから、クライアント側は、オンライン音声合成システムの音声データをオフライン音声合成システムの音声データにつなぎ合わせ、完全的な音声合成データ[a1、a2、a3’、…]を取得することができる。
上記音声合成方法はニューザ―の音声合成に対する体験を改善し、ネットワーク環境の制限を突破でき、各種のネットワーク環境でユーザーの音声合成に関する要求を完成できるとともに、単独なオフライン音声合成より、さらに喜ばしい合成効果を取得することができ、音声合成サービスをさらに安定的、信頼的にさせる。
図5は本発明の音声合成装置のもう一つの実施例の構造を示す図である。本実施例で、音声合成装置は、クライアント側或いはクライアント側の一部として、本発明図1に示された実施例にある流れを実現できる。そのうち、上記クライアントアプリは知能モバイル端末にインストールでき、上記知能モバイル端末はスマートフォン及び/又はタブレットコンピューターなどでよい。本実施例で、知能モバイル端末の形態について限定しない。
図5のように、当該音声合成装置は、テキスト処理モジュール51と送信モジュール52と、を含める。
そのうち、テキスト処理モジュール51は、テキストを処理し、合成されるべきテキストを取得することに用いられる。本実施例で、テキスト処理モジュール51は、具体的に、テキストの文単位の分け及び単語分割と、品詞の表記と、数字符号の処理と、ピンインの表記と、韻律停頓の予測処理とに用いられる。
Figure 2017527837
送信モジュール52は、ネットワークに接続される場合、テキスト処理モジュール51が取得した合成されるべきテキストをオンライン音声合成システムに送信し、音声合成する。上記オンライン音声合成システムで音声合成する過程において、オンライン音声合成システムには故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、引き続きオンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成することに用いられる。
本実施例で、ネットワークに接続される場合、送信モジュール52は、上記合成されるべきテキストをオンライン音声合成システムに送信し、音声合成する。オンライン音声合成システムは、波形スプライスという合成方法を採用し、録音された音声の断片をある規則に従い、センテンスにつなぎ合わせる。このような合成方法は音声の品質がよく、聞いた感じが自然的及び人間の発音に近い利点を有する。音声の品質がよく、聞いた感じが自然的及び人間の発音に近いという利点の効果を満たすために、通常にグラウド側の音ライブラリーモデルはみな非常に大きく(通常複数のGに達せる)、ローカルに直接に適用できるようがない。
上記オンライン音声合成システムで音声合成する過程において、オンライン音声合成システムに故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、送信モジュール52は、オンライン音声合成システムで音声合成が完成されなかったテキストをオフライン音声合成システムに送信し、音声合成する。オフライン音声合成システムは、通常にパラメーターを合成する方法を採用し、音ライブラリーから事前に音響学のパラメーターを抽出し、そして音響学のパラメーターとボコーダーを利用して、音を改めて生成する必要がある。このような方法で、保存される必要のある音ライブラリーデータの大きさをMバイトレベルに減少することにより、オフライン音声合成はスマートフォンなどのモバイル設備に使われることになれるが、音響学のパラメーターは本当の声ではないため、オフライン音声合成システムは合成された音の自然度と音質の面で、オンライン音声合成システムより劣る。
更に、送信モジュール52はオフライン音声合成システムで音声合成する過程において、もしオンライン合成システムに現れた故障が解消されたり、又は上記ネットワークとの接続が回復される場合、オフライン音声合成システムで音声合成が、完成されなかったテキストをオンライン音声合成システムに送信し、音声合成する。
即ち、上記オンライン音声合成システムで音声合成する過程において、オンライン音声合成システムに故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、送信モジュール52は、オンライン音声合成システムで音声合成が完成されなかったテキストをオフライン音声合成システムに送信し、音声合成するとともに、クライアント側は、オンライン音声合成システムの故障が解消されているか否か、又は当該クライアント側のネットワーク接続が回復されているか否かを、持続的に検査する。いったん、クライアント側は、オンライン音声合成システムの故障が解消されたり、又は当該クライアント側のネットワーク接続が回復されたのを決定したら、送信モジュール52は、引き続きオフライン音声合成システムで音声合成が完成されなかったテキストを、オンライン音声合成システムに送信し、音声合成する。即ち、本実施例では、更なるよい音声合成の効果を取得するために、クライアント側はオンライン音声合成システムでの音声合成を優先的に採用する。オンライン音声合成システムに故障が現れたり、又はクライアント側のネットワーク接続が中断された場合のみに、送信モジュール52は、オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成する。
更に、送信モジュール52は、ネットワークに接続されていない場合、テキスト処理モジュール51が取得した合成待機テキストを、オフライン音声合成システムに送信し、音声を合成し、上記ネットワークとの接続が回復されてから、オフライン音声合成システムで音声合成が完成されなかったテキストを、オンライン音声合成システムに送信し、音声合成する。
本実施例で、テキスト処理モジュール51が合成されるべきテキストを取得してから、もしネットワークに接続されていないなら、送信モジュール52は、まず上記合成待機テキストをオフライン音声合成システムに送信し、音声合成する。そして、クライアント側は、持続的に、ネットワークとの接続が回復されているか否かを検査する。ネットワークとの接続が回復されたのが検査により、わかったら、送信モジュール52は、オフライン音声合成システムで音声合成が完成されなかったテキストを、オンライン音声合成システムに送信し、音声合成する。その後、上記オンライン音声合成システムで音声合成する過程において、オンライン音声合成システムに故障が現れたり、又は実際の使用中にネットワークとの接続が中断された場合、送信モジュール52は、オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成する。さらに、オンライン音声合成システムの故障が解消されたり、又は上記ネットワーク接続が回復されたのを決定した後、引き続き、オフライン音声合成システムで音声合成が完成されなかったテキストを、オンライン音声合成システムに送信し、音声合成する。
上記音声合成装置で、ネットワークに接続される場合、送信モジュール52は、上記合成待機テキストをオンライン音声合成システムに送信し、音声合成する。もし上記オンライン音声合成システムで音声合成する過程において、オンライン音声合成システムに故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成する。そして、オンライン音声合成とオフライン音声合成の利点を合わせて、更に安定的、効果の更に自然的な音声合成サービスを提供し、ユーザーの音声合成に関する要求をいつも順調に成し遂げられ、ユーザーの音声合成サービスに対する認可度とユーザーの体験度とを高める。
図6は本発明の音声合成装置の更にもう一つの実施例の構造を示す図である。図5の示した音声合成装置に比べ、差異は、図6の示した音声合成装置において更に接合モジュール53をも含めることにある。
接合モジュール53は、音声の合成が完成されてから、オンライン音声合成システムの音声データを、オフライン音声合成システムの音声データにつなぎ合わせ、完全的な音声合成データを取得することに用いられる。
更に、上記音声合成装置は、受信モジュール54と保存モジュール55と、を含める。
そのうち、受信モジュール54は、送信モジュール52が上記合成されるべきテキストをオンライン音声合成システムに送信し、音声合成した後、上記オンライン音声合成システムが送信した音声合成がすでに完成済みのセンテンスの対応する音声データを受信し、上記音声合成がすでに完成済みのセンテンスに対応する音声データは、オンライン音声合成システムが上記合成されるべきテキストに対して文単位に分けし、更に分けて得たすべてのセンテンスに対して、音声合成することにより取得されたものである。
保存モジュール55は、受信モジュール54が受信した音声合成がすでに完成済みのセンテンスに対応する音声データを、保存する。
例として、合成待機テキストtに対して、ネットワークに接続される場合、送信モジュール52は、合成されるべきテキストtをオンライン音声合成システムに送信する。オンライン音声合成システムは、合成されるべきテキストtを受信してから、合成されるべきテキストtに対し、文単位に分け、[t1、t2、t3、…]に表記する。そして、[t1、t2、t3、…]に対して、音声合成し、更に得た音声データ[a1、a2、a3、…]をクライアント側に送信する。
さらに、上記音声合成装置は、決定モジュール56を含める。
決定モジュール56は、オンライン音声合成システムに故障が現れたり、又はネットワークとの接続が中断された際に受信した、音声の合成がすでに完成済みのセンテンスに対応する音声データを踏まえて、オンライン音声合成システムで音声の合成が完成されなかったテキストを決定する。例として、もし上記オンライン音声合成システムで音声合成する過程において、オンライン音声合成システムに故障が現れたり、或いはクライアント側のネットワーク接続が中断される場合、決定モジュール56は、オンライン音声合成システムに故障が現れたり、或いはネットワークとの接続が中断された際に受信した、音声の合成がすでに完成済みのセンテンスに対応する([a1、a2]と仮定する)音声データを踏まえて、t3に対応する音声データを取得する際にエラーが発生したことを決定できる。従って、決定モジュール56は、オンライン音声合成システムで音声合成が完成されなかったテキストがt3及びその後のテキストである、のを決定できる。
この場合、送信モジュール52は、上記オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成し、上記オンライン音声合成システムで音声の合成が完成されなかったテキストに対応する音声データを取得する。
具体的に、決定モジュール56により、オンライン音声合成システムで音声合成が完成されなかったテキストがt3及びその後のテキストであることを決定してから、送信モジュール52は、t3及びその後のテキストをオフライン音声合成システムに送信し、音声合成し、t3及びその後のテキストに対応する音声データ[a3’、…]を取得する。
本実施例で、音声合成が完成されてから、接合モジュール53は、オンライン音声合成システムの音声データとオフライン音声合成システムの音声データとをつなぎ、完全的な音声合成データ[a1、a2、a3’、…]を取得する。
上記音声合成装置は、ユーザーの音声合成に対する体験を改善し、ネットワーク環境の制限を突破でき、各種のネットワーク環境でユーザーの音声合成に関する要求を完成できるとともに、単独なオフライン音声合成より、さらに喜ばしい合成効果を取得でき、音声合成サービスをさらに安定的、信頼的にさせる。
本発明の実施例で以下のような電子設備も提供されている。一つ又は複数のプロセッサと、メモリーと、一つ又は複数のプログラムと、を含む。前記一つ又は複数のプログラムは、前記メモリーに保存され、前記一つ又は複数のプロセッサに実行される場合、以下の操作を行う。テキストを処理し、合成されるべきテキストを取得する。ネットワークに接続される場合、前記合成されるべきテキストをオンライン音声合成システムに送信し、音声合成する。もし前記オンライン音声合成システムで音声合成する過程において、前記ンライン音声合成システムに故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、前記オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成する。
本発明の実施例で、一種の不揮発コンピューター記憶媒体も提供される。前記ンピューター記憶媒体には一つ又は複数のモジュールが保存され、前記一つ又は複数のモジュールが実行される場合、以下の操作が行われる。テキストを処理し、合成されるべきテキストを取得する。ネットワークに接続される場合、前記合成されるべきテキストを、オンライン音声合成システムに送信し、音声合成する。もし前記オンライン音声合成システムで音声合成する過程において、前記オンライン音声合成システムに故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、前記オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成する。
説明する必要があるのは、本発明の説明で、用語「第一」、「第二」などは目的の説明にしか使われなく、相対的な重要性の指示又は暗示に理解されてはいけない。また、本発明の説明で、別途の説明がない限り、「複数」の意味は少なくとも二個を指す。
フローチャート又はここでその他の方式で説明されたあらゆる過程又は方法の説明は、特定な論理機能又は過程のステップを実現することに使われる一つ又は更なる多い実行可能なコマンドのコードのモジュール、セグメント又は一部を含み、更に本発明の好ましい実施例の範囲はほかの実現を含み、うち、示された又は議論された順序に従わずに、関連機能に基づいてほとんど同時の形態に従う又は反対の順序に従うことを含み、機能を実行できることを表すことに理解されることができる。これは本発明の実施例の当業者に理解されるべき。
理解すべきなのは、本発明の各部分はハードウェア、ソフトウェア、ファームウェア又はこれらの組み合わせによって実現されることができる。上記実施例で、複数のステップ又は方法は、メモリーに保存されている、かつ適切なコマンド実行システムに実行されるソフトウェア又はファームウェアによる実現されることができる。例えば、ハードウェアで実現するなら、もう一つの実施例でと同じく、本分野の下記の周知技術のあらゆる項目又はかれらの組み合わせで実現できる。データ信号の論理機能を実現する論理ゲート回路に使われる離散的論理回路を有し、論理ゲート回路を組み合わせる適切な専用集成回路、プログラマブル・ゲート・アレイ(PGA)、フィールド・プログラマブル・ゲート・アレイ(FPGA)などを有する。
当業者は、上記実施例方法にある全部又は一部のステップを実現するには、プログラムによる関連ハードウェアを指示するのを通して完成できるのを理解できる。前記プログラムは一種のコンピューター読み出し可能な記憶媒体に保存できる。当該プログラムは実行される場合、方法の実施例にあるステップの一つ又はその組み合わせが含まれる。
また、本発明の各実施例にある各機能セルは一つの処理モジュールに集成されることもできるし、各セルの単独的物理的な存在でもいいし、二つ又は二つ以上のセルは一つのモジュールに集成されることもできる。上記集成されたモジュールはハードウェアの形で実現されることもできるし、ソフトウェア機能を持つモジュールで実現されることもできる。前記集成されたモジュールはもしソフトウェア機能のモジュールで実現され、また独立の製品として販売又は使用されるのであるなら、一つのコンピューターの読み出し可能な記憶媒体に保存することもできる。
上記言及した読み出し可能な記憶媒体は読み出し専用メモリー、又は磁気ディスク、又はCDなどでよい。
本明細書の説明で、用語「一つの実施例」、「いくつかの実施例」、「例示」、「具体的な例示」、又は「いくつかの例示」などの説明意味は当該実施例又は例示に合わせて、説明された具体的な特徴、構造、材料又は特色が本発明の少なくとも一つの実施例又は例示に含まれていることを指す。本明細書で、上記用語の暗示的な表現は同じ実施例又は例示を指しているのに限らない。なお、説明された具体的な特徴、構造、材料又は特色が一つ又は複数のいずれかの実施例又は例示で適切な方式で組み合わせられる。
以上、本発明の実施例を示して説明したが、理解できるのは上記実施例が例示的なもので、本発明を限定するものであると理解されてはいけない。普通の当業者は本発明の範囲内で、上記実施例に対して各種の変化、補正、切り替え及び変形を行うことができる。

Claims (16)

  1. テキストを処理し、合成されるべきテキストを取得するステップと、
    ネットワークに接続されている場合、前記合成されるべきテキストをオンライン音声合成システムに送信し、音声合成するステップと、
    前記オンライン音声合成システムで音声合成する過程において、前記オンライン音声合成システムに故障が発生したり、又は実際の使用中にネットワークとの接続が中断される場合、前記オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成するステップと、を含む、
    ことを特徴とする音声合成方法。
  2. 前記オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成するステップの後に、
    前記オフライン音声合成システムで音声合成する過程において、前記オンライン合成システムの故障が解消されたり、又は前記ネットワークとの接続が回復される場合、引き続き前記オフライン音声合成システムで音声合成が完成されなかったテキストを、前記オンライン音声合成システムに送信し、音声合成するステップ、を更に含む、
    ことを特徴とする請求項1に記載の方法。
  3. 前記テキストを処理し、合成されるべきテキストを取得した後、前記オンライン音声合成システムで音声合成が完成されなかったテキストをオフライン音声合成システムに送信し、音声合成するステップの前に、
    ネットワークに接続されていない場合、前記合成されるべきテキストをオフライン音声合成システムに送信し、音声合成するステップと、
    前記ネットワークと接続された後、前記オフライン音声合成システムで音声合成が完成されなかったテキストを、オンライン音声合成システムに送信し、音声合成するステップと、を更に含む、
    ことを特徴とする請求項1に記載の方法。
  4. 音声合成が完成された後、前記オンライン音声合成システムの音声データとオフライン音声合成システムの音声データとをつなぎ合わせ、完全な音声合成データを取得するステップを更に含む、
    ことを特徴とする請求項1ないし3のいずれかに記載の方法。
  5. 前記テキストを処理することは、テキストに対する文単位の分け及び単語分割と、品詞の表記と、数字符号の処理と、ピンインの表記と、韻律の停頓の予測処理と、を含む、
    ことを特徴とする請求項1乃至3のいずれかに記載の方法。
  6. 前記合成されるべきテキストをオンライン音声合成システムに送信し、音声合成するステップの後に、
    前記オンライン音声合成システムにより送信された、音声合成がすでに完成されたセンテンスに対応する音声データを、受信して保存するステップ、を更に含み、
    前記音声合成がすでに完成されたセンテンスに対応する音声データは、オンライン音声合成システムで合成されるべきテキストを文単位に分け、文単位に分けて得られた各センテンスに対して音声合成することにより、取得されたものである、
    ことを特徴とする請求項1又は2に記載の方法。
  7. 前記オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成するステップは、
    前記オンライン音声合成システムに故障が発生したり又は前記ネットワークとの接続が中断された際に受信した、音声合成がすでに完成されたセンテンスに対応する音声データに基づいて、前記オンライン音声合成システムで音声合成が完成されなかったテキストを決定するステップと、
    前記オンライン音声合成システムで音声合成が完成されなかったテキストを、前記オフライン音声合成システムに送信し、音声合成することにより、前記オンライン音声合成システムで音声合成が完成されなかったテキストに対応する音声データを取得するステップと、を含む、
    ことを特徴とする請求項6に記載の方法。
  8. テキストを処理し、合成されるべきテキストを取得するためのテキスト処理モジュールと、
    ネットワークに接続されている場合、前記テキスト処理モジュールが取得した合成されるべきテキストを、オンライン音声合成システムに送信して、音声合成し、前記オンライン音声合成システムで音声合成する過程において、前記オンライン音声合成システムに故障が発生したり、又は実際の使用中にネットワークとの接続が中断される場合、前記オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成するための送信モジュールと、
    を含む、
    ことを特徴とする音声合成装置。
  9. 前記送信モジュールは、
    更に、前記オフライン音声合成システムで音声合成する過程において、前記オンライン合成システムの故障が解消されたり、又は前記ネットワークとの接続が回復される場合、引き続き前記オフライン音声合成システムで音声合成が完成されなかったテキストを、前記オンライン音声合成システムに送信し、音声合成する、
    ことを特徴とする請求項8に記載の装置。
  10. 前記送信モジュールは、
    更に、ネットワークに接続されていない場合、前記テキスト処理モジュールが取得した合成されるべきテキストを、オフライン音声合成システムに送信し、音声合成し、
    前記ネットワークと接続された後、前記オフライン音声合成システムで音声合成が完成されなかったテキストを、オンライン音声合成システムに送信し、音声合成する、
    ことを特徴とする請求項8に記載の装置。
  11. 音声合成が完成された後、前記オンライン音声合成システムの音声データと前記オフライン音声合成システムの音声データとをつなぎ合わせ、完全な音声合成データを取得するための接合モジュール、を更に含む、
    ことを特徴とする請求項8ないし10のいずれかに記載の装置。
  12. 前記テキスト処理モジュールは、具体的に、テキストに対する文単位の分け及び単語分割と、品詞の表記と、数字符号の処理と、ピンインの表記と、韻律停頓の予測処理とに用いられる、
    ことを特徴とする請求項8ないし10のいずれかに記載の装置。
  13. 前記送信モジュールが前記合成されるべきテキストを、オンライン音声合成システムに送信し、音声合成した後、前記オンライン音声合成システムが送信した音声合成がすでに完成されたセンテンスに対応する音声データを受信し、前記音声合成がすでに完成されたセンテンスに対応する音声データは、前記オンライン音声合成システムが前記合成されるべきテキストを文単位に分け、文単位に分けて得られた各センテンスに対して音声合成することにより取得されたものである、受信モジュールと、
    前記受信モジュールが受信した音声合成がすでに完成されたセンテンスに対応する音声データを保存するための保存モジュールと、を更に含む、
    ことを特徴とする請求項8又は9に記載の装置。
  14. 決定モジュールを更に含み、
    前記決定モジュールは、前記オンライン音声合成システムに故障が発生したり、又は前記ネットワークとの接続が中断された際に受信した、音声合成がすでに完成されたセンテンスに対応する音声データに基づいて、前記オンライン音声合成システムで音声合成が完成されなかったテキストを決定し、
    前記送信モジュールは、前記オンライン音声合成システムで音声合成が完成されなかったテキストを、前記オフライン音声合成システムに送信し、音声合成することにより、前記オンライン音声合成システムで音声合成が完成されなかったテキストに対応する音声データを取得する、
    ことを特徴とする請求項13に記載の装置。
  15. 一つ又は複数のプロセッサと、
    メモリーと、
    一つ又は複数のプログラムと、を含み、
    前記一つ又は複数のプログラムは、前記メモリーに保存され、前記一つ又は複数のプロセッサにより実行される場合、請求項1〜7のいずれかに記載の方法を実行する、
    ことを特徴とする電子機器。
  16. 一つ又は複数のモジュールが保存され、
    前記一つ又は複数のモジュールが実行される場合、請求項1〜7のいずれかに記載の方法を実行する、
    ことを特徴とする不揮発性コンピューター記憶媒体。
JP2016572810A 2015-07-15 2015-11-24 音声合成方法と装置 Active JP6400129B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510417099.X 2015-07-15
CN201510417099.XA CN104992704B (zh) 2015-07-15 2015-07-15 语音合成方法和装置
PCT/CN2015/095460 WO2017008426A1 (zh) 2015-07-15 2015-11-24 语音合成方法和装置

Publications (2)

Publication Number Publication Date
JP2017527837A true JP2017527837A (ja) 2017-09-21
JP6400129B2 JP6400129B2 (ja) 2018-10-03

Family

ID=54304507

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016572810A Active JP6400129B2 (ja) 2015-07-15 2015-11-24 音声合成方法と装置

Country Status (5)

Country Link
US (1) US10115389B2 (ja)
JP (1) JP6400129B2 (ja)
KR (1) KR101880378B1 (ja)
CN (1) CN104992704B (ja)
WO (1) WO2017008426A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7391063B2 (ja) 2020-03-17 2023-12-04 阿波▲羅▼智▲聯▼(北京)科技有限公司 音声出力方法、音声出力装置、電子機器及び記憶媒体

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104992704B (zh) * 2015-07-15 2017-06-20 百度在线网络技术(北京)有限公司 语音合成方法和装置
CN107039032A (zh) * 2017-04-19 2017-08-11 上海木爷机器人技术有限公司 一种语音合成处理方法及装置
KR20190046305A (ko) 2017-10-26 2019-05-07 휴먼플러스(주) 음성데이터 마켓 시스템 및 음성데이터 마켓 시스템으로 음성을 제공하는 방법
CN107909993A (zh) * 2017-11-27 2018-04-13 安徽经邦软件技术有限公司 一种智能语音报告生成系统
CN110505432B (zh) * 2018-05-18 2022-02-18 视联动力信息技术股份有限公司 一种视频会议操作结果的展示方法和装置
CN108775900A (zh) * 2018-07-31 2018-11-09 上海哔哩哔哩科技有限公司 基于web的语音导航方法、系统和存储介质
CN109300467B (zh) * 2018-11-30 2021-07-06 四川长虹电器股份有限公司 语音合成方法及装置
CN109448694A (zh) * 2018-12-27 2019-03-08 苏州思必驰信息科技有限公司 一种快速合成tts语音的方法及装置
CN109712605B (zh) * 2018-12-29 2021-02-19 深圳市同行者科技有限公司 一种应用于车联网的语音播报的方法及装置
CN110751940B (zh) 2019-09-16 2021-06-11 百度在线网络技术(北京)有限公司 一种生成语音包的方法、装置、设备和计算机存储介质
CN110767213A (zh) * 2019-11-08 2020-02-07 四川长虹电器股份有限公司 一种韵律预测方法及装置
CN110808028B (zh) * 2019-11-22 2022-05-17 芋头科技(杭州)有限公司 嵌入式语音合成方法、装置以及控制器和介质
CN113129861A (zh) * 2019-12-30 2021-07-16 华为技术有限公司 一种文本转语音的处理方法、终端及服务器
CN111681635A (zh) * 2020-05-12 2020-09-18 深圳市镜象科技有限公司 基于小样本的语音实时克隆的方法、装置、设备和介质
CN112735376A (zh) * 2020-12-29 2021-04-30 竹间智能科技(上海)有限公司 自学习平台
CN112307280B (zh) * 2020-12-31 2021-03-16 飞天诚信科技股份有限公司 基于云服务器实现字符串转音频的方法及系统
CN113270085A (zh) * 2021-06-22 2021-08-17 广州小鹏汽车科技有限公司 语音交互方法、语音交互系统和车辆
CN115729509A (zh) * 2021-08-30 2023-03-03 博泰车联网(南京)有限公司 语音播报方法、装置和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101409072A (zh) * 2007-10-10 2009-04-15 松下电器产业株式会社 嵌入式设备、双模态语音合成系统和方法
JP2012173702A (ja) * 2011-02-24 2012-09-10 Denso Corp 音声案内システム
WO2014020835A1 (ja) * 2012-07-31 2014-02-06 日本電気株式会社 エージェント制御システム、方法およびプログラム
US20140337007A1 (en) * 2013-05-13 2014-11-13 Facebook, Inc. Hybrid, offline/online speech translation system

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6233545B1 (en) * 1997-05-01 2001-05-15 William E. Datig Universal machine translator of arbitrary languages utilizing epistemic moments
JP2002312282A (ja) 2001-04-16 2002-10-25 Canon Inc 音声合成システムとその方法
US6681208B2 (en) 2001-09-25 2004-01-20 Motorola, Inc. Text-to-speech native coding in a communication system
CN1217311C (zh) 2002-04-22 2005-08-31 安徽中科大讯飞信息科技有限公司 分布式语音合成系统
CN1217312C (zh) 2002-11-19 2005-08-31 安徽中科大讯飞信息科技有限公司 语音合成系统中的数据交换方法
JP2005055607A (ja) 2003-08-01 2005-03-03 Toyota Motor Corp サーバ、情報処理端末、音声合成システム
US7653542B2 (en) * 2004-05-26 2010-01-26 Verizon Business Global Llc Method and system for providing synthesized speech
US7672832B2 (en) * 2006-02-01 2010-03-02 Microsoft Corporation Standardized natural language chunking utility
CN102568471A (zh) * 2011-12-16 2012-07-11 安徽科大讯飞信息科技股份有限公司 语音合成方法、装置和系统
CN103077705B (zh) * 2012-12-30 2015-03-04 安徽科大讯飞信息科技股份有限公司 一种基于分布式自然韵律优化本地合成方法
US9031829B2 (en) * 2013-02-08 2015-05-12 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
CN104992704B (zh) * 2015-07-15 2017-06-20 百度在线网络技术(北京)有限公司 语音合成方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101409072A (zh) * 2007-10-10 2009-04-15 松下电器产业株式会社 嵌入式设备、双模态语音合成系统和方法
JP2012173702A (ja) * 2011-02-24 2012-09-10 Denso Corp 音声案内システム
WO2014020835A1 (ja) * 2012-07-31 2014-02-06 日本電気株式会社 エージェント制御システム、方法およびプログラム
US20140337007A1 (en) * 2013-05-13 2014-11-13 Facebook, Inc. Hybrid, offline/online speech translation system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7391063B2 (ja) 2020-03-17 2023-12-04 阿波▲羅▼智▲聯▼(北京)科技有限公司 音声出力方法、音声出力装置、電子機器及び記憶媒体

Also Published As

Publication number Publication date
CN104992704B (zh) 2017-06-20
WO2017008426A1 (zh) 2017-01-19
JP6400129B2 (ja) 2018-10-03
CN104992704A (zh) 2015-10-21
KR101880378B1 (ko) 2018-07-19
KR20170021226A (ko) 2017-02-27
US20170200445A1 (en) 2017-07-13
US10115389B2 (en) 2018-10-30

Similar Documents

Publication Publication Date Title
JP6400129B2 (ja) 音声合成方法と装置
KR102660922B1 (ko) 복수의 지능형 개인 비서 서비스를 위한 관리 계층
JP6828001B2 (ja) 音声ウェイクアップ方法及び装置
US10832677B2 (en) Coordinating the execution of a voice command across multiple connected devices
JP6553736B2 (ja) 音声対応電子デバイスにおける選択的オフライン対応の音声アクションのためのデータのローカル維持
US20190196779A1 (en) Intelligent personal assistant interface system
CN108630204A (zh) 在多装置系统中执行语音命令
US20160066083A1 (en) Method and apparatus for managing audio signals
JP6336680B2 (ja) ネイティブ音声データとリモートで生成された音声データとを組み合わせる音声プロンプト生成
US11322135B2 (en) Generating acoustic sequences via neural networks using combined prosody info
US20230139106A1 (en) Conversion method and apparatus for deep learning model, server, and storage medium
WO2019213021A1 (en) Audio packet loss concealment
JP6778811B2 (ja) 音声認識方法及び装置
US11056103B2 (en) Real-time utterance verification system and method thereof
JP6621593B2 (ja) 対話装置、対話システム、及び対話装置の制御方法
WO2019225028A1 (ja) 翻訳装置、システム、方法及びプログラム並びに学習方法
CN113810814A (zh) 耳机模式切换的控制方法及装置、电子设备和存储介质
CN111739510A (zh) 信息处理方法、装置、车辆和计算机存储介质
JP2015064450A (ja) 情報処理装置、サーバ、および、制御プログラム
JP2015036826A (ja) コミュニケーション処理装置、コミュニケーション処理方法、及び、コミュニケーション処理プログラム
EP3502868A1 (en) Intelligent personal assistant interface system
CN114822492A (zh) 语音合成方法及装置、电子设备、计算机可读存储介质
CN113889102A (zh) 指令接收方法、系统、电子设备、云端服务器和存储介质
CN117830478A (zh) 数字人视频生成方法、装置、设备及介质

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180412

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180814

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180904

R150 Certificate of patent or registration of utility model

Ref document number: 6400129

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250