JP7517778B2 - 結合された韻律情報を用いたニューラル・ネットワークを介した音響シーケンスの生成 - Google Patents

結合された韻律情報を用いたニューラル・ネットワークを介した音響シーケンスの生成 Download PDF

Info

Publication number
JP7517778B2
JP7517778B2 JP2022515917A JP2022515917A JP7517778B2 JP 7517778 B2 JP7517778 B2 JP 7517778B2 JP 2022515917 A JP2022515917 A JP 2022515917A JP 2022515917 A JP2022515917 A JP 2022515917A JP 7517778 B2 JP7517778 B2 JP 7517778B2
Authority
JP
Japan
Prior art keywords
prosodic information
sequence
observations
prosodic
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022515917A
Other languages
English (en)
Other versions
JP2022547685A (ja
Inventor
シェヒトマン・ヴャチェスラフ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2022547685A publication Critical patent/JP2022547685A/ja
Application granted granted Critical
Publication of JP7517778B2 publication Critical patent/JP7517778B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Description

本技術は、韻律を制御することに関する。より詳細には、本技術は、ニューラル・ネットワークを介して韻律を制御することに関する。
本明細書に記載される実施形態によれば、システムは、言語シーケンスおよび韻律情報オフセットを受信するためのプロセッサを含んでもよい。プロセッサは、また、訓練された韻律情報予測器を介して、言語シーケンスに基づいて、複数の観測を含む結合された韻律情報を生成してもよい。複数の観測は、所定の期間にわたって韻律成分を評価する統計的尺度の線形結合を含む。プロセッサは、また、訓練されたニューラル・ネットワークを介して、結合された韻律情報、韻律情報オフセットおよび言語シーケンスに基づいて、音響シーケンスを生成してもよい。
本明細書に記載される別の実施形態によれば、方法は、言語シーケンスおよび韻律情報オフセットを受信するステップを含んでもよい。方法は、さらに、訓練された韻律情報予測器を介して、言語シーケンスに基づいて、複数の観測を含む結合された韻律情報を生成するステップを含んでもよい。複数の観測は、所定の期間にわたって韻律成分を評価する統計的尺度の線形結合を含む。方法は、また、訓練されたニューラル・ネットワークを介して、結合された韻律情報、韻律情報オフセットおよび言語シーケンスに基づいて、音響シーケンスを生成するステップを含む。
本明細書に記載の他の実施形態によれば、韻律を自動的に制御するためのコンピュータ・プログラム製品は、プログラムコードが具現化されたコンピュータ可読記憶媒体を含む。コンピュータ可読記憶媒体は、それ自体が一時的な信号自体ではない。プログラムコードは、プロセッサに、言語シーケンスおよび韻律情報オフセットを受信するようにプロセッサによって実行可能であってよい。プログラムコードは、また、プロセッサに、訓練された韻律情報予測器を介して、言語シーケンスに基づいて、複数の観測を含む結合された韻律情報を生成するようにすることができる。複数の観測は、所定の期間にわたって韻律成分を評価する統計的尺度の線形結合を含む。プログラムコードは、また、プロセッサに、結合された韻律情報、韻律情報オフセットおよび言語シーケンスに基づいて、音響シーケンスを生成するようにすることができる。
一側面によれば、言語シーケンスおよび韻律情報オフセットを受信することと、訓練された韻律情報予測器を介して、言語シーケンスに基づいて、複数の観測を含む結合された韻律情報を生成することであって、複数の観測は、所定の期間にわたって韻律成分を評価する統計的尺度の線形結合を含む、生成することと、訓練されたニューラル・ネットワークを介して、結合された韻律情報、韻律情報オフセットおよび言語シーケンスに基づいて、音響シーケンスを生成することとを行うためのプロセッサを備えるシステムが提供される。
別の態様によれば、言語シーケンスおよび韻律情報オフセットを受信するステップと、言語シーケンスに基づいておよび整列して、訓練された韻律情報予測器を介して、複数の観測を含む結合された韻律情報を生成するステップであって、複数の観測は、所定の期間にわたって韻律成分を評価する統計的尺度の線形結合を含む、生成するステップと、訓練されたニューラル・ネットワークを介して、結合された韻律情報、韻律情報オフセットおよび言語シーケンスに基づいて、音響シーケンスを生成するステップとを含む、コンピュータ実装方法が提供される。
別の側面によれば、韻律を自動的に制御するためのコンピュータ・プログラム製品であって、コンピュータ・プログラム製品は、プログラムコードが具現化されたコンピュータ可読記憶媒体を含み、コンピュータ可読記憶媒体は、それ自体が一時的な信号自体ではなく、プログラムコードは、プロセッサに、言語シーケンスおよび韻律情報オフセットを受信することと、訓練された韻律情報予測器を介して、言語シーケンスに基づいて、複数の観測を含む結合された韻律情報を生成することであって、複数の観測は、所定の期間にわたって韻律成分を評価する統計的尺度の線形結合を含む、生成することと、結合された韻律情報、韻律情報オフセットおよび言語シーケンスに基づいて、音響シーケンスを生成することとを行うようにプロセッサによって実行可能である、コンピュータ・プログラム製品が提供される。
以下、本発明の実施形態について、単なる一例として、図面を参照しながら説明する。
図1は、韻律情報を用いて韻律を自動的に制御するためのニューラル・ネットワークを訓練するための一例のシステムのブロック図である。 図2は、埋め込まれた韻律情報を生成するための一例のシステムのブロック図である。 図3は、韻律情報を用いて韻律を自動的に制御するためのニューラル・ネットワークを訓練することができる一例の方法のブロック図である。 図4は、自動的に制御された韻律で音響シーケンスを生成することができる一例の方法のブロック図である。 図5は、韻律情報を用いて韻律を自動的に制御することができる一例のコンピューティング・デバイスのブロック図である。 図6は、本明細書に記載の実施形態による一例のクラウド・コンピューティング環境の図である。 図7は、本明細書に記載の実施形態による一例の抽象化モデル層の図である。 図8は、韻律情報を用いて韻律を自動的に制御することができる、一例の有形非一時的コンピュータ可読媒体である。
シーケンス・ツー・シーケンス(seq2seq)ニューラルTTSシステムのようなテキス・ツー・スピーチ(TTS)システムは、入力言語シーケンスを受信し、音声音響シーケンスを出力することができる。例えば、音声音響シーケンスは、フレーム単位の音声パラメータによってまたは音声波形によって表され得る。このようなシステムは、韻律(prosody)に多少の変化を伴って自然に近い音声品質を有する音声を生成することができる。韻律は、音素持続時間、イントネーションおよび音量を含むことができる。しかしながら、このようなシステムは、暗黙的に音声韻律を生成し、したがって、このようなシステムにおける韻律制御は、非常に限定的である可能性がある。例えば、ガイドが無い場合には、そのようなシステムは、ランダムな発話スタイルおよび韻律的特性で発話された出力を生成する可能性がある。
また、多くの応用では、推論時に、発話スタイル、感情状態、発話速度、表現豊かさ(expressiveness)を含む韻律を制御する要求が存在する可能性がある。半教師有りアプローチは、韻律/発話スタイルのラベル付けを利用するが、これは、部分的にまたは完全に人主体で生成され得る。しかしながら、人間によるラベル付けは、高価であり、誤りが発生しやすく、時間がかかる。加えて、音声合成のための非常に少ないラベル付けされたリソースしか存在しない。規範ベースの韻律制御アプローチでは、適切な潜在空間表現を使用して、任意の話者による所与の発話例から音声の音響/韻律の実現が伝達され得る。しかしながら、これらのアプローチは、ほとんどの現実のTTSアプリケーションでは実現不可能である。教師なしアプローチでは、音声音響潜在空間が自動的に訓練され得る。潜在的なパラメータは、推論時にそれらの独立した操作を可能にするように解放され(disentangled)得る。しかしながら、自動的に訓練された潜在的表現は、しばしば、解釈不可能でデータ依存性が高いことが多い。さらに、それらの制御性および合成された音声品質もまた整合しない可能性がある。
本開示の実施形態によれば、システムは、言語シーケンスおよび韻律情報オフセットを受信するプロセッサを含んでもよい。プロセッサは、訓練された韻律情報予測器を介して、言語シーケンスに基づいて、複数の観測を含む、結合された韻律情報を生成してもよい。観測は、所定の期間にわたって韻律成分を評価する統計的尺度の線形結合であってもよい。プロセッサは、また、結合された韻律情報と、韻律情報オフセットと、言語シーケンスとに基づいて、訓練されたニューラル・ネットワークを介して、音響シーケンスを生成してもよい。これにより、本開示の実施形態は、システム内で韻律を明示的にモデル化し、連続スケール上で文単位の発話ペースおよび表現豊かさの制御を可能とする全自動の方法を提供する。本明細書に記載の技術は、また、合成された音声の全体的な品質および表現豊かさを改善する。
図1を参照すると、ブロック図は、埋め込まれた韻律情報を用いて韻律を自動的に制御するためのニューラル・ネットワークを訓練するための例示的なシステムを示す。システム100は、方法300および400を実装するために使用されてもよく、図5のコンピューティング・デバイス500または図8のコンピュータ可読媒体800を使用して実装してもよい。一例として、システム100は、アテンションを有するニューラル・シーケンス・ツー・シーケンス・ネットワークであってもよい。図1のシステム100は、言語エンコーダ102を含む。例えば、言語エンコーダ102は、線形埋め込み層、それに続く一次元畳み込み層および長短期記憶(LSTM)層を含んでもよい。本明細書で使用されるように、エンコーダの出力は、埋め込みベクトルのシーケンス、すなわち離散的な入力ベクトルの学習された連続ベクトル表現のシーケンスを含む。長短期記憶は、人口の再帰型ニューラル・ネットワーク・アーキテクチャである。LSTMは、フィードバック接続を有し、データのシーケンスを処理することを意図している。システム100は、言語エンコーダ102に通信可能に結合された韻律情報予測器104を含む。例えば、韻律情報予測器104は、スタックされ、線形全結合(FC)層が後続するLSTM(128×3)に供給される埋め込み言語シーケンスを有ことができる。システム100は、また、韻律情報予測器104に通信可能に結合された連結器106を含む。システム100は、さらに、韻律情報予測器104に通信可能に結合された結合器108を含む。システム100は、韻律情報予測器104および連結器106に通信可能に結合された韻律情報エンコーダ110を含む。例えば、韻律情報エンコーダ110は、FC層と後続する双曲線正接(Tanh)の非線形性とを含んでもよい。システム100は、さらに、連結器106に通信可能に結合された音響デコーダ112を含む。例えば、音響デコーダ112は、自己回帰型メル・スペクトル予測器を含んでもよい。いくつかの例では、音響デコーダ112は、アテンション機構を有するスタックされた2つのLSTM層を含んでもよい。種々の例では、音響デコーダ112の最終層は、80次元メル・スペクトログラム・シーケンスおよび1次元のストップビットのシーケンスを出力する全結合(FC)層である。システム100は、言語シーケンス114を受信し、音響シーケンス116を出力することが示されている。言語エンコーダ102は、埋め込み言語シーケンス118を生成することが示されている。韻律情報予測器104は、結合された韻律情報119を生成することが示されている。結合器108は、結合された韻律情報119と、韻律情報オフセット120のセットとを受信することが示されている。韻律情報エンコーダ110は、埋め込まれた韻律情報121を生成することが示されている。システム100は、観測韻律情報生成器122を含み、これは、訓練ターゲット124を韻律情報予測器104および韻律情報エンコーダ110に送信することが示されている。システム100は、また、観測スペクトル発生器126を含み、これは、訓練ターゲット128を音響デコーダ112に送信することが示されている。
図1の例では、システム100は、言語シーケンス114を受信し、音響シーケンス116を出力するように訓練されてもよい。特に、シーケンス・ツー・シーケンス(sec2seq)ニューラルTTSシステムに入力される言語シーケンス114は、韻律情報で拡張されてもよい。韻律情報は、本明細書で使用されるように、解釈可能な時間的観測のセットを参照する。例えば、観測は、大域的もしくは局所的またはその両方並びに階層的に異なる時間スパンで評価されてもよい。各観測は、統計的尺度の線形結合または線形結合のセットであり、所定の時間にわたって韻律成分を評価する。人間の音声では、同じ言語情報が、多くのやり方で伝達される可能性がある。言語埋め込みのシーケンス118は、システムで使用される全ての言語情報をカプセル化し、一方、訓練中にレコーディングから抽出された訓練ターゲット124の形態における韻律情報観測は、その言語情報をどのように伝達するかについての追加のヒントを提供する。種々の例では、韻律情報に含まれる観測が、解放され(disentangled)、容易に解釈可能となる可能性がある。例えば、ペース、ピッチおよびラウドネスについての別個の成分を有する。いくつかの例では、任意の数の成分が観測のために使用される。例えば、声コーパスが均一なラウドネスを有し、ペースおよびピッチ制御が使用される2つの成分として残される場合、ラウドネス制御が省略されてもよい。
種々の例において、言語シーケンス114は、入力音素を記述する、ワンホットまたは疎なバイナリベクトルによって表されるシンボルの表音シーケンスであってもよい。一例として、言語シーケンス114は、音素の個別のアルファベットに対応したインデックスの表音シーケンスであってもよい。種々の例において、音響シーケンス116は、音響パラメータのシーケンスであってもよい。例えば、音響シーケンス116は、フレーム幅のスペクトログラムまたは一定のフレームスペクトログラムを含んでもよい。種々の例において、スペクトログラムは、ヴォコーディング(vocoding)を使用して音声に変換可能であってもよい。一例として、音響シーケンス116は、任意の適切なヴォコーダ(vocoder)を用いて音声に変換されてもよい。ヴォコーダは、オーディオ・データ圧縮、多重化、声暗号化、声変換などのために人間の声信号を分析し、合成するために使用されるコーデックである。一例として、ヴォコーダは、ニューラル・ネットワーク・ヴォコーダであってもよい。
さらに、図1を参照すると、訓練および推論段階において、言語エンコーダ102は、言語シーケンス114を受信し、言語埋め込みのシーケンス118を生成することができる。埋め込みは、ある表音コンテキストにおける音素のベクトル表現であってもよい。例えば、ベクトル表現は、128数の形態であってもよい。種々の例において、ベクトル表現の形態は、ニューラル・ネットワーク100の統合訓練(Joint Training)中に学習可能である。言語埋め込みのシーケンス118は、連結器106および韻律情報予測器104の両方に送信されてもよい。
訓練段階では、システム100は、観測韻律情報生成器122および観測スペクトル発生器126から、それぞれ、訓練ターゲット124,128をそれぞれ受信することができる。例えば、観測された韻律情報ベクトルがシステムに供給されてもよい。種々の例において、韻律情報ベクトル・シーケンスは、入力発話の訓練セットについて自動的に計算される。発話は、レコーディングと、レコーディングに対する書き起こしの両方を含むことができる。いくつかの例では、書き起こしは、自動的に生成されてもよい。例えば、ピッチおよびエネルギー推定器を用いてピッチおよびエネルギー軌跡(trajectory)を計算し、自動音声アライメントを適用し、時間信号を音素、音節、単語および句のセグメントに分割することができる。ピッチ、持続時間およびエネルギー観測が、次いで、種々の時間スパンについて導出されてもよい。観測は、次いで、相互に整列され、結合されて、結合された韻律情報ベクトル・シーケンスを生成することができる。いくつかの例では、訓練の初期ステップでのアライメントの収束を容易にするために、訓練の最初の5エポックについて韻律情報がゼロに設定されてもよい。一例として、韻律情報は、約1500ミニバッチステップについてゼロに設定されてもよい。
種々の例では、訓練が完了した後、韻律情報予測器104は、平均二乗誤差(MSE)損失を最小にすることによって、個別に訓練されてもよい。例えば、韻律情報予測器104は、言語埋め込みのシーケンス118の供給を受けて、言語埋め込みシーケンス118から離れて、結合された韻律情報を予測することができる。いくつかの例では、予測は、各層128セルを有する3層スタックLSTMおよび出力サイズ2を有する韻律情報ベクトルを生成する後続の線形層を用いてなされる。いくつかの例では、韻律情報予測器104は、マルチターゲット訓練を用いてサブネットワークとして、システム100の残りと統合的に訓練することができる。例えば、訓練ターゲットの両方のセット124,128を使用して、韻律情報予測器104およびシステム100を統合的に訓練してもよい。種々の例では、出力音響シーケンス損失に関連する損失に追加の損失を加えて、韻律情報予測器104を統合的に訓練することができる。いくつかの例では、韻律情報予測器104を別個に訓練してもよい。例えば、韻律情報予測器104は、言語シーケンス114からの結合された韻律情報を予測するために、シーケンス・ツー・シーケンス(seq2seq)音響ニューラル・ネットワークに対し別個に訓練されてもよい。いくつかの例では、韻律情報観測は、また、音響観測を含んでもよい。例えば、音響観測は、音声の息づかい、嗄声、発声努力などの発話スタイルと相関する可能性がある音声音響の他の非言語的要素の観測を含んでもよい。
推論段階において、韻律情報予測器104は、言語埋め込みのシーケンス118を受信し、結合された韻律情報119を生成する。例えば、結合された韻律情報119は、複数の観測を含む。観測は、所定の期間にわたって韻律成分を評価する統計的尺度の線形結合を含む。種々の例では、観測は、大域的または局所的におよび階層的に異なる時間スパンで評価されてもよい。例えば、大域的観測は、発話レベルであってもよい。階層的・局所的に評価された観測は、各段落、文、句、単語、音節または音素セグメントのレベルであってもよい。本明細書で使用するセグメントは、段落/文/語句/単語/音節/音素のこの階層的・時間的な構造内の時間スパンを参照する。観測は、次いで、互いに整列され、連結または総和により結合されて、結合された韻律情報を生成することができる。結合された韻律情報119は、次いで、韻律情報エンコーダ110を介して埋め込まれて、埋め込まれた韻律情報121を生成することができる。
種々の例において、観測セットは、セグメント内の少なくとも対数ピッチ観測、セグメント内のサブセグメント対数持続時間観測、セグメント内の対数エネルギー観測またはそれらの任意の組み合わせを含んでもよい。例えば、対数ピッチ観測は、発話対数ピッチ軌跡の0.95-分位点マイナス0.05-分位点として評価される対数ピッチのスパンであってもよい。本明細書において使用されるように、サブセグメントは、その階層において他のセグメントと比較してより深いセグメントをいう。例えば、対数持続時間観測は、発話のペース測量としての平均音素持続時間(無音を除く)の対数であってもよい。いくつかの例では、サブセグメント対数持続時間観測は、句内の単語の持続時間を測定することができる。種々の例では、観測の各々は、統計的尺度の線形結合であってもよい。観測の各々は、平均、分位点のセット、スパン、標準偏差、分散またはそれらの任意の組み合わせのような、少なくともいくつかの形態の統計的尺度を含んでもよい。種々の例では、観測は、話者毎に正規化される。観測については、図2に関して、より詳細に説明される。
このように、韻律情報予測器104は、入力言語シーケンスに対する種々の韻律パラメータを記述するために使用される観測のセットを生成する。これらの観測が正規化され、追跡可能であるので、推論時に1以上の韻律情報オフセット120が適用されて、最終的な音響シーケンス116の韻律を調整することができる。韻律情報は、範囲[-1,1]内の成分単位の(component-wise)オフセットを加算することによって意図的に変更されてもよい。例えば、発話、段落、文、句または単語は、対応するサブセグメントの対数持続時間観測を-1に向かって調整することによってより遅くされてもよく、または、1に向かって調整することによってより早くされてもよい。同様に、発話の全体、任意の段落、文、句または単語のピッチまたはラウドネスにおける変動は、対応する対数ピッチ観測または対数エネルギー観測を-1または1に向けて修正することによって、それぞれ、出力音響シーケンス116をより単調にまたは表現豊かにすることができる。
種々の例では、結合された韻律情報ベクトルは、2次元の潜在空間に埋め込まれ、言語エンコーダ出力シーケンスにおいて各ベクトルと連結される。例えば、韻律情報ベクトルは、双曲線正接(Tanh)非線形性を有する単一の全結合非バイアス層によって埋め込まれてもよい。結果として、デコーダは、入力コンテキストベクトルを通して韻律情報に公開される。
結合された韻律情報観測は、次いで、主となるシーケンス・ツー・シーケンス(seq2seq)音響ニューラル・ネットワークにさらに供給される。音響デコーダ112は、連結器106からの連結されたシーケンスを受信し、音響シーケンス116を生成するニューラル・ネットワークであってもよい。
一例として、システム100は、2次元の大域的(発話単位(utterance-wise))観測:対数ピッチスパンおよび2次元の単語レベル観測に連結された中央値音素対数持続時間:対数ピッチスパンおよび中央値対数持続時間を有していてもよい。全ての観測は、[-1,1]に正規化されてもよい。大域的な観測に起因して、システムのユーザは、大域的な音声ペースおよび表現豊かさを制御することができる。例えば、ユーザは、正の大域的持続時間変更因子(global duration modifier)を加えて音声をスローダウンまたは音声をよりはっきりと発音されたものとすることができる。さらに、ユーザは、正の大域的ピッチスパン変更因子(global pitch-span modifier)を加えて音声の表現豊かさを増大させることができる。結合された韻律情報において単語レベル観測を用いて、システム100は、所望の単語強調を制御することができる。例えば、このような単語強調は、対話アプリケーションにおいて有用である可能性がある。いくつかの例では、ユーザは、所望のワードに対応する観測のサブシーケンスに、正の持続時間変更因子(duration modifier)および正のピッチスパン変更因子(pitch span modifier)を意図的に適用してもよい。いくつかの声コーパス上での提案された韻律情報制御を用いた実験では、一例のシステムは、成分単位の韻律情報推論時変更に応答し、成功裏に、ペース成分変更への応答として減速または高速化し、あるいはピッチ成分変更への応答として表現豊かさを増加または減少させた。
図1のブロック図は、システム100が図1に示された全ての構成要素を含むものであることを示すことを意図するものではないことを理解されたい。むしろ、システム100は、より少ない、または図1にしめされていない追加の構成要素(例えば、追加のクライアント・デバイスまたは追加のリソース・サーバなど)を含んでもよい。
図2を参照すると、ブロック図は、韻律情報をエンコードするための一例のシステムを示す。一例のシステム200は、図3の方法を実装する際に使用してもよく、図5のコンピューティング・デバイス500または図8のコンピュータ可読媒体800を使用して実装してもよい。
図2のシステム200は、観測韻律情報生成器122に結合された韻律情報エンコーダ110を含む。システム200は、入力発話202を受信し、埋め込まれた韻律情報204を出力することができる。例えば、入力発話202は、埋め込まれた韻律情報204を用いて図1のシステム100を訓練するために使用される訓練データであってもよい。種々の例では、入力発話202は、記録された段落、文、単語などを含んでもよい。
図2の例では、観測韻律情報生成器122は、入力発話を受信し、韻律観測のセットを生成する。図2に示すように、韻律観測は、可能な韻律観測の他のレベルの中でも、文韻律観測206、句韻律観測208および単語韻律観測210を含む種々のレベルの観測を含むことができる。種々の例では、韻律観測206,208,210の種類の各々は、セグメント内の対数ピッチ観測、セグメント内のサブセグメント対数持続時間観測およびセグメント内の対数エネルギー観測のうちの少なくともいくつかを含んでもよい。例えば、他の種類の韻律観測は、息づかい、雑音レベル、鼻音性、声質などであってもよい。例えば、息づかいは、有声化された音声部分における高調波対雑音比によって評価されてもよい。いくつかの例では、雑音レベルは、無音でのSNR推定によって評価されてもよい。種々の例では、鼻音性は、平均フォルマント解析を用いて評価されてもよい。いくつかの例において、声質は、有声化された音声部分について声門脈波モデリングおよび声門開閉間隔の解析を用いて評価されてもよい。例えば、使用される声門脈波モデルは、Liljencrants-Fant声門脈波モデルであってもよい。概して、観測の各々は、統計的尺度の線形結合であってもよい。各観測は、平均、分位点のセット、標準偏差、分散またはそれらの任意の組み合わせのような統計的尺度を含んでもよい。例えば、分位点のセットは、[0.1,0.5,0.9]の形式であってもよい。上述したように、観測は、話者毎に適切に正規化されてもよい。例えば、観測の各々についての有効スパンを[-1,1]に正規化してもよい。有効スパンは、[中央値-3*std,中央値+3*std]として計算することができ、ここでstdは、セットの標準偏差である。いくつかの例では、スパンは、0.95-分位点マイナス0.05-分位点のような分位点を用いて表現されてもよい。
種々の例では、整列器および結合器212は、階層的観測206,208,210を整列し、結合することができる。例えば、整列器および結合器212は、階層的観測206,208,210を整列し、総和または連結によって結合し、結合された韻律情報を生成することができ、結合された韻律情報は、入力言語シーケンスと同期した観測ベクトルのシーケンスを含み得る。
さらに図2を参照すると、埋込器214は、整列器および結合器212からの結合された韻律情報を埋め込み、埋め込まれた韻律情報204を生成することができる。例えば、埋め込まれた韻律情報204は、1発話につき単一の埋め込みベクトルまたは入力言語シーケンスに同期した埋め込みベクトルのシーケンスを含むことができる。種々の例において、埋め込まれた韻律情報204は、図1に説明されているように、音響デコーダを訓練するために使用されてもよい。
図2のブロック図は、システム200が図2に示される全ての構成要素を含むことを示すことを意図するものではないことを理解すべきである。むしろ、システム200は、より少ない、または、図2に示されていない追加の構成要素(例えば、追加の入力、観測された韻律情報の種類、または追加の埋め込まれた韻律情報など)を含んでもよい。例えば、推論の間、観測韻律情報生成器122の代わりに、韻律情報予測器が、韻律情報エンコーダ110へまたは埋込器214へ供給されてもよい。
図3は、埋め込まれた韻律情報を用いて韻律を自動的に制御するためにニューラル・ネットワークを訓練することができる例示的な方法のプロセスフロー図である。方法300は、図5のコンピューティング・デバイス500のような任意の適切なコンピューティング・デバイスを用いて実装することができ、例えば、図1および図2のシステム100および200を参照して説明される。例えば、方法300は、図5のコンピューティング・デバイス500の訓練モジュール536または図8のコンピュータ可読媒体800の訓練モジュール818によって実装されてもよい。
ブロック302においては、言語シーケンスおよび対応する音響シーケンスが受信される。例えば、言語シーケンスは、訓練のために使用される入力発話に対応してもよい。
ブロック304においては、観測された結合された韻律情報が、言語シーケンスおよび対応する音響シーケンスに基づいて生成される。例えば、観測された結合された韻律情報は、訓練のために使用される入力発話から自動的に計算され、入力発話に対応する、種々の時間スパンについての観測された韻律情報のシーケンスであってもよい。観測された韻律情報は、時間的に整列され、例えば連結または総和を用いて結合され、観測された結合された韻律情報のシーケンスを取得することができる。種々の例において、観測された韻律情報は、セグメント内の対数ピッチ観測、セグメント内のサブセグメント対数持続時間観測、セグメント内の対数エネルギー観測またはこれらの任意の組み合わせなどの入力発話に関連付けられる統計的尺度を含む、観測の任意の組み合わせを含んでもよい。
ブロック306においては、観測された結合された韻律情報は、言語シーケンスおよび音響シーケンスと共に、音響シーケンスを予測するためにニューラル・ネットワークを訓練するために使用される。例えば、ニューラル・ネットワークは、韻律情報エンコーダと、言語エンコーダと、音響デコーダとを含んでもよい。一例として、埋め込まれた韻律情報および埋め込まれた言語シーケンスが、音響デコーダに供給され、音響デコーダは、メル・スペクトログラム・シーケンスを出力する。例えば、ニューラル・ネットワークは、メル・スペクトルの平均二乗誤差(MSE)損失を用いて訓練されてもよい。
ブロック308においては、言語シーケンスを用いて、結合された韻律情報観測を予測するために韻律情報予測器が訓練される。いくつかの例では、韻律情報予測器は、階層的韻律情報観測を予測するように訓練されてもよく、階層的韻律情報観測は、さらに整列され、結合されて、結合された韻律情報を生成することができる。種々の例において、あるいは、韻律情報予測器は、結合された韻律情報観測を直接予測するように訓練されてもよい。種々の例では、韻律情報予測器は、デコーダとは別個にまたは統合的に訓練されてもよい。一例として、デコーダは、ブロック306において別個に訓練されてもよい。韻律情報予測器は、次いで、言語シーケンスおよび訓練ターゲットに基づいて訓練されてもよい。いくつかの例では、韻律情報予測器は、訓練された言語エンコーダからの埋め込み言語シーケンスに基づいて訓練されてもよい。
一例として、韻律情報予測器は、シーケンス・ツー・シーケンスのメル・スペクトル特徴予測モジュールと組み合わされてもよい。例えば、メル・スペクトル特徴予測モジュールは、双方向LSTMを使用して実装され得る末端再帰層(terminal recurrent layer)を有する畳み込みエンコーダを含み、2018年にリリースされたTacotron2アーキテクチャに基づくものであってもよい。メル・スペクトル特徴予測モジュールは、言語シーケンスを埋め込み言語シーケンスにエンコードし、埋め込み言語シーケンスを固定フレームのメル・スペクトル特徴ベクトルのシーケンスに拡張する自己回帰式注意デコーダとカスケード接続される。
特に、Tacotron2デコーダは、注意モジュールによって生成された入力コンテキストベクトルxの条件の下、プレネット処理(pre-net-processed)された以前のスペクトル・フレームsから一度に1つのスペクトル・フレームを予測する。デコーダは、2層スタックのLSTMネットワークを用いてその隠れ状態ベクトルhを生成する。入力コンテキストベクトルxと組み合わされた隠れ状態ベクトルhは、最終線形層に供給されて、現在のメル・スペクトルおよびシーケンス終端フラグを生成する。最後に、忠実度を向上させるために、全発話メル・スペクトログラムをリファインする畳み込みポスト・ネットがあってもよい。
Tacotron2モデルは、テキスト文字を直接消費することができる。しかしながら、いくつかの例では、システムは、訓練の簡単化のために、拡張された表音辞書からの記号のシーケンスの供給を受けてもよい。例えば、拡張された表音辞書は、音素識別子、語彙強勢および句の種類を含むことができ、別個の単語の切れ目と無音シンボルで富化される。語彙強勢は、一次、二次、無強勢を含む三段階(3-way)のパラメータであってもよい。句の種類は、肯定、疑問、感嘆および”他”の値を含む4段階(4-way)のパラメータであってもよい。いくつかの例では、この言語入力シーケンスは、2006年にリリースされた素片選択型TTSのような、外部の書記素ツー音素(grapheme to phoneme)のルールベースのTTSフロントエンド・モジュールによって生成されてもよい。
いくつかの例では、現在のメル・スペクトルと以前のメル・スペクトルとの間の差分に適用される平均二乗誤差(MSE)を最終的なシステムの損失に組み込むことによって、より良い合成音声品質を取得することができる。例えば、ポスト・ネット前の時刻tにおける予測されたメル・スペクトルy、時刻tにおける最終的な予測メル・スペクトルzおよび時刻tにおけるメル・スペクトル・ターゲットqが与えられると、スペクトル損失は、下記式(1)を用いて計算することができる。
種々の例において、訓練手順は、予測が自己回帰的である推論手順とは対照的に、教師強制アプローチに従うことができる。例えば、現在のメル・スペクトルの予測は、現実の以前のメル・スペクトルに基づいて実行され、プレネットによって処理される。いくつかの例では、訓練中に二重供給が適用されてもよい。例えば、デコーダのプレネットは、真の以前のメル・スペクトルと予測されたものの両方を共に連結して供給を受けてもよい。推論時には、真のフレームが利用できない場合には、予測されたメル・スペクトルが単純に複製されてもよい。全体のネットワークサイズをわずか0.1%増加させる一方で、この変更により、2つの専門的に記録された米国英語音声コーパスの13時間および22時間でテストした場合、合計モデル回帰損失が約15%減少される。
図3のプロセスフロー図は、方法300の動作が任意の特定の順序で実行されるべきことまたは全ての場合において方法300の全ての動作が含まれるべきことを示すことを意図するものではない。加えて、方法300は、任意の適切な数の追加動作を含んでもよい。
図4は、自動的に制御された韻律を有するシーケンスを生成することができる一例の方法のプロセスフロー図である。方法400は、図5のコンピューティング・デバイス500のような任意の適切なコンピューティング・デバイスで実装することができ、図1および図2のシステム100および200を参照して説明される。例えば、方法400は、図5のコンピューティング・デバイス500および図8のコンピュータ可読媒体800によって実装されてもよい。
ブロック402においては、言語シーケンスおよび韻律情報オフセットが受信される。例えば、言語シーケンスは、テキストのシーケンスであってもよい。韻律情報オフセットは、合成音声の韻律的特性を意図的にシフトするために使用される外部の成分ごとの修正のセットであってもよい。例えば、韻律情報オフセットが、音声ペース、ピッチ変動、音量変動などを変化させるために用いられてもよい。
ブロック404においては、訓練された韻律情報予測器を介して、言語シーケンスに基づいて、結合された韻律情報が生成される。例えば、結合された韻律情報は、複数の観測を含んでもよい。観測は、所定の期間にわたって韻律成分を評価する統計的尺度の線形結合を含む。例えば、観測は、発話レベルで評価されてもよい。いくつかの例では、観測は、異なる時間スパンで局所的かつ階層的に評価される。種々の例において、観測は、さらに時間的に整列され、結合されて、結合された韻律情報観測を取得することができる。あるいは、結合された韻律情報は、言語シーケンスから直接予測されてもよい。いくつかの例では、韻律情報は、埋め込まれた言語シーケンスに基づいて生成されてもよい。いくつかの例では、埋め込まれた言語シーケンスは、連続埋め込み空間にマッピングされる、離散変数の埋め込みシーケンス、すなわち、離散的な言語シーケンスであってもよい。
ブロック406においては、訓練されたニューラル・ネットワークを介して、結合された韻律情報と、韻律情報オフセットと、言語シーケンスとに基づいて、音響シーケンスが生成される。例えば、訓練されたニューラル・ネットワークは、韻律情報エンコーダと、言語エンコーダと、音響デコーダとを含んでもよい。いくつかの例では、結合された韻律情報成分は、韻律情報オフセットに基づいて修正される。例えば、韻律情報オフセットが、対応する観測に加算されてもよい。いくつかの例では、結合された韻律情報は、韻律情報埋込器を通過し、埋め込まれた韻律情報を生成する。例えば、韻律情報埋込器は、観測を整列し、結合し、埋込み、埋め込まれた韻律情報を生成することができる。埋め込まれた韻律情報は、次いで、言語シーケンスまたは埋め込み言語シーケンスと連結され、デコーダによって音響シーケンスを生成するために使用される。
図4のプロセスフロー図は、方法400の動作が任意の特定の順序で実行されるべきこと、または、全ての場合に方法400の全ての動作が含まれるべきことを示すことを意図するものではない。加えて、方法400は、任意の適切な数の追加動作を含んでもよい。例えば、方法400は、音響シーケンスに基づいてオーディオを生成することを含んでもよい。
いくつかのシナリオでは、本明細書で説明される技術は、クラウド・コンピューティング環境において実装されてもよい。以下、少なくとも図5~図8を参照しながら詳細を議論するように、埋め込まれた韻律情報を用いて韻律を自動的に制御するよう構成されたコンピューティング・デバイスは、クラウド・コンピューティング環境において実装されてもよい。この開示は、クラウド・コンピューティングについての説明を含み得るが、本明細書で詳述される教示の実装は、クラウド・コンピューティング環境に限定されないことに理解されたい。むしろ、本発明の実施形態は、現時点で知られた、またはこれから開発される他の任意のタイプのコンピューティング環境と併せて実装可能である。
クラウド・コンピューティングは、最小の管理労力またはサービス・プロバイダとの対話で迅速にプロビジョニングおよびリリースされ得る、構成可能なコンピューティング・リソース(例えば、ネットワーク、ネットワーク帯域、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシンおよびサービス)の共有プールへの便利なオンデマンドのネットワーク・アクセスを可能とする、サービス配布のモデルである。このクラウド・モデルは、少なくとも5つの特性、少なくとも3つのサービス・モデルおよび少なくとも4つのデプロイメント・モデルを含む可能性がある。
特性は、以下の通りである。
オンデマンド・セルフ・サービス:クラウド・コンシューマは、サービス・プロバイダとの人的な対話を必要とせずに自動的に必要なだけ、サーバ時間およびネットワーク・ストレージなどのコンピュータ能力を一方的にプロビジョニングすることができる。
広帯域ネットワーク・アクセス:能力は、ネットワーク越しに利用可能であり、異種シン・クライアントまたはシック・クライアント・プラットフォーム(例えば、モバイルフォン、ラップトップ、PDA)による使用を促進する標準的なメカニズムを介して、アクセスされる。
リソース・プーリング:プロバイダのコンピューティング・リソースは、マルチ・テナント・モデルを用いて複数のコンシューマに提供するためにプールされ、種々の物理的および仮想的リソースが需要に従って動的に割り当てられ、また、再割り当てられる。コンシューマは、一般的に、提供されるリソースの正確な場所を管理したり、知識を有したりせず、しかし、より高度な抽象レベル(例えば国、州、またはデータセンタ)にて場所を指定することが可能であるという意味で、場所の独立感がある。
迅速な弾力性:能力は、迅速かつ柔軟に、いくつかの場合では自動的に、プロビジョニングされて素早くスケール・アウトすることができ、また、迅速にリリースされて素早くスケール・インすることができる。コンシューマにとって、プロビジョニング利用可能な能力は、しばしば外面的には無制限のように見え、任意の時間に任意の量を購入することができる。
測量されたサービス:クラウドシステムは、サービスのタイプにとって適切なある抽象レベル(例えば、ストレージ、処理、帯域幅、アクティブ・ユーザ数)での計量能力を利用することによって、自動的にリソース使用を制御し、また最適化する。リソース使用量は、監視され、制御されおよび報告されて、利用サービスのプロバイダおよびコンシューマの双方に対する透明性を提供する。
サービス・モデルは、以下の通りである。
ソフトウェア・アズ・ア・サービス(SaaS):コンシューマに提供される能力は、クラウド・インフラストラクチャ上で稼働するプロバイダのアプリケーションを使用することである。アプリケーションは、ウェブ・ブラウザ(例えばウェブベースの電子メール)などのシン・クライアント・インタフェースを介して種々のクライアント・デバイスからアクセス可能である。コンシューマは、ネットワーク、サーバ、オペレーティング・システム、ストレージ、または、限定されたユーザ固有のアプリケーション構成設定の潜在的な例外を除いて個々のアプリケーション能力すらも含む下層のインフラストラクチャを管理または制御しない。
プラットフォーム・アズ・ア・サービス(PaaS):コンシューマに提供される能力は、プロバイダによってサポートされるプログラミング言語およびツールを用いて作成された、コンシューマ作成または獲得のアプリケーションをクラウド・インフラストラクチャ上にデプロイすることである。コンシューマは、ネットワーク、サーバ、オペレーティング・システムまたはストレージを含む下層のクラウド・インフラストラクチャを管理または制御しないが、デプロイされたアプリケーションおよび場合によってはアプリケーション・ホスティング環境の構成への制御を有する。
インフラストラクチャ・アズ・ア・サービス(IaaS):コンシューマに提供される能力は、処理、ストレージ、ネットワーク、および、コンシューマが、オペレーティング・システムおよびアプリケーションを含み得る任意のソフトウェアをデプロイし、稼働させることができる他の基本的なコンピューティング・リソースを提供することである。コンシューマは、下層のクラウド・インフラストラクチャを管理または制御しないが、オペレーティング・システム、ストレージ、デプロイされたアプリケーションに対する制御、および、場合によっては、選択したネットワーキング・コンポーネント(例えば、ホストファイアウォール)の限定された制御を有する。
デプロイメント・モデルは、以下の通りである。
プライベート・クラウド:クラウド・インフラストラクチャは、1つの組織のためだけに使用される。これは、組織または第三者によって管理されてもよく、オンプレミスまたはオフプレミスが存在し得る。
コミュニティ・クラウド:クラウド・インフラストラクチャは、いくつかの組織により共有され、共通の懸念(例えば、ミッション、セキュリティ要件、ポリシーおよびコンプライアンスに関する考慮事項)を有する特定のコミュニティをサポートする。これは、組織または第三者によって管理されてもよく、オンプレミスまたはオフプレミスが存在し得る。
パブリック・クラウド:クラウド・インフラストラクチャは、一般公衆、または、大きな業界団体が利用可能であり、クラウド・サービスを販売する組織によって所有される。
ハイブリッド・クラウド:クラウド・インフラストラクチャは、2以上のクラウド(プライベート、コミュニティまたはパブリック)の混成であり、これらのクラウドは、固有のエンティティのままであるが、しかし、データおよびアプリケーションのポータビリティを可能とする標準化されたまたは独自の技術(例えばクラウド間の負荷分散のためのクラウド・バースティング)によって結合される。
クラウド・コンピューティング環境は、ステートレス性、低結合、モジュール性および意味論的な相互運用性に重点を置いたサービス指向である。クラウド・コンピューティングの核心は、相互接続された複数のノードのネットワークを含むインフラストラクチャである。
図5は、埋め込まれた韻律情報を用いて韻律を自動的に制御することができる一例のコンピューティング・デバイスのブロック図である。コンピューティング・デバイス500は、例えば、サーバ、デスクトップ・コンピュータ、ラップトップ・コンピュータ、タブレット・コンピュータまたはスマートフォンであってもよい。いくつかの例では、コンピューティング・デバイス500は、クラウド・コンピューティング・ノードであってもよい。コンピューティング・デバイス500は、コンピュータ・システムによって実行されるプログラム・モジュールのようなコンピュータ・システム実行可能命令の一般的な文脈において説明され得る。一般に、プログラム・モジュールは、特定のタスクを実行するかまたは特定の抽象データタイプを実装する、ルーチン、プログラム、オブジェクト、コンポーネント、ロジック、データ構造などを含む。コンピューティング・デバイス500は、通信ネットワークを介してリンクされた遠隔処理装置によってタスクが実行される分散型クラウド・コンピューティング環境で実施してもよい。分散型クラウド・コンピューティング環境では、プログラム・モジュールは、メモリ・ストレージ・デバイスを含むローカルおよび遠隔のコンピュータ・システム・ストレージ媒体の両方に配置されてもよい。
コンピューティング・デバイス500は、格納された命令を実行するためのプロセッサ502と、動作中に前記命令の動作のための一時的メモリ空間を提供するためのメモリデバイス504とを含んでもよい。プロセッサは、シングルコアプロセッサ、マルチコアプロセッサ、コンピューティング・クラスタ、または任意の数の他の構成とすることができる。メモリ504は、ランダム・アクセス・メモリ(RAM)、リード・オンリー・メモリ、フラッシュメモリまたは他の適切なメモリシステムを含んでもよい。
プロセッサ502は、コンピューティング・デバイス500を1以上のI/Oデバイス510に接続するように適合された入出力(I/O)デバイス・インターフェース508にシステム相互接続506(例えば、PCI(登録商標)、PCI-Express(登録商標)など)を介して接続されてもよい。I/Oデバイス510は、例えば、キーボードおよびポインティング・デバイスを含むことができ、ポインティング・デバイスは、これらの中でも、タッチパッドまたはタッチスクリーンを含んでもよい。I/Oデバイス510は、コンピューティング・デバイス500の内蔵のコンポーネントであってもよいし、コンピューティング・デバイス500に外部接続されたデバイスであってもよい。
プロセッサ502は、また、コンピューティング・デバイス500をディスプレイ・デバイス514に接続するように適合されたディスプレイ・インターフェース512にシステム相互接続506を介してリンクされてもよい。ディスプレイ・デバイス514は、コンピューティング・デバイスの内蔵コンポーネントである表示スクリーンを備える。ディスプレイ・デバイス514は、コンピューティング・デバイスに外部接続されたコンピュータ・モニタ、テレビジョンまたはプロジェクタを含んでいてもよい。加えて、ネットワーク・インターフェース・コントローラ(NIC)516は、システム相互接続506を介してコンピューティング・デバイス500をネットワーク518に接続するように適合されてもよい。いくつかの実施形態では、NIC516は、中でもインターネット・スモール・コンピュータ・システム・インターフェースのような任意の適切なインターフェースまたはプロトコルを使用してデータを送信することができる。ネットワーク518は、セルラー・ネットワーク、無線ネットワーク、ワイド・エリア・ネットワーク(WAN)、ローカル・エリア・ネットワーク(LAN)、またはインターネットであってもよい。外部コンピューティング・デバイス520は、ネットワーク518を介してコンピューティング・デバイス500に接続してもよい。いくつかの例では、外部コンピューティング・デバイス520は、外部ウェブ・サーバ520であってもよい。いくつかの例では、外部コンピューティング・デバイス520は、クラウド・コンピューティング・ノードであってもよい。
プロセッサ502は、また、ハードドライブ、光学ドライブ、USBフラッシュドライブ、ドライブのアレイ、またはそれらの任意の組み合わせを含んでよいストレージ・デバイス522にシステム相互接続506を介してリンクされてもよい。いくつかの例では、ストレージ・デバイスは、受信モジュール524と、言語エンコーダモジュール526と、予測モジュール528と、韻律エンコーダモジュール530と、連結モジュール532と、音響デコーダモジュール534と、訓練モジュール536とを含んでもよい。受信モジュール524は、言語シーケンスおよび韻律情報オフセットを受信することができる。例えば、言語シーケンスは、テキストのシーケンスであってもよい。言語エンコーダモジュール526は、受信された言語シーケンスに基づいて埋め込み言語シーケンスを生成することができる。予測モジュール528は、言語シーケンスまたは埋め込み言語シーケンスに基づいて、種々の時間にわたる複数の観測を含む、結合された韻律情報を生成することができる。観測は、言語シーケンスと整列され、総和または連結によって結合されてもよい。観測は、所定の期間にわたって韻律成分を評価する統計的尺度の線形結合を含む。例えば、観測は、ペース成分、ピッチ成分、ラウドネス成分またはそれらの任意の組み合わせを評価する統計的尺度の線形結合または線形結合のセットであってもよい。いくつかの例では、観測は、文韻律観測、句韻律観測および単語韻律観測またはそれらの任意の組み合わせを含でもよい。韻律エンコーダモジュール530は、韻律情報オフセットに基づいて観測を修正し、特定の所定のやり方で音響シーケンスの韻律を調整してもよい。韻律エンコーダモジュール530は、また、観測を埋め込み、埋め込まれた韻律情報を生成してもよい。連結モジュール532は、埋め込まれた韻律情報を、埋め込み言語シーケンスと連結してもよい。音響デコーダモジュール534は、結合された韻律情報と、韻律情報オフセットと、言語シーケンスとに基づいて、音響シーケンスを生成してもよい。例えば、デコーダモジュール534は、結合された韻律情報観測および韻律情報オフセットに基づいて、音響シーケンスを生成することができる。訓練モジュール536は、ラベル無し訓練データから抽出された、観測された韻律情報に基づいて、韻律情報予測器を訓練してもよい。例えば、訓練モジュール536は、訓練中、レコーディングから抽出された、観測されたスペクトルに基づいて、言語エンコーダモジュール526および音響デコーダモジュール534を訓練してもよい。いくつかの例では、訓練モジュール536は、観測された韻律情報を用いて訓練されたシステムによって生成された埋め込み言語シーケンスに基づいて、韻律情報予測器を訓練してもよい。
図5のブロック図は、コンピューティング・デバイス500が、図5に示された全ての構成要素を含むものであることを示すことを意図するものではない。むしろ、コンピューティング・デバイス500は、より少ない、または、図5に示されていない追加の構成要素(例えば、追加のメモリ・コンポーネント、組み込みコントローラ、モジュール、追加のネットワーク・インタフェースなど)を含んでもよいことを理解すべきである。さらに、受信器524、言語エンコーダモジュール526、予測モジュール528、韻律エンコーダモジュール530、連結モジュール532、音響デコーダモジュール534および訓練モジュール536の任意の機能は、部分的または完全に、ハードウェアもしくはプロセッサ502またはその両方内で実装されてもよい。例えば、機能は、特定用途向け集積回路、組み込みコントローラで実現されるロジック、またはプロセッサ502内で実現されるロジックによって実現されてもよい。いくつかの実施形態では、受信モジュール524、言語エンコーダモジュール526および予測モジュール528、韻律エンコーダモジュール530、連結モジュール532、音響デコーダモジュール534および訓練モジュール536の機能は、ロジックで実装することができ、ロジックは、本明細書で参照されるように、任意の適切なハードウェア(例えば、プロセッサなど)、ソフトウェア(例えば、アプリケーションなど)、ファームウェア、または、ハードウェア、ソフトウェアおよびファームウェアの任意の適切な組み合わせを含んでもよい。
ここで、図6を参照すると、例示的なクラウド・コンピューティング環境600が示されている。図示するように、クラウド・コンピューティング環境600は、1以上のクラウド・コンピューティング・ノード602を含み、これと、例えば、PDAまたは携帯電話602A、デスクトップ・コンピュータ602B、ラップトップ・コンピュータ602Cもしくは自動車コンピュータ・システム602Nまたはその組み合わせなどの、クラウド・コンシューマによって使用されるローカル・コンピューティング・デバイスが通信してもよい。ノード602は、互いに通信してもよい。これらは、プライベート、コミュニティ、パブリックもしくはハイブリッド・クラウドなど上述したような、またはその組み合わせなどの1以上のネットワークにおいて、物理的にまたは仮想的にグループ化(図示しない)されてもよい。これは、クラウド・コンピューティング環境600が、インフラストラクチャ、プラットフォームもしくはソフトウェアまたはその組み合わせをサービスとして提供することを可能とし、これらについては、クラウド・コンシューマは、リソースをローカル・コンピューティング・デバイス上で維持する必要がない。図6に示されるコンピューティング・デバイス602A~602Nのタイプは、説明する目的のみであり、コンピューティング・ノード602およびクラウド・コンピューティング環境600が、任意のタイプのネットワーク、ネットワークアドレス可能な接続(例えば、ウェブ・ブラウザを使用して)またはこれらの両方を介して、任意のタイプのコンピュータ化されたデバイスと通信することができることが理解される。
ここで、図7を参照すると、クラウド。コンピューティング環境600(図6)によって提供される機能抽象層のセットが示される。図7に示すコンポーネント、層および機能が、説明する目的のみであり、本発明の実施形態は、これらに限定されないことを事前に理解されるである。示すように、以下の層および対応する機能が提供される。
ハードウェアおよびソフトウェア・レイヤ700は、ハードウェアおよびソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例には、メインフレーム、一例ではIBM(登録商標)zSeries(登録商標)Systems、RISC(縮約命令セットコンピュータ)アーキテクチャに基づくサーバ、一例においてはIBM(登録商標)pSeries(登録商標)Systems,IBM(登録商標)xSeries(登録商標)Systems,IBM(登録商標)BladeCenter(登録商標)Systems、ストレージ・デバイス、ネットワークおよびネットワーキング・コンポーネントを含む。ソフトウェア・コンポーネントの例は、一例では、IBM(登録商標)WebSphere(登録商標)アプリケーション・サーバ・ソフトウェアおよびデータベース・ソフトウェア、一例では、IBM(登録商標)DB2(登録商標)データベース・ソフトウェアを含み得る(IBM,zSeries,pSeries,xSeries,BladeCenter,WebSphereおよびDB2は、世界中の多くの管轄地域で登録されたインターナショナル・ビジネス・マシーンズ・コーポレーションの商標である。)
仮想化レイヤ702は、抽象化レイヤを提供し、そこから仮想化サーバ、仮想化ストレージ、バーチャル・プライベート・ネットワークを含む仮想化ネットワーク、仮想化アプリケーションおよびオペレーティング・システムおよび仮想クライアントなどの仮想化エンティティの例が提供される。一例においては、管理レイヤ704は、以下に説明する機能を提供してもよい。リソース・プロビショニングは、クラウド・コンピューティング環境内でタスクを実行するために利用されるコンピューティング・リソースおよび他のリソースの動的な調達を提供する。メータリングおよびプライシングは、リソースがクラウド・コンピューティング環境内で利用されるコストの追跡およびこれらのソースの消費に対する請求またはインボイスの送付を提供する。一例においては、これらのリソースは、アプリケーション・ソフトウェアのライセンスを含んでもよい。セキュリティは、クラウド・コンシューマおよびタスクについての本人確認、並びに、データおよび他のリソースに対する保護を提供する。ユーザポータルは、コンシューマおよびシステム管理者に対しクラウド・コンピューティング環境へのアクセスを提供する。サービス・レベル・マネジメントは、要求されるサービス・レベルを満たすようにクラウド・コンピューティング・リソースの割り当ておよび管理を提供する。サービス・レベル合意(SLA)の計画と履行は、SLAに従って、将来の要求が予期されるクラウド・コンピューティグ・リソースの事前配置および調達を提供する。
ワークロード・レイヤ706は、クラウド・コンピューティング環境が利用される機能性の例を提供する。ワークロードおよびこのレイヤから提供される機能の例には、マッピングおよびナビゲーション、ソフトウェア開発およびライフサイクル管理、仮想クラスルーム教育配信、データ・アナリティクス処理、トランザクション処理、自動韻律制御が含まれる。
本技術は、システム、方法またはコンピュータ・プログラム製品であってよい。コンピュータ・プログラム製品は、プロセッサに本発明の側面を実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読ストレージ媒体を含んでもよい。
コンピュータ可読ストレージ媒体は、命令実行デバイスによって使用するための命令を保持し格納する有形のデバイスであってよい。コンピュータ可読ストレージ媒体は、例えば、これに限定されるものではないが、電子的ストレージ・デバイス、磁気ストレージ・デバイス、光学ストレージ・デバイス、電磁気ストレージ・デバイス、半導体ストレージ・デバイスまたは上記の任意の適切な組み合わせであってよい。コンピュータ可読ストレージ媒体のより具体的な例示の非網羅的リストとしては、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、リード・オンリー・メモリ(ROM)、消去可能プログラマブル・リード・オンリー・メモリ(EPROMまたはフラッシュメモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク・リード・オンリー・メモリ(CD-ROM)、デジタル・バーサタイル・ディスク(DVD)、メモリースティック、フロッピーディスク(登録商標)、パンチカードまたは記録された命令を有する溝内の隆起構造のような機械的エンコードされたデバイス、および上記の任意の適切な組み合わせが含まれる。コンピュータ可読ストレージ媒体は、本明細書で使用されるように、電波、自由伝搬する電磁波、導波路または他の伝送媒体を伝搬する電磁波(たとえば、ファイバ光ケーブルを通過する光パルス)または、ワイヤを通して伝送される電気信号のような、それ自体が一時的な信号として解釈されるものではない。
本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれのコンピュータ/処理デバイスに、または、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワークもしくは無線ネットワークまたはその組み合わせといったネットワークを介して外部コンピュータまたは外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータもしくはエッジサーバまたはその組み合わせを含んでもよい。各コンピュータ/処理デバイスにおけるネットワーク・アダプタ・カードまたはネットワーク・インタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、コンピュータ可読プログラム命令を、それぞれのコンピューティング/処理デバイス内のコンピュータ可読ストレージ媒体に格納するために転送する。
本技術の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、または、1以上のプログラミング言語の任意の組み合わせで書かれたコードあるいはオブジェクト・コードであってよく、1以上のプログラミング言語は、Smalltalk(登録商標)、C++またはこれらに類するもなどのオブジェクト指向言語、Cプログラミング言語または類似のプログラミング言語などの従来型の手続型言語を含む。コンピュータ可読プログラム命令は、スタンド・アローンのソフトウェア・パッケージとして、全体としてユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、部分的にユーザのコンピュータ上かつ部分的に遠隔のコンピュータ上で、または、完全に遠隔のコンピュータまたはサーバ上で実行されてもよい。後者のシナリオでは、遠隔のコンピュータは、ユーザのコンピュータに、ローカル・エリア・ネットワーク(LAN)またはワイド・エリア・ネットワーク(WAN)を含む任意のタイプのネットワークを通じて接続されてもよく、あるいは接続は、(例えば、インターネット・サービス・プロバイダを用いてインターネットを通じて)外部コンピュータになされてもよい。いくつかの実施形態においては、電気的回路は、本技術の側面を実行するために、コンピュータ可読プログラム命令の状態情報を利用して、電気的回路を個別化することによって、コンピュータ可読プログラム命令を実行してもよく、この電気的回路は、例えば、プログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、またはプログラマブル・ロジック・アレイ(PLA)を含む。
本技術の側面は、本明細書において、本技術の実施形態に従った方法、装置(システム)およびコンピュータ・プログラム製品のフローチャート図もしくはブロック図またはその両方を参照しながら、説明される。フローチャート図もしくはブロック図またはその両方の各ブロック、および、フローチャート図もしくはブロック図またはその両方における複数のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装されてもよいことが理解されよう。
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、特定目的コンピュータのプロセッサまたは他のプログラマブル・データ処理装置に提供され、コンピュータのプロセッサまたは他のプログラマブル・データ処理装置を介して実行される命令が、フローチャート図もしくはブロックまたはその両方のブロックまたは複数のブロックにおいて特定される機能/作用を実装するための手段を作成するように、マシンを生成する。これらのコンピュータ可読プログラム命令は、また、コンピュータ、プログラマブル・データ処理装置もしくは他のデバイスまたはその組み合わせに特定のやり方で機能するよう指示できるコンピュータ可読ストレージ媒体に格納され、それに格納された命令を有するコンピュータ可読ストレージ媒体に、フローチャートもしくはブロックまたはその両方のブロックまたは複数のブロックで特定される機能/作用の側面を実装する命令を含む製品が含まれるようにする。
コンピュータ可読プログラム命令は、また、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイスにロードされ、コンピュータ、他のプログラマブル・データ処理装置または他のデバイス上で一連の動作ステップを実行させて、コンピュータ、他のプログラマブル・データ処理装置または他のデバイス上で実行される命令が、フローチャートもしくはブロックまたはその両方のブロックまたは複数のブロックで特定される機能/作用の側面を実装するように、コンピュータ実装処理を生成することもできる。
図8を参照すると、埋め込まれた韻律情報を用いて韻律を自動的に制御することができる一例の有形の非一時的なコンピュータ可読媒体800のブロック図が示されている。有形の非一時的なコンピュータ可読媒体800は、プロセッサ802によってコンピュータ相互接続804を介してアクセスされてもよい。さらに、有形の非一時的なコンピュータ可読媒体800は、プロセッサ802に、図3および図4の方法300および400の動作を実行させるように指示するコードを含んでもよい。
本明細書で説明する種々のソフトウェア・コンポーネントは、例えば、図8に示すように、有形の非一時的なコンピュータ可読媒体800に格納されてもよい。例えば、受信モジュール806は、言語シーケンスおよび韻律情報オフセットを受信するためのコードを含む。言語エンコーダモジュール808は、言語シーケンスに基づいて埋め込み言語シーケンスを生成するためのコードを含む。予測モジュール810は、また、言語シーケンスに基づいて、種々の時間にわたる観測を含む結合された韻律情報を生成するためのコードを含む。観測は、言語シーケンスと整列され、総和または連結によって結合されてもよい。観測は、所定の期間にわたって韻律成分を評価する統計的尺度の線形結合を含む。韻律エンコーダモジュール812は、観測をエンコードし、埋め込まれた韻律情報を生成するためのコードを含む。いくつかの例では、韻律エンコーダモジュール812は、韻律情報オフセットに基づいて観測を修正するためのコードを含む。例えば、韻律エンコーダモジュール812は、対応する観測に韻律情報オフセットを加算するためのコードを含む。連結モジュール814は、埋め込まれた韻律情報を埋め込み言語シーケンスと連結するためのコードを含む。音響デコーダモジュール534は、埋め込まれた韻律情報と、韻律情報オフセットと、言語シーケンスまたは埋め込み言語シーケンスとに基づいて、音響シーケンスを生成するためのコードを含む。訓練モジュール818は、ラベル無し訓練データから抽出された、観測された韻律情報に基づいて、韻律情報予測器を訓練するコードを含む。特定の用途に応じて、図8に示されない任意の数の追加のソフトウェア・コンポーネントが、有形の非一時的なコンピュータ可読媒体800内に含まれてもよいことを理解されたい。
図面におけるフローチャートおよびブロック図は、本開示の種々の実施形態に従ったシステム、方法およびコンピュータ・プログラム製品の可能な実装のアーキテクチャ、機能および動作を示す。この点に関して、フローチャートまたはブロック図の各ブロックは、特定の論理機能を実装するための1以上の実行可能な命令を含む、モジュール、セグメントまたは命令の部分を表す可能性がある。いくつかの代替の実装では、ブロックにおいて言及された機能は、図面に示された順序から外れて生じる可能性がある。例えば、連続して示される2つのブロックは、実際には、実質的に同時に実行されてもよく、あるいは、複数のブロックは、関与する機能性に応じて逆の順序で実行されてもよい。ブロック図もしくはフローチャート図またはその両方の各ブロックおよびブロック図もしくはフローチャート図またはその両方の複数のブロックの組み合わせが、特定の機能または作用を実行し、または、特別な目的のハードウェアおよびコンピュータ命令の組み合わせを実施する、特定目的ハードウェアベースのシステムによって実装されてもよいことに留意されたい。特定の用途に応じて、図8に示されない任意の数の追加のソフトウェア・コンポーネントが、有形の非一時的なコンピュータ可読媒体800内に含まれてもよいことを理解されたい。例えば、コンピュータ可読媒体800は、また、音響シーケンスに基づいてオーディオを生成するコードを含んでもよい。
本技術の種々の実施形態の説明が、説明のために提示されたが、しかしながら、網羅的であること、または、開示される実施形態に限定されることを意図するものではない。説明される実施形態の範囲および精神を逸脱することなく、多くの変更および変形が当業者にとって明らかであろう。本明細書で使用される用語は、実施形態の原理、実際の応用または市場で発見される技術に対する技術的改善を最もよく説明するために、あるいは、他の当業者が、本明細書で開示される実施形態を理解できるように選ばれたものである。

Claims (21)

  1. 言語シーケンスおよび韻律情報オフセットを受信することと、
    訓練された韻律情報予測器を介して、前記言語シーケンスに基づいて、複数の観測を含む結合された韻律情報を生成することであって、前記複数の観測は、所定の期間にわたって韻律成分を評価する統計的尺度の線形結合を含む、生成することと、
    訓練されたニューラル・ネットワークを介して、前記結合された韻律情報、前記韻律情報オフセットおよび前記言語シーケンスに基づいて、音響シーケンスを生成することと
    を行うためのプロセッサを備えるシステム。
  2. 前記プロセッサは、ラベル無し訓練データから抽出された、観測された韻律情報に基づいて、前記韻律情報予測器を訓練するように動作可能である、請求項1に記載のシステム。
  3. 前記プロセッサは、前記観測された韻律情報で訓練されたシステムによって生成された埋め込み言語シーケンスに基づいて、前記韻律情報予測器を訓練するように動作可能である、請求項1に記載のシステム。
  4. 前記プロセッサは、訓練中、レコーディングから抽出された観測スペクトルに基づいてニューラル・ネットワークを訓練するように動作可能であり、前記ニューラル・ネットワークは、韻律情報エンコーダ、言語エンコーダおよび音響デコーダを含むシーケンス・ツー・シーケンス・ニューラル・ネットワークを備える、請求項1~3のいずれか1項に記載のシステム。
  5. 前記プロセッサは、特定の所定のやり方で前記音響シーケンスの韻律を調整するために、前記韻律情報オフセットに基づいて前記複数の観測を修正するように動作可能である、請求項1~4のいずれか1項に記載のシステム。
  6. 前記プロセッサは、言語エンコーダを介して、前記言語シーケンスに基づいて、埋め込み言語シーケンスを生成するように動作可能である、請求項1~5のいずれか1項に記載のシステム。
  7. 前記韻律成分が、ペース成分、ピッチ成分、ラウドネス成分またはそれらの任意の組み合わせを含む、請求項1~6のいずれか1項に記載のシステムであって、システム。
  8. コンピュータ実装方法であって、
    言語シーケンスおよび韻律情報オフセットを受信するステップと、
    訓練された韻律情報予測器を介して、前記言語シーケンスに基づいておよび整列して、複数の観測を含む結合された韻律情報を生成するステップであって、前記複数の観測は、所定の期間にわたって韻律成分を評価する統計的尺度の線形結合を含む、生成するステップと、
    訓練されたニューラル・ネットワークを介して、前記結合された韻律情報、前記韻律情報オフセットおよび前記言語シーケンスに基づいて、音響シーケンスを生成するステップと
    を含む、コンピュータ実装方法。
  9. 訓練されたエンコーダを介して、前記言語シーケンスに基づいて、埋め込み言語シーケンスを生成するステップと、
    前記複数の観測を総和または連結により結合し、エンコードし、埋め込まれた韻律情報を生成し、前記埋め込まれた韻律情報を、前記埋め込み言語シーケンスと連結するステップと
    を含む、請求項8に記載のコンピュータ実装方法。
  10. 前記韻律情報オフセットに基づいて、前記複数の観測を修正するステップを含む、
    請求項8に記載のコンピュータ実装方法。
  11. 前記複数の観測を修正するステップは、対応する観測に前記韻律情報オフセットを加算するステップを含む、請求項10に記載のコンピュータ実装方法。
  12. 前記複数の観測は、発話レベルで評価される、請求項8~11のいずれか1項に記載のコンピュータ実装方法。
  13. 前記複数の観測は、異なる時間スパンにおいて局所的かつ階層的に評価される、請求項8~11のいずれか1項に記載のコンピュータ実装方法。
  14. 前記音響シーケンスに基づいてオーディオを生成するステップを含む、請求項8~13のいずれか1項に記載のコンピュータ実装方法。
  15. 韻律を自動的に制御するためのプログラムコードが具現化されたコンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体は、それ自体が一時的な信号自体ではなく、前記プログラムコードは、プロセッサに、
    言語シーケンスおよび韻律情報オフセットを受信することと、
    訓練された韻律情報予測器を介して、前記言語シーケンスに基づいて、複数の観測を含む結合された韻律情報を生成することであって、前記複数の観測は、所定の期間にわたって韻律成分を評価する統計的尺度の線形結合を含む、生成することと、
    前記結合された韻律情報、前記韻律情報オフセットおよび前記言語シーケンスに基づいて、音響シーケンスを生成することと
    を行うようにプロセッサによって実行可能である、コンピュータ可読記憶媒体
  16. 前記言語シーケンスに基づいて埋め込み言語シーケンスを生成し、前記複数の観測を整列し、結合し、埋め込み、埋め込まれた韻律情報を生成し、前記埋め込まれた韻律情報を、前記埋め込み言語シーケンスと連結するように前記プロセッサが実行可能なプログラムコードをさらに含む、請求項15に記載のコンピュータ可読記憶媒体
  17. 前記韻律情報オフセットに基づいて、前記複数の観測を修正するように前記プロセッサによって実行可能なプログラムコードをさらに含む、請求項15に記載のコンピュータ可読記憶媒体
  18. 前記韻律情報の対応する観測に前記韻律情報オフセットを加算するように前記プロセッサによって実行可能なプログラムコードをさらに含む、請求項15に記載のコンピュータ可読記憶媒体
  19. ラベル無し訓練データから抽出された、観測された韻律情報に基づいて、前記韻律情報予測器を訓練するように前記プロセッサによって実行可能なプログラムコードをさらに含む、請求項15に記載のコンピュータ可読記憶媒体
  20. 前記音響シーケンスに基づいてオーディオを生成するように前記プロセッサによって実行可能なプログラムコードをさらに含む、請求項15~19のいずれか1項に記載のコンピュータ可読記憶媒体
  21. コンピュータ・プログラムであって、前記プログラムがコンピュータ上で実行されるとき、請求項8~14のいずれか1項に記載の方法を実行するように適合されたプログラムコード手段を含む、コンピュータ・プログラム。
JP2022515917A 2019-09-12 2020-09-07 結合された韻律情報を用いたニューラル・ネットワークを介した音響シーケンスの生成 Active JP7517778B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/568,289 2019-09-12
US16/568,289 US11322135B2 (en) 2019-09-12 2019-09-12 Generating acoustic sequences via neural networks using combined prosody info
PCT/IB2020/058313 WO2021048727A1 (en) 2019-09-12 2020-09-07 Generating acoustic sequences via neural networks using combined prosody info

Publications (2)

Publication Number Publication Date
JP2022547685A JP2022547685A (ja) 2022-11-15
JP7517778B2 true JP7517778B2 (ja) 2024-07-17

Family

ID=74866635

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022515917A Active JP7517778B2 (ja) 2019-09-12 2020-09-07 結合された韻律情報を用いたニューラル・ネットワークを介した音響シーケンスの生成

Country Status (6)

Country Link
US (2) US11322135B2 (ja)
JP (1) JP7517778B2 (ja)
CN (1) CN114207706A (ja)
DE (1) DE112020003698T5 (ja)
GB (1) GB2604752B (ja)
WO (1) WO2021048727A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11373633B2 (en) * 2019-09-27 2022-06-28 Amazon Technologies, Inc. Text-to-speech processing using input voice characteristic data
US12080272B2 (en) * 2019-12-10 2024-09-03 Google Llc Attention-based clockwork hierarchical variational encoder
US11735197B2 (en) * 2020-07-07 2023-08-22 Google Llc Machine-learned differentiable digital signal processing
US11783813B1 (en) * 2021-05-02 2023-10-10 Abbas Rafii Methods and systems for improving word discrimination with phonologically-trained machine learning models
CN114255736B (zh) * 2021-12-23 2024-08-23 思必驰科技股份有限公司 韵律标注方法及系统
US20230334241A1 (en) * 2022-04-19 2023-10-19 International Business Machines Corporation Syntactic and semantic autocorrect learning
CN114826718B (zh) * 2022-04-19 2022-11-04 中国人民解放军战略支援部队航天工程大学 一种基于多维度信息的内部网络异常检测方法及系统
CN118354301A (zh) * 2023-01-16 2024-07-16 维沃移动通信有限公司 信息传输方法、装置及通信设备
CN116156011B (zh) * 2023-04-18 2023-07-04 安徽中科锟铻量子工业互联网有限公司 一种应用于量子网关的通信天线
CN117079352A (zh) * 2023-10-17 2023-11-17 山东大学 一种基于视频序列的人体动作识别方法、系统及存储介质
CN118200852B (zh) * 2024-05-15 2024-07-30 广州易而达科技股份有限公司 一种基于Wi-Fi的室内定位方法、装置、设备及存储介质
CN118588057A (zh) * 2024-08-05 2024-09-03 南京硅基智能科技有限公司 语音合成方法、语音合成装置和可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012037722A (ja) 2010-08-06 2012-02-23 Yamaha Corp 音合成用データ生成装置およびピッチ軌跡生成装置
US20180075343A1 (en) 2016-09-06 2018-03-15 Google Inc. Processing sequences using convolutional neural networks

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9484015B2 (en) * 2013-05-28 2016-11-01 International Business Machines Corporation Hybrid predictive model for enhancing prosodic expressiveness
US9195656B2 (en) * 2013-12-30 2015-11-24 Google Inc. Multilingual prosody generation
US9997154B2 (en) * 2014-05-12 2018-06-12 At&T Intellectual Property I, L.P. System and method for prosodically modified unit selection databases
US9824681B2 (en) 2014-09-11 2017-11-21 Microsoft Technology Licensing, Llc Text-to-speech with emotional content
CN105185372B (zh) * 2015-10-20 2017-03-22 百度在线网络技术(北京)有限公司 个性化多声学模型的训练方法、语音合成方法及装置
CN107516511B (zh) * 2016-06-13 2021-05-25 微软技术许可有限责任公司 意图识别和情绪的文本到语音学习系统
US20180082679A1 (en) 2016-09-18 2018-03-22 Newvoicemedia, Ltd. Optimal human-machine conversations using emotion-enhanced natural speech using hierarchical neural networks and reinforcement learning
US11321890B2 (en) * 2016-11-09 2022-05-03 Microsoft Technology Licensing, Llc User interface for generating expressive content
US10860685B2 (en) 2016-11-28 2020-12-08 Google Llc Generating structured text content using speech recognition models
US10872598B2 (en) 2017-02-24 2020-12-22 Baidu Usa Llc Systems and methods for real-time neural text-to-speech
US10937444B1 (en) * 2017-11-22 2021-03-02 Educational Testing Service End-to-end neural network based automated speech scoring
CN108492818B (zh) 2018-03-22 2020-10-30 百度在线网络技术(北京)有限公司 文本到语音的转换方法、装置和计算机设备
JP7052866B2 (ja) * 2018-04-18 2022-04-12 日本電信電話株式会社 自己訓練データ選別装置、推定モデル学習装置、自己訓練データ選別方法、推定モデル学習方法、およびプログラム
KR20200015418A (ko) * 2018-08-02 2020-02-12 네오사피엔스 주식회사 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
US10573296B1 (en) * 2018-12-10 2020-02-25 Apprente Llc Reconciliation between simulator and speech recognition output using sequence-to-sequence mapping
US11270684B2 (en) * 2019-09-11 2022-03-08 Artificial Intelligence Foundation, Inc. Generation of speech with a prosodic characteristic
US20220229998A1 (en) * 2021-01-21 2022-07-21 Servicenow, Inc. Lookup source framework for a natural language understanding (nlu) framework

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012037722A (ja) 2010-08-06 2012-02-23 Yamaha Corp 音合成用データ生成装置およびピッチ軌跡生成装置
US20180075343A1 (en) 2016-09-06 2018-03-15 Google Inc. Processing sequences using convolutional neural networks

Also Published As

Publication number Publication date
GB202204059D0 (en) 2022-05-04
GB2604752B (en) 2023-02-22
WO2021048727A1 (en) 2021-03-18
US20220328041A1 (en) 2022-10-13
US11842728B2 (en) 2023-12-12
CN114207706A (zh) 2022-03-18
DE112020003698T5 (de) 2022-04-28
US11322135B2 (en) 2022-05-03
US20210082408A1 (en) 2021-03-18
GB2604752A (en) 2022-09-14
JP2022547685A (ja) 2022-11-15

Similar Documents

Publication Publication Date Title
JP7517778B2 (ja) 結合された韻律情報を用いたニューラル・ネットワークを介した音響シーケンスの生成
US12087273B2 (en) Multilingual speech synthesis and cross-language voice cloning
US10394963B2 (en) Natural language processor for providing natural language signals in a natural language output
JP2023535230A (ja) 2レベル音声韻律転写
US10394861B2 (en) Natural language processor for providing natural language signals in a natural language output
US11721318B2 (en) Singing voice conversion
US11011161B2 (en) RNNLM-based generation of templates for class-based text generation
US20230056680A1 (en) Integrating dialog history into end-to-end spoken language understanding systems
WO2023046016A1 (en) Optimization of lip syncing in natural language translated video
US20220343904A1 (en) Learning singing from speech
JP2024501173A (ja) スピーチ認識のためのリカレントニューラルネットワークトランスデューサのカスタマイズ
US11257480B2 (en) Unsupervised singing voice conversion with pitch adversarial network
JP2024019082A (ja) システム、コンピュータ実装方法、及びコンピュータプログラム(自動音声検出を改善するためのボイスアクティビティ検出統合)
JP2023552711A (ja) 代替的なソフト・ラベル生成
CN115210808A (zh) 语音合成的可学习速度控制
US11908454B2 (en) Integrating text inputs for training and adapting neural network transducer ASR models
JP2024522329A (ja) テキスト転写を伴わない全体的な韻律スタイルの変換
CN118613868A (zh) 集成到神经换能器模型中的外部语言模型信息

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220518

RD16 Notification of change of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7436

Effective date: 20220330

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230224

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240305

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240618

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20240619

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240702

R150 Certificate of patent or registration of utility model

Ref document number: 7517778

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150