JP7517778B2 - 結合された韻律情報を用いたニューラル・ネットワークを介した音響シーケンスの生成 - Google Patents
結合された韻律情報を用いたニューラル・ネットワークを介した音響シーケンスの生成 Download PDFInfo
- Publication number
- JP7517778B2 JP7517778B2 JP2022515917A JP2022515917A JP7517778B2 JP 7517778 B2 JP7517778 B2 JP 7517778B2 JP 2022515917 A JP2022515917 A JP 2022515917A JP 2022515917 A JP2022515917 A JP 2022515917A JP 7517778 B2 JP7517778 B2 JP 7517778B2
- Authority
- JP
- Japan
- Prior art keywords
- prosodic information
- sequence
- observations
- prosodic
- computer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims description 27
- 238000000034 method Methods 0.000 claims description 43
- 238000012549 training Methods 0.000 claims description 39
- 238000001228 spectrum Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 27
- 239000013598 vector Substances 0.000 description 23
- 238000012545 processing Methods 0.000 description 15
- 230000015654 memory Effects 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 230000004048 modification Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 239000003607 modifier Substances 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 229920001690 polydopamine Polymers 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 238000012384 transportation and delivery Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 206010013952 Dysphonia Diseases 0.000 description 1
- 208000010473 Hoarseness Diseases 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000009172 bursting Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000012517 data analytics Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1807—Speech classification or search using natural language modelling using prosody or stress
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
- Information Transfer Between Computers (AREA)
- Computer And Data Communications (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Description
オンデマンド・セルフ・サービス:クラウド・コンシューマは、サービス・プロバイダとの人的な対話を必要とせずに自動的に必要なだけ、サーバ時間およびネットワーク・ストレージなどのコンピュータ能力を一方的にプロビジョニングすることができる。
広帯域ネットワーク・アクセス:能力は、ネットワーク越しに利用可能であり、異種シン・クライアントまたはシック・クライアント・プラットフォーム(例えば、モバイルフォン、ラップトップ、PDA)による使用を促進する標準的なメカニズムを介して、アクセスされる。
リソース・プーリング:プロバイダのコンピューティング・リソースは、マルチ・テナント・モデルを用いて複数のコンシューマに提供するためにプールされ、種々の物理的および仮想的リソースが需要に従って動的に割り当てられ、また、再割り当てられる。コンシューマは、一般的に、提供されるリソースの正確な場所を管理したり、知識を有したりせず、しかし、より高度な抽象レベル(例えば国、州、またはデータセンタ)にて場所を指定することが可能であるという意味で、場所の独立感がある。
迅速な弾力性:能力は、迅速かつ柔軟に、いくつかの場合では自動的に、プロビジョニングされて素早くスケール・アウトすることができ、また、迅速にリリースされて素早くスケール・インすることができる。コンシューマにとって、プロビジョニング利用可能な能力は、しばしば外面的には無制限のように見え、任意の時間に任意の量を購入することができる。
測量されたサービス:クラウドシステムは、サービスのタイプにとって適切なある抽象レベル(例えば、ストレージ、処理、帯域幅、アクティブ・ユーザ数)での計量能力を利用することによって、自動的にリソース使用を制御し、また最適化する。リソース使用量は、監視され、制御されおよび報告されて、利用サービスのプロバイダおよびコンシューマの双方に対する透明性を提供する。
ソフトウェア・アズ・ア・サービス(SaaS):コンシューマに提供される能力は、クラウド・インフラストラクチャ上で稼働するプロバイダのアプリケーションを使用することである。アプリケーションは、ウェブ・ブラウザ(例えばウェブベースの電子メール)などのシン・クライアント・インタフェースを介して種々のクライアント・デバイスからアクセス可能である。コンシューマは、ネットワーク、サーバ、オペレーティング・システム、ストレージ、または、限定されたユーザ固有のアプリケーション構成設定の潜在的な例外を除いて個々のアプリケーション能力すらも含む下層のインフラストラクチャを管理または制御しない。
プラットフォーム・アズ・ア・サービス(PaaS):コンシューマに提供される能力は、プロバイダによってサポートされるプログラミング言語およびツールを用いて作成された、コンシューマ作成または獲得のアプリケーションをクラウド・インフラストラクチャ上にデプロイすることである。コンシューマは、ネットワーク、サーバ、オペレーティング・システムまたはストレージを含む下層のクラウド・インフラストラクチャを管理または制御しないが、デプロイされたアプリケーションおよび場合によってはアプリケーション・ホスティング環境の構成への制御を有する。
インフラストラクチャ・アズ・ア・サービス(IaaS):コンシューマに提供される能力は、処理、ストレージ、ネットワーク、および、コンシューマが、オペレーティング・システムおよびアプリケーションを含み得る任意のソフトウェアをデプロイし、稼働させることができる他の基本的なコンピューティング・リソースを提供することである。コンシューマは、下層のクラウド・インフラストラクチャを管理または制御しないが、オペレーティング・システム、ストレージ、デプロイされたアプリケーションに対する制御、および、場合によっては、選択したネットワーキング・コンポーネント(例えば、ホストファイアウォール)の限定された制御を有する。
プライベート・クラウド:クラウド・インフラストラクチャは、1つの組織のためだけに使用される。これは、組織または第三者によって管理されてもよく、オンプレミスまたはオフプレミスが存在し得る。
コミュニティ・クラウド:クラウド・インフラストラクチャは、いくつかの組織により共有され、共通の懸念(例えば、ミッション、セキュリティ要件、ポリシーおよびコンプライアンスに関する考慮事項)を有する特定のコミュニティをサポートする。これは、組織または第三者によって管理されてもよく、オンプレミスまたはオフプレミスが存在し得る。
パブリック・クラウド:クラウド・インフラストラクチャは、一般公衆、または、大きな業界団体が利用可能であり、クラウド・サービスを販売する組織によって所有される。
ハイブリッド・クラウド:クラウド・インフラストラクチャは、2以上のクラウド(プライベート、コミュニティまたはパブリック)の混成であり、これらのクラウドは、固有のエンティティのままであるが、しかし、データおよびアプリケーションのポータビリティを可能とする標準化されたまたは独自の技術(例えばクラウド間の負荷分散のためのクラウド・バースティング)によって結合される。
Claims (21)
- 言語シーケンスおよび韻律情報オフセットを受信することと、
訓練された韻律情報予測器を介して、前記言語シーケンスに基づいて、複数の観測を含む結合された韻律情報を生成することであって、前記複数の観測は、所定の期間にわたって韻律成分を評価する統計的尺度の線形結合を含む、生成することと、
訓練されたニューラル・ネットワークを介して、前記結合された韻律情報、前記韻律情報オフセットおよび前記言語シーケンスに基づいて、音響シーケンスを生成することと
を行うためのプロセッサを備えるシステム。 - 前記プロセッサは、ラベル無し訓練データから抽出された、観測された韻律情報に基づいて、前記韻律情報予測器を訓練するように動作可能である、請求項1に記載のシステム。
- 前記プロセッサは、前記観測された韻律情報で訓練されたシステムによって生成された埋め込み言語シーケンスに基づいて、前記韻律情報予測器を訓練するように動作可能である、請求項1に記載のシステム。
- 前記プロセッサは、訓練中、レコーディングから抽出された観測スペクトルに基づいてニューラル・ネットワークを訓練するように動作可能であり、前記ニューラル・ネットワークは、韻律情報エンコーダ、言語エンコーダおよび音響デコーダを含むシーケンス・ツー・シーケンス・ニューラル・ネットワークを備える、請求項1~3のいずれか1項に記載のシステム。
- 前記プロセッサは、特定の所定のやり方で前記音響シーケンスの韻律を調整するために、前記韻律情報オフセットに基づいて前記複数の観測を修正するように動作可能である、請求項1~4のいずれか1項に記載のシステム。
- 前記プロセッサは、言語エンコーダを介して、前記言語シーケンスに基づいて、埋め込み言語シーケンスを生成するように動作可能である、請求項1~5のいずれか1項に記載のシステム。
- 前記韻律成分が、ペース成分、ピッチ成分、ラウドネス成分またはそれらの任意の組み合わせを含む、請求項1~6のいずれか1項に記載のシステムであって、システム。
- コンピュータ実装方法であって、
言語シーケンスおよび韻律情報オフセットを受信するステップと、
訓練された韻律情報予測器を介して、前記言語シーケンスに基づいておよび整列して、複数の観測を含む結合された韻律情報を生成するステップであって、前記複数の観測は、所定の期間にわたって韻律成分を評価する統計的尺度の線形結合を含む、生成するステップと、
訓練されたニューラル・ネットワークを介して、前記結合された韻律情報、前記韻律情報オフセットおよび前記言語シーケンスに基づいて、音響シーケンスを生成するステップと
を含む、コンピュータ実装方法。 - 訓練されたエンコーダを介して、前記言語シーケンスに基づいて、埋め込み言語シーケンスを生成するステップと、
前記複数の観測を総和または連結により結合し、エンコードし、埋め込まれた韻律情報を生成し、前記埋め込まれた韻律情報を、前記埋め込み言語シーケンスと連結するステップと
を含む、請求項8に記載のコンピュータ実装方法。 - 前記韻律情報オフセットに基づいて、前記複数の観測を修正するステップを含む、
請求項8に記載のコンピュータ実装方法。 - 前記複数の観測を修正するステップは、対応する観測に前記韻律情報オフセットを加算するステップを含む、請求項10に記載のコンピュータ実装方法。
- 前記複数の観測は、発話レベルで評価される、請求項8~11のいずれか1項に記載のコンピュータ実装方法。
- 前記複数の観測は、異なる時間スパンにおいて局所的かつ階層的に評価される、請求項8~11のいずれか1項に記載のコンピュータ実装方法。
- 前記音響シーケンスに基づいてオーディオを生成するステップを含む、請求項8~13のいずれか1項に記載のコンピュータ実装方法。
- 韻律を自動的に制御するためのプログラムコードが具現化されたコンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体は、それ自体が一時的な信号自体ではなく、前記プログラムコードは、プロセッサに、
言語シーケンスおよび韻律情報オフセットを受信することと、
訓練された韻律情報予測器を介して、前記言語シーケンスに基づいて、複数の観測を含む結合された韻律情報を生成することであって、前記複数の観測は、所定の期間にわたって韻律成分を評価する統計的尺度の線形結合を含む、生成することと、
前記結合された韻律情報、前記韻律情報オフセットおよび前記言語シーケンスに基づいて、音響シーケンスを生成することと
を行うようにプロセッサによって実行可能である、コンピュータ可読記憶媒体。 - 前記言語シーケンスに基づいて埋め込み言語シーケンスを生成し、前記複数の観測を整列し、結合し、埋め込み、埋め込まれた韻律情報を生成し、前記埋め込まれた韻律情報を、前記埋め込み言語シーケンスと連結するように前記プロセッサが実行可能なプログラムコードをさらに含む、請求項15に記載のコンピュータ可読記憶媒体。
- 前記韻律情報オフセットに基づいて、前記複数の観測を修正するように前記プロセッサによって実行可能なプログラムコードをさらに含む、請求項15に記載のコンピュータ可読記憶媒体。
- 前記韻律情報の対応する観測に前記韻律情報オフセットを加算するように前記プロセッサによって実行可能なプログラムコードをさらに含む、請求項15に記載のコンピュータ可読記憶媒体。
- ラベル無し訓練データから抽出された、観測された韻律情報に基づいて、前記韻律情報予測器を訓練するように前記プロセッサによって実行可能なプログラムコードをさらに含む、請求項15に記載のコンピュータ可読記憶媒体。
- 前記音響シーケンスに基づいてオーディオを生成するように前記プロセッサによって実行可能なプログラムコードをさらに含む、請求項15~19のいずれか1項に記載のコンピュータ可読記憶媒体。
- コンピュータ・プログラムであって、前記プログラムがコンピュータ上で実行されるとき、請求項8~14のいずれか1項に記載の方法を実行するように適合されたプログラムコード手段を含む、コンピュータ・プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/568,289 | 2019-09-12 | ||
US16/568,289 US11322135B2 (en) | 2019-09-12 | 2019-09-12 | Generating acoustic sequences via neural networks using combined prosody info |
PCT/IB2020/058313 WO2021048727A1 (en) | 2019-09-12 | 2020-09-07 | Generating acoustic sequences via neural networks using combined prosody info |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022547685A JP2022547685A (ja) | 2022-11-15 |
JP7517778B2 true JP7517778B2 (ja) | 2024-07-17 |
Family
ID=74866635
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022515917A Active JP7517778B2 (ja) | 2019-09-12 | 2020-09-07 | 結合された韻律情報を用いたニューラル・ネットワークを介した音響シーケンスの生成 |
Country Status (6)
Country | Link |
---|---|
US (2) | US11322135B2 (ja) |
JP (1) | JP7517778B2 (ja) |
CN (1) | CN114207706A (ja) |
DE (1) | DE112020003698T5 (ja) |
GB (1) | GB2604752B (ja) |
WO (1) | WO2021048727A1 (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11373633B2 (en) * | 2019-09-27 | 2022-06-28 | Amazon Technologies, Inc. | Text-to-speech processing using input voice characteristic data |
US12080272B2 (en) * | 2019-12-10 | 2024-09-03 | Google Llc | Attention-based clockwork hierarchical variational encoder |
US11735197B2 (en) * | 2020-07-07 | 2023-08-22 | Google Llc | Machine-learned differentiable digital signal processing |
US11783813B1 (en) * | 2021-05-02 | 2023-10-10 | Abbas Rafii | Methods and systems for improving word discrimination with phonologically-trained machine learning models |
CN114255736B (zh) * | 2021-12-23 | 2024-08-23 | 思必驰科技股份有限公司 | 韵律标注方法及系统 |
US20230334241A1 (en) * | 2022-04-19 | 2023-10-19 | International Business Machines Corporation | Syntactic and semantic autocorrect learning |
CN114826718B (zh) * | 2022-04-19 | 2022-11-04 | 中国人民解放军战略支援部队航天工程大学 | 一种基于多维度信息的内部网络异常检测方法及系统 |
CN118354301A (zh) * | 2023-01-16 | 2024-07-16 | 维沃移动通信有限公司 | 信息传输方法、装置及通信设备 |
CN116156011B (zh) * | 2023-04-18 | 2023-07-04 | 安徽中科锟铻量子工业互联网有限公司 | 一种应用于量子网关的通信天线 |
CN117079352A (zh) * | 2023-10-17 | 2023-11-17 | 山东大学 | 一种基于视频序列的人体动作识别方法、系统及存储介质 |
CN118200852B (zh) * | 2024-05-15 | 2024-07-30 | 广州易而达科技股份有限公司 | 一种基于Wi-Fi的室内定位方法、装置、设备及存储介质 |
CN118588057A (zh) * | 2024-08-05 | 2024-09-03 | 南京硅基智能科技有限公司 | 语音合成方法、语音合成装置和可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012037722A (ja) | 2010-08-06 | 2012-02-23 | Yamaha Corp | 音合成用データ生成装置およびピッチ軌跡生成装置 |
US20180075343A1 (en) | 2016-09-06 | 2018-03-15 | Google Inc. | Processing sequences using convolutional neural networks |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9484015B2 (en) * | 2013-05-28 | 2016-11-01 | International Business Machines Corporation | Hybrid predictive model for enhancing prosodic expressiveness |
US9195656B2 (en) * | 2013-12-30 | 2015-11-24 | Google Inc. | Multilingual prosody generation |
US9997154B2 (en) * | 2014-05-12 | 2018-06-12 | At&T Intellectual Property I, L.P. | System and method for prosodically modified unit selection databases |
US9824681B2 (en) | 2014-09-11 | 2017-11-21 | Microsoft Technology Licensing, Llc | Text-to-speech with emotional content |
CN105185372B (zh) * | 2015-10-20 | 2017-03-22 | 百度在线网络技术(北京)有限公司 | 个性化多声学模型的训练方法、语音合成方法及装置 |
CN107516511B (zh) * | 2016-06-13 | 2021-05-25 | 微软技术许可有限责任公司 | 意图识别和情绪的文本到语音学习系统 |
US20180082679A1 (en) | 2016-09-18 | 2018-03-22 | Newvoicemedia, Ltd. | Optimal human-machine conversations using emotion-enhanced natural speech using hierarchical neural networks and reinforcement learning |
US11321890B2 (en) * | 2016-11-09 | 2022-05-03 | Microsoft Technology Licensing, Llc | User interface for generating expressive content |
US10860685B2 (en) | 2016-11-28 | 2020-12-08 | Google Llc | Generating structured text content using speech recognition models |
US10872598B2 (en) | 2017-02-24 | 2020-12-22 | Baidu Usa Llc | Systems and methods for real-time neural text-to-speech |
US10937444B1 (en) * | 2017-11-22 | 2021-03-02 | Educational Testing Service | End-to-end neural network based automated speech scoring |
CN108492818B (zh) | 2018-03-22 | 2020-10-30 | 百度在线网络技术(北京)有限公司 | 文本到语音的转换方法、装置和计算机设备 |
JP7052866B2 (ja) * | 2018-04-18 | 2022-04-12 | 日本電信電話株式会社 | 自己訓練データ選別装置、推定モデル学習装置、自己訓練データ選別方法、推定モデル学習方法、およびプログラム |
KR20200015418A (ko) * | 2018-08-02 | 2020-02-12 | 네오사피엔스 주식회사 | 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체 |
US10573296B1 (en) * | 2018-12-10 | 2020-02-25 | Apprente Llc | Reconciliation between simulator and speech recognition output using sequence-to-sequence mapping |
US11270684B2 (en) * | 2019-09-11 | 2022-03-08 | Artificial Intelligence Foundation, Inc. | Generation of speech with a prosodic characteristic |
US20220229998A1 (en) * | 2021-01-21 | 2022-07-21 | Servicenow, Inc. | Lookup source framework for a natural language understanding (nlu) framework |
-
2019
- 2019-09-12 US US16/568,289 patent/US11322135B2/en active Active
-
2020
- 2020-09-07 CN CN202080056837.1A patent/CN114207706A/zh active Pending
- 2020-09-07 WO PCT/IB2020/058313 patent/WO2021048727A1/en active Application Filing
- 2020-09-07 JP JP2022515917A patent/JP7517778B2/ja active Active
- 2020-09-07 GB GB2204059.6A patent/GB2604752B/en active Active
- 2020-09-07 DE DE112020003698.7T patent/DE112020003698T5/de active Pending
-
2022
- 2022-04-28 US US17/731,570 patent/US11842728B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012037722A (ja) | 2010-08-06 | 2012-02-23 | Yamaha Corp | 音合成用データ生成装置およびピッチ軌跡生成装置 |
US20180075343A1 (en) | 2016-09-06 | 2018-03-15 | Google Inc. | Processing sequences using convolutional neural networks |
Also Published As
Publication number | Publication date |
---|---|
GB202204059D0 (en) | 2022-05-04 |
GB2604752B (en) | 2023-02-22 |
WO2021048727A1 (en) | 2021-03-18 |
US20220328041A1 (en) | 2022-10-13 |
US11842728B2 (en) | 2023-12-12 |
CN114207706A (zh) | 2022-03-18 |
DE112020003698T5 (de) | 2022-04-28 |
US11322135B2 (en) | 2022-05-03 |
US20210082408A1 (en) | 2021-03-18 |
GB2604752A (en) | 2022-09-14 |
JP2022547685A (ja) | 2022-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7517778B2 (ja) | 結合された韻律情報を用いたニューラル・ネットワークを介した音響シーケンスの生成 | |
US12087273B2 (en) | Multilingual speech synthesis and cross-language voice cloning | |
US10394963B2 (en) | Natural language processor for providing natural language signals in a natural language output | |
JP2023535230A (ja) | 2レベル音声韻律転写 | |
US10394861B2 (en) | Natural language processor for providing natural language signals in a natural language output | |
US11721318B2 (en) | Singing voice conversion | |
US11011161B2 (en) | RNNLM-based generation of templates for class-based text generation | |
US20230056680A1 (en) | Integrating dialog history into end-to-end spoken language understanding systems | |
WO2023046016A1 (en) | Optimization of lip syncing in natural language translated video | |
US20220343904A1 (en) | Learning singing from speech | |
JP2024501173A (ja) | スピーチ認識のためのリカレントニューラルネットワークトランスデューサのカスタマイズ | |
US11257480B2 (en) | Unsupervised singing voice conversion with pitch adversarial network | |
JP2024019082A (ja) | システム、コンピュータ実装方法、及びコンピュータプログラム(自動音声検出を改善するためのボイスアクティビティ検出統合) | |
JP2023552711A (ja) | 代替的なソフト・ラベル生成 | |
CN115210808A (zh) | 语音合成的可学习速度控制 | |
US11908454B2 (en) | Integrating text inputs for training and adapting neural network transducer ASR models | |
JP2024522329A (ja) | テキスト転写を伴わない全体的な韻律スタイルの変換 | |
CN118613868A (zh) | 集成到神经换能器模型中的外部语言模型信息 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20220518 |
|
RD16 | Notification of change of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7436 Effective date: 20220330 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230224 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240221 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240305 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240523 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240618 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20240619 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240702 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7517778 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |