JP2013238819A - 音声変換関数学習装置、音声変換装置、音声変換関数学習方法、音声変換方法、およびプログラム - Google Patents
音声変換関数学習装置、音声変換装置、音声変換関数学習方法、音声変換方法、およびプログラム Download PDFInfo
- Publication number
- JP2013238819A JP2013238819A JP2012113439A JP2012113439A JP2013238819A JP 2013238819 A JP2013238819 A JP 2013238819A JP 2012113439 A JP2012113439 A JP 2012113439A JP 2012113439 A JP2012113439 A JP 2012113439A JP 2013238819 A JP2013238819 A JP 2013238819A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- voice
- speech
- uttered
- conversion function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 218
- 230000006870 function Effects 0.000 title claims abstract description 165
- 238000000034 method Methods 0.000 title claims description 41
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 5
- 230000015572 biosynthetic process Effects 0.000 claims description 24
- 238000003786 synthesis reaction Methods 0.000 claims description 24
- 230000009466 transformation Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 238000013519 translation Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 241000186514 Warburgia ugandensis Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
【解決手段】第一話者モデル学習部110は、複数の第一話者が発話した音声を学習して第一話者平均声モデルを生成する。第二話者モデル学習部115は、複数の第二話者が発話した音声を学習して第二話者平均声モデルを生成する。第一話者音声合成部120は、第一話者平均声モデルを用いて第一話者平均声合成音を生成する。第二話者音声合成部125は、第二話者平均声モデルを用いて第二話者平均声合成音を生成する。変換関数学習部130は、第一話者が発話した音声から第二話者が発話した音声に類似する音声へ変換する第一音声変換関数および第二話者が発話した音声から第一話者が発話した音声に類似する音声へ変換する第二話者音声変換関数を学習する。
【選択図】図1
Description
<概要>
まず、この発明の第1実施形態の概要を説明する。この実施形態では、音声変換関数学習装置10と音声変換装置20を用いる。まず、あらかじめ複数の話者を発音の傾向によりグループ分けし、各グループに属する複数の話者の音声を収集する。音声変換関数学習装置10は、任意のグループに属する話者を第一話者として、第一話者が発話した音声を学習して第一話者平均声モデルを生成する。また、異なるグループに属する話者を第二話者として、第二話者が発話した音声を学習して第二話者平均声モデルを生成する。そして、第一話者平均声モデルと第二話者平均声モデルとを用いて、第一話者が発話した音声を第二話者が発話した音声に類似する音声に変換する第一音声変換関数と、第二話者が発話した音声を第一話者が発話した音声に類似する音声に変換する第二音声変換関数とを学習する。
図1を参照して、第1実施形態に係る音声変換関数学習装置10の構成例を詳細に説明する。音声変換関数学習装置10は、第一話者モデル学習部110と第二話者モデル学習部115と第一話者音声合成部120と第二話者音声合成部125と変換関数学習部130と第一話者音声記憶部910と第二話者音声記憶部915と第一話者平均声モデル記憶部920と第二話者平均声モデル記憶部925とテキスト記憶部930と第一話者平均声合成音記憶部940と第二話者平均声合成音記憶部945と第一音声変換関数記憶部950と第二音声変換関数記憶部955とを備える。第一話者音声記憶部910と第二話者音声記憶部915と第一話者平均声モデル記憶部920と第二話者平均声モデル記憶部925とテキスト記憶部930と第一話者平均声合成音記憶部940と第二話者平均声合成音記憶部945と第一音声変換関数記憶部950と第二音声変換関数記憶部955は、例えば、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)などの半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。
図3を参照して、音声変換関数学習装置10の動作例を、実際に行われる手続きの順に従って詳細に説明する。
図4を参照して、音声変換装置20の動作例を、実際に行われる手続きの順に従って詳細に説明する。
この発明の第1実施形態では、音声変換関数学習装置10が、第一話者平均声モデルと第二話者平均声モデルとを用いて、同一のテキストをそれぞれ音声合成し、生成された合成音の対応関係を表す変換関数を学習する。音声変換装置20は、音声変換関数学習装置10が学習した変換関数を用いて、第一話者の発話する音声を第二話者の発話する音声に類似する音声に変換し、第二話者の発話する音声を第一話者の発話する音声に類似する音声に変換する。
<概要>
まず、この発明の第2実施形態の概要を説明する。この実施形態は、ある言語を母語とせず、その言語の習得が十分でない学習者と、その言語を母語とする母語話者とが対話する場面に、この発明を適用することを想定している。すなわち、第1実施形態における第一話者を、ある言語を母語とせず、その言語の習得が十分でない学習者とし、第1実施形態における第二話者を、その言語を母語とする母語話者とする。
図5を参照して、第2実施形態に係る音声変換関数学習装置11の構成例を詳細に説明する。音声変換関数学習装置11は、学習者モデル学習部111と母語話者モデル学習部116と学習者音声合成部121と母語話者音声合成部126と変換関数学習部131と学習者音声記憶部911と母語話者音声記憶部916と学習者平均声モデル記憶部921と母語話者平均声モデル記憶部926とテキスト記憶部931と学習者平均声合成音記憶部941と母語話者平均声合成音記憶部946と学習者音声変換関数記憶部951と母語話者音声変換関数記憶部956とを備える。学習者音声記憶部911と母語話者音声記憶部916と学習者平均声モデル記憶部921と母語話者平均声モデル記憶部926とテキスト記憶部931と学習者平均声合成音記憶部941と母語話者平均声合成音記憶部946と学習者音声変換関数記憶部951と母語話者音声変換関数記憶部956は、例えば、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)などの半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。
この実施形態と第1実施形態との相違点について説明する。第1実施形態と第2実施形態では、基本的に音声変換関数学習処理と音声変換処理の内容は同様である。第2実施形態では、第1実施形態における第一話者を、ある言語を母語とせず、その言語の習得が十分でない話者である学習者とし、第2実施形態における第二話者を、その言語を母語とする話者である母語話者とする。ある言語の習得が十分でない学習者は、その言語の発音が適切でなく自身の母語の発音に近くなることが考えられるため、発音の傾向が近いグループとすることができる。また、ある言語を母語とする母語話者は、その言語の発音が適切であるため、同様に発音の傾向が近いグループとすることができる。例えば、対象言語を英語とすると、学習者を英語の習得が十分でない日本人として、母語話者を英語を母語とする米国人とすることが考えられる。
この実施形態では、音声変換関数学習装置11が、学習者平均声モデルと母語話者平均声モデルとを用いて、同一のテキストをそれぞれ音声合成し、対応する合成音の対応関係を表す変換関数を学習する。音声変換装置21は、音声変換関数学習装置11が学習した変換関数を用いて、学習者の発話する音声を母語話者の発話する音声に類似する音声に変換し、母語話者の発話する音声を学習者の発話する音声に類似する音声に変換する。
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施例において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
20,21 音声変換装置
110 第一話者モデル学習部 111 学習者モデル学習部
115 第二話者モデル学習部 116 母語話者モデル学習部
120 第一話者音声合成部 121 学習者音声合成部
125 第二話者音声合成部 126 母語話者音声合成部
130,131 変換関数学習部
201 収音手段 202 発音手段
210 第一話者音声変換部 211 学習者音声変換部
215 第二話者音声変換部 216 母語話者音声変換部
910 第一話者音声記憶部 911 学習者音声記憶部
915 第二話者音声記憶部 915 母語話者音声記憶部
920 第一話者平均声モデル記憶部 921 学習者平均声モデル記憶部
925 第二話者平均声モデル記憶部 926 母語話者平均声モデル記憶部
930,931 テキスト記憶部
940 第一話者平均声合成音記憶部 941 学習者平均声合成音記憶部
945 第二話者平均声合成音記憶部 946 母語話者平均声合成音記憶部
950 第一音声変換関数記憶部 951 学習者音声変換関数記憶部
955 第二音声変換関数記憶部 956 母語話者音声変換関数記憶部
Claims (8)
- 複数の話者を発音の傾向によりグループ分けし、一方のグループに属する第一話者が発話した音声を他方のグループに属する第二話者が発話した音声に類似する音声へ変換し、当該第二話者が発話した音声を当該第一話者が発話した音声に類似する音声へ変換する音声変換関数を学習する音声変換関数学習装置であって、
複数の前記第一話者が発話した第一話者音声を学習して生成した第一話者平均声モデルが記憶された第一話者平均声モデル記憶部と、
複数の前記第二話者が発話した第二話者音声を学習して生成した第二話者平均声モデルが記憶された第二話者平均声モデル記憶部と、
任意のテキストが記憶されたテキスト記憶部と、
前記第一話者平均声モデルを用いて前記テキストを音声合成し、第一話者平均声合成音を生成する第一話者音声合成部と、
前記第二話者平均声モデルを用いて前記テキストを音声合成し、第二話者平均声合成音を生成する第二話者音声合成部と、
前記第一話者平均声合成音と前記第二話者平均声合成音とを用いて、前記第一話者音声から前記第二話者音声への対応関係を学習して、前記第一話者が発話した音声を入力として前記第二話者が発話した音声に類似する第二話者類似音声を出力する第一音声変換関数を生成し、前記第一話者平均声合成音と前記第二話者平均声合成音とを用いて、前記第二話者音声から前記第一話者音声への対応関係を学習して、前記第二話者が発話した音声を入力として前記第一話者が発話した音声に類似する第一話者類似音声を出力する第二音声変換関数を生成する変換関数学習部と、
を備えることを特徴とする音声変換関数学習装置。 - 請求項1に記載の音声変換関数学習装置であって、
前記第一話者平均声合成音および前記第二話者平均声合成音は、特徴量ベクトルの確率分布が多次元混合正規分布でモデル化され、
前記変換関数学習部は、
前記第一話者平均声合成音を入力として、前記第一話者平均声合成音と前記第二話者平均声合成音との結合特徴量ベクトルを用いて、前記第一音声変換関数のパラメータを推定し、前記第二話者平均声合成音を入力として、前記結合特徴量ベクトルを用いて、前記第二音声変換関数のパラメータを推定する
ことを特徴とする音声変換関数学習装置。 - 複数の話者を発音の傾向によりグループ分けし、一方のグループに属する第一話者が発話した音声を他方のグループに属する第二話者が発話した音声に類似する音声へ変換し、当該第二話者が発話した音声を当該第一話者が発話した音声に類似する音声へ変換する音声変換装置であって、
前記第一話者が発話した音声を入力として前記第二話者が発話した音声に類似する第二話者類似音声を出力する第一音声変換関数が記憶された第一音声変換関数記憶部と、
前記第二話者が発話した音声を入力として前記第一話者が発話した音声に類似する第一話者類似音声を出力する第二音声変換関数が記憶された第二音声変換関数記憶部と、
入力音声が前記第一話者の発話した音声であれば、前記第一音声変換関数を実行することにより、前記入力音声を前記第二話者類似音声に変換する第一話者音声変換部と、
前記入力音声が前記第二話者の発話した音声であれば、前記第二音声変換関数を実行することにより、前記入力音声を前記第一話者類似音声に変換する第二話者音声変換部と、
を備え、
前記第一音声変換関数は、複数の前記第一話者が発話した第一話者音声を学習して生成した第一話者平均声モデルと複数の前記第二話者が発話した第二話者音声を学習して生成した第二話者平均声モデルとを用いて、前記第一話者音声から前記第二話者音声への対応関係を学習されたものであり、
前記第二音声変換関数は、前記第一話者平均声モデルと前記第二話者平均声モデルとを用いて、前記第二話者音声から前記第一話者音声への対応関係を学習されたものである
ことを特徴とする音声変換装置。 - 請求項3に記載の音声変換装置であって、
前記第一音声変換関数は、前記第一話者平均声モデルを用いて任意のテキストを音声合成した第一話者平均声合成音と前記第二話者平均声モデルを用いて前記テキストを音声合成した第二話者平均声合成音とを用いて、前記第一話者音声から前記第二話者音声への対応関係を学習されたものであり、
前記第二音声変換関数は、前記第一話者平均声合成音と前記第二話者平均声合成音とを用いて、前記第二話者音声から前記第一話者音声への対応関係を学習されたものである
ことを特徴とする音声変換装置。 - 請求項4に記載の音声変換装置であって、
前記第一話者平均声合成音および前記第二話者平均声合成音は、確率分布が多次元混合正規分布でモデル化され、
前記第一音声変換関数は、前記第一話者平均声合成音を入力として前記第一話者平均声合成音と前記第二話者平均声合成音とを結合した結合特徴量ベクトルを用いて推定されたパラメータを用い、
前記第二音声変換関数は、前記第二話者平均声合成音を入力として前記結合特徴量ベクトルを用いて推定されたパラメータを用いる
ことを特徴とする音声変換装置。 - 複数の話者を発音の傾向によりグループ分けし、一方のグループに属する第一話者が発話した音声を他方のグループに属する第二話者が発話した音声に類似する音声へ変換し、当該第二話者が発話した音声を当該第一話者が発話した音声に類似する音声へ変換する音声変換関数を学習する音声変換関数学習方法であって、
複数の前記第一話者が発話した第一話者音声を学習して生成した第一話者平均声モデルを用いて任意のテキストを音声合成し、第一話者平均声合成音を生成する第一話者音声合成ステップと、
複数の前記第二話者が発話した第二話者音声を学習して生成した第二話者平均声モデルを用いて前記テキストを音声合成し、第二話者平均声合成音を生成する第二話者音声合成ステップと、
前記第一話者平均声合成音と前記第二話者平均声合成音とを用いて、前記第一話者音声から前記第二話者音声への対応関係を学習して、前記第一話者が発話した音声を入力として前記第二話者が発話した音声に類似する第二話者類似音声を出力する第一音声変換関数を生成し、前記第一話者平均声合成音と前記第二話者平均声合成音とを用いて、前記第二話者音声から前記第一話者音声への対応関係を学習して、前記第二話者が発話した音声を入力として前記第一話者が発話した音声に類似する第一話者類似音声を出力する第二音声変換関数を生成する変換関数学習ステップと、
を含むことを特徴とする音声変換関数学習方法。 - 複数の話者を発音の傾向によりグループ分けし、一方のグループに属する第一話者が発話した音声を他方のグループに属する第二話者が発話した音声に類似する音声へ変換し、当該第二話者が発話した音声を当該第一話者が発話した音声に類似する音声へ変換する音声変換方法であって、
入力音声が前記第一話者の発話した音声であれば、前記第一話者が発話した音声を入力として前記第二話者が発話した音声に類似する第二話者類似音声を出力する第一音声変換関数を実行することにより、前記入力音声を前記第二話者類似音声に変換する第一話者音声変換ステップと、
前記入力音声が前記第二話者の発話した音声であれば、前記第二話者が発話した音声を入力として前記第一話者が発話した音声に類似する第一話者類似音声を出力する第二音声変換関数を実行することにより、前記入力音声を前記第一話者類似音声に変換する第二話者音声変換ステップと、
を含み、
前記第一音声変換関数は、複数の前記第一話者が発話した第一話者音声を学習して生成した第一話者平均声モデルと複数の前記第二話者が発話した第二話者音声を学習して生成した第二話者平均声モデルとを用いて、前記第一話者音声から前記第二話者音声への対応関係を学習されたものであり、
前記第二音声変換関数は、前記第一話者平均声モデルと前記第二話者平均声モデルとを用いて、前記第二話者音声から前記第一話者音声への対応関係を学習されたものである
ことを特徴とする音声変換方法。 - 請求項1または2に記載の音声変換関数学習装置もしくは請求項3から5のいずれかに記載の音声変換装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012113439A JP5706368B2 (ja) | 2012-05-17 | 2012-05-17 | 音声変換関数学習装置、音声変換装置、音声変換関数学習方法、音声変換方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012113439A JP5706368B2 (ja) | 2012-05-17 | 2012-05-17 | 音声変換関数学習装置、音声変換装置、音声変換関数学習方法、音声変換方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013238819A true JP2013238819A (ja) | 2013-11-28 |
JP5706368B2 JP5706368B2 (ja) | 2015-04-22 |
Family
ID=49763857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012113439A Expired - Fee Related JP5706368B2 (ja) | 2012-05-17 | 2012-05-17 | 音声変換関数学習装置、音声変換装置、音声変換関数学習方法、音声変換方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5706368B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019208193A1 (ja) * | 2018-04-25 | 2019-10-31 | 日本電信電話株式会社 | 発音変換装置、ピッチマーク時刻抽出装置、それらの方法、およびプログラム |
CN112382273A (zh) * | 2020-11-13 | 2021-02-19 | 北京有竹居网络技术有限公司 | 用于生成音频的方法、装置、设备和介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002244689A (ja) * | 2001-02-22 | 2002-08-30 | Rikogaku Shinkokai | 平均声の合成方法及び平均声からの任意話者音声の合成方法 |
JP2004012584A (ja) * | 2002-06-04 | 2004-01-15 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識用情報作成方法、音響モデル作成方法、音声認識方法、音声合成用情報作成方法、音声合成方法及びそれらの装置、並びにプログラム及びそのプログラムを記録した記録媒体 |
WO2010142928A1 (en) * | 2009-06-10 | 2010-12-16 | Toshiba Research Europe Limited | A text to speech method and system |
JP2011028130A (ja) * | 2009-07-28 | 2011-02-10 | Panasonic Electric Works Co Ltd | 音声合成装置 |
-
2012
- 2012-05-17 JP JP2012113439A patent/JP5706368B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002244689A (ja) * | 2001-02-22 | 2002-08-30 | Rikogaku Shinkokai | 平均声の合成方法及び平均声からの任意話者音声の合成方法 |
JP2004012584A (ja) * | 2002-06-04 | 2004-01-15 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識用情報作成方法、音響モデル作成方法、音声認識方法、音声合成用情報作成方法、音声合成方法及びそれらの装置、並びにプログラム及びそのプログラムを記録した記録媒体 |
WO2010142928A1 (en) * | 2009-06-10 | 2010-12-16 | Toshiba Research Europe Limited | A text to speech method and system |
JP2011028130A (ja) * | 2009-07-28 | 2011-02-10 | Panasonic Electric Works Co Ltd | 音声合成装置 |
Non-Patent Citations (4)
Title |
---|
G. BAUDOIN, ET AL.: ""ON THE TRANSFORMATION OF THE SPEECH SPECTRUM FOR VOICE CONVERSION"", PROCEEDINGS OF THE 4TH INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING (ICSLP 96), vol. 3, JPN6015006419, October 1996 (1996-10-01), pages 1405 - 1408, XP010237945, ISSN: 0003010464, DOI: 10.1109/ICSLP.1996.607877 * |
KEIICHI TOKUDA, ET AL.: ""AN HMM-BASED SPEECH SYNTHESIS SYSTEM APPLIED TO ENGLISH"", PROCEEDINGS OF THE 2002 IEEE WORKSHOP ON SPEECH SYNTHESIS, JPN6015006418, September 2002 (2002-09-01), pages 227 - 230, XP010653652, ISSN: 0003010465 * |
彭湘琳他: ""言語依存平均声の差異を考慮したクロスリンガル話者適応"", 日本音響学会2010年春季研究発表会講演論文集CD−ROM[CD−ROM], JPN6015006417, March 2010 (2010-03-01), pages 325 - 326, ISSN: 0003010463 * |
金川裕紀他: ""HMM音声合成における不特定話者スタイル変換の検討"", 電子情報通信学会技術研究報告, vol. 111, no. 364, JPN6014004143, December 2011 (2011-12-01), pages 191 - 196, ISSN: 0003010462 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019208193A1 (ja) * | 2018-04-25 | 2019-10-31 | 日本電信電話株式会社 | 発音変換装置、ピッチマーク時刻抽出装置、それらの方法、およびプログラム |
JP2019191378A (ja) * | 2018-04-25 | 2019-10-31 | 日本電信電話株式会社 | 発音変換装置、ピッチマーク時刻抽出装置、それらの方法、およびプログラム |
JP7040258B2 (ja) | 2018-04-25 | 2022-03-23 | 日本電信電話株式会社 | 発音変換装置、その方法、およびプログラム |
CN112382273A (zh) * | 2020-11-13 | 2021-02-19 | 北京有竹居网络技术有限公司 | 用于生成音频的方法、装置、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
JP5706368B2 (ja) | 2015-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Barker et al. | The fifth'CHiME'speech separation and recognition challenge: dataset, task and baselines | |
EP3994683B1 (en) | Multilingual neural text-to-speech synthesis | |
CN105845125B (zh) | 语音合成方法和语音合成装置 | |
US20220013106A1 (en) | Multi-speaker neural text-to-speech synthesis | |
CN106688034B (zh) | 具有情感内容的文字至语音转换 | |
CN108831437A (zh) | 一种歌声生成方法、装置、终端和存储介质 | |
WO2019116889A1 (ja) | 信号処理装置および方法、学習装置および方法、並びにプログラム | |
CN112102811B (zh) | 一种合成语音的优化方法、装置及电子设备 | |
KR20200027331A (ko) | 음성 합성 장치 | |
CN113205793B (zh) | 音频生成方法、装置、存储介质及电子设备 | |
Abushariah et al. | Modern standard Arabic speech corpus for implementing and evaluating automatic continuous speech recognition systems | |
CN112185342A (zh) | 语音转换与模型训练方法、装置和系统及存储介质 | |
CN116312471A (zh) | 语音迁移、语音交互方法、装置、电子设备及存储介质 | |
Sugiura et al. | Non-monologue HMM-based speech synthesis for service robots: A cloud robotics approach | |
CN113314096A (zh) | 语音合成方法、装置、设备和存储介质 | |
JP5706368B2 (ja) | 音声変換関数学習装置、音声変換装置、音声変換関数学習方法、音声変換方法、およびプログラム | |
CN117351948A (zh) | 语音识别模型的训练方法、语音识别方法、装置和设备 | |
CN113851140A (zh) | 语音转换相关方法、系统及装置 | |
Mirishkar et al. | CSTD-Telugu corpus: Crowd-sourced approach for large-scale speech data collection | |
WO2023197206A1 (en) | Personalized and dynamic text to speech voice cloning using incompletely trained text to speech models | |
JP5689774B2 (ja) | 対話型情報発信装置、対話型情報発信方法、及びプログラム | |
JP2005196020A (ja) | 音声処理装置と方法並びにプログラム | |
TWI725608B (zh) | 語音合成系統、方法及非暫態電腦可讀取媒體 | |
JP4769086B2 (ja) | 声質変換吹替システム、及び、プログラム | |
JP6538944B2 (ja) | 発話リズム変換装置、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140703 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150123 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150224 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150226 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5706368 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |