JP2020060633A - 音響モデル学習装置、音声合成装置、及びプログラム - Google Patents
音響モデル学習装置、音声合成装置、及びプログラム Download PDFInfo
- Publication number
- JP2020060633A JP2020060633A JP2018190462A JP2018190462A JP2020060633A JP 2020060633 A JP2020060633 A JP 2020060633A JP 2018190462 A JP2018190462 A JP 2018190462A JP 2018190462 A JP2018190462 A JP 2018190462A JP 2020060633 A JP2020060633 A JP 2020060633A
- Authority
- JP
- Japan
- Prior art keywords
- model
- acoustic
- speaker
- acoustic feature
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008451 emotion Effects 0.000 claims description 66
- 230000015572 biosynthetic process Effects 0.000 claims description 57
- 238000003786 synthesis reaction Methods 0.000 claims description 57
- 230000006870 function Effects 0.000 claims description 23
- 230000002194 synthesizing effect Effects 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 description 23
- 238000012545 processing Methods 0.000 description 18
- 230000014509 gene expression Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- 238000000034 method Methods 0.000 description 9
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 230000002996 emotional effect Effects 0.000 description 5
- 238000009826 distribution Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 208000002173 dizziness Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Electrically Operated Instructional Devices (AREA)
- Circuit For Audible Band Transducer (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
図1を参照して、第1実施形態に係る音声合成装置100について説明する。図1は、第1実施形態に係る音声合成装置100の構成の一例を示す図である。
まず、モデル学習部10について説明する。モデル学習部10は、音響特徴量計算部11、言語特徴量計算部12、音響モデル学習部(第1の学習部)13、音響特徴量生成部14、自然/合成音声判別モデル学習部(第2の学習部)15、話者判別モデル学習部(第3の学習部)16、データベース(不図示)、などを備える。
従って、自然/合成音声判別モデルは、音響特徴量生成部14により生成された合成音響特徴量が、所定の音響特徴量でないことを「真」、音響特徴量生成部14により生成された合成音響特徴量が、所定の音響特徴量であることを「偽」、として、当該合成音響特徴量を判別する。また、自然/合成音声判別モデルは、話者判別モデルと同時に最適化される。
また、モデル学習部10は、音声判別タスクの敵対的学習において、合成音響特徴量を所定の音響特徴量に近づけることができ、話者判別タスクの敵対的学習において、合成音響特徴量の話者を所定の話者に近づけることができる。これにより、従来のモデル学習部が、音響モデルにより推定された合成音響特徴量を、複数話者の平均的な音響特徴量に近づけるような学習を行っていた(話者を判別せずに学習を行っていた)という問題を回避し、話者性を明確に反映させた学習を行うモデル学習部10を実現できる。
次に、音声合成部20について説明する。音声合成部20は、言語特徴量計算部21、音響特徴量生成部22、波形生成部23、データベース(不図示)、などを備える。
図2を参照して、第2実施形態に係る音声合成装置200について説明する。図2は、第2実施形態に係る音声合成装置200の構成の一例を示す図である。
従って、自然/合成音声判別及び話者判別モデルは、音響特徴量生成部14により生成された合成音響特徴量が、学習データ内の所定の話者の音響特徴量に判別されないことを「真」、音響特徴量生成部14により生成された合成音響特徴量が、学習データ内の所定の話者の音響特徴量に判別されることを「偽」、として、当該合成音響特徴量及び当該合成音響特徴量の話者を判別する。また、自然/合成音声判別及び話者判別モデルにおいて、自然/合成音声判別と話者判別とは同時に最適化される。
また、モデル学習部10Aは、音声判別タスクの敵対的学習において、合成音響特徴量を所定の音響特徴量に近づけることができ、話者判別タスクの敵対的学習において、合成音響特徴量の話者を所定の話者に近づけることができる。これにより、従来のモデル学習部が、音響モデルにより推定された合成音響特徴量を、複数話者の平均的な音響特徴量に近づけるような学習を行っていたという問題を回避し、話者性を明確に反映させた学習を行うモデル学習部10Aを実現できる。
図3を参照して、第3実施形態に係る音声合成装置300について説明する。図3は、第3実施形態に係る音声合成装置300の構成の一例を示す図である。
図4を参照して、第4実施形態に係る音声合成装置400について説明する。図4は、第4実施形態に係る音声合成装置400の構成の一例を示す図である。
まず、モデル学習部10Cについて説明する。モデル学習部10Cは、音響特徴量計算部11、言語特徴量計算部12、音響モデル学習部13、音響特徴量生成部14、自然/合成音声判別モデル学習部15、感情判別モデル学習部50、データベース(不図示)、などを備える。
従って、感情判別モデルは、音響特徴量生成部14により生成された合成音響特徴量の感情が、学習データ内の所定の感情に判別されないことを「真」、音響特徴量生成部14により生成された合成音響特徴量の感情が、学習データ内の所定の感情に判別されることを「偽」、として、当該合成音響特徴量の感情を判別するモデルである。また、感情判別モデルは、自然/合成音声判別モデルと同時に最適化される。
また、モデル学習部10Cは、音声判別タスクの敵対的学習において、合成音響特徴量を所定の音響特徴量に近づけることができ、感情判別タスクの敵対的学習において、合成音響特徴量の感情を所定の感情に近づけることができる。これにより、従来のモデル学習部が、音響モデルにより推定された合成音響特徴量を、感情表現の異なる複数の自然音声データから抽出された平均的な音響特徴量に近づけるような学習を行っていたという問題を回避し、感情表現を明確に反映させた学習を行うモデル学習部10Cを実現できる。
次に、音声合成部20について説明する。音声合成部20は、言語特徴量計算部21、音響特徴量生成部22、波形生成部23、データベース(不図示)、などを備える。
本実施形態に係る音声合成装置に適用される判別モデルは、話者判別モデルに限定されるものではない。例えば、話者の年齢に依存して、表現の異なる複数の自然音声データが学習データとして使用される場合を想定した年齢判別モデルを採用することも可能である。例えば、話者の性別に依存して、表現の異なる複数の自然音声データ(男女混合データ)が学習データとして使用される場合を想定した性別判定モデルを採用することも可能である。任意の基準で対象を判別できるモデルであれば、どのようなものであってもよい。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
11 音響特徴量計算部
12 言語特徴量計算部
13 音響モデル学習部(第1の学習部)
14 音響特徴量生成部
15 自然/合成音声判別モデル学習部(第2の学習部)
16 話者判別モデル学習部(第3の学習部)
20 音声合成部
21 言語特徴量計算部
22 音響特徴量生成部(生成部)
23 波形生成部
30 自然/合成音声判別及び話者判別モデル学習部(第2の学習部)
40A 話者間データ量制御部(データ量制御部)
40B 話者間データ量制御部(データ量制御部)
40C 話者間データ量制御部(データ量制御部)
40D 話者間データ量制御部(データ量制御部)
50 感情判別モデル学習部(第2の学習部)
100 音声合成装置
200 音声合成装置
300 音声合成装置
400 音声合成装置
Claims (7)
- 抑揚のある音声信号を合成するために用いる音響モデルを得るための音響モデル学習装置であって、
音声判別モデル及び話者判別モデルを用いて、複数話者の複数の音響特徴量、前記複数の音響特徴量に対応する複数の言語特徴量、及び複数の話者データに基づいて、複数の合成音響特徴量を推定する前記音響モデルを学習する第1の学習部と、
前記複数の音響特徴量及び前記複数の合成音響特徴量に基づいて、前記合成音響特徴量が、所定の音響特徴量であることの真偽を判別する前記音声判別モデルを学習する第2の学習部と、
前記複数の音響特徴量及び前記複数の合成音響特徴量に基づいて、前記合成音響特徴量の話者が、所定の話者であることの真偽を判別する前記話者判別モデルを学習する第3の学習部と、
を備える音響モデル学習装置。 - 前記第1の学習部は、前記音響モデルの損失関数を最小化するように前記音響モデルを学習し、
前記第2の学習部は、前記音声判別モデルの損失関数を最小化するように前記音声判別モデルを学習し、
前記第3の学習部は、前記話者判別モデルの損失関数を最小化するように前記話者判別モデルを学習する、
請求項1に記載の音響モデル学習装置。 - 前記音声判別モデルと前記話者判別モデルとは、同時に最適化される、
請求項1または2に記載の音響モデル学習装置。 - 前記複数話者の間に生じるデータ量の差を均一化するデータ量制御部を更に備える、
請求項1から3のいずれか一項に記載の音響モデル学習装置。 - 所望の話者の特徴を有する音声データを合成する音声合成装置であって、
テキストデータと前記所望の話者を示す話者データから、前記テキストデータに対応するかつ前記所望の話者の特徴を有する音声データである合成音声データを合成する合成部を有し、
前記合成音声データは、所定の判別器により自然音かつ前記所望の話者が発した音声であると判定される、
音声合成装置。 - 抑揚のある音声信号を合成するために用いる音響モデルを得るための音響モデル学習装置であって、
音声判別モデル及び感情判別モデルを用いて、複数の音響特徴量、前記複数の音響特徴量に対応する複数の言語特徴量、及び複数の感情データに基づいて、複数の合成音響特徴量を推定する前記音響モデルを学習する第1の学習部と、
前記複数の音響特徴量及び前記複数の合成音響特徴量に基づいて、前記合成音響特徴量が、所定の音響特徴量であることの真偽を判別する前記音声判別モデルを学習する第2の学習部と、
前記複数の音響特徴量及び前記複数の合成音響特徴量に基づいて、前記合成音響特徴量の感情が、所定の感情を示す音響特徴量であることの真偽を判別する前記感情判別モデルを学習する第3の学習部と、
を備える音響モデル学習装置。 - コンピュータを、請求項1から4、または6のいずれか一項に記載の音響モデル学習装置として機能させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018190462A JP7125608B2 (ja) | 2018-10-05 | 2018-10-05 | 音響モデル学習装置、音声合成装置、及びプログラム |
PCT/JP2019/037620 WO2020071213A1 (ja) | 2018-10-05 | 2019-09-25 | 音響モデル学習装置、音声合成装置、及びプログラム |
US17/275,268 US11545135B2 (en) | 2018-10-05 | 2019-09-25 | Acoustic model learning device, voice synthesis device, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018190462A JP7125608B2 (ja) | 2018-10-05 | 2018-10-05 | 音響モデル学習装置、音声合成装置、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020060633A true JP2020060633A (ja) | 2020-04-16 |
JP7125608B2 JP7125608B2 (ja) | 2022-08-25 |
Family
ID=70055025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018190462A Active JP7125608B2 (ja) | 2018-10-05 | 2018-10-05 | 音響モデル学習装置、音声合成装置、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11545135B2 (ja) |
JP (1) | JP7125608B2 (ja) |
WO (1) | WO2020071213A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023157066A1 (ja) * | 2022-02-15 | 2023-08-24 | 日本電信電話株式会社 | 音声合成学習方法、音声合成方法、音声合成学習装置、音声合成装置及びプログラム |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11741941B2 (en) * | 2020-06-12 | 2023-08-29 | SoundHound, Inc | Configurable neural speech synthesis |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002297199A (ja) * | 2001-03-29 | 2002-10-11 | Toshiba Corp | 合成音声判別方法と装置及び音声合成装置 |
JP2006293026A (ja) * | 2005-04-11 | 2006-10-26 | Oki Electric Ind Co Ltd | 音声合成装置,音声合成方法およびコンピュータプログラム |
JP2011215742A (ja) * | 2010-03-31 | 2011-10-27 | Nec Corp | 対話システム、対話フローの更新方法およびプログラム |
JP2012141354A (ja) * | 2010-12-28 | 2012-07-26 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成方法、音声合成装置及び音声合成プログラム |
JP2017058513A (ja) * | 2015-09-16 | 2017-03-23 | 株式会社東芝 | 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム |
JP2018146803A (ja) * | 2017-03-06 | 2018-09-20 | 日本放送協会 | 音声合成装置及びプログラム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104112444B (zh) * | 2014-07-28 | 2018-11-06 | 中国科学院自动化研究所 | 一种基于文本信息的波形拼接语音合成方法 |
JP6622505B2 (ja) | 2015-08-04 | 2019-12-18 | 日本電信電話株式会社 | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム |
WO2019044401A1 (ja) * | 2017-08-29 | 2019-03-07 | 大学共同利用機関法人情報・システム研究機構 | Dnn音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラム |
CN107945786B (zh) * | 2017-11-27 | 2021-05-25 | 北京百度网讯科技有限公司 | 语音合成方法和装置 |
CN108615524A (zh) * | 2018-05-14 | 2018-10-02 | 平安科技(深圳)有限公司 | 一种语音合成方法、系统及终端设备 |
KR102127126B1 (ko) * | 2018-08-03 | 2020-06-26 | 엘지전자 주식회사 | 음성 판독 장치 |
-
2018
- 2018-10-05 JP JP2018190462A patent/JP7125608B2/ja active Active
-
2019
- 2019-09-25 WO PCT/JP2019/037620 patent/WO2020071213A1/ja active Application Filing
- 2019-09-25 US US17/275,268 patent/US11545135B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002297199A (ja) * | 2001-03-29 | 2002-10-11 | Toshiba Corp | 合成音声判別方法と装置及び音声合成装置 |
JP2006293026A (ja) * | 2005-04-11 | 2006-10-26 | Oki Electric Ind Co Ltd | 音声合成装置,音声合成方法およびコンピュータプログラム |
JP2011215742A (ja) * | 2010-03-31 | 2011-10-27 | Nec Corp | 対話システム、対話フローの更新方法およびプログラム |
JP2012141354A (ja) * | 2010-12-28 | 2012-07-26 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成方法、音声合成装置及び音声合成プログラム |
JP2017058513A (ja) * | 2015-09-16 | 2017-03-23 | 株式会社東芝 | 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム |
JP2018146803A (ja) * | 2017-03-06 | 2018-09-20 | 日本放送協会 | 音声合成装置及びプログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023157066A1 (ja) * | 2022-02-15 | 2023-08-24 | 日本電信電話株式会社 | 音声合成学習方法、音声合成方法、音声合成学習装置、音声合成装置及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2020071213A1 (ja) | 2020-04-09 |
US20220051655A1 (en) | 2022-02-17 |
US11545135B2 (en) | 2023-01-03 |
JP7125608B2 (ja) | 2022-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6622505B2 (ja) | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム | |
US7729914B2 (en) | Method for detecting emotions involving subspace specialists | |
WO2019102884A1 (ja) | ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体 | |
JP4220449B2 (ja) | インデキシング装置、インデキシング方法およびインデキシングプログラム | |
US11495235B2 (en) | System for creating speaker model based on vocal sounds for a speaker recognition system, computer program product, and controller, using two neural networks | |
JP6680933B2 (ja) | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム | |
JP6543820B2 (ja) | 声質変換方法および声質変換装置 | |
JP5411845B2 (ja) | 音声合成方法、音声合成装置及び音声合成プログラム | |
JP6553015B2 (ja) | 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム | |
KR20040088368A (ko) | 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법 | |
CN113674733A (zh) | 用于说话时间估计的方法和设备 | |
WO2020071213A1 (ja) | 音響モデル学習装置、音声合成装置、及びプログラム | |
US10157608B2 (en) | Device for predicting voice conversion model, method of predicting voice conversion model, and computer program product | |
KR20200138993A (ko) | 감정 토큰을 이용한 감정 음성 합성 방법 및 장치 | |
JP2009086581A (ja) | 音声認識の話者モデルを作成する装置およびプログラム | |
Al-Radhi et al. | Deep Recurrent Neural Networks in speech synthesis using a continuous vocoder | |
US20090222266A1 (en) | Apparatus, method, and recording medium for clustering phoneme models | |
US20210090551A1 (en) | Emotional speech generating method and apparatus for controlling emotional intensity | |
KR20210035042A (ko) | 감정 간의 강도 조절이 가능한 감정 음성 생성 방법 및 장치 | |
CN114387946A (zh) | 语音合成模型的训练方法和语音合成方法 | |
KR102626618B1 (ko) | 감정 추정 기반의 감정 음성 합성 방법 및 시스템 | |
JP6542823B2 (ja) | 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム | |
KR102277205B1 (ko) | 오디오 변환 장치 및 방법 | |
WO2020166359A1 (ja) | 推定装置、推定方法、及びプログラム | |
Jaiswal et al. | A generative adversarial network based ensemble technique for automatic evaluation of machine synthesized speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220222 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220422 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220712 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220725 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7125608 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |