JP2017167526A - 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 - Google Patents
統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 Download PDFInfo
- Publication number
- JP2017167526A JP2017167526A JP2017029713A JP2017029713A JP2017167526A JP 2017167526 A JP2017167526 A JP 2017167526A JP 2017029713 A JP2017029713 A JP 2017029713A JP 2017029713 A JP2017029713 A JP 2017029713A JP 2017167526 A JP2017167526 A JP 2017167526A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- frequency
- stream
- state
- boundary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001228 spectrum Methods 0.000 title claims abstract description 219
- 230000015572 biosynthetic process Effects 0.000 title abstract description 28
- 238000003786 synthesis reaction Methods 0.000 title abstract description 27
- 238000000034 method Methods 0.000 claims abstract description 56
- 238000013179 statistical model Methods 0.000 claims abstract description 30
- 239000013598 vector Substances 0.000 claims abstract description 30
- 230000003595 spectral effect Effects 0.000 claims description 93
- 238000003066 decision tree Methods 0.000 claims description 87
- 238000012549 training Methods 0.000 claims description 66
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 230000002194 synthesizing effect Effects 0.000 claims description 9
- 238000001308 synthesis method Methods 0.000 claims description 8
- 239000002131 composite material Substances 0.000 claims description 7
- 230000001419 dependent effect Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 abstract description 4
- 238000006243 chemical reaction Methods 0.000 abstract description 3
- 230000005284 excitation Effects 0.000 description 10
- 238000009826 distribution Methods 0.000 description 9
- 238000013507 mapping Methods 0.000 description 7
- 238000009499 grossing Methods 0.000 description 5
- 230000000737 periodic effect Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000010237 hybrid technique Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002040 relaxant effect Effects 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
【解決手段】音声合成装置は、1つまたは複数の言語単位を、音声合成するための一連の音声ベクトルに変換し、一連の音声ベクトルを出力することとを行うように構成されたプロセッサを備える。変換は、1つまたは複数の統計モデルの第1のセットをより高いスペクトル周波数に、1つまたは複数の統計モデルの第2のセットをより低いスペクトル周波数に適用することによって、音声データのより高いスペクトル周波数およびより低いスペクトル周波数を別個の高スペクトルストリームおよび低スペクトルストリームとしてモデリングすることを備える。
【選択図】図3b
Description
本明細書で説明する諸実施形態は、音声の高周波スペクトルを、低周波スペクトルとは別個にモデリングする。多くの言語情報を伝達しない高周波帯域は、自然な音声サンプルに可能な限り近いパラメータを生成するように、大きなデシジョンツリーを使用してクラスタリングされる。高周波スペクトルと低周波スペクトルとの間の境界周波数は、各ステートの合成の際に調整され得る。主観的なリスニング試験は、提案する手法が、単一のスペクトルストリームを使用する従来の手法よりも著しく好ましいことを示している。提案する手法を使用して合成されたサンプルは、こもりが少なく、より自然に響く。
言語情報および話者情報の要素分解(factorisation)が、音声変換および話者識別において使用され得る。ある程度の話者特性が低周波帯域に存在し、いくらかの言語情報が高周波帯域に存在する(たとえば、歯擦音)ことが原因で、完全な要素分解が可能ではないこともあるが、2つの周波数帯域は、別個により良くモデリングされる異なるコンテキスト上のバリエーションを有すると想定され得る。
デシジョンツリーは、コンテキスト依存モデルのステート結合(state-tying)を制御するために使用され得る。HMMモデルをトレーニングするとき、各ノードが2元的なコンテキスト関連の質問(たとえば、前の音素は無音か?次の音素は母音か?)を表すデシジョンツリーが形成される。質問の各回答に含まれるステートは、互いにクラスタリングされ、それぞれのブランチを介して引き渡される。モデルは、結果としてクラスタリングされたステートに適合される。各ノードの質問は、分割基準の適合度(結果として得られるクラスタにまたがるステートの確度(likelihood)を最大にする質問、またはモデルの記述長を最も短くする質問など)に基づいて選択される。
一実施形態では、スペクトルを記述するために、ラインスペクトルペア(LSP)が使用される。これにより、より高周波のスペクトルとより低周波のスペクトルとをより容易に組み合わせることが可能になる。各ケプストラム係数はスペクトルの周波数成分に影響を及ぼすので、ケプストラムが使用される場合はスペクトルを連結することがより困難になる。
最も簡潔な実施形態では、すべてのステートについてより高周波のスペクトルとより低周波のスペクトルとを分割するために、同じ分割境界係数が使用され得る。
デシジョンツリーベースのコンテキストクラスタリングは、各ステートの境界を調整する方法をもたらす。デシジョンツリーは、低周波および高周波スペクトルストリームの各々について形成される。本明細書で説明するように、異なる停止基準が、2つのデシジョンツリーの形成において使用される。それでもやはり、高周波スペクトルストリームおよび低周波スペクトルストリームのデシジョンツリーを形成するために、ステートのすべてにわたる可能な境界係数の範囲がまず考慮されなければならない。
図7は、一実施形態によるテキスト読み上げシステムをトレーニングする方法を示している。この方法は、図1のシステム1によって実装されてもよく、または、モデルがシステム1上に記憶される前に、モデルを生成するための別のデバイスによって実装されてもよい。
図8は、一実施形態による音声を合成する方法を示している。この方法は、図1のシステムによって実装され得る。
図9〜図11は、テストセットにおける発話に関するLSP軌道を示している。図9は、自然の非合成軌道を示している。図10は、単一のスペクトルストリームを備えるHMMで合成された軌道を示している。図11は、一実施形態によるマルチスペクトルストリームHMMで合成された軌跡を示している。
Claims (17)
- 音声合成方法であって、
音声合成装置において、
1つまたは複数の言語単位を受け取ることと、
前記1つまたは複数の言語単位を、音声を合成するための一連の音声ベクトルに変換することと、ここで、前記変換は、1つまたは複数の統計モデルの第1のセットをより高いスペクトル周波数に、1つまたは複数の統計モデルの第2のセットをより低いスペクトル周波数に適用することによって、音声データのより高いスペクトル周波数およびより低いスペクトル周波数を別個の高スペクトルストリームおよび低スペクトルストリームとしてモデリングすることを備える、
前記一連の音声ベクトルを出力することと、
を備える、音声合成方法。 - 1つまたは複数の統計モデルの前記第1のセットは、1つまたは複数の統計モデルの前記第2のセットと比べて、より緊密に元のトレーニング音声データセットに適合される、請求項1に記載の音声合成方法。
- 前記高周波スペクトルストリームは、1つまたは複数のデシジョンツリーの第1のセットを使用してモデリングされ、
前記低周波スペクトルストリームは、1つまたは複数のデシジョンツリーの第2のセットを使用してモデリングされ、1つまたは複数のデシジョンツリーの前記第1のセットは、1つまたは複数のデシジョンツリーの前記第2のセットよりも大きく、
前記低周波スペクトルストリームは、ディープニューラルネットワークを使用してモデリングされる、請求項1または2に記載の音声合成方法。 - 一連の音声ベクトルに前記1つまたは複数の言語単位を変換することは、前記1つまたは複数の言語単位の各々について、
前記言語単位に関していくつかのステートを割り当てることと、
前記言語単位の各ステートについて、
前記高周波および低周波スペクトルストリームの各々について1つまたは複数のラインスペクトルペアを生成することと、
複合スペクトルを形成するために境界において前記高周波および低周波スペクトルストリームの前記ラインスペクトルペアを連結することと、
前記ステートについて前記複合スペクトルを使用して音声ベクトルを生成することと、
を備える、請求項1〜3のいずれか一項に記載の音声合成方法。 - 同じ境界が各言語単位に適用される、または
各言語単位の各ステートがそれ自体の固有の境界を割り当てられる、または
各ステートがいくつかのフレームを備え、各ステート内の各フレームはそれ自体の固有の境界を割り当てられる、請求項4に記載の音声合成方法。 - 前記高周波スペクトルストリームと低周波スペクトルストリームは、ラインスペクトルペアインデックスの重複範囲にわたって、すべてのステートについて重複し、そしてまた、
各言語単位の各ステートはそれ自体の固有の境界を割り当てられ、そのステートの境界を設定するために各ステートについて境界ラインスペクトルペアインデックスが定義され、ここにおいて、各ステートについて前記境界ラインスペクトルペアインデックスを定義することは、そのステートの前記低周波スペクトルストリームにおける各ラインスペクトルペアの対応周波数を決定することと、所定のしきい値周波数に対して前記ステートの前記ラインスペクトルペアの前記周波数のアセスメントに基づいて前記境界ラインスペクトルペアインデックスを決定することとを備える、または
各言語単位の各ステートはいくつかのフレームを備え、ここにおいて、各フレーム単位はそれ自体の固有の境界を割り当てられ、そのフレームの境界を設定するために各フレームについて境界ラインスペクトルペアインデックスが定義され、ここにおいて、各フレームについて前記境界ラインスペクトルペアインデックスを定義することは、そのフレームの前記低周波スペクトルストリームにおける各ラインスペクトルペアの対応周波数を決定すること、および所定のしきい値周波数に対して前記フレームの前記ラインスペクトルペアの前記周波数のアセスメントに基づいて前記境界ラインスペクトルペアインデックスを決定することを備える、
請求項4に記載の音声合成方法。 - 一連の言語単位を一連の音声ベクトルに変換するために音声合成装置をトレーニングする方法であって、コントローラを備えるトレーニングシステムにおいて、
音声データおよび関連する言語単位を受け取ることと、
モデルのセットを前記音声データおよび関連する言語単位に適合させることと、ここにおいて、前記適合させることは、高周波スペクトルストリームを形成するために1つまたは複数の統計モデルの第1のセットを前記音声データのより高いスペクトル周波数に適合させること、および別個の低周波スペクトルストリームを形成するために1つまたは複数の統計モデルの第2のセットを前記音声データのより低いスペクトル周波数に適合させることを備える、
モデルの前記セットを出力することと、
を備える方法。 - 1つまたは複数の統計モデルの前記第1のセットは、1つまたは複数の統計モデルの前記第2のセットと比べて、より緊密に音声データに適合される、請求項7に記載の方法。
- 前記高周波スペクトルストリームは、1つまたは複数のデシジョンツリーの第1のセットを使用してモデリングされ、そしてまた、
前記低周波スペクトルストリームは、1つまたは複数のデシジョンツリーの第2のセットを使用してモデリングされ、1つまたは複数のデシジョンツリーの前記第1のセットは、1つまたは複数のデシジョンツリーの前記第2のセットよりも大きい、または、
前記低周波スペクトルストリームは、ディープニューラルネットワークを使用してモデリングされる、
請求項7または8に記載の方法。 - 各言語単位がいくつかのステートを備え、
1つまたは複数の統計モデルの前記第1および第2のセットは、各ステートについて、ラインスペクトルペアの第1および第2のセットをそれぞれ生成するように構成される、ここにおいて、ラインスペクトルペアの前記第1および第2のセットは、前記ステートに関して複合スペクトルを形成するように連結され得る、請求項7〜9のいずれか一項に記載の方法。 - 前記高周波スペクトルストリームと低周波スペクトルストリームとの間の境界を設定する境界ラインスペクトルペアを定義することをさらに備え、ここにおいて、
同じ境界ラインスペクトルペアインデックスが、モデリングされている各ステートに適用される、または
各言語単位の各ステートがそれ自体の固有の境界を割り当てられる、または
各ステートがいくつかのフレームを備え、各ステート内の各フレームがそれ自体の固有の境界を割り当てられる、
請求項10に記載の方法。 - 前記同じ境界ラインスペクトルペアインデックスが、モデリングされている各ステートに適用され、前記境界ラインスペクトルペアインデックスを定義することは、前記受け取られた音声データの各ステートについて前記ラインスペクトルペアの周波数を決定することと、所定のしきい値周波数に対してすべてのステートにわたり前記ラインスペクトルペアの各々の中間周波数に基づいて前記境界ラインスペクトルペアインデックスを定義することとを備える、請求項11に記載の方法。
- 請求項8に従属するとき、
前記低周波スペクトルストリームは、1つまたは複数のデシジョンツリーの第2のセットを使用してモデリングされ、1つまたは複数のデシジョンツリーの前記第1のセットは、1つまたは複数のデシジョンツリーの前記第2のセットよりも大きく、
各言語単位の各ステートはそれ自体の固有の境界を割り当てられ、前記高周波および低周波スペクトルストリームは、ラインスペクトルペアインデックスの重複範囲にわたりすべてのステートについて重複するように定義され、ここにおいて、前記重複範囲は、前記それぞれのラインスペクトルペアインデックスが所定の周波数範囲内に入る周波数を有する前記受け取られた音声データからの少なくとも1つのステートを有するラインスペクトルペアインデックスとして定義される、請求項11に記載の方法。 - 各ステートについて前記境界ラインスペクトルペアインデックスを定義することは、前記低周波スペクトルストリームの各デシジョンツリーにおける各リーフノードについて、
前記リーフノードにおいて前記受け取られた音声データの前記ステートのすべてにわたり各ラインスペクトルペアインデックスについて中間周波数を決定することと、
所定のしきい値周波数に対する各ラインスペクトルペアインデックスの前記中間周波数に基づいて、前記リーフノードにおいて前記ステートについて境界ラインスペクトルペアインデックスを決定することと、
を備える、請求項13に記載の方法。 - コンピュータに請求項1〜14のいずれか一項に記載の方法を実施させるように構成されたコンピュータ可読コードを備えるキャリア媒体。
- 音声合成装置であって、
1つまたは複数の言語単位を受け取ることと、
前記1つまたは複数の言語単位を、音声を合成するための一連の音声ベクトルに変換することと、ここで、前記変換は、1つまたは複数の統計モデルの第1のセットをより高いスペクトル周波数に、1つまたは複数の統計モデルの第2のセットをより低いスペクトル周波数に適用することによって、音声データのより高いスペクトル周波数およびより低いスペクトル周波数を別個の高スペクトルストリームおよび低スペクトルストリームとしてモデリングすることを備える、
前記一連の音声ベクトルを出力することと、
を行うように構成されたプロセッサを備える、音声合成装置。 - 音声合成装置が一連の言語単位を一連の音声ベクトルに変換するためのトレーニングシステムであって、
音声データおよび関連する言語単位を受け取ることと、
モデルのセットを前記音声データおよび関連する言語単位に適合させることと、ここにおいて、前記適合させることは、高周波スペクトルストリームを形成するために1つまたは複数の統計モデルの第1のセットを前記音声データのより高いスペクトル周波数に適合させること、および別個の低周波スペクトルストリームを形成するために1つまたは複数の統計モデルの第2のセットを前記音声データのより低いスペクトル周波数に適合させることを備える、
モデルの前記セットを出力することと、
を行うように構成されたコントローラを備える、トレーニングシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB1604334.1 | 2016-03-14 | ||
GB1604334.1A GB2548356B (en) | 2016-03-14 | 2016-03-14 | Multi-stream spectral representation for statistical parametric speech synthesis |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017167526A true JP2017167526A (ja) | 2017-09-21 |
JP6330069B2 JP6330069B2 (ja) | 2018-05-23 |
Family
ID=55952302
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017029713A Expired - Fee Related JP6330069B2 (ja) | 2016-03-14 | 2017-02-21 | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10446133B2 (ja) |
JP (1) | JP6330069B2 (ja) |
GB (1) | GB2548356B (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109036371B (zh) * | 2018-07-19 | 2020-12-18 | 北京光年无限科技有限公司 | 用于语音合成的音频数据生成方法及系统 |
US11368799B2 (en) * | 2020-02-04 | 2022-06-21 | Securboration, Inc. | Hearing device customization systems and methods |
CN113555007B (zh) * | 2021-09-23 | 2021-12-14 | 中国科学院自动化研究所 | 语音拼接点检测方法及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000194388A (ja) * | 1998-12-25 | 2000-07-14 | Mitsubishi Electric Corp | 音声合成装置 |
JP2009109805A (ja) * | 2007-10-31 | 2009-05-21 | Toshiba Corp | 音声処理装置及びその方法 |
JP2012048154A (ja) * | 2010-08-30 | 2012-03-08 | Toshiba Corp | 音声合成装置、音声合成方法およびプログラム |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5926791A (en) * | 1995-10-26 | 1999-07-20 | Sony Corporation | Recursively splitting the low-frequency band with successively fewer filter taps in methods and apparatuses for sub-band encoding, decoding, and encoding and decoding |
DE10047172C1 (de) * | 2000-09-22 | 2001-11-29 | Siemens Ag | Verfahren zur Sprachverarbeitung |
US7328151B2 (en) * | 2002-03-22 | 2008-02-05 | Sound Id | Audio decoder with dynamic adjustment of signal modification |
US20080106370A1 (en) * | 2006-11-02 | 2008-05-08 | Viking Access Systems, Llc | System and method for speech-recognition facilitated communication to monitor and control access to premises |
US8229106B2 (en) * | 2007-01-22 | 2012-07-24 | D.S.P. Group, Ltd. | Apparatus and methods for enhancement of speech |
KR100930584B1 (ko) * | 2007-09-19 | 2009-12-09 | 한국전자통신연구원 | 인간 음성의 유성음 특징을 이용한 음성 판별 방법 및 장치 |
GB0815587D0 (en) * | 2008-08-27 | 2008-10-01 | Applied Neural Technologies Ltd | Computer/network security application |
US8537978B2 (en) * | 2008-10-06 | 2013-09-17 | International Business Machines Corporation | Method and system for using conversational biometrics and speaker identification/verification to filter voice streams |
JP5115509B2 (ja) * | 2009-03-26 | 2013-01-09 | ブラザー工業株式会社 | コンテンツ配信システム、ノード装置、離脱処理遅延方法及び離脱処理遅延制御プログラム |
WO2011026247A1 (en) * | 2009-09-04 | 2011-03-10 | Svox Ag | Speech enhancement techniques on the power spectrum |
US8914287B2 (en) * | 2010-12-31 | 2014-12-16 | Echostar Technologies L.L.C. | Remote control audio link |
US20120284026A1 (en) * | 2011-05-06 | 2012-11-08 | Nexidia Inc. | Speaker verification system |
US9031842B2 (en) * | 2011-07-28 | 2015-05-12 | Blackberry Limited | Methods and devices for facilitating communications |
US20150366504A1 (en) * | 2014-06-20 | 2015-12-24 | Medibotics Llc | Electromyographic Clothing |
US20140214676A1 (en) * | 2013-01-29 | 2014-07-31 | Dror Bukai | Automatic Learning Fraud Prevention (LFP) System |
US10203762B2 (en) * | 2014-03-11 | 2019-02-12 | Magic Leap, Inc. | Methods and systems for creating virtual and augmented reality |
US10255903B2 (en) * | 2014-05-28 | 2019-04-09 | Interactive Intelligence Group, Inc. | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system |
US10225365B1 (en) * | 2014-12-19 | 2019-03-05 | Amazon Technologies, Inc. | Machine learning based content delivery |
US10366687B2 (en) * | 2015-12-10 | 2019-07-30 | Nuance Communications, Inc. | System and methods for adapting neural network acoustic models |
-
2016
- 2016-03-14 GB GB1604334.1A patent/GB2548356B/en not_active Expired - Fee Related
-
2017
- 2017-02-21 JP JP2017029713A patent/JP6330069B2/ja not_active Expired - Fee Related
- 2017-02-24 US US15/441,547 patent/US10446133B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000194388A (ja) * | 1998-12-25 | 2000-07-14 | Mitsubishi Electric Corp | 音声合成装置 |
JP2009109805A (ja) * | 2007-10-31 | 2009-05-21 | Toshiba Corp | 音声処理装置及びその方法 |
JP2012048154A (ja) * | 2010-08-30 | 2012-03-08 | Toshiba Corp | 音声合成装置、音声合成方法およびプログラム |
Non-Patent Citations (1)
Title |
---|
高木信二: "Deep Neural Networkに基づく音響特徴抽出・音響モデルを用いた統計的音声合成システム", 情報処理学会研究報告 音声言語情報処理(SLP) 2015−SLP−105 [ONLINE], JPN6018001790, 27 February 2015 (2015-02-27), JP, pages 1 - 6, ISSN: 0003723508 * |
Also Published As
Publication number | Publication date |
---|---|
US20170263239A1 (en) | 2017-09-14 |
GB2548356A (en) | 2017-09-20 |
JP6330069B2 (ja) | 2018-05-23 |
US10446133B2 (en) | 2019-10-15 |
GB201604334D0 (en) | 2016-04-27 |
GB2548356B (en) | 2020-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11990118B2 (en) | Text-to-speech (TTS) processing | |
JP4302788B2 (ja) | 音声合成用の基本周波数テンプレートを収容する韻律データベース | |
US8571871B1 (en) | Methods and systems for adaptation of synthetic speech in an environment | |
JP5768093B2 (ja) | 音声処理システム | |
US8321222B2 (en) | Synthesis by generation and concatenation of multi-form segments | |
US20200410981A1 (en) | Text-to-speech (tts) processing | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
US20050119890A1 (en) | Speech synthesis apparatus and speech synthesis method | |
US7558389B2 (en) | Method and system of generating a speech signal with overlayed random frequency signal | |
US10699695B1 (en) | Text-to-speech (TTS) processing | |
JP5148026B1 (ja) | 音声合成装置および音声合成方法 | |
JP5039865B2 (ja) | 声質変換装置及びその方法 | |
WO2022046526A1 (en) | Synthesized data augmentation using voice conversion and speech recognition models | |
WO2016172871A1 (zh) | 基于循环神经网络的语音合成方法 | |
JP6330069B2 (ja) | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 | |
Chen et al. | Polyglot speech synthesis based on cross-lingual frame selection using auditory and articulatory features | |
Mullah | A comparative study of different text-to-speech synthesis techniques | |
Sharma et al. | Polyglot speech synthesis: a review | |
JP5106274B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
EP1589524B1 (en) | Method and device for speech synthesis | |
Govender et al. | The CSTR entry to the 2018 Blizzard Challenge | |
JP2001034284A (ja) | 音声合成方法及び装置、並びに文音声変換プログラムを記録した記録媒体 | |
i Barrobes | Voice Conversion applied to Text-to-Speech systems | |
EP1640968A1 (en) | Method and device for speech synthesis | |
Shah et al. | Influence of various asymmetrical contextual factors for TTS in a low resource language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180112 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180123 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180308 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180403 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180423 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6330069 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |