JP2015041081A - 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム - Google Patents
定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム Download PDFInfo
- Publication number
- JP2015041081A JP2015041081A JP2013173634A JP2013173634A JP2015041081A JP 2015041081 A JP2015041081 A JP 2015041081A JP 2013173634 A JP2013173634 A JP 2013173634A JP 2013173634 A JP2013173634 A JP 2013173634A JP 2015041081 A JP2015041081 A JP 2015041081A
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- component
- accent
- phrase
- generating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 38
- 238000004590 computer program Methods 0.000 title claims description 6
- 238000004458 analytical method Methods 0.000 claims abstract description 30
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 13
- 230000015572 biosynthetic process Effects 0.000 claims description 36
- 238000003786 synthesis reaction Methods 0.000 claims description 36
- 238000003860 storage Methods 0.000 claims description 24
- 238000000605 extraction Methods 0.000 claims description 20
- 230000008859 change Effects 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 12
- 238000013179 statistical model Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 10
- 230000007246 mechanism Effects 0.000 description 9
- 238000009499 grossing Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000000926 separation method Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000002922 simulated annealing Methods 0.000 description 2
- 238000000137 annealing Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/086—Detection of language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Machine Translation (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Computer Vision & Pattern Recognition (AREA)
Abstract
Description
図3を参照して、本願発明の基本的考え方は以下の通りである。最初に、音声コーパスからF0パターンを抽出し、観測F0パターン130を作成する。この観測F0パターンは通常は不連続である。この不連続なF0パターンを連続化・平滑化させ、連続F0パターン132を生成する。ここまでは先行技術を用いて実現できる。
F0は声帯の振動から生ずる。F0パターンを操作する上で、レゾナンス機構を用いることが有効であることが知られている。ここでは、レゾナンスを用いたマッピング(非特許文献4)を適用し、アクセント成分とフレーズ成分との間の潜在的干渉を、トポロジの変換の一種として取扱うことにより処理する。
式4は、lnf0の時間軸上での分解を表す。より具体的には、αf0rはフレーズ成分(基準値として取扱う。)を表し、φf0|f0rはアクセント成分を表す。アクセント成分をφf0|f0rで表し、フレーズ成分をαf0rで表すと、lnf0は以下の式(5)により計算できる。
F0パターンを時間tの関数として表すモデルは、対数表現ではレゾナンスによる、フレーズ成分Cp(t)上へのアクセント成分Ca(t)の重畳として表現できる。
アクセント的フレーズ境界に関する情報が与えられたものとして、日本語の発話について観測されたF0パターンから、ターゲットポイントのパラメータを推定するためのアルゴリズムを開発した。パラメータf0b及びf0tを、観測されたF0パターンの集合のF0範囲と一致させる。日本語では、アクセント的フレーズはアクセント(アクセントタイプ0,1,2,…)を持つ。このアルゴリズムは以下のようなものである。
F0パターンを、f0r=f0bとしてφf0|f0rに変換し、2つのウィンドウサイズ(短期:10ポイント、長期:80ポイント)でともに平滑化し(ステップ340)、全体的な上昇―(フラット)−下降という日本語アクセントの特徴を考慮し、マイクロ・プロソディの影響を除去する(音素セグメントを用いてF0を変更する)。平滑化されたF0パターンを、パラメータ抽出のために式(5)を用いてF0に戻す。
ポーズ間のセグメントで0.3秒より長いものを呼気段落とみなし、呼気段落をさらに長期ウィンドウで平滑化したF0パターンを用いてN個の段落に分割する(ステップ342)。以下の処理を各グループに対して適用する。この際、F0誤差の絶対値を最小化するという基準を用いる。以下、ステップ348を繰返し実行するために繰返し制御変数kを0に設定する(ステップ344)。(a)初期値として、2つの低ターゲットポイントと1つの高ターゲットポイントとを持つ3ターゲットポイントのフレーズ成分Pを準備する(ステップ346)。このフレーズ成分Pは、例えば図4の最下部にあるフレーズ成分Pのグラフの、左半分と同様の形状である。この高ターゲットポイントのタイミングを第2モーラの開始時に合わせ、1番目の低ターゲットポイントを0.3秒だけ早めにずらす。さらに、2番目の低ターゲットポイントのタイミングを呼気段落の末尾に一致させる。γpiの初期値は、長期ウィンドウを用いて平滑化したF0パターンを用いて決定する。
推定されたフレーズ成分Pを前提に、生成されたF0パターンと観測されたF0パターンとの間の誤差を最小化するようにアクセントのターゲットポイントを最適化する。この結果、平滑化されたF0パターンフィットするようなF0パターンを生成できるフレーズ成分P及びアクセント成分Aのターゲットポイントが得られる。
<構成>
図7を参照して、第1の実施の形態に係るF0パターン合成部359は、音声コーパスに含まれる多数の音声信号の各々から観測された観測F0パターン130を平滑化・連続化して得た連続F0パターン132について、所与のアクセント境界に基づいて、上記した原理に従い、フレーズ成分Pを規定するターゲットポイント及びアクセント成分Aを規定するターゲットポイントのパラメータを推定するパラメータ推定部366と、パラメータ推定部366により推定されたフレーズ成分Pとアクセント成分Aとを合成することにより連続F0パターンにフィットしたフィット後のF0パターンを生成するF0パターンフィッティング部368と、フィット後のF0パターンを用いて従来と同様にHMMの学習を行なうHMM学習部369と、学習後のHMMパラメータを記憶するHMM記憶装置370とを含む。HMM記憶装置370に記憶されたHMMを用いてF0パターン372を合成する処理は、図2に示す音声合成部82と同様の装置で実現できる。
図7を参照して、第1の実施の形態のシステムは以下のように動作する。観測F0パターン130の各々について、平滑化・連続化することにより連続F0パターン132を得る。パラメータ推定部366は、この連続F0パターン132をフレーズ成分Pとアクセント成分Aとに分解し、それぞれのターゲットパラメータを上記した手法で推定する。F0パターンフィッティング部368は、推定されたターゲットパラメータにより表現されるフレーズ成分Pとアクセント成分Aとを合成し、観測F0パターンにフィットしたフィット後のF0パターンを得る。このシステムは、このような動作を観測F0パターン130の各々に対して行なう。
上記第1の実施の形態によりHMMの学習を行ない、学習後のHMMを使用して合成したF0パターンを利用して合成した音声について、主観的な評価(選好評価)テストを行なった。。
(2)実施の形態1により生成されたF0パターン(Proposed)
(3)有声部分はオリジナル、無声部分は実施の形態1の方法により生成したF0パターン(Prop.+MP(Micro−prosody))
(4)有声部分はオリジナル、無声部分はスプラインによる内挿を使用したF0パターン(Spl+MP)
上記した4つのパターンの内、(2)〜(4)は連続F0パターンである。(2)はマイクロ・プロソディもF0抽出誤差も含まないが、(3)及び(4)は両者を含む点に注意が必要である。
(2)Proposed 対 Prop+MP
(3)Proposed 対 Spl+MP
(4)Prop+MP 対 Spl+MP
学習に使用しなかった9文を用いて各被験者による評価を行なった。9つのwaveファイルの対を複製し、それぞれのバージョンで各対のwaveファイルの順序を入れ替えた。こうして得た72対(4×9×2)のwaveファイル対を各被験者に対してランダムな順番で提示し、どちらを好むか、又はどちらも同じかを答えさせた。
第1の実施の形態では、フレーズ成分P及びアクセント成分Aをターゲットポイントで表し、それらを合成することでF0パターンをフィッティングしている。しかし、ターゲットポイントを使用するアイデアは、この第1の実施の形態に限定されるわけではない。第2の実施の形態は、上に説明した手法によって観測されたF0パターンをフレーズ成分P、アクセント成分A及びマイクロ・プロソディ成分Mに分離し、それらの時間変化パターンについてそれぞれHMM学習を行なう。F0生成の際には、学習済のHMMを用いてフレーズ成分P、アクセント成分A及びマイクロ・プロソディ成分Mの時間変化パターンを得て、さらにそれらを合成することでF0パターンを推定する。
図9を参照して、この実施の形態に係る音声合成システム270は、音声合成のためのHMMの学習を行なうモデル学習部280と、モデル学習部280によって学習を行なったHMMを用い、テキストが入力されるとその音声を合成し合成音声信号284として出力する音声合成部282とを含む。
音声合成システム270は以下のように動作する。音声コーパス記憶装置90には、大量の発話信号が記憶されている。発話信号はフレーム単位で記憶されており、各音素に対して音素のコンテキストラベルが付されている。F0抽出部92は、各発話の発話信号から不連続なF0パターン93を出力する。F0平滑化部290は、不連続なF0パターン93を平滑化し、連続F0パターン291を出力する。F0分離部292は、連続F0パターン291と、F0抽出部92の出力する不連続なF0パターン93とを受け、前述した方法にしたがって、各フレームについてフレーズ成分Pの時間変化パターン、アクセント成分Aの時間変化パターン、マイクロ・プロソディ成分Mの時間変化パターン、不連続なF0パターン93から得られる、各フレームが有声区間か無声区間かを示す情報F0(U/V)、及び、スペクトルパラメータ抽出部94が各発話の音声信号の各フレームについて算出したメルケプストラムパラメータからなる学習データベクトル293を、HMM学習部294に与える。
この第2の実施の形態では、F0パターンをフレーズ成分P、アクセント成分A及びマイクロ・プロソディ成分Mに分解し、それらを用いて別々のHMMの学習を行なう。音声合成時には、テキスト解析の結果に基づき、これらHMMを用いてフレーズ成分P、アクセント成分A、及びマイクロ・プロソディ成分Mを別々に生成する。さらに、生成されたフレーズ成分P、アクセント成分A、及びマイクロ・プロソディ成分Mを合成することで、F0パターンを生成できる。こうして得られたF0パターンを用いると、第1の実施の形態と同様、自然な発話を得ることができる。さらに、アクセント成分AとF0パターンとの対応関係が明確なので、特定の単語についてアクセント成分Aのレンジを大きくとることによって、当該単語に焦点を当てたりすることが容易に行なえる。これは例えば図6のアクセント成分250において縦線254の直前の成分に関して周波数を下げている操作、及び図6のアクセント成分250及び252において、末尾のF0パターンの周波数を落とす操作からも分かる。
上記第1実施の形態及び第2の実施の形態に係るF0パターン合成部は、いずれも、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図10はこのコンピュータシステム530の外観を示し、図11はコンピュータシステム530の内部構成を示す。
40 フレーズコマンド
42 フレーズ制御機構
44 アクセントコマンド
46 アクセント制御機構
48,152 加算器
50 F0パターン
70,270 音声合成システム
80,280 モデル学習部
82,282 音声合成部
90 音声コーパス記憶装置
92 F0抽出部
93 不連続なF0パターン
94 スペクトルパラメータ抽出部
95 メルケプストラムパラメータ
96,294,369 HMM学習部
110,310,139,370 HMM記憶装置
112 テキスト解析部
114 パラメータ生成部
116 音声合成器
130,170 観測F0パターン
132,174,291 連続F0パターン
134,146,200,202,204,206,208,250,252 アクセント成分
136,148,220,222,242,244 フレーズ成分
138,150 マイクロ・プロソディ成分
140,142,144 HMM
48,152 加算器
154,240,246 F0パターン
172 フレーズ成分
290 F0平滑化部
292 F0分離部
293 学習データベクトル
312 パラメータ生成部
314,359 F0パターン合成部
366 パラメータ推定部
368 F0パターンフィッティング部
Claims (6)
- テキスト解析により得られた、発話のアクセント句に対して、所与の数のターゲットポイントを用いてF0パターンのアクセント成分を生成する手段と、
発話の構造を含む言語情報にしたがって、発話を1つ以上のアクセント句を含むグループに分けることにより、限定された数のターゲットポイントを用いてF0パターンのフレーズ成分を生成する手段と、
前記アクセント成分と前記フレーズ成分に基づいてF0パターンを生成する手段とを含む、定量的F0パターン生成装置。 - テキスト解析により得られた、発話のアクセント句に対して、所与の数のターゲットポイントを用いてF0パターンのアクセント成分を生成する手段と、
発話の構造を含む言語情報にしたがって、発話を1つ以上のアクセント句を含むグループに分けることにより、限定された数のターゲットポイントを用いてF0パターンのフレーズ成分を生成する手段と、
前記アクセント成分と前記フレーズ成分に基づいてF0パターンを生成する手段とを含む、定量的F0パターン生成装置を用いてF0パターンを生成する定量的F0パターン生成方法であって、
前記アクセント成分を生成する手段が、テキスト解析により得られた、発話のアクセント句に対して、所与の数のターゲットポイントを用いてF0パターンのアクセント成分を生成するステップと、
前記フレーズ成分を生成する手段が、発話の構造を含む言語情報にしたがって、発話を1つ以上のアクセント句を含むグループに分けることにより、限定された数のターゲットポイントを用いてF0パターンのフレーズ成分を生成するステップと、
前記F0パターンを生成する手段が、前記アクセント成分と前記フレーズ成分に基づいてF0パターンを生成する手段とを含む、定量的F0パターン生成装置を用いてF0パターンを生成するステップとを含む、定量的F0パターン生成方法。 - 音声データ信号からF0パターンを抽出するF0パターン抽出手段と、
抽出されたF0パターンにフィットするF0パターンをフレーズ成分とアクセント成分との重畳により表すために、フレーズ成分を表すターゲットパラメータと、アクセント成分を表すターゲットパラメータとを推定するパラメータ推定手段と、
前記パラメータ推定手段により推定されたフレーズ成分のターゲットパラメータ及びアクセント成分のターゲットパラメータにより表される、連続的なF0パターンを学習データとして、F0生成モデルの学習を行なうモデル学習手段とを含む、F0パターン生成のためのモデル学習装置。 - 音声データ信号からF0パターンを抽出するF0パターン抽出手段と、
抽出されたF0パターンにフィットするF0パターンをフレーズ成分とアクセント成分との重畳により表すために、フレーズ成分を表すターゲットパラメータと、アクセント成分を表すターゲットパラメータとを推定するパラメータ推定手段と、
前記パラメータ推定手段により推定されたフレーズ成分のターゲットパラメータによって表されるフレーズ成分の時間変化パターンと、アクセント成分のターゲットパラメータにより表されるアクセント成分の時間変化パターンとを学習データとして、フレーズ成分生成用の生成モデルと、アクセント成分生成用の生成モデルとの学習を行なう第1のモデル学習手段とを含む、F0パターン生成のためのモデル学習装置。 - F0パターンのフレーズ成分のターゲットパラメータ生成用の生成モデルと、F0パターンのアクセント成分のターゲットパラメータ生成用の生成モデルとのパラメータを記憶するモデル記憶手段と、
音声合成の対象となるテキストの入力を受けてテキスト解析し、音声合成用の制御記号列を出力するテキスト解析手段と、
前記テキスト解析手段の出力する制御記号列を前記フレーズ成分生成用の生成モデルと照合することにより、F0パターンのフレーズ成分を生成するフレーズ成分生成手段と、
前記テキスト解析手段の出力する制御記号列を前記アクセント成分生成用の生成モデルと照合することにより、F0パターンのアクセント成分を生成するアクセント成分生成手段と、
前記フレーズ成分生成手段により生成されたフレーズ成分、及び前記アクセント成分生成手段により生成されたアクセント成分を合成することにより、F0パターンを生成するF0パターン生成手段とを含む、定量的F0パターン生成装置。 - コンピュータにより実行されると、当該コンピュータを、請求項1、請求項3、請求項4又は請求項5に記載の全ての手段として機能させる、コンピュータプログラム。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013173634A JP5807921B2 (ja) | 2013-08-23 | 2013-08-23 | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム |
KR1020167001355A KR20160045673A (ko) | 2013-08-23 | 2014-08-13 | 정량적 f0 패턴 생성 장치 및 방법, 그리고 f0 패턴 생성을 위한 모델 학습 장치 및 방법 |
US14/911,189 US20160189705A1 (en) | 2013-08-23 | 2014-08-13 | Quantitative f0 contour generating device and method, and model learning device and method for f0 contour generation |
CN201480045803.7A CN105474307A (zh) | 2013-08-23 | 2014-08-13 | 定量的f0轮廓生成装置及方法、以及用于生成f0轮廓的模型学习装置及方法 |
PCT/JP2014/071392 WO2015025788A1 (ja) | 2013-08-23 | 2014-08-13 | 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法 |
EP14837587.6A EP3038103A4 (en) | 2013-08-23 | 2014-08-13 | Quantitative f0 pattern generation device and method, and model learning device and method for generating f0 pattern |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013173634A JP5807921B2 (ja) | 2013-08-23 | 2013-08-23 | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015155708A Division JP6137708B2 (ja) | 2015-08-06 | 2015-08-06 | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2015041081A true JP2015041081A (ja) | 2015-03-02 |
JP2015041081A5 JP2015041081A5 (ja) | 2015-06-18 |
JP5807921B2 JP5807921B2 (ja) | 2015-11-10 |
Family
ID=52483564
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013173634A Expired - Fee Related JP5807921B2 (ja) | 2013-08-23 | 2013-08-23 | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム |
Country Status (6)
Country | Link |
---|---|
US (1) | US20160189705A1 (ja) |
EP (1) | EP3038103A4 (ja) |
JP (1) | JP5807921B2 (ja) |
KR (1) | KR20160045673A (ja) |
CN (1) | CN105474307A (ja) |
WO (1) | WO2015025788A1 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017151223A (ja) * | 2016-02-23 | 2017-08-31 | 日本電信電話株式会社 | 基本周波数パターン予測装置、方法、及びプログラム |
JP2017151225A (ja) * | 2016-02-23 | 2017-08-31 | 日本電信電話株式会社 | 基本周波数パターン予測装置、方法、及びプログラム |
JP2017151224A (ja) * | 2016-02-23 | 2017-08-31 | 日本電信電話株式会社 | 基本周波数パターン予測装置、方法、及びプログラム |
WO2019163849A1 (ja) * | 2018-02-20 | 2019-08-29 | 日本電信電話株式会社 | 音声変換学習装置、音声変換装置、方法、及びプログラム |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112530213B (zh) * | 2020-12-25 | 2022-06-03 | 方湘 | 一种汉语音调学习方法及系统 |
TWI765541B (zh) * | 2021-01-22 | 2022-05-21 | 賽微科技股份有限公司 | 語音合成配音系統 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09198073A (ja) * | 1996-01-11 | 1997-07-31 | Secom Co Ltd | 音声合成装置 |
Family Cites Families (60)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3704345A (en) * | 1971-03-19 | 1972-11-28 | Bell Telephone Labor Inc | Conversion of printed text into synthetic speech |
JP3077981B2 (ja) * | 1988-10-22 | 2000-08-21 | 博也 藤崎 | 基本周波数パタン生成装置 |
US5475796A (en) * | 1991-12-20 | 1995-12-12 | Nec Corporation | Pitch pattern generation apparatus |
JPH06332490A (ja) * | 1993-05-20 | 1994-12-02 | Meidensha Corp | 音声合成装置のアクセント成分基本テーブルの作成方法 |
JP2880433B2 (ja) * | 1995-09-20 | 1999-04-12 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音声合成装置 |
US6823309B1 (en) * | 1999-03-25 | 2004-11-23 | Matsushita Electric Industrial Co., Ltd. | Speech synthesizing system and method for modifying prosody based on match to database |
CN1207664C (zh) * | 1999-07-27 | 2005-06-22 | 国际商业机器公司 | 对语音识别结果中的错误进行校正的方法和语音识别系统 |
KR20010089811A (ko) * | 1999-11-11 | 2001-10-08 | 요트.게.아. 롤페즈 | 음성 인식 시스템 |
US6810379B1 (en) * | 2000-04-24 | 2004-10-26 | Sensory, Inc. | Client/server architecture for text-to-speech synthesis |
US20080147404A1 (en) * | 2000-05-15 | 2008-06-19 | Nusuara Technologies Sdn Bhd | System and methods for accent classification and adaptation |
US6856958B2 (en) * | 2000-09-05 | 2005-02-15 | Lucent Technologies Inc. | Methods and apparatus for text to speech processing using language independent prosody markup |
CN1187693C (zh) * | 2000-09-30 | 2005-02-02 | 英特尔公司 | 以自底向上方式将声调集成到汉语连续语音识别系统中的方法和系统 |
US7263488B2 (en) * | 2000-12-04 | 2007-08-28 | Microsoft Corporation | Method and apparatus for identifying prosodic word boundaries |
US6845358B2 (en) * | 2001-01-05 | 2005-01-18 | Matsushita Electric Industrial Co., Ltd. | Prosody template matching for text-to-speech systems |
US7200558B2 (en) * | 2001-03-08 | 2007-04-03 | Matsushita Electric Industrial Co., Ltd. | Prosody generating device, prosody generating method, and program |
US7035794B2 (en) * | 2001-03-30 | 2006-04-25 | Intel Corporation | Compressing and using a concatenative speech database in text-to-speech systems |
US20030055640A1 (en) * | 2001-05-01 | 2003-03-20 | Ramot University Authority For Applied Research & Industrial Development Ltd. | System and method for parameter estimation for pattern recognition |
JP4680429B2 (ja) * | 2001-06-26 | 2011-05-11 | Okiセミコンダクタ株式会社 | テキスト音声変換装置における高速読上げ制御方法 |
JP4056470B2 (ja) * | 2001-08-22 | 2008-03-05 | インターナショナル・ビジネス・マシーンズ・コーポレーション | イントネーション生成方法、その方法を用いた音声合成装置及びボイスサーバ |
US7136802B2 (en) * | 2002-01-16 | 2006-11-14 | Intel Corporation | Method and apparatus for detecting prosodic phrase break in a text to speech (TTS) system |
US7136816B1 (en) * | 2002-04-05 | 2006-11-14 | At&T Corp. | System and method for predicting prosodic parameters |
US20030191645A1 (en) * | 2002-04-05 | 2003-10-09 | Guojun Zhou | Statistical pronunciation model for text to speech |
US7136818B1 (en) * | 2002-05-16 | 2006-11-14 | At&T Corp. | System and method of providing conversational visual prosody for talking heads |
US7219059B2 (en) * | 2002-07-03 | 2007-05-15 | Lucent Technologies Inc. | Automatic pronunciation scoring for language learning |
US20040030555A1 (en) * | 2002-08-12 | 2004-02-12 | Oregon Health & Science University | System and method for concatenating acoustic contours for speech synthesis |
US7467087B1 (en) * | 2002-10-10 | 2008-12-16 | Gillick Laurence S | Training and using pronunciation guessers in speech recognition |
US8768701B2 (en) * | 2003-01-24 | 2014-07-01 | Nuance Communications, Inc. | Prosodic mimic method and apparatus |
US20050086052A1 (en) * | 2003-10-16 | 2005-04-21 | Hsuan-Huei Shih | Humming transcription system and methodology |
US7315811B2 (en) * | 2003-12-31 | 2008-01-01 | Dictaphone Corporation | System and method for accented modification of a language model |
US20050187772A1 (en) * | 2004-02-25 | 2005-08-25 | Fuji Xerox Co., Ltd. | Systems and methods for synthesizing speech using discourse function level prosodic features |
US20060229877A1 (en) * | 2005-04-06 | 2006-10-12 | Jilei Tian | Memory usage in a text-to-speech system |
US20060259303A1 (en) * | 2005-05-12 | 2006-11-16 | Raimo Bakis | Systems and methods for pitch smoothing for text-to-speech synthesis |
CN101176146B (zh) * | 2005-05-18 | 2011-05-18 | 松下电器产业株式会社 | 声音合成装置 |
CN1945693B (zh) * | 2005-10-09 | 2010-10-13 | 株式会社东芝 | 训练韵律统计模型、韵律切分和语音合成的方法及装置 |
JP4559950B2 (ja) * | 2005-10-20 | 2010-10-13 | 株式会社東芝 | 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム |
US7996222B2 (en) * | 2006-09-29 | 2011-08-09 | Nokia Corporation | Prosody conversion |
JP4787769B2 (ja) * | 2007-02-07 | 2011-10-05 | 日本電信電話株式会社 | F0値時系列生成装置、その方法、そのプログラム、及びその記録媒体 |
JP4455610B2 (ja) * | 2007-03-28 | 2010-04-21 | 株式会社東芝 | 韻律パタン生成装置、音声合成装置、プログラムおよび韻律パタン生成方法 |
JP2009047957A (ja) * | 2007-08-21 | 2009-03-05 | Toshiba Corp | ピッチパターン生成方法及びその装置 |
JP5238205B2 (ja) * | 2007-09-07 | 2013-07-17 | ニュアンス コミュニケーションズ,インコーポレイテッド | 音声合成システム、プログラム及び方法 |
US7996214B2 (en) * | 2007-11-01 | 2011-08-09 | At&T Intellectual Property I, L.P. | System and method of exploiting prosodic features for dialog act tagging in a discriminative modeling framework |
JP5025550B2 (ja) * | 2008-04-01 | 2012-09-12 | 株式会社東芝 | 音声処理装置、音声処理方法及びプログラム |
US8374873B2 (en) * | 2008-08-12 | 2013-02-12 | Morphism, Llc | Training and applying prosody models |
US8571849B2 (en) * | 2008-09-30 | 2013-10-29 | At&T Intellectual Property I, L.P. | System and method for enriching spoken language translation with prosodic information |
US8321225B1 (en) * | 2008-11-14 | 2012-11-27 | Google Inc. | Generating prosodic contours for synthesized speech |
US8296141B2 (en) * | 2008-11-19 | 2012-10-23 | At&T Intellectual Property I, L.P. | System and method for discriminative pronunciation modeling for voice search |
JP5293460B2 (ja) * | 2009-07-02 | 2013-09-18 | ヤマハ株式会社 | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 |
JP5471858B2 (ja) * | 2009-07-02 | 2014-04-16 | ヤマハ株式会社 | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 |
CN101996628A (zh) * | 2009-08-21 | 2011-03-30 | 索尼株式会社 | 提取语音信号的韵律特征的方法和装置 |
JP5747562B2 (ja) * | 2010-10-28 | 2015-07-15 | ヤマハ株式会社 | 音響処理装置 |
US9286886B2 (en) * | 2011-01-24 | 2016-03-15 | Nuance Communications, Inc. | Methods and apparatus for predicting prosody in speech synthesis |
WO2012134877A2 (en) * | 2011-03-25 | 2012-10-04 | Educational Testing Service | Computer-implemented systems and methods evaluating prosodic features of speech |
WO2012164835A1 (ja) * | 2011-05-30 | 2012-12-06 | 日本電気株式会社 | 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム |
US10453479B2 (en) * | 2011-09-23 | 2019-10-22 | Lessac Technologies, Inc. | Methods for aligning expressive speech utterances with text and systems therefor |
JP2014038282A (ja) * | 2012-08-20 | 2014-02-27 | Toshiba Corp | 韻律編集装置、方法およびプログラム |
US9135231B1 (en) * | 2012-10-04 | 2015-09-15 | Google Inc. | Training punctuation models |
US9224387B1 (en) * | 2012-12-04 | 2015-12-29 | Amazon Technologies, Inc. | Targeted detection of regions in speech processing data streams |
US9495955B1 (en) * | 2013-01-02 | 2016-11-15 | Amazon Technologies, Inc. | Acoustic model training |
US9292489B1 (en) * | 2013-01-16 | 2016-03-22 | Google Inc. | Sub-lexical language models with word level pronunciation lexicons |
US9761247B2 (en) * | 2013-01-31 | 2017-09-12 | Microsoft Technology Licensing, Llc | Prosodic and lexical addressee detection |
-
2013
- 2013-08-23 JP JP2013173634A patent/JP5807921B2/ja not_active Expired - Fee Related
-
2014
- 2014-08-13 KR KR1020167001355A patent/KR20160045673A/ko not_active Application Discontinuation
- 2014-08-13 WO PCT/JP2014/071392 patent/WO2015025788A1/ja active Application Filing
- 2014-08-13 EP EP14837587.6A patent/EP3038103A4/en not_active Ceased
- 2014-08-13 US US14/911,189 patent/US20160189705A1/en not_active Abandoned
- 2014-08-13 CN CN201480045803.7A patent/CN105474307A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09198073A (ja) * | 1996-01-11 | 1997-07-31 | Secom Co Ltd | 音声合成装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017151223A (ja) * | 2016-02-23 | 2017-08-31 | 日本電信電話株式会社 | 基本周波数パターン予測装置、方法、及びプログラム |
JP2017151225A (ja) * | 2016-02-23 | 2017-08-31 | 日本電信電話株式会社 | 基本周波数パターン予測装置、方法、及びプログラム |
JP2017151224A (ja) * | 2016-02-23 | 2017-08-31 | 日本電信電話株式会社 | 基本周波数パターン予測装置、方法、及びプログラム |
WO2019163849A1 (ja) * | 2018-02-20 | 2019-08-29 | 日本電信電話株式会社 | 音声変換学習装置、音声変換装置、方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
EP3038103A4 (en) | 2017-05-31 |
KR20160045673A (ko) | 2016-04-27 |
CN105474307A (zh) | 2016-04-06 |
JP5807921B2 (ja) | 2015-11-10 |
US20160189705A1 (en) | 2016-06-30 |
EP3038103A1 (en) | 2016-06-29 |
WO2015025788A1 (ja) | 2015-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6777768B2 (ja) | 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム | |
JP4455610B2 (ja) | 韻律パタン生成装置、音声合成装置、プログラムおよび韻律パタン生成方法 | |
JP4328698B2 (ja) | 素片セット作成方法および装置 | |
KR20230003056A (ko) | 비음성 텍스트 및 스피치 합성을 사용한 스피치 인식 | |
JP6266372B2 (ja) | 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム | |
JP5807921B2 (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP6392012B2 (ja) | 音声合成辞書作成装置、音声合成装置、音声合成辞書作成方法及び音声合成辞書作成プログラム | |
JP2017058513A (ja) | 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム | |
JP2024505076A (ja) | 多様で自然なテキスト読み上げサンプルを生成する | |
EP4266306A1 (en) | A speech processing system and a method of processing a speech signal | |
KR20210059586A (ko) | 텍스트 음성 변환과 함께 멀티태스크 학습을 사용한 감정적 음성 변환 방법 및 장치 | |
JP2024529880A (ja) | 合成トレーニングデータを使用した2レベルのテキスト読上げシステム | |
KR102528019B1 (ko) | 인공지능 기술에 기반한 음성 합성 시스템 | |
JP6631883B2 (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
JP2016151736A (ja) | 音声加工装置、及びプログラム | |
JP6330069B2 (ja) | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 | |
JP6137708B2 (ja) | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
KR102532253B1 (ko) | 스펙트로그램에 대응하는 어텐션 얼라인먼트의 디코더 스코어를 연산하는 방법 및 음성 합성 시스템 | |
JP7357518B2 (ja) | 音声合成装置及びプログラム | |
Chunwijitra et al. | A tone-modeling technique using a quantized F0 context to improve tone correctness in average-voice-based speech synthesis | |
WO2012032748A1 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
Takaki et al. | Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012 | |
Cai et al. | Statistical parametric speech synthesis using a hidden trajectory model | |
CN118366430B (zh) | 一种拟人化的语音合成方法、装置及可读存储介质 | |
KR102503066B1 (ko) | 어텐션 얼라인먼트의 스코어를 이용하여 스펙트로그램의 품질을 평가하는 방법 및 음성 합성 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150326 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150327 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20150327 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20150605 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150616 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150728 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150818 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150902 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5807921 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |