JP6519096B2 - 音声合成装置、方法、およびプログラム - Google Patents
音声合成装置、方法、およびプログラム Download PDFInfo
- Publication number
- JP6519096B2 JP6519096B2 JP2014026965A JP2014026965A JP6519096B2 JP 6519096 B2 JP6519096 B2 JP 6519096B2 JP 2014026965 A JP2014026965 A JP 2014026965A JP 2014026965 A JP2014026965 A JP 2014026965A JP 6519096 B2 JP6519096 B2 JP 6519096B2
- Authority
- JP
- Japan
- Prior art keywords
- prosody
- pitch
- segment
- data
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Description
目標韻律の下側のピッチ特徴点周波数:targ_pitch_feat[pf-1]
目標韻律の上側のピッチ特徴点周波数:targ_pitch_feat[pf]
素片韻律の下側のピッチ特徴点周波数:unitdb.pitch_feat[pf-1]
素片韻律の上側のピッチ特徴点周波数:unitdb.pitch_feat[pf]
補正前の目標韻律のピッチ周波数:pitch
補正後の目標韻律のピッチ周波数:modpit
÷(unitdb.pitch_feat[pf]-unitdb.pitch_feat[pf-1])
=(pitch-targ_pitch_feat[pf-1])
÷(modpit-unitdb.pitch_feat[pf-1])
・・・(1)
tdist=pitch-targ_pitch_feat[pf-1] ・・・(3)
dint=unitdb.pitch_feat[pf]-unitdb.pitch_feat[pf-1] ・・・(4)
(付記1)
入力テキストデータから生成される音素及び目標韻律に基づいて、音声コーパスを参照することにより音声素片を選択し、当該選択された音声素片を接続することにより合成音声を出力する音声合成装置において、
前記目標韻律からピッチ特徴点を抽出する目標韻律ピッチ特徴点抽出部と、
前記選択された音声素片中の韻律情報である素片韻律からピッチ特徴点を抽出する素片韻律ピッチ特徴点抽出部と、
前記目標韻律から抽出されたピッチ特徴点と前記素片韻律から抽出されたピッチ特徴点との対応関係に基づいて、前記目標韻律を補正する韻律補正部と、
を備えることを特徴とする音声合成装置。
(付記2)
前記目標韻律ピッチ特徴点抽出部または素片韻律ピッチ特徴点抽出部はそれぞれ、前記目標韻律または前記素片韻律のピッチ周波数のヒストグラムを算出し、当該ヒストグラムから頻度値が極大を示す1つ以上の周波数と前記頻度値が概略ゼロに収束する1つ以上の周波数をそれぞれ、前記ピッチ特徴点として抽出する、
ことを特徴とする付記1に記載の音声合成装置。
(付記3)
前記韻律補正部は、前記目標韻律中のピッチ周波数が前記目標韻律から抽出された相互に隣接するいずれか2つの前記ピッチ特徴点の周波数の間に任意の内分比で位置する場合に、前記目標韻律から抽出された2つの前記ピッチ特徴点にそれぞれ対応する前記素片韻律から抽出された2つの前記ピッチ特徴点の周波数を前記内分比と同じ内分比で内分して得られる周波数になるように、前記目標韻律中のピッチ周波数を補正する、
ことを特徴とする付記2に記載の音声合成装置。
(付記4)
入力テキストデータから生成される音素及び目標韻律に基づいて、音声コーパスを参照することにより音声素片を選択し、当該選択された音声素片を接続することにより合成音声を出力する音声合成装置に用いられる音声合成方法であって、前記音声合成装置が、
前記目標韻律からピッチ特徴点を抽出し、
前記選択された音声素片中の韻律情報である素片韻律からピッチ特徴点を抽出し、
前記目標韻律から抽出されたピッチ特徴点と前記素片韻律から抽出されたピッチ特徴点との対応関係に基づいて、前記目標韻律を補正する、
ことを特徴とする音声合成方法。
(付記5)
入力テキストデータから生成される音素及び目標韻律に基づいて、音声コーパスを参照することにより音声素片を選択し、当該選択された音声素片を接続することにより合成音声を出力する音声合成プログラムにおいて、
前記目標韻律からピッチ特徴点を抽出するステップと、
前記選択された音声素片中の韻律情報である素片韻律からピッチ特徴点を抽出するステップと、
前記目標韻律から抽出されたピッチ特徴点と前記素片韻律から抽出されたピッチ特徴点との対応関係に基づいて、前記目標韻律を補正するするステップと、
をコンピュータに実行させるための音声合成プログラム。
101 テキスト入力部
102 形態素解析部
103 韻律予測部
104 韻律辞書
105 波形選択部
106 音声辞書
107 波形合成部
201 目標韻律データ
202 韻律入力部
203 目標韻律ピッチ特徴点抽出部
204 素片韻律ピッチ特徴点抽出部
205 韻律補正部
206 補正後目標韻律データ
207 素片選定部
207a 素片リストアップ部
207b 音素列選択部
208 評価部
208a 素片評価部
208b 接続評価部
209 素片候補データ
210 合成部
301 目標韻律のピッチ周波数のヒストグラム
302 素片韻律のピッチ周波数のヒストグラム
303 補正前の目標韻律のピッチ周波数
304 補正後の目標韻律のピッチ周波数
501 CPU
502 ROM(リードオンリーメモリ)
503 RAM(ランダムアクセスメモリ)
504 入力装置
505 出力装置
506 外部記憶装置
507 可搬記録媒体駆動装置
508 通信インタフェース
509 バス
510 可搬記録媒体
Claims (8)
- 入力テキストデータから生成される音素及び目標韻律に基づいて、音声コーパスを参照することにより音声素片を選択し、前記選択された音声素片を接続することにより合成音声を出力する音声合成装置において、
算出された前記目標韻律のピッチ周波数のヒストグラム上で特徴となる周波数をピッチ特徴点として抽出する目標韻律ピッチ特徴点抽出部と、
前記選択された音声素片中の韻律情報である素片韻律のピッチ周波数のヒストグラムを算出し、算出されたヒストグラム上で特徴となる周波数を前記ピッチ特徴点として抽出する素片韻律ピッチ特徴点抽出部と、
前記目標韻律から抽出されたピッチ特徴点と前記素片韻律から抽出されたピッチ特徴点との対応関係に基づいて、前記目標韻律を補正する韻律補正部と、
を備え、
前記目標韻律ピッチ特徴点抽出部および前記素片韻律ピッチ特徴点抽出部はそれぞれ、前記ヒストグラム上で特徴となる2つ以上の周波数を前記ピッチ特徴点として抽出し、
前記韻律補正部は、前記目標韻律から前記ピッチ特徴点として抽出された2つ以上の周波数に対する各ピッチ周波数の内分比と、前記素片韻律から前記ピッチ特徴点として抽出された2つ以上の周波数に対する各ピッチ周波数の内分比とが同じになるように、前記目標韻律を補正する、
ことを特徴とする音声合成装置。 - 入力テキストデータから生成される音素及び目標韻律に基づいて、音声コーパスを参照することにより音声素片を選択し、前記選択された音声素片を接続することにより合成音声を出力する音声合成装置において、
算出された前記目標韻律のピッチ周波数のヒストグラム上で特徴となる周波数をピッチ特徴点として抽出する目標韻律ピッチ特徴点抽出部と、
前記選択された音声素片中の韻律情報である素片韻律のピッチ周波数のヒストグラムを算出し、算出されたヒストグラム上で特徴となる周波数を前記ピッチ特徴点として抽出する素片韻律ピッチ特徴点抽出部と、
前記目標韻律から抽出されたピッチ特徴点と前記素片韻律から抽出されたピッチ特徴点との対応関係に基づいて、前記目標韻律を補正する韻律補正部と、
を備え、
前記目標韻律ピッチ特徴点抽出部および前記素片韻律ピッチ特徴点抽出部はそれぞれ、前記ヒストグラムから頻度値が極大を示す1つ以上の周波数と前記頻度値が概略ゼロに収束する1つ以上の周波数をそれぞれ、前記ピッチ特徴点として抽出する、
ことを特徴とする音声合成装置。 - 前記目標韻律ピッチ特徴点抽出部または素片韻律ピッチ特徴点抽出部はそれぞれ、前記ヒストグラムから頻度値が極大を示す1つ以上の周波数と前記頻度値が概略ゼロに収束する1つ以上の周波数をそれぞれ、前記ピッチ特徴点として抽出する、
ことを特徴とする請求項1に記載の音声合成装置。 - 前記韻律補正部は、前記目標韻律中のピッチ周波数が前記目標韻律から抽出された相互に隣接するいずれか2つの前記ピッチ特徴点の周波数の間に任意の内分比で位置する場合に、前記目標韻律から抽出された2つの前記ピッチ特徴点にそれぞれ対応する前記素片韻律から抽出された2つの前記ピッチ特徴点の周波数を前記内分比と同じ内分比で内分して得られる周波数になるように、前記目標韻律中のピッチ周波数を補正する、
ことを特徴とする請求項1乃至3のいずれか一項に記載の音声合成装置。 - 入力テキストデータから生成される音素及び目標韻律に基づいて、音声コーパスを参照することにより音声素片を選択し、当該選択された音声素片を接続することにより合成音声を出力する音声合成装置に用いられる音声合成方法であって、前記音声合成装置が、
算出された前記目標韻律のピッチ周波数のヒストグラム上で特徴となる2つ以上の周波数をピッチ特徴点として抽出し、
前記選択された音声素片中の韻律情報である素片韻律のピッチ周波数のヒストグラムを算出し、算出されたヒストグラム上で特徴となる2つ以上の周波数を前記ピッチ特徴点として抽出し、
前記目標韻律から抽出されたピッチ特徴点と前記素片韻律から抽出されたピッチ特徴点との対応関係に基づいて、前記目標韻律から前記ピッチ特徴点として抽出された2つ以上の周波数に対する各ピッチ周波数の内分比と、前記素片韻律から前記ピッチ特徴点として抽出された2つ以上の周波数に対する各ピッチ周波数の内分比とが同じになるように、前記目標韻律を補正する、
ことを特徴とする音声合成方法。 - 入力テキストデータから生成される音素及び目標韻律に基づいて、音声コーパスを参照することにより音声素片を選択し、当該選択された音声素片を接続することにより合成音声を出力する音声合成装置に用いられる音声合成方法であって、前記音声合成装置が、
算出された前記目標韻律のピッチ周波数の第1ヒストグラム上で特徴となる周波数であって、前記第1ヒストグラムから頻度値が極大を示す1つ以上の周波数と前記頻度値が概略ゼロに収束する1つ以上の周波数をそれぞれ、ピッチ特徴点として抽出し、
前記選択された音声素片中の韻律情報である素片韻律のピッチ周波数の第2ヒストグラムを算出し、算出されたヒストグラム上で特徴となる周波数であって、前記第2ヒストグラムから頻度値が極大を示す1つ以上の周波数と前記頻度値が概略ゼロに収束する1つ以上の周波数をそれぞれ、ピッチ特徴点として抽出し、
前記目標韻律から抽出されたピッチ特徴点と前記素片韻律から抽出されたピッチ特徴点との対応関係に基づいて、前記目標韻律を補正する、
ことを特徴とする音声合成方法。 - 入力テキストデータから生成される音素及び目標韻律に基づいて、音声コーパスを参照することにより音声素片を選択し、当該選択された音声素片を接続することにより合成音声を出力する音声合成プログラムにおいて、
算出された前記目標韻律のピッチ周波数のヒストグラム上で特徴となる2つ以上の周波数をピッチ特徴点として抽出するステップと、
前記選択された音声素片中の韻律情報である素片韻律のピッチ周波数のヒストグラムを算出し、算出されたヒストグラム上で特徴となる2つ以上の周波数を前記ピッチ特徴点として抽出するステップと、
前記目標韻律から抽出されたピッチ特徴点と前記素片韻律から抽出されたピッチ特徴点との対応関係に基づいて、前記目標韻律から前記ピッチ特徴点として抽出された2つ以上の周波数に対する各ピッチ周波数の内分比と、前記素片韻律から前記ピッチ特徴点として抽出された2つ以上の周波数に対する各ピッチ周波数の内分比とが同じになるように、前記目標韻律を補正するステップと、
をコンピュータに実行させるための音声合成プログラム。 - 入力テキストデータから生成される音素及び目標韻律に基づいて、音声コーパスを参照することにより音声素片を選択し、当該選択された音声素片を接続することにより合成音声を出力する音声合成プログラムにおいて、
算出された前記目標韻律のピッチ周波数の第1ヒストグラム上で特徴となる周波数であって、前記第1ヒストグラムから頻度値が極大を示す1つ以上の周波数と前記頻度値が概略ゼロに収束する1つ以上の周波数をそれぞれ、ピッチ特徴点として抽出するステップと、
前記選択された音声素片中の韻律情報である素片韻律のピッチ周波数の第2ヒストグラムを算出し、算出されたヒストグラム上で特徴となる周波数であって、前記第2ヒストグラムから頻度値が極大を示す1つ以上の周波数と前記頻度値が概略ゼロに収束する1つ以上の周波数をそれぞれ、ピッチ特徴点として抽出するステップと、
前記目標韻律から抽出されたピッチ特徴点と前記素片韻律から抽出されたピッチ特徴点との対応関係に基づいて、前記目標韻律を補正するステップと、
をコンピュータに実行させるための音声合成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014026965A JP6519096B2 (ja) | 2014-02-14 | 2014-02-14 | 音声合成装置、方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014026965A JP6519096B2 (ja) | 2014-02-14 | 2014-02-14 | 音声合成装置、方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015152788A JP2015152788A (ja) | 2015-08-24 |
JP6519096B2 true JP6519096B2 (ja) | 2019-05-29 |
Family
ID=53895089
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014026965A Active JP6519096B2 (ja) | 2014-02-14 | 2014-02-14 | 音声合成装置、方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6519096B2 (ja) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5245962B2 (ja) * | 2009-03-19 | 2013-07-24 | 日本電気株式会社 | 音声合成装置、音声合成方法、プログラム及び記録媒体 |
WO2012063424A1 (ja) * | 2010-11-08 | 2012-05-18 | 日本電気株式会社 | 特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラム |
JP5512597B2 (ja) * | 2011-05-13 | 2014-06-04 | 日本電信電話株式会社 | 音声合成装置とその方法とプログラム |
JP5930738B2 (ja) * | 2012-01-31 | 2016-06-08 | 三菱電機株式会社 | 音声合成装置及び音声合成方法 |
JP5665780B2 (ja) * | 2012-02-21 | 2015-02-04 | 株式会社東芝 | 音声合成装置、方法およびプログラム |
-
2014
- 2014-02-14 JP JP2014026965A patent/JP6519096B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015152788A (ja) | 2015-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10878803B2 (en) | Speech conversion method, computer device, and storage medium | |
US20220076693A1 (en) | Bi-directional recurrent encoders with multi-hop attention for speech emotion recognition | |
WO2017067206A1 (zh) | 个性化多声学模型的训练方法、语音合成方法及装置 | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
JPH1195783A (ja) | 音声情報処理方法 | |
JPWO2012063424A1 (ja) | 特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラム | |
US9805711B2 (en) | Sound synthesis device, sound synthesis method and storage medium | |
JP5434587B2 (ja) | 音声合成装置及び方法とプログラム | |
GB2603776A (en) | Methods and systems for modifying speech generated by a text-to-speech synthesiser | |
JP5930738B2 (ja) | 音声合成装置及び音声合成方法 | |
JP4945465B2 (ja) | 音声情報処理装置及びその方法 | |
JP2016065900A (ja) | 音声合成装置、方法、およびプログラム | |
JP6519096B2 (ja) | 音声合成装置、方法、およびプログラム | |
CN112992110B (zh) | 音频处理方法、装置、计算设备以及介质 | |
JP2004109535A (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
JP2009122381A (ja) | 音声合成装置、音声合成方法およびそのプログラム | |
JP2011197124A (ja) | データ作成システム及びプログラム | |
JP5393546B2 (ja) | 韻律作成装置及び韻律作成方法 | |
KR101227716B1 (ko) | 음성 합성 장치, 음성 합성 방법 및 음성 합성 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체 | |
JP6291887B2 (ja) | 音声合成装置、方法、およびプログラム | |
JP2008191334A (ja) | 音声合成方法、音声合成プログラム、音声合成装置、音声合成システム | |
JP6519097B2 (ja) | 音声合成装置、方法、およびプログラム | |
JPWO2013011634A1 (ja) | 波形処理装置、波形処理方法および波形処理プログラム | |
JP3881970B2 (ja) | 知覚試験用音声データセット作成装置、コンピュータプログラム、音声合成用サブコスト関数の最適化装置、及び音声合成装置 | |
JP2006084854A (ja) | 音声合成装置、音声合成方法および音声合成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170213 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180130 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180330 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180821 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181019 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190326 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190408 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6519096 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |