JP2006084854A - 音声合成装置、音声合成方法および音声合成プログラム - Google Patents
音声合成装置、音声合成方法および音声合成プログラム Download PDFInfo
- Publication number
- JP2006084854A JP2006084854A JP2004270252A JP2004270252A JP2006084854A JP 2006084854 A JP2006084854 A JP 2006084854A JP 2004270252 A JP2004270252 A JP 2004270252A JP 2004270252 A JP2004270252 A JP 2004270252A JP 2006084854 A JP2006084854 A JP 2006084854A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- unit
- units
- synthesis
- representative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【解決手段】 音声素片選択部104bは、音声素片記憶部104aに記憶されている音声素片から、これらの音声素片を接続したときの合成音声の歪に基づいて、合成単位ごとに複数の音声素片を選択する。代表音声素片選択部104cは、音声素片選択部104bで合成単位ごとに選択された複数の音声素片から、これらの音声素片間の距離に基づいて、合成単位ごとに一つの代表音声素片を選択する。音声素片変形・接続部104dは、代表音声素片選択部104cで合成単位ごとに選択された代表音声素片を変形、接続して合成音声を生成する。
【選択図】 図1
Description
図1は、本発明の第1の実施形態に係る音声合成装置を示すブロック図である。
第1の実施形態に係わる音声合成装置では、代表音声素片選択部104cにおいて、音声素片選択部104bにおいて選択された複数の音声素片から、これらの音声素片間の距離に基づいて合成単位ごとに一つの代表音声素片を選択し、選択された代表音声素片を音声素片変形・接続部104dにおいて接続することによって合成音声を生成していた。
第2の実施形態に係わる音声合成装置では、代表音声素片生成部204dにおいて、第2の音声素片選択部204cで選択された複数の音声素片を融合することによって代表音声素片を生成していた。
第3の実施形態では、代表音声素片選択部304dにおいて、第2の音声素片選択部304cで選択された音声素片から得られる合成音声の歪が最小となるものを合成単位ごとに選択し、これを代表音声素片としていた。
102、202、302,402・・・言語処理部
103、203、303、403・・・韻律処理部
104、204、304,404・・・音声合成部
105、205、305、405・・・合成音声出力部
104a、204a、304a、404a・・・音声素片記憶部
104b、204b、204c、304b、304c、404b、404c、404d・・・音声素片選択部
104c、304d・・・代表音声素片選択部
204d、404e・・・代表音声素片生成部
104d、204e、304e、404f・・・音声素片変形・接続部
Claims (19)
- 入力されたテキストから得られる音韻系列を合成単位で区切り、合成単位ごとに代表音声素片を得、その代表音声素片を接続することによって合成音声を生成する音声合成装置において、
合成単位に対応する複数の音声素片を記憶する記憶手段と、
前記入力されたテキストから得られる音韻系列にしたがって前記記憶手段に記憶された音声素片から合成音声の歪を求め、その歪に基づいて前記記憶手段に記憶された音声素片から前記合成単位ごとに複数の音声素片を選択する選択手段と、
前記合成単位ごとに、前記選択手段で選択された複数の音声素片間の距離に基づいて前記選択手段で選択された複数の音声素片から代表音声素片を得る代表音声素片取得手段と、
前記代表音声素片取得手段で得られた代表音声素片を接続することによって合成音声を生成する合成音声生成手段と、
を備えることを特徴とする音声合成装置。 - 入力されたテキストから得られる音韻系列を合成単位で区切り、合成単位ごとに代表音声素片を得、その代表音声素片を接続することによって合成音声を生成する音声合成装置において、
合成単位に対応する複数の音声素片を記憶する記憶手段と、
前記入力されたテキストから得られる音韻系列にしたがって前記記憶手段に記憶された音声素片から合成音声の歪を求め、その歪に基づいて前記記憶手段に記憶された音声素片から前記合成単位ごとに複数の音声素片を選択する第1の選択手段と、
前記合成単位ごとに、前記第1の選択手段で選択された複数の音声素片間の距離に基づいて前記第1の選択手段で選択された複数の音声素片から代表音声素片を選択する第2の選択手段と、
前記第2の選択手段で選択された代表音声素片を接続することによって合成音声を生成する合成音声生成手段と、
を備えることを特徴とする音声合成装置。 - 入力されたテキストから得られる音韻系列を合成単位で区切り、合成単位ごとに代表音声素片を得、その代表音声素片を接続することによって合成音声を生成する音声合成装置において、
合成単位に対応する複数の音声素片を記憶する記憶手段と、
前記入力されたテキストから得られる音韻系列にしたがって前記記憶手段に記憶された音声素片から合成音声の歪を求め、その歪に基づいて前記記憶手段に記憶された音声素片から前記合成単位ごとに複数の第1の音声素片を選択する第1の選択手段と、
前記合成単位ごとに、前記第1の選択手段で選択された複数の第1の音声素片間の距離に基づいて前記複数の第1の音声素片から複数の第2の音声素片を選択する第2の選択手段と、
前記合成単位ごとに、前記第2の選択手段で選択された複数の第2の音声素片を融合して代表音声素片を生成する生成手段と、
前記生成手段で生成された代表音声素片を接続することによって合成音声を生成する合成音声生成手段と、
を備えることを特徴とする音声合成装置。 - 入力されたテキストから得られる音韻系列を合成単位で区切り、合成単位ごとに代表音声素片を得、その代表音声素片を接続することによって合成音声を生成する音声合成装置において、
合成単位に対応する複数の音声素片を記憶する記憶手段と、
前記入力されたテキストから得られる音韻系列にしたがって前記記憶手段に記憶された音声素片から合成音声の歪を求め、その歪に基づいて前記記憶手段に記憶された音声素片から前記合成単位ごとに複数の第1の音声素片を選択する第1の選択手段と、
前記合成単位ごとに、前記第1の選択手段で選択された複数の第1の音声素片間の距離に基づいて前記複数の第1の音声素片から複数の第2の音声素片を選択する第2の選択手段と、
前記入力されたテキストから得られる音韻系列にしたがって前記第2の選択手段で選択された第2の音声素片から合成音声の歪を求め、その歪に基づいて前記複数の第2の音声素片から前記合成単位ごとに代表音声素片を選択する第3の選択手段と、
前記第3の選択手段で選択された代表音声素片を接続することによって合成音声を生成する合成音声生成手段と、
を備えることを特徴とする音声合成装置。 - 入力されたテキストから得られる音韻系列を合成単位で区切り、合成単位ごとに代表音声素片を得、その代表音声素片を接続することによって合成音声を生成する音声合成装置において、
合成単位に対応する複数の音声素片を記憶する記憶手段と、
前記入力されたテキストから得られる音韻系列にしたがって前記記憶手段に記憶された音声素片から合成音声の歪を求め、その歪に基づいて前記記憶手段に記憶された音声素片から前記合成単位ごとに複数の第1の音声素片を選択する第1の選択手段と、
前記合成単位ごとに、前記第1の選択手段で選択された複数の第1の音声素片間の距離に基づいて前記複数の第1の音声素片から複数の第2の音声素片を選択する第2の選択手段と、
前記入力されたテキストから得られる音韻系列にしたがって前記第2の選択手段で選択された第2の音声素片から合成音声の歪を求め、その歪に基づいて前記複数の第2の音声素片から前記合成単位ごとに複数の第3の音声素片を選択する第3の選択手段と、
前記合成単位ごとに、前記第3の選択手段で選択された複数の第3の音声素片を融合して代表音声素片を生成する生成手段と、
前記生成手段で生成された代表音声素片を接続することによって合成音声を生成する合成音声生成手段と、
を備えることを特徴とする音声合成装置。 - 前記合成音声の歪を、基本周波数、音韻継続時間長、パワーのうち少なくとも一つを用いて算出することを特徴とする請求項1乃至請求項5のいずれか1項に記載の音声合成装置。
- 前記合成音声の歪を、前記記憶手段に記憶された音声素片の素片環境と前記入力されたテキストから得られる目標素片環境との違いによって生じる目標コストと、前記記憶手段に記憶された音声素片を前記記憶手段に記憶された他の音声素片と接続することによって生じる接続コストとを算出し、これらのコスト用いて算出することを特徴とする請求項1乃至請求項5のいずれか1項に記載の音声合成装置。
- 前記目標コストを、基本周波数、音韻継続時間長、パワー、音韻環境、スペクトルのうち少なくとも一つを用いて算出することを特徴とする請求項7に記載の音声合成装置。
- 前記接続コストを、基本周波数、パワー、スペクトルのうち少なくとも一つを用いて算出することを特徴とする請求項7に記載の音声合成装置。
- 前記第2の選択手段は、前記合成単位ごとに、前記第1の選択手段で選択された複数の音声素片ごとに他の音声素片との間の距離の和を算出し、算出された距離の和に基づいて代表音声素片を選択することを特徴とする請求項2に記載の音声合成装置。
- 前記第2の選択手段は、前記合成単位ごとに、前記第1の選択手段で選択された複数の音声素片のセントロイドを求め、そのセントロイドと前記第1の選択手段で選択された音声素片との間の距離に基づいて代表音声素片を選択することを特徴とする請求項2に記載の音声合成装置。
- 前記第2の選択手段は、前記合成単位ごとに、前記第1の選択手段で選択された複数の音声素片ごとに他の音声素片との間の距離の和を算出し、算出された距離の和に基づいて複数の第2の音声素片を選択することを特徴とする請求項5に記載の音声合成装置。
- 前記第2の選択手段は、前記合成単位ごとに、前記第1の選択手段で選択された複数の音声素片のセントロイドを求め、そのセントロイドと前記第1の選択手段で選択された音声素片との間の距離に基づいて複数の第2の音声素片を選択することを特徴とする請求項5に記載の音声合成装置。
- 入力されたテキストから得られる音韻系列を合成単位で区切り、合成単位ごとに代表音声素片を得、その代表音声素片を接続することによって合成音声を生成する音声合成方法において、
前記入力されたテキストから得られる音韻系列にしたがって合成単位に対応する複数の音声素片を記憶する記憶手段に記憶された音声素片から合成音声の歪を求め、その歪に基づいて前記記憶手段に記憶された音声素片から前記合成単位ごとに複数の音声素片を選択する選択ステップと、
前記合成単位ごとに、前記選択ステップで選択された複数の音声素片間の距離に基づいて前記選択ステップで選択された複数の音声素片から代表音声素片を取得する代表音声素片取得ステップと、
前記代表音声素片取得ステップで得られた代表音声素片を接続することによって合成音声を生成する合成音声生成ステップと、
を有することを特徴とする音声合成方法。 - 入力されたテキストから得られる音韻系列を合成単位で区切り、合成単位ごとに代表音声素片を得、その代表音声素片を接続することによって合成音声を生成する音声合成方法において、
前記入力されたテキストから得られる音韻系列にしたがって合成単位に対応する複数の音声素片を記憶する記憶手段に記憶された音声素片から合成音声の歪を求め、その歪に基づいて前記記憶手段に記憶された音声素片から前記合成単位ごとに複数の音声素片を選択する第1の選択ステップと、
前記合成単位ごとに、前記第1の選択ステップで選択された複数の音声素片間の距離に基づいて前記第1の選択ステップで選択された複数の音声素片から代表音声素片を選択する第2の選択ステップと、
前記第2の選択ステップで選択された代表音声素片を接続することによって合成音声を生成する合成音声生成ステップと、
を有することを特徴とする音声合成方法。 - 入力されたテキストから得られる音韻系列を合成単位で区切り、合成単位ごとに代表音声素片を得、その代表音声素片を接続することによって合成音声を生成する音声合成方法において、
前記入力されたテキストから得られる音韻系列にしたがって合成単位に対応する複数の音声素片を記憶する記憶手段に記憶された音声素片から合成音声の歪を求め、その歪に基づいて前記記憶手段に記憶された音声素片から前記合成単位ごとに複数の音声素片を選択する第1の選択ステップと、
前記合成単位ごとに、前記第1の選択ステップで選択された複数の音声素片間の距離に基づいて前記第1の選択ステップで選択された複数の音声素片から複数の第2の音声素片を選択する第2の選択ステップと、
前記合成単位ごとに、前記第2の選択ステップで選択された複数の第2の音声素片を融合して代表音声素片を生成する生成ステップと、
前記生成ステップで生成された代表音声素片を接続することによって合成音声を生成する合成音声生成ステップと、
を有することを特徴とする音声合成方法。 - コンピュータに、入力されたテキストから得られる音韻系列を合成単位で区切り、合成単位ごとに代表音声素片を得、その代表音声素片を接続することによって合成音声を生成する音声合成プログラムにおいて、
前記入力されたテキストから得られる音韻系列にしたがって合成単位に対応する複数の音声素片を記憶する記憶手段に記憶された音声素片から合成音声の歪を求め、その歪に基づいて前記記憶手段に記憶された音声素片から前記合成単位ごとに複数の音声素片を選択する選択機能と、
前記合成単位ごとに、前記選択機能で選択された複数の音声素片間の距離に基づいて前記選択機能で選択された複数の音声素片から代表音声素片を取得する代表音声素片取得機能と、
前記代表音声素片取得機能で得られた代表音声素片を接続することによって合成音声を生成する合成音声生成機能と、
を備えることを特徴とする音声合成プログラム。 - コンピュータに、入力されたテキストから得られる音韻系列を合成単位で区切り、合成単位ごとに代表音声素片を得、その代表音声素片を接続することによって合成音声を生成する音声合成プログラムにおいて、
前記入力されたテキストから得られる音韻系列にしたがって合成単位に対応する複数の音声素片を記憶する記憶手段に記憶された音声素片から合成音声の歪を求め、その歪に基づいて前記記憶手段に記憶された音声素片から前記合成単位ごとに複数の音声素片を選択する第1の選択機能と、
前記合成単位ごとに、前記第1の選択機能で選択された複数の音声素片間の距離に基づいて前記第1の選択機能で選択された複数の音声素片から代表音声素片を選択する第2の選択機能と、
前記第2の選択機能で選択された代表音声素片を接続することによって合成音声を生成する合成音声生成機能と、
を備えることを特徴とする音声合成プログラム。 - コンピュータに、入力されたテキストから得られる音韻系列を合成単位で区切り、合成単位ごとに代表音声素片を得、その代表音声素片を接続することによって合成音声を生成する音声合成プログラムにおいて、
前記入力されたテキストから得られる音韻系列にしたがって合成単位に対応する複数の音声素片を記憶する記憶手段に記憶された音声素片から合成音声の歪を求め、その歪に基づいて前記記憶手段に記憶された音声素片から前記合成単位ごとに複数の音声素片を選択する第1の選択機能と、
前記合成単位ごとに、前記第1の選択機能で選択された複数の音声素片間の距離に基づいて前記第1の選択機能で選択された複数の音声素片から複数の第2の音声素片を選択する第2の選択機能と、
前記合成単位ごとに、前記第2の選択機能で選択された複数の第2の音声素片を融合して代表音声素片を生成する生成機能と、
前記生成機能で生成された代表音声素片を接続することによって合成音声を生成する合成音声生成機能と、
を備えることを特徴とする音声合成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004270252A JP2006084854A (ja) | 2004-09-16 | 2004-09-16 | 音声合成装置、音声合成方法および音声合成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004270252A JP2006084854A (ja) | 2004-09-16 | 2004-09-16 | 音声合成装置、音声合成方法および音声合成プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006084854A true JP2006084854A (ja) | 2006-03-30 |
Family
ID=36163415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004270252A Pending JP2006084854A (ja) | 2004-09-16 | 2004-09-16 | 音声合成装置、音声合成方法および音声合成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006084854A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008102710A1 (ja) * | 2007-02-20 | 2008-08-28 | Nec Corporation | 音声合成装置及び方法とプログラム |
WO2011030424A1 (ja) * | 2009-09-10 | 2011-03-17 | 株式会社東芝 | 音声合成装置およびプログラム |
US8407054B2 (en) | 2007-05-08 | 2013-03-26 | Nec Corporation | Speech synthesis device, speech synthesis method, and speech synthesis program |
JP2017151291A (ja) * | 2016-02-25 | 2017-08-31 | 三菱電機株式会社 | 音声合成装置及び音声合成方法 |
-
2004
- 2004-09-16 JP JP2004270252A patent/JP2006084854A/ja active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008102710A1 (ja) * | 2007-02-20 | 2008-08-28 | Nec Corporation | 音声合成装置及び方法とプログラム |
US8630857B2 (en) | 2007-02-20 | 2014-01-14 | Nec Corporation | Speech synthesizing apparatus, method, and program |
US8407054B2 (en) | 2007-05-08 | 2013-03-26 | Nec Corporation | Speech synthesis device, speech synthesis method, and speech synthesis program |
JP5177135B2 (ja) * | 2007-05-08 | 2013-04-03 | 日本電気株式会社 | 音声合成装置、音声合成方法及び音声合成プログラム |
WO2011030424A1 (ja) * | 2009-09-10 | 2011-03-17 | 株式会社東芝 | 音声合成装置およびプログラム |
JP5275470B2 (ja) * | 2009-09-10 | 2013-08-28 | 株式会社東芝 | 音声合成装置およびプログラム |
JP2017151291A (ja) * | 2016-02-25 | 2017-08-31 | 三菱電機株式会社 | 音声合成装置及び音声合成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3913770B2 (ja) | 音声合成装置および方法 | |
JP4080989B2 (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
JP5665780B2 (ja) | 音声合成装置、方法およびプログラム | |
JP4738057B2 (ja) | ピッチパターン生成方法及びその装置 | |
JP4469883B2 (ja) | 音声合成方法及びその装置 | |
JP4241762B2 (ja) | 音声合成装置、その方法、及びプログラム | |
JP3910628B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
CN101131818A (zh) | 语音合成装置与方法 | |
US20040030555A1 (en) | System and method for concatenating acoustic contours for speech synthesis | |
JP4829477B2 (ja) | 声質変換装置および声質変換方法ならびに声質変換プログラム | |
JP2006276528A (ja) | 音声合成装置及びその方法 | |
JP2008249808A (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP2006309162A (ja) | ピッチパターン生成方法、ピッチパターン生成装置及びプログラム | |
JP4639932B2 (ja) | 音声合成装置 | |
JP4533255B2 (ja) | 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体 | |
JP2009133890A (ja) | 音声合成装置及びその方法 | |
JP2001265375A (ja) | 規則音声合成装置 | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP2009122381A (ja) | 音声合成装置、音声合成方法およびそのプログラム | |
JP2006084854A (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP5106274B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
JP4167084B2 (ja) | 音声合成方法及び装置、並びに音声合成プログラム | |
JP2003208188A (ja) | 日本語テキスト音声合成方法 | |
EP1589524B1 (en) | Method and device for speech synthesis | |
JP3854593B2 (ja) | 音声合成装置及びそのためのコスト計算装置、並びにコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080523 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080704 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080829 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090317 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090427 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091106 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100305 |