JP4247289B1 - 音声合成装置、音声合成方法およびそのプログラム - Google Patents
音声合成装置、音声合成方法およびそのプログラム Download PDFInfo
- Publication number
- JP4247289B1 JP4247289B1 JP2007295895A JP2007295895A JP4247289B1 JP 4247289 B1 JP4247289 B1 JP 4247289B1 JP 2007295895 A JP2007295895 A JP 2007295895A JP 2007295895 A JP2007295895 A JP 2007295895A JP 4247289 B1 JP4247289 B1 JP 4247289B1
- Authority
- JP
- Japan
- Prior art keywords
- speech
- prosodic
- unit
- prosody
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】入力テキストを解析して、韻律パラメータ13、音素コンテキスト14を得る。音声素片候補探索部5は、音素コンテキスト14に適合する音声素片候補15を得て、韻律変形素片候補選択部6は、音声素片候補15から韻律で優れた韻律変形素片候補16を選択する。音声素片候補15についてサブコスト17を求め、韻律変形素片候補16について韻律変形サブコストも求め、これらサブコストの重み付け和が最小となるときの音声素片候補と韻律変形素片候補を選択音声素片19と韻律変形対象素片20として選択する。韻律変形部10は韻律変形対象素片20に対応する音声波形データを韻律変形し、この結果(韻律変形波形データ21)と選択音声素片19に対応する音声波形データとを接続して合成音声を得る。
【選択図】図1
Description
しかし、このような音声合成方式においては、そもそも適切な音声素片が音声データベースに存在しない場合、高品質な合成音声を生成することは困難である。
しかし、こうした方法では、音声データベースに収録されているような内容のテキストを音声合成する場合には問題が顕在化しないものの、音声データベースに収録されていないような分野のテキストを音声合成する場合には、そもそも音声データベースに適切な音声素片が存在しない場合もあるから、適切な音声素片を利用できないため合成音声の品質が低くなるという問題が存在する。
本発明の第1実施形態について、図面を参照しながら説明する。
以下、音声合成装置は、例えば専用のハードウェアで構成された専用機やパーソナルコンピュータのような汎用機といったコンピュータで実現される。ここではコンピュータ(汎用機)で実現する場合を例に採り説明する。
音声合成装置100は、キーボード、ポインティングデバイスなどが接続可能な入力部と、液晶ディスプレイ、CRT(Cathode Ray Tube)ディスプレイなどが接続可能な出力部と、音声合成装置100の外部に通信可能な通信装置(例えば通信ケーブル、LANカード、ルータ、モデムなど)が接続可能な通信部と、CPU(Central Processing Unit)〔DSP(Digital Signal Processor)でも良い。またキャッシュメモリやレジスタなどを備えていてもよい。〕と、メモリであるRAM、ROMと、ハードディスク、光ディスク、半導体メモリなどである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、音声合成装置100に、フレキシブルディスク、CD−ROM(Compact Disc Read Only Memory)、DVD(Digital Versatile Disc)などの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。
さらに音声合成装置100には、合成音声を音として出力する音響出力装置(スピーカ)を接続可能であって、スピーカに入力する信号(合成音声をD/A変換したもの)を出力するための信号出力部を設けることができる。
(参考文献1)特許3379643号公報
(参考文献2)特許3518340号公報
(参考文献3)特許3420964号公報
(参考文献4)特許3344487号公報
(参考文献5)海木佳延、武田一哉、匂坂芳典、「言語情報を利用した母音継続時間長の制御」、電子情報通信学会誌 Vol. J75-A, No.3, pp.467-473, 1992.
(参考文献6)M.D.Riley, "Tree-based modeling for speech synthesis", In G. Bailly, C. Benoit,andT. R. Sawallis, editors, Talking Machines: Theories, Models, and Designs, pages265-273. Elsevier, 1992.
(参考文献7)特開2005−070312号公報
読みに対応するサブコスト関数は、
C1(n)=1/en
である。但し、音素コンテキスト14と、合成単位の音声素片候補15の音素コンテキストが一致する音素数をnとする。
韻律パラメータ13のF0パターン平均値Vpと、合成単位の音声素片候補15のF0パターン平均値Vsに対応するサブコスト関数は、
C2(Vp,Vs)=|Vp−Vs|2
である。
韻律パラメータ13のF0パターンの傾きFpと、合成単位の音声素片候補15のF0パターンの傾きFsに対応するサブコスト関数は、
C3(Fp,Fs)=|Fp−Fs|2
である。
韻律パラメータ13の音素継続時間長Tpと、合成単位の音声素片候補15の音素継続時間長Tsに対応するサブコスト関数は、
C4(Tp,Ts)=|Tp−Ts|2
である。
韻律パラメータ13の振幅(パワー)Apと、合成単位の音声素片候補15の振幅(パワー)Asに対応するサブコスト関数は、
C5(Ap,As)=|Ap−As|2
である。
(参考文献8)「波形編集型合成方式におけるスペクトル連続性を考慮した波形選択法」、日本音響学会講演論文集、2-6-10, pp.239-240, 1990/9
あるいは、非変形時の音声を基準として変形時の音声とのDMOS(Differebce Mean Opinion Score)を実験的に求めておき、変形率からDMOS値を求めて、これをサブコストC6とすることができる。
被験者を用いた主観評価実験によって、上述の韻律パラメータの変形率と品質劣化の関係を調べることは容易に可能である(参考文献9参照)。
(参考文献9)「基本周波数及び音素持続時間を考慮した音声合成用波形素片データセットの作成」、電子情報通信学会誌、D2, Vol.J82, No.8, pp.1229-1238
例えば、図4に示すような基本周波数変形率と継続時間長変形率と品質劣化の相関関係が得られている場合、或る韻律変形素片候補16の基本周波数変形率が0.7、継続時間長変形率が0.9のとき、MOSは2となり、MOSの許容値(閾値)を3とすると、許容値を下回ってしまう。この場合、例えば中央値(0,0)と変形時劣化率(0.7,0.9)を直線で結び、MOSが3の下限を示すラインとの交点(0.8,0.92)を許容韻律変形率とする。
元の韻律パラメータ13がF0=250Hz、音素継続時間長=120msecの場合、許容韻律変形率に従った修正韻律パラメータ13′はF0=250×0.8=200Hz、音素継続時間長は120×0.92=110.4msecとなる。
この処理は、韻律パラメータ13が修正韻律パラメータ13′が変更されていることを除くと、ステップS6の処理と実質的に同じである。
P=ω1C1(n)+ω2C2(Vp,Vs)+ω3C3(Fp,Fs)
+ω4C4(Tp,Ts)+ω5C5(Ap,As)+ω6C6
このように、韻律変形素片候補16は、音声素片候補15としても総合コストが計算されているから、いずれの候補としての総合コストを用いたかを注意する必要がある。
(参考文献10)Y. Stylianou, "Concatenative speech synthesis using a Harmonic plus Noise Mode1," In: The 3rd ESCA/COCOSDA Workshop on Speech Synthesis, Jenolan Caves, NSW, Australia, Nov.1998, Paper H.1.
(参考文献11)特開平7−072897号公報
本発明の第2実施形態について、図5および図6を参照しながら説明する。なお、第1実施形態と異なる事項について説明を行い、第1実施形態と異ならない構成要素等については同一符号を附して説明を省略する。また、第2実施形態を上述のステップS7aおよびS7bの各処理を行わない例で示すが、両処理を行う実施形態とすることもできる。
1a 音声波形データベース
1b 音声情報データベース
2 テキスト解析部
3 韻律パラメータ取得部
4 音素コンテキスト変換部
5 音声素片候補探索部
6 韻律変形素片候補選択部
7 音声素片サブコスト計算部
8 韻律変形素片サブコスト計算部
9 素片選択部
10 韻律変形部
11 素片接続部
Claims (9)
- 合成音声を組み立てる上で適切な単位(合成単位)で音声波形データを接続することで、入力されたテキストに対応する合成音声を生成する音声合成装置であって、
音声波形データの集合である音声波形データベースおよび、少なくとも上記音声波形データの合成単位の韻律に関する情報である韻律パラメータと上記音声波形データベースにおける音声波形データとの対応を示す音声素片からなる音声情報データベースを記憶する記憶手段と、
上記テキストを解析して当該テキストの読み情報および韻律情報を取得するテキスト解析手段と、
上記韻律情報から、韻律に関する情報である韻律パラメータ(目標韻律パラメータ)を取得する韻律パラメータ取得手段と、
上記読み情報を音素の並びである音素コンテキストに変換する音素コンテキスト変換手段と、
少なくとも上記音素コンテキストに合成単位で適合する音声素片の候補(音声素片候補)を上記音声情報データベースから探索する音声素片候補探索手段と、
上記音声素片候補から韻律の観点で優れる候補(韻律変形素片候補)を選択する韻律変形素片候補選択手段と、
各上記音声素片候補について、上記音素コンテキストおよび上記目標韻律パラメータと音声素片候補の音素コンテキストおよび韻律パラメータとの適合度を各々サブコストとして計算する音声素片サブコスト計算手段と、
各上記韻律変形素片候補について、上記目標韻律パラメータに応じて韻律変形素片候補を韻律変形することによる音質劣化度を韻律変形サブコストとして計算する韻律変形素片サブコスト計算手段と、
各上記音声素片候補および各上記韻律変形素片候補の各サブコストからなる評価コストが最良となるときの音声素片候補または韻律変形素片候補を、それぞれ選択音声素片、韻律変形対象素片として選択する素片選択手段と、
上記韻律変形対象素片に対応する音声波形データを上記音声波形データベースから読み込み、当該音声波形データを上記目標韻律パラメータに従って韻律変形し韻律変形波形データを生成する韻律変形手段と、
上記選択音声素片に対応する音声波形データを上記音声波形データベースから読み込み、この音声波形データと上記韻律変形波形データを接続して上記合成音声を得る素片接続手段と
を備えた音声合成装置。 - 上記韻律変形素片候補選択手段は、
上記音声素片候補のうち上記目標韻律パラメータと上記音声素片候補の韻律パラメータとの適合度が高いものの中から少なくとも一つの上記韻律変形素片候補を選択するものである
ことを特徴とする請求項1に記載の音声合成装置。 - 上記韻律変形素片候補選択手段は、
上記音声素片候補のうち上記音声素片候補のサブコストであって少なくとも韻律に関するサブコストからなる評価コストが良いものの中から少なくとも一つの上記韻律変形素片候補を選択するものである
ことを特徴とする請求項1に記載の音声合成装置。 - 上記韻律変形素片サブコスト計算手段は、
上記韻律変形手段が行う韻律変形処理と同じ処理で音声に韻律変形を行った韻律変形音声の主観的評価値と上記目標韻律パラメータに対する上記韻律変形素片候補の韻律パラメータの変形倍率との関係から上記韻律変形サブコストを計算するものである
ことを特徴とする請求項1から請求項3のいずれかに記載の音声合成装置。 - 上記韻律変形素片サブコスト計算手段は、
上記韻律変形サブコストが予め定められた閾値を超える場合に、
上記韻律変形サブコストを上記閾値とすると共に、上記目標韻律パラメータを韻律変形素片候補の韻律パラメータに近づけるように定められる許容韻律変形率を上記目標韻律パラメータに乗じた修正韻律パラメータを求めるものであり、
上記韻律変形手段に替えて、
上記韻律変形対象素片に対応する音声波形データを上記音声波形データベースから読み込み、当該音声波形データを上記修正韻律パラメータに従って韻律変形し韻律変形波形データを生成する韻律変形手段を備える
ことを特徴とする請求項1から請求項4のいずれかに記載の音声合成装置。 - 上記音声素片サブコスト計算手段が、上記修正韻律パラメータが算出された場合に、各上記韻律変形素片候補について、上記音素コンテキストおよび上記修正韻律パラメータと韻律変形素片候補の音素コンテキストおよび韻律パラメータとの適合度を各々サブコストとして計算する
ことを特徴とする請求項5に記載の音声合成装置。 - 合成音声を組み立てる上で適切な単位(合成単位)で音声波形データを接続することで、入力されたテキストに対応する合成音声を生成する音声合成方法であって、
記憶手段には、音声波形データの集合である音声波形データベースおよび、少なくとも上記音声波形データの合成単位の韻律に関する情報である韻律パラメータと上記音声波形データベースにおける音声波形データとの対応を示す音声素片からなる音声情報データベースが記憶され、
上記テキストを解析して当該テキストの読み情報および韻律情報を取得するテキスト解析手段と、
上記韻律情報から、韻律に関する情報である韻律パラメータ(目標韻律パラメータ)を取得する韻律パラメータ取得ステップと、
上記読み情報を音素の並びである音素コンテキストに変換する音素コンテキスト変換ステップと、
少なくとも上記音素コンテキストに合成単位で適合する音声素片の候補(音声素片候補)を上記音声情報データベースから探索する音声素片候補探索ステップと、
上記音声素片候補から韻律の観点で優れる候補(韻律変形素片候補)を選択する韻律変形素片候補選択ステップと、
各上記音声素片候補について、上記音素コンテキストおよび上記目標韻律パラメータと音声素片候補の音素コンテキストおよび韻律パラメータとの適合度を各々サブコストとして計算する音声素片サブコスト計算ステップと、
各上記韻律変形素片候補について、上記目標韻律パラメータに応じて韻律変形素片候補を韻律変形することによる音質劣化度を韻律変形サブコストとして計算する韻律変形素片サブコスト計算ステップと、
各上記音声素片候補および各上記韻律変形素片候補の各サブコストからなる評価コストが最良となるときの音声素片候補または韻律変形素片候補を、それぞれ選択音声素片、韻律変形対象素片として選択する素片選択ステップと、
上記韻律変形対象素片に対応する音声波形データを上記音声波形データベースから読み込み、当該音声波形データを上記目標韻律パラメータに従って韻律変形し韻律変形波形データを生成する韻律変形ステップと、
上記選択音声素片に対応する音声波形データを上記音声波形データベースから読み込み、この音声波形データと上記韻律変形波形データを接続して上記合成音声を得る素片接続ステップと
を有する音声合成方法。 - 上記韻律変形素片サブコスト計算ステップは、
上記韻律変形サブコストが予め定められた閾値を超える場合に、
上記韻律変形サブコストを上記閾値とすると共に、上記目標韻律パラメータを韻律変形素片候補の韻律パラメータに近づけるように定められる許容韻律変形率を上記目標韻律パラメータに乗じた修正韻律パラメータを求めるものであり、
上記韻律変形ステップに替えて、
上記韻律変形対象素片に対応する音声波形データを上記音声波形データベースから読み込み、当該音声波形データを上記修正韻律パラメータに従って韻律変形し韻律変形波形データを生成する韻律変形ステップを有する
ことを特徴とする請求項7に記載の音声合成方法。 - 請求項1から請求項6のいずれかに記載された音声合成装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007295895A JP4247289B1 (ja) | 2007-11-14 | 2007-11-14 | 音声合成装置、音声合成方法およびそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007295895A JP4247289B1 (ja) | 2007-11-14 | 2007-11-14 | 音声合成装置、音声合成方法およびそのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP4247289B1 true JP4247289B1 (ja) | 2009-04-02 |
JP2009122381A JP2009122381A (ja) | 2009-06-04 |
Family
ID=40612063
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007295895A Active JP4247289B1 (ja) | 2007-11-14 | 2007-11-14 | 音声合成装置、音声合成方法およびそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4247289B1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5446873B2 (ja) * | 2007-11-28 | 2014-03-19 | 日本電気株式会社 | 音声合成装置、音声合成方法及び音声合成プログラム |
JP5552797B2 (ja) * | 2009-11-09 | 2014-07-16 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
JP5930738B2 (ja) * | 2012-01-31 | 2016-06-08 | 三菱電機株式会社 | 音声合成装置及び音声合成方法 |
JP6234134B2 (ja) * | 2013-09-25 | 2017-11-22 | 三菱電機株式会社 | 音声合成装置 |
-
2007
- 2007-11-14 JP JP2007295895A patent/JP4247289B1/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2009122381A (ja) | 2009-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4080989B2 (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
JP4328698B2 (ja) | 素片セット作成方法および装置 | |
JP4241762B2 (ja) | 音声合成装置、その方法、及びプログラム | |
JP5269668B2 (ja) | 音声合成装置、プログラム、及び方法 | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
CN101131818A (zh) | 语音合成装置与方法 | |
JP5411845B2 (ja) | 音声合成方法、音声合成装置及び音声合成プログラム | |
JPWO2013018294A1 (ja) | 音声合成装置および音声合成方法 | |
US9129596B2 (en) | Apparatus and method for creating dictionary for speech synthesis utilizing a display to aid in assessing synthesis quality | |
JP4247289B1 (ja) | 音声合成装置、音声合成方法およびそのプログラム | |
JP4533255B2 (ja) | 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体 | |
JP4648878B2 (ja) | 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体 | |
JP6170384B2 (ja) | 音声データベース生成システム、音声データベース生成方法、及びプログラム | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP5840075B2 (ja) | 音声波形データベース生成装置、方法、プログラム | |
EP1589524B1 (en) | Method and device for speech synthesis | |
JP2008191477A (ja) | ハイブリッド型音声合成方法、及びその装置とそのプログラムと、その記憶媒体 | |
JP3854593B2 (ja) | 音声合成装置及びそのためのコスト計算装置、並びにコンピュータプログラム | |
Dong et al. | A Unit Selection-based Speech Synthesis Approach for Mandarin Chinese. | |
JP2006084854A (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP6479637B2 (ja) | 文章セット生成装置、文章セット生成方法、プログラム | |
JP3881970B2 (ja) | 知覚試験用音声データセット作成装置、コンピュータプログラム、音声合成用サブコスト関数の最適化装置、及び音声合成装置 | |
EP1640968A1 (en) | Method and device for speech synthesis | |
JPH1097268A (ja) | 音声合成装置 | |
JP4603290B2 (ja) | 音声合成装置および音声合成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081224 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090109 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4247289 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120116 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130116 Year of fee payment: 4 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |