JP5840075B2 - 音声波形データベース生成装置、方法、プログラム - Google Patents
音声波形データベース生成装置、方法、プログラム Download PDFInfo
- Publication number
- JP5840075B2 JP5840075B2 JP2012126349A JP2012126349A JP5840075B2 JP 5840075 B2 JP5840075 B2 JP 5840075B2 JP 2012126349 A JP2012126349 A JP 2012126349A JP 2012126349 A JP2012126349 A JP 2012126349A JP 5840075 B2 JP5840075 B2 JP 5840075B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- data
- waveform database
- voice
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Electrically Operated Instructional Devices (AREA)
Description
音声データ101は、音声波形データベース104の構築に使用される音声データであり、あらかじめ用意されている。
音声データ101には、例えば一名の話者によるN個の発話の音声信号と当該音声信号に対する信号処理によって得られた音声パラメータ(例えば、音高パラメータ(基本周波数F0等)、スペクトルパラメータ(ケプストラム、メルケプストラム等))が保持されている。なお、音声データ101には、後の音声合成に必要な各音声合成単位に対応した音声パラメータ(スペクトル、F0等)が含まれていることが望ましい。
発話情報データ102は、音声データ101中の各発話音声に対して付与された音声合成単位ごとの発音等の情報(以下、発話情報という)の集合体である。音声データ101中の各発話音声には、一つの発話情報が付与されている。この発話情報には、少なくとも各音声合成単位の開始時間、終了時間の情報(セグメンテーション情報;音声合成単位が音素の場合、「音素セグメンテーション情報」に相当する)が含まれている。この開始・終了時間は、各発話音声の始点を0[秒]とした時の経過時間である。音素セグメンテーション情報の例を図2に示す。なお、発話情報は、音素セグメンテーション情報以外にもアクセント情報(アクセント型、アクセント句長)、品詞情報等を含んでいてもよい。
モデル学習部201は、音声データ101と発話情報データ102を用いてHMMを学習することによって音声合成用HMM103を得る。ここでのHMMの学習方法として従来技術を用いることができる[例えば非特許文献1参照]。音声合成用HMM103は、各音声合成単位を複数の状態を持つモデルとして表現しており、各モデルパラメータをμ→ ijとする。このμ→ ijはi番目の音声合成単位のHMMにおけるj番目の状態の音声パラメータの平均ベクトルであり、通常、多次元のベクトルで表現される(j=1,…,Si:Siはi番目の音声合成単位を表現するHMMに含まれる状態数)。また、このモデルパラメータには平均ベクトルだけでなく、分散や動的パラメータの平均ベクトル、分散を保存しておいてもよい。
なお、モデル学習部201によって学習されるモデルはHMMである必要はなく、各音声合成単位を複数の状態で表現できるモデル(例えばマルコフモデル等)であればよい。
音声DB構築部202は、モデル学習部201によって得られた音声合成用HMM103から生成した音声パラメータ(スペクトル、F0等)と学習に使用した音声データ101の音声パラメータ(スペクトル、F0等)とを用いて新たに音声波形を生成し、これらを音声波形データベース104として保存する。
音声DB構築部202による処理の内容の一例を以下に説明する(図3、図4参照)。
まず、音声DB構築部202の音声パラメータ生成部202aは、i番目の発話情報(i=1,…,N:Nは音声データ101に含まれる発話数)を用いて、モデル学習部201によって得られた音声合成用HMM103から、i番目の発話情報と同一のセグメンテーション情報を持つ音声パラメータ(スペクトル、F0等)を生成する。
次に、音声DB構築部202の音声パラメータ算出部202bは、音声パラメータ104aとモデル学習部201が使用した音声データ101とを用いて、i番目の発話音声について新たな重み付き音声パラメータを算出する。音声パラメータ104aにおいてi番目の発話音声のjフレーム目(j=1,…,Fi:Fiはi番目の発話音声に含まれるフレーム数)に対応する音声パラメータをs→ ij、音声データ101においてi番目の発話音声のjフレーム目に対応する音声パラメータをv→ ijとすると、新しく算出するi番目の発話音声のjフレーム目に対応する重み付き音声パラメータv→ ij'はs→ ijとv→ ijの重み付け和(以下の式)として求められる。重みαについては後述する。
v→ ij'=α・v→ ij+(1−α)・s→ ij (j=1,…,Fi)
次に、音声DB構築部202の音声波形生成部202cは、音声パラメータ算出部202bによって算出されたi番目の発話音声の重み付き音声パラメータ(スペクトル、F0等)v→ ij'(j=1,…,Fi)と、音声合成フィルタを用いて音声波形を生成する。このような音声合成フィルタとして従来技術を用いることができる(例えば、参考文献A参照)。
(参考文献A)今井他,“音声合成のためのメル対数スペクトル近似(MLSA)フィルタ”,電子情報通信学会論文誌 A Vol.J66-A No.2 pp.122-129, Feb. 1983.
重みαは、新たな音声パラメータを算出するための重み係数であり、0以上1以下の数値で表現される。
重みαの値が小さい場合は、新たに生成される音声パラメータは、音声合成用HMM103から生成した音声パラメータとほぼ同様の特徴量を持つため、音声データ量が数分程度の如く少量の場合でも、HMM音声合成方式と同様に安定した品質の合成音声を生成することが可能である。
他方、重みαの値が1に近い場合は、元の音声データ101における音声パラメータとほぼ同一の音声パラメータが生成される。従って、素片接続型音声合成方式と同様に、音声データ量が数時間程度の如く多量であれば、高品質な合成音声を生成することが可能となる。
つまり、重みαを音声データ量に応じて動的に設定することによって、音声データ量が十分に多くはない場合にはHMM音声合成方式と同様に安定した品質の合成音声を生成することができ、音声データ量が十分に多い場合にはHMM音声合成方式よりも高品質な合成音声を生成できるようになる。
(a)音声データの時間長を使用
音声波形データベース104の構築に使用された音声データ101に含まれる発話音声の総時間長をlen[sec]、素片接続型音声合成方式において十分に良好な品質が得られる音声時間長をL[sec]とした場合、重みαを以下の式に従って算出する。ここで、Lはあらかじめ与えられる定数であり、一般的な素片接続型音声合成方式では、7200〜18000[sec](2時間〜5時間程度)にすることが望ましい。
(a)による設定では、全ての音声合成単位に対して、同一の重みαが設定されるため、音声合成単位ごとの音声データ量に偏りがある場合、合成音声の品質が低下する可能性がある。このため、音声合成単位ごとに重みαを算出するために、音声データに含まれる音声合成単位数を重みαの計算に使用する。音声合成単位jの音声データに含まれる音声合成単位数をnj、素片接続型音声合成方式において十分に良好な品質が得られる音声合成単位数をNjとした場合、重みαを以下の式に従って算出する。ここで、Njはあらかじめ与えられる定数であり、一般的な素片接続型音声合成方式では、母音や有声子音では500〜1000、無声子音では100程度にすることが望ましい。
図5を参照して、音声波形データベース104を使用して音声合成を行う音声合成装置2の一例を説明する。この素片接続型音声合成方式の処理の概要を以下に説明する。
韻律生成部502は、テキスト解析よって得られた情報902と予め与えられている韻律モデル903とを用いて韻律生成を行い、韻律パラメータ(F0、音素継続長など)904を得る。
素片選択接続部503は、テキスト解析よって得られた情報902と韻律パラメータ904と音声波形データベース104を用いて、最も適切な音声素片を選択し、それらを接続することによってテキスト901に対応する合成音声905を生成する。
或る音声素片候補の総合コストPは、一般的に、以下のようなサブコスト関数の重みづけ和として表される。
韻律パラメータのF0平均値Vpと、音声素片候補のF0平均値Vsに対応するサブコスト関数は以下の式で表される。
C1(Vp,Vs)=(Vp-Vs)2
韻律パラメータのF0の傾きFpと、音声素片候補のF0の傾きFsに対応するサブコスト関数は以下の式で表される。
C2(Fp,Fs)=(Fp-Fs)2
韻律パラメータの音素継続時間長Tpと、音声素片候補の音素継続時間長Tsに対応するサブコスト関数は以下の式で表される。
C3(Tp,Ts)=(Tp-Ts)2
上述の実施形態に関わる音声波形データベース生成装置は、CPU(Central Processing Unit)やDSP(Digital Sygnal Processor)〔キャッシュメモリなどを備えていてもよい。〕、メモリであるRAM(Random Access Memory)やROM(Read Only Memory)と、ハードディスクである外部記憶装置、並びにこれらのCPUやDSP、RAMやROM、外部記憶装置間のデータのやり取りが可能なように接続するバスなどを備えている。また必要に応じて、音声波形データベース生成装置に、CD−ROMなどの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
Claims (6)
- 音声素片を接続することで合成音声を生成する素片接続型音声合成方式に用いられる音声波形データベースを生成する音声波形データベース生成装置であって、
各発話音声の音声パラメータを保持している音声データと、当該音声データ中の各発話音声に対応する発話情報の集合(発話情報データ)とを用いて、各音声合成単位を複数の状態で表現できるモデルを学習することによって音声合成用モデルを得るモデル学習部と、
上記音声合成用モデルから生成した音声パラメータと上記音声データに含まれる音声パラメータとの重み付き和で表された重み付き音声パラメータを用いて生成した音声波形を保存して上記音声波形データベースを構築する音声波形データベース構築部と
を含む音声波形データベース生成装置。 - 請求項1に記載の音声波形データベース生成装置であって、
上記音声波形データベース構築部は、
上記音声データのデータ量が多いほど、上記音声合成用モデルから生成した音声パラメータに対する重みAが、上記音声データに含まれる音声パラメータに対する重みBよりも小さくなるように、各重みを設定する
ことを特徴とする音声波形データベース生成装置。 - 請求項2に記載の音声波形データベース生成装置であって、
上記音声波形データベース構築部は、
上記発話情報データに含まれる発話情報と上記音声合成用モデルに含まれる音声パラメータとを用いて、各発話音声に対応する音声パラメータを生成する音声パラメータ生成部と、
各発話音声ごとに、上記音声パラメータ生成部によって生成された音声パラメータに重みAを乗じたものと上記音声データに含まれる音声パラメータに重みBを乗じたものとの和で表される上記重み付き音声パラメータを求める音声パラメータ算出部と、
上記重み付き音声パラメータと音声合成フィルタを用いて音声波形を生成する音声波形生成部と
を含むことを特徴とする音声波形データベース生成装置。 - 請求項2または請求項3に記載の音声波形データベース生成装置であって、
上記各重みの設定に、上記音声データに含まれる発話音声の総時間長、または、上記音声データに含まれる音声合成単位数を用いる
ことを特徴とする音声波形データベース生成装置。 - 音声素片を接続することで合成音声を生成する素片接続型音声合成方式に用いられる音声波形データベースを生成する音声波形データベース生成方法であって、
各発話音声の音声パラメータを保持している音声データと、当該音声データ中の各発話音声に対応する発話情報の集合(発話情報データ)とを用いて、各音声合成単位を複数の状態で表現できるモデルを学習することによって音声合成用モデルを得るモデル学習ステップと、
上記音声合成用モデルから生成した音声パラメータと上記音声データに含まれる音声パラメータとの重み付き和で表された重み付き音声パラメータを用いて生成した音声波形を保存して上記音声波形データベースを構築する音声波形データベース構築ステップと
を有する音声波形データベース生成方法。 - コンピュータを、請求項1から請求項4のいずれかに記載の音声波形データベース生成装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012126349A JP5840075B2 (ja) | 2012-06-01 | 2012-06-01 | 音声波形データベース生成装置、方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012126349A JP5840075B2 (ja) | 2012-06-01 | 2012-06-01 | 音声波形データベース生成装置、方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013250486A JP2013250486A (ja) | 2013-12-12 |
JP5840075B2 true JP5840075B2 (ja) | 2016-01-06 |
Family
ID=49849214
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012126349A Expired - Fee Related JP5840075B2 (ja) | 2012-06-01 | 2012-06-01 | 音声波形データベース生成装置、方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5840075B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017046887A1 (ja) * | 2015-09-16 | 2017-03-23 | 株式会社東芝 | 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム |
US11302301B2 (en) * | 2020-03-03 | 2022-04-12 | Tencent America LLC | Learnable speed control for speech synthesis |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3061292B2 (ja) * | 1991-03-18 | 2000-07-10 | 日本電信電話株式会社 | アクセント句境界検出装置 |
JP3089715B2 (ja) * | 1991-07-24 | 2000-09-18 | 松下電器産業株式会社 | 音声合成装置 |
US6275798B1 (en) * | 1998-09-16 | 2001-08-14 | Telefonaktiebolaget L M Ericsson | Speech coding with improved background noise reproduction |
JP4654615B2 (ja) * | 2004-06-24 | 2011-03-23 | ヤマハ株式会社 | 音声効果付与装置及び音声効果付与プログラム |
JP4534769B2 (ja) * | 2005-01-24 | 2010-09-01 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JP2011028131A (ja) * | 2009-07-28 | 2011-02-10 | Panasonic Electric Works Co Ltd | 音声合成装置 |
JP5320363B2 (ja) * | 2010-03-26 | 2013-10-23 | 株式会社東芝 | 音声編集方法、装置及び音声合成方法 |
-
2012
- 2012-06-01 JP JP2012126349A patent/JP5840075B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013250486A (ja) | 2013-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6622505B2 (ja) | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム | |
JP5148026B1 (ja) | 音声合成装置および音声合成方法 | |
US8626510B2 (en) | Speech synthesizing device, computer program product, and method | |
JP6680933B2 (ja) | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム | |
JP5039865B2 (ja) | 声質変換装置及びその方法 | |
JP6452591B2 (ja) | 合成音声品質評価装置、合成音声品質評価方法、プログラム | |
JP5807921B2 (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
Vegesna et al. | Prosody modification for speech recognition in emotionally mismatched conditions | |
JP6631883B2 (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
JP4829871B2 (ja) | 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体 | |
JP5840075B2 (ja) | 音声波形データベース生成装置、方法、プログラム | |
JP4247289B1 (ja) | 音声合成装置、音声合成方法およびそのプログラム | |
JP4533255B2 (ja) | 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体 | |
JP4648878B2 (ja) | 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体 | |
JP6006678B2 (ja) | 音声モデル生成装置、方法、プログラム | |
Ni et al. | Quantitative and structural modeling of voice fundamental frequency contours of speech in Mandarin | |
JP5722295B2 (ja) | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム | |
JP6000326B2 (ja) | 音声合成モデル学習装置、音声合成装置、音声合成モデル学習方法、音声合成方法、およびプログラム | |
AU2015397951A1 (en) | System and method for outlier identification to remove poor alignments in speech synthesis | |
JP6137708B2 (ja) | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP5155836B2 (ja) | 収録テキスト生成装置、その方法、そのプログラム | |
JP6479637B2 (ja) | 文章セット生成装置、文章セット生成方法、プログラム | |
JP6495781B2 (ja) | 音声パラメータ生成装置、音声パラメータ生成方法、プログラム | |
JP2018004997A (ja) | 音声合成装置及びプログラム | |
JP2006084854A (ja) | 音声合成装置、音声合成方法および音声合成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140813 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150414 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150428 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150610 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151104 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151110 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5840075 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |