JP5840075B2 - 音声波形データベース生成装置、方法、プログラム - Google Patents

音声波形データベース生成装置、方法、プログラム Download PDF

Info

Publication number
JP5840075B2
JP5840075B2 JP2012126349A JP2012126349A JP5840075B2 JP 5840075 B2 JP5840075 B2 JP 5840075B2 JP 2012126349 A JP2012126349 A JP 2012126349A JP 2012126349 A JP2012126349 A JP 2012126349A JP 5840075 B2 JP5840075 B2 JP 5840075B2
Authority
JP
Japan
Prior art keywords
speech
data
waveform database
voice
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012126349A
Other languages
English (en)
Other versions
JP2013250486A (ja
Inventor
勇祐 井島
勇祐 井島
水野 秀之
秀之 水野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012126349A priority Critical patent/JP5840075B2/ja
Publication of JP2013250486A publication Critical patent/JP2013250486A/ja
Application granted granted Critical
Publication of JP5840075B2 publication Critical patent/JP5840075B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

本発明は、音声合成に用いられる音声波形データベースの構築技術に関する。
近年、主流となっている音声合成方式として、肉声に近い高品質な音声を合成できる素片接続型音声合成方式[例えば特許文献1参照]や、素片接続型音声合成方式よりも品質は劣るが少量の音声データからでも安定した品質の音声を合成することができるHMM(隠れマルコフモデル)音声合成方式[例えば非特許文献1参照]が提案されている。
素片接続型音声合成方式では、あらかじめ収録された数時間から数十時間程度の大量の音声データから、音声合成単位(音節、音素等)ごとに多数の音声素片を持つ音声波形データベースが構築される。音声合成時には、構築された音声波形データベースから、合成したい音声の条件(文章、声の高さ、前後の音素環境、発話速度等)に最も適合する音声素片を音声合成単位ごとに選択し、選択された音声素片を接続することによって高品質な音声の合成を可能としている。
他方、HMM音声合成方式では、音声データから抽出された音声合成単位(音節、音素等)をHMMでモデル化したときのモデルパラメータ(スペクトル、F0など)が音声合成単位ごとに平均化(平滑化)されており、音声合成単位ごとに一つの音声モデル(HMM)が用意されている。これによって、少量の音声データを用いる場合でも、肉声感は低いが安定した品質の音声の合成を可能としている。
特許第2761552号公報
益子他、"動的特徴を用いたHMMに基づく音声合成"、信学論、vol.J79-D-II、no.12、pp.2184-2190、Dec. 1996.
素片接続型音声合成方式の音声波形データベースは、音声波形データベースの構築時に使用できる音声データ量が少量の場合、音声素片の接続箇所において異音が生じる等の合成音声の品質が安定しないという課題がある。
他方、HMM音声合成方式の音声モデルでは、使用できる音声データ量が数時間〜数十時間の如く大量にある場合でも、平均化の影響によって、合成音声の品質が向上しないという課題がある。
本発明は、このような課題に鑑み、音声データ量が少量の場合であっても安定した品質の音声の合成を可能とする音声波形データベースの構築技術を提供することを目的とする。
各発話音声の音声パラメータを保持している音声データと、当該音声データ中の各発話音声に対応する発話情報の集合(発話情報データ)とを用いて、各音声合成単位を複数の状態で表現できるモデルを学習することによって音声合成用モデルを得る。そして、音声合成用モデルから生成した音声パラメータと音声データに含まれる音声パラメータとの重み付き和で表された重み付き音声パラメータを用いて音声波形を生成する。
音声データのデータ量が多いほど、音声合成用モデルから生成した音声パラメータに対する重みAが、音声データに含まれる音声パラメータに対する重みBよりも小さくなるように、各重みを設定するようにしてもよい。
例えば、発話情報データに含まれる発話情報と音声合成用モデルに含まれる音声パラメータとを用いて、各発話音声に対応する音声パラメータを生成し、発話音声ごとに、生成された音声パラメータに重みAを乗じたものと音声データに含まれる音声パラメータに重みBを乗じたものとの和で表される上記重み付き音声パラメータを求め、重み付き音声パラメータと音声合成フィルタを用いて音声波形を生成する。
なお、各重みの設定に、音声データに含まれる発話音声の総時間長、または、音声データに含まれる音声合成単位数を用いるようにしてもよい。
本発明によると、使用できる音声データ量が少量の場合、HMM音声合成方式と同様に安定した音声波形を生成することができるため、合成音声の品質が通常の素片接続型音声合成方式よりも安定する。また、大量の音声データを使用できる場合、素片接続型音声合成方式と同様に肉声に近い高品質な音声波形を生成することができるため、HMM音声合成方式より合成音声の品質が向上する。
実施形態の機能構成図。 音素セグメンテーション情報の一例。 音声波形データベース構築部の具体的な機能構成の一例。 音声波形データベース構築処理の具体的な処理フローの一例。 実施形態で得られた音声波形データベースを用いた音声合成装置の機能構成の一例。
図面を参照しながら本発明の実施形態を説明する。各形態に共通の構成要素には同じ符号を割り当てて重複説明を省略することとする。
本発明の実施形態において、「音声合成単位」として音素、音節、半音節などを例示できる。例えば音声合成単位を音素として実施する場合には、以下の説明において、「音声合成単位」を「音素」に読み替えればよい。
この実施形態の音声波形データベース生成装置1は、音声データ101と発話情報データ102を用いた学習によって音声合成用HMM103を得るモデル学習部201と、学習によって得られた音声合成用HMM103のパラメータ(スペクトル、F0等)と学習に使用した音声データ101のパラメータ(スペクトル、F0等)とを用いて新たに音声波形データベース104を生成する音声波形データベース構築部(以下、音声DB構築部と略記する)202と、音声データ101、発話情報データ102、音声合成用HMM103、音声波形データベース104を記憶する記憶部(図示せず)を含む(図1参照)。
<音声データ>
音声データ101は、音声波形データベース104の構築に使用される音声データであり、あらかじめ用意されている。
音声データ101には、例えば一名の話者によるN個の発話の音声信号と当該音声信号に対する信号処理によって得られた音声パラメータ(例えば、音高パラメータ(基本周波数F0等)、スペクトルパラメータ(ケプストラム、メルケプストラム等))が保持されている。なお、音声データ101には、後の音声合成に必要な各音声合成単位に対応した音声パラメータ(スペクトル、F0等)が含まれていることが望ましい。
<発話情報>
発話情報データ102は、音声データ101中の各発話音声に対して付与された音声合成単位ごとの発音等の情報(以下、発話情報という)の集合体である。音声データ101中の各発話音声には、一つの発話情報が付与されている。この発話情報には、少なくとも各音声合成単位の開始時間、終了時間の情報(セグメンテーション情報;音声合成単位が音素の場合、「音素セグメンテーション情報」に相当する)が含まれている。この開始・終了時間は、各発話音声の始点を0[秒]とした時の経過時間である。音素セグメンテーション情報の例を図2に示す。なお、発話情報は、音素セグメンテーション情報以外にもアクセント情報(アクセント型、アクセント句長)、品詞情報等を含んでいてもよい。
なお、音声波形データベース生成装置1は、図1に図示されるように別個のデータとして用意された音声データ101および発話情報データ102を用いることに限定されず、例えば、音声データ101中において各発話音声に対して発話情報が付与されたデータ構造を有する、つまり音声データと発話情報との対応関係が記述されたデータ構造を有する一つの音声-発話情報データを用いることもできる。
<モデル学習>
モデル学習部201は、音声データ101と発話情報データ102を用いてHMMを学習することによって音声合成用HMM103を得る。ここでのHMMの学習方法として従来技術を用いることができる[例えば非特許文献1参照]。音声合成用HMM103は、各音声合成単位を複数の状態を持つモデルとして表現しており、各モデルパラメータをμ ijとする。このμ ijはi番目の音声合成単位のHMMにおけるj番目の状態の音声パラメータの平均ベクトルであり、通常、多次元のベクトルで表現される(j=1,…,Si:Siはi番目の音声合成単位を表現するHMMに含まれる状態数)。また、このモデルパラメータには平均ベクトルだけでなく、分散や動的パラメータの平均ベクトル、分散を保存しておいてもよい。
なお、モデル学習部201によって学習されるモデルはHMMである必要はなく、各音声合成単位を複数の状態で表現できるモデル(例えばマルコフモデル等)であればよい。
<音声波形データベースの構築>
音声DB構築部202は、モデル学習部201によって得られた音声合成用HMM103から生成した音声パラメータ(スペクトル、F0等)と学習に使用した音声データ101の音声パラメータ(スペクトル、F0等)とを用いて新たに音声波形を生成し、これらを音声波形データベース104として保存する。
音声DB構築部202による処理の内容の一例を以下に説明する(図3、図4参照)。
(1)音声パラメータの生成
まず、音声DB構築部202の音声パラメータ生成部202aは、i番目の発話情報(i=1,…,N:Nは音声データ101に含まれる発話数)を用いて、モデル学習部201によって得られた音声合成用HMM103から、i番目の発話情報と同一のセグメンテーション情報を持つ音声パラメータ(スペクトル、F0等)を生成する。
音声パラメータの生成には、まずi番目の発話情報中のセグメンテーション情報を用いて、i番目の発話音声に含まれるp番目の音声合成単位を表現するモデル(HMM)に含まるs番目の状態(p=1,…,Pi:Piはi番目の発話音声に含まれる音素数)のフレーム数を求める。各状態のフレーム数の算出は、p番目の音声合成単位の継続時間長(終了時間−開始時間)を状態数Spで等分することにより行う。
次に、i番目の発話音声に含まれるp番目の音声合成単位を表現するモデル(HMM)に含まるs番目の状態のパラメータの平均ベクトルμ psを、求めたフレーム数だけ並べる。この処理を、s=1,…,Sp、p=1,…,Piについて行い、全てのフレームを連結することによって、i番目の発話音声の音声パラメータ系列を得る。
最後に、i番目の発話音声の音声パラメータ系列に対して補間を行い、i番目の発話音声に対応する音声パラメータ104aを得る。音声パラメータ系列の補間には、スプライン補間のような一般的な補間手法を用いることができるが、非特許文献1に開示された技術事項のようにモデルに保存されている動的特徴量と分散を用いることが一般的である。
(2)音声パラメータの算出
次に、音声DB構築部202の音声パラメータ算出部202bは、音声パラメータ104aとモデル学習部201が使用した音声データ101とを用いて、i番目の発話音声について新たな重み付き音声パラメータを算出する。音声パラメータ104aにおいてi番目の発話音声のjフレーム目(j=1,…,Fi:Fiはi番目の発話音声に含まれるフレーム数)に対応する音声パラメータをs ij、音声データ101においてi番目の発話音声のjフレーム目に対応する音声パラメータをv ijとすると、新しく算出するi番目の発話音声のjフレーム目に対応する重み付き音声パラメータv ij'はs ijとv ijの重み付け和(以下の式)として求められる。重みαについては後述する。
v ij'=α・v ij+(1−α)・s ij (j=1,…,Fi
(3)音声波形生成
次に、音声DB構築部202の音声波形生成部202cは、音声パラメータ算出部202bによって算出されたi番目の発話音声の重み付き音声パラメータ(スペクトル、F0等)v ij'(j=1,…,Fi)と、音声合成フィルタを用いて音声波形を生成する。このような音声合成フィルタとして従来技術を用いることができる(例えば、参考文献A参照)。
(参考文献A)今井他,“音声合成のためのメル対数スペクトル近似(MLSA)フィルタ”,電子情報通信学会論文誌 A Vol.J66-A No.2 pp.122-129, Feb. 1983.
各i(i=1,…,N)について上記(1)−(3)の処理が行われることによって、音声データ101に含まれる全ての発話音声に対応して生成された音声波形が音声波形データベース104として記憶部に保存される。
なお、上記の処理において発話情報は一切変更されないため、音声合成の処理には一切影響がない。このため、素片接続型音声合成方式に限定されることなく、音声波形データベース104を利用することが可能である。
<重みα>
重みαは、新たな音声パラメータを算出するための重み係数であり、0以上1以下の数値で表現される。
重みαの値が小さい場合は、新たに生成される音声パラメータは、音声合成用HMM103から生成した音声パラメータとほぼ同様の特徴量を持つため、音声データ量が数分程度の如く少量の場合でも、HMM音声合成方式と同様に安定した品質の合成音声を生成することが可能である。
他方、重みαの値が1に近い場合は、元の音声データ101における音声パラメータとほぼ同一の音声パラメータが生成される。従って、素片接続型音声合成方式と同様に、音声データ量が数時間程度の如く多量であれば、高品質な合成音声を生成することが可能となる。
つまり、重みαを音声データ量に応じて動的に設定することによって、音声データ量が十分に多くはない場合にはHMM音声合成方式と同様に安定した品質の合成音声を生成することができ、音声データ量が十分に多い場合にはHMM音声合成方式よりも高品質な合成音声を生成できるようになる。
重みαの算出方法として、以下に2つの例を説明する。
(a)音声データの時間長を使用
音声波形データベース104の構築に使用された音声データ101に含まれる発話音声の総時間長をlen[sec]、素片接続型音声合成方式において十分に良好な品質が得られる音声時間長をL[sec]とした場合、重みαを以下の式に従って算出する。ここで、Lはあらかじめ与えられる定数であり、一般的な素片接続型音声合成方式では、7200〜18000[sec](2時間〜5時間程度)にすることが望ましい。
Figure 0005840075
(b)音声データに含まれる音声合成単位数を使用
(a)による設定では、全ての音声合成単位に対して、同一の重みαが設定されるため、音声合成単位ごとの音声データ量に偏りがある場合、合成音声の品質が低下する可能性がある。このため、音声合成単位ごとに重みαを算出するために、音声データに含まれる音声合成単位数を重みαの計算に使用する。音声合成単位jの音声データに含まれる音声合成単位数をnj、素片接続型音声合成方式において十分に良好な品質が得られる音声合成単位数をNjとした場合、重みαを以下の式に従って算出する。ここで、Njはあらかじめ与えられる定数であり、一般的な素片接続型音声合成方式では、母音や有声子音では500〜1000、無声子音では100程度にすることが望ましい。
Figure 0005840075
<音声波形データベース104を用いた音声合成の例>
図5を参照して、音声波形データベース104を使用して音声合成を行う音声合成装置2の一例を説明する。この素片接続型音声合成方式の処理の概要を以下に説明する。
テキスト解析部501は、入力された音声合成対象のテキスト901に対してテキスト解析を行い、テキスト901の読み、アクセント等の情報902を得る。
韻律生成部502は、テキスト解析よって得られた情報902と予め与えられている韻律モデル903とを用いて韻律生成を行い、韻律パラメータ(F0、音素継続長など)904を得る。
素片選択接続部503は、テキスト解析よって得られた情報902と韻律パラメータ904と音声波形データベース104を用いて、最も適切な音声素片を選択し、それらを接続することによってテキスト901に対応する合成音声905を生成する。
なお、素片選択処理では、一般的にコスト最小となる素片が選択される(例えば、特許文献1参照)。以下に、素片選択処理の概要を説明する。
或る音声素片候補の総合コストPは、一般的に、以下のようなサブコスト関数の重みづけ和として表される。
Figure 0005840075
ここで、Ciはサブコスト関数、wiは各サブコスト関数に対する重みであり、Dはサブコスト関数の数である。このサブコスト関数として一般的に使用されるものとして、F0平均値、F0の傾き、音素継続時間長等が挙げられる。以下にその例を示す。
・F0平均値
韻律パラメータのF0平均値Vpと、音声素片候補のF0平均値Vsに対応するサブコスト関数は以下の式で表される。
C1(Vp,Vs)=(Vp-Vs)2
・F0の傾き
韻律パラメータのF0の傾きFpと、音声素片候補のF0の傾きFsに対応するサブコスト関数は以下の式で表される。
C2(Fp,Fs)=(Fp-Fs)2
・音素継続時間長
韻律パラメータの音素継続時間長Tpと、音声素片候補の音素継続時間長Tsに対応するサブコスト関数は以下の式で表される。
C3(Tp,Ts)=(Tp-Ts)2
<音声波形データベース生成装置のハードウェア構成例>
上述の実施形態に関わる音声波形データベース生成装置は、CPU(Central Processing Unit)やDSP(Digital Sygnal Processor)〔キャッシュメモリなどを備えていてもよい。〕、メモリであるRAM(Random Access Memory)やROM(Read Only Memory)と、ハードディスクである外部記憶装置、並びにこれらのCPUやDSP、RAMやROM、外部記憶装置間のデータのやり取りが可能なように接続するバスなどを備えている。また必要に応じて、音声波形データベース生成装置に、CD−ROMなどの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。
音声波形データベース生成装置の外部記憶装置には、上述の音声波形データベース生成処理のためのプログラム並びにこのプログラムの処理において必要となるデータ(音声データ、発話情報データ等)などが記憶されている〔外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくなどでもよい。〕。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される場合がある。データやその格納領域のアドレスなどを記憶する記憶装置を単に「記憶部」と呼ぶことにする。
音声波形データベース生成装置の記憶部には、音声データと発話情報データとを用いて、各音声合成単位を複数の状態で表現できるモデルを学習することによって音声合成用モデルを得るためのプログラムと、音声合成用モデルから生成した音声パラメータと音声データに含まれる音声パラメータとの重み付き和で表された重み付き音声パラメータを用いて音声波形を生成するためのプログラムなどが記憶されている。
音声波形データベース生成装置では、記憶部に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAMに読み込まれて、CPUで解釈実行・処理される。この結果、CPUが所定の機能(モデル学習部、音声DB構成部など)を実現することで上述の音声波形データベースの構築が実現される。
<補記>
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記実施形態において説明したハードウェアエンティティ(音声波形データベース生成装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (6)

  1. 音声素片を接続することで合成音声を生成する素片接続型音声合成方式に用いられる音声波形データベースを生成する音声波形データベース生成装置であって、
    各発話音声の音声パラメータを保持している音声データと、当該音声データ中の各発話音声に対応する発話情報の集合(発話情報データ)とを用いて、各音声合成単位を複数の状態で表現できるモデルを学習することによって音声合成用モデルを得るモデル学習部と、
    上記音声合成用モデルから生成した音声パラメータと上記音声データに含まれる音声パラメータとの重み付き和で表された重み付き音声パラメータを用いて生成した音声波形を保存して上記音声波形データベースを構築する音声波形データベース構築部と
    を含む音声波形データベース生成装置。
  2. 請求項1に記載の音声波形データベース生成装置であって、
    上記音声波形データベース構築部は、
    上記音声データのデータ量が多いほど、上記音声合成用モデルから生成した音声パラメータに対する重みAが、上記音声データに含まれる音声パラメータに対する重みBよりも小さくなるように、各重みを設定する
    ことを特徴とする音声波形データベース生成装置。
  3. 請求項2に記載の音声波形データベース生成装置であって、
    上記音声波形データベース構築部は、
    上記発話情報データに含まれる発話情報と上記音声合成用モデルに含まれる音声パラメータとを用いて、各発話音声に対応する音声パラメータを生成する音声パラメータ生成部と、
    各発話音声ごとに、上記音声パラメータ生成部によって生成された音声パラメータに重みAを乗じたものと上記音声データに含まれる音声パラメータに重みBを乗じたものとの和で表される上記重み付き音声パラメータを求める音声パラメータ算出部と、
    上記重み付き音声パラメータと音声合成フィルタを用いて音声波形を生成する音声波形生成部と
    を含むことを特徴とする音声波形データベース生成装置。
  4. 請求項2または請求項3に記載の音声波形データベース生成装置であって、
    上記各重みの設定に、上記音声データに含まれる発話音声の総時間長、または、上記音声データに含まれる音声合成単位数を用いる
    ことを特徴とする音声波形データベース生成装置。
  5. 音声素片を接続することで合成音声を生成する素片接続型音声合成方式に用いられる音声波形データベースを生成する音声波形データベース生成方法であって、
    各発話音声の音声パラメータを保持している音声データと、当該音声データ中の各発話音声に対応する発話情報の集合(発話情報データ)とを用いて、各音声合成単位を複数の状態で表現できるモデルを学習することによって音声合成用モデルを得るモデル学習ステップと、
    上記音声合成用モデルから生成した音声パラメータと上記音声データに含まれる音声パラメータとの重み付き和で表された重み付き音声パラメータを用いて生成した音声波形を保存して上記音声波形データベースを構築する音声波形データベース構築ステップと
    を有する音声波形データベース生成方法。
  6. コンピュータを、請求項1から請求項4のいずれかに記載の音声波形データベース生成装置として機能させるためのプログラム。
JP2012126349A 2012-06-01 2012-06-01 音声波形データベース生成装置、方法、プログラム Expired - Fee Related JP5840075B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012126349A JP5840075B2 (ja) 2012-06-01 2012-06-01 音声波形データベース生成装置、方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012126349A JP5840075B2 (ja) 2012-06-01 2012-06-01 音声波形データベース生成装置、方法、プログラム

Publications (2)

Publication Number Publication Date
JP2013250486A JP2013250486A (ja) 2013-12-12
JP5840075B2 true JP5840075B2 (ja) 2016-01-06

Family

ID=49849214

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012126349A Expired - Fee Related JP5840075B2 (ja) 2012-06-01 2012-06-01 音声波形データベース生成装置、方法、プログラム

Country Status (1)

Country Link
JP (1) JP5840075B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017046887A1 (ja) * 2015-09-16 2017-03-23 株式会社東芝 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム
US11302301B2 (en) * 2020-03-03 2022-04-12 Tencent America LLC Learnable speed control for speech synthesis

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3061292B2 (ja) * 1991-03-18 2000-07-10 日本電信電話株式会社 アクセント句境界検出装置
JP3089715B2 (ja) * 1991-07-24 2000-09-18 松下電器産業株式会社 音声合成装置
US6275798B1 (en) * 1998-09-16 2001-08-14 Telefonaktiebolaget L M Ericsson Speech coding with improved background noise reproduction
JP4654615B2 (ja) * 2004-06-24 2011-03-23 ヤマハ株式会社 音声効果付与装置及び音声効果付与プログラム
JP4534769B2 (ja) * 2005-01-24 2010-09-01 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2011028131A (ja) * 2009-07-28 2011-02-10 Panasonic Electric Works Co Ltd 音声合成装置
JP5320363B2 (ja) * 2010-03-26 2013-10-23 株式会社東芝 音声編集方法、装置及び音声合成方法

Also Published As

Publication number Publication date
JP2013250486A (ja) 2013-12-12

Similar Documents

Publication Publication Date Title
JP6622505B2 (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
JP5148026B1 (ja) 音声合成装置および音声合成方法
US8626510B2 (en) Speech synthesizing device, computer program product, and method
JP6680933B2 (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
JP5039865B2 (ja) 声質変換装置及びその方法
JP6452591B2 (ja) 合成音声品質評価装置、合成音声品質評価方法、プログラム
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
Vegesna et al. Prosody modification for speech recognition in emotionally mismatched conditions
JP6631883B2 (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム
JP4829871B2 (ja) 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体
JP5840075B2 (ja) 音声波形データベース生成装置、方法、プログラム
JP4247289B1 (ja) 音声合成装置、音声合成方法およびそのプログラム
JP4533255B2 (ja) 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体
JP4648878B2 (ja) 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体
JP6006678B2 (ja) 音声モデル生成装置、方法、プログラム
Ni et al. Quantitative and structural modeling of voice fundamental frequency contours of speech in Mandarin
JP5722295B2 (ja) 音響モデル生成方法と音声合成方法とそれらの装置とプログラム
JP6000326B2 (ja) 音声合成モデル学習装置、音声合成装置、音声合成モデル学習方法、音声合成方法、およびプログラム
AU2015397951A1 (en) System and method for outlier identification to remove poor alignments in speech synthesis
JP6137708B2 (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP5155836B2 (ja) 収録テキスト生成装置、その方法、そのプログラム
JP6479637B2 (ja) 文章セット生成装置、文章セット生成方法、プログラム
JP6495781B2 (ja) 音声パラメータ生成装置、音声パラメータ生成方法、プログラム
JP2018004997A (ja) 音声合成装置及びプログラム
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140813

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150414

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150428

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150610

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151110

R150 Certificate of patent or registration of utility model

Ref document number: 5840075

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees