JP2014228580A - 音声モデル生成装置、方法、プログラム - Google Patents

音声モデル生成装置、方法、プログラム Download PDF

Info

Publication number
JP2014228580A
JP2014228580A JP2013106031A JP2013106031A JP2014228580A JP 2014228580 A JP2014228580 A JP 2014228580A JP 2013106031 A JP2013106031 A JP 2013106031A JP 2013106031 A JP2013106031 A JP 2013106031A JP 2014228580 A JP2014228580 A JP 2014228580A
Authority
JP
Japan
Prior art keywords
speech
database
voice
model
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013106031A
Other languages
English (en)
Other versions
JP6006678B2 (ja
Inventor
勇祐 井島
Yusuke Ijima
勇祐 井島
水野 秀之
Hideyuki Mizuno
秀之 水野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013106031A priority Critical patent/JP6006678B2/ja
Publication of JP2014228580A publication Critical patent/JP2014228580A/ja
Application granted granted Critical
Publication of JP6006678B2 publication Critical patent/JP6006678B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

【課題】エコーや発話誤りなどが含まれている音声データを用いた場合でも、合成音声の品質の低下が少ない音声合成用のモデルを生成する技術を提供する。
【解決手段】音声データベースに含まれる音声データと、平均声モデルと音声データベースとに基づいて生成された音声合成モデルから得られた合成音声データの集合体である判定用合成音声データベースに含まれる合成音声データと、の間の距離をそれぞれ求め、音声データベースに含まれる音声データの中から、高品質な音声データを選択して選択音声データベースを得て、この選択音声データベースと、平均声モデルと、ラベルデータベースとを用いたモデルの学習によって音声モデルを得る。
【選択図】図1

Description

本発明は、音声データから音声合成用HMM(隠れマルコフモデル)を生成する技術に関する。
近年、Web上に、著作権が存在しない、あるいは著作権が放棄されている、あるいは利用規約などの範囲内という制限が予定されているものの比較的自由に使用可能な、テキストとそのテキストを発話した音声データが多数存在している(例えば、無料のオーディオブックサイト、音声投稿サイト等)。この事実は、先行技術文献を挙げるまでもなくよく知られている。
また、音声合成技術として、比較的少量の音声データからでも安定した品質の音声を合成することができるHMM(隠れマルコフモデル)音声合成方式[例えば非特許文献1参照]が提案されている。HMM音声合成方式では、音声データから分割された音声合成単位(音節、音素等)をHMMでモデル化したときのモデルパラメータ(スペクトル、F0など)が音声合成単位ごとに平均化(平滑化)されており、音声合成単位ごとに一つの音声モデル(HMM)が用意されている。これによって、少量の音声データを用いる場合でも、肉声感は低いが安定した品質の音声の合成を可能としている。
益子他、"動的特徴を用いたHMMに基づく音声合成"、信学論、vol.J79-D-II、no.12、pp.2184-2190、Dec. 1996.
このような著作権の制限の無いあるいは制限が少ない音声データを利用して音声合成用のモデルを学習することができれば、低コストで様々な話者や口調の合成音声を生成することが可能になる。
一般的に、音声合成用のモデルを学習するためには、高品質な音声が必要となる(ノイズが少ない、発話誤りが無い、エコーが少ない等)。このため通常、研究や商用で利用されている音声合成システムでは防音ブースで収録された音声データが使用されている。しかし、著作権の制限の無いあるいは制限が少ない音声データにはエコーや発話誤りなどが含まれていることがある。このような音声データを用いて音声合成用のモデルを学習すると合成音声の品質が低下する。
本発明は、このような課題に鑑みて、エコーや発話誤りなどが含まれている音声データを用いた場合でも、合成音声の品質の低下が少ない音声合成用のモデルを生成する技術を提供することを目的とする。
平均声モデルと、音声データベースに含まれる全ての音声データと、これら音声データに対応する発話情報を保持するラベルデータベースとを用いたモデルの学習によって音声合成用初期モデルを生成する。音声合成用初期モデルとラベルデータベースとを用いて各発話情報を持つ合成音声データを得て、これら合成音声データが含まれる判定用合成音声データベースを生成する。音声データベースに含まれる音声データと判定用合成音声データベースに含まれる合成音声データとを用いて同じ発話情報に対応する音声データと合成音声データとの間の距離をそれぞれ求め、音声データベースに含まれる音声データの中から、距離が閾値との比較判定条件を満たした音声データを選択して選択音声データベースを得る。選択音声データベースと、平均声モデルと、ラベルデータベースとを用いたモデルの学習によって音声モデルを生成する。
選択音声データベースを得る際に得られた情報に基づいて、新しい選択音声データベースを得る必要があるか否かを判定してもよい。新しい選択音声データベースを得る必要があると判定された場合には、初期モデル学習部および音声選別部が音声データベースに替えて最新の選択音声データベースを用いることによって新しい選択音声データベースが得られる。新しい選択音声データベースを得る必要がないと判定された場合には、モデル学習部が、最新の選択音声データベースと、平均声モデルと、ラベルデータベースとを用いたモデルの学習によって音声モデルを生成する。
本発明によると、音声データベースに含まれる音声データと判定用合成音声データベースに含まれる合成音声データとの間の距離をそれぞれ求め、音声データベースに含まれる音声データの中から、高品質な音声データ(つまり、距離が閾値との比較判定条件を満たした音声データ)を選択して選択音声データベースを得て、この選択音声データベースと、平均声モデルと、ラベルデータベースとを用いたモデルの学習によって音声モデルを得ることから、エコーや発話誤りなどが含まれている音声データを用いた場合でも、合成音声の品質の低下が少ない音声合成用のモデルを生成することができる。
第1実施形態の機能構成図。 音声選別部の機能構成図。 音声選別処理の処理フロー。 第2実施形態の機能構成図。 第3実施形態の機能構成図。
図面を参照しながら本発明の実施形態を説明する。各形態に共通の構成要素には同じ符号を割り当てて重複説明を省略することとする。
本発明の実施形態において、「音声合成単位」として、音素(例えば、前後の音韻環境や韻律特徴を考慮したコンテキスト依存トライフォンなど)、音節、半音節などを例示できる。例えば音声合成単位を音素として実施する場合には、以下の説明において、「音声合成単位」を「音素」に読み替えればよい。
《第1実施形態》
<装置構成と処理の概略>
実施形態1の音声モデル生成装置1は、音声データベース10とラベルデータベース20と平均声モデル30とを記憶する記憶部(図示せず)と、初期モデル学習部101と、音声合成部103と、音声選別部105と、モデル学習部107と、を含む(図1参照)。
初期モデル学習部101は、平均声モデル30と、音声データベース10に含まれる全ての音声データと、ラベルデータベース20とを用いたモデルの学習によって音声合成用初期モデル40を生成する。
音声合成部103は、音声合成用初期モデル40とラベルデータベース20とを用いてラベルデータベースに含まれる発話情報と同一の発話情報を持つ合成音声データの集合体である判定用合成音声データベース50を生成する。
音声選別部105は、音声データベース10と判定用合成音声データベース50とを用いて、音声データベース10に含まれる各音声データがモデルの学習に適しているか否かを判定し、モデルの学習に適していると判定された音声データを選択して選択音声データベース60を得る。
最後に、モデル学習部107が、選択音声データベース60と、平均声モデル30と、ラベルデータベース20とを用いたモデルの学習によって最終的な音声モデル70を生成する。
<音声データベース>
音声データベース10は、音声モデルの生成に使用される音声データの集合体などであり、あらかじめ用意されている。
音声データベース10には、例えば一名の話者によるN個の発話の音声信号に対する信号処理によって得られた音声パラメータであるN個の音声データ(例えば、音高パラメータ(基本周波数F0等)、スペクトルパラメータ(ケプストラム、メルケプストラム等))が保持されている。
<ラベルデータベース>
ラベルデータベース20は、音声データベース10中の各音声データに対して付与された音声合成単位ごとの発音等の情報(以下、発話情報という)の集合体である。音声データベース10中の各音声データには、一つの発話情報が付与されている。この発話情報には、少なくとも、音素情報(発音情報)やアクセント情報(アクセント型、アクセント句長)を含んでおり、この他に品詞情報等を含んでいてもよい。
<平均声モデル>
平均声モデル30は、複数の話者の音声のスペクトル系列、ピッチパターン及び継続長が同時にモデル化され、これらの複数話者の平均的な特徴(声質及び韻律特徴)を有する音声合成単位HMMである(参考文献1、参考文献2)。平均声モデルの学習には、最低でも男女各5名による30分程度の音声データとラベルデータを用いて学習することが望ましい。
(参考文献1)田村他,“HMMに基づく音声合成におけるピッチ・スペクトルの話者適応”,信学論,vol.J85-D-II,no.4,pp.545-553,April 2002.
(参考文献2)特開2002-244689号公報
<ステップS1>
初期モデル学習部101は、平均声モデル30と、音声データベース10に含まれる全ての音声データと、ラベルデータベース20とを用いたHMMの学習によって音声合成用初期モデル(HMM)40を生成する。この学習方法は、例えば上記参考文献1と同じ方法でよい。
音声合成用初期モデル(HMM)40は、各音声合成単位を複数の状態を持つモデルとして表現しており、各モデルパラメータをμ ijとする。このμ ijはi番目の音声合成単位のHMMにおけるj番目の状態の音声パラメータの平均ベクトルであり、通常、多次元のベクトルで表現される(j=1,…,Si:Siはi番目の音声合成単位を表現するHMMに含まれる状態数)。また、このモデルパラメータには平均ベクトルだけでなく、分散や動的パラメータの平均ベクトルや分散を保存しておいてもよい。
なお、初期モデル学習部101によって学習されるモデルはHMMである必要はなく、各音声合成単位を複数の状態で表現できるモデル(例えばマルコフモデル等)であればよい。
<ステップS2>
音声合成部103は、音声合成用初期モデル40とラベルデータベース20とを用いて、ラベルデータベース20に含まれる発話情報と同一の発話情報を持つN個の合成音声データの集合体である判定用合成音声データベース(スペクトル、F0)50を生成する。
ラベルデータベース20が与えられると、例えば参考文献3の方法と同様に、HMMに保存されている音声パラメータの静的特徴量の平均値と分散および動的特徴量の平均値と分散を用いてラベルデータベース20に含まれる発話情報を持つ音声パラメータである合成音声データ(スペクトル、F0)を生成する。
(参考文献3)益子他,“動的特徴を用いたHMMに基づく音声合成”,信学論,vol.J79-D-II,no.12,pp.2184-2190,Dec. 1996.
<ステップS3>
音声選別部105は、初期モデル学習部101が使用した音声データベース10と音声合成部103が生成した判定用合成音声データベース50を用いて、モデルの学習に適している音声データを音声データベース10から選別して、選択音声データベース60を得る(図2、図3参照)。音声選別部105は、音声データベース10に含まれる音声データと判定用合成音声データベース50に含まれる合成音声データとを用いて音声データと合成音声データとの間の距離を計算する距離計算部1051と、距離計算部1051が計算した距離を用いて音声データベース10に含まれる各音声データがモデルの学習に適している音声かどうかを判別する判別部1052を含む。
距離計算部1051は、同一のi番目の発話情報を持つ音声データと合成音声データとの間の距離diを計算する(i=1,…,N)。距離の計算は、例えば、スペクトルパラメータを用いて以下の式にしたがって行われる。
Figure 2014228580
ここで、Tiはi番目の音声データのフレーム数、Mはスペクトルパラメータの次元数、spitmは、i番目の音声データのt番目のフレーム、m次元目のスペクトルパラメータであり、synitmはi番目の合成音声データのt番目のフレーム、m次元目のスペクトルパラメータである。二つの音声データのフレーム数は必ずしも同じではないため、事前に動的計画法に基づくマッチング法などで二つの音声データ間のフレーム同士の対応付けを行っておくことが望ましい。
このdiが大きければ音声データと合成音声データは異なった音声になっており、小さければ音声データと合成音声データは似た音声であることを示している。
判別部1052は、距離計算部1051が計算したN個の距離55を用いて、各音声データがモデルの学習に適しているかどうかを判別する。
この処理では、距離diが閾値より小さければ音声データベース10に含まれるi番目の音声データをモデル学習に使用する音声データであると判定し、大きければ学習に使用しない音声データであると判定する。例えば、N個の距離値の分布の平均をμ、標準偏差をσとして、μ+σを閾値に設定してもよい。また、平均μや標準偏差σとは関わりなく単にあらかじめ設定した値を閾値に設定してもよい。ここで選択された音声データの集合体が選択音声データベース60である。
<ステップS4>
モデル学習部107は、ステップS1の処理と同様に、平均声モデル30と、ステップS3の処理で得られた選択音声データベース60に含まれる全ての音声データと、ラベルデータベース20(ただし、選択音声データベース60に含まれる音声データに対応する発話情報を用いれば十分である)とを用いたHMMの学習によって音声モデル(HMM)70を生成する。ステップS4の処理は、モデル学習に使用する音声データが音声選別部105によって得られた選択音声データベース60に含まる音声データである点でステップS1の処理と異なる。
なお、モデル学習部107によって学習されるモデルはHMMである必要はなく、各音声合成単位を複数の状態で表現できるモデル(例えばマルコフモデル等)であればよい。
《第2実施形態》
<概要>
第1実施形態では、音声データベースに付属するラベルデータベースが予め整備されていることが前提となっているが、テキストデータのみが存在しているもののラベルデータベースが整備されていない場合も存在する。第2実施形態では、音声モデル生成装置2はテキスト解析器(形態素解析器)201を使用することによってテキストデータから発話情報を生成する(図4参照)。
<ステップS1p>
テキスト解析器201は、音声データベース10に含まれる各音声データに対応するテキストデータであってテキストデータベース90に含まれるテキストデータに対してテキスト解析や形態素解析などを実行し、読みとアクセントを推定することによってラベルデータベース20に含まれる発話情報を求める。
ステップS1pの処理の後は、第1実施形態のステップS1からステップS4の各処理が実行される。
テキスト解析では、読みやアクセント型の推定誤りが発生してしまうため、誤った推定結果をモデルの学習へ利用すると合成音声の品質が低下する。しかし、音声選別部105が選択音声データベース60を抽出することによって、読みやアクセントの推定誤りによる合成音声の品質低下を軽減することが可能である。誤った読みやアクセントに基づいて生成された合成音声データは、音声データベース10に含まれる音声データと発話内容が異なるため、正しい読みとアクセントに基づいて生成された合成音声データよりも大きい距離を与える。このため、選択音声データベース60には、高品質かつ正しい読みとアクセントが付与された音声データのみが残る。
《第3実施形態》
<概要>
第1実施形態では、音声データの選別を一度実施するだけだが、得られた最新の選択音声データベース60を新たな音声データベース10に見立てて音声データの選別を複数回行うことによって、より高品質な合成音声を生成可能な音声モデル70を得ることが可能である。以下、第1実施形態との差分について説明する(図5参照)。
<ステップS3p>
ステップS3の処理の後、音声モデル生成装置3の判定部301は、少なくとも選択音声データベース60を得る際に得られた情報に基づいて、再び音声データの選別を行う必要があるか否かを判定する。
この判定には、例えば音声選別部105が計算した標準偏差σを使用する。この標準偏差σが大きい場合、選択音声データベース60に含まれる音声データ間の距離のばらつきが大きく、まだ選択音声データベース60にはモデル学習に使用するには適切ではない音声データが含まれている可能性がある。このため、標準偏差σがあらかじめ定められている閾値以下であるかどうかを判定する。
なお、このような判定処理に替えて、音声選別部105が計算した平均μが閾値以下であるかどうかの判定処理を採用することも可能である。また、閾値を用いた判定だけでなく、選択音声データベース60に含まれる音声データの数が音声データベース10に含まれる音声データの数の予め定められた割合以下になった場合や、処理の繰り返し回数(つまり、ステップS3pの処理が実行された回数)が予め定められた回数に達した場合などの条件も併用することによって、最新の選択音声データベース60に含まれる音声データの数が極端に少なくなることや、無限ループで処理が終わらなくなる等の現象を回避することも可能である。
この判定において、上記の例であれば標準偏差σがあらかじめ定められている閾値以下であると判定された場合、音声選別部105によって得られた最新の選択音声データベース60を用いてステップS4の処理が実行される。標準偏差σがあらかじめ定められている閾値以下ではないと判定された場合は、音声選別部105によって得られた最新の選択音声データベース60を音声データベース10と見立てて、再びステップS1、S2、S3、S3pの各処理が実行される。この際に用いられるラベルデータベース20は初回に用いられたラベルデータベース20である必要はなく、最新の選択音声データベース60に含まれる音声データに対応する発話情報を含むラベルデータベースであればよい。
<音声モデル生成装置のハードウェア構成例>
上述の実施形態に関わる音声モデル生成装置は、CPU(Central Processing Unit)やDSP(Digital Sygnal Processor)〔キャッシュメモリなどを備えていてもよい。〕、メモリであるRAM(Random Access Memory)やROM(Read Only Memory)と、ハードディスクである外部記憶装置、並びにこれらのCPUやDSP、RAMやROM、外部記憶装置間のデータのやり取りが可能なように接続するバスなどを備えている。また必要に応じて、音声モデル生成装置に、CD−ROMなどの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。
音声モデル生成装置の外部記憶装置には、上述の音声モデル生成処理のためのプログラム並びにこのプログラムの処理において必要となるデータ(音声データ、発話情報等)などが記憶されている〔外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくなどでもよい。〕。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される場合がある。データやその格納領域のアドレスなどを記憶する記憶装置を単に「記憶部」と呼ぶことにする。
音声モデル生成装置の記憶部には、平均声モデルと、音声データベースに含まれる全ての音声データと、これら音声データに対応する発話情報を保持するラベルデータベースとを用いたモデルの学習によって音声合成用初期モデルを生成するためのプログラムと、音声合成用初期モデルとラベルデータベースとを用いて各発話情報を持つ合成音声データを得て、これら合成音声データが含まれる判定用合成音声データベースを生成するためのプログラムと、音声データベースに含まれる音声データと判定用合成音声データベースに含まれる合成音声データとを用いて同じ発話情報に対応する音声データと合成音声データとの間の距離をそれぞれ求め、音声データベースに含まれる音声データの中から、距離が閾値との比較判定条件を満たした音声データを選択して選択音声データベースを得るためのプログラムと、選択音声データベースと、平均声モデルと、ラベルデータベースとを用いたモデルの学習によって音声モデルを生成するためのプログラムなどが記憶されている。
音声モデル生成装置では、記憶部に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAMに読み込まれて、CPUで解釈実行・処理される。この結果、CPUが所定の機能(初期モデル学習部、音声合成部、音声選別部、モデル学習部など)を実現することで上述の音声モデルの生成が実現される。
<補記>
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
また、上記実施形態において説明したハードウェアエンティティ(音声モデル生成装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (6)

  1. 平均声モデルと、音声データベースに含まれる全ての音声データと、これら音声データに対応する発話情報を保持するラベルデータベースとを用いたモデルの学習によって音声合成用初期モデルを生成する初期モデル学習部と、
    上記音声合成用初期モデルと上記ラベルデータベースとを用いて各上記発話情報を持つ合成音声データを得て、これら合成音声データが含まれる判定用合成音声データベースを生成する音声合成部と、
    上記音声データベースに含まれる音声データと上記判定用合成音声データベースに含まれる合成音声データとを用いて同じ上記発話情報に対応する音声データと合成音声データとの間の距離をそれぞれ求め、上記音声データベースに含まれる音声データの中から、上記距離が閾値との比較判定条件を満たした音声データを選択して選択音声データベースを得る音声選別部と、
    上記選択音声データベースと、上記平均声モデルと、上記ラベルデータベースとを用いたモデルの学習によって音声モデルを生成するモデル学習部と
    を含む音声モデル生成装置。
  2. 請求項1に記載の音声モデル生成装置であって、
    上記発話情報は、上記音声データベースに含まれる各音声データに対応するテキストデータを解析することによって得られたものである
    ことを特徴とする音声モデル生成装置。
  3. 請求項1に記載の音声モデル生成装置であって、
    上記選択音声データベースを得る際に得られた情報に基づいて、新しい選択音声データベースを得る必要があるか否かを判定する判定部を含み、
    上記判定部によって新しい選択音声データベースを得る必要があると判定された場合に、上記初期モデル学習部および上記音声選別部が上記音声データベースに替えて最新の選択音声データベースを用いることによって新しい選択音声データベースが得られ、上記判定部によって新しい選択音声データベースを得る必要がないと判定された場合に、上記モデル学習部が、最新の選択音声データベースと、上記平均声モデルと、上記ラベルデータベースとを用いたモデルの学習によって音声モデルを生成する
    ことを特徴とする音声モデル生成装置。
  4. 初期モデル学習部が、平均声モデルと、音声データベースに含まれる全ての音声データと、これら音声データに対応する発話情報を保持するラベルデータベースとを用いたモデルの学習によって音声合成用初期モデルを生成する初期モデル学習ステップと、
    音声合成部が、上記音声合成用初期モデルと上記ラベルデータベースとを用いて各上記発話情報を持つ合成音声データを得て、これら合成音声データが含まれる判定用合成音声データベースを生成する音声合成ステップと、
    音声選別部が、上記音声データベースに含まれる音声データと上記判定用合成音声データベースに含まれる合成音声データとを用いて同じ上記発話情報に対応する音声データと合成音声データとの間の距離をそれぞれ求め、上記音声データベースに含まれる音声データの中から、上記距離が閾値との比較判定条件を満たした音声データを選択して選択音声データベースを得る音声選別ステップと、
    モデル学習部が、上記選択音声データベースと、上記平均声モデルと、上記ラベルデータベースとを用いたモデルの学習によって音声モデルを生成するモデル学習ステップと
    を有する音声モデル生成方法。
  5. 請求項4に記載の音声モデル生成方法であって、
    さらに、判定部が、上記選択音声データベースを得る際に得られた情報に基づいて、新しい選択音声データベースを得る必要があるか否かを判定する判定ステップを有し、
    (1)上記判定ステップにおいて新しい選択音声データベースを得る必要があると判定された場合には、
    初期モデル学習部が、平均声モデルと、最新の選択音声データベースに含まれる全ての音声データと、これら音声データに対応する発話情報を保持する最新のラベルデータベースとを用いたモデルの学習によって最新の音声合成用初期モデルを生成するステップと、
    音声合成部が、上記最新の音声合成用初期モデルと上記最新のラベルデータベースとを用いて各上記発話情報を持つ合成音声データを得て、これら合成音声データが含まれる最新の判定用合成音声データベースを生成するステップと、
    音声選別部が、上記最新の音声データベースに含まれる音声データと上記最新の判定用合成音声データベースに含まれる合成音声データとを用いて同じ上記発話情報に対応する音声データと合成音声データとの間の距離をそれぞれ求め、上記最新の音声データベースに含まれる音声データの中から、上記距離が閾値との比較判定条件を満たした音声データを選択して新しい選択音声データベースを得るステップとを有し、
    (2)上記判定ステップにおいて新しい選択音声データベースを得る必要がないと判定された場合には、
    上記モデル学習ステップにおいて、上記モデル学習部が、最新の選択音声データベースと、上記平均声モデルと、上記ラベルデータベースとを用いたモデルの学習によって音声モデルを生成する
    ことを特徴とする音声モデル生成方法。
  6. コンピュータを、請求項1から請求項3のいずれかに記載の音声モデル生成装置として機能させるためのプログラム。
JP2013106031A 2013-05-20 2013-05-20 音声モデル生成装置、方法、プログラム Expired - Fee Related JP6006678B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013106031A JP6006678B2 (ja) 2013-05-20 2013-05-20 音声モデル生成装置、方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013106031A JP6006678B2 (ja) 2013-05-20 2013-05-20 音声モデル生成装置、方法、プログラム

Publications (2)

Publication Number Publication Date
JP2014228580A true JP2014228580A (ja) 2014-12-08
JP6006678B2 JP6006678B2 (ja) 2016-10-12

Family

ID=52128504

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013106031A Expired - Fee Related JP6006678B2 (ja) 2013-05-20 2013-05-20 音声モデル生成装置、方法、プログラム

Country Status (1)

Country Link
JP (1) JP6006678B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109389969A (zh) * 2018-10-29 2019-02-26 百度在线网络技术(北京)有限公司 语料库优化方法及装置
KR20230115866A (ko) * 2022-01-27 2023-08-03 네이버 주식회사 선별적 데이터 증강 기반 음성 합성 모델 생성 방법 및 시스템

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000259169A (ja) * 1999-03-04 2000-09-22 Nippon Hoso Kyokai <Nhk> 音声認識装置およびその記録媒体
JP2008176132A (ja) * 2007-01-19 2008-07-31 Casio Comput Co Ltd 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム
JP2008191368A (ja) * 2007-02-05 2008-08-21 Casio Comput Co Ltd 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム
JP2009080268A (ja) * 2007-09-26 2009-04-16 Kddi Corp 種々の音声合成装置のための素片データベース生成装置、方法及びプログラム
JP2010170075A (ja) * 2008-12-26 2010-08-05 Fujitsu Ltd 情報処理装置、プログラム、および音響モデルを生成する方法
JP2012141354A (ja) * 2010-12-28 2012-07-26 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法、音声合成装置及び音声合成プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000259169A (ja) * 1999-03-04 2000-09-22 Nippon Hoso Kyokai <Nhk> 音声認識装置およびその記録媒体
JP2008176132A (ja) * 2007-01-19 2008-07-31 Casio Comput Co Ltd 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム
JP2008191368A (ja) * 2007-02-05 2008-08-21 Casio Comput Co Ltd 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム
JP2009080268A (ja) * 2007-09-26 2009-04-16 Kddi Corp 種々の音声合成装置のための素片データベース生成装置、方法及びプログラム
JP2010170075A (ja) * 2008-12-26 2010-08-05 Fujitsu Ltd 情報処理装置、プログラム、および音響モデルを生成する方法
JP2012141354A (ja) * 2010-12-28 2012-07-26 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法、音声合成装置及び音声合成プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6016033864; 郡山知樹,外2名: '平均声に基づく対話音声合成に関する検討' 電子情報通信学会技術研究報告 Vol.109, No.374, 20100114, pp.33-38, 社団法人電子情報通信学会 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109389969A (zh) * 2018-10-29 2019-02-26 百度在线网络技术(北京)有限公司 语料库优化方法及装置
CN109389969B (zh) * 2018-10-29 2020-05-26 百度在线网络技术(北京)有限公司 语料库优化方法及装置
KR20230115866A (ko) * 2022-01-27 2023-08-03 네이버 주식회사 선별적 데이터 증강 기반 음성 합성 모델 생성 방법 및 시스템
KR102661751B1 (ko) * 2022-01-27 2024-04-30 네이버 주식회사 선별적 데이터 증강 기반 음성 합성 모델 생성 방법 및 시스템

Also Published As

Publication number Publication date
JP6006678B2 (ja) 2016-10-12

Similar Documents

Publication Publication Date Title
JP6752872B2 (ja) 音声合成方法及び装置、コンピュータ設備、読取り可能な媒体及びプログラム
JP5665780B2 (ja) 音声合成装置、方法およびプログラム
JP4455610B2 (ja) 韻律パタン生成装置、音声合成装置、プログラムおよび韻律パタン生成方法
EP3021318A1 (en) Speech synthesis apparatus and control method thereof
US20090048841A1 (en) Synthesis by Generation and Concatenation of Multi-Form Segments
US20090070115A1 (en) Speech synthesis system, speech synthesis program product, and speech synthesis method
US8626510B2 (en) Speech synthesizing device, computer program product, and method
US20150228271A1 (en) Speech synthesis dictionary generation apparatus, speech synthesis dictionary generation method and computer program product
JP6452591B2 (ja) 合成音声品質評価装置、合成音声品質評価方法、プログラム
JP6631883B2 (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム
JP4829871B2 (ja) 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体
JP6006678B2 (ja) 音声モデル生成装置、方法、プログラム
JP4705557B2 (ja) 音響モデル生成装置、方法、プログラム及びその記録媒体
JP4247289B1 (ja) 音声合成装置、音声合成方法およびそのプログラム
JP2007249051A (ja) 音響モデル作成装置、音響モデル作成方法、そのプログラムおよびその記録媒体
JP5840075B2 (ja) 音声波形データベース生成装置、方法、プログラム
WO2020166359A1 (ja) 推定装置、推定方法、及びプログラム
JP5722295B2 (ja) 音響モデル生成方法と音声合成方法とそれらの装置とプログラム
Shahnawazuddin et al. A fast adaptation approach for enhanced automatic recognition of children’s speech with mismatched acoustic models
JP5155836B2 (ja) 収録テキスト生成装置、その方法、そのプログラム
JP2016114740A (ja) 音声合成モデル学習装置、音声合成装置、音声合成モデル学習方法、音声合成方法、およびプログラム
JP4909318B2 (ja) 音響モデル作成方法、音響モデル作成装置、そのプログラム、その記録媒体
WO2024116382A1 (ja) 学習方法、学習装置及びプログラム
JP2016151709A (ja) 音声合成装置及び音声合成プログラム
JP6479637B2 (ja) 文章セット生成装置、文章セット生成方法、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150714

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160727

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160906

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160909

R150 Certificate of patent or registration of utility model

Ref document number: 6006678

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees