JP2014228580A - 音声モデル生成装置、方法、プログラム - Google Patents
音声モデル生成装置、方法、プログラム Download PDFInfo
- Publication number
- JP2014228580A JP2014228580A JP2013106031A JP2013106031A JP2014228580A JP 2014228580 A JP2014228580 A JP 2014228580A JP 2013106031 A JP2013106031 A JP 2013106031A JP 2013106031 A JP2013106031 A JP 2013106031A JP 2014228580 A JP2014228580 A JP 2014228580A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- database
- voice
- model
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 27
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 45
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 45
- 238000004519 manufacturing process Methods 0.000 claims 1
- 230000006866 deterioration Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 9
- 238000001228 spectrum Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 4
- 238000002592 echocardiography Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
【解決手段】音声データベースに含まれる音声データと、平均声モデルと音声データベースとに基づいて生成された音声合成モデルから得られた合成音声データの集合体である判定用合成音声データベースに含まれる合成音声データと、の間の距離をそれぞれ求め、音声データベースに含まれる音声データの中から、高品質な音声データを選択して選択音声データベースを得て、この選択音声データベースと、平均声モデルと、ラベルデータベースとを用いたモデルの学習によって音声モデルを得る。
【選択図】図1
Description
<装置構成と処理の概略>
実施形態1の音声モデル生成装置1は、音声データベース10とラベルデータベース20と平均声モデル30とを記憶する記憶部(図示せず)と、初期モデル学習部101と、音声合成部103と、音声選別部105と、モデル学習部107と、を含む(図1参照)。
初期モデル学習部101は、平均声モデル30と、音声データベース10に含まれる全ての音声データと、ラベルデータベース20とを用いたモデルの学習によって音声合成用初期モデル40を生成する。
音声合成部103は、音声合成用初期モデル40とラベルデータベース20とを用いてラベルデータベースに含まれる発話情報と同一の発話情報を持つ合成音声データの集合体である判定用合成音声データベース50を生成する。
音声選別部105は、音声データベース10と判定用合成音声データベース50とを用いて、音声データベース10に含まれる各音声データがモデルの学習に適しているか否かを判定し、モデルの学習に適していると判定された音声データを選択して選択音声データベース60を得る。
最後に、モデル学習部107が、選択音声データベース60と、平均声モデル30と、ラベルデータベース20とを用いたモデルの学習によって最終的な音声モデル70を生成する。
音声データベース10は、音声モデルの生成に使用される音声データの集合体などであり、あらかじめ用意されている。
音声データベース10には、例えば一名の話者によるN個の発話の音声信号に対する信号処理によって得られた音声パラメータであるN個の音声データ(例えば、音高パラメータ(基本周波数F0等)、スペクトルパラメータ(ケプストラム、メルケプストラム等))が保持されている。
ラベルデータベース20は、音声データベース10中の各音声データに対して付与された音声合成単位ごとの発音等の情報(以下、発話情報という)の集合体である。音声データベース10中の各音声データには、一つの発話情報が付与されている。この発話情報には、少なくとも、音素情報(発音情報)やアクセント情報(アクセント型、アクセント句長)を含んでおり、この他に品詞情報等を含んでいてもよい。
平均声モデル30は、複数の話者の音声のスペクトル系列、ピッチパターン及び継続長が同時にモデル化され、これらの複数話者の平均的な特徴(声質及び韻律特徴)を有する音声合成単位HMMである(参考文献1、参考文献2)。平均声モデルの学習には、最低でも男女各5名による30分程度の音声データとラベルデータを用いて学習することが望ましい。
(参考文献1)田村他,“HMMに基づく音声合成におけるピッチ・スペクトルの話者適応”,信学論,vol.J85-D-II,no.4,pp.545-553,April 2002.
(参考文献2)特開2002-244689号公報
初期モデル学習部101は、平均声モデル30と、音声データベース10に含まれる全ての音声データと、ラベルデータベース20とを用いたHMMの学習によって音声合成用初期モデル(HMM)40を生成する。この学習方法は、例えば上記参考文献1と同じ方法でよい。
音声合成用初期モデル(HMM)40は、各音声合成単位を複数の状態を持つモデルとして表現しており、各モデルパラメータをμ→ ijとする。このμ→ ijはi番目の音声合成単位のHMMにおけるj番目の状態の音声パラメータの平均ベクトルであり、通常、多次元のベクトルで表現される(j=1,…,Si:Siはi番目の音声合成単位を表現するHMMに含まれる状態数)。また、このモデルパラメータには平均ベクトルだけでなく、分散や動的パラメータの平均ベクトルや分散を保存しておいてもよい。
なお、初期モデル学習部101によって学習されるモデルはHMMである必要はなく、各音声合成単位を複数の状態で表現できるモデル(例えばマルコフモデル等)であればよい。
音声合成部103は、音声合成用初期モデル40とラベルデータベース20とを用いて、ラベルデータベース20に含まれる発話情報と同一の発話情報を持つN個の合成音声データの集合体である判定用合成音声データベース(スペクトル、F0)50を生成する。
ラベルデータベース20が与えられると、例えば参考文献3の方法と同様に、HMMに保存されている音声パラメータの静的特徴量の平均値と分散および動的特徴量の平均値と分散を用いてラベルデータベース20に含まれる発話情報を持つ音声パラメータである合成音声データ(スペクトル、F0)を生成する。
(参考文献3)益子他,“動的特徴を用いたHMMに基づく音声合成”,信学論,vol.J79-D-II,no.12,pp.2184-2190,Dec. 1996.
音声選別部105は、初期モデル学習部101が使用した音声データベース10と音声合成部103が生成した判定用合成音声データベース50を用いて、モデルの学習に適している音声データを音声データベース10から選別して、選択音声データベース60を得る(図2、図3参照)。音声選別部105は、音声データベース10に含まれる音声データと判定用合成音声データベース50に含まれる合成音声データとを用いて音声データと合成音声データとの間の距離を計算する距離計算部1051と、距離計算部1051が計算した距離を用いて音声データベース10に含まれる各音声データがモデルの学習に適している音声かどうかを判別する判別部1052を含む。
この処理では、距離diが閾値より小さければ音声データベース10に含まれるi番目の音声データをモデル学習に使用する音声データであると判定し、大きければ学習に使用しない音声データであると判定する。例えば、N個の距離値の分布の平均をμ、標準偏差をσとして、μ+σを閾値に設定してもよい。また、平均μや標準偏差σとは関わりなく単にあらかじめ設定した値を閾値に設定してもよい。ここで選択された音声データの集合体が選択音声データベース60である。
モデル学習部107は、ステップS1の処理と同様に、平均声モデル30と、ステップS3の処理で得られた選択音声データベース60に含まれる全ての音声データと、ラベルデータベース20(ただし、選択音声データベース60に含まれる音声データに対応する発話情報を用いれば十分である)とを用いたHMMの学習によって音声モデル(HMM)70を生成する。ステップS4の処理は、モデル学習に使用する音声データが音声選別部105によって得られた選択音声データベース60に含まる音声データである点でステップS1の処理と異なる。
なお、モデル学習部107によって学習されるモデルはHMMである必要はなく、各音声合成単位を複数の状態で表現できるモデル(例えばマルコフモデル等)であればよい。
<概要>
第1実施形態では、音声データベースに付属するラベルデータベースが予め整備されていることが前提となっているが、テキストデータのみが存在しているもののラベルデータベースが整備されていない場合も存在する。第2実施形態では、音声モデル生成装置2はテキスト解析器(形態素解析器)201を使用することによってテキストデータから発話情報を生成する(図4参照)。
テキスト解析器201は、音声データベース10に含まれる各音声データに対応するテキストデータであってテキストデータベース90に含まれるテキストデータに対してテキスト解析や形態素解析などを実行し、読みとアクセントを推定することによってラベルデータベース20に含まれる発話情報を求める。
<概要>
第1実施形態では、音声データの選別を一度実施するだけだが、得られた最新の選択音声データベース60を新たな音声データベース10に見立てて音声データの選別を複数回行うことによって、より高品質な合成音声を生成可能な音声モデル70を得ることが可能である。以下、第1実施形態との差分について説明する(図5参照)。
ステップS3の処理の後、音声モデル生成装置3の判定部301は、少なくとも選択音声データベース60を得る際に得られた情報に基づいて、再び音声データの選別を行う必要があるか否かを判定する。
この判定には、例えば音声選別部105が計算した標準偏差σを使用する。この標準偏差σが大きい場合、選択音声データベース60に含まれる音声データ間の距離のばらつきが大きく、まだ選択音声データベース60にはモデル学習に使用するには適切ではない音声データが含まれている可能性がある。このため、標準偏差σがあらかじめ定められている閾値以下であるかどうかを判定する。
上述の実施形態に関わる音声モデル生成装置は、CPU(Central Processing Unit)やDSP(Digital Sygnal Processor)〔キャッシュメモリなどを備えていてもよい。〕、メモリであるRAM(Random Access Memory)やROM(Read Only Memory)と、ハードディスクである外部記憶装置、並びにこれらのCPUやDSP、RAMやROM、外部記憶装置間のデータのやり取りが可能なように接続するバスなどを備えている。また必要に応じて、音声モデル生成装置に、CD−ROMなどの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
Claims (6)
- 平均声モデルと、音声データベースに含まれる全ての音声データと、これら音声データに対応する発話情報を保持するラベルデータベースとを用いたモデルの学習によって音声合成用初期モデルを生成する初期モデル学習部と、
上記音声合成用初期モデルと上記ラベルデータベースとを用いて各上記発話情報を持つ合成音声データを得て、これら合成音声データが含まれる判定用合成音声データベースを生成する音声合成部と、
上記音声データベースに含まれる音声データと上記判定用合成音声データベースに含まれる合成音声データとを用いて同じ上記発話情報に対応する音声データと合成音声データとの間の距離をそれぞれ求め、上記音声データベースに含まれる音声データの中から、上記距離が閾値との比較判定条件を満たした音声データを選択して選択音声データベースを得る音声選別部と、
上記選択音声データベースと、上記平均声モデルと、上記ラベルデータベースとを用いたモデルの学習によって音声モデルを生成するモデル学習部と
を含む音声モデル生成装置。 - 請求項1に記載の音声モデル生成装置であって、
上記発話情報は、上記音声データベースに含まれる各音声データに対応するテキストデータを解析することによって得られたものである
ことを特徴とする音声モデル生成装置。 - 請求項1に記載の音声モデル生成装置であって、
上記選択音声データベースを得る際に得られた情報に基づいて、新しい選択音声データベースを得る必要があるか否かを判定する判定部を含み、
上記判定部によって新しい選択音声データベースを得る必要があると判定された場合に、上記初期モデル学習部および上記音声選別部が上記音声データベースに替えて最新の選択音声データベースを用いることによって新しい選択音声データベースが得られ、上記判定部によって新しい選択音声データベースを得る必要がないと判定された場合に、上記モデル学習部が、最新の選択音声データベースと、上記平均声モデルと、上記ラベルデータベースとを用いたモデルの学習によって音声モデルを生成する
ことを特徴とする音声モデル生成装置。 - 初期モデル学習部が、平均声モデルと、音声データベースに含まれる全ての音声データと、これら音声データに対応する発話情報を保持するラベルデータベースとを用いたモデルの学習によって音声合成用初期モデルを生成する初期モデル学習ステップと、
音声合成部が、上記音声合成用初期モデルと上記ラベルデータベースとを用いて各上記発話情報を持つ合成音声データを得て、これら合成音声データが含まれる判定用合成音声データベースを生成する音声合成ステップと、
音声選別部が、上記音声データベースに含まれる音声データと上記判定用合成音声データベースに含まれる合成音声データとを用いて同じ上記発話情報に対応する音声データと合成音声データとの間の距離をそれぞれ求め、上記音声データベースに含まれる音声データの中から、上記距離が閾値との比較判定条件を満たした音声データを選択して選択音声データベースを得る音声選別ステップと、
モデル学習部が、上記選択音声データベースと、上記平均声モデルと、上記ラベルデータベースとを用いたモデルの学習によって音声モデルを生成するモデル学習ステップと
を有する音声モデル生成方法。 - 請求項4に記載の音声モデル生成方法であって、
さらに、判定部が、上記選択音声データベースを得る際に得られた情報に基づいて、新しい選択音声データベースを得る必要があるか否かを判定する判定ステップを有し、
(1)上記判定ステップにおいて新しい選択音声データベースを得る必要があると判定された場合には、
初期モデル学習部が、平均声モデルと、最新の選択音声データベースに含まれる全ての音声データと、これら音声データに対応する発話情報を保持する最新のラベルデータベースとを用いたモデルの学習によって最新の音声合成用初期モデルを生成するステップと、
音声合成部が、上記最新の音声合成用初期モデルと上記最新のラベルデータベースとを用いて各上記発話情報を持つ合成音声データを得て、これら合成音声データが含まれる最新の判定用合成音声データベースを生成するステップと、
音声選別部が、上記最新の音声データベースに含まれる音声データと上記最新の判定用合成音声データベースに含まれる合成音声データとを用いて同じ上記発話情報に対応する音声データと合成音声データとの間の距離をそれぞれ求め、上記最新の音声データベースに含まれる音声データの中から、上記距離が閾値との比較判定条件を満たした音声データを選択して新しい選択音声データベースを得るステップとを有し、
(2)上記判定ステップにおいて新しい選択音声データベースを得る必要がないと判定された場合には、
上記モデル学習ステップにおいて、上記モデル学習部が、最新の選択音声データベースと、上記平均声モデルと、上記ラベルデータベースとを用いたモデルの学習によって音声モデルを生成する
ことを特徴とする音声モデル生成方法。 - コンピュータを、請求項1から請求項3のいずれかに記載の音声モデル生成装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013106031A JP6006678B2 (ja) | 2013-05-20 | 2013-05-20 | 音声モデル生成装置、方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013106031A JP6006678B2 (ja) | 2013-05-20 | 2013-05-20 | 音声モデル生成装置、方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014228580A true JP2014228580A (ja) | 2014-12-08 |
JP6006678B2 JP6006678B2 (ja) | 2016-10-12 |
Family
ID=52128504
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013106031A Expired - Fee Related JP6006678B2 (ja) | 2013-05-20 | 2013-05-20 | 音声モデル生成装置、方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6006678B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109389969A (zh) * | 2018-10-29 | 2019-02-26 | 百度在线网络技术(北京)有限公司 | 语料库优化方法及装置 |
KR20230115866A (ko) * | 2022-01-27 | 2023-08-03 | 네이버 주식회사 | 선별적 데이터 증강 기반 음성 합성 모델 생성 방법 및 시스템 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259169A (ja) * | 1999-03-04 | 2000-09-22 | Nippon Hoso Kyokai <Nhk> | 音声認識装置およびその記録媒体 |
JP2008176132A (ja) * | 2007-01-19 | 2008-07-31 | Casio Comput Co Ltd | 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム |
JP2008191368A (ja) * | 2007-02-05 | 2008-08-21 | Casio Comput Co Ltd | 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム |
JP2009080268A (ja) * | 2007-09-26 | 2009-04-16 | Kddi Corp | 種々の音声合成装置のための素片データベース生成装置、方法及びプログラム |
JP2010170075A (ja) * | 2008-12-26 | 2010-08-05 | Fujitsu Ltd | 情報処理装置、プログラム、および音響モデルを生成する方法 |
JP2012141354A (ja) * | 2010-12-28 | 2012-07-26 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成方法、音声合成装置及び音声合成プログラム |
-
2013
- 2013-05-20 JP JP2013106031A patent/JP6006678B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259169A (ja) * | 1999-03-04 | 2000-09-22 | Nippon Hoso Kyokai <Nhk> | 音声認識装置およびその記録媒体 |
JP2008176132A (ja) * | 2007-01-19 | 2008-07-31 | Casio Comput Co Ltd | 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム |
JP2008191368A (ja) * | 2007-02-05 | 2008-08-21 | Casio Comput Co Ltd | 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム |
JP2009080268A (ja) * | 2007-09-26 | 2009-04-16 | Kddi Corp | 種々の音声合成装置のための素片データベース生成装置、方法及びプログラム |
JP2010170075A (ja) * | 2008-12-26 | 2010-08-05 | Fujitsu Ltd | 情報処理装置、プログラム、および音響モデルを生成する方法 |
JP2012141354A (ja) * | 2010-12-28 | 2012-07-26 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成方法、音声合成装置及び音声合成プログラム |
Non-Patent Citations (1)
Title |
---|
JPN6016033864; 郡山知樹,外2名: '平均声に基づく対話音声合成に関する検討' 電子情報通信学会技術研究報告 Vol.109, No.374, 20100114, pp.33-38, 社団法人電子情報通信学会 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109389969A (zh) * | 2018-10-29 | 2019-02-26 | 百度在线网络技术(北京)有限公司 | 语料库优化方法及装置 |
CN109389969B (zh) * | 2018-10-29 | 2020-05-26 | 百度在线网络技术(北京)有限公司 | 语料库优化方法及装置 |
KR20230115866A (ko) * | 2022-01-27 | 2023-08-03 | 네이버 주식회사 | 선별적 데이터 증강 기반 음성 합성 모델 생성 방법 및 시스템 |
KR102661751B1 (ko) * | 2022-01-27 | 2024-04-30 | 네이버 주식회사 | 선별적 데이터 증강 기반 음성 합성 모델 생성 방법 및 시스템 |
Also Published As
Publication number | Publication date |
---|---|
JP6006678B2 (ja) | 2016-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6752872B2 (ja) | 音声合成方法及び装置、コンピュータ設備、読取り可能な媒体及びプログラム | |
JP5665780B2 (ja) | 音声合成装置、方法およびプログラム | |
JP4455610B2 (ja) | 韻律パタン生成装置、音声合成装置、プログラムおよび韻律パタン生成方法 | |
EP3021318A1 (en) | Speech synthesis apparatus and control method thereof | |
US20090048841A1 (en) | Synthesis by Generation and Concatenation of Multi-Form Segments | |
US20090070115A1 (en) | Speech synthesis system, speech synthesis program product, and speech synthesis method | |
US8626510B2 (en) | Speech synthesizing device, computer program product, and method | |
US20150228271A1 (en) | Speech synthesis dictionary generation apparatus, speech synthesis dictionary generation method and computer program product | |
JP6452591B2 (ja) | 合成音声品質評価装置、合成音声品質評価方法、プログラム | |
JP6631883B2 (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
JP4829871B2 (ja) | 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体 | |
JP6006678B2 (ja) | 音声モデル生成装置、方法、プログラム | |
JP4705557B2 (ja) | 音響モデル生成装置、方法、プログラム及びその記録媒体 | |
JP4247289B1 (ja) | 音声合成装置、音声合成方法およびそのプログラム | |
JP2007249051A (ja) | 音響モデル作成装置、音響モデル作成方法、そのプログラムおよびその記録媒体 | |
JP5840075B2 (ja) | 音声波形データベース生成装置、方法、プログラム | |
WO2020166359A1 (ja) | 推定装置、推定方法、及びプログラム | |
JP5722295B2 (ja) | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム | |
Shahnawazuddin et al. | A fast adaptation approach for enhanced automatic recognition of children’s speech with mismatched acoustic models | |
JP5155836B2 (ja) | 収録テキスト生成装置、その方法、そのプログラム | |
JP2016114740A (ja) | 音声合成モデル学習装置、音声合成装置、音声合成モデル学習方法、音声合成方法、およびプログラム | |
JP4909318B2 (ja) | 音響モデル作成方法、音響モデル作成装置、そのプログラム、その記録媒体 | |
WO2024116382A1 (ja) | 学習方法、学習装置及びプログラム | |
JP2016151709A (ja) | 音声合成装置及び音声合成プログラム | |
JP6479637B2 (ja) | 文章セット生成装置、文章セット生成方法、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150714 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160727 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160906 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160909 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6006678 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |