JP6420198B2 - 閾値推定装置、音声合成装置、その方法及びプログラム - Google Patents

閾値推定装置、音声合成装置、その方法及びプログラム Download PDF

Info

Publication number
JP6420198B2
JP6420198B2 JP2015088375A JP2015088375A JP6420198B2 JP 6420198 B2 JP6420198 B2 JP 6420198B2 JP 2015088375 A JP2015088375 A JP 2015088375A JP 2015088375 A JP2015088375 A JP 2015088375A JP 6420198 B2 JP6420198 B2 JP 6420198B2
Authority
JP
Japan
Prior art keywords
parameter
learning
speech
target
variance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015088375A
Other languages
English (en)
Other versions
JP2016206442A (ja
Inventor
勇祐 井島
勇祐 井島
水野 秀之
秀之 水野
宮崎 昇
昇 宮崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015088375A priority Critical patent/JP6420198B2/ja
Publication of JP2016206442A publication Critical patent/JP2016206442A/ja
Application granted granted Critical
Publication of JP6420198B2 publication Critical patent/JP6420198B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、Variance Scaling法による音声合成技術に関する。
近年、主流となっている音声合成方式として、HMM音声合成方式(非特許文献1参照)が提案されている。HMM音声合成方式における音声データベース(モデル)は、合成単位ごとに音声データのパラメータ(スペクトル、基本周波数(F0))を平均化(平滑化)し、合成単位ごとに一つのモデルを保持している。HMM音声合成方式では、合成単位ごとに音声データのパラメータを平滑化することで、学習に用いる音声データの量が比較的少量の場合でも安定した品質の合成音声が生成できるという利点があるが、平滑化により合成音声の品質が劣化してしまう。
この課題を解決するための一つの手段として、音声合成時に生成されたスペクトルパラメータ(ケプストラム、メルケプストラム等であり、このスペクトルパラメータのことを以下、対象スペクトルパラメータともいう)の分散(以下、対象分散ともいう)が学習用の音声データから得られるスペクトルパラメータ(以下、学習用スペクトルパラメータともいう)の分散(以下、学習分散ともいう)と同一になるように、次式により、音声合成時に生成されたスペクトルパラメータを補正する手法(Variance Scaling法)が提案されている(非特許文献2参照)。
Figure 0006420198
ここで、cm(n)、c’m(n)は、パラメータ補正前後のnフレーム目m次元目のスペクトルパラメータ、μm、σmは対象スペクトルパラメータから求めたm次元目のパラメータの平均(以下、対象平均ともいう)、対象分散、σm orgは学習用スペクトルパラメータから求めたm次元目のパラメータの学習分散である。
益子他,"動的特徴を用いたHMMに基づく音声合成",信学論,1996, vol.J79-D-II,no.12,pp.2184-2190. Silen, Hanna, et al. "Ways to Implement Global Variance in Statistical Speech Synthesis", INTERSPEECH, 2012.
Variance Scaling法では、対象分散と学習分散のみを考慮して対象スペクトルパラメータを補正しているため、まれに過剰に対象スペクトルパラメータを補正してしまうことがある。その場合、合成音声の一部のフレームにおいて異音が発生してしまう。
本発明は、異音が発生を抑圧することのできる音声合成装置、及び音声合成時に用いる補正倍率に対する閾値を推定する閾値推定装置、その方法及びプログラムを提供することを目的とする。
上記の課題を解決するために、本発明の一態様によれば、閾値推定装置は、音声合成用HMMは学習用音声データを用いて学習されるものとし、学習分散を学習用音声データから得られるスペクトルパラメータである学習用スペクトルパラメータの分散とし、音声合成用HMMを用いて、学習用音声データの音素列と同じ音素列を持つ音声データに対応するスペクトルパラメータである第一スペクトルパラメータを生成する音声パラメータ生成部と、学習用スペクトルパラメータ、学習分散及び第一スペクトルパラメータを用いて、VarianceScaling法による音声合成時に用いる補正倍率に対する閾値を推定する閾値推定部とを含む。
上記の課題を解決するために、本発明の他の態様によれば、閾値推定方法は、音声合成用HMMは学習用音声データを用いて学習されるものとし、学習分散を学習用音声データから得られるスペクトルパラメータである学習用スペクトルパラメータの分散とし、音声合成用HMMを用いて、学習用音声データの音素列と同じ音素列を持つ音声データに対応するスペクトルパラメータである第一スペクトルパラメータを生成する音声パラメータ生成ステップと、学習用スペクトルパラメータ、学習分散及び第一スペクトルパラメータを用いて、VarianceScaling法による音声合成時に用いる補正倍率に対する閾値を推定する閾値推定ステップとを含む。
本発明によれば、音声合成時の異音が発生を抑圧することのできるという効果を奏する。
音素セグメンテーション情報の例を示す図。 第一実施形態に係る学習部の機能ブロック図。 第一実施形態に係る学習部の処理フローの例を示す図。 第一実施形態に係る閾値推定部の機能ブロック図。 第一実施形態に係る閾値推定部の処理フローの例を示す図。 第一実施形態に係る音声合成部の機能ブロック図。 第一実施形態に係る音声合成部の処理フローの例を示す図。
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<第一実施形態のポイント>
対象スペクトルパラメータを補正する際に、対象スペクトルパラメータと学習用スペクトルパラメータの分散のみを考慮するのではなく、音声合成用HMM(Hidden Markov Model)を学習する際に、対象スペクトルパラメータを補正する際の補正倍率(σm orgm)の上限(閾値)を推定し、対象スペクトルパラメータを補正する際にその閾値を使用する。
<第一実施形態に係る音声合成システム>
第一実施形態に係る音声合成システムは、学習部100と音声合成部200とから構成される。
学習部100では、まず学習用音声データと発話情報とから、(1)音声合成用の隠れマルコフモデル(以下、音声合成用HMMともいう)を学習し、(2)Variance Scaling法による音声合成時に用いる補正倍率を求める際に必要となる学習分散を計算し、(3)対象スペクトルパラメータを補正する際の補正倍率の閾値を推定する。なお、音声合成用HMMのパラメータセットをλとする。
音声合成部200では、学習部100で得られた音声合成用HMMのパラメータセットλと学習分散と補正倍率の閾値とを用いて、対象テキストに対する合成音声を生成する。
(学習用音声データと発話情報について)
まず、学習用音声データと発話情報について説明する。学習用音声データは、音声合成用音声モデルの学習に使用する音声データであり、予め収録しておく。発話情報は、学習用音声データの発話情報である。
学習用音声データとして、音声データベースを構築する対象の一名の話者が複数個の文章を発話した音声が保持されている。さらに、本実施形態では、学習用音声データとして、音声信号に対して信号処理を行った結果、得られる音響特徴量(例えば、音高パラメータ(基本周波数等)、スペクトルパラメータ(ケプストラム、メルケプストラム等))も保持されている。なお、学習用音声データの音声信号に対して信号処理を行った結果、得られるスペクトルパラメータのことを学習用スペクトルパラメータともいう。また、学習用音声データには、音声合成に必要な各音素が一つ以上含まれている必要がある。
発話情報は、音声データ中の各発話に対して付与された発音等の情報で音声データ中の各発話に一つの発話情報が付与されている。この発話情報には、少なくとも音素列と、各音素の開始時間、終了時間の情報(音素セグメンテーション情報)が保存されている。この開始時間及び終了時間は、各発話の始点を0[秒]とした時の経過時間である。音素セグメンテーション情報の例を図1に示す。また、付与する発話情報として、音素セグメンテーション情報以外にもアクセント情報(アクセント型、アクセント句長)、品詞情報等を含んでいてもよい。
<学習部100>
図2は学習部100の機能ブロック図を、図3はその処理フローを示す。
学習部100では、学習用音声データとその発話情報から、音声合成用HMMのパラメータセットλと学習分散を学習する。その後、学習用スペクトルパラメータと、学習した音声合成用HMMを用いて発話情報の音素列と同じ音素列に対して生成したスペクトルパラメータとから、対象スペクトルパラメータを補正する際の補正倍率の上限(閾値)を推定する。
学習部100はモデル学習部110、分散計算部120、音声パラメータ生成部130及び閾値推定部140を含む。
<モデル学習部110>
モデル学習部110は、学習用音声データを受け取り、学習用音声データを用いて音声合成用HMMを学習し(S110)、音声合成用HMMのパラメータセットλを出力する。
本実施形態では、学習用スペクトルパラメータcm org(p,n)と学習用音声データの発話情報を用いて、音声合成用HMMを学習する。ただし、m(1≦m≦M:Mはスペクトルパラメータの次元数)は次元を、pは文章を、nはフレームを示す。モデル学習方法は、既存の方法、例えば非特許文献1の方法を用いればよい。
<分散計算部120>
分散計算部120は、学習用スペクトルパラメータcm org(p,n)を受け取り、各次元mの分散である学習分散σm orgを計算し(S120)、出力する。
<音声パラメータ生成部130>
音声パラメータ生成部130は、音声合成用HMMのパラメータセットλと発話情報とを受け取り、音声合成用HMMを用いて、学習用音声データの音素列と同じ音素列を持つ音声データに対応するスペクトルパラメータである第一スペクトルパラメータcm (1)(p,n)を生成し(S130)、出力する。スペクトルパラメータの生成方法は、既存の方法、例えば非特許文献1の方法を用いればよい。
<閾値推定部140>
閾値推定部140は、学習用スペクトルパラメータcm org(p,n)と第一スペクトルパラメータcm (1)(p,n)と学習分散σm orgとを受け取り、これらの値を用いて、Variance Scaling法による音声合成時に用いる補正倍率に対する、各次元mの閾値αmを推定し(S140)、出力する。
図4は閾値推定部140の機能ブロック図を、図5はその処理フローを示す。閾値推定部140はDPマッチング部141、第一平均及び分散計算部142、第一パラメータ補正部143、判定部144及び閾値決定部145を含む。
<DPマッチング部141>
DPマッチング部141は、学習用スペクトルパラメータcm org(p,n)及び第一スペクトルパラメータcm (1)(p,n)を受け取り、DPマッチングを用いて、各文章pの学習用スペクトルパラメータcm org(p,n)及び第一スペクトルパラメータcm (1)(p,n)の時間情報を揃えたマッチング済学習用スペクトルパラメータc'm org(p,n)及びマッチング済第一スペクトルパラメータc"m (1)(p,n)を求め(S141)、出力する。
<第一平均及び分散計算部142>
第一平均及び分散計算部142は、マッチング済第一スペクトルパラメータc"m (1)(p,n)を受け取り、文章p毎のマッチング済第一スペクトルパラメータc"m (1)(p,n)の平均μm (1)(p)及び分散σm (1)(p)を計算し(S142)、出力する。なお、分散σm (1)(p)のことを第一分散σm (1)(p)ともいう。
<第一パラメータ補正部143>
第一パラメータ補正部143は、マッチング済第一スペクトルパラメータc"m (1)(p,n)と学習分散σm orgと第一分散σm (1)(p)と平均μm (1)(p)とを受け取り、学習分散σm orgと第一分散σm (1)(p)と用いて文章p毎の補正倍率(σm orgm (1)(p))を求め、補正倍率(σm orgm (1)(p))と平均μm (1)(p)とを用いて、マッチング済第一スペクトルパラメータc"m (1)(p,n)を補正し(S143)、補正済第一スペクトルパラメータc'm (1)(p,n)を得、補正倍率(σm orgm (1)(p))とともに出力する。なお、スペクトルパラメータの補正方法は、既存の方法、例えば非特許文献2の方法を用いればよい。例えば、次式により、補正する。
Figure 0006420198
<判定部144>
判定部144は、マッチング済学習用スペクトルパラメータc'm org(p,n)、補正済第一スペクトルパラメータc'm (1)(p,n)及び補正倍率(σm orgm (1)(p))を受け取り、各文章pに対するマッチング済学習用スペクトルパラメータc'm org(p,n)及びマッチング済第一スペクトルパラメータc'm (1)(p,n)とを比較して、各文章pに異音が存在するか否かを判定し(S144)、異音が存在する文章sに対応する補正倍率(σm orgm (1)(s))を出力する。ただし、sは異音が存在する文章を示すインデックスである。
異音が存在するか否かは、例えば、以下のようにして判定する。
各文章pの補正済第一スペクトルパラメータc'm (1)(p,n)に異音が存在するかどうかの判定には、1つの文章p内のスペクトルパラメータの最大値、最小値を用いる。まず、判定対象となる文章pのマッチング済学習用スペクトルパラメータc'm org(p,n)及び補正済第一スペクトルパラメータc'm (1)(p,n)から、それぞれの各次元mの最大値、最小値を得る。文章pのマッチング済学習用スペクトルパラメータc'm org(p,n)の最大値、最小値をmaxorg pm、minorg pm、補正済第一スペクトルパラメータc'm (1)(p,n)の最大値、最小値をmax(1) pm、min(1) pmとすると、以下の条件のいずれかに合致する場合、異音が存在すると判定する。
maxorg pm < max(1) pm
minorg pm > min(1) pm
一般的に、異音が生じる音声は補正済第一スペクトルパラメータc'm (1)(p,n)がマッチング済学習用スペクトルパラメータc'm org(p,n)では存在しない数値になっていると考えられる。そのため、各文章p、各次元mのマッチング済学習用スペクトルパラメータc'm org(p,n)の最大値、最小値の範囲を異音が発生しない範囲として、補正済第一スペクトルパラメータc'm (1)(p,n)がその範囲に収まっているかどうかで、異音が存在するか否かを判定する。
またそれ以外にも異音であるかどうか判定する手段として、マッチング済学習用スペクトルパラメータc'm org(p,n)と補正済第一スペクトルパラメータc'm (1)(p,n)の距離をフレームnごとに計算し、距離が一定値以上となったフレームnが存在した場合を異音が存在すると判定する判定方法も考えられる。
<閾値決定部145>
閾値決定部145は、異音が存在すると判定された文章sに対応する補正倍率(σm orgm (1)(s))を受け取り、次元m毎に、受け取った補正倍率(σm orgm (1)(s))の中で最も小さいものを閾値αmとし(S145)、出力する。
以上の処理により、音声合成用HMMのパラメータセットλと学習分散σm orgを学習し、対象スペクトルパラメータを補正する際の補正倍率(σm orgm)の閾値αmを推定する。
<音声合成部200>
図6は音声合成部200の機能ブロック図を、図7はその処理フローを示す。
音声合成部200は、音声合成前に、学習部100で求めたパラメータセットλと学習分散σm orgと閾値αmとを受け取り、これらの値を用いて、対象テキストに対応する合成音声を生成し、出力する。処理の概要を以下に示す。
音声合成部200は、テキスト解析部210、対象音声パラメータ生成部220、第二平均及び分散計算部230、第二パラメータ補正部240及び音声波形生成部250を含む。
<テキスト解析部210>
テキスト解析部210は、対象テキストを受け取り、テキスト解析を行い(S210)、少なくとも対象テキストに対応する音素列を取得し、出力する。なお、テキスト解析方法は既存の方法を用いればよい。例えば、テキスト解析の結果、アクセント、品詞等の情報を一緒に取得してもよい。
<対象音声パラメータ生成部220>
対象音声パラメータ生成部220は、音声合成前に、学習部100で求めたパラメータセットλを受け取り、学習後の音声合成用HMMを用意する。対象音声パラメータ生成部220は、対象テキストに対応する音素列を受け取り、音声合成用HMMとを用いて、音素列に対応するスペクトルパラメータである対象スペクトルパラメータcm ta(n)を生成し(S220)、出力する。スペクトルパラメータの生成方法は、音声パラメータ生成部130と同様の方法を用いればよい。
<第二平均及び分散計算部230>
第二平均及び分散計算部230は、対象スペクトルパラメータcm ta(n)を受け取り、対象スペクトルパラメータcm ta(n)の平均である対象平均μm taと分散である対象分散σm taを計算し(S230)、出力する。
<第二パラメータ補正部240>
第二パラメータ補正部240は、音声合成前に、学習部100で求めた学習分散σm orgと閾値とαmを音声合成前に受け取る。第二パラメータ補正部240は、対象スペクトルパラメータcm ta(n)と対象平均μm taと対象分散σm taとを受け取り、これらの値を用いて、対象スペクトルパラメータcm ta(n)を補正し、補正済対象スペクトルパラメータc'm ta(n)を得(S240)、出力する。
例えば、第二パラメータ補正部240は、各次元mの補正倍率(σm orgm ta)が閾値αmより大きい場合は、
Figure 0006420198
により、補正済対象スペクトルパラメータc'm ta(n)を得、そうでない場合は、
Figure 0006420198
により、補正済対象スペクトルパラメータc'm ta(n)を得る。
<音声波形生成部250>
音声波形生成部250は、補正済対象スペクトルパラメータc'm ta(n)を受け取り、この値を用いて、音声合成フィルタにより音声波形を生成し(S250)、合成音声として出力する。音声波形の生成方法は、既存の方法、例えば、参考文献1の方法を用いればよい。
(参考文献1)今井他,“音声合成のためのメル対数スペクトル近似(MLSA)フィルタ”,電子情報通信学会論文誌 A, Vol.J66-A, No.2, pp.122-129, Feb. 1983.
参考文献1では、補正済対象スペクトルパラメータc'm ta(n)と合成対象の基本周波数とを用いて、音声合成フィルタ(MLSAフィルタ)により音声波形を生成する。
<効果>
モデル学習時に対象スペクトルパラメータを補正する際の補正倍率(σm orgm)の閾値を推定し、パラメータ補正時に用いることで、過剰に対象スペクトルパラメータを補正してしまうことを防ぎ、異音の発生を抑圧することができる。
<変形例>
学習部100と音声合成部200とは、一台の装置の中に実装されてもよいし、別々の装置の中に実装されてもよい。また、音声パラメータ生成部130と閾値推定部140とを含む閾値推定装置としてもよく、パラメータセットλと学習分散σm orgとを求める既存の学習装置(例えば、非特許文献2参照)と組合せて、本実施形態のように利用してもよい。
本実施形態では、学習用音声データに音響特徴量(音高パラメータ、スペクトルパラメータ)が含まれる構成となっているが、音声信号のみを含む構成としてもよい。その場合には、学習用音声データから学習用スペクトルパラメータを抽出するための構成を設ければよい。
本実施形態で説明したように、発話情報として、音素セグメンテーション情報以外にもアクセント情報(アクセント型、アクセント句長)、品詞情報等含んでいてもよい。また、テキスト解析部210では対象テキストから、アクセント情報(アクセント型、アクセント句長)、品詞情報等を取得する構成としてもよい。音声合成時に、これらを一緒に用いることで、より自然な合成音声を生成することができる。
本実施形態では、テキスト解析部210を設けたが、少なくとも音素列がわかればよく、音声合成部200は必ずしもテキスト解析部210を備えなくともよい。
本実施形態では、DPマッチング部141でDPマッチングを行うことで、学習用スペクトルパラメータcm org(p,n)及び第一スペクトルパラメータcm (1)(p,n)の時間情報を揃えているが、他の方法により時間情報を揃えてもよい。例えば、音声パラメータ生成部130において、学習用音声データの音素列と同じ音素列を持つ音声データに対応する第一スペクトルパラメータcm (1)(p,n)を生成する際に、音素列だけでなく、各音素の開始時間、終了時間も同じになるように第一スペクトルパラメータcm (1)(p,n)を生成してもよい。この場合、音声パラメータ生成部130の出力である第一スペクトルパラメータcm (1)(p,n)と学習用スペクトルパラメータcm org(p,n)とは時間情報が揃っているため、それぞれマッチング済第一スペクトルパラメータc"m (1)(p,n)とマッチング済学習用スペクトルパラメータc'm org(p,n)と言える。
本実施形態では、異音が存在するか否かを文章毎に判定しているが、他の判定単位で判定してもよい。例えば、1文毎であってもよいし、所定時間毎であってもよい。
本実施形態では、閾値決定部145において、異音が存在すると判定された文章sに対応する補正倍率(σm orgm (1)(s))の中で最も小さいものを閾値αmとしているが、異音が存在しないと判定された文章s'に対応する補正倍率(σm orgm (1)(s'))の中で最も大きいものを閾値αmとしてもよい。この場合、判定部144は、異音が存在しない文章s'に対応する補正倍率(σm orgm (1)(s'))を出力する。ただし、s'は異音が存在しない文章を示すインデックスである。このような構成によっても第一実施形態と同様の効果を得ることができる。異音が存在しないと判定された文章s'に対応する補正倍率(σm orgm (1)(s'))を閾値αmとして用いるため、より異音の発生を抑圧する効果が高いと考えられる。
本実施形態では、各次元mのマッチング済学習用スペクトルパラメータc'm org(p,n)の最大値maxorg pmと最小値minorg pm、補正済第一スペクトルパラメータc'm (1)(p,n)の最大値max(1) pm、最小値min(1) pmを求めているが、それぞれ、最大値及び最小値の何れか一方のみを求め、maxorg pm < max(1) pmのときのみ、または、minorg pm > min(1) pmのときのみ、異音が存在すると判定してもよい。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (7)

  1. 音声合成用HMMは学習用音声データを用いて学習されるものとし、学習分散を学習用音声データから得られるスペクトルパラメータである学習用スペクトルパラメータの分散とし、
    音声合成用HMMを用いて、学習用音声データの音素列と同じ音素列を持つ音声データに対応するスペクトルパラメータである第一スペクトルパラメータを生成する音声パラメータ生成部と、
    学習用スペクトルパラメータ、学習分散及び前記第一スペクトルパラメータを用いて、音声合成時に用いる補正倍率に対する閾値を推定する閾値推定部とを含み、
    前記閾値推定部は、
    時間情報が揃えられた学習用スペクトルパラメータ及び第一スペクトルパラメータをマッチング済学習用スペクトルパラメータ及びマッチング済第一スペクトルパラメータとし、
    マッチング済第一スペクトルパラメータの判定単位毎の平均及び第一分散を計算する第一平均及び分散計算部と、
    前記学習分散と前記第一分散とを用いて補正倍率を求め、当該補正倍率と前記平均とを用いて、前記マッチング済第一スペクトルパラメータを補正し、補正済第一スペクトルパラメータを得るパラメータ補正部と、
    各判定単位に対するマッチング済学習用スペクトルパラメータ及び補正済第一スペクトルパラメータとを比較して、各判定単位に異音が存在するか否かを判定する判定部と、
    異音が存在する場合、異音が存在すると判定された判定単位に対応する補正倍率の中で最も小さいもの、または、異音が存在しないと判定された判定単位に対応する補正倍率の中で最も大きいものを前記閾値とする閾値決定部とを含む、
    閾値推定装置。
  2. 請求項の閾値推定装置であって、
    前記判定部は、
    各判定単位に対するマッチング済学習用スペクトルパラメータ及び補正済第一スペクトルパラメータの最大値及び最小値の少なくとも何れかを得、(1)前記マッチング済学習用スペクトルパラメータの最大値よりも前記補正済第一スペクトルパラメータの最大値が大きいとき、及び、(2)前記マッチング済学習用スペクトルパラメータの最小値よりも前記補正済第一スペクトルパラメータの最小値が小さいとき、の少なくとも何れかの条件を満たすときに異音が存在すると判定する、
    閾値推定装置。
  3. 請求項1または請求項の閾値推定装置で推定された前記閾値を用いる音声合成装置であって、
    前記音声合成用HMMとを用いて、音声合成対象となる対象テキストに対してテキスト解析を行って得られる音素列に対応する対象スペクトルパラメータを生成する対象音声パラメータ生成部と、
    前記対象スペクトルパラメータの平均である対象平均と分散である対象分散を計算する第二平均及び分散計算部と、
    前記対象平均と前記対象分散と前記学習分散と前記閾値とを用いて、前記対象スペクトルパラメータを補正し、補正済対象スペクトルパラメータを得る第二パラメータ補正部と、
    前記補正済対象スペクトルパラメータを用いて、音声合成フィルタにより音声波形を生成する音声波形生成部とを含む、
    音声合成装置。
  4. 請求項の音声合成装置であって、
    mをスペクトルパラメータの次元を表すインデックスとし、対象平均をμm ta、対象分散をσm ta、学習分散をσm org、閾値をαm、対象スペクトルパラメータをcm ta、補正済対象スペクトルパラメータをc'm taとし、前記第二パラメータ補正部は、(σm orgm ta)が閾値αmより大きい場合は、
    Figure 0006420198

    により、前記補正済対象スペクトルパラメータc'm taを得、そうでない場合は、
    Figure 0006420198

    により、前記補正済対象スペクトルパラメータc'm taを得る、
    音声合成装置。
  5. 音声合成用HMMは学習用音声データを用いて学習されるものとし、学習分散を学習用音声データから得られるスペクトルパラメータである学習用スペクトルパラメータの分散とし、
    音声合成用HMMを用いて、学習用音声データの音素列と同じ音素列を持つ音声データに対応するスペクトルパラメータである第一スペクトルパラメータを生成する音声パラメータ生成ステップと、
    学習用スペクトルパラメータ、学習分散及び前記第一スペクトルパラメータを用いて、音声合成時に用いる補正倍率に対する閾値を推定する閾値推定ステップとを含
    前記閾値推定ステップは、
    時間情報が揃えられた学習用スペクトルパラメータ及び第一スペクトルパラメータをマッチング済学習用スペクトルパラメータ及びマッチング済第一スペクトルパラメータとし、
    マッチング済第一スペクトルパラメータの判定単位毎の平均及び第一分散を計算する第一平均及び分散計算ステップと、
    前記学習分散と前記第一分散とを用いて補正倍率を求め、当該補正倍率と前記平均とを用いて、前記マッチング済第一スペクトルパラメータを補正し、補正済第一スペクトルパラメータを得るパラメータ補正ステップと、
    各判定単位に対するマッチング済学習用スペクトルパラメータ及び補正済第一スペクトルパラメータとを比較して、各判定単位に異音が存在するか否かを判定する判定ステップと、
    異音が存在する場合、異音が存在すると判定された判定単位に対応する補正倍率の中で最も小さいもの、または、異音が存在しないと判定された判定単位に対応する補正倍率の中で最も大きいものを前記閾値とする閾値決定ステップとを含む、
    閾値推定方法。
  6. 請求項の閾値推定方法で推定された前記閾値を用いる音声合成方法であって、
    前記音声合成用HMMとを用いて、音声合成対象となる対象テキストに対してテキスト解析を行って得られる音素列に対応する対象スペクトルパラメータを生成する対象音声パラメータ生成ステップと、
    前記対象スペクトルパラメータの平均である対象平均と分散である対象分散を計算する第二平均及び分散計算ステップと、
    前記対象平均と前記対象分散と前記学習分散と前記閾値とを用いて、前記対象スペクトルパラメータを補正し、補正済対象スペクトルパラメータを得るパラメータ補正ステップと、
    前記補正済対象スペクトルパラメータを用いて、音声合成フィルタにより音声波形を生成する音声波形生成ステップとを含む、
    音声合成方法。
  7. 請求項1若しくは請求項2の閾値推定装置、または、請求項若しくは請求項の音声合成装置として、コンピュータを機能させるためのプログラム。
JP2015088375A 2015-04-23 2015-04-23 閾値推定装置、音声合成装置、その方法及びプログラム Active JP6420198B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015088375A JP6420198B2 (ja) 2015-04-23 2015-04-23 閾値推定装置、音声合成装置、その方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015088375A JP6420198B2 (ja) 2015-04-23 2015-04-23 閾値推定装置、音声合成装置、その方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2016206442A JP2016206442A (ja) 2016-12-08
JP6420198B2 true JP6420198B2 (ja) 2018-11-07

Family

ID=57489585

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015088375A Active JP6420198B2 (ja) 2015-04-23 2015-04-23 閾値推定装置、音声合成装置、その方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6420198B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7081214B2 (ja) * 2018-03-02 2022-06-07 東洋インキScホールディングス株式会社 接着剤硬化物、加飾シート及び加飾成形体
CN109817196B (zh) * 2019-01-11 2021-06-08 安克创新科技股份有限公司 一种噪音消除方法、装置、系统、设备及存储介质
JP7385381B2 (ja) * 2019-06-21 2023-11-22 株式会社日立製作所 異常音検知システム、擬似音生成システム、および擬似音生成方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4455610B2 (ja) * 2007-03-28 2010-04-21 株式会社東芝 韻律パタン生成装置、音声合成装置、プログラムおよび韻律パタン生成方法
JP5346897B2 (ja) * 2010-09-14 2013-11-20 京セラドキュメントソリューションズ株式会社 現像剤セット

Also Published As

Publication number Publication date
JP2016206442A (ja) 2016-12-08

Similar Documents

Publication Publication Date Title
US9536525B2 (en) Speaker indexing device and speaker indexing method
JP5242782B2 (ja) 音声認識方法
JP2011180596A (ja) 音声プロセッサ、音声処理方法および音声プロセッサの学習方法
WO2018159402A1 (ja) 音声合成システム、音声合成プログラムおよび音声合成方法
JP5150542B2 (ja) パターン認識装置、パターン認識方法、及び、プログラム
JP2007279349A (ja) 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
GB2546981B (en) Noise compensation in speaker-adaptive systems
JP5752060B2 (ja) 情報処理装置、大語彙連続音声認識方法及びプログラム
JP2007279444A (ja) 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
KR20040088368A (ko) 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법
US11929058B2 (en) Systems and methods for adapting human speaker embeddings in speech synthesis
JP6420198B2 (ja) 閾値推定装置、音声合成装置、その方法及びプログラム
JP2010078650A (ja) 音声認識装置及びその方法
WO2015025788A1 (ja) 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
JP2009086581A (ja) 音声認識の話者モデルを作成する装置およびプログラム
CN113053356A (zh) 语音波形生成方法、装置、服务器及存储介质
JP6142401B2 (ja) 音声合成モデル学習装置、方法、及びプログラム
JPWO2013132959A1 (ja) 雑音抑制方法、プログラム及び装置
JP6468519B2 (ja) 基本周波数パターン予測装置、方法、及びプログラム
JP2008064849A (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
WO2010109725A1 (ja) 音声処理装置、音声処理方法、及び、音声処理プログラム
CN108288464B (zh) 一种修正合成音中错误声调的方法
JP4809913B2 (ja) 音素分割装置、方法及びプログラム
JP5104732B2 (ja) 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170621

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180419

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180501

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180608

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181009

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181011

R150 Certificate of patent or registration of utility model

Ref document number: 6420198

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150