JP5660437B2 - 無声フィルタ学習装置、音声合成装置、無声フィルタ学習方法、およびプログラム - Google Patents

無声フィルタ学習装置、音声合成装置、無声フィルタ学習方法、およびプログラム Download PDF

Info

Publication number
JP5660437B2
JP5660437B2 JP2010198521A JP2010198521A JP5660437B2 JP 5660437 B2 JP5660437 B2 JP 5660437B2 JP 2010198521 A JP2010198521 A JP 2010198521A JP 2010198521 A JP2010198521 A JP 2010198521A JP 5660437 B2 JP5660437 B2 JP 5660437B2
Authority
JP
Japan
Prior art keywords
filter
unvoiced
filter characteristic
unit
silent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010198521A
Other languages
English (en)
Other versions
JP2012058293A (ja
Inventor
芳則 志賀
芳則 志賀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2010198521A priority Critical patent/JP5660437B2/ja
Publication of JP2012058293A publication Critical patent/JP2012058293A/ja
Application granted granted Critical
Publication of JP5660437B2 publication Critical patent/JP5660437B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephone Function (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、音声合成で用いられる励振源の無声フィルタを学習する無声フィルタ学習装置等に関するものである。
近年、隠れマルコフモデル(HMM)に基づく音声合成(HMM音声合成)の音質改善の試みが多くなされている。そして、中でも、ボコーダ特有の合成音声のbuzzinessさを解消する試みとして、励振源の精緻化が行われている。
また、従来、次のような学習可能な励振源モデルがあった。この従来の励振源モデルは、励振源周期成分を生成する有声フィルタHv(z)と非周期成分を生成する無声フィルタHu(z)からなる。そして、従来技術において、学習時には、分析残差信号e(n)と合成した励振信号との差を繰り返し最小化することによって、状態s毎に前記2つのフィルタの特性を同時に最適化する。そして、音声合成時には、最適化した両フィルタにパルス列と白色雑音をそれぞれ入力し、出力される2信号を加算して励振信号を生成する(例えば、非特許文献1参照)。そして、前記両フィルタの特性は入力される状態sの系列にしたがって時々刻々と変化する。かかる従来の励振源モデルのフィルタ特性学習プロセスを図8に、また、励振信号生成プロセスを図9に示す。
図9において、パルス列t(n)と白色雑音w(n)が有声および無声フィルタHv(z)とHu(z)を通過し、出力として得られる2つの信号、有声励振信号v(n)および無声励振信号u(n)が加算され、混合励振信号e(n)となる。なお、状態sに関してフィルタは、それぞれ数式1、数式2の伝達関数をもつ。
Figure 0005660437
Figure 0005660437
数式1、2において、MとLはフィルタそれぞれの次数である。
また、励振源モデルの合成プロセスにおいて、フィルタ係数は数式3の平均二乗誤差εを最小化するように決定する。
Figure 0005660437
数式3において、Nは音声データベース中のサンプルの総数である。GはN×N行列で、無声フィルタの逆フィルタのインパルス応答G(z)を含む。「hベクトル=[h(−M/2)・・・h(M/2)]は、状態sに対する有声フィルタのインパルス応答ベクトルである。Aはパルス列を表わす行列で、状態sに属するインパルス位置の要素のみゼロ以外の値をとる。
数式3において、状態sに対する有声フィルタの係数hは、「∂ε/∂hベクトル=0」とおくことにより、線形系の解として得ることができる(非特許文献2参照)。一方、無声フィルタの係数{g(1),...,g(L)}と利得Kは、従来技術では、状態sに対応するセグメントの無声励振信号u(n)=e(n)−v(n)から線形予測分析によって決定する。また、フィルタ係数の決定とは別に、数式3の平均二乗誤差を最小化するように、インパルスt(n)の位置{p,...,p}と振幅{a,...,a}(Zは学習データベースのインパルス数を表わす)を更新する。これら位置および振幅の決定手順は、マルチパルス符号化のアルゴリズム(非特許文献3参照)を利用している。フィルタ係数とt(n)の最適化は交互に行い、フィルタ係数の変化と平均二乗誤差の減少量から収束判定する。
従来技術において、状態sの遷移に伴って両フィルタの係数は変化する。また、状態sの決定は、決定木ベースの最大尤度基準に基づくクラスタリングによって行われる。状態クラスタリングの詳細については非特許文献1に記載されている。
R. Maia and T. Toda and H. Zen and Y. Nankaku and K. Tokuda, "An Excitation Model for HMM-based Speech Synthesis Based on Residual Modeling", SSW6, Bonn, Germany, 2007 R. Maia and T. Toda and H. Zen and Y. Nankaku and K. Tokuda, "Mixed excitation for HMM-based speech synthesis based on state-dependent filtering", in Proc. Spring Meeting of the Acoust. Society of Japan, 2007 W.Chu, "Speech Coding Algorithms", Wiley-Interscience, 2003.
しかしながら、従来の励振源モデルにおいては、モデルから合成される音声には過剰な雑音が含まれる。つまり、従来の励振源モデルにおいては、学習時に、有声フィルタ特性推定時に生じた周期性を含む誤差が、無声フィルタ特性の推定に用いるターゲット信号に紛れ込むため、無声フィルタ特性が過大に推定されてしまう。音声合成時には、前記の過大推定された無声フィルタ特性から励振信号を生成するため、最終的に合成された音声には過剰な非周期成分が雑音として乗ってしまう。言い換えれば、従来の学習プロセスにおいては、音声データベースに含まれる多数の音声サンプルにわたって最適化した有声フィルタの推定エラーu(n)を残差信号の非周期成分とみなし、それをターゲット信号として無声フィルタ係数を決定していた。しかし実際には、有声フィルタ特性の推定によって生じるエラーは周期成分を含むので、ターゲット信号u(n)は完全な非周期信号にならない。そして、当該ターゲット信号の信号エネルギーは上述の周期成分の分だけ過大になる。こうしたターゲット信号を学習に用いるため、励振信号の無声成分が過剰に推定されてしまうのである。
このような励振信号無声成分の過剰推定を回避するために、本発明においては、有声フィルタ特性推定の影響を受けないターゲット信号を無声フィルタの学習に用いる。この「クリーンな」ターゲット信号は、残差信号の非周期成分を周期成分から分離することにより、残差信号から直接抽出される。
本第一の発明の無声フィルタ学習装置は、音声合成に用いられる無声フィルタを学習する無声フィルタ学習装置であって、無声フィルタ特性を格納し得る無声フィルタ特性格納部と、1つ以上の分析残差信号を受け付ける分析残差信号受付部と、各分析残差信号から非周期成分信号を抽出する非周期成分信号抽出部と、1つ以上の非周期成分信号に基づいて無声フィルタ特性を算出する無声フィルタ特性算出部と、無声フィルタ特性算出部が算出した無声フィルタ特性を無声フィルタ特性格納部に蓄積する無声フィルタ特性蓄積部とを具備する無声フィルタ学習装置である。
かかる構成により、無声フィルタの特性を適切に学習できる。
また,本第二の発明の無声フィルタ学習装置は、第一の発明に対して、非周期成分信号抽出部は、各分析残差信号から周期成分を抽出する周期成分抽出手段と、各分析残差信号から前記抽出した周期成分を除いて、1つ以上の非周期成分信号を取得する非周期成分信号取得手段とを備える。
また、本第三の発明の無声フィルタ学習装置は、第一または第二いずれかの発明に対して、無声フィルタ特性算出部は、1つ以上の前記非周期成分信号に対して、線形予測分析を適用して無声フィルタの特性を算出する無声フィルタ学習装置である。
かかる構成により、無声フィルタの特性を適切に学習できる。
また、本第四の発明の音声合成装置は、第一から第三いずれかの発明に対して、無声フィルタ特性を格納し得る無声フィルタ特性格納部と、有声フィルタ特性を格納し得る有声フィルタ特性格納部と、パルス列を生成するパルス列発生部と、白色性ノイズを生成する白色性ノイズ発生部と、前記有声フィルタ特性格納部に保存したフィルタ特性を用いて前記パルス列発生部が生成するパルス列を入力として有声励振信号を出力する有声フィルタ部と、前記無声フィルタ特性格納部に保存したフィルタ特性を用いて前記白色性ノイズ発生部が生成する白色性ノイズを入力として無声励振信号を出力する無声フィルタ部と、前記有声励振信号と無声励振源信号の両信号を受け付け音声を取得する声道フィルタと、音声を出力する音声出力部とを具備する音声合成装置である。
かかる構成により、適切に学習した無声フィルタを用いるため、音声合成処理の性能を向上できる。
本発明による無声フィルタ学習装置によれば、無声フィルタを適切に学習できる。
実施の形態1における無声フィルタ学習装置のブロック図 同無声フィルタ学習装置の動作について説明する模式図 同従来法により学習した無声フィルタおよび本手法により学習した無声フィルタの典型的な周波数特性を示す図 同比較対の種類別のプレファレンス・スコアを示す図 実施の形態2における音声合成装置のブロック図 上記実施の形態におけるコンピュータシステムの概観図 同コンピュータシステムのブロック図 従来の励振源モデルの学習プロセスを示す図 従来の励振信号生成プロセスを示す図
以下、無声フィルタ学習装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
本実施の形態において、分析残差信号から周期成分を除いて取得した非周期成分から、無声フィルタ特性を学習する無声フィルタ学習装置について説明する。なお、無声フィルタ特性の算出には、例えば、線形予測分析を用いる。
図1は、本実施の形態における無声フィルタ学習装置1のブロック図である。
無声フィルタ学習装置1は、無声フィルタ特性格納部11、分析残差信号受付部13、非周期成分信号抽出部14、無声フィルタ特性算出部16、無声フィルタ特性蓄積部17を具備する。また、非周期成分信号抽出部14は、周期成分抽出手段141、非周期成分信号抽出手段142を具備する。
無声フィルタ特性格納部11は、無声フィルタ特性を例えばフィルタ係数として格納し得る。無声フィルタ特性格納部11に格納される無声フィルタ特性は、無声フィルタ学習装置1により取得された無声フィルタ特性である。無声フィルタ特性格納部11は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
分析残差信号受付部13は、1つ以上の分析残差信号(非特許文献1、および2ではresidualまたはresidual signal)を受け付ける。ここで、受け付けとは、他の処理部(図示しない)からの受け渡し、有線もしくは無線の通信回線を介して送信された情報の受信、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付けなどを含む概念である。
非周期成分信号抽出部14は、分析残差信号受付部13が受け付けた1つ以上の分析残差信号のうちの個々の分析残差信号から、独立に周期成分を除いて、1つ以上の非周期成分信号を抽出する。
非周期成分信号抽出部14は、通常、MPUやメモリ等から実現され得る。非周期成分信号抽出部14の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
周期成分抽出手段141は、各分析残差信号から周期成分を抽出する。
非周期成分信号取得手段142は、各分析残差信号から、周期成分抽出手段141が抽出した周期成分を除いて、1つ以上の非周期成分信号を取得する。さらに詳細には、非周期成分信号取得手段142は、各分析残差信号から、周期成分抽出手段141が抽出した周期成分を除いて、分析残差信号の非周期成分である無声励振信号(u'(n))を取得する。この処理は、1つ以上の分析残差信号の各分析残差信号について行うため、1つ以上の無声励振信号が取得される。なお、非周期成分信号取得手段142は、1つ以上の分析残差信号の個々の分析残差信号に対して独立に非周期成分を推定する、と考えても良い。つまり、非周期成分信号取得手段142は、個々の分析残差信号に対して独立に非周期成分信号を抽出する。
なお、周期成分抽出手段141は、1つ以上の分析残差信号の個々の分析残差信号に対して独立に周期成分を推定する。つまり、周期成分抽出手段141は、個々の分析残差信号に対して独立にその周期成分信号を抽出する。したがって、周期成分抽出手段141を含む非周期成分信号抽出部14は、同様に、1つ以上の分析残差信号の個々の分析残差信号に対して独立に非周期成分を推定する、と考えてよい。つまり、非周期成分信号抽出部14は、個々の分析残差信号に対して独立に非周期成分信号を抽出する。
無声フィルタ特性算出部16は、1つ以上の無声励振信号を入力とし、白色性ノイズを出力とするフィルタの逆フィルタ特性を無声フィルタ特性として算出する。無声フィルタ特性算出部16は、例えば、線形予測分析を用いて、1つ以上の無声励振信号から全極型フィルタのフィルタ係数を算出する。無声フィルタ特性算出部16は、他の方法を用いても良い。無声フィルタ特性算出部16は、例えば、高速フーリエ変換(FFT)などの周波数分析法を用いて前記無声励振信号の周波数特性を計算し、その周波数特性を実現するフィルタを設計してもよい。
無声フィルタ特性算出部16は、通常、MPUやメモリ等から実現され得る。無声フィルタ特性算出部16の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
無声フィルタ特性蓄積部17は、無声フィルタ特性算出部16が算出した無声フィルタ特性を無声フィルタ特性格納部11に蓄積する。
無声フィルタ特性蓄積部17は、通常、MPUやメモリ等から実現され得る。無声フィルタ特性蓄積部17の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
次に、無声フィルタ学習装置1の動作について説明する。無声フィルタ学習装置1の動作の概要は、図2の模式図に示される。
分析残差信号受付部13は、1つ以上の分析残差信号(e(n))を受け付ける。そして、周期成分抽出手段141は、以下の数式4で表されるモデルに基づいて、残差の周期成分(「調波成分」とも言う。)を抽出する。
Figure 0005660437
数式4において、Jは調波数を表わす。また、ω=ωk=2πfkであり、fは基本周波数を表わす。数式4から、このモデルは各調波の周波数と振幅の両方を区分線形近似している。ここで、αとβは前記周期成分のk番目の調波の振幅を区分線形近似するための係数である。また、γはすべての調波の周波数を区分線形近似するための係数である。さらに、φはt=0におけるk番目の調波の位相を表わす。前記分析残差信号をもっとも良く近似するα,β,γ,φが求めることができれば、それらを数式4へ代入することで、周期成分を算出することができる。この問題は、以下の数式5を最小化するα,β,γ,φを求めることである。
Figure 0005660437
数式5において、e(t)は分析残差信号であり、w(t)は窓長2N+1の窓関数を表わす。数式5を最小化する各係数は、最急降下法などの数値計算アルゴリズムを用いて求めることができる。
周期成分抽出手段141は、上述の手法を用いて、1つ以上の分析残差信号の各分析残差信号(e(n))から周期成分を抽出する。なお、周期成分抽出手段141は、他の周期成分を表わすモデル(数式4以外のモデル)を用いて、周期成分を抽出しても良い。他の周期成分を表わすモデルとは、例えば文献(Y.Stylianou, PhD thesis,Ecole Nat.Superieure Telecommun.,France,1996.)に示されたモデルである。また、例えば、文献(George, E. B. & Smith, M. J. T. (1997), 'Speech analysis/synthesis and modification using an analysis-by-synthesis/overlap-add sinusoidal model', IEEE Trans. Speech and Audio Processing 5(5), 389-406)に示された調波分析手法、あるいは文献(Terada, T., Nakajima, H., Tohyama, M. & Hirata, Y. (1994), Nonstationary waveform analysis and synthesis using generalized harmonic analysis, in 'Proc. IEEE-SP International Symposium on Time-Frequency and Time-Scale Analysis', pp. 429-432)などを周期成分の抽出に用いてもよい。
次に、非周期成分信号取得手段142は、各分析残差信号から、周期成分抽出手段141が抽出した周期成分を除いて、1つ以上の非周期成分信号を取得する。
次に、無声フィルタ特性算出部16は、1つ以上の無声励振信号を入力とし、白色性ノイズを出力とする無声フィルタ特性を算出する。具体的には、無声フィルタ特性算出部16は、状態sに対応するセグメントから、上記の分離法によって得られる無声励振信号(u'(n))に対して、線形予測分析を行うことにより、無声フィルタの係数{gs'(1),...,gs'(L)}と利得Ks'を計算する。
以上により、無声フィルタ学習装置1は、無声フィルタ特性を取得できた。
次に、無声フィルタ特性蓄積部17は、無声フィルタ特性算出部16が算出した無声フィルタ特性を無声フィルタ特性格納部11に蓄積する。
以下、本実施の形態における無声フィルタ学習装置1を用いた結果について説明する。図3に、従来法により学習した無声フィルタ、および無声フィルタ学習装置1の手法(以下、適宜、「改良法」という。)により学習した無声フィルタの典型的な周波数特性を示す。これらの特性は、あるコンテキストのイギリス英語/i:/に対する、状態数5のHMMの2番目の状態に対応するものである。図3から観察できるように、2kHz以下の低周波数領域のスペクトルのエネルギーは、従来法では非常に大きな値となり、これが雑音となって合成音声に乗ってしまう。一方、改良法についてはそのエネルギーは十分に小さい。
(実験)
次に、無声フィルタ学習装置1を用いた無声フィルタの学習の効果を確かめるために、合成音声の主観評価を行った結果を以下に示す。
まず、実験の条件と手順について説明する。
音声研究者4名、音声関連の研究・開発に携わったことのない者1名の計5名を被験者として、聴取テストを行った。男性話者による約5時間の音声データ(標本化周波数16kHz)を学習に用い、ニュース記事や小説から抽出した20文を音声合成するテキストとして用いた。従来法と改良法によって学習した励振源モデルを用いて音声合成し、その音質を比較するため、テストは対比較形式で行った。被験者は各刺激対について好ましいと思うもの一方を必ず選択するよう指示した。フレーム長5msの39次メルケプストラムをスペクトル特徴量として用いた。励振源学習のターゲット信号となる残差分析残差信号は、音声をMLSAフィルタ(T.Fukada,et al.,ICASSP,1992.)の逆フィルタに通すことで生成した。残差分析残差信号周期成分は、窓長20ms、フレーム長5msで推定した。音響モデルは、状態数5のスキップのないleft−to−rightの隠れセミマルコフモデル(HSMM)を用いた。継続時間長とF、メルケプストラム係数について、前記HSMMを最適化した。励振源モデルのフィルタ次数は、M=512、L=64とした。
次に、上記の条件および手順による実験の結果を示す。
図4は、レファレンス・スコアを示す図である。
改良法では、無声フィルタ推定が有声フィルタ推定とは独立して行われるため、学習した励振源モデルから合成される音声は、従来法に比べて雑音が少なくクリアである。そのため、図4の(a)によれば、合成時にHPFを無声励振源に適用しない場合には、改良法からの合成音声は97%のケースで被験者に好まれている。
以上、本実施の形態によれば、無声フィルタ特性を適切に学習できる。つまり、本実施の形態における無声フィルタ特性を、音声合成技術を利用した装置に利用した場合、音声合成の性能を向上できる。特に、HMM音声合成手法に基づく音声合成装置あるいは合成ソフトウェアの音質を改善できる。なお、音声合成技術を利用した装置とは、例えば、音声ガイダンスを出力する装置、翻訳機、カーナビゲーション、ゲーム機等である。
なお、本実施の形態において、上述のように非周期成分信号を抽出しても推定誤差は避けられないため、非周期成分信号抽出部14の出力は純粋な非周期信号とはならない。しかし、本発明における非周期成分信号抽出は、上述のように局所的に、個々の分析残差信号について行われるので、推定誤差は従来法に比べて極めて小さい。一方、従来法では、統計的に多数の分析残差信号に合致するように有声励振信号(すなわち周期信号)を最適化するため、得られる無声励振信号(すなわち非周期成分信号)個々に対する誤差が、本発明の方法に比べるとかなり大きい。
さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、1つ以上の分析残差信号を受け付ける分析残差信号受付部と、前記1つ以上の分析残差信号の各分析残差信号から周期成分を抽出する周期成分抽出部と、前記各分析残差信号から前記周期成分を除いて、各分析残差信号の非周期成分である無声励振信号を取得する無声励振信号取得部と、前記1つ以上の無声励振信号を入力とし、無声フィルタ特性を算出する無声フィルタ特性算出部と、前記無声フィルタ特性算出部が算出した無声フィルタ特性を記憶媒体に蓄積する無声フィルタ特性蓄積部として機能させるためのプログラム、である。
また、上記プログラムにおいて、前記無声フィルタ特性算出部は、線形予測分析を用いて、入力される前記1つ以上の非周期成分に基づき、無声フィルタ特性を算出するものとして、コンピュータを機能させることは好適である。
(実施の形態2)
本実施の形態において、無声フィルタ学習装置1により学習した無声フィルタ特性を用いた音声合成装置について説明する。
図5は、本実施の形態における音声合成装置2のブロック図である。音声合成装置2は、無声フィルタ特性格納部21、有声フィルタ特性格納部22、パルス列発生部23、白色性ノイズ発生部24、無声フィルタ25、有声フィルタ26、声道フィルタ27、音声出力部28を具備する。音声合成装置2において、無声フィルタ特性格納部21の無声フィルタ特性を除いて、公知技術であっても良い。
無声フィルタ特性格納部21は、無声フィルタ学習装置1により学習した無声フィルタ特性を格納している。無声フィルタ特性格納部21は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
無声フィルタ特性格納部21に無声フィルタ特性が記憶される過程は問わない。
有声フィルタ特性格納部22は、有声フィルタ特性を格納し得る。有声フィルタ特性は、例えば、上述したHv(z)(非特許文献1における有声フィルタ)である。
有声フィルタ特性格納部22は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
有声フィルタ特性格納部22に有声フィルタ特性が記憶される過程は問わない。
パルス列発生部23は、パルス列を生成する。
白色性ノイズ発生部24は、白色性ノイズを発生させる。なお、白色性ノイズ発生部24は、例えば、メモリに白色性ノイズが記録されていてそれを読み出しても良い。かかる場合も、白色性ノイズを発生させた、と考える。白色性ノイズ発生部24は、例えば、白色性ノイズを、M系列法などの疑似乱数生成によって発生させる。
無声フィルタ25は、無声フィルタ特性格納部21に保存したフィルタ特性を用いて白色性ノイズ発生部24が生成する白色性ノイズを入力として無声励振信号を出力する。
有声フィルタ26は、有声フィルタ特性格納部22に保存したフィルタ特性を用いてパルス列発生部23が生成するパルス列を入力として有声励振信号を出力する。
声道フィルタ27は、有声励振信号と無声励振源信号の両信号を受け付け、音声を取得する。
無声フィルタ25、有声フィルタ26および声道フィルタ27は、通常、MPUやメモリ等から実現され得る。無声フィルタ25等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
音声出力部28は、声道フィルタ27から受け付けた音声を出力する。
音声出力部28は、スピーカー等の出力デバイスを含むと考えても含まないと考えても良い。音声出力部26は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
以上、本実施の形態によれば、適切に学習した無声フィルタ特性を用いるため、音声合成処理の性能を向上できる。つまり、雑音の少ないクリアな音声により音声合成できる。
なお、本実施の形態における音声合成装置2を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、記憶媒体に、無声フィルタ学習装置1が学習した無声フィルタ特性、および有声フィルタ特性を格納しており、コンピュータを、パルス列を生成するパルス列受付発生部と、白色性ノイズを生成する白色性ノイズ発生部と、前記有声フィルタ特性格納部に保存したフィルタ特性を用いて前記パルス列発生部が生成するパルス列を入力として有声励振信号を出力する有声フィルタと、前記無声フィルタ特性格納部に保存したフィルタ特性を用いて前記白色性ノイズ発生部が出力する白色性ノイズを入力として無声励振信号を出力する無声フィルタと、前記有声励振信号と無声励振源信号の両信号を受け付け、音声を取得する声道フィルタと、前記音声を出力する音声出力部として機能させるためのプログラム、である。
また、図6は、本明細書で述べたプログラムを実行して、上述した実施の形態の無声フィルタ学習装置または音声合成装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図6は、このコンピュータシステム340の概観図であり、図7は、コンピュータシステム340の内部構成を示す図である。
図6において、コンピュータシステム340は、FDドライブ3411、CD−ROMドライブ3412を含むコンピュータ341と、キーボード342と、マウス343と、モニタ344とを含む。
図7において、コンピュータ341は、FDドライブ3411、CD−ROMドライブ3412に加えて、MPU3413と、CD−ROMドライブ3412及びFDドライブ3411に接続されたバス3414と、ブートアッププログラム等のプログラムを記憶するためのROM3415とに接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM3416と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク3417とを含む。ここでは、図示しないが、コンピュータ341は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
コンピュータシステム340に、上述した実施の形態の無声フィルタ学習装置等の機能を実行させるプログラムは、CD−ROM3501、またはFD3502に記憶されて、CD−ROMドライブ3412またはFDドライブ3411に挿入され、さらにハードディスク3417に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ341に送信され、ハードディスク3417に記憶されても良い。プログラムは実行の際にRAM3416にロードされる。プログラムは、CD−ROM3501、FD3502またはネットワークから直接、ロードされても良い。
プログラムは、コンピュータ341に、上述した実施の形態の無声フィルタ学習装置等の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム340がどのように動作するかは周知であり、詳細な説明は省略する。
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
以上のように、本発明にかかる無声フィルタ学習装置は、無声フィルタ特性を適切に学習できる、という効果を有し、無声フィルタ学習装置等として有用である。
1 無声フィルタ学習装置
2 音声合成装置
11、21 無声フィルタ特性格納部
13 分析残差信号受付部
14 周期成分抽出部
16 無声フィルタ特性算出部
17 無声フィルタ特性蓄積部
22 有声フィルタ特性格納部
23 パルス列発生部
24 白色性ノイズ受付部
25 無声フィルタ
26 有声フィルタ
27 声道フィルタ
28 音声出力部

Claims (7)

  1. 音声合成に用いられる無声フィルタを学習する無声フィルタ学習装置であって、
    無声フィルタ特性を格納し得る無声フィルタ特性格納部と、
    1つ以上の分析残差信号を受け付ける分析残差信号受付部と、
    有声フィルタの学習とは独立に、前記1つ以上の各分析残差信号から、1つ以上の非周期成分信号を抽出する非周期成分信号抽出部と、
    前記1つ以上の非周期成分信号に基づいて無声フィルタ特性を算出する無声フィルタ特性算出部と、
    前記無声フィルタ特性算出部が算出した無声フィルタ特性を前記無声フィルタ特性格納部に蓄積する無声フィルタ特性蓄積部とを具備する無声フィルタ学習装置。
  2. 前記非周期成分信号抽出部は、
    有声フィルタの学習とは独立に、前記1つ以上の各分析残差信号から周期成分を抽出する周期成分抽出手段と、
    前記1つ以上の各分析残差信号から前記抽出した周期成分を除いて、1つ以上の非周期成分信号を取得する非周期成分信号取得手段とを具備する請求項1記載の無声フィルタ学習装置。
  3. 前記非周期成分信号抽出部は、
    有声フィルタの学習とは独立に、前記1つ以上の各分析残差信号から、窓関数を用いた局所的な分析に基づいて得られる1つ以上の非周期成分信号を抽出する請求項1または請求項2記載の無声フィルタ学習装置。
  4. 前記無声フィルタ特性算出部は、
    前記1つ以上の非周期成分信号に対して、線形予測分析を適用して無声フィルタの特性を算出する請求項1から請求項3いずれか一項に記載の無声フィルタ学習装置。
  5. 請求項1から請求項いずれか記載の無声フィルタ学習装置が蓄積した無声フィルタ特性を格納し得る無声フィルタ特性格納部と、
    有声フィルタ特性を格納し得る有声フィルタ特性格納部と、
    パルス列を生成するパルス列発生部と、
    白色性ノイズを生成する白色性ノイズ発生部と、
    前記有声フィルタ特性格納部に保存したフィルタ特性を用いて前記パルス列発生部が生成するパルス列を入力として有声励振信号を出力する有声フィルタ部と、
    前記無声フィルタ特性格納部に保存したフィルタ特性を用いて前記白色性ノイズ発生部が生成する白色性ノイズを入力として無声励振信号を出力する無声フィルタ部と、
    前記有声励振信号と無声励振源信号の両信号を受け付け、音声を取得する声道フィルタと、
    前記音声を出力する音声出力部とを具備する音声合成装置。
  6. 分析残差信号受付部、非周期成分信号抽出部、無声フィルタ特性算出部、および無声フィルタ特性蓄積部により実現される無声フィルタ学習方法であって、
    前記分析残差信号受付部が、1つ以上の分析残差信号を受け付ける分析残差信号受付ステップと、
    前記非周期成分信号抽出部が、有声フィルタの学習とは独立に、前記1つ以上の各分析残差信号から、1つ以上の非周期成分信号を抽出する非周期成分信号抽出ステップと、
    前記無声フィルタ特性算出部が、前記1つ以上の非周期成分信号に基づいて無声フィルタ特性を算出する無声フィルタ特性算出ステップと、
    前記無声フィルタ特性蓄積部が、前記無声フィルタ特性算出ステップで算出された無声フィルタ特性を記憶媒体に蓄積する無声フィルタ特性蓄積ステップとを具備する無声フィルタ学習方法。
  7. コンピュータを、
    1つ以上の分析残差信号を受け付ける分析残差信号受付部と、
    有声フィルタの学習とは独立に、前記1つ以上の各分析残差信号から、1つ以上の非周期成分信号を抽出する非周期成分信号抽出部と、
    前記1つ以上の非周期成分信号に基づいて無声フィルタ特性を算出する無声フィルタ特性算出部と、
    前記無声フィルタ特性算出部が算出した無声フィルタ特性を記憶媒体に蓄積する無声フィルタ特性蓄積部として機能させるためのプログラム。
JP2010198521A 2010-09-06 2010-09-06 無声フィルタ学習装置、音声合成装置、無声フィルタ学習方法、およびプログラム Expired - Fee Related JP5660437B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010198521A JP5660437B2 (ja) 2010-09-06 2010-09-06 無声フィルタ学習装置、音声合成装置、無声フィルタ学習方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010198521A JP5660437B2 (ja) 2010-09-06 2010-09-06 無声フィルタ学習装置、音声合成装置、無声フィルタ学習方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2012058293A JP2012058293A (ja) 2012-03-22
JP5660437B2 true JP5660437B2 (ja) 2015-01-28

Family

ID=46055507

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010198521A Expired - Fee Related JP5660437B2 (ja) 2010-09-06 2010-09-06 無声フィルタ学習装置、音声合成装置、無声フィルタ学習方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP5660437B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5631915B2 (ja) * 2012-03-29 2014-11-26 株式会社東芝 音声合成装置、音声合成方法、音声合成プログラムならびに学習装置
JP6802958B2 (ja) * 2017-02-28 2020-12-23 国立研究開発法人情報通信研究機構 音声合成システム、音声合成プログラムおよび音声合成方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002268660A (ja) * 2001-03-13 2002-09-20 Japan Science & Technology Corp テキスト音声合成方法および装置

Also Published As

Publication number Publication date
JP2012058293A (ja) 2012-03-22

Similar Documents

Publication Publication Date Title
CN109147758B (zh) 一种说话人声音转换方法及装置
Juvela et al. Speech waveform synthesis from MFCC sequences with generative adversarial networks
JP6496030B2 (ja) 音声処理装置、音声処理方法及び音声処理プログラム
JP7274184B2 (ja) 話者適応型モデルを実現して合成音声信号を生成するニューラルボコーダおよびニューラルボコーダの訓練方法
US10014007B2 (en) Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
Narendra et al. Robust voicing detection and F 0 estimation for HMM-based speech synthesis
JP2009003008A (ja) 雑音抑圧装置、音声認識装置、雑音抑圧方法、及びプログラム
Narendra et al. Estimation of the glottal source from coded telephone speech using deep neural networks
KR20180078252A (ko) 성문 펄스 모델 기반 매개 변수식 음성 합성 시스템의 여기 신호 형성 방법
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP6449331B2 (ja) パラメトリック音声合成システムに基づく声門パルスモデルの励起信号形成方法
JP2017520016A5 (ja) パラメトリック音声合成システムに基づく声門パルスモデルの励起信号形成方法
JP5660437B2 (ja) 無声フィルタ学習装置、音声合成装置、無声フィルタ学習方法、およびプログラム
JP3973492B2 (ja) 音声合成方法及びそれらの装置、並びにプログラム及びそのプログラムを記録した記録媒体
Saloni et al. Disease detection using voice analysis: A review
JP6142401B2 (ja) 音声合成モデル学習装置、方法、及びプログラム
Kato et al. Using hidden Markov models for speech enhancement
JP6167063B2 (ja) 発話リズム変換行列生成装置、発話リズム変換装置、発話リズム変換行列生成方法、及びそのプログラム
JP2017134321A (ja) 信号処理方法、信号処理装置及び信号処理プログラム
Harding et al. Reconstruction-based speech enhancement from robust acoustic features
WO2018043708A1 (ja) 音声のイントネーション構造を抽出する方法及びそのためのコンピュータプログラム
Ling et al. Cross-stream dependency modeling for HMM-based speech synthesis
KR100488121B1 (ko) 화자간 변별력 향상을 위하여 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법
Helander Mapping techniques for voice conversion
Ye Efficient Approaches for Voice Change and Voice Conversion Systems

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130823

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140311

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140421

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141120

R150 Certificate of patent or registration of utility model

Ref document number: 5660437

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees