JP5038995B2 - 声質変換装置及び方法、音声合成装置及び方法 - Google Patents

声質変換装置及び方法、音声合成装置及び方法 Download PDF

Info

Publication number
JP5038995B2
JP5038995B2 JP2008215711A JP2008215711A JP5038995B2 JP 5038995 B2 JP5038995 B2 JP 5038995B2 JP 2008215711 A JP2008215711 A JP 2008215711A JP 2008215711 A JP2008215711 A JP 2008215711A JP 5038995 B2 JP5038995 B2 JP 5038995B2
Authority
JP
Japan
Prior art keywords
speech
parameter
voice quality
spectrum
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008215711A
Other languages
English (en)
Other versions
JP2010049196A (ja
Inventor
正統 田村
眞弘 森田
岳彦 籠嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2008215711A priority Critical patent/JP5038995B2/ja
Priority to US12/505,684 priority patent/US8438033B2/en
Publication of JP2010049196A publication Critical patent/JP2010049196A/ja
Application granted granted Critical
Publication of JP5038995B2 publication Critical patent/JP5038995B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、ソース音声(変換元の音声)の声質をターゲット音声(変換先の音声)の声質に変換する声質変換装置及び方法に関する。
変換元の音声を入力し、その声質を変換先の声質に変換する技術を声質変換技術という。声質変換技術ではまず、音声のスペクトル情報をパラメータとして表現し、変換元のスペクトルパラメータと変換先のスペクトルパラメータとの関係から声質変換規則を学習する。そして、変換元の任意の入力音声を分析してスペクトルパラメータを求め、前記声質変換規則を適用して変換先のスペクトルパラメータに変換する。得られたスペクトルパラメータから音声波形を合成することにより、入力音声の声質を変換先の声質に変換する。
声質変換の一つの方法として、混合ガウス分布(GMM)に基づいて声質変換を行う声質変換方法(例えば、非特許文献1参照)が開示されている。非特許文献1では、変換元の音声のスペクトルパラメータからGMMを求め、GMMの各混合における回帰行列を、変換元のスペクトルパラメータと、変換先のスペクトルパラメータを対にして回帰分析を行うことにより求め、声質変換規則とする。声質変換を適用する際は、入力した変換元の音声のスペクトルパラメータがGMMの各混合において出力される確率により重み付けして回帰行列を適用し、変換先のスペクトルパラメータを得る。
GMMの回帰分析は、スペクトルパラメータとしてケプストラムを用い、誤差を最小化するように学習するが、スペクトルの高域成分などスペクトルの非周期的な特徴をあらわす成分を、適切に声質変換することは困難であり、声質変換した音声のこもり感、ノイズ感が生じるという問題があった。
また、第1話者の声質のスペクトルを第2話者の声質のスペクトルに変換するため、音素毎に作成した周波数ワーピングおよび、スペクトルの傾きの変換グルーピングし、グループの平均周波数ワーピング関数およびスペクトル傾きを用いて声質変換を行う声質変換装置が開示されている(特許文献1参照)。周波数ワーピング関数は、非線形周波数マッチングにより求め、スペクトル傾きは最小二乗近似した傾きによって求め、傾きの差に基づいて変換する。
周波数ワーピング関数は、フォルマント構造の明確な周期的な成分に対しては適切に求められるものの、スペクトルの高域成分などスペクトルの非周期的な特徴をあらわす成分に対して求めることは困難であり、また傾きの補正による変換は、変換規則の制約が強いため、変換先話者への類似度を高くすることは困難であると考えられる。この結果、声質変換した音声にこもり感やノイズ感が生じ、また変換先の声質への類似度が低くなるという問題がある。
任意の文章を入力し、音声波形を生成することを「テキスト音声合成」という。テキスト音声合成は、一般的に言語処理部、韻律処理部及び音声合成部の3つの段階によって行われる。入力されたテキストは、まず言語処理部において形態素解析や構文解析などが行われ、次に韻律処理部においてアクセントやイントネーションの処理が行われて、音韻系列・韻律情報(基本周波数、音韻継続時間長など)が出力される。最後に、音声波形生成部で音韻系列・韻律情報から音声波形を生成する。
音声合成方法の一つとして、入力された音韻系列・韻律情報を目標にして、大量の音声素片を含む音声素片データベースから音声素片系列を選択して合成する素片選択型の音声合成方法がある。素片選択型の音声合成は、予め記憶された大量の音声素片の中から、入力された音韻系列・韻律情報に基づき音声素片を選択し、選択された音声素片を接続することで音声を合成する。また、入力された音韻系列・韻律情報を目標にして、入力音韻系列の各合成単位に対して、合成音声の歪みの度合いに基づいて複数の音声素片を選択し、選択された複数の音声素片を融合することによって新たな音声素片を生成し、それらを接続して音声を合成する複数素片選択型の音声合成方法がある。融合方法としては、例えばピッチ波形を平均化する方法が用いられる。
上述した素片選択型音声合成や複数素片選択型音声合成など、テキスト音声合成の音声素片データベースを、目標とする変換先の少量の音声データを用いて声質変換する方法が開示されている(特許文献2参照)。特許文献2では、大量の変換元の音声データと、少量の変換先の音声データとを用いて声質変換規則を学習し、得られた声質変換規則を音声合成のための変換元の音声素片データベースに適用することにより、変換先の声質で任意文の音声合成を可能にする。特許文献2においては、声質変換規則としては、非特許文献1の方法などに基づいており、非特許文献1と同様スペクトルの高域成分など非周期的成分の声質変換を適切に行うことは困難であり、声質変換した音声のこもり感、ノイズ感が生じるという問題がある。
特許第3631657号公報 特開2007−193139号公報 Y. Stylianou, at el., 「Continuous Probabilistic Transform for Voice Conversion, 」 IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, VOL.6, NO.2, MARCH 1998
上述したように、従来技術である非特許文献1および特許文献2ではスペクトルパラメータに対する回帰分析等の手法に基づいて、また特許文献1では周波数ワーピングおよび傾き補正を用いて声質変換を行っているが、スペクトルの非周期成分を適切に変換することは困難であった。その結果、声質変換した結果得られる音声にこもり感、ノイズ感が生じる場合があり、また変換先声質への類似度が低くなるという問題があった。
また、すべてのスペクトル成分を変換先音声を用いて作成する場合は、あらかじめ記憶している変換先音声が少量な場合、適切な変換先音声を作成することができないという問題がある。
そこで、本発明は、上記従来技術の問題点を解決するためになされたものであって、ソース音声(変換元音声)の声質をターゲット音声(変換先音声)の声質に変換する際に、少量のターゲット音声から、ターゲット音声の声質をもつ高品質の音声を容易に生成することができる声質変換方法及び装置、該声質変換方法を用いた声質変換方法及び装置を提供することを目的とする。
声質変換装置は、
ターゲット音声の声質の特徴を表す複数のターゲット音声スペクトルパラメータを記憶するパラメータ記憶手段と、
ソース音声の声質を前記ターゲット音声の声質に変換するための規則である声質変換規則を記憶する声質変換規則記憶手段と、
入力された前記ソース音声から、その声質の特徴を表すソース音声スペクトルパラメータを抽出する抽出手段と、
前記声質変換規則を用いて、抽出された前記ソース音声スペクトルパラメータを第1の変換スペクトルパラメータに変換するパラメータ変換手段と、
前記パラメータ記憶手段に記憶されている前記複数のターゲット音声スペクトルパラメータのなかから、前記第1の変換スペクトルパラメータに類似する少なくとも1つのターゲット音声スペクトルパラメータを選択するパラメータ選択手段と、
選択されたターゲット音声スペクトルパラメータから、声質の非周期成分を表す非周期成分スペクトルパラメータを生成する非周期成分生成手段と、
前記第1の変換スペクトルパラメータに含まれる声質の周期成分を表す周期成分スペクトルパラメータと、前記非周期成分スペクトルパラメータとを混合することより第2の変換スペクトルパラメータを得るパラメータ混合手段と、
前記第2の変換スペクトルパラメータから音声波形を生成する音声波形生成手段と、
を含み、声質の周期成分はソース音声を声質変換することにより生成し、音韻環境等の変動に対して聴覚的な感度の低い非周期成分はターゲット音声から生成し、該周期成分と該非周期成分とを混合することにより、ターゲット音声のスペクトルパラメータを生成する。
少量のターゲット音声(変換先音声)から、ターゲット音声の声質をもつ高品質の音声を容易に生成することができる。
以下、本発明の実施形態について説明する。
(第1の実施形態)
図1は、第1の実施形態に係る声質変換装置の構成例を示すブロック図である。図1の声質変換装置において、変換元(ソースsource)パラメータ記憶部101は、複数の変換元(ソースsource)音声のスペクトルパラメータを記憶し、変換先(ターゲットtarget)パラメータ記憶部102は複数の変換先(ターゲットtarget)音声のスペクトルパラメータを記憶する。
声質変換規則作成部103は、変換元パラメータ記憶部101に記憶されている変換元スペクトルパラメータと、変換先パラメータ記憶部102に記憶されている変換先スペクトルパラメータとを用いて声質変換規則を作成する。この声質変換規則は、声質変換規則記憶部104に記憶される。
変換元パラメータ抽出部105は、変換元音声(ソース音声)から変換元スペクトルパラメータを抽出し、パラメータ変換部106は、抽出された変換元スペクトルパラメータを、声質変換規則記憶部104に記憶されている声質変換規則を用いて声質変換し、第1の変換スペクトルパラメータを得る。
パラメータ選択部107が、変換先パラメータ記憶部102から変換先スペクトルパラメータを選択すると、非周期成分作成部108は、選択された変換先スペクトルパラメータから非周期成分スペクトルパラメータを作成する。
パラメータ混合部109は、第1の変換スペクトルパラメータの周期成分と上記非周期成分スペクトルパラメータとを混合し、第2の変換スペクトルパラメータを得る。
波形生成部110は、上記第2の変換スペクトルパラメータから音声波形を生成し、変換音声を得る。
図1の声質変換装置は、以上の構成により、入力された変換元音声を声質変換して、変換先音声を生成する。
変換元パラメータ記憶部101と、変換先パラメータ記憶部102はそれぞれ、変換元の声質の音声データから抽出した変換元スペクトルパラメータと、変換先の声質の音声データから抽出した変換先スペクトルパラメータが記憶されている。声質変換規則生成部103は、これらのスペクトルパラメータを用いて声質変換規則を作成する。
スペクトルパラメータとは、音声のスペクトル情報を表したパラメータであり、フーリエ変換により作成した離散スペクトル、LSP係数、ケプストラム、メルケプストラム、LSP係数や、後述する局所基底に基づくパラメータなど、声質変換に用いる特徴パラメータである。音声合成の素片データベースを効率的に作成することを考慮した場合、変換元パラメータ記憶部101は、中から大規模な量の変換元スペクトルパラメータを記憶し、変換先パラメータ記憶部102には少量の変換先スペクトルパラメータが記憶されることを想定する。
図1の声質変換装置によれば、少量の目標とする変換先の声質の音声を用意するのみで、その声質をもつ任意文の合成音声を生成するこが可能になる。
声質変換規則作成部103は、変換元パラメータ記憶部101に記憶されている変換元スペクトルパラメータおよび、変換先パラメータ記憶部102に記憶されている変換先スペクトルパラメータから声質変換規則を作成する。声質変換規則とは、変換元スペクトルパラメータと変換先スペクトルパラメータとの関係から、変換元の声質のスペクトルパラメータを変換先の声質のスペクトルパラメータに変換する規則である。
声質変換規則を求めるには、回帰分析、GMMに基づく回帰分析(非特許文献1)、周波数ワーピング(特許文献1)などの手法を用いることができ、声質変換規則のパラメータは、変換元スペクトルパラメータと変換先スペクトルパラメータとを対応づけ、得られた学習データの対から作成する(特許文献2)。
声質変換規則記憶部104には、声質変換規則作成部103で作成された声質変換規則と、複数の声質変換規則がある場合は声質変換規則を選択するための情報を記憶している。
変換元パラメータ抽出部105は、入力された変換元音声から変換元スペクトルパラメータを求める。変換元音声から所定の長さの音声フレームを切り出し、得られた音声フレームをスペクトル分析し、変換元スペクトルパラメータを求める。パラメータ変換部106は、声質変換規則記憶部104に記憶されている声質変換規則を用いて、前記変換元のスペクトルパラメータを声質変換し、第1の変換スペクトルパラメータを得る。
パラメータ選択部107は、第1の変換スペクトルパラメータに対応する変換先スペクトルパラメータを変換先パラメータ記憶部102から選択する。変換先スペクトルパラメータの選択は、第1の変換スペクトルパラメータとの類似度に基づいて行うことができる。類似度は変換先パラメータ記憶部102に記憶されている各変換先スペクトルパラメータと、第1の変換スペクトルパラメータとの類似の度合を数値化したものであり、スペクトル距離に基づいて求めることや、変換元スペクトルパラメータの韻律情報や後述する音韻環境などの属性の違いを数値化したコスト関数に基づいて求めることができる。パラメータ選択部107では、第1変換スペクトルパラメータに対し、1つだけでなく、複数の変換先スペクトルパラメータを選択してもよい。
非周期成分作成部108では、選択された変換先スペクトルパラメータから非周期成分スペクトルパラメータを作成する。
音声のスペクトルは、大きく周期成分と非周期成分にわけられる。一般的に有声音の音声波形はピッチ周期の周期的な波形としてあらわされる。このピッチ周期に同期した成分を周期成分、その他の成分を非周期成分とよぶ。周期成分は、主に、声帯の振動によって励振され、声道特性および放射特性に従うスペクトル包絡をもつ成分である。非周期成分は、声道内によって生じる空気音の乱流による雑音的な成分や、空気流を一時的にとめて解放することにより生じるインパルス音的な成分など、主に、声帯の振動以外の要素により生成される。有声音では、パワーの強い低域の成分は周期成分が多く含まれ、非周期成分は主にスペクトルの高い帯域に含まれる。従って、ある境界周波数によって2つの帯域にわけた高域成分を非周期成分、低域成分を周期成分として扱うことがある。また、ピッチの整数倍の窓関数で分析し、基本周波数の整数倍以外の周波数の振幅に基づいて非周期成分を作成し、基本周波数の整数倍のハーモニクス成分に基づいて周期成分を作成することもある。
非周期成分作成部108では、選択された変換先スペクトルパラメータを周期成分と非周期成分に分離し、非周期成分スペクトルパラメータを抽出する。複数の変換先スペクトルパラメータを選択した場合は、該複数の変換先スペクトルパラメータの非周期成分を代表する非周期成分スペクトルパラメータを作成する。たとえば、選択された複数のスペクトルパラメータを平均化した後に、非周期成分を抽出することにより作成することができる。
パラメータ混合部109では、パラメータ変換部106で得られた第1の変換スペクトルパラメータと、非周期成分作成部108で作成された非周期成分スペクトルパラメータとから第2の変換スペクトルパラメータを生成する。
まず、第1の変換スペクトルパラメータを周期成分および非周期成分に分離し、第1の変換スペクトルパラメータの周期成分を抽出する。この分離処理は、非周期成分作成部108と同様である。すなわち、境界周波数を定めて低域と高域に分離する場合は、非周期成分作成部108で求めた境界周波数を用いて分離し、低域成分を周期成分として抽出することができる。また、基本周波数の整数倍のハーモニクス成分を抽出することにより第1の変換スペクトルパラメータから周期成分を抽出することができる。このように抽出した第1の変換スペクトルパラメータの周期成分と、非周期成分作成部108で作成された非周期成分スペクトルパラメータとを混合し、第2の変換スペクトルパラメータを生成する。
このように、本実施形態では、周期成分は変換元スペクトルパラメータを声質変換することにより作成し、非周期成分は、変換先スペクトルパラメータから作成する。周期成分は、音韻環境などの変動に対して聴覚的に敏感であるのに対し、非周期成分は、話者個人性に与える影響は大きいものの、音響環境の変動に対して、比較的感度が低いという傾向がみられる。また、非周期成分の変換はパワーの小さい成分であることやノイズ的な成分であることから、統計的に変換規則を作成することは困難である。従って、変換によって作成する場合より、変換先スペクトルパラメータから直接作成した方が変換先の音声の特徴の再現性が高い。このため、少量の変換先スペクトルパラメータのみを変換先パラメータ記憶部102に記憶している場合においても、全帯域を声質変換することにより作成する場合と比較し、適切な(より変換先の音声に近い)第2の変換スペクトルパラメータが得られる。
波形生成部110では、第2の変換スペクトルパラメータから音声波形を生成する。励振源を与えてフィルタを駆動することや、第2の変換スペクトルパラメータから求めた離散スペクトルに適当な位相を与えて逆フーリエ変換し、ピッチマークに従って重畳することにより音声波形を生成し、それらを接続することにより変換音声が得られる。
次に、図2に示すフローチャートを参照して1の声質変換装置の処理動作について説明する。まず、変換元パラメータ抽出部105は、入力された変換元音声から、各音声フレームの波形を切り出し(ステップS201)、切り出した音声フレームをスペクトル分析し、変換元スペクトルパラメータを得る(ステップS202)。
次にパラメータ変換部106は、声質変換規則記憶部104から声質変換規則を選択し(ステップS203)、この選択された声質変換規則を用いて変換元スペクトルパラメータを変換し、第1の変換スペクトルパラメータを得る(ステップS204)。
パラメータ選択部107は、得られた第1の変換スペクトルパラメータと、変換先パラメータ記憶部102に記憶されている各変換先スペクトルパラメータとの類似度を算出し(ステップS205)、該第1の変換スペクトルパラメータに最も類似度の高い1つまたは複数の変換先スペクトルパラメータを選択する(ステップS206)。
非周期成分作成部108は、選択された変換先スペクトルパラメータから、境界周波数など、周期・非周期成分を分離するために用いる情報を求め、分割方法を決定する(ステップS207)。そして、求めた情報(例えば境界周波数)を用いて実際に変換先スペクトルパラメータを周期成分と非周期成分とに分離し、非周期成分スペクトルパラメータを抽出する(ステップS208)。
パラメータ混合部109は、まず、ステップS204で得られた第1の変換スペクトルパラメータを周期・非周期成分に分離して、第1の変換スペクトルパラメータの周期成分を抽出する(ステップS209)。この抽出された第1の変換スペクトルパラメータの周期成分と、ステップS08で得られた非周期成分スペクトルパラメータとを混合することにより第2の変換スペクトルパラメータを生成する(ステップS210)。
最後に、波形生成部110は、こうして得られた各第2の変換スペクトルパラメータから音声波形を生成し(ステップS211)、これらを接続することにより、声質変換された音声を生成する(ステップS212)。
以下、具体例に基づき、第1の実施形態に係る声質変換装置の処理動作をより詳細に説明する。本実施形態に係る声質変換装置は、スペクトルパラメータ、声質変換方法、周期・非周期分離方法、変換先スペクトル選択方法、波形生成方法など、各ステップにおいて、さまざまな方法を用いることができるが、ここではまず1例として、スペクトルパラメータとして、局所的な基底に基づくスペクトル包絡パラメータを用い、声質変換規則としては周波数ワーピングおよび乗算パラメータを用い、周期・非周期分離はスペクトルパラメータから求めたパワーの累積値に基づいて行う場合について述べる。
局所的な基底に基づくスペクトル包絡パラメータについて説明する。変換元パラメータ記憶部101、変換先パラメータ記憶部102には、それぞれ音声データから求めたスペクトル包絡パラメータが記憶されている。変換元パラメータ抽出部105は、入力された変換元音声からスペクトル包絡パラメータを抽出する。局所的な基底に基づくスペクトル包絡パラメータは、音声から求めたスペクトル情報を、局所的な基底の線形結合により表現する。ここではスペクトル情報としては、対数スペクトルを用い、局所的な基底はあらかじめ定めた周波数スケールに対してハニング窓を用いて作成したものを用いる。
図3に周波数スケールを示す。図3の横軸は周波数を表わし、周波数スケールはこのように周波数上の間隔をあらわす。図3に定めた周波数スケールは、0〜π/2まではメルスケール上で等間隔な点、
Figure 0005038995
とし、π/2〜πは直線スケール上で等間隔な点
Figure 0005038995
としている。Nwarpはメルスケールの帯域から等間隔な帯域に、間隔が滑らかに変化するように求めており、22.05Khzの信号を、N=50、α=0.35として求める場合、Nwarp=34となる。Ω(i)はi番目のピーク周波数を示す。この様にスケールを定め、この間隔に従って局所的な基底を作成する。基底ベクトルΦi(k)はハニング窓を用いて作成しており、1≦i≦N−1に対しては、
Figure 0005038995
とし、i=0に対しては、
Figure 0005038995
として作成する。ただし、Ω(0)=0,Ω(N)=πとする。
すなわち、N個のピーク周波数のそれぞれに対応する複数の基底のそれぞれは、当該ピーク周波数を含む任意の周波数帯域に値が存在し、該周波数帯域の外側における値が零である。また、(ピーク周波数が)隣接する2つの基底は、それぞれの値が存在する周波数帯域が重なる。
このように作成した局所基底を図4A、図4Bに示す。図4Aは基底をそれぞれプロットしたもの、図4Bはすべての局所基底を重ねたものを示している。この基底とそれぞれの基底に対する係数を用いて、対数スペクトルを表現する。音声データx(n)をフーリエ変換することにより求めた対数スペクトルX(k)は、N点の線形結合として、次式であらわされる。
Figure 0005038995
係数ciは、最小自乗法によって求めることができる。このように求めた係数をスペクトルパラメータとして用いる。
すなわち、音声信号から、音源の周期性によるスペクトルの微細構造成分を除いたスペクトルであるL次のスペクトル包絡情報を抽出する。そして、N個(L>N>1)の各基底とそのそれぞれ対応する基底係数ciの線形結合と、抽出されたスペクトル包絡情報との歪み量とが最小となるように、該基底係数ciを求める。この基底係数の集まりが、スペクトル包絡情報のスペクトルパラメータである。
図5Aは、変換元パラメータ記憶部101に記憶されている、変換元の音声データから求めたスペクトルパラメータの一例を示している。図5Bは、変換先パラメータ記憶部102に記憶されている、変換先の音声データから求めたスペクトルパラメータの一例を示している。図5A及び5Bは、声質変換規則作成のための音声データとして、変換元音声および変換先音声を用意し、それぞれから求めたスペクトルパラメータの例である。
図6は、スペクトル包絡パラメータの抽出例を示している。音声データから求めたピッチ波形(図6(a))から対数スペクトル包絡(図6(b))を求め、式(5)にしたがって係数ciを求める(図6(c))。図6(d)はこの係数と基底から再構築したスペクトル包絡である。図6(c)に示すように、局所基底に基づくスペクトル包絡パラメータは、スペクトルの概形を表すパラメータになるため、パラメータの各次元のマッピングによって周波数方向のスペクトルの伸縮である周波数ワーピングを実現することができるという特徴がある。
声質変換規則記憶部104は、変換元パラメータ記憶部101に記憶されている変換元スペクトルパラメータと、変換先パラメータ記憶部102に記憶されている変換先スペクトルパラメータとから作成した声質変換規則を記憶する。変換規則として、周波数ワーピング関数と乗算パラメータを用いる場合は、次式によって声質変換を行う。
Figure 0005038995
y(i)はi次の変換後のスペクトルパラメータであり、a(i)は乗算パラメータ、Ψ(i)は周波数ワーピングを表す関数であり、x(i)は変換元のスペクトルパラメータである。このΨ(i)およびa(i)と、声質変換規則の選択に用いる情報を声質変換規則記憶部104に記憶している。声質変換規則作成部103は、変換元スペクトルパラメータと、変換先スペクトルパラメータの対を作成し、それらの対から声質変換規則を作成する。変換元のスペクトルパラメータをLBGクラスタリングし、各クラスタにおいて変換規則を作成する場合、声質変換規則選択情報は各クラスタの変換元のスペクトルパラメータのセントロイドcselと、各クラスタにおける周波数ワーピング関数Ψおよび乗算パラメータaを保持する。
図7は、声質変換規則作成部103の処理動作を説明するためのフローチャートである。図7において、まず、各変換先スペクトルパラメータに対して、変換元スペクトルパラメータを選択し、スペクトルパラメータ対を求める(ステップS701)。この対を求める方法として、同じ発話内容を発声した変換元音声データと変換先音声データから、それぞれのスペクトルパラメータを対応づける方法がある。また、特許文献2に記載されているように、変換元音声データおよび変換先音声データを音素・半音素・音節・ダイフォンなどの音声単位の音声素片に分割し、各変換先音声素片に対してコスト関数を用いて、変換元の音声素片群のなかから最適な音声素片を選択する。そして、変換元の音声素片と変換先の音声素片とを対応づけ、音声素片内で時間方向に各スペクトルを対応づける方法も用いることができる。
ステップS701で求めた複数個のスペクトルパラメータの対を用いて、以下の処理を行う。すなわち、まず、ステップS702では、複数個の対のそれぞれの変換元スペクトルパラメータをクラスタリングする。クラスタリングは、規則による分類や、スペクトル距離に基づくクラスタリング、GMMによる混合分布の作成、決定木に基づくクラスタリングなどにより行うことができる。規則による分類の場合、音素種別による分類や調音方法による分類など、あらかじめ分類規則を定め、それにしたがってクラスタリングを行う。スペクトル距離に基づくクラスタリングの場合は、変換元スペクトルパラメータに対してLBGアルゴリズムを適用し、スペクトルパラメータのユークリッド距離等に基づいてクラスタリングを行い、各クラスタのセントロイドcselを作成する。GMMに基づく場合は、尤度最大化基準に基づいて、各クラスタ(混合)の平均ベクトル、共分散行列、および混合重みを学習データから求める。また、決定木に基づくクラスタリングの場合は、各スペクトルパラメータの属性を定めて、属性を2分割する質問のセットを用意し、誤差を最小にする質問を順次探索していくことにより作成する。このように、変換元スペクトルパラメータのクラスタリングステップでは、あらかじめ定めたクラスタリング方法に従って、変換元スペクトルパラメータのクラスタリングを行う。以下、クラスタリングとしては、物理距離に基づくLBGクラスタリングを用いる。クラスタリングを行わず、各スペクトルパラメータ対それぞれについて声質変換規則を作成し、記憶してもよい。
得られた各クラスタについて、以下に示すような処理(ステップS703〜ステップS707)を行い、各クラスタに対する声質変換規則を作成する。
まず、ステップS703では、クラスタ内の各スペクトルパラメータ対に対して、周波数ワーピング関数を作成する。周波数ワーピング関数は、変換元スペクトルパラメータと、変換先スペクトルパラメータのDPマッチングによって作成することができる。DPマッチングは、誤差を最小にするようにデータ列の対応づけを行う方法であり、i次の変換元のスペクトルパラメータを周波数方向にシフトして、j次の変換先のスペクトルパラメータに対応づける周波数ワーピング関数Ψ(i)=jが得られる。対応付けの際にDPマッチングのパスの制約を与えることにより、制約下でのワーピング関数を求めることができ、たとえば全学習データ対を用いて作成した周波数ワーピング関数からのずれ幅の制約などを与えることにより、安定した周波数ワーピング関数を作成することができる。また、DPマッチングを行う際のパラメータとして、前後の次元の差分の情報や、時間方向の前後のフレームのスペクトルパラメータなどを加えることにより、安定した周波数ワーピング関数を求めることができる。
次に、ステップS704において、ステップS703において作成した各スペクトルパラメータ対に対応する周波数ワーピング関数を平均化することにより、各クラスタの平均周波数ワーピング関数を求める。
ステップS705では、乗算パラメータを得るため、各クラスタのスペクトルパラメータ対から、平均変換元スペクトルパラメータおよび平均変換先スペクトルパラメータを求める。これらは各パラメータを平均化することにより作成する。
ステップS706では、得られた平均変換元スペクトルに対して、前記平均周波数ワーピング関数を適用し、その結果である周波数ワーピングの施された平均変換元スペクトルパラメータを得る。そして、ステップS707では、平均変換先スペクトルパラメータと、周波数ワーピングの施された平均変換元スペクトルパラメータとの比を求めることにより乗算パラメータを得る。
以上のステップS703からステップS707を各クラスタに対して行うことにより、声質変換規則が作成される。
作成した声質変換規則の例を図8に示す。声質変換規則はクラスタリングした結果の各クラスタに対して、選択情報csel、周波数ワーピング関数Ψ、乗算パラメータaを記憶している。選択情報cselは、LBGクラスタリングに基づく場合は当該クラスタ中の変換元スペクトルパラメータのセントロイドであり、図8に示したように変換元平均スペクトルパラメータになる。
その他のクラスタリングを用いる場合は、それぞれの選択情報が記憶される。GMMを用いる場合、選択情報はそのパラメータとなる。決定木クラスタリングを用いる場合、別途決定木の情報を持ち、各クラスタがどのリーフノードに対応するかを示す情報が選択情報となる。クラスタリングせずに各スペクトル対それぞれに対して記憶する場合は、各変換元スペクトルパラメータをそのまま選択情報として記憶する。
周波数ワーピング関数Ψは、図8に示すように、横軸を入力、縦軸を出力として、パラメータの次元の対応づけを表す関数になる。また乗算パラメータaは、図8に示すように周波数ワーピングの施された変換元スペクトルパラメータと、変換先スペクトルパラメータとの比率を表す。以上の処理により声質変換規則記憶部104に記憶されている声質変換規則が作成される。
上述した声質変換規則を利用して、変換元音声を入力し、変換先音声を出力する声質変換装置の処理について述べる。
まず、変換元パラメータ抽出部105は、図9に示すように、変換元音声から音声フレームを切り出し(ステップS201)、さらに、変換元のスペクトルパラメータを抽出する(ステップS202)。
ここでは音声フレームとしてピッチ波形を用いる。音声データと対応するピッチマークとから、音声フレームを切り出す。各ピッチマークを中心として、ピッチの2倍のハニング窓を掛けることによりピッチ波形を切り出す。すなわち、図9(a)に示すように、「ま」という音声の音声波形に対し、図9(b)に示すように、この各ピッチマークを中心に、ピッチ同期分析に用いる音声フレームの長さ(ピッチの2倍の長さ)のハニング窓を掛ける。これにより切り出したピッチ波形(図9(c))から、図9(d)に示すように、変換元スペクトルパラメータcsrcが得られる。
なお、本実施形態では、図9に示したように、音声の各ピッチ波形に対して、スペクトルパラメータを抽出しているが、固定のフレーム長、フレームレートを用いて分析してもよい。
パラメータ変換部106では、上記のようにして得られた変換元スペクトルパラメータcsrcを変換し、第1の変換スペクトルパラメータcconv1を生成する(ステップS203、ステップS204)。まず、ステップS203において、声質変換規則記憶部104に記憶されている声質変換規則から、声質変換規則を選択する。ここでは、変換元スペクトルパラメータcsrcと声質変換規則記憶部103に選択情報として記憶されている各クラスタの変換元スペクトルパラメータcselとのスペクトル距離を求め、距離を最小化するクラスタkを選択する。
Figure 0005038995
次にステップS204において、選択されたクラスタkの周波数ワーピング関数Ψkおよび乗算パラメータakを用いて、次式(8)に従って、実際にスペクトルcsrcの変換を行い、cconv1を得る。
Figure 0005038995
この様子を図10に示す。まず、図10(a)に示す変換元スペクトルパラメータcsrcに対して、周波数ワーピング関数ψを適用して、周波数ワーピング後の変換元スペクトルパラメータを得る。これはスペクトル領域で周波数方向にシフトさせる処理になる。図10(b)の点線はcsrc、実線は周波数ワーピング後のスペクトルパラメータを示しており、この様子がわかる。そして、周波数ワーピング後のスペクトルパラメータに乗算パラメータakを掛けることにより、図10(c)に示すように、第1の変換スペクトルパラメータcconv1を得る。
音声のスペクトルにおいて、声道内などの共振周波数であるフォルマント周波数は、音韻性や話者性などの違いをあらわす重要な情報である。周波数ワーピングは、主にこのフォルマント周波数を移動させる処理を意味し、フォルマント周波数の変換によって声質が変わることが知られている。さらに、変換後に乗算パラメータによって振幅方向の値(係数値)を変換することにより形状を調整し、第1の変換先スペクトルパラメータが得られる。
上述した変換方法は、ケプストラムの回帰分析による変換などと比較すると物理的な意味が明確になるという特徴がある。以上の処理を、入力した変換元音声の各音声フレームから求めたスペクトルパラメータに対して適用し、それぞれの時刻における第1の変換スペクトルパラメータを得る。
次に、変換先スペクトル選択部107は、ステップS205において、各音声フレームに対し求めた第1の変換スペクトルパラメータcconv1と変換先パラメータ記憶部102に記憶されている各変換先スペクトルパラメータとの類似度を計算する。そして、ステップS206において、各第1の変換スペクトルパラメータに対し、最も類似する(類似度が最大の)変換先スペクトルパラメータctgtを選択する。類似度としてスペクトル距離を用いる場合は、スペクトルパラメータのユークリッド距離を求め、距離最少となる変換先スペクトルパラメータを選択する。スペクトル距離でなく、たとえばfや音韻環境など属性の違いをあらわすコスト関数を類似度として用いてもよい。このように、変換先スペクトル選択部107では、変換先のスペクトルパラメータを選択する。
なおパラメータ選択部107は、上述の説明では、1つの第1変換スペクトルパラメータに対し、1つの変換先スペクトルパラメータを選択したが、この場合に限らない。1つの第1変換スペクトルパラメータに対し、複数の変換先スペクトルパラメータを選択してもよい。その場合、類似度(距離)で順位付けを行い、上位の複数の変換先スペクトルパラメータを選択する。
非周期成分作成部108は、パラメータ選択部107で選択された変換先スペクトルパラメータを周期成分と非周期成分とに分離する。まず、ステップS207では周期成分および非周期成分の分割に必要なパラメータを求める。スペクトルパラメータを高域成分および低域成分に分割する場合は、ここで声質の周期成分と非周期成分との境界にある境界周波数を求める。
パラメータ選択部107で選択された変換先スペクトルパラメータまたは第1の変換スペクトルパラメータから、上記境界周波数を求めることができる。すなわち、スペクトルパラメータのリニア振幅領域における累積値に基づいて境界周波数を決定する場合は、まず式(9)に従って、周波数毎の振幅を全周波数帯域にわたって累積した値、すなわち、リニア領域における累積値cumを求める。
Figure 0005038995
さらに、得られたcumと、予め定めた係数λ(<1)とを用いて、全周波数帯域の振幅の累積値cumのうち予め定められた割合λ・cumを定める。そして、式(10)によって、周波数が最も低い方から順に周波数毎の振幅を累積していき、その値がλ・cum以下で且つ最大となる周波数(次数)qを求める。このqの値が境界周波数である。
Figure 0005038995
以上の処理により、境界周波数qを求めることができる。次に、ステップS208において、実際にスペクトルパラメータの分離を行い、非周期成分スペクトルパラメータchを得る。
Figure 0005038995
非周期成分スペクトルパラメータchは、式(11)に示すように、低域を「0」とすることにより求めてもよいし、境界付近に単調増加する重みをかけて滑らかに値をもつようにしてもよい。
パラメータ選択部107で複数の変換先スペクトルパラメータを選択した場合は、選択した複数の変換先スペクトルパラメータを平均化してctgtを求め、上述した処理と同様に境界周波数を求める。平均化した後、聴覚重み付けフィルタの処理や、スペクトルパラメータの谷強調の処理などをさらに適用し、ctgtおよびchを作成してもよい。
図11に選択された変換先スペクトルパラメータctgtを分割し、chを作成する様子を示す。図11(a)に選択された変換先スペクトルパラメータを示し、図11(b)に求めた非周期成分スペクトルパラメータを示す。図11に示すように、スペクトルパラメータの高域の成分および低域の成分にわけ、それぞれ非周期成分、周期成分とする。
パラメータ混合部109では、図12に示すように、パラメータ変換部106で得られた第1の変換スペクトルパラメータcconv1(図12(a)参照)から、周期成分スペクトルパラメータclを作成し(図12(b)参照)、非周期成分作成部108で得られた非周期成分スペクトルパラメータch(図12(c)参照)と混合する事により(図12(d)参照)、第2の変換スペクトルパラメータcconv2を得る。
高域・低域に分割する場合、ステップS209では、非周期成分作成部108で求めた境界次数qを用いて、次式(12)に示すように、第1の変換スペクトルパラメータの境界次数qより小さい低域部分と境界次数q以上の高域部分とに分割し、この低域部分を周期成分変換スペクトルパラメータclとする。
Figure 0005038995
ステップS210では、周期成分変換スペクトルパラメータclと、非周期成分スペクトルパラメータchとを混合し、第2の変換スペクトルパラメータcconv2を得る。
このように、パラメータ混合部109で行う「混合」は、第1の変換スペクトルパラメータの境界次数qより高い高域部分を非周期成分作成部108で作成された非周期成分で置き換えることにより、第2の変換スペクトルパラメータを生成することである。
パラメータ混合部109で混合する際は、パワーを調整して混合してもよい。この場合、次式(13)を用いて、第1の変換スペクトルパラメータのパワーpconv1および変換先スペクトルパラメータのパワーptgtを求め、その比率からパワーの補正量rを求めて、パワーを調整した非周期成分スペクトルパラメータと周期成分変換スペクトルパラメータとを混合する。
Figure 0005038995
波形生成部110では、第2の変換スペクトルパラメータcconv2から音声波形を生成する。ステップS211において、cconv2からピッチ波形を生成し、ステップS212においてピッチマークに従って重畳・接続を行うことにより音声波形を生成する。cconv2から式(5)を用いてスペクトルパラメータを生成し、適当な位相を与えて逆フーリエ変換することにより音声波形を生成する。これにより声質変換した音声が得られる。
図13に示すように、第2の変換スペクトルパラメータcconv2から離散スペクトルを生成し、逆FFTを施すことによりピッチ波形を生成し、ピッチマークに従って重畳することにより声質変換した音声波形が生成される。
ピッチ波形の生成には位相情報が必要になるが、位相スペクトル情報も局所的な基底に基づくパラメータにより位相パラメータを求め、式(10)によって求めた境界次数を用いて周期成分および非周期成分に分離する。周期成分は変換元の位相パラメータを用いて、非周期成分は選択された変換元スペクトルパラメータの位相パラメータを用いて混合することにより生成することができる。位相パラメータhiは、アンラップした位相スペクトルをarg(X(k))としたとき、以下の式により求められる。
Figure 0005038995
このように求めた位相パラメータを用いて、波形生成部110においてピッチ波形を生成する際に用いる位相スペクトルを作成する。位相スペクトルパラメータの抽出例を図14に示す。図14(a)は変換元音声の音声フレームのピッチ波形、図14(b)は、各ピッチ波形の位相スペクトル(アンラップした位相)、図14(c)は、各位相スペクトルから求めた位相パラメータ、図14(d)は式(14)により再生成した位相スペクトルを示している。
また、位相スペクトル作成処理動作を図15に示す。なお、図15において、図2と同一部分には同一符号を付している。
変換元パラメータ抽出部105は、ステップS201において、変換元音声から音声フレームを抽出すると、ステップS1501において、図14に示すように位相スペクトル、さらに、その特徴を示す位相パラメータを抽出する。
なお、上記変換元音声と同様に、変換先パラメータ記憶102には、変換先音声から求めた位相パラメータが記憶されている。この位相パラメータは、対応する変換先スペクトルパラメータ及び選択情報に対応付けて変換先パラメータ記憶102に記憶されている。
図2のステップS203〜ステップS204で第1の変換スペクトルパラメータが生成されると、前述したように、パラメータ選択部107は、ステップS205において、得られた第1の変換スペクトルパラメータと、変換先パラメータ記憶部102に記憶されている変換先スペクトルパラメータとの類似度を求め、図2のステップS206で類似度が最も高いものから順に1つまたは複数の変換先スペクトルパラメータを選択する。このとき、パラメータ選択部107は、選択された変換先スペクトルパラメータに対応付けて変換先パラメータ記憶部102に記憶されている位相パラメータ(変換先位相パラメータ)も選択する。
次に、非周期成分作成部108は、前述したように、ステップS207において、周期成分および非周期成分の分割するための境界次数qを得る。得られた境界次数qを用いてステップS1503において、変換先位相パラメータを周期成分および非周期成分に分離し、非周期成分hhを求める。式(11)と同様に境界次数qより上の帯域を抽出することにより、非周期成分hhを求めることができる。
パラメータ混合部109は、前述したように、第1の変換スペクトルパラメータを周期成分と非周期成分とに分離して、第1の変換スペクトルパラメータの周期成分を抽出し、抽出された第1の変換スペクトルパラメータの周期成分と、非周期成分スペクトルパラメータとを混合することにより第2の変換スペクトルパラメータを生成する。さらに、パラメータ混合部109は、ステップS1504において、ステップS1501において求めた変換元の位相パラメータから、式(12)と同様に低域成分を抽出することにより、周期成分位相パラメータhlを得る。そして、ステップS1505において、得られた周期成分位相パラメータhlおよび非周期成分位相パラメータhhを混合することにより変換位相パラメータhiを求め、得られたhから式(14)を用いて位相スペクトルを生成する。
得られた位相スペクトルは、波形生成部110が、ステップS211において、ピッチ波形を生成する際に用いる。
このように、変換音声の音声波形を生成する際に用いる位相スペクトルの低域部分に相当する(自然に変化する)周期成分は、入力された変換元音声から得られた位相パラメータから生成し、高域部分は変換先位相パラメータの非周期成分を用いるため、自然な変換音声が得られる。
上述した実施形態では、変換規則として変換元のLBGクラスタリングに基づく声質変換を用いたが、これに限定するものではない。
声質変換規則記憶部104には学習データとして作成した変換元および変換先のスペクトルパラメータ対それぞれの周波数ワーピング関数および乗算パラメータを蓄積しておき、そこから声質変換規則を選択することにより声質変換することができる。この場合、パラメータ変換部106はステップS203において、各変換元スペクトルに対し、類似度に基づいて1つまたは複数の声質変換規則を選択する。そして、選択された1つの声質変換規則または複数の声質変換規則から作成した平均的な声質変換規則を、声質変換に用いることができる。選択された複数の声質変換規則を平均化する際は、周波数ワーピング関数Ψおよび、乗算パラメータaをそれぞれ平均化することにより、平均周波数ワーピング関数および、平均乗算パラメータを求めて、声質変換を行うことができる。これにより、あらかじめ準備したさまざまな変換規則のなかから、適切な変換規則の選択、もしくは近傍の複数の変換規則の平均化により、適切な声質変換規則を作成することができる。これにより、本実施形態に基づく声質変換装置の周期成分のスペクトル変換を高品質に行うことができる。
また、上述の声質変換装置では、局所基底に基づくスペクトルパラメータを用いたが、同様の処理をFFTによって求めた離散スペクトルによって行うこともできる。この場合、変換元パラメータ記憶部101及び変換先パラメータ記憶部102には、それぞれFFTなどにより求めた離散スペクトルを記憶し、変換元パラメータ抽出部105は、ステップS202において離散スペクトルを求める。その後、周波数ワーピングおよび乗算パラメータを用いて変換した後、変換したスペクトルの周期成分と、選択した変換先の非周期成分のスペクトルを混合し、波形生成することにより、変換音声を生成することができる。位相も同様に離散スペクトルによる位相パラメータを用いることができる。
また、本実施形態に係る声質変換装置においては、上述した方式のみでなく、さまざまなスペクトル変換方法やスペクトルパラメータを用いることができる。以下、他のスペクトル変換方法として、ここでは差分パラメータによる方法、および非特許文献1に記載されているGMMに基づく回帰分析による方法について述べる。この場合、スペクトルパラメータとしては、上述した局所基底に基づくパラメータや離散スペクトルなど周波数領域のパラメータのみでなく、ケプストラム、メルケプストラム、LSPなどのスペクトルパラメータを用いることができる。
差分パラメータを用いて声質変換を行う場合、パラメータ変換部106では、式(6)の代わりに式(15)を用いて声質変換を行う。
Figure 0005038995
yは変換後のスペクトルパラメータであり、bは差分パラメータであり、xは変換元のスペクトルパラメータである。この差分パラメータbと、声質変換規則の選択に用いる情報(選択情報)とを声質変換規則記憶部104に記憶する。声質変換規則は、周波数ワーピングおよび乗算パラメータによる変換と同様に、声質変換規則作成部103が作成する。
すなわち、声質変換規則作成部103は、変換元スペクトルパラメータと変換先スペクトルパラメータとの対を複数個作成し、各対から差分パラメータを作成する。クラスタリングして複数の差分パラメータを記憶する場合も、前述同様、変換元のスペクトルをLBGクラスタリングし、各クラスタにおいて変換規則を作成することができる。声質変換規則記憶部104には、声質変換規則の選択情報である各クラスタの変換元のスペクトルのセントロイドcselと、各クラスタにおける差分パラメータbを記憶する。
パラメータ変換部106は、変換元スペクトルパラメータcsrcを変換し、第1の変換スペクトルパラメータcconv1を得る。まず、ステップS203において、変換元スペクトルパラメータcsrcと声質変換規則記憶部104に選択情報として記憶されている各クラスタの変換元スペクトルのセントロイドcselとのスペクトル距離を求め、この距離が最小のクラスタkを選択する。次にステップS204において、選択されたクラスタkの差分パラメータbを用いて、変換元スペクトルパラメータcsrcを第1の変換スペクトルパラメータcconv1に変換する。
Figure 0005038995
回帰分析パラメータによる声質変換規則を用いる場合は、式(17)によって声質変換を行う。
Figure 0005038995
この場合も同様に変換元のスペクトルパラメータのクラスタリングを行い、各クラスタにおいて変換規則を作成することができる。各クラスタの変換元スペクトルパラメータと変換先スペクトルパラメータとの対から回帰分析パラメータAおよびbを作成し、声質変換規則記憶部103に記憶する。パラメータ変換部106では、クラスタkを決定した後、式(18)により変換を行う。
Figure 0005038995
次に、GMMに基づく回帰分析による声質変換規則を用いる場合について述べる。この場合、変換元話者スペクトルパラメータをGMMによりモデル化し、入力した変換元話者のスペクトルパラメータがGMMの各混合成分において観測される事後確率により重み付けして声質変換を行う。GMMλは、ガウス分布の混合として、次式で表される。
Figure 0005038995
このとき、GMMに基づく声質変換の変換規則は次式で示される。
Figure 0005038995
GMMに基づく声質変換では、各混合の間で連続に変化する回帰行列が得られるという特徴がある。GMMに基づく声質変換では、各クラスタが、GMMの各混合に対応し、それぞれの混合はガウス分布であらわさる。すなわち、
Figure 0005038995
を変換規則選択情報として声質変換規則記憶部104に記憶する。各混合の回帰分析パラメータを{Ac、bc}としたとき、xは式(21)の事後確率に基づいて各混合の回帰行列を重み付けするように変換される。GMMに基づく回帰分析の場合の声質変換規則作成部103の処理動作を図16に示す。
まずステップS1601では、GMMを最尤推定する。GMMの初期値としては、LBGアルゴリズムで作成したクラスタを与え、EMアルゴリズムによりGMMの各パラメータを最尤推定する。次にS1602において、回帰行列を求めるための方程式の係数を求める。そして、ステップS1603において、各混合の回帰行列{Ac、bc}を求める。GMMに基づく回帰分析による声質変換では、GMMのモデルパラメータλおよび、各混合における回帰行列{Ac、bc}を声質変換規則として声質変換規則記憶部104に記憶する。パラメータ変換部106では、x=csrc、として、変換元スペクトルと声質変換規則記憶部104に記憶されたGMMのモデルパラメータとを用いて式(21)により確率を算出し、式(20)によってスペクトルの変換を行い、得られたyを第1の変換スペクトルパラメータcconv1として用いる。
スペクトルパラメータとしては、ケプストラム、メルケプストラム、LSPパラメータ、離散スペクトル、前記局所基底に基づくパラメータなど、さまざまなパラメータを用いることができる。式(6)による周波数ワーピングおよび乗算パラメータを用いた声質変換は周波数領域のパラメータを想定しているが、差分パラメータ、回帰分析パラメータ、GMMに基づく回帰分析などによる声質変換を用いる場合は任意のスペクトルパラメータを用いることができる。
周波数領域のパラメータとは異なるパラメータを用いる場合は、スペクトルパラメータをそのまま周期成分・非周期成分に分離することは困難な場合が多い。この場合、非周期成分作成部108およびパラメータ混合部109は、パラメータ選択部107において選択された変換先スペクトルパラメータ、もしくは第1の変換スペクトルパラメータを離散スペクトルに変換し、得られた離散スペクトルを周期・非周期成分に分離する際のスペクトルパラメータとして用いる。離散スペクトルで表された変換先スペクトルパラメータの非周期成分を非周期成分スペクトルパラメータ、離散スペクトルで表された第1の変換スペクトルパラメータの周期成分を周期成分変換スペクトルパラメータとして、これらを混合して第2の変換スペクトルパラメータを得ることができる。
この場合、パラメータ混合部109は、図17に示すように、まずステップS1701において、パラメータ変換部106で得られた第1の変換スペクトルパラメータを離散スペクトルに変換して、離散スペクトルの第1の変換スペクトルパラメータを得る。スペクトルパラメータとして、ケプストラムおよび、メルケプストラムを用いている場合は、次式(22)に示すようにして離散スペクトルを求めることができる。
Figure 0005038995
また、LSPパラメータを用いた場合には、次式(23)に示すようにして離散スペクトルを求めることができる。
Figure 0005038995
その他のスペクトルパラメータを用いた場合も、同様に、第1の変換スペクトルパラメータから離散スペクトルを生成し、離散スペクトルの第1の変換スペクトルパラメータを得る。
次に、ステップS1702において、得られた離散スペクトルの第1の変換スペクトルパラメータを周期・非周期分離を行い、周期成分を抽出する。上述した実施形態に述べたように式(10)に示すリニア領域のスペクトル振幅の累積値から求めた境界次数qを用いる場合は、qより低い次元の離散スペクトル成分を周期成分として抽出し、周期成分変換スペクトルパラメータを作成する。
ステップS1703では、このように抽出した周期成分変換スペクトルパラメータと、非周期成分スペクトルパラメータとを混合することにより第2の変換スペクトルパラメータを得る。変換先パラメータ記憶部102に記憶されている変換先スペクトルパラメータが、ケプストラム、LSPなどのパラメータの場合にも同様に、非周期成分作成部108においてスペクトルパラメータから離散スペクトルに変換した後、非周期成分スペクトルパラメータを抽出することができる。
これにより、任意のスペクトルパラメータを用いて本実施形態に基づく声質変換装置を利用することができる。
上述した実施形態では、周期成分、非周期成分の分離をスペクトル振幅の累積値に基づいて行っていたが、これに限定するものではない。MELP(Mixed excitation linear prediction)に用いられている周波数領域を複数の帯域に分割し、各帯域の周期性・非周期性を判定し、判定した結果に基づいて周期成分・非周期成分の境界を求めて分離する方法や、HNM(Harmonic plus noise model)に用いられている方法により最大有声周波数を求め、得られた最大有声周波数を境界周波数として分離する方法、もしくはPSHF(Pitch scaled harmonic filter)により、音声波形をピッチの整数倍の窓幅でDFTを行い、基本周波数の整数倍以外のスペクトル成分から非周期成分を作成し、基本周波数の整数倍のスペクトル成分から周期成分を作成することにより分割する方法、などを用いることができる。
MELP方法による周期成分・非周期成分の分離の場合、あらかじめ定めた帯域分割のフィルタによって音声信号を帯域分割し、各帯域における周期性の度合いを表す値を算出する。周期性の度合いを表す値は、ピッチの長さを幅とする音声信号の相関によって定める。
Figure 0005038995
そして、上述の周期性の度合いを表す値が所定の閾値以上の帯域を周期成分、そうでなければ非周期成分と決定する。周期成分と決定された周波数帯と、非周期成分と決定された周波数帯との境界を境界周波数とする。
非周期成分作成部108は、パラメータ選択部107において選択された変換先スペクトルパラメータに対して、上述した指標に基づいて算出した境界周波数情報を求め、該境界周波数情報に基づいて変換先スペクトルパラメータを帯域分割することにより非周期成分スペクトルパラメータを作成する。パラメータ混合部109は、得られた境界周波数以下の帯域の第1の変換スペクトルパラメータを周期成分変換スペクトルパラメータとして求め、これと上記非周期成分スペクトルパラメータとを混合することにより、第2の変換スペクトルパラメータを得る。
HNMに用いられている最大有声周波数を周期成分および非周期成分の境界として用いる場合は、f0の整数倍位置付近の最大のピークfcのそれぞれについて隣接する谷までの間の振幅の累積値をAmc(fc)として求め、隣接するピークの累積値Amc(fi)の平均値との比、ピークの値Am(fc)と隣接するピークAm(fi)との差、f0整数倍位置との距離に基づいて周期成分か非周期成分かを判別する。
Figure 0005038995
式(25)を満たす場合は、そのハーモニクスは周期成分であり、そうでなければ非周期成分である。非周期成分となるハーモニクスの中で最も低いものを境界周波数として用いる。この場合も、ハーモニクスそれぞれについて判定するため、帯域分割したそれぞれの帯域において周期性を表す度合いを算出し、得られた周期性を表す度合いに基づいて境界周波数を求める事になる。
PSHF(Pitch scaled harmonic filter)を用いる場合、スペクトルに境界周波数を定め、高域は非周期成分、低域は周期成分と分割するのではなく、全帯域のスペクトルを、周期成分および非周期成分の2つのスペクトルに分離する。この場合、ピッチのb倍の長さの離散フーリエ変換を求め、bの整数倍の位置における成分をハーモニック成分とし、ハーモニック成分を除いた成分から非周期性成分を求める。非周期成分作成部108は、パラメータ選択部107において選択されたスペクトルを周期成分および非周期成分に分離し、非周期成分を求める。パラメータ混合部109は第1の変換スペクトルパラメータから周期成分を求めて、これと上記非周期成分とを混合する。この場合、基本周波数の整数倍の情報をあらわす周期成分と、その他の成分をあらわす非周期成分として分離することになる。
上述の声質変換装置は、声質変換装置の内部で周期成分・非周期成分の分離を行っていたがこれに限定するものではない。変換元パラメータ記憶部101、変換先パラメータ記憶部102に、あらかじめ周期・非周期分離を行った音声のスペクトルから求めたスペクトルパラメータを記憶しておき、声質変換に用いてもよい。実際、ハーモニック成分に基づいて周期・非周期成分を分離する場合は、スペクトルパラメータではなく、音声データに対して直接適用する場合がある。この場合、あらかじめ周期成分および非周期成分に分離した音声を用いて声質変換を行う必要がある。この場合の声質変換装置の処理動作を図18に示す。
声質変換規則作成部103は、変換元パラメータ記憶部101に記憶されている周期成分の変換元スペクトルパラメータおよび、変換先パラメータ記憶部102に記憶されている周期成分の変換先スペクトルパラメータを用いて声質変換規則を作成する。作成した声質変換基規則を声質変換規則記憶部104に記憶しておく。
変換元の音声が入力されると、まず、変換元パラメータ抽出部105は、ステップS1801において、該入力された変換元音声を周期成分および非周期成分に分離する。そして、ステップS1802において音声フレームを切り出し、ステップS1803で周期成分のスペクトル分析を行って周期成分変換元スペクトルパラメータを得る。入力された変換元音声から、音声フレームを切り出してスペクトル分析し、その後スペクトルを周期成分および非周期成分に分割して周期成分の変換元スペクトルパラメータを求めてもよい。
次に、パラメータ変換部106は、ステップS1804で、声質変換規則記憶部104から声質変換規則を選択し、ステップS1805では、選択された声質変換規則を適用して周期成分の変換元スペクトルパラメータを変換し、周期成分の第1の変換スペクトルパラメータを得る。
パラメータ選択部107は、ステップS1805で、該第1の周期成分変換スペクトルパラメータと、変換先パラメータ記憶部102に記憶されている各周期成分変換先スペクトルパラメータとの類似度を求める。ステップS1807では、この類似度に基づいて、類似度の高い周期成分変換先スペクトルパラメータに対応する非周期成分変換先スペクトルパラメータを選択する。このとき複数の非周期成分変換先スペクトルパラメータを選択してもよい。
非周期成分作成部108は、ステップS1808において、選択された非周期成分変換先スペクトルパラメータから非周期成分スペクトルパラメータを生成する。複数の非周期成分変換先スペクトルパラメータを選択した場合は、例えば、それら複数の非周期成分変換先スペクトルパラメータを平均化することにより、1つの非周期成分スペクトルパラメータを作成する。
パラメータ混合部109は、ステップS1809において、周期成分の第1の変換スペクトルパラメータと、作成された非周期成分スペクトルパラメータとを混合し、第2の変換スペクトルパラメータを得る。
波形生成部110は、ステップS1810において、得られた第2の変換スペクトルパラメータから音声波形を生成する。ステップS1811で、生成された音声波形を接続することにより変換音声が得られる。
以上の処理により、あらかじめ周期・非周期に分離された音声およびそのスペクトルパラメータを用いて声質変換を行うことができる。
以上説明したように、第1の実施形態に係る声質変換装置によれば、変換元の音声から求めたスペクトルパラメータを声質変換することにより、変換先音声のスペクトルの周期成分を生成し、変換先音声のスペクトルの非周期成分は、該変換先音声から求めた変換先スペクトルパラメータを用いて生成する。そして、生成された周期成分及び非周期成分のスペクトルパラメータを混合して後、音声波形を生成することにより、変換先音声に最も適した非周期成分をもつ声質変換音声を得ることが可能になる。
(第2の実施形態)
図19は、第2の実施形態に係る声質変換装置の構成例を示すブロック図である。図19の声質変換装置は、変換元の音声素片を変換し、変換先の音声素片を得る。第1の実施形態に係る声質変換装置は、音声フレームを処理単位として声質変換処理を行うが、第2の実施形態では音声素片を処理単位としている点が異なる。ここで、音声素片とは、音声単位に対応する音声信号である。音声単位は、音素あるいは音素を分割したものの組み合わせによる単位である。例えば、半音素、音素(C、V)、ダイフォン(CV、VC、VV)、トライフォン(CVC、VCV)、音節(CV、V)、などであり(Vは母音、Cは子音を表す)、これらが混在しているなど可変長であってもよい。
図19の声質変換装置において、変換元音声素片記憶部1901は複数の変換元音声素片を記憶し、変換先音声素片記憶部1902は複数の変換先音声素片を記憶する。
声質変換規則作成部1903は、変換元音声素片記憶部1901に記憶されている変換元音声素片と、変換先音声素片記憶部1902に記憶されている変換先音声素片とを用いて声質変換規則を作成する。得られた声質変換規則は、声質変換規則記憶部1904に記憶される。
変換元パラメータ抽出部1905は、入力された変換元音声素片を音声フレームに分割し、各音声フレームの変換元スペクトルパラメータを抽出する。
パラメータ変換部106は、抽出された変換元スペクトルパラメータを、声質変換規則記憶部1904に記憶されている声質変換規則を用いて声質変換し、第1の変換スペクトルパラメータを生成する。
音声素片選択部1907が、変換先音声素片記憶部1902から変換先音声素片を選択すると、非周期成分作成部1908は、選択された変換先音声素片の各音声フレームを変換元音声素片の音声フレームに対応付け、各音声フレームの非周期成分スペクトルパラメータを作成する。
パラメータ混合部1909は、第1の変換スペクトルパラメータから作成した周期成分変換スペクトルパラメータと、非周期成分作成部1908で作成された非周期成分スペクトルパラメータとを混合し、第2の変換スペクトルパラメータを生成する。パラメータ混合部1909で行う「混合」も、第1の実施形態と同様、第1の変換スペクトルパラメータの境界次数qより高い高域部分を非周期成分作成部108で作成された非周期成分で置き換えることにより、第2の変換スペクトルパラメータを生成することである。
波形生成部1910は、第2の変換スペクトルパラメータから音声波形を生成し、変換音声素片を得る。
図19の声質変換装置は、以上の構成より、入力された変換元音声素片を声質変換した変換先音声素片を生成する。
変換元音声素片記憶部1901と変換先音声素片記憶部1902はそれぞれ、変換元の声質の音声データを分割して得られる変換元音声素片及びその各フレームのスペクトルパラメータと、変換先の声質の音声データを分割して得られる変換先音声素片及びそのスペクトルパラメータが記憶されている。声質変換規則作成部1903は、これら音声素片のスペクトルパラメータを用いて声質変換規則を作成する。
図20に、音声素片記憶部1901,1902に記憶されている音声素片情報の例を示す。各音声素片の音声素片情報として、音声単位に切り出した音声波形とピッチマークおよび、各ピッチマーク位置におけるスペクトルパラメータとを含む音声素片情報が音声素片番号とともに記憶されている。音声素片記憶部1901,1902には、上記各音声素片情報と共に図21に示す音素環境情報を記憶している。音素環境情報(属性情報)は、音声素片番号とその音韻種別、基本周波数、音韻継続時間長、接続境界のスペクトルパラメータ、音韻環境情報などを含む。
声質変換規則作成部1903は、変換元音声素片記憶部1901に記憶されている変換元音声素片のスペクトルパラメータおよび、変換先音声素片記憶部1902に記憶されている変換先音声素片のスペクトルパラメータから声質変換規則を作成する。
声質変換規則記憶部1904には、音声素片のスペクトルパラメータの声質変換規則および複数の声質変換規則がある場合は声質変換規則を選択するための情報を記憶している。声質変換規則は第1の実施形態に記載されている方法や、特許文献2に記載されている方法などにより作成する。
変換元パラメータ抽出部1905は、入力された変換元音声素片からスペクトルパラメータを求める。変換元音声素片はピッチマークの情報を持つ。変換元音声素片の各ピッチマークに対応する音声フレームを切り出し、得られた音声フレームをスペクトル分析し、スペクトルパラメータを求める。
パラメータ変換部1906は、声質変換規則記憶部1904に記憶されている声質変換規則を用いて、変換元音声素片のスペクトルパラメータを声質変換し、第1の変換スペクトルパラメータを得る。
音声素片選択部1907は、変換元音声素片に対応する変換先音声素片を変換先音声素片記憶部1902から選択する。すなわち、音声素片選択部1907は、第1の変換スペクトルパラメータと変換先音声素片記憶部1902に記憶されている変換先音声素片との類似度に基づいて変換先音声素片を選択する。第1の変換スペクトルパラメータとの類似度は、変換先音声素片のスペクトルパラメータと第1の変換スペクトルパラメータを時間方向に対応づけて求めたスペクトル距離でもよい。また、変換元音声素片の韻律や音韻環境などの音素環境と、変換先音声素片の音素環境との違いを数値化したコスト関数に基づいて類似度を求めることができる。
コスト関数は、属性情報毎にサブコスト関数Cn(ut,uc)(n:1,…,N、Nはサブコスト関数の数)を作成し、サブコスト関数の線形和としてあらわす。utは変換元の音声素片、ucは変換先音声素片記憶部1902に記憶されている変換先音声素片のうち、utと同じ音韻の音声素片を表す。サブコスト関数は、変換元音声素片と変換先音声素片の基本周波数の違い(差)を表す基本周波数コストC1(ut,uc)、音韻継続時間長の違い(差)を表す音韻継続時間長コストC2(ut,uc)、素片境界におけるスペクトルの違い(差)を表すスペクトルコストC3(ut,uc)、C4(ut,uc音韻環境の違い(差)を表す音韻環境コストC5(ut,uc)、C6(ut,uc)を用いる。具体的には、基本周波数コストは、
Figure 0005038995
このように対数基本周波数の差として算出する。ここで、f(u)は音声素片uに対応する属性情報から平均基本周波数を取り出す関数を表す。また、音韻継続時間長コストは、
Figure 0005038995
から算出する。ここで、g(u)は音声素片uに対応する属性情報から音韻継続時間長を取り出す関数を表す。スペクトルコストは、音声素片の境界におけるケプストラム距離
Figure 0005038995
から算出する。ここで、hl(u)は音声素片uの左素片境界、hr(u)は右素片境界のケプストラム係数をベクトルとして取り出す関数を表す。音韻環境コストは、隣の素片が等しいかどうかを表す距離
Figure 0005038995
から算出する。変換先音声素片と変換元音声素片の歪みを表すコスト関数は、次式(30)に示すように、これらのサブコスト関数の重み付き和として定義する。
Figure 0005038995
ここで、wnはサブコスト関数の重みを表し、あらかじめ定めた所定の値を用いる。式(30)は、ある変換元音声素片に、変換先音声素片記憶部1902中のある音声素片を当てはめた場合の歪みを表す当該音声素片のコスト関数である。
式(30)により得られる変換元音声素片と変換先音声素片との間のコストを類似度として用い、変換先音声素片を選択することができる。音声素片選択部1907は、1つだけでなく、複数の変換先音声素片を選択してもよい。
非周期成分作成部1908は、音声素片選択部1907で選択された変換先音声素片から非周期成分スペクトルパラメータを作成する。選択された変換先音声素片のスペクトルパラメータを周期成分・非周期成分に分離し、非周期成分スペクトルパラメータを抽出する。周期成分および非周期成分の分離は第1の実施形態と同様に行うことができる。複数の変換先スペクトルパラメータを選択した場合は、複数の変換先音声素片のスペクトルパラメータの非周期成分を平均化して、1つの非周期成分スぺクトルパラメータを作成する。非周期成分スペクトルパラメータは、変換先音声素片のスペクトルパラメータと、変換元音声素片のスペクトルパラメータを時間方向に対応づけて、対応付けられた変換先音声素片のスペクトルパラメータから生成する。これにより、第1の変換スペクトルパラメータと同じ個数の非周期成分スペクトルパラメータが生成される。
パラメータ混合部1909は、第1の変換スペクトルパラメータおよび生成された非周期成分スペクトルパラメータから第2の変換スペクトルパラメータを生成する。まず、第1の変換スペクトルパラメータを周期成分および非周期成分に分離し、該周期成分を周期成分変換スペクトルパラメータとして抽出する。得られた周期成分変換スペクトルパラメータと、非周期成分作成部1908で生成された非周期成分スペクトルパラメータとを混合し、第2の変換スペクトルパラメータを生成する。
波形生成部1910は、第2の変換スペクトルパラメータから音声波形を生成し、変換音声素片を得る。
次に、図22を参照して、図19の声質変換装置の処理動作について説明する。
まず、変換元パラメータ抽出部1905は、ステップS2201において、入力された変換元音声素片から、各ピッチマーク時刻に対応した音声フレームのピッチ波形を切り出す。そして、ステップS2202において、切り出したピッチ波形をスペクトル分析し、スペクトルパラメータを得る。
パラメータ変換部1906は、ステップS2203において、声質変換規則記憶部1904から声質変換規則を選択し、ステップS2204において、選択された声質変換規則を用いてスペクトルパラメータを変換し、第1の変換スペクトルパラメータを得る。
ステップS2205では、音声素片選択部1907は、得られた第1の変換スペクトルパラメータと、変換先音声素片記憶部1902に記憶されている各変換先音声素片との類似度を算出する。そして、ステップS2206において、得られた類似度に基づいて変換先音声素片を選択する。
ステップS2207では、非周期成分作成部1908は、第1の変換スペクトルパラメータと選択された変換先音声素片の各スペクトルパラメータとを時間方向に対応付ける。対応付けは、ピッチ波形の削除および複製によってピッチ波形数を揃えることにより行う。
そして、ステップS2208において、選択された変換先スペクトルパラメータ、もしくは変換先スペクトルパラメータから求めたスペクトルを周期成分・非周期成分に分離するために必要な、例えば境界周波数などを決定する。ステップS2209では、決定された境界周波数を用いて、変換先スペクトルパラメーラから非周期成分を分離して、非周期成分スペクトルパラメータを抽出する。
ステップS2202では、パラメータ混合部1909は、第1の変換スペクトルパラメータからその周期成分を分離して、周期成分変換スペクトルパラメータを得る。そして、ステップS2211において、当該周期成分変換スペクトルパラメータと、ステップS2209で得られた非周期成分スペクトルパラメータとを混合することにより、第2の変換スペクトルパラメータを得る。
波形生成部1910は、ステップS2212において、こうして得られた各スペクトルパラメータから音声波形を生成し、ステップS2213において、これらを接続することにより、声質変換した音声を生成する。
このように、第2の実施形態に係る声質変換装置によれば、音声素片を単位として声質変換を行うことが可能となる。周期成分は変換元の音声素片から求めたスペクトルパラメータを声質変換し、非周期成分は選択された変換先音声素片から作成し、これらを混合することにより、変換先の声質に最適な非周期成分をもつ声質変換音声素片を得ることが可能になる。
(第3の実施形態)
図23は、第3の実施形態に係るテキスト音声合成装置の構成例を示すブロック図である。図23のテキスト音声合成装置は、第2の実施形態に係る声質変換装置を適用した音声合成装置であり、任意のテキスト文が入力されると、変換先の声質をもつ合成音声を生成する。
図23のテキスト音声合成装置は、テキスト入力部2301、言語処理部2302、韻律処理部2303、音声合成部2304、音声波形出力部2305、及び声質変換部2306を含む。声質変換部2306は、図19の声質変換装置に相当する。
言語処理部2302は、テキスト入力部2301から入力されるテキストの形態素解析・構文解析を行い、その結果を韻律処理部2303へ出力する。韻律処理部2303は、言語解析結果からアクセントやイントネーションの処理を行い、音韻系列(音韻記号列)及び韻律情報を生成し、音声合成部2304へ出力する。音声合成部2304は、音韻系列及び韻律情報と、声質変換部2306で生成された音声素片とを用いて音声波形を生成する。こうして生成された音声波形は音声波形出力部2305から出力される。
図24は、図23の音声合成部2304及び声質変換部2306の構成例を示したものである。音声合成部2304は、音韻系列・韻律情報入力部2401、音声素片選択部2402、音声素片編集・接続部2403、音声波形出力部2305と、声質変換部2306で声質変換により作成された変換音声素片および属性情報を保持する変換音声素片記憶部2404を含む。
声質変換部2306は、図19の声質変換装置の構成のうち、少なくとも変換元パラメータ抽出部1905以外の構成を含み、変換元音声素片記憶部1901に記憶されている各音声素片を変換先音声素片に変換する。すなわち、図22のステップS2203〜ステップS2213に示したように、変換先音声素片記憶部1902に含まれる変換先音声素片と、声質変換規則記憶部1904に含まれる声質変換規則を用いて、第2の実施形態で説明したように、変換元音声素片記憶部1901に記憶されている各音声素片の声質を変換先音声の声質に変換する。声質変換部2306で声質変換した結果得られる音声素片は音声合成部2304の変換音声素片記憶部2404に記憶される。
変換元音声素片記憶部1901および変換先音声素片記憶部1902は、第2の実施形態と同様に、変換元の音声データから作成した所定の音声単位(合成単位)に分割された音声素片および属性情報が記憶されている。音声素片は、図20に示すように、ピッチマークの付与された変換元話者の音声素片の波形が当該音声素片を識別するための番号とともに格納されている。属性情報は、図21に示すように音韻(半音素名など)、基本周波数、音韻継続時間長、接続境界ケプストラム、音素環境など、音声素片選択部2402において用いる情報が当該音声素片の素片番号と共に記憶されている。音声素片および属性情報は、変換元話者の音声データから、ラベリング、ピッチマーキング、属性生成、素片抽出等の工程により作成される。
声質変換部2306では、第2の実施形態で説明したように、まず、パラメータ変換部1906が、声質変換規則記憶部1904に記憶されている声質変換規則を用いて、変換元音声素片記憶部1901に記憶されている各音声素片のスペクトルパラメータから第1の変換スペクトルパラメータを生成する。音声素片選択部1907が、前述したように、変換先音声素片記憶部1902から変換先音声素片を選択すると、非周期成分作成部1908は、選択された変換先音声素片を用いて、前述したように、非周期成分スペクトルパラメータを生成する。そして、パラメータ混合部1909は、第1の変換スペクトルパラメータから抽出された周期成分変換スペクトルパラメータと、非周期成分作成部1908で生成された非周期成分スペクトルパラメータとを混合することにより第2の変換スペクトルパラメータを作成し、第2の変換スペクトルパラメータから波形生成することにより変換音声素片を得る。このようにして得られた変換音声素片とその属性情報を変換音声素片記憶部2404に蓄積する。
音声合成部2304では、変換音声素片記憶部2404から音声素片を選択し、音声合成を行う。音韻系列・韻律情報入力部2401には、韻律処理部2303から出力された入力テキストに対応する音韻系列及び韻律情報が入力される。音韻系列・韻律情報入力部2401に入力される韻律情報としては、基本周波数、音韻継続時間長などがある。
音声素片選択部2402は、入力音韻系列を予め定められた音声単位(合成単位)に区切る。そして、各音声単位に対し、入力韻律情報と、変換音声素片記憶部2404に保持されている属性情報とに基づいて合成音声の歪みの度合いを推定し、この合成音声の歪みの度合いに基づいて変換音声素片記憶部2404に記憶されている音声素片のなかから、音声素片を選択する。ここで、合成音声の歪みの度合いは変換音声素片記憶部2404に保持されている属性情報と音韻系列・韻律情報入力部2401から入力された目標音素環境との違いに基づく歪みである目標コストと、接続する音声素片間の音素環境の違いに基づく歪みである接続コストとの重み付け和として求められる。
音声素片を変形・接続して合成音声を生成する際に生ずる歪の要因ごとにサブコスト関数Cn(ui,ui-1,ti)(n:1,…,N,Nはサブコスト関数の数)を定める。第2の実施形態で用いたコスト関数は、2つの音声素片の間の歪みを測るためのコスト関数であるが、ここで定義するコスト関数は、入力韻律・音韻系列と音声素片との間の歪みを測るためのコスト関数である点が異なる。tiは、入力音韻系列および入力韻律情報に対応する目標とする音声(目標音声)をt=(t1,…,tI)としたときのi番目のセグメントに対応する部分の音声素片の目標とする属性情報を表し、uiは変換音声素片記憶部2404に記憶されている音声素片のうち、tiと同じ音韻の音声素片を表す。
サブコスト関数は、変換音声素片記憶部2404に記憶されている音声素片を用いて合成音声を生成したときに生ずる当該合成音声の目標音声に対する歪みの度合いを推定するためのコストを算出するためのものである。目標コストとしては、変換音声素片記憶部2404に記憶されている音声素片の基本周波数と目標の基本周波数との違い(差)を表す基本周波数コストC1(ui,ui-1,ti)、音声素片の音韻継続時間長と目標の音韻継続時間長との違い(差)を表す音韻継続時間長コストC2(ui,ui-1,ti)、音声素片の音韻環境と、目標の音韻環境との違い(差)を表す音韻環境コストC3(ui,ui-1,ti)を用いる。接続コストとしては、接続境界でのスペクトルの違い(差)を表すスペクトル接続コストC4(ui,ui-1,ti)を用いる。
これらのサブコスト関数の重み付き和を、式(31)の音声単位コスト関数と定義する。
Figure 0005038995
ここで、wnはサブコスト関数の重みを表す。本実施形態では、簡単のため、wnはすべて「1」とする。式(31)は、ある音声単位に、ある音声素片を当てはめた場合の当該音声素片の音声単位コストである。
入力音韻系列を音声単位で区切ることにより得られる複数のセグメントのそれぞれに対し、式(31)から音声単位コストを算出した結果を、全セグメントについて足し合わせたものをコストと呼び、当該コストを算出するためのコスト関数を次式(32)に示すように定義する。
Figure 0005038995
音声素片選択部2402では、式(32)に示したコスト関数を用いて、音声素片を選択する。ここでは、変換音声素片記憶部2404に記憶されている音声素片のなかから、式(32)で算出されるコスト関数の値が最小となる音声素片の系列を求める。このコストが最小となる音声素片の組み合わせを最適素片系列と呼ぶこととする。すなわち、最適音声素片系列中の各音声素片は、入力音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対応する。最適音声素片系列中の各音声素片から算出された上記音声単位コストと式(32)より算出されたコストの値は、他のどの音声素片系列よりも小さい値である。なお、最適素片系列の探索には、動的計画法(DP:dynamic programming)を用いることでより効率的に行うことができる。
音声素片編集・接続部2403では、選択された音声素片を、入力韻律情報に従って変形し、接続することで合成音声の音声波形を生成する。選択された音声素片からピッチ波形を抽出し、当該音声素片の基本周波数、音韻継続時間長のそれぞれが、入力韻律情報に示されている目標の基本周波数、目標の音韻継続時間長になるようにピッチ波形を重畳することで、音声波形を生成することができる。
図25は、素片編集・接続部2403の処理を説明するための図である。図25では、「あいさつ」という合成音声の音素「a」の音声波形を生成する例を示している。図25(a)は、音声素片選択部2402で選択された音声素片、図25(b)は、ピッチ波形抽出のためのハニング窓、図25(c)はピッチ波形、および図25(d)は合成音声を示している。
図25(d)において、合成音声の縦棒はピッチマークを表しており、入力韻律情報に示されている目標の基本周波数、目標の音韻継続時間長に応じて作成される。このピッチマークにしたがって所定の音声単位毎に、選択された音声素片から抽出したピッチ波形を重畳合成することにより、素片の編集を行って基本周波数および音韻継続時間長を変更する。その後に、音声単位間で、隣り合うピッチ波形を接続して合成音声を生成する。
上述したように、第3の実施形態では、第2の実施形態で説明した声質変換装置を用いて声質変換された音声素片を用いて、素片選択型の音声合成を行うことが可能になり、入力された任意のテキストに対応する合成音声を生成することができる。
すなわち、第2の実施形態で説明した声質変換装置により、変換先話者の少量の音声素片を用いて作成した声質変換規則を、変換元音声素片記憶部1901に記憶されている各音声素片に適用して周期成分スペクトルパラメータを作成する。該変換音声の音声素片から選択された音声素片を用いて生成された非周期成分スペクトルパラメータと、該周期成分スペクトルパラメータとを混合して生成された第2の変換スペクトルパラメータを用いて、変換先話者の声質を有する音声素片を生成し、これを変換音声素片記憶部2404に記憶する。変換音声素片記憶部2404に記憶された音声素片から音声を合成することにより、変換先話者の声質を持つ任意のテキスト文の合成音声を得ることができる。また、本実施形態によれば、変換先話者の声質に最適なスペクトル非周期成分をもつ変換音声素片が得られ、自然な変換先話者の合成音声が得られる。
第3の実施形態では、1つの音声単位(合成単位)に対し1つの音声素片を選択するタイプの音声合成に声質変換を適用する場合について述べたが、これに限定するものではない。1つの音声単位に対し複数の音声素片を選択し、これらを融合するタイプの音声合成に声質変換を適用してもよい。この場合の音声合成部の構成例を図26に示す。なお、図26の音声合成部も図23のテキスト音声合成装置の音声合成部2304として用いることができる。
図26において、変換先音声素片記憶部2404は、図24の変換先音声素片記憶部2404と同様に、声質変換部2306で生成された変換音声素片を記憶する。
音韻系列・韻律情報入力部2601には、図23の韻律処理部2303から出力された、テキスト解析の結果得られた音韻系列および韻律情報が入力される。複数音声素片選択部2602は、変換音声素片記憶部2404から、式(32)を用いて算出されたコストの値に基づいて1音声単位につき複数の音声素片を選択する。そして、複数音声素片融合部2603は、選択された複数の音声素片を融合して融合音声素片を生成する。融合音声素片編集・接続部2604は、生成された融合音声素片に対し、韻律の変更および接続を行い、合成音声の音声波形を生成する。
複数素片選択部2602の処理および複数音声素片融合部2603の処理は(特開2005−164749号公報)に示されている手法により行うことができる。複数素片選択部2602では、まず式(32)のコスト関数の値を最小化するようにDPアルゴリズムを用いて最適音声素片系列を選択する。その後、各音声単位に対応する区間に対し、その前後の音声単位区間の最適音声素片との接続コスト及び当該区間の目標コストの和をコスト関数として用いて、このコスト関数の値の小さい順に、変換音声素片記憶部2404に記憶されている音声素片のなかから複数の音声素片を選択する。
このように、1つの区間に対し選択された複数の音声素片は、複数音声素片融合部2603において融合され、当該複数の音声素片の代表音声素片を得る。複数音声素片融合部2603における音声素片融合処理は、まず、選択された各音声素片からピッチ波形を抽出する。抽出したピッチ波形の波形数を、ピッチ波形の複製や削除を行うことにより、目標とする韻律から生成したピッチマークに揃える。そして、各ピッチマークに対応する複数のピッチ波形を時間領域で平均化することにより代表音声素片を生成する。
融合音声素片編集・接続部2604は、各区間の代表音声素片に対し、韻律の変更および接続を行い、合成音声の音声波形を生成する。
図26に示した複数の素片を選択し、これらを融合するタイプの音声合成は、図24の素片選択型の音声合成よりも、安定感の高い合成音声が得られることが確認されている。従って、図26に示した構成によれば、安定感・肉声感の高い、変換先話者の声質を有する合成音声を生成することができる。
上記実施形態では、音声素片選択部2402と複数音声素片選択部2602は、変換音声素片記憶部2404に記憶されている音声素片のなかから音声素片を選択する音声合成について説明したが、この場合に限らない。素片選択部2402と複数音声素片選択部2602は、変換音声素片記憶部2404に記憶されている変換音声素片と、変換先音声素片記憶部1902に記憶されている変換先音声素片とのなかから音声素片を選択してもよい。この場合、素片選択部2402と複数音声素片選択部2602は、変換音声素片記憶部2404および変換先音声素片記憶部1902に記憶されている同じ音韻の音声素片のなかから素片選択を行う。ただし、変換先音声素片記憶部1902に記憶されている変換先音声素片は変換先の声質をそのままもつものの、少量であることを仮定しているため、変換音声素片素片記憶部2404に記憶されている変換音声素片を選択する割合は高くなる。この割合を制御するため、式(30)のコスト関数の計算に用いるサブコスト関数の1つとして、変換音声素片利用コストC5(ui,ui-1,ti)を用いてもよい。
変換先音声素片利用コストは、変換音声素片記憶部2404に記憶される変換音声素片を用いる場合は「1」、変換先音声素片記憶部1902に記憶される変換先音声素片を用いる場合は「0」を返すコスト関数である。その重みw5の値により、変換音声素片記憶部2404に記憶されている変換音声素片が選択される割合を制御することができる。適切な重みw5を与えることにより、変換先音声素片および変換音声素片を適切に切り替えて利用することができ、より高品質な変換先話者の声質を有する合成音声が得られる。
上記実施形態では、1つの音声素片を選択するタイプの音声合成や、複数の素片を選択し、これらを融合するタイプの音声合成に声質変換を適用する場合を説明したが、これらに限定するものではない。例えば素片学習型音声合成の1つである閉ル―プ学習に基づく音声合成装置(特許第3281281号)にも第1及び第2の声質変換を適用することもできる。
素片学習型音声合成では、学習データとなる複数の音声素片からそれらを代表する音声素片を学習し保持し、その学習された音声素片を入力音韻系列・韻律情報に従って編集・接続することにより音声を合成する。この場合、学習データとなる音声素片を声質変換し、その結果得られた変換音声素片から代表音声素片を学習することにより声質変換を適用する。また、学習された音声素片に対して声質変換を適用し、変換先話者の声質の代表音声素片を作成することもできる。
第1乃至第3の実施形態では、ピッチ同期分析に基づいて音声素片を分析・合成しているが、これに限定するものではない。例えば無声音の区間ではピッチは観測されないためピッチ同期処理を行うことはできない。このような区間では、固定フレームレートによる分析合成により声質変換することができる。ただし、無声音区間に限らず固定フレームレートによる分析合成を用いてもよい。また、無声音の音声素片は変換せず、変換元話者の音声素片をそのまま利用してもよい。
以上説明した声質変換装置および音声合成装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、声質変換装置および音声合成装置は、上記のコンピュータ装置に搭載されたプロセッサに、(図2、図15、図18、図22に示すような処理の)プログラムを実行させることにより、図1や図19に示した声質変換装置の各構成部の機能を実現することができる。また、上記のコンピュータ装置に搭載されたプロセッサに、プログラムを実行させることにより、図23等に示した音声合成装置の各構成部の機能を実現することができる。
このとき、声質変換装置および音声合成装置は、上記のプログラムをコンピュータ装置にあらかじめインストールすることで実現してもよいし、CD−ROMなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。
また、本発明の実施の形態に記載した本発明の手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、半導体メモリなどの記録媒体に格納して頒布することもできる。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
第1の実施形態に係る声質変換装置の構成例を示すブロック図。 図1の声質変換装置の処理動作を説明するためのフローチャート。 スペクトルパラメータを説明するための周波数スケールの例を示す図。 スペクトルパラメータを説明のための局所基底の例を示す図。 全ての局所基底を重ね合わせた状態を示す図。 変換元スペクトルパラメータ記憶部におけるスペクトルパラメータの記憶例を示す図。 変換先スペクトルパラメータ記憶部におけるスペクトルパラメータの記憶例を示す図。 スペクトル包絡パラメータを抽出例を示す図。 声質変換規則作成部の処理動作を説明するためのフローチャート。 声質変換規則記憶部における声質変換規則の記憶例を示す図。 変換元パラメータ抽出部におけるピッチマークの付与と音声フレームの抽出の例を示す図。 パラメータ変換部におけるスペクトルパラメータの声質変換の例を示す図。 非周期成分作成部における非周期成分スペクトルパラメータの生成方法を説明するための図。 パラメータ混合部における第2の変換スペクトルパラメータの生成方法を説明するための図。 波形生成部の処理を説明するための図。 位相パラメータを説明するための図。 図1の声質変換装置において位相パラメータの生成処理動作を説明するためのフローチャート。 声質変換規則作成部の他の処理動作を説明するためのフローチャート。 パラメータ混合部の他の処理動作を説明するためのフローチャート。 図1の声質変換装置の他お処理動作を説明するためのフローチャート。 第2の実施形態に係る声質変換装置の構成例を示すブロック図。 変換元・変換先音声素片記憶部における音声素片の記憶例を示す図。 変換元・変換先音声素片記憶部に記憶される各音声素片の音素環境情報(属性情報)の例を示す図。 図19の声質変換装置の処理動作を説明するためのフローチャート。 第3の実施形態に係る音声合成装置の構成例を示すブロック図。 音声合成部の構成例を示すブロック図。 音声波形編集・接続部の処理を説明するための図。 音声合成装置の他の構成例を示すブロック図。
符号の説明
101…変換元パラメータ記憶部
102…変換先パラメータ記憶部
103…声質変換規則作成部
104…声質変換規則記憶部
105…変換元パラメータ抽出部
106…パラメータ変換部
107…パラメータ選択部
108…非周期成分作成部
109…パラメータ混合部
110…波形生成部

Claims (20)

  1. ターゲット音声の声質の特徴を表す複数のターゲット音声スペクトルパラメータを記憶するパラメータ記憶手段と、
    ソース音声の声質を前記ターゲット音声の声質に変換するための規則である声質変換規則を記憶する声質変換規則記憶手段と、
    入力された前記ソース音声から、その声質の特徴を表すソース音声スペクトルパラメータを抽出する抽出手段と、
    前記声質変換規則を用いて、抽出された前記ソース音声スペクトルパラメータを第1の変換スペクトルパラメータに変換するパラメータ変換手段と、
    前記パラメータ記憶手段に記憶されている前記複数のターゲット音声スペクトルパラメータのなかから、前記第1の変換スペクトルパラメータに類似する少なくとも1つのターゲット音声スペクトルパラメータを選択するパラメータ選択手段と、
    選択されたターゲット音声スペクトルパラメータから、声質の非周期成分を表す非周期成分スペクトルパラメータを生成する非周期成分生成手段と、
    前記第1の変換スペクトルパラメータに含まれる声質の周期成分を表す周期成分スペクトルパラメータと、前記非周期成分スペクトルパラメータとを混合することより第2の変換スペクトルパラメータを得るパラメータ混合手段と、
    前記第2の変換スペクトルパラメータから音声波形を生成する音声波形生成手段と、
    を含む声質変換装置。
  2. 前記非周期成分生成手段は、
    選択されたターゲット音声スペクトルパラメータまたは前記第1の変換スペクトルパラメータから、声質の周期成分と非周期成分との境界となる境界周波数を求め、
    前記選択されたターゲット音声スペクトルパラメータから前記境界周波数より高い帯域を前記非周期成分スペクトルパラメータとして抽出することを特徴とする請求項1記載の声質変換装置。
  3. 前記非周期成分生成手段は、
    選択されたターゲット音声スペクトルパラメータから、基本周波数の整数倍の周波数成分から前記周期成分を抽出し、該周期成分以外の周波数成分から前記非周期成分スペクトルパラメータを抽出することを特徴とする請求項1記載の声質変換装置。
  4. 周波数が最も低い方から順に、前記選択されたターゲット音声スペクトルパラメータまたは前記第1の変換スペクトルパラメータの周波数毎の振幅を累積していき、その値が、全周波数帯域にわたる周波数毎の振幅の累積値のうち予め定められた割合以下で且つ最大となる周波数を前記境界周波数と決定する請求項2記載の声質変換装置。
  5. 前記選択されたターゲット音声スペクトルパラメータを複数の帯域に分割し、各帯域の周期性の度合いを表す値を算出し、この度合いを表す値に基づき各帯域を前記周期成分と前記非周期成分とに分類して、該周期成分と該非周期成分との境界の周波数を前記境界周波数として決定する請求項3記載の声質変換装置。
  6. 前記パラメータ記憶手段は、各ターゲット音声スペクトルパラメータの前記非周期成分をさらに記憶し、
    前記非周期成分生成手段は、前記パラメータ記憶手段に記憶されている、前記第1の変換スペクトルパラメータに類似する1又は複数のターゲット音声スペクトルパラメータの前記非周期成分から、前記非周期成分スペクトルパラメータを生成する請求項1記載の声質変換装置。
  7. 前記パラメータ記憶手段は、前記ターゲット音声の音声信号から抽出されたスペクトル包絡情報と、周波数毎の複数の基底及び該複数の基底のそれぞれに対応する複数の基底係数の線形結合との歪み量が最小となるように決定された前記複数の基底係数を前記ターゲット音声スペクトルパラメータとして記憶する請求項1記載の声質変換装置。
  8. 前記声質変換規則記憶手段は、前記ソース音声スペクトルパラメータを周波数方向にシフトさせる周波数ワーピング関数、前記ソース音声スペクトルパラメータの各周波数の振幅方向の値を変化させる乗算パラメータ、前記ソース音声スペクトルパラメータと前記ターゲット音声スペクトルパラメータとの差分を表す差分パラメータ、及び前記ソース音声スペクトルパラメータと前記ターゲット音声スペクトルパラメータとの間の回帰分析パラメータのうちの少なくとも1つを前記声質変換規則して記憶する請求項1記載の声質変換装置。
  9. 前記パラメータ記憶手段は、前記ターゲット音声の声質の特徴を表すケプストラム、メルケプストラム、及びLSPパラメータのうちのいずれか1つをターゲット音声スペクトルパラメータとして記憶し、
    前記非周期成分生成手段は、選択されたターゲット音声スペクトルパラメータを離散スペクトルに変換し、該離散スペクトルから前記非周期成分スペクトルパラメータを生成し、
    前記パラメータ混合手段は、前記第1の変換スペクトルパラメータを離散スペクトルに変換し、該離散スペクトルから抽出された前記周期成分と、前記非周期成分スペクトルパラメータとを混合することとにより、前記第2の変換スペクトルパラメータを得る請求項1記載の声質変換装置。
  10. 前記パラメータ記憶手段は、各ターゲット音声スペクトルパラメータとともに、これに対応する前記ターゲット音声の位相スペクトルの特徴を示す位相パラメータをさらに記憶し、
    前記抽出手段は、さらに、入力された前記ソース音声から、その位相スペクトルの特徴を表すソース音声位相パラメータを抽出し、
    前記非周期成分生成手段は、さらに、選択されたターゲット音声スペクトルに対応する前記位相パラメータから、前記非周期成分を表す非周期成分位相パラメータを生成し、
    前記パラメータ混合手段は、前記ソース音声位相パラメータから抽出した前記周期成分を表す周期成分位相パラメータと、前記非周期成分位相パラメータとを混合することにより、変換位相パラメータを生成し、
    前記音声波形生成手段は、前記第2の変換スペクトルパラメータと、前記変換位相パラメータとから前記音声波形を生成する請求項1記載の声質変換装置。
  11. ターゲット音声の複数の音声素片と、各音声素片とともに当該音声素片の特徴を表すスペクトルパラメータ及び属性情報とを記憶する音声素片記憶手段と、
    ソース音声の声質を前記ターゲット音声の声質に変換するための規則である声質変換規則を記憶する声質変換規則記憶手段と、
    入力された前記ソース音声の音声素片から、その声質の特徴を表すソース音声スペクトルパラメータを抽出する抽出手段と、
    前記声質変換規則を用いて、抽出された前記ソース音声スペクトルパラメータを第1の変換スペクトルパラメータに変換するパラメータ変換手段と、
    前記パラメータ記憶手段に記憶されている各音声素片の前記スペクトルパラメータと前記第1の変換スペクトルパラメータとの類似度と、各音声素片の属性情報と前記入力されたソース音声の属性情報との類似度とのうちの少なくとも1つに基づき、前記複数の音声素片のなかから1または複数の音声素片を選択する選択手段と、
    選択された前記1または複数の音声素片のスペクトルパラメータから、声質の非周期成分を表す非周期成分スペクトルパラメータを生成する非周期成分生成手段と、
    前記第1の変換スペクトルパラメータに含まれる声質の周期成分を表す周期成分スペクトルパラメータと、前記非周期成分パラメータとを混合することにより、第2の変換スペクトルパラメータを得るパラメータ混合手段と、
    前記第2の変換スペクトルパラメータから音声波形を生成する音声波形生成手段と、
    を含む声質変換装置。
  12. 前記音声素片記憶手段は、各音声素片の属性情報として、基本周波数、音韻継続時間長、音韻環境、及びスペクトル情報のうちの少なくとも1つを含む請求項11記載の声質変換装置。
  13. 請求項1または11記載の声質変換装置と、
    前記声質変換装置で音声波形の生成された複数の音声素片と、各音声素片の属性情報を記憶する音声素片記憶手段と、
    入力されたテキストから得られる音韻系列を予め定められた音声単位に区切り、各音声単位の属性情報に基づき、各音声単位に対し、前記音声素片記憶手段に記憶されている前記複数の音声素片のなかから1または複数の音声素片を選択する音声素片選択手段と、
    1つの音声素片に対し選択された1つの音声素片、または1つの音声素片に対し選択された複数の音声素片を融合して得られる代表音声素片を接続して音声波形を生成する音声波形生成手段と、
    を含む音声合成装置。
  14. 前記音声素片選択手段は、前記音声素片記憶手段に記憶されている前記複数の音声素片と、前記ターゲット音声の複数の音声素片のなかから、各音声素片に対し、1または複数の音声素片を選択する請求項13記載の音声合成装置。
  15. ターゲット音声の声質の特徴を表す複数のターゲット音声スペクトルパラメータをパラメータ記憶手段に記憶するステップと、
    ソース音声の声質を前記ターゲット音声の声質に変換するための規則である声質変換規則を声質変換規則記憶手段に記憶するステップと、
    入力された前記ソース音声から、その声質の特徴を表すソース音声スペクトルパラメータを抽出する抽出ステップと、
    前記声質変換規則を用いて、抽出された前記ソース音声スペクトルパラメータを第1の変換スペクトルパラメータに変換するパラメータ変換ステップと、
    前記パラメータ記憶手段に記憶されている前記複数のターゲット音声スペクトルパラメータのなかから、前記第1の変換スペクトルパラメータに類似する少なくとも1つのターゲット音声スペクトルパラメータを選択するパラメータ選択ステップと、
    選択されたターゲット音声スペクトルパラメータから、声質の非周期成分を表す非周期成分スペクトルパラメータを生成する非周期成分生成ステップと、
    前記第1の変換スペクトルパラメータに含まれる声質の周期成分を表す周期成分スペクトルパラメータと、前記非周期成分スペクトルパラメータとを混合することより第2の変換スペクトルパラメータを得るパラメータ混合ステップと、
    前記第2の変換スペクトルパラメータから音声波形を生成する音声波形生成ステップと、
    を含む声質変換方法。
  16. ターゲット音声の複数の音声素片と、各音声素片とともに当該音声素片の特徴を表すスペクトルパラメータ及び属性情報とを音声素片記憶手段に記憶するステップと、
    ソース音声の声質を前記ターゲット音声の声質に変換するための規則である声質変換規則を声質変換規則記憶手段に記憶するステップと、
    入力された前記ソース音声の音声素片から、その声質の特徴を表すソース音声スペクトルパラメータを抽出する抽出ステップと、
    前記声質変換規則を用いて、抽出された前記ソース音声スペクトルパラメータを第1の変換スペクトルパラメータに変換するパラメータ変換ステップと、
    前記パラメータ記憶手段に記憶されている各音声素片の前記スペクトルパラメータと前記第1の変換スペクトルパラメータとの類似度と、各音声素片の属性情報と前記入力されたソース音声の属性情報との類似度とのうちの少なくとも1つに基づき、前記複数の音声素片のなかから1または複数の音声素片を選択する選択ステップと、
    選択された前記1または複数の音声素片のスペクトルパラメータから、声質の非周期成分を表す非周期成分スペクトルパラメータを生成する非周期成分生成ステップと、
    前記第1の変換スペクトルパラメータに含まれる声質の周期成分を表す周期成分スペクトルパラメータと、前記非周期成分パラメータとを混合することにより、第2の変換スペクトルパラメータを得るパラメータ混合ステップと、
    前記第2の変換スペクトルパラメータから音声波形を生成する音声波形生成ステップと、
    を含む声質変換方法。
  17. 請求項15または16記載の声質変換方法を用いて生成された音声波形の複数の音声素片と、各音声素片の属性情報を音声素片記憶手段に記憶するステップと、
    入力されたテキストから得られる音韻系列を予め定められた音声単位に区切り、各音声単位の属性情報に基づき、各音声単位に対し、前記音声素片記憶手段に記憶されている前記複数の音声素片のなかから1または複数の音声素片を選択する音声素片選択ステップと、
    1つの音声素片に対し選択された1つの音声素片、または1つの音声素片に対し選択された複数の音声素片を融合して得られる代表音声素片を接続して音声波形を生成する音声波形生成ステップと、
    を含む音声合成方法。
  18. コンピュータに、
    ターゲット音声の声質の特徴を表す複数のターゲット音声スペクトルパラメータをパラメータ記憶手段に記憶するステップ、
    ソース音声の声質を前記ターゲット音声の声質に変換するための規則である声質変換規則を声質変換規則記憶手段に記憶するステップ、
    入力された前記ソース音声から、その声質の特徴を表すソース音声スペクトルパラメータを抽出する抽出ステップ、
    前記声質変換規則を用いて、抽出された前記ソース音声スペクトルパラメータを第1の変換スペクトルパラメータに変換するパラメータ変換ステップ、
    前記パラメータ記憶手段に記憶されている前記複数のターゲット音声スペクトルパラメータのなかから、前記第1の変換スペクトルパラメータに類似する少なくとも1つのターゲット音声スペクトルパラメータを選択するパラメータ選択ステップ、
    選択されたターゲット音声スペクトルパラメータから、声質の非周期成分を表す非周期成分スペクトルパラメータを生成する非周期成分生成ステップ、
    前記第1の変換スペクトルパラメータに含まれる声質の周期成分を表す周期成分スペクトルパラメータと、前記非周期成分スペクトルパラメータとを混合することより第2の変換スペクトルパラメータを得るパラメータ混合ステップ、
    前記第2の変換スペクトルパラメータから音声波形を生成する音声波形生成ステップ、
    を実行させるための声質変換プログラム。
  19. コンピュータに、
    ターゲット音声の複数の音声素片と、各音声素片とともに当該音声素片の特徴を表すスペクトルパラメータ及び属性情報とを音声素片記憶手段に記憶するステップ、
    ソース音声の声質を前記ターゲット音声の声質に変換するための規則である声質変換規則を声質変換規則記憶手段に記憶するステップ、
    入力された前記ソース音声の音声素片から、その声質の特徴を表すソース音声スペクトルパラメータを抽出する抽出ステップ、
    前記声質変換規則を用いて、抽出された前記ソース音声スペクトルパラメータを第1の変換スペクトルパラメータに変換するパラメータ変換ステップ、
    前記パラメータ記憶手段に記憶されている各音声素片の前記スペクトルパラメータと前記第1の変換スペクトルパラメータとの類似度と、各音声素片の属性情報と前記入力されたソース音声の属性情報との類似度とのうちの少なくとも1つに基づき、前記複数の音声素片のなかから1または複数の音声素片を選択する選択ステップ、
    選択された前記1または複数の音声素片のスペクトルパラメータから、声質の非周期成分を表す非周期成分スペクトルパラメータを生成する非周期成分生成ステップ、
    前記第1の変換スペクトルパラメータに含まれる声質の周期成分を表す周期成分スペクトルパラメータと、前記非周期成分パラメータとを混合することにより、第2の変換スペクトルパラメータを得るパラメータ混合ステップ、
    前記第2の変換スペクトルパラメータから音声波形を生成する音声波形生成ステップ、
    を実行させるための声質変換プログラム。
  20. コンピュータに請求項18または19記載の声質変換プログラムを実行させることにより音声波形の生成された複数の音声素片と、各音声素片の属性情報を音声素片記憶手段に記憶するステップと、
    入力されたテキストから得られる音韻系列を予め定められた音声単位に区切り、各音声単位の属性情報に基づき、各音声単位に対し、前記音声素片記憶手段に記憶されている前記複数の音声素片のなかから1または複数の音声素片を選択する音声素片選択ステップ、
    1つの音声素片に対し選択された1つの音声素片、または1つの音声素片に対し選択された複数の音声素片を融合して得られる代表音声素片を接続して音声波形を生成する音声波形生成ステップ、
    をコンピュータに実行させるための音声合成プログラム。
JP2008215711A 2008-08-25 2008-08-25 声質変換装置及び方法、音声合成装置及び方法 Expired - Fee Related JP5038995B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008215711A JP5038995B2 (ja) 2008-08-25 2008-08-25 声質変換装置及び方法、音声合成装置及び方法
US12/505,684 US8438033B2 (en) 2008-08-25 2009-07-20 Voice conversion apparatus and method and speech synthesis apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008215711A JP5038995B2 (ja) 2008-08-25 2008-08-25 声質変換装置及び方法、音声合成装置及び方法

Publications (2)

Publication Number Publication Date
JP2010049196A JP2010049196A (ja) 2010-03-04
JP5038995B2 true JP5038995B2 (ja) 2012-10-03

Family

ID=41697171

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008215711A Expired - Fee Related JP5038995B2 (ja) 2008-08-25 2008-08-25 声質変換装置及び方法、音声合成装置及び方法

Country Status (2)

Country Link
US (1) US8438033B2 (ja)
JP (1) JP5038995B2 (ja)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5159279B2 (ja) * 2007-12-03 2013-03-06 株式会社東芝 音声処理装置及びそれを用いた音声合成装置。
JP5226867B2 (ja) * 2009-05-28 2013-07-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 話者適応のための基本周波数の移動量学習装置、基本周波数生成装置、移動量学習方法、基本周波数生成方法及び移動量学習プログラム
JP5331901B2 (ja) * 2009-12-21 2013-10-30 富士通株式会社 音声制御装置
DK2375782T3 (en) 2010-04-09 2019-03-18 Oticon As Improvements in sound perception by using frequency transposing by moving the envelope
JP5085700B2 (ja) * 2010-08-30 2012-11-28 株式会社東芝 音声合成装置、音声合成方法およびプログラム
JP5961950B2 (ja) * 2010-09-15 2016-08-03 ヤマハ株式会社 音声処理装置
US8930182B2 (en) * 2011-03-17 2015-01-06 International Business Machines Corporation Voice transformation with encoded information
GB2489473B (en) * 2011-03-29 2013-09-18 Toshiba Res Europ Ltd A voice conversion method and system
US8737330B2 (en) * 2011-06-24 2014-05-27 Motorola Mobility Llc Multi-cluster uplink transmission in wireless communication network
US9984700B2 (en) * 2011-11-09 2018-05-29 Speech Morphing Systems, Inc. Method for exemplary voice morphing
KR101402805B1 (ko) * 2012-03-27 2014-06-03 광주과학기술원 음성분석장치, 음성합성장치, 및 음성분석합성시스템
US9220070B2 (en) 2012-11-05 2015-12-22 Google Technology Holdings LLC Method and system for managing transmit power on a wireless communication network
JP6131574B2 (ja) * 2012-11-15 2017-05-24 富士通株式会社 音声信号処理装置、方法、及びプログラム
US9933990B1 (en) * 2013-03-15 2018-04-03 Sonitum Inc. Topological mapping of control parameters
EP3139383B1 (en) * 2014-05-01 2019-09-25 Nippon Telegraph and Telephone Corporation Coding and decoding of a sound signal
ES2738723T3 (es) * 2014-05-01 2020-01-24 Nippon Telegraph & Telephone Dispositivo de generación de secuencia envolvente combinada periódica, método de generación de secuencia envolvente combinada periódica, programa de generación de secuencia envolvente combinada periódica y soporte de registro
US9613620B2 (en) 2014-07-03 2017-04-04 Google Inc. Methods and systems for voice conversion
EP3230954A1 (en) * 2014-12-10 2017-10-18 Koninklijke Philips N.V. Systems and methods for translation of medical imaging using machine learning
WO2016091994A1 (en) * 2014-12-11 2016-06-16 Ubercord Gmbh Method and installation for processing a sequence of signals for polyphonic note recognition
JP6428256B2 (ja) * 2014-12-25 2018-11-28 ヤマハ株式会社 音声処理装置
JP6470586B2 (ja) * 2015-02-18 2019-02-13 日本放送協会 音声加工装置、及びプログラム
CN107924686B (zh) * 2015-09-16 2022-07-26 株式会社东芝 语音处理装置、语音处理方法以及存储介质
JP6681264B2 (ja) * 2016-05-13 2020-04-15 日本放送協会 音声加工装置、及びプログラム
US10163451B2 (en) * 2016-12-21 2018-12-25 Amazon Technologies, Inc. Accent translation
KR101876115B1 (ko) * 2017-01-12 2018-07-06 김동훈 타겟유저의 음성으로 텍스트를 읽어주는 전자책 서비스 제공 시스템
WO2018138543A1 (en) * 2017-01-24 2018-08-02 Hua Kanru Probabilistic method for fundamental frequency estimation
KR20200027475A (ko) 2017-05-24 2020-03-12 모듈레이트, 인크 음성 대 음성 변환을 위한 시스템 및 방법
JP6827004B2 (ja) * 2018-01-30 2021-02-10 日本電信電話株式会社 音声変換モデル学習装置、音声変換装置、方法、及びプログラム
CN108364656B (zh) * 2018-03-08 2021-03-09 北京得意音通技术有限责任公司 一种用于语音重放检测的特征提取方法及装置
JP7139628B2 (ja) * 2018-03-09 2022-09-21 ヤマハ株式会社 音処理方法および音処理装置
JP7040258B2 (ja) * 2018-04-25 2022-03-23 日本電信電話株式会社 発音変換装置、その方法、およびプログラム
JP7324050B2 (ja) * 2019-05-27 2023-08-09 株式会社東芝 波形セグメンテーション装置及び波形セグメンテーション方法
US11538485B2 (en) 2019-08-14 2022-12-27 Modulate, Inc. Generation and detection of watermark for real-time voice conversion
JP7334942B2 (ja) * 2019-08-19 2023-08-29 国立大学法人 東京大学 音声変換装置、音声変換方法及び音声変換プログラム
US20230086642A1 (en) * 2020-02-13 2023-03-23 The University Of Tokyo Voice conversion device, voice conversion method, and voice conversion program
EP4226362A1 (en) 2020-10-08 2023-08-16 Modulate, Inc. Multi-stage adaptive system for content moderation

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5990898A (ja) * 1982-11-15 1984-05-25 日本ビクター株式会社 伴奏音楽再生装置
JPH0644713B2 (ja) * 1984-10-22 1994-06-08 ヤマハ株式会社 音記録方法
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
EP0970466B1 (en) * 1997-01-27 2004-09-22 Microsoft Corporation Voice conversion
US6336092B1 (en) * 1997-04-28 2002-01-01 Ivl Technologies Ltd Targeted vocal transformation
TW430778B (en) * 1998-06-15 2001-04-21 Yamaha Corp Voice converter with extraction and modification of attribute data
JP3631657B2 (ja) 2000-04-03 2005-03-23 シャープ株式会社 声質変換装置および声質変換方法、並びに、プログラム記録媒体
JP4080989B2 (ja) 2003-11-28 2008-04-23 株式会社東芝 音声合成方法、音声合成装置および音声合成プログラム
FR2868586A1 (fr) * 2004-03-31 2005-10-07 France Telecom Procede et systeme ameliores de conversion d'un signal vocal
FR2868587A1 (fr) * 2004-03-31 2005-10-07 France Telecom Procede et systeme de conversion rapides d'un signal vocal
US20060235685A1 (en) * 2005-04-15 2006-10-19 Nokia Corporation Framework for voice conversion
EP2017832A4 (en) * 2005-12-02 2009-10-21 Asahi Chemical Ind VOICE QUALITY CONVERSION SYSTEM
JP4241736B2 (ja) * 2006-01-19 2009-03-18 株式会社東芝 音声処理装置及びその方法
JP4966048B2 (ja) 2007-02-20 2012-07-04 株式会社東芝 声質変換装置及び音声合成装置
JP4294724B2 (ja) * 2007-08-10 2009-07-15 パナソニック株式会社 音声分離装置、音声合成装置および声質変換装置
JP5159279B2 (ja) 2007-12-03 2013-03-06 株式会社東芝 音声処理装置及びそれを用いた音声合成装置。
JP5159325B2 (ja) 2008-01-09 2013-03-06 株式会社東芝 音声処理装置及びそのプログラム
JP2009244705A (ja) * 2008-03-31 2009-10-22 Brother Ind Ltd ピッチシフトシステムおよびプログラム

Also Published As

Publication number Publication date
US20100049522A1 (en) 2010-02-25
JP2010049196A (ja) 2010-03-04
US8438033B2 (en) 2013-05-07

Similar Documents

Publication Publication Date Title
JP5038995B2 (ja) 声質変換装置及び方法、音声合成装置及び方法
US11170756B2 (en) Speech processing device, speech processing method, and computer program product
JP5159279B2 (ja) 音声処理装置及びそれを用いた音声合成装置。
US9368103B2 (en) Estimation system of spectral envelopes and group delays for sound analysis and synthesis, and audio signal synthesis system
JP4551803B2 (ja) 音声合成装置及びそのプログラム
JP4241736B2 (ja) 音声処理装置及びその方法
JP5665780B2 (ja) 音声合成装置、方法およびプログラム
CN107924678B (zh) 语音合成装置、语音合成方法及存储介质
US10529314B2 (en) Speech synthesizer, and speech synthesis method and computer program product utilizing multiple-acoustic feature parameters selection
JP6266372B2 (ja) 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
US20080201150A1 (en) Voice conversion apparatus and speech synthesis apparatus
JP5269668B2 (ja) 音声合成装置、プログラム、及び方法
JP2004264856A (ja) 最適区画の分類神経網の構成方法、最適区画の分類神経網を用いた自動ラベリング方法、並びに装置
Csapó et al. Modeling unvoiced sounds in statistical parametric speech synthesis with a continuous vocoder
Wada et al. Sequential generation of singing f0 contours from musical note sequences based on wavenet
Yu et al. Probablistic modelling of F0 in unvoiced regions in HMM based speech synthesis
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
Narendra et al. Time-domain deterministic plus noise model based hybrid source modeling for statistical parametric speech synthesis
JP3281281B2 (ja) 音声合成方法及び装置
JP4034751B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム
Özer F0 Modeling For Singing Voice Synthesizers with LSTM Recurrent Neural Networks
CN115798452A (zh) 一种端到端语音拼接合成方法
JP2009237015A (ja) 音声素片接続装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110323

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120531

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120612

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120706

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150713

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150713

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees