JP2005121869A - 音声変換関数抽出装置およびそれを用いた声質変換装置 - Google Patents

音声変換関数抽出装置およびそれを用いた声質変換装置 Download PDF

Info

Publication number
JP2005121869A
JP2005121869A JP2003356076A JP2003356076A JP2005121869A JP 2005121869 A JP2005121869 A JP 2005121869A JP 2003356076 A JP2003356076 A JP 2003356076A JP 2003356076 A JP2003356076 A JP 2003356076A JP 2005121869 A JP2005121869 A JP 2005121869A
Authority
JP
Japan
Prior art keywords
conversion
conversion function
voice
acoustic
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003356076A
Other languages
English (en)
Inventor
Natsuki Saito
夏樹 齋藤
Takahiro Kamai
孝浩 釜井
Yumiko Kato
弓子 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2003356076A priority Critical patent/JP2005121869A/ja
Publication of JP2005121869A publication Critical patent/JP2005121869A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】音質が良く自由度の高い声質変換が実現する音声変換関数抽出装置およびそれを用いた声質変換装置を提供すること。
【解決手段】音声変換関数抽出装置およびそれを用いた声質変換装置において、少なくとも2つの音声100を分析して音声間の汎用変換関数105を計算し、その汎用変換係数105を他の音声107の声質変換に用いることにより、音質が良く自由度の高い声質変換が実現できる。
【選択図】図1

Description

本発明は、入力された音声から音声変換に使用可能な汎用変換関数を計算する音声変換関数抽出装置、および、この音声変換関数抽出装置を用いて入力された音声の声質を変換する声質変換装置に関する。
従来の声質変換装置では、音声のスペクトル形状やピッチパタン等に変形を加えることで声質変換を行う方法がある(例えば、特許文献1)。
また、従来の音声合成装置で声質変換を実現しようとした場合、使用する音声素片データベースを切り替える方法が典型的に用いられる(例えば、特許文献2)。
特開平08−152900号公報 特開平07−319495号公報
しかしながら、前記従来の方法を用いた場合、自然性を保った声質の調整が困難であったり、声質変換の自由度が狭かったりする。
例えば、特許文献1のようにスペクトルの変形を行う方法では、声質に破綻が起こらないように音声の品質を維持するのが困難であるし、ユーザの望むような声質変化を起こさせるスペクトル変形ルールを作成することは極めて困難である。
また、特許文献2のように音声素片データベースを切り替えて合成音の声質を変える方法では、あらかじめ用意した1つの音声素片データベースに対して1種類の声質しか再現することができない。
本発明は、上記課題に鑑みてなされたものであり、その目的とするところは、音質が良く自由度の高い声質変換が実現する音声変換関数抽出装置およびそれを用いた声質変換装置を提供することにある。
上記課題を解決するために、本発明の音声変換関数抽出装置は、入力された少なくとも2つの音声を分析してそれぞれの音響パラメタ値を出力する音響分析部と、前記それぞれの音響パラメタ値が入力され、当該音響パラメタ値の間の変換関数を計算して出力する変換関数抽出部と、前記変換関数を所定の方法によって一般化することで得られる、音声変換に使用可能な汎用変換関数を計算する変換関数般化部と、を備える。
前記変換関数抽出部は、前記それぞれの音響パラメタ値の差分値を計算して変換関数を得ることが好ましい。
また、前記変換関数抽出部は、前記それぞれの音響パラメタ値の音素毎にダイナミックレンジ比と平均値比とを計算して変換関数を得ることが好ましい。
前記変換関数般化部は、近接する音声分析合成フレーム間で前記変換関数をスムーシングすることで一般化して汎用変換関数を計算することが好ましい。
また、前記変換関数般化部は、前記変換関数の処理内容をHMM学習し、当該学習結果を汎用変換関数とすることが好ましい。
好適な実施形態として、前記変換関数は、前記時間軸アライメントの情報も有する。
さらに、前記時間軸アライメントの情報は、前記それぞれの音声の間の時間軸伸縮情報も含むことが好ましい。
さらに、前記時間軸アライメントは、前記それぞれの音響パラメタ値の間でパターンマッチングを行うことで実現することが好ましい。
好適な実施形態として、前記時間軸アライメントは、前記それぞれの音響パラメタ値をHMM音響モデルを用いることで実現する。
本発明の音声変換装置は、上記音声変換関数抽出装置からの汎用変換関数を記憶する記憶媒体と、入力された変換用音声を分析して変換用音響パラメタ値を出力する変換用音響分析部と、前記変換用音声パラメタ値を前記記憶媒体に記憶された前記汎用変換関数によって声質変換処理して変換済み音声パラメタ値を出力する音響パラメタ変換部と、前記変換済み音響パラメタ値から音声を生成する音声波形生成部とを備える。
本発明の音声変換装置は、上記音声変換関数抽出装置からの汎用変換関数を記憶する記憶媒体と、入力された変換用音声を分析して変換用音響パラメタ値を出力する変換用音響分析部と、前記変換用音声パラメタ値を前記記憶媒体に記憶された前記汎用変換関数によって声質変換処理して変換済み音声パラメタ値を出力する音響パラメタ変換部と、前記変換済み音響パラメタ値から音声を生成する音声波形生成部とを備える。
前記変換用音響分析部は、前記HMM音響モデルを用いて前記変換用音響パラメタ値についても時間軸アライメントを実施し、変換用音響パラメタ値と前記汎用変換関数との間で時間軸上の整合性が取れた声質変換処理を行うことが好ましい。
以上のように本発明によれば、少なくとも2つの音声を分析して音声間の汎用変換関数を計算し、その汎用変換係数を音声の声質変換に用いることにより、音質が良く自由度の高い声質変換が実現できる。
以下、本発明の実施の形態について、図面を参照しながら詳細に説明する。
(実施の形態1)
図1は、本発明の音声変換関数抽出装置1000と、本発明の声質変換装置1001とを組み合わせた音声変換装置の構成を示す。音声変換関数抽出装置1000は、入力された少なくとも2つの音声100を分析して分析結果のそれぞれの音響パラメタ値系列101を出力する音響分析部102と、複数の音響パラメタ値系列101が入力され、音響パラメタ値系列の間の変換関数103を計算して(例えば、差分など)出力する変換関数抽出部104と、変換関数103を所定の方法によって一般化し、他の音声に対する音声変換にも使用可能な汎用変換関数105を出力する変換関数般化部106とを有する。声質変換装置1001は、他に入力された変換用音声107(以降、単に「他の音声」とも記す)を分析して分析結果の変換用音響パラメタ値系列C108を出力する変換用音響分析部109と、音声変換関数抽出装置1000から出力された汎用変換関数105を用いて変換用音響パラメタ値列C108を音響パラメタ値系列C‘111に変換処理する変換済み音響パラメタ変換部110と、変換済み音響パラメタ値系列111を元に出力音声112を生成する音声波形生成部113とを有する。
この構成によって、音声変換関数抽出装置1000への複数の入力音声100を元にして、声質変換装置1001への入力音声107に自然な声質変換を加える処理が可能になる。
以下、本実施の形態において音声変換関数抽出処理と声質変換処理を行う際の処理の流れを具体的に示す。
<音響分析部>
図2は、本実施の形態における音響分析部102の処理内容を表す概略図である。入力音声100(図1の音声A,音声Bを示す)は音声波形データの形式をしており、音響分析部102はこれを分析して音響パラメタ値系列101(図1の音響パラメタ値系列A、音響パラメタ値系列Bを示す)を出力する。音響パラメタ値系列101は元の音声波形データを聴覚上十分に再現できる情報を含んだ特徴パラメタの値を並べたもので、ここでは音声の基本周波数F0、第一フォルマントF1、第二フォルマントF2、スペクトル傾斜TL、音源強度PWの5つの特徴パラメタを、分析された音声波形内の時系列で並べられた音声分析合成フレーム順に列挙したものとする。以下、音声分析合成フレームを単にフレームと表記する。
入力音声107から変換用音響パラメタ値系列C108を生成する音響分析部109の動作も、これと同様にして行われる。
<変換関数抽出部>
図3は、本実施の形態における変換関数抽出部104の処理内容を表す概略図である。変換関数抽出部104は、音響分析部102によって出力された複数の音響パラメタ値系列101を受け取り、各音声の対応するフレーム間で各パラメタ値の差分値を計算する。例えば、音響パラメタ値系列Aの、あるフレームにおいてF0の値が300であり、音響パラメタ値系列Bでは対応するフレームにおけるF0の値が280であったとすると、変換関数抽出部104は、変換関数103の、当該フレームにおけるF0に関する値を280−300=−20と計算する。
なお、一般に複数の音響パラメタ値系列101に含まれるフレームの総数はそれぞれ異なるため、変換関数抽出部104は、複数の音響パラメタ値系列間でフレームの対応付けを行うために時間軸アライメントを行う。これは、与えられたそれぞれの音響パラメタ値系列101の間でパターンマッチングによって実現できる。
さらに、この時間軸アライメント処理の結果を変換関数の一部として保持しておくことで、時間軸伸縮による声質変換処理を行うことができる。詳細については、後述する音響パラメタ変換部110の説明に譲る。
<変換関数般化部>
図4は、本実施の形態における変換関数般化部106の処理内容を表す概略図である。変換関数般化部106は、変換関数103を受け取り、近接する音声分析合成フレーム間でスムーシング処理を行うことで変換関数103の細かな変動を潰し、抽出された変換関数の適用範囲が拡大された汎用変換関数105を出力する。
例えば、スムーシングの窓幅を5フレームとし、図4に示される変換関数103のスムーシングを行う場合、あるフレームの前後2フレームを含む5フレームにおいて、変換関数103のF0に関する値が{−42,−31,−35,−20,−22}であったとすると、汎用変換関数105の、当該フレームにおけるF0に関する値はスムーシングによって((−42)+(−31)+(−35)+(−20)+(−22))÷5=−30と求められる。
スムージング処理をすることにより、以下の効果を得ることができる。
例えば、音響分析部102によって出力された音声パラメタ値系列AにおけるパラメタF0が±10の範囲でランダムに変動しており、同じく音声パラメタ値系列BにおけるパラメタF0が±10の範囲でランダムに変動しているとすると、変換関数103による変換後のF0の変換内容には最大で±20の変動が起こり、さらにこの関数をF0が±10範囲でランダムに変動する別の音声に適用すると、声質変換された音声におけるF0の変動は最大で±30となる。変換関数般化部106によるスムーシング処理は、変換関数による変換処理の不要な変動を抑え、安定した変換結果を得ることができるようにするものである。
また、スムーシングによって変換関数103に含まれる情報量を落とすことで、汎用変換関数105を表現するために必要となるデータ量を削減し、コンパクトで可搬性の高いものにすることができる。例えば、スムーシング処理によって汎用変換関数105における各パラメタ差分値の変動軌跡が直線近似できるようであれば、その直線を表現するためのわずかな情報によって、複数フレームにおけるパラメタ差分値の表現を行うことができる。
なお、スムーシングの方法は以上の効果が得られるものであれば何でもよく、例えば元のデータに突発的な分析エラー値が想定される場合は、平均ではなくメジアンによるスムーシングを用いることでエラー値をある程度潰すことができる。例えば、あるフレームの前後2フレームを含む5フレームにおいて、変換関数103のF0に関する値が{−42,−31,−35,−20,−22}であったとすると、汎用変換関数105の、当該フレームにおけるF0に関する値はこれら5つの値のメジアンである−31となる。
<音響パラメタ変換部>
図5は、本実施の形態における音響パラメタ変換部110の処理内容を表す概略図である。例えば、入力された変換用音響パラメタ値系列C108(以降、単に「変換用音響パラメタ値系列108」と記す)のあるフレームにおいてF0の値が290となっており、汎用変換関数105においてこのフレームにおけるF0の差分値が−35となっていれば、出力の変換済み音響パラメタ値系列C’111(以降、単に「変換済み音響パラメタ値系列111」と記す)におけるこのフレームのF0の値は290+(−35)=255とできる。
なお、音響パラメタ変換部110に入力される変換用音響パラメタ値系列108の長さは一般に変換関数抽出部104の入力である音響パラメタ値系列101の長さとは一致しないため、汎用変換関数105に含まれる時間軸アライメント情報(時間軸伸縮情報を含む場合もある)を用いて変換用音響パラメタ値系列108の時間軸変形を行う必要がある。例えば、汎用変換関数105に含まれる時間軸アライメント情報によって、音響パラメタ値系列Aの先頭から0%〜15%の部分が音響パラメタ値系列Bの先頭から0%〜20%の部分にマッチしたと分かる場合、変換用音響パラメタ値系列108の先頭から0%〜15%の部分を伸縮して、音声の0%〜20%の部分になるようにする。さらに、音響パラメタ値系列Aに対して音響パラメタ値系列Bでは全体の長さ(時間軸伸縮情報)が1.2倍であったとあるので、同様に変換用音響パラメタ値系列108の全体の長さも1.2倍にする。こうした上で、汎用変換関数105の内容を時間軸で均等に伸縮して時間軸伸縮後の変換用音響パラメタ値系列108に合わせ、各フレームに対して各音声合成パラメタの差分値を足すようにすればよい。
以上のようにして、変換用音響パラメタ値系列108の時間軸変形を行い、汎用変換関数105による音響パラメタの変換を行うことができる。
なお、上記説明では、汎用変換関数105に時間軸アライメント情報を有することを説明したが、図3に記載しているように、変換関数抽出部104変換関数103に時間軸アライメント情報を有していても良い。
また、足し合わせる差分値をある一律の割合で増減させることによって、声質変換の度合いを任意に変化させることができる。
<音声波形生成部>
図6は、本実施の形態における音声波形生成部113の処理内容を表す概略図である。音声波形生成部113は基本的に音響分析部102の逆の処理を行うものであり、音響パラメタ変換部110の出力した変換済み音響パラメタ値系列111を受け取り、出力音声112を出力する。
以上の方法によって、音声変換関数抽出装置1000への複数の入力音声100を元に、声質変換装置1001への入力音声107に自然な声質変換を加える処理が可能になる。例えば、音声変換関数抽出装置1000への入力音声100がある話者の平常声と怒り声であった場合、声質変換装置1001への他の入力音声107として別の話者の平常声が与えられた場合、その話者の怒り声として出力音声112を得ることができる。なお、他の入力音声107の話者の平常声が、入力音声100である話者の平常声と特徴が似ている場合は、より的確な、他の入力音声107を入力した話者の怒り声とすることができる。また、他の入力音声107の話者と、入力音声100の話者との音声の特徴が似ていない場合であっても、本発明では、変換関数103が例えば入力音声100の話者の平常声と怒り声の間の音響的特徴の差に相当するため、他の入力音声107に対しても、入力音声100における聴覚的印象の差を模擬して、他の入力音声107を入力した話者の怒り声を得ることができる。また、変換関数般化部106によって、変換関数103に含まれるフレーム単位のミクロな変動の特徴を取り去って比較的マクロな特徴を抽出して汎用変換関数105を作成し、これを用いて声質変換を行う構成を取っているので、変換関数103を直接使用する方法に比べ、変換後の音声に音質の破綻が起きにくいという効果を有する。
なお、本実施の形態においては変換関数般化部106におけるスムーシング処理の窓幅を数フレームに限定したが、窓幅を入力音声100の全体としてスムーシングを行うことにより、各音響パラメタ値の差分値の、各入力音声100の全体に渡る平均値が計算できる。これを元に汎用変換関数105を計算することで、音響パラメタ変換部110では、例えば平常声の入力音声107を怒り声に変換するために、音響パラメタPWの値は音声全体に渡って一律10だけ増加させる、というような処理を行うことができる。一般に、スムーシング処理の窓幅を大きくすると汎用変換関数105の内容はより多くのフレームに共通する各音響パラメタ値の差分値の特徴を表すように一般化されるが、反面、入力音声100において一部のフレームにのみ現れるような、局所的な音響的特徴変化の再現が難しくなる。
なお、本実施形態では、2つの入力音声100(音声A,音声B)からの汎用変換関数105を用いて他の入力音声107の声質を変換する声質変換装置を記載したが、3つ以上の複数の入力音声100から汎用変換関数を計算しても良い。例えば、入力音声100が3つの場合は、音声A→音声B→音声Cという変化(例えば平常→怒り→激怒)から1つの汎用変換関数105にしても良い。もしくは、複数の話者が入力音声100をそれぞれ複数の声質で入力し、複数の話者間で共通して使用できる汎用変換関数を計算しても構わない。例えば、話者1による2種類の入力音声100(例えば、音声A→音声Bが話者1の平常→怒り)、話者2による2種類の入力音声100(例えば、音声C→音声Dが話者2の平常→怒り)というように、入力音声100として4つの音声A〜Dを使用し、話者1と話者2に共通で使用できる「平常→怒り」の汎用変換関数を抽出しても良い。
なお、本実施形態では、音声変換関数抽出装置1000の汎用変換関数105は、変換関数般化部106から出力されて声質変換装置1001の音響パラメタ変換部110に入力されているように記載されているが、汎用変換関数105は一旦記憶媒体(図示せず)に記憶され、その記憶媒体から必要に応じて読み出されて音響パラメタ変換部110に入力されるものである。
(実施の形態2)
本実施形態では、各音響パラメタ値のダイナミックレンジ及び平均値同士の差を用いて変換関数を規定する手法について、以下に説明する。なお、本実施形態の構成図は、図1と同様であるが、各構成要素の動作内容が異なる。
<音響分析部>
上記実施の形態1と同様の処理を行う。
<変換関数抽出部>
各音響パラメタ値系列101を音素の単位で区切り、その中で各音響パラメタ値の平均値とダイナミックレンジを計算した後、それぞれの比を計算する。
例えば、音響パラメタ値系列Aの、ある音素においてF0のダイナミックレンジが±20、平均値が300であり、音響パラメタ値系列Bにおいては、同じ音素におけるF0のダイナミックレンジが±30、平均値が280であったとすると、変換関数抽出部104は、音響パラメタ差分情報103の当該音素のF0ダイナミックレンジにおける比(「ダイナミックレンジ比」=30÷20=1.5)、同じくF0平均値における値の比(「平均値比」=280÷300≒0.93)と計算する。
また、上記実施の形態1と同様にして時間軸アライメント処理を行い、結果を保存しておく。
<変換関数般化部>
変換関数抽出部104の抽出した変換関数103において、同じ種類の音素ごとにダイナミックレンジと平均値の値のメジアンを計算し、その値にまとめることによって情報量を削減する。例えば、「naNdaka」(なんだか)という音素列には同一の音素aが計3回現れるが、その全てを対象として変換関数103のダイナミックレンジと平均値のメジアンを計算し、汎用変換関数105の、音素aに関する共通部分とすることができる。また、別の音素であっても変換関数103の内容が近ければ同様にして汎用変換関数を共通のものにまとめてよく、例えば上記音素列で変換関数103の音素nと音素Nに関する部分が似通っていれば、変換関数103の音素nに関する部分と音素Nに関する部分に対してダイナミックレンジと平均値のメジアンをまとめて計算し、汎用変換関数105の、音素n及びNの共通部分とすることができる。
なお、変換関数は必ずしも音素の単位でまとめる必要はなく、例えばアクセント区内の位置や単語内の位置といった情報や、言語解析から得られる情報などを用いて変換関数103の内容をクラスタリングすることで、共通にまとめる部分を決定し、汎用変換関数105を求めてもよい。クラスタリングの手法は何を用いても良いが、例えば上記の情報を説明変数とし、汎用変換関数の内容を目的変数として、2進木解析法の一つであるCART法を用いて回帰2進木を求めればよい。
<音響パラメタ変換部>
入力される変換用音響パラメタ値系列108の各音素部分に対して、汎用変換関数105に従って変形を加える。
例えば、変換用音響パラメタ値系列108の、ある音素においてF0の平均値が290であり、当該音素内のあるフレームにおけるF0の値が300であって、汎用変換関数105において、当該音素のF0に関するダイナミックレンジにおける値が1.5、平均値における値が0.93であるとすると、当該フレームにおけるF0の値は、以下のように計算できる。
・当該音素におけるF0平均値=290×0.93≒270
・当該フレームにおけるF0の値=270+(300−290)×1.5=285
また、上記実施の形態1と同様にして、時間軸アライメント情報から時間軸伸縮処理を行う。
<音声波形生成部>
上記実施の形態1と同様の処理を行う。
以上の方法によって、音響パラメタ値の音素単位のダイナミックレンジと平均値を元にした、声質変換処理が可能となる。
(実施の形態3)
本実施形態では、HMM(Hidden Markov Model)を用いて変換関数を規定する手法について説明する。本実施の形態における装置の構成を図7に示す。これは、図1に示される構成に加え、変換関数抽出部104及び音響パラメタ変換部110から参照可能なHMM音響モデル700を持つものである。
<音響分析部>
上記実施の形態1と同様の処理を行う。
<変換関数抽出部>
上記実施の形態1と同様の処理を行う。
加えて、あらかじめ学習しておいたHMM音響モデル700を用いて、音響パラメタ値系列101(図7の「音響パラメタ値系列A」、「音響パラメタ値系列B」を示す)のセグメンテーションを行い、その結果を元に複数の音響パラメタ値系列101同士の時間軸アライメントを行う。HMM音響モデル700は、入力される可能性のある音響パラメタ値系列101の全てに対応することのできるものである。HMM音響モデル700を用いた時間軸アライメントは、例えば以下のようにして行われる。
図8に、ある音響パラメタ値系列101を、対応するHMM音素モデル800を用いてセグメンテーションした最尤探索パス801の例を示す。ここで、音素モデル800は開始状態S0と終了状態SEを含め、4状態で構成されるHMMである。認識の最尤パス上の時刻4から5において、状態S1からS2への状態遷移が起こっている。これは音響パラメタ値系列101における各フレームの内容が状態S1で表されるものから状態S2で表されるものに変化した点であると考えられるので、音響パラメタ値系列101の、状態S2で表される部分系列の開始点である時刻5と、開始状態S0の直後の点である時刻1及び終了状態SEの直前の点である時刻Nを状態遷移境界位置としてラベル付けしておけば、これらのラベル情報を時間軸アライメントの基準とすることができる。即ち、各々の音響パラメタ値系列101を同一の音響モデルでセグメンテーションした後、ラベル付けされた時間位置が一致するように、ラベル付けされた時間位置間を線形に伸縮すればよい。
以上の方法によって、音響パラメタ値系列101を精度よく時間軸アライメントすることが可能になる。このようにして時間軸アライメントを行った後、上記実施の形態1のような方法で変換関数103の計算を行う。
<変換関数般化部>
本実施の形態において、変換関数般化部106は、変換関数抽出部104がHMM音響モデル700を用いて行ったラベル付けの結果を用いて、変換関数103における各ラベル位置間にそれぞれ1つのHMM状態があるようにして、HMMパラメタの学習を行い、学習結果のHMMを汎用変換関数105とする。
例えば、図9に示すように、音響パラメタ値系列101のある部分系列を図8に示される音素モデル800でラベル付けした結果、複数の音響パラメタ値系列101間の時間軸アライメント処理と変換関数抽出処理によって、この部分系列に関する変換関数103が得られたとする。この変換関数103は時間軸アライメント情報の一部として、音響パラメタ値系列101に対して行われたラベル付けの結果を含む。即ち、変換関数103の各部分が、音響パラメタ値系列101のラベル付け処理において、音素モデル800のどの状態に対応するものであったかという情報を含む。変換関数般化部106は、変換関数103の、音素モデル800の共通の状態に対応する部分をHMMの一状態として確率変数の学習を行うことで汎用変換関数105を求める。例えば変換関数103において、音素モデル800の状態S1に対応する部分系列のF0に関する値が{−21,−42,−31,−35,−20}であったとすると、これはμ≒−29、σ2≒70の正規分布として表現できる。このようにして、変換関数103における各ラベル位置間に、多次元正規分布で表される出力確率関数を持つ1つのHMM状態を割り当てて、μとσ2の値を求めればよい。なお、このHMMの状態遷移確率は、音素モデル800のものをそのまま用いればよい。
なお、HMM状態は各音素で別々にしてもよいし、文脈情報を用いてさらに細かくカテゴリ分けすることで精度を上げても良いし、音素モデル800の一状態に対応する汎用変換関数105の状態数を2つ以上にすることで、より細かい制御を行っても良い。また、HMMで学習するのは各音響パラメタ値だけでなく、各ラベル位置間におけるフレーム数の比の値を含めても良い。
<音響パラメタ変換部>
音響パラメタ変換部110は、まず変換関数抽出部104が用いたのと同じHMM音響モデル700を用いて、入力の変換用音響パラメタ値系列108をセグメンテーションする。これによって、本実施の形態における上記変換関数抽出部104の動作例で示したのと同様にラベル付けを行うことができる。これらのラベル位置間の音響パラメタ値の部分系列は変換関数般化部106によって学習された各々のHMM状態に対応するので、変換用音響パラメタ値系列108の各部分系列に対応するHMM状態から、当該部分系列の長さの最尤出力系列を得ることにより、上記実施の形態1における汎用変換関数105と同等のものが得られ、当該部分系列の音響パラメタ変換処理を行うことができる。すなわち、変換用音響パラメタ値系列108と汎用変換関数105との間で時間軸上の整合性が取れたパラメタ変換を実現できる。
図10に、このような声質変換処理の例を示す。変換用音響パラメタ値系列108はHMM音響モデル700によってラベル付けされ、各ラベル位置間の各フレームに対して、汎用変換関数105の対応するHMM状態を割り当ててHMM状態系列を作り、このHMM状態系列から出力される最尤出力系列として各音響パラメタの変換量を得る。例えば音響パラメタF0について、状態系列{Si,Si,Si}から得られる変換量の最尤出力系列は{−35,−35,−35}である。このような出力系列を用いて、変換用音響パラメタ値系列108を変換済み音響パラメタ値系列111に変換する。
なお、図10に示される汎用変換関数105を用いる場合、状態遷移確率及びσ2の内容は最尤出力系列を求める際に使われないため、単純に各状態におけるμの値のみを汎用変換関数として持っておいても良い。
なお、図10に示される汎用変換関数105を用いる場合、各HMM状態における最尤出力が必ずμの値になるため、各ラベル位置において音響パラメタの変換量が不連続に変化してしまう。よりなめらかな声質変換を行うためには、ΔF0、ΔΔF0など、フレーム間での各音響パラメタの1次以上の変化量をも出力確率関数に取り入れて学習しておくことで、出力内容の不連続な変化を抑えることができる。
なお、図10に示される汎用変換関数105を用いる場合、各ラベル位置間に割り当てられるHMMの種類はただ一つであるため、状態系列は状態遷移確率によらずただ一種類に決まるが、各ラベル位置間に割り当てられるHMM状態数を増やした場合には、何らかの方法で各状態の継続長を決定する必要がある。例えば、変換関数般化部106における汎用変換関数105の生成の際、Baum−Weltch法を用いて最尤状態系列を求めた上で、音響パラメタ変換部110ではこの最尤状態系列における各状態の継続長の比が維持されるように各状態の継続長を決定することができる。または、各状態にとどまるような状態遷移の確率の比を、各状態の継続長の比として決定しても良い。
なお、図7は、HMM音響モデル700は、音声変換関数抽出装置1000と声質変換装置1001との両方の外にあるように記載してあるが、HMM音響モデル700は、音声変換関数抽出装置1000と声質変換装置1001とで共通のものを使用すれば良く、音声変換関数抽出装置1000と声質変換装置1001との両方の装置内に存在しても良いことは言うまでもない。
<音声波形生成部>
上記実施の形態1と同様の処理を行う。
以上の方法によって、HMMを用いた声質変換処理が可能となる。
本発明の音声変換関数抽出装置およびそれを用いた声質変換装置は、合成音を利用するエージェントアプリケーションやテキスト読み上げアプリケーション、声質変換機能を利用する通信装置、音声の声質エディタ装置等として有用である。
実施の形態1に示される声質変換装置の構成を示すブロック図 実施の形態1に示される音響分析部の動作を表す概略図 実施の形態1に示される変換関数抽出部の動作を表す概略図 実施の形態1に示される変換関数般化部の動作を表す概略図 実施の形態1に示される音響パラメタ変換部の動作を表す概略図 実施の形態1に示される音声波形生成部の動作を表す概略図 実施の形態3に示される声質変換装置の構成を示すブロック図 実施の形態3の変換関数抽出部における、HMMを用いた時間軸アライメントの動作を表す概略図 実施の形態3の変換関数抽出部において、汎用変換関数となるHMMを求める動作を表す概略図 実施の形態3の変換関数抽出部において、汎用変換関数であるHMMの利用方法を表す概略図
符号の説明
100 入力音声
1000 声変換関数抽出装置
1001 声質変換装置
101 音響パラメタ値系列A,B
102 音響分析部
103 変換関数
104 変換関数抽出部
105 汎用変換関数
106 変換関数般化部
107 変換用入力音声
108 変換用音響パラメタ値系列C
109 変換用音響分析部
110 変換済み音響パラメタ値系列C’
111 音響パラメタ変換部
112 出力音声
113 音声波形生成部
700 HMM音響モデル
800 700に含まれるHMM音素モデル
801 800による101の最尤探索パスの概形

Claims (12)

  1. 入力された少なくとも2つの音声を分析してそれぞれの音響パラメタ値を出力する音響分析部と、
    前記それぞれの音響パラメタ値が入力され、当該音響パラメタ値の間の変換関数を計算して出力する変換関数抽出部と、
    前記変換関数を所定の方法によって一般化することで得られる、音声変換に使用可能な汎用変換関数を計算する変換関数般化部と、を備える音声変換関数抽出装置。
  2. 前記変換関数抽出部は、前記それぞれの音響パラメタ値の差分値を計算して変換関数を得る、請求項1に記載の音声変換関数抽出装置。
  3. 前記変換関数抽出部は、前記それぞれの音響パラメタ値の音素毎にダイナミックレンジ比と平均値比とを計算して変換関数を得る、請求項1に記載の音声変換関数抽出装置。
  4. 前記変換関数般化部は、近接する音声分析合成フレーム間で前記変換関数をスムーシングすることで一般化して汎用変換関数を計算する、請求項1から3までの何れか一つに記載の音声変換関数抽出装置。
  5. 前記変換関数般化部は、前記変換関数の処理内容をHMM学習し、当該学習結果を汎用変換関数とする、請求項1から3までの何れか一つに記載の音声変換関数抽出装置。
  6. 前記変換関数は、前記時間軸アライメントの情報も有する、請求項1から5までの何れか一つに記載の音声変換関数抽出装置。
  7. 前記時間軸アライメントの情報は、前記それぞれの音声の間の時間軸伸縮情報も含む、請求項6に記載の音声変換関数抽出装置。
  8. 前記時間軸アライメントは、前記それぞれの音響パラメタ値の間でパターンマッチングを行うことで実現する、請求項7に記載の音声変換関数抽出装置。
  9. 前記時間軸アライメントは、前記それぞれの音響パラメタ値をHMM音響モデルを用いることで実現する、請求項6に記載の音声変換関数抽出装置。
  10. 請求項1から8までの何れか一つに記載の音声変換関数抽出装置からの汎用変換関数を記憶する記憶媒体と、
    入力された変換用音声を分析して変換用音響パラメタ値を出力する変換用音響分析部と、
    前記変換用音声パラメタ値を前記記憶媒体に記憶された前記汎用変換関数によって声質変換処理して変換済み音声パラメタ値を出力する音響パラメタ変換部と、
    前記変換済み音響パラメタ値から音声を生成する音声波形生成部とを備える、音声変換装置。
  11. 請求項9に記載の音声変換関数抽出装置からの汎用変換関数を記憶する記憶媒体と、
    入力された変換用音声を分析して変換用音響パラメタ値を出力する変換用音響分析部と、
    前記変換用音声パラメタ値を前記記憶媒体に記憶された前記汎用変換関数によって声質変換処理して変換済み音声パラメタ値を出力する音響パラメタ変換部と、
    前記変換済み音響パラメタ値から音声を生成する音声波形生成部とを備える、音声変換装置。
  12. 前記変換用音響分析部は、前記HMM音響モデルを用いて前記変換用音響パラメタ値についても時間軸アライメントを実施し、変換用音響パラメタ値と前記汎用変換関数との間で時間軸上の整合性が取れた声質変換処理を行う、請求項11に記載の声質変換装置。
JP2003356076A 2003-10-16 2003-10-16 音声変換関数抽出装置およびそれを用いた声質変換装置 Pending JP2005121869A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003356076A JP2005121869A (ja) 2003-10-16 2003-10-16 音声変換関数抽出装置およびそれを用いた声質変換装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003356076A JP2005121869A (ja) 2003-10-16 2003-10-16 音声変換関数抽出装置およびそれを用いた声質変換装置

Publications (1)

Publication Number Publication Date
JP2005121869A true JP2005121869A (ja) 2005-05-12

Family

ID=34613437

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003356076A Pending JP2005121869A (ja) 2003-10-16 2003-10-16 音声変換関数抽出装置およびそれを用いた声質変換装置

Country Status (1)

Country Link
JP (1) JP2005121869A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008058696A (ja) * 2006-08-31 2008-03-13 Nara Institute Of Science & Technology 声質変換モデル生成装置及び声質変換システム
JP2008203543A (ja) * 2007-02-20 2008-09-04 Toshiba Corp 声質変換装置及び音声合成装置
JP2016151736A (ja) * 2015-02-19 2016-08-22 日本放送協会 音声加工装置、及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008058696A (ja) * 2006-08-31 2008-03-13 Nara Institute Of Science & Technology 声質変換モデル生成装置及び声質変換システム
JP2008203543A (ja) * 2007-02-20 2008-09-04 Toshiba Corp 声質変換装置及び音声合成装置
JP2016151736A (ja) * 2015-02-19 2016-08-22 日本放送協会 音声加工装置、及びプログラム

Similar Documents

Publication Publication Date Title
US8738381B2 (en) Prosody generating devise, prosody generating method, and program
US8423367B2 (en) Apparatus and method for creating singing synthesizing database, and pitch curve generation apparatus and method
US8571871B1 (en) Methods and systems for adaptation of synthetic speech in an environment
US8338687B2 (en) Apparatus and method for creating singing synthesizing database, and pitch curve generation apparatus and method
JP4328698B2 (ja) 素片セット作成方法および装置
JP3910628B2 (ja) 音声合成装置、音声合成方法およびプログラム
US20050119890A1 (en) Speech synthesis apparatus and speech synthesis method
US11763797B2 (en) Text-to-speech (TTS) processing
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
JP4829477B2 (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
US9147392B2 (en) Speech synthesis device and speech synthesis method
WO2011151956A1 (ja) 声質変換装置及びその方法、母音情報作成装置並びに声質変換システム
EP4266306A1 (en) A speech processing system and a method of processing a speech signal
JP6330069B2 (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
JP2017194510A (ja) 音響モデル学習装置、音声合成装置、これらの方法及びプログラム
KR100259777B1 (ko) 텍스트/음성변환기에서의최적합성단위열선정방법
JP2005121869A (ja) 音声変換関数抽出装置およびそれを用いた声質変換装置
JP5268731B2 (ja) 音声合成装置、方法およびプログラム
JP6578544B1 (ja) 音声処理装置、および音声処理方法
WO2012032748A1 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
Wen et al. Prosody Conversion for Emotional Mandarin Speech Synthesis Using the Tone Nucleus Model.
JP2011141470A (ja) 素片情報生成装置、音声合成システム、音声合成方法、及び、プログラム
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP2001350500A (ja) 話速変更装置
Jayasinghe Machine Singing Generation Through Deep Learning