JP5846043B2 - 音声処理装置 - Google Patents

音声処理装置 Download PDF

Info

Publication number
JP5846043B2
JP5846043B2 JP2012115065A JP2012115065A JP5846043B2 JP 5846043 B2 JP5846043 B2 JP 5846043B2 JP 2012115065 A JP2012115065 A JP 2012115065A JP 2012115065 A JP2012115065 A JP 2012115065A JP 5846043 B2 JP5846043 B2 JP 5846043B2
Authority
JP
Japan
Prior art keywords
original
spectrum
conversion
feature quantity
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012115065A
Other languages
English (en)
Other versions
JP2013242410A (ja
Inventor
ヴィラヴィセンシオ フェルナンド
ヴィラヴィセンシオ フェルナンド
ジョルディ ボナダ
ボナダ ジョルディ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2012115065A priority Critical patent/JP5846043B2/ja
Priority to US13/896,192 priority patent/US20130311189A1/en
Publication of JP2013242410A publication Critical patent/JP2013242410A/ja
Application granted granted Critical
Publication of JP5846043B2 publication Critical patent/JP5846043B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、音声を処理する技術に関する。
音声の声質を変換する技術が従来から提案されている。例えば非特許文献1には、第1発声者の音声の特徴量と第2発声者の音声の特徴量との確率分布を近似する正規混合分布モデルに応じた変換関数を処理対象の音声に適用することで第2発声者の声質に対応した音声を生成する技術が開示されている。
F. Villacivencio and J Bonada, "Applying Voice Conversion to Concatenative Singing-Voice Synthesis", in Proc. of INTERSPEECH 10, vil. 1, 2010
しかし、非特許文献1の技術では、変換関数の生成(機械学習)に適用された音声とは特徴量が相違する音声を処理対象とした場合に、第2発声者の本来の声質から乖離した音声が生成され得る。したがって、例えば処理対象の音声の特性(学習用の音声との乖離)に応じて変換後の音声の特性が不安定に変動し、結果的に変換後の音声の音質が低下する可能性がある。以上の事情を考慮して、本発明は、音声の声質の変換により高音質な音声を生成することを目的とする。
以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。
本発明に係る第1態様に係る音声処理装置は、声質が相違する各音声(例えば原音声VS0および目標音声VT0)の特徴量の分布を近似する混合分布モデル(例えば混合分布モデルλ(z))の各要素分布(例えば要素分布N)に音声の特徴量が属する確率を示す確率項(例えば確率項p(cq|x))を包含する声質変換用の変換関数(例えば変換関数F(x))に原音声の原特徴量(例えば原特徴量xA(k))を適用することで変換特徴量(例えば変換特徴量F(xA(k)))を生成する変換処理手段(例えば変換処理部42)と、原特徴量が混合分布モデルの各要素分布に属する確率に応じた推定特徴量(例えば推定特徴量xB(k))を確率項に対する原特徴量の適用で生成する特徴量推定手段(例えば特徴量推定部44)と、変換処理手段が生成した変換特徴量に対応する第1スペクトル(例えば第1スペクトル包絡L1(k))と特徴量推定手段が生成した推定特徴量に対応する推定スペクトル(例えば推定スペクトル包絡EB(k))との差異に応じた第1変換フィルタ(例えば第1変換フィルタH1(k))を生成する第1差分算定手段(例えば第1差分算定部52)と、第1差分算定手段が生成した第1変換フィルタを原特徴量に対応する原スペクトル(例えば原スペクトル包絡EA(k))に加算することで第2スペクトル(例えば第2スペクトル包絡L2(k))を生成する合成処理手段(例えば合成処理部54)と、第1スペクトルと第2スペクトルとの差異に応じた第2変換フィルタ(例えば第2変換フィルタH2(k))を生成する第2差分算定手段(例えば第2差分算定部56)と、第1変換フィルタと第2変換フィルタとを原音声のスペクトルに加算することで目標音声を生成する音声変換手段(例えば音声変換部32)とを具備する。
第1態様の音声処理装置においては、変換関数の確率項に原特徴量を適用した推定特徴量と原特徴量を変換関数に適用した変換特徴量との差異に応じた第1変換フィルタが生成され、変換特徴量が示す第1スペクトルと原特徴量の原スペクトルに第1変換フィルタを加算した第2スペクトルとの差異に応じた第2変換フィルタが生成される。そして、第1変換フィルタと第2変換フィルタとを原音声のスペクトルに加算することで目標音声が生成される。第2変換フィルタは、原特徴量と推定特徴量との相違が補償されるように作用するから、原特徴量が変換関数の設定用の音声の特徴量と相違する場合でも高音質な音声を生成することが可能である。
本発明の好適な態様において、第2差分算定手段は、第1スペクトルおよび第2スペクトルの各々を周波数領域内で平滑化する平滑手段(例えば平滑部562)と、平滑化後の第1スペクトル(例えば第1平滑スペクトル包絡LS1(k))と平滑化後の第2スペクトル(例えば第2平滑スペクトル包絡LS2(k))との差分を第2変換フィルタとして算定する減算手段(例えば減算部564)とを含む。以上の構成では、平滑化後の第1スペクトルと平滑化後の第2スペクトルとの差分が第2変換フィルタとして生成されるから、原特徴量と推定特徴量との相違を高精度に補償することが可能である。
本発明の第2態様の音声処理装置は、複数の音声素片の各々を順次に選択する素片選択手段と、素片選択手段が選択した各音声素片を前述の各態様の音声処理装置と同様の方法で目標音声の音声素片に変換する音声処理手段と、音声処理手段による変換後の音声素片を相互に連結して音声信号を生成する音声合成手段とを具備する。以上の構成によれば、第1態様の音声処理装置と同様の効果が実現される。
第1態様および第2態様に係る音声処理装置は、DSP(Digital Signal Processor)等の専用の電子回路で実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働でも実現される。例えば第1態様のプログラムは、声質が相違する各音声の特徴量の分布を近似する混合分布モデルの各要素分布に音声の特徴量が属する確率を示す確率項を包含する声質変換用の変換関数に原音声の原特徴量を適用することで変換特徴量を生成する変換処理と、原特徴量が混合分布モデルの各要素分布に属する確率に応じた推定特徴量を確率項に対する原特徴量の適用で生成する特徴量推定処理と、変換処理で生成した変換特徴量に対応する第1スペクトルと特徴量推定処理で生成した推定特徴量に対応する推定スペクトルとの差異に応じた第1変換フィルタを生成する第1差分算定処理と、第1差分算定処理が生成した第1変換フィルタを原特徴量に対応する原スペクトルに加算することで第2スペクトルを生成する合成処理と、第1スペクトルと第2スペクトルとの差異に応じた第2変換フィルタを生成する第2差分算定処理と、第1変換フィルタと第2変換フィルタとを原音声のスペクトルに加算することで目標音声を生成する音声変換処理とをコンピュータに実行させる。以上のプログラムによれば、本発明の第1態様に係る音声処理装置と同様の作用および効果が実現される。
また、第2態様のプログラムは、複数の音声素片の各々を順次に選択する素片選択処理と、素片選択処理で選択した各音声素片を第1態様のプログラムと同様の処理で目標音声の音声素片に変換する音声処理と、音声処理による変換後の音声素片を相互に連結して音声信号を生成する音声合成処理とをコンピュータに実行させる。以上のプログラムによれば、本発明の第2態様に係る音声処理装置と同様の作用および効果が実現される。
なお、第1態様および第2態様のプログラムは、例えば、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされるほか、通信網を介した配信の形態で提供されてコンピュータにインストールされる。
本発明の第1実施形態に係る音声処理装置のブロック図である。 特徴量抽出部の動作のフローチャートである。 解析処理部のブロック図である。 第1変換フィルタの説明図である。 第2差分算定部のブロック図である。 第2差分算定部の動作のフローチャートである。 統合処理部の動作のフローチャートである。 本発明の第2実施形態に係る音声処理装置のブロック図である。
<第1実施形態>
図1は、本発明の第1実施形態に係る音声処理装置100Aのブロック図である。特定の発声者US(S:source)が発声した音声(以下「原音声」という)VSの音声信号が音声処理装置100Aに供給される。音声処理装置100Aは、発音内容(音韻)を維持したまま発声者USの原音声VSを別個の発声者UT(T:target)の声質の音声(以下「目標音声」という)VTに変換する信号処理装置(声質変換装置)である。変換後の目標音声VTの音声信号が音声処理装置100Aから出力されて例えば音波として放音される。なお、ひとりの発声者が声質を相違させて発声した各音声を原音声VSおよび目標音声VTとすることも可能である。すなわち、発声者USと発声者UTとは共通し得る。
図1に示すように、音声処理装置100Aは、演算処理装置12と記憶装置14とを具備するコンピュータシステムで実現される。記憶装置14は、演算処理装置12が実行するプログラムや演算処理装置12が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置14として任意に利用される。演算処理装置12は、記憶装置14に格納されたプログラムを実行することで、発声者USの原音声VSを発声者UTの目標音声VTに変換するための複数の機能(周波数分析部22,特徴量抽出部24,解析処理部26,音声変換部32,波形生成部34)を実現する。なお、演算処理装置12の機能を複数の装置に分散した構成や、演算処理装置12の機能の一部を専用の電子回路(DSP)が実現する構成も採用され得る。
周波数分析部22は、原音声VSのスペクトルPS(k)を時間軸上の単位期間(フレーム)毎に順次に算定する。記号kは、時間軸上の任意の1個の単位期間を意味する。スペクトルPS(k)は、例えば振幅スペクトルやパワースペクトルである。スペクトルPS(k)の算定には短時間フーリエ変換等の公知の周波数分析が任意に採用され得る。なお、通過帯域が相違する複数の帯域通過フィルタで構成されるフィルタバンクを周波数分析部22として採用することも可能である。
特徴量抽出部24は、原音声VSの特徴量(以下「原特徴量」という)xA(k)を単位期間毎に順次に生成する。具体的には、第1実施形態の特徴量抽出部24は、図2の処理を単位期間毎に実行する。図2の処理を開始すると、特徴量抽出部24は、周波数分析部22が単位期間毎に算定したスペクトルPS(k)のスペクトル包絡(以下「原スペクトル包絡」という)EA(k)を特定する(S11)。例えば特徴量抽出部24は、各単位期間のスペクトルPS(k)の各ピーク(調波成分)を補間することで原スペクトル包絡EA(k)を特定する。各ピークの補間には公知の曲線補間技術(例えば3次スプライン補間)が任意に採用される。なお、周波数をメル周波数に変換(メル尺度化)することで原スペクトル包絡EA(k)の低域成分を強調することも可能である。
特徴量抽出部24は、原スペクトル包絡EA(k)に対する逆フーリエ変換で自己相関関数を算定し(S12)、原スペクトル包絡EA(k)を近似する自己回帰モデル(全極型伝達関数)を処理S12の自己相関関数から推定する(S13)。自己回帰(AR:autoregressive)モデルの推定には例えばYule-Walker方程式が好適に利用される。特徴量抽出部24は、処理S13で推定された自己回帰モデルの係数(自己回帰係数)に対応する複数の係数(線スペクトルの周波数)を要素とするベクトルを原特徴量xA(k)として算定する(S14)。以上の説明から理解されるように、原特徴量xA(k)は原スペクトル包絡EA(k)を表現する。具体的には、原スペクトル包絡EA(k)の各ピークの高低に応じて各線スペクトルの間隔(粗密)が変動するように原特徴量xA(k)の各係数(各線スペクトルの周波数)が設定される。
図1の解析処理部26は、特徴量抽出部24が単位期間毎に抽出した原特徴量xA(k)を解析することで変換フィルタH(k)を単位期間毎に順次に生成する。変換フィルタH(k)は、原音声VSを目標音声VTに変換するためのフィルタ(写像関数)であり、周波数軸上の各周波数に対応する複数の係数で構成される。なお、解析処理部26の具体的な構成および動作については後述する。
音声変換部32は、解析処理部26が生成した変換フィルタH(k)を利用して原音声VSを目標音声VTに変換する。具体的には、音声変換部32は、周波数分析部22が生成した各単位期間のスペクトルPS(k)にその単位期間の変換フィルタH(k)を作用させることで目標音声VTのスペクトルPT(k)を単位期間毎に生成する。例えば、音声変換部32は、原音声VSのスペクトルPS(k)と解析処理部26が生成した変換フィルタH(k)とを加算することでスペクトルPT(k)(PT(k)=PS(k)+H(k))を生成する。なお、原音声VSのスペクトルPS(k)と変換フィルタH(k)との時間的な関係は適宜に変更され得る。例えば、各単位期間の変換フィルタH(k)を1個後の単位期間のスペクトルPS(k+1)に作用させることも可能である。
波形生成部34は、音声変換部32が単位期間毎に生成したスペクトルPT(k)から目標音声VTの音声信号を生成する。具体的には、波形生成部34は、周波数領域のスペクトルPT(k)を時間領域の波形信号に変換し、相前後する単位期間の波形信号を相互に重複した状態で加算することで目標音声VTの音声信号を生成する。波形生成部34が生成した音声信号は例えば音波として放音される。
解析処理部26による変換フィルタH(k)の生成には、原音声VSを目標音声VTに変換するための変換関数F(x)が利用される。解析処理部26の具体的な構成および動作の説明に先立ち、変換関数F(x)の具体的な内容を以下に詳述する。
変換関数F(x)の設定には、事前に収録された原音声VS0および目標音声VT0が学習情報(事前情報)として利用される。原音声VS0は、発声者USが複数の音韻を順次に発声した音声であり、目標音声VT0は、発声者UTが原音声VS0と同様の音韻を順次に発声した音声である。原音声VS0の各単位期間の特徴量x(k)と目標音声VT0の各単位期間の特徴量y(k)とが抽出される。特徴量x(k)および特徴量y(k)は、特徴量抽出部24が抽出する原特徴量xA(k)と同種の数値(スペクトル包絡を表現するベクトル)であり、図2に例示した処理と同様の方法で抽出される。
原音声VS0の特徴量x(k)と目標音声VT0の特徴量y(k)との分布に対応した混合分布モデルλ(z)を想定する。混合分布モデルλ(z)は、時間軸上で相互に対応する特徴量x(k)および特徴量y(k)を要素とする特徴量(ベクトル)zの分布を、数式(1)で表現されるようにQ個の要素分布Nの加重和で近似する。例えば、要素分布Nを正規分布とした正規混合分布モデル(GMM:Gaussian Mixture Model)が混合分布モデルλ(z)として好適に採用される。
Figure 0005846043
数式(1)の記号αqは第q番目(q=1〜Q)の要素分布Nの加重値を意味する。また、数式(1)の記号μqzは、第q番目の要素分布Nの平均(平均ベクトル)を意味し、記号Σqzは、第q番目の要素分布Nの共分散行列を意味する。数式(1)の混合分布モデルλ(z)の推定には、EM(Expectation-Maximization)アルゴリズム等の公知の最尤推定アルゴリズムが任意に採用される。要素分布Nの総数Qが適切な数値に設定された場合、混合分布モデルλ(z)の各要素分布Nは、相異なる音素(音韻)に対応する可能性が高い。
以下の数式(2)で表現されるように、第q番目の要素分布Nの平均μqzは、特徴量x(k)の平均μqxと特徴量y(k)の平均μqyとを含んで構成される。
Figure 0005846043
また、第q番目の要素分布Nの共分散行列Σqzは以下の数式(3)で表現される。
Figure 0005846043

数式(3)の記号Σqxxは、第q番目の要素分布Nにおける各特徴量x(k)の共分散行列(自己共分散行列)を意味し、記号Σqyyは、第q番目の要素分布Nにおける各特徴量y(k)の共分散行列(自己共分散行列)を意味する。また、数式(3)の記号Σqxyおよび記号Σqyxは、第q番目の要素分布Nにおける特徴量x(k)と特徴量y(k)との共分散行列(相互共分散行列)を意味する。
解析処理部26が変換フィルタH(k)の生成に適用する変換関数F(x)は以下の数式(4)で表現される。
Figure 0005846043
数式(4)の記号p(cq|x)は、特徴量xが観測された場合にその特徴量xが混合分布モデルλ(z)の第q番目の要素分布Nに属する確率(事後確率)を示す確率項を意味し、以下の数式(5)で定義される。
Figure 0005846043
数式(4)の変換関数F(x)は、発声者USの原音声VSに対応する空間(以下「原空間」という)から発声者UTの目標音声VTに対応する空間(以下「目標空間」という)に対する写像を意味する。すなわち、特徴量抽出部24が抽出した原特徴量xA(k)を変換関数F(x)に適用することで、原特徴量xA(k)に対応する目標音声VTの特徴量の推定値(F(xA(k)))が算定される。特徴量抽出部24が抽出する原特徴量xA(k)は、変換関数F(x)の設定に利用される原音声VS0の特徴量x(k)とは相違し得る。変換関数F(x)による原特徴量xA(k)の写像は、確率項p(cq|x)により原特徴量xA(k)を原空間内に表現した特徴量(推定特徴量)xB(k)(xB(k)=p(cq|xA(k))xA(k))を目標空間に変換(写像)する処理に相当する。
原音声VS0の各特徴量x(k)と目標音声VT0の各特徴量y(k)とを学習情報として数式(2)の平均μqxおよび平均μqyと数式(3)の共分散行列Σqxxおよび共分散行列Σqyxとが算定されて記憶装置14に格納される。図1の解析処理部26は、記憶装置14に格納された各変数(μqx,μqy,Σqxx,Σqyx)を数式(4)に適用した変換関数F(x)を変換フィルタH(k)の生成に利用する。図3は、解析処理部26のブロック図である。図3に示すように、解析処理部26は、変換処理部42と特徴量推定部44とスペクトル生成部46と第1差分算定部52と合成処理部54と第2差分算定部56と統合処理部58とを含んで構成される。
変換処理部42は、特徴量抽出部24が単位期間毎に抽出した原特徴量xA(k)を数式(4)の変換関数F(x)に適用することで変換特徴量F(xA(k))を単位期間毎に算定する。すなわち、変換特徴量F(xA(k))は、原特徴量xA(k)に対応する目標音声VTの特徴量の推定値に相当する。
特徴量推定部44は、特徴量抽出部24が単位期間毎に抽出した原特徴量xA(k)を変換関数F(x)の確率項p(cq|x)に適用することで推定特徴量xB(k)を単位期間毎に算定する。推定特徴量xB(k)は、変換関数F(x)の設定に利用された原音声VS0の原空間内で原特徴量xA(k)に対応する地点(具体的には、音韻が原特徴量xA(k)と共通する確度が統計的に高い地点)を意味する。すなわち、推定特徴量xB(k)は、原空間内に表現された原特徴量xA(k)のモデルに相当する。本実施形態の特徴量推定部44は、記憶装置14に格納された平均μqxを適用した以下の数式(6)の演算で推定特徴量xB(k)を算定する。
Figure 0005846043
図4の部分(A)には、原特徴量xA(k)が示す原スペクトル包絡EA(k)と推定特徴量xB(k)が示すスペクトル包絡(以下「推定スペクトル包絡」という)EB(k)とが例示されている。原特徴量xA(k)と推定特徴量xB(k)とは1個の音韻に対応する共通の要素分布Nに属する可能性が高いから、図4の部分(A)から把握される通り、周波数軸上のピークの周波数は原スペクトル包絡EA(k)と推定スペクトル包絡EB(k)とで概略的には合致する。しかし、例えば原特徴量xA(k)が変換関数F(x)の設定用の原音声VS0の特徴量x(k)とは乖離する場合には、周波数に対する概略的な勾配(図4の部分(A)の破線)や強度レベルが原スペクトル包絡EA(k)と推定スペクトル包絡EB(k)とで相違し得る。
図3のスペクトル生成部46は、特徴量(xA(k),F(xA(k)),xB(k))をスペクトル包絡(スペクトル密度)に変換する。具体的には、スペクトル生成部46は、特徴量抽出部24が抽出した原特徴量xA(k)が示す原スペクトル包絡EA(k)と、変換処理部42が生成した変換特徴量F(xA(k))が示す第1スペクトル包絡L1(k)と、特徴量推定部44が生成した推定特徴量xB(k)が示す推定スペクトル包絡EB(k)とを単位期間毎に順次に生成する。図4の部分(B)には、原特徴量xA(k)が示す原スペクトル包絡EA(k)と変換特徴量F(xA(k))が示す第1スペクトル包絡L1(k)とが対比的に図示されている。
図3の第1差分算定部52は、変換特徴量F(xA(k))に対応する第1スペクトル包絡L1(k)と推定特徴量xB(k)に対応する推定スペクトル包絡EB(k)との差異に応じた第1変換フィルタH1(k)を単位期間毎に順次に生成する。具体的には、第1差分算定部52は、図4の部分(C)に示すように、周波数領域にて第1スペクトル包絡L1(k)から推定スペクトル包絡EB(k)を減算することで第1変換フィルタH1(k)(H1(k)=L1(k)−EB(k))を生成する。以上の説明から理解されるように、第1変換フィルタH1(k)は、原空間内の推定特徴量xB(k)を目標空間内に写像するフィルタ(変換関数)である。
図3の合成処理部54は、第1差分算定部52が生成した第1変換フィルタH1(k)を原特徴量xA(k)の原スペクトル包絡EA(k)に作用させることで第2スペクトル包絡L2(k)を単位期間毎に順次に生成する。具体的には、合成処理部54は、周波数領域にて原スペクトル包絡EA(k)と第1変換フィルタH1(k)とを加算することで第2スペクトル包絡L2(k)(L2(k)=EA(k)+H1(k))を生成する。
第2差分算定部56は、変換処理部42が生成した変換特徴量F(xA(k))に対応する第1スペクトル包絡L1(k)と合成処理部54が生成した第2スペクトル包絡L2(k)との差異に応じた第2変換フィルタH2(k)を単位期間毎に順次に生成する。
図5は、第2差分算定部56のブロック図であり、図6は、第2差分算定部56による処理の説明図である。図5に示すように、第1実施形態の第2差分算定部56は、平滑部562と減算部564とを含んで構成される。平滑部562は、図6に示すように、第1スペクトル包絡L1(k)を周波数方向に平滑化した第1平滑スペクトル包絡LS1(k)を単位期間毎に順次に生成し、第2スペクトル包絡L2(k)を周波数方向に平滑化した第2平滑スペクトル包絡LS2(k)を単位期間毎に順次に生成する。例えば、平滑部562は、周波数軸上の5個の周波数にわたる移動平均(単純移動平均または加重移動平均)を算定することで、平滑前の微細構造を抑制した第1平滑スペクトル包絡LS1(k)および第2平滑スペクトル包絡LS2(k)を生成する。
図5の減算部564は、図6に示すように、第1平滑スペクトル包絡LS1(k)と第2平滑スペクトル包絡LS2(k)との差分を第2変換フィルタH2(k)(H2(k)=LS1(k)−LS2(k))として単位期間毎に順次に算定する。第1スペクトル包絡L1(k)と第2スペクトル包絡L2(k)との相違(第1平滑スペクトル包絡LS1(k)と第2平滑スペクトル包絡LS2(k)との相違)は、原特徴量xA(k)と推定特徴量xB(k)との相違(強度レベルや勾配の相違)に対応する。したがって、第2変換フィルタH2(k)は、原特徴量xA(k)と推定特徴量xB(k)との相違を補償するためのフィルタ(変換関数)として機能する。
図3の統合処理部58は、第1差分算定部52が生成した第1変換フィルタH1(k)と第2差分算定部56が生成した第2変換フィルタH2(k)とに応じた変換フィルタH(k)を生成する。具体的には、統合処理部58は、図7に示すように、第1変換フィルタH1(k)と第2変換フィルタH2(k)とを加算することで変換フィルタH(k)(H(k)=H1(k)+H2(k))を単位期間毎に順次に生成する。前述の通り、統合処理部58が生成した変換フィルタH(k)を図1の音声変換部32が原音声VSのスペクトルPS(k)に作用させることで目標音声VTのスペクトルPT(k)が生成される。
ところで、原音声VSを目標音声VTに変換するための構成としては、例えば、図4の部分(B)に示すように、原特徴量xA(k)を変換関数F(x)に適用した変換特徴量F(xA(k))の第1スペクトル包絡L1(k)と原特徴量xA(k)の原スペクトル包絡EA(k)との差分を変換フィルタh(k)(h(k)=L1(k)−EA(k))として原音声VSのスペクトルPS(k)に作用させる構成(以下「対比例」という)も想定され得る(PT(k)=PS(k)+h(k))。しかし、対比例では、原特徴量xA(k)の特性が、変換関数F(x)の設定時に学習情報として使用された音声の特徴量x(k)から乖離する場合に、原特徴量xA(k)と変換関数F(x)による写像で想定される推定特徴量xB(k)との相違(図4の部分(A)を参照して説明した強度レベルや勾配の相違)が顕著となり、結果的に、目標音声VTの本来の声質から乖離した音声が生成される可能性がある。そして、原特徴量xA(k)と推定特徴量xB(k)との相違が原特徴量xA(k)に応じて変動することで変換フィルタh(k)が不安定に変化し、結果的に変換後の音声の特性が頻繁に変化して音質が低下し得る。
他方、第1実施形態では、変換関数F(x)の確率項p(cq|x)に原特徴量xA(k)を適用した推定特徴量xB(k)と原特徴量xA(k)に変換関数F(x)を適用した変換特徴量F(xA(k))との差異に応じた第1変換フィルタH1(k)が生成され、変換特徴量F(xA(k))が示す第1スペクトル包絡L1(k)と原特徴量xA(k)の原スペクトル包絡EA(k)に第1変換フィルタH1(k)を作用させた第2スペクトル包絡L2(k)との差異に応じた第2変換フィルタH2(k)が生成される。そして、第1変換フィルタH1(k)と第2変換フィルタH2(k)とを原音声VSのスペクトルPS(k)に作用させることで目標音声VTのスペクトルPT(k)が生成される。第2変換フィルタH2(k)は、原特徴量xA(k)と推定特徴量xB(k)との相違が補償されるように作用するから、原特徴量xA(k)が変換関数F(x)の設定用の原音声VS0の特徴量x(k)と相違する場合でも、前述の対比例と比較して高音質な音声を生成できるという利点がある。
また、第1実施形態では、第1スペクトル包絡L1(k)を平滑化した第1平滑スペクトル包絡LS1(k)と第2スペクトル包絡L2(k)を平滑化した第2平滑スペクトル包絡LS2(k)との差分に応じて第2変換フィルタH2(k)が生成される。したがって、例えば第1スペクトル包絡L1(k)と第2スペクトル包絡L2(k)との差分に応じて第2変換フィルタH2(k)を生成する構成と比較して、原特徴量xA(k)と推定特徴量xB(k)との相違を高精度に補償して高音質な目標音声VTを生成できるという利点がある。
<第2実施形態>
本発明の第2実施形態を以下に説明する。以下に例示する各態様において作用や機能が第1実施形態と同様である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
図8は、第2実施形態に係る音声処理装置100Bのブロック図である。第2実施形態の音声処理装置100Bは、複数の音声素片を相互に接続することで音声信号を生成する信号処理装置(音声合成装置)である。利用者は、入力装置(図示略)を適宜に操作することで、発声者USの声質の音声の生成と発声者UTの声質の音声の生成とを選択することが可能である。
図8に示すように、発声者USが発声した原音声VSから抽出された複数の音声素片Dの集合(音声合成用ライブラリ)が記憶装置14に記憶される。各音声素片は、言語上の意味の区別の最小単位(例えば母音や子音)に相当する1個の音素(monophone)、または複数の音素を連結した音素連鎖(diphone,triphone)であり、例えば時間領域での波形のサンプル系列や周波数領域でのスペクトルを規定するデータで表現される。
第2実施形態の演算処理装置12は、記憶装置14に記憶されたプログラムを実行することで複数の機能(素片選択部72,音声処理部74,音声合成部76)を実現する。素片選択部72は、合成対象に指定された歌詞等の発音文字(以下「指定音韻」という)に対応する音声素片Dを記憶装置14から順次に選択する。
音声処理部74は、素片選択部72が選択した各音声素片D(原音声VS)を発声者UTの目標音声VTの音声素片Dに変換する。具体的には、発声者UTの音声の合成が指示された場合に音声処理部74は各音声素片Dの変換を実行する。具体的には、音声処理部74は、第1実施形態の音声処理装置100Aによる原音声VSから目標音声VTへの変換と同様の処理で原音声VSの音声素片Dから目標音声VTの音声素片Dを生成する。すなわち、第2実施形態の音声処理部74は、例えば周波数分析部22と特徴量抽出部24と解析処理部26と音声変換部32と波形生成部34とを含んで構成される。したがって、第2実施形態においても第1実施形態と同様の効果が実現される。他方、発声者USの音声の合成が指示された場合、音声処理部74は動作を停止する。
図8の音声合成部76は、発声者USの音声の合成が指示された場合には、素片選択部72が記憶装置14から選択および取得した音声素片D(発声者USの原音声VS)を音高の調整後に相互に連結することで音声信号(指定音韻を発声者USが発声した音声の音声信号)を生成する。他方、発声者UTの音声の合成が指示された場合、音声合成部76は、音声処理部74による変換後の音声素片D(発声者UTの目標音声VT)を音高の調整後に相互に連結することで音声信号(指定音韻を発声者UTが発声した音声の音声信号)を生成する。
以上に説明した第2実施形態では、発声者USの原音声VSから抽出された音声素片Dを目標音声VTの音声素片Dに変換したうえで音声合成に適用するから、発声者UTの音声素片Dが記憶装置14に格納されていない場合でも発声者UTの音声を合成することが可能である。したがって、発声者USの音声素片Dと発声者UTの音声素片Dとの双方を記憶装置14に格納した構成と比較して、発声者USおよび発声者UTの音声を合成するために記憶装置14に必要な容量が削減されるという利点がある。
<変形例>
前述の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
(1)前述の各形態では、解析処理部26の統合処理部58が第1変換フィルタH1(k)と第2変換フィルタH2(k)との統合で変換フィルタH(k)を生成したが、第1差分算定部52が生成した第1変換フィルタH1(k)と第2差分算定部56が生成した第2変換フィルタH2(k)とを、音声変換部32が各単位期間のスペクトルPS(k)に作用させることで目標音声VTのスペクトルPT(k)(PT(k)=PS(k)+H1(k)+H2(k))を単位期間毎に生成することも可能である。すなわち、統合処理部58は省略され得る。以上の説明から理解されるように、前述の各形態の音声変換部32は、第1変換フィルタH1(k)と第2変換フィルタH2(k)とをスペクトルPS(k)に作用させることで目標音声VTを生成する要素(音声変換手段)として包括され、第1変換フィルタH1(k)と第2変換フィルタH2(k)との統合(変換フィルタH(k)の生成)の有無は不問である。
(2)前述の各形態では、第1スペクトル包絡L1(k)を平滑化した第1平滑スペクトル包絡LS1(k)と第2スペクトル包絡L2(k)を平滑化した第2平滑スペクトル包絡LS2(k)との差異に応じた第2変換フィルタH2(k)を生成したが、第1スペクトル包絡L1(k)の平滑化や第2スペクトル包絡L2(k)の平滑化(平滑部562)は省略され得る。すなわち、前述の各形態の第2差分算定部56は、第1スペクトル包絡L1(k)と第2スペクトル包絡L2(k)との差異に応じた第2変換フィルタH2(k)を生成する要素(第2差分算定手段)として包括される。
(3)前述の各形態では、自己回帰モデルの線スペクトルを規定する複数の係数の系列を特徴量(xA(k),xB(k))として例示したが、特徴量の種類は以上の例示に限定されない。例えば、MFCC(Mel-Frequency Cepstral Coefficient)を特徴量とした構成も採用され得る。
100A,100B……音声処理装置、12……演算処理装置、14……記憶装置、22……周波数分析部、24……特徴量抽出部、26……解析処理部、32……音声変換部、34……波形生成部、42……変換処理部、44……特徴量推定部、46……スペクトル生成部、52……第1差分算定部、54……合成処理部、56……第2差分算定部、58……統合処理部、562……平滑部、564……減算部、72……素片選択部、74……音声処理部、76……音声合成部。

Claims (3)

  1. 声質が相違する各音声の特徴量の分布を近似する混合分布モデルの各要素分布に音声の特徴量が属する確率を示す確率項を包含する声質変換用の変換関数に原音声の原特徴量を適用することで変換特徴量を生成する変換処理手段と、
    前記原特徴量が前記混合分布モデルの各要素分布に属する確率に応じた推定特徴量を前記確率項に対する前記原特徴量の適用で生成する特徴量推定手段と、
    前記変換処理手段が生成した変換特徴量に対応する第1スペクトルと前記特徴量推定手段が生成した推定特徴量に対応する推定スペクトルとの差異に応じた第1変換フィルタを生成する第1差分算定手段と、
    前記第1差分算定手段が生成した第1変換フィルタを前記原特徴量に対応する原スペクトルに加算することで第2スペクトルを生成する合成処理手段と、
    前記第1スペクトルと前記第2スペクトルとの差異に応じた第2変換フィルタを生成する第2差分算定手段と、
    前記第1変換フィルタと前記第2変換フィルタとを前記原音声のスペクトルに加算することで目標音声を生成する音声変換手段と
    を具備する音声処理装置。
  2. 前記第2差分算定手段は、
    前記第1スペクトルおよび前記第2スペクトルの各々を周波数領域内で平滑化する平滑手段と、
    前記平滑化後の第1スペクトルと前記平滑化後の第2スペクトルとの差分を前記第2変換フィルタとして算定する減算手段とを含む
    請求項1の音声処理装置。
  3. 複数の音声素片の各々を順次に選択する素片選択手段と、
    前記素片選択手段が選択した各音声素片を原音声として目標音声の音声素片に変換する音声処理手段と、
    前記音声処理手段による変換後の音声素片を相互に連結して音声信号を生成する音声合成手段とを具備し、
    前記音声処理手段は、
    声質が相違する各音声の特徴量の分布を近似する混合分布モデルの各要素分布に音声の特徴量が属する確率を示す確率項を包含する声質変換用の変換関数に原音声の原特徴量を適用することで変換特徴量を生成する変換処理手段と、
    前記原特徴量が前記混合分布モデルの各要素分布に属する確率に応じた推定特徴量を前記確率項に対する前記原特徴量の適用で生成する特徴量推定手段と、
    前記変換処理手段が生成した変換特徴量に対応する第1スペクトルと前記特徴量推定手段が生成した推定特徴量に対応する推定スペクトルとの差異に応じた第1変換フィルタを生成する第1差分算定手段と、
    前記第1差分算定手段が生成した第1変換フィルタを前記原特徴量に対応する原スペクトルに加算することで第2スペクトルを生成する合成処理手段と、
    前記第1スペクトルと前記第2スペクトルとの差異に応じた第2変換フィルタを生成する第2差分算定手段と、
    前記第1変換フィルタと前記第2変換フィルタとを前記原音声のスペクトルに加算することで目標音声を生成する音声変換手段とを含む
    音声処理装置。
JP2012115065A 2012-05-18 2012-05-18 音声処理装置 Expired - Fee Related JP5846043B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012115065A JP5846043B2 (ja) 2012-05-18 2012-05-18 音声処理装置
US13/896,192 US20130311189A1 (en) 2012-05-18 2013-05-16 Voice processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012115065A JP5846043B2 (ja) 2012-05-18 2012-05-18 音声処理装置

Publications (2)

Publication Number Publication Date
JP2013242410A JP2013242410A (ja) 2013-12-05
JP5846043B2 true JP5846043B2 (ja) 2016-01-20

Family

ID=49582033

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012115065A Expired - Fee Related JP5846043B2 (ja) 2012-05-18 2012-05-18 音声処理装置

Country Status (2)

Country Link
US (1) US20130311189A1 (ja)
JP (1) JP5846043B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2013274940B2 (en) * 2012-06-15 2016-02-11 Jemardator Ab Cepstral separation difference
US9613620B2 (en) * 2014-07-03 2017-04-04 Google Inc. Methods and systems for voice conversion
JP6470586B2 (ja) * 2015-02-18 2019-02-13 日本放送協会 音声加工装置、及びプログラム
JP6561499B2 (ja) * 2015-03-05 2019-08-21 ヤマハ株式会社 音声合成装置および音声合成方法
JP2018072723A (ja) 2016-11-02 2018-05-10 ヤマハ株式会社 音響処理方法および音響処理装置
US10622002B2 (en) 2017-05-24 2020-04-14 Modulate, Inc. System and method for creating timbres
US11538485B2 (en) 2019-08-14 2022-12-27 Modulate, Inc. Generation and detection of watermark for real-time voice conversion
US11996117B2 (en) 2020-10-08 2024-05-28 Modulate, Inc. Multi-stage adaptive system for content moderation
CN114882867B (zh) * 2022-04-13 2024-05-28 天津大学 基于滤波器组频率区分的深度网络波形合成方法及装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
JP3102335B2 (ja) * 1996-01-18 2000-10-23 ヤマハ株式会社 フォルマント変換装置およびカラオケ装置
US6836761B1 (en) * 1999-10-21 2004-12-28 Yamaha Corporation Voice converter for assimilation by frame synthesis with temporal alignment
JP4153220B2 (ja) * 2002-02-28 2008-09-24 ヤマハ株式会社 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム
JP4241736B2 (ja) * 2006-01-19 2009-03-18 株式会社東芝 音声処理装置及びその方法
US7480641B2 (en) * 2006-04-07 2009-01-20 Nokia Corporation Method, apparatus, mobile terminal and computer program product for providing efficient evaluation of feature transformation
JP4966048B2 (ja) * 2007-02-20 2012-07-04 株式会社東芝 声質変換装置及び音声合成装置
CN101399044B (zh) * 2007-09-29 2013-09-04 纽奥斯通讯有限公司 语音转换方法和系统
JP4705203B2 (ja) * 2009-07-06 2011-06-22 パナソニック株式会社 声質変換装置、音高変換装置および声質変換方法
JP5545935B2 (ja) * 2009-09-04 2014-07-09 国立大学法人 和歌山大学 音声変換装置および音声変換方法
US9009052B2 (en) * 2010-07-20 2015-04-14 National Institute Of Advanced Industrial Science And Technology System and method for singing synthesis capable of reflecting voice timbre changes
JP5573529B2 (ja) * 2010-09-15 2014-08-20 ヤマハ株式会社 音声処理装置およびプログラム
JP5961950B2 (ja) * 2010-09-15 2016-08-03 ヤマハ株式会社 音声処理装置
US8594993B2 (en) * 2011-04-04 2013-11-26 Microsoft Corporation Frame mapping approach for cross-lingual voice transformation

Also Published As

Publication number Publication date
US20130311189A1 (en) 2013-11-21
JP2013242410A (ja) 2013-12-05

Similar Documents

Publication Publication Date Title
JP5846043B2 (ja) 音声処理装置
JP5961950B2 (ja) 音声処理装置
US9368103B2 (en) Estimation system of spectral envelopes and group delays for sound analysis and synthesis, and audio signal synthesis system
KR101492702B1 (ko) 하모닉 로킹을 이용하여 오디오 신호를 변조하는 장치 및 방법
KR101521368B1 (ko) 다중 채널 오디오 신호를 분해하는 방법, 장치 및 머신 판독가능 저장 매체
JP5275612B2 (ja) 周期信号処理方法、周期信号変換方法および周期信号処理装置ならびに周期信号の分析方法
CN111542875B (zh) 声音合成方法、声音合成装置及存储介质
US11289066B2 (en) Voice synthesis apparatus and voice synthesis method utilizing diphones or triphones and machine learning
US20210375248A1 (en) Sound signal synthesis method, generative model training method, sound signal synthesis system, and recording medium
US11646044B2 (en) Sound processing method, sound processing apparatus, and recording medium
JP6347536B2 (ja) 音合成方法及び音合成装置
JP2013164584A (ja) 音響処理装置
JP2016156938A (ja) 歌声信号分離方法及びシステム
JP5573529B2 (ja) 音声処理装置およびプログラム
JP2021135446A (ja) 音響処理方法
US11756558B2 (en) Sound signal generation method, generative model training method, sound signal generation system, and recording medium
JP6234134B2 (ja) 音声合成装置
JP7106897B2 (ja) 音声処理方法、音声処理装置およびプログラム
JP7200483B2 (ja) 音声処理方法、音声処理装置およびプログラム
Wang et al. Time-dependent recursive regularization for sound source separation
JP2018077280A (ja) 音声合成方法
Migneco et al. Techniques for Modeling Expression in Plucked-Guitar Tones

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140620

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150310

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150410

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150427

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151027

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151109

R151 Written notification of patent or utility model registration

Ref document number: 5846043

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees