JP5961950B2 - 音声処理装置 - Google Patents

音声処理装置 Download PDF

Info

Publication number
JP5961950B2
JP5961950B2 JP2011191665A JP2011191665A JP5961950B2 JP 5961950 B2 JP5961950 B2 JP 5961950B2 JP 2011191665 A JP2011191665 A JP 2011191665A JP 2011191665 A JP2011191665 A JP 2011191665A JP 5961950 B2 JP5961950 B2 JP 5961950B2
Authority
JP
Japan
Prior art keywords
unit
feature amount
voice
phoneme
amount information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011191665A
Other languages
English (en)
Other versions
JP2012083722A (ja
Inventor
ヴィラヴィセンシオ フェルナンド
ヴィラヴィセンシオ フェルナンド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2011191665A priority Critical patent/JP5961950B2/ja
Priority to EP20110181174 priority patent/EP2431967B1/en
Priority to US13/232,950 priority patent/US9343060B2/en
Publication of JP2012083722A publication Critical patent/JP2012083722A/ja
Application granted granted Critical
Publication of JP5961950B2 publication Critical patent/JP5961950B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used

Description

本発明は、音声を合成する技術に関する。
音声素片を示す複数の素片データを選択的に結合することで所望の音声を合成する素片接続型の音声合成技術が従来から提案されている(例えば特許文献1)。各音声素片の素片データは、特定の発声者の音声を収録して音声素片毎に区分および解析することで事前に用意される。
特開2003−255998号公報
Alexander Kain, Michael W. Macon, "SPECTRAL VOICE CONVERSION FOR TEXT-TO-SPEECH SYNTHESIS", Proceedings of the International Conference on Acoustics, Speech, and Signal Processing, vol.1, p. 285-288, May 1998
特許文献1の技術では、合成音の声質毎(発声者毎)に個別に全種類の音声素片の素片データを事前に用意する必要がある。しかし、音声の合成に必要な全種類の音声素片を発声することは発声者にとって肉体的にも精神的にも過大な負担である。また、音声を既に収録できない発声者(例えば生存しない発声者)について音声素片が不足する場合には当該発声者の音声を合成できないという問題もある。以上の事情を考慮して、本発明は、音声素片の種類が不足する発声者の音声を合成することを目的とする。
以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。
本発明の音声処理装置は、第1発声者の音声の単位区間毎の特徴量情報(例えば特徴量情報X)の分布を、相異なる音素に対応する複数の第1確率分布(例えば正規分布NS1〜NSQ)の混合確率分布(例えば混合分布モデルλS(X))で近似する第1分布生成手段(例えば第1分布生成部342)と、第2発声者の音声の単位区間毎の特徴量情報(例えば特徴量情報Y)の分布を、相異なる音素に対応する複数の第2確率分布(例えば正規分布NT1〜NTQ)の混合確率分布(例えば混合分布モデルλT(Y))で近似する第2分布生成手段(例えば第2分布生成部344)と、相互に対応する第1確率分布および第2確率分布の各々の統計量から、第1発声者の音声の特徴量情報を第2発声者の音声の特徴量情報に変換する変換関数(例えば変換関数F1(X)〜FQ(X))を音素毎に生成する関数生成手段(例えば関数生成部36)とを具備する。
以上の態様においては、第1発声者の音声の特徴量情報の分布を近似する複数の第1確率分布と第2発声者の音声の特徴量情報の分布を近似する複数の第2確率分布とが生成され、各音素に対応する第1確率分布の統計量と第2確率分布の統計量とを利用して、第1発声者の音声の特徴量情報を第2発声者の音声の特徴量情報に変換する変換関数が音素毎に生成される。変換関数の生成には、第1発声者の音声の特徴量情報と第2発声者の音声の特徴量情報との相関(例えば線形関係)が仮定される。以上の構成によれば、第2発声者の収録済の音声が全種類の音素連鎖(例えばダイフォンやトライフォン)を含まない場合でも、第1発声者の音声素片(特に音素連鎖)の特徴量情報に各音素の変換関数を適用することで第2発声者の当該音声素片の音声を生成することが可能である。なお、以上の説明から理解されるように、本発明は、第2発声者の収録済の音声が全種類の音素連鎖を含まない場合に格別に有効であるが、第2発声者の全種類の音素連鎖が収録済である場合でも、第1発声者の音声から同様の方法で第2発声者の音声を生成することも可能である。
なお、第1発声者と第2発声者との区別は、発声音の特性の相違(第1発声者の発声音と第2発声者の発声音とで特性が相違すること)を意味し、第1発声者と第2発声者との異同(別人/同一人)は不問である。変換関数は、第1発声者の音声の特徴量情報と第2発声者の音声の特徴量情報との相関を規定する関数(第1発声者の音声の特徴量情報から第2発声者の音声の特徴量情報への写像)を意味する。変換関数の生成に利用される第1確率分布および第2確率分布の各々の統計量は、変換関数の内容に応じて適宜に選定され得る。例えば各確率分布の平均や共分散が、変換関数の生成に使用される統計量として好適である。
本発明の好適な態様の音声処理装置は、第1発声者および第2発声者の各々の音声について、音声の周波数領域の包絡線における各ピークの高さを各々の粗密で表現する線スペクトルの周波数を示す複数の係数値を含む特徴量情報を取得する特徴量取得手段(例えば特徴量取得部32)を具備し、第1分布生成手段および第2分布生成手段の各々は、特徴量取得手段が取得した特徴量情報に対応する混合確率分布を生成する。以上の態様においては、第1素片データの音声の包絡線の各ピークの高さを各々の粗密で表現する線スペクトルの周波数を示す複数の係数値を利用して、音声の包絡線を正確に表現できるという利点がある。
特徴量取得手段は、例えば、第1発声者および第2発声者の各々の音声について周波数スペクトルのピーク間の補間(例えば3次スプライン補間)で包絡線を生成する包絡線生成手段(例えば処理S13)と、包絡線を近似する自己回帰モデルを推定するとともに当該自己回帰モデルに応じて複数の係数値を設定する特徴量特定手段(例えば処理S16および処理S17)とを含む。以上の態様によれば、周波数スペクトルのピーク間の補間で生成された包絡線を近似する自己回帰モデルに応じて特徴量情報の複数の係数値が設定されるから、例えば第1発声者および第2発声者の各々の音声の標本化周波数が高い場合でも、包絡線を正確に表現する特徴量情報が生成されるという利点がある。
本発明の好適な態様において、Q個の音素のうち第q番目(q=1〜Q)の音素に対応する変換関数は、複数の第1確率分布のうち当該音素に対応する第1確率分布の平均μq Xおよび共分散Σq XXと、複数の第2確率分布のうち当該音素に対応する第2確率分布の平均μq Yおよび共分散Σq YYと、第1発声者の音声の特徴量情報Xとを含む数式{μq Y+(Σq YYq XX)-11/2(X−μq X)}を含んで構成される。以上の構成によれば、第1発声者の音声の特徴量情報と第2発声者の音声の特徴量情報との相互共分散(Σq YX)が不要であるから、第1発声者の特徴量情報と第2発声者の特徴量情報との時間的な対応が不明な場合でも変換関数を適切に生成することが可能である。なお、以上の数式は、第1発声者の音声の特徴量情報Xと第2発声者の音声の特徴量情報Yとについて線形関係(Y=aX+b)を仮定することで音素毎に導出される。
本発明の好適な態様において、Q個の音素のうち第q番目(q=1〜Q)の音素に対応する変換関数は、複数の第1確率分布のうち当該音素に対応する第1確率分布の平均μq Xおよび共分散Σq XXと、複数の第2確率分布のうち当該音素に対応する第2確率分布の平均μq Yおよび共分散Σq YYと、第1発声者の音声の特徴量情報Xと、調整係数ε(0<ε<1)とを含む数式{μq Y+ε(Σq YYq XX)-11/2(X−μq X)}を含んで構成される。以上の構成によれば、第1発声者の音声の特徴量情報と第2発声者の音声の特徴量情報との相互共分散(Σq YX)が不要であるから、第1発声者の特徴量情報と第2発声者の特徴量情報との時間的な対応が不明な場合でも変換関数を適切に生成することが可能である。また、{(Σq YYq XX)-11/2}が調整係数εで調整されるから、第2発声者について高品位な音声を合成可能な変換関数を生成できるという利点もある。なお、以上の数式は、第1発声者の音声の特徴量情報Xと第2発声者の音声の特徴量情報Yとについて線形関係(Y=aX+b)を仮定することで音素毎に導出される。調整係数εは、例えば0.5以上かつ0.7以下の範囲内の数値に設定され、特に好適には0.6に設定される。
本発明の好適な態様に係る音声処理装置は、第1発声者の音声を示す第1素片データ(例えば素片データDS)を音声素片毎に記憶する記憶手段(例えば記憶装置14)と、各音声素片に対応する第1素片データが示す音声の特徴量情報に対して、関数生成手段が生成した複数の変換関数のうち当該音声素片に対応する変換関数を適用することで、第2発声者の音声の第2素片データ(例えば素片データDT)を順次に生成する声質変換手段(例えば声質変換部24)とを具備する。以上の態様によれば、第2発声者に類似(理想的には合致)する声質で第1素片データの音声素片を発声した音声に対応する第2素片データが生成される。なお、音声合成の実行前に声質変換手段が各音声素片の第2素片データを予め作成する構成や、音声合成に必要な第2素片データを声質変換手段が音声合成に並行して逐次的(実時間的)に作成する構成が採用され得る。
本発明の好適な態様において、声質変換手段は、第1素片データが第1音素(例えば音素ρ1)と第2音素(例えば音素ρ2)とを示す場合に、第1音素と第2音素との境界(例えば境界B)を含む補間区間(例えば補間区間TIP)内において第1音素の変換関数(例えば変換関数Fq1(X))から第2音素の変換関数(例えば変換関数Fq2(X))に段階的に変化するように、当該補間区間内の各単位区間の特徴量情報に適用される変換関数を補間する。以上の態様においては、第1素片データの音素の境界の近傍の特徴量情報に適用される変換関数が補間区間内で段階的に変化するように第1音素の確率関数と第2音素の変換関数とが補間されるから、相前後する音素の特性(例えば周波数スペクトルの包絡線)が円滑に連続する自然な合成音を第2素片データから生成できるという利点がある。なお、以上の態様の具体例は、例えば第2実施形態として後述される。
本発明の好適な態様において、声質変換手段は、各第1素片データが示す音声の周波数領域の包絡線における各ピークの高さを各々の粗密で表現する線スペクトルの周波数を示す複数の係数値を含む特徴量情報を取得する特徴量取得手段(例えば特徴量取得部42)と、特徴量取得手段が取得した特徴量情報に変換関数を適用する変換処理手段(例えば変換処理部44)と、変換処理手段による変換後の特徴量情報に対応する第2素片データを生成する素片データ生成手段(例えば素片データ生成部46)とを含む。以上の態様においては、第1素片データの音声の包絡線の各ピークの高さを各々の粗密で表現する線スペクトルの周波数を示す複数の係数値を利用して、音声の包絡線を正確に表現できるという利点がある。
以上の態様の好適例に係る音声処理装置は、変換処理手段による変換後の特徴量情報の各係数値を補正する係数補正手段(例えば係数補正部48)を具備し、素片データ生成手段は、係数補正手段による補正後の特徴量情報に対応する素片データを生成する。以上の態様においては、変換関数を利用した変換後の特徴量情報の各係数値を係数補正手段が補正するから、例えば変換関数による変換の影響(例えば各係数値の分散の低減)が抑制されるように各係数値を補正することで、聴感的に自然な印象の合成音を生成することが可能である。なお、以上の態様の具体例は、例えば第3実施形態として後述される。
本発明の好適な態様の係数補正手段は、所定の範囲の外側にある係数値を当該範囲の内側の数値に変更する第1補正手段(例えば第1補正部481)を含む。また、係数補正手段は、相互に隣合う各線スペクトルに対応する各係数値の差分が所定値を下回る場合に、当該差分が増加するように各係数値を補正する第2補正手段(例えば第2補正部482)を含む。以上の態様によれば、相互に隣合う各係数値の差分が過度に小さい場合に当該差分が第2補正手段による補正で拡大するから、特徴量情報が表現する包絡線における過剰なピークが抑制されるという利点がある。
また、本発明の好適な態様の係数補正手段は、次数毎の係数値の時系列における分散が増加するように各係数値を補正する第3補正手段(例えば第3補正部483)を含む。以上の態様においては、次数毎の係数値の分散が第3補正手段による補正で増加するから、特徴量情報が表現する包絡線に適度なピークを発生させることが可能である。
以上の各態様に係る音声処理装置は、DSP(Digital Signal Processor)等の専用の電子回路で実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働でも実現される。本発明の音声処理装置の各要素(各手段)としてコンピュータを機能させるプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
本発明の第1実施形態の音響処理装置のブロック図である。 関数特定部のブロック図である。 特徴量情報を取得する動作の説明図である。 特徴量取得部の動作の説明図である。 包絡線を生成する処理(補間)の説明図である。 声質変換部のブロック図である。 音声合成部のブロック図である。 第2実施形態における声質変換部のブロック図である。 補間部の動作の説明図である。 第3実施形態における声質変換部のブロック図である。 係数補正部のブロック図である。 第2補正部の動作の説明図である。 各次数の係数値の時系列と包絡線との関係の説明図である。 第3補正部の動作の説明図である。 第4実施形態における調整係数と特徴量情報の分布範囲との説明図である。 調整係数とMOSとの関係を示すグラフである。
<A:第1実施形態>
図1は、本発明の第1実施形態に係る音声処理装置100のブロック図である。音声処理装置100は、所望の歌唱音を合成する音声合成装置(歌唱合成装置)であり、図1に示すように、演算処理装置12と記憶装置14とを具備するコンピュータシステムで実現される。
記憶装置14は、演算処理装置12が実行するプログラムPGMや演算処理装置12が使用する各種のデータ(素片群GS,音声信号VT)を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置14として任意に利用される。
素片群GSは、相異なる音声素片に対応する複数の素片データDSの集合(音声合成の素材となる音声合成用ライブラリ)である。素片群GSの各素片データDSは、発声者US(S:source)の音声波形の特徴を示す時系列データである。音声素片は、言語上の意味の区別の最小単位(例えば母音や子音)に相当する1個の音素(monophone)、または複数の音素を連結した音素連鎖(diphone,triphone)である。以上のように単独の音素に加えて音素連鎖を含む素片データDSを利用することで聴感的に自然な音声の合成が実現される。素片データDSは、音声合成に必要な全種類(例えば日本語の音声を合成する場合には500個程度、英語の音声を合成する場合には2000個程度)の音声素片について事前に用意される。以下の説明では音声素片のうち単独の音素の種類数をQ種類とし、素片群GSを構成する複数の素片データDSのうちQ種類の音素に対応する各素片データDSを、音素連鎖の素片データDSと区別する意味で特に「音素データPS」と表記する場合がある。
音声信号VTは、発声者USとは声質が相違する発声者UT(T:target)の音声の時間波形を示す時系列データである。音声信号VTは、全種類(Q種類)の音素(monophone)の波形を含んで構成される。ただし、音声信号VTの音声は、音声合成(素片データの採取)を目的として発声された音声ではないから、音素連鎖(diphone,triphone)の全種類を含むわけではない。したがって、素片群GSの素片データDSと同等数の素片データを音声信号VTのみから直接的に抽出することはできない。なお、素片データDSと素片データDTとは、別個の発声者が発声した各音声のほか、ひとりの発声者が相異なる声質で発声した各音声からも生成され得る。すなわち、発声者USと発声者UTとは同一の人物であり得る。
なお、本実施形態の素片データDSおよび音声信号VTは、音声の時間波形を所定の周波数Fsで標本化した数値列で構成される。高品位な音声の合成を実現するために、素片データDSや音声信号VTの生成時の標本化周波数Fsは高い周波数(例えば一般的な音楽用CDと同等の44.1kHz)に設定される。
図1の演算処理装置12は、記憶装置14に格納されたプログラムPGMの実行で複数の機能(関数特定部22,声質変換部24,音声合成部26)を実現する。関数特定部22は、発声者USの素片群GS(素片データDS)と発声者UTの音声信号VTとを利用してQ種類の音素の各々について変換関数F1(X)〜FQ(X)を特定する。変換関数Fq(X)(q=1〜Q)は、発声者USの声質の音声を発声者UTの声質の音声に変換するための写像関数である。
図1の声質変換部24は、関数特定部22が生成した各変換関数Fq(X)を素片群GSの各素片データDSに適用することで素片データDSと同数(すなわち、音声合成に必要な全種類の音声素片に対応する個数)の素片データDTを生成する。素片データDTは、発声者UTの声質に近似(理想的には合致)する音声波形の特徴を示す時系列データである。声質変換部24が生成した複数の素片データDTの集合は素片群GT(音声合成用ライブラリ)として記憶装置14に格納される。
音声合成部26は、記憶装置14内の各素片データDSに応じた発声者USの音声を示す音声信号VSYNや、声質変換部24が生成した各素片データDTに応じた発声者UTの音声を示す音声信号VSYNを合成する。関数特定部22と声質変換部24と音声合成部26との具体的な構成や動作を以下に説明する。
<関数特定部22>
図2は、関数特定部22のブロック図である。図2に示すように、関数特定部22は、特徴量取得部32と第1分布生成部342と第2分布生成部344と関数生成部36とを含んで構成される。図3に示すように、特徴量取得部32は、発声者USが発声した音素(音素データPS)の単位区間TF毎の特徴量情報Xと、発声者UTが発声した音素(音声信号VT)の単位区間TF毎の特徴量情報Yとを生成する。第1に、特徴量取得部32は、素片群GSの複数の素片データDSのうちQ個の音素(monophone)に対応する各音素データPSについて単位区間TF(フレーム)毎に特徴量情報Xを生成する。第2に、特徴量取得部32は、音声信号VTを時間軸上で音素毎に区分して各音素の波形を示す時系列データ(以下「音素データPT」という)を抽出し、各音素データPTについて単位区間TF毎に特徴量情報Yを生成する。音声信号VTを音素毎に区分する処理には公知の技術が任意に採用される。なお、素片データDSとは別個に収録された発声者USの音声信号から単位区間TF毎に特徴量情報Xを生成する構成も採用され得る。
図4は、特徴量取得部32の動作の説明図である。素片群GS内の各音素データPSから特徴量情報Xを生成する場合を以下では想定する。図4に示すように、特徴量取得部32は、周波数分析(S11,S12)と包絡線生成(S13,S14)と特徴量特定(S15〜S17)とを、各音素データPSの単位区間TF毎に順次に実行して特徴量情報Xを生成する。
図4の処理を開始すると、特徴量取得部32は、音素データPSの単位区間TFに対する周波数解析(例えば短時間フーリエ変換)で周波数スペクトルSPを算定する(S11)。各単位区間TFの時間長や位置は、音素データPSが示す音声の基本周波数に応じて可変に設定される(ピッチ同期分析)。図5に破線で図示されるように、処理S11で算定される周波数スペクトルSPには調波成分(基音成分および倍音成分)に対応する複数のピークが存在する。特徴量取得部32は、周波数スペクトルSPの複数のピークを検出する(S12)。
特徴量取得部32は、図5に実線で図示されるように、処理S12で検出した各ピーク(調波成分)間を補間することで包絡線ENVを特定する(S13)。処理S13での補間には、例えば3次スプライン補間等の公知の曲線補間技術が好適に採用される。そして、特徴量取得部32は、補間で生成された包絡線ENVの周波数をメル周波数に変換(メル尺度化)することで低域成分を強調する(S14)。なお、処理S14は省略され得る。
特徴量取得部32は、処理S14の実行後の包絡線ENVに対して逆フーリエ変換を実行することで自己相関関数を算定し(S15)、包絡線ENVを近似する自己回帰モデル(全極型伝達関数)を処理S15の自己相関関数から推定する(S16)。処理S16の自己回帰(AR:autoregressive)モデルの推定には例えばYule-Walker方程式が好適に利用される。処理S16で推定された自己回帰モデルの係数(自己回帰係数)を変換して得られるK個の係数値(線スペクトル周波数)L[1]〜L[K]を要素とするK次元のベクトルが特徴量情報Xとして生成される(S17)。
係数値L[1]〜L[K]は、自己回帰モデルのK個の線スペクトルの各々の周波数(LSF:Line Spectral Frequency)に相当する。すなわち、処理S16の自己回帰モデルで近似される包絡線ENVの各ピークの高低に応じて、相互に隣合う線スペクトルの間隔(粗密)が変化するように、各線スペクトルに対応する係数値L[1]〜L[K]が設定される。具体的には、周波数(メル周波数)軸上で相互に隣合う係数値L[k-1]と係数値L[k]との差異(すなわち線スペクトルの間隔)が小さいほど包絡線ENVのピークが高いことを意味する。なお、処理S16で推定される自己回帰モデルの次数Kは、標本化周波数Fsと素片データDSおよび音声信号VTの基本周波数の最小値F0minとに応じて設定され、具体的には所定値(Fs/(2・F0min))を下回る範囲内の最大値(例えばK=50〜70)に設定される。
以上の処理(S11〜S17)が反復されることで各音素データPSの単位区間TF毎に特徴量情報Xが生成される。また、特徴量取得部32は、以上に説明した周波数分析(S11,S12)と包絡線生成(S13,S14)と特徴量特定(S15〜S17)とを、音声信号VTから音素毎に抽出した各音素データPTの各単位区間TFについても同様に実行する。したがって、K個の係数値L[1]〜L[K]を要素とするK次元のベクトルが特徴量情報Yとして単位区間TF毎に生成される。特徴量情報Y(係数値L[1]〜L[K])は、各音素データPTが示す発声者UTの音声の周波数スペクトルSPの包絡線ENVを表現する。
ところで、包絡線ENVを表現する方法としては公知の線形予測分析(LPC:Linear Prediction Coding)も採用され得る。ただし、線形予測分析のもとで分析次数を大きい数値に設定すると、分析対象(素片データDS,音声信号VT)の標本化周波数Fsが高い場合に、各ピークが過度に強調された包絡線(すなわち現実との乖離が大きい包絡線)ENVが推定されるという傾向がある。他方、前述のように各ピークの補間(S13)と自己回帰モデルの推定(S16)とで包絡線ENVを近似する本実施形態の構成によれば、分析対象の標本化周波数Fsが高い場合(例えば前述の44.1kHz)でも包絡線ENVを正確に表現できるという利点がある。
図2の第1分布生成部342は、特徴量取得部32が取得した特徴量情報Xの分布を近似する混合分布モデルλS(X)を推定する。本実施形態の混合分布モデルλS(X)は、以下の数式(1)で定義される正規混合分布モデル(GMM:Gaussian Mixture Model)である。音素が共通する複数の特徴量情報Xは空間内の特定の位置に偏在するから、混合分布モデルλS(X)は、相異なる音素に対応する合計Q個の正規分布NS1〜NSQの加重和(線形結合)として表現される。なお、混合分布モデルλS(X)は、複数の正規分布で規定されるモデルという意味で“マルチガウシアンモデル(Multi Gaussian Model:MGM)”とも換言され得る。
Figure 0005961950
数式(1)の記号ωq Xは第q番目(q=1〜Q)の正規分布NSqの加重値を意味する。また、数式(1)の記号μq Xは正規分布NSqの平均(平均ベクトル)を意味し、記号Σq XXは正規分布NSqの共分散(自己共分散)を意味する。第1分布生成部342は、EM(Expectation - Maximization)アルゴリズム等の反復型の最尤推定アルゴリズムを実行することで、数式(1)の混合分布モデルλS(X)の各正規分布NSqの変数(加重値ω1 X〜ωQ X,平均μ1 X〜μQ X,共分散Σ1 XX〜ΣQ XX)を算定する。
図2の第2分布生成部344は、第1分布生成部342と同様に、特徴量取得部32が取得した特徴量情報Yの分布を近似する混合分布モデルλT(Y)を推定する。前述の混合分布モデルλS(X)と同様に、混合分布モデルλT(Y)は、相異なる音素に対応するQ個の正規分布NT1〜NTQの加重和(線形結合)として表現される数式(2)の正規混合分布モデル(GMM)である。
Figure 0005961950
数式(2)の記号ωq Yは第q番目の正規分布NTqの加重値を意味する。また、数式(2)の記号μq Yは正規分布NTqの平均を意味し、記号Σq YYは正規分布NTqの共分散(自己共分散)を意味する。第2分布生成部344は、公知の最尤推定アルゴリズムを実行することで数式(2)の混合分布モデルλT(Y)の各変数(加重値ω1 Y〜ωQ Y,平均μ1 Y〜μQ Y,共分散Σ1 YY〜ΣQ YY)を算定する。
図2の関数生成部36は、発声者USの音声を発声者UTの声質の音声に変換する変換関数Fq(X)(F1(X)〜FQ(X))を混合分布モデルλS(X)(平均μq X,共分散Σq XX)および混合分布モデルλT(Y)(平均μq Y,共分散Σq YY)を利用して生成する。非特許文献1には、以下の数式(3)の変換関数F(X)が記載されている。
Figure 0005961950
数式(3)の確率項p(cq|X)は、特徴量情報XがQ個の正規分布NS1〜NSQのうちの第q番目の正規分布NSqに属する確率(条件付確率)を意味し、例えば以下の数式(3A)で表現される。
Figure 0005961950
数式(3)のうち第q番目の正規分布(NSq,NTq)に対応する部分に着目すると、第q番目の音素に対応する以下の数式(4)の変換関数Fq(X)が導出される。
Figure 0005961950
数式(3)および数式(4)の記号Σq YXは、特徴量情報Xと特徴量情報Yとの相互共分散である。非特許文献1には、時間軸上で相対応する特徴量情報Xと特徴量情報Yとで構成される多数の結合ベクトルから共分散Σq YXを算定することが記載されている。しかし、本実施形態では特徴量情報Xと特徴量情報Yとの時間的な対応が不明である。そこで、第q番目の音素に対応する特徴量情報Xと特徴量情報Yとの間に以下の数式(5)の線形関係が成立すると仮定する。
Figure 0005961950
数式(5)の関係のもとでは、特徴量情報Xの平均μq Xと特徴量情報Yの平均μq Yとについて以下の数式(6)の関係が成立する。
Figure 0005961950
数式(4)の共分散Σq YXは、数式(5)および数式(6)を利用して以下の数式(7)のように変形される。なお、記号E[ ]は、複数の単位区間TFにわたる平均(期待値)を意味する。
Figure 0005961950
したがって、数式(4)は以下の数式(4A)に変形される。
Figure 0005961950
他方、特徴量情報Yの共分散Σq YYは、数式(5)および数式(6)の関係を利用すると以下の数式(8)で表現される。
Figure 0005961950
したがって、数式(4A)の係数aqを定義する以下の数式(9)が導出される。
Figure 0005961950
図2の関数生成部36は、第1分布生成部342が算定した平均μq Xおよび共分散Σq XX(すなわち混合分布モデルλS(X)に関する統計量)と第2分布生成部344が算定した平均μq Yおよび共分散Σq YY(すなわち混合分布モデルλT(X)に関する統計量)とを数式(4A)および数式(9)に適用することで、音素毎の変換関数Fq(X)(F1(X)〜FQ(X))を生成する。なお、以上に説明した変換関数Fq(X)の生成後には、記憶装置14の音声信号VTは消去され得る。
<声質変換部24>
図1の声質変換部24は、関数特定部22が生成した各変換関数Fq(X)を素片データDSに適用して素片データDTを生成する処理を、素片群GS内の各素片データDSについて反復することで素片群GTを生成する。各音声素片の素片データDSから生成される素片データDTの音声は、当該音声素片を発声者UTに類似(理想的には合致)する声質で発声した音声に相当する。図6は、声質変換部24のブロック図である。図6に示すように、声質変換部24は、特徴量取得部42と変換処理部44と素片データ生成部46とを含んで構成される。
特徴量取得部42は、素片群GS内の各素片データDSの単位区間TF毎に特徴量情報Xを生成する。特徴量取得部42が生成する特徴量情報Xは、前述の特徴量取得部32が生成する特徴量情報Xと同様である。すなわち、特徴量取得部42は、関数特定部22の特徴量取得部32と同様に、図4の処理を実行することで素片データDSの単位区間TF毎に特徴量情報Xを生成する。したがって、特徴量取得部42が生成する特徴量情報Xは、素片データDSの周波数スペクトルSPの包絡線ENVを近似する自己回帰モデルの各係数(自己回帰係数)を表現するK個の係数値(線スペクトル周波数)L[1]〜L[K]で構成されるK次元のベクトルである。
図6の変換処理部44は、特徴量取得部42が単位区間TF毎に生成する特徴量情報Xについて数式(4A)の変換関数Fq(X)の演算を実行することで、単位区間TF毎に特徴量情報XTを生成する。各単位区間TFの特徴量情報Xには、Q個の変換関数F1(X)〜FQ(X)のうち当該単位区間TFの音素に対応する1個の変換関数Fq(X)が適用される。したがって、単独の音素で構成される音声素片の素片データDSについては各単位区間TFの特徴量情報Xに共通の変換関数Fq(X)が適用される。他方、複数の音素で構成される音声素片(音素連鎖)の素片データDSについては、各単位区間TFの特徴量情報Xに対して音素毎に別個の変換関数Fq(X)が適用される。例えば第1音素と第2音素とで構成される音素連鎖(diphone)の素片データDSについては、第1音素に対応する各単位区間TFの特徴量情報Xには変換関数Fq1(X)が適用され、第2音素に対応する各単位区間TFの特徴量情報Xには変換関数Fq2(X)が適用される(q1≠q2)。変換処理部44が生成する特徴量情報XTは、変換前の特徴量情報Xと同様に、K個の係数値(線スペクトル周波数)LT[1]〜LT[K]を要素とするK次元のベクトルであり、素片データDSが示す発声者USの音声の声質を発声者UTの声質に変換した音声(すなわち素片データDSの音声素片を発声者UTが発声した音声)の周波数スペクトルの包絡線ENV_Tを表現する。
素片データ生成部46は、変換処理部44が単位区間TF毎に生成した特徴量情報XTに対応する素片データDTを順次に生成する。図6に示すように、素片データ生成部46は、差分生成部462と加工処理部464とを含んで構成される。差分生成部462は、特徴量取得部42が素片データDSから生成した特徴量情報Xで表現される包絡線ENVと、変換処理部44による変換後の特徴量情報XTで表現される包絡線ENV_Tとの差分ΔE(ΔE=ENV−ENV_T)を生成する。すなわち、差分ΔEは、発声者USと発声者UTとの声質(周波数スペクトルの包絡線)の相違に相当する。
加工処理部464は、素片データDSの周波数スペクトルSPと差分生成部462が生成した差分ΔEとの合成(例えば加算)で周波数スペクトルSP_T(SP_T=SP+ΔE)を生成する。以上の説明から理解されるように、周波数スペクトルSP_Tは、素片データDSが示す音声素片を発声者UTが発声した音声の周波数スペクトルに相当する。加工処理部464は、合成後の周波数スペクトルSP_Tを逆フーリエ変換で時間領域の素片データDTに変換する。以上の処理が素片データDS毎(音声素片毎)に実行されることで素片群GTが生成される。
<音声合成部26>
図7は、音声合成部26のブロック図である。図7の楽譜情報(スコアデータ)SCは、合成対象となる各指定音の音符(音高,継続長)と歌詞(発音文字)とを時系列に指定する情報であり、利用者からの指示(各指定音の追加や編集の指示)に応じて作成されて記憶装置14に格納される。図7に示すように、音声合成部26は、素片選択部52と合成処理部54とを含んで構成される。
素片選択部52は、楽譜情報SCで指定される歌詞(発音文字)に対応する音声素片の素片データD(DS,DT)を記憶装置14から順次に選択する。利用者は、発声者US(素片群GS)および発声者UT(素片群GT)の何れかを指定して音声の合成を指示することが可能である。利用者が発声者USを指定した場合、素片選択部52は、素片群GSから素片データDSを選択する。他方、利用者が発声者UTを指定した場合、素片選択部52は、声質変換部24が生成した素片群GTから素片データDTを選択する。
合成処理部54は、素片選択部52が順次に選択する素片データD(DS,DT)を楽譜情報SCの各指定音の音高や継続長に調整して相互に連結することで音声信号VSYNを生成する。音声合成部26が生成した音声信号VSYNは例えばスピーカ等の放音機器に供給されて音波として再生される。したがって、利用者が指定した発声者(US,UT)が楽譜情報SCの各指定音の歌詞を発声した歌唱音が再生される。
以上の形態においては、特徴量情報Xと特徴量情報Yとの線形関係(数式(5))の仮定のもと、発声者USの音声の特徴量情報Xの分布を近似する各正規分布NSqの平均μq Xおよび共分散Σq XXと、発声者UTの音声の特徴量情報Yの分布を近似する各正規分布NTqの平均μq Yおよび共分散Σq YYとを利用して音素毎の変換関数Fq(X)が生成される。そして、各音声素片の素片データDSに当該音声素片の音素に対応する変換関数Fq(X)を適用することで素片データDT(素片群GT)が生成される。以上の構成によれば、発声者UTについて全種類の音声素片が存在しない場合でも素片群GSの素片データDSと同数の素片データDTが生成される。したがって、発声者UTの負担を軽減することが可能である。また、発声者UTの音声を収録できない状況(例えば発声者UTが生存していない場合)でも、発声者UTの各音素の音声信号VTさえ収録されていれば、全種類の音声素片に対応する素片データDTを生成できる(発声者UTの任意の発声音を合成できる)という利点もある。
<B:第2実施形態>
本発明の第2実施形態を以下に説明する。なお、以下に例示する各態様において作用や機能が第1実施形態と同等である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
数式(4A)の変換関数Fq(X)は音素毎(変換関数Fq(X)毎)に相違するから、相連続する複数の音素(音素連鎖)の素片データDSから声質変換部24(変換処理部44)が素片データDTを生成する場合、相前後する各音素の境界の時点で変換関数Fq(X)が不連続に変化する。したがって、変換後の素片データDTが示す音声の特性(例えば周波数スペクトルの包絡線)が各音素の境界の時点にて急激に変化し、素片データDTを利用して生成された合成音が聴感的に不自然な印象となる可能性がある。第2実施形態は、以上の問題の低減を目的とした形態である。
図8は、第2実施形態の声質変換部24のブロック図である。図8に示すように、第2実施形態の声質変換部24の変換処理部44は補間部442を含んで構成される。補間部442は、素片データDSが音素連鎖を示す場合に、各単位区間TFの特徴量情報Xに適用される変換関数Fq(X)を補間する。
例えば、図9に示すように素片データDSが音素ρ1と音素ρ2とを示す場合を想定する。素片データDTの生成には音素ρ1の変換関数Fq1(X)と音素ρ2の変換関数Fq2(X)とが利用される。図9には、音素ρ1と音素ρ2との境界Bを含む補間区間TIPが図示されている。補間区間TIPは、例えば境界Bの直前の所定個(例えば10個)の単位区間TFと境界Bの直後の所定個(例えば10個)の単位区間TFとで構成される区間である。
図8の補間部442は、補間区間TIP内の各単位区間TFの特徴量情報Xに適用される変換関数Fq(X)が、補間区間TIPの始点から終点にかけて変換関数Fq1(X)から変換関数Fq2(X)に単位区間TF毎に段階的に変化するように、補間区間TIP内の各単位区間TFの変換関数Fq(X)を、音素ρ1の変換関数Fq1(X)と音素ρ2の変換関数Fq2(X)との補間で算定する。補間部442による補間の方法は任意であるが、例えば直線補間が好適である。
図8の変換処理部44は、補間区間TIPの外側の各単位区間TFの特徴量情報Xには第1実施形態と同様に当該単位区間TFの音素に対応する変換関数Fq(X)を適用し、補間区間TIP内の各単位区間TFの特徴量情報Xには補間部442による補間後の変換関数Fq(X)を適用することで、単位区間TF毎に特徴量情報XTを生成する。
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、素片データDSの音素の境界Bの近傍の特徴量情報Xに適用される変換関数Fq(X)が補間区間TIP内で段階的に変化するように補間部442が変換関数Fq(X)を補間するから、相前後する音素の特性(例えば包絡線)が円滑に連続する自然な印象の合成音を素片データDTから生成できるという利点がある。
<C:第3実施形態>
図10は、第3実施形態における声質変換部24のブロック図である。図10に示すように、第3実施形態の声質変換部24は、第1実施形態の声質変換部24に係数補正部48を追加した構成である。係数補正部48は、変換処理部44が単位区間TF毎に生成した特徴量情報XTの係数値LT[1]〜LT[K]を補正する。
図11に示すように、係数補正部48は、第1補正部481と第2補正部482と第3補正部483とを含んで構成される。図10の素片データ生成部46は、第1補正部481と第2補正部482と第3補正部483とによる補正後の係数値LT[1]〜LT[K]で構成される特徴量情報XTに対応する素片データDTを、第1実施形態と同様の方法で単位区間TF毎に順次に生成する。係数値LT[1]〜LT[K]に対する補正を以下に詳述する。
<第1補正部481>
包絡線ENV_Tを表現する係数値(線スペクトル周波数)LT[1]〜LT[K]は、0からπまでの範囲R内の数値(0<LT[1]<LT[2]<…<LT[K]<π)である必要がある。しかし、声質変換部24による処理(変換関数Fq(X)による変換)に起因して係数値LT[1]〜LT[K]が範囲Rの外側の数値となる可能性がある。そこで、第1補正部481は、係数値LT[1]〜LT[K]を範囲R内の数値に補正する。具体的には、係数値LT[k]がゼロを下回る場合(LT[k]<0)には、係数値LT[k]を、周波数軸上で正側に隣合う係数値LT[k+1]の数値に変更する(LT[k]=LT[k+1])。他方、係数値LT[k]がπを上回る場合(LT[k]>π)には、係数値LT[k]を、周波数軸上で負側に隣合う係数値LT[k-1]の数値に変更する(LT[k]=LT[k-1])。したがって、補正後の係数値LT[1]〜LT[K]は範囲R内に分布する。
<第2補正部482>
相互に隣合う2個の係数値LT[k]および係数値LT[k-1]の差分ΔL(ΔL=LT[k]−LT[k-1])が過度に小さい場合(すなわち線スペクトル同士が過度に接近する場合)、包絡線ENV_Tのピークの数値が異常に大きい数値となり、音声信号VSYNの再生音が聴感的に不自然な印象の音響となる可能性がある。そこで、第2補正部482は、相互に隣合う2個の係数値LT[k-1]および係数値LT[k]の差分ΔLが所定値Δminを下回る場合に両者間の差異を拡大する。
具体的には、係数値LT[k-1]と係数値LT[k]との差分ΔLが所定値Δminを下回る場合、図12に示すように、負側の係数値LT[k-1]は、係数値LT[k-1]と係数値LT[k]との中央値W(W=(LT[k-1]+LT[k])/2)から所定値Δminの半分を減算した数値に設定される(LT[k-1]=W−Δmin/2)。他方、補正前の正側の係数値LT[k]は、中央値Wに所定値Δminの半分を加算した数値に設定される(LT[k]=W+Δmin/2)。したがって、図12に示すように、第2補正部482による補正後の係数値LT[k-1]と係数値LT[k]は、中央値Wを中心として所定値Δminだけ離間した数値に設定される。すなわち、係数値LT[k-1]の線スペクトルと係数値LT[k]の線スペクトルとの間隔が所定値Δminに拡大する。
<第3補正部483>
図13は、変換関数Fq(X)による変換前の係数値L[k]の次数k毎の時系列(軌跡)である。図13に示すように、変換関数Fq(X)による変換前の各係数値L[k]は適度に分散する(すなわち時間的に適度に変動する)から、相互に隣合う係数値L[k]と係数値L[k-1]とが適度に接近する期間が発生する。したがって、図13に示すように、変換前の特徴量情報Xで表現される包絡線ENVには適切な高さのピークが発生する。
図14の実線は、変換関数Fq(X)による変換後の係数値LTa[k]の次数k毎の時系列(軌跡)である。係数値LTa[k]は、第3補正部483の補正前の係数値LT[k]を意味する。数式(4A)から理解されるように、変換関数Fq(X)においては、特徴量情報Xから平均μq Xが減算され、共分散Σq XXに対する共分散Σq YYの相対比(Σq YYq XX)-1)の平方根(1未満)が乗算される。以上に説明した平均μq Xの減算や比(Σq YYq XX)-1)の乗算に起因して、変換関数Fq(X)を利用した変換後の各係数値LTa[k]は、図14に示すように変換前(図13)と比較して分散が低減される。すなわち、係数値LTa[k]の時間的な変動が抑制される。したがって、相互に隣合う係数値LTa[k-1]と係数値LTa[k]との差分ΔLが大きい数値に維持され、図14に示すように、特徴量情報XTで表現される包絡線ENV_Tのピークが抑圧(平滑化)されるという傾向がある。以上のように包絡線ENV_Tのピークが抑圧された場合、音声信号VSYNの再生音が聴感的に不明瞭で不自然な印象の音響となる可能性がある。
そこで、第3補正部483は、係数値LTa[k]の次数k毎の分散が増加する(係数値LT[k]が経時的に変動する範囲が拡大する)ように係数値LTa[1]〜LTa[K]の各々を補正する。具体的には、第3補正部483は、以下の数式(10)の演算で補正後の係数値LT[k]を算定する。
Figure 0005961950
数式(10)の記号mean(LTa[k])は、所定の期間PL内における係数値LTa[k]の平均を意味する。期間PLの時間長は任意であるが、例えば歌唱曲の1フレーズ程度の時間長に設定される。数式(10)の記号std(LTa[k])は、期間PL内の各係数値LTa[k]の標準偏差を意味する。
数式(10)の記号σkは、発声者UTの音声信号VTにおける各単位区間TFの特徴量情報Y(図3)を構成するK個の係数値L[1]〜L[K]のうち次数kの係数値L[k]の標準偏差を意味する。関数特定部22が変換関数Fq(X)を生成する過程(図3の処理)において音声信号VTの特徴量情報Yから次数k毎に標準偏差σkが算定されて記憶装置14に格納される。第3補正部483は、記憶装置14に格納された標準偏差σkを数式(10)の演算に適用する。数式(10)の記号αstdは、所定の定数(正規化パラメータ)である。定数αstdは、聴感的に自然な合成音が生成されるように統計的または実験的に選定されるが、例えば0.7程度の数値が好適である。
数式(10)から理解されるように、補正前の係数値LTa[k]から平均mean(LTa[k])を減算した数値を標準偏差std(LTa[k])で除算することで係数値LTa[k]の分散が正規化され、定数αstdと標準偏差σkとを乗算することで係数値LTa[k]の分散が拡大する。具体的には、音声信号VT(各音素データPT)の特徴量情報Yの係数値L[k]の標準偏差(分散)σkが大きいほど補正後の係数値LT[k]の分散は補正前と比較して拡大する。数式(10)の平均mean(LTa[k])の加算は、補正後の係数値LT[k]の平均を補正前の係数値LTa[k]の平均に合致させる演算である。
以上に説明した演算の結果、図14に破線で図示されるように、補正後の係数値LT[k]の時系列では、補正前の係数値LTa[k]と比較して分散が増加する(すなわち数値の経時的な変動が拡大する)。したがって、相互に隣合う係数値LT[k-1]と係数値LT[k]とが適度に接近する。すなわち、第3補正部483による補正後の特徴量情報XTで表現される包絡線ENV_Tには、図14に破線で図示されるように、変換関数Fq(X)による補正前(図13)と同等のピークが適当な頻度で発生する(変換関数Fq(X)による変換の影響が低減される)。したがって、聴感的に明瞭で自然な印象の音響を合成することが可能である。
第3実施形態でも第1実施形態と同様の効果が実現される。また、第3実施形態では、声質変換部24による変換後の特徴量情報XT(係数値LT[1]〜LT[K])が補正されるから、変換関数Fq(X)による変換の影響を低減して聴感的に自然な印象の音響を生成することが可能である。なお、以上に例示した第1補正部481と第2補正部482と第3補正部483との少なくともひとつは省略され得る。また、係数補正部48による各補正の順番は任意に変更される。例えば、第3補正部483の補正後に第1補正部481や第2補正部482の補正を実行する構成も採用され得る。
<D:第4実施形態>
図15は、特定の音素の実際の収録音における特徴量情報Xと特徴量情報Yとの相関を、便宜的に各情報のひとつの次元について図示した散布図である。前述の各形態のように数式(9)の係数aqを数式(4A)に適用した場合、特徴量情報Xと特徴量情報Yとの間には直線的な相関(分布r1)が観測される。他方、図15に分布r0で示すように、実際の音声から観測される特徴量情報Xおよび特徴量情報Yは、数式(9)の係数aqを適用した場合と比較して広範囲に分布する。
係数aqのノルムが小さいほど特徴量情報Xおよび特徴量情報Yの分布範囲は円形に近付く。したがって、符号r1の場合と比較してノルムが減少するように係数aqを設定することで、特徴量情報Xと特徴量情報Yとの相関を現実の分布r0に近付けることが可能である。以上の傾向を考慮して、第4実施形態では、以下の数式(9A)で定義されるように、係数aqを調整するための調整係数(加重値)εを導入する。すなわち、第4実施形態の関数特定部22(関数生成部36)は、数式(4A)および数式(9A)の演算により音素毎の変換関数Fq(X)(F1(X)〜FQ(X))を生成する。調整係数εは、1未満の正数の範囲内で設定される(0<ε<1)。
Figure 0005961950
前述の各形態のように係数aqを数式(9)で算定した場合の分布r1は、数式(9A)の調整係数εを1に設定した場合に相当する。図15に示す分布r2(ε=0.97)および分布r3(ε=0.75)からも把握されるように、調整係数εが小さいほど特徴量情報Xおよび特徴量情報Yの分布範囲が拡大し、調整係数εが0に近付くほど分布範囲は略円形に近付く。特徴量情報Xと特徴量情報Yの分布範囲が現実の分布r0に近似するように調整係数εを設定した場合に聴感的に自然な音声を生成できるという傾向が図15から把握される。
図16は、音声合成部26が発声者UTの各素片データDTから生成した音声信号VSYNの再生音のMOS(Mean Opinion Score)の数値および標準偏差を、調整係数εを変化させた複数の場合(ε=0.2,0.6,1)について図示したグラフである。図16の縦軸のMOSは、音声品質の主観評価の指標値(1〜5)であり、数値が大きいほど高音質と知覚されたことを意味する。
調整係数εを0.6付近の数値に設定した場合に高品位な音声が生成されるという傾向が図16から把握される。以上の傾向を考慮して、数式(9A)の調整係数εは、0.5以上かつ0.7以下の範囲内の数値に設定され、更に好適には0.6に設定される。
第4実施形態においても第1実施形態と同様の効果が実現される。また、第4実施形態では、係数aqが調整係数εにより調整されることで、変換関数Fq(X)による変換後の係数値LTa[k]の分散が増加する(すなわち数値の経時的な変動が拡大する)から、図14を参照して説明した第3実施形態と同様に、聴感的に自然な高品位な音声を合成可能な素片データDTを生成できるという利点がある。
<E:変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
(1)変形例1
素片データD(DS,DT)の形式は任意である。例えば、素片データDが音声の周波数スペクトルを示す構成や、素片データDが特徴量情報(X,Y,XT)を示す構成も採用され得る。素片データDSが周波数スペクトルを示す構成では、図3の周波数分析(S11,S12)が省略される。また、素片データDSが特徴量情報(X,Y,XT)を示す構成では、特徴量取得部32や特徴量取得部42は素片データDを取得する要素として機能し、図4の処理(周波数分析(S11,S12)や包絡線特定(S13,S14)等)は省略される。音声合成部26(合成処理部54)による音声信号VSYNの生成の方法は、素片データD(DS,DT)の形式に応じて適宜に選定される。
また、以上の各形態では、特徴量情報(X,Y,XT)が示す特徴量は、自己回帰モデルの線スペクトルを規定するK個の係数値L[1]〜L[K](LT[1]〜LT[K])の系列に限定されない。例えば、特徴量情報(X,Y,XT)がMFCC(Mel-Frequency Cepstral Coefficient)やケプストラム係数(Cepstral Coefficients)等の特徴量を示す構成も採用され得る。
(2)変形例2
以上の各形態では、複数の素片データDTで構成される素片群GTを音声合成の実行前に予め生成したが、音声合成部26による音声合成に並行して声質変換部24が素片データDTを逐次的に生成する構成も採用され得る。すなわち、声質変換部24は、楽譜情報SCで指定音の歌詞が指定されるたびに、当該歌詞に対応する素片データDSを記憶装置14から取得して変換関数Fq(X)を適用することで素片データDTを生成する。音声合成部26は、声質変換部24が生成する素片データDTから音声信号VSYNを順次に生成する。以上の構成によれば、素片群GTを記憶装置14に格納する必要がないから、記憶装置14に必要な容量が削減されるという利点がある。
(3)変形例3
以上の各形態では、関数特定部22と声質変換部24と音声合成部26とを含む音声処理装置100を例示したが、以上の各要素は複数の装置に個別に搭載され得る。例えば、素片群GSおよび音声信号VTを記憶する記憶装置14と関数特定部22とを具備する音声処理装置(声質変換部24や音声合成部26を省略した構成)は、別装置の声質変換部24が使用する変換関数Fq(X)を特定する装置(変換関数生成装置)として利用される。また、素片群GSを記憶する記憶装置14と声質変換部24とを具備する音声処理装置(音声合成部26を省略した構成)は、別装置の音声合成部26が音声合成に使用する素片群GTを素片群GSに対する変換関数Fq(X)の適用で生成する装置(素片データ生成装置)として利用される。
(4)変形例4
以上の各形態では歌唱音の合成を例示したが、歌唱音以外の発話音(例えば会話音)を合成する場合にも、以上の各形態と同様に本発明を同様に適用することが可能である。
100……音声処理装置、12……演算処理装置、14……記憶装置、22……関数特定部、24……声質変換部、26……音声合成部、32……特徴量取得部、342……第1分布生成部、344……第2分布生成部、36……関数生成部、42……特徴量取得部、44……変換処理部、442……補間部、46……素片データ生成部、462……差分生成部、464……加工処理部、48……係数補正部、52……素片選択部、54……合成処理部。

Claims (6)

  1. 第1発声者の音声の単位区間毎の特徴量情報の分布を、相異なる音素に対応する複数の第1確率分布の混合確率分布で近似する第1分布生成手段と、
    第2発声者の音声の単位区間毎の特徴量情報の分布を、相異なる音素に対応する複数の第2確率分布の混合確率分布で近似する第2分布生成手段と、
    前記第1発声者の音声の特徴量情報を前記第2発声者の音声の特徴量情報に変換する変換関数を音素毎に生成する手段であって、複数の音素の各々に対応する変換関数を、前記複数の第1確率分布のうち当該音素に対応する第1確率分布の平均および自己共分散と、前記複数の第2確率分布のうち当該音素に対応する第2確率分布の平均および自己共分散とから生成する関数生成手段と
    を具備する音声処理装置。
  2. Q個の音素のうち第q番目(q=1〜Q)の音素に対応する変換関数は、前記複数の第1確率分布のうち当該音素に対応する第1確率分布の平均μq Xおよび自己共分散Σq XXと、前記複数の第2確率分布のうち当該音素に対応する第2確率分布の平均μq Yおよび自己共分散Σq YYと、第1発声者の音声の特徴量情報Xとで定義される以下の数式(A)を含む
    Figure 0005961950

    請求項1の音声処理装置。
  3. Q個の音素のうち第q番目(q=1〜Q)の音素に対応する変換関数は、前記複数の第1確率分布のうち当該音素に対応する第1確率分布の平均μq Xおよび自己共分散Σq XXと、前記複数の第2確率分布のうち当該音素に対応する第2確率分布の平均μq Yおよび自己共分散Σq YYと、第1発声者の音声の特徴量情報Xと、調整係数ε(0<ε<1)とで定義される以下の数式(B)を含む
    Figure 0005961950

    請求項1の音声処理装置。
  4. 第1発声者の音声を示す第1素片データを音声素片毎に記憶する記憶手段と、
    前記各音声素片に対応する第1素片データが示す音声の特徴量情報に対して、前記関数生成手段が生成した複数の変換関数のうち当該音声素片を構成する音素に対応する変換関数を適用することで、第2発声者の音声の第2素片データを順次に生成する声質変換手段と
    を具備する請求項1から請求項3の何れかの音声処理装置。
  5. 前記声質変換手段は、第1素片データが第1音素と第2音素とを示す場合に、前記第1音素と前記第2音素との境界を含む補間区間内において前記第1音素の変換関数から前記第2音素の変換関数に段階的に変化するように、当該補間区間内の各単位区間の特徴量情報に適用される変換関数を補間する
    請求項4の音声処理装置。
  6. 前記声質変換手段は、
    前記各第1素片データが示す音声の周波数領域の包絡線における各ピークの高さを各々の粗密で表現する線スペクトルの周波数を示す複数の係数値を含む特徴量情報を取得する特徴量取得手段と、
    前記特徴量取得手段が取得した特徴量情報に前記変換関数を適用する変換処理手段と、
    前記変換処理手段による変換後の特徴量情報の各係数値を補正する手段であって、次数毎の前記係数値の時系列における分散が増加するように前記各係数値を補正する手段を含む係数補正手段と、
    前記係数補正手段による補正後の特徴量情報に対応する前記第2素片データを生成する素片データ生成手段とを含む
    請求項4または請求項5の音声処理装置。
JP2011191665A 2010-09-15 2011-09-02 音声処理装置 Expired - Fee Related JP5961950B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2011191665A JP5961950B2 (ja) 2010-09-15 2011-09-02 音声処理装置
EP20110181174 EP2431967B1 (en) 2010-09-15 2011-09-14 Voice conversion device and method
US13/232,950 US9343060B2 (en) 2010-09-15 2011-09-14 Voice processing using conversion function based on respective statistics of a first and a second probability distribution

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2010206562 2010-09-15
JP2010206562 2010-09-15
JP2011191665A JP5961950B2 (ja) 2010-09-15 2011-09-02 音声処理装置

Publications (2)

Publication Number Publication Date
JP2012083722A JP2012083722A (ja) 2012-04-26
JP5961950B2 true JP5961950B2 (ja) 2016-08-03

Family

ID=44946954

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011191665A Expired - Fee Related JP5961950B2 (ja) 2010-09-15 2011-09-02 音声処理装置

Country Status (3)

Country Link
US (1) US9343060B2 (ja)
EP (1) EP2431967B1 (ja)
JP (1) JP5961950B2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9779751B2 (en) 2005-12-28 2017-10-03 Breath Research, Inc. Respiratory biofeedback devices, systems, and methods
CN101351152A (zh) 2005-12-28 2009-01-21 尼伦简·比科 呼吸生物反馈装置
JP5846043B2 (ja) * 2012-05-18 2016-01-20 ヤマハ株式会社 音声処理装置
US9814438B2 (en) * 2012-06-18 2017-11-14 Breath Research, Inc. Methods and apparatus for performing dynamic respiratory classification and tracking
US10426426B2 (en) 2012-06-18 2019-10-01 Breathresearch, Inc. Methods and apparatus for performing dynamic respiratory classification and tracking
WO2014058270A1 (en) * 2012-10-12 2014-04-17 Samsung Electronics Co., Ltd. Voice converting apparatus and method for converting user voice thereof
JP2014219607A (ja) * 2013-05-09 2014-11-20 ソニー株式会社 音楽信号処理装置および方法、並びに、プログラム
JP6286946B2 (ja) * 2013-08-29 2018-03-07 ヤマハ株式会社 音声合成装置および音声合成方法
JP6233103B2 (ja) * 2014-03-05 2017-11-22 富士通株式会社 音声合成装置、音声合成方法及び音声合成プログラム
US10706867B1 (en) * 2017-03-03 2020-07-07 Oben, Inc. Global frequency-warping transformation estimation for voice timbre approximation
CN108398260B (zh) * 2018-01-10 2021-10-01 浙江大学 基于混合概率方法的齿轮箱瞬时角速度的快速评估方法
US11854562B2 (en) * 2019-05-14 2023-12-26 International Business Machines Corporation High-quality non-parallel many-to-many voice conversion
US11430431B2 (en) * 2020-02-06 2022-08-30 Tencent America LLC Learning singing from speech

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2658954C2 (de) * 1976-12-24 1979-04-12 Deutsche Texaco Ag, 2000 Hamburg Verfahren zur Unterdrückung von Störwellenzügen in seismischen Daten
JP3632529B2 (ja) * 1999-10-26 2005-03-23 日本電気株式会社 音声認識装置及び方法ならびに記録媒体
DE10041512B4 (de) * 2000-08-24 2005-05-04 Infineon Technologies Ag Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
JP4680429B2 (ja) * 2001-06-26 2011-05-11 Okiセミコンダクタ株式会社 テキスト音声変換装置における高速読上げ制御方法
JP4408596B2 (ja) * 2001-08-30 2010-02-03 シャープ株式会社 音声合成装置、声質変換装置、音声合成方法、声質変換方法、音声合成処理プログラム、声質変換処理プログラム、および、プログラム記録媒体
JP3815347B2 (ja) 2002-02-27 2006-08-30 ヤマハ株式会社 歌唱合成方法と装置及び記録媒体
GB2406759B (en) * 2003-10-02 2006-06-07 Toshiba Res Europ Ltd Signal decoding methods and apparatus
JP4829477B2 (ja) * 2004-03-18 2011-12-07 日本電気株式会社 声質変換装置および声質変換方法ならびに声質変換プログラム
FR2868587A1 (fr) * 2004-03-31 2005-10-07 France Telecom Procede et systeme de conversion rapides d'un signal vocal
FR2868586A1 (fr) * 2004-03-31 2005-10-07 France Telecom Procede et systeme ameliores de conversion d'un signal vocal
WO2007063827A1 (ja) * 2005-12-02 2007-06-07 Asahi Kasei Kabushiki Kaisha 声質変換システム
CN101004911B (zh) * 2006-01-17 2012-06-27 纽昂斯通讯公司 用于生成频率弯曲函数及进行频率弯曲的方法和装置
JP4241736B2 (ja) * 2006-01-19 2009-03-18 株式会社東芝 音声処理装置及びその方法
US7505950B2 (en) * 2006-04-26 2009-03-17 Nokia Corporation Soft alignment based on a probability of time alignment
JP4966048B2 (ja) * 2007-02-20 2012-07-04 株式会社東芝 声質変換装置及び音声合成装置
US8131550B2 (en) * 2007-10-04 2012-03-06 Nokia Corporation Method, apparatus and computer program product for providing improved voice conversion
JP5038995B2 (ja) * 2008-08-25 2012-10-03 株式会社東芝 声質変換装置及び方法、音声合成装置及び方法
GB2489473B (en) * 2011-03-29 2013-09-18 Toshiba Res Europ Ltd A voice conversion method and system

Also Published As

Publication number Publication date
US9343060B2 (en) 2016-05-17
US20120065978A1 (en) 2012-03-15
EP2431967A3 (en) 2013-10-23
JP2012083722A (ja) 2012-04-26
EP2431967B1 (en) 2015-04-29
EP2431967A2 (en) 2012-03-21

Similar Documents

Publication Publication Date Title
JP5961950B2 (ja) 音声処理装置
US9368103B2 (en) Estimation system of spectral envelopes and group delays for sound analysis and synthesis, and audio signal synthesis system
JP6496030B2 (ja) 音声処理装置、音声処理方法及び音声処理プログラム
EP3065130B1 (en) Voice synthesis
JP4516157B2 (ja) 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム
CN111542875A (zh) 声音合成方法、声音合成装置及程序
JP5846043B2 (ja) 音声処理装置
CN109416911B (zh) 声音合成装置及声音合成方法
US11646044B2 (en) Sound processing method, sound processing apparatus, and recording medium
JP5573529B2 (ja) 音声処理装置およびプログラム
JP6011039B2 (ja) 音声合成装置および音声合成方法
Lehana et al. Transformation of short-term spectral envelope of speech signal using multivariate polynomial modeling
JP7106897B2 (ja) 音声処理方法、音声処理装置およびプログラム
JP7200483B2 (ja) 音声処理方法、音声処理装置およびプログラム
JP6234134B2 (ja) 音声合成装置
JP6191094B2 (ja) 音声素片切出装置
Espic Calderón In search of the optimal acoustic features for statistical parametric speech synthesis
Tychtl et al. Corpus-Based Database of Residual Excitations Used for Speech Reconstruction from MFCCs

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140722

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150331

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150410

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150527

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160531

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160613

R151 Written notification of patent or utility model registration

Ref document number: 5961950

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees