JP5275102B2 - 音声合成装置及び音声合成方法 - Google Patents

音声合成装置及び音声合成方法 Download PDF

Info

Publication number
JP5275102B2
JP5275102B2 JP2009074707A JP2009074707A JP5275102B2 JP 5275102 B2 JP5275102 B2 JP 5275102B2 JP 2009074707 A JP2009074707 A JP 2009074707A JP 2009074707 A JP2009074707 A JP 2009074707A JP 5275102 B2 JP5275102 B2 JP 5275102B2
Authority
JP
Japan
Prior art keywords
speaker
formant
speech
unit
interpolated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009074707A
Other languages
English (en)
Other versions
JP2010224498A (ja
Inventor
亮 森中
岳彦 籠嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2009074707A priority Critical patent/JP5275102B2/ja
Priority to PCT/JP2010/054250 priority patent/WO2010110095A1/ja
Publication of JP2010224498A publication Critical patent/JP2010224498A/ja
Priority to US12/970,162 priority patent/US9002711B2/en
Application granted granted Critical
Publication of JP5275102B2 publication Critical patent/JP5275102B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/097Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using prototype waveform decomposition or prototype waveform interpolative [PWI] coders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information

Description

本発明は、テキスト音声合成に関する。
任意の文章(テキスト)を表す音声信号を人工的に生成する技術をテキスト音声合成という。テキスト音声合成は、言語処理、韻律処理及び音声信号合成処理の3段階処理によって実現される。
第1段階となる言語処理において、入力されたテキストに対する形態素解析、構文解析などが行われる。次に、第2段階となる韻律処理において、上記言語処理結果に基づきアクセント、イントネーションに関する処理が行われ、音韻系列(音韻記号列)及び韻律情報(基本周波数、音韻継続時間長、パワーなど)が出力される。そして、第3段階となる音声信号合成処理において音韻系列及び韻律情報に基づき音声信号が合成される。
ある種のテキスト音声合成の基本原理は、音声素片(speech segment)と呼ばれる特徴パラメータを接続することである。具体的には、音声素片は、CV、CVC、VCVなど(尚、Cは子音、Vは母音を表す)の比較的短い音声の特徴パラメータを指す。予め用意されている音声素片を、ピッチ及び継続時間長を制御して接続することにより、任意の音韻記号列を合成することができる。このようなテキスト音声合成において、利用可能な音声素片の品質が合成音声の品質に強い影響を与える。
特許文献1記載の音声合成方法は、音声素片を例えばホルマント(formant)周波数を用いて表現している。そして、この音声合成方法は、1つのホルマントを表す波形(以下、単にホルマント波形と称する)を、ホルマント周波数と等しい周波数の正弦波に対して窓関数を乗じることにより生成し、このホルマント波形を複数重ね合わせ(加算)することにより音声信号を合成する。従って、特許文献1記載の音声合成方法によれば、音韻または声質を直接的に制御できるので、合成音声の声質を変化させるなどの柔軟な制御を比較的容易に実現できる。
特許文献2記載の音声合成装置は、複数の話者の音声スペクトルデータを所定の補間比率を用いて内挿することにより、補間音声スペクトルデータ生成する。従って、特許文献2記載の音声合成装置によれば、比較的簡易な構成であるにも関わらず、合成音声の声質を制御できる。
特許第3732793号公報 特許第2951514号公報
特許文献1記載の音声合成方法は、声の太さを変えるための制御関数を用いて音声素片に含まれる全てのホルマント周波数を変換することにより、ホルマントを高周波側にシフトさせて合成音声の声質を細くしたり、低周波側にシフトさせて合成音声の声質を太くしたりすることができる。しかしながら、特許文献1記載の音声合成方法は、複数の話者に基づく補間音声を合成していない。
特許文献2記載の音声合成装置は、複数の話者に基づく補間音声を合成するものの、簡易な構成であるため補間音声の品質は必ずしも高くない。特に、特許文献2記載の音声合成装置は、ホルマント位置(ホルマント周波数)やホルマント数の異なる複数の音声スペクトルデータを補間した場合に十分な品質の補間音声が得られないおそれがある。
従って、本発明は所望の声質の補間音声を合成可能な音声合成装置を提供することを目的とする。
本発明の一態様に係る音声合成装置は、話者の音声に相当するピッチ波形毎に用意され、各ピッチ波形に含まれる複数のホルマントの各々に関するホルマント周波数、ホルマント位相、ホルマントパワー及び窓関数を含む話者パラメータを、話者毎に1つずつ選択して複数の話者パラメータを得る選択部と、前記ホルマント周波数及び前記ホルマントパワーに基づくコスト関数を利用して前記複数の話者パラメータの間でホルマント同士の対応付けを行うマッピング部と、前記マッピング部によって互いに対応付けられているホルマント同士でホルマント周波数、ホルマント位相、ホルマントパワー及び窓関数を所望の補間比率に従って補間して補間話者パラメータを生成する生成部と、前記補間話者パラメータを用いて、前記補間比率に基づく補間話者の音声に相当するピッチ波形を合成する合成部とを具備する。
本発明によれば、所望の声質の補間音声を合成可能な音声合成装置を提供できる。
第1の実施形態に係る音声合成装置を示すブロック図。 図1の有声音生成部が行う生成処理を示す図。 図1のピッチ波形生成部の内部を示すブロック図。 図3の話者パラメータ記憶部に記憶される話者パラメータの一例を示す図。 図3の話者パラメータ選択部によって選択される話者パラメータを概念的に示す図。 図3のホルマントマッピング部が行うマッピング処理を示すフローチャート。 図6のマッピング処理の開始時におけるマッピング結果の一例を示す図。 図6のマッピング処理の終了時におけるマッピング結果の一例を示す図。 図8のマッピング結果に基づく話者X及び話者Y間のホルマントの対応関係を示す図。 図3の補間パラメータ生成部が行う生成処理を示すフローチャート。 図3のピッチ波形生成部が正弦波及び窓関数に基づいて補間音声に相当するピッチ波形を生成する様子を示す図。 図3のピッチ波形生成部が正弦波及び窓関数に基づいて補間音声に相当するピッチ波形を生成する様子を示す図。 第2の実施形態に係る音声合成装置の補間話者パラメータ生成部が行う生成処理を示すフローチャート。 図13のステップS450において行われる挿入処理の詳細を示すフローチャート。 図14の処理に基づくホルマントの挿入例を示す図。 第3の実施形態に係る音声合成装置のピッチ波形生成部を示すブロック図。 図16の周期成分ピッチ波形生成部の内部を示すブロック図。 図16の非周期成分ピッチ波形生成部の内部を示すブロック図。 図18の非周期成分音声素片補間部の内部を示すブロック図。 話者Aに対応するピッチ波形の対数パワースペクトルの一例を示すグラフ図。 図20Aの対数パワースペクトルの周波数を調整した場合における、話者A及び話者Bの間のホルマントの対応関係を示す図。 話者Aに対応するピッチ波形の対数パワースペクトルの一例を示すグラフ図。 図21Aの対数パワースペクトルのパワーを調整した場合における話者A及び話者Bの間のホルマントの対応関係を示す図。 第6の実施形態に係る音声合成装置の最適補間比率算出部を示すブロック図。
以下、図面を参照して、本発明の実施形態について説明する。
(第1の実施形態)
図1に示すように、本発明の第1の実施形態に係る音声合成装置は、有声音生成部01、無声音生成部02及び加算部101を有する。
無声音生成部02は、音韻継続時間長007及び音韻記号列008に基づき無声音信号004を生成し、加算部101に入力する。例えば、無声音生成部02は、音韻記号列008に含まれる音素が無声子音または有声摩擦音を示す場合に、当該音素に相当する無声音信号004を生成する。無声音生成部02の具体的構成は特に限定されないが、例えばLPC合成フィルタを白色雑音で駆動する構成を適用可能であるし、その他の既存の構成が単独で或いは組み合わされて適用されてもよい。
有声音生成部01は、後述するピッチマーク生成部03、ピッチ波形生成部04及び波形重畳部05を有する。有声音声生成部01には、ピッチパターン006、音韻継続時間長007及び音韻記号列008が入力される。そして、有声音声生成部01は、ピッチパターン006、音韻継続時間長007及び音韻記号列008に基づき有声音信号003を生成し、加算部101に入力する。
ピッチマーク生成部03は、ピッチパターン006及び音韻継続時間長007に基づきピッチマーク002を生成し、波形重畳部05に入力する。ここで、ピッチマーク002とは、図2に示すような、ピッチ波形001の各々を重畳するための時間的位置を示す情報である。また、隣接するピッチマーク002同士の間隔は、ピッチ周期に相当する。
ピッチ波形生成部04は、ピッチパターン006、音韻継続時間長007及び音韻記号列008に基づきピッチ波形001(例えば、図2参照)を生成する。尚、ピッチ波形生成部04の詳細な説明は後述する。
波形重畳部05は、ピッチマーク002が表す時間的位置に当該ピッチマーク002に対応するピッチ波形を重畳する(例えば、図2参照)ことにより、有声音声信号003を生成する。波形重畳部05は、有声音声信号003を加算部101に入力する。
加算部101は、有声音信号003及び無声音信号004を加算し、合成音声信号005を生成し、例えばスピーカで構成される出力部(図示しない)を制御する出力制御部(図示しない)に入力する。
以下、図3を用いてピッチ波形生成部04を詳細に説明する。
ピッチ波形生成部04は、最大M(Mは2以上の整数)人分の話者パラメータに基づく補間話者のピッチ波形001を生成することができる。具体的には、図3に示すように、ピッチ波形生成部04は、M個の話者パラメータ記憶部411,・・・,41M、話者パラメータ選択部42、ホルマントマッピング部43、補間話者パラメータ44、NI(NIの具体的値は後述する)個の正弦波生成部451,…,45NI、NI個の乗算部2001,・・・200NI及び加算部102を含む。
話者パラメータ記憶部41m(mは1以上M以下の任意の整数)には、話者mの話者パラメータが音声素片毎に分類されて記憶されている。例えば、話者mの音韻/a/に相当する音声素片の話者パラメータは、図4に示すような態様で話者パラメータ記憶部41mに記憶されている。図4の例では、音韻/a/(その他の音韻についても同様である)に相当する音声素片は話者パラメータ記憶部41mにおいて7231個記憶され、各音声素片には識別のための音声素片IDが付与されている。第1番目の音声素片(ID=1)は10フレーム(ここで、1フレームはピッチ波形001の1つ分に相当する時間的単位である。)で構成され、各フレームには識別のためのフレームIDが付与されている。第1番目のフレーム(ID=1)における話者mの音声に相当するピッチ波形は、8個のホルマントを含んでおり、各ホルマントには識別のためのホルマントIDが付与されている(以降の説明において、ホルマントIDはホルマント周波数の昇順に増加するように付与される連続整数(初期値は「1」)とするが、ホルマントIDの態様はこれに限定されない。)。各ホルマントに関するパラメータとして、ホルマント周波数、ホルマント位相、ホルマントパワー及び窓関数がホルマントIDに対応付けられて記憶される。以降の説明において、1つのフレームを構成するホルマントの各々のホルマント周波数、ホルマント位相、ホルマントパワー及び窓関数と、ホルマントの数とを1つのホルマントパラメータと称する。尚、各音韻に相当する音声素片の数、各音声素片を構成するフレームの数、各フレームに含まれるホルマントの数は、固定であってもよいし可変であってもよい。
話者パラメータ選択部42は、ピッチパターン006、音韻継続時間長007及び音韻記号列008に基づき夫々1フレーム分の話者パラメータ421,・・・,42Mを選択する。具体的には、話者パラメータ選択部42は、話者パラメータ記憶部41mに記憶されているホルマントパラメータの1つを話者mの話者パラメータ42mとして選択して読み出す。具体的には、話者パラメータ選択部42は、例えば図5に示すような話者mのホルマントパラメータを選択して話者パラメータ記憶部41mから読み出す。図5の例であれば、話者パラメータ42mに含まれるホルマントの数はNm個であって、各ホルマントに関するパラメータとしてホルマント周波数ω、ホルマント位相Φ、ホルマントパワーa及び窓関数w(t)が含まれる。話者パラメータ選択部42は、話者パラメータ421,・・・,42mをホルマントマッピング部43に入力する。
ホルマントマッピング部43は、異なる話者間でホルマントのマッピング(対応付け)を行う。具体的には、ホルマントマッピング部43は、ある話者の話者パラメータに含まれる各ホルマントと、他の話者の話者パラメータに含まれる各ホルマントとを対応付ける。ホルマントマッピング部43は、ホルマント同士を対応付けるためのコストを後述するコスト関数を用いて算出し、各ホルマントの対応付けを行う。但し、ホルマントマッピング部43が行う対応付けにおいて、全てのホルマントに関して対応するホルマントが得られるとは限らない(そもそも、複数の話者パラメータ間でホルマントの数は必ずしも一致しない)。以降の説明において、ホルマントマッピング部43は各話者パラメータにおいて夫々NI個のホルマントの対応付けに成功するものとする。ホルマントマッピング部43は、マッピング結果431を補間話者パラメータ生成部44に通知すると共に、話者パラメータ421,・・・,42mを補間話者パラメータ生成部44に入力する。
補間話者パラメータ生成部44は、所定の補間比率及びマッピング結果431に従って、補間話者パラメータを生成する。尚、補間話者パラメータ生成部44の詳細は後述する。ここで、補間話者パラメータは、NI個のホルマントに関するホルマント周波数4411,・・・,44NI1、ホルマント位相4412,・・・,44NI2、ホルマントパワー4413,・・・,44NI3及び窓関数4414,・・・,44NI4を含む。補間話者パラメータ生成部44は、ホルマント周波数4411,・・・,44NI1、ホルマント位相4412,・・・,44NI2及びホルマントパワー4413,・・・,44NI3を、NI個の正弦波生成部451,・・・,45NIに夫々入力する。また、補間話者パラメータ生成部44は、窓関数4414,・・・,44NI4をNI個の乗算部2001,・・・,200NIに夫々入力する。
正弦波生成部45n(nは1以上NI以下の任意の整数)は、第n番目のホルマントに関するホルマント周波数44n1、ホルマント位相44n2及びホルマントパワー44n3に従って正弦波46nを生成する。正弦波生成部45nは、正弦波46nを乗算部200nに入力する。乗算部200nは、正弦波生成部45nからの正弦波46nに窓関数44n4を乗じて、第n番目のホルマント波形47nを得る。乗算部200nは、ホルマント波形47nを加算部102に入力する。第n番目のホルマントに関するホルマント周波数44n1の値をωn、ホルマント位相44n2の値をΦn、ホルマントパワー44n3の値をan、窓関数44n4をwn(t)とし、第n番目のホルマント波形47nをyn(t)とすると、次の数式(1)が成立する。
Figure 0005275102
加算部102は、NI個のホルマント波形471,・・・,47NIを加算することにより、補間音声に相当するピッチ波形001を生成する。例えばNIの値が「3」であれば、図11及び図12に示すように、加算器102は第1番目のホルマント波形471と、第2番目のホルマント波形472と、第3番目のホルマント波形473とを加算することにより、補間音声に相当するピッチ波形001を生成する。尚、図11において点線領域で示す各グラフは、正弦波461,・・・,463、窓関数4414,・・・,4434、ホルマント波形471,・・・,473及びピッチ波形001の時間変化(即ち、時間対振幅)を示している。また、図12において点線領域に示す各グラフは、図11における各グラフのパワースペクトル(即ち、周波数対振幅)を示している。このように、正弦波生成部451,・・・,45NIと、乗算部2001,・・・,200NIと、加算部102とがピッチ波形合成部として作用することにより、補間音声に相当するピッチ波形001が合成される。
以下、ホルマントマッピング部43が利用可能なコスト関数の一例を説明する。
ここでは、ホルマント同士を対応付けるためのコストとしてホルマント周波数及びホルマントパワーの差分に注目する。例えば、話者パラメータ選択部42が話者Xの話者パラメータ42X及び話者Yの話者パラメータ42Yを選択したとする。話者パラメータ42XにはNx個のホルマントが含まれ、話者パラメータ42YにはNy個のホルマントが含まれている。尚、Nx及びNyの値は同じでもよいし異なってもよい。このとき、話者Xの第x番目(即ち、ホルマントID=x)のホルマントと、話者Yの第y番目のホルマント(即ち、ホルマントID=y)のホルマントとを対応付けるコストCXY(x,y)は、次の数式(2)で算出することができる。
Figure 0005275102
数式(2)において、ωX xは話者パラメータ42Xに含まれる第x番目のホルマントのホルマント周波数、ωY yは話者パラメータ42Yに含まれる第y番目のホルマントのホルマント周波数、aX xは話者パラメータ42Xに含まれる第x番目のホルマントのホルマントパワー、aY yは話者パラメータ42Yに含まれる第y番目のホルマントのホルマント周波数を夫々表す。また、数式(2)において、wωはホルマント周波数重みを表し、waはホルマントパワー重みを表す。wω及びwaは、設計的/実験的に導出される値を任意に設定すればよい。また、数式(2)のコスト関数はホルマント周波数の差分の2乗とホルマントパワーの差分の2乗との重み付き和であるが、ホルマントマッピング部43が利用可能なコスト関数はこれに限られない。例えば、コスト関数は、ホルマント周波数の差分の絶対値とホルマントパワーの差分の絶対値との重み付き和であってもよいし、ホルマント同士の対応付けを評価するために有効なその他の関数を適宜組み合わせたものであってもよい。以降の説明では、特に断りのない限り、コスト関数は数式(2)を指すものとする。
以下、図6乃至図9を用いてホルマントマッピング部43の行うマッピング処理を説明する。ここでの説明において、ホルマントマッピング部43は話者Xの話者パラメータ42Xと話者Yの話者パラメータ42Yとの間で対応付けを行うものとする。話者パラメータ42XにはNx個のホルマントが含まれ、話者パラメータ42YにはNy個のホルマントが含まれる。また、ホルマントマッピング部43は、例えば図7に示すようなマッピング結果431を保持し、マッピング処理の過程においてこのマッピング結果431を更新する。図7に示すマッピング結果431において、話者Xの列に属する各セル(欄)には、話者パラメータ42Xのホルマントの各々に対応付けられた話者パラメータ42YのホルマントのホルマントIDが格納される。また、話者Yの列に属する各セルには、話者パラメータ42Yに含まれるホルマントの各々に対応付けられた話者パラメータ42XのホルマントのホルマントIDが格納される。尚、対応付けられているホルマントIDが存在しない場合には、「−1」が格納される。
マッピング処理の開始時点において、いずれのホルマントも対応付けが行われていないため、マッピング結果431は図7に示すような状態である。マッピング処理が開始すると、ホルマントマッピング部43は、話者パラメータ42Xに含まれる全てのホルマントと、話者パラメータ42Yに含まれる全てのホルマントとの間で総当たり的にコストを算出する(ステップS431)。即ち、本例であれば、ホルマントマッピング部43は、36組(=9×8/2)のコストを算出する。次に、ホルマントマッピング部43は、話者パラメータ42Xに関するホルマントIDを指定するための変数xに「1」を代入し(ステップS432)、処理はステップS433に進む。
ステップS433において、ホルマントマッピング部43は、話者パラメータ42XにおけるホルマントID=xのホルマントに関して、コストを最小とする話者パラメータ42YのホルマントのホルマントID=yminを導出する。具体的には、ホルマントマッピング部43は次の数式(3)を計算する。
Figure 0005275102
次に、ホルマントマッピング部43は、話者パラメータ42YにおけるホルマントID=yminのホルマントに関して、コストを最小とする話者パラメータ42XのホルマントのホルマントID=xminを導出する(ステップS434)。具体的には、ホルマントマッピング部43は次の数式(4)を計算する。
Figure 0005275102
次に、ホルマントマッピング部43は、ステップS434において導出されたxminが変数xの現在の値に一致するか否かを判定する(ステップS435)。ホルマントマッピング部43がxmin及びxが一致すると判定すれば処理はステップS463に進み、そうでなければ処理はステップS437に進む。
ステップS436において、ホルマントマッピング部43は話者パラメータ42XにおけるホルマントID=x(=xmin)のホルマントと話者パラメータ42YにおけるホルマントID=yminのホルマントとを対応付け、処理はステップS437に進む。即ち、ホルマントマッピング部43は、マッピング結果431において、(行,列)=(x,話者X)で指定されるセルにyminを格納し、(行,列)=(ymin,話者Y)で指定されるセルにxを格納する。
ステップS437において、ホルマントマッピング部43は変数xの現在の値がNx未満であるか否かを判定する。ホルマントマッピング部43が変数xはNx未満であると判定すれば処理はステップS438に進み、そうでなければ処理は終了する。ステップS438において、ホルマントマッピング部43は変数xを「1」インクリメントし、処理はステップS433に戻る。
ホルマントマッピング部43によるマッピング処理の終了時点において、マッピング結果431は例えば図8に示すような状態である。図8に示すマッピング結果431において、話者パラメータ42XのホルマントID=1及び話者パラメータ42YのホルマントID=1、話者パラメータ42XのホルマントID=2及び話者パラメータ42YのホルマントID=2、話者パラメータ42XのホルマントID=4及び話者パラメータ42YのホルマントID=3、話者パラメータ42XのホルマントID=5及び話者パラメータ42YのホルマントID=4、話者パラメータ42XのホルマントID=7及び話者パラメータ42YのホルマントID=5、話者パラメータ42XのホルマントID=8及び話者パラメータ42YのホルマントID=6、話者パラメータ42XのホルマントID=9及び話者パラメータ42YのホルマントID=7が夫々対応付けられている。また、図8に示すマッピング結果431において、話者パラメータ42XのホルマントID=3及び8と話者パラメータ42YのホルマントID=8とで識別されるホルマントはいずれのホルマントとも対応付けられていない。
図9において、話者パラメータ42X及び話者パラメータ42Yに対して特許文献1記載の手法を適用して得られるピッチ波形の対数パワースペクトル432及び433が夫々描かれている。対数パワースペクトル432及び433において、黒丸はホルマントを示している。そして、対数パワースペクトル432に含まれるホルマントの各々と対数パワースペクトル433に含まれるホルマントの各々とを結ぶ線が、図8に示すマッピング結果431に基づくホルマントの対応関係を示している。
ところで、3以上の話者パラメータに関しても、ホルマントマッピング部43はマッピング処理を行うことができる。例えば、話者パラメータ42X及び話者パラメータ42Yに加えて更に話者Zに関する話者パラメータ42Zをマッピング処理の対象とできる。具体的には、ホルマントマッピング部43は、話者パラメータ42X及び話者パラメータ42Yの間と、話者パラメータ42X及び話者パラメータ42Zとの間と、話者パラメータ42Y及び話者パラメータ42Zとの間で前述したマッピング処理を夫々行う。そして、話者パラメータ42XにおけるホルマントID=xと話者パラメータ42YにおけるホルマントID=yとが対応付けられ、かつ、話者パラメータ42XにおけるホルマントID=xと話者パラメータ42ZにおけるホルマントID=zとが対応付けられ、かつ、話者パラメータ42YにおけるホルマントID=yと話者パラメータ42ZにおけるホルマントID=zとが対応付けられていれば、ホルマントマッピング部43はこれら3つのホルマントを互いに対応付ける。尚、マッピング処理の対象となる話者パラメータが4以上である場合にも、ホルマントマッピング部43はマッピング処理を同様に拡張して適用すればよい。
以下、図10を用いて補間話者パラメータ生成部44の行う生成処理を説明する。
補間話者パラメータ生成部44は、話者パラメータ421,・・・,42Mに含まれるホルマント周波数、ホルマント位相、ホルマントパワー及び窓関数を所定の補間比率を用いて補間することにより、補間話者パラメータを生成する。ここでの説明において、補間話者パラメータ生成部44は、話者Xの話者パラメータ42Xと話者Yの話者パラメータ42Yを補間比率sX及びsYを夫々用いて補間するものとする。尚、補間比率sX及びsYは次の数式(5)を満たす。
Figure 0005275102
生成処理が開始すると、補間話者パラメータ生成部44は、話者パラメータ42Xに関するホルマントIDを指定するための変数xに「1」を代入し、補間話者パラメータに含まれるホルマントをカウントするための変数NIに「0」を代入する(ステップS441)。そして、処理はステップS442に進む。
ステップS442において、補間話者パラメータ生成部44は、マッピング結果431において話者パラメータ42XのホルマントID=xに対応付けられている話者パラメータ42YのホルマントIDが存在するか否かを判定する。尚、図10に示すmapXY(x)は、マッピング結果431において話者パラメータ42XのホルマントID=xに対応付けられている話者パラメータ42YのホルマントIDを返す関数である。mapXY(x)が「−1」であれば、処理はステップS448に進み、そうでなければ処理はステップS443に進む。
ステップS443において、補間話者パラメータ生成部44は、変数NIを「1」インクリメントする。次に、補間話者パラメータ生成部44は、補間話者パラメータのホルマントID(以降、便宜上補間ホルマントIDと称する)=NIのホルマント周波数ωI NIを算出する(ステップS444)。具体的には、補間話者パラメータ生成部44は、次の数式(6)を計算する。
Figure 0005275102
尚、数式(6)において、ωX xは話者パラメータ42XのホルマントID=xのホルマント周波数、ωY mapXY(x)は話者パラメータ42YのホルマントID=mapXY(x)のホルマント周波数を夫々表す。
次に、補間話者パラメータ生成部44は、補間話者パラメータの補間ホルマントID=NIのホルマント位相ΦI NIを算出する(ステップS445)。具体的には、補間話者パラメータ生成部44は、次の数式(7)を計算する。
Figure 0005275102
尚、数式(7)において、ΦX xは話者パラメータ42XのホルマントID=xのホルマント位相、ΦY mapXY(x)は話者パラメータ42YのホルマントID=mapXY(x)のホルマント位相を夫々表す。
次に、補間話者パラメータ生成部44は、補間話者パラメータの補間ホルマントID=NIのホルマントパワーaI NIを算出する(ステップS446)。具体的には、補間話者パラメータ生成部44は、次の数式(8)を計算する。
Figure 0005275102
尚、数式(8)において、aX xは話者パラメータ42XのホルマントID=xのホルマントパワー、aY mapXY(x)は話者パラメータ42YのホルマントID=mapXY(x)のホルマントパワーを夫々表す。
次に、補間話者パラメータ生成部44は補間話者パラメータの補間ホルマントID=NIの窓関数wI NI(t)を算出し(ステップS447)、処理はステップS448に進む。具体的には、補間話者パラメータ生成部44は、次の数式(9)を計算する。
Figure 0005275102
尚、数式(9)において、wX x(t)は話者パラメータ42XのホルマントID=xの窓関数、wY mapXY(x)(t)は話者パラメータ42YのホルマントID=mapXY(x)の窓関数を夫々表す。
ステップS448において、補間話者パラメータ生成部44は、xがNx未満であるか否かを判定する。xがNx未満であれば処理はステップS449に進み、そうでなければ処理は終了する。ステップS449において、補間話者パラメータ生成部44は変数xを「1」インクリメントし、処理はステップS442に戻る。尚、補間話者パラメータ生成部44による生成処理の終了時点において、前述した変数NIの値が、マッピング結果431において話者パラメータ42X及び話者パラメータ42Yの間で対応付けられているホルマントの数に一致していることに注意されたい。
尚、図10に示す生成処理は話者パラメータが3以上の場合にも拡張して適用可能である。具体的には、ステップS444乃至ステップS447において、補間話者パラメータ生成部44は、次の数式(10)を計算すればよい。
Figure 0005275102
数式(10)において、smは話者パラメータ42mに割り当てられる補間比率をあらわしている。また、ωI n、ΦI n、aI n及びwI n(t)は、補間話者パラメータのホルマントID=n(1以上NI以下の任意の整数)のホルマント周波数、ホルマント位相、ホルマントパワー及び窓関数を夫々表す。また、補間比率smは次の数式(11)を満たすものとする。
Figure 0005275102
以上説明したように、本実施形態に係る音声合成装置は、複数の話者パラメータ間でホルマント同士の対応付けを行い、このホルマント同士の対応関係に従って補間話者パラメータを生成している。従って、本実施形態に係る音声合成装置によれば、複数の話者パラメータ間でホルマントの位置及び数が異なる場合にも所望の声質の補間音声を合成することができる。
ここで、本実施形態に係る音声合成装置と前述した特許文献1及び特許文献2との相違点を簡潔に述べる。本実施形態に係る音声合成装置は、複数の話者パラメータに基づく補間話者パラメータを用いてピッチ波形を生成している点で特許文献1記載の音声合成方法と異なる。即ち、本実施形態に係る音声合成装置によれば、特許文献1記載の音声合成方法に比べて多くの話者パラメータを利用できるため多様な声質制御が可能となる。一方、本実施形態に係る音声合成装置は、複数の話者パラメータ間でホルマント同士の対応付けを行って、この対応関係に従って補間を行う点で特許文献2記載の音声合成装置と異なる。即ち、本実施形態に係る音声合成装置によれば、ホルマントの位置及び数が互いに異なる複数の話者パラメータを利用する場合であっても品質のよい補間音声を安定して得ることができる。
(第2の実施形態)
前述した第1の実施形態に係る音声合成装置において、補間話者パラメータ生成部44は、ホルマントマッピング部43による対応付けに成功したホルマントに関して補間話者パラメータを生成している。一方、本発明の第2の実施形態に係る音声合成装置における補間話者パラメータ生成部44は、ホルマントマッピング部43による対応付けに失敗した(即ち、他の話者パラメータのいずれのホルマントとも対応付けられていない)ホルマントも上記補間話者パラメータへ挿入して利用する。
補間話者パラメータ生成部44による補間話者パラメータの生成処理は、図14に示す通りである。まず、補間話者パラメータ生成部44は、補間話者パラメータを生成(算出)する(ステップS440)。尚、ステップS440にいう補間話者パラメータは、前述した第1の実施形態と同様に、ホルマントマッピング部43によって対応付けられているホルマントに関して生成されるものを指す。次に、補間話者パラメータ生成部44は、各話者パラメータにおいて対応付けのされていないホルマントを、ステップS440において生成された補間話者パラメータに挿入する(ステップS450)。
以下、図14を用いてステップS450において補間話者パラメータ生成部44が行う処理を説明する。
ステップS450の処理が開始すると、補間話者パラメータ生成部44は変数mに「1」を代入し、処理はステップS452に進む(ステップS451)。ここで、変数mは、処理対象となる話者パラメータを識別する話者IDを指定するための変数である。以下の説明において、話者IDは、話者パラメータ記憶部411,・・・,41Mの各々に付与される1以上M以下の互いに異なる整数とするが、これに限られるものでない。
ステップS452において、補間話者パラメータ生成部44は変数nに「1」を代入し、変数NUmに「0」を代入して、処理はステップS453に進む。ここで、変数nは、話者ID=mの話者パラメータにおけるホルマントを識別するホルマントIDを指定するための変数である。また、変数NUmは、図14に示す挿入処理によって挿入された話者ID=mの話者パラメータにおけるホルマントをカウントするための変数である。
ステップS453において、補間話者パラメータ生成部44は、マッピング結果431を参照し、話者ID=mの話者パラメータにおけるホルマントID=nのホルマントが、話者ID=1の話者パラメータにおけるいずれかのホルマントと対応付けられているか否かを判定する。具体的には、補間話者パラメータ生成部44は、関数map1m(n)の返す値が「−1」であるか否かを判定する。そして、関数map1m(n)の返す値が「−1」であれば処理はステップS454に進み、そうでなければ処理はステップS459に進む。
ステップS454において、補間話者パラメータ生成部44は、変数NUmを「1」インクリメントする。次に、補間話者パラメータ生成部44は、ホルマントID(以降、便宜上挿入ホルマントIDと称する)=NUmのホルマント周波数ωUm NUmを算出する(ステップS455)。具体的には、補間話者パラメータ生成部44は、例えば次の数式(12)を計算する。
Figure 0005275102
尚、数式(12)を適用する前提として、話者ID=mの話者パラメータにおけるホルマントID=(n−1)のホルマントが補間話者パラメータにおける補間ホルマントID=kのホルマントの生成に用いられ、話者ID=mの話者パラメータにおけるホルマントID=(n+1)のホルマントが補間話者パラメータにおける補間ホルマントID=(k+1)のホルマントの生成に用いられていることが必要である。数式(12)を適用することにより、例えば図15に示すように、話者mのピッチ波形の対数スペクトル482におけるホルマント周波数ωmnと対応するように、補間話者のピッチ波形の対数スペクトル481におけるホルマント周波数ωUmNUmが導出される。但し、このような条件を満たさない場合にも、当業者であれば数式(12)を適宜修正して適用することにより、適切なホルマント周波数ωUm NUmを導出することができる。
次に、補間話者パラメータ生成部44は、挿入ホルマントID=NUmのホルマント位相φUm NUmを算出する(ステップS456)。具体的には、補間話者パラメータ生成部44は、次の数式(13)を計算する。
Figure 0005275102
次に、補間話者パラメータ生成部44は、挿入ホルマントID=NUmのホルマントパワーaUm NUmを算出する(ステップS457)。具体的には、補間話者パラメータ生成部44は、次の数式(14)を計算する。
Figure 0005275102
次に、補間話者パラメータ生成部44は挿入ホルマントID=NUmの窓関数aUm NUmを算出し(ステップS458)、処理はステップS459に進む。具体的には、補間話者パラメータ生成部44は、次の数式(15)を計算する。
Figure 0005275102
ステップS459において、補間話者パラメータ生成部44は、変数nの値がNm未満であるか否かを判定する。変数nの値がNm未満であれば処理はステップS460に進み、そうでなければ処理はステップS461に進む。ここで、話者mに関する挿入処理の終了時点において、変数NUmは次の数式(16)満たすことに注意されたい。
Figure 0005275102
ステップS460において、補間話者パラメータ生成部44は変数nを「1」インクリメントし、処理はステップS453に戻る。ステップS461において、補間話者パラメータ生成部44は、変数mがM未満であるか否かを判定する。mがM未満であれば処理はステップS462に進み、そうでなければ処理は終了する。ステップS462において、補間話者パラメータ生成部44は変数mを「1」インクリメントし、処理はステップS452に戻る。
以上説明したように、本実施形態に係る音声合成装置は、ホルマントマッピング部によって対応付けられないホルマントを補間話者パラメータに挿入している。従って、本実施形態に係る音声合成装置によれば、補間音声を合成するためにより多くのホルマントを利用できるため、補間音声のスペクトルに不連続が生じにくい。即ち、補間音声の品質を向上させることができる。
(第3の実施形態)
本発明の第3の実施形態に係る音声合成装置は、前述した第1または第2の実施形態に係る音声合成装置におけるピッチ波形生成部04の構成を変更することにより実現される。図16に示すように、本実施形態に係る音声合成装置におけるピッチ波形生成部04は、周期成分ピッチ波形生成部06、非周期成分ピッチ波形生成部07及び加算部103を有する。
周期成分ピッチ波形生成部06は、ピッチパターン006、音韻継続時間長007及び音韻記号列008に基づき、補間話者の音声の周期成分ピッチ波形060を生成し、加算部103に入力する。また、非周期成分ピッチ波形生成部07は、ピッチパターン006、音韻継続時間長007及び音韻記号列008に基づき、補間話者の音声の非周期成分ピッチ波形070を生成し、加算部103に入力する。加算部103は、周期成分ピッチ波形060及び非周期成分ピッチ波形070を加算してピッチ波形001を生成し、波形重畳部05に入力する。
図17に示すように、周期成分ピッチ波形生成部06は、図3に示すピッチ波形生成部04における話者パラメータ記憶部411,・・・,41Mを、周期成分話者パラメータ記憶部611,・・・,61Mに夫々置き換えて構成される。
周期成分話者パラメータ記憶部611,・・・,61Mには、各話者の音声に相当するピッチ波形でなく各話者の音声の周期成分に相当するピッチ波形に関するホルマント周波数、ホルマント位相、ホルマントパワー及び窓関数などが周期成分話者パラメータとして記憶される。尚、音声を周期成分及び非周期成分に分離するための手法として、文献「P. Jackson, "Pitch-Scaled Estimation of Simultaneous Voiced and Turbulence-Noise Components in Speech," IEEE Trans. Speech and Audio Processing, vol. 9 pp. 713-726, Oct. 2001.」に記載されるものを適用可能であるが、これに限られるものでない。
図18に示すように、非周期成分ピッチ波形生成部07は、非周期成分音声素片記憶部711,・・・,71M、非周期成分音声素片選択部72及び非周期成分音声素片補間部73を有する。
非周期成分音声素片記憶部711,・・・,71Mには、各話者の音声の非周期成分に相当するピッチ波形(非周期成分ピッチ波形)が記憶される。
非周期成分音声素片選択部72は、ピッチパターン006、音韻継続時間長007及び音韻記号列008に基づいて、非周期成分音声素片記憶部711,・・・,71Mに記憶されている非周期成分ピッチ波形から夫々1フレーム分の非周期成分ピッチ波形721,・・・,72Mを選択して読み出す。非周期成分音声素片選択部72は、非周期成分ピッチ波形721,・・・,72Mを非周期成分音声素片補間部73に入力する。
非周期成分音声素片補間部73は、非周期成分ピッチ波形721,・・・,72Mを補間比率に従って補間し、補間話者の音声の非周期成分ピッチ波形070を加算部103に入力する。図19に示すように、非周期成分音声素片補間部73は、ピッチ波形接続部74、LPC分析部75、パワー包絡抽出部76、パワー包絡補間部77、白色雑音生成部78、乗算部201及び線形予測フィルタリング部79を有する。
ピッチ波形接続部74は、非周期成分ピッチ波形721,・・・,72Mを時間軸方向に接続し、1つの接続済み非周期成分ピッチ波形740を得る。ピッチ波形接続部74は、接続済み非周期成分ピッチ波形740をLPC分析部75に入力する。
LPC分析部75は、非周期成分ピッチ波形721,・・・,72Mと接続済み非周期成分ピッチ波形740とに対してLPC分析を施す。そして、LPC分析部75は、非周期成分ピッチ波形721,・・・,72Mの各々に対するLPC係数751,・・・,75Mと接続済み非周期成分ピッチ波形740に対するLPC係数750とを得る。LPC分析部75は、LPC係数750を線形予測フィルタリング部79に入力し、LPC係数751,・・・,75Mをパワー包絡抽出部76に入力する。
パワー包絡抽出部76は、LPC係数751,・・・,75Mの各々に基づいてM個の線形予測残差波形を生成する。そして、パワー包絡抽出部76は、線形予測残差波形の各々からパワー包絡761,・・・,76Mを夫々抽出する。パワー包絡抽出部76は、パワー包絡761,・・・,76Mをパワー包絡補間部77に入力する。
パワー包絡補間部77は、パワー包絡761,・・・,76Mを相関が最大となるように時間軸方向にアライメントし、これらを補間比率に従って補間することにより補間パワー包絡770を生成する。パワー包絡補間部77は、補間パワー包絡770を乗算部201に入力する。
白色雑音生成部78は、白色雑音780を生成し、乗算部201に入力する。乗算部201は、白色雑音780に補間パワー包絡770を乗算する。白色雑音780に補間パワー包絡770を乗算することにより、白色雑音780が振幅変調され、音源波形790が得られる。乗算部201は、音源波形790を線形予測フィルタリング部79に入力する。
線形予測フィルタリング部79は、LPC係数750をフィルタ係数として用いて、音源波形790に対して線形予測フィルタリング処理を行って、補間話者の音声の非周期成分ピッチ波形070を生成する。
以上説明したように、本実施形態に係る音声合成装置は、音声の周期成分及び非周期成分に対して異なる補間処理を施している。従って、本実施形態に係る音声合成装置によれば、前述した第1乃至第2の実施形態に比べてより適切な補間が行われるため、補間音声の肉声感が向上する。
(第4の実施形態)
前述した第1乃至第3の実施形態に係る音声合成装置において、ホルマントマッピング部43は、コスト関数として数式(2)を利用している。一方、本発明の第4の実施形態に係る音声合成装置において、ホルマントマッピング部43は、異なるコスト関数を利用する。
一般に、話者毎に声道長は異なり、特に、話者の性別による違いは大きい。例えば、男性音声は女性音声に比べてホルマントが低周波側に現れやすい傾向にあることが知られている。また、同性であっても、特に男性の場合は、大人の声は子供の声に比べてホルマントが低周波側に現れやすい傾向にある。このように、話者パラメータ間で声道長の差異に起因するホルマント周波数の隔たりが存在すると、マッピング処理が困難となるおそれがある。例えば、女性話者パラメータの高周波側のホルマントを男性話者パラメータの高周波側のホルマントに全く対応付けることができないおそれがある。このような場合に、例えば前述した第2の実施形態のように対応付けのされていないホルマントを補間話者パラメータとして利用したとしても、所望の声質(例えば、中性的な音声)の補間音声が得られるとは限らない。具体的には、1人の補間話者の音声でなく、2人の話者の音声であるかのような統一感のない音声が合成されてしまう。
従って、本実施形態に係る音声合成装置において、ホルマントマッピング部43は、次の数式(17)をコスト関数として利用する。
Figure 0005275102
数式(17)における関数f(ω)は、例えば次の数式(18)で表される。
Figure 0005275102
数式(18)において、αは話者X及び話者Yの間の声道長の差異を補償する(声道長を正規化する)ための声道長正規化係数である。尚、数式(18)において、αは、例えば話者Xが女性で話者Yが男性であれば「1」以下に設定することが望ましい。また、数式(17)における関数f(ω)は、数式(18)に示すような線形の制御関数でなく、非線形の制御関数であってもよい。
数式(18)に示す関数f(ω)を、図20Aに示す話者Aのピッチ波形の対数パワースペクトル801に適用すると、図20Bに示す対数パワースペクトル803が得られる。対数パワースペクトル801に関数f(ω)を適用することは、対数パワースペクトル801を周波数軸方向に伸縮させることに相当する。このように、対数パワースペクトル801を周波数軸方向に伸縮させることにより話者A及び話者Bの間の声道長の差異が補償されるため、ホルマントマッピング部43は話者Aの話者パラメータと話者Bの話者パラメータとの間でホルマントを適切にマッピングすることができる。具体的には、図20Bにおいて、話者Bのピッチ波形の対数パワースペクトル802に含まれるホルマント(黒丸により図示)と対数パワースペクトル803に含まれるホルマント(黒丸により図示)との間を結ぶ線で表されるような対応関係を示すマッピング結果431が得られる。
以上説明したように、本実施形態に係る音声合成装置は、話者間の声道長の差異を補償するようにホルマント周波数を制御したのち、ホルマントの対応付けを行う。従って、本実施形態に係る音声合成装置によれば、話者間の声道長の差異が大きい場合にも、ホルマントの対応付けが適切に行われるため、高品質な(統一感のある)補間音声を合成することができる。
(第5の実施形態)
前述した第1乃至第4の実施形態に係る音声合成装置において、ホルマントマッピング部43は、コスト関数として数式(2)または数式(17)を利用している。一方、本発明の第5の実施形態に係る音声合成装置において、ホルマントマッピング部43は、異なるコスト関数を利用する。
一般に、話者毎の個人差や音声の収録環境などの要因によって、話者パラメータ間で対数ホルマントパワーの平均値に差異が生じる。このように、話者パラメータ間で対数ホルマントパワーの平均値の隔たりが存在すると、マッピング処理が困難となるおそれがある。例えば、話者Xの話者パラメータにおける対数パワーの平均値が話者Yの話者パラメータにおける対数パワーの平均値に比べて小さい場合を仮定する。このとき、話者Xの話者パラメータにおいてホルマントパワーの比較的大きいホルマントが話者Yの話者パラメータにおいてホルマントパワーの比較的小さいホルマントに対応付けられる可能性がある。一方、話者Xの話者パラメータにおいてホルマントパワーの比較的小さいホルマント及び話者Yの話者パラメータにおいてホルマントパワーの比較的大きいホルマントは全く対応付けられないおそれがある。このような場合に、所望の声質(補間比率に基づき期待される声質)の補間音声が得られるとは限らない。
従って、本実施形態に係る音声合成装置において、ホルマントマッピング部43は次の数式(19)をコスト関数として利用する。
Figure 0005275102
数式(19)における関数g(loga)は、例えば次の数式(20)で表される。
Figure 0005275102
数式(20)において、右辺第2項は話者Yの話者パラメータにおける対数ホルマントパワーの平均値、第3項は話者Xの話者パラメータにおける対数ホルマントパワーの平均値を夫々表す。即ち、数式(20)は、話者X及び話者Y間の対数ホルマントパワーの平均値の差異を縮小することにより話者間のパワーの差異を補償(ホルマントパワーを正規化)している。尚、数式(19)における関数g(loga)は、数式(20)に示すような線形の制御関数でなく、非線形の制御関数であってもよい。
例えば、数式(20)に示す関数g(loga)を、図21Aに示す話者Aのピッチ波形の対数パワースペクトル801に適用すると、図21Bに示す対数パワースペクトル804が得られる。対数パワースペクトル801に関数g(loga)を適用することは、対数パワースペクトル801を対数パワー軸方向に平行移動させることに相当する。このように、対数パワースペクトル801を対数パワー軸方向に平行移動させることにより話者Aのパラメータ及び話者Bのパラメータの間における対数ホルマントパワーの平均値の差異が縮小する。故に、ホルマントマッピング部43は話者Aの話者パラメータと話者Bの話者パラメータとの間でホルマントを適切にマッピングすることができる。具体的には、図21Bにおいて、対数パワースペクトル802に含まれるホルマントと対数パワースペクトル804に含まれるホルマント(黒丸により図示)との間を結ぶ線で表されるような対応関係を示すマッピング結果431が得られる。
以上説明したように、本実施形態に係る音声合成装置は、話者パラメータ間で対数ホルマントパワーの平均値の差異が縮小するように対数ホルマントパワーを制御したのち、ホルマントの対応付けを行う。従って、本実施形態に係る音声合成装置によれば、話者パラメータ間で対数ホルマントパワーの平均値の差異が大きい場合にも、ホルマントの対応付けが適切に行われるため、高品質な(補間比率に基づき期待される声質に近い)補間音声を合成することができる。
(第6の実施形態)
本発明の第6の実施形態に係る音声合成装置は、前述した第1乃至第5の実施形態に従って合成する補間話者の音声を、特定の目標話者の音声に近づける最適補間比率921を最適補間比率算出部09の作用によって算出する。図22に示すように、最適補間比率算出部09は、補間話者ピッチ波形生成部90、目標話者ピッチ波形生成部91及び最適補間重み算出部92を有する。
補間話者ピッチ波形生成部90は、ピッチパターン006,音韻継続時間長007及び音韻記号列008と、補間重みベクトル920により指定される補間比率とに基づき、補間音声に相当する補間話者ピッチ波形900を生成する。補間話者ピッチ波形生成部90の構成は、例えば図3に示すピッチ波形生成部04と同じかこれに準ずるものでよい。但し、補間話者ピッチ波形生成部90は、補間話者ピッチ波形900の生成において、目標話者の話者パラメータは使用されないことに注意されたい。
ここで、補間重みベクトル920は、補間話者ピッチ波形生成部90が補間話者ピッチ波形900を生成するときに各話者パラメータに対して適用する補間比率(補間重み)を成分とするベクトルであり、例えば次の数式(21)で表される。
Figure 0005275102
数式(21)において、s(左辺)は、補間重みベクトル920を表す。また、補間重みベクトル920の各成分は、次の数式(22)を満たす。
Figure 0005275102
目標話者ピッチ波形生成部91は、ピッチパターン006,音韻継続時間長007及び音韻記号列008と、目標話者の話者パラメータとに基づき、目標話者の音声に相当する目標話者ピッチ波形910を生成する。目標話者ピッチ波形生成部91の構成は、例えば図3に示すピッチ波形生成部04と同じかこれに準ずるものでよいし、別の構成であってもよい。図3に示すピッチ波形生成部04と同じ構成を利用する場合、目標話者ピッチ波形生成部91内部の話者パラメータ選択部による話者パラメータの選択数を「1」とし、選択される話者パラメータを目標話者のものに固定すればよい(話者パラメータの選択数を特に制限せずに、目標話者に対する補間比率sTを「1」としてもよい)。
最適補間重み算出部92は、補間話者ピッチ波形900のスペクトルと目標話者ピッチ波形910のスペクトルとの間の類似度を算出する。具体的には、例えば最適補間重み算出部92は、両スペクトルの相互相関を算出する。最適補間重み算出部92は、類似度が大きくなるように補間重みベクトル920をフィードバック制御する。即ち、最適補間重み算出部92は、算出した類似度に基づき補間重みベクトル920を更新し、新たな補間重みベクトル920を補間話者ピッチ波形生成部90に供給する。そして、最適補間重み算出部92は、類似度が収束したときの補間重みベクトル920を、最適補間比率921として出力する。尚、類似度の収束条件は、設計的/実験的に任意に定めてよい。例えば、類似度の変動が所定の範囲内に収まったとき、類似度が所定の閾値以上に達したときなどに、最適補間重み算出部92は類似度の収束を判定してよい。
以上説明したように、本実施形態に係る音声合成装置は、目標話者の音声を模倣した補間音声を得るための最適補間比率を算出している。従って、本実施形態に係る音声合成装置によれば、目標話者の話者パラメータが少量であったとしてもこの目標話者の音声を模倣した補間音声を利用できるため、少量の話者パラメータから多様な声質の音声を合成することが可能となる。
尚、本発明は上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また上記各実施形態に開示されている複数の構成要素を適宜組み合わせることによって種々の発明を形成できる。また例えば、各実施形態に示される全構成要素からいくつかの構成要素を削除した構成も考えられる。さらに、異なる実施形態に記載した構成要素を適宜組み合わせてもよい。
例えば、上記した各実施形態の処理にかかるプログラムを、コンピュータで読み取り可能な記憶媒体に格納して提供することも可能である。記憶媒体としては、磁気ディスク、光ディスク(CD−ROM、CD−R、DVD等)、光磁気ディスク(MO等)、半導体メモリ等、プログラムを記憶でき、且つ、コンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であってもよい。
また、上記した各実施形態の処理にかかるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。
その他、本発明の要旨を逸脱しない範囲で種々の変形を施しても同様に実施可能であることはいうまでもない。
42・・・話者パラメータ選択部
421〜42M・・・話者パラメータ
43・・・ホルマントマッピング部
44・・・補間話者パラメータ生成部

Claims (9)

  1. 話者の音声に相当するピッチ波形毎に用意され、各ピッチ波形に含まれる複数のホルマントの各々に関するホルマント周波数、ホルマント位相、ホルマントパワー及び窓関数を含む話者パラメータを、話者毎に1つずつ選択して複数の話者パラメータを得る選択部と、
    前記ホルマント周波数及び前記ホルマントパワーに基づくコスト関数を利用して前記複数の話者パラメータの間でホルマント同士の対応付けを行うマッピング部と、
    前記マッピング部によって互いに対応付けられているホルマント同士でホルマント周波数、ホルマント位相、ホルマントパワー及び窓関数を所望の補間比率に従って補間して補間話者パラメータを生成する生成部と、
    前記補間話者パラメータを用いて、前記補間比率に基づく補間話者の音声に相当するピッチ波形を合成する合成部と
    を具備することを特徴とする音声合成装置。
  2. 前記コスト関数は、前記ホルマント周波数の差分及び前記ホルマントパワーの差分の重み付き和であることを特徴とする請求項1記載の音声合成装置。
  3. 前記生成部は、前記マッピング部によって対応付けられていないホルマントに関するホルマント周波数、ホルマント位相、ホルマントパワー及び窓関数を前記補間話者パラメータに挿入することを特徴とする請求項1記載の音声合成装置。
  4. 前記話者パラメータは、話者の音声の周期成分に相当するピッチ波形毎に用意され、
    前記合成部は、前記補間話者パラメータを用いて、前記補間話者の音声の周期成分に相当するピッチ波形を合成し、
    話者の音声の非周期成分に相当する各ピッチ波形から、話者毎に1つずつ選択して複数のピッチ波形を得る第2の選択部と、
    前記複数のピッチ波形を前記補間比率に従って補間して前記補間話者の音声の非周期成分に相当するピッチ波形を生成する第2の生成部と、
    前記補間話者の音声の周期成分に相当するピッチ波形及び前記補間話者の音声の非周期成分に相当するピッチ波形を合成して、前記補間話者の音声に相当するピッチ波形を得る第2の合成部と
    を更に具備することを特徴とする請求項1記載の音声合成装置。
  5. 前記マッピング部は、話者間の声道長の差異を補償するための関数を前記ホルマント周波数に適用したうえで前記コスト関数を利用して前記複数の話者パラメータの間でホルマント同士の対応付けを行うことを特徴とする請求項1記載の音声合成装置。
  6. 前記マッピング部は、話者間のパワーの差異を補償するための関数を前記ホルマントパワーに適用したうえで前記コスト関数を利用して前記複数の話者パラメータの間でホルマント同士の対応付けを行うことを特徴とする請求項1記載の音声合成装置。
  7. 目標話者の音声に相当するピッチ波形を生成する第3の生成部と、
    前記目標話者の音声に相当するピッチ波形に前記補間話者の音声に相当するピッチ波形を近づけるフィードバック制御を前記補間比率に対して行って、前記複数の話者パラメータに基づき前記目標話者の音声を得るための最適補間比率を算出する算出部と
    を更に具備することを特徴とする請求項1記載の音声合成装置。
  8. コンピュータを、
    話者の音声に相当するピッチ波形毎に用意され、各ピッチ波形に含まれる複数のホルマントの各々に関するホルマント周波数、ホルマント位相、ホルマントパワー及び窓関数を含む話者パラメータを、話者毎に1つずつ選択して複数の話者パラメータを得る選択手段、
    前記ホルマント周波数及び前記ホルマントパワーに基づくコスト関数を利用して前記複数の話者パラメータの間でホルマント同士の対応付けを行うマッピング手段、
    前記マッピング手段によって互いに対応付けられているホルマント同士でホルマント周波数、ホルマント位相、ホルマントパワー及び窓関数を所望の補間比率に従って補間して補間話者パラメータを生成する生成手段、
    前記補間話者パラメータを用いて、前記補間比率に基づく補間話者の音声に相当するピッチ波形を合成する合成手段
    として機能させるための音声合成プログラム。
  9. 選択部が、話者の音声に相当するピッチ波形毎に用意され、各ピッチ波形に含まれる複数のホルマントの各々に関するホルマント周波数、ホルマント位相、ホルマントパワー及び窓関数を含む話者パラメータを、話者毎に1つずつ選択して複数の話者パラメータを得ることと、
    マッピング部が、前記ホルマント周波数及び前記ホルマントパワーに基づくコスト関数を利用して前記複数の話者パラメータの間でホルマント同士の対応付けを行うことと、
    生成部が、前記マッピング部によって互いに対応付けられているホルマント同士でホルマント周波数、ホルマント位相、ホルマントパワー及び窓関数を所望の補間比率に従って補間して補間話者パラメータを生成することと、
    合成部が、前記補間話者パラメータを用いて、前記補間比率に基づく補間話者の音声に相当するピッチ波形を合成することと
    を具備することを特徴とする音声合成方法。
JP2009074707A 2009-03-25 2009-03-25 音声合成装置及び音声合成方法 Active JP5275102B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2009074707A JP5275102B2 (ja) 2009-03-25 2009-03-25 音声合成装置及び音声合成方法
PCT/JP2010/054250 WO2010110095A1 (ja) 2009-03-25 2010-03-12 音声合成装置及び音声合成方法
US12/970,162 US9002711B2 (en) 2009-03-25 2010-12-16 Speech synthesis apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009074707A JP5275102B2 (ja) 2009-03-25 2009-03-25 音声合成装置及び音声合成方法

Publications (2)

Publication Number Publication Date
JP2010224498A JP2010224498A (ja) 2010-10-07
JP5275102B2 true JP5275102B2 (ja) 2013-08-28

Family

ID=42780788

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009074707A Active JP5275102B2 (ja) 2009-03-25 2009-03-25 音声合成装置及び音声合成方法

Country Status (3)

Country Link
US (1) US9002711B2 (ja)
JP (1) JP5275102B2 (ja)
WO (1) WO2010110095A1 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8744853B2 (en) 2009-05-28 2014-06-03 International Business Machines Corporation Speaker-adaptive synthesized voice
FR2961938B1 (fr) * 2010-06-25 2013-03-01 Inst Nat Rech Inf Automat Synthetiseur numerique audio ameliore
WO2013016573A1 (en) 2011-07-26 2013-01-31 Glysens Incorporated Tissue implantable sensor with hermetically sealed housing
US10660550B2 (en) 2015-12-29 2020-05-26 Glysens Incorporated Implantable sensor apparatus and methods
US10561353B2 (en) 2016-06-01 2020-02-18 Glysens Incorporated Biocompatible implantable sensor apparatus and methods
JP6048726B2 (ja) 2012-08-16 2016-12-21 トヨタ自動車株式会社 リチウム二次電池およびその製造方法
JP5726822B2 (ja) * 2012-08-16 2015-06-03 株式会社東芝 音声合成装置、方法及びプログラム
JP6286946B2 (ja) * 2013-08-29 2018-03-07 ヤマハ株式会社 音声合成装置および音声合成方法
JP6271748B2 (ja) * 2014-09-17 2018-01-31 株式会社東芝 音声処理装置、音声処理方法及びプログラム
US10638962B2 (en) 2016-06-29 2020-05-05 Glysens Incorporated Bio-adaptable implantable sensor apparatus and methods
US10872598B2 (en) * 2017-02-24 2020-12-22 Baidu Usa Llc Systems and methods for real-time neural text-to-speech
US10896669B2 (en) 2017-05-19 2021-01-19 Baidu Usa Llc Systems and methods for multi-speaker neural text-to-speech
US10638979B2 (en) 2017-07-10 2020-05-05 Glysens Incorporated Analyte sensor data evaluation and error reduction apparatus and methods
US20190019500A1 (en) * 2017-07-13 2019-01-17 Electronics And Telecommunications Research Institute Apparatus for deep learning based text-to-speech synthesizing by using multi-speaker data and method for the same
US10796686B2 (en) 2017-10-19 2020-10-06 Baidu Usa Llc Systems and methods for neural text-to-speech using convolutional sequence learning
US10872596B2 (en) 2017-10-19 2020-12-22 Baidu Usa Llc Systems and methods for parallel wave generation in end-to-end text-to-speech
US11017761B2 (en) 2017-10-19 2021-05-25 Baidu Usa Llc Parallel neural text-to-speech
US11278668B2 (en) 2017-12-22 2022-03-22 Glysens Incorporated Analyte sensor and medicant delivery data evaluation and error reduction apparatus and methods
US11255839B2 (en) 2018-01-04 2022-02-22 Glysens Incorporated Apparatus and methods for analyte sensor mismatch correction
CN109147805B (zh) * 2018-06-05 2021-03-02 安克创新科技股份有限公司 基于深度学习的音频音质增强
US10810993B2 (en) * 2018-10-26 2020-10-20 Deepmind Technologies Limited Sample-efficient adaptive text-to-speech

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2951514B2 (ja) * 1993-10-04 1999-09-20 株式会社エイ・ティ・アール音声翻訳通信研究所 声質制御型音声合成装置
US6366883B1 (en) * 1996-05-15 2002-04-02 Atr Interpreting Telecommunications Concatenation of speech segments by use of a speech synthesizer
US6442519B1 (en) * 1999-11-10 2002-08-27 International Business Machines Corp. Speaker model adaptation via network of similar users
US6970820B2 (en) * 2001-02-26 2005-11-29 Matsushita Electric Industrial Co., Ltd. Voice personalization of speech synthesizer
US7251601B2 (en) * 2001-03-26 2007-07-31 Kabushiki Kaisha Toshiba Speech synthesis method and speech synthesizer
JP3732793B2 (ja) * 2001-03-26 2006-01-11 株式会社東芝 音声合成方法、音声合成装置及び記録媒体
JP2003295882A (ja) * 2002-04-02 2003-10-15 Canon Inc 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム
JP3881970B2 (ja) * 2003-07-25 2007-02-14 株式会社国際電気通信基礎技術研究所 知覚試験用音声データセット作成装置、コンピュータプログラム、音声合成用サブコスト関数の最適化装置、及び音声合成装置
US7567896B2 (en) * 2004-01-16 2009-07-28 Nuance Communications, Inc. Corpus-based speech synthesis based on segment recombination
US7716052B2 (en) * 2005-04-07 2010-05-11 Nuance Communications, Inc. Method, apparatus and computer program providing a multi-speaker database for concatenative text-to-speech synthesis
US20060259303A1 (en) * 2005-05-12 2006-11-16 Raimo Bakis Systems and methods for pitch smoothing for text-to-speech synthesis
JP4738057B2 (ja) * 2005-05-24 2011-08-03 株式会社東芝 ピッチパターン生成方法及びその装置
CN101622659B (zh) * 2007-06-06 2012-02-22 松下电器产业株式会社 音质编辑装置及音质编辑方法
US8321222B2 (en) * 2007-08-14 2012-11-27 Nuance Communications, Inc. Synthesis by generation and concatenation of multi-form segments
JP5159325B2 (ja) * 2008-01-09 2013-03-06 株式会社東芝 音声処理装置及びそのプログラム
JP2009216723A (ja) * 2008-03-06 2009-09-24 Advanced Telecommunication Research Institute International 類似音声選択装置、音声生成装置及びコンピュータプログラム
JP2010128103A (ja) * 2008-11-26 2010-06-10 Nippon Telegr & Teleph Corp <Ntt> 音声合成装置、音声合成方法、および音声合成プログラム

Also Published As

Publication number Publication date
US9002711B2 (en) 2015-04-07
JP2010224498A (ja) 2010-10-07
WO2010110095A1 (ja) 2010-09-30
US20110087488A1 (en) 2011-04-14

Similar Documents

Publication Publication Date Title
JP5275102B2 (ja) 音声合成装置及び音声合成方法
JP4246792B2 (ja) 声質変換装置および声質変換方法
JP3913770B2 (ja) 音声合成装置および方法
JP4966048B2 (ja) 声質変換装置及び音声合成装置
CN107924686B (zh) 语音处理装置、语音处理方法以及存储介质
US10529314B2 (en) Speech synthesizer, and speech synthesis method and computer program product utilizing multiple-acoustic feature parameters selection
JP5159325B2 (ja) 音声処理装置及びそのプログラム
WO2018084305A1 (ja) 音声合成方法
US20130151256A1 (en) System and method for singing synthesis capable of reflecting timbre changes
JP2009047837A (ja) 音声合成方法及びその装置
WO2018003849A1 (ja) 音声合成装置および音声合成方法
JP2010014913A (ja) 声質変換音声生成装置および声質変換音声生成システム
JP3732793B2 (ja) 音声合成方法、音声合成装置及び記録媒体
JP6347536B2 (ja) 音合成方法及び音合成装置
JP2018077283A (ja) 音声合成方法
US20090326951A1 (en) Speech synthesizing apparatus and method thereof
JP2009133890A (ja) 音声合成装置及びその方法
Lee et al. A comparative study of spectral transformation techniques for singing voice synthesis
WO2012032748A1 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JPH09319391A (ja) 音声合成方法
JP2010078808A (ja) 音声合成装置及び方法
JP6683103B2 (ja) 音声合成方法
JP2018077281A (ja) 音声合成方法
JP2010224053A (ja) 音声合成装置、音声合成方法、プログラム及び記録媒体
JP2010008922A (ja) 音声処理装置、音声処理方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110323

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130423

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130515

R151 Written notification of patent or utility model registration

Ref document number: 5275102

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350