JP4455633B2 - 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム - Google Patents

基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム Download PDF

Info

Publication number
JP4455633B2
JP4455633B2 JP2007234246A JP2007234246A JP4455633B2 JP 4455633 B2 JP4455633 B2 JP 4455633B2 JP 2007234246 A JP2007234246 A JP 2007234246A JP 2007234246 A JP2007234246 A JP 2007234246A JP 4455633 B2 JP4455633 B2 JP 4455633B2
Authority
JP
Japan
Prior art keywords
phoneme
representative vector
frequency pattern
fundamental frequency
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007234246A
Other languages
English (en)
Other versions
JP2009069179A (ja
Inventor
伸晃 水谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2007234246A priority Critical patent/JP4455633B2/ja
Priority to US12/205,626 priority patent/US8478595B2/en
Publication of JP2009069179A publication Critical patent/JP2009069179A/ja
Application granted granted Critical
Publication of JP4455633B2 publication Critical patent/JP4455633B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Description

本発明は、テキスト音声合成のための基本周波数パターンを生成する基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラムに関する。
近年、任意の文章から音声信号を人工的に生成するテキスト音声合成システムが開発されている。一般的に、テキスト音声合成システムは、言語処理部、韻律生成部、音声信号生成部の3つのモジュールから構成される。これらモジュールの中では、韻律生成部の性能が、合成音声の自然性に関係している。とりわけ、声の高さ(基本周波数)の変化パターンである基本周波数パターンは、合成音声の自然性に大きく影響する。従来のテキスト音声合成における基本周波数パターン生成方法は、比較的単純なモデルを用いて基本周波数パターンの生成を行っていたため、抑揚が不自然で機械的な合成音声となっていた。
こうした問題を解決するために、従来の基本周波数パターン生成装置には、基本周波数パターンデータベースから基本周波数パターンを選択し、4音韻以下の範囲で、基本周波数パターンの“アクセント核に後続する2つ目の音韻”から“アクセント句末の直前の音韻”までを補間することで、所望の音韻数の基本周波数パターンを生成するものがある(例えば、特許文献1参照)。しかし、この基本周波数パターン生成装置では、補間範囲が大きくなると、自然な合成音声を生成することができない、という問題点があった。また、自然な合成音声を生成するためには、補間範囲を4音韻以下にする必要があるために、大量且つ様々な音韻数の基本周波数パターンを基本周波数データベース中に記憶しておく必要があり、基本周波数データベースの大きさ(容量)が増大してしまう、という問題があった。
特開2004−206144号公報
上述したように、従来技術では、人の発声した音声により近い自然な合成音の安定した生成を可能とする基本周波数パターンを生成することは困難であった。
本発明は、上記事情を考慮してなされたもので、人の発声した音声により近い自然な合成音の安定した生成を可能とする基本周波数パターンを生成することのできる基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラムを提供することを目的とする。
本発明に係る基本周波数パターン生成装置は、韻律制御単位の代表ベクトルであってアクセント核音韻とアクセント核後続隣接音韻とアクセント核後続2音韻目とのうちいずれかを始端とし且つ韻律制御単位終端音韻と韻律制御単位終端先行隣接音韻と韻律制御単位終端先行2音韻目とのうちいずれかを終端とする区間である第1の区間及び該第1の区間以外の区間からなる代表ベクトルを複数記憶する第1の記憶部と、入力コンテキストに応じた代表ベクトルを選択するための規則を記憶する第2の記憶部と、前記入力コンテキストに前記規則を適用することによって、前記複数の代表ベクトルのうちから当該入力コンテキストに応じた代表ベクトルを選択して選択代表ベクトルを出力する選択部と、生成すべき基本周波数パターンに要求される、該基本周波数パターンに含まれる全音韻それぞれの継続時間長に対する指定値のうちで、前記選択代表ベクトルの有する前記第1の区間から生成される該基本周波数パターンの第1の部分に含まれる所定数の音韻それぞれに対応する前記指定値に基づき、所定のマッピング関数に従って、前記選択代表ベクトルの有する前記第1の区間に含まれる複数のサンプル点が、それら複数のサンプル点の時間軸方向での順序関係を維持しつつ、それぞれ、前記第1の部分に含まれる所定の音韻に対する継続時間内における所定の時間的位置にマッピングされる場合における、当該複数のサンプル点それぞれの時間軸方向での伸縮比率を計算する計算部と、前記選択代表ベクトルの有する前記第1の区間に含まれる前記複数のサンプル点それぞれについて計算された前記伸縮比率に従って、該複数のサンプル点それぞれを伸縮して、前記基本周波数パターンの前記第1の部分を生成するとともに、前記選択代表ベクトルの有する前記第1の区間以外の区間に含まれる各々の音韻の継続時間長を、それぞれ、当該音韻に対応する前記指定値に等しくなるように伸縮して、前記基本周波数パターンの前記第1の部分以外の部分を生成する伸縮部とを備えたことを特徴とする。
また、本発明に係る基本周波数パターン生成装置は、韻律制御単位の代表ベクトルであってアクセント核音韻とアクセント核後続隣接音韻とアクセント核後続2音韻目とのうちいずれかを始端とし且つ韻律制御単位終端音韻と韻律制御単位終端先行隣接音韻と韻律制御単位終端先行2音韻目とのうちいずれかを終端とする区間である第1の区間及び該第1の区間以外の区間からなる代表ベクトルを複数記憶する第1の記憶部と、入力コンテキストに応じた代表ベクトルを選択するための規則を記憶する第2の記憶部と、前記入力コンテキストに前記規則を適用することによって、前記複数の代表ベクトルのうちから当該入力コンテキストに応じた代表ベクトルを選択して選択代表ベクトルを出力する選択部と、生成すべき基本周波数パターンに要求される、該基本周波数パターンのうち前記代表ベクトルの前記第1の区間から生成される部分に含まれる音韻の数に対する指定値に基づいて、前記選択代表ベクトルの有する前記第1の区間に含まれる音韻の数が、前記指定値に等しくなるように、該第1の区間に含まれる音韻の数に対する伸縮比率を計算する計算部と、前記伸縮比率に従って、前記選択代表ベクトルの有する前記第1の区間に含まれる音韻の数を伸縮し、次いで、生成すべき基本周波数パターンに要求される、該基本周波数パターンに含まれる全音韻それぞれの継続時間長に対する指定値に基づいて、該第1の区間に含まれる音韻の数が伸縮された後の前記選択代表ベクトルの全区間に含まれる各々の音韻の継続時間長を、それぞれ、当該音韻に対応する前記指定値に等しくなるように伸縮して、前記基本周波数パターンを生成する伸縮部とを備えたことを特徴とする。
本発明によれば、人の発声した音声により近い自然な合成音の安定した生成を可能とする基本周波数パターンを生成するができるようになる。
以下、図面を参照しながら本発明の実施形態について説明する。
(第1の実施形態)
図1に、本発明の第1の実施形態に係る基本周波数パターン生成装置の構成例を示す。
図1に示されるように、本実施形態の基本周波数パターン生成装置は、代表ベクトル選択部1、伸縮比率計算部2、代表ベクトル伸縮部3、代表ベクトル記憶部11、代表ベクトル選択規則記憶部12を備えている。
代表ベクトル記憶部11は、韻律制御単位(例えば、アクセント句の単位)の複数の代表ベクトルを記憶する。この代表ベクトルは、様々な音韻数の基本周波数パターンを生成することを可能にするために、音韻数を可変にするための区間である可変音韻数対応区間を有している。
代表ベクトル選択規則記憶部12は、入力コンテキスト21に応じた代表ベクトルを選択するための規則である代表ベクトル選択規則を記憶する。
代表ベクトル選択部1は、入力コンテキスト21に上記代表ベクトル選択規則を適用することによって、代表ベクトル記憶部11に記憶された複数の代表ベクトルのうちから、該入力コンテキスト21に応じた代表ベクトルを選択する。
伸縮比率計算部2は、入力コンテキスト21と入力音韻継続時間長22との少なくとも一方を用いて、選択された上記代表ベクトル内の可変音韻数対応区間に対する時間軸方向における伸縮比率を計算する。
代表ベクトル伸縮部3は、計算された伸縮比率を用いて、選択された代表ベクトルを伸縮することによって、所望の音韻数の基本周波数パターン23を生成する。
図2に、入力コンテキストの一例及び代表ベクトル選択規則の一例、並びに入力コンテキストに代表ベクトル選択規則を適用することによって代表ベクトルを選択する一例について示す。
なお、本実施形態では、韻律制御単位をアクセント句として、説明しているが、これに限定されるものではない。また、本実施形態では、音韻をモーラとして、説明しているが、これに限定されるものではない。
入力コンテキスト21は、アクセント句毎のサブコンテキストからなる。図2では、3つのサブコンテキストを例示している。韻律制御単位をアクセント句とする場合に、個々のコンテキスト(サブコンテキスト)は、例えば、当該アクセント句のアクセント型、モーラ数、先頭境界ポーズの有無、品詞、係り先、強調の有無、先行アクセント句のアクセント型の全部又は一部を含むことができる。また、個々のコンテキスト(サブコンテキスト)は、これら以外の情報を更に含むこともできる。
なお、図1では、入力音韻継続時間長22を、入力コンテキスト21とは別に入力するものとしたが、入力コンテキスト21に、その一項目として、入力音韻継続時間長22または入力音韻継続時間長22を特定可能とする情報を含める方法も可能である。
代表ベクトル選択規則121は、例えば、決定木(回帰木)からなる代表ベクトルの選択規則である。決定木において、節ノード(非葉ノード)には、「質問」と呼ばれる「コンテキストに関する分類規則」が結び付けられている。また、該決定木において、各葉ノードには、代表ベクトルの識別情報(以下、id)が対応付けられている。
なお、本実施形態では、各葉ノードに代表ベクトルの識別情報を対応付けて説明しているが、各葉ノードが直接代表ベクトルを参照する実施も可能であり、これに限定されるものではない。
コンテキストに関する分類規則には、例えば、“アクセント型=0”かどうか、“アクセント型<2”かどうか、“モーラ数=3”かどうか、“先頭境界ポーズ=有”かどうか、“品詞=名詞”かどうか、“係り先<2”かどうか、“強調=有”かどうか、“先行アクセント型=0”かどうかなどの規則や、これらを組合せた“先行アクセント型=0且つアクセント型=1”かどうかなどの規則を用いることができる。
代表ベクトル選択規則は、当該サブコンテキストが当該質問に合致するか否かの判別を、決定木の根ノードから葉ノードまで繰り返し行うことによって、最終的に、葉ノードに対応した代表ベクトル111を選択する規則である。
例えば、図2の代表ベクトルの選択結果112に示すように、第1番目のサブコンテキスト211に、代表ベクトル選択規則を適用することによって、id=4の代表ベクトルが選択され、第2番目のサブコンテキスト212に、代表ベクトル選択規則を適用することによって、id=6の代表ベクトルが選択され、第3番目のサブコンテキスト213に、代表ベクトル選択規則を適用することによって、id=1の代表ベクトルが選択される。
図3に、代表ベクトルの構成例を示す。なお、この代表ベクトルは、図2中の代表ベクトル(id=1)の具体例である。
図3に示すように、代表ベクトルは、アクセント句の始端の音韻である「アクセント句始端音韻」(図中、301参照)からアクセント核の音韻である「アクセント核音韻」(図中、302参照)までの前半の音韻に対応する区間(前半音韻対応区間)(図中、303参照)と、アクセント核に後続の隣接する音韻である「アクセント核後続隣接音韻」(図中、304参照)からアクセント句の終端の音韻である「アクセント句終端音韻」(図中、305参照)までの音韻数を可変にするための区間である「可変音韻数対応区間」(図中、306参照)とから構成される。この例では、前半音韻対応区間は、モーラ毎に3点で標本化(正規化)されており、可変音韻数対応区間は、12点で標本化(正規化)されている。また、この具体例においては、代表ベクトルの次元数は21次元である。
なお、音韻をモーラとする場合には、図3に示すように、「アクセント句始端音韻」を「第1モーラ」(又は「アクセント句始端モーラ」)、「アクセント核音韻」を「アクセント核モーラ」、「アクセント核後続隣接音韻」を「アクセント核後続隣接モーラ」、「アクセント句終端音韻」を「アクセント句終端モーラ」と呼ぶことができる。また、図3に示すように、「第1モーラ」と「アクセント核モーラ」との間に更にモーラが存在する場合には、「第2モーラ」などと呼ぶことができる。
なお、上記代表ベクトルは一例であり、「可変音韻数対応区間」の始端は、「アクセント核音韻」としてもよいし、「アクセント核後続隣接音韻」としてもよいし、アクセント核に後続する2音韻目の音韻である「アクセント核後続2音韻目」としてもよい。また、「可変音韻数対応区間」の終端を、韻律制御単位の終端の音韻である「韻律制御単位終端音韻」としてもよいし、「韻律制御単位終端音韻」の一つ前の音韻である「韻律制御単位終端先行隣接音韻」としてもよいし、「韻律制御単位終端音韻」の二つ前の音韻である韻律制御単位終端先行2音韻目としてもよい。
また、上記代表ベクトルは、前半音韻対応区間と可変音韻数対応区間とから構成されたが、その代わりに、代表ベクトルが、前半音韻対応区間と可変音韻数対応区間と後半音韻対応区間とから構成されてもよい。この場合、前半音韻対応区間は、例えば、「韻律制御単位始端音韻」から、「アクセント核音韻」又は「アクセント核音韻」の一つ前の音韻である「アクセント核先行隣接音韻」又は「アクセント核音韻」の一つ後の音韻である「アクセント核後続隣接音韻」まででとし、後半音韻対応区間は、例えば、可変音韻数対応区間の一つ後の音韻である「可変音韻数対応区間後続隣接音韻」から「韻律制御単位終端音韻」までとし、可変音韻数対応区間は、前半音韻対応区間と後半音韻対応区間との間の区間としてもよい。なお、可変音韻数対応区間と後半音韻対応区間との境界は、適宜設定することができる。
次に、本実施形態の基本周波数パターン生成装置における処理について説明する。
図4に、本実施形態の基本周波数パターン生成装置における処理の手順の一例を示す。
まず、代表ベクトル選択部1は、コンテキスト21を入力とし、代表ベクトル選択規則記憶部12に記憶された代表ベクトル選択規則を用いて、代表ベクトル記憶部11に記憶された複数の代表ベクトルのうちから、当該コンテキスト21に対応する代表ベクトルを選択する(ステップS1)。
前述のように、図2の3つの入力サブコンテキスト211,212,213にそれぞれ図2の代表ベクトル選択規則を適用することによって、図2の代表ベクトルの選択結果112に示すように、入力サブコンテキスト211,212,213に対してそれぞれid=4,6,1の代表ベクトルが選択される。
例えば、入力コンテキスト21中のサブコンテキスト211は、「アクセント型=1、モーラ数=4、先頭境界ポーズ=無、品詞=名詞、係り先=2つ先の句、強調=無、…、先行アクセント型=−」である。よって、まず、決定木中の根ノードに係る質問“アクセント型=0”には非合致(NO)であり、次に、左の子ノードに係る質問“アクセント型=1”には合致(YES)であり、次に、右の子ノードに係る質問“モーラ数<5”には合致(YES)である。この結果、当該サブコンテキスト211には、id=4の代表ベクトルが選択される。
次に、伸縮比率選択部2は、入力音韻継続時間長22を用いて、可変音韻数対応区間の伸縮比率を計算する(ステップS2)。
図5に、可変音韻数対応区間の伸縮比率の一例を示す。図5中、501は、図3と同じ代表ベクトルであり、502は、該代表ベクトルの可変音韻数対応区間であり、503は、入力音韻継続時間長22を用いて、該可変音韻数対応区間に対して計算された伸縮比率である。
この可変音韻数対応区間の伸縮比率は、例えば、以下のようにして計算することが可能である。
まず、代表ベクトル中の可変音韻数対応区間の次元数(長さ)をY、生成する基本周波数パターン中の「アクセント核後続隣接モーラ」から「アクセント句終端モーラ」までの次元数(長さ)をXで表すとする。
そして、代表ベクトル中の或る点yに対応した生成する基本周波数パターン中の位置xとの関係(マッピング関数)を、数式(1)および図6で表すとする。なお、図6において、601が代表ベクトル中の可変音韻数対応区間であり、602が、生成する基本周波数パターン中の「アクセント核後続隣接モーラ」から「アクセント句終端モーラ」までの区間であり、603が、マッピング関数である。
x=(X−1){γ−w(γ−f(γ))}、
y=(Y−1){f(γ)+w(γ−f(γ))}、 (0≦w≦1)
f(γ)={g(α)−g(−α)}−1・g(2αγ−α)、 (0≦w≦1)
g(u)={1+exp(−u)}−1
…(1)
ここで、αは、シグモイド関数gの定義域を有限にするためのものである。関数fは、定義域を有限化されたシグモイド関数の定義域と値域を、いずれも[0,1]に正規化するためのものである。
また、wは、入力音韻継続時間長と代表ベクトルの長さとの比を基準に、設定してもよい。例えば、入力音韻継続時間長が代表ベクトルと等しい場合にはwを0.5とし、入力音韻継続時間長が代表ベクトルより大きい場合にはwを0.5未満の実数とし、入力音韻継続時間長が代表ベクトルより小さい場合にはwを0.5より大きい実数を設定するなどとしてもよい。
また、関数fと関数gは、必ずしも用いる必要はない。
そして、或る点y(=b)となる媒介変数γを用いて計算された値xを、x{yb}と表すものとしたときに、代表ベクトル中の或る点y(=b)の伸縮率z{yb}は、数式(2)で計算することができる。
z{yb}=limh→0〔x{yb+h}−x{yb}〕/h …(2)
このようにして伸縮率z{yb}を、b=0からb=Y−1まで求めることによって、代表ベクトル中の可変音韻数対応区間の伸縮率を求めることができる。
次に、代表ベクトル伸縮部3は、入力音韻継続時間長22と可変音韻数対応区間の伸縮比率とを用いて、代表ベクトルの伸縮を行う(ステップS3)。
図7に、本実施形態の代表ベクトルの伸縮の一例を示す。図7中、701は、図3と同じ代表ベクトルの例を表し、702は、代表ベクトルの伸縮の例を表し、703は、伸縮された代表ベクトル(生成された基本周波数パターン)の例を表す。
図7の例において、代表ベクトル中の前半音韻対応区間(第1モーラ、第2モーラ、第3モーラ(アクセント核モーラ))は、モーラ毎に入力音韻継続時間長22に合わせて線形伸縮したものである。他方、代表ベクトル中の可変音韻数対応区間(第4モーラ〜第7モーラ)は、ステップS2により求めた伸縮率に合わせて伸縮したものである。
なお、代表ベクトル中の前半音韻対応区間の伸縮は、モーラ毎の線形伸縮に限る必要はなく、線形関数を組合わせた伸縮や、シグモイド関数も組合わせた伸縮、さらに多次元ガウス関数などを組合わせた伸縮などを、より自然な抑揚を表現できるように、用いてもよい。
そして、本実施形態の基本周波数パターン生成装置は、代表ベクトル伸縮部3により伸縮された代表ベクトルを、所望の音韻数の基本周波数パターン23として出力する。
以上のように、本実施形態においては、様々な音韻数の基本周波数パターンを生成するために、韻律制御単位の代表ベクトルに、可変音韻数対応区間を持たせることとし、入力コンテキストに代表ベクトル選択規則を適用することによって、入力コンテキストに応じた代表ベクトルを選択し、入力コンテキストと入力音韻継続時間長とのうちの少なくとも1つを用いて、選択された代表ベクトル内の可変音韻数対応区間の時間軸方向での伸縮比率を計算し、計算された伸縮比率を用いて、選択された代表ベクトルを伸縮することによって、基本周波数パターンを生成する。これによって、人の発声した音声により近い自然な合成音の安定した生成が可能となる。
以下では、これまで説明してきた事項に対するバリエーションについて説明する。
韻律制御単位は、入力コンテキストに対応する音声の韻律的特徴を制御するための単位であり、代表ベクトルの容量にも関連すると考えられる。本実施形態においては、韻律制御単位には、例えば、「文」、「呼気段落」、「アクセント句」、「形態素」、「単語」、「モーラ」、「音節」、「音素」、「半音素」、もしくは「HMM等により1音素を複数に分割した単位」、または「これらを組合せたもの」などを用いることができる。
コンテキストは、規則合成器で用いられるような情報のうち抑揚に影響を与えると考えられる情報、例えば、「アクセント型」、「モーラ数」、「音韻の種類」、「アクセント句境界のポーズの有無」、「文中でのアクセント句の位置」、「品詞」、「係り先といったテキストを解析することにより得られる先行、後続、2先行、2後続、当該韻律制御単位に関する言語情報」、または「所定の属性のうち少なくとも1つの値」などを、用いることができる。所定の属性には、例えば、「アクセントの高さなどの変化に影響を与えると考えられるプロミネンスに関する情報」、或いは「発声全体における基本周波数パターンの変化に影響を与えると考えられる抑揚、発話スタイルといった情報」、或いは「質問、断定、強調といった意図を表す情報」、或いは「疑い、関心、落胆、感心といった心的態度を表す情報」などがある。
音韻は、例えば当該装置の実装における都合などから、「モーラ」、「音節」、「音素」、「半音素」、或いは「HMM等により1音素を複数に分割した単位」などを、柔軟に用いることができる。
代表ベクトルは、抑揚の時間変化を表す自然音声より抽出した基本周波数パターン、自然音声より抽出した基本周波数パターンの集合に対して統計処理(例えば、ベクトル量子化、平均化、近似化など)を行うことにより得られた基本周波数パターンなどを用いることができる。基本周波数パターンは、基本周波数そのものの系列、もしくは、音の高さを知覚する際の人の聴覚特性を考慮した対数基本周波数の系列を用いることができる。無声音区間には基本周波数が本来存在しないが、例えば、前後境界有声音区間の時系列点を補間するなどして連続的な系列としたもの、特別な値を連続的に埋め連続的な系列としたものなどを用いることができる。系列の次元数は、得られた次元数そのもの、代表ベクトルの容量の削減に影響を与えると考えられる対応音韻、可変音韻数対応区間毎に数サンプルに標本化(正規化)したものが考えられる。
代表ベクトル選択規則は、代表ベクトルにより生成された基本周波数パターンと目標(理想)とする基本周波数パターンとの誤差を従属変数とし、コンテキストを説明変数として、推定誤差を測る数量化I類モデルを作成し、該数量化I類モデルを用いて、推定誤差が最も小さかった代表ベクトルを選択する選択規則を用いることもできる。
また、推定誤差を測るモデルとして、単位(音声素片)選択型音声合成方式で一般的に用いられているコスト関数といったものを用いることもできる。コスト関数を用いることにより、単位選択型音声合成で有効とされているといった知識を、事前に、コスト関数もしくはサブコスト関数に導入することができ、短期間で代表ベクトル選択規則を作成することが可能になると考えられる。
また、代表ベクトル選択規則は、2つ以上の代表ベクトルを選択してもよい。例えば、推定誤差がある閾値を上回った際には1つの代表ベクトルだけでは自然な合成音声を得られない可能性がある。そこで、2つ以上の代表ベクトルを選択し、それらを組合わせたり、あるいは、それらについて、重み付け和あるいは平均化などを行ったりすることにより、より頑健で自然な合成音声を得られることが期待される。
伸縮比率計算部2は、図8に示すように、数式(1)中のwを小さな値として、可変音韻数対応区間の中央付近をより伸張するようなものを計算することも考えられる。また、図9に示すように、楕円や放物線を組合わせたようなものを計算することも考えられる。また、図10に示すように、可変音韻数対応区間の両端付近以外は、一定の比率で伸張するようなものを計算することも考えられる。また、図11に示すように、可変音韻数対応区間の中央に向かって、一定に増減するようなものを計算することも考えられる。また、図12に示すように、可変音韻数対応区間の始端付近以外を、一定に伸張するようなものを計算することも考えられる。また、図13に示すように、可変音韻数対応区間を全体的に縮めるようなものを計算することも考えられる。また、前述以外にも、公算曲線、引弧線(追跡線)、懸垂線、擺線(サイクロイド)、餘擺線(トロコイド)、アーネシーの曲線、クロソイド曲線といった、よく知られている曲線や、これらの曲線と上記した図8〜図13とを組合わせた形で得られる伸縮比率を計算することも考えられる。ここで、本実施形態では、可変音韻数対応区間の伸縮率を計算していたが、伸縮量を計算することも本質的に同様である。
また、図4の手順例では、代表ベクトル伸縮ステップ(ステップS3)は、伸縮比率計算ステップ(ステップS2)の次ステップとされているが、一般的に行われるステップの後のステップとなっていてもかまわない。一般的に行われるステップとは、例えば、図14に示すような代表ベクトルの基本周波数軸の方向の伸縮や図15に示すような代表ベクトルの基本周波数軸の方向の移動といったステップである。また、図14や図15に示すようにステップを行う際に必要となり得るパラメータ(もしくは各パラメータを組合わせたもの)は、公知の方法(例えば、数量化I類などの統計的手法、何らかの帰納学習方法、多次元正規分布あるいはGMMなどの方法)によりモデル化されたモデルからの出力を用いることも考えられる。
以上説明してきたように、本実施形態によれば、より様々な音韻数の基本周波数パターンを生成可能な可変音韻数対応区間を持つ代表ベクトルを伸縮して所望の音韻数の基本周波数パターンを生成することにより、人の発声した音声により近い自然な合成音の安定した生成を可能とする基本周波数パターンを生成可能となる。また、記憶しておく代表ベクトル数も削減可能となる。
なお、この基本周波数パターン生成装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、代表ベクトル、代表ベクトル選択規則、そして、代表ベクトル選択部1、伸縮比率計算部2、代表ベクトル伸縮部3は、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、基本周波数パターン生成装置は、上記のプログラムをコンピュータ装置にあらかじめインストールすることで実現してもよいし、CD−ROMなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、代表ベクトルおよび代表ベクトル選択規則は、上記のコンピュータ装置に内蔵あるいは外付けされたメモリ、ハードディスクもしくはCD−R、CD−RW、DVD−RAM、DVD−Rなどの記憶媒体などを適宜利用して実現することができる。
(第2の実施形態)
次に、本発明の第2の実施形態について、第1の実施形態と相違する点を中心に説明する。
図16に、本実施形態の基本周波数パターン生成装置の構成例を示す。なお、図16においては、図1と対応する部分に同一の参照符号を付している。
なお、図16では、入力音韻継続時間長22を、入力コンテキスト21とは別に入力するものとしたが、入力コンテキスト21に、その一項目として、入力音韻継続時間長22または入力音韻継続時間長22を特定可能とする情報を含める方法も可能である。
本実施形態の基本周波数パターン生成装置が第1の実施形態と相違する主な点は、代表ベクトル伸縮部3が、本実施形態では、代表ベクトル音韻数伸縮部3−1と代表ベクトル継続長伸縮部3−2との2つから構成されている点である。
次に、本実施形態の基本周波数パターン生成装置の動作について説明する。
図17に、本実施形態の基本周波数パターン生成装置における処理の手順の一例を示す。なお、図17においては、図4と対応する部分には同一の参照符号を付している。
本実施形態と第1の実施形態との相違点は2つある。相違点1は、伸縮比率計算部2の処理の相違である。第1の実施形態においては、生成する基本周波数パターンの「音韻継続時間長」に基づいて、伸縮比率を計算したが、これに対して、本実施形態においては、生成する基本周波数パターンの「音韻数」に基づいて、伸縮比率を計算する。相違点2は、代表ベクトル伸縮部3の相違である。第1の実施形態においては、1段階の伸縮で基本周波数パターンを生成していたが、これに対して、本実施形態においては、2段階の伸縮で基本周波数パターンを生成する。
まず、上記相違点1について説明する。
本実施形態における伸縮比率計算ステップS2では、代表ベクトルのサンプル数(次元数)を、所望の音韻数に合わせるように「可変音韻数対応区間」を伸縮するための伸縮比率を計算する。
ここでは、音韻をモーラとした一例を考える。
図18に、本実施形態の代表ベクトルの伸縮の一例を示す。図18中、181は、図3と同じ代表ベクトルの例を表し、182は、代表ベクトルの音韻数の伸縮の例を表し、183は、音韻数を伸縮された代表ベクトルの例を表し、184は、代表ベクトルの時間長の伸縮の例を表し、185は、時間長を伸縮された代表ベクトルの例を表す。
図18では、音韻数の伸縮の例として、3型アクセントであり且つ可変音韻数対応区間が12サンプルである代表ベクトルを、9モーラの代表ベクトルとする音韻数伸縮について示す。
代表ベクトル181は、代表ベクトル中の1モーラあたりのサンプル数を3点とした一例であり、可変音韻数対応区間が12サンプルから18サンプル(3x6モーラ)に伸張されるよう伸縮比率を計算することで、所望の音韻数に相当する代表ベクトル183を得ることができる。
所望のモーラ数の求め方としては、例えば、入力コンテキストの項目の一つとして可変音韻数対応区間に対する所望のモーラ数が与えられている方法や、入力コンテキストの項目としてアクセント型やモーラ数が与えられており、該モーラ数から該アクセント型を減算して求める方法や、入力音韻継続時間長に可変音韻数対応区間が併記されており、可変音韻数対応区間の音韻数を用いる方法などが考えられる。
次に、上記相違点2について説明する。
本実施形態における代表ベクトル伸縮ステップは、代表ベクトル音韻数伸縮ステップS3−1と代表ベクトル継続長伸縮ステップS3−2とからなる。
図18は、上記代表ベクトル伸縮ステップの動作に関する一例であり、代表ベクトル音韻数伸縮ステップS3−1(図18中の182参照)では、求められた伸縮比率を用いて代表ベクトル中の可変音韻数対応区間を伸縮し、代表ベクトル継続長伸縮ステップS3−2(図18中の184参照)では、入力音韻継続時間長22を用いて、生成音韻数に相当する代表ベクトル中のモーラ毎の線形伸縮を行う。この結果、185で例示する代表ベクトルを得ることができる。
なお、代表ベクトル継続長伸縮ステップS3−2での伸縮は、モーラ毎の線形伸縮に限る必要はなく、線形関数を組合わせた伸縮や、シグモイド関数も組合わせた伸縮、さらに多次元ガウス関数などを組合わせた伸縮などを、より自然な抑揚を表現できるように、用いてもよい。
本実施形態では、代表ベクトルの伸縮を2段階で行うことにより、代表ベクトル継続長伸縮ステップでは、代表ベクトルは、生成する音韻数に相当するサンプル数(次元数)になっているため、音韻毎に継続長に合わせた伸縮を行うのみでよい。つまり、代表ベクトル中の各対応区間を意識する必要がないため、処理が容易になる。
以上のように、本実施形態においては、様々な音韻数の基本周波数パターンを生成するために、韻律制御単位の代表ベクトルに、可変音韻数対応区間を持たせることとし、入力コンテキストに代表ベクトル選択規則を適用することによって、入力コンテキストに応じた代表ベクトルを選択し、入力コンテキストと入力音韻継続時間長とのうちの少なくとも1つを用いて、選択された代表ベクトル内の可変音韻数対応区間の時間軸方向での伸縮比率を計算し、計算された伸縮比率を用いて、選択された代表ベクトルを所望の音韻数に伸縮し、入力音韻継続時間長を用いて所望の音韻数の代表ベクトルを伸縮することによって、基本周波数パターンを生成する。これによって、人の発声した音声により近い自然な合成音の安定した生成が可能となる。
なお、この基本周波数パターン生成装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、代表ベクトル、代表ベクトル選択規則、そして、代表ベクトル選択部1、伸縮比率計算部2、代表ベクトル音韻数伸縮部3−1、代表ベクトル継続長伸縮部3−2は、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、基本周波数パターン生成装置は、上記のプログラムをコンピュータ装置にあらかじめインストールすることで実現してもよいし、CD−ROMなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、代表ベクトルおよび代表ベクトル選択規則は、上記のコンピュータ装置に内蔵あるいは外付けされたメモリ、ハードディスクもしくはCD−R、CD−RW、DVD−RAM、DVD−Rなどの記憶媒体などを適宜利用して実現することができる。
(第3の実施形態)
次に、本発明の第3の実施形態について、第1の実施形態と相違する点を中心に説明する。
図19に、本実施形態の基本周波数パターン生成装置の構成例を示す。なお、図19においては、図1と対応する部分に同一の参照符号を付している。
なお、図19では、入力音韻継続時間長22を、入力コンテキスト21とは別に入力するものとしたが、入力コンテキスト21に、その一項目として、入力音韻継続時間長22または入力音韻継続時間長22を特定可能とする情報を含める方法も可能である。
本実施形態の基本周波数パターン生成装置が第1の実施形態と相違する主な点は、第1の実施形態における代表ベクトル選択部1が、本実施形態では、第1の代表ベクトルサブ選択部1−1と第2の代表ベクトルサブ選択部1−2と代表ベクトル接続部1−3とで構成され、第1の実施形態における代表ベクトル記憶部11が、本実施形態では、第1の代表ベクトル記憶部11−1と第2の代表ベクトル記憶部11−2とで構成され、第1の実施形態における代表ベクトル選択規則記憶部12が、本実施形態では、第1の代表ベクトル選択規則記憶部12−1と第2の代表ベクトル選択規則記憶部12−2とで構成されている点である。
次に、本実施形態の基本周波数パターン生成装置の動作について説明する。
図20に、本実施形態の基本周波数パターン生成装置における処理の手順の一例を示す。なお、図20においては、図4と対応する部分には同一の参照符号を付している。
また、図21に、本実施形態の代表ベクトルの選択の一例を示す。
本実施形態と第1の実施形態との相違点は2つある。相違点1は、代表ベクトル及び代表ベクトル選択規則の相違である。第1の実施形態においては、代表ベクトルは、「可変音韻数対応区間」と「前半音韻対応区間」とを含むが(図3等参照)、これに対して、本実施形態においては、代表ベクトルを、「可変音韻数対応区間」(図3等参照)を持つ第1の代表ベクトル(図21の212参照)と、「前半音韻対応区間」(図3等参照)を持つ第2の代表ベクトル(図21の214参照)とに分け、複数の第1の代表ベクトルと、複数の第2の代表ベクトルを用意する。また、これに伴い、本実施形態では、第1の代表ベクトルを選択する第1の代表ベクトル選択規則と、第2の代表ベクトルを選択する第2の代表ベクトル選択規則とを用意する。
相違点2は、代表ベクトル選択部1の相違である。第1の実施形態においては、代表ベクトル記憶部11から選択した代表ベクトルを出力するのみであったが、本実施形態においては、第1の代表ベクトルサブ選択部1−1が第1の代表ベクトルを選択し(図21の211参照)、第2の代表ベクトルサブ選択部1−2が第2の代表ベクトルを選択し(図21の213参照)、代表ベクトル接続部1−3が、選択された2つの第1の代表ベクトルと第2の代表ベクトルとを接続し(図21の215参照)、これによって得られる代表ベクトル(図21の216参照)を、伸縮比率計算部2と代表ベクトル伸縮部3へ出力する。
まず、上記相違点1について説明する。
本実施形態における代表ベクトル記憶部11は、「アクセント核音韻」から「韻律制御単位終端音韻」までに対応する「可変音韻数対応区間」を持つ複数の第1の代表ベクトルを記憶する第1の代表ベクトル記憶部11−1と、「韻律制御単位始端音韻」から「アクセント核先行隣接音韻」までに対応する「前半音韻対応区間」を持つ複数の第2の代表ベクトルを記憶する第2の代表ベクトル記憶部11−2とで構成されている。また、代表ベクトル選択規則記憶部12は、第1の代表ベクトル記憶部11−1中から、入力コンテキスト21に応じた第1の代表ベクトルを選択する第1の代表ベクトル選択規則記憶部12−1と、第2の代表ベクトル記憶部11−2中から、該入力コンテキスト21に応じた第2の代表ベクトルを選択する第2の代表ベクトル選択規則記憶部12−2とで構成されている。
なお、上記では、第1の代表ベクトル記憶部11−1および第2の代表ベクトル記憶部11−2を独立に構成するものとしたが、第1の代表ベクトル記憶部11−1と第2の代表ベクトル記憶部11−2とを一体化した一つの代表ベクトル記憶部として構成してもよい。この点は、代表ベクトル選択規則記憶部12−1および代表ベクトル選択規則記憶部12−2についても同様である。
また、代表ベクトル選択規則記憶部12は、代表ベクトル選択規則記憶部12−1のみで構成され、代表ベクトル選択規則記憶部12−1に記憶された代表ベクトル選択規則を用いて、第1の代表ベクトルと第2の代表ベクトルとの両方を選択するようにしてもよい。
次に、上記相違点2について説明する。
本実施形態における代表ベクトル選択ステップS1は、第1の代表ベクトルサブ選択ステップS1−1と、第2の代表ベクトルサブ選択ステップS1−2と、代表ベクトル接続ステップS1−3とからなる。
図20の第1の代表ベクトルサブ選択ステップS1−1において、第1の代表ベクトルサブ選択部1−1は、入力コンテキスト21を用いて、第1の代表ベクトル記憶部11−1から第1の代表ベクトル212を選択し(図21の211参照)、第2の代表ベクトルサブ選択ステップS1−2において、第2の代表ベクトルサブ選択部1−2は、入力コンテキスト21を用いて、第2の代表ベクトル記憶部11−2から第2の代表ベクトル214を選択し(図21の213参照)、代表ベクトル接続ステップS1−3(図21中の215参照)は、上記2つのステップにおいて選択された第1の代表ベクトル212と第2の代表ベクトル214とを接続して(図21中の215参照)、入力コンテキスト21に応じた代表ベクトル216を生成する。
このように短い代表ベクトルを選択し接続して、制御単位若しくはより長い制御単位の代表ベクトルを出力することにより、出力される代表ベクトルの種類が増加するため、より自然な基本周波数パターンを生成可能となり、また、代表ベクトル記憶部の大きさを削減することも可能となる。
なお、第1の代表ベクトルサブ選択ステップS1−1と第2の代表ベクトルサブ選択ステップS1−2とは、いずれを先に実行してもよいし、並行して実行してもよい。
また、上記では、第1の代表ベクトルサブ選択部1−1および第2の代表ベクトルサブ選択部1−2を独立に構成するものとしたが、第1の代表ベクトルサブ選択部1−1と第2の代表ベクトルサブ選択部1−2とを一体化した一つの代表ベクトル選択部として構成してもよい。
また、上記では、代表ベクトル接続部1−3は、代表ベクトル選択部の中に含まれていたが、代表ベクトル選択部とは独立して設けてもよい。
また、代表ベクトル接続部1−3を代表ベクトル伸縮部3の後に配置する構成も可能である。
また、代表ベクトル接続部1−3は、代表ベクトルを接続するのみではなく、接続境界が滑らかに繋がるよう一般的に行われるスムージング処理、補間等の処理を加えるようにしてもよい。
なお、代表ベクトルを、前半音韻対応区間と可変音韻数対応区間と前半音韻対応区間とから構成する場合には、例えば、前半音韻対応区間に対応する複数の代表ベクトル1と、可変音韻数対応区間に対応する複数の代表ベクトル2と、前半音韻対応区間に対応する複数の代表ベクトル3とを用意し、入力コンテキストに、代表ベクトル1用の選択規則と、代表ベクトル2用の選択規則と、代表ベクトル3用の選択規則とをそれぞれ適用して、代表ベクトル1と代表ベクトル2と代表ベクトル3とを一つずつ選択し、それらを接続するようにしてもよい。
なお、以上では、代表ベクトルを複数の区間に分けて、各区間ごとに選択した後の構成として、伸縮比率計算部2及び代表ベクトル伸縮部3について第1の実施形態の構成を採用した場合について説明したが、伸縮比率計算部2及び代表ベクトル伸縮部3について第2の実施形態の構成を採用することも可能である。
以上のように、本実施形態においては、様々な音韻数の基本周波数パターンを生成するために、韻律制御単位の代表ベクトルを、可変音韻数対応区間に対応する第1の代表ベクトルとそれ以外の区間に対応する第2の代表ベクトルとに分けて構成することとし、入力コンテキストに代表ベクトル選択規則を適用することによって、入力コンテキストに応じた二つの代表ベクトルを選択し、選択した二つの代表ベクトルを接続し、そして、第1の実施形態又は第2の実施形態のように、伸縮比率の計算や代表ベクトルの伸縮を行うことによって、基本周波数パターンを生成する。これによって、人の発声した音声により近い自然な合成音の安定した生成が可能となる。
なお、この基本周波数パターン生成装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、代表ベクトル、代表ベクトル選択規則、そして、代表ベクトル記憶部11−1、代表ベクトル記憶部11−2、代表ベクトル選択規則記憶部12−1、代表ベクトル選択規則記憶部12−2、伸縮比率計算部2、代表ベクトル音韻数伸縮部3−1、代表ベクトル継続長伸縮部3−2は、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、基本周波数パターン生成装置は、上記のプログラムをコンピュータ装置にあらかじめインストールすることで実現してもよいし、CD−ROMなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、代表ベクトルおよび代表ベクトル選択規則は、上記のコンピュータ装置に内蔵あるいは外付けされたメモリ、ハードディスクもしくはCD−R、CD−RW、DVD−RAM、DVD−Rなどの記憶媒体などを適宜利用して実現することができる。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
本発明の第1の実施形態に係る基本周波数パターン生成装置の構成例を示すブロック図 同実施形態の代表ベクトル選択部の動作の一例を説明するための図 同実施形態の代表ベクトルの構成の一例を説明するための図 同実施形態の動作例を示すフローチャート 同実施形態の伸縮比率計算部の動作の一例を説明するための図 同実施形態の伸縮比率計算に係るマッピング関数の一例を説明するための図 同実施形態の代表ベクトル伸縮部の動作の一例を説明するための図 同実施形態に係る伸縮比率の第1の例を説明するための図 同実施形態に係る伸縮比率の第2の例を説明するための図 同実施形態に係る伸縮比率の第3の例を説明するための図 同実施形態に係る伸縮比率の第4の例を説明するための図 同実施形態に係る伸縮比率の第5の例を説明するための図 同実施形態に係る伸縮比率の第6の例を説明するための図 同実施形態に係る代表ベクトル変形処理の動作の一例を説明するための図 同実施形態に係る代表ベクトル変形処理の動作の他の例を説明するための図 本発明の第2の実施形態に係る基本周波数パターン生成装置の構成例を示すブロック図 同実施形態の動作例を示すフローチャート 同実施形態の代表ベクトル伸縮部の動作の一例を説明するための図 同実施形態に係る基本周波数パターン生成装置の構成例を示すブロック図 同実施形態の動作例を示すフローチャート 同実施形態の代表ベクトル接続部の動作の一例を説明するための図
符号の説明
1…代表ベクトル選択部、1−1,1−2…代表ベクトルサブ選択部、1−3…代表ベクトル接続部、2…伸縮比率計算部、3…代表ベクトル伸縮部、3−1…代表ベクトル音韻数伸縮部、3−2…代表ベクトル継続長伸縮部、11,11−1,11−2…代表ベクトル記憶部、12,12−1,12−2…代表ベクトル選択規則記憶部

Claims (17)

  1. 韻律制御単位の代表ベクトルであってアクセント核音韻とアクセント核後続隣接音韻とアクセント核後続2音韻目とのうちいずれかを始端とし且つ韻律制御単位終端音韻と韻律制御単位終端先行隣接音韻と韻律制御単位終端先行2音韻目とのうちいずれかを終端とする区間である第1の区間及び該第1の区間以外の区間からなる代表ベクトルを複数記憶する第1の記憶部と、
    入力コンテキストに応じた代表ベクトルを選択するための規則を記憶する第2の記憶部と、
    前記入力コンテキストに前記規則を適用することによって、前記複数の代表ベクトルのうちから当該入力コンテキストに応じた代表ベクトルを選択して選択代表ベクトルを出力する選択部と、
    生成すべき基本周波数パターンに要求される、該基本周波数パターンに含まれる全音韻それぞれの継続時間長に対する指定値のうちで、前記選択代表ベクトルの有する前記第1の区間から生成される該基本周波数パターンの第1の部分に含まれる所定数の音韻それぞれに対応する前記指定値に基づき、所定のマッピング関数に従って、前記選択代表ベクトルの有する前記第1の区間に含まれる複数のサンプル点が、それら複数のサンプル点の時間軸方向での順序関係を維持しつつ、それぞれ、前記第1の部分に含まれる所定の音韻に対する継続時間内における所定の時間的位置にマッピングされる場合における、当該複数のサンプル点それぞれの時間軸方向での伸縮比率を計算する計算部と、
    前記選択代表ベクトルの有する前記第1の区間に含まれる前記複数のサンプル点それぞれについて計算された前記伸縮比率に従って、該複数のサンプル点それぞれを伸縮して、前記基本周波数パターンの前記第1の部分を生成するとともに、前記選択代表ベクトルの有する前記第1の区間以外の区間に含まれる各々の音韻の継続時間長を、それぞれ、当該音韻に対応する前記指定値に等しくなるように伸縮して、前記基本周波数パターンの前記第1の部分以外の部分を生成する伸縮部とを備えたことを特徴とする基本周波数パターン生成装置。
  2. 前記計算部は、前記第1の区間の始端から前記第1の区間の終端にかけて単調増加した後に単調減少する伸縮比率の系列又は前記第1の区間の始端から前記第1の区間の終端にかけて単調減少した後に単調増加する伸縮比率の系列を算出することを特徴とする請求項に記載の基本周波数パターン生成装置。
  3. 韻律制御単位の代表ベクトルであってアクセント核音韻とアクセント核後続隣接音韻とアクセント核後続2音韻目とのうちいずれかを始端とし且つ韻律制御単位終端音韻と韻律制御単位終端先行隣接音韻と韻律制御単位終端先行2音韻目とのうちいずれかを終端とする区間である第1の区間及び該第1の区間以外の区間からなる代表ベクトルを複数記憶する第1の記憶部と、
    入力コンテキストに応じた代表ベクトルを選択するための規則を記憶する第2の記憶部と、
    前記入力コンテキストに前記規則を適用することによって、前記複数の代表ベクトルのうちから当該入力コンテキストに応じた代表ベクトルを選択して選択代表ベクトルを出力する選択部と、
    生成すべき基本周波数パターンに要求される、該基本周波数パターンのうち前記代表ベクトルの前記第1の区間から生成される部分に含まれる音韻の数に対する指定値に基づいて、前記選択代表ベクトルの有する前記第1の区間に含まれる音韻の数が、前記指定値に等しくなるように、該第1の区間に含まれる音韻の数に対する伸縮比率を計算する計算部と、
    前記伸縮比率に従って、前記選択代表ベクトルの有する前記第1の区間に含まれる音韻の数を伸縮し、次いで、生成すべき基本周波数パターンに要求される、該基本周波数パターンに含まれる全音韻それぞれの継続時間長に対する指定値に基づいて、該第1の区間に含まれる音韻の数が伸縮された後の前記選択代表ベクトルの全区間に含まれる各々の音韻の継続時間長を、それぞれ、当該音韻に対応する前記指定値に等しくなるように伸縮して、前記基本周波数パターンを生成する伸縮部とを備えたことを特徴とする基本周波数パターン生成装置。
  4. 前記代表ベクトルの有する前記第1の区間以外の区間は、韻律制御単位始端音韻からアクセント核先行隣接音韻又はアクセント核音韻又はアクセント核後続隣接音韻までの第2の区間であり、
    前記代表ベクトルは、前記第2の区間と、これに続く前記第1の区間とから構成されることを特徴とする請求項1ないし3のいずれか1項に記載の基本周波数パターン生成装置。
  5. 前記代表ベクトルの有する前記第1の区間以外の区間は、韻律制御単位始端音韻からアクセント核先行隣接音韻又はアクセント核音韻又はアクセント核後続隣接音韻までの第2の区間と、前記第1の区間に対する後続隣接音韻から韻律制御単位終端音韻までの第3の区間であり、
    前記代表ベクトルは、前記第2の区間と、これに続く前記第1の区間と、これに続く前記第3の区間とから構成されることを特徴とする請求項1ないし3のいずれか1項に記載の基本周波数パターン生成装置。
  6. 前記韻律制御単位は、文の単位、呼気段落の単位、アクセント句の単位、形態素の単位、単語の単位、モーラの単位、音節の単位、音素の単位、半音素の単位、若しくは1音素を複数に分割した単位、又はこれらを組合せた単位のうち少なくとも1つであることを特徴とする請求項1ないしのいずれか1項に記載の基本周波数パターン生成装置。
  7. 前記コンテキストは、テキストを解析することにより得られる前記韻律制御単位に関する言語情報を含むことを特徴とする請求項1ないしのいずれか1項に記載の基本周波数パターン生成装置。
  8. 前記コンテキストは、任意の属性の値を含むことを特徴とする請求項1ないしのいずれか1項に記載の基本周波数パターン生成装置。
  9. 前記属性は、プロミネンスに関する情報、発話スタイルに関する情報、意図を表す情報、心的態度を表す情報のうち少なくとも1つであることを特徴とする請求項に記載の基本周波数パターン生成装置。
  10. 前記音韻は、モーラ、音節、音素、半音素、1音素を複数に分割した単位のうちの少なくとも1つであることを特徴とする請求項1ないしのいずれか1項に記載の基本周波数パターン生成装置。
  11. 前記代表ベクトルは、自然音声より抽出した基本周波数パターン、該基本周波数パターンを近似した近似基本周波数パターン、自然音声より抽出した基本周波数パターンを量子化した量子化基本周波数パターン、該量子化基本周波数パターンを近似した近似量子化基本周波数パターンのうち少なくとも1つであることを特徴とする請求項1ないし10のいずれか1項に記載の基本周波数パターン生成装置。
  12. 記指定値は、前記入力コンテキストから得られる値であることを特徴とする請求項1ないし11のいずれか1項に記載の基本周波数パターン生成装置。
  13. 記指定値は、前記入力コンテキストとは別の入力情報から得られる値であることを特徴とする請求項1ないし11のいずれか1項に記載の基本周波数パターン生成装置。
  14. 韻律制御単位の代表ベクトルであってアクセント核音韻とアクセント核後続隣接音韻とアクセント核後続2音韻目とのうちいずれかを始端とし且つ韻律制御単位終端音韻と韻律制御単位終端先行隣接音韻と韻律制御単位終端先行2音韻目とのうちいずれかを終端とする区間である第1の区間及び該第1の区間以外の区間からなる代表ベクトルを複数記憶する第1の記憶部と、入力コンテキストに応じた代表ベクトルを選択するための規則を記憶する第2の記憶部と、選択部と、計算部と、伸縮部とを備えた基本周波数パターン生成装置の基本周波数パターン生成方法であって、
    前記選択部が、前記入力コンテキストに前記規則を適用することによって、前記複数の代表ベクトルのうちから当該入力コンテキストに応じた代表ベクトルを選択して選択代表ベクトルを出力するステップと、
    前記計算部が、生成すべき基本周波数パターンに要求される、該基本周波数パターンに含まれる全音韻それぞれの継続時間長に対する指定値のうちで、前記選択代表ベクトルの有する前記第1の区間から生成される該基本周波数パターンの第1の部分に含まれる所定数の音韻それぞれに対応する前記指定値に基づき、所定のマッピング関数に従って、前記選択代表ベクトルの有する前記第1の区間に含まれる複数のサンプル点が、それら複数のサンプル点の時間軸方向での順序関係を維持しつつ、それぞれ、前記第1の部分に含まれる所定の音韻に対する継続時間内における所定の時間的位置にマッピングされる場合における、当該複数のサンプル点それぞれの時間軸方向での伸縮比率を計算するステップと、
    前記伸縮部が、前記選択代表ベクトルの有する前記第1の区間に含まれる前記複数のサンプル点それぞれについて計算された前記伸縮比率に従って、該複数のサンプル点それぞれを伸縮して、前記基本周波数パターンの前記第1の部分を生成するとともに、前記選択代表ベクトルの有する前記第1の区間以外の区間に含まれる各々の音韻の継続時間長を、それぞれ、当該音韻に対応する前記指定値に等しくなるように伸縮して、前記基本周波数パターンの前記第1の部分以外の部分を生成するステップとを有することを特徴とする基本周波数パターン生成方法。
  15. 韻律制御単位の代表ベクトルであってアクセント核音韻とアクセント核後続隣接音韻とアクセント核後続2音韻目とのうちいずれかを始端とし且つ韻律制御単位終端音韻と韻律制御単位終端先行隣接音韻と韻律制御単位終端先行2音韻目とのうちいずれかを終端とする区間である第1の区間及び該第1の区間以外の区間からなる代表ベクトルを複数記憶する第1の記憶部と、入力コンテキストに応じた代表ベクトルを選択するための規則を記憶する第2の記憶部と、選択部と、計算部と、伸縮部とを備えた基本周波数パターン生成装置の基本周波数パターン生成方法であって、
    前記選択部が、前記入力コンテキストに前記規則を適用することによって、前記複数の代表ベクトルのうちから当該入力コンテキストに応じた代表ベクトルを選択して選択代表ベクトルを出力するステップと、
    前記計算部が、生成すべき基本周波数パターンに要求される、該基本周波数パターンのうち前記代表ベクトルの前記第1の区間から生成される部分に含まれる音韻の数に対する指定値に基づいて、前記選択代表ベクトルの有する前記第1の区間に含まれる音韻の数が、前記指定値に等しくなるように、該第1の区間に含まれる音韻の数に対する伸縮比率を計算するステップと、
    前記伸縮部が、前記伸縮比率に従って、前記選択代表ベクトルの有する前記第1の区間に含まれる音韻の数を伸縮し、次いで、生成すべき基本周波数パターンに要求される、該基本周波数パターンに含まれる全音韻それぞれの継続時間長に対する指定値に基づいて、該第1の区間に含まれる音韻の数が伸縮された後の前記選択代表ベクトルの全区間に含まれる各々の音韻の継続時間長を、それぞれ、当該音韻に対応する前記指定値に等しくなるように伸縮して、前記基本周波数パターンを生成するステップとを有することを特徴とする基本周波数パターン生成方法。
  16. 基本周波数パターン生成装置としてコンピュータを機能させるためのプログラムにおいて、
    韻律制御単位の代表ベクトルであってアクセント核音韻とアクセント核後続隣接音韻とアクセント核後続2音韻目とのうちいずれかを始端とし且つ韻律制御単位終端音韻と韻律制御単位終端先行隣接音韻と韻律制御単位終端先行2音韻目とのうちいずれかを終端とする区間である第1の区間及び該第1の区間以外の区間からなる代表ベクトルを複数記憶する第1の記憶部と、
    入力コンテキストに応じた代表ベクトルを選択するための規則を記憶する第2の記憶部と、
    前記入力コンテキストに前記規則を適用することによって、前記複数の代表ベクトルのうちから当該入力コンテキストに応じた代表ベクトルを選択して選択代表ベクトルを出力する選択部と、
    生成すべき基本周波数パターンに要求される、該基本周波数パターンに含まれる全音韻それぞれの継続時間長に対する指定値のうちで、前記選択代表ベクトルの有する前記第1の区間から生成される該基本周波数パターンの第1の部分に含まれる所定数の音韻それぞれに対応する前記指定値に基づき、所定のマッピング関数に従って、前記選択代表ベクトルの有する前記第1の区間に含まれる複数のサンプル点が、それら複数のサンプル点の時間軸方向での順序関係を維持しつつ、それぞれ、前記第1の部分に含まれる所定の音韻に対する継続時間内における所定の時間的位置にマッピングされる場合における、当該複数のサンプル点それぞれの時間軸方向での伸縮比率を計算する計算部と、
    前記選択代表ベクトルの有する前記第1の区間に含まれる前記複数のサンプル点それぞれについて計算された前記伸縮比率に従って、該複数のサンプル点それぞれを伸縮して、前記基本周波数パターンの前記第1の部分を生成するとともに、前記選択代表ベクトルの有する前記第1の区間以外の区間に含まれる各々の音韻の継続時間長を、それぞれ、当該音韻に対応する前記指定値に等しくなるように伸縮して、前記基本周波数パターンの前記第1の部分以外の部分を生成する伸縮部とをコンピュータに機能させるプログラム。
  17. 基本周波数パターン生成装置としてコンピュータを機能させるためのプログラムにおいて、
    韻律制御単位の代表ベクトルであってアクセント核音韻とアクセント核後続隣接音韻とアクセント核後続2音韻目とのうちいずれかを始端とし且つ韻律制御単位終端音韻と韻律制御単位終端先行隣接音韻と韻律制御単位終端先行2音韻目とのうちいずれかを終端とする区間である第1の区間及び該第1の区間以外の区間からなる代表ベクトルを複数記憶する第1の記憶部と、
    入力コンテキストに応じた代表ベクトルを選択するための規則を記憶する第2の記憶部と、
    前記入力コンテキストに前記規則を適用することによって、前記複数の代表ベクトルのうちから当該入力コンテキストに応じた代表ベクトルを選択して選択代表ベクトルを出力する選択部と、
    生成すべき基本周波数パターンに要求される、該基本周波数パターンのうち前記代表ベクトルの前記第1の区間から生成される部分に含まれる音韻の数に対する指定値に基づいて、前記選択代表ベクトルの有する前記第1の区間に含まれる音韻の数が、前記指定値に等しくなるように、該第1の区間に含まれる音韻の数に対する伸縮比率を計算する計算部と、
    前記伸縮比率に従って、前記選択代表ベクトルの有する前記第1の区間に含まれる音韻の数を伸縮し、次いで、生成すべき基本周波数パターンに要求される、該基本周波数パターンに含まれる全音韻それぞれの継続時間長に対する指定値に基づいて、該第1の区間に含まれる音韻の数が伸縮された後の前記選択代表ベクトルの全区間に含まれる各々の音韻の継続時間長を、それぞれ、当該音韻に対応する前記指定値に等しくなるように伸縮して、前記基本周波数パターンを生成する伸縮部とをコンピュータに機能させるプログラム。
JP2007234246A 2007-09-10 2007-09-10 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム Expired - Fee Related JP4455633B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007234246A JP4455633B2 (ja) 2007-09-10 2007-09-10 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
US12/205,626 US8478595B2 (en) 2007-09-10 2008-09-05 Fundamental frequency pattern generation apparatus and fundamental frequency pattern generation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007234246A JP4455633B2 (ja) 2007-09-10 2007-09-10 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2009069179A JP2009069179A (ja) 2009-04-02
JP4455633B2 true JP4455633B2 (ja) 2010-04-21

Family

ID=40432833

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007234246A Expired - Fee Related JP4455633B2 (ja) 2007-09-10 2007-09-10 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム

Country Status (2)

Country Link
US (1) US8478595B2 (ja)
JP (1) JP4455633B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011080597A1 (en) * 2010-01-04 2011-07-07 Kabushiki Kaisha Toshiba Method and apparatus for synthesizing a speech with information
US9798653B1 (en) * 2010-05-05 2017-10-24 Nuance Communications, Inc. Methods, apparatus and data structure for cross-language speech adaptation
KR101246287B1 (ko) * 2011-03-28 2013-03-21 (주)클루소프트 음가의 강세를 이용한 발음기관 애니메이션 생성 장치 및 방법
WO2014017024A1 (ja) * 2012-07-27 2014-01-30 日本電気株式会社 音声合成装置、音声合成方法、及び音声合成プログラム
JP6314828B2 (ja) * 2012-10-16 2018-04-25 日本電気株式会社 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5919358B2 (ja) * 1978-12-11 1984-05-04 株式会社日立製作所 音声内容伝送方式
JP2834260B2 (ja) * 1990-03-07 1998-12-09 三菱電機株式会社 音声のスペクトル包絡パラメータ符号化装置
SE516521C2 (sv) * 1993-11-25 2002-01-22 Telia Ab Anordning och förfarande vid talsyntes
JPH086591A (ja) * 1994-06-15 1996-01-12 Sony Corp 音声出力装置
JP3563772B2 (ja) * 1994-06-16 2004-09-08 キヤノン株式会社 音声合成方法及び装置並びに音声合成制御方法及び装置
US5625749A (en) * 1994-08-22 1997-04-29 Massachusetts Institute Of Technology Segment-based apparatus and method for speech recognition by analyzing multiple speech unit frames and modeling both temporal and spatial correlation
JPH09127995A (ja) * 1995-10-26 1997-05-16 Sony Corp 信号復号化方法及び信号復号化装置
US5845238A (en) * 1996-06-18 1998-12-01 Apple Computer, Inc. System and method for using a correspondence table to compress a pronunciation guide
US6029131A (en) * 1996-06-28 2000-02-22 Digital Equipment Corporation Post processing timing of rhythm in synthetic speech
JP3667950B2 (ja) * 1997-09-16 2005-07-06 株式会社東芝 ピッチパターン生成方法
JP3771565B2 (ja) 1997-11-28 2006-04-26 松下電器産業株式会社 基本周波数パタン生成装置、基本周波数パタン生成方法、及びプログラム記録媒体
JP3576840B2 (ja) * 1997-11-28 2004-10-13 松下電器産業株式会社 基本周波数パタン生成方法、基本周波数パタン生成装置及びプログラム記録媒体
US6064960A (en) * 1997-12-18 2000-05-16 Apple Computer, Inc. Method and apparatus for improved duration modeling of phonemes
JP2000056789A (ja) * 1998-06-02 2000-02-25 Sanyo Electric Co Ltd 音声合成装置及び電話機
US6101470A (en) * 1998-05-26 2000-08-08 International Business Machines Corporation Methods for generating pitch and duration contours in a text to speech system
EP1100072A4 (en) * 1999-03-25 2005-08-03 Matsushita Electric Ind Co Ltd LANGUAGE SYNTHETIZATION SYSTEM AND METHOD
US7761296B1 (en) * 1999-04-02 2010-07-20 International Business Machines Corporation System and method for rescoring N-best hypotheses of an automatic speech recognition system
EP1045372A3 (en) * 1999-04-16 2001-08-29 Matsushita Electric Industrial Co., Ltd. Speech sound communication system
JP3450237B2 (ja) * 1999-10-06 2003-09-22 株式会社アルカディア 音声合成装置および方法
CA2387079C (en) * 1999-10-19 2011-10-18 Sony Electronics Inc. Natural language interface control system
US6836761B1 (en) * 1999-10-21 2004-12-28 Yamaha Corporation Voice converter for assimilation by frame synthesis with temporal alignment
JP3515039B2 (ja) * 2000-03-03 2004-04-05 沖電気工業株式会社 テキスト音声変換装置におけるピッチパタン制御方法
JP4054507B2 (ja) * 2000-03-31 2008-02-27 キヤノン株式会社 音声情報処理方法および装置および記憶媒体
JP2001296883A (ja) * 2000-04-14 2001-10-26 Sakai Yasue 音声認識方法および装置、音声合成方法および装置、記録媒体
US6856958B2 (en) * 2000-09-05 2005-02-15 Lucent Technologies Inc. Methods and apparatus for text to speech processing using language independent prosody markup
JP3673471B2 (ja) * 2000-12-28 2005-07-20 シャープ株式会社 テキスト音声合成装置およびプログラム記録媒体
JP2002258894A (ja) * 2001-03-02 2002-09-11 Fujitsu Ltd 音声データ圧縮・解凍装置及び方法
WO2002073595A1 (fr) * 2001-03-08 2002-09-19 Matsushita Electric Industrial Co., Ltd. Dispositif generateur de prosodie, procede de generation de prosodie, et programme
JP3838039B2 (ja) * 2001-03-09 2006-10-25 ヤマハ株式会社 音声合成装置
US6829581B2 (en) * 2001-07-31 2004-12-07 Matsushita Electric Industrial Co., Ltd. Method for prosody generation by unit selection from an imitation speech database
WO2003019528A1 (fr) * 2001-08-22 2003-03-06 International Business Machines Corporation Procede de production d'intonation, dispositif de synthese de signaux vocaux fonctionnant selon ledit procede et serveur vocal
DE60234195D1 (de) * 2001-08-31 2009-12-10 Kenwood Corp Vorrichtung und verfahren zum erzeugen eines tonhöhen-kurvenformsignals und vorrichtung und verfahren zum komprimieren, dekomprimieren und synthetisieren eines sprachsignals damit
JP4214842B2 (ja) * 2003-06-13 2009-01-28 ソニー株式会社 音声合成装置及び音声合成方法
ATE404967T1 (de) * 2003-12-16 2008-08-15 Loquendo Spa Text-zu-sprache-system und verfahren, computerprogramm dafür
DE10361850A1 (de) * 2003-12-31 2005-07-28 Kress, Markus Verfahren zur Identifizierung von Personen
US20060074678A1 (en) * 2004-09-29 2006-04-06 Matsushita Electric Industrial Co., Ltd. Prosody generation for text-to-speech synthesis based on micro-prosodic data
CN1842702B (zh) * 2004-10-13 2010-05-05 松下电器产业株式会社 声音合成装置和声音合成方法
JP2006309162A (ja) * 2005-03-29 2006-11-09 Toshiba Corp ピッチパターン生成方法、ピッチパターン生成装置及びプログラム
CN101223571B (zh) * 2005-07-20 2011-05-18 松下电器产业株式会社 音质变化部位确定装置及音质变化部位确定方法
US20090254349A1 (en) * 2006-06-05 2009-10-08 Yoshifumi Hirose Speech synthesizer
JP2009047957A (ja) * 2007-08-21 2009-03-05 Toshiba Corp ピッチパターン生成方法及びその装置
JP5159325B2 (ja) * 2008-01-09 2013-03-06 株式会社東芝 音声処理装置及びそのプログラム
JP4945465B2 (ja) * 2008-01-23 2012-06-06 株式会社東芝 音声情報処理装置及びその方法
US8244546B2 (en) * 2008-05-28 2012-08-14 National Institute Of Advanced Industrial Science And Technology Singing synthesis parameter data estimation system
JP5728913B2 (ja) * 2010-12-02 2015-06-03 ヤマハ株式会社 音声合成情報編集装置およびプログラム

Also Published As

Publication number Publication date
US20090070116A1 (en) 2009-03-12
US8478595B2 (en) 2013-07-02
JP2009069179A (ja) 2009-04-02

Similar Documents

Publication Publication Date Title
US11735162B2 (en) Text-to-speech (TTS) processing
JP4738057B2 (ja) ピッチパターン生成方法及びその装置
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
US10692484B1 (en) Text-to-speech (TTS) processing
US11763797B2 (en) Text-to-speech (TTS) processing
JP6266372B2 (ja) 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
WO2005109399A1 (ja) 音声合成装置および方法
JPH1195783A (ja) 音声情報処理方法
JP4455633B2 (ja) 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
JP2006309162A (ja) ピッチパターン生成方法、ピッチパターン生成装置及びプログラム
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JP4403996B2 (ja) 韻律パターン生成装置および韻律パターン生成方法ならびに韻律パターン生成プログラム
JP4945465B2 (ja) 音声情報処理装置及びその方法
Shen et al. Automatic selection of phonetically distributed sentence sets for speaker adaptation with application to large vocabulary Mandarin speech recognition
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP5328703B2 (ja) 韻律パターン生成装置
JP5393546B2 (ja) 韻律作成装置及び韻律作成方法
JP4417892B2 (ja) 音声情報処理装置、音声情報処理方法および音声情報処理プログラム
JP2002333897A (ja) 韻律生成装置および韻律生成方法並びにプログラム
JP6137708B2 (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
Huang et al. Hierarchical prosodic pattern selection based on Fujisaki model for natural mandarin speech synthesis
JPH1097268A (ja) 音声合成装置
JPH11265194A (ja) 音声情報処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090327

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090818

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091019

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100105

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100203

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130212

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130212

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140212

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees