JP2009047957A - ピッチパターン生成方法及びその装置 - Google Patents

ピッチパターン生成方法及びその装置 Download PDF

Info

Publication number
JP2009047957A
JP2009047957A JP2007214407A JP2007214407A JP2009047957A JP 2009047957 A JP2009047957 A JP 2009047957A JP 2007214407 A JP2007214407 A JP 2007214407A JP 2007214407 A JP2007214407 A JP 2007214407A JP 2009047957 A JP2009047957 A JP 2009047957A
Authority
JP
Japan
Prior art keywords
pitch pattern
pitch
emphasis
smoothing
control unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007214407A
Other languages
English (en)
Inventor
Takeshi Hirabayashi
剛 平林
Takehiko Kagoshima
岳彦 籠嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2007214407A priority Critical patent/JP2009047957A/ja
Priority to US12/035,965 priority patent/US20090055188A1/en
Publication of JP2009047957A publication Critical patent/JP2009047957A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Abstract

【課題】自然な強調度合いの変化をもつピッチパターンの生成を可能とするピッチパターン生成装置を提供する。
【解決手段】韻律制御単位パターン生成部16は、言語属性情報100、音韻継続時間長111及び強調度合い情報200に基づいて韻律制御単位毎のピッチパターン103を生成し、変形方法決定部14は、少なくとも強調度合い情報200に基づいて、当該韻律制御単位の前後少なくとも一方の前記韻律制御単位との接続部分における、ピッチパターン103に対する平滑化処理による変形方法を決定して変形方法情報104を生成し、パターン接続部13は、韻律制御単位毎に生成されたピッチパターン103を、変形方法情報104に応じた平滑化処理によって変形して接続することにより、音声合成対象となるテキストに対応した文ピッチパターン121を生成する。
【選択図】 図1

Description

本発明は、例えば、テキスト音声合成において、この合成音声の自然性に大きく影響するピッチパターン生成方法及びその装置に関するものである。
近年、任意の文章から人工的に音声信号を生成するテキスト音声合成装置が開発されている。一般的に、このテキスト音声合成装置は、言語処理部、韻律生成部、音声信号生成部の3つのモジュールから構成される。
この中で、韻律生成部の性能が合成音声の自然性に関係しており、とりわけ声の高さ(ピッチ)の変化パターンであるピッチパターンの自然性が、生成される合成音声の品質を大きく左右する。
従来のテキスト音声合成装置におけるピッチパターン生成方法は、比較的単純なモデルを用いてピッチパターンの生成を行っていたため、抑揚が不自然で単調な合成音声となっていた。
ところで、人間の発声する音声が自然な理由の1つに、発話の中で局所的な強弱の変化がついていることが挙げられる。
そこで、入力テキストの一部を強調したような合成音声を生成するために、強調情報に基づいてピッチパターンを変化させる方法が提案されている(例えば、特許文献1参照)。これは、強調の有無や種類に基づいて、ピッチパターンを制御するアクセント指令などの制御パラメータを変更することで、局所的な変化を持つピッチパターンを生成するものである。
また、強調部分の強調度合いを指定する方法についても提案されている(例えば、特許文献2参照)。これは、指定入力された強調レベルに応じて、例えばピッチパターンを変形させるために乗じる値などの物理制御パラメータを変化させるものである。
一方、適当な単位で切り出されたピッチパターンであるユニットパターンを接続して、一連のフレーズのピッチパターンを生成する際に、ユニットパターン間を補間して接続する方法が提案されている(例えば、特許文献3参照)。これは、使用されたユニットパターンの種類に応じて、ユニットパターン間を直線、あるいは3次曲線で補間して接続するものである。
これらいずれの従来例でも、自然音声に近い合成音声を得ることを目的に、ピッチパターンを変形させている。
特開平3−78800号公報 特開平5−224689号公報 特開平6−236197号公報
しかしながら、一文よりも短い単位である韻律制御単位のピッチパターンを生成し、それらを接続して入力テキストに対応した一文全体の自然な強弱の変化をもったピッチパターンを生成するピッチパターン生成方法において、上記従来例では下記の問題点がある。
第1の問題点を、当該韻律制御単位に対する強調度合いの指定が大きく、ピッチパターンを大きく変形させる場合について考える。この場合に、従来例では、強調されたピッチパターンとその前後のピッチパターンとの接続部分におけるつながりが滑らかでなくなり、生成される合成音声の自然性が劣化するという問題点が生じる。
例えば、入力テキストが「自然な合成音を生成できます。」であるとする。そして、図2のように韻律制御単位(ここではアクセント句単位)で生成されたピッチパターンに対して、図3のように接続境界部(網掛けの部分)において、パターンの不連続を低減するための平滑化処理による変形を行うことによって、入力テキストに対するピッチパターンが生成される。
ここで、2番目のアクセント句である「自然な」の強調度合いを変化させた合成音声を生成することを考える。
「強調なし」の場合には、平滑化処理によって、図4(a)のように後続アクセント句と滑らかに接続している。
しかし、「自然な」に対する強調度合いを大きくした場合には、強調によって変形されたアクセント句ピッチパターン、または、異なったアクセント句ピッチパターンに対して、「強調なし」の場合と同じ平滑化処理を適用すると、図4(b)のように接続部分で急激なピッチの変化が生じてしまい、結果として生成される合成音声が不自然になる場合がある。
第2の問題点としては、当該韻律制御単位に対する強調度合いがあまり大きくない場合に、前後のアクセント句との接続部分におけるピッチパターンの平滑化処理が強すぎて、ピッチの変化が滑らかになりすぎ、当該韻律制御単位に対する強調の効果が聞き取りにくくなる場合が生じることである。
そこで、本発明は、上記問題に鑑み、強調されたピッチパターンとその前後のピッチパターンとの接続部分におけるつながりが滑らかに行え、かつ、目的のピッチパターンも強調できるピッチパターン生成方法及びその装置を提供することを目的とする。
本発明は、音声合成対象となるテキストの韻律制御単位毎のピッチパターンを接続して、該テキストに対応するピッチパターンを生成するピッチパターン生成方法であって、合成される音声における前記韻律制御単位毎の強調度合いを表す強調度合い情報と、言語属性情報とに基づいて、前記強調度合いを反映した第1のピッチパターンを、前記テキストの韻律制御単位毎にそれぞれ生成する第1の生成ステップと、前記第1のピッチパターンのそれぞれについて、他の第1のピッチパターンとの少なくとも前後一方の接続部分において、該接続部分を平滑化するための、少なくとも(1)所定の平滑化処理にかかるパラメータ、または(2)所定の平滑化処理にかかる前記接続部分の変形方法、を前記強調度合い情報に基づいて決定する方法決定ステップと、前記第1のピッチパターンの前記接続部分を前記変形方法に基づいて変形し、前記テキストに対応する第2のピッチパターンを生成する第2の生成ステップと、を有するピッチパターン生成方法である。
本発明によれば、韻律制御単位毎のピッチパターンについて、強調度合いに応じて接続部分における平滑化処理による変形方法を決定し、その変形方法に基づいて韻律制御単位毎のピッチパターンを変形して接続することによって音声合成対象となるテキストに対応したピッチパターンを生成するため、特にピッチパターンの接続部分においても自然な強調度合いの変化をもつピッチパターンを生成することができ、その結果、人間の発声した音声により近い自然な強弱の変化のついた合成音声を生成することが可能となる。
以下、図面を参照して本発明の一実施形態のピッチパターン生成装置1を説明する。
(1)ピッチパターン生成装置1の構成
図1は、本実施形態に係るピッチパターン生成装置1の構成例を示したものである。
ピッチパターン生成装置1は、韻律制御単位パターン生成部16、変形方法決定部14、パターン接続部13から構成される。以下では、韻律制御単位はアクセント句であるとする場合を例にとって説明する。
本実施形態におけるピッチパターン生成装置1の特徴は、変形方法決定部14において決定された変形方法に従って、パターン接続部13においてピッチパターンに対する平滑化処理などの変形を行う点である。
上記各部13、14、16の機能は、ソフトウェアとして記述し、適当な機構をもったコンピュータ装置に処理させても実現可能である。
また、コンピュータに実行させることのできるプログラムとして、磁気ディスク、光ディスク、半導体メモリなどの記録媒体に格納して、もしくはネットワークを介して頒布することも可能である。
(1−1)韻律制御単位パターン生成部16
韻律制御単位パターン生成部16は、言語属性情報100、音韻継続時間長111及び強調度合い情報200に基づいて、アクセント句単位のピッチパターン103を生成する。
この韻律制御単位パターン生成部16としては、例えば、図6に示すように、パターン形状選択部10、パターン形状生成部11,オフセット制御部12、ピッチパターン記憶部15から構成される。
「言語属性情報100」は、形態素解析や構文解析などの言語解析処理を行うことによって入力テキストから抽出可能な情報である。例えば、音韻記号列、音韻種別、品詞、アクセント型、モーラ数、係り先、ポーズ、文中位置などの情報である。
「強調度合い情報200」は、「強調0(強調の指定なし)、強調1(弱めの強調)、強調2(中程度の強調)、強調3(強めの強調)」という4段階の出力音声の強調レベルを表す情報である場合を例にとって以下を説明する。なお、生成されるアクセント句単位のピッチパターン103は、この強調度合いを反映したパターンになっているものとする。
(1−2)変形方法決定部14
変形方法決定部14は、言語属性情報100、音韻継続時間長111及び強調度合い情報200に基づいて、前後少なくとも一方のアクセント句との接続部分におけるアクセント句単位のピッチパターン103に対する平滑化処理による変形方法を決定し、変形方法情報104を出力する。なお、このアクセント句単位のピッチパターン103は、上記の韻律制御単位パターン生成部16で生成されたものである。
(1−3)パターン接続部13
パターン接続部13は、アクセント句毎に生成されたピッチパターン103を接続すると共に、変形方法情報104に従って、接続境界部分で不自然な不連続が生じないように平滑化などの処理を行って、文ピッチパターン121を出力する。
(2)ピッチパターン生成装置1における処理
次に、図5に基づいてピッチパターン生成装置1の各処理について説明する。図5は、ピッチパターン生成装置1における処理の流れを示すフローチャートである。
(2−1)ステップS1
まず、ステップS1において、韻律制御単位パターン生成部16は、言語属性情報100、音韻継続時間長111及び強調度合い情報200に基づいて、アクセント句単位のピッチパターン103を生成する。
(2−1−1)ピッチパターン103の生成方法
図6に基づいて、強調度合いに応じた抑揚の変化をもつアクセント句単位のピッチパターン103の生成方法を説明する。
例えば、図6のような構成の場合、言語属性情報100および強調度合い情報200に基づいてピッチパターン記憶部15からピッチパターンを選択し、選択したパターンを音韻継続時間長111に合わせて時間軸方向の伸縮することによってパターン形状を生成し、さらに、言語属性情報100および強調度合い情報200に基づいてパターン全体の高さであるオフセットを制御することによって、アクセント句単位の強調度合いを反映したピッチパターンを生成することができる。
図7(a)に、強調度合い情報200に応じて、アクセント句単位のピッチパターンのオフセットを変化させることによって生成された、強調度合いを反映したピッチパターン103の例を示す。
この方法や構成に限らず、言語属性情報100や強調度合い情報200などに基づいて、関数近似モデルの制御パラメータを推定する方法、原音ピッチパターンから所望のパターンを選択するコーパスベースの生成方法、点ピッチモデルなどの既存のピッチパターン生成方法がある。図7(b)には、強調度合い情報200に応じて、ピッチパターンコーパスから所望のアクセント句単位のピッチパターンを選択することによって生成された、強調度合いを反映したピッチパターン103の例を示す。
(2−1−2)生成されたピッチパターン103
図2に、入力テキストに対して生成されたアクセント句単位のピッチパターン103の例を示す。この例のように、アクセント句単位のピッチパターン103は、前後のアクセント句との境界部分のピッチは一致していない場合が多い。
以上のように、入力テキストに対応する複数のアクセント句のそれぞれについて、当該アクセント句に対して指定された強調度合いを反映したピッチパターン103を生成し、次に図5のステップS2へ進む。
(2−2)ステップS2
ステップS2において、変形方法決定部14は、言語属性情報100、音韻継続時間長111及び強調度合い情報200に基づいて、前後少なくとも一方のアクセント句との接続部分における前記アクセント句単位のピッチパターン103に対する平滑化処理による変形方法を決定し、変形方法情報104を出力する。
「変形方法情報104」は、平滑化処理の対象区間の情報である場合を例にとって以下を説明する。すなわち、前後のアクセント句との接続部分におけるピッチ変化の不自然な不連続を低減するために、変形方法情報104は、パターン接続部13においてアクセント句単位のピッチパターン103に対して適用される平滑化処理の対象区間の情報である。
以下では、強調度合い情報200と言語属性情報100に含まれるアクセント型の情報とに基づいて、当該アクセント句と後続アクセント句との接続部分における平滑化処理区間の決定方法の一例を説明する。
(2−2−1)強調0、強調1
強調度合い情報200が「強調0(強調なし)」もしくは「強調1(弱めの強調)」の場合を説明する。このときは、当該アクセント句と後続アクセント句との接続部分における平滑化処理区間は、平板型と平板型以外に分けて考える。
当該アクセント句のアクセント型が平板型の場合は、後続アクセント句の先頭モーラのみを平滑化処理区間とする。
当該アクセント句のアクセント型が平板型以外の場合は、当該アクセント句の最終モーラと後続アクセント句の先頭モーラとを平滑化処理区間とする。
(2−2−2)強調2
強調度合いが「強調2(中程度の強調)」の場合を説明する。
当該アクセント句のアクセント型が平板型の場合は、後続アクセント句の先頭モーラから第2モーラの半分までを平滑化処理区間とする。
また、当該アクセント句のアクセント型が平板型以外の場合は、当該アクセント句の最終モーラの1つ前のモーラの後半半分から、後続アクセント句の第2モーラの半分までを平滑化処理区間とする。
(2−2−3)強調3
強調度合いが「強調3(強めの強調)」の場合を説明する。
当該アクセント句のアクセント型が平板型の場合は、後続アクセント句の先頭モーラから第2モーラまでを平滑化処理区間とする。
また、当該アクセント句のアクセント型が平板型以外の場合は、当該アクセント句の最終モーラの1つ前のモーラから、後続アクセント句の第2モーラまでを平滑化処理区間とする。
(2−2−4)具体例
図8に示すように、例えば、当該アクセント句が「自然な」という平板型のアクセント句とする。後続アクセント句が「合成音を」というアクセント句とする。
強調度合い情報200が「強調0(強調なし)」の場合は、図8(a)のように後続アクセント句の先頭モーラのみが平滑化処理区間となる。「強調3(強めの強調)」の場合は、図8(b)のように後続アクセント句の第2モーラまでが平滑化処理区間となる。
このように、少なくとも韻律制御単位毎の強調度合いに関する情報に基づいて、接続部分におけるピッチパターンの変形方法(この例では平滑化処理区間)を制御する。
以上のように、入力テキストに対応する複数のアクセント句のそれぞれについて、アクセント句単位のピッチパターン103に対する変形方法情報104を生成し、次に図5のステップS3へ進む。
(2−2−5)変更例
なお、上記では、平滑化処理区間をモーラ単位で制御しているが、これに限定されるものではない。
例えば、音素単位や秒単位など処理区間の長さを表現できる単位であればよく、区間の決定方法も少なくとも強調度合い情報200に応じて区間の長さや範囲(始点、終点)を変化させるものであればよい。
(2−3)ステップS3
ステップS3において、パターン接続部13は、アクセント句毎に生成されたピッチパターン103を、変形方法情報104に従って、接続境界部分で不連続が生じないような平滑化などの処理を行って変形すると共に、それらを接続することによって、文ピッチパターン121を出力する。
ある一種類の平滑化方法(平滑化関数)が定義されているとする。そして、平滑化関数に基づいて、変形方法情報104の平滑化処理区間について、アクセント句単位のピッチパターン103を変形する場合について説明する。すなわち、当該アクセント句と後続アクセント句との境界部分における平滑化処理手順を説明する。
(2−3−1)第1手順
まず、当該アクセント句と後続アクセント句の接続点のピッチは、当該アクセント句のアクセント型が平板型の場合は、当該アクセント句の終点の値とする。
当該アクセント句のアクセント型が平板型以外の場合は、前記ピッチは、当該アクセント句の終点のピッチと後続アクセント句の始点のピッチの平均値とする。
(2−3−2)第2手順
変形方法情報104として指定された平滑化処理区間に対して、2次関数による平滑化処理を行ってそれぞれのピッチパターンを変形する。このときに、当該アクセント句のピッチパターンの末尾部分と後続アクセント句のピッチパターンの先頭部分とが、この接続点のピッチへ滑らかに変化するようにする。
(2−3−3)具体例
例えば、当該アクセント句が「自然な」という平板型のアクセント句の場合は、接続点のピッチの値pc(ここでは対数基本周波数とする)は当該アクセント句の終点となり、後続アクセント句のピッチパターンの時刻tの対数基本周波数p(t)を以下のように修正する。
Figure 2009047957
ここで、lは平滑化処理区間長である。
すなわち、図9に示すように、上記の平滑化関数によって、図9(a)や図9(b)のように変形方法決定部14で決定された変形方法情報である平滑化処理区間に従って平滑化処理が適用され、強調度合いに応じてピッチパターンが適切に変形されるため、接続部分においても自然なピッチ変化をもったピッチパターンが生成される。
以上のように、アクセント句単位のピッチパターン103について、変形方法情報104に基づいた変形を行って接続することによって、入力テキストに対応する一文全体のピッチパターン121を生成する。
(3)効果
以上説明したように、本実施形態によれば、下記の効果がある。
変形方法決定部14で少なくとも強調度合い情報200に基づいて、接続部分における韻律制御単位毎のピッチパターンの変形方法を決定して変形方法情報104を出力する。さらに、パターン接続部13において、強調度合いに応じて韻律制御単位のピッチパターン103を自然で滑らかに接続するために、変形方法情報104に基づいて変形を行うことができる。
(4)従来例との比較
韻律制御単位のピッチパターン103を接続するときにおいて、図10(b)の本実施形態と、図10(a)のように従来例の強調度合いに基づいた変形が行われない場合(ここでは平滑化処理区間が固定の場合)と比較する。
図10(b)のように、接続部分において強調度合いに応じた平滑化処理によるピッチパターンの変形が可能である。そのため、当該韻律制御単位に対する強調度合いが大きく、韻律制御単位のピッチパターン103が大きく変化している場合でも、接続部における不自然なピッチ変化を低減することができる。
また、強調度合いが小さい場合においても、接続部分の平滑化処理による変形方法を制御できるため、過度な平滑化によって強調箇所が不明瞭になったり、単調になりすぎたりすることを防ぐことができる。
結果として、抑揚に適切な強弱を付与することが可能となり、生成される合成音声の了解性や自然性を向上させることができる。
(6)変更例
本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。
また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
以下、順番にその変更例を説明する。
(6−1)変更例1
上記実施形態では、変形方法決定部14は、変形方法情報104として、パターン接続部13で適用する平滑化処理の対象区間である平滑化処理区間を決定するものとしたが、これに限定されるものではない。
すなわち、パターン接続部13において、韻律制御単位のピッチパターン103を自然に接続するための変形方法を表現できる情報を決定するものであればよい。
例えば、パターン接続部13に1つ以上の平滑化方法(平滑化関数)を用意しておき、少なくとも強調度合い情報200に基づいて、当該韻律制御単位のピッチパターン103に適用する平滑化方法と、その平滑化方法を適用する平滑化処理区間とを決定するものでもよい。
具体的には、パターン接続部13において、平滑化方法として上述した2次関数によるものに加えて、平滑化処理区間の前半でより大きくパターンを変形させる平滑化関数と、平滑化処理区間の後半でより大きくパターンを変形させる平滑化関数とを用意する。そして、変形方法決定部14は、強調度合い情報200と言語属性情報100とに基づいて、この3種類の平滑化関数の1つを選択するための情報と、選択した平滑化関数による平滑化処理の対象区間とを変形方法情報104として決定する。
(6−2)変更例2
平滑化方法としては、平滑化関数ではなく、平滑化パターンを保持してよい。そして、変更例1においては、複数の平滑化パターンを準備し、それらを選択するための情報を変形方法情報104として決定するものであってもよい。
(6−3)変更例3
少なくとも強調度合い情報200に基づいて、パターン接続部13で用いる接続境界における接続点のピッチを決定することで、変形方法を決定するものでもよい。
具体的には、当該アクセント句と後続アクセント句との接続境界の接続点のピッチを、当該アクセント句のアクセント型が平板型の場合は、当該アクセント句の終点の値とする。
また、当該アクセント句のアクセント型が平板型以外の場合は、下記の条件で分ける。
第1の条件は、当該アクセント句の強調度合いが後続アクセント句の強調度合いよりも大きいときである。このときは、当該アクセント句の終点のピッチと後続アクセント句の始点のピッチの平均値よりも高めの値とする。
第2の条件は、強調度合いが等しいときである。このときは前記ピッチの平均値とする。
第3の条件は、当該アクセント句の強調度合いが後続アクセント句の強調度合いよりも小さい場合である。このときは、平均値よりも低めの値と決定する。
このように、接続点のピッチを強調度合いに応じて変更することによっても、接続部分におけるピッチパターンの変形方法を制御できる。
図11に、境界点のピッチの決め方を強調度合い情報に応じて変更する一例を示す。(a)では、当該アクセント句と後続アクセント句ともに強調されていない(強調度合い0)のため、上述の第2の条件となり、接続点ピッチは当該アクセント句の終端ピッチと後続アクセント句の始端ピッチの平均値としている。一方、(b)では、当該アクセント句を強調したため、上述の第1の条件となり、接続点ピッチを平均値よりも高い値とすることで、接続部において不自然なピッチ変化が生じることなく、強調された当該アクセント句と強調されていない後続アクセント句を滑らかに接続することが可能となっている。
(6−4)変更例4
上記実施形態では、変形方法決定部14は、当該韻律制御単位に対する強調度合い情報200と言語属性情報100に含まれるアクセント型の情報とに基づいて、ピッチパターンの変形方法を決定するものとしたが、これに限定されるものではない。
例えば、当該韻律制御単位の強調度合いと、その前後の韻律制御単位の強調度合いとの差の情報を利用するものであってもよい。
また、強調度合いを表す情報に加えて、接続境界付近の音韻継続時間長111や、言語属性情報100に含まれるモーラ数や音韻種別などの情報を用いることで、より細かく変形方法を制御することが可能となり、パターン接続部13において様々なバリエーションのピッチパターンの接続に対して、適切な変形を行うことができる。
(6−5)変更例5
上記実施形態では、パターン接続部13では、韻律制御単位のピッチパターン103に対して平滑化処理による変形を行い、それから変形したピッチパターンを接続することによって一文全体のピッチパターン121を生成しているが、この処理手順はこれに限定されるものではない。
例えば、先に韻律制御単位のピッチパターン103を接続し、その後に接続部分に対して変形方法情報104に基づいた平滑化処理による変形を行うことも可能である。
(6−6)変更例6
上記実施形態では、強調度合い情報200を4段階の出力音声の強調レベルを表す情報としたが、これに限定されるものではない。
例えば、出力音声の強弱の変化やその範囲を指定するタグ情報が入力テキストに付与されている場合は、このタグ情報に含まれる強調度合いから強調度合い情報200を生成することも可能である。また、韻律の変化度合いの指定に変換できる情報であれば、感情表現などを指定するタグ情報を利用することもできる。
タグ情報の具体例としては、Webページ上で音声合成機能を利用するための記述言語であるSSML(Speech Synthesis Markup Language)や、日本語テキスト音声合成用記号の規格であるJEIDA-62-2000などがある。
また、強調度合い情報200の別の例としては、入力テキストに対して言語解析処理などを行うことによって、推定もしくは抽出された出力音声の強弱の変化に関する情報を用いることも可能である。
さらには、強調の有無によって韻律制御単位パターン生成部16で生成されるピッチパターンが変化する度合い(変化量)を、新たな強調度合い情報として用いることも可能である。
この場合は、例えば図12に示すような構成となる。韻律制御単位パターン生成部16において、強調度合い情報200に従って生成したピッチパターン103に対して、特に強調が指定されなかった(デフォルトの強調度合い)として生成したピッチパターンからの変化量(例えば平均ピッチの差や、始端や終端ピッチの差など)を求め、これを新たな強調度合いを表現する情報(新・強調度合い情報201)として、変形方法決定部14に出力する。
本発明の一実施形態に係るピッチパターン生成装置の構成を示すブロック図である。 アクセント句単位で生成されたピッチパターンの一例を示す図である。 アクセント句単位のピッチパターンを平滑化処理による変形を行って接続することによって生成したピッチパターンの一例を示す図である。 強調度合いの異なるピッチパターンに対する、接続部分における平滑化処理結果の違いの一例を示す図である。 ピッチパターン生成装置1の処理手順の一例を示すフローチャートである。 韻律制御単位パターン生成部の構成の一例を示すブロック図である。 強調度合いに基づく平滑化処理区間の制御の一方法を説明するための図である。 強調度合いを反映して生成されたアクセント句単位のピッチパターンの一例を示す図である。 平滑化処理区間に応じた平滑化処理の一方法を説明するための図である。 平滑化処理区間の制御の有無による接続部分におけるピッチパターンの平滑化処理結果の違いの一例を示す図である。 変更例3に係る接続点のピッチを強調度合いに基づいて変更する平滑化処理の一方法を説明するための図である。 変更例6に係るピッチパターン生成装置の構成例を示すブロック図である。
符号の説明
1 ピッチパターン生成装置
10 パターン選択部
11 パターン形状生成部
12 オフセット制御部
13 パターン接続部
14 変形方法決定部
15 ピッチパターン記憶部
16 韻律制御単位パターン生成部
100 言語属性情報
101 選択ピッチパターン
102 時間方向伸縮済みピッチパターン
103 韻律制御単位ピッチパターン
104 変形方法情報
111 音韻継続時間長
121 文ピッチパターン
200 強調度合い情報
201 新・強調度合い情報

Claims (18)

  1. 音声合成対象となるテキストの韻律制御単位毎のピッチパターンを接続して、該テキストに対応するピッチパターンを生成するピッチパターン生成方法であって、
    合成される音声における前記韻律制御単位毎の強調度合いを表す強調度合い情報と、言語属性情報とに基づいて、前記強調度合いを反映した第1のピッチパターンを、前記テキストの韻律制御単位毎にそれぞれ生成する第1の生成ステップと、
    前記第1のピッチパターンのそれぞれについて、他の第1のピッチパターンとの少なくとも前後一方の接続部分において、該接続部分を平滑化するための、少なくとも(1)所定の平滑化処理にかかるパラメータ、または(2)所定の平滑化処理にかかる前記接続部分の変形方法、を前記強調度合い情報に基づいて決定する方法決定ステップと、
    前記第1のピッチパターンの前記接続部分を前記変形方法に基づいて変形し、前記テキストに対応する第2のピッチパターンを生成する第2の生成ステップと、
    を有するピッチパターン生成方法。
  2. 前記方法決定ステップは、
    前記強調度合い情報に基づいて、前記接続部分において前記平滑化処理を適用する区間である平滑化区間を決定する、
    請求項1記載のピッチパターン生成方法。
  3. 前記方法決定ステップは、
    前記強調度合い情報に基づいて、予め記憶された複数の平滑化関数の中から一つの平滑化関数を前記変形方法として選択し、
    前記強調度合い情報に基づいて、前記選択した一つの平滑化関数を適用する前記接続部分における平滑化区間を決定する、
    請求項1記載のピッチパターン生成方法。
  4. 前記方法決定ステップは、
    前記強調度合い情報に基づいて、前記第1のピッチパターンの境界における接続点のピッチを決定し、
    前記接続点が前記ピッチの位置になるように前記第1のピッチパターンの前記接続部分の変形方法を決定する、
    請求項1記載のピッチパターン生成方法。
  5. 前記方法決定ステップは、
    前記強調度合い情報に加えて、前記韻律制御単位毎のアクセント型、モーラ数、音韻種別のうちの少なくとも1つの前記言語属性情報を参照する、
    請求項1記載のピッチパターン生成方法。
  6. 前記方法決定ステップは、
    前記強調度合い情報の前記強調度合いが大きいほど、前記第1のピッチパターンの接続部分に対する変形量が大きくなるような変形方法を決定する、
    請求項1記載のピッチパターン生成方法。
  7. 前記方法決定ステップは、
    前記第1のピッチパターンの前記強調度合いと、前記第1のピッチパターンの前後の前記他の第1のピッチパターンの前記強調度合いとの差が大きいほど、前記第1のピッチパターンの前記接続部分に対する変形量が大きくなるような変形方法を決定する、
    請求項1記載のピッチパターン生成方法。
  8. 前記強調度合い情報は、
    外部から指定される前記韻律制御単位毎の強調度合いである、
    請求項1記載のピッチパターン生成方法。
  9. 前記強調度合い情報は、
    前記テキストに基づいて前記韻律制御単位毎に推定された強調度合いである、
    請求項1記載のピッチパターン生成方法。
  10. 前記強調度合い情報は、
    強調の有無による前記第1のピッチパターンの変化量に基づいた強調度合いである、
    請求項1記載のピッチパターン生成方法。
  11. 音声合成対象となるテキストの韻律制御単位毎のピッチパターンを接続して、該テキストに対応するピッチパターンを生成するピッチパターン生成装置であって、
    合成される音声における前記韻律制御単位毎の強調度合いを表す強調度合い情報と、言語属性情報とに基づいて、前記強調度合いを反映した第1のピッチパターンを、前記テキストの韻律制御単位毎にそれぞれ生成する第1の生成部と、
    前記第1のピッチパターンのそれぞれについて、他の第1のピッチパターンとの少なくとも前後一方の接続部分において、該接続部分を平滑化するためにの、少なくとも(1)所定の平滑化処理にかかるパラメータ、または(2)所定の平滑化処理にかかる前記接続部分の変形方法、を前記強調度合い情報に基づいて決定する方法決定部と、
    前記第1のピッチパターンの前記接続部分を前記変形方法に基づいて変形し、前記テキストに対応する第2のピッチパターンを生成する第2の生成部と、
    を有するピッチパターン生成装置。
  12. 前記方法決定部は、
    前記強調度合い情報に基づいて、前記接続部分において前記平滑化処理を適用する区間である平滑化区間を決定する、
    請求項11記載のピッチパターン生成装置。
  13. 前記方法決定部は、
    前記強調度合い情報に基づいて、予め記憶された複数の平滑化関数の中から一つの平滑化関数を前記変形方法として選択し、
    前記強調度合い情報に基づいて、前記選択した一つの平滑化関数を適用する前記接続部分における平滑化区間を決定する、
    請求項11記載のピッチパターン生成装置。
  14. 前記方法決定部は、
    前記強調度合い情報に基づいて、前記第1のピッチパターンの境界における接続点のピッチを決定し、
    前記接続点が前記ピッチの位置になるように前記第1のピッチパターンの前記接続部分の変形方法を決定する、
    請求項11記載のピッチパターン生成装置。
  15. 音声合成対象となるテキストの韻律制御単位毎のピッチパターンを接続して、該テキストに対応するピッチパターンを生成するピッチパターン生成プログラムであって、
    合成される音声における前記韻律制御単位毎の強調度合いを表す強調度合い情報と、言語属性情報とに基づいて、前記強調度合いを反映した第1のピッチパターンを、前記テキストの韻律制御単位毎にそれぞれ生成する第1の生成機能と、
    前記第1のピッチパターンのそれぞれについて、他の第1のピッチパターンとの少なくとも前後一方の接続部分において、該接続部分を平滑化するための、少なくとも(1)所定の平滑化処理にかかるパラメータ、または(2)所定の平滑化処理にかかる前記接続部分の変形方法、を前記強調度合い情報に基づいて決定する方法決定機能と、
    前記第1のピッチパターンの前記接続部分を前記変形方法に基づいて変形し、前記テキストに対応する第2のピッチパターンを生成する第2の生成機能と、
    をコンピュータによって実現するピッチパターン生成プログラム。
  16. 前記方法決定機能は、
    前記強調度合い情報に基づいて、前記接続部分において前記平滑化処理を適用する区間である平滑化区間を決定する、
    請求項15記載のピッチパターン生成プログラム。
  17. 前記方法決定機能は、
    前記強調度合い情報に基づいて、予め記憶された複数の平滑化関数の中から一つの平滑化関数を前記変形方法として選択し、
    前記強調度合い情報に基づいて、前記選択した一つの平滑化関数を適用する前記接続部分における平滑化区間を決定する、
    請求項15記載のピッチパターン生成プログラム。
  18. 前記方法決定機能は、
    前記強調度合い情報に基づいて、前記第1のピッチパターンの境界における接続点のピッチを決定し、
    前記接続点が前記ピッチの位置になるように前記第1のピッチパターンの前記接続部分の変形方法を決定する、
    請求項15記載のピッチパターン生成プログラム。
JP2007214407A 2007-08-21 2007-08-21 ピッチパターン生成方法及びその装置 Pending JP2009047957A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007214407A JP2009047957A (ja) 2007-08-21 2007-08-21 ピッチパターン生成方法及びその装置
US12/035,965 US20090055188A1 (en) 2007-08-21 2008-02-22 Pitch pattern generation method and apparatus thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007214407A JP2009047957A (ja) 2007-08-21 2007-08-21 ピッチパターン生成方法及びその装置

Publications (1)

Publication Number Publication Date
JP2009047957A true JP2009047957A (ja) 2009-03-05

Family

ID=40383005

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007214407A Pending JP2009047957A (ja) 2007-08-21 2007-08-21 ピッチパターン生成方法及びその装置

Country Status (2)

Country Link
US (1) US20090055188A1 (ja)
JP (1) JP2009047957A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009122382A (ja) * 2007-11-14 2009-06-04 Fujitsu Ltd 韻律生成装置、韻律生成方法、および、韻律生成プログラム
JP2015034920A (ja) * 2013-08-09 2015-02-19 ヤマハ株式会社 音声解析装置
JP2015102773A (ja) * 2013-11-27 2015-06-04 日産自動車株式会社 音声発生装置、音声変形装置及び方法
JP2015102772A (ja) * 2013-11-27 2015-06-04 日産自動車株式会社 音声発生装置、音声変形装置及び方法
JP2015102771A (ja) * 2013-11-27 2015-06-04 日産自動車株式会社 音声発生装置、音声変形装置及び方法
WO2018164278A1 (ja) * 2017-03-09 2018-09-13 ヤマハ株式会社 音声対話方法および音声対話装置
CN113436591A (zh) * 2021-06-24 2021-09-24 广州酷狗计算机科技有限公司 音高信息生成方法、装置、计算机设备及存储介质

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5238205B2 (ja) * 2007-09-07 2013-07-17 ニュアンス コミュニケーションズ,インコーポレイテッド 音声合成システム、プログラム及び方法
JP4455633B2 (ja) * 2007-09-10 2010-04-21 株式会社東芝 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
US20100223058A1 (en) * 2007-10-05 2010-09-02 Yasuyuki Mitsui Speech synthesis device, speech synthesis method, and speech synthesis program
US8965768B2 (en) * 2010-08-06 2015-02-24 At&T Intellectual Property I, L.P. System and method for automatic detection of abnormal stress patterns in unit selection synthesis
TWI413104B (zh) * 2010-12-22 2013-10-21 Ind Tech Res Inst 可調控式韻律重估測系統與方法及電腦程式產品
JP5807921B2 (ja) * 2013-08-23 2015-11-10 国立研究開発法人情報通信研究機構 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
CN105185373B (zh) * 2015-08-06 2017-04-05 百度在线网络技术(北京)有限公司 韵律层级预测模型的生成及韵律层级预测方法和装置
JP2018159759A (ja) * 2017-03-22 2018-10-11 株式会社東芝 音声処理装置、音声処理方法およびプログラム
JP6646001B2 (ja) * 2017-03-22 2020-02-14 株式会社東芝 音声処理装置、音声処理方法およびプログラム
CN111128116B (zh) * 2019-12-20 2021-07-23 珠海格力电器股份有限公司 一种语音处理方法、装置、计算设备及存储介质

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5267317A (en) * 1991-10-18 1993-11-30 At&T Bell Laboratories Method and apparatus for smoothing pitch-cycle waveforms
JP3083640B2 (ja) * 1992-05-28 2000-09-04 株式会社東芝 音声合成方法および装置
JP3667950B2 (ja) * 1997-09-16 2005-07-06 株式会社東芝 ピッチパターン生成方法
DE69940747D1 (de) * 1998-11-13 2009-05-28 Lernout & Hauspie Speechprod Sprachsynthese mittels Verknüpfung von Sprachwellenformen
US6260016B1 (en) * 1998-11-25 2001-07-10 Matsushita Electric Industrial Co., Ltd. Speech synthesis employing prosody templates
US6496801B1 (en) * 1999-11-02 2002-12-17 Matsushita Electric Industrial Co., Ltd. Speech synthesis employing concatenated prosodic and acoustic templates for phrases of multiple words
JP3515039B2 (ja) * 2000-03-03 2004-04-05 沖電気工業株式会社 テキスト音声変換装置におけるピッチパタン制御方法
JP4054507B2 (ja) * 2000-03-31 2008-02-27 キヤノン株式会社 音声情報処理方法および装置および記憶媒体
JP3728172B2 (ja) * 2000-03-31 2005-12-21 キヤノン株式会社 音声合成方法および装置
US6856958B2 (en) * 2000-09-05 2005-02-15 Lucent Technologies Inc. Methods and apparatus for text to speech processing using language independent prosody markup
US6845358B2 (en) * 2001-01-05 2005-01-18 Matsushita Electric Industrial Co., Ltd. Prosody template matching for text-to-speech systems
WO2002073595A1 (fr) * 2001-03-08 2002-09-19 Matsushita Electric Industrial Co., Ltd. Dispositif generateur de prosodie, procede de generation de prosodie, et programme
US7251601B2 (en) * 2001-03-26 2007-07-31 Kabushiki Kaisha Toshiba Speech synthesis method and speech synthesizer
WO2003019528A1 (fr) * 2001-08-22 2003-03-06 International Business Machines Corporation Procede de production d'intonation, dispositif de synthese de signaux vocaux fonctionnant selon ledit procede et serveur vocal
GB2392358A (en) * 2002-08-02 2004-02-25 Rhetorical Systems Ltd Method and apparatus for smoothing fundamental frequency discontinuities across synthesized speech segments
US6961704B1 (en) * 2003-01-31 2005-11-01 Speechworks International, Inc. Linguistic prosodic model-based text to speech
US20060074678A1 (en) * 2004-09-29 2006-04-06 Matsushita Electric Industrial Co., Ltd. Prosody generation for text-to-speech synthesis based on micro-prosodic data
JP4551803B2 (ja) * 2005-03-29 2010-09-29 株式会社東芝 音声合成装置及びそのプログラム
JP2006309162A (ja) * 2005-03-29 2006-11-09 Toshiba Corp ピッチパターン生成方法、ピッチパターン生成装置及びプログラム
US20060259303A1 (en) * 2005-05-12 2006-11-16 Raimo Bakis Systems and methods for pitch smoothing for text-to-speech synthesis

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009122382A (ja) * 2007-11-14 2009-06-04 Fujitsu Ltd 韻律生成装置、韻律生成方法、および、韻律生成プログラム
JP2015034920A (ja) * 2013-08-09 2015-02-19 ヤマハ株式会社 音声解析装置
JP2015102773A (ja) * 2013-11-27 2015-06-04 日産自動車株式会社 音声発生装置、音声変形装置及び方法
JP2015102772A (ja) * 2013-11-27 2015-06-04 日産自動車株式会社 音声発生装置、音声変形装置及び方法
JP2015102771A (ja) * 2013-11-27 2015-06-04 日産自動車株式会社 音声発生装置、音声変形装置及び方法
WO2018164278A1 (ja) * 2017-03-09 2018-09-13 ヤマハ株式会社 音声対話方法および音声対話装置
JP2018146906A (ja) * 2017-03-09 2018-09-20 ヤマハ株式会社 音声対話方法および音声対話装置
CN113436591A (zh) * 2021-06-24 2021-09-24 广州酷狗计算机科技有限公司 音高信息生成方法、装置、计算机设备及存储介质
CN113436591B (zh) * 2021-06-24 2023-11-17 广州酷狗计算机科技有限公司 音高信息生成方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
US20090055188A1 (en) 2009-02-26

Similar Documents

Publication Publication Date Title
JP2009047957A (ja) ピッチパターン生成方法及びその装置
JP4738057B2 (ja) ピッチパターン生成方法及びその装置
US6064960A (en) Method and apparatus for improved duration modeling of phonemes
JP4551803B2 (ja) 音声合成装置及びそのプログラム
JP4469883B2 (ja) 音声合成方法及びその装置
JP3667950B2 (ja) ピッチパターン生成方法
US20040030555A1 (en) System and method for concatenating acoustic contours for speech synthesis
JP4406440B2 (ja) 音声合成装置、音声合成方法及びプログラム
JP2006309162A (ja) ピッチパターン生成方法、ピッチパターン生成装置及びプログラム
US8478595B2 (en) Fundamental frequency pattern generation apparatus and fundamental frequency pattern generation method
US6832192B2 (en) Speech synthesizing method and apparatus
JP2003233388A (ja) 音声合成装置および音声合成方法、並びに、プログラム記録媒体
JP2009133890A (ja) 音声合成装置及びその方法
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP2008015424A (ja) 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体
JP3737788B2 (ja) 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム
JP5393546B2 (ja) 韻律作成装置及び韻律作成方法
JP5106274B2 (ja) 音声処理装置、音声処理方法及びプログラム
JP4454780B2 (ja) 音声情報処理装置とその方法と記憶媒体
JPH0580791A (ja) 音声規則合成装置および方法
JP2003330482A (ja) 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成方法、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム
JP2755478B2 (ja) テキスト音声合成装置
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP2005241789A (ja) 素片接続型音声合成装置及び方法、並びに音声素片データベースの作成方法
JP2008275698A (ja) 所望のイントネーションを備えた音声信号を生成するための音声合成装置