JP3667950B2 - ピッチパターン生成方法 - Google Patents

ピッチパターン生成方法 Download PDF

Info

Publication number
JP3667950B2
JP3667950B2 JP25049697A JP25049697A JP3667950B2 JP 3667950 B2 JP3667950 B2 JP 3667950B2 JP 25049697 A JP25049697 A JP 25049697A JP 25049697 A JP25049697 A JP 25049697A JP 3667950 B2 JP3667950 B2 JP 3667950B2
Authority
JP
Japan
Prior art keywords
pattern
representative
pitch
pitch pattern
representative pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP25049697A
Other languages
English (en)
Other versions
JPH1195783A (ja
Inventor
岳彦 籠嶋
芳則 志賀
眞弘 森田
重宣 瀬戸
孝章 新居
政巳 赤嶺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP25049697A priority Critical patent/JP3667950B2/ja
Priority to US09/149,036 priority patent/US6529874B2/en
Publication of JPH1195783A publication Critical patent/JPH1195783A/ja
Application granted granted Critical
Publication of JP3667950B2 publication Critical patent/JP3667950B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、ピッチパターン生成方法に係り、特にテキスト音声合成で用いられるピッチパターンを生成する方法に関する。
【0002】
【従来の技術】
任意の文章から人工的に音声信号を作り出すことをテキスト合成という。通常テキスト合成システムは、言語処理部・制御パラメータ生成部・音声信号生成部の3つの段階から構成される。入力されたテキストは、まず言語処理部において形態素解析や構文解析などが行われる。次に制御パラメータ生成部においてアクセントやイントネーションの処理が行われ、音韻記号列・ピッチパターン・音韻継続時間長などの情報が出力される。最後に、音声信号生成部で音声信号が合成される。
【0003】
テキスト合成システムの中で合成音声の自然性に関係するのが制御パラメータ生成部における韻律処理であり、とりわけピッチパターンが合成音声の自然性を大きく左右する。従来のテキスト合成システムでは、比較的単純なモデルを用いてピッチパターンの生成を行っていたため、抑揚が不自然で機械的な音声となっていた。
【0004】
近年、自然音声から抽出されたピッチパターンをそのまま用いてピッチパターンの生成を行う方法が提案されている。例えば、特開平6−236197では、自然音声のピッチパターンから切り出されたユニットパターンか、または切り出されたユニットパターンをベクトル量子化したものを記憶しておき、入力属性または入力言語情報に基づいて適合するユニットパターンを検索し、これらのユニットパターンを時間軸上に配置し変形することによってピッチパターンを生成する方法が開示されている。
【0005】
【発明が解決しようとする課題】
上述したような従来のテキスト音声合成においては、全ての入力属性あるいは入力言語情報に適合するユニットパターンを記憶しておくことは不可能なので、ユニットパターンの変形が必要となる。例えば、入力された継続時間長に合うようにユニットパターンを伸縮させることが必要となる。しかしながら、ユニットパターンが自然音声のピッチパターンから切り出されたものであったとしても、このような変形処理によって自然性が低下するという問題がある。
【0006】
本発明は、上記事情を考慮してなされたものであり、テキスト音声合成による合成音の自然性を向上させることができるピッチパターン生成方法を提供することを目的とする。
【0007】
【課題を解決するための手段】
本発明は、入力テキストの音声合成のためのピッチパターンを生成するピッチパターン生成方法において、音声データの韻律単位を複数の代表パターンにそれぞれ対応する各クラスタにクラスタリングするステップと、前記音声データについてピッチ抽出を行って得られる第1のピッチパターンから、前記各クラスタに属する韻律単位に対応する第2のピッチパターンを抽出するステップと、第1の代表パターンに少なくとも時間軸上の伸縮を含む変形を施すことにより生成される、前記第2のピッチパターンに近似させた第3のピッチパターンと前記第2のピッチパターンとにより定義される歪みの評価関数を用いて、前記各クラスタに対応する第2の代表パターンを生成するステップと、前記第2の代表パターンから前記入力テキストの韻律単位に対応する一つの代表パターンを選択し、該選択した代表パターンを用いて前記入力テキストの音声合成のためのピッチパターンを生成するステップとを具備することを特徴とする。
【0008】
韻律単位とは、ピッチパターン生成の単位であって、(1)アクセント句、(2)ピッチパターンの形状に応じてアクセント句を複数の区間に分割した単位、(3)連続するアクセント句の境界を含むような単位、など種々の単位を用いることができる。
【0009】
第1の代表パターンの変形は、時間軸上の伸縮に加えて、周波数軸上の平行移動または伸縮や、微分または積分や、フィルタリングなどの組合せによって実現され、これらは時間−周波数領域あるいは時間−対数周波数領域におけるパターンに対して行われる。
【0010】
クラスタリングとは、韻律単位を何らかの基準に従って代表パターンに対応するクラスタに分類する操作であり、基準としては、当該韻律単位について、代表パターンより生成されたピッチパターンの誤差や、当該韻律単位の属性、あるいは誤差と属性の組合せなどを用いることができる。
【0012】
韻律単位の属性とは、当該韻律単位を含む音声データまたはその音声データに対応するテキストから抽出される、当該韻律単位およびその近傍の韻律単位に関する情報であり、例えば、アクセント型・モーラ数・品詞・音韻・かかり受けなどがある。
【0013】
歪みの評価関数は、複数の韻律単位に対して一つの第1の代表パターンから生成された第3のピッチパターンの歪みを評価する関数であり、生成された第3のピッチパターンと自然音声のピッチパターンである第2のピッチパターンとの間もしくはそれらの対数の間で定義される関数であり、例えば2乗誤差の総和などを用ることができる。
【0031】
なお、以上の各装置に係る発明は方法に係る発明としても成立し、方法に係る発明は装置に係る発明としても成立する。
また、上記の発明は、相当する手順あるいは手段をコンピュータに実行させるためのプログラムを記録した機械読取り可能な媒体としても成立する。
【0032】
本発明では、代表パターンに対して変形を行って生成されるピッチパターンの自然音声のピッチパターンに対する誤差の評価関数に基づいて代表パターンを生成し、その代表パターンを用いてテキスト合成におけるピッチパターンの生成を行っているため、変形によって自然性が劣化することなく、自然性の高い合成音声を生成させることが可能である。
【0033】
また、本発明では、代表パターンに対して変形を行って生成されるピッチパターンの自然音声のピッチパターンに対する誤差と属性より代表パターン選択規則を生成すると共に、代表パターンと自然音声のピッチパターンより生成される変形パラメータと韻律単位の属性より変型パラメータ生成規則を生成し、これらを用いて入力属性から適切な代表パターンを選択し、変形を行うことによってピッチパターンを生成しているため、より自然音声に近い合成音声を生成させることができる。
このように本発明によれば、テキスト音声合成による合成音声の自然性を効果的に向上させ、高品質な合成音声を提供することができるようになる。
【0034】
【発明の実施の形態】
以下、図面を参照して本発明の一実施形態を説明する。
本実施形態は、概略的には、代表パターンに対して入力属性に応じた変形を行って生成されるピッチパターンが自然音声のピッチパターンに近くなるような代表パターンを生成し、またそのようにして得た代表パターンを用いてピッチパターンを生成することにより、自然音声に近い自然性を持った合成音声を生成するようにしたものである。
【0035】
図1は、本発明の一実施形態に係る音声情報処理方法を実現する音声情報処理装置の構成を示すブロック図であり、大きく分けて学習系1とピッチ制御系2よりなる。実際にテキスト音声合成を行う場合に動作するのはピッチ制御系2であり、学習系1は事前に学習を行って代表パターンなどを生成するものである。
【0036】
まず、学習系1について説明する。
学習系1は、韻律単位に対応する大量のピッチパターン101と、ピッチパターン101に対応する属性102を用いて、代表パターン103、変形パラメータ生成規則106、代表パターン選択規則105を生成する。
【0037】
本実施形態では、アクセント句(例えば図6に示すように「青森の」、「兄の」、「雨具を」等)を韻律単位とする場合について説明するが、ピッチパターンの形状に応じてアクセント句を複数の区間に分割した単位や、連続するアクセント句の境界を含むような単位などを用いてもよい。韻律単位の例を図3に示す。
【0038】
以下の説明では、ピッチパターン101に含まれるアクセント句の数をN、代表パターン103の代表パターン数(クラスタ数)をnとし、各アクセント句に対応するピッチパターンをベクトルrj ,(j=1…N)で、代表パターンをベクトルui ,(i=1…n)で表すものとする。
【0039】
ここで、図2に示したブロック図を用いてピッチパターン101と属性102の生成手順の一例について説明する。なお、図2のブロック図に係るデータ生成機能は、ソフトウェアでもハードウェアでも実現可能である。
【0040】
音声データ111は、連続発声された多数の音声データを表している。テキスト110は、音声データ111の発声内容に対応する文章のデータである。
テキスト解析部31は、テキスト110に対して形態素解析などのテキスト解析を行って、テキストをアクセント句単位に分割し、各アクセント句に対して属性102を付与する。属性102は、当該アクセント句およびその近傍のアクセント句に関する情報であり、例えば、アクセント型・モーラ数・品詞・音韻・係り受けなどの情報である。
【0041】
音韻ラベリング部32は、音声データ111と対応するテキスト110に従って音韻の境界を検出し、音声データ111に音韻ラベル112を付与する。
ピッチ抽出部33は、音声データ111にピッチ抽出を行って、基本周波数の時間変化パターンであるピッチパターンを文章全体について生成し、文ピッチパターン113を出力する。
【0042】
アクセント句切り出し部34は、音韻ラベル112と属性102を参照して、文ピッチパターン113からアクセント句毎のピッチパターンを切り出してピッチパターン101を出力する。
【0043】
次に学習系1の詳細な動作について説明する。
なお、学習に先だって、予めn個の代表パターンが設定されているものとする。この代表パターンは、例えば先見的な知識に基づいて用意した適当な特性を持つものであってもよいし、あるいはノイズ・データを用いることも可能である。
【0044】
まず、選択規則生成部18は、アクセント句の属性とピッチパターンに関する先見的な知識や属性102の分布などを基にして、あるアクセント句について、当該アクセント句の属性および当該アクセント句の近傍のアクセント句の属性などから、当該アクセント句がどのクラスタに属するかを決定するための規則(すなわち属性から代表パターンを選択する規則)である代表パターン選択規則105を生成する。
【0045】
クラスタリング部12は、代表パターン選択規則105に従ってアクセント句の属性102からピッチパターンのクラスタを選択することによって、全てのピッチパターンを代表パターンに対応するn個のクラスタにクラスタリングし、クラスタ情報108を出力する。
【0046】
変形パラメータ生成部10は、代表パターン103を変形したものがピッチパターン101を近似するように変形パラメータ104を生成する。
代表パターン103は、図4(a)で表されるような、基本周波数の変化を表すパターンである。ただし、縦軸は基本周波数の対数を表している。
【0047】
パターンの変形は、時間軸上の伸縮、周波数軸上の伸縮、周波数軸上の並行移動、微分、積分、フィルタリングなどの組合せによって実現される。図4(a)の代表パターンを、時間軸上で伸縮した例を(b)に、周波数軸上で伸縮した例を(c)に、周波数軸上で並行移動した例を(d)に、微分した例を(e)にそれぞれ示す。時間軸上の伸縮は、線形伸縮以外に継続時間長の情報などを用いた非線形な伸縮を用いることもできる。またこれらの変形は、基本周波数の対数のパターンかあるいは基本周波数そのもののパターンに対して行われる。また、代表パターン103として、基本周波数のパターンを微分して得られる基本周波数の傾きを表すパターンを用いても良い。
【0048】
これらの変形処理の組合せを関数f( )で、伸縮率や移動量などの変形のパラメータの組みをベクトルpで、代表パターンをベクトルuで表すと、変形によって生成されるパターンを表すベクトルsは次式で表すことができる。
【0049】
s=f(p,u) …(1)
代表パターンui を変形してピッチパターンrj を近似する変形パラメータ104を表すベクトルpijは、次式で表される誤差eijを最小化するようなpijを探索することによって求められる。
【0050】
ij=(rj −f(pij,ui ))T (rj −f(pij,ui ))…(2)
変形パラメータはピッチパターン101の全てのアクセント句と代表パターン103の全ての代表パターンの組合せに対して生成されるため、全部でn×N個の変形パラメータpij,(i=1…n)(j=1…N)が生成される。
【0051】
代表パターン生成部11は、クラスタ情報108で表されるクラスタ毎に、ピッチパターン101と変形パラメータ104より代表パターン103を生成する。i番目のクラスタの代表パターンui は、評価関数Ei (ui )をui について偏微分して0とおいた次式で表される方程式を解くことによって求められる。
【0052】
【数1】
Figure 0003667950
評価関数Ei (ui )は、当該クラスタに属するピッチパターンrj を代表パターンui を用いて近似した際の誤差の総和を表しており、次式で定義される。
【0053】
【数2】
Figure 0003667950
【0054】
ただし、rj は、i番目のクラスタに属するピッチパターンを表している。また、(4)式が偏微分できない場合や、(3)式が解析的には解けない場合は、なんらかの公知の最適化手法を用いて(4)式の評価関数を最小にするui を探索することによって代表パターンを求めることができる。
【0055】
上述した変形パラメータ生成部10における変形パラメータの生成と、代表パターン生成部11における代表パターン103の生成は、(4)式の評価関数が収束するまで(予め規定した収束条件が成立するまで)、繰り返し実行するのが好ましい。
【0056】
そして、変形パラメータ生成規則生成部15は、ピッチパターン101に対応する変形パラメータ104および属性102より、変形パラメータ生成規則106を生成する。変形パラメータ生成規則は、入力属性から変形パラメータを生成するための規則であり、数量化I類などの統計的手法や、なんらかの帰納学習法など公知の方法を用いて生成することが可能である。
【0057】
次にピッチ制御系2について説明する。
ピッチ制御系2は、テキスト合成システムに入力されたテキストにテキスト解析を行って得られるアクセント句毎の入力属性120より、代表パターン103、変形パラメータ生成規則106、代表パターン選択規則105を参照して、文章全体のピッチパターンである文ピッチパターン123を出力する。
【0058】
代表パターン選択部21は、代表パターン選択規則105と入力属性120に従って、代表パターン103より当該アクセント句に適した代表パターン121を選択して出力する。
【0059】
変形パラメータ生成部20は、変形パラメータ生成規則106と入力属性120に従って、変形パラメータ124を生成して出力する。
パターン変形部22は、変形パラメータ124に従って代表パターン121を変形してピッチパターン122を出力する。代表パターンの変形は、変形パラメータ生成部10で定義された変形処理の組合せを表す関数f( )による変形と同様に行われる。
【0060】
パターン接続部23は、アクセント句毎のピッチパターン122を接続し、接続部におけるピッチパターンが不連続になるのを避けるため、接続部でパターンの平滑化を行った文ピッチパターン123を出力する。
【0061】
本実施形態によれば、代表パターンに対して変形を行って生成されるピッチパターンの自然音声のピッチパターンに対する誤差の評価関数に基づいて代表パターンを生成し、その代表パターンを用いてテキスト合成におけるピッチパターンの生成を行っているため、変形によって自然性が劣化することなく、自然性の高い合成音声を生成させることができる。
【0062】
次に、本発明の別の実施形態について説明する。
図5は、本発明の他の実施形態に係る音声情報処理方法を実現する音声情報処理装置の構成を示すブロック図である。図1と相対応する部分に同一の参照符号を付して相違点を中心に説明すると、本実施形態では、ピッチパターンのクラスタリングの方法および代表パターン選択規則の生成法がこれまでの実施形態と異なっている。
【0063】
すなわち、先の実施形態では、先見的な知識や属性の分布に従って代表パターン選択規則を生成し、その後で代表パターン選択規則にしたがってアクセント句のクラスタリングを行ったが、本実施形態では、代表パターンに変形を行って得られるピッチパターンと音声データより抽出されたピッチパターンの誤差に基づいて、アクセント句のクラスタリングおよび代表パターン選択規則の生成を行う。
【0064】
本実施形態では、まず、変形パラメータ生成部10は、代表パターン103を変形したものがピッチパターン101を近似するように変形パラメータ104を生成する。
【0065】
次に、クラスタリングを行う。以下、本実施形態におけるピッチパターンのクラスタリング方法の詳細について説明する。
パターン変形部13は、変形パラメータ104に従って代表パターン103を変形してピッチパターン109を出力する。代表パターンの変形は、変形パラメータ生成部10で定義された変形処理の組合せを表す関数f( )による変形と同様に行われる。N個のアクセント句のピッチパターンrj ,(j=1…N)に対してそれぞれn個の代表パターンui ,(i=1…n)の全てを変形してn個のピッチパターンsij,(i=1…n)を生成する。
【0066】
誤差評価部14は、ピッチパターン109とピッチパターン101の誤差を評価して、誤差情報107を出力する。誤差は次式で定義される2乗誤差を用いる。
【0067】
ij=(rj −sijT (rj −sij) …(5)
誤差はピッチパターン101の全てのアクセント句と代表パターン103の全ての代表パターンの組合せに対して生成されるため、全部でn×N個の誤差の値eij,(i=1…n)(j=1…N)が生成される。
【0068】
クラスタリング部17は、誤差情報107に従ってピッチパターン101を代表パターンに対応するn個のクラスタにクラスタリングし、クラスタ情報108を出力する。代表パターンui に対応するクラスタをGi で表すと、誤差eijを用いてピッチパターンrj は次式のようにクラスタリングされる。
【0069】
i ={rj |eij=min [e1j,…,enj]} …(6)
ただし、記号min [x1 ,…,xn ]はx1 ,…,xn の中の最小の値を表している。
【0070】
そして、代表パターン生成部11は、クラスタ情報108で表されるクラスタ毎に、ピッチパターン101と変形パラメータ104より代表パターン103を生成する。
【0071】
なお、先の実施形態と同様に、変形パラメータの生成、クラスタリング、代表パターンの生成は、(4)式の評価関数が収束するまで(予め規定した収束条件が成立するまで)、繰り返し実行するのが好ましい。
【0072】
上記の処理が終了したら、変形パラメータ生成規則生成部15による変形パラメータ生成規則106の生成と選択規則生成部16による代表パターン選択規則105の生成を行う。
【0073】
次に、本実施形態における代表パターン選択規則の生成法について説明する。選択規則生成部16は、誤差情報107および属性102より、代表パターン選択規則105を生成する。代表パターン生成規則は、入力属性から代表パターンを選択するための規則であり、数量化I類などの統計的手法や、なんらかの帰納学習法など公知の方法を用いて生成することが可能である。
【0074】
以上のような本実施形態によれば、代表パターンに対して変形を行って生成されるピッチパターンの自然音声のピッチパターンに対する誤差と属性より代表パターン選択規則を生成すると共に、代表パターンと自然音声のピッチパターンより生成される変形パラメータと韻律単位の属性より変型パラメータ生成規則を生成し、これらを用いて入力属性から適切な代表パターンを選択し、変形を行うことによってピッチパターンを生成しているため、より自然音声に近い合成音声を生成することができる。
【0075】
次に、本発明のさらに別の実施形態について説明する。
図6は、本発明の他の実施形態に係る音声情報処理方法を実現する音声情報処理装置の構成を示すブロック図である。図1、図5と相対応する部分に同一の参照符号を付して相違点を中心に説明すると、本実施形態では、代表パターン生成部の入力となる変形パラメータとクラスタ情報の生成方法がこれまでの実施形態と異なっている。
【0076】
すなわち、図1および図5の実施形態では、代表パターン103とピッチパターン101より生成された最適な変形パラメータを用いて代表パターンの生成を行っているのに対して、本実施形態では、変形パラメータ生成規則により生成された変形パラメータを用いて代表パターンの生成を行っている点が異なっている。
【0077】
本実施形態では、変形パラメータ生成部19において、変形パラメータ生成規則106と属性102に従って、変形パラメータ114を生成し、これを入力として代表パターン生成部11において代表パターンの生成を行っている。
【0078】
クラスタリング部12は、代表パターン選択規則105に従ってアクセント句の属性102からピッチパターンのクラスタを選択することによって、全てのピッチパターンを代表パターンに対応するn個のクラスタにクラスタリングし、クラスタ情報108を出力する。
【0079】
つまり、本実施形態では、変形パラメータの生成、代表パターン選択規則の生成、クラスタリング、変形パラメータ生成規則の生成、代表パターンの生成を一連の処理として実行される。なお、変形パラメータ生成規則の生成は、変形パラメータの生成の後でかつ代表パターンの生成の前であれば、代表パターン選択規則の生成およびクラスタリングとは、独立して任意のタイミングで実行可能である。先の実施形態と同様に、この一連の処理は、(4)式の評価関数が収束するまで(予め規定した収束条件が成立するまで)、繰り返し実行するのが好ましい。
【0080】
上記の一連の処理が終了したら、その時点における変形パラメータ生成規則106と代表パターン選択規則105を採用する。あるいは、最終的に得られた代表パターンを用いてもう一度計算し直したものを採用してもよい。
【0081】
なお、以上の各実施形態では、学習系1とピッチ制御系2を有する音声情報処理装置として説明したが、学習系1のみを有する学習用の音声情報処理装置、ピッチ制御系2のみを有するピッチ制御の音声情報処理装置、あるいは学習系1から代表パターン103、変形パラメータ生成規則106、代表パターン選択規則105の記憶部を除いた部分のみ有する音声情報処理装置、ピッチ制御系2から代表パターン103、変形パラメータ生成規則106、代表パターン選択規則105の記憶部を除いた部分のみ有する音声情報処理装置として構成することも可能である。
【0082】
また、以上の各機能は、ハードウェアとしてもソフトウェアとしても実現可能である。また、上記した各手順あるいは手段をコンピュータに実行させるためのプログラムを記録した機械読取り可能な媒体として実施することもできる。
本発明は、上述した実施の形態に限定されるものではなく、その技術的範囲において種々変形して実施することができる。
【0083】
【発明の効果】
本発明によれば、代表パターンに対して変形を行って生成されるピッチパターンの自然音声のピッチパターンに対する誤差の評価関数に基づいて代表パターンを生成し、その代表パターンを用いてテキスト合成におけるピッチパターンの生成を行っているため、変形によって自然性が劣化することなく、自然性の高い合成音声を生成することが可能である。
【0084】
また、本発明によれば、代表パターンに対して変形を行って生成されるピッチパターンの自然音声のピッチパターンに対する誤差と属性より代表パターン選択規則を生成すると共に、代表パターンと自然音声のピッチパターンより生成される変形パラメータと韻律単位の属性より変型パラメータ生成規則を生成し、これらを用いて入力属性から適切な代表パターンを選択し、変形を行うことによってピッチパターンを生成しているため、より自然音声に近い合成音声を生成することができる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る音声情報処理装置の構成を示すブロック図
【図2】ピッチパターンと属性の生成方法の一例を説明するための図
【図3】本発明の実施形態における韻律単位の例を示す模式図
【図4】本発明の実施形態における代表パターンの変形の例を示す模式図
【図5】本発明の別の実施形態に係る音声情報処理装置の構成を示すブロック図
【図6】本発明のさらに別の実施形態に係る音声情報処理装置の構成を示すブロック図
【符号の説明】
1…学習系
2…ピッチ制御系
10,19,20…変形パラメータ生成部
11…代表パラメータ生成部
12,17…クラスタリング部
13,22…パターン変形部
14…誤差評価部
15…変形パラメータ生成規則生成部
16,18…選択規則生成部
21…代表パターン選択部
23…パターン接続部
31…テキスト解析部
32…音韻ラベリング部
33…ピッチ抽出部
34…アクセント句切り出し部
101,109,122…ピッチパターン
102…属性
103,121…代表パターン
104,114,124…変形パラメータ
105…代表パターン選択規則
106…変形パラメータ生成規則
107…誤差情報
108…クラスタ情報
110…テキスト
111…音声データ
112…音韻ラベル
113,123…文ピッチパターン
120…入力属性

Claims (10)

  1. 入力テキストの音声合成のためのピッチパターンを生成するピッチパターン生成方法において、
    音声データの韻律単位を複数の代表パターンにそれぞれ対応する各クラスタにクラスタリングするステップと、
    前記音声データについてピッチ抽出を行って得られる第1のピッチパターンから、前記各クラスタに属する韻律単位に対応する第2のピッチパターンを抽出するステップと、
    第1の代表パターンに少なくとも時間軸上の伸縮を含む変形を施すことにより生成される、前記第2のピッチパターンに近似させた第3のピッチパターンと前記第2のピッチパターンとにより定義される歪みの評価関数を用いて、前記各クラスタに対応する第2の代表パターンを生成するステップと、
    前記第2の代表パターンから前記入力テキストの韻律単位に対応する一つの代表パターンを選択し、該選択した代表パターンを用いて前記入力テキストの音声合成のためのピッチパターンを生成するステップとを具備することを特徴とするピッチパターン生成方法。
  2. 前記韻律単位はアクセント句であることを特徴とする請求項1に記載のピッチパターン生成方法。
  3. 前記韻律単位は連続するアクセント句の境界を含むものであることを特徴とする請求項1に記載のピッチパターン生成方法。
  4. 前記クラスタリングするステップは、前記第1の代表パターンに少なくとも時間軸上の伸縮を含む変形を施すことにより生成された第4のピッチパターンの前記第2のピッチパターンに対する誤差を評価し、前記誤差の値に従って前記クラスタリングを行うことを特徴とする請求項1に記載のピッチパターン生成方法。
  5. 前記クラスタリングするステップは、前記韻律単位の属性に従って前記クラスタリングを行うことを特徴とする請求項1に記載のピッチパターン生成方法。
  6. 前記クラスタリングするステップは、前記第1の代表パターンに少なくとも時間軸上の伸縮を含む変形を施すことにより生成された第4のピッチパターンの前記第2のピッチパターンに対する誤差を評価し、前記誤差の値および前記韻律単位の属性に従って前記クラスタリングを行うことを特徴とする請求項1に記載のピッチパターン生成方法。
  7. 第2の代表パターンを生成するステップは、前記第1の代表パターンに対する変形として、周波数軸または対数周波数軸上の平行移動および伸縮の少なくとも一方をさらに施すことを特徴とする請求項1に記載のピッチパターン生成方法。
  8. 第2の代表パターンを生成するステップは、前記第1の代表パターンに対する変形として、微分および積分の少なくとも一方をさらに施すことを特徴とする請求項に記載のピッチパターン生成方法。
  9. 前記第1の代表パターンに少なくとも時間軸上の伸縮を含む変形を施すことにより生成された第4のピッチパターンの前記第2のピッチパターンに対する誤差を評価するステップと、
    前記誤差の値および前記韻律単位の属性に従って代表パターン選択規則を生成するステップとをさらに具備し、
    前記入力テキストの音声合成のためのピッチパターンを生成するステップは、該代表パターン選択規則に従って前記第2の代表パターンから前記入力テキストの韻律単位に対応する一つの代表パターンを選択することを特徴とする請求項1に記載のピッチパターン生成方法。
  10. 前記第1の代表パターンに少なくとも時間軸上の伸縮を含む変形を施すことにより生成される、前記第2のピッチパターンに近似させた第3のピッチパターンと前記第1の代表パターンより変形パラメータを生成するステップと、
    前記変形パラメータおよび前記韻律単位の属性に従って変形パラメータ生成規則を生成するステップと、
    生成された前記変形パラメータ生成規則に従って変形パラメータを生成するステップとをさらに具備し、
    前記入力テキストの音声合成のためのピッチパターンを生成するステップは、前記選択した代表パターンを前記変形パラメータに従って変形させた後に接続して前記入力テキストの音声合成のためのピッチパターンを生成することを特徴とする請求項1に記載のピッチパターン生成方法。
JP25049697A 1997-09-16 1997-09-16 ピッチパターン生成方法 Expired - Lifetime JP3667950B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP25049697A JP3667950B2 (ja) 1997-09-16 1997-09-16 ピッチパターン生成方法
US09/149,036 US6529874B2 (en) 1997-09-16 1998-09-08 Clustered patterns for text-to-speech synthesis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP25049697A JP3667950B2 (ja) 1997-09-16 1997-09-16 ピッチパターン生成方法

Publications (2)

Publication Number Publication Date
JPH1195783A JPH1195783A (ja) 1999-04-09
JP3667950B2 true JP3667950B2 (ja) 2005-07-06

Family

ID=17208748

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25049697A Expired - Lifetime JP3667950B2 (ja) 1997-09-16 1997-09-16 ピッチパターン生成方法

Country Status (2)

Country Link
US (1) US6529874B2 (ja)
JP (1) JP3667950B2 (ja)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001034282A (ja) * 1999-07-21 2001-02-09 Konami Co Ltd 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体
JP4054507B2 (ja) 2000-03-31 2008-02-27 キヤノン株式会社 音声情報処理方法および装置および記憶媒体
GB0022341D0 (en) * 2000-09-12 2000-10-25 Nycomed Imaging As Method
WO2002073595A1 (fr) 2001-03-08 2002-09-19 Matsushita Electric Industrial Co., Ltd. Dispositif generateur de prosodie, procede de generation de prosodie, et programme
JP3560590B2 (ja) * 2001-03-08 2004-09-02 松下電器産業株式会社 韻律生成装置および韻律生成方法並びにプログラム
JP4639532B2 (ja) * 2001-06-05 2011-02-23 日本電気株式会社 自然音声の節点抽出装置
JP4056470B2 (ja) 2001-08-22 2008-03-05 インターナショナル・ビジネス・マシーンズ・コーポレーション イントネーション生成方法、その方法を用いた音声合成装置及びボイスサーバ
JP2003186490A (ja) * 2001-12-21 2003-07-04 Nissan Motor Co Ltd テキスト音声読み上げ装置および情報提供システム
CN1259631C (zh) * 2002-07-25 2006-06-14 摩托罗拉公司 使用韵律控制的中文文本至语音拼接合成系统及方法
US7805307B2 (en) * 2003-09-30 2010-09-28 Sharp Laboratories Of America, Inc. Text to speech conversion system
US7912719B2 (en) * 2004-05-11 2011-03-22 Panasonic Corporation Speech synthesis device and speech synthesis method for changing a voice characteristic
JP4025355B2 (ja) * 2004-10-13 2007-12-19 松下電器産業株式会社 音声合成装置及び音声合成方法
CN1811912B (zh) * 2005-01-28 2011-06-15 北京捷通华声语音技术有限公司 小音库语音合成方法
GB2423903B (en) * 2005-03-04 2008-08-13 Toshiba Res Europ Ltd Method and apparatus for assessing text-to-speech synthesis systems
JP2006309162A (ja) * 2005-03-29 2006-11-09 Toshiba Corp ピッチパターン生成方法、ピッチパターン生成装置及びプログラム
US20070038455A1 (en) * 2005-08-09 2007-02-15 Murzina Marina V Accent detection and correction system
US7844457B2 (en) * 2007-02-20 2010-11-30 Microsoft Corporation Unsupervised labeling of sentence level accent
JP2009047957A (ja) * 2007-08-21 2009-03-05 Toshiba Corp ピッチパターン生成方法及びその装置
JP4455633B2 (ja) * 2007-09-10 2010-04-21 株式会社東芝 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
JP5387410B2 (ja) * 2007-10-05 2014-01-15 日本電気株式会社 音声合成装置、音声合成方法および音声合成プログラム
JP4945465B2 (ja) * 2008-01-23 2012-06-06 株式会社東芝 音声情報処理装置及びその方法
CN102341842B (zh) * 2009-05-28 2013-06-05 国际商业机器公司 用于语者调适的基频移动量学习装置和方法及基频生成装置和方法
JP6036682B2 (ja) * 2011-02-22 2016-11-30 日本電気株式会社 音声合成システム、音声合成方法、および音声合成プログラム
US10019995B1 (en) * 2011-03-01 2018-07-10 Alice J. Stiebel Methods and systems for language learning based on a series of pitch patterns
JP5743625B2 (ja) 2011-03-17 2015-07-01 株式会社東芝 音声合成編集装置および音声合成編集方法
JP6472279B2 (ja) * 2015-03-09 2019-02-20 キヤノン株式会社 画像処理装置及び画像処理方法
US9858923B2 (en) * 2015-09-24 2018-01-02 Intel Corporation Dynamic adaptation of language models and semantic tracking for automatic speech recognition
CN110930975B (zh) * 2018-08-31 2023-08-04 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4696042A (en) * 1983-11-03 1987-09-22 Texas Instruments Incorporated Syllable boundary recognition from phonological linguistic unit string data
US5384893A (en) * 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis
JP2782147B2 (ja) * 1993-03-10 1998-07-30 日本電信電話株式会社 波形編集型音声合成装置
GB2290684A (en) * 1994-06-22 1996-01-03 Ibm Speech synthesis using hidden Markov model to determine speech unit durations
GB2296846A (en) * 1995-01-07 1996-07-10 Ibm Synthesising speech from text
US5832434A (en) * 1995-05-26 1998-11-03 Apple Computer, Inc. Method and apparatus for automatic assignment of duration values for synthetic speech
US5949961A (en) * 1995-07-19 1999-09-07 International Business Machines Corporation Word syllabification in speech synthesis system
US6240384B1 (en) * 1995-12-04 2001-05-29 Kabushiki Kaisha Toshiba Speech synthesis method
US5913193A (en) * 1996-04-30 1999-06-15 Microsoft Corporation Method and system of runtime acoustic unit selection for speech synthesis
US5913194A (en) * 1997-07-14 1999-06-15 Motorola, Inc. Method, device and system for using statistical information to reduce computation and memory requirements of a neural network based speech synthesis system
US6138089A (en) * 1999-03-10 2000-10-24 Infolio, Inc. Apparatus system and method for speech compression and decompression

Also Published As

Publication number Publication date
JPH1195783A (ja) 1999-04-09
US20010051872A1 (en) 2001-12-13
US6529874B2 (en) 2003-03-04

Similar Documents

Publication Publication Date Title
JP3667950B2 (ja) ピッチパターン生成方法
US7603278B2 (en) Segment set creating method and apparatus
US5905972A (en) Prosodic databases holding fundamental frequency templates for use in speech synthesis
JP4176169B2 (ja) 言語合成のためのランタイムアコースティックユニット選択方法及び装置
US8886538B2 (en) Systems and methods for text-to-speech synthesis using spoken example
JP3408477B2 (ja) フィルタパラメータとソース領域において独立にクロスフェードを行う半音節結合型のフォルマントベースのスピーチシンセサイザ
JP5457706B2 (ja) 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法
JP4551803B2 (ja) 音声合成装置及びそのプログラム
JP6266372B2 (ja) 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
JP3588302B2 (ja) 連結型音声合成のための単位重複領域の識別方法および連結型音声合成方法
JP3910628B2 (ja) 音声合成装置、音声合成方法およびプログラム
US20040030555A1 (en) System and method for concatenating acoustic contours for speech synthesis
JP2009047957A (ja) ピッチパターン生成方法及びその装置
JP3281266B2 (ja) 音声合成方法及び装置
JP4945465B2 (ja) 音声情報処理装置及びその方法
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP2003186489A (ja) 音声情報データベース作成システム,録音原稿作成装置および方法,録音管理装置および方法,ならびにラベリング装置および方法
JP3281281B2 (ja) 音声合成方法及び装置
Chunwijitra et al. A tone-modeling technique using a quantized F0 context to improve tone correctness in average-voice-based speech synthesis
JP2004226505A (ja) ピッチパタン生成方法、音声合成方法とシステム及びプログラム
JP6523423B2 (ja) 音声合成装置、音声合成方法およびプログラム
Wang et al. Emotional voice conversion for mandarin using tone nucleus model–small corpus and high efficiency
JP4034751B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP3727885B2 (ja) 音声素片生成方法と装置及びプログラム、並びに音声合成方法と装置
JPH1185193A (ja) 音声データベースにおける音素片情報最適化方法、及び音素片情報最適化装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050317

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050407

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080415

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090415

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100415

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100415

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110415

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130415

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140415

Year of fee payment: 9

EXPY Cancellation because of completion of term