JPH1195783A - 音声情報処理方法 - Google Patents

音声情報処理方法

Info

Publication number
JPH1195783A
JPH1195783A JP9250496A JP25049697A JPH1195783A JP H1195783 A JPH1195783 A JP H1195783A JP 9250496 A JP9250496 A JP 9250496A JP 25049697 A JP25049697 A JP 25049697A JP H1195783 A JPH1195783 A JP H1195783A
Authority
JP
Japan
Prior art keywords
pattern
pitch
representative
pitch pattern
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9250496A
Other languages
English (en)
Other versions
JP3667950B2 (ja
Inventor
Takehiko Kagoshima
岳彦 籠嶋
Yoshinori Shiga
芳則 志賀
Shinko Morita
眞弘 森田
Shigenobu Seto
重宣 瀬戸
Takaaki Arai
孝章 新居
Masami Akamine
政巳 赤嶺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP25049697A priority Critical patent/JP3667950B2/ja
Priority to US09/149,036 priority patent/US6529874B2/en
Publication of JPH1195783A publication Critical patent/JPH1195783A/ja
Application granted granted Critical
Publication of JP3667950B2 publication Critical patent/JP3667950B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 テキスト音声合成による合成音の自然性を向
上させることができる音声情報処理方法を提供するこ
と。 【解決手段】 音声データに含まれる韻律単位を、代表
パターンに対応するクラスタにクラスタリングし、前記
クラスタ毎に、当該クラスタに属する韻律単位に対応す
る第1のピッチパターンを前記音声データより抽出し、
前記クラスタ毎に、当該クラスタに属する韻律単位に対
応するピッチパターンであって当該クラスタの代表パタ
ーンに変形を行って生成される第2のピッチパターンと
前記第1のピッチパターンとの間で定義される歪みの評
価関数に従って当該クラスタの代表パターンを生成する
ことを特徴とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、テキスト音声合成
で用いられるピッチパターンを生成するための音声情報
処理方法に関する。
【0002】
【従来の技術】任意の文章から人工的に音声信号を作り
出すことをテキスト合成という。通常テキスト合成シス
テムは、言語処理部・制御パラメータ生成部・音声信号
生成部の3つの段階から構成される。入力されたテキス
トは、まず言語処理部において形態素解析や構文解析な
どが行われる。次に制御パラメータ生成部においてアク
セントやイントネーションの処理が行われ、音韻記号列
・ピッチパターン・音韻継続時間長などの情報が出力さ
れる。最後に、音声信号生成部で音声信号が合成され
る。
【0003】テキスト合成システムの中で合成音声の自
然性に関係するのが制御パラメータ生成部における韻律
処理であり、とりわけピッチパターンが合成音声の自然
性を大きく左右する。従来のテキスト合成システムで
は、比較的単純なモデルを用いてピッチパターンの生成
を行っていたため、抑揚が不自然で機械的な音声となっ
ていた。
【0004】近年、自然音声から抽出されたピッチパタ
ーンをそのまま用いてピッチパターンの生成を行う方法
が提案されている。例えば、特開平6−236197で
は、自然音声のピッチパターンから切り出されたユニッ
トパターンか、または切り出されたユニットパターンを
ベクトル量子化したものを記憶しておき、入力属性また
は入力言語情報に基づいて適合するユニットパターンを
検索し、これらのユニットパターンを時間軸上に配置し
変形することによってピッチパターンを生成する方法が
開示されている。
【0005】
【発明が解決しようとする課題】上述したような従来の
テキスト音声合成においては、全ての入力属性あるいは
入力言語情報に適合するユニットパターンを記憶してお
くことは不可能なので、ユニットパターンの変形が必要
となる。例えば、入力された継続時間長に合うようにユ
ニットパターンを伸縮させることが必要となる。しかし
ながら、ユニットパターンが自然音声のピッチパターン
から切り出されたものであったとしても、このような変
形処理によって自然性が低下するという問題がある。
【0006】本発明は、上記事情を考慮してなされたも
のであり、テキスト音声合成による合成音の自然性を向
上させることができる音声情報処理方法を提供すること
を目的とする。
【0007】
【課題を解決するための手段】本発明(請求項1)に係
る音声情報処理方法は、音声データに含まれる韻律単位
を、代表パターンに対応するクラスタにクラスタリング
し、前記クラスタ毎に、当該クラスタに属する韻律単位
に対応する第1のピッチパターンを前記音声データより
抽出し、前記クラスタ毎に、当該クラスタに属する韻律
単位に対応するピッチパターンであって当該クラスタの
代表パターンに変形を行って生成される第2のピッチパ
ターンと前記第1のピッチパターンとの間で定義される
歪みの評価関数に従って当該クラスタの代表パターンを
生成することを特徴とする。
【0008】韻律単位とは、ピッチパターン生成の単位
であって、(1)アクセント句、(2)ピッチパターン
の形状に応じてアクセント句を複数の区間に分割した単
位、(3)連続するアクセント句の境界を含むような単
位、など種々の単位を用いることができる。
【0009】代表パターンの変形とは、代表パターンか
らピッチパターンを生成する際に行われる操作であり、
例えば時間軸上の伸縮や、周波数軸上の並行移動または
伸縮や、微分または積分や、フィルタリングなどの組合
せによって実現され、また時間−周波数領域あるいは時
間−対数周波数領域におけるパターンに対して行われる
ものである。
【0010】クラスタリングとは、韻律単位を何らかの
基準に従って代表パターンに対応するクラスタに分類す
る操作であり、基準としては、当該韻律単位について、
代表パターンより生成されたピッチパターンの誤差や、
当該韻律単位の属性、あるいは誤差と属性の組合せなど
を用いることができる。
【0011】生成されたピッチパターンの誤差は、韻律
単位に対応する第1のピッチパターンを音声データから
抽出し、前記韻律単位に対応する第2のピッチパターン
を、複数の初期代表パターンに変形を行ってそれぞれ生
成し、前記第2のピッチパターンの前記第1のピッチパ
ターンからの誤差を評価することによって求められる。
【0012】韻律単位の属性とは、当該韻律単位を含む
音声データまたはその音声データに対応するテキストか
ら抽出される、当該韻律単位およびその近傍の韻律単位
に関する情報であり、例えば、アクセント型・モーラ数
・品詞・音韻・かかり受けなどがある。
【0013】歪みの評価関数は、複数の韻律単位に対し
て一つの代表パターンから生成されたピッチパターンの
歪みを評価する関数であり、生成されたピッチパターン
と自然音声のピッチパターンとの間もしくはそれらの対
数の間で定義される関数であり、例えば2乗誤差の総和
などを用ることができる。
【0014】本発明(請求項2)に係る他の音声情報処
理方法は、音声データに含まれる韻律単位を代表パター
ンに対応するクラスタにクラスタリングし、前記クラス
タ毎に、当該クラスタに属する韻律単位に対応する第1
のピッチパターンを前記音声データより抽出し、前記ク
ラスタ毎に、当該クラスタに属する韻律単位に対応する
ピッチパターンであって当該クラスタの代表バターンに
変形を行って生成される第2のピッチパターンと前記第
1のピッチパターンとの間で定義される歪みの評価関数
に従って当該クラスタの代表パターンを生成し、これら
生成された代表パターンを用いてピッチパターンを生成
することを特徴とする。
【0015】好ましくは、前記クラスタリングにあたっ
ては、前記韻律単位に対応する第1のピッチパターンを
音声データから抽出し、前記韻律単位に対応する第2の
ピッチパターンを、初期代表パターンに変形を行って生
成し、前記第2のピッチパターンの前記第1のピッチパ
ターンからの誤差を評価し、前記誤差の値に従って前記
クラスタリングを行うようにしてもよい。
【0016】好ましくは、前記クラスタリングにあたっ
ては、前記韻律単位の属性に従って前記クラスタリング
を行うようにしてもよい。好ましくは、前記クラスタリ
ングにあたっては、前記韻律単位に対応する第1のピッ
チパターンを音声データから抽出し、前記韻律単位に対
応する第2のピッチパターンを、初期代表パターンに変
形を行って生成し、前記第2のピッチパターンの前記第
1のピッチパターンからの誤差を評価し、前記誤差の値
および前記韻律単位の属性に従って前記クラスタリング
を行うようにしてもよい。
【0017】好ましくは、前記歪みの評価関数は前記第
1のピッチパターンの対数と前記第2のピッチパターン
の対数との間で定義されるものであるようにしてもよ
い。好ましくは、前記韻律単位がアクセント句であるよ
うにしてもよい。
【0018】好ましくは、前記韻律単位が連続するアク
セント句の境界を含むものであるようにしてもよい。好
ましくは、前記代表パターンの変形は時間軸上の伸縮を
含むものであるようにしてもよい。
【0019】好ましくは、前記代表パターンの変形は周
波数軸上の並行移動および伸縮、ならびに対数周波数軸
上の並行移動および伸縮のうち少なくとも1つを含むも
のであるようにしてもよい。
【0020】好ましくは、前記代表パターンの変形は微
分および積分の少なくとも一方を含むようにしてもよ
い。本発明(請求項12)に係る音声情報処理方法は、
韻律単位に対応する第1のピッチパターンを音声データ
から抽出し、前記韻律単位に対応する第2のピッチパタ
ーンを、代表パターンに変形を行って生成し、前記第2
のピッチパターンの前記第1のピッチパターンからの誤
差を評価し、前記誤差の値および前記韻律単位の属性に
従って、属性から代表パターンを選択するための代表パ
ターン選択規則を生成することを特徴とする。好ましく
は、前記代表パターン選択規則を用いて、入力された属
性に基づいて代表パターンを選択することを特徴とす
る。好ましくは、この代表パターン選択規則を用いて入
力された属性に基づいて選択された、代表パターンを用
いてピッチパターンを生成することを特徴とする。
【0021】本発明(請求項13)に係る音声情報処理
方法は、韻律単位に対応する第1のピッチパターンを音
声データから抽出し、該第1のピッチパターンと代表パ
ターンより変形パラメータを生成し、前記変形パラメー
タおよび前記韻律単位の属性に従って、属性から変形パ
ラメータを生成するための変形パラメータ生成規則を生
成することを特徴とする。好ましくは、前記変形パラメ
ータ生成規則を用いて、入力された属性に基づいて変形
パラメータを生成することを特徴とする。好ましくは、
この変形パラメータ生成規則を用いて入力された属性に
基づいて生成された、変形パラメータを用いてピッチパ
ターンを生成することを特徴とする。
【0022】また、本発明に係る音声情報処理装置は、
音声データに含まれる韻律単位を代表パターンに対応す
るクラスタにクラスタリングする韻律単位クラスタリン
グ手段と、前記クラスタ毎に、当該クラスタに属する韻
律単位に対応する第1のピッチパターンを前記音声ファ
イルより抽出するピッチパターン抽出手段と、前記クラ
スタ毎に、当該クラスタに属する韻律単位に対応するピ
ッチパターンであって当該クラスタの代表パターンに変
形を行って生成される第2のピッチパターンと前記第1
のピッチパターンとの間で定義される歪みの評価関数に
従って当該クラスタの代表パターンを生成する代表パタ
ーン生成手段とを備えたことを特徴とする。
【0023】本発明に係る音声情報処理装置は、音声デ
ータに含まれる韻律単位を代表パターンに対応するクラ
スタにクラスタリングする韻律単位クラスタリング手段
と、前記クラスタ毎に、当該クラスタに属する韻律単位
に対応する第1のピッチパターンを前記音声ファイルよ
り抽出するピッチパターン抽出手段と、前記クラスタ毎
に、当該クラスタに属する韻律単位に対応するピッチパ
ターンであって当該クラスタの代表パターンに変形を行
って生成される第2のピッチパターンと前記第1のピッ
チパターンとの間で定義される歪みの評価関数に従って
当該クラスタの代表パターンを生成する代表パターン生
成手段と、これら生成された代表パターンを用いてピッ
チパターンを生成するピッチパターン生成手段とを備え
たことを特徴とする。
【0024】好ましくは、前記韻律単位クラスタリング
手段は、前記韻律単位に対応する第1のピッチパターン
を音声データから抽出し、前記韻律単位に対応する第2
のピッチパターンを、初期代表パターンに変形を行って
生成し、前記第2のピッチパターンの前記第1のピッチ
パターンからの誤差を評価し、前記誤差の値に従って韻
律単位のクラスタリングを行うようにしてもよい。
【0025】好ましくは、前記韻律単位クラスタリング
手段は、前記韻律単位の属性に従って韻律単位のクラス
タリングを行うようにしてもよい。好ましくは、前記韻
律単位クラスタリング手段は、前記韻律単位に対応する
第1のピッチパターンを音声データから抽出し、前記韻
律単位に対応する第2のピッチパターンを、初期代表パ
ターンに変形を行って生成し、前記第2のピッチパター
ンの前記第1のピッチパターンからの誤差を評価し、前
記誤差の値および前記韻律単位の属性に従って韻律単位
のクラスタリングを行うようにしてもよい。
【0026】好ましくは、前記歪みの評価関数は前記第
1のピッチパターンの対数と前記第2のピッチパターン
の対数との間で定義されるものであるようにしてもよ
い。好ましくは、前記韻律単位がアクセント句であるよ
うにしてもよい。
【0027】好ましくは、前記韻律単位が連続するアク
セント句の境界を含むものであるようにしてもよい。好
ましくは、前記代表パターンの変形は時間軸上の伸縮を
含むものであるようにしてもよい。
【0028】好ましくは、前記代表パターンの変形は周
波数軸上の並行移動および伸縮、ならびに対数周波数軸
上の並行移動および伸縮のうち少なくとも1つを含むも
のであるようにしてもよい。
【0029】好ましくは、前記代表パターンの変形は微
分および積分の少なくとも一方を含むものであるように
してもよい。本発明に係る音声情報処理装置は、韻律単
位に対応する第1のピッチパターンを音声データから抽
出するピッチパターン抽出手段と、前記韻律単位に対応
する第2のピッチパターンを、代表パターンに変形を行
って生成するピッチパターン生成手段と、前記第2のピ
ッチパターンの前記第1のピッチパターンからの誤差を
評価する誤差評価手段と、前記誤差の値および前記韻律
単位の属性に従って、属性から代表パターンを選択する
規則を生成するための選択規則生成手段とを備えたこと
を特徴とする。好ましくは、前記代表パターン選択規則
を用いて入力された属性より代表パターンを選択する代
表パターン選択手段をさらに備えたことを特徴とする。
また、好ましくは、前記代表パターン選択手段により選
択された代表パターンを用いてピッチパターンを生成す
るピッチパターン生成手段をさらに備えたことを特徴と
する。
【0030】本発明に係る音声情報処理装置は、韻律単
位に対応する第1のピッチパターンを音声データから抽
出するピッチパターン抽出手段と、前記第1のピッチパ
ターンと代表パターンより変形パラメータを生成する第
1の変形パラメータ生成手段と、前記変形パラメータお
よび前記韻律単位の属性に従って、属性から変形パラメ
ータを生成するための変形パラメータ生成規則を生成す
る変形パラメータ生成規則生成手段とを備えたことを特
徴とする。好ましくは、前記変形パラメータ生成規則を
用いて、入力された属性に基づいて変形パラメータを生
成する第2の変形パラメータ生成手段をさらに備えたこ
とを特徴とする。また、好ましくは、前記第2の変形パ
ラメータ生成手段により生成された代表パターンを用い
てピッチパターンを生成するピッチパターン生成手段を
さらに備えたことを特徴とする。
【0031】なお、以上の各装置に係る発明は方法に係
る発明としても成立し、方法に係る発明は装置に係る発
明としても成立する。また、上記の発明は、相当する手
順あるいは手段をコンピュータに実行させるためのプロ
グラムを記録した機械読取り可能な媒体としても成立す
る。
【0032】本発明では、代表パターンに対して変形を
行って生成されるピッチパターンの自然音声のピッチパ
ターンに対する誤差の評価関数に基づいて代表パターン
を生成し、その代表パターンを用いてテキスト合成にお
けるピッチパターンの生成を行っているため、変形によ
って自然性が劣化することなく、自然性の高い合成音声
を生成させることが可能である。
【0033】また、本発明では、代表パターンに対して
変形を行って生成されるピッチパターンの自然音声のピ
ッチパターンに対する誤差と属性より代表パターン選択
規則を生成すると共に、代表パターンと自然音声のピッ
チパターンより生成される変形パラメータと韻律単位の
属性より変型パラメータ生成規則を生成し、これらを用
いて入力属性から適切な代表パターンを選択し、変形を
行うことによってピッチパターンを生成しているため、
より自然音声に近い合成音声を生成させることができ
る。このように本発明によれば、テキスト音声合成によ
る合成音声の自然性を効果的に向上させ、高品質な合成
音声を提供することができるようになる。
【0034】
【発明の実施の形態】以下、図面を参照して本発明の一
実施形態を説明する。本実施形態は、概略的には、代表
パターンに対して入力属性に応じた変形を行って生成さ
れるピッチパターンが自然音声のピッチパターンに近く
なるような代表パターンを生成し、またそのようにして
得た代表パターンを用いてピッチパターンを生成するこ
とにより、自然音声に近い自然性を持った合成音声を生
成するようにしたものである。
【0035】図1は、本発明の一実施形態に係る音声情
報処理方法を実現する音声情報処理装置の構成を示すブ
ロック図であり、大きく分けて学習系1とピッチ制御系
2よりなる。実際にテキスト音声合成を行う場合に動作
するのはピッチ制御系2であり、学習系1は事前に学習
を行って代表パターンなどを生成するものである。
【0036】まず、学習系1について説明する。学習系
1は、韻律単位に対応する大量のピッチパターン101
と、ピッチパターン101に対応する属性102を用い
て、代表パターン103、変形パラメータ生成規則10
6、代表パターン選択規則105を生成する。
【0037】本実施形態では、アクセント句(例えば図
6に示すように「青森の」、「兄の」、「雨具を」等)
を韻律単位とする場合について説明するが、ピッチパタ
ーンの形状に応じてアクセント句を複数の区間に分割し
た単位や、連続するアクセント句の境界を含むような単
位などを用いてもよい。韻律単位の例を図3に示す。
【0038】以下の説明では、ピッチパターン101に
含まれるアクセント句の数をN、代表パターン103の
代表パターン数(クラスタ数)をnとし、各アクセント
句に対応するピッチパターンをベクトルrj ,(j=1
…N)で、代表パターンをベクトルui ,(i=1…
n)で表すものとする。
【0039】ここで、図2に示したブロック図を用いて
ピッチパターン101と属性102の生成手順の一例に
ついて説明する。なお、図2のブロック図に係るデータ
生成機能は、ソフトウェアでもハードウェアでも実現可
能である。
【0040】音声データ111は、連続発声された多数
の音声データを表している。テキスト110は、音声デ
ータ111の発声内容に対応する文章のデータである。
テキスト解析部31は、テキスト110に対して形態素
解析などのテキスト解析を行って、テキストをアクセン
ト句単位に分割し、各アクセント句に対して属性102
を付与する。属性102は、当該アクセント句およびそ
の近傍のアクセント句に関する情報であり、例えば、ア
クセント型・モーラ数・品詞・音韻・係り受けなどの情
報である。
【0041】音韻ラベリング部32は、音声データ11
1と対応するテキスト110に従って音韻の境界を検出
し、音声データ111に音韻ラベル112を付与する。
ピッチ抽出部33は、音声データ111にピッチ抽出を
行って、基本周波数の時間変化パターンであるピッチパ
ターンを文章全体について生成し、文ピッチパターン1
13を出力する。
【0042】アクセント句切り出し部34は、音韻ラベ
ル112と属性102を参照して、文ピッチパターン1
13からアクセント句毎のピッチパターンを切り出して
ピッチパターン101を出力する。
【0043】次に学習系1の詳細な動作について説明す
る。なお、学習に先だって、予めn個の代表パターンが
設定されているものとする。この代表パターンは、例え
ば先見的な知識に基づいて用意した適当な特性を持つも
のであってもよいし、あるいはノイズ・データを用いる
ことも可能である。
【0044】まず、選択規則生成部18は、アクセント
句の属性とピッチパターンに関する先見的な知識や属性
102の分布などを基にして、あるアクセント句につい
て、当該アクセント句の属性および当該アクセント句の
近傍のアクセント句の属性などから、当該アクセント句
がどのクラスタに属するかを決定するための規則(すな
わち属性から代表パターンを選択する規則)である代表
パターン選択規則105を生成する。
【0045】クラスタリング部12は、代表パターン選
択規則105に従ってアクセント句の属性102からピ
ッチパターンのクラスタを選択することによって、全て
のピッチパターンを代表パターンに対応するn個のクラ
スタにクラスタリングし、クラスタ情報108を出力す
る。
【0046】変形パラメータ生成部10は、代表パター
ン103を変形したものがピッチパターン101を近似
するように変形パラメータ104を生成する。代表パタ
ーン103は、図4(a)で表されるような、基本周波
数の変化を表すパターンである。ただし、縦軸は基本周
波数の対数を表している。
【0047】パターンの変形は、時間軸上の伸縮、周波
数軸上の伸縮、周波数軸上の並行移動、微分、積分、フ
ィルタリングなどの組合せによって実現される。図4
(a)の代表パターンを、時間軸上で伸縮した例を
(b)に、周波数軸上で伸縮した例を(c)に、周波数
軸上で並行移動した例を(d)に、微分した例を(e)
にそれぞれ示す。時間軸上の伸縮は、線形伸縮以外に継
続時間長の情報などを用いた非線形な伸縮を用いること
もできる。またこれらの変形は、基本周波数の対数のパ
ターンかあるいは基本周波数そのもののパターンに対し
て行われる。また、代表パターン103として、基本周
波数のパターンを微分して得られる基本周波数の傾きを
表すパターンを用いても良い。
【0048】これらの変形処理の組合せを関数f( )
で、伸縮率や移動量などの変形のパラメータの組みをベ
クトルpで、代表パターンをベクトルuで表すと、変形
によって生成されるパターンを表すベクトルsは次式で
表すことができる。
【0049】 s=f(p,u) …(1) 代表パターンui を変形してピッチパターンrj を近似
する変形パラメータ104を表すベクトルpijは、次式
で表される誤差eijを最小化するようなpijを探索する
ことによって求められる。
【0050】 eij=(rj −f(pij,ui ))T (rj −f(pij,ui ))…(2) 変形パラメータはピッチパターン101の全てのアクセ
ント句と代表パターン103の全ての代表パターンの組
合せに対して生成されるため、全部でn×N個の変形パ
ラメータpij,(i=1…n)(j=1…N)が生成さ
れる。
【0051】代表パターン生成部11は、クラスタ情報
108で表されるクラスタ毎に、ピッチパターン101
と変形パラメータ104より代表パターン103を生成
する。i番目のクラスタの代表パターンui は、評価関
数Ei (ui )をui について偏微分して0とおいた次
式で表される方程式を解くことによって求められる。
【0052】
【数1】 評価関数Ei (ui )は、当該クラスタに属するピッチ
パターンrj を代表パターンui を用いて近似した際の
誤差の総和を表しており、次式で定義される。
【0053】
【数2】
【0054】ただし、rj は、i番目のクラスタに属す
るピッチパターンを表している。また、(4)式が偏微
分できない場合や、(3)式が解析的には解けない場合
は、なんらかの公知の最適化手法を用いて(4)式の評
価関数を最小にするui を探索することによって代表パ
ターンを求めることができる。
【0055】上述した変形パラメータ生成部10におけ
る変形パラメータの生成と、代表パターン生成部11に
おける代表パターン103の生成は、(4)式の評価関
数が収束するまで(予め規定した収束条件が成立するま
で)、繰り返し実行するのが好ましい。
【0056】そして、変形パラメータ生成規則生成部1
5は、ピッチパターン101に対応する変形パラメータ
104および属性102より、変形パラメータ生成規則
106を生成する。変形パラメータ生成規則は、入力属
性から変形パラメータを生成するための規則であり、数
量化I類などの統計的手法や、なんらかの帰納学習法な
ど公知の方法を用いて生成することが可能である。
【0057】次にピッチ制御系2について説明する。ピ
ッチ制御系2は、テキスト合成システムに入力されたテ
キストにテキスト解析を行って得られるアクセント句毎
の入力属性120より、代表パターン103、変形パラ
メータ生成規則106、代表パターン選択規則105を
参照して、文章全体のピッチパターンである文ピッチパ
ターン123を出力する。
【0058】代表パターン選択部21は、代表パターン
選択規則105と入力属性120に従って、代表パター
ン103より当該アクセント句に適した代表パターン1
21を選択して出力する。
【0059】変形パラメータ生成部20は、変形パラメ
ータ生成規則106と入力属性120に従って、変形パ
ラメータ124を生成して出力する。パターン変形部2
2は、変形パラメータ124に従って代表パターン12
1を変形してピッチパターン122を出力する。代表パ
ターンの変形は、変形パラメータ生成部10で定義され
た変形処理の組合せを表す関数f( )による変形と同
様に行われる。
【0060】パターン接続部23は、アクセント句毎の
ピッチパターン122を接続し、接続部におけるピッチ
パターンが不連続になるのを避けるため、接続部でパタ
ーンの平滑化を行った文ピッチパターン123を出力す
る。
【0061】本実施形態によれば、代表パターンに対し
て変形を行って生成されるピッチパターンの自然音声の
ピッチパターンに対する誤差の評価関数に基づいて代表
パターンを生成し、その代表パターンを用いてテキスト
合成におけるピッチパターンの生成を行っているため、
変形によって自然性が劣化することなく、自然性の高い
合成音声を生成させることができる。
【0062】次に、本発明の別の実施形態について説明
する。図5は、本発明の他の実施形態に係る音声情報処
理方法を実現する音声情報処理装置の構成を示すブロッ
ク図である。図1と相対応する部分に同一の参照符号を
付して相違点を中心に説明すると、本実施形態では、ピ
ッチパターンのクラスタリングの方法および代表パター
ン選択規則の生成法がこれまでの実施形態と異なってい
る。
【0063】すなわち、先の実施形態では、先見的な知
識や属性の分布に従って代表パターン選択規則を生成
し、その後で代表パターン選択規則にしたがってアクセ
ント句のクラスタリングを行ったが、本実施形態では、
代表パターンに変形を行って得られるピッチパターンと
音声データより抽出されたピッチパターンの誤差に基づ
いて、アクセント句のクラスタリングおよび代表パター
ン選択規則の生成を行う。
【0064】本実施形態では、まず、変形パラメータ生
成部10は、代表パターン103を変形したものがピッ
チパターン101を近似するように変形パラメータ10
4を生成する。
【0065】次に、クラスタリングを行う。以下、本実
施形態におけるピッチパターンのクラスタリング方法の
詳細について説明する。パターン変形部13は、変形パ
ラメータ104に従って代表パターン103を変形して
ピッチパターン109を出力する。代表パターンの変形
は、変形パラメータ生成部10で定義された変形処理の
組合せを表す関数f( )による変形と同様に行われ
る。N個のアクセント句のピッチパターンrj ,(j=
1…N)に対してそれぞれn個の代表パターンui
(i=1…n)の全てを変形してn個のピッチパターン
ij,(i=1…n)を生成する。
【0066】誤差評価部14は、ピッチパターン109
とピッチパターン101の誤差を評価して、誤差情報1
07を出力する。誤差は次式で定義される2乗誤差を用
いる。
【0067】 eij=(rj −sijT (rj −sij) …(5) 誤差はピッチパターン101の全てのアクセント句と代
表パターン103の全ての代表パターンの組合せに対し
て生成されるため、全部でn×N個の誤差の値eij
(i=1…n)(j=1…N)が生成される。
【0068】クラスタリング部17は、誤差情報107
に従ってピッチパターン101を代表パターンに対応す
るn個のクラスタにクラスタリングし、クラスタ情報1
08を出力する。代表パターンui に対応するクラスタ
をGi で表すと、誤差eijを用いてピッチパターンrj
は次式のようにクラスタリングされる。
【0069】 Gi ={rj |eij=min [e1j,…,enj]} …(6) ただし、記号min [x1 ,…,xn ]はx1 ,…,xn
の中の最小の値を表している。
【0070】そして、代表パターン生成部11は、クラ
スタ情報108で表されるクラスタ毎に、ピッチパター
ン101と変形パラメータ104より代表パターン10
3を生成する。
【0071】なお、先の実施形態と同様に、変形パラメ
ータの生成、クラスタリング、代表パターンの生成は、
(4)式の評価関数が収束するまで(予め規定した収束
条件が成立するまで)、繰り返し実行するのが好まし
い。
【0072】上記の処理が終了したら、変形パラメータ
生成規則生成部15による変形パラメータ生成規則10
6の生成と選択規則生成部16による代表パターン選択
規則105の生成を行う。
【0073】次に、本実施形態における代表パターン選
択規則の生成法について説明する。選択規則生成部16
は、誤差情報107および属性102より、代表パター
ン選択規則105を生成する。代表パターン生成規則
は、入力属性から代表パターンを選択するための規則で
あり、数量化I類などの統計的手法や、なんらかの帰納
学習法など公知の方法を用いて生成することが可能であ
る。
【0074】以上のような本実施形態によれば、代表パ
ターンに対して変形を行って生成されるピッチパターン
の自然音声のピッチパターンに対する誤差と属性より代
表パターン選択規則を生成すると共に、代表パターンと
自然音声のピッチパターンより生成される変形パラメー
タと韻律単位の属性より変型パラメータ生成規則を生成
し、これらを用いて入力属性から適切な代表パターンを
選択し、変形を行うことによってピッチパターンを生成
しているため、より自然音声に近い合成音声を生成する
ことができる。
【0075】次に、本発明のさらに別の実施形態につい
て説明する。図6は、本発明の他の実施形態に係る音声
情報処理方法を実現する音声情報処理装置の構成を示す
ブロック図である。図1、図5と相対応する部分に同一
の参照符号を付して相違点を中心に説明すると、本実施
形態では、代表パターン生成部の入力となる変形パラメ
ータとクラスタ情報の生成方法がこれまでの実施形態と
異なっている。
【0076】すなわち、図1および図5の実施形態で
は、代表パターン103とピッチパターン101より生
成された最適な変形パラメータを用いて代表パターンの
生成を行っているのに対して、本実施形態では、変形パ
ラメータ生成規則により生成された変形パラメータを用
いて代表パターンの生成を行っている点が異なってい
る。
【0077】本実施形態では、変形パラメータ生成部1
9において、変形パラメータ生成規則106と属性10
2に従って、変形パラメータ114を生成し、これを入
力として代表パターン生成部11において代表パターン
の生成を行っている。
【0078】クラスタリング部12は、代表パターン選
択規則105に従ってアクセント句の属性102からピ
ッチパターンのクラスタを選択することによって、全て
のピッチパターンを代表パターンに対応するn個のクラ
スタにクラスタリングし、クラスタ情報108を出力す
る。
【0079】つまり、本実施形態では、変形パラメータ
の生成、代表パターン選択規則の生成、クラスタリン
グ、変形パラメータ生成規則の生成、代表パターンの生
成を一連の処理として実行される。なお、変形パラメー
タ生成規則の生成は、変形パラメータの生成の後でかつ
代表パターンの生成の前であれば、代表パターン選択規
則の生成およびクラスタリングとは、独立して任意のタ
イミングで実行可能である。先の実施形態と同様に、こ
の一連の処理は、(4)式の評価関数が収束するまで
(予め規定した収束条件が成立するまで)、繰り返し実
行するのが好ましい。
【0080】上記の一連の処理が終了したら、その時点
における変形パラメータ生成規則106と代表パターン
選択規則105を採用する。あるいは、最終的に得られ
た代表パターンを用いてもう一度計算し直したものを採
用してもよい。
【0081】なお、以上の各実施形態では、学習系1と
ピッチ制御系2を有する音声情報処理装置として説明し
たが、学習系1のみを有する学習用の音声情報処理装
置、ピッチ制御系2のみを有するピッチ制御の音声情報
処理装置、あるいは学習系1から代表パターン103、
変形パラメータ生成規則106、代表パターン選択規則
105の記憶部を除いた部分のみ有する音声情報処理装
置、ピッチ制御系2から代表パターン103、変形パラ
メータ生成規則106、代表パターン選択規則105の
記憶部を除いた部分のみ有する音声情報処理装置として
構成することも可能である。
【0082】また、以上の各機能は、ハードウェアとし
てもソフトウェアとしても実現可能である。また、上記
した各手順あるいは手段をコンピュータに実行させるた
めのプログラムを記録した機械読取り可能な媒体として
実施することもできる。本発明は、上述した実施の形態
に限定されるものではなく、その技術的範囲において種
々変形して実施することができる。
【0083】
【発明の効果】本発明によれば、代表パターンに対して
変形を行って生成されるピッチパターンの自然音声のピ
ッチパターンに対する誤差の評価関数に基づいて代表パ
ターンを生成し、その代表パターンを用いてテキスト合
成におけるピッチパターンの生成を行っているため、変
形によって自然性が劣化することなく、自然性の高い合
成音声を生成することが可能である。
【0084】また、本発明によれば、代表パターンに対
して変形を行って生成されるピッチパターンの自然音声
のピッチパターンに対する誤差と属性より代表パターン
選択規則を生成すると共に、代表パターンと自然音声の
ピッチパターンより生成される変形パラメータと韻律単
位の属性より変型パラメータ生成規則を生成し、これら
を用いて入力属性から適切な代表パターンを選択し、変
形を行うことによってピッチパターンを生成しているた
め、より自然音声に近い合成音声を生成することができ
る。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る音声情報処理装置の
構成を示すブロック図
【図2】ピッチパターンと属性の生成方法の一例を説明
するための図
【図3】本発明の実施形態における韻律単位の例を示す
模式図
【図4】本発明の実施形態における代表パターンの変形
の例を示す模式図
【図5】本発明の別の実施形態に係る音声情報処理装置
の構成を示すブロック図
【図6】本発明のさらに別の実施形態に係る音声情報処
理装置の構成を示すブロック図
【符号の説明】
1…学習系 2…ピッチ制御系 10,19,20…変形パラメータ生成部 11…代表パラメータ生成部 12,17…クラスタリング部 13,22…パターン変形部 14…誤差評価部 15…変形パラメータ生成規則生成部 16,18…選択規則生成部 21…代表パターン選択部 23…パターン接続部 31…テキスト解析部 32…音韻ラベリング部 33…ピッチ抽出部 34…アクセント句切り出し部 101,109,122…ピッチパターン 102…属性 103,121…代表パターン 104,114,124…変形パラメータ 105…代表パターン選択規則 106…変形パラメータ生成規則 107…誤差情報 108…クラスタ情報 110…テキスト 111…音声データ 112…音韻ラベル 113,123…文ピッチパターン 120…入力属性
───────────────────────────────────────────────────── フロントページの続き (72)発明者 瀬戸 重宣 兵庫県神戸市東灘区本山南町8丁目6番26 号 株式会社東芝関西研究所内 (72)発明者 新居 孝章 兵庫県神戸市東灘区本山南町8丁目6番26 号 株式会社東芝関西研究所内 (72)発明者 赤嶺 政巳 兵庫県神戸市東灘区本山南町8丁目6番26 号 株式会社東芝関西研究所内

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】音声データに含まれる韻律単位を、代表パ
    ターンに対応するクラスタにクラスタリングし、 前記クラスタ毎に、当該クラスタに属する韻律単位に対
    応する第1のピッチパターンを前記音声データより抽出
    し、 前記クラスタ毎に、当該クラスタに属する韻律単位に対
    応するピッチパターンであって当該クラスタの代表パタ
    ーンに変形を行って生成される第2のピッチパターンと
    前記第1のピッチパターンとの間で定義される歪みの評
    価関数に従って当該クラスタの代表パターンを生成する
    ことを特徴とする音声情報処理方法。
  2. 【請求項2】音声データに含まれる韻律単位を代表パタ
    ーンに対応するクラスタにクラスタリングし、 前記クラスタ毎に、当該クラスタに属する韻律単位に対
    応する第1のピッチパターンを前記音声データより抽出
    し、 前記クラスタ毎に、当該クラスタに属する韻律単位に対
    応するピッチパターンであって当該クラスタの代表パタ
    ーンに変形を行って生成される第2のピッチパターンと
    前記第1のピッチパターンとの間で定義される歪みの評
    価関数に従って当該クラスタの代表パターンを生成し、 これら生成された代表パターンを用いてピッチパターン
    を生成することを特徴とする音声情報処理方法。
  3. 【請求項3】前記クラスタリングにあたっては、 前記韻律単位に対応する第1のピッチパターンを音声デ
    ータから抽出し、 前記韻律単位に対応する第2のピッチパターンを、初期
    代表パターンに変形を行って生成し、 前記第2のピッチパターンの前記第1のピッチパターン
    からの誤差を評価し、前記誤差の値に従って前記クラス
    タリングを行うことを特徴とする請求項1または請求項
    2に記載の音声情報処理方法。
  4. 【請求項4】前記クラスタリングにあたっては、前記韻
    律単位の属性に従って前記クラスタリングを行うことを
    特徴とする請求項1または請求項2に記載の音声情報処
    理方法。
  5. 【請求項5】前記クラスタリングにあたっては、 前記韻律単位に対応する第1のピッチパターンを音声デ
    ータから抽出し、 前記韻律単位に対応する第2のピッチパターンを、初期
    代表パターンに変形を行って生成し、 前記第2のピッチパターンの前記第1のピッチパターン
    からの誤差を評価し、 前記誤差の値および前記韻律単位の属性に従って前記ク
    ラスタリングを行うことを特徴とする請求項1または請
    求項2に記載の音声情報処理方法。
  6. 【請求項6】前記歪みの評価関数は前記第1のピッチパ
    ターンの対数と前記第2のピッチパターンの対数との間
    で定義されるものであることを特徴とする請求項1また
    は請求項2に記載の音声情報処理方法。
  7. 【請求項7】前記韻律単位はアクセント句であることを
    特徴とする請求項1または請求項2に記載の音声情報処
    理方法。
  8. 【請求項8】前記韻律単位は連続するアクセント句の境
    界を含むものであることを特徴とする請求項1または請
    求項2に記載の音声情報処理方法。
  9. 【請求項9】前記代表パターンの変形は時間軸上の伸縮
    を含むものであることを特徴とする請求項1または請求
    項2に記載の音声情報処理方法。
  10. 【請求項10】前記代表パターンの変形は周波数軸上の
    並行移動および伸縮、ならびに対数周波数軸上の並行移
    動および伸縮のうち少なくとも1つを含むものであるこ
    とを特徴とする請求項1または請求項2に記載の音声情
    報処理方法。
  11. 【請求項11】前記代表パターンの変形は微分および積
    分の少なくとも一方を含むことを特徴とする請求項1ま
    たは請求項2に記載の音声情報処理方法。
  12. 【請求項12】韻律単位に対応する第1のピッチパター
    ンを音声データから抽出し、 前記韻律単位に対応する第2のピッチパターンを、代表
    パターンに変形を行って生成し、 前記第2のピッチパターンの前記第1のピッチパターン
    からの誤差を評価し、 前記誤差の値および前記韻律単位の属性に従って、属性
    から代表パターンを選択するための代表パターン選択規
    則を生成することを特徴とする音声情報処理方法。
  13. 【請求項13】韻律単位に対応する第1のピッチパター
    ンを音声データから抽出し、 前記第1のピッチパターンと代表パターンより変形パラ
    メータを生成し、 前記変形パラメータおよび前記韻律単位の属性に従っ
    て、属性から変形パラメータを生成するための変形パラ
    メータ生成規則を生成することを特徴とする音声情報処
    理方法。
JP25049697A 1997-09-16 1997-09-16 ピッチパターン生成方法 Expired - Lifetime JP3667950B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP25049697A JP3667950B2 (ja) 1997-09-16 1997-09-16 ピッチパターン生成方法
US09/149,036 US6529874B2 (en) 1997-09-16 1998-09-08 Clustered patterns for text-to-speech synthesis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP25049697A JP3667950B2 (ja) 1997-09-16 1997-09-16 ピッチパターン生成方法

Publications (2)

Publication Number Publication Date
JPH1195783A true JPH1195783A (ja) 1999-04-09
JP3667950B2 JP3667950B2 (ja) 2005-07-06

Family

ID=17208748

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25049697A Expired - Lifetime JP3667950B2 (ja) 1997-09-16 1997-09-16 ピッチパターン生成方法

Country Status (2)

Country Link
US (1) US6529874B2 (ja)
JP (1) JP3667950B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002333897A (ja) * 2001-03-08 2002-11-22 Matsushita Electric Ind Co Ltd 韻律生成装置および韻律生成方法並びにプログラム
JP2002366177A (ja) * 2001-06-05 2002-12-20 Nec Corp 自然音声の節点抽出装置
WO2003019528A1 (fr) * 2001-08-22 2003-03-06 International Business Machines Corporation Procede de production d'intonation, dispositif de synthese de signaux vocaux fonctionnant selon ledit procede et serveur vocal
US7155390B2 (en) 2000-03-31 2006-12-26 Canon Kabushiki Kaisha Speech information processing method and apparatus and storage medium using a segment pitch pattern model
US7200558B2 (en) 2001-03-08 2007-04-03 Matsushita Electric Industrial Co., Ltd. Prosody generating device, prosody generating method, and program
JP2009175345A (ja) * 2008-01-23 2009-08-06 Toshiba Corp 音声情報処理装置及びその方法
US9020821B2 (en) 2011-03-17 2015-04-28 Kabushiki Kaisha Toshiba Apparatus and method for editing speech synthesis, and computer readable medium

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001034282A (ja) * 1999-07-21 2001-02-09 Konami Co Ltd 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体
GB0022341D0 (en) * 2000-09-12 2000-10-25 Nycomed Imaging As Method
JP2003186490A (ja) * 2001-12-21 2003-07-04 Nissan Motor Co Ltd テキスト音声読み上げ装置および情報提供システム
CN1259631C (zh) * 2002-07-25 2006-06-14 摩托罗拉公司 使用韵律控制的中文文本至语音拼接合成系统及方法
US7805307B2 (en) * 2003-09-30 2010-09-28 Sharp Laboratories Of America, Inc. Text to speech conversion system
WO2005109399A1 (ja) * 2004-05-11 2005-11-17 Matsushita Electric Industrial Co., Ltd. 音声合成装置および方法
JP4025355B2 (ja) * 2004-10-13 2007-12-19 松下電器産業株式会社 音声合成装置及び音声合成方法
CN1811912B (zh) * 2005-01-28 2011-06-15 北京捷通华声语音技术有限公司 小音库语音合成方法
GB2423903B (en) * 2005-03-04 2008-08-13 Toshiba Res Europ Ltd Method and apparatus for assessing text-to-speech synthesis systems
JP2006309162A (ja) * 2005-03-29 2006-11-09 Toshiba Corp ピッチパターン生成方法、ピッチパターン生成装置及びプログラム
US20070038455A1 (en) * 2005-08-09 2007-02-15 Murzina Marina V Accent detection and correction system
US7844457B2 (en) * 2007-02-20 2010-11-30 Microsoft Corporation Unsupervised labeling of sentence level accent
JP2009047957A (ja) * 2007-08-21 2009-03-05 Toshiba Corp ピッチパターン生成方法及びその装置
JP4455633B2 (ja) * 2007-09-10 2010-04-21 株式会社東芝 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
WO2009044596A1 (ja) * 2007-10-05 2009-04-09 Nec Corporation 音声合成装置、音声合成方法および音声合成プログラム
WO2010137385A1 (ja) * 2009-05-28 2010-12-02 インターナショナル・ビジネス・マシーンズ・コーポレーション 話者適応のための基本周波数の移動量学習装置、基本周波数生成装置、移動量学習方法、基本周波数生成方法及び移動量学習プログラム
JP6036682B2 (ja) * 2011-02-22 2016-11-30 日本電気株式会社 音声合成システム、音声合成方法、および音声合成プログラム
US10019995B1 (en) * 2011-03-01 2018-07-10 Alice J. Stiebel Methods and systems for language learning based on a series of pitch patterns
JP6472279B2 (ja) * 2015-03-09 2019-02-20 キヤノン株式会社 画像処理装置及び画像処理方法
US9858923B2 (en) * 2015-09-24 2018-01-02 Intel Corporation Dynamic adaptation of language models and semantic tracking for automatic speech recognition
CN110930975B (zh) * 2018-08-31 2023-08-04 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4696042A (en) * 1983-11-03 1987-09-22 Texas Instruments Incorporated Syllable boundary recognition from phonological linguistic unit string data
US5384893A (en) * 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis
JP2782147B2 (ja) * 1993-03-10 1998-07-30 日本電信電話株式会社 波形編集型音声合成装置
GB2290684A (en) * 1994-06-22 1996-01-03 Ibm Speech synthesis using hidden Markov model to determine speech unit durations
GB2296846A (en) * 1995-01-07 1996-07-10 Ibm Synthesising speech from text
US5832434A (en) * 1995-05-26 1998-11-03 Apple Computer, Inc. Method and apparatus for automatic assignment of duration values for synthetic speech
US5949961A (en) * 1995-07-19 1999-09-07 International Business Machines Corporation Word syllabification in speech synthesis system
US6240384B1 (en) * 1995-12-04 2001-05-29 Kabushiki Kaisha Toshiba Speech synthesis method
US5913193A (en) * 1996-04-30 1999-06-15 Microsoft Corporation Method and system of runtime acoustic unit selection for speech synthesis
US5913194A (en) * 1997-07-14 1999-06-15 Motorola, Inc. Method, device and system for using statistical information to reduce computation and memory requirements of a neural network based speech synthesis system
US6138089A (en) * 1999-03-10 2000-10-24 Infolio, Inc. Apparatus system and method for speech compression and decompression

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7155390B2 (en) 2000-03-31 2006-12-26 Canon Kabushiki Kaisha Speech information processing method and apparatus and storage medium using a segment pitch pattern model
JP2002333897A (ja) * 2001-03-08 2002-11-22 Matsushita Electric Ind Co Ltd 韻律生成装置および韻律生成方法並びにプログラム
US7200558B2 (en) 2001-03-08 2007-04-03 Matsushita Electric Industrial Co., Ltd. Prosody generating device, prosody generating method, and program
US8738381B2 (en) 2001-03-08 2014-05-27 Panasonic Corporation Prosody generating devise, prosody generating method, and program
JP2002366177A (ja) * 2001-06-05 2002-12-20 Nec Corp 自然音声の節点抽出装置
JP4639532B2 (ja) * 2001-06-05 2011-02-23 日本電気株式会社 自然音声の節点抽出装置
WO2003019528A1 (fr) * 2001-08-22 2003-03-06 International Business Machines Corporation Procede de production d'intonation, dispositif de synthese de signaux vocaux fonctionnant selon ledit procede et serveur vocal
US7502739B2 (en) 2001-08-22 2009-03-10 International Business Machines Corporation Intonation generation method, speech synthesis apparatus using the method and voice server
JP2009175345A (ja) * 2008-01-23 2009-08-06 Toshiba Corp 音声情報処理装置及びその方法
US9020821B2 (en) 2011-03-17 2015-04-28 Kabushiki Kaisha Toshiba Apparatus and method for editing speech synthesis, and computer readable medium

Also Published As

Publication number Publication date
US20010051872A1 (en) 2001-12-13
US6529874B2 (en) 2003-03-04
JP3667950B2 (ja) 2005-07-06

Similar Documents

Publication Publication Date Title
JP3667950B2 (ja) ピッチパターン生成方法
JP4176169B2 (ja) 言語合成のためのランタイムアコースティックユニット選択方法及び装置
US7603278B2 (en) Segment set creating method and apparatus
US5905972A (en) Prosodic databases holding fundamental frequency templates for use in speech synthesis
JP4551803B2 (ja) 音声合成装置及びそのプログラム
JP3910628B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP6266372B2 (ja) 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
US11763797B2 (en) Text-to-speech (TTS) processing
JP2009047957A (ja) ピッチパターン生成方法及びその装置
Tsuzuki et al. Constructing emotional speech synthesizers with limited speech database
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
US8478595B2 (en) Fundamental frequency pattern generation apparatus and fundamental frequency pattern generation method
JP4403996B2 (ja) 韻律パターン生成装置および韻律パターン生成方法ならびに韻律パターン生成プログラム
JP4945465B2 (ja) 音声情報処理装置及びその方法
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP3560590B2 (ja) 韻律生成装置および韻律生成方法並びにプログラム
JP2004226505A (ja) ピッチパタン生成方法、音声合成方法とシステム及びプログラム
JP3737788B2 (ja) 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム
JP6137708B2 (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP3505364B2 (ja) 音声データベースにおける音素片情報最適化方法、及び音素片情報最適化装置
JP4034751B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP2011191528A (ja) 韻律作成装置及び韻律作成方法
JP2755478B2 (ja) テキスト音声合成装置
JP2002189489A (ja) 音声合成装置
Hirose et al. Synthesis of fundamental frequency contours for Standard Chinese based on superpositional and tone nucleus models

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050317

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050407

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080415

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090415

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100415

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100415

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110415

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130415

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140415

Year of fee payment: 9

EXPY Cancellation because of completion of term