JP4417892B2 - 音声情報処理装置、音声情報処理方法および音声情報処理プログラム - Google Patents

音声情報処理装置、音声情報処理方法および音声情報処理プログラム Download PDF

Info

Publication number
JP4417892B2
JP4417892B2 JP2005217137A JP2005217137A JP4417892B2 JP 4417892 B2 JP4417892 B2 JP 4417892B2 JP 2005217137 A JP2005217137 A JP 2005217137A JP 2005217137 A JP2005217137 A JP 2005217137A JP 4417892 B2 JP4417892 B2 JP 4417892B2
Authority
JP
Japan
Prior art keywords
parameter
classification
representative
representative parameter
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005217137A
Other languages
English (en)
Other versions
JP2007033870A (ja
Inventor
伸晃 水谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2005217137A priority Critical patent/JP4417892B2/ja
Publication of JP2007033870A publication Critical patent/JP2007033870A/ja
Application granted granted Critical
Publication of JP4417892B2 publication Critical patent/JP4417892B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、例えば、テキスト音声合成のための音声合成方法及び装置に関し、特に、合成音声の自然性に大きく影響する基本周波数パターン生成に関する音声情報処理方法、その装置およびプログラムに関するものである。
近年、任意の文章から人工的に音声信号を生成するテキスト音声合成システムが開発されている。一般的に、このテキスト音声合成システムは、言語処理部、韻律生成部、音声信号生成部の3つのモジュールから構成される。この中で、韻律生成部の性能が合成音声の自然性に関係しており、とりわけ声の高さ(基本周波数)の変化パターンである基本周波数パターンは、合成音声の自然性に大きく影響する。従来のテキスト音声合成における基本周波数パターン生成方法は、比較的単純なモデルを用いて基本周波数パターンの生成を行っていたため、抑揚が不自然で機械的な合成音声となっていた。
こうした問題を解決するために、自然音声から抽出した大量の基本周波数パターンをクラスタリングし、その基本周波数パターン集合に対して統計的な処理を行うことによって生成される代表パターンを用いた基本周波数パターン生成方法が提案されている。例えば、特許文献1では、代表パターンは、各基本周波数パターンと代表パターンに変形を行って合成される合成基本周波数パターンとの間で定義される誤差に基づいてクラスタリングされ、生成される。その後、その代表パターンを選択するための規則は、テキストを解析することにより得られる言語属性などを用いて帰納学習(決定木)などにより生成される方法である。
特開平11−95783号公報
上述したような従来の方法では、代表パターンは合成基本周波数パターンと基本周波数パターンとの誤差を評価しクラスタリングされ、生成される。
しかし、音声合成時において、代表パターンは、代表パターン生成後に生成された代表パターン選択規則から選択される。このため、実際選択される代表パターンと前述誤差尺度に基づいて用いられるべき代表パターンが必ずしも一致するとは限らない。したがって、基本周波数パターン生成方法として利用される際、代表パターンの選択ミスにより不適切な抑揚となる、又は、自然な抑揚を表現できない可能性があるという問題があった。
本発明では、上記従来技術の問題点を解決するためになされたものであって、言語属性などを用いて基本周波数パターンの仮分類を幾通りか行い、その中から前述誤差尺度に基づいて分類を決定し、その代表パターンとその分類を代表パターン選択規則とすることにより、言語属性などにより表現可能な分類の中で前述誤差尺度に基づいて代表パターンが生成されることから、代表パターン選択ミスによる劣化に関して頑健、且つ、より自然な抑揚を表現可能な基本周波数パターンの生成を可能とする音声情報処理方法、音声情報処理装置および音声情報処理プログラムを提供することを目的とする。
上記目的を達成するために、本発明の音声情報処理装置は、韻律制御単位毎の音声パラ
メータと該韻律制御単位に対応するコンテキストとを備えた音声コーパスの該音声パラメ
ータの集合に対して、該コンテキストに基づいて複数の仮分類に分類分けする音声パラメ
ータ仮分類手段と、前記コンテキストに基づいて分類分けした音声パラメータの子集合毎
に、統計的処理を行うことによって時系列点での特徴が統計量で表現されている代表パラ
メータを生成する代表パラメータ生成手段と、生成された前記代表パラメータを変形する
ことにより合成パラメータを生成する代表パラメータ変形手段と、前記コンテキストに基
づいて分類分けした仮分類毎に、前記合成パラメータと前記パラメータの子集合との間で
定義される歪み評価関数を用いて歪み値を計算する歪み値計算手段と、前記複数の仮分類
の中から前記歪み値に基づいて1つの分類を決定することにより、代表パラメータ分類(
選択)規則を生成する代表パラメータ分類(選択)規則生成手段とを具備したことを特徴
とする。
本発明によれば、言語属性などのコンテキストにより基本周波数パターンの仮分類を幾通りか行い、その中から誤差尺度に基づいて分類を決定し、その代表パラメータとその分類を代表パラメータ選択規則とすることにより、コンテキストにより表現可能な基本周波数パターンの分類の中で前述誤差尺度に基づいて代表パラメータが生成されることにより、代表パラメータ選択ミスによる劣化に関して頑健、且つ、より自然な抑揚を表現可能な基本周波数パターンの生成が可能となる。
以下、本発明の実施形態について説明する。第1〜4の実施形態は、音声情報処理装置構築に関するものである。また、第5の実施形態は、構築された装置を用いた音声情報処理装置に関するものである。
(第1の実施形態)
図1は、本発明の第1の実施形態に係る情報処理装置を示すブロック図である。
この第1の実施形態に係る装置は、音声データベースから抽出される韻律制御単位の音声パラメータである基本周波数パターンと該基本周波数パターンに対応するコンテキストとを備えた音声コーパス11を入力とし、前記韻律制御単位毎の基本周波数パターンの集合に対して、該韻律制御単位に対応するコンテキストによる仮分類を幾通りか行う音声パラメータ集合仮分類部1と、前記コンテキストによる仮分類で得られた基本周波数パターンの子集合毎に、統計的な処理を行うことによって時系列点での特徴が統計量で表現されている代表パラメータ14を生成する代表パラメータ生成部2と、該韻律制御単位である基本周波数パターンを表現することを目標として、前記代表パラメータを変形することにより合成基本周波数パターンを作成する代表パラメータ変形部3と、前記コンテキストによる仮分類毎に、該合成基本周波数パターンと該韻律制御単位である基本周波数パターンの子集合との間で定義される歪み評価関数を用いて歪み値を計算する歪み値計算部4と、前記コンテキストによる仮分類と前記歪み値に基づいて分類を決定することにより、代表パラメータ分類(選択)規則15を生成する代表パラメータ分類規則生成部5とを備えている。
次に図1および図2を用いて、本発明の第1の実施形態に係る音声情報処理装置の動作について説明する。なお、図2は、本発明の第1の実施形態に係る音声情報処理装置の動作を示すフローチャートである。
まず、入力となる音声コーパス11の一例を図3に示す。音声コーパス11は、音声データベースから抽出される音声パラメータであるアクセント句毎の基本周波数パターンと該アクセント句にそれぞれ対応するコンテキストとを備えたものである。基本周波数パターンの左側の番号は、実施形態説明用のパターン番号であり、以降、該パターン番号を用いることで対応するコンテキストを参照可能とする。ただし、前記パターン番号は、音声コーパス11に必ずしも備えておく必要はない。本実施形態では、韻律制御単位をアクセント句とし、扱うコンテキストを該アクセント句のアクセント型、モーラ数、そして、アクセント句先頭ポーズの有無としている。
次に、音声パラメータ集合仮分割部1は、音声コーパス11を入力として、前記アクセント句毎の基本周波数パターンの集合に対して、該アクセント句に対応するコンテキストによる仮分類を幾通りか行う(ステップS1)。図4は、本実施形態における音声パラメータ仮分類部による幾通りかの仮分類101の一例であり、図4中の仮分類の一例R1について図5を用いて詳しく説明する。まず、仮分類R1は、該基本周波数パターンに関するコンテキストによるサブ分類規則N1、N2、N3から成る。次に、基本周波数パターン集合Gallを入力とし、各基本周波数パターンに対する分類を行う。例えば、“アクセント型=3、モーラ数=4、先頭境界ポーズ=無”の基本周波数パターン1は、まず、“アクセント型=3”のサブ分類規則N1は適合することからYESの辺を進み、“先頭境界ポーズ=有“のサブ分類規則N3は適合しないことからNOの辺を進む結果、基本周波数パターン子集合G3の要素となる。以上のようにして、仮分類R1は、サブ分類規則N1、N2、N3から成る仮分類規則と、該分類規則により分類された基本周波数パターン子集合G1、G2、G3、G4とからで構成されている。ここで、前記仮分類規則は、用いているコンテキストの各値が取り得る値および範囲に関するサブ分類規則の組合せから自動的に作成することが可能である。また、サブ分類規則は、例えば、“アクセント型=1”、“アクセント型<2”、“モーラ数=3”、“モーラ数<4”、“先頭境界ポーズ=有”などとなる。さらに、前記仮分類規則は、音声学・音韻学などの知識を用いてサブ分類規則の組合せを絞ることも可能である。例えば、“アクセント句単位の基本周波数パターンであれば、
アクセント型が異なるパターンを同一の分類にはするべきではない”といった知識から、アクセント型に関するサブ分類規則を優先的に利用するといったことが考えられる。また、仮分類規則として、質問と呼ばれる前記サブ分類規則が1つの仮分類規則となるものなどを用いてもよい。また、第1の実施形態において、サブ分類規則は、2つに分類する例を挙げていたが、3つに分類するサブ分類規則、また、それ以上の個数に分類するサブ分離規則などを用いることも考えられる。
次に、代表パラメータ生成部2は、音声パラメータ仮分類部1でのコンテキストによる幾通りかの仮分類101で得られた基本周波数パターン子集合毎に、平均化を行うことによって時系列点での特徴が平均値で表現されている代表パラメータ14を生成する(ステップS2)。本実施形態では、統計量を平均値とし、統計的な処理を一般的な平均化としている。図6は、本実施形態により生成される代表パラメータの一例である。代表パラメータを表現する特徴量の統計量として、各点における対数基本周波数の平均値を用いた例であり、1モーラを3点で表現するように正規化されている。そして、図7は、本実施形態での統計な処理による代表パラメータ作成の一例である。図7a)は、音声パラメータ仮分類部1でのコンテキストによる幾通りかの仮分類101のうちの一例としての基本周波数パターン子集合Gである。該子集合は、3個の基本周波数パターンを含んでおり、基本周波数パターンは、アクセント句単位であり、モーラ境界を示してある。図7b)は、基本周波数軸上での伸縮をし、正規化が行われた基本周波数パターンである。基本周波数軸上での正規化方法は、基本周波数パターンの始点がある値となるよう平行移動することを挙げている。図7c)は、時間軸上での正規化が行われた基本周波数パターンである。時間軸上での正規化方法は、各モーラ毎に1モーラ3点となるよう伸縮することを挙げている。図7d)は、時系列点での特徴が平均値で表現されている代表パラメータである。時系列点での特徴の平均化は、正規化された基本周波数パターンの各時系列点を平均したものである。以上の代表パラメータ生成に関する手続きは、
これらの正規化(伸縮)処理を関数f (pi) 、基本周波数パターンをベクトルpiで表すと、正規化により得られる正規化基本周波数パターンベクトルriは次式で表すことができる。
Figure 0004417892
ここで、正規化(伸縮)の処理は、行列Fiをpiに前から掛ける形で数式としては一般化可能である。行列Fiの各要素を決めるにあたり、基本周波数パターンと正規化基本周波数パターンとの対応関係をとるマッピング関数が必要となる。マッピング関数としては、線形関数、シグモイド関数、多次元ガウス関数、また、これらの関数の組合せなどが考えられる。図8a)は、マッピング関数の一例であり、横軸が元となる基本周波数パターンであり、縦軸が対応先となる正規化基本周波数パターンとなっている。マッピング関数は、線形関数の組合せとなっており、点線で示されているモーラ境界を境に、各モーラ内で線形にマッピングを行っている例である。このようにして、基本周波数パターンの各時系列点が、正規化基本周波数パターンの各時系列点にどの程度対応付けられるかといったことより、行列Fiの要素を決めることができる。その際、必要となる情報は、基本周波数パターンの各モーラ毎のサンプル数(継続時間長)であるが、これは一般的に音声データベースに含まれる情報であり、容易に得られる。図8b)は、行列Fiの一例である。piは、行列Fiを用いて、1モーラめを伸張、2モーラめを縮退、そして、3モーラめを維持・保存することにより、正規化されたriとなっている。
また、基本周波数パターンの数をN(= 3)で表すと、生成される代表パラメータベクトルcは次式で表すことができる。
Figure 0004417892
次に、代表パラメータ変形部3は、音声パラメータ仮分類部1でのコンテキストによる幾通りかの仮分類101を用いて、各基本周波数パターン毎に対応する代表パラメータを選択し、前記基本周波数パターンを目標にして代表パラメータを変形し、合成音声パラメータ102を作成する(ステップS3)。ここで、各基本周波数パターンと代表パラメータが対応するとは、基本周波数パターンが、代表パラメータの生成を行った際に用いられたパターンかどうかである。例えば、図7a)の基本周波数パターンと図7d)の代表パラメータとは対応している。図9は、本実施形態での代表パラメータの変形の一例である。図9a)は、代表パラメータを表しており、目標とする基本周波数パターンに対応して選択されたものである。図9b)は、代表パラメータの時間軸上で伸縮であり、目標とする基本周波数パターンの継続時間長と各モーラの長さが等しくなるよう行われる。図9c)は、代表パラメータの周波数軸上で平行移動であり、目標とする基本周波数パターンとの各時系列点での2乗誤差の総和が小さくなるよう行われる。このようにして、代表パラメータを用いて、合成音声パラメータ103が作成される。ここで、以上の変形が必要ない場合をありえるため、代表パラメータ変形部3は必ずしも必要とは限らない。
次に、歪み値計算部4は、音声パラメータ仮分類部1でのコンテキストによる幾通りかの仮分類101と代表パラメータ変形部3による合成音声パラメータ102を用いて、合成音声パラメータと基本周波数パターン子集合との間で定義される歪み値103を計算する(ステップS4)。ある仮分類xにより得られた基本周波数パターン子集合の1つをGとし、子集合G内のある基本周波数パターンベクトルをpiとし、piを目標として代表パラメータcを変形する(関数h (c,pi)を計算する)ことにより作成された合成音声パラメータを<pi>と表すと、合成音声パラメータと基本周波数パターン子集合との間で定義される歪み値Σ(G,c) は次式で表すことができる。
Figure 0004417892
次に、代表パラメータ分類規則生成部5は、音声パラメータ仮分類部1でのコンテキストによる幾通りかの仮分類101と歪み値計算部4での合成音声パラメータと基本周波数パターン子集合との間で定義される歪み値103を用いて、分類を決定することにより、代表パラメータ分類(選択)規則を生成する(ステップS5)。音声コーパス11に備えられた基本周波数パターン集合をGallとし、ある仮分類xにより得られた基本周波数パターン子集合の集合をG(x) = { G(1),G(2),…,G(m) ,… }とし、基本周波数パターン子集合G(m)に対応する代表パラメータをc (m) と表すと、分類を決定する基準を次式で表すことができ、得られたxBESTを代表パラメータ分類(選択)規則15として採用する。
Figure 0004417892
以上から、本発明の第1の実施形態に係る音声情報処理装置は、得られた代表パラメータ分類(選択)規則15と該分類規則に対応する前記代表パラメータ14を出力する。
このように、第1の実施形態に係る音声情報処理装置によれば、コンテキストによる基本周波数パターンの仮分類を幾通りか行い、それぞれに対して代表パラメータを生成し、代表パラメータを変形することで得られる合成音声パラメータと基本周波数パターンとの歪み値に基づいて、代表パラメータ分類(選択)規則と、該分類規則に対応する代表パラメータとを出力することで、代表パラメータ選択ミスによる劣化に関して頑健、且つ、より自然な抑揚を表現可能な合成音声パラメータ(例えば、基本周波数パターン)を生成することが可能となる。
ここで、音声コーパス11に備えられる基本周波数パターンは、基本周波数そのものの系列、若しくは、音の高さを知覚する際の人の聴覚特性を考慮した対数基本周波数の系列を用いることが考えられる。
また、コンテキストは、規則合成器で用いられるような情報のうち抑揚に影響を与えると考えられる情報、例えば、アクセント型、モーラ数、音韻の種類、アクセント句境界のポーズの有無、文中でのアクセント句の位置といったテキストを解析することにより得られる該韻律制御単位に関する言語情報、もしくは、所定の属性のうち少なくとも1つの値を用いることが考えられる。
また、韻律制御単位は、学習データとしての基本周波数パターンのデータ量と基本周波数パターンの組合せによる抑揚に関する表現力とのバランスを考慮して、HMM等により1音素を複数に分割した単位、半音素、音素、音節、モーラ、形態素、単語、アクセント句、呼気段落、文、これらを組合せた単位のうち少なくとも1つを用いることが考えられる。
また、属性は、アクセントの高さなどの変化に影響を与えると考えられるプロミネンスに関する情報や、発声全体における基本周波数パターンの変化に影響を与えると考えられる抑揚・発話スタイルといった情報、更に、質問・断定・強調といった意図を表す情報、疑い・関心・落胆・感心といった心的態度を表す情報のうち少なくとも1つを用いることが考えられる。
また、代表パラメータの時系列点の統計量は、基本周波数パターンの時系列点に対して統計的な処理を行うことによって得られるものであって、該時系列点の平均値、分散値、標準偏差値のうち少なくとも1つ用いることが考えられる。統計量は、分散値、標準偏差値を一定と仮定した場合や、分散値、標準偏差値そのものを扱っていない場合などであれば、平均値若しくは平均値に相当する値のみという場合も考えられる。
また、代表パラメータの変形は、目標とする基本周波数パターンに対して、横軸(継続時間長に合わせた時間軸)方向の伸縮、基本周波数の変化に合わせた縦軸(周波数軸)方向の伸縮、縦軸(周波数軸)方向のオフセットに合わせた周波数軸方向の移動、これらの組合せのうち少なくとも1つを用いることが考えられる。例えば、目標とする基本周波数パターンベクトルをpiとし、代表パターンベクトルをcとした時、変形を行う関数( h (c,Di,bi,gi) )は、伸縮を行う行列Diと周波数軸方向の移動を行う値biと、そして、周波数軸方向の伸縮を行う値gi
を用いて、次式で表すことができる。
Figure 0004417892
ここで、ベクトル1は、要素がすべて1のベクトルとする。また、変形に用いるDi, bi, gi は、前記数3をそれぞれで編微分して0とおいた方程式を解くことにより求めることができる。また、時間軸方向の伸縮を行う行列Diは、アクセント句単位の代表パラメータを伸縮する場合はモーラ境界を目標基本周波数パターンに合わせて線形伸縮もしくは傾き一定で伸縮するといった制約を設けることにより、行列の要素を容易に決める(求める)こともできる。
さらに、目標とする基本周波数パターンが未知の時、つまり、音声合成などで本変形を行う場合は、代表パラメータベクトルをcとした時、変形を行う関数( <h(c,Di,bi,gi) >)は、伸縮を行う行列<Di>と周波数軸方向の移動を行う値と<bi>、そして、周波数軸方向の伸縮を行う値<gi>を用いて、次式で表すことができる。
Figure 0004417892
ここで、変形に用いる<Di>,<bi>,<gi> は、それぞれもしくは組合せ毎に数量化I類などの統計的手法や、なんらかの帰納学習法・多次元正規分布・GMMなどの公知の方法を用いてモデル化されたモデルから生成されたものを用いることもできる。
また、合成音声パラメータと前記基本周波数パターンの子集合との間で定義される歪み評価関数は、各時系列点での2乗誤差の総和を計算する方法が考えられる。さらに、決まり文句といった基本周波数パターン毎の重要度や、基本周波数パターン子集合に含まれる基本周波数パターン数などを用いて、各時系列点での重み付け2乗誤差の総和を計算する方法も考えられる。さらに、各時系列点の分布は一般的に均一ではないことから、各時系列点の分散(標準偏差)により重み付けが行われる各時系列点での対数尤度の総和を計算する方法も考えられる。さらに、前記2乗誤差の総和と同様にして、各時系列点での重み付け対数尤度の総和を計算する方法も考えられる。
また、代表パラメータを生成する統計的な処理は、前記1式、数2で示したような一般的な平均の計算をして代表パラメータを生成する方法が考えられる。さらに、各時系列点の分布は一般的に均一ではないことから、平均および分散(標準偏差)を計算して代表パラメータを生成する方法が考えられる。さらに、前記歪み評価関数を最適化(最大化もしくは最小化)するよう計算する方法も考えられえる。例えば、前記数3の歪み評価関数であれば、代表パラメータベクトルcについて編微分して0とおいた次式で表される方程式を解くことによって代表パラメータを生成する方法が考えられる。
Figure 0004417892
ここで、前記数3の歪み評価関数は、代表パラメータベクトルcを用いているため、前記数5で表される方程式を1度解くだけでは良い代表パラメータは生成できない。
そのため、適当な代表パラメータベクトルcの初期値を設定し、その都度前記歪み評価関数による方程式を解くというステップを何度か繰り返す必要がある。ここで、代表パラメータベクトルcの初期値としては、例えば、先見的な知識に基づいて用意した適当な特性を持つものであってもよい。あるいは、ノイズ・データの系列を用いてもよい。あるいは、前記数1、2で示したようなcを用いてもよい。また、前記ステップの繰り返し条件は、前記歪み評価関数による歪み値の変化がある値に収束したかどうかといったものや、ある指定回数繰り返したかどうかといったものが考えられる。
さらに、前記歪み評価関数が単純な形ではなく、代表パラメータベクトルcについて編微分して0とおいた次式で表される方程式を直接解くことが困難な場合などは、勾配法などを用いて準最適と考えられる代表パラメータを生成する方法が考えられる。
なお、この音声情報処理装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、音声コーパス、代表パラメータ、代表パラメータ分類(選択)規則、そして、音声パラメータ集合仮分類部、代表パラメータ生成部、代表パラメータ変形部、歪み値計算部、代表パラメータ分類規則生成部は、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、音声情報処理装置は、上記のプログラムをコンピュータ装置にあらかじめインストールすることで実現してもよいし、CD−ROMなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、音声コーパス、代表パラメータ、代表パラメータ分類(選択)規則は、上記のコンピュータ装置に内蔵あるいは外付けされたメモリ、ハードディスクもしくはCD−R、CD−RW、DVD−RAM、DVD−Rなどの記憶媒体などを適宜利用して実現することができる。
(第2の実施形態)
次に、本発明の第2の実施形態について説明する。
図10は、本発明の第2の実施形態に係る音声情報処理方法を実現する音声情報処理装置の構成を示すブロック図である。以下、図1、図10と対応する部分に同一の参照符号を付して相違点を中心に説明する。この第2の実施形態に係る音声情報処理装置の大きな違いは、第1の実施形態と同様のブロックを備えているが、音声パラメータ集合仮分類部1と、代表パラメータ生成部2と、代表パラメータ変形部3と、歪み値計算部4と、代表パラメータ分類規則生成部5とを一つのまとまり(ブロック)とし、これを数段直列に連結した構成となっていることである。
次に図10および図11を用いて、本発明の第2の実施形態に係る音声情報処理装置の動作について説明する。なお、図11は、本発明の第2の実施形態に係る音声情報処理装置の動作を示すフローチャートであり、図2と対応する部分に同一の参照符号を付して相違点を中心に説明する。
第1の実施形態との相違点は2つある。相違点1は、図10のブロック間の接続である前ブロック出力(後ブロック入力)104である。相違点2は、図10の代表パラメータ12・代表パラメータ分類(選択)規則13である。
まず、相違点1を図12用いて説明する。図12は、1段目のブロックにより決定された1つの分類規則を示しており、分類規則を決定する際用いられた基本周波数パターン子集合G1、G2、G3、G4も併記してある。ここで、各基本周波数パターン子集合Gn(n=1,2,3,4)は、数個の基本周波数パターンを含んでいる。また、各基本周波数パターンはそのIDから音声コーパス中のコンテキストを参照可能であった。つまり、基本周波数パターン子集合Gnは、音声コーパスから一部を抽出したサブ音声コーパスと見なすことができる。そこで、第2の実施形態では、このサブ音声コーパスを次の段のブロックの入力とし、複数段のブロックを直列に連結している。ここで、ブロックを複数段連結することは、複雑な問題を小さな問題の集合と捉えることができ、問題の簡略化を行える。つまり、第1の実施形態において、音声パラメータ集合仮分類部1から得られる幾通りかの仮分類101は、コンテキストのとり得る値の組合せから膨大な数となっていたが、問題を細分化することにより、第2の実施形態では軽減される。
次に、相違点2について説明する。第2の実施形態では、問題を細分化することを行ったため、最終的には必要のない、代表パラメータおよび代表パラメータ分類(選択)規則が生成される。そこで、図10では、これらを代表パラメータ12・代表パラメータ分類(選択)規則13とし、最終段のブロックから生成される代表パラメータ14・代表パラメータ分類(選択)規則15を音声情報処理装置からの出力としている。
ここで、ブロックの連結する段数としては、装置を実現する際のコストや経験的な知識などにより様々な段数を用いることが可能である。
また、ブロックが多段に連結されることから、最終段までのブロックから出力される
サブ音声コーパス104は、必ずしも1つの分類規則から出力される必要はない。つまり、
複数の分類規則を保持しておき、最終段のブロックによりいずれかを選択することも可能である。
このように、第2の実施形態に係る音声情報処理装置によれば、コンテキストによる基本周波数パターンの仮分類を幾通りか行い、それぞれに対して代表パラメータを生成し、代表パラメータを変形することで得られる合成音声パラメータと基本周波数パターンとの歪み値に基づいて、代表パラメータ分類(選択)規則と、該分類規則に対応する代表パラメータとを出力することを繰り返し行うことにより、大きな問題を小さな問題の集合と捉えることで、代表パラメータ選択ミスによる劣化に関して頑健、且つ、より自然な抑揚を表現可能な合成音声パラメータ(例えば、基本周波数パターン)を生成することが可能となる。
なお、この音声情報処理装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、音声コーパス、代表パラメータ、代表パラメータ分類(選択)規則、そして、音声パラメータ集合仮分類部、代表パラメータ生成部、代表パラメータ変形部、歪み値計算部、代表パラメータ分類規則生成部は、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、音声情報処理装置は、上記のプログラムをコンピュータ装置にあらかじめインストールすることで実現してもよいし、CD−ROMなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、音声コーパス、代表パラメータ、代表パラメータ分類(選択)規則は、上記のコンピュータ装置に内蔵あるいは外付けされたメモリ、ハードディスクもしくはCD−R、CD−RW、DVD−RAM、DVD−Rなどの記憶媒体などを適宜利用して実現することができる。
(第3の実施形態)
次に、本発明の第3の実施形態について説明する。
図13は、本発明の第3の実施形態に係る音声情報処理方法を実現する音声情報処理装置の構成を示すブロック図である。以下、図10、図13と対応する部分に同一の参照符号を付して相違点を中心に説明する。この第3の実施形態に係る音声情報処理装置の大きな違いは、ブロック後段に代表パラメータと分類規則の生成の繰返しを判定する繰返し条件判定部6を備え、サブ音声コーパス104をブロック前段に入力していることである。
次に図13および図14を用いて、本発明の第3の実施形態に係る音声情報処理装置の動作について説明する。なお、図14は、本発明の第3の実施形態に係る音声情報処理装置の動作を示すフローチャートであり、図11と対応する部分に同一の参照符号を付して相違点を中心に説明する。
第2の実施形態との相違点は1つである。相違点は、図13のブロック間に接続される
繰返し条件判定部6である。
まず、ブロックでは、前記実施形態と同様に、音声パラメータ集合の仮分類(ステップS1)、代表パラメータの生成(ステップS2)、代表パラメータの変形(ステップS3)、歪み値の計算(ステップS4)、代表パラメータ分類規則の生成(ステップS5)が行われる。
次に、繰返し条件判定部6では、代表パラメータ数や前記数3などを入力105とし、代表パラメータ・代表パラメータ分類規則の生成を繰返すかどうかを判定する(ステップS6)。判定結果により「終了」となれば、手続きは終了し、「繰返し」となれば、ステップS1へと手続きは繰返される。
ここで、繰返し条件の判定基準としては、先見的な知識などからある指定回数繰返したかどうかで終了を判定する基準が考えられる。また、様々な利用条件が挙げられるため、汎用性という観点から、記憶手段の容量や先見的な知識やCrossValidation(相互検証法)などから得られた指定代表パターン数に達したかどうかという基準が考えられる。また、前記数3などから歪み値を事前に求めていることから、繰返し回数毎の歪み値に基づいて、歪み値の差(変化量)がある一定値を下回った時点で収束したと見なし、終了する基準も考えられる。また、一般的な基準の1つであるMDL基準などの情報量基準を用いて、終了を判定する基準も考えられる。
このように、第3の実施形態に係る音声情報処理装置によれば、コンテキストによる基本周波数パターンの仮分類を幾通りか行い、それぞれに対して代表パラメータを生成し、代表パラメータを変形することで得られる合成音声パラメータと基本周波数パターンとの歪み値に基づいて、代表パラメータ分類(選択)規則と、該分類規則に対応する代表パラメータとを出力することを繰り返し行うことにより、大きな問題を小さな問題の集合と捉えることで、代表パラメータ選択ミスによる劣化に関して頑健、且つ、より自然な抑揚を表現可能な合成音声パラメータ(例えば、基本周波数パターン)を生成することが可能となる。
なお、この音声情報処理装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、音声コーパス、代表パラメータ、代表パラメータ分類(選択)規則、そして、音声パラメータ集合仮分類部、代表パラメータ生成部、代表パラメータ変形部、歪み値計算部、代表パラメータ分類規則生成部、繰返し条件判定部は、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、音声情報処理装置は、上記のプログラムをコンピュータ装置にあらかじめインストールすることで実現してもよいし、CD−ROMなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、音声コーパス、代表パラメータ、代表パラメータ分類(選択)規則は、上記のコンピュータ装置に内蔵あるいは外付けされたメモリ、ハードディスクもしくはCD−R、CD−RW、DVD−RAM、DVD−Rなどの記憶媒体などを適宜利用して実現することができる。
(第4の実施形態)
次に、本発明の第4の実施形態について説明する。
図15は、本発明の第4の実施形態に係る音声情報処理方法を実現する音声情報処理装置の構成を示すブロック図である。以下、図1、図15と対応する部分に同一の参照符号を付して相違点を中心に説明する。この第4の実施形態に係る音声情報処理装置の大きな違いは、前記実施形態が「分類」をベースにした形態であったことに対して、本実施形態は「統合」をベースにした形態であることである。図17は、第1の実施形態と第4の実施形態を比較した図である。第1の実施形態は、音声コーパスそのもののサブ分類(分割)を繰返すことにより適度な数の音声パラメータの子集合を探索する。これに対して、第4の実施形態は、音声パラメータのサブ統合(結合)を繰返すことにより適度な数の音声パラメータの親集合を探索する。第1の実施形態がトップダウンに探索する方法に対して、第4の実施形態はボトムアップに探索する方法といえる。ここで、概念的な構成の違いはあるものの、基本的な構成部は同じであり、図15の音声パラメータ集合仮統合部7は、図1の音声パラメータ集合仮分類部1に対応し、図15の代表パラメータ統合規則生成部8は、図1の代表パラメータ分類規則生成部5に対応している。
次に図15および図16を用いて、本発明の第4の実施形態に係る音声情報処理装置の動作について説明する。なお、図16は、本発明の第4の実施形態に係る音声情報処理装置の動作を示すフローチャートであり、図2と対応する部分に同一の参照符号を付して相違点を中心に説明する。
第1の実施形態との相違点は2つある。相違点1は、図15の音声パラメータ集合仮統合部7である。相違点2は、図15の代表パラメータ統合規則生成部8である。
まず、音声パラメータ集合仮統合部7は、音声コーパス11を入力として、前記アクセント句毎の基本周波数パターンの集合に対して、該アクセント句に対応するコンテキストによる仮統合を幾通りか行う(ステップS11)。ここで、この統合の操作は、第1の実施形態図1の音声パラメータ集合仮分類部1と逆の操作となっている。つまり、音声コーパス11は、分類(分割)を繰返すと最終的には各音声パラメータ(基本周波数パターン)となり、逆に、各音声パラメータ(基本周波数パターン)は、統合(集約)を繰返すと最終的には音声コーパス11となるからである。但し本実施形態の場合、各仮統合は、求める親集合群を更に統合し最終的に音声コーパスと等価な集合までなっている必要がある。これは、音声合成などでこの統合(選択)規則を利用する際、代表パラメータを選択する際に必要となるからである。また、求める親集合群は、様々な集合が考えられるが、可能な限りすべての組合せを網羅することが望まれるが、実施上の問題等であらかじめ限定しておいてもよい。
次に、代表パラメータ統合規則生成部8は、音声パラメータ仮統合部7でのコンテキストによる幾通りかの仮統合106と歪み値計算部4での合成音声パラメータと基本周波数パターン親集合との間で定義される歪み値103を用いて、統合を決定することにより、代表パラメータ統合(選択)規則を生成する(ステップS5)。本実施形態と第1の実施形態との相違点は、決定する対象が、統合(選択)規則か分類(選択)規則かの相違であるのみである。
このように、第4の実施形態に係る音声情報処理装置によれば、コンテキストによる基本周波数パターンの仮統合を幾通りか行い、それぞれに対して代表パラメータを生成し、代表パラメータを変形することで得られる合成音声パラメータと基本周波数パターンとの歪み値に基づいて、代表パラメータ統合(選択)規則と、該統合規則に対応する代表パラメータとを出力することで、代表パラメータ選択ミスによる劣化に関して頑健、且つ、より自然な抑揚を表現可能な合成音声パラメータ(例えば、基本周波数パターン)を生成することが可能となる。
なお、この音声情報処理装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、音声コーパス、代表パラメータ、代表パラメータ統合(選択)規則、そして、音声パラメータ集合仮統合部、代表パラメータ生成部、代表パラメータ変形部、歪み値計算部、代表パラメータ統合規則生成部は、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、音声情報処理装置は、上記のプログラムをコンピュータ装置にあらかじめインストールすることで実現してもよいし、CD−ROMなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、音声コーパス、代表パラメータ、代表パラメータ統合(選択)規則は、上記のコンピュータ装置に内蔵あるいは外付けされたメモリ、ハードディスクもしくはCD−R、CD−RW、DVD−RAM、DVD−Rなどの記憶媒体などを適宜利用して実現することができる。
(第5の実施形態)
次に、本発明の第5の実施形態について説明する。
図19は、本発明の第4の実施形態に係る音声情報処理方法を実現する音声情報処理装置の構成を示すブロック図である。
この第5の実施形態に係る音声情報処理装置は、入力コンテキストから代表パラメータ14と代表パラメータ選択規則15を用いて、代表パラメータを選択する代表パラメータ選択部21と、選択された該代表パラメータを変形し、合成音声パラメータを出力する代表パラメータ変形部22とを備えている。
次に図19および図20を用いて、本発明の第5の実施形態に係る音声情報処理装置の動作について説明する。なお、図20は、本発明の第5の実施形態に係る音声情報処理装置の動作を示すフローチャートである。
まず代表パラメータ選択部21は、あるコンテキスト31を入力として、代表パラメータ選択規則15および代表パラメータ14を用いて、韻律制御単位毎のコンテキストにそれぞれ対応した代表パラメータ201を選択する(ステップS21)。図21は、本実施形態における代表パラメータの選択に関する一例である。コンテキスト31は、韻律制御単位毎のサブコンテキスト(1)・(2)(3)から成る。代表パラメータ選択部21は、コンテキストの情報に基づいて、前記サブコンテキスト(1)・(2)・(3)に対して、それぞれ代表パラメータIV・VI・Iを選択することとなる。
次に、代表パラメータ変形部22は、選択された代表パラメータ201を基に、合成音声パラメータを作成するよう各代表パラメータの変形を行う(ステップS22)。ここで、
前記第1の実施形態で述べたとおり、音声合成などでの利用を想定した本実施形態では、変形を行う際必要となるサブパラメータ(時間軸伸縮を行う行列<Di>、周波数軸方向の移動を行う値<bi>、周波数軸方向の伸縮を行う値<gi>など)が必要となる。そこで、これらサブパラメータは、前記コンテキスト31と同じく外部から適宜入力されるものとする。例えば、数量化I類などの統計的手法や、なんらかの帰納学習法・多次元正規分布・GMMなどの公知の方法を用いてモデル化されたモデルに、前記コンテキスト31を入力として、生成する方法が考えられる。
このように、第5の実施形態に係る音声情報処理装置によれば、代表パラメータから合成された合成音声パラメータと音声パラメータの集合とで定義された誤差評価関数に基づいて生成された代表パラメータ・代表パラメータ選択規則を用いて、入力コンテキストに対する代表パラメータを選択し、変形し合成することで、代表パラメータ選択ミスによる劣化に関して頑健、且つ、より自然な抑揚を表現可能な合成音声パラメータ(例えば、基本周波数パターン)を生成することが可能となる。
なお、この音声情報処理装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、代表パラメータ、代表パラメータ選択規則、代表パラメータ選択部、代表パラメータ変形部は、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、音声情報装置は、上記のプログラムをコンピュータ装置にあらかじめインストールすることで実現してもよいし、CD−ROMなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、代表パラメータおよび代表パラメータ選択規則は、上記のコンピュータ装置に内蔵あるいは外付けされたメモリ、ハードディスクもしくはCD−R、CD−RW、DVD−RAM、DVD−Rなどの記憶媒体などを適宜利用して実現することができる。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組合せにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組合せてもよい。
本発明の第1の実施形態に係る音声情報処理装置の構成を示すブロック図。 本発明の第1の実施形態の動作を示すフローチャート。 音声コーパスの一例を説明する図。 音声パラメータ仮分類部による幾通りかの仮分類例を説明する図。 コンテキストによる仮分類の一例を説明する図。 代表パラメータの一例を説明する図。 統計的な処理による代表パラメータ作成の一例を説明する図。 基本周波数パターンと正規化基本周波数パターンの対応関係の一例を説明する図。 代表パラメータの変形の一例を説明する図。 本発明の第2の実施形態に係る音声情報処理装置の構成を示すブロック図。 本発明の第2の実施形態の動作を示すフローチャート。 本発明の第2の実施形態のブロック間の接続を説明する図。 本発明の第3の実施形態に係る音声情報処理装置の構成を示すブロック図。 本発明の第3の実施形態の動作を示すフローチャート。 本発明の第4の実施形態に係る音声情報処理装置の構成を示すブロック図。 本発明の第4の実施形態の動作を示すフローチャート。 本発明の第1の実施形態と第4の実施形態の比較を示す図。 音声パラメータ仮統合部による幾通りかの仮統合例を説明する図。 本発明の第5の実施形態に係る音声情報処理装置の構成を示すブロック図。 本発明の第5の実施形態の動作を示すフローチャート。 本発明の第5の実施形態の代表パラメータ選択部の動作一例を説明する図。
符号の説明
1・・・音声パラメータ集合仮分類部
2・・・代表パラメータ生成部
3・・・代表パラメータ変形部
4・・・歪み値計算部
5・・・代表パラメータ分類規則生成部
6・・・繰返し条件判定部
7・・・音声パラメータ集合仮統合部
8・・・代表パラメータ統合規則生成部
11・・・音声コーパス
12・・・代表パラメータ
13・・・代表パラメータ選択規則
14・・・代表パラメータ
15・・・代表パラメータ選択規則
21・・・代表パラメータ選択部

Claims (13)

  1. 韻律制御単位毎の音声パラメータと該韻律制御単位に対応するコンテキストとを備えた
    音声コーパスの該音声パラメータの集合に対して、該コンテキストに基づいて複数の仮分
    類に分類分けする音声パラメータ仮分類手段と、
    前記コンテキストに基づいて分類分けした音声パラメータの子集合毎に、統計的処理を
    行うことによって時系列点での特徴が統計量で表現されている代表パラメータを生成する
    代表パラメータ生成手段と、
    生成された前記代表パラメータを変形することにより合成パラメータを生成する代表パ
    ラメータ変形手段と、
    前記コンテキストに基づいて分類分けした仮分類毎に、前記合成パラメータと前記パラ
    メータの子集合との間で定義される歪み評価関数を用いて歪み値を計算する歪み値計算手
    段と、
    前記複数の仮分類の中から前記歪み値に基づいて1つの分類を決定することにより、代
    表パラメータ分類(選択)規則を生成する代表パラメータ分類(選択)規則生成手段とを
    具備したことを特徴とする音声情報処理装置。
  2. 前記代表パラメータを記憶する代表パラメータ記憶手段と、
    前記代表パラメータ分類(選択)規則を記憶する代表パラメータ選択規則記憶手段と、
    記憶された前記代表パラメータと前記代表パラメータ分類(選択)規則を用いて、前記
    韻律制御単位毎のコンテキストに応じた代表パラメータを選択する代表パラメータ選択手
    段と、
    選択された前記代表パラメータを変形することにより音声パラメータを合成する代表パ
    ラメータ変形手段とを具備したことを特徴とする請求項1に記載の音声情報処理装置。
  3. 前記音声パラメータとして、基本周波数パターンを用いることを特徴とした請求項1又
    は請求項2に記載の音声情報処理装置。
  4. 前記コンテキストに基づいて分類分けされた基本周波数パターンの子集合に対して、
    前記コンテキストによる分類分け、代表パラメータの生成、合成音声パラメータの生成
    、歪み値の計算、代表パラメータ分類(選択)規則の生成の処理を繰返すことを特徴とし
    た請求項3に記載の音声情報処理装置。
  5. 前記コンテキストは、テキストを解析することにより得られる前記韻律制御単位に関す
    る言語情報もしくは任意の属性のうち少なくとも1つの値であることを特徴とする請求項
    1乃至請求項4のいずれか1項に記載の音声情報処理装置。
  6. 前記韻律制御単位は、HMM等により1音素を複数に分割した単位、半音素、音素、音
    節、モーラ、形態素、単語、アクセント句、呼気段落、文、これらを組合せた単位のうち
    少なくとも1つが用いられることを特徴とする請求項1乃至請求項4のいずれか1項に記
    載の音声情報処理装置。
  7. 前記属性は、プロミネンスに関する情報、発話スタイルの情報、質問・断定・強調とい
    った意図を表す情報、疑い・関心・落胆・感心といった心的態度を表す情報のうち少なく
    とも1つが用いられることを特徴とする請求項5に記載の音声情報処理装置。
  8. 前記統計量 は、平均、分散(標準偏差)、これらを組合せたうち少なくとも1つが用い
    られることを特徴とする請求項1乃至請求項4のいずれか1項に記載の音声情報処理装置
  9. 前記合成音声パラメータと前記音声パラメータの子集合との間で定義される歪み評価関
    数は、各時系列点での2乗誤差の総和、各時系列点での重み付け2乗誤差の総和、各時系
    列点での対数尤度の総和、各時系列点での重み付け対数尤度の総和のうちいずれかである
    ことを特徴とする請求項1乃至請求項4のいずれか1項に記載の音声情報処理装置。
  10. 前記代表パラメータを生成する統計的な処理は、一般的な平均を計算すること、平均・
    分散の計算をすること、前記歪み評価関数を最適化(最大化もしくは最小化)するように
    計算すること、前記歪み評価関数を準最適化することのうちいずれかであることを特徴と
    する請求項1乃至請求項4のいずれか1項に記載の音声情報処理装置。
  11. 前記代表パラメータの変形は、横軸(例えば、時間軸)方向の伸縮、縦軸(例えば、周
    波数軸)方向の伸縮、縦軸方向の移動、これらの組合せのうち少なくとも1つが用いられ
    ることを特徴とする請求項1乃至請求項4のいずれか1項に記載の音声情報処理装置。
  12. 韻律制御単位毎の音声パラメータと該韻律制御単位に対応するコンテキストとを備えた
    音声コーパスの該音声パラメータの集合に対して、該コンテキストに基づいて複数の仮分
    類に分類分けし、
    前記コンテキストに基づいて分類分けした音声パラメータの子集合毎に、統計的処理を
    行うことによって時系列点での特徴が統計量で表現されている代表パラメータを生成し、
    生成された前記代表パラメータを変形することにより合成パラメータを生成し、
    前記コンテキストに基づいて分類分けした仮分類毎に、前記合成パラメータと前記パラ
    メータの子集合との間で定義される歪み評価関数を用いて歪み値を計算し、
    前記複数の仮分類の中から前記歪み値に基づいて1つの分類を決定することにより、代
    表パラメータ分類(選択)規則を生成し、
    前記代表パラメータ分類(選択)規則と、前記分類(選択)規則に対応する前記代表パ
    ラメータとを出力することを特徴とする音声情報処理方法。
  13. 音声情報処理装置としてコンピュータを機能させるためのプログラムにおいて、
    前記プログラムは、
    韻律制御単位毎の音声パラメータと該韻律制御単位に対応するコンテキストとを備えた
    音声コーパスの該音声パラメータの集合に対して、該コンテキストに基づいて複数の仮分
    類に分類分けするステップと、
    前記コンテキストに基づいて分類分けした音声パラメータの子集合毎に、統計的処理を
    行うことによって時系列点での特徴が統計量で表現されている代表パラメータを生成する
    ステップと、
    生成された前記代表パラメータを変形することにより合成パラメータを生成するステッ
    プと、
    前記コンテキストに基づいて分類分けした仮分類毎に、前記合成パラメータと前記パラ
    メータの子集合との間で定義される歪み評価関数を用いて歪み値を計算するステップと、
    前記複数の仮分類の中から前記歪み値に基づいて1つの分類を決定することにより、代
    表パラメータ分類(選択)規則を生成するステップとをコンピュータに実行させ、
    前記代表パラメータ分類(選択)規則と、前記分類(選択)規則に対応する前記代表パ
    ラメータとをコンピュータに出力させることを特徴とする音声情報処理プログラム。
JP2005217137A 2005-07-27 2005-07-27 音声情報処理装置、音声情報処理方法および音声情報処理プログラム Active JP4417892B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005217137A JP4417892B2 (ja) 2005-07-27 2005-07-27 音声情報処理装置、音声情報処理方法および音声情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005217137A JP4417892B2 (ja) 2005-07-27 2005-07-27 音声情報処理装置、音声情報処理方法および音声情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2007033870A JP2007033870A (ja) 2007-02-08
JP4417892B2 true JP4417892B2 (ja) 2010-02-17

Family

ID=37793210

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005217137A Active JP4417892B2 (ja) 2005-07-27 2005-07-27 音声情報処理装置、音声情報処理方法および音声情報処理プログラム

Country Status (1)

Country Link
JP (1) JP4417892B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4455610B2 (ja) 2007-03-28 2010-04-21 株式会社東芝 韻律パタン生成装置、音声合成装置、プログラムおよび韻律パタン生成方法
JP4945465B2 (ja) * 2008-01-23 2012-06-06 株式会社東芝 音声情報処理装置及びその方法

Also Published As

Publication number Publication date
JP2007033870A (ja) 2007-02-08

Similar Documents

Publication Publication Date Title
JP4738057B2 (ja) ピッチパターン生成方法及びその装置
US8290773B2 (en) Information processing apparatus, method and recording medium for generating acoustic model
US9135910B2 (en) Speech synthesis device, speech synthesis method, and computer program product
KR101153129B1 (ko) 자동 음성 인식 시스템들의 음향 모델들로부터 발생된합성형 입력들을 사용하는 자동 음성 인식 시스템들의 시험및 조정
WO2010116549A1 (ja) 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
JP2009139949A (ja) 差分韻律適応モデルのトレーニング方法及び装置、差分韻律適応モデルの生成方法及び装置、韻律推定方法及び装置、音声合成方法及び装置
JP2007279744A (ja) F0および休止予測モデルを訓練する方法および装置、f0および休止予測方法および装置、音声合成方法および装置
US8407053B2 (en) Speech processing apparatus, method, and computer program product for synthesizing speech
JP4353202B2 (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
US8478595B2 (en) Fundamental frequency pattern generation apparatus and fundamental frequency pattern generation method
JP4945465B2 (ja) 音声情報処理装置及びその方法
JP4417892B2 (ja) 音声情報処理装置、音声情報処理方法および音声情報処理プログラム
JP4716125B2 (ja) 発音評定装置、およびプログラム
JP4839970B2 (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
JP2010060846A (ja) 合成音声評価システム及び合成音声評価方法
Chunwijitra et al. A tone-modeling technique using a quantized F0 context to improve tone correctness in average-voice-based speech synthesis
JP5344396B2 (ja) 言語学習装置、言語学習プログラム及び言語学習方法
JP5393546B2 (ja) 韻律作成装置及び韻律作成方法
JP4787769B2 (ja) F0値時系列生成装置、その方法、そのプログラム、及びその記録媒体
JP6137708B2 (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP3571925B2 (ja) 音声情報処理装置
JP4282609B2 (ja) 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
Xu et al. Automatic emphasis labeling for emotional speech by measuring prosody generation error

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081031

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090818

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091019

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091106

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091126

R151 Written notification of patent or utility model registration

Ref document number: 4417892

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121204

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121204

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131204

Year of fee payment: 4