JP4417892B2 - 音声情報処理装置、音声情報処理方法および音声情報処理プログラム - Google Patents
音声情報処理装置、音声情報処理方法および音声情報処理プログラム Download PDFInfo
- Publication number
- JP4417892B2 JP4417892B2 JP2005217137A JP2005217137A JP4417892B2 JP 4417892 B2 JP4417892 B2 JP 4417892B2 JP 2005217137 A JP2005217137 A JP 2005217137A JP 2005217137 A JP2005217137 A JP 2005217137A JP 4417892 B2 JP4417892 B2 JP 4417892B2
- Authority
- JP
- Japan
- Prior art keywords
- parameter
- classification
- representative
- representative parameter
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 70
- 238000003672 processing method Methods 0.000 title claims description 8
- 238000012986 modification Methods 0.000 claims abstract description 5
- 230000004048 modification Effects 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 30
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000011156 evaluation Methods 0.000 claims description 16
- 230000008602 contraction Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 12
- 239000002131 composite material Substances 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 5
- 230000003340 mental effect Effects 0.000 claims description 2
- 230000002194 synthesizing effect Effects 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims 1
- 230000006866 deterioration Effects 0.000 abstract description 9
- 230000010354 integration Effects 0.000 description 28
- 230000006870 function Effects 0.000 description 21
- 101100274346 Drosophila melanogaster mora gene Proteins 0.000 description 18
- 238000010586 diagram Methods 0.000 description 11
- 239000011159 matrix material Substances 0.000 description 9
- 230000015572 biosynthetic process Effects 0.000 description 8
- 238000003786 synthesis reaction Methods 0.000 description 8
- 230000009466 transformation Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 3
- 239000000470 constituent Substances 0.000 description 3
- 230000001939 inductive effect Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
しかし、音声合成時において、代表パターンは、代表パターン生成後に生成された代表パターン選択規則から選択される。このため、実際選択される代表パターンと前述誤差尺度に基づいて用いられるべき代表パターンが必ずしも一致するとは限らない。したがって、基本周波数パターン生成方法として利用される際、代表パターンの選択ミスにより不適切な抑揚となる、又は、自然な抑揚を表現できない可能性があるという問題があった。
メータと該韻律制御単位に対応するコンテキストとを備えた音声コーパスの該音声パラメ
ータの集合に対して、該コンテキストに基づいて複数の仮分類に分類分けする音声パラメ
ータ仮分類手段と、前記コンテキストに基づいて分類分けした音声パラメータの子集合毎
に、統計的処理を行うことによって時系列点での特徴が統計量で表現されている代表パラ
メータを生成する代表パラメータ生成手段と、生成された前記代表パラメータを変形する
ことにより合成パラメータを生成する代表パラメータ変形手段と、前記コンテキストに基
づいて分類分けした仮分類毎に、前記合成パラメータと前記パラメータの子集合との間で
定義される歪み評価関数を用いて歪み値を計算する歪み値計算手段と、前記複数の仮分類
の中から前記歪み値に基づいて1つの分類を決定することにより、代表パラメータ分類(
選択)規則を生成する代表パラメータ分類(選択)規則生成手段とを具備したことを特徴
とする。
図1は、本発明の第1の実施形態に係る情報処理装置を示すブロック図である。
この第1の実施形態に係る装置は、音声データベースから抽出される韻律制御単位の音声パラメータである基本周波数パターンと該基本周波数パターンに対応するコンテキストとを備えた音声コーパス11を入力とし、前記韻律制御単位毎の基本周波数パターンの集合に対して、該韻律制御単位に対応するコンテキストによる仮分類を幾通りか行う音声パラメータ集合仮分類部1と、前記コンテキストによる仮分類で得られた基本周波数パターンの子集合毎に、統計的な処理を行うことによって時系列点での特徴が統計量で表現されている代表パラメータ14を生成する代表パラメータ生成部2と、該韻律制御単位である基本周波数パターンを表現することを目標として、前記代表パラメータを変形することにより合成基本周波数パターンを作成する代表パラメータ変形部3と、前記コンテキストによる仮分類毎に、該合成基本周波数パターンと該韻律制御単位である基本周波数パターンの子集合との間で定義される歪み評価関数を用いて歪み値を計算する歪み値計算部4と、前記コンテキストによる仮分類と前記歪み値に基づいて分類を決定することにより、代表パラメータ分類(選択)規則15を生成する代表パラメータ分類規則生成部5とを備えている。
次に、本発明の第2の実施形態について説明する。
図10は、本発明の第2の実施形態に係る音声情報処理方法を実現する音声情報処理装置の構成を示すブロック図である。以下、図1、図10と対応する部分に同一の参照符号を付して相違点を中心に説明する。この第2の実施形態に係る音声情報処理装置の大きな違いは、第1の実施形態と同様のブロックを備えているが、音声パラメータ集合仮分類部1と、代表パラメータ生成部2と、代表パラメータ変形部3と、歪み値計算部4と、代表パラメータ分類規則生成部5とを一つのまとまり(ブロック)とし、これを数段直列に連結した構成となっていることである。
また、ブロックが多段に連結されることから、最終段までのブロックから出力される
サブ音声コーパス104は、必ずしも1つの分類規則から出力される必要はない。つまり、
複数の分類規則を保持しておき、最終段のブロックによりいずれかを選択することも可能である。
このように、第2の実施形態に係る音声情報処理装置によれば、コンテキストによる基本周波数パターンの仮分類を幾通りか行い、それぞれに対して代表パラメータを生成し、代表パラメータを変形することで得られる合成音声パラメータと基本周波数パターンとの歪み値に基づいて、代表パラメータ分類(選択)規則と、該分類規則に対応する代表パラメータとを出力することを繰り返し行うことにより、大きな問題を小さな問題の集合と捉えることで、代表パラメータ選択ミスによる劣化に関して頑健、且つ、より自然な抑揚を表現可能な合成音声パラメータ(例えば、基本周波数パターン)を生成することが可能となる。
次に、本発明の第3の実施形態について説明する。
図13は、本発明の第3の実施形態に係る音声情報処理方法を実現する音声情報処理装置の構成を示すブロック図である。以下、図10、図13と対応する部分に同一の参照符号を付して相違点を中心に説明する。この第3の実施形態に係る音声情報処理装置の大きな違いは、ブロック後段に代表パラメータと分類規則の生成の繰返しを判定する繰返し条件判定部6を備え、サブ音声コーパス104をブロック前段に入力していることである。
繰返し条件判定部6である。
まず、ブロックでは、前記実施形態と同様に、音声パラメータ集合の仮分類(ステップS1)、代表パラメータの生成(ステップS2)、代表パラメータの変形(ステップS3)、歪み値の計算(ステップS4)、代表パラメータ分類規則の生成(ステップS5)が行われる。
次に、本発明の第4の実施形態について説明する。
図15は、本発明の第4の実施形態に係る音声情報処理方法を実現する音声情報処理装置の構成を示すブロック図である。以下、図1、図15と対応する部分に同一の参照符号を付して相違点を中心に説明する。この第4の実施形態に係る音声情報処理装置の大きな違いは、前記実施形態が「分類」をベースにした形態であったことに対して、本実施形態は「統合」をベースにした形態であることである。図17は、第1の実施形態と第4の実施形態を比較した図である。第1の実施形態は、音声コーパスそのもののサブ分類(分割)を繰返すことにより適度な数の音声パラメータの子集合を探索する。これに対して、第4の実施形態は、音声パラメータのサブ統合(結合)を繰返すことにより適度な数の音声パラメータの親集合を探索する。第1の実施形態がトップダウンに探索する方法に対して、第4の実施形態はボトムアップに探索する方法といえる。ここで、概念的な構成の違いはあるものの、基本的な構成部は同じであり、図15の音声パラメータ集合仮統合部7は、図1の音声パラメータ集合仮分類部1に対応し、図15の代表パラメータ統合規則生成部8は、図1の代表パラメータ分類規則生成部5に対応している。
次に、本発明の第5の実施形態について説明する。
図19は、本発明の第4の実施形態に係る音声情報処理方法を実現する音声情報処理装置の構成を示すブロック図である。
この第5の実施形態に係る音声情報処理装置は、入力コンテキストから代表パラメータ14と代表パラメータ選択規則15を用いて、代表パラメータを選択する代表パラメータ選択部21と、選択された該代表パラメータを変形し、合成音声パラメータを出力する代表パラメータ変形部22とを備えている。
2・・・代表パラメータ生成部
3・・・代表パラメータ変形部
4・・・歪み値計算部
5・・・代表パラメータ分類規則生成部
6・・・繰返し条件判定部
7・・・音声パラメータ集合仮統合部
8・・・代表パラメータ統合規則生成部
11・・・音声コーパス
12・・・代表パラメータ
13・・・代表パラメータ選択規則
14・・・代表パラメータ
15・・・代表パラメータ選択規則
21・・・代表パラメータ選択部
Claims (13)
- 韻律制御単位毎の音声パラメータと該韻律制御単位に対応するコンテキストとを備えた
音声コーパスの該音声パラメータの集合に対して、該コンテキストに基づいて複数の仮分
類に分類分けする音声パラメータ仮分類手段と、
前記コンテキストに基づいて分類分けした音声パラメータの子集合毎に、統計的処理を
行うことによって時系列点での特徴が統計量で表現されている代表パラメータを生成する
代表パラメータ生成手段と、
生成された前記代表パラメータを変形することにより合成パラメータを生成する代表パ
ラメータ変形手段と、
前記コンテキストに基づいて分類分けした仮分類毎に、前記合成パラメータと前記パラ
メータの子集合との間で定義される歪み評価関数を用いて歪み値を計算する歪み値計算手
段と、
前記複数の仮分類の中から前記歪み値に基づいて1つの分類を決定することにより、代
表パラメータ分類(選択)規則を生成する代表パラメータ分類(選択)規則生成手段とを
具備したことを特徴とする音声情報処理装置。 - 前記代表パラメータを記憶する代表パラメータ記憶手段と、
前記代表パラメータ分類(選択)規則を記憶する代表パラメータ選択規則記憶手段と、
記憶された前記代表パラメータと前記代表パラメータ分類(選択)規則を用いて、前記
韻律制御単位毎のコンテキストに応じた代表パラメータを選択する代表パラメータ選択手
段と、
選択された前記代表パラメータを変形することにより音声パラメータを合成する代表パ
ラメータ変形手段とを具備したことを特徴とする請求項1に記載の音声情報処理装置。 - 前記音声パラメータとして、基本周波数パターンを用いることを特徴とした請求項1又
は請求項2に記載の音声情報処理装置。 - 前記コンテキストに基づいて分類分けされた基本周波数パターンの子集合に対して、
前記コンテキストによる分類分け、代表パラメータの生成、合成音声パラメータの生成
、歪み値の計算、代表パラメータ分類(選択)規則の生成の処理を繰返すことを特徴とし
た請求項3に記載の音声情報処理装置。 - 前記コンテキストは、テキストを解析することにより得られる前記韻律制御単位に関す
る言語情報もしくは任意の属性のうち少なくとも1つの値であることを特徴とする請求項
1乃至請求項4のいずれか1項に記載の音声情報処理装置。 - 前記韻律制御単位は、HMM等により1音素を複数に分割した単位、半音素、音素、音
節、モーラ、形態素、単語、アクセント句、呼気段落、文、これらを組合せた単位のうち
少なくとも1つが用いられることを特徴とする請求項1乃至請求項4のいずれか1項に記
載の音声情報処理装置。 - 前記属性は、プロミネンスに関する情報、発話スタイルの情報、質問・断定・強調とい
った意図を表す情報、疑い・関心・落胆・感心といった心的態度を表す情報のうち少なく
とも1つが用いられることを特徴とする請求項5に記載の音声情報処理装置。 - 前記統計量 は、平均、分散(標準偏差)、これらを組合せたうち少なくとも1つが用い
られることを特徴とする請求項1乃至請求項4のいずれか1項に記載の音声情報処理装置
。 - 前記合成音声パラメータと前記音声パラメータの子集合との間で定義される歪み評価関
数は、各時系列点での2乗誤差の総和、各時系列点での重み付け2乗誤差の総和、各時系
列点での対数尤度の総和、各時系列点での重み付け対数尤度の総和のうちいずれかである
ことを特徴とする請求項1乃至請求項4のいずれか1項に記載の音声情報処理装置。 - 前記代表パラメータを生成する統計的な処理は、一般的な平均を計算すること、平均・
分散の計算をすること、前記歪み評価関数を最適化(最大化もしくは最小化)するように
計算すること、前記歪み評価関数を準最適化することのうちいずれかであることを特徴と
する請求項1乃至請求項4のいずれか1項に記載の音声情報処理装置。 - 前記代表パラメータの変形は、横軸(例えば、時間軸)方向の伸縮、縦軸(例えば、周
波数軸)方向の伸縮、縦軸方向の移動、これらの組合せのうち少なくとも1つが用いられ
ることを特徴とする請求項1乃至請求項4のいずれか1項に記載の音声情報処理装置。 - 韻律制御単位毎の音声パラメータと該韻律制御単位に対応するコンテキストとを備えた
音声コーパスの該音声パラメータの集合に対して、該コンテキストに基づいて複数の仮分
類に分類分けし、
前記コンテキストに基づいて分類分けした音声パラメータの子集合毎に、統計的処理を
行うことによって時系列点での特徴が統計量で表現されている代表パラメータを生成し、
生成された前記代表パラメータを変形することにより合成パラメータを生成し、
前記コンテキストに基づいて分類分けした仮分類毎に、前記合成パラメータと前記パラ
メータの子集合との間で定義される歪み評価関数を用いて歪み値を計算し、
前記複数の仮分類の中から前記歪み値に基づいて1つの分類を決定することにより、代
表パラメータ分類(選択)規則を生成し、
前記代表パラメータ分類(選択)規則と、前記分類(選択)規則に対応する前記代表パ
ラメータとを出力することを特徴とする音声情報処理方法。 - 音声情報処理装置としてコンピュータを機能させるためのプログラムにおいて、
前記プログラムは、
韻律制御単位毎の音声パラメータと該韻律制御単位に対応するコンテキストとを備えた
音声コーパスの該音声パラメータの集合に対して、該コンテキストに基づいて複数の仮分
類に分類分けするステップと、
前記コンテキストに基づいて分類分けした音声パラメータの子集合毎に、統計的処理を
行うことによって時系列点での特徴が統計量で表現されている代表パラメータを生成する
ステップと、
生成された前記代表パラメータを変形することにより合成パラメータを生成するステッ
プと、
前記コンテキストに基づいて分類分けした仮分類毎に、前記合成パラメータと前記パラ
メータの子集合との間で定義される歪み評価関数を用いて歪み値を計算するステップと、
前記複数の仮分類の中から前記歪み値に基づいて1つの分類を決定することにより、代
表パラメータ分類(選択)規則を生成するステップとをコンピュータに実行させ、
前記代表パラメータ分類(選択)規則と、前記分類(選択)規則に対応する前記代表パ
ラメータとをコンピュータに出力させることを特徴とする音声情報処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005217137A JP4417892B2 (ja) | 2005-07-27 | 2005-07-27 | 音声情報処理装置、音声情報処理方法および音声情報処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005217137A JP4417892B2 (ja) | 2005-07-27 | 2005-07-27 | 音声情報処理装置、音声情報処理方法および音声情報処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007033870A JP2007033870A (ja) | 2007-02-08 |
JP4417892B2 true JP4417892B2 (ja) | 2010-02-17 |
Family
ID=37793210
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005217137A Expired - Fee Related JP4417892B2 (ja) | 2005-07-27 | 2005-07-27 | 音声情報処理装置、音声情報処理方法および音声情報処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4417892B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4455610B2 (ja) | 2007-03-28 | 2010-04-21 | 株式会社東芝 | 韻律パタン生成装置、音声合成装置、プログラムおよび韻律パタン生成方法 |
JP4945465B2 (ja) * | 2008-01-23 | 2012-06-06 | 株式会社東芝 | 音声情報処理装置及びその方法 |
-
2005
- 2005-07-27 JP JP2005217137A patent/JP4417892B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2007033870A (ja) | 2007-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4738057B2 (ja) | ピッチパターン生成方法及びその装置 | |
JP5457706B2 (ja) | 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法 | |
US8290773B2 (en) | Information processing apparatus, method and recording medium for generating acoustic model | |
US9135910B2 (en) | Speech synthesis device, speech synthesis method, and computer program product | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
JP2009139949A (ja) | 差分韻律適応モデルのトレーニング方法及び装置、差分韻律適応モデルの生成方法及び装置、韻律推定方法及び装置、音声合成方法及び装置 | |
JP2007279744A (ja) | F0および休止予測モデルを訓練する方法および装置、f0および休止予測方法および装置、音声合成方法および装置 | |
US8407053B2 (en) | Speech processing apparatus, method, and computer program product for synthesizing speech | |
JP5807921B2 (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP4353202B2 (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
US8478595B2 (en) | Fundamental frequency pattern generation apparatus and fundamental frequency pattern generation method | |
JP4945465B2 (ja) | 音声情報処理装置及びその方法 | |
JP4417892B2 (ja) | 音声情報処理装置、音声情報処理方法および音声情報処理プログラム | |
CN106157948B (zh) | 一种基频建模方法及系统 | |
JP4716125B2 (ja) | 発音評定装置、およびプログラム | |
JP4839970B2 (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
JP2010060846A (ja) | 合成音声評価システム及び合成音声評価方法 | |
Chunwijitra et al. | A tone-modeling technique using a quantized F0 context to improve tone correctness in average-voice-based speech synthesis | |
JP5344396B2 (ja) | 言語学習装置、言語学習プログラム及び言語学習方法 | |
JP5393546B2 (ja) | 韻律作成装置及び韻律作成方法 | |
JP6137708B2 (ja) | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP3571925B2 (ja) | 音声情報処理装置 | |
JP2008191525A (ja) | F0値時系列生成装置、その方法、そのプログラム、及びその記録媒体 | |
Xu et al. | Automatic emphasis labeling for emotional speech by measuring prosody generation error | |
JP2006189723A (ja) | 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080129 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081031 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090105 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090818 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091019 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091106 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091126 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4417892 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121204 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121204 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131204 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |