JP4532862B2 - 音声合成方法、音声合成装置および音声合成プログラム - Google Patents
音声合成方法、音声合成装置および音声合成プログラム Download PDFInfo
- Publication number
- JP4532862B2 JP4532862B2 JP2003296584A JP2003296584A JP4532862B2 JP 4532862 B2 JP4532862 B2 JP 4532862B2 JP 2003296584 A JP2003296584 A JP 2003296584A JP 2003296584 A JP2003296584 A JP 2003296584A JP 4532862 B2 JP4532862 B2 JP 4532862B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- speech
- data
- prosody
- speech synthesis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
(音声合成装置の構成)
図1を参照して、音声合成装置の構成を説明する。図1は、音声合成装置のブロック図であり、この図1に示すように、音声合成装置1は、入力されたテキストデータ(入力日本語テキスト)から音声合成データ(出力音声、合成結果)を出力するものであり、入力部3と、単語音素分割・音韻韻律情報付加部5と、音声合成用データベース探索部7と、音韻韻律補正部9と、出力部11と、音声合成用データベース13とを備えている。
次に、図2に示すフローチャートを参照して、音声合成装置1の動作を説明する(適宜、図1参照)。
まず、音声合成装置1のユーザが、当該装置1の入力部3のOCR機能を使用して、手書き文章を入力したり、入力部3のデータ読出機能を使用してフレキシブルディスクに記憶させたテキストデータ(入力日本語テキスト)を入力したりする。つまり、この音声合成装置1の入力部3で、様々な態様で入力された情報が、テキストデータとして、単語音素分割・音韻韻律情報付加部5に送出される(ステップS1)。
ここで、音声合成装置1の具体的な音声合成例1を説明する。音声合成装置1の入力部3にテキストデータ(入力日本語テキスト)として、「〈文頭〉また東京都の石原知事は次のように話をしています〈文末〉」が入力された場合について説明する。この音声合成例1では、単語音素分割・音韻韻律情報付加部5で単語分割候補または複数音素分割候補が音声合成用データベース探索部7に送出された場合のものである。
また、ここで、音声合成装置1の具体的な音声合成例2を説明する。音声合成装置1の入力部3にテキストデータ(入力日本語テキスト)として、「〈文頭〉また東京都の石原知事は次のように話をしています〈文末〉」が入力された場合について説明する。この音声合成例2では、単語音素分割・音韻韻律情報付加部5で可変長音素列分割候補が音声合成用データベース探索部7に送出された場合のものである。
ここで、クラスタリングされたトライフォンの各次元の正規化について、次式(数式(5)、数式(6))を示して補足説明をする。
次に、音声合成装置1を使用して、音声合成実験を行った結果について、図3から図7を参照して説明する(適宜、図1参照)。この音声合成実験では、入力する入力日本語テキストの間違った読みの付与を避けるために、人手で確認し修正した音素記号列を入力することとした。また、基本周波数、音素長の予測間違いを避けるため、音声合成用データベース13に保持しているデータには、正確な文法で記述された複数の文章が収められた入力テキストをアナウンサー等が発声している自然音声から抽出したものを使用している。
これより、音声合成装置1によって合成した音声合成データと、探索単位として単語を使用した場合のデータとを使用して、自然性(より自然に聞こえるか)に関して比較した対比較実験について説明する。音声合成用データベース13に予め蓄積したデータは、1996年6月3日から2001年6月22日までのNHKニュースデータベースに存在する森田アナウンサーにより発声された27788文章と森田アナウンサーが読み上げたバランス文100文章の計86時間分を全て収めたものであり、総トライフォン384万、異なりトライフォン数8771である。また、音声合成装置1で合成した音声合成データと比較の対象となる評価用テキストには、2001年6月25日から6月29日までのNHKニュース10で森田アナウンサーが発声した100文章(音素数13777)を使用した。
次に、音声合成装置1を使用した5段階品質評価実験について説明する。この5段階品質評価実験は、音声合成装置1に対比較実験で使用したデータの8分の1、4分の1、2分の1、1のデータを音声合成用データベース13に蓄積し、評価用テキストとして2001年6月28日から6月29日までに放送されたNHKのニュース番組の中で、音声合成用データベース13に蓄積した音声を発したアナウンサーと同じアナウンサーが発声した背景音がない40文章(1444単語、5927音素)を使用し、当該音声合成装置1で合成した160の音声合成データと、基本周波数および音素長の抽出の対象にした40の自然音声データとの合計200音声(評価用データとする)に対して5段階で品質評価を行ったものである。
3 入力部
5 単語音素分割・音韻韻律情報付加部
5a 単語分割手段
5b 音素分割手段
5c 可変長音素列分割手段
5d 音韻韻律情報付加手段
7 音声合成用データベース探索部
9 音韻韻律補正部(音声データ補正手段)
11 出力部
13 音声合成用データベース
Claims (10)
- 音素およびこの音素の発話時間を記憶している音声合成用データベースを用いて、入力されたテキストデータを音声合成する音声合成方法であって、
入力されたテキストデータを各音素に分割し、分割された音素に基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の音素分割候補とする音素分割・音韻韻律情報付加ステップと、
この音素分割・音韻韻律情報付加ステップにて、音韻韻律情報が付加された音素分割候補の中から、当該音素分割候補の前後の調音結合に従った複数の音素分割候補からなる複数音素分割候補を探索単位とし、前記発話時間で区切られる音素に基づき、連結コストと音韻韻律コストとの和が最小になる音素分割候補を組み合わせた音声データ列として、前記音声合成用データベースからビタービサーチする音声データ探索ステップと、
この音声データ探索ステップにてビタービサーチされた前記音声データ列の各音素分割候補の連結部分および前記音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行う音声データ補正ステップと、
この音声データ補正ステップにて補正を行った結果を音声合成データとして出力する音声合成データ出力ステップと、を含み、
前記音声データ探索ステップは、前記連結コストの算出に隠れマルコフモデルの分散値および平均値を複数音素分割候補の統計量として用いて各次元に正規化し、ケプストラム距離と前記基本周波数とを使用することを特徴とする音声合成方法。 - 音素およびこの音素の発話時間を記憶している音声合成用データベースを用いて、入力されたテキストデータを音声合成する音声合成方法であって、
入力されたテキストデータを構成する音素に形態素解析し、この形態素解析した音素を任意数連結させた可変長音素列とし、この可変長音素列に基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の可変長音素列分割候補とする可変長音素列分割・音韻韻律情報付加ステップと、
この可変長音素列分割・音韻韻律情報付加ステップにて、音韻韻律情報が付加された可変長音素列分割候補を探索単位とし、前記発話時間で区切られる音素に基づき、連結コストと音韻韻律コストとの和が最小になる可変長音素列分割候補を組み合わせた音声データ列として、前記音声合成用データベースからビタービサーチする音声データ探索ステップと、
この音声データ探索ステップにてビタービサーチされた前記音声データ列の各可変長音素列分割候補の連結部分および前記音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行う音声データ補正ステップと、
この音声データ補正ステップにて補正を行った結果を音声合成データとして出力する音声合成データ出力ステップと、を含み、
前記音声データ探索ステップは、前記連結コストの算出に隠れマルコフモデルの分散値および平均値を可変長音素列分割候補の統計量として用いて各次元に正規化し、ケプストラム距離と前記基本周波数とを使用することを特徴とする音声合成方法。 - 単語および音素とこれら単語および音素の発話時間とを記憶している音声合成用データベースを用いて、入力されたテキストデータを音声合成する音声合成方法であって、
入力されたテキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の単語分割候補とする単語分割・音韻韻律情報付加ステップと、
この単語分割・音韻韻律情報付加ステップにて、音韻韻律情報が付加された単語分割候補の中から、前記音声合成用データベースに存在しないか若しくは予め設定した設定データ数よりデータ数の少ない単語については、前後の調音結合に従った複数の音素からなる複数音素分割候補を探索単位とし、前記音声合成用データベースに存在するか若しくは前記設定データ数よりデータ数の多い単語については、前記単語分割候補を探索単位とし、前記発話時間で区切られた単語に基づき、連結コストと音韻韻律コストとの和が最小になる単語分割候補および複数音素分割候補を組み合わせた音声データ列として、前記音声合成用データベースからビタービサーチする音声データ探索ステップと、
この音声データ探索ステップにてビタービサーチされた前記音声データ列の各単語分割候補および各複数音素分割候補の連結部分および前記音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行う音声データ補正ステップと、
この音声データ補正ステップにて補正を行った結果を音声合成データとして出力する音声合成データ出力ステップと、を含み、
前記音声データ探索ステップは、前記連結コストの算出に隠れマルコフモデルの分散値および平均値を複数音素分割候補の統計量として用いて各次元に正規化し、ケプストラム距離と前記基本周波数とを使用することを特徴とする音声合成方法。 - 入力されたテキストデータを音声合成する音声合成装置であって、
音素およびこの音素の発話時間を記憶している音声合成用データベースと、
前記テキストデータを各音素に分割し、分割された音素に基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の音素分割候補とする音素分割・音韻韻律情報付加手段と、
この音素分割・音韻韻律情報付加手段で音韻韻律情報が付加された音素分割候補の中から、当該音素分割候補の前後の調音結合に従った複数の音素分割候補からなる複数音素分割候補を探索単位とし、前記発話時間で区切られた音素に基づき、連結コストと音韻韻律コストとの和が最小になる音素分割候補を組み合わせた音声データ列として、前記音声合成用データベースからビタービサーチする音声データ探索手段と、
この音声データ探索手段でビタービサーチされた前記音声データ列の各音素分割候補の連結部分および前記音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行う音声データ補正手段と、
この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段と、を備え、
前記音声データ探索手段は、前記連結コストの算出に隠れマルコフモデルの分散値および平均値を複数音素分割候補の統計量として用いて各次元に正規化し、ケプストラム距離と前記基本周波数とを使用することを特徴とする音声合成装置。 - 入力されたテキストデータを音声合成する音声合成装置であって、
音素およびこの音素の発話時間を記憶している音声合成用データベースと、
入力されたテキストデータを構成する音素に形態素解析し、この形態素解析した音素を任意数連結させた可変長音素列とし、この可変長音素列に基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の可変長音素列分割候補とする可変長音素列分割・音韻韻律情報付加手段と、
この可変長音素列分割・音韻韻律情報付加手段で、音韻韻律情報が付加された可変長音素列分割候補を探索単位とし、前記発話時間で区切られる音素に基づき、連結コストと音韻韻律コストとの和が最小になる可変長音素列分割候補を組み合わせた音声データ列として、前記音声合成用データベースからビタービサーチする音声データ探索手段と、
この音声データ探索手段でビタービサーチされた前記音声データ列の各可変長音素列分割候補の連結部分および前記音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行う音声データ補正手段と、
この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段と、を備え、
前記音声データ探索手段は、前記連結コストの算出に隠れマルコフモデルの分散値および平均値を可変長音素列分割候補の統計量として用いて各次元に正規化し、ケプストラム距離と前記基本周波数とを使用することを特徴とする音声合成装置。
を備えることを特徴とする音声合成装置。 - 入力されたテキストデータを音声合成する音声合成装置であって、
単語および音素とこれら単語および音素の発話時間とを記憶している音声合成用データベースと、
前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の単語分割候補とする単語分割・音韻韻律情報付加手段と、
この単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語分割候補の中から、前記音声合成用データベースに存在しないか若しくは予め設定した設定データ数よりデータ数の少ない単語については、前後の調音結合に従った複数の音素からなる複数音素分割候補を探索単位とし、前記音声合成用データベースに存在するか若しくは前記設定データ数よりデータ数の多い単語については、前記単語分割候補を探索単位とし、前記発話時間で区切られた単語に基づき、連結コストと音韻韻律コストとの和が最小になる単語分割候補および複数音素分割候補を組み合わせた音声データ列として、前記音声合成用データベースからビタービサーチする音声データ探索手段と、
この音声データ探索手段でビタービサーチされた前記音声データ列の各単語分割候補および各複数音素分割候補の連結部分および前記音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行う音声データ補正手段と、
この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段と、を備え、
前記音声データ探索手段は、前記連結コストの算出に隠れマルコフモデルの分散値および平均値を複数音素分割候補の統計量として用いて各次元に正規化し、ケプストラム距離と前記基本周波数とを使用することを特徴とする音声合成装置。 - 前記音声データ探索手段は、前記単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語の語頭および語尾における前後の調音結合に従った音素と、前記音声合成用データ上における前後の調音結合に従った音素とが同じクラスターに属するかに基づいて、前記音韻韻律コストを算出する際の係数を決定し、当該係数を使用することを特徴とする請求項6に記載の音声合成装置。
- 入力されたテキストデータを音声合成する装置を、
前記テキストデータを各音素に分割し、分割された音素に基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の音素分割候補とする音素分割・音韻韻律情報付加手段、
この音素分割・音韻韻律情報付加手段で音韻韻律情報が付加された音素分割候補の中から、当該音素分割候補の前後の調音結合に従った複数の音素分割候補からなる複数音素分割候補を探索単位とし、前記発話時間で区切られた音素に基づき、連結コストと音韻韻律コストとの和が最小になる音素分割候補を組み合わせた音声データ列として、前記音素およびこの音素の発話時間を記憶している音声合成用データ記憶手段からビタービサーチする音声データ探索手段、
この音声データ探索手段でビタービサーチされた前記音声データ列の各音素分割候補の連結部分および前記音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行う音声データ補正手段、
この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段、として機能させ、
前記音声データ探索手段は、前記連結コストの算出に隠れマルコフモデルの分散値および平均値を複数音素分割候補の統計量として用いて各次元に正規化し、ケプストラム距離と前記基本周波数とを使用することを特徴とする音声合成プログラム。 - 入力されたテキストデータを音声合成する装置を、
前記テキストデータを構成する音素に形態素解析し、この形態素解析した音素を任意数連結させた可変長音素列とし、この可変長音素列に基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の可変長音素列分割候補とする可変長音素列分割・音韻韻律情報付加手段、
この可変長音素列分割・音韻韻律情報付加手段で、音韻韻律情報が付加された可変長音素列分割候補を探索単位とし、前記発話時間で区切られる音素に基づき、連結コストと音韻韻律コストとの和が最小になる可変長音素列分割候補を組み合わせた音声データ列として、前記音素およびこの音素の発話時間を記憶している音声合成用データ記憶手段からビタービサーチする音声データ探索手段、
この音声データ探索手段でビタービサーチされた前記音声データ列の各可変長音素列分割候補の連結部分および前記音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行う音声データ補正手段、
この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段、として機能させ、
前記音声データ探索手段は、前記連結コストの算出に隠れマルコフモデルの分散値および平均値を可変長音素列分割候補の統計量として用いて各次元に正規化し、ケプストラム距離と前記基本周波数とを使用することを特徴とする音声合成プログラム。 - 入力されたテキストデータを音声合成する装置を、
前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の単語分割候補とする単語分割・音韻韻律情報付加手段、
この単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語分割候補の中から、前記音声合成用データ記憶手段に存在しないか若しくは予め設定した設定データ数よりデータ数の少ない単語については、前後の調音結合に従った複数の音素からなる複数音素分割候補を探索単位とし、前記音声合成用データ記憶手段に存在するか若しくは前記設定データ数よりデータ数の多い単語については、前記単語分割候補を探索単位とし、前記発話時間で区切られた単語に基づき、連結コストと音韻韻律コストとの和が最小になる単語分割候補および複数音素分割候補を組み合わせた音声データ列として、前記単語および音素とこれら単語および音素の発話時間とを記憶している音声合成用データ記憶手段からビタービサーチする音声データ探索手段、
この音声データ探索手段でビタービサーチされた前記音声データ列の各単語分割候補および各複数音素分割候補の連結部分および前記音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行う音声データ補正手段、
この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段、として機能させ、
前記音声データ探索手段は、前記連結コストの算出に隠れマルコフモデルの分散値および平均値を複数音素分割候補の統計量として用いて各次元に正規化し、ケプストラム距離と前記基本周波数とを使用することを特徴とする音声合成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003296584A JP4532862B2 (ja) | 2002-09-25 | 2003-08-20 | 音声合成方法、音声合成装置および音声合成プログラム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002278944 | 2002-09-25 | ||
JP2003296584A JP4532862B2 (ja) | 2002-09-25 | 2003-08-20 | 音声合成方法、音声合成装置および音声合成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004139033A JP2004139033A (ja) | 2004-05-13 |
JP4532862B2 true JP4532862B2 (ja) | 2010-08-25 |
Family
ID=32473089
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003296584A Expired - Fee Related JP4532862B2 (ja) | 2002-09-25 | 2003-08-20 | 音声合成方法、音声合成装置および音声合成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4532862B2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4603290B2 (ja) * | 2004-05-20 | 2010-12-22 | 日本放送協会 | 音声合成装置および音声合成プログラム |
JP4839058B2 (ja) * | 2005-10-18 | 2011-12-14 | 日本放送協会 | 音声合成装置および音声合成プログラム |
JP4829605B2 (ja) * | 2005-12-12 | 2011-12-07 | 日本放送協会 | 音声合成装置および音声合成プログラム |
JP5434587B2 (ja) * | 2007-02-20 | 2014-03-05 | 日本電気株式会社 | 音声合成装置及び方法とプログラム |
JP5238205B2 (ja) | 2007-09-07 | 2013-07-17 | ニュアンス コミュニケーションズ,インコーポレイテッド | 音声合成システム、プログラム及び方法 |
JP2013117638A (ja) * | 2011-12-02 | 2013-06-13 | Nippon Hoso Kyokai <Nhk> | 音声合成装置および音声合成プログラム |
CN113516963B (zh) * | 2020-04-09 | 2023-11-10 | 菜鸟智能物流控股有限公司 | 音频数据的生成方法、装置、服务器和智能音箱 |
CN112509552B (zh) * | 2020-11-27 | 2023-09-26 | 北京百度网讯科技有限公司 | 语音合成方法、装置、电子设备和存储介质 |
CN112530402B (zh) * | 2020-11-30 | 2024-01-12 | 深圳市优必选科技股份有限公司 | 一种语音合成方法、语音合成装置及智能设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0247700A (ja) * | 1988-08-10 | 1990-02-16 | Nippon Hoso Kyokai <Nhk> | 音声合成方法および装置 |
JPH0756594A (ja) * | 1993-08-19 | 1995-03-03 | Meidensha Corp | 不特定話者音声認識装置およびその方法 |
JPH07146696A (ja) * | 1993-09-30 | 1995-06-06 | Meidensha Corp | 音声認識における単語テンプレートの自動作成方法 |
JPH0990972A (ja) * | 1995-09-26 | 1997-04-04 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成用合成単位作成方法 |
JPH1049193A (ja) * | 1996-05-15 | 1998-02-20 | A T R Onsei Honyaku Tsushin Kenkyusho:Kk | 自然発話音声波形信号接続型音声合成装置 |
JPH11259091A (ja) * | 1998-03-09 | 1999-09-24 | Canon Inc | 音声合成装置及び方法 |
JP2000231395A (ja) * | 1999-02-08 | 2000-08-22 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成方法及び装置 |
JP2001282278A (ja) * | 2000-03-31 | 2001-10-12 | Canon Inc | 音声情報処理装置及びその方法と記憶媒体 |
JP2004029493A (ja) * | 2002-06-27 | 2004-01-29 | Nippon Hoso Kyokai <Nhk> | 音声合成方法、音声合成装置および音声合成プログラム |
JP2004109535A (ja) * | 2002-09-19 | 2004-04-08 | Nippon Hoso Kyokai <Nhk> | 音声合成方法、音声合成装置および音声合成プログラム |
-
2003
- 2003-08-20 JP JP2003296584A patent/JP4532862B2/ja not_active Expired - Fee Related
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0247700A (ja) * | 1988-08-10 | 1990-02-16 | Nippon Hoso Kyokai <Nhk> | 音声合成方法および装置 |
JPH0756594A (ja) * | 1993-08-19 | 1995-03-03 | Meidensha Corp | 不特定話者音声認識装置およびその方法 |
JPH07146696A (ja) * | 1993-09-30 | 1995-06-06 | Meidensha Corp | 音声認識における単語テンプレートの自動作成方法 |
JPH0990972A (ja) * | 1995-09-26 | 1997-04-04 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成用合成単位作成方法 |
JPH1049193A (ja) * | 1996-05-15 | 1998-02-20 | A T R Onsei Honyaku Tsushin Kenkyusho:Kk | 自然発話音声波形信号接続型音声合成装置 |
JPH11259091A (ja) * | 1998-03-09 | 1999-09-24 | Canon Inc | 音声合成装置及び方法 |
JP2000231395A (ja) * | 1999-02-08 | 2000-08-22 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成方法及び装置 |
JP2001282278A (ja) * | 2000-03-31 | 2001-10-12 | Canon Inc | 音声情報処理装置及びその方法と記憶媒体 |
JP2004029493A (ja) * | 2002-06-27 | 2004-01-29 | Nippon Hoso Kyokai <Nhk> | 音声合成方法、音声合成装置および音声合成プログラム |
JP2004109535A (ja) * | 2002-09-19 | 2004-04-08 | Nippon Hoso Kyokai <Nhk> | 音声合成方法、音声合成装置および音声合成プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2004139033A (ja) | 2004-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7127396B2 (en) | Method and apparatus for speech synthesis without prosody modification | |
US8036894B2 (en) | Multi-unit approach to text-to-speech synthesis | |
JP3933750B2 (ja) | 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 | |
JP4559950B2 (ja) | 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム | |
US20050119890A1 (en) | Speech synthesis apparatus and speech synthesis method | |
US20080059190A1 (en) | Speech unit selection using HMM acoustic models | |
US20080177543A1 (en) | Stochastic Syllable Accent Recognition | |
JPH10116089A (ja) | 音声合成用の基本周波数テンプレートを収容する韻律データベース | |
JP5148026B1 (ja) | 音声合成装置および音声合成方法 | |
US9129596B2 (en) | Apparatus and method for creating dictionary for speech synthesis utilizing a display to aid in assessing synthesis quality | |
Proença et al. | Automatic evaluation of reading aloud performance in children | |
JP2015530614A (ja) | 精度スコアを使用した音声認識性能を予測するための方法およびシステム | |
WO2016103652A1 (ja) | 音声処理装置、音声処理方法、および記録媒体 | |
JP4532862B2 (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
JP4659541B2 (ja) | 音声認識装置及び音声認識プログラム | |
Chu et al. | A concatenative Mandarin TTS system without prosody model and prosody modification. | |
JP4247289B1 (ja) | 音声合成装置、音声合成方法およびそのプログラム | |
JP4829605B2 (ja) | 音声合成装置および音声合成プログラム | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP2003186489A (ja) | 音声情報データベース作成システム,録音原稿作成装置および方法,録音管理装置および方法,ならびにラベリング装置および方法 | |
JP4580317B2 (ja) | 音声合成装置および音声合成プログラム | |
JP5066668B2 (ja) | 音声認識装置、およびプログラム | |
EP1777697A2 (en) | Method and apparatus for speech synthesis without prosody modification | |
JP3892691B2 (ja) | 音声合成方法及びその装置並びに音声合成プログラム | |
Shah et al. | Influence of various asymmetrical contextual factors for TTS in a low resource language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060214 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090303 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090324 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090521 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100119 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100323 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20100326 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20100426 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100518 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100611 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130618 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140618 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |