JP2004139033A - 音声合成方法、音声合成装置および音声合成プログラム - Google Patents
音声合成方法、音声合成装置および音声合成プログラム Download PDFInfo
- Publication number
- JP2004139033A JP2004139033A JP2003296584A JP2003296584A JP2004139033A JP 2004139033 A JP2004139033 A JP 2004139033A JP 2003296584 A JP2003296584 A JP 2003296584A JP 2003296584 A JP2003296584 A JP 2003296584A JP 2004139033 A JP2004139033 A JP 2004139033A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- data
- prosody
- speech
- division
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】 音素およびこの音素の発話時間を記憶している音声合成用データベース13を用いて、入力されたテキストデータを音声合成する音声合成装置1であって、入力部3と、単語音素分割・音韻韻律情報付加部5と、音声データベース探索部7と、音韻韻律補正部9と、出力部11と、を備えた。
【選択図】 図1
Description
(音声合成装置の構成)
図1を参照して、音声合成装置の構成を説明する。図1は、音声合成装置のブロック図であり、この図1に示すように、音声合成装置1は、入力されたテキストデータ(入力日本語テキスト)から音声合成データ(出力音声、合成結果)を出力するものであり、入力部3と、単語音素分割・音韻韻律情報付加部5と、音声合成用データベース探索部7と、音韻韻律補正部9と、出力部11と、音声合成用データベース13とを備えている。
次に、図2に示すフローチャートを参照して、音声合成装置1の動作を説明する(適宜、図1参照)。
まず、音声合成装置1のユーザが、当該装置1の入力部3のOCR機能を使用して、手書き文章を入力したり、入力部3のデータ読出機能を使用してフレキシブルディスクに記憶させたテキストデータ(入力日本語テキスト)を入力したりする。つまり、この音声合成装置1の入力部3で、様々な態様で入力された情報が、テキストデータとして、単語音素分割・音韻韻律情報付加部5に送出される(ステップS1)。
ここで、音声合成装置1の具体的な音声合成例1を説明する。音声合成装置1の入力部3にテキストデータ(入力日本語テキスト)として、「〈文頭〉また東京都の石原知事は次のように話をしています〈文末〉」が入力された場合について説明する。この音声合成例1では、単語音素分割・音韻韻律情報付加部5で単語分割候補または複数音素分割候補が音声合成用データベース探索部7に送出された場合のものである。
また、ここで、音声合成装置1の具体的な音声合成例2を説明する。音声合成装置1の入力部3にテキストデータ(入力日本語テキスト)として、「〈文頭〉また東京都の石原知事は次のように話をしています〈文末〉」が入力された場合について説明する。この音声合成例2では、単語音素分割・音韻韻律情報付加部5で可変長音素列分割候補が音声合成用データベース探索部7に送出された場合のものである。
ここで、クラスタリングされたトライフォンの各次元の正規化について、次式(数式(5)、数式(6))を示して補足説明をする。
次に、音声合成装置1を使用して、音声合成実験を行った結果について、図3から図7を参照して説明する(適宜、図1参照)。この音声合成実験では、入力する入力日本語テキストの間違った読みの付与を避けるために、人手で確認し修正した音素記号列を入力することとした。また、基本周波数、音素長の予測間違いを避けるため、音声合成用データベース13に保持しているデータには、正確な文法で記述された複数の文章が収められた入力テキストをアナウンサー等が発声している自然音声から抽出したものを使用している。
これより、音声合成装置1によって合成した音声合成データと、探索単位として単語を使用した場合のデータとを使用して、自然性(より自然に聞こえるか)に関して比較した対比較実験について説明する。音声合成用データベース13に予め蓄積したデータは、1996年6月3日から2001年6月22日までのNHKニュースデータベースに存在する森田アナウンサーにより発声された27788文章と森田アナウンサーが読み上げたバランス文100文章の計86時間分を全て収めたものであり、総トライフォン384万、異なりトライフォン数8771である。また、音声合成装置1で合成した音声合成データと比較の対象となる評価用テキストには、2001年6月25日から6月29日までのNHKニュース10で森田アナウンサーが発声した100文章(音素数13777)を使用した。
次に、音声合成装置1を使用した5段階品質評価実験について説明する。この5段階品質評価実験は、音声合成装置1に対比較実験で使用したデータの8分の1、4分の1、2分の1、1のデータを音声合成用データベース13に蓄積し、評価用テキストとして2001年6月28日から6月29日までに放送されたNHKのニュース番組の中で、音声合成用データベース13に蓄積した音声を発したアナウンサーと同じアナウンサーが発声した背景音がない40文章(1444単語、5927音素)を使用し、当該音声合成装置1で合成した160の音声合成データと、基本周波数および音素長の抽出の対象にした40の自然音声データとの合計200音声(評価用データとする)に対して5段階で品質評価を行ったものである。
3 入力部
5 単語音素分割・音韻韻律情報付加部
5a 単語分割手段
5b 音素分割手段
5c 可変長音素列分割手段
5d 音韻韻律情報付加手段
7 音声合成用データベース探索部
9 音韻韻律補正部(音声データ補正手段)
11 出力部
13 音声合成用データベース
Claims (11)
- 音素およびこの音素の発話時間を記憶している音声合成用データベースを用いて、入力されたテキストデータを音声合成する音声合成方法であって、
入力されたテキストデータを各音素に分割し、分割された音素に基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の音素分割候補とする音素分割・音韻韻律情報付加ステップと、
この音素分割・音韻韻律情報付加ステップにて、音韻韻律情報が付加された音素分割候補の中から、当該音素分割候補の前後の調音結合に従った複数の音素分割候補からなる複数音素分割候補を探索単位とし、前記発話時間で区切られる音素に基づき、連結コストおよび音韻韻律コストが最小になる音素分割候補を組み合わせた音声データ列として、前記音声合成用データベースから探索する音声データ探索ステップと、
この音声データ探索ステップにて探索された前記音声データ列の各音素分割候補の連結部分および前記音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行う音声データ補正ステップと、
この音声データ補正ステップにて補正を行った結果を音声合成データとして出力する音声合成データ出力ステップと、
を含むことを特徴とする音声合成方法。 - 音素およびこの音素の発話時間を記憶している音声合成用データベースを用いて、入力されたテキストデータを音声合成する音声合成方法であって、
入力されたテキストデータを構成する音素に形態素解析し、この形態素解析した音素を任意数連結させた可変長音素列とし、この可変長音素列に基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の可変長音素列分割候補とする可変長音素列分割・音韻韻律情報付加ステップと、
この可変長音素列分割・音韻韻律情報付加ステップにて、音韻韻律情報が付加された可変長音素列分割候補を探索単位とし、前記発話時間で区切られる音素に基づき、連結コストおよび音韻韻律コストが最小になる可変長音素列分割候補を組み合わせた音声データ列として、前記音声合成用データベースから探索する音声データ探索ステップと、
この音声データ探索ステップにて探索された前記音声データ列の各可変長音素列分割候補の連結部分および前記音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行う音声データ補正ステップと、
この音声データ補正ステップにて補正を行った結果を音声合成データとして出力する音声合成データ出力ステップと、
を含むことを特徴とする音声合成方法。 - 単語および音素とこれら単語および音素の発話時間とを記憶している音声合成用データベースを用いて、入力されたテキストデータを音声合成する音声合成方法であって、
入力されたテキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の単語分割候補とする単語分割・音韻韻律情報付加ステップと、
この単語分割・音韻韻律情報付加ステップにて、音韻韻律情報が付加された単語分割候補の中から、前記音声合成用データベースに存在しないか若しくは予め設定した設定データ数よりデータ数の少ない単語については、前後の調音結合に従った複数の音素からなる複数音素分割候補を探索単位とし、前記音声合成用データベースに存在するか若しくは前記設定データ数よりデータ数の多い単語については、前記単語分割候補を探索単位とし、前記発話時間で区切られた単語に基づき、連結コストおよび音韻韻律コストが最小になる単語分割候補および複数音素分割候補を組み合わせた音声データ列として、前記音声合成用データベースから探索する音声データ探索ステップと、
この音声データ探索ステップにて探索された前記音声データ列の各単語分割候補および各複数音素分割候補の連結部分および前記音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行う音声データ補正ステップと、
この音声データ補正ステップにて補正を行った結果を音声合成データとして出力する音声合成データ出力ステップと、
を含むことを特徴とする音声合成方法。 - 入力されたテキストデータを音声合成する音声合成装置であって、
音素およびこの音素の発話時間を記憶している音声合成用データベースと、
前記テキストデータを各音素に分割し、分割された音素に基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の音素分割候補とする音素分割・音韻韻律情報付加手段と、
この音素分割・音韻韻律情報付加手段で音韻韻律情報が付加された音素分割候補の中から、当該音素分割候補の前後の調音結合に従った複数の音素分割候補からなる複数音素分割候補を探索単位とし、前記発話時間で区切られた音素に基づき、連結コストおよび音韻韻律コストが最小になる音素分割候補を組み合わせた音声データ列として、前記音声合成用データベースから探索する音声データ探索手段と、
この音声データ探索手段で探索された前記音声データ列の各音素分割候補の連結部分および前記音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行う音声データ補正手段と、
この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段と、
を備えることを特徴とする音声合成装置。 - 入力されたテキストデータを音声合成する音声合成装置であって、
音素およびこの音素の発話時間を記憶している音声合成用データベースと、
入力されたテキストデータを構成する音素に形態素解析し、この形態素解析した音素を任意数連結させた可変長音素列とし、この可変長音素列に基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の可変長音素列分割候補とする可変長音素列分割・音韻韻律情報付加手段と、
この可変長音素列分割・音韻韻律情報付加手段で、音韻韻律情報が付加された可変長音素列分割候補を探索単位とし、前記発話時間で区切られる音素に基づき、連結コストおよび音韻韻律コストが最小になる可変長音素列分割候補を組み合わせた音声データ列として、前記音声合成用データベースから探索する音声データ探索手段と、
この音声データ探索手段で探索された前記音声データ列の各可変長音素列分割候補の連結部分および前記音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行う音声データ補正手段と、
この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段と、
を備えることを特徴とする音声合成装置。 - 入力されたテキストデータを音声合成する音声合成装置であって、
単語および音素とこれら単語および音素の発話時間とを記憶している音声合成用データベースと、
前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の単語分割候補とする単語分割・音韻韻律情報付加手段と、
この単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語分割候補の中から、前記音声合成用データベースに存在しないか若しくは予め設定した設定データ数よりデータ数の少ない単語については、前後の調音結合に従った複数の音素からなる複数音素分割候補を探索単位とし、前記音声合成用データベースに存在するか若しくは前記設定データ数よりデータ数の多い単語については、前記単語分割候補を探索単位とし、前記発話時間で区切られた単語に基づき、連結コストおよび音韻韻律コストが最小になる単語分割候補および複数音素分割候補を組み合わせた音声データ列として、前記音声合成用データベースから探索する音声データ探索手段と、
この音声データ探索手段で探索された前記音声データ列の各単語分割候補および各複数音素分割候補の連結部分および前記音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行う音声データ補正手段と、
この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段と、
を備えることを特徴とする音声合成装置。 - 前記音声データ探索手段は、前記単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語の語頭および語尾における前後の調音結合に従った音素と、前記音声合成用データ上における前後の調音結合に従った音素とが同じクラスターに属するかに基づいて、前記音韻韻律コストを算出する際の係数を決定し、当該係数を使用することを特徴とする請求項6に記載の音声合成装置。
- 前記音声データ探索手段は、前記連結コストの算出は複数音素分割候補の統計量を用いて各次元に正規化し、ケプストラム距離を使用することを特徴とする請求項4から請求項7のいずれか1項に記載の音声合成装置。
- 入力されたテキストデータを音声合成する装置を、
前記テキストデータを各音素に分割し、分割された音素に基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の音素分割候補とする音素分割・音韻韻律情報付加手段、
この音素分割・音韻韻律情報付加手段で音韻韻律情報が付加された音素分割候補の中から、当該音素分割候補の前後の調音結合に従った複数の音素分割候補からなる複数音素分割候補を探索単位とし、前記発話時間で区切られた音素に基づき、連結コストおよび音韻韻律コストが最小になる音素分割候補を組み合わせた音声データ列として、前記音素およびこの音素の発話時間を記憶している音声合成用データ記憶手段から探索する音声データ探索手段、
この音声データ探索手段で探索された前記音声データ列の各音素分割候補の連結部分および前記音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行う音声データ補正手段、
この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段、
として機能させることを特徴とする音声合成プログラム。 - 入力されたテキストデータを音声合成する装置を、
前記テキストデータを構成する音素に形態素解析し、この形態素解析した音素を任意数連結させた可変長音素列とし、この可変長音素列に基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の可変長音素列分割候補とする可変長音素列分割・音韻韻律情報付加手段、
この可変長音素列分割・音韻韻律情報付加手段で、音韻韻律情報が付加された可変長音素列分割候補を探索単位とし、前記発話時間で区切られる音素に基づき、連結コストおよび音韻韻律コストが最小になる可変長音素列分割候補を組み合わせた音声データ列として、前記音素およびこの音素の発話時間を記憶している音声合成用データ記憶手段から探索する音声データ探索手段、
この音声データ探索手段で探索された前記音声データ列の各可変長音素列分割候補の連結部分および前記音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行う音声データ補正手段、
この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段、
として機能させることを特徴とする音声合成プログラム。 - 入力されたテキストデータを音声合成する装置を、
前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の単語分割候補とする単語分割・音韻韻律情報付加手段、
この単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語分割候補の中から、前記音声合成用データ記憶手段に存在しないか若しくは予め設定した設定データ数よりデータ数の少ない単語については、前後の調音結合に従った複数の音素からなる複数音素分割候補を探索単位とし、前記音声合成用データ記憶手段に存在するか若しくは前記設定データ数よりデータ数の多い単語については、前記単語分割候補を探索単位とし、前記発話時間で区切られた単語に基づき、連結コストおよび音韻韻律コストが最小になる単語分割候補および複数音素分割候補を組み合わせた音声データ列として、前記単語および音素とこれら単語および音素の発話時間とを記憶している音声合成用データ記憶手段から探索する音声データ探索手段、
この音声データ探索手段で探索された前記音声データ列の各単語分割候補および各複数音素分割候補の連結部分および前記音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行う音声データ補正手段、
この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段、
として機能させることを特徴とする音声合成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003296584A JP4532862B2 (ja) | 2002-09-25 | 2003-08-20 | 音声合成方法、音声合成装置および音声合成プログラム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002278944 | 2002-09-25 | ||
JP2003296584A JP4532862B2 (ja) | 2002-09-25 | 2003-08-20 | 音声合成方法、音声合成装置および音声合成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004139033A true JP2004139033A (ja) | 2004-05-13 |
JP4532862B2 JP4532862B2 (ja) | 2010-08-25 |
Family
ID=32473089
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003296584A Expired - Fee Related JP4532862B2 (ja) | 2002-09-25 | 2003-08-20 | 音声合成方法、音声合成装置および音声合成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4532862B2 (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005331775A (ja) * | 2004-05-20 | 2005-12-02 | Nippon Hoso Kyokai <Nhk> | 音声合成装置および音声合成プログラム |
JP2007114236A (ja) * | 2005-10-18 | 2007-05-10 | Nippon Hoso Kyokai <Nhk> | 音声合成装置および音声合成プログラム |
JP2007163667A (ja) * | 2005-12-12 | 2007-06-28 | Nippon Hoso Kyokai <Nhk> | 音声合成装置および音声合成プログラム |
JP2009063869A (ja) * | 2007-09-07 | 2009-03-26 | Internatl Business Mach Corp <Ibm> | 音声合成システム、プログラム及び方法 |
JP2013117638A (ja) * | 2011-12-02 | 2013-06-13 | Nippon Hoso Kyokai <Nhk> | 音声合成装置および音声合成プログラム |
US8630857B2 (en) | 2007-02-20 | 2014-01-14 | Nec Corporation | Speech synthesizing apparatus, method, and program |
CN112509552A (zh) * | 2020-11-27 | 2021-03-16 | 北京百度网讯科技有限公司 | 语音合成方法、装置、电子设备和存储介质 |
CN112530402A (zh) * | 2020-11-30 | 2021-03-19 | 深圳市优必选科技股份有限公司 | 一种语音合成方法、语音合成装置及智能设备 |
CN113516963A (zh) * | 2020-04-09 | 2021-10-19 | 菜鸟智能物流控股有限公司 | 音频数据的生成方法、装置、服务器和智能音箱 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0247700A (ja) * | 1988-08-10 | 1990-02-16 | Nippon Hoso Kyokai <Nhk> | 音声合成方法および装置 |
JPH0756594A (ja) * | 1993-08-19 | 1995-03-03 | Meidensha Corp | 不特定話者音声認識装置およびその方法 |
JPH07146696A (ja) * | 1993-09-30 | 1995-06-06 | Meidensha Corp | 音声認識における単語テンプレートの自動作成方法 |
JPH0990972A (ja) * | 1995-09-26 | 1997-04-04 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成用合成単位作成方法 |
JPH1049193A (ja) * | 1996-05-15 | 1998-02-20 | A T R Onsei Honyaku Tsushin Kenkyusho:Kk | 自然発話音声波形信号接続型音声合成装置 |
JPH11259091A (ja) * | 1998-03-09 | 1999-09-24 | Canon Inc | 音声合成装置及び方法 |
JP2000231395A (ja) * | 1999-02-08 | 2000-08-22 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成方法及び装置 |
JP2001282278A (ja) * | 2000-03-31 | 2001-10-12 | Canon Inc | 音声情報処理装置及びその方法と記憶媒体 |
JP2004029493A (ja) * | 2002-06-27 | 2004-01-29 | Nippon Hoso Kyokai <Nhk> | 音声合成方法、音声合成装置および音声合成プログラム |
JP2004109535A (ja) * | 2002-09-19 | 2004-04-08 | Nippon Hoso Kyokai <Nhk> | 音声合成方法、音声合成装置および音声合成プログラム |
-
2003
- 2003-08-20 JP JP2003296584A patent/JP4532862B2/ja not_active Expired - Fee Related
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0247700A (ja) * | 1988-08-10 | 1990-02-16 | Nippon Hoso Kyokai <Nhk> | 音声合成方法および装置 |
JPH0756594A (ja) * | 1993-08-19 | 1995-03-03 | Meidensha Corp | 不特定話者音声認識装置およびその方法 |
JPH07146696A (ja) * | 1993-09-30 | 1995-06-06 | Meidensha Corp | 音声認識における単語テンプレートの自動作成方法 |
JPH0990972A (ja) * | 1995-09-26 | 1997-04-04 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成用合成単位作成方法 |
JPH1049193A (ja) * | 1996-05-15 | 1998-02-20 | A T R Onsei Honyaku Tsushin Kenkyusho:Kk | 自然発話音声波形信号接続型音声合成装置 |
JPH11259091A (ja) * | 1998-03-09 | 1999-09-24 | Canon Inc | 音声合成装置及び方法 |
JP2000231395A (ja) * | 1999-02-08 | 2000-08-22 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成方法及び装置 |
JP2001282278A (ja) * | 2000-03-31 | 2001-10-12 | Canon Inc | 音声情報処理装置及びその方法と記憶媒体 |
JP2004029493A (ja) * | 2002-06-27 | 2004-01-29 | Nippon Hoso Kyokai <Nhk> | 音声合成方法、音声合成装置および音声合成プログラム |
JP2004109535A (ja) * | 2002-09-19 | 2004-04-08 | Nippon Hoso Kyokai <Nhk> | 音声合成方法、音声合成装置および音声合成プログラム |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005331775A (ja) * | 2004-05-20 | 2005-12-02 | Nippon Hoso Kyokai <Nhk> | 音声合成装置および音声合成プログラム |
JP4603290B2 (ja) * | 2004-05-20 | 2010-12-22 | 日本放送協会 | 音声合成装置および音声合成プログラム |
JP2007114236A (ja) * | 2005-10-18 | 2007-05-10 | Nippon Hoso Kyokai <Nhk> | 音声合成装置および音声合成プログラム |
JP2007163667A (ja) * | 2005-12-12 | 2007-06-28 | Nippon Hoso Kyokai <Nhk> | 音声合成装置および音声合成プログラム |
US8630857B2 (en) | 2007-02-20 | 2014-01-14 | Nec Corporation | Speech synthesizing apparatus, method, and program |
JP5434587B2 (ja) * | 2007-02-20 | 2014-03-05 | 日本電気株式会社 | 音声合成装置及び方法とプログラム |
JP2009063869A (ja) * | 2007-09-07 | 2009-03-26 | Internatl Business Mach Corp <Ibm> | 音声合成システム、プログラム及び方法 |
US9275631B2 (en) | 2007-09-07 | 2016-03-01 | Nuance Communications, Inc. | Speech synthesis system, speech synthesis program product, and speech synthesis method |
JP2013117638A (ja) * | 2011-12-02 | 2013-06-13 | Nippon Hoso Kyokai <Nhk> | 音声合成装置および音声合成プログラム |
CN113516963A (zh) * | 2020-04-09 | 2021-10-19 | 菜鸟智能物流控股有限公司 | 音频数据的生成方法、装置、服务器和智能音箱 |
CN113516963B (zh) * | 2020-04-09 | 2023-11-10 | 菜鸟智能物流控股有限公司 | 音频数据的生成方法、装置、服务器和智能音箱 |
CN112509552A (zh) * | 2020-11-27 | 2021-03-16 | 北京百度网讯科技有限公司 | 语音合成方法、装置、电子设备和存储介质 |
CN112509552B (zh) * | 2020-11-27 | 2023-09-26 | 北京百度网讯科技有限公司 | 语音合成方法、装置、电子设备和存储介质 |
CN112530402A (zh) * | 2020-11-30 | 2021-03-19 | 深圳市优必选科技股份有限公司 | 一种语音合成方法、语音合成装置及智能设备 |
CN112530402B (zh) * | 2020-11-30 | 2024-01-12 | 深圳市优必选科技股份有限公司 | 一种语音合成方法、语音合成装置及智能设备 |
Also Published As
Publication number | Publication date |
---|---|
JP4532862B2 (ja) | 2010-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10157610B2 (en) | Method and system for acoustic data selection for training the parameters of an acoustic model | |
US20200211529A1 (en) | Systems and methods for multi-style speech synthesis | |
US10276149B1 (en) | Dynamic text-to-speech output | |
US8019602B2 (en) | Automatic speech recognition learning using user corrections | |
US9672815B2 (en) | Method and system for real-time keyword spotting for speech analytics | |
US7127396B2 (en) | Method and apparatus for speech synthesis without prosody modification | |
KR101153129B1 (ko) | 자동 음성 인식 시스템들의 음향 모델들로부터 발생된합성형 입력들을 사용하는 자동 음성 인식 시스템들의 시험및 조정 | |
US20050119890A1 (en) | Speech synthesis apparatus and speech synthesis method | |
JP6293912B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
US20050187769A1 (en) | Method and apparatus for constructing and using syllable-like unit language models | |
US20020107688A1 (en) | Speech synthesizing method and apparatus | |
JPH10116089A (ja) | 音声合成用の基本周波数テンプレートを収容する韻律データベース | |
JP2008134475A (ja) | 入力された音声のアクセントを認識する技術 | |
AU2018271242A1 (en) | Method and system for real-time keyword spotting for speech analytics | |
JP2014074732A (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
JP4532862B2 (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
Chu et al. | A concatenative Mandarin TTS system without prosody model and prosody modification | |
JP5184467B2 (ja) | 適応化音響モデル生成装置及びプログラム | |
Shen et al. | Automatic selection of phonetically distributed sentence sets for speaker adaptation with application to large vocabulary Mandarin speech recognition | |
JP2004109535A (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
JP2007163667A (ja) | 音声合成装置および音声合成プログラム | |
JP2004191705A (ja) | 音声認識装置 | |
JP4580317B2 (ja) | 音声合成装置および音声合成プログラム | |
Janicki et al. | Taking advantage of pronunciation variation in unit selection speech synthesis for Polish | |
JP2004029493A (ja) | 音声合成方法、音声合成装置および音声合成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060214 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090303 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090324 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090521 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100119 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100323 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20100326 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20100426 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100518 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100611 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130618 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140618 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |