JP4586615B2 - 音声合成装置,音声合成方法およびコンピュータプログラム - Google Patents

音声合成装置,音声合成方法およびコンピュータプログラム Download PDF

Info

Publication number
JP4586615B2
JP4586615B2 JP2005113806A JP2005113806A JP4586615B2 JP 4586615 B2 JP4586615 B2 JP 4586615B2 JP 2005113806 A JP2005113806 A JP 2005113806A JP 2005113806 A JP2005113806 A JP 2005113806A JP 4586615 B2 JP4586615 B2 JP 4586615B2
Authority
JP
Japan
Prior art keywords
speaker
speech
reading
unit
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005113806A
Other languages
English (en)
Other versions
JP2006293026A (ja
Inventor
勉 兼安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2005113806A priority Critical patent/JP4586615B2/ja
Priority to US11/399,410 priority patent/US20060229874A1/en
Publication of JP2006293026A publication Critical patent/JP2006293026A/ja
Application granted granted Critical
Publication of JP4586615B2 publication Critical patent/JP4586615B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser

Description

本発明は,音声合成装置,音声合成方法およびコンピュータプログラムに関する。
予め録音された人の自然音声から,所望の単語や文章を読み上げる音声を作成する音声合成装置が一般に知られている。そのような音声合成装置は,品詞単位に分割可能な自然音声が記録されている音声コーパスに基づいて合成音声の作成を行う。音声合成装置による音声合成処理の一例を説明する。まず,入力されたテキストについて形態素解析,係り受け解析を実行し,音素記号,アクセント記号等に変換する。次に,音素記号,アクセント記号列および形態素解析結果から得られる入力テキストの品詞情報を用いて,音素持続時間(声の長さ)基本周波数(声の高さ),母音中心のパワー(声の大きさ)等の推定を行う。推定された音素持続時間,基本周波数,母音中心のパワー等に最も近く,かつ波形辞書に蓄積されている合成単位(音素片)を接続したときの歪みが最も小さくなる合成単位の組み合わせを動的計画法を用いて選択する。なお,この際に行う単位選択では,知覚的特徴に一致した尺度(コスト値)を用いる。その後,選択された音素片の組み合わせに従って,ピッチを変換しつつ音素片の接続を行うことにより音声を生成する。
しかし,上記のような従来の音声合成装置では,読み上げ口調の文章の合成において十分な品質の合成音声を作成することは難しかった。そこで,読み上げ文章の合成を対象とし,より高品質な合成音声を作成できる音声合成装置が提案されている(例えば,特許文献1参照)。
特開2003−208188号公報
しかし,上記文献に記載の音声合成装置を含め,従来の音声合成装置は,合成音声の元となる自然音声について,合成音声の作成の際にどの自然音声を採用するかをユーザの希望に応じて決定することはできなかった。
そこで,本発明は,このような問題に鑑みてなされたもので,その目的とするところは,合成音声の作成の際にどの自然音声を採用するかをユーザの希望に応じて決定することが可能な音声合成装置,音声合成方法およびコンピュータプログラムを提供することにある。
上記課題を解決するために,本発明のある観点によれば,予め録音された音声を用いて,文章を読み上げる音声を作成する音声合成装置において:複数の話者の音声を話者ごとに記憶する音声記憶部と;音声から特定される,話者の発話に関する特徴を示す話者特徴情報を,話者ごとに記憶する特徴情報記憶部と;文章読み上げ時の発話に関する特徴を示す読み上げ特徴情報を指定する読み上げ特徴指定部と:読み上げ特徴指定部により指定された読み上げ特徴情報と,特徴情報記憶部に記憶されている話者特徴情報とに基づいて,読み上げ特徴指定部により指定された特徴に対する話者の発話に関する特徴の類似の程度を導出する照合部と;照合部により導出された類似の程度に基づいて,読み上げ特徴指定部により指定された特徴と類似する特徴をもつ話者の音声を音声記憶部から取得し,該音声に基づいて文章を読み上げる合成音声を作成する音声合成部と:を備える音声合成装置が提供される。
発話に関する特徴には,話し方に関する特徴,音声の特徴などが含まれる。文章読み上げ時は,音声合成装置において作成された合成音声によって,文章が読み上げられる時である。従って,文章読み上げ時の発話に関する特徴には,合成音声の特徴と,合成音声により文章が読み上げられる際の話し方が含まれる。
上記発明によれば,複数の話者の音声が話者ごとに音声記憶部に記憶されているため,音声合成部は,合成音声を作成する際に複数の話者の音声を用いることができる。音声合成部が採用する音声は,照合部の照合結果に基づいて決定される。照合部は,照合結果として,読み上げ特徴指定部が指定した特徴に対する話者の発話に関する特徴の類似の程度を導出する。つまり,音声合成部が採用する音声は,その音声の発話元である話者の発話に関する特徴が,文章読み上げ時の発話の特徴として指定された特徴と類似する程度に基づいて,決定される。その結果,上記発明によれば,読み上げ特徴情報の指定に応じて,合成音声の作成の際に採用される自然音声が変更される。従って,例えば読み上げ特徴情報の指定をユーザの入力に基づいて行えば,合成音声の作成の際にどの自然音声を採用するかをユーザの希望に応じて決定することができる。また,読み上げ特徴情報の指定を所定の条件に応じて行えば,同じ文章の読み上げに対しても状況に応じて異なる自然音声を用いて合成音声を作成することができる。
上記音声合成装置は,読み上げ特徴情報を複数記憶し,各々に識別情報が付与されている読み上げ情報記憶部と;識別情報を入力される読み上げ特徴入力部と;を備え,
読み上げ特徴指定部は,読み上げ特徴入力部に入力された識別情報に基づいて,該識別情報に対応する読み上げ特徴情報を読み上げ情報記憶部から取得するようにしてもよい。かかる構成によれば,読み上げ特徴情報の指定をユーザの入力に基づいて行うため,合成音声の作成の際にどの自然音声を採用するかをユーザの希望に応じて決定することができる。また,ユーザは,識別情報を入力すれば済むため,簡単に読み上げ特徴情報を指定することができる。
上記音声合成装置は,照合部により導出された類似の程度に基づいて,所定の条件を満たす複数の話者を選択する話者選択部を備えてもよい。その場合,音声合成部は,話者選択部によって選択された複数の話者の各々の音声に基づいて複数の合成音声を作成してもよい。そして,上記音声合成装置は,音声合成部によって作成された複数の合成音声から合成音声の自然性の程度を示す値に基づいて合成音声を選択する合成音声選択部を備えてもよい。かかる構成によれば,音声合成部は,音声選択部が選択した複数の話者の各々の音声を用いて複数の合成音声を作成し,作成された複数の合成音声から,合成音声の自然性を示す値に基づいて,1または2以上の合成音声が合成音声選択部により選択される。つまり,文章読み上げ時の発話に関する特徴との類似の程度と,実際に作成された合成音声の自然性とに基づいて,文章の読み上げに使用される合成音声が決定される。音声記憶部に記憶されている各話者の音声のデータ量や種類によって,同じ話者の音声を用いて合成音声を作成した場合でも読み上げる文章によっては合成音声の自然性等の品質が異なる可能性がある。そこで,読み上げる文章に応じて,合成音声作成時に採用する音声を変えることが好ましい。上記構成により,文章読み上げ時の発話に関する特徴をユーザが指定すれば,ユーザの希望に沿った(またはユーザの希望に近い)特徴を持つ合成音声であり,かつ,自然性が高く品質の良い合成音声を,文章の読み上げのために作成することができる。
上記音声合成装置は,読み上げ情報記憶部に記憶されている読み上げ特徴情報に対応する文章読み上げ時の発話に関する特徴と,音声記憶部に記憶されている音声から特定される話者の発話に関する特徴と,の類似度を記憶する類似度記憶部と;読み上げ特徴指定部により指定された読み上げ特徴情報に対応する文章読み上げ時の発話に関する特徴と,話者選択部により選択された複数の話者の発話に関する特徴との類似度を,類似度記憶部から取得する類似度取得部と;照合部により導出された類似の程度に基づいて,所定の条件を満たす複数の話者を選択する話者選択部と;を備えてもよい。その場合,音声合成部は,話者選択部によって選択された複数の話者の各々の音声に基づいて複数の合成音声を作成してもよい。そして,音声合成部によって作成された複数の合成音声から,合成音声の自然性の程度を示す値および類似度取得部により取得された類似度に基づいて合成音声を選択する合成音声選択部をさらに備えてもよい。かかる構成によれば,照合部により導出される,文章読み上げ特徴と各話者の特徴との類似の程度と,類似度記憶部に記憶されている類似度に基づいて,合成音声作成時に採用する音声が決定される。そのため,文章読み上げ時の特徴をユーザが指定した場合,作成される合成音声の特徴がユーザの希望に沿っている可能性を高めることができる。
上記合成音声選択部は,自然性の程度を示す値および類似度に重み付けをしてもよい。かかる構成により,作成する合成音声のユーザの希望との類似度と自然性とのバランスを調整することができる。
上記類似の程度は,話者特徴情報と読み上げ特徴情報との誤差を算出することによって導出され,上記所定の条件は,誤差が所定の値以下であるように構成されてもよい。
上記文章を入力する文章入力部を備えてもよい。かかる構成により,読み上げ対象の文章をユーザが指定することができる。
上記読み上げ特徴情報および話者特徴情報には,発話を特徴付ける複数の項目と,項目ごとに設定される特徴に応じた数値が含まれてもよく,上記音声合成装置は,発話を特徴づける複数の項目を表示画面に表示させ,各項目に対するユーザからの設定値を受け付ける読み上げ特徴入力部を備えてもよい。かかる構成により,文章読み上げ時の特徴をユーザが自由に指定することができる。
上記課題を解決するために,本発明の別の観点によれば,コンピュータに上記音声合成装置として機能させるコンピュータプログラムが提供される。また,上記音声合成装置により実現可能な音声合成方法も提供される。
以上説明したように本発明によれば,合成音声の作成の際にどの自然音声を採用するかをユーザの希望に応じて決定することが可能な音声合成装置,音声合成方法およびコンピュータプログラムを提供することができる。
以下に添付図面を参照しながら,本発明の好適な実施の形態について詳細に説明する。なお,本明細書及び図面において,実質的に同一の機能構成を有する構成要素については,同一の符号を付することにより重複説明を省略する。
(第1実施形態)
本発明の第1実施形態にかかる音声合成装置10について説明する。音声合成装置10は,ユーザから文章をテキスト入力されるとともに,その文章を読み上げる際の発話に関する特徴をユーザから指定されて,ユーザから指定された特徴に近い特徴を持ち,かつ,自然性が高く品質の良い合成音声によりユーザから入力された文章を読み上げる。音声合成装置10は,ハードディスク,RAM(Randam Access Memory),ROM(Read Only Memory)等の記憶手段と,音声合成装置10が行う処理を制御するCPU,ユーザからの入力を受け付ける入力手段,情報の出力を行う出力手段などを備える。また,外部のコンピュータと通信を行う通信手段を備えても良い。音声合成装置10としては,パーソナルコンピュータ,電子辞書,カーナビゲーションシステム,携帯電話,音声を発するロボットなどを例示できる。
図1に基づいて,音声合成装置10の機能構成について説明する。音声合成装置10は,読み上げ特徴入力部102と,読み上げ特徴指定部104と,照合部106と,話者選択部108と,音声合成部110と,合成音声選択部112と,文章入力部114と,合成音声出力部116と,読み上げ情報記憶部118と,特徴情報記憶部120と,音声記憶部122などを備える。
音声記憶部122は,複数の話者の音声を話者ごとに記憶している。音声には,単語や文章を各話者が読み上げた時の音声が多数含まれている。換言すると,音声記憶部122には,いわゆる音声コーパスが複数話者分格納されている。音声記憶部122は,話者を識別する識別子と,その話者の音声コーパスとを関連付けて記憶している。なお,同一人物により発せられた音声であっても,話し方や音声の特徴が全く異なる場合には,各々別の話者として記憶されてもよい。
HMM記憶部124は,韻律予測に用いる隠れマルコフモデル(Hidden Markov Model,以後,HMMと称する。)を,複数話者分記憶している。HMM記憶部124は,話者を識別する識別子と,その話者のHMMとを関連付けて記憶している。識別子は,音声記憶部122において各話者に付与されている識別子と対応しており,後述の音声合成部110は,識別子により対応付けられている音声コーパスとHMMとを用いて合成音声の作成を行う。
特徴情報記憶部120は,音声記憶部122に記憶されている音声から特定される,話者の発話に関する特徴を示す話者特徴情報を話者ごとに記憶している。話者の発話に関する特徴には,話者の話し方の特徴や,話者から発せられる音声の特徴などが含まれる。話者の話し方の特徴としは,例えば,イントネーションや言い回し,話す早さ等が挙げられる。音声の特徴としては,例えば,声の高さや,音声から受ける印象等が挙げられる。特徴情報記憶部120の記憶内容について,図3を参照して具体的に説明する。
図3に示すように,特徴情報記憶部120に記憶されている項目としては,Index1200,話者1201,感情1202,読みの早さ1203,態度1204,性別1205,年齢1026,方言1207などを例示できる。Index1200には,話者を識別する識別子が格納される。この識別子は,音声記憶部122に記憶されている識別子と対応しており,音声記憶部122に記憶されている音声コーパスと話者特徴情報とを当該識別子によって紐付けることができる。話者1201には,話者を特定する情報が格納され,例えば,Index1200に格納された識別子と関連付けられている音声コーパスが,誰の音声であるのかがわかるように話者の名前を格納する。
感情1202から方言1207は,話者の発話に関する特徴を示す話者特徴情報の例である。各項目は複数のサブ項目をもち,サブ項目間のバランスにより,その項目における話者の特徴を表す。例えば,感情1202は,平常,喜び,怒り,悲しみの4つのサブ項目をもつ。「感情」は,音声記憶部122に記憶されている話者の音声から聞き手が受ける印象に基づき,推定される話者の発話時の感情を,話者の発話に関する特徴の1項目としたものである。話者の発話時の感情は,上記4つのサブ項目のバランスによって表現される。例えば,コーパス1に対応する音声は,その音声を聞いた聞き手が,この話者はある程度平常心で話しているけれども,少し喜びが入っており,かつ,その喜びよりも微妙に多く悲しみが混ざっているという印象を受けることを,サブ項目である平常,喜び,悲しみの各項目に振り分けられた数値(平常=0.5,喜び=0.2,悲しみ=0.3)により示している。
読みの早さ1203は,早い,通常,遅いの3つのサブ項目をもつ。「読みの早さ」は,音声記憶部122に記憶されている話者の音声に基づき,その話者の読み上げの早さ,換言すると,話者の話す速度を,話者の発話に関する特徴の1項目としたものである。読みの早さは,上記3つのサブ項目のバランスによって表現される。例えば,コーパス2に対応する音声について,この音声(に対応する話者)によって文章が読み上げられる時の読み上げの早さはほぼ通常だけれども少し遅い場合もあるということを,サブ項目である通常,遅いの各項目に振り分けられた数値(通常=0.8,遅い=0.2)により示している。
態度1204は,温かい,冷たい,丁寧,謙虚の4つのサブ項目をもつ。「態度」は,音声記憶部122に記憶されている話者の音声から聞き手が受ける印象に基づいて,推定される話者の発話時の態度を,話者の発話に関する特徴の1項目としたものである。話者の発話時の態度は,上記4つのサブ項目のバランスによって表現される。例えば,コーパス1に対応する音声は,その音声を聞いた聞き手が,この話者の発話時の態度,具体的には例えば話し方は,温かく,丁寧で謙虚であるという印象を受けることを,サブ項目である温かい,丁寧,謙虚の各項目に振り分けられた数値(温かい=0.4,丁寧=0.3,謙虚=0.3)により示している。
性別1205は,男性,女性の2つのサブ項目をもつ。「性別」は,音声記憶部122に記憶されている話者の音声から聞き手が受ける印象に基づいて,話者の話し方や声のトーンが男性寄りであるか,女性寄りであるかを,話者の発話に関する特徴の1項目としたものである。例えば,コーパス2に対応する音声は,その音声を聞いた聞き手が,この話者の声のトーンは男性だけれども,話し方が少し女性っぽいという印象を受けることを,サブ項目である男性,女性の各項目に振り分けられた数値(男性=0.7,女性=0.3)により示している。
年齢1206は,10代,20代,30代,40代の4つのサブ項目をもつ。「年齢」は,音声記憶部122に記憶されている話者の音声から聞き手が受ける印象に基づいて,推定される話者の年齢を,話者の発話に関する特徴の1項目としたものである。例えば,コーパス1に対応する音声は,その音声を聞いた聞き手が,この話者の話し方から推定すると話者は20代だけれども,声質から推定すると10代の可能性もあるという印象を受けることを,サブ項目である10代,20代の各項目に振り分けられた数値(10代=0.3,20代=0.7)により示している。
方言1207は,標準語,関西弁,東北弁の3つのサブ項目をもつ。「方言」は,音声記憶部122に記憶されている話者の音声,特にそのイントネーションや使用されている言葉の種類から,話者の方言を,話者の発話に関する特徴の1項目としたものである。例えば,コーパス3に対応する音声は,この音声(に対応する話者)によって文章が読み上げられる時のイントネーションなどは,概ね関西弁であるが完全な関西弁ではなく少し標準語が混じっているということを,サブ項目である標準語,関西弁の各項目に振り分けられた数値(標準語=0.2,関西弁=0.8)により示している。
上記の各項目,およびサブ項は一例に過ぎず,任意の項目やサブ項目を設定可能である。また,上記のように項目毎にサブ項目を設けて,サブ項目のバランスにより特徴を示すのではなく,例えば,項目毎に0〜10のいずれかの数値を格納することにより特徴を示してもよい。具体的には例えば,項目として「読みの速度が早い」を設け,非常に早い場合に10を,非常に遅い場合に0を格納し,その間の早さの程度を1〜9の数値を格納することにより,特徴を示すようにしてもよい。以上,特徴情報記憶部120について詳細に説明した。
図1に戻る。読み上げ情報記憶部118は,読み上げ特徴情報を複数記憶している。複数の読み上げ特徴情報の各々には識別子が付与されている。読み上げ特徴情報は,文章読み上げ時の発話に関する特徴を示す。上述の特徴情報記憶部120には,音声記憶部122に記憶されている話者の音声に対応する,各話者の発話に関する特徴の情報が記憶されている。それに対し,読み上げ情報記憶部118に記憶されている発話に関する特徴の情報は,合成音声出力部116により合成音声が出力される際に,その合成音声が備えていることが望まれる特徴の情報が格納される。読み上げ情報記憶部118の記憶内容を,図2を参照して説明する。
図2に示すように,読み上げ情報記憶部118に記憶されている項目としては,Index1180,話者1181,感情1182,読みの早さ1183,態度1184,性別1185,年齢1186,方言1187などを例示できる。Index1180には,読み上げ特徴情報を識別する識別子が格納される。読み上げ者1181には,読み上げ特徴情報を特定する情報が格納される。この情報は,読み上げ情報記憶部118に記憶されているいずれかの読み上げ特徴情報をユーザに指定させる場合に利用されてもよい。その場合,読み上げ者1181に,読み上げ特徴情報がどのようなものであるのかをユーザが容易に推定できるような名称を格納しておく。具体的には,例えばIndex=0により識別される読み上げ特徴情報が,あるアニメの主人公の発話に関する特徴を示すものである場合,読み上げ者1181にはそのアニメの主人公の名前を格納する。そして,読み上げ特徴情報をユーザに指定させる際に,上記アニメの主人公の名前を指定可能にすれば,ユーザは文章読み上げ時の合成音声が概ねどのような特徴をもつのかを認識して読み上げ特徴情報を指定することができる。なお,読み上げ特徴情報をユーザに指定させる場合に,Index1180に格納されている識別子を用いても構わない。
感情1182から方言1187は,読み上げ時の発話に関する特徴を示す読み上げ特徴情報の例である。各項目は複数のサブ項目をもち,サブ項目間のバランスにより,その項目における話者の特徴を表す。項目およびサブ項目の種類は,特徴情報記憶部120に記憶されているものと対応している。なお,全てが対応していなくても構わない。各項目やサブ項目の意味は,特徴情報記憶部120において説明したものと同様であるため,説明を省略する。以上,読み上げ情報記憶部118について詳細に説明した。
上記読み上げ情報記憶部118,特徴情報記憶部120および音声記憶部122は,音声合成装置10が備える記憶手段に格納されている。
図1に戻り,音声合成装置10の機能構成についての説明を続ける。読み上げ特徴入力部102は,ユーザにより読み上げ特徴情報を入力される。本実施形態では,読み上げ特徴情報として,読み上げ情報記憶部118に記憶されているいずれかの読み上げ特徴情報に対応する識別情報を入力される。識別情報は,上述のように読み上げ者の名称であってもよいし,Index(識別子)であってもよい。読み上げ特徴入力部102は,入力された識別情報を読み上げ特徴指定部104に提供する。
読み上げ特徴指定部104は,読み上げ特徴入力部102から取得した識別情報に基づいて,その識別情報に対応する読み上げ特徴情報を読み上げ情報記憶部118から抽出する。その際に読み上げ特徴指定部104は,読み上げ特徴情報として,読み上げ情報記憶部118に記憶されている全ての項目(感情1182〜方言1187)を抽出してもよいし,一部(例えば,読みの早さ1183と方言1187のみ等)を抽出してもよい。抽出する項目をユーザが読み上げ特徴入力部102から指定できるようにしてもよい。読み上げ特徴指定部104は,抽出した読み上げ特徴情報を照合部106に提供する。
照合部106は,読み上げ特徴指定部104から読み上げ特徴情報を取得し,取得した読み上げ特徴情報と特徴情報記憶部120に記憶されている話者特徴情報との照合を行う。照合部106は,照合を行うことにより,読み上げ特徴情報と複数の話者特徴情報の各々との類似の程度を導出する。具体的には,特徴情報間の誤差を求めることにより,類似の程度を導出することができる。特徴情報間の誤差は,例えば下記のような最小2乗法の式で求めることができる。
読み上げ特徴情報の各サブ項目の値:U平常,U喜び,U悲しみ,・・U温かい,・・U東北弁
話者特徴情報の各サブ項目の値:C平常,C喜び,C悲しみ,・・C温かい,・・C東北弁
誤差=(U平常−C平常+(U喜び−C喜び+(U悲しみ−C悲しみ+・・+(U温かい−C温かい+・・+(U東北弁−C東北弁
また,類似の程度を重視する項目と,そうでない項目とを算出結果に反映させるため,上記式の各項目に重み付けを行ってもよい。照合部106は,導出した類似の程度,具体的には上記式により算出した結果を,話者特徴情報の識別子(Index1200)とともに話者選択部108に提供する。なお,照合部106は,特徴情報記憶部120に記憶されている全ての話者の話者特徴情報について,読み上げ特徴情報との照合を行ってもよいし,性別や年齢によりフィルタリングするなどして,一部の話者の話者特徴情報について照合を行うようにしてもよい。
話者選択部108は,照合部106から取得した類似の程度に基づいて,複数の話者を選択する。具体的には,話者選択部108は,照合部106から,話者特徴情報の複数の識別子と,各識別子に対応する算出結果である誤差を取得し,所定の条件に基づいて,2以上の話者特徴情報を選択する。所定の条件は,例えば,誤差が所定の範囲内であること,とすることができる。また,誤差が小さい順に所定数まで,とすることもできる。話者選択部108は,選択した話者特徴情報の識別子を音声合成部110に提供する。
文章入力部114は,合成音声により読み上げさせる文章(一文のみや単語のみの場合も含む)を入力され,入力された文章を音声合成部110に提供する。文章は,キーボードなどの入力手段を介してユーザにより入力されてもよいし,他のコンピュータ等から通信手段を介して入力されてもよい。また,フレキシブルディスクやCD(Compact Disk)などの外部記録媒体に記録されているテキスト文を読み取ることにより入力されてもよい。
音声合成部110は,話者選択部108によって選択された複数の話者の各々の音声に基づいて複数の合成音声を作成する。具体的には,音声合成部110は,話者選択部108から話者特徴情報の複数の識別子を取得し,取得した識別子に対応するHMMに基づいて話者毎に韻律を生成し,生成した話者毎の韻律に対応する音韻波形を各話者の音声コーパスから選択し,接続することで,文章入力部114から取得した文章を読み上げる合成音声を作成する。より詳細には,音声合成部110は,以下の処理によって合成音声を作成する。
1.入力された文章に対して形態素解析,係り受け解析を行い,漢字仮名文字で表現された文章を,音韻記号とアクセント記号等に変換する。
2.音韻記号とアクセント記号列,および形態素解析結果から得られる文章の品詞情報に基づき,音声記憶部122に記憶されている音声から構築されたHMM記憶部124に記憶されている統計的に学習されたHMMを用いて,特徴点である音韻継続時間長,基本周波数およびメルケプストラム等の推定を行う。
3.コスト関数により算出されたコスト値に基づいて,文章の先頭からコスト値が最小となる合成単位(音素片)の組み合わせを,動的計画法を用いて選択する。
4.上記で選択した音素片の組み合わせに従って,音素片の接続を行い,合成音声を作成する。
上記コスト関数は,韻律に関するサブコスト,ピッチの不連続に関するサブコスト,音韻環境代替に関するサブコスト,スペクトルの不連続に関するサブコスト,および音韻の適合性に関するサブコストの5つのサブコスト関数から構成され,合成音声の自然性の程度を求めるものである。コスト値は,上記5つのサブコスト関数から算出されるサブコスト値に重み係数を乗算して足し合わせた値であり,合成音声の自然性の程度を示す値の一例である。コスト値が小さいほど,合成音声の自然性が高い。なお,音声合成部110は,合成音声の自然性の程度を示す値が算出される方法であれば,上記とは異なる方法により合成音声を作成しても構わない。
音声合成部110は,作成した複数の合成音声と,各合成音声のコスト値を合成音声選択部112に提供する。
合成音声選択部112は,音声合成部110から取得した複数の合成音声から,合成音声の自然性の程度を示す値に基づいて,出力する合成音声を選択する。具体的には,合成音声部112は,音声合成部110から複数の合成音声と,各合成音声のコスト値を取得し,最小のコスト値をもつ合成音声を,出力する合成音声として選択し,選択した合成音声を合成音声出力部116に提供する。
合成音声出力部116は,合成音声選択部112から取得した合成音声を出力する。合成音声の出力により,文章入力部114に入力された文章が,合成音声により読み上げられる。
以上,音声合成装置10の機能構成について説明した。なお,上記のように,全ての機能が1つのコンピュータに備えられて音声合成装置10として動作してもよいし,各機能が複数のコンピュータに分散されて備えられ,全体で1つの音声合成装置10として動作するようにしてもよい。
次に,図4に基づいて,音声合成装置10により実行される音声合成処理の流れについて説明する。まず,読み上げ対象の文章が文章入力部114に入力され,読み上げ者(読み上げ特徴情報の識別情報)が読み上げ特徴入力部102を介して選択される(S102)。読み上げ特徴指定部104が,S102で選択された読み上げ者に対応する読み上げ特徴情報を読み上げ情報記憶部118から取得する(S104)。次に,照合部106が,読み上げ特徴情報と,特徴情報記憶部120に記憶されている話者特徴情報との照合を行う(S106)。次いで,話者選択部108が,S106の照合結果に基づいて複数の話者を選択する(S108)。次に,音声合成部110が,S108で選択された話者の音声コーパスとHMMに基づいて,S102で入力された文章を読み上げる合成音声を作成する(S110)。そして,合成音声選択部112が,S110で作成された複数の合成音声からコスト値に基づいて1つの合成音声を選択する(S112)。最後に,合成音声出力部116が,S112で選択された合成音声を出力する(S114)。
以上,音声合成処理の流れについて説明した。本実施形態にかかる音声合成装置10を上記構成にすることにより,合成音声の作成の際にどの自然音声を採用するかをユーザの希望に応じて決定することができる。また,読み上げる文章に応じて,合成音声作成時に採用する音声を変えることができる。その結果,ユーザの希望に沿った(またはユーザの希望に近い)特徴を持つ合成音声であり,かつ,自然性が高く品質の良い合成音声を,文章の読み上げのために作成することができる。
(第2実施形態)
本発明の第2実施形態にかかる音声合成装置20について説明する。音声合成装置20は,ユーザから文章をテキスト入力されるとともに,その文章を読み上げる際の発話に関する特徴をユーザから指定されて,ユーザから指定された特徴に近い特徴を持ち,かつ,自然性が高く品質の良い合成音声によりユーザから入力された文章を読み上げる。さらに音声合成装置20は,より確実にユーザからの指定に近い特徴をもつ合成音声により文章を読み上げる。音声合成装置20のハードウェア構成は,第1実施形態にかかる音声合成装置10とほぼ同様であるため,説明を省略する。
図5に基づいて,音声合成装置20の機能構成について説明する。音声合成装置20は,読み上げ特徴入力部102と,読み上げ特徴指定部104と,照合部106と,話者選択部108と,類似度取得部202と,音声合成部110と,合成音声選択部212と,文章入力部114と,合成音声出力部116と,読み上げ情報記憶部118と,特徴情報記憶部120と,類似度記憶部204と,音声記憶部122などを備える。第1実施形態にかかる音声合成装置10と同様の機能を有するものについては,同一の符号を振り,説明を省略する。
類似度記憶部204は,読み上げ情報記憶部118に記憶されている読み上げ特徴情報に対応する文章読み上げ時の発話に関する特徴と,音声記憶部122に記憶されている音声から特定される話者の発話に関する特徴との類似度を記憶している。類似度記憶部204の記憶内容を,図6を参照して詳細に説明する。
図6に示すように,類似度記憶部204に記憶されている項目としては,話者2040,読み上げ者2041および類似度2042などを例示できる。話者2040には,特徴情報記憶部120内の項目である話者1201と同様に,話者を特定する情報が格納される。また,その話者を特徴情報記憶部120内で一意に識別している識別子(Index1200)も格納される。読み上げ者2041には,読み上げ情報記憶部118内の項目である読み上げ者1181と同様に,読み上げ特徴情報を特定する情報が格納される。また,その読み上げ者を読み上げ情報記憶部118内で一意に識別している識別子(Index1180)も格納される。
類似度2042には,話者2040に格納されている識別情報に対応する話者(音声コーパス)の発話時の特徴と,読み上げ者2041に格納されている識別情報に対応する読み上げ者の読み上げ時の発話の特徴との類似度が格納される。図示のように,各話者に対して,読み上げ情報記憶部118内の全ての読み上げ者との類似度が格納されることが望ましい。類似度は,読み上げ情報記憶部118内の各読み上げ者のモデルとなっている話者(例えば,あるアニメの主人公など)の話し方や声と,音声記憶部122に記憶されている各話者の音声コーパスの音声とに基づいて,聞き手により予め判断された類似度であってよい。また,両者の音声を解析等することにより求められた類似度であってもよい。図示の例によれば,0.0〜1.0の数値により類似度を示しており,1.0が全く似ていない,0.0が非常に似ていることを表す。
図5に戻り,音声合成装置20の機能構成についての説明を続ける。類似度取得部202は,読み上げ特徴指定部104により指定された読み上げ特徴情報に対応する文章読み上げ時の発話に関する特徴と,話者選択部108により選択された複数の話者の発話に関する特徴との類似度を,類似度記憶部204から取得する。具体的には,類似度取得部202は,話者選択部108から,選択した話者の識別情報(Index)を取得し,読み上げ特徴指定部104から読み上げ者の識別情報(Index)を取得する。そして,取得した話者の識別情報と読み上げ者の識別情報とに基づいて類似度記憶部204を参照し,該当する類似度を取得する。類似度取得部202は,取得した類似度と,その類似度に対応する話者の識別情報とを合成音声選択部212に提供する。
合成音声選択部212は,音声合成部110から,音声合成部110により作成された複数の合成音声と,各合成音声の元となった音声コーパスを識別する識別情報(話者のIndex)と,各合成音声に対応するコスト値を取得し,類似度取得部202から,類似度取得部202によって類似度記憶部204から抽出された各話者の類似度を取得する。そして,合成音声選択部212は,取得したコスト値と類似度とに基づいて,複数の合成音声から1つの合成音声を選択する。本実施形態において,コスト値は小さいほど自然性が高く,類似度は数値が小さいほど類似度が高い。そこで,合成音声選択部212は,各話者について,コスト値の数値と類似度の数値とを足した値を求め,その値が最小となる話者の音声により作成された合成音声を,出力する合成音声として選択する。
また,合成音声選択部212は,コスト値と類似度とに重み付けを行った後に,重み付けされたコスト値の数値と類似度の数値とを足した値を求めてもよい。Index=1の話者のコスト値が0.1,類似度が0.6であり,Index=2の話者のコスト値が0.5,類似度が0.1である場合を例に挙げて説明する。コスト値と類似度を単に足した値が最小となる話者を選択する場合は,Index=1の話者の値は0.7であり,Index=2の話者の値は0.6であるため,Index=2の話者が選択される。一方,重み付けとして,コスト値に0.8の重み係数をつけ,類似度に0.2の重み係数をつけて,重み付け後のコスト値と類似度を足した値が最小となる話者を選択する場合には,Index=1の話者の値は0.20となり,Index=2の話者の値は0.42となって,Index=1の話者が選択される。合成音声選択部212が上記の如く重み付けを行うことにより,合成音声の自然性と類似度の各々をどの程度重視して合成音声を出力するのかを調節することができる。
以上,音声合成装置20の機能構成について,第1実施形態と異なる部分を中心に説明した。次に,図7に基づいて,音声合成装置20によって実行される音声合成処理の流れについて説明する。
音声合成処理の流れで,第1実施形態と同様の部分については説明を省略する。図7には,第1実施形態では実行されない処理について記載している。図7のS211にかかる処理は,第1実施形態における音声合成処理の流れを示した図4のS110の処理の後に行われる。図7のS212にかかる処理は,図4のS112にかかる処理に代わって実行される。
S211で,類似度取得部202が,S108において話者選択部108によって選択された各話者と読み上げ者との類似度を,類似度記憶部204から取得する(S211)。そして,合成音声選択部112が,S110において音声合成部110によって作成された複数の合成音声から,コスト値と類似度に基づいて1つの合成音声を選択する(S212)。
なお,S211にかかる処理は,図4のS108の後でS110の前に実行されても構わない。以上,音声合成装置20によって実行される音声合成処理の流れについて説明した。
本実施形態にかかる音声合成装置20を上記構成にすることにより,合成音声の作成の際にどの自然音声を採用するかをユーザの希望に応じて決定することができる。また,読み上げる文章に応じて,合成音声作成時に採用する音声を変えることができる。その結果,ユーザの希望に沿った(またはユーザの希望に近い)特徴を持つ合成音声であり,かつ,自然性が高く品質の良い合成音声を,文章の読み上げのために作成することができる。さらに,文章読み上げ特徴と各話者の特徴との類似の程度と,類似度記憶部に記憶されている類似度に基づいて,合成音声作成時に採用する音声が決定されるため,作成される合成音声の特徴がユーザの希望に沿っている可能性を高めることができる。
(第3実施形態)
本発明の第3実施形態にかかる音声合成装置について説明する。本実施形態にかかる音声合成装置は,ユーザから文章をテキスト入力されるとともに,その文章を読み上げる際の発話に関する特徴をユーザから指定されて,ユーザから指定された特徴に近い特徴を持ち,かつ,自然性が高く品質の良い合成音声によりユーザから入力された文章を読み上げる。さらに本実施形態にかかる音声合成装置は,ユーザによる自由な特徴情報の指定を可能にする。音声合成装置のハードウェア構成は,第1実施形態にかかる音声合成装置10とほぼ同様であるため,説明を省略する。
音声合成装置の機能構成は,第1実施形態にかかる音声合成装置10とほぼ同様であるが,読み上げ情報記憶部118を必要としない点と,読み上げ特徴入力部102に入力される読み上げ特徴情報が,読み上げ特徴情報に対応する識別情報ではない点が第1実施形態と異なる。以下,異なる部分についてのみ説明し,第1実施形態にかかる音声合成装置10と同様の部分についての説明を省略する。第1実施形態では,読み上げ情報記憶部118に予め記憶されている読み上げ特徴情報をユーザに選択させたが,音声合成装置は,読み上げ特徴入力部302を介してユーザに自由に読み上げ特徴情報を指定させることができる。図8に基づいて,読み上げ特徴入力部302について説明する。
読み上げ特徴入力部302は,音声合成装置が備えるディスプレイ等の表示手段と,マウス等のポインティングデバイスやキーボードなどの入力手段を含んで構成される。表示手段に表示される読み上げ特徴情報入力のための画面の一例を図8に示した。画面には,特徴情報記憶部120に格納されている話者特徴情報の各項目に対応する項目と,そのサブ項目が表示される。各サブ項目には,その値を調節するためのスライダ3020が設けられており,ユーザは入力手段を介してスライダ3020を調節することにより,各サブ項目の値を調節し,読み上げ特徴情報を入力する。OKボタン3021が押下されると,ユーザにより入力された読み上げ特徴情報が読み上げ特徴指定部104に提供される。なお,サブ項目の調節は,図示の例のようにスライダで行わせるようにしてもよいし,数値を入力させるようにしてもよい。
以上,第3実施形態にかかる音声合成装置について説明した。本実施形態にかかる音声合成装置を上記構成にすることにより,文章読み上げ時の発話に関する特徴をユーザに自由に指定させることができる。
以上,添付図面を参照しながら本発明の好適な実施形態について説明したが,本発明は係る例に限定されないことは言うまでもない。当業者であれば,特許請求の範囲に記載された範疇内において,各種の変更例または修正例に想到し得ることは明らかであり,それらについても当然に本発明の技術的範囲に属するものと了解される。
本発明は,予め録音された音声を用いて,文章を読み上げる音声を作成する音声合成装置に適用可能である。
本発明の第1実施形態にかかる音声合成装置の機能構成を示すブロック図である。 同実施の形態における読み上げ情報記憶部の記憶内容を説明する図である。 同実施の形態における特徴情報記憶部の記憶内容を説明する図である。 同実施の形態における音声合成処理の流れを示すフローチャートである。 本発明の第2実施形態にかかる音声合成装置の機能構成を示すブロック図である。 同実施の形態における類似度記憶部の記憶内容を説明する図である。 同実施の形態における音声合成処理の流れの一部を示すフローチャートである。 本発明の第3実施形態にかかる音声合成装置の読み上げ特徴入力部を説明する図である。
符号の説明
10,20 音声合成装置
102 読み上げ特徴入力部
104 読み上げ特徴指定部
106 照合部
108 話者選択部
110 音声合成部
112,212 合成音声選択部
114 文章入力部
116 合成音声出力部
118 読み上げ情報記憶部
120 特徴情報記憶部
122 音声記憶部
124 HMM記憶部
202 類似度取得部
204 類似度記憶部

Claims (12)

  1. 予め録音された音声を用いて,文章を読み上げる音声を作成する音声合成装置において:
    複数の話者の音声を話者ごとに記憶する音声記憶部と;
    前記音声から特定される,前記話者の発話に関する特徴を示す話者特徴情報を,前記話者ごとに記憶する特徴情報記憶部と;
    文章読み上げ時の発話に関する特徴を示す読み上げ特徴情報を指定する読み上げ特徴指定部と:
    前記読み上げ特徴指定部により指定された読み上げ特徴情報と,前記特徴情報記憶部に記憶されている前記話者特徴情報との間の類似の程度を示す誤差を算出する照合部と;
    前記照合部により導出された誤差に基づいて,該誤差が最も小さい値をもつ話者を選択する話者選択部と;
    前記話者選択部の選択した話者の音声を前記音声記憶部から取得し、該音声に基づいて前記文章を読み上げる合成音声を作成する音声合成部と:
    を備えることを特徴とする音声合成装置。
  2. 前記読み上げ特徴情報を複数記憶し,各々に識別情報が付与されている読み上げ情報記憶部と;
    前記識別情報を入力される読み上げ特徴入力部と;を備え,
    前記読み上げ特徴指定部は,前記読み上げ特徴入力部に入力された前記識別情報に基づいて,該識別情報に対応する前記読み上げ特徴情報を前記読み上げ情報記憶部から取得することを特徴とする,請求項1に記載の音声合成装置。
  3. 前記文章を入力する文章入力部を備えることを特徴とする,請求項1または2のいずれかに記載の音声合成装置。
  4. 前記読み上げ特徴情報および前記話者特徴情報には,発話を特徴付ける複数の項目と,前記項目ごとに設定される特徴に応じた数値が含まれることを特徴とする,請求項1〜3のいずれか1項に記載の音声合成装置。
  5. 前記発話を特徴づける複数の項目を表示手段に表示させ,各項目に対するユーザからの設定値を受け付ける読み上げ特徴入力部を備えることを特徴とする,請求項1〜4のいずれか1項に記載の音声合成装置。
  6. 予め録音された音声を用いて文章を読み上げる音声を作成する音声合成装置をして:
    文章読み上げ時の発話に関する特徴を示す読み上げ特徴情報を指定する読み上げ特徴指定処理と:
    音声から特定される,話者の発話に関する特徴を示す話者特徴情報が前記話者ごとに記憶されている特徴情報記憶部内の前記話者特徴情報と,前記読み上げ特徴指定処理により指定された前記読み上げ特徴情報と,の間の類似の程度を示す誤差を算出する照合処理と:
    前記照合処理により算出された誤差に基づいて,該誤差が最も小さい値をもつ話者を選択する話者選択処理と:
    前記話者選択処理により選択された話者の音声を,複数の話者の音声が話者ごとに記憶されている音声記憶部から取得し,該音声に基づいて前記文章を読み上げる合成音声を作成する音声合成処理と:
    を実行せしめることを特徴とするコンピュータプログラム。
  7. 予め録音された音声を用いて,文章を読み上げる音声を作成する音声合成方法において:
    複数の話者の音声を話者ごとに記憶手段に記憶する音声記憶ステップと;
    前記音声から特定される,前記話者の発話に関する特徴を示す話者特徴情報を,前記話者ごとに記憶手段に記憶する特徴情報記憶ステップと;
    文章読み上げ時の発話に関する特徴を示す読み上げ特徴情報を指定する読み上げ特徴指定ステップと:
    前記読み上げ特徴指定ステップにより指定された読み上げ特徴情報と,前記記憶手段に記憶されている前記話者特徴情報との間の類似の程度を示す誤差を算出する照合ステップと;
    前記照合ステップにより算出された誤差に基づいて,該誤差が最も小さい値をもつ話者を選択する話者選択ステップと;
    前記話者選択ステップにより選択された話者の音声を,前記記憶手段から取得し,該音声に基づいて前記文章を読み上げる合成音声を作成する音声合成ステップと:
    を含むことを特徴とする音声合成方法。
  8. 予め録音された音声を用いて,文章を読み上げる音声を作成する音声合成装置において:
    複数の話者の音声を話者ごとに記憶する音声記憶部と;
    前記音声から特定される,前記話者の発話に関する特徴を示す話者特徴情報を,前記話者ごとに記憶する特徴情報記憶部と;
    文章読み上げ時の発話に関する特徴を示す読み上げ特徴情報を指定する読み上げ特徴指定部と:
    前記読み上げ特徴指定部により指定された読み上げ特徴情報と,前記特徴情報記憶部に記憶されている前記話者特徴情報とに基づいて,前記読み上げ特徴指定部により指定された特徴に対する前記話者の発話に関する特徴の類似の程度を導出する照合部と;
    前記照合部により導出された類似の程度に基づいて,所定の条件を満たす複数の話者を選択する話者選択部と;
    前記話者選択部によって選択された複数の話者の各々の音声に基づいて複数の合成音声を作成する音声合成部と;
    前記音声合成部によって作成された複数の合成音声から,出力する合成音声を選択する合成音声選択部と;
    を備えることを特徴とする音声合成装置。
  9. 前記合成音声選択部は,前記合成音声の自然性の程度を示す値に基づいて,前記出力する合成音声を選択することを特徴とする,請求項8に記載の音声合成装置。
  10. 前記読み上げ情報記憶部に記憶されている前記読み上げ特徴情報に対応する文章読み上げ時の発話に関する特徴と,前記音声記憶部に記憶されている音声から特定される前記話者の発話に関する特徴と,の類似度を記憶する類似度記憶部と;
    前記読み上げ特徴指定部により指定された前記読み上げ特徴情報に対応する文章読み上げ時の発話に関する特徴と,前記話者選択部により選択された複数の話者の発話に関する特徴との類似度を,前記類似度記憶部から取得する類似度取得部と;
    を備え,
    前記合成音声選択部は,前記合成音声の自然性の程度を示す値および前記類似度取得部により取得された類似度に基づいて,出力する合成音声を選択することを特徴とする,請求項8に記載の音声合成装置。
  11. 前記合成音声選択部は,前記合成音声の自然性の程度を示す値および前記類似度に重み付けをすることを特徴とする,請求項10に記載の音声合成装置。
  12. 前記類似の程度は,前記話者特徴情報と前記読み上げ特徴情報との誤差を算出することによって導出され,
    前記所定の条件は,前記誤差が所定の値以下であることを特徴とする,請求項10または11のいずれかに記載の音声合成装置。
JP2005113806A 2005-04-11 2005-04-11 音声合成装置,音声合成方法およびコンピュータプログラム Expired - Fee Related JP4586615B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005113806A JP4586615B2 (ja) 2005-04-11 2005-04-11 音声合成装置,音声合成方法およびコンピュータプログラム
US11/399,410 US20060229874A1 (en) 2005-04-11 2006-04-07 Speech synthesizer, speech synthesizing method, and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005113806A JP4586615B2 (ja) 2005-04-11 2005-04-11 音声合成装置,音声合成方法およびコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2006293026A JP2006293026A (ja) 2006-10-26
JP4586615B2 true JP4586615B2 (ja) 2010-11-24

Family

ID=37084162

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005113806A Expired - Fee Related JP4586615B2 (ja) 2005-04-11 2005-04-11 音声合成装置,音声合成方法およびコンピュータプログラム

Country Status (2)

Country Link
US (1) US20060229874A1 (ja)
JP (1) JP4586615B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8234116B2 (en) * 2006-08-22 2012-07-31 Microsoft Corporation Calculating cost measures between HMM acoustic models
US20080059190A1 (en) * 2006-08-22 2008-03-06 Microsoft Corporation Speech unit selection using HMM acoustic models
US8150695B1 (en) * 2009-06-18 2012-04-03 Amazon Technologies, Inc. Presentation of written works based on character identities and attributes
JP5411845B2 (ja) * 2010-12-28 2014-02-12 日本電信電話株式会社 音声合成方法、音声合成装置及び音声合成プログラム
JP5842452B2 (ja) * 2011-08-10 2016-01-13 カシオ計算機株式会社 音声学習装置及び音声学習プログラム
JP2013072957A (ja) * 2011-09-27 2013-04-22 Toshiba Corp 文書読み上げ支援装置、方法及びプログラム
CN103377651B (zh) * 2012-04-28 2015-12-16 北京三星通信技术研究有限公司 语音自动合成装置及方法
JP2014066916A (ja) * 2012-09-26 2014-04-17 Brother Ind Ltd 音声合成装置
CN106601228B (zh) * 2016-12-09 2020-02-04 百度在线网络技术(北京)有限公司 基于人工智能韵律预测的样本标注方法及装置
JP7125608B2 (ja) * 2018-10-05 2022-08-25 日本電信電話株式会社 音響モデル学習装置、音声合成装置、及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08248971A (ja) * 1995-03-09 1996-09-27 Hitachi Ltd テキスト朗読読み上げ装置
JP2001265374A (ja) * 2000-03-14 2001-09-28 Omron Corp 音声合成装置及び記録媒体

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2782147B2 (ja) * 1993-03-10 1998-07-30 日本電信電話株式会社 波形編集型音声合成装置
US5930755A (en) * 1994-03-11 1999-07-27 Apple Computer, Inc. Utilization of a recorded sound sample as a voice source in a speech synthesizer
US6366883B1 (en) * 1996-05-15 2002-04-02 Atr Interpreting Telecommunications Concatenation of speech segments by use of a speech synthesizer
US5850629A (en) * 1996-09-09 1998-12-15 Matsushita Electric Industrial Co., Ltd. User interface controller for text-to-speech synthesizer
JPH10153998A (ja) * 1996-09-24 1998-06-09 Nippon Telegr & Teleph Corp <Ntt> 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置
CA2354871A1 (en) * 1998-11-13 2000-05-25 Lernout & Hauspie Speech Products N.V. Speech synthesis using concatenation of speech waveforms
US20030028380A1 (en) * 2000-02-02 2003-02-06 Freeland Warwick Peter Speech system
US7165030B2 (en) * 2001-09-17 2007-01-16 Massachusetts Institute Of Technology Concatenative speech synthesis using a finite-state transducer
US7483832B2 (en) * 2001-12-10 2009-01-27 At&T Intellectual Property I, L.P. Method and system for customizing voice translation of text to speech
US6950799B2 (en) * 2002-02-19 2005-09-27 Qualcomm Inc. Speech converter utilizing preprogrammed voice profiles
US6988069B2 (en) * 2003-01-31 2006-01-17 Speechworks International, Inc. Reduced unit database generation based on cost information
US8005677B2 (en) * 2003-05-09 2011-08-23 Cisco Technology, Inc. Source-dependent text-to-speech system
US7454348B1 (en) * 2004-01-08 2008-11-18 At&T Intellectual Property Ii, L.P. System and method for blending synthetic voices

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08248971A (ja) * 1995-03-09 1996-09-27 Hitachi Ltd テキスト朗読読み上げ装置
JP2001265374A (ja) * 2000-03-14 2001-09-28 Omron Corp 音声合成装置及び記録媒体

Also Published As

Publication number Publication date
US20060229874A1 (en) 2006-10-12
JP2006293026A (ja) 2006-10-26

Similar Documents

Publication Publication Date Title
JP4586615B2 (ja) 音声合成装置,音声合成方法およびコンピュータプログラム
US10741169B1 (en) Text-to-speech (TTS) processing
JP4025355B2 (ja) 音声合成装置及び音声合成方法
JP4125362B2 (ja) 音声合成装置
US8015011B2 (en) Generating objectively evaluated sufficiently natural synthetic speech from text by using selective paraphrases
US20200410981A1 (en) Text-to-speech (tts) processing
US11763797B2 (en) Text-to-speech (TTS) processing
US10699695B1 (en) Text-to-speech (TTS) processing
JP2007140002A (ja) 音声合成装置,音声合成方法,およびコンピュータプログラム
JP5148026B1 (ja) 音声合成装置および音声合成方法
JP5039865B2 (ja) 声質変換装置及びその方法
JP4829477B2 (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
JP5411845B2 (ja) 音声合成方法、音声合成装置及び音声合成プログラム
US20090281808A1 (en) Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JP5152588B2 (ja) 声質変化判定装置、声質変化判定方法、声質変化判定プログラム
JP4648878B2 (ja) 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体
JP6436806B2 (ja) 音声合成用データ作成方法、及び音声合成用データ作成装置
JP6523423B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP2004279436A (ja) 音声合成装置及びコンピュータプログラム
JP4793776B2 (ja) イントネーションの変化の特徴を声調の変形により表す方法及びそのコンピュータプログラム
JP5301376B2 (ja) 音声合成装置およびプログラム
Huang et al. Hierarchical prosodic pattern selection based on Fujisaki model for natural mandarin speech synthesis
JP4297496B2 (ja) 音声合成方法及びその装置
JP5012444B2 (ja) 韻律生成装置、韻律生成方法、および、韻律生成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071009

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100309

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100507

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100810

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100823

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130917

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130917

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130917

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees