JP2007271910A - 合成音声生成装置 - Google Patents

合成音声生成装置 Download PDF

Info

Publication number
JP2007271910A
JP2007271910A JP2006097331A JP2006097331A JP2007271910A JP 2007271910 A JP2007271910 A JP 2007271910A JP 2006097331 A JP2006097331 A JP 2006097331A JP 2006097331 A JP2006097331 A JP 2006097331A JP 2007271910 A JP2007271910 A JP 2007271910A
Authority
JP
Japan
Prior art keywords
unit
coefficient
change
sentence
collation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006097331A
Other languages
English (en)
Other versions
JP4744338B2 (ja
Inventor
Chikako Matsumoto
智佳子 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2006097331A priority Critical patent/JP4744338B2/ja
Priority to US11/494,476 priority patent/US8135592B2/en
Priority to EP06016106A priority patent/EP1840872B1/en
Priority to DE602006002721T priority patent/DE602006002721D1/de
Publication of JP2007271910A publication Critical patent/JP2007271910A/ja
Application granted granted Critical
Publication of JP4744338B2 publication Critical patent/JP4744338B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】聴取者にとって聴き取り易い合成音声を聴取者に提供することができる技術を提供する。
【解決手段】合成音声生成装置は、文章の入力部と、前記入力部に入力された文章から合成音声データを生成する生成部と、入力部に入力された文章を蓄積する蓄積部と、入力部に文章が新たに入力された場合に、この新たな文章と照合すべき照合対象文章を前記蓄積部から取得し、新たな文章と照合対象文章との照合を通じて、前記新たな文章の照合対象文章からの変化度を算出する照合部と、前記変化度に応じた変化係数を算出する算出部と、前記変化係数で前記合成音声データを補正する補正部とを含む。
【選択図】図1

Description

本発明は、合成音声生成装置に関する。
人が発声した音は、その発声内容に従って速度変化が付加されている。この速度変化は話者が強調したいところを示している。また、この速度変化は、聴取者にとっての聞き取り易さに繋がる。したがって、聞き取り易い合成音声の作成のために、話速、音量、ピッチ等の韻律の制御は必要とされる技術である。
また、音声ガイダンスや天気予報等のように、ほぼ同じ文章が連続する場合がある。例えば、「今日の北海道地方の天気は晴れです。」「今日の東北地方の天気は晴れです。」「今日の関東地方の天気は曇りです。」、・・・、「今日の九州地方の天気は曇りです。」のように、音声合成装置が音声にする文章が続く場合がある。音声合成装置がこのような文章を一定の調子で音声にすると、聴取者にとってストレスになるときがある。また、一定の調子の音声の場合、聴取者は、音声のうちの聴きたい箇所に注力できず、聴きたい箇所を聞き逃すことがある。
特許文献1では、話速を変化させたい場合に、テキストを形態素解析等によって解析した結果とする段落境界の間に速度制御記号を挿入して合成音声の速度を制御する音声合成技術が開示されている。
特許文献2では、話速を変化させたい場合に、テキストを形態素解析等によって解析した結果とするモーラ(文字情報を構成する複数の音声素片)ごとに挿入して合成音声の速度を制御する音声合成技術が開示されている。
特許文献3では、呼気段落間の無音区間の長さの変更による話速制御技術が開示されている。この技術では、無音区間の伸張、ピッチ区間の延長、及びピッチ区間の繰り返し処理が実行される。
また、特許文献4では、重要度の低い文章を読み飛ばす技術が開示されている。
特許文献5の技術では、文章中の重要な箇所を検索するために、題目や要約文の中からキーワードを抽出する。そして、この技術は、抽出されたキーワードが当該の文章中に含まれているか否かを判定する。この技術は、判定された結果に応じて、出力音声が識別可能となるよう話速等を制御する。
特開平9−160582号公報 特開2000−75882号公報 特開平8−83095号公報 特開2000−267687号公報 特開平10−274999号公報
特許文献1,2の技術では、段落境界やモーラごとに速度制御信号を挿入することにより、所望の速度の合成音声が作成可能である。しかしながら、特許文献1,2の技術では、話速の実現のために、話速制御信号を手作業で変更する必要がある。このため、この作業は、工数がかかる作業である。また、予め音声合成装置に対して文章の順番が設定され
ていない場合、その時々で話速を変更できない、といった問題があった。
呼気段落間の無音区間の長さを変更する話速制御技術(特許文献3の技術)では、無音部分が短かったり、無音部分が無いという結果が出力されることがある。このことにより、韻律が崩れてしまい、聴取者がその合成音声を聞くと、息がつまったように聞こえる場合がある、といった問題があった。
読み飛ばしにより発話時間を制御する技術(特許文献4の技術)では、全体の発話時間を短くすることが可能である。しかしながら、この技術は、音声ガイダンス用の文章のように、全文章を削除なしに読み上げる必要がある場合には適用できない、といった問題があった。
キーワードを用いた話速制御技術(特許文献5の技術)では、キーワードが常に読み上げられる文章の重要箇所を示さない、といった問題があった。例えば、前述した天気予報の例では、天気がキーワードであると、「今日の東北地方の天気は晴れです。」「今日の関東地方の天気は晴れです。」のように、同様の天気が連続する場合には、天気に相当する部分よりも別の箇所(例えば、日付や地方名)の方が聴取者にとって重要である。しかしながら、従来技術では、音声合成装置がキーワードに相当する箇所を変化させるため、聴取者にとって重要な部分の話速が変化されない、といった問題があった。また、この技術では、天気、日付、地方名がキーワードとして登録され、これらのキーワードを含む文章が連続して音声合成装置から音声として出力される場合、音声として出力される文章の間で違いが生じなくなる、といった問題があった。そのため、この技術では、最も聴取者に聞かせたい箇所が強調できない、といった問題があった。
本発明の目的は、聴取者にとって聴き取り易い合成音声を聴取者に提供することができる技術を提供することである。
上記課題を解決するために、本発明は以下の構成を採用した。
すなわち、本発明による合成音声装置は、文章の入力部と、前記入力部に入力された文章から合成音声データを生成する生成部と、入力部に入力された文章を蓄積する蓄積部と、入力部に文章が新たに入力された場合に、この新たな文章と照合すべき照合対象文章を前記蓄積部から取得し、新たな文章と照合対象文章との照合を通じて、前記新たな文章の照合対象文章からの変化度を算出する照合部と、前記変化度に応じた変化係数を算出する算出部と、前記変化係数で前記合成音声データを補正する補正部とを含む。
本発明は、上述した合成音声生成装置と同様の特徴を有する合成音声生成方法として実現可能である。また、本発明は、コンピュータを上述した合成音声生成装置として機能させるプログラムや、このプログラムを記録した記録媒体として実現することができる。
本発明によれば、聴取者にとって聴き取り易い合成音声を聴取者に提供することができる。
以下、図面を参照して、本発明の実施形態の音声合成装置を説明する。以下の実施形態の構成は例示であり、本発明は実施形態の構成に限定されない。
《音声合成装置の構成》
図1は、本実施形態の音声合成装置1を示す基本構成図である。音声合成装置1は、音声補正部2、入力部3、言語処理部4、音素長生成部5、ピッチ生成部6、音量生成部7、及び、波形生成部8を含んでいる。音声合成装置1は、本実施形態における処理を実行させるためのプログラムを格納するハードディスク(記憶装置)、このプログラムを実行する中央処理装置(CPU)、及び、情報の一時記憶に使用されるメモリを有するコンピュータ(情報処理装置)を用いて実現することができ、上述した構成は、CPUがハードディスクに記憶されたプログラムをメモリにロードして実行することによって実現される機能である。
入力部3は、合成音声を生成するための文章のテキストデータを受け付ける。言語処理部4,音素長生成部5,ピッチ生成部6,音量生成部7,及び波形生成部8は、入力部3に入力されたテキストデータから合成音声を生成する合成音声生成部として機能する。
言語処理部4は、テキスト(文章)に対して形態素解析を実行し、このテキスト(文章)を形態素(言語で意味を持つ最小単位)に分割する。言語処理部4は、分割された形態素のそれぞれに対して、その読みとアクセントとを決定する。言語処理部4は、形態素の繋がりから文節を検出する。言語処理部4は、検出された文節に対して、各文節間の係り受け関係を解析し、その解析結果を、複数の言葉(文節)に分けられ、読みを表すカタカナ、アクセント情報、及び、韻律を表す記号を含む文章である表音文字列として出力する。
音素長生成部5は、言語処理部4で生成された表音文字列から音素長を生成する。このとき、音素長生成部5は、音声補正部2で生成される速度係数を用いて、音素長の補正(重み付け)を行う。
ピッチ生成部6は、表音文字列から、ピッチパターン及び音素列を所定の方法によって生成する。例えば、ピッチ生成部6は、呼気段落頭から呼気段落末にかけて穏やかに降下するフレーズ成分と局所的に周波数が高くなるアクセント成分と重畳することによってピッチパターンを生成する(藤崎モデルによる生成)。このとき、ピッチ生成部6は、音声補正部2で生成されるピッチ係数を用いて、ピッチパターンを補正する。
音量生成部7は、音素列及びピッチパターンから音量情報を生成する。音量生成部7は、音声補正部2で生成される音量係数を用いて、生成された音量情報を補正する。
音素長生成部5、ピッチ生成部6、及び、音量生成部7は、変化係数が与えられたときだけ、与えられた変化係数によって補正を行う。音声補正部2が、音声長生成部5、ピッチ生成部6、及び、音量生成部7に対して、変化係数を与えるか、与えないかの制御は、例えば、ユーザインターフェースを用いた設定フラグによる設定により実現できる。
波形生成部8は、音素長、音素列、ピッチパターン、及び、音量情報から所定の方法によって合成音声を生成し、出力する。
音声補正部2は、入力部3で入力されるテキストデータから得られる表音文字列(文章)を蓄積し、新たな表音文字列(文章)が入力されたときに、新たな文章と蓄積された文章との照合を通じて新たな文章の変化度を求め、変化度に応じた変化係数を算出し、この変化係数を合成音声生成部に与える。合成音声生成部は、変化係数を用いて合成音声に対する補正を行う。
音声補正部2は、テキスト照合部9,係数算出部10,及び読上テキスト情報蓄積部11(以下、単に「蓄積部11」と表記)を有する。テキスト照合部9は、言語処理部4から入力される表音文字列を蓄積部11に格納する。また、テキスト照合部9は、言語処理部
4から入力される表音文字列(新たな表音文字列)と、蓄積部11に蓄積された表音文字列との照合処理を行い、両者の変化度を算出する。
具体的には、テキスト照合部9は、照合範囲設定部12と、照合モード設定部13と、照合部14とを含む。照合範囲設定部12は、例えば、ユーザインタフェースを用いて入力される照合範囲の設定内容を保持する。照合範囲は、言語処理部4から入力される新たな表音文字列(文章)と照合される表音文字列(文章:蓄積部11に蓄積されている)の範囲を規定する。本実施形態では、照合範囲として、「文章数」と、過去のテキスト(文章)が発話された「時間」(例えば新たな表音文字列(文章)の入力から遡った「時間」)との一方が指定される。
照合モード設定部13は、表音文字列(文章)間の照合をどのような形態で行うかを示す照合モードの設定内容(例えば、ユーザインタフェースを用いて入力される)を保持する。本実施形態では、照合モードとして、或る文章をその直前の文章と照合する(新たな文章
を、少なくともその直前に入力された(蓄積部11に蓄積され、且つ照合範囲に含まれる)文章と照合する「直前の文章と照合」モード(第1照合モード)と、照合範囲に含まれる文章(蓄積部11に蓄積された文章)と、新たな文章とを夫々照合する「照合対象の全ての文章との照合」モード(第2照合モード)とが用意されている。
照合部14は、新たな文章(表音文字列)が入力された場合に、照合範囲設定部13に設定されている照合範囲に含まれる文章を蓄積部11から読み出し、読み出した文章と、新たな文章と照合モード設定部14に設定されている照合モードにしたがって照合し、文章間の変化度を算出し、算出した変化度を係数算出部10に与える。
蓄積部11は、入力部3に入力された文章(表音文字列)に対し、入力又は蓄積時間と、入力順を示す識別情報(入力番号)とを付与し、蓄積する。即ち、蓄積部11は、文章とこの文章の入力又は蓄積時間及び入力順とを関連付けて蓄積する。
係数算出部10は、テキスト照合部9(照合部14)から与えられる変化度に応じた変化係数(合成音声生成部で生成される合成音声を補正するための係数)を算出する。係数算出部10は、変化係数として、話速の速度係数,ピッチ係数,音量係数を算出する。速度係数は、音素長生成部5にて生成される音素長の補正に使用され、ピッチ係数は、ピッチ生成部6にて生成されるピッチパターンの補正に使用され、音量係数は、音量生成部7にて生成される音量情報の補正に使用される。変化係数は、表音文字列を構成する複数の部分(例えば、文節)毎に算出される。
係数算出部10は、変化係数最大値最小値設定部15と、補間区間設定部16と、算出部(係数設定部)17とを含む。
変化係数最大値最小値設定部15は、算出部17で算出される変化係数の最大値及び最小値を保持する。最大値及び最小値として、例えばユーザインタフェースを用いて入力される値が設定部15で保持される。
補間区間設定部16は、変化係数から判別可能な文章中の変化部分に無音区間がない場合に、音素長,ピッチ,音量をなだらかに変化させるための時間としての補間区間を保持する。補間区間は、例えば20[msec]であり、例えばユーザインタフェースを通じて入力される、補間区間として規定された値が設定される。
算出部17は、照合部14から得られる変化度と、変化係数の最小値及び最大値を用いて、変化係数(速度係数、ピッチ係数、及び音量係数)を算出する。算出部17は、速度
係数を音素長生成部5に与え、ピッチ係数をピッチ生成部6に与え、音量係数を音量生成部7に与える。
さらに、算出部17は、補間区間を設けるか否かを判定し、補間区間を設ける場合には、その補間区間の情報を音素長生成部5,ピッチ生成部6,及び音量生成部7に与える。音素長生成部5,ピッチ生成部6,及び音量生成部7は、補間区間の情報を受け取った場合には、音素長,ピッチ,音量が補間区間として規定された時間内でなだらかに変化するように音素長,ピッチ,音量の調整を行う。
〈ユーザインタフェース〉
次に、図1に示した音声補正部2の構成において、照合範囲,照合モード,変化係数の最大値及び最小値,補間区間を設定するためのユーザインタフェースについて説明する。音声合成装置1は、入力装置及び出力装置(表示装置)に接続されており、表示装置は、ユーザが上述した情報を入力するための入力画面(ウィンドウ)を表示する。ユーザは、入力画面に対し、入力装置を用いて設定すべき情報を入力することができる。
図2は、照合範囲を設定するための照合範囲設定ウィンドウ18を示している。照合範囲設定ウィンドウ18は、照合範囲設定部12に接続された表示装置(図示せず)に表示されるよう照合範囲設定部12によって設定される。また、照合範囲設定部12は、照合範囲設定ウィンドウ18に対して、ユーザからの入力を照合範囲設定部12に接続された入力装置(図示せず)から受け付ける。
照合範囲設定ウィンドウ18は、選択ボタン19、選択ボタン20、文章数入力フィールド21、時間入力フィールド22、及び、設定ボタン23を有している。ユーザによって、選択ボタン19(「文章数を単位とした照合」を指定するボタン)が選択され、文章数入力フィールド20に文章数が入力され、設定ボタン23が押されたとする。この場合、照合範囲設定部12は、選択ボタン19で選択された照合方式と、文章数入力フィールド21に入力された照合範囲(文章数)とを保持する。
また、ユーザによって、選択ボタン20(「時間を単位とした照合」を指定するボタン)が選択され、時間入力フィールド22に時間情報(分単位)が入力され、設定ボタン23が押されるとする。この場合、照合範囲設定部12は、選択ボタン20で選択された照合方式と、時間入力フィールド22に入力された照合範囲(時間)とを保持する。
図3は、照合モードを設定するための照合モード設定ウィンドウ24を示している。照合モード設定ウィンドウ24は、選択ボタン25、選択ボタン26、及び、設定ボタン27を有している。
ユーザによって、選択ボタン25(「直前の文章との照合」(第1照合モード)を照合モードとして指定するボタン)が選択され、設定ボタン27が選択されたとする。この場合、照合モード設定部13は、選択された照合モード(第1照合モード)を、音声合成装置1で実行する照合モードとして保持する。
また、ユーザによって、選択ボタン26(「照合対象の全ての文章との照合」(第2照
合モード)を照合モードとして指定するボタン)が選択され、設定ボタン27が選択され
たとする。この場合、照合モード設定部13は、選択された照合モード(第2照合モード)を、音声合成装置1で実行する照合モードとして保持する。
図4は、変化係数最大値最小値を設定するための変化係数最大値最小値設定ウィンドウ28を示している。変化係数最大値最小値設定ウィンドウ28は、変化係数最大値最小値
設定部15に接続された表示装置(図示せず)に表示されるよう変化係数最大値最小値設定部15によって設定される。また、変化係数最大値最小値設定部15は、変化係数最大値最小値設定ウィンドウ28に対して、ユーザからの入力を変化係数最大値最小値設定部15に接続された入力装置(図示せず)から受け付ける。
変化係数最大値最小値設定ウィンドウ28は、変化係数最大値入力フィールド29、変化係数最小値入力フィールド30、及び、設定ボタン31を有している。ユーザによって、変化係数最大値入力フィールド29及び変化係数最小値入力フィールド30に数値が入力され、設定ボタン31が選択されたとする。すると、変化係数最大値最小値設定部15は、変化係数最大値入力フィールド29に入力された値を、音声合成装置1で使用する変化係数最大値として保持する。また、変化係数最大値最小値設定部15は、変化係数最小値入力フィールド30に入力された値を、変化係数最小値として、読上テキスト情報蓄積部11に設定する。
なお、本実施形態では、速度係数,ピッチ係数,音量係数の最大値及び最小値として共通の値が設定部15に設定される。但し、最大値及び最小値は、係数の種類毎に用意される構成が適用されても良い。
図5は、補間区間設定ウィンドウ32を示している。補間区間設定ウィンドウ32は、補間区間入力フィールド33、及び、設定ボタン34を有している。ユーザによって、補正区間入力フィールド33に数値が入力され、設定ボタン34が選択されたとする。この場合、補間区間設定部16は、補間区間入力フィールド33に入力された数値を、補間区間として保持する。
〈照合モード〉
次に、照合モードとしての、「直前の文章との照合」(第1照合モード)及び「照合対象の全ての文章との照合」(第2照合モード)について説明する。
図6は、第1照合モードの説明図である。図2には、言語処理部4によって表音文字列に変換されたテキスト(文章)の例が示されている。ただし、図6に示す表音文字列は、見易くするために、アクセント記号等を取り除き、アルファベット表記ではなく、日本語で表記している。また、図6には、照合範囲(例えば、「文章数=4」)に応じて蓄積部11から読み出された過去の文章(t=1,t=2,t=3,t=4)と、新たにテキスト照合部9に入力された新たな文章(合成音声生成対象の文章:t=5)とが示されている。
なお、本実施形態では、新たな文章を蓄積部11に蓄積する前に、新たな文章と照合すべき1以上の過去の文章が蓄積部11から読み出され、照合処理が行われた後に、新たな文章が蓄積部11に蓄積される。このような構成に代えて、新たな文章が一旦蓄積部11に蓄積され、照合処理において読み出す構成を採用しても良い。図6において、変数nは、それぞれの文章を指定するための数に相当する。例えば、n=1は「今日の東北地方の天気は晴れです。」という文章を指定する数に相当し、n=2は「今日の関東地方の天気は晴れです。」という文章を指定する数に相当する。n=5は、「明日の関西地方の最低気温は10度です。」という文章を指定する数に相当し、図2の例では、音声補正部2(音声合成装置1)に新たに入力された文章を示されている。
変数t(n)は、変数nで示される文章に対して割り当てられた入力又は蓄積時間を示している。例えば、t(1)は、「今日の東北地方の天気は晴れです。」との文章が入力又は蓄積された時間を示している。
bは、照合される各文章を複数の部分に分割した場合における、各部分の位置を示す数
である。照合される各文章は、同一の所定ルールにしたがって複数の部分に区切られる。例えば、本実施形態では、文章は、形態素解析を通じて複数の文節(部分)に区切られる。図2に示す例では、5つの文章が、それぞれ6つの文節(部分)に区切られている。図6において、例えば、b=1は、「今日の」、「今日の」、「今日の」、「明日の」、及び、「明日の」という言葉(文節)を示している。また、b=2は、「東北」、「関東」、「東海」、「関西」、及び、「関西」という言葉を示している。
このようにして、nとbとで文節が指定される。この文節をa(n,b)とする。この場合、例えば、a(1,2)は「東北」であり、a(2,2)は「関東」である。照合部14は、照合処理として、bが同じで異なるnを示す2つのa(n,b)を対比する。照合部14は、例えば、a(1,1)(「今日の」)とa(2,1)(「今日の」)との照合処理において、照合部2は、文節の内容が同じであると判定する。また、照合部14は、a(1,2)(「東北」)とa(2,2)(「関東」)との照合において、文節の内容が異なると判定する。
照合部14は、第1照合モードにおいて、n=5の文章(新たな文章)に係るa(5,b)とn=4の文章に係るa(4,b)との照合と、n=4の文章に係るa(4,b)とn=3の文章に係るa(3,b)との照合のように、bが同じでnが1つ前の二つのa(n,b)同士で照合が行われる。
図7は、照合モード「照合対象の全ての文章との照合」(第2照合モード)の説明図である。第2照合モードでは、照合部14は、(図7に示す、n=5によって特定される文章)と、照合のために蓄積部11から得られた残りのすべての文章(n=1,2,3,4に対応する文章)との照合をそれぞれ行う。
〈変化度の算出例〉
照合部14は、上述したような照合モードに応じた照合を通じて、新たな文章の過去の文章からの変化度を算出する。
[算出例1]
図8は、照合範囲が「文章数=5」であり、照合モードが第1照合モードである場合における変化度及び変化係数の算出例(算出例1)を示す図である。
図4に示されている変数v(n,b)は、位置(区切り位置)b毎の変化度を示している。変化度v(n,b)は、以下の式(1)で与えられる。
Figure 2007271910
式(1)において、a(0,b)=a(1,b)である。また、式(1)におけるδ(a(m,b),a(m−1,b))は、a(m,b)とa(m−1,b)が等しいときに1を示し、a(m,b)とa(m−1,b)が等しくないときに0を示す。例えば、変数nが5で指定される新たな文章が入力された際、v(5、b)によって、それぞれの位置bに対する変化度が算出される。例えば、v(5,1)は、1/2、すなわち、0.5となる。また、v(5,2)は、(1/4)+(1/3)+(1/2)、およそ、1.08となる。このようにして、各位置bに対する変化度が算出される。
これに対し、照合モードとして「照合対象の全ての文章との照合」(第2照合モード)が設定されている場合には、変化度x(n,b)は、以下の式(2)で算出される。
Figure 2007271910
式(2)は、式(1)で含まれるδ関数内のaの関数の一つが、a(n,b)となっている。a(n,b)は、新しい文章における文節を表す。したがって、式(2)は、「照合対象の全ての文章との照合」を照合モードとし、変化度を算出する式となっている。
[算出例2]
図9は、照合範囲が「5分」であり、照合モードが第2照合モードである場合における変化度及び変化係数の算出例(算出例2)を示す図である。図9では、新たな文章の入力時から遡って5分の範囲内に、n=1〜4に相当する文章(n=4は新たな文章)が含まれる場合が示されている。
「時間を単位とした照合」における変化係数の算出例を説明する。時間を単位とした照合は、予め設定された時間範囲内に出力された(読み上げられた)文章について照合が行われる。図9には、第2照合モードが選択された場合を示している。図9に示されている変数y(n,b)は、各文節(位置b)の変化度を示す。変化度y(n,b)は、以下の式
(3)で与えられる。
Figure 2007271910
式(3)において、Tは、照合範囲設定部12によって設定された時間である。図9では、n=4の文章が、音声合成装置1に入力された最も新しい文章(合成音声生成対象の文
章)である。t(n)−t(m)は、文章が読上げられた時間の時間差を示している。
これに対し、照合モードとして第1照合モードが設定されている場合では、各位置bの変化度z(n,b)は、式(4)にしたがって算出される。
Figure 2007271910
[変化係数の算出]
次に、算出部17による変化係数の算出について説明する。算出部17は、照合範囲及び照合モードの組み合わせ(v,x,y,z)に拘わらず、同様の方法で変化係数を算出する。変化係数は、音素長を補正するための速度係数,ピッチパターンを補正するためのピッチ係数,及び音量を補正するための音量係数とからなる。速度係数は、以下の式(5)を用いて算出され、ピッチ係数は以下の式(6)を用いて算出され、音量係数は、以下の式(
7)を用いて算出される。
Figure 2007271910
Figure 2007271910
Figure 2007271910
式(5)〜(7)に示すように、速度係数,ピッチ係数及び音量係数は同一の式を用いて算出される。即ち、変化係数の算出式として、音素長,ピッチ,及び音量について共通の式が用意されている。但し、変化係数の種類毎に異なる算出式を用意することができる。また、式(5)〜(7)では、変化度としてv(n,b)が与えられているが、変化度の算出方式に応じて、v(n,b)の代わりのx(n,b),y(n,b),z(n,b)が与えられる。
算出部17は、変化度、通常文章長g(照合された文章の長さ)、予め設定されている係数最小値e(MIN)、変化度に含まれる位置bに関する和、及び、予め設定されている
通常音素長f(bの音素長)から、速度係数C1(n,b)、ピッチ係数C2(n,b)、及び、音量係数C3(n,b)を、位置b(文節)毎にそれぞれ算出する。
算出部17は、係数最小値e(MIN)及び通常音素長fを予め有している。通常文章長gは、例えば照合部14から変化度とともに受け取ることができる。また、算出部17は、係数最小値e(MIN),通常音素長f,通常文章長g(テキスト照合部9によって蓄積部11に
格納される)を、蓄積部11から読み出して得ることができる。
また、変化係数には、変化係数最大値d(MAX)(本実施形態では、1.25であり、ユー
ザによって指定される)、及び、変化係数最小値d(MIN)(本実施形態では、0.85であ
り、ユーザによって指定される)がそれぞれ与えられている。算出された変化係数が変化係数最小値d(MIN)よりも小さいとき、変化係数最小値d(MIN)が変化係数の算出結果として採用される。一方、算出された変化係数が変化係数最大値d(MAX)よりも大きい
とき、算出結果として変化係数最大値d(MAX)が採用される。
図8には、文節毎の変化係数(速度係数C1)として、算出部17が式(5)を用いて算出された値が示されている。例えば、速度係数C1(5,1)は、0.95である。また、速度係数C1(5,3)は、式(5)及び最小値d(MIN)から0.85となる。また、図9には
、文節毎の変化係数(速度係数C1)として、式(5)を用いて算出された値が示されている。
《動作例》
図10は、音声合成装置1の動作例(処理例)を示すフローチャートである。音声合成装置1の電源が入力されと、音声合成装置1が備える中央処理装置(CPU)は、ハードディスク(記憶装置)から、合成音声を生成するためのプログラムを読み出し、メモリにロードして実行する。これによって、図11に示す処理を開始可能な状態となる。図11に示す処理は、合成音声生成用のテキストデータが入力部3に入力されることによって開始される。
入力部3は、ユーザが操作する入力装置(図示せず)から合成音声生成用の新たなテキストデータの入力を受ける(ステップS1)。入力部3は、テキストデータを言語処理部4に入力する。
言語処理部4は、入力部3から入力されたテキストデータから表音文字列を生成する(ステップS2)。言語処理部4は、表音文字列を音素長生成部5及びテキスト照合部9に出力する。
例えば、言語処理部4に対して、入力部3から「明日の関西地方の天気は晴れです。」との文章のテキストデータが言語処理部4に入力されたとする。言語処理部4は、入力されたテキストデータから「a:su:no:ka:n:sa:i:chiho:o:no/te:n:ki:wa=ha:re2de:su.」のような表音文字列を生成する。
音素長生成部5は、言語処理部4から入力された表音文字列から音素長を生成する(ステップS3)。音素長生成部5は、表音文字列を構成する各音素に対応する音素長(通常
の音素長)を決定する。
テキスト照合部9では、言語処理部4から新たな表音文字列(新たな文章)が入力されると、照合部14が照合処理を実行する(ステップS4)。照合処理において、照合部14は、最初に、照合範囲を決定する。即ち、照合部14は、照合範囲設定部12で保持されている(設定されている)照合範囲にしたがって、新たな文章と照合すべき1以上の文章(過
去の文章:照合対象文章)を蓄積部11から読み出す。
例えば、照合範囲が「文章数=4」と指定されていれば、照合部14は、蓄積部11から4つの文章を読み出す。また、照合範囲が「1分」と指定されていれば、照合部14は、現時点から1分以内に発話された過去の文章を蓄積部11から読み出す。
次に、照合部14は、照合モード設定部13で保持されている(設定されている)照合モードに基づいて、新たな文章と蓄積部11から読み出された過去の文章とを含めた文章に対する照合を実行し、文節毎の変化度を算出する。
照合部14は、算出された変化度を係数算出部10に出力する。このとき、照合部14は、照合対象の文章の長さを求め、文章長gとして、蓄積部11に登録する。また、照合部14は、新たな文章を蓄積部11に登録する。
係数算出部10では、算出部17が、照合部14からの変化度を受け取ると、変化係数の最大値及び最小値(設定部15にて保持されている)を設定部15から得るとともに、通常文章長gと通常音素長fと係数最小値e(MIN)とを蓄積部11から読み出す。算出部17は、変化度、変化係数最大値、変化係数最小値、通常文書長、通常音素長、及び、係数最小値から、変化係数を算出する(ステップS5)。変化係数は、速度係数として音素長生成部5に与えられる。また、変化係数は、ピッチ係数としてピッチ生成部6に与えられる。また、変化係数は、音量係数として音量生成部7に与えられる。
このとき、音素長生成部5は、係数算出部10(算出部17)から得られる速度係数(変
化係数)で音素長を補正する(変化を有する文節に対して速度係数による重み付けを行う)
。(ステップS6)例えば、音素長生成部5は、或る音素の音素長が40で、速度係数が1.2のとき、新たな音素長を48として算出する。即ち、音素長生成部5は、文節を構成する各音素の通常の音素長に対し、その文節に対して算出された速度係数を乗じることで、音素長を補正する。その後、音素長生成部5は、表音文字列及び音素長をピッチ生成部6に出力する。
ピッチ生成部6は、音素長生成部5から入力された表音文字列及び音素長から音素列及びピッチパターンを生成する(ステップS7)。図12は、ピッチ周波数の例を示している。ここで、縦軸は音の高さ(ピッチ周波数)で、横軸は時間を示している。ピッチ生成部6は、音素に応じたピッチ周波数を決定するためのデータを有しており、このデータに基づいてピッチ周波数(通常のピッチ周波数)を生成する。ピッチ生成部6は、通常のピッチ周波数を係数算出部10から得たピッチ係数で補正する(重み付けする)。(ステップS8)。例えば、ある時間でのピッチ周波数が160[Hz]で、ピッチ係数が0.9の場合、ピッチ生成部6は、両者を乗じて補正された新たなピッチ周波数144[Hz]を得る。ピッチ生成部6は、音素長、ピッチパターン(各音素のピッチ周波数を組み合わせて生成
される)及び音素列を音量生成部7に出力する。
音量生成部7は、ピッチ生成部6から入力されたピッチパターン及び音素列から音量情報を生成する(ステップS9)。音量生成部7は、新たな文章の各音素に対する音量(通
常の音量)をピッチパターン及び音素列から決定する。続いて、音量生成部7は、通常の
音量に対し、係数算出部10(算出部17)から得られる音量係数を乗じ、音量を補正する(ステップS10)。即ち、音量生成部7は、文節を構成する各音素に対して決定された通常の音量値に、文節毎に算出された対応する音量係数を乗じることで補正された音量値を算出する。このような処理は、音素毎に実行される。音量生成部7は、音素長、ピッチパターン、音素列、及び、音量情報を波形生成部8に出力する。
図11は、波形生成部8に送られる合成音声生成用のデータの一部を示している。図11では、音素名と音素名に対する音素長と音素名に対する音量情報(音量に関しては相対値)とが示されている。図11の上から順に、合成音声として出力されるデータが示されている。図11において、“Q”は無音区間(SP(Short Pause))を示す。合成音声
は、音素列、音素長、音量情報、及び、図12で示されるピッチパターンによって生成される。
波形生成部8は、音量情報生成部7から入力された音素列、音素長、ピッチパターン、及び、音量情報から合成音声を生成する(ステップS11)。波形生成部8は、生成された合成音声を音声合成装置1に接続されたスピーカ等の音声出力装置(図示せず)に出力する。
〈補間区間〉
上述した音素長生成部5,ピッチ生成部6,音量生成部7は、係数算出部10の補間区間設定部16にて補間区間が保持(設定)されている場合には、必要に応じて補間区間を新たな文章中に設定し、補間区間における速度,ピッチ,音量の変化がなだらかに行われるようにする。
即ち、補間区間(例えば20[msec])が補間区間16に設定されている場合、この補間区間の長さを示す情報は、音素長生成部5,ピッチ生成部6,音量生成部7に通知される。音素長生成部5は、或る文節とこの或る文節に後続する文節(後続文節)との間で変化
係数に変化が生じている(変化係数が異なっている)場合に、これらの文節間に無音区間があるか否かを判定し、無音区間がない場合には、例えば、後続文節の前に補間区間を設定し、この補間区間内で、合成音声の速度(話速)がなだらかに変化するように、変化係数(速度係数)を調整する。
具体的には、例えば、後続文節に対して算出された速度係数に対し、ハニング窓のような窓関数を乗じることにより、速度係数をなだらかに変化させる。これによって、補間区間に含まれる各音素の音素長が速度係数に応じてなだらかに変化する。
図13Aは、変化係数としての速度係数の調整例を示す図である。図13Aには、音素列「asuno SP(無音区間) kansai chihoono saiteikionwa SP(無音区間) jyuudo desu」に対して、速度係数による補正と、補間区間及び窓関数による速度係数の調整とが実行された例が示されている。図13Aにおいて、速度係数による補正が実行されない場合における音素列の速度(従来の値)は1.0とされている。
また、図13Aに示す例では、文節「asuno」に対する速度係数は0.95であり、文
節「kansai」に対する速度係数は1.08であり、文節「chihoono」に対する速度係数は0.85であり、文節「saiteikionwa」に対する速度係数は1.06であり、文節「jyuudo」に対する速度係数は1.25であり、文節「desu」に対応する速度係数が0.85である。
ここに、文節「kansai」及び文節「chihoono」に対する速度係数は、それぞれ1.08及び0.85であり、両者は異なっている(変化係数が変化している)。しかし、これらの文節間には無音区間(SP)がない。
この場合、音素長生成部5は、調整部として、例えば、これらの文節間に対し、補間区間“20[msec]”を設定するとともに、この20[msec]内で、速度係数が1.08から0.85になだらかに変化(減少)するように、速度係数に窓関数を乗じて、速度係数の調整を行う。また、音素長生成部5は、文節「chihoono」と文節「saiteikionwa」との間にも、補間区間を設定し、この補間区間で速度係数が0.85から1.06になだらかに変化(増加)するように、速度係数を調整する。文節「jyuudo」と文節「desu」との間についても、同様の速度係数の調整が行われる。
また、図13Bでは、変化係数としてのピッチ係数の調整例を示す図が示されている。速度係数、ピッチ係数、及び、音量係数は、式(5)〜式(7)にてそれぞれ算出されるが、本実施形態では、これらの式は同じ式である。したがって、図13Bで示されるピッチ係数は、図13Aで示される速度係数と同様の値を持ち、速度係数と同様に補間が実行される。
ピッチ生成部6及び音量生成部7においても、図13と同様の変化係数の調整が実行される。これらの場合、上述した説明において、「速度係数」が「ピッチ係数」又は「音量係数」に読み替えられ、「音素長生成部5」が「ピッチ生成部6」又は「音量生成部7」に読み替えられる。
なお、上述した動作例では、変化係数が速度係数,ピッチ係数,音量係数として算出され、音素長生成部5,ピッチ生成部6,音量生成部7にてそれぞれ補正が行われる例について説明したが、音素長,ピッチ,音量のうちの少なくとも一つが補正される構成となっていても良い。即ち、音素長,ピッチ及び音量のすべてが補正されることは本発明の必須の要件ではない。また、補間区間における変化係数の調整も本発明の必須の要件ではない。
《実施形態の作用効果》
以上説明した合成音声生成装置(音声合成装置)によれば、合成音声生成対象の文章と過去の文章との照合が行われ、両者間の変化度が算出される。さらに、変化度に応じた変化係数が算出され、変化係数で合成音声データの要素(音素長(速度),ピッチ周波数,音量)が補正される。音素長の補正で話速を変化させることができる。ピッチの補正でピッチを変化させることができる。また、音量の補正で音量を変化させることができる。
また、文節間で変化係数が変化する場合で、文節間に無音区間がない場合には、文節間で変化係数がなだらかに変化するように変化係数が調整される。
以上のように、本実施形態によると、天気予報や音声ガイダンスのように、似たような文章であるが、部分的に異なる文章が連続して合成出力される場合に、これまでの発声内容との変化度で話速(音素長),ピッチ,音量のいずれか1以上を変化させることができる。また、発声時間が指定されている場合でも、時間内で発声が完了できる。また、一文章内に同じキーワードが連続した場合でも、韻律に変化を付けることが可能である。
以上のことにより、文章内で韻律に変化のついた、自然性の高い合成音を自動的に生成可能となり、聴取者の聞き逃しを抑えることが可能となる。即ち、聴取者の聞き取り易い合成音声を出力する合成音声生成装置を提供することができる。
<変形例>
図1に示した構成例では、音素長生成部5、ピッチ生成部6、及び、音量生成部7にて、速度係数、ピッチ係数、及び、音量係数がそれぞれ補正される。即ち、本発明に係る補正部や調整部を、音素長生成部5,ピッチ生成部6及び音量生成部7が含む構成となっている。
しかしながら、図14に示すように、係数算出部10が係数補正部39を備え、音素長生成部36、ピッチ生成部37、音量生成部36が、上述した実施形態で説明した通常の音素長,通常のピッチ周波数,通常の音量を含む出力を係数補正部39に与え、係数補正部39が音素長,ピッチ周波数,音量に対して変化係数による補正を行い、さらに、係数補正部39が必要に応じて補間区間における変化係数の調整を行う構成を適用しても良い。即ち、本発明の補正部及び調整部が、音声補正部2側に設けられていても良い。
《その他》
さらに、本実施の形態は以下の発明を開示する。以下の発明は、必要に応じて適宜組み合わせることができる。
(付記1)
文章の入力部と、
前記入力部に入力された文章から合成音声データを生成する生成部と、
入力部に入力された文章を蓄積する蓄積部と、
入力部に文章が新たに入力された場合に、この新たな文章と照合すべき照合対象文章を前記蓄積部から取得し、新たな文章と照合対象文章との照合を通じて、前記新たな文章の照合対象文章からの変化度を算出する照合部と、
前記変化度に応じた変化係数を算出する算出部と、
前記変化係数で前記合成音声データを補正する補正部と
を含む合成音声生成装置。(1)
(付記2)
前記照合部は、前記新たな文章と前記照合対象文章とを所定ルールで複数の部分に区切り、文章間の変化度を部分毎に求め、
前記算出部は、変化度毎の変化係数を算出する
付記1に記載の合成音声生成装置。(2)
(付記3)
前記照合部は、所定の照合範囲に属する文章間で照合を行う
付記1に記載の合成音声生成装置。
(付記4)
前記照合部は、所定の文章数の文章間で照合を行う
付記3に記載の合成音声生成装置。
(付記5)
前記照合部は、所定の時間範囲に含まれる文章間で照合を行う
付記3に記載の合成音声生成装置。
(付記6)
前記照合部は、少なくとも、前記新たな文章と、この新たな文章の直前に入力された文章との照合を行う
付記1に記載の合成音声生成装置。
(付記7)
前記照合部は、照合対象文章として複数の文章が前記蓄積部から得られた場合に、前記新たな文章を前記複数の文章の夫々と照合する
付記1に記載の合成音声生成装置。
(付記8)
前記算出部は、前記変化係数として速度係数を算出し、
前記補正部は、前記速度係数で前記新たな文章の音素長を補正する
付記1に記載の合成音声生成装置。(3)
(付記9)
前記算出部は、前記変化係数としてピッチ係数を算出し、
前記補正部は、前記ピッチ係数で前記新たな文章のピッチパターンを補正する
付記1に記載の合成音声生成装置。
(付記10)
前記算出部は、前記変化係数として音量係数を算出し、
前記補正部は、前記音量係数で前記新たな文章の音量を補正する
付記1に記載の合成音声生成装置。
(付記11)
前記新たな文章中の或る部分とこの或る部分に後続する部分との間で変化係数に変化が生じている場合において、これらの部分間に無音区間がないときには、補間区間を設定し、この補間区間内で前記或る部分に対応する変化係数が前記後続部分に対応する変化係数へなだらかに変化するように変化係数を調整する調整部をさらに含む
付記2に記載の合成音声生成装置。(4)
(付記12)
入力部に入力された文章から合成音声データを生成するステップと、
入力部に文章が新たに入力された場合に、この新たな文章と照合すべき照合対象文章を前記入力部に入力された文章を蓄積する蓄積部から取得し、新たな文章と照合対象文章との照合を通じて、前記新たな文章の照合対象文章からの変化度を算出するステップと、
前記変化度に応じた変化係数を算出するステップと、
前記変化係数で前記合成音声データを補正するステップと
をコンピュータに実行させるプログラム。(5)
本発明の実施形態の音声合成装置の基本構成図である。 本発明の実施形態に係る照合方式設定ウィンドウを示す図である。 本発明の実施形態に係る照合モード設定ウィンドウを示す図である。 本発明の実施形態に係る変化係数最大値最小値設定ウィンドウを示す図である。 本発明の実施形態に係る補間区間設定ウィンドウを示す図である。 本発明の実施形態に係る照合モード「直前の文章との照合」の説明の図である。 本発明の実施形態に係る照合モード「照合対象の全ての文章との照合」の説明の図である。 本発明の実施形態に係る変化度の算出例1を説明するための図である。 本発明の実施形態に係る変化度の算出例2を説明するための図である。 本発明の実施形態の音声合成装置における処理を示すフローチャートである。 本発明の実施形態に係る合成音声生成用のデータ例を示すテーブルである。 本発明の実施形態に係るピッチパターンを示すテーブルである。 本発明の実施形態に係る速度係数を説明するための図である。 本発明の実施形態に係るピッチ係数を説明するための図である。 本発明の変形例の音声合成装置の基本構成図である。
符号の説明
1 音声合成装置
2 音声補正部
3 入力部
4 言語処理部
5 音素長生成部
6 ピッチ生成部
7 音量生成部
8 波形生成部
9 制御部
10 表示部
11 テキスト照合部
12 係数算出部
13 読み上げテキスト情報蓄積部
14 照合方式設定部
15 照合範囲設定部
16 照合モード設定部
17 照合部
18 変化係数最大値最小値設定部
19 補間区間設定部
20 係数重付部
21 算出部

Claims (5)

  1. 文章の入力部と、
    前記入力部に入力された文章から合成音声データを生成する生成部と、
    入力部に入力された文章を蓄積する蓄積部と、
    入力部に文章が新たに入力された場合に、この新たな文章と照合すべき照合対象文章を前記蓄積部から取得し、新たな文章と照合対象文章との照合を通じて、前記新たな文章の照合対象文章からの変化度を算出する照合部と、
    前記変化度に応じた変化係数を算出する算出部と、
    前記変化係数で前記合成音声データを補正する補正部と
    を含む合成音声生成装置。
  2. 前記照合部は、前記新たな文章と前記照合対象文章とを所定ルールで複数の部分に区切り、文章間の変化度を部分毎に求め、
    前記算出部は、変化度毎の変化係数を算出する
    請求項1に記載の合成音声生成装置。
  3. 前記算出部は、前記変化係数として速度係数を算出し、
    前記補正部は、前記速度係数で前記新たな文章の音素長を補正する
    請求項1に記載の合成音声生成装置。
  4. 前記新たな文章中の或る部分とこの或る部分に後続する部分との間で変化係数に変化が生じている場合において、これらの部分間に無音区間がないときには、補間区間を設定し、この補間区間内で前記或る部分に対応する変化係数が前記後続部分に対応する変化係数へなだらかに変化するように変化係数を調整する調整部をさらに含む
    請求項2に記載の合成音声生成装置。
  5. 入力部に入力された文章から合成音声データを生成するステップと、
    入力部に文章が新たに入力された場合に、この新たな文章と照合すべき照合対象文章を前記入力部に入力された文章を蓄積する蓄積部から取得し、新たな文章と照合対象文章との照合を通じて、前記新たな文章の照合対象文章からの変化度を算出するステップと、
    前記変化度に応じた変化係数を算出するステップと、
    前記変化係数で前記合成音声データを補正するステップと
    をコンピュータに実行させるプログラム。
JP2006097331A 2006-03-31 2006-03-31 合成音声生成装置 Expired - Fee Related JP4744338B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2006097331A JP4744338B2 (ja) 2006-03-31 2006-03-31 合成音声生成装置
US11/494,476 US8135592B2 (en) 2006-03-31 2006-07-28 Speech synthesizer
EP06016106A EP1840872B1 (en) 2006-03-31 2006-08-02 Speech synthesizer
DE602006002721T DE602006002721D1 (de) 2006-03-31 2006-08-02 Sprachsynthesizer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006097331A JP4744338B2 (ja) 2006-03-31 2006-03-31 合成音声生成装置

Publications (2)

Publication Number Publication Date
JP2007271910A true JP2007271910A (ja) 2007-10-18
JP4744338B2 JP4744338B2 (ja) 2011-08-10

Family

ID=36950881

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006097331A Expired - Fee Related JP4744338B2 (ja) 2006-03-31 2006-03-31 合成音声生成装置

Country Status (4)

Country Link
US (1) US8135592B2 (ja)
EP (1) EP1840872B1 (ja)
JP (1) JP4744338B2 (ja)
DE (1) DE602006002721D1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016063879A1 (ja) * 2014-10-20 2016-04-28 ヤマハ株式会社 音声合成装置および方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5233986B2 (ja) * 2007-03-12 2013-07-10 富士通株式会社 音声波形補間装置および方法
JP2009042509A (ja) * 2007-08-09 2009-02-26 Toshiba Corp アクセント情報抽出装置及びその方法
JP5949067B2 (ja) * 2012-03-30 2016-07-06 富士通株式会社 音声合成プログラム、音声合成方法および音声合成装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000259165A (ja) * 1999-03-09 2000-09-22 Fujitsu Ltd データ読み上げ装置及び記録媒体
JP2005189313A (ja) * 2003-12-24 2005-07-14 Canon Electronics Inc 音声合成装置及び方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69028072T2 (de) 1989-11-06 1997-01-09 Canon Kk Verfahren und Einrichtung zur Sprachsynthese
JP3070127B2 (ja) * 1991-05-07 2000-07-24 株式会社明電舎 音声合成装置のアクセント成分制御方式
JP3457393B2 (ja) 1994-09-14 2003-10-14 日本放送協会 話速変換方法
JPH09160582A (ja) 1995-12-06 1997-06-20 Fujitsu Ltd 音声合成装置
JPH10274999A (ja) 1997-03-31 1998-10-13 Sanyo Electric Co Ltd 文書読み上げ装置
JP3180764B2 (ja) * 1998-06-05 2001-06-25 日本電気株式会社 音声合成装置
JP2000267687A (ja) 1999-03-19 2000-09-29 Mitsubishi Electric Corp 音声応答装置
JP2000305582A (ja) * 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置
JP3314058B2 (ja) 1999-08-30 2002-08-12 キヤノン株式会社 音声合成方法及び装置
DE60215296T2 (de) * 2002-03-15 2007-04-05 Sony France S.A. Verfahren und Vorrichtung zum Sprachsyntheseprogramm, Aufzeichnungsmedium, Verfahren und Vorrichtung zur Erzeugung einer Zwangsinformation und Robotereinrichtung
WO2004066271A1 (ja) * 2003-01-20 2004-08-05 Fujitsu Limited 音声合成装置,音声合成方法および音声合成システム
DE04735990T1 (de) * 2003-06-05 2006-10-05 Kabushiki Kaisha Kenwood, Hachiouji Sprachsynthesevorrichtung, sprachsyntheseverfahren und programm
JP4225128B2 (ja) * 2003-06-13 2009-02-18 ソニー株式会社 規則音声合成装置及び規則音声合成方法
KR100590553B1 (ko) * 2004-05-21 2006-06-19 삼성전자주식회사 대화체 운율구조 생성방법 및 장치와 이를 적용한음성합성시스템

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000259165A (ja) * 1999-03-09 2000-09-22 Fujitsu Ltd データ読み上げ装置及び記録媒体
JP2005189313A (ja) * 2003-12-24 2005-07-14 Canon Electronics Inc 音声合成装置及び方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016063879A1 (ja) * 2014-10-20 2016-04-28 ヤマハ株式会社 音声合成装置および方法
US10217452B2 (en) 2014-10-20 2019-02-26 Yamaha Corporation Speech synthesis device and method
US10789937B2 (en) 2014-10-20 2020-09-29 Yamaha Corporation Speech synthesis device and method

Also Published As

Publication number Publication date
JP4744338B2 (ja) 2011-08-10
US20070233492A1 (en) 2007-10-04
DE602006002721D1 (de) 2008-10-23
US8135592B2 (en) 2012-03-13
EP1840872B1 (en) 2008-09-10
EP1840872A1 (en) 2007-10-03

Similar Documents

Publication Publication Date Title
US10347238B2 (en) Text-based insertion and replacement in audio narration
JP5119700B2 (ja) 韻律修正装置、韻律修正方法、および、韻律修正プログラム
JP4878538B2 (ja) 音声合成装置
US8504368B2 (en) Synthetic speech text-input device and program
JPH10153998A (ja) 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置
JP5148026B1 (ja) 音声合成装置および音声合成方法
JP2008249808A (ja) 音声合成装置、音声合成方法及びプログラム
US20090281808A1 (en) Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device
JP2011186143A (ja) ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム
JP4744338B2 (ja) 合成音声生成装置
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JP4953767B2 (ja) 音声生成装置
JP2009133890A (ja) 音声合成装置及びその方法
JP6314879B2 (ja) 音読評価装置、音読評価方法、及びプログラム
US20010029454A1 (en) Speech synthesizing method and apparatus
JP5062178B2 (ja) 音声収録システム、音声収録方法、および収録処理プログラム
JP2012042974A (ja) 音声合成装置
JP2003186489A (ja) 音声情報データベース作成システム,録音原稿作成装置および方法,録音管理装置および方法,ならびにラベリング装置および方法
JP4841339B2 (ja) 韻律補正装置、音声合成装置、韻律補正方法、音声合成方法、韻律補正プログラム、および、音声合成プログラム
JP5518621B2 (ja) 音声合成装置およびコンピュータプログラム
JP2006284645A (ja) 音声再生装置およびその再生プログラムならびにその再生方法
JPH07140996A (ja) 音声規則合成装置
JP6299141B2 (ja) 楽音情報生成装置および楽音情報生成方法
JP2011180368A (ja) 合成音声修正装置および合成音声修正方法
KR101348906B1 (ko) 음성 합성기의 화속변경방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110404

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110419

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110510

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140520

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees