JP4878538B2 - 音声合成装置 - Google Patents

音声合成装置 Download PDF

Info

Publication number
JP4878538B2
JP4878538B2 JP2006288675A JP2006288675A JP4878538B2 JP 4878538 B2 JP4878538 B2 JP 4878538B2 JP 2006288675 A JP2006288675 A JP 2006288675A JP 2006288675 A JP2006288675 A JP 2006288675A JP 4878538 B2 JP4878538 B2 JP 4878538B2
Authority
JP
Japan
Prior art keywords
voice data
rule
speech
recorded
synthesized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006288675A
Other languages
English (en)
Other versions
JP2008107454A (ja
JP2008107454A5 (ja
Inventor
雄介 藤田
亮太 鴨志田
健司 永松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2006288675A priority Critical patent/JP4878538B2/ja
Priority to US11/976,179 priority patent/US7991616B2/en
Publication of JP2008107454A publication Critical patent/JP2008107454A/ja
Publication of JP2008107454A5 publication Critical patent/JP2008107454A5/ja
Application granted granted Critical
Publication of JP4878538B2 publication Critical patent/JP4878538B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers

Description

本発明は、音声を合成する装置に係り、特に定型部分と可変部分からなる文章の音声データを、録音音声と規則合成音声を組み合わせて合成する音声合成技術に関する。
一般に、録音音声とは録音した音声をもとに作られた音声をいい、規則合成音声とは発音を表わした文字または符号列から合成した音声をいう。音声の規則合成は、入力されたテキストに対して言語処理を行い、読みやアクセントの情報を示す中間記号列を生成した後、基本周波数パタン(声の高さに対応する声帯の振動周期)や音素継続時間長(発声速度に対応する各音素の長さ)などの韻律パラメータを決定し、波形生成処理により、韻律パラメータに合わせた音声波形を生成するものである。韻律パラメータから音声波形を生成する方法として、音素や音節に対応する音声素片を組み合わせる、波形接続型音声合成が広く用いられている。
一般的な規則合成の流れは次の通りである。まず、言語処理では、入力されたテキストから、音素(音声の意味を弁別するための最小単位)や音節(1ないし3個程度の音素の結合からなる音声の聞こえの一種のまとまり)の並びを表現する読み情報、およびアクセント(発音の強さを指定する情報)や抑揚(疑問文や話し手の感情を示す情報)を表現するアクセント情報を生成し、これを中間記号列とする。中間記号列の生成には、辞書を用いた言語処理や、形態素解析処理が応用される。次に、中間記号列のアクセント情報に対応するように、基本周波数パタンや音素継続時間長などの韻律パラメータを決定する。韻律パラメータは、あらかじめ肉声を用いて学習された韻律モデルや、ヒューリスティクス(発見的に求められた制御規則)に基づいて生成される。最後に波形生成処理によって、韻律パラメータに合わせた音声波形を生成する。
規則合成は、入力された任意のテキストを音声として出力することができるため、録音音声を利用する場合と比べて、柔軟性の高い音声案内システムが構築できる。しかし、肉声と比べると品質は充分でなく、従来、録音音声を利用している車載用カーナビゲーションなどの音声案内システムに、規則合成音声を導入するには、品質の面で問題があった。
そこで、規則合成音声を利用した音声案内システムを実現するために、定型部分にはあらかじめ録音された録音音声を用い、可変部分は規則合成音声を用いることにより、録音音声の高品質性と規則合成音声の柔軟性を組み合わせる方法が利用されている。
しかしながら、録音音声と規則合成音声を組み合わせて出力される音声は、録音音声と規則合成音声の間の、音質および韻律の不連続が知覚され、録音音声部分は高品質であっても全体としては高品質でなくなるという問題があった。
韻律の不連続を解消する方法として、規則合成音声に対するパラメータを設定する際に録音音声の特徴を利用する方法が開示されている(例えば、特許文献1参照)。また、定型部分と可変部分の韻律の連続性を考慮して、規則合成音声部分を拡張する方法が開示されている(例えば、特許文献2参照)。
特開平11−249677号公報 特開2005−321520号公報
従来技術によれば、規則合成音声部分の韻律は自然となるが、一方で、規則合成音声と録音音声との間の音質の差が大きくなることがあり、全体として自然な音声を得ることはできないという課題を有する。
本発明は、上記の問題を解決するものであり、録音音声と合成音声を接続する際に音質および韻律の不連続が知覚されない、高品質な音声合成装置を提供することを目的とする。
上記目的を達成するために、本発明は、定型部分と可変部分からなるテキストを合成する音声合成装置において、録音された音声をもとに作成された、定型部分を含む音声データである第1の音声データ(録音音声データ)を予め格納する録音音声格納手段と、受け付けた前記テキストから、可変部分と少なくとも定型部分の一部を含む第2の音声データ(規則合成音声データ)を生成する規則合成手段と、前記テキストに対応する、前記第1の音声データと前記第2の音声データとが重複する区間の音響特徴情報にもとづいて、録音された音声データと規則合成により生成された音声データとの接続境界の位置を選択する接続境界算出手段と、前記第1の音声データを前記接続境界で区切った第3の音声データと、前記第2の音声データを前記接続境界で区切って切り出した第4の音声データとを接続して前記テキストの音声データを合成する接続合成手段とを備えることを特徴とする。ここで一例として、定型部分とは音声データに対応する部分がある部分と定義でき、可変部分とは音声データに対応する部分がない部分と定義できる。
この構成においては、可変部分に加えて定型部分の一部を含むように規則合成音声データを生成し、規則合成音声データと録音音声データとの重複した区間を作ることにより、録音音声と規則合成音声の接続位置を可変とすることができる。前記重複区間における、録音音声と規則合成音声の音響特徴情報を用いて、最適な接続位置を算出することにより、従来の技術と比較して自然な合成音声が生成される。
また、本発明の別の構成では、前記重複区間における、録音音声データの音響特徴情報を用いて、録音音声データと整合する規則合成音声データを生成する規則合成手段を備える。
この構成においては、重複区間における韻律の整合をとることで、韻律の不連続を解消することができ、さらに、重複区間に先行または後続する可変部分の規則合成音声データについても、同時に整合をとることができ、接続境界だけでなく、全体の整合がとれた合成音声が生成される。
また、本発明の別の構成では、前記接続境界算出手段から得られる接続境界の位置における録音音声データと規則合成音声データの音響特徴情報にもとづいて、規則合成音声データを加工する規則合成手段を備える。
この構成においては、接続境界を決定した後に、接続境界近傍での音響特徴がより録音音声に近づくように、規則合成音声データの特徴を加工することにより、さらに韻律や音質の不連続が目立たない合成音声が生成される。
本発明における音響特徴情報として、音素カテゴリを用いることにより、好適な接続境界を得ることができる。音素カテゴリは、例えば、有声音・無声音・破裂音・摩擦音等、音素の分類を規定する情報である。ポーズ(無音)区間で接続することで、接続歪が目立たなくなることは言うまでもないが、無声破裂音の先頭も同様に、短い無音区間が存在するため、接続歪が目立たない。また、有声音区間中での接続は、接続境界前後の基本周波数の差や位相の差により異音が目立つ可能性があるため、無声区間での接続が望ましい。また、音響特徴情報として、パワーを利用することにより、パワーの小さな接続境界を選択し、接続歪を目立たなくすることができる。
また、音響特徴情報として、基本周波数を用いると、韻律の接続がなめらかな接続境界を得ることができる。録音音声と規則合成音声の基本周波数の差が小さな音素境界を選択することによって、基本周波数の不連続が知覚されにくくなる。また、音韻継続長時間を用いると、接続境界の前後で急に話速が変化しないような、接続境界を選択することができる。
また、音響特徴情報として、スペクトル(音声の周波数成分を示す情報)を用いると、接続境界近傍で、音質が急に変化することを避けることができる。特に、接続境界を決定した後に、接続境界近傍での音響特徴情報を用いて規則合成音声データの特徴を加工する構成の場合に有効で、接続境界近傍の規則合成音声のスペクトルが、録音音声とより近くなるように加工することができる。
本発明では、規則合成音声データを作成する範囲として、可変部分に加えて定型部分の一部を含むようにしているが、この範囲は、一呼気段落(息継ぎのためのポーズで分割される一単位)、一文(句点によって分割される一単位)、定型部分の全体のいずれかで定義することが望ましい。特に録音音声と規則合成音声の韻律の整合をとるためには、前記重複区間は大きくとるとよい。ただし、別の手段による韻律の整合方法が利用できる場合や計算量の観点から問題となる場合は、一呼気段落未満の範囲となるように定義してもよい。
本発明の接続境界算出手段において、接続境界の候補となる位置は、前記重複区間における全ての標本点であるが、音素境界に限定して接続境界を選択すると、効果的な接続境界が得られる。このような構成をとることによって、録音音声および規則合成音声の音響特徴情報は、音素境界のみで計算するものであればよく、記憶容量や計算量の観点で有利となる。
本発明の録音音声格納手段において、定型部分と定型部分以外の一部を含む、一呼気段落または一文の単位であらかじめ録音した音声データを格納しておくことにより、録音音声における定型部分以外の区間も有効に利用できるようになる。定型部分のテキストがあらかじめ設定されている場合、可変部分のテキストに応じて録音音声を決定するようにすると、可変部分の一部についても録音音声が利用できる場合は、前記重複区間として、可変部分の一部を含めることができる。このようにすると、録音音声の多くの部分を活かすことができ、より高品質な合成音声を生成できる。
さらに、本発明の音声合成装置は、定型部分と可変部分からなるテキストを合成する音声合成装置において、録音された、前記定型部分を含む録音音声データを予め格納する録音音声格納部と、受け付けた前記テキストから、前記可変部分と少なくとも前記定型部分の一部を含む規則合成音声データを生成する規則合成部と、前記テキストに対応する、前記録音音声データおよび前記規則合成音声データの音響特徴情報に基いて、前記録音音声データと前記規則合成音声データとが重複する区間における接続境界位置を算出する接続境界算出部と、前記接続境界位置で区切って切り出した前記録音音声データと前記規則合成音声データとを接続して、前記テキストに対応する合成音声データを生成する接続合成部とを備えることを特徴とする。
さらにまた、本発明の音声合成装置は、定型部分と可変部分からなるテキストを合成する音声合成装置において、録音された、前記定型部分を含む録音音声データを予め格納する録音音声格納部と、受け付けた前記テキストから、前記可変部分と少なくとも前記定型部分の一部を含む規則合成パラメータを算出し、規則合成音声の音響特徴情報を生成する規則合成パラメータ算出部と、前記録音音声の音響特徴情報と前記規則合成の音響特徴情報とを用いて、前記録音音声データと前記規則合成パラメータとが重複する区間における接続境界位置を算出する接続境界算出部と、前記録音音声の音響特徴情報と、前記規則合成音声の音響特徴情報と、前記接続境界位置とを用いて、規則合成音声データを生成する規則合成音声データ部と、前記接続境界位置で区切って切り出した前記録音音声データと前記規則合成音声データとを接続して、前記テキストに対応する合成音声データを出力する接続合成部と、前記合成音声データを出力する手段とを備えることを特徴とする。
さらにまた、本発明の音声合成装置は、あらかじめ録音された、可変部分を含む音片と定型部分を含む音片とを接続して合成音声を作成する装置において、あらかじめ録音された前記音片からなる音声データを格納する録音音声格納部と、受け付けた入力テキストから、前記可変部分の音片の中間記号列と前記定型部分の音片の中間記号列とを作成する入力解析部と、前記可変部分の入力に従って、同じ定型部分をもつ複数の録音音声データの中から適切な録音音声データを選択する録音音声選択部と、前記入力解析部で得られる前記可変部分の音片の中間記号列と、前記定型部分の音片の中間記号列を用いて、規則合成音声データを生成する範囲を決定する規則合成部と、前記録音音声データの音響特徴情報および前記規則合成音声データの音響特徴情報を用いて、前記録音音声データと前記規則合成音声データとの重複区間における、接続境界位置を算出する接続境界算出部と、前記接続境界算出部から得られる前記接続境界位置を用いて、前記録音音声データと前記規則合成音声データとを切断し、切断された前記録音音声データと前記規則合成音声データとを接続することにより、前記可変部分を含む音片に対応する合成音声データを作成する接続合成部と、入力テキストから得られる音片の順序に基づいて、音片を接続して出力音声を生成する音片接続部とを有することを特徴とする。
また、本発明の音声合成方法は、あらかじめ録音音声データおよび録音音声データに対応する第1の中間記号列を格納しておき、入力テキストを準備する第1のステップと、入力テキストを第2の中間記号列に変換する第2のステップと、第1の中間記号列を参照し、第2の中間記号列を第1の中間記号列と対応する定型部分と対応しない可変部分に弁別する第3のステップと、録音音声データから、第1の中間記号列が定型部分に対応する部分を取得する第4のステップと、第2の中間記号列を用いて可変部分に対応する部分全部と定型部分に対応する部分の少なくとも一部の規則合成音声データを生成する第5のステップと、取得された録音音声データの一部と生成された規則合成音声データの一部を結合する第6のステップとを有する。
ここで、取得された録音音声データ、生成された規則合成音声データは、それぞれ連続する一つのフレーズとすることができ、2つのフレーズは重複する箇所を持つため、つなぎ合わせる箇所の自由度が大きく、自然なつながりで結合することができる。すなわち、2つの音声データは定型部分で重複している区間を持つので、この区間で2つの音声データが整合する部分を接続境界として選び、つなぎ合わせればよい。いかなる部分で整合するかの評価基準としては、例えば、2つの音声データの基本周波数、スペクトル、継続長などの特徴量の差の小さな箇所を選ぶことができる。
また、必要に応じて、2つのデータの片方を修正(加工)してつなぎ合わせることもできる。例えば、録音音声データと規則合成音声データの特徴量の差が小さくなるように、規則合成音声データ生成の際のパラメータを修正して音響特徴を合わせることができる。
本発明によれば、録音音声と合成音声を接続する際に音質および韻律の不連続が知覚されない、高品質な音声合成装置が実現できる。
以下、本発明の実施例について、図面を参照して詳述する。
(実施例1)
図1は、本発明の第1の実施例に係り、カーナビゲーションシステム用に構成された本発明の音声合成装置を示すブロック図である。
本実施例は、図示のとおり、音声合成装置1とナビゲーション制御装置2とからなる。本発明の音声合成装置1は、ナビゲーション制御部3からのテキスト入力を解析する入力解析部4と、入力解析部4で得られる定型部分の中間記号列を用いて録音音声格納部5から録音音声データを索出する録音音声選択部6と、入力解析部4で得られる可変部分の中間記号列および定型部分の中間記号列の一部と録音音声選択部6で得られる録音音声の音響特徴情報とを用いて規則合成音声データを生成する規則合成部7と、録音音声選択部6で得られる録音音声の音響特徴情報と規則合成部7で得られる規則合成音声の音響特徴情報を用いて、録音音声データと規則合成音声データとの接続境界を算出する接続境界算出部8と、接続境界算出部で得られる接続境界を用いて録音音声データと規則合成音声データを切り出して接続する接続合成部9とを備えている。
次に、図1および図2を用いて、本発明の第1の実施例に係る音声合成装置1の動作について説明する。なお、図2は、本発明の第1の実施例に係る音声合成装置1の動作を示すフローチャートである。
まず、ナビゲーション制御部2において、音声合成装置1へ渡す入力テキストを決定する。
ナビゲーション制御部3は、情報受信部10から例えば天気予報や交通情報などの各種情報を受信し、GPS11から得られる現在位置情報や、ナビゲーション用データ記憶部12のもつ地図情報と組み合わせるなどして、音声合成装置1へ渡す入力テキストを作成する(ステップ101)。
次に、入力解析部4においてナビゲーション制御部2から音声出力するための入力テキストを受け取り、中間記号列に変換する(ステップ102)。入力テキストは、例えば、「国分寺の明日の天気です。」のような漢字仮名混じりの文字列である。ここで入力解析部4は、言語処理を行い、「コクブンジノ アシタノ テンキデス」のように、音声合成用の中間記号列に変換する。
次に、入力解析部4は、録音音声格納部5に、図3に示す録音音声データ401と関連付けて格納されている中間記号列402とを参照して一致する部分を探索し、定型部分とする中間記号列を決定し、音声波形データ401と関連付けることのできない部分を可変部分として決定する(ステップ103)。
録音音声格納部5には、上述のように、図3に示すような構成で、録音音声データ401と関連付けられた中間記号列402が複数組格納されている。ここで、図4に示すように、録音音声格納部5に中間記号列「シンジュクノ アシタノ テンキデス」が格納されている場合を例としてステップ103の動作を説明する。
入力解析部4から得られる中間記号列「コクブンジノ アシタノ テンキデス」と録音音声格納部5に格納されている中間記号列402と順次比較すると、「シンジュクノ
アシタノ テ’ンキデス」が、「ノ アシタノ テンキデス」の部分で入力解析部4から得られる中間記号列と一致するため、該当する部分を定型部分として、録音音声データ401を用いることができる。そこで、「ノ アシタノ テンキデス」を定型部分と決定し、録音音声データと関連付けることができない「コクブンジ」を可変部分と決定する。
次に録音音声選択部6において、録音音声データ401と録音音声の音響特徴情報403を取得する(ステップ104)。
録音音声選択部6は、入力解析部4で得られる定型部分の中間記号列を用いて、録音音声格納部5から録音音声データ401を取得する。ここで、定型部分の中間記号列が「ノ アシタノ テンキデス」となっている場合でも、当該中間記号列の前および後ろの少なくとも一方の録音音声データを一緒に取得する。ここでは一例として、「シンジュクノ アシタノ テンキデス」に対応する録音音声データ全体を取得するものとした。定型部分に対応する部分だけ切り出す処理はここでは行わない。
また、録音音声格納部5に録音音声データ401と関連付けて格納されている音響特徴情報403を取得する。音響特徴情報は、図4の例に示すような構成で格納されており、録音音声の各音素に関して,音素カテゴリ・始終端の時刻・基本周波数が記述されている。
規則合成部7は、入力解析部4で得られる可変部分の中間記号列と定型部分の中間記号列を用いて、規則合成音声を生成する範囲を決定する(ステップ105)。ここで、規則合成音声を作成する範囲は、可変部分を含む一文と定義しておくと、可変部分の「コクブンジ」に加えて、定型部分「ノ アシタノ テンキデス」を含めて規則合成音声を生成する。
次に、規則合成部7は、録音音声の音響特徴情報403を参照して、規則合成音声データを生成する(ステップ106)。ここで、基本周波数や音素継続長時間などの規則合成パラメータを、規則合成部7があらかじめ記憶している韻律モデル13を用いて算出するが、その際、録音音声の音響特徴情報を参照して、規則合成パラメータを修正することにより、録音音声と接続しやすい規則合成音声データを生成することが出来る。
録音音声の音響特徴情報403のうち基本周波数情報を用いて規則合成パラメータを決定する様子を、図5に示す。図5に示すように、録音音声データと生成される規則合成音声データの重複する区間501において、録音音声データの音響特徴情報(録音音声の基本周波数パタン)502との誤差が小さくなるように、韻律モデル13を用いて算出された規則合成パラメータ(韻律モデルが設定する基本周波数パタン)503を修正し、規則合成音声データの音響特徴情報(修正された基本周波数パタン)504を生成する。修正方法として、平行移動および、ダイナミックレンジの拡大や縮小などの操作を使用する。
このように、録音音声データと規則合成音声データとの重複する区間501において音響特徴を合わせる操作を行い、同様の操作が録音音声データと重複しない可変部分505に対しても行われることにより、可変部分と定型部分の韻律の整合をとることが可能となる。
音響特徴情報は、基本周波数のみに限らず、音韻継続長時間をあわせて利用することにより、録音音声データと規則合成音声データとの間のリズムの不整合が解消される。また、音響特徴情報として録音音声のスペクトル情報を用いることもでき、音質面でも、録音音声データと規則合成音声データの不連続を解消することができる。
次に、接続境界算出部8は、録音音声データの音響特徴情報502と規則合成音声データの音響特徴情報504とを用いて、録音音声データと規則合成音声データとの重複区間501における、図6に示す接続境界位置601を算出する(ステップ107)。録音音声データと規則合成音声データとの重複区間501における音響特徴情報として、基本周波数が与えられている際の算出方法を、図6を例として説明する。
まず、音素カテゴリ情報を用いて、無声破裂音の先頭など、語中の無声音区間を、接続境界の候補として選択する。続いて、音素境界候補における、録音音声と規則合成音声の基本周波数の差を算出して、差が小さくなるものを接続境界の候補とする。この時点で、算出された同等な候補が複数ある場合には、規則合成音声データの区間を短くすることを考慮して、接続境界位置601を決定する。
音素カテゴリ情報を用いて接続境界の候補を得る際には、無声破裂音の先頭位置が有効であるが、その他の無声音についても、有声音と比較すれば滑らかな接続が可能である。ただし、接続合成部9での接続方法に、クロスフェードを用いることができるときは、有声音中でも滑らかな接続ができる可能性があるため、接続境界の候補の選び方は、無声破裂音の先頭位置に限るものではない。
接続位置を算出するための音響特徴情報として、基本周波数の差を用いる以外にも、音韻継続長の差、スペクトルの差を併せて用いることで、より接続時に滑らかとなる位置を算出することが可能となる。
接続境界算出部8は、上述の例のように、音素カテゴリ情報で候補を絞りこんだ後に、基本周波数の差を計算する順序で、接続境界を算出するだけでなく、下記に示す(数1)の例に示すようなコスト関数を定義して算出することもできる。
C(b)=Wp×Cp(b)+Wf×Cf(b)+Wd×Cd(b)+Ws×Cs(b)+Wl×Cl(b)
・・・・・・・(数1)
ここで、音素カテゴリ情報から決定される接続のしにくさを音素カテゴリコストCp(b)として定義し、その重み付けをWpとする。また、音響特徴情報における差も、それぞれ、基本周波数コストCf(b)、音韻継続長コストCd(b)、スペクトルコストCs(b)として定義し、それらの重み付けを、それぞれ、Wf、Wd、Wsとする。さらに、各音素境界位置から、可変部分と定型部分の境界との時刻の差を求め、規則合成音声長コストCl(b)として定義し、その重み付けをWlとする。各コストの重み付け和として、接続境界位置に関するコストC(b)を算出し、最も小さなコストを持つ音素境界を接続境界位置とすることも可能である。
次に、接続合成部9は、接続境界算出部8から得られる接続境界位置を用いて、録音音声データと規則合成音声データを切断し、切断された録音音声データと規則合成音声データを接続することにより、入力テキストに対応する合成音声データを出力する(ステップ108)。ここで、接続境界位置は、録音音声データにおける時刻および規則合成音声データにおける時刻として算出し、算出された時刻を用いて音声データの切断および接続を行う。
接続合成部9は、切断した音声を接続する際に、単に接続を行うだけでなく、クロスフェード処理を用いて接続部分を目立たなくすることもできる。特に有声部の中間で接続が行われる場合には、基本周波数に同期して、接続境界位置の音声波形の1基本周期分だけクロスフェード処理を行うことで、接続時の異音を解消することができる。ただし、クロスフェード処理を用いて信号が劣化する可能性もあるため、有声部の中間で接続を行うことは避けるように、接続境界位置を決定しておくことが望ましい。
なお、上記実施例では、規則合成音声データを作成する範囲は、可変部分を含む一文と定義した場合について述べたが、一呼気段落、一文のいずれかの単位で生成するようにしてもよい。
以上のように第1の実施例では、車載用カーナビゲーションシステム用に構成された、録音音声データと規則合成音声データを接続する音声合成装置において、規則合成音声データの音質と韻律を録音音声データに近づけるとともに、好適な接続境界を算出することにより、自然な合成音声を生成することが可能となる。
(実施例2)
次に、本発明の第2の実施例について説明する。
第1の実施例は、規則合成音声データを生成した後に決定される接続境界位置を用いて、録音音声データと規則合成音声データを接続するものであるが、接続境界位置の決定後に、規則合成音声データを生成する構成としてもよい。
図7は、本発明の第2の実施例を示すブロック図である。第2の実施例は、第1の実施例における規則合成部7の代わりに、規則合成パラメータ算出部21と規則合成音声データ生成部22とを設けた構成となる。図8は、第2の実施例に係る音声合成装置20の動作を示すフローチャートである。図7と図8を用いて、第2の実施例に係る音声合成装置20の動作について説明する。
まず、ナビゲーション制御部3において、音声合成装置20へ渡す入力テキストを決定する(ステップ201)。
次に、入力解析部4において、定型部分の中間記号列と可変部分の中間記号列が決定され(ステップ202〜ステップ203)、録音音声選択部6で録音音声データと録音音声の音響特徴情報が得られる(ステップ204)。続いて、規則合成音声の作成範囲が決定される(ステップ205)。ここまでの処理は第1の実施例と同様の方法で行われる。
次に、規則合成パラメータ算出部21において、規則合成パラメータを算出し、規則合成音声の音響特徴情報を生成する(ステップ206)。ここで第1の実施例では、規則合成部7において規則合成音声データを作成したが、第2の実施例においては、規則合成音声データを作成しない。
次に、接続境界算出部8は、録音音声の音響特徴情報と規則合成音声の音響特徴情報とを用いて、録音音声データと規則合成パラメータとの重複区間における、接続境界位置を算出する(ステップ207)。本ステップは、第1の実施例と同様の方法で行われる。
次に、規則合成音声データ生成部22において、録音音声の音響特徴情報と規則合成音声の音響特徴情報と接続境界算出部8で得られる接続境界位置とを用いて、規則合成音声データを生成する(ステップ208)。本ステップは、接続境界位置に録音音声の音響特徴情報を参照して、ステップ206で得られた規則合成パラメータを修正し、規則合成音声データを生成するものである。
例えば、接続境界位置にある音素に対して、音響特徴の差が小さくなるように、規則合成パラメータを修正すると、より接続歪の少ない合成音声が生成されることになる。
第1の実施例では、可変部分を含む1文として定義された規則合成音声データの範囲と、録音音声データとの重複区間の音響特徴情報を用いて、規則合成パラメータを作成するものであったが、第2の実施例では、接続境界算出部8で得られる接続境界位置における、録音音声の音響特徴情報を用いて、規則合成パラメータを再度修正した上で、規則合成音声データを生成するものである。これにより、接続境界位置を考慮した、より滑らかな接続が行われる。
次に、接続合成部9は、接続境界算出部8から得られる接続境界位置を用いて、録音音声データと規則合成音声データとを切断し、切断された録音音声データと規則合成音声データとを接続することにより、入力テキストに対応する合成音声データを出力する(ステップ209)。
以上のように、第2の実施例では、第1の実施例と異なり、規則合成パラメータの設定を2段階で行う。1段目では、文全体の滑らかな接続を考慮した規則合成パラメータが設定され、2段目では、接続境界算出部8で得られる接続境界位置を考慮して規則合成パラメータが修正される。このようにして、規則合成パラメータを修正することで、録音音声データと規則合成音声データのより自然な接続を可能とする。
(実施例3)
次に、本発明の第3の実施例について説明する。
図9は、本発明の第3の実施例に係り、鉄道放送システムに本発明を適用する構成を示すブロック図である。図10は、第2の実施例に係る音声合成装置30の動作を示すフローチャートである。
本実施例は、あらかじめ録音された音片を接続して合成音声を作成する装置において、本発明の実施により可変部分を含む音片を生成する機能を備えた構成となっている。
入力部31は、図11に示すように、文例を選択するための表示手段33と、選択された文例に従った音片の順序構成の表示手段34と、可変部分を含む音片においては、テキストの定型部分と可変部分が分かるような表示手段35を有する入力画面32と、入力画面32を見ながら、複数の文例の中から利用者が出力したい文例を選択し、音片の順序構成を編集し、可変部分のテキストをキーボード等で入力するための入力装置36を備えている。
また、音片情報格納部35は、図12に示すような構成で、録音音声格納部5にあらかじめ録音された音声データを、図13の例に示すように分類しておき、文例を、音片分類コード701の組み合わせで表現できるように構成する。また、音片情報格納部35は、図13に示すように各録音音声データについて一意に定められた音片コード702を格納する。このとき音片コード702から音片分類コード701が分かるように構成しておく。例として図13では、音片コード702の最上位の桁が音片分類コード701の最上位の桁と一致するように構成している。
以下、第3の実施例の動作について説明する。
入力部31では、文例を選択することによって、音片の構成を決定する(ステップ301)。ここで、音片の順序構成において、音片コードが指定されている場合は、固定の音片を利用し、音片分類コードが指定されている場合は、該当する音片を、本発明の音声合成方法によって生成することができる。例えば、図13の例に示す音片情報が格納されており、入力部で、音片分類コード「200」が設定されると、入力画面には、可変部分のテキストを入力するための領域と、表示データ703として、定型部分の「行きがまいります」が表示される。
続いて、可変部分のテキストをキーボードから入力し、可変部分のテキストを決定する(ステップ302)。例えば、可変部分のテキストとして、「原宿」と入力されると、定型部分と組み合わせた「原宿行きがまいります」を、音片として生成する。
入力解析部4は、入力部31で指定した可変部分を含む音片を作成するために、音片分類コード701と対応する定型部分の中間記号列704を取得する。また、入力部から得られる可変部分のテキストを言語処理により中間記号列に変換し、可変部分の中間記号列を決定する(ステップ303)。このステップにより、可変部分のテキストが「原宿」である場合、可変部分の中間記号列「ハラジュク」が得られる。
次に、録音音声選択部6は、可変部分の入力に従って、同じ定型部分をもつ複数の録音音声の中から適切な録音音声を選択する。ここで、定型部分と可変部分を含めた中間記号列と、録音音声に対応する中間記号列を比較し、最も長く中間記号列が一致するものを選択する(ステップ304)。このようにすると、録音音声と規則合成音声の接続境界位置は、定型部分の中に決定されるだけでなく、場合によっては可変部分の中に決定することも可能となり、より高品質な合成音声を生成することができる。
次に、規則合成部7は、入力解析部4で得られる可変部分の中間記号列と定型部分の中間記号列を用いて、規則合成音声を生成する範囲を決定する(ステップ305)。ここで、規則合成音声を作成する範囲は、可変部分を含む一音片と定義しておくと、可変部分の「ハラジュク」に加えて、定型部分「ユキガ マイリマス」を含めて規則合成音声を生成する。
次に、接続境界算出部8は、録音音声の音響特徴情報と規則合成音声の音響特徴情報を用いて、録音音声データと規則合成音声データの重複区間における、接続境界位置を算出する(ステップ306)。
このステップ306は、第1の実施例のステップ106と同様であるが、録音音声と規則合成音声の接続境界位置は、定型部分の中に決定されるだけでなく、場合によっては可変部分の中に決定することも可能となる。可変部分の中に、接続境界位置が決定される例を、図14に示す。図13に示すような音片情報に対応した録音音声が録音音声格納部5に格納されており、定型部分として、音片分類コード「200」が指定されると、音片コード「201」、「202」、「203」の録音音声が選択の対象となる。ここで、可変部分の中間記号列が「ハラジュク」である場合、定型部分と組み合わせた中間記号列「ハラジュクユキガ マイリマス」と、各録音音声の中間記号列を比較すると、音片コード「201」の「シンジュクユキガ マイリマス」が選択される。
このようにすると、録音音声と規則合成音声の重複区間801は、「ジュクユキガ マイリマス」に対応する区間となり、あらかじめ指定された定型部分803のみならず、可変部分802の一部である「ジュク」の部分に関しても録音音声を利用することができるようになり、接続境界位置804を可変部分802の中に決定することが可能となる。
次に、接続合成部9は、接続境界算出部8から得られる接続境界位置を用いて、録音音声データと規則合成音声データを切断し、切断された録音音声データと規則合成音声データを接続することにより、可変部分を含む音片に対応する合成音声データを作成する(ステップ307)。ここで、接続境界位置は、録音音声データにおける時刻および規則合成音声データにおける時刻として算出し、算出された時刻を用いて音声データの切断および接続を行う。このステップは、第1の実施例のステップ107と同様であるが、音声データをスピーカから出力する処理は、次の音片接続部36が行う。
音片接続部36は、入力部から得られる音片の順序に基づいて、音片を接続して出力音声を生成する(ステップ308)。ここで、可変部分を含む音片は、接続合成部から得られる合成音声を用いる。
このようにして、録音された音片を接続して合成音声を作成する装置において、規則合成音声を用いた音片を用いて、自然な接続の合成音声を出力することができる。
以上のように第3の実施例では、鉄道放送システムに本発明を適用した場合、あらかじめ録音された音片を接続して合成音声を作成する装置において、可変部分を含む音片を生成する機能を備え、高品質な音声を出力することができる。
以上詳述したように、本発明によれば、予め格納された録音された音声データと、規則合成により生成された音声データとが重複する区間の音響特徴情報にもとづいて、録音音声と規則合成音声との間の音質および韻律の連続性を考慮した接続境界を選択し、自然な合成音声を生成することが可能となる。また、規則合成作成手段は、重複する区間の音響特徴情報を目標として規則合成音声を作成することにより、規則合成音声の音質と韻律が録音音声に近づき、自然な合成音声を生成することが可能となる。
本発明は、車載用カーナビゲーションシステムや鉄道放送システムへの適用が好適であるが、テキストを音声出力する音声案内システム一般に適用可能である。
本発明の第1の実施例における音声合成装置の構成を示すブロック図である。 第1の実施例における音声合成装置の動作を示すフローチャートである。 第1の実施例における録音音声格納部に記憶される情報を示す図である 第1の実施例における録音音声格納部に記憶される情報の具体例を示す図である 第1の実施例における規則合成音声の生成方法を説明するための説明図である。 第1の実施例における接続境界位置の選択方法を説明するための説明図である。 本発明の第2の実施例における音声合成装置の構成を示すブロック図である。 第2の実施例における音声合成装置の動作を示すフローチャートである。 本発明の第3の実施例における音声合成装置の構成を示すブロック図である。 第3の実施例における音声合成装置の動作を示すフローチャートである。 第3の実施例における入力画面の構成を示す図である。 第3の実施例における音片情報格納部に記憶される情報を示す図である。 第3の実施例における音片情報格納部に記憶される情報の具体例を示す図である 第3の実施例における接続境界位置の選択方法を説明するための説明図である。
符号の説明
1…音声合成装置、2…ナビゲーション制御装置、3…ナビゲーション制御部、4…入力解析部、5…録音音声格納部、6…録音音声選択部、7…規則合成部、8…接続境界算出部、9…接続合成部、10…情報受信部、11…GPS、12…ナビゲーション用データ記憶部、13…韻律モデル、20…音声合成装置、21…規則合成パラメータ算出部、22…規則合成音声データ生成部、30…音声合成装置、31…入力部、35…音片情報格納部、36…音片接続部。

Claims (19)

  1. 定型部分と可変部分からなるテキストを合成する音声合成装置において、
    録音された音声をもとに作成された、前記定型部分を含む音声データである第1の音声データを予め格納する録音音声格納手段と、
    受け付けた前記テキストから、前記可変部分と少なくとも前記定型部分の一部を含む第2の音声データを生成する規則合成手段と、
    前記テキストに対応する、前記第1の音声データと前記第2の音声データとが重複する区間の、音素カテゴリ、音韻継続長、パワー、スペクトルのうち少なくとも一つである音響特徴情報にもとづいて、録音された音声データと規則合成により生成された音声データとの接続境界の位置を選択する接続境界算出手段と、
    前記第1の音声データを前記接続境界で区切った第3の音声データと、前記第2の音声データを前記接続境界で区切って切り出した第4の音声データとを接続して前記テキストの音声データを合成する接続合成手段とを備え
    前記接続境界算出手段は、前記第1の音声データと前記第2の音声データとが重複する区間に含まれる複数箇所の、前記第1の音声データと前記第2の音声データとの間の前記音響特徴情報の特徴量の差を算出し、算出した複数の前記特徴量の差が最も小さい箇所を、前記接続境界の位置として選択する、
    ことを特徴とする音声合成装置。
  2. 前記規則合成手段は、前記テキストに対応する、前記第1の音声データと前記第2の音声データとが重複する区間における、前記第1の音声データの音響特徴情報を用いて、前記第1の音声データと整合する前記第2の音声データを生成することを特徴とする請求項1に記載の音声合成装置。
  3. 前記規則合成手段は、前記接続境界算出手段から得られる接続境界の位置における前記第1の音声データと前記第2の音声データの音響特徴情報にもとづいて、前記第2の音声データを加工することを特徴とする請求項1に記載の音声合成装置。
  4. 前記規則合成手段は、可変部分と、可変部分に先行または後続する定型部分のうち、定型部分の全体、一呼気段落、一文のいずれかの単位で、前記第2の音声データを生成することを特徴とする請求項1に記載の音声合成装置。
  5. 前記接続境界算出手段は、前記第1の音声データと第2の音声データとが重複する区間に含まれる複数の音素境界の中から前記接続境界の位置を選択する
    ことを特徴とする請求項1に記載の音声合成装置。
  6. 前記録音音声格納手段は、定型部分と少なくとも定型部分以外の一部を含む、一呼気段落または一文の単位であらかじめ録音した音声データを、前記第1の音声データとして格納しておくことを特徴とする請求項1又は2に記載の音声合成装置。
  7. 前記接続境界位置は、前記第1の音声データにおける時刻および前記第2の音声データにおける時刻として算出し、算出された時刻を用いて音声データの切断および接続を行うことを特徴とする請求項1又は2に記載の音声合成装置。
  8. 前記接続合成手段で合成された前記音声データを出力する手段を設けたことを特徴とする請求項1又は2に記載の音声合成装置。
  9. 定型部分と可変部分からなるテキストを合成する音声合成装置において、
    録音された、前記定型部分を含む録音音声データを予め格納する録音音声格納部と、
    受け付けた前記テキストから、前記可変部分と少なくとも前記定型部分の一部を含む規則合成音声データを生成する規則合成部と、
    前記テキストに対応する、前記録音音声データおよび前記規則合成音声データの、音素カテゴリ、音韻継続長、パワー、スペクトルのうち少なくとも一つである音響特徴情報に基いて、前記録音音声データと前記規則合成音声データとが重複する区間における接続境界位置を算出する接続境界算出部と、
    前記接続境界位置で区切って切り出した前記録音音声データと前記規則合成音声データとを接続して、前記テキストに対応する合成音声データを生成する接続合成部とを備え
    前記接続境界算出部は、前記録音音声データと前記規則合成音声データとが重複する区間に含まれる複数箇所の、前記録音音声データと前記規則合成音声データとの間の前記音響特徴情報の特徴量の差を算出し、算出した複数の前記特徴量の差が最も小さい箇所を、前記接続境界位置として選択する、
    ことを特徴とする音声合成装置。
  10. 前記規則合成手段は、前記テキストに対応する、前記録音音声データと前記規則合成音声データとが重複する区間における、前記録音音声データの音響特徴情報を用いて、前記録音音声データと整合する前記規則合成音声データを生成することを特徴とする請求項9に記載の音声合成装置。
  11. 前記規則合成手段は、前記接続境界算出手段から得られる接続境界の位置における前記録音音声データと前記規則合成音声データの音響特徴情報にもとづいて、前記規則合成音声データを加工することを特徴とする請求項9に記載の音声合成装置。
  12. 前記規則合成手段は、可変部分と、可変部分に先行または後続する定型部分のうち、定型部分の全体、一呼気段落、一文のいずれかの単位で、第2の音声データを生成することを特徴とする請求項9に記載の音声合成装置。
  13. 前記接続境界算出手段は、前記録音音声データと前記規則合成音声データとが重複する区間に含まれる複数の音素境界の中から前記接続境界位置を選択することを特徴とする請求項9に記載の音声合成装置。
  14. 前記録音音声格納手段は、定型部分と少なくとも定型部分以外の一部を含む、一呼気段落または一文の単位であらかじめ録音した音声データを、前記録音音声データとして格納しておくことを特徴とする請求項9又は10に記載の音声合成装置。
  15. 前記接続境界位置は、前記録音音声データにおける時刻および前記規則合成音声データにおける時刻として算出し、算出された時刻を用いて音声データの切断および接続を行うことを特徴とする請求項9又は10に記載の音声合成装置。
  16. 前記接続合成手段で生成された前記合成音声データを出力する手段を設けたことを特徴とする請求項9又は10に記載の音声合成装置。
  17. 定型部分と可変部分からなるテキストを合成する音声合成装置において、
    録音された、前記定型部分を含む録音音声データを予め格納する録音音声格納部と、
    受け付けた前記テキストから、前記可変部分と少なくとも前記定型部分の一部を含む規則合成パラメータを算出し、規則合成音声の音響特徴情報を生成する規則合成パラメータ算出部と、
    前記録音音声の音響特徴情報と前記規則合成の音響特徴情報とを用いて、前記録音音声データと前記規則合成パラメータとが重複する区間における接続境界位置を算出する接続境界算出部と、
    前記録音音声の音響特徴情報と、前記規則合成音声の音響特徴情報と、前記接続境界位置とを用いて、規則合成音声データを生成する規則合成音声データ部と、
    前記接続境界位置で区切って切り出した前記録音音声データと前記規則合成音声データとを接続して、前記テキストに対応する合成音声データを出力する接続合成部と、
    前記合成音声データを出力する手段とを備え、
    前記音響特徴情報は、音素カテゴリ、音韻継続長、パワー、スペクトルのうち少なくとも一つであり、
    前記接続境界算出部は、前記録音音声データと前記規則合成パラメータとが重複する区間における複数箇所の、前記録音音声データと前記規則合成パラメータとの間の前記音響特徴情報の特徴量の差を算出し、算出した複数の前記特徴量の差が最も小さい箇所を、前記接続境界位置として選択する、
    ことを特徴とする音声合成装置。
  18. あらかじめ録音された、可変部分を含む音片と定型部分を含む音片とを接続して合成音声を作成する装置において、
    あらかじめ録音された前記音片からなる音声データを格納する録音音声格納部と、
    受け付けた入力テキストから、前記可変部分の音片の中間記号列と前記定型部分の音片の中間記号列とを作成する入力解析部と、
    前記可変部分の入力に従って、同じ定型部分をもつ複数の録音音声データの中から適切な録音音声データを選択する録音音声選択部と、
    前記入力解析部で得られる前記可変部分の音片の中間記号列と、前記定型部分の音片の中間記号列を用いて、規則合成音声データを生成する範囲を決定する規則合成部と、
    前記録音音声データの音響特徴情報および前記規則合成音声データの音響特徴情報を用いて、前記録音音声データと前記規則合成音声データとの重複区間における、接続境界位置を算出する接続境界算出部と、
    前記接続境界算出部から得られる前記接続境界位置を用いて、前記録音音声データと前記規則合成音声データとを切断し、切断された前記録音音声データと前記規則合成音声データとを接続することにより、前記可変部分を含む音片に対応する合成音声データを作成する接続合成部と、
    入力テキストから得られる音片の順序に基づいて、音片を接続して出力音声を生成する音片接続部とを有し、
    前記音響特徴情報は、音素カテゴリ、音韻継続長、パワー、スペクトルのうち少なくとも一つであり、
    前記接続境界算出部は、前記録音音声データと前記規則合成音声データとが重複する区間における複数箇所の、前記録音音声データと前記規則合成音声データとの間の前記音響特徴情報の特徴量の差を算出し、算出した複数の前記特徴量の差が最も小さい箇所を、前記接続境界位置として選択する、
    ことを特徴とする音声合成装置。
  19. 定型部分と可変部分からなるテキストを音声合成する音声合成方法において、
    録音された、前記定型部分を含む録音音声データを予め格納しておき、
    受け付けた前記テキストから、前記可変部分と少なくとも前記定型部分の一部を含む規則合成音声データを生成し、
    前記テキストに対応する、前記録音音声データおよび前記規則合成音声データの、音素カテゴリ、音韻継続長、パワー、スペクトルのうち少なくとも一つである音響特徴情報に基いて、前記録音音声データと前記規則合成音声データとが重複する区間における複数箇所の、前記録音音声データと前記規則合成音声データとの間の前記音響特徴情報の特徴量の差を算出し、算出した複数の前記特徴量の差が最も小さい箇所を、接続境界位置として選択し、
    前記接続境界位置で区切って切り出した前記録音音声データと前記規則合成音声データとを接続して、前記テキストに対応する合成音声データを生成する
    ことを特徴とする音声合成方法。
JP2006288675A 2006-10-24 2006-10-24 音声合成装置 Expired - Fee Related JP4878538B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006288675A JP4878538B2 (ja) 2006-10-24 2006-10-24 音声合成装置
US11/976,179 US7991616B2 (en) 2006-10-24 2007-10-22 Speech synthesizer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006288675A JP4878538B2 (ja) 2006-10-24 2006-10-24 音声合成装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2011234467A Division JP2012042974A (ja) 2011-10-26 2011-10-26 音声合成装置

Publications (3)

Publication Number Publication Date
JP2008107454A JP2008107454A (ja) 2008-05-08
JP2008107454A5 JP2008107454A5 (ja) 2009-09-03
JP4878538B2 true JP4878538B2 (ja) 2012-02-15

Family

ID=39440864

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006288675A Expired - Fee Related JP4878538B2 (ja) 2006-10-24 2006-10-24 音声合成装置

Country Status (2)

Country Link
US (1) US7991616B2 (ja)
JP (1) JP4878538B2 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5238205B2 (ja) * 2007-09-07 2013-07-17 ニュアンス コミュニケーションズ,インコーポレイテッド 音声合成システム、プログラム及び方法
CN102203853B (zh) * 2010-01-04 2013-02-27 株式会社东芝 合成语音的方法和装置
JP2011180416A (ja) * 2010-03-02 2011-09-15 Denso Corp 音声合成装置、音声合成方法およびカーナビゲーションシステム
US20110313762A1 (en) * 2010-06-20 2011-12-22 International Business Machines Corporation Speech output with confidence indication
US8996377B2 (en) * 2012-07-12 2015-03-31 Microsoft Technology Licensing, Llc Blending recorded speech with text-to-speech output for specific domains
US9607610B2 (en) 2014-07-03 2017-03-28 Google Inc. Devices and methods for noise modulation in a universal vocoder synthesizer
CN107871494B (zh) * 2016-09-23 2020-12-11 北京搜狗科技发展有限公司 一种语音合成的方法、装置及电子设备
KR20230018538A (ko) 2017-05-24 2023-02-07 모듈레이트, 인크 음성 대 음성 변환을 위한 시스템 및 방법
US10783329B2 (en) * 2017-12-07 2020-09-22 Shanghai Xiaoi Robot Technology Co., Ltd. Method, device and computer readable storage medium for presenting emotion
EP3776532A4 (en) * 2018-03-28 2021-12-01 Telepathy Labs, Inc. VOICE SYNTHESIS PROCESS AND SYSTEM
WO2021030759A1 (en) 2019-08-14 2021-02-18 Modulate, Inc. Generation and detection of watermark for real-time voice conversion
CN111816158B (zh) * 2019-09-17 2023-08-04 北京京东尚科信息技术有限公司 一种语音合成方法及装置、存储介质
KR102637341B1 (ko) * 2019-10-15 2024-02-16 삼성전자주식회사 음성 생성 방법 및 장치
CN110797006B (zh) * 2020-01-06 2020-05-19 北京海天瑞声科技股份有限公司 端到端的语音合成方法、装置及存储介质
CN111611208A (zh) * 2020-05-27 2020-09-01 北京太极华保科技股份有限公司 文件存储与查询的方法及装置、存储介质

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH031200A (ja) * 1989-05-29 1991-01-07 Nec Corp 規則型音声合成装置
JP3089715B2 (ja) * 1991-07-24 2000-09-18 松下電器産業株式会社 音声合成装置
JP2782147B2 (ja) * 1993-03-10 1998-07-30 日本電信電話株式会社 波形編集型音声合成装置
JP3563772B2 (ja) * 1994-06-16 2004-09-08 キヤノン株式会社 音声合成方法及び装置並びに音声合成制御方法及び装置
US5751907A (en) * 1995-08-16 1998-05-12 Lucent Technologies Inc. Speech synthesizer having an acoustic element database
US6366883B1 (en) * 1996-05-15 2002-04-02 Atr Interpreting Telecommunications Concatenation of speech segments by use of a speech synthesizer
SE509919C2 (sv) * 1996-07-03 1999-03-22 Telia Ab Metod och anordning för syntetisering av tonlösa konsonanter
US5864820A (en) * 1996-12-20 1999-01-26 U S West, Inc. Method, system and product for mixing of encoded audio signals
US6226614B1 (en) * 1997-05-21 2001-05-01 Nippon Telegraph And Telephone Corporation Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon
US5913194A (en) * 1997-07-14 1999-06-15 Motorola, Inc. Method, device and system for using statistical information to reduce computation and memory requirements of a neural network based speech synthesis system
JPH1138989A (ja) * 1997-07-14 1999-02-12 Toshiba Corp 音声合成装置及び方法
JP3587048B2 (ja) * 1998-03-02 2004-11-10 株式会社日立製作所 韻律制御方法及び音声合成装置
DE69925932T2 (de) * 1998-11-13 2006-05-11 Lernout & Hauspie Speech Products N.V. Sprachsynthese durch verkettung von sprachwellenformen
GB0013241D0 (en) * 2000-05-30 2000-07-19 20 20 Speech Limited Voice synthesis
US7668718B2 (en) * 2001-07-17 2010-02-23 Custom Speech Usa, Inc. Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
US6829581B2 (en) * 2001-07-31 2004-12-07 Matsushita Electric Industrial Co., Ltd. Method for prosody generation by unit selection from an imitation speech database
JP4225128B2 (ja) * 2003-06-13 2009-02-18 ソニー株式会社 規則音声合成装置及び規則音声合成方法
JP4525162B2 (ja) * 2004-05-07 2010-08-18 三菱電機株式会社 音声合成装置及びそのプログラム
JP4328698B2 (ja) * 2004-09-15 2009-09-09 キヤノン株式会社 素片セット作成方法および装置
WO2006134736A1 (ja) * 2005-06-16 2006-12-21 Matsushita Electric Industrial Co., Ltd. 音声合成装置、音声合成方法およびプログラム
JP2007212884A (ja) * 2006-02-10 2007-08-23 Fujitsu Ltd 音声合成装置、音声合成方法、及びコンピュータプログラム

Also Published As

Publication number Publication date
US7991616B2 (en) 2011-08-02
JP2008107454A (ja) 2008-05-08
US20080243511A1 (en) 2008-10-02

Similar Documents

Publication Publication Date Title
JP4878538B2 (ja) 音声合成装置
US7979274B2 (en) Method and system for preventing speech comprehension by interactive voice response systems
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
JP3913770B2 (ja) 音声合成装置および方法
JP4246792B2 (ja) 声質変換装置および声質変換方法
US9978359B1 (en) Iterative text-to-speech with user feedback
JPH10153998A (ja) 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置
US20090177474A1 (en) Speech processing apparatus and program
JP2008033133A (ja) 音声合成装置、音声合成方法および音声合成プログラム
US9147392B2 (en) Speech synthesis device and speech synthesis method
US9508338B1 (en) Inserting breath sounds into text-to-speech output
JPWO2006134736A1 (ja) 音声合成装置、音声合成方法およびプログラム
JP2007086316A (ja) 音声合成装置、音声合成方法、音声合成プログラムおよび音声合成プログラムを記憶したコンピュータ読み取り可能な記憶媒体
JP2005539264A (ja) 無声音信号を合成する方法
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JP2011186143A (ja) ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム
JP2012042974A (ja) 音声合成装置
JP4744338B2 (ja) 合成音声生成装置
JP6291808B2 (ja) 音声合成装置及び方法
JP2009157220A (ja) 音声編集合成システム、音声編集合成プログラム及び音声編集合成方法
JP5054632B2 (ja) 音声合成装置及び音声合成プログラム
JPH07140996A (ja) 音声規則合成装置
JP2005181998A (ja) 音声合成装置および音声合成方法
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JPH11259094A (ja) 規則音声合成装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090721

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090721

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110421

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110510

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110704

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111026

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20111104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111122

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111128

R150 Certificate of patent or registration of utility model

Ref document number: 4878538

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141209

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees