JP3361066B2 - 音声合成方法および装置 - Google Patents

音声合成方法および装置

Info

Publication number
JP3361066B2
JP3361066B2 JP33901998A JP33901998A JP3361066B2 JP 3361066 B2 JP3361066 B2 JP 3361066B2 JP 33901998 A JP33901998 A JP 33901998A JP 33901998 A JP33901998 A JP 33901998A JP 3361066 B2 JP3361066 B2 JP 3361066B2
Authority
JP
Japan
Prior art keywords
mora
speech
template
prosody
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP33901998A
Other languages
English (en)
Other versions
JP2000163088A (ja
Inventor
利光 蓑輪
洋文 西村
亮 望月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP33901998A priority Critical patent/JP3361066B2/ja
Priority to US09/404,264 priority patent/US6438522B1/en
Priority to EP99308496A priority patent/EP1014337A3/en
Publication of JP2000163088A publication Critical patent/JP2000163088A/ja
Application granted granted Critical
Publication of JP3361066B2 publication Critical patent/JP3361066B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、カーナビゲーションや
パーソナルコンピュータなどで使用される音声合成方法
およびその装置に関する。
【0002】
【従来の技術】例えば、リズムの制御に関しては、図1
3に示す、特開平6-274195号公報(「母音部エネルギー重
心点間に母音長、子音長規則を形成する日本語音声合成
システム」)に述べられているように、先行音節11と後
続音節12の相隣合う2つのモーラの母音部分エネルギ
ー重心点間の時間長によりモーラ間隔を求め、2つのモ
ーラの間の子音と発話速度とをパラメータとしてモーラ
間隔を決定し、さらに母音部エネルギー重心点位置間の
時間長と子音長をパラメータとしてモーラを構成する母
音長、 子音長を決定して、合成すべき文章の音韻継続時
間をモーラ間隔で調整するようになっている。
【0003】また、ピッチ周波数制御に関しては、例え
ば、図14に示す、特開平7-261778号公報(「音声情報
処理方法及び装置」)に述べられているものは、音声の
ピッチ周波数やパワー等の特徴量を音韻環境を考慮して
統計処理することにより、確率的に信頼度の高いピッチ
パターンを作成しようとするもので、音声ファイル21
からピッチ周波数やその変化分、パワーやその変化分等
の音声の特徴量を抽出して作成した特徴量ファイル25
と、ラベル付与部23および音韻リスト作成部24によ
るアクセント型、モーラ数、モーラ位置、音素等の音韻
環境を考慮したラベルファイル26とを統計処理して特
徴を抽出する統計処理部27と、統計処理した結果をも
とに音韻環境を考慮したピッチパターンを作成するピッ
チパターン作成部28を備えている。
【0004】このように、従来の音声合成方法によって
も、アクセント型、モーラ数、モーラ位置、音素等の音
韻環境を考慮した合成音声の韻律制御を行うことができ
る。
【0005】
【発明が解決しようとする課題】しかしながら、上記従
来の音声合成方法では、単語全体のリズムを考慮してお
らず、2音節間の時間関係のみを制御対象としているた
め、単語として自然なリズムが形成できなかったり、ピ
ッチ周波数パターンも統計処理した平均値であり、統計
処理対象のデータが充分でなければ自然性の高い合成音
声を作成できないという課題を有していた。
【0006】本発明は、上記従来の課題を解決するもの
であり、より自然性の高い合成音声を実現できる音声合
成方法およびその装置を提供することを目的とする。
【0007】
【課題を解決するための手段】本発明は、上記目的を達
成するために、単音節を連続的に発声した音声から韻律
成分を抽出して事前に格納しておき、合成しようとする
音声とモーラ数、アクセント型が同じ韻律テンプレート
を選択して、この韻律テンプレートのリズムパターン、
ピッチ周波数パターン、パワーパターンに合わせて合成
音声を作成するようにし、テンプレートの適用範囲を、
語頭2モーラと、アクセント核がある場合にはアクセン
ト核を含むモーラおよびそれに続く1モーラと、語尾の
2モーラとし、それ以外の部分は補間により韻律を制御
するようにしたものであり、従来より自然性の高い合
成音声を実現することができる。
【0008】
【発明の実施の形態】本発明の請求項1に記載の発明
は、単音節を連続的に発声した音声からリズムとピッチ
とパワーから成る韻律成分を抽出して事前に蓄積してお
き、これらのうちから、合成しようとする音声とモーラ
数、アクセント型が同じテンプレートを選択し、このテ
ンプレートの音節の母音の時間長に合成しようとする音
声の母音時間長を合あわせるように調整したうえで、ピ
ッチ、パワーについても、韻律テンプレートに合わせて
合成音声素片の変形、接続を行うようにし、前記テンプ
レートの適用範囲を、語頭2モーラと、アクセント核が
ある場合にはアクセント核を含むモーラおよびそれに続
く1モーラと、語尾の2モーラとし、それ以外の部分は
補間により韻律を制御するようにしたものであり、きわ
めて自然性の高い合成音声を作成することができるとと
もに、記憶容量を減らせるという作用を有する。
【0009】
【0010】
【0011】
【0012】
【0013】
【0014】
【0015】本発明の請求項に記載の発明は、音声合
成のために入力された漢字仮名混じり文または韻律記号
付き読み仮名を発音表記に変換してモーラ数とアクセン
ト型を決定する手段と、音声合成のための音声素片を蓄
積する手段と、合成すべき音声を作成するための音声素
片を選択する手段と、単音節を連続的に発声した音声か
ら抽出したリズムとピッチとパワーパターンからなる韻
律テンプレートを蓄積する手段と、前記韻律テンプレー
トから合成しようとする音声とモーラ数、アクセント型
が同じ韻律テンプレートを選択する手段と、前記韻律テ
ンプレートの平均的話速を合成しようとする音声の話速
と合うように調整する調整手段と、前記調整した音声素
片をピッチ、パワーについても韻律テンプレートに合わ
せて修正する修正手段と、前記修正した音声素片を接続
する手段とを備えた音声合成装置において、前記韻律テ
ンプレートを蓄積する手段が、前記韻律テンプレートと
して、語頭2モーラと、アクセント核がある場合にはア
クセント核を含むモーラおよびそれに続く1モーラと、
語尾の2モーラ分だけを格納し、前記修正手段が、前記
以外のモーラの部分の韻律を補間により生成することを
特徴とするものであり、きわめて自然性の高い合成音声
を作成することができるとともに、記憶容量を減らせる
という作用を有する。
【0016】
【0017】
【0018】
【0019】
【0020】
【0021】
【0022】以下、本発明の実施の形態を図面を参照し
て説明する。 (実施の形態1)図1は本発明の実施の形態における韻
律テンプレート抽出のための音声波形を示している。例
えば、単語「緑ヶ丘」を想起しながら「ヤヤヤヤヤヤ」
と、第4音節にアクセント核を置きながら発声したもの
であり、(a)はリズムテンプレート、(b)はピッチ
テンプレート、(c)はパワーテンプレートを示してい
る。31から35は音節受聴タイミング点間隔である。
この波形から6モーラでアクセント核が第4音節にある
単語(6モーラ4型という)の単語の韻律テンプレート
が得られる。このような韻律テンプレートを多数作成し
て予めメモリに記憶しておく。一方、音声合成に必要な
音声素片も別のメモリに記憶しておく。
【0023】図2は本発明の実施の形態1における音声
合成処理フローを示している。まず、音声合成のために
入力された漢字仮名混じり文または韻律情報付き読み仮
名から単語毎の発音表記が作成され、同時にモーラ数と
アクセント型が決定される(ステップ42)。すなわ
ち、単語のモーラ数とアクセント型から韻律テンプレー
トが決定される。そして、合成しようとする音声の素片
をメモリから選択するとともに(ステップ43)、合成
しようとする音声とモーラ数、アクセント型が同じ韻律
テンプレートをメモリから選択し(ステップ44)、選
択された韻律テンプレートの音声の母音長に合うように
音声素片の母音長のピッチ波形を間引いたり、繰り返し
たりして長さを調整したうえで(ステップ45)、母音
区間のピッチ波形毎に韻律テンプレートのピッチ波形の
振幅最大値が音声素片の振幅最大値に一致するように振
幅修正を行う(ステップ46)。また、隣接するピッチ
波形との間隔も、韻律テンプレートのものに一致するよ
うに間隔を決定して重畳加算する。有声子音部分につい
ては、ピッチ波形間隔は韻律テンプレートのものを用い
るが、振幅は素片の振幅をそのまま使用する。無声子音
については、音声素片のものをそのまま使って変形はし
ない。このように変形された音声素片同士を1〜数ピッ
チの範囲で傾斜加算してつなぎあわせることにより(ス
テップ47)、合成音声が作成される。
【0024】なお、ピッチ波形の振幅調整は、最大値に
注目しなくても、平均パワーが一致するようにしても良
い。このようにすると、見かけの波形振幅は一致しない
が、音量的にはむしろ韻律テンプレートに近いものがで
きることが多い。
【0025】(実施の形態2)次に、本発明の実施の形
態2について図3の音声合成処理フローを参照しながら
説明する。まず、音声合成のために入力された漢字仮名
混じり文または韻律情報付き読み仮名から単語毎の発音
表記が作成され、同時にモーラ数とアクセント型が決定
される(ステップ52)。すなわち、単語のモーラ数と
アクセント型から韻律テンプレートが決定される。そし
て、合成しようとする音声の素片をメモリから選択する
とともに(ステップ53)、合成しようとする音声とモ
ーラ数、アクセント型が同じ韻律テンプレートをメモリ
から選択し(ステップ54)、選択された韻律テンプレ
ートの音声の各母音のパワー重心間隔長に合うように音
声素片の母音のピッチ波形を間引いたり、繰り返したり
して母音重心間隔長を調整したうえで(ステップ5
5)、母音区間のピッチ波形毎に韻律テンプレートのピ
ッチ波形の振幅最大値が音声素片の振幅最大値に一致す
るように振幅修正を行う(ステップ56、57)。この
繰り返しまたは間引き調整は、各母音毎に母音の先頭
側、終端側で交互に1ピッチ毎に行う。また、隣接する
ピッチ波形との間隔も、韻律テンプレートのものに一致
するように間隔を決定して重畳加算する。有声子音部分
については、ピッチ波形間隔は韻律テンプレートのもの
を用いるが、振幅は素片の振幅をそのまま使用する。無
声子音については、素片のものをそのまま使って変形は
しない。このように変形された音声素片同士を1〜数ピ
ッチの範囲で傾斜加算してつなぎあわせることにより
(ステップ58)、合成音声が作成される。
【0026】(実施の形態3)次に、本発明の実施の形
態3について図4の音声合成処理フローを参照しながら
説明する。まず、音声合成のために入力された漢字仮名
混じり文または韻律情報付き読み仮名から単語毎の発音
表記が作成され、同時にモーラ数とアクセント型が決定
される(ステップ62)。すなわち、単語のモーラ数と
アクセント型から韻律テンプレートが決定される。そし
て、合成しようとする音声の素片をメモリから選択する
とともに(ステップ63)、合成しようとする音声とモ
ーラ数、アクセント型が同じ韻律テンプレートをメモリ
から選択し(ステップ64)、選択された韻律テンプレ
ートの音声の音節受聴タイミング点間隔に合うように音
声素片の母音のピッチ波形を間引いたり、繰り返したり
して音節受聴タイミング点間隔長を調整したうえで(ス
テップ65)、母音区間のピッチ波形毎に韻律テンプレ
ートのピッチ波形の振幅最大値が音声素片の振幅最大値
に一致するように振幅修正を行う(ステップ66、6
7)。図5は音節受聴タイミング点の一覧を示してい
る。このピッチ波形の繰り返しまたは間引き調整は、各
母音毎に母音の先頭側、終端側で交互に1ピッチ毎に行
う。また、隣接するピッチ波形との間隔も、韻律テンプ
レートのものに一致するように間隔を決定して重畳加算
する。有声子音部分については、ピッチ波形間隔は韻律
テンプレートのものを用いるが、振幅は素片の振幅をそ
のまま使用する。無声子音については、素片のものをそ
のまま使って変形はしない。このように変形された音声
素片同士を1〜数ピッチの範囲で傾斜加算してつなぎあ
わせることにより(ステップ68)、合成音声が作成さ
れる。
【0027】(実施の形態4)次に、本発明の実施の形
態4について図6の音声合成処理フローを参照しながら
説明する。まず、音声合成のために入力された漢字仮名
混じり文または韻律情報付き読み仮名から単語毎の発音
表記が作成され、同時にモーラ数とアクセント型が決定
される(ステップ82)。すなわち、単語のモーラ数と
アクセント型から韻律テンプレートが決定される。そし
て、合成しようとする音声の素片をメモリから選択する
とともに(ステップ83)、合成しようとする音声とモ
ーラ数、アクセント型が同じ韻律テンプレートをメモリ
から選択し(ステップ84)、選択された韻律テンプレ
ートの音声の音節受聴タイミング点間隔に合うように音
声素片の母音のピッチ波形を間引いたり、繰り返したり
して音節受聴タイミング点間隔長を調整したうえで(ス
テップ85)、母音区間のピッチ波形毎に韻律テンプレ
ートのピッチ波形の振幅最大値が音声素片の振幅最大値
に一致するように振幅修正を行う(ステップ86)。こ
のピッチ波形の繰り返しまたは間引き調整は、各母音毎
に母音の先頭側、終端側で交互に1ピッチ毎に行う。ま
た、隣接するピッチ波形との間隔も、韻律テンプレート
のものに一致するように間隔を決定して重畳加算する。
有声子音部分については、ピッチ波形間隔は韻律テンプ
レートのものを用いるが、振幅は素片の振幅をそのまま
使用する。無声子音については、素片のものをそのまま
使って変形はしない。
【0028】但し、以上の操作は語頭の2モーラ、アク
セント核がある場合には、アクセント核を含むモーラと
その次のモーラ、語尾の2モーラにのみ適用し、それ以
外の区間では、素片のピッチ間隔は、変形された語頭部
分とアクセント核(もしあれば)部分、および語尾部分
の間の線形補間によって計算する。ピッチのパワーは素
片のものをそのまま用いる。合成音声の音節受聴タイミ
ング点位置も、語頭2モーラの音節受聴タイミング点間
隔と、アクセント核(もしあれば)とその次のモーラの
音節受聴タイミング点間隔を元に補間計算によって求め
る。このように変形された音声素片同士を1〜数ピッチ
の範囲で傾斜加算してつなぎあわせることにより(ステ
ップ87)、合成音声が作成される。
【0029】(実施の形態5)次に、本発明の実施の形
態5について図7の音声合成処理フローを参照しながら
説明する。まず、音声合成のために入力された漢字仮名
混じり文または韻律情報付き読み仮名から単語毎の発音
表記が作成され、同時にモーラ数とアクセント型が決定
される(ステップ92)。すなわち、単語のモーラ数と
アクセント型から韻律テンプレートが決定される。そし
て、合成しようとする音声の素片をメモリから選択する
とともに(ステップ93)、合成しようとする音声とモ
ーラ数、アクセント型が同じ韻律テンプレートをメモリ
から選択し(ステップ94)、選択された韻律テンプレ
ートの音声の音節受聴タイミング点間隔に合うように音
声素片の母音のピッチ波形を間引いたり、繰り返したり
して音節受聴タイミング点間隔長を調整したうえで(ス
テップ95)、母音区間を3乃至4区間に分割する(ス
テップ96)。韻律テンプレートも同様に母音区間を分
割し、その各区間の中の平均的なピッチ波形振幅とピッ
チ波形間隔を求めておく。そして、合成音声の対応する
区間毎にピッチ波形の振幅を韻律テンプレートのピッチ
波形の平均振幅に合わせるように振幅修正を行う(ステ
ップ97)。また、隣接するピッチ波形との間隔も、韻
律テンプレートの対応する区間の平均的なものに一致す
るように間隔を決定して重畳加算する。有声子音部分に
ついては、ピッチ波形間隔は韻律テンプレートのものを
用いるが、振幅は素片の振幅をそのまま使用する。無声
子音については、素片のものをそのまま使って変形はし
ない。このように変形された音声素片同士を1〜数ピッ
チの範囲で傾斜加算してつなぎあわせることにより(ス
テップ98)、合成音声が作成される。
【0030】(実施の形態6)次に、本発明の実施の形
態6における音声合成装置について、図8のブロック図
を参照して説明する。図8において、101は入力文字
列を発音表記に変換する手段、102は韻律テンプレー
ト選択手段、103は韻律テンプレートメモリ、104
は音声素片選択手段、105は音声素片メモリ、106
は母音長調整手段、107は音声素片のピッチ、パワー
修正手段、108は音声素片接続手段である。
【0031】次に、本実施の形態の動作について説明す
る。まず、入力文字列を発音表記に変換する手段101
により、音声合成のために入力された漢字仮名混じり文
または韻律記号付き読み仮名を発音表記に変換してモー
ラ数とアクセント型を決定する。次に、韻律テンプレー
ト選択手段102は、韻律テンプレートメモリ103か
ら合成しようとする音声とモーラ数、アクセント型が同
じ韻律テンプレートを選択する。韻律テンプレートメモ
リ103には、予め単語や文節や文を想起しつつ単音節
「ヤ」または「ミ」を連続的に発声した音声から抽出し
たリズムとピッチとパワーパターンからなる韻律テンプ
レートが蓄積されている。一方、音声素片選択手段10
4は、音声合成すべき音声を作成するための音声素片を
音声素片メモリ105から選択する。母音長調整手段1
06は、選択された韻律テンプレートの音声の母音長に
合うように音声素片の母音長のピッチ波形を間引いた
り、繰り返したりして長さを調整する。音声素片のピッ
チ、パワー修正手段107は、母音区間のピッチ波形毎
に韻律テンプレートのピッチ波形の振幅最大値が音声素
片の振幅最大値に一致するように振幅修正を行う。ま
た、隣接するピッチ波形との間隔も、韻律テンプレート
のものに一致するように間隔を決定して重畳加算する
る。有声子音部分については、ピッチ波形間隔は韻律テ
ンプレートのものを用いるが、振幅は素片の振幅をその
まま使用する。無声子音については、音声素片のものを
そのまま使って変形はしない。このように変形された音
声素片同士を、音声素片接続手段108が、1〜数ピッ
チの範囲で傾斜加算してつなぎあわせることにより、合
成音声が作成される。
【0032】なお、音声素片変形部におけるピッチ波形
の振幅調整は、最大値に注目しなくても、平均パワーが
一致するようにしても良い。このようにすると、見かけ
の波形振幅は一致しないが、音量的にはむしろ韻律テン
プレートに近いものができることが多い。
【0033】(実施の形態7)次に、本発明の実施の形
態7における音声合成装置について、図9のブロック図
を参照して説明する。図9において、111は入力文字
列を発音表記に変換する手段、112は韻律テンプレー
ト選択手段、113は韻律テンプレートメモリ、114
は音声素片選択手段、115は音声素片メモリ、116
は母音重心間隔調整手段、117は音声素片のピッチ、
パワー修正手段、118は音声素片接続手段である。
【0034】次に、本実施の形態の動作について説明す
る。まず、入力文字列を発音表記に変換する手段111
により、音声合成のために入力された漢字仮名混じり文
または韻律記号付き読み仮名を発音表記に変換してモー
ラ数とアクセント型を決定する。次に、韻律テンプレー
ト選択手段112は、韻律テンプレートメモリ113か
ら合成しようとする音声とモーラ数、アクセント型が同
じ韻律テンプレートを選択する。韻律テンプレートメモ
リ113には、予め単語や文節や文を想起しつつ単音節
「ヤ」または「ミ」を連続的に発声した音声から抽出し
たリズムとピッチとパワーパターンからなる韻律テンプ
レートが蓄積されている。一方、音声素片選択手段11
4は、音声合成すべき音声を作成するための音声素片を
音声素片メモリ115から選択する。母音重心間隔調整
手段116は、選択された韻律テンプレートの音声の各
母音のパワー重心間隔長に合うように音声素片の母音の
ピッチ波形を間引いたり、繰り返したりして母音重心間
隔長を調整する。音声素片のピッチ、パワー修正手段1
17は、母音区間のピッチ波形毎に韻律テンプレートの
ピッチ波形の振幅最大値が音声素片の振幅最大値に一致
するように振幅修正を行う。この繰り返しまたは間引き
調整は、各母音毎に母音の先頭側、終端側で交互に1ピ
ッチ毎に行う。また、隣接するピッチ波形との間隔も、
韻律テンプレートのものに一致するように間隔を決定し
て重畳加算する。有声子音部分については、ピッチ波形
間隔は韻律テンプレートのものを用いるが、振幅は素片
の振幅をそのまま使用する。無声子音については、素片
のものをそのまま使って変形はしない。このように変形
された音声素片同士を、音声素片接続手段118が、1
〜数ピッチの範囲で傾斜加算してつなぎあわせることに
より、合成音声が作成される。
【0035】(実施の形態8)次に、本発明の実施の形
態8における音声合成装置について、図10のブロック
図を参照して説明する。図10において、121は入力
文字列を発音表記に変換する手段、122は韻律テンプ
レート選択手段、123は韻律テンプレートメモリ、1
24は音声素片選択手段、125は音声素片メモリ、1
26は音節受聴タイミング点間隔調整手段、127は音
声素片のピッチ、パワー修正手段、128は音声素片接
続手段である。
【0036】次に、本実施の形態の動作について説明す
る。まず、入力文字列を発音表記に変換する手段121
により、音声合成のために入力された漢字仮名混じり文
または韻律記号付き読み仮名を発音表記に変換してモー
ラ数とアクセント型を決定する。次に、韻律テンプレー
ト選択手段122は、韻律テンプレートメモリ123か
ら合成しようとする音声とモーラ数、アクセント型が同
じ韻律テンプレートを選択する。韻律テンプレートメモ
リ123には、予め単語や文節や文を想起しつつ単音節
「ヤ」または「ミ」を連続的に発声した音声から抽出し
たリズムとピッチとパワーパターンからなる韻律テンプ
レートが蓄積されている。一方、音声素片選択手段11
4は、音声合成すべき音声を作成するための音声素片を
音声素片メモリ115から選択する。音節受聴タイミン
グ点間隔調整手段126は、選択された韻律テンプレー
トの音声の音節受聴タイミング点間隔に合うように声素
片の母音長のピッチ波形を間引いたり、繰り返したりし
て音節受聴タイミング点間隔長を調整する。音声素片の
ピッチ、パワー修正手段127は、母音区間のピッチ波
形毎に韻律テンプレートのピッチ波形の振幅最大値が音
声素片の振幅最大値に一致するように振幅修正を行う。
また、隣接するピッチ波形との間隔も、韻律テンプレー
トのものに一致するように間隔を決定して重畳加算す
る。有声子音部分については、ピッチ波形間隔は韻律テ
ンプレートのものを用いるが、振幅は素片の振幅をその
まま使用する。無声子音については、素片のものをその
まま使って変形はしない。このように変形された音声素
片同士を、音声素片接続手段128が、1〜数ピッチの
範囲で傾斜加算してつなぎあわせことにより、合成音声
が出力される。
【0037】(実施の形態9)次に、本発明の実施の形
態9における音声合成装置について、図11のブロック
図を参照して説明する。図11において、131は入力
文字列を発音表記に変換する手段、132は韻律テンプ
レート選択手段、133は韻律テンプレートメモリ、1
34は音声素片選択手段、135は音声素片メモリ、1
36は音節受聴タイミング点間隔調整手段、137は音
声素片のピッチ、パワー修正手段、138は音声素片接
続手段である。
【0038】次に、本実施の形態の動作について説明す
る。まず、入力文字列を発音表記に変換する手段131
により、音声合成のために入力された漢字仮名混じり文
または韻律記号付き読み仮名を発音表記に変換してモー
ラ数とアクセント型を決定する。次に、韻律テンプレー
ト選択手段132は、韻律テンプレートメモリ133か
ら合成しようとする音声とモーラ数、アクセント型が同
じ韻律テンプレートを選択する。韻律テンプレートメモ
リ133には、予め単語や文節や文を想起しつつ単音節
「ヤ」または「ミ」を連続的に発声した音声から抽出し
たリズムとピッチとパワーパターンからなる韻律テンプ
レートから、格納すべき韻律テンプレートとして語頭2
モーラ、およびアクセント核がある場合には、アクセン
ト核を含むモーラとそれに続く1モーラ、および語尾の
2モーラ分だけが蓄積されている。一方、音声素片選択
手段134は、音声合成すべき音声を作成するための音
声素片を音声素片メモリ135から選択する。音節受聴
タイミング点間隔調整手段136は、選択された韻律テ
ンプレートの音声の音節受聴タイミング点間隔に合うよ
うに声素片の母音長のピッチ波形を間引いたり、繰り返
したりして音節受聴タイミング点間隔長を調整する。音
声素片のピッチ、パワー修正手段137は、母音区間の
ピッチ波形毎に韻律テンプレートのピッチ波形の振幅最
大値が音声素片の振幅最大値に一致するように振幅修正
を行う。このピッチ波形の繰り返しまたは間引き調整
は、各母音毎に母音の先頭側、終端側で交互に1ピッチ
毎に行う。また、隣接するピッチ波形との間隔も、韻律
テンプレートのものに一致するように間隔を決定して重
畳加算する。有声子音部分については、ピッチ波形間隔
は韻律テンプレートのものを用いるが、振幅は素片の振
幅をそのまま使用する。無声子音については、素片のも
のをそのまま使って変形はしない。
【0039】但し、以上の操作は、音声素片のピッチ、
パワー修正手段137において、語頭の2モーラ、アク
セント核がある場合には、アクセント核を含むモーラと
その次のモーラ、語尾の2モーラにのみ適用され、それ
以外の区間では、素片のピッチ間隔は、変形された語頭
部分とアクセント核(もしあれば)部分、および語尾部
分の間の線形補間によって計算する。ピッチのパワーは
素片のものをそのまま用いる。合成音声の音節受聴タイ
ミング点位置も、語頭2モーラの音節受聴タイミング点
間隔と、アクセント核(もしあれば)とその次のモーラ
の音節受聴タイミング点間隔を元に補間計算によって求
める。このように変形された音声素片同士を、音声素片
接続手段138が、1〜数ピッチの範囲で傾斜加算して
つなぎあわせことにより、合成音声が出力される。
【0040】(実施の形態10)次に、本発明の実施の
形態10における音声合成装置について、図12のブロ
ック図を参照して説明する。図12において、141は
入力文字列を発音表記に変換する手段、142は韻律テ
ンプレート選択手段、143は韻律テンプレートメモ
リ、144は音声素片選択手段、145は音声素片メモ
リ、146は音節受聴タイミング点間隔調整手段、14
7は音声素片の分割区間のピッチ、パワー修正手段、1
48は音声素片接続手段である。
【0041】次に、本実施の形態の動作について説明す
る。まず、入力文字列を発音表記に変換する手段141
により、音声合成のために入力された漢字仮名混じり文
または韻律記号付き読み仮名を発音表記に変換してモー
ラ数とアクセント型を決定する。次に、韻律テンプレー
ト選択手段142は、韻律テンプレートメモリ143か
ら合成しようとする音声とモーラ数、アクセント型が同
じ韻律テンプレートを選択する。韻律テンプレートメモ
リ143には、予め単語や文節や文を想起しつつ単音節
「ヤ」または「ミ」を連続的に発声した音声から抽出し
たリズムとピッチとパワーパターンからなる韻律テンプ
レートが蓄積されている。一方、音声素片選択手段14
4は、音声合成すべき音声を作成するための音声素片を
音声素片メモリ145から選択する。音節受聴タイミン
グ点間隔調整手段146は、選択された韻律テンプレー
トの音声の音節受聴タイミング点間隔に合うように音声
素片の母音のピッチ波形を間引いたり、繰り返したりし
て音節受聴タイミング点間隔長を調整したうえで、母音
区間を3乃至4区間に分割する。韻律テンプレートも同
様に母音区間を分割し、その各区間の中の平均的なピッ
チ波形振幅とピッチ波形間隔を求めておく。音声素片の
分割区間のピッチ、パワー修正手段147は、合成音声
の対応する区間毎にピッチ波形の振幅を韻律テンプレー
トのピッチ波形の平均振幅に合わせるように振幅修正を
行う。また、隣接するピッチ波形との間隔も、韻律テン
プレートの対応する区間の平均的なものに一致するよう
に間隔を決定して重畳加算する。有声子音部分について
は、ピッチ波形間隔は韻律テンプレートのものを用いる
が、振幅は素片の振幅をそのまま使用する。無声子音に
ついては、素片のものをそのまま使って変形はしない。
このように変形された音声素片同士を、音声素片接続手
段148が、1〜数ピッチの範囲で傾斜加算してつなぎ
あわせることにより、合成音声が出力される。
【0042】
【発明の効果】以上のように本発明によれば、単音節を
連続的に発声した音声から韻律成分を抽出して事前に格
納しておき、合成しようとする音声とモーラ数、アクセ
ント型が同じ韻律テンプレートを選択して、この韻律テ
ンプレートのリズムパターン、ピッチ周波数パターン、
パワーパターンに合わせて合成音声を作成するように
、テンプレートの適用範囲を、語頭2モーラと、アク
セント核がある場合にはアクセント核を含むモーラおよ
びそれに続く1モーラと、語尾の2モーラとし、それ以
外の部分は補間により韻律を制御するようにしたもので
あり、従来より自然性の高い合成音声を実現すること
ができるとともに、記憶容量を減らせるという効果を有
する
【図面の簡単な説明】
【図1】本発明の韻律テンプレート抽出のための音声波
形図
【図2】本発明の実施の形態1における音声合成処理フ
ロー図
【図3】本発明の実施の形態2における音声合成処理フ
ロー図
【図4】本発明の実施の形態3における音声合成処理フ
ロー図
【図5】本発明の実施の形態4における音声合成処理フ
ロー図
【図6】本発明の音節受聴タイミング点の一覧図
【図7】本発明の実施の形態5における音声合成処理フ
ロー図
【図8】本発明の実施の形態6における音声合成装置の
ブロック図
【図9】本発明の実施の形態7における音声合成装置の
ブロック図
【図10】本発明の実施の形態8における音声合成装置
のブロック図
【図11】本発明の実施の形態9における音声合成装置
のブロック図
【図12】本発明の実施の形態10における音声合成装
置のブロック図
【図13】従来の音声合成方法のリズム制御の概念図
【図14】従来の音声合成装置のブロック図
【符号の説明】
101、111、121、131、141 入力文字列
を発音表記に変換する手段 102、112、122、132、142 韻律テンプ
レート選択手段 103、113、123、133、143 韻律テンプ
レートメモリ 104、114、124、134、144 音声素片選
択手段 105、115、125、135、145 音声素片メ
モリ 106 母音長調整手段 116 母音重心間隔調整手段 126、136、146 音節受聴タイミング点間隔調
整手段 107、117、127、137 音声素片のピッチ、
パワー修正手段 147 音声素片の分割区間のピッチ、パワー修正手段 108、118、128、138、148 音声素片接
続手段
フロントページの続き (56)参考文献 西村洋文、望月亮、蓑輪利光、釜井孝 浩,素片韻律と韻律テンプレートを利用 した音声合成システム,日本音響学会講 演論文集,日本,日本音響学会,1998年 9月,平成10年秋季,291−292 蓑輪利光、西村洋文、望月亮、新居康 彦,単語合成音声のリズム制御に関する 一考察,日本音響学会講演論文集,日 本,日本音響学会,1998年 3月,平成 10年春季,303−304 蓑輪利光、新居康彦、西村洋文,単一 音節連鎖発声を基とする単語音声合成用 韻律制御の検討,日本音響学会講演論文 集,日本,日本音響学会,1997年 9 月,平成9年秋季,239−240 (58)調査した分野(Int.Cl.7,DB名) G10L 13/08

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 単音節を連続的に発声した音声からリズ
    ムとピッチとパワーから成る韻律成分を抽出して事前に
    蓄積しておき、これらのうちから合成しようとする音声
    とモーラ数、アクセント型が同じテンプレートを選択
    し、このテンプレートの音節の母音の時間長に合成しよ
    うとする音声の母音時間長を合あわせるように調整した
    うえで、ピッチ、パワーについても、韻律テンプレート
    に合わせて合成音声素片の変形、接続を行うようにし
    前記テンプレートの適用範囲を、語頭2モーラと、アク
    セント核がある場合にはアクセント核を含むモーラおよ
    びそれに続く1モーラと、語尾の2モーラとし、それ以
    外の部分は補間により韻律を制御するようにした音声合
    成方法。
  2. 【請求項2】 音声合成のために入力された漢字仮名混
    じり文または韻律記号付き読み仮名を発音表記に変換し
    てモーラ数とアクセント型を決定する手段と、音声合成
    のための音声素片を蓄積する手段と、合成すべき音声を
    作成するための音声素片を選択する手段と、単音節を連
    続的に発声した音声から抽出したリズムとピッチとパワ
    ーパターンからなる韻律テンプレートを蓄積する手段
    と、前記韻律テンプレートから合成しようとする音声と
    モーラ数、アクセント型が同じ韻律テンプレートを選択
    する手段と、前記韻律テンプレートの平均的話速を合成
    しようとする音声の話速と合うように調整する調整手段
    と、前記調整した音声素片をピッチ、パワーについても
    韻律テンプレートに合わせて修正する修正手段と、前記
    修正した音声素片を接続する手段とを備えた音声合成装
    置において、前記韻律テンプレートを蓄積する手段が、
    前記韻律テンプレートとして、語頭2モーラと、アクセ
    ント核がある場合にはアクセント核を含むモーラおよび
    それに続く1モーラと、語尾の2モーラ分だけを格納
    し、前記修正手段が、前記以外のモーラの部分の韻律を
    補間により生成することを特徴とする音声合成装置。
JP33901998A 1998-11-30 1998-11-30 音声合成方法および装置 Expired - Fee Related JP3361066B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP33901998A JP3361066B2 (ja) 1998-11-30 1998-11-30 音声合成方法および装置
US09/404,264 US6438522B1 (en) 1998-11-30 1999-09-22 Method and apparatus for speech synthesis whereby waveform segments expressing respective syllables of a speech item are modified in accordance with rhythm, pitch and speech power patterns expressed by a prosodic template
EP99308496A EP1014337A3 (en) 1998-11-30 1999-10-27 Method and apparatus for speech synthesis whereby waveform segments represent speech syllables

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP33901998A JP3361066B2 (ja) 1998-11-30 1998-11-30 音声合成方法および装置

Publications (2)

Publication Number Publication Date
JP2000163088A JP2000163088A (ja) 2000-06-16
JP3361066B2 true JP3361066B2 (ja) 2003-01-07

Family

ID=18323516

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33901998A Expired - Fee Related JP3361066B2 (ja) 1998-11-30 1998-11-30 音声合成方法および装置

Country Status (3)

Country Link
US (1) US6438522B1 (ja)
EP (1) EP1014337A3 (ja)
JP (1) JP3361066B2 (ja)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3450237B2 (ja) * 1999-10-06 2003-09-22 株式会社アルカディア 音声合成装置および方法
JP2001117576A (ja) * 1999-10-15 2001-04-27 Pioneer Electronic Corp 音声合成方法
JP3728172B2 (ja) * 2000-03-31 2005-12-21 キヤノン株式会社 音声合成方法および装置
US7117215B1 (en) 2001-06-07 2006-10-03 Informatica Corporation Method and apparatus for transporting data for data warehousing applications that incorporates analytic data interface
US6990449B2 (en) * 2000-10-19 2006-01-24 Qwest Communications International Inc. Method of training a digital voice library to associate syllable speech items with literal text syllables
US7451087B2 (en) * 2000-10-19 2008-11-11 Qwest Communications International Inc. System and method for converting text-to-voice
US6990450B2 (en) * 2000-10-19 2006-01-24 Qwest Communications International Inc. System and method for converting text-to-voice
US6871178B2 (en) * 2000-10-19 2005-03-22 Qwest Communications International, Inc. System and method for converting text-to-voice
US6845358B2 (en) * 2001-01-05 2005-01-18 Matsushita Electric Industrial Co., Ltd. Prosody template matching for text-to-speech systems
US20030093280A1 (en) * 2001-07-13 2003-05-15 Pierre-Yves Oudeyer Method and apparatus for synthesising an emotion conveyed on a sound
US7720842B2 (en) 2001-07-16 2010-05-18 Informatica Corporation Value-chained queries in analytic applications
US6907367B2 (en) * 2001-08-31 2005-06-14 The United States Of America As Represented By The Secretary Of The Navy Time-series segmentation
US20030101045A1 (en) * 2001-11-29 2003-05-29 Peter Moffatt Method and apparatus for playing recordings of spoken alphanumeric characters
US7186051B2 (en) * 2003-05-09 2007-03-06 Newfrey Llc Metal/plastic insert molded sill plate fastener
JP2007504495A (ja) * 2003-08-26 2007-03-01 クリアプレイ,インク. 音響信号の演奏を制御する方法と装置
CN100498932C (zh) * 2003-09-08 2009-06-10 中国科学院声学研究所 通用的汉语两级混合模板口语对话语言生成方法
JP4080989B2 (ja) * 2003-11-28 2008-04-23 株式会社東芝 音声合成方法、音声合成装置および音声合成プログラム
US7254590B2 (en) * 2003-12-03 2007-08-07 Informatica Corporation Set-oriented real-time data processing based on transaction boundaries
US20050228663A1 (en) * 2004-03-31 2005-10-13 Robert Boman Media production system using time alignment to scripts
JP4551803B2 (ja) * 2005-03-29 2010-09-29 株式会社東芝 音声合成装置及びそのプログラム
US20070055526A1 (en) * 2005-08-25 2007-03-08 International Business Machines Corporation Method, apparatus and computer program product providing prosodic-categorical enhancement to phrase-spliced text-to-speech synthesis
US20070067174A1 (en) * 2005-09-22 2007-03-22 International Business Machines Corporation Visual comparison of speech utterance waveforms in which syllables are indicated
US20070219799A1 (en) * 2005-12-30 2007-09-20 Inci Ozkaragoz Text to speech synthesis system using syllables as concatenative units
US20080288527A1 (en) * 2007-05-16 2008-11-20 Yahoo! Inc. User interface for graphically representing groups of data
JP2009042509A (ja) * 2007-08-09 2009-02-26 Toshiba Corp アクセント情報抽出装置及びその方法
US8965768B2 (en) 2010-08-06 2015-02-24 At&T Intellectual Property I, L.P. System and method for automatic detection of abnormal stress patterns in unit selection synthesis
KR101246287B1 (ko) * 2011-03-28 2013-03-21 (주)클루소프트 음가의 강세를 이용한 발음기관 애니메이션 생성 장치 및 방법
JP6048726B2 (ja) 2012-08-16 2016-12-21 トヨタ自動車株式会社 リチウム二次電池およびその製造方法
JP5726822B2 (ja) * 2012-08-16 2015-06-03 株式会社東芝 音声合成装置、方法及びプログラム
CN104575519B (zh) * 2013-10-17 2018-12-25 清华大学 特征提取方法、装置及重音检测的方法、装置
US10008216B2 (en) * 2014-04-15 2018-06-26 Speech Morphing Systems, Inc. Method and apparatus for exemplary morphing computer system background
JP6524674B2 (ja) * 2015-01-22 2019-06-05 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
US9905267B1 (en) * 2016-07-13 2018-02-27 Gracenote, Inc. Computing system with DVE template selection and video content item generation feature
CN111091807B (zh) * 2019-12-26 2023-05-26 广州酷狗计算机科技有限公司 语音合成方法、装置、计算机设备及存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE1743131U (de) 1957-03-05 1957-04-11 Kabel Vogel & Schemmann Ag Wurfschaufel fuer putz- und entzunderungsanlagen.
JPS55111995A (en) 1979-02-20 1980-08-29 Sharp Kk Method and device for voice synthesis
JP3278486B2 (ja) 1993-03-22 2002-04-30 セコム株式会社 日本語音声合成システム
JP3450411B2 (ja) 1994-03-22 2003-09-22 キヤノン株式会社 音声情報処理方法及び装置
JP3085631B2 (ja) 1994-10-19 2000-09-11 日本アイ・ビー・エム株式会社 音声合成方法及びシステム
JPH1039895A (ja) 1996-07-25 1998-02-13 Matsushita Electric Ind Co Ltd 音声合成方法および装置
JP3242331B2 (ja) 1996-09-20 2001-12-25 松下電器産業株式会社 Vcv波形接続音声のピッチ変換方法及び音声合成装置
US5905972A (en) * 1996-09-30 1999-05-18 Microsoft Corporation Prosodic databases holding fundamental frequency templates for use in speech synthesis
US6163769A (en) * 1997-10-02 2000-12-19 Microsoft Corporation Text-to-speech using clustered context-dependent phoneme-based units
US6260016B1 (en) * 1998-11-25 2001-07-10 Matsushita Electric Industrial Co., Ltd. Speech synthesis employing prosody templates
US6185533B1 (en) * 1999-03-15 2001-02-06 Matsushita Electric Industrial Co., Ltd. Generation and synthesis of prosody templates

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
蓑輪利光、新居康彦、西村洋文,単一音節連鎖発声を基とする単語音声合成用韻律制御の検討,日本音響学会講演論文集,日本,日本音響学会,1997年 9月,平成9年秋季,239−240
蓑輪利光、西村洋文、望月亮、新居康彦,単語合成音声のリズム制御に関する一考察,日本音響学会講演論文集,日本,日本音響学会,1998年 3月,平成10年春季,303−304
西村洋文、望月亮、蓑輪利光、釜井孝浩,素片韻律と韻律テンプレートを利用した音声合成システム,日本音響学会講演論文集,日本,日本音響学会,1998年 9月,平成10年秋季,291−292

Also Published As

Publication number Publication date
EP1014337A3 (en) 2001-04-25
US6438522B1 (en) 2002-08-20
JP2000163088A (ja) 2000-06-16
EP1014337A2 (en) 2000-06-28
EP1014337A4 (ja) 2001-03-09

Similar Documents

Publication Publication Date Title
JP3361066B2 (ja) 音声合成方法および装置
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
US6470316B1 (en) Speech synthesis apparatus having prosody generator with user-set speech-rate- or adjusted phoneme-duration-dependent selective vowel devoicing
US7249021B2 (en) Simultaneous plural-voice text-to-speech synthesizer
JPH0887296A (ja) 音声合成装置
JP3681111B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JPH06318094A (ja) 音声規則合成装置
JP3308875B2 (ja) 音声合成方法および装置
JP3771565B2 (ja) 基本周波数パタン生成装置、基本周波数パタン生成方法、及びプログラム記録媒体
JP3081300B2 (ja) 残差駆動型音声合成装置
JP3113101B2 (ja) 音声合成装置
JPH037995A (ja) 歌音声合成データの作成装置
JP3318290B2 (ja) 音声合成方法および装置
JP3515268B2 (ja) 音声合成装置
JP3313310B2 (ja) 音声合成装置及び合成方法
JP6159436B2 (ja) 読み記号列編集装置および読み記号列編集方法
JP2995814B2 (ja) 音声合成方法
JPH1097268A (ja) 音声合成装置
JPS58168096A (ja) 複数言語音声合成装置
JPS60153099A (ja) 規則型音声合成装置
JP2004347994A (ja) 音声合成装置、音声合成方法およびこの音声合成方法を実行するプログラム
JPS61173300A (ja) 音声合成装置
JPH03203800A (ja) 音声合成方式
JPH08160990A (ja) 音声合成装置
JP2001255883A (ja) 音声合成装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees