JP2002304186A - 音声合成装置、音声合成方法および音声合成プログラム - Google Patents

音声合成装置、音声合成方法および音声合成プログラム

Info

Publication number
JP2002304186A
JP2002304186A JP2001107849A JP2001107849A JP2002304186A JP 2002304186 A JP2002304186 A JP 2002304186A JP 2001107849 A JP2001107849 A JP 2001107849A JP 2001107849 A JP2001107849 A JP 2001107849A JP 2002304186 A JP2002304186 A JP 2002304186A
Authority
JP
Japan
Prior art keywords
accent
conversion
prosody
information
dialect
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001107849A
Other languages
English (en)
Other versions
JP3681111B2 (ja
Inventor
Toshio Akaha
俊夫 赤羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2001107849A priority Critical patent/JP3681111B2/ja
Publication of JP2002304186A publication Critical patent/JP2002304186A/ja
Application granted granted Critical
Publication of JP3681111B2 publication Critical patent/JP3681111B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 標準語を基にした言語辞書からでも、方言ら
しい個性のあるアクセントを生成することができる音声
合成装置を提供する。 【解決手段】 テキストデータから音素列情報と韻律情
報を出力するテキスト処理手段2と、テキスト処理手段
が参照する言語辞書1と、韻律情報を変換規則に基づい
て変換する韻律変換手段4と、音素列情報および変換さ
れた韻律情報から音声波形を合成する規則音声合成手段
3を有する。韻律変換手段4はアクセント変換規則記憶
部401とアクセント変換部402と音素列変換規則記
憶部403と音素列変換部404を有する。アクセント
変換部402はアクセント変換規則記憶部401に記憶
された変換規則に従ってアクセント情報を入力情報と異
なるアクセント型に変換する。音素列変換部404は音
素列変換規則記憶部403に記憶された変換規則に従っ
て音素列情報を入力情報と異なる音素列に変換する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文字列または記号
列からなるテキストデータを入力して音声データに変換
する音声合成装置、音声合成方法および音声合成プログ
ラムに関する。
【0002】
【従来の技術】音声合成技術においては、単に情報を正
確に伝えるだけではなく、ユーザーの好みに応じてカス
タマイズを行ったり、状況に応じて音声を切り替えた
り、またはゲーム等の娯楽において複数の登場人物を会
話させたりするために、複数の個性のある音声を合成す
ることが求められる。
【0003】音声を決定する主な要因としては、声質
(太い、細い、ハスキーである等)、全体的(平均的)
な声の高さ、発声速度、ポーズ(文節間の間(長さ)の
取り方)、アクセント(単語、文節等、短い単位内の音
の高低)、フレーズピッチ成分(文全体の音の高低(フ
レーズ成分の強度)、一般には最初が高く、徐々に下が
る)等が挙げられる。このうち、声質以外の部分を一般
に韻律と呼ぶ。韻律の中でも特に、アクセントは声の個
性に対して、声質と並んで影響が大きい。
【0004】従来の音声を合成する方法(特開平1−3
214964216号公報、特開平9−244677号
公報)では、図7に示すように、テキスト処理手段2が
参照する言語辞書1に文章を解析するための形態素情報
記憶部101、標準的なアクセントを与えるための標準
語アクセント記憶部102のデータの他に、方言アクセ
ント記憶部103を設けて、そこからアクセントデータ
を選択することにより、方言の音声を合成していた。
【0005】
【発明が解決しようとする課題】しかしながら、上述し
た従来の音声合成方法は、実際にアクセント辞書を作成
する困難さや、開発コストのために実現されていない。
その理由を以下に説明する。
【0006】従来の日本語音声合成装置において、単語
毎のアクセントを決定する言語辞書は、一般に、出版さ
れている標準語のアクセント辞書(例えばNHK「日本
語発音アクセント辞典」)を基に作成しているため、標
準語アクセントにより音声を合成する。方言等の標準語
以外のアクセントで正確に発声させるためには、数万単
語に及ぶアクセント辞書を作成する必要がある。
【0007】しかし、方言と行っても実際には細かな地
域や話者により各々異なり、方言を一つに特定して整理
するのは非常に困難である。このため、正確な方言アク
セント辞書を作成するためには、大阪弁のような一つの
地方に限ったとしても、膨大な期間と費用がかかり、実
現は困難である。また、辞書を作成できた場合でも、多
数の単語に方言アクセントを付加するとメモリの増加に
つながり、さらに方言の種類を増やすこともメモリの増
加につながるため、実現は困難である。さらに、コスト
をかけて作成しても、効果を評価しにくいことも実現さ
れない理由の一つと考えられる。
【0008】例えば、「大阪・東京アクセント音声辞
典:杉籐美代子、1995年」において、同じ大阪市出
身の話者でも各単語に対するアクセントが異なること
は、正しい大阪弁というのは存在せず、大阪弁らしさの
ような傾向があるに過ぎないことを示す。このことは、
逆に、ある一部地域の方言アクセントを正確に再現して
も、聞く人によって評価が異なるため、それを正しいと
評価するユーザーは非常に少ないということになり得
る。
【0009】さらに、一部の単語のみについて、方言ア
クセントを調査して辞書に付加しても、その他の単語を
標準語アクセントで発声した場合には、発話の途中で方
言の様式が急激に変化するためにユーザーが混乱し、文
章の意味が理解できない等の障害が生じるおそれがあ
る。
【0010】具体的なアクセント型の形状については後
述するが、一般に、方言のアクセントは従来の標準語ア
クセントにおける0型からn型のアクセント型のみを用
いたのでは再現することができず、標準語には無い新た
なアクセント型を必要とする。一例として先に挙げた
「大阪・東京アクセント辞典」によれば、大阪弁アクセ
ントは、標準語の0型からn型とは異なる、高起の0型
からn型および低起の0型からn型というアクセント型
を用いなければ表現することができない。他方、これら
のアクセント型は関西弁に共通するものであるため、こ
れらのアクセント型を用いれば、アクセント型が特定の
地域の方言と異なっていても、ある程度の関西弁らしさ
が表現できることになる。
【0011】本発明は、このような従来技術の課題を解
決するべくなされたものであり、方言アクセント辞書が
不完全であったり、方言アクセント辞書が無く、標準語
を基にした言語辞書からでも、方言らしい個性のあるア
クセントを生成することができる音声合成装置、音声合
成方法および音声合成プログラムを提供することを目的
とする。
【0012】
【課題を解決するための手段】本発明の音声合成装置
は、入力されたテキストデータを解析して、音素列情報
と韻律情報を出力するテキスト処理手段と、該テキスト
処理手段がテキストデータを解析する際に参照する言語
辞書と、該テキスト処理手段から入力された韻律情報を
変換規則に基づいて異なる韻律情報に変換する韻律変換
手段と、該音素列情報および変換された韻律情報から音
声波形を合成する規則音声合成手段とを有し、そのこと
により上記目的が達成される。
【0013】前記韻律変換手段は、アクセント変換規則
記憶部と、アクセント変換部とを有し、該アクセント変
換部では、入力された方言選択パラメータに基づいて該
アクセント変換規則記憶部に記憶された変換規則を選択
し、選択された変換規則に従って、韻律情報の構成要素
であるアクセント情報を、入力された情報とは異なるア
クセント型に変換するものであってもよい。
【0014】前記韻律変換手段は、さらに、音素列変換
規則記憶部と、音素列変換部とを有し、該音素列変換部
では、入力された規則選択パラメータに基づいて該音素
列変換規則記憶部に記憶された変換規則を選択し、選択
された変換規則に従って、音素列情報を、入力された音
素列とは異なる音素列に変換するものであってもよい。
【0015】前記アクセント変換部は、変換規則に従っ
てアクセント型を変換する際に、入力される全ての文節
に対して、標準語におけるアクセント核の位置を示すア
クセント型から、方言に特徴的な高起アクセント型また
は低起アクセント型への変換を行うものであってもよ
い。
【0016】前記韻律変換手段は、前記アクセント変換
部と前記音素列変換部とをバイパスするバイパススイッ
チを有し、標準語を基本とする前記言語辞書の一部の単
語に、方言の韻律を併せて保持し、方言風の音声を合成
する際に、テキスト処理された単語に目的とする方言の
韻律が存在する場合には、アクセント型と音素列を変換
せずに該言語辞書に保持している方言の韻律を用いて音
声を合成し、目的とする方言の韻律が存在しない場合に
は標準語の韻律からアクセント変換と音素列変換を行っ
て音声を合成するものであってもよい。
【0017】本発明の音声合成方法は、入力されたテキ
ストデータを解析して、音素列情報と韻律情報を出力す
るテキスト処理手段と、該テキスト処理手段がテキスト
データを解析する際に参照する言語辞書と、該テキスト
処理手段から入力された韻律情報を変換規則に基づいて
異なる韻律情報に変換する韻律変換手段と、該音素列情
報および変換された韻律情報から音声波形を合成する規
則音声合成手段とを用いて音声合成を行う方法であっ
て、該韻律変換手段により、入力された方言選択パラメ
ータに基づいてアクセント変換規則を選択し、選択され
たアクセント変換規則に従って、韻律情報の構成要素で
あるアクセント情報を、入力された情報とは異なるアク
セント型に変換する際に、入力される全ての文節に対し
て、標準語におけるアクセント核の位置を示すアクセン
ト型から、方言に特徴的な高起アクセント型または低起
アクセント型への変換を行い、そのことにより上記目的
が達成される。
【0018】標準語を基本とする前記言語辞書の一部の
単語に、方言の韻律を併せて保持し、方言風の音声波形
を合成する際に、テキスト処理された単語に目的とする
方言の韻律が存在する場合には、アクセント型と音素列
を変換せずに該言語辞書に保持している方言の韻律を用
いて音声を合成し、目的とする方言の韻律が存在しない
場合には標準語の韻律からアクセント変換と音素列変換
を行って音声を合成してもよい。
【0019】本発明の音声合成プログラムは、入力され
たテキストデータを解析して、音素列情報と韻律情報を
出力するテキスト処理機能と、該テキストデータを解析
する際に参照する言語辞書と、該テキスト処理機能によ
り得られた韻律情報を変換規則に基づいて異なる韻律情
報に変換する韻律変換機能と、該音素列情報および変換
された韻律情報から音声波形を合成する規則音声合成機
能とを有する音声合成プログラムであって、該韻律変換
機能により、入力された方言選択パラメータに基づいて
アクセント変換規則を選択し、選択されたアクセント変
換規則に従って、韻律情報の構成要素であるアクセント
情報を、入力された情報とは異なるアクセント型に変換
する際に、入力される全ての文節に対して、標準語にお
けるアクセント核の位置を示すアクセント型から、方言
に特徴的な高起アクセント型または低起アクセント型へ
の変換を行い、そのことにより上記目的が達成される。
【0020】標準語を基本とする前記言語辞書の一部の
単語に、方言の韻律を併せて保持し、方言風の音声を合
成する際に、テキスト処理された単語に目的とする方言
の韻律が存在する場合には、アクセント型と音素列を変
換せずに該言語辞書に保持している方言の韻律を用いて
音声を合成し、目的とする方言の韻律が存在しない場合
には標準語の韻律からアクセント変換と音素列変換を行
って音声を合成してもよい。
【0021】以下に、本発明の作用について説明する。
【0022】本発明にあっては、標準語に基づいて解析
されたアクセント型(または音素列)を変換規則に基づ
いて変換することができるため、方言アクセント辞書を
作成する必要がなく、従来開発コストがかかりすぎて実
現が困難であった、異なる方言アクセントによる音声合
成が可能となる。さらに、メモリの増加量もほとんど無
いため、複数の方言など、多様な音声合成を1つの装置
により行うことが可能となる。
【0023】また、アクセント変換部において、変換規
則に従って、標準語の0型からn型までの整数型アクセ
ントから、関西弁に特徴的な高起アクセント型の0型か
らn型または低起アクセント型の0型からn型に変換を
行うことにより、テキスト処理手段が標準語の言語辞書
に基づく韻律情報を出力しても、関西弁風のアクセント
で音声を合成することが可能となる。
【0024】さらに、標準語を基本とする言語辞書の一
部の単語において、方言の韻律(アクセント)が登録さ
れている場合には、それらの単語に関しては辞書に登録
された正確な韻律を用いて音声合成を行い、調査されて
いない単語については変換規則を用いてその地方の方言
風のアクセント(または音素列)に変換する。これによ
り、より自然な方言に近づくことが可能となり、方言ア
クセントと標準語アクセントが混ざることによって音声
の聴取者が混乱するのを避けることができる。
【0025】音声合成を行うアルゴリズムは複雑であ
り、汎用マイクロコンピューターまたはDSPを用いて
ソフトウェアにより実現するのが一般的である。本発明
の音声合成プログラムによれば、パーソナルコンピュー
ター等のマイクロコンピューターを用いたシステムやD
SPを用いたシステムにおいて、方言風の音声合成機能
を追加することが可能である。
【0026】
【発明の実施の形態】以下に、本発明の実施の形態につ
いて、図面を参照しながら説明する。
【0027】(実施形態1)図1は、本発明の一実施形
態である音声合成装置の構成を説明するための図であ
る。この音声合成装置は、言語辞書1と、テキスト処理
手段2と、記録音声合成手段3と、韻律変換手段4を備
えている。
【0028】言語辞書1は、単語毎の形態素情報および
単語毎のアクセント情報を記憶しており、一般に読み出
し専用メモリにより実現される。
【0029】テキスト処理手段2は、入力されたテキス
トデータから言語辞書1を用いて単語を検出して、動詞
や名詞等の形態素から文の構造を決定し、文の構造に基
づいてポーズの長さと、文章全体の抑揚を制御するフレ
ーズ成分の強さを決定する。また、文節に含まれる自立
語のアクセント情報から各文節のアクセント型を決定す
る。そして、文節毎に音素記号列、アクセント型、フレ
ーズ成分の強さ、ポーズの長さおよび声の大きさの情報
等を出力する。一般に、声の大きさは文章内では一定と
される場合が多いが、微視的に見た場合には、音声素片
(基本的にはこれを繋ぎ合わせて音声を合成する)を収
録したときの声の大きさの変化がそのまま出力される。
韻律制御の際には、この声の大きさを文章毎に大きくし
たり小さくしたりすることができる。また、音素毎の時
間長を統計的に調べて、その長さに対してどの程度速く
するか遅くするかということにより発声速度を制御する
ことができる。さらに、文の構造から求められるフレー
ズ成分と単語各々によって決定されるアクセント成分と
の加算によって声の高さを制御することができる。それ
を全たく的に高くしたり低くしたりすることにより声の
高さを調整し、フレーズ成分やアクセント成分の強さを
調整することにより、抑揚の強さを調整することができ
る。調整をどの程度行うかについては、ユーザーが決定
できるようにされることが多い。このテキスト処理手段
2は、一般に、CPUやDSPを用いてソフトウェアに
より実現される。
【0030】規則音声合成手段3は、入力された情報を
基に音声波形を合成する。具体的には、アクセント生成
部302は、アクセント形状記憶部301を参照して、
入力された各文節の音素記号列の各音素に対して音の高
さを設定する。次に、フレーズ生成部304は、フレー
ズ形状記憶部303を参照して、複数の文節にわたる音
素記号列の各音素に対して、抑揚を表す音の高さの形状
を、フレーズ成分の強さで調整して加算する。フレーズ
形状については後述する。次に、波形生成部306で
は、音素毎に波形辞書305を参照して、アクセント生
成部302およびフレーズ生成部304で生成された音
の高さに応じた音声波形を合成する。この規則音声合成
手段3は、一般に、CPUやDSPを用いてソフトウェ
アにより実現される。
【0031】波形生成の方法としては、各種方式を利用
することができるが、ここでは零位相化した単位波形を
合成したい声の周波数の逆数で表される間隔(ピッチ)
で重畳してゆく波形重畳方式を用いることにより、比較
的高品位の音声を合成することが可能である。
【0032】図2に、フレーズ形状の一例を示す。フレ
ーズ形状は、人間が文章を発声するときの文全体の声の
高さの形状をモデル化したものであり、各文節の先頭で
高くなり、文末へ向けて緩やかに下降する形状を有す
る。また、一般に藤崎モデルと称される「へ」の字型の
カーブを用いる場合もある。図2では、対数周波数上で
直線的に下降するフレーズ形状を示している。この例で
は、文節の先頭における声の高さをフレーズ成分の値で
与え、文節の最後で定常の高さになるように下降速度を
調整する。従って、文節が長くなると、下降速度が遅く
なる。
【0033】以上は、通常の音声合成装置と同様の機能
である。本実施形態では、さらに、韻律変換手段4を設
けて、合成される音声の韻律を変更する。韻律とは、一
般に、アクセント、フレーズ成分の強度および平均的な
声の高さや、発声速度、ポーズ長等を指す。例えば、ア
クセント型を変換することにより、方言風の音声合成を
行うことが可能である。また、アクセントの強さ、フレ
ーズの強さ、声の大きさを文末に向けて徐々に大きくす
ることにより、演説風に誇張した音声を合成する、とい
った操作を行うことも可能である。さらに、韻律だけで
はなく、音素を変換することにより、方言や年齢に特有
の言葉の変換も可能である。この韻律変換手段4は、一
般にCPUやDSPを用いてソフトウェアにより実現さ
れる。
【0034】以下に、韻律変換手段4について、図1を
参照しながらさらに詳細な説明を行う。韻律変換手段4
の内部には、アクセント変換規則記憶部401およびア
クセント変換部402を有する。アクセント変換部40
2は、方言選択パラメータに基づいてアクセント変換規
則記憶部401に記憶された変換規則からアクセント変
換規則を選択する。方言選択パラメータは、入力テキス
ト中に制御コマンドとして特殊記号を用いて埋め込まれ
るか、またはユーザーが何らかの方法(例えば方言選択
パラメータ入力部を設ける等)により入力することがで
きる。通常は、ソフトウェアにより設定画面を用いて男
声や女声、声の高さや大きさ、速さ等を設定できるよう
になっており、その同じ画面上で方言を設定することが
できる。または別に設定装置を設けることもできる。そ
して、入力された音素列とアクセント型から、選択した
アクセント変換規則に従って、異なるアクセント型へと
変換する。具体的なアクセント型変換については、後述
する。
【0035】さらに、韻律変換手段4の内部に、音素列
変換規則記憶部403および音素列変換部404を設け
てもよい。この場合、アクセントと同様に、規則選択パ
ラメータに基づいて、音素列変換規則記憶部403に記
憶された変換規則から音素列変換規則を選択する。規則
選択パラメータについても、方言選択パラメータと同様
に、入力テキスト中に制御コマンドとして特殊記号を用
いて埋め込まれるか、またはユーザーが何らかの方法
(例えば方言選択パラメータ入力部を設ける等)により
入力することができる。そして、入力された音素列とア
クセント型から、選択した音素列変換規則に従って、異
なる音素列へと変換する。
【0036】まず、音素列変換規則の具体例について説
明する。例えば、子供っぽい音声に変換するための規則
の一例としては、 (1)「し」を「ち」に変換 (2)「す」、「つ」を「ちゅ」に変換 (3)「ら」を「だ」に変換 (4)「ぞ」を「ど」に変換 等が挙げられる。
【0037】この他にも、一部の方言における「ひ」と
「し」が入れ替わる規則や、別の方言における「し」が
「す」と発音される規則等を記憶しておき、目的に応じ
て規則線t買うパラメータを用いて選択することによ
り、各種の変換が可能となる。これらの変換規則の選び
方は、文節毎に変るものではないので、音声合成の前に
予めどの変換規則を適用するかを規則選択パラメータに
設定しておくことにより実現することができる。
【0038】次に、具体的な日本語の方言アクセント変
換への変換方法について、説明する。図3は、本実施形
態で用いる具体的なアクセント型を示す図である。図3
(A)は、従来の音声合成でも用いられる標準語アクセ
ントの形状を、アクセント型とモーラ数毎に表示したも
のである。ここで、モーラとは、音声の拍を表す単位で
あり、日本語の場合カナ文字に相当する。一般に、アク
セントはモーラ毎の高低2段階で表される。0型は平板
型とも称され、1モーラを除いて低音「L」で始まり、
2モーラ目以後、最後まで高音「H」が続く。な
お、()で示されるのは、単語に付属語が続く場合にお
ける付属語の音高を示している。例えば、「わたし」は
標準語では3モーラで0型であるので「LHH」、付属
語「は」が続いて「わたしは」となった場合には「LH
HH」となる。1型は1モーラ目が高く、続くモーラは
低音が並ぶ。2以上の型はアクセント型の数字がアクセ
ント核の位置を表し、第2モーラからアクセント核まで
が高く、アクセント核の次のモーラから後ろが低音とな
る。例えば、「はなし」は3モーラで3型であるため
「LLH」となり、単独では0型と同じであるが、付属
語「は」が続いて「はなしは」となった場合には「LH
HL」となる。
【0039】図3(B)および図3(C)は各々関西弁
に特徴的な高起アクセント型と低起アクセント型の一例
を示す図である。図3(B)の高起アクセント型では、
語頭のモーラが必ず高音「H」で始まる。また、アクセ
ント型が1で1モーラの場合には、モーラ内で高音から
低音に下がり、継続長が長くなる。これを図3(B)で
は「D」と表している。図3(C)の低起アクセント型
では、0型の場合、最後のモーラのみが高音となる。1
型は1モーラを除いて標準型や高起アクセント型と同じ
である。また、アクセント型が1型で1モーラの場合に
は、モーラ内で低音から高音に上がり、継続時間が長く
なる。これを図3(C)では「U}と表している。2型
以上では低音で始まってアクセント核の位置のみが高音
となり、以後は低音になる。
【0040】本実施形態では、規則音声合成手段3内の
アクセント形状記憶部301でこれらのアクセント形状
を記憶し、韻律変換手段4内のアクセント変換部402
でこれらの中からアクセント型を選択する。従来では、
アクセント型の指定には0型からn型までの整数値で指
定が可能であったが、本実施形態ではこれとは別の整数
値を用いて標準型、高起型または低起型というアクセン
ト種別を指定する。従って、文節毎の韻律変換手段4か
らは、音素記号列、アクセント型、フレーズ成分の強
さ、ポーズの長さ、声の大きさおよびアクセント種別の
情報を出力する。
【0041】関西弁以外のアクセント型を実現する際
に、上述したような型で表現できない場合には、さらに
アクセント種別を拡張して、アクセント型を追加するこ
とも考えられる。また、方言選択パラメータに基づいて
アクセント変換規則を選択することにより、1つの装置
で複数の方言アクセント型を切り替えて音声合成するこ
とが可能になる。方言選択パラメータは設定画面を用い
て設定することができ、例えば整数で0が標準語、1が
関西弁、2が鹿児島弁等というように設定することがで
きる。
【0042】次に、関西弁風の音声を合成する際のアク
セント変換規則の具体例を示す。例えば、 (1)2モーラの文節は0型を1型に、1型を0型に変
換する (2)3モーラ以上の1型文節で、第1母音と第2母音
が異なる場合には2型に変換する (3)2型アクセントは低起型にする (4)上記(3)以外で(アクセント型≧モーラ数)で
あれば高起型に変換する (5)上記(4)以外で2モーラであれば低起型に変換
する (6)上記(5)以外でモーラ数が奇数であれば低起
型、偶数であれば高起型に変換する といった規則の組を関西弁風アクセント変換規則とし
て、アクセント変換規則記憶部401に記憶する。この
変換規則(3)において、2型アクセントは低起型でも
標準型でも同じ形状であるので、どちらを選んでもよ
い。
【0043】例文を用いて、この規則を用いた変換例を
示す。例えば、「テレビゲームやパソコンでゲームをし
て遊ぶ」という例文をテキスト処理手段2へ入力した場
合を考える。テキスト処理手段によって、 「テレビゲ
ームや・パソコンで・ゲームを・して・あそぶ」という
文節に区切られたとする。ここでは、文節区切りを中点
(・)で表すことにする。このとき、各文節の標準語ア
クセント型は、「4・0・1・0・0」となる。このア
クセントを音の高低(H:高音、L:低音)で表すと、
「LHHHLLL・LHHHH・HLLL・LH・LH
H」のようになる。上記変換規則により各文節のアクセ
ント型は、「低起4・低起0・高起1・高起1・低起
3」のように変換される。このアクセントを音の高低で
表すと、「LLLHLLL・LLLLH・HLLL・H
L・LLH」のようになる。これにより、規則を用いて
概ね関西弁によくあるアクセントに変換できることが分
かる。
【0044】本実施形態では、変換規則により変換を行
うことにより、方言のアクセント辞書を必要としないた
め、少ないコストで読み上げ音声のバリエーションを広
げることができる。
【0045】(実施形態2)図4は、実施形態2の音声
合成装置の構成を説明するための図である。この音声合
成装置は、図1の構成に加えて、韻律変換手段4の内部
にバイパススイッチ405を有している。そして、テキ
スト処理手段2により非変換を指示された場合には、ア
クセント変換部402によるアクセント変換および音素
列変換部404による音素列変換を行わずに出力する。
この機能が効果を発揮するのは、言語辞書1が図7に示
したように方言アクセント記憶部103を有し、一部の
重要語および頻出単語についてのみ正しいアクセントを
記憶している場合である。
【0046】この構成では、方言選択パラメータとし
て、テキスト処理手段2とアクセント変換部402に同
じパラメータを入力し、アクセントを統一するのが望ま
しい。
【0047】例えば、テキスト処理手段2において、方
言アクセントで出力しようとする単語に対して、方言選
択パラメータによって指定された方言アクセントが言語
辞書1内に存在する場合には韻律変換指示コードとして
0を出力し、指定された方言アクセントが言語辞書1内
に存在しない場合には韻律変換指示コードとして1を出
力する。
【0048】韻律変換手段4内のバイパススイッチ40
5は、韻律変化指示コードが1のとき、アクセント変換
部402および音素列変換部404の方に情報を出力
し、韻律変換指示コードが0のときには、変換せずにそ
のまま規則音声合成手段3へ情報を出力する。
【0049】本実施形態では、文節毎のテキスト処理手
段2からの出力および文節毎の韻律変換手段4からの出
力は、音素記号列、アクセント型、フレーズ成分の強
さ、ポーズの長さ、声の大きさおよびアクセントの種別
の情報となる。さらに、韻律変換手段4からは韻律変換
指示コードの情報も出力される。なお、アクセントの種
別はテキスト処理手段2および韻律変換手段4から出力
され、韻律変換指示コードにより変換が指示されていな
い場合にはテキスト処理手段からのアクセント種別が優
先される。また、韻律変換指示コードにより変換が指示
されている場合にはテキスト処理手段からのアクセント
種別は無視され、韻律変換手段によりアクセント種別が
決定される。
【0050】バイパススイッチ405の操作は、テキス
ト処理手段2から指示される韻律変換指示コードに従っ
て韻律変換手段4が行ってもよく、アクセント変換部4
02自身が行ってもよい。また、標準アクセントで音声
合成する場合にも、バイパススイッチ405を用いて、
アクセント変換および音素列変換を行わない。
【0051】(実施形態3)図5は、本発明の音声合成
装置をコンピューターを用いて実現するための構成例を
示す図である。入力装置5は、シリアル通信、ネットワ
ーク通信またはキーボード等により音声合成対象となる
テキストデータを入力する。
【0052】記憶媒体8は、実施形態1に示した言語辞
書1、テキスト処理手段2、規則音声合成手段3および
韻律変換手段4の各機能からなる音声合成プログラムを
記録したCDROMやフロッピー(登録商標)ディス
ク、フラッシュメモリ等の記録媒体である。記憶装置9
は、記憶媒体8のプログラムを読み込んだハードディス
クやフラッシュメモリ等の記憶装置である。RAM10
は、処理に必要な一次記憶に用いられる。
【0053】出力装置7は、合成された音声を出力する
ためのD/A変換器、アンプやスピーカ等で構成され
る。
【0054】処理装置6は、記憶媒体9または記憶装置
10に読み込まれた音声合成プログラムに従って、音声
合成処理を行うマイクロコンピューターやDSP等の処
理装置である。
【0055】図6は、関西弁風アクセント変換規則をア
ルゴリズムで実現した場合のフローチャートを示す。こ
のアルゴリズム自体は、上記実施形態1と同様の処理動
作を行う。ステップ1101〜ステップ1107までが
アクセント核の位置を変換する処理であり、ステップ1
108〜ステップ1114までが高起型または低起型を
選択する処理である。ステップ1101〜ステップ11
05までが上記変換規則(1)に相当し、ステップ11
06およびステップ1107が上記変換規則(2)に相
当する。ステップ1108およびステップ1109が上
記変換規則(3)に相当し、ステップ1110およびス
テップ1111が上記変換規則(4)に相当する。ステ
ップ1112〜ステップ1114が上記変換規則(5)
および(6)に相当する。
【0056】上記実施形態2についても、図5と同様の
構成により実現することが可能である。
【0057】
【発明の効果】以上詳述したように、本発明によれば、
標準語アクセントに基づいて解析されて付与されたアク
セント型を、変換規則に基づいて変換するため、特別な
アクセント辞書を作成する必要がなく、従来開発コスト
がかかりすぎて実現が困難であった方言アクセントでの
音声合成が可能となる。さらに、メモリの増加量もほと
んど無いため、複数の方言や個人的な特徴のあるアクセ
ント等、多様な音声合成を1つの装置で行うことができ
る。
【0058】また、標準語アクセントから関西弁に特徴
的な高起アクセント型や低起アクセント型に変換する変
換規則を用いることにより、関西弁風の音声を合成する
ことができる。
【0059】さらに、一部の単語において方言のアクセ
ントが言語辞書に登録されている場合でも、方言アクセ
ントと標準語アクセントが混ざって音声の聴取者が混乱
するのを防ぐことができる。
【図面の簡単な説明】
【図1】実施形態1の音声合成装置の構成を示す図であ
る。
【図2】フレーズ形状の一例を示す図である。
【図3】(A)〜(C)は実施形態1におけるアクセン
ト型の一例を示す図である。
【図4】実施形態2の音声合成装置の構成を示す図であ
る。
【図5】実施形態3の音声合成装置をコンピューターを
用いて実現する構成を示す図である。
【図6】アクセント変換規則をアルゴリズムで実現する
ためのフローチャートである。
【図7】従来の音声合成装置の構成を示す図である。
【符号の説明】
1 言語辞書 2 テキスト処理手段 3 規則音声合成手段 4 韻律変換手段 5 入力装置 6 処理装置 7 出力装置 8 記憶媒体 9 記憶装置 10 RAM 101 形態素情報記憶部 102 標準語アクセント記憶部 103 方言アクセント記憶部 301 アクセント形状記憶部 302 アクセント生成部 303 フレーズ形状記憶部 304 フレーズ生成部 305 波形辞書 306 波形生成部 401 アクセント変換規則記憶部 402 アクセント変換部 403 音素列変換規則記憶部 404 音素列変換部 405 バイパススイッチ

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 入力されたテキストデータを解析して、
    音素列情報と韻律情報を出力するテキスト処理手段と、 該テキスト処理手段がテキストデータを解析する際に参
    照する言語辞書と、 該テキスト処理手段から入力された韻律情報を変換規則
    に基づいて異なる韻律情報に変換する韻律変換手段と、 該音素列情報および変換された韻律情報から音声波形を
    合成する規則音声合成手段とを有することを特徴とする
    音声合成装置。
  2. 【請求項2】 前記韻律変換手段は、アクセント変換規
    則記憶部と、アクセント変換部とを有し、 該アクセント変換部では、入力された方言選択パラメー
    タに基づいて該アクセント変換規則記憶部に記憶された
    変換規則を選択し、選択された変換規則に従って、韻律
    情報の構成要素であるアクセント情報を、入力された情
    報とは異なるアクセント型に変換することを特徴とする
    請求項1に記載の音声合成装置。
  3. 【請求項3】 前記韻律変換手段は、さらに、音素列変
    換規則記憶部と、音素列変換部とを有し、 該音素列変換部では、入力された規則選択パラメータに
    基づいて該音素列変換規則記憶部に記憶された変換規則
    を選択し、選択された変換規則に従って、音素列情報
    を、入力された音素列とは異なる音素列に変換すること
    を特徴とする請求項2に記載の音声合成装置。
  4. 【請求項4】 前記アクセント変換部は、変換規則に従
    ってアクセント型を変換する際に、入力される全ての文
    節に対して、標準語におけるアクセント核の位置を示す
    アクセント型から、方言に特徴的な高起アクセント型ま
    たは低起アクセント型への変換を行うことを特徴とする
    請求項2または請求項3に記載の音声合成装置。
  5. 【請求項5】 前記韻律変換手段は、前記アクセント変
    換部と前記音素列変換部とをバイパスするバイパススイ
    ッチを有し、 標準語を基本とする前記言語辞書の一部の単語に、方言
    の韻律を併せて保持し、 方言風の音声を合成する際に、テキスト処理された単語
    に目的とする方言の韻律が存在する場合には、アクセン
    ト型と音素列を変換せずに該言語辞書に保持している方
    言の韻律を用いて音声を合成し、目的とする方言の韻律
    が存在しない場合には標準語の韻律からアクセント変換
    と音素列変換を行って音声を合成することを特徴とする
    請求項3または請求項4に記載の音声合成装置。
  6. 【請求項6】 入力されたテキストデータを解析して、
    音素列情報と韻律情報を出力するテキスト処理手段と、
    該テキスト処理手段がテキストデータを解析する際に参
    照する言語辞書と、該テキスト処理手段から入力された
    韻律情報を変換規則に基づいて異なる韻律情報に変換す
    る韻律変換手段と、該音素列情報および変換された韻律
    情報から音声波形を合成する規則音声合成手段とを用い
    て音声合成を行う方法であって、 該韻律変換手段により、入力された方言選択パラメータ
    に基づいてアクセント変換規則を選択し、選択されたア
    クセント変換規則に従って、韻律情報の構成要素である
    アクセント情報を、入力された情報とは異なるアクセン
    ト型に変換する際に、入力される全ての文節に対して、
    標準語におけるアクセント核の位置を示すアクセント型
    から、方言に特徴的な高起アクセント型または低起アク
    セント型への変換を行うことを特徴とする音声合成方
    法。
  7. 【請求項7】 標準語を基本とする前記言語辞書の一部
    の単語に、方言の韻律を併せて保持し、 方言風の音声波形を合成する際に、テキスト処理された
    単語に目的とする方言の韻律が存在する場合には、アク
    セント型と音素列を変換せずに該言語辞書に保持してい
    る方言の韻律を用いて音声を合成し、目的とする方言の
    韻律が存在しない場合には標準語の韻律からアクセント
    変換と音素列変換を行って音声を合成することを特徴と
    する請求項6に記載の音声合成方法。
  8. 【請求項8】 入力されたテキストデータを解析して、
    音素列情報と韻律情報を出力するテキスト処理機能と、
    該テキストデータを解析する際に参照する言語辞書と、
    該テキスト処理機能により得られた韻律情報を変換規則
    に基づいて異なる韻律情報に変換する韻律変換機能と、
    該音素列情報および変換された韻律情報から音声波形を
    合成する規則音声合成機能とを有する音声合成プログラ
    ムであって、 該韻律変換機能により、入力された方言選択パラメータ
    に基づいてアクセント変換規則を選択し、選択されたア
    クセント変換規則に従って、韻律情報の構成要素である
    アクセント情報を、入力された情報とは異なるアクセン
    ト型に変換する際に、入力される全ての文節に対して、
    標準語におけるアクセント核の位置を示すアクセント型
    から、方言に特徴的な高起アクセント型または低起アク
    セント型への変換を行うことを特徴とする音声合成プロ
    グラム。
  9. 【請求項9】 標準語を基本とする前記言語辞書の一部
    の単語に、方言の韻律を併せて保持し、 方言風の音声を合成する際に、テキスト処理された単語
    に目的とする方言の韻律が存在する場合には、アクセン
    ト型と音素列を変換せずに該言語辞書に保持している方
    言の韻律を用いて音声を合成し、目的とする方言の韻律
    が存在しない場合には標準語の韻律からアクセント変換
    と音素列変換を行って音声を合成することを特徴とする
    請求項8に記載の音声合成プログラム。
JP2001107849A 2001-04-05 2001-04-05 音声合成装置、音声合成方法および音声合成プログラム Expired - Fee Related JP3681111B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001107849A JP3681111B2 (ja) 2001-04-05 2001-04-05 音声合成装置、音声合成方法および音声合成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001107849A JP3681111B2 (ja) 2001-04-05 2001-04-05 音声合成装置、音声合成方法および音声合成プログラム

Publications (2)

Publication Number Publication Date
JP2002304186A true JP2002304186A (ja) 2002-10-18
JP3681111B2 JP3681111B2 (ja) 2005-08-10

Family

ID=18960101

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001107849A Expired - Fee Related JP3681111B2 (ja) 2001-04-05 2001-04-05 音声合成装置、音声合成方法および音声合成プログラム

Country Status (1)

Country Link
JP (1) JP3681111B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040052110A (ko) * 2002-12-13 2004-06-19 에스케이 텔레콤주식회사 Tts를 이용한 코러스 및 아카펠라 구현방법
US8060942B2 (en) 2004-04-27 2011-11-15 Thomson Licensing Film fingerprinting
JP2013072957A (ja) * 2011-09-27 2013-04-22 Toshiba Corp 文書読み上げ支援装置、方法及びプログラム
CN113178186A (zh) * 2021-04-27 2021-07-27 湖南师范大学 一种方言语音合成方法、装置、电子设备和存储介质
WO2023184874A1 (zh) * 2022-03-31 2023-10-05 美的集团(上海)有限公司 语音合成方法和装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0436799A (ja) * 1990-05-31 1992-02-06 Sharp Corp 音声合成装置
JPH0764586A (ja) * 1993-08-24 1995-03-10 Sony Corp 音声合成装置
JPH0772900A (ja) * 1993-09-02 1995-03-17 Nippon Hoso Kyokai <Nhk> 音声合成の感情付与方法
JPH09134195A (ja) * 1995-11-08 1997-05-20 Fujitsu Ten Ltd 音声合成装置
JPH09171396A (ja) * 1995-10-18 1997-06-30 Baisera:Kk 音声発生システム
JPH10124515A (ja) * 1996-10-17 1998-05-15 Canon Inc 自然言語文生成システム,方法およびこの方法を実現するプログラムを格納した記憶媒体
JPH11175082A (ja) * 1997-12-10 1999-07-02 Toshiba Corp 音声対話装置及び音声対話用音声合成方法
JPH11215248A (ja) * 1998-01-28 1999-08-06 Uniden Corp 通信システムおよびこれに用いられる無線通信端末装置
JP2000047680A (ja) * 1998-07-27 2000-02-18 Toshiba Corp 音声情報処理装置
JP2000187495A (ja) * 1998-12-21 2000-07-04 Nec Corp 音声合成法方法、装置、および音声合成プログラムを記録した記録媒体
JP2000350870A (ja) * 1999-06-11 2000-12-19 Takara Co Ltd 多質音声発生玩具

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0436799A (ja) * 1990-05-31 1992-02-06 Sharp Corp 音声合成装置
JPH0764586A (ja) * 1993-08-24 1995-03-10 Sony Corp 音声合成装置
JPH0772900A (ja) * 1993-09-02 1995-03-17 Nippon Hoso Kyokai <Nhk> 音声合成の感情付与方法
JPH09171396A (ja) * 1995-10-18 1997-06-30 Baisera:Kk 音声発生システム
JPH09134195A (ja) * 1995-11-08 1997-05-20 Fujitsu Ten Ltd 音声合成装置
JPH10124515A (ja) * 1996-10-17 1998-05-15 Canon Inc 自然言語文生成システム,方法およびこの方法を実現するプログラムを格納した記憶媒体
JPH11175082A (ja) * 1997-12-10 1999-07-02 Toshiba Corp 音声対話装置及び音声対話用音声合成方法
JPH11215248A (ja) * 1998-01-28 1999-08-06 Uniden Corp 通信システムおよびこれに用いられる無線通信端末装置
JP2000047680A (ja) * 1998-07-27 2000-02-18 Toshiba Corp 音声情報処理装置
JP2000187495A (ja) * 1998-12-21 2000-07-04 Nec Corp 音声合成法方法、装置、および音声合成プログラムを記録した記録媒体
JP2000350870A (ja) * 1999-06-11 2000-12-19 Takara Co Ltd 多質音声発生玩具

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040052110A (ko) * 2002-12-13 2004-06-19 에스케이 텔레콤주식회사 Tts를 이용한 코러스 및 아카펠라 구현방법
US8060942B2 (en) 2004-04-27 2011-11-15 Thomson Licensing Film fingerprinting
JP2013072957A (ja) * 2011-09-27 2013-04-22 Toshiba Corp 文書読み上げ支援装置、方法及びプログラム
CN113178186A (zh) * 2021-04-27 2021-07-27 湖南师范大学 一种方言语音合成方法、装置、电子设备和存储介质
CN113178186B (zh) * 2021-04-27 2022-10-18 湖南师范大学 一种方言语音合成方法、装置、电子设备和存储介质
WO2023184874A1 (zh) * 2022-03-31 2023-10-05 美的集团(上海)有限公司 语音合成方法和装置

Also Published As

Publication number Publication date
JP3681111B2 (ja) 2005-08-10

Similar Documents

Publication Publication Date Title
US7233901B2 (en) Synthesis-based pre-selection of suitable units for concatenative speech
JP4125362B2 (ja) 音声合成装置
JP3673471B2 (ja) テキスト音声合成装置およびプログラム記録媒体
WO2011151956A1 (ja) 声質変換装置及びその方法、母音情報作成装置並びに声質変換システム
JP2002258885A (ja) テキスト音声合成装置およびプログラム記録媒体
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JP2010128103A (ja) 音声合成装置、音声合成方法、および音声合成プログラム
JP3513071B2 (ja) 音声合成方法及び音声合成装置
JP3681111B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP4648878B2 (ja) 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体
JPH08335096A (ja) テキスト音声合成装置
JPH0580791A (ja) 音声規則合成装置および方法
JP2894447B2 (ja) 複合音声単位を用いた音声合成装置
JPH11249679A (ja) 音声合成装置
JP3113101B2 (ja) 音声合成装置
JP3575919B2 (ja) テキスト音声変換装置
JP4260071B2 (ja) 音声合成方法、音声合成プログラム及び音声合成装置
JP4619469B2 (ja) 音声合成装置及び音声合成方法並びに音声合成プログラムを記録した記録媒体
JP2002311979A (ja) 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
JP2577372B2 (ja) 音声合成装置および方法
JP6159436B2 (ja) 読み記号列編集装置および読み記号列編集方法
JP2001236086A (ja) テキスト音声合成出力機能を有するゲーム装置
JP2003005774A (ja) 音声合成装置
JP3870583B2 (ja) 音声合成装置および記憶媒体
JP2002297174A (ja) テキスト音声合成装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20041013

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050513

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050513

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080527

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090527

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100527

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110527

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110527

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120527

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120527

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130527

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees