JP2002304186A

JP2002304186A - 音声合成装置、音声合成方法および音声合成プログラム

Info

Publication number: JP2002304186A
Application number: JP2001107849A
Authority: JP
Inventors: Toshio Akaha; 俊夫赤羽
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2001-04-05
Filing date: 2001-04-05
Publication date: 2002-10-18
Anticipated expiration: 2021-04-05
Also published as: JP3681111B2

Abstract

(57)【要約】【課題】標準語を基にした言語辞書からでも、方言ら
しい個性のあるアクセントを生成することができる音声
合成装置を提供する。【解決手段】テキストデータから音素列情報と韻律情
報を出力するテキスト処理手段２と、テキスト処理手段
が参照する言語辞書１と、韻律情報を変換規則に基づい
て変換する韻律変換手段４と、音素列情報および変換さ
れた韻律情報から音声波形を合成する規則音声合成手段
３を有する。韻律変換手段４はアクセント変換規則記憶
部４０１とアクセント変換部４０２と音素列変換規則記
憶部４０３と音素列変換部４０４を有する。アクセント
変換部４０２はアクセント変換規則記憶部４０１に記憶
された変換規則に従ってアクセント情報を入力情報と異
なるアクセント型に変換する。音素列変換部４０４は音
素列変換規則記憶部４０３に記憶された変換規則に従っ
て音素列情報を入力情報と異なる音素列に変換する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文字列または記号
列からなるテキストデータを入力して音声データに変換
する音声合成装置、音声合成方法および音声合成プログ
ラムに関する。

【０００２】

【従来の技術】音声合成技術においては、単に情報を正
確に伝えるだけではなく、ユーザーの好みに応じてカス
タマイズを行ったり、状況に応じて音声を切り替えた
り、またはゲーム等の娯楽において複数の登場人物を会
話させたりするために、複数の個性のある音声を合成す
ることが求められる。

【０００３】音声を決定する主な要因としては、声質
（太い、細い、ハスキーである等）、全体的（平均的）
な声の高さ、発声速度、ポーズ（文節間の間（長さ）の
取り方）、アクセント（単語、文節等、短い単位内の音
の高低）、フレーズピッチ成分（文全体の音の高低（フ
レーズ成分の強度）、一般には最初が高く、徐々に下が
る）等が挙げられる。このうち、声質以外の部分を一般
に韻律と呼ぶ。韻律の中でも特に、アクセントは声の個
性に対して、声質と並んで影響が大きい。

【０００４】従来の音声を合成する方法（特開平１−３
２１４９６４２１６号公報、特開平９−２４４６７７号
公報）では、図７に示すように、テキスト処理手段２が
参照する言語辞書１に文章を解析するための形態素情報
記憶部１０１、標準的なアクセントを与えるための標準
語アクセント記憶部１０２のデータの他に、方言アクセ
ント記憶部１０３を設けて、そこからアクセントデータ
を選択することにより、方言の音声を合成していた。

【０００５】

【発明が解決しようとする課題】しかしながら、上述し
た従来の音声合成方法は、実際にアクセント辞書を作成
する困難さや、開発コストのために実現されていない。
その理由を以下に説明する。

【０００６】従来の日本語音声合成装置において、単語
毎のアクセントを決定する言語辞書は、一般に、出版さ
れている標準語のアクセント辞書（例えばＮＨＫ「日本
語発音アクセント辞典」）を基に作成しているため、標
準語アクセントにより音声を合成する。方言等の標準語
以外のアクセントで正確に発声させるためには、数万単
語に及ぶアクセント辞書を作成する必要がある。

【０００７】しかし、方言と行っても実際には細かな地
域や話者により各々異なり、方言を一つに特定して整理
するのは非常に困難である。このため、正確な方言アク
セント辞書を作成するためには、大阪弁のような一つの
地方に限ったとしても、膨大な期間と費用がかかり、実
現は困難である。また、辞書を作成できた場合でも、多
数の単語に方言アクセントを付加するとメモリの増加に
つながり、さらに方言の種類を増やすこともメモリの増
加につながるため、実現は困難である。さらに、コスト
をかけて作成しても、効果を評価しにくいことも実現さ
れない理由の一つと考えられる。

【０００８】例えば、「大阪・東京アクセント音声辞
典：杉籐美代子、１９９５年」において、同じ大阪市出
身の話者でも各単語に対するアクセントが異なること
は、正しい大阪弁というのは存在せず、大阪弁らしさの
ような傾向があるに過ぎないことを示す。このことは、
逆に、ある一部地域の方言アクセントを正確に再現して
も、聞く人によって評価が異なるため、それを正しいと
評価するユーザーは非常に少ないということになり得
る。

【０００９】さらに、一部の単語のみについて、方言ア
クセントを調査して辞書に付加しても、その他の単語を
標準語アクセントで発声した場合には、発話の途中で方
言の様式が急激に変化するためにユーザーが混乱し、文
章の意味が理解できない等の障害が生じるおそれがあ
る。

【００１０】具体的なアクセント型の形状については後
述するが、一般に、方言のアクセントは従来の標準語ア
クセントにおける０型からｎ型のアクセント型のみを用
いたのでは再現することができず、標準語には無い新た
なアクセント型を必要とする。一例として先に挙げた
「大阪・東京アクセント辞典」によれば、大阪弁アクセ
ントは、標準語の０型からｎ型とは異なる、高起の０型
からｎ型および低起の０型からｎ型というアクセント型
を用いなければ表現することができない。他方、これら
のアクセント型は関西弁に共通するものであるため、こ
れらのアクセント型を用いれば、アクセント型が特定の
地域の方言と異なっていても、ある程度の関西弁らしさ
が表現できることになる。

【００１１】本発明は、このような従来技術の課題を解
決するべくなされたものであり、方言アクセント辞書が
不完全であったり、方言アクセント辞書が無く、標準語
を基にした言語辞書からでも、方言らしい個性のあるア
クセントを生成することができる音声合成装置、音声合
成方法および音声合成プログラムを提供することを目的
とする。

【００１２】

【課題を解決するための手段】本発明の音声合成装置
は、入力されたテキストデータを解析して、音素列情報
と韻律情報を出力するテキスト処理手段と、該テキスト
処理手段がテキストデータを解析する際に参照する言語
辞書と、該テキスト処理手段から入力された韻律情報を
変換規則に基づいて異なる韻律情報に変換する韻律変換
手段と、該音素列情報および変換された韻律情報から音
声波形を合成する規則音声合成手段とを有し、そのこと
により上記目的が達成される。

【００１３】前記韻律変換手段は、アクセント変換規則
記憶部と、アクセント変換部とを有し、該アクセント変
換部では、入力された方言選択パラメータに基づいて該
アクセント変換規則記憶部に記憶された変換規則を選択
し、選択された変換規則に従って、韻律情報の構成要素
であるアクセント情報を、入力された情報とは異なるア
クセント型に変換するものであってもよい。

【００１４】前記韻律変換手段は、さらに、音素列変換
規則記憶部と、音素列変換部とを有し、該音素列変換部
では、入力された規則選択パラメータに基づいて該音素
列変換規則記憶部に記憶された変換規則を選択し、選択
された変換規則に従って、音素列情報を、入力された音
素列とは異なる音素列に変換するものであってもよい。

【００１５】前記アクセント変換部は、変換規則に従っ
てアクセント型を変換する際に、入力される全ての文節
に対して、標準語におけるアクセント核の位置を示すア
クセント型から、方言に特徴的な高起アクセント型また
は低起アクセント型への変換を行うものであってもよ
い。

【００１６】前記韻律変換手段は、前記アクセント変換
部と前記音素列変換部とをバイパスするバイパススイッ
チを有し、標準語を基本とする前記言語辞書の一部の単
語に、方言の韻律を併せて保持し、方言風の音声を合成
する際に、テキスト処理された単語に目的とする方言の
韻律が存在する場合には、アクセント型と音素列を変換
せずに該言語辞書に保持している方言の韻律を用いて音
声を合成し、目的とする方言の韻律が存在しない場合に
は標準語の韻律からアクセント変換と音素列変換を行っ
て音声を合成するものであってもよい。

【００１７】本発明の音声合成方法は、入力されたテキ
ストデータを解析して、音素列情報と韻律情報を出力す
るテキスト処理手段と、該テキスト処理手段がテキスト
データを解析する際に参照する言語辞書と、該テキスト
処理手段から入力された韻律情報を変換規則に基づいて
異なる韻律情報に変換する韻律変換手段と、該音素列情
報および変換された韻律情報から音声波形を合成する規
則音声合成手段とを用いて音声合成を行う方法であっ
て、該韻律変換手段により、入力された方言選択パラメ
ータに基づいてアクセント変換規則を選択し、選択され
たアクセント変換規則に従って、韻律情報の構成要素で
あるアクセント情報を、入力された情報とは異なるアク
セント型に変換する際に、入力される全ての文節に対し
て、標準語におけるアクセント核の位置を示すアクセン
ト型から、方言に特徴的な高起アクセント型または低起
アクセント型への変換を行い、そのことにより上記目的
が達成される。

【００１８】標準語を基本とする前記言語辞書の一部の
単語に、方言の韻律を併せて保持し、方言風の音声波形
を合成する際に、テキスト処理された単語に目的とする
方言の韻律が存在する場合には、アクセント型と音素列
を変換せずに該言語辞書に保持している方言の韻律を用
いて音声を合成し、目的とする方言の韻律が存在しない
場合には標準語の韻律からアクセント変換と音素列変換
を行って音声を合成してもよい。

【００１９】本発明の音声合成プログラムは、入力され
たテキストデータを解析して、音素列情報と韻律情報を
出力するテキスト処理機能と、該テキストデータを解析
する際に参照する言語辞書と、該テキスト処理機能によ
り得られた韻律情報を変換規則に基づいて異なる韻律情
報に変換する韻律変換機能と、該音素列情報および変換
された韻律情報から音声波形を合成する規則音声合成機
能とを有する音声合成プログラムであって、該韻律変換
機能により、入力された方言選択パラメータに基づいて
アクセント変換規則を選択し、選択されたアクセント変
換規則に従って、韻律情報の構成要素であるアクセント
情報を、入力された情報とは異なるアクセント型に変換
する際に、入力される全ての文節に対して、標準語にお
けるアクセント核の位置を示すアクセント型から、方言
に特徴的な高起アクセント型または低起アクセント型へ
の変換を行い、そのことにより上記目的が達成される。

【００２０】標準語を基本とする前記言語辞書の一部の
単語に、方言の韻律を併せて保持し、方言風の音声を合
成する際に、テキスト処理された単語に目的とする方言
の韻律が存在する場合には、アクセント型と音素列を変
換せずに該言語辞書に保持している方言の韻律を用いて
音声を合成し、目的とする方言の韻律が存在しない場合
には標準語の韻律からアクセント変換と音素列変換を行
って音声を合成してもよい。

【００２１】以下に、本発明の作用について説明する。

【００２２】本発明にあっては、標準語に基づいて解析
されたアクセント型（または音素列）を変換規則に基づ
いて変換することができるため、方言アクセント辞書を
作成する必要がなく、従来開発コストがかかりすぎて実
現が困難であった、異なる方言アクセントによる音声合
成が可能となる。さらに、メモリの増加量もほとんど無
いため、複数の方言など、多様な音声合成を１つの装置
により行うことが可能となる。

【００２３】また、アクセント変換部において、変換規
則に従って、標準語の０型からｎ型までの整数型アクセ
ントから、関西弁に特徴的な高起アクセント型の０型か
らｎ型または低起アクセント型の０型からｎ型に変換を
行うことにより、テキスト処理手段が標準語の言語辞書
に基づく韻律情報を出力しても、関西弁風のアクセント
で音声を合成することが可能となる。

【００２４】さらに、標準語を基本とする言語辞書の一
部の単語において、方言の韻律（アクセント）が登録さ
れている場合には、それらの単語に関しては辞書に登録
された正確な韻律を用いて音声合成を行い、調査されて
いない単語については変換規則を用いてその地方の方言
風のアクセント（または音素列）に変換する。これによ
り、より自然な方言に近づくことが可能となり、方言ア
クセントと標準語アクセントが混ざることによって音声
の聴取者が混乱するのを避けることができる。

【００２５】音声合成を行うアルゴリズムは複雑であ
り、汎用マイクロコンピューターまたはＤＳＰを用いて
ソフトウェアにより実現するのが一般的である。本発明
の音声合成プログラムによれば、パーソナルコンピュー
ター等のマイクロコンピューターを用いたシステムやＤ
ＳＰを用いたシステムにおいて、方言風の音声合成機能
を追加することが可能である。

【００２６】

【発明の実施の形態】以下に、本発明の実施の形態につ
いて、図面を参照しながら説明する。

【００２７】（実施形態１）図１は、本発明の一実施形
態である音声合成装置の構成を説明するための図であ
る。この音声合成装置は、言語辞書１と、テキスト処理
手段２と、記録音声合成手段３と、韻律変換手段４を備
えている。

【００２８】言語辞書１は、単語毎の形態素情報および
単語毎のアクセント情報を記憶しており、一般に読み出
し専用メモリにより実現される。

【００２９】テキスト処理手段２は、入力されたテキス
トデータから言語辞書１を用いて単語を検出して、動詞
や名詞等の形態素から文の構造を決定し、文の構造に基
づいてポーズの長さと、文章全体の抑揚を制御するフレ
ーズ成分の強さを決定する。また、文節に含まれる自立
語のアクセント情報から各文節のアクセント型を決定す
る。そして、文節毎に音素記号列、アクセント型、フレ
ーズ成分の強さ、ポーズの長さおよび声の大きさの情報
等を出力する。一般に、声の大きさは文章内では一定と
される場合が多いが、微視的に見た場合には、音声素片
（基本的にはこれを繋ぎ合わせて音声を合成する）を収
録したときの声の大きさの変化がそのまま出力される。
韻律制御の際には、この声の大きさを文章毎に大きくし
たり小さくしたりすることができる。また、音素毎の時
間長を統計的に調べて、その長さに対してどの程度速く
するか遅くするかということにより発声速度を制御する
ことができる。さらに、文の構造から求められるフレー
ズ成分と単語各々によって決定されるアクセント成分と
の加算によって声の高さを制御することができる。それ
を全たく的に高くしたり低くしたりすることにより声の
高さを調整し、フレーズ成分やアクセント成分の強さを
調整することにより、抑揚の強さを調整することができ
る。調整をどの程度行うかについては、ユーザーが決定
できるようにされることが多い。このテキスト処理手段
２は、一般に、ＣＰＵやＤＳＰを用いてソフトウェアに
より実現される。

【００３０】規則音声合成手段３は、入力された情報を
基に音声波形を合成する。具体的には、アクセント生成
部３０２は、アクセント形状記憶部３０１を参照して、
入力された各文節の音素記号列の各音素に対して音の高
さを設定する。次に、フレーズ生成部３０４は、フレー
ズ形状記憶部３０３を参照して、複数の文節にわたる音
素記号列の各音素に対して、抑揚を表す音の高さの形状
を、フレーズ成分の強さで調整して加算する。フレーズ
形状については後述する。次に、波形生成部３０６で
は、音素毎に波形辞書３０５を参照して、アクセント生
成部３０２およびフレーズ生成部３０４で生成された音
の高さに応じた音声波形を合成する。この規則音声合成
手段３は、一般に、ＣＰＵやＤＳＰを用いてソフトウェ
アにより実現される。

【００３１】波形生成の方法としては、各種方式を利用
することができるが、ここでは零位相化した単位波形を
合成したい声の周波数の逆数で表される間隔（ピッチ）
で重畳してゆく波形重畳方式を用いることにより、比較
的高品位の音声を合成することが可能である。

【００３２】図２に、フレーズ形状の一例を示す。フレ
ーズ形状は、人間が文章を発声するときの文全体の声の
高さの形状をモデル化したものであり、各文節の先頭で
高くなり、文末へ向けて緩やかに下降する形状を有す
る。また、一般に藤崎モデルと称される「へ」の字型の
カーブを用いる場合もある。図２では、対数周波数上で
直線的に下降するフレーズ形状を示している。この例で
は、文節の先頭における声の高さをフレーズ成分の値で
与え、文節の最後で定常の高さになるように下降速度を
調整する。従って、文節が長くなると、下降速度が遅く
なる。

【００３３】以上は、通常の音声合成装置と同様の機能
である。本実施形態では、さらに、韻律変換手段４を設
けて、合成される音声の韻律を変更する。韻律とは、一
般に、アクセント、フレーズ成分の強度および平均的な
声の高さや、発声速度、ポーズ長等を指す。例えば、ア
クセント型を変換することにより、方言風の音声合成を
行うことが可能である。また、アクセントの強さ、フレ
ーズの強さ、声の大きさを文末に向けて徐々に大きくす
ることにより、演説風に誇張した音声を合成する、とい
った操作を行うことも可能である。さらに、韻律だけで
はなく、音素を変換することにより、方言や年齢に特有
の言葉の変換も可能である。この韻律変換手段４は、一
般にＣＰＵやＤＳＰを用いてソフトウェアにより実現さ
れる。

【００３４】以下に、韻律変換手段４について、図１を
参照しながらさらに詳細な説明を行う。韻律変換手段４
の内部には、アクセント変換規則記憶部４０１およびア
クセント変換部４０２を有する。アクセント変換部４０
２は、方言選択パラメータに基づいてアクセント変換規
則記憶部４０１に記憶された変換規則からアクセント変
換規則を選択する。方言選択パラメータは、入力テキス
ト中に制御コマンドとして特殊記号を用いて埋め込まれ
るか、またはユーザーが何らかの方法（例えば方言選択
パラメータ入力部を設ける等）により入力することがで
きる。通常は、ソフトウェアにより設定画面を用いて男
声や女声、声の高さや大きさ、速さ等を設定できるよう
になっており、その同じ画面上で方言を設定することが
できる。または別に設定装置を設けることもできる。そ
して、入力された音素列とアクセント型から、選択した
アクセント変換規則に従って、異なるアクセント型へと
変換する。具体的なアクセント型変換については、後述
する。

【００３５】さらに、韻律変換手段４の内部に、音素列
変換規則記憶部４０３および音素列変換部４０４を設け
てもよい。この場合、アクセントと同様に、規則選択パ
ラメータに基づいて、音素列変換規則記憶部４０３に記
憶された変換規則から音素列変換規則を選択する。規則
選択パラメータについても、方言選択パラメータと同様
に、入力テキスト中に制御コマンドとして特殊記号を用
いて埋め込まれるか、またはユーザーが何らかの方法
（例えば方言選択パラメータ入力部を設ける等）により
入力することができる。そして、入力された音素列とア
クセント型から、選択した音素列変換規則に従って、異
なる音素列へと変換する。

【００３６】まず、音素列変換規則の具体例について説
明する。例えば、子供っぽい音声に変換するための規則
の一例としては、（１）「し」を「ち」に変換（２）「す」、「つ」を「ちゅ」に変換（３）「ら」を「だ」に変換（４）「ぞ」を「ど」に変換等が挙げられる。

【００３７】この他にも、一部の方言における「ひ」と
「し」が入れ替わる規則や、別の方言における「し」が
「す」と発音される規則等を記憶しておき、目的に応じ
て規則線ｔ買うパラメータを用いて選択することによ
り、各種の変換が可能となる。これらの変換規則の選び
方は、文節毎に変るものではないので、音声合成の前に
予めどの変換規則を適用するかを規則選択パラメータに
設定しておくことにより実現することができる。

【００３８】次に、具体的な日本語の方言アクセント変
換への変換方法について、説明する。図３は、本実施形
態で用いる具体的なアクセント型を示す図である。図３
（Ａ）は、従来の音声合成でも用いられる標準語アクセ
ントの形状を、アクセント型とモーラ数毎に表示したも
のである。ここで、モーラとは、音声の拍を表す単位で
あり、日本語の場合カナ文字に相当する。一般に、アク
セントはモーラ毎の高低２段階で表される。０型は平板
型とも称され、１モーラを除いて低音「Ｌ」で始まり、
２モーラ目以後、最後まで高音「Ｈ」が続く。な
お、（）で示されるのは、単語に付属語が続く場合にお
ける付属語の音高を示している。例えば、「わたし」は
標準語では３モーラで０型であるので「ＬＨＨ」、付属
語「は」が続いて「わたしは」となった場合には「ＬＨ
ＨＨ」となる。１型は１モーラ目が高く、続くモーラは
低音が並ぶ。２以上の型はアクセント型の数字がアクセ
ント核の位置を表し、第２モーラからアクセント核まで
が高く、アクセント核の次のモーラから後ろが低音とな
る。例えば、「はなし」は３モーラで３型であるため
「ＬＬＨ」となり、単独では０型と同じであるが、付属
語「は」が続いて「はなしは」となった場合には「ＬＨ
ＨＬ」となる。

【００３９】図３（Ｂ）および図３（Ｃ）は各々関西弁
に特徴的な高起アクセント型と低起アクセント型の一例
を示す図である。図３（Ｂ）の高起アクセント型では、
語頭のモーラが必ず高音「Ｈ」で始まる。また、アクセ
ント型が１で１モーラの場合には、モーラ内で高音から
低音に下がり、継続長が長くなる。これを図３（Ｂ）で
は「Ｄ」と表している。図３（Ｃ）の低起アクセント型
では、０型の場合、最後のモーラのみが高音となる。１
型は１モーラを除いて標準型や高起アクセント型と同じ
である。また、アクセント型が１型で１モーラの場合に
は、モーラ内で低音から高音に上がり、継続時間が長く
なる。これを図３（Ｃ）では「Ｕ｝と表している。２型
以上では低音で始まってアクセント核の位置のみが高音
となり、以後は低音になる。

【００４０】本実施形態では、規則音声合成手段３内の
アクセント形状記憶部３０１でこれらのアクセント形状
を記憶し、韻律変換手段４内のアクセント変換部４０２
でこれらの中からアクセント型を選択する。従来では、
アクセント型の指定には０型からｎ型までの整数値で指
定が可能であったが、本実施形態ではこれとは別の整数
値を用いて標準型、高起型または低起型というアクセン
ト種別を指定する。従って、文節毎の韻律変換手段４か
らは、音素記号列、アクセント型、フレーズ成分の強
さ、ポーズの長さ、声の大きさおよびアクセント種別の
情報を出力する。

【００４１】関西弁以外のアクセント型を実現する際
に、上述したような型で表現できない場合には、さらに
アクセント種別を拡張して、アクセント型を追加するこ
とも考えられる。また、方言選択パラメータに基づいて
アクセント変換規則を選択することにより、１つの装置
で複数の方言アクセント型を切り替えて音声合成するこ
とが可能になる。方言選択パラメータは設定画面を用い
て設定することができ、例えば整数で０が標準語、１が
関西弁、２が鹿児島弁等というように設定することがで
きる。

【００４２】次に、関西弁風の音声を合成する際のアク
セント変換規則の具体例を示す。例えば、（１）２モーラの文節は０型を１型に、１型を０型に変
換する（２）３モーラ以上の１型文節で、第１母音と第２母音
が異なる場合には２型に変換する（３）２型アクセントは低起型にする（４）上記（３）以外で（アクセント型≧モーラ数）で
あれば高起型に変換する（５）上記（４）以外で２モーラであれば低起型に変換
する（６）上記（５）以外でモーラ数が奇数であれば低起
型、偶数であれば高起型に変換するといった規則の組を関西弁風アクセント変換規則とし
て、アクセント変換規則記憶部４０１に記憶する。この
変換規則（３）において、２型アクセントは低起型でも
標準型でも同じ形状であるので、どちらを選んでもよ
い。

【００４３】例文を用いて、この規則を用いた変換例を
示す。例えば、「テレビゲームやパソコンでゲームをし
て遊ぶ」という例文をテキスト処理手段２へ入力した場
合を考える。テキスト処理手段によって、「テレビゲ
ームや・パソコンで・ゲームを・して・あそぶ」という
文節に区切られたとする。ここでは、文節区切りを中点
（・）で表すことにする。このとき、各文節の標準語ア
クセント型は、「４・０・１・０・０」となる。このア
クセントを音の高低（Ｈ：高音、Ｌ：低音）で表すと、
「ＬＨＨＨＬＬＬ・ＬＨＨＨＨ・ＨＬＬＬ・ＬＨ・ＬＨ
Ｈ」のようになる。上記変換規則により各文節のアクセ
ント型は、「低起４・低起０・高起１・高起１・低起
３」のように変換される。このアクセントを音の高低で
表すと、「ＬＬＬＨＬＬＬ・ＬＬＬＬＨ・ＨＬＬＬ・Ｈ
Ｌ・ＬＬＨ」のようになる。これにより、規則を用いて
概ね関西弁によくあるアクセントに変換できることが分
かる。

【００４４】本実施形態では、変換規則により変換を行
うことにより、方言のアクセント辞書を必要としないた
め、少ないコストで読み上げ音声のバリエーションを広
げることができる。

【００４５】（実施形態２）図４は、実施形態２の音声
合成装置の構成を説明するための図である。この音声合
成装置は、図１の構成に加えて、韻律変換手段４の内部
にバイパススイッチ４０５を有している。そして、テキ
スト処理手段２により非変換を指示された場合には、ア
クセント変換部４０２によるアクセント変換および音素
列変換部４０４による音素列変換を行わずに出力する。
この機能が効果を発揮するのは、言語辞書１が図７に示
したように方言アクセント記憶部１０３を有し、一部の
重要語および頻出単語についてのみ正しいアクセントを
記憶している場合である。

【００４６】この構成では、方言選択パラメータとし
て、テキスト処理手段２とアクセント変換部４０２に同
じパラメータを入力し、アクセントを統一するのが望ま
しい。

【００４７】例えば、テキスト処理手段２において、方
言アクセントで出力しようとする単語に対して、方言選
択パラメータによって指定された方言アクセントが言語
辞書１内に存在する場合には韻律変換指示コードとして
０を出力し、指定された方言アクセントが言語辞書１内
に存在しない場合には韻律変換指示コードとして１を出
力する。

【００４８】韻律変換手段４内のバイパススイッチ４０
５は、韻律変化指示コードが１のとき、アクセント変換
部４０２および音素列変換部４０４の方に情報を出力
し、韻律変換指示コードが０のときには、変換せずにそ
のまま規則音声合成手段３へ情報を出力する。

【００４９】本実施形態では、文節毎のテキスト処理手
段２からの出力および文節毎の韻律変換手段４からの出
力は、音素記号列、アクセント型、フレーズ成分の強
さ、ポーズの長さ、声の大きさおよびアクセントの種別
の情報となる。さらに、韻律変換手段４からは韻律変換
指示コードの情報も出力される。なお、アクセントの種
別はテキスト処理手段２および韻律変換手段４から出力
され、韻律変換指示コードにより変換が指示されていな
い場合にはテキスト処理手段からのアクセント種別が優
先される。また、韻律変換指示コードにより変換が指示
されている場合にはテキスト処理手段からのアクセント
種別は無視され、韻律変換手段によりアクセント種別が
決定される。

【００５０】バイパススイッチ４０５の操作は、テキス
ト処理手段２から指示される韻律変換指示コードに従っ
て韻律変換手段４が行ってもよく、アクセント変換部４
０２自身が行ってもよい。また、標準アクセントで音声
合成する場合にも、バイパススイッチ４０５を用いて、
アクセント変換および音素列変換を行わない。

【００５１】（実施形態３）図５は、本発明の音声合成
装置をコンピューターを用いて実現するための構成例を
示す図である。入力装置５は、シリアル通信、ネットワ
ーク通信またはキーボード等により音声合成対象となる
テキストデータを入力する。

【００５２】記憶媒体８は、実施形態１に示した言語辞
書１、テキスト処理手段２、規則音声合成手段３および
韻律変換手段４の各機能からなる音声合成プログラムを
記録したＣＤＲＯＭやフロッピー（登録商標）ディス
ク、フラッシュメモリ等の記録媒体である。記憶装置９
は、記憶媒体８のプログラムを読み込んだハードディス
クやフラッシュメモリ等の記憶装置である。ＲＡＭ１０
は、処理に必要な一次記憶に用いられる。

【００５３】出力装置７は、合成された音声を出力する
ためのＤ／Ａ変換器、アンプやスピーカ等で構成され
る。

【００５４】処理装置６は、記憶媒体９または記憶装置
１０に読み込まれた音声合成プログラムに従って、音声
合成処理を行うマイクロコンピューターやＤＳＰ等の処
理装置である。

【００５５】図６は、関西弁風アクセント変換規則をア
ルゴリズムで実現した場合のフローチャートを示す。こ
のアルゴリズム自体は、上記実施形態１と同様の処理動
作を行う。ステップ１１０１〜ステップ１１０７までが
アクセント核の位置を変換する処理であり、ステップ１
１０８〜ステップ１１１４までが高起型または低起型を
選択する処理である。ステップ１１０１〜ステップ１１
０５までが上記変換規則（１）に相当し、ステップ１１
０６およびステップ１１０７が上記変換規則（２）に相
当する。ステップ１１０８およびステップ１１０９が上
記変換規則（３）に相当し、ステップ１１１０およびス
テップ１１１１が上記変換規則（４）に相当する。ステ
ップ１１１２〜ステップ１１１４が上記変換規則（５）
および（６）に相当する。

【００５６】上記実施形態２についても、図５と同様の
構成により実現することが可能である。

【００５７】

【発明の効果】以上詳述したように、本発明によれば、
標準語アクセントに基づいて解析されて付与されたアク
セント型を、変換規則に基づいて変換するため、特別な
アクセント辞書を作成する必要がなく、従来開発コスト
がかかりすぎて実現が困難であった方言アクセントでの
音声合成が可能となる。さらに、メモリの増加量もほと
んど無いため、複数の方言や個人的な特徴のあるアクセ
ント等、多様な音声合成を１つの装置で行うことができ
る。

【００５８】また、標準語アクセントから関西弁に特徴
的な高起アクセント型や低起アクセント型に変換する変
換規則を用いることにより、関西弁風の音声を合成する
ことができる。

【００５９】さらに、一部の単語において方言のアクセ
ントが言語辞書に登録されている場合でも、方言アクセ
ントと標準語アクセントが混ざって音声の聴取者が混乱
するのを防ぐことができる。

【図面の簡単な説明】

【図１】実施形態１の音声合成装置の構成を示す図であ
る。

【図２】フレーズ形状の一例を示す図である。

【図３】（Ａ）〜（Ｃ）は実施形態１におけるアクセン
ト型の一例を示す図である。

【図４】実施形態２の音声合成装置の構成を示す図であ
る。

【図５】実施形態３の音声合成装置をコンピューターを
用いて実現する構成を示す図である。

【図６】アクセント変換規則をアルゴリズムで実現する
ためのフローチャートである。

【図７】従来の音声合成装置の構成を示す図である。

【符号の説明】

１言語辞書２テキスト処理手段３規則音声合成手段４韻律変換手段５入力装置６処理装置７出力装置８記憶媒体９記憶装置１０ＲＡＭ１０１形態素情報記憶部１０２標準語アクセント記憶部１０３方言アクセント記憶部３０１アクセント形状記憶部３０２アクセント生成部３０３フレーズ形状記憶部３０４フレーズ生成部３０５波形辞書３０６波形生成部４０１アクセント変換規則記憶部４０２アクセント変換部４０３音素列変換規則記憶部４０４音素列変換部４０５バイパススイッチ

Claims

【特許請求の範囲】

【請求項１】入力されたテキストデータを解析して、
音素列情報と韻律情報を出力するテキスト処理手段と、該テキスト処理手段がテキストデータを解析する際に参
照する言語辞書と、該テキスト処理手段から入力された韻律情報を変換規則
に基づいて異なる韻律情報に変換する韻律変換手段と、該音素列情報および変換された韻律情報から音声波形を
合成する規則音声合成手段とを有することを特徴とする
音声合成装置。
【請求項２】前記韻律変換手段は、アクセント変換規
則記憶部と、アクセント変換部とを有し、該アクセント変換部では、入力された方言選択パラメー
タに基づいて該アクセント変換規則記憶部に記憶された
変換規則を選択し、選択された変換規則に従って、韻律
情報の構成要素であるアクセント情報を、入力された情
報とは異なるアクセント型に変換することを特徴とする
請求項１に記載の音声合成装置。
【請求項３】前記韻律変換手段は、さらに、音素列変
換規則記憶部と、音素列変換部とを有し、該音素列変換部では、入力された規則選択パラメータに
基づいて該音素列変換規則記憶部に記憶された変換規則
を選択し、選択された変換規則に従って、音素列情報
を、入力された音素列とは異なる音素列に変換すること
を特徴とする請求項２に記載の音声合成装置。
【請求項４】前記アクセント変換部は、変換規則に従
ってアクセント型を変換する際に、入力される全ての文
節に対して、標準語におけるアクセント核の位置を示す
アクセント型から、方言に特徴的な高起アクセント型ま
たは低起アクセント型への変換を行うことを特徴とする
請求項２または請求項３に記載の音声合成装置。
【請求項５】前記韻律変換手段は、前記アクセント変
換部と前記音素列変換部とをバイパスするバイパススイ
ッチを有し、標準語を基本とする前記言語辞書の一部の単語に、方言
の韻律を併せて保持し、方言風の音声を合成する際に、テキスト処理された単語
に目的とする方言の韻律が存在する場合には、アクセン
ト型と音素列を変換せずに該言語辞書に保持している方
言の韻律を用いて音声を合成し、目的とする方言の韻律
が存在しない場合には標準語の韻律からアクセント変換
と音素列変換を行って音声を合成することを特徴とする
請求項３または請求項４に記載の音声合成装置。
【請求項６】入力されたテキストデータを解析して、
音素列情報と韻律情報を出力するテキスト処理手段と、
該テキスト処理手段がテキストデータを解析する際に参
照する言語辞書と、該テキスト処理手段から入力された
韻律情報を変換規則に基づいて異なる韻律情報に変換す
る韻律変換手段と、該音素列情報および変換された韻律
情報から音声波形を合成する規則音声合成手段とを用い
て音声合成を行う方法であって、該韻律変換手段により、入力された方言選択パラメータ
に基づいてアクセント変換規則を選択し、選択されたア
クセント変換規則に従って、韻律情報の構成要素である
アクセント情報を、入力された情報とは異なるアクセン
ト型に変換する際に、入力される全ての文節に対して、
標準語におけるアクセント核の位置を示すアクセント型
から、方言に特徴的な高起アクセント型または低起アク
セント型への変換を行うことを特徴とする音声合成方
法。
【請求項７】標準語を基本とする前記言語辞書の一部
の単語に、方言の韻律を併せて保持し、方言風の音声波形を合成する際に、テキスト処理された
単語に目的とする方言の韻律が存在する場合には、アク
セント型と音素列を変換せずに該言語辞書に保持してい
る方言の韻律を用いて音声を合成し、目的とする方言の
韻律が存在しない場合には標準語の韻律からアクセント
変換と音素列変換を行って音声を合成することを特徴と
する請求項６に記載の音声合成方法。
【請求項８】入力されたテキストデータを解析して、
音素列情報と韻律情報を出力するテキスト処理機能と、
該テキストデータを解析する際に参照する言語辞書と、
該テキスト処理機能により得られた韻律情報を変換規則
に基づいて異なる韻律情報に変換する韻律変換機能と、
該音素列情報および変換された韻律情報から音声波形を
合成する規則音声合成機能とを有する音声合成プログラ
ムであって、該韻律変換機能により、入力された方言選択パラメータ
に基づいてアクセント変換規則を選択し、選択されたア
クセント変換規則に従って、韻律情報の構成要素である
アクセント情報を、入力された情報とは異なるアクセン
ト型に変換する際に、入力される全ての文節に対して、
標準語におけるアクセント核の位置を示すアクセント型
から、方言に特徴的な高起アクセント型または低起アク
セント型への変換を行うことを特徴とする音声合成プロ
グラム。
【請求項９】標準語を基本とする前記言語辞書の一部
の単語に、方言の韻律を併せて保持し、方言風の音声を合成する際に、テキスト処理された単語
に目的とする方言の韻律が存在する場合には、アクセン
ト型と音素列を変換せずに該言語辞書に保持している方
言の韻律を用いて音声を合成し、目的とする方言の韻律
が存在しない場合には標準語の韻律からアクセント変換
と音素列変換を行って音声を合成することを特徴とする
請求項８に記載の音声合成プログラム。