JPH11296193A

JPH11296193A - 音声合成装置

Info

Publication number: JPH11296193A
Application number: JP10110253A
Authority: JP
Inventors: Shigeru Kafuku; 滋加福
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 1998-04-06
Filing date: 1998-04-06
Publication date: 1999-10-29

Abstract

(57)【要約】【課題】女性文には女性の声を男性文には男性の声を
適応的に合成して聞き手に違和感を与えないようにす
る。【解決手段】単語辞書に格納された各単語の、女性文
又は男性文における出現度合いを保持する保持手段、テ
キスト解析部で切り出された各単語の、女性文又は男性
文における出現度合いを前記保持手段から取り出して集
計し、該集計値に基づいて入力テキスト文の性別を判定
する判定手段、該判定手段の判定結果に従って合成音声
の声質を指定する指定手段を備える。入力テキストの性
別を判定し、その性別に適合した声質の合成音声を生成
でき、入力テキストの内容と声質の間の違和感をなくす
ことができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、意味のある言葉又
はそれを表す音声の単位として（その言葉を母国語とす
る人が）聴き取ることのできる音（波形）を、直接、人
の声によらないで作り出す音声合成装置に関する。

【０００２】

【従来の技術】音声合成装置は、原理的に、単語を単
位としてあらかじめ録音されている音声波形をつなぎあ
わせる録音編集方式、単音節・単音又は１ピッチ単位
の音声素片波形を連結する素片編集合成方式、発生さ
れた音声波形をいったん分析し、それを元の音声に復元
する分析合成方式、分析合成の処理をさらに高度に普
遍化した純粋合成方式などに分類できる。特に、と
はテキスト音声合成とも呼ばれ、我々が通常用いるかな
漢字混じりの文章（注１）を、アクセントやイントネー
ションを付与した自然な合成音声で出力することがで
き、例えば、ワードプロセッサなどでテキストを作成、
編集するだけで、任意の文章の音声出力（読み上げる）
を行うことができることから、様々な用途で幅広く利用
されている。

【０００３】注１：一般に、文章とは、文よりも大きな
言語単位で、それ自身完結し統一ある言語表現をなすも
の、若しくは、文字を連ねてまとまった思想を表現した
もの（広辞苑第三版）であるが、本発明ではかかる厳密
な解釈を採用しない。文であってもよく、また、その文
や文章中に多少の誤字脱字があっても構わない。要は、
通常の国語能力を持つ人が概ね文意を把握できる文字列
であればよい。又、文章を文書（文字で人の思想を表し
たもの：広辞苑第三版）と読み替えても差し支えない。

【０００４】図７は従来のテキスト音声合成装置の概念
的な構成図である。図において、テキスト音声合成装置
１は、大まかに、テキスト解析部２、合成パラメータ生
成部３及び音声合成部４に分けることができる。各部の
機能を簡単に説明すると、まず、テキスト解析部１は、
入力された漢字かな混じり文（図では入力テキスト）の
読み、アクセント、イントネーションを決定し、中間言
語と呼ばれる韻律記号付き発音記号列に変換するもので
ある。中間言語は、形態素解析（注２）、アクセント句
設定、呼気段落設定という三つのステップを経て生成さ
れる。

【０００５】注２：形態素解析（morphological analys
ys）とは、意味を持つ最小の言語単位（形態素）や語
（Word）の内部構造及び形式を研究対象とする形態論
（又は語形論）と呼ばれる学問分野で発達した解析手法
の一つであり、文字列を単語に区切り、さらに必要なら
ば単語を構成する接頭語、接尾語、派生語、屈折語など
を認識し、複合語の場合はその語基（語幹）を決定する
ことなどがその内容である。

【０００６】ここで、テキスト解析部１では、上記形態
素解析の手法を用いて単語の切り出しを行うが、その理
由は次のとおりである。すなわち、漢字には音・訓など
複数の読みがあって表記と読みは一対一に対応せず、ど
の読みになるかは単語の中で用いられて初めて決まる
し、同様にアクセントも単語に備わる性質であるからで
あり、このため、漢字の読みやアクセントを決めるに
は、まず、べた書きされた漢字かな混じり文の単語を一
語一語、正しく分割しなければならないからである。形
態素解析による単語切り出しの代表的（もっとも簡易的
な）な手法の一つに、左最長一致法（又は単に最長一致
法）と呼ばれるものがある。これは、文頭から単語辞書
と照合し、文法接続関係をチェックしながら順次に単語
系列に区分するというものである。

【０００７】図７において、５は単語切り出しの際に参
照される単語辞書である。この単語辞書５には、各単語
の「読み仮名」、「文法情報」及び「アクセント位置」
などが登録されており、形態素解析の結果としてこれら
の情報が得られる。次に、合成パラメータ生成部３は、
テキスト解析によって得られた中間言語から韻律記号
（韻律規則６）に応じた合成単位の選択、各音韻の継続
時間長及びピッチ（声の高さ）、振幅（声の大きさ）の
時間変化パターンなどを発生するものであり、音声合成
に必要な各種のパラメータを生成するものである。最後
に、音声合成部４は、合成パラメータ生成部３からパラ
メータの更新周期ごとにピッチや振幅及び音韻特徴など
のパラメータを受け取り、これらに基づいて合成音声を
生成するものである。

【０００８】ここで、音声の合成単位とは、任意の音声
を合成するために、あらかじめシステム内に用意（音声
素片７）しておく音声の断片又は素片（音声波形そのも
のとは限らない）のことである。素片には、ＣＶ単位
（Ｃ：子音Consonant、Ｖ：母音Vowel）と、母音から子
音への遷移部分（ＶＣ区間）も含むＣＶ／ＶＣ単位とが
あり、異なる音韻（母音−子音）間で単位の接続を行う
前者に比べ、後者のＣＶ／ＶＣ単位は音韻の接続に不連
続がなく、より自然な音声合成をできる点で、多くのシ
ステムに採用されている。

【０００９】音声合成の方法には、現在、パラメータ編
集（分析合成とも言う）と波形編集と呼ばれる二つの方
式が使用されている。前者は、合成単位を音声の生成モ
デルに基づいて分析し、声の高さや強さなどに相当する
音源パラメータと、／ア／や／イ／などの音色を表すス
ペクトル包絡パラメータ系列の形で蓄えておく方式であ
る。合成に際して、音源部分と声道部分を独立して制御
できるため、例えば、声の高さ（声帯の振動周波数）を
変えることにより、男性的な声（以下、男性の声）と女
性的な声（以下、女性の声）を容易に切り替えることが
できる。一方、後者の方法は、合成単位を自然音声にお
ける有声音の１ピッチ周期に相当する素片波形の系列と
して蓄積し、合成時には規則によって与えられたピッチ
周期に合わせて、ずらして重ね合わせることにより、ピ
ッチ周期を制御しながら、男性の声や女性の声で連続し
た音声波形を生成するものである。時間長の伸縮は、１
ピッチ素片波形を繰り返し使用したり、間引いたりする
ことで実現する。この方法は、波形をピッチ周期ごとに
重ね合わせて合成を行うため、ピッチ周期波形重畳法と
も呼ばれる。分析合成法に比べて、大量の波形データを
蓄積しなければならない反面、元の音声に対する変形が
少なく、明瞭な合成音声が得られる点で優れている。

【００１０】

【発明が解決しようとする課題】ところで、上記従来の
技術にあっては、声の高さを変えたり（分析合成方式の
場合）ピッチ周期を制御したり（波形編集方式）して、
合成音声の性別（男性の声と女性の声）を適宜に変える
ことができるが、かかる音声の質（以下、声質という）
の切り替えは、もっぱら外部からの人為的な指示による
ものであり、誤った声質を与えた場合には、例えば、女
性的な文章（以下、女性文という。同様に男性的な文章
は男性文という。）を男性の声で読み上げてしまうとい
う不都合があり、違和感を感じて聞き苦しいという問題
点があった。そこで本発明は、女性文には女性の声を男
性文には男性の声を適応的に合成して聞き手に違和感を
与えないようにした音声合成装置を提供することを目的
とする。

【００１１】

【課題を解決するための手段】請求項１記載の発明に係
る音声合成装置は、テキストデータを読み込む手段と、
読み込んだテキストデータの内容から女性文と男性文を
識別する識別手段と、該識別結果に応じた声質で前記入
力テキストの合成音声を生成する音声生成手段とを具備
することを特徴とする。請求項２記載の発明に係る音声
合成装置は、単語辞書を参照しつつ入力テキストから単
語を切り出して中間言語に変換するテキスト解析部と、
前記中間言語から音声合成に必要な各種のパラメータを
生成する合成パラメータ生成部と、前記各種のパラメー
タに基づいて男性的な声又は女性的な声の声質の合成音
声を生成する音声合成部と、を備えた音声合成装置にお
いて、前記単語辞書に格納された各単語の、女性文又は
男性文における出現度合いを保持する保持手段と、前記
テキスト解析部で切り出された各単語の、女性文又は男
性文における出現度合いを前記保持手段から取り出して
集計し、該集計値に基づいて前記入力テキスト文の性別
を判定する判定手段と、該判定手段の判定結果に従って
前記合成音声の声質を指定する指定手段と、を備えたこ
とを特徴とする。請求項３記載の発明に係る音声合成装
置は、請求項２記載の発明に係る音声合成装置におい
て、前記音声合成部は、男性的な声のデータと女性的な
声のデータを共に持ち、該データを切り替えることによ
って、男性的な声又は女性的な声の声質の合成音声を生
成することを特徴とする。請求項４記載の発明に係る音
声合成装置は、請求項２記載の発明に係る音声合成装置
において、前記音声合成部は、男性的な声のデータ又は
女性的な声のデータ若しくは中性的な声のデータを持
ち、該データのピッチ又は周波数を変えることによっ
て、男性的な声又は女性的な声の声質の合成音声を生成
することを特徴とする。

【００１２】

【発明の実施の形態】以下、本発明の実施の形態を、テ
キスト音声合成装置を例にして図面を参照しながら説明
する。図１において、１０はテキスト合成装置であり、
テキスト合成装置１０は、音声合成プログラム（後述）
を含む所要のプログラム格納した第１のＲＯＭ１１と、
これらのプログラムを適宜に実行するＣＰＵ１２と、同
プログラムを実行する際の一時記憶エリアとして用いら
れるＲＡＭ１３と、単語辞書１４ａ及び出現度合い情報
１４ｂ（保持手段）を格納した第２のＲＯＭ１４と、男
性的な声質と女性的な声質の各々の音声波形データ（以
下、便宜的に男性音声データ１５ａ、女性音声データ１
５ｂという）を格納した第３のＲＯＭ１５と、外部の例
えばＣＤ−ＲＯＭドライブ１６との入力インターフェー
スをとる入力ＩＦ１７と、外部の例えば拡声装置１８と
の出力インターフェースをとる出力ＩＦ１９と、これら
各部の間を接続するバスとを含んでいる。

【００１３】なお、図では、第１のＲＯＭ１１、第２の
ＲＯＭ１４及び第３のＲＯＭ１５を別々に描いている
が、これは、ＣＰＵ１２のアドレス空間上での分離を意
味している。このことは、単語辞書１４ａ、出現度合い
情報１４ｂ、男性音声データ１５ａ及び女性音声データ
１５ｂも同様である。また、第１のＲＯＭ１１、第２の
ＲＯＭ１４及び第３のＲＯＭ１５は、必ずしも不揮発性
の半導体メモリ（すなわちＲＯＭ）である必要はない。
電源を切っても内部のデータを失わない記憶デバイスで
あればよく、例えば、バッテリバックアップされたＲＡ
Ｍや磁気ディスク装置であってもよい。

【００１４】ここで、第２のＲＯＭ１４と第３のＲＯＭ
１５に格納された四つのデータファイル、すなわち、単
語辞書１４ａ、出現度合い情報１４ｂ、男性音声データ
１５ａ及び女性音声データ１５ｂについて説明する。ま
ず、単語辞書１４ａは、冒頭の従来技術で説明したもの
と類似のものあり、形態素解析における単語切り出しの
際の参照辞書となるもので、例えば、数万語ないし十数
万語の単語について、各々の読み仮名、文法情報及びア
クセント位置などを登録したものである。次に、男性音
声データ１５ａと女性音声データ１５ｂは、冒頭の従来
技術における音声素片（図７の符号７参照）に相当する
ものであり、男性的な声質の音声素片又は音声断片を集
めたものが男性音声データ１５ａ、女性的な声質の音声
素片又は音声断片を集めたものが女性音声データ１５ｂ
である。最後に、出現度合い情報１４ｂは、冒頭の従来
技術に存在しないものであり、本実施の形態に特有のも
のである。この出現度合い情報１４ｂは、単語辞書１４
ａに登録された単語のすべて若しくは代表的な単語のそ
れぞれについて、男性文と女性文に出現する度合いを網
羅したものである（出現度合いの収集法は後述す
る。）。

【００１５】なお、男性文や女性文の典型は話し言葉で
書かれた文章である。一見して女性が書いたものか男性
が書いたものかを判別できるからである。なお、硬い調
子の文章（公用文など）は、男性文に分類してもよい。

【００１６】図２は第１のＲＯＭ１１に格納された音声
合成プログラムの要部フローであり、文章切り分けのス
テップ２０は、冒頭の従来技術におけるテキスト解析部
（図７の符号２参照）に相当するものである。すなわ
ち、このステップ２０では、単語辞書１４ａを参照しな
がら、入力された漢字かな混じり文（入力テキスト）の
読み、アクセント、イントネーションを決定し、中間言
語と呼ばれる韻律記号付き発音記号列に変換するもので
あり、中間言語は、形態素解析、アクセント句設定、呼
気段落設定という三つのステップを経て生成されるもの
である。次のステップ３０（判定手段）は、本実施の形
態に特有のものであり、出現度合い情報１４ｂを参照し
ながら、入力テキストの性別（男性文、女性文若しくは
どちらでもない中性文）を判定するものである。

【００１７】ここで、入力テキストの性別判定は、以下
のようにして行う。まず、入力テキストを図３のとおり
と仮定する。この仮定文は、句点と改行で区切られた三
つの文（又は文章）から構成されている。今、最後の行
に注目すると、形態素解析の手法を用いれば、この文
は、「夢」、「の」、「中」「の」、「あたし」、「と
は」、「おお」、「違い」に切り分けることができる。
これらの切り分け要素のそれぞれにからまでの符号
を付して識別すれば、、、及びの品詞は名詞、
とは格助詞、は副助詞、はの接頭語というこ
とができ、また、各要素のアクセントも記号（［：アク
セント上がる、］：アクセント下がる）のように示すこ
とができる。なお、言うまでもなくこれらの品詞やアク
セントの決定は単語辞書１４ａの登録情報によるもので
ある。

【００１８】上述のとおり、入力テキストの各切り出し
要素（〜）は、出現度合い情報１４ｂと照合が取ら
れ、各要素ごとの男性文や女性文での出現の度合いを示
す数値が取り出される。図４は取り出された数値の一例
である。図４において、の数値は「５２」、の数値
は「４８」、の数値は「５１」、の数値は「５
０」、の数値は「９」、の数値は「５０」、と
の数値は「４６」である。これらの数値から所定の閾値
（図では「５０」）を引き去り、残りを合計して入力テ
キストの性別判断の数値とする。

【００１９】出現度合いの収集方法によっても異なる
が、例えば、単語α（この符号には意味はない。以下同
様）が男性によって必ず使われるとともに、女性には絶
対に使われない仮定し、さらに、単語βが女性によって
必ず使われるとともに、男性には絶対に使われない仮定
し、かつ、単語γが男性にも女性にも等しく使われると
仮定したとき、単語αの出現度合いを「１００」、単語
βの出現度合いを「０」、単語γの出現度合いを中間の
「５０」とすれば、図４の合計値「−４４」は負値であ
り、明らかに「女性によって必ず使われるとともに、男
性には絶対に使われない」単語βの出件度合い「０」よ
りも遥かに小さいから、図示の例文（“夢の中の・・・・大
違い。"）の場合、女性の性別を持つ入力テキストと判
定して差し支えない。したがって、この場合は、図２に
おいて、ステップ４０でＮｏ命令、ステップ５０でＹｅ
ｓ命令となり、ステップ６０（指定手段）で女性音声デ
ータ１５ｂを用いた音声合成を行い、ステップ７０で女
性の声の声質で入力テキストの音声出力を行う。

【００２０】一方、図４の合計値が閾値「５０」を大き
く上回っていれば、この場合は、「男性によって必ず使
われるとともに、女性には絶対に使われない」単語αの
出件度合い「１００」に接近するから、男性の性別を持
つ入力テキストと判定し、ステップ８０（指定手段）で
男性音声データ１５ａを用いた音声合成を行い、ステッ
プ７０で男性の声の声質で入力テキストの音声出力を行
う。

【００２１】なお、文章の中には、男性文や女性文に区
分できないものが多くあるが、これらはすべて男性文と
みなして差し支えないから、両性いずれにも判定できな
い場合（出現度合い「５０」を中心に余裕を持ってその
±３０程度）は、ステップ８０で男性音声データ１５ａ
を用いた音声合成を行い、ステップ７０で男性の声の声
質で入力テキストの音声出力を行うようにする。以上の
とおり、本実施の形態によれば、入力テキストの性別を
自動的に判定してその性別に適合した声質の合成音声を
生成するので、文章内容と読み上げ声質との間に違和感
を生じることがないという従来技術にない有利な効果が
得られる。

【００２２】図５は出現度合いを収集するための処理フ
ローであり、このフローは、あらかじめ書き手の性別が
判明し、かつ、言葉づかいにもその性別が反映されてい
る大量の文章の各々に対して適用する。このフローにお
いて、まず、最初の文章を読み込み（ステップ１０
０）、その文章の書き手の性別を入力する（ステップ１
１０）。次いで、先に述べた形態素解析の手法を用いて
文章を切り分け（ステップ１２０）、各切り分け要素ご
とに同一の単語が出現する度に出現度合い情報の同単語
の数値を「＋１」し又は「−１」する（ステップ１３
０）。ここで、「＋１」は対象となる文章の書き手が男
性の場合、「−１」は女性の場合である。このようにす
る理由は、例えば、男性と女性で共通に使われる単語
（先の例で言えば単語γ）の出現度合いを「５０」に収
束させることができるからである。

【００２３】次に、すべての切り分け要素に対して、ス
テップ１２０〜１３０を繰り返した後（ステップ１４
０）、用意されたすべての文章がなくなるまで、ステッ
プ１００〜１４０を繰り返し、文章がなくなると処理を
終了する（ステップ９０）。したがって、図５の処理フ
ローによれば、男性文と女性文の区別がはっきりしてい
る文章をより多く処理することにより、単語辞書１４ａ
に登録された単語の各々について、男性が使うもの女性
が使うもの又は両性で共通に使うものを数値化でき、図
２の音声合成装置に用いて好適な「出現度合い情報」を
形成できる。

【００２４】なお、上記実施の形態では、女性音声デー
タ（図２の符号１５ｂ参照）と男性音声データ（同図の
符号１５ａ参照）とを備え、これらを切り替えているが
これに限らない。例えば、いずれか一方の音声データ若
しくは中性的な音声データを備え、このデータの周波数
又はピッチを操作して、判定された入力テキストの性別
に適合させてもよく、このようにすると、データ量の削
減が図られるから好ましい。

【００２５】さらに、上記実施の形態の主要な機能（図
２の文章切り分けステップ２０、同図の単語辞書１４
ａ、同図の文章の性別判定ステップ３０、同図の出現度
合い情報１４ｂ、同図の音声合成ステップ６０、８０、
同図の女性音声データ１５ｂ、同図の男性音声データ１
５ａ、及び、同図の音声出力ステップ７０など）は、ハ
ードロジックでも実現可能であるが、開発効率などを考
慮するとソフトウエアで実現するのが望ましい。この場
合、上記主要な機能を実現するためのプログラムを格納
した記録媒体（ＲＯＭ、フロッピーディスク、ＭＯ、Ｃ
Ｄ、ハードディスク、半導体メモリなど）を提供すれば
よい。当該プログラムをコンピュータにインストールし
て実行すれば、上記実施の形態の作用効果を得ることが
できる。

【００２６】図６は、本発明の適用例を示す図であり、
特に限定しないが、持ち運び可能な電子書籍閲覧装置
（電子ブックなどとも呼ばれる）の例である。図におい
て、閲覧装置１５０は、小型のボディに、液晶ディスプ
レイ１５１、電源スイッチ１５２、ページアップボタン
１５３、同ダウンボタン１５４及びスピーカ１５５など
を備えており、ページアップボタン１５３や同ダウンボ
タン１５４を押しながら、文字（テキスト）情報主体の
電子書籍（小説、新聞の抜粋あるいは文字放送など；外
部のパソコン等からダウンロードしたもの）の読みたい
ページを液晶ディスプレイ１５１に適宜に表示して閲覧
するというものである。

【００２７】かかる電子書籍閲覧装置１５０において、
文字情報の表示と音声の読み上げを同時に行うことがで
きれば、例えば、視覚障害者はもちろんのこと、健常者
にとってもきわめて便利であるが、音声情報はデータ量
が相当大きく、大容量のメモリを必要とする上、ダウン
ロードにも長い時間がかかるという問題点があり、現実
的でない。そこで、本発明の技術を適用すれば、こうし
た問題点を招かずに、電子書籍の情報を「女性文」と
「男性文」に区別し、その文章の性別に適合した声質で
音声合成して読み上げることができ、特に視覚障害者に
対する利便性を向上できるから、社会生活上の格別有益
な効果が得られる。

【００２８】

【発明の効果】請求項１又は請求項２記載の発明によれ
ば、入力テキストの性別を判定し、その性別に適合した
声質の合成音声を生成できる。したがって、入力テキス
トの内容と声質の間の違和感をなくすことができる。請
求項３記載の発明によれば、男性的な声のデータと女性
的な声のデータを持つので、複雑な信号処理を施すこと
なく、性別に応じた聞き分けやすい声質の合成音声を容
易に生成できる。請求項４記載の発明によれば。男性的
な声のデータ又は女性的な声のデータ若しくは中性的な
声のデータを持つので、両性のデータを持つものに比べ
て、大幅なデータ量の削減を図ることができる。

【図面の簡単な説明】

【図１】実施の形態の概念構成図である。

【図２】音声合成プログラムの要部フローである。

【図３】入力テキストの一例及びその切り出し概念図で
ある。

【図４】入力テキスト性別判定演算の説明図である。

【図５】出現度合い情報の収集フロー図である。

【図６】電子ブックの外観図である。

【図７】従来の音声合成装置の概略構成図である。

【符号の説明】

２テキスト解析部３合成パラメータ生成部４音声合成部１４ｂ出現度合い情報（保持手段）１４ａ単語辞書３０文章の性別判定ステップ（判定手段）６０音声合成ステップ（指定手段）８０音声合成ステップ（指定手段）

Claims

【特許請求の範囲】

【請求項１】テキストデータを読み込む手段と、読み
込んだ入力テキストデータの単語の内容から女性文と男
性文を識別する識別手段とし、該識別結果に応じた声質
で前記入力テキストの合成音声を生成する音声生成手段
とを具備することを特徴とする音声合成装置。
【請求項２】単語辞書を参照しつつ入力テキストから
単語を切り出して中間言語に変換するテキスト解析部
と、前記中間言語から音声合成に必要な各種のパラメータを
生成する合成パラメータ生成部と、前記各種のパラメータに基づいて男性的な声又は女性的
な声の声質の合成音声を生成する音声合成部と、を備え
た音声合成装置において、前記単語辞書に格納された各単語の、女性文又は男性文
における出現度合いを保持する保持手段と、前記テキスト解析部で切り出された各単語の、女性文又
は男性文における出現度合いを前記保持手段から取り出
して集計し、該集計値に基づいて前記入力テキスト文の
性別を判定する判定手段と、該判定手段の判定結果に従って前記合成音声の声質を指
定する指定手段と、を備えたことを特徴とする音声合成装置。
【請求項３】前記音声合成部は、男性的な声のデータ
と女性的な声のデータを共に持ち、該データを切り替え
ることによって、男性的な声又は女性的な声の声質の合
成音声を生成することを特徴とする請求項２記載の音声
合成装置。
【請求項４】前記音声合成部は、男性的な声のデータ
又は女性的な声のデータ若しくは中性的な声のデータを
持ち、該データのピッチ又は周波数を変えることによっ
て、男性的な声又は女性的な声の声質の合成音声を生成
することを特徴とする請求項２記載の音声合成装置。