JPH11296193A - 音声合成装置 - Google Patents
音声合成装置Info
- Publication number
- JPH11296193A JPH11296193A JP10110253A JP11025398A JPH11296193A JP H11296193 A JPH11296193 A JP H11296193A JP 10110253 A JP10110253 A JP 10110253A JP 11025398 A JP11025398 A JP 11025398A JP H11296193 A JPH11296193 A JP H11296193A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- sentence
- data
- speech
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
(57)【要約】
【課題】 女性文には女性の声を男性文には男性の声を
適応的に合成して聞き手に違和感を与えないようにす
る。 【解決手段】 単語辞書に格納された各単語の、女性文
又は男性文における出現度合いを保持する保持手段、テ
キスト解析部で切り出された各単語の、女性文又は男性
文における出現度合いを前記保持手段から取り出して集
計し、該集計値に基づいて入力テキスト文の性別を判定
する判定手段、該判定手段の判定結果に従って合成音声
の声質を指定する指定手段を備える。入力テキストの性
別を判定し、その性別に適合した声質の合成音声を生成
でき、入力テキストの内容と声質の間の違和感をなくす
ことができる。
適応的に合成して聞き手に違和感を与えないようにす
る。 【解決手段】 単語辞書に格納された各単語の、女性文
又は男性文における出現度合いを保持する保持手段、テ
キスト解析部で切り出された各単語の、女性文又は男性
文における出現度合いを前記保持手段から取り出して集
計し、該集計値に基づいて入力テキスト文の性別を判定
する判定手段、該判定手段の判定結果に従って合成音声
の声質を指定する指定手段を備える。入力テキストの性
別を判定し、その性別に適合した声質の合成音声を生成
でき、入力テキストの内容と声質の間の違和感をなくす
ことができる。
Description
【0001】
【発明の属する技術分野】本発明は、意味のある言葉又
はそれを表す音声の単位として(その言葉を母国語とす
る人が)聴き取ることのできる音(波形)を、直接、人
の声によらないで作り出す音声合成装置に関する。
はそれを表す音声の単位として(その言葉を母国語とす
る人が)聴き取ることのできる音(波形)を、直接、人
の声によらないで作り出す音声合成装置に関する。
【0002】
【従来の技術】音声合成装置は、原理的に、単語を単
位としてあらかじめ録音されている音声波形をつなぎあ
わせる録音編集方式、単音節・単音又は1ピッチ単位
の音声素片波形を連結する素片編集合成方式、発生さ
れた音声波形をいったん分析し、それを元の音声に復元
する分析合成方式、分析合成の処理をさらに高度に普
遍化した純粋合成方式などに分類できる。特に、と
はテキスト音声合成とも呼ばれ、我々が通常用いるかな
漢字混じりの文章(注1)を、アクセントやイントネー
ションを付与した自然な合成音声で出力することがで
き、例えば、ワードプロセッサなどでテキストを作成、
編集するだけで、任意の文章の音声出力(読み上げる)
を行うことができることから、様々な用途で幅広く利用
されている。
位としてあらかじめ録音されている音声波形をつなぎあ
わせる録音編集方式、単音節・単音又は1ピッチ単位
の音声素片波形を連結する素片編集合成方式、発生さ
れた音声波形をいったん分析し、それを元の音声に復元
する分析合成方式、分析合成の処理をさらに高度に普
遍化した純粋合成方式などに分類できる。特に、と
はテキスト音声合成とも呼ばれ、我々が通常用いるかな
漢字混じりの文章(注1)を、アクセントやイントネー
ションを付与した自然な合成音声で出力することがで
き、例えば、ワードプロセッサなどでテキストを作成、
編集するだけで、任意の文章の音声出力(読み上げる)
を行うことができることから、様々な用途で幅広く利用
されている。
【0003】注1:一般に、文章とは、文よりも大きな
言語単位で、それ自身完結し統一ある言語表現をなすも
の、若しくは、文字を連ねてまとまった思想を表現した
もの(広辞苑第三版)であるが、本発明ではかかる厳密
な解釈を採用しない。文であってもよく、また、その文
や文章中に多少の誤字脱字があっても構わない。要は、
通常の国語能力を持つ人が概ね文意を把握できる文字列
であればよい。又、文章を文書(文字で人の思想を表し
たもの:広辞苑第三版)と読み替えても差し支えない。
言語単位で、それ自身完結し統一ある言語表現をなすも
の、若しくは、文字を連ねてまとまった思想を表現した
もの(広辞苑第三版)であるが、本発明ではかかる厳密
な解釈を採用しない。文であってもよく、また、その文
や文章中に多少の誤字脱字があっても構わない。要は、
通常の国語能力を持つ人が概ね文意を把握できる文字列
であればよい。又、文章を文書(文字で人の思想を表し
たもの:広辞苑第三版)と読み替えても差し支えない。
【0004】図7は従来のテキスト音声合成装置の概念
的な構成図である。図において、テキスト音声合成装置
1は、大まかに、テキスト解析部2、合成パラメータ生
成部3及び音声合成部4に分けることができる。各部の
機能を簡単に説明すると、まず、テキスト解析部1は、
入力された漢字かな混じり文(図では入力テキスト)の
読み、アクセント、イントネーションを決定し、中間言
語と呼ばれる韻律記号付き発音記号列に変換するもので
ある。中間言語は、形態素解析(注2)、アクセント句
設定、呼気段落設定という三つのステップを経て生成さ
れる。
的な構成図である。図において、テキスト音声合成装置
1は、大まかに、テキスト解析部2、合成パラメータ生
成部3及び音声合成部4に分けることができる。各部の
機能を簡単に説明すると、まず、テキスト解析部1は、
入力された漢字かな混じり文(図では入力テキスト)の
読み、アクセント、イントネーションを決定し、中間言
語と呼ばれる韻律記号付き発音記号列に変換するもので
ある。中間言語は、形態素解析(注2)、アクセント句
設定、呼気段落設定という三つのステップを経て生成さ
れる。
【0005】注2:形態素解析(morphological analys
ys)とは、意味を持つ最小の言語単位(形態素)や語
(Word)の内部構造及び形式を研究対象とする形態論
(又は語形論)と呼ばれる学問分野で発達した解析手法
の一つであり、文字列を単語に区切り、さらに必要なら
ば単語を構成する接頭語、接尾語、派生語、屈折語など
を認識し、複合語の場合はその語基(語幹)を決定する
ことなどがその内容である。
ys)とは、意味を持つ最小の言語単位(形態素)や語
(Word)の内部構造及び形式を研究対象とする形態論
(又は語形論)と呼ばれる学問分野で発達した解析手法
の一つであり、文字列を単語に区切り、さらに必要なら
ば単語を構成する接頭語、接尾語、派生語、屈折語など
を認識し、複合語の場合はその語基(語幹)を決定する
ことなどがその内容である。
【0006】ここで、テキスト解析部1では、上記形態
素解析の手法を用いて単語の切り出しを行うが、その理
由は次のとおりである。すなわち、漢字には音・訓など
複数の読みがあって表記と読みは一対一に対応せず、ど
の読みになるかは単語の中で用いられて初めて決まる
し、同様にアクセントも単語に備わる性質であるからで
あり、このため、漢字の読みやアクセントを決めるに
は、まず、べた書きされた漢字かな混じり文の単語を一
語一語、正しく分割しなければならないからである。形
態素解析による単語切り出しの代表的(もっとも簡易的
な)な手法の一つに、左最長一致法(又は単に最長一致
法)と呼ばれるものがある。これは、文頭から単語辞書
と照合し、文法接続関係をチェックしながら順次に単語
系列に区分するというものである。
素解析の手法を用いて単語の切り出しを行うが、その理
由は次のとおりである。すなわち、漢字には音・訓など
複数の読みがあって表記と読みは一対一に対応せず、ど
の読みになるかは単語の中で用いられて初めて決まる
し、同様にアクセントも単語に備わる性質であるからで
あり、このため、漢字の読みやアクセントを決めるに
は、まず、べた書きされた漢字かな混じり文の単語を一
語一語、正しく分割しなければならないからである。形
態素解析による単語切り出しの代表的(もっとも簡易的
な)な手法の一つに、左最長一致法(又は単に最長一致
法)と呼ばれるものがある。これは、文頭から単語辞書
と照合し、文法接続関係をチェックしながら順次に単語
系列に区分するというものである。
【0007】図7において、5は単語切り出しの際に参
照される単語辞書である。この単語辞書5には、各単語
の「読み仮名」、「文法情報」及び「アクセント位置」
などが登録されており、形態素解析の結果としてこれら
の情報が得られる。次に、合成パラメータ生成部3は、
テキスト解析によって得られた中間言語から韻律記号
(韻律規則6)に応じた合成単位の選択、各音韻の継続
時間長及びピッチ(声の高さ)、振幅(声の大きさ)の
時間変化パターンなどを発生するものであり、音声合成
に必要な各種のパラメータを生成するものである。最後
に、音声合成部4は、合成パラメータ生成部3からパラ
メータの更新周期ごとにピッチや振幅及び音韻特徴など
のパラメータを受け取り、これらに基づいて合成音声を
生成するものである。
照される単語辞書である。この単語辞書5には、各単語
の「読み仮名」、「文法情報」及び「アクセント位置」
などが登録されており、形態素解析の結果としてこれら
の情報が得られる。次に、合成パラメータ生成部3は、
テキスト解析によって得られた中間言語から韻律記号
(韻律規則6)に応じた合成単位の選択、各音韻の継続
時間長及びピッチ(声の高さ)、振幅(声の大きさ)の
時間変化パターンなどを発生するものであり、音声合成
に必要な各種のパラメータを生成するものである。最後
に、音声合成部4は、合成パラメータ生成部3からパラ
メータの更新周期ごとにピッチや振幅及び音韻特徴など
のパラメータを受け取り、これらに基づいて合成音声を
生成するものである。
【0008】ここで、音声の合成単位とは、任意の音声
を合成するために、あらかじめシステム内に用意(音声
素片7)しておく音声の断片又は素片(音声波形そのも
のとは限らない)のことである。素片には、CV単位
(C:子音Consonant、V:母音Vowel)と、母音から子
音への遷移部分(VC区間)も含むCV/VC単位とが
あり、異なる音韻(母音−子音)間で単位の接続を行う
前者に比べ、後者のCV/VC単位は音韻の接続に不連
続がなく、より自然な音声合成をできる点で、多くのシ
ステムに採用されている。
を合成するために、あらかじめシステム内に用意(音声
素片7)しておく音声の断片又は素片(音声波形そのも
のとは限らない)のことである。素片には、CV単位
(C:子音Consonant、V:母音Vowel)と、母音から子
音への遷移部分(VC区間)も含むCV/VC単位とが
あり、異なる音韻(母音−子音)間で単位の接続を行う
前者に比べ、後者のCV/VC単位は音韻の接続に不連
続がなく、より自然な音声合成をできる点で、多くのシ
ステムに採用されている。
【0009】音声合成の方法には、現在、パラメータ編
集(分析合成とも言う)と波形編集と呼ばれる二つの方
式が使用されている。前者は、合成単位を音声の生成モ
デルに基づいて分析し、声の高さや強さなどに相当する
音源パラメータと、/ア/や/イ/などの音色を表すス
ペクトル包絡パラメータ系列の形で蓄えておく方式であ
る。合成に際して、音源部分と声道部分を独立して制御
できるため、例えば、声の高さ(声帯の振動周波数)を
変えることにより、男性的な声(以下、男性の声)と女
性的な声(以下、女性の声)を容易に切り替えることが
できる。一方、後者の方法は、合成単位を自然音声にお
ける有声音の1ピッチ周期に相当する素片波形の系列と
して蓄積し、合成時には規則によって与えられたピッチ
周期に合わせて、ずらして重ね合わせることにより、ピ
ッチ周期を制御しながら、男性の声や女性の声で連続し
た音声波形を生成するものである。時間長の伸縮は、1
ピッチ素片波形を繰り返し使用したり、間引いたりする
ことで実現する。この方法は、波形をピッチ周期ごとに
重ね合わせて合成を行うため、ピッチ周期波形重畳法と
も呼ばれる。分析合成法に比べて、大量の波形データを
蓄積しなければならない反面、元の音声に対する変形が
少なく、明瞭な合成音声が得られる点で優れている。
集(分析合成とも言う)と波形編集と呼ばれる二つの方
式が使用されている。前者は、合成単位を音声の生成モ
デルに基づいて分析し、声の高さや強さなどに相当する
音源パラメータと、/ア/や/イ/などの音色を表すス
ペクトル包絡パラメータ系列の形で蓄えておく方式であ
る。合成に際して、音源部分と声道部分を独立して制御
できるため、例えば、声の高さ(声帯の振動周波数)を
変えることにより、男性的な声(以下、男性の声)と女
性的な声(以下、女性の声)を容易に切り替えることが
できる。一方、後者の方法は、合成単位を自然音声にお
ける有声音の1ピッチ周期に相当する素片波形の系列と
して蓄積し、合成時には規則によって与えられたピッチ
周期に合わせて、ずらして重ね合わせることにより、ピ
ッチ周期を制御しながら、男性の声や女性の声で連続し
た音声波形を生成するものである。時間長の伸縮は、1
ピッチ素片波形を繰り返し使用したり、間引いたりする
ことで実現する。この方法は、波形をピッチ周期ごとに
重ね合わせて合成を行うため、ピッチ周期波形重畳法と
も呼ばれる。分析合成法に比べて、大量の波形データを
蓄積しなければならない反面、元の音声に対する変形が
少なく、明瞭な合成音声が得られる点で優れている。
【0010】
【発明が解決しようとする課題】ところで、上記従来の
技術にあっては、声の高さを変えたり(分析合成方式の
場合)ピッチ周期を制御したり(波形編集方式)して、
合成音声の性別(男性の声と女性の声)を適宜に変える
ことができるが、かかる音声の質(以下、声質という)
の切り替えは、もっぱら外部からの人為的な指示による
ものであり、誤った声質を与えた場合には、例えば、女
性的な文章(以下、女性文という。同様に男性的な文章
は男性文という。)を男性の声で読み上げてしまうとい
う不都合があり、違和感を感じて聞き苦しいという問題
点があった。そこで本発明は、女性文には女性の声を男
性文には男性の声を適応的に合成して聞き手に違和感を
与えないようにした音声合成装置を提供することを目的
とする。
技術にあっては、声の高さを変えたり(分析合成方式の
場合)ピッチ周期を制御したり(波形編集方式)して、
合成音声の性別(男性の声と女性の声)を適宜に変える
ことができるが、かかる音声の質(以下、声質という)
の切り替えは、もっぱら外部からの人為的な指示による
ものであり、誤った声質を与えた場合には、例えば、女
性的な文章(以下、女性文という。同様に男性的な文章
は男性文という。)を男性の声で読み上げてしまうとい
う不都合があり、違和感を感じて聞き苦しいという問題
点があった。そこで本発明は、女性文には女性の声を男
性文には男性の声を適応的に合成して聞き手に違和感を
与えないようにした音声合成装置を提供することを目的
とする。
【0011】
【課題を解決するための手段】請求項1記載の発明に係
る音声合成装置は、テキストデータを読み込む手段と、
読み込んだテキストデータの内容から女性文と男性文を
識別する識別手段と、該識別結果に応じた声質で前記入
力テキストの合成音声を生成する音声生成手段とを具備
することを特徴とする。請求項2記載の発明に係る音声
合成装置は、単語辞書を参照しつつ入力テキストから単
語を切り出して中間言語に変換するテキスト解析部と、
前記中間言語から音声合成に必要な各種のパラメータを
生成する合成パラメータ生成部と、前記各種のパラメー
タに基づいて男性的な声又は女性的な声の声質の合成音
声を生成する音声合成部と、を備えた音声合成装置にお
いて、前記単語辞書に格納された各単語の、女性文又は
男性文における出現度合いを保持する保持手段と、前記
テキスト解析部で切り出された各単語の、女性文又は男
性文における出現度合いを前記保持手段から取り出して
集計し、該集計値に基づいて前記入力テキスト文の性別
を判定する判定手段と、該判定手段の判定結果に従って
前記合成音声の声質を指定する指定手段と、を備えたこ
とを特徴とする。請求項3記載の発明に係る音声合成装
置は、請求項2記載の発明に係る音声合成装置におい
て、前記音声合成部は、男性的な声のデータと女性的な
声のデータを共に持ち、該データを切り替えることによ
って、男性的な声又は女性的な声の声質の合成音声を生
成することを特徴とする。請求項4記載の発明に係る音
声合成装置は、請求項2記載の発明に係る音声合成装置
において、前記音声合成部は、男性的な声のデータ又は
女性的な声のデータ若しくは中性的な声のデータを持
ち、該データのピッチ又は周波数を変えることによっ
て、男性的な声又は女性的な声の声質の合成音声を生成
することを特徴とする。
る音声合成装置は、テキストデータを読み込む手段と、
読み込んだテキストデータの内容から女性文と男性文を
識別する識別手段と、該識別結果に応じた声質で前記入
力テキストの合成音声を生成する音声生成手段とを具備
することを特徴とする。請求項2記載の発明に係る音声
合成装置は、単語辞書を参照しつつ入力テキストから単
語を切り出して中間言語に変換するテキスト解析部と、
前記中間言語から音声合成に必要な各種のパラメータを
生成する合成パラメータ生成部と、前記各種のパラメー
タに基づいて男性的な声又は女性的な声の声質の合成音
声を生成する音声合成部と、を備えた音声合成装置にお
いて、前記単語辞書に格納された各単語の、女性文又は
男性文における出現度合いを保持する保持手段と、前記
テキスト解析部で切り出された各単語の、女性文又は男
性文における出現度合いを前記保持手段から取り出して
集計し、該集計値に基づいて前記入力テキスト文の性別
を判定する判定手段と、該判定手段の判定結果に従って
前記合成音声の声質を指定する指定手段と、を備えたこ
とを特徴とする。請求項3記載の発明に係る音声合成装
置は、請求項2記載の発明に係る音声合成装置におい
て、前記音声合成部は、男性的な声のデータと女性的な
声のデータを共に持ち、該データを切り替えることによ
って、男性的な声又は女性的な声の声質の合成音声を生
成することを特徴とする。請求項4記載の発明に係る音
声合成装置は、請求項2記載の発明に係る音声合成装置
において、前記音声合成部は、男性的な声のデータ又は
女性的な声のデータ若しくは中性的な声のデータを持
ち、該データのピッチ又は周波数を変えることによっ
て、男性的な声又は女性的な声の声質の合成音声を生成
することを特徴とする。
【0012】
【発明の実施の形態】以下、本発明の実施の形態を、テ
キスト音声合成装置を例にして図面を参照しながら説明
する。図1において、10はテキスト合成装置であり、
テキスト合成装置10は、音声合成プログラム(後述)
を含む所要のプログラム格納した第1のROM11と、
これらのプログラムを適宜に実行するCPU12と、同
プログラムを実行する際の一時記憶エリアとして用いら
れるRAM13と、単語辞書14a及び出現度合い情報
14b(保持手段)を格納した第2のROM14と、男
性的な声質と女性的な声質の各々の音声波形データ(以
下、便宜的に男性音声データ15a、女性音声データ1
5bという)を格納した第3のROM15と、外部の例
えばCD−ROMドライブ16との入力インターフェー
スをとる入力IF17と、外部の例えば拡声装置18と
の出力インターフェースをとる出力IF19と、これら
各部の間を接続するバスとを含んでいる。
キスト音声合成装置を例にして図面を参照しながら説明
する。図1において、10はテキスト合成装置であり、
テキスト合成装置10は、音声合成プログラム(後述)
を含む所要のプログラム格納した第1のROM11と、
これらのプログラムを適宜に実行するCPU12と、同
プログラムを実行する際の一時記憶エリアとして用いら
れるRAM13と、単語辞書14a及び出現度合い情報
14b(保持手段)を格納した第2のROM14と、男
性的な声質と女性的な声質の各々の音声波形データ(以
下、便宜的に男性音声データ15a、女性音声データ1
5bという)を格納した第3のROM15と、外部の例
えばCD−ROMドライブ16との入力インターフェー
スをとる入力IF17と、外部の例えば拡声装置18と
の出力インターフェースをとる出力IF19と、これら
各部の間を接続するバスとを含んでいる。
【0013】なお、図では、第1のROM11、第2の
ROM14及び第3のROM15を別々に描いている
が、これは、CPU12のアドレス空間上での分離を意
味している。このことは、単語辞書14a、出現度合い
情報14b、男性音声データ15a及び女性音声データ
15bも同様である。また、第1のROM11、第2の
ROM14及び第3のROM15は、必ずしも不揮発性
の半導体メモリ(すなわちROM)である必要はない。
電源を切っても内部のデータを失わない記憶デバイスで
あればよく、例えば、バッテリバックアップされたRA
Mや磁気ディスク装置であってもよい。
ROM14及び第3のROM15を別々に描いている
が、これは、CPU12のアドレス空間上での分離を意
味している。このことは、単語辞書14a、出現度合い
情報14b、男性音声データ15a及び女性音声データ
15bも同様である。また、第1のROM11、第2の
ROM14及び第3のROM15は、必ずしも不揮発性
の半導体メモリ(すなわちROM)である必要はない。
電源を切っても内部のデータを失わない記憶デバイスで
あればよく、例えば、バッテリバックアップされたRA
Mや磁気ディスク装置であってもよい。
【0014】ここで、第2のROM14と第3のROM
15に格納された四つのデータファイル、すなわち、単
語辞書14a、出現度合い情報14b、男性音声データ
15a及び女性音声データ15bについて説明する。ま
ず、単語辞書14aは、冒頭の従来技術で説明したもの
と類似のものあり、形態素解析における単語切り出しの
際の参照辞書となるもので、例えば、数万語ないし十数
万語の単語について、各々の読み仮名、文法情報及びア
クセント位置などを登録したものである。次に、男性音
声データ15aと女性音声データ15bは、冒頭の従来
技術における音声素片(図7の符号7参照)に相当する
ものであり、男性的な声質の音声素片又は音声断片を集
めたものが男性音声データ15a、女性的な声質の音声
素片又は音声断片を集めたものが女性音声データ15b
である。最後に、出現度合い情報14bは、冒頭の従来
技術に存在しないものであり、本実施の形態に特有のも
のである。この出現度合い情報14bは、単語辞書14
aに登録された単語のすべて若しくは代表的な単語のそ
れぞれについて、男性文と女性文に出現する度合いを網
羅したものである(出現度合いの収集法は後述す
る。)。
15に格納された四つのデータファイル、すなわち、単
語辞書14a、出現度合い情報14b、男性音声データ
15a及び女性音声データ15bについて説明する。ま
ず、単語辞書14aは、冒頭の従来技術で説明したもの
と類似のものあり、形態素解析における単語切り出しの
際の参照辞書となるもので、例えば、数万語ないし十数
万語の単語について、各々の読み仮名、文法情報及びア
クセント位置などを登録したものである。次に、男性音
声データ15aと女性音声データ15bは、冒頭の従来
技術における音声素片(図7の符号7参照)に相当する
ものであり、男性的な声質の音声素片又は音声断片を集
めたものが男性音声データ15a、女性的な声質の音声
素片又は音声断片を集めたものが女性音声データ15b
である。最後に、出現度合い情報14bは、冒頭の従来
技術に存在しないものであり、本実施の形態に特有のも
のである。この出現度合い情報14bは、単語辞書14
aに登録された単語のすべて若しくは代表的な単語のそ
れぞれについて、男性文と女性文に出現する度合いを網
羅したものである(出現度合いの収集法は後述す
る。)。
【0015】なお、男性文や女性文の典型は話し言葉で
書かれた文章である。一見して女性が書いたものか男性
が書いたものかを判別できるからである。なお、硬い調
子の文章(公用文など)は、男性文に分類してもよい。
書かれた文章である。一見して女性が書いたものか男性
が書いたものかを判別できるからである。なお、硬い調
子の文章(公用文など)は、男性文に分類してもよい。
【0016】図2は第1のROM11に格納された音声
合成プログラムの要部フローであり、文章切り分けのス
テップ20は、冒頭の従来技術におけるテキスト解析部
(図7の符号2参照)に相当するものである。すなわ
ち、このステップ20では、単語辞書14aを参照しな
がら、入力された漢字かな混じり文(入力テキスト)の
読み、アクセント、イントネーションを決定し、中間言
語と呼ばれる韻律記号付き発音記号列に変換するもので
あり、中間言語は、形態素解析、アクセント句設定、呼
気段落設定という三つのステップを経て生成されるもの
である。次のステップ30(判定手段)は、本実施の形
態に特有のものであり、出現度合い情報14bを参照し
ながら、入力テキストの性別(男性文、女性文若しくは
どちらでもない中性文)を判定するものである。
合成プログラムの要部フローであり、文章切り分けのス
テップ20は、冒頭の従来技術におけるテキスト解析部
(図7の符号2参照)に相当するものである。すなわ
ち、このステップ20では、単語辞書14aを参照しな
がら、入力された漢字かな混じり文(入力テキスト)の
読み、アクセント、イントネーションを決定し、中間言
語と呼ばれる韻律記号付き発音記号列に変換するもので
あり、中間言語は、形態素解析、アクセント句設定、呼
気段落設定という三つのステップを経て生成されるもの
である。次のステップ30(判定手段)は、本実施の形
態に特有のものであり、出現度合い情報14bを参照し
ながら、入力テキストの性別(男性文、女性文若しくは
どちらでもない中性文)を判定するものである。
【0017】ここで、入力テキストの性別判定は、以下
のようにして行う。まず、入力テキストを図3のとおり
と仮定する。この仮定文は、句点と改行で区切られた三
つの文(又は文章)から構成されている。今、最後の行
に注目すると、形態素解析の手法を用いれば、この文
は、「夢」、「の」、「中」「の」、「あたし」、「と
は」、「おお」、「違い」に切り分けることができる。
これらの切り分け要素のそれぞれにからまでの符号
を付して識別すれば、、、及びの品詞は名詞、
とは格助詞、は副助詞、はの接頭語というこ
とができ、また、各要素のアクセントも記号([:アク
セント上がる、]:アクセント下がる)のように示すこ
とができる。なお、言うまでもなくこれらの品詞やアク
セントの決定は単語辞書14aの登録情報によるもので
ある。
のようにして行う。まず、入力テキストを図3のとおり
と仮定する。この仮定文は、句点と改行で区切られた三
つの文(又は文章)から構成されている。今、最後の行
に注目すると、形態素解析の手法を用いれば、この文
は、「夢」、「の」、「中」「の」、「あたし」、「と
は」、「おお」、「違い」に切り分けることができる。
これらの切り分け要素のそれぞれにからまでの符号
を付して識別すれば、、、及びの品詞は名詞、
とは格助詞、は副助詞、はの接頭語というこ
とができ、また、各要素のアクセントも記号([:アク
セント上がる、]:アクセント下がる)のように示すこ
とができる。なお、言うまでもなくこれらの品詞やアク
セントの決定は単語辞書14aの登録情報によるもので
ある。
【0018】上述のとおり、入力テキストの各切り出し
要素(〜)は、出現度合い情報14bと照合が取ら
れ、各要素ごとの男性文や女性文での出現の度合いを示
す数値が取り出される。図4は取り出された数値の一例
である。図4において、の数値は「52」、の数値
は「48」、の数値は「51」、の数値は「5
0」、の数値は「9」、の数値は「50」、と
の数値は「46」である。これらの数値から所定の閾値
(図では「50」)を引き去り、残りを合計して入力テ
キストの性別判断の数値とする。
要素(〜)は、出現度合い情報14bと照合が取ら
れ、各要素ごとの男性文や女性文での出現の度合いを示
す数値が取り出される。図4は取り出された数値の一例
である。図4において、の数値は「52」、の数値
は「48」、の数値は「51」、の数値は「5
0」、の数値は「9」、の数値は「50」、と
の数値は「46」である。これらの数値から所定の閾値
(図では「50」)を引き去り、残りを合計して入力テ
キストの性別判断の数値とする。
【0019】出現度合いの収集方法によっても異なる
が、例えば、単語α(この符号には意味はない。以下同
様)が男性によって必ず使われるとともに、女性には絶
対に使われない仮定し、さらに、単語βが女性によって
必ず使われるとともに、男性には絶対に使われない仮定
し、かつ、単語γが男性にも女性にも等しく使われると
仮定したとき、単語αの出現度合いを「100」、単語
βの出現度合いを「0」、単語γの出現度合いを中間の
「50」とすれば、図4の合計値「−44」は負値であ
り、明らかに「女性によって必ず使われるとともに、男
性には絶対に使われない」単語βの出件度合い「0」よ
りも遥かに小さいから、図示の例文(“夢の中の・・・・大
違い。")の場合、女性の性別を持つ入力テキストと判
定して差し支えない。したがって、この場合は、図2に
おいて、ステップ40でNo命令、ステップ50でYe
s命令となり、ステップ60(指定手段)で女性音声デ
ータ15bを用いた音声合成を行い、ステップ70で女
性の声の声質で入力テキストの音声出力を行う。
が、例えば、単語α(この符号には意味はない。以下同
様)が男性によって必ず使われるとともに、女性には絶
対に使われない仮定し、さらに、単語βが女性によって
必ず使われるとともに、男性には絶対に使われない仮定
し、かつ、単語γが男性にも女性にも等しく使われると
仮定したとき、単語αの出現度合いを「100」、単語
βの出現度合いを「0」、単語γの出現度合いを中間の
「50」とすれば、図4の合計値「−44」は負値であ
り、明らかに「女性によって必ず使われるとともに、男
性には絶対に使われない」単語βの出件度合い「0」よ
りも遥かに小さいから、図示の例文(“夢の中の・・・・大
違い。")の場合、女性の性別を持つ入力テキストと判
定して差し支えない。したがって、この場合は、図2に
おいて、ステップ40でNo命令、ステップ50でYe
s命令となり、ステップ60(指定手段)で女性音声デ
ータ15bを用いた音声合成を行い、ステップ70で女
性の声の声質で入力テキストの音声出力を行う。
【0020】一方、図4の合計値が閾値「50」を大き
く上回っていれば、この場合は、「男性によって必ず使
われるとともに、女性には絶対に使われない」単語αの
出件度合い「100」に接近するから、男性の性別を持
つ入力テキストと判定し、ステップ80(指定手段)で
男性音声データ15aを用いた音声合成を行い、ステッ
プ70で男性の声の声質で入力テキストの音声出力を行
う。
く上回っていれば、この場合は、「男性によって必ず使
われるとともに、女性には絶対に使われない」単語αの
出件度合い「100」に接近するから、男性の性別を持
つ入力テキストと判定し、ステップ80(指定手段)で
男性音声データ15aを用いた音声合成を行い、ステッ
プ70で男性の声の声質で入力テキストの音声出力を行
う。
【0021】なお、文章の中には、男性文や女性文に区
分できないものが多くあるが、これらはすべて男性文と
みなして差し支えないから、両性いずれにも判定できな
い場合(出現度合い「50」を中心に余裕を持ってその
±30程度)は、ステップ80で男性音声データ15a
を用いた音声合成を行い、ステップ70で男性の声の声
質で入力テキストの音声出力を行うようにする。以上の
とおり、本実施の形態によれば、入力テキストの性別を
自動的に判定してその性別に適合した声質の合成音声を
生成するので、文章内容と読み上げ声質との間に違和感
を生じることがないという従来技術にない有利な効果が
得られる。
分できないものが多くあるが、これらはすべて男性文と
みなして差し支えないから、両性いずれにも判定できな
い場合(出現度合い「50」を中心に余裕を持ってその
±30程度)は、ステップ80で男性音声データ15a
を用いた音声合成を行い、ステップ70で男性の声の声
質で入力テキストの音声出力を行うようにする。以上の
とおり、本実施の形態によれば、入力テキストの性別を
自動的に判定してその性別に適合した声質の合成音声を
生成するので、文章内容と読み上げ声質との間に違和感
を生じることがないという従来技術にない有利な効果が
得られる。
【0022】図5は出現度合いを収集するための処理フ
ローであり、このフローは、あらかじめ書き手の性別が
判明し、かつ、言葉づかいにもその性別が反映されてい
る大量の文章の各々に対して適用する。このフローにお
いて、まず、最初の文章を読み込み(ステップ10
0)、その文章の書き手の性別を入力する(ステップ1
10)。次いで、先に述べた形態素解析の手法を用いて
文章を切り分け(ステップ120)、各切り分け要素ご
とに同一の単語が出現する度に出現度合い情報の同単語
の数値を「+1」し又は「−1」する(ステップ13
0)。ここで、「+1」は対象となる文章の書き手が男
性の場合、「−1」は女性の場合である。このようにす
る理由は、例えば、男性と女性で共通に使われる単語
(先の例で言えば単語γ)の出現度合いを「50」に収
束させることができるからである。
ローであり、このフローは、あらかじめ書き手の性別が
判明し、かつ、言葉づかいにもその性別が反映されてい
る大量の文章の各々に対して適用する。このフローにお
いて、まず、最初の文章を読み込み(ステップ10
0)、その文章の書き手の性別を入力する(ステップ1
10)。次いで、先に述べた形態素解析の手法を用いて
文章を切り分け(ステップ120)、各切り分け要素ご
とに同一の単語が出現する度に出現度合い情報の同単語
の数値を「+1」し又は「−1」する(ステップ13
0)。ここで、「+1」は対象となる文章の書き手が男
性の場合、「−1」は女性の場合である。このようにす
る理由は、例えば、男性と女性で共通に使われる単語
(先の例で言えば単語γ)の出現度合いを「50」に収
束させることができるからである。
【0023】次に、すべての切り分け要素に対して、ス
テップ120〜130を繰り返した後(ステップ14
0)、用意されたすべての文章がなくなるまで、ステッ
プ100〜140を繰り返し、文章がなくなると処理を
終了する(ステップ90)。したがって、図5の処理フ
ローによれば、男性文と女性文の区別がはっきりしてい
る文章をより多く処理することにより、単語辞書14a
に登録された単語の各々について、男性が使うもの女性
が使うもの又は両性で共通に使うものを数値化でき、図
2の音声合成装置に用いて好適な「出現度合い情報」を
形成できる。
テップ120〜130を繰り返した後(ステップ14
0)、用意されたすべての文章がなくなるまで、ステッ
プ100〜140を繰り返し、文章がなくなると処理を
終了する(ステップ90)。したがって、図5の処理フ
ローによれば、男性文と女性文の区別がはっきりしてい
る文章をより多く処理することにより、単語辞書14a
に登録された単語の各々について、男性が使うもの女性
が使うもの又は両性で共通に使うものを数値化でき、図
2の音声合成装置に用いて好適な「出現度合い情報」を
形成できる。
【0024】なお、上記実施の形態では、女性音声デー
タ(図2の符号15b参照)と男性音声データ(同図の
符号15a参照)とを備え、これらを切り替えているが
これに限らない。例えば、いずれか一方の音声データ若
しくは中性的な音声データを備え、このデータの周波数
又はピッチを操作して、判定された入力テキストの性別
に適合させてもよく、このようにすると、データ量の削
減が図られるから好ましい。
タ(図2の符号15b参照)と男性音声データ(同図の
符号15a参照)とを備え、これらを切り替えているが
これに限らない。例えば、いずれか一方の音声データ若
しくは中性的な音声データを備え、このデータの周波数
又はピッチを操作して、判定された入力テキストの性別
に適合させてもよく、このようにすると、データ量の削
減が図られるから好ましい。
【0025】さらに、上記実施の形態の主要な機能(図
2の文章切り分けステップ20、同図の単語辞書14
a、同図の文章の性別判定ステップ30、同図の出現度
合い情報14b、同図の音声合成ステップ60、80、
同図の女性音声データ15b、同図の男性音声データ1
5a、及び、同図の音声出力ステップ70など)は、ハ
ードロジックでも実現可能であるが、開発効率などを考
慮するとソフトウエアで実現するのが望ましい。この場
合、上記主要な機能を実現するためのプログラムを格納
した記録媒体(ROM、フロッピーディスク、MO、C
D、ハードディスク、半導体メモリなど)を提供すれば
よい。当該プログラムをコンピュータにインストールし
て実行すれば、上記実施の形態の作用効果を得ることが
できる。
2の文章切り分けステップ20、同図の単語辞書14
a、同図の文章の性別判定ステップ30、同図の出現度
合い情報14b、同図の音声合成ステップ60、80、
同図の女性音声データ15b、同図の男性音声データ1
5a、及び、同図の音声出力ステップ70など)は、ハ
ードロジックでも実現可能であるが、開発効率などを考
慮するとソフトウエアで実現するのが望ましい。この場
合、上記主要な機能を実現するためのプログラムを格納
した記録媒体(ROM、フロッピーディスク、MO、C
D、ハードディスク、半導体メモリなど)を提供すれば
よい。当該プログラムをコンピュータにインストールし
て実行すれば、上記実施の形態の作用効果を得ることが
できる。
【0026】図6は、本発明の適用例を示す図であり、
特に限定しないが、持ち運び可能な電子書籍閲覧装置
(電子ブックなどとも呼ばれる)の例である。図におい
て、閲覧装置150は、小型のボディに、液晶ディスプ
レイ151、電源スイッチ152、ページアップボタン
153、同ダウンボタン154及びスピーカ155など
を備えており、ページアップボタン153や同ダウンボ
タン154を押しながら、文字(テキスト)情報主体の
電子書籍(小説、新聞の抜粋あるいは文字放送など;外
部のパソコン等からダウンロードしたもの)の読みたい
ページを液晶ディスプレイ151に適宜に表示して閲覧
するというものである。
特に限定しないが、持ち運び可能な電子書籍閲覧装置
(電子ブックなどとも呼ばれる)の例である。図におい
て、閲覧装置150は、小型のボディに、液晶ディスプ
レイ151、電源スイッチ152、ページアップボタン
153、同ダウンボタン154及びスピーカ155など
を備えており、ページアップボタン153や同ダウンボ
タン154を押しながら、文字(テキスト)情報主体の
電子書籍(小説、新聞の抜粋あるいは文字放送など;外
部のパソコン等からダウンロードしたもの)の読みたい
ページを液晶ディスプレイ151に適宜に表示して閲覧
するというものである。
【0027】かかる電子書籍閲覧装置150において、
文字情報の表示と音声の読み上げを同時に行うことがで
きれば、例えば、視覚障害者はもちろんのこと、健常者
にとってもきわめて便利であるが、音声情報はデータ量
が相当大きく、大容量のメモリを必要とする上、ダウン
ロードにも長い時間がかかるという問題点があり、現実
的でない。そこで、本発明の技術を適用すれば、こうし
た問題点を招かずに、電子書籍の情報を「女性文」と
「男性文」に区別し、その文章の性別に適合した声質で
音声合成して読み上げることができ、特に視覚障害者に
対する利便性を向上できるから、社会生活上の格別有益
な効果が得られる。
文字情報の表示と音声の読み上げを同時に行うことがで
きれば、例えば、視覚障害者はもちろんのこと、健常者
にとってもきわめて便利であるが、音声情報はデータ量
が相当大きく、大容量のメモリを必要とする上、ダウン
ロードにも長い時間がかかるという問題点があり、現実
的でない。そこで、本発明の技術を適用すれば、こうし
た問題点を招かずに、電子書籍の情報を「女性文」と
「男性文」に区別し、その文章の性別に適合した声質で
音声合成して読み上げることができ、特に視覚障害者に
対する利便性を向上できるから、社会生活上の格別有益
な効果が得られる。
【0028】
【発明の効果】請求項1又は請求項2記載の発明によれ
ば、入力テキストの性別を判定し、その性別に適合した
声質の合成音声を生成できる。したがって、入力テキス
トの内容と声質の間の違和感をなくすことができる。請
求項3記載の発明によれば、男性的な声のデータと女性
的な声のデータを持つので、複雑な信号処理を施すこと
なく、性別に応じた聞き分けやすい声質の合成音声を容
易に生成できる。請求項4記載の発明によれば。男性的
な声のデータ又は女性的な声のデータ若しくは中性的な
声のデータを持つので、両性のデータを持つものに比べ
て、大幅なデータ量の削減を図ることができる。
ば、入力テキストの性別を判定し、その性別に適合した
声質の合成音声を生成できる。したがって、入力テキス
トの内容と声質の間の違和感をなくすことができる。請
求項3記載の発明によれば、男性的な声のデータと女性
的な声のデータを持つので、複雑な信号処理を施すこと
なく、性別に応じた聞き分けやすい声質の合成音声を容
易に生成できる。請求項4記載の発明によれば。男性的
な声のデータ又は女性的な声のデータ若しくは中性的な
声のデータを持つので、両性のデータを持つものに比べ
て、大幅なデータ量の削減を図ることができる。
【図1】実施の形態の概念構成図である。
【図2】音声合成プログラムの要部フローである。
【図3】入力テキストの一例及びその切り出し概念図で
ある。
ある。
【図4】入力テキスト性別判定演算の説明図である。
【図5】出現度合い情報の収集フロー図である。
【図6】電子ブックの外観図である。
【図7】従来の音声合成装置の概略構成図である。
2 テキスト解析部 3 合成パラメータ生成部 4 音声合成部 14b 出現度合い情報(保持手段) 14a 単語辞書 30 文章の性別判定ステップ(判定手段) 60 音声合成ステップ(指定手段) 80 音声合成ステップ(指定手段)
Claims (4)
- 【請求項1】 テキストデータを読み込む手段と、読み
込んだ入力テキストデータの単語の内容から女性文と男
性文を識別する識別手段とし、該識別結果に応じた声質
で前記入力テキストの合成音声を生成する音声生成手段
とを具備することを特徴とする音声合成装置。 - 【請求項2】 単語辞書を参照しつつ入力テキストから
単語を切り出して中間言語に変換するテキスト解析部
と、 前記中間言語から音声合成に必要な各種のパラメータを
生成する合成パラメータ生成部と、 前記各種のパラメータに基づいて男性的な声又は女性的
な声の声質の合成音声を生成する音声合成部と、を備え
た音声合成装置において、 前記単語辞書に格納された各単語の、女性文又は男性文
における出現度合いを保持する保持手段と、 前記テキスト解析部で切り出された各単語の、女性文又
は男性文における出現度合いを前記保持手段から取り出
して集計し、該集計値に基づいて前記入力テキスト文の
性別を判定する判定手段と、 該判定手段の判定結果に従って前記合成音声の声質を指
定する指定手段と、 を備えたことを特徴とする音声合成装置。 - 【請求項3】 前記音声合成部は、男性的な声のデータ
と女性的な声のデータを共に持ち、該データを切り替え
ることによって、男性的な声又は女性的な声の声質の合
成音声を生成することを特徴とする請求項2記載の音声
合成装置。 - 【請求項4】 前記音声合成部は、男性的な声のデータ
又は女性的な声のデータ若しくは中性的な声のデータを
持ち、該データのピッチ又は周波数を変えることによっ
て、男性的な声又は女性的な声の声質の合成音声を生成
することを特徴とする請求項2記載の音声合成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10110253A JPH11296193A (ja) | 1998-04-06 | 1998-04-06 | 音声合成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10110253A JPH11296193A (ja) | 1998-04-06 | 1998-04-06 | 音声合成装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH11296193A true JPH11296193A (ja) | 1999-10-29 |
Family
ID=14531007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10110253A Pending JPH11296193A (ja) | 1998-04-06 | 1998-04-06 | 音声合成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH11296193A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
USH2187H1 (en) * | 2002-06-28 | 2007-04-03 | Unisys Corporation | System and method for gender identification in a speech application environment |
JP2015215626A (ja) * | 2015-07-03 | 2015-12-03 | 株式会社東芝 | 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム |
WO2018020759A1 (ja) | 2016-07-26 | 2018-02-01 | ソニー株式会社 | 情報処理装置、および情報処理方法 |
CN110100276A (zh) * | 2016-12-22 | 2019-08-06 | 大众汽车有限公司 | 语音操作系统的语音输出声音 |
CN118629394A (zh) * | 2024-08-12 | 2024-09-10 | 湖南快乐阳光互动娱乐传媒有限公司 | 一种中性音色的语音合成方法及相关装置 |
-
1998
- 1998-04-06 JP JP10110253A patent/JPH11296193A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
USH2187H1 (en) * | 2002-06-28 | 2007-04-03 | Unisys Corporation | System and method for gender identification in a speech application environment |
JP2015215626A (ja) * | 2015-07-03 | 2015-12-03 | 株式会社東芝 | 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム |
WO2018020759A1 (ja) | 2016-07-26 | 2018-02-01 | ソニー株式会社 | 情報処理装置、および情報処理方法 |
CN110100276A (zh) * | 2016-12-22 | 2019-08-06 | 大众汽车有限公司 | 语音操作系统的语音输出声音 |
CN118629394A (zh) * | 2024-08-12 | 2024-09-10 | 湖南快乐阳光互动娱乐传媒有限公司 | 一种中性音色的语音合成方法及相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6751592B1 (en) | Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically | |
US8219398B2 (en) | Computerized speech synthesizer for synthesizing speech from text | |
US6778962B1 (en) | Speech synthesis with prosodic model data and accent type | |
Dutoit | An introduction to text-to-speech synthesis | |
JP4363590B2 (ja) | 音声合成 | |
US7010489B1 (en) | Method for guiding text-to-speech output timing using speech recognition markers | |
JP2006106741A (ja) | 対話型音声応答システムによる音声理解を防ぐための方法および装置 | |
JP3587048B2 (ja) | 韻律制御方法及び音声合成装置 | |
WO2004066271A1 (ja) | 音声合成装置,音声合成方法および音声合成システム | |
JPH0335296A (ja) | テキスト音声合成装置 | |
JP2006227425A (ja) | 音声再生装置及び発話支援装置 | |
Stöber et al. | Speech synthesis using multilevel selection and concatenation of units from large speech corpora | |
JP3518898B2 (ja) | 音声合成装置 | |
JPH11296193A (ja) | 音声合成装置 | |
JP3094622B2 (ja) | テキスト音声合成装置 | |
JP3060276B2 (ja) | 音声合成装置 | |
JPH05134691A (ja) | 音声合成方法および装置 | |
JP3397406B2 (ja) | 音声合成装置及び音声合成方法 | |
JP2000056788A (ja) | 音声合成装置の韻律制御方法 | |
JPH0229797A (ja) | テキスト音声変換装置 | |
Kaur et al. | BUILDING AText-TO-SPEECH SYSTEM FOR PUNJABI LANGUAGE | |
JPH08123459A (ja) | 自然言語処理方法および音声合成装置 | |
KR100269215B1 (ko) | 음성 합성을 위한 발화구의 기본 주파수 궤적 생성 방법 | |
Kayte et al. | Artificially Generatedof Concatenative Syllable based Text to Speech Synthesis System for Marathi | |
JPH04199421A (ja) | 文書読上げ装置 |