JPH1083193A

JPH1083193A - 音声合成装置および音声素片作成方法

Info

Publication number: JPH1083193A
Application number: JP8237465A
Authority: JP
Inventors: Yumiko Kato; 弓子加藤; Takahiro Kamai; 孝浩釜井; Katsuyoshi Yamagami; 勝義山上; Kenji Matsui; 謙二松井
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1996-09-09
Filing date: 1996-09-09
Publication date: 1998-03-31

Abstract

(57)【要約】【課題】聴覚障害のある使用者や、騒音下のようにこ
れまで音声合成が適用できないとされた使用者および使
用環境でも音声により情報を確実に伝達する。【解決手段】目的のテキストを入力するテキスト入力
手段と、構文解析を行う言語処理部、制御手段と素片デ
ータベースと音韻強調処理手段と素片接続手段と圧縮処
理手段とからなる音声合成部と、合成音の声質を制御す
る声質制御手段と、使用者の聴覚特性を測定する聴覚特
性測定手段と環境音をモニターするマイクロフォンと合
成音を出力する電気音響変換器とを有する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はテキストを音声に変
換する音声規則合成システムにおいて、特に聴覚障害者
に対する、あるいは騒音下で使用する場合に音声伝達を
行う技術に関するものである。

【０００２】

【従来の技術】テキストを音声に変換する音声規則合成
技術は、文字で伝送されてきた情報を人間にとってわか
りやすい形式で伝達する一つの手段として重要である。
例えば情報ネットワークを通じて送られる情報の大半は
テキストであり、大量のテキスト情報をそのまま人間に
伝えるためには表示能力の大きいディスプレイを用いる
か、紙に印字する必要がある。

【０００３】しかし、情報端末が小型化し、携帯に用い
られるようになると、大型のディスプレイやプリンタを
用いることができないため、音声に変換することがもっ
とも効果的である。図５５は従来の音声合成装置の代表
的な装置の構成ブロック図である。図５５の１０は目的
とするテキストを入力するテキスト入力手段、２０はテ
キストの構文解析を行う言語処理手段、３０ｍは音声を
合成する音声合成部、４０ｍは合成音声の声質を操作す
る操作手段、５０ｍは操作手段の入力に従って声質を制
御する声質制御手段、６０は電気音響変換器である。前
記の音声合成部３０ｍは言語処理から入力された読み情
報および韻律情報に従い音声合成部を制御する音声合成
制御手段７０ｍ、音声を母音／子音／母音の連鎖などの
所望の合成単位で記憶しておく素片データベース８０、
合成単位をつなぎ合わせて合成音声を生成する素片接続
手段９０ｍを有する。

【０００４】以上のように構成された従来の音声合成装
置において、以下その動作を説明する。

【０００５】まずテキスト入力手段１０は言語処理手段
２０に目的のテキストを入力する。次に言語処理手段２
０はテキスト入力手段１０より入力されたテキストを構
文解析を行い、読み情報、韻律情報を生成し音声合成制
御手段７０ｍに出力する。素片データベース８０は音声
合成制御手段７０ｍより入力された読み情報に従って素
片接続手段９０ｍに合成単位を出力する。素片接続手段
９０ｍは音声合成制御手段７０ｍより入力された韻律情
報および声質制御手段５０ｍより入力された制御信号に
従って素片データベース８０より入力された合成単位を
接続し合成音声を生成し、電気音響変換器６０を通して
合成音声を出力する。

【０００６】次に音声素片の作成方法について述べる。
音声素片はあらかじめ録音された音声の波形からＣＶ、
ＶＣＶ、ＣＶＣなどの単位で切り出して作成される。こ
こでＣは子音を、Ｖは母音を表す。これらの合成単位を
用いる合成方式をそれぞれＣＶ方式、ＶＣＶ方式、ＣＶ
Ｃ方式などと呼ぶ。

【０００７】ＣＶ方式の場合、子音ｋと母音ａの組み合
わせである「ｋａ」などを一つの単位とする。ＶＣＶ方
式の場合、母音ａと子音ｋと母音ａの組み合わせである
「ａｋａ」、ＣＶＣ方式の場合、子音ｋと母音ａと子音
ｔの組み合わせである「ｋａｔ」などが合成の単位であ
る。それぞれに素片の種類の数や合成音の品質など一長
一短があるが、いずれの方式も音声素片を次々と接続し
ていくことにより合成音を生成する。

【０００８】このような合成方式で用いる音声素片を作
成する時に、前処理によって合成時に必要となる変形を
行いやすい形にしておくと、合成時の計算量が削減でき
る。例えば、合成時には目的のピッチパターンになるよ
うにピッチ修正を行う必要があるが、事前にピッチ周期
単位で窓掛けにより波形を切り出しておく方法が特願平
６−３０２４７１に述べられている。その方法を図面を
参照しながら説明する。

【０００９】図５６は波形の切り出し方法を示してい
る。図５６のように波形のピッチ周期に対応したピーク
位置にマークを付与しておき、そのマークを中心にピッ
チ周期の２倍以下の長さの窓で切り出しを行う。こうし
て切り出された波形をピッチ波形と呼ぶ。また、ピッチ
の概念がない無声子音部は連続した波形としてそのまま
切り出しておく。これを初期波形と呼ぶ。

【００１０】図５７は合成時の処理を示している。図の
ように目的のピッチ周期になるように重ね合わせを行
う。ピッチを上げるときは互いの間隔を狭めて重ね合わ
せを行い、ピッチを下げるときは逆に間隔を広げて重ね
合わせを行う。

【００１１】

【発明が解決しようとする課題】このような音声合成装
置と音声素片作成方法においては、騒音下での使用や聴
覚に障害がある人が使用する際には合成された音声が聞
き取りにくいという問題がある。現状の音声合成技術は
健聴者が静寂な環境下で使用する場合においても十分な
明瞭度を達成することは難しいが、騒音下で使用する場
合や聴覚障害者が使用する場合には更に深刻な明瞭度低
下がある。これは、合成音は限られた音声素片を用いて
いることや、合成時の接続処理や変形処理によって、欠
落している情報が多く、騒音によるマスキングや聴覚障
害の影響を受けやすいためであり、従来技術において
は、騒音下や聴覚障害のある場合に音声の認識に必要な
情報を伝達することが困難であるという課題を有してい
た。

【００１２】

【課題を解決するための手段】本発明は上記の従来の問
題を解決しようとするもので使用者の聴覚特性に合わせ
て合成した音声に強調処理あるいは振幅のダイナミック
レンジを圧縮する処理を施す、あるいは使用場面の騒音
環境に合わせて合成した音声に強調処理あるいは振幅の
ダイナミックレンジを圧縮する処理を施す。また、使用
者の聴覚特性に合わせてデータベースに記憶された合成
単位に強調処理あるいは振幅のダイナミックレンジを圧
縮する処理を施した後に音声を合成する、あるいは使用
場面の騒音環境に合わせてデータベースに記憶された合
成単位に強調処理あるいは振幅のダイナミックレンジを
圧縮する処理を施した後に音声を合成する。また、あら
かじめ強調処理あるいは振幅のダイナミックレンジを圧
縮する処理を施した合成単位を用いて音声を合成する。
また、音声の合成を中断した際に言語処理結果に基づき
停止位置以前で内容理解のしやすいテキスト上の点まで
戻って音声の合成を再開する。また、言語処理に基づき
強調処理を行う部分を設定することにより、聴覚障害の
ある使用者や、騒音下での使用でも情報を確実に伝達す
ることができる。

【００１３】

【発明の実施の形態】（実施例１）以下本発明の第１の実施例について、図面
を参照しながら説明する。

【００１４】図１は本発明の音声合成装置の第１の実施
例を示す構成ブロック図である。図２に第１の実施例の
動作を説明するための流れ図を、図３、図４、図５、図
６に動作を説明するための流れ図の一部を示す。図７、
図８に第１の実施例の強調処理の模式図をしめす。図１
において図５５と同一物または部分については同一符号
を付しているので説明を省略し、異なった部分について
のみ説明する。図５５の音声合成部３０ｍが音声合成部
３０ａに置き換わり、声質制御手段５０ｍが声質制御手
段５０ａに置き換わり、操作手段４０ｍがマイクロフォ
ン１１０に置き換わり、聴覚特性測定手段１２０が付け
加わった以外は図５５と同一な構成である。前記の音声
合成部３０ａは、言語処理手段２０より入力された読み
情報、韻律情報、強調部情報に基づき音声合成部３０ａ
を制御する音声合成制御手段７０ａ、音声を母音／子音
／母音の連鎖などの所望の合成単位で記憶しておく素片
データベース８０、素片データベース８０に記憶された
合成単位に強調処理を施す音韻強調処理手段１３０ａ、
音韻強調処理手段１３０ａで処理された合成単位をつな
げて合成音声を生成する素片接続手段９０ａおよび素片
接続手段９０ａで生成された合成音声に振幅のダイナミ
ックレンジを圧縮する圧縮処理を施す圧縮処理手段１４
０ａを有する。

【００１５】以上のように構成されたこの実施例の音声
合成装置において、以下その動作を図１、図２、図３、
図４、図５、図６に従って説明する。

【００１６】まず聴覚特性測定手段１２０で使用者の聴
覚特性を測定し、測定結果を声質制御手段５０ａに出力
する。（ステップ１０００）。測定方法は例えば１９９
２年、Audiology Japan巻３５、４０１頁から４０２頁
や平成５年,音響学会講演論文集春季、３２９頁〜３３
０頁に示された測定方法のようにするものとする。声質
制御手段５０ａは聴覚特性測定手段１２０より入力され
た測定結果に基づき強調処理の設定を決定する（ステッ
プ１１００）。まず使用者の周波数分解能を示すｐ値を
１５と比較する（ステップ１１１０）。ステップ１１１
０においてｐ値が１５未満の場合はフォルマント強調情
報を真とする（ステップ１１２０）。もしステップ１１
１０においてｐ値が１５以上の場合はフォルマント強調
情報を偽とする（ステップ１１２５）。次に使用者の時
間分解能を示すギャップ検出閾値と１０msを比較する
（ステップ１１３０）。ステップ１１３０においてギャ
ップの検出閾値が１０ms以上である場合子音強調情報を
真とする（ステップ１１４０）。もしステップ１１３０
でギャップの検出閾値が１０ms未満の場合は子音強調情
報を偽とする（ステップ１１５０）。次に使用者の２ｋ
Ｈｚ未満の平均聴力レベルと２ｋＨｚ以上の平均聴力レ
ベルを比較する（ステップ１１６０）。ステップ１１６
０において２ｋＨｚ以上の平均聴力レベルから２ｋＨｚ
未満の平均聴力レベルを減じた値が３０ｄＢ以上の場合
は帯域強調情報を真とする（ステップ１１７０）。もし
ステップ１１７０において２ｋＨｚ以上の平均聴力レベ
ルから２ｋＨｚ未満の平均聴力レベルを減じた値が３０
ｄＢ未満の場合は帯域強調情報を偽とする（ステップ１
１８０）。テキスト入力手段１０は言語処理手段２０に
目的のテキストを入力する（ステップ１２００）。次に
言語処理手段２０はテキスト入力手段１０より入力され
たテキストの構文解析を行い、読み情報、韻律情報およ
び強調部情報を生成し音声合成制御手段７０ａに出力す
る（ステップ１３００）。素片データベース８０は音声
合成制御手段７０ａより入力された読み情報に従って音
韻強調処理手段１３０ａに合成単位を出力する（ステッ
プ１４００）。音韻強調処理手段１３０ａは音声合成制
御手段７０ａより入力された強調部情報と声質制御手段
５０ａより入力された制御信号に従って合成単位に強調
処理を施す（ステップ１５００）。音韻強調処理手段１
３０ａは音声合成制御手段７０ａより入力された強調部
情報が真か偽かを判定する（ステップ１５１０）。ステ
ップ１５１０において強調部情報が真である場合、合成
単位中の母音定常部の時間長を２０％延長し（ステップ
１５２０）。声質制御手段５０ａより入力されたフォル
マント強調情報が真か偽かを判定する（ステップ１５３
０）。もしステップ１５１０において強調部情報が偽で
ある場合、声質制御手段５０ａより入力されたフォルマ
ント強調情報が真か偽かを判定する（ステップ１５３
０）。ステップ１５３０においてフォルマント強調情報
が真である場合、図７に示すように音韻強調処理手段１
３０ａは素片データベース８０に記憶された合成単位に
対応するフォルマント情報に従って、図７ｂ）に示すよ
うにフォルマントを含む帯域を選択的に通過させるよう
フィルタバンクの各フィルタの中心周波数および帯域幅
を設定し、図７ｃ）に示すようにフォルマントを含む帯
域とフォルマントを含まない帯域とのコントラストを強
調する（ステップ１５４０）。次に声質制御手段５０ａ
より入力された子音強調情報が真か偽かを判定する（ス
テップ１５５０）。もしステップ１５３０においてフォ
ルマント強調情報が偽である場合、声質制御手段５０ａ
より入力された子音強調情報が真か偽かを判定する（ス
テップ１５５０）。ステップ１５５０において子音強調
情報が真である場合、音韻強調処理手段１３０ａは図８
に示すような素片データベース８０に記憶された合成単
位に対応するラベル情報に従って、合成単位中の子音お
よび子音から母音への渡りの振幅を図８に示すように増
幅する（ステップ１５６０）。次に声質制御手段５０ａ
より入力された帯域強調情報が真か偽かを判定する（ス
テップ１５７０）。もしステップ１５６０において子音
強調情報が偽である場合、声質制御手段５０ａより入力
された帯域強調情報が真か偽かを判定する（ステップ１
５７０）。ステップ１５７０において帯域強調情報が真
である場合、音韻強調処理手段１３０ａは合成単位中の
子音に２ｋＨｚ以上の帯域を強調する高帯域強調処理を
行い（ステップ１５８０）、合成単位を素片接続手段９
０ａに出力する（ステップ１５９０）。もしステップ１
５７０において帯域強調情報が偽である場合、音韻強調
処理手段１３０ａは合成単位を素片接続手段９０に出力
する（ステップ１５９０）。素片接続手段９０ａは音声
合成制御手段７０ａより入力された韻律情報および強調
部情報に従って音韻強調処理手段１３０ａより入力され
た合成単位を合成し合成音声を生成する（ステップ１６
００）。まず素片接続手段９０ａは音声合成制御手段７
０ａより入力された強調部情報が真か偽かを判定する
（ステップ１６１０）。ステップ１６１０において強調
部情報が真の場合、素片接続手段９０ａは合成単位に対
応するクロージャーの値を２０％延長し（ステップ１６
２０）、音声合成制御手段７０ａより入力された韻律情
報に従って合成音声を生成し（ステップ１６３０）、圧
縮処理手段１４０ａに出力する（ステップ１６４０）。
もしステップ１６１０において強調処理情報が偽の場
合、素片接続手段９０ａは音声合成制御手段７０ａより
入力された韻律情報に従って合成音声を生成し（ステッ
プ１６３０）圧縮処理手段１４０ａに出力する（ステッ
プ１６４０）。圧縮処理手段１４０ａは声質制御手段５
０ａの制御信号に従って素片接続手段９０ａで生成され
た合成音声の振幅のダイナミックレンジを圧縮する（ス
テップ１７００）。まず声質制御手段５０ａはマイクロ
フォン１１０より入力された環境音を１ｋＨｚ以下、１
ｋＨｚ〜２ｋＨｚ、２ｋＨｚ〜４ｋＨｚ、４ｋＨｚ以上
の帯域に分割し、帯域ごとに１００ｍｓの平均レベルを
求める（ステップ１７１０）。１ｋＨｚ以下の環境音の
平均レベルと２０ｄＢＳＰＬ／Ｈｚとを比較する（ステ
ップ１７３０）。ステップ１７３０において１ｋＨｚ以
下の環境音の平均レベルが２０ｄＢＳＰＬ／Ｈｚ以上で
ある場合、声質制御手段５０ａは合成音声の１ｋＨｚ以
下の成分のレベルのダイナミックレンジが１ｋＨｚ以下
の環境音の平均レベルの値〜９０ｄＢＳＰＬとなるよう
に圧縮処理のパラメータを設定し（ステップ１７４
０）、１ｋＨｚ〜２ｋＨｚの環境音の平均レベルと２０
ｄＢＳＰＬ／Ｈｚとを比較する（ステップ１７５０）。
もしステップ１７３０において１ｋＨｚ以下の環境音が
２０ｄＢＳＰＬ／Ｈｚ未満である場合、１ｋＨｚ〜２ｋ
Ｈｚの環境音の平均レベルと２０ｄＢＳＰＬ／Ｈｚとを
比較する（ステップ１７５０）。ステップ１７５０にお
いて１ｋＨｚ〜２ｋＨｚの環境音の平均レベルが２０ｄ
ＢＳＰＬ／Ｈｚ以上である場合、声質制御手段５０ａは
合成音声の１ｋＨｚ〜２ｋＨｚの成分のレベルのダイナ
ミックレンジが１ｋＨｚ〜２ｋＨｚの環境音の平均レベ
ルの値〜９０ｄＢＳＰＬとなるように圧縮処理のパラメ
ータを設定し（ステップ１７６０）、２ｋＨｚ〜４ｋＨ
ｚの環境音の平均レベルと１５ｄＢＳＰＬ／Ｈｚとを比
較する（ステップ１７７０）。もしステップ１７５０に
おいて１ｋＨｚ〜２ｋＨｚの環境音が２０ｄＢＳＰＬ／
Ｈｚ未満である場合、２ｋＨｚ〜４ｋＨｚの環境音の平
均レベルと１５ｄＢＳＰＬ／Ｈｚとを比較する（ステッ
プ１７７０）。ステップ１７７０において２ｋＨｚ〜４
ｋＨｚの環境音の平均レベルが１５ｄＢＳＰＬ／Ｈｚ以
上である場合、声質制御手段５０ａは合成音声の２ｋＨ
ｚ〜４ｋＨｚの成分のレベルのダイナミックレンジが２
ｋＨｚ〜４ｋＨｚの環境音の平均レベルの値〜８０ｄＢ
ＳＰＬとなるように圧縮処理のパラメータを設定し（ス
テップ１７８０）、４ｋＨｚ以上の環境音の平均レベル
と１０ｄＢＳＰＬ／Ｈｚとを比較する（ステップ１７９
０）。もしステップ１７７０において２ｋＨｚ〜４ｋＨ
ｚの環境音が１５ｄＢＳＰＬ／Ｈｚ未満である場合、４
ｋＨｚ以上の環境音の平均レベルと１０ｄＢＳＰＬ／Ｈ
ｚとを比較する（ステップ１７９０）。ステップ１７９
０において４ｋＨｚ以上の環境音の平均レベルが１０ｄ
ＢＳＰＬ／Ｈｚ以上である場合、声質制御手段５０ａは
合成音声の４ｋＨｚ以上の成分のレベルのダイナミック
レンジが４ｋＨｚ以上の環境音の平均レベルの値〜６０
ｄＢＳＰＬとなるように圧縮処理のパラメータを設定し
（ステップ１８００）、圧縮処理手段１４０ａに制御信
号を出力する（ステップ１８１０）。もしステップ１７
９０において４ｋＨｚ以上の環境音の平均レベルが１０
ｄＢＳＰＬ／Ｈｚ未満である場合、圧縮処理手段１４０
ａに制御信号を出力する（ステップ１８１０）。圧縮処
理手段１４０ａは声質制御手段５０ａより入力された制
御信号に基づき素片接続手段９０ａより入力された合成
音声に圧縮処理を行う（ステップ１８２０）。圧縮処理
の方法は例えば１９９１年音響学会誌、巻４７、３７３
頁から３７９頁に示された処理のようにするものとす
る。圧縮処理手段１４０ａは電気音響変換器６０を通し
て合成音声を出力する（ステップ１９００）。

【００１７】（実施例２）以下本発明の第２の実施例に
ついて、図面を参照しながら説明する。

【００１８】図９は本発明の音声合成装置の第２の実施
例を示す構成ブロック図である。図１０に第２の実施例
の動作を説明するための流れ図を、図１１に動作を説明
するための流れ図の一部を示す。図９において図１と同
一物または部分については同一符号を付しているので説
明を省略し、異なった部分についてのみ説明する。図１
の音声合成部３０ａが音声合成部３０ｂに置き換わり、
声質制御手段５０ａが声質制御手段５０ｂに置き換わ
り、マイクロフォン１１０が操作手段４０ｂに置き換わ
り、聴覚特性測定手段１２０が聴覚特性記憶手段２２０
に置き換わった以外は図１と同一な構成である。前記の
音声合成部３０ｂは、音声合成制御手段７０ｂ、合成単
位を記憶しておくデータベース部２００ｂ、合成単位に
振幅のダイナミックレンジを圧縮する圧縮処理を施す圧
縮処理手段１４０ｂ、圧縮処理手段１４０ｂで処理され
た合成単位をつなげて合成音声を生成する素片接続手段
９０ｂを有する。前記のデータベース部２００ｂは異な
る複数の強調処理を施された素片を施された強調処理ご
とに記憶する複数の素片データベース２８０ａ〜ｎと、
複数の素片データベース２８０ａ〜ｎと圧縮処理手段１
４０ｂとの接続を切り替えるスイッチ２１０ｂとを有す
る。

【００１９】以上のように構成されたこの実施例の音声
合成装置において、以下その動作を図９、図１０、図１
１に従って説明する。

【００２０】図１０、図１１において図２、図４と同一
の動作については同一符号を付しているので説明を省略
し、異なった部分についてのみ説明する。まず聴覚特性
記憶手段２２０に記憶されたあらかじめ測定された聴覚
特性を声質制御手段５０ｂに出力する。（ステップ２０
００）。声質制御手段５０ｂは聴覚特性記憶手段２２０
より入力された聴覚特性に基づき圧縮処理のパラメータ
を設定し圧縮処理手段１４０ｂへ出力する（ステップ２
１００）。圧縮処理のパラメータ設定方法は例えば聴覚
研究会資料、資料番Ｈ−９５−４、１頁〜８頁に示され
た設定方法のようにする。テキスト入力手段１０は言語
処理手段２０に目的のテキストを入力する（ステップ１
２００）。次に言語処理手段２０はテキスト入力手段１
０より入力されたテキストの構文解析を行い、読み情
報、韻律情報および強調部情報を生成し音声合成制御手
段７０ｂに出力する（ステップ１３００）。使用者は操
作手段４０ｂに強調の種類および強調の程度を入力し、
操作手段４０ｂは入力結果を強調選択情報として声質制
御手段５０ｂに出力する（ステップ２４００）。声質制
御手段５０ｂは操作手段４０ｂより入力された強調選択
情報に最も近い強調が施された素片データベースを素片
データベース２８０ａ〜ｎより選択し、スイッチ２１０
ｂを切り替えて圧縮処理手段１４０ｂに接続する（ステ
ップ２５００）。ステップ２５００で圧縮処理手段１４
０ｂと接続された素片データベース２８０は音声合成制
御手段７０ｂより入力された読み情報に従って圧縮処理
手段１４０ｂに合成単位を出力する（ステップ２６０
０）。圧縮処理手段１４０ｂは声質制御手段５０ｂより
入力された圧縮処理パラメータに従って素片データベー
ス２８０より入力された合成単位の振幅のダイナミック
レンジを圧縮し、素片接続手段９０ｂに出力する（ステ
ップ２７００）。素片接続手段９０ｂは音声合成制御手
段７０ｂより入力された韻律情報および強調部情報に従
って圧縮処理手段１４０ｂより入力された合成単位を合
成し合成音声を生成する（ステップ２８００）。まず素
片接続手段９０ｂは音声合成制御手段７０ｂより入力さ
れた強調部情報が真か偽かを判定する（ステップ１６１
０）。ステップ１６１０において強調部情報が真の場
合、素片接続手段９０ｂは合成単位中の母音定常部の時
間長を２０％延長し（ステップ２９２０）、さらに合成
単位に対応するクロージャーの値を２０％延長し（ステ
ップ１６２０）、音声合成制御手段７０ｂより入力され
た韻律情報に従って合成音声を生成する（ステップ２９
３０）。もしステップ１６１０において強調処理情報が
偽の場合、素片接続手段９０ｂは音声合成制御手段７０
ｂより入力された韻律情報に従って合成音声を生成する
（ステップ２９３０）。素片接続手段９０ｂは電気音響
変換器６０を通して合成音声を出力する（ステップ１９
００）。

【００２１】（実施例３）以下本発明の第３の実施例に
ついて、図面を参照しながら説明する。

【００２２】図１２は本発明の音声合成装置の第３の実
施例を示す構成ブロック図である。図１３に第３の実施
例の動作を説明するための流れ図を示す。第３の実施例
の構成において図９に示した第２の実施例の構成と同一
物または部分については説明を省略し、異なった部分に
ついてのみ説明する。図９の聴覚特性記憶手段２２０が
聴覚特性読み取り手段３１０に置き換わり、音声合成部
３０ｂが音声合成部３０ｃに置き換わり、声質制御手段
５０ｂが声質制御手段５０ｃに置き換わり、素片データ
ベース３８０ａ〜ｎ、聴覚特性３２０ａ〜ｎがつけ加わ
った以外は図９と同一な構成である。前記の音声合成部
３０ｃは図９の音声合成制御手段７０ｂが音声合成制御
手段７０ｃに置き換わり、データベース部２００ｂが素
片データベース読み取り手段３００に置き換わった以外
は図９の音声合成部３０ｂと同一な構成である。素片デ
ータベース３８０ａ〜ｎは複数の異なる強調の種類と強
調の程度の強調処理を施した合成単位を強調処理ごとに
格納した記憶媒体である。素片データベース読み取り手
段３００は圧縮処理手段１４０ｂが参照する素片データ
ベース３８０を読みとるものである。聴覚特性３２０ａ
〜ｎはあらかじめ測定された複数の使用者の聴覚特性を
個人ごとに格納した記憶媒体である。聴覚特性読み取り
手段３１０は声質制御手段５０ｃが参照する聴覚特性を
読みとるものである。

【００２３】以上のように構成されたこの実施例の音声
合成装置において、以下その動作を図１２、図１３に従
って説明する。

【００２４】図１３において図１０と同一の動作につい
ては同一符号を付しているので説明を省略し、異なった
部分についてのみ説明する。まず聴覚特性読み取り手段
３１０により、あらかじめセットした使用者に対応する
聴覚特性３２０を読み出し、声質制御手段５０ｃに出力
する。（ステップ３０００）。声質制御手段５０ｃは聴
覚特性読み取り手段３１０より入力された聴覚特性に基
づき圧縮処理のパラメータを設定し圧縮処理手段１４０
ｂへ出力する（ステップ２１００）。テキスト入力手段
１０は言語処理手段２０に目的のテキストを入力する
（ステップ１２００）。次に言語処理手段２０はテキス
ト入力手段１０より入力されたテキストを構文解析を行
い、読み情報、韻律情報および強調部情報を生成し音声
合成制御手段７０ｃに出力する（ステップ１３００）。
素片データベース読み取り手段３００は音声合成制御手
段７０ｃより入力された読み情報に従って、あらかじめ
使用者の好みおよび使用する場面に応じてセットされた
素片データベース３８０より合成単位を読み出し圧縮処
理手段１４０ｂに出力する（ステップ３６００）。圧縮
処理手段１４０ｂは声質制御手段５０ｃより入力された
圧縮処理パラメータに従って素片データベース３８０よ
り入力された合成単位の振幅のダイナミックレンジを圧
縮し、素片接続手段９０ｂに出力する（ステップ２７０
０）。素片接続手段９０ｂは音声合成制御手段７０ｃよ
り入力された韻律情報および強調部情報に従って圧縮処
理手段１４０ｂより入力された合成単位を合成し合成音
声を生成する（ステップ２８００）。素片接続手段９０
ｂは電気音響変換器６０を通して合成音声を出力する
（ステップ１９００）。

【００２５】（実施例４）以下本発明の第４の実施例に
ついて、図面を参照しながら説明する。

【００２６】図１４は本発明の音声合成装置の第４の実
施例を示す構成ブロック図である。図１５に第４の実施
例の動作を説明するための流れ図を、図１６、図１７に
動作を説明するための流れ図の一部を示す。図１４にお
いて図１と同一物または部分については同一符号を付し
ているので説明を省略し、異なった部分についてのみ説
明する。図１の音声合成部３０ａが音声合成部３０ｄに
置き換わり、声質制御手段５０ａが声質制御手段５０ｄ
に置き換わり、聴覚特性測定手段１２０が削除された以
外は図１と同一な構成である。前記の音声合成部３０ｄ
は、音声合成制御手段７０ｄ、合成単位を記憶しておく
素片データベース８０、素片データベース８０に記憶さ
れた合成単位をつなげて合成音声を生成する素片接続手
段９０ｄ、および素片接続手段９０ｄで生成された合成
音声に強調処理を施す音声音韻強調処理手段１３０ｄを
有する。

【００２７】以上のように構成されたこの実施例の音声
合成装置において、以下その動作を図１４、図１５、図
１６、図１７、図１８に従って説明する。図１５、図１
６、図１７、図１８において図２、図４、図５、図６と
同一の動作については同一符号を付しているので説明を
省略し、異なった部分についてのみ説明する。

【００２８】まずテキスト入力手段１０は言語処理手段
２０に目的のテキストを入力する（ステップ１２０
０）。次に言語処理手段２０はテキスト入力手段１０よ
り入力されたテキストを構文解析を行い、読み情報、韻
律情報および強調部情報を生成し音声合成制御手段７０
ｄに出力する（ステップ１３００）。素片データベース
８０は音声合成制御手段７０ｄより入力された読み情報
に従って素片接続手段９０ｄに合成単位を出力する（ス
テップ４４００）。素片接続手段９０ｄは音声合成制御
手段７０ｄより入力された韻律情報および強調部情報に
従って素片データベース８０より入力された合成単位を
接続して合成音声を生成し、音韻強調処理手段１３０ｄ
に出力する（ステップ１６００）。声質制御手段５０ｄ
は強調処理方法の設定を行う（ステップ４７００）。ま
ず声質制御手段５０ｄはマイクロフォン１１０より入力
された環境音を１ｋＨｚ以下、１ｋＨｚ〜２ｋＨｚ、２
ｋＨｚ〜４ｋＨｚ、４ｋＨｚ以上の帯域に分割し、帯域
ごとに１００ｍｓの平均レベルを求める（ステップ１７
１０）。１ｋＨｚ以下の環境音の平均レベル、１ｋＨｚ
〜２ｋＨｚの環境音の平均レベルと２０ｄＢＳＰＬ／Ｈ
ｚ、他の帯域の環境音の平均レベルと１５ｄＢＳＰＬ／
Ｈｚを比較する（ステップ４７２０）。１ｋＨｚ以下の
環境音の平均レベルが２０ｄＢＳＰＬ／Ｈｚ以上で、か
つ１ｋＨｚ〜２ｋＨｚの環境音の平均レベルが２０ｄＢ
ＳＰＬ／Ｈｚ以上で、かつ他の帯域の環境音の平均レベ
ルが１５ｄＢＳＰＬ／Ｈｚ未満の場合、フォルマント強
調情報を真とし（ステップ４７３０）、子音強調情報を
偽とする（４７８０）。次に全帯域の帯域強調情報を偽
とし（ステップ４８００）、制御信号を音韻強調処理手
段１３０ｄに出力する（ステップ４８１０）。もしステ
ップ４７２０で１ｋＨｚ以下の環境音の平均レベルが２
０ｄＢＳＰＬ／Ｈｚ以上で、かつ１ｋＨｚ〜２ｋＨｚの
環境音の平均レベルが２０ｄＢＳＰＬ／Ｈｚ以上で、か
つ他の帯域の環境音の平均レベルが１５ｄＢＳＰＬ／Ｈ
ｚ未満でない場合は、フォルマント強調情報を偽とし
（ステップ４７４０）、１ｋＨｚ〜２ｋＨｚの環境音の
平均レベルと２０ｄＢＳＰＬ／Ｈｚ、他の帯域の環境音
の平均レベルと１５ｄＢＳＰＬ／Ｈｚを比較する（ステ
ップ４７５０）。ステップ４７５０で１ｋＨｚ〜２ｋＨ
ｚの環境音の平均レベルが２０ｄＢＳＰＬ／Ｈｚ以上、
かつ２ｋＨｚ〜４ｋＨｚの環境音の平均レベルが１５ｄ
ＢＳＰＬ／Ｈｚ以上、かつ１ｋＨｚ以下の環境音の平均
レベルが２０ｄＢＳＰＬ／Ｈｚ未満、かつ４ｋＨｚ以上
の環境音の平均レベルが１５ｄＢＳＰＬ／Ｈｚ未満であ
る場合、子音強調情報を真とし（ステップ４７６０）、
全帯域の帯域強調情報を偽とし（ステップ４８００）、
制御信号を音韻強調処理手段１３０ｄに出力する（ステ
ップ４８１０）。もしステップ４７５０で１ｋＨｚ〜２
ｋＨｚの環境音の平均レベルが２０ｄＢＳＰＬ／Ｈｚ以
上、かつ２ｋＨｚ〜４ｋＨｚの環境音の平均レベルが１
５ｄＢＳＰＬ／Ｈｚ以上、かつ１ｋＨｚ以下の環境音の
平均レベルが２０ｄＢＳＰＬ／Ｈｚ未満、かつ４ｋＨｚ
以上の環境音の平均レベルが１５ｄＢＳＰＬ／Ｈｚ未満
でない場合、子音強調情報を偽とし（ステップ４７７
０）、各帯域の帯域強調情報を設定する（ステップ４７
９０）。１ｋＨｚ以下の環境音の平均レベルと２０ｄＢ
ＳＰＬ／Ｈｚとを比較する（ステップ１７３０）。ステ
ップ１７３０において１ｋＨｚ以下の環境音の平均レベ
ルが２０ｄＢＳＰＬ／Ｈｚ以上である場合、１ｋＨｚ以
下の帯域強調情報を真とし（ステップ４７９１）、１ｋ
Ｈｚ〜２ｋＨｚの環境音の平均レベルと２０ｄＢＳＰＬ
／Ｈｚとを比較する（ステップ１７５０）。もしステッ
プ１７３０において１ｋＨｚ以下の環境音が２０ｄＢＳ
ＰＬ／Ｈｚ未満である場合、１ｋＨｚ以下の帯域強調情
報を偽とし（ステップ４７９２）、１ｋＨｚ〜２ｋＨｚ
の環境音の平均レベルと２０ｄＢＳＰＬ／Ｈｚとを比較
する（ステップ１７５０）。ステップ１７５０において
１ｋＨｚ〜２ｋＨｚの環境音の平均レベルが２０ｄＢＳ
ＰＬ／Ｈｚ以上である場合、１ｋＨｚ〜２ｋＨｚの帯域
強調情報を真とし（ステップ４７９３）、２ｋＨｚ〜４
ｋＨｚの環境音の平均レベルと１５ｄＢＳＰＬ／Ｈｚと
を比較する（ステップ１７７０）。もしステップ１７５
０において１ｋＨｚ〜２ｋＨｚの環境音が２０ｄＢＳＰ
Ｌ／Ｈｚ未満である場合、１ｋＨｚ〜２ｋＨｚの帯域強
調情報を偽とし（ステップ４７９４）、２ｋＨｚ〜４ｋ
Ｈｚの環境音の平均レベルと１５ｄＢＳＰＬ／Ｈｚとを
比較する（ステップ１７７０）。ステップ１７７０にお
いて２ｋＨｚ〜４ｋＨｚの環境音の平均レベルが１５ｄ
ＢＳＰＬ／Ｈｚ以上である場合、２ｋＨｚ〜４ｋＨｚの
帯域強調情報を真とし（ステップ４７９５）、４ｋＨｚ
以上の環境音の平均レベルと１５ｄＢＳＰＬ／Ｈｚとを
比較する（ステップ１７９０）。もしステップ１７７０
において２ｋＨｚ〜４ｋＨｚの環境音が１５ｄＢＳＰＬ
／Ｈｚ未満である場合、２ｋＨｚ〜４ｋＨｚの帯域強調
情報を偽とし（ステップ４７９６）、４ｋＨｚ以上の環
境音の平均レベルと１５ｄＢＳＰＬ／Ｈｚとを比較する
（ステップ１７９０）。ステップ１７９０において４ｋ
Ｈｚ以上の環境音の平均レベルが１５ｄＢＳＰＬ／Ｈｚ
以上である場合、４ｋＨｚ以上の帯域強調情報を真とし
（ステップ４７９７）、制御信号を音韻強調処理手段１
３０ｄに出力する（ステップ４８１０）。もしステップ
１７９０において４ｋＨｚ以上の環境音の平均レベルが
１５ｄＢＳＰＬ／Ｈｚ未満である場合、４ｋＨｚ以上の
帯域強調情報を偽とし（ステップ４７９８）、制御信号
を音韻強調処理手段１３０ｄに出力する（ステップ４８
１０）。音韻強調処理手段１３０ｄは音声合成制御手段
７０ｄより入力された強調部情報および声質制御手段５
０ｄより入力された制御信号に従って強調処理を行う
（ステップ４９００）。音韻強調処理手段１３０ｄは音
声合成制御手段７０ｄより入力された強調部情報が真か
偽かを判定する（ステップ１５１０）。ステップ１５１
０において強調部情報が真である場合、合成単位中の母
音定常部の時間長を２０％延長し（ステップ１５２
０）。声質制御手段５０ｄより入力されたフォルマント
強調情報が真か偽かを判定する（ステップ１５３０）。
もしステップ１５１０において強調部情報が偽である場
合、声質制御手段５０ｄより入力されたフォルマント強
調情報が真か偽かを判定する（ステップ１５３０）。ス
テップ１５３０においてフォルマント強調情報が真であ
る場合、素片接続手段９０ｄより入力された合成音声の
スペクトル包絡を求め、スペクトルピークを強調する
（ステップ４９１０）。スペクトルピークの強調の方法
については例えば平成５年、日本音響学会講演論文集春
季２８５頁〜２８６頁に示すような方法を用いるものと
する。次に声質制御手段５０ｄより入力された子音強調
情報が真か偽かを判定する（ステップ１５５０）。もし
ステップ１５３０においてフォルマント強調情報が偽で
ある場合、声質制御手段５０ｄより入力された子音強調
情報が真か偽かを判定する（ステップ１５５０）。ステ
ップ１５５０において子音強調情報が真である場合、音
韻強調処理手段１３０ｄは合成単位中の子音および子音
から母音への渡りの振幅を増幅する（ステップ４９２
０）。子音強調の方法は例えば１９９２年、電子情報通
信学会技術研究報告、巻９１、５１３号３１頁〜３８頁
に示すような方法を用いるものとする。次に声質制御手
段５０ｄより入力された１ｋＨｚ以下の帯域強調情報が
真か偽かを判定する（ステップ４９３０）。もしステッ
プ１５６０において子音強調情報が偽である場合、声質
制御手段５０より入力された１ｋＨｚ以下の帯域強調情
報が真か偽かを判定する（ステップ４９３０）。ステッ
プ４９３０において１ｋＨｚ以下の帯域強調情報が真で
ある場合、音韻強調処理手段１３０ｄは素片接続手段９
０ｄより入力された合成音声の１ｋＨｚ以下の帯域成分
の強調処理を行い（ステップ４９４０）、１ｋＨｚ〜２
ｋＨｚの帯域強調情報が真か偽かを判定する（ステップ
４９５０）。もしステップ４９３０において１ｋＨｚ以
下の帯域強調情報が偽である場合、１ｋＨｚ〜２ｋＨｚ
の帯域強調情報が真か偽かを判定する（ステップ４９５
０）。ステップ４９５０において１ｋＨｚ〜２ｋＨｚの
帯域強調情報が真である場合、音韻強調処理手段１３０
ｄは素片接続手段９０ｄより入力された合成音声の１ｋ
Ｈｚ〜２ｋＨｚの帯域成分の強調処理を行い（ステップ
４９６０）、２ｋＨｚ〜４ｋＨｚの帯域強調情報が真か
偽かを判定する（ステップ４９７０）。もしステップ４
９５０において１ｋＨｚ〜２ｋＨｚの帯域強調情報が偽
である場合、２ｋＨｚ〜４ｋＨｚの帯域強調情報が真か
偽かを判定する（ステップ４９７０）。ステップ４９７
０において２ｋＨｚ〜４ｋＨｚの帯域強調情報が真であ
る場合、音韻強調処理手段１３０ｄは素片接続手段９０
ｄより入力された合成音声の２ｋＨｚ〜４ｋＨｚの帯域
成分の強調処理を行い（ステップ４９８０）、４ｋＨｚ
以上の帯域強調情報が真か偽かを判定する（ステップ４
９９０）。もしステップ４９７０において２ｋＨｚ〜４
ｋＨｚの帯域強調情報が偽である場合、４ｋＨｚ以上の
帯域強調情報が真か偽かを判定する（ステップ４９９
０）。ステップ４９９０において４ｋＨｚ以上の帯域強
調情報が真である場合、音韻強調処理手段１３０ｄは素
片接続手段９０ｄより入力された合成音声の４ｋＨｚ以
上の帯域成分の強調処理を行い（ステップ５０００）、
電気音響変換器６０を通して合成音声を出力する（ステ
ップ１９００）。もしステップ４９９０において４ｋＨ
ｚ以上の帯域強調情報が偽である場合、電気音響変換器
６０を通して合成音声を出力する（ステップ１９０
０）。

【００２９】（実施例５）以下本発明の第５の実施例に
ついて、図面を参照しながら説明する。

【００３０】図１９は本発明の音声合成装置の第５の実
施例を示す構成ブロック図である。図２０に第５の実施
例の動作を説明するための流れ図をを示す。図１９にお
いて図９と同一物または部分については同一符号を付し
ているので説明を省略し、異なった部分についてのみ説
明する。図９の音声合成部３０ｂが音声合成部３０ｅに
置き換わり、声質制御手段５０ｂが声質制御手段５０ｅ
に置き換わり、操作手段４０ｂが操作手段４０ｅに置き
換わり、声質制御手段５０ｂが声質制御手段５０ｅに置
き換わり、聴覚特性記憶手段２２０が削除された以外は
図９と同一な構成である。前記の音声合成部３０ｅは、
音声合成制御手段７０ｅ、合成単位を記憶しておくデー
タベース部２００ｅ、合成単位をつなげて合成音声を生
成する素片接続手段９０ｅを有する。前記のデータベー
ス部２００ｅは異なるパラメータを用いた複数の圧縮処
理を施された素片を圧縮処理に用いられたパラメータご
とに記憶する複数の素片データベース５８０ａ〜ｎと、
複数の素片データベース５８０ａ〜ｎと素片接続手段９
０ｅとの接続を切り替えるスイッチ２１０ｅとを有す
る。

【００３１】以上のように構成されたこの実施例の音声
合成装置において、以下その動作を図１９、図２０に従
って説明する。

【００３２】図２０において図１０と同一の動作につい
ては同一符号を付しているので説明を省略し、異なった
部分についてのみ説明する。まずテキスト入力手段１０
は言語処理手段２０に目的のテキストを入力する（ステ
ップ１２００）。次に言語処理手段２０はテキスト入力
手段１０より入力されたテキストの構文解析を行い、読
み情報、韻律情報および強調部情報を生成し音声合成制
御手段７０ｅに出力する（ステップ１３００）。使用者
は操作手段４０ｅに圧縮の程度を入力し、操作手段４０
ｅは入力結果を圧縮率選択情報として声質制御手段５０
ｅに出力する（ステップ５４００）。声質制御手段５０
ｅは操作手段４０ｅより入力された圧縮率選択情報に最
も近い圧縮率で圧縮が施された素片データベースを素片
データベース５８０ａ〜ｎより選択し、スイッチ２１０
ｅを切り替えて素片接続手段９０ｅに接続する（ステッ
プ５５００）。ステップ５５００で素片接続手段９０ｅ
と接続された素片データベース５８０は音声合成制御手
段７０ｅより入力された読み情報に従って素片接続手段
９０ｅに合成単位を出力する（ステップ５６００）。素
片接続手段９０ｅは音声合成制御手段７０ｅより入力さ
れた韻律情報および強調部情報に従って素片データベー
ス５８０より入力された合成単位を接続して合成音声を
生成し（ステップ２８００）、電気音響変換器６０を通
して合成音声を出力する（ステップ１９００）。

【００３３】（実施例６）以下本発明の第６の実施例に
ついて、図面を参照しながら説明する。

【００３４】図２１は本発明の音声合成装置の第６の実
施例を示す構成ブロック図である。図２２に第６の実施
例の動作を説明するための流れ図を示す。第６の実施例
の構成において図１２に示した第３の実施例の構成と同
一物または部分については説明を省略し、異なった部分
についてのみ説明する。図１２の音声合成部３０ｃが音
声合成部３０ｆに置き換わり、素片データベース３８０
ａ〜ｎが素片データベース６８０ａ〜ｎに置き換わり、
聴覚特性読み取り手段３１０、声質制御手段５０ｃ、聴
覚特性読み取り手段３１０、聴覚特性ａ〜ｎが削除され
た以外は図１２と同一な構成である。前記の音声合成部
３０ｆは図１２の音声合成制御手段７０ｃが音声合成制
御手段７０ｆに置き換わり、素片接続手段９０ｂが素片
接続手段９０ｆに置き換わり、圧縮処理手段１４０ｂが
削除された以外は図１２の音声合成部３０ｃと同一な構
成である。素片データベース６８０ａ〜ｎは異なるパラ
メータを用いた複数の圧縮処理を施された素片を圧縮処
理に用いられたパラメータごとに格納した記憶媒体であ
る。素片データベース読み取り手段３００は素片接続手
段９０ｆが参照する素片データベース６８０を読み取る
ものである。

【００３５】以上のように構成されたこの実施例の音声
合成装置において、以下その動作を図２１、図２２に従
って説明する。

【００３６】図２２において図１３と同一の動作につい
ては同一符号を付しているので説明を省略し、異なった
部分についてのみ説明する。まずテキスト入力手段１０
は言語処理手段２０に目的のテキストを入力する（ステ
ップ１２００）。次に言語処理手段２０はテキスト入力
手段１０より入力されたテキストの構文解析を行い、読
み情報、韻律情報および強調部情報を生成し音声合成制
御手段７０ｆに出力する（ステップ１３００）。素片デ
ータベース読み取り手段３００は音声合成制御手段７０
ｆより入力された読み情報に従って、あらかじめ使用者
の好みおよび使用する場面に応じてセットされた素片デ
ータベース６８０より合成単位を読み出し素片接続手段
９０ｆに出力する（ステップ６６００）。素片接続手段
９０ｆは音声合成制御手段７０ｆより入力された韻律情
報および強調部情報に従って素片データベース読み取り
手段３００より入力された合成単位を接続して合成音声
を生成し（ステップ２８００）、電気音響変換器６０を
通して合成音声を出力する（ステップ１９００）。

【００３７】（実施例７）以下本発明の第７の実施例に
ついて、図面を参照しながら説明する。

【００３８】図２３は本発明の音声合成装置の第７の実
施例を示す構成ブロック図である。図２４に第７の実施
例の動作を説明するための流れ図を、図２５に動作を説
明するための流れ図の一部を示す。図２３において図１
と同一物または部分については同一符号を付しているの
で説明を省略し、異なった部分についてのみ説明する。
図１の音声合成部３０ａが音声合成部３０ｇに置き換わ
り、声質制御手段５０ａが声質制御手段５０ｇに置き換
わった以外は図１と同一な構成である。前記の音声合成
部３０ｇは、図１の音声合成部３０ａの音声合成制御手
段７０ａが音声合成制御手段７０ｇに置き換わり、圧縮
処理手段１４０ａが圧縮処理手段１４０ｇに置き換わ
り、素片接続手段９０ａが素片接続手段９０ｇに置き換
わり、音韻強調処理手段１３０ａが削除された以外は図
１の音声合成部３０ａと同一な構成である。

【００３９】以上のように構成されたこの実施例の音声
合成装置において、以下その動作を図２３、図２４、図
２５に従って説明する。

【００４０】まず聴覚特性測定手段１２０で使用者の聴
覚特性を測定し、測定結果を声質制御手段５０ｇに出力
する。（ステップ１０００）。テキスト入力手段１０は
言語処理手段２０に目的のテキストを入力する（ステッ
プ１２００）。次に言語処理手段２０はテキスト入力手
段１０より入力されたテキストを構文解析を行い、読み
情報、韻律情報および強調部情報を生成し音声合成制御
手段７０ｇに出力する（ステップ１３００）。素片デー
タベース８０は音声合成制御手段７０ｇより入力された
読み情報に従って圧縮処理手段１４０ｇに合成単位を出
力する（ステップ７４００）。圧縮処理手段１４０ｇは
声質制御手段５０ｇより入力された制御信号に従って素
片データベース８０から入力された合成単位の振幅のダ
イナミックレンジを圧縮する（ステップ７５００）。ま
ず声質制御手段５０ｇはマイクロフォン１１０より入力
された環境音を１ｋＨｚ以下、１ｋＨｚ〜２ｋＨｚ、２
ｋＨｚ〜４ｋＨｚ、４ｋＨｚ以上の帯域に分割し、帯域
ごとに１００ｍｓの平均レベルを求める（ステップ１７
１０）。１ｋＨｚ以下の環境音の平均レベルと聴覚特性
測定手段１２０より入力された使用者の５００Ｈｚの最
小可聴値とを比較する（ステップ７７２０）。ステップ
７７２０において１ｋＨｚ以下の環境音の平均レベルが
使用者の５００Ｈｚの最小可聴値以上である場合、声質
制御手段５０ｇは合成単位の１ｋＨｚ以下の成分のレベ
ルのダイナミックレンジが１ｋＨｚ以下の環境音の平均
レベルの値に聴覚特性測定手段１２０より入力された使
用者の５００Ｈｚの最小可聴値を加えた値〜９０ｄＢＳ
ＰＬとなるように圧縮処理のパラメータを設定し（ステ
ップ７７３０）、１ｋＨｚ〜２ｋＨｚの環境音の平均レ
ベルと聴覚特性測定手段１２０より入力された使用者の
１ｋＨｚの最小可聴値とを比較する（ステップ７７５
０）。もしステップ７７３０において１ｋＨｚ以下の環
境音が使用者の５００Ｈｚの最小可聴値未満である場
合、聴覚特性測定手段１２０より入力された測定結果に
基づき圧縮処理のパラメータを設定し（ステップ７７４
０）、１ｋＨｚ〜２ｋＨｚの環境音の平均レベルと聴覚
特性測定手段１２０より入力された使用者の１ｋＨｚの
最小可聴値とを比較する（ステップ７７５０）。圧縮処
理パラメータの設定方法は例えば実施例２および実施例
３と同様とする。ステップ７７５０において１ｋＨｚ〜
２ｋＨｚの環境音の平均レベルが聴覚特性測定手段１２
０より入力された使用者の１ｋＨｚの最小可聴値以上で
ある場合、声質制御手段５０ｇは合成単位の１ｋＨｚ〜
２ｋＨｚの成分のレベルのダイナミックレンジが１ｋＨ
ｚ〜２ｋＨｚの環境音の平均レベルの値に聴覚特性測定
手段１２０より入力された使用者の１ｋＨｚの最小可聴
値を加えた値〜９０ｄＢＳＰＬとなるように圧縮処理の
パラメータを設定し（ステップ７７６０）、２ｋＨｚ〜
４ｋＨｚの環境音の平均レベルと聴覚特性測定手段１２
０より入力された使用者の２ｋＨｚの最小可聴値とを比
較する（ステップ７７８０）。もしステップ７７５０に
おいて１ｋＨｚ〜２ｋＨｚの環境音が使用者の１ｋＨｚ
の最小可聴値未満である場合、聴覚特性測定手段１２０
より入力された測定結果に基づき圧縮処理のパラメータ
を設定し（ステップ７７７０）、２ｋＨｚ〜４ｋＨｚの
環境音の平均レベルと聴覚特性測定手段１２０より入力
された使用者の２ｋＨｚの最小可聴値とを比較する（ス
テップ７７８０）。ステップ７７８０において２ｋＨｚ
〜４ｋＨｚの環境音の平均レベルが聴覚特性測定手段１
２０より入力された使用者の２ｋＨｚの最小可聴値以上
である場合、声質制御手段５０ｇは合成単位の２ｋＨｚ
〜４ｋＨｚの成分のレベルのダイナミックレンジが２ｋ
Ｈｚ〜４ｋＨｚの環境音の平均レベルの値に聴覚特性測
定手段１２０より入力された使用者の２ｋＨｚの最小可
聴値を加えた値〜９０ｄＢＳＰＬとなるように圧縮処理
のパラメータを設定し（ステップ７７９０）、４ｋＨｚ
以上の環境音の平均レベルと聴覚特性測定手段１２０よ
り入力された使用者の４ｋＨｚの最小可聴値とを比較す
る（ステップ７８１０）。もしステップ７７８０におい
て２ｋＨｚ〜４ｋＨｚの環境音が使用者の２ｋＨｚの最
小可聴値未満である場合、聴覚特性測定手段１２０より
入力された測定結果に基づき圧縮処理のパラメータを設
定し（ステップ７８００）、４ｋＨｚ以上の環境音の平
均レベルと聴覚特性測定手段１２０より入力された使用
者の４ｋＨｚの最小可聴値とを比較する（ステップ７８
１０）。ステップ７８１０において４ｋＨｚ以上の環境
音の平均レベルが聴覚特性測定手段１２０より入力され
た使用者の４ｋＨｚの最小可聴値以上である場合、声質
制御手段５０ｇは合成単位の４ｋＨｚ以上の成分のレベ
ルのダイナミックレンジが４ｋＨｚ以上の環境音の平均
レベルの値に聴覚特性測定手段１２０より入力された使
用者の４ｋＨｚの最小可聴値を加えた値〜９０ｄＢＳＰ
Ｌとなるように圧縮処理のパラメータを設定し（ステッ
プ７８２０）、圧縮処理手段１４０ｇに制御信号を出力
する（ステップ１８１０）。もしステップ７８１０にお
いて４ｋＨｚ以上の環境音が使用者の４ｋＨｚの最小可
聴値未満である場合、聴覚特性測定手段１２０より入力
された測定結果に基づき圧縮処理のパラメータを設定し
（ステップ７８３０）、圧縮処理手段１４０ｇに制御信
号を出力する（ステップ１８１０）。圧縮処理手段１４
０ｇは声質制御手段５０ｇより入力された制御信号に基
づき素片データベース８０より入力された合成単位に圧
縮処理を施し、素片接続手段９０ｇに出力する（ステッ
プ７８４０）。素片接続手段９０ｇは音声合成制御手段
７０ｇより入力された韻律情報および強調部情報に従っ
て圧縮処理手段１４０ｇより入力された合成単位を接続
して合成音声を生成し（ステップ７９００）、電気音響
変換器６０を通して合成音声を出力する（ステップ１９
００）。

【００４１】（実施例８）以下本発明の第８の実施例に
ついて、図面を参照しながら説明する。

【００４２】図２６は本発明の音声合成装置の第８の実
施例を示す構成ブロック図である。図２７に第８の実施
例の動作を説明するための流れ図を、図２８に第８の実
施例の動作の一部を説明するための流れ図を示す。図２
９に第８の実施例のフォルマント強調の処理結果の模式
図を示す。第８の実施例の構成において図１２に示した
第３の実施例の構成と同一物または部分については説明
を省略し、異なった部分についてのみ説明する。図１２
の音声合成部３０ｃが音声合成部３０ｈに置き換わり、
声質制御手段５０ｃが声質制御手段５０ｈに置き換わ
り、素片データベース３８０ａ〜ｎが削除された以外は
図１２と同一な構成である。前記の音声合成部３０ｈは
図１２の音声合成制御手段７０ｃが音声合成制御手段７
０ｈに置き換わり、素片データベース読み取り手段３０
０が素片データベース８０に置き換わり、圧縮処理手段
１４０ｂが音韻強調処理手段１３０ｈに置き換わり、強
調フィルタ部８００がつけ加わった以外は図１２の音声
合成部３０ｃと同一な構成である。前記の強調フィルタ
部８００はあらかじめ各音韻ごとにフォルマントを強調
するよう設定されたフォルマント強調フィルタ８１０ａ
〜ｎと、フォルマント強調フィルタ８１０と音韻強調処
理手段１３０ｈの接続を切り替えるスイッチ８２０とを
有する。

【００４３】以上のように構成されたこの実施例の音声
合成装置において、以下その動作を図２６、図２７、図
２８、図２９に従って説明する。

【００４４】図２７、図２８、図２９において図２、図
４、図１３と同一の動作については同一符号を付してい
るので説明を省略し、異なった部分についてのみ説明す
る。まず聴覚特性読み取り手段３１０により、あらかじ
めセットした使用者に対応する聴覚特性を読み出し、声
質制御手段５０ｈに出力する。（ステップ３０００）。
声質制御手段５０は聴覚特性読み取り手段３１０より入
力された聴覚特性に基づき強調処理の設定を決定し音韻
強調処理手段１３０ｈへ出力する（ステップ１１０
０）。テキスト入力手段１０は言語処理手段２０に目的
のテキストを入力する（ステップ１２００）。次に言語
処理手段２０はテキスト入力手段１０より入力されたテ
キストの構文解析を行い、読み情報、韻律情報および強
調部情報を生成し音声合成制御手段７０ｈに出力する
（ステップ１３００）。素片データベース８０は音声合
成制御手段７０ｈより入力された読み情報に従って音韻
強調処理手段１３０ｈに合成単位を出力する（ステップ
１４００）。音韻強調処理手段１３０ｈは音声合成制御
手段７０ｈより入力された強調部情報と声質制御手段５
０ｈより入力された制御信号に従って合成単位に強調処
理を施す（ステップ８５００）。音韻強調処理手段１３
０ｈは音声合成制御手段７０ｈより入力された強調部情
報が真か偽かを判定する（ステップ１５１０）。ステッ
プ１５１０において強調部情報が真である場合、合成単
位中の母音定常部の時間長を２０％延長し（ステップ１
５２０）。声質制御手段５０ｈより入力されたフォルマ
ント強調情報が真か偽かを判定する（ステップ１５３
０）。もしステップ１５１０において強調部情報が偽で
ある場合、声質制御手段５０ｈより入力されたフォルマ
ント強調情報が真か偽かを判定する（ステップ１５３
０）。ステップ１５３０においてフォルマント強調情報
が真である場合、音声合成制御手段７０ｈより出力され
た制御信号により素片データベース８０より出力された
合成単位に対応するフォルマント強調フィルタ８１０に
スイッチ８２０を接続する（ステップ８５１０）。図２
８に示すように、ステップ８５１０で接続されたあらか
じめ音韻ごとに設定されたフィルタバンクを用いて、フ
ォルマントを含む帯域を選択的に通過させ、図７ｃ）に
示すようにフォルマントを含む帯域とフォルマントを含
まない帯域とのコントラストを強調する（ステップ８５
４０）。次に声質制御手段５０より入力された子音強調
情報が真か偽かを判定する（ステップ１５５０）。もし
ステップ１５３０においてフォルマント強調情報が偽で
ある場合、声質制御手段５０ｈより入力された子音強調
情報が真か偽かを判定する（ステップ１５５０）。ステ
ップ１５５０において子音強調情報が真である場合、合
成単位中の子音および子音から母音への渡りの振幅を増
幅する（ステップ１５６０）。次に声質制御手段５０ｈ
より入力された帯域強調情報が真か偽かを判定する（ス
テップ１５７０）。もしステップ１５６０において子音
強調情報が偽である場合、声質制御手段５０ｈより入力
された帯域強調情報が真か偽かを判定する（ステップ１
５７０）。ステップ１５７０において帯域強調情報が真
である場合、合成単位中の子音に２ｋＨｚ以上の帯域を
強調する高帯域強調処理を行い（ステップ１５８０）、
音韻強調処理手段１３０ｈは合成単位を素片接続手段９
０ｈに出力する（ステップ１５９０）。もしステップ１
５７０において帯域強調情報が偽である場合、音韻強調
処理手段１３０ｈは合成単位を素片接続手段９０ｈに出
力する（ステップ１５９０）。素片接続手段９０ｈは音
声合成制御手段７０ｈより入力された韻律情報および強
調部情報に従って音韻強調処理手段１３０ｈより入力さ
れた合成単位を接続して合成音声を生成し（ステップ１
６００）、電気音響変換器６０を通して合成音声を出力
する（ステップ１９００）。

【００４５】（実施例９）以下本発明の第９の実施例に
ついて、図面を参照しながら説明する。

【００４６】図３０は本発明の音声合成装置の第９の実
施例を示す構成ブロック図である。図３１に第９の実施
例の動作を説明するための流れ図を、図３２に動作を説
明するための流れ図の一部を示す。図３０において図４
２と同一物または部分については同一符号を付している
ので説明を省略し、異なった部分についてのみ説明す
る。図４２の声質制御手段５０ｍが声質制御手段５０ｉ
に置き換わり、操作手段４０ｍがマイクロフォン１１０
に置き換わった以外は図４２と同一な構成である。

【００４７】以上のように構成されたこの実施例の音声
合成装置において、以下その動作を図３０、図３１、図
３２に従って説明する。図３１において図２と同一の動
作については同一符号を付しているので説明を省略し、
異なった部分についてのみ説明する。

【００４８】声質制御手段５０ｉは合成音声の基本周波
数の設定をする（ステップ９１００）。まずマイクロフ
ォン１１０は声質制御手段５０ｉに環境音信号を出力す
る（ステップ９１１０）。声質制御手段５０ｉはマイク
ロフォン１１０より入力された環境音のレベルと３０ｄ
Ｂ（Ａ）を比較する（ステップ９１２０）。ステップ９
１２０で環境音のレベルが３０ｄＢ（Ａ）以上の場合、
基本周波数をあらかじめ定められた標準値より２０％高
く設定し（ステップ９１３０）、テキスト入力手段１０
は言語処理手段２０に目的のテキストを入力する（ステ
ップ１２００）。ステップ９１２０で環境音のレベルが
３０ｄＢ（Ａ）未満の場合、テキスト入力手段１０は言
語処理手段２０に目的のテキストを入力する（ステップ
１２００）。次に言語処理手段２０はテキスト入力手段
１０より入力されたテキストを構文解析を行い、読み情
報および韻律情報を生成し音声合成制御手段７０ｍに出
力する（ステップ１３００）。素片データベース８０は
音声合成制御手段７０ｍより入力された読み情報に従っ
て素片接続手段９０ｍに合成単位を出力する（ステップ
９４００）。素片接続手段９０ｍは音声合成制御手段７
０ｍより入力された韻律情報および声質制御手段５０ｉ
より入力された制御信号に従って素片データベース８０
より入力された合成単位を接続して合成音声を生成し
（ステップ９５００）、電気音響変換器６０を通して合
成音声を出力する（ステップ１９００）。

【００４９】（実施例１０）以下本発明の第１０の実施
例について、図面を参照しながら説明する。

【００５０】図３３は本発明の音声合成装置の第１０の
実施例を示す構成ブロック図である。図３４に第１０の
実施例の動作を説明するための流れ図を、図３５に動作
を説明するための流れ図の一部を示す。図３３において
図３０と同一物または部分については同一符号を付して
いるので説明を省略し、異なった部分についてのみ説明
する。図３０の声質制御手段５０ｉが声質制御手段５０
ｊに置き換わり、マイクロフォン１１０が聴覚特性測定
手段１２０に置き換わった以外は図３０と同一な構成で
ある。

【００５１】以上のように構成されたこの実施例の音声
合成装置において、以下その動作を図３３、図３４、図
３５に従って説明する。図３４、図３５において図３
１、図３２と同一の動作については同一符号を付してい
るので説明を省略し、異なった部分についてのみ説明す
る。

【００５２】聴覚特性測定手段１２０で使用者の聴覚特
性を測定する（ステップ１００００）。聴覚特性の測定
方法については例えば実施例１と同様とする。声質制御
手段５０ｊは聴覚特性測定手段１２０より入力された使
用者の聴覚特性および好みに従って合成音声の基本周波
数の設定をする（ステップ１０１００）。聴覚特性測定
手段１２０より聴覚特性の測定結果を声質制御手段５０
ｊに出力する。（ステップ１０１１０）。声質制御手段
５０ｊは使用者の２ｋＨｚ未満の平均聴力レベルと２ｋ
Ｈｚ以上の平均聴力レベルを比較する（ステップ１０１
２０）。ステップ１０１２０において２ｋＨｚ以上の平
均聴力レベルから２ｋＨｚ未満の平均聴力レベルを減じ
た値が３０ｄＢ以上の場合は、合成音声の基本周波数を
あらかじめ定められた標準値より２０％高く設定し（ス
テップ９１３０）、テキスト入力手段１０は言語処理手
段２０に目的のテキストを入力する（ステップ１２０
０）。ステップ１０１２０で２ｋＨｚ以上の平均聴力レ
ベルから２ｋＨｚ未満の平均聴力レベルを減じた値が３
０ｄＢ未満の場合、テキスト入力手段１０は言語処理手
段２０に目的のテキストを入力する（ステップ１２０
０）。次に言語処理手段２０はテキスト入力手段１０よ
り入力されたテキストの構文解析を行い、読み情報およ
び韻律情報を生成し音声合成制御手段７０ｍに出力する
（ステップ１３００）。素片データベース８０は音声合
成制御手段７０ｍより入力された読み情報に従って素片
接続手段９０ｍに合成単位を出力する（ステップ９４０
０）。素片接続手段９０ｍは音声合成制御手段７０ｍよ
り入力された韻律情報および声質制御手段５０ｊより入
力された制御信号に従って素片データベース８０より入
力された合成単位を合成し合成音声を生成し（ステップ
９５００）、電気音響変換器６０を通して合成音声を出
力する（ステップ１９００）。

【００５３】（実施例１１）以下本発明の第１１の実施
例について、図面を参照しながら説明する。

【００５４】図３６は本発明の音声合成装置の第１１の
実施例を示す構成ブロック図である。図３７に第１１の
実施例の動作を説明するための流れ図を、図３８に動作
を説明するための流れ図の一部を示す。図３６において
図３３と同一物または部分については同一符号を付して
いるので説明を省略し、異なった部分についてのみ説明
する。図３３の声質制御手段５０ｊが声質制御手段５０
ｋに置き換わり、聴覚特性測定手段１２０が聴覚特性記
憶手段２２０に置き換わった以外は図３３と同一な構成
である。

【００５５】以上のように構成されたこの実施例の音声
合成装置において、以下その動作を図３６、図３７、図
３８に従って説明する。図３７において図３４と同一の
動作については同一符号を付しているので説明を省略
し、異なった部分についてのみ説明する。

【００５６】声質制御手段５０ｋは合成音声の基本周波
数の設定をする（ステップ１１１００）。まず聴覚特性
記憶手段２２０よりあらかじめ測定された使用者の聴覚
特性を声質制御手段５０ｋに出力する。（ステップ１１
１１０）。声質制御手段５０ｋは使用者の平均聴力レベ
ルと４０ｄＢＨＬを比較する（ステップ１１１２０）。
ステップ１１１２０において使用者の平均聴力レベルが
４０ｄＢＨＬ以上の場合は、合成音声の話速をあらかじ
め定められた標準値より１０％遅く設定し（ステップ１
１１３０）、テキスト入力手段１０は言語処理手段２０
に目的のテキストを入力する（ステップ１２００）。ス
テップ１１１２０で使用者の平均聴力レベルが４０ｄＢ
ＨＬ未満の場合、テキスト入力手段１０は言語処理手段
２０に目的のテキストを入力する（ステップ１２０
０）。次に言語処理手段２０はテキスト入力手段１０よ
り入力されたテキストを構文解析を行い、読み情報およ
び韻律情報を生成し音声合成制御手段７０ｍに出力する
（ステップ１３００）。素片データベース８０は音声合
成制御手段７０ｍより入力された読み情報に従って素片
接続手段９０ｍに合成単位を出力する（ステップ９４０
０）。素片接続手段９０ｍは音声合成制御手段７０ｍよ
り入力された韻律情報および声質制御手段５０ｋより入
力された制御信号に従って素片データベース８０より入
力された合成単位を合成し合成音声を生成し（ステップ
９５００）、電気音響変換器６０を通して合成音声を出
力する（ステップ１９００）。

【００５７】（実施例１２）以下本発明の第１２の実施
例について、図面を参照しながら説明する。

【００５８】図３９は本発明の音声合成装置の第１２の
実施例を示す構成ブロック図である。図４０に第１２の
実施例の動作を説明するための流れ図を、図４１に動作
を説明するための流れ図の一部を示す。図３９において
図３６と同一物または部分については同一符号を付して
いるので説明を省略し、異なった部分についてのみ説明
する。図３６の声質制御手段５０ｋが声質制御手段５０
ｌに置き換わり、聴覚特性記憶手段２２０が聴覚特性読
み取り手段３１０に置き換わり、聴覚特性３２０ａ〜ｎ
がつけ加わった以外は図３６と同一な構成である。

【００５９】以上のように構成されたこの実施例の音声
合成装置において、以下その動作を図３９、図４０、図
４１に従って説明する。図４０、図４１において図３
７、図３８と同一の動作については同一符号を付してい
るので説明を省略し、異なった部分についてのみ説明す
る。

【００６０】声質制御手段５０ｌは合成音声の基本周波
数の設定をする（ステップ１２１００）。まず聴覚特性
読み取り手段３１０はあらかじめセットされた使用者の
聴覚特性３２０を読み取り、声質制御手段５０ｌに出力
する。（ステップ１２１１０）。声質制御手段５０は使
用者の平均聴力レベルと４０ｄＢＨＬを比較する（ステ
ップ１１１２０）。ステップ１１１２０において使用者
の平均聴力レベルが４０ｄＢＨＬ以上の場合は、合成音
声の話速をあらかじめ定められた標準値より１０％遅く
設定し（ステップ１１１３０）、テキスト入力手段１０
は言語処理手段２０に目的のテキストを入力する（ステ
ップ１２００）。ステップ１１１２０で使用者の平均聴
力レベルが４０ｄＢＨＬ未満の場合、テキスト入力手段
１０は言語処理手段２０に目的のテキストを入力する
（ステップ１２００）。次に言語処理手段２０はテキス
ト入力手段１０より入力されたテキストの構文解析を行
い、読み情報および韻律情報を生成し音声合成制御手段
７０ｍに出力する（ステップ１３００）。素片データベ
ース８０は音声合成制御手段７０ｍより入力された読み
情報に従って素片接続手段９０ｍに合成単位を出力する
（ステップ９４００）。素片接続手段９０ｍは音声合成
制御手段７０ｍより入力された韻律情報および声質制御
手段５０ｍより入力された制御信号に従って素片データ
ベース８０より入力された合成単位を接続して合成音声
を生成し（ステップ９５００）、電気音響変換器６０を
通して合成音声を出力する（ステップ１９００）。

【００６１】（実施例１３）以下本発明の第１３の実施
例について、図面を参照しながら説明する。

【００６２】図４２は本発明の音声合成装置の第１３の
実施例を示す構成ブロック図である。図４３に第１３の
実施例の動作を説明するための流れ図をを示す。図４２
において図３０と同一物または部分については同一符号
を付しているので説明を省略し、異なった部分について
のみ説明する。図３０の言語処理手段２０が言語処理部
９００に置き換わり、音声合成部３０ｍが音声合成部３
０ｎに置き換わり、声質制御手段５０ｉが削除され、マ
イクロフォン１１０が音声合成制御手段７０ｎに接続さ
れた以外は図３０と同一な構成である。前記の言語処理
部９００は構文解析手段９１０と音声合成開始位置決定
手段９２０とを有する。前記の音声合成部３０ｎは音声
合成制御手段７０ｎと、素片データベース８０、素片接
続手段９０ｎとを有する。

【００６３】以上のように構成されたこの実施例の音声
合成装置において、以下その動作を図４２、図４３に従
って説明する。図４３において図３１と同一の動作につ
いては同一符号を付しているので説明を省略し、異なっ
た部分についてのみ説明する。

【００６４】まずテキスト入力手段１０は構文解析手段
９１０に目的のテキストを入力する（ステップ１３１０
０）。次に構文解析手段９１０はテキスト入力手段１０
より入力されたテキストを構文解析を行い、構文情報を
生成し音声合成開始位置決定手段９２０へ出力し、読み
情報および韻律情報を生成し音声合成制御手段７０ｎに
出力する（ステップ１３２００）。音声合成開始位置決
定手段９２０は構文解析手段９１０より入力された構文
情報に従って音声合成開始位置を決定し、音声合成制御
手段７０ｎに開始位置情報を出力する（ステップ１３３
００）。音声合成制御手段７０ｎはマイクロフォン１１
０より環境音信号を取り込み、環境音の１００ｍｓの平
均レベルと７０ｄＢ（Ａ）とを比較する（ステップ１３
４００）。ステップ１３４００において環境音の平均レ
ベルが７０ｄＢ（Ａ）未満の場合、素片データベース８
０は音声合成制御手段７０ｎより入力された読み情報に
従って素片接続手段９０ｎに合成単位を出力する（ステ
ップ９４００）。もしステップ１３４００で環境音の平
均レベルが７０ｄＢ（Ａ）以上である場合、音声合成制
御手段７０ｎは音声合成停止信号を素片接続手段９０ｎ
に出力し、合成音声の生成を停止する（ステップ１３５
００）。音声合成制御手段７０ｎは環境音の平均レベル
と７０ｄＢ（Ａ）とを比較し（ステップ１３６００）、
環境音の平均レベルが７０ｄＢ（Ａ）以上である場合
は、ステップ１３６００を繰り返す。ステップ１３６０
０において環境音の平均レベルが７０ｄＢ（Ａ）未満で
ある場合にのみ、音声合成開始位置決定手段９２０より
入力された開始位置情報に従い、停止位置よりテキスト
上の位置が前で最も停止位置に近い音声合成開始位置か
ら音声合成を再開し（ステップ１３７００）、素片デー
タベース８０は音声合成制御手段７０ｎより入力された
読み情報に従って素片接続手段９０ｎに合成単位を出力
する（ステップ９４００）。素片接続手段９０ｎは音声
合成制御手段７０ｎより入力された韻律情報に従って素
片データベース８０より入力された合成単位を接続して
合成音声を生成し（ステップ９５００）、電気音響変換
器６０を通して合成音声を出力する（ステップ１９０
０）。

【００６５】（実施例１４）以下本発明の第１４の実施
例について、図面を参照しながら説明する。

【００６６】図４４は本発明の音声合成装置の第１４の
実施例を示す構成ブロック図である。図４５に第１４の
実施例の動作を説明するための流れ図をを示す。図４４
において図４２と同一物または部分については同一符号
を付しているので説明を省略し、異なった部分について
のみ説明する。図４２の音声合成部３０ｎが音声合成部
３０ｏに置き換わり、マイクロフォン１１０が操作手段
４０ｏに置き換わった以外は図４２と同一な構成であ
る。前記の音声合成部３０ｏは音声合成制御手段７０ｏ
と、素片データベース８０、素片接続手段９０ｎとを有
する。

【００６７】以上のように構成されたこの実施例の音声
合成装置において、以下その動作を図４４、図４５に従
って説明する。図４５において図４３と同一の動作につ
いては同一符号を付しているので説明を省略し、異なっ
た部分についてのみ説明する。

【００６８】まずテキスト入力手段１０は構文解析手段
９１０に目的のテキストを入力する（ステップ１３１０
０）。次に構文解析手段９１０はテキスト入力手段１０
より入力されたテキストの構文解析を行い、構文情報を
生成し音声合成開始位置決定手段９２０へ出力し、読み
情報および韻律情報を生成し音声合成制御手段７０ｏに
出力する（ステップ１３２００）。音声合成開始位置決
定手段９２０は構文解析手段９１０より入力された構文
情報に従って音声合成開始位置を決定し、音声合成制御
手段７０ｏに開始位置情報を出力する（ステップ１３３
００）。音声合成制御手段７０ｏは操作手段４０ｏより
操作信号を取り込み、使用者が音声合成停止信号を入力
したか否かを判定する（ステップ１４４００）。ステッ
プ１４４００において音声合成停止信号が入力されてい
ない場合、素片データベース８０は音声合成制御手段７
０ｎより入力された読み情報に従って素片接続手段９０
ｎに合成単位を出力する（ステップ９４００）。もしス
テップ１４４００で音声合成停止信号が入力されている
場合、音声合成制御手段７０ｏは音声合成停止信号を素
片接続手段９０ｎに出力し、合成音声の生成を停止する
（ステップ１３５００）。音声合成制御手段７０ｏは操
作装置より操作信号を取り込み、使用者が音声合成再開
信号を入力したか否かを判定し（ステップ１４６０
０）、音声合成再開信号が入力されていない場合は、ス
テップ１４６００を繰り返す。ステップ１４６００にお
いて音声合成再開信号が入力された場合にのみ、音声合
成開始位置決定手段９２０より入力された開始位置情報
に従い、停止位置よりテキスト上の位置が前で最も停止
位置に近い音声合成開始位置から音声合成を再開し（ス
テップ１３７００）、素片データベース８０は音声合成
制御手段７０ｏより入力された読み情報に従って素片接
続手段９０ｎに合成単位を出力する（ステップ９４０
０）。素片接続手段９０ｎは音声合成制御手段７０ｏよ
り入力された韻律情報に従って素片データベース８０よ
り入力された合成単位を接続して合成音声を生成し（ス
テップ９５００）、電気音響変換器６０を通して合成音
声を出力する（ステップ１９００）。

【００６９】（実施例１５）以下本発明の第１５の実施
例について、図面を参照しながら説明する。

【００７０】図４６は本発明の音声合成装置の第１５の
実施例を示す構成ブロック図である。図４７に第１５の
実施例の動作を説明するための流れ図を示す。図４６に
おいて図４２と同一物または部分については同一符号を
付しているので説明を省略し、異なった部分についての
み説明する。図４２の言語処理部９００ｎが言語処理部
９００ｐに置き換わり、言語処理部９００ｐにおいては
構文解析手段９１０から構文解析結果を受け取り強調す
べき単語を決定する強調語決定手段が追加されている。
一方、図４２の音声合成部３０ｎが音声合成部３０ｐに
置き換わり、音声合成部３０ｐにおいては音声合成制御
手段７０ｐと接続される計時手段９４０と、素片データ
ベースの素片出力を入力とし、音声合成制御手段からの
制御信号に基づいて素片に強調処理を施し、素片接続手
段へ出力する音韻強調処理手段１３０ｐが追加されてい
る。さらに、強調語決定手段９３０から強調語情報を音
声合成制御手段が受け取るという構成になっている。以
上の変更以外は図４２と同一な構成である。

【００７１】以上のように構成されたこの実施例の音声
合成装置において、以下その動作を図４６、図４７に従
って説明する。図４７において図４３と同一の動作につ
いては同一符号を付しているので説明を省略し、異なっ
た部分についてのみ説明する。まずテキスト入力手段１
０は構文解析手段９１０に目的のテキストを入力する
（ステップ１３１００）。次に構文解析手段９１０はテ
キスト入力手段１０より入力されたテキストの構文解析
を行い、構文情報を生成し音声合成開始位置決定手段９
２０、および、強調語決定手段９３０へ出力し、読み情
報および韻律情報を生成し音声合成制御手段７０ｐに出
力する（ステップ１３２００）。音声合成開始位置決定
手段９２０は構文解析手段９１０より入力された構文情
報に従って音声合成開始位置を決定し、音声合成制御手
段７０ｐに開始位置情報を出力する（ステップ１３３０
０ａ）。同時に、強調語決定手段９３０は構文解析手段
９１０より入力された構文情報に従って強調すべき単語
を決定し、音声合成制御手段７０ｐに強調語情報を出力
する（ステップ１３３００ｂ）。音声合成制御手段７０
ｐはマイクロフォン１１０より環境音信号を取り込み、
環境音の１００ｍｓの平均レベルと７０ｄＢ（Ａ）を比
較する（ステップ１３４００）。ステップ１３４００に
おいて環境音の平均レベルが７０ｄＢ（Ａ）未満の場
合、素片データベース８０は音声合成制御手段７０ｐよ
り入力された読み情報に従って音韻強調処理手段１３０
ｐに合成単位を出力し、音韻強調処理手段１３０ｐでは
強調処理を行わず、そのまま素片接続手段９０ｎに合成
単位を出力する（ステップ９４００ａ）。もしステップ
１３４００で環境音の平均レベルが７０ｄＢ（Ａ）以上
である場合、音声合成制御手段７０ｎは音声合成停止信
号を素片接続手段９０ｎに出力し、合成音声の生成を停
止する（ステップ１３５００）。そして、計時手段９４
０に計測開始の信号を送り時間計測を開始する（ステッ
プ１４１００）。音声合成制御手段７０ｐは環境音の平
均レベルと７０ｄＢ（Ａ）とを比較し（ステップ１３６
００）、環境音の平均レベルが７０ｄＢ（Ａ）以上であ
る場合は、ステップ１３６００を繰り返す。ステップ１
３６００において環境音の平均レベルが７０ｄＢ（Ａ）
未満である場合には、計時手段９４０に計測終了の信号
を送り時間計測を終了し、経過時間を取り込む（ステッ
プ１４２００）。音声合成制御手段７０ｐは、経過時間
が０より１秒未満の場合は音声合成開始位置のランクを
１に設定し、経過時間が１秒以上２秒未満の場合は音声
合成開始位置のランクを２に設定し、経過時間が２秒以
上３秒未満の場合は音声合成開始位置のランクを３に設
定し、経過時間が３秒以上の場合は音声合成開始位置の
ランクを４に設定する（ステップ１４３００）。音声合
成制御手段は、音声合成を停止した位置より前で停止位
置にもっとも近く、かつ、ステップ１４３００で決定し
たランクの値以上のランクをもつ音声合成開始位置より
音声合成を再開する。ステップ１４３００で決定したラ
ンク値以上のランクをもつ音声合成開始位置が見つから
なければ、文頭から音声合成を再開する（ステップ１４
４００）。さらに、音声合成を再開する開始位置の繰り
返し回数を１つ増やす（ステップ１４５００）。素片デ
ータベース８０は音声合成制御手段７０ｐより入力され
た読み情報に従って音韻強調処理手段１３０ｐへ合成単
位を出力する（ステップ１４６００）。音声合成制御手
段７０ｐは、音声合成を再開する開始位置の繰り返し回
数が２以上かどうかを判断する（ステップ１４７０
０）。ステップ１４７００において繰り返し回数が２以
上の場合、開始位置から停止位置の区間で音韻強調処理
手段１３０ｐに強調制御信号を出力し、音韻強調処理手
段１３０ｐにおいて合成単位ごとの強調処理を行う（ス
テップ１４８００）。ステップ１４７００において繰り
返し回数が２未満の場合は、音声合成制御手段７０ｐは
強調制御信号の出力をせず、音韻強調処理手段１３０ｐ
では素片の強調処理を行わない。素片接続手段９０ｐは
音声合成制御手段７０ｐより入力された韻律情報に従っ
て、素片強調処理手段から入力された合成単位を接続し
て合成音声を生成し（ステップ９５００）、電気音響変
換器６０を通して合成音声を出力する（ステップ１９０
０）。

【００７２】（実施例１６）以下本発明の第１６の実施
例について、図面を参照しながら説明する。

【００７３】図４８に本発明の一実施例の音声合成装置
の言語処理部の構成図を示す。構文解析部１０１は、入
力文に対して形態素解析、および、構文解析を行い、入
力文を構成する単語列、文節列、文節間の係り受け構造
を含んだ構文解析結果を出力する。音声合成開始位置規
則保持部１０３は、音声合成開始位置決定部１０２にお
いて設定すべき音声合成開始位置の前後の文節、およ
び、文節間の係り受け構造の条件を記述した規則を保持
する。図４９は、音声合成開始位置規則部１０３が保持
する音声合成開始位置規則の一例を示す図である。音声
合成開始位置決定部１０２は、音声合成開始位置を構文
解析結果の文節列の間に設定する。図４９において、前
文節パターンとは、音声合成開始位置の直前に位置する
文節の条件を指定するものである。同様に後文節パター
ンとは、音声合成開始位置の直後に位置する文節の条件
を指定するものである。各文節パターンの形式をＢＮＦ
表記で表すと、＜文節パターン＞：＝＊｜（＜文節名＞＜形態素列＞）＜文節名＞：＝名詞句｜述語句｜副詞句｜… ＜形態素列＞：＝＊｜（＜形態素＞）｜（＜形態素＞＜形態素列＞）＜形態素＞：＝＊｜＋｜（＜品詞＞＜表記＞）＜品詞＞：＝名詞｜助詞｜読点｜… ＜表記＞：＝＊｜は｜から｜、｜… となる。「＊」は任意の文節、任意の形態素列、任意の
形態素、あるいは、任意の表記を表す。「＋」は任意の
形態素の並びを表す。ランクとは、該当する音声合成開
始位置に割り当てられる値であり、制御部１０６がこの
値に基づいて音声合成開始位置を選択する。本実施例に
おいては、入力テキストを音声合成する際に音声合成開
始位置において挿入されるポーズの長さが長いほどラン
クの値が大きくなるようにしてある。図４９の一番目の
音声合成開始位置規則は、助詞「は」で終わる名詞句と
任意の文節との間にランク３の音声合成開始位置を設定
するという意味である。音声合成開始位置決定部１０２
は、構文解析部１０１が出力した構文解析結果に対し
て、音声合成開始位置規則保持部１０３に保持される音
声合成開始位置規則と構文解析結果に含まれる文節列と
の照合を行い、照合が成功した箇所に音声合成開始位置
およびランクを設定する。図５０は、音声合成開始位置
決定部の処理を示す図である。入力テキストは、構文解
析部１０１によって処理され、図５０に示すような文節
列を生成する。この文節列に対して、音声合成開始位置
決定部１０２は、文節列の先頭から２文節に対して音声
合成開始位置規則を順に照合し、照合に成功した２文節
の間に規則に記述されたランクをもつ音声合成開始位置
を設定する。図５０の例では、１番目の２文節間に図４
９の２番目の規則が、２番目の２文節間に図４９の３番
目の規則が、３番目の２文節間に図４９の４番目の規則
が、おのおの照合し、図５０の一番下に示されるような
ランクをもつ音声合成開始位置が設定される。どの音声
合成開始位置規則にも照合しなかった２文節間には音声
合成開始位置は設定されない。

【００７４】強調語決定部１０４は、構文解析部１０１
が出力した構文解析結果に対して、強調語規則保持部１
０５に保持される強調語規則と構文解析結果に含まれる
単語列の照合を行い、強調して発音すべき単語を決定す
る。図５１は、強調語保持部１０５が保持する強調語の
規則の一例を示す図である。図５１において、強調語条
件は、強調すべき単語の条件を記述したものである。強
調語の形式をＢＮＦ表記であらわすと、＜強調語条件＞：＝（＜品詞＞＜表記＞）＜品詞＞：＝名詞｜動詞｜形容詞｜… ＜表記＞：＝＊｜ある｜ない｜… となる。「＊」は任意の表記を表す記号である。強調語
条件に当てはまる単語に対して、右側の欄の強調ＯＮ／
ＯＦＦの記述に従って、強調の情報を割り当てる。図５
２は、強調語決定部の処理を示す図である。図５２にお
いて、入力テキストを構文解析部１０１が処理し、単語
列を生成する。強調語決定部１０２は、単語列の先頭か
ら順に強調語規則と照合し、照合に成功した場合には強
調ＯＮ／ＯＦＦの情報を付与する。図５２の単語の（形
容詞ない）については、強調語条件（形容詞＊）と
強調語条件（形容詞ない）の両方が照合するが、強調
語条件（形容詞ない）は表記が指定されているより詳
細な条件であり、照合の際には優先される。照合の結
果、図５２の一番下のような強調語情報が得られる。ど
の強調語規則にも照合しなかった単語の強調はＯＦＦで
ある。

【００７５】（実施例１７）以下本発明の第１７の実施
例について、図面を参照しながら音声素片作成時におけ
る強調処理の一例を上げて説明する。

【００７６】図５３に第１７の実施例による音声素片作
成の動作を示す流れ図を、図５４に振幅圧縮処理の入出
力特性の模式図を示す。

【００７７】まず、対象となる音声波形から最初の波形
を切り出す（ステップ１５０００）。次にステップ１５
０００で切り出された切り出し波形データに、あらかじ
め設定しておいた利得値Gを掛け（ステップ１５０１
０）、その結果の絶対値の最大値を求め、Amaxに記憶す
る（ステップ１５０２０）。Amaxがあらかじめ設定して
おいたAlimの値よりも大きい場合（ステップ１５０３
０）、切り出し波形を(Alim/Amax)倍する（ステップ１
５０４０）。また、AmaxがAlimより小さいか等しい場合
は何もしない。今回切り出した波形が最後の波形であれ
ば（ステップ１５０５０）終了する。そうでなければ次
の波形を切り出し（ステップ１５０６０）、ステップ１
５０１０から繰り返す。

【００７８】このようにすることにより、音声波形にリ
ミッタを用いた場合に起こる時定数の問題などがなく、
理想的な振幅圧縮が可能である。図５３に示した振幅圧
縮処理をリミッタの入出力特性に例えると図５４（ａ）
のように表すことができる。この曲線は例えば図５４
（ｂ）や（ｃ）などのように任意に選ぶことができるの
で様々な振幅圧縮処理が可能となる。また、対象となる
音声素片の種別（無声子音、有声子音の別など）によっ
て曲線を選ぶなど、音韻別の振幅圧縮も可能である。さ
らに、あらかじめ子音部の開始点、終了点などにラベル
を付与しておくことにより、子音部と母音部を別の曲線
で圧縮することもできる。

【００７９】上記のように様々な振幅圧縮法が選べるこ
とから、特定の子音の特定の部分を強調するなどの音韻
強調法として有効である。すなわち音声素片作成時のこ
のような処理は、音声強調法として非常に自由度が高く
きめ細かい処理が可能である。また、このような処理は
完全に前処理として実行されるため、音声合成時の処理
速度に何ら影響を与えないという利点もある。

【００８０】従って、いかなる複雑な音声強調処理を施
すことも可能となる。そこで、フォルマント強調などの
周波数領域の強調や、切り出しの対象となる音声波形を
複数の帯域に分割して振幅圧縮などを施すことや、切り
出し時に同等の処理を加えることにより、難聴者や騒音
下での使用に適した合成音声を提供することが可能とな
る。特に、波形の切り出し時に補聴器の信号処理に相当
する処理を加えることは、これまで時定数や未知の入力
に対する処理の限界などによって不可能であったきめ細
かい強調処理が可能となる。

【００８１】なお、実施例１７では音声素片に対する処
理として主に子音の強調を目的とする振幅の変形処理や
周波数特性の変形処理について説明したが、例えば公知
の時間長変形技術を用いて子音部分の長さを調整するこ
とで明瞭度向上を図るなど、様々な波形変形処理を行っ
てもよい。

【００８２】なお、実施例１５においてマイクロフォン
１１０は環境音信号を取り込んだが、使用者の発声を取
り込むものとしても良い。

【００８３】なお、実施例１５において素片の強調処理
を行ったが、強調処理を施した素片データベースと強調
処理を施さない素片データベースとを切り替える、ある
いは素片接続後の合成音声に強調処理を行うものとして
も良い。

【００８４】なお、実施例１、実施例８において強調処
理は母音部の延長、クロージャーの延長、フォルマント
強調、子音強調、および帯域強調としたが、これ以外の
強調方法を用いても良い。

【００８５】なお、実施例１、実施例８においてｐが１
５より小さい場合にフォルマント強調情報を真とすると
したが、これ以外の値としても良い。

【００８６】なお、実施例１、実施例８においてギャッ
プ検出域が１０ｍｓ以上の場合に子音強調情報を真とす
るとしたが、これ以外の値としても良い。

【００８７】なお、実施例１、実施例８において２ｋＨ
ｚ以上の平均聴力レベルと２ｋＨｚ未満の平均聴力レベ
ルの差が３０ｄＢ以上の場合に帯域強調情報を真とする
としたが、２ｋＨｚ以外の周波数を帯域の境界としても
良い。また帯域間の平均聴力レベルの差の基準は３０ｄ
Ｂ以外の値でも良い。

【００８８】なお、実施例１、実施例２、実施例４、実
施例８において強調部情報が真の場合に母音定常部を２
０％延長するとしたが、これ以外の値でも良い。また、
子音部分の時間長を延長するとしても良い。

【００８９】なお、実施例１、実施例２において強調部
情報が真の場合にクロージャーを２０％延長するとした
が、これ以外の値でも良い。

【００９０】なお、実施例１、実施例４、実施例７にお
いて環境音を１ｋＨｚ以下、１ｋＨｚから２ｋＨｚ、２
ｋＨｚ〜４ｋＨｚ４ｋＨｚ以上の帯域に分割したが、こ
れ以外の分割の方法でも良い。

【００９１】なお、実施例１において１ｋＨｚ以下、１
ｋＨｚから２ｋＨｚ、２ｋＨｚ〜４ｋＨｚ４ｋＨｚ以上
の各帯域において、それぞれ２０ｄＢＳＰＬ／Ｈｚ、２
０ｄＢＳＰＬ／Ｈｚ、１５ｄＢＳＰＬ／Ｈｚ、１０ｄＢ
ＳＰＬ／Ｈｚ以上の環境があるときは圧縮パラメータを
設定し、圧縮処理を行うとしたが、これ以外の値でも良
い。

【００９２】なお、実施例４において１ｋＨｚ以下の環
境音平均レベルが２０ｄＢＳＰＬ／Ｈｚ以上かつ、１ｋ
Ｈｚから２ｋＨｚの環境音平均レベルが２０ｄＢＳＰＬ
／Ｈｚかつ、他の帯域の環境音平均レベルが１５ｄＢＳ
ＰＬ／Ｈｚ以下である場合にフォルマント強調情報を真
とするとしたが、これ以外の値でも良い。

【００９３】なお、実施例４において１ｋＨｚから２ｋ
Ｈｚの環境音平均レベルが２０ｄＢＳＰＬ／Ｈｚ以上か
つ、２ｋＨｚから４ｋＨｚの環境音平均レベルが１５ｄ
ＢＳＰＬ／Ｈｚかつ、１ｋＨｚ以下の環境音平均レベル
が２０ｄＢＳＰＬ／Ｈｚ以下あるいは４ｋＨＺ以上の環
境音平均レベルが１５ＤＢＳＰＬ／Ｈｚ胃阿ｋの場合に
子音強調情報を真としたが、これ以外の値としても良
い。

【００９４】なお、実施例４において１ｋＨｚ以下、１
ｋＨｚから２ｋＨｚ、２ｋＨｚ〜４ｋＨｚ４ｋＨｚ以上
の各帯域において、それぞれ２０ｄＢＳＰＬ／Ｈｚ、２
０ｄＢＳＰＬ／Ｈｚ、１５ｄＢＳＰＬ／Ｈｚ、１０ｄＢ
ＳＰＬ／Ｈｚ以上の環境があるときは各帯域の帯域強調
情報を真とするとしたが、これ以外の値としても良い。

【００９５】なお、実施例７においてステップ７５００
のように圧縮パラメータを設定したがこれ以外の基準お
よび方法を用いても良い。

【００９６】なお、実施例９において環境音の平均レベ
ルが３０ｄＢ（Ａ）以上の場合に基本周波数を２０％高
くするとしたが、これ以外の基準値でもよい。また基本
周波数の変更はこれ以外の値としても良い。

【００９７】なお、実施例１０において２ｋＨｚ以上の
平均聴力レベルと２ｋＨｚ未満の平均聴力レベルの差が
３０ｄＢ以上の場合に基本周波数を２０％低くするとし
たが２ｋＨｚ以外の周波数を帯域の境界としても良い。
また、差の値の基準はこれ以外の値としても良い。ま
た、基本周波数の変更はこれ以外の値としても良い。

【００９８】なお、実施例１１、実施例１２において平
均聴力レベルが４０ｄＢＨＬ以上の場合に和即を１０％
遅くするとしたが、平均聴力レベル以外の聴覚特性を判
断に用いても良い。また、平均聴力レベルの基準はこれ
以外の値としても良い。また、平均聴力レベルの基準を
４０ｄＢＨＬとしたがこれ以外の値でも良い。また、話
速を１０％遅くするとしたがこれ以外の値としても良
い。

【００９９】なお、実施例１３、実施例１５において環
境音の平均レベルが７０ｄＢ（Ａ）を越えた場合に音声
合成を停止するとしたが、これ以外の値としても良い。

【０１００】なお、実施例２、実施例５、実施例８にお
いて素片データベースあるいはフォルマント強調フィル
タの切替にスイッチを用いたが、ソフトウェア的に切り
替えても良い。

【０１０１】

【発明の効果】以上説明したように、本発明によれば、
使用者の聴覚特性に合わせて合成した音声に強調処理あ
るいは振幅のダイナミックレンジを圧縮する処理を施
す、あるいは使用場面の騒音環境に合わせて合成した音
声に強調処理あるいは振幅のダイナミックレンジを圧縮
する処理を施す。また、データベースに記憶された合成
単位に使用者の聴覚特性に合わせて強調処理あるいは振
幅のダイナミックレンジを圧縮する処理を施した後に音
声を合成する、あるいは使用場面の騒音環境に合わせて
データベースに記憶された合成単位に強調処理あるいは
振幅のダイナミックレンジを圧縮する処理を施した後に
音声を合成する。また、あらかじめ強調処理あるいは振
幅のダイナミックレンジを圧縮する処理を施した合成単
位を用いて音声を合成する。また、音声の合成を中断し
た際に言語処理結果に基づき停止位置以前で内容理解の
しやすいテキスト上の点まで戻って音声の合成を再開す
る。また、言語処理に基づき強調処理を行う部分を設定
することにより、聴覚障害のある使用者や、騒音下での
使用でも情報を確実に伝達することができ、その実用的
効果は大きい。

【図面の簡単な説明】

【図１】本発明における音声合成装置の第１の実施例の
構成ブロック図

【図２】同実施例の動作を説明するための流れ図

【図３】同実施例の動作を説明するための流れ図

【図４】同実施例の動作を説明するための流れ図

【図５】同実施例の動作を説明するための流れ図

【図６】同実施例の動作を説明するための流れ図

【図７】同実施例のフォルマント強調方法の模式図

【図８】同実施例の子音強調方法の模式図

【図９】本発明における音声合成装置の第２の実施例の
構成ブロック図

【図１０】同実施例の動作を説明するための流れ図

【図１１】同実施例の動作を説明するための流れ図

【図１２】本発明における音声合成装置の第３の実施例
の構成ブロック図

【図１３】同実施例の動作を説明するための流れ図

【図１４】本発明における音声合成装置の第４の実施例
の構成ブロック図

【図１５】同実施例の動作を説明するための流れ図

【図１６】同実施例の動作を説明するための流れ図

【図１７】同実施例の動作を説明するための流れ図

【図１８】同実施例の動作を説明するための流れ図

【図１９】本発明における音声合成装置の第５の実施例
の構成ブロック図

【図２０】同実施例の動作を説明するための流れ図

【図２１】本発明における音声合成装置の第６の実施例
の構成ブロック図

【図２２】同実施例の動作を説明するための流れ図

【図２３】本発明における音声合成装置の第７の実施例
の構成ブロック図

【図２４】同実施例の動作を説明するための流れ図

【図２５】同実施例の動作を説明するための流れ図

【図２６】本発明における音声合成装置の第８の実施例
の構成ブロック図

【図２７】同実施例の動作を説明するための流れ図

【図２８】同実施例の動作を説明するための流れ図

【図２９】同実施例のフォルマント強調方法の模式図

【図３０】本発明における音声合成装置の第９の実施例
の構成ブロック図

【図３１】同実施例の動作を説明するための流れ図

【図３２】同実施例の動作を説明するための流れ図

【図３３】本発明における音声合成装置の第１０の実施
例の構成ブロック図

【図３４】同実施例の動作を説明するための流れ図

【図３５】同実施例の動作を説明するための流れ図

【図３６】本発明における音声合成装置の第１１の実施
例の構成ブロック図

【図３７】同実施例の動作を説明するための流れ図

【図３８】同実施例の動作を説明するための流れ図

【図３９】本発明における音声合成装置の１２の実施例
の構成ブロック図

【図４０】同実施例の動作を説明するための流れ図

【図４１】同実施例の動作を説明するための流れ図

【図４２】本発明における音声合成装置の１３の実施例
の構成ブロック図

【図４３】同実施例の動作を説明するための流れ図

【図４４】本発明における音声合成装置の１４の実施例
の構成ブロック図

【図４５】同実施例の動作を説明するための流れ図

【図４６】本発明における音声合成装置の１５の実施例
の構成ブロック図

【図４７】同実施例の動作を説明するための流れ図

【図４８】本発明における音声合成装置の１６の実施例
の構成ブロック図

【図４９】同実施例のランク決定方法の模式図

【図５０】同実施例の動作を説明するための模式図

【図５１】同実施例の強調部分選択方法の模式図

【図５２】同実施例の動作を説明するための模式図

【図５３】本発明における音声素片作成方法の実施例１
７の動作を説明するための流れ図

【図５４】同実施例の振幅圧縮処理方法の模式図

【図５５】従来の音声合成装置の構成ブロック図

【図５６】従来の音声素片作成方法の波形の切り出し方
法の模式図

【図５７】従来の音声合成装置の素片の接続方法の模式
図

【符号の説明】

１０テキスト入力手段２０言語処理手段３０ａ，３０ｂ，３０ｃ，３０ｄ，３０ｅ，３０ｆ，３
０ｇ，３０ｈ，３０ｍ，３０ｎ，３０ｏ，３０ｐ音声
合成部４０ｂ，４０ｅ，４０ｍ，４０ｏ操作手段５０ａ，５０ｂ，５０ｃ，５０ｄ，５０ｅ，５０ｇ，５
０ｈ，５０ｉ，５０ｊ，５０ｋ，５０ｌ，５０ｍ声質
制御手段６０電気音響変換器７０ａ，７０ｂ，７０ｃ，７０ｄ，７０ｅ，７０ｆ，７
０ｇ，７０ｈ，７０ｍ，７０ｎ，７０ｏ，７０ｐ音声
合成制御手段８０，２８０ａ，２８０ｂ，２８０ｃ，２８０ｄ，２８
０ｎ，３８０ａ，３８０ｂ，３８０ｃ，３８０ｄ，３８
０ｎ，５８０ａ，５８０ｂ，５８０ｃ，５８０ｄ，５８
０ｎ，６８０ａ，６８０ｂ，６８０ｃ，６８０ｄ，６８
０ｎ素片データベース９０ａ，９０ｂ，９０ｄ，９０ｅ，９０ｆ，９０ｇ，９
０ｈ，９０ｍ，９０ｎ素片接続手段１１０マイクロフォン１２０聴覚特性測定手段１３０ａ，１３０ｄ，１３０ｈ，１３０ｐ音韻強調処
理手段１４０ａ，１４０ｂ，１４０ｇ圧縮処理手段２００ｂ，２００ｅデータベース部２１０ｂ，２１０ｅスイッチ２２０聴覚特性記憶手段３００素片データベース読み取り手段３１０聴覚特性読み取り手段３２０ａ，３２０ｂ，３２０ｃ，３２０ｄ，３２０ｎ
聴覚特性８００強調フィルタ部８１０ａ，８１０ｂ，８１０ｃ，８１０ｄ，８１０ｎ
フォルマント強調フィルタ８２０スイッチ９００，９００ｐ言語処理部９１０構文解析手段９２０音声合成開始位置決定手段９３０強調決定手段９４０時計手段１０１構文解析部１０２音声合成開始位置決定部１０３音声合成開始位置規則保持部１０４強調語決定部１０５強調語規則保持部１０６制御部

───────────────────────────────────────────────────── フロントページの続き (72)発明者松井謙二大阪府門真市大字門真1006番地松下電器産業株式会社内

Claims

【特許請求の範囲】

【請求項１】テキストに従って音声を合成する音声合
成部と、その音声合成部で合成された音声を単一あるい
は複数の帯域に分割しその帯域ごとに振幅を増幅あるい
は減衰することにより合成音声の振幅のダイナミックレ
ンジを圧縮する圧縮処理を行う圧縮処理部とを備えた音
声合成装置。
【請求項２】マイクロフォンと、そのマイクロフォン
より入力された環境音を分析しその環境音の物理特性に
基づいて圧縮処理部を制御する制御部とを備えた請求項
１記載の音声合成装置。
【請求項３】使用者が圧縮の程度を調節するための操
作手段と、その操作手段より入力された信号に基づいて
圧縮処理部を制御する制御部とを備えた請求項１記載の
音声合成装置。
【請求項４】使用者の聴覚特性や好みを測定する測定
部と、前記使用者の聴覚特性や好みに基づいて圧縮処理
部を制御する制御部とを備えた請求項１記載の音声合成
装置。
【請求項５】使用者の聴覚特性や好みを記憶する記憶
手段と、前記使用者の聴覚特性や好みに基づいて圧縮処
理部を制御する制御部とを備えた請求項１記載の音声合
成装置。
【請求項６】聴覚特性読み取り手段と、制御部とを備
え、前記聴覚特性読み取り手段によって記録媒体に格納
された使用者の聴覚特性や好みを参照して前記制御部で
圧縮処理部を制御する請求項１記載の音声合成装置。
【請求項７】テキストに従って音声を合成する音声合
成部と、その音声合成部で合成された音声に単一あるい
は複数の音韻強調処理を行う強調処理部とを備えた音声
合成装置。
【請求項８】強調処理はフォルマント強調処理である
請求項７記載の音声合成装置。
【請求項９】フォルマント強調処理は音声のスペクト
ルのピークの強調処理である請求項８記載の音声合成装
置。
【請求項１０】フォルマント強調処理は音声合成部よ
り強調処理部に入力された音韻情報に基づく音韻ごとに
あらかじめ定められたフォルマント周波数を含む帯域の
強調処理である請求項８記載の音声合成装置。
【請求項１１】フォルマント強調処理は音声合成部よ
り強調処理部に入力されたフォルマント情報に基づくフ
ォルマント周波数を含む帯域の強調処理である請求項８
記載の音声合成装置。
【請求項１２】強調処理は音韻情報に基づき子音ある
いは子音とそれに続く母音への渡りの振幅強調処理を行
う子音強調処理である請求項７記載の音声合成装置。
【請求項１３】強調処理は音韻情報に基づき子音の周
波数帯域の強調処理を行う帯域強調処理である請求項７
記載の音声合成装置。
【請求項１４】マイクロフォンと、そのマイクロフォ
ンより入力された環境音を分析しその環境音の物理特性
に基づいて強調処理部を制御する制御部とを備えた請求
項７記載の音声合成装置。
【請求項１５】制御部はマイクロフォンより入力され
た環境音を分析しその環境音の物理特性に基づいて強調
処理部で用いる強調処理方法を選択する請求項１４記載
の音声合成装置。
【請求項１６】使用者が強調の処理方法および程度を
調節するための操作手段と、その操作手段より入力され
た信号に基づいて強調処理部を制御する制御部とを備え
た請求項７記載の音声合成装置。
【請求項１７】使用者の聴覚特性や好みを測定する測
定部と、前記使用者の聴覚特性や好みに基づいて強調処
理部を制御する制御部とを備えた請求項７記載の音声合
成装置。
【請求項１８】制御部は測定部より入力された使用者
の聴覚特性や好みに基づき強調処理部で用いる強調処理
方法を選択する請求項１７記載の音声合成装置。
【請求項１９】使用者の聴覚特性や好みを記憶する記
憶手段と、前記使用者の聴覚特性や好みに基づいて強調
処理部を制御する制御部とを備えた請求項７記載の音声
合成装置。
【請求項２０】制御部は記憶手段に記憶された使用者
の聴覚特性や好みに基づき強調処理部で用いる強調処理
方法を選択する請求項１９記載の音声合成装置。
【請求項２１】聴覚特性読み取り手段と、制御部とを
備え、前記聴覚特性読み取り手段によって記録媒体に格
納された使用者の聴覚特性や好みを参照して前記制御部
で強調処理部を制御する請求項７記載の音声合成装置。
【請求項２２】制御部は聴覚特性読み取り手段によっ
て読み出された使用者の聴覚特性や好みに基づき強調処
理部で用いる強調処理方法を選択する請求項２１記載の
音声合成装置。
【請求項２３】音声を母音／子音／母音の連鎖などの
所望の合成単位で記憶しておく音声素片データベース
と、前記合成単位を単一あるいは複数の帯域に分割しそ
の帯域ごとに振幅を増幅あるいは減衰することにより合
成単位の振幅のダイナミックレンジを圧縮する圧縮処理
を施す素片圧縮処理部と、その素片圧縮処理部により圧
縮処理を施された合成単位を目的のテキストによって接
続して音声を合成する音声合成部とを備えた音声合成装
置。
【請求項２４】マイクロフォンと、そのマイクロフォ
ンより入力された環境音を分析しその環境音の物理特性
に基づいて素片圧縮処理部を制御する制御部とを備えた
請求項２３記載の音声合成装置。
【請求項２５】使用者が圧縮の程度を調節するための
操作手段と、その操作手段より入力された信号に基づい
て素片圧縮処理部を制御する制御部とを備えた請求項２
３記載の音声合成装置。
【請求項２６】使用者の聴覚特性や好みを測定する測
定部と、前記使用者の聴覚特性や好みに基づいて素片圧
縮処理部を制御する制御部とを備えた請求項２３記載の
音声合成装置。
【請求項２７】使用者の聴覚特性や好みを記憶する記
憶手段と、前記使用者の聴覚特性や好みに基づいて素片
圧縮処理部を制御する制御部とを備えた請求項２３記載
の音声合成装置。
【請求項２８】聴覚特性読み取り手段と、制御部とを
備え、前記聴覚特性読み取り手段によって記録媒体に格
納された使用者の聴覚特性や好みを参照して前記制御部
で素片圧縮処理部を制御する請求項２３記載の音声合成
装置。
【請求項２９】音声を母音／子音／母音の連鎖などの
所望の合成単位で記憶しておく音声素片データベース
と、前記合成単位に強調処理を施す素片変形部と、その
素片変形部により強調処理を施された合成単位を目的の
テキストによって接続して音声を合成する音声合成部と
を備えた音声合成装置。
【請求項３０】強調処理はフォルマント強調処理であ
る請求項２９記載の音声合成装置。
【請求項３１】フォルマント強調処理は音声のスペク
トルのピークの強調処理である請求項３０記載の音声合
成装置。
【請求項３２】フォルマント強調処理は音韻情報に基
づく音韻ごとにあらかじめ定められたフォルマント周波
数を含む帯域の強調処理である請求項３０記載の音声合
成装置。
【請求項３３】フォルマント強調処理はフォルマント
情報に基づくフォルマント周波数を含む帯域の強調処理
である請求項３０記載の音声合成装置。
【請求項３４】強調処理は音韻情報に基づき子音ある
いは子音とそれに続く母音への渡りの振幅強調処理を行
う子音強調処理である請求項２９記載の音声合成装置。
【請求項３５】強調処理は音韻情報に基づき子音の周
波数帯域の強調処理を行う帯域強調処理である請求項２
９記載の音声合成装置。
【請求項３６】強調処理は言語情報に基づき子音のク
ロージャーを延長するクロージャー強調処理である請求
項２９記載の音声合成装置。
【請求項３７】強調処理は言語情報に基づき音韻長を
延長する延長処理である請求項２９記載の音声合成装
置。
【請求項３８】マイクロフォンと、そのマイクロフォ
ンより入力された環境音を分析しその環境音の物理特性
に基づいて素片変形部を制御する制御部とを備えた請求
項２９記載の音声合成装置。
【請求項３９】制御部はマイクロフォンより入力され
た環境音を分析しその環境音の物理特性に基づいて素片
変形部で用いる強調処理方法を選択する請求項３８記載
の音声合成装置。
【請求項４０】使用者が強調の処理方法および程度を
調節するための操作手段と、その操作手段より入力され
た信号に基づいて素片変形部を制御する制御部とを備え
た請求項２９記載の音声合成装置。
【請求項４１】使用者の聴覚特性や好みを測定する測
定部と、前記使用者の聴覚特性や好みに基づいて素片変
形部を制御する制御部とを備えた請求項２９記載の音声
合成装置。
【請求項４２】制御部は測定部より入力された使用者
の聴覚特性や好みに基づき素片変形部で用いる強調処理
方法を選択する請求項４１記載の音声合成装置。
【請求項４３】使用者の聴覚特性や好みを記憶する記
憶手段と、前記使用者の聴覚特性や好みに基づいて素片
変形部を制御する制御部とを備えた請求項２９記載の音
声合成装置。
【請求項４４】制御部は記憶手段に記憶された使用者
の聴覚特性や好みに基づき素片変形部で用いる強調処理
方法を選択する請求項４３記載の音声合成装置。
【請求項４５】聴覚特性読み取り手段と、制御部とを
備え、前記聴覚特性読み取り手段によって記録媒体に格
納された使用者の聴覚特性や好みを参照して前記制御部
で素片変形部を制御する請求項２９記載の音声合成装
置。
【請求項４６】制御部は聴覚特性読み取り手段によっ
て読み出された使用者の聴覚特性や好みに基づき素片変
形部で用いる強調処理方法を選択する請求項４５記載の
音声合成装置。
【請求項４７】あらかじめ単一あるいは複数の帯域に
分割しその帯域ごとに振幅を増幅あるいは減衰すること
により合成単位の振幅のダイナミックレンジを圧縮する
圧縮処理を施した音声を母音／子音／母音の連鎖などの
所望の合成単位で記憶しておく音声素片データベース
と、前記合成単位を目的のテキストによって接続して音
声を合成する音声合成部とを備えた音声合成装置。
【請求項４８】圧縮の程度の異なる複数の音声素片デ
ータベースと、マイクロフォンと、そのマイクロフォン
より入力された環境音を分析しその環境音の物理特性に
基づいて音声合成部が音声合成に使用する前記音声素片
データベースを選択する制御部とを備えた請求項４７記
載の音声合成装置。
【請求項４９】圧縮の程度の異なる複数の音声素片デ
ータベースと、使用者が圧縮の状態を調節するための操
作手段と、その操作手段より入力された信号に基づいて
音声合成部が音声合成に使用する前記音声素片データベ
ースを選択する制御部とを備えた請求項４７記載の音声
合成装置。
【請求項５０】圧縮の程度の異なる複数の音声素片デ
ータベースと、使用者の聴覚特性や好みを測定する測定
部と、前記使用者の聴覚特性や好みに基づいて音声合成
部が音声合成に使用する前記音声素片データベースを選
択する制御部とを備えた請求項４７記載の音声合成装
置。
【請求項５１】圧縮の程度の異なる複数の音声素片デ
ータベースと、使用者の聴覚特性や好みを記憶する記憶
手段と、前記使用者の聴覚特性や好みに基づいて音声合
成部が音声合成に使用する前記音声素片データベースを
選択する制御部とを備えた請求項４７記載の音声合成装
置。
【請求項５２】圧縮の程度の異なる複数の音声素片デ
ータベースを格納した記憶媒体と、音声素片データベー
ス読み取り手段とを備えた、請求項４７記載の音声合成
装置。
【請求項５３】あらかじめ音韻強調処理を施した音声
を母音／子音／母音の連鎖などの所望の合成単位で記憶
しておく音声素片データベースと、前記合成単位を目的
のテキストによって接続して音声を合成する音声合成部
とを備えた音声合成装置。
【請求項５４】強調の方法および程度の異なる複数の
音声素片データベースと、マイクロフォンと、そのマイ
クロフォンより入力された環境音を分析しその環境音の
物理特性に基づいて音声合成部が音声合成に使用する前
記音声素片データベースを選択する制御部とを備えた請
求項５３記載の音声合成装置。
【請求項５５】強調の方法および程度の異なる複数の
音声素片データベースと、使用者が強調の状態を調節す
るための操作手段と、その操作手段より入力された信号
に基づいて音声合成部が音声合成に使用する前記音声素
片データベースを選択する制御部とを備えた請求項５３
記載の音声合成装置。
【請求項５６】強調の方法および程度の異なる複数の
音声素片データベースと、使用者の聴覚特性や好みを測
定する測定部と、前記使用者の聴覚特性や好みに基づい
て音声合成部が音声合成に使用する前記音声素片データ
ベースを選択する制御部とを備えた請求項５３記載の音
声合成装置。
【請求項５７】強調の方法および程度の異なる複数の
音声素片データベースと、使用者の聴覚特性や好みを記
憶する記憶手段と、前記使用者の聴覚特性や好みに基づ
いて音声合成部が音声合成に使用する前記音声素片デー
タベースを選択する制御部とを備えた請求項５３記載の
音声合成装置。
【請求項５８】強調の方法および程度の異なる複数の
音声素片データベースを格納した記憶媒体と、音声素片
データベース読み取り手段とを備えた請求項５３記載の
音声合成装置。
【請求項５９】テキストを構文解析する構文解析部
と、前記構文解析部の解析結果に基づいてテキストの文
中に複数の音声合成開始位置を定める音声合成開始位置
決定部と、前記構文解析部の構文解析結果に基づいて前
記テキストに従って音声を合成する音声合成部と、マイ
クロフォンと、そのマイクロフォンより入力された環境
音を分析しその環境音の物理特性に基づいて音声合成の
中断および再開を決定し、前記音声合成開始位置決定部
が設定した音声合成開始位置に従って音声合成の開始を
制御する制御部とを備えた音声合成装置。
【請求項６０】音声合成開始位置決定部は、文中の読
点の直後など、長いポーズが入る箇所を音声合成開始位
置として定めることを特徴とする請求項５９記載の音声
合成装置。
【請求項６１】制御部はマイクロフォンより入力され
た環境音があらかじめ定められた周波数帯域においてあ
らかじめ定められた音圧レベルを超えた場合に音声合成
を中断する信号を音声合成部に出力し、音声合成の中断
後マイクロフォンより入力された環境音があらかじめ定
められた周波数帯域においてあらかじめ定められた音圧
レベルを下回る場合に音声合成を再開する信号を音声合
成部に出力する請求項５９記載の音声合成装置。
【請求項６２】音声合成開始位置決定部は、音声合成
開始位置に対してランク付けを行い、制御部は前記音声
合成開始位置のランクによって開始位置を選択すること
を特徴とする請求項６１記載の音声合成装置。
【請求項６３】制御部は音声合成の中断後マイクロフ
ォンより入力された環境音があらかじめ定められた周波
数帯域においてあらかじめ定められた音圧レベルを下回
る場合に音声合成を再開する信号を音声合成部に出力
し、前記音声合成部は前記制御部より入力された音声合
成再開信号により音声合成開始位置決定部が設定した音
声合成開始位置より音声を合成し強調処理を行うあるい
は強調処理を行った合成単位を用いて音声合成を再開す
る請求項６１記載の音声合成装置。
【請求項６４】テキストを構文解析する構文解析部
と、前記構文解析部の解析結果に基づいてテキストの文
中の強調して合成すべき単語を決定する強調語決定部
と、前記構文解析部の解析結果に基づいてテキストに従
って音声を合成する音声合成部と、前記強調語決定部に
より定められた特定の単語を強調するよう前記音声合成
部を制御する制御部とを備えた音声合成装置。
【請求項６５】強調語決定部は、文の主語、目的語、
述語となる単語、あるいは、発音が聞き取りにくい単語
を強調語として定めることを特徴とする請求項６４記載
の音声合成装置。
【請求項６６】テキストを構文解析する構文解析部
と、前記構文解析部の解析結果に基づいてテキストの文
中の強調して合成すべき単語を決定する強調語決定部
と、前記構文解析部の解析結果に基づいてテキストに従
って音声を合成する音声合成部と、マイクロフォンと、
そのマイクロフォンより入力された環境音を分析しその
環境音の物理特性に基づいて音声合成の中断および再開
を決定し、音声合成の再開後は前記強調語決定部により
定められた特定の単語を強調するよう前記音声合成部を
制御する制御部とを備えた音声合成装置。
【請求項６７】制御部はマイクロフォンより入力され
た環境音があらかじめ定められた周波数帯域においてあ
らかじめ定められた音圧レベルを超えた場合に音声合成
を中断する信号を音声合成部に出力し、音声合成の中断
後マイクロフォンより入力された環境音があらかじめ定
められた周波数帯域においてあらかじめ定められた音圧
レベルを下回る場合に音声合成を再開する信号を音声合
成部に出力する請求項６６記載の音声合成装置。
【請求項６８】制御部は音声合成の中断後マイクロフ
ォンより入力された環境音があらかじめ定められた周波
数帯域においてあらかじめ定められた音圧レベルを下回
る場合に音声合成を再開する信号を音声合成部に出力
し、前記音声合成部は前記制御部より入力された音声合
成再開信号により音声合成開始位置決定部が設定した音
声合成開始位置より音声を合成し強調語決定部により定
められた特定の単語に強調処理を行うあるいは前記特定
の単語を合成する際に強調処理を行った合成単位を用い
て音声合成を行う請求項６７記載の音声合成装置。
【請求項６９】テキストに従って音声を合成する音声
合成部と、マイクロフォンと、そのマイクロフォンより
入力された環境音を分析しその環境音の物理特性に基づ
いて声質パラメータを設定する制御部とを備えた音声合
成装置。
【請求項７０】テキストに従って音声を合成する音声
合成部と、使用者の聴覚特性や好みを測定する測定部
と、前記使用者の聴覚特性や好みに基づいて声質パラメ
ータを設定する制御部とを備えた音声合成装置。
【請求項７１】テキストに従って音声を合成する音声
合成部と、使用者の聴覚特性や好みを記憶する記憶手段
と、前記使用者の聴覚特性や好みに基づいて声質パラメ
ータを設定する制御部とを備えた音声合成装置。