JPH1083193A - 音声合成装置および音声素片作成方法 - Google Patents

音声合成装置および音声素片作成方法

Info

Publication number
JPH1083193A
JPH1083193A JP8237465A JP23746596A JPH1083193A JP H1083193 A JPH1083193 A JP H1083193A JP 8237465 A JP8237465 A JP 8237465A JP 23746596 A JP23746596 A JP 23746596A JP H1083193 A JPH1083193 A JP H1083193A
Authority
JP
Japan
Prior art keywords
unit
speech
synthesis
emphasis
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8237465A
Other languages
English (en)
Inventor
Yumiko Kato
弓子 加藤
Takahiro Kamai
孝浩 釜井
Katsuyoshi Yamagami
勝義 山上
Kenji Matsui
謙二 松井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP8237465A priority Critical patent/JPH1083193A/ja
Publication of JPH1083193A publication Critical patent/JPH1083193A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 聴覚障害のある使用者や、騒音下のようにこ
れまで音声合成が適用できないとされた使用者および使
用環境でも音声により情報を確実に伝達する。 【解決手段】 目的のテキストを入力するテキスト入力
手段と、構文解析を行う言語処理部、制御手段と素片デ
ータベースと音韻強調処理手段と素片接続手段と圧縮処
理手段とからなる音声合成部と、合成音の声質を制御す
る声質制御手段と、使用者の聴覚特性を測定する聴覚特
性測定手段と環境音をモニターするマイクロフォンと合
成音を出力する電気音響変換器とを有する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はテキストを音声に変
換する音声規則合成システムにおいて、特に聴覚障害者
に対する、あるいは騒音下で使用する場合に音声伝達を
行う技術に関するものである。
【0002】
【従来の技術】テキストを音声に変換する音声規則合成
技術は、文字で伝送されてきた情報を人間にとってわか
りやすい形式で伝達する一つの手段として重要である。
例えば情報ネットワークを通じて送られる情報の大半は
テキストであり、大量のテキスト情報をそのまま人間に
伝えるためには表示能力の大きいディスプレイを用いる
か、紙に印字する必要がある。
【0003】しかし、情報端末が小型化し、携帯に用い
られるようになると、大型のディスプレイやプリンタを
用いることができないため、音声に変換することがもっ
とも効果的である。図55は従来の音声合成装置の代表
的な装置の構成ブロック図である。図55の10は目的
とするテキストを入力するテキスト入力手段、20はテ
キストの構文解析を行う言語処理手段、30mは音声を
合成する音声合成部、40mは合成音声の声質を操作す
る操作手段、50mは操作手段の入力に従って声質を制
御する声質制御手段、60は電気音響変換器である。前
記の音声合成部30mは言語処理から入力された読み情
報および韻律情報に従い音声合成部を制御する音声合成
制御手段70m、音声を母音/子音/母音の連鎖などの
所望の合成単位で記憶しておく素片データベース80、
合成単位をつなぎ合わせて合成音声を生成する素片接続
手段90mを有する。
【0004】以上のように構成された従来の音声合成装
置において、以下その動作を説明する。
【0005】まずテキスト入力手段10は言語処理手段
20に目的のテキストを入力する。次に言語処理手段2
0はテキスト入力手段10より入力されたテキストを構
文解析を行い、読み情報、韻律情報を生成し音声合成制
御手段70mに出力する。素片データベース80は音声
合成制御手段70mより入力された読み情報に従って素
片接続手段90mに合成単位を出力する。素片接続手段
90mは音声合成制御手段70mより入力された韻律情
報および声質制御手段50mより入力された制御信号に
従って素片データベース80より入力された合成単位を
接続し合成音声を生成し、電気音響変換器60を通して
合成音声を出力する。
【0006】次に音声素片の作成方法について述べる。
音声素片はあらかじめ録音された音声の波形からCV、
VCV、CVCなどの単位で切り出して作成される。こ
こでCは子音を、Vは母音を表す。これらの合成単位を
用いる合成方式をそれぞれCV方式、VCV方式、CV
C方式などと呼ぶ。
【0007】CV方式の場合、子音kと母音aの組み合
わせである「ka」などを一つの単位とする。VCV方
式の場合、母音aと子音kと母音aの組み合わせである
「aka」、CVC方式の場合、子音kと母音aと子音
tの組み合わせである「kat」などが合成の単位であ
る。それぞれに素片の種類の数や合成音の品質など一長
一短があるが、いずれの方式も音声素片を次々と接続し
ていくことにより合成音を生成する。
【0008】このような合成方式で用いる音声素片を作
成する時に、前処理によって合成時に必要となる変形を
行いやすい形にしておくと、合成時の計算量が削減でき
る。例えば、合成時には目的のピッチパターンになるよ
うにピッチ修正を行う必要があるが、事前にピッチ周期
単位で窓掛けにより波形を切り出しておく方法が特願平
6−302471に述べられている。その方法を図面を
参照しながら説明する。
【0009】図56は波形の切り出し方法を示してい
る。図56のように波形のピッチ周期に対応したピーク
位置にマークを付与しておき、そのマークを中心にピッ
チ周期の2倍以下の長さの窓で切り出しを行う。こうし
て切り出された波形をピッチ波形と呼ぶ。また、ピッチ
の概念がない無声子音部は連続した波形としてそのまま
切り出しておく。これを初期波形と呼ぶ。
【0010】図57は合成時の処理を示している。図の
ように目的のピッチ周期になるように重ね合わせを行
う。ピッチを上げるときは互いの間隔を狭めて重ね合わ
せを行い、ピッチを下げるときは逆に間隔を広げて重ね
合わせを行う。
【0011】
【発明が解決しようとする課題】このような音声合成装
置と音声素片作成方法においては、騒音下での使用や聴
覚に障害がある人が使用する際には合成された音声が聞
き取りにくいという問題がある。現状の音声合成技術は
健聴者が静寂な環境下で使用する場合においても十分な
明瞭度を達成することは難しいが、騒音下で使用する場
合や聴覚障害者が使用する場合には更に深刻な明瞭度低
下がある。これは、合成音は限られた音声素片を用いて
いることや、合成時の接続処理や変形処理によって、欠
落している情報が多く、騒音によるマスキングや聴覚障
害の影響を受けやすいためであり、従来技術において
は、騒音下や聴覚障害のある場合に音声の認識に必要な
情報を伝達することが困難であるという課題を有してい
た。
【0012】
【課題を解決するための手段】本発明は上記の従来の問
題を解決しようとするもので使用者の聴覚特性に合わせ
て合成した音声に強調処理あるいは振幅のダイナミック
レンジを圧縮する処理を施す、あるいは使用場面の騒音
環境に合わせて合成した音声に強調処理あるいは振幅の
ダイナミックレンジを圧縮する処理を施す。また、使用
者の聴覚特性に合わせてデータベースに記憶された合成
単位に強調処理あるいは振幅のダイナミックレンジを圧
縮する処理を施した後に音声を合成する、あるいは使用
場面の騒音環境に合わせてデータベースに記憶された合
成単位に強調処理あるいは振幅のダイナミックレンジを
圧縮する処理を施した後に音声を合成する。また、あら
かじめ強調処理あるいは振幅のダイナミックレンジを圧
縮する処理を施した合成単位を用いて音声を合成する。
また、音声の合成を中断した際に言語処理結果に基づき
停止位置以前で内容理解のしやすいテキスト上の点まで
戻って音声の合成を再開する。また、言語処理に基づき
強調処理を行う部分を設定することにより、聴覚障害の
ある使用者や、騒音下での使用でも情報を確実に伝達す
ることができる。
【0013】
【発明の実施の形態】 (実施例1)以下本発明の第1の実施例について、図面
を参照しながら説明する。
【0014】図1は本発明の音声合成装置の第1の実施
例を示す構成ブロック図である。図2に第1の実施例の
動作を説明するための流れ図を、図3、図4、図5、図
6に動作を説明するための流れ図の一部を示す。図7、
図8に第1の実施例の強調処理の模式図をしめす。図1
において図55と同一物または部分については同一符号
を付しているので説明を省略し、異なった部分について
のみ説明する。図55の音声合成部30mが音声合成部
30aに置き換わり、声質制御手段50mが声質制御手
段50aに置き換わり、操作手段40mがマイクロフォ
ン110に置き換わり、聴覚特性測定手段120が付け
加わった以外は図55と同一な構成である。前記の音声
合成部30aは、言語処理手段20より入力された読み
情報、韻律情報、強調部情報に基づき音声合成部30a
を制御する音声合成制御手段70a、音声を母音/子音
/母音の連鎖などの所望の合成単位で記憶しておく素片
データベース80、素片データベース80に記憶された
合成単位に強調処理を施す音韻強調処理手段130a、
音韻強調処理手段130aで処理された合成単位をつな
げて合成音声を生成する素片接続手段90aおよび素片
接続手段90aで生成された合成音声に振幅のダイナミ
ックレンジを圧縮する圧縮処理を施す圧縮処理手段14
0aを有する。
【0015】以上のように構成されたこの実施例の音声
合成装置において、以下その動作を図1、図2、図3、
図4、図5、図6に従って説明する。
【0016】まず聴覚特性測定手段120で使用者の聴
覚特性を測定し、測定結果を声質制御手段50aに出力
する。(ステップ1000)。測定方法は例えば199
2年、Audiology Japan巻35、401頁から402頁
や平成5年,音響学会講演論文集春季、329頁〜33
0頁に示された測定方法のようにするものとする。声質
制御手段50aは聴覚特性測定手段120より入力され
た測定結果に基づき強調処理の設定を決定する(ステッ
プ1100)。まず使用者の周波数分解能を示すp値を
15と比較する(ステップ1110)。ステップ111
0においてp値が15未満の場合はフォルマント強調情
報を真とする(ステップ1120)。もしステップ11
10においてp値が15以上の場合はフォルマント強調
情報を偽とする(ステップ1125)。次に使用者の時
間分解能を示すギャップ検出閾値と10msを比較する
(ステップ1130)。ステップ1130においてギャ
ップの検出閾値が10ms以上である場合子音強調情報を
真とする(ステップ1140)。もしステップ1130
でギャップの検出閾値が10ms未満の場合は子音強調情
報を偽とする(ステップ1150)。次に使用者の2k
Hz未満の平均聴力レベルと2kHz以上の平均聴力レ
ベルを比較する(ステップ1160)。ステップ116
0において2kHz以上の平均聴力レベルから2kHz
未満の平均聴力レベルを減じた値が30dB以上の場合
は帯域強調情報を真とする(ステップ1170)。もし
ステップ1170において2kHz以上の平均聴力レベ
ルから2kHz未満の平均聴力レベルを減じた値が30
dB未満の場合は帯域強調情報を偽とする(ステップ1
180)。テキスト入力手段10は言語処理手段20に
目的のテキストを入力する(ステップ1200)。次に
言語処理手段20はテキスト入力手段10より入力され
たテキストの構文解析を行い、読み情報、韻律情報およ
び強調部情報を生成し音声合成制御手段70aに出力す
る(ステップ1300)。素片データベース80は音声
合成制御手段70aより入力された読み情報に従って音
韻強調処理手段130aに合成単位を出力する(ステッ
プ1400)。音韻強調処理手段130aは音声合成制
御手段70aより入力された強調部情報と声質制御手段
50aより入力された制御信号に従って合成単位に強調
処理を施す(ステップ1500)。音韻強調処理手段1
30aは音声合成制御手段70aより入力された強調部
情報が真か偽かを判定する(ステップ1510)。ステ
ップ1510において強調部情報が真である場合、合成
単位中の母音定常部の時間長を20%延長し(ステップ
1520)。声質制御手段50aより入力されたフォル
マント強調情報が真か偽かを判定する(ステップ153
0)。もしステップ1510において強調部情報が偽で
ある場合、声質制御手段50aより入力されたフォルマ
ント強調情報が真か偽かを判定する(ステップ153
0)。ステップ1530においてフォルマント強調情報
が真である場合、図7に示すように音韻強調処理手段1
30aは素片データベース80に記憶された合成単位に
対応するフォルマント情報に従って、図7b)に示すよ
うにフォルマントを含む帯域を選択的に通過させるよう
フィルタバンクの各フィルタの中心周波数および帯域幅
を設定し、図7c)に示すようにフォルマントを含む帯
域とフォルマントを含まない帯域とのコントラストを強
調する(ステップ1540)。次に声質制御手段50a
より入力された子音強調情報が真か偽かを判定する(ス
テップ1550)。もしステップ1530においてフォ
ルマント強調情報が偽である場合、声質制御手段50a
より入力された子音強調情報が真か偽かを判定する(ス
テップ1550)。ステップ1550において子音強調
情報が真である場合、音韻強調処理手段130aは図8
に示すような素片データベース80に記憶された合成単
位に対応するラベル情報に従って、合成単位中の子音お
よび子音から母音への渡りの振幅を図8に示すように増
幅する(ステップ1560)。次に声質制御手段50a
より入力された帯域強調情報が真か偽かを判定する(ス
テップ1570)。もしステップ1560において子音
強調情報が偽である場合、声質制御手段50aより入力
された帯域強調情報が真か偽かを判定する(ステップ1
570)。ステップ1570において帯域強調情報が真
である場合、音韻強調処理手段130aは合成単位中の
子音に2kHz以上の帯域を強調する高帯域強調処理を
行い(ステップ1580)、合成単位を素片接続手段9
0aに出力する(ステップ1590)。もしステップ1
570において帯域強調情報が偽である場合、音韻強調
処理手段130aは合成単位を素片接続手段90に出力
する(ステップ1590)。素片接続手段90aは音声
合成制御手段70aより入力された韻律情報および強調
部情報に従って音韻強調処理手段130aより入力され
た合成単位を合成し合成音声を生成する(ステップ16
00)。まず素片接続手段90aは音声合成制御手段7
0aより入力された強調部情報が真か偽かを判定する
(ステップ1610)。ステップ1610において強調
部情報が真の場合、素片接続手段90aは合成単位に対
応するクロージャーの値を20%延長し(ステップ16
20)、音声合成制御手段70aより入力された韻律情
報に従って合成音声を生成し(ステップ1630)、圧
縮処理手段140aに出力する(ステップ1640)。
もしステップ1610において強調処理情報が偽の場
合、素片接続手段90aは音声合成制御手段70aより
入力された韻律情報に従って合成音声を生成し(ステッ
プ1630)圧縮処理手段140aに出力する(ステッ
プ1640)。圧縮処理手段140aは声質制御手段5
0aの制御信号に従って素片接続手段90aで生成され
た合成音声の振幅のダイナミックレンジを圧縮する(ス
テップ1700)。まず声質制御手段50aはマイクロ
フォン110より入力された環境音を1kHz以下、1
kHz〜2kHz、2kHz〜4kHz、4kHz以上
の帯域に分割し、帯域ごとに100msの平均レベルを
求める(ステップ1710)。1kHz以下の環境音の
平均レベルと20dBSPL/Hzとを比較する(ステ
ップ1730)。ステップ1730において1kHz以
下の環境音の平均レベルが20dBSPL/Hz以上で
ある場合、声質制御手段50aは合成音声の1kHz以
下の成分のレベルのダイナミックレンジが1kHz以下
の環境音の平均レベルの値〜90dBSPLとなるよう
に圧縮処理のパラメータを設定し(ステップ174
0)、1kHz〜2kHzの環境音の平均レベルと20
dBSPL/Hzとを比較する(ステップ1750)。
もしステップ1730において1kHz以下の環境音が
20dBSPL/Hz未満である場合、1kHz〜2k
Hzの環境音の平均レベルと20dBSPL/Hzとを
比較する(ステップ1750)。ステップ1750にお
いて1kHz〜2kHzの環境音の平均レベルが20d
BSPL/Hz以上である場合、声質制御手段50aは
合成音声の1kHz〜2kHzの成分のレベルのダイナ
ミックレンジが1kHz〜2kHzの環境音の平均レベ
ルの値〜90dBSPLとなるように圧縮処理のパラメ
ータを設定し(ステップ1760)、2kHz〜4kH
zの環境音の平均レベルと15dBSPL/Hzとを比
較する(ステップ1770)。もしステップ1750に
おいて1kHz〜2kHzの環境音が20dBSPL/
Hz未満である場合、2kHz〜4kHzの環境音の平
均レベルと15dBSPL/Hzとを比較する(ステッ
プ1770)。ステップ1770において2kHz〜4
kHzの環境音の平均レベルが15dBSPL/Hz以
上である場合、声質制御手段50aは合成音声の2kH
z〜4kHzの成分のレベルのダイナミックレンジが2
kHz〜4kHzの環境音の平均レベルの値〜80dB
SPLとなるように圧縮処理のパラメータを設定し(ス
テップ1780)、4kHz以上の環境音の平均レベル
と10dBSPL/Hzとを比較する(ステップ179
0)。もしステップ1770において2kHz〜4kH
zの環境音が15dBSPL/Hz未満である場合、4
kHz以上の環境音の平均レベルと10dBSPL/H
zとを比較する(ステップ1790)。ステップ179
0において4kHz以上の環境音の平均レベルが10d
BSPL/Hz以上である場合、声質制御手段50aは
合成音声の4kHz以上の成分のレベルのダイナミック
レンジが4kHz以上の環境音の平均レベルの値〜60
dBSPLとなるように圧縮処理のパラメータを設定し
(ステップ1800)、圧縮処理手段140aに制御信
号を出力する(ステップ1810)。もしステップ17
90において4kHz以上の環境音の平均レベルが10
dBSPL/Hz未満である場合、圧縮処理手段140
aに制御信号を出力する(ステップ1810)。圧縮処
理手段140aは声質制御手段50aより入力された制
御信号に基づき素片接続手段90aより入力された合成
音声に圧縮処理を行う(ステップ1820)。圧縮処理
の方法は例えば1991年音響学会誌、巻47、373
頁から379頁に示された処理のようにするものとす
る。圧縮処理手段140aは電気音響変換器60を通し
て合成音声を出力する(ステップ1900)。
【0017】(実施例2)以下本発明の第2の実施例に
ついて、図面を参照しながら説明する。
【0018】図9は本発明の音声合成装置の第2の実施
例を示す構成ブロック図である。図10に第2の実施例
の動作を説明するための流れ図を、図11に動作を説明
するための流れ図の一部を示す。図9において図1と同
一物または部分については同一符号を付しているので説
明を省略し、異なった部分についてのみ説明する。図1
の音声合成部30aが音声合成部30bに置き換わり、
声質制御手段50aが声質制御手段50bに置き換わ
り、マイクロフォン110が操作手段40bに置き換わ
り、聴覚特性測定手段120が聴覚特性記憶手段220
に置き換わった以外は図1と同一な構成である。前記の
音声合成部30bは、音声合成制御手段70b、合成単
位を記憶しておくデータベース部200b、合成単位に
振幅のダイナミックレンジを圧縮する圧縮処理を施す圧
縮処理手段140b、圧縮処理手段140bで処理され
た合成単位をつなげて合成音声を生成する素片接続手段
90bを有する。前記のデータベース部200bは異な
る複数の強調処理を施された素片を施された強調処理ご
とに記憶する複数の素片データベース280a〜nと、
複数の素片データベース280a〜nと圧縮処理手段1
40bとの接続を切り替えるスイッチ210bとを有す
る。
【0019】以上のように構成されたこの実施例の音声
合成装置において、以下その動作を図9、図10、図1
1に従って説明する。
【0020】図10、図11において図2、図4と同一
の動作については同一符号を付しているので説明を省略
し、異なった部分についてのみ説明する。まず聴覚特性
記憶手段220に記憶されたあらかじめ測定された聴覚
特性を声質制御手段50bに出力する。(ステップ20
00)。声質制御手段50bは聴覚特性記憶手段220
より入力された聴覚特性に基づき圧縮処理のパラメータ
を設定し圧縮処理手段140bへ出力する(ステップ2
100)。圧縮処理のパラメータ設定方法は例えば聴覚
研究会資料、資料番H−95−4、1頁〜8頁に示され
た設定方法のようにする。テキスト入力手段10は言語
処理手段20に目的のテキストを入力する(ステップ1
200)。次に言語処理手段20はテキスト入力手段1
0より入力されたテキストの構文解析を行い、読み情
報、韻律情報および強調部情報を生成し音声合成制御手
段70bに出力する(ステップ1300)。使用者は操
作手段40bに強調の種類および強調の程度を入力し、
操作手段40bは入力結果を強調選択情報として声質制
御手段50bに出力する(ステップ2400)。声質制
御手段50bは操作手段40bより入力された強調選択
情報に最も近い強調が施された素片データベースを素片
データベース280a〜nより選択し、スイッチ210
bを切り替えて圧縮処理手段140bに接続する(ステ
ップ2500)。ステップ2500で圧縮処理手段14
0bと接続された素片データベース280は音声合成制
御手段70bより入力された読み情報に従って圧縮処理
手段140bに合成単位を出力する(ステップ260
0)。圧縮処理手段140bは声質制御手段50bより
入力された圧縮処理パラメータに従って素片データベー
ス280より入力された合成単位の振幅のダイナミック
レンジを圧縮し、素片接続手段90bに出力する(ステ
ップ2700)。素片接続手段90bは音声合成制御手
段70bより入力された韻律情報および強調部情報に従
って圧縮処理手段140bより入力された合成単位を合
成し合成音声を生成する(ステップ2800)。まず素
片接続手段90bは音声合成制御手段70bより入力さ
れた強調部情報が真か偽かを判定する(ステップ161
0)。ステップ1610において強調部情報が真の場
合、素片接続手段90bは合成単位中の母音定常部の時
間長を20%延長し(ステップ2920)、さらに合成
単位に対応するクロージャーの値を20%延長し(ステ
ップ1620)、音声合成制御手段70bより入力され
た韻律情報に従って合成音声を生成する(ステップ29
30)。もしステップ1610において強調処理情報が
偽の場合、素片接続手段90bは音声合成制御手段70
bより入力された韻律情報に従って合成音声を生成する
(ステップ2930)。素片接続手段90bは電気音響
変換器60を通して合成音声を出力する(ステップ19
00)。
【0021】(実施例3)以下本発明の第3の実施例に
ついて、図面を参照しながら説明する。
【0022】図12は本発明の音声合成装置の第3の実
施例を示す構成ブロック図である。図13に第3の実施
例の動作を説明するための流れ図を示す。第3の実施例
の構成において図9に示した第2の実施例の構成と同一
物または部分については説明を省略し、異なった部分に
ついてのみ説明する。図9の聴覚特性記憶手段220が
聴覚特性読み取り手段310に置き換わり、音声合成部
30bが音声合成部30cに置き換わり、声質制御手段
50bが声質制御手段50cに置き換わり、素片データ
ベース380a〜n、聴覚特性320a〜nがつけ加わ
った以外は図9と同一な構成である。前記の音声合成部
30cは図9の音声合成制御手段70bが音声合成制御
手段70cに置き換わり、データベース部200bが素
片データベース読み取り手段300に置き換わった以外
は図9の音声合成部30bと同一な構成である。素片デ
ータベース380a〜nは複数の異なる強調の種類と強
調の程度の強調処理を施した合成単位を強調処理ごとに
格納した記憶媒体である。素片データベース読み取り手
段300は圧縮処理手段140bが参照する素片データ
ベース380を読みとるものである。聴覚特性320a
〜nはあらかじめ測定された複数の使用者の聴覚特性を
個人ごとに格納した記憶媒体である。聴覚特性読み取り
手段310は声質制御手段50cが参照する聴覚特性を
読みとるものである。
【0023】以上のように構成されたこの実施例の音声
合成装置において、以下その動作を図12、図13に従
って説明する。
【0024】図13において図10と同一の動作につい
ては同一符号を付しているので説明を省略し、異なった
部分についてのみ説明する。まず聴覚特性読み取り手段
310により、あらかじめセットした使用者に対応する
聴覚特性320を読み出し、声質制御手段50cに出力
する。(ステップ3000)。声質制御手段50cは聴
覚特性読み取り手段310より入力された聴覚特性に基
づき圧縮処理のパラメータを設定し圧縮処理手段140
bへ出力する(ステップ2100)。テキスト入力手段
10は言語処理手段20に目的のテキストを入力する
(ステップ1200)。次に言語処理手段20はテキス
ト入力手段10より入力されたテキストを構文解析を行
い、読み情報、韻律情報および強調部情報を生成し音声
合成制御手段70cに出力する(ステップ1300)。
素片データベース読み取り手段300は音声合成制御手
段70cより入力された読み情報に従って、あらかじめ
使用者の好みおよび使用する場面に応じてセットされた
素片データベース380より合成単位を読み出し圧縮処
理手段140bに出力する(ステップ3600)。圧縮
処理手段140bは声質制御手段50cより入力された
圧縮処理パラメータに従って素片データベース380よ
り入力された合成単位の振幅のダイナミックレンジを圧
縮し、素片接続手段90bに出力する(ステップ270
0)。素片接続手段90bは音声合成制御手段70cよ
り入力された韻律情報および強調部情報に従って圧縮処
理手段140bより入力された合成単位を合成し合成音
声を生成する(ステップ2800)。素片接続手段90
bは電気音響変換器60を通して合成音声を出力する
(ステップ1900)。
【0025】(実施例4)以下本発明の第4の実施例に
ついて、図面を参照しながら説明する。
【0026】図14は本発明の音声合成装置の第4の実
施例を示す構成ブロック図である。図15に第4の実施
例の動作を説明するための流れ図を、図16、図17に
動作を説明するための流れ図の一部を示す。図14にお
いて図1と同一物または部分については同一符号を付し
ているので説明を省略し、異なった部分についてのみ説
明する。図1の音声合成部30aが音声合成部30dに
置き換わり、声質制御手段50aが声質制御手段50d
に置き換わり、聴覚特性測定手段120が削除された以
外は図1と同一な構成である。前記の音声合成部30d
は、音声合成制御手段70d、合成単位を記憶しておく
素片データベース80、素片データベース80に記憶さ
れた合成単位をつなげて合成音声を生成する素片接続手
段90d、および素片接続手段90dで生成された合成
音声に強調処理を施す音声音韻強調処理手段130dを
有する。
【0027】以上のように構成されたこの実施例の音声
合成装置において、以下その動作を図14、図15、図
16、図17、図18に従って説明する。図15、図1
6、図17、図18において図2、図4、図5、図6と
同一の動作については同一符号を付しているので説明を
省略し、異なった部分についてのみ説明する。
【0028】まずテキスト入力手段10は言語処理手段
20に目的のテキストを入力する(ステップ120
0)。次に言語処理手段20はテキスト入力手段10よ
り入力されたテキストを構文解析を行い、読み情報、韻
律情報および強調部情報を生成し音声合成制御手段70
dに出力する(ステップ1300)。素片データベース
80は音声合成制御手段70dより入力された読み情報
に従って素片接続手段90dに合成単位を出力する(ス
テップ4400)。素片接続手段90dは音声合成制御
手段70dより入力された韻律情報および強調部情報に
従って素片データベース80より入力された合成単位を
接続して合成音声を生成し、音韻強調処理手段130d
に出力する(ステップ1600)。声質制御手段50d
は強調処理方法の設定を行う(ステップ4700)。ま
ず声質制御手段50dはマイクロフォン110より入力
された環境音を1kHz以下、1kHz〜2kHz、2
kHz〜4kHz、4kHz以上の帯域に分割し、帯域
ごとに100msの平均レベルを求める(ステップ17
10)。1kHz以下の環境音の平均レベル、1kHz
〜2kHzの環境音の平均レベルと20dBSPL/H
z、他の帯域の環境音の平均レベルと15dBSPL/
Hzを比較する(ステップ4720)。1kHz以下の
環境音の平均レベルが20dBSPL/Hz以上で、か
つ1kHz〜2kHzの環境音の平均レベルが20dB
SPL/Hz以上で、かつ他の帯域の環境音の平均レベ
ルが15dBSPL/Hz未満の場合、フォルマント強
調情報を真とし(ステップ4730)、子音強調情報を
偽とする(4780)。次に全帯域の帯域強調情報を偽
とし(ステップ4800)、制御信号を音韻強調処理手
段130dに出力する(ステップ4810)。もしステ
ップ4720で1kHz以下の環境音の平均レベルが2
0dBSPL/Hz以上で、かつ1kHz〜2kHzの
環境音の平均レベルが20dBSPL/Hz以上で、か
つ他の帯域の環境音の平均レベルが15dBSPL/H
z未満でない場合は、フォルマント強調情報を偽とし
(ステップ4740)、1kHz〜2kHzの環境音の
平均レベルと20dBSPL/Hz、他の帯域の環境音
の平均レベルと15dBSPL/Hzを比較する(ステ
ップ4750)。ステップ4750で1kHz〜2kH
zの環境音の平均レベルが20dBSPL/Hz以上、
かつ2kHz〜4kHzの環境音の平均レベルが15d
BSPL/Hz以上、かつ1kHz以下の環境音の平均
レベルが20dBSPL/Hz未満、かつ4kHz以上
の環境音の平均レベルが15dBSPL/Hz未満であ
る場合、子音強調情報を真とし(ステップ4760)、
全帯域の帯域強調情報を偽とし(ステップ4800)、
制御信号を音韻強調処理手段130dに出力する(ステ
ップ4810)。もしステップ4750で1kHz〜2
kHzの環境音の平均レベルが20dBSPL/Hz以
上、かつ2kHz〜4kHzの環境音の平均レベルが1
5dBSPL/Hz以上、かつ1kHz以下の環境音の
平均レベルが20dBSPL/Hz未満、かつ4kHz
以上の環境音の平均レベルが15dBSPL/Hz未満
でない場合、子音強調情報を偽とし(ステップ477
0)、各帯域の帯域強調情報を設定する(ステップ47
90)。1kHz以下の環境音の平均レベルと20dB
SPL/Hzとを比較する(ステップ1730)。ステ
ップ1730において1kHz以下の環境音の平均レベ
ルが20dBSPL/Hz以上である場合、1kHz以
下の帯域強調情報を真とし(ステップ4791)、1k
Hz〜2kHzの環境音の平均レベルと20dBSPL
/Hzとを比較する(ステップ1750)。もしステッ
プ1730において1kHz以下の環境音が20dBS
PL/Hz未満である場合、1kHz以下の帯域強調情
報を偽とし(ステップ4792)、1kHz〜2kHz
の環境音の平均レベルと20dBSPL/Hzとを比較
する(ステップ1750)。ステップ1750において
1kHz〜2kHzの環境音の平均レベルが20dBS
PL/Hz以上である場合、1kHz〜2kHzの帯域
強調情報を真とし(ステップ4793)、2kHz〜4
kHzの環境音の平均レベルと15dBSPL/Hzと
を比較する(ステップ1770)。もしステップ175
0において1kHz〜2kHzの環境音が20dBSP
L/Hz未満である場合、1kHz〜2kHzの帯域強
調情報を偽とし(ステップ4794)、2kHz〜4k
Hzの環境音の平均レベルと15dBSPL/Hzとを
比較する(ステップ1770)。ステップ1770にお
いて2kHz〜4kHzの環境音の平均レベルが15d
BSPL/Hz以上である場合、2kHz〜4kHzの
帯域強調情報を真とし(ステップ4795)、4kHz
以上の環境音の平均レベルと15dBSPL/Hzとを
比較する(ステップ1790)。もしステップ1770
において2kHz〜4kHzの環境音が15dBSPL
/Hz未満である場合、2kHz〜4kHzの帯域強調
情報を偽とし(ステップ4796)、4kHz以上の環
境音の平均レベルと15dBSPL/Hzとを比較する
(ステップ1790)。ステップ1790において4k
Hz以上の環境音の平均レベルが15dBSPL/Hz
以上である場合、4kHz以上の帯域強調情報を真とし
(ステップ4797)、制御信号を音韻強調処理手段1
30dに出力する(ステップ4810)。もしステップ
1790において4kHz以上の環境音の平均レベルが
15dBSPL/Hz未満である場合、4kHz以上の
帯域強調情報を偽とし(ステップ4798)、制御信号
を音韻強調処理手段130dに出力する(ステップ48
10)。音韻強調処理手段130dは音声合成制御手段
70dより入力された強調部情報および声質制御手段5
0dより入力された制御信号に従って強調処理を行う
(ステップ4900)。音韻強調処理手段130dは音
声合成制御手段70dより入力された強調部情報が真か
偽かを判定する(ステップ1510)。ステップ151
0において強調部情報が真である場合、合成単位中の母
音定常部の時間長を20%延長し(ステップ152
0)。声質制御手段50dより入力されたフォルマント
強調情報が真か偽かを判定する(ステップ1530)。
もしステップ1510において強調部情報が偽である場
合、声質制御手段50dより入力されたフォルマント強
調情報が真か偽かを判定する(ステップ1530)。ス
テップ1530においてフォルマント強調情報が真であ
る場合、素片接続手段90dより入力された合成音声の
スペクトル包絡を求め、スペクトルピークを強調する
(ステップ4910)。スペクトルピークの強調の方法
については例えば平成5年、日本音響学会講演論文集春
季285頁〜286頁に示すような方法を用いるものと
する。次に声質制御手段50dより入力された子音強調
情報が真か偽かを判定する(ステップ1550)。もし
ステップ1530においてフォルマント強調情報が偽で
ある場合、声質制御手段50dより入力された子音強調
情報が真か偽かを判定する(ステップ1550)。ステ
ップ1550において子音強調情報が真である場合、音
韻強調処理手段130dは合成単位中の子音および子音
から母音への渡りの振幅を増幅する(ステップ492
0)。子音強調の方法は例えば1992年、電子情報通
信学会技術研究報告、巻91、513号31頁〜38頁
に示すような方法を用いるものとする。次に声質制御手
段50dより入力された1kHz以下の帯域強調情報が
真か偽かを判定する(ステップ4930)。もしステッ
プ1560において子音強調情報が偽である場合、声質
制御手段50より入力された1kHz以下の帯域強調情
報が真か偽かを判定する(ステップ4930)。ステッ
プ4930において1kHz以下の帯域強調情報が真で
ある場合、音韻強調処理手段130dは素片接続手段9
0dより入力された合成音声の1kHz以下の帯域成分
の強調処理を行い(ステップ4940)、1kHz〜2
kHzの帯域強調情報が真か偽かを判定する(ステップ
4950)。もしステップ4930において1kHz以
下の帯域強調情報が偽である場合、1kHz〜2kHz
の帯域強調情報が真か偽かを判定する(ステップ495
0)。ステップ4950において1kHz〜2kHzの
帯域強調情報が真である場合、音韻強調処理手段130
dは素片接続手段90dより入力された合成音声の1k
Hz〜2kHzの帯域成分の強調処理を行い(ステップ
4960)、2kHz〜4kHzの帯域強調情報が真か
偽かを判定する(ステップ4970)。もしステップ4
950において1kHz〜2kHzの帯域強調情報が偽
である場合、2kHz〜4kHzの帯域強調情報が真か
偽かを判定する(ステップ4970)。ステップ497
0において2kHz〜4kHzの帯域強調情報が真であ
る場合、音韻強調処理手段130dは素片接続手段90
dより入力された合成音声の2kHz〜4kHzの帯域
成分の強調処理を行い(ステップ4980)、4kHz
以上の帯域強調情報が真か偽かを判定する(ステップ4
990)。もしステップ4970において2kHz〜4
kHzの帯域強調情報が偽である場合、4kHz以上の
帯域強調情報が真か偽かを判定する(ステップ499
0)。ステップ4990において4kHz以上の帯域強
調情報が真である場合、音韻強調処理手段130dは素
片接続手段90dより入力された合成音声の4kHz以
上の帯域成分の強調処理を行い(ステップ5000)、
電気音響変換器60を通して合成音声を出力する(ステ
ップ1900)。もしステップ4990において4kH
z以上の帯域強調情報が偽である場合、電気音響変換器
60を通して合成音声を出力する(ステップ190
0)。
【0029】(実施例5)以下本発明の第5の実施例に
ついて、図面を参照しながら説明する。
【0030】図19は本発明の音声合成装置の第5の実
施例を示す構成ブロック図である。図20に第5の実施
例の動作を説明するための流れ図をを示す。図19にお
いて図9と同一物または部分については同一符号を付し
ているので説明を省略し、異なった部分についてのみ説
明する。図9の音声合成部30bが音声合成部30eに
置き換わり、声質制御手段50bが声質制御手段50e
に置き換わり、操作手段40bが操作手段40eに置き
換わり、声質制御手段50bが声質制御手段50eに置
き換わり、聴覚特性記憶手段220が削除された以外は
図9と同一な構成である。前記の音声合成部30eは、
音声合成制御手段70e、合成単位を記憶しておくデー
タベース部200e、合成単位をつなげて合成音声を生
成する素片接続手段90eを有する。前記のデータベー
ス部200eは異なるパラメータを用いた複数の圧縮処
理を施された素片を圧縮処理に用いられたパラメータご
とに記憶する複数の素片データベース580a〜nと、
複数の素片データベース580a〜nと素片接続手段9
0eとの接続を切り替えるスイッチ210eとを有す
る。
【0031】以上のように構成されたこの実施例の音声
合成装置において、以下その動作を図19、図20に従
って説明する。
【0032】図20において図10と同一の動作につい
ては同一符号を付しているので説明を省略し、異なった
部分についてのみ説明する。まずテキスト入力手段10
は言語処理手段20に目的のテキストを入力する(ステ
ップ1200)。次に言語処理手段20はテキスト入力
手段10より入力されたテキストの構文解析を行い、読
み情報、韻律情報および強調部情報を生成し音声合成制
御手段70eに出力する(ステップ1300)。使用者
は操作手段40eに圧縮の程度を入力し、操作手段40
eは入力結果を圧縮率選択情報として声質制御手段50
eに出力する(ステップ5400)。声質制御手段50
eは操作手段40eより入力された圧縮率選択情報に最
も近い圧縮率で圧縮が施された素片データベースを素片
データベース580a〜nより選択し、スイッチ210
eを切り替えて素片接続手段90eに接続する(ステッ
プ5500)。ステップ5500で素片接続手段90e
と接続された素片データベース580は音声合成制御手
段70eより入力された読み情報に従って素片接続手段
90eに合成単位を出力する(ステップ5600)。素
片接続手段90eは音声合成制御手段70eより入力さ
れた韻律情報および強調部情報に従って素片データベー
ス580より入力された合成単位を接続して合成音声を
生成し(ステップ2800)、電気音響変換器60を通
して合成音声を出力する(ステップ1900)。
【0033】(実施例6)以下本発明の第6の実施例に
ついて、図面を参照しながら説明する。
【0034】図21は本発明の音声合成装置の第6の実
施例を示す構成ブロック図である。図22に第6の実施
例の動作を説明するための流れ図を示す。第6の実施例
の構成において図12に示した第3の実施例の構成と同
一物または部分については説明を省略し、異なった部分
についてのみ説明する。図12の音声合成部30cが音
声合成部30fに置き換わり、素片データベース380
a〜nが素片データベース680a〜nに置き換わり、
聴覚特性読み取り手段310、声質制御手段50c、聴
覚特性読み取り手段310、聴覚特性a〜nが削除され
た以外は図12と同一な構成である。前記の音声合成部
30fは図12の音声合成制御手段70cが音声合成制
御手段70fに置き換わり、素片接続手段90bが素片
接続手段90fに置き換わり、圧縮処理手段140bが
削除された以外は図12の音声合成部30cと同一な構
成である。素片データベース680a〜nは異なるパラ
メータを用いた複数の圧縮処理を施された素片を圧縮処
理に用いられたパラメータごとに格納した記憶媒体であ
る。素片データベース読み取り手段300は素片接続手
段90fが参照する素片データベース680を読み取る
ものである。
【0035】以上のように構成されたこの実施例の音声
合成装置において、以下その動作を図21、図22に従
って説明する。
【0036】図22において図13と同一の動作につい
ては同一符号を付しているので説明を省略し、異なった
部分についてのみ説明する。まずテキスト入力手段10
は言語処理手段20に目的のテキストを入力する(ステ
ップ1200)。次に言語処理手段20はテキスト入力
手段10より入力されたテキストの構文解析を行い、読
み情報、韻律情報および強調部情報を生成し音声合成制
御手段70fに出力する(ステップ1300)。素片デ
ータベース読み取り手段300は音声合成制御手段70
fより入力された読み情報に従って、あらかじめ使用者
の好みおよび使用する場面に応じてセットされた素片デ
ータベース680より合成単位を読み出し素片接続手段
90fに出力する(ステップ6600)。素片接続手段
90fは音声合成制御手段70fより入力された韻律情
報および強調部情報に従って素片データベース読み取り
手段300より入力された合成単位を接続して合成音声
を生成し(ステップ2800)、電気音響変換器60を
通して合成音声を出力する(ステップ1900)。
【0037】(実施例7)以下本発明の第7の実施例に
ついて、図面を参照しながら説明する。
【0038】図23は本発明の音声合成装置の第7の実
施例を示す構成ブロック図である。図24に第7の実施
例の動作を説明するための流れ図を、図25に動作を説
明するための流れ図の一部を示す。図23において図1
と同一物または部分については同一符号を付しているの
で説明を省略し、異なった部分についてのみ説明する。
図1の音声合成部30aが音声合成部30gに置き換わ
り、声質制御手段50aが声質制御手段50gに置き換
わった以外は図1と同一な構成である。前記の音声合成
部30gは、図1の音声合成部30aの音声合成制御手
段70aが音声合成制御手段70gに置き換わり、圧縮
処理手段140aが圧縮処理手段140gに置き換わ
り、素片接続手段90aが素片接続手段90gに置き換
わり、音韻強調処理手段130aが削除された以外は図
1の音声合成部30aと同一な構成である。
【0039】以上のように構成されたこの実施例の音声
合成装置において、以下その動作を図23、図24、図
25に従って説明する。
【0040】まず聴覚特性測定手段120で使用者の聴
覚特性を測定し、測定結果を声質制御手段50gに出力
する。(ステップ1000)。テキスト入力手段10は
言語処理手段20に目的のテキストを入力する(ステッ
プ1200)。次に言語処理手段20はテキスト入力手
段10より入力されたテキストを構文解析を行い、読み
情報、韻律情報および強調部情報を生成し音声合成制御
手段70gに出力する(ステップ1300)。素片デー
タベース80は音声合成制御手段70gより入力された
読み情報に従って圧縮処理手段140gに合成単位を出
力する(ステップ7400)。圧縮処理手段140gは
声質制御手段50gより入力された制御信号に従って素
片データベース80から入力された合成単位の振幅のダ
イナミックレンジを圧縮する(ステップ7500)。ま
ず声質制御手段50gはマイクロフォン110より入力
された環境音を1kHz以下、1kHz〜2kHz、2
kHz〜4kHz、4kHz以上の帯域に分割し、帯域
ごとに100msの平均レベルを求める(ステップ17
10)。1kHz以下の環境音の平均レベルと聴覚特性
測定手段120より入力された使用者の500Hzの最
小可聴値とを比較する(ステップ7720)。ステップ
7720において1kHz以下の環境音の平均レベルが
使用者の500Hzの最小可聴値以上である場合、声質
制御手段50gは合成単位の1kHz以下の成分のレベ
ルのダイナミックレンジが1kHz以下の環境音の平均
レベルの値に聴覚特性測定手段120より入力された使
用者の500Hzの最小可聴値を加えた値〜90dBS
PLとなるように圧縮処理のパラメータを設定し(ステ
ップ7730)、1kHz〜2kHzの環境音の平均レ
ベルと聴覚特性測定手段120より入力された使用者の
1kHzの最小可聴値とを比較する(ステップ775
0)。もしステップ7730において1kHz以下の環
境音が使用者の500Hzの最小可聴値未満である場
合、聴覚特性測定手段120より入力された測定結果に
基づき圧縮処理のパラメータを設定し(ステップ774
0)、1kHz〜2kHzの環境音の平均レベルと聴覚
特性測定手段120より入力された使用者の1kHzの
最小可聴値とを比較する(ステップ7750)。圧縮処
理パラメータの設定方法は例えば実施例2および実施例
3と同様とする。ステップ7750において1kHz〜
2kHzの環境音の平均レベルが聴覚特性測定手段12
0より入力された使用者の1kHzの最小可聴値以上で
ある場合、声質制御手段50gは合成単位の1kHz〜
2kHzの成分のレベルのダイナミックレンジが1kH
z〜2kHzの環境音の平均レベルの値に聴覚特性測定
手段120より入力された使用者の1kHzの最小可聴
値を加えた値〜90dBSPLとなるように圧縮処理の
パラメータを設定し(ステップ7760)、2kHz〜
4kHzの環境音の平均レベルと聴覚特性測定手段12
0より入力された使用者の2kHzの最小可聴値とを比
較する(ステップ7780)。もしステップ7750に
おいて1kHz〜2kHzの環境音が使用者の1kHz
の最小可聴値未満である場合、聴覚特性測定手段120
より入力された測定結果に基づき圧縮処理のパラメータ
を設定し(ステップ7770)、2kHz〜4kHzの
環境音の平均レベルと聴覚特性測定手段120より入力
された使用者の2kHzの最小可聴値とを比較する(ス
テップ7780)。ステップ7780において2kHz
〜4kHzの環境音の平均レベルが聴覚特性測定手段1
20より入力された使用者の2kHzの最小可聴値以上
である場合、声質制御手段50gは合成単位の2kHz
〜4kHzの成分のレベルのダイナミックレンジが2k
Hz〜4kHzの環境音の平均レベルの値に聴覚特性測
定手段120より入力された使用者の2kHzの最小可
聴値を加えた値〜90dBSPLとなるように圧縮処理
のパラメータを設定し(ステップ7790)、4kHz
以上の環境音の平均レベルと聴覚特性測定手段120よ
り入力された使用者の4kHzの最小可聴値とを比較す
る(ステップ7810)。もしステップ7780におい
て2kHz〜4kHzの環境音が使用者の2kHzの最
小可聴値未満である場合、聴覚特性測定手段120より
入力された測定結果に基づき圧縮処理のパラメータを設
定し(ステップ7800)、4kHz以上の環境音の平
均レベルと聴覚特性測定手段120より入力された使用
者の4kHzの最小可聴値とを比較する(ステップ78
10)。ステップ7810において4kHz以上の環境
音の平均レベルが聴覚特性測定手段120より入力され
た使用者の4kHzの最小可聴値以上である場合、声質
制御手段50gは合成単位の4kHz以上の成分のレベ
ルのダイナミックレンジが4kHz以上の環境音の平均
レベルの値に聴覚特性測定手段120より入力された使
用者の4kHzの最小可聴値を加えた値〜90dBSP
Lとなるように圧縮処理のパラメータを設定し(ステッ
プ7820)、圧縮処理手段140gに制御信号を出力
する(ステップ1810)。もしステップ7810にお
いて4kHz以上の環境音が使用者の4kHzの最小可
聴値未満である場合、聴覚特性測定手段120より入力
された測定結果に基づき圧縮処理のパラメータを設定し
(ステップ7830)、圧縮処理手段140gに制御信
号を出力する(ステップ1810)。圧縮処理手段14
0gは声質制御手段50gより入力された制御信号に基
づき素片データベース80より入力された合成単位に圧
縮処理を施し、素片接続手段90gに出力する(ステッ
プ7840)。素片接続手段90gは音声合成制御手段
70gより入力された韻律情報および強調部情報に従っ
て圧縮処理手段140gより入力された合成単位を接続
して合成音声を生成し(ステップ7900)、電気音響
変換器60を通して合成音声を出力する(ステップ19
00)。
【0041】(実施例8)以下本発明の第8の実施例に
ついて、図面を参照しながら説明する。
【0042】図26は本発明の音声合成装置の第8の実
施例を示す構成ブロック図である。図27に第8の実施
例の動作を説明するための流れ図を、図28に第8の実
施例の動作の一部を説明するための流れ図を示す。図2
9に第8の実施例のフォルマント強調の処理結果の模式
図を示す。第8の実施例の構成において図12に示した
第3の実施例の構成と同一物または部分については説明
を省略し、異なった部分についてのみ説明する。図12
の音声合成部30cが音声合成部30hに置き換わり、
声質制御手段50cが声質制御手段50hに置き換わ
り、素片データベース380a〜nが削除された以外は
図12と同一な構成である。前記の音声合成部30hは
図12の音声合成制御手段70cが音声合成制御手段7
0hに置き換わり、素片データベース読み取り手段30
0が素片データベース80に置き換わり、圧縮処理手段
140bが音韻強調処理手段130hに置き換わり、強
調フィルタ部800がつけ加わった以外は図12の音声
合成部30cと同一な構成である。前記の強調フィルタ
部800はあらかじめ各音韻ごとにフォルマントを強調
するよう設定されたフォルマント強調フィルタ810a
〜nと、フォルマント強調フィルタ810と音韻強調処
理手段130hの接続を切り替えるスイッチ820とを
有する。
【0043】以上のように構成されたこの実施例の音声
合成装置において、以下その動作を図26、図27、図
28、図29に従って説明する。
【0044】図27、図28、図29において図2、図
4、図13と同一の動作については同一符号を付してい
るので説明を省略し、異なった部分についてのみ説明す
る。まず聴覚特性読み取り手段310により、あらかじ
めセットした使用者に対応する聴覚特性を読み出し、声
質制御手段50hに出力する。(ステップ3000)。
声質制御手段50は聴覚特性読み取り手段310より入
力された聴覚特性に基づき強調処理の設定を決定し音韻
強調処理手段130hへ出力する(ステップ110
0)。テキスト入力手段10は言語処理手段20に目的
のテキストを入力する(ステップ1200)。次に言語
処理手段20はテキスト入力手段10より入力されたテ
キストの構文解析を行い、読み情報、韻律情報および強
調部情報を生成し音声合成制御手段70hに出力する
(ステップ1300)。素片データベース80は音声合
成制御手段70hより入力された読み情報に従って音韻
強調処理手段130hに合成単位を出力する(ステップ
1400)。音韻強調処理手段130hは音声合成制御
手段70hより入力された強調部情報と声質制御手段5
0hより入力された制御信号に従って合成単位に強調処
理を施す(ステップ8500)。音韻強調処理手段13
0hは音声合成制御手段70hより入力された強調部情
報が真か偽かを判定する(ステップ1510)。ステッ
プ1510において強調部情報が真である場合、合成単
位中の母音定常部の時間長を20%延長し(ステップ1
520)。声質制御手段50hより入力されたフォルマ
ント強調情報が真か偽かを判定する(ステップ153
0)。もしステップ1510において強調部情報が偽で
ある場合、声質制御手段50hより入力されたフォルマ
ント強調情報が真か偽かを判定する(ステップ153
0)。ステップ1530においてフォルマント強調情報
が真である場合、音声合成制御手段70hより出力され
た制御信号により素片データベース80より出力された
合成単位に対応するフォルマント強調フィルタ810に
スイッチ820を接続する(ステップ8510)。図2
8に示すように、ステップ8510で接続されたあらか
じめ音韻ごとに設定されたフィルタバンクを用いて、フ
ォルマントを含む帯域を選択的に通過させ、図7c)に
示すようにフォルマントを含む帯域とフォルマントを含
まない帯域とのコントラストを強調する(ステップ85
40)。次に声質制御手段50より入力された子音強調
情報が真か偽かを判定する(ステップ1550)。もし
ステップ1530においてフォルマント強調情報が偽で
ある場合、声質制御手段50hより入力された子音強調
情報が真か偽かを判定する(ステップ1550)。ステ
ップ1550において子音強調情報が真である場合、合
成単位中の子音および子音から母音への渡りの振幅を増
幅する(ステップ1560)。次に声質制御手段50h
より入力された帯域強調情報が真か偽かを判定する(ス
テップ1570)。もしステップ1560において子音
強調情報が偽である場合、声質制御手段50hより入力
された帯域強調情報が真か偽かを判定する(ステップ1
570)。ステップ1570において帯域強調情報が真
である場合、合成単位中の子音に2kHz以上の帯域を
強調する高帯域強調処理を行い(ステップ1580)、
音韻強調処理手段130hは合成単位を素片接続手段9
0hに出力する(ステップ1590)。もしステップ1
570において帯域強調情報が偽である場合、音韻強調
処理手段130hは合成単位を素片接続手段90hに出
力する(ステップ1590)。素片接続手段90hは音
声合成制御手段70hより入力された韻律情報および強
調部情報に従って音韻強調処理手段130hより入力さ
れた合成単位を接続して合成音声を生成し(ステップ1
600)、電気音響変換器60を通して合成音声を出力
する(ステップ1900)。
【0045】(実施例9)以下本発明の第9の実施例に
ついて、図面を参照しながら説明する。
【0046】図30は本発明の音声合成装置の第9の実
施例を示す構成ブロック図である。図31に第9の実施
例の動作を説明するための流れ図を、図32に動作を説
明するための流れ図の一部を示す。図30において図4
2と同一物または部分については同一符号を付している
ので説明を省略し、異なった部分についてのみ説明す
る。図42の声質制御手段50mが声質制御手段50i
に置き換わり、操作手段40mがマイクロフォン110
に置き換わった以外は図42と同一な構成である。
【0047】以上のように構成されたこの実施例の音声
合成装置において、以下その動作を図30、図31、図
32に従って説明する。図31において図2と同一の動
作については同一符号を付しているので説明を省略し、
異なった部分についてのみ説明する。
【0048】声質制御手段50iは合成音声の基本周波
数の設定をする(ステップ9100)。まずマイクロフ
ォン110は声質制御手段50iに環境音信号を出力す
る(ステップ9110)。声質制御手段50iはマイク
ロフォン110より入力された環境音のレベルと30d
B(A)を比較する(ステップ9120)。ステップ9
120で環境音のレベルが30dB(A)以上の場合、
基本周波数をあらかじめ定められた標準値より20%高
く設定し(ステップ9130)、テキスト入力手段10
は言語処理手段20に目的のテキストを入力する(ステ
ップ1200)。ステップ9120で環境音のレベルが
30dB(A)未満の場合、テキスト入力手段10は言
語処理手段20に目的のテキストを入力する(ステップ
1200)。次に言語処理手段20はテキスト入力手段
10より入力されたテキストを構文解析を行い、読み情
報および韻律情報を生成し音声合成制御手段70mに出
力する(ステップ1300)。素片データベース80は
音声合成制御手段70mより入力された読み情報に従っ
て素片接続手段90mに合成単位を出力する(ステップ
9400)。素片接続手段90mは音声合成制御手段7
0mより入力された韻律情報および声質制御手段50i
より入力された制御信号に従って素片データベース80
より入力された合成単位を接続して合成音声を生成し
(ステップ9500)、電気音響変換器60を通して合
成音声を出力する(ステップ1900)。
【0049】(実施例10)以下本発明の第10の実施
例について、図面を参照しながら説明する。
【0050】図33は本発明の音声合成装置の第10の
実施例を示す構成ブロック図である。図34に第10の
実施例の動作を説明するための流れ図を、図35に動作
を説明するための流れ図の一部を示す。図33において
図30と同一物または部分については同一符号を付して
いるので説明を省略し、異なった部分についてのみ説明
する。図30の声質制御手段50iが声質制御手段50
jに置き換わり、マイクロフォン110が聴覚特性測定
手段120に置き換わった以外は図30と同一な構成で
ある。
【0051】以上のように構成されたこの実施例の音声
合成装置において、以下その動作を図33、図34、図
35に従って説明する。図34、図35において図3
1、図32と同一の動作については同一符号を付してい
るので説明を省略し、異なった部分についてのみ説明す
る。
【0052】聴覚特性測定手段120で使用者の聴覚特
性を測定する(ステップ10000)。聴覚特性の測定
方法については例えば実施例1と同様とする。声質制御
手段50jは聴覚特性測定手段120より入力された使
用者の聴覚特性および好みに従って合成音声の基本周波
数の設定をする(ステップ10100)。聴覚特性測定
手段120より聴覚特性の測定結果を声質制御手段50
jに出力する。(ステップ10110)。声質制御手段
50jは使用者の2kHz未満の平均聴力レベルと2k
Hz以上の平均聴力レベルを比較する(ステップ101
20)。ステップ10120において2kHz以上の平
均聴力レベルから2kHz未満の平均聴力レベルを減じ
た値が30dB以上の場合は、合成音声の基本周波数を
あらかじめ定められた標準値より20%高く設定し(ス
テップ9130)、テキスト入力手段10は言語処理手
段20に目的のテキストを入力する(ステップ120
0)。ステップ10120で2kHz以上の平均聴力レ
ベルから2kHz未満の平均聴力レベルを減じた値が3
0dB未満の場合、テキスト入力手段10は言語処理手
段20に目的のテキストを入力する(ステップ120
0)。次に言語処理手段20はテキスト入力手段10よ
り入力されたテキストの構文解析を行い、読み情報およ
び韻律情報を生成し音声合成制御手段70mに出力する
(ステップ1300)。素片データベース80は音声合
成制御手段70mより入力された読み情報に従って素片
接続手段90mに合成単位を出力する(ステップ940
0)。素片接続手段90mは音声合成制御手段70mよ
り入力された韻律情報および声質制御手段50jより入
力された制御信号に従って素片データベース80より入
力された合成単位を合成し合成音声を生成し(ステップ
9500)、電気音響変換器60を通して合成音声を出
力する(ステップ1900)。
【0053】(実施例11)以下本発明の第11の実施
例について、図面を参照しながら説明する。
【0054】図36は本発明の音声合成装置の第11の
実施例を示す構成ブロック図である。図37に第11の
実施例の動作を説明するための流れ図を、図38に動作
を説明するための流れ図の一部を示す。図36において
図33と同一物または部分については同一符号を付して
いるので説明を省略し、異なった部分についてのみ説明
する。図33の声質制御手段50jが声質制御手段50
kに置き換わり、聴覚特性測定手段120が聴覚特性記
憶手段220に置き換わった以外は図33と同一な構成
である。
【0055】以上のように構成されたこの実施例の音声
合成装置において、以下その動作を図36、図37、図
38に従って説明する。図37において図34と同一の
動作については同一符号を付しているので説明を省略
し、異なった部分についてのみ説明する。
【0056】声質制御手段50kは合成音声の基本周波
数の設定をする(ステップ11100)。まず聴覚特性
記憶手段220よりあらかじめ測定された使用者の聴覚
特性を声質制御手段50kに出力する。(ステップ11
110)。声質制御手段50kは使用者の平均聴力レベ
ルと40dBHLを比較する(ステップ11120)。
ステップ11120において使用者の平均聴力レベルが
40dBHL以上の場合は、合成音声の話速をあらかじ
め定められた標準値より10%遅く設定し(ステップ1
1130)、テキスト入力手段10は言語処理手段20
に目的のテキストを入力する(ステップ1200)。ス
テップ11120で使用者の平均聴力レベルが40dB
HL未満の場合、テキスト入力手段10は言語処理手段
20に目的のテキストを入力する(ステップ120
0)。次に言語処理手段20はテキスト入力手段10よ
り入力されたテキストを構文解析を行い、読み情報およ
び韻律情報を生成し音声合成制御手段70mに出力する
(ステップ1300)。素片データベース80は音声合
成制御手段70mより入力された読み情報に従って素片
接続手段90mに合成単位を出力する(ステップ940
0)。素片接続手段90mは音声合成制御手段70mよ
り入力された韻律情報および声質制御手段50kより入
力された制御信号に従って素片データベース80より入
力された合成単位を合成し合成音声を生成し(ステップ
9500)、電気音響変換器60を通して合成音声を出
力する(ステップ1900)。
【0057】(実施例12)以下本発明の第12の実施
例について、図面を参照しながら説明する。
【0058】図39は本発明の音声合成装置の第12の
実施例を示す構成ブロック図である。図40に第12の
実施例の動作を説明するための流れ図を、図41に動作
を説明するための流れ図の一部を示す。図39において
図36と同一物または部分については同一符号を付して
いるので説明を省略し、異なった部分についてのみ説明
する。図36の声質制御手段50kが声質制御手段50
lに置き換わり、聴覚特性記憶手段220が聴覚特性読
み取り手段310に置き換わり、聴覚特性320a〜n
がつけ加わった以外は図36と同一な構成である。
【0059】以上のように構成されたこの実施例の音声
合成装置において、以下その動作を図39、図40、図
41に従って説明する。図40、図41において図3
7、図38と同一の動作については同一符号を付してい
るので説明を省略し、異なった部分についてのみ説明す
る。
【0060】声質制御手段50lは合成音声の基本周波
数の設定をする(ステップ12100)。まず聴覚特性
読み取り手段310はあらかじめセットされた使用者の
聴覚特性320を読み取り、声質制御手段50lに出力
する。(ステップ12110)。声質制御手段50は使
用者の平均聴力レベルと40dBHLを比較する(ステ
ップ11120)。ステップ11120において使用者
の平均聴力レベルが40dBHL以上の場合は、合成音
声の話速をあらかじめ定められた標準値より10%遅く
設定し(ステップ11130)、テキスト入力手段10
は言語処理手段20に目的のテキストを入力する(ステ
ップ1200)。ステップ11120で使用者の平均聴
力レベルが40dBHL未満の場合、テキスト入力手段
10は言語処理手段20に目的のテキストを入力する
(ステップ1200)。次に言語処理手段20はテキス
ト入力手段10より入力されたテキストの構文解析を行
い、読み情報および韻律情報を生成し音声合成制御手段
70mに出力する(ステップ1300)。素片データベ
ース80は音声合成制御手段70mより入力された読み
情報に従って素片接続手段90mに合成単位を出力する
(ステップ9400)。素片接続手段90mは音声合成
制御手段70mより入力された韻律情報および声質制御
手段50mより入力された制御信号に従って素片データ
ベース80より入力された合成単位を接続して合成音声
を生成し(ステップ9500)、電気音響変換器60を
通して合成音声を出力する(ステップ1900)。
【0061】(実施例13)以下本発明の第13の実施
例について、図面を参照しながら説明する。
【0062】図42は本発明の音声合成装置の第13の
実施例を示す構成ブロック図である。図43に第13の
実施例の動作を説明するための流れ図をを示す。図42
において図30と同一物または部分については同一符号
を付しているので説明を省略し、異なった部分について
のみ説明する。図30の言語処理手段20が言語処理部
900に置き換わり、音声合成部30mが音声合成部3
0nに置き換わり、声質制御手段50iが削除され、マ
イクロフォン110が音声合成制御手段70nに接続さ
れた以外は図30と同一な構成である。前記の言語処理
部900は構文解析手段910と音声合成開始位置決定
手段920とを有する。前記の音声合成部30nは音声
合成制御手段70nと、素片データベース80、素片接
続手段90nとを有する。
【0063】以上のように構成されたこの実施例の音声
合成装置において、以下その動作を図42、図43に従
って説明する。図43において図31と同一の動作につ
いては同一符号を付しているので説明を省略し、異なっ
た部分についてのみ説明する。
【0064】まずテキスト入力手段10は構文解析手段
910に目的のテキストを入力する(ステップ1310
0)。次に構文解析手段910はテキスト入力手段10
より入力されたテキストを構文解析を行い、構文情報を
生成し音声合成開始位置決定手段920へ出力し、読み
情報および韻律情報を生成し音声合成制御手段70nに
出力する(ステップ13200)。音声合成開始位置決
定手段920は構文解析手段910より入力された構文
情報に従って音声合成開始位置を決定し、音声合成制御
手段70nに開始位置情報を出力する(ステップ133
00)。音声合成制御手段70nはマイクロフォン11
0より環境音信号を取り込み、環境音の100msの平
均レベルと70dB(A)とを比較する(ステップ13
400)。ステップ13400において環境音の平均レ
ベルが70dB(A)未満の場合、素片データベース8
0は音声合成制御手段70nより入力された読み情報に
従って素片接続手段90nに合成単位を出力する(ステ
ップ9400)。もしステップ13400で環境音の平
均レベルが70dB(A)以上である場合、音声合成制
御手段70nは音声合成停止信号を素片接続手段90n
に出力し、合成音声の生成を停止する(ステップ135
00)。音声合成制御手段70nは環境音の平均レベル
と70dB(A)とを比較し(ステップ13600)、
環境音の平均レベルが70dB(A)以上である場合
は、ステップ13600を繰り返す。ステップ1360
0において環境音の平均レベルが70dB(A)未満で
ある場合にのみ、音声合成開始位置決定手段920より
入力された開始位置情報に従い、停止位置よりテキスト
上の位置が前で最も停止位置に近い音声合成開始位置か
ら音声合成を再開し(ステップ13700)、素片デー
タベース80は音声合成制御手段70nより入力された
読み情報に従って素片接続手段90nに合成単位を出力
する(ステップ9400)。素片接続手段90nは音声
合成制御手段70nより入力された韻律情報に従って素
片データベース80より入力された合成単位を接続して
合成音声を生成し(ステップ9500)、電気音響変換
器60を通して合成音声を出力する(ステップ190
0)。
【0065】(実施例14)以下本発明の第14の実施
例について、図面を参照しながら説明する。
【0066】図44は本発明の音声合成装置の第14の
実施例を示す構成ブロック図である。図45に第14の
実施例の動作を説明するための流れ図をを示す。図44
において図42と同一物または部分については同一符号
を付しているので説明を省略し、異なった部分について
のみ説明する。図42の音声合成部30nが音声合成部
30oに置き換わり、マイクロフォン110が操作手段
40oに置き換わった以外は図42と同一な構成であ
る。前記の音声合成部30oは音声合成制御手段70o
と、素片データベース80、素片接続手段90nとを有
する。
【0067】以上のように構成されたこの実施例の音声
合成装置において、以下その動作を図44、図45に従
って説明する。図45において図43と同一の動作につ
いては同一符号を付しているので説明を省略し、異なっ
た部分についてのみ説明する。
【0068】まずテキスト入力手段10は構文解析手段
910に目的のテキストを入力する(ステップ1310
0)。次に構文解析手段910はテキスト入力手段10
より入力されたテキストの構文解析を行い、構文情報を
生成し音声合成開始位置決定手段920へ出力し、読み
情報および韻律情報を生成し音声合成制御手段70oに
出力する(ステップ13200)。音声合成開始位置決
定手段920は構文解析手段910より入力された構文
情報に従って音声合成開始位置を決定し、音声合成制御
手段70oに開始位置情報を出力する(ステップ133
00)。音声合成制御手段70oは操作手段40oより
操作信号を取り込み、使用者が音声合成停止信号を入力
したか否かを判定する(ステップ14400)。ステッ
プ14400において音声合成停止信号が入力されてい
ない場合、素片データベース80は音声合成制御手段7
0nより入力された読み情報に従って素片接続手段90
nに合成単位を出力する(ステップ9400)。もしス
テップ14400で音声合成停止信号が入力されている
場合、音声合成制御手段70oは音声合成停止信号を素
片接続手段90nに出力し、合成音声の生成を停止する
(ステップ13500)。音声合成制御手段70oは操
作装置より操作信号を取り込み、使用者が音声合成再開
信号を入力したか否かを判定し(ステップ1460
0)、音声合成再開信号が入力されていない場合は、ス
テップ14600を繰り返す。ステップ14600にお
いて音声合成再開信号が入力された場合にのみ、音声合
成開始位置決定手段920より入力された開始位置情報
に従い、停止位置よりテキスト上の位置が前で最も停止
位置に近い音声合成開始位置から音声合成を再開し(ス
テップ13700)、素片データベース80は音声合成
制御手段70oより入力された読み情報に従って素片接
続手段90nに合成単位を出力する(ステップ940
0)。素片接続手段90nは音声合成制御手段70oよ
り入力された韻律情報に従って素片データベース80よ
り入力された合成単位を接続して合成音声を生成し(ス
テップ9500)、電気音響変換器60を通して合成音
声を出力する(ステップ1900)。
【0069】(実施例15)以下本発明の第15の実施
例について、図面を参照しながら説明する。
【0070】図46は本発明の音声合成装置の第15の
実施例を示す構成ブロック図である。図47に第15の
実施例の動作を説明するための流れ図を示す。図46に
おいて図42と同一物または部分については同一符号を
付しているので説明を省略し、異なった部分についての
み説明する。図42の言語処理部900nが言語処理部
900pに置き換わり、言語処理部900pにおいては
構文解析手段910から構文解析結果を受け取り強調す
べき単語を決定する強調語決定手段が追加されている。
一方、図42の音声合成部30nが音声合成部30pに
置き換わり、音声合成部30pにおいては音声合成制御
手段70pと接続される計時手段940と、素片データ
ベースの素片出力を入力とし、音声合成制御手段からの
制御信号に基づいて素片に強調処理を施し、素片接続手
段へ出力する音韻強調処理手段130pが追加されてい
る。さらに、強調語決定手段930から強調語情報を音
声合成制御手段が受け取るという構成になっている。以
上の変更以外は図42と同一な構成である。
【0071】以上のように構成されたこの実施例の音声
合成装置において、以下その動作を図46、図47に従
って説明する。図47において図43と同一の動作につ
いては同一符号を付しているので説明を省略し、異なっ
た部分についてのみ説明する。まずテキスト入力手段1
0は構文解析手段910に目的のテキストを入力する
(ステップ13100)。次に構文解析手段910はテ
キスト入力手段10より入力されたテキストの構文解析
を行い、構文情報を生成し音声合成開始位置決定手段9
20、および、強調語決定手段930へ出力し、読み情
報および韻律情報を生成し音声合成制御手段70pに出
力する(ステップ13200)。音声合成開始位置決定
手段920は構文解析手段910より入力された構文情
報に従って音声合成開始位置を決定し、音声合成制御手
段70pに開始位置情報を出力する(ステップ1330
0a)。同時に、強調語決定手段930は構文解析手段
910より入力された構文情報に従って強調すべき単語
を決定し、音声合成制御手段70pに強調語情報を出力
する(ステップ13300b)。音声合成制御手段70
pはマイクロフォン110より環境音信号を取り込み、
環境音の100msの平均レベルと70dB(A)を比
較する(ステップ13400)。ステップ13400に
おいて環境音の平均レベルが70dB(A)未満の場
合、素片データベース80は音声合成制御手段70pよ
り入力された読み情報に従って音韻強調処理手段130
pに合成単位を出力し、音韻強調処理手段130pでは
強調処理を行わず、そのまま素片接続手段90nに合成
単位を出力する(ステップ9400a)。もしステップ
13400で環境音の平均レベルが70dB(A)以上
である場合、音声合成制御手段70nは音声合成停止信
号を素片接続手段90nに出力し、合成音声の生成を停
止する(ステップ13500)。そして、計時手段94
0に計測開始の信号を送り時間計測を開始する(ステッ
プ14100)。音声合成制御手段70pは環境音の平
均レベルと70dB(A)とを比較し(ステップ136
00)、環境音の平均レベルが70dB(A)以上であ
る場合は、ステップ13600を繰り返す。ステップ1
3600において環境音の平均レベルが70dB(A)
未満である場合には、計時手段940に計測終了の信号
を送り時間計測を終了し、経過時間を取り込む(ステッ
プ14200)。音声合成制御手段70pは、経過時間
が0より1秒未満の場合は音声合成開始位置のランクを
1に設定し、経過時間が1秒以上2秒未満の場合は音声
合成開始位置のランクを2に設定し、経過時間が2秒以
上3秒未満の場合は音声合成開始位置のランクを3に設
定し、経過時間が3秒以上の場合は音声合成開始位置の
ランクを4に設定する(ステップ14300)。音声合
成制御手段は、音声合成を停止した位置より前で停止位
置にもっとも近く、かつ、ステップ14300で決定し
たランクの値以上のランクをもつ音声合成開始位置より
音声合成を再開する。ステップ14300で決定したラ
ンク値以上のランクをもつ音声合成開始位置が見つから
なければ、文頭から音声合成を再開する(ステップ14
400)。さらに、音声合成を再開する開始位置の繰り
返し回数を1つ増やす(ステップ14500)。素片デ
ータベース80は音声合成制御手段70pより入力され
た読み情報に従って音韻強調処理手段130pへ合成単
位を出力する(ステップ14600)。音声合成制御手
段70pは、音声合成を再開する開始位置の繰り返し回
数が2以上かどうかを判断する(ステップ1470
0)。ステップ14700において繰り返し回数が2以
上の場合、開始位置から停止位置の区間で音韻強調処理
手段130pに強調制御信号を出力し、音韻強調処理手
段130pにおいて合成単位ごとの強調処理を行う(ス
テップ14800)。ステップ14700において繰り
返し回数が2未満の場合は、音声合成制御手段70pは
強調制御信号の出力をせず、音韻強調処理手段130p
では素片の強調処理を行わない。素片接続手段90pは
音声合成制御手段70pより入力された韻律情報に従っ
て、素片強調処理手段から入力された合成単位を接続し
て合成音声を生成し(ステップ9500)、電気音響変
換器60を通して合成音声を出力する(ステップ190
0)。
【0072】(実施例16)以下本発明の第16の実施
例について、図面を参照しながら説明する。
【0073】図48に本発明の一実施例の音声合成装置
の言語処理部の構成図を示す。構文解析部101は、入
力文に対して形態素解析、および、構文解析を行い、入
力文を構成する単語列、文節列、文節間の係り受け構造
を含んだ構文解析結果を出力する。音声合成開始位置規
則保持部103は、音声合成開始位置決定部102にお
いて設定すべき音声合成開始位置の前後の文節、およ
び、文節間の係り受け構造の条件を記述した規則を保持
する。図49は、音声合成開始位置規則部103が保持
する音声合成開始位置規則の一例を示す図である。音声
合成開始位置決定部102は、音声合成開始位置を構文
解析結果の文節列の間に設定する。図49において、前
文節パターンとは、音声合成開始位置の直前に位置する
文節の条件を指定するものである。同様に後文節パター
ンとは、音声合成開始位置の直後に位置する文節の条件
を指定するものである。各文節パターンの形式をBNF
表記で表すと、 <文節パターン> := *|(<文節名> <形態素列>) <文節名> := 名詞句|述語句|副詞句|… <形態素列> := *|(<形態素>)|(<形態素><形態素列>) <形態素> := *|+|(<品詞> <表記>) <品詞> := 名詞|助詞|読点|… <表記> := *|は|から|、|… となる。「*」は任意の文節、任意の形態素列、任意の
形態素、あるいは、任意の表記を表す。「+」は任意の
形態素の並びを表す。ランクとは、該当する音声合成開
始位置に割り当てられる値であり、制御部106がこの
値に基づいて音声合成開始位置を選択する。本実施例に
おいては、入力テキストを音声合成する際に音声合成開
始位置において挿入されるポーズの長さが長いほどラン
クの値が大きくなるようにしてある。図49の一番目の
音声合成開始位置規則は、助詞「は」で終わる名詞句と
任意の文節との間にランク3の音声合成開始位置を設定
するという意味である。音声合成開始位置決定部102
は、構文解析部101が出力した構文解析結果に対し
て、音声合成開始位置規則保持部103に保持される音
声合成開始位置規則と構文解析結果に含まれる文節列と
の照合を行い、照合が成功した箇所に音声合成開始位置
およびランクを設定する。図50は、音声合成開始位置
決定部の処理を示す図である。入力テキストは、構文解
析部101によって処理され、図50に示すような文節
列を生成する。この文節列に対して、音声合成開始位置
決定部102は、文節列の先頭から2文節に対して音声
合成開始位置規則を順に照合し、照合に成功した2文節
の間に規則に記述されたランクをもつ音声合成開始位置
を設定する。図50の例では、1番目の2文節間に図4
9の2番目の規則が、2番目の2文節間に図49の3番
目の規則が、3番目の2文節間に図49の4番目の規則
が、おのおの照合し、図50の一番下に示されるような
ランクをもつ音声合成開始位置が設定される。どの音声
合成開始位置規則にも照合しなかった2文節間には音声
合成開始位置は設定されない。
【0074】強調語決定部104は、構文解析部101
が出力した構文解析結果に対して、強調語規則保持部1
05に保持される強調語規則と構文解析結果に含まれる
単語列の照合を行い、強調して発音すべき単語を決定す
る。図51は、強調語保持部105が保持する強調語の
規則の一例を示す図である。図51において、強調語条
件は、強調すべき単語の条件を記述したものである。強
調語の形式をBNF表記であらわすと、 <強調語条件> := (<品詞> <表記>) <品詞> := 名詞|動詞|形容詞|… <表記> := *|ある|ない|… となる。「*」は任意の表記を表す記号である。強調語
条件に当てはまる単語に対して、右側の欄の強調ON/
OFFの記述に従って、強調の情報を割り当てる。図5
2は、強調語決定部の処理を示す図である。図52にお
いて、入力テキストを構文解析部101が処理し、単語
列を生成する。強調語決定部102は、単語列の先頭か
ら順に強調語規則と照合し、照合に成功した場合には強
調ON/OFFの情報を付与する。図52の単語の(形
容詞 ない)については、強調語条件(形容詞 *)と
強調語条件(形容詞 ない)の両方が照合するが、強調
語条件(形容詞 ない)は表記が指定されているより詳
細な条件であり、照合の際には優先される。照合の結
果、図52の一番下のような強調語情報が得られる。ど
の強調語規則にも照合しなかった単語の強調はOFFで
ある。
【0075】(実施例17)以下本発明の第17の実施
例について、図面を参照しながら音声素片作成時におけ
る強調処理の一例を上げて説明する。
【0076】図53に第17の実施例による音声素片作
成の動作を示す流れ図を、図54に振幅圧縮処理の入出
力特性の模式図を示す。
【0077】まず、対象となる音声波形から最初の波形
を切り出す(ステップ15000)。次にステップ15
000で切り出された切り出し波形データに、あらかじ
め設定しておいた利得値Gを掛け(ステップ1501
0)、その結果の絶対値の最大値を求め、Amaxに記憶す
る(ステップ15020)。Amaxがあらかじめ設定して
おいたAlimの値よりも大きい場合(ステップ1503
0)、切り出し波形を(Alim/Amax)倍する(ステップ1
5040)。また、AmaxがAlimより小さいか等しい場合
は何もしない。今回切り出した波形が最後の波形であれ
ば(ステップ15050)終了する。そうでなければ次
の波形を切り出し(ステップ15060)、ステップ1
5010から繰り返す。
【0078】このようにすることにより、音声波形にリ
ミッタを用いた場合に起こる時定数の問題などがなく、
理想的な振幅圧縮が可能である。図53に示した振幅圧
縮処理をリミッタの入出力特性に例えると図54(a)
のように表すことができる。この曲線は例えば図54
(b)や(c)などのように任意に選ぶことができるの
で様々な振幅圧縮処理が可能となる。また、対象となる
音声素片の種別(無声子音、有声子音の別など)によっ
て曲線を選ぶなど、音韻別の振幅圧縮も可能である。さ
らに、あらかじめ子音部の開始点、終了点などにラベル
を付与しておくことにより、子音部と母音部を別の曲線
で圧縮することもできる。
【0079】上記のように様々な振幅圧縮法が選べるこ
とから、特定の子音の特定の部分を強調するなどの音韻
強調法として有効である。すなわち音声素片作成時のこ
のような処理は、音声強調法として非常に自由度が高く
きめ細かい処理が可能である。また、このような処理は
完全に前処理として実行されるため、音声合成時の処理
速度に何ら影響を与えないという利点もある。
【0080】従って、いかなる複雑な音声強調処理を施
すことも可能となる。そこで、フォルマント強調などの
周波数領域の強調や、切り出しの対象となる音声波形を
複数の帯域に分割して振幅圧縮などを施すことや、切り
出し時に同等の処理を加えることにより、難聴者や騒音
下での使用に適した合成音声を提供することが可能とな
る。特に、波形の切り出し時に補聴器の信号処理に相当
する処理を加えることは、これまで時定数や未知の入力
に対する処理の限界などによって不可能であったきめ細
かい強調処理が可能となる。
【0081】なお、実施例17では音声素片に対する処
理として主に子音の強調を目的とする振幅の変形処理や
周波数特性の変形処理について説明したが、例えば公知
の時間長変形技術を用いて子音部分の長さを調整するこ
とで明瞭度向上を図るなど、様々な波形変形処理を行っ
てもよい。
【0082】なお、実施例15においてマイクロフォン
110は環境音信号を取り込んだが、使用者の発声を取
り込むものとしても良い。
【0083】なお、実施例15において素片の強調処理
を行ったが、強調処理を施した素片データベースと強調
処理を施さない素片データベースとを切り替える、ある
いは素片接続後の合成音声に強調処理を行うものとして
も良い。
【0084】なお、実施例1、実施例8において強調処
理は母音部の延長、クロージャーの延長、フォルマント
強調、子音強調、および帯域強調としたが、これ以外の
強調方法を用いても良い。
【0085】なお、実施例1、実施例8においてpが1
5より小さい場合にフォルマント強調情報を真とすると
したが、これ以外の値としても良い。
【0086】なお、実施例1、実施例8においてギャッ
プ検出域が10ms以上の場合に子音強調情報を真とす
るとしたが、これ以外の値としても良い。
【0087】なお、実施例1、実施例8において2kH
z以上の平均聴力レベルと2kHz未満の平均聴力レベ
ルの差が30dB以上の場合に帯域強調情報を真とする
としたが、2kHz以外の周波数を帯域の境界としても
良い。また帯域間の平均聴力レベルの差の基準は30d
B以外の値でも良い。
【0088】なお、実施例1、実施例2、実施例4、実
施例8において強調部情報が真の場合に母音定常部を2
0%延長するとしたが、これ以外の値でも良い。また、
子音部分の時間長を延長するとしても良い。
【0089】なお、実施例1、実施例2において強調部
情報が真の場合にクロージャーを20%延長するとした
が、これ以外の値でも良い。
【0090】なお、実施例1、実施例4、実施例7にお
いて環境音を1kHz以下、1kHzから2kHz、2
kHz〜4kHz4kHz以上の帯域に分割したが、こ
れ以外の分割の方法でも良い。
【0091】なお、実施例1において1kHz以下、1
kHzから2kHz、2kHz〜4kHz4kHz以上
の各帯域において、それぞれ20dBSPL/Hz、2
0dBSPL/Hz、15dBSPL/Hz、10dB
SPL/Hz以上の環境があるときは圧縮パラメータを
設定し、圧縮処理を行うとしたが、これ以外の値でも良
い。
【0092】なお、実施例4において1kHz以下の環
境音平均レベルが20dBSPL/Hz以上かつ、1k
Hzから2kHzの環境音平均レベルが20dBSPL
/Hzかつ、他の帯域の環境音平均レベルが15dBS
PL/Hz以下である場合にフォルマント強調情報を真
とするとしたが、これ以外の値でも良い。
【0093】なお、実施例4において1kHzから2k
Hzの環境音平均レベルが20dBSPL/Hz以上か
つ、2kHzから4kHzの環境音平均レベルが15d
BSPL/Hzかつ、1kHz以下の環境音平均レベル
が20dBSPL/Hz以下あるいは4kHZ以上の環
境音平均レベルが15DBSPL/Hz胃阿kの場合に
子音強調情報を真としたが、これ以外の値としても良
い。
【0094】なお、実施例4において1kHz以下、1
kHzから2kHz、2kHz〜4kHz4kHz以上
の各帯域において、それぞれ20dBSPL/Hz、2
0dBSPL/Hz、15dBSPL/Hz、10dB
SPL/Hz以上の環境があるときは各帯域の帯域強調
情報を真とするとしたが、これ以外の値としても良い。
【0095】なお、実施例7においてステップ7500
のように圧縮パラメータを設定したがこれ以外の基準お
よび方法を用いても良い。
【0096】なお、実施例9において環境音の平均レベ
ルが30dB(A)以上の場合に基本周波数を20%高
くするとしたが、これ以外の基準値でもよい。また基本
周波数の変更はこれ以外の値としても良い。
【0097】なお、実施例10において2kHz以上の
平均聴力レベルと2kHz未満の平均聴力レベルの差が
30dB以上の場合に基本周波数を20%低くするとし
たが2kHz以外の周波数を帯域の境界としても良い。
また、差の値の基準はこれ以外の値としても良い。ま
た、基本周波数の変更はこれ以外の値としても良い。
【0098】なお、実施例11、実施例12において平
均聴力レベルが40dBHL以上の場合に和即を10%
遅くするとしたが、平均聴力レベル以外の聴覚特性を判
断に用いても良い。また、平均聴力レベルの基準はこれ
以外の値としても良い。また、平均聴力レベルの基準を
40dBHLとしたがこれ以外の値でも良い。また、話
速を10%遅くするとしたがこれ以外の値としても良
い。
【0099】なお、実施例13、実施例15において環
境音の平均レベルが70dB(A)を越えた場合に音声
合成を停止するとしたが、これ以外の値としても良い。
【0100】なお、実施例2、実施例5、実施例8にお
いて素片データベースあるいはフォルマント強調フィル
タの切替にスイッチを用いたが、ソフトウェア的に切り
替えても良い。
【0101】
【発明の効果】以上説明したように、本発明によれば、
使用者の聴覚特性に合わせて合成した音声に強調処理あ
るいは振幅のダイナミックレンジを圧縮する処理を施
す、あるいは使用場面の騒音環境に合わせて合成した音
声に強調処理あるいは振幅のダイナミックレンジを圧縮
する処理を施す。また、データベースに記憶された合成
単位に使用者の聴覚特性に合わせて強調処理あるいは振
幅のダイナミックレンジを圧縮する処理を施した後に音
声を合成する、あるいは使用場面の騒音環境に合わせて
データベースに記憶された合成単位に強調処理あるいは
振幅のダイナミックレンジを圧縮する処理を施した後に
音声を合成する。また、あらかじめ強調処理あるいは振
幅のダイナミックレンジを圧縮する処理を施した合成単
位を用いて音声を合成する。また、音声の合成を中断し
た際に言語処理結果に基づき停止位置以前で内容理解の
しやすいテキスト上の点まで戻って音声の合成を再開す
る。また、言語処理に基づき強調処理を行う部分を設定
することにより、聴覚障害のある使用者や、騒音下での
使用でも情報を確実に伝達することができ、その実用的
効果は大きい。
【図面の簡単な説明】
【図1】本発明における音声合成装置の第1の実施例の
構成ブロック図
【図2】同実施例の動作を説明するための流れ図
【図3】同実施例の動作を説明するための流れ図
【図4】同実施例の動作を説明するための流れ図
【図5】同実施例の動作を説明するための流れ図
【図6】同実施例の動作を説明するための流れ図
【図7】同実施例のフォルマント強調方法の模式図
【図8】同実施例の子音強調方法の模式図
【図9】本発明における音声合成装置の第2の実施例の
構成ブロック図
【図10】同実施例の動作を説明するための流れ図
【図11】同実施例の動作を説明するための流れ図
【図12】本発明における音声合成装置の第3の実施例
の構成ブロック図
【図13】同実施例の動作を説明するための流れ図
【図14】本発明における音声合成装置の第4の実施例
の構成ブロック図
【図15】同実施例の動作を説明するための流れ図
【図16】同実施例の動作を説明するための流れ図
【図17】同実施例の動作を説明するための流れ図
【図18】同実施例の動作を説明するための流れ図
【図19】本発明における音声合成装置の第5の実施例
の構成ブロック図
【図20】同実施例の動作を説明するための流れ図
【図21】本発明における音声合成装置の第6の実施例
の構成ブロック図
【図22】同実施例の動作を説明するための流れ図
【図23】本発明における音声合成装置の第7の実施例
の構成ブロック図
【図24】同実施例の動作を説明するための流れ図
【図25】同実施例の動作を説明するための流れ図
【図26】本発明における音声合成装置の第8の実施例
の構成ブロック図
【図27】同実施例の動作を説明するための流れ図
【図28】同実施例の動作を説明するための流れ図
【図29】同実施例のフォルマント強調方法の模式図
【図30】本発明における音声合成装置の第9の実施例
の構成ブロック図
【図31】同実施例の動作を説明するための流れ図
【図32】同実施例の動作を説明するための流れ図
【図33】本発明における音声合成装置の第10の実施
例の構成ブロック図
【図34】同実施例の動作を説明するための流れ図
【図35】同実施例の動作を説明するための流れ図
【図36】本発明における音声合成装置の第11の実施
例の構成ブロック図
【図37】同実施例の動作を説明するための流れ図
【図38】同実施例の動作を説明するための流れ図
【図39】本発明における音声合成装置の12の実施例
の構成ブロック図
【図40】同実施例の動作を説明するための流れ図
【図41】同実施例の動作を説明するための流れ図
【図42】本発明における音声合成装置の13の実施例
の構成ブロック図
【図43】同実施例の動作を説明するための流れ図
【図44】本発明における音声合成装置の14の実施例
の構成ブロック図
【図45】同実施例の動作を説明するための流れ図
【図46】本発明における音声合成装置の15の実施例
の構成ブロック図
【図47】同実施例の動作を説明するための流れ図
【図48】本発明における音声合成装置の16の実施例
の構成ブロック図
【図49】同実施例のランク決定方法の模式図
【図50】同実施例の動作を説明するための模式図
【図51】同実施例の強調部分選択方法の模式図
【図52】同実施例の動作を説明するための模式図
【図53】本発明における音声素片作成方法の実施例1
7の動作を説明するための流れ図
【図54】同実施例の振幅圧縮処理方法の模式図
【図55】従来の音声合成装置の構成ブロック図
【図56】従来の音声素片作成方法の波形の切り出し方
法の模式図
【図57】従来の音声合成装置の素片の接続方法の模式
【符号の説明】
10 テキスト入力手段 20 言語処理手段 30a,30b,30c,30d,30e,30f,3
0g,30h,30m,30n,30o,30p 音声
合成部 40b,40e,40m,40o 操作手段 50a,50b,50c,50d,50e,50g,5
0h,50i,50j,50k,50l,50m 声質
制御手段 60 電気音響変換器 70a,70b,70c,70d,70e,70f,7
0g,70h,70m,70n,70o,70p 音声
合成制御手段 80,280a,280b,280c,280d,28
0n,380a,380b,380c,380d,38
0n,580a,580b,580c,580d,58
0n,680a,680b,680c,680d,68
0n 素片データベース 90a,90b,90d,90e,90f,90g,9
0h,90m,90n素片接続手段 110 マイクロフォン 120 聴覚特性測定手段 130a,130d,130h,130p 音韻強調処
理手段 140a,140b,140g 圧縮処理手段 200b,200e データベース部 210b,210e スイッチ 220 聴覚特性記憶手段 300 素片データベース読み取り手段 310 聴覚特性読み取り手段 320a,320b,320c,320d,320n
聴覚特性 800 強調フィルタ部 810a,810b,810c,810d,810n
フォルマント強調フィルタ 820 スイッチ 900,900p 言語処理部 910 構文解析手段 920 音声合成開始位置決定手段 930 強調決定手段 940 時計手段 101 構文解析部 102 音声合成開始位置決定部 103 音声合成開始位置規則保持部 104 強調語決定部 105 強調語規則保持部 106 制御部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 松井 謙二 大阪府門真市大字門真1006番地 松下電器 産業株式会社内

Claims (71)

    【特許請求の範囲】
  1. 【請求項1】 テキストに従って音声を合成する音声合
    成部と、その音声合成部で合成された音声を単一あるい
    は複数の帯域に分割しその帯域ごとに振幅を増幅あるい
    は減衰することにより合成音声の振幅のダイナミックレ
    ンジを圧縮する圧縮処理を行う圧縮処理部とを備えた音
    声合成装置。
  2. 【請求項2】 マイクロフォンと、そのマイクロフォン
    より入力された環境音を分析しその環境音の物理特性に
    基づいて圧縮処理部を制御する制御部とを備えた請求項
    1記載の音声合成装置。
  3. 【請求項3】 使用者が圧縮の程度を調節するための操
    作手段と、その操作手段より入力された信号に基づいて
    圧縮処理部を制御する制御部とを備えた請求項1記載の
    音声合成装置。
  4. 【請求項4】 使用者の聴覚特性や好みを測定する測定
    部と、前記使用者の聴覚特性や好みに基づいて圧縮処理
    部を制御する制御部とを備えた請求項1記載の音声合成
    装置。
  5. 【請求項5】 使用者の聴覚特性や好みを記憶する記憶
    手段と、前記使用者の聴覚特性や好みに基づいて圧縮処
    理部を制御する制御部とを備えた請求項1記載の音声合
    成装置。
  6. 【請求項6】 聴覚特性読み取り手段と、制御部とを備
    え、前記聴覚特性読み取り手段によって記録媒体に格納
    された使用者の聴覚特性や好みを参照して前記制御部で
    圧縮処理部を制御する請求項1記載の音声合成装置。
  7. 【請求項7】 テキストに従って音声を合成する音声合
    成部と、その音声合成部で合成された音声に単一あるい
    は複数の音韻強調処理を行う強調処理部とを備えた音声
    合成装置。
  8. 【請求項8】 強調処理はフォルマント強調処理である
    請求項7記載の音声合成装置。
  9. 【請求項9】 フォルマント強調処理は音声のスペクト
    ルのピークの強調処理である請求項8記載の音声合成装
    置。
  10. 【請求項10】 フォルマント強調処理は音声合成部よ
    り強調処理部に入力された音韻情報に基づく音韻ごとに
    あらかじめ定められたフォルマント周波数を含む帯域の
    強調処理である請求項8記載の音声合成装置。
  11. 【請求項11】 フォルマント強調処理は音声合成部よ
    り強調処理部に入力されたフォルマント情報に基づくフ
    ォルマント周波数を含む帯域の強調処理である請求項8
    記載の音声合成装置。
  12. 【請求項12】 強調処理は音韻情報に基づき子音ある
    いは子音とそれに続く母音への渡りの振幅強調処理を行
    う子音強調処理である請求項7記載の音声合成装置。
  13. 【請求項13】 強調処理は音韻情報に基づき子音の周
    波数帯域の強調処理を行う帯域強調処理である請求項7
    記載の音声合成装置。
  14. 【請求項14】 マイクロフォンと、そのマイクロフォ
    ンより入力された環境音を分析しその環境音の物理特性
    に基づいて強調処理部を制御する制御部とを備えた請求
    項7記載の音声合成装置。
  15. 【請求項15】 制御部はマイクロフォンより入力され
    た環境音を分析しその環境音の物理特性に基づいて強調
    処理部で用いる強調処理方法を選択する請求項14記載
    の音声合成装置。
  16. 【請求項16】 使用者が強調の処理方法および程度を
    調節するための操作手段と、その操作手段より入力され
    た信号に基づいて強調処理部を制御する制御部とを備え
    た請求項7記載の音声合成装置。
  17. 【請求項17】 使用者の聴覚特性や好みを測定する測
    定部と、前記使用者の聴覚特性や好みに基づいて強調処
    理部を制御する制御部とを備えた請求項7記載の音声合
    成装置。
  18. 【請求項18】 制御部は測定部より入力された使用者
    の聴覚特性や好みに基づき強調処理部で用いる強調処理
    方法を選択する請求項17記載の音声合成装置。
  19. 【請求項19】 使用者の聴覚特性や好みを記憶する記
    憶手段と、前記使用者の聴覚特性や好みに基づいて強調
    処理部を制御する制御部とを備えた請求項7記載の音声
    合成装置。
  20. 【請求項20】 制御部は記憶手段に記憶された使用者
    の聴覚特性や好みに基づき強調処理部で用いる強調処理
    方法を選択する請求項19記載の音声合成装置。
  21. 【請求項21】 聴覚特性読み取り手段と、制御部とを
    備え、前記聴覚特性読み取り手段によって記録媒体に格
    納された使用者の聴覚特性や好みを参照して前記制御部
    で強調処理部を制御する請求項7記載の音声合成装置。
  22. 【請求項22】 制御部は聴覚特性読み取り手段によっ
    て読み出された使用者の聴覚特性や好みに基づき強調処
    理部で用いる強調処理方法を選択する請求項21記載の
    音声合成装置。
  23. 【請求項23】 音声を母音/子音/母音の連鎖などの
    所望の合成単位で記憶しておく音声素片データベース
    と、前記合成単位を単一あるいは複数の帯域に分割しそ
    の帯域ごとに振幅を増幅あるいは減衰することにより合
    成単位の振幅のダイナミックレンジを圧縮する圧縮処理
    を施す素片圧縮処理部と、その素片圧縮処理部により圧
    縮処理を施された合成単位を目的のテキストによって接
    続して音声を合成する音声合成部とを備えた音声合成装
    置。
  24. 【請求項24】 マイクロフォンと、そのマイクロフォ
    ンより入力された環境音を分析しその環境音の物理特性
    に基づいて素片圧縮処理部を制御する制御部とを備えた
    請求項23記載の音声合成装置。
  25. 【請求項25】 使用者が圧縮の程度を調節するための
    操作手段と、その操作手段より入力された信号に基づい
    て素片圧縮処理部を制御する制御部とを備えた請求項2
    3記載の音声合成装置。
  26. 【請求項26】 使用者の聴覚特性や好みを測定する測
    定部と、前記使用者の聴覚特性や好みに基づいて素片圧
    縮処理部を制御する制御部とを備えた請求項23記載の
    音声合成装置。
  27. 【請求項27】 使用者の聴覚特性や好みを記憶する記
    憶手段と、前記使用者の聴覚特性や好みに基づいて素片
    圧縮処理部を制御する制御部とを備えた請求項23記載
    の音声合成装置。
  28. 【請求項28】 聴覚特性読み取り手段と、制御部とを
    備え、前記聴覚特性読み取り手段によって記録媒体に格
    納された使用者の聴覚特性や好みを参照して前記制御部
    で素片圧縮処理部を制御する請求項23記載の音声合成
    装置。
  29. 【請求項29】 音声を母音/子音/母音の連鎖などの
    所望の合成単位で記憶しておく音声素片データベース
    と、前記合成単位に強調処理を施す素片変形部と、その
    素片変形部により強調処理を施された合成単位を目的の
    テキストによって接続して音声を合成する音声合成部と
    を備えた音声合成装置。
  30. 【請求項30】 強調処理はフォルマント強調処理であ
    る請求項29記載の音声合成装置。
  31. 【請求項31】 フォルマント強調処理は音声のスペク
    トルのピークの強調処理である請求項30記載の音声合
    成装置。
  32. 【請求項32】 フォルマント強調処理は音韻情報に基
    づく音韻ごとにあらかじめ定められたフォルマント周波
    数を含む帯域の強調処理である請求項30記載の音声合
    成装置。
  33. 【請求項33】 フォルマント強調処理はフォルマント
    情報に基づくフォルマント周波数を含む帯域の強調処理
    である請求項30記載の音声合成装置。
  34. 【請求項34】 強調処理は音韻情報に基づき子音ある
    いは子音とそれに続く母音への渡りの振幅強調処理を行
    う子音強調処理である請求項29記載の音声合成装置。
  35. 【請求項35】 強調処理は音韻情報に基づき子音の周
    波数帯域の強調処理を行う帯域強調処理である請求項2
    9記載の音声合成装置。
  36. 【請求項36】 強調処理は言語情報に基づき子音のク
    ロージャーを延長するクロージャー強調処理である請求
    項29記載の音声合成装置。
  37. 【請求項37】 強調処理は言語情報に基づき音韻長を
    延長する延長処理である請求項29記載の音声合成装
    置。
  38. 【請求項38】 マイクロフォンと、そのマイクロフォ
    ンより入力された環境音を分析しその環境音の物理特性
    に基づいて素片変形部を制御する制御部とを備えた請求
    項29記載の音声合成装置。
  39. 【請求項39】 制御部はマイクロフォンより入力され
    た環境音を分析しその環境音の物理特性に基づいて素片
    変形部で用いる強調処理方法を選択する請求項38記載
    の音声合成装置。
  40. 【請求項40】 使用者が強調の処理方法および程度を
    調節するための操作手段と、その操作手段より入力され
    た信号に基づいて素片変形部を制御する制御部とを備え
    た請求項29記載の音声合成装置。
  41. 【請求項41】 使用者の聴覚特性や好みを測定する測
    定部と、前記使用者の聴覚特性や好みに基づいて素片変
    形部を制御する制御部とを備えた請求項29記載の音声
    合成装置。
  42. 【請求項42】 制御部は測定部より入力された使用者
    の聴覚特性や好みに基づき素片変形部で用いる強調処理
    方法を選択する請求項41記載の音声合成装置。
  43. 【請求項43】 使用者の聴覚特性や好みを記憶する記
    憶手段と、前記使用者の聴覚特性や好みに基づいて素片
    変形部を制御する制御部とを備えた請求項29記載の音
    声合成装置。
  44. 【請求項44】 制御部は記憶手段に記憶された使用者
    の聴覚特性や好みに基づき素片変形部で用いる強調処理
    方法を選択する請求項43記載の音声合成装置。
  45. 【請求項45】 聴覚特性読み取り手段と、制御部とを
    備え、前記聴覚特性読み取り手段によって記録媒体に格
    納された使用者の聴覚特性や好みを参照して前記制御部
    で素片変形部を制御する請求項29記載の音声合成装
    置。
  46. 【請求項46】 制御部は聴覚特性読み取り手段によっ
    て読み出された使用者の聴覚特性や好みに基づき素片変
    形部で用いる強調処理方法を選択する請求項45記載の
    音声合成装置。
  47. 【請求項47】 あらかじめ単一あるいは複数の帯域に
    分割しその帯域ごとに振幅を増幅あるいは減衰すること
    により合成単位の振幅のダイナミックレンジを圧縮する
    圧縮処理を施した音声を母音/子音/母音の連鎖などの
    所望の合成単位で記憶しておく音声素片データベース
    と、前記合成単位を目的のテキストによって接続して音
    声を合成する音声合成部とを備えた音声合成装置。
  48. 【請求項48】 圧縮の程度の異なる複数の音声素片デ
    ータベースと、マイクロフォンと、そのマイクロフォン
    より入力された環境音を分析しその環境音の物理特性に
    基づいて音声合成部が音声合成に使用する前記音声素片
    データベースを選択する制御部とを備えた請求項47記
    載の音声合成装置。
  49. 【請求項49】 圧縮の程度の異なる複数の音声素片デ
    ータベースと、使用者が圧縮の状態を調節するための操
    作手段と、その操作手段より入力された信号に基づいて
    音声合成部が音声合成に使用する前記音声素片データベ
    ースを選択する制御部とを備えた請求項47記載の音声
    合成装置。
  50. 【請求項50】 圧縮の程度の異なる複数の音声素片デ
    ータベースと、使用者の聴覚特性や好みを測定する測定
    部と、前記使用者の聴覚特性や好みに基づいて音声合成
    部が音声合成に使用する前記音声素片データベースを選
    択する制御部とを備えた請求項47記載の音声合成装
    置。
  51. 【請求項51】 圧縮の程度の異なる複数の音声素片デ
    ータベースと、使用者の聴覚特性や好みを記憶する記憶
    手段と、前記使用者の聴覚特性や好みに基づいて音声合
    成部が音声合成に使用する前記音声素片データベースを
    選択する制御部とを備えた請求項47記載の音声合成装
    置。
  52. 【請求項52】 圧縮の程度の異なる複数の音声素片デ
    ータベースを格納した記憶媒体と、音声素片データベー
    ス読み取り手段とを備えた、請求項47記載の音声合成
    装置。
  53. 【請求項53】 あらかじめ音韻強調処理を施した音声
    を母音/子音/母音の連鎖などの所望の合成単位で記憶
    しておく音声素片データベースと、前記合成単位を目的
    のテキストによって接続して音声を合成する音声合成部
    とを備えた音声合成装置。
  54. 【請求項54】 強調の方法および程度の異なる複数の
    音声素片データベースと、マイクロフォンと、そのマイ
    クロフォンより入力された環境音を分析しその環境音の
    物理特性に基づいて音声合成部が音声合成に使用する前
    記音声素片データベースを選択する制御部とを備えた請
    求項53記載の音声合成装置。
  55. 【請求項55】 強調の方法および程度の異なる複数の
    音声素片データベースと、使用者が強調の状態を調節す
    るための操作手段と、その操作手段より入力された信号
    に基づいて音声合成部が音声合成に使用する前記音声素
    片データベースを選択する制御部とを備えた請求項53
    記載の音声合成装置。
  56. 【請求項56】 強調の方法および程度の異なる複数の
    音声素片データベースと、使用者の聴覚特性や好みを測
    定する測定部と、前記使用者の聴覚特性や好みに基づい
    て音声合成部が音声合成に使用する前記音声素片データ
    ベースを選択する制御部とを備えた請求項53記載の音
    声合成装置。
  57. 【請求項57】 強調の方法および程度の異なる複数の
    音声素片データベースと、使用者の聴覚特性や好みを記
    憶する記憶手段と、前記使用者の聴覚特性や好みに基づ
    いて音声合成部が音声合成に使用する前記音声素片デー
    タベースを選択する制御部とを備えた請求項53記載の
    音声合成装置。
  58. 【請求項58】 強調の方法および程度の異なる複数の
    音声素片データベースを格納した記憶媒体と、音声素片
    データベース読み取り手段とを備えた請求項53記載の
    音声合成装置。
  59. 【請求項59】 テキストを構文解析する構文解析部
    と、前記構文解析部の解析結果に基づいてテキストの文
    中に複数の音声合成開始位置を定める音声合成開始位置
    決定部と、前記構文解析部の構文解析結果に基づいて前
    記テキストに従って音声を合成する音声合成部と、マイ
    クロフォンと、そのマイクロフォンより入力された環境
    音を分析しその環境音の物理特性に基づいて音声合成の
    中断および再開を決定し、前記音声合成開始位置決定部
    が設定した音声合成開始位置に従って音声合成の開始を
    制御する制御部とを備えた音声合成装置。
  60. 【請求項60】 音声合成開始位置決定部は、文中の読
    点の直後など、長いポーズが入る箇所を音声合成開始位
    置として定めることを特徴とする請求項59記載の音声
    合成装置。
  61. 【請求項61】 制御部はマイクロフォンより入力され
    た環境音があらかじめ定められた周波数帯域においてあ
    らかじめ定められた音圧レベルを超えた場合に音声合成
    を中断する信号を音声合成部に出力し、音声合成の中断
    後マイクロフォンより入力された環境音があらかじめ定
    められた周波数帯域においてあらかじめ定められた音圧
    レベルを下回る場合に音声合成を再開する信号を音声合
    成部に出力する請求項59記載の音声合成装置。
  62. 【請求項62】 音声合成開始位置決定部は、音声合成
    開始位置に対してランク付けを行い、制御部は前記音声
    合成開始位置のランクによって開始位置を選択すること
    を特徴とする請求項61記載の音声合成装置。
  63. 【請求項63】 制御部は音声合成の中断後マイクロフ
    ォンより入力された環境音があらかじめ定められた周波
    数帯域においてあらかじめ定められた音圧レベルを下回
    る場合に音声合成を再開する信号を音声合成部に出力
    し、前記音声合成部は前記制御部より入力された音声合
    成再開信号により音声合成開始位置決定部が設定した音
    声合成開始位置より音声を合成し強調処理を行うあるい
    は強調処理を行った合成単位を用いて音声合成を再開す
    る請求項61記載の音声合成装置。
  64. 【請求項64】 テキストを構文解析する構文解析部
    と、前記構文解析部の解析結果に基づいてテキストの文
    中の強調して合成すべき単語を決定する強調語決定部
    と、前記構文解析部の解析結果に基づいてテキストに従
    って音声を合成する音声合成部と、前記強調語決定部に
    より定められた特定の単語を強調するよう前記音声合成
    部を制御する制御部とを備えた音声合成装置。
  65. 【請求項65】 強調語決定部は、文の主語、目的語、
    述語となる単語、あるいは、発音が聞き取りにくい単語
    を強調語として定めることを特徴とする請求項64記載
    の音声合成装置。
  66. 【請求項66】 テキストを構文解析する構文解析部
    と、前記構文解析部の解析結果に基づいてテキストの文
    中の強調して合成すべき単語を決定する強調語決定部
    と、前記構文解析部の解析結果に基づいてテキストに従
    って音声を合成する音声合成部と、マイクロフォンと、
    そのマイクロフォンより入力された環境音を分析しその
    環境音の物理特性に基づいて音声合成の中断および再開
    を決定し、音声合成の再開後は前記強調語決定部により
    定められた特定の単語を強調するよう前記音声合成部を
    制御する制御部とを備えた音声合成装置。
  67. 【請求項67】 制御部はマイクロフォンより入力され
    た環境音があらかじめ定められた周波数帯域においてあ
    らかじめ定められた音圧レベルを超えた場合に音声合成
    を中断する信号を音声合成部に出力し、音声合成の中断
    後マイクロフォンより入力された環境音があらかじめ定
    められた周波数帯域においてあらかじめ定められた音圧
    レベルを下回る場合に音声合成を再開する信号を音声合
    成部に出力する請求項66記載の音声合成装置。
  68. 【請求項68】 制御部は音声合成の中断後マイクロフ
    ォンより入力された環境音があらかじめ定められた周波
    数帯域においてあらかじめ定められた音圧レベルを下回
    る場合に音声合成を再開する信号を音声合成部に出力
    し、前記音声合成部は前記制御部より入力された音声合
    成再開信号により音声合成開始位置決定部が設定した音
    声合成開始位置より音声を合成し強調語決定部により定
    められた特定の単語に強調処理を行うあるいは前記特定
    の単語を合成する際に強調処理を行った合成単位を用い
    て音声合成を行う請求項67記載の音声合成装置。
  69. 【請求項69】 テキストに従って音声を合成する音声
    合成部と、マイクロフォンと、そのマイクロフォンより
    入力された環境音を分析しその環境音の物理特性に基づ
    いて声質パラメータを設定する制御部とを備えた音声合
    成装置。
  70. 【請求項70】 テキストに従って音声を合成する音声
    合成部と、使用者の聴覚特性や好みを測定する測定部
    と、前記使用者の聴覚特性や好みに基づいて声質パラメ
    ータを設定する制御部とを備えた音声合成装置。
  71. 【請求項71】 テキストに従って音声を合成する音声
    合成部と、使用者の聴覚特性や好みを記憶する記憶手段
    と、前記使用者の聴覚特性や好みに基づいて声質パラメ
    ータを設定する制御部とを備えた音声合成装置。
JP8237465A 1996-09-09 1996-09-09 音声合成装置および音声素片作成方法 Pending JPH1083193A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8237465A JPH1083193A (ja) 1996-09-09 1996-09-09 音声合成装置および音声素片作成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8237465A JPH1083193A (ja) 1996-09-09 1996-09-09 音声合成装置および音声素片作成方法

Related Child Applications (3)

Application Number Title Priority Date Filing Date
JP2003282642A Division JP3750676B2 (ja) 2003-07-30 2003-07-30 音声合成装置および音声合成方法
JP2003282641A Division JP2004004952A (ja) 2003-07-30 2003-07-30 音声合成装置および音声合成方法
JP2003282643A Division JP2004004954A (ja) 2003-07-30 2003-07-30 音声合成装置および音声合成方法

Publications (1)

Publication Number Publication Date
JPH1083193A true JPH1083193A (ja) 1998-03-31

Family

ID=17015744

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8237465A Pending JPH1083193A (ja) 1996-09-09 1996-09-09 音声合成装置および音声素片作成方法

Country Status (1)

Country Link
JP (1) JPH1083193A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1115495A (ja) * 1997-06-23 1999-01-22 Ricoh Co Ltd 音声合成装置
JP2006208820A (ja) * 2005-01-28 2006-08-10 Advanced Telecommunication Research Institute International 音声処理装置
JP2006208600A (ja) * 2005-01-26 2006-08-10 Brother Ind Ltd 音声合成装置及び音声合成方法
JP2007243709A (ja) * 2006-03-09 2007-09-20 Fujitsu Ltd 利得調整方法及び利得調整装置
KR20130066563A (ko) * 2010-03-26 2013-06-20 가부시키가이샤 필드시스템 발신장치
JP2018036320A (ja) * 2016-08-29 2018-03-08 株式会社テクノリンク 音処理方法、音処理装置、及びプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS55117200A (en) * 1979-02-26 1980-09-09 Philips Nv Sound reproducer
JPH0220200A (ja) * 1988-05-10 1990-01-23 Minnesota Mining & Mfg Co <3M> 人工聴覚用信号処理パラメータ決定方法及び装置並びにこの方法の適用を含む補聴器
JPH04113800A (ja) * 1990-09-04 1992-04-15 Rion Co Ltd 補聴器
JPH05244696A (ja) * 1992-02-28 1993-09-21 Hitachi Ltd ディジタル補聴器
JPH07152787A (ja) * 1994-01-13 1995-06-16 Sony Corp 情報アクセスシステムおよび記録媒体
JPH07261797A (ja) * 1994-03-18 1995-10-13 Mitsubishi Electric Corp 信号符号化装置及び信号復号化装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS55117200A (en) * 1979-02-26 1980-09-09 Philips Nv Sound reproducer
JPH0220200A (ja) * 1988-05-10 1990-01-23 Minnesota Mining & Mfg Co <3M> 人工聴覚用信号処理パラメータ決定方法及び装置並びにこの方法の適用を含む補聴器
JPH04113800A (ja) * 1990-09-04 1992-04-15 Rion Co Ltd 補聴器
JPH05244696A (ja) * 1992-02-28 1993-09-21 Hitachi Ltd ディジタル補聴器
JPH07152787A (ja) * 1994-01-13 1995-06-16 Sony Corp 情報アクセスシステムおよび記録媒体
JPH07261797A (ja) * 1994-03-18 1995-10-13 Mitsubishi Electric Corp 信号符号化装置及び信号復号化装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1115495A (ja) * 1997-06-23 1999-01-22 Ricoh Co Ltd 音声合成装置
JP2006208600A (ja) * 2005-01-26 2006-08-10 Brother Ind Ltd 音声合成装置及び音声合成方法
JP2006208820A (ja) * 2005-01-28 2006-08-10 Advanced Telecommunication Research Institute International 音声処理装置
JP4644876B2 (ja) * 2005-01-28 2011-03-09 株式会社国際電気通信基礎技術研究所 音声処理装置
JP2007243709A (ja) * 2006-03-09 2007-09-20 Fujitsu Ltd 利得調整方法及び利得調整装置
KR20130066563A (ko) * 2010-03-26 2013-06-20 가부시키가이샤 필드시스템 발신장치
JP2018036320A (ja) * 2016-08-29 2018-03-08 株式会社テクノリンク 音処理方法、音処理装置、及びプログラム

Similar Documents

Publication Publication Date Title
CA2257298C (en) Non-uniform time scale modification of recorded audio
US8484035B2 (en) Modification of voice waveforms to change social signaling
Jovičić Formant feature differences between whispered and voiced sustained vowels
US8898062B2 (en) Strained-rough-voice conversion device, voice conversion device, voice synthesis device, voice conversion method, voice synthesis method, and program
Janse Word perception in fast speech: artificially time-compressed vs. naturally produced fast speech
JP4914295B2 (ja) 力み音声検出装置
WO2007148493A1 (ja) 感情認識装置
Quené Segment durations and accent as cues to word segmentation in Dutch
WO2007058263A1 (ja) 語学学習装置、語学学習支援方法、プログラム及び記録媒体
Konno et al. Whisper to normal speech conversion using pitch estimated from spectrum
Vojtech et al. The effects of modulating fundamental frequency and speech rate on the intelligibility, communication efficiency, and perceived naturalness of synthetic speech
Thati et al. Synthesis of laughter by modifying excitation characteristics
JPH1083193A (ja) 音声合成装置および音声素片作成方法
JP4883750B2 (ja) 音響評定装置、およびプログラム
WO2023276539A1 (ja) 音声変換装置、音声変換方法、プログラム、および記録媒体
JP2904279B2 (ja) 音声合成方法および装置
JP3750676B2 (ja) 音声合成装置および音声合成方法
JP2004004952A (ja) 音声合成装置および音声合成方法
JP5518621B2 (ja) 音声合成装置およびコンピュータプログラム
JPH0580791A (ja) 音声規則合成装置および方法
JP3575919B2 (ja) テキスト音声変換装置
JP2004004954A (ja) 音声合成装置および音声合成方法
JP2006189544A (ja) 通訳装置、通訳方法、通訳プログラムを記録した記録媒体、および通訳プログラム
JP4313724B2 (ja) 音声再生速度調節方法、音声再生速度調節プログラム、およびこれを格納した記録媒体
Dessai et al. Development of Konkani TTS system using concatenative synthesis

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20050623

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050719

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050906

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060110