JP2004004953A

JP2004004953A - 音声合成装置および音声合成方法

Info

Publication number: JP2004004953A
Application number: JP2003282642A
Authority: JP
Inventors: Yumiko Kato; 加藤　弓子; Takahiro Kamai; 釜井　孝浩; Katsuyoshi Yamagami; 山上　勝義; Kenji Matsui; 松井　謙二
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2003-07-30
Filing date: 2003-07-30
Publication date: 2004-01-08
Anticipated expiration: 2016-09-09
Also published as: JP3750676B2

Abstract

【課題】聴覚障害のある使用者や、騒音下のようにこれまで音声合成が適用できないとされた使用者および使用環境でも音声により情報を確実に伝達する。
【解決手段】テキストを構文解析する構文解析部と、前記構文解析部の解析結果に基づいてテキストの文中に複数の音声合成開始位置を定める音声合成開始位置決定部と、前記構文解析部の構文解析結果に基づいて前記テキストに従って音声を合成する音声合成部と、マイクロフォンより入力された環境音を分析しその環境音の物理特性に基づいて音声合成の中断および再開を決定し、前記音声合成開始位置決定部が設定した音声合成開始位置に従って音声合成の開始を制御する制御部とを備えた音声合成装置である。
【選択図】図１

Description

　本発明はテキストを音声に変換する音声規則合成システムにおいて、特に聴覚障害者に対する、あるいは騒音下で使用する場合に音声伝達を行う技術に関するものである。

　テキストを音声に変換する音声規則合成技術は、文字で伝送されてきた情報を人間にとってわかりやすい形式で伝達する一つの手段として重要である。例えば情報ネットワークを通じて送られる情報の大半はテキストであり、大量のテキスト情報をそのまま人間に伝えるためには表示能力の大きいディスプレイを用いるか、紙に印字する必要がある。

　しかし、情報端末が小型化し、携帯に用いられるようになると、大型のディスプレイやプリンタを用いることができないため、音声に変換することがもっとも効果的である。図５５は従来の音声合成装置の代表的な装置の構成ブロック図である。図５５の１０は目的とするテキストを入力するテキスト入力手段、２０はテキストの構文解析を行う言語処理手段、３０ｍは音声を合成する音声合成部、４０ｍは合成音声の声質を操作する操作手段、５０ｍは操作手段の入力に従って声質を制御する声質制御手段、６０は電気音響変換器である。前記の音声合成部３０ｍは言語処理から入力された読み情報および韻律情報に従い音声合成部を制御する音声合成制御手段７０ｍ、音声を母音／子音／母音の連鎖などの所望の合成単位で記憶しておく素片データベース８０、合成単位をつなぎ合わせて合成音声を生成する素片接続手段９０ｍを有する。

　以上のように構成された従来の音声合成装置において、以下その動作を説明する。

　まずテキスト入力手段１０は言語処理手段２０に目的のテキストを入力する。次に言語処理手段２０はテキスト入力手段１０より入力されたテキストを構文解析を行い、読み情報、韻律情報を生成し音声合成制御手段７０ｍに出力する。素片データベース８０は音声合成制御手段７０ｍより入力された読み情報に従って素片接続手段９０ｍに合成単位を出力する。素片接続手段９０ｍは音声合成制御手段７０ｍより入力された韻律情報および声質制御手段５０ｍより入力された制御信号に従って素片データベース８０より入力された合成単位を接続し合成音声を生成し、電気音響変換器６０を通して合成音声を出力する。

　次に音声素片の作成方法について述べる。音声素片はあらかじめ録音された音声の波形からＣＶ、ＶＣＶ、ＣＶＣなどの単位で切り出して作成される。ここでＣは子音を、Ｖは母音を表す。これらの合成単位を用いる合成方式をそれぞれＣＶ方式、ＶＣＶ方式、ＣＶＣ方式などと呼ぶ。

　ＣＶ方式の場合、子音ｋと母音ａの組み合わせである「ｋａ」などを一つの単位とする。ＶＣＶ方式の場合、母音ａと子音ｋと母音ａの組み合わせである「ａｋａ」、ＣＶＣ方式の場合、子音ｋと母音ａと子音ｔの組み合わせである「ｋａｔ」などが合成の単位である。それぞれに素片の種類の数や合成音の品質など一長一短があるが、いずれの方式も音声素片を次々と接続していくことにより合成音を生成する。

　このような合成方式で用いる音声素片を作成する時に、前処理によって合成時に必要となる変形を行いやすい形にしておくと、合成時の計算量が削減できる。例えば、合成時には目的のピッチパターンになるようにピッチ修正を行う必要があるが、事前にピッチ周期単位で窓掛けにより波形を切り出しておく方法が特願平６−３０２４７１に述べられている。その方法を図面を参照しながら説明する。

　図５６は波形の切り出し方法を示している。図５６のように波形のピッチ周期に対応したピーク位置にマークを付与しておき、そのマークを中心にピッチ周期の２倍以下の長さの窓で切り出しを行う。こうして切り出された波形をピッチ波形と呼ぶ。また、ピッチの概念がない無声子音部は連続した波形としてそのまま切り出しておく。これを初期波形と呼ぶ。

　図５７は合成時の処理を示している。図のように目的のピッチ周期になるように重ね合わせを行う。ピッチを上げるときは互いの間隔を狭めて重ね合わせを行い、ピッチを下げるときは逆に間隔を広げて重ね合わせを行う。

　このような音声合成装置と音声素片作成方法においては、騒音下での使用や聴覚に障害がある人が使用する際には合成された音声が聞き取りにくいという問題がある。現状の音声合成技術は健聴者が静寂な環境下で使用する場合においても十分な明瞭度を達成することは難しいが、騒音下で使用する場合や聴覚障害者が使用する場合には更に深刻な明瞭度低下がある。これは、合成音は限られた音声素片を用いていることや、合成時の接続処理や変形処理によって、欠落している情報が多く、騒音によるマスキングや聴覚障害の影響を受けやすいためであり、従来技術においては、騒音下や聴覚障害のある場合に音声の認識に必要な情報を伝達することが困難であるという課題を有していた。

　本発明は上記の従来の問題を解決しようとするものでテキストを構文解析する構文解析部と、前記構文解析部の解析結果に基づいてテキストの文中に複数の音声合成開始位置を定める音声合成開始位置決定部と、前記構文解析部の構文解析結果に基づいて前記テキストに従って音声を合成する音声合成部と、マイクロフォンより入力された環境音を分析しその環境音の物理特性に基づいて音声合成の中断および再開を決定し、前記音声合成開始位置決定部が設定した音声合成開始位置に従って音声合成の開始を制御する制御部とを備えた音声合成装置である。

　また、テキストを構文解析する構文解析部と、前記構文解析部の解析結果に基づいてテキストの文中の強調して合成すべき単語を決定する強調語決定部と、前記構文解析部の解析結果に基づいてテキストに従って音声を合成する音声合成部と、マイクロフォンより入力された環境音を分析しその環境音の物理特性に基づいて音声合成の中断および再開を決定し、音声合成の再開後は前記強調語決定部により定められた特定の単語を強調するよう前記音声合成部を制御する制御部とを備えた音声合成装置である。

　以上説明したように、本発明によれば、聴覚障害のある使用者や、騒音下での使用でも情報を確実に伝達することができ、その実用的効果は大きい。

　本発明の一実施形態では、使用者の聴覚特性に合わせて合成した音声に強調処理あるいは振幅のダイナミックレンジを圧縮する処理を施す、あるいは使用場面の騒音環境に合わせて合成した音声に強調処理あるいは振幅のダイナミックレンジを圧縮する処理を施す。また、使用者の聴覚特性に合わせてデータベースに記憶された合成単位に強調処理あるいは振幅のダイナミックレンジを圧縮する処理を施した後に音声を合成する、あるいは使用場面の騒音環境に合わせてデータベースに記憶された合成単位に強調処理あるいは振幅のダイナミックレンジを圧縮する処理を施した後に音声を合成する。また、あらかじめ強調処理あるいは振幅のダイナミックレンジを圧縮する処理を施した合成単位を用いて音声を合成する。また、音声の合成を中断した際に言語処理結果に基づき停止位置以前で内容理解のしやすいテキスト上の点まで戻って音声の合成を再開する。また、言語処理に基づき強調処理を行う部分を設定することにより、聴覚障害のある使用者や、騒音下での使用でも情報を確実に伝達することができる。

　そして本発明の第一の実施形態は、テキストを構文解析する構文解析部と、前記構文解析部の解析結果に基づいてテキストの文中に複数の音声合成開始位置を定める音声合成開始位置決定部と、前記構文解析部の構文解析結果に基づいて前記テキストに従って音声を合成する音声合成部と、マイクロフォンより入力された環境音を分析しその環境音の物理特性に基づいて音声合成の中断および再開を決定し、前記音声合成開始位置決定部が設定した音声合成開始位置に従って音声合成の開始を制御する制御部とを備えた音声合成装置である。

　好ましくは、音声合成開始位置決定部は、文中の読点の直後など、長いポーズが入る箇所を音声合成開始位置として定める。

　好ましくは、制御部はマイクロフォンより入力された環境音が予め定められた周波数帯域において予め定められた音圧レベルを超えた場合に音声合成を中断する信号を音声合成部に出力し、音声合成の中断後、マイクロフォンより入力された環境音が予め定められた周波数帯域において予め定められた音圧レベルを下回る場合に音声合成を再開する信号を音声合成部に出力する。

　好ましくは、音声合成開始位置決定部は、音声合成開始位置に対してランク付けを行い、制御部は前記音声合成開始位置のランクによって開始位置を選択する。

　好ましくは、制御部は音声合成の中断後、マイクロフォンより入力された環境音が予め定められた周波数帯域において予め定められた音圧レベルを下回る場合に音声合成を再開する信号を音声合成部に出力し、前記音声合成部は前記制御部より入力された音声合成再開信号により音声合成開始位置決定部が設定した音声合成開始位置より音声を合成し強調処理を行う、あるいは強調処理を行った合成単位を用いて音声合成を再開する。

　本発明の第ニの実施形態は、テキストを構文解析する構文解析部と、前記構文解析部の解析結果に基づいてテキストの文中の強調して合成すべき単語を決定する強調語決定部と、前記構文解析部の解析結果に基づいてテキストに従って音声を合成する音声合成部と、マイクロフォンより入力された環境音を分析しその環境音の物理特性に基づいて音声合成の中断および再開を決定し、音声合成の再開後は前記強調語決定部により定められた特定の単語を強調するよう前記音声合成部を制御する制御部とを備えた音声合成装置である。

　好ましくは、制御部はマイクロフォンより入力された環境音が予め定められた周波数帯域において予め定められた音圧レベルを超えた場合に音声合成を中断する信号を音声合成部に出力し、音声合成の中断後マイクロフォンより入力された環境音が予め定められた周波数帯域において予め定められた音圧レベルを下回る場合に音声合成を再開する信号を音声合成部に出力する。

　好ましくは、制御部は音声合成の中断後、マイクロフォンより入力された環境音が予め定められた周波数帯域において予め定められた音圧レベルを下回る場合に音声合成を再開する信号を音声合成部に出力し、前記音声合成部は前記制御部より入力された音声合成再開信号により音声合成開始位置決定部が設定した音声合成開始位置より音声を合成し強調語決定部により定められた特定の単語に強調処理を行う、あるいは前記特定の単語を合成する際に強調処理を行った合成単位を用いて音声合成を行う。

　本発明の第三の実施形態は、テキストを構文解析し、前記解析結果に基づいてテキストの文中に複数の音声合成開始位置を定めるステップと、前記構文解析結果に基づいて前記テキストに従って音声を合成する音声合成ステップと、音声入力手段より入力された環境音を分析しその環境音の物理特性に基づいて音声合成の中断および再開を決定し、前記設定した音声合成開始位置に従って音声合成の開始を行うステップとを有する音声合成方法である。

　本発明の第四の実施形態は、テキストを構文解析し、前記解析結果に基づいてテキストの文中の強調して合成すべき単語を決定する強調語決定ステップと、前記構文解析結果に基づいてテキストに従って音声を合成する音声合成ステップと、音声入力手段より入力された環境音を分析しその環境音の物理特性に基づいて音声合成の中断および再開を決定し、音声合成の再開後は前記強調語決定ステップにより定められた特定の単語を強調するステップとを備えた音声合成方法である。

　本発明の第五の実施形態は、テキストを構文解析する構文解析部と、前記構文解析部の解析結果に基づいてテキストの文中に複数の音声合成開始位置を定める音声合成開始位置決定部と、前記構文解析部の構文解析結果に基づいて前記テキストに従って音声を合成する音声合成部と、操作手段より入力された操作信号に基づいて音声合成の中断および再開を決定し、前記音声合成開始位置決定部が設定した音声合成開始位置に従って音声合成の開始を制御する制御部とを備えた音声合成装置である。

　本発明の第六の実施形態は、テキストを構文解析する構文解析部と、前記構文解析部の解析結果に基づいてテキストの文中の強調して合成すべき単語を決定する強調語決定部と、前記構文解析部の解析結果に基づいてテキストに従って音声を合成する音声合成部と、操作手段より入力された操作信号に基づいて音声合成の中断および再開を決定し、音声合成の再開後は前記強調語決定部により定められた特定の単語を強調するよう前記音声合成部を制御する制御部とを備えた音声合成装置。

　本発明の第七の実施形態は、テキストを構文解析し、前記解析結果に基づいてテキストの文中に複数の音声合成開始位置を定めるステップと、前記構文解析結果に基づいて前記テキストに従って音声を合成する音声合成ステップと、操作手段より入力された操作信号に基づいて音声合成の中断および再開を決定し、前記設定した音声合成開始位置に従って音声合成の開始を行うステップとを有する音声合成方法である。

　本発明の第八の実施形態は、テキストを構文解析し、前記解析結果に基づいてテキストの文中の強調して合成すべき単語を決定する強調語決定ステップと、前記構文解析結果に基づいてテキストに従って音声を合成する音声合成ステップと、操作手段より入力された操作信号に基づいて音声合成の中断および再開を決定し、音声合成の再開後は前記強調語決定ステップにより定められた特定の単語を強調するステップとを備えた音声合成方法である。

　（実施例１）
　以下本発明の第１の実施例について、図面を参照しながら説明する。

　図１は本発明の音声合成装置の第１の実施例を示す構成ブロック図である。図２に第１の実施例の動作を説明するための流れ図を、図３、図４、図５、図６に動作を説明するための流れ図の一部を示す。図７、図８に第１の実施例の強調処理の模式図をしめす。図１において図５５と同一物または部分については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。図５５の音声合成部３０ｍが音声合成部３０ａに置き換わり、声質制御手段５０ｍが声質制御手段５０ａに置き換わり、操作手段４０ｍがマイクロフォン１１０に置き換わり、聴覚特性測定手段１２０が付け加わった以外は図５５と同一な構成である。前記の音声合成部３０ａは、言語処理手段２０より入力された読み情報、韻律情報、強調部情報に基づき音声合成部３０ａを制御する音声合成制御手段７０ａ、音声を母音／子音／母音の連鎖などの所望の合成単位で記憶しておく素片データベース８０、素片データベース８０に記憶された合成単位に強調処理を施す音韻強調処理手段１３０ａ、音韻強調処理手段１３０ａで処理された合成単位をつなげて合成音声を生成する素片接続手段９０ａおよび素片接続手段９０ａで生成された合成音声に振幅のダイナミックレンジを圧縮する圧縮処理を施す圧縮処理手段１４０ａを有する。

　以上のように構成されたこの実施例の音声合成装置において、以下その動作を図１、図２、図３、図４、図５、図６に従って説明する。

　まず聴覚特性測定手段１２０で使用者の聴覚特性を測定し、測定結果を声質制御手段５０ａに出力する。（ステップ１０００）。測定方法は例えば１９９２年、Audiology　Japan巻３５、４０１頁から４０２頁や平成５年,音響学会講演論文集春季、３２９頁〜３３０頁に示された測定方法のようにするものとする。声質制御手段５０ａは聴覚特性測定手段１２０より入力された測定結果に基づき強調処理の設定を決定する（ステップ１１００）。まず使用者の周波数分解能を示すｐ値を１５と比較する（ステップ１１１０）。ステップ１１１０においてｐ値が１５未満の場合はフォルマント強調情報を真とする（ステップ１１２０）。もしステップ１１１０においてｐ値が１５以上の場合はフォルマント強調情報を偽とする（ステップ１１２５）。次に使用者の時間分解能を示すギャップ検出閾値と１０msを比較する（ステップ１１３０）。ステップ１１３０においてギャップの検出閾値が１０ms以上である場合子音強調情報を真とする（ステップ１１４０）。もしステップ１１３０でギャップの検出閾値が１０ms未満の場合は子音強調情報を偽とする（ステップ１１５０）。次に使用者の２ｋＨｚ未満の平均聴力レベルと２ｋＨｚ以上の平均聴力レベルを比較する（ステップ１１６０）。ステップ１１６０において２ｋＨｚ以上の平均聴力レベルから２ｋＨｚ未満の平均聴力レベルを減じた値が３０ｄＢ以上の場合は帯域強調情報を真とする（ステップ１１７０）。もしステップ１１７０において２ｋＨｚ以上の平均聴力レベルから２ｋＨｚ未満の平均聴力レベルを減じた値が３０ｄＢ未満の場合は帯域強調情報を偽とする（ステップ１１８０）。テキスト入力手段１０は言語処理手段２０に目的のテキストを入力する（ステップ１２００）。次に言語処理手段２０はテキスト入力手段１０より入力されたテキストの構文解析を行い、読み情報、韻律情報および強調部情報を生成し音声合成制御手段７０ａに出力する（ステップ１３００）。素片データベース８０は音声合成制御手段７０ａより入力された読み情報に従って音韻強調処理手段１３０ａに合成単位を出力する（ステップ１４００）。音韻強調処理手段１３０ａは音声合成制御手段７０ａより入力された強調部情報と声質制御手段５０ａより入力された制御信号に従って合成単位に強調処理を施す（ステップ１５００）。音韻強調処理手段１３０ａは音声合成制御手段７０ａより入力された強調部情報が真か偽かを判定する（ステップ１５１０）。ステップ１５１０において強調部情報が真である場合、合成単位中の母音定常部の時間長を２０％延長し（ステップ１５２０）。声質制御手段５０ａより入力されたフォルマント強調情報が真か偽かを判定する（ステップ１５３０）。もしステップ１５１０において強調部情報が偽である場合、声質制御手段５０ａより入力されたフォルマント強調情報が真か偽かを判定する（ステップ１５３０）。ステップ１５３０においてフォルマント強調情報が真である場合、図７に示すように音韻強調処理手段１３０ａは素片データベース８０に記憶された合成単位に対応するフォルマント情報に従って、図７ｂ）に示すようにフォルマントを含む帯域を選択的に通過させるようフィルタバンクの各フィルタの中心周波数および帯域幅を設定し、図７ｃ）に示すようにフォルマントを含む帯域とフォルマントを含まない帯域とのコントラストを強調する（ステップ１５４０）。次に声質制御手段５０ａより入力された子音強調情報が真か偽かを判定する（ステップ１５５０）。もしステップ１５３０においてフォルマント強調情報が偽である場合、声質制御手段５０ａより入力された子音強調情報が真か偽かを判定する（ステップ１５５０）。ステップ１５５０において子音強調情報が真である場合、音韻強調処理手段１３０ａは図８に示すような素片データベース８０に記憶された合成単位に対応するラベル情報に従って、合成単位中の子音および子音から母音への渡りの振幅を図８に示すように増幅する（ステップ１５６０）。次に声質制御手段５０ａより入力された帯域強調情報が真か偽かを判定する（ステップ１５７０）。もしステップ１５６０において子音強調情報が偽である場合、声質制御手段５０ａより入力された帯域強調情報が真か偽かを判定する（ステップ１５７０）。ステップ１５７０において帯域強調情報が真である場合、音韻強調処理手段１３０ａは合成単位中の子音に２ｋＨｚ以上の帯域を強調する高帯域強調処理を行い（ステップ１５８０）、合成単位を素片接続手段９０ａに出力する（ステップ１５９０）。もしステップ１５７０において帯域強調情報が偽である場合、音韻強調処理手段１３０ａは合成単位を素片接続手段９０に出力する（ステップ１５９０）。素片接続手段９０ａは音声合成制御手段７０ａより入力された韻律情報および強調部情報に従って音韻強調処理手段１３０ａより入力された合成単位を合成し合成音声を生成する（ステップ１６００）。まず素片接続手段９０ａは音声合成制御手段７０ａより入力された強調部情報が真か偽かを判定する（ステップ１６１０）。ステップ１６１０において強調部情報が真の場合、素片接続手段９０ａは合成単位に対応するクロージャーの値を２０％延長し（ステップ１６２０）、音声合成制御手段７０ａより入力された韻律情報に従って合成音声を生成し（ステップ１６３０）、圧縮処理手段１４０ａに出力する（ステップ１６４０）。もしステップ１６１０において強調処理情報が偽の場合、素片接続手段９０ａは音声合成制御手段７０ａより入力された韻律情報に従って合成音声を生成し（ステップ１６３０）圧縮処理手段１４０ａに出力する（ステップ１６４０）。圧縮処理手段１４０ａは声質制御手段５０ａの制御信号に従って素片接続手段９０ａで生成された合成音声の振幅のダイナミックレンジを圧縮する（ステップ１７００）。まず声質制御手段５０ａはマイクロフォン１１０より入力された環境音を１ｋＨｚ以下、１ｋＨｚ〜２ｋＨｚ、２ｋＨｚ〜４ｋＨｚ、４ｋＨｚ以上の帯域に分割し、帯域ごとに１００ｍｓの平均レベルを求める（ステップ１７１０）。１ｋＨｚ以下の環境音の平均レベルと２０ｄＢＳＰＬ／Ｈｚとを比較する（ステップ１７３０）。ステップ１７３０において１ｋＨｚ以下の環境音の平均レベルが２０ｄＢＳＰＬ／Ｈｚ以上である場合、声質制御手段５０ａは合成音声の１ｋＨｚ以下の成分のレベルのダイナミックレンジが１ｋＨｚ以下の環境音の平均レベルの値〜９０ｄＢＳＰＬとなるように圧縮処理のパラメータを設定し（ステップ１７４０）、１ｋＨｚ〜２ｋＨｚの環境音の平均レベルと２０ｄＢＳＰＬ／Ｈｚとを比較する（ステップ１７５０）。もしステップ１７３０において１ｋＨｚ以下の環境音が２０ｄＢＳＰＬ／Ｈｚ未満である場合、１ｋＨｚ〜２ｋＨｚの環境音の平均レベルと２０ｄＢＳＰＬ／Ｈｚとを比較する（ステップ１７５０）。ステップ１７５０において１ｋＨｚ〜２ｋＨｚの環境音の平均レベルが２０ｄＢＳＰＬ／Ｈｚ以上である場合、声質制御手段５０ａは合成音声の１ｋＨｚ〜２ｋＨｚの成分のレベルのダイナミックレンジが１ｋＨｚ〜２ｋＨｚの環境音の平均レベルの値〜９０ｄＢＳＰＬとなるように圧縮処理のパラメータを設定し（ステップ１７６０）、２ｋＨｚ〜４ｋＨｚの環境音の平均レベルと１５ｄＢＳＰＬ／Ｈｚとを比較する（ステップ１７７０）。もしステップ１７５０において１ｋＨｚ〜２ｋＨｚの環境音が２０ｄＢＳＰＬ／Ｈｚ未満である場合、２ｋＨｚ〜４ｋＨｚの環境音の平均レベルと１５ｄＢＳＰＬ／Ｈｚとを比較する（ステップ１７７０）。ステップ１７７０において２ｋＨｚ〜４ｋＨｚの環境音の平均レベルが１５ｄＢＳＰＬ／Ｈｚ以上である場合、声質制御手段５０ａは合成音声の２ｋＨｚ〜４ｋＨｚの成分のレベルのダイナミックレンジが２ｋＨｚ〜４ｋＨｚの環境音の平均レベルの値〜８０ｄＢＳＰＬとなるように圧縮処理のパラメータを設定し（ステップ１７８０）、４ｋＨｚ以上の環境音の平均レベルと１０ｄＢＳＰＬ／Ｈｚとを比較する（ステップ１７９０）。もしステップ１７７０において２ｋＨｚ〜４ｋＨｚの環境音が１５ｄＢＳＰＬ／Ｈｚ未満である場合、４ｋＨｚ以上の環境音の平均レベルと１０ｄＢＳＰＬ／Ｈｚとを比較する（ステップ１７９０）。ステップ１７９０において４ｋＨｚ以上の環境音の平均レベルが１０ｄＢＳＰＬ／Ｈｚ以上である場合、声質制御手段５０ａは合成音声の４ｋＨｚ以上の成分のレベルのダイナミックレンジが４ｋＨｚ以上の環境音の平均レベルの値〜６０ｄＢＳＰＬとなるように圧縮処理のパラメータを設定し（ステップ１８００）、圧縮処理手段１４０ａに制御信号を出力する（ステップ１８１０）。もしステップ１７９０において４ｋＨｚ以上の環境音の平均レベルが１０ｄＢＳＰＬ／Ｈｚ未満である場合、圧縮処理手段１４０ａに制御信号を出力する（ステップ１８１０）。圧縮処理手段１４０ａは声質制御手段５０ａより入力された制御信号に基づき素片接続手段９０ａより入力された合成音声に圧縮処理を行う（ステップ１８２０）。圧縮処理の方法は例えば１９９１年音響学会誌、巻４７、３７３頁から３７９頁に示された処理のようにするものとする。圧縮処理手段１４０ａは電気音響変換器６０を通して合成音声を出力する（ステップ１９００）。

　（実施例２）
　以下本発明の第２の実施例について、図面を参照しながら説明する。

　図９は本発明の音声合成装置の第２の実施例を示す構成ブロック図である。図１０に第２の実施例の動作を説明するための流れ図を、図１１に動作を説明するための流れ図の一部を示す。図９において図１と同一物または部分については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。図１の音声合成部３０ａが音声合成部３０ｂに置き換わり、声質制御手段５０ａが声質制御手段５０ｂに置き換わり、マイクロフォン１１０が操作手段４０ｂに置き換わり、聴覚特性測定手段１２０が聴覚特性記憶手段２２０に置き換わった以外は図１と同一な構成である。前記の音声合成部３０ｂは、音声合成制御手段７０ｂ、合成単位を記憶しておくデータベース部２００ｂ、合成単位に振幅のダイナミックレンジを圧縮する圧縮処理を施す圧縮処理手段１４０ｂ、圧縮処理手段１４０ｂで処理された合成単位をつなげて合成音声を生成する素片接続手段９０ｂを有する。前記のデータベース部２００ｂは異なる複数の強調処理を施された素片を施された強調処理ごとに記憶する複数の素片データベース２８０ａ〜ｎと、複数の素片データベース２８０ａ〜ｎと圧縮処理手段１４０ｂとの接続を切り替えるスイッチ２１０ｂとを有する。

　以上のように構成されたこの実施例の音声合成装置において、以下その動作を図９、図１０、図１１に従って説明する。

　図１０、図１１において図２、図４と同一の動作については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。まず聴覚特性記憶手段２２０に記憶されたあらかじめ測定された聴覚特性を声質制御手段５０ｂに出力する。（ステップ２０００）。声質制御手段５０ｂは聴覚特性記憶手段２２０より入力された聴覚特性に基づき圧縮処理のパラメータを設定し圧縮処理手段１４０ｂへ出力する（ステップ２１００）。圧縮処理のパラメータ設定方法は例えば聴覚研究会資料、資料番Ｈ−９５−４、１頁〜８頁に示された設定方法のようにする。テキスト入力手段１０は言語処理手段２０に目的のテキストを入力する（ステップ１２００）。次に言語処理手段２０はテキスト入力手段１０より入力されたテキストの構文解析を行い、読み情報、韻律情報および強調部情報を生成し音声合成制御手段７０ｂに出力する（ステップ１３００）。使用者は操作手段４０ｂに強調の種類および強調の程度を入力し、操作手段４０ｂは入力結果を強調選択情報として声質制御手段５０ｂに出力する（ステップ２４００）。声質制御手段５０ｂは操作手段４０ｂより入力された強調選択情報に最も近い強調が施された素片データベースを素片データベース２８０ａ〜ｎより選択し、スイッチ２１０ｂを切り替えて圧縮処理手段１４０ｂに接続する（ステップ２５００）。ステップ２５００で圧縮処理手段１４０ｂと接続された素片データベース２８０は音声合成制御手段７０ｂより入力された読み情報に従って圧縮処理手段１４０ｂに合成単位を出力する（ステップ２６００）。圧縮処理手段１４０ｂは声質制御手段５０ｂより入力された圧縮処理パラメータに従って素片データベース２８０より入力された合成単位の振幅のダイナミックレンジを圧縮し、素片接続手段９０ｂに出力する（ステップ２７００）。素片接続手段９０ｂは音声合成制御手段７０ｂより入力された韻律情報および強調部情報に従って圧縮処理手段１４０ｂより入力された合成単位を合成し合成音声を生成する（ステップ２８００）。まず素片接続手段９０ｂは音声合成制御手段７０ｂより入力された強調部情報が真か偽かを判定する（ステップ１６１０）。ステップ１６１０において強調部情報が真の場合、素片接続手段９０ｂは合成単位中の母音定常部の時間長を２０％延長し（ステップ２９２０）、さらに合成単位に対応するクロージャーの値を２０％延長し（ステップ１６２０）、音声合成制御手段７０ｂより入力された韻律情報に従って合成音声を生成する（ステップ２９３０）。もしステップ１６１０において強調処理情報が偽の場合、素片接続手段９０ｂは音声合成制御手段７０ｂより入力された韻律情報に従って合成音声を生成する（ステップ２９３０）。素片接続手段９０ｂは電気音響変換器６０を通して合成音声を出力する（ステップ１９００）。

　（実施例３）
　以下本発明の第３の実施例について、図面を参照しながら説明する。

　図１２は本発明の音声合成装置の第３の実施例を示す構成ブロック図である。図１３に第３の実施例の動作を説明するための流れ図を示す。第３の実施例の構成において図９に示した第２の実施例の構成と同一物または部分については説明を省略し、異なった部分についてのみ説明する。図９の聴覚特性記憶手段２２０が聴覚特性読み取り手段３１０に置き換わり、音声合成部３０ｂが音声合成部３０ｃに置き換わり、声質制御手段５０ｂが声質制御手段５０ｃに置き換わり、素片データベース３８０ａ〜ｎ、聴覚特性３２０ａ〜ｎがつけ加わった以外は図９と同一な構成である。前記の音声合成部３０ｃは図９の音声合成制御手段７０ｂが音声合成制御手段７０ｃに置き換わり、データベース部２００ｂが素片データベース読み取り手段３００に置き換わった以外は図９の音声合成部３０ｂと同一な構成である。素片データベース３８０ａ〜ｎは複数の異なる強調の種類と強調の程度の強調処理を施した合成単位を強調処理ごとに格納した記憶媒体である。素片データベース読み取り手段３００は圧縮処理手段１４０ｂが参照する素片データベース３８０を読みとるものである。聴覚特性３２０ａ〜ｎはあらかじめ測定された複数の使用者の聴覚特性を個人ごとに格納した記憶媒体である。聴覚特性読み取り手段３１０は声質制御手段５０ｃが参照する聴覚特性を読みとるものである。

　以上のように構成されたこの実施例の音声合成装置において、以下その動作を図１２、図１３に従って説明する。

　図１３において図１０と同一の動作については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。まず聴覚特性読み取り手段３１０により、あらかじめセットした使用者に対応する聴覚特性３２０を読み出し、声質制御手段５０ｃに出力する。（ステップ３０００）。声質制御手段５０ｃは聴覚特性読み取り手段３１０より入力された聴覚特性に基づき圧縮処理のパラメータを設定し圧縮処理手段１４０ｂへ出力する（ステップ２１００）。テキスト入力手段１０は言語処理手段２０に目的のテキストを入力する（ステップ１２００）。次に言語処理手段２０はテキスト入力手段１０より入力されたテキストを構文解析を行い、読み情報、韻律情報および強調部情報を生成し音声合成制御手段７０ｃに出力する（ステップ１３００）。素片データベース読み取り手段３００は音声合成制御手段７０ｃより入力された読み情報に従って、あらかじめ使用者の好みおよび使用する場面に応じてセットされた素片データベース３８０より合成単位を読み出し圧縮処理手段１４０ｂに出力する（ステップ３６００）。圧縮処理手段１４０ｂは声質制御手段５０ｃより入力された圧縮処理パラメータに従って素片データベース３８０より入力された合成単位の振幅のダイナミックレンジを圧縮し、素片接続手段９０ｂに出力する（ステップ２７００）。素片接続手段９０ｂは音声合成制御手段７０ｃより入力された韻律情報および強調部情報に従って圧縮処理手段１４０ｂより入力された合成単位を合成し合成音声を生成する（ステップ２８００）。素片接続手段９０ｂは電気音響変換器６０を通して合成音声を出力する（ステップ１９００）。

　（実施例４）
　以下本発明の第４の実施例について、図面を参照しながら説明する。

　図１４は本発明の音声合成装置の第４の実施例を示す構成ブロック図である。図１５に第４の実施例の動作を説明するための流れ図を、図１６、図１７に動作を説明するための流れ図の一部を示す。図１４において図１と同一物または部分については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。図１の音声合成部３０ａが音声合成部３０ｄに置き換わり、声質制御手段５０ａが声質制御手段５０ｄに置き換わり、聴覚特性測定手段１２０が削除された以外は図１と同一な構成である。前記の音声合成部３０ｄは、音声合成制御手段７０ｄ、合成単位を記憶しておく素片データベース８０、素片データベース８０に記憶された合成単位をつなげて合成音声を生成する素片接続手段９０ｄ、および素片接続手段９０ｄで生成された合成音声に強調処理を施す音声音韻強調処理手段１３０ｄを有する。

　以上のように構成されたこの実施例の音声合成装置において、以下その動作を図１４、図１５、図１６、図１７、図１８に従って説明する。図１５、図１６、図１７、図１８において図２、図４、図５、図６と同一の動作については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。

　まずテキスト入力手段１０は言語処理手段２０に目的のテキストを入力する（ステップ１２００）。次に言語処理手段２０はテキスト入力手段１０より入力されたテキストを構文解析を行い、読み情報、韻律情報および強調部情報を生成し音声合成制御手段７０ｄに出力する（ステップ１３００）。素片データベース８０は音声合成制御手段７０ｄより入力された読み情報に従って素片接続手段９０ｄに合成単位を出力する（ステップ４４００）。素片接続手段９０ｄは音声合成制御手段７０ｄより入力された韻律情報および強調部情報に従って素片データベース８０より入力された合成単位を接続して合成音声を生成し、音韻強調処理手段１３０ｄに出力する（ステップ１６００）。声質制御手段５０ｄは強調処理方法の設定を行う（ステップ４７００）。まず声質制御手段５０ｄはマイクロフォン１１０より入力された環境音を１ｋＨｚ以下、１ｋＨｚ〜２ｋＨｚ、２ｋＨｚ〜４ｋＨｚ、４ｋＨｚ以上の帯域に分割し、帯域ごとに１００ｍｓの平均レベルを求める（ステップ１７１０）。１ｋＨｚ以下の環境音の平均レベル、１ｋＨｚ〜２ｋＨｚの環境音の平均レベルと２０ｄＢＳＰＬ／Ｈｚ、他の帯域の環境音の平均レベルと１５ｄＢＳＰＬ／Ｈｚを比較する（ステップ４７２０）。１ｋＨｚ以下の環境音の平均レベルが２０ｄＢＳＰＬ／Ｈｚ以上で、かつ１ｋＨｚ〜２ｋＨｚの環境音の平均レベルが２０ｄＢＳＰＬ／Ｈｚ以上で、かつ他の帯域の環境音の平均レベルが１５ｄＢＳＰＬ／Ｈｚ未満の場合、フォルマント強調情報を真とし（ステップ４７３０）、子音強調情報を偽とする（４７８０）。次に全帯域の帯域強調情報を偽とし（ステップ４８００）、制御信号を音韻強調処理手段１３０ｄに出力する（ステップ４８１０）。もしステップ４７２０で１ｋＨｚ以下の環境音の平均レベルが２０ｄＢＳＰＬ／Ｈｚ以上で、かつ１ｋＨｚ〜２ｋＨｚの環境音の平均レベルが２０ｄＢＳＰＬ／Ｈｚ以上で、かつ他の帯域の環境音の平均レベルが１５ｄＢＳＰＬ／Ｈｚ未満でない場合は、フォルマント強調情報を偽とし（ステップ４７４０）、１ｋＨｚ〜２ｋＨｚの環境音の平均レベルと２０ｄＢＳＰＬ／Ｈｚ、他の帯域の環境音の平均レベルと１５ｄＢＳＰＬ／Ｈｚを比較する（ステップ４７５０）。ステップ４７５０で１ｋＨｚ〜２ｋＨｚの環境音の平均レベルが２０ｄＢＳＰＬ／Ｈｚ以上、かつ２ｋＨｚ〜４ｋＨｚの環境音の平均レベルが１５ｄＢＳＰＬ／Ｈｚ以上、かつ１ｋＨｚ以下の環境音の平均レベルが２０ｄＢＳＰＬ／Ｈｚ未満、かつ４ｋＨｚ以上の環境音の平均レベルが１５ｄＢＳＰＬ／Ｈｚ未満である場合、子音強調情報を真とし（ステップ４７６０）、全帯域の帯域強調情報を偽とし（ステップ４８００）、制御信号を音韻強調処理手段１３０ｄに出力する（ステップ４８１０）。もしステップ４７５０で１ｋＨｚ〜２ｋＨｚの環境音の平均レベルが２０ｄＢＳＰＬ／Ｈｚ以上、かつ２ｋＨｚ〜４ｋＨｚの環境音の平均レベルが１５ｄＢＳＰＬ／Ｈｚ以上、かつ１ｋＨｚ以下の環境音の平均レベルが２０ｄＢＳＰＬ／Ｈｚ未満、かつ４ｋＨｚ以上の環境音の平均レベルが１５ｄＢＳＰＬ／Ｈｚ未満でない場合、子音強調情報を偽とし（ステップ４７７０）、各帯域の帯域強調情報を設定する（ステップ４７９０）。１ｋＨｚ以下の環境音の平均レベルと２０ｄＢＳＰＬ／Ｈｚとを比較する（ステップ１７３０）。ステップ１７３０において１ｋＨｚ以下の環境音の平均レベルが２０ｄＢＳＰＬ／Ｈｚ以上である場合、１ｋＨｚ以下の帯域強調情報を真とし（ステップ４７９１）、１ｋＨｚ〜２ｋＨｚの環境音の平均レベルと２０ｄＢＳＰＬ／Ｈｚとを比較する（ステップ１７５０）。もしステップ１７３０において１ｋＨｚ以下の環境音が２０ｄＢＳＰＬ／Ｈｚ未満である場合、１ｋＨｚ以下の帯域強調情報を偽とし（ステップ４７９２）、１ｋＨｚ〜２ｋＨｚの環境音の平均レベルと２０ｄＢＳＰＬ／Ｈｚとを比較する（ステップ１７５０）。ステップ１７５０において１ｋＨｚ〜２ｋＨｚの環境音の平均レベルが２０ｄＢＳＰＬ／Ｈｚ以上である場合、１ｋＨｚ〜２ｋＨｚの帯域強調情報を真とし（ステップ４７９３）、２ｋＨｚ〜４ｋＨｚの環境音の平均レベルと１５ｄＢＳＰＬ／Ｈｚとを比較する（ステップ１７７０）。もしステップ１７５０において１ｋＨｚ〜２ｋＨｚの環境音が２０ｄＢＳＰＬ／Ｈｚ未満である場合、１ｋＨｚ〜２ｋＨｚの帯域強調情報を偽とし（ステップ４７９４）、２ｋＨｚ〜４ｋＨｚの環境音の平均レベルと１５ｄＢＳＰＬ／Ｈｚとを比較する（ステップ１７７０）。ステップ１７７０において２ｋＨｚ〜４ｋＨｚの環境音の平均レベルが１５ｄＢＳＰＬ／Ｈｚ以上である場合、２ｋＨｚ〜４ｋＨｚの帯域強調情報を真とし（ステップ４７９５）、４ｋＨｚ以上の環境音の平均レベルと１５ｄＢＳＰＬ／Ｈｚとを比較する（ステップ１７９０）。もしステップ１７７０において２ｋＨｚ〜４ｋＨｚの環境音が１５ｄＢＳＰＬ／Ｈｚ未満である場合、２ｋＨｚ〜４ｋＨｚの帯域強調情報を偽とし（ステップ４７９６）、４ｋＨｚ以上の環境音の平均レベルと１５ｄＢＳＰＬ／Ｈｚとを比較する（ステップ１７９０）。ステップ１７９０において４ｋＨｚ以上の環境音の平均レベルが１５ｄＢＳＰＬ／Ｈｚ以上である場合、４ｋＨｚ以上の帯域強調情報を真とし（ステップ４７９７）、制御信号を音韻強調処理手段１３０ｄに出力する（ステップ４８１０）。もしステップ１７９０において４ｋＨｚ以上の環境音の平均レベルが１５ｄＢＳＰＬ／Ｈｚ未満である場合、４ｋＨｚ以上の帯域強調情報を偽とし（ステップ４７９８）、制御信号を音韻強調処理手段１３０ｄに出力する（ステップ４８１０）。音韻強調処理手段１３０ｄは音声合成制御手段７０ｄより入力された強調部情報および声質制御手段５０ｄより入力された制御信号に従って強調処理を行う（ステップ４９００）。音韻強調処理手段１３０ｄは音声合成制御手段７０ｄより入力された強調部情報が真か偽かを判定する（ステップ１５１０）。ステップ１５１０において強調部情報が真である場合、合成単位中の母音定常部の時間長を２０％延長し（ステップ１５２０）。声質制御手段５０ｄより入力されたフォルマント強調情報が真か偽かを判定する（ステップ１５３０）。もしステップ１５１０において強調部情報が偽である場合、声質制御手段５０ｄより入力されたフォルマント強調情報が真か偽かを判定する（ステップ１５３０）。ステップ１５３０においてフォルマント強調情報が真である場合、素片接続手段９０ｄより入力された合成音声のスペクトル包絡を求め、スペクトルピークを強調する（ステップ４９１０）。スペクトルピークの強調の方法については例えば平成５年、日本音響学会講演論文集春季２８５頁〜２８６頁に示すような方法を用いるものとする。次に声質制御手段５０ｄより入力された子音強調情報が真か偽かを判定する（ステップ１５５０）。もしステップ１５３０においてフォルマント強調情報が偽である場合、声質制御手段５０ｄより入力された子音強調情報が真か偽かを判定する（ステップ１５５０）。ステップ１５５０において子音強調情報が真である場合、音韻強調処理手段１３０ｄは合成単位中の子音および子音から母音への渡りの振幅を増幅する（ステップ４９２０）。子音強調の方法は例えば１９９２年、電子情報通信学会技術研究報告、巻９１、５１３号３１頁〜３８頁に示すような方法を用いるものとする。次に声質制御手段５０ｄより入力された１ｋＨｚ以下の帯域強調情報が真か偽かを判定する（ステップ４９３０）。もしステップ１５６０において子音強調情報が偽である場合、声質制御手段５０より入力された１ｋＨｚ以下の帯域強調情報が真か偽かを判定する（ステップ４９３０）。ステップ４９３０において１ｋＨｚ以下の帯域強調情報が真である場合、音韻強調処理手段１３０ｄは素片接続手段９０ｄより入力された合成音声の１ｋＨｚ以下の帯域成分の強調処理を行い（ステップ４９４０）、１ｋＨｚ〜２ｋＨｚの帯域強調情報が真か偽かを判定する（ステップ４９５０）。もしステップ４９３０において１ｋＨｚ以下の帯域強調情報が偽である場合、１ｋＨｚ〜２ｋＨｚの帯域強調情報が真か偽かを判定する（ステップ４９５０）。ステップ４９５０において１ｋＨｚ〜２ｋＨｚの帯域強調情報が真である場合、音韻強調処理手段１３０ｄは素片接続手段９０ｄより入力された合成音声の１ｋＨｚ〜２ｋＨｚの帯域成分の強調処理を行い（ステップ４９６０）、２ｋＨｚ〜４ｋＨｚの帯域強調情報が真か偽かを判定する（ステップ４９７０）。もしステップ４９５０において１ｋＨｚ〜２ｋＨｚの帯域強調情報が偽である場合、２ｋＨｚ〜４ｋＨｚの帯域強調情報が真か偽かを判定する（ステップ４９７０）。ステップ４９７０において２ｋＨｚ〜４ｋＨｚの帯域強調情報が真である場合、音韻強調処理手段１３０ｄは素片接続手段９０ｄより入力された合成音声の２ｋＨｚ〜４ｋＨｚの帯域成分の強調処理を行い（ステップ４９８０）、４ｋＨｚ以上の帯域強調情報が真か偽かを判定する（ステップ４９９０）。もしステップ４９７０において２ｋＨｚ〜４ｋＨｚの帯域強調情報が偽である場合、４ｋＨｚ以上の帯域強調情報が真か偽かを判定する（ステップ４９９０）。ステップ４９９０において４ｋＨｚ以上の帯域強調情報が真である場合、音韻強調処理手段１３０ｄは素片接続手段９０ｄより入力された合成音声の４ｋＨｚ以上の帯域成分の強調処理を行い（ステップ５０００）、電気音響変換器６０を通して合成音声を出力する（ステップ１９００）。もしステップ４９９０において４ｋＨｚ以上の帯域強調情報が偽である場合、電気音響変換器６０を通して合成音声を出力する（ステップ１９００）。

　（実施例５）
　以下本発明の第５の実施例について、図面を参照しながら説明する。

　図１９は本発明の音声合成装置の第５の実施例を示す構成ブロック図である。図２０に第５の実施例の動作を説明するための流れ図をを示す。図１９において図９と同一物または部分については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。図９の音声合成部３０ｂが音声合成部３０ｅに置き換わり、声質制御手段５０ｂが声質制御手段５０ｅに置き換わり、操作手段４０ｂが操作手段４０ｅに置き換わり、声質制御手段５０ｂが声質制御手段５０ｅに置き換わり、聴覚特性記憶手段２２０が削除された以外は図９と同一な構成である。前記の音声合成部３０ｅは、音声合成制御手段７０ｅ、合成単位を記憶しておくデータベース部２００ｅ、合成単位をつなげて合成音声を生成する素片接続手段９０ｅを有する。前記のデータベース部２００ｅは異なるパラメータを用いた複数の圧縮処理を施された素片を圧縮処理に用いられたパラメータごとに記憶する複数の素片データベース５８０ａ〜ｎと、複数の素片データベース５８０ａ〜ｎと素片接続手段９０ｅとの接続を切り替えるスイッチ２１０ｅとを有する。

　以上のように構成されたこの実施例の音声合成装置において、以下その動作を図１９、図２０に従って説明する。

　図２０において図１０と同一の動作については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。まずテキスト入力手段１０は言語処理手段２０に目的のテキストを入力する（ステップ１２００）。次に言語処理手段２０はテキスト入力手段１０より入力されたテキストの構文解析を行い、読み情報、韻律情報および強調部情報を生成し音声合成制御手段７０ｅに出力する（ステップ１３００）。使用者は操作手段４０ｅに圧縮の程度を入力し、操作手段４０ｅは入力結果を圧縮率選択情報として声質制御手段５０ｅに出力する（ステップ５４００）。声質制御手段５０ｅは操作手段４０ｅより入力された圧縮率選択情報に最も近い圧縮率で圧縮が施された素片データベースを素片データベース５８０ａ〜ｎより選択し、スイッチ２１０ｅを切り替えて素片接続手段９０ｅに接続する（ステップ５５００）。ステップ５５００で素片接続手段９０ｅと接続された素片データベース５８０は音声合成制御手段７０ｅより入力された読み情報に従って素片接続手段９０ｅに合成単位を出力する（ステップ５６００）。素片接続手段９０ｅは音声合成制御手段７０ｅより入力された韻律情報および強調部情報に従って素片データベース５８０より入力された合成単位を接続して合成音声を生成し（ステップ２８００）、電気音響変換器６０を通して合成音声を出力する（ステップ１９００）。

　（実施例６）
　以下本発明の第６の実施例について、図面を参照しながら説明する。

　図２１は本発明の音声合成装置の第６の実施例を示す構成ブロック図である。図２２に第６の実施例の動作を説明するための流れ図を示す。第６の実施例の構成において図１２に示した第３の実施例の構成と同一物または部分については説明を省略し、異なった部分についてのみ説明する。図１２の音声合成部３０ｃが音声合成部３０ｆに置き換わり、素片データベース３８０ａ〜ｎが素片データベース６８０ａ〜ｎに置き換わり、聴覚特性読み取り手段３１０、声質制御手段５０ｃ、聴覚特性読み取り手段３１０、聴覚特性ａ〜ｎが削除された以外は図１２と同一な構成である。前記の音声合成部３０ｆは図１２の音声合成制御手段７０ｃが音声合成制御手段７０ｆに置き換わり、素片接続手段９０ｂが素片接続手段９０ｆに置き換わり、圧縮処理手段１４０ｂが削除された以外は図１２の音声合成部３０ｃと同一な構成である。素片データベース６８０ａ〜ｎは異なるパラメータを用いた複数の圧縮処理を施された素片を圧縮処理に用いられたパラメータごとに格納した記憶媒体である。素片データベース読み取り手段３００は素片接続手段９０ｆが参照する素片データベース６８０を読み取るものである。

　以上のように構成されたこの実施例の音声合成装置において、以下その動作を図２１、図２２に従って説明する。

　図２２において図１３と同一の動作については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。まずテキスト入力手段１０は言語処理手段２０に目的のテキストを入力する（ステップ１２００）。次に言語処理手段２０はテキスト入力手段１０より入力されたテキストの構文解析を行い、読み情報、韻律情報および強調部情報を生成し音声合成制御手段７０ｆに出力する（ステップ１３００）。素片データベース読み取り手段３００は音声合成制御手段７０ｆより入力された読み情報に従って、あらかじめ使用者の好みおよび使用する場面に応じてセットされた素片データベース６８０より合成単位を読み出し素片接続手段９０ｆに出力する（ステップ６６００）。素片接続手段９０ｆは音声合成制御手段７０ｆより入力された韻律情報および強調部情報に従って素片データベース読み取り手段３００より入力された合成単位を接続して合成音声を生成し（ステップ２８００）、電気音響変換器６０を通して合成音声を出力する（ステップ１９００）。

　（実施例７）
　以下本発明の第７の実施例について、図面を参照しながら説明する。

　図２３は本発明の音声合成装置の第７の実施例を示す構成ブロック図である。図２４に第７の実施例の動作を説明するための流れ図を、図２５に動作を説明するための流れ図の一部を示す。図２３において図１と同一物または部分については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。図１の音声合成部３０ａが音声合成部３０ｇに置き換わり、声質制御手段５０ａが声質制御手段５０ｇに置き換わった以外は図１と同一な構成である。前記の音声合成部３０ｇは、図１の音声合成部３０ａの音声合成制御手段７０ａが音声合成制御手段７０ｇに置き換わり、圧縮処理手段１４０ａが圧縮処理手段１４０ｇに置き換わり、素片接続手段９０ａが素片接続手段９０ｇに置き換わり、音韻強調処理手段１３０ａが削除された以外は図１の音声合成部３０ａと同一な構成である。

　以上のように構成されたこの実施例の音声合成装置において、以下その動作を図２３、図２４、図２５に従って説明する。

　まず聴覚特性測定手段１２０で使用者の聴覚特性を測定し、測定結果を声質制御手段５０ｇに出力する。（ステップ１０００）。テキスト入力手段１０は言語処理手段２０に目的のテキストを入力する（ステップ１２００）。次に言語処理手段２０はテキスト入力手段１０より入力されたテキストを構文解析を行い、読み情報、韻律情報および強調部情報を生成し音声合成制御手段７０ｇに出力する（ステップ１３００）。素片データベース８０は音声合成制御手段７０ｇより入力された読み情報に従って圧縮処理手段１４０ｇに合成単位を出力する（ステップ７４００）。圧縮処理手段１４０ｇは声質制御手段５０ｇより入力された制御信号に従って素片データベース８０から入力された合成単位の振幅のダイナミックレンジを圧縮する（ステップ７５００）。まず声質制御手段５０ｇはマイクロフォン１１０より入力された環境音を１ｋＨｚ以下、１ｋＨｚ〜２ｋＨｚ、２ｋＨｚ〜４ｋＨｚ、４ｋＨｚ以上の帯域に分割し、帯域ごとに１００ｍｓの平均レベルを求める（ステップ１７１０）。１ｋＨｚ以下の環境音の平均レベルと聴覚特性測定手段１２０より入力された使用者の５００Ｈｚの最小可聴値とを比較する（ステップ７７２０）。ステップ７７２０において１ｋＨｚ以下の環境音の平均レベルが使用者の５００Ｈｚの最小可聴値以上である場合、声質制御手段５０ｇは合成単位の１ｋＨｚ以下の成分のレベルのダイナミックレンジが１ｋＨｚ以下の環境音の平均レベルの値に聴覚特性測定手段１２０より入力された使用者の５００Ｈｚの最小可聴値を加えた値〜９０ｄＢＳＰＬとなるように圧縮処理のパラメータを設定し（ステップ７７３０）、１ｋＨｚ〜２ｋＨｚの環境音の平均レベルと聴覚特性測定手段１２０より入力された使用者の１ｋＨｚの最小可聴値とを比較する（ステップ７７５０）。もしステップ７７３０において１ｋＨｚ以下の環境音が使用者の５００Ｈｚの最小可聴値未満である場合、聴覚特性測定手段１２０より入力された測定結果に基づき圧縮処理のパラメータを設定し（ステップ７７４０）、１ｋＨｚ〜２ｋＨｚの環境音の平均レベルと聴覚特性測定手段１２０より入力された使用者の１ｋＨｚの最小可聴値とを比較する（ステップ７７５０）。圧縮処理パラメータの設定方法は例えば実施例２および実施例３と同様とする。ステップ７７５０において１ｋＨｚ〜２ｋＨｚの環境音の平均レベルが聴覚特性測定手段１２０より入力された使用者の１ｋＨｚの最小可聴値以上である場合、声質制御手段５０ｇは合成単位の１ｋＨｚ〜２ｋＨｚの成分のレベルのダイナミックレンジが１ｋＨｚ〜２ｋＨｚの環境音の平均レベルの値に聴覚特性測定手段１２０より入力された使用者の１ｋＨｚの最小可聴値を加えた値〜９０ｄＢＳＰＬとなるように圧縮処理のパラメータを設定し（ステップ７７６０）、２ｋＨｚ〜４ｋＨｚの環境音の平均レベルと聴覚特性測定手段１２０より入力された使用者の２ｋＨｚの最小可聴値とを比較する（ステップ７７８０）。もしステップ７７５０において１ｋＨｚ〜２ｋＨｚの環境音が使用者の１ｋＨｚの最小可聴値未満である場合、聴覚特性測定手段１２０より入力された測定結果に基づき圧縮処理のパラメータを設定し（ステップ７７７０）、２ｋＨｚ〜４ｋＨｚの環境音の平均レベルと聴覚特性測定手段１２０より入力された使用者の２ｋＨｚの最小可聴値とを比較する（ステップ７７８０）。ステップ７７８０において２ｋＨｚ〜４ｋＨｚの環境音の平均レベルが聴覚特性測定手段１２０より入力された使用者の２ｋＨｚの最小可聴値以上である場合、声質制御手段５０ｇは合成単位の２ｋＨｚ〜４ｋＨｚの成分のレベルのダイナミックレンジが２ｋＨｚ〜４ｋＨｚの環境音の平均レベルの値に聴覚特性測定手段１２０より入力された使用者の２ｋＨｚの最小可聴値を加えた値〜９０ｄＢＳＰＬとなるように圧縮処理のパラメータを設定し（ステップ７７９０）、４ｋＨｚ以上の環境音の平均レベルと聴覚特性測定手段１２０より入力された使用者の４ｋＨｚの最小可聴値とを比較する（ステップ７８１０）。もしステップ７７８０において２ｋＨｚ〜４ｋＨｚの環境音が使用者の２ｋＨｚの最小可聴値未満である場合、聴覚特性測定手段１２０より入力された測定結果に基づき圧縮処理のパラメータを設定し（ステップ７８００）、４ｋＨｚ以上の環境音の平均レベルと聴覚特性測定手段１２０より入力された使用者の４ｋＨｚの最小可聴値とを比較する（ステップ７８１０）。ステップ７８１０において４ｋＨｚ以上の環境音の平均レベルが聴覚特性測定手段１２０より入力された使用者の４ｋＨｚの最小可聴値以上である場合、声質制御手段５０ｇは合成単位の４ｋＨｚ以上の成分のレベルのダイナミックレンジが４ｋＨｚ以上の環境音の平均レベルの値に聴覚特性測定手段１２０より入力された使用者の４ｋＨｚの最小可聴値を加えた値〜９０ｄＢＳＰＬとなるように圧縮処理のパラメータを設定し（ステップ７８２０）、圧縮処理手段１４０ｇに制御信号を出力する（ステップ１８１０）。もしステップ７８１０において４ｋＨｚ以上の環境音が使用者の４ｋＨｚの最小可聴値未満である場合、聴覚特性測定手段１２０より入力された測定結果に基づき圧縮処理のパラメータを設定し（ステップ７８３０）、圧縮処理手段１４０ｇに制御信号を出力する（ステップ１８１０）。圧縮処理手段１４０ｇは声質制御手段５０ｇより入力された制御信号に基づき素片データベース８０より入力された合成単位に圧縮処理を施し、素片接続手段９０ｇに出力する（ステップ７８４０）。素片接続手段９０ｇは音声合成制御手段７０ｇより入力された韻律情報および強調部情報に従って圧縮処理手段１４０ｇより入力された合成単位を接続して合成音声を生成し（ステップ７９００）、電気音響変換器６０を通して合成音声を出力する（ステップ１９００）。

　（実施例８）
　以下本発明の第８の実施例について、図面を参照しながら説明する。

　図２６は本発明の音声合成装置の第８の実施例を示す構成ブロック図である。図２７に第８の実施例の動作を説明するための流れ図を、図２８に第８の実施例の動作の一部を説明するための流れ図を示す。図２９に第８の実施例のフォルマント強調の処理結果の模式図を示す。第８の実施例の構成において図１２に示した第３の実施例の構成と同一物または部分については説明を省略し、異なった部分についてのみ説明する。図１２の音声合成部３０ｃが音声合成部３０ｈに置き換わり、声質制御手段５０ｃが声質制御手段５０ｈに置き換わり、素片データベース３８０ａ〜ｎが削除された以外は図１２と同一な構成である。前記の音声合成部３０ｈは図１２の音声合成制御手段７０ｃが音声合成制御手段７０ｈに置き換わり、素片データベース読み取り手段３００が素片データベース８０に置き換わり、圧縮処理手段１４０ｂが音韻強調処理手段１３０ｈに置き換わり、強調フィルタ部８００がつけ加わった以外は図１２の音声合成部３０ｃと同一な構成である。前記の強調フィルタ部８００はあらかじめ各音韻ごとにフォルマントを強調するよう設定されたフォルマント強調フィルタ８１０ａ〜ｎと、フォルマント強調フィルタ８１０と音韻強調処理手段１３０ｈの接続を切り替えるスイッチ８２０とを有する。

　以上のように構成されたこの実施例の音声合成装置において、以下その動作を図２６、図２７、図２８、図２９に従って説明する。

　図２７、図２８、図２９において図２、図４、図１３と同一の動作については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。まず聴覚特性読み取り手段３１０により、あらかじめセットした使用者に対応する聴覚特性を読み出し、声質制御手段５０ｈに出力する。（ステップ３０００）。声質制御手段５０は聴覚特性読み取り手段３１０より入力された聴覚特性に基づき強調処理の設定を決定し音韻強調処理手段１３０ｈへ出力する（ステップ１１００）。テキスト入力手段１０は言語処理手段２０に目的のテキストを入力する（ステップ１２００）。次に言語処理手段２０はテキスト入力手段１０より入力されたテキストの構文解析を行い、読み情報、韻律情報および強調部情報を生成し音声合成制御手段７０ｈに出力する（ステップ１３００）。素片データベース８０は音声合成制御手段７０ｈより入力された読み情報に従って音韻強調処理手段１３０ｈに合成単位を出力する（ステップ１４００）。音韻強調処理手段１３０ｈは音声合成制御手段７０ｈより入力された強調部情報と声質制御手段５０ｈより入力された制御信号に従って合成単位に強調処理を施す（ステップ８５００）。音韻強調処理手段１３０ｈは音声合成制御手段７０ｈより入力された強調部情報が真か偽かを判定する（ステップ１５１０）。ステップ１５１０において強調部情報が真である場合、合成単位中の母音定常部の時間長を２０％延長し（ステップ１５２０）。声質制御手段５０ｈより入力されたフォルマント強調情報が真か偽かを判定する（ステップ１５３０）。もしステップ１５１０において強調部情報が偽である場合、声質制御手段５０ｈより入力されたフォルマント強調情報が真か偽かを判定する（ステップ１５３０）。ステップ１５３０においてフォルマント強調情報が真である場合、音声合成制御手段７０ｈより出力された制御信号により素片データベース８０より出力された合成単位に対応するフォルマント強調フィルタ８１０にスイッチ８２０を接続する（ステップ８５１０）。図２８に示すように、ステップ８５１０で接続されたあらかじめ音韻ごとに設定されたフィルタバンクを用いて、フォルマントを含む帯域を選択的に通過させ、図７ｃ）に示すようにフォルマントを含む帯域とフォルマントを含まない帯域とのコントラストを強調する（ステップ８５４０）。次に声質制御手段５０より入力された子音強調情報が真か偽かを判定する（ステップ１５５０）。もしステップ１５３０においてフォルマント強調情報が偽である場合、声質制御手段５０ｈより入力された子音強調情報が真か偽かを判定する（ステップ１５５０）。ステップ１５５０において子音強調情報が真である場合、合成単位中の子音および子音から母音への渡りの振幅を増幅する（ステップ１５６０）。次に声質制御手段５０ｈより入力された帯域強調情報が真か偽かを判定する（ステップ１５７０）。もしステップ１５６０において子音強調情報が偽である場合、声質制御手段５０ｈより入力された帯域強調情報が真か偽かを判定する（ステップ１５７０）。ステップ１５７０において帯域強調情報が真である場合、合成単位中の子音に２ｋＨｚ以上の帯域を強調する高帯域強調処理を行い（ステップ１５８０）、音韻強調処理手段１３０ｈは合成単位を素片接続手段９０ｈに出力する（ステップ１５９０）。もしステップ１５７０において帯域強調情報が偽である場合、音韻強調処理手段１３０ｈは合成単位を素片接続手段９０ｈに出力する（ステップ１５９０）。素片接続手段９０ｈは音声合成制御手段７０ｈより入力された韻律情報および強調部情報に従って音韻強調処理手段１３０ｈより入力された合成単位を接続して合成音声を生成し（ステップ１６００）、電気音響変換器６０を通して合成音声を出力する（ステップ１９００）。

　（実施例９）
　以下本発明の第９の実施例について、図面を参照しながら説明する。

　図３０は本発明の音声合成装置の第９の実施例を示す構成ブロック図である。図３１に第９の実施例の動作を説明するための流れ図を、図３２に動作を説明するための流れ図の一部を示す。図３０において図４２と同一物または部分については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。図４２の声質制御手段５０ｍが声質制御手段５０ｉに置き換わり、操作手段４０ｍがマイクロフォン１１０に置き換わった以外は図４２と同一な構成である。

　以上のように構成されたこの実施例の音声合成装置において、以下その動作を図３０、図３１、図３２に従って説明する。図３１において図２と同一の動作については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。

　声質制御手段５０ｉは合成音声の基本周波数の設定をする（ステップ９１００）。まずマイクロフォン１１０は声質制御手段５０ｉに環境音信号を出力する（ステップ９１１０）。声質制御手段５０ｉはマイクロフォン１１０より入力された環境音のレベルと３０ｄＢ（Ａ）を比較する（ステップ９１２０）。ステップ９１２０で環境音のレベルが３０ｄＢ（Ａ）以上の場合、基本周波数をあらかじめ定められた標準値より２０％高く設定し（ステップ９１３０）、テキスト入力手段１０は言語処理手段２０に目的のテキストを入力する（ステップ１２００）。ステップ９１２０で環境音のレベルが３０ｄＢ（Ａ）未満の場合、テキスト入力手段１０は言語処理手段２０に目的のテキストを入力する（ステップ１２００）。次に言語処理手段２０はテキスト入力手段１０より入力されたテキストを構文解析を行い、読み情報および韻律情報を生成し音声合成制御手段７０ｍに出力する（ステップ１３００）。素片データベース８０は音声合成制御手段７０ｍより入力された読み情報に従って素片接続手段９０ｍに合成単位を出力する（ステップ９４００）。素片接続手段９０ｍは音声合成制御手段７０ｍより入力された韻律情報および声質制御手段５０ｉより入力された制御信号に従って素片データベース８０より入力された合成単位を接続して合成音声を生成し（ステップ９５００）、電気音響変換器６０を通して合成音声を出力する（ステップ１９００）。

　（実施例１０）
　以下本発明の第１０の実施例について、図面を参照しながら説明する。

　図３３は本発明の音声合成装置の第１０の実施例を示す構成ブロック図である。図３４に第１０の実施例の動作を説明するための流れ図を、図３５に動作を説明するための流れ図の一部を示す。図３３において図３０と同一物または部分については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。図３０の声質制御手段５０ｉが声質制御手段５０ｊに置き換わり、マイクロフォン１１０が聴覚特性測定手段１２０に置き換わった以外は図３０と同一な構成である。

　以上のように構成されたこの実施例の音声合成装置において、以下その動作を図３３、図３４、図３５に従って説明する。図３４、図３５において図３１、図３２と同一の動作については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。

　聴覚特性測定手段１２０で使用者の聴覚特性を測定する（ステップ１００００）。聴覚特性の測定方法については例えば実施例１と同様とする。声質制御手段５０ｊは聴覚特性測定手段１２０より入力された使用者の聴覚特性および好みに従って合成音声の基本周波数の設定をする（ステップ１０１００）。聴覚特性測定手段１２０より聴覚特性の測定結果を声質制御手段５０ｊに出力する。（ステップ１０１１０）。声質制御手段５０ｊは使用者の２ｋＨｚ未満の平均聴力レベルと２ｋＨｚ以上の平均聴力レベルを比較する（ステップ１０１２０）。ステップ１０１２０において２ｋＨｚ以上の平均聴力レベルから２ｋＨｚ未満の平均聴力レベルを減じた値が３０ｄＢ以上の場合は、合成音声の基本周波数をあらかじめ定められた標準値より２０％高く設定し（ステップ９１３０）、テキスト入力手段１０は言語処理手段２０に目的のテキストを入力する（ステップ１２００）。ステップ１０１２０で２ｋＨｚ以上の平均聴力レベルから２ｋＨｚ未満の平均聴力レベルを減じた値が３０ｄＢ未満の場合、テキスト入力手段１０は言語処理手段２０に目的のテキストを入力する（ステップ１２００）。次に言語処理手段２０はテキスト入力手段１０より入力されたテキストの構文解析を行い、読み情報および韻律情報を生成し音声合成制御手段７０ｍに出力する（ステップ１３００）。素片データベース８０は音声合成制御手段７０ｍより入力された読み情報に従って素片接続手段９０ｍに合成単位を出力する（ステップ９４００）。素片接続手段９０ｍは音声合成制御手段７０ｍより入力された韻律情報および声質制御手段５０ｊより入力された制御信号に従って素片データベース８０より入力された合成単位を合成し合成音声を生成し（ステップ９５００）、電気音響変換器６０を通して合成音声を出力する（ステップ１９００）。

　（実施例１１）
　以下本発明の第１１の実施例について、図面を参照しながら説明する。

　図３６は本発明の音声合成装置の第１１の実施例を示す構成ブロック図である。図３７に第１１の実施例の動作を説明するための流れ図を、図３８に動作を説明するための流れ図の一部を示す。図３６において図３３と同一物または部分については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。図３３の声質制御手段５０ｊが声質制御手段５０ｋに置き換わり、聴覚特性測定手段１２０が聴覚特性記憶手段２２０に置き換わった以外は図３３と同一な構成である。

　以上のように構成されたこの実施例の音声合成装置において、以下その動作を図３６、図３７、図３８に従って説明する。図３７において図３４と同一の動作については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。

　声質制御手段５０ｋは合成音声の基本周波数の設定をする（ステップ１１１００）。まず聴覚特性記憶手段２２０よりあらかじめ測定された使用者の聴覚特性を声質制御手段５０ｋに出力する。（ステップ１１１１０）。声質制御手段５０ｋは使用者の平均聴力レベルと４０ｄＢＨＬを比較する（ステップ１１１２０）。ステップ１１１２０において使用者の平均聴力レベルが４０ｄＢＨＬ以上の場合は、合成音声の話速をあらかじめ定められた標準値より１０％遅く設定し（ステップ１１１３０）、テキスト入力手段１０は言語処理手段２０に目的のテキストを入力する（ステップ１２００）。ステップ１１１２０で使用者の平均聴力レベルが４０ｄＢＨＬ未満の場合、テキスト入力手段１０は言語処理手段２０に目的のテキストを入力する（ステップ１２００）。次に言語処理手段２０はテキスト入力手段１０より入力されたテキストを構文解析を行い、読み情報および韻律情報を生成し音声合成制御手段７０ｍに出力する（ステップ１３００）。素片データベース８０は音声合成制御手段７０ｍより入力された読み情報に従って素片接続手段９０ｍに合成単位を出力する（ステップ９４００）。素片接続手段９０ｍは音声合成制御手段７０ｍより入力された韻律情報および声質制御手段５０ｋより入力された制御信号に従って素片データベース８０より入力された合成単位を合成し合成音声を生成し（ステップ９５００）、電気音響変換器６０を通して合成音声を出力する（ステップ１９００）。

　（実施例１２）
　以下本発明の第１２の実施例について、図面を参照しながら説明する。

　図３９は本発明の音声合成装置の第１２の実施例を示す構成ブロック図である。図４０に第１２の実施例の動作を説明するための流れ図を、図４１に動作を説明するための流れ図の一部を示す。図３９において図３６と同一物または部分については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。図３６の声質制御手段５０ｋが声質制御手段５０ｌに置き換わり、聴覚特性記憶手段２２０が聴覚特性読み取り手段３１０に置き換わり、聴覚特性３２０ａ〜ｎがつけ加わった以外は図３６と同一な構成である。

　以上のように構成されたこの実施例の音声合成装置において、以下その動作を図３９、図４０、図４１に従って説明する。図４０、図４１において図３７、図３８と同一の動作については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。

　声質制御手段５０ｌは合成音声の基本周波数の設定をする（ステップ１２１００）。まず聴覚特性読み取り手段３１０はあらかじめセットされた使用者の聴覚特性３２０を読み取り、声質制御手段５０ｌに出力する。（ステップ１２１１０）。声質制御手段５０は使用者の平均聴力レベルと４０ｄＢＨＬを比較する（ステップ１１１２０）。ステップ１１１２０において使用者の平均聴力レベルが４０ｄＢＨＬ以上の場合は、合成音声の話速をあらかじめ定められた標準値より１０％遅く設定し（ステップ１１１３０）、テキスト入力手段１０は言語処理手段２０に目的のテキストを入力する（ステップ１２００）。ステップ１１１２０で使用者の平均聴力レベルが４０ｄＢＨＬ未満の場合、テキスト入力手段１０は言語処理手段２０に目的のテキストを入力する（ステップ１２００）。次に言語処理手段２０はテキスト入力手段１０より入力されたテキストの構文解析を行い、読み情報および韻律情報を生成し音声合成制御手段７０ｍに出力する（ステップ１３００）。素片データベース８０は音声合成制御手段７０ｍより入力された読み情報に従って素片接続手段９０ｍに合成単位を出力する（ステップ９４００）。素片接続手段９０ｍは音声合成制御手段７０ｍより入力された韻律情報および声質制御手段５０ｍより入力された制御信号に従って素片データベース８０より入力された合成単位を接続して合成音声を生成し（ステップ９５００）、電気音響変換器６０を通して合成音声を出力する（ステップ１９００）。

　（実施例１３）
　以下本発明の第１３の実施例について、図面を参照しながら説明する。

　図４２は本発明の音声合成装置の第１３の実施例を示す構成ブロック図である。図４３に第１３の実施例の動作を説明するための流れ図をを示す。図４２において図３０と同一物または部分については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。図３０の言語処理手段２０が言語処理部９００に置き換わり、音声合成部３０ｍが音声合成部３０ｎに置き換わり、声質制御手段５０ｉが削除され、マイクロフォン１１０が音声合成制御手段７０ｎに接続された以外は図３０と同一な構成である。前記の言語処理部９００は構文解析手段９１０と音声合成開始位置決定手段９２０とを有する。前記の音声合成部３０ｎは音声合成制御手段７０ｎと、素片データベース８０、素片接続手段９０ｎとを有する。

　以上のように構成されたこの実施例の音声合成装置において、以下その動作を図４２、図４３に従って説明する。図４３において図３１と同一の動作については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。

　まずテキスト入力手段１０は構文解析手段９１０に目的のテキストを入力する（ステップ１３１００）。次に構文解析手段９１０はテキスト入力手段１０より入力されたテキストを構文解析を行い、構文情報を生成し音声合成開始位置決定手段９２０へ出力し、読み情報および韻律情報を生成し音声合成制御手段７０ｎに出力する（ステップ１３２００）。音声合成開始位置決定手段９２０は構文解析手段９１０より入力された構文情報に従って音声合成開始位置を決定し、音声合成制御手段７０ｎに開始位置情報を出力する（ステップ１３３００）。音声合成制御手段７０ｎはマイクロフォン１１０より環境音信号を取り込み、環境音の１００ｍｓの平均レベルと７０ｄＢ（Ａ）とを比較する（ステップ１３４００）。ステップ１３４００において環境音の平均レベルが７０ｄＢ（Ａ）未満の場合、素片データベース８０は音声合成制御手段７０ｎより入力された読み情報に従って素片接続手段９０ｎに合成単位を出力する（ステップ９４００）。もしステップ１３４００で環境音の平均レベルが７０ｄＢ（Ａ）以上である場合、音声合成制御手段７０ｎは音声合成停止信号を素片接続手段９０ｎに出力し、合成音声の生成を停止する（ステップ１３５００）。音声合成制御手段７０ｎは環境音の平均レベルと７０ｄＢ（Ａ）とを比較し（ステップ１３６００）、環境音の平均レベルが７０ｄＢ（Ａ）以上である場合は、ステップ１３６００を繰り返す。ステップ１３６００において環境音の平均レベルが７０ｄＢ（Ａ）未満である場合にのみ、音声合成開始位置決定手段９２０より入力された開始位置情報に従い、停止位置よりテキスト上の位置が前で最も停止位置に近い音声合成開始位置から音声合成を再開し（ステップ１３７００）、素片データベース８０は音声合成制御手段７０ｎより入力された読み情報に従って素片接続手段９０ｎに合成単位を出力する（ステップ９４００）。素片接続手段９０ｎは音声合成制御手段７０ｎより入力された韻律情報に従って素片データベース８０より入力された合成単位を接続して合成音声を生成し（ステップ９５００）、電気音響変換器６０を通して合成音声を出力する（ステップ１９００）。

　（実施例１４）
　以下本発明の第１４の実施例について、図面を参照しながら説明する。

　図４４は本発明の音声合成装置の第１４の実施例を示す構成ブロック図である。図４５に第１４の実施例の動作を説明するための流れ図をを示す。図４４において図４２と同一物または部分については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。図４２の音声合成部３０ｎが音声合成部３０ｏに置き換わり、マイクロフォン１１０が操作手段４０ｏに置き換わった以外は図４２と同一な構成である。前記の音声合成部３０ｏは音声合成制御手段７０ｏと、素片データベース８０、素片接続手段９０ｎとを有する。

　以上のように構成されたこの実施例の音声合成装置において、以下その動作を図４４、図４５に従って説明する。図４５において図４３と同一の動作については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。

　まずテキスト入力手段１０は構文解析手段９１０に目的のテキストを入力する（ステップ１３１００）。次に構文解析手段９１０はテキスト入力手段１０より入力されたテキストの構文解析を行い、構文情報を生成し音声合成開始位置決定手段９２０へ出力し、読み情報および韻律情報を生成し音声合成制御手段７０ｏに出力する（ステップ１３２００）。音声合成開始位置決定手段９２０は構文解析手段９１０より入力された構文情報に従って音声合成開始位置を決定し、音声合成制御手段７０ｏに開始位置情報を出力する（ステップ１３３００）。音声合成制御手段７０ｏは操作手段４０ｏより操作信号を取り込み、使用者が音声合成停止信号を入力したか否かを判定する（ステップ１４４００）。ステップ１４４００において音声合成停止信号が入力されていない場合、素片データベース８０は音声合成制御手段７０ｎより入力された読み情報に従って素片接続手段９０ｎに合成単位を出力する（ステップ９４００）。もしステップ１４４００で音声合成停止信号が入力されている場合、音声合成制御手段７０ｏは音声合成停止信号を素片接続手段９０ｎに出力し、合成音声の生成を停止する（ステップ１３５００）。音声合成制御手段７０ｏは操作装置より操作信号を取り込み、使用者が音声合成再開信号を入力したか否かを判定し（ステップ１４６００）、音声合成再開信号が入力されていない場合は、ステップ１４６００を繰り返す。ステップ１４６００において音声合成再開信号が入力された場合にのみ、音声合成開始位置決定手段９２０より入力された開始位置情報に従い、停止位置よりテキスト上の位置が前で最も停止位置に近い音声合成開始位置から音声合成を再開し（ステップ１３７００）、素片データベース８０は音声合成制御手段７０ｏより入力された読み情報に従って素片接続手段９０ｎに合成単位を出力する（ステップ９４００）。素片接続手段９０ｎは音声合成制御手段７０ｏより入力された韻律情報に従って素片データベース８０より入力された合成単位を接続して合成音声を生成し（ステップ９５００）、電気音響変換器６０を通して合成音声を出力する（ステップ１９００）。

　（実施例１５）
　以下本発明の第１５の実施例について、図面を参照しながら説明する。

　図４６は本発明の音声合成装置の第１５の実施例を示す構成ブロック図である。図４７に第１５の実施例の動作を説明するための流れ図を示す。図４６において図４２と同一物または部分については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。図４２の言語処理部９００ｎが言語処理部９００ｐに置き換わり、言語処理部９００ｐにおいては構文解析手段９１０から構文解析結果を受け取り強調すべき単語を決定する強調語決定手段が追加されている。一方、図４２の音声合成部３０ｎが音声合成部３０ｐに置き換わり、音声合成部３０ｐにおいては音声合成制御手段７０ｐと接続される計時手段９４０と、素片データベースの素片出力を入力とし、音声合成制御手段からの制御信号に基づいて素片に強調処理を施し、素片接続手段へ出力する音韻強調処理手段１３０ｐが追加されている。さらに、強調語決定手段９３０から強調語情報を音声合成制御手段が受け取るという構成になっている。以上の変更以外は図４２と同一な構成である。

　以上のように構成されたこの実施例の音声合成装置において、以下その動作を図４６、図４７に従って説明する。図４７において図４３と同一の動作については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。まずテキスト入力手段１０は構文解析手段９１０に目的のテキストを入力する（ステップ１３１００）。次に構文解析手段９１０はテキスト入力手段１０より入力されたテキストの構文解析を行い、構文情報を生成し音声合成開始位置決定手段９２０、および、強調語決定手段９３０へ出力し、読み情報および韻律情報を生成し音声合成制御手段７０ｐに出力する（ステップ１３２００）。音声合成開始位置決定手段９２０は構文解析手段９１０より入力された構文情報に従って音声合成開始位置を決定し、音声合成制御手段７０ｐに開始位置情報を出力する（ステップ１３３００ａ）。同時に、強調語決定手段９３０は構文解析手段９１０より入力された構文情報に従って強調すべき単語を決定し、音声合成制御手段７０ｐに強調語情報を出力する（ステップ１３３００ｂ）。音声合成制御手段７０ｐはマイクロフォン１１０より環境音信号を取り込み、環境音の１００ｍｓの平均レベルと７０ｄＢ（Ａ）を比較する（ステップ１３４００）。ステップ１３４００において環境音の平均レベルが７０ｄＢ（Ａ）未満の場合、素片データベース８０は音声合成制御手段７０ｐより入力された読み情報に従って音韻強調処理手段１３０ｐに合成単位を出力し、音韻強調処理手段１３０ｐでは強調処理を行わず、そのまま素片接続手段９０ｎに合成単位を出力する（ステップ９４００ａ）。もしステップ１３４００で環境音の平均レベルが７０ｄＢ（Ａ）以上である場合、音声合成制御手段７０ｎは音声合成停止信号を素片接続手段９０ｎに出力し、合成音声の生成を停止する（ステップ１３５００）。そして、計時手段９４０に計測開始の信号を送り時間計測を開始する（ステップ１４１００）。音声合成制御手段７０ｐは環境音の平均レベルと７０ｄＢ（Ａ）とを比較し（ステップ１３６００）、環境音の平均レベルが７０ｄＢ（Ａ）以上である場合は、ステップ１３６００を繰り返す。ステップ１３６００において環境音の平均レベルが７０ｄＢ（Ａ）未満である場合には、計時手段９４０に計測終了の信号を送り時間計測を終了し、経過時間を取り込む（ステップ１４２００）。音声合成制御手段７０ｐは、経過時間が０より１秒未満の場合は音声合成開始位置のランクを１に設定し、経過時間が１秒以上２秒未満の場合は音声合成開始位置のランクを２に設定し、経過時間が２秒以上３秒未満の場合は音声合成開始位置のランクを３に設定し、経過時間が３秒以上の場合は音声合成開始位置のランクを４に設定する（ステップ１４３００）。音声合成制御手段は、音声合成を停止した位置より前で停止位置にもっとも近く、かつ、ステップ１４３００で決定したランクの値以上のランクをもつ音声合成開始位置より音声合成を再開する。ステップ１４３００で決定したランク値以上のランクをもつ音声合成開始位置が見つからなければ、文頭から音声合成を再開する（ステップ１４４００）。さらに、音声合成を再開する開始位置の繰り返し回数を１つ増やす（ステップ１４５００）。素片データベース８０は音声合成制御手段７０ｐより入力された読み情報に従って音韻強調処理手段１３０ｐへ合成単位を出力する（ステップ１４６００）。音声合成制御手段７０ｐは、音声合成を再開する開始位置の繰り返し回数が２以上かどうかを判断する（ステップ１４７００）。ステップ１４７００において繰り返し回数が２以上の場合、開始位置から停止位置の区間で音韻強調処理手段１３０ｐに強調制御信号を出力し、音韻強調処理手段１３０ｐにおいて合成単位ごとの強調処理を行う（ステップ１４８００）。ステップ１４７００において繰り返し回数が２未満の場合は、音声合成制御手段７０ｐは強調制御信号の出力をせず、音韻強調処理手段１３０ｐでは素片の強調処理を行わない。素片接続手段９０ｐは音声合成制御手段７０ｐより入力された韻律情報に従って、素片強調処理手段から入力された合成単位を接続して合成音声を生成し（ステップ９５００）、電気音響変換器６０を通して合成音声を出力する（ステップ１９００）。

　（実施例１６）
　以下本発明の第１６の実施例について、図面を参照しながら説明する。

　図４８に本発明の一実施例の音声合成装置の言語処理部の構成図を示す。構文解析部１０１は、入力文に対して形態素解析、および、構文解析を行い、入力文を構成する単語列、文節列、文節間の係り受け構造を含んだ構文解析結果を出力する。音声合成開始位置規則保持部１０３は、音声合成開始位置決定部１０２において設定すべき音声合成開始位置の前後の文節、および、文節間の係り受け構造の条件を記述した規則を保持する。図４９は、音声合成開始位置規則部１０３が保持する音声合成開始位置規則の一例を示す図である。音声合成開始位置決定部１０２は、音声合成開始位置を構文解析結果の文節列の間に設定する。図４９において、前文節パターンとは、音声合成開始位置の直前に位置する文節の条件を指定するものである。同様に後文節パターンとは、音声合成開始位置の直後に位置する文節の条件を指定するものである。各文節パターンの形式をＢＮＦ表記で表すと、
　＜文節パターン＞　：＝　＊｜（＜文節名＞　＜形態素列＞）
　　　　＜文節名＞　：＝　名詞句｜述語句｜副詞句｜…
　　　＜形態素列＞　：＝　＊｜（＜形態素＞）｜（＜形態素＞＜形態素列＞）
　　　　＜形態素＞　：＝　＊｜＋｜（＜品詞＞　＜表記＞）
　　　　　＜品詞＞　：＝　名詞｜助詞｜読点｜…
　　　　　＜表記＞　：＝　＊｜は｜から｜、｜…となる。「＊」は任意の文節、任意の形態素列、任意の形態素、あるいは、任意の表記を表す。「＋」は任意の形態素の並びを表す。ランクとは、該当する音声合成開始位置に割り当てられる値であり、制御部１０６がこの値に基づいて音声合成開始位置を選択する。本実施例においては、入力テキストを音声合成する際に音声合成開始位置において挿入されるポーズの長さが長いほどランクの値が大きくなるようにしてある。図４９の一番目の音声合成開始位置規則は、助詞「は」で終わる名詞句と任意の文節との間にランク３の音声合成開始位置を設定するという意味である。音声合成開始位置決定部１０２は、構文解析部１０１が出力した構文解析結果に対して、音声合成開始位置規則保持部１０３に保持される音声合成開始位置規則と構文解析結果に含まれる文節列との照合を行い、照合が成功した箇所に音声合成開始位置およびランクを設定する。図５０は、音声合成開始位置決定部の処理を示す図である。入力テキストは、構文解析部１０１によって処理され、図５０に示すような文節列を生成する。この文節列に対して、音声合成開始位置決定部１０２は、文節列の先頭から２文節に対して音声合成開始位置規則を順に照合し、照合に成功した２文節の間に規則に記述されたランクをもつ音声合成開始位置を設定する。図５０の例では、１番目の２文節間に図４９の２番目の規則が、２番目の２文節間に図４９の３番目の規則が、３番目の２文節間に図４９の４番目の規則が、おのおの照合し、図５０の一番下に示されるようなランクをもつ音声合成開始位置が設定される。どの音声合成開始位置規則にも照合しなかった２文節間には音声合成開始位置は設定されない。

　強調語決定部１０４は、構文解析部１０１が出力した構文解析結果に対して、強調語規則保持部１０５に保持される強調語規則と構文解析結果に含まれる単語列の照合を行い、強調して発音すべき単語を決定する。図５１は、強調語保持部１０５が保持する強調語の規則の一例を示す図である。図５１において、強調語条件は、強調すべき単語の条件を記述したものである。強調語の形式をＢＮＦ表記であらわすと、
　＜強調語条件＞　：＝　（＜品詞＞　＜表記＞）
　　　　＜品詞＞　：＝　名詞｜動詞｜形容詞｜…
　　　　＜表記＞　：＝　＊｜ある｜ない｜…となる。「＊」は任意の表記を表す記号である。強調語条件に当てはまる単語に対して、右側の欄の強調ＯＮ／ＯＦＦの記述に従って、強調の情報を割り当てる。図５２は、強調語決定部の処理を示す図である。図５２において、入力テキストを構文解析部１０１が処理し、単語列を生成する。強調語決定部１０２は、単語列の先頭から順に強調語規則と照合し、照合に成功した場合には強調ＯＮ／ＯＦＦの情報を付与する。図５２の単語の（形容詞　ない）については、強調語条件（形容詞　＊）と強調語条件（形容詞　ない）の両方が照合するが、強調語条件（形容詞　ない）は表記が指定されているより詳細な条件であり、照合の際には優先される。照合の結果、図５２の一番下のような強調語情報が得られる。どの強調語規則にも照合しなかった単語の強調はＯＦＦである。

　（実施例１７）
　以下本発明の第１７の実施例について、図面を参照しながら音声素片作成時における強調処理の一例を上げて説明する。

　図５３に第１７の実施例による音声素片作成の動作を示す流れ図を、図５４に振幅圧縮処理の入出力特性の模式図を示す。

　まず、対象となる音声波形から最初の波形を切り出す（ステップ１５０００）。次にステップ１５０００で切り出された切り出し波形データに、あらかじめ設定しておいた利得値Gを掛け（ステップ１５０１０）、その結果の絶対値の最大値を求め、Amaxに記憶する（ステップ１５０２０）。Amaxがあらかじめ設定しておいたAlimの値よりも大きい場合（ステップ１５０３０）、切り出し波形を(Alim/Amax)倍する（ステップ１５０４０）。また、AmaxがAlimより小さいか等しい場合は何もしない。今回切り出した波形が最後の波形であれば（ステップ１５０５０）終了する。そうでなければ次の波形を切り出し（ステップ１５０６０）、ステップ１５０１０から繰り返す。

　このようにすることにより、音声波形にリミッタを用いた場合に起こる時定数の問題などがなく、理想的な振幅圧縮が可能である。図５３に示した振幅圧縮処理をリミッタの入出力特性に例えると図５４（ａ）のように表すことができる。この曲線は例えば図５４（ｂ）や（ｃ）などのように任意に選ぶことができるので様々な振幅圧縮処理が可能となる。また、対象となる音声素片の種別（無声子音、有声子音の別など）によって曲線を選ぶなど、音韻別の振幅圧縮も可能である。さらに、あらかじめ子音部の開始点、終了点などにラベルを付与しておくことにより、子音部と母音部を別の曲線で圧縮することもできる。

　上記のように様々な振幅圧縮法が選べることから、特定の子音の特定の部分を強調するなどの音韻強調法として有効である。すなわち音声素片作成時のこのような処理は、音声強調法として非常に自由度が高くきめ細かい処理が可能である。また、このような処理は完全に前処理として実行されるため、音声合成時の処理速度に何ら影響を与えないという利点もある。

　従って、いかなる複雑な音声強調処理を施すことも可能となる。そこで、フォルマント強調などの周波数領域の強調や、切り出しの対象となる音声波形を複数の帯域に分割して振幅圧縮などを施すことや、切り出し時に同等の処理を加えることにより、難聴者や騒音下での使用に適した合成音声を提供することが可能となる。特に、波形の切り出し時に補聴器の信号処理に相当する処理を加えることは、これまで時定数や未知の入力に対する処理の限界などによって不可能であったきめ細かい強調処理が可能となる。

　なお、実施例１７では音声素片に対する処理として主に子音の強調を目的とする振幅の変形処理や周波数特性の変形処理について説明したが、例えば公知の時間長変形技術を用いて子音部分の長さを調整することで明瞭度向上を図るなど、様々な波形変形処理を行ってもよい。

　なお、実施例１５においてマイクロフォン１１０は環境音信号を取り込んだが、使用者の発声を取り込むものとしても良い。

　なお、実施例１５において素片の強調処理を行ったが、強調処理を施した素片データベースと強調処理を施さない素片データベースとを切り替える、あるいは素片接続後の合成音声に強調処理を行うものとしても良い。

　なお、実施例１、実施例８において強調処理は母音部の延長、クロージャーの延長、フォルマント強調、子音強調、および帯域強調としたが、これ以外の強調方法を用いても良い。

　なお、実施例１、実施例８においてｐが１５より小さい場合にフォルマント強調情報を真とするとしたが、これ以外の値としても良い。

　なお、実施例１、実施例８においてギャップ検出域が１０ｍｓ以上の場合に子音強調情報を真とするとしたが、これ以外の値としても良い。

　なお、実施例１、実施例８において２ｋＨｚ以上の平均聴力レベルと２ｋＨｚ未満の平均聴力レベルの差が３０ｄＢ以上の場合に帯域強調情報を真とするとしたが、２ｋＨｚ以外の周波数を帯域の境界としても良い。また帯域間の平均聴力レベルの差の基準は３０ｄＢ以外の値でも良い。

　なお、実施例１、実施例２、実施例４、実施例８において強調部情報が真の場合に母音定常部を２０％延長するとしたが、これ以外の値でも良い。また、子音部分の時間長を延長するとしても良い。

　なお、実施例１、実施例２において強調部情報が真の場合にクロージャーを２０％延長するとしたが、これ以外の値でも良い。

　なお、実施例１、実施例４、実施例７において環境音を１ｋＨｚ以下、１ｋＨｚから２ｋＨｚ、２ｋＨｚ〜４ｋＨｚ、４ｋＨｚ以上の帯域に分割したが、これ以外の分割の方法でも良い。

　なお、実施例１において１ｋＨｚ以下、１ｋＨｚから２ｋＨｚ、２ｋＨｚ〜４ｋＨｚ、４ｋＨｚ以上の各帯域において、それぞれ２０ｄＢＳＰＬ／Ｈｚ、２０ｄＢＳＰＬ／Ｈｚ、１５ｄＢＳＰＬ／Ｈｚ、１０ｄＢＳＰＬ／Ｈｚ以上の環境があるときは圧縮パラメータを設定し、圧縮処理を行うとしたが、これ以外の値でも良い。

　なお、実施例４において１ｋＨｚ以下の環境音平均レベルが２０ｄＢＳＰＬ／Ｈｚ以上かつ、１ｋＨｚから２ｋＨｚの環境音平均レベルが２０ｄＢＳＰＬ／Ｈｚかつ、他の帯域の環境音平均レベルが１５ｄＢＳＰＬ／Ｈｚ以下である場合にフォルマント強調情報を真とするとしたが、これ以外の値でも良い。

　なお、実施例４において１ｋＨｚから２ｋＨｚの環境音平均レベルが２０ｄＢＳＰＬ／Ｈｚ以上かつ、２ｋＨｚから４ｋＨｚの環境音平均レベルが１５ｄＢＳＰＬ／Ｈｚかつ、１ｋＨｚ以下の環境音平均レベルが２０ｄＢＳＰＬ／Ｈｚ以下あるいは４ｋＨＺ以上の環境音平均レベルが１５ＤＢＳＰＬ／Ｈｚ以下の場合に子音強調情報を真としたが、これ以外の値としても良い。

　なお、実施例４において１ｋＨｚ以下、１ｋＨｚから２ｋＨｚ、２ｋＨｚ〜４ｋＨｚ４ｋＨｚ以上の各帯域において、それぞれ２０ｄＢＳＰＬ／Ｈｚ、２０ｄＢＳＰＬ／Ｈｚ、１５ｄＢＳＰＬ／Ｈｚ、１０ｄＢＳＰＬ／Ｈｚ以上の環境があるときは各帯域の帯域強調情報を真とするとしたが、これ以外の値としても良い。

　なお、実施例７においてステップ７５００のように圧縮パラメータを設定したがこれ以外の基準および方法を用いても良い。

　なお、実施例９において環境音の平均レベルが３０ｄＢ（Ａ）以上の場合に基本周波数を２０％高くするとしたが、これ以外の基準値でもよい。また基本周波数の変更はこれ以外の値としても良い。

　なお、実施例１０において２ｋＨｚ以上の平均聴力レベルと２ｋＨｚ未満の平均聴力レベルの差が３０ｄＢ以上の場合に基本周波数を２０％低くするとしたが２ｋＨｚ以外の周波数を帯域の境界としても良い。また、差の値の基準はこれ以外の値としても良い。また、基本周波数の変更はこれ以外の値としても良い。

　なお、実施例１１、実施例１２において平均聴力レベルが４０ｄＢＨＬ以上の場合に和即を１０％遅くするとしたが、平均聴力レベル以外の聴覚特性を判断に用いても良い。また、平均聴力レベルの基準はこれ以外の値としても良い。また、平均聴力レベルの基準を４０ｄＢＨＬとしたがこれ以外の値でも良い。また、話速を１０％遅くするとしたがこれ以外の値としても良い。

　なお、実施例１３、実施例１５において環境音の平均レベルが７０ｄＢ（Ａ）を越えた場合に音声合成を停止するとしたが、これ以外の値としても良い。なお、実施例２、実施例５、実施例８において素片データベースあるいはフォルマント強調フィルタの切替にスイッチを用いたが、ソフトウェア的に切り替えても良い。

　以上説明したように、本実施形態によれば、使用者の聴覚特性に合わせて合成した音声に強調処理あるいは振幅のダイナミックレンジを圧縮する処理を施す、あるいは使用場面の騒音環境に合わせて合成した音声に強調処理あるいは振幅のダイナミックレンジを圧縮する処理を施す。また、データベースに記憶された合成単位に使用者の聴覚特性に合わせて強調処理あるいは振幅のダイナミックレンジを圧縮する処理を施した後に音声を合成する、あるいは使用場面の騒音環境に合わせてデータベースに記憶された合成単位に強調処理あるいは振幅のダイナミックレンジを圧縮する処理を施した後に音声を合成する。また、あらかじめ強調処理あるいは振幅のダイナミックレンジを圧縮する処理を施した合成単位を用いて音声を合成する。また、音声の合成を中断した際に言語処理結果に基づき停止位置以前で内容理解のしやすいテキスト上の点まで戻って音声の合成を再開する。また、言語処理に基づき強調処理を行う部分を設定することにより、聴覚障害のある使用者や、騒音下での使用でも情報を確実に伝達することができ、その実用的効果は大きい。

本発明における音声合成装置の第１の実施例の構成ブロック図同実施例の動作を説明するための流れ図同実施例の動作を説明するための流れ図同実施例の動作を説明するための流れ図同実施例の動作を説明するための流れ図同実施例の動作を説明するための流れ図同実施例のフォルマント強調方法の模式図同実施例の子音強調方法の模式図本発明における音声合成装置の第２の実施例の構成ブロック図同実施例の動作を説明するための流れ図同実施例の動作を説明するための流れ図本発明における音声合成装置の第３の実施例の構成ブロック図同実施例の動作を説明するための流れ図本発明における音声合成装置の第４の実施例の構成ブロック図同実施例の動作を説明するための流れ図同実施例の動作を説明するための流れ図同実施例の動作を説明するための流れ図同実施例の動作を説明するための流れ図本発明における音声合成装置の第５の実施例の構成ブロック図同実施例の動作を説明するための流れ図本発明における音声合成装置の第６の実施例の構成ブロック図同実施例の動作を説明するための流れ図本発明における音声合成装置の第７の実施例の構成ブロック図同実施例の動作を説明するための流れ図同実施例の動作を説明するための流れ図本発明における音声合成装置の第８の実施例の構成ブロック図同実施例の動作を説明するための流れ図同実施例の動作を説明するための流れ図同実施例のフォルマント強調方法の模式図本発明における音声合成装置の第９の実施例の構成ブロック図同実施例の動作を説明するための流れ図同実施例の動作を説明するための流れ図本発明における音声合成装置の第１０の実施例の構成ブロック図同実施例の動作を説明するための流れ図同実施例の動作を説明するための流れ図本発明における音声合成装置の第１１の実施例の構成ブロック図同実施例の動作を説明するための流れ図同実施例の動作を説明するための流れ図本発明における音声合成装置の１２の実施例の構成ブロック図同実施例の動作を説明するための流れ図同実施例の動作を説明するための流れ図本発明における音声合成装置の１３の実施例の構成ブロック図同実施例の動作を説明するための流れ図本発明における音声合成装置の１４の実施例の構成ブロック図同実施例の動作を説明するための流れ図本発明における音声合成装置の１５の実施例の構成ブロック図同実施例の動作を説明するための流れ図本発明における音声合成装置の１６の実施例の構成ブロック図同実施例のランク決定方法の模式図同実施例の動作を説明するための模式図同実施例の強調部分選択方法の模式図同実施例の動作を説明するための模式図本発明における音声素片作成方法の実施例１７の動作を説明するための流れ図同実施例の振幅圧縮処理方法の模式図従来の音声合成装置の構成ブロック図従来の音声素片作成方法の波形の切り出し方法の模式図従来の音声合成装置の素片の接続方法の模式図

符号の説明

　１０　　テキスト入力手段
　２０　　言語処理手段
　３０ａ，３０ｂ，３０ｃ，３０ｄ，３０ｅ，３０ｆ，３０ｇ，３０ｈ，３０ｍ，３０ｎ，３０ｏ，３０ｐ　　音声合成部
　４０ｂ，４０ｅ，４０ｍ，４０ｏ　　操作手段
　５０ａ，５０ｂ，５０ｃ，５０ｄ，５０ｅ，５０ｇ，５０ｈ，５０ｉ，５０ｊ，５０ｋ，５０ｌ，５０ｍ　　声質制御手段
　６０　　電気音響変換器
　７０ａ，７０ｂ，７０ｃ，７０ｄ，７０ｅ，７０ｆ，７０ｇ，７０ｈ，７０ｍ，７０ｎ，７０ｏ，７０ｐ　　音声合成制御手段
　８０，２８０ａ，２８０ｂ，２８０ｃ，２８０ｄ，２８０ｎ，３８０ａ，３８０ｂ，３８０ｃ，３８０ｄ，３８０ｎ，５８０ａ，５８０ｂ，５８０ｃ，５８０ｄ，５８０ｎ，６８０ａ，６８０ｂ，６８０ｃ，６８０ｄ，６８０ｎ　　素片データベース
　９０ａ，９０ｂ，９０ｄ，９０ｅ，９０ｆ，９０ｇ，９０ｈ，９０ｍ，９０ｎ　　素片接続手段
　１１０　　マイクロフォン
　１２０　　聴覚特性測定手段
　１３０ａ，１３０ｄ，１３０ｈ，１３０ｐ　　音韻強調処理手段
　１４０ａ，１４０ｂ，１４０ｇ　　圧縮処理手段
　２００ｂ，２００ｅ　　データベース部
　２１０ｂ，２１０ｅ　　スイッチ
　２２０　　聴覚特性記憶手段
　３００　　素片データベース読み取り手段
　３１０　　聴覚特性読み取り手段
　３２０ａ，３２０ｂ，３２０ｃ，３２０ｄ，３２０ｎ　　聴覚特性
　８００　　強調フィルタ部
　８１０ａ，８１０ｂ，８１０ｃ，８１０ｄ，８１０ｎ　　フォルマント強調フィルタ
　８２０　　スイッチ
　９００，９００ｐ　　言語処理部
　９１０　　構文解析手段
　９２０　　音声合成開始位置決定手段
　９３０　　強調決定手段
　９４０　　時計手段
　１０１　　構文解析部
　１０２　　音声合成開始位置決定部
　１０３　　音声合成開始位置規則保持部
　１０４　　強調語決定部
　１０５　　強調語規則保持部
　１０６　　制御部

Claims

テキストを構文解析する構文解析部と、前記構文解析部の解析結果に基づいてテキストの文中に複数の音声合成開始位置を定める音声合成開始位置決定部と、前記構文解析部の構文解析結果に基づいて前記テキストに従って音声を合成する音声合成部と、マイクロフォンより入力された環境音を分析しその環境音の物理特性に基づいて音声合成の中断および再開を決定し、前記音声合成開始位置決定部が設定した音声合成開始位置に従って音声合成の開始を制御する制御部とを備えた音声合成装置。
音声合成開始位置決定部は、文中の読点の直後など、長いポーズが入る箇所を音声合成開始位置として定めることを特徴とする請求項２記載の音声合成装置。
制御部はマイクロフォンより入力された環境音が予め定められた周波数帯域において予め定められた音圧レベルを超えた場合に音声合成を中断する信号を音声合成部に出力し、音声合成の中断後、マイクロフォンより入力された環境音が予め定められた周波数帯域において予め定められた音圧レベルを下回る場合に音声合成を再開する信号を音声合成部に出力する請求項１、又は２記載の音声合成装置。
音声合成開始位置決定部は、音声合成開始位置に対してランク付けを行い、制御部は前記音声合成開始位置のランクによって開始位置を選択することを特徴とする請求項１から３のいずれかに記載の音声合成装置。
制御部は音声合成の中断後、マイクロフォンより入力された環境音が予め定められた周波数帯域において予め定められた音圧レベルを下回る場合に音声合成を再開する信号を音声合成部に出力し、前記音声合成部は前記制御部より入力された音声合成再開信号により音声合成開始位置決定部が設定した音声合成開始位置より音声を合成し強調処理を行う、あるいは強調処理を行った合成単位を用いて音声合成を再開する請求項３記載の音声合成装置。
テキストを構文解析する構文解析部と、前記構文解析部の解析結果に基づいてテキストの文中の強調して合成すべき単語を決定する強調語決定部と、前記構文解析部の解析結果に基づいてテキストに従って音声を合成する音声合成部と、マイクロフォンより入力された環境音を分析しその環境音の物理特性に基づいて音声合成の中断および再開を決定し、音声合成の再開後は前記強調語決定部により定められた特定の単語を強調するよう前記音声合成部を制御する制御部とを備えた音声合成装置。
制御部はマイクロフォンより入力された環境音が予め定められた周波数帯域において予め定められた音圧レベルを超えた場合に音声合成を中断する信号を音声合成部に出力し、音声合成の中断後マイクロフォンより入力された環境音が予め定められた周波数帯域において予め定められた音圧レベルを下回る場合に音声合成を再開する信号を音声合成部に出力する請求項６記載の音声合成装置。
制御部は音声合成の中断後、マイクロフォンより入力された環境音が予め定められた周波数帯域において予め定められた音圧レベルを下回る場合に音声合成を再開する信号を音声合成部に出力し、前記音声合成部は前記制御部より入力された音声合成再開信号により音声合成開始位置決定部が設定した音声合成開始位置より音声を合成し強調語決定部により定められた特定の単語に強調処理を行う、あるいは前記特定の単語を合成する際に強調処理を行った合成単位を用いて音声合成を行う請求項７記載の音声合成装置。
テキストを構文解析し、前記解析結果に基づいてテキストの文中に複数の音声合成開始位置を定めるステップと、前記構文解析結果に基づいて前記テキストに従って音声を合成する音声合成ステップと、音声入力手段より入力された環境音を分析しその環境音の物理特性に基づいて音声合成の中断および再開を決定し、前記設定した音声合成開始位置に従って音声合成の開始を行うステップとを有する音声合成方法。
テキストを構文解析し、前記解析結果に基づいてテキストの文中の強調して合成すべき単語を決定する強調語決定ステップと、前記構文解析結果に基づいてテキストに従って音声を合成する音声合成ステップと、音声入力手段より入力された環境音を分析しその環境音の物理特性に基づいて音声合成の中断および再開を決定し、音声合成の再開後は前記強調語決定ステップにより定められた特定の単語を強調するステップとを備えた音声合成方法。
テキストを構文解析する構文解析部と、前記構文解析部の解析結果に基づいてテキストの文中に複数の音声合成開始位置を定める音声合成開始位置決定部と、前記構文解析部の構文解析結果に基づいて前記テキストに従って音声を合成する音声合成部と、操作手段より入力された操作信号に基づいて音声合成の中断および再開を決定し、前記音声合成開始位置決定部が設定した音声合成開始位置に従って音声合成の開始を制御する制御部とを備えた音声合成装置。
テキストを構文解析する構文解析部と、前記構文解析部の解析結果に基づいてテキストの文中の強調して合成すべき単語を決定する強調語決定部と、前記構文解析部の解析結果に基づいてテキストに従って音声を合成する音声合成部と、操作手段より入力された操作信号に基づいて音声合成の中断および再開を決定し、音声合成の再開後は前記強調語決定部により定められた特定の単語を強調するよう前記音声合成部を制御する制御部とを備えた音声合成装置。
テキストを構文解析し、前記解析結果に基づいてテキストの文中に複数の音声合成開始位置を定めるステップと、前記構文解析結果に基づいて前記テキストに従って音声を合成する音声合成ステップと、操作手段より入力された操作信号に基づいて音声合成の中断および再開を決定し、前記設定した音声合成開始位置に従って音声合成の開始を行うステップとを有する音声合成方法。
テキストを構文解析し、前記解析結果に基づいてテキストの文中の強調して合成すべき単語を決定する強調語決定ステップと、前記構文解析結果に基づいてテキストに従って音声を合成する音声合成ステップと、操作手段より入力された操作信号に基づいて音声合成の中断および再開を決定し、音声合成の再開後は前記強調語決定ステップにより定められた特定の単語を強調するステップとを備えた音声合成方法。