本発明の一実施形態では、使用者の聴覚特性に合わせて合成した音声に強調処理あるいは振幅のダイナミックレンジを圧縮する処理を施す、あるいは使用場面の騒音環境に合わせて合成した音声に強調処理あるいは振幅のダイナミックレンジを圧縮する処理を施す。また、使用者の聴覚特性に合わせてデータベースに記憶された合成単位に強調処理あるいは振幅のダイナミックレンジを圧縮する処理を施した後に音声を合成する、あるいは使用場面の騒音環境に合わせてデータベースに記憶された合成単位に強調処理あるいは振幅のダイナミックレンジを圧縮する処理を施した後に音声を合成する。また、あらかじめ強調処理あるいは振幅のダイナミックレンジを圧縮する処理を施した合成単位を用いて音声を合成する。また、音声の合成を中断した際に言語処理結果に基づき停止位置以前で内容理解のしやすいテキスト上の点まで戻って音声の合成を再開する。また、言語処理に基づき強調処理を行う部分を設定することにより、聴覚障害のある使用者や、騒音下での使用でも情報を確実に伝達することができる。
そして本発明の第一の実施形態は、テキストを構文解析する構文解析部と、前記構文解析部の解析結果に基づいてテキストの文中に複数の音声合成開始位置を定める音声合成開始位置決定部と、前記構文解析部の構文解析結果に基づいて前記テキストに従って音声を合成する音声合成部と、マイクロフォンより入力された環境音を分析しその環境音の物理特性に基づいて音声合成の中断および再開を決定し、前記音声合成開始位置決定部が設定した音声合成開始位置に従って音声合成の開始を制御する制御部とを備えた音声合成装置である。
好ましくは、音声合成開始位置決定部は、文中の読点の直後など、長いポーズが入る箇所を音声合成開始位置として定める。
好ましくは、制御部はマイクロフォンより入力された環境音が予め定められた周波数帯域において予め定められた音圧レベルを超えた場合に音声合成を中断する信号を音声合成部に出力し、音声合成の中断後、マイクロフォンより入力された環境音が予め定められた周波数帯域において予め定められた音圧レベルを下回る場合に音声合成を再開する信号を音声合成部に出力する。
好ましくは、音声合成開始位置決定部は、音声合成開始位置に対してランク付けを行い、制御部は前記音声合成開始位置のランクによって開始位置を選択する。
好ましくは、制御部は音声合成の中断後、マイクロフォンより入力された環境音が予め定められた周波数帯域において予め定められた音圧レベルを下回る場合に音声合成を再開する信号を音声合成部に出力し、前記音声合成部は前記制御部より入力された音声合成再開信号により音声合成開始位置決定部が設定した音声合成開始位置より音声を合成し強調処理を行う、あるいは強調処理を行った合成単位を用いて音声合成を再開する。
本発明の第ニの実施形態は、テキストを構文解析する構文解析部と、前記構文解析部の解析結果に基づいてテキストの文中の強調して合成すべき単語を決定する強調語決定部と、前記構文解析部の解析結果に基づいてテキストに従って音声を合成する音声合成部と、マイクロフォンより入力された環境音を分析しその環境音の物理特性に基づいて音声合成の中断および再開を決定し、音声合成の再開後は前記強調語決定部により定められた特定の単語を強調するよう前記音声合成部を制御する制御部とを備えた音声合成装置である。
好ましくは、制御部はマイクロフォンより入力された環境音が予め定められた周波数帯域において予め定められた音圧レベルを超えた場合に音声合成を中断する信号を音声合成部に出力し、音声合成の中断後マイクロフォンより入力された環境音が予め定められた周波数帯域において予め定められた音圧レベルを下回る場合に音声合成を再開する信号を音声合成部に出力する。
好ましくは、制御部は音声合成の中断後、マイクロフォンより入力された環境音が予め定められた周波数帯域において予め定められた音圧レベルを下回る場合に音声合成を再開する信号を音声合成部に出力し、前記音声合成部は前記制御部より入力された音声合成再開信号により音声合成開始位置決定部が設定した音声合成開始位置より音声を合成し強調語決定部により定められた特定の単語に強調処理を行う、あるいは前記特定の単語を合成する際に強調処理を行った合成単位を用いて音声合成を行う。
本発明の第三の実施形態は、テキストを構文解析し、前記解析結果に基づいてテキストの文中に複数の音声合成開始位置を定めるステップと、前記構文解析結果に基づいて前記テキストに従って音声を合成する音声合成ステップと、音声入力手段より入力された環境音を分析しその環境音の物理特性に基づいて音声合成の中断および再開を決定し、前記設定した音声合成開始位置に従って音声合成の開始を行うステップとを有する音声合成方法である。
本発明の第四の実施形態は、テキストを構文解析し、前記解析結果に基づいてテキストの文中の強調して合成すべき単語を決定する強調語決定ステップと、前記構文解析結果に基づいてテキストに従って音声を合成する音声合成ステップと、音声入力手段より入力された環境音を分析しその環境音の物理特性に基づいて音声合成の中断および再開を決定し、音声合成の再開後は前記強調語決定ステップにより定められた特定の単語を強調するステップとを備えた音声合成方法である。
本発明の第五の実施形態は、テキストを構文解析する構文解析部と、前記構文解析部の解析結果に基づいてテキストの文中に複数の音声合成開始位置を定める音声合成開始位置決定部と、前記構文解析部の構文解析結果に基づいて前記テキストに従って音声を合成する音声合成部と、操作手段より入力された操作信号に基づいて音声合成の中断および再開を決定し、前記音声合成開始位置決定部が設定した音声合成開始位置に従って音声合成の開始を制御する制御部とを備えた音声合成装置である。
本発明の第六の実施形態は、テキストを構文解析する構文解析部と、前記構文解析部の解析結果に基づいてテキストの文中の強調して合成すべき単語を決定する強調語決定部と、前記構文解析部の解析結果に基づいてテキストに従って音声を合成する音声合成部と、操作手段より入力された操作信号に基づいて音声合成の中断および再開を決定し、音声合成の再開後は前記強調語決定部により定められた特定の単語を強調するよう前記音声合成部を制御する制御部とを備えた音声合成装置。
本発明の第七の実施形態は、テキストを構文解析し、前記解析結果に基づいてテキストの文中に複数の音声合成開始位置を定めるステップと、前記構文解析結果に基づいて前記テキストに従って音声を合成する音声合成ステップと、操作手段より入力された操作信号に基づいて音声合成の中断および再開を決定し、前記設定した音声合成開始位置に従って音声合成の開始を行うステップとを有する音声合成方法である。
本発明の第八の実施形態は、テキストを構文解析し、前記解析結果に基づいてテキストの文中の強調して合成すべき単語を決定する強調語決定ステップと、前記構文解析結果に基づいてテキストに従って音声を合成する音声合成ステップと、操作手段より入力された操作信号に基づいて音声合成の中断および再開を決定し、音声合成の再開後は前記強調語決定ステップにより定められた特定の単語を強調するステップとを備えた音声合成方法である。
(実施例1)
以下本発明の第1の実施例について、図面を参照しながら説明する。
図1は本発明の音声合成装置の第1の実施例を示す構成ブロック図である。図2に第1の実施例の動作を説明するための流れ図を、図3、図4、図5、図6に動作を説明するための流れ図の一部を示す。図7、図8に第1の実施例の強調処理の模式図をしめす。図1において図55と同一物または部分については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。図55の音声合成部30mが音声合成部30aに置き換わり、声質制御手段50mが声質制御手段50aに置き換わり、操作手段40mがマイクロフォン110に置き換わり、聴覚特性測定手段120が付け加わった以外は図55と同一な構成である。前記の音声合成部30aは、言語処理手段20より入力された読み情報、韻律情報、強調部情報に基づき音声合成部30aを制御する音声合成制御手段70a、音声を母音/子音/母音の連鎖などの所望の合成単位で記憶しておく素片データベース80、素片データベース80に記憶された合成単位に強調処理を施す音韻強調処理手段130a、音韻強調処理手段130aで処理された合成単位をつなげて合成音声を生成する素片接続手段90aおよび素片接続手段90aで生成された合成音声に振幅のダイナミックレンジを圧縮する圧縮処理を施す圧縮処理手段140aを有する。
以上のように構成されたこの実施例の音声合成装置において、以下その動作を図1、図2、図3、図4、図5、図6に従って説明する。
まず聴覚特性測定手段120で使用者の聴覚特性を測定し、測定結果を声質制御手段50aに出力する。(ステップ1000)。測定方法は例えば1992年、Audiology Japan巻35、401頁から402頁や平成5年,音響学会講演論文集春季、329頁〜330頁に示された測定方法のようにするものとする。声質制御手段50aは聴覚特性測定手段120より入力された測定結果に基づき強調処理の設定を決定する(ステップ1100)。まず使用者の周波数分解能を示すp値を15と比較する(ステップ1110)。ステップ1110においてp値が15未満の場合はフォルマント強調情報を真とする(ステップ1120)。もしステップ1110においてp値が15以上の場合はフォルマント強調情報を偽とする(ステップ1125)。次に使用者の時間分解能を示すギャップ検出閾値と10msを比較する(ステップ1130)。ステップ1130においてギャップの検出閾値が10ms以上である場合子音強調情報を真とする(ステップ1140)。もしステップ1130でギャップの検出閾値が10ms未満の場合は子音強調情報を偽とする(ステップ1150)。次に使用者の2kHz未満の平均聴力レベルと2kHz以上の平均聴力レベルを比較する(ステップ1160)。ステップ1160において2kHz以上の平均聴力レベルから2kHz未満の平均聴力レベルを減じた値が30dB以上の場合は帯域強調情報を真とする(ステップ1170)。もしステップ1170において2kHz以上の平均聴力レベルから2kHz未満の平均聴力レベルを減じた値が30dB未満の場合は帯域強調情報を偽とする(ステップ1180)。テキスト入力手段10は言語処理手段20に目的のテキストを入力する(ステップ1200)。次に言語処理手段20はテキスト入力手段10より入力されたテキストの構文解析を行い、読み情報、韻律情報および強調部情報を生成し音声合成制御手段70aに出力する(ステップ1300)。素片データベース80は音声合成制御手段70aより入力された読み情報に従って音韻強調処理手段130aに合成単位を出力する(ステップ1400)。音韻強調処理手段130aは音声合成制御手段70aより入力された強調部情報と声質制御手段50aより入力された制御信号に従って合成単位に強調処理を施す(ステップ1500)。音韻強調処理手段130aは音声合成制御手段70aより入力された強調部情報が真か偽かを判定する(ステップ1510)。ステップ1510において強調部情報が真である場合、合成単位中の母音定常部の時間長を20%延長し(ステップ1520)。声質制御手段50aより入力されたフォルマント強調情報が真か偽かを判定する(ステップ1530)。もしステップ1510において強調部情報が偽である場合、声質制御手段50aより入力されたフォルマント強調情報が真か偽かを判定する(ステップ1530)。ステップ1530においてフォルマント強調情報が真である場合、図7に示すように音韻強調処理手段130aは素片データベース80に記憶された合成単位に対応するフォルマント情報に従って、図7b)に示すようにフォルマントを含む帯域を選択的に通過させるようフィルタバンクの各フィルタの中心周波数および帯域幅を設定し、図7c)に示すようにフォルマントを含む帯域とフォルマントを含まない帯域とのコントラストを強調する(ステップ1540)。次に声質制御手段50aより入力された子音強調情報が真か偽かを判定する(ステップ1550)。もしステップ1530においてフォルマント強調情報が偽である場合、声質制御手段50aより入力された子音強調情報が真か偽かを判定する(ステップ1550)。ステップ1550において子音強調情報が真である場合、音韻強調処理手段130aは図8に示すような素片データベース80に記憶された合成単位に対応するラベル情報に従って、合成単位中の子音および子音から母音への渡りの振幅を図8に示すように増幅する(ステップ1560)。次に声質制御手段50aより入力された帯域強調情報が真か偽かを判定する(ステップ1570)。もしステップ1560において子音強調情報が偽である場合、声質制御手段50aより入力された帯域強調情報が真か偽かを判定する(ステップ1570)。ステップ1570において帯域強調情報が真である場合、音韻強調処理手段130aは合成単位中の子音に2kHz以上の帯域を強調する高帯域強調処理を行い(ステップ1580)、合成単位を素片接続手段90aに出力する(ステップ1590)。もしステップ1570において帯域強調情報が偽である場合、音韻強調処理手段130aは合成単位を素片接続手段90に出力する(ステップ1590)。素片接続手段90aは音声合成制御手段70aより入力された韻律情報および強調部情報に従って音韻強調処理手段130aより入力された合成単位を合成し合成音声を生成する(ステップ1600)。まず素片接続手段90aは音声合成制御手段70aより入力された強調部情報が真か偽かを判定する(ステップ1610)。ステップ1610において強調部情報が真の場合、素片接続手段90aは合成単位に対応するクロージャーの値を20%延長し(ステップ1620)、音声合成制御手段70aより入力された韻律情報に従って合成音声を生成し(ステップ1630)、圧縮処理手段140aに出力する(ステップ1640)。もしステップ1610において強調処理情報が偽の場合、素片接続手段90aは音声合成制御手段70aより入力された韻律情報に従って合成音声を生成し(ステップ1630)圧縮処理手段140aに出力する(ステップ1640)。圧縮処理手段140aは声質制御手段50aの制御信号に従って素片接続手段90aで生成された合成音声の振幅のダイナミックレンジを圧縮する(ステップ1700)。まず声質制御手段50aはマイクロフォン110より入力された環境音を1kHz以下、1kHz〜2kHz、2kHz〜4kHz、4kHz以上の帯域に分割し、帯域ごとに100msの平均レベルを求める(ステップ1710)。1kHz以下の環境音の平均レベルと20dBSPL/Hzとを比較する(ステップ1730)。ステップ1730において1kHz以下の環境音の平均レベルが20dBSPL/Hz以上である場合、声質制御手段50aは合成音声の1kHz以下の成分のレベルのダイナミックレンジが1kHz以下の環境音の平均レベルの値〜90dBSPLとなるように圧縮処理のパラメータを設定し(ステップ1740)、1kHz〜2kHzの環境音の平均レベルと20dBSPL/Hzとを比較する(ステップ1750)。もしステップ1730において1kHz以下の環境音が20dBSPL/Hz未満である場合、1kHz〜2kHzの環境音の平均レベルと20dBSPL/Hzとを比較する(ステップ1750)。ステップ1750において1kHz〜2kHzの環境音の平均レベルが20dBSPL/Hz以上である場合、声質制御手段50aは合成音声の1kHz〜2kHzの成分のレベルのダイナミックレンジが1kHz〜2kHzの環境音の平均レベルの値〜90dBSPLとなるように圧縮処理のパラメータを設定し(ステップ1760)、2kHz〜4kHzの環境音の平均レベルと15dBSPL/Hzとを比較する(ステップ1770)。もしステップ1750において1kHz〜2kHzの環境音が20dBSPL/Hz未満である場合、2kHz〜4kHzの環境音の平均レベルと15dBSPL/Hzとを比較する(ステップ1770)。ステップ1770において2kHz〜4kHzの環境音の平均レベルが15dBSPL/Hz以上である場合、声質制御手段50aは合成音声の2kHz〜4kHzの成分のレベルのダイナミックレンジが2kHz〜4kHzの環境音の平均レベルの値〜80dBSPLとなるように圧縮処理のパラメータを設定し(ステップ1780)、4kHz以上の環境音の平均レベルと10dBSPL/Hzとを比較する(ステップ1790)。もしステップ1770において2kHz〜4kHzの環境音が15dBSPL/Hz未満である場合、4kHz以上の環境音の平均レベルと10dBSPL/Hzとを比較する(ステップ1790)。ステップ1790において4kHz以上の環境音の平均レベルが10dBSPL/Hz以上である場合、声質制御手段50aは合成音声の4kHz以上の成分のレベルのダイナミックレンジが4kHz以上の環境音の平均レベルの値〜60dBSPLとなるように圧縮処理のパラメータを設定し(ステップ1800)、圧縮処理手段140aに制御信号を出力する(ステップ1810)。もしステップ1790において4kHz以上の環境音の平均レベルが10dBSPL/Hz未満である場合、圧縮処理手段140aに制御信号を出力する(ステップ1810)。圧縮処理手段140aは声質制御手段50aより入力された制御信号に基づき素片接続手段90aより入力された合成音声に圧縮処理を行う(ステップ1820)。圧縮処理の方法は例えば1991年音響学会誌、巻47、373頁から379頁に示された処理のようにするものとする。圧縮処理手段140aは電気音響変換器60を通して合成音声を出力する(ステップ1900)。
(実施例2)
以下本発明の第2の実施例について、図面を参照しながら説明する。
図9は本発明の音声合成装置の第2の実施例を示す構成ブロック図である。図10に第2の実施例の動作を説明するための流れ図を、図11に動作を説明するための流れ図の一部を示す。図9において図1と同一物または部分については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。図1の音声合成部30aが音声合成部30bに置き換わり、声質制御手段50aが声質制御手段50bに置き換わり、マイクロフォン110が操作手段40bに置き換わり、聴覚特性測定手段120が聴覚特性記憶手段220に置き換わった以外は図1と同一な構成である。前記の音声合成部30bは、音声合成制御手段70b、合成単位を記憶しておくデータベース部200b、合成単位に振幅のダイナミックレンジを圧縮する圧縮処理を施す圧縮処理手段140b、圧縮処理手段140bで処理された合成単位をつなげて合成音声を生成する素片接続手段90bを有する。前記のデータベース部200bは異なる複数の強調処理を施された素片を施された強調処理ごとに記憶する複数の素片データベース280a〜nと、複数の素片データベース280a〜nと圧縮処理手段140bとの接続を切り替えるスイッチ210bとを有する。
以上のように構成されたこの実施例の音声合成装置において、以下その動作を図9、図10、図11に従って説明する。
図10、図11において図2、図4と同一の動作については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。まず聴覚特性記憶手段220に記憶されたあらかじめ測定された聴覚特性を声質制御手段50bに出力する。(ステップ2000)。声質制御手段50bは聴覚特性記憶手段220より入力された聴覚特性に基づき圧縮処理のパラメータを設定し圧縮処理手段140bへ出力する(ステップ2100)。圧縮処理のパラメータ設定方法は例えば聴覚研究会資料、資料番H−95−4、1頁〜8頁に示された設定方法のようにする。テキスト入力手段10は言語処理手段20に目的のテキストを入力する(ステップ1200)。次に言語処理手段20はテキスト入力手段10より入力されたテキストの構文解析を行い、読み情報、韻律情報および強調部情報を生成し音声合成制御手段70bに出力する(ステップ1300)。使用者は操作手段40bに強調の種類および強調の程度を入力し、操作手段40bは入力結果を強調選択情報として声質制御手段50bに出力する(ステップ2400)。声質制御手段50bは操作手段40bより入力された強調選択情報に最も近い強調が施された素片データベースを素片データベース280a〜nより選択し、スイッチ210bを切り替えて圧縮処理手段140bに接続する(ステップ2500)。ステップ2500で圧縮処理手段140bと接続された素片データベース280は音声合成制御手段70bより入力された読み情報に従って圧縮処理手段140bに合成単位を出力する(ステップ2600)。圧縮処理手段140bは声質制御手段50bより入力された圧縮処理パラメータに従って素片データベース280より入力された合成単位の振幅のダイナミックレンジを圧縮し、素片接続手段90bに出力する(ステップ2700)。素片接続手段90bは音声合成制御手段70bより入力された韻律情報および強調部情報に従って圧縮処理手段140bより入力された合成単位を合成し合成音声を生成する(ステップ2800)。まず素片接続手段90bは音声合成制御手段70bより入力された強調部情報が真か偽かを判定する(ステップ1610)。ステップ1610において強調部情報が真の場合、素片接続手段90bは合成単位中の母音定常部の時間長を20%延長し(ステップ2920)、さらに合成単位に対応するクロージャーの値を20%延長し(ステップ1620)、音声合成制御手段70bより入力された韻律情報に従って合成音声を生成する(ステップ2930)。もしステップ1610において強調処理情報が偽の場合、素片接続手段90bは音声合成制御手段70bより入力された韻律情報に従って合成音声を生成する(ステップ2930)。素片接続手段90bは電気音響変換器60を通して合成音声を出力する(ステップ1900)。
(実施例3)
以下本発明の第3の実施例について、図面を参照しながら説明する。
図12は本発明の音声合成装置の第3の実施例を示す構成ブロック図である。図13に第3の実施例の動作を説明するための流れ図を示す。第3の実施例の構成において図9に示した第2の実施例の構成と同一物または部分については説明を省略し、異なった部分についてのみ説明する。図9の聴覚特性記憶手段220が聴覚特性読み取り手段310に置き換わり、音声合成部30bが音声合成部30cに置き換わり、声質制御手段50bが声質制御手段50cに置き換わり、素片データベース380a〜n、聴覚特性320a〜nがつけ加わった以外は図9と同一な構成である。前記の音声合成部30cは図9の音声合成制御手段70bが音声合成制御手段70cに置き換わり、データベース部200bが素片データベース読み取り手段300に置き換わった以外は図9の音声合成部30bと同一な構成である。素片データベース380a〜nは複数の異なる強調の種類と強調の程度の強調処理を施した合成単位を強調処理ごとに格納した記憶媒体である。素片データベース読み取り手段300は圧縮処理手段140bが参照する素片データベース380を読みとるものである。聴覚特性320a〜nはあらかじめ測定された複数の使用者の聴覚特性を個人ごとに格納した記憶媒体である。聴覚特性読み取り手段310は声質制御手段50cが参照する聴覚特性を読みとるものである。
以上のように構成されたこの実施例の音声合成装置において、以下その動作を図12、図13に従って説明する。
図13において図10と同一の動作については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。まず聴覚特性読み取り手段310により、あらかじめセットした使用者に対応する聴覚特性320を読み出し、声質制御手段50cに出力する。(ステップ3000)。声質制御手段50cは聴覚特性読み取り手段310より入力された聴覚特性に基づき圧縮処理のパラメータを設定し圧縮処理手段140bへ出力する(ステップ2100)。テキスト入力手段10は言語処理手段20に目的のテキストを入力する(ステップ1200)。次に言語処理手段20はテキスト入力手段10より入力されたテキストを構文解析を行い、読み情報、韻律情報および強調部情報を生成し音声合成制御手段70cに出力する(ステップ1300)。素片データベース読み取り手段300は音声合成制御手段70cより入力された読み情報に従って、あらかじめ使用者の好みおよび使用する場面に応じてセットされた素片データベース380より合成単位を読み出し圧縮処理手段140bに出力する(ステップ3600)。圧縮処理手段140bは声質制御手段50cより入力された圧縮処理パラメータに従って素片データベース380より入力された合成単位の振幅のダイナミックレンジを圧縮し、素片接続手段90bに出力する(ステップ2700)。素片接続手段90bは音声合成制御手段70cより入力された韻律情報および強調部情報に従って圧縮処理手段140bより入力された合成単位を合成し合成音声を生成する(ステップ2800)。素片接続手段90bは電気音響変換器60を通して合成音声を出力する(ステップ1900)。
(実施例4)
以下本発明の第4の実施例について、図面を参照しながら説明する。
図14は本発明の音声合成装置の第4の実施例を示す構成ブロック図である。図15に第4の実施例の動作を説明するための流れ図を、図16、図17に動作を説明するための流れ図の一部を示す。図14において図1と同一物または部分については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。図1の音声合成部30aが音声合成部30dに置き換わり、声質制御手段50aが声質制御手段50dに置き換わり、聴覚特性測定手段120が削除された以外は図1と同一な構成である。前記の音声合成部30dは、音声合成制御手段70d、合成単位を記憶しておく素片データベース80、素片データベース80に記憶された合成単位をつなげて合成音声を生成する素片接続手段90d、および素片接続手段90dで生成された合成音声に強調処理を施す音声音韻強調処理手段130dを有する。
以上のように構成されたこの実施例の音声合成装置において、以下その動作を図14、図15、図16、図17、図18に従って説明する。図15、図16、図17、図18において図2、図4、図5、図6と同一の動作については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。
まずテキスト入力手段10は言語処理手段20に目的のテキストを入力する(ステップ1200)。次に言語処理手段20はテキスト入力手段10より入力されたテキストを構文解析を行い、読み情報、韻律情報および強調部情報を生成し音声合成制御手段70dに出力する(ステップ1300)。素片データベース80は音声合成制御手段70dより入力された読み情報に従って素片接続手段90dに合成単位を出力する(ステップ4400)。素片接続手段90dは音声合成制御手段70dより入力された韻律情報および強調部情報に従って素片データベース80より入力された合成単位を接続して合成音声を生成し、音韻強調処理手段130dに出力する(ステップ1600)。声質制御手段50dは強調処理方法の設定を行う(ステップ4700)。まず声質制御手段50dはマイクロフォン110より入力された環境音を1kHz以下、1kHz〜2kHz、2kHz〜4kHz、4kHz以上の帯域に分割し、帯域ごとに100msの平均レベルを求める(ステップ1710)。1kHz以下の環境音の平均レベル、1kHz〜2kHzの環境音の平均レベルと20dBSPL/Hz、他の帯域の環境音の平均レベルと15dBSPL/Hzを比較する(ステップ4720)。1kHz以下の環境音の平均レベルが20dBSPL/Hz以上で、かつ1kHz〜2kHzの環境音の平均レベルが20dBSPL/Hz以上で、かつ他の帯域の環境音の平均レベルが15dBSPL/Hz未満の場合、フォルマント強調情報を真とし(ステップ4730)、子音強調情報を偽とする(4780)。次に全帯域の帯域強調情報を偽とし(ステップ4800)、制御信号を音韻強調処理手段130dに出力する(ステップ4810)。もしステップ4720で1kHz以下の環境音の平均レベルが20dBSPL/Hz以上で、かつ1kHz〜2kHzの環境音の平均レベルが20dBSPL/Hz以上で、かつ他の帯域の環境音の平均レベルが15dBSPL/Hz未満でない場合は、フォルマント強調情報を偽とし(ステップ4740)、1kHz〜2kHzの環境音の平均レベルと20dBSPL/Hz、他の帯域の環境音の平均レベルと15dBSPL/Hzを比較する(ステップ4750)。ステップ4750で1kHz〜2kHzの環境音の平均レベルが20dBSPL/Hz以上、かつ2kHz〜4kHzの環境音の平均レベルが15dBSPL/Hz以上、かつ1kHz以下の環境音の平均レベルが20dBSPL/Hz未満、かつ4kHz以上の環境音の平均レベルが15dBSPL/Hz未満である場合、子音強調情報を真とし(ステップ4760)、全帯域の帯域強調情報を偽とし(ステップ4800)、制御信号を音韻強調処理手段130dに出力する(ステップ4810)。もしステップ4750で1kHz〜2kHzの環境音の平均レベルが20dBSPL/Hz以上、かつ2kHz〜4kHzの環境音の平均レベルが15dBSPL/Hz以上、かつ1kHz以下の環境音の平均レベルが20dBSPL/Hz未満、かつ4kHz以上の環境音の平均レベルが15dBSPL/Hz未満でない場合、子音強調情報を偽とし(ステップ4770)、各帯域の帯域強調情報を設定する(ステップ4790)。1kHz以下の環境音の平均レベルと20dBSPL/Hzとを比較する(ステップ1730)。ステップ1730において1kHz以下の環境音の平均レベルが20dBSPL/Hz以上である場合、1kHz以下の帯域強調情報を真とし(ステップ4791)、1kHz〜2kHzの環境音の平均レベルと20dBSPL/Hzとを比較する(ステップ1750)。もしステップ1730において1kHz以下の環境音が20dBSPL/Hz未満である場合、1kHz以下の帯域強調情報を偽とし(ステップ4792)、1kHz〜2kHzの環境音の平均レベルと20dBSPL/Hzとを比較する(ステップ1750)。ステップ1750において1kHz〜2kHzの環境音の平均レベルが20dBSPL/Hz以上である場合、1kHz〜2kHzの帯域強調情報を真とし(ステップ4793)、2kHz〜4kHzの環境音の平均レベルと15dBSPL/Hzとを比較する(ステップ1770)。もしステップ1750において1kHz〜2kHzの環境音が20dBSPL/Hz未満である場合、1kHz〜2kHzの帯域強調情報を偽とし(ステップ4794)、2kHz〜4kHzの環境音の平均レベルと15dBSPL/Hzとを比較する(ステップ1770)。ステップ1770において2kHz〜4kHzの環境音の平均レベルが15dBSPL/Hz以上である場合、2kHz〜4kHzの帯域強調情報を真とし(ステップ4795)、4kHz以上の環境音の平均レベルと15dBSPL/Hzとを比較する(ステップ1790)。もしステップ1770において2kHz〜4kHzの環境音が15dBSPL/Hz未満である場合、2kHz〜4kHzの帯域強調情報を偽とし(ステップ4796)、4kHz以上の環境音の平均レベルと15dBSPL/Hzとを比較する(ステップ1790)。ステップ1790において4kHz以上の環境音の平均レベルが15dBSPL/Hz以上である場合、4kHz以上の帯域強調情報を真とし(ステップ4797)、制御信号を音韻強調処理手段130dに出力する(ステップ4810)。もしステップ1790において4kHz以上の環境音の平均レベルが15dBSPL/Hz未満である場合、4kHz以上の帯域強調情報を偽とし(ステップ4798)、制御信号を音韻強調処理手段130dに出力する(ステップ4810)。音韻強調処理手段130dは音声合成制御手段70dより入力された強調部情報および声質制御手段50dより入力された制御信号に従って強調処理を行う(ステップ4900)。音韻強調処理手段130dは音声合成制御手段70dより入力された強調部情報が真か偽かを判定する(ステップ1510)。ステップ1510において強調部情報が真である場合、合成単位中の母音定常部の時間長を20%延長し(ステップ1520)。声質制御手段50dより入力されたフォルマント強調情報が真か偽かを判定する(ステップ1530)。もしステップ1510において強調部情報が偽である場合、声質制御手段50dより入力されたフォルマント強調情報が真か偽かを判定する(ステップ1530)。ステップ1530においてフォルマント強調情報が真である場合、素片接続手段90dより入力された合成音声のスペクトル包絡を求め、スペクトルピークを強調する(ステップ4910)。スペクトルピークの強調の方法については例えば平成5年、日本音響学会講演論文集春季285頁〜286頁に示すような方法を用いるものとする。次に声質制御手段50dより入力された子音強調情報が真か偽かを判定する(ステップ1550)。もしステップ1530においてフォルマント強調情報が偽である場合、声質制御手段50dより入力された子音強調情報が真か偽かを判定する(ステップ1550)。ステップ1550において子音強調情報が真である場合、音韻強調処理手段130dは合成単位中の子音および子音から母音への渡りの振幅を増幅する(ステップ4920)。子音強調の方法は例えば1992年、電子情報通信学会技術研究報告、巻91、513号31頁〜38頁に示すような方法を用いるものとする。次に声質制御手段50dより入力された1kHz以下の帯域強調情報が真か偽かを判定する(ステップ4930)。もしステップ1560において子音強調情報が偽である場合、声質制御手段50より入力された1kHz以下の帯域強調情報が真か偽かを判定する(ステップ4930)。ステップ4930において1kHz以下の帯域強調情報が真である場合、音韻強調処理手段130dは素片接続手段90dより入力された合成音声の1kHz以下の帯域成分の強調処理を行い(ステップ4940)、1kHz〜2kHzの帯域強調情報が真か偽かを判定する(ステップ4950)。もしステップ4930において1kHz以下の帯域強調情報が偽である場合、1kHz〜2kHzの帯域強調情報が真か偽かを判定する(ステップ4950)。ステップ4950において1kHz〜2kHzの帯域強調情報が真である場合、音韻強調処理手段130dは素片接続手段90dより入力された合成音声の1kHz〜2kHzの帯域成分の強調処理を行い(ステップ4960)、2kHz〜4kHzの帯域強調情報が真か偽かを判定する(ステップ4970)。もしステップ4950において1kHz〜2kHzの帯域強調情報が偽である場合、2kHz〜4kHzの帯域強調情報が真か偽かを判定する(ステップ4970)。ステップ4970において2kHz〜4kHzの帯域強調情報が真である場合、音韻強調処理手段130dは素片接続手段90dより入力された合成音声の2kHz〜4kHzの帯域成分の強調処理を行い(ステップ4980)、4kHz以上の帯域強調情報が真か偽かを判定する(ステップ4990)。もしステップ4970において2kHz〜4kHzの帯域強調情報が偽である場合、4kHz以上の帯域強調情報が真か偽かを判定する(ステップ4990)。ステップ4990において4kHz以上の帯域強調情報が真である場合、音韻強調処理手段130dは素片接続手段90dより入力された合成音声の4kHz以上の帯域成分の強調処理を行い(ステップ5000)、電気音響変換器60を通して合成音声を出力する(ステップ1900)。もしステップ4990において4kHz以上の帯域強調情報が偽である場合、電気音響変換器60を通して合成音声を出力する(ステップ1900)。
(実施例5)
以下本発明の第5の実施例について、図面を参照しながら説明する。
図19は本発明の音声合成装置の第5の実施例を示す構成ブロック図である。図20に第5の実施例の動作を説明するための流れ図をを示す。図19において図9と同一物または部分については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。図9の音声合成部30bが音声合成部30eに置き換わり、声質制御手段50bが声質制御手段50eに置き換わり、操作手段40bが操作手段40eに置き換わり、声質制御手段50bが声質制御手段50eに置き換わり、聴覚特性記憶手段220が削除された以外は図9と同一な構成である。前記の音声合成部30eは、音声合成制御手段70e、合成単位を記憶しておくデータベース部200e、合成単位をつなげて合成音声を生成する素片接続手段90eを有する。前記のデータベース部200eは異なるパラメータを用いた複数の圧縮処理を施された素片を圧縮処理に用いられたパラメータごとに記憶する複数の素片データベース580a〜nと、複数の素片データベース580a〜nと素片接続手段90eとの接続を切り替えるスイッチ210eとを有する。
以上のように構成されたこの実施例の音声合成装置において、以下その動作を図19、図20に従って説明する。
図20において図10と同一の動作については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。まずテキスト入力手段10は言語処理手段20に目的のテキストを入力する(ステップ1200)。次に言語処理手段20はテキスト入力手段10より入力されたテキストの構文解析を行い、読み情報、韻律情報および強調部情報を生成し音声合成制御手段70eに出力する(ステップ1300)。使用者は操作手段40eに圧縮の程度を入力し、操作手段40eは入力結果を圧縮率選択情報として声質制御手段50eに出力する(ステップ5400)。声質制御手段50eは操作手段40eより入力された圧縮率選択情報に最も近い圧縮率で圧縮が施された素片データベースを素片データベース580a〜nより選択し、スイッチ210eを切り替えて素片接続手段90eに接続する(ステップ5500)。ステップ5500で素片接続手段90eと接続された素片データベース580は音声合成制御手段70eより入力された読み情報に従って素片接続手段90eに合成単位を出力する(ステップ5600)。素片接続手段90eは音声合成制御手段70eより入力された韻律情報および強調部情報に従って素片データベース580より入力された合成単位を接続して合成音声を生成し(ステップ2800)、電気音響変換器60を通して合成音声を出力する(ステップ1900)。
(実施例6)
以下本発明の第6の実施例について、図面を参照しながら説明する。
図21は本発明の音声合成装置の第6の実施例を示す構成ブロック図である。図22に第6の実施例の動作を説明するための流れ図を示す。第6の実施例の構成において図12に示した第3の実施例の構成と同一物または部分については説明を省略し、異なった部分についてのみ説明する。図12の音声合成部30cが音声合成部30fに置き換わり、素片データベース380a〜nが素片データベース680a〜nに置き換わり、聴覚特性読み取り手段310、声質制御手段50c、聴覚特性読み取り手段310、聴覚特性a〜nが削除された以外は図12と同一な構成である。前記の音声合成部30fは図12の音声合成制御手段70cが音声合成制御手段70fに置き換わり、素片接続手段90bが素片接続手段90fに置き換わり、圧縮処理手段140bが削除された以外は図12の音声合成部30cと同一な構成である。素片データベース680a〜nは異なるパラメータを用いた複数の圧縮処理を施された素片を圧縮処理に用いられたパラメータごとに格納した記憶媒体である。素片データベース読み取り手段300は素片接続手段90fが参照する素片データベース680を読み取るものである。
以上のように構成されたこの実施例の音声合成装置において、以下その動作を図21、図22に従って説明する。
図22において図13と同一の動作については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。まずテキスト入力手段10は言語処理手段20に目的のテキストを入力する(ステップ1200)。次に言語処理手段20はテキスト入力手段10より入力されたテキストの構文解析を行い、読み情報、韻律情報および強調部情報を生成し音声合成制御手段70fに出力する(ステップ1300)。素片データベース読み取り手段300は音声合成制御手段70fより入力された読み情報に従って、あらかじめ使用者の好みおよび使用する場面に応じてセットされた素片データベース680より合成単位を読み出し素片接続手段90fに出力する(ステップ6600)。素片接続手段90fは音声合成制御手段70fより入力された韻律情報および強調部情報に従って素片データベース読み取り手段300より入力された合成単位を接続して合成音声を生成し(ステップ2800)、電気音響変換器60を通して合成音声を出力する(ステップ1900)。
(実施例7)
以下本発明の第7の実施例について、図面を参照しながら説明する。
図23は本発明の音声合成装置の第7の実施例を示す構成ブロック図である。図24に第7の実施例の動作を説明するための流れ図を、図25に動作を説明するための流れ図の一部を示す。図23において図1と同一物または部分については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。図1の音声合成部30aが音声合成部30gに置き換わり、声質制御手段50aが声質制御手段50gに置き換わった以外は図1と同一な構成である。前記の音声合成部30gは、図1の音声合成部30aの音声合成制御手段70aが音声合成制御手段70gに置き換わり、圧縮処理手段140aが圧縮処理手段140gに置き換わり、素片接続手段90aが素片接続手段90gに置き換わり、音韻強調処理手段130aが削除された以外は図1の音声合成部30aと同一な構成である。
以上のように構成されたこの実施例の音声合成装置において、以下その動作を図23、図24、図25に従って説明する。
まず聴覚特性測定手段120で使用者の聴覚特性を測定し、測定結果を声質制御手段50gに出力する。(ステップ1000)。テキスト入力手段10は言語処理手段20に目的のテキストを入力する(ステップ1200)。次に言語処理手段20はテキスト入力手段10より入力されたテキストを構文解析を行い、読み情報、韻律情報および強調部情報を生成し音声合成制御手段70gに出力する(ステップ1300)。素片データベース80は音声合成制御手段70gより入力された読み情報に従って圧縮処理手段140gに合成単位を出力する(ステップ7400)。圧縮処理手段140gは声質制御手段50gより入力された制御信号に従って素片データベース80から入力された合成単位の振幅のダイナミックレンジを圧縮する(ステップ7500)。まず声質制御手段50gはマイクロフォン110より入力された環境音を1kHz以下、1kHz〜2kHz、2kHz〜4kHz、4kHz以上の帯域に分割し、帯域ごとに100msの平均レベルを求める(ステップ1710)。1kHz以下の環境音の平均レベルと聴覚特性測定手段120より入力された使用者の500Hzの最小可聴値とを比較する(ステップ7720)。ステップ7720において1kHz以下の環境音の平均レベルが使用者の500Hzの最小可聴値以上である場合、声質制御手段50gは合成単位の1kHz以下の成分のレベルのダイナミックレンジが1kHz以下の環境音の平均レベルの値に聴覚特性測定手段120より入力された使用者の500Hzの最小可聴値を加えた値〜90dBSPLとなるように圧縮処理のパラメータを設定し(ステップ7730)、1kHz〜2kHzの環境音の平均レベルと聴覚特性測定手段120より入力された使用者の1kHzの最小可聴値とを比較する(ステップ7750)。もしステップ7730において1kHz以下の環境音が使用者の500Hzの最小可聴値未満である場合、聴覚特性測定手段120より入力された測定結果に基づき圧縮処理のパラメータを設定し(ステップ7740)、1kHz〜2kHzの環境音の平均レベルと聴覚特性測定手段120より入力された使用者の1kHzの最小可聴値とを比較する(ステップ7750)。圧縮処理パラメータの設定方法は例えば実施例2および実施例3と同様とする。ステップ7750において1kHz〜2kHzの環境音の平均レベルが聴覚特性測定手段120より入力された使用者の1kHzの最小可聴値以上である場合、声質制御手段50gは合成単位の1kHz〜2kHzの成分のレベルのダイナミックレンジが1kHz〜2kHzの環境音の平均レベルの値に聴覚特性測定手段120より入力された使用者の1kHzの最小可聴値を加えた値〜90dBSPLとなるように圧縮処理のパラメータを設定し(ステップ7760)、2kHz〜4kHzの環境音の平均レベルと聴覚特性測定手段120より入力された使用者の2kHzの最小可聴値とを比較する(ステップ7780)。もしステップ7750において1kHz〜2kHzの環境音が使用者の1kHzの最小可聴値未満である場合、聴覚特性測定手段120より入力された測定結果に基づき圧縮処理のパラメータを設定し(ステップ7770)、2kHz〜4kHzの環境音の平均レベルと聴覚特性測定手段120より入力された使用者の2kHzの最小可聴値とを比較する(ステップ7780)。ステップ7780において2kHz〜4kHzの環境音の平均レベルが聴覚特性測定手段120より入力された使用者の2kHzの最小可聴値以上である場合、声質制御手段50gは合成単位の2kHz〜4kHzの成分のレベルのダイナミックレンジが2kHz〜4kHzの環境音の平均レベルの値に聴覚特性測定手段120より入力された使用者の2kHzの最小可聴値を加えた値〜90dBSPLとなるように圧縮処理のパラメータを設定し(ステップ7790)、4kHz以上の環境音の平均レベルと聴覚特性測定手段120より入力された使用者の4kHzの最小可聴値とを比較する(ステップ7810)。もしステップ7780において2kHz〜4kHzの環境音が使用者の2kHzの最小可聴値未満である場合、聴覚特性測定手段120より入力された測定結果に基づき圧縮処理のパラメータを設定し(ステップ7800)、4kHz以上の環境音の平均レベルと聴覚特性測定手段120より入力された使用者の4kHzの最小可聴値とを比較する(ステップ7810)。ステップ7810において4kHz以上の環境音の平均レベルが聴覚特性測定手段120より入力された使用者の4kHzの最小可聴値以上である場合、声質制御手段50gは合成単位の4kHz以上の成分のレベルのダイナミックレンジが4kHz以上の環境音の平均レベルの値に聴覚特性測定手段120より入力された使用者の4kHzの最小可聴値を加えた値〜90dBSPLとなるように圧縮処理のパラメータを設定し(ステップ7820)、圧縮処理手段140gに制御信号を出力する(ステップ1810)。もしステップ7810において4kHz以上の環境音が使用者の4kHzの最小可聴値未満である場合、聴覚特性測定手段120より入力された測定結果に基づき圧縮処理のパラメータを設定し(ステップ7830)、圧縮処理手段140gに制御信号を出力する(ステップ1810)。圧縮処理手段140gは声質制御手段50gより入力された制御信号に基づき素片データベース80より入力された合成単位に圧縮処理を施し、素片接続手段90gに出力する(ステップ7840)。素片接続手段90gは音声合成制御手段70gより入力された韻律情報および強調部情報に従って圧縮処理手段140gより入力された合成単位を接続して合成音声を生成し(ステップ7900)、電気音響変換器60を通して合成音声を出力する(ステップ1900)。
(実施例8)
以下本発明の第8の実施例について、図面を参照しながら説明する。
図26は本発明の音声合成装置の第8の実施例を示す構成ブロック図である。図27に第8の実施例の動作を説明するための流れ図を、図28に第8の実施例の動作の一部を説明するための流れ図を示す。図29に第8の実施例のフォルマント強調の処理結果の模式図を示す。第8の実施例の構成において図12に示した第3の実施例の構成と同一物または部分については説明を省略し、異なった部分についてのみ説明する。図12の音声合成部30cが音声合成部30hに置き換わり、声質制御手段50cが声質制御手段50hに置き換わり、素片データベース380a〜nが削除された以外は図12と同一な構成である。前記の音声合成部30hは図12の音声合成制御手段70cが音声合成制御手段70hに置き換わり、素片データベース読み取り手段300が素片データベース80に置き換わり、圧縮処理手段140bが音韻強調処理手段130hに置き換わり、強調フィルタ部800がつけ加わった以外は図12の音声合成部30cと同一な構成である。前記の強調フィルタ部800はあらかじめ各音韻ごとにフォルマントを強調するよう設定されたフォルマント強調フィルタ810a〜nと、フォルマント強調フィルタ810と音韻強調処理手段130hの接続を切り替えるスイッチ820とを有する。
以上のように構成されたこの実施例の音声合成装置において、以下その動作を図26、図27、図28、図29に従って説明する。
図27、図28、図29において図2、図4、図13と同一の動作については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。まず聴覚特性読み取り手段310により、あらかじめセットした使用者に対応する聴覚特性を読み出し、声質制御手段50hに出力する。(ステップ3000)。声質制御手段50は聴覚特性読み取り手段310より入力された聴覚特性に基づき強調処理の設定を決定し音韻強調処理手段130hへ出力する(ステップ1100)。テキスト入力手段10は言語処理手段20に目的のテキストを入力する(ステップ1200)。次に言語処理手段20はテキスト入力手段10より入力されたテキストの構文解析を行い、読み情報、韻律情報および強調部情報を生成し音声合成制御手段70hに出力する(ステップ1300)。素片データベース80は音声合成制御手段70hより入力された読み情報に従って音韻強調処理手段130hに合成単位を出力する(ステップ1400)。音韻強調処理手段130hは音声合成制御手段70hより入力された強調部情報と声質制御手段50hより入力された制御信号に従って合成単位に強調処理を施す(ステップ8500)。音韻強調処理手段130hは音声合成制御手段70hより入力された強調部情報が真か偽かを判定する(ステップ1510)。ステップ1510において強調部情報が真である場合、合成単位中の母音定常部の時間長を20%延長し(ステップ1520)。声質制御手段50hより入力されたフォルマント強調情報が真か偽かを判定する(ステップ1530)。もしステップ1510において強調部情報が偽である場合、声質制御手段50hより入力されたフォルマント強調情報が真か偽かを判定する(ステップ1530)。ステップ1530においてフォルマント強調情報が真である場合、音声合成制御手段70hより出力された制御信号により素片データベース80より出力された合成単位に対応するフォルマント強調フィルタ810にスイッチ820を接続する(ステップ8510)。図28に示すように、ステップ8510で接続されたあらかじめ音韻ごとに設定されたフィルタバンクを用いて、フォルマントを含む帯域を選択的に通過させ、図7c)に示すようにフォルマントを含む帯域とフォルマントを含まない帯域とのコントラストを強調する(ステップ8540)。次に声質制御手段50より入力された子音強調情報が真か偽かを判定する(ステップ1550)。もしステップ1530においてフォルマント強調情報が偽である場合、声質制御手段50hより入力された子音強調情報が真か偽かを判定する(ステップ1550)。ステップ1550において子音強調情報が真である場合、合成単位中の子音および子音から母音への渡りの振幅を増幅する(ステップ1560)。次に声質制御手段50hより入力された帯域強調情報が真か偽かを判定する(ステップ1570)。もしステップ1560において子音強調情報が偽である場合、声質制御手段50hより入力された帯域強調情報が真か偽かを判定する(ステップ1570)。ステップ1570において帯域強調情報が真である場合、合成単位中の子音に2kHz以上の帯域を強調する高帯域強調処理を行い(ステップ1580)、音韻強調処理手段130hは合成単位を素片接続手段90hに出力する(ステップ1590)。もしステップ1570において帯域強調情報が偽である場合、音韻強調処理手段130hは合成単位を素片接続手段90hに出力する(ステップ1590)。素片接続手段90hは音声合成制御手段70hより入力された韻律情報および強調部情報に従って音韻強調処理手段130hより入力された合成単位を接続して合成音声を生成し(ステップ1600)、電気音響変換器60を通して合成音声を出力する(ステップ1900)。
(実施例9)
以下本発明の第9の実施例について、図面を参照しながら説明する。
図30は本発明の音声合成装置の第9の実施例を示す構成ブロック図である。図31に第9の実施例の動作を説明するための流れ図を、図32に動作を説明するための流れ図の一部を示す。図30において図42と同一物または部分については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。図42の声質制御手段50mが声質制御手段50iに置き換わり、操作手段40mがマイクロフォン110に置き換わった以外は図42と同一な構成である。
以上のように構成されたこの実施例の音声合成装置において、以下その動作を図30、図31、図32に従って説明する。図31において図2と同一の動作については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。
声質制御手段50iは合成音声の基本周波数の設定をする(ステップ9100)。まずマイクロフォン110は声質制御手段50iに環境音信号を出力する(ステップ9110)。声質制御手段50iはマイクロフォン110より入力された環境音のレベルと30dB(A)を比較する(ステップ9120)。ステップ9120で環境音のレベルが30dB(A)以上の場合、基本周波数をあらかじめ定められた標準値より20%高く設定し(ステップ9130)、テキスト入力手段10は言語処理手段20に目的のテキストを入力する(ステップ1200)。ステップ9120で環境音のレベルが30dB(A)未満の場合、テキスト入力手段10は言語処理手段20に目的のテキストを入力する(ステップ1200)。次に言語処理手段20はテキスト入力手段10より入力されたテキストを構文解析を行い、読み情報および韻律情報を生成し音声合成制御手段70mに出力する(ステップ1300)。素片データベース80は音声合成制御手段70mより入力された読み情報に従って素片接続手段90mに合成単位を出力する(ステップ9400)。素片接続手段90mは音声合成制御手段70mより入力された韻律情報および声質制御手段50iより入力された制御信号に従って素片データベース80より入力された合成単位を接続して合成音声を生成し(ステップ9500)、電気音響変換器60を通して合成音声を出力する(ステップ1900)。
(実施例10)
以下本発明の第10の実施例について、図面を参照しながら説明する。
図33は本発明の音声合成装置の第10の実施例を示す構成ブロック図である。図34に第10の実施例の動作を説明するための流れ図を、図35に動作を説明するための流れ図の一部を示す。図33において図30と同一物または部分については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。図30の声質制御手段50iが声質制御手段50jに置き換わり、マイクロフォン110が聴覚特性測定手段120に置き換わった以外は図30と同一な構成である。
以上のように構成されたこの実施例の音声合成装置において、以下その動作を図33、図34、図35に従って説明する。図34、図35において図31、図32と同一の動作については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。
聴覚特性測定手段120で使用者の聴覚特性を測定する(ステップ10000)。聴覚特性の測定方法については例えば実施例1と同様とする。声質制御手段50jは聴覚特性測定手段120より入力された使用者の聴覚特性および好みに従って合成音声の基本周波数の設定をする(ステップ10100)。聴覚特性測定手段120より聴覚特性の測定結果を声質制御手段50jに出力する。(ステップ10110)。声質制御手段50jは使用者の2kHz未満の平均聴力レベルと2kHz以上の平均聴力レベルを比較する(ステップ10120)。ステップ10120において2kHz以上の平均聴力レベルから2kHz未満の平均聴力レベルを減じた値が30dB以上の場合は、合成音声の基本周波数をあらかじめ定められた標準値より20%高く設定し(ステップ9130)、テキスト入力手段10は言語処理手段20に目的のテキストを入力する(ステップ1200)。ステップ10120で2kHz以上の平均聴力レベルから2kHz未満の平均聴力レベルを減じた値が30dB未満の場合、テキスト入力手段10は言語処理手段20に目的のテキストを入力する(ステップ1200)。次に言語処理手段20はテキスト入力手段10より入力されたテキストの構文解析を行い、読み情報および韻律情報を生成し音声合成制御手段70mに出力する(ステップ1300)。素片データベース80は音声合成制御手段70mより入力された読み情報に従って素片接続手段90mに合成単位を出力する(ステップ9400)。素片接続手段90mは音声合成制御手段70mより入力された韻律情報および声質制御手段50jより入力された制御信号に従って素片データベース80より入力された合成単位を合成し合成音声を生成し(ステップ9500)、電気音響変換器60を通して合成音声を出力する(ステップ1900)。
(実施例11)
以下本発明の第11の実施例について、図面を参照しながら説明する。
図36は本発明の音声合成装置の第11の実施例を示す構成ブロック図である。図37に第11の実施例の動作を説明するための流れ図を、図38に動作を説明するための流れ図の一部を示す。図36において図33と同一物または部分については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。図33の声質制御手段50jが声質制御手段50kに置き換わり、聴覚特性測定手段120が聴覚特性記憶手段220に置き換わった以外は図33と同一な構成である。
以上のように構成されたこの実施例の音声合成装置において、以下その動作を図36、図37、図38に従って説明する。図37において図34と同一の動作については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。
声質制御手段50kは合成音声の基本周波数の設定をする(ステップ11100)。まず聴覚特性記憶手段220よりあらかじめ測定された使用者の聴覚特性を声質制御手段50kに出力する。(ステップ11110)。声質制御手段50kは使用者の平均聴力レベルと40dBHLを比較する(ステップ11120)。ステップ11120において使用者の平均聴力レベルが40dBHL以上の場合は、合成音声の話速をあらかじめ定められた標準値より10%遅く設定し(ステップ11130)、テキスト入力手段10は言語処理手段20に目的のテキストを入力する(ステップ1200)。ステップ11120で使用者の平均聴力レベルが40dBHL未満の場合、テキスト入力手段10は言語処理手段20に目的のテキストを入力する(ステップ1200)。次に言語処理手段20はテキスト入力手段10より入力されたテキストを構文解析を行い、読み情報および韻律情報を生成し音声合成制御手段70mに出力する(ステップ1300)。素片データベース80は音声合成制御手段70mより入力された読み情報に従って素片接続手段90mに合成単位を出力する(ステップ9400)。素片接続手段90mは音声合成制御手段70mより入力された韻律情報および声質制御手段50kより入力された制御信号に従って素片データベース80より入力された合成単位を合成し合成音声を生成し(ステップ9500)、電気音響変換器60を通して合成音声を出力する(ステップ1900)。
(実施例12)
以下本発明の第12の実施例について、図面を参照しながら説明する。
図39は本発明の音声合成装置の第12の実施例を示す構成ブロック図である。図40に第12の実施例の動作を説明するための流れ図を、図41に動作を説明するための流れ図の一部を示す。図39において図36と同一物または部分については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。図36の声質制御手段50kが声質制御手段50lに置き換わり、聴覚特性記憶手段220が聴覚特性読み取り手段310に置き換わり、聴覚特性320a〜nがつけ加わった以外は図36と同一な構成である。
以上のように構成されたこの実施例の音声合成装置において、以下その動作を図39、図40、図41に従って説明する。図40、図41において図37、図38と同一の動作については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。
声質制御手段50lは合成音声の基本周波数の設定をする(ステップ12100)。まず聴覚特性読み取り手段310はあらかじめセットされた使用者の聴覚特性320を読み取り、声質制御手段50lに出力する。(ステップ12110)。声質制御手段50は使用者の平均聴力レベルと40dBHLを比較する(ステップ11120)。ステップ11120において使用者の平均聴力レベルが40dBHL以上の場合は、合成音声の話速をあらかじめ定められた標準値より10%遅く設定し(ステップ11130)、テキスト入力手段10は言語処理手段20に目的のテキストを入力する(ステップ1200)。ステップ11120で使用者の平均聴力レベルが40dBHL未満の場合、テキスト入力手段10は言語処理手段20に目的のテキストを入力する(ステップ1200)。次に言語処理手段20はテキスト入力手段10より入力されたテキストの構文解析を行い、読み情報および韻律情報を生成し音声合成制御手段70mに出力する(ステップ1300)。素片データベース80は音声合成制御手段70mより入力された読み情報に従って素片接続手段90mに合成単位を出力する(ステップ9400)。素片接続手段90mは音声合成制御手段70mより入力された韻律情報および声質制御手段50mより入力された制御信号に従って素片データベース80より入力された合成単位を接続して合成音声を生成し(ステップ9500)、電気音響変換器60を通して合成音声を出力する(ステップ1900)。
(実施例13)
以下本発明の第13の実施例について、図面を参照しながら説明する。
図42は本発明の音声合成装置の第13の実施例を示す構成ブロック図である。図43に第13の実施例の動作を説明するための流れ図をを示す。図42において図30と同一物または部分については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。図30の言語処理手段20が言語処理部900に置き換わり、音声合成部30mが音声合成部30nに置き換わり、声質制御手段50iが削除され、マイクロフォン110が音声合成制御手段70nに接続された以外は図30と同一な構成である。前記の言語処理部900は構文解析手段910と音声合成開始位置決定手段920とを有する。前記の音声合成部30nは音声合成制御手段70nと、素片データベース80、素片接続手段90nとを有する。
以上のように構成されたこの実施例の音声合成装置において、以下その動作を図42、図43に従って説明する。図43において図31と同一の動作については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。
まずテキスト入力手段10は構文解析手段910に目的のテキストを入力する(ステップ13100)。次に構文解析手段910はテキスト入力手段10より入力されたテキストを構文解析を行い、構文情報を生成し音声合成開始位置決定手段920へ出力し、読み情報および韻律情報を生成し音声合成制御手段70nに出力する(ステップ13200)。音声合成開始位置決定手段920は構文解析手段910より入力された構文情報に従って音声合成開始位置を決定し、音声合成制御手段70nに開始位置情報を出力する(ステップ13300)。音声合成制御手段70nはマイクロフォン110より環境音信号を取り込み、環境音の100msの平均レベルと70dB(A)とを比較する(ステップ13400)。ステップ13400において環境音の平均レベルが70dB(A)未満の場合、素片データベース80は音声合成制御手段70nより入力された読み情報に従って素片接続手段90nに合成単位を出力する(ステップ9400)。もしステップ13400で環境音の平均レベルが70dB(A)以上である場合、音声合成制御手段70nは音声合成停止信号を素片接続手段90nに出力し、合成音声の生成を停止する(ステップ13500)。音声合成制御手段70nは環境音の平均レベルと70dB(A)とを比較し(ステップ13600)、環境音の平均レベルが70dB(A)以上である場合は、ステップ13600を繰り返す。ステップ13600において環境音の平均レベルが70dB(A)未満である場合にのみ、音声合成開始位置決定手段920より入力された開始位置情報に従い、停止位置よりテキスト上の位置が前で最も停止位置に近い音声合成開始位置から音声合成を再開し(ステップ13700)、素片データベース80は音声合成制御手段70nより入力された読み情報に従って素片接続手段90nに合成単位を出力する(ステップ9400)。素片接続手段90nは音声合成制御手段70nより入力された韻律情報に従って素片データベース80より入力された合成単位を接続して合成音声を生成し(ステップ9500)、電気音響変換器60を通して合成音声を出力する(ステップ1900)。
(実施例14)
以下本発明の第14の実施例について、図面を参照しながら説明する。
図44は本発明の音声合成装置の第14の実施例を示す構成ブロック図である。図45に第14の実施例の動作を説明するための流れ図をを示す。図44において図42と同一物または部分については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。図42の音声合成部30nが音声合成部30oに置き換わり、マイクロフォン110が操作手段40oに置き換わった以外は図42と同一な構成である。前記の音声合成部30oは音声合成制御手段70oと、素片データベース80、素片接続手段90nとを有する。
以上のように構成されたこの実施例の音声合成装置において、以下その動作を図44、図45に従って説明する。図45において図43と同一の動作については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。
まずテキスト入力手段10は構文解析手段910に目的のテキストを入力する(ステップ13100)。次に構文解析手段910はテキスト入力手段10より入力されたテキストの構文解析を行い、構文情報を生成し音声合成開始位置決定手段920へ出力し、読み情報および韻律情報を生成し音声合成制御手段70oに出力する(ステップ13200)。音声合成開始位置決定手段920は構文解析手段910より入力された構文情報に従って音声合成開始位置を決定し、音声合成制御手段70oに開始位置情報を出力する(ステップ13300)。音声合成制御手段70oは操作手段40oより操作信号を取り込み、使用者が音声合成停止信号を入力したか否かを判定する(ステップ14400)。ステップ14400において音声合成停止信号が入力されていない場合、素片データベース80は音声合成制御手段70nより入力された読み情報に従って素片接続手段90nに合成単位を出力する(ステップ9400)。もしステップ14400で音声合成停止信号が入力されている場合、音声合成制御手段70oは音声合成停止信号を素片接続手段90nに出力し、合成音声の生成を停止する(ステップ13500)。音声合成制御手段70oは操作装置より操作信号を取り込み、使用者が音声合成再開信号を入力したか否かを判定し(ステップ14600)、音声合成再開信号が入力されていない場合は、ステップ14600を繰り返す。ステップ14600において音声合成再開信号が入力された場合にのみ、音声合成開始位置決定手段920より入力された開始位置情報に従い、停止位置よりテキスト上の位置が前で最も停止位置に近い音声合成開始位置から音声合成を再開し(ステップ13700)、素片データベース80は音声合成制御手段70oより入力された読み情報に従って素片接続手段90nに合成単位を出力する(ステップ9400)。素片接続手段90nは音声合成制御手段70oより入力された韻律情報に従って素片データベース80より入力された合成単位を接続して合成音声を生成し(ステップ9500)、電気音響変換器60を通して合成音声を出力する(ステップ1900)。
(実施例15)
以下本発明の第15の実施例について、図面を参照しながら説明する。
図46は本発明の音声合成装置の第15の実施例を示す構成ブロック図である。図47に第15の実施例の動作を説明するための流れ図を示す。図46において図42と同一物または部分については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。図42の言語処理部900nが言語処理部900pに置き換わり、言語処理部900pにおいては構文解析手段910から構文解析結果を受け取り強調すべき単語を決定する強調語決定手段が追加されている。一方、図42の音声合成部30nが音声合成部30pに置き換わり、音声合成部30pにおいては音声合成制御手段70pと接続される計時手段940と、素片データベースの素片出力を入力とし、音声合成制御手段からの制御信号に基づいて素片に強調処理を施し、素片接続手段へ出力する音韻強調処理手段130pが追加されている。さらに、強調語決定手段930から強調語情報を音声合成制御手段が受け取るという構成になっている。以上の変更以外は図42と同一な構成である。
以上のように構成されたこの実施例の音声合成装置において、以下その動作を図46、図47に従って説明する。図47において図43と同一の動作については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。まずテキスト入力手段10は構文解析手段910に目的のテキストを入力する(ステップ13100)。次に構文解析手段910はテキスト入力手段10より入力されたテキストの構文解析を行い、構文情報を生成し音声合成開始位置決定手段920、および、強調語決定手段930へ出力し、読み情報および韻律情報を生成し音声合成制御手段70pに出力する(ステップ13200)。音声合成開始位置決定手段920は構文解析手段910より入力された構文情報に従って音声合成開始位置を決定し、音声合成制御手段70pに開始位置情報を出力する(ステップ13300a)。同時に、強調語決定手段930は構文解析手段910より入力された構文情報に従って強調すべき単語を決定し、音声合成制御手段70pに強調語情報を出力する(ステップ13300b)。音声合成制御手段70pはマイクロフォン110より環境音信号を取り込み、環境音の100msの平均レベルと70dB(A)を比較する(ステップ13400)。ステップ13400において環境音の平均レベルが70dB(A)未満の場合、素片データベース80は音声合成制御手段70pより入力された読み情報に従って音韻強調処理手段130pに合成単位を出力し、音韻強調処理手段130pでは強調処理を行わず、そのまま素片接続手段90nに合成単位を出力する(ステップ9400a)。もしステップ13400で環境音の平均レベルが70dB(A)以上である場合、音声合成制御手段70nは音声合成停止信号を素片接続手段90nに出力し、合成音声の生成を停止する(ステップ13500)。そして、計時手段940に計測開始の信号を送り時間計測を開始する(ステップ14100)。音声合成制御手段70pは環境音の平均レベルと70dB(A)とを比較し(ステップ13600)、環境音の平均レベルが70dB(A)以上である場合は、ステップ13600を繰り返す。ステップ13600において環境音の平均レベルが70dB(A)未満である場合には、計時手段940に計測終了の信号を送り時間計測を終了し、経過時間を取り込む(ステップ14200)。音声合成制御手段70pは、経過時間が0より1秒未満の場合は音声合成開始位置のランクを1に設定し、経過時間が1秒以上2秒未満の場合は音声合成開始位置のランクを2に設定し、経過時間が2秒以上3秒未満の場合は音声合成開始位置のランクを3に設定し、経過時間が3秒以上の場合は音声合成開始位置のランクを4に設定する(ステップ14300)。音声合成制御手段は、音声合成を停止した位置より前で停止位置にもっとも近く、かつ、ステップ14300で決定したランクの値以上のランクをもつ音声合成開始位置より音声合成を再開する。ステップ14300で決定したランク値以上のランクをもつ音声合成開始位置が見つからなければ、文頭から音声合成を再開する(ステップ14400)。さらに、音声合成を再開する開始位置の繰り返し回数を1つ増やす(ステップ14500)。素片データベース80は音声合成制御手段70pより入力された読み情報に従って音韻強調処理手段130pへ合成単位を出力する(ステップ14600)。音声合成制御手段70pは、音声合成を再開する開始位置の繰り返し回数が2以上かどうかを判断する(ステップ14700)。ステップ14700において繰り返し回数が2以上の場合、開始位置から停止位置の区間で音韻強調処理手段130pに強調制御信号を出力し、音韻強調処理手段130pにおいて合成単位ごとの強調処理を行う(ステップ14800)。ステップ14700において繰り返し回数が2未満の場合は、音声合成制御手段70pは強調制御信号の出力をせず、音韻強調処理手段130pでは素片の強調処理を行わない。素片接続手段90pは音声合成制御手段70pより入力された韻律情報に従って、素片強調処理手段から入力された合成単位を接続して合成音声を生成し(ステップ9500)、電気音響変換器60を通して合成音声を出力する(ステップ1900)。
(実施例16)
以下本発明の第16の実施例について、図面を参照しながら説明する。
図48に本発明の一実施例の音声合成装置の言語処理部の構成図を示す。構文解析部101は、入力文に対して形態素解析、および、構文解析を行い、入力文を構成する単語列、文節列、文節間の係り受け構造を含んだ構文解析結果を出力する。音声合成開始位置規則保持部103は、音声合成開始位置決定部102において設定すべき音声合成開始位置の前後の文節、および、文節間の係り受け構造の条件を記述した規則を保持する。図49は、音声合成開始位置規則部103が保持する音声合成開始位置規則の一例を示す図である。音声合成開始位置決定部102は、音声合成開始位置を構文解析結果の文節列の間に設定する。図49において、前文節パターンとは、音声合成開始位置の直前に位置する文節の条件を指定するものである。同様に後文節パターンとは、音声合成開始位置の直後に位置する文節の条件を指定するものである。各文節パターンの形式をBNF表記で表すと、
<文節パターン> := *|(<文節名> <形態素列>)
<文節名> := 名詞句|述語句|副詞句|…
<形態素列> := *|(<形態素>)|(<形態素><形態素列>)
<形態素> := *|+|(<品詞> <表記>)
<品詞> := 名詞|助詞|読点|…
<表記> := *|は|から|、|…となる。「*」は任意の文節、任意の形態素列、任意の形態素、あるいは、任意の表記を表す。「+」は任意の形態素の並びを表す。ランクとは、該当する音声合成開始位置に割り当てられる値であり、制御部106がこの値に基づいて音声合成開始位置を選択する。本実施例においては、入力テキストを音声合成する際に音声合成開始位置において挿入されるポーズの長さが長いほどランクの値が大きくなるようにしてある。図49の一番目の音声合成開始位置規則は、助詞「は」で終わる名詞句と任意の文節との間にランク3の音声合成開始位置を設定するという意味である。音声合成開始位置決定部102は、構文解析部101が出力した構文解析結果に対して、音声合成開始位置規則保持部103に保持される音声合成開始位置規則と構文解析結果に含まれる文節列との照合を行い、照合が成功した箇所に音声合成開始位置およびランクを設定する。図50は、音声合成開始位置決定部の処理を示す図である。入力テキストは、構文解析部101によって処理され、図50に示すような文節列を生成する。この文節列に対して、音声合成開始位置決定部102は、文節列の先頭から2文節に対して音声合成開始位置規則を順に照合し、照合に成功した2文節の間に規則に記述されたランクをもつ音声合成開始位置を設定する。図50の例では、1番目の2文節間に図49の2番目の規則が、2番目の2文節間に図49の3番目の規則が、3番目の2文節間に図49の4番目の規則が、おのおの照合し、図50の一番下に示されるようなランクをもつ音声合成開始位置が設定される。どの音声合成開始位置規則にも照合しなかった2文節間には音声合成開始位置は設定されない。
強調語決定部104は、構文解析部101が出力した構文解析結果に対して、強調語規則保持部105に保持される強調語規則と構文解析結果に含まれる単語列の照合を行い、強調して発音すべき単語を決定する。図51は、強調語保持部105が保持する強調語の規則の一例を示す図である。図51において、強調語条件は、強調すべき単語の条件を記述したものである。強調語の形式をBNF表記であらわすと、
<強調語条件> := (<品詞> <表記>)
<品詞> := 名詞|動詞|形容詞|…
<表記> := *|ある|ない|…となる。「*」は任意の表記を表す記号である。強調語条件に当てはまる単語に対して、右側の欄の強調ON/OFFの記述に従って、強調の情報を割り当てる。図52は、強調語決定部の処理を示す図である。図52において、入力テキストを構文解析部101が処理し、単語列を生成する。強調語決定部102は、単語列の先頭から順に強調語規則と照合し、照合に成功した場合には強調ON/OFFの情報を付与する。図52の単語の(形容詞 ない)については、強調語条件(形容詞 *)と強調語条件(形容詞 ない)の両方が照合するが、強調語条件(形容詞 ない)は表記が指定されているより詳細な条件であり、照合の際には優先される。照合の結果、図52の一番下のような強調語情報が得られる。どの強調語規則にも照合しなかった単語の強調はOFFである。
(実施例17)
以下本発明の第17の実施例について、図面を参照しながら音声素片作成時における強調処理の一例を上げて説明する。
図53に第17の実施例による音声素片作成の動作を示す流れ図を、図54に振幅圧縮処理の入出力特性の模式図を示す。
まず、対象となる音声波形から最初の波形を切り出す(ステップ15000)。次にステップ15000で切り出された切り出し波形データに、あらかじめ設定しておいた利得値Gを掛け(ステップ15010)、その結果の絶対値の最大値を求め、Amaxに記憶する(ステップ15020)。Amaxがあらかじめ設定しておいたAlimの値よりも大きい場合(ステップ15030)、切り出し波形を(Alim/Amax)倍する(ステップ15040)。また、AmaxがAlimより小さいか等しい場合は何もしない。今回切り出した波形が最後の波形であれば(ステップ15050)終了する。そうでなければ次の波形を切り出し(ステップ15060)、ステップ15010から繰り返す。
このようにすることにより、音声波形にリミッタを用いた場合に起こる時定数の問題などがなく、理想的な振幅圧縮が可能である。図53に示した振幅圧縮処理をリミッタの入出力特性に例えると図54(a)のように表すことができる。この曲線は例えば図54(b)や(c)などのように任意に選ぶことができるので様々な振幅圧縮処理が可能となる。また、対象となる音声素片の種別(無声子音、有声子音の別など)によって曲線を選ぶなど、音韻別の振幅圧縮も可能である。さらに、あらかじめ子音部の開始点、終了点などにラベルを付与しておくことにより、子音部と母音部を別の曲線で圧縮することもできる。
上記のように様々な振幅圧縮法が選べることから、特定の子音の特定の部分を強調するなどの音韻強調法として有効である。すなわち音声素片作成時のこのような処理は、音声強調法として非常に自由度が高くきめ細かい処理が可能である。また、このような処理は完全に前処理として実行されるため、音声合成時の処理速度に何ら影響を与えないという利点もある。
従って、いかなる複雑な音声強調処理を施すことも可能となる。そこで、フォルマント強調などの周波数領域の強調や、切り出しの対象となる音声波形を複数の帯域に分割して振幅圧縮などを施すことや、切り出し時に同等の処理を加えることにより、難聴者や騒音下での使用に適した合成音声を提供することが可能となる。特に、波形の切り出し時に補聴器の信号処理に相当する処理を加えることは、これまで時定数や未知の入力に対する処理の限界などによって不可能であったきめ細かい強調処理が可能となる。
なお、実施例17では音声素片に対する処理として主に子音の強調を目的とする振幅の変形処理や周波数特性の変形処理について説明したが、例えば公知の時間長変形技術を用いて子音部分の長さを調整することで明瞭度向上を図るなど、様々な波形変形処理を行ってもよい。
なお、実施例15においてマイクロフォン110は環境音信号を取り込んだが、使用者の発声を取り込むものとしても良い。
なお、実施例15において素片の強調処理を行ったが、強調処理を施した素片データベースと強調処理を施さない素片データベースとを切り替える、あるいは素片接続後の合成音声に強調処理を行うものとしても良い。
なお、実施例1、実施例8において強調処理は母音部の延長、クロージャーの延長、フォルマント強調、子音強調、および帯域強調としたが、これ以外の強調方法を用いても良い。
なお、実施例1、実施例8においてpが15より小さい場合にフォルマント強調情報を真とするとしたが、これ以外の値としても良い。
なお、実施例1、実施例8においてギャップ検出域が10ms以上の場合に子音強調情報を真とするとしたが、これ以外の値としても良い。
なお、実施例1、実施例8において2kHz以上の平均聴力レベルと2kHz未満の平均聴力レベルの差が30dB以上の場合に帯域強調情報を真とするとしたが、2kHz以外の周波数を帯域の境界としても良い。また帯域間の平均聴力レベルの差の基準は30dB以外の値でも良い。
なお、実施例1、実施例2、実施例4、実施例8において強調部情報が真の場合に母音定常部を20%延長するとしたが、これ以外の値でも良い。また、子音部分の時間長を延長するとしても良い。
なお、実施例1、実施例2において強調部情報が真の場合にクロージャーを20%延長するとしたが、これ以外の値でも良い。
なお、実施例1、実施例4、実施例7において環境音を1kHz以下、1kHzから2kHz、2kHz〜4kHz、4kHz以上の帯域に分割したが、これ以外の分割の方法でも良い。
なお、実施例1において1kHz以下、1kHzから2kHz、2kHz〜4kHz、4kHz以上の各帯域において、それぞれ20dBSPL/Hz、20dBSPL/Hz、15dBSPL/Hz、10dBSPL/Hz以上の環境があるときは圧縮パラメータを設定し、圧縮処理を行うとしたが、これ以外の値でも良い。
なお、実施例4において1kHz以下の環境音平均レベルが20dBSPL/Hz以上かつ、1kHzから2kHzの環境音平均レベルが20dBSPL/Hzかつ、他の帯域の環境音平均レベルが15dBSPL/Hz以下である場合にフォルマント強調情報を真とするとしたが、これ以外の値でも良い。
なお、実施例4において1kHzから2kHzの環境音平均レベルが20dBSPL/Hz以上かつ、2kHzから4kHzの環境音平均レベルが15dBSPL/Hzかつ、1kHz以下の環境音平均レベルが20dBSPL/Hz以下あるいは4kHZ以上の環境音平均レベルが15DBSPL/Hz以下の場合に子音強調情報を真としたが、これ以外の値としても良い。
なお、実施例4において1kHz以下、1kHzから2kHz、2kHz〜4kHz4kHz以上の各帯域において、それぞれ20dBSPL/Hz、20dBSPL/Hz、15dBSPL/Hz、10dBSPL/Hz以上の環境があるときは各帯域の帯域強調情報を真とするとしたが、これ以外の値としても良い。
なお、実施例7においてステップ7500のように圧縮パラメータを設定したがこれ以外の基準および方法を用いても良い。
なお、実施例9において環境音の平均レベルが30dB(A)以上の場合に基本周波数を20%高くするとしたが、これ以外の基準値でもよい。また基本周波数の変更はこれ以外の値としても良い。
なお、実施例10において2kHz以上の平均聴力レベルと2kHz未満の平均聴力レベルの差が30dB以上の場合に基本周波数を20%低くするとしたが2kHz以外の周波数を帯域の境界としても良い。また、差の値の基準はこれ以外の値としても良い。また、基本周波数の変更はこれ以外の値としても良い。
なお、実施例11、実施例12において平均聴力レベルが40dBHL以上の場合に和即を10%遅くするとしたが、平均聴力レベル以外の聴覚特性を判断に用いても良い。また、平均聴力レベルの基準はこれ以外の値としても良い。また、平均聴力レベルの基準を40dBHLとしたがこれ以外の値でも良い。また、話速を10%遅くするとしたがこれ以外の値としても良い。
なお、実施例13、実施例15において環境音の平均レベルが70dB(A)を越えた場合に音声合成を停止するとしたが、これ以外の値としても良い。なお、実施例2、実施例5、実施例8において素片データベースあるいはフォルマント強調フィルタの切替にスイッチを用いたが、ソフトウェア的に切り替えても良い。
以上説明したように、本実施形態によれば、使用者の聴覚特性に合わせて合成した音声に強調処理あるいは振幅のダイナミックレンジを圧縮する処理を施す、あるいは使用場面の騒音環境に合わせて合成した音声に強調処理あるいは振幅のダイナミックレンジを圧縮する処理を施す。また、データベースに記憶された合成単位に使用者の聴覚特性に合わせて強調処理あるいは振幅のダイナミックレンジを圧縮する処理を施した後に音声を合成する、あるいは使用場面の騒音環境に合わせてデータベースに記憶された合成単位に強調処理あるいは振幅のダイナミックレンジを圧縮する処理を施した後に音声を合成する。また、あらかじめ強調処理あるいは振幅のダイナミックレンジを圧縮する処理を施した合成単位を用いて音声を合成する。また、音声の合成を中断した際に言語処理結果に基づき停止位置以前で内容理解のしやすいテキスト上の点まで戻って音声の合成を再開する。また、言語処理に基づき強調処理を行う部分を設定することにより、聴覚障害のある使用者や、騒音下での使用でも情報を確実に伝達することができ、その実用的効果は大きい。