JP2006208600A

JP2006208600A - 音声合成装置及び音声合成方法

Info

Publication number: JP2006208600A
Application number: JP2005018755A
Authority: JP
Inventors: Shigeaki Komatsu; 慈明小松; Akiko Yamato; 亜紀子大和
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2005-01-26
Filing date: 2005-01-26
Publication date: 2006-08-10

Abstract

【課題】演算量や処理時間を減らしながらも、聞き取りやすい音声合成を行う音声合成装置及び音声合成方法を提供する。
【解決手段】ＣＰＵの使用率に基づいてディジタルフィルターの切り替えが行われる。ＣＰＵの使用率が第１の所定値Ｒ１を超えると（Ｓ１７：ＹＥＳ）、ＣＰＵへの負荷の高いＭＬＳＡフィルターが使用されている場合には、ＣＰＵへの負荷の低いＬＭＡフィルターに切り替えられる（Ｓ１８：ＹＥＳ，Ｓ１９）。また、ＣＰＵの使用率が第２の所定値Ｒ２を超えると（Ｓ２：ＹＥＳ）、処理をｗａｉｔ状態にする（Ｓ４）。また、ｗａｉｔ状態が所定時間継続した場合には（Ｓ８：ＹＥＳ）、処理を停止する（Ｓ１１）。
【選択図】図５

Description

本発明は、音声合成装置及び音声合成方法に関するものであり、詳細には、演算量や処理時間を減らしながらも聞き取りやすい音声合成を行う音声合成装置及び音声合成方法に関するものである。

従来、音声合成において、ＣＰＵが低速な場合やタスクが多い場合には、発生単語の途中で無音の区間が挿入されてしまいリアルタイムの音声合成ができずに聞き辛いという問題点や、合成音声の品質が固定であることにより長時間の使用では疲れやすいという問題点があった。これらを解決するために、特許文献１に記載の発明の音声合成方法及び装置においては、音韻パラメータの次数を入力し、入力された次数の音韻パラメータを使用することにより、計算量を増減したり、合成音声の品質を変更したりして音声合成のリアルタイム化や音声品質の変更を図っている。また、特許文献２に記載の発明の音声合成方法及び装置においては、ＣＰＵの使用率を抽出し、それに応じて処理時間と品質の異なる合成器の構成、あるいは音韻パラメータの次数を決定して音声合成を行うことにより、音声合成の処理時間や音質をコントロールし音声合成のリアルタイム化や音声品質の変更を図っている。また、特許文献３に記載の発明の音声合成方法及び装置では、音声合成の処理時間を計測し、この計測した処理時間に応じて処理時間と品質の異なる合成器の構成、あるいは音韻パラメータの次数を決定して音声合成を行うことにより、音声合成の処理時間や音質をコントロールして音声合成のリアルタイム化や音声品質の変更を図っている。
特開平５−２８１９８４号公報特許３０８３６４０号公報特開平８−６５８５号公報

しかしながら、ＣＰＵへの負荷を軽減するために次数を減らすと、出力される音声の品質は劣化する。つまりＣＰＵへの負荷を軽減するために次数を減らしすぎ、品質を下げすぎると全体的に不明瞭さが増し、語句によっては聞き取りにくいものも出てきてしまうという問題点がある。例えば、音韻パラメータの次数が２４次であったものを１／４以上減らしてしまうと、品質はかなり劣化してしまう。逆に、２４次以上に次数を上げてもさほど品質は変わらない。

また、特許文献１，２，３に記載の発明の音声合成方法及び装置においては、予め最大次数の音韻パラメータデータを作成し、決定された次数分のフィルターリングを行っている。よって、最大次数分の音韻パラメータデータを作成し、記憶する必要があるため、ＣＰＵの占有率や処理時間に応じて低い次数でのフィルターリングを行ったとしても、ＣＰＵの占有率や処理時間に対する貢献度には余り見込めない。したがって、ＣＰＵの占有率や処理時間に応じ、次数を品質が劣化しない範囲で変更しても、ＣＰＵの占有率や処理時間をそれ程大きく変えることができない。

本発明は、上述の問題点を解決するためになされたものであり、演算量や処理時間を減らしながらも、聞き取りやすい音声合成を行う音声合成装置及び音声合成方法を提供することを目的とする。

上記課題を解決するため、請求項１に係る発明の音声合成装置では、一定時間間隔毎の第１の音響パラメータ列に分析された音韻データから作られた音韻モデルと一定時間間隔毎に分析された基本周波数データから作られた韻律モデルを含む音響辞書と、音声を生成する文に適した前記音韻モデルを当該音響辞書から選択する音韻モデル選択手段と、当該音韻モデル選択手段により選択された前記音韻モデルを構成する前記音韻データを基に前記文に対する第１の音響パラメータ列を生成する第１の音響パラメータ列生成手段と、前記文に適した前記韻律モデルを前記音響辞書から選択する韻律モデル選択手段と、当該韻律モデル選択手段により選択された前記韻律モデルを基に前記文に対する基本周波数列を生成する基本周波数列生成手段と、当該基本周波数列生成手段によって生成された前記基本周波数列に基づいて音源信号を作成する音源信号作成手段と、前記第１の音響パラメータ列と前記音源信号作成手段で作成された前記音源信号とをもとに音声を生成する第１のディジタルフィルターと、前記第１の音響パラメータ列を第２の音響パラメータ列に変換する変換手段と、当該変換手段により変換された前記第２の音響パラメータ列と前記音源信号をもとに音声を生成する第２のディジタルフィルターと、前記第１のディジタルフィルターを用いて音声を生成するか、前記第２のディジタルフィルターを用いて音声を生成するかを切り替えるフィルター切替手段とを備えたことを特徴とする構成となっている。

また、請求項２に係る発明の音声合成装置では、請求項１に記載の発明の構成に加えて、前記第１の音響パラメータ列はメルケプストラム列であり、前記第２の音響パラメータ列はケプストラム列であることを特徴とする構成となっている。

また、請求項３に係る発明の音声合成装置では、請求項１又は２に記載の発明の構成に加えて、ＣＰＵ使用率を監視するＣＰＵ使用率監視手段と、当該ＣＰＵ使用率監視手段により前記ＣＰＵ使用率が第１の所定値を超えたか否かを判断する第１判断手段とを備え、前記フィルター切替手段は前記第１判断手段により前記第１の所定値を超えたと判断された場合に、第２のディジタルフィルターを用いて音声を生成するように切り替えることを特徴とする構成となっている。

また、請求項４に係る発明の音声合成装置では、請求項１乃至３のいずれかに記載の発明の構成に加えて、前記ＣＰＵ使用率監視手段により前記ＣＰＵ使用率が第２の所定値を超えたか否かを判断する第２判断手段と、前記第２判断手段により前記ＣＰＵ使用率が前記第２の所定値を超えたと判断された場合に、前記第１のディジタルフィルター及び前記第２のディジタルフィルターを用いて音声を生成する処理を待機させる処理待機手段とを備えたことを特徴とする構成となっている。

また、請求項５に係る発明の音声合成装置では、請求項４に記載の発明の構成に加えて、前記処理待機手段による処理の待機を解除し処理を再開する際には、処理が待機されている音が含まれる文単位、呼気段落単位、アクセント句単位又はモーラ単位のいずれかの先頭にもどって処理を再開すること特徴とする構成となっている。

また、請求項６に係る発明の音声合成装置では、請求項１乃至５のいずれかに記載の発明の構成に加えて、前記第２判断手段により前記ＣＰＵ使用率が前記第２の所定値を超えた状態の継続時間を計測する継続時間計測手段と、当該継続時間計測手段により前記ＣＰＵ使用率が前記第２の所定値を超えた状態が所定時間を超えたと判断された場合には、当該音声合成装置のすべての処理を停止させる処理停止手段とを備えたことを特徴とする構成となっている。

また、請求項７に係る発明の音声合成装置では、請求項１乃至６のいずれかに記載の発明の構成に加えて、前記第２のディジタルフィルターを用いて音声を生成している場合において、前記フィルター切替手段は、明瞭に読み上げたい語句に付与される明瞭フラグが付与された文字列を合成する際、明瞭に読み上げる語句として予め設定されている任意の語句又は任意の品詞の語句を合成する際、予め設定された文字修飾がされている文字列を合成する際、読み上げスピードが速いに設定されている際、又は、読み上げスピードが遅いに設定されている文において読み上げスピードを速いに変更したい文字列に付与されるスピード変更フラグが付与された文字列を合成する際に前記第１のディジタルフィルターを用いて音声を生成するように切り替えることを特徴とする構成となっている。

また、請求項８に係る発明の音声合成装置では、請求項７に記載の発明の構成に加えて、前記フィルター切替手段による切り替えは、文単位、呼気段落単位、アクセント句単位又はモーラ単位のいずれかで行うことを特徴とする構成となっている。

また、請求項９に係る発明の音声合成装置では、音声を生成する文に対応した音声を生成する音声生成手段と、当該音声生成手段により生成される音声よりも高音質に前記文に対応した音声を生成する高音質音声生成手段と、前記音声生成手段により音声を生成するか、前記高音質音声生成手段により音声を生成するかを切り替える切替手段とを備え、前記音声生成手段により音声を生成している場合において、前記切替手段は、明瞭に読み上げたい語句に付与される明瞭フラグの付与された文字列を合成する際、明瞭に読み上げ語句として予め設定されている任意の語句又は任意の品詞の語句を合成する際、予め設定された文字修飾が行われている文字列を合成する際、読み上げスピードが速いに設定されている際、又は、読み上げスピードが遅いに設定されている文において読み上げスピードを速いに変更したい文字列に付与されるスピード変更フラグの付与された文字列を合成する際に前記高音質音声生成手段により音声を生成するように切り替えることを特徴とする構成となっている。

また、請求項１０に係る発明の音声合成装置では、請求項９に記載の発明の構成に加えて、前記切替手段による切り替えは、文単位、呼気段落単位、アクセント句単位又はモーラ単位のいずれかで行うことを特徴とする構成となっている。

また、請求項１１に係る発明の音声合成方法では、一定時間間隔毎の第１の音響パラメータ列に分析された音韻データから作られた音韻モデルと、一定時間間隔毎に分析された基本周波数データから作られた韻律モデルを含む音響辞書から前記文に適した前記音韻モデルを選択する音韻モデル選択工程と、当該音韻モデル選択工程において選択された前記音韻モデルを構成する前記音韻データを基に前記文に対する第１の音響パラメータ列を生成する第１の音響パラメータ列生成工程と、前記音響辞書から前記文に適した前記韻律モデルを選択する韻律モデル選択工程と、当該韻律モデル選択工程において選択された前記韻律モデルを構成する前記韻律データを基に前記文に対する基本周波数列を生成する基本周波数列生成工程と、前記基本周波数列生成工程によって生成された前記基本周波数列に基づいて音源信号を作成する音源信号作成工程と、前記第１の音響パラメータ列と前記音源信号作成工程で作成された前記音源信号とをもとに音声を生成する第１のディジタルフィルター工程と、前記第１の音響パラメータ列を第２の音響パラメータ列に変換する変換工程と、当該変換工程により変換された前記第２の音響パラメータ列と前記音源信号をもとに音声を生成する第２のディジタルフィルター工程と、前記第１のディジタルフィルター工程を用いて音声を生成するか、前記第２のディジタルフィルター工程を用いて音声を生成するかを切り替えるフィルター切替工程とを備えたことを特徴とする構成となっている。

また、請求項１２に係る発明の音声合成方法では、請求項１１に記載の発明の構成に加えて、前記第１の音響パラメータ列はメルケプストラム列であり、前記第２の音響パラメータ列はケプストラム列であることを特徴とする構成となっている。

また、請求項１３に係る発明の音声合成方法では、請求項１１又は１２に記載の発明の構成に加えて、ＣＰＵ使用率を監視するＣＰＵ使用率監視工程と、当該ＣＰＵ使用率監視工程において前記ＣＰＵ使用率が第１の所定値を超えたか否かを判断する第１判断工程とを備え、前記フィルター切替工程は前記第１判断工程において前記第１の所定値を超えたと判断された場合に、第２のディジタルフィルター工程を用いて音声を生成するように切り替えることを特徴とする構成となっている。

また、請求項１４に係る発明の音声合成方法では、請求項１１乃至１３のいずれかに記載の発明の構成に加えて、前記ＣＰＵ使用率監視工程において前記ＣＰＵ使用率が第２の所定値を超えたか否かを判断する第２判断工程と、前記第２判断工程により前記ＣＰＵ使用率が前記第２の所定値を超えたと判断された場合に、前記第１のディジタルフィルター工程及び前記第２のディジタルフィルター工程を用いて音声を生成する処理を待機させる処理待機工程とを備えたことを特徴とする構成となっている。

また、請求項１５に係る発明の音声合成方法では、請求項１４に記載の発明の構成に加えて、前記処理待機工程による処理の待機を解除し処理を再開する際には、処理が待機されている音が含まれる、文単位、呼気段落単位、アクセント句単位又はモーラ単位のいずれかの先頭にもどって処理を再開することを特徴とする構成となっている。

また、請求項１６に係る発明の音声合成方法では、請求項１１乃至１５のいずれかに記載の発明の構成に加えて、前記第２判断工程において前記ＣＰＵ使用率が前記第２の所定値を超えた状態の継続時間を計測する継続時間計測工程と、当該継続時間計測工程において前記ＣＰＵ使用率が前記第２の所定値を超えた状態が所定時間を超えたと判断された場合は、当該音声合成方法のすべての処理を停止させる処理停止工程とを備えたことを特徴とする構成となっている。

また、請求項１７に係る発明の音声合成方法では、請求項１１乃至１６のいずれかに記載の発明の構成に加えて、前記第２のディジタルフィルター工程を用いて音声を生成している場合において、前記フィルター切替工程は、明瞭に読み上げたい語句に付与される明瞭フラグの付与された文字列を合成する際、明瞭に読み上げ語句として予め設定されている任意の語句又は任意の品詞の語句を合成する際、予め設定された文字修飾がされている文字列を合成する際、読み上げスピードが速いに設定されている際、又は、読み上げスピードが遅いに設定されている分において読み上げスピードを速いに変更したい文字列に付与されるスピード変更フラグの付与された文字列を合成する際に前記第１のディジタルフィルター工程を用いて音声を生成するように切り替えることを特徴とする構成となっている。

また、請求項１８に係る発明の音声合成方法では、請求項１７に記載の発明の構成に加えて、前記フィルター切替工程における切り替えは、文単位、呼気段落単位、アクセント句単位又はモーラ単位のいずれかで行うことを特徴とする構成となっている。

また、請求項１９に係る発明の音声合成方法では、音声を生成する文に対応した音声を生成する音声生成工程と、当該音声生成工程において生成される音声よりも高音質に前記文に対応した音声を生成する高音質音声生成工程と、前記音声合成工程において音声を生成するか、前記高音質音声合成工程において音声を生成するかを切り替える切替工程とを備え、前記音声生成工程において音声を生成している場合において、前記切替工程は、明瞭に読み上げたい語句に付与される明瞭フラグが付与された文字列を合成する際、明瞭に読み上げる語句として予め設定されている任意の語句又は任意の品詞の語句を合成する際、予め設定された文字修飾が行われている文字列を合成する際、読み上げスピードが速いに設定されている際、又は、読み上げスピードが遅いに設定されている文において読み上げスピードを速いに変更したい文字列に付与されるスピード変更フラグが付与された文字列を合成する際に前記高音質音声生成工程において音声を生成するように切り替えることを特徴とする構成となっている。

また、請求項２０に係る発明の音声合成方法では、請求項１９に記載の発明の構成に加えて、前記切替工程における切り替えは、文単位、呼気段落単位、アクセント句単位又はモーラ単位のいずれかで行うことを特徴とする構成となっている。

請求項１に係る発明の音声合成装置では、一定時間間隔毎の第１の音響パラメータ列に分析された音韻データから作られた音韻モデルと一定時間間隔毎に分析された基本周波数データから作られた韻律モデルを含む音響辞書と、音韻モデル選択手段は、音声を生成する文に適した音韻モデルを音響辞書から選択し、第１の音響パラメータ列生成手段は、音韻モデル選択手段により選択された音韻モデルを構成する音韻データを基に文に対する第１の音響パラメータ列を生成し、韻律モデル選択手段は、文に適した韻律モデルを音響辞書から選択し、基本周波数列生成手段は、韻律モデル選択手段により選択された韻律モデルを基に文に対する基本周波数列を生成し、音源信号作成手段は、基本周波数列生成手段によって生成された基本周波数列に基づいて音源信号を作成し、第１のディジタルフィルターは、第１の音響パラメータ列と音源信号作成手段で作成された音源信号とをもとに音声を生成し、変換手段は、第１の音響パラメータ列を第２の音響パラメータ列に変換し、第２のディジタルフィルターは、変換手段により変換された第２の音響パラメータ列と音源信号をもとに音声を生成し、フィルター切替手段は、第１のディジタルフィルターを用いて音声を生成するか、第２のディジタルフィルターを用いて音声を生成するかを切り替えることができる。したがって、フィルター切替手段でＣＰＵの占有率や処理量や生成される音声の品質の異なる第１のディジタルフィルターと第２のディジタルフィルターとを切り替えることにより、ＣＰＵの占有率や処理量をコントロールすることができる。

また、請求項２に係る発明の音声合成装置では、請求項１に記載の発明の効果に加えて、第１の音響パラメータ列をメルケプストラム列とし、第２の音響パラメータ列をケプストラム列とすることができる。メルケプストラム列をもとに音声を生成する第１のディジタルフィルターは、音声の品質は高いが処理量を有し、ＣＰＵの占有率が高くなり、ケプストラム列をもとに音声を生成する第２のディジタルフィルターは、音声の品質は低いが処理量が少なく、ＣＰＵの占有率も低い。よって、第１のディジタルフィルターと第２のディジタルフィルターとを切り替えることにより、ＣＰＵの占有率や処理量や生成される音声の品質をコントロールすることができ、メルケプストラム列を使用することにより、出力される音声を過度に劣化させることなく、ＣＰＵへの負荷を低くすることができる。

また、請求項３に係る発明の音声合成装置では、請求項１又は２に記載の発明の効果に加えて、ＣＰＵ使用率監視手段は、ＣＰＵ使用率を監視し、第１判断手段は、ＣＰＵ使用率監視手段によりＣＰＵ使用率が第１の所定値を超えたか否かを判断することができる。また、フィルター切替手段は第１判断手段により第１の所定値を超えたと判断された場合に、第２のディジタルフィルターを用いて音声を生成するように切り替えることができる。したがって、第２のディジタルフィルターをＣＰＵ占有率のより軽いディジタルフィルターとすれば、ＣＰＵの使用率が高い場合には第２のディジタルフィルターを使用することにより、ＣＰＵへの負荷を軽減することができる。特に、音声合成以外の処理を行う装置においては、音声合成処理が他の処理を邪魔することを防ぐことができる。また、ＣＰＵ使用率の代わりにＣＰＵ未使用率（空率）を用いても同様な効果が得られる。

また、請求項４に係る発明の音声合成装置では、請求項１乃至３のいずれかに記載の発明の効果に加えて、第２判断手段は、ＣＰＵ使用率監視手段によりＣＰＵ使用率が第２の所定値を超えたか否かを判断し、処理待機手段は、第２判断手段によりＣＰＵ使用率が第２の所定値を超えたと判断された場合に、第１のディジタルフィルター及び第２のディジタルフィルターを用いて音声を生成する処理を待機させることができる。したがって、ＣＰＵの使用率が第２の所定値よりも高くなった場合には、音声合成の処理が待機されるので、ＣＰＵを使用している他の処理が終了してＣＰＵの使用率が低くなった後に音声合成の処理が行われるので、音声の途中に無音の区間が入ってしまい、途切れ途切れに音声が出力されることがなく、聞き取りやすい音声が出力される。特に、音声合成以外の処理を行う装置においては、音声合成処理が他の処理を邪魔することを防ぐことができる。

また、請求項５に係る発明の音声合成装置では、請求項４に記載の発明の効果に加えて、処理待機手段による処理の待機を解除し処理を再開する際には、処理が待機されている音が含まれる文単位、呼気段落単位、アクセント句単位又はモーラ単位のいずれかの先頭にもどって処理を再開することができる。したがって、単位、呼気段落単位、アクセント句単位又はモーラ単位のいずれかの先頭から処理が再開されるので、処理が待機した場合でも聞き取りやすい。

また、請求項６に係る発明の音声合成装置では、請求項１乃至５のいずれかに記載の発明の効果に加えて、継続時間計測手段は、第２判断手段によりＣＰＵ使用率が第２の所定値を超えた状態の継続時間を計測し、処理停止手段は、継続時間計測手段によりＣＰＵ使用率が第２の所定値を超えた状態が所定時間を超えたと判断された場合には、音声合成装置のすべての処理を停止させることができる。したがって、ＣＰＵ使用率が高い状態が続けば処理が停止されるので、ＣＰＵの負荷を下げることができる。特に、音声合成以外の処理を行う装置においては、音声合成処理が他の処理を邪魔することを防ぐことができる。

また、請求項７に係る発明の音声合成装置では、請求項１乃至６のいずれかに記載の発明の効果に加えて、第２のディジタルフィルターを用いて音声を生成している場合において、フィルター切替手段は、明瞭に読み上げたい語句に付与される明瞭フラグが付与された文字列を合成する際、明瞭に読み上げる語句として予め設定されている任意の語句又は任意の品詞の語句を合成する際、予め設定された文字修飾がされている文字列を合成する際、読み上げスピードが速いに設定されている際、又は、読み上げスピードが遅いに設定されている文において読み上げスピードを速いに変更したい文字列に付与されるスピード変更フラグが付与された文字列を合成する際に第１のディジタルフィルターを用いて音声を生成するように切り替えることができる。したがって、第２のディジタルフィルターを用いており、品質が高くない場合であっても、明瞭に読み上げたい語句、明瞭に読み上げる語句として予め設定されている語句や品詞、予め設定された文字修飾がされている文字列、読み上げスピードが遅いに設定されている文において読み上げスピードを速いに変更したい文字列といった必要な文字列や、読み上げスピードが速いに設定されている際には、第１のディジタルフィルターを用いることにより、音声の品質を上げることができるので、聞き取りやすい音声を生成することができる。

また、請求項８に係る発明の音声合成装置では、請求項７に記載の発明の効果に加えて、フィルター切替手段による切り替えは、文単位、呼気段落単位、アクセント句単位又はモーラ単位のいずれかで行うことができる。したがって、文や呼気段落やアクセントやモーラの途中で品質が変わってしまうことがなく、聞き取りやすい音声を合成することができる。

また、請求項９に係る発明の音声合成装置では、音声生成手段は、音声を生成する文に対応した音声を生成し、高音質音声生成手段は、音声生成手段により生成される音声よりも高音質に文に対応した音声を生成し、切替手段は、音声生成手段により音声を生成するか、高音質音声生成手段により音声を生成するかを切り替えることができる。そして、音声生成手段により音声を生成している場合において、切替手段は、明瞭に読み上げたい語句に付与される明瞭フラグの付与された文字列を合成する際、明瞭に読み上げ語句として予め設定されている任意の語句又は任意の品詞の語句を合成する際、予め設定された文字修飾が行われている文字列を合成する際、読み上げスピードが速いに設定されている際、又は、読み上げスピードが遅いに設定されている文において読み上げスピードを速いに変更したい文字列に付与されるスピード変更フラグの付与された文字列を合成する際に高音質音声生成手段により音声を生成するように切り替えることができる。したがって、明瞭に読み上げたい語句、明瞭に読み上げる語句として予め設定されている語句や品詞、予め設定された文字修飾がされている文字列、読み上げスピードが遅いに設定されている文において読み上げスピードを速いに変更したい文字列といった必要な文字列や、読み上げスピードが速いに設定されている際には、第１のディジタルフィルターを用いることにより、音声の品質を上げることができるので、聞き取りやすい音声を生成することができる。

また、請求項１０に係る発明の音声合成装置では、請求項９に記載の発明の効果に加えて、切替手段による切り替えは、文単位、呼気段落単位、アクセント句単位又はモーラ単位のいずれかで行うことができる。したがって、文や呼気段落やアクセントやモーラの途中で品質が変わってしまうことがなく、聞き取りやすい音声を合成することができる。

また、請求項１１に係る発明の音声合成方法では、音韻モデル選択工程は、一定時間間隔毎の第１の音響パラメータ列に分析された音韻データから作られた音韻モデルと、一定時間間隔毎に分析された基本周波数データから作られた韻律モデルを含む音響辞書から文に適した音韻モデルを選択し、第１の音響パラメータ列生成工程は、音韻モデル選択工程において選択された音韻モデルを構成する音韻データを基に文に対する第１の音響パラメータ列を生成し、韻律モデル選択工程は、音響辞書から文に適した韻律モデルを選択し、基本周波数列生成工程は、韻律モデル選択工程において選択された韻律モデルを構成する韻律データを基に文に対する基本周波数列を生成し、音源信号作成工程は、基本周波数列生成工程によって生成された基本周波数列に基づいて音源信号を作成し、第１のディジタルフィルター工程は、第１の音響パラメータ列と音源信号作成工程で作成された音源信号とをもとに音声を生成し、変換工程は、第１の音響パラメータ列を第２の音響パラメータ列に変換し、第２のディジタルフィルター工程は、変換工程により変換された第２の音響パラメータ列と音源信号をもとに音声を生成し、フィルター切替工程は、第１のディジタルフィルター工程を用いて音声を生成するか、第２のディジタルフィルター工程を用いて音声を生成するかを切り替えることができるしたがって、フィルター切替手段でＣＰＵの占有率や処理量や生成される音声の品質の異なる第１のディジタルフィルターと第２のディジタルフィルターとを切り替えることにより、ＣＰＵの占有率や処理量をコントロールすることができる。

また、請求項１２に係る発明の音声合成方法では、請求項１１に記載の発明の効果に加えて、第１の音響パラメータ列をメルケプストラム列とし、第２の音響パラメータ列をケプストラム列とすることができる。メルケプストラム列をもとに音声を生成する第１のディジタルフィルターは、音声の品質は高いが処理量を有し、ＣＰＵの占有率が高くなり、ケプストラム列をもとに音声を生成する第２のディジタルフィルターは、音声の品質は低いが処理量が少なく、ＣＰＵの占有率も低い。よって、第１のディジタルフィルターと第２のディジタルフィルターとを切り替えることにより、ＣＰＵの占有率や処理量や生成される音声の品質をコントロールすることができる。

また、請求項１３に係る発明の音声合成方法では、請求項１１又は１２に記載の発明の効果に加えて、ＣＰＵ使用率監視工程は、ＣＰＵ使用率を監視し、第１判断工程は、ＣＰＵ使用率監視工程においてＣＰＵ使用率が第１の所定値を超えたか否かを判断することができる。また、フィルター切替工程は第１判断工程において第１の所定値を超えたと判断された場合に、第２のディジタルフィルター工程を用いて音声を生成するように切り替えることができる。したがって、第２のディジタルフィルターをＣＰＵ占有率のより軽いディジタルフィルターとすれば、ＣＰＵの使用率が高い場合には第２のディジタルフィルターを使用することにより、ＣＰＵへの負荷を軽減することができる。特に、音声合成以外の工程がある場合には、音声合成の工程が他の工程を邪魔することを防ぐことができる。

また、請求項１４に係る発明の音声合成方法では、請求項１１乃至１３のいずれかに記載の発明の効果に加えて、第２判断工程は、ＣＰＵ使用率監視工程においてＣＰＵ使用率が第２の所定値を超えたか否かを判断し、処理待機工程は、第２判断工程によりＣＰＵ使用率が第２の所定値を超えたと判断された場合に、第１のディジタルフィルター工程及び第２のディジタルフィルター工程を用いて音声を生成する処理を待機させることができる。したがって、ＣＰＵの使用率が第２の所定値よりも高くなった場合には、音声合成の処理が待機されるので、ＣＰＵを使用している他の処理が終了してＣＰＵの使用率が低くなった後に音声合成の処理が行われるので、音声の途中に無音の区間が入ってしまい、途切れ途切れに音声が出力されることがなく、聞き取りやすい音声が出力される。特に、音声合成以外の工程がある場合には、音声合成の工程が他の工程を邪魔することを防ぐことができる。

また、請求項１５に係る発明の音声合成方法では、請求項１４に記載の発明の効果に加えて、処理待機工程による処理の待機を解除し処理を再開する際には、処理が待機されている音が含まれる、文単位、呼気段落単位、アクセント句単位又はモーラ単位のいずれかの先頭にもどって処理を再開することができる。したがって、単位、呼気段落単位、アクセント句単位又はモーラ単位のいずれかの先頭から処理が再開されるので、処理が待機した場合でも聞き取りやすい。

また、請求項１６に係る発明の音声合成方法では、請求項１１乃至１５のいずれかに記載の発明の効果に加えて、継続時間計測工程は、第２判断工程においてＣＰＵ使用率が第２の所定値を超えた状態の継続時間を計測し、処理停止工程は、継続時間計測工程においてＣＰＵ使用率が第２の所定値を超えた状態が所定時間を超えたと判断された場合は、音声合成方法のすべての処理を停止させることができる。したがって、ＣＰＵ使用率が高い状態が続けば処理が停止されるので、ＣＰＵの負荷を下げることができる。特に、音声合成以外の工程がある場合には、音声合成の工程が他の工程を邪魔することを防ぐことができる。

また、請求項１７に係る発明の音声合成方法では、請求項１１乃至１６のいずれかに記載の発明の効果に加えて、第２のディジタルフィルター工程を用いて音声を生成している場合において、フィルター切替工程は、明瞭に読み上げたい語句に付与される明瞭フラグの付与された文字列を合成する際、明瞭に読み上げ語句として予め設定されている任意の語句又は任意の品詞の語句を合成する際、予め設定された文字修飾がされている文字列を合成する際、読み上げスピードが速いに設定されている際、又は、読み上げスピードが遅いに設定されている分において読み上げスピードを速いに変更したい文字列に付与されるスピード変更フラグの付与された文字列を合成する際に第１のディジタルフィルター工程を用いて音声を生成するように切り替えることができる。したがって、第２のディジタルフィルターを用いており、品質が高くない場合であっても、明瞭に読み上げたい語句、明瞭に読み上げる語句として予め設定されている語句や品詞、予め設定された文字修飾がされている文字列、読み上げスピードが遅いに設定されている文において読み上げスピードを速いに変更したい文字列といった必要な文字列や、読み上げスピードが速いに設定されている際には、第１のディジタルフィルターを用いることにより、音声の品質を上げることができるので、聞き取りやすい音声を生成することができる。

また、請求項１８に係る発明の音声合成方法では、請求項１７に記載の発明の効果に加えて、フィルター切替工程における切り替えは、文単位、呼気段落単位、アクセント句単位又はモーラ単位のいずれかで行うことができる。したがって、文や呼気段落やアクセントやモーラの途中で品質が変わってしまうことがなく、聞き取りやすい音声を合成することができる。

また、請求項１９に係る発明の音声合成方法では、音声生成工程は、音声を生成する文に対応した音声を生成し、高音質音声生成工程は、音声生成工程において生成される音声よりも高音質に文に対応した音声を生成し、切替工程は、音声合成工程において音声を生成するか、高音質音声合成工程において音声を生成するかを切り替えることができる。そして、音声生成工程において音声を生成している場合において、切替工程は、明瞭に読み上げたい語句に付与される明瞭フラグが付与された文字列を合成する際、明瞭に読み上げる語句として予め設定されている任意の語句又は任意の品詞の語句を合成する際、予め設定された文字修飾が行われている文字列を合成する際、読み上げスピードが速いに設定されている際、又は、読み上げスピードが遅いに設定されている文において読み上げスピードを速いに変更したい文字列に付与されるスピード変更フラグが付与された文字列を合成する際に高音質音声生成工程において音声を生成するように切り替えることができる。したがって、明瞭に読み上げたい語句、明瞭に読み上げる語句として予め設定されている語句や品詞、予め設定された文字修飾がされている文字列、読み上げスピードが遅いに設定されている文において読み上げスピードを速いに変更したい文字列といった必要な文字列や、読み上げスピードが速いに設定されている際には、第１のディジタルフィルターを用いることにより、音声の品質を上げることができるので、聞き取りやすい音声を生成することができる。

また、請求項２０に係る発明の音声合成方法では、請求項１９に記載の発明の効果に加えて、切替工程における切り替えは、文単位、呼気段落単位、アクセント句単位又はモーラ単位のいずれかで行うことができる。したがって、文や呼気段落やアクセントやモーラの途中で品質が変わってしまうことがなく、聞き取りやすい音声を合成することができる。

以下、本発明の実施の形態を図面を参照して説明する。本実施の形態では、本発明の要部であるディジタルフィルターの切り替えにおいて、３つの条件による切り替えの実施例を説明する。第１の実施例では、ＣＰＵ使用率に基づいてディジタルフィルターの切り替えが行われる。第２の実施例では、音声合成を行うテキストに所定の指示がある場合にディジタルフィルターの切り替えが行われる。第３の実施例では、音声出力の設定速度に基づいてディジタルフィルターの切り替えが行われる。

まず、図１を参照して、本実施の形態の音声合成装置及び音声合成方法における機能構成について説明する。図１は、本実施の形態の第１の実施例、第２の実施例、第３の実施例に共通の機能構成図である。図１に示すように、まず、音声合成されるテキストは言語解析１１が行われる。この言語解析１１では、入力されたテキストが解析されて、その読みとアクセント型が出力される。

例えば、音声合成されるテキストが「一週間ばかり、ニューヨークを取材した。」であれば、まず、品詞情報、読み情報、接続情報、アクセント情報等をもつ言語辞書（図示外）が参照されて周知の最長一致法で形態素解析が行われ、「一」，「週間」，「ばかり」，「ニューヨーク」，「を」，「取材」，「し」，「た。」に解析される。そして、言語辞書の接続情報が参照されて複合語がまとめられ、「一週間ばかり」，「ニューヨークを」，「取材した。」とされる。尚、形態素解析においてはアクセント位置も言語辞書のアクセント情報から割り出される。そして、複合語にまとめられる際に、アクセント位置の移動がある語については、アクセント位置の変更処理も行われる。そして、最後に、言語情報の読み情報が参照されて、文字列がカタカナの文字列に置き換えられ、「イッシューカンバカリ（６）｜ニューヨークヲ（３）シュザイシタ（０）」という解析結果が出力される。ここで「｜」は呼気段落区切りを示し、（）はアクセント区の区切りを示し、（）内の数字がアクセント区のアクセント位置を示している。

そして、言語解析１１により解析された読みに基づいて、音韻モデル選択１２が行われる。この音韻モデル選択１２では、読みに該当する音韻モデルが音響辞書５０の音韻モデル５１から選択され、音韻列が生成される。音響辞書５０の音韻モデル５１には、「ａ，ｂ，ｂｙ，ｃｈ，ｃｌ，ｄ，ｄｙ，ｅ，ｆ，ｆｙ，ｇ，ｇｙ，ｈ，ｈｙ，ｉ，ｊ，ｋ，ｋｙ，ｍ，ｍｙ，ｎ，Ｎ，ｎｙ，ｏ，ｐ，ｐａｕ，ｐｙ，ｒ，ｒｙ，ｓ，ｓｈ，ｔ，ｔｓ，ｔｙ，ｕ，ｗ，ｙ，ｚ」の３８種の音韻モデルのリストが記憶されている。尚、これ以外に前後の音韻環境、韻律環境を考慮する場合もある。この音韻モデルは、自然音声をメルケプストラム分析することによって得られるものである。各音韻モデルはその継続時間をフレーム（１フレームは１０ｍｓとする）で分割され、フレームごとにメルケプストラム係数が記憶されている。また、その他にフレームごとに有声か無声かの情報が記憶されている。

「一週間ばかり、ニューヨークを取材した。」の例では、「イッシューカンバカリ｜ニューヨークヲシュザイシタ」という読みに基づいて、「ｉ＿ｃｌ＿ｓｈ＿ｕ＿ｕ＿ｋ＿ａ＿Ｎ＿ｂ＿ａ＿ｋ＿ａ＿ｒ＿ｉ＿ｐａｕ＿ｎｙ＿ｕ＿ｕ＿ｙ＿ｏ＿ｏ＿ｋ＿ｕ＿ｏ＿ｓｈ＿ｕ＿ｚ＿ａ＿ｉ＿ｓｈ＿ｉ＿ｔ＿ａ」という音韻モデルが選択される。尚、「ｐａｕ」はポーズを示している。次いで、音韻モデル選択１２により選択された音韻モデルに基づいて、各音素の音韻モデルが結合されてメルケプストラム列と有声／無声情報列（以下、ｍｃｅｐ列とする）が生成される（ｍｃｅｐ列生成１３）。

また、言語解析１１により解析されたアクセント型に基づいて、韻律モデル選択１５が行われる。この韻律モデル選択１５では、アクセント区切り、アクセント型に該当する韻律モデル列が音響辞書５０の韻律モデル５２から選択され、韻律モデル列が生成される。「一週間ばかり、ニューヨークを取材した。」の例では、「（９，６）、ｐａｕ、（６，３）、（５，０）」という韻律モデル列が生成される。これは、９モーラ（拍）のアクセント型６の韻律モデルの次に、ポーズがあり、その後に６モーラのアクセント型３、５モーラのアクセント型０となることを示している。次いで、ｐｉｔｃｈ列生成１６により、生成された韻律モデル列が接続されてｐｉｔｃｈ列が生成される。ただし、接続時に音韻モデル列の各音韻の長さに合わせて、モーラ長を伸縮して音韻モデルとの同期が取られる。

そして、ｍｃｅｐ列生成１３により生成されたｍｃｅｐ列の有声／無声情報、及びｐｉｔｃｈ列生成１６により生成されたｐｉｔｃｈ列に基づいて音源信号生成１７が行われる。音源信号は、ｐｉｔｃｈ列に基づいて有声部にはパルス列信号が生成され、無声部には雑音信号が生成される。そして、音源信号がＭＬＳＡフィルター２３又はＬＭＡフィルター２２を介して音声として出力される。

ここで、ディジタルフィルター切り替え２０により音源信号から音声出力するためのデータを生成する際のディジタルフィルターとしてＭＬＳＡフィルター２３とＬＭＡフィルター２２とを切り替える。第１の実施例では、ＣＰＵ使用率計測１８により計測されたＣＰＵの使用率に基づいて使用するディジタルフィルターの切り替えが行われ、第２の実施例では、テキスト解析１４により解析された結果に基づいて使用するディジタルフィルターの切り替えが行われ、第３の実施例では、設定速度取得１９により取得された設定速度に基づいて使用するディジタルフィルターの切り替えが行われる。

尚、ＬＭＡフィルター２２は、ケプストラム列（以下、ｃｅｐ列とする）を係数として音声を生成するが、入力されたテキストからは、ｍｃｅｐ列のみしか生成されていないので（音韻モデル選択１２，ｍｃｅｐ列生成１３）、周波数変換２１により周知の変換方法でｍｃｅｐ列がｃｅｐ列に変換される。そして、変換されたｃｅｐ列と音源信号に基づいてＬＭＡフィルター２２は音声出力を行う。

人間の音の高さに対する聴覚特性では、低い周波数域で細かい分解能を持ち、高い周波数域で粗い分解能を持っている。メルケプストラム分析は、このような聴覚特性を表す非直線周波数軸上で定義されたケプストラムであり、メルケプストラム分析によるｍｃｅｐ列を用いたＭＬＳＡフィルター２３を用いて音声出力する場合には、同じ次数のｃｅｐ列を用いたＬＭＡフィルター２２を用いて音声出力するよりも計算量が多く、ＣＰＵへの負荷も多い状態であるが高音質の音声を出力することができる。具体的には、同一サンプルの演算量を比較すると、ＭＬＳＡフィルター２３では、加算１６２回、減算７３回、乗算１７４回、除算９７回に対して、ＬＭＡフィルター２２では、加算８６回、減算０回、乗算８１回、除算１２回の演算量となる。

次に、図２を参照して、本実施の形態の音声合成装置１について説明する。図２は、音声合成装置１の電気的構成を示すブロック図である。図２に示すように、音声合成装置１には音声合成装置１の制御を司るＣＰＵ２が設けられ、ＣＰＵ２には、キーボード３と、各種のデータを一時的に記憶するＲＡＭ４と、音響辞書５０等を記憶したＲＯＭ５と、デジタルアナログコンバータ（ＤＡＣ）６、計時装置９とが接続している。そして、ＤＡＣ６にはさらにアンプ（ＡＭＰ）７が接続し、ＡＭＰ７にはスピーカ８が接続している。

また、ＲＡＭ４には、音声合成の処理を行う際に使用される変数や生成データを記憶する種々の記憶エリアが設けられている。例えば、テキスト記憶エリア４１には、キーボード３から入力され、音声合成を行うテキストが記憶される。また、解析結果記憶エリア４２には、言語解析１１によりテキスト記憶エリア４１に記憶されているテキストが解析された結果等が記憶される。

図３は、テキスト記憶エリア４１の構成を示す模式図であり、図４は、解析結果記憶エリア４２の構成を示す模式図である。図３に示すように、テキスト記憶エリア４１には音声合成を行うテキストが記憶される。図３に示す例では、「一週間ばかり、ニューヨークを取材した。」というテキストが記憶されている。図４に示す例では、解析結果記憶エリア４２には、「一週間ばかり、ニューヨークを取材した。」の言語解析１１の解析結果として、「イッシューカンバカリ（６）｜ニューヨークヲ（３）シュザイシタ（０）」と記憶されている。

尚、第２の実施例において、テキスト記憶エリア４１に記憶されているテキストに、明瞭に発音させることを示すタグ＜ｃｌｅａｒ＞，明瞭に発音させることを終了させることを示すタグ＜／ｃｌｅａｒ＞，文字修飾が付与されている場合などや、予め設定されているキーワードが含まれている場合、予め設定されている品詞が含まれている場合などには、それらの指示があった旨を示すフラグ（明瞭フラグ、文字修飾フラグ、キーワードフラグ、品詞フラグなど）の情報が文字ごとに付与される（図６乃至図８参照）。

そして、ｍｃｅｐ列記憶エリア４３には、ｍｃｅｐ列生成１３により生成されたｍｃｅｐ列が記憶され、ｐｉｔｃｈ列記憶エリア４４には、ｐｉｔｃｈ列生成１６により生成されたｐｉｔｃｈ列が記憶される。そして、音源信号記憶エリア４５には、音源信号生成１７により生成された音源信号が記憶され、出力音声波形記憶エリア４６には、ＭＬＳＡフィルター又はＬＭＡフィルターにより生成された出力音声の波形が記憶される。

尚、ＣＰＵ使用率記憶エリア６１，ｗａｉｔフラグ記憶エリア６２，ｗａｉｔ位置記憶エリア６３，再開時開始位置記憶エリア６４は、第１の実施例においてのみ使用される。ＣＰＵ使用率記憶エリア６１には、ＣＰＵ使用率計測１８によりＯＳから取得したＣＰＵの使用率が記憶される。尚、その他の記憶エリアについては省略されている。ｗａｉｔフラグ記憶エリア６２には、音声合成の処理がｗａｉｔ状態になっているか否かを示すフラグであるｗａｉｔフラグが記憶されている。本実施の形態の音声合成装置及び音声合成方法においては、ＣＰＵ使用率が所定の値を超えた場合に、ＣＰＵ使用率が下がるまで処理を一旦ｗａｉｔ状態として、出力される音声に不要な無音区間が挿入されてしまうのを防いでいる。このｗａｉｔフラグでは、ｗａｉｔ状態の場合には「１」がセットされて「ＯＮ」とされ、ｗａｉｔ状態でない場合には「０」がセットされて「ＯＦＦ」とされている。そして、ｗａｉｔ位置記憶エリア６３には、ｗａｉｔ状態とされた場合に、ｗａｉｔ状態とされた文字の位置を示す情報が記憶されており、再開時開始位置記憶エリア６４には、ｗａｉｔ状態が解除されて音声合成処理が再開される文字の位置を示す情報が記憶されている。

また、高音質フラグ記憶エリア７１は、第２の実施例においてのみ使用される。この高音質フラグ記憶エリア７１には、解析結果記憶エリア４２に記憶されているテキストの解析結果の読みの一文字一文字に対応して、高音質で出力するか否かのフラグである高音質フラグが記憶されている。尚、高音質で出力したい文字については「１」がセットされて「ＯＮ」とされ、高音質で出力しない文字については「０」がセットされて「ＯＦＦ」とされている。

そして、設定速度記憶エリア８１は、第３の実施例においてのみ使用される。この設定速度記憶エリア８１には、設定速度取得１９により取得された、音声出力の速度として予め設定されている設定速度が記憶される。

ここで、第１の実施例のディジタルフィルター切り替え２０について、図５のフローチャートを参照して説明する。図５は、第１の実施例のディジタルフィルター切り替え２０のフローチャートである。第１の実施例では、ＣＰＵ２の使用率に基づいてディジタルフィルターの切り替えが行われる。ここでは、ＣＰＵ２の使用率が第１の所定値Ｒ１（本実施例では７０％とする）を超えると、ＣＰＵ２への負荷の低いＬＭＡフィルター２２が使用される。また、ＣＰＵ２の使用率が第２の所定値Ｒ２（本実施例では９０％とする）を超えると、ＣＰＵ２の負荷が大変高いので出力音声に無音が挿入されてしまう可能性が高いので、処理をｗａｉｔ状態にする。ｗａｉｔ状態が所定時間（本実施例では５分とする）継続した場合には、処理を停止する。この処理は、１０ｍｓごとに繰り返し開始される。尚、初期設定の使用フィルターは高音質の音声を出力するＭＬＳＡフィルター２３となっている。

まず、ＯＳからＣＰＵ２の使用率ｒが取得され、ＲＡＭ４のＣＰＵ使用率記憶エリア６１へ記憶される（Ｓ１）。そして、取得された使用率ｒが第２の所定の値Ｒ２（９０％）よりも大きいか否かの判断が行われる（Ｓ２）。Ｒ２よりも使用率ｒが大きくなければ（Ｓ２：ＮＯ）、処理をｗａｉｔ状態にする必要はないので、Ｓ１２へ進む。ここで、既にｗａｉｔ状態となっているか否かの判断が行われる（Ｓ１２）。ｗａｉｔ状態でなければ（Ｓ１２：ＮＯ）、引き続き使用率ｒの第１の所定の値（７０％）との比較が行われる（Ｓ１６）。

また、ｗａｉｔ状態となっていれば（Ｓ１２：ＹＥＳ）、ＣＰＵ２の使用率ｒはＲ２（９０％）以下となっているので、ｗａｉｔ状態を解除して、処理を再開させる必要がある。そこで、ｗａｉｔ位置記憶エリア６３に記憶されているｗａｉｔ状態の文字位置から、１つ前の区切り位置が算出され再開時開始位置記憶エリア６４に記憶される（Ｓ１３）。そして、再開時開始位置記憶エリア６４に記憶されている文字位置から処理がリスタートされ（Ｓ１４）、ｗａｉｔフラグ記憶エリア６２に記憶されているｗａｉｔフラグに「０」がセットされて「ＯＦＦ」とされ（Ｓ１５）、ｗａｉｔ時間を計測しているタイマーがＯＦＦされる（Ｓ１６）。尚、区切り位置は、本実施の形態では文区切り、呼気段落区切り、アクセント句区切りの区切り位置とする。解析結果記憶エリア４２においてｗａｉｔ位置の文字位置から１文字ずつ前に遡り、アクセント句区切り、呼気段落区切り、アクセント句区切りを読み込んだら、その次の文字位置が再開時開始位置とされる。

例えば、図４に示す例では、ｗａｉｔ位置が「カ」であれば、「ー」，「シュ」，「ッ」，「イ」と読み込まれ、次の文字を読み込もうとしても、読み込めないので、文頭であると判断され、「イ」の位置が再開時開始位置とされる。また、「ヨ」がｗａｉｔ位置であれば、「ー」，「ニュ」，「｜」と読み込まれ、「｜」が呼気段落区切りを示しているので、その次の文字である「ニュ」が再開時開始位置とされる。また、「シ」がｗａｉｔ位置であれば、「イ」，「ザ」，「シュ」，「（３）」と読み込まれ、「（３）」がアクセント句区切りを示しているので、その次の文字である「シュ」が再開時開始位置とされる。

ｗａｉｔ状態であるか否かに対する処理が行われたら（Ｓ１２〜Ｓ１６）、使用率ｒが第１の所定の値Ｒ１（７０％）より大きいか否かの判断が行われる（Ｓ１７）。使用率ｒがＲ１（７０％）よりも大きければ、（Ｓ１７：ＹＥＳ）、ＣＰＵ２に対する負荷が大きいので、ＣＰＵ２への負荷が大きくないＬＭＡフィルター２２を使用する必要がある。そこで、現在使用されているフィルターがＭＬＳＡフィルター２３であるか否かの判断が行われる（Ｓ１８）。そして、ＭＬＳＡフィルター２３が使用されていれば（Ｓ１８：ＹＥＳ）、ＬＭＡフィルター２２へ切り替えられ（Ｓ１９）、処理は終了する。また、ＭＬＳＡフィルター２３が使用されていなければ（Ｓ１８：ＮＯ）、ＬＭＡフィルター２２が使用されているということなので、何もせずに処理は終了する。

また、使用率ｒがＲ１（７０％）よりも大きくなければ（Ｓ１７：ＮＯ）、より高音質のＭＬＳＡフィルター２３を使用したい。そこで、現在使用されているフィルターがＬＭＡフィルター２２であるか否かの判断が行われる（Ｓ２０）。そして、ＬＭＡフィルター２２が使用されていれば（Ｓ２０：ＹＥＳ）、ＭＬＳＡフィルター２３へ切り替えられ（Ｓ２１）、処理は終了する。また、ＬＭＡフィルター２２が使用されていなければ（Ｓ２０：ＮＯ）、ＭＬＳＡフィルター２３が使用されているということなので、何もせずに処理は終了する。

また、使用率ｒがＲ２（９０％）よりも大きかった場合には（Ｓ２：ＹＥＳ）、ＣＰＵ２に対して非常に負荷がかかっているので、処理をｗａｉｔ状態にさせる（中断させる）必要がある。そこで、現在既にｗａｉｔ状態となっているか否かの判断が行われる（Ｓ３）。ｗａｉｔ状態でなければ（Ｓ３：ＮＯ）、ｗａｉｔフラグ記憶エリア６２に「１」がセットされて「ＯＮ」とされ（Ｓ４）、現在処理を行っている文字位置がｗａｉｔ位置記憶エリア６３に記憶され（Ｓ５）、ｗａｉｔ状態の継続時間を計測するためのタイマーがスタートされる（Ｓ６）。そして、Ｓ７へ進む。また、既にｗａｉｔ状態となっていれば（Ｓ３：ＹＥＳ）、ｗａｉｔ状態とする処理をする必要はないので、そのままＳ７へ進む。

Ｓ７では、タイマーにより計測された継続時間ｔが取得される（Ｓ７）。そして、この継続時間ｔが所定時間Ｔ（５分）より長いか否かの判断が行われる（Ｓ８）。継続時間ｔがＴよりも長くなければ（Ｓ８：ＮＯ）、まだｗａｉｔ状態を継続させるのでそのまま処理は終了する。しかし、継続時間ｔがＴよりも長ければ（Ｓ８：ＹＥＳ）、ＣＰＵ２の負荷を軽減させるために、処理を停止させる。そこで、まず、ｗａｉｔフラグ記憶エリア６２に「０」がセットされて「ＯＦＦ」とされ（Ｓ９）、タイマーがＯＦＦされ（Ｓ１０）、音声合成処理の停止の処理が行われ（Ｓ１１）、本処理は終了する。

以上のような処理が、１０ｍｓ毎に繰り返されることにより、例えば、ＣＰＵ２の使用率に基づいたディジタルフィルターの切り替え処理が行われる。例えば、ＣＰＵ２の使用率が継続的に７０％以下（例えば、３０％）であったとすると、ＣＰＵ２の使用率ｒとして３０％が取得され（Ｓ１）、使用率ｒはＲ２（９０％）より大きくなく（Ｓ２：ＮＯ）、ｗａｉｔ状態でもなく（Ｓ１２：ＮＯ）、使用率ｒはＲ１（７０％）より大きくもない（Ｓ１７：ＮＯ。使用されているフィルターは、ＭＬＳＡフィルター２３でありＬＭＡフィルター２２でないので（Ｓ２０：ＮＯ）、そのまま処理は終了する。

そこで、ＣＰＵ２の使用率が例えば８０％より大きい値（例えば８５％）に上昇したとすると、次の本処理ではＣＰＵ２の使用率ｒは８５％で取得され（Ｓ１）、Ｒ２（９０％）より大きくなく（Ｓ２：ＮＯ）、ｗａｉｔ状態でもないが（Ｓ１２：ＮＯ）、Ｒ１（７０％）よりも大きいと判断される（Ｓ１７：ＹＥＳ）、そこで、ＭＬＳＡフィルター２３を使用しているので（Ｓ１８：ＹＥＳ）、ＬＭＡフィルター２２へ切り替えられる（Ｓ１９）。そして、処理は終了する。そして、１０ｍｓ後の次の処理の開始においてＣＰＵ２の使用率が８５％のまま（８０％より大きいまま）であれば、ＣＰＵ２の使用率ｒが８５％で取得され（Ｓ１）、Ｒ２（９０％）より大きくなく（Ｓ２：ＮＯ）、ｗａｉｔ状態でもないが（Ｓ１２：ＮＯ）、Ｒ１（７０％）よりも大きく（Ｓ１７：ＹＥＳ）、ＬＭＡフィルター２２へ既に切り替えられており、ＭＬＳＡフィルターを使用していないので（Ｓ１８：ＮＯ）、そのまま処理は終了する。そして、その後の処理において、ＣＰＵ２の使用率が７０％以下となれば、ＣＰＵ２の使用率ｒが取得され（Ｓ１）、使用率ｒはＲ２（９０％）より大きくなく（Ｓ２：ＮＯ）、ｗａｉｔ状態でもなく（Ｓ１２：ＮＯ）、使用率ｒはＲ１（７０％）より大きくもなく（Ｓ１７：ＮＯ）、ＬＭＡフィルター２２が使用されているので（Ｓ２０：ＹＥＳ）、ＭＬＳＡフィルター２３へ切り替えられる（Ｓ２１）。そして処理は終了する。

また、ＣＰＵ２の使用率がＲ２より大きい値（例えば９５％）に上昇したとすると、次の本処理ではＣＰＵ２の使用率ｒは９５％で取得され（Ｓ１）、Ｒ２（９０％）より大きいが（Ｓ２：ＹＥＳ）、ｗａｉｔ状態でないので（Ｓ３：ＮＯ）、ｗａｉｔフラグが「ＯＮ」とされ（Ｓ４）、現在処理を行っている文字位置がｗａｉｔ位置記憶エリア６３に記憶され（Ｓ５）、ｗａｉｔ状態の継続時間を計測するためのタイマーがスタートされる（Ｓ６）。そして、継続時間ｔが取得されるが（Ｓ７）、まだ計測を開始したばかりであるのでＴより大きくはなく（Ｓ８：ＮＯ）、そのまま処理は終了する。１０ｍｓ後の次の処理においてもＣＰＵ２の使用率が９５％のまま（９０％より大きいまま）であれば、ＣＰＵ２の使用率ｒが９５％で取得され（Ｓ１）、Ｒ２（９０％）より大きく（Ｓ２：ＹＥＳ）、ｗａｉｔ状態であるので（Ｓ３：ＹＥＳ）、継続時間ｔが取得される（Ｓ７）。しかし、タイマーで計測を開始してから１０ｍｓしか経過していないので、Ｔより大きくはなく（Ｓ８：ＮＯ）、そのまま処理は終了する。

ここで、ＣＰＵ２の使用率がＲ２より小さい値（例えば、４０％）に下降したとすると、次に本処理が開始ＣＰＵ２の使用率ｒは４０％で取得され（Ｓ１）、Ｒ２（９０％）より大きくないが（Ｓ２：ＮＯ）、ｗａｉｔ状態であるので（Ｓ１２：ＹＥＳ）、ｗａｉｔ状態の文字位置から、１つ前の区切り位置が算出され（Ｓ１３）、再開時開始位置から処理がリスタートされ（Ｓ１４）、ｗａｉｔフラグが「ＯＦＦ」とされ（Ｓ１５）、ｗａｉｔ時間を計測しているタイマーがＯＦＦされる（Ｓ１６）。そして、使用率ｒはＲ１（７０％）より大きく（Ｓ１７：ＹＥＳ）、ＭＬＳＡフィルター２３が使用されているので（Ｓ１８：ＹＥＳ）、ＬＭＡフィルター２２へ切り替えられる（Ｓ１９）。そして処理は終了する。

ここで再び、ＣＰＵ２の使用率がＲ２より大きい値（例えば９７％）に上昇したとすると、次の本処理ではＣＰＵ２の使用率ｒは９７％で取得され（Ｓ１）、Ｒ２（９０％）より大きいが（Ｓ２：ＹＥＳ）、ｗａｉｔ状態でないので（Ｓ３：ＮＯ）、ｗａｉｔフラグが「ＯＮ」とされ（Ｓ４）、現在処理を行っている文字位置がｗａｉｔ位置記憶エリア６３に記憶され（Ｓ５）、ｗａｉｔ状態の継続時間を計測するためのタイマーがスタートされる（Ｓ６）。そして、継続時間ｔが取得されるが（Ｓ７）、まだ計測を開始したばかりであるのでＴより大きくはなく（Ｓ８：ＮＯ）、そのまま処理は終了する。

そして、５分間ＣＰＵ２の使用率がＲ２より大きい値を取り続けたとすると、５分後の次の処理においてもＣＰＵ２の使用率ｒはＲ２より大きい値（例えば９５％）が取得され（Ｓ１）、Ｒ２（９０％）より大きく（Ｓ２：ＹＥＳ）、ｗａｉｔ状態であるので（Ｓ３：ＹＥＳ）、継続時間ｔが取得される（Ｓ７）。そして、継続時間ｔはＴ（５分）より大きくなっているので（Ｓ８：ＹＥＳ）、ｗａｉｔフラグが「ＯＦＦ」とされ（Ｓ９）、タイマーがＯＦＦされ（Ｓ１０）、音声合成処理の停止の処理が行われ（Ｓ１１）、本処理は終了する。

尚、上記実施例では、Ｓ１９やＳ２１において即座にディジタルフィルターの切替を行っているが、ここでは、切替をする旨の印付けをする（例えば、フラグをたてる）処理のみを行っておき、次の区切り位置（例えば、モーラ区切り、文区切り、呼気段落区切り、アクセント句区切り）が読み込まれた時点でフィルターの切り替えを行うようにしてもよい。こうすることにより、所定の区切りでフィルターの切り替えが行われるので、出力音声の音質の変化も区切り位置で行われることになり、聞きやすい音声が出力されることとなる。また、上記実施例はＣＰＵ使用率を判断に用いたが、ＣＰＵ未使用率（空率）を用いる事も可能である。

次に、第２の実施例について、図６乃至図１１を参照して説明する。図６乃至図８は、言語解析１１を行った後の解析結果記憶エリア４２１，４２２，４２３の模式図の一例である。図９は、高音質フラグ記憶エリア７１の模式図であり、図１０はテキスト解析１４において行われる高音質フラグ付与処理のフローチャートであり、図１１はディジタルフィルター切り替え２０のフローチャートである。

本第２の実施例では、音声合成を行うテキストに所定の指示がある場合にディジタルフィルターの切り替えが行われる。所定の指示とは、明瞭に発音させることを示すタグ＜ｃｌｅａｒ＞がテキストに挿入されていること、明瞭に発音させることを終了させることを示すタグ＜／ｃｌｅａｒ＞がテキストに挿入されていること、あらかじめ設定されているキーワードがテキストに含まれていること、テキスト記憶エリア４１に記憶されているテキストに下線，太字，イタリック体，文字色の指定，文字サイズの指定等の文字修飾がかけられていることである。これらの指示がある場合には、その文字の音声出力の品質を高品質にするために、ＭＬＳＡフィルター２３が使用される。そのために、高音質フラグ記憶エリア７１では文字ごとに高音質フラグが記憶され、この高音質フラグが「ＯＮ」である場合にはＭＬＳＡフィルターが使用され、「ＯＦＦ」である場合にはＬＭＡフィルター２２が使用される。

まず、図６を参照して、テキスト記憶エリア４１に記憶されているテキストに、明瞭に発音させることを示すタグ＜ｃｌｅａｒ＞，明瞭に発音させることを終了させることを示すタグ＜／ｃｌｅａｒ＞が含まれている場合の解析結果４２１について説明する。これは、テキスト記憶エリア４１に「＜ｃｌｅａｒ＞一週間ばかり＜／ｃｌｅａｒ＞、ニューヨークを取材した。」と記憶されている場合の、解析結果である。「一週間ばかり」の前に＜ｃｌｅａｒ＞が付与されており、その後に＜／ｃｌｅａｒ＞が付与されているので、「一週間ばかり」を明瞭に発音させる指示がなされている。そこで、図６に示すように、「イ」「ッ」「シュ」「ー」「カ」「ン」「バ」「カ」「リ」の明瞭フラグに「１」がセットされて「ＯＮ」とされ、その他の文字については「０」がセットされて「ＯＦＦ」とされている。

次に、図７を参照して、テキスト記憶エリア４１に記憶されているテキストに文字修飾（下線）がなされている場合の解析結果４２２について説明する。これは、テキスト記憶エリア４１に「一週間ばかり、ニューヨークを取材した。」の「取材」の部分に下線が引かれて入れている場合の解析結果である。「取材」に下線が引かれているので、「シュ」「ザ」「イ」の文字修飾フラグに「１」がセットされて「ＯＮ」とされ、その他の文字については「０」がセットされて「ＯＦＦ」とされている。

次に、図８を参照して、テキスト記憶エリア４１にキーワードが含まれている場合の解析結果４２３について説明する。これは、「ニューヨーク」がキーワードとして予め設定されている場合の例である。「一週間ばかり、ニューヨークを取材した。」の「ニューヨーク」がキーワードであるので、「ニュ」「ー」「ヨ」「ー」「ク」のキーワードフラグに「１」がセットされて「ＯＮ」とされ、その他の文字については「０」がセットされて「ＯＦＦ」とされている。

次に、図９を参照して、高音質フラグ記憶エリア７１について説明する。この高音質フラグ記憶エリア７１では、文字ごとに高音質フラグを記憶する構造となっており、高音質で出力する、すなわちＭＬＳＡフィルター２３を使用して高音質の音声を出力する文字には「１」がセットされ、必ずしも高音質で出力する必要のない文字については「０」がセットされる。図９は、図６に示した解析結果４２１に基づいて高音質フラグが付与された場合の高音質フラグ記憶エリア７１である。図９に示すように、「明瞭フラグ」が「１」である「イ」「ッ」「シュ」「ー」「カ」「ン」「バ」「カ」「リ」には「１」がセットされて「ＯＮ」とされ、その他の文字については「０」がセットされて「ＯＦＦ」とされている。

次に、図１０のフローチャートを参照して、高音質フラグ付与処理について説明する。この処理は、テキスト解析１４において実施される。まず、解析結果記憶エリア４２から１文字が読み込まれる（Ｓ３１）。そして、その文字の明瞭フラグが「１」であり「ＯＮ」であれば（Ｓ３２：ＹＥＳ）、高音質フラグ記憶エリア７１のその文字に対応した高音質フラグに「１」がセットされ「ＯＮ」とされる（Ｓ３３）。また、明瞭フラグが「ＯＮ」でなければ（Ｓ３２：ＮＯ）、何もしない。また、明瞭フラグが「０」であり「ＯＦＦ」であれば（Ｓ３４：ＹＥＳ）、高音質フラグに「０」がセットされ「ＯＦＦ」とされる（Ｓ３５）。明瞭フラグが「ＯＦＦ」でなければ（Ｓ３４：ＮＯ）、何もしない。

そして、高音質フラグがすでに「１」、もしくは、文字修飾フラグが「ＯＮ」であれば（Ｓ３６：ＹＥＳ）、高音質フラグに「１」がセットされて「ＯＮ」とされ（Ｓ３７）、高音質フラグが「１」でなく、かつ、文字修飾フラグが「ＯＮ」でなければ（Ｓ３６：ＮＯ）、高音質フラグに「０」がセットされて「ＯＦＦ」とされる（Ｓ３８）。そして、高音質フラグがすでに「１」、もしくは、キーワードフラグが「ＯＮ」であれば（Ｓ３９：ＹＥＳ）、高音質フラグに「１」がセットされて「ＯＮ」とされ（Ｓ４０）、高音質フラグが「１」でなく、かつ、キーワードフラグが「ＯＮ」でなければ（Ｓ３９：ＮＯ）、高音質フラグに「０」がセットされて「ＯＦＦ」とされる（Ｓ４１）。そして、ＲＡＭ４の高音質フラグ記憶エリア７１に当該文字の高音質フラグが保存される（Ｓ４２）。

そして、次の文字がまだあれば（Ｓ４３：ＹＥＳ）、１文字が取得され（Ｓ３１）、この文字について明瞭フラグ、文字修飾フラグ、キーワードフラグの確認と高音質フラグのセットが行われる（Ｓ３２〜Ｓ４２）。そして、繰り返しＳ３１〜Ｓ４３の処理が行われ、次の文字がなくなったら（Ｓ４３：ＹＥＳ）、本処理は終了する。

以上のようにして、テキスト解析において言語解析１１の結果に基づいて、高音質にする指示のされている文字については高音質フラグが「ＯＮ」とされる。

次に、図１１のフローチャートを参照して、第２の実施例におけるディジタルフィルター切り替え２０の処理について説明する。この処理は、１０ｍｓごとに開始される。

まず、現在処理されている文字の高音質フラグが高音質フラグ記憶エリア７１から読み込まれる（Ｓ５１）。そして、高音質フラグに「１」が記憶されており「ＯＮ」であれば（Ｓ５２：ＹＥＳ）、高音質で出力する必要がある。すなわち、ＭＬＳＡフィルター２３を使用する必要がある。そこで、ＬＭＡフィルター２２が使用されているか否かの判断が行われる（Ｓ５５）。そして、ＬＭＡフィルター２２が使用されていれば（Ｓ５５：ＹＥＳ）、ＭＬＳＡフィルター２３への切り替えが行われ（Ｓ５６）、処理は終了する。また、ＬＭＡフィルター２２が使用されていなければ（Ｓ５５：ＮＯ）、ＭＬＳＡフィルター２３が使用されていることになるので、そのまま処理は終了する。

また、高音質フラグに「０」が記憶されており「ＯＦＦ」であれば（Ｓ５２：ＮＯ）、高音質での音声出力は行わない。つまり、ＬＭＡフィルター２２が使用される。そこで、ＭＬＳＡフィルター２３が使用されているか否かの判断が行われる（Ｓ５３）。そして、ＭＬＳＡフィルター２３が使用されていれば（Ｓ５３：ＹＥＳ）、ＬＭＡフィルター２２への切り替えが行われ（Ｓ５４）、処理は終了する。また、ＭＬＳＡフィルター２３が使用されていなければ（Ｓ５３：ＮＯ）、ＬＭＡフィルター２２が使用されていることになるので、そのまま処理は終了する。

以上のようにして、高音質フラグが「ＯＮ」とされている文字の処理を行う際には、高音質で音声を出力するＭＬＳＡフィルター２３が使用され、「ＯＦＦ」とされている文字の処理を行う際には、高音質でなく、ＣＰＵ２への負荷の少ないＬＭＡフィルター２２が使用されることになる。したがって、高音質でないＬＭＡフィルター２２が使用されている際においても、高音質で出力するように指示されている文字については、高音質で音声が出力されるので、聞き取りづらくなることがない。

尚、本実施例では、高音質で音声出力するための指示として、＜ｃｌｅａｒ＞タグ、キーワード、文字修飾を例に挙げたが、指示はこれに限らない。例えば、テキストに品詞情報を付与し、予め設定された所定の品詞については高音質で音声出力するようにしてもよい。所定の品詞とは、例えば固有名詞である。また、他のタグを付与してもよい。例えば、＜ｓｐｅｅｄ＞を付与し、＜／ｓｐｅｅｄ＞まではゆっくり出力し、且つ高音質で音声出力させるようにしてもよい。また、＜ｓｙｌｌａｂｉｚｅ＞を付与し、＜／ｓｙｌｌａｂｉｚｅ＞までは、一文字一文字の音の長さを伸ばしたり、音の間に無音を入れて区切って発音させたりして、且つ高音質で音声出力させるようにしてもよい。尚、これらのタグの表記方法はこれに限らない。

次に、第３の実施例における設定速度に基づいたディジタルフィルター切り替え２０の処理について、図１２のフローチャートを参照して説明する。図１２は、第３の実施例のディジタルフィルター切り替え２０のフローチャートである。第３の実施例では、音声出力の設定速度に基づいてディジタルフィルターの切り替えが行われる。この音声出力の設定速度は、音声を出力する際の速度であり、出力されるテキスト全体に対して予め設定される。本実施の形態では、この設定速度を例えば、「低速」、「普通」、「高速」の３種類とし、これはＲＡＭ４の設定速度記憶エリア８１に記憶されている。そして、基準速度Ｓよりも速い場合には高音質で音声出力を行い、基準速度Ｓよりも速くない場合には高音質で音声出力を行わない。尚、基準速度Ｓは「普通」の速度とする。

まず、ＲＡＭ４の設定速度記憶エリア８１に記憶されている設定速度ｓが取得される（Ｓ７１）。そして、設定速度ｓが基準速度Ｓよりも速いか否かの判断が行われる（Ｓ７２）。そして、設定速度ｓが「高速」であり基準速度Ｓ「普通」よりも速ければ（Ｓ７２：ＹＥＳ）、高音質で音声を出力したいので、ＭＬＳＡフィルター２３を使用する必要がある。そこで、ＬＭＡフィルター２２が使用されているか否かの判断が行われ（Ｓ７５）、ＬＭＡフィルター２２が使用されていれば（Ｓ７５：ＹＥＳ）、ＭＬＳＡフィルター２３への切り替えが行われ（Ｓ７６）、処理は終了する。また、ＬＭＡフィルター２２が使用されていなければ（Ｓ７５：ＮＯ）、ＭＬＳＡフィルター２３が使用されていることになるので、そのまま処理は終了する。

また、設定速度ｓが「低速」又は「普通」であり基準速度Ｓ「普通」よりも速くなければ（Ｓ７２：ＮＯ）、高音質での音声出力は行わない。つまり、ＬＭＡフィルター２２そこで、ＭＬＳＡフィルター２３が使用されているか否かの判断が行われる（Ｓ７３）。そして、ＭＬＳＡフィルター２３が使用されていれば（Ｓ７３：ＹＥＳ）、ＬＭＡフィルター２２への切り替えが行われ（Ｓ７４）、処理は終了する。また、ＭＬＳＡフィルター２３が使用されていなければ（Ｓ７３：ＮＯ）、ＬＭＡフィルター２２が使用されていることになるので、そのまま処理は終了する。

以上のようにして、設定速度に基づいてディジタルフィルターの切り替えが行われる。尚、設定速度の種類は「低速」、「普通」、「高速」の３種類に限らず、さらに細かい速度設定であってもよく、基準速度も「普通」でなく、他の設定速度であってもよい。

尚、上記実施の形態のｍｃｅｐ列が「第１の音響パラメータ列」に該当し、ｃｅｐ列が「第２の音響パラメータ列」に該当する。そして、音韻モデル選択１２を行うＣＰＵ２が「音韻モデル選択手段」，「音韻モデル選択工程」に相当し、ｍｃｅｐ列生成１３を行うＣＰＵ２が「第１の音響パラメータ列生成手段」，「第１の音響パラメータ列生成工程」に相当し、韻律モデル選択１５を行うＣＰＵ２が「韻律モデル選択手段」，「韻律モデル選択工程」に相当し、ｐｉｔｃｈ列生成１６を行うＣＰＵ２が「基本周波数列生成手段」，「基本周波数列生成工程」に相当し、音源信号生成１７を行うＣＰＵ２が「音源信号作成手段」，「音源信号作成工程」に相当し、周波数変換２１を行うＣＰＵ２が「変換手段」，「変換工程」に相当し、ＭＬＳＡフィルター２３を行うＣＰＵ２が「第１のディジタルフィルター」，「第１のディジタルフィルター工程」，「音声生成手段」，「音声生成工程」に相当し、ＬＭＡフィルター２２を行うＣＰＵ２が「第２のディジタルフィルター」，「第２のディジタルフィルター工程」，「高音質音声生成手段」，「高音質音声生成工程」に相当する。

また、図５に示す第１の実施例のディジタルフィルター切り替え２０のフローチャートのＳ１の処理を行うＣＰＵ２が「ＣＰＵ使用率監視手段」，「ＣＰＵ使用率監視工程」に相当し、図５に示す第１の実施例のディジタルフィルター切り替え２０のフローチャートのＳ１７の処理を行うＣＰＵ２が「第１判断手段」，「第１判断工程」に相当し、図５に示す第１の実施例のディジタルフィルター切り替え２０のフローチャートのＳ２の処理を行うＣＰＵ２が「第２判断手段」，「第２判断工程」に相当し、図５に示す第１の実施例のディジタルフィルター切り替え２０のフローチャートのＳ２，Ｓ４の処理を行うＣＰＵ２が「処理待機手段」，「処理待機工程」に相当し、図５に示す第１の実施例のディジタルフィルター切り替え２０のフローチャートのＳ２，Ｓ３，Ｓ６の処理を行うＣＰＵ２が「継続時間計測手段」，「継続時間計測工程」に相当し、図５に示す第１の実施例のディジタルフィルター切り替え２０のフローチャートのＳ８，Ｓ１１の処理を行うＣＰＵ２が「処理停止手段」，「処理停止工程」に相当する。

そして、ディジタルフィルター切り替え２０が「フィルター切替手段」、「切り替え手段」に相当し、具体的には、図５に示す第１の実施例のディジタルフィルター切り替え２０のフローチャートの処理を行うＣＰＵ２が「第１判断手段により第１の所定値を超えたと判断された場合に、第２のディジタルフィルターを用いて音声を生成するように切り替えるフィルター切替手段、フィルター切替工程」に相当する。

そして、図１１に示す第２の実施例のディジタルフィルター切り替え２０のフローチャートの処理を行うＣＰＵ２が「明瞭に読み上げたい語句に付与される明瞭フラグが付与された文字列を合成する際、明瞭に読み上げる語句として予め設定されている任意の語句又は任意の品詞の語句を合成する際、予め設定された文字修飾がされている文字列を合成する際、又は、読み上げスピードが遅いに設定されている文において読み上げスピードを速いに変更したい文字列に付与されるスピード変更フラグが付与された文字列を合成する際に第１のディジタルフィルターを用いて音声を生成するように切り替えるフィルター切替手段、フィルター切替工程」、「明瞭に読み上げたい語句に付与される明瞭フラグの付与された文字列を合成する際、明瞭に読み上げ語句として予め設定されている任意の語句又は任意の品詞の語句を合成する際、予め設定された文字修飾が行われている文字列を合成する際、又は、読み上げスピードが遅いに設定されている文において読み上げスピードを速いに変更したい文字列に付与されるスピード変更フラグの付与された文字列を合成する際に高音質音声生成手段により音声を生成するように切り替える切替手段、切替工程」に相当する。

また、図１２に示す第３の実施例のディジタルフィルター切り替え２０のフローチャートの処理を行うＣＰＵ２が「読み上げスピードが速いに設定されている際に第１のディジタルフィルターを用いて音声を生成するように切り替えるフィルター切替手段、フィルター切替工程」、「読み上げスピードが速いに設定されている際に高音質音声生成手段により音声を生成するように切り替える切替手段、切替工程」に相当する。

尚、本発明の音声合成装置及び音声合成方法は、上記した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。上記実施の形態では、音声合成するテキストをキーボード３により入力したが、合成するテキストはキーボード３からの入力に限らず、マウス等他の入力手段により入力してもよいことは言うまでもなく、フレキシブルディスクやＣＤ−ＲＯＭ等の記憶媒体を読み込むことにより入力してもよい。また、他の処理において生成されたテキストであってもよい。

また、上記実施の形態では、ＣＰＵ使用率に基づいてディジタルフィルターの切り替え、音声合成を行うテキストに所定の指示がある場合にディジタルフィルターの切り替え、音声出力の設定速度に基づいてディジタルフィルターの切り替えを別々の実施例により行っているが、すべての条件を合わせたり、一部の条件を組み合わせたりした音声合成装置及び音声合成方法であってもよい。例えば、ＣＰＵ使用率に基づく切り替えと、所定の指示による切り替えとが組み合わされている場合には、図５のフローチャートの処理が終わった後に図１１のＳ５１，Ｓ５２，Ｓ５５，Ｓ５６の処理が行われる（Ｓ５３、Ｓ５４の処理は行わない）。こうすることにより、ＣＰＵの使用率に基づいて音質の高くないＬＭＡフィルター２２が使用されるようになっても、音質を高く出力したい文字についてはＭＬＳＡフィルター２３が使用されるので、大切な文字を聞き取りにくくしてしまうことがない。

本実施の形態の第１の実施例、第２の実施例、第３の実施例に共通の機能構成図である。音声合成装置１の電気的構成を示すブロック図である。テキスト記憶エリア４１の構成を示す模式図である。解析結果記憶エリア４２の構成を示す模式図である。第１の実施例のディジタルフィルター切り替え２０のフローチャートである。言語解析１１を行った後の解析結果記憶エリア４２１の模式図である。言語解析１１を行った後の解析結果記憶エリア４２２の模式図である。言語解析１１を行った後の解析結果記憶エリア４２３の模式図である。高音質フラグ記憶エリア７１の模式図である。テキスト解析１４において行われる高音質フラグ付与処理のフローチャートである。第２の実施例のディジタルフィルター切り替え２０のフローチャートである。第３の実施例のディジタルフィルター切り替え２０のフローチャートである。

符号の説明

１音声合成装置
２ＣＰＵ
３キーボード
４ＲＡＭ
５ＲＯＭ
８スピーカ
９計時装置
１１言語解析
１２音韻モデル選択
１３ｍｃｅｐ列生成
１４テキスト解析
１５韻律モデル選択
１６ｐｉｔｃｈ列生成
１７音源信号生成
１８使用率計測
１９設定速度取得
２０ディジタルフィルター切り替え
２１周波数変換
２２ＭＬＳＡフィルター
２３ＬＭＡフィルター
５０音響辞書
５１音韻モデル
５２韻律モデル

Claims

一定時間間隔毎の第１の音響パラメータ列に分析された音韻データから作られた音韻モデルと一定時間間隔毎に分析された基本周波数データから作られた韻律モデルを含む音響辞書と、
音声を生成する文に適した前記音韻モデルを当該音響辞書から選択する音韻モデル選択手段と、
当該音韻モデル選択手段により選択された前記音韻モデルを構成する前記音韻データを基に前記文に対する第１の音響パラメータ列を生成する第１の音響パラメータ列生成手段と、
前記文に適した前記韻律モデルを前記音響辞書から選択する韻律モデル選択手段と、
当該韻律モデル選択手段により選択された前記韻律モデルを基に前記文に対する基本周波数列を生成する基本周波数列生成手段と、
当該基本周波数列生成手段によって生成された前記基本周波数列に基づいて音源信号を作成する音源信号作成手段と、
前記第１の音響パラメータ列と前記音源信号作成手段で作成された前記音源信号とをもとに音声を生成する第１のディジタルフィルターと、
前記第１の音響パラメータ列を第２の音響パラメータ列に変換する変換手段と、
当該変換手段により変換された前記第２の音響パラメータ列と前記音源信号をもとに音声を生成する第２のディジタルフィルターと、
前記第１のディジタルフィルターを用いて音声を生成するか、前記第２のディジタルフィルターを用いて音声を生成するかを切り替えるフィルター切替手段と
を備えたことを特徴とする音声合成装置。
前記第１の音響パラメータ列はメルケプストラム列であり、前記第２の音響パラメータ列はケプストラム列であることを特徴とする請求項１に記載の音声合成装置。
ＣＰＵ使用率を監視するＣＰＵ使用率監視手段と、
当該ＣＰＵ使用率監視手段により前記ＣＰＵ使用率が第１の所定値を超えたか否かを判断する第１判断手段とを備え、
前記フィルター切替手段は前記第１判断手段により前記第１の所定値を超えたと判断された場合に、第２のディジタルフィルターを用いて音声を生成するように切り替えることを特徴とする請求項１又は２に記載の音声合成装置。
前記ＣＰＵ使用率監視手段により前記ＣＰＵ使用率が第２の所定値を超えたか否かを判断する第２判断手段と、
前記第２判断手段により前記ＣＰＵ使用率が前記第２の所定値を超えたと判断された場合に、前記第１のディジタルフィルター及び前記第２のディジタルフィルターを用いて音声を生成する処理を待機させる処理待機手段と
を備えたことを特徴とする請求項１乃至３のいずれかに記載の音声合成装置。
前記処理待機手段による処理の待機を解除し処理を再開する際には、処理が待機されている音が含まれる文単位、呼気段落単位、アクセント句単位又はモーラ単位のいずれかの先頭にもどって処理を再開すること特徴とする請求項４に記載の音声合成装置。
前記第２判断手段により前記ＣＰＵ使用率が前記第２の所定値を超えた状態の継続時間を計測する継続時間計測手段と、
当該継続時間計測手段により前記ＣＰＵ使用率が前記第２の所定値を超えた状態が所定時間を超えたと判断された場合には、当該音声合成装置のすべての処理を停止させる処理停止手段と
を備えたことを特徴とする請求項１乃至５のいずれかに記載の音声合成装置。
前記第２のディジタルフィルターを用いて音声を生成している場合において、
前記フィルター切替手段は、明瞭に読み上げたい語句に付与される明瞭フラグが付与された文字列を合成する際、明瞭に読み上げる語句として予め設定されている任意の語句又は任意の品詞の語句を合成する際、予め設定された文字修飾がされている文字列を合成する際、読み上げスピードが速いに設定されている際、又は、読み上げスピードが遅いに設定されている文において読み上げスピードを速いに変更したい文字列に付与されるスピード変更フラグが付与された文字列を合成する際に前記第１のディジタルフィルターを用いて音声を生成するように切り替えることを特徴とする請求項１乃至６のいずれかに記載の音声合成装置。
前記フィルター切替手段による切り替えは、文単位、呼気段落単位、アクセント句単位又はモーラ単位のいずれかで行うことを特徴とする請求項７に記載の音声合成装置。
音声を生成する文に対応した音声を生成する音声生成手段と、
当該音声生成手段により生成される音声よりも高音質に前記文に対応した音声を生成する高音質音声生成手段と、
前記音声生成手段により音声を生成するか、前記高音質音声生成手段により音声を生成するかを切り替える切替手段とを備え、
前記音声生成手段により音声を生成している場合において、
前記切替手段は、明瞭に読み上げたい語句に付与される明瞭フラグの付与された文字列を合成する際、明瞭に読み上げ語句として予め設定されている任意の語句又は任意の品詞の語句を合成する際、予め設定された文字修飾が行われている文字列を合成する際、読み上げスピードが速いに設定されている際、又は、読み上げスピードが遅いに設定されている文において読み上げスピードを速いに変更したい文字列に付与されるスピード変更フラグの付与された文字列を合成する際に前記高音質音声生成手段により音声を生成するように切り替えることを特徴とする音声合成装置。
前記切替手段による切り替えは、文単位、呼気段落単位、アクセント句単位又はモーラ単位のいずれかで行うことを特徴とする請求項９に記載の音声合成装置。
一定時間間隔毎の第１の音響パラメータ列に分析された音韻データから作られた音韻モデルと、一定時間間隔毎に分析された基本周波数データから作られた韻律モデルを含む音響辞書から前記文に適した前記音韻モデルを選択する音韻モデル選択工程と、
当該音韻モデル選択工程において選択された前記音韻モデルを構成する前記音韻データを基に前記文に対する第１の音響パラメータ列を生成する第１の音響パラメータ列生成工程と、
前記音響辞書から前記文に適した前記韻律モデルを選択する韻律モデル選択工程と、
当該韻律モデル選択工程において選択された前記韻律モデルを構成する前記韻律データを基に前記文に対する基本周波数列を生成する基本周波数列生成工程と、
前記基本周波数列生成工程によって生成された前記基本周波数列に基づいて音源信号を作成する音源信号作成工程と、
前記第１の音響パラメータ列と前記音源信号作成工程で作成された前記音源信号とをもとに音声を生成する第１のディジタルフィルター工程と、
前記第１の音響パラメータ列を第２の音響パラメータ列に変換する変換工程と、
当該変換工程により変換された前記第２の音響パラメータ列と前記音源信号をもとに音声を生成する第２のディジタルフィルター工程と、
前記第１のディジタルフィルター工程を用いて音声を生成するか、前記第２のディジタルフィルター工程を用いて音声を生成するかを切り替えるフィルター切替工程と
を備えたことを特徴とする音声合成方法。
前記第１の音響パラメータ列はメルケプストラム列であり、前記第２の音響パラメータ列はケプストラム列であることを特徴とする請求項１１に記載の音声合成方法。
ＣＰＵ使用率を監視するＣＰＵ使用率監視工程と、
当該ＣＰＵ使用率監視工程において前記ＣＰＵ使用率が第１の所定値を超えたか否かを判断する第１判断工程とを備え、
前記フィルター切替工程は前記第１判断工程において前記第１の所定値を超えたと判断された場合に、第２のディジタルフィルター工程を用いて音声を生成するように切り替えることを特徴とする請求項１１又は１２に記載の音声合成方法。
前記ＣＰＵ使用率監視工程において前記ＣＰＵ使用率が第２の所定値を超えたか否かを判断する第２判断工程と、
前記第２判断工程により前記ＣＰＵ使用率が前記第２の所定値を超えたと判断された場合に、前記第１のディジタルフィルター工程及び前記第２のディジタルフィルター工程を用いて音声を生成する処理を待機させる処理待機工程と
を備えたことを特徴とする請求項１１乃至１３のいずれかに記載の音声合成方法。
前記処理待機工程による処理の待機を解除し処理を再開する際には、処理が待機されている音が含まれる、文単位、呼気段落単位、アクセント句単位又はモーラ単位のいずれかの先頭にもどって処理を再開すること特徴とする請求項１４に記載の音声合成方法。
前記第２判断工程において前記ＣＰＵ使用率が前記第２の所定値を超えた状態の継続時間を計測する継続時間計測工程と、
当該継続時間計測工程において前記ＣＰＵ使用率が前記第２の所定値を超えた状態が所定時間を超えたと判断された場合は、当該音声合成方法のすべての処理を停止させる処理停止工程と
を備えたことを特徴とする請求項１１乃至１５のいずれかに記載の音声合成方法。
前記第２のディジタルフィルター工程を用いて音声を生成している場合において、
前記フィルター切替工程は、明瞭に読み上げたい語句に付与される明瞭フラグの付与された文字列を合成する際、明瞭に読み上げ語句として予め設定されている任意の語句又は任意の品詞の語句を合成する際、予め設定された文字修飾がされている文字列を合成する際、読み上げスピードが速いに設定されている際、又は、読み上げスピードが遅いに設定されている分において読み上げスピードを速いに変更したい文字列に付与されるスピード変更フラグの付与された文字列を合成する際に前記第１のディジタルフィルター工程を用いて音声を生成するように切り替えることを特徴とする請求項１１乃至１６のいずれかに記載の音声合成方法。
前記フィルター切替工程における切り替えは、文単位、呼気段落単位、アクセント句単位又はモーラ単位のいずれかで行うことを特徴とする請求項１７に記載の音声合成方法。
音声を生成する文に対応した音声を生成する音声生成工程と、
当該音声生成工程において生成される音声よりも高音質に前記文に対応した音声を生成する高音質音声生成工程と、
前記音声合成工程において音声を生成するか、前記高音質音声合成工程において音声を生成するかを切り替える切替工程とを備え、
前記音声生成工程において音声を生成している場合において、
前記切替工程は、明瞭に読み上げたい語句に付与される明瞭フラグが付与された文字列を合成する際、明瞭に読み上げる語句として予め設定されている任意の語句又は任意の品詞の語句を合成する際、予め設定された文字修飾が行われている文字列を合成する際、読み上げスピードが速いに設定されている際、又は、読み上げスピードが遅いに設定されている文において読み上げスピードを速いに変更したい文字列に付与されるスピード変更フラグが付与された文字列を合成する際に前記高音質音声生成工程において音声を生成するように切り替えることを特徴とする音声合成方法。
前記切替工程における切り替えは、文単位、呼気段落単位、アクセント句単位又はモーラ単位のいずれかで行うことを特徴とする請求項１９に記載の音声合成方法。