JP2008020840A

JP2008020840A - 音声合成装置、音声合成方法およびコンピュータを音声合成装置として機能させるためのプログラム、ならびに、フィルタ生成装置、フィルタ生成方法およびコンピュータをフィルタ生成装置として機能させるためのプログラム

Info

Publication number: JP2008020840A
Application number: JP2006194593A
Authority: JP
Inventors: Yoichiro Hachiman; 洋一郎八幡; Toshio Akaha; 俊夫赤羽
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2006-07-14
Filing date: 2006-07-14
Publication date: 2008-01-31

Abstract

【課題】スピーカの特性に応じたフィルタで音声を合成する音声合成装置を提供する。
【解決手段】音声合成装置１００は、テキストデータを解析して各単語の読みとアクセント情報とを出力するテキスト解析部１０１と、アクセント情報あるいは文の境界に基づいて韻律情報を生成して出力する韻律生成部１０２と、予め生成された音声素片データを格納する音声素片格納部１０４と、各単語の読みから設定される発音記号列に従って音声素片データを選択する音声素片選択部１０３と、韻律情報と音声素片データとに基づいて音声を合成する合成部１０５と、周波数を変更するためのフィルタ処理を行なう周波数フィルタ部１０６と、フィルタ処理後のデータの振幅を増幅する増幅部１０７とを備える。
【選択図】図１

Description

本発明は、音声を合成する技術に関する。より特定的には、本発明は、音声出力装置の周波数特性に応じて生成されたフィルタを用いて音声を合成する音声合成装置、音声合成方法およびコンピュータを音声合成装置として機能させるためのプログラムに関する。また、本発明は、当該フィルタを生成するためのフィルタ生成装置、フィルタ生成方法およびコンピュータをフィルタ生成装置として機能させるためのプログラムに関する。

電子データとして表現されるテキストデータを音声出力する技術は、古くから研究されている。その技術は、音声合成装置として実現される。近年では、着信した電子メールを合成音声で読み上げる機能を搭載した携帯電話などが商品化されている。

従来の音声合成装置の一例として、入力された文字記号系列から、単語境界の検出と分割、単語の音素記号列への変換、単語アクセント・文イントネーションの付与（韻律生成）を行い、音素記号列、韻律情報に基づいて、音声合成器を駆動するために必要な制御信号を、予め記憶している音声データと規則によって生成する技術が知られている（非特許文献１）。非特許文献１に開示されている音声合成手法は、公知の規則音声合成手法そのものに相当する。この音声合成手法によると、音量に関して、入力文字記号系列に基づいて音素記号毎に、音源の振幅などの音量に関わる韻律情報を付与することにより決定される。

また、音声合成装置に関し、たとえば、特開２００１−１０９４８５号公報（特許文献１）は、音韻記号列に基づいて音声素片を接続して音声を合成する音声合成装置において音声素片の接続時に生じるスペクトル形状の歪みに基づく音質劣化を低減するための技術を開示している。この技術によると、当該音声合成装置において、音韻記号列の音韻に基づいて音声素片の周波数特性が変更される。その結果、音声素片の接続時に生じるスペクトル形状の歪みが軽減され、音質劣化が低減される。

さらに、特開２００１−１０９４８８号公報（特許文献２）は、音声合成時の音声素片の接続によるスペクトル形状の歪みに基づく音質劣化を低減するための技術を開示している。この技術によると、入力された音声信号の音韻に基づいて音声素片の周波数特性が変更される。その結果、音声素片接続時のスペクトル形状歪みによる音声劣化を低減できる音声素片が作成される。
特開２００１−１０９４８５号公報特開２００１−１０９４８８号公報斎藤収三、中田和男共著、「音声情報処理の基礎」、株式会社オーム社、１９８１年、ｐｐ１６７〜１７１。

しかしながら、非特許文献１に開示された技術によると、音量の大小を制御する際には、一般的には、アンプ（増幅器）などを用いて合成音声信号の振幅が調整される。振幅が調整された合成音声信号は、スピーカまたはヘッドホンなどによって音声に変換される。変換後の音声は、聞き取り可能な合成音声として出力される。音声を出力可能な装置として、たとえば、携帯電話などの携帯機器に組み込まれるような小型のスピーカが用いられる場合、最大音量を出力しようとしても、スピーカの性能上の制約により、十分に大きな音量を得られない場合がある。

ここで、スピーカの制約と音量の関係について、簡単に説明する。自然音声における音声波形のエネルギーは、有声音（代表的には母音）において、５００Ｈｚよりも低い周波数帯域に集中する傾向がある。ところが、上記携帯機器のように小型の機器に搭載される小型のスピーカは、前述のような低い周波数帯域を音として再生できないものが多く、大きな音量を出力し難いという問題がある。一方、前述のような低い周波数帯域のエネルギーを含む音声波形について、音量を大きくしようとしても、振幅の制限のために歪みが生じてしまい、波形データ上で増幅することができないという問題がある。

一方、特開２００１−１０９４８５号公報および特開２００１−１０９４８８号公報に開示されている技術によると、音韻毎に周波数特性の異なるフィルタを施すことが可能になる。しかしながら、特開２００１−１０９４８５号公報および特開２００１−１０９４８８号公報に開示されている高域減衰フィルタでは、音声素片の接続時に生じるスペクトル形状の歪みを軽減することはできるが、スピーカの制約に応じて音量増大の効果を図ることはできないという問題がある。

本発明は、上述のような問題点を解決するためになされたものであって、その目的は、出力される音声の歪を抑制しつつ音量が大きくなる音声を合成できる音声合成装置を提供することである。

本発明の他の目的は、出力される音声の歪を抑制しつつ音量が大きくなる音声を合成できる音声合成方法を提供することである。

本発明の他の目的は、出力される音声の歪を抑制しつつ音量が大きくなる音声をコンピュータに合成させるプログラムを提供することである。

本発明の他の目的は、出力される音声の歪を抑制しつつ音量が大きくなる音声を合成できる音声合成装置が使用するフィルタを生成するためのフィルタ生成装置を提供することである。

本発明の他の目的は、出力される音声の歪を抑制しつつ音量が大きくなる音声を合成できる音声合成装置が使用するフィルタを生成するためのフィルタ生成方法を提供することである。

本発明のさらに他の目的は、出力される音声の歪を抑制しつつ音量が大きくなる音声を合成できる音声合成装置が使用するフィルタを生成するためのフィルタ生成装置としてコンピュータを機能させるためのプログラムを提供することである。

上記の課題を解決するために、この発明のある局面に従う音声合成装置は、音声を出力する音声出力装置と、音声出力装置の周波数特性に応じて予め生成されたフィルタに基づいて、音声データの周波数を変更するためのフィルタ処理を行なうフィルタ手段と、フィルタ手段と音声出力装置との間に配置され、フィルタ手段によってフィルタ処理が行なわれた音声データを増幅して、増幅された音声データを音声出力装置に出力する増幅手段とを備える。

好ましくは、音声合成装置は、テキストデータを取得するための取得手段と、取得手段によって取得されたテキストデータを解析する解析手段と、解析手段による解析の結果に基づいて、音声出力装置に音声を出力させるための音声データを導出する導出手段とをさらに備える。フィルタ手段は、フィルタに基づいて、導出手段によって導出された音声データの周波数を変更する。

好ましくは、音声合成装置は、予め生成された複数の音声素片を格納する記憶手段をさらに備える。導出手段は、解析手段による解析の結果に基づいて韻律情報を生成する生成手段と、解析手段による解析の結果に基づいて、複数の音声素片のいずれかを選択する選択手段と、選択手段によって選択された音声素片と韻律情報とに基づいて音声データを合成する合成手段とを含む。

好ましくは、音声合成装置は、予め生成された音声素片を格納する記憶手段をさらに備える。導出手段は、解析手段による解析の結果に基づいて複数の音声素片のいずれかを選択する選択手段を含む。フィルタ手段は、音声出力装置の周波数特性に応じて予め生成されたフィルタに基づいて、選択手段によって選択された音声素片の周波数を変更する。導出手段は、解析手段による解析の結果に基づいて韻律情報を生成する生成手段と、韻律情報と、フィルタ手段によって周波数が変更された音声素片とに基づいて、音声データを合成する合成手段とをさらに含む。

この発明の他の局面に従う音声合成装置は、音声を出力する音声出力装置と、テキストデータを取得するための取得手段と、取得手段によって取得されたテキストデータを解析する解析手段と、テキストデータに基づく音声を出力するために予め生成された複数の音声データを格納する記憶手段とを備える。音声データは、音声出力装置の周波数特性に応じて予め生成されたフィルタを用いるフィルタ処理を行なうことにより生成されている。音声合成装置は、解析手段による解析の結果に基づいて、各音声データのいずれかを選択する選択手段と、解析手段による解析の結果に基づいて韻律情報を生成する生成手段と、選択手段によって選択された音声データと、生成手段によって生成された韻律情報とに基づいて、音声データを合成する合成手段と、合成手段と音声出力装置との間に配置され、合成手段によって合成された音声データを増幅して、増幅された音声データを音声出力装置に出力する増幅手段とを備える。

好ましくは、記憶手段は、音声データとして、複数の音声素片データを格納している。選択手段は、解析手段による解析の結果に基づいて、各音声素片データのいずれかを選択する。

好ましくは、記憶手段は、フィルタ処理を行なうことにより生成された複数の音源データを格納する音源記憶手段と、予め生成された複数の素片情報を格納する素片情報記憶手段とを含む。選択手段は、解析手段による解析の結果に基づいて、各音源データのいずれかと、各素片情報のいずれかとを選択する。

好ましくは、記憶手段は、予め生成された複数の音源データを格納する音源記憶手段と、フィルタ手段を行なうことにより生成された複数の素片情報を格納する素片情報記憶手段とを含む。選択手段は、解析手段による解析の結果に基づいて、各音源データのいずれかと、各素片情報のいずれかとを選択する。

好ましくは、取得手段は、文字を入力するための操作を受け付ける入力手段を含む。
好ましくは、取得手段は、文字情報が含まれる電波を受信する受信手段と、受信手段によって受信された電波から文字情報を抽出する抽出手段と、文字情報をテキストデータとして格納する記憶手段とを含む。

好ましくは、取得手段は、出力される音声に対応するテキストデータと、音声の出力に合わせて映像を表示するための画像データとを格納した媒体であって、着脱可能な記録媒体の装着を受け付ける駆動手段と、記録媒体から、テキストデータと画像データとを読み出す読出手段とを含む。音声合成装置は、画像データに基づいて映像を表示する表示手段をさらに備える。

この発明の他の局面に従うと、コンピュータが音声を合成するための方法が提供される。コンピュータは、音声を出力する音声出力装置とプロセッサとメモリとを備える。この方法は、プロセッサが、音声出力装置の周波数特性に応じて予め生成されたフィルタに基づいて、音声データの周波数を変更するためのフィルタ処理を行なうステップと、プロセッサが、フィルタ処理が行なわれた音声データを増幅して、増幅された音声データを音声出力装置に出力するステップとを含む。

好ましくは、この方法は、プロセッサが、テキストデータを取得するステップと、プロセッサが、テキストデータを解析するステップと、プロセッサが、解析の結果に基づいて、音声出力装置に音声を出力させるための音声データを導出するステップとをさらに含む。フィルタ処理を行なうステップは、フィルタに基づいて、音声データを導出するステップにおいて導出された音声データの周波数を変更する。

この発明の他の局面に従うと、コンピュータを音声合成装置として機能させるためのプログラムが提供される。コンピュータは、音声を出力する音声出力装置とプロセッサとを備える。プログラムはプロセッサに、音声出力装置の周波数特性に応じて予め生成されたフィルタに基づいて、音声データの周波数を変更するためのフィルタ処理を行なうステップと、フィルタ処理が行なわれた音声データを増幅して、増幅された音声データを音声出力装置に出力するステップとを実行させる。

好ましくは、プログラムは、プロセッサに、テキストデータを取得するステップと、テキストデータを解析するステップと、解析の結果に基づいて、音声出力装置に音声を出力させるための音声データを導出するステップとをさらに実行させる。フィルタ処理を行なうステップは、フィルタに基づいて、音声データを導出するステップにおいて導出された音声データの周波数を変更する。

この発明の他の局面に従うと、フィルタ作成装置が提供される。フィルタ作成装置は、音声信号の入力を受け付ける入力手段と、音声信号に基づいて周波数変換を行なうことにより、音声信号の周波数と振幅との関係を表わすデータを取得する第１の変換手段と、第１の変換手段によって取得されたデータに基づいて、振幅の絶対値を算出する算出手段と、絶対値に基づいて逆周波数変換を行なうことにより、音声信号の出力源に使用されるフィルタを生成する第２の変換手段とを備える。

好ましくは、周波数変換はフーリエ変換である。逆周波数変換は逆フーリエ変換である。

好ましくは、フィルタ生成装置は、入力手段によって受け付けられた音声信号に対して窓掛け処理を行なうための窓掛け手段をさらに備える。

好ましくは、フィルタ生成装置は、第２の変換手段によって生成されたフィルタに対して窓掛け処理を行なうための窓掛け手段をさらに備える。

好ましくは、フィルタ生成装置は、フィルタを表わすデータを出力するための出力手段をさらに備える。

この発明の他の局面に従うと、コンピュータが、音声信号のフィルタ処理に使用されるフィルタを生成するためのフィルタ作成方法が提供される。コンピュータは、データを格納する記憶装置と、データに基づいて処理を行なうプロセッサとを備える。この方法は、プロセッサが、音声信号の入力を受け付けるステップと、プロセッサが、音声信号に基づいて周波数変換を行なうことにより、音声信号の周波数と振幅との関係を表わすデータを取得するステップと、プロセッサが、取得したデータに基づいて、振幅の絶対値を算出するステップと、プロセッサが、絶対値に基づいて逆周波数変換を行なうことにより、音声信号の出力源に使用されるフィルタを生成するステップとを含む。

好ましくは、フィルタ作成方法は、プロセッサが、入力された音声信号に対して窓掛け処理を行なうステップをさらに含む。

好ましくは、フィルタ生成方法は、プロセッサが、生成されたフィルタに対して窓掛け処理を行なうステップをさらに含む。

好ましくは、フィルタ生成方法は、プロセッサがフィルタを出力するステップをさらに含む。

この発明の他の局面に従うと、コンピュータをフィルタ生成装置として機能させるためのプログラムが提供される。コンピュータは、データを用いて処理を行なうプロセッサとを備える。プログラムはプロセッサに、音声信号の入力を受け付けるステップと、音声信号に基づいて周波数変換を行なうことにより、音声信号の周波数と振幅との関係を表わすデータを取得するステップと、取得されデータに基づいて、振幅の絶対値を算出するステップと、絶対値に基づいて逆周波数変換を行なうことにより、音声信号の出力源に使用されるフィルタを生成するステップとを実行させる。

この発明のさらに他の局面に従う音声合成装置は、音声を出力する音声出力装置と、音声出力装置から出力される音声信号の入力を受け付ける入力手段と、音声信号に基づいて周波数変換を行なうことにより、音声信号の周波数と振幅との関係を表すデータを取得する第１の変換手段と、第１の変換手段によって取得されたデータに基づいて、振幅の絶対値を算出する算出手段と、絶対値に基づいて逆周波数変換を行なうことにより、音声出力装置の周波数特性に応じたフィルタを生成する第２の変換手段と、第２の変換手段によって生成されたフィルタに基づいて、音声データの周波数を変更するためのフィルタ処理を行なうフィルタ手段と、フィルタ手段と音声出力装置との間に配置され、フィルタ手段によってフィルタ処理が行なわれた音声データを増幅して、増幅された音声データを音声出力装置に出力する増幅手段とを備える。

この発明のさらに他の局面に従うと、コンピュータが音声を合成するための方法が提供される。コンピュータは、音声を出力する音声出力装置と、プロセッサとを備える。この方法は、プロセッサが、音声出力装置から出力される音声信号の入力を受け付けるステップと、プロセッサが、音声信号に基づいて周波数変換を行なうことにより、音声信号の周波数と振幅との関係を表すデータを取得するステップと、プロセッサが、取得されたデータに基づいて、振幅の絶対値を算出するステップと、プロセッサが、絶対値に基づいて逆周波数変換を行なうことにより、音声出力装置の周波数特性に応じたフィルタを生成するステップと、プロセッサが、生成されたフィルタに基づいて、音声データの周波数を変更するためのフィルタ処理を行なうステップと、プロセッサが、フィルタ処理が行なわれた音声データを増幅して、増幅された音声データを音声出力装置に出力するステップとを含む。

この発明のさらに他の局面に従うと、コンピュータを音声合成装置として機能させるためのプログラムが提供される。コンピュータは、音声を出力する音声出力装置とプロセッサとを備える。このプログラムはプロセッサに、音声出力装置から出力される音声信号の入力を受け付けるステップと、音声信号に基づいて周波数変換を行なうことにより、音声信号の周波数と振幅との関係を表すデータを取得するステップと、取得されたデータに基づいて、振幅の絶対値を算出するステップと、絶対値に基づいて逆周波数変換を行なうことにより、音声出力装置の周波数特性に応じたフィルタを生成するステップと、生成されたフィルタに基づいて、音声データの周波数を変更するためのフィルタ処理を行なうステップと、フィルタ処理が行なわれた音声データを増幅して、増幅された音声データを音声出力装置に出力するステップとを実行させる。

本発明のある局面に従う音声合成装置によると、出力される音声の歪を抑制しつつ音量が大きくなる音声を合成することができる。

本発明のある局面に従う音声合成方法によると、出力される音声の歪を抑制しつつ音量が大きくなる音声を合成することができる。

本発明のある局面に従うプログラムによると、出力される音声の歪を抑制しつつ音量が大きくなる音声をコンピュータに合成させることができる。

また、本発明の他の局面に従うフィルタ生成装置によると、出力される音声の歪を抑制しつつ音量が大きくなる音声を合成できる音声合成装置が使用するフィルタを生成することができる。

本発明の他の局面に従うフィルタ生成装置によると、出力される音声の歪を抑制しつつ音量が大きくなる音声を合成できる音声合成装置が使用するフィルタを生成することができる。

本発明のさらに他の局面に従うプログラムによると、出力される音声の歪を抑制しつつ音量が大きくなる音声を合成できる音声合成装置が使用するフィルタを生成するためのフィルタ生成装置としてコンピュータを機能させることができる。

以下、図面を参照しつつ、本発明の実施の形態について説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称および機能も同じである。したがって、それらについての詳細な説明は繰り返さない。

＜第１の実施の形態＞
図１を参照して、本発明の第１の実施の形態に係る音声合成装置１００について説明する。図１は、音声合成装置１００により実現される機能の構成を表わすブロック図である。音声合成装置１００は、テキストデータ取得部１９０に接続される。音声合成装置１００は、テキスト解析部１０１と、韻律生成部１０２と、音声素片選択部１０３と、音声素片格納部１０４と、合成部１０５と、周波数フィルタ部１０６と、増幅部１０７とを備える。音声合成装置１００の出力は、増幅装置１１０に接続される。増幅装置１１０は、出力部１１２に接続される。

テキストデータ取得部１９０は、外部からの入力に基づいてテキストデータを取得する。ある局面においては、テキストデータ取得部１９０は、文字の入力を受け付けるための操作部として機能する。また他の局面においては、テキストデータ取得部１９０は、文字情報が含まれる電波を受信するアンテナと、当該アンテナによって受信された電波からその文字情報を抽出する抽出回路と、その抽出された文字情報をテキストデータとして格納するメモリとによって実現される。さらに他の局面においては、テキストデータ取得部１９０は、着脱可能な記録媒体の装着を受け付ける駆動装置と、その記録媒体から格納されているデータ（具体的には、出力される音声に対応するテキストデータと当該音声の出力に合わせて映像を表示するための画像データ）を読み出すための再生回路と、その画像データに基づいて映像を表示するディスプレイとによって実現される。

音声合成装置１００において、テキスト解析部１０１は、テキストデータ取得部１９０からの出力に基づいて作動可能なようにテキストデータ取得部１９０に接続される。テキスト解析部１０１は、テキストデータ取得部１９０によって取得されたテキストデータを解析し、各単語の読みとアクセント情報とを出力する。テキスト解析部１０１は、他の局面においては品詞情報を出力する。当該テキストデータ（以下、入力テキスト）が漢字仮名混じり文である場合には、テキスト解析部１０１は、言語辞書（図示しない）を用いて、上記の各情報を生成する。あるいは、入力テキストが仮名入力またはアルファベットのような発音記号の入力である場合、テキスト解析部１０１は、仮名と同時に入力されるアクセント情報を用いて上記の各情報を生成する。たとえば「ホ’ンジツハ／セーテンナ’リ」のように、アクセント位置とアクセント句の境界を指定するテキストとが、同時に入力される。

韻律生成部１０２は、テキスト解析部１０１からの出力に基づいて作動可能なように、テキスト解析部１０１に接続される。韻律生成部１０２は、アクセント情報あるいは文の境界に基づいて、韻律情報を生成して出力する。韻律情報は、たとえば時間長、ピッチ、エネルギ（パワー）情報などを含む。一般的には、韻律情報は、音素単位に求められ、その後、内挿により各フレーム単位の情報として生成される。

音声素片格納部１０４は、予め生成された音声素片データを格納する。音声素片データは、たとえば音声素片生成部１２０によって生成される。音声合成装置１００は、それが有するデータ入力インターフェイス（図示しない）を介して入力される音声素片データあるいは音声合成装置１００を製造する際に音声素片データを予め音声素片格納部１０４に書き込むことにより、その音声素片データを音声素片格納部１０４に格納させることができる。

音声素片選択部１０３は、テキスト解析部１０１からの出力と、音声素片格納部１０４に格納されているデータとに基づいて作動可能なように、テキスト解析部１０１と音声素片格納部１０４とに接続される。音声素片選択部１０３は、各単語の読みから設定される発音記号列に従って、音声素片格納部１０４から各発音記号についての条件に合致する素片データを選択する。音声素片選択部１０３は、その選択した音声素片データから各フレーム毎の波形情報を取得し、合成部１０５に出力する。

合成部１０５は、韻律生成部１０２からの出力と、音声素片選択部１０３からの出力とに基づいて作動可能なように、韻律生成部１０２と音声素片選択部１０３とに接続される。合成部１０５は、韻律生成部１０２によって生成された韻律情報と、音声素片選択部１０３によって選択された音声素片データ（より詳しくは、その音声素片データから取得された波形情報）とに基づいて音声を合成する。合成部１０５は、その合成により生成された合成音声データを周波数フィルタ部１０６に送出する。

周波数フィルタ部１０６は、合成部１０５からの出力に基づいて作動可能なように合成部１０５に接続される。周波数フィルタ部１０６は、予め生成されたフィルタ情報を含む。このフィルタ情報は、たとえばスピーカ特性フィルタ生成部２００によって生成される。スピーカ特性フィルタ生成部２００は、音声合成装置１００からの出力に基づいて音声を出力する出力部１１２における周波数特性に応じて合成音声を表わすデータのフィルタ処理のためのフィルタを生成する。このフィルタは、音声合成装置１００のデータ記憶領域に保持される。保持される領域は、たとえば、周波数フィルタ部１０６の内部メモリ、周波数フィルタ部１０６によるアクセスが可能な他のメモリ等である。スピーカ特性フィルタ生成部２００の構成の詳細は、後述する。

周波数フィルタ部１０６は、そのフィルタを用いて合成部１０５から出力される音声データの各周波数（特に低周波数帯域）に対応するエネルギーを変更するためのフィルタ処理を行なう。また他の局面においては、周波数フィルタ部１０６は、人間に聴取される音域のうち低音域（より好ましくは、約５００Ｈｚ以下の音域）をフィルタ処理する。

周波数フィルタ部１０６は、そのようにしてフィルタ処理を行なったデータを増幅部１０７に送出する。増幅部１０７は、周波数フィルタ部１０６からの出力に基づいて作動するように周波数フィルタ部１０６に接続される。増幅部１０７は、周波数フィルタ部１０６によるフィルタ処理後のデータの振幅を増幅する。たとえば、増幅部１０７が１６ビットの範囲で作動するように構成されている場合、増幅部１０７は、周波数フィルタ部１０６から出力されたデータに対して当該振幅の絶対値の最大値が１６ビットで規定される最大値（たとえば、１ビットを符号に割り当てる場合、２^１５）となる程度に各データを増幅する。増幅部１０７によって増幅されたデータは、音声合成装置１００に接続される増幅装置１１０に送出される。

増幅装置１１０は、ある局面においては、具体的には、いわゆるアンプとして実現される。このアンプには、アナログ式のアンプおよびデジタル式のアンプのいずれでも適用可能である。増幅装置１１０からの出力は出力部１１２に入力される。出力部１１２は、その入力に基づく音声を出力する。出力部１１２は、たとえばスピーカ、ヘッドフォンが接続される端子などとして実現される。

次に、図２を参照して、本実施の形態に係るスピーカ特性フィルタ生成部２００について説明する。図２は、スピーカ特性フィルタ生成部２００のハードウェア構成を表わすブロック図である。スピーカ特性フィルタ生成部２００は、主たる構成要素として、ＣＰＵ（Central Processing Unit）２１０と、スピーカ特性フィルタ生成部２００の使用者による指示の入力を受け付けるマウス２２０，キーボード２３０と、ＣＰＵ２１０によるプログラムの実行により生成されるデータ、またはマウス２２０もしくはキーボード２３０を介して入力されるデータを一時的に（揮発的に）格納するためのＲＡＭ（Random Access Memory）２４０と、データを不揮発的に格納するハードディスク２５０と、発話を受け付けて当該発話に応じた電気信号を出力するマイク２６０と、マイク２６０に接続されてアナログ信号をデジタル信号に変換するＡ／Ｄ（Analog to Digital）コンバータ２６２と、デジタルの音声データから音声信号を生成して出力するサウンドカード２７０と、サウンドカード２７０から出力される信号に基づいて音声を出力するスピーカ２７２と、モニタ２８０と、通信Ｉ／Ｆ（Interface）２９０とを備える。各構成要素は、相互にデータバスによって接続されている。

スピーカ特性フィルタ生成部２００は、たとえば一般的なコンピュータシステムにより実現される。スピーカ特性フィルタ生成部２００における情報処理は、ハードウェアおよびＣＰＵ２１０により実行されるソフトウェアによって実現される。このようなソフトウェアは、ハードディスク２５０に予め格納されている場合がある。また、当該ソフトウェアは、ＣＤ−ＲＯＭその他の記録媒体に格納されて、プログラム製品として流通している場合もある。あるいは、当該ソフトウェアは、いわゆるインターネットに接続されている情報的事業者によってダウンロード可能なプログラム製品として提供される場合もある。このようなソフトウェアは、ＣＤ−ＲＯＭ駆動装置その他の読取装置によってその記録媒体から読み取られて、あるいは通信Ｉ／Ｆ２９０を介してダウンロードされた後、ハードディスク２５０に一旦格納される。そのソフトウェアは、ＣＰＵ２１０によってハードディスク２５０から読み出され、ＲＡＭ２４０に実行可能なプログラムの形式で格納される。ＣＰＵ２１０は、スピーカ特性フィルタ生成部２００の外部から入力される実行指令に基づいてそのプログラムを実行する。

図２に示されるスピーカ特性フィルタ生成部２００を構成するコンピュータシステムのハードウェアは、一般的なものである。したがって、周波数フィルタ部１０６が使用するフィルタを生成するために使用される方法の最も本質的な部分は、ＲＡＭ２４０、ハードディスク２５０、ＣＤ−ＲＯＭその他の記録媒体に格納されたソフトウェア、あるいはネットワークを介してダウンロード可能なソフトウェアであるとも言える。なお、コンピュータシステムのハードウェアの動作は周知であるので、詳細な説明は繰り返さない。

ここで、音声素片データの作成方法の一例について説明する。音声素片データは、音声素片生成部１２０において生成される。ある局面においては、音声素片生成部１２０は、音声合成装置１００とは別個に構成される。また、別の局面においては、音声素片生成部１２０は音声合成装置１００に含まれていてもよい。

音声素片データを作成するために、まず、予め収録された発話データを格納している音声データベースに対して、手作業または周知の音声認識技術などを用いて、音素のラベリング（すなわち、波形区間と音素との対応付け）が行なわれる。また、当該音声データベースに対して、周知のピッチ分析手法を用いて、予めピッチマークを付与する。ピッチマークの付与は、たとえば、特開２００１−１０９５００号公報に開示されている。

次に、前述の音素ラベルに従い、各音素を代表する波形データが選択される。選択された波形データに関して、無声音（たとえば、ｋ、ｓ、ｔなど）では波形データをフレーム単位（たとえば５[ｍｓｅｃ]単位）に区切って保持される。一方、有声音（たとえば、母音ａ、ｉ、ｕ、ｅ、ｏ、有声子音ｂ、ｄ、ｇなど）では、各フレーム毎に、ピッチマークに従って代表ピッチ波形が抽出されて保持され、音声素片データとする。

また、他の方法に従う音声素片データの作成も可能である。たとえば、素片波形を生成するためのパラメータを用いても作成できる。

まず、上述の素片波形を作成する場合と同様に、無声音ならびに有声音について、フレーム単位の波形系列が求められる。無声音および有声音について、各フレーム毎に、波形データに対して周知の符号化処理技術を施すことにより、ＬＰＣ（Linear Predictive Cepstrum：線形予測ケプストラム）、またはＬＳＰ（Linear Spectrum Pair：線スペクトル対）、またはＰＡＲＣＯＲ（PARtial auto-CORrelation：偏自己相関）などのスペクトルパラメータを抽出する。更に、必要に応じて、スペクトルパラメータ抽出時に残差信号を算出する。

次に、図３を参照して、本実施の形態に係る音声合成装置１００のデータ構造について説明する。図３は、音声合成装置１００が備える音声素片格納部１０４におけるデータの格納の一態様を概念的に表わす図である。音声素片格納部１０４は、データを格納するための複数の領域を有する。

具体的には、「ａ」についての音声素片データは、領域３１０に格納されている。「ｉ」についての音声素片データは、領域３２０に格納されている。同様に、「ｕ」、「ｂ」、「ｄ」、「ｋ」、「ｓ」についての各音声素片データは、領域３３０〜３７０に格納されている。その他の音声素片データも、音声素片格納部１０４に格納されている。

図４を参照して、音声合成装置１００のデータ構造についてさらに説明する。図４は、音声素片格納部１０４におけるデータの格納の一態様を概念的に表わす図である。音声素片格納部１０４において、領域３１０は、データを格納するための領域３１１，３１２を含む。領域３４０は、データを格納するための領域３４１，３４２を含む。領域３６０は、データを格納するための領域３６１，３６２を含む。

領域３１１，３４１，３６１は、フレーム番号を表わすインデックスを格納する。たとえば、領域３１１は、１〜Ａのフレーム番号を含む。

領域３１２，３４２，３６２は、各インデックスに対応付けられた波形情報を格納する。したがって、領域３１０は、Ａ個の波形情報を有している。領域３４０は、Ｂ個の波形情報を有している。領域３６０は、Ｋ個の波形情報を有している。

図５を参照して、スピーカ特性フィルタ生成部２００について説明する。図５は、スピーカ特性フィルタ生成部２００の構成を概念的に表わす図である。スピーカ特性フィルタ生成部２００は、マイク５２０と、Ａ／Ｄ変換部５３０と、フーリエ変換部５４０と、振幅絶対値算出部５５０と、逆フーリエ変換部５６０と、窓掛け部５７０とを含む。スピーカ特性フィルタ生成部２００は、マイク５２０を介して、出力部１１２から出力される音声の入力を受ける。

Ａ／Ｄ変換部５３０は、たとえばＡ／Ｄコンバータとして実現される。フーリエ変換部５４０と、振幅絶対値算出部５５０と、逆フーリエ変換部５６０と、窓掛け部５７０とは、マイクロプロセッサ等の演算処理装置によって実現される。

なお、出力部１１２とスピーカ特性フィルタ生成部２００とは、たとえば周囲のノイズによる影響を受けない場所、たとえば吸音機能を有する部屋、無響音室などにおいて使用されるのが好ましい。出力部１１２とスピーカ特性フィルタ生成部２００との位置関係は、たとえば、音声合成装置１００と音声合成装置１００の使用者との位置関係に応じて規定されるのが好ましい。たとえば、音声合成装置１００が携帯電話、携帯型ゲーム装置その他の携帯情報端末において実現される場合、音声合成装置１００の使用者は、その装置を把持した状態で音声を聴くこととなる。そこで、出力部１１２とスピーカ特性フィルタ生成部２００との距離も、そのような状態に対応する距離であることが好ましい。これにより、音声合成装置１００が実際に使用される局面に対応したフィルタを生成することが可能となる。

出力部１１２は、スピーカ５１０を含む。また、他の局面においては、出力部１１２は、アンプとスピーカ５１０との組み合わせとしても実現され得る。出力部１１２には、音信号５００が入力される。音信号５００は、予め規定された信号特性（たとえば、音域の幅、音の強弱等）を有し、音の出力特性が異なる複数の出力部１１２の各々に共通に使用可能である。より具体的には、音信号５００は、たとえば、ホワイトノイズのように全帯域が同じエネルギーを有する信号が好ましい。

音信号５００が出力部１１２に与えられると、スピーカ５１０は、音信号５００に応じた音声を出力する。スピーカ特性フィルタ生成部２００において、マイク５２０は、その音声を集音すると、当該音声に応じたアナログの電気信号を出力する。アナログの電気信号は、Ａ／Ｄ変換部５３０に入力される。

Ａ／Ｄ変換部５３０は、アナログの電気信号をデジタル信号に変換する。変換後の信号は、たとえば、グラフ５３２に示される。デジタル信号は、フーリエ変換部５４０に入力される。

フーリエ変換部５４０は、デジタル信号を用いてフーリエ変換処理を実行する。処理後の結果は、たとえばグラフ５４２に示される。グラフ５４２は、フーリエ変換後のデータとして実部に対応するグラフ５４２Ｒと、虚部を表わすグラフ５４２Ｉとを含む。

振幅絶対値算出部５５０は、フーリエ変換部５４０による変換後の結果を用いて、周波数振幅の絶対値を算出する（グラフ５５２）。絶対値は、たとえばグラフ５５２Ｎとして表わされる。振幅絶対値算出部５５０による算出の結果は、逆フーリエ変換部５６０に入力される。

逆フーリエ変換部５６０は、振幅の絶対値を用いて逆フーリエ変換を行なう。変換の結果は、グラフ５６２として表わされる。この結果は、たとえばスピーカ特性フィルタ生成部２００として機能するコンピュータシステムのディスプレイ装置に表示される。スピーカ特性フィルタ生成部２００の使用者が、その表示内容に対して、窓掛けを行なうための閾値の入力を行なうと、窓掛け部５７０は、その閾値に基づいて窓掛け処理を行なう。処理後の結果は、フィルタデータ５８０として出力される。

図６を参照して、スピーカ特性フィルタ生成部２００の制御構造についてさらに説明する。図６は、スピーカ特性フィルタ生成部２００が実行する一連の動作を表わすフローチャートである。

ステップＳ６１０にて、スピーカ特性フィルタ生成部２００は、出力部１１２から出力される音情報（ｓ（ｔ））の入力をマイク５２０を介して受け付ける。ここで、ｔは時間を表す変数である。音情報は、たとえばホワイトノイズである。

より具体的には、まず、出力部１１２に対して、周波数スペクトルの全帯域が同じエネルギーを有するホワイトノイズが入力される。このとき、出力部１１２から出力される音情報は、入力された「周波数スペクトルの全帯域が同じエネルギーを有するホワイトノイズ」であることが理想である。実際には、出力部１１２を構成する要素（たとえば、スピーカ、アンプ、Ｄ／Ａコンバータなど）の性能等の影響により、帯域によってエネルギーの異なる音情報となる。また、マイクで得られる音情報は、必要に応じてＡ／Ｄ（アナログ−デジタル）コンバータでデジタル信号に変換される。

ステップＳ６２０にて、スピーカ特性フィルタ生成部２００は、入力された音情報ｓ（ｔ）に対して、予め規定された第１の窓掛け処理Ａを行なう。ここで、窓掛け処理Ａに用いられる窓関数をＨ_Ａ（ｔ）（ｔは時間を表す変数）として表わすと、窓掛け処理Ａの後に得られる音情報ｓ’（ｔ）は、算式「ｓ’（ｔ）＝Ｈ_Ａ（ｔ）・ｓ（ｔ）」によって求められる。窓関数Ｈ_Ａ（ｔ）は、たとえば、ハミング窓、ハニング窓など、周知の窓関数を用いればよい。また、窓関数Ｈ_Ａ（ｔ）で定義される窓のサイズ、すなわち窓掛けによって切り出される時間領域の長さは、たとえば、「２５６」として設定されるが、その他の長さであってもよい。この長さは、たとえば、スピーカ特性フィルタ生成部２００が備えるプロセッサの処理速度その他のハードウェアの制約に応じて規定され得る。

ステップＳ６３０にて、スピーカ特性フィルタ生成部２００は、音情報ｓ’（ｔ）のフーリエ変換を行なう。フーリエ変換後の音情報Ｓ（ω）は、たとえば、算式「Ｓ（ω）＝Ｆ（ｓ’（ｔ））」として求められる。ここで、ωは周波数を表す変数であり、Ｆはフーリエ変換を表す記号である。

ステップＳ６４０にて、スピーカ特性フィルタ生成部２００は、音情報Ｓ（ω）から、振幅絶対値を算出する。音情報Ｓ（ω）の振幅絶対値Ｓ’（ω）は、たとえば、算式「Ｓ’（ω）＝｜Ｓ（ω）｜」として求められる。ここで、記号｜｜は、各周波数成分の振幅絶対値を算出することを表す。

ステップＳ６５０にて、スピーカ特性フィルタ生成部２００は、振幅絶対値Ｓ’（ω）を正規化することにより、出力部１１２の周波数特性をゲインで表現する。出力部１１２の周波数特性Ｇ（ω）は、たとえば、算式「Ｇ（ω）＝Ｓ’（ω）／ｍａｘ（Ｓ’（ω））」によって求められる。

ステップＳ６６０にて、スピーカ特性フィルタ生成部２００は、出力部１１２の周波数特性Ｇ（ω）を、逆フーリエ変換することにより、時系列のフィルタ係数を算出する。時系列のフィルタ係数ｆ（ｔ）は、たとえば、算式「ｆ（ｔ）＝Ｆ^−１（Ｓ’（ω））」によって求められる。なお、Ｆ^−１は逆フーリエ変換を表す記号である。

ステップＳ６７０にて、スピーカ特性フィルタ生成部２００は、ステップＳ６６０にて求められた時系列のフィルタ係数ｆ（ｔ）に対して、予め規定された第２の窓掛け処理Ｂを行なうことにより、予め規定された要素数で構成されるフィルタ係数を算出する。

具体的には、窓掛け処理Ｂに用いる窓関数をＨ_Ｂ（ｔ）（ｔは時間を表す変数）として表わすと、窓掛け処理Ｂの後に得られるフィルタ係数ｆ’（ｔ）は、たとえば、算式「ｆ’（ｔ）＝Ｈ_Ｂ（ｔ）・ｆ（ｔ）」によって求められる。窓関数Ｈ_Ｂ（ｔ）としては、たとえば、ハミング窓、またはハニング窓など、周知の窓関数が用いられる。また、窓関数Ｈ_Ｂ（ｔ）で定義する窓のサイズ、すなわち、窓掛けによって切り出される時間領域の長さは、たとえば、「６４」等として設定されるが、その他の値が使用されてもよい。この値も、たとえば、スピーカ特性フィルタ生成部２００が備えるプロセッサの処理速度その他のハードウェアの制約に応じて規定され得る。

ステップＳ６８０にて、スピーカ特性フィルタ生成部２００は、フィルタ係数ｆ’（ｔ）を出力する。なお、精度をさらに高めるためには、ステップＳ６２０からステップＳ６５０までの処理を繰り返して複数回行ない、各処理の平均を算出すればよい。

上記では、フィルタ係数を全て数式に従って自動的に算出する場合について説明した。本発明の特徴の一つは、音声を出力する出力部１１２の周波数特性に基づくフィルタを生成することであり、出力部１１２の周波数特性は、ステップＳ６５０における振幅絶対値を正規化する処理にて求めることができる。したがって、ステップＳ６６０およびステップＳ６７０の処理は、ステップＳ６５０において求められる出力部１１２の周波数特性を表現するフィルタを生成する一例として説明されているが、上述の手順以外の手順により、出力部１１２の周波数特性を表現するフィルタが生成されてもよい。たとえば、予め作成された複数のフィルタ係数の候補から、ステップＳ６５０にて得られる出力部１１２の周波数特性に最も近い周波数特性を有するフィルタ係数を選択するようにしてもよい。

また、上記では、ステップＳ６２０乃至ステップＳ６７０にて、フーリエ変換を用いてＦＩＲ（Finite Impulse Response）フィルタを生成している。このような処理に代えて、ステップＳ６３０のフーリエ変換からステップＳ６７０の窓掛け処理Ｂまでの部分を線形予測分析に置き換えることにより、ＬＰＣ（Liniear Predictive Coding）係数を求め、ステップＳ６８０でフィルタ係数としてＬＰＣ係数を出力することで、フィルタの生成を実現することも可能である。この場合、音声合成装置内の周波数フィルタ部での周波数特性の変換にＩＩＲ（Infinite Impulse Response）フィルタを用いればよい。

また、上記では、ステップＳ６１０にてホワイトノイズが入力される場合について説明したが、各周波数におけるエネルギーが異なる信号が入力される場合においても、音声を出力する出力部１１２の周波数特性に基づくフィルタを生成することが可能である。たとえば、ステップＳ６５０にて正規化して得られたゲインＧ（ω）と、別途ステップＳ６２０乃至ステップＳ６５０と同様の処理手順にて算出した元信号（出力部１１２に出力させるための信号）のゲインＺ（ω）とを比較して、算式「Ｒ（ω）＝Ｇ（ω）／Ｚ（ω）」によって求められる各周波数成分における比率Ｒ（ω）をステップＳ６６０にて逆フーリエ変換し、ステップＳ６７０以降の処理を行えばよい。上記の図６に示す処理手順は、Ｚ（ω）の各周波数におけるゲインが全て１の場合に相当するものであるといえる。

図７を参照して、本実施の形態に係る音声合成装置１００の制御構造について説明する。図７は、音声合成装置１００が実行する一連の処理を表わすフローチャートである。図７に示される動作は、音声合成装置１００に対する実行指令が外部から与えられたとき、あるいはテキストデータ取得部１９０によって取得されたデータの中に当該動作を実行するための命令が含まれており、その命令が音声合成装置１００に与えられた場合に実現される。

ステップＳ７１０にて、テキスト解析部１０１は、テキストデータ取得部１９０によって取得された入力テキストに基づいて音韻記号列を生成する。

ステップＳ７２０にて、テキスト解析部１０１は、入力テキストに基づいて言語属性情報を生成する。

ステップＳ７３０にて、韻律生成部１０２は、テキスト解析部１０１による解析の結果に基づいて韻律情報を生成する。

ステップＳ７４０にて、音声素片選択部１０３は、テキスト解析部１０１による解析の結果と音声素片格納部１０４に格納されている音声素片データとに基づいて、解析された入力テキストに合う音声素片データを選択する。

ステップＳ７５０にて、合成部１０５は、韻律生成部１０２によって生成された韻律情報と、音声素片選択部１０３によって選択された音声素片データとに基づいて音声信号を構成する。

ステップＳ７６０にて、周波数フィルタ部１０６は、予め格納しているフィルタを用いて、合成部１０５によって合成された音声信号に対する周波数フィルタリング（以下、フィルタ処理ともいう。）を実行する。この処理が実行されると、出力部１１２による周波数特性に応じて低音域の周波数がカットされる。なお、当該フィルタは、たとえば、周波数フィルタ部１０６を実現できるプロセッサが内蔵するメモリに格納される。

ステップＳ７７０にて、増幅部１０７は、周波数フィルタ部１０６によってフィルタ処理が実行された後の音声信号を増幅し、その増幅した信号を増幅装置１１０に送出する。

これにより、ひずみの生じないように増幅された信号に基づく音声が、音声合成装置１００から出力される。なお、音声合成装置１００は、具体的な構成としては、音声の出力機能を有する情報通信端末として実現される。当該情報通信端末は、たとえば携帯電話、ＰＤＡ（Personal Digital Assistant）等である。

そこで、図８を参照して、実施の形態に係る音声合成装置１００として機能する携帯電話８００について説明する。図８は、携帯電話８００のハードウェア構成を表わすブロック図である。

携帯電話８００は、アンテナ８０２と、通信回路８０４と、操作ボタン８０６と、カメラ８０８と、ＣＰＵ８１０と、フラッシュメモリ８１２と、ＲＡＭ８１４と、データ用ＲＯＭ８１６と、Ａ／Ｄコンバータ８２２と、マイク８２０と、Ｄ／Ａ（Digital to Analog）コンバータ８２４とスピーカ８２６と、ディスプレイ８３０と、ＬＥＤ（Light Emitting Diode）８３２と、データ通信Ｉ／Ｆ８３４と、バイブレータ８３６と、メモリカード駆動装置８４０とを備える。メモリカード駆動装置８４０には、メモリカード８４２が装着可能である。

アンテナ８０２と通信回路８０４とは、電気的に接続されている。ＣＰＵ８１０は、通信回路８０４と、操作ボタン８０６と、カメラ８０８と、フラッシュメモリ８１２と、ＲＡＭ８１４と、データ用ＲＯＭ８１６と、メモリカード８４０と、Ａ／Ｄコンバータ８２２と、Ｄ／Ａコンバータ８２４と、ディスプレイ８３０と、ＬＥＤ８３２と、データ通信Ｉ／Ｆ８３４と、バイブレータ８３６とに対してそれぞれ電気的に接続されている。

アンテナ８０２によって受信された電波は、通信回路８０４によって予め規定された処理が実行された後、デジタル信号としてＣＰＵ８１０に伝送される。当該電波は、通話のための電波およびデータ送信のための電波を含む。当該電波に含まれる情報は、電子メール、ウエブページなどのテキスト情報も含む。ＣＰＵ８１０は、そのようなデジタル信号を内部処理し、処理後の信号をＤ／Ａコンバータ８２４あるいはディスプレイ８３０に伝送する。

Ｄ／Ａコンバータ８２４は、ＣＰＵ８１０から出力されるデジタル信号をアナログ信号に変換し、スピーカ８２６に送出する。スピーカ８２６は、そのアナログ信号に基づいて音声（すなわち着信を受けた電話）を出力する。

マイク８２０は、携帯電話８００に対する発話を受け付けて、その発話に応じた電気信号を出力する。Ａ／Ｄコンバータ８２２は、マイク８２０によって出力された信号をデジタル変換処理し、ＣＰＵ８１０に送出する。ＣＰＵ８１０は、その信号を送信用の信号に変換し、通信回路８０４に送出する。通信回路８０４は、アンテナ８０２を介してその信号を無線送信する。このようにして、携帯電話８００の使用者は他の相手と通話することができる。

操作ボタン８０６は、たとえば文字あるいは数字の入力操作を受け付けるためのボタンとして実現される。また、他の局面においては当該入力を受け付ける構成として操作ボタン８０６の変わりに、ジョグダイヤル、タッチパネルその他の操作部として実現されてもよい。操作ボタン８０６は、携帯電話８００に対する操作を受け付けて、その操作に応じた信号をＣＰＵ８１０に送出する。操作ボタン８０６に対する操作は、携帯電話８００の使用者が文字を入力するための操作、受信された電子メールを表示するための操作、フラッシュメモリ８１２その他のメモリに格納されている音声データを再生するための操作などを含む。

カメラ８０８は、操作ボタン８０６に対する操作に基づいて被写体を撮影し、その撮影により取得された信号をＣＰＵ８１０に送出する。カメラ８０８は、当該被写体を静止画としてあるいは動画として撮影することができる。ＣＰＵ８１０は、そのような信号を一時的に保持し、操作ボタン８０６に対する保存の指示に基づいてフラッシュメモリ８１２に確保された領域に書き込みを行なう。

ＲＡＭ８１４は、操作ボタン８０６に対して行なわれた操作に基づいてＣＰＵ８１０によって生成されたデータを一時的に保持する。あるいは、ＲＡＭ８１４は、アンテナ８０２によって受信された電波に含まれるデータを一時的に保持する。データ用ＲＯＭ８１６は、携帯電話８００によって予め規定された動作を実行させるためのデータあるいはアプリケーションプログラムなどを格納する。ＣＰＵ８１０は、データ用ＲＯＭ８１６から当該データあるいはアプリケーションプログラムを読み出し、携帯電話８００について予め規定された処理あるいは携帯電話８００の動作を制御するための処理等を実行する。

ここで、アプリケーションプログラムには、テキストを読み上げる再生プログラム、フラッシュメモリ８１２に格納されている音声データを再生するためのプログラムなどが含まれる。

ディスプレイ８３０は、ＣＰＵ８１０から出力されるデータに基づいてそのデータによって規定される画像あるいは映像を表示する。たとえば、ＣＰＵ８１０がフラッシュメモリ８１２に格納されている動画データを読み出すと、ディスプレイ８３０はそのデータに応じた映像を表示する。

ＬＥＤ８３２は、ＣＰＵ８１０から出力される信号に基づいて予め規定された発光動作を実現する。たとえば、ＬＥＤ８３２が複数の色を表示可能な場合には、ＬＥＤ８３２は、ＣＰＵ８１０から出力される信号に含まれるデータに基づいてそのデータによって規定される色で発光する。

データ通信Ｉ／Ｆ８３４は、外部から通信用のケーブルの装着を受け付ける。データ通信Ｉ／Ｆ８３４は、ＣＰＵ８１０から出力される信号を当該ケーブルに対して送出する。あるいは、データ通信Ｉ／Ｆ８３４は、ケーブルを介して受信される信号をＣＰＵ８１０に対して送出する。

バイブレータ８３６は、ＣＰＵ８１０から出力される信号に基づいて予め規定された周波数で振動動作を実行する。

メモリカード駆動装置８４０は、メモリカード８４２の装着を受け付ける。メモリカード８４２がメモリカード駆動装置８４０に装着されている場合、ＣＰＵ８１０がメモリカード駆動装置８４０に対してデータの読出命令を送出すると、メモリカード駆動装置８４０は、その命令に応答してメモリカード８４２に格納されているデータを読み出す。メモリカード駆動装置８４０は、逆に、ＣＰＵ８１０によって出力される書込命令に応答して、ＲＡＭ８１４に格納されているデータをメモリカード８４２に格納する。メモリカード８４２は、たとえばフラッシュメモリにより実現されるが、その他の媒体によって実現されてもよい。

このような構成において、ＣＰＵ８１０は、図１に示される音声合成装置１００として機能し得る。また、通信回路８０４およびＣＰＵ８１０は、テキストデータ取得部１９０としても機能する。テキストデータ取得部１９０は、また他の局面においては操作ボタン８０６によって実現される。あるいはテキストデータ取得部１９０は、メモリカード８４２が装着されたメモリカード駆動装置８４０とＣＰＵ８１０とによっても実現される。

そこで、図９を参照して、音声合成装置１００として機能するＣＰＵ８１０について説明する。図９は、ＣＰＵ８１０によって実現される機能の構成を表わすブロック図である。ＣＰＵ８１０は、テキスト解析部９１０と、韻律生成部９２０と、音声素片選択部９３０と、合成部９４０と、周波数フィルタ部９５０と、増幅部９６０とを備える。

テキスト解析部９１０は、取得されたテキストを解析し、当該テキストに含まれている各単語の読みとアクセント情報とを出力する。テキスト解析部９１０は、図１に示されるテキスト解析部１０１に実現される機能を実現する。

韻律生成部９２０は、テキスト解析部９１０からの出力に基づいて作動するようにテキスト解析部９１０に接続される。韻律生成部９２０は、図１に示される韻律生成部１０２によって実現される機能を同様に実現する。

音声素片選択部９３０は、テキスト解析部９１０からの出力と、フラッシュメモリ８１２その他のメモリに格納されているデータとに基づいて作動するように、テキスト解析部９１０とフラッシュメモリ８１２とに接続される。音声素片選択部９３０は、図１に示される音声素片選択部１０３によって実現される機能を同様に実現する。

合成部９４０は、韻律生成部９２０からの出力と音声素片選択部９３０からの出力とに基づいて作動するように、韻律生成部９２０と音声素片選択部９３０とにそれぞれ接続される。合成部９４０は、図１に示される合成部１０５によって実現される機能と同様の機能を実現する。

周波数フィルタ部９５０は、合成部９４０からの出力と、スピーカ８２６の周波数特性に応じて予め作成されたフィルタであって、フラッシュメモリ８１２に格納されているフィルタとに基づいて作動するように、合成部９４０とフラッシュメモリ８１２とに接続される。周波数フィルタ部９５０は、図１に示される周波数フィルタ部１０６によって実現される機能と同様の機能を実現する。

増幅部９６０は、周波数フィルタ部９５０からの出力に基づいて作動するように周波数フィルタ部９５０に接続される。増幅部９６０は、図１に示される増幅部１０７によって実現される機能と同様の機能を実現する。増幅部９６０からの出力は、Ｄ／Ａコンバータ８２４に入力される。

次に、図１０を参照して、本実施の形態に係る音声合成装置１００として機能するゲーム装置１０００について説明する。図１０は、ゲーム装置１０００のハードウェア構成を表わすブロック図である。ゲーム装置１０００は、操作ボタン１００２と、データＲＯＭ１００４と、プログラム用ＲＯＭ１００６と、ＲＡＭ１００８と、ＣＰＵ１０１０と、Ｄ／Ａコンバータ１０３０と、アンプ１０４０と、スピーカ１０５０と、液晶ディスプレイ１０６０と、カードコネクタ１０７０とを備える。カードコネクタ１０７０には、ゲームカートリッジ１０８０が装着可能である。操作ボタン１００２は、ゲーム装置１０００に対する操作を受け付けて、当該操作に応じた信号をＣＰＵ１０１０に送出する。データＲＯＭ１００４は、ゲーム装置１０００を実現するために予め作成された制御データを格納する。プログラム用ＲＯＭ１００６は、予め規定された処理をゲーム装置１０００に実行させるためのプログラム（たとえばオペレーティングシステム）を格納する。ＲＡＭ１００８は、ゲーム装置１０００の動作中に生成されるデータ、あるいはカードコネクタ１０７０を介してゲームカートリッジ１０８０から読み取られたデータを一時的に保持する。

ＣＰＵ１０１０は、操作ボタン１００２とデータＲＯＭ１００４とプログラム用ＲＯＭ１００６とＲＡＭ１００８とカードコネクタ１０７０からの各出力信号に基づいて作動可能なように、操作ボタン１００２とデータＲＯＭ１００４とプログラム用ＲＯＭ１００６とＲＡＭ１００８とカードコネクタ１０７０とにそれぞれ接続される。

ＣＰＵ１０１０は、ゲームカートリッジ１０８０に格納されている映像データ１０８２および音声データ１０８４を用いて、ゲームカートリッジ１０８０に応じた機器としてゲーム装置１０００を作動させるための処理を実行する。具体的には、ＣＰＵ１０１０は、カードコネクタ１０７０を介して映像データ１０８２を読み出し、そのデータに基づく映像を液晶ディスプレイ１０６０に表示させる。また、ＣＰＵ１０１０は、カードコネクタ１０７０を介して音声データ１０８４を読み出し、そのデータに基づく音声をスピーカ１０５０に出力させる。

ここで、スピーカ１０５０は、ゲーム装置１０００の携帯性の観点からサイズおよび出力が制限されている。

ＣＰＵ１０１０は、音声データ１０８４に基づく音声をスピーカ１０５０に出力させる場合、スピーカ１０５０による出力特性を超えない程度に音声データを加工し、Ｄ／Ａコンバータ１０３０に送出する。ここで、スピーカ１０５０の出力特性は、より特定的には周波数特性をいう。

具体的には、ＣＰＵ１０１０は、図１に示される音声合成装置１００によって実現される機能を実現する。すなわち、ＣＰＵ１０１０は、テキスト解析部１０１と韻律生成部１０２と音声素片選択部１０３と合成部１０５と周波数フィルタ部１０６と増幅部１０７として機能する。また、図１に示される音声素片格納部１０４は、たとえばデータＲＯＭ１００４によって実現される。

なお、本実施の形態に係る音声合成装置１００は、音声出力機能を有するコンピュータシステムによっても実現可能である。そこで、図１１を参照して、音声合成装置１００として機能するコンピュータシステム１１００について説明する。図１１は、コンピュータシステム１１００のハードウェア構成を表わすブロック図である。

コンピュータシステム１１００は、主たる構成要素として、演算制御処理を実行するＣＰＵ１１１０と、コンピュータシステム１１００の使用者による指示の入力を受け付けるマウス１１２０およびキーボード１１３０と、ＣＰＵ１１１０によるプログラムの実行により生成されたデータまたはマウス１１２０もしくはキーボード１１３０を介して入力されたデータを揮発的に格納するためのＲＡＭ１１４０と、データを不揮発的に格納するハードディスク１１５０と、ＣＤ−ＲＯＭ駆動装置１１６０と、音声データから音声信号を生成して出力するサウンドカード１１７０と、サウンドカード１１７０から出力される信号に基づいて音声を出力するためのスピーカ１１７２と、映像を表示するモニタ１１８０と、通信回線（図示しない）を介して外部と通信するための通信Ｉ／Ｆ１１９０とを備える。各構成要素は、相互にデータバスによって接続されている。ＣＤ−ＲＯＭ駆動装置１１６０には、ＣＤ−ＲＯＭ１１６２その他の記録媒体が装着可能である。

コンピュータシステム１１００における情報処理は、ハードウェアおよびＣＰＵ１１１０により実行されるソフトウェアの協働によって実現される。このようなソフトウェアは、ハードディスク１１５０に予め格納されている場合がある。また、ソフトウェアは、ＣＤ−ＲＯＭ１１６２その他の記録媒体に格納されて、プログラム製品として流通している場合もある。あるいは、当該ソフトウェアは、いわゆるインターネットその他の通信回線に接続されている情報提供事業者によってダウンロード可能なプログラム製品として提供される場合もある。このようなソフトウェアは、ＣＤ−ＲＯＭ駆動装置１１６０その他の読取装置によってその記録媒体から読み取られて、あるいは、通信Ｉ／Ｆ１１９０を介してダウンロードされた後、ハードディスク１１５０に一旦格納される。そのソフトウェアは、ＣＰＵ１１１０によってハードディスク１１５０から読み出され、ＲＡＭ１１４０に実行可能なプログラムの形式で格納される。ＣＰＵ１１１０は、そのプログラムの実行指令に基づいて当該プログラムを実行する。

図１１に示されるコンピュータシステム１１００を構成するハードウェアは、一般的なものである。したがって、本発明の最も本質的な部分は、ＲＡＭ１１４０、ハードディスク１１５０、ＣＤ−ＲＯＭ１１６２その他の記録媒体に格納されたソフトウェア、あるいはネットワークを介してダウンロード可能なソフトウェアであるともいえる。なお、コンピュータシステム１１００の各構成要素の動作は周知であるので、詳細な説明は繰り返さない。

なお、記録媒体としては図１１に示されるようなＣＤ−ＲＯＭ１１６２、ハードディスク１１５０などに限られず、その他の媒体（たとえば磁気テープ、カセットテープ、光ディスク（ＭＯ（Magnetic Optical Disc）／ＭＤ（Mini Disc）／ＤＶＤ（Digital Versatile Disc））、ＩＣ（Integrated Circuit）カード、（メモリカードを含む）、光カード、マスクＲＯＭ、ＥＰＲＯＭ（Erasable Programmable Read Only Memory）、ＥＥＰＲＯＭ（Electronically Erasable Programmable Read Only Memory）、フラッシュＲＯＭなどの半導体メモリなどの固定的にプログラムを担持する媒体でもよい。

また、上記のプログラム製品には、ＣＰＵ１１１０によって直接実行可能なプログラムだけでなく、ソースプログラム形式のプログラム、圧縮処理されたプログラム、暗号化されたプログラムなどをも含む。

以上のようにして、本発明の第１の実施の形態に係る音声合成装置１００は、周波数フィルタ部１０６と出力部１１２とを有する。周波数フィルタ部１０６は、出力部１１２の周波数特性に応じて予め作成されたフィルタに基づいてフィルタ処理を実行する。

このようにすると、出力部で再生できない周波数帯域のエネルギーが波形データ上で削減され、波形データの振幅が小さくなる。これにより、当該フィルタ処理が実行された後の音声波形を増幅することができる。その結果、当該フィルタ処理を施されない場合に比べて、より高い増幅を施すことができるため、より大きな音量の音声を出力することができる。

上記の本実施の形態においては、入力されたテキストから、テキスト解析部１０１、韻律生成部１０２、音声素片選択部１０３、合成部１０５を介して合成音声が生成される場合が説明された。しかしながら、音声の合成は、当該実施の形態に示される態様に限られない。

本発明の特徴の一つは、出力部１１２の周波数特性に基づくフィルタを、音声信号に施した後に増幅することである。したがって、スピーカ特性フィルタ生成部２００で生成された出力部１１２の周波数特性に基づくフィルタを用いて、入力音声信号にフィルタ処理を施す周波数フィルタ部１０６と、周波数フィルタ部１０６でフィルタ処理を施された音声信号を増幅する増幅部１０７と、出力部１１２とを少なくとも備えることにより、音声合成装置を構成してもよい。

すなわち、たとえば、ハードディスクまたはＲＡＭその他の記憶装置に格納されている音声波形データを、周波数フィルタ部１０６に入力することにより、いわゆる音声再生機能を有する装置として、音声合成装置を構成してもよい。その結果、テキスト音声合成に限らず、録音された音声の再生や、ＲＯＭまたはハードディスクその他の記憶装置あるいは記録媒体に予め記録された音声波形データや、ネットワークなどを介して取得された音声波形データなどを再生する場合においても、当該フィルタ処理を施されない場合に比べて、より高い増幅を施すことができるため、より大きな音量の音声を出力することができる。

＜第２の実施の形態＞
以下、本発明の第２の実施の形態について説明する。本実施の形態に係る音声合成装置は、音声素片データのフィルタ処理を行なう機能を有する点で、第１の実施の形態に係る音声合成装置１００と異なる。

そこで、図１２を参照して、音声合成装置１２００について説明する。図１２は、音声合成装置１２００によって実現される機能の構成を表わすブロック図である。音声合成装置１２００は、図１に示される音声合成装置１００の構成に対して、合成部１０５に代えて合成部１２０５、および周波数フィルタ部１０６に代えて周波数フィルタ部１２０６を有する点で異なる。

周波数フィルタ部１２０６は、音声素片選択部１０３からの出力に基づいて作動可能なように、音声素片選択部１０３に接続されている。周波数フィルタ部１２０６は、音声素片選択部１０３によって選択された素片データに対して予め作成されたフィルタを用いてフィルタ処理を実行する。このフィルタは、スピーカ特性フィルタ生成部２００によって生成された出力部１１２の周波数特性に応じたフィルタである。

合成部１２０５は、韻律生成部１０２からの出力と、周波数フィルタ部１２０６からの出力とに基づいて作動可能なように、韻律生成部１０２と周波数フィルタ部１２０６とに接続される。合成部１２０５は、韻律生成部１０２によって生成された韻律情報と、周波数フィルタ部１２０６によってフィルタ処理が実行された後の音声素片データとを用いて音声データを合成する。合成部１２０５は、合成したデータを増幅部１０７に送出する。

図１３を参照して、本実施の形態に係る音声合成装置１２００の制御構造について説明する。図１３は、音声合成装置１２００が実行する一連の動作を表わすフローチャートである。なお、第１の実施の形態における処理と同一の処理には同一のステップ番号を付し、ここではそれらについての説明は繰り返さない。

ステップＳ１３５０にて、周波数フィルタ部１２０６は、音声素片選択部１０３によって選択された素片データによって規定される音声が有声音であるか否かを判断する。周波数フィルタ部１２０６がその音声は有声音であると判断すると（ステップＳ１３５０にてＹＥＳ）、制御はステップＳ１３６０に移される。そうでない場合には（ステップＳ１３５０にてＮＯ）、制御はステップＳ１３７０に移される。

ステップＳ１３６０にて、周波数フィルタ部１２０６は、予め生成されたフィルタを用いて、有声音を表わす素片データに対して周波数フィルタリング（フィルタ処理）を実行する。

ステップＳ１３７０にて、合成部１２０５は、韻律生成部１０２によって生成された韻律情報と周波数フィルタ部１２０６から出力される音声素片データとに基づいて音声信号を合成する。合成された信号は、増幅部１０７に送出される。

ステップＳ１３８０にて、増幅部１０７は、予め規定されたビットを上限として当該音声信号を増幅する。増幅部１０７は、その増幅したデータを増幅装置１１０に送出する。

以上のようにして、本発明の第２の実施の形態に係る音声合成装置１２００によると、出力部の周波数特性に応じたフィルタを用いて音声素片データにフィルタ処理を実行する。その結果、スピーカのような出力部で再生できない周波数帯域のエネルギーが波形データ上で削減され、音声素片波形データの振幅が小さくなる。そこで、当該フィルタ処理が施された音声波形を増幅することにより、当該フィルタ処理が施されない場合に比べて、より高い増幅を施すことができ、より大きな音量の音声を出力することができる。

また、音声素片にフィルタ処理を施すことにより、音韻種別に応じたフィルタ処理の有無、あるいは、フィルタの種類を変更することができる。その結果、より明瞭な音声をより大きな音量で出力することができる。また、上述の説明では、ステップＳ１３５０にて有声音であるか否かを判断する場合について説明したが、たとえば、母音であるか否かを判断するように構成してもよい。

＜第３の実施の形態＞
以下、本発明の第３の実施の形態について説明する。本実施の形態に係る音声合成装置は、予めフィルタ処理が実行された素片データを用いて音声を合成する機能を有する点で、前述の各実施の形態に係る音声合成装置と異なる。

そこで、図１４を参照して、本実施の形態に係る音声合成装置１４００について説明する。図１４は、音声合成装置１４００によって実現される機能の構成を表わすブロック図である。音声合成装置１４００は、テキスト解析部１０１と、韻律生成部１０２と、音声素片選択部１０３と、音声素片格納部１０４と、合成部１０５と、増幅部１０７とを備える。

テキスト解析部１０１は、音声合成装置１４００に対して入力されるテキストデータ（たとえばテキストデータ取得部１９０から出力されるテキストデータ）に基づいて作動するように構成される。韻律生成部１０２は、テキスト解析部１０１からの出力に基づいて作動可能なようにテキスト解析部１０１に接続される。音声素片選択部１０３は、テキスト解析部１０１からの出力と、音声素片格納部１０４に格納されているデータとに基づいて作動可能なようにテキスト解析部１０１および音声素片格納部１０４に接続される。

合成部１０５は、韻律生成部１０２からの出力と音声素片選択部１０３からの出力とに基づいて作動可能なように韻律生成部１０２および音声素片選択部１０３に接続される。

増幅部１０７は、合成部１０５からの出力に基づいて作動可能なように合成部１０５に接続される。

なお、音声合成装置１４００に含まれる各構成は、図１に示される音声合成装置１００によって実現される構成と同様の機能を有する。したがって、ここではそれらについての説明は繰り返さない。

図１５を参照して、本実施の形態に係る音声合成装置１４００の制御構造について説明する。図１５は、音声合成装置１４００が実行する一連の処理を表わすフローチャートである。

ステップＳ１５４０にて、音声素片選択部１０３は、テキスト解析部１０１からの出力に基づいて音声素片格納部１０４に格納されているフィルタ処理が実行された音声素片データを選択する。ステップＳ１５５０にて、合成部１０５は、韻律生成部１０２によって生成された韻律情報と音声素片選択部１０３によって選択された音声素片データとに基づいて音声信号を合成する。ステップＳ１５６０にて、増幅部１０７は、合成された音声信号を予め規定されたビット数に対応する上限値に応じて増幅する。

以上のようにして、本発明の第３の実施の形態に係る音声合成装置１４００は、スピーカのような出力部の周波数特性に応じたフィルタを用いて周波数フィルタリングを予め施された音声素片データを格納している。音声合成装置１４００は、そのような音声素片データを用いて音声合成を行なうことにより、音声素片波形データの振幅を小さくすることができる。その結果、音声合成装置１４００は、音声素片または音声素片を用いて合成した音声の波形を増幅することにより、当該周波数フィルタリングが施されない場合に比べてより高い増幅を施すことができる。音声合成装置１４００は、より大きな音量の音声を出力することができる。

また、音声合成装置１４００は、当該フィルタを用いて周波数フィルタリングが予め施された音声素片を格納している。このため、音声合成装置１４００は、音声合成時に、リアルタイムのフィルタ処理を行なう必要がない。その結果、精度のより高い周波数特性を有するフィルタを用いることができる。

＜第４の実施の形態＞
以下、本発明の第４の実施の形態について説明する。本実施の形態に係る音声合成装置は、音声出力装置の出力特性に応じて予め生成された音源を用いて音声を合成する機能を有する点で、前述の各実施の形態に係る音声合成装置と異なる。

そこで図１６を参照して、本実施の形態に係る音声合成装置１６００の構成について説明する。図１６は、音声合成装置１６００によって実現される各機能の構成を表わすブロック図である。音声合成装置１６００は、図１４に示される音声合成装置１４００の構成に対して、音声素片選択部１０３の代わりに音声素片選択部１６０３を備える。さらに、音声合成装置１６００は、音声素片格納部１０４に代えて音源格納部１６０１と素片情報格納部１６０２とを備える。

音声素片選択部１６０３は、テキスト解析部１０１からの出力と、音源格納部１６０１に格納されているデータと、素片情報格納部１６０２に格納されているデータとに基づいて作動可能なようにテキスト解析部１０１と音源格納部１６０１と素片情報格納部１６０２とにそれぞれ接続される。

音源格納部１６０１は、音源生成部１６１０によって予め作成された音源データを格納する。素片情報格納部１６０２は、素片情報生成部１６２０によって予め生成された素片情報を格納する。ここで、音源生成部１６１０は、音源データを生成する際に、スピーカ特性フィルタ生成部２００によって生成された出力部１１２の周波数特性に応じたフィルタを用いる。

図１７を参照して、本実施の形態に係る音声合成装置１６００の制御構造について説明する。図１７は、音声合成装置１６００が実行する一連の処理を表わすフローチャートである。

ステップＳ１７４０にて、音声素片選択部１６０３は、テキスト解析部１０１による解析の結果に基づいて、素片情報格納部１６０２から音声素片スペクトル情報データ等の素片情報を選択する。

ステップＳ１７５０にて、音声素片選択部１６０３は、テキスト解析部１０１による解析の結果に基づいて、その音声が有声音であるか否かを判断する。音声素片選択部１６０３がその音声は有声音であると判断すると（ステップＳ１７５０にてＹＥＳ）、制御はステップＳ１７６０に移される。そうでない場合には（ステップＳ１７５０にてＮＯ）、制御はステップＳ１７７０に移される。

ステップＳ１７６０にて、音声素片選択部１６０３は、音源格納部１６０１から有声音用の音源を選択する。ステップＳ１７７０にて、音声素片選択部１６０３は、音源格納部１６０１から無声音用の音源を選択する。

ステップＳ１７８０にて、合成部１０５は、韻律生成部１０２によって生成された韻律情報と音声素片選択部１６０３によって選択された音源および素片情報格納部１６０２から読み出された素片データとに基づいて音声信号を合成する。ステップＳ１７９０にて、増幅部１０７は、合成部１０５によって合成された音声信号を予め規定されたビットの上限値まで増幅する。

以上のようにして、本発明の第４の実施の形態に係る音声合成装置１６００は、周波数フィルタリングが予め施された音源信号を格納している。音声合成装置１６００は、音声素片波形データの振幅を小さくできる音源を使用することができる。その結果、音声合成装置１６００は、当該音源信号、または当該音源信号を用いて合成した音声波形を増幅することにより、当該周波数フィルタリングが施されない場合に比べてより高い増幅を施すことができる。音声合成装置１６００は、より大きな音量の音声を出力することができる。

また、音声合成装置１６００は、当該フィルタを用いて周波数フィルタリングが予め施された音源信号を格納している。そのため、音声合成時におけるリアルタイムのフィルタ処理が不要となり、音声合成装置１６００は、精度のより高い周波数特性を有するフィルタを用いることができる。

また、上述の説明では、ステップＳ１７５０にて有声音であるか否かを判断する場合について説明したが、このような構成に限られない。たとえば、母音であるか否かを判断するように構成し、ステップＳ１７６０では母音用音源を選択し、ステップＳ１７７０では子音用音源を選択するようにしてもよい。

図１８および図１９を参照して、本発明の第４の実施の形態に係る音声合成装置１６００のデータ構造について説明する。図１８および図１９は、音声合成装置１６００が備える素片情報格納部１６０２におけるデータの格納の一態様を概念的に表わす図である。音声素片格納部１６０２は、データを格納するための複数の領域を有する。

図１８に示されるように、具体的には、「ａ」についての音声素片スペクトル情報データは、領域１８１０に格納されている。「ｉ」についての音声素片スペクトル情報データは、領域１８２０に格納されている。同様に、「ｕ」、「ｂ」、「ｄ」、「ｋ」、「ｓ」についての各音声素片スペクトル情報データは、領域１８３０〜１８７０に格納されている。その他の音声素片スペクトル情報データも、音声素片格納部１６０２に格納されている。

図１９を参照して、領域１８１０は、データを格納するための領域１８１１，１８１２，１８１３を含む。領域１８４０は、データを格納するための領域１８４１，１８４２，１８４３を含む。領域１８６０は、データを格納するための領域１８６１，１８６２，１８６３を含む。

領域１８１１、１８４１，１８６１は、フレーム番号を表わすインデックスを格納する。たとえば、領域１８１１は、１〜Ａのフレーム番号を含む。

領域１８１２，１８４２，１８６２は、各インデックスに対応付けられたＬＳＰを格納する。したがって、領域１８１０は、Ａ個のＬＳＰを有している。領域１８４０は、Ｂ個のＬＳＰを有している。領域１８６０は、Ｋ個のＬＳＰを有している。

ここで、一般に、１つのフレームに対応するＬＳＰは、複数個のパラメータから構成される。すなわち、１つのフレームを構成するＬＳＰパラメータ群を１セットとすると、上述の「Ａ個のＬＳＰ」は、「セット数ＡのＬＳＰ」という意味を表す。

領域１８１３，１８４３，１８６３は、各インデックスに対応付けられた音素が有声音であるか無声音であるかを表わすデータを格納する。たとえば、領域１８１０が母音「ａ」についてのデータを格納する領域である場合、領域１８１３には、母音「ａ」が有声音であることを表わすデータがそれぞれ格納される。領域１８４０に格納されるデータが「ｂ」である場合にも、同様のデータが領域１８４３に格納される。

一方、領域１８６０が「ｋ」についてのデータを格納している場合、当該「ｋ」が無声音であることを表わすデータが領域１８６３に格納される。

図２０および図２１を参照して、本発明の第４の実施の形態に係る音声合成装置１６００におけるデータ構造についてさらに説明する。図２０および図２１は、音声合成装置１６００が備える音源格納部１６０１におけるデータの格納の一態様を概念的に表わす図である。

図２０に示されるように、音源格納部１６０１は、データを格納するための領域２０１０，２０２０を含む。領域２０１０は、有声音の音源データを格納している。領域２０２０は、無声音の音源データを格納している。

より具体的には、図２１に示されるように、領域２０１０は、インパルスに周波数フィルタを施した情報２０１１を格納している。領域２０２０は、ランダムノイズ情報２０１２を格納している。

そこで、図２２を参照して、本発明の実施の形態の他の局面におけるスピーカ特性フィルタ生成部２２３０について説明する。図２２は、スピーカ特性フィルタ生成部２２３０の構成を概念的に表わす図である。

スピーカ特性フィルタ生成部２２３０は、マイク２２４０と、Ａ／Ｄ変換部２２５０と、平均部２２６０と、窓掛け部２２７０と、データを保持するためのメモリ（図示しない）を備える。平均部２２６０と窓掛け部２２７０とは、たとえばプロセッサによって実現される。

スピーカ特性フィルタ生成部２２３０は、マイク２２４０を介して、出力部２２２０のような外部の音源から音情報の入力を受け付ける。出力部２２２０とスピーカ特性フィルタ生成部２２３０とは、前述のように、音声合成装置１００が実際に使用される局面に応じて規定される距離だけ離されている。

出力部２２２０は、信号の入力を受け付ける入力インターフェイス（図示しない）に加えて、スピーカ２２２２を備える。出力部２２２０には、インパルス信号２２１０が与えられる。

出力部２２２０は、入力インターフェイスを介してインパルス信号２２１０の入力を受け付けると、その信号に応じた音をスピーカ２２２２を介して出力する。

スピーカ特性フィルタ生成部２２３０において、マイク２２４０は、その音声の入力を受けると、当該音声に応じたアナログの電気信号を出力する。アナログの電気信号は、Ａ／Ｄ変換部２２５０に入力される。Ａ／Ｄ変換部２２５０は、アナログの電気信号をデジタルの電気信号に変換して、出力する。この出力は、たとえば、メモリに蓄積される。

平均部２２６０は、当該メモリに蓄積された少なくとも１つ以上の出力を用いて、デジタル信号の平均値を算出する。平均値を算出することにより、スピーカ特性フィルタ生成部２２３０に与えられる音情報のばらつきの影響が抑制される。平均部２２６０によって算出された平均値は、窓掛け部２２７０に送出される。窓掛け部２２７０は、前述したように、ハニング窓、ハミング窓のような窓関数を用いて、窓掛け処理を行なう。その結果、スピーカ特性フィルタ２２７２が導出される。

図２３を参照して、スピーカ特性フィルタを用いた場合における音声信号の波形の変化について説明する。図２３は、スピーカ特性フィルタ５８０を用いる音声合成装置１００における波形の変化を表わす図である。

音声信号の処理が行なわれる前の波形として、たとえばグラフ２３１０において示されるような波形（グラフ２３２０に示されるような振幅スペクトル）を有する信号が処理の対象となる。周波数フィルタ部１０６は、スピーカ特性フィルタとして、グラフ２３３０に示されるような振幅スペクトルを有するフィルタ（グラフ２３３０）を使用する。

周波数フィルタ部１０６が、当該フィルタを用いてグラフ２３１０に示されるような信号にフィルタ処理を行なうと、グラフ２３５０に示されるように、うなりの成分が除去された信号が出力される。この信号の振幅スペクトルについてみると、グラフ２３６０に示されるように、フィルタ処理前においては、点線部分として示されていた周波数成分が削り取られ、実線部分のような特性を有する信号に変わる。

増幅部１０７が、周波数フィルタ部１０６によってフィルタ処理された信号の入力を受けて、増幅処理を行なうと、グラフ２３７０に示されるような信号（処理後波形）が生成される。振幅スペクトルでみると、グラフ２３８０に示されるように、フィルタ処理前の信号を表わす点線部分に対して、低周波（たとえば約５００Ｈｚ以下）の領域のピーク値が低下している。そのため、高周波領域のピークを、音声合成装置１００における出力部１１２で表現可能な振幅の限界に相当するレベルまで引き上げることができる。その結果、従来よりも大きな音で、かつ、低音の割れのような歪みのない音声の出力が可能になる。

以上のようにして、本発明の実施の形態に係る音声合成装置によると、音声波形に対する周波数フィルタリング処理は、スピーカを含む出力部の周波数特性に応じて生成されたフィルタを用いて行なわれる。その結果、出力部で再生できない周波数帯域のエネルギーが波形データ上で削減され、波形データの振幅が小さくなる（たとえば、図２３、グラフ２３５０における周波数フィルタリング後の音声波形参照）。

そこで、当該周波数フィルタリングを施された音声波形を増幅することにより、当該周波数フィルタリングを施されない場合に比べてより高い増幅を施すことができる。その結果、より大きな音量の音声を出力することができる（図２３におけるグラフ２３７０参照）。

また、出力部の周波数特性に応じたフィルタを用いて音声素片に周波数フィルタリングを施すことにより、スピーカのような出力部で再生できない周波数帯域のエネルギーが波形データ上で削減され、音声素片波形データの振幅が小さくなる。そこで、当該周波数フィルタリングを施された音声波形を増幅することにより、当該周波数フィルタリングを施されない場合に比べてより高い増幅を施すことができる。その結果、より大きな音量の音声を出力することができる。

また、音声素片に周波数フィルタリングを施すことにより、音韻種別に応じたフィルタ処理の有無、あるいは、フィルタの種類を変更することができる。その結果、より明瞭な音声をより大きな音量で出力することができる。

また、他の局面において、音声合成装置は、スピーカのような出力部の特性に応じたフィルタを用いて周波数フィルタリングを予め施された音声素片を格納している。当該音声装置は、そのような音声素片データを用いて音声合成を行なうことにより、音声素片波形データの振幅を小さくすることができる。その結果、音声合成装置は、音声素片または音声素片を用いて合成した音声の波形を増幅することにより、当該周波数フィルタリングを施されない場合に比べてより高い増幅を施すことができる。その結果、音声合成装置は、より大きな音量の音声を出力することができる。

また、音声合成装置は、当該フィルタを用いて、周波数フィルタリングを予め施された音声素片を格納している。その結果、音声合成装置においては、音声合成時における実時間のフィルタ処理が不要となり、精度のより高い周波数特性を有するフィルタを用いることができる。

また、他の局面における音声合成装置は、当該フィルタを用いて周波数フィルタリングが予め施された音源信号を格納している。このような音声合成装置においては、音声素片波形データの振幅を小さくすることができる。その結果、当該音源信号または当該音源信号を用いて合成した音声波形を増幅することにより、当該周波数フィルタリングが施されない場合に比べてより高い増幅を施すことができる。その結果、音声合成装置は、より大きな音量の音声を出力することができる。

また、音声合成装置は、当該フィルタを用いて周波数フィルタリングが予め施された音源信号を格納している。そのため、音声合成時におけるリアルタイムのフィルタ処理が不要となり、当該フィルタとして、精度のより高い周波数特性を有するフィルタを用いることができる。

さらに、他の局面に従う音声合成装置は、当該フィルタを用いて、周波数フィルタリングが予め施されたスペクトルパラメータを格納している。その結果、音声合成時における音声素片波形データの振幅が小さくなる。そこで、音声合成装置は、当該スペクトルパラメータ、または当該スペクトルパラメータを用いて合成した音声波形を増幅することにより、当該周波数フィルタリングが施されない場合に比べてより高い増幅を施すことができる。その結果、音声合成装置は、より大きな音量を出力することができる。

また、音声合成装置は、当該フィルタを用いて周波数フィルタリングが予め施されたスペクトルパラメータを格納している。そのため、音声合成時におけるリアルタイムのフィルタ処理が不要となり、音声合成装置は、当該フィルタとして、精度のより高い周波数特性を有するフィルタを用いることができる。その結果、音声合成装置は、より明瞭な音声を出力することができる。

また、上記の実施の形態は、スピーカ特性フィルタ生成部２００と音声合成装置１００とが独立した装置であることを前提に説明しており、音声合成装置１００で用いられる出力部１１２の周波数特性に基づくフィルタを予め作成しておく場合について説明した。

ここで、他の局面に従う音声合成装置として、次のように構成することも可能である。すなわち、スピーカ特性フィルタ生成部２００を備えた音声合成装置という構成である。この場合、出力部１１２の周波数特性に基づくフィルタを、音声合成装置が使用される環境（たとえば、温度、スピーカの経年変化など）に応じて、動的に生成することが可能となり、使用環境に応じた最適なフィルタを用いて、より精度の高い周波数特性を有するフィルタを用いることができる。その結果、音声合成装置は、より明瞭で大きな音声を出力することができる。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

本発明は、たとえば、電話機や家電製品、ゲーム機、ゲーム機用ソフトウェア、パーソナルコンピュータ、パーソナルコンピュータ用ソフトウェアのように、予め記録された、またはネットワークなどを介して動的に読み込まれるテキストデータまたは音声波形データを、スピーカまたはヘッドホンなどを介して音声出力するような装置に適用することができる。

また、本発明は、たとえば対話型音声案内サーバや対話型ゲームサーバのように、予め記録された、またはネットワークなどを介して動的に読み込まれる、テキストデータまたは音声波形データを、ネットワークなどを介して出力するような装置に適用することができる。

本発明の第１の実施の形態に係る音声合成装置により実現される機能の構成を表わすブロック図である。本発明の実施の形態に係るスピーカ特性フィルタ生成部のハードウェア構成を表わすブロック図である。本発明の第１の実施の形態に係る音声合成装置が備える音声素片格納部におけるデータの格納の一態様を概念的に表わす図である。音声素片格納部におけるデータの格納の一態様を概念的に表わす図である。本発明の実施の形態に係るスピーカ特性フィルタ生成部の構成を概念的に表わす図である。本発明の実施の形態に係るスピーカ特性フィルタ生成部が実行する一連の動作を表わすフローチャートである。本発明の実施の形態に係る音声合成装置が実行する一連の処理を表わすフローチャートである。本発明の第１の実施の形態に係る音声合成装置として機能する携帯電話のハードウェア構成を表わすブロック図である。携帯電話が備えるＣＰＵによって実現される機能の構成を表わすブロック図である。本発明の第１の実施の形態に係る音声合成装置として機能するゲーム装置のハードウェア構成を表わすブロック図である。本発明の第１の実施の形態に係る音声合成装置として機能するコンピュータシステムのハードウェア構成を表わすブロック図である。本発明の第２の実施の形態に係る音声合成装置によって実現される機能の構成を表わすブロック図である。本発明の第２の実施の形態に係る音声合成装置が実行する一連の動作を表わすフローチャートである。本発明の第３の実施の形態に係る音声合成装置によって実現される機能の構成を表わすブロック図である。本発明の第３の実施の形態に係る音声合成装置が実行する一連の処理を表わすフローチャートである。本発明の第４の実施の形態に係る音声合成装置によって実現される機能の構成を表わすブロック図である。本発明の第４の実施の形態に係る音声合成装置が実行する一連の処理を表わすフローチャートである。本発明の第４の実施の形態に係る音声合成装置が備える素片情報格納部におけるデータの格納の一態様を概念的に表わす図（その１）である。本発明の第４の実施の形態に係る音声合成装置が備える素片情報格納部におけるデータの格納の一態様を概念的に表わす図（その２）である。本発明の第４の実施の形態に係る音声合成装置が備える音源格納部におけるデータの格納の一態様を概念的に表わす図（その１）である。本発明の第４の実施の形態に係る音声合成装置が備える音源格納部におけるデータの格納の一態様を概念的に表わす図（その２）である。本発明の実施の形態の他の局面におけるスピーカ特性フィルタ生成部の構成を概念的に表わす図である。本発明の一つの局面に従うスピーカ特性フィルタにより生成されたフィルタを用いた場合における音声信号の波形の変化を表わす図である。

符号の説明

１００，１２００，１４００，１６００音声合成装置、８０２アンテナ、８４２メモリカード、１０００ゲーム装置、１１００コンピュータシステム、１１６２ＣＤ−ＲＯＭ。

Claims

音声を出力する音声出力装置と、
前記音声出力装置の周波数特性に応じて予め生成されたフィルタに基づいて、前記音声データの周波数を変更するためのフィルタ処理を行なうフィルタ手段と、
前記フィルタ手段と前記音声出力装置との間に配置され、前記フィルタ手段によってフィルタ処理が行なわれた音声データを増幅して、増幅された音声データを前記音声出力装置に出力する増幅手段とを備える、音声合成装置。
テキストデータを取得するための取得手段と、
前記取得手段によって取得されたテキストデータを解析する解析手段と、
前記解析手段による解析の結果に基づいて、前記音声出力装置に音声を出力させるための音声データを導出する導出手段とをさらに備え、
前記フィルタ手段は、前記フィルタに基づいて、前記導出手段によって導出された前記音声データの周波数を変更する、請求項１に記載の音声合成装置。
予め生成された複数の音声素片を格納する記憶手段をさらに備え、
前記導出手段は、
前記解析手段による解析の結果に基づいて韻律情報を生成する生成手段と、
前記解析手段による解析の結果に基づいて、前記複数の音声素片のいずれかを選択する選択手段と、
前記選択手段によって選択された音声素片と前記韻律情報とに基づいて前記音声データを合成する合成手段とを含む、請求項２に記載の音声合成装置。
予め生成された音声素片を格納する記憶手段をさらに備え、
前記導出手段は、前記解析手段による解析の結果に基づいて前記複数の音声素片のいずれかを選択する選択手段を含み、
前記フィルタ手段は、前記音声出力装置の周波数特性に応じて予め生成されたフィルタに基づいて、前記選択手段によって選択された音声素片の周波数を変更し、
前記導出手段は、
前記解析手段による解析の結果に基づいて韻律情報を生成する生成手段と、
前記韻律情報と、前記フィルタ手段によって周波数が変更された音声素片とに基づいて、前記音声データを合成する合成手段とをさらに含む、請求項２に記載の音声合成装置。
音声を出力する音声出力装置と、
テキストデータを取得するための取得手段と、
前記取得手段によって取得されたテキストデータを解析する解析手段と、
テキストデータに基づく音声を出力するために予め生成された複数の音声データを格納する記憶手段とを備え、前記音声データは、前記音声出力装置の周波数特性に応じて予め生成されたフィルタを用いるフィルタ処理を行なうことにより生成されており、
前記解析手段による解析の結果に基づいて、各前記音声データのいずれかを選択する選択手段と、
前記解析手段による解析の結果に基づいて韻律情報を生成する生成手段と、
前記選択手段によって選択された音声データと、前記生成手段によって生成された韻律情報とに基づいて、前記音声データを合成する合成手段と、
前記合成手段と前記音声出力装置との間に配置され、前記合成手段によって合成された音声データを増幅して、増幅された音声データを前記音声出力装置に出力する増幅手段とを備える、音声合成装置。
前記記憶手段は、前記音声データとして、複数の音声素片データを格納しており、
前記選択手段は、前記解析手段による解析の結果に基づいて、各前記音声素片データのいずれかを選択する、請求項５に記載の音声合成装置。
前記記憶手段は、
前記フィルタ処理を行なうことにより生成された複数の音源データを格納する音源記憶手段と、
予め生成された複数の素片情報を格納する素片情報記憶手段とを含み、
前記選択手段は、前記解析手段による解析の結果に基づいて、各前記音源データのいずれかと、各前記素片情報のいずれかとを選択する、請求項６に記載の音声合成装置。
前記記憶手段は、
予め生成された複数の音源データを格納する音源記憶手段と、
前記フィルタ手段を行なうことにより生成された複数の素片情報を格納する素片情報記憶手段とを含み、
前記選択手段は、前記解析手段による解析の結果に基づいて、各前記音源データのいずれかと、各前記素片情報のいずれかとを選択する、請求項６に記載の音声合成装置。
前記取得手段は、文字を入力するための操作を受け付ける入力手段を含む、請求項２〜８のいずれかに記載の音声合成装置。
前記取得手段は、
文字情報が含まれる電波を受信する受信手段と、
前記受信手段によって受信された電波から前記文字情報を抽出する抽出手段と、
前記文字情報をテキストデータとして格納する記憶手段とを含む、請求項２〜８のいずれかに記載の音声合成装置。
前記取得手段は、
出力される音声に対応するテキストデータと、前記音声の出力に合わせて映像を表示するための画像データとを格納した媒体であって、着脱可能な記録媒体の装着を受け付ける駆動手段と、
前記記録媒体から、前記テキストデータと前記画像データとを読み出す読出手段とを含み、
前記画像データに基づいて映像を表示する表示手段をさらに備える、請求項２〜８のいずれかに記載の音声合成装置。
コンピュータが音声を合成するための音声合成方法であって、前記コンピュータは、音声を出力する音声出力装置とプロセッサとメモリとを備え、前記音声合成方法は、
前記プロセッサが、前記音声出力装置の周波数特性に応じて予め生成されたフィルタに基づいて、前記音声データの周波数を変更するためのフィルタ処理を行なうステップと、
前記プロセッサが、前記フィルタ処理が行なわれた音声データを増幅して、増幅された音声データを前記音声出力装置に出力するステップとを含む、音声合成方法。
前記プロセッサが、テキストデータを取得するステップと、
前記プロセッサが、前記テキストデータを解析するステップと、
前記プロセッサが、前記解析の結果に基づいて、前記音声出力装置に音声を出力させるための音声データを導出するステップとをさらに含み、
前記フィルタ処理を行なうステップは、前記フィルタに基づいて、前記音声データを導出するステップにおいて導出された音声データの周波数を変更する、請求項１２に記載の音声合成方法。
コンピュータを音声合成装置として機能させるためのプログラムであって、前記コンピュータは、音声を出力する音声出力装置とプロセッサとを備え、前記プログラムは前記プロセッサに、
前記音声出力装置の周波数特性に応じて予め生成されたフィルタに基づいて、前記音声データの周波数を変更するためのフィルタ処理を行なうステップと、
前記フィルタ処理が行なわれた音声データを増幅して、増幅された音声データを前記音声出力装置に出力するステップとを実行させる、プログラム。
前記プログラムは、前記プロセッサに、
テキストデータを取得するステップと、
前記テキストデータを解析するステップと、
前記解析の結果に基づいて、前記音声出力装置に音声を出力させるための音声データを導出するステップとをさらに実行させ、
前記フィルタ処理を行なうステップは、前記フィルタに基づいて、前記音声データを導出するステップにおいて導出された音声データの周波数を変更する、請求項１４に記載のプログラム。
音声信号の入力を受け付ける入力手段と、
前記音声信号に基づいて周波数変換を行なうことにより、前記音声信号の周波数と振幅との関係を表わすデータを取得する第１の変換手段と、
前記第１の変換手段によって取得されたデータに基づいて、前記振幅の絶対値を算出する算出手段と、
前記絶対値に基づいて逆周波数変換を行なうことにより、前記音声信号の出力源に使用されるフィルタを生成する第２の変換手段とを備える、フィルタ生成装置。
前記周波数変換はフーリエ変換であり、
前記逆周波数変換は逆フーリエ変換である、請求項１６に記載のフィルタ生成装置。
前記入力手段によって受け付けられた前記音声信号に対して窓掛け処理を行なうための窓掛け手段をさらに備える、請求項１６に記載のフィルタ生成装置。
前記第２の変換手段によって生成されたフィルタに対して窓掛け処理を行なうための窓掛け手段をさらに備える、請求項１６に記載のフィルタ生成装置。
前記フィルタを表わすデータを出力するための出力手段をさらに備える、請求項１６に記載のフィルタ生成装置。
コンピュータが、音声信号のフィルタ処理に使用されるフィルタを生成するためのフィルタ生成方法であって、前記コンピュータは、データを格納する記憶装置と、前記データに基づいて処理を行なうプロセッサとを備え、前記フィルタ生成方法は、
前記プロセッサが、音声信号の入力を受け付けるステップと、
前記プロセッサが、前記音声信号に基づいて周波数変換を行なうことにより、前記音声信号の周波数と振幅との関係を表わすデータを取得するステップと、
前記プロセッサが、取得した前記データに基づいて、前記振幅の絶対値を算出するステップと、
前記プロセッサが、前記絶対値に基づいて逆周波数変換を行なうことにより、前記音声信号の出力源に使用されるフィルタを生成するステップとを含む、フィルタ生成方法。
前記プロセッサが、入力された前記音声信号に対して窓掛け処理を行なうステップをさらに含む、請求項２１に記載のフィルタ生成方法。
前記プロセッサが、生成されたフィルタに対して窓掛け処理を行なうステップをさらに含む、請求項２１に記載のフィルタ生成方法。
前記プロセッサが前記フィルタを出力するステップをさらに含む、請求項２１に記載のフィルタ生成方法。
コンピュータをフィルタ生成装置として機能させるためのプログラムであって、前記コンピュータは、データを用いて処理を行なうプロセッサとを備え、前記プログラムは前記プロセッサに、
音声信号の入力を受け付けるステップと、
前記音声信号に基づいて周波数変換を行なうことにより、前記音声信号の周波数と振幅との関係を表わすデータを取得するステップと、
取得され前記データに基づいて、前記振幅の絶対値を算出するステップと、
前記絶対値に基づいて逆周波数変換を行なうことにより、前記音声信号の出力源に使用されるフィルタを生成するステップとを実行させる、プログラム。
音声を出力する音声出力装置と、
前記音声出力装置から出力される音声信号の入力を受け付ける入力手段と、
前記音声信号に基づいて周波数変換を行なうことにより、前記音声信号の周波数と振幅との関係を表すデータを取得する第１の変換手段と、
前記第１の変換手段によって取得されたデータに基づいて、前記振幅の絶対値を算出する算出手段と、
前記絶対値に基づいて逆周波数変換を行なうことにより、前記音声出力装置の周波数特性に応じたフィルタを生成する第２の変換手段と、
前記第２の変換手段によって生成されたフィルタに基づいて、音声データの周波数を変更するためのフィルタ処理を行なうフィルタ手段と、
前記フィルタ手段と前記音声出力装置との間に配置され、前記フィルタ手段によってフィルタ処理が行なわれた音声データを増幅して、増幅された音声データを前記音声出力装置に出力する増幅手段とを備える、音声合成装置。
テキストデータを取得するための取得手段と、
前記取得手段によって取得されたテキストデータを解析する解析手段と、
前記解析手段による解析の結果に基づいて、前記音声出力装置に音声を出力させるための音声データを導出する導出手段とをさらに備え、
前記フィルタ手段は、前記フィルタに基づいて、前記導出手段によって導出された前記音声データの周波数を変更する、請求項２６に記載の音声合成装置。
コンピュータが音声を合成するための音声合成方法であって、前記コンピュータは、音声を出力する音声出力装置と、プロセッサとを備え、
前記プロセッサが、前記音声出力装置から出力される音声信号の入力を受け付けるステップと、
前記プロセッサが、前記音声信号に基づいて周波数変換を行なうことにより、前記音声信号の周波数と振幅との関係を表すデータを取得するステップと、
前記プロセッサが、取得された前記データに基づいて、前記振幅の絶対値を算出するステップと、
前記プロセッサが、前記絶対値に基づいて逆周波数変換を行なうことにより、前記音声出力装置の周波数特性に応じたフィルタを生成するステップと、
前記プロセッサが、生成された前記フィルタに基づいて、音声データの周波数を変更するためのフィルタ処理を行なうステップと、
前記プロセッサが、前記フィルタ処理が行なわれた音声データを増幅して、増幅された音声データを前記音声出力装置に出力するステップとを含む、音声合成方法。
コンピュータを音声合成装置として機能させるためのプログラムであって、前記コンピュータは、音声を出力する音声出力装置とプロセッサとを備え、前記プログラムは前記プロセッサに、
前記音声出力装置から出力される音声信号の入力を受け付けるステップと、
前記音声信号に基づいて周波数変換を行なうことにより、前記音声信号の周波数と振幅との関係を表すデータを取得するステップと、
取得された前記データに基づいて、前記振幅の絶対値を算出するステップと、
前記絶対値に基づいて逆周波数変換を行なうことにより、前記音声出力装置の周波数特性に応じたフィルタを生成するステップと、
生成された前記フィルタに基づいて、音声データの周波数を変更するためのフィルタ処理を行なうステップと、
前記フィルタ処理が行なわれた音声データを増幅して、増幅された音声データを前記音声出力装置に出力するステップとを実行させる、プログラム。