JP2012042722A

JP2012042722A - 音声生成装置およびその制御プログラム

Info

Publication number: JP2012042722A
Application number: JP2010183923A
Authority: JP
Inventors: Tatsu Ifukube; 達伊福部; Mitsuo Hashiba; 参生橋場; Yasunori Sukai; 保徳須貝
Original assignee: Densei Kk; Hokkaido Research Organization; Densei Communication Inc
Current assignee: Densei Kk; Hokkaido Research Organization; Densei Communication Inc
Priority date: 2010-08-19
Filing date: 2010-08-19
Publication date: 2012-03-01
Anticipated expiration: 2030-08-19
Also published as: JP5224552B2

Abstract

【課題】簡単な操作で、リアルタイムに音声を生成する。
【解決手段】表示部１２には、第１ホルマント周波数と第２ホルマント周波数の２次元平面上における分布が音声生成GUIとして表示されており、そのGUI上には、母音ａ，ｉ，ｕ，ｅ，ｏを発したときの第１ホルマント周波数と第２ホルマント周波数が、「ａ」、「ｉ」、「ｕ、「ｅ」、「ｏ」としてそれぞれ示されている。ユーザは、発話内容を、マウス１１Ａを用いて音声生成GUI上で操作する。音声生成装置１は、マウス１１Ａの動作に追随するポインタＰが描いた軌跡から、第１ホルマント周波数と第２ホルマント周波数の２次元平面上におけるＸＹ座標位置を検出し、検出したＸ座標値で規定されている第１ホルマント周波数の音声と、Ｙ座標値で規定されている第２ホルマント周波数の音声とを合成し、合成した疑似的な音声をスピーカ１３から発声させる。
【選択図】図２

Description

本発明は、音声生成装置およびその制御プログラムに関し、特に、簡単な操作で、リアルタイムに音声を生成することが可能な音声生成装置およびその制御プログラムに関する。

人間が互いに意思や感情を伝達し合うコミュニケーションの手段には、言語、文字、その他の視覚や聴覚に訴える身振り、表情、声などの手段があるが、日常生活においては、音声による会話が果たす役割は非常に大きい。音声は、コミュニケーションの手段として言語情報を伝達するだけでなく、その音質によって、話し手が誰であるかという情報や、音楽的情報をも表現することができる。

人が声を出す際には、肺の呼吸運動によって与えられる肺呼気（空気の流れ）を喉頭の中央にある声帯において振動エネルギーに変換し、この振動によって音声の基本となる音（声）を生成している。これを喉頭原音あるいは声帯原音と呼ぶ。

一方、人は、この喉頭原音（原音の基本周波数は、成人男性で約１２０Ｈｚ、女性で約２４０Ｈｚ程度）を、声道と呼ばれる咽頭、口腔、鼻腔などで共鳴させることによって修飾し、さらに唇、舌、顎などの助力によって音色に変化を与えることで所望の音声波形を生成している。これを構音と呼ぶ。

しかし、唇、舌、顎などの欠損や変形、脳性麻痺や脳血管障害、筋ジストロフィーやパーキンソン病等の筋・神経系難病などにより、唇、舌、顎などを使った構音機能に何らかの異常が生じると、音声会話に必要な音色の変化を十分に生成することができないという発声障害を引き起こしてしまう。

そこで、近年、このような発声障害を支援するいくつかの機器が提案されている。例えば、ユーザがスイッチを操作することによって予め決められた言葉を発する装置、発話内容を第３者が予め録音しておき、それを再生する装置、あるいは、キー操作によって発話内容を入力すると、その発話内容を音声合成して発する装置がある。

特開２００５−２４１７４４号公報特開平１１−２３７９４６号公報

しかしながら、従来の発声障害支援装置は、発話内容が限定され、リアルタイムな発話が困難であり、さらに感情（抑揚）を表現することが困難であった。

本発明はこのような状況に鑑みてなされたものであり、その目的は、簡単な操作で、リアルタイムに音声を生成することが可能な音声生成装置およびその制御プログラムを提供することである。

本発明の一側面は、基本周波数の音声データを生成する音源生成手段と、入力手段の操作に基づいて座標値を検出する座標値検出手段と、音源生成手段で生成された前記基本周波数の音声データを、座標値検出手段により検出された座標値に対応する第１の周波数で共振させる第１の共振手段と、第１の共振手段により共振された音声データを、座標値検出手段により検出された座標値に対応する第２の周波数で共振させる第２の共振手段とを備えることを特徴とする。

本発明の一側面は、基本周波数の音声データを生成する音源生成ステップと、入力手段の操作に基づいて座標値を検出する座標値検出ステップと、音源生成ステップで生成された基本周波数の音声データを、座標値検出ステップにより検出された座標値に対応する第１の周波数で共振させる第１の共振ステップと、第１の共振ステップにより共振された音声データを、座標値検出ステップにより検出された座標値に対応する第２の周波数で共振させる第２の共振ステップとを含む処理をコンピュータに実行させることを特徴とする。

本発明によれば、簡単な操作で、リアルタイムに音声を生成することが可能な音声生成装置およびその制御プログラムを提供することができる。

母音の発声の仕組みについて説明するための図である。第１の実施の形態に係る音声生成装置の構成例を示す図である。音声生成GUIの表示例を示す図である。音声生成装置の機能構成例を示すブロック図である。音声生成処理を説明するフローチャートである。第２の実施の形態に係る操作バーと携帯型の音声生成装置の接続例を示す図である。操作バーと携帯型の音声生成装置の内部の構成例を示すブロック図である。音声生成装置の他の機能構成例を示すブロック図である本発明を適用したコンピュータの構成例を示すブロック図である。

以下、本発明の実施の形態について図面を参照して詳細に説明する。

［母音の発声の仕組み］
図１は、母音の発声の仕組みについて説明するための図である。

人間から発声される音声は、肺から押し出される呼気が唇から放射されるまでに通過する声道(喉頭、咽頭、口腔、鼻腔からなる共鳴腔)の形によって作り出される。つまり、声帯から唇までの声道を１つの音響管と考えると、声道で共鳴現象が生じることで発声される。この共鳴によって強められた共振周波数をホルマントと呼ぶ。ホルマントは、複数個発生し、周波数の低い方から第１ホルマント（Ｆ１）、第２ホルマント（Ｆ２）、・・・と呼ぶ。この複数のホルマントによって、声の種類（音色）が決まる。

また、声道は、母音によって極めて複雑な形状を示し、声道の形は、舌や唇を使って変えられている。図１（Ａ）に示すように、舌の最も盛り上がっているところを舌の調音位置と呼び、この調音位置が母音ａ，ｉ，ｕ，ｅ，ｏの種類によって特徴的に推移している。この推移しているところを線で結ぶと、五角形になる。母音の種類によって推移する顎の開閉具合と舌の調音位置（舌によって声道が狭められる位置）と、第１ホルマントの周波数および第２ホルマントの周波数の間には、図１（Ｂ）に示すような密接な対応関係がある。図１（Ｂ）において、横軸は第１ホルマント周波数（Ｆ１）を示し、縦軸は第２ホルマント周波数（Ｆ２）を示している。

図１（Ｂ）には、分かりやすい例として、代表的な男性の声（図中実線で示す）と代表的な女性の声（図中点線で示す）のパターンの例を示している。点Ｍａ，点Ｍｉ，点Ｍｕ，点Ｍｅ，点Ｍｏは、それぞれ、男性が母音ａ，ｉ，ｕ，ｅ，ｏを発したときの第１ホルマント周波数と第２ホルマント周波数を示し、点Ｆａ，点Ｆｉ，点Ｆｕ，点Ｆｅ，点Ｆｏは、それぞれ、女性が母音ａ，ｉ，ｕ，ｅ，ｏを発したときの第１ホルマント周波数と第２ホルマント周波数を示している。

図１（Ｂ）に示すように、男性の声と女性の声とでは、同じ母音であっても、第１ホルマント周波数と第２ホルマント周波数の組み合わせが異なる。また、５つの母音全てについての組み合わせは、男性と女性とで異なる五角形を描くことができる。図１（Ｂ）では、男性と女性の例により示したが、実際には、この五角形は話者によって異なる。

以上のように、第１ホルマント周波数と第２ホルマント周波数の組み合わせ（合成）によって、母音を模倣することができ、音声を疑似的に生成することが可能となる。

[本発明の第１の実施の形態]
図２は、本発明の第１の実施の形態としての音声生成装置１の構成例を示す図である。

音声生成装置１は、CPU(Central Processing Unit)、ROM（Read Only Memory）、およびRAM（Random Access Memory）、HDD（Hard Disk Drive）などを実装した汎用のコンピュータシステムで構成され、入力デバイス１１と表示部１２を有している。なお、図２に示す入力デバイス１１と表示部１２は、音声生成装置１と一体に構成されているが、別体で構成するようにしても良い。

音声生成装置１は、入力デバイス１１からの入力信号に基づいて、ROMなどに記憶されている音声生成ソフトウェアを読み出し、読み出した音声生成ソフトウェアを実行する。音声生成装置１は、音声生成ソフトウェアの実行により、表示部１２に音声生成GUI（Graphical User Interface）を表示させ、そのGUIへの入力信号に基づいて、所定の音声を生成し、スピーカ１３を介して再生（発声）させる。

例えば、表示部１２には、図２に示すように、第１ホルマント周波数と第２ホルマント周波数の２次元平面上における分布が音声生成GUIとして表示されており、そのGUI上には、母音ａ，ｉ，ｕ，ｅ，ｏを発したときの第１ホルマント周波数と第２ホルマント周波数が、「ａ」、「ｉ」、「ｕ、「ｅ」、「ｏ」としてそれぞれ示されている。

ユーザは、スピーカ１３から発声させたい発話内容を、マウス１１Ａ（あるいはタッチパッド１１Ｂ）を用いて音声生成GUI上に軌跡を描く。軌跡の描き方は、例えば、マウス１１Ａを押下したまま、発話内容に準ずる位置を辿りながら、所望の位置でマウス１１Ａの押下を解除する。音声生成装置１は、マウス１１Ａの動作に追随するポインタＰが描いた軌跡から、第１ホルマント周波数と第２ホルマント周波数の２次元平面上におけるＸＹ座標位置を検出し、検出したＸ座標値で規定されている第１ホルマント周波数の音声と、Ｙ座標値で規定されている第２ホルマント周波数の音声とを合成し、合成した疑似的な音声をスピーカ１３から発声させる。

入力デバイス１１は、マウス１１Ａ、タッチパッド１１Ｂ、およびキーボード１１Ｃなどからなり、ユーザによって入力された入力信号を音声生成装置１に供給する。

表示部１２は、例えば、液晶ディスプレイであり、ユーザによって起動された音声生成ソフトウェアに応じた音声生成GUIを表示する。

図３は、音声生成ソフトウェアが実行されることに応じて表示部１２に表示される、音声生成GUIの表示例を示す図である。

図３に示す表示例では、軌跡Ｌ１（図中実線で示す）と軌跡Ｌ２（図中点線で示す）が示されている。ユーザによってマウス１１Ａを用いて軌跡Ｌ１が描かれると、音声生成装置１は、検出したＸＹ座標値から、「おはよう」に聞こえる疑似的な音声を生成し、スピーカ１３から発声させる。また、ユーザによってマウス１１Ａを用いて軌跡Ｌ２が描かれると、音声生成装置１は、検出したＸＹ座標値から、「あおいうみ」に聞こえる疑似的な音声を生成し、スピーカ１３から発声させる。

図４は、音声生成装置１の機能構成例を示すブロック図である。図４に示す機能部のうちの少なくとも一部は、音声生成装置１のCPUにより音声生成ソフトウェアが実行されることによって実現される。

音声生成装置１は、音源生成部２１、音声生成部２２、D/A（Digital to Analog）変換器２３、および増幅器２４から構成される。

音源生成部２１は、ユーザの操作によって図示せぬON/OFFスイッチからオン信号が供給されると、基本周波数の音声データ（基本音声データ）を生成し、それを音声生成部２２に出力する。

音声生成部２２は、座標値検出部３１、第１ホルマント共振器３２、および第２ホルマント共振器３３を有する。

座標値検出部３１は、入力デバイス１１からの入力信号に基づいて、第１ホルマント周波数と第２ホルマント周波数の２次元平面上におけるＸＹ座標値を検出し、検出したＸ座標値を第１ホルマント共振器３２に出力し、検出したＹ座標値を第２ホルマント共振器３３に出力する。

第１ホルマント共振器３２は、音源生成部２１から入力された基本音声データを、座標値検出部３１からの入力情報（第１ホルマント周波数と第２ホルマント周波数の２次元平面上におけるＸ座標値）に対応する第１ホルマント周波数で共振させた後、第２ホルマント共振器３３に出力する。

第２ホルマント共振器３３は、第１ホルマント共振器３２から入力された、第１ホルマント周波数で共振された音声データを、座標値検出部３１からの入力情報（第１ホルマント周波数と第２ホルマント周波数の２次元平面上におけるＹ座標値）に対応する第２ホルマント周波数でさらに共振させた後、D/A変換器２３に出力する。

D/A変換器２３は、第２ホルマント共振器３２から入力された、第１ホルマント周波数および第２ホルマント周波数で共振された音声データをD/A変換し、増幅器２４に出力する。

増幅器２４は、D/A変換器２３の出力信号（疑似的な音声）を増幅し、スピーカ１３に出力する。

次に、図５のフローチャートを参照して、音声生成ソフトウェアが実行する音声生成処理について説明する。

この処理を開始するにあたり、音声生成ソフトウェアの起動に伴って、表示部１２には、図２に示したような音声生成GUIが表示されている。

ステップＳ１において、座標値検出部３１は、音声生成GUI上で操作が開始されたか否かを判定し、音声生成GUI上で操作が開始されるまで待機する。操作の開始とは、例えば、ユーザによりマウス１１Ａが押下されることである。また後述する、操作の終了とは、マウス１１Ａが押下されたままドラッグされた後（軌跡が描かれた後）、押下が解除されることである。

ステップＳ１において、座標値検出部３１は、音声生成GUI上で操作が開始された、すなわち、マウス１１Ａが押下されたと判定した場合、ステップＳ２に進み、第１ホルマント周波数と第２ホルマント周波数の２次元平面上におけるＸＹ座標値を検出する。またこのとき、ユーザの操作によって図示せぬON/OFFスイッチからオン信号が供給され、音源生成部２１から基本周波数の音声データ（基本音声データ）が出力される。

ステップＳ３において、第１ホルマント共振器３２は、音源生成部２１から入力された基本音声データを、ステップＳ２の処理によって検出された、第１ホルマント周波数と第２ホルマント周波数の２次元平面上におけるＸ座標値に対応する第１ホルマント周波数で共振させる。

ステップＳ４において、第２ホルマント共振器３３は、ステップＳ３の処理によって第１ホルマント周波数で共振された音声データを、ステップＳ２の処理によって検出された、第１ホルマント周波数と第２ホルマント周波数の２次元平面上におけるＹ座標値に対応する第２ホルマント周波数で共振させる。

ステップＳ５において、D/A変換器２３は、ステップＳ４の処理によって第２ホルマント共振器３３で共振された音声データをD/A変換する。増幅器２４は、D/A変換された出力信号を増幅し、疑似的な音声、すなわち、第１ホルマント周波数と第２ホルマント周波数の変化に応じて模倣された母音をスピーカ１３から発声させる。

ステップＳ６において、座標値検出部３１は、音声生成GUI上で操作が終了されたか否か、すなわち、マウス１１Ａの押下が解除されたか否かを判定し、まだ操作が終了していないと判定した場合、ステップＳ２に戻り、上述した処理を繰り返し実行する。そして、ステップＳ６において、座標値検出部３１は、音声生成GUI上で操作が終了したと判定した場合、音声生成処理を終了する。

［発明の第１の実施の形態における効果］
以上のように、第１の実施の形態によれば、マウス１１Ａやタッチパッド１１Ｂなどを用いて、直感的な操作で、疑似的な音声をリアルタイムに生成することが可能となる。

また、音声生成部２２は、第１ホルマント周波数と第２ホルマント周波数の値を通じて、発声時の顎の開閉具合や舌の位置による調音位置をシミュレートしているため、生成できる音声は、日本語５母音に限らず、外国語の各種母音や、日本語として意味をなさない音声を生成させることも可能となる。

さらに、マウス１１Ａやタッチパッド１１Ｂによる操作軌跡と操作速度を適当に選択することによって、半母音や鼻音に似た音声を生成することも可能である。

［本発明の第２の実施の形態］
次に、本発明の第２の実施の形態について、図６および図７を参照して説明する。

図６は、第２の実施の形態としての操作バー５１と携帯型の音声生成装置５２の接続例を示し、図７は、操作バー５１と携帯型の音声生成装置５２の内部の構成例を示すブロック図である。

操作バー５１には、図７に示すように、回転素子または振動素子などを内蔵したジャイロセンサ６１が搭載されている。ジャイロセンサ６１は、Ｘ軸方向、Ｙ軸方向、Ｚ軸方向の加速度をそれぞれ検出し、検出結果を音声生成装置５２に出力する。音声生成装置５２は、予め、空間上における操作バー５１の動作（移動方向と移動量）に応じて、第１ホルマント周波数と第２ホルマント周波数の２次元平面上における分布を対応させた情報を記憶しており、操作バーの動作に応じて疑似的な音声を生成する。

音声生成装置５２は、電源部７１、音声生成部７２、およびスピーカ７３を有している。

電源部７１は、例えば、電池あるいはバッテリであり、音声生成部７２やスピーカ７３などへ電力を供給する。

音声生成部７２は、第１の実施の形態において図４に示した機能を有しており、操作バー５１の動作（検出結果）から、第１ホルマント周波数と第２ホルマント周波数の２次元平面上におけるＸＹ座標値を検出し、検出したＸ座標値で規定されている第１ホルマント周波数の音声と、Ｙ座標値で規定されている第２ホルマント周波数の音声とを合成し、合成した疑似的な音声をスピーカ７３から発声させる。

［発明の第２の実施の形態における効果］
以上のように、第２の実施の形態によれば、操作バー５１を用いて、直感的な操作で、疑似的な音声をリアルタイムに生成することが可能となる。

［変形例］
１．以上においては、入力デバイスとして、マウス１１Ａ、タッチパッド１１Ｂ、および操作バー５１を用いる場合を例に説明したが、他にも、タッチペンやジョイスティックなどを利用することも勿論可能である。つまり、ユーザの症例に合わせて入力デバイスを切り替えるようにすることが好ましい。

２．また、操作バー５１にジャイロセンサ６１を搭載するようにしたが、加圧センサをさらに搭載することにより、操作バー５１を握る量に応じて周波数を変化させ、生成する音声に抑揚を持たせることも可能である。

３．さらに、音源生成部２１で生成する基本周波数の音声データの種類を変更することにより、男性の声、女性の声など様々な音声を生成することが可能となる。

４．なお、上述において、第１ホルマント周波数と第２ホルマント周波数を組み合わせることにより、母音を疑似的に生成することができるが、本実施の形態はこれに限定されず、第３ホルマント周波数と第４ホルマント周波数をさらに組み合わせることにより、声の性質や特徴をも加味することが可能である。

５．また、以上においては、母音の組み合わせで疑似的な音声を生成するようにしたが、さらに子音を組み合わせることにより、より自然な音声を生成することが可能となる。

図８は、より高品質な音声を生成する音声生成装置１の機能構成例を示すブロック図である。なお、図４に示した構成要素と同一の構成要素には同一の符号を付してあり、重複する説明は適宜省略する。

図８に示す音声生成装置１には、音源生成部２１、音声生成部２２、D/A変換器２３、増幅器２４の他、加算器２５、乱流音生成部２６、加算器２７、鼻音生成部２８、およびハイパスフィルタ（HPF）３４が新たに設けられている。

音声生成部２２には、座標値検出部３１、第１ホルマント共振器３２、第２ホルマント共振器３３の他、第３ホルマント共振器３５および第４ホルマント共振器３６が新たに設けられている。また、鼻音生成部２８には、鼻音生成用共振器３７が設けられている。

座標値検出部３１は、入力デバイス１１からの入力信号に基づいて、第１ホルマント周波数と第２ホルマント周波数の２次元平面上におけるＸＹ座標値を検出し、検出したＸ座標値を第１ホルマント共振器３２および乱流音生成部２６の第１ホルマント共振器８６に出力し、検出したＹ座標値を第２ホルマント共振器３３および乱流音生成部２６の第２ホルマント共振器８７に出力する。

また座標値検出部３１は、入力デバイス１１からの入力信号に基づいて、第３ホルマント周波数と第４ホルマント周波数の２次元平面上におけるＸＹ座標値を検出し、検出したＸ座標値を第３ホルマント共振器３５および乱流音生成部２６の第３ホルマント共振器８８に出力し、検出したＹ座標値を第４ホルマント共振器３６および乱流音生成部２６の第４ホルマント共振器８９に出力する。さらに座標値検出部３１は、入力デバイス１１からの入力信号に基づいて、鼻音の有無を判断し、その判断結果を鼻音生成部２８の鼻音生成用共振器３７を通知する。たとえば、図３の例において、「ｕ」のやや左側から「ｉ」付近の位置に向かう軌跡を描くようにマウス１１Ａが操作されたとき、「み」に近い音（鼻音を含む音）が発生されるので、入力信号からそのような軌跡が検出された場合は、鼻音の有と判断され、その判断結果が、鼻音生成部２８の鼻音生成用共振器３７に通知される。

ハイパスフィルタ３４は、音源生成部２１からの基本周波数の音声データのうち、高周波を通過させ、遮断周波数より低い周波数の帯域を減衰させた後、第１ホルマント共振器３２および鼻音生成用共振器３７に出力する。

第１ホルマント共振器３２、第２ホルマント共振器３３、第３ホルマント共振器３５、および第４ホルマント共振器３６は、音源生成部２１で生成されハイパスフィルタ３４で低周波成分が除去された音声データを、座標値検出部３１からの入力情報に対応してそれぞれの共振周波数で共振させる。鼻音生成用共振器３７は、鼻音の有の旨が、座標値検出部３１から通知されると、音源生成部２１で生成された音声データを所定の共振周波数で共振させて鼻音となる音声データを生成する。

加算器２５は、第１ホルマント共振器３２、第２ホルマント共振器３３、第３ホルマント共振器３５、および第４ホルマント共振器３６のそれぞれのホルマント周波数で共振された音声データと、鼻音生成用共振器３７の共振周波数で共振された音声データを加算する。

乱流音生成部２６は、疑似乱数発生器８１乃至８５、第１ホルマント共振器８６、第２ホルマント共振器８７、第３ホルマント共振器８８、および第４ホルマント共振器８９を有する。

疑似乱数発生器８１乃至８４は、摩擦音などの子音を合成するための音源を疑似乱数によって生成し、第１ホルマント共振器８６、第２ホルマント共振器８７、第３ホルマント共振器８８、第４ホルマント共振器８９にそれぞれ供給する。疑似乱数発生器８５は、声道での共鳴を伴わない子音を合成するための音源を疑似乱数によって生成し、第４ホルマント共振器８９の出力後段に供給している。

第１ホルマント共振器８６は、疑似乱数発生器８１で生成された子音用の音源データを、座標検出部３１からの入力情報に対応する第１ホルマント周波数で共振させる。

第２ホルマント共振器８７は、第１ホルマント共振器８６から出力された音声データ、及び、疑似乱数発生器８２で生成された子音用の音源データを、座標検出部３１からの入力情報に対応する第２ホルマント周波数で共振させる。

第３ホルマント共振器８８は、第２ホルマント共振器８７から出力された音声データ、及び、疑似乱数発生器８３で生成された子音用の音源データを、座標検出部３１からの入力情報に対応する第３ホルマント周波数で共振させる。

第４ホルマント共振器８９は、第３ホルマント共振器８８から出力された音声データ、及び、疑似乱数発生器８４で生成された子音用の音源データを、座標検出部３１からの入力情報に対応する第４ホルマント周波数で共振させる。

加算器２７は、加算器２５から出力された音声データと乱流音生成部２６から出力された音声データを加算する。D/A変換器２３は、加算器２７から入力された音声データをD/A変換し、増幅器２４を介してスピーカ１３に出力する。

以上のような構成によって、第１ホルマント周波数および第２ホルマント周波数だけでなく、第３ホルマント周波数および第４ホルマント周波数を組み合わせた音声を生成することが可能となる。また、鼻音と乱流音の音声データを組み合わせることにより、鼻音化された母音や、摩擦音などの子音を含んだより自然な音声を生成することが可能となる。

６．上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

図９は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、CPU１０１，ROM１０２，RAM１０３、および入出力インターフェース１０４は、バス１０５により相互に接続されている。

入出力インターフェース１０４には、さらに、キーボード、マウス、タッチパッド、操作バー、マイクロホンなどよりなる入力部１０６、ディスプレイ、スピーカなどよりなる出力部１０７、ハードディスクや不揮発性のメモリなどよりなる記憶部１０８、ネットワークインタフェースなどよりなる通信部１０９、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア１１１を駆動するドライブ１１０が接続されている。

以上のように構成されるコンピュータでは、CPU１０１が、例えば、記憶部１０８に記憶されているプログラムを、入出力インターフェース１０４およびバス１０５を介して、RAM１０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU１０１）が実行するプログラムは、例えば、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等）、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア１１１に記録して、あるいは、ローカルエリアネットワーク、インタネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。

そして、プログラムは、リムーバブルメディア１１１をドライブ１１０に装着することにより、入出力インターフェース１０４を介して、記憶部１０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部１０９で受信し、記憶部１０８にインストールすることができる。その他、プログラムは、ROM１０２や記憶部１０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。また、プログラムを実行するハードウェアとして、汎用コンピュータの他に、携帯電話、ゲーム端末、電子音楽プレーヤ、電子書籍リーダなどを利用しても良い。

７．この発明は、上記実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化したり、上記実施の形態に開示されている複数の構成要素を適宜組み合わせたりすることにより種々の発明を形成できる。例えば、実施の形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施の形態に亘る構成要素を適宜組み合わせても良い。

１音声生成装置
１１入力デバイス
１２表示部
１３スピーカ
２１音源生成部
２２音声生成部

Claims

基本周波数の音声データを生成する音源生成手段と、
入力手段の操作に基づいて座標値を検出する座標値検出手段と、
前記音源生成手段で生成された前記基本周波数の音声データを、前記座標値検出手段により検出された前記座標値に対応する第１の周波数で共振させる第１の共振手段と、
前記第１の共振手段により共振された前記音声データを、前記座標値検出手段により検出された前記座標値に対応する第２の周波数で共振させる第２の共振手段と
を備えることを特徴とする音声生成装置。
前記第１の周波数と前記第２の周波数の２次元平面上における分布を表示する表示手段をさらに備え、
前記座標値検出手段は、前記表示手段上で行われた前記入力手段の操作に基づく座標値を検出する
ことを特徴とする請求項１に記載の音声生成装置。
前記第１の周波数は、第１ホルマント周波数であり、前記第２の周波数は、第２ホルマント周波数であり、
前記座標値検出手段は、前記第１ホルマント周波数と前記第２ホルマント周波数の２次元平面上におけるＸ座標値とＹ座標値を検出する
ことを特徴とする請求項１または請求項２に記載の音声生成装置。
前記第２の共振手段により共振された前記音声データを出力する出力手段をさらに備える
ことを特徴とする請求項１乃至請求項３のいずれかに記載の音声生成装置。
基本周波数の音声データを生成する音源生成ステップと、
入力手段の操作に基づいて座標値を検出する座標値検出ステップと、
前記音源生成ステップで生成された前記基本周波数の音声データを、前記座標値検出ステップにより検出された前記座標値に対応する第１の周波数で共振させる第１の共振ステップと、
前記第１の共振ステップにより共振された前記音声データを、前記座標値検出ステップにより検出された前記座標値に対応する第２の周波数で共振させる第２の共振ステップと
を含む処理をコンピュータに実行させることを特徴とするプログラム。