本発明の実施形態に係る音声合成装置および音声合成プログラムについて、図面を参照しながら説明する。なお、以下の説明において、同一の構成については同一の名称及び符号を付し、詳細説明を省略する。
[第1実施形態]
以下、第1実施形態に係る音声合成装置1について、図1〜図3を参照しながら詳細に説明する。音声合成装置1は、文字入力装置2の入力内容に対応した音声を合成するものである。音声合成装置1は、具体的には、図1に示すように、文字入力装置2の入力内容に対応した音声をリアルタイムで合成し、合成した音声を音声出力装置3に出力する。
ここで、文字入力装置2は、音声合成装置1に対して、合成すべき音声に対応する文字を入力するものである。文字入力装置2は、ここでは図2に示すように、かな文字キー2a、濁点キー2b、半濁点キー2c、ア行(あ行)小文字キー2d、ヤ行(や行)小文字キー2eおよびタ行(た行)小文字キー2f、のキー配列を備えるキーボード等を装置を想定している。但し、当該文字入力装置2のキー配列は、図2に示すものに限られない。
文字入力装置2は、音声を合成しようとする操作者によって、かな文字キー2a、濁点キー2b、半濁点キー2c、ア行小文字キー2d、ヤ行小文字キー2eおよびタ行小文字キー2fのいずれかのキーが押されると、対応するキーコードを音声合成装置1に出力する。ここで、キーコードとは、操作者によって押された文字入力装置2のキーを識別するためのコードであり、例えば、「あ=1」、「い=2」、「う=3」等の数字で表わされるものである。
また、音声出力装置3は、音声合成装置1が合成した音声を再生するものである。音声出力装置3は、ここでは音声を再生できるスピーカー等の装置を想定している。音声出力装置3には、音声合成装置1から、合成した音声の音声波形が入力される。そして、音声出力装置3は、当該音声波形を出力することで、合成音声を再生する。
音声合成装置1は、ここでは図1に示すように、清音撥音判別手段11と、濁音判別手段12と、半濁音判別手段13と、拗音判別手段14と、促音付き音節判別手段15と、を備えている。以下、音声合成装置1を構成する各要素について、詳細に説明する。
清音撥音判別手段11は、文字入力装置2から入力されたキーコードから、清音文字または撥音文字を判別するものである。すなわち、清音撥音判別手段11は、文字入力装置2から、かな文字キー2a(図2参照)のキーコードが入力されたか否かを監視し、かな文字キー2aが押下されている状態を検出することで、当該かな文字キー2aのキーコードで特定される清音文字または撥音文字を判別する。
清音撥音判別手段11は、具体的には、文字入力装置2からキーコードが入力されると、当該キーコードの数が1つであるか否かを判別する。そして、清音撥音判別手段11は、キーコードの数が1つである場合、文字入力装置2に配列されたキーと、キーコードと、の対応関係が記述された図示しない対応表を参照し、入力されたキーコードがかな文字キー2aに対応するものであるかを判別する。
そして、清音撥音判別手段11は、キーコードがかな文字キー2aに対応する場合、当該かな文字キー2aが示す清音文字または撥音文字を前記した対応表を用いて特定し、これを音節情報として音声合成手段17に出力する。なお、前記した対応表は、図示しない記憶手段に予め記憶されている。
一方、清音撥音判別手段11は、文字入力装置2から入力されたキーコードが2つ以上である場合、すなわち、複数のキーコードが同時に入力された場合、そこで処理を終了する。また、清音撥音判別手段11は、文字入力装置2から、かな文字キー2aに対応するキーコードが入力されていない場合も、処理を終了する。
清音撥音判別手段11には、図1に示すように、文字入力装置2から、キーコードが入力される。そして、清音撥音判別手段11は、前記した手法によって清音文字または撥音文字の音節情報を生成し、これを音声合成手段17に出力する。
濁音判別手段12は、文字入力装置2から入力されたキーコードから、濁音文字を判別するものである。すなわち、濁音判別手段12は、文字入力装置2からかな文字キー2a(図2参照)のキーコードと濁点キー2bのキーコードとが入力されたか否かを監視し、かな文字キー2aのキーコードと濁点キー2bのキーコードとが同時に押下されている状態を検出することで、これらのキーコードで特定される濁音文字を判別する。
濁音判別手段12は、具体的には、文字入力装置2からキーコードが入力されると、当該キーコードの数が2つであるか否か、および、当該2つのキーコードが同時に入力されたか否かを判別する。そして、濁音判別手段12は、キーコードの数が2つであり、かつ、これらが同時に入力された場合、前記した図示しない対応表を参照し、入力された2つのキーコードが、「か行、さ行、た行、は行」のかな文字キー2aおよび濁点キー2bに対応するものであるか否かを判別する。そして、濁音判別手段12は、キーコードが「か行、さ行、た行、は行」のかな文字キー2aおよび濁点キー2bに対応する場合、これらのキーが示す濁音文字を特定し、これを音節情報として音声合成手段17に出力する。
濁音判別手段12は、例えば、文字入力装置2から「ひ」のかな文字キー2aに対応するキーコードと、濁点キー2bに対応するキーコードと、が同時に入力された場合、濁音文字の「び」を特定し、これを音節情報として音声合成手段17に出力する。
一方、濁音判別手段12は、文字入力装置2から入力されたキーコードが1つのみであるか3つ以上である場合、あるいは、文字入力装置2から2つのキーコードが同時に入力されなかった場合、そこで処理を終了する。また、濁音判別手段12は、文字入力装置2から、「か行、さ行、た行、は行」のかな文字キー2aまたは濁点キー2bに対応するキーコードが入力されていない場合も、処理を終了する。
濁音判別手段12には、図1に示すように、文字入力装置2から、キーコードが入力される。そして、濁音判別手段12は、前記した手法によって濁音文字の音節情報を生成し、これを音声合成手段17に出力する。
半濁音判別手段13は、文字入力装置2から入力されたキーコードから、半濁音文字を判別するものである。すなわち、半濁音判別手段13は、文字入力装置2からかな文字キー2a(図2参照)のキーコードと半濁点キー2cのキーコードとが入力されたか否かを監視し、当該かな文字キー2aのキーコードと半濁点キー2cのキーコードとが同時に押下されている状態を検出することで、これらのキーコードで特定される半濁音文字を判別する。
半濁音判別手段13は、具体的には、文字入力装置2からキーコードが入力されると、当該キーコードの数が2つであるか否か、および、当該2つのキーコードが同時に入力されたか否かを判別する。そして、半濁音判別手段13は、キーコードの数が2つであり、かつ、これらが同時に入力された場合、前記した図示しない対応表を参照し、入力された2つのキーコードが、「は行」のかな文字キー2aおよび半濁点キー2cに対応するものであるか否かを判別する。そして、半濁音判別手段13は、キーコードが「は行」のかな文字キー2aおよび半濁点キー2cに対応する場合、これらのキーが示す半濁音文字を特定し、これを音節情報として音声合成手段17に出力する。
半濁音判別手段13は、例えば、文字入力装置2から「ひ」のかな文字キー2aに対応するキーコードと、半濁点キー2cに対応するキーコードと、が同時に入力された場合、半濁音文字の「ぴ」を特定し、これを音節情報として音声合成手段17に出力する。
一方、半濁音判別手段13は、文字入力装置2から入力されたキーコードが1つのみであるか3つ以上である場合、あるいは、文字入力装置2から2つのキーコードが同時に入力されなかった場合、そこで処理を終了する。また、半濁音判別手段13は、文字入力装置2から、「は行」のかな文字キー2aまたは半濁音キー2cに対応するキーコードが入力されていない場合も、処理を終了する。
半濁音判別手段13には、図1に示すように、文字入力装置2から、キーコードが入力される。そして、半濁音判別手段13は、前記した手法によって半濁音文字の音節情報を生成し、これを音声合成手段17に出力する。
拗音判別手段14は、文字入力装置2から入力されたキーコードから、拗音文字を判別するものである。すなわち、拗音判別手段14は、文字入力装置から、少なくともかな文字キー2a(図2参照)のキーコードとア行小文字キー2dのキーコードとが入力されたか否かを監視し、かな文字キー2aのキーコードとア行小文字キー2dとが同時に押下されている状態を検出することで、これらのキーコードで特定される拗音文字を判別する。また、拗音判別手段14は、文字入力装置から、少なくともかな文字キー2aのキーコードとヤ行小文字キー2eのキーコードとが入力されたか否かを監視するとともに、かな文字キー2aのキーコードとヤ行小文字キー2eとが同時に押下されている状態を検出することで、これらのキーコードで特定される拗音文字を判別する。
拗音判別手段14は、具体的には、文字入力装置2からキーコードが入力されると、当該キーコードの数が2つ以上であるか否か、および、当該2つ以上のキーコードが同時に入力されたか否かを判別する。そして、拗音判別手段14は、キーコードの数が2つ以上であり、かつ、これらが同時に入力された場合、前記した図示しない対応表を参照し、入力された2つ以上のキーコードが、少なくとも「か行、さ行、た行、な行、は行、ま行、ら行」のかな文字キー2aおよびア行小文字キー2dに対応するものであるか否か、あるいは、少なくとも「か行、さ行、た行、な行、は行、ま行、ら行」のかな文字キー2aおよびヤ行小文字キー2eに対応するものであるか否かを判別する。そして、拗音判別手段14は、キーコードが少なくとも「か行、さ行、た行、な行、は行、ま行、ら行」のかな文字キー2aおよびア行小文字キー2dに対応するか、あるいは、少なくとも「か行、さ行、た行、な行、は行、ま行、ら行」のかな文字キー2aおよびヤ行小文字キー2eに対応する場合、これらのキーが示す拗音文字を特定し、これを音節情報として音声合成手段17に出力する。
拗音判別手段14は、例えば、文字入力装置2から「ふ」のかな文字キー2aに対応するキーコードと、「ぃ」のア行小文字キー2dに対応するキーコードと、が同時に入力された場合、拗音文字の「ふぃ」を特定し、これを音節情報として音声合成手段17に出力する。また、拗音判別手段14は、例えば、文字入力装置2から「ひ」のかな文字キー2aに対応するキーコードと、「ゃ」のヤ行小文字キー2eに対応するキーコードと、が同時に入力された場合、拗音文字の「ひゃ」を特定し、これを音節情報として音声合成手段17に出力する。また、拗音判別手段14は、例えば、文字入力装置2から「ひ」のかな文字キー2aに対応するキーコードと、濁点キー2bに対応するキーコードと、「ゃ」のヤ行小文字キー2eに対応するキーコードと、が同時に入力された場合、拗音文字の「びゃ」を特定し、これを音節情報として音声合成手段17に出力する。また、拗音判別手段14は、例えば、文字入力装置2から「ひ」のかな文字キー2aに対応するキーコードと、半濁点キー2cに対応するキーコードと、「ゃ」のヤ行小文字キー2eに対応するキーコードと、が同時に入力された場合、拗音文字の「ぴゃ」を特定し、これを音節情報として音声合成手段17に出力する。
一方、拗音判別手段14は、文字入力装置2から入力されたキーコードが1つのみである場合、あるいは、文字入力装置2から2つ以上のキーコードが同時に入力されなかった場合、そこで処理を終了する。また、拗音判別手段14は、文字入力装置2から、「か行、さ行、た行、な行、は行、ま行、ら行」のかな文字キー2a、ア行小文字キー2dまたはヤ行小文字キー2eに対応するキーコードが入力されていない場合も、処理を終了する。
拗音判別手段14には、図1に示すように、文字入力装置2から、キーコードが入力される。そして、拗音判別手段14は、前記した手法によって拗音文字の音節情報を生成し、これを音声合成手段17に出力する。
促音付き音節判別手段15は、文字入力装置2から入力されたキーコードから、促音付き音節文字を判別するものである。すなわち、促音付き音節判別手段15は、文字入力装置2から少なくともかな文字キー2a(図2参照)のキーコードとタ行小文字キー2fのキーコードとが入力されたか否かを監視し、かな文字キー2aのキーコードとタ行小文字キー2fとが同時に押下されている状態を検出することで、これらのキーコードで特定される促音付き音節文字を判別する。なお、促音付き音節文字とは、「ひっ」等の促音が付いた清音文字、「びっ」等の促音が付いた濁音文字、「ぴっ」等の促音が付いた半濁音文字、「ひゃっ、びゃっ、ぴゃっ」等の促音が付いた拗音文字等を含む音節文字のことを意味している。
促音付き音節判別手段15は、具体的には、文字入力装置2からキーコードが入力されると、当該キーコードの数が2つ以上であるか否か、および、当該2つ以上のキーコードが同時に入力されたか否かを判別する。そして、促音付き音節判別手段15は、キーコードの数が2つ以上であり、かつ、これらが同時に入力された場合、前記した図示しない対応表を参照し、入力された2つ以上のキーコードが、少なくとも「を、ん」以外のかな文字キー2aおよびタ行小文字キー2fに対応するものであるか否かを判別する。そして、促音付き音節判別手段15は、キーコードが少なくとも「を、ん」以外のかな文字キー2aおよびタ行小文字キー2fに対応する場合、これらのキーが示す促音付き音節文字を特定し、これを音節情報として音声合成手段17に出力する。
促音付き音節判別手段15は、例えば、文字入力装置2から「ひ」のかな文字キー2aに対応するキーコードと、「っ」のタ行小文字キー2fに対応するキーコードと、が同時に入力された場合、促音付き清音文字の「ひっ」を特定し、これを音節情報として音声合成手段17に出力する。また、促音付き音節判別手段15は、例えば、文字入力装置2から「ひ」のかな文字キー2aに対応するキーコードと、濁音キー2bに対応するキーコードと、「っ」のタ行小文字キー2fに対応するキーコードと、が同時に入力された場合、促音付き濁音文字の「びっ」を特定し、これを音節情報として音声合成手段17に出力する。また、促音付き音節判別手段15は、例えば、文字入力装置2から「ひ」のかな文字キー2aに対応するキーコードと、半濁音キー2cに対応するキーコードと、「っ」のタ行小文字キー2fに対応するキーコードと、が同時に入力された場合、促音付き半濁音文字の「ぴっ」を特定し、これを音節情報として音声合成手段17に出力する。
また、促音付き音節判別手段15は、例えば、文字入力装置2から「ひ」のかな文字キー2aに対応するキーコードと、「ゃ」のヤ行小文字キー2eに対応するキーコードと、「っ」のタ行小文字キー2fに対応するキーコードと、が同時に入力された場合、促音付き拗音文字の「ひゃっ」を特定し、これを音節情報として音声合成手段17に出力する。また、促音付き音節判別手段15は、例えば、文字入力装置2から「ひ」のかな文字キー2aに対応するキーコードと、濁音キー2bに対応するキーコードと、「ゃ」のヤ行小文字キー2eに対応するキーコードと、「っ」のタ行小文字キー2fに対応するキーコードと、が同時に入力された場合、促音付き拗音文字の「びゃっ」を特定し、これを音節情報として音声合成手段17に出力する。また、促音付き音節判別手段15は、例えば、文字入力装置2から「ひ」のかな文字キー2aに対応するキーコードと、半濁音キー2cに対応するキーコードと、「ゃ」のヤ行小文字キー2eに対応するキーコードと、「っ」のタ行小文字キー2fに対応するキーコードと、が同時に入力された場合、促音付き拗音文字の「ぴゃっ」を特定し、これを音節情報として音声合成手段17に出力する。
一方、促音付き音節判別手段15は、文字入力装置2から入力されたキーコードが1つのみである場合、あるいは、文字入力装置2から2つ以上のキーコードが同時に入力されなかった場合、そこで処理を終了する。また、促音付き音節判別手段15は、文字入力装置2から、「を、ん」以外のかな文字キー2aまたはタ行小文字キー2fに対応するキーコードが入力されていない場合も、処理を終了する。
促音付き音節判別手段15には、図1に示すように、文字入力装置2から、キーコードが入力される。そして、促音付き音節判別手段15は、前記した手法によって促音付き音節文字の音節情報を生成し、これを音声合成手段17に出力する。
音声波形記憶手段16は、清音、撥音、半濁音、拗音および促音付き音節からなる各音節の音声波形を予め記憶するものである。音声波形記憶手段16は、具体的には、データを記憶することができるメモリ、ハードディスク等で具現される。音声波形記憶手段16は、図1に示すように、音声合成手段17に対して、清音、撥音、半濁音、拗音および促音付き音節からなる各音節の音声波形を出力する。
音声合成手段17は、前記した各判別手段の判別結果に従って、音声を合成するものである。すなわち、音声合成手段17は、音声波形記憶手段16から、清音撥音判別手段11、濁音判別手段12、半濁音判別手段13、拗音判別手段14および促音付き音節判別手段15からなる各判別手段によって判別された清音文字、撥音文字、半濁音文字、拗音文字および促音付き音節文字からなる各音節文字に対応する音声波形を抽出することで、音声を合成する。
音声合成手段17は、例えば、清音撥音判別手段11から、清音文字の「は」の音節情報が入力された場合、音声波形記憶手段16から、「は」の音声波形を抽出し、音声出力装置3に出力する。また、音声合成手段17は、例えば、濁音判別手段12から、濁音文字の「び」の音節情報が入力された場合、音声波形記憶手段16から、「び」の音声波形を抽出し、音声出力装置3に出力する。また、音声合成手段17は、例えば、半濁音判別手段13から、半濁音文字の「ぴ」の音節情報が入力された場合、音声波形記憶手段16から、「ぴ」の音声波形を抽出し、音声出力装置3に出力する。
また、音声合成手段17は、例えば、拗音判別手段14から、拗音文字の「ふぃ」の音節情報が入力された場合、音声波形記憶手段16から、「ふぃ」の音声波形を抽出し、音声出力装置3に出力する。また、音声合成手段17は、例えば、促音付き音節判別手段15から、促音つき清音文字の「ひっ」の音節情報が入力された場合、音声波形記憶手段16から、「ひっ」の音声波形を抽出し、音声出力装置3に出力する。このように、音声合成手段17は、文字入力装置2のキーが押されたタイミングで音声を合成する。そして、音声出力装置3は、音声合成手段17から入力された音声波形に基づいて、逐次音声を再生する。
音声合成手段17には、清音撥音判別手段11、濁音判別手段12、半濁音判別手段13、拗音判別手段14および促音付き音節判別手段15から、音節情報が入力される。そして、音声合成手段17は、前記した手法によって音声を合成し、これを音声出力装置3に出力する。
以上のような構成を備える音声合成装置1は、前記したように、各判別手段によって、文字入力装置2のキー入力状況を常時監視する。そして、音声合成装置1は、操作者によって文字入力装置2のいずれかのキーが押され、当該キーに対応するキーコードが入力されると、各判別手段によって、そのキーコードに対応する音節文字を判別するとともに、音声合成手段17によって、判別した音節文字に対応する音声を逐次合成する。
従って、音声合成装置1によれば、文字入力装置2の入力内容に対応した音声を逐次合成するため、従来の音声合成装置が備える入力完了ボタンが不要となり、かつ、音声を合成して再生するまでの時間も短縮させることができる。また、音声合成装置1によれば、文字入力装置2からかな文字キー2aのキーコードと濁点キー2b等のキーコードとが同時に入力された場合のみ、濁音等の音節を合成するため、濁音等の音声が誤って合成されることがなく、音声合成の精度を向上させることができる。
[音声合成出プログラム]
ここで、音声合成装置1は、一般的なコンピュータを、前記した各手段および各部として機能させるプログラムにより動作させることで実現することができる。このプログラムは、通信回線を介して配布することも可能であるし、CD−ROM等の記録媒体に書き込んで配布することも可能である。
[音声合成装置1の動作]
以下、音声合成装置1の動作について、図3を参照しながら簡単に説明する。ここで、以下で説明する音声合成装置1の動作は、操作者が文字入力装置2のいずれかのキーを1回のみ押した場合における音声合成装置1側の動作を示している。
まず、清音撥音判別手段11、濁音判別手段12、半濁音判別手段13、拗音判別手段14および促音付き音節判別手段15が、文字入力装置2から、かな文字キー2a、濁点キー2b、半濁点キー2c、ア行小文字キー2d、ヤ行小文字キー2eおよびタ行小文字キー2fのキーコードの入力があるか否かを監視する(ステップS1)。
次に、文字入力装置2から、操作者が押したキーに対応するキーコードが清音撥音判別手段11、濁音判別手段12、半濁音判別手段13、拗音判別手段14および促音付き音節判別手段15のそれぞれに入力されると、各判別手段が、入力されたキーコードが清音文字、撥音文字、濁音文字、半濁音文字、拗音文字または促音付き音節文字のいずれの音節文字に対応するものであるかを判別する(ステップS2)。
次に、音声合成手段17が、音声波形記憶手段16から、清音撥音判別手段11、濁音判別手段12、半濁音判別手段13、拗音判別手段14または促音付き音節判別手段15が判別した前記音節文字に対応する音声波形を抽出し、これを音声出力装置3に出力する(ステップS3)。
[第2実施形態]
以下、第2実施形態に係る音声合成装置1Aについて、図4〜図6を参照しながら詳細に説明する。第2実施形態に係る音声合成装置1Aは、図4に示す繰り返し信号出力手段18と、繰り返し波形記憶手段19と、を備え、かつ、文字入力装置2の代わりに文字入力装置2Aを用いること以外は、前記した第1実施形態に係る音声合成装置1と同様の構成を備えている。従って、前記した音声合成装置1と重複する構成については、同じ符号を付して説明を省略する。
文字入力装置2Aは、音声合成装置1Aに対して、前記したキーコードの他に、メイクコードとブレイクコードとを出力することを特徴としている。ここで、メイクコードとは、操作者が文字入力装置2Aのキーを押した時に出力されるコードであり、操作者が文字入力装置2Aのいずれかのキーを押したことを示すものである。また、ブレイクコードとは、操作者が文字入力装置2Aのキーを離した時に出力されるコードであり、操作者が文字入力装置2Aのいずれかのキーを離したことを示すものである。すなわち、文字入力装置2Aからメイクコードが入力されてからブレイクコードが入力されるまでの間は、操作者によっていずれかのキーが継続して押されている状態(押しっぱなしの状態)であることを意味している。
繰り返し信号出力手段18は、所定の条件下において、音声合成手段17に対して繰り返し開始信号または繰り返し終了信号を出力するものである。繰り返し信号出力手段18は、具体的には、文字入力装置2Aからメイクコードおよびブレイクコードが入力されたか否かを監視することで、操作者が文字入力装置2Aのキーを押したタイミングと、操作者が文字入力装置2Aのキーを離したタイミングと、を認識する。
そして、繰り返し信号出力手段18は、文字入力装置2Aからメイクコードが入力された場合は、繰り返し開始信号を生成し、これを音声合成手段17に出力する。ここで、繰り返し開始信号とは、文字入力装置2Aからメイクコードが入力された場合(操作者が文字入力装置2Aのいずれかのキーを押した場合)に、音声合成手段17に対して、音声波形の繰り返し区間で、繰り返し波形を繰り返し連結する旨を指示するための信号である。
また、繰り返し信号出力手段18は、文字入力装置2Aからブレイクコードが入力された場合は、繰り返し終了信号を生成し、これを音声合成手段17に出力する。ここで、繰り返し終了信号とは、文字入力装置2Aからブレイクコードが入力された場合(操作者が文字入力装置2Aのいずれかのキーを離した場合)に、音声合成手段17に対して、音声波形に繰り返し波形を連結することを終了する旨を指示するための信号である。
繰り返し信号出力手段18には、図4に示すように、文字入力装置2Aから、メイクコードおよびブレイクコードが入力される。そして、繰り返し信号出力手段18は、前記した手法によって繰り返し開始信号および繰り返し終了信号を生成し、これを音声合成手段17に出力する。
繰り返し波形記憶手段19は、清音、撥音、濁音、半濁音、拗音および促音付き音節からなる各音節の音声波形のうち、母音に相当する区間における数周期分の波形を示す繰り返し波形を予め記憶するものである。以下、繰り返し波形について、図5(a)を参照しながら簡単に説明する。なお、図5(a)の音声波形は、説明の便宜上、波形の縮尺を誇張して示している。また、図5(a)に示す音声波形はあくまでも一例であり、波形の振幅、周期および長さは図5(a)に示すものに限定されない。
例えば、図5(a)に示す清音の「か」の音声波形(100msec)は、子音の「k」に相当する部分の波形(30msec)と、母音の「a」に相当する部分の波形(70msec)と、で構成される。そして、図5(a)に示すように、この母音の「a」に相当する部分の波形(70msec)は、類似した振幅および基本周期を有する波形(5msec)が複数集まって構成され、その数周期分の波形のことを、ここでは繰り返し波形と呼んでいる。
繰り返し波形記憶手段19は、具体的には、データを記憶することができるメモリ、ハードディスク等で具現される。繰り返し波形記憶手段19は、図4に示すように、音声合成手段17に対して、清音、撥音、半濁音、拗音および促音付き音節からなる各音節の繰り返し波形を出力する。
このような繰り返し信号出力手段18および繰り返し波形記憶手段19を備える音声合成装置1Aでは、音声合成手段17が、各判別手段から入力された音節情報に従って、音声波形記憶手段16から音声波形を抽出し、かつ、繰り返し信号出力手段18からの繰り返し開始信号に従って、繰り返し波形記憶手段19から前記した音声波形に対応する繰り返し波形を抽出する。そして、音声合成手段17は、繰り返し信号出力手段18から繰り返し終了信号が入力されるまで、音声波形の繰り返し区間で、繰り返し波形を繰り返し連結することで、音声を合成する。
音声合成手段17は、例えば、図5(b)に示すように、操作者が文字入力装置2Aの「か」のキーを1000msecの間継続して押した場合、音声波形記憶手段16から清音文字の「か」の音声波形を抽出するとともに、繰り返し波形記憶手段19から、清音文字の「か」の繰り返し波形を抽出する。そして、音声合成手段17は、70msecの「か」の音声波形の後に、5msecの「か」の繰り返し波形を186回連結することで、音声を合成する。このような処理を経た「か」の合成音声は、母音の「a」が長音化され、音声出力装置3によって出力すると、「かー」と再生されることになる。なお、1000msecの時点で操作者が文字入力装置2Aの「か」のキーを離すと、音声合成手段17は、図5(b)に示すように、繰り返し区間の残りである30msec分の波形を前記した繰り返し波形の後にさらに連結する。但し、この場合は、当該繰り返し区間の残りの波形の振幅を−20dbのレベルまで急激に減少させ、50msecで打ち切る。
以上のような構成を備える音声合成装置1Aは、繰り返し信号出力手段18によって、文字入力装置2Aからのメイクコードおよびブレイクコードの入力を常時監視することで、操作者が文字入力装置2Aのいずれかのキーを押している状態であるか、あるいは離している状態であるか、を認識する。そして、音声合成装置1Aは、操作者によって文字入力装置2Aのいずれかのキーが押されてから(メイクコードが入力されてから)、当該いずれかのキーが離されるまで(ブレイクコードが入力されるまで)、音声合成手段17によって、音声波形の繰り返し区間で、繰り返し波形を繰り返し連結することで、操作者が文字入力装置2Aのキーを押している間だけ、長音化した音声を合成する。
従って、音声合成装置1Aによれば、操作者が文字入力装置2Aのいずれかのキーを継続して押している場合、当該キーに対応する音節を長音化させて合成することができるため、音声合成のバリエーションを増やすことができる。
[音声合成装置1Aの動作]
以下、音声合成装置1Aの動作について、図6を参照しながら簡単に説明する。ここで、以下で説明する音声合成装置1Aの動作は、操作者が文字入力装置2Aのいずれかのキーを1回のみ押した場合における音声合成装置1A側の動作を示している。
まず、清音撥音判別手段11、濁音判別手段12、半濁音判別手段13、拗音判別手段14および促音付き音節判別手段15が、文字入力装置2Aから、かな文字キー2a、濁点キー2b、半濁点キー2c、ア行小文字キー2d、ヤ行小文字キー2e、および、タ行小文字キー2fのキーコードの入力があるか否かを監視する(ステップS11)。また、繰り返し信号出力手段18が、文字入力装置2Aから、メイクコードとブレイクコードの入力があるか否かを監視する(ステップS12)。
次に、文字入力装置2Aから、清音撥音判別手段11、濁音判別手段12、半濁音判別手段13、拗音判別手段14および促音付き音節判別手段15のそれぞれに対して、操作者が押したキーに対応するキーコードが入力されると、各判別手段が、入力されたキーコードが清音文字、撥音文字、濁音文字、半濁音文字、拗音文字または促音付き音節文字のいずれの音節文字に対応するものであるかを判別する(ステップS13)。
また、文字入力装置2Aから、繰り返し信号出力手段18に対して、操作者がキーを押したことを示すメイクコードが入力されると(ステップS14においてYes)、当該繰り返し信号出力手段18が、繰り返し開始信号を生成して音声合成手段17に出力する(ステップS15)。一方、文字入力装置2Aから、繰り返し信号出力手段18に対して、前記したメイクコードが入力されない場合は、ステップS12に戻って監視を継続する。
次に、音声合成手段17が、音声波形記憶手段16から、清音撥音判別手段11、濁音判別手段12、半濁音判別手段13、拗音判別手段14または促音付き音節判別手段15が判別した前記音節文字に対応する音声波形を抽出する(ステップS16)。また、音声合成手段17が、繰り返し波形記憶手段19から、清音撥音判別手段11、濁音判別手段12、半濁音判別手段13、拗音判別手段14または促音付き音節判別手段15が判別した前記音節文字に対応する繰り返し波形を抽出する(ステップS17)。
次に、音声合成手段17が、音声波形の繰り返し区間で、繰り返し波形を繰り返し連結する(ステップS18)。次に、文字入力装置2Aから、繰り返し信号出力手段18に対して、操作者がキーを離したことを示すブレイクコードが入力されると(ステップS19においてYes)、当該繰り返し信号出力手段18が、繰り返し終了信号を生成して音声合成手段17に出力する(ステップS20)。一方、文字入力装置2Aから、繰り返し信号出力手段18に対して、前記したブレイクコードが入力されない場合は、ステップS18に戻って監視を継続する(ステップS19においてNo)。次に、音声合成手段17が、繰り返し波形の連結を終了し、合成した音声を音声出力装置3に出力する(ステップS21)。
[第3実施形態]
以下、第3実施形態に係る音声合成装置1Bについて、図7を参照しながら詳細に説明する。第3実施形態に係る音声合成装置1Bは、繰り返し波形記憶手段19の代わりに、図7に示す繰り返し波形生成手段20を備えること以外は、前記した第2実施形態に係る音声合成装置1Aと同様の構成を備えている。従って、前記した音声合成装置1Aと重複する構成については、同じ符号を付して説明を省略する。また、音声合成装置1Bの動作についても、説明を省略する。
繰り返し波形生成手段20は、音声波形記憶手段16に記憶された音声波形から、繰り返し波形を生成するものである。繰り返し波形生成手段20は、まず、特開2003−122380「ピッチマーク付与装置およびその処理方法ならびに記憶媒体」の手法を用いて記憶された音声波形に対してピッチマークを付与することで基本周期単位に分割する。次に、分割された基本周期単位全てに対して、前後の基本周期単位との相互相関の計算を行う。そして最後に、前後の相互相関の和が最も高くなる基本周期単位を抽出し、その部分を繰り返し波形と決定する。
繰り返し波形生成手段20は、例えば、図5(a)における「か」の母音の「a」に相当する部分の波形(70msec)に対して15個のピッチマークが付与できた場合、14個の基本周期単位全てに対して前後の相関の計算を行い、相関が最も高い部分を繰り返し波形として抽出する。このように、相関が最も高い部分、すなわち安定した波形を繰り返し波形として用いることで、音声出力装置3において安定した出力が可能となる。
繰り返し波形生成手段20には、図7に示すように、音声合成手段17から、繰り返し波形を生成する旨の指示である繰り返し波形生成指示が入力されるとともに、音声波形記憶手段16から音声波形が入力される。そして、繰り返し波形生成手段20は、前記した手法によって繰り返し波形を生成し、これを音声合成手段17に出力する。
このような繰り返し波形生成手段20を備える音声合成装置1Bでは、音声合成手段17は、各判別手段からの音節情報に従って、音声波形記憶手段16から音声波形を抽出し、かつ、繰り返し信号出力手段18からの繰り返し開始信号に従って、繰り返し波形生成手段20に対して、前記した音声波形に対応する繰り返し波形の生成する旨の指示である繰り返し波形生成指示を出力する。そして、音声合成手段17は、繰り返し波形生成手段20から繰り返し波形を受け取り、繰り返し信号出力手段18から繰り返し終了信号が入力されるまで、音声波形の繰り返し区間で、繰り返し波形を繰り返し連結することで、音声を合成する。
以上のような構成を備える音声合成装置1Bは、繰り返し信号出力手段18によって、文字入力装置2Aからのメイクコードおよびブレイクコードの入力を常時監視することで、操作者が文字入力装置2Aのいずれかのキーを押している状態であるか、あるいは離している状態であるか、を認識する。そして、音声合成装置1Bは、操作者によって文字入力装置2Aのいずれかのキーが押されてから(メイクコードが入力されてから)、当該いずれかのキーが離されるまで(ブレイクコードが入力されるまで)、音声合成手段17によって、音声波形の繰り返し区間で、繰り返し波形を繰り返し連結することで、操作者が文字入力装置2Aのキーを押している間だけ、長音化した音声を合成する。
従って、音声合成装置1Bによれば、操作者が文字入力装置2Aのいずれかのキーを継続して押している場合、当該キーに対応する音節を長音化させて合成することができるため、音声合成のバリエーションを増やすことができる。
[第4実施形態]
以下、第4実施形態に係る音声合成装置1Cについて、図8〜図10を参照しながら詳細に説明する。第4実施形態に係る音声合成装置1Cは、図8に示すアクセント信号出力手段21を備え、かつ、音声波形記憶手段16の代わりに図8に示す低音声波形記憶手段22と、高音声波形記憶手段23と、を備え、文字入力装置2Aの代わりに文字入力装置2Bを用いること以外は、前記した第2実施形態に係る音声合成装置1Aと同様の構成を備えている。従って、前記した音声合成装置1Aと重複する構成については、同じ符号を付して説明を省略する。
文字入力装置2Bは、図9に示すように、かな文字キー2a、濁点キー2b、半濁点キー2c、ア行小文字キー2d、ヤ行小文字キー2eおよびタ行小文字キー2fの他に、アクセント下降キー2gと、アクセント上昇キー2hと、アクセント区切りキー2iと、をさらに備えることを特徴としている。
アクセント信号出力手段21は、所定の条件下において、音声合成手段17に対してアクセント下降信号、アクセント上昇信号またはアクセント区切り信号を出力するものである。アクセント信号出力手段21は、具体的には、文字入力装置2Bから、かな文字キー2a、濁点キー2b、半濁点キー2c、ア行小文字キー2d、ヤ行小文字キー2eおよびタ行小文字キー2fからなる各文字キーのキーコードの前に、アクセント下降キー2g、アクセント上昇キー2hまたはアクセント区切りキー2iのキーコードが入力されたか否かを監視する。
そして、アクセント信号出力手段21は、文字入力装置2Bからアクセント下降キー2gのキーコードが入力された場合は、アクセント下降信号を生成し、これを音声合成手段17に出力する。ここで、アクセント下降信号とは、音声合成手段17が合成する音声のアクセントを下げるための信号である。すなわち、アクセント下降信号が音声合成手段17に入力された場合、音声合成手段17は、後記する低音声波形記憶手段22から、当該アクセント下降信号が入力された後に各判別手段によって判別された音節文字に対応する低音声波形を抽出する。
例えば、操作者が文字入力装置2Bによって、「さ」、「く」、「ら」の文字を入力する場合において、「さ」のかな文字キー2aを押す前にアクセント下降キー2gを押すと、音声合成手段17は、「さ」、「く」、「ら」のそれぞれの音節文字に対応する低音声波形を低音声波形記憶手段22から抽出する。すなわち、「さ(低)」、「く(低)」、「ら(低)」という、全て低アクセントの音声が合成される。
また、アクセント信号出力手段21は、文字入力装置2Bからアクセント上昇キー2hのキーコードが入力された場合は、アクセント上昇信号を生成し、これを音声合成手段17に出力する。ここで、アクセント上昇信号とは、音声合成手段17が合成する音声のアクセントを上げるための信号である。すなわち、アクセント上昇信号が音声合成手段17に入力された場合、音声合成手段17は、後記する高音声波形記憶手段23から、当該アクセント上昇信号が入力された後に各判別手段によって判別された音節文字に対応する高音声波形を抽出する。
例えば、操作者が文字入力装置2Bによって、「さ」、「く」、「ら」の文字を入力する場合において、「さ」のかな文字キー2aを押す前にアクセント上昇キー2hを押すと、音声合成手段17は、「さ」、「く」、「ら」のそれぞれの音節文字に対応する高音声波形を高音声波形記憶手段23から抽出する。すなわち、「さ(高)」、「く(高)」、「ら(高)」という、全て高アクセントの音声が合成される。
また、アクセント信号出力手段21は、文字入力装置2Bからアクセント区切りキー2iのキーコードが入力された場合は、アクセント区切り信号を生成し、これを音声合成手段17に出力する。ここで、アクセント区切り信号とは、音声合成手段17が合成する音声のアクセントを、例えばアクセント句ごとに区切るための信号である。すなわち、アクセント下降信号が音声合成手段17に入力された場合、音声合成手段17は、低音声記憶手段22から、当該アクセント区切り信号が入力された後に各判別手段によって判別された一文字目の音節文字に対応する低音声波形を抽出する。そして、高音声記憶手段23から、当該アクセント区切り信号が入力された後に各判別手段によって判別された二文字目以降の音節文字に対応する高音声波形を抽出する。
例えば、操作者が文字入力装置2Bによって、「さ」、「く」、「ら」の文字を入力する場合において、「さ」のかな文字キー2aを押す前にアクセント区切りキー2iを押すと、音声合成手段17は、「さ」の音節文字に対応する低音声波形を低音声波形記憶手段22から抽出し、「く」、「ら」のそれぞれの音節文字に対応する高音声波形を高音声波形記憶手段23から抽出する。すなわち、「さ(低)」、「く(高)」、「ら(高)」という、低アクセントと高アクセントとが混合された音声が合成される。
低音声波形記憶手段22は、清音、撥音、濁音、半濁音、拗音および促音付き音節からなる各音節の低アクセントの音声波形を示す低音声波形を記憶するものである。低音声波形記憶手段22は、具体的には、データを記憶することができるメモリ、ハードディスク等で具現される。低音声波形記憶手段22は、図8に示すように、音声合成手段17に対して、清音、撥音、半濁音、拗音および促音付き音節のそれぞれの低音声波形を出力する。
高音声波形記憶手段23は、清音、撥音、濁音、半濁音、拗音および促音付き音節からなる各音節の高アクセントの音声波形を示す高音声波形を記憶するものである。高音声波形記憶手段23は、具体的には、データを記憶することができるメモリ、ハードディスク等で具現される。高音声波形記憶手段23は、図8に示すように、音声合成手段17に対して、清音、撥音、半濁音、拗音および促音付き音節のそれぞれの高音声波形を出力する。
このようなアクセント信号出力手段21、低音声波形記憶手段22および高音声波形記憶手段23を備える音声合成装置1Cでは、音声合成手段17は、各判別手段からの音節情報と、アクセント信号出力手段21からのアクセント下降信号、アクセント上昇信号またはアクセント区切り信号に従って、低音声波形記憶手段22または高音声波形記憶手段23から低音声波形または高音声波形を抽出する。また、音声合成手段17は、繰り返し信号出力手段18からの繰り返し開始信号に従って、繰り返し波形記憶手段19から前記した低音声波形または高音声波形に対応する繰り返し波形を抽出する。そして、音声合成手段17は、繰り返し信号出力手段18から繰り返し終了信号が入力されるまで、低音声波形または高音声波形の繰り返し区間で、繰り返し波形を繰り返し連結することで、音声を合成する。
なお、音声合成装置1Cでは、アクセント信号出力手段21から音声合成手段17に対して、アクセント下降信号、アクセント上昇信号またはアクセント区切り信号のいずれの信号も入力されなかった場合は、音声合成手段17は、一文字目は、低音声波形記憶手段22から、各判別手段が判別した音節文字に対応する低音声波形を抽出し、二文字目以降は、高音声波形記憶手段23から、各判別手段が判別した音節文字に対応する高音声波形を抽出する。このように、音声合成装置1Cでは、音声合成手段17が、各判別手段が判別した音節文字の数を図示しない計数手段によってカウントしている。また、音声合成装置1Cでは、前記したように、繰り返し波形記憶手段19が、低音声波形と高音声波形の両方の繰り返し波形を予め記憶している。
以上のような構成を備える音声合成装置1Cは、アクセント信号出力手段21によって、文字入力装置2Bのアクセント下降キー2g、アクセント上昇キー2hまたはアクセント区切りキー2iの入力状況を常時監視する。そして、音声合成装置1Cは、操作者によって文字入力装置2Bのアクセント下降キー2g、アクセント上昇キー2hまたはアクセント区切りキー2iが押され、当該キーに対応するキーコードが入力されると、音声合成手段17によって、当該キーコードに従って低音声波形または高音声波形を抽出し、アクセントを加えた音声を逐次合成する。
従って、音声合成装置1Cによれば、操作者が文字入力装置2Bのアクセント下降キー2g、アクセント上昇キー2hまたはアクセント区切りキー2iを押した場合、音節のアクセントを変えることができるため、音声合成のバリエーションをさらに増やすことができる。
[音声合成装置1Cの動作]
以下、音声合成装置1Cの動作について、図10を参照しながら簡単に説明する。ここで、以下で説明する音声合成装置1Cの動作は、操作者が文字入力装置2Bのいずれかのキーを1回のみ押した場合における音声合成装置1C側の動作を示している。
まず、アクセント信号出力手段21が、文字入力装置2Bから、アクセント下降キー2g、アクセント上昇キー2hまたはアクセント区切りキー2iのキーコードの入力があるか否かを監視するとともに、清音撥音判別手段11、濁音判別手段12、半濁音判別手段13、拗音判別手段14および促音付き音節判別手段15が、文字入力装置2Bから、かな文字キー2a、濁点キー2b、半濁点キー2c、ア行小文字キー2d、ヤ行小文字キー2eおよびタ行小文字キー2fのキーコードの入力があるか否かを監視する(ステップS21)。また、繰り返し信号出力手段18が、文字入力装置2Bから、メイクコードとブレイクコードの入力があるか否かを監視する(ステップS22)。
次に、文字入力装置2Bから、アクセント信号出力手段21に対して、操作者が押したアクセント下降キー2g、アクセント上昇キー2hまたはアクセント区切りキー2iのキーコードが入力されると、アクセント信号出力手段21が、アクセント下降信号、アクセント上昇信号またはアクセント区切り信号を生成してこれを音声合成手段17に出力する(ステップS23)。
次に、清音撥音判別手段11、濁音判別手段12、半濁音判別手段13、拗音判別手段14および促音付き音節判別手段15のそれぞれに対して、操作者が押したキーに対応するキーコードが入力されると、各判別手段が、入力されたキーコードが清音文字、撥音文字、濁音文字、半濁音文字、拗音文字または促音付き音節文字のいずれの音節文字に対応するものであるかを判別する(ステップS24)。
また、文字入力装置2Bから、繰り返し信号出力手段18に対して、操作者がキーを押したことを示すメイクコードが入力されると(ステップS25においてYes)、当該繰り返し信号出力手段18が、繰り返し開始信号を生成して音声合成手段17に出力する(ステップS26)。一方、文字入力装置2Bから、繰り返し信号出力手段18に対して、前記したメイクコードが入力されない場合は、ステップS22に戻って監視を継続する。
次に、音声合成手段17が、低音声波形記憶手段22または高音声波形記憶手段23から、清音撥音判別手段11、濁音判別手段12、半濁音判別手段13、拗音判別手段14または促音付き音節判別手段15からなる各判別手段によって判別された音節文字に対応する低音声波形または高音声波形を抽出する(ステップS27)。また、音声合成手段17が、繰り返し波形記憶手段19から、清音撥音判別手段11、濁音判別手段12、半濁音判別手段13、拗音判別手段14または促音付き音節判別手段15からなる各判別手段によって判別された音節文字に対応する低音声波形または高音声波形の繰り返し波形を抽出する(ステップS28)。
次に、音声合成手段17が、低音声波形または高音声波形の繰り返し区間で、繰り返し波形を繰り返し連結する(ステップS29)。次に、文字入力装置2Bから、繰り返し信号出力手段18に対して、操作者がキーを離したことを示すブレイクコードが入力されると(ステップS30においてYes)、当該繰り返し信号出力手段18が、繰り返し終了信号を生成して音声合成手段17に出力する(ステップS31)。一方、文字入力装置2Bから、繰り返し信号出力手段18に対して、前記したブレイクコードが入力されない場合は、ステップS29に戻って監視を継続する(ステップS30においてNo)。次に、音声合成手段17が、繰り返し波形の連結を終了し、合成した音声を音声出力装置3に出力する(ステップS32)。
[音声合成装置1Cを用いた音声合成の具体例]
以下、音声合成装置1Cを用いた音声合成の具体例について、簡単に説明する。以下の例では、音声合成装置1Cを用いて、「い(低)ら(高)しゃ(高)い(低)」というアクセントの音声を合成する場合について、説明する。
この場合、まず操作者が、文字入力装置2Bの「い」のかな文字キー2a(図9参照)を押す。すると、文字入力装置2Bが、各判別手段に対して、「い」のかな文字キー2aのキーコードを出力するとともに、繰り返し信号出力手段18に対して、メイクコードを出力する。次に、清音撥音判別手段11が、当該キーコードが清音文字の「い」であることを判別し、これを音節情報として音声合成手段17に出力する。また、繰り返し信号出力手段18が、メイクコードに従って、繰り返し開始信号を生成し、これを音声合成手段17に出力する。
次に、音声合成手段17が、当該音節情報に従って、低音声波形記憶手段22から「い」の低音声波形を抽出し、かつ、繰り返し開始信号に従って、繰り返し波形記憶手段19から「い」の低音声波形の繰り返し波形を抽出する。そして、音声合成手段17が、繰り返し信号出力手段18から繰り返し終了信号が入力されるまで、「い」の低音声波形の繰り返し区間で、前記した繰り返し波形を連結する。
次に、操作者が、文字入力装置2Bの「っ」のタ行小文字キー2fと「ら」のかな文字キー2aを同時に押す。すると、文字入力装置2Bが、各判別手段に対して、「っ」のタ行小文字キー2fのキーコードと「ら」のかな文字キー2aのキーコードとをそれぞれ出力するとともに、繰り返し信号出力手段18に対して、メイクコードを出力する。次に、促音付き音節判別手段15が、当該キーコードが促音付き清音文字の「らっ」であることを判別し、これを音節情報として音声合成手段17に出力する。また、繰り返し信号出力手段18が、メイクコードに従って、繰り返し開始信号を生成し、これを音声合成手段17に出力する。
次に、音声合成手段17が、当該音節情報に従って、高音声波形記憶手段23から「らっ」の高音声波形を抽出し、かつ、繰り返し開始信号に従って、繰り返し波形記憶手段19から「らっ」の高音声波形の繰り返し波形を抽出する。そして、音声合成手段17が、繰り返し信号出力手段18から繰り返し終了信号が入力されるまで、「らっ」の高音声波形の繰り返し区間で、前記した繰り返し波形を連結する。
次に、操作者が、文字入力装置2Bの「ゃ」のヤ行小文字キー2eと「し」のかな文字キー2aを同時に押す。すると、文字入力装置2Bが、各判別手段に対して、「ゃ」のヤ行小文字キー2eのキーコードと「し」のかな文字キー2aのキーコードとをそれぞれ出力するとともに、繰り返し信号出力手段18に対して、メイクコードを出力する。次に、拗音判別手段14が、当該キーコードが拗音文字の「しゃ」であることを判別し、これを音節情報として音声合成手段17に出力する。また、繰り返し信号出力手段18が、メイクコードに従って、繰り返し開始信号を生成し、これを音声合成手段17に出力する。
次に、音声合成手段17が、当該音節情報に従って、高音声波形記憶手段23から「しゃ」の高音声波形を抽出し、かつ、繰り返し開始信号に従って、繰り返し波形記憶手段19から「しゃ」の高音声波形の繰り返し波形を抽出する。そして、音声合成手段17が、繰り返し信号出力手段18から繰り返し終了信号が入力されるまで、「しゃ」の高音声波形の繰り返し区間で、前記した繰り返し波形を連結する。
次に、操作者が、文字入力装置2Bのアクセント下降キー2gを押す。すると、アクセント信号出力手段21が、アクセント下降信号を音声合成手段17に出力する。
次に、操作者が、文字入力装置2Bの「い」のかな文字キー2aを押す。すると、文字入力装置2Bが、各判別手段に対して、「い」のかな文字キー2aのキーコードを出力するとともに、繰り返し信号出力手段18に対して、メイクコードを出力する。次に、清音撥音判別手段11が、当該キーコードが清音文字の「い」であることを判別し、これを音節情報として音声合成手段17に出力する。また、繰り返し信号出力手段18が、メイクコードに従って、繰り返し開始信号を生成し、これを音声合成手段17に出力する。
次に、音声合成手段17が、当該音節情報および前記したアクセント下降信号に従って、低音声波形記憶手段22から「い」の低音声波形を抽出し、かつ、繰り返し開始信号に従って、繰り返し波形記憶手段19から「い」の低音声波形の繰り返し波形を抽出する。そして、音声合成手段17が、繰り返し信号出力手段18から繰り返し終了信号が入力されるまで、「い」の低音声波形の繰り返し区間で、前記した繰り返し波形を連結する。
以上のように、音声合成装置1Cは、操作者が文字入力装置2Bのキー(図9参照)を、「い」、「っ」+「ら」、「ゃ」+「し」、アクセント下降キー2g、「い」、の順番で押すことにより、「い(低)ら(高)しゃ(高)い(低)」というアクセントの音声を適切に合成することができる。なお、音声合成装置1Cによって、例えば「い(高)ら(低)しゃ(低)い(低)」というアクセントの音声を合成した場合は、操作者は、文字入力装置2Bのキー(図9参照)を、アクセント上昇キー2h、「い」、アクセント下降キー2g、「っ」+「ら」、「ゃ」+「し」、「い」、の順番で押せばよい。
[第5実施形態]
以下、第5実施形態に係る音声合成装置1Dについて、図11を参照しながら詳細に説明する。第5実施形態に係る音声合成装置1Dは、繰り返し波形記憶手段19の代わりに、図7に示す繰り返し波形生成手段20を備えること以外は、前記した第4実施形態に係る音声合成装置1Cと同様の構成を備えている。従って、前記した音声合成装置1Cと重複する構成については、同じ符号を付して説明を省略する。また、音声合成装置1Dの動作についても、説明を省略する。
繰り返し波形生成手段20は、低音声波形記憶手段22に記憶された低音声波形または、高音声波形記憶手段23に記憶された高音声波形から、低音声波形の繰り返し波形または、高音声波形の繰り返し波形を生成するものである。例えば、図5(a)における「か」の母音の「a」に相当する部分の波形(70msec)に対して、ピッチマークが付与できた基本周期単位の前後の波形をそれぞれ比較し、相関が最も高い部分を繰り返し波形として抽出する。このように、相関が最も高い部分、すなわち安定した波形を繰り返し波形として用いることで、音声出力装置3において安定した出力が可能となる。
繰り返し波形生成手段20には、図11に示すように、音声合成手段17から、繰り返し波形を生成する旨の指示である繰り返し波形生成指示が入力されるとともに、低音声波形記憶手段22または高音声波形記憶手段23から、低音声波形または高音声波形が入力される。そして、繰り返し波形生成手段20は、前記した手法によって低音声波形または高音声波形の繰り返し波形を生成し、これを音声合成手段17に出力する。
このような繰り返し波形生成手段20を備える音声合成装置1Dでは、音声合成手段17は、各判別手段からの音節情報に従って、低音声波形記憶手段22または高音声波形記憶手段23から、低音声波形または高音声波形を抽出し、かつ、繰り返し信号出力手段18からの繰り返し開始信号に従って、繰り返し波形生成手段20に対して、前記した低音声波形または高音声波形に対応する繰り返し波形を指示する旨の指示である繰り返し波形生成指示を出力する。そして、音声合成手段17は、繰り返し波形生成手段20から低音声波形または高音声波形の繰り返し波形を受け取り、繰り返し信号出力手段18から繰り返し終了信号が入力されるまで、低音声波形または高音声波形の繰り返し区間で、低音声波形または高音声波形の繰り返し波形を繰り返し連結することで、音声を合成する。
以上のような構成を備える音声合成装置1Dは、繰り返し信号出力手段18によって、文字入力装置2Bからのメイクコードおよびブレイクコードの入力を常時監視することで、操作者が文字入力装置2Bのいずれかのキーを押している状態であるか、あるいは離している状態であるか、を認識する。また同時に、音声合成装置1Dは、アクセント信号出力手段21によって、文字入力装置2Bのアクセント下降キー2g、アクセント上昇キー2hまたはアクセント区切りキー2iの入力状況を常時監視する。
そして、音声合成装置1Dは、操作者によって文字入力装置2Bのアクセント下降キー2g、アクセント上昇キー2hまたはアクセント区切りキー2iが押され、当該キーに対応するキーコードが入力されると、音声合成手段17によって、当該キーコードに従って低音声波形または高音声波形を抽出する。また同時に、音声合成装置1Dは、操作者によって文字入力装置2Bのいずれかのキーが押されてから(メイクコードが入力されてから)、当該いずれかのキーが離されるまで(ブレイクコードが入力されるまで)、音声合成手段17によって、低音声波形または高音声波形の繰り返し区間で、低音声波形または高音声波形の繰り返し波形を繰り返し連結する。このようにして、音声合成装置1Dは、操作者が文字入力装置2Bのキーを押している間だけ、長音化させるとともに、アクセントを加えた音声を逐次合成する。
従って、音声合成装置1Dによれば、操作者が文字入力装置2Bのアクセント下降キー2g、アクセント上昇キー2hまたはアクセント区切りキー2iを押した場合、音節のアクセントを変えることができるとともに、操作者が文字入力装置2Bのいずれかのキーを継続して押している場合、当該キーに対応する音節を長音化させて合成することができるため、音声合成のバリエーションを増やすことができる。
以上、本発明に係る音声合成装置および音声合成プログラムについて、発明を実施するための形態により具体的に説明したが、本発明の趣旨はこれらの記載に限定されるものではなく、特許請求の範囲の記載に基づいて広く解釈されなければならない。また、これらの記載に基づいて種々変更、改変等したものも本発明の趣旨に含まれることはいうまでもない。
例えば、前記した音声合成装置1,1A,1B,1C,1Dでは、操作者によって、文字入力装置2,2A,2Bのかな文字キー2aと、濁音キー2b、半濁音キー2c、ア行小文字キー2d、ヤ行小文字キー2eまたはタ行小文字キー2fと、が同時に押された場合に音声を合成する構成としているが、かな文字キー2aの前に、濁音キー2b、半濁音キー2c、ア行小文字キー2d、ヤ行小文字キー2eまたはタ行小文字キー2fが押された場合に音声を合成する構成としてもよい。
また、前記した音声合成装置1,1A,1B,1C,1Dでは、操作者によって、文字入力装置2,2A,2Bのかな文字キー2a、濁音キー2b、半濁音キー2c、ア行小文字キー2d、ヤ行小文字キー2eまたはタ行小文字キー2fの前に、アクセント下降キー2g、アクセント上昇キー2hまたはアクセント区切りキー2iが押された場合にアクセントを加えた音声を合成する構成としているが、かな文字キー2a、濁音キー2b、半濁音キー2c、ア行小文字キー2d、ヤ行小文字キー2eまたはタ行小文字キー2fと、アクセント下降キー2g、アクセント上昇キー2hまたはアクセント区切りキー2iと、が同時に押された場合にアクセントを加えた音声を合成する構成としてもよい。