JP2016065976A

JP2016065976A - 音声変形装置及び方法

Info

Publication number: JP2016065976A
Application number: JP2014194647A
Authority: JP
Inventors: 充伸神沼; Mitsunobu Kaminuma; 健太南; Kenta Minami; 達也北村; Tatsuya Kitamura
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2014-09-25
Filing date: 2014-09-25
Publication date: 2016-04-28

Abstract

【課題】簡易な構成で音声の親しさの程度を効果的に増加させることができる音声変形装置を提供する。
【解決手段】促音文節検出部２６は、文章に含まれている促音を含む文節を検出する。文章は、文章を発音させるときのタイミングが予め設定されている。促音継続時間変更部２４は、促音文節検出部２６で検出された促音を含む文節における促音が継続する継続時間を、予め設定されたタイミングに基づく継続時間よりも長くなるように変更する。
【選択図】図２

Description

本発明は、音声を聞いた人が感じる親しさの程度を増加させることができる音声変形装置及び方法に関する。

近年、電子機器の操作方法を操作者に音声で説明する音声ガイダンスが普及している。音声ガイダンスに用いられる音声は、韻律が平坦で感情のこもっていない音声であることが多い。特許文献１には、無感情な音声に感情を付与する音声合成装置が記載されている。

特開平７−７２９００号公報

従来の音声変形装置である特許文献１に記載の音声合成装置は、ニューラルネットワークを用いて無感情な音声のパラメータを感情のこもったパラメータに変換する学習を行わせることによって、無感情な音声に感情を付与する。よって、特許文献１に記載の音声変形装置においては、煩雑な構成・手順が必要となってしまうという問題点がある。

本発明はこのような問題点に鑑み、簡易な構成・手順で音声の親しさの程度を効果的に増加させることができる音声変形装置及び方法を提供することを目的とする。

本発明は、促音が継続する継続時間を変更することによって、人が感じる音声の親しさの程度を変化させる。

本発明の音声変形装置及び方法によれば、簡易な構成・手順で音声の親しさの程度を効果的に増加させることができる。

第１実施形態の音声変形装置を示すブロック図である。第２実施形態の音声変形装置を示すブロック図である。第３実施形態の音声変形装置を示すブロック図である。一実施形態の音声変形方法を説明するための第１の例文の振幅波形の一例を示す波形図である。第１の例文を構成する文節及び音素を示す図である。第１の例文の振幅波形と周波数の特性の一例を示す図である。一実施形態の音声変形方法による音の継続時間の変更の仕方を説明するための図である。一実施形態の音声変形方法による効果の検証結果を示す図である。

以下、各実施形態の音声変形装置及び方法について、添付図面を参照して説明する。各実施形態の音声変形装置及び方法は、後述のようにして、音声の親しさの程度を増大させる。

＜第１実施形態の音声変形装置＞
図１に示す第１実施形態の音声変形装置は、音声合成によって音声データを生成する際に、音声の親しさの程度を増大させる構成例である。第１実施形態の音声変形装置は、文章を示すテキストデータに基づいて音声データを生成する音声合成装置である。

図１において、所定の文章を示すテキストデータは、韻律情報生成部１１と合成部１４とに入力される。テキストデータは、例えばアスキーコードである。

韻律辞書１２は、複数の韻律情報のパターンを保持している。韻律情報とは、音声における声質以外の部分であり、アクセントやリズム等を形成する部分である。韻律情報生成部１１は、韻律辞書１２より、入力されたテキストデータの文章の各文節に適したパターンの韻律情報を読み出して、文章の韻律情報を生成する。韻律情報は、合成部１４に入力される。

例えば、テキストデータが示す文章が「…を設定いたします」という文章であり、文節「…を」と文節「設定」との間、文節「設定」と文節「いたします」との間に、息継ぎの時間に相当する短時間の間隔を設けるとする。この場合、テキストデータ自体に間隔を設けてもよいし、韻律情報生成部１１において間隔を設けた状態の韻律情報を生成してもよい。

音道辞書１５は、複数の音道情報のパターンを保持している。音道情報とは、音声における声質の部分である。音道辞書１５は、音道情報のパターンを文章単位で保持していてもよいし、単語単位で保持していてもよいし、音素単位で保持していてもよい。

合成部１４は、入力されたテキストデータの文章に適したパターンの音道情報を読み出し、韻律情報と音道情報とを合成することによってデジタル信号の音声データを生成する。音声データはＤ／Ａ変換器１６によってアナログ信号に変換されて、スピーカ１７より音声として出力される。

ところで、例えば「ゆっくり楽しんできてくださいね」における「ゆっくり」のように、促音を含む文節を有する文章がある。合成部１４は、文章をスピーカ１７によって発音させるときの音の状態が、次のような状態となるように、韻律情報と音道情報とを合成した音声データを生成する。

合成部１４は、促音が継続する継続時間が、促音より前に位置する第１の基準音素の音、または、促音を含む音素以降の第２の基準音素の音が継続する継続時間よりも長くなるように、音の継続時間を変更する。音の継続時間の具体的な変更の仕方については後に詳述する。

図１に示す音声合成装置によって構成した音声変形装置は、韻律情報生成部１１〜音道辞書１５の部分を、演算処理装置（マイクロプロセッサ）と記憶装置とを含むマイクロコンピュータで構成することができる。

＜第２実施形態の音声変形装置＞
図２に示す第２実施形態の音声変形装置は、音声データが予め音声ファイルとして形成されている場合に音声の親しさの程度を増大させる構成例である。

第２実施形態の音声変形装置は、文章の音声データを含む音声ファイルと、文章を示すテキストデータと、テキストデータのタイミングデータとに基づいて、音の継続時間の変更する音声処理装置である。音声ファイルが示す文章は、タイミングデータによって、文章を発音させるときのタイミングが予め設定されている。

図２において、韻律・声道分離部２１には文章の音声データを含む音声ファイルが入力される。音声ファイルは、例えばＷＡＶ形式である。音声ファイルはＷＡＶ形式に限定されない。

韻律・声道分離部２１は、音声ファイルの音声データを韻律情報と声道情報とに分離する。声道情報保持部２２は声道情報を保持する。韻律情報保持部２３は韻律情報を保持する。韻律情報は、時間位置情報とセットで保持する必要がある。

声道情報保持部２２が保持したそれぞれのタイミングにおける声道情報は、タイミング情報と併せて、韻律情報保持部２３及び促音継続時間変更部２４に入力される。韻律情報保持部２３は、韻律情報と声道情報とに基づいて、それぞれの音の継続時間の情報（継続時間情報）を得ることができる。

促音文節検出部２６には、音声ファイルの音声データを示すテキストデータとタイミングデータとが入力される。タイミングデータは、音声データの時間位置を示す。タイミングデータによって、音素の発話開始位置や文節間に息継ぎの時間に相当する間隔を設定することができる。

促音文節検出部２６は、テキストデータ及びタイミングデータに基づいて、文章に含まれている促音を含む文節を検出する。

促音継続時間変更部２４には、タイミングデータと、促音を含む文節の情報とが入力される。促音継続時間変更部２４は、促音文節検出部２６で検出された促音を含む文節における促音が継続する継続時間を、タイミングデータが示すタイミングに基づく継続時間よりも長くなるように変更する。

促音継続時間変更部２４は、タイミングデータを参照する代わりに、韻律情報保持部２３からの継続時間情報を参照して、促音が継続する継続時間が長くなるように継続時間を変更してもよい。促音継続時間変更部２４は、声道情報保持部２２からのタイミング情報も参照するのがよい。音の継続時間の具体的な変更の仕方については後に詳述する。

合成部２５は、韻律情報と声道情報とを合成することによってデジタル信号の音声データを生成する。音声データはＤ／Ａ変換器２７によってアナログ信号に変換されて、スピーカ２８より音声として出力される。

図２に示す音声処理装置によって構成した音声変形装置は、韻律・声道分離部２１〜促音文節検出部２６の部分を、演算処理装置と記憶装置とを含むマイクロコンピュータで構成することができる。

＜第３実施形態の音声変形装置＞
図３に示す第３実施形態の音声変形装置は、人が話した音声の親しさの程度を増大させる構成例である。図３において、図２と同一部分には同一符号を付し、その説明を省略することがある。

第３実施形態の音声変形装置は、人が発する文章の音声をマイクロホンで収音した音声データと、音声データを音声認識することによって生成した文章を示すテキストデータとに基づいて、音の継続時間の変更する音声処理装置である。

音声データは人が発する音声を収音したものであるから、音声データが示す文章は、文章を発音させるときのタイミング情報を有している。よって、音声データが示す文章は、文章を発音させるときのタイミングが予め設定されている文章である。

図３において、マイクロホン３１は人が発した音声を収音してアナログの音声信号を出力する。Ａ／Ｄ変換器３２は、アナログの音声信号をデジタルの音声データに変換する。音声データは、韻律・声道分離部２１と音声認識部３３とに入力される。

音声認識部３３は、入力された音声データの音声を認識してテキストデータを出力する。テキストデータは、促音文節検出部３４に入力される。促音文節検出部３４は、例えば形態素解析の手法を用いて文章に含まれている促音を含む文節を検出する。

韻律・声道分離部２１〜韻律情報保持部２３の動作は、第２実施形態の音声変形装置と同様である。

促音継続時間変更部２４には、促音を含む文節の情報が入力される。促音継続時間変更部２４は、韻律情報保持部２３からの継続時間情報を参照して、促音が継続する継続時間が長くなるように継続時間を変更する。音の継続時間の具体的な変更の仕方については後に詳述する。

合成部２５，Ｄ／Ａ変換器２７，スピーカ２８の動作は、第２実施形態の音声変形装置と同様である。

図３に示す音声処理装置によって構成した音声変形装置は、マイクロホン３１，Ａ／Ｄ変換器３２，Ｄ／Ａ変換器２７，スピーカ２８以外の部分を、演算処理装置と記憶装置とを含むマイクロコンピュータで構成することができる。

＜一実施形態の音声変形方法＞
図１の合成部１４、図２及び図３の促音継続時間変更部２４における促音が継続する継続時間の具体的な変更の仕方について説明する。

図４は、例文として「ゆっくり楽しんできてくださいね」なる音声を発生させたときの振幅波形を示している。

図５に示すように、「ゆっくり楽しんできてくださいね」をローマ字表記した「YuKkuRiTaNoShiNDeKiTeKuDaSaINe」のYu，Kku，Ri，Ta，No，Shi，N，De，Ki，Te，Ku，Da，Sa，I，Neはそれぞれ音素番号１〜１５の音素を示している。音素番号１〜１５の音素は、例えば時間位置2.22秒から3.49秒までのそれぞれの時間位置に位置している。

例えば、音素Yuにおける時間位置2.22秒とは、子音Yにおける時間位置を示している。子音と母音とよりなる他の音素も同様に、それぞれ子音における時間位置を示している。厳密には母音の時間位置も存在しているが、ここでは記載を省略している。

「YuKkuRi」は文節Ｐｈ１、「TaNoShiNDe」は文節Ｐｈ２、「KiTe」は文節Ｐｈ３、「KuDaSaINe」は文節Ｐｈ４である。文節Ｐｈ１は、促音を含む文節である。「Kku」における「K」が促音の位置である。

本実施形態の音声変形方法においては、促音が継続する継続時間を、文章が元々有している文章を発音させるタイミングに基づく継続時間よりも長くなるように変更する。

また、本実施形態の音声変形方法においては、促音が継続する継続時間が、促音より前に位置する第１の基準音素の音、または、促音を含む音素以降の第２の基準音素の音が継続する継続時間よりも長くなるように、音の継続時間を変更する。

本実施形態の音声変形方法は、促音が継続する継続時間を変更することによって、音声の親しさの程度を増大させる。

図６の（ａ）は、図４と同じであり、「ゆっくり楽しんできてくださいね」なる文章の音声を発生させたときの振幅波形を示している。図６の（ｂ）は、図６の（ａ）の音声における周波数特性を示している。

図６の（ｂ）に示す黒丸の点は、周波数特性における極大値もしくは極小値を示す極点、または、変曲点を示している。黒丸の点の位置は、音素の位置とは必ずしも一致しない。但し、音素の位置が極点または変曲点となる場合も多い。

図７を用いて、図４〜図６に示す文章を発音させる際の、促音の継続時間をどのように変更するかについて具体的に説明する。

図７の（ａ）は、図２における音声ファイルまたは図３における音声データのように、文章を発音させるときのタイミングが予め設定されているときの、それぞれの音の継続時間に対する倍率を示している。ここでの音とは、音素Kkuのみ、促音のKとkuの部分とを分けて示す音であり、他は音素の音を示している。

図７の（ａ）〜（ｃ）における横軸は時間を示している。但し、横軸は、音素Yu，Ri，Ta、促音K、音素Kkuにおけるkuの部分それぞれの厳密な発音タイミングを示すものではない。

図７の（ａ）は、継続時間変更前のそれぞれの音における元々の継続時間を示しており、倍率は１．０である。継続時間変更前のそれぞれの音が、図５に示すような時間位置で発音されるとすると、図７の（ａ）は、図５に示すような時間位置そのままで文章を発音させることを意味する。

図７の（ｂ）は、継続時間を変更する第１の例を示している。第１の例においては、図７の（ｂ）に示すように、促音Kにおける継続時間を例えば１．６倍にしている。倍率は１．６に限定されず、１．０倍を超えればよい。

第１の例においては、継続時間を、音素Yuから促音Kまで、１．０倍から１．６倍まで連続的に増大させている。第１の例においては、継続時間を、促音Kからkuの部分まで、１．６倍から１．０倍まで連続的に減少させている。

文節Ｐｈ１の「YuKkuRi」の部分の音の継続時間を第１の例のように変更するということは、音素Yuにおける母音uから促音Kの位置まで発音の速度が連続的に遅くなり、促音Kの位置からkuの部分の母音uまで発音の速度が連続的に速くなるということである。

第１の例においては、音素Yuは促音Kより前に位置する第１の基準音素であり、音素Kkuは促音Kを含む音素以降の第２の基準音素である。厳密には、音素Yuはそのまま時間的な第１の基準点となっており、音素Kkuにおけるkuの部分が時間的な第２の基準点となっている。

図７の（ｃ）は、継続時間を変更する第２の例を示している。第２の例においては、図７の（ｃ）に示すように、促音Kにおける継続時間を例えば１．６倍にし、kuの部分における継続時間を例えば１．３倍にしている。倍率は１．６と１．３に限定されるものではない。kuの部分における継続時間の倍率は、促音Kにおける継続時間の倍率よりも小さければよい。

第２の例においては、継続時間を、音素Yuから促音Kまで、１．０倍から１．６倍まで連続的に増大させている。第２の例においては、継続時間を、促音Kからkuの部分まで、１．６倍から１．３倍まで連続的に減少させている。第２の例においては、継続時間を、kuの部分から音素riまで、１．３倍から１．０倍まで連続的に減少させている。

文節Ｐｈ１の「YuKkuRi」の部分の音の継続時間を第２の例のように変更するということは、音素Yuにおける母音uから促音Kの位置まで発音の速度が連続的に遅くなり、促音Kの位置から音素riの母音iまで発音の速度が連続的に速くなるということである。

第２の例においては、音素Yuは促音Kより前に位置する第１の基準音素であり、音素riは促音Kを含む音素以降の第２の基準音素である。第２の例では、音素Yuが時間的な第１の基準点、音素riが時間的な第２の基準点となっている。

第２の基準音素を促音よりも大きく離すと違和感が生じるため、第２の基準音素は、促音を含む音素、または、促音を含む音素の次に位置する音素とするのがよい。

図１に示す第１実施形態の音声変形装置においては、合成部１４は、図７の（ｂ），（ｃ）に示すように、音の継続時間を変更して、韻律情報と音道情報とを合成した音声データを生成すればよい。

具体的には、合成部１４は、促音が継続する継続時間が、促音より前に位置する第１の基準音素の音、または、促音を含む音素以降の第２の基準音素の音が継続する継続時間よりも長い音声データを生成すればよい。

図２，図３に示す第２，第３実施形態の音声変形装置においては、促音継続時間変更部２４は、促音が継続する継続時間が、促音より前に位置する第１の基準音素の音、または、促音を含む音素以降の第２の基準音素の音が継続する継続時間よりも長くなるように、音の継続時間を変更すればよい。

図８を用いて、本実施形態の音声変形方法による効果の検証結果を説明する。効果を検証する被験者が、音の継続時間の変更前と変更後の音声刺激のペアを連続して聞き、それぞれの親しさの程度を、変更前と変更後の順序の入れ替えを行って、７件法で評価した。

音の変更の仕方として、図７の（ｂ）に示す第１の例を用い、促音における継続時間を１．０倍，１．３倍，１．６倍，１．９倍の４つで評価した。健常な聴覚を有する２０代から５０代の１５人を被験者とした。但し、継続時間変更前の２つの同じ音をペアとして、そのペアが同じ音であることを認識できなかった３人を除き、１２人を被験者とした実験を行った。

１２人を被験者それぞれが、継続時間変更前の音声刺激と継続時間変更後の音声刺激それぞれの親しさの程度を、平均オピニオン評点（MOS：Mean Opinion Score）で１〜５の５段階で評価した。

図８に示す破線は、継続時間変更前の音声刺激を聞いたときに被験者が感じた親しさの程度の平均、実線は、継続時間変更後の音声刺激を聞いたときに被験者が感じた親しさの程度の平均を示している。

促音における継続時間が１．０倍を超えると、親しさの程度が向上することが分かる。促音における継続時間が１．９倍となると同じMOS値となり、親しさの程度に差が生じないことが分かる。

促音における継続時間が１．３倍のとき、MOS値は4.24、１．６倍のとき、MOS値は4.17であった。

以上より、促音における継続時間は、１．０倍を超えることが必要である。促音における継続時間は、１．９倍未満であることが必要である。図８より、継続時間は、１．１倍を超えるとよい。継続時間は、１．２倍を超えるとさらによい。継続時間は、１．８倍以下であるとよい。継続時間は、１．７倍以下であるとさらによい。

以上のように、第１実施形態の音声変形装置は、韻律情報生成部１１と、合成部１４とを備える。第１実施形態の音声変形装置は、音声合成装置である。

韻律情報生成部１１は、促音を含む文節を有する文章を示すテキストデータに基づいて、韻律情報を生成する。合成部１４は、文章を発音させるときに、促音が継続する継続時間が、前記より前に位置する第１の基準音素の音、または、促音を含む音素以降の第２の基準音素の音が継続する継続時間よりも長くなるように、音の継続時間を変更して、韻律情報と音道情報とを合成した音声データを生成する。

第１実施形態の音声変形装置によれば、簡易な構成で音声の親しさの程度を効果的に増加させることができる。

第２，第３実施形態の音声変形装置は、促音文節検出部２６，３４と、促音継続時間変更部２４とを備える。

促音文節検出部２６，３４は、文章を発音させるときのタイミングが予め設定されている文章に含まれている促音を含む文節を検出する。促音継続時間変更部２４は、促音文節検出部２６，３４で検出された促音を含む文節における促音が継続する継続時間を、予め設定されたタイミングに基づく継続時間よりも長くなるように変更する。

第２，第３実施形態の音声変形装置によれば、簡易な構成で音声の親しさの程度を効果的に増加させることができる。

第２実施形態の音声変形装置は、文章の音声データを含む音声ファイルと、文章を示すテキストデータと、テキストデータのタイミングデータとに基づいて、音の継続時間を変更する音声処理装置であってよい。第２実施形態の音声変形装置によれば、音声ファイルとして記録された音声データの音声の親しさの程度を増加させることができる。

第３実施形態の音声変形装置は、人が発する文章の音声をマイクロホンで収音した音声データと、音声データを音声認識することによって生成した文章を示すテキストデータとに基づいて、音の継続時間を変更する音声処理装置であってよい。第３実施形態の音声変形装置によれば、人が発する音声の親しさの程度を増加させることができる。

促音継続時間変更部２４は、促音が継続する継続時間が、促音より前に位置する第１の基準音素の音、または、促音を含む音素以降の第２の基準音素の音が継続する継続時間よりも長くなるように、音の継続時間を変更するのがよい。このようにすると、音声の親しさの程度を効果的に増加させることができる。

促音継続時間変更部２４は、促音が継続する継続時間が、促音より前に位置する第１の基準音素の音、及び、促音を含む音素以降の第２の基準音素の音が継続する継続時間よりも長くなるように、音の継続時間を変更するとさらによい。

促音継続時間変更部２４は、第１の基準音素から前記促音まで継続時間を連続的に長くすることが好ましい。促音継続時間変更部２４は、促音から第２の基準音素まで継続時間を連続的に短くすることが好ましい。このようにすれば、音の継続時間を変更することによる不自然さをほとんどなくすことができる。

本実施形態の音声変形方法は、促音を含む文節を有する文章を示すテキストデータを入力する文章入力工程と、上記のように音の継続時間を変更する促音継続時間変更工程とを含む。

また、本実施形態の音声変形方法は、文章を発音させるときのタイミングが予め設定されている文章を示す音声データを入力する文章入力工程と、文章に含まれている促音を含む文節を検出する促音文節検出工程と、上記のように促音が継続する継続時間を変更する促音継続時間変更工程とを含む。

本実施形態の音声変形方法によれば、簡易な手順で音声の親しさの程度を効果的に増加させることができる。

促音継続時間変更工程は、促音が継続する継続時間が、促音より前に位置する第１の基準音素の音、または、促音を含む音素以降の第２の基準音素の音が継続する継続時間よりも長くなるように、音の継続時間を変更するのがよい。このようにすると、音声の親しさの程度を効果的に増加させることができる。

本発明は以上説明した各実施形態の音声変形装置及び方法に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々変更可能である。

音声変形装置をハードウェアで構成してもよいし、ソフトウェアで構成してもよく、両者を混在させて構成してもよい。

音声を韻律情報と声道とに分離して合成する際に、例えば、vocoderと称される一般的な音声分析合成系を用いることが可能である。ソフトウェアとしては、音声分析用ソフトウェアPraatを用いることが可能である。Praatで使われているT-SOLAアルゴリズムを用いるとよい。

本発明を、コンピュータに、音声変形装置における各動作または音声変形方法における各工程を実行させる音声変形プログラムによって構成することも可能である。

１１韻律情報生成部
１４，２５合成部
２４促音継続時間変更部
２６，３４促音文節検出部

Claims

促音を含む文節を有する文章を示すテキストデータに基づいて、韻律情報を生成する韻律情報生成部と、
前記文章を発音させるときに、前記促音が継続する継続時間が、前記促音より前に位置する第１の基準音素の音、または、前記促音を含む音素以降の第２の基準音素の音が継続する継続時間よりも長くなるように、音の継続時間を変更して、前記韻律情報と音道情報とを合成した音声データを生成する合成部と、
を備えることを特徴とする音声変形装置。
文章を発音させるときのタイミングが予め設定されている文章に含まれている促音を含む文節を検出する促音文節検出部と、
前記促音文節検出部で検出された促音を含む文節における前記促音が継続する継続時間を、前記タイミングに基づく継続時間よりも長くなるように変更する促音継続時間変更部と、
を備えることを特徴とする音声変形装置。
前記促音継続時間変更部は、前記促音が継続する継続時間が、前記促音より前に位置する第１の基準音素の音、または、前記促音を含む音素以降の第２の基準音素の音が継続する継続時間よりも長くなるように、音の継続時間を変更することを特徴とする請求項２記載の音声変形装置。
前記促音継続時間変更部は、第１の基準音素から前記促音まで継続時間を連続的に長くすることを特徴とする請求項２または３に記載の音声変形装置。
前記促音継続時間変更部は、前記促音から第２の基準音素まで継続時間を連続的に短くすることを特徴とする請求項２〜４のいずれか１項に記載の音声変形装置。
前記文章の音声データを含む音声ファイルと、前記文章を示すテキストデータと、前記テキストデータのタイミングデータとが入力され、
前記促音文節検出部は、前記テキストデータに基づいて促音を含む文節を検出し、
前記促音継続時間変更部は、前記タイミングデータに基づいて前記促音が継続する継続時間を変更する
ことを特徴とする請求項２または３に記載の音声変形装置。
人が発する文章の音声をマイクロホンで収音した音声データと、前記音声データを音声認識することによって生成した前記文章を示すテキストデータとが入力され、
前記促音文節検出部は、前記テキストデータに基づいて促音を含む文節を検出し、
前記促音継続時間変更部は、前記音声データに含まれるタイミング情報に基づいて前記促音が継続する継続時間を変更する
ことを特徴とする請求項２または３に記載の音声変形装置。
促音を含む文節を有する文章を示すテキストデータを入力する文章入力工程と、
前記文章を発音させるときに、前記促音が継続する継続時間が、前記促音より前に位置する第１の基準音素の音、または、前記促音を含む音素以降の第２の基準音素の音が継続する継続時間よりも長くなるように、音の継続時間を変更する促音継続時間変更工程と、
を含むことを特徴とする音声変形方法。
文章を発音させるときのタイミングが予め設定されている文章を示す音声データを入力する文章入力工程と、
前記文章に含まれている促音を含む文節を検出する促音文節検出工程と、
前記促音文節検出工程にて検出された促音を含む文節における前記促音が継続する継続時間を、前記タイミングに基づく継続時間よりも長くなるように変更する促音継続時間変更工程と、
を含むことを特徴とする音声変形方法。
前記促音継続時間変更工程は、前記促音が継続する継続時間が、前記促音より前に位置する第１の基準音素の音、または、前記促音を含む音素以降の第２の基準音素の音が継続する継続時間よりも長くなるように、音の継続時間を変更することを特徴とする請求項９記載の音声変形方法。