JP2015102772A - 音声発生装置、音声変形装置及び方法 - Google Patents

音声発生装置、音声変形装置及び方法 Download PDF

Info

Publication number
JP2015102772A
JP2015102772A JP2013244524A JP2013244524A JP2015102772A JP 2015102772 A JP2015102772 A JP 2015102772A JP 2013244524 A JP2013244524 A JP 2013244524A JP 2013244524 A JP2013244524 A JP 2013244524A JP 2015102772 A JP2015102772 A JP 2015102772A
Authority
JP
Japan
Prior art keywords
sentence
speech
phrase
sound
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013244524A
Other languages
English (en)
Other versions
JP6260228B2 (ja
Inventor
充伸 神沼
Mitsunobu Kaminuma
充伸 神沼
健太 南
Kenta Minami
健太 南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Original Assignee
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Motor Co Ltd filed Critical Nissan Motor Co Ltd
Priority to JP2013244524A priority Critical patent/JP6260228B2/ja
Publication of JP2015102772A publication Critical patent/JP2015102772A/ja
Application granted granted Critical
Publication of JP6260228B2 publication Critical patent/JP6260228B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】簡易な構成で音声の親しさの程度を効果的に増減させることができる音声変形装置を提供する。【解決手段】韻律情報修正部13は、複数の文節よりなる文章を音声で表現するに際し、文章の最後の文節より前に位置する文節内のいずれかの位置であり、文章の最初の音素以外の位置を開始位置とし、開始位置以降全体の周波数を一定の周波数だけ上昇または下降させるように韻律情報を修正する。合成部14は、韻律情報修正部13によって修正された韻律情報と音道情報とを合成することにより、文章の音声データを生成する。【選択図】図1

Description

本発明は、音声を聞いた人が感じる親しさの程度を増減させた音声を再生することができる音声発生装置、音声を聞いた人が感じる親しさの程度を増減させることができる音声変形装置及び方法に関する。
近年、電子機器の操作方法を操作者に音声で説明する音声ガイダンスが普及している。音声ガイダンスに用いられる音声は、韻律が平坦で感情のこもっていない音声であることが多い。特許文献1には、無感情な音声に感情を付与する音声合成装置が記載されている。
特開平7−72900号公報
従来の音声変形装置である特許文献1に記載の音声合成装置は、ニューラルネットワークを用いて無感情な音声のパラメータを感情のこもったパラメータに変換する学習を行わせることによって、無感情な音声に感情を付与する。よって、特許文献1に記載の音声変形装置においては、煩雑な構成・手順が必要となってしまうという問題点がある。
本発明はこのような問題点に鑑み、音声を聞いた人が感じる親しさの程度を簡易に増減させた音声を再生することができる音声発生装置、簡易な構成・手順で音声の親しさの程度を効果的に増減させることができる音声変形装置及び方法を提供することを目的とする。
本発明は、複数の文節よりなる文章の最後の文節より前に位置する文節内のいずれかの位置であり、文章の最初の音素以外の位置を開始位置とし、開始位置以降全体の周波数を一定の周波数だけ上昇または下降させた韻律情報を含む音声とすることによって、人が感じる音声の親しさの程度を変化させる。
本発明の音声発生装置によれば、音声を聞いた人が感じる親しさの程度を簡易に増減させた音声を再生することができる。本発明の音声変形装置及び方法によれば、簡易な構成・手順で音声の親しさの程度を効果的に増減させることができる。
第1実施形態の音声発生装置及び音声変形装置を示すブロック図である。 第2実施形態の音声発生装置及び音声変形装置を示すブロック図である。 第3実施形態の音声発生装置及び音声変形装置を示すブロック図である。 実施形態の音声変形方法を説明するための第1の例文の振幅波形と第1の例文を構成する文節及び音素を示す図である。 実施形態の音声変形方法を説明するための第2の例文の振幅波形と第2の例文を構成する文節及び音素を示す図である。 文章における最後の文節の1つ前の文節以降の周波数を上昇させたときの振幅と周波数の特性を示す図である。 文章における最後の文節より1つ前の文節の最初の音素を開始位置として、周波数を上昇させる例を示す図である。 文章における最後の文節より1つ前の文節の最初以外の音素を開始位置として、周波数を上昇させる例を示す図である。 文章における最後の文節より1つ前の文節の最初の音素の母音を開始位置として、周波数を上昇させる例を示す図である。 文章の韻律が示す周波数特性における、最後の文節より1つ前の文節の音素に最も近い極点または変曲点を、周波数を上昇させる開始位置とする場合を説明するための図である。
以下、各実施形態の音声発生装置、音声変形装置及び方法について、添付図面を参照して説明する。各実施形態の音声発生装置、音声変形装置及び方法は、音声に親しさを付与して音声の親しさの程度を増大させることができる。また、各実施形態の音声発生装置、音声変形装置及び方法は、音声の親しさの程度を減少させることもできる。以下の説明では、音声の親しさの程度を増大させる動作を中心に説明することとする。
<第1実施形態の音声発生装置及び音声変形装置>
図1に示す第1実施形態の音声発生装置及び音声変形装置は、音声合成によって音声データを生成する際に、音声の親しさの程度を増大させる構成例である。第1実施形態の音声発生装置及び音声変形装置は、文章を示すテキストデータに基づいて音声データを生成する音声合成装置である。
図1において、所定の文章を示すテキストデータは、韻律情報生成部11と韻律情報修正部13と合成部14とに入力される。テキストデータは、例えばアスキーコードである。
韻律辞書12は、複数の韻律情報のパターンを保持している。韻律情報とは、音声における声質以外の部分であり、アクセントやリズム等を形成する部分である。韻律情報生成部11は、韻律辞書12より、入力されたテキストデータの文章の各文節に適したパターンの韻律情報を読み出して、文章の韻律情報を生成する。韻律情報は、韻律情報修正部13に入力される。
例えば、テキストデータが示す文章が「…を設定いたします」という文章であり、文節「…を」と文節「設定」との間、文節「設定」と文節「いたします」との間に、息継ぎの時間に相当する短時間の間隔を設けるとする。この場合、テキストデータ自体に間隔を設けてもよいし、韻律情報生成部11において間隔を設けた状態の韻律情報を生成してもよい。
韻律情報修正部13は、音声の親しさの程度を増大させるよう韻律情報を修正する。韻律情報修正部13における韻律情報の具体的な修正の仕方については後に詳述する。修正された韻律情報は合成部14に入力される。
音道辞書15は、複数の音道情報のパターンを保持している。音道情報とは、音声における声質の部分である。音道辞書15は、音道情報のパターンを文章単位で保持していてもよいし、単語単位で保持していてもよいし、音素単位で保持していてもよい。
合成部14は、入力されたテキストデータの文章に適したパターンの音道情報を読み出し、修正された韻律情報と音道情報とを合成することによってデジタル信号の音声データを生成する。音声データはD/A変換器16によってアナログ信号に変換されて、スピーカ17より音声として出力される。
図1に示す音声合成装置によって構成した音声発生装置及び音声変形装置は、韻律情報生成部11〜音道辞書15の部分を、演算処理装置(マイクロプロセッサ)と記憶装置とを含むマイクロコンピュータで構成することができる。
<第2実施形態の音声発生装置及び音声変形装置>
図2に示す第2実施形態の音声発生装置及び音声変形装置は、音声データが予め音声ファイルとして形成されている場合に音声の親しさの程度を増大させる構成例である。第2実施形態の音声発生装置及び音声変形装置は、文章の音声データを含む音声ファイルと、文章を示すテキストデータと、テキストデータのタイミングデータとに基づいて、音声データの韻律情報を修正する音声処理装置である。
図2において、韻律・声道分離部21には文章の音声データを含む音声ファイルが入力される。音声ファイルは、例えばWAV形式である。音声ファイルはWAV形式に限定されない。
韻律・声道分離部21は、音声ファイルの音声データを韻律情報と声道情報とに分離する。声道情報保持部22は声道情報を保持する。韻律情報保持部23は韻律情報を保持する。
修正位置検出部26には、音声ファイルの音声データを示すテキストデータとタイミングデータとが入力される。タイミングデータは、音声データの時間位置を示す。タイミングデータによって、音素の発話開始位置や文節間に息継ぎの時間に相当する間隔を設定することができる。修正位置検出部26は、テキストデータ及びタイミングデータに基づいて、韻律情報修正部24において韻律情報を修正する際の修正位置を検出する。
韻律情報修正部24は、修正位置検出部26が検出した修正位置より韻律情報を修正することによって、音声の親しさの程度を増大させる。修正された韻律情報は合成部14に入力される。修正位置検出部26における修正位置の検出の仕方、及び、韻律情報修正部24における具体的な修正の仕方については後に詳述する。
合成部14は、修正された韻律情報と声道情報保持部22に保持された声道情報とを合成することによってデジタル信号の音声データを生成する。音声データはD/A変換器27によってアナログ信号に変換されて、スピーカ28より音声として出力される。
図2に示す音声処理装置によって構成した音声発生装置及び音声変形装置は、韻律・声道分離部21〜修正位置検出部26の部分を、演算処理装置と記憶装置とを含むマイクロコンピュータで構成することができる。
<第3実施形態の音声発生装置及び音声変形装置>
図3に示す第3実施形態の音声発生装置及び音声変形装置は、人が話した音声の親しさの程度を増大させる構成例である。図3において、図2と同一部分には同一符号を付し、その説明を適宜省略する。
第3実施形態の音声発生装置及び音声変形装置は、人が発する文章の音声をマイクロホンで収音した音声データと、音声データを音声認識することによって生成した文章を示すテキストデータとに基づいて、音声データの韻律情報を修正する音声処理装置である。
図3において、マイクロホン31は人が発した音声を収音してアナログの音声信号を出力する。A/D変換器32は、アナログの音声信号をデジタルの音声データに変換する。音声データは、韻律・声道分離部21と音声認識部33とに入力される。
音声認識部33は、入力された音声データの音声を認識してテキストデータを出力する。テキストデータは、修正位置検出部34に入力される。修正位置検出部34は、例えば形態素解析の手法を用いて韻律情報を修正する際の修正位置を検出する。韻律情報修正部24は、修正位置検出部34が検出した修正位置より韻律情報を修正することによって、音声の親しさの程度を増大させる。
図3に示す音声処理装置によって構成した音声発生装置及び音声変形装置は、マイクロホン31,A/D変換器32,D/A変換器27,スピーカ28以外の部分を、演算処理装置と記憶装置とを含むマイクロコンピュータで構成することができる。
<実施形態の音声変形方法>
図1の韻律情報修正部13、図2及び図3の韻律情報修正部24における韻律情報の修正方法、及び、図2の修正位置検出部26、図3の修正位置検出部34における修正位置の検出方法について説明する。
図4の(a)は、第1の例文として「経由地にします」なる音声を発生させたときの振幅波形を示している。図4の(b)に示すように、「経由地にします」をローマ字表記した「KeIYuChiNiShiMaSu」のKe,I,Yu,Chi,Ni,Shi,Ma,Suはそれぞれ音素番号1〜8の音素を示している。音素番号1〜8の音素は、例えば時間位置2.22秒から2.85秒までのそれぞれの時間位置に位置している。
「KeIYuChi」は文節Ph1、「Ni」は文節Ph2、「ShiMaSu」は文節Ph3である。実施形態の音声変形方法においては、複数の文節を有する文章の音声を発生させるとき、文章の最後の文節より前に位置する文節内のいずれかの位置を開始位置とし、開始位置以降全体の周波数を一定の周波数だけ上昇させることによって、音声の親しさの程度を増大させる。但し、文章の最初の音素を開始位置としない。
図4の(b)に示す例では、図1の韻律情報修正部13、図2及び図3の韻律情報修正部24は、文節Ph3より前に位置する文節Ph1,Ph2内のいずれかの位置であり、最初の文節である文節Ph1の最初の音素以外の位置を開始位置とする。韻律情報修正部13,24は、その開始位置以降全体の周波数を一定の周波数だけ上昇させる。図2の修正位置検出部26、図3の修正位置検出部34は、それぞれの文節Ph1〜Ph3を検出する。
図5の(a),(b)は他の例を示す。図5の(a)は、第2の例文として「ゆっくり楽しんできて下さいね」なる音声を発生させたときの振幅波形を示している。
図5の(b)に示すように、「ゆっくり楽しんできて下さいね」をローマ字表記した「YuKkuRiTaNoShiNDeKiTeKuDaSaINe」のYu,Kku,Ri,Ta,No,Shi,N,De,Ki,Te,Ku,Da,Sa,I,Neはそれぞれ音素番号1〜15の音素を示している。音素番号1〜15の音素は、例えば時間位置2.22秒から3.49秒までのそれぞれの時間位置に位置している。
「YuKkuRi」は文節Ph1、「TaNoShiNDe」は文節Ph2、「KiTe」は文節Ph3、「KuDaSaINe」は文節Ph4である。図5の(b)に示す例では、図1の韻律情報修正部13、図2及び図3の韻律情報修正部24は、文章における最後の文節Ph4より前に位置する文節内のいずれかの位置であり、最初の文節Ph1の最初の音素「Yu」以外の位置を開始位置とする。韻律情報修正部13,24は、その開始位置以降全体の周波数を一定の周波数だけ上昇させることによって、音声の親しさの程度を増大させる。
図6の(a),(b)は、図5の(b)における文節Ph3,Ph4の部分の周波数を上昇させたときの振幅と周波数の特性を示している。図6の(b)に示す黒丸の点は、周波数特性における極大値もしくは極小値を示す極点、または、変曲点を示している。黒丸の点の位置は、音素の位置とは必ずしも一致しない。但し、音素の位置が極点または変曲点となる場合も多い。
図6の(a),(b)は、文節Ph3の最初の音素「Ki」における子音K以降の周波数を上昇させた場合を示している。図6の(b)において、破線は周波数を上昇させていない状態の特性、実線は周波数を上昇させた状態の特性を示している。ここでは、「KiTe KuDaSaINe」の部分の韻律の周波数を一律に40Hz上昇させた例を示している。
周波数を上昇させても、図6の(a)に示す振幅の特性には影響を与えない。よって、周波数を上昇させていない状態と周波数を上昇させた状態とで、振幅の特性には変化はない。
図7は、図6の(a),(b)と同様であり、最後の文節Ph4の1つ前の文節Ph3における最初の音素「Ki」を開始位置とした例である。図7では、文節Ph3における音素「Ki」の時間位置は2.93と設定されている。この時間位置2.93は子音Kの位置を示す。よって、文節Ph3の子音K以降全体の周波数が上昇することになる。
図8は、最後の文節Ph4の1つ前の文節Ph3における2番目(ここでは最後)の音素「Te」を開始位置とした例である。図8では、文節Ph3における音素「Te」の時間位置は3.01と設定されている。この時間位置3.01は子音Tの位置を示す。よって、文節Ph3の子音T以降全体の周波数が上昇することになる。
図9に示す例では、音素「Ki」の子音Kの時間位置が2.93、母音iの時間位置が2.94と別々に設定されている。このような場合には、文節Ph3の音素「Ki」における母音i以降の周波数を上昇させてもよい。
このように、韻律情報修正部13,24は、文章の最後の文節より前に位置する文節内のいずれかの音素の子音の位置を開始位置としてもよいし、母音の位置を開始位置としてもよい。但し、韻律情報修正部13,24は、文章の最初の音素を除外する。
図7〜図9では、1つ前の文節Ph3内の位置を開始位置とした例である。文節Ph2内の位置を開始位置としてもよいし、文節Ph1では、最初の音素の「Yu」を除き、文節Ph1内の位置を開始位置としてもよい。
図10を用いて、文章における最後の文節より前に位置する文節内いずれかの位置を開始位置として、周波数を上昇させる際のさらに詳細かつ好ましい音声変形方法について説明する。ここでは、「ゆっくり楽しんできて下さいね」という文章の「…しんで きて…」の部分を例にする。「…しんで きて…」の部分の音声の韻律が図10の(a)に示すような周波数特性を有するとする。ここでは、簡略化のため周波数特性を概略的に示している。
図10の(a)〜(c)において、黒丸の点p1〜p6は、図6と同様、極点または変曲点を示している。点p1〜p6の位置は、音素の位置とは必ずしも一致しないが、音素の位置が極点または変曲点となる場合も多い。
図1の韻律情報修正部13、図2及び図3の韻律情報修正部24は、最後の文節の1つ前の文節における最初の音素「き」を選択した場合、音素「き」に最も近い位置であり、文章の韻律が示す周波数特性の極点または変曲点を、周波数を一定の周波数だけ上昇させる開始位置とすることができる。
図10の(a)の例では、「きて…」の最初の音素である「き」に最も近い極点または変曲点は点p6である。図1の韻律情報修正部13、図2及び図3の韻律情報修正部24は、点p6を周波数上昇の開始位置として、点p6以降全体の周波数を上昇させる。
図10の(b)は、点p6以降の周波数を上昇させた状態を示している。周波数の上昇によって、点p6は点p6’へと移る。
図10の(b)に示すような周波数特性は、周波数が急激に変化する。そこで、周波数を一定の周波数だけ上昇させる開始位置(ここでは点p6(p6’))より所定時間前の位置より、開始位置まで周波数を連続的に変化させることが好ましい。開始位置より所定時間前の位置も、極点または変曲点であるのがよい。
図10の(c)の例では、所定時間前の位置を、開始位置より前に位置する極点または変曲点である点p5としている。点p5から点p6’まで周波数が連続的に上昇するように周波数を直線的に変化させてもよいし、上に凸の曲線状または下に凸の曲線状に変化させてもよい。
ここで、点p5から点p6’までは0.05秒以上の時間があると自然に聞こえやすい。よって、開始位置である極点または変曲点と、開始位置の直前に位置する極点または変曲点との時間間隔が0.05秒未満である場合には、開始位置に対して、開始位置より前の0.05秒以上の時間間隔を有する極点または変曲点を選択するのがよい。
文章の最後の文節より前に位置する文節内のいずれかの位置とは、文章の最初の音素を除き、前に位置するいずれかの文節内のいずれかの音素に最も近い極点または変曲点であってもよい。
なお、「はい」や「すみません」のように文章が1つの文節のみからなる場合には、当然のことながら、文章の最後の文節より前に位置する文節が存在しないので、周波数を上昇させる対象とはしない。
上述した開始位置以降全体の周波数を一定の周波数だけ上昇させた音声を複数の人が聞き、親しさの程度の変化を評価した結果、音声の親しさの程度を増大させる効果が確認されている。
また、上述した開始位置以降全体の周波数を一定の周波数だけ下降させると、音声の親しさの程度が減少することも確認されている。各実施形態の音声発生装置、音声変形装置及び方法は、人が音声を聞いたときに感じる親しさの程度を意図的に減少させるために、上述した開始位置以降全体の周波数を一定の周波数だけ下降させることも可能である。
以上のように、各実施形態の音声発生装置及び音声変形装置は、韻律情報修正部13,24と、合成部14,25とを備える。韻律情報修正部13,24は、複数の文節よりなる文章を音声で表現するに際し、文章の最後の文節より前に位置する文節内のいずれかの位置であり、文章の最初の音素以外の位置を開始位置とする。韻律情報修正部13,24は、開始位置以降全体の周波数を一定の周波数だけ上昇または下降させるように韻律情報を修正する。
合成部14,25は、韻律情報修正部13,24によって修正された韻律情報と音道情報とを合成することにより、文章の音声データを生成する。
各実施形態の音声発生装置及び音声変形装置によれば、簡易な構成で音声の親しさの程度を効果的に増減させることができる。
韻律情報修正部13,24は、文章の最後の文節より前に位置する文節内のいずれかの音素の子音または母音の位置を、周波数を一定の周波数だけ上昇または下降させる開始位置とする。これによって、最後の文節より前の開始位置より韻律情報を修正することができる。
韻律情報修正部13,24は、文章の最後の文節より前に位置する文節内のいずれかの音素に最も近い位置であり、文章の韻律が示す周波数特性の極点または変曲点を開始位置としてもよい。これによって、最後の文節より前の開始位置より韻律情報を修正することができる。
このとき、韻律情報修正部13,24は、開始位置より所定時間前の位置より開始位置まで周波数を連続的に変化させることが好ましい。このようにすれば、違和感がほとんどなく、音声の親しさの程度を増減させることができる。
韻律情報修正部13,24は、所定時間前の位置を、開始位置より前に位置する極点または変曲点とするのがよい。このようにすれば、周波数特性の変化に合わせて周波数を連続的に変化させることができる。
実施形態の音声発生装置及び音声変形装置は、文章を示すテキストデータに基づいて音声データを生成する音声合成装置であってよい。音声発生装置及び音声変形装置を音声合成装置で構成すれば、音声合成によって音声の親しさの程度を増減させた音声データを生成することができる。
実施形態の音声発生装置及び音声変形装置は、文章の音声データを含む音声ファイルと、文章を示すテキストデータと、テキストデータのタイミングデータとに基づいて、音声データの韻律情報を修正する音声処理装置であってよい。音声発生装置及び音声変形装置をこのように動作する音声処理装置で構成すれば、音声ファイルとして記録された音声データの音声の親しさの程度を増減させることができる。
実施形態の音声発生装置及び音声変形装置は、人が発する文章の音声をマイクロホンで収音した音声データと、音声データを音声認識することによって生成した文章を示すテキストデータとに基づいて、音声データの韻律情報を修正する音声処理装置であってよい。音声発生装置及び音声変形装置をこのように動作する音声処理装置で構成すれば、人が発する音声の親しさの程度を増減させることができる。
実施形態の音声変形方法は、韻律情報修正工程と合成工程とを含む。韻律情報修正工程は、複数の文節よりなる文章の音声データを構成する韻律情報と音道情報とのうち、韻律情報における文章の最後の文節より前に位置する文節内のいずれかの位置であり、文章の最初の音素以外の位置を開始位置とする。韻律情報修正工程は、開始位置以降全体の周波数を一定の周波数だけ上昇または下降させるよう修正する。
合成工程は、韻律情報修正工程にて修正された韻律情報と音道情報とを合成して、文章の音声データを発音させたときの音声が有する親しさの程度を変化させた音声データを生成する。
実施形態の音声変形方法によれば、簡易な手順で音声の親しさの程度を効果的に増減させることができる。
本発明は以上説明した各実施形態の音声発生装置、音声変形装置及び方法に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々変更可能である。
図1〜図3に示す音声発生装置は、音声変形装置を備えた構成を示している。音声発生装置が音声変形装置を備えず、音声変形装置を音声発生装置の外部に設けてもよい。音声発生装置は、文章の最後の文節より前に位置する文節内のいずれかの位置であり、文章の最初の音素以外の位置を開始位置とし、開始位置以降全体の周波数を一定の周波数だけ上昇または下降させた韻律情報を含むように生成された音声データを保持する記憶部と、記憶部より読み出された音声データを再生する音声再生部とを備える構成であってもよい。
図1におけるD/A変換器16及びスピーカ17、図2,図3におけるD/A変換器27及びスピーカ28は、音声再生部の少なくとも一部を構成する。音声発生装置が音声データを保持する記憶部を備える場合、記憶部から音声データを読み出す読み出し部も音声再生部の一部とすることができる。
このように、音声発生装置は、複数の文節よりなる文章の最後の文節より前に位置する文節内のいずれかの位置であり、文章の最初の音素以外の位置を開始位置とし、開始位置以降全体の周波数を一定の周波数だけ上昇または下降させた韻律情報を含むように生成された音声データを再生する音声再生部を備えればよい。
音声発生装置及び音声変形装置をハードウェアで構成してもよいし、ソフトウェアで構成してもよく、両者を混在させて構成してもよい。
音声を韻律情報と声道とに分離して合成する際に、例えば、vocoderと称される一般的な音声分析合成系を用いることが可能である。ソフトウェアとしては、音声分析用ソフトウェアPraatを用いることが可能である。Praatで使われているT-SOLAアルゴリズムを用いるとよい。
本発明を、コンピュータに、音声変形方法における韻律情報修正工程と合成工程と同等の、韻律情報修正ステップと合成ステップとを実行させる音声変形プログラムによって実現することも可能である。
13,24 韻律情報修正部
14,25 合成部
16,27 D/A変換器(音声再生部)
17,28 スピーカ(音声再生部)

Claims (10)

  1. 複数の文節よりなる文章の最後の文節より前に位置する文節内のいずれかの位置であり、前記文章の最初の音素以外の位置を開始位置とし、前記開始位置以降全体の周波数を一定の周波数だけ上昇または下降させた韻律情報を含むように生成された音声データを再生する音声再生部を備えることを特徴とする音声発生装置。
  2. 複数の文節よりなる文章を音声で表現するに際し、前記文章の最後の文節より前に位置する文節内のいずれかの位置であり、前記文章の最初の音素以外の位置を開始位置とし、前記開始位置以降全体の周波数を一定の周波数だけ上昇または下降させるように韻律情報を修正する韻律情報修正部と、
    前記韻律情報修正部によって修正された韻律情報と音道情報とを合成することにより、前記文章の音声データを生成する合成部と、
    を備えることを特徴とする音声変形装置。
  3. 前記韻律情報修正部は、前記文章の最後の文節より前に位置する文節内のいずれかの音素の子音または母音の位置を前記開始位置とすることを特徴とする請求項2記載の音声変形装置。
  4. 前記韻律情報修正部は、前記文章の最後の文節より前に位置する文節内のいずれかの音素に最も近い位置であり、前記文章の韻律が示す周波数特性の極点または変曲点を前記開始位置とすることを特徴とする請求項2記載の音声変形装置。
  5. 前記韻律情報修正部は、前記開始位置より所定時間前の位置より前記開始位置まで周波数を連続的に変化させることを特徴とする請求項4記載の音声変形装置。
  6. 前記韻律情報修正部は、前記所定時間前の位置を、前記開始位置より前に位置する極点または変曲点とすることを特徴とする請求項4記載の音声変形装置。
  7. 前記音声変形装置は、前記文章を示すテキストデータに基づいて前記音声データを生成する音声合成装置であることを特徴とする請求項2〜6のいずれか1項に記載の音声変形装置。
  8. 前記音声変形装置は、前記文章の音声データを含む音声ファイルと、前記文章を示すテキストデータと、前記テキストデータのタイミングデータとに基づいて、前記音声データの韻律情報を修正する音声処理装置であることを特徴とする請求項2〜6のいずれか1項に記載の音声変形装置。
  9. 前記音声変形装置は、人が発する文章の音声をマイクロホンで収音した音声データと、前記音声データを音声認識することによって生成した前記文章を示すテキストデータとに基づいて、前記音声データの韻律情報を修正する音声処理装置であることを特徴とする請求項2〜6のいずれか1項に記載の音声変形装置。
  10. 複数の文節よりなる文章の音声データを構成する韻律情報と音道情報とのうち、前記韻律情報における前記文章の最後の文節より前に位置する文節内のいずれかの位置であり、前記文章の最初の音素以外の位置を開始位置とし、前記開始位置以降全体の周波数を一定の周波数だけ上昇または下降させるよう修正する韻律情報修正工程と、
    前記韻律情報修正工程にて修正された韻律情報と前記音道情報とを合成して、前記文章の音声データを発音させたときの音声が有する親しさの程度を変化させた音声データを生成する合成工程と、
    を含むことを特徴とする音声変形方法。
JP2013244524A 2013-11-27 2013-11-27 音声合成装置及び方法 Active JP6260228B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013244524A JP6260228B2 (ja) 2013-11-27 2013-11-27 音声合成装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013244524A JP6260228B2 (ja) 2013-11-27 2013-11-27 音声合成装置及び方法

Publications (2)

Publication Number Publication Date
JP2015102772A true JP2015102772A (ja) 2015-06-04
JP6260228B2 JP6260228B2 (ja) 2018-01-17

Family

ID=53378486

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013244524A Active JP6260228B2 (ja) 2013-11-27 2013-11-27 音声合成装置及び方法

Country Status (1)

Country Link
JP (1) JP6260228B2 (ja)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05113795A (ja) * 1991-05-31 1993-05-07 Oki Electric Ind Co Ltd 音声合成装置
JPH05134691A (ja) * 1991-10-31 1993-05-28 Internatl Business Mach Corp <Ibm> 音声合成方法および装置
JPH06342297A (ja) * 1993-06-02 1994-12-13 Sony Corp 音声合成装置
JPH11202884A (ja) * 1997-05-21 1999-07-30 Nippon Telegr & Teleph Corp <Ntt> 合成音声メッセージ編集作成方法、その装置及びその方法を記録した記録媒体
JP2002196800A (ja) * 2000-12-22 2002-07-12 Sharp Corp 音声合成装置
JP2004226505A (ja) * 2003-01-20 2004-08-12 Toshiba Corp ピッチパタン生成方法、音声合成方法とシステム及びプログラム
JP2007183421A (ja) * 2006-01-06 2007-07-19 Matsushita Electric Ind Co Ltd 音声合成装置
JP2009047957A (ja) * 2007-08-21 2009-03-05 Toshiba Corp ピッチパターン生成方法及びその装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05113795A (ja) * 1991-05-31 1993-05-07 Oki Electric Ind Co Ltd 音声合成装置
JPH05134691A (ja) * 1991-10-31 1993-05-28 Internatl Business Mach Corp <Ibm> 音声合成方法および装置
JPH06342297A (ja) * 1993-06-02 1994-12-13 Sony Corp 音声合成装置
JPH11202884A (ja) * 1997-05-21 1999-07-30 Nippon Telegr & Teleph Corp <Ntt> 合成音声メッセージ編集作成方法、その装置及びその方法を記録した記録媒体
JP2002196800A (ja) * 2000-12-22 2002-07-12 Sharp Corp 音声合成装置
JP2004226505A (ja) * 2003-01-20 2004-08-12 Toshiba Corp ピッチパタン生成方法、音声合成方法とシステム及びプログラム
JP2007183421A (ja) * 2006-01-06 2007-07-19 Matsushita Electric Ind Co Ltd 音声合成装置
JP2009047957A (ja) * 2007-08-21 2009-03-05 Toshiba Corp ピッチパターン生成方法及びその装置

Also Published As

Publication number Publication date
JP6260228B2 (ja) 2018-01-17

Similar Documents

Publication Publication Date Title
JP4363590B2 (ja) 音声合成
JP4355772B2 (ja) 力み変換装置、音声変換装置、音声合成装置、音声変換方法、音声合成方法およびプログラム
JP4878538B2 (ja) 音声合成装置
WO2014046789A1 (en) System and method for voice transformation, speech synthesis, and speech recognition
JP2008545995A (ja) ハイブリッド音声合成装置、方法および用途
US9147392B2 (en) Speech synthesis device and speech synthesis method
JP6291808B2 (ja) 音声合成装置及び方法
JP2012042974A (ja) 音声合成装置
JP6260228B2 (ja) 音声合成装置及び方法
JP6260227B2 (ja) 音声合成装置及び方法
JP2000250401A (ja) 言語学習方法、言語学習装置およびプログラムを記録した媒体
Petrushin et al. Whispered speech prosody modeling for TTS synthesis
JP2002525663A (ja) ディジタル音声処理装置及び方法
JP6289950B2 (ja) 読み上げ装置、読み上げ方法及びプログラム
JP2013033103A (ja) 声質変換装置および声質変換方法
JP2006139162A (ja) 語学学習装置
JP3578598B2 (ja) 音声合成装置
JPH07200554A (ja) 文章読み上げ装置
JP2001125599A (ja) 音声データ同期装置及び音声データ作成装置
JP2016065976A (ja) 音声変形装置及び方法
JP2013195928A (ja) 音声素片切出装置
Ophaug The diminished vowel space in classical singing and the tug of war between" speech-true" and modified vowel qualities
JP6274470B1 (ja) 上下発声母音表記方法
JP3883780B2 (ja) 音声合成装置
Jacob et al. Developing a child friendly text-to-speech system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160926

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170906

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170912

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171020

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171127

R151 Written notification of patent or utility model registration

Ref document number: 6260228

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151