JP2016065976A - 音声変形装置及び方法 - Google Patents

音声変形装置及び方法 Download PDF

Info

Publication number
JP2016065976A
JP2016065976A JP2014194647A JP2014194647A JP2016065976A JP 2016065976 A JP2016065976 A JP 2016065976A JP 2014194647 A JP2014194647 A JP 2014194647A JP 2014194647 A JP2014194647 A JP 2014194647A JP 2016065976 A JP2016065976 A JP 2016065976A
Authority
JP
Japan
Prior art keywords
sound
duration
sentence
prompt
prompt sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014194647A
Other languages
English (en)
Inventor
充伸 神沼
Mitsunobu Kaminuma
充伸 神沼
健太 南
Kenta Minami
健太 南
達也 北村
Tatsuya Kitamura
達也 北村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Original Assignee
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Motor Co Ltd filed Critical Nissan Motor Co Ltd
Priority to JP2014194647A priority Critical patent/JP2016065976A/ja
Publication of JP2016065976A publication Critical patent/JP2016065976A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

【課題】簡易な構成で音声の親しさの程度を効果的に増加させることができる音声変形装置を提供する。
【解決手段】促音文節検出部26は、文章に含まれている促音を含む文節を検出する。文章は、文章を発音させるときのタイミングが予め設定されている。促音継続時間変更部24は、促音文節検出部26で検出された促音を含む文節における促音が継続する継続時間を、予め設定されたタイミングに基づく継続時間よりも長くなるように変更する。
【選択図】図2

Description

本発明は、音声を聞いた人が感じる親しさの程度を増加させることができる音声変形装置及び方法に関する。
近年、電子機器の操作方法を操作者に音声で説明する音声ガイダンスが普及している。音声ガイダンスに用いられる音声は、韻律が平坦で感情のこもっていない音声であることが多い。特許文献1には、無感情な音声に感情を付与する音声合成装置が記載されている。
特開平7−72900号公報
従来の音声変形装置である特許文献1に記載の音声合成装置は、ニューラルネットワークを用いて無感情な音声のパラメータを感情のこもったパラメータに変換する学習を行わせることによって、無感情な音声に感情を付与する。よって、特許文献1に記載の音声変形装置においては、煩雑な構成・手順が必要となってしまうという問題点がある。
本発明はこのような問題点に鑑み、簡易な構成・手順で音声の親しさの程度を効果的に増加させることができる音声変形装置及び方法を提供することを目的とする。
本発明は、促音が継続する継続時間を変更することによって、人が感じる音声の親しさの程度を変化させる。
本発明の音声変形装置及び方法によれば、簡易な構成・手順で音声の親しさの程度を効果的に増加させることができる。
第1実施形態の音声変形装置を示すブロック図である。 第2実施形態の音声変形装置を示すブロック図である。 第3実施形態の音声変形装置を示すブロック図である。 一実施形態の音声変形方法を説明するための第1の例文の振幅波形の一例を示す波形図である。 第1の例文を構成する文節及び音素を示す図である。 第1の例文の振幅波形と周波数の特性の一例を示す図である。 一実施形態の音声変形方法による音の継続時間の変更の仕方を説明するための図である。 一実施形態の音声変形方法による効果の検証結果を示す図である。
以下、各実施形態の音声変形装置及び方法について、添付図面を参照して説明する。各実施形態の音声変形装置及び方法は、後述のようにして、音声の親しさの程度を増大させる。
<第1実施形態の音声変形装置>
図1に示す第1実施形態の音声変形装置は、音声合成によって音声データを生成する際に、音声の親しさの程度を増大させる構成例である。第1実施形態の音声変形装置は、文章を示すテキストデータに基づいて音声データを生成する音声合成装置である。
図1において、所定の文章を示すテキストデータは、韻律情報生成部11と合成部14とに入力される。テキストデータは、例えばアスキーコードである。
韻律辞書12は、複数の韻律情報のパターンを保持している。韻律情報とは、音声における声質以外の部分であり、アクセントやリズム等を形成する部分である。韻律情報生成部11は、韻律辞書12より、入力されたテキストデータの文章の各文節に適したパターンの韻律情報を読み出して、文章の韻律情報を生成する。韻律情報は、合成部14に入力される。
例えば、テキストデータが示す文章が「…を設定いたします」という文章であり、文節「…を」と文節「設定」との間、文節「設定」と文節「いたします」との間に、息継ぎの時間に相当する短時間の間隔を設けるとする。この場合、テキストデータ自体に間隔を設けてもよいし、韻律情報生成部11において間隔を設けた状態の韻律情報を生成してもよい。
音道辞書15は、複数の音道情報のパターンを保持している。音道情報とは、音声における声質の部分である。音道辞書15は、音道情報のパターンを文章単位で保持していてもよいし、単語単位で保持していてもよいし、音素単位で保持していてもよい。
合成部14は、入力されたテキストデータの文章に適したパターンの音道情報を読み出し、韻律情報と音道情報とを合成することによってデジタル信号の音声データを生成する。音声データはD/A変換器16によってアナログ信号に変換されて、スピーカ17より音声として出力される。
ところで、例えば「ゆっくり楽しんできてくださいね」における「ゆっくり」のように、促音を含む文節を有する文章がある。合成部14は、文章をスピーカ17によって発音させるときの音の状態が、次のような状態となるように、韻律情報と音道情報とを合成した音声データを生成する。
合成部14は、促音が継続する継続時間が、促音より前に位置する第1の基準音素の音、または、促音を含む音素以降の第2の基準音素の音が継続する継続時間よりも長くなるように、音の継続時間を変更する。音の継続時間の具体的な変更の仕方については後に詳述する。
図1に示す音声合成装置によって構成した音声変形装置は、韻律情報生成部11〜音道辞書15の部分を、演算処理装置(マイクロプロセッサ)と記憶装置とを含むマイクロコンピュータで構成することができる。
<第2実施形態の音声変形装置>
図2に示す第2実施形態の音声変形装置は、音声データが予め音声ファイルとして形成されている場合に音声の親しさの程度を増大させる構成例である。
第2実施形態の音声変形装置は、文章の音声データを含む音声ファイルと、文章を示すテキストデータと、テキストデータのタイミングデータとに基づいて、音の継続時間の変更する音声処理装置である。音声ファイルが示す文章は、タイミングデータによって、文章を発音させるときのタイミングが予め設定されている。
図2において、韻律・声道分離部21には文章の音声データを含む音声ファイルが入力される。音声ファイルは、例えばWAV形式である。音声ファイルはWAV形式に限定されない。
韻律・声道分離部21は、音声ファイルの音声データを韻律情報と声道情報とに分離する。声道情報保持部22は声道情報を保持する。韻律情報保持部23は韻律情報を保持する。韻律情報は、時間位置情報とセットで保持する必要がある。
声道情報保持部22が保持したそれぞれのタイミングにおける声道情報は、タイミング情報と併せて、韻律情報保持部23及び促音継続時間変更部24に入力される。韻律情報保持部23は、韻律情報と声道情報とに基づいて、それぞれの音の継続時間の情報(継続時間情報)を得ることができる。
促音文節検出部26には、音声ファイルの音声データを示すテキストデータとタイミングデータとが入力される。タイミングデータは、音声データの時間位置を示す。タイミングデータによって、音素の発話開始位置や文節間に息継ぎの時間に相当する間隔を設定することができる。
促音文節検出部26は、テキストデータ及びタイミングデータに基づいて、文章に含まれている促音を含む文節を検出する。
促音継続時間変更部24には、タイミングデータと、促音を含む文節の情報とが入力される。促音継続時間変更部24は、促音文節検出部26で検出された促音を含む文節における促音が継続する継続時間を、タイミングデータが示すタイミングに基づく継続時間よりも長くなるように変更する。
促音継続時間変更部24は、タイミングデータを参照する代わりに、韻律情報保持部23からの継続時間情報を参照して、促音が継続する継続時間が長くなるように継続時間を変更してもよい。促音継続時間変更部24は、声道情報保持部22からのタイミング情報も参照するのがよい。音の継続時間の具体的な変更の仕方については後に詳述する。
合成部25は、韻律情報と声道情報とを合成することによってデジタル信号の音声データを生成する。音声データはD/A変換器27によってアナログ信号に変換されて、スピーカ28より音声として出力される。
図2に示す音声処理装置によって構成した音声変形装置は、韻律・声道分離部21〜促音文節検出部26の部分を、演算処理装置と記憶装置とを含むマイクロコンピュータで構成することができる。
<第3実施形態の音声変形装置>
図3に示す第3実施形態の音声変形装置は、人が話した音声の親しさの程度を増大させる構成例である。図3において、図2と同一部分には同一符号を付し、その説明を省略することがある。
第3実施形態の音声変形装置は、人が発する文章の音声をマイクロホンで収音した音声データと、音声データを音声認識することによって生成した文章を示すテキストデータとに基づいて、音の継続時間の変更する音声処理装置である。
音声データは人が発する音声を収音したものであるから、音声データが示す文章は、文章を発音させるときのタイミング情報を有している。よって、音声データが示す文章は、文章を発音させるときのタイミングが予め設定されている文章である。
図3において、マイクロホン31は人が発した音声を収音してアナログの音声信号を出力する。A/D変換器32は、アナログの音声信号をデジタルの音声データに変換する。音声データは、韻律・声道分離部21と音声認識部33とに入力される。
音声認識部33は、入力された音声データの音声を認識してテキストデータを出力する。テキストデータは、促音文節検出部34に入力される。促音文節検出部34は、例えば形態素解析の手法を用いて文章に含まれている促音を含む文節を検出する。
韻律・声道分離部21〜韻律情報保持部23の動作は、第2実施形態の音声変形装置と同様である。
促音継続時間変更部24には、促音を含む文節の情報が入力される。促音継続時間変更部24は、韻律情報保持部23からの継続時間情報を参照して、促音が継続する継続時間が長くなるように継続時間を変更する。音の継続時間の具体的な変更の仕方については後に詳述する。
合成部25,D/A変換器27,スピーカ28の動作は、第2実施形態の音声変形装置と同様である。
図3に示す音声処理装置によって構成した音声変形装置は、マイクロホン31,A/D変換器32,D/A変換器27,スピーカ28以外の部分を、演算処理装置と記憶装置とを含むマイクロコンピュータで構成することができる。
<一実施形態の音声変形方法>
図1の合成部14、図2及び図3の促音継続時間変更部24における促音が継続する継続時間の具体的な変更の仕方について説明する。
図4は、例文として「ゆっくり楽しんできてくださいね」なる音声を発生させたときの振幅波形を示している。
図5に示すように、「ゆっくり楽しんできてくださいね」をローマ字表記した「YuKkuRiTaNoShiNDeKiTeKuDaSaINe」のYu,Kku,Ri,Ta,No,Shi,N,De,Ki,Te,Ku,Da,Sa,I,Neはそれぞれ音素番号1〜15の音素を示している。音素番号1〜15の音素は、例えば時間位置2.22秒から3.49秒までのそれぞれの時間位置に位置している。
例えば、音素Yuにおける時間位置2.22秒とは、子音Yにおける時間位置を示している。子音と母音とよりなる他の音素も同様に、それぞれ子音における時間位置を示している。厳密には母音の時間位置も存在しているが、ここでは記載を省略している。
「YuKkuRi」は文節Ph1、「TaNoShiNDe」は文節Ph2、「KiTe」は文節Ph3、「KuDaSaINe」は文節Ph4である。文節Ph1は、促音を含む文節である。「Kku」における「K」が促音の位置である。
本実施形態の音声変形方法においては、促音が継続する継続時間を、文章が元々有している文章を発音させるタイミングに基づく継続時間よりも長くなるように変更する。
また、本実施形態の音声変形方法においては、促音が継続する継続時間が、促音より前に位置する第1の基準音素の音、または、促音を含む音素以降の第2の基準音素の音が継続する継続時間よりも長くなるように、音の継続時間を変更する。
本実施形態の音声変形方法は、促音が継続する継続時間を変更することによって、音声の親しさの程度を増大させる。
図6の(a)は、図4と同じであり、「ゆっくり楽しんできてくださいね」なる文章の音声を発生させたときの振幅波形を示している。図6の(b)は、図6の(a)の音声における周波数特性を示している。
図6の(b)に示す黒丸の点は、周波数特性における極大値もしくは極小値を示す極点、または、変曲点を示している。黒丸の点の位置は、音素の位置とは必ずしも一致しない。但し、音素の位置が極点または変曲点となる場合も多い。
図7を用いて、図4〜図6に示す文章を発音させる際の、促音の継続時間をどのように変更するかについて具体的に説明する。
図7の(a)は、図2における音声ファイルまたは図3における音声データのように、文章を発音させるときのタイミングが予め設定されているときの、それぞれの音の継続時間に対する倍率を示している。ここでの音とは、音素Kkuのみ、促音のKとkuの部分とを分けて示す音であり、他は音素の音を示している。
図7の(a)〜(c)における横軸は時間を示している。但し、横軸は、音素Yu,Ri,Ta、促音K、音素Kkuにおけるkuの部分それぞれの厳密な発音タイミングを示すものではない。
図7の(a)は、継続時間変更前のそれぞれの音における元々の継続時間を示しており、倍率は1.0である。継続時間変更前のそれぞれの音が、図5に示すような時間位置で発音されるとすると、図7の(a)は、図5に示すような時間位置そのままで文章を発音させることを意味する。
図7の(b)は、継続時間を変更する第1の例を示している。第1の例においては、図7の(b)に示すように、促音Kにおける継続時間を例えば1.6倍にしている。倍率は1.6に限定されず、1.0倍を超えればよい。
第1の例においては、継続時間を、音素Yuから促音Kまで、1.0倍から1.6倍まで連続的に増大させている。第1の例においては、継続時間を、促音Kからkuの部分まで、1.6倍から1.0倍まで連続的に減少させている。
文節Ph1の「YuKkuRi」の部分の音の継続時間を第1の例のように変更するということは、音素Yuにおける母音uから促音Kの位置まで発音の速度が連続的に遅くなり、促音Kの位置からkuの部分の母音uまで発音の速度が連続的に速くなるということである。
第1の例においては、音素Yuは促音Kより前に位置する第1の基準音素であり、音素Kkuは促音Kを含む音素以降の第2の基準音素である。厳密には、音素Yuはそのまま時間的な第1の基準点となっており、音素Kkuにおけるkuの部分が時間的な第2の基準点となっている。
図7の(c)は、継続時間を変更する第2の例を示している。第2の例においては、図7の(c)に示すように、促音Kにおける継続時間を例えば1.6倍にし、kuの部分における継続時間を例えば1.3倍にしている。倍率は1.6と1.3に限定されるものではない。kuの部分における継続時間の倍率は、促音Kにおける継続時間の倍率よりも小さければよい。
第2の例においては、継続時間を、音素Yuから促音Kまで、1.0倍から1.6倍まで連続的に増大させている。第2の例においては、継続時間を、促音Kからkuの部分まで、1.6倍から1.3倍まで連続的に減少させている。第2の例においては、継続時間を、kuの部分から音素riまで、1.3倍から1.0倍まで連続的に減少させている。
文節Ph1の「YuKkuRi」の部分の音の継続時間を第2の例のように変更するということは、音素Yuにおける母音uから促音Kの位置まで発音の速度が連続的に遅くなり、促音Kの位置から音素riの母音iまで発音の速度が連続的に速くなるということである。
第2の例においては、音素Yuは促音Kより前に位置する第1の基準音素であり、音素riは促音Kを含む音素以降の第2の基準音素である。第2の例では、音素Yuが時間的な第1の基準点、音素riが時間的な第2の基準点となっている。
第2の基準音素を促音よりも大きく離すと違和感が生じるため、第2の基準音素は、促音を含む音素、または、促音を含む音素の次に位置する音素とするのがよい。
図1に示す第1実施形態の音声変形装置においては、合成部14は、図7の(b),(c)に示すように、音の継続時間を変更して、韻律情報と音道情報とを合成した音声データを生成すればよい。
具体的には、合成部14は、促音が継続する継続時間が、促音より前に位置する第1の基準音素の音、または、促音を含む音素以降の第2の基準音素の音が継続する継続時間よりも長い音声データを生成すればよい。
図2,図3に示す第2,第3実施形態の音声変形装置においては、促音継続時間変更部24は、促音が継続する継続時間が、促音より前に位置する第1の基準音素の音、または、促音を含む音素以降の第2の基準音素の音が継続する継続時間よりも長くなるように、音の継続時間を変更すればよい。
図8を用いて、本実施形態の音声変形方法による効果の検証結果を説明する。効果を検証する被験者が、音の継続時間の変更前と変更後の音声刺激のペアを連続して聞き、それぞれの親しさの程度を、変更前と変更後の順序の入れ替えを行って、7件法で評価した。
音の変更の仕方として、図7の(b)に示す第1の例を用い、促音における継続時間を1.0倍,1.3倍,1.6倍,1.9倍の4つで評価した。健常な聴覚を有する20代から50代の15人を被験者とした。但し、継続時間変更前の2つの同じ音をペアとして、そのペアが同じ音であることを認識できなかった3人を除き、12人を被験者とした実験を行った。
12人を被験者それぞれが、継続時間変更前の音声刺激と継続時間変更後の音声刺激それぞれの親しさの程度を、平均オピニオン評点(MOS:Mean Opinion Score)で1〜5の5段階で評価した。
図8に示す破線は、継続時間変更前の音声刺激を聞いたときに被験者が感じた親しさの程度の平均、実線は、継続時間変更後の音声刺激を聞いたときに被験者が感じた親しさの程度の平均を示している。
促音における継続時間が1.0倍を超えると、親しさの程度が向上することが分かる。促音における継続時間が1.9倍となると同じMOS値となり、親しさの程度に差が生じないことが分かる。
促音における継続時間が1.3倍のとき、MOS値は4.24、1.6倍のとき、MOS値は4.17であった。
以上より、促音における継続時間は、1.0倍を超えることが必要である。促音における継続時間は、1.9倍未満であることが必要である。図8より、継続時間は、1.1倍を超えるとよい。継続時間は、1.2倍を超えるとさらによい。継続時間は、1.8倍以下であるとよい。継続時間は、1.7倍以下であるとさらによい。
以上のように、第1実施形態の音声変形装置は、韻律情報生成部11と、合成部14とを備える。第1実施形態の音声変形装置は、音声合成装置である。
韻律情報生成部11は、促音を含む文節を有する文章を示すテキストデータに基づいて、韻律情報を生成する。合成部14は、文章を発音させるときに、促音が継続する継続時間が、前記より前に位置する第1の基準音素の音、または、促音を含む音素以降の第2の基準音素の音が継続する継続時間よりも長くなるように、音の継続時間を変更して、韻律情報と音道情報とを合成した音声データを生成する。
第1実施形態の音声変形装置によれば、簡易な構成で音声の親しさの程度を効果的に増加させることができる。
第2,第3実施形態の音声変形装置は、促音文節検出部26,34と、促音継続時間変更部24とを備える。
促音文節検出部26,34は、文章を発音させるときのタイミングが予め設定されている文章に含まれている促音を含む文節を検出する。促音継続時間変更部24は、促音文節検出部26,34で検出された促音を含む文節における促音が継続する継続時間を、予め設定されたタイミングに基づく継続時間よりも長くなるように変更する。
第2,第3実施形態の音声変形装置によれば、簡易な構成で音声の親しさの程度を効果的に増加させることができる。
第2実施形態の音声変形装置は、文章の音声データを含む音声ファイルと、文章を示すテキストデータと、テキストデータのタイミングデータとに基づいて、音の継続時間を変更する音声処理装置であってよい。第2実施形態の音声変形装置によれば、音声ファイルとして記録された音声データの音声の親しさの程度を増加させることができる。
第3実施形態の音声変形装置は、人が発する文章の音声をマイクロホンで収音した音声データと、音声データを音声認識することによって生成した文章を示すテキストデータとに基づいて、音の継続時間を変更する音声処理装置であってよい。第3実施形態の音声変形装置によれば、人が発する音声の親しさの程度を増加させることができる。
促音継続時間変更部24は、促音が継続する継続時間が、促音より前に位置する第1の基準音素の音、または、促音を含む音素以降の第2の基準音素の音が継続する継続時間よりも長くなるように、音の継続時間を変更するのがよい。このようにすると、音声の親しさの程度を効果的に増加させることができる。
促音継続時間変更部24は、促音が継続する継続時間が、促音より前に位置する第1の基準音素の音、及び、促音を含む音素以降の第2の基準音素の音が継続する継続時間よりも長くなるように、音の継続時間を変更するとさらによい。
促音継続時間変更部24は、第1の基準音素から前記促音まで継続時間を連続的に長くすることが好ましい。促音継続時間変更部24は、促音から第2の基準音素まで継続時間を連続的に短くすることが好ましい。このようにすれば、音の継続時間を変更することによる不自然さをほとんどなくすことができる。
本実施形態の音声変形方法は、促音を含む文節を有する文章を示すテキストデータを入力する文章入力工程と、上記のように音の継続時間を変更する促音継続時間変更工程とを含む。
また、本実施形態の音声変形方法は、文章を発音させるときのタイミングが予め設定されている文章を示す音声データを入力する文章入力工程と、文章に含まれている促音を含む文節を検出する促音文節検出工程と、上記のように促音が継続する継続時間を変更する促音継続時間変更工程とを含む。
本実施形態の音声変形方法によれば、簡易な手順で音声の親しさの程度を効果的に増加させることができる。
促音継続時間変更工程は、促音が継続する継続時間が、促音より前に位置する第1の基準音素の音、または、促音を含む音素以降の第2の基準音素の音が継続する継続時間よりも長くなるように、音の継続時間を変更するのがよい。このようにすると、音声の親しさの程度を効果的に増加させることができる。
本発明は以上説明した各実施形態の音声変形装置及び方法に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々変更可能である。
音声変形装置をハードウェアで構成してもよいし、ソフトウェアで構成してもよく、両者を混在させて構成してもよい。
音声を韻律情報と声道とに分離して合成する際に、例えば、vocoderと称される一般的な音声分析合成系を用いることが可能である。ソフトウェアとしては、音声分析用ソフトウェアPraatを用いることが可能である。Praatで使われているT-SOLAアルゴリズムを用いるとよい。
本発明を、コンピュータに、音声変形装置における各動作または音声変形方法における各工程を実行させる音声変形プログラムによって構成することも可能である。
11 韻律情報生成部
14,25 合成部
24 促音継続時間変更部
26,34 促音文節検出部

Claims (10)

  1. 促音を含む文節を有する文章を示すテキストデータに基づいて、韻律情報を生成する韻律情報生成部と、
    前記文章を発音させるときに、前記促音が継続する継続時間が、前記促音より前に位置する第1の基準音素の音、または、前記促音を含む音素以降の第2の基準音素の音が継続する継続時間よりも長くなるように、音の継続時間を変更して、前記韻律情報と音道情報とを合成した音声データを生成する合成部と、
    を備えることを特徴とする音声変形装置。
  2. 文章を発音させるときのタイミングが予め設定されている文章に含まれている促音を含む文節を検出する促音文節検出部と、
    前記促音文節検出部で検出された促音を含む文節における前記促音が継続する継続時間を、前記タイミングに基づく継続時間よりも長くなるように変更する促音継続時間変更部と、
    を備えることを特徴とする音声変形装置。
  3. 前記促音継続時間変更部は、前記促音が継続する継続時間が、前記促音より前に位置する第1の基準音素の音、または、前記促音を含む音素以降の第2の基準音素の音が継続する継続時間よりも長くなるように、音の継続時間を変更することを特徴とする請求項2記載の音声変形装置。
  4. 前記促音継続時間変更部は、第1の基準音素から前記促音まで継続時間を連続的に長くすることを特徴とする請求項2または3に記載の音声変形装置。
  5. 前記促音継続時間変更部は、前記促音から第2の基準音素まで継続時間を連続的に短くすることを特徴とする請求項2〜4のいずれか1項に記載の音声変形装置。
  6. 前記文章の音声データを含む音声ファイルと、前記文章を示すテキストデータと、前記テキストデータのタイミングデータとが入力され、
    前記促音文節検出部は、前記テキストデータに基づいて促音を含む文節を検出し、
    前記促音継続時間変更部は、前記タイミングデータに基づいて前記促音が継続する継続時間を変更する
    ことを特徴とする請求項2または3に記載の音声変形装置。
  7. 人が発する文章の音声をマイクロホンで収音した音声データと、前記音声データを音声認識することによって生成した前記文章を示すテキストデータとが入力され、
    前記促音文節検出部は、前記テキストデータに基づいて促音を含む文節を検出し、
    前記促音継続時間変更部は、前記音声データに含まれるタイミング情報に基づいて前記促音が継続する継続時間を変更する
    ことを特徴とする請求項2または3に記載の音声変形装置。
  8. 促音を含む文節を有する文章を示すテキストデータを入力する文章入力工程と、
    前記文章を発音させるときに、前記促音が継続する継続時間が、前記促音より前に位置する第1の基準音素の音、または、前記促音を含む音素以降の第2の基準音素の音が継続する継続時間よりも長くなるように、音の継続時間を変更する促音継続時間変更工程と、
    を含むことを特徴とする音声変形方法。
  9. 文章を発音させるときのタイミングが予め設定されている文章を示す音声データを入力する文章入力工程と、
    前記文章に含まれている促音を含む文節を検出する促音文節検出工程と、
    前記促音文節検出工程にて検出された促音を含む文節における前記促音が継続する継続時間を、前記タイミングに基づく継続時間よりも長くなるように変更する促音継続時間変更工程と、
    を含むことを特徴とする音声変形方法。
  10. 前記促音継続時間変更工程は、前記促音が継続する継続時間が、前記促音より前に位置する第1の基準音素の音、または、前記促音を含む音素以降の第2の基準音素の音が継続する継続時間よりも長くなるように、音の継続時間を変更することを特徴とする請求項9記載の音声変形方法。
JP2014194647A 2014-09-25 2014-09-25 音声変形装置及び方法 Pending JP2016065976A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014194647A JP2016065976A (ja) 2014-09-25 2014-09-25 音声変形装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014194647A JP2016065976A (ja) 2014-09-25 2014-09-25 音声変形装置及び方法

Publications (1)

Publication Number Publication Date
JP2016065976A true JP2016065976A (ja) 2016-04-28

Family

ID=55805413

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014194647A Pending JP2016065976A (ja) 2014-09-25 2014-09-25 音声変形装置及び方法

Country Status (1)

Country Link
JP (1) JP2016065976A (ja)

Similar Documents

Publication Publication Date Title
JP4363590B2 (ja) 音声合成
Rudzicz Adjusting dysarthric speech signals to be more intelligible
KR101475894B1 (ko) 장애 음성 개선 방법 및 장치
Rudzicz Acoustic transformations to improve the intelligibility of dysarthric speech
JP2007140200A (ja) 語学学習装置およびプログラム
JP2015068897A (ja) 発話の評価方法及び装置、発話を評価するためのコンピュータプログラム
JP6291808B2 (ja) 音声合成装置及び方法
KR102168529B1 (ko) 인공신경망을 이용한 가창음성 합성 방법 및 장치
JP4839970B2 (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
JP2006030609A (ja) 音声合成データ生成装置、音声合成装置、音声合成データ生成プログラム及び音声合成プログラム
Petrushin et al. Whispered speech prosody modeling for TTS synthesis
JP2016065976A (ja) 音声変形装置及び方法
JP2007139868A (ja) 語学学習装置
JP3437064B2 (ja) 音声合成装置
JP6260227B2 (ja) 音声合成装置及び方法
JP6260228B2 (ja) 音声合成装置及び方法
Padda et al. A Step towards Making an Effective Text to speech Conversion System
JP2001125599A (ja) 音声データ同期装置及び音声データ作成装置
JP2016164628A (ja) 音読評価装置、音読評価方法、及びプログラム
Amin et al. Nine voices, one artist: Linguistic and acoustic analysis
JP7060857B2 (ja) 語学習得装置及び語学習得プログラム
Ophaug The diminished vowel space in classical singing and the tug of war between" speech-true" and modified vowel qualities
KR20040015605A (ko) 가상노래 합성장치 및 방법
JP6894081B2 (ja) 語学学習装置
JP2018191234A (ja) 音声取得機器、音声取得方法、および音声取得用プログラム