JP5728913B2 - 音声合成情報編集装置およびプログラム - Google Patents

音声合成情報編集装置およびプログラム Download PDF

Info

Publication number
JP5728913B2
JP5728913B2 JP2010269305A JP2010269305A JP5728913B2 JP 5728913 B2 JP5728913 B2 JP 5728913B2 JP 2010269305 A JP2010269305 A JP 2010269305A JP 2010269305 A JP2010269305 A JP 2010269305A JP 5728913 B2 JP5728913 B2 JP 5728913B2
Authority
JP
Japan
Prior art keywords
phoneme
information
editing
expansion
contraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010269305A
Other languages
English (en)
Other versions
JP2012118385A (ja
Inventor
入山 達也
達也 入山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2010269305A priority Critical patent/JP5728913B2/ja
Priority to EP11191269.7A priority patent/EP2461320B1/en
Priority to US13/309,258 priority patent/US9135909B2/en
Priority to TW100144454A priority patent/TWI471855B/zh
Priority to CN201110396819.0A priority patent/CN102486921B/zh
Publication of JP2012118385A publication Critical patent/JP2012118385A/ja
Priority to KR1020140049198A priority patent/KR101542005B1/ko
Application granted granted Critical
Publication of JP5728913B2 publication Critical patent/JP5728913B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Description

本発明は、音声の合成に使用される情報(音声合成情報)を編集する技術に関する。
従来から提案されている音声合成技術のもとでは、合成の対象となる音声(以下では「合成対象音」という)の音素毎に発音の時間長が可変に指定される。特許文献1には、任意の文字列から特定された音素の時系列について時間軸上の伸縮が指示された場合に、各音素の種類(母音/子音)に応じた伸縮度で各音素の時間長を伸縮する技術が開示されている。
特開平6−67685号公報
しかし、実際の発声音における各音素の時間長は音素の種類のみに依存するわけではないから、特許文献1の技術のように音素の種類のみに応じた伸縮度で各音素の時間長を伸縮する構成では、聴感的に自然な印象の音声を合成することが困難である。以上の事情を考慮して、本発明は、時間軸上で伸縮した場合でも聴感的に自然な印象の音声を合成することが可能な音声合成情報を生成する(ひいては自然な印象の音声を合成する)ことを目的とする。
以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。
本発明の第1態様に係る音声合成情報編集装置は、合成対象音の音素毎に発音長を指定する音素列情報(例えば音素列情報SA)と、時間軸に沿って配列された編集点毎に前記合成対象音の特徴量指定する特徴量情報(例えば特徴量情報SB)とを含む音声合成情報を編集する手段であって、音素列情報が指定する各音素の発音長を、特徴量情報が当該音素について指定する特徴量に応じた伸縮度(例えば伸縮度K[n])で変更する編集処理手段(例えば編集処理部24)とを具備する。以上の構成においては、各音素の特徴量に応じた伸縮度で当該音素の発音長が変更(伸縮)されるから、音素の種類のみに応じて伸縮度を設定する構成と比較して、聴感的に自然な印象の音声を合成し得る音声合成情報を生成できるという利点がある。
例えば、特徴量情報が音高の時間変化を指定する構成では、合成対象音を伸長する場合に、特徴量情報が指定する音高が高い音素ほど伸長の度合が大きくなるように、編集処理手段が伸縮度を特徴量に応じて可変に設定する態様が好適である。以上の態様では、音高が高いほど伸長の度合が大きいという傾向を反映した自然な音声が生成される。また、合成対象音を短縮する場合に、特徴量情報が指定する音高が低い音素ほど短縮の度合が大きくなるように、編集処理手段が伸縮度を特徴量に応じて可変に設定する態様も好適である。以上の態様では、音高が低いほど短縮の度合が大きいという傾向を反映した自然な音声が生成される。
また、特徴量情報が音量の時間変化を指定する構成では、合成対象音を伸長する場合に、特徴量情報が指定する音量が大きい音素ほど伸長の度合が大きくなるように、編集処理手段が伸縮度を特徴量に応じて可変に設定する態様が好適である。以上の態様では、音量が大きいほど伸長の度合が大きいという傾向を反映した自然な音声が生成される。また、合成対象音を短縮する場合に、特徴量情報が指定する音量が小さい音素ほど短縮の度合が大きくなるように、編集処理部が伸縮度を特徴量に応じて可変に設定する態様も好適である。以上の態様では、音量が小さいほど短縮の度合が大きいという傾向を反映した自然な音声が生成される。
なお、特徴量と伸縮度との関係は以上の例示に限定されない。例えば、音高が低いほど伸長の度合が大きいという傾向を前提とすれば、音高が高い音素ほど伸長の度合が小さくなるように伸縮度が設定され、例えば、音量が大きいほど伸長の度合が小さいという傾向を前提とすれば、音量が大きい音素ほど伸長の度合が小さくなるように伸縮度が設定される。
本発明の好適な態様の音声合成情報編集装置は、音素列情報が指定する発音長に応じて時間軸の方向の長さが設定された音素指示子(例えば音素指示子42)を合成対象音の複数の音素について時間軸の方向に配列した音素列画像(例えば音素列画像32)と、特徴量情報が指定する特徴量の時系列を示す特徴量画像(例えば特徴量画像34)とを、時間軸を共通にして配置した編集画面を表示装置に表示させ、編集処理手段による処理の結果に応じて編集画面を更新する表示制御手段を具備する。以上の態様においては、音素列画像と特徴量画像とが共通の時間軸のもとで表示装置に表示させるから、利用者は、各音素の伸縮を直感的に把握することが可能である。
本発明の好適な態様において、特徴量情報は、時間軸に沿って配列された編集点(例えば編集点α)毎に特徴量を指定し、編集処理手段は、各音素が発音される発音区間に対する編集点の時間軸上の位置関係が各音素の発音長の変更の前後で維持されるように、特徴量情報を更新する。以上の態様にによれば、各音素の発音区間に対する編集点の時間軸上の位置を維持しながら各音素を伸縮することが可能である。
本発明の好適な態様において、編集処理手段は、特徴量の時間変化の変更が指示された場合に、音素列情報が示す音素の発音区間内の編集点の時間軸上の位置を、当該音素の種類に応じた移動量だけ時間軸の方向に移動させる。以上の態様では、編集点の時間軸上の位置が、当該編集点に対応する音素の種類に応じた移動量だけ時間軸の方向に移動するから、例えば母音の音素と子音の音素とで編集点の時間軸上の移動量を相違させるという煩雑な編集が簡便に実現される。したがって、特徴量の時間変化を編集する利用者の負担が軽減されるという利点がある。以上の態様の具体例は例えば第2実施形態として後述される。
なお、合成対象音の特徴量(例えば音高)の時間変化を利用者が指定可能な音声合成技術が従来から提案されている。特徴量の時間変化は、例えば、時間軸に沿って配列された複数の編集点(ブレークポイント)を相互に連結する折線として表示装置に表示される。しかし、特徴量の時間変化を変更(編集)するためには各編集点を利用者が個別に移動させる必要があり、利用者の負担が大きいという問題がある。以上の事情を考慮して、本発明の第2態様の音声合成情報編集装置は、合成対象音を構成する音素の時系列を指定する音素列情報(例えば音素列情報SA)と、時間軸に沿って配列された編集点毎に前記合成対象音の特徴量指定する特徴量情報(例えば特徴量情報SB)とを含む音声合成情報を編集する手段であって、音素列情報が示す音素の発音区間内の編集点(例えば編集点α[m])の時間軸上の位置を、当該音素の種類に応じた移動量(例えば移動量δT[m])だけ時間軸の方向に移動させる編集処理手段(例えば編集処理部24)とを具備する。以上の構成によれば、編集点の時間軸上の位置が、当該編集点に対応する音素の種類に応じた移動量だけ時間軸の方向に移動するから、例えば母音の音素と子音の音素とで編集点の時間軸上の移動量を相違させるという煩雑な編集が簡便に実現される。したがって、特徴量の時間変化を編集する利用者の負担が軽減されるという利点がある。なお、第2態様の具体例は例えば第2実施形態として後述される。
以上の各態様に係る音声合成情報編集装置は、音声合成情報の生成に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明の第1態様に係るプログラムは、合成対象音の音素毎に発音長を指定する音素列情報と、時間軸に沿って配列された編集点毎に前記合成対象音の特徴量指定する特徴量情報とを含む音声合成情報を編集する手段であって、音素列情報が指定する各音素の発音長を、特徴量情報が当該音素について指定する特徴量に応じた伸縮度で変更する編集処理手段としてコンピュータを機能させる。また、第2態様に係るプログラムは、合成対象音を構成する音素の時系列を指定する音素列情報と、時間軸に沿って配列された編集点毎に前記合成対象音の特徴量指定する特徴量情報とを含む音声合成情報を編集する手段であって、音素列情報が示す音素の発音区間内の編集点の時間軸上の位置を、当該音素の種類に応じた移動量だけ時間軸の方向に移動させる編集処理手段としてコンピュータを機能させる。以上の各態様のプログラムによれば、本発明に係る音声合成情報編集装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
本発明は、音声合成情報を生成する方法としても特定される。本発明の第1態様の音声合成情報編集方法は、合成対象音の音素毎に発音長を指定する音素列情報と、前記合成対象音の特徴量の時間変化を指定する特徴量情報とを利用して、前記音素列情報が指定する各音素の発音長を、前記特徴量情報が当該音素について指定する特徴量に応じた伸縮度で変更する。また、本発明の第2態様の音声合成情報編集方法は、合成対象音を構成する音素の時系列を指定する音素列情報と、時間軸に沿って配列された編集点毎に合成対象音の特徴量を指定する特徴量情報とを利用して、音素列情報が示す音素の発音区間内の編集点の時間軸上の位置を、当該音素の種類に応じた移動量だけ時間軸の方向に移動させる。以上の各態様の音声合成情報編集方法によれば、本発明に係る音声合成情報編集装置と同様の作用および効果が奏される。
本発明の実施形態に係る音声合成装置のブロック図である。 編集画面の模式図である。 音声合成情報(音素列情報,特徴量情報)の模式図である。 合成対象音を伸縮する手順の説明図である。 第2実施形態において編集点の時系列を編集する手順の説明図である。 編集点が移動する様子の説明図である。
<A:第1実施形態>
図1は、本発明の第1実施形態の音声合成装置100のブロック図である。音声合成装置100は、所望の合成対象音を合成する音響処理装置であり、図1に示すように、演算処理装置10と記憶装置12と入力装置14と表示装置16と放音装置18とを具備するコンピュータシステムで実現される。入力装置14(例えばマウスやキーボード)は、利用者からの指示を受付ける。表示装置16(例えば液晶表示装置)は、演算処理装置10から指示された画像を表示する。放音装置18(例えばスピーカやヘッドホン)は、演算処理装置10が生成した音声信号Xに応じた音響を再生する。
記憶装置12は、演算処理装置10が実行するプログラムPGMや演算処理装置10が使用する情報(例えば音声素片群V,音声合成情報S)を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置12として任意に採用され得る。
音声素片群Vは、相異なる音声素片に対応する複数の素片データ(例えば音声素片の波形のサンプル系列)で構成されて音声合成の素材として利用される音声合成用ライブラリである。音声素片は、言語上の意味の区別の最小単位(例えば母音や子音)である音素、または複数の音素を連結した音素連鎖である。音声合成情報Sは、合成対象音の音素や特徴量を時系列に指定する(詳細は後述する)。
演算処理装置10は、記憶装置12に格納されたプログラムPGMの実行で、音声信号Xの生成に必要な複数の機能(表示制御部22,編集処理部24,音声合成部26)を実現する。音声信号Xは、合成対象音の波形を示す信号である。なお、演算処理装置10の各機能を専用の電子回路(DSP)で実現した構成や、演算処理装置10の各機能を複数の集積回路に分散した構成も採用され得る。
表示制御部22は、合成対象音の編集時に利用者が視認する図2の編集画面30を表示装置16に表示させる。図2に示すように、編集画面30は、合成対象音を構成する複数の音素の時系列を利用者に提示する音素列画像32と、合成対象音の特徴量の時間変化を利用者に提示する特徴量画像34とを含んで構成される。音素列画像32と特徴量画像34とは時間軸(横軸)52を共通にして配置される。なお、第1実施形態では、特徴量画像34が示す特徴量として合成対象音の音高(ピッチ)を例示する。
音素列画像32は、合成対象音の各音素を表現する音素指示子42を時間軸52の方向に時系列に配列した画像である。時間軸52の方向における音素指示子42の位置(例えば1個の音素指示子42の左端部の位置)は音素の発音の時点を意味し、時間軸52の方向における音素指示子42の長さは音素の発音が継続される時間長(以下では「発音長」という)を意味する。利用者は、編集画面30を確認しながら入力装置14を適宜に操作することで、音素列画像32の編集を指示することが可能である。例えば、音素列画像32の任意の位置に対する音素指示子42の追加や既存の音素指示子42の削除、または音素指示子42に対する音素の指定や指定済の音素の変更等の編集が利用者から指示される。表示制御部22は、音素列画像32に対する利用者からの指示に応じて音素列画像32を随時に更新する。
図2の特徴量画像34は、時間軸52と音高軸(縦軸)54とが設定された平面内に合成対象音の音高の時間変化(軌跡)を表現する遷移線56を配置した画像である。遷移線56は、時間軸52に沿って時系列に配列された複数の編集点(ブレークポイント)αを相互に連結した折線である。利用者は、編集画面30を確認しながら入力装置14を適宜に操作することで特徴量画像34の編集を指示することが可能である。例えば、特徴量画像34の任意の位置に対する編集点αの追加、または既存の編集点αの移動や削除等の編集が利用者から指示される。表示制御部22は、特徴量画像34に対する利用者からの指示に応じて特徴量画像34を随時に更新する。例えば、利用者が編集点αの移動を指示すると、特徴量画像34は、特徴量画像34の編集点αを移動させるとともに移動後の編集点αを通過するように遷移線56を更新する。
図1の編集処理部24は、編集画面30の内容に対応する音声合成情報Sを生成して記憶装置12に格納するとともに編集画面30に対する利用者からの編集の指示に応じて音声合成情報Sを更新する。図3は、音声合成情報Sの模式図である。図3に示すように、音声合成情報Sは、音素列画像32に対応する音素列情報SAと特徴量画像34に対応する特徴量情報SBとを含んで構成される。
音素列情報SAは、合成対象音を構成する音素の時系列を指定する情報であり、図3に示すように、音素列画像32に設定された各音素に対応する単位情報UAの時系列で構成される。単位情報UAは、自身に対応する音素の識別情報a1と発音開始時刻a2と発音長(すなわち音素の発音が継続する時間長)a3とを指定する。編集処理部24は、音素列画像32に音素指示子42が追加されるたびにその音素指示子42に対応する単位情報UAを音素列情報SAに追加し、利用者からの指示に応じて各単位情報UAを更新する。具体的には、編集処理部24は、各音素指示子42に対応する単位情報UA毎に、その音素指示子42に指定された音素の識別情報a1を設定し、時間軸52の方向における音素指示子42の位置および長さに応じて発音開始時刻a2および発音長a3を設定する。なお、単位情報UAが発音の開始時刻と終了時刻とを含む構成(両時刻間の経過時間が発音長a3として特定される構成)も採用され得る。
特徴量情報SBは、合成対象音の音高(特徴量)の時間変化を指定する情報であり、図3に示すように、特徴量画像34の相異なる編集点αに対応する複数の単位情報UBの時系列で構成される。各単位情報UBは、自身に対応する編集点αの時刻b1とその編集点αに対応する音高b2とを指定する。編集処理部24は、特徴量画像34に編集点αが追加されるたびにその編集点αに対応する単位情報UBを特徴量情報SBに追加し、利用者からの指示に応じて各単位情報UBを更新する。具体的には、編集処理部24は、各編集点αに対応する単位情報UB毎に、その編集点αの時間軸52上の位置に応じて時刻b1を設定するとともに編集点αの音高軸54上の位置に応じて音高b2を設定する。
図1の音声合成部26は、記憶装置12に格納された音声合成情報Sで指定される合成対象音の音声信号Xを生成する。具体的には、音声合成部26は、音声合成情報Sの音素列情報SAの各単位情報UAが指定する識別情報a1に対応する素片データを音声素片群Vから順次に取得し、各素片データを、その単位情報UAの発音長a3と特徴量情報SBの各単位情報UBが示す音高b2とに調整したうえで相互に連結し、単位情報UAの発音開始時刻a2に配置することで音声信号Xを生成する。音声合成部26による音声信号Xの生成は、例えば、編集画面30を参照して合成対象音を指定した利用者が、入力装置14に対する所定の操作で音声合成の指示を付与した場合に実行される。音声合成部26が生成した音声信号Xが放音装置18に供給されて音波として再生される。
音素列画像32の複数の音素指示子42の時系列と特徴量画像34の複数の編集点αの時系列(遷移線56)とを指定すると、利用者は、相連続する複数(N個)の音素を含む任意の区間(以下「伸縮対象区間」という)を入力装置14に対する操作で指定するとともに、伸縮対象区間の伸縮(伸長または短縮)を指示することが可能である。図4の部分(A)は、「そうなのか(sonanoka)」という発音に対応する8個(N=8)の音素σ[1]〜σ[N]の時系列(/s/,/o/,/n/,/a/,/n/,/o/,/k/,/a/)を利用者が伸縮対象区間として指定した場合の編集画面30である。伸縮対象区間内のN個の音素σ[1]〜σ[N]が相等しい発音長a3に設定された場合が図4の部分(A)では便宜的に想定されている。
現実の発声時(例えば会話時)に発声音を伸縮する場合、発声音の音高に応じて伸縮の度合が変化するという傾向が経験的に把握される。具体的には、音高が高い箇所(典型的には会話内で強調すべき箇所)ほど伸長し易く、音高が低い箇所(例えば強調の必要性が低い箇所)ほど短縮し易いと言う傾向がある。以上の傾向を考慮して、第1実施形態では、伸縮対象区間内の各音素の発音長a3(音素指示子42の長さ)をその音素に指定された音高b2に応じた度合で伸縮させる。また、子音と比較して母音は伸縮し易いという傾向を考慮して、母音の音素を子音の音素と比較して大きく伸縮させる。伸縮対象区間内の各音素の伸縮を以下に詳述する。
図4の部分(B)は、図4の部分(A)の伸縮対象区間を伸長した場合の編集画面30である。伸縮対象区間の伸長が利用者から指示された場合、図4の部分(B)に示すように、伸縮対象区間のうち特徴量情報SBで指定される音高b2が高い音素ほど伸長の度合が大きく、かつ、母音の音素の伸長の度合が子音の音素と比較して大きくなるように、伸縮対象区間内の各音素が伸長される。例えば、図4の部分(B)における第2番目の音素σ[2]と第6番目の音素σ[6]とは、音素の種類/o/は共通するが、特徴量情報SBで指定される音高b2は音素σ[6]よりも音素σ[2]が高いから、音素σ[2]は音素σ[6]の発音長a3(=Lb[6])と比較して長い発音長a3(=Lb[2])に伸長される。また、音素σ[2]は母音/o/であるのに対して第3番目の音素σ[3]は子音/n/であるから、音素σ[2]は音素σ[3]の発音長a3(=Lb[3])と比較して長い発音長a3(=Lb[2])に伸長される。
他方、図4の部分(C)は、図4の部分(A)の伸縮対象区間を短縮した場合の編集画面30である。伸縮対象区間の短縮が利用者から指示された場合、図4の部分(C)に示すように、伸縮対象区間のうち特徴量情報SBで指定される音高b2が低い音素ほど短縮の度合が大きく、かつ、母音の音素の短縮の度合が子音の音素と比較して大きくなるように、伸縮対象区間内の各音素が短縮される。例えば、音素σ[6]の音高b2は音素σ[2]の音高b2と比較して低いから、音素σ[6]は音素σ[2]の発音長a3(=Lb[2])と比較して短い発音長a3(=Lb[6])に短縮される。また、母音の音素σ[2]は子音の音素σ[3]の発音長a3(=Lb[3])と比較して短い発音長a3(=Lb[2])に短縮される。
以上に例示した各音素の伸縮のために編集処理部24が実行する演算を以下に詳述する。伸縮対象区間の伸長が指示された場合、編集処理部24は、伸縮対象区間内の第n番目(n=1〜N)の音素σ[n]の伸縮係数k[n]を以下の数式(1)の演算で算定する。
k[n]=La[n]・R・P[n] ……(1)
数式(1)の記号La[n]は、図4の部分(A)に示すように、伸長前の音素σ[n]に対応する単位情報UAが指定する発音長a3を意味する。数式(1)の記号Rは、音素毎(音素の種類毎)に事前に設定された音素伸縮率を意味する。各音素の音素伸縮率R(テーブル)が事前に選定されたうえで記憶装置12に格納される。編集処理部24は、単位情報UAが指定する識別情報a1の音素σ[n]に対応した音素伸縮率Rを記憶装置12から検索して数式(1)の演算に適用する。母音の音素の音素伸縮率Rが子音の音素の音素伸縮率と比較して大きい数値となるように各音素の音素伸縮率Rは設定される。したがって、母音の音素の伸縮係数k[n]は子音の音素の伸縮係数k[n]と比較して大きい数値に設定される。
数式(1)の記号P[n]は、音素σ[n]の音高を意味する。例えば、遷移線56が示す音高を音素σ[n]の発音区間内で平均した数値や、遷移線56のうち音素σ[n]の発音区間内の特定点(例えば始点や中点)での音高を、編集処理部24は数式(1)の音高P[n]として決定したうえで数式(1)の演算に適用する。したがって、音高P[n]が高い音素σ[n]ほど数式(1)の伸縮係数k[n]は大きい数値に設定される。
編集処理部24は、数式(1)の伸縮係数k[n]を適用した以下の数式(2)の演算で伸縮度K[n]を算定する。
K[n]=k[n]/Σ(k[n]) ……(2)
数式(2)の記号Σ(k[n])は、伸縮対象区間内の全部(N個)の音素σ[1]〜σ[N]にわたる伸縮係数k[n]の総和(Σ(k[n])=k[1]+k[2]+……+k[N])を意味する。すなわち、数式(2)は、伸縮係数k[n]を1以下の正数に正規化する演算に相当する。
編集処理部24は、数式(2)の伸縮度K[n]を適用した以下の数式(3)の演算で伸長後の音素σ[n]の発音長Lb[n]を算定する。
Lb[n]=La[n]+K[n]・ΔL ……(3)
数式(3)の記号ΔLは、伸縮対象区間の伸縮量(絶対値)を意味し、利用者による入力装置14の操作に応じて可変に指定される。図4の部分(A)および部分(B)に示すように、伸長後の伸縮対象区間の合計長(Lb[1]+Lb[2]+……+Lb[N])と伸長前の伸縮対象区間の合計長(La[1]+La[2]+……+La[N])との差分の絶対値が伸縮量ΔLに相当する。数式(3)から理解されるように、伸縮度K[n]は、伸縮対象区間の全体的な伸縮量ΔLのうち音素σ[n]の伸長に対する割当分の比率を意味する。数式(3)の演算の結果、音高P[n]が高い音素σ[n]ほど伸長の度合が大きく、かつ、子音と比較して母音の音素σ[n]の伸長の度合が大きくなるように、伸長後の各音素σ[n]の発音長Lb[n]が設定される。
他方、伸縮対象区間の短縮が指示された場合、編集処理部24は、伸縮対象区間内の第n番目の音素σ[n]の伸縮係数k[n]を以下の数式(4)の演算で算定する。
k[n]=La[n]・R/P[n] ……(4)
数式(4)の各変数(La[n],R,P[n])の意義は数式(1)と同様である。編集処理部24は、数式(4)で算定した伸縮係数k[n]を数式(2)に適用することで伸縮度K[n]を算定する。数式(4)から理解されるように、音高P[n]が低い音素σ[n]ほど伸縮度K[n](伸縮係数k[n])は大きい数値に設定される。
編集処理部24は、伸縮度K[n]を適用した以下の数式(5)の演算で短縮後の音素σ[n]の発音長Lb[n]を算定する。
Lb[n]=La[n]−K[n]・ΔL ……(5)
数式(5)から理解されるように、音高P[n]が低い音素σ[n]ほど短縮の度合が大きく、かつ、子音と比較して母音の音素σ[n]の短縮の度合が大きくなるように、短縮後の各音素σ[n]の発音長Lb[n]が可変に設定される。
以上が伸縮後の発音長Lb[n]の演算である。伸縮対象区間内のN個の音素σ[1]〜σ[N]の各々について以上の手順で発音長Lb[n]を算定すると、編集処理部24は、音素列情報SAのうち各音素σ[n]に対応する単位情報UAが指定する発音長a3を伸縮前の発音長La[n]から伸縮後の発音長Lb[n](数式(3)または数式(5)の演算値)に変更し、伸縮後の各音素σ[n]の発音長a3に応じて各音素σ[n]の発音開始時刻a2を更新する。また、表示制御部22は、編集画面30の音素列画像32を、編集処理部24による更新後の音素列情報SAに応じた内容に更新する。
他方、図4の部分(B)および部分(C)に示すように、各音素σ[n]の発音区間に対する編集点αの相対的な位置が伸縮対象区間の伸縮の前後で維持されるように、編集処理部24による編集処理部24による特徴量情報SBの更新および表示制御部22による特徴量画像34の更新が実行される。すなわち、特徴量情報SBが指定する編集点αの時刻b1は、伸縮後の各音素σ[n]の発音区間に対して伸縮前と同様の関係が維持されるように適宜に変更される。したがって、各編集点αで規定される遷移線56は、各音素σ[n]の伸縮に対応するように時間軸52上で伸縮される。
以上に説明した第1実施形態では、各音素σ[n]の音高P[n]に応じて各音素σ[n]の伸縮度K[n]が可変に設定される。したがって、例えば音素の種類(母音/子音)のみに応じて伸縮度K[n]を設定する構成(特許文献1)と比較して、聴感的に自然な印象の音声を合成し得る音声合成情報Sを生成できる(ひいては音声合成情報Sを利用した自然な音声を生成できる)という利点がある。具体的には、伸縮対象区間を伸長する場合には、音高が高いほど伸長の度合が大きいという傾向を反映した自然な音声が生成され、伸縮対象区間を短縮する場合には、音高が低いほど短縮の度合が大きいという傾向を反映した自然な音声が生成される。
<B:第2実施形態>
本発明の第2実施形態を以下に説明する。第2実施形態では、特徴量情報SBが指定する各編集点αの時系列(音高の時間変化を示す遷移線56)の編集に着目した形態である。なお、以下に例示する各態様において作用や機能が第1実施形態と同等である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。なお、音素の時系列の伸縮が指示された場合の動作は第1実施形態と同様である。
図5は、複数の編集点αの時系列(遷移線56)を編集する手順の説明図である。図5の部分(A)には、「かい(kai)」という発音に対応する複数の音素(/k/,/a/,/i/)の時系列と音高の時間変化とを利用者が指定した場合が例示されている。利用者は、入力装置14を適宜に操作することで、特徴量画像34のうち編集の対象となる矩形の領域(以下「選択領域」という)60を指定する。選択領域60は、相互に隣合う複数(M個)の編集点α[1]〜α[M]を含むように指定される。
図5の部分(B)に示すように、利用者は、入力装置14を操作して例えば選択領域60の角部ZAを適宜に移動することで選択領域60を伸縮(図5の部分(B)では伸長)することが可能である。利用者が選択領域60を伸縮すると、選択領域60内のM個の編集点α[1]〜α[M]が選択領域60の伸縮に応じて移動する(すなわちM個の編集点αが伸縮後の選択領域60内に分布する)ように、編集処理部24による特徴量情報SBの更新および表示制御部22による特徴量画像34の更新が実行される。なお、選択領域60の伸縮は遷移線56の変更を目的とした編集であるため、各音素の発音長a3(音素列画像32内の各音素指示子42の長さ)は変更されない。
選択領域60を伸縮した場合の各編集点αの移動について以下に詳述する。なお、以下の説明では、図6に示すように第m番目の1個の編集点α[m]の移動に着目するが、実際には、図5の部分(B)に示すように選択領域60内のM個の編集点α[1]〜α[M]の各々が同様の規則で移動する。
図6に示すように、利用者は、入力装置14を操作して選択領域60の角部ZAを移動させることで、角部ZAの対角に相当する角部(以下「基準点」という)Zrefを固定したまま選択領域60を伸縮(図6では伸長)することが可能である。具体的には、音高軸54の方向における選択領域60の長さLPが伸縮量ΔLPだけ伸長され、時間軸52の方向における選択領域60の長さLTが伸縮量ΔLTだけ伸長された場合を想定する。編集処理部24は、音高軸54の方向における編集点α[m]の移動量δP[m]と時間軸52の方向における編集点α[m]の移動量δT[m]とを算定する。図6の音高差PA[m]は、移動前の編集点α[m]と基準点Zrefとの音高差を意味し、図6の時間差TA[m]は、移動前の編集点α[m]と基準点Zrefとの時間差を意味する。
編集処理部24は、以下の数式(6)の演算で移動量δP[m]を算定する。
δP[m]=PA[m]・ΔLP/LP ……(6)
すなわち、音高軸54の方向における編集点α[m]の移動量δP[m]は、基準点Zrefに対する移動前の音高差PA[m]と、音高軸54の方向における選択領域60の伸縮の度合(ΔLP/LP)に応じて可変に設定される。
また、編集処理部24は、以下の数式(7)の演算で移動量δT[m]を算定する。
δT[m]=R・TA[m]・ΔLT/LT ……(7)
すなわち、時間軸52の方向における編集点α[m]の移動量δT[m]は、基準点Zrefに対する移動前の時間差TA[m]と時間軸52の方向における選択領域60の伸縮の度合(ΔLT/LT)とに加えて音素伸縮率Rに応じて可変に設定される。
第1実施形態と同様に、各音素の音素伸縮率Rが記憶装置12に事前に格納される。編集処理部24は、音素列情報SAが指定する複数の音素のうち移動前の編集点α[m]を発音区間内に含む1個の音素に対応する音素伸縮率Rを記憶装置12から検索して数式(7)の演算に適用する。第1実施形態と同様に、母音の音素の音素伸縮率Rが子音の音素の音素伸縮率Rと比較して大きい数値となるように音素毎に音素伸縮率Rは設定される。したがって、基準点Zrefに対する時間差TA[m]や時間軸52の方向における選択領域60の伸縮の度合(ΔLT/LT)が一定であるならば、編集点α[m]が母音の音素に対応する場合のほうが、編集点αが子音の音素に対応する場合と比較して、時間軸52の方向における編集点α[m]の移動量δT[m]は大きい数値となる。
選択領域60内のM個の編集点α[1]〜α[M]の各々について以上の手順で移動量δP[m]および移動量δT[m]を算定すると、編集処理部24は、特徴量情報SBの単位情報UBで指定される各編集点α[m]が音高軸54の方向に移動量δP[m]だけ移動するとともに時間軸52の方向に移動量δT[m]だけ移動するように単位情報UBを更新する。具体的には、図6から理解されるように、編集処理部24は、特徴量情報SBのうち編集点α[m]の単位情報UBが指定する時刻b1に数式(7)の移動量δT[m]を加算し、単位情報UBが指定する音高b2から数式(6)の移動量δP[m]を減算する。また、表示制御部22は、編集画面30の特徴量画像34を、編集処理部24による更新後の特徴量情報SBに応じた内容に更新する。すなわち、図5の部分(B)に示すように、選択領域60内のM個の編集点α[1]〜α[M]の各々を移動し、移動後の各編集点α[1]〜α[M]を通過するように遷移線56を更新する。
以上に説明したように、第2実施形態では、編集点α[m]が音素の種類(音素伸縮率R)に応じた移動量δT[m]だけ時間軸52の方向に移動する。すなわち、例えば図5の部分(B)に示すように、母音の音素(/a/,/i/)に対応する編集点α[m]は、子音の音素(/k/)に対応する編集点α[m]と比較すると、選択領域60の伸縮に連動して時間軸52の方向に大きく移動する。したがって、選択領域60の伸縮という簡単な操作のみで、子音の音素に対応する編集点α[m]の時間軸52上の移動を抑制しながら、母音の音素に対応する編集点α[m]を移動させるという複雑な編集が実現されるという利点がある。
なお、以上の例示では、音高P[n]に応じて各音素σ[n]を伸縮させる第1実施形態の構成と音素の種類に応じて編集点α[m]を移動させる第2実施形態の構成との双方を具備する形態を例示したが、第1実施形態の構成(各音素の伸縮)は省略され得る。
ところで、以上に例示した方法で各編集点αを移動させた場合、選択領域60内で時間軸52の方向の端部近傍に位置する編集点α(例えば図5の部分(B)の編集点α[M])と選択領域60の外側に位置する編集点α(例えば図5の部分(B)の右方から第2番目の編集点α)との時間軸52上の前後関係が選択領域60の伸縮前と伸縮後とで逆転する可能性がある。また、選択領域60の内部でも、各音素の音素伸縮率Rの大小関係によっては(例えば前方の編集点αに対応する音素の音素伸縮率Rが後方の編集点αに対応する音素の音素伸縮率Rと比較して充分に大きい場合)、各編集点αの時間軸52上の前後関係が選択領域60の伸縮前と伸縮後とで逆転する可能性がある。そこで、各編集点αの時間軸52上の前後関係が選択領域60の伸縮前と伸縮後で逆転しないように制約条件を設定した構成も好適である。具体的には、以下の数式(7a)の制約条件が成立するように数式(7)の移動量δT[m]が算定される。
TA[m-1]+δT[m-1]≦TA[m]+δT[m] ……(7a)
例えば、利用者による選択領域60の伸縮を数式(7a)の制約条件が成立する範囲内に制限する構成や、各編集点αに対応する音素伸縮率Rを数式(7a)の制約条件が成立するように動的に調整する構成、あるいは、数式(7)で算定された移動量δT[m]を数式(7a)が成立するように補正する構成が好適に採用される。
<C:変形例>
以上の形態には様々な変形が加えられる。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は併合され得る。
(1)変形例1
第1実施形態では音高P[n]に応じて各音素σ[n]を伸縮させたが、各音素σ[n]の伸縮度K[n]に反映される合成対象音の特徴量は音高P[n]に限定されない。例えば、発声音の音量に応じて各音素の伸縮の度合が変化する(例えば音量が大きい箇所ほど伸長し易い)という傾向を前提とした場合には、音量(ダイナミクス)の時間変化を指定するように特徴量情報SBを生成し、第1実施形態で説明した各演算の音高P[n]を、特徴量情報SBが示す音量D[n]に置換した構成が採用される。すなわち、例えば、音量D[n]が大きい音素σ[n]ほど伸長の度合が大きく、かつ、音量D[n]が小さい音素σ[n]ほど短縮の度合が大きくなるように伸縮度K[n]が音量D[n]に応じて可変に設定される。伸縮度K[n]の算定に好適な特徴量としては、音高P[n]や音量D[n]のほかに音声の明瞭度等が想定され得る。
(2)変形例2
第1実施形態では音素毎に伸縮度K[n]を個別に設定したが、音素毎の個別的な伸縮が適切でない場合もある。例えば、"string"という単語の先頭から3個の音素(/s/,/t/,/r/)の各々を相異なる伸縮度K[n]で伸縮すると却って不自然な音声となり得る。そこで、伸縮対象区間のうち特定の複数の音素(例えば利用者が選択した音素や所定の条件を充足する音素)の各々の伸縮度K[n]を相等しい数値に設定する構成も採用され得る。例えば、3個以上の子音の音素が連続する場合にはこれらの音素の伸縮度K[n]を相等しい数値に設定する構成が好適である。
(3)変形例3
第1実施形態では、数式(1)や数式(4)に適用される音素伸縮率Rが前後の音素σ[n-1]と音素[n]とで急激に変化する可能性がある。そこで、複数の音素にわたる音素伸縮率Rの移動平均(例えば音素σ[n-1]の音素伸縮率Rと音素σ[n]の音素伸縮率Rとの平均値)を数式(1)や数式(4)の音素伸縮率Rとする構成も好適である。第2実施形態においても同様に、編集点α[m]毎に決定される音素伸縮率Rの移動平均を数式(7)の演算に適用する構成が採用される。
(4)変形例4
第1実施形態では、特徴量情報SBから算定される音高を直接的に数式(1)や数式(4)の音高P[n]として適用したが、特徴量情報SBから特定される音高pに対する所定の演算で音高P[n]を算定する構成も採用され得る。例えば、音高pの冪乗(例えばp2)を音高P[n]とする構成や、音高pの対数値(logp)を音高P[n]とする構成が好適である。
(5)変形例5
以上の各形態では、音素列情報SAと特徴量情報SBとを単一の記憶装置12に格納したが、音素列情報SAと特徴量情報SBとを別個の記憶装置12に格納した構成も採用される。すなわち、音素列情報SAを記憶する要素(音素列記憶手段)と特徴量情報SBを記憶する要素(特徴量記憶手段)との別体/一体は本発明において不問である。
(6)変形例6
以上の各形態では、音声合成部26を含む音声合成装置100を例示したが、表示制御部22や音声合成部26は省略され得る。表示制御部22を省略した構成(編集画面30の表示や編集画面30に対する利用者からの編集指示を省略した構成)では、例えば利用者からの編集指示を必要とせずに自動的に音声合成情報Sの作成および編集が実行される。以上の構成では、編集処理部24による音声合成情報Sの作成および編集を利用者からの指示に応じてオン/オフする構成が好適である。
また、表示制御部22や音声合成部26を省略した装置は、編集処理部24が音声合成情報Sを作成および編集する装置(音声合成情報編集装置)として構成され得る。音声合成情報編集装置が生成した音声合成情報Sを別体の音声合成装置(音声合成部26)に提供することで音声信号Xが生成される。例えば、記憶装置12と編集処理部24とを含む音声合成情報編集装置(サーバ装置)と、表示制御部22や音声合成部26を含む通信端末(例えばパーソナルコンピュータや携帯通信端末)とが通信網を介して通信する通信システムにおいて、音声合成情報Sを作成および編集するサービス(クラウドコンピューティングサービス)を音声合成情報編集装置から端末装置に提供する場合にも本発明が適用される。すなわち、音声合成情報編集装置の編集処理部24は、通信端末からの要求に応じて音声合成情報Sを作成および編集して要求元の通信端末に送信する。
100……音声合成装置、10……演算処理装置、12……記憶装置、14……入力装置、16……表示装置、18……放音装置、22……表示制御部、24……編集処理部、26……音声合成部、30……編集画面、32……音素列画像、34……特徴量画像、42……音素指示子、52……時間軸、54……音高軸、56……遷移線、60……選択領域。

Claims (5)

  1. 合成対象音の音素毎に発音長を指定する音素列情報と、時間軸に沿って配列された編集点毎に前記合成対象音の特徴量指定する特徴量情報とを含む音声合成情報を編集する手段であって、前記音素列情報が指定する各音素の発音長を、前記特徴量情報が当該音素について指定する特徴量に応じた伸縮度で変更する一方、前記特徴量の時間変化の変更が指示された場合に、前記音素列情報が示す音素の発音区間内の前記編集点の時間軸上の位置を、当該音素の種類に応じた移動量だけ時間軸の方向に移動させる編集処理手段
    を具備する音声合成情報編集装置。
  2. 前記特徴量情報が示す特徴量は音高であり、
    前記編集処理手段は、前記合成対象音を伸長する場合に、前記特徴量情報が指定する音高が高い前記音素ほど伸長の度合が大きくなるように、前記伸縮度を前記特徴量に応じて可変に設定する
    請求項1の音声合成情報編集装置。
  3. 前記音素列情報が指定する発音長に応じて時間軸の方向の長さが設定された音素指示子を前記合成対象音の複数の音素について時間軸の方向に配列した音素列画像と、前記特徴量情報が指定する特徴量の時系列を示す特徴量画像とを、時間軸を共通にして配置した編集画面を表示装置に表示させ、前記編集処理手段による処理の結果に応じて前記編集画面を更新する表示制御手段
    を具備する請求項1または請求項2の音声合成情報編集装置。
  4. 前記編集処理手段は、前記特徴量情報が指定する編集点の時系列のうち編集対象となる選択領域内の各編集点を当該選択領域の伸縮に応じて移動する一方、前記選択領域の内側の各編集点と当該選択領域の外側の各編集点との時間軸上の前後関係が前記選択領域の伸縮の前後で維持されるように、前記特徴量情報を更新する
    請求項1から請求項3の何れかの音声合成情報編集装置。
  5. 合成対象音の音素毎に発音長を指定する音素列情報と、時間軸に沿って配列された編集点毎に前記合成対象音の特徴量を指定する特徴量情報とを含む音声合成情報を編集する手段であって、前記音素列情報が指定する各音素の発音長を、前記特徴量情報が当該音素について指定する特徴量に応じた伸縮度で変更する一方、前記特徴量の時間変化の変更が指示された場合に、前記音素列情報が示す音素の発音区間内の前記編集点の時間軸上の位置を、当該音素の種類に応じた移動量だけ時間軸の方向に移動させる編集処理手段
    としてコンピュータを機能させるプログラム。
JP2010269305A 2010-12-02 2010-12-02 音声合成情報編集装置およびプログラム Active JP5728913B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2010269305A JP5728913B2 (ja) 2010-12-02 2010-12-02 音声合成情報編集装置およびプログラム
EP11191269.7A EP2461320B1 (en) 2010-12-02 2011-11-30 Speech synthesis information editing
US13/309,258 US9135909B2 (en) 2010-12-02 2011-12-01 Speech synthesis information editing apparatus
TW100144454A TWI471855B (zh) 2010-12-02 2011-12-02 語音合成資訊編輯裝置、儲存媒體及方法
CN201110396819.0A CN102486921B (zh) 2010-12-02 2011-12-02 语音合成信息编辑设备
KR1020140049198A KR101542005B1 (ko) 2010-12-02 2014-04-24 음성 합성 정보 편집 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010269305A JP5728913B2 (ja) 2010-12-02 2010-12-02 音声合成情報編集装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2012118385A JP2012118385A (ja) 2012-06-21
JP5728913B2 true JP5728913B2 (ja) 2015-06-03

Family

ID=45047662

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010269305A Active JP5728913B2 (ja) 2010-12-02 2010-12-02 音声合成情報編集装置およびプログラム

Country Status (6)

Country Link
US (1) US9135909B2 (ja)
EP (1) EP2461320B1 (ja)
JP (1) JP5728913B2 (ja)
KR (1) KR101542005B1 (ja)
CN (1) CN102486921B (ja)
TW (1) TWI471855B (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4455633B2 (ja) * 2007-09-10 2010-04-21 株式会社東芝 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
US20110184738A1 (en) * 2010-01-25 2011-07-28 Kalisky Dror Navigation and orientation tools for speech synthesis
JP5728913B2 (ja) * 2010-12-02 2015-06-03 ヤマハ株式会社 音声合成情報編集装置およびプログラム
WO2013149188A1 (en) * 2012-03-29 2013-10-03 Smule, Inc. Automatic conversion of speech into song, rap or other audible expression having target meter or rhythm
US9311914B2 (en) * 2012-09-03 2016-04-12 Nice-Systems Ltd Method and apparatus for enhanced phonetic indexing and search
JP5821824B2 (ja) * 2012-11-14 2015-11-24 ヤマハ株式会社 音声合成装置
JP5817854B2 (ja) * 2013-02-22 2015-11-18 ヤマハ株式会社 音声合成装置およびプログラム
JP6152753B2 (ja) * 2013-08-29 2017-06-28 ヤマハ株式会社 音声合成管理装置
JP6507579B2 (ja) * 2014-11-10 2019-05-08 ヤマハ株式会社 音声合成方法
EP3038106B1 (en) * 2014-12-24 2017-10-18 Nxp B.V. Audio signal enhancement
WO2018175892A1 (en) * 2017-03-23 2018-09-27 D&M Holdings, Inc. System providing expressive and emotive text-to-speech
CN111583904B (zh) * 2020-05-13 2021-11-19 北京字节跳动网络技术有限公司 语音合成方法、装置、存储介质及电子设备

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63246800A (ja) * 1987-03-31 1988-10-13 渡辺 富夫 音声情報発生装置
JPH0667685A (ja) 1992-08-25 1994-03-11 Fujitsu Ltd 音声合成装置
US5796916A (en) * 1993-01-21 1998-08-18 Apple Computer, Inc. Method and apparatus for prosody for synthetic speech prosody determination
US5860064A (en) * 1993-05-13 1999-01-12 Apple Computer, Inc. Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system
JP3563772B2 (ja) * 1994-06-16 2004-09-08 キヤノン株式会社 音声合成方法及び装置並びに音声合成制御方法及び装置
CA2221762C (en) * 1995-06-13 2002-08-20 British Telecommunications Public Limited Company Ideal phonetic unit duration adjustment for text-to-speech system
US6029131A (en) * 1996-06-28 2000-02-22 Digital Equipment Corporation Post processing timing of rhythm in synthetic speech
JPH10153998A (ja) * 1996-09-24 1998-06-09 Nippon Telegr & Teleph Corp <Ntt> 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置
US6006187A (en) * 1996-10-01 1999-12-21 Lucent Technologies Inc. Computer prosody user interface
US6088674A (en) * 1996-12-04 2000-07-11 Justsystem Corp. Synthesizing a voice by developing meter patterns in the direction of a time axis according to velocity and pitch of a voice
JP2000305582A (ja) * 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置
JP2001265375A (ja) * 2000-03-17 2001-09-28 Oki Electric Ind Co Ltd 規則音声合成装置
JP3879402B2 (ja) * 2000-12-28 2007-02-14 ヤマハ株式会社 歌唱合成方法と装置及び記録媒体
JP4680429B2 (ja) * 2001-06-26 2011-05-11 Okiセミコンダクタ株式会社 テキスト音声変換装置における高速読上げ制御方法
JP2005283788A (ja) * 2004-03-29 2005-10-13 Yamaha Corp 表示制御装置およびプログラム
JP4265501B2 (ja) * 2004-07-15 2009-05-20 ヤマハ株式会社 音声合成装置およびプログラム
US8438032B2 (en) * 2007-01-09 2013-05-07 Nuance Communications, Inc. System for tuning synthesized speech
CA2674614C (en) * 2007-01-25 2017-02-28 Eliza Corporation Systems and techniques for producing spoken voice prompts
JP5119700B2 (ja) * 2007-03-20 2013-01-16 富士通株式会社 韻律修正装置、韻律修正方法、および、韻律修正プログラム
JP2008268477A (ja) * 2007-04-19 2008-11-06 Hitachi Business Solution Kk 韻律調整可能な音声合成装置
US20100066742A1 (en) * 2008-09-18 2010-03-18 Microsoft Corporation Stylized prosody for speech synthesis-based applications
US8352270B2 (en) * 2009-06-09 2013-01-08 Microsoft Corporation Interactive TTS optimization tool
JP5728913B2 (ja) * 2010-12-02 2015-06-03 ヤマハ株式会社 音声合成情報編集装置およびプログラム

Also Published As

Publication number Publication date
US9135909B2 (en) 2015-09-15
JP2012118385A (ja) 2012-06-21
EP2461320A1 (en) 2012-06-06
KR101542005B1 (ko) 2015-08-04
CN102486921A (zh) 2012-06-06
TWI471855B (zh) 2015-02-01
EP2461320B1 (en) 2015-10-14
US20120143600A1 (en) 2012-06-07
KR20140075652A (ko) 2014-06-19
TW201230009A (en) 2012-07-16
CN102486921B (zh) 2015-09-16

Similar Documents

Publication Publication Date Title
JP5728913B2 (ja) 音声合成情報編集装置およびプログラム
EP2983168B1 (en) Voice analysis method and device, voice synthesis method and device and medium storing voice analysis program
JP6620462B2 (ja) 合成音声編集装置、合成音声編集方法およびプログラム
JP5423375B2 (ja) 音声合成装置
JP6390690B2 (ja) 音声合成方法および音声合成装置
JP3728173B2 (ja) 音声合成方法、装置および記憶媒体
WO2019172397A1 (ja) 音処理方法、音処理装置および記録媒体
JP6044284B2 (ja) 音声合成装置
JP5515986B2 (ja) 情報編集装置およびプログラム
JP2007271910A (ja) 合成音声生成装置
JP5935831B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP5935545B2 (ja) 音声合成装置
WO2019239971A1 (ja) 情報処理方法、情報処理装置およびプログラム
JP5790860B2 (ja) 音声合成装置
JP5552797B2 (ja) 音声合成装置および音声合成方法
JP5641266B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP6435791B2 (ja) 表示制御装置および表示制御方法
JP6331470B2 (ja) ブレス音設定装置およびブレス音設定方法
WO2019239972A1 (ja) 情報処理方法、情報処理装置およびプログラム
JP3515268B2 (ja) 音声合成装置
JP2019159014A (ja) 音声処理方法および音声処理装置
JP2019159013A (ja) 音声処理方法および音声処理装置
KR20120060757A (ko) 음성 합성 정보 편집 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131022

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140617

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140722

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140919

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150310

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150323

R151 Written notification of patent or utility model registration

Ref document number: 5728913

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151