JP5728913B2

JP5728913B2 - 音声合成情報編集装置およびプログラム

Info

Publication number: JP5728913B2
Application number: JP2010269305A
Authority: JP
Inventors: 入山　達也; 達也入山
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2010-12-02
Filing date: 2010-12-02
Publication date: 2015-06-03
Anticipated expiration: 2030-12-02
Also published as: US9135909B2; JP2012118385A; EP2461320A1; KR101542005B1; CN102486921A; TWI471855B; EP2461320B1; US20120143600A1; KR20140075652A; TW201230009A; CN102486921B

Description

本発明は、音声の合成に使用される情報（音声合成情報）を編集する技術に関する。

従来から提案されている音声合成技術のもとでは、合成の対象となる音声（以下では「合成対象音」という）の音素毎に発音の時間長が可変に指定される。特許文献１には、任意の文字列から特定された音素の時系列について時間軸上の伸縮が指示された場合に、各音素の種類（母音／子音）に応じた伸縮度で各音素の時間長を伸縮する技術が開示されている。

特開平６−６７６８５号公報

しかし、実際の発声音における各音素の時間長は音素の種類のみに依存するわけではないから、特許文献１の技術のように音素の種類のみに応じた伸縮度で各音素の時間長を伸縮する構成では、聴感的に自然な印象の音声を合成することが困難である。以上の事情を考慮して、本発明は、時間軸上で伸縮した場合でも聴感的に自然な印象の音声を合成することが可能な音声合成情報を生成する（ひいては自然な印象の音声を合成する）ことを目的とする。

以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。

本発明の第１態様に係る音声合成情報編集装置は、合成対象音の音素毎に発音長を指定する音素列情報（例えば音素列情報ＳA）と、時間軸に沿って配列された編集点毎に前記合成対象音の特徴量を指定する特徴量情報（例えば特徴量情報ＳB）とを含む音声合成情報を編集する手段であって、音素列情報が指定する各音素の発音長を、特徴量情報が当該音素について指定する特徴量に応じた伸縮度（例えば伸縮度Ｋ[n]）で変更する編集処理手段（例えば編集処理部２４）とを具備する。以上の構成においては、各音素の特徴量に応じた伸縮度で当該音素の発音長が変更（伸縮）されるから、音素の種類のみに応じて伸縮度を設定する構成と比較して、聴感的に自然な印象の音声を合成し得る音声合成情報を生成できるという利点がある。

例えば、特徴量情報が音高の時間変化を指定する構成では、合成対象音を伸長する場合に、特徴量情報が指定する音高が高い音素ほど伸長の度合が大きくなるように、編集処理手段が伸縮度を特徴量に応じて可変に設定する態様が好適である。以上の態様では、音高が高いほど伸長の度合が大きいという傾向を反映した自然な音声が生成される。また、合成対象音を短縮する場合に、特徴量情報が指定する音高が低い音素ほど短縮の度合が大きくなるように、編集処理手段が伸縮度を特徴量に応じて可変に設定する態様も好適である。以上の態様では、音高が低いほど短縮の度合が大きいという傾向を反映した自然な音声が生成される。

また、特徴量情報が音量の時間変化を指定する構成では、合成対象音を伸長する場合に、特徴量情報が指定する音量が大きい音素ほど伸長の度合が大きくなるように、編集処理手段が伸縮度を特徴量に応じて可変に設定する態様が好適である。以上の態様では、音量が大きいほど伸長の度合が大きいという傾向を反映した自然な音声が生成される。また、合成対象音を短縮する場合に、特徴量情報が指定する音量が小さい音素ほど短縮の度合が大きくなるように、編集処理部が伸縮度を特徴量に応じて可変に設定する態様も好適である。以上の態様では、音量が小さいほど短縮の度合が大きいという傾向を反映した自然な音声が生成される。

なお、特徴量と伸縮度との関係は以上の例示に限定されない。例えば、音高が低いほど伸長の度合が大きいという傾向を前提とすれば、音高が高い音素ほど伸長の度合が小さくなるように伸縮度が設定され、例えば、音量が大きいほど伸長の度合が小さいという傾向を前提とすれば、音量が大きい音素ほど伸長の度合が小さくなるように伸縮度が設定される。

本発明の好適な態様の音声合成情報編集装置は、音素列情報が指定する発音長に応じて時間軸の方向の長さが設定された音素指示子（例えば音素指示子４２）を合成対象音の複数の音素について時間軸の方向に配列した音素列画像（例えば音素列画像３２）と、特徴量情報が指定する特徴量の時系列を示す特徴量画像（例えば特徴量画像３４）とを、時間軸を共通にして配置した編集画面を表示装置に表示させ、編集処理手段による処理の結果に応じて編集画面を更新する表示制御手段を具備する。以上の態様においては、音素列画像と特徴量画像とが共通の時間軸のもとで表示装置に表示させるから、利用者は、各音素の伸縮を直感的に把握することが可能である。

本発明の好適な態様において、特徴量情報は、時間軸に沿って配列された編集点（例えば編集点α）毎に特徴量を指定し、編集処理手段は、各音素が発音される発音区間に対する編集点の時間軸上の位置関係が各音素の発音長の変更の前後で維持されるように、特徴量情報を更新する。以上の態様にによれば、各音素の発音区間に対する編集点の時間軸上の位置を維持しながら各音素を伸縮することが可能である。

本発明の好適な態様において、編集処理手段は、特徴量の時間変化の変更が指示された場合に、音素列情報が示す音素の発音区間内の編集点の時間軸上の位置を、当該音素の種類に応じた移動量だけ時間軸の方向に移動させる。以上の態様では、編集点の時間軸上の位置が、当該編集点に対応する音素の種類に応じた移動量だけ時間軸の方向に移動するから、例えば母音の音素と子音の音素とで編集点の時間軸上の移動量を相違させるという煩雑な編集が簡便に実現される。したがって、特徴量の時間変化を編集する利用者の負担が軽減されるという利点がある。以上の態様の具体例は例えば第２実施形態として後述される。

なお、合成対象音の特徴量（例えば音高）の時間変化を利用者が指定可能な音声合成技術が従来から提案されている。特徴量の時間変化は、例えば、時間軸に沿って配列された複数の編集点（ブレークポイント）を相互に連結する折線として表示装置に表示される。しかし、特徴量の時間変化を変更（編集）するためには各編集点を利用者が個別に移動させる必要があり、利用者の負担が大きいという問題がある。以上の事情を考慮して、本発明の第２態様の音声合成情報編集装置は、合成対象音を構成する音素の時系列を指定する音素列情報（例えば音素列情報ＳA）と、時間軸に沿って配列された編集点毎に前記合成対象音の特徴量を指定する特徴量情報（例えば特徴量情報ＳB）とを含む音声合成情報を編集する手段であって、音素列情報が示す音素の発音区間内の編集点（例えば編集点α[m]）の時間軸上の位置を、当該音素の種類に応じた移動量（例えば移動量δＴ[m]）だけ時間軸の方向に移動させる編集処理手段（例えば編集処理部２４）とを具備する。以上の構成によれば、編集点の時間軸上の位置が、当該編集点に対応する音素の種類に応じた移動量だけ時間軸の方向に移動するから、例えば母音の音素と子音の音素とで編集点の時間軸上の移動量を相違させるという煩雑な編集が簡便に実現される。したがって、特徴量の時間変化を編集する利用者の負担が軽減されるという利点がある。なお、第２態様の具体例は例えば第２実施形態として後述される。

以上の各態様に係る音声合成情報編集装置は、音声合成情報の生成に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明の第１態様に係るプログラムは、合成対象音の音素毎に発音長を指定する音素列情報と、時間軸に沿って配列された編集点毎に前記合成対象音の特徴量を指定する特徴量情報とを含む音声合成情報を編集する手段であって、音素列情報が指定する各音素の発音長を、特徴量情報が当該音素について指定する特徴量に応じた伸縮度で変更する編集処理手段としてコンピュータを機能させる。また、第２態様に係るプログラムは、合成対象音を構成する音素の時系列を指定する音素列情報と、時間軸に沿って配列された編集点毎に前記合成対象音の特徴量を指定する特徴量情報とを含む音声合成情報を編集する手段であって、音素列情報が示す音素の発音区間内の編集点の時間軸上の位置を、当該音素の種類に応じた移動量だけ時間軸の方向に移動させる編集処理手段としてコンピュータを機能させる。以上の各態様のプログラムによれば、本発明に係る音声合成情報編集装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。

本発明は、音声合成情報を生成する方法としても特定される。本発明の第１態様の音声合成情報編集方法は、合成対象音の音素毎に発音長を指定する音素列情報と、前記合成対象音の特徴量の時間変化を指定する特徴量情報とを利用して、前記音素列情報が指定する各音素の発音長を、前記特徴量情報が当該音素について指定する特徴量に応じた伸縮度で変更する。また、本発明の第２態様の音声合成情報編集方法は、合成対象音を構成する音素の時系列を指定する音素列情報と、時間軸に沿って配列された編集点毎に合成対象音の特徴量を指定する特徴量情報とを利用して、音素列情報が示す音素の発音区間内の編集点の時間軸上の位置を、当該音素の種類に応じた移動量だけ時間軸の方向に移動させる。以上の各態様の音声合成情報編集方法によれば、本発明に係る音声合成情報編集装置と同様の作用および効果が奏される。

本発明の実施形態に係る音声合成装置のブロック図である。編集画面の模式図である。音声合成情報（音素列情報，特徴量情報）の模式図である。合成対象音を伸縮する手順の説明図である。第２実施形態において編集点の時系列を編集する手順の説明図である。編集点が移動する様子の説明図である。

＜Ａ：第１実施形態＞
図１は、本発明の第１実施形態の音声合成装置１００のブロック図である。音声合成装置１００は、所望の合成対象音を合成する音響処理装置であり、図１に示すように、演算処理装置１０と記憶装置１２と入力装置１４と表示装置１６と放音装置１８とを具備するコンピュータシステムで実現される。入力装置１４（例えばマウスやキーボード）は、利用者からの指示を受付ける。表示装置１６（例えば液晶表示装置）は、演算処理装置１０から指示された画像を表示する。放音装置１８（例えばスピーカやヘッドホン）は、演算処理装置１０が生成した音声信号Ｘに応じた音響を再生する。

記憶装置１２は、演算処理装置１０が実行するプログラムＰGMや演算処理装置１０が使用する情報（例えば音声素片群Ｖ，音声合成情報Ｓ）を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置１２として任意に採用され得る。

音声素片群Ｖは、相異なる音声素片に対応する複数の素片データ（例えば音声素片の波形のサンプル系列）で構成されて音声合成の素材として利用される音声合成用ライブラリである。音声素片は、言語上の意味の区別の最小単位（例えば母音や子音）である音素、または複数の音素を連結した音素連鎖である。音声合成情報Ｓは、合成対象音の音素や特徴量を時系列に指定する（詳細は後述する）。

演算処理装置１０は、記憶装置１２に格納されたプログラムＰGMの実行で、音声信号Ｘの生成に必要な複数の機能（表示制御部２２，編集処理部２４，音声合成部２６）を実現する。音声信号Ｘは、合成対象音の波形を示す信号である。なお、演算処理装置１０の各機能を専用の電子回路（ＤＳＰ）で実現した構成や、演算処理装置１０の各機能を複数の集積回路に分散した構成も採用され得る。

表示制御部２２は、合成対象音の編集時に利用者が視認する図２の編集画面３０を表示装置１６に表示させる。図２に示すように、編集画面３０は、合成対象音を構成する複数の音素の時系列を利用者に提示する音素列画像３２と、合成対象音の特徴量の時間変化を利用者に提示する特徴量画像３４とを含んで構成される。音素列画像３２と特徴量画像３４とは時間軸（横軸）５２を共通にして配置される。なお、第１実施形態では、特徴量画像３４が示す特徴量として合成対象音の音高（ピッチ）を例示する。

音素列画像３２は、合成対象音の各音素を表現する音素指示子４２を時間軸５２の方向に時系列に配列した画像である。時間軸５２の方向における音素指示子４２の位置（例えば１個の音素指示子４２の左端部の位置）は音素の発音の時点を意味し、時間軸５２の方向における音素指示子４２の長さは音素の発音が継続される時間長（以下では「発音長」という）を意味する。利用者は、編集画面３０を確認しながら入力装置１４を適宜に操作することで、音素列画像３２の編集を指示することが可能である。例えば、音素列画像３２の任意の位置に対する音素指示子４２の追加や既存の音素指示子４２の削除、または音素指示子４２に対する音素の指定や指定済の音素の変更等の編集が利用者から指示される。表示制御部２２は、音素列画像３２に対する利用者からの指示に応じて音素列画像３２を随時に更新する。

図２の特徴量画像３４は、時間軸５２と音高軸（縦軸）５４とが設定された平面内に合成対象音の音高の時間変化（軌跡）を表現する遷移線５６を配置した画像である。遷移線５６は、時間軸５２に沿って時系列に配列された複数の編集点（ブレークポイント）αを相互に連結した折線である。利用者は、編集画面３０を確認しながら入力装置１４を適宜に操作することで特徴量画像３４の編集を指示することが可能である。例えば、特徴量画像３４の任意の位置に対する編集点αの追加、または既存の編集点αの移動や削除等の編集が利用者から指示される。表示制御部２２は、特徴量画像３４に対する利用者からの指示に応じて特徴量画像３４を随時に更新する。例えば、利用者が編集点αの移動を指示すると、特徴量画像３４は、特徴量画像３４の編集点αを移動させるとともに移動後の編集点αを通過するように遷移線５６を更新する。

図１の編集処理部２４は、編集画面３０の内容に対応する音声合成情報Ｓを生成して記憶装置１２に格納するとともに編集画面３０に対する利用者からの編集の指示に応じて音声合成情報Ｓを更新する。図３は、音声合成情報Ｓの模式図である。図３に示すように、音声合成情報Ｓは、音素列画像３２に対応する音素列情報ＳAと特徴量画像３４に対応する特徴量情報ＳBとを含んで構成される。

音素列情報ＳAは、合成対象音を構成する音素の時系列を指定する情報であり、図３に示すように、音素列画像３２に設定された各音素に対応する単位情報ＵAの時系列で構成される。単位情報ＵAは、自身に対応する音素の識別情報ａ1と発音開始時刻ａ2と発音長（すなわち音素の発音が継続する時間長）ａ3とを指定する。編集処理部２４は、音素列画像３２に音素指示子４２が追加されるたびにその音素指示子４２に対応する単位情報ＵAを音素列情報ＳAに追加し、利用者からの指示に応じて各単位情報ＵAを更新する。具体的には、編集処理部２４は、各音素指示子４２に対応する単位情報ＵA毎に、その音素指示子４２に指定された音素の識別情報ａ1を設定し、時間軸５２の方向における音素指示子４２の位置および長さに応じて発音開始時刻ａ2および発音長ａ3を設定する。なお、単位情報ＵAが発音の開始時刻と終了時刻とを含む構成（両時刻間の経過時間が発音長ａ3として特定される構成）も採用され得る。

特徴量情報ＳBは、合成対象音の音高（特徴量）の時間変化を指定する情報であり、図３に示すように、特徴量画像３４の相異なる編集点αに対応する複数の単位情報ＵBの時系列で構成される。各単位情報ＵBは、自身に対応する編集点αの時刻ｂ1とその編集点αに対応する音高ｂ2とを指定する。編集処理部２４は、特徴量画像３４に編集点αが追加されるたびにその編集点αに対応する単位情報ＵBを特徴量情報ＳBに追加し、利用者からの指示に応じて各単位情報ＵBを更新する。具体的には、編集処理部２４は、各編集点αに対応する単位情報ＵB毎に、その編集点αの時間軸５２上の位置に応じて時刻ｂ1を設定するとともに編集点αの音高軸５４上の位置に応じて音高ｂ2を設定する。

図１の音声合成部２６は、記憶装置１２に格納された音声合成情報Ｓで指定される合成対象音の音声信号Ｘを生成する。具体的には、音声合成部２６は、音声合成情報Ｓの音素列情報ＳAの各単位情報ＵAが指定する識別情報ａ1に対応する素片データを音声素片群Ｖから順次に取得し、各素片データを、その単位情報ＵAの発音長ａ3と特徴量情報ＳBの各単位情報ＵBが示す音高ｂ2とに調整したうえで相互に連結し、単位情報ＵAの発音開始時刻ａ2に配置することで音声信号Ｘを生成する。音声合成部２６による音声信号Ｘの生成は、例えば、編集画面３０を参照して合成対象音を指定した利用者が、入力装置１４に対する所定の操作で音声合成の指示を付与した場合に実行される。音声合成部２６が生成した音声信号Ｘが放音装置１８に供給されて音波として再生される。

音素列画像３２の複数の音素指示子４２の時系列と特徴量画像３４の複数の編集点αの時系列（遷移線５６）とを指定すると、利用者は、相連続する複数（Ｎ個）の音素を含む任意の区間（以下「伸縮対象区間」という）を入力装置１４に対する操作で指定するとともに、伸縮対象区間の伸縮（伸長または短縮）を指示することが可能である。図４の部分(A)は、「そうなのか（sonanoka）」という発音に対応する８個（Ｎ＝８）の音素σ[1]〜σ[N]の時系列（/s/,/o/,/n/,/a/,/n/,/o/,/k/,/a/）を利用者が伸縮対象区間として指定した場合の編集画面３０である。伸縮対象区間内のＮ個の音素σ[1]〜σ[N]が相等しい発音長ａ3に設定された場合が図４の部分(A)では便宜的に想定されている。

現実の発声時（例えば会話時）に発声音を伸縮する場合、発声音の音高に応じて伸縮の度合が変化するという傾向が経験的に把握される。具体的には、音高が高い箇所（典型的には会話内で強調すべき箇所）ほど伸長し易く、音高が低い箇所（例えば強調の必要性が低い箇所）ほど短縮し易いと言う傾向がある。以上の傾向を考慮して、第１実施形態では、伸縮対象区間内の各音素の発音長ａ3（音素指示子４２の長さ）をその音素に指定された音高ｂ2に応じた度合で伸縮させる。また、子音と比較して母音は伸縮し易いという傾向を考慮して、母音の音素を子音の音素と比較して大きく伸縮させる。伸縮対象区間内の各音素の伸縮を以下に詳述する。

図４の部分(B)は、図４の部分(A)の伸縮対象区間を伸長した場合の編集画面３０である。伸縮対象区間の伸長が利用者から指示された場合、図４の部分(B)に示すように、伸縮対象区間のうち特徴量情報ＳBで指定される音高ｂ2が高い音素ほど伸長の度合が大きく、かつ、母音の音素の伸長の度合が子音の音素と比較して大きくなるように、伸縮対象区間内の各音素が伸長される。例えば、図４の部分(B)における第２番目の音素σ[2]と第６番目の音素σ[6]とは、音素の種類/o/は共通するが、特徴量情報ＳBで指定される音高ｂ2は音素σ[6]よりも音素σ[2]が高いから、音素σ[2]は音素σ[6]の発音長ａ3（＝Ｌb[6]）と比較して長い発音長ａ3（＝Ｌb[2]）に伸長される。また、音素σ[2]は母音/o/であるのに対して第３番目の音素σ[3]は子音/n/であるから、音素σ[2]は音素σ[3]の発音長ａ3（＝Ｌb[3]）と比較して長い発音長ａ3（＝Ｌb[2]）に伸長される。

他方、図４の部分(C)は、図４の部分(A)の伸縮対象区間を短縮した場合の編集画面３０である。伸縮対象区間の短縮が利用者から指示された場合、図４の部分(C)に示すように、伸縮対象区間のうち特徴量情報ＳBで指定される音高ｂ2が低い音素ほど短縮の度合が大きく、かつ、母音の音素の短縮の度合が子音の音素と比較して大きくなるように、伸縮対象区間内の各音素が短縮される。例えば、音素σ[6]の音高ｂ2は音素σ[2]の音高ｂ2と比較して低いから、音素σ[6]は音素σ[2]の発音長ａ3（＝Ｌb[2]）と比較して短い発音長ａ3（＝Ｌb[6]）に短縮される。また、母音の音素σ[2]は子音の音素σ[3]の発音長ａ3（＝Ｌb[3]）と比較して短い発音長ａ3（＝Ｌb[2]）に短縮される。

以上に例示した各音素の伸縮のために編集処理部２４が実行する演算を以下に詳述する。伸縮対象区間の伸長が指示された場合、編集処理部２４は、伸縮対象区間内の第ｎ番目（ｎ＝１〜Ｎ）の音素σ[n]の伸縮係数ｋ[n]を以下の数式(1)の演算で算定する。
ｋ[n]＝Ｌa[n]・Ｒ・Ｐ[n] ……(1)

数式(1)の記号Ｌa[n]は、図４の部分(A)に示すように、伸長前の音素σ[n]に対応する単位情報ＵAが指定する発音長ａ3を意味する。数式(1)の記号Ｒは、音素毎（音素の種類毎）に事前に設定された音素伸縮率を意味する。各音素の音素伸縮率Ｒ（テーブル）が事前に選定されたうえで記憶装置１２に格納される。編集処理部２４は、単位情報ＵAが指定する識別情報ａ1の音素σ[n]に対応した音素伸縮率Ｒを記憶装置１２から検索して数式(1)の演算に適用する。母音の音素の音素伸縮率Ｒが子音の音素の音素伸縮率と比較して大きい数値となるように各音素の音素伸縮率Ｒは設定される。したがって、母音の音素の伸縮係数ｋ[n]は子音の音素の伸縮係数ｋ[n]と比較して大きい数値に設定される。

数式(1)の記号Ｐ[n]は、音素σ[n]の音高を意味する。例えば、遷移線５６が示す音高を音素σ[n]の発音区間内で平均した数値や、遷移線５６のうち音素σ[n]の発音区間内の特定点（例えば始点や中点）での音高を、編集処理部２４は数式(1)の音高Ｐ[n]として決定したうえで数式(1)の演算に適用する。したがって、音高Ｐ[n]が高い音素σ[n]ほど数式(1)の伸縮係数ｋ[n]は大きい数値に設定される。

編集処理部２４は、数式(1)の伸縮係数ｋ[n]を適用した以下の数式(2)の演算で伸縮度Ｋ[n]を算定する。
Ｋ[n]＝ｋ[n]／Σ(ｋ[n]) ……(2)
数式(2)の記号Σ(ｋ[n])は、伸縮対象区間内の全部（Ｎ個）の音素σ[1]〜σ[N]にわたる伸縮係数ｋ[n]の総和（Σ(ｋ[n])＝ｋ[1]＋ｋ[2]＋……＋ｋ[N]）を意味する。すなわち、数式(2)は、伸縮係数ｋ[n]を１以下の正数に正規化する演算に相当する。

編集処理部２４は、数式(2)の伸縮度Ｋ[n]を適用した以下の数式(3)の演算で伸長後の音素σ[n]の発音長Ｌb[n]を算定する。
Ｌb[n]＝Ｌa[n]＋Ｋ[n]・ΔＬ ……(3)

数式(3)の記号ΔＬは、伸縮対象区間の伸縮量（絶対値）を意味し、利用者による入力装置１４の操作に応じて可変に指定される。図４の部分(A)および部分(B)に示すように、伸長後の伸縮対象区間の合計長（Ｌb[1]＋Ｌb[2]＋……＋Ｌb[N]）と伸長前の伸縮対象区間の合計長（Ｌa[1]＋Ｌa[2]＋……＋Ｌa[N]）との差分の絶対値が伸縮量ΔＬに相当する。数式(3)から理解されるように、伸縮度Ｋ[n]は、伸縮対象区間の全体的な伸縮量ΔＬのうち音素σ[n]の伸長に対する割当分の比率を意味する。数式(3)の演算の結果、音高Ｐ[n]が高い音素σ[n]ほど伸長の度合が大きく、かつ、子音と比較して母音の音素σ[n]の伸長の度合が大きくなるように、伸長後の各音素σ[n]の発音長Ｌb[n]が設定される。

他方、伸縮対象区間の短縮が指示された場合、編集処理部２４は、伸縮対象区間内の第ｎ番目の音素σ[n]の伸縮係数ｋ[n]を以下の数式(4)の演算で算定する。
ｋ[n]＝Ｌa[n]・Ｒ／Ｐ[n] ……(4)

数式(4)の各変数（Ｌa[n]，Ｒ，Ｐ[n]）の意義は数式(1)と同様である。編集処理部２４は、数式(4)で算定した伸縮係数ｋ[n]を数式(2)に適用することで伸縮度Ｋ[n]を算定する。数式(4)から理解されるように、音高Ｐ[n]が低い音素σ[n]ほど伸縮度Ｋ[n]（伸縮係数ｋ[n]）は大きい数値に設定される。

編集処理部２４は、伸縮度Ｋ[n]を適用した以下の数式(5)の演算で短縮後の音素σ[n]の発音長Ｌb[n]を算定する。
Ｌb[n]＝Ｌa[n]−Ｋ[n]・ΔＬ ……(5)
数式(5)から理解されるように、音高Ｐ[n]が低い音素σ[n]ほど短縮の度合が大きく、かつ、子音と比較して母音の音素σ[n]の短縮の度合が大きくなるように、短縮後の各音素σ[n]の発音長Ｌb[n]が可変に設定される。

以上が伸縮後の発音長Ｌb[n]の演算である。伸縮対象区間内のＮ個の音素σ[1]〜σ[N]の各々について以上の手順で発音長Ｌb[n]を算定すると、編集処理部２４は、音素列情報ＳAのうち各音素σ[n]に対応する単位情報ＵAが指定する発音長ａ3を伸縮前の発音長Ｌa[n]から伸縮後の発音長Ｌb[n]（数式(3)または数式(5)の演算値）に変更し、伸縮後の各音素σ[n]の発音長ａ3に応じて各音素σ[n]の発音開始時刻ａ2を更新する。また、表示制御部２２は、編集画面３０の音素列画像３２を、編集処理部２４による更新後の音素列情報ＳAに応じた内容に更新する。

他方、図４の部分(B)および部分(C)に示すように、各音素σ[n]の発音区間に対する編集点αの相対的な位置が伸縮対象区間の伸縮の前後で維持されるように、編集処理部２４による編集処理部２４による特徴量情報ＳBの更新および表示制御部２２による特徴量画像３４の更新が実行される。すなわち、特徴量情報ＳBが指定する編集点αの時刻ｂ1は、伸縮後の各音素σ[n]の発音区間に対して伸縮前と同様の関係が維持されるように適宜に変更される。したがって、各編集点αで規定される遷移線５６は、各音素σ[n]の伸縮に対応するように時間軸５２上で伸縮される。

以上に説明した第１実施形態では、各音素σ[n]の音高Ｐ[n]に応じて各音素σ[n]の伸縮度Ｋ[n]が可変に設定される。したがって、例えば音素の種類（母音／子音）のみに応じて伸縮度Ｋ[n]を設定する構成（特許文献１）と比較して、聴感的に自然な印象の音声を合成し得る音声合成情報Ｓを生成できる（ひいては音声合成情報Ｓを利用した自然な音声を生成できる）という利点がある。具体的には、伸縮対象区間を伸長する場合には、音高が高いほど伸長の度合が大きいという傾向を反映した自然な音声が生成され、伸縮対象区間を短縮する場合には、音高が低いほど短縮の度合が大きいという傾向を反映した自然な音声が生成される。

＜Ｂ：第２実施形態＞
本発明の第２実施形態を以下に説明する。第２実施形態では、特徴量情報ＳBが指定する各編集点αの時系列（音高の時間変化を示す遷移線５６）の編集に着目した形態である。なお、以下に例示する各態様において作用や機能が第１実施形態と同等である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。なお、音素の時系列の伸縮が指示された場合の動作は第１実施形態と同様である。

図５は、複数の編集点αの時系列（遷移線５６）を編集する手順の説明図である。図５の部分(A)には、「かい（kai）」という発音に対応する複数の音素（/k/,/a/,/i/）の時系列と音高の時間変化とを利用者が指定した場合が例示されている。利用者は、入力装置１４を適宜に操作することで、特徴量画像３４のうち編集の対象となる矩形の領域（以下「選択領域」という）６０を指定する。選択領域６０は、相互に隣合う複数（Ｍ個）の編集点α[1]〜α[M]を含むように指定される。

図５の部分(B)に示すように、利用者は、入力装置１４を操作して例えば選択領域６０の角部ＺAを適宜に移動することで選択領域６０を伸縮（図５の部分(B)では伸長）することが可能である。利用者が選択領域６０を伸縮すると、選択領域６０内のＭ個の編集点α[1]〜α[M]が選択領域６０の伸縮に応じて移動する（すなわちＭ個の編集点αが伸縮後の選択領域６０内に分布する）ように、編集処理部２４による特徴量情報ＳBの更新および表示制御部２２による特徴量画像３４の更新が実行される。なお、選択領域６０の伸縮は遷移線５６の変更を目的とした編集であるため、各音素の発音長ａ3（音素列画像３２内の各音素指示子４２の長さ）は変更されない。

選択領域６０を伸縮した場合の各編集点αの移動について以下に詳述する。なお、以下の説明では、図６に示すように第ｍ番目の１個の編集点α[m]の移動に着目するが、実際には、図５の部分(B)に示すように選択領域６０内のＭ個の編集点α[1]〜α[M]の各々が同様の規則で移動する。

図６に示すように、利用者は、入力装置１４を操作して選択領域６０の角部ＺAを移動させることで、角部ＺAの対角に相当する角部（以下「基準点」という）Ｚrefを固定したまま選択領域６０を伸縮（図６では伸長）することが可能である。具体的には、音高軸５４の方向における選択領域６０の長さＬPが伸縮量ΔＬPだけ伸長され、時間軸５２の方向における選択領域６０の長さＬTが伸縮量ΔＬTだけ伸長された場合を想定する。編集処理部２４は、音高軸５４の方向における編集点α[m]の移動量δＰ[m]と時間軸５２の方向における編集点α[m]の移動量δＴ[m]とを算定する。図６の音高差ＰA[m]は、移動前の編集点α[m]と基準点Ｚrefとの音高差を意味し、図６の時間差ＴA[m]は、移動前の編集点α[m]と基準点Ｚrefとの時間差を意味する。

編集処理部２４は、以下の数式(6)の演算で移動量δＰ[m]を算定する。
δＰ[m]＝ＰA[m]・ΔＬP／ＬP ……(6)
すなわち、音高軸５４の方向における編集点α[m]の移動量δＰ[m]は、基準点Ｚrefに対する移動前の音高差ＰA[m]と、音高軸５４の方向における選択領域６０の伸縮の度合（ΔＬP／ＬP）に応じて可変に設定される。

また、編集処理部２４は、以下の数式(7)の演算で移動量δＴ[m]を算定する。
δＴ[m]＝Ｒ・ＴA[m]・ΔＬT／ＬT ……(7)
すなわち、時間軸５２の方向における編集点α[m]の移動量δＴ[m]は、基準点Ｚrefに対する移動前の時間差ＴA[m]と時間軸５２の方向における選択領域６０の伸縮の度合（ΔＬT／ＬT）とに加えて音素伸縮率Ｒに応じて可変に設定される。

第１実施形態と同様に、各音素の音素伸縮率Ｒが記憶装置１２に事前に格納される。編集処理部２４は、音素列情報ＳAが指定する複数の音素のうち移動前の編集点α[m]を発音区間内に含む１個の音素に対応する音素伸縮率Ｒを記憶装置１２から検索して数式(7)の演算に適用する。第１実施形態と同様に、母音の音素の音素伸縮率Ｒが子音の音素の音素伸縮率Ｒと比較して大きい数値となるように音素毎に音素伸縮率Ｒは設定される。したがって、基準点Ｚrefに対する時間差ＴA[m]や時間軸５２の方向における選択領域６０の伸縮の度合（ΔＬT／ＬT）が一定であるならば、編集点α[m]が母音の音素に対応する場合のほうが、編集点αが子音の音素に対応する場合と比較して、時間軸５２の方向における編集点α[m]の移動量δＴ[m]は大きい数値となる。

選択領域６０内のＭ個の編集点α[1]〜α[M]の各々について以上の手順で移動量δＰ[m]および移動量δＴ[m]を算定すると、編集処理部２４は、特徴量情報ＳBの単位情報ＵBで指定される各編集点α[m]が音高軸５４の方向に移動量δＰ[m]だけ移動するとともに時間軸５２の方向に移動量δＴ[m]だけ移動するように単位情報ＵBを更新する。具体的には、図６から理解されるように、編集処理部２４は、特徴量情報ＳBのうち編集点α[m]の単位情報ＵBが指定する時刻ｂ1に数式(7)の移動量δＴ[m]を加算し、単位情報ＵBが指定する音高ｂ2から数式(6)の移動量δＰ[m]を減算する。また、表示制御部２２は、編集画面３０の特徴量画像３４を、編集処理部２４による更新後の特徴量情報ＳBに応じた内容に更新する。すなわち、図５の部分(B)に示すように、選択領域６０内のＭ個の編集点α[1]〜α[M]の各々を移動し、移動後の各編集点α[1]〜α[M]を通過するように遷移線５６を更新する。

以上に説明したように、第２実施形態では、編集点α[m]が音素の種類（音素伸縮率Ｒ）に応じた移動量δＴ[m]だけ時間軸５２の方向に移動する。すなわち、例えば図５の部分(B)に示すように、母音の音素（/a/，/i/）に対応する編集点α[m]は、子音の音素（/k/）に対応する編集点α[m]と比較すると、選択領域６０の伸縮に連動して時間軸５２の方向に大きく移動する。したがって、選択領域６０の伸縮という簡単な操作のみで、子音の音素に対応する編集点α[m]の時間軸５２上の移動を抑制しながら、母音の音素に対応する編集点α[m]を移動させるという複雑な編集が実現されるという利点がある。

なお、以上の例示では、音高Ｐ[n]に応じて各音素σ[n]を伸縮させる第１実施形態の構成と音素の種類に応じて編集点α[m]を移動させる第２実施形態の構成との双方を具備する形態を例示したが、第１実施形態の構成（各音素の伸縮）は省略され得る。

ところで、以上に例示した方法で各編集点αを移動させた場合、選択領域６０内で時間軸５２の方向の端部近傍に位置する編集点α（例えば図５の部分(B)の編集点α[M]）と選択領域６０の外側に位置する編集点α（例えば図５の部分(B)の右方から第２番目の編集点α）との時間軸５２上の前後関係が選択領域６０の伸縮前と伸縮後とで逆転する可能性がある。また、選択領域６０の内部でも、各音素の音素伸縮率Ｒの大小関係によっては（例えば前方の編集点αに対応する音素の音素伸縮率Ｒが後方の編集点αに対応する音素の音素伸縮率Ｒと比較して充分に大きい場合）、各編集点αの時間軸５２上の前後関係が選択領域６０の伸縮前と伸縮後とで逆転する可能性がある。そこで、各編集点αの時間軸５２上の前後関係が選択領域６０の伸縮前と伸縮後で逆転しないように制約条件を設定した構成も好適である。具体的には、以下の数式(7a)の制約条件が成立するように数式(7)の移動量δＴ[m]が算定される。
ＴA[m-1]＋δＴ[m-1]≦ＴA[m]＋δＴ[m] ……(7a)
例えば、利用者による選択領域６０の伸縮を数式(7a)の制約条件が成立する範囲内に制限する構成や、各編集点αに対応する音素伸縮率Ｒを数式(7a)の制約条件が成立するように動的に調整する構成、あるいは、数式(7)で算定された移動量δＴ[m]を数式(7a)が成立するように補正する構成が好適に採用される。

＜Ｃ：変形例＞
以上の形態には様々な変形が加えられる。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様は併合され得る。

（１）変形例１
第１実施形態では音高Ｐ[n]に応じて各音素σ[n]を伸縮させたが、各音素σ[n]の伸縮度Ｋ[n]に反映される合成対象音の特徴量は音高Ｐ[n]に限定されない。例えば、発声音の音量に応じて各音素の伸縮の度合が変化する（例えば音量が大きい箇所ほど伸長し易い）という傾向を前提とした場合には、音量（ダイナミクス）の時間変化を指定するように特徴量情報ＳBを生成し、第１実施形態で説明した各演算の音高Ｐ[n]を、特徴量情報ＳBが示す音量Ｄ[n]に置換した構成が採用される。すなわち、例えば、音量Ｄ[n]が大きい音素σ[n]ほど伸長の度合が大きく、かつ、音量Ｄ[n]が小さい音素σ[n]ほど短縮の度合が大きくなるように伸縮度Ｋ[n]が音量Ｄ[n]に応じて可変に設定される。伸縮度Ｋ[n]の算定に好適な特徴量としては、音高Ｐ[n]や音量Ｄ[n]のほかに音声の明瞭度等が想定され得る。

（２）変形例２
第１実施形態では音素毎に伸縮度Ｋ[n]を個別に設定したが、音素毎の個別的な伸縮が適切でない場合もある。例えば、"string"という単語の先頭から３個の音素（/s/，/t/，/r/）の各々を相異なる伸縮度Ｋ[n]で伸縮すると却って不自然な音声となり得る。そこで、伸縮対象区間のうち特定の複数の音素（例えば利用者が選択した音素や所定の条件を充足する音素）の各々の伸縮度Ｋ[n]を相等しい数値に設定する構成も採用され得る。例えば、３個以上の子音の音素が連続する場合にはこれらの音素の伸縮度Ｋ[n]を相等しい数値に設定する構成が好適である。

（３）変形例３
第１実施形態では、数式(1)や数式(4)に適用される音素伸縮率Ｒが前後の音素σ[n-1]と音素[n]とで急激に変化する可能性がある。そこで、複数の音素にわたる音素伸縮率Ｒの移動平均（例えば音素σ[n-1]の音素伸縮率Ｒと音素σ[n]の音素伸縮率Ｒとの平均値）を数式(1)や数式(4)の音素伸縮率Ｒとする構成も好適である。第２実施形態においても同様に、編集点α[m]毎に決定される音素伸縮率Ｒの移動平均を数式(7)の演算に適用する構成が採用される。

（４）変形例４
第１実施形態では、特徴量情報ＳBから算定される音高を直接的に数式(1)や数式(4)の音高Ｐ[n]として適用したが、特徴量情報ＳBから特定される音高ｐに対する所定の演算で音高Ｐ[n]を算定する構成も採用され得る。例えば、音高ｐの冪乗（例えばｐ²）を音高Ｐ[n]とする構成や、音高ｐの対数値（logｐ）を音高Ｐ[n]とする構成が好適である。

（５）変形例５
以上の各形態では、音素列情報ＳAと特徴量情報ＳBとを単一の記憶装置１２に格納したが、音素列情報ＳAと特徴量情報ＳBとを別個の記憶装置１２に格納した構成も採用される。すなわち、音素列情報ＳAを記憶する要素（音素列記憶手段）と特徴量情報ＳBを記憶する要素（特徴量記憶手段）との別体／一体は本発明において不問である。

（６）変形例６
以上の各形態では、音声合成部２６を含む音声合成装置１００を例示したが、表示制御部２２や音声合成部２６は省略され得る。表示制御部２２を省略した構成（編集画面３０の表示や編集画面３０に対する利用者からの編集指示を省略した構成）では、例えば利用者からの編集指示を必要とせずに自動的に音声合成情報Ｓの作成および編集が実行される。以上の構成では、編集処理部２４による音声合成情報Ｓの作成および編集を利用者からの指示に応じてオン／オフする構成が好適である。

また、表示制御部２２や音声合成部２６を省略した装置は、編集処理部２４が音声合成情報Ｓを作成および編集する装置（音声合成情報編集装置）として構成され得る。音声合成情報編集装置が生成した音声合成情報Ｓを別体の音声合成装置（音声合成部２６）に提供することで音声信号Ｘが生成される。例えば、記憶装置１２と編集処理部２４とを含む音声合成情報編集装置（サーバ装置）と、表示制御部２２や音声合成部２６を含む通信端末（例えばパーソナルコンピュータや携帯通信端末）とが通信網を介して通信する通信システムにおいて、音声合成情報Ｓを作成および編集するサービス（クラウドコンピューティングサービス）を音声合成情報編集装置から端末装置に提供する場合にも本発明が適用される。すなわち、音声合成情報編集装置の編集処理部２４は、通信端末からの要求に応じて音声合成情報Ｓを作成および編集して要求元の通信端末に送信する。

１００……音声合成装置、１０……演算処理装置、１２……記憶装置、１４……入力装置、１６……表示装置、１８……放音装置、２２……表示制御部、２４……編集処理部、２６……音声合成部、３０……編集画面、３２……音素列画像、３４……特徴量画像、４２……音素指示子、５２……時間軸、５４……音高軸、５６……遷移線、６０……選択領域。

Claims

合成対象音の音素毎に発音長を指定する音素列情報と、時間軸に沿って配列された編集点毎に前記合成対象音の特徴量を指定する特徴量情報とを含む音声合成情報を編集する手段であって、前記音素列情報が指定する各音素の発音長を、前記特徴量情報が当該音素について指定する特徴量に応じた伸縮度で変更する一方、前記特徴量の時間変化の変更が指示された場合に、前記音素列情報が示す音素の発音区間内の前記編集点の時間軸上の位置を、当該音素の種類に応じた移動量だけ時間軸の方向に移動させる編集処理手段
を具備する音声合成情報編集装置。
前記特徴量情報が示す特徴量は音高であり、
前記編集処理手段は、前記合成対象音を伸長する場合に、前記特徴量情報が指定する音高が高い前記音素ほど伸長の度合が大きくなるように、前記伸縮度を前記特徴量に応じて可変に設定する
請求項１の音声合成情報編集装置。
前記音素列情報が指定する発音長に応じて時間軸の方向の長さが設定された音素指示子を前記合成対象音の複数の音素について時間軸の方向に配列した音素列画像と、前記特徴量情報が指定する特徴量の時系列を示す特徴量画像とを、時間軸を共通にして配置した編集画面を表示装置に表示させ、前記編集処理手段による処理の結果に応じて前記編集画面を更新する表示制御手段
を具備する請求項１または請求項２の音声合成情報編集装置。
前記編集処理手段は、前記特徴量情報が指定する編集点の時系列のうち編集対象となる選択領域内の各編集点を当該選択領域の伸縮に応じて移動する一方、前記選択領域の内側の各編集点と当該選択領域の外側の各編集点との時間軸上の前後関係が前記選択領域の伸縮の前後で維持されるように、前記特徴量情報を更新する
請求項１から請求項３の何れかの音声合成情報編集装置。
合成対象音の音素毎に発音長を指定する音素列情報と、時間軸に沿って配列された編集点毎に前記合成対象音の特徴量を指定する特徴量情報とを含む音声合成情報を編集する手段であって、前記音素列情報が指定する各音素の発音長を、前記特徴量情報が当該音素について指定する特徴量に応じた伸縮度で変更する一方、前記特徴量の時間変化の変更が指示された場合に、前記音素列情報が示す音素の発音区間内の前記編集点の時間軸上の位置を、当該音素の種類に応じた移動量だけ時間軸の方向に移動させる編集処理手段
としてコンピュータを機能させるプログラム。