JP3721101B2 - 音声合成編集装置及び音声合成編集方法並びに音声合成編集プログラム - Google Patents
音声合成編集装置及び音声合成編集方法並びに音声合成編集プログラム Download PDFInfo
- Publication number
- JP3721101B2 JP3721101B2 JP2001162622A JP2001162622A JP3721101B2 JP 3721101 B2 JP3721101 B2 JP 3721101B2 JP 2001162622 A JP2001162622 A JP 2001162622A JP 2001162622 A JP2001162622 A JP 2001162622A JP 3721101 B2 JP3721101 B2 JP 3721101B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- phonetic
- prosody
- prosodic
- correction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明はテキスト音声合成により得られる合成音を対話的に編集する音声合成編集装置に関し、特に言語処理により生成される表音情報と韻律制御により生成される韻律情報とを修正して合成音を編集する音声合成編集装置及び音声合成編集方法並びに音声合成編集プログラムに関する。
【0002】
【従来の技術】
テキスト音声合成では一般に入力されたテキストを言語処理し、その結果得られる表音情報を基に韻律制御を行って韻律情報を生成し、この韻律情報を基に合成音を生成して最終的にDAコンバータを介して合成音を出力する。
【0003】
しかしながら、テキスト音声合成により出力される合成音には単語の読み間違えなど言語処理における誤りが明らかな場合や韻律が不自然である場合が少なくない。
【0004】
一般に音声合成編集装置はテキスト音声合成の結果の誤り修正や韻律の自然性改善を操作者が対話的に行えるようにするものであり、上述のテキスト音声合成における問題を補うものとして有効なツールである。
【0005】
従来の音声合成編集装置には、言語処理の結果出力される品詞、係り受け、読み、アクセント型、区切り位置、区切りの種別等の表音情報を表音記号列として出力し、これを直接あるいは専用のインターフェースを用いて間接的に変更できるようにして言語処理において発生した誤りを対話的に修正できるようにするものがあった。
【0006】
また、韻律制御により生成される韻律情報すなわちピッチパターンと音韻継続時間長を対話的に変更できるようにして、表音情報のみの修正ではできなかったイントネーションの微妙な変更や読む速さの調整等のさらに詳細な修正を可能とし、より自然性の高いあるいは多様な韻律の合成音を作成可能とするものがあった。
【0007】
このように、音声合成編集装置はテキスト音声合成の処理プロセスで生成される表音情報あるいは韻律情報を対話的に修正できるようにし、正確な合成音や自然性の高い合成音の作成を操作者の判断で行えるようにするものである。
【0008】
ゆえに、音声合成編集装置を用いた編集では表音情報あるいは韻律情報を修正し、修正した結果を操作者自身が聞いて確かめるという修正・試聴の作業が必須であり、通常、この作業は操作者が納得できる合成音が得られるまで繰り返し行われる。
【0009】
こうした試行錯誤は、編集作業の中心をなすものであり、合成音を「いろいろ試しながら変えていく」ことができるということが、音声合成編集装置の特長であるといえる。
【0010】
したがって、音声合成編集装置は操作者の試行錯誤を十分に支援する環境、すなわち操作者が編集上の制約を受けず、表音情報あるいは韻律情報を自由に修正して試すことのできる場を提供するものでなければならない
しかし、上述のようにテキスト音声合成には言語処理結果の表音情報を基に韻律制御を行って韻律情報を生成するという処理手順が存在し、従来の音声合成編集装置はこの処理手順に依存する形で、表音情報の修正は韻律情報の修正の前に行わなければならないという編集上の制約を操作者に課すものであった。
【0011】
例えば、操作者が韻律情報の修正後に表音情報の誤りに気が付いてそれを修正すると、修正された表音情報を基に再び韻律制御が行われ、新たな韻律情報が生成されるので出力される合成音は修正された表音情報を反映するものの、先に修正された韻律情報は全て失われて反映されず、操作者にとっては先に行った韻律情報の修正が無駄な作業となってしまう。
【0012】
特に、修正をアクセント句単位で行わせるものとする場合、アクセント句の韻律情報を修正した後に他のアクセント句の表音情報を修正すると、表音情報を修正したアクセント句のみならず表音情報を修正しなかったアクセント句についても韻律情報が新に変更されてしまうのは操作者にとっては予想外の結果になる。操作者としては他のアクセント句について表音情報の修正を行っても、すでに韻律情報を修正してあるアクセント句についてはその修正結果が保持されることを期待する。しかし、従来の音声合成編集装置は表音情報が一部でも修正されると全てのアクセント句に対して韻律情報をリセットし、結果として操作者に編集作業のやり直しを強要するものであった。
【0013】
したがって、操作者はこうした編集作業のやり直しという作業効率の悪化を防ぐために表音情報の修正は韻律情報の修正の前に行うという手順を常に意識して作業しなければならなかった。
【0014】
このような編集上の制約を操作者に課すことは操作者の試行錯誤を阻害するものであり音声合成編集装置の改善すべき問題点であった。
【0015】
【発明が解決しようとする課題】
本発明は上記のような問題を解決するためになされたもので、表音情報と韻律情報とを修正して所望の合成音を得ようとする音声合成の編集において、韻律情報の修正後も継続して表音情報を修正可能とし、操作者が表音情報の修正と韻律情報の修正の順番を意識することのなく自由に所望の合成音を編集できる音声合成編集装置及び音声合成編集方法並びに音声合成編集プログラムを提供することを目的とする。
【0016】
【課題を解決するための手段】
上記目的を達成するために、本発明の音声合成編集装置では入力された音声合成すべきテキストに対して所定の単位毎に表音情報を生成する言語処理手段と、この言語処理手段により生成した表音情報を記憶する表音情報記憶手段と、この表音情報記憶手段において記憶した表音情報を基に所定の単位毎に韻律情報を生成する韻律情報生成手段と、この韻律情報生成手段により生成した韻律情報を記憶する韻律情報記憶手段と、前記表音情報記憶手段において記憶した表音情報を修正させる表音情報修正手段と、前記韻律情報記憶手段において記憶した韻律情報を修正させる韻律情報修正手段と、前記表音情報修正手段において修正された部分を記憶する表音修正部分記憶手段と、前記表音情報修正手段において表音情報が修正された場合、前記韻律情報生成手段が表音情報を基に修正された韻律情報を記憶する第二の韻律情報記憶手段と、前記韻律情報記憶手段に記憶してある韻律情報と、前記第二の韻律情報記憶手段に記憶した韻律情報とを参照し、前記韻律情報記憶手段に記憶してある韻律情報のうち、前記表音修正部分記憶手段で記憶した修正部分についてのみ韻律情報を変更する韻律情報変更手段と、前記韻律情報を基に合成音を生成する合成音生成手段と、この合成音生成手段において生成した合成音を出力する合成音出力手段とを具備することを特徴とするものである。
【0019】
さらに本発明の音声合成編集方法は、入力された音声合成すべきテキストに対して表音情報を生成する言語処理ステップと、この言語処理ステップにより生成した表音情報を記憶する表音情報記憶ステップと、前記表音情報記憶ステップにおいて記憶した表音情報を基に韻律情報を生成する韻律情報生成ステップと、この韻律情報生成ステップにより生成した韻律情報を記憶する韻律情報記憶ステップと、この表音情報記憶ステップにおいて記憶した表音情報を修正させる表音情報修正ステップと、前記韻律情報記憶ステップにおいて記憶した韻律情報を修正させる韻律情報修正ステップと、前記表音情報修正ステップにおいて修正された部分を記憶する表音修正部分記憶ステップと、前記表音情報修正ステップにおいて表音情報が修正された場合、前記韻律情報生成ステップで表音情報を基に修正された韻律情報を記憶する第二の韻律情報記憶ステップと、前記韻律情報記憶ステップで記憶した韻律情報と、前記第二の韻律情報記憶ステップで記憶した韻律情報とを参照し、前記韻律情報記憶ステップで記憶した韻律情報のうち、前記表音修正部分記憶ステップで記憶した修正部分についてのみ韻律情報を変更する韻律情報変更ステップと、前記韻律情報を基に合成音を生成する合成音生成ステップと、この合成音生成ステップにおいて生成した合成音を出力する合成音出力ステップとを含むことを特徴とするものである。
【0020】
さらに本発明の音声合成編集プログラムでは、入力された音声合成すべきテキストに対して表音情報を生成する言語処理と、この前記言語処理により生成した表音情報を記憶する表音情報記憶処理と、この表音情報記憶処理において記憶した表音情報を基に韻律情報を生成する韻律情報生成処理と、この韻律情報生成処理により生成した韻律情報を記憶する韻律情報記憶処理と、前記表音情報記憶処理において記憶した表音情報を修正させる表音情報修正処理と、前記韻律情報記憶処理において記憶した韻律情報を修正させる韻律情報修正処理と、前記表音情報修正処理において修正された部分を記憶する表音修正部分記憶処理と、前記表音情報修正処理において表音情報が修正された場合、前記韻律情報生成処理で表音情報を基に修正された韻律情報を記憶する第二の韻律情報記憶処理と、前記韻律情報記憶処理で記憶した韻律情報と、前記第二の韻律情報記憶処理で記憶した韻律情報とを参照し、前記韻律情報記憶処理で記憶した韻律情報のうち、前記表音修正部分記憶処理で記憶した修正部分についてのみ韻律情報を変更する韻律情報変更処理と、前記韻律情報を基に合成音を生成する合成音生成処理と、この合成音生成処理において生成した合成音を出力する合成音出力処理とを含むことを特徴とするといものである。
【0021】
【発明の実施の形態】
以下、図面を参照して本発明による音声合成編集装置及び音声合成編集方法並びに音声合成編集プログラムの一実施形態を説明する。
【0022】
(第1の実施の形態)
図1は本発明による音声合成編集装置の一つの実施例を示すブロック図である。この音声合成編集装置はテキスト入力部1、言語処理部2、表音情報記憶部3、韻律制御部4、韻律情報第一記憶部5、表音情報修正部6、表音情報表示部6−1、韻律情報修正部7、韻律情報表示部7−1、合成音生成部8、合成音出力部9、表音修正部分記憶部10、韻律情報第二記憶部11、及び韻律情報変更部12を有する。
【0023】
テキスト入力部1は合成音に変換すべきテキストを入力させるインターフェースである。テキストはキーボードによる入力あるいはテキストファイルの読み込みによって入力される。
【0024】
言語処理部2は入力されたテキストに対し言語処理を行い、表音情報を生成する処理モジュールである。
【0025】
ここで表音情報とは言語処理過程で生成される情報であり、すなわち形態素解析の結果得られる品詞などの形態情報、係り受けなどの構文情報、読み、アクセント型、区切り位置、区切りの種別などを表した一般に中間言語と呼ばれる表音記号列を指す。
【0026】
なお、言語処理は入力されたテキストをアクセント句単位に分割し、各アクセント句に対応する形で表音情報を出力する。また、後述の表音情報修正部6、韻律情報修正部7における修正はここで分割されたアクセント句を単位に行わせるものとする。
【0027】
表音情報記憶部3は言語処理部2で生成した表音情報を記憶するメモリである。言語処理部2で分割した各アクセント句には先頭のアクセント句から順番に番号付けを行い、アクセント句の番号とそのアクセント句の表音情報が一対一に対応するようにメモリに記憶する。
【0028】
表音情報修正部6は表音情報記憶部3で記憶された表音情報を操作者が修正するインターフェースであり、表音情報表示部6−1に表音情報を表示させながら対話的に修正させる。
【0029】
図2はこの実施例における表音情報修正部6及び表音情報表示部6−1の一例を示すGUI(Graphical User Interface)画面である。
【0030】
画面上段にはテキストの入力と表示が行えるテキスト入力/表示部分100と言語処理結果表示部分101とがある。ここでは、「今日は良い天気です。」という漢字仮名混じりテキストが入力された様子を示している。
【0031】
言語処理結果表示部分101は言語処理の結果得られた読み、アクセント型、区切りの種別をアクセント句単位で区切ってわかりやすく表示する。したがって、表音記号列をそのまま表示するのではなく一般の操作者でもわかりやすいように記号を変換して表示する。例えばここでは「きょーわ」、「よい」、「てんきです」の3つのアクセント句に分かれており、1番目のアクセント句「きょーわ」では「きょ」にアンダーラインを引いてここにアクセントがあることを示し、語尾に「(小)」を付けて区切りの種別が小ポーズであることを示す。
【0032】
また、言語処理結果表示部分101ではマウスによってアクセント句を選択することができる。ここではマウスカーソル(矢印)で示された1番目のアクセント句「きょーわ」が選択されている。
【0033】
画面下段は言語処理結果表示部分101で選択されたアクセント句について読み、アクセント型、アクセント強弱、区切りの種別を言語処理結果に基づいて表示するとともに、これらを修正可能とするインターフェースを備えている。これらのインターフェースで修正がなされた場合、表音情報記憶部3で記憶された表音情報を修正された結果で更新し、さらに言語処理結果表示部分101の表示も更新する。
【0034】
選択されているアクセント句の読みは読み修正部分102で修正可能であり、読み修正部分102に修正する読みを入力した後、読み変更ボタン103が押されると選択されているアクセント句の読みを入力された読みに変更する。
【0035】
アクセント型とアクセント強弱の修正はアクセント修正部分104で行われる。ここでは、「きょーわ」のアクセント型が1型であって「きょ」にアクセントがあり、強いアクセントであることを示している。アクセント型の修正は「きょーわ」の場合はアクセント型が0〜2型の3通りであり、1と表示されている所で数値を変えて入力するか、その横の縦横の矢印ボタンによって数値を変更することにより行える。また、アクセント強弱は右側の選択ボタンにより変更できる。
【0036】
区切りの種別、区切り位置(連結あるいは分割)の修正は一番下側の区切り修正部分105で行える。区切りの種別は強結合、弱結合、小ポーズ、大ポーズの中から選択できる。ここで、区切りの種別が小、大ポーズの場合は呼気段落の終わりであることを示す。
【0037】
アクセント句の連結は連結ボタンを押すことによって行える。図2のように1番目のアクセント句「きょーわ」が選択されていて連結ボタンが押された場合、2番目のアクセント句「よい」と連結して「きょーわよい」というアクセント句を構成する。また、アクセント句の分割は分割ボタンを押すことによって行える。分割位置は言語処理結果表示部分101のマウスカーソルの位置で指定できる。図2では、マウスカーソルが「きょー」の後に位置しているので、「きょー」と「わ」の2つのアクセント句に分割する。
【0038】
このように、表音情報修正部6及び表音情報表示部6−1は言語処理結果の表音情報を表示するとともに操作者が対話的にこれを修正できるインターフェースを備えており、修正が為されると表音情報記憶部3で記憶された表音情報を修正された結果で更新する。
【0039】
表音修正部分記憶部10は表音情報修正部6で修正された部分が何処であるかを記憶するためのメモリである。例えば、図2で1番目のアクセント句「きょーわ」のアクセント型が0型に変更されたとするとアクセント句の番号すなわち1番を表音情報が修正された部分としてメモリに記憶する。
【0040】
韻律制御部4は表音情報記憶部3で記憶された表音情報を基に韻律制御を行って韻律情報を生成する処理モジュールである。ここで、韻律情報とは音韻継続時間長およびピッチパターンを指す。例えば、図2で「きょーわ」、「よい」、「てんきです」の3つのアクセント句すべてに対して、表音情報を基に音韻継続時間長とピッチパターンを生成する。
【0041】
韻律情報第一記憶部5は韻律制御部4が生成した韻律情報を記憶するメモリである。韻律情報は1次元配列Pitch[i]で表現する。ここで、iは時間に相当するフレーム番号であり、Pitch[x]とはフレーム番号xが指すピッチである。後述の韻律情報修正部7では、横軸を時間(フレーム)、縦軸をピッチ(オクターブ)としてピッチパターンを表示する。
【0042】
また、各アクセント句が何番目のフレームから始まるか、ポインタを設定して韻律情報全体からあるアクセント句の韻律情報が抽出できるように記憶する。
【0043】
韻律情報修正部7及び韻律情報表示部7−1は韻律情報第一記憶部5で記憶された韻律情報を、表示し対話的に修正させるインターフェースである。
【0044】
図3はこの実施例における韻律情報修正部7及び韻律情報表示部7−1の一例を示すGUI画面である。
【0045】
画面上段には図2で説明したテキストの入力と表示が行えるテキスト入力/表示部分100と言語処理結果表示部分101とがある。
【0046】
画面下段にはピッチパターン修正部分106がある。ピッチパターン修正部分106は言語処理結果表示部11で選択されたアクセント句について横軸を時間(フレーム)、縦軸をピッチ(オクターブ)としたピッチパターンを韻律制御の結果に基づいて表示するとともに、音韻継続時間長およびピッチパターンの形状を修正可能とするインターフェースを提供する。
【0047】
ピッチパターン修正部分106では言語処理結果表示部11で選択されたアクセント句のピッチパターンを中心に表示し、その音韻継続時間長およびピッチパターンの形状を修正させる。ここでは、1番目のアクセント句「きょーわ」が選択されており、そのピッチパターンが中心に表示され2番目のアクセント句「よい」のピッチパターンが右側に表示されている。
【0048】
音韻継続時間長の修正およびピッチパターンの形状修正インターフェースは、韻律情報第一記憶部5で記憶された韻律情報、すなわち1次元配列で表されたデータを間接的に修正できるようにするGUIである。
【0049】
以下にそれぞれのインターフェースについて説明する。
【0050】
音韻継続時間長の修正はアクセント句内の各モーラやアクセント句全体について、あるいは区切りの長さについて行うことができる。アクセント句内の各モーラは縦線(点線を含む)で境界が示され、マウスで縦線の位置を左右に動かすことにより各モーラの音韻継続時間長を修正することが出来る。
【0051】
アクセント句全体の音韻継続時間長はマウスでアクセント句の先頭(左端)にある縦線を左右に動かすことにより伸縮することができる。また、隣のアクセント句、図3では2番目のアクセント句「よい」の先頭にある縦線をマウスで左右に動かすことにより区切り間隔の時間長を修正することができる。あるアクセント句の音韻継続時間長が修正されると他のアクセント句についても修正された長さ分で時間をシフトして韻律情報全体の整合性を保つようにする。
【0052】
ピッチパターンの形状修正はマウスでピッチパターン上に自由曲線を描くことにより行うことができる。図4にピッチパターンの形状修正例を示す。図4aのようにピッチパターン全体を自由曲線(点線)で修正することができ、また、図4bのようにピッチパターンの一部を自由曲線(点線)で修正することもできる。また、ピッチパターン修正部分106内の左端にあるスライダーバーをマウスで上下に動かすことにより選択されているアクセント句のピッチパターン全体を上下に動かしてピッチの高低を修正することができる。
【0053】
このように、韻律情報修正部7及び韻律情報表示部7−1は韻律制御結果の韻律情報を表示するとともに操作者が対話的にこれを修正できるインターフェースを備えており、修正が為されると韻律情報第一記憶部5で記憶した韻律情報を修正された結果で更新する。
【0054】
韻律情報第二記憶部11は表音情報修正部6で表音情報が修正された場合にのみ、韻律制御部4が生成した韻律情報を記憶するメモリである。表音情報修正部6で表音情報が修正された場合は、直接、韻律情報第一記憶部5には韻律情報を記憶しない。
【0055】
韻律情報変更部12は表音情報修正部6で表音情報が修正された場合に、表音情報が修正されたアクセント句についてのみ韻律情報を変更する処理モジュールである。韻律情報変更部12では表音修正部分記憶部10で記憶したアクセント句の番号を参照し、韻律情報第一記憶部5で記憶した韻律情報のうち上記番号のアクセント句に対応する韻律情報を韻律情報第二記憶部11で記憶した韻律情報のうち上記番号のアクセント句に対応する韻律情報で置き換える。
【0056】
すなわち、表音情報が修正されたアクセント句のみ修正された表音情報に基づいて生成した韻律情報で置き換える。図2で挙げた例では1番目のアクセント句「きょーわ」の表音情報が修正された場合は、アクセント句「きょーわ」についてのみ修正された表音情報に基づいて生成した韻律情報で置き換えを行う。表音情報が修正されなかった「よい」、「てんきです」の2つのアクセント句については変更しない。したがって、「よい」、「てんきです」の2つのアクセント句についてすでに韻律情報修正部7で韻律情報の修正が行われていれば、この2つのアクセント句についてはすでに修正された韻律情報をそのまま保持する。
【0057】
また、合成音生成部8は韻律情報第一記憶部5で記憶された韻律情報を基に合成音を生成する処理モジュールであり、合成音出力部9は合成音生成部8で生成された合成音をDA変換して出力する処理モジュールである。
【0058】
次に、この実施例における動作について図5〜図7に示したフローチャートを用いて説明する。
【0059】
テキスト入力部1において音声合成すべきテキストが入力されると、ステップS1によりステップS2〜S8へと処理が進む。ステップS2では言語処理部2が入力されたテキストに対し言語処理を行いその結果としてアクセント句単位に分割された表音情報を生成する。ステップS3では分割された各アクセント句に番号付けを行う。図2に示した例では「きょーわ」を1番、「よい」を2番、「てんきです」を3番とする。
【0060】
ステップS4では各アクセント句に対応する形で表音情報を表音情報記憶部3に記憶する。ステップS5では表音情報記憶部3に記憶された言語処理結果の表音情報を表音情報表示6−1において表示する。
【0061】
ステップS6では韻律制御部4が表音情報記憶部3で記憶した表音情報を基に韻律制御を行い韻律情報Pを生成する。ここで、韻律情報にPを付けているのは前の状態の韻律情報という意味を持たせるためである。後述するように、韻律情報として他に韻律情報Nと記述したものがある。ステップS7では各アクセント句に対応する形で韻律情報Pを韻律情報第一記憶部5に記憶する。ステップS8では韻律情報第一記憶部5に記憶された韻律情報Pを韻律情報修正部7において表示する。
【0062】
その後、図5に示したAへもどり新たなテキストが入力されたら再びステップS2〜S8へと進み、新たなテキストが入力されなければステップS11へ進む。
【0063】
ステップ11では表音情報修正部6において表音情報が修正されたかどうかを判定し、修正されたならば図6のBへ、そしてステップS15に進む。ステップS15では表音情報記憶部3に記憶された表音情報を表音情報修正部6において修正された結果で更新する。ステップS16では表音情報修正部6において修正されたアクセント句の番号Xを表音修正部分記憶部10に記憶する。ステップS17では、修正された結果の表音情報を表音情報表示部6−1において表示する。
【0064】
ステップS18では韻律制御部5が表音情報修正部6において修正された結果の表音情報を基に韻律情報Nを生成する。ステップS19では各アクセント句に対応する形で韻律情報Nを韻律情報第二記憶部11に記憶する。ステップ20ではすでにあるアクセント句に対して操作者が韻律情報の修正を行ったかどうかを判定し、韻律情報の修正がなされていればステップS21へ進む。
【0065】
ステップS21では韻律情報変更部12が表音修正部分記憶部10で記憶したアクセント句の番号Xを参照し、韻律情報第一記憶部5に記憶した韻律情報PのうちX番のアクセント句に対応する韻律情報Pxを韻律情報第二記憶部11に記憶した韻律情報NのうちX番のアクセント句に対応する韻律情報Nxで置き換える。つまり、表音情報の修正が為されたアクセント句についてのみその韻律情報を変更し、他のアクセント句については前の状態の韻律情報を保持する。
【0066】
さらに、ステップS22では韻律情報第一記憶部5に記憶した韻律情報Pを韻律情報変更部12で行った置き換えの結果で更新する。ステップS23では韻律情報第一記憶部5に更新して記憶された韻律情報Pを韻律情報修正部7において表示する。その後、図5に示したAへ戻る。
【0067】
ステップS20の判定で操作者がどのアクセント句にも韻律情報を修正していなかった場合は、前の状態の韻律情報を保持する必要がないのでステップS22で韻律情報第一記憶部5に記憶した韻律情報Pを韻律情報第二記憶部11に記憶した韻律情報Nで置き換えて更新する。ステップS23では韻律情報第一記憶部5に更新して記憶された韻律情報Pを韻律情報修正部7において表示する。その後、図5に示したAへ戻る。
【0068】
ステップS20はすでに韻律情報が修正されているかどうかを判定するものとして説明したが、ステップS21に進むかどうかを操作者に決定させる、つまり、表音情報が修正されたアクセント句のみの韻律情報を変更させるかどうかを操作者に決定させその決定によってステップS21かステップS22に分岐させるものであってもよい。この場合、表音情報の修正があった場合には表音情報が修正されたアクセント句のみの韻律情報を変更させるモードと全てのアクセント句の韻律情報を常に更新するモードとを用意し、これらのモードを切り替えられるようにし操作者はあらかじめあるいは毎回モードを決定し、ステップS20ではそのモードを判定する。
【0069】
図5に戻ってステップS12では韻律情報修正部7において韻律情報が修正されたかどうかを判定し、修正されたならば図7のCへ、そしてステップS24に進む。ステップS24では韻律情報第一記憶部5に記憶した韻律情報を修正された韻律情報で更新する。ステップS25では韻律情報第一記憶部5に更新して記憶された韻律情報を韻律情報表示部7−1において表示する。その後、図5に示したAへ戻る。
【0070】
図5に戻ってステップS13で合成音の出力が指示された場合はステップS9へ進む。ステップS9では、韻律情報第一記憶部5に記憶した韻律情報を基に合成音生成部8が合成音を生成する。ステップS10では合成音生成部8が生成した合成音を合成音出力部9がDA変換して出力する。その後、図5に示したAへ戻る。
【0071】
ステップS14で、終了が指示された場合、システムを終了する。
【0072】
次に、さらに詳細に説明するために図8に具体例を示して説明する。図8では入力テキスト「今日は良い天気です」について操作者が表音情報の修正と韻律情報の修正を行うものを示している。ここでは2種類の修正を例にする。一つは、表音情報の修正でアクセント句「きょーわ」のアクセント型を0型から1型に修正する修正αであり、もう一つは、「よい」、「てんきです」の2つのアクセント句について韻律情報(ピッチパターン)の形状を変形する修正βである。図8の四角で囲った中の上と下に、各状態(a〜d)での、表音情報を示す文字列と韻律情報を示すピッチパターンを表す。修正方法としては(1)修正αを行った後に修正βを行う方法と(2)修正βを行った後に修正αを行う方法がある。
【0073】
始めに(1)の修正について説明すると、図8のaは初期状態でありテキストが入力され言語処理部2で言語処理を行い表音情報(a−1)が表音情報記憶部3に記憶され、さらに表音情報(a−1)に対して韻律制御部4で韻律制御が行われ韻律情報(a−2)が韻律情報第一記憶部5に記憶された後の状態である(ステップS2〜S8)。この状態ではまだ操作者による修正は行なわれていない。表音情報(a−1)を示す文字列で「きょーわ」のようにアンダーラインが何処にもない場合は0型としている。また、アクセント句の番号として「きょーわ」を1、「よい」を2、「てんきです」を3としている。
【0074】
図8のbは初期状態から操作者が修正αを行い、表音情報を修正した後の状態である。修正後の表音情報(b−1)は表音情報記憶部3に表音情報(a−1)を更新して記憶される(ステップS15)。また、表音情報(b−1)の中の「きょーわ」は修正されているので「きょーわ」のアクセント句の番号1が表音修正部分記憶部10に記憶される(ステップS16)。さらに、修正後の表音情報(b−1)に対して韻律制御部4で韻律制御が行われ(ステップS18)、韻律情報(b−2)が韻律情報第二記憶部11に記憶される(ステップS19)。
【0075】
なお、ここでは韻律情報は操作者により修正されていないので、韻律情報第一記憶部5に記憶した韻律情報(a−2)を韻律情報第二記憶部11に記憶された音韻情報(b−2)で置き換えて更新する(ステップS22)。
【0076】
次に、図8のbの状態に対して操作者により修正βが行われ図8のdの状態になる。図8のdの状態では韻律のみが修正されているので表音情報(d−1)は図8のbの状態の表音状態(b−1)と同じになり、韻律情報(d−2)は図8のbの状態の表音状態(b−2)から変更される。
【0077】
次に(2)の修正について説明すると、図8のaの初期状態までは(1)と同じである(ステップS2〜S8)。操作者による修正βが行われると「よい」と「てんきです」の韻律情報(a−2−2,a−2−3)が修正され図8のcの韻律情報(c−2−2,c−2−3)になる。すなわち、修正後の韻律情報(c−2)は韻律情報(a−2)を更新して韻律情報第一記憶部5に記憶される(ステップS12,S24,S25)。
【0078】
さらに、図8のcの韻律情報修正後の状態から「きょーわ」について操作者による修正αが行なわれると図8のdの修正後の表音情報(d−1)は表音情報記憶部3に表音情報(c−1)を更新して記憶される(ステップS15)。また、表音情報(d−1)の中の「きょーわ」は修正されているので「きょーわ」のアクセント句の番号1が表音修正部分記憶部10に記憶される(ステップS16)。
【0079】
さらに、図8のcの修正後の表音情報(c−1)に対して韻律制御部4で韻律制御が行われ(ステップS18)、韻律情報が韻律情報第二記憶部11に記憶される(ステップS19)。なお、韻律情報第二記憶部11に記憶される韻律情報は修正後の表音情報(c−1)に対して韻律制御が行われているので、すでに図8のaの初期状態から図8のcの状態で修正した「よい」「てんきです」に対する韻律情報(c−2−2,c−2−3)ではなくて、図8のbの韻律情報(b−2−2,b−2−3)となる。そこで、図8のcから図8のdへ修正をするときはすでに操作者により韻律情報が修正されているのでS21の動作を行う。
【0080】
すなわち、韻律情報第一記憶部5に記憶されている韻律情報(c−2)の中の表音情報が修正されたアクセント句の番号1「きょーわ」に対する韻律情報(c−2−1)のみを韻律情報第二記憶部11に記憶さている(b−2)のアクセント句の番号1「きょーわ」に対する韻律情報(b−2−1)と置き換えて図8のdに示すような韻律情報(d−2)を得ることができる。
【0081】
このようにこの実施例では先に述べた(1)修正αを行った後に修正βを行う方法と(2)修正βを行った後に修正αを行う方法とで得られる状態が同じになる。これは、図8の右下dに示した表音情報および韻律情報をそれぞれ修正した後の状態を得るためには、修正αを行った後に修正βを行う方法をとっても、修正βを行った後に修正αを行う方法をとってもどちらでも構わないことを意味する。
【0082】
なお、韻律情報変更部12による置き換え処理を行わない場合、まず、(1)修正αを行った後に修正βを行う方法で得られる状態は、上で述べた置き換え処理を行う場合と同じ、図8の右下dに示した表音情報および韻律情報をそれぞれ修正した後の状態になる。しかし、(2)修正βを行った後に修正αを行う方法で得られる状態は、図8の右下dに示した表音情報および韻律情報をそれぞれ修正した後の状態にはならず、図8の左下bに示す表音情報を修正した後の状態になる。
【0083】
つまり、韻律情報変更部12による置き換え処理を行わない場合は、(1)修正αを行った後に修正βを行う方法と(2)修正βを行った後に修正αを行うとで得られる状態とが異なり、図8の右下dに示した表音情報および韻律情報をそれぞれ修正した後の状態を得るためには、修正αを行った後に修正βを行う方法をとらなければならない。
【0084】
上述のように表音情報が修正された場合は韻律制御部4が生成した韻律情報を韻律情報第二記憶部11に記憶するが、韻律情報第一記憶部5には直接記憶せず韻律情報変更部12を通して表音情報が修正された部分のみ韻律情報を置き換え、その後に、韻律情報第一記憶部5に記憶した韻律情報を韻律情報変更部12の置き換え結果で更新するものである。
【0085】
したがって、上記実施例によれば表音情報の修正が行われても表音情報が修正されなかった部分についてはすでに行なわれた韻律情報の修正結果が保持されるので、操作者は表音情報の修正により編集作業が振り出しに戻されることなく合成音の編集を継続して行うことができ、表音情報の修正と韻律情報の修正の順番を意識せずに自由に所望の合成音を編集できるようになる。
【0086】
さらに上記実施例によれば、修正をアクセント句単位で行わせることができ、ある一部のアクセント句の表音情報が修正されても表音情報が修正されなかった他のアクセント句についてはすでに行なわれた韻律情報の修正結果が保持され、表音情報が修正されたアクセント句のみの韻律情報が変更されるので、操作者は他のアクセント句の韻律情報がリセットされることを心配せずに一部のアクセント句の表音情報を修正できるようになる。
【0087】
また、本発明によれば、あるアクセント句の表音情報が修正された場合、アクセント句単位で表音情報と韻律情報の修正の有無を参照し、韻律情報の変更部分をアクセント句単位で決定することができる。
【0088】
なお、韻律情報変更部12において、置き換えの対象となったアクセント句(上の例では「きょーわ」)の音韻継続時間長(フレーム数)が、韻律情報第一記憶部で記憶したものと、韻律情報第二記憶部で記憶したものとで異なる場合、すなわち表音情報の修正によって音韻継続時間長が変わった場合、単純に置き換えただけを行うと、韻律情報が時間軸おいて不整合になる。これを回避するために、置き換えの対象となったアクセント句以降のアクセント句の韻律情報を、置き換えによってできる音韻継続時間長(フレーム数)の差分だけシフトすればよい。
【0089】
また、表音情報の修正が区切り位置の修正であった場合、すなわちアクセント句の分割あるいは連結が為された場合、韻律情報第一記憶部で記憶した韻律情報のアクセント句数と韻律情報第二記憶部で記憶した韻律情報のアクセント句数とが異なるため、単純に置き換えただけだと、韻律情報が不整合なものとなる。例えば、上の例で、1番目のアクセント句「きょーわ」に対して連結が指示され2番目のアクセント句「よい」と連結された場合、韻律情報第二記憶部で記憶する韻律情報は、「きょーわよい」、「てんきです」の2つのアクセント句に対応するものであるのに対し、韻律情報第一記憶部で記憶した韻律情報は「きょーわ」、「よい」、「てんきです」の3つのアクセント句に対応するものであり、それぞれアクセント句数が異なるため、単純な置き換えだけでは不整合が生じる。
【0090】
また、1番目のアクセント句「きょーわ」に対して分割が指示され「きょー」と「わ」に分かれた場合、韻律情報第二記憶部で記憶する韻律情報は、「きょー」、「わ」、「よい」、「てんきです」の4つのアクセント句に対応するものであるのに対し、韻律情報第一記憶部で記憶した韻律情報は上述のように3つのアクセント句に対応するので、この場合も不整合が生じる。
【0091】
これらを回避するために、表音情報修正部3で連結が指示された場合は、置き換える前に韻律情報第一記憶部に記憶した韻律情報のうち、置き換え対象のアクセント句の次にくるアクセント句(上の例では2番目のアクセント句「よい」)に対応する韻律情報を消去する。
【0092】
また、表音情報修正部3で分割が指示された場合は、置き換えの対象となったアクセント句について置き換えを行い(上の例では「きょーわ」→「きょー」)、分割によってできたもう一つのアクセント句を置き換えたアクセント句の次に挿入すれがばよい。すなわち、上の例では置き換えたアクセント句「きょー」の後にもう一つのアクセント句「わ」を挿入することである。
【0093】
これまで、表音情報が修正されたアクセント句について韻律情報第一記憶部に記憶した韻律情報を韻律情報第二記憶部に記憶した韻律情報で置き換える例を説明したが、逆に、表音情報が修正されなかったアクセント句について韻律情報第二記憶部に記憶した韻律情報を韻律情報第一記憶部に記憶した韻律情報で置き換えるようにしてもよい。
【0094】
また、図2のGUIや図3のGUIにそれぞれ修正モード切り替えボタンなどを設けて、図2の画面下段に示す表音情報の修正インターフェースと図3の画面下段に示す韻律情報の修正インターフェースとを切り替えて表示できるようにし、操作者が交互に修正モードを切り替えて表音情報と韻律情報の修正を行えるようにすることもできる。また、修正モード切り替えボタンを設けず図2の画面下段と図3の画面下段を同時に表示するようにしてもよい。
【0095】
次に、この実施例の一つの変形例について説明する。
【0096】
すでに述べたように、韻律情報修正部7は間接的ではあるが、音韻継続時間長とピッチという生のパラメータを修正させるものであったが、この変形例での韻律情報修正部7はそれに加え韻律情報をメタなパラメータによって修正させることも可能である。すなわち、韻律情報第一記憶部5は上述のメタなパラメータの修正情報を修正メタ情報としてすでに述べてきた韻律情報とともに記憶する。さらに、韻律情報変更部12はすでに述べた表音情報が修正された部分のみの韻律情報の置き換えに加え韻律情報第一記憶部5に記憶した修正メタ情報を参照して置き換えた後の韻律情報を修正メタ情報でさらに変更する。
【0097】
ここで、メタなパラメータとしては例えば韻律情報修正部7の一例を示す図3ではピッチパターン修正部分106内の左端にあるスライダーバーの値である。スライダーバーの値は修正対象となっているアクセント句のピッチパターンの平均ピッチを表し、スライダーバーをマウスで上下させることによりピッチパターンを上下させることができる。
【0098】
以下、この変形例の具体例について図3を参照して説明する。アクセント句「きょーわ」についてスライダーバーが動かされてピッチパターンに修正が加わると、スライダーバーの値を修正メタ情報として時間とピッチの韻律情報と共に韻律情報第一記憶部に記憶する。その後、アクセント句「きょーわ」について表音情報が修正された場合、韻律情報変更部12はまず、アクセント句「きょーわ」に対応する韻律情報についてすでに述べた置き換え処理を行い、次に韻律情報第一記憶部5に記憶したスライダーバーの値を参照し、アクセント句「きょーわ」のピッチパターンのピッチ平均がスライダーバーの値と同じになるようにピッチパターンの各時間(フレーム)におけるピッチを上下して変更する。
【0099】
韻律情報第一記憶部5に記憶したスライダーバーの値が置き換え処理後のピッチ平均よりも大きい場合は、両者の差分を各時間(フレーム)におけるピッチの増加分として加え、ピッチパターン全体を底上げする。これにより、表音情報が修正されたアクセント句については修正された表音情報に基づく韻律情報で単に置き換えられるだけでなく、すでに行なわれた韻律情報の修正結果(ここではスライダーバーによるピッチパターンの修正結果)を置き換えた韻律情報に反映させることが可能になり、韻律情報の修正結果を有効に活用して合成音の編集が行えるようになる。
【0100】
また、ピッチパターンのダイナミックレンジを変更するなどある計算式に基づいてピッチパターンを変形する場合、計算式に与える定数をメタなパラメータとして使用することができる。ピッチパターンのダイナミックレンジは各時間に対応するピッチを平均ピッチから拡大/縮小することによって変更することができる。ここで、拡大/縮小率をメタなパラメータとして採用し、韻律情報修正部7に拡大/縮小ボタンを用意してダイナミックレンジの修正を可能とさせて上述のスライダーバーの場合と同じように適用することができる。
【0101】
次に、この実施例の他の変形例について説明する。
【0102】
この変形例では韻律情報変更部12はすでに述べた表音情報が修正された部分のみの韻律情報の置き換えに加え、置き換えた部分とその前後の部分とが韻律において不連続にならないように表音情報が修正された部分の境界においてつなぎ処理を行う。
【0103】
つなぎ処理が必要となるのは例えば置き換え処理の対象となったアクセント句の区切りが、ポーズのように呼気段落の切れ目ではなく、強結合、弱結合のように息継ぎはないが一つのアクセント句として単位付けされる切れ目であった場合である。この場合、単純な韻律情報の置き換えによって、置き換えの対象となったアクセント句と次のアクセント句との境界でピッチパターンにズレが生じると出力する合成音に歪が生じる可能性がある。これを回避するために、韻律情報変更部12はすでに述べた置き換え処理を行った後、置き換え対象となったアクセント句についてその境界部分のピッチパターンを後続のアクセント句の先頭ピッチと連続的につながるようにつなぎ処理を行う。
【0104】
図9はつなぎ処理の一例を示すものである。図9aは入力テキスト「今日は良い天気です。」について言語処理に続き韻律制御が行われた後の初期状態である。状態の表し方は図8と同じである。図9bは初期状態からアクセント句「きょーわ」の句切りが小ポーズから強結合に修正された状態である。この状態でのアクセント句「きょーわ」に対応するピッチパターンは実線で示した曲線である。この状態ではアクセント句「きょーわ」と次のアクセント句「よい」の境界、すなわち図9bの○印で示した終端ピッチと先端ピッチにおいてズレが生じている。
【0105】
つなぎ処理はこのズレを修復するためにアクセント句「きょーわ」の終端ピッチがアクセント句「よい」の先端ピッチと同一になるようにアクセント句「きょーわ」のピッチパターンを変形する。この変形は例えばアクセント位置以降のピッチパターン、すなわちアクセント位置「きょ」の後の「−わ」に対応するピッチパターンに2次曲線を適用して滑らかに行う。図9cはつなぎ処理後の状態でありアクセント句「きょーわ」の終端ピッチとアクセント句「よい」の先端ピッチにおいてズレが解消されている。
【0106】
したがって、韻律情報の変更を部分的に行うが、それにより起こりうる韻律の不連続性が解消され出力される合成音は歪のないなめらかなものとなる。
【0107】
上述のつなぎ処理は置き換え対象のアクセント句とその前のアクセント句とをつなげる場合にも同様に行える。この結果、この変形例では表音情報が修正された部分のみ韻律情報を変更するが、それにより起こりうる韻律の不連続性が解消され、出力される合成音は歪のないなめらかなものとなる。
【0108】
次に、この実施例の他の変形例について説明する。この変形例では表音情報記憶部3で記憶した表音情報の内容を表音情報ファイルに韻律情報第一記憶部5で記憶した韻律情報の内容を韻律情報ファイルに保存する。これらのファイル保存は操作者の指示によるか、あるいは表音情報か韻律情報が修正された際に自動的に行う。ただし、これらのファイル保存は別々の編集状態で行うのではなく、後述するようにこれらのファイルを読込んだ際に編集状態に不整合が起きないように同時に行う。つまり、表音情報が修正されたならばその修正された表音情報に基づいて韻律情報を生成あるいは変更し、その後に表音情報と韻律情報をファイル保存する。また、韻律情報が修正されたならばその時点での表音情報と修正された韻律情報をファイル保存する。
【0109】
また、この変形例では入力されたテキストと上記ファイル保存した表音情報および韻律情報を関連付けて記憶する編集ファイルも保存する。編集ファイルにはテキスト文字列に続いて表音情報ファイル名、韻律情報ファイル名を記述する。保存するタイミングは表音情報と韻律情報のファイル保存時である。
【0110】
また、この変形例ではテキスト入力部1は上記編集ファイルを入力させてテキストを入力するとともに、テキストに関連付けられた表音情報および韻律情報を付随して入力する。すなわち、編集ファイルに記述された表音情報ファイルと韻律情報ファイルを入力する。
【0111】
上記編集ファイルがテキスト入力部1で入力されると言語処理部2での言語処理は行わず、入力した表音情報ファイルの内容を表音情報記憶部3に展開して記憶し、また、韻律制御部4での韻律制御も行わず、入力した韻律情報ファイルの内容を韻律情報第一記憶部5に展開して記憶する。
【0112】
この結果、テキストとそれに対応する修正後の表音情報と修正後の韻律情報とが関連付けて記憶されるので、一旦、編集作業が終わった後でもテキストと関連付けされた表音情報および韻律情報を読込んで以前行った編集に引き続いて再度編集を継続して行うことができるようになる。
【0113】
また、操作者は表音情報の修正と韻律情報の修正の順番を意識することなく、自由に所望の合成音を再編集できるようになる。
【0114】
なお、上記各実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして構成することも可能である。さらに、このプログラムを磁気ディスク(フロッピーディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、半導体メモリなどの記録媒体に格納して頒布することもできる。
【0115】
(第2の実施の形態)
次に、本発明による音声合成編集装置及び音声合成編集方法並びに音声合成編集プログラムの他の実施の形態を説明する。
【0116】
図10は本発明による音声合成編集装置の一つの実施例を示すブロック図である。この音声合成編集装置は、テキスト入力部1、言語処理部2、表音情報記憶部3、韻律制御部4、韻律情報第一記憶部5、表音情報修正部6、表音情報表示部6−1、韻律情報修正部7、韻律情報表示部7−1、合成音生成部8、合成音出力部9、表音修正部分記憶部10、韻律情報第二記憶部11、韻律情報変更部12、及び韻律修正部分記憶部13を有する。
【0117】
ここで、テキスト入力部1、言語処理部2、表音情報記憶部3、韻律制御部4、韻律情報第一記憶部5、表音情報修正部6、表音情報表示部6−1、韻律情報修正部7、韻律情報表示部7−1、合成音生成部8、合成音出力部9、表音修正部分記憶部10、及び韻律情報第二記憶部11は、図1に示したものと同じである。
【0118】
韻律修正部分記憶部13は韻律情報修正部7で修正された部分が何処であるかを記憶するためのメモリである。例えば、図3で1番目のアクセント句「きょーわ」のピッチパターンの形状が変形されたとするとアクセント句の番号すなわち1番を韻律情報が修正された部分としてメモリに記憶する。
【0119】
この実施の形態における韻律情報変更部12は表音情報修正部6で表音情報が修正された場合にどのアクセント句の表音情報が修正され、またどのアクセント句に対してすでに韻律情報が修正されていたかを調べて韻律情報を変更すべきアクセント句を決定し、決定したアクセント句について韻律情報を変更する処理モジュールである。
【0120】
本実施例では韻律情報を変更すべきアクセント句の条件を表音情報と韻律情報の修正の有無で定めることができる。ここでは、韻律情報を変更すべきアクセント句の条件を韻律情報の修正の有無に関わりなく表音情報が修正されたアクセント句であること、または、韻律情報、表音情報共に修正されなかったアクセント句であることと定める。
【0121】
韻律情報変更部12はまず表音修正部分記憶部10で記憶した表音情報が修正されたアクセント句の番号を参照し、さらに、韻律修正部分記憶部13で記憶した韻律情報が修正されたアクセント句の番号を参照して上述の条件に合致する韻律情報を変更すべきアクセント句を決定する。次に、韻律情報変更部12は上述の条件に合致するアクセント句について韻律情報第一記憶部5で記憶した韻律情報を韻律情報第二記憶部11で記憶した韻律情報で置き換える。すなわち、上述の条件に合致するアクセント句のみ修正された表音情報に基づいて生成した韻律情報で置き換えて変更する。
【0122】
この結果、あるアクセント句の表音情報が修正されるとすでに韻律情報が修正されており表音情報が修正されなかったアクセント句については韻律情報の修正結果が保持され、それ以外のアクセント句の韻律情報は修正された表音情報に基づいて変更される。
【0123】
図11は韻律情報を変更すべきアクセント句を示す一例である。図11では「きょーわ」と「てんきです」の2つのアクセント句についてすでに韻律情報が修正されており、アクセント句「きょーわ」について表音情報が修正された場合を示す。ここで、上述の条件に合致するアクセント句は「きょーわ」と「よい」であるのでこの2つのアクセント句については、「きょーわ」に対して修正された表音情報を基にして新に生成した韻律情報で置き換えて変更し、アクセント句「てんきです」については変更せずすでに修正された韻律情報をそのまま保持する。
【0124】
上述の条件では、韻律情報、表音情報共に修正されなかったアクセント句を韻律情報の変更すべきアクセント句と定めているのであるアクセント句に為された表音情報の修正が他のアクセント句の韻律情報に影響を与えるような場合、韻律情報が修正されなかったアクセント句に上記影響を反映させることができる。例えば、図11ではアクセント句「きょーわ」の表音情報が修正されその修正がアクセント句「よい」の韻律情報に影響を及ぼす場合、アクセント句「よい」の韻律情報を修正された表音情報に基づいた韻律情報で変更することにより上記影響をアクセント句「よい」に反映させることができる。このように、表音情報と韻律情報の修正の有無で韻律情報を変更すべきアクセント句の条件を定めることができるので、条件の定め方によって韻律情報の変更部分の決定をより細かくより妥当に行うことができるようになる。
【0125】
また、韻律情報を変更すべきアクセント句の条件の定め方で韻律情報が修正されたアクセント句以降のアクセント句は韻律情報を変更せず、修正された韻律情報を保持するというように記憶した修正部分を起点とした一定の範囲で条件付けを行ってもよい。
【0126】
このように上記実施例によれば表音情報の修正が行われた場合、ある部分の韻律情報を変更するかどうかを表音情報の修正の有無と韻律情報の修正の有無で決定することができる。例えば、すでに韻律情報が修正されており表音情報が修正されなかった部分以外については韻律情報を変更するというように、韻律情報の変更部分を表音情報と韻律情報の修正の有無で条件を定めることができる。この例ではある部分の表音情報が修正された場合、すでに韻律情報が修正されており表音情報が修正されなかった部分は修正された韻律情報を保持するが、韻律情報の修正の有無に関わりなく表音情報が修正された部分、または韻律情報及び表音情報共に修正されなかった部分は修正された表音情報を基に生成する新な韻律情報で変更する。
【0127】
したがって、ある部分に為された表音情報の修正が他の部分の韻律情報に影響を与えるような場合、韻律情報が修正されなかった部分に上記影響を反映させることができるようになる。このように、表音情報と韻律情報の修正の有無を見ることによって、韻律情報の変更部分の決定をより妥当に行うことができ、操作者は合成音の編集を適切かつ表音情報の修正と韻律情報の修正の順番を意識せずに自由に所望の合成音を編集できるようになる。
【0128】
なお、上記各実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして構成することも可能である。さらに、このプログラムを磁気ディスク(フロッピーディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、半導体メモリなどの記録媒体に格納して頒布することもできる。
【0129】
【発明の効果】
以上説明したように、本発明の表音情報と韻律情報とを修正して所望の合成音を得ようとする音声合成編集において、韻律情報の修正後も継続して表音情報を修正可能とし、操作者は、表音情報の修正と韻律情報の修正の順番を意識することのなく、自由に所望の合成音を編集できるようになる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態を示すブロック図である。
【図2】表音情報修正部のインターフェースの一例である。
【図3】韻律情報修正部のインターフェースの一例である。
【図4】ピッチパターンの形状修正を説明する図である。
【図5】図1に示す音声合成編集装置の動作を説明するためのフローチャートである。
【図6】図1に示す音声合成編集装置の動作を説明するためのフローチャートである。
【図7】図1に示す音声合成編集装置の動作を説明するためのフローチャートである。
【図8】表音情報と韻律情報の修正過程を示す図である。
【図9】ピッチパターンのつなぎ処理を説明する図である。
【図10】本発明の第1の実施の形態を示すブロック図である。
【図11】韻律情報を変更すべきアクセント句を示す一例である。
【符号の説明】
1・・・・・テキスト入力部
2・・・・・言語処理部
3・・・・・表音情報記憶部
4・・・・・韻律制御部
5・・・・・韻律情報第一記憶部
6・・・・・表音情報修正部
6−1・・・表音情報表示部
7・・・・・韻律情報修正部
7−1・・・韻律情報表示部
8・・・・・合成音生成部
9・・・・・合成音出力部
10・・・・表音修正部分記憶部
11・・・・韻律情報第二記憶部
12・・・・韻律情報変更部
13・・・・韻律修正部分記憶部
Claims (10)
- 入力された音声合成すべきテキストに対して所定の単位毎に表音情報を生成する言語処理手段と、この言語処理手段により生成した表音情報を記憶する表音情報記憶手段と、この表音情報記憶手段において記憶した表音情報を基に所定の単位毎に韻律情報を生成する韻律情報生成手段と、この韻律情報生成手段により生成した韻律情報を記憶する韻律情報記憶手段と、前記表音情報記憶手段において記憶した表音情報を修正させる表音情報修正手段と、前記韻律情報記憶手段において記憶した韻律情報を修正させる韻律情報修正手段と、前記表音情報修正手段において修正された部分を記憶する表音修正部分記憶手段と、前記表音情報修正手段において表音情報が修正された場合、前記韻律情報生成手段が表音情報を基に修正された韻律情報を記憶する第二の韻律情報記憶手段と、前記韻律情報記憶手段に記憶してある韻律情報と、前記第二の韻律情報記憶手段に記憶した韻律情報とを参照し、前記韻律情報記憶手段に記憶してある韻律情報のうち、前記表音修正部分記憶手段で記憶した修正部分についてのみ韻律情報を変更する韻律情報変更手段と、前記韻律情報を基に合成音を生成する合成音生成手段と、この合成音生成手段において生成した合成音を出力する合成音出力手段とを具備することを特徴とする音声合成編集装置。
- 前記表音情報修正手段における単位毎の修正は、アクセント句を単位として行わせることを特徴とする請求項1に記載の音声合成編集装置。
- 前記韻律情報修正手段における単位毎の修正は、アクセント句を単位として行わせることを特徴とする請求項1に記載の音声合成編集装置。
- 前記表音情報修正手段において表音情報が修正された場合、前記韻律情報生成手段は、韻律情報を変更する部分とその前後の部分とが韻律において不連続にならないように韻律情報を変更する部分の境界においてつなぎ処理を行うことを特徴とする請求項1に記載の音声合成編集装置。
- 前記表音情報記憶手段において記憶された表音情報と前記韻律情報記憶手段において記憶された韻律情報とを対応するテキストに関連付けして記憶するための関連付け記憶手段を有することを特徴とする請求項1に記載の音声合成編集装置。
- 前記テキスト入力手段は、テキストを入力するとともに前記関連付け記憶手段によりテキストと関連付けされた表音情報および韻律情報をも付随して入力することを特徴とする請求項5に記載の音声合成編集装置。
- 前記表音情報修正手段は前記表音情報を対話的に修正されることを特徴とする請求項1記載の音声合成編集装置。
- 前記韻律情報修正手段は前記韻律情報を対話的に修正されることを特徴とする請求項1記載の音声合成編集装置。
- 入力された音声合成すべきテキストに対して表音情報を生成する言語処理ステップと、この言語処理ステップにより生成した表音情報を記憶する表音情報記憶ステップと、前記表音情報記憶ステップにおいて記憶した表音情報を基に韻律情報を生成する韻律情報生成ステップと、この韻律情報生成ステップにより生成した韻律情報を記憶する韻律情報記憶ステップと、この表音情報記憶ステップにおいて記憶した表音情報を修正させる表音情報修正ステップと、前記韻律情報記憶ステップにおいて記憶した韻律情報を修正させる韻律情報修正ステップと、前記表音情報修正ステップにおいて修正された部分を記憶する表音修正部分記憶ステップと、前記表音情報修正ステップにおいて表音情報が修正された場合、前記韻律情報生成ステップで表音情報を基に修正された韻律情報を記憶する第二の韻律情報記憶ステップと、前記韻律情報記憶ステップで記憶した韻律情報と、前記第二の韻律情報記憶ステップで記憶した韻律情報とを参照し、前記韻律情報記憶ステップで記憶した韻律情報のうち、前記表音修正部分記憶ステップで記憶した修正部分についてのみ韻律情報を変更する韻律情報変更ステップと、前記韻律情報を基に合成音を生成する合成音生成ステップと、この合成音生成ステップにおいて生成した合成音を出力する合成音出力ステップとを含むことを特徴とする音声合成編集方法。
- 入力された音声合成すべきテキストに対して表音情報を生成する言語処理と、この前記言語処理により生成した表音情報を記憶する表音情報記憶処理と、この表音情報記憶処理において記憶した表音情報を基に韻律情報を生成する韻律情報生成処理と、この韻律情報生成処理により生成した韻律情報を記憶する韻律情報記憶処理と、前記表音情報記憶処理において記憶した表音情報を修正させる表音情報修正処理と、前記韻律情報記憶処理において記憶した韻律情報を修正させる韻律情報修正処理と、前記表音情報修正処理において修正された部分を記憶する表音修正部分記憶処理と、前記表音情報修正処理において表音情報が修正された場合、前記韻律情報生成処理で表音情報を基に修正された韻律情報を記憶する第二の韻律情報記憶処理と、前記韻律情報記憶処理で記憶した韻律情報と、前記第二の韻律情報記憶処理で記憶した韻律情報とを参照し、前記韻律情報記憶処理で記憶した韻律情報のうち、前記表音修正部分記憶処理で記憶した修正部分についてのみ韻律情報を変更する韻律情報変更処理と、前記韻律情報を基に合成音を生成する合成音生成処理と、この合成音生成処理において生成した合成音を出力する合成音出力処理とを含むことを特徴とする音声合成編集プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001162622A JP3721101B2 (ja) | 2001-05-30 | 2001-05-30 | 音声合成編集装置及び音声合成編集方法並びに音声合成編集プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001162622A JP3721101B2 (ja) | 2001-05-30 | 2001-05-30 | 音声合成編集装置及び音声合成編集方法並びに音声合成編集プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002351486A JP2002351486A (ja) | 2002-12-06 |
JP3721101B2 true JP3721101B2 (ja) | 2005-11-30 |
Family
ID=19005719
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001162622A Expired - Fee Related JP3721101B2 (ja) | 2001-05-30 | 2001-05-30 | 音声合成編集装置及び音声合成編集方法並びに音声合成編集プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3721101B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6411015B2 (ja) * | 2013-09-12 | 2018-10-24 | 富士通株式会社 | 音声合成装置、音声合成方法、およびプログラム |
JP6340839B2 (ja) * | 2014-03-11 | 2018-06-13 | 富士通株式会社 | 音声合成装置、合成音声編集方法及び合成音声編集用コンピュータプログラム |
JP6911398B2 (ja) * | 2017-03-09 | 2021-07-28 | ヤマハ株式会社 | 音声対話方法、音声対話装置およびプログラム |
-
2001
- 2001-05-30 JP JP2001162622A patent/JP3721101B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2002351486A (ja) | 2002-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5482042B2 (ja) | 合成音声テキスト入力装置及びプログラム | |
US20090083037A1 (en) | Interactive debugging and tuning of methods for ctts voice building | |
JP4469883B2 (ja) | 音声合成方法及びその装置 | |
JP2008268477A (ja) | 韻律調整可能な音声合成装置 | |
US7094960B2 (en) | Musical score display apparatus | |
JP2001282278A (ja) | 音声情報処理装置及びその方法と記憶媒体 | |
JP2007295218A (ja) | ノンリニア編集装置およびそのプログラム | |
JP2005345699A (ja) | 音声編集装置、音声編集方法および音声編集プログラム | |
JP4856560B2 (ja) | 音声合成装置 | |
JP3728173B2 (ja) | 音声合成方法、装置および記憶媒体 | |
US20120239404A1 (en) | Apparatus and method for editing speech synthesis, and computer readable medium | |
JP3721101B2 (ja) | 音声合成編集装置及び音声合成編集方法並びに音声合成編集プログラム | |
JP2006313176A (ja) | 音声合成装置 | |
JP4533255B2 (ja) | 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体 | |
JP2009157220A (ja) | 音声編集合成システム、音声編集合成プログラム及び音声編集合成方法 | |
JP5082971B2 (ja) | 音声合成装置およびそれを用いた読み上げシステム。 | |
JP2005321520A (ja) | 音声合成装置及びそのプログラム | |
JP2004309724A (ja) | テキスト音声合成装置、並びに、テキスト音声合成方法及びそのプログラム | |
JP2001134283A (ja) | 音声合成装置および音声合成方法 | |
KR101495410B1 (ko) | 음성 합성 장치, 음성 합성 방법 및 컴퓨터 판독가능 기억 매체 | |
JP2004246129A (ja) | 音声合成制御装置 | |
JP3310226B2 (ja) | 音声合成方法および装置 | |
JP3785892B2 (ja) | 音声合成装置及び記録媒体 | |
JP3737788B2 (ja) | 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム | |
JPS6184771A (ja) | 音声入力装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20041207 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050107 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050308 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20050414 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050606 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050906 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050909 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080916 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090916 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090916 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100916 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110916 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |