JP5743625B2

JP5743625B2 - 音声合成編集装置および音声合成編集方法

Info

Publication number: JP5743625B2
Application number: JP2011059560A
Authority: JP
Inventors: 西山　修; 修西山
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2011-03-17
Filing date: 2011-03-17
Publication date: 2015-07-01
Anticipated expiration: 2031-03-17
Also published as: US9020821B2; US20120239404A1; JP2012194460A

Description

本発明の実施形態は、音声合成編集装置および音声合成編集方法に関する。

近年、テキストを解析して得られた音韻韻律情報をユーザが直接編集し、編集後の音韻韻律情報を音声波形に変換する音声合成編集装置が提案されている。このような音声合成編集装置では、ユーザの編集作業を支援するために、読み記号、韻律記号、合成音制御情報（基本周波数・音韻・継続時間長）などの音韻韻律情報に対するユーザの編集履歴を保持し、この編集履歴から編集前の音声波形を再現する技術が提案されている。

あるテキストのアクセント句を編集する場合、上述した技術では、まず編集前の音韻韻律情報を音声波形に変換して試聴し、編集作業を行った後、編集後の音韻韻律情報を音声波形に変換して試聴していた。このように、従来技術では、編集作業を挟んで編集前後の音声波形を試聴していたため、編集によって生じる音声波形の差異を正確に確認することが難しかった。

特開２００５−３４５６９９号公報

発明が解決しようとする課題は、音韻韻律情報の編集前後における音声波形を正確に比較することができる音声合成編集装置を提供することである。

実施形態の音声合成編集装置は、テキストを解析して音韻韻律情報を取得する音韻韻律情報取得手段と、前記音韻韻律情報を編集する音韻韻律情報編集手段と、前記音韻韻律情報編集手段における編集前および編集後の音韻韻律情報をそれぞれ第１および第２の音声波形に変換する音声合成手段と、前記音韻韻律情報編集手段で編集対象になった音韻韻律情報に対応する前記第１および第２の音声波形の対比区間を算出する対比区間算出手段と、前記対比区間算出手段で算出された前記第１の音声波形の対比区間を含む前記第１の音声波形の部分波形と、前記対比区間算出手段で算出された前記第２の音声波形の対比区間を含む前記第２の音声波形の部分波形を連続的に出力する対比音声生成手段を備える。

第１の実施形態の音声合成編集装置を示すブロック図。実施形態の音声合成編集装置のハードウェア構成を示す図。実施形態の音声合成編集装置のフローチャート。実施形態の音声合成編集装置のフローチャート。実施形態のユーザーインタフェースを示す図。実施形態の音韻韻律情報記憶部に記憶された読み・韻律記号情報を示す図。実施形態の読み・韻律記号情報を示す図。実施形態の読み・韻律記号情報を示す図。実施形態の合成音制御情報を示す図。実施形態の音声波形を示す図。実施形態の比較視聴を示す図。実施形態の音声合成編集装置を示すブロック図。実施形態の音声合成編集装置を示すブロック図。変形例２の読み・韻律記号情報を示す図。変形例４の情報表示を示す図。変形例４の情報表示を示す図。

以下、本発明の実施形態について図面を参照しながら説明する。

（第１の実施形態）
第１の実施形態の音声合成編集装置は、テキスト音声合成においてテキストを解析して得られた音韻韻律情報を対話的に編集する装置である。この音声合成編集装置は、編集前の音韻韻律情報から第１の音声波形を、編集後の音韻韻律情報から第２の音声波形を生成する。そして、編集対象となった音韻韻律情報の部分系列に対応する第１の音声波形と当該部分系列に対応する第２の音声波形を連結した第３の音声波形を生成し、スピーカから再生する。このように、第３の音声波形を用いて編集前後の音声波形を連続的に再生することにより、音声波形の差異を正確に確認することができる。

（全体のブロック構成）
図１は、第１の実施形態にかかる音声合成編集装置を示すブロック図である。本実施形態の音声合成編集装置は、テキストを入力するテキスト入力部１０１と、テキスト入力部１０１に入力されたテキストを解析して音声を合成するための音韻韻律情報を取得する音韻韻律情報取得部１０２と、音韻韻律情報取得部１０２で取得された音韻韻律情報を編集する音韻韻律情報編集部１０３と、音韻韻律情報編集部１０３における編集前および編集後の音韻韻律情報をそれぞれ第１および第２の音声波形に変換する音声合成部１０４と、音韻韻律情報編集部１０３で編集対象になった音韻韻律情報の部分系列に対応する第１および第２の音声波形の対比区間を算出する対比区間算出部１０５と、対比区間算出部１０５で算出された第１の音声波形の対比区間を含む第１の音声波形の部分波形と、対比区間算出部１０５で算出された第２の音声波形の対比区間を含む第２の音声波形の部分波形とを連結した第３の音声波形を生成する対比音声生成部１０６と、前記第３の音声波形を再生するスピーカ１０７とを備える。

音韻韻律情報取得部１０２は、テキスト入力部１０１に入力されたテキストを解析して、読み記号および韻律記号（以後、読み・韻律記号情報と記す）を生成する読み・韻律記号生成部１０８と、読み・韻律記号生成部１０８で生成された読み・韻律記号情報を記憶する音韻韻律情報記憶部１０９と、音韻韻律情報記憶部１０９に記憶された読み・韻律記号情報を解析して、継続時間長や基本周波数などの合成音制御情報を生成する合成音制御情報生成部１１０とを備える。

（ハードウェア構成）
本実施形態の読み記号列編集装置は、図２に示すような通常のコンピュータを利用したハードウェアで構成されており、装置全体を制御するＣＰＵ（Central Processing Unit）等の制御部２０１と、各種データや各種プログラムを記憶するＲＯＭ（Read Only Memory）やＲＡＭ（Random Access Memory）等の記憶部２０２と、各種データや各種プログラムを記憶するＨＤＤ（Hard Disk Drive）やＣＤ（Compact Disk）ドライブ装置等の外部記憶部２０３と、ユーザの指示入力を受け付けるキーボードやマウスなどの操作部２０４と、外部装置との通信を制御する通信部２０５と、音声波形を再生して再生音を発生させるスピーカ１０７と、映像を表示するディスプレイ２０７と、これらを接続するバス２０８とを備えている。

このようなハードウェア構成において、制御部２０１がＲＯＭ等の記憶部２０２や外部記憶部２０３に記憶された各種プログラムを実行することにより以下の機能が実現される。

（テキスト入力部）
テキスト入力部１０１は、操作部２０４のキーボードを介して合成対象となるテキストを入力する。この他にも、外部記憶部２０３に記憶されたファイルからテキストを入力したり、通信部２０５と接続された外部装置からテキストを受信したりすることもできる。

（音韻韻律情報取得部）
音韻韻律情報取得部１０２は、テキスト入力部１０１に入力されたテキストを解析して音韻韻律情報を取得する。ここで、音韻韻律情報は、音声合成部１０４において音声波形を生成する際に必要となる音韻や韻律に関する情報であり、本実施形態では、後述する読み・韻律記号生成部１０８および合成音制御情報生成部１１０でそれぞれ生成される読み・韻律記号情報および合成音制御情報を表している。

（音韻韻律情報編集部）
音韻韻律情報編集部１０３は、音韻韻律情報取得部１０２で取得された音韻韻律情報を、ディスプレイ２０７に表示したユーザーインタフェースを介して編集する。本実施形態において、ユーザは、音韻韻律情報のうち読み・韻律記号情報を編集することができる。なお、読み・韻律記号情報の編集は、操作部２０４のキーボードを介してユーザが自由にテキストを編集してもよいし、音声合成編集装置が提示した読み・韻律記号情報の次候補をユーザが選択してもよい。

（音声合成部）
音声合成部１０４は、音韻韻律情報編集部１０３における編集前および編集後の音韻韻律情報から音声波形を生成する。具体的には、編集前の音韻韻律情報を第１の音声波形に、編集後の音韻韻律情報を第２の音声波形に変換する。

（対比区間算出部）
対比区間算出部１０５は、音韻韻律情報編集部１０３で編集対象になった音韻韻律情報の部分系列を特定し、当該部分系列に対応する第１および第２の音声波形の対比区間を算出する。対比区間は、編集対象になった音韻韻律情報の部分系列に対応する音声波形を特定する情報であり、例えば、「音声波形の0msecから100msecまでの区間」のような情報を持つ。部分系列から対比区間を算出する際は、後述する合成音制御情報生成部１１０で取得した継続時間長を用いる。具体的には、読み・韻律記号情報に継続時間長を割り当てることで、編集対象になった部分系列が対応する音声波形の開始位置および終了位置を特定する。

（対比音声生成部）
対比音声生成部１０６は、対比区間算出部１０５で算出された第１の音声波形の対比区間を含む第１の音声波形の部分波形と、対比区間算出部１０５で算出された第２の音声波形の対比区間を含む第２の音声波形の部分波形を連結して第３の音声波形を生成する。例えば、第１の音声波形の対比区間が0msecから100msecである場合、第１の音声波形の部分波形は、少なくとも0msecから100msecの区間を含む区間から切り出された音声波形を表している。また、第１の音声波形の部分波形と第２の音声波形の部分波形を連結する際は、間に500msec程度の無音区間を挟んでもよい。このように、編集前の部分波形と編集後の部分波形を連続的に連結した第３の音声波形を生成することにより、対比音声生成部１０６は、編集前後の部分波形を連続的に出力することができる。これにより、ユーザは、編集によって生じた音声波形の差異を正確に比較することができる。

対比音声生成部１０６は、第３の音声波形を生成せずに、切り出した第１の音声波形の部分波形および第２の音声波形の部分波形を連続的にスピーカ１０７に出力するようにしてもよい。この場合も、第１および第２の音声波形の部分波形の間に所定長の無音区間を挿入してスピーカ１０７に出力することができる。

次に、音韻韻律情報取得部１０２を構成する各ブロックについて説明する。

（読み・韻律記号生成部）
読み・韻律記号生成部１０８は、テキスト入力部１０１に入力されたテキストに対し形態素解析・構文解析・ポーズ長推定を施して、韻律制御単位ごとに読みとアクセント核の位置・強度とポーズの位置・長さを含む読み・韻律記号情報を生成する。ここで、韻律制御単位は、アアクセント句境界で区切られた単位を表している。

（音韻韻律情報記憶部）
音韻韻律情報記憶部１０９は、読み・韻律記号生成部１０８で生成された読み・韻律記号情報と、後述する音韻韻律情報編集部１０３で編集された読み・韻律記号情報を記憶する。音韻韻律情報記憶部１０９には、記憶部２０２や外部記憶部２０３を用いることができる。

（合成音制御情報生成部）
合成音制御情報生成部１１０は、音韻韻律情報記憶部１０９に記憶された読み・韻律記号を解析して韻律制御単位ごとに合成音制御情報を算出する。合成音制御情報は、読み・韻律記号情報の継続時間長や基本周波数などの情報を含む。

（フローチャート）
図３は、本実施形態にかかる音声合成編集装置のフローチャートである。まず、テキスト入力部１０１は、操作部２０４のキーボードから合成対象となるテキストを入力する（ステップＳ３１）。次に、読み・韻律記号生成部１０８は、同テキストから生成した読み・韻律記号情報が音韻韻律情報記憶部１０９に記憶されているか否かに従って処理を分岐する（ステップＳ３２）。記憶されている場合には（ステップＳ３２のYes）、ステップＳ３３に進む。記憶されていない場合には（ステップＳ３２のNo）、ステップＳ３４に進む。

ステップＳ３４に進んだ場合、読み・韻律記号生成部１０８は、テキストに形態素解析・構文解析・ポーズ推定を施し、読み・韻律記号情報を生成する。そして、読み・韻律記号生成部１０８は、生成した読み・韻律記号情報とテキストを関連付けて音韻韻律情報記憶部１０９に記憶する（ステップＳ３５）。

ステップＳ３３では、音韻韻律情報編集部１０２は、音韻韻律情報記憶部１０９に記憶された読み・韻律記号情報とテキストを取得してユーザに提示する。ステップＳ３６では、ユーザは、音韻韻律情報編集部１０２から提示された読み・韻律記号情報に編集を加える。次に、ステップＳ３７では、ユーザは、音声波形を生成する際の合成モードを指示する。本実施形態では、合成モードとして「単独合成」、「比較合成」の２種類がある。「単独合成」は、編集を加えた読み・韻律記号情報の音声波形を単独で試聴するモードである。一方、「比較合成」は、編集前後の読み・韻律記号情報に基づいて作成した音声波形を対比試聴するモードである。

ステップＳ３８では、音韻韻律情報編集部１０２は、編集が加えられた読み・韻律記号情報を音韻韻律情報記憶部１０９のテキストと関連付けて追加で記憶する。

ステップＳ３９では、ステップＳ３７でユーザが指示した合成モードに基づいて処理を分岐する。合成モードが「単独合成」の場合（ステップＳ３９の単独合成）は、音韻韻律情報記憶部１０９に記憶された編集後の読み・韻律記号から音声波形を生成し（ステップＳ４０）、当該音声波形をスピーカ１０７から再生する（ステップＳ４２）。一方、合成モードが「比較合成」の場合（ステップＳ３９の比較合成）は、ステップＳ４１に進む。

ステップＳ４１では、音声合成部１０４は、編集前の読み・韻律記号情報から第１の音声波形を、編集後の読み・韻律記号情報から第２の音声波形を生成して、変更が加えられた読み・韻律記号情報に対応する第１および第２の音声波形の部分波形を連結した第３の音声波形を生成する。そして、当該第３の音声波形をスピーカ１０７から再生する（ステップＳ４２）。

次に、図４のフローチャートを参照して、ステップＳ４１の詳細を説明する。まず、対比区間算出部１０５は、音韻韻律情報記憶部１０９に記憶された編集前の読み・韻律記号情報と編集後の読み・韻律記号情報を韻律制御単位ごとに比較して、編集前後の読み・韻律記号間で対応する韻律制御単位の組に差異が発生したか否か（編集されたか否か）を判別する（ステップＳ４５）。編集前後の読み・韻律記号間における韻律制御単位の対応付けには、動的計画法における最適パス探索を利用する。

ステップＳ４６では、ステップＳ４５での判別結果に基づいて処理を分岐する。編集前後の読み・韻律記号間における韻律制御単位の組に差異が発生している場合（ステップＳ４６のYes）は、ステップＳ４７に進む。差異が発生していない場合（ステップＳ４６のNo）は、第３の音声波形を生成せずに処理を終了する。

ステップＳ４７では、合成音制御情報生成部１１０は、音韻韻律情報記憶部１０９に記憶された編集前および編集後の読み・韻律記号情報を解析して合成音制御情報を生成する。合成音制御情報には、少なくとも各韻律制御単位が対応する音声波形を特定できる情報、例えば、読み・韻律記号情報の継続時間長を含む。

次に、音声合成部１０４は、編集前の音韻韻律情報（読み・韻律記号情報および合成音制御情報）から第１の音声波形を、編集後の音韻韻律情報から第２の音声波形を生成する（ステップＳ４８）。

ステップＳ４９では、対比区間算出部１０５は、ステップＳ４５で差異が発生したと判別された韻律制御単位を含む編集前後の読み・韻律記号情報の部分系列を特定する。編集前後の読み・韻律記号情報における部分系列の特定は、後述する具体例を用いた処理で説明する。

次に、対比区間算出部１０５は、ステップＳ４９で特定された編集前後の読み・韻律記号情報の部分系列から第１の音声波形および第２の音声波形の対比区間を算出する（ステップＳ５０）。ここで、対比区間の算出には、ステップＳ４７で生成した読み・韻律記号情報の継続時間長を用いる。具体的には、読み・韻律記号情報に継続時間長を割り当てることで、編集対象になった部分系列が対応する音声波形の開始位置および終了位置を特定する。なお、ステップＳ４９で特定した部分系列が複数個ある場合は、対比区間を複数個算出する。例えば、部分系列が２個ある場合は、「第１の音声波形の100msecから200msecの区間、第２の音声波形の110msecから220msecの区間」、「第１の音声波形の300msecから400msecの区間、第２の音声波形の320msecから430msecの区間」のように対比区間を２個算出する。

次に、対比音声生成部１０６は、対比区間算出部１０５で算出された第１および第２の対比区間に対応する第１の音声波形の部分波形と第２の音声波形の部分波形とを連結して第３の音声波形を生成する（ステップＳ５１）。対比区間算出部１０５で算出された対比区間が「第１の音声波形の100msecから200msecの区間、第２の音声波形の110msecから220msecの区間」である場合は、少なくとも第１の音声波形の100msecから200msecの区間を含む区間から切り出した部分波形と少なくとも第２の音声波形の110msecから220msecの区間を含む区間から切り出した部分波形を連結して、第３の音声波形を生成する。このとき、500msec程度の無音区間を部分波形の間に挟んで連結することもできる。

最後に、ステップＳ５２では、ステップＳ５０で算出された全ての対比区間について第３の音声波形の生成が終了したか否かを判別し、終了していない場合は（ステップＳ５２のNo）、ステップＳ５１に戻る。一方、終了している場合は（ステップＳ５２のYes）、ステップＳ４２に進んで第３の音声波形をスピーカ１０７から再生する。なお、対比区間が複数個ありステップＳ５１で第３の音声波形が複数個生成された場合は、第３の音声波形を所定の間隔（例えば、500msecの間隔）をおいて連続的に再生することができる。

（具体例）
図３および図４の処理フローの動作を、具体例を用いて説明する。なお、この具体例では、音韻韻律情報記憶部１０９に何も記憶されていない状態からスタートする。

ステップＳ３１では、テキスト入力部１０１は、図５に示すようなユーザーインタフェースのテキスト入力欄５０１に、テキスト「一週間ばかり、ニューヨークを取材した。」を入力する。そして、ユーザは、読み・韻律記号情報の生成を指示するために読み・韻律記号生成ボタン５０３を押下する。

ステップＳ３２では、音韻韻律情報記憶部１０９に同テキストに対する読み・韻律記号情報が記録されていないため、ステップＳ３３へ進む。

ステップＳ３３では、読み・韻律記号生成部１０８は、テキストデータに形態素解析・構文解析・ポーズ長推定を施して、読み・韻律記号情報「[イッシュ’−カン]-[ ]-[バ*カリ]-[,]-[ニューヨ’ークオ]-[ ]-[シュザイシ%タ]-[.]」を生成する。括弧([ ])で括られた区間がひとつの韻律制御単位に相当する。アクセント句はその読みが半角カタカナで、アクセントの位置とその強度はシングルクォーテーション( ’ )およびアスタリスク( * )でそれぞれ記述されている。（%）は無声化音節を表す。アクセント句境界は、スペース・コンマ( , )・コロン( : )・ピリオド( . )で、それぞれ記述されている。

ステップＳ３３では、テキスト「一週間ばかり、ニューヨークを取材した。」と読み・韻律記号情報「[イッシュ’−カン]-[ ]-[バ*カリ]-[,]-[ニューヨ’ークオ]-[ ]-[シュザイシ%タ]-[.]」を関連付けて音韻韻律情報記憶部１０９に記録する。

ステップＳ３６では、音韻韻律情報編集部１０２は、音韻韻律情報記憶部１０９から最新の読み・韻律記号情報「[イッシュ’−カン]-[ ]-[バ*カリ]-[,]-[ニューヨ’ークオ]-[ ]-[シュザイシ%タ]-[.]」を取得して、図５の読み・韻律記号表示欄５０２に表示する。

次に、ステップＳ３６で、ユーザが、読み・韻律記号表示欄５０２に表示された１つ目から３つ目の韻律制御単位「[イッシュ’−カン]-[ ]-[バ*カリ]」のアクセント句境界とアクセントの位置を表すテキストを、操作部２０４のキーボードを介して直接編集し、編集後の読み・韻律記号情報が「[イッシュ−カンバ*カリ]-[,]-[ニューヨ’ークオ]-[ ]-[シュザイシ%タ]-[.]」になったとする。

ステップＳ３７では、ユーザは、図５の比較合成ボタン５０５を押下して、編集前後の読み・韻律記号情報の部分系列（編集前： [イッシュ’−カン]-[ ]-[バ*カリ]、編集後： [イッシュ−カンバ*カリ])から生成された音声波形を比較試聴する「比較合成」モードを選択する。なお、編集後の読み・韻律記号情報から生成された音声波形のみを視聴する「単独合成」モードを選択する場合は、図５の単独合成ボタン５０４を押下すればよい。

ステップＳ３８では、音韻韻律情報編集部１０２は、図６のように編集後の読み・韻律記号情報を音韻韻律情報記憶部１０９のスタックに追加する。

ステップ３９では、ユーザが合成モードとして「比較合成」を選択したことから、ステップＳ４１へ進む。

ステップＳ４５では、対比区間算出部１０５は、編集前の読み・韻律記号情報「[イッシュ’−カン]-[ ]-[バ*カリ]-[,]-[ニューヨ’ークオ]-[ ]-[シュザイシ%タ]-[.]」と編集後の読み・韻律記号情報「[イッシュ−カンバ*カリ]-[,]-[ニューヨ’ークオ]-[ ]-[シュザイシ%タ]-[.]」を韻律制御単位ごとに比較して差異が発生したか否かを判別する。編集前後の韻律制御単位の対応付けには、動的計画法における最適パス探索を利用する。図７より、編集前の読み・韻律記号情報の「[イッシュ’−カン]-[ ]-[バ*カリ]」と編集後の読み・韻律記号情報の「[イッシュ−カンバ*カリ]」には差異が生じている。

ステップ４６では、編集前後の読み・韻律記号間の韻律制御単位の組に差異が発生していることからステップＳ４７に進む。

ステップＳ４７では、合成音制御情報生成部１１０は、編集前後の読み・韻律記号情報を解析して、合成音制御情報として基本周波数や読み・韻律記号情報の継続時間長を生成する。次に、ステップＳ４８では、音声合成部１０４は、編集前後の音韻韻律情報を第１および第２の音声波形に変換する。

ステップＳ４９では、対比区間算出部１０５は、ステップＳ４５で差異が発生したと判別された韻律制御単位を含む編集前後の読み・韻律記号情報の部分系列を特定する。図７の例では、差異が発生したと判別された編集後の韻律制御単位である「[イッシュ−カンバ*カリ]」を編集後の部分系列とし、それに対応する「[イッシュ’−カン]-[ ]-[バ*カリ]」を編集前の部分系列とする。図７のフォーカス７０１で囲まれた箇所が、対比区間算出部１０５で特定された編集前後の部分系列を表している。

なお、図８(a)のように、差異が発生した韻律制御単位が連続している場合は、編集前後の読み・韻律記号情報で差異が発生していない韻律制御単位（[,]および[ ]）で囲まれた複数の韻律制御単位（[キク]、[ ]、[ケコサシ]）を１つのまとまりとみなして編集後の部分系列とすることができる。また、編集前の部分系列も同様に、[,]および[ ]で囲まれた韻律制御単位「キクケコサシ」とすることができる。

また、図８(b)のように差異が発生した韻律制御単位がアクセント句境界（[:]）に関するものであれば、隣接する韻律制御単位を編集前後の部分系列に含めることができる。これにより、後述する第３の音声波形でアクセント句境界のポーズ長、基本周波数の変化を比較試聴することができる。

ステップＳ５０では、対比区間算出部１０５は、ステップＳ４９で特定された編集前後の読み・韻律記号の部分系列から第１の音声波形および第２の音声波形の対比区間を算出する。対比区間の算出には、合成音制御情報生成部１１０で生成された読み・韻律記号情報の継続時間長を用いる。図９に、「[イッシュ’−カン]-[ ]-[バ*カリ]」という編集前の部分系列に対する読み・韻律記号情報の継続時間長と基本周波数を示す。この例では、編集前の部分系列に対応する第１の音声波形の対比区間の開始位置は、[イ]が語頭であることから0msecの位置になる。また、各読み・韻律記号情報の継続時間長（75ms、100 ms、200 ms、100 ms、100 ms、75 ms、150 ms、139 ms、150 ms）を合計すると1089msになることから、対比区間の終了位置は先頭から1089msの位置になる。以上より、第１の音声波形の対比区間は、「0msecから1089msecまでの区間」になることが分かる。同様に、編集後の部分系列「[イッシュ−カンバ*カリ]」に対応する第２の音声波形の対比区間（「0msecから1069msecの区間」）も算出する。

ステップＳ５１では、対比音声生成部１０６は、第１の音声波形の0msecから1089msecまでの部分波形と第２の音声波形の0msecから1069msecまでの部分波形を切り出す（図１０）。そして、切り出した部分波形を間に500msecの無音区間を挟んで連結し、第３の音声波形を生成する。最後にステップＳ４２では、第３の音声波形をスピーカ１０７から再生する。ユーザが編集を加えた音韻韻律情報に対応する編集前後の音声波形を連結して再生するため、図１１に示すように、本実施形態の比較視聴では、不要な音声波形の視聴や編集作業によるタイムラグを削除することができる。

（効果）
このように、本実施形態にかかる音声合成編集装置では、編集対象になった音韻韻律情報に対応する第１および第２の音声波形の部分波形を連続的に接続した第３の音声波形を出力する。これにより、ユーザは編集前後の音声波形を連続的に試聴することができ、編集によって生じた音声波形の差異を正確に確認できる。

（変形例１）
本実施形態では音韻韻律情報のうち読み・韻律記号情報を編集対象としていたが、図１２のような構成をとり、合成音制御情報生成部で生成された基本周波数のパターンや継続時間長などの合成音制御情報を編集対象にすることもできる。また、図１３に示すように、部分系列を編集する部分系列編集部１２０を対比区間算出部１０５に設けてもよい。これにより、ユーザは、編集前後の読み・韻律記号情報の部分系列（編集前： [イッシュ’−カン]-[ ]-[バ*カリ]、編集後： [イッシュ−カンバ*カリ]）を、（編集前： [イッシュ’−カン]-[ ]-[バ*カリ]-[ ,]-[ニューヨ’ークオ]、編集後： [イッシュ−カンバ*カリ] -[ ,]-[ニューヨ’ークオ]）のように編集することができる。つまり、部分系列編集部１２０を設けることにより、対比試聴される音声波形の範囲をユーザが調整することができる。

（変形例２）
以上の実施形態では、日本語の音韻韻律情報の編集について述べたが、編集対象となる言語は日本語に限定されない。例えば、英語などのヨーロッパ言語の音韻韻律情報の編集において、単語内のストレスが置かれるシラブルの位置やその強度、または、アクセント句境界の編集に適応してもよい。

例えば、図１４は、米語"Showing Manual Options."の音韻韻律情報（読み・韻律記号情報）の編集を行なった際の１例である。図１４では、アクセント句境界が[ ]（ポーズなし）から[--:]（短いポーズあり）に変更され、かつ、アクセント句（テキストの"Manual"の部分)のアクセント強度が中["m{n.j@l]から強[<+>"m{n.j@l]に変更されている。この場合、対比区間算出部１０５は、図１４のフォーカス７０１で囲まれた部分を編集前後の部分系列として特定する。これにより、ユーザは、"Showing Manual"に対する編集前後の音声波形を連続的に試聴できる。

この他にも、中国語などの声調言語の音韻韻律情報の編集において、各シラブルの声調（四声）の編集に適応してもよい。

（変形例３）
以上の実施形態では、編集前の第１の音声波形の部分波形、編集後の第２の音声波形の部分波形の順番で音声波形を連続的に再生していたが、編集後の第２の音声波形の部分波形、編集前の第１の音声波形の部分波形の順番で音声波形を連続的に再生してもよい。

（変形例４）
対比音声生成部１０６は、スピーカ１０７に出力中の音声波形が、第１の音声波形の部分波形と第２の音声波形の部分波形のどちらであるかを区別する情報を情報表示部に表示することができる。情報表示部にはディスプレイ２０７を用いる。

図１５(a)は、ディスプレイ２０７に表示された画面１５０１であり、当該画面１５０１に第１および第２の音声波形が表示されている。同図では、バー１５０２が出力中の音声波形の位置を表しており、この例では、第１の音声波形の部分波形が出力中（スピーカ１０７から再生中）であることがわかる。また、図１５(b)は、第２の音声波形の部分波形が出力中である場合の例を示している。この他にも、図１６に示すように、編集前後の読み・音韻記号情報を用いて情報を表示することができる。同図では、バー１６０２が出力中の音声波形に対応する読み・音韻記号情報の位置を表示している。また、「編集前の音声波形を再生中」のようなテキストをディスプレイ２０７に表示するようにしてもよい。なお、対比音声生成部１０６が出力中の音声波形の位置は、各読み・韻律記号情報の継続時間長を用いて特定できる。

このように、本変形例の音声合成編集装置は、対比音声生成部１０６が出力している音声波形が第１の音声波形の部分波形と第２の音声波形の部分波形のどちらであるか区別する情報を情報表示部に表示する。ことにより、ユーザは現在試聴している音声が編集前のものであるか編集後のものであるかを容易に判断することができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０１テキスト入力部
１０２音韻韻律情報取得部
１０３音韻韻律情報編集部
１０４音声合成部
１０５対比区間算出部
１０６対比音声生成部
１０７スピーカ
１０８読み・韻律記号生成部
１０９音韻韻律情報記憶部
１１０合成音制御情報生成部
１２０部分系列編集部
２０１制御部
２０２記憶部
２０３外部記憶部
２０４操作部
２０５通信部
２０７ディスプレイ
２０８バス
５０１テキスト入力欄
５０２読み・韻律記号表示欄
５０３読み・韻律記号生成ボタン
５０４単独合成ボタン
５０５比較合成ボタン
７０１フォーカス
１５０１表示画面
１５０２バー
１６０１表示画面
１６０２バー

Claims

テキストを解析して音声を合成するための音韻韻律情報を取得する音韻韻律情報取得手段と、
前記音韻韻律情報取得手段で取得された音韻韻律情報を編集する音韻韻律情報編集手段と、
前記音韻韻律情報編集手段における編集前および編集後の音韻韻律情報をそれぞれ第１および第２の音声波形に変換する音声合成手段と、
前記音韻韻律情報編集手段で編集対象になった音韻韻律情報に対応する前記第１および第２の音声波形の対比区間を算出する対比区間算出手段と、
前記対比区間算出手段で算出された前記第１の音声波形の対比区間を含む前記第１の音声波形の部分波形と、前記対比区間算出手段で算出された前記第２の音声波形の対比区間を含む前記第２の音声波形の部分波形とを連続的に出力する対比音声生成手段と、
を備える音声合成編集装置。
前記対比音声生成手段が、前記第１の音声波形の部分波形と前記第２の音声波形の部分波形の間に所定長の無音区間を挿入して連続的に出力する請求項１記載の音声合成編集装置。
前記音韻韻律情報取得手段が、テキストを解析して読み記号および韻律記号を生成する読み・韻律記号生成手段と、
前記読み・韻律記号生成手段が生成した読み記号および韻律記号を解析して合成音制御情報を生成する合成音制御情報生成手段と、
を備え、
前記音韻韻律情報編集手段が、前記読み記号、前記韻律記号、前記合成音制御情報のうちの少なくとも１つまたはその組み合わせを編集する請求項１乃至請求項２記載の音声合成編集装置。
前記対比区間算出手段が、前記音韻韻律情報編集手段で編集対象になった前記編集前および編集後の音韻韻律情報の部分系列を特定し、前記合成音制御情報生成手段で生成された合成音制御情報を用いて、当該部分系列に対応する前記第１および第２の音声波形の対比区間を算出する請求項３記載の音声合成編集装置。
前記対比区間算出手段が、前記部分系列を編集する部分系列編集手段を更に備え、
前記対比区間算出手段が、前記部分系列編集手段で編集した部分系列に対応する前記第１および第２の音声波形の対比区間を算出する請求項４記載の音声合成編集装置。
前記対比音声生成手段が出力している音声波形が前記第１の音声波形の部分波形と前記第２の音声波形の部分波形のどちらであるかを区別する情報を表示する情報表示手段を更に備える請求項１から請求項５の何れか１項に記載の音声合成編集装置。
テキストを解析して音声を合成するための音韻韻律情報を取得する音韻韻律情報取得工程と、
前記音韻韻律情報取得工程で取得された音韻韻律情報を編集する音韻韻律情報編集工程と、
前記音韻韻律情報編集工程における編集前および編集後の音韻韻律情報をそれぞれ第１および第２の音声波形に変換する音声合成工程と、
前記音韻韻律情報編集工程で編集対象になった音韻韻律情報に対応する前記第１および第２の音声波形の対比区間を算出する対比区間算出工程と、
前記対比区間算出工程で算出された前記第１の音声波形の対比区間を含む前記第１の音声波形の部分波形と、前記対比区間算出工程で算出された前記第２の音声波形の対比区間を含む前記第２の音声波形の部分波形とを連続的に出力する対比音声生成工程と、
を備える音声合成編集方法。
音声合成編集装置に、
テキストを解析して音声を合成するための音韻韻律情報を取得する音韻韻律情報取得工程と、
前記音韻韻律情報取得工程で取得された音韻韻律情報を編集する音韻韻律情報編集工程と、
前記音韻韻律情報編集工程における編集前および編集後の音韻韻律情報をそれぞれ第１および第２の音声波形に変換する音声合成工程と、
前記音韻韻律情報編集工程で編集対象になった音韻韻律情報に対応する前記第１および第２の音声波形の対比区間を算出する対比区間算出工程と、
前記対比区間算出工程で算出された前記第１の音声波形の対比区間を含む前記第１の音声波形の部分波形と、前記対比区間算出工程で算出された前記第２の音声波形の対比区間を含む前記第２の音声波形の部分波形とを連続的に出力する対比音声生成工程と、
を実現させるための音声合成編集プログラム。