JP2008268478A

JP2008268478A - アクセント調整可能な音声合成装置

Info

Publication number: JP2008268478A
Application number: JP2007110288A
Authority: JP
Inventors: Mitsuaki Sato; 光朗佐藤; Makoto Takao; 誠高尾
Original assignee: Hitachi Business Solutions Co Ltd
Current assignee: Hitachi Solutions Create Ltd
Priority date: 2007-04-19
Filing date: 2007-04-19
Publication date: 2008-11-06

Abstract

【課題】ユーザビリティの高いアクセント調整用のＧＵＩを備える音声合成装置を提供する。
【解決手段】音声合成装置は、入力されたテキストデータから形態素解析データを生成する形態素解析部２４と、前記形態素解析データから合成波形データを生成する音声合成部２５と、前記合成波形データを音声出力する音声出力部２６と、前記形態素解析データのうちいずれか１つのアクセント句の文字列と、スライドバーと、前記スライドバー上を移動可能なスライダーとを表示し、前記スライダーの移動により前記文字列の中のアクセント位置の指定を受け付ける設定受付部２２と、受け付けたアクセント位置に基づいて、前記形態素解析データに含まれるアクセント位置を変更し、前記音声合成部２５に合成波形データ生成させ、前記音声出力部２６に音声出力させる、アクセント調整部２３と、を備える。
【選択図】図２

Description

本発明は、音声合成装置に関する。特に、音声合成時にアクセントを調整する技術に関する。

近年、テキストデータから合成音声を生成する音声合成装置において、高品質な合成音声を生成する方法として、自然音声から切り出した音声素片（音声波形の断片）の、ピッチを示す基本周波数、長さを示す継続時間長などの韻律パラメータや、音声波形を格納した音声コーパスを用い、テキストデータの読みやアクセントに対応する音素片を該音声コーパスから所定の基準を用いて選択して合成する技術が知られている。

一方、上記のような音声合成装置を用いても、自動生成された合成音声の発音はまだ完璧ではない。そこで、より自然な合成音声の発音を得るための効果的な方法の一つとして、アクセント調整がある。例えば、日本語において、アクセントは、発音文字列を構成する文字の音の高低の配置で表現される。具体的には、アクセント調整は、アクセント句と呼ばれる単位の文字列（アクセント文字を最大で１つ有する）の中で、アクセントの位置を変更する、若しくは、アクセントを無しにすることで行われる。

特許文献１には、音声合成装置が、テキストデータを読み・アクセントを含む言語に変換し、ＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ：グラフィカル・ユーザ・インタフェース）を用いて、該言語をアクセント句で区切って表示し、それらのアクセント句ごとに、読み・アクセントの変更候補を表示し、アクセント句と変更候補の選択を、ユーザによるマウスやキーボードの操作により受け付け、該言語を編集する技術が記載されている。

特開２００６−３０３２６号公報

従来のアクセント調整では、音声合成装置は、例えば、ＧＵＩ機能により、図１０（Ａ）に示すような画面を表示する。該画面には、アクセント調整を行うことが可能な、例えば、一文「あめがふる。」が表示される。ユーザは、マウスなどを操作して、該画面上に表示されたポインタを移動させ、表示された文字列のうちアクセントを付与する文字上にポインタを移動させてクリックする。このようにして、ユーザはアクセント位置の変更を行う。

また、別の例の音声合成装置では、図１０（Ｂ）に示すように、ユーザは、キーボードなどを操作して、アクセント付きの発音文字列「ア´メガ／フ´ル。」を入力する。

上記のようにアクセントの位置を変更した後、ユーザは、アクセント調整後の合成音声をテスト再生させるために、上記のような操作画面を非表示にし、別の画面（図示しない）において、テスト再生の指示を出す。アクセント調整を再度行うためには、再度、アクセント調整のための画面を表示させて、アクセント位置を変更する操作をする。

しかしながら、特に、発音や音声についての専門知識を有さない一般的なユーザは、アクセントの位置を指定することに慣れていない。そのため、上述したような従来のアクセント調整方法においては、一般的なユーザは、アクセント位置の調整を試行錯誤する必要があり、その上、上記のような煩わしい作業を繰り返す必要があった。このように、従来のアクセント調整方法は、一般的なユーザが利用するには不向きであった。

特許文献１は、対象のアクセント句の変更候補を選択させる技術であるため、アクセントの位置の変更を行うことはできない。また、変更候補が存在しなければアクセントの変更はできない。

本発明の目的は、アクセントの変更位置を簡便に指定することができる、ユーザフレンドリなＧＵＩを備える音声合成装置を提供することである。

上記の課題を解決するため、第１の態様は、音声合成装置であって、入力されたテキストデータを形態素毎に分割してアクセント句及びアクセント位置の情報を含む形態素解析データを生成する形態素解析手段と、前記形態素解析データに基づいて音声合成を行って合成波形データを生成する音声合成手段と、前記合成波形データを音声として出力する音声出力手段と、前記形態素解析データのうちいずれか１つのアクセント句の文字列と、前記文字列の中のアクセント位置を示す指標画像とを表示し、前記指標画像の位置を変更する操作を受け付けてその操作後の前記指標画像を表示する設定受付手段と、前記操作後のアクセント位置を受け付けて、前記形態素解析データに含まれるアクセント位置を変更し、前記音声合成手段を用いて当該形態素解析データから合成波形データ生成し、前記音声出力手段を用いて前記合成波形データのうち前記アクセント句に対応する部分を音声出力する、アクセント調整手段と、を備える。また、前記アクセント調整手段は、前記合成波形データを音声出力している間に、前記操作を検知すると、当該音声出力を停止する構成とすることができる。

以下、本発明の第１の実施形態について、図面を参照して説明する。

図１は、本実施形態が適用される音声合成装置のハードウェアシステム構成を示すブロック図である。

本図に示すように、音声合成装置１０は、プログラムが動作する一般的なコンピュータであり、例えば、パーソナルコンピュータや、ワークステーションである。すなわち、音声合成装置１０は、コンピュータの主要部であって各装置を集中的に制御するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１と、各種データを書換え可能に記憶する主記憶装置２を備える。

さらに、音声合成装置１０は、各種のプログラム、プログラムの生成するデータ等を格納する外部記憶装置３、各種操作指示を行うためのキーボードやマウスなどの入力装置４、画像データ等を表示する表示装置５、音声データ等を音声として出力する出力装置６を備える。これらの各装置はバスなどの信号線７を介してＣＰＵ１と接続される。もちろん、他に、外部の装置と通信を行うための通信装置を備えていてもよい。

ＣＰＵ１は、例えば、外部記憶装置３上に格納されたプログラムを主記憶装置２上にロードして実行することにより、各種処理を実行する。外部記憶装置３は、ＨＤＤのみに限定されず、配布されたプログラムであるコンピュータソフトウェアを読み取るための機構として、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ等のドライブをさらに備えても良い。もちろん、プログラムは、例えば、通信装置を介してネットワークから外部記憶装置３にダウンロードされ、それから、主記憶装置２上にロードされてＣＰＵ１により実行されるようにしてもよい。

入力装置４は、テキストを入力するためのテキスト入力装置、また、ＧＵＩ上の目的の動作を示すグラフィクスを操作するためのポインティングデバイスを含む。テキスト入力装置は、文字列が入力できる装置であれば、例えばキーボード、音声認識装置、または、文字列の読み込み装置等であってもよい。ポインティングデバイスは、例えばマウスや、画面に直接接触するようなタッチパネルであっても良い。

表示装置５のディスプレイは、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）等から選択される。

出力装置６は、ＣＰＵから送られる音声データを出力するものであれば、外部スピーカのような外部出力装置であっても良い。

図２は、上記のハードウェアで構成される音声合成装置１０の機能構成を示すブロック図である。なお、本実施形態では、音声合成装置１０は、基本的なＧＵＩ機能を備えているものとする。

本図に示すように、音声合成装置１０上には、ソフトウェアとハードウェアが協働することにより、制御部２０及び記憶部３０が構築される。制御部２０は、設定受付部２２、アクセント調整部２３、形態素解析部２４、音声合成部２５、及び、音声出力部２６を備える。また、記憶部は、辞書データ３２、音声コーパス３３、及び、作業データ領域３４を備える。

これらの機能は、例えば、ＣＰＵ１が補助記憶装置３に予め記憶されている所定のプログラムを主記憶装置２にロードして実行することにより、または、ハードウェアを制御することにより、またはそれらの組合せにより実現される。記憶部３０は、データを継続的に保持する場合は外部記憶装置３を、データを一時的に保持する場合は主記憶装置２を用いることにより実現される。

設定受付部２２は、ユーザが音声合成の作業を行うためのＧＵＩ画面、例えば、テキスト入力画面やアクセント調整画面を、表示装置５に表示する。そして、ＧＵＩ上のユーザの操作、例えば、テキストデータの入力、カーソル・ポインタの移動やクリック、などを、入力装置４を介して受け付ける。また、ユーザの操作による結果をＧＵＩ画面に反映して表示装置５に表示する。

アクセント調整部２３は、設定受付部２２を介して、テキストデータに含まれる各アクセント句について、アクセント調整（アクセント位置の変更）に係る操作を受け付ける。そして、変更されたアクセント位置を検出し、テキストデータについての合成音声を、音声合成部２５に生成させる。また、生成された合成音声を、音声出力部２６に出力させる。

形態素解析部２４は、設定受付部２２を介して、入力されたテキストデータを受け付ける。そして、受け付けたテキストデータを、辞書データ３２等に基づいて、単語に分割して、それらの読み・アクセント情報や、アクセント句の情報を含む形態素解析データを生成するための形態素解析処理を行う。もちろん、形態素解析処理はこれに限られず、例えば、単語のアクセント型や品詞などの情報を形態素解析データに付加するようにしてもよい。

音声合成部２５は、形態素解析部２４が生成した形態素解析データに対して、韻律が類似するデータセットを音声コーパス３３から検索して抽出する。そして、抽出したデータセットと形態素解析データに基づいて韻律パラメータを算出して中間言語データを生成する。また、中間言語データに基づいて出力音声波形を合成し、合成波形データを生成する。

音声出力部２６は、生成された合成波形データを、出力装置６を介して、実際の音声データとして出力する。

辞書データ３２は、単語の読み、アクセント情報と等を予め格納する。

音声コーパス３３は、単語、アクセント句や文節単位の文字列と、その基本周波数や継続時間長等の韻律パラメータ、音声データ等を対応付けた情報を、予めデータベースとして複数格納する。具体的には、例えば、図３に示すように、複数のデータセット（３３１〜ｎ）を備える。各データセットは、文字列表記データ３３０１、３３０１の発声音である音声波形データ３３０２、３３０２の基本周波数データ３３０３、３３０２の継続時間長データ３３０４、３３０１の形態素分割結果である形態素分割データ３３０５、３３０１の音素分割結果である音素分割データ３３０６から構成される。もちろん、各データセットの構成は上記に限定されず、パワーデータやケプストラムデータ等を含んでも良い。

作業データ領域３４は、入力されたテキストデータや、形態素解析部２４や音声合成部２５が生成した中間データなどを一時的に格納するための領域である。具体的には、図４に示すように、テキストデータ３４０、形態素解析データ３４１、音素解析データ３４２、韻律パラメータ３４３、中間言語データ３４４、及び、合成波形データ３４５を格納する領域から構成される。なお、３４１ａ〜３４５ａの基準データは、アクセント調整を行う基となる各種データを格納する領域であり、３４１ｂ〜３４５ｂの更新データは、アクセント調整後の各種データを格納する領域である。

次に、上述した機能で構成される音声合成装置の動作を、フロー図を参照しながら具体的に説明する。

図５は、テキストデータの入力を受け付けてからアクセント調整を行うまでの処理の流れを示すフロー図である。以下、テキストデータ「雨が降る。」を例にとって説明する。

先ず、設定受付部２２は、音声合成の対象のテキストデータを受け付ける（Ｓ１）。

具体的には、設定受付部２２は、図８（Ａ）に示すテキスト入力画面を表示装置５に表示する。

ここで、テキスト入力画面（図８（Ａ））の構成を説明する。テキスト入力画面は、アクセント調整ボタン８０１と、入力テキスト設定欄８０２と、発音文字列表示欄８０３と、アクセント図形８０４と、カーソル８０５とを備える。

アクセント調整ボタン８０１は、アクセント調整を開始するためのボタンである。入力テキスト設定欄８０２は、音声合成の対象となるテキストデータを設定するための欄である。発音文字列表示欄８０３は、入力テキスト設定欄８０２に設定されたテキストデータの発音文字列を表示するための欄である。アクセント図形８０４は、発音文字列表示欄８０３に表示される発音文字列のアクセント位置を指し示すための図形画像である。カーソル８０５は、発音文字列の下辺に表示され、ユーザの操作により文字単位に左右に移動され、当該カーソル８０５の位置は、文字及びアクセント句が選択されていることを示す。

もちろん、上記のテキスト入力画面は一例であり、例えば、入力されたテキストデータの合成音声を再生するための再生ボタンなどを備えることができる。

図５に戻って、上記のテキスト入力画面を表示した後、設定受付部２２は、テキスト入力画面上のユーザの操作を入力装置４を介して受け付ける。入力テキスト設定欄８０２にテキストデータが入力されると、設定受付部２２は、該テキストデータを作業データ領域３４上のテキストデータ３４０に格納する。すなわち、テキストデータ「雨が降る。」が、テキストデータ３４０に格納される。

なお、テキストデータの受付方法は上記に限られない。例えば、設定受付部２２は、上記のテキスト入力画面の前段階に、複数の文で構成される文章のテキストデータの入力を受け付けるＧＵＩ画面を表示する。そして、入力された文章のテキストデータを該画面に表示し、ユーザに発音調整の対象の１文を選択させてから、上記のテキスト入力画面を表示し、選択された１文を表示させる構成とすることができる。

次に、形態素解析部２４は、入力テキストデータが設定されると、該テキストデータをテキストデータ３４０から読み出し、形態素解析処理を実行する（Ｓ２）。

具体的には、形態素解析部２４は、読み出したテキストデータを意味がわかる最小の単位(形態素)に分割した形態素列を生成する。そして、分割した形態素毎に、表記、読み、アクセント情報などを付加した形態素解析データを生成し、該データを作業データ領域３４上の形態素解析データ３４１ａに格納する。単語毎の読み及びアクセント情報は、予め辞書データ３２に登録されている値を使用する。

テキストデータを単語（形態素）に分割する方法としては、清水らによる「隣接単語間の結合関係に着目したテキスト音声変換用形態素解析処理、日本音響学会誌、５１巻、１号、ｐｐ．３−１３、１９９５」に記載の処理を利用することができる。また、アクセント情報を求める方法としては、匂坂らによる「日本語単語連鎖のアクセント規則、電子情報通信学会論文誌、Ｊ６６−Ｄ、Ｎｏ．７、ｐｐ．８４９−８５６、１９８３」を用いることができる。もちろん、これらの方法は一例であり、他の処理方法を用いても良い。

上記のようにして、形態素解析部２４は、図９（Ａ）のテキストデータ「雨が降る。」から、図９（Ｂ）に示すような形態素解析データを生成する。すなわち、単語毎のデータ「雨」「が」「降」「る」「。」に分割し、読み・アクセント情報「ア´メ」「カ゜」「フ´」「ル」「．」（「´」はアクセント、「゜」は鼻濁音を示す）をそれぞれ対応付ける。また、アクセント句の区切りを示す情報「／」を付加する。なお、「ア´メカ゜／フ´ル．」は、発音記号列に相当するものである。もちろん、形態素の構造は上記のものに限られない。

形態素解析データが生成されると、設定受付部２２は、形態素解析データ３４１ａに格納された基準形態素解析データに基づいて、テキスト入力画面の発音文字列表示欄８０３（図８（Ａ））にアクセント句を含む発音文字列「あめが／ふる。」を表示する。また、アクセント図形８０４を、アクセントが付与されている「あ」及び「ふ」の上に表示する。また、カーソル８０５を、先頭の文字「あ」の下に表示する。

次に、音声合成部２５は、入力テキストデータについて、音声合成処理を開始する（Ｓ３）。具体的には、図６に示す処理を実行する。

音声合成部２５は、先ず、形態素解析データ３４１ａに格納された基準形態素解析データを読み出し、該データに含まれる読みの情報を基に、意味の区別に用いられる最小の音の単位（音素）に分割し、得られた音素解析データを作業データ領域３４上の音素解析データ３４２ａに格納する（Ｓ３０１）。

音素分割の方法は、例えば、宮崎らによる方法「日本文音声出力のための言語処理方式、情報処理学会論文誌、Ｖoｌ．２７、Ｎｏ．１１、ｐｐ．１０５３−１０６１、１９８６」を利用することができる。もちろん、該計算方法は一例であり、他の音素分割法を用いても良い。

上記の音素解析により、音声合成部２５は、テキストデータ「雨が降る。」を、音素に分割し、「Ａ／ＭＥ／ＮＧ／Ａ／Ｈ／Ｕ／Ｒ／Ｕ／．」のような音素データを生成する。ここで、「Ａ」「Ｍ」「Ｅ」等は音素を示す記号であるが、これらは一例であり、他の音素記号表現を用いてもよい。

次に、音声合成部２５は、基準形態素解析データに対して、アクセント型、品詞等の情報が類似するデータセットを、音声コーパス３３から検索する処理を行う（Ｓ３０２〜Ｓ３０４）。

音声合成部２５は、先ず、音声コーパス３３から、データセット３３１を読み出す（Ｓ３０２）。また、読み出したデータセット３３１から、形態素分割データ３３０５を読み出す（Ｓ３０３）。

そして、音声合成部２５は、基準形態素解析データと、形態素分割データ３３０５それぞれに含まれる、読み・アクセント情報、アクセント型、品詞等のデータを比較し、予め定めた基準で類似度の計算を行う（Ｓ３０４）。

以降、同様に、音声合成部２５は、全てのデータセット（３３１〜ｎ）について、上記の類似度の計算を行う。その結果として、予め設定したしきい値（基準類似度）を満たすデータセットのうち、基準形態素解析データと最も類似するデータセット（以下、選択データセットと呼ぶ。）を１つ選択する。

次に、音声合成部２５は、基準形態素解析データについて、韻律パラメータの算出を行う（Ｓ３０５）。

具体的には、音声合成部２５は、基準形態素解析データと、選択データセットの形態素分割データ３３０５とを比較し、形態素毎に一致部と不一致部とに分離する。そして、一致部の形態素には、選択データセットの韻律パラメータ（基本周波数データ３３０３、継続時間長データ３３０４）を付与する。不一致部の形態素の基本周波数データは、形態素のモーラ数とアクセント型等に対して１つの基本周波数データを記憶している単語基本周波数パタンテーブルから検索して算出する。また、継続時間長は、匂坂らによる、「規則による音声合成のための音韻時間長制御、電子情報通信学会論文誌、Ｖｏｌ．Ｊ６７−Ａ、Ｎｏ．７、ｐｐ．６２９−６３６、１９８４」を利用して算出することができる。その後、音声合成部２５は、一致部と不一致部の韻律パラメータを滑らかに接続するために、不一致部を変形統合する処理を行なう。

このようにして求めた韻律パラメータを、音声合成部２５は、作業データ領域３４上の韻律パラメータ３４３ａに格納する。なお、韻律パラメータの算出方法は上記に限られない。音素ごとの継続時間長を求めるには、例えば、予めデータベースとして保持された、音素ごとの継続時間が記録されたテーブルや、付与対象となる音素の前後１音素までの環境要因を考慮した継続時間が記録されたテーブルを参照する方法を利用できる。また、音素ごと基本周波数を求めるには、二次臨界制動モデルと呼ばれる指数関数による曲線でモデル化する方法や矩形でモデル化する方法を利用できる。

次に、音声合成部２５は、基準形態素解析データと、基準音素解析データと、基準韻律パラメータとを基に、基準中間言語データを生成し、作業データ領域３４上の中間言語データ３４４ａに格納する（Ｓ３０６）。

具体的には、音声合成部２５は、図９（Ｃ）に示すような中間言語データを生成する。すなわち、基準形態素解析データに含まれる発音記号列を分割して、「ア」「メ」「カ゜」「／」「フ」「ル」「．」の発音文字から成るデータ列を生成する。そして、それぞれの発音文字に、音素毎の基本周波数及び継続時間長のデータを付与する。例えば、発音文字「メ」は、基本周波数「２８３」・継続時間長「５１」の音素「Ｍ」と、基本周波数「２５２」・継続時間長「８９」の音素「Ｅ」とから構成される。

最後に、音声合成部２５は、基準中間言語データに基づいて、出力音声波形を合成して合成波形データを生成し、作業データ領域３４上の合成波形データ３４５ａに格納する（Ｓ３０７）。

以上のようにして、音声合成部２５は、音声合成処理（Ｓ３）を終了する。

次に、設定受付部２２は、テキスト入力画面（図８（Ａ））上で、アクセント調整ボタン８０１のクリックを受け付ける（Ｓ４）。

すると、アクセント調整処理が開始される（Ｓ５）。具体的には、図７に示す処理が実行される。

先ず、設定受付部２２は、図８（Ｂ）に示すアクセント調整画面を表示装置５に表示する（Ｓ５０１）。

ここで、アクセント調整画面（図８（Ｂ））の構成を説明する。アクセント調整画面は、
決定ボタン８１０と、閉じるボタン８１１と、アクセント句発音文字列表示欄８１２と、アクセント図形８０４と、目印８１５と、スライドバー８１６と、スライダー８１７とを備える。

決定ボタン８１０は、アクセント位置の変更後の更新データを保存して終了アクセント調整を終了するためのボタンである。閉じるボタン８１１は、アクセント位置の変更後の更新データを保存せずにアクセント調整を終了するためのボタンである。アクセント句発音文字列表示欄８１２は、アクセント調整の対象となるアクセント句の発音文字列を表示するための欄である。アクセント図形８０４は、アクセント句発音文字列表示欄８１２に表示される発音文字列のアクセント位置を指し示すための図形画像である。

目印８１５は、調整により指定可能なアクセント位置の候補を示すための図形画像であり、文字毎に表示される。なお、「アクセント無し」の候補を示すため、目印８１５は、発音文字列の先頭文字の一文字分左の位置にも表示される。スライドバー８１６は、スライダー８１７を移動可能な範囲を示す図形画像であり、アクセント句発音文字列表示欄８１２と平行に表示される。また、スライドバー８１６は、表示される発音文字列の文字数よりも大きい文字数分の長さであり、スライドバー８１６の右終端は、発音文字列の終端と合わせられて表示される。スライダー８１７は、ユーザの操作、例えば、マウスのドラッグ操作によりスライドバー８１６上を文字単位で左右に移動される。また、ドロップ操作により、移動後の位置が確定し、当該スライダー８１７の位置は、変更されたアクセント位置を指し示す。なお、上記の発音文字列の始端を超える位置に、スライダー８１７の位置が確定した場合、その位置は、「アクセント無し」であることを示す。なお、アクセント図形８０４は、スライダー８１７の移動と同期して移動されて表示される。

もちろん、上記のアクセント調整画面は一例であり、例えば、表示された発音文字列の合成音声を再生するための再生ボタンや、アクセント図形８０４やスライダー８１７をアクセント位置の変更前の表示位置に戻すためのリセットボタンなどを備えることができる。
また、アクセント位置を変更するためのインタフェースは、目印８１５、スライドバー８１６およびスライダー８１７に限られず、例えば、各アクセント位置および「アクセント無し」の候補に対応させたラジオボタンなどを表示して、ユーザに選択させてもよい。

図７に戻って、設定受付部２２は、テキスト入力画面（図８（Ａ））上の発音文字列表示欄８０３に表示されたカーソル８０５が指し示す発音文字を含むアクセント句の位置を検出する。そして、基準形態素解析データを基に、検出したアクセント句の発音文字列をアクセント句発音文字列表示欄８１２に表示する。また、基準形態素解析データに含まれる、該アクセント句のアクセント位置を取得し、アクセント図形８０４及びスライダー８１７をそのアクセント位置に表示する。これと同時に、アクセント調整部２３は、処理対象のアクセント句の位置を検出する。

ここでは、発音文字列表示欄８０３のカーソル８０５がアクセント句「あめが」の中の発音文字「あ」を指しているため、設定受付部２２は、アクセント句発音文字列表示欄８１２に発音文字列「あめが」を表示する。また、アクセントは「あ」に付与されているため、発音文字列「あ」の上にアクセント図形８０４を表示し、スライダー８１７を発音文字列「あ」の下の目印８１５に合わせて表示する。

以上のようにして、図８（Ｂ）に示すアクセント調整画面が表示される。

次に、アクセント調整部２３は、決定ボタン８１０のクリック、閉じるボタン８１１のクリック、及び、スライダー８１７の移動、のいずれか１つの操作を受け付ける（Ｓ５０２）。

上記のいずれかの操作を受け付けると、アクセント調整部２３は、音声出力部２６が音声出力中（テスト再生中）であるか判定する（Ｓ５０３）。音声出力中の場合（ＹＥＳ）、Ｓ５０４を実行する。一方、音声出力中でない場合（ＮＯ）、Ｓ５０５を実行する。

音声出力中（Ｓ５０３でＹＥＳ）、例えば、後述するアクセントの位置変更により合成音声が出力されている場合（Ｓ５０６〜Ｓ５０９）、アクセント調整部２３は、音声出力部２６に音声出力を停止させる（Ｓ５０４）。その後、Ｓ５０５を実行する。

Ｓ５０５では、アクセント調整部２３は、受け付けた操作が、決定ボタン８１０又は閉じるボタン８１１のクリックであるか否か判定する（Ｓ５０５）。

決定ボタン８１０又は閉じるボタン８１１のクリックでない（Ｓ５０５でＮＯ）、すなわち、スライダー８１７の移動の場合、アクセント調整部２３は、変更後のアクセント位置（以下、更新アクセント位置と呼ぶ。）を取得する（Ｓ５０６）。ここで、例えば、図８（Ｃ）に示すように、更新アクセント位置が「め」であるものとして以下説明する。

更新アクセント位置を取得すると、アクセント調整部２３は、基準形態素解析データを作業データ領域３４の形態素解析データ３４１ａから読み出す（Ｓ５０７）。

そして、アクセント調整部２３は、取得した更新アクセント位置及びアクセント句の位置に基づいて、読み出した基準形態素解析データに含まれる発音記号列のアクセント位置を変更し、変更後の形態素解析データを更新データである形態素解析データ３４１ｂに格納する（Ｓ５０８）。ここで、基準となる発音記号列は「ア´メカ゜／フ´ル．」であるため、更新データの発音記号列は「アメ´カ゜／フ´ル．」となる。なお、更新アクセント位置が「アクセント無し」である場合、更新データの発音記号列は「アメカ゜／フ´ル．」となり、以降、この更新データに基づいて処理が進められる。

更新形態素解析データを生成すると、アクセント調整部２３は、当該更新形態解析データに基づいた音声合成処理を音声合成部２５に実行させる（Ｓ３）。

音声合成処理（Ｓ３）は、上述した図６（Ｓ３０１〜Ｓ３０７）の処理と同様である。異なるのは、音声合成部２５は、各処理を、形態素解析データ３４１ｂに格納された更新形態素解析データに基づいて実行し、新たに生成した音素解析データ、韻律パラメータ、中間言語データ、及び、合成波形データを、それぞれ、作業データ領域３４上の音素解析データ３４２ｂ、韻律パラメータ３４３ｂ、中間言語データ３４４ｂ、及び、合成波形データ３４５ｂに格納する点である。なお、繰り返しアクセント位置の変更が行われる場合は、更新データを上書きすればよい。

図７に戻って、アクセント調整部２３は、新たに生成された更新合成波形データ３４５ｂのうち、アクセント位置の変更が行われたアクセント句の部分について、音声出力部２６に出力させる（Ｓ５０９）。すなわち、アクセント位置変更後のアクセント句「アメ´カ゜」が、音声出力される。

以上のようにして、アクセント位置変更後の合成音声が再生される。すなわち、スライダーがマウスのドラッグ操作により移動され、移動後のスライダーの位置でドロップ操作されるのと同時に（ほぼ同時に）、アクセント位置の変更後の合成音声が自動的に再生される（Ｓ５０２〜５０３、５０５、５０６〜５０９）。また、合成音声の再生中に、スライダーの移動によりアクセント位置が変更されると、再生中の合成音声の出力が停止するのと同時に（ほぼ同時に）、アクセント位置変更後の合成音声が再生される（Ｓ５０２〜５０５、５０６〜５０９）。

さて、一方、決定ボタン８１０又は閉じるボタン８１１のクリックである場合（Ｓ５０５でＹＥＳ）、アクセント調整部２３は、さらに、決定ボタン８１０のクリックであるか否か判定する（Ｓ５１０）。決定ボタン８１０のクリックである場合（ＹＥＳ）、Ｓ５１１を実行する。決定ボタン８１０のクリックでない場合（ＮＯ）、Ｓ５１２に進む。

決定ボタン８１０のクリックである場合（Ｓ５１０でＹＥＳ）、アクセント調整部２３は、
アクセント位置の変更が確定したものとして、更新データを保存する（Ｓ５１１）。

具体的には、アクセント調整部２３は、作業用データ３４上の更新データ３４１ｂ〜３４５ｂを、基準データ３４１ａ〜３４５ａに格納する。すなわち、アクセント調整処理が終了した後、再度アクセント調整処理が実行される場合、前回のアクセント調整処理において生成された更新データが基準データとなる。もちろん、最初の基準データを消去せずに、例えば、生成された更新データを第２の基準データ、第３の基準データなどとして、保存してもよい。更新データを保存すると、アクセント調整部２３は、Ｓ５１２に進む。

Ｓ５１２では、アクセント調整部２３は、設定受付部２２に、アクセント調整画面（図８（Ｃ））を、消去（非表示に）させる（Ｓ５１２）。

以上のようにして、アクセント調整処理（Ｓ５０１〜Ｓ５１２）は終了する。これにより、テキスト入力画面（図８（Ａ））に戻る（図５のＳ４の前）。設定受付部２２は、上記の形態素解析データ（基準データ）を基に、テキスト入力画面の発音文字列表示欄８０３に、発音文字列「あめが／ふる。」を表示する。また、アクセント図形８０４を、アクセントが付与されている「め」及び「ふ」の上に表示する（図示しない）。カーソル８０５の位置は変更しない。例えば、次に、アクセント句「ふる。」のアクセント調整を行う場合、ユーザは、入力装置４を操作して、カーソル８０５を、発音文字列「ふる。」のいずれかの文字の下に移動させ、アクセント調整ボタン８０１をクリックすればよい。

以上、第１の実施形態について説明した。第１の実施形態によれば、アクセント位置と同期したスライダー、スライドバーの移動により、アクセント句のアクセント位置が変更され、同時に、その変更後のアクセント句の合成音声が自動再生される。これにより、ユーザは、アクセント調整とその確認作業を、直感的、かつ、連続的に（一連に）行うことができる。特に、発音や音声についての専門知識を有さない一般的なユーザであっても、自分の想定する発音を容易にまたは感覚的に見つけ出し、アクセント調整を行うことができる。逆に、専門知識を有するユーザは、指定すべきアクセントを直接指定することができ、操作が妨げられない。このように、本願発明は、ユーザビリティを向上することができる。

以上、本発明について、例示的な実施形態と関連させて記載した。多くの代替物、修正および変形例が当業者にとって明らかであることは明白である。したがって、上に記載の本発明の実施形態は、本発明の要旨と範囲を例示することを意図し、限定するものではない。

音声合成装置のハードウェアシステム構成を示すブロック図。音声合成装置の機能構成を示すブロック図。音声コーパスの構成を示す図。作業データ領域の構成を示す図。テキストデータの入力からアクセント調整までの処理の流れを示すフロー図。音声合成処理の流れを示すフロー図。アクセント調整処理の流れを示すフロー図。テキスト入力画面及びアクセント調整画面の一例を説明するための図。テキストデータ、形態素データ、中間言語データの一例を説明するための図。従来のアクセント調整画面の一例を説明するための図。

符号の説明

１０・・・音声合成装置、１・・・ＣＰＵ、２・・・主記憶装置、３・・・外部記憶装置、４・・・入力装置、５・・・表示装置、６・・・出力装置、７・・・信号線、２０・・・制御部、２２・・・設定受付部、２３・・・アクセント調整部、２４・・・形態素解析部、２５・・・音声合成部、２６・・・音声出力部、３０・・・記憶部、３２・・・辞書データ、３３・・・音声コーパス、３３１・・・データセット、３３０１・・・文字列表記データ、３３０２・・・音声波形データ、３３０３・・・基本周波数データ、３３０４・・・継続時間長データ、３３０５・・・形態素分割データ、３３０６・・・音素分割データ、３４・・・作業データ領域、３４０・・・テキストデータ、３４１・・・形態素解析データ、３４２・・・音素解析データ、３４３・・・韻律パラメータ、３４４・・・中間言語データ、３４５・・・合成波形データ、８０１・・・アクセント調整ボタン、８０２・・・入力テキスト設定欄、８０３・・・発音文字列表示欄、８０４・・・アクセント図形、８０５・・・カーソル、８１０・・・決定ボタン、８１１・・・閉じるボタン、８１２・・・アクセント句発音文字列表示欄、８１５・・・目印、８１６・・・スライドバー、８１７・・・スライダー。

Claims

音声合成装置であって、
入力されたテキストデータを形態素毎に分割してアクセント句及びアクセント位置の情報を含む形態素解析データを生成する形態素解析手段と、
前記形態素解析データに基づいて音声合成を行って合成波形データを生成する音声合成手段と、
前記合成波形データを音声として出力する音声出力手段と、
前記形態素解析データのうちいずれか１つのアクセント句の文字列と、前記文字列の中のアクセント位置を示す指標画像とを表示し、前記指標画像の位置を変更する操作を受け付けてその操作後の前記指標画像を表示する設定受付手段と、
前記操作後のアクセント位置を受け付けて、前記形態素解析データに含まれるアクセント位置を変更し、前記音声合成手段を用いて当該形態素解析データから合成波形データ生成し、前記音声出力手段を用いて前記合成波形データのうち前記アクセント句に対応する部分を音声出力する、アクセント調整手段と、を備えること、
を特徴とする音声合成装置。
請求項１に記載の音声合成装置であって、
前記アクセント調整手段は、
前記合成波形データを音声出力している間に、前記操作を検知すると、当該音声出力を停止すること、
を特徴とする音声合成装置。
請求項２に記載の音声合成装置であって、
前記設定受付手段は、
前記指標画像の移動可能範囲である、少なくとも前記文字列の文字数の長さの範囲表示画像をさらに表示すること、
を特徴とする音声合成装置。
請求項３に記載の音声合成装置であって、
前記設定受付手段は、
前記範囲表示画像を前記文字列の文字数を超える文字数の長さで、該範囲表示画像の終端と前記文字列の終端を対応させて表示し、
前記アクセント調整手段は、
前記操作後、前記指標画像が前記文字列の始端を超えた前記範囲表示画像上に位置する場合、前記文字列のアクセントはないものとして、前記形態素解析データに含まれるアクセントを削除すること、
を特徴とする音声合成装置。
請求項４に記載の音声合成装置であって、
前記設定受付手段は、
範囲表示画像としてスライドバーを表示し、前記指標画像としてスライダーを表示すること、
を特徴とする音声合成装置。
コンピュータを音声合成装置として機能させるためのプログラムであって、
前記コンピュータを、
入力されたテキストデータを形態素毎に分割してアクセント句及びアクセント位置の情報を含む形態素解析データを生成する形態素解析手段と、
前記形態素解析データに基づいて音声合成を行って合成波形データを生成する音声合成手段と、
前記合成波形データを音声として出力する音声出力手段と、
前記形態素解析データのうちいずれか１つのアクセント句の文字列と、前記文字列の中のアクセント位置を示す指標画像とを表示し、前記指標画像の位置を変更する操作を受け付けてその操作後の前記指標画像を表示する設定受付手段と、
前記操作後のアクセント位置を受け付けて、前記形態素解析データに含まれるアクセント位置を変更し、前記音声合成手段を用いて当該形態素解析データから合成波形データ生成し、前記音声出力手段を用いて前記合成波形データのうち前記アクセント句に対応する部分を音声出力する、アクセント調整手段として、
機能させることを特徴とするプログラム。
請求項６に記載のプログラムであって、
前記アクセント調整手段は、
前記合成波形データを音声出力している間に、前記操作を検知すると、当該音声出力を停止すること、
を特徴とするプログラム。
音声合成装置における音声合成方法であって、
前記音声合成装置は、
入力されたテキストデータを形態素毎に分割してアクセント句及びアクセント位置の情報を含む形態素解析データを生成する形態素解析ステップと、
前記形態素解析データに基づいて音声合成を行って合成波形データを生成する音声合成ステップと、
前記合成波形データを音声として出力する音声出力ステップと、
前記形態素解析データのうちいずれか１つのアクセント句の文字列と、前記文字列の中のアクセント位置を示す指標画像とを表示し、前記指標画像の位置を変更する操作を受け付けてその操作後の前記指標画像を表示する設定受付ステップと、
前記操作後のアクセント位置を受け付けて、前記形態素解析データに含まれるアクセント位置を変更し、前記音声合成ステップにより当該形態素解析データから合成波形データ生成し、前記音声出力ステップにより前記合成波形データのうち前記アクセント句に対応する部分を音声出力する、アクセント調整ステップと、を行うこと、
を特徴とする音声合成方法。
請求項８に記載の音声合成方法であって、
前記アクセント調整ステップは、
前記合成波形データを音声出力している間に、前記操作を検知すると、当該音声出力を停止すること、
を特徴とする音声合成方法。