JP5142920B2

JP5142920B2 - 読み上げ情報生成装置、読み上げ情報生成方法及びプログラム

Info

Publication number: JP5142920B2
Application number: JP2008249949A
Authority: JP
Inventors: 修太小川; 岳彦籠嶋
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2008-09-29
Filing date: 2008-09-29
Publication date: 2013-02-13
Anticipated expiration: 2028-09-29
Also published as: JP2010079168A

Description

本発明は、読み上げ情報生成装置、読み上げ情報生成方法及びプログラムに関する。

テキスト音声合成は、入力された任意の文章（テキスト）から人工的に音声信号を作り出す技術である。一般的なテキスト音声合成装置は、その構成に言語処理部を持ち、例えば、日本語の漢字仮名混じり文から音声合成を行う場合であれば、単語単位の切り出し、読み付け（韻律系列の作成）、アクセントの付与などを行う。言語処理の解析結果を基に、テキスト音声合成装置は、声の高さの変化パターン（ピッチパターン）を生成し、最終的に音韻系列とピッチパターンに従って音声を合成する。

しかし、入力されるテキストによっては、言語処理部で、漢字の読み付けや語句のアクセント付けを誤る可能性があり、結果として期待した音声が得られないという問題がある。

そこで、従来、正確な読みとアクセントの合成音声を生成する方法として、表音文字列を入力とする音声合成装置が知られている。表音文字列とは、言語処理部の解析結果にあたる音韻系列やアクセント位置などの情報を記号化して表したものであり、正しい表記文字列を入力することにより期待通りの合成音声を得ることが可能である。

このような表音文字列の仕様として、例えば非特許文献１に記載されている社団法人電子情報技術産業協会（ＪＥＩＴＡ）の規格がある。このような表音文字列を用いることで、例えば「ただしいようです」というテキストの代わりに、「タダシ’ー＿ヨ’ーデス」（正しいようです）あるいは「タ’ダシ＿イヨーデ’ス」（但し異様です）という表音文字列を入力することで、意図したままの音声合成結果を得ることができる。表音文字列上で、カタカナ表記は読みを、クォーテーションマーク「’」はアクセント位置を、アンダーバー「＿」はアクセント句の区切りを表している。

自分が意図する発話を正しく表現する表音文字列を入力するには、音声や言語の専門的な知識が必要となる。読みは比較的容易に付与できるが、アクセント位置を短時間で誤りなく付与することは一般者には難しい。そこで、従来、一般者が読み上げ情報としてアクセント位置の入力を可能にする方法として、発声した音声からアクセント位置を自動的に判別する手法が知られている（特許文献１）。この手法では、ユーザーが発声した音声データを分析して入力ピッチパターンを抽出し、アクセント型を識別する対象単語の基準ピッチパターン複数と照合して類似度を求め、単語に付与すべきアクセント型を決定している。
特開平０４−００５６９７号公報ＪＥＩＴＡＩＴ−４００２日本語テキスト音声合成用記号

従来、アクセントの識別を単語単位で行うため、入力テキストに対する解析処理として単語の範囲情報が別途必要となる。また、音声から抽出されるピッチパターンは、発声速度や各音韻の継続長によって形状が一定しない。そのため、アクセント型が同じでピッチパターンの形状が異なる、あるいは逆に、異なるアクセント型のピッチパターンが類似する場合があり、それが原因で識別精度が低下するという問題があった。

本発明は、上記事情を考慮してなされたもので、音声合成の対象である入力テキストに対する読みと、そのモーラ毎のアクセントの高低の情報を含む読み上げ情報をより容易且つ正確に生成可能な読み上げ情報生成装置、読み上げ情報生成方法及びプログラムを提供することを目的とする。

本発明に係る読み上げ情報生成装置は、入力された音声とその音声入力時刻とを記憶する第１の記憶部と、入力された読みとその読みのモーラ毎の入力時刻である読み入力時刻とを記憶する第２の記憶部と、前記第１の記憶部に記憶された音声から基本周波数を抽出する基本周波数抽出部と、前記読み入力時刻を基準として前記音声入力時刻についてモーラ毎に設定される対象期間内における、前記音声の基本周波数に基づいて、前記読みのモーラ毎のアクセントの高低を判定する高低判定部と、少なくとも、読みと、その読みのモーラ毎のアクセントの高低を示す高低情報とのセットの系列である読み上げ情報を生成する生成部とを備えたことを特徴とする。

本発明によれば、音声合成の対象である入力テキストに対する読みと、そのモーラ毎のアクセントの高低の情報を含む読み上げ情報をより容易且つ正確に生成することが可能になる。

以下、図面を参照しながら本発明の実施形態について説明する。

（第１の実施形態）
図１は、本発明の第１の実施形態に係る読み上げ情報生成装置の構成例を示すブロック図である。

図１に示されるように、本実施形態の読み上げ情報生成装置は、音声入力部１、読み入力部２、音声記憶部３、読み記憶部４、基本周波数抽出部（以下「Ｆ０抽出部」という。）５、高低判定部６、読み上げ情報生成部７を備えている。

各部の概要は以下の通りである。

音声入力部１は、音声合成の対象である入力テキストに対する「読み」に対する「音声」を、例えばマイクロホンのような入力デバイスにより入力し、その音声入力時刻を付与する。

読み入力部２は、上記音声合成の対象である入力テキストに対する「読み」を、例えばキーボードのような入力デバイスにより入力し、その読み入力時刻を付与する。

ここで、ユーザーは、例えば、キーボードから「読み」をキー入力しながら、同時に（同期して）、「読み」に対する「音声」を発話してマイクロホンから入力する。

音声記憶部３は、入力された「音声」とその音声入力時刻とを記憶する。

読み記憶部４は、入力された「読み」とその読みのモーラ毎の入力時刻である読み入力時刻とを記憶する。

Ｆ０抽出部５は、読み記憶部４に記憶された読み入力時刻と音声記憶部３に記憶された音声入力時刻に基づいて、個々の「読み」ごとに、その読み入力時刻の前後の一定期間を、当該「読み」に対する対象範囲として決定する。そして、個々の「読み」ごとに、音声記憶部３に記憶された音声のうち、当該「読み」に対する対象範囲に該当する期間に入力された音声から、その基本周波数を抽出する。以下、抽出された基本周波数をＦ０と略記する。

高低判定部６は、個々の「読み」ごとに、当該「読み」についてＦ０抽出部５により抽出されたＦ０に基づいて、当該「読み」のアクセントの高低を判定する。

読み上げ情報生成部７は、「読み」とそのアクセントの高低を示す「高低情報」とのセットの系列である読み上げ情報を生成し出力する。

なお、高低の判定は、例えば、上記対象範囲に係るＦ０を統計処理して得られる値と、予め定められた高低境界値（高低の境界に相当する基本周波数を示す値）とを比較することによって、行うことができる。統計処理して得られる値は、例えば、上記対象範囲におけるＦ０の平均値、上記対象範囲におけるＦ０の最大値などであり、例えば、その値が高低境界値以上の場合に「高」、その値が高低境界値未満の場合に「低」と判定する。

また、例えば、上記対象範囲において、Ｆ０が高低境界値以上である期間ｔ１と、Ｆ０が基準値未満である期間ｔ２とを比較して、ｔ１≧ｔ２の場合に「高」、ｔ１＜ｔ２の場合に「低」と判定する。

これらの他にも種々の高低判定方法が可能である。

また、基準値を複数用意しておいて、ユーザーが基準値を適宜選択するようにしても良い。また、特定のユーザーのために基準値を設定する機能を設けても良い。

次に、本実施形態の読み上げ情報生成装置の動作について説明する。

図２は、図１の読み上げ情報生成装置の動作例を示すフローチャートである。

入力テキストに対する音声は、音声入力部１により入力され（ステップＳ１）、入力時刻と関連付けられて音声記憶部３へ記憶される（ステップＳ２）。これと同期して、上記入力テキストに対する読みは、読み入力部２により入力され（ステップＳ１）、１モーラ分の入力内容とその入力が確定する時刻とを関連付けて、読み記憶部４へ記憶される（ステップＳ２）。

続いて、ステップＳ３〜ステップＳ５の処理を、入力テキストの各モーラについて順番に実行する。ステップＳ３〜ステップＳ５の処理を入力テキストの全モーラについて繰り返し行うことで、入力テキストに対する読み上げ情報を生成する。

まず、Ｆ０抽出部５は、読み記憶部４から、読み１モーラ分の入力時刻を取り出し、入力時刻の前後の一定範囲（例えば、数ミリ秒）を対象範囲（本実施形態では、Ｆ０抽出範囲）と決める（ステップＳ３）。次に、音声記憶部３に記憶された音声からＦ０抽出範囲内の音声についてＦ０を抽出する（ステップＳ４）。次に、抽出されたＦ０の高低を高低判定部６により判定する（ステップＳ５）。

ステップＳ６で、全モーラについてステップＳ３〜ステップＳ５の処理が完了したか調べ、未処理のモーラがあれば、次のモーラに対する処理に移る。未処理のモーラがなければ、この処理を終了する。

ステップＳ７で、「読み」と「高低情報」のセットの系列である読み上げ情報を生成して、出力する。

次に、図３の具体例を参照しながら、本実施形態の読み上げ情報生成装置の動作について説明する。

図３は、読み入力１モーラ分の入力時刻を基点として音声波形から抽出したＦ０の高低を得る様子を例示した図である。なお、図３において、Hは判定結果が「高」であることを示し、Ｌは判定結果が「低」であることを示している。

図３において、（ａ）は入力テキストが「おはよう」であることを例示している。

（ｂ）は「読み」がキー入力されたものであり、この例では「ｏ」「ｈ」「ａ」「ｙ」「ｏ」「ｕ」の順にキーが打鍵されたことを例示している。

（ｃ）は、読み入力１モーラ分の入力が確定する時刻、すなわち、各モーラに対応する読み入力時刻を例示している。

なお、入力時刻の基点は、適宜設定して構わない。例えば、ユーザーが発話する以前の所定のタイミングでも良いし、最初に「音声」を検出した時点でも良いし、最初の読み入力１モーラ分の入力が確定した時刻でも良い。

（ｄ）は、各モーラの入力時刻に基づいて決定されたＦ０抽出範囲を例示している。

（ｅ）は、キー入力とともに入力された音声の波形を例示している。

（ｆ）は、各モーラについて、そのＦ０抽出範囲に該当する音声から抽出したＦ０を例示している。

（ｇ）は、各モーラについて、抽出されたＦ０に基づいて行った高低判定結果を例示している。

図３において、Ｆ０抽出部５が、１モーラ分の読み入力時刻（ｃ）を基点にＦ０抽出範囲（ｄ）を決め、音声（ｅ）からＦ０（ｆ）を抽出し、高低判定部６が、その高低（ｇ）を判定する処理を、全モーラ分高低判定が済むまで繰り返し、入力テキストに対する読み上げ情報を生成する。

この具体例の場合、例えば、｛お，Ｌ｝｛は，Ｈ｝｛よ，Ｈ｝｛う，Ｈ｝という読み上げ情報が生成され出力される。

次に、１モーラ分の読み入力の確定について説明する。

１モーラ分の読み入力が確定するタイミングは、入力方法に依存する。テキストを入力する方法として、キーボードを例に挙げて説明する。

まず、ローマ字入力の場合について説明する。

「あ」行は、１打鍵で確定となる。

「か」「さ」「た」「な」「は」「ま」「や」「ら」「わ」行と撥音については、一般に２打鍵の時点で確定となり、一部は３打鍵の場合もある。

拗音については３打鍵目で確定であり、濁音も一般には２打鍵で確定する。

促音については、例えば「きっと」を入力するため「Ｋ」「Ｉ」「Ｔ」「Ｔ」「Ｏ」と打鍵する場合であれば、２回目の「Ｔ」が打鍵された段階で、促音「っ」の入力が確定する。

促音は、発声可能な音声が存在しないため、１モーラ分の読みに対する音声として高低を判定する際には、当該促音の前後の１モーラ分の音声いずれかの高低と同じにする。

次に、カナ入力の場合について説明する。

清音については、１打鍵（シフトキーを押しながらの１打鍵も含む）で確定する。

濁音については、例えば「が」を入力するため「か」「゛」と打鍵する場合であれば、２打鍵目の「゛」を入力した時点で確定となる。

促音については、ローマ字入力と異なり１打鍵で確定する。

拗音については、「あ」「わ」行を除く行の「い」段の仮名１文字の後に小文字の「ゃ」「ゅ」「ょ」が入力された時点で確定する。また、「く」または「ぐ」の後に「ゎ」が入力された時点で確定する。また、この他、拗音の定義に外れるものであっても、仮名１文字の後に小文字１文字（「っ」「ぁ」「ぃ」「ぅ」「ぇ」「ぉ」を除く）が入力された時点で１モーラの入力を確定する。

「ぁ」「ぃ」「ぅ」「ぇ」「ぉ」が同じ段の仮名１文字の後に続く場合は、一般にこれらの小文字は長音表現として扱うため、前の仮名とは分けて１文字で１モーラ分の入力とする。

次に、読み入力時刻のバリエーションについて説明する。

前述では、読み入力時刻として、読み１モーラ分の入力が確定した時刻としているが、例えば、以下のような時刻でもよいし、下記以外の方法も種々可能である。
・読み１モーラ分の入力開始時刻
・読み１モーラ分の入力が確定した時刻のｎミリ秒前、またはｎミリ秒後の時刻
・次の読み１モーラ分の入力開始時刻
・手書き文字入力の場合、読み１モーラ分が決定する文字の最後の１筆を書き、ペン先が入力板から離れた時刻
本発明によれば、１モーラ分のテキスト入力に併せて１モーラに対応する音声を発声して入力し、読み１モーラ分の入力と入力確定時刻と、読みに同期して入力された音声とその入力時刻とに基づいて１モーラ毎の音声の高低を得ることにより、モーラ毎の音声の継続長が一定でなくても、読みとそれに対応する音声の高低を同期させることができ、単語単位に囚われることなく、また、１モーラ毎の入力音声の継続長の異なりにも影響されず、ユーザーの意図する音声の高低変化を正確に再現した読み上げ情報（読みと高低のセット）を生成することができる。

（第２の実施形態）
第２の実施形態について、第１の実施形態と相違する点を中心に説明する。

第１の実施形態では、読み１モーラ分に音声を対応付ける方法として、読み１モーラ分の入力が確定した時刻を基点にしてＦ０抽出範囲を決めている。本実施形態では、読み１モーラ分の入力が確定した時刻を基点にして、Ｆ０抽出の範囲の代わりに、高低判定の対象範囲を決めるものである。また、第１の実施形態では、Ｆ０抽出部５がＦ０抽出範囲を決めるものであるのに対して、本実施形態では、高低判定部６が高低判定の対象範囲を決めるものである。

図４に、この場合の読み上げ情報生成装置の構成例を示す。この構成例は、図１とほとんど同じであるが、読み記憶部４がＦ０抽出部５ではなく、高低判定部６へ接続されている点が相違している。

図４の読み上げ情報生成装置の動作例は、おおむね図２と同じ流れであるが、ただし、本実施形態では、図２のステップＳ４の基本周波数の抽出を、読み１モーラ分に対する処理に先だって（すなわち、図２のステップＳ２の直後に）、全音声について実行する点が、第１の実施形態と相違している。

また、図１の読み上げ情報生成装置では、図２のステップＳ３において、Ｆ０抽出部５がＦ０抽出の対象範囲を決めているが、これに対して、図４の読み上げ情報生成装置では、高低判定部６が高低判定の対象範囲を決める点が相違する。

図５に、音声波形から抽出したＦ０の高低を、読み入力１モーラ分の入力時刻を基点として得る様子を例示する。

本実施形態では、Ｆ０抽出部５は、音声記憶部３に記憶された全音声について図５の（ｆ）で示すようにＦ０を抽出し、高低判定部６は、読み記憶部４に記憶された読み１モーラ分の入力確定時刻（図５の（ｃ））を取り出し、その時刻を基点として高低を判定する範囲（図５の（ｄ））を決め、その範囲内にあるＦ０について高低（図５の（ｇ））を判定する。

（第３の実施形態）
第３の実施形態では、第１又は第２の実施形態において、高低判定に高低境界値を用いる場合に、読み上げ情報生成装置に高低境界値を設定する機能を付加したものである。

以下、第３の実施形態について、第１又は第２の実施形態と相違する点を中心に説明する。

図６に、この場合の読み上げ情報生成装置の構成例を示す。図６の破線を除いた部分が、図１の読み上げ情報生成装置（第１の実施形態）に、高低境界値記憶部８と高低境界値更新部９を追加したものに相当する。

この場合、高低判定部６は、判定対象のＦ０値を平均して、あらかじめ決めておいた高低境界値との大小比較により、対象範囲のＦ０の高低を判定する。

高低境界値記憶部８は、その高低境界値を記憶する。

高低境界値更新部９は、あらかじめ高低境界値を決め、高低境界値記憶部８の高低境界値を更新する。

以下、高低境界値を設定する方法の一例を説明する。

例えば、高低境界値の設定のための、高低の特徴が出やすいテキストを対象とした読みと音声の入力について、読み上げ情報生成時の動作と同様に、音声記憶部３に記憶された音声入力時刻と、読み入力部４に記憶された読み入力時刻に基づいて、Ｆ０抽出部５を用いて、読み１モーラ毎に対応する音声のＦ０を得る。

高低境界値更新部９は、各Ｆ０毎に高低境界値を決め、全モーラの高低境界値を平均したものを新たな高低境界値として、高低境界値記憶部８に記憶する。

なお、図４の読み上げ情報生成装置（第２の実施形態）に高低境界値記憶部８と高低境界値更新部９を追加することも同様に可能であり、この場合、図６において、読み記憶部４からＦ０抽出部５への接続を削除し、破線のように読み記憶部４から高低判定部６へ接続したものが相当する。

（第４の実施形態）
第４の実施形態について、第１〜第３の実施形態と相違する点を中心に説明する。

本実施形態は、これまで説明してきた各実施形態の読み上げ情報生成装置において、読みの入力と併せて、読み以外の情報（以下、環境情報と呼ぶ。）を入力できるようにしたものである。

読み以外の情報としては、例えば、ポーズ、アクセント区切り、文末、パラ言語情報（感情を示す情報）など、種々の情報が考えられる。

まず、ポーズを例に挙げて説明する。

読みを入力する際、ユーザーが意図的にポーズを入力できるようにする。

本実施形態の読み上げ情報生成装置において、受け取った読み入力の中にポーズを指定する入力があれば、その時点で指定されたポーズ時間分、読み上げ情報の生成を停止する、あるいは、読み上げ情報の一部としてポーズを示す情報を出力するなどして、音声合成の結果に反映する。

読み入力に併せたポーズの入力は、キーボードで読み入力を行っている場合、読み入力に使用しないキーによって行う。

例えば、ＥｎｔｅｒキーあるいはＳｐａｃｅキーなどの特定のキーをポーズ入力に割り当てる方法が考えられる。Ｅｎｔｅｒキーにポーズ入力が割り当てられる場合に、「ではよろしく」という読みで、「では」と「よろしく」との間にポーズを設定したければ、キー入力を「ｄ」「ｅ」「ｗ」「ａ」＜Ｅｎｔｅｒ＞「ｙ」「ｏ」「ｒ」「ｏ」「ｓ」「ｉ」「ｋ」「ｕ」と打鍵する。（”＜Ｅｎｔｅｒ＞”の位置でＥｎｔｅｒキーを１回打鍵する。）
結果として、Ｅｎｔｅｒキーが打鍵された位置で一定のポーズが設定される。異なる長さのポーズを入れたい場合は、Ｅｎｔｅｒキーを必要な回数打鍵する。Ｅｎｔｅｒキー１打鍵につき１秒のポーズが入る場合、３秒のポーズを設定したければ３回打鍵する。

図７に、図３の具体例において、「お」「は」「よ」「う」のそれぞれ間に１秒のポーズをそれぞれ設定する場合を例示する（図７中、Ｓｐａｃｅキーにポーズ入力が割り当てられる場合に、（ｓ）が、Ｓｐａｃｅキーの打鍵を示している）。

この具体例の場合、例えば、｛お，Ｌ｝｛１秒のポーズ｝｛は，Ｈ｝｛１秒のポーズ｝｛よ，Ｈ｝｛１秒のポーズ｝｛う，Ｈ｝という読み上げ情報が生成され出力される。

次に、パラ言語情報を例に挙げて説明する。

読みを入力する際、ユーザーが意図的にパラ言語情報を入力できるようにする。

本実施形態の読み上げ情報生成装置において、受け取った読み入力の中にパラ言語情報を指定する入力があれば、それ以降（かつ、次のパラ言語情報まで）に入力された読みに、そのパラ言語情報が適用されるものとする。音声合成の際には、その読みは、そのパラ言語情報に従って音声合成することができる。

読み入力に併せたパラ言語情報の入力は、キーボードで読み入力を行っている場合、読み入力に使用しないキーによって行う。

例えば、テンキーやファンクションキーに種々の感情を割り当てる方法が考えられる。例えば、Ｆ１キーにパラ言語情報＝「喜ばしい感情」、Ｆ２キーにパラ言語情報＝「怒った感情」、Ｆ３キーにパラ言語情報＝「哀しい感情」、Ｆ４キーにパラ言語情報＝「楽しい感情」…というように割り当て、喜ばしい感じで「おはよう」という読みを入力したい場合には、Ｆ１キーを打鍵してから、「ｏ」「ｈ」「ａ」「ｙ」「ｏ」「ｕ」と打鍵する。図８に、図３の具体例において、パラ言語情報＝「喜ばしい感情」が割り当てられたＦ１キーを打鍵してから、読みと音声を入力する場合を例示する（図８中、（Ｆ１）が、Ｆ１キーの打鍵を示している）。

なお、以前に「Ｆ１」を打鍵してあってそれがまだ有効であれば、「ｏ」「ｈ」「ａ」「ｙ」「ｏ」「ｕ」の前の「Ｆ１」の打鍵は省いて構わない。

この具体例の場合、例えば、｛喜ばしい感情｝｛お，Ｌ｝｛は，Ｈ｝｛よ，Ｈ｝｛う，Ｈ｝という読み上げ情報が生成され出力される。

なお、以上の各機能は、ソフトウェアとして記述し適当な機構をもったコンピュータに処理させても実現可能である。
また、本実施形態は、コンピュータに所定の手順を実行させるための、あるいはコンピュータを所定の手段として機能させるための、あるいはコンピュータに所定の機能を実現させるためのプログラムとして実施することもできる。加えて該プログラムを記録したコンピュータ読取り可能な記録媒体として実施することもできる。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

本発明の一実施形態に係る読み上げ情報生成装置の構成例を示すブロック図本発明の一実施形態に係る読み上げ情報生成装置の動作例を示すフローチャート読み入力１モーラ分の入力確定時刻に基づいて音声の高低を決める際の各要素の関連について説明するための図本発明の一実施形態に係る読み上げ情報生成装置の他の構成例を示すブロック図読み入力１モーラ分の入力確定時刻に基づいて音声の高低を決める際の各要素の関連について説明するための図本発明の一実施形態に係る読み上げ情報生成装置の更に他の構成例を示すブロック図読み以外の情報の入力について説明するための図読み以外の情報の入力について説明するための図

符号の説明

１…音声入力部１、２…読み入力部、３…音声記憶部、４…読み記憶部、５…基本周波数抽出部、６…高低判定部、７…読み上げ情報生成部、８…高低境界値記憶部、９…高低境界値更新部

Claims

第１の入力デバイスから入力された音声を、その音声が該第１の入力デバイスから入力された時刻である音声入力時刻とともに記憶する第１の記憶部と、
前記第１の入力デバイスからの前記音声の入力と並行して第２の入力デバイスから入力された読みを、モーラ毎の読みが該第２の入力デバイスから入力された時刻をそれぞれ示すモーラ毎読み入力時刻とともに記憶する第２の記憶部と、
前記第１の記憶部に記憶された音声から基本周波数を抽出する基本周波数抽出部と、
前記モーラ毎の読みのそれぞれについて、当該モーラ毎の読みに対する前記モーラ毎読み入力時刻の前後の一定期間を含むように前記音声入力時刻について設定される対象期間内における、前記音声の基本周波数に基づいて、当該モーラ毎の読みに対するアクセントの高低を判定する高低判定部と、
少なくとも、読みと、その読みのモーラ毎のアクセントの高低を示す高低情報とのセットの系列である読み上げ情報を生成する生成部と、
を備えることを特徴とする読み上げ情報生成装置。
前記読み入力時刻は、読み１モーラ分の入力が確定した時刻であることを特徴とする請求項１に記載の読み上げ情報生成装置。
前記高低判定部は、対象とする音声に対応する読みが促音である場合、その音声の高低を直前又は直後の読みに対応する音声の高低と同じであるものとすることを特徴とする請求項１に記載の読み上げ情報生成装置。
前記高低判定部は、高低の境界に相当する基本周波数を示す高低境界値に基づいて前記判定を行うものであり、
前記読み上げ情報生成装置は、前記高低境界値を記憶する第３の記憶部と、
入力された音声をもとに前記高低境界値を決め、この値によって前記第３の記憶部に記憶されている値を更新する更新部とを更に備えたことを特徴とする請求項１に記載の読み上げ情報生成装置。
入力された前記読みには、読み以外の環境情報が含まれ、
前記生成部は、前記読み上げ情報に、前記環境情報を含めて生成するものであり、
前記環境情報は、ポーズを示す情報、アクセント区切りを示す情報、文末を示す情報又は感情を示す情報のうちの少なくとも一つを含むことを特徴とする請求項１に記載の読み上げ情報生成装置。
前記読みは、キー入力されたものであることを特徴とする請求項１に記載の読み上げ情報生成装置。
前記読みと前記音声とは、１モーラ分の読みが入力されるのに併せて発声された該１モーラに対応する音声が入力されることによって、同期して入力されたものであることを特徴とする請求項１に記載の読み上げ情報生成装置。
第１の記憶部、第２の記憶部、基本周波数抽出部、高低判定部及び生成部を備えた読み上げ情報生成装置の読み上げ情報生成方法であって、
前記第１の記憶部が、第１の入力デバイスから入力された音声を、その音声が該第１の入力デバイスから入力された時刻である音声入力時刻とともに記憶するステップと、
前記第２の記憶部が、前記第１の入力デバイスからの前記音声の入力と並行して第２の入力デバイスから入力された読みを、モーラ毎の読みが該第２の入力デバイスから入力された時刻をそれぞれ示すモーラ毎読み入力時刻とともに記憶するステップと、
前記基本周波数抽出部が、前記第１の記憶部に記憶された音声から基本周波数を抽出するステップと、
前記高低判定部が、前記モーラ毎の読みのそれぞれについて、当該モーラ毎の読みに対する前記モーラ毎読み入力時刻の前後の一定期間を含むように前記音声入力時刻について設定される対象期間内における、前記音声の基本周波数に基づいて、当該モーラ毎の読みに対するアクセントの高低を判定するステップと、
前記生成部が、少なくとも、読みと、その読みのモーラ毎のアクセントの高低を示す高低情報とのセットの系列である読み上げ情報を生成するステップと、
を含むことを特徴とする読み上げ情報生成方法。
第１の記憶部、第２の記憶部、抽出部、判定部及び生成部を備えた読み上げ情報生成装置としてコンピュータを機能させるためのプログラムであって、
前記第１の記憶部が、第１の入力デバイスから入力された音声を、その音声が該第１の入力デバイスから入力された時刻である音声入力時刻とともに記憶するステップと、
前記第２の記憶部が、前記第１の入力デバイスからの前記音声の入力と並行して第２の入力デバイスから入力された読みを、モーラ毎の読みが該第２の入力デバイスから入力された時刻をそれぞれ示すモーラ毎読み入力時刻とともに記憶するステップと、
前記基本周波数抽出部が、前記第１の記憶部に記憶された音声から基本周波数を抽出するステップと、
前記高低判定部が、前記モーラ毎の読みのそれぞれについて、当該モーラ毎の読みに対する前記モーラ毎読み入力時刻の前後の一定期間を含むように前記音声入力時刻について設定される対象期間内における、前記音声の基本周波数に基づいて、当該モーラ毎の読みに対するアクセントの高低を判定するステップと、
前記生成部が、少なくとも、読みと、その読みのモーラ毎のアクセントの高低を示す高低情報とのセットの系列である読み上げ情報を生成するステップと、
をコンピュータに実行させるためのプログラム。