JP5142920B2 - 読み上げ情報生成装置、読み上げ情報生成方法及びプログラム - Google Patents

読み上げ情報生成装置、読み上げ情報生成方法及びプログラム Download PDF

Info

Publication number
JP5142920B2
JP5142920B2 JP2008249949A JP2008249949A JP5142920B2 JP 5142920 B2 JP5142920 B2 JP 5142920B2 JP 2008249949 A JP2008249949 A JP 2008249949A JP 2008249949 A JP2008249949 A JP 2008249949A JP 5142920 B2 JP5142920 B2 JP 5142920B2
Authority
JP
Japan
Prior art keywords
reading
input
mora
voice
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008249949A
Other languages
English (en)
Other versions
JP2010079168A (ja
Inventor
修太 小川
岳彦 籠嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2008249949A priority Critical patent/JP5142920B2/ja
Publication of JP2010079168A publication Critical patent/JP2010079168A/ja
Application granted granted Critical
Publication of JP5142920B2 publication Critical patent/JP5142920B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Description

本発明は、読み上げ情報生成装置、読み上げ情報生成方法及びプログラムに関する。
テキスト音声合成は、入力された任意の文章(テキスト)から人工的に音声信号を作り出す技術である。一般的なテキスト音声合成装置は、その構成に言語処理部を持ち、例えば、日本語の漢字仮名混じり文から音声合成を行う場合であれば、単語単位の切り出し、読み付け(韻律系列の作成)、アクセントの付与などを行う。言語処理の解析結果を基に、テキスト音声合成装置は、声の高さの変化パターン(ピッチパターン)を生成し、最終的に音韻系列とピッチパターンに従って音声を合成する。
しかし、入力されるテキストによっては、言語処理部で、漢字の読み付けや語句のアクセント付けを誤る可能性があり、結果として期待した音声が得られないという問題がある。
そこで、従来、正確な読みとアクセントの合成音声を生成する方法として、表音文字列を入力とする音声合成装置が知られている。表音文字列とは、言語処理部の解析結果にあたる音韻系列やアクセント位置などの情報を記号化して表したものであり、正しい表記文字列を入力することにより期待通りの合成音声を得ることが可能である。
このような表音文字列の仕様として、例えば非特許文献1に記載されている社団法人電子情報技術産業協会(JEITA)の規格がある。このような表音文字列を用いることで、例えば「ただしいようです」というテキストの代わりに、「タダシ’ー_ヨ’ーデス」(正しいようです)あるいは「タ’ダシ_イヨーデ’ス」(但し異様です)という表音文字列を入力することで、意図したままの音声合成結果を得ることができる。表音文字列上で、カタカナ表記は読みを、クォーテーションマーク「’」はアクセント位置を、アンダーバー「_」はアクセント句の区切りを表している。
自分が意図する発話を正しく表現する表音文字列を入力するには、音声や言語の専門的な知識が必要となる。読みは比較的容易に付与できるが、アクセント位置を短時間で誤りなく付与することは一般者には難しい。そこで、従来、一般者が読み上げ情報としてアクセント位置の入力を可能にする方法として、発声した音声からアクセント位置を自動的に判別する手法が知られている(特許文献1)。この手法では、ユーザーが発声した音声データを分析して入力ピッチパターンを抽出し、アクセント型を識別する対象単語の基準ピッチパターン複数と照合して類似度を求め、単語に付与すべきアクセント型を決定している。
特開平04−005697号公報 JEITA IT−4002 日本語テキスト音声合成用記号
従来、アクセントの識別を単語単位で行うため、入力テキストに対する解析処理として単語の範囲情報が別途必要となる。また、音声から抽出されるピッチパターンは、発声速度や各音韻の継続長によって形状が一定しない。そのため、アクセント型が同じでピッチパターンの形状が異なる、あるいは逆に、異なるアクセント型のピッチパターンが類似する場合があり、それが原因で識別精度が低下するという問題があった。
本発明は、上記事情を考慮してなされたもので、音声合成の対象である入力テキストに対する読みと、そのモーラ毎のアクセントの高低の情報を含む読み上げ情報をより容易且つ正確に生成可能な読み上げ情報生成装置、読み上げ情報生成方法及びプログラムを提供することを目的とする。
本発明に係る読み上げ情報生成装置は、入力された音声とその音声入力時刻とを記憶する第1の記憶部と、入力された読みとその読みのモーラ毎の入力時刻である読み入力時刻とを記憶する第2の記憶部と、前記第1の記憶部に記憶された音声から基本周波数を抽出する基本周波数抽出部と、前記読み入力時刻を基準として前記音声入力時刻についてモーラ毎に設定される対象期間内における、前記音声の基本周波数に基づいて、前記読みのモーラ毎のアクセントの高低を判定する高低判定部と、少なくとも、読みと、その読みのモーラ毎のアクセントの高低を示す高低情報とのセットの系列である読み上げ情報を生成する生成部とを備えたことを特徴とする。
本発明によれば、音声合成の対象である入力テキストに対する読みと、そのモーラ毎のアクセントの高低の情報を含む読み上げ情報をより容易且つ正確に生成することが可能になる。
以下、図面を参照しながら本発明の実施形態について説明する。
(第1の実施形態)
図1は、本発明の第1の実施形態に係る読み上げ情報生成装置の構成例を示すブロック図である。
図1に示されるように、本実施形態の読み上げ情報生成装置は、音声入力部1、読み入力部2、音声記憶部3、読み記憶部4、基本周波数抽出部(以下「F0抽出部」という。)5、高低判定部6、読み上げ情報生成部7を備えている。
各部の概要は以下の通りである。
音声入力部1は、音声合成の対象である入力テキストに対する「読み」に対する「音声」を、例えばマイクロホンのような入力デバイスにより入力し、その音声入力時刻を付与する。
読み入力部2は、上記音声合成の対象である入力テキストに対する「読み」を、例えばキーボードのような入力デバイスにより入力し、その読み入力時刻を付与する。
ここで、ユーザーは、例えば、キーボードから「読み」をキー入力しながら、同時に(同期して)、「読み」に対する「音声」を発話してマイクロホンから入力する。
音声記憶部3は、入力された「音声」とその音声入力時刻とを記憶する。
読み記憶部4は、入力された「読み」とその読みのモーラ毎の入力時刻である読み入力時刻とを記憶する。
F0抽出部5は、読み記憶部4に記憶された読み入力時刻と音声記憶部3に記憶された音声入力時刻に基づいて、個々の「読み」ごとに、その読み入力時刻の前後の一定期間を、当該「読み」に対する対象範囲として決定する。そして、個々の「読み」ごとに、音声記憶部3に記憶された音声のうち、当該「読み」に対する対象範囲に該当する期間に入力された音声から、その基本周波数を抽出する。以下、抽出された基本周波数をF0と略記する。
高低判定部6は、個々の「読み」ごとに、当該「読み」についてF0抽出部5により抽出されたF0に基づいて、当該「読み」のアクセントの高低を判定する。
読み上げ情報生成部7は、「読み」とそのアクセントの高低を示す「高低情報」とのセットの系列である読み上げ情報を生成し出力する。
なお、高低の判定は、例えば、上記対象範囲に係るF0を統計処理して得られる値と、予め定められた高低境界値(高低の境界に相当する基本周波数を示す値)とを比較することによって、行うことができる。統計処理して得られる値は、例えば、上記対象範囲におけるF0の平均値、上記対象範囲におけるF0の最大値などであり、例えば、その値が高低境界値以上の場合に「高」、その値が高低境界値未満の場合に「低」と判定する。
また、例えば、上記対象範囲において、F0が高低境界値以上である期間t1と、F0が基準値未満である期間t2とを比較して、t1≧t2の場合に「高」、t1<t2の場合に「低」と判定する。
これらの他にも種々の高低判定方法が可能である。
また、基準値を複数用意しておいて、ユーザーが基準値を適宜選択するようにしても良い。また、特定のユーザーのために基準値を設定する機能を設けても良い。
次に、本実施形態の読み上げ情報生成装置の動作について説明する。
図2は、図1の読み上げ情報生成装置の動作例を示すフローチャートである。
入力テキストに対する音声は、音声入力部1により入力され(ステップS1)、入力時刻と関連付けられて音声記憶部3へ記憶される(ステップS2)。これと同期して、上記入力テキストに対する読みは、読み入力部2により入力され(ステップS1)、1モーラ分の入力内容とその入力が確定する時刻とを関連付けて、読み記憶部4へ記憶される(ステップS2)。
続いて、ステップS3〜ステップS5の処理を、入力テキストの各モーラについて順番に実行する。ステップS3〜ステップS5の処理を入力テキストの全モーラについて繰り返し行うことで、入力テキストに対する読み上げ情報を生成する。
まず、F0抽出部5は、読み記憶部4から、読み1モーラ分の入力時刻を取り出し、入力時刻の前後の一定範囲(例えば、数ミリ秒)を対象範囲(本実施形態では、F0抽出範囲)と決める(ステップS3)。次に、音声記憶部3に記憶された音声からF0抽出範囲内の音声についてF0を抽出する(ステップS4)。次に、抽出されたF0の高低を高低判定部6により判定する(ステップS5)。
ステップS6で、全モーラについてステップS3〜ステップS5の処理が完了したか調べ、未処理のモーラがあれば、次のモーラに対する処理に移る。未処理のモーラがなければ、この処理を終了する。
ステップS7で、「読み」と「高低情報」のセットの系列である読み上げ情報を生成して、出力する。
次に、図3の具体例を参照しながら、本実施形態の読み上げ情報生成装置の動作について説明する。
図3は、読み入力1モーラ分の入力時刻を基点として音声波形から抽出したF0の高低を得る様子を例示した図である。なお、図3において、Hは判定結果が「高」であることを示し、Lは判定結果が「低」であることを示している。
図3において、(a)は入力テキストが「おはよう」であることを例示している。
(b)は「読み」がキー入力されたものであり、この例では「o」「h」「a」「y」「o」「u」の順にキーが打鍵されたことを例示している。
(c)は、読み入力1モーラ分の入力が確定する時刻、すなわち、各モーラに対応する読み入力時刻を例示している。
なお、入力時刻の基点は、適宜設定して構わない。例えば、ユーザーが発話する以前の所定のタイミングでも良いし、最初に「音声」を検出した時点でも良いし、最初の読み入力1モーラ分の入力が確定した時刻でも良い。
(d)は、各モーラの入力時刻に基づいて決定されたF0抽出範囲を例示している。
(e)は、キー入力とともに入力された音声の波形を例示している。
(f)は、各モーラについて、そのF0抽出範囲に該当する音声から抽出したF0を例示している。
(g)は、各モーラについて、抽出されたF0に基づいて行った高低判定結果を例示している。
図3において、F0抽出部5が、1モーラ分の読み入力時刻(c)を基点にF0抽出範囲(d)を決め、音声(e)からF0(f)を抽出し、高低判定部6が、その高低(g)を判定する処理を、全モーラ分高低判定が済むまで繰り返し、入力テキストに対する読み上げ情報を生成する。
この具体例の場合、例えば、{お,L}{は,H}{よ,H}{う,H}という読み上げ情報が生成され出力される。
次に、1モーラ分の読み入力の確定について説明する。
1モーラ分の読み入力が確定するタイミングは、入力方法に依存する。テキストを入力する方法として、キーボードを例に挙げて説明する。
まず、ローマ字入力の場合について説明する。
「あ」行は、1打鍵で確定となる。
「か」「さ」「た」「な」「は」「ま」「や」「ら」「わ」行と撥音については、一般に2打鍵の時点で確定となり、一部は3打鍵の場合もある。
拗音については3打鍵目で確定であり、濁音も一般には2打鍵で確定する。
促音については、例えば「きっと」を入力するため「K」「I」「T」「T」「O」と打鍵する場合であれば、2回目の「T」が打鍵された段階で、促音「っ」の入力が確定する。
促音は、発声可能な音声が存在しないため、1モーラ分の読みに対する音声として高低を判定する際には、当該促音の前後の1モーラ分の音声いずれかの高低と同じにする。
次に、カナ入力の場合について説明する。
清音については、1打鍵(シフトキーを押しながらの1打鍵も含む)で確定する。
濁音については、例えば「が」を入力するため「か」「゛」と打鍵する場合であれば、2打鍵目の「゛」を入力した時点で確定となる。
促音については、ローマ字入力と異なり1打鍵で確定する。
拗音については、「あ」「わ」行を除く行の「い」段の仮名1文字の後に小文字の「ゃ」「ゅ」「ょ」が入力された時点で確定する。また、「く」または「ぐ」の後に「ゎ」が入力された時点で確定する。また、この他、拗音の定義に外れるものであっても、仮名1文字の後に小文字1文字(「っ」「ぁ」「ぃ」「ぅ」「ぇ」「ぉ」を除く)が入力された時点で1モーラの入力を確定する。
「ぁ」「ぃ」「ぅ」「ぇ」「ぉ」が同じ段の仮名1文字の後に続く場合は、一般にこれらの小文字は長音表現として扱うため、前の仮名とは分けて1文字で1モーラ分の入力とする。
次に、読み入力時刻のバリエーションについて説明する。
前述では、読み入力時刻として、読み1モーラ分の入力が確定した時刻としているが、例えば、以下のような時刻でもよいし、下記以外の方法も種々可能である。
・読み1モーラ分の入力開始時刻
・読み1モーラ分の入力が確定した時刻のnミリ秒前、またはnミリ秒後の時刻
・次の読み1モーラ分の入力開始時刻
・手書き文字入力の場合、読み1モーラ分が決定する文字の最後の1筆を書き、ペン先が入力板から離れた時刻
本発明によれば、1モーラ分のテキスト入力に併せて1モーラに対応する音声を発声して入力し、読み1モーラ分の入力と入力確定時刻と、読みに同期して入力された音声とその入力時刻とに基づいて1モーラ毎の音声の高低を得ることにより、モーラ毎の音声の継続長が一定でなくても、読みとそれに対応する音声の高低を同期させることができ、単語単位に囚われることなく、また、1モーラ毎の入力音声の継続長の異なりにも影響されず、ユーザーの意図する音声の高低変化を正確に再現した読み上げ情報(読みと高低のセット)を生成することができる。
(第2の実施形態)
第2の実施形態について、第1の実施形態と相違する点を中心に説明する。
第1の実施形態では、読み1モーラ分に音声を対応付ける方法として、読み1モーラ分の入力が確定した時刻を基点にしてF0抽出範囲を決めている。本実施形態では、読み1モーラ分の入力が確定した時刻を基点にして、F0抽出の範囲の代わりに、高低判定の対象範囲を決めるものである。また、第1の実施形態では、F0抽出部5がF0抽出範囲を決めるものであるのに対して、本実施形態では、高低判定部6が高低判定の対象範囲を決めるものである。
図4に、この場合の読み上げ情報生成装置の構成例を示す。この構成例は、図1とほとんど同じであるが、読み記憶部4がF0抽出部5ではなく、高低判定部6へ接続されている点が相違している。
図4の読み上げ情報生成装置の動作例は、おおむね図2と同じ流れであるが、ただし、本実施形態では、図2のステップS4の基本周波数の抽出を、読み1モーラ分に対する処理に先だって(すなわち、図2のステップS2の直後に)、全音声について実行する点が、第1の実施形態と相違している。
また、図1の読み上げ情報生成装置では、図2のステップS3において、F0抽出部5がF0抽出の対象範囲を決めているが、これに対して、図4の読み上げ情報生成装置では、高低判定部6が高低判定の対象範囲を決める点が相違する。
図5に、音声波形から抽出したF0の高低を、読み入力1モーラ分の入力時刻を基点として得る様子を例示する。
本実施形態では、F0抽出部5は、音声記憶部3に記憶された全音声について図5の(f)で示すようにF0を抽出し、高低判定部6は、読み記憶部4に記憶された読み1モーラ分の入力確定時刻(図5の(c))を取り出し、その時刻を基点として高低を判定する範囲(図5の(d))を決め、その範囲内にあるF0について高低(図5の(g))を判定する。
(第3の実施形態)
第3の実施形態では、第1又は第2の実施形態において、高低判定に高低境界値を用いる場合に、読み上げ情報生成装置に高低境界値を設定する機能を付加したものである。
以下、第3の実施形態について、第1又は第2の実施形態と相違する点を中心に説明する。
図6に、この場合の読み上げ情報生成装置の構成例を示す。図6の破線を除いた部分が、図1の読み上げ情報生成装置(第1の実施形態)に、高低境界値記憶部8と高低境界値更新部9を追加したものに相当する。
この場合、高低判定部6は、判定対象のF0値を平均して、あらかじめ決めておいた高低境界値との大小比較により、対象範囲のF0の高低を判定する。
高低境界値記憶部8は、その高低境界値を記憶する。
高低境界値更新部9は、あらかじめ高低境界値を決め、高低境界値記憶部8の高低境界値を更新する。
以下、高低境界値を設定する方法の一例を説明する。
例えば、高低境界値の設定のための、高低の特徴が出やすいテキストを対象とした読みと音声の入力について、読み上げ情報生成時の動作と同様に、音声記憶部3に記憶された音声入力時刻と、読み入力部4に記憶された読み入力時刻に基づいて、F0抽出部5を用いて、読み1モーラ毎に対応する音声のF0を得る。
高低境界値更新部9は、各F0毎に高低境界値を決め、全モーラの高低境界値を平均したものを新たな高低境界値として、高低境界値記憶部8に記憶する。
なお、図4の読み上げ情報生成装置(第2の実施形態)に高低境界値記憶部8と高低境界値更新部9を追加することも同様に可能であり、この場合、図6において、読み記憶部4からF0抽出部5への接続を削除し、破線のように読み記憶部4から高低判定部6へ接続したものが相当する。
(第4の実施形態)
第4の実施形態について、第1〜第3の実施形態と相違する点を中心に説明する。
本実施形態は、これまで説明してきた各実施形態の読み上げ情報生成装置において、読みの入力と併せて、読み以外の情報(以下、環境情報と呼ぶ。)を入力できるようにしたものである。
読み以外の情報としては、例えば、ポーズ、アクセント区切り、文末、パラ言語情報(感情を示す情報)など、種々の情報が考えられる。
まず、ポーズを例に挙げて説明する。
読みを入力する際、ユーザーが意図的にポーズを入力できるようにする。
本実施形態の読み上げ情報生成装置において、受け取った読み入力の中にポーズを指定する入力があれば、その時点で指定されたポーズ時間分、読み上げ情報の生成を停止する、あるいは、読み上げ情報の一部としてポーズを示す情報を出力するなどして、音声合成の結果に反映する。
読み入力に併せたポーズの入力は、キーボードで読み入力を行っている場合、読み入力に使用しないキーによって行う。
例えば、EnterキーあるいはSpaceキーなどの特定のキーをポーズ入力に割り当てる方法が考えられる。Enterキーにポーズ入力が割り当てられる場合に、「ではよろしく」という読みで、「では」と「よろしく」との間にポーズを設定したければ、キー入力を「d」「e」「w」「a」<Enter>「y」「o」「r」「o」「s」「i」「k」「u」と打鍵する。(”<Enter>”の位置でEnterキーを1回打鍵する。)
結果として、Enterキーが打鍵された位置で一定のポーズが設定される。異なる長さのポーズを入れたい場合は、Enterキーを必要な回数打鍵する。Enterキー1打鍵につき1秒のポーズが入る場合、3秒のポーズを設定したければ3回打鍵する。
図7に、図3の具体例において、「お」「は」「よ」「う」のそれぞれ間に1秒のポーズをそれぞれ設定する場合を例示する(図7中、Spaceキーにポーズ入力が割り当てられる場合に、(s)が、Spaceキーの打鍵を示している)。
この具体例の場合、例えば、{お,L}{1秒のポーズ}{は,H}{1秒のポーズ}{よ,H}{1秒のポーズ}{う,H}という読み上げ情報が生成され出力される。
次に、パラ言語情報を例に挙げて説明する。
読みを入力する際、ユーザーが意図的にパラ言語情報を入力できるようにする。
本実施形態の読み上げ情報生成装置において、受け取った読み入力の中にパラ言語情報を指定する入力があれば、それ以降(かつ、次のパラ言語情報まで)に入力された読みに、そのパラ言語情報が適用されるものとする。音声合成の際には、その読みは、そのパラ言語情報に従って音声合成することができる。
読み入力に併せたパラ言語情報の入力は、キーボードで読み入力を行っている場合、読み入力に使用しないキーによって行う。
例えば、テンキーやファンクションキーに種々の感情を割り当てる方法が考えられる。例えば、F1キーにパラ言語情報=「喜ばしい感情」、F2キーにパラ言語情報=「怒った感情」、F3キーにパラ言語情報=「哀しい感情」、F4キーにパラ言語情報=「楽しい感情」…というように割り当て、喜ばしい感じで「おはよう」という読みを入力したい場合には、F1キーを打鍵してから、「o」「h」「a」「y」「o」「u」と打鍵する。図8に、図3の具体例において、パラ言語情報=「喜ばしい感情」が割り当てられたF1キーを打鍵してから、読みと音声を入力する場合を例示する(図8中、(F1)が、F1キーの打鍵を示している)。
なお、以前に「F1」を打鍵してあってそれがまだ有効であれば、「o」「h」「a」「y」「o」「u」の前の「F1」の打鍵は省いて構わない。
この具体例の場合、例えば、{喜ばしい感情}{お,L}{は,H}{よ,H}{う,H}という読み上げ情報が生成され出力される。
なお、以上の各機能は、ソフトウェアとして記述し適当な機構をもったコンピュータに処理させても実現可能である。
また、本実施形態は、コンピュータに所定の手順を実行させるための、あるいはコンピュータを所定の手段として機能させるための、あるいはコンピュータに所定の機能を実現させるためのプログラムとして実施することもできる。加えて該プログラムを記録したコンピュータ読取り可能な記録媒体として実施することもできる。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
本発明の一実施形態に係る読み上げ情報生成装置の構成例を示すブロック図 本発明の一実施形態に係る読み上げ情報生成装置の動作例を示すフローチャート 読み入力1モーラ分の入力確定時刻に基づいて音声の高低を決める際の各要素の関連について説明するための図 本発明の一実施形態に係る読み上げ情報生成装置の他の構成例を示すブロック図 読み入力1モーラ分の入力確定時刻に基づいて音声の高低を決める際の各要素の関連について説明するための図 本発明の一実施形態に係る読み上げ情報生成装置の更に他の構成例を示すブロック図 読み以外の情報の入力について説明するための図 読み以外の情報の入力について説明するための図
符号の説明
1…音声入力部1、2…読み入力部、3…音声記憶部、4…読み記憶部、5…基本周波数抽出部、6…高低判定部、7…読み上げ情報生成部、8…高低境界値記憶部、9…高低境界値更新部

Claims (9)

  1. 第1の入力デバイスから入力された音声を、その音声が該第1の入力デバイスから入力された時刻である音声入力時刻とともに記憶する第1の記憶部と、
    前記第1の入力デバイスからの前記音声の入力と並行して第2の入力デバイスから入力された読みを、モーラ毎の読みが該第2の入力デバイスから入力された時刻をそれぞれ示すモーラ毎読み入力時刻とともに記憶する第2の記憶部と、
    前記第1の記憶部に記憶された音声から基本周波数を抽出する基本周波数抽出部と、
    前記モーラ毎の読みのそれぞれについて、当該モーラ毎の読みに対する前記モーラ毎読み入力時刻の前後の一定期間を含むように前記音声入力時刻について設定される対象期間内における、前記音声の基本周波数に基づいて、当該モーラ毎の読みに対するアクセントの高低を判定する高低判定部と、
    少なくとも、読みと、その読みのモーラ毎のアクセントの高低を示す高低情報とのセットの系列である読み上げ情報を生成する生成部と、
    を備えることを特徴とする読み上げ情報生成装置。
  2. 前記読み入力時刻は、読み1モーラ分の入力が確定した時刻であることを特徴とする請求項1に記載の読み上げ情報生成装置。
  3. 前記高低判定部は、対象とする音声に対応する読みが促音である場合、その音声の高低を直前又は直後の読みに対応する音声の高低と同じであるものとすることを特徴とする請求項1に記載の読み上げ情報生成装置。
  4. 前記高低判定部は、高低の境界に相当する基本周波数を示す高低境界値に基づいて前記判定を行うものであり、
    前記読み上げ情報生成装置は、前記高低境界値を記憶する第3の記憶部と、
    入力された音声をもとに前記高低境界値を決め、この値によって前記第3の記憶部に記憶されている値を更新する更新部とを更に備えたことを特徴とする請求項1に記載の読み上げ情報生成装置。
  5. 入力された前記読みには、読み以外の環境情報が含まれ、
    前記生成部は、前記読み上げ情報に、前記環境情報を含めて生成するものであり、
    前記環境情報は、ポーズを示す情報、アクセント区切りを示す情報、文末を示す情報又は感情を示す情報のうちの少なくとも一つを含むことを特徴とする請求項1に記載の読み上げ情報生成装置。
  6. 前記読みは、キー入力されたものであることを特徴とする請求項1に記載の読み上げ情報生成装置。
  7. 前記読みと前記音声とは、1モーラ分の読みが入力されるのに併せて発声された該1モーラに対応する音声が入力されることによって、同期して入力されたものであることを特徴とする請求項1に記載の読み上げ情報生成装置。
  8. 第1の記憶部、第2の記憶部、基本周波数抽出部、高低判定部及び生成部を備えた読み上げ情報生成装置の読み上げ情報生成方法であって、
    前記第1の記憶部が、第1の入力デバイスから入力された音声を、その音声が該第1の入力デバイスから入力された時刻である音声入力時刻とともに記憶するステップと、
    前記第2の記憶部が、前記第1の入力デバイスからの前記音声の入力と並行して第2の入力デバイスから入力された読みを、モーラ毎の読みが該第2の入力デバイスから入力された時刻をそれぞれ示すモーラ毎読み入力時刻とともに記憶するステップと、
    前記基本周波数抽出部が、前記第1の記憶部に記憶された音声から基本周波数を抽出するステップと、
    前記高低判定部が、前記モーラ毎の読みのそれぞれについて、当該モーラ毎の読みに対する前記モーラ毎読み入力時刻の前後の一定期間を含むように前記音声入力時刻について設定される対象期間内における、前記音声の基本周波数に基づいて、当該モーラ毎の読みに対するアクセントの高低を判定するステップと、
    前記生成部が、少なくとも、読みと、その読みのモーラ毎のアクセントの高低を示す高低情報とのセットの系列である読み上げ情報を生成するステップと、
    を含むことを特徴とする読み上げ情報生成方法。
  9. 第1の記憶部、第2の記憶部、抽出部、判定部及び生成部を備えた読み上げ情報生成装置としてコンピュータを機能させるためのプログラムであって、
    前記第1の記憶部が、第1の入力デバイスから入力された音声を、その音声が該第1の入力デバイスから入力された時刻である音声入力時刻とともに記憶するステップと、
    前記第2の記憶部が、前記第1の入力デバイスからの前記音声の入力と並行して第2の入力デバイスから入力された読みを、モーラ毎の読みが該第2の入力デバイスから入力された時刻をそれぞれ示すモーラ毎読み入力時刻とともに記憶するステップと、
    前記基本周波数抽出部が、前記第1の記憶部に記憶された音声から基本周波数を抽出するステップと、
    前記高低判定部が、前記モーラ毎の読みのそれぞれについて、当該モーラ毎の読みに対する前記モーラ毎読み入力時刻の前後の一定期間を含むように前記音声入力時刻について設定される対象期間内における、前記音声の基本周波数に基づいて、当該モーラ毎の読みに対するアクセントの高低を判定するステップと、
    前記生成部が、少なくとも、読みと、その読みのモーラ毎のアクセントの高低を示す高低情報とのセットの系列である読み上げ情報を生成するステップと、
    をコンピュータに実行させるためのプログラム。
JP2008249949A 2008-09-29 2008-09-29 読み上げ情報生成装置、読み上げ情報生成方法及びプログラム Expired - Fee Related JP5142920B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008249949A JP5142920B2 (ja) 2008-09-29 2008-09-29 読み上げ情報生成装置、読み上げ情報生成方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008249949A JP5142920B2 (ja) 2008-09-29 2008-09-29 読み上げ情報生成装置、読み上げ情報生成方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2010079168A JP2010079168A (ja) 2010-04-08
JP5142920B2 true JP5142920B2 (ja) 2013-02-13

Family

ID=42209645

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008249949A Expired - Fee Related JP5142920B2 (ja) 2008-09-29 2008-09-29 読み上げ情報生成装置、読み上げ情報生成方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5142920B2 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3070127B2 (ja) * 1991-05-07 2000-07-24 株式会社明電舎 音声合成装置のアクセント成分制御方式
JP3303428B2 (ja) * 1993-05-20 2002-07-22 株式会社明電舎 音声合成装置のアクセント成分基本テーブルの作成方法
JP2008134475A (ja) * 2006-11-28 2008-06-12 Internatl Business Mach Corp <Ibm> 入力された音声のアクセントを認識する技術

Also Published As

Publication number Publication date
JP2010079168A (ja) 2010-04-08

Similar Documents

Publication Publication Date Title
JP7500020B2 (ja) 多言語テキスト音声合成方法
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
US7983912B2 (en) Apparatus, method, and computer program product for correcting a misrecognized utterance using a whole or a partial re-utterance
JP5198046B2 (ja) 音声処理装置及びそのプログラム
Bettayeb et al. Speech synthesis system for the holy quran recitation.
KR20170057623A (ko) 언어장애인을 위한 다언어 어휘의 발음 합성 및 문자화 장치
JPWO2016103652A1 (ja) 音声処理装置、音声処理方法、およびプログラム
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
CN112002304B (zh) 语音合成方法及装置
JP2003271194A (ja) 音声対話装置及びその制御方法
Aida–Zade et al. The main principles of text-to-speech synthesis system
JP4296290B2 (ja) 音声認識装置、音声認識方法及びプログラム
JP5142920B2 (ja) 読み上げ情報生成装置、読み上げ情報生成方法及びプログラム
JPH08335096A (ja) テキスト音声合成装置
JP3366253B2 (ja) 音声合成装置
JP4428093B2 (ja) ピッチパターン生成装置、ピッチパターン生成方法及びピッチパターン生成プログラム
JP2009042509A (ja) アクセント情報抽出装置及びその方法
JP2001337688A (ja) 音声合成装置及び音声合成方法並びに記憶媒体
JP6340839B2 (ja) 音声合成装置、合成音声編集方法及び合成音声編集用コンピュータプログラム
JP2014215396A (ja) 発音付与方法とその装置とプログラム
JP3414326B2 (ja) 音声合成用辞書登録装置及び方法
JP2009258369A (ja) 音声認識辞書生成装置及び音声認識処理装置
KR100611894B1 (ko) 음성 인식기의 단어 모델 생성 방법
JP3308875B2 (ja) 音声合成方法および装置
JP2003108170A (ja) 音声合成学習方法および音声合成学習装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110323

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120419

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120424

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120625

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121023

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121120

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151130

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees