JP6289950B2

JP6289950B2 - 読み上げ装置、読み上げ方法及びプログラム

Info

Publication number: JP6289950B2
Application number: JP2014056667A
Authority: JP
Inventors: 山崎　智弘; 智弘山崎; 勇詞清水; 山中　紀子; 紀子山中; 真人矢島; 祐一宮村
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2014-03-19
Filing date: 2014-03-19
Publication date: 2018-03-07
Anticipated expiration: 2034-03-19
Also published as: US9570067B2; JP2015179198A; US20150269927A1

Description

本発明の実施形態は読み上げ装置、読み上げ方法及びプログラムに関する。

近年、音声合成（ＴＴＳ：ＴｅｘｔＴｏＳｐｅｅｃｈ）を利用した文書の読み上げが注目を浴びるようになっている。例えば書籍の読み上げは従来から存在するが、ＴＴＳを利用すればナレーション収録が不要となるため、容易に朗読音声を楽しむことができる。またブログやツイッタ（登録商標）のようにほぼリアルタイムに更新されるテキストに対しても、ＴＴＳを利用した読み上げサービスが行なわれつつある。ＴＴＳを利用した読み上げサービスを利用すれば、ほかの作業を行ないながらテキストの読み上げを聞くことができる。

特開２００６−２３５９１６号公報特開２００６−０１７８１９号公報

しかしながらユーザがブログやツイッタのようなテキストを書く場合、一部のユーザは通常の表現では用いられない表現（以下、「特殊表現」という。）を用いることがある。テキストの発信者は意図をもって、特殊表現により何らかの雰囲気を表現している。しかしながら通常のテキストとは全く異なった表現となってしまっているため、従来の読み上げ装置は、特殊表現を含むテキストを正しく解析できなかった。そのため従来の読み上げ装置が、特殊表現を含むテキストを音声合成すると、発信者が表現したかった雰囲気が再現できないだけでなく、全くわけのわからない読み上げとなっていた。

実施形態の読み上げ装置は、受付部と、正規化部と、選択部と、生成部と、変形部と、出力部と、を備える。受付部は、特殊表現を含む入力テキストの入力を受け付ける。正規化部は、前記特殊表現と、前記特殊表現を通常の表現で表した通常表現と、前記特殊表現の表現方法と、が関連付けられた正規化ルールに基づいて、前記入力テキストを正規化した一以上の正規化テキストを生成する。選択部は、それぞれの前記正規化テキストを言語解析し、前記言語解析の結果に基づいて一の正規化テキストを選択する。生成部は、前記選択部により選択された前記正規化テキストの読みを表す音声パラメタの系列を生成する。変形部は、前記入力テキストの特殊表現に対応する正規化テキストの音声パラメタを、前記特殊表現の正規化ルールに応じた複数の音声パラメタの変形方法に基づいて変形する。出力部は、変形された前記音声パラメタを含む前記音声パラメタの系列を使用して合成した音声を出力する。

実施形態の読み上げ装置の構成の例を示す図。特殊表現を含むテキストの例を示す図。実施形態の正規化ルールの例を示す図。実施形態の正規化ルールの変形例（条件式を用いる場合）を示す図。テキストの同一箇所に複数の正規化ルールがマッチする例を示す図。実施形態の正規化テキストリストの例を示す図。テキストに含まれる複数の特殊表現の例を示す図。実施形態の音声パラメタの系列の例を示す図。実施形態の言語解析辞書にない正規化テキストの例を示す図。実施形態の特殊表現の音声パラメタの系列の例を示す図。未知語としての小文字の例を示す図。実施形態の音声パラメタの変形方法の例を示す図。実施形態の正規化テキストの決定方法の例を示すフローチャート。実施形態の音声パラメタを変形して読み上げる方法の例を示すフローチャート。実施形態の読み上げ装置のハードウェア構成の例を示す図。

以下に添付図面を参照して、読み上げ装置、読み上げ方法及びプログラムの実施形態を詳細に説明する。図１は実施形態の読み上げ装置１０の構成の例を示す図である。読み上げ装置１０はテキストを受け付けて当該テキストの言語解析を行い、当該言語解析の結果に基づく音声合成を利用して読み上げを行なう装置である。実施形態の読み上げ装置１０は、解析部２０及び合成部３０を備える。

解析部２０は読み上げ装置１０が受け付けたテキストを言語解析する。解析部２０は、受付部２１、正規化部２２、正規化ルール２３、選択部２４、及び言語解析辞書２５を備える。

合成部３０は解析部２０の言語解析の結果に基づいて音声波形を生成する。合成部３０は、生成部３１、音声波形生成用データ３２、変形部３３、変形ルール３４、及び出力部３５を備える。

なお正規化ルール２３、言語解析辞書２５、音声波形生成用データ３２、及び変形ルール３４は、図１では図示されていない記憶部に記憶されている。

まず解析部２０の構成について説明する。受付部２１は特殊表現を含むテキストの入力を受け付ける。ここで特殊表現を含むテキストの具体例について説明する。

図２は特殊表現を含むテキストの例を示す図である。テキスト１は通常は小文字としない文字を小文字にする特殊表現を含む場合の例である。テキスト１は、例えば、おどけた女性らしさを表現している。テキスト２及び３は複数の文字の形を組み合わせる特殊表現により別の文字を表す場合の例である。テキスト２及び３には、例えば文字を目立たせる効果がある。テキスト４及び５は通常は濁点を付けない文字に濁点を付ける特殊表現と、ビブラートを表現する特殊表現１０１と、を含む場合の例である。テキスト４及び５は、例えば苦しそうな感じを表現している。テキスト６は、通常はビブラートを付与しない位置にビブラートを付与する特殊表現を含む場合の例である。テキスト６は、例えば大きな声で人を呼びかけるような感じを表現している。

なお受付部２１は、日本語以外の言語で表されたテキストを受け付けてもよい。この場合の特殊表現は、例えば「ｏｏｏ」（「ｏ」が３つ以上連続する場合）等である。

図１に戻り、受付部２１はテキストを正規化部２２に入力する。正規化部２２は受付部２１からテキストを受け付ける。正規化部２２は正規化ルールに基づいて、一以上の正規化テキストを含む正規化テキストリストを生成する。正規化テキストはテキストを正規化したデータである。すなわち正規化テキストは正規化ルールに基づいてテキストを変換したデータである。ここで正規化ルールについて説明する。

図３は実施形態の正規化ルールの例を示す図である。実施形態の正規化ルールは、特殊表現と、通常表現と、表現方法（非言語的意味）と、第１コストと、が関連付けられた情報である。特殊表現は通常の表現では用いられない表現である。通常表現は特殊表現を通常の表現で表した場合の表現である。表現方法は特殊表現を音声で読み上げるときの表現方法を表し、非言語的な意味を有する。

第１コストは正規化ルールを適用する場合に加算される値である。複数の正規化ルールをテキストに適用できる場合、非常に多数の正規化テキストが生成される。そのため正規化部２２はテキストに複数の正規化ルールが適用できる場合に、当該第１コストの合計を算出する。すなわち正規化部２２は予め設定された合計第１コストの第１閾値までの正規化ルールをテキストに適用することで、生成する正規化テキストの数を抑える。

図３の例では、例えば特殊表現１０１を正規化して得られる通常表現は通常表現２０１である。特殊表現１０１の表現方法は「音声を震わせながら伸ばす」である。テキストに特殊表現１０１が含まれる場合に、特殊表現１０１を正規化する場合の第１コストは１である。また例えば特殊表現１０２を正規化して得られる通常表現は通常表現２０２である。特殊表現１０２の表現方法は「音声を猫っぽくする」である。テキストに特殊表現１０２が含まれる場合に、特殊表現１０２を正規化する場合の第１コストは３である。

なお正規化ルールの特殊表現は、文字単位ではなく正規表現や条件式等により定義してもよい。また通常表現は正規化後のデータではなく、正規化する処理を表す正規表現や条件式により定義してもよい。

図４は実施形態の正規化ルールの変形例（条件式を用いる場合）を示す図である。特殊表現１０３は、通常表現では濁点が付くことがない任意の文字に濁点を付けた表現を表す。条件式２０３は特殊表現１０３を通常表現に正規化する処理を表し、「元の表現から濁点を取り除く」処理を表している。

また図３の例の場合は、特殊表現「「ｏ」が３つ以上連続」及び特殊表現「「ｅ」が３つ以上連続」が条件式により特殊表現を表した例である。特殊表現「「ｏ」が３つ以上連続」を正規化して得られる通常表現は「ｏｏ」又は「ｏ」である。特殊表現「「ｏ」が３つ以上連続」の表現方法は「音声を叫び声にする」である。テキストに特殊表現「「ｏ」が３つ以上連続」が含まれる場合に、特殊表現「「ｏ」が３つ以上連続」を正規化する場合の第１コストは２である。特殊表現「「ｅ」が３つ以上連続」を正規化して得られる通常表現は「ｅｅ」又は「ｅ」である。特殊表現「「ｅ」が３つ以上連続」の表現方法は「音声を叫び声にする」である。テキストに特殊表現「「ｅ」が３つ以上連続」が含まれる場合に、特殊表現「「ｅ」が３つ以上連続」を正規化する場合の第１コストは２である。このような正規化ルールにより、読み上げ装置１０は、例えば「ｇｏｏｏｏｔｏｏｏｏｓｌｅｅｅｅｐ！」の通常表現は「ｇｏｔｏｓｌｅｅｐ！」であり、「ｇｏｏｏｏｔｏｏｏｏｓｌｅｅｅｅｐ！」の表現方法は「音声を叫び声にする」であることを認識することができる。

また、一般的にはテキストの同一箇所に複数の正規化ルールがマッチする可能性がある。そのような場合、当該箇所にいずれか１つの正規化ルールを適用して正規化を行なってもよいし、互いに相反するものでなければ複数の正規化ルールを同時に適用して正規化を行なってもよい。

図５はテキストの同一箇所に複数の正規化ルールがマッチする例を示す図である。正規化部２２が特殊表現１０４の濁点を取り除く正規化ルールを適用する場合、特殊表現１０４から通常表現２０４が生成される。また正規化部２２が特殊表現１０２から通常表現２０２を生成する正規化ルールを適用する場合（図３参照）、特殊表現１０４から通常表現３０４が生成される。また正規化部２２が両方の正規化ルールを同時に適用する場合、特殊表現１０４から通常表現４０４が生成される。

図１に戻り、正規化部２２は一以上の正規化テキストを含む正規化テキストリストと、入力テキストに含まれる特殊表現の表現方法と、を選択部２４に入力する。選択部２４は、それぞれの正規化テキストを、言語解析辞書２５を使用して言語解析し、当該言語解析の結果（後述する形態素列）に基づいて一の正規化テキストを選択する。言語解析辞書２５は、単語と、単語の品詞等の情報と、が関連付けられて定義されている辞書である。なお正規化部２２から受信した表現方法は、選択部２４では参照せずに、選択した正規化テキストと共に生成部３１に入力する。なお表現方法は生成部３１から変形部３３に入力され変形部３３で使用される。ここで正規化テキストリストの例を参照して、選択部２４が正規化テキストリストから一の正規化テキストを選択する方法について具体的に説明する。

図６は実施形態の正規化テキストリストの例を示す図である。図６の例は、読み上げ装置１０に入力されたテキスト５（図２参照）の正規化テキストリストの例を示している。また図７はテキスト５に含まれる複数の特殊表現の例を示す図である。テキスト５に含まれる特殊表現は、特殊表現１０５で１箇所、及び特殊表現１０８で２箇所である。なお特殊表現１０６は通常表現でも濁点が付くが、特殊表現１０７と結合しているため発音を濁らせる「特殊表現」とみなされている。したがって合計３箇所に正規化ルールを適用できるので、正規化ルールを適用する場合の組み合わせの合計は７つである。そのため７つの正規化テキストを含む正規化テキストリストが、正規化部２２により生成されている。

正規化テキストリストには、実際には特殊表現ではないにもかかわらず、条件式等に当てはまり、正規化ルールが適用されてしまった結果、生成された正規化テキストも含む。そのため選択部２４は正規化テキストリストから、最も尤もらしい正規化テキストを選択するために第２コストを算出する。具体的には、選択部２４は正規化テキストの言語解析を行い、正規化テキストを形態素列に分解する。そして選択部２４は形態素列に応じて第２コストを算出する。

図６の正規化テキストリストの例では、例えば正規化テキスト２０５は、形態素列３０５に分解される。正規化テキスト２０５の形態素列には、未知語、及び記号を含む。そのため選択部２４は正規化テキスト２０５の第２コストを大きい値（例えば２１）として算出する。一方、正規化テキスト２０６は、形態素列３０６に分解される。正規化テキスト２０６の形態素列には、未知語及び記号等が含まれていないため、選択部２４は正規化テキスト２０６の第２コストを小さい値（例えば１）として算出する。以上のような第２コストの算出方法により、言語的に不適切である可能性が高い正規化テキストの第２コストは大きくなる。したがって選択部２４が、第２コストが最も小さい正規化テキストを選択することにより、正規化テキストリストから最も尤もらしい正規化テキストを選択しやすくなる。すなわち選択部２４はコスト最小法により正規化テキストリストから、一の正規化テキストを選択する。

なお一般に、言語解析処理において最適な形態素列を求める場合の手法としては、コスト最小法の他にも、最長一致法、及び文節数最少法等のさまざまな方法が知られている。しかしながら選択部２４は、正規化部２２で生成された正規化テキストのうち最も尤もらしい正規化テキストを選択する必要があるので、実施形態の選択部２４では形態素列のコスト（実施形態の第２コストに相当）も同時に得られるコスト最小法が利用されている。

なお選択部２４が正規化テキストの選択に利用する方法はコスト最小法に限られない。例えば予め設定された第２閾値よりも第２コストが小さい正規化テキストの中から、正規化ルールによるテキストの書き換えが最も少ないものを選択する方法でもよい。また正規化テキスト生成時に算出される上述の第１コスト（の合計）と、正規化テキストの形態素列から算出される第２コストと、の積が最も小さいものを選択する方法等でもよい。

図１に戻り、選択部２４は選択した正規化テキストの読み、及び当該正規化テキストのアクセント型を、当該正規化テキストの形態素列から決定する。そして選択部２４は選択した正規化テキスト、当該正規化テキストの読み、当該正規化テキストのアクセント型、及び当該正規化テキストのうち入力テキストの特殊表現に対応する箇所の表現方法を生成部３１に入力する。

生成部３１は、音声波形生成用データ３２を使用して選択部２４により選択された正規化テキストの読みを表す音声パラメタの系列を生成する。音声波形生成用データ３２は、例えば音声素片や、音響パラメタ等である。音声パラメタの系列の生成に音声素片を使用する場合、例えば音声素片辞書に登録されている音声素片ＩＤを使用する。また音声パラメタの系列の生成に音響パラメタを使用する場合、例えばＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）に基づく音響パラメタを使用する。

実施形態の生成部３１では、音声パラメタとして音声素片辞書に登録されている音声素片ＩＤを利用した場合について説明する。なおＨＭＭに基づく音響パラメタの場合はＩＤのように１つの数値ではないが、数値の組み合わせをＩＤと見なせば基本的には音声素片ＩＤの場合と同じように扱うことができる。

生成部３１は、例えば正規化テキスト２０６の場合、読みは／ｉｊａｄａ：／、アクセント型は２型であるので、正規化テキスト２０６の音声パラメタの系列は図８のようになる。図８の音声パラメタの系列の例は、音声素片ｉ、ｊ、ａ、ｄ、ａ、：に対応する音声波形を、曲線で示す強度で並べることを示している。

なお上述の選択部２４は言語解析辞書２５に登録されていない正規化テキストを、最も尤もらしい正規化テキストとして選択する場合がある。

図９は実施形態の言語解析辞書２５にない正規化テキスト２０７の例を示す図である。選択部２４が正規化テキスト２０７を最も尤もらしい正規化テキストとして選択した場合、正規化テキスト２０７は言語解析辞書２５にない単語（未知語）なので読みやアクセントに関する情報は存在しない。また表現２０８は通常は発声することができない。このような場合は、生成部３１は例えば図１０に示すように通常表現２０９の音声素片と、通常表現２１０の音声素片と、を通常の時間間隔の半分で並べることで中間に聞こえるように、音声パラメタを生成する。また生成部３１は、より直接的に通常表現２０９の波形と通常表現２１０の波形とを合成した波形となるように音声パラメタを生成してもよい。

表現２０８のように正規化テキストが未知語としての小文字を含む場合がある。図１１は未知語としての小文字の例を示す図である。小文字１０９、小文字１１０、及び小文字１１１は結合する文字によっては、表現２０８のように未知語になりうる。また小文字１１２は通常では小文字とならないため常に未知語である。正規化テキストに未知語としての小文字が含まれる場合、小文字の直前の音素を口蓋化、又は円唇化させた音声パラメタを生成してもよい。なお、このような未知語としての小文字が特殊表現として正規化ルールに定義されている場合は、後述の変形部３３が表現方法に応じて音声パラメタを変形する。

生成部３１は正規化テキストの音声を表す音声パラメタの系列と、当該正規化テキストのうち入力テキストの特殊表現に対応する箇所の表現方法と、を変形部３３に入力する。

変形部３３は入力テキストの特殊表現に対応する正規化テキストの音声パラメタを、特殊表現の正規化ルールに応じた音声パラメタの変形方法に基づいて変形する。具体的には、入力テキストの特殊表現に対応する箇所の音声を表す音声パラメタを、正規化ルールの表現方法に基づいて変形する。なお表現方法に基づく音声パラメタの変形方法は複数あってもよい。

図１２は実施形態の音声パラメタの変形方法の例を示す図である。図１２の例では、表現方法に応じた音声パラメタの変形方法が、それぞれの表現方法に対して一以上定められている。例えば「音声を濁らせる」という表現方法を実現するためには、声門を緊張させて発声した音声素片に置換する場合、女声で読み上げる設定にしてあっても男声（ダミ声等）の音声素片に置換する場合、有声無声の区別がある音素の音声パラメタの差分を逆に適用する場合があることを示している。

図１２に例示した音声パラメタの変形方法により、後述の出力部３５が出力する音声の基本周波数、各音の長さ、ピッチ、及び音量等が変更される。

なお読み上げ装置１０が、特殊表現の表現方法を常に読み上げに反映すると、音声が聞きづらいこともあるので、ユーザが予め「反映不要」と設定していた表現方法については音声パラメタに反映しないようにしてもよい。

また入力テキストに含まれる特殊表現に対応する正規化テキストの箇所の音声パラメタのみを変形すると不自然な音声となる可能性があるため、変形部３３は正規化テキストの音声を表す音声パラメタの系列全体を変形するようにしてもよい。この場合は音声パラメタの同一区間に対して複数の変形を行なう必要が出てくる可能性がある。そのため複数の変形方法を適用する必要がある場合は、変形部３３は互いに相反しない変形方法を選択することが望ましい。

例えば音声パラメタに特殊表現の表現方法を反映させる音声パラメタの変形方法として、「設定年齢を引き上げる」場合と、「設定年齢を引き下げる」場合とは互いに相反する。一方、音声パラメタに特殊表現の表現方法を反映させる音声パラメタの変形方法として、「設定年齢を引き上げる」場合と、「音量を大きくかつ継続時間を長くする」場合とは互いに相反しない。

なお変形部３３が、相反しない変形方法を選べない場合は、予めユーザに設定させておいた優先順位に基づいて変形方法を決定してもよいし、ランダムに変形方法を選択するようにしてもよい。

図１に戻り、変形部３３は変形ルール３４を参照して変形した音声パラメタの系列を出力部３５に入力する。出力部３５は、変形部３３により変形された音声パラメタの系列に基づいて音声を出力する。

実施形態の読み上げ装置１０は、以上の構成を備えることにより、通常では用いられない特殊表現を含む入力テキストに対しても、雰囲気を汲んだ柔軟な音声合成が可能となり、様々な入力テキストを読み上げることができる。

次に実施形態の読み上げ装置１０の読み上げ方法についてフローチャートを参照して説明する。まず解析部２０が、特殊表現を含む入力テキストに対応する一の正規化テキストを決定する方法について説明する。

図１３は実施形態の正規化テキストの決定方法の例を示すフローチャートである。受付部２１は特殊表現を含むテキストの入力を受け付ける（ステップＳ１）。受付部２１はテキストを正規化部２２に入力する。次に、正規化部２２はテキストに含まれる特殊表現の箇所を特定する（ステップＳ２）。具体的には、正規化部２２は正規化ルールで定義されている特殊表現と一致するテキストの箇所があるか否かを判定することにより、テキストに含まれる特殊表現の箇所を特定する。

次に、正規化部２２は正規化ルールを適用する箇所の組み合わせを算出する（ステップＳ３）。次に、正規化部２２はそれぞれの組み合わせについて、正規化ルールを適用した場合の第１コストの合計を算出する（ステップＳ４）。次に、正規化部２２は第１コストの合計が第１閾値よりも大きい組み合わせを削除する（ステップＳ５）。これにより正規化テキストの生成数を抑えることができ、選択部２４が一の正規化テキストを決定する処理の負荷を低減することができる。

次に、正規化ルールを適用するテキストの箇所の組み合わせから、一の組み合わせを選択し、当該組み合わせでテキストの該当箇所に正規化ルールを適用する（ステップＳ６）。次に、正規化部２２は正規化ルールを適用する場合の組み合わせを全て処理したか否かを判定する（ステップＳ７）。全て処理していない場合（ステップＳ７、Ｎｏ）、処理はステップＳ６に戻る。全て処理した場合（ステップＳ７、Ｙｅｓ）、選択部２４は、正規化部２２により生成された一以上の正規化テキストを含む正規化テキストリストから、一の正規化テキストを選択する（ステップＳ８）。具体的には、選択部２４は言語解析処理により上述の第２コストを算出し、第２コストが最も小さい正規化テキストを選択する。

次に、合成部３０が、正規化テキストの読みから決定される音声パラメタを、特殊表現の表現方法に応じて変形して読み上げる方法について説明する。

図１４は実施形態の音声パラメタを変形して読み上げる方法の例を示すフローチャートである。生成部３１は、音声波形生成用データ３２を使用して選択部２４により選択された正規化テキストの読みを表す音声パラメタの系列を生成する（ステップＳ１１）。次に、変形部３３は、受付部２１に入力されたテキストに含まれる特殊表現に対応する正規化テキストの音声パラメタを特定する（ステップＳ１２）。次に、変形部３３は特殊表現の表現方法に応じた音声パラメタの変形方法を取得する（ステップＳ１３）。

次に、変形部３３はステップＳ１２により特定した音声パラメタについて、ステップＳ１３で取得した変形方法により音声パラメタを変形する（ステップＳ１４）。次に、変形部３３は、受付部２１に入力されたテキストに含まれる特殊表現に対応する正規化テキストの箇所の全ての音声パラメタを変形したか否かを判定する（ステップＳ１５）。全ての音声パラメタを変形していない場合（ステップＳ１５、Ｎｏ）、処理はステップＳ１２に戻る。全ての音声パラメタを変形した場合（ステップＳ１５、Ｙｅｓ）、出力部３５は、変形部３３により変形された音声パラメタの系列に基づいて音声を出力する（ステップＳ１６）。

最後に、実施形態の読み上げ装置１０のハードウェア構成の例について説明する。図１５は実施形態の読み上げ装置１０のハードウェア構成の例を示す図である。実施形態の読み上げ装置１０は、制御装置４１、主記憶装置４２、補助記憶装置４３、表示装置４４、入力装置４５、通信装置４６及び出力装置４７を備える。制御装置４１、主記憶装置４２、補助記憶装置４３、表示装置４４、入力装置４５、通信装置４６及び出力装置４７は、バス４８を介して互いに接続されている。読み上げ装置１０は上述のハードウェア構成を有する任意の装置でよい。例えば読み上げ装置１０はＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、タブレット端末、スマートフォン等である。

制御装置４１は補助記憶装置４３から主記憶装置４２に読み出されたプログラムを実行する。主記憶装置４２はＲＯＭやＲＡＭ等のメモリである。補助記憶装置４３はＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）やメモリカード等である。表示装置４４は読み上げ装置１０の状態等を表示する。入力装置４５はユーザからの操作入力を受け付ける。通信装置４６は読み上げ装置１０が他の装置と通信するためのインタフェースである。出力装置４７は音声を出力するスピーカ等の装置である。出力装置４７は上述の出力部３５に対応する。

実施形態の読み上げ装置１０で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、メモリカード、ＣＤ−Ｒ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等のコンピュータで読み取り可能な記憶媒体に記憶されてコンピュータ・プログラム・プロダクトとして提供される。

また、実施形態の読み上げ装置１０で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、実施形態の読み上げ装置１０が実行するプログラムを、ダウンロードさせずにインターネット等のネットワーク経由で提供するように構成してもよい。

また、実施形態の読み上げ装置１０のプログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

実施形態の読み上げ装置１０で実行されるプログラムは、上述した各機能ブロック（受付部２１、正規化部２２、選択部２４、生成部３１、及び変形部３３）を含むモジュール構成となっている。当該各機能ブロックは、実際のハードウェアとしては、制御装置４１が記憶媒体からプログラムを読み出して実行することにより、上記各機能ブロックが主記憶装置４２上にロードされる。すなわち、上記各機能ブロックは、主記憶装置４２上に生成される。

なお、上述した各部（受付部２１、正規化部２２、選択部２４、生成部３１、及び変形部３３）の一部又は全部を、ソフトウェアにより実現せずに、ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）等のハードウェアにより実現してもよい。

以上説明したとおり、実施形態の読み上げ装置１０は、特殊表現と、当該特殊表現の通常表現と、当該特殊表現の表現方法とを関連付けた正規化ルールを備える。そして特殊表現に関連付けられた正規化ルールの表現方法に基づいて、特殊表現に対応する正規化テキストの箇所の読みを表す音声パラメタを変形する。これにより実施形態の読み上げ装置１０は通常の表現では用いられない特殊表現によってユーザが何らかの意図を表したテキストについても、ユーザの意図を汲んで適切な読み上げを行うことができる。

なお実施形態の読み上げ装置１０はブログやツイッタ等に限らず、マンガやライトノベル等の読み上げにも適用が可能である。特に実施形態の読み上げ装置１０に、文字認識技術を組み合わせれば、マンガ等の絵の中に手書きされている擬音等の読み上げにも適用が可能である。また正規化ルール２３、解析部２０、及び合成部３０を英語や中国語等について用意すれば、それらの言語についても実施形態の読み上げ装置１０を用いることが可能である。

本発明の実施形態を説明したが、実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。この実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０読み上げ装置
２０解析部
２１受付部
２２正規化部
２３正規化ルール
２４選択部
２５言語解析辞書
３０合成部
３１生成部
３２音声波形生成用データ
３３変形部
３４変形ルール
３５出力部
４１制御装置
４２主記憶装置
４３補助記憶装置
４４表示装置
４５入力装置
４６通信装置
４７出力装置
４８バス

Claims

特殊表現を含む入力テキストの入力を受け付ける受付部と、
前記特殊表現と、前記特殊表現を通常の表現で表した通常表現と、前記特殊表現の表現方法と、が関連付けられた正規化ルールに基づいて、前記入力テキストを正規化した一以上の正規化テキストを生成する正規化部と、
それぞれの前記正規化テキストを言語解析し、前記言語解析の結果に基づいて一の正規化テキストを選択する選択部と、
前記選択部により選択された前記正規化テキストの読みを表す音声パラメタの系列を生成する生成部と、
前記入力テキストの特殊表現に対応する正規化テキストの音声パラメタを、前記特殊表現の正規化ルールに応じた複数の音声パラメタの変形方法に基づいて変形する変形部と、
変形された前記音声パラメタを含む前記音声パラメタの系列を使用して合成した音声を出力する出力部と、
を備える読み上げ装置。
前記生成部は、音声素片辞書から音声素片を選択することにより前記音声パラメタの系列を生成し、
前記変形部は、前記生成部により選択された前記音声素片を、前記特殊表現の正規化ルールに応じた複数の音声パラメタの変形方法に基づいて変形する
請求項１に記載の読み上げ装置。
前記生成部は、ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）に基づく音響パラメタにより前記音声パラメタの系列を生成し、
前記変形部は、前記生成部により選択された前記音響パラメタを、前記特殊表現の正規化ルールに応じた複数の音声パラメタの変形方法に基づいて変形する
請求項１に記載の読み上げ装置。
前記変形部は、前記音声パラメタを変形することにより前記出力部により出力される音声の基本周波数を変更する
請求項１乃至３のいずれか１項に記載の読み上げ装置。
前記変形部は、前記音声パラメタを変形することにより前記出力部により出力される音声に含まれる各音の長さを変更する
請求項１乃至４のいずれか１項に記載の読み上げ装置。
前記変形部は、前記音声パラメタを変形することにより前記出力部により出力される音声のピッチを変更する
請求項１乃至５のいずれか１項に記載の読み上げ装置。
前記変形部は、前記音声パラメタを変形することにより前記出力部により出力される音声の音量を変更する
請求項１乃至６のいずれか１項に記載の読み上げ装置。
受付部が、特殊表現を含む入力テキストの入力を受け付けるステップと、
正規化部が、前記特殊表現と、前記特殊表現を通常の表現で表した通常表現と、前記特殊表現の表現方法と、が関連付けられた正規化ルールに基づいて、前記入力テキストを正規化した一以上の正規化テキストを生成するステップと、
選択部が、それぞれの前記正規化テキストを言語解析し、前記言語解析の結果に基づいて一の正規化テキストを選択するステップと、
生成部が、前記選択部により選択された前記正規化テキストの読みを表す音声パラメタの系列を生成するステップと、
変形部が、前記入力テキストの特殊表現に対応する正規化テキストの音声パラメタを、前記特殊表現の正規化ルールに応じた複数の音声パラメタの変形方法に基づいて変形するステップと、
出力部が、変形された前記音声パラメタを含む前記音声パラメタの系列を使用して合成した音声を出力するステップと、
を含む読み上げ方法。
コンピュータを、
特殊表現を含む入力テキストの入力を受け付ける受付部と、
前記特殊表現と、前記特殊表現を通常の表現で表した通常表現と、前記特殊表現の表現方法と、が関連付けられた正規化ルールに基づいて、前記入力テキストを正規化した一以上の正規化テキストを生成する正規化部と、
それぞれの前記正規化テキストを言語解析し、前記言語解析の結果に基づいて一の正規化テキストを選択する選択部と、
前記選択部により選択された前記正規化テキストの読みを表す音声パラメタの系列を生成する生成部と、
前記入力テキストの特殊表現に対応する正規化テキストの音声パラメタを、前記特殊表現の正規化ルールに応じた複数の音声パラメタの変形方法に基づいて変形する変形部と、
変形された前記音声パラメタを含む前記音声パラメタの系列を使用して合成した音声を出力する出力部、
として機能させるためのプログラム。