JP2015215626A

JP2015215626A - 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム

Info

Publication number: JP2015215626A
Application number: JP2015134708A
Authority: JP
Inventors: 布目　光生; Mitsuo Nunome; 光生布目; 鈴木　優; Masaru Suzuki; 優鈴木; 眞弘森田; Shinko Morita; 橘　健太郎; Kentaro Tachibana; 健太郎橘; 紘一郎森; Koichiro Mori; 勇詞清水; Yuuji Shimizu; 籠嶋　岳彦; Takehiko Kagoshima; 岳彦籠嶋; 正統田村; Masanori Tamura
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2015-07-03
Filing date: 2015-07-03
Publication date: 2015-12-03

Abstract

【課題】複数の文から抽出した情報を利用して発話スタイルを推定する文書読み上げ支援装置を提供する。【解決手段】文書読み上げ支援装置は、学習用の文書から抽出された複数文の素性情報と発話スタイルの対応付けを学習したモデルを格納するモデル格納部１０５と、読み上げ対象となる文書を取得する文書取得部１０１と、文書取得手段で取得された文書の各文から素性情報を抽出する素性情報抽出部１０２と、素性情報抽出手段で抽出された複数文の素性情報とモデル格納手段に格納されたモデルとを照合して、各文の発話スタイルを推定する発話スタイル推定部１０３とを備える。【選択図】図１

Description

本発明の実施形態は、文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラムに関する。

近年、音声合成システムを用いて電子書籍データを音声波形に変換し、オーディオブックとして聴取する方法が提案されている。この方法によれば、任意の文書を音声波形に変換することができ、ユーザは電子書籍データを朗読音声で楽しむことができる。

音声波形による文書の読み上げを支援するために、テキストを音声波形に変換する際の発話スタイルを自動的に付与する方法が提案されている。例えば、単語と感情の対応付けが定義された感情辞書を参照し、読み上げ対象となる文に含まれる単語に感情の種類（喜び、怒りなど）とレベルを割り当て、その割り当て結果を集計することで当該文に対する発話スタイルを推定する技術がある。

しかしながら、この技術では、単文から抽出した単語情報しか用いておらず隣接する文との関係（文脈）を考慮していなかった。

特開２００７−２６４２８４号公報特開平８−２４８９７１号広報

発明が解決しようとする課題は、複数の文から抽出した情報を利用することにより、文脈を考慮した発話スタイルを推定する文書読み上げ支援装置を提供することである。

実施形態の文書読み上げ支援装置は、学習用の文書から抽出された複数文の素性情報と発話スタイルの対応付けを学習したモデルを格納するモデル格納手段と、読み上げ対象となる文書を取得する文書取得手段と、前記文書取得手段で取得された文書の各文から素性情報を抽出する素性情報抽出手段と、前記素性情報抽出手段で抽出された複数文の素性情報と前記モデル格納手段に格納されたモデルとを照合して、前記各文の発話スタイルを推定する発話スタイル推定手段とを備える。

第１の実施形態の文書読み上げ支援装置を示すブロック図。実施形態の文書読み上げ支援装置のフローチャート。実施形態の素性情報を抽出するフローチャート。実施形態の素性情報を示す図。実施形態の発話スタイルを抽出するフローチャート。実施形態の素性ベクトルを示す図。実施形態の素性ベクトルを連結するフローチャート。実施形態の発話スタイルを示す図。実施形態の発話スタイル推定モデルを示す図。実施形態の音声合成のパラメータを選択するフローチャート。実施形態の重要度判別に使用する階層構造を示す図。音声キャラクタを提示する際のユーザインタフェース。素性情報・発話スタイルと、音声キャラクタの対応付けを示す図。変形例１の音声合成のパラメータを示す図。変形例２のＸＭＬ形式の文書を示す図。変形例２の書式情報を示す図。

以下、本発明の実施形態について図面を参照しながら説明する。

（第１の実施形態）
第１の実施形態の文書読み上げ支援装置は、複数の文から抽出した情報を利用して各文を音声波形に変換する際の発話スタイルを推定する。まず、文書読み上げ支援装置は、各文のテキスト表記から素性（そせい）情報を抽出する。素性情報は、文に対して形態素解析や係り受け解析を適用して抽出した品詞や係り受け等の文法情報を表している。次に、文書読み上げ支援装置は、読み上げ対象となる文およびその前後に隣接する文から抽出した素性情報を利用して、感情、口調、性別、年齢などの発話スタイルを推定する。発話スタイルの推定には、予め学習したモデル（発話スタイル推定モデル）と複数文の素性情報との照合結果を用いる。最後に、文書読み上げ支援装置は、当該発話スタイルに適合する音声合成のパラメータ（例えば、音声キャラクタ、音量、話速、ピッチなど）を選択して音声合成器に出力する。

このように、本実施形態の文書読み上げ支援装置は、前後に隣接する文を含む複数の文から抽出した素性情報を利用して感情などの発話スタイルを推定している。これにより、文脈を考慮した発話スタイルを推定することができる。

（構成）
図１は、第１の実施形態にかかる文書読み上げ支援装置を示すブロック図である。本実施形態の文書読み上げ支援装置は、予め学習した発話スタイル推定モデルを格納するＨＤＤ（Hard Disk Drive）等のモデル格納部１０５と、文書を取得する文書取得部１０１と、前記文書取得部１０１で取得された文書の各文から素性情報を抽出する素性情報抽出部１０２と、読み上げ対象となる文およびその前後に隣接する複数の文から抽出した素性情報とモデル格納部１０５に格納された発話スタイル推定モデルとを照合して、前記各文を音声波形に変換する際の発話スタイルを推定する発話スタイル推定部１０３と、前記発話スタイル推定部１０３で選択された発話スタイルに適合する音声合成のパラメータ選択する合成パラメータ選択部１０４とを備える。

（全体のフローチャート）
図２は、本実施形態にかかる文書読み上げ支援装置のフローチャートである。

まず、ステップＳ２１では、文書取得部１０１は、読み上げ対象となる文書を取得する。ここで、文書は、空行やインデントが保持されたプレーンテキスト形式のほか、HTMLやXMLなど文書の論理要素に関する書式情報がタグで与えられたものも含む。

ステップＳ２２では、素性情報抽出部１０２は、プレーンテキストの各文あるいはHTMLやXMLの各テキストノードから素性情報を抽出する。素性情報は、品詞や文タイプ、係り受け等の文法情報を表しており、各文あるいはテキストノードに対して形態素解析や係り受け解析を適用して抽出する。

ステップＳ２３では、発話スタイル推定部１０３は、素性情報抽出部１０２で抽出した素性情報を利用して、読み上げ対象となる文の発話スタイルを推定する。本実施形態が対象とする発話スタイルは、感情、口調、性別、年齢であり、モデル格納部１０５に格納された発話スタイル推定モデルと複数文から抽出した素性情報の照合結果を用いて推定する。

ステップＳ２４では、合成パラメータ推定部１０４は、前述までのステップで推定した発話スタイルに適合する音声合成のパラメータを選択する。本実施形態で対象とする音声合成のパラメータは、音声キャラクタ、音量、話速、ピッチなどである。

最後に、ステップＳ２５では、音声合成のパラメータと読み上げ対象文を対応付けて音声合成器（図示なし）に出力する。

（ステップＳ２２について）
図３のフローチャートを参照して、文書の各文から素性情報を抽出するステップＳ２２の詳細を説明する。なお、ここでの説明は、ステップＳ２１においてプレーンテキスト形式の文書が入力されたものとして行う。

まず、図３のステップＳ３１では、素性情報抽出部１０２は、文書に含まれる各文を取得する。文の切り出しには、句点（。）やカギカッコ（「」）などの情報を用いることができる。例えば、句点（。）と句点（。）で囲まれた区間、カギカッコ（「）と句点（。）で囲まれた区間を一文として切り出すことができる。

ステップＳ３２の形態素解析では、文に含まれる単語とその品詞を抽出する。
ステップＳ３３の固有表現抽出処理では、形態素解析結果である品詞列や文字列の出現パターンを利用して、一般的な人名（姓・名）や地名、組織名、数量・金額・日付表現などを抽出する。出現パターンは、手作業で作成するほか、学習用の文書をもとに特定の固有表現が出現する条件を学習して作成することができる。抽出結果は、固有表現ラベル（人名や場所など）とそれに対応する文字列のペアから成る。また、このステップでは、カギカッコ（「」）などの情報から文タイプを抽出することもできる。

ステップＳ３４の係り受け解析処理では、形態素解析結果を利用して文節間の係り受け関係を抽出する。

ステップＳ３５の口語フレーズ取得では、口語フレーズおよびそれに対応する属性を取得する。このステップでは、予め口語調のフレーズ表現（文字列）とその属性とを対応付けた口語フレーズ辞書を用いる。口語フレーズ辞書は、「だよね」と「若者、両性」、「だわ」と「若者、女性」、「くれよ」と「若者、男性」、「じゃのう」と「老人、男性」といった対応付けを有している。文に含まれる表現が口語フレーズ辞書にマッチした場合は、それぞれの表現と対応する属性を出力する。

最後に、ステップＳ３６では、全ての文の処理が終了したか否かを判別し、終了していなければステップＳ３２に進む。

図４は、以上の処理を用いて抽出した素性情報の例を示している。例えば、ＩＤ４の文からは、動詞フレーズとして「過ぎるんですよ」を、副詞として「だいたい」および「つい」を、接続詞として「だって」を抽出できる。また、ＩＤ４の表記に含まれるカギカッコ（」）から、文タイプとして「セリフ」を抽出できる。その他、口語フレーズとして「ですよ」を、係り受け情報（主語）として「先輩は」を抽出できる。

（ステップＳ２３について）
図５のフローチャートを参照して、複数文の素性情報から発話スタイルを推定するステップＳ２３の詳細を説明する。

まず、図５のステップＳ５１では、発話スタイル推定部１０３は、各文から抽出した素性情報をＮ次元の素性ベクトルに変換する。図６に、ＩＤ４の素性ベクトルを示す。素性情報から素性ベクトルへの変換は、素性情報の各項目の有無もしくは項目ごとに蓄積されたデータ（蓄積データ）とのマッチングにより行う。例えば、図６においてＩＤ４の文は未知語を有していないため、この項目に対応する素性ベクトルの要素には「０」を割り当てる。また、副詞については、蓄積データとのマッチングによって素性ベクトルの要素を割り当てる。例えば、図６の蓄積データ６０１を有していた場合、各インデックス番号の表現が副詞に含まれているか否かに応じて素性ベクトルの要素を決定する。この例では、「だいたい」と「つい」がＩＤ４の副詞に含まれていることから、このインデックスに対応する素性ベクトルの要素に「１」を、それ以外の要素に「０」を割り当てる。

素性情報の各項目に対する蓄積データは、予め用意した学習用の文書を用いて生成することができる。例えば、副詞の蓄積データを生成する場合、素性情報抽出部１０２と同様な処理によって学習用の文書から副詞を抽出する。そして、抽出した副詞をユニークにソート（同じ表記を１つにまとめてソート）して、それぞれの副詞に固有のインデックス番号を付与することで蓄積データを生成できる。

次に、ステップＳ５２では、前後に隣接する文の素性ベクトル（Ｎ次元）を連結して、３Ｎ次元の素性ベクトルを生成する。図７のフローチャートを参照して、ステップＳ５２の詳細を説明する。まず、文のＩＤ順に素性ベクトルを取り出す（ステップＳ７１）。次に、ステップＳ７２では、取り出した素性ベクトルが最初の文から抽出されたものであるか否かを判別し、最初の文である場合はi-1番目の素性ベクトルとしてＮ次元の値に所定値（例えば{0, 0, 0, …, 0}など）を設定する（ステップＳ７３）。一方、最初の文でない場合は、ステップＳ７４に進む。ステップＳ７４では、素性ベクトルが最後の文から抽出されたものであるか否かを判別し、最後の文である場合は、i+1番目の素性ベクトルとしてＮ次元の値に所定値（例えば{1, 1, 1, …, 1}など）を設定する（ステップＳ７５）。一方、最後の文でない場合は、ステップＳ７６に進む。ステップＳ７６では、i-1番目、i番目、i+1番目の素性ベクトルを連結して３Ｎ次元の素性ベクトルを生成する。最後に、ステップＳ７７では、全ＩＤの素性ベクトルについて連結処理が終了したか否かを判定する。以上の処理により、例えば、ＩＤ４の文が読み上げ対象となる場合は、ＩＤ４だけでなく隣接するＩＤ３およびＩＤ５の素性ベクトルを連結した３Ｎ次元の素性ベクトルを利用して発話スタイルを推定することができる。

このように、本実施形態では、読み上げ対象となる文だけでなくその前後に隣接する複数文から抽出した素性ベクトルを連結している。これにより、文脈を加味した素性ベクトルを生成することができる。

なお、連結する文は隣接する１つの文に限らず、例えば、前後それぞれ２以上の文を連結したり、読み上げ対象となる文と同一パラグラフや同一章に出現する文から抽出した素性ベクトルを連結したりすることができる。

次に、図５のステップＳ５３では、連結した素性ベクトルとモデル格納部１０５に格納された発話スタイル推定モデルを照合して、各文の発話スタイルを推定する。図８に、連結後の素性ベクトルから推定した発話スタイルを示す。この例では、発話スタイルとして、感情、口調、性別、年齢を推定している。例えば、ＩＤ４では、感情として「怒（怒り）」が、口調として「フォーマル」が、性別として「女」が、年齢として「Young」が推定されている。

モデル格納部１０５に格納された発話スタイル推定モデルは、各文に人手で発話スタイル付与した学習用のデータを用いて予め学習しておく。学習時には、まず、連結後の素性ベクトルと人手で付与した発話スタイルのペアで構成される教師データを生成する。図９に教師データの例を示す。そして、この教師データにおける素性ベクトルと発話スタイルの対応付けをNeuralNetworkやSVM、CRFなどで学習する。これにより、素性ベクトルの要素間の重み付けや各発話スタイルの出現確率などを保持した発話スタイル推定モデルを生成することができる。教師データにおける連結後の素性ベクトルの生成には、図７のフローチャートと同様な処理を用いる。本実施形態では、人手で発話スタイルが付与された文および当該文の前後に隣接する文の素性ベクトルを連結する。

なお、本実施形態の読み上げ支援装置では、発話スタイル推定モデルを定期的に更新することにより、書籍などに出現する新語や未知語、創作された語などに対応することができる。

（ステップＳ２４について）
図１０のフローチャートを参照して、推定された発話スタイルに適合した音声合成のパラメータを選択するステップＳ２４の詳細を説明する。

まず、図１０のステップＳ１００１では、前述までの処理で得られた各文の素性情報および発話スタイルを取得する。

次に、ステップＳ１００２では、取得した素性情報および発話スタイルから重要度が高い項目を選択する。この処理では、図１１に示すような素性情報および発話スタイルの各項目（文タイプ、年齢、性別、口調）に関する階層構造を予め定義しておく。そして、各項目に属する全ての要素（例えば、項目「性別」であれば「男」、「女」）が読み上げ対象となる文書の素性情報あるいは発話スタイルとして出現する場合は、当該項目の重要度は高いと判別する。一方、出現しない要素がある場合は、当該項目の重要度は低いと判別する。例えば、図４および図８の例では、図１１に示す項目のうち「文タイプ」、「性別」、「口調」については全ての要素が素性情報または発話スタイルとして出現していることから、当該項目の重要度は高いと判別される。一方、項目「年齢」については、「Adult」が図８の発話スタイルに出現していないことから、重要度が低いと判別される。重要度が高いと判別された項目が複数個ある場合は、より下位の層（数字の低い層）に位置する項目の重要度の方が高いと判別する。また、同じ階層間では、各層の左に位置する項目の重要度の方が高いと判別する。上述した例では、「文タイプ」、「性別」、「口調」のうち、最終的に「文タイプ」の重要度が最も高いと判別される。

ステップＳ１００３では、発話スタイル推定部１０３は、ステップＳ１００２で重要度が高いと判別された項目の要素に適合する音声合成のパラメータを選択してユーザに提示する。本実施形態では、音声合成のパラメータのうち音声キャラクタを選択する例について説明する。

図１２(a)は、異なる声質を持つ複数の音声キャラクタを示している。音声キャラクタは、本実施形態の文書読み上げ装置を実装した端末上の音声合成器で使用可能なものだけでなく、当該端末からweb経由でアクセスできるSaaS型の音声合成器で使用可能なものであってもよい。

図１２(b)は、ユーザに音声キャラクタを提示する際のユーザインタフェースである。この図では、読み上げ対象となる「川崎物語」および「武蔵小杉トライアングル」という２つの電子書籍データに対する音声キャラクタの対応付けを示している。なお、「川崎物語」は図４および図８に示した文で構成されるものとする。

ステップＳ１００２より、「川崎物語」については、前段までの処理の結果、重要度が高い項目として素性情報の「文タイプ」が選択されている。この場合、「文タイプ」の要素である「セリフ」および「地の文」に対して音声キャラクタが割り当てられる。ここでは、「セリフ」に対しては「Taro」が、「地の文」に対しては「Hana」が第一候補として割り当てられている。また、「武蔵小杉トライアングル」については、重要度が高い項目として発話スタイルの「性別」が選択されており、その要素である「男」、「女」にそれぞれに所望の音声キャラクタが割り当てられている。

図１３(a)を参照して、重要度が高いと判別された項目の要素と音声キャラクタの対応付けについて説明する。まず、ステップＳ１３０１では、ユーザが利用可能な音声キャラクタの特徴をベクトル表記した第１のベクトルを生成する。図１３(b)の１３０５は、音声キャラクタ「Hana」、「Taro」、「Jane」の特徴から生成した第１のベクトルを表している。例えば、音声キャラクタ「Hana」であれば、性別が「女」であるため、「女」に対応するベクトルの要素を「１」に、「男」に対応するベクトルの要素を「０」に設定する。これと同様な処理で、第１のベクトルの他の要素についても「０」もしくは「１」を割り当てる。なお、第１のベクトルはオフラインで事前に生成することもできる。

次に、ステップＳ１３０２では、図１０のステップＳ１００２で重要度が高いと判別された項目の各要素をベクトル表記して第２のベクトルを生成する。図４および図８の例では、項目「文タイプ」の重要度が高いと判別されていることから、この項目の要素である「セリフ」および「地の文」について第２のベクトルを生成する。図１３(b)の１３０６は、これらの項目について生成した第２のベクトルを表している。例えば「セリフ」の場合、図４の文タイプに「セリフ」を持つＩＤ１、ＩＤ３、ＩＤ４およびＩＤ６の発話スタイルを用いて第２のベクトルを生成する。これらの文の性別には、男女どちらも含まれるため、性別に対応するベクトルの要素は「*」（不定）とする。年齢については、すべての文が「Young」であるため、「Young」に対応する要素には「１」を、「Adult」に対応するベクトルの要素には「０」を割り当てる。以上の処理を他の項目についても繰り返すことにより、第２のベクトルを生成することができる。

次に、ステップＳ１３０３では、第２のベクトルに最も類似する第１のベクトルを探索し、当該第１のベクトルに対応する音声キャラクタを音声合成のパラメータとして選択する。第２のベクトルと第１のベクトルの類似度には、コサイン類似度を用いる。図１３(b)は、「セリフ」の第２のベクトルについて類似度を計算した結果、「Taro」の第１のベクトルとの類似度が最も高くなったことを示している。なお、ベクトルの各要素は同じ重み付けである必要はなく、各要素に重みを付けて類似度を計算してもよい。また、要素に不定（「*」）を含む次元は、コサイン類似度を計算する際に除外する。

次に、図１０のステップＳ１００４では、図１２(b)に示すようなユーザインタフェースを介して音声キャラクタの編集の必要性を確認する。編集が不要な場合は（ステップＳ１００４のNo）、処理を終了する。編集が必要な場合は（ステップＳ１００４のYes）、プルダウンメニュー１２０１によってユーザが所望の音声キャラクタを選択することができる。

（ステップＳ２５について）
最後に、図２のステップＳ２５では、端末上の音声合成器あるいはweb経由でアクセスできるSaaS型の音声合成器に、音声キャラクタと各読み上げ対象文を対応付けて出力する。図１２(b)の例の場合、ＩＤ１、ＩＤ３、ＩＤ４、ＩＤ６の文には音声キャラクタ「Taro」が、ＩＤ２、ＩＤ５、ＩＤ７の文には音声キャラクタ「Hana」が対応付けられており、音声合成器は、それぞれの文に応じた音声キャラクタを用いてこれらのテキストを音声波形に変換する。

（効果）
このように、本実施形態にかかる文書読み上げ支援装置は、文書に含まれる複数の文から抽出した素性情報を利用して、読み上げ対象となる文の発話スタイルを推定している。これにより、文脈を考慮した発話スタイルを推定することができる。

また、本実施形態にかかる文書読み上げ支援装置は、発話スタイルを推定するためのモデル（発話スタイル推定モデル）を用いて読み上げ対象となる文の発話スタイルを推定している。これにより、発話スタイル推定モデルを更新するだけで、書籍に出現する新語や未知語、創作された語などに対応することができる。

（変形例１）
以上の実施形態では、音声合成のパラメータとして音声合成のキャラクタを選択したが、音量、話速、ピッチなどを音声合成のパラメータとして選択することもできる。図１４に、図８の発話スタイルに対して選択した音声合成のパラメータを示す。この例では、予め準備した所定のヒューリスティックを用いて音声合成のパラメータを付与している。例えば、音声キャラクタについては、発話スタイルの性別が「男」の文には「Taro」を、「女」の文には「Hana」を、その他の文には「Jane」を一律に付与することをルールとして持つことができる。また、音量については、感情が「恥」の文は「小さく」、「怒」の文は「大きく」、それ他の文は「ノーマル」のように選択することができる。この他にも、感情が「恥」の文は、話速を「速く」かつピッチを「高く」のような選択をすることができる。音声合成器は、これら選択された音声合成のパラメータを利用して各文を音声波形に変換する。

（変形例２）
文書取得部１０１が取得した文書がXMLやHTMLである場合は、各文に対応付けられている要素名（タグ名）や属性名、属性値など、文書の論理要素に関する書式情報を素性情報の一つとして抽出することができる。例えば、同じ「はじめに」という文字列でも、「はじめに」「はじめに」などの大見出し、「はじめに」「はじめに」などの見出し・箇条書きリスト、「はじめに」などの引用タグ、などの節構造の本文に相当する場合がある。このように、書式情報を素性情報として抽出することにより、各文の状況に応じた発話スタイルを推定することができる。

図１５は文書取得部１０１が取得したXML文書の例を、図１６は当該XML文書から抽出した書式情報を表している。本変形例では、書式情報を素性情報の１つとして利用して発話スタイルを推定する。これにより、”subsection_title”を書式情報として持つ文と”orderedlist”を書式情報として持つ文の口調を切り替えるなど、各文の状況を考慮した発話スタイルを推定することができる。

なお、プレーンテキストの場合であっても、インデントとして適用されているスペースの数やタブの数の違いを素性情報として抽出することができる。また、行冒頭に出現する特徴的な文字列（例えば、”第１章”、”(1)”、”1:”、”[I]”、など）の番号とや、などを対応付けることにより、素性情報としてXMLやHTMLなどのような書式情報を抽出することができる。

（変形例３）
以上の実施形態では、発話スタイル推定モデルをNeuralNetworkやSVM、CRFなどで学習したが、学習方法はこれに限られない。例えば、素性情報の「文タイプ」が「地の文」である場合の「感情」は「平（感情なし）」、のようなヒューリスティックを学習用の文書から決定してもよい。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０１文書取得部
１０２素性情報抽出部
１０３発話スタイル推定部
１０４合成パラメータ選択部
１０５モデル格納部
６０１副詞の蓄積データ
１２０１プルダウンメニュー
１３０５第１のベクトル
１３０６第２のベクトル

Claims

学習用の文書から抽出された複数文の素性ベクトルと発話スタイルの対応付けを学習したモデルを格納するモデル格納手段と、
読み上げ対象となる文書を取得する文書取得手段と、
前記文書取得手段で取得された文書の各文から品詞、文タイプ及び文法情報を含む素性情報を抽出し、当該素性情報を素性ベクトルへ変換する素性情報抽出手段と、
前記素性情報抽出手段で抽出された、読み上げ対象となる文及び当該文の前後に隣接する文の各素性ベクトルを連結した連結素性ベクトルと、前記モデル格納手段に格納されたモデルとを照合して、前記読み上げ対象となる文の発話スタイルを推定する発話スタイル推定手段と、
を備える文書読み上げ支援装置。
前記発話スタイル推定手段は、前記読み上げ対象となる文の素性ベクトルと、当該文の前後に隣接する文の各素性ベクトルとを連結する前記請求項１記載の文書読み上げ支援装置。
前記素性ベクトルが、前記文書から抽出した書式情報を含む請求項１又は請求項２に記載の文書読み上げ支援装置。
前記発話スタイルが、性別、年齢、口調、感情のうちの少なくとも１つまたはその組み合わせである請求項１から請求項３の何れか１項に記載の文書読み上げ支援装置。
前記発話スタイル推定手段で推定された発話スタイルに適合する音声合成のパラメータを選択する合成パラメータ選択手段を更に備える請求項１から請求項４の何れか１項に記載の文書読み上げ支援装置。
前記合成パラメータ選択手段で選択される合成パラメータが、音声キャラクタ、音量、話速、ピッチのうちの少なくとも１つまたはその組み合わせである請求項５記載の文書読み上げ支援装置。
読み上げ対象となる文書を取得する文書取得工程と、
前記文書取得工程で取得した文書の各文から品詞、文タイプ及び文法情報を含む素性情報を抽出し、当該素性情報を素性ベクトルへ変換する素性情報抽出工程と、
前記素性情報抽出工程で抽出した、読み上げ対象となる文及び当該文の前後に隣接する文の各素性ベクトルを連結した連結素性ベクトルと、学習用の文書から抽出した複数文の素性ベクトルと発話スタイルの対応付けを学習したモデルとを照合して、前記読み上げ対象となる文の発話スタイルを推定する発話スタイル推定工程と、
を備える文書読み上げ支援方法。
文書読み上げ支援装置に、
読み上げ対象となる文書を取得する文書取得工程と、
前記文書取得工程で取得した文書の各文から品詞、文タイプ及び文法情報を含む素性情報を抽出し、当該素性情報を素性ベクトルへ変換する素性情報抽出工程と、
前記素性情報抽出工程で抽出した、読み上げ対象となる文及び当該文の前後に隣接する文の各素性ベクトルを連結した連結素性ベクトルと、学習用の文書から抽出した複数文の素性ベクトルと発話スタイルの対応付けを学習したモデルとを照合して、前記読み上げ対象となる文の発話スタイルを推定する発話スタイル推定工程と、
を実現させるための文書読み上げ支援プログラム。