JP2015215626A - 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム - Google Patents

文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム Download PDF

Info

Publication number
JP2015215626A
JP2015215626A JP2015134708A JP2015134708A JP2015215626A JP 2015215626 A JP2015215626 A JP 2015215626A JP 2015134708 A JP2015134708 A JP 2015134708A JP 2015134708 A JP2015134708 A JP 2015134708A JP 2015215626 A JP2015215626 A JP 2015215626A
Authority
JP
Japan
Prior art keywords
sentence
document
speech
feature
document reading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015134708A
Other languages
English (en)
Inventor
布目 光生
Mitsuo Nunome
光生 布目
鈴木 優
Masaru Suzuki
優 鈴木
眞弘 森田
Shinko Morita
眞弘 森田
橘 健太郎
Kentaro Tachibana
健太郎 橘
紘一郎 森
Koichiro Mori
紘一郎 森
勇詞 清水
Yuuji Shimizu
勇詞 清水
籠嶋 岳彦
Takehiko Kagoshima
岳彦 籠嶋
正統 田村
Masanori Tamura
正統 田村
山崎 智弘
Toshihiro Yamazaki
智弘 山崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2015134708A priority Critical patent/JP2015215626A/ja
Publication of JP2015215626A publication Critical patent/JP2015215626A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】複数の文から抽出した情報を利用して発話スタイルを推定する文書読み上げ支援装置を提供する。【解決手段】文書読み上げ支援装置は、学習用の文書から抽出された複数文の素性情報と発話スタイルの対応付けを学習したモデルを格納するモデル格納部105と、読み上げ対象となる文書を取得する文書取得部101と、文書取得手段で取得された文書の各文から素性情報を抽出する素性情報抽出部102と、素性情報抽出手段で抽出された複数文の素性情報とモデル格納手段に格納されたモデルとを照合して、各文の発話スタイルを推定する発話スタイル推定部103とを備える。【選択図】図1

Description

本発明の実施形態は、文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラムに関する。
近年、音声合成システムを用いて電子書籍データを音声波形に変換し、オーディオブックとして聴取する方法が提案されている。この方法によれば、任意の文書を音声波形に変換することができ、ユーザは電子書籍データを朗読音声で楽しむことができる。
音声波形による文書の読み上げを支援するために、テキストを音声波形に変換する際の発話スタイルを自動的に付与する方法が提案されている。例えば、単語と感情の対応付けが定義された感情辞書を参照し、読み上げ対象となる文に含まれる単語に感情の種類(喜び、怒りなど)とレベルを割り当て、その割り当て結果を集計することで当該文に対する発話スタイルを推定する技術がある。
しかしながら、この技術では、単文から抽出した単語情報しか用いておらず隣接する文との関係(文脈)を考慮していなかった。
特開2007−264284号公報 特開平8−248971号広報
発明が解決しようとする課題は、複数の文から抽出した情報を利用することにより、文脈を考慮した発話スタイルを推定する文書読み上げ支援装置を提供することである。
実施形態の文書読み上げ支援装置は、学習用の文書から抽出された複数文の素性情報と発話スタイルの対応付けを学習したモデルを格納するモデル格納手段と、読み上げ対象となる文書を取得する文書取得手段と、前記文書取得手段で取得された文書の各文から素性情報を抽出する素性情報抽出手段と、前記素性情報抽出手段で抽出された複数文の素性情報と前記モデル格納手段に格納されたモデルとを照合して、前記各文の発話スタイルを推定する発話スタイル推定手段とを備える。
第1の実施形態の文書読み上げ支援装置を示すブロック図。 実施形態の文書読み上げ支援装置のフローチャート。 実施形態の素性情報を抽出するフローチャート。 実施形態の素性情報を示す図。 実施形態の発話スタイルを抽出するフローチャート。 実施形態の素性ベクトルを示す図。 実施形態の素性ベクトルを連結するフローチャート。 実施形態の発話スタイルを示す図。 実施形態の発話スタイル推定モデルを示す図。 実施形態の音声合成のパラメータを選択するフローチャート。 実施形態の重要度判別に使用する階層構造を示す図。 音声キャラクタを提示する際のユーザインタフェース。 素性情報・発話スタイルと、音声キャラクタの対応付けを示す図。 変形例1の音声合成のパラメータを示す図。 変形例2のXML形式の文書を示す図。 変形例2の書式情報を示す図。
以下、本発明の実施形態について図面を参照しながら説明する。
(第1の実施形態)
第1の実施形態の文書読み上げ支援装置は、複数の文から抽出した情報を利用して各文を音声波形に変換する際の発話スタイルを推定する。まず、文書読み上げ支援装置は、各文のテキスト表記から素性(そせい)情報を抽出する。素性情報は、文に対して形態素解析や係り受け解析を適用して抽出した品詞や係り受け等の文法情報を表している。次に、文書読み上げ支援装置は、読み上げ対象となる文およびその前後に隣接する文から抽出した素性情報を利用して、感情、口調、性別、年齢などの発話スタイルを推定する。発話スタイルの推定には、予め学習したモデル(発話スタイル推定モデル)と複数文の素性情報との照合結果を用いる。最後に、文書読み上げ支援装置は、当該発話スタイルに適合する音声合成のパラメータ(例えば、音声キャラクタ、音量、話速、ピッチなど)を選択して音声合成器に出力する。
このように、本実施形態の文書読み上げ支援装置は、前後に隣接する文を含む複数の文から抽出した素性情報を利用して感情などの発話スタイルを推定している。これにより、文脈を考慮した発話スタイルを推定することができる。
(構成)
図1は、第1の実施形態にかかる文書読み上げ支援装置を示すブロック図である。本実施形態の文書読み上げ支援装置は、予め学習した発話スタイル推定モデルを格納するHDD(Hard Disk Drive)等のモデル格納部105と、文書を取得する文書取得部101と、前記文書取得部101で取得された文書の各文から素性情報を抽出する素性情報抽出部102と、読み上げ対象となる文およびその前後に隣接する複数の文から抽出した素性情報とモデル格納部105に格納された発話スタイル推定モデルとを照合して、前記各文を音声波形に変換する際の発話スタイルを推定する発話スタイル推定部103と、前記発話スタイル推定部103で選択された発話スタイルに適合する音声合成のパラメータ選択する合成パラメータ選択部104とを備える。
(全体のフローチャート)
図2は、本実施形態にかかる文書読み上げ支援装置のフローチャートである。
まず、ステップS21では、文書取得部101は、読み上げ対象となる文書を取得する。ここで、文書は、空行やインデントが保持されたプレーンテキスト形式のほか、HTMLやXMLなど文書の論理要素に関する書式情報がタグで与えられたものも含む。
ステップS22では、素性情報抽出部102は、プレーンテキストの各文あるいはHTMLやXMLの各テキストノードから素性情報を抽出する。素性情報は、品詞や文タイプ、係り受け等の文法情報を表しており、各文あるいはテキストノードに対して形態素解析や係り受け解析を適用して抽出する。
ステップS23では、発話スタイル推定部103は、素性情報抽出部102で抽出した素性情報を利用して、読み上げ対象となる文の発話スタイルを推定する。本実施形態が対象とする発話スタイルは、感情、口調、性別、年齢であり、モデル格納部105に格納された発話スタイル推定モデルと複数文から抽出した素性情報の照合結果を用いて推定する。
ステップS24では、合成パラメータ推定部104は、前述までのステップで推定した発話スタイルに適合する音声合成のパラメータを選択する。本実施形態で対象とする音声合成のパラメータは、音声キャラクタ、音量、話速、ピッチなどである。
最後に、ステップS25では、音声合成のパラメータと読み上げ対象文を対応付けて音声合成器(図示なし)に出力する。
(ステップS22について)
図3のフローチャートを参照して、文書の各文から素性情報を抽出するステップS22の詳細を説明する。なお、ここでの説明は、ステップS21においてプレーンテキスト形式の文書が入力されたものとして行う。
まず、図3のステップS31では、素性情報抽出部102は、文書に含まれる各文を取得する。文の切り出しには、句点(。)やカギカッコ(「」)などの情報を用いることができる。例えば、句点(。)と句点(。)で囲まれた区間、カギカッコ(「)と句点(。)で囲まれた区間を一文として切り出すことができる。
ステップS32の形態素解析では、文に含まれる単語とその品詞を抽出する。
ステップS33の固有表現抽出処理では、形態素解析結果である品詞列や文字列の出現パターンを利用して、一般的な人名(姓・名)や地名、組織名、数量・金額・日付表現などを抽出する。出現パターンは、手作業で作成するほか、学習用の文書をもとに特定の固有表現が出現する条件を学習して作成することができる。抽出結果は、固有表現ラベル(人名や場所など)とそれに対応する文字列のペアから成る。また、このステップでは、カギカッコ(「」)などの情報から文タイプを抽出することもできる。
ステップS34の係り受け解析処理では、形態素解析結果を利用して文節間の係り受け関係を抽出する。
ステップS35の口語フレーズ取得では、口語フレーズおよびそれに対応する属性を取得する。このステップでは、予め口語調のフレーズ表現(文字列)とその属性とを対応付けた口語フレーズ辞書を用いる。口語フレーズ辞書は、「だよね」と「若者、両性」、「だわ」と「若者、女性」、「くれよ」と「若者、男性」、「じゃのう」と「老人、男性」といった対応付けを有している。文に含まれる表現が口語フレーズ辞書にマッチした場合は、それぞれの表現と対応する属性を出力する。
最後に、ステップS36では、全ての文の処理が終了したか否かを判別し、終了していなければステップS32に進む。
図4は、以上の処理を用いて抽出した素性情報の例を示している。例えば、ID4の文からは、動詞フレーズとして「過ぎるんですよ」を、副詞として「だいたい」および「つい」を、接続詞として「だって」を抽出できる。また、ID4の表記に含まれるカギカッコ(」)から、文タイプとして「セリフ」を抽出できる。その他、口語フレーズとして「ですよ」を、係り受け情報(主語)として「先輩は」を抽出できる。
(ステップS23について)
図5のフローチャートを参照して、複数文の素性情報から発話スタイルを推定するステップS23の詳細を説明する。
まず、図5のステップS51では、発話スタイル推定部103は、各文から抽出した素性情報をN次元の素性ベクトルに変換する。図6に、ID4の素性ベクトルを示す。素性情報から素性ベクトルへの変換は、素性情報の各項目の有無もしくは項目ごとに蓄積されたデータ(蓄積データ)とのマッチングにより行う。例えば、図6においてID4の文は未知語を有していないため、この項目に対応する素性ベクトルの要素には「0」を割り当てる。また、副詞については、蓄積データとのマッチングによって素性ベクトルの要素を割り当てる。例えば、図6の蓄積データ601を有していた場合、各インデックス番号の表現が副詞に含まれているか否かに応じて素性ベクトルの要素を決定する。この例では、「だいたい」と「つい」がID4の副詞に含まれていることから、このインデックスに対応する素性ベクトルの要素に「1」を、それ以外の要素に「0」を割り当てる。
素性情報の各項目に対する蓄積データは、予め用意した学習用の文書を用いて生成することができる。例えば、副詞の蓄積データを生成する場合、素性情報抽出部102と同様な処理によって学習用の文書から副詞を抽出する。そして、抽出した副詞をユニークにソート(同じ表記を1つにまとめてソート)して、それぞれの副詞に固有のインデックス番号を付与することで蓄積データを生成できる。
次に、ステップS52では、前後に隣接する文の素性ベクトル(N次元)を連結して、3N次元の素性ベクトルを生成する。図7のフローチャートを参照して、ステップS52の詳細を説明する。まず、文のID順に素性ベクトルを取り出す(ステップS71)。次に、ステップS72では、取り出した素性ベクトルが最初の文から抽出されたものであるか否かを判別し、最初の文である場合はi-1番目の素性ベクトルとしてN次元の値に所定値(例えば{0, 0, 0, …, 0}など)を設定する(ステップS73)。一方、最初の文でない場合は、ステップS74に進む。ステップS74では、素性ベクトルが最後の文から抽出されたものであるか否かを判別し、最後の文である場合は、i+1番目の素性ベクトルとしてN次元の値に所定値(例えば{1, 1, 1, …, 1}など)を設定する(ステップS75)。一方、最後の文でない場合は、ステップS76に進む。ステップS76では、i-1番目、i番目、i+1番目の素性ベクトルを連結して3N次元の素性ベクトルを生成する。最後に、ステップS77では、全IDの素性ベクトルについて連結処理が終了したか否かを判定する。以上の処理により、例えば、ID4の文が読み上げ対象となる場合は、ID4だけでなく隣接するID3およびID5の素性ベクトルを連結した3N次元の素性ベクトルを利用して発話スタイルを推定することができる。
このように、本実施形態では、読み上げ対象となる文だけでなくその前後に隣接する複数文から抽出した素性ベクトルを連結している。これにより、文脈を加味した素性ベクトルを生成することができる。
なお、連結する文は隣接する1つの文に限らず、例えば、前後それぞれ2以上の文を連結したり、読み上げ対象となる文と同一パラグラフや同一章に出現する文から抽出した素性ベクトルを連結したりすることができる。
次に、図5のステップS53では、連結した素性ベクトルとモデル格納部105に格納された発話スタイル推定モデルを照合して、各文の発話スタイルを推定する。図8に、連結後の素性ベクトルから推定した発話スタイルを示す。この例では、発話スタイルとして、感情、口調、性別、年齢を推定している。例えば、ID4では、感情として「怒(怒り)」が、口調として「フォーマル」が、性別として「女」が、年齢として「Young」が推定されている。
モデル格納部105に格納された発話スタイル推定モデルは、各文に人手で発話スタイル付与した学習用のデータを用いて予め学習しておく。学習時には、まず、連結後の素性ベクトルと人手で付与した発話スタイルのペアで構成される教師データを生成する。図9に教師データの例を示す。そして、この教師データにおける素性ベクトルと発話スタイルの対応付けをNeuralNetworkやSVM、CRFなどで学習する。これにより、素性ベクトルの要素間の重み付けや各発話スタイルの出現確率などを保持した発話スタイル推定モデルを生成することができる。教師データにおける連結後の素性ベクトルの生成には、図7のフローチャートと同様な処理を用いる。本実施形態では、人手で発話スタイルが付与された文および当該文の前後に隣接する文の素性ベクトルを連結する。
なお、本実施形態の読み上げ支援装置では、発話スタイル推定モデルを定期的に更新することにより、書籍などに出現する新語や未知語、創作された語などに対応することができる。
(ステップS24について)
図10のフローチャートを参照して、推定された発話スタイルに適合した音声合成のパラメータを選択するステップS24の詳細を説明する。
まず、図10のステップS1001では、前述までの処理で得られた各文の素性情報および発話スタイルを取得する。
次に、ステップS1002では、取得した素性情報および発話スタイルから重要度が高い項目を選択する。この処理では、図11に示すような素性情報および発話スタイルの各項目(文タイプ、年齢、性別、口調)に関する階層構造を予め定義しておく。そして、各項目に属する全ての要素(例えば、項目「性別」であれば「男」、「女」)が読み上げ対象となる文書の素性情報あるいは発話スタイルとして出現する場合は、当該項目の重要度は高いと判別する。一方、出現しない要素がある場合は、当該項目の重要度は低いと判別する。例えば、図4および図8の例では、図11に示す項目のうち「文タイプ」、「性別」、「口調」については全ての要素が素性情報または発話スタイルとして出現していることから、当該項目の重要度は高いと判別される。一方、項目「年齢」については、「Adult」が図8の発話スタイルに出現していないことから、重要度が低いと判別される。重要度が高いと判別された項目が複数個ある場合は、より下位の層(数字の低い層)に位置する項目の重要度の方が高いと判別する。また、同じ階層間では、各層の左に位置する項目の重要度の方が高いと判別する。上述した例では、「文タイプ」、「性別」、「口調」のうち、最終的に「文タイプ」の重要度が最も高いと判別される。
ステップS1003では、発話スタイル推定部103は、ステップS1002で重要度が高いと判別された項目の要素に適合する音声合成のパラメータを選択してユーザに提示する。本実施形態では、音声合成のパラメータのうち音声キャラクタを選択する例について説明する。
図12(a)は、異なる声質を持つ複数の音声キャラクタを示している。音声キャラクタは、本実施形態の文書読み上げ装置を実装した端末上の音声合成器で使用可能なものだけでなく、当該端末からweb経由でアクセスできるSaaS型の音声合成器で使用可能なものであってもよい。
図12(b)は、ユーザに音声キャラクタを提示する際のユーザインタフェースである。この図では、読み上げ対象となる「川崎物語」および「武蔵小杉トライアングル」という2つの電子書籍データに対する音声キャラクタの対応付けを示している。なお、「川崎物語」は図4および図8に示した文で構成されるものとする。
ステップS1002より、「川崎物語」については、前段までの処理の結果、重要度が高い項目として素性情報の「文タイプ」が選択されている。この場合、「文タイプ」の要素である「セリフ」および「地の文」に対して音声キャラクタが割り当てられる。ここでは、「セリフ」に対しては「Taro」が、「地の文」に対しては「Hana」が第一候補として割り当てられている。また、「武蔵小杉トライアングル」については、重要度が高い項目として発話スタイルの「性別」が選択されており、その要素である「男」、「女」にそれぞれに所望の音声キャラクタが割り当てられている。
図13(a)を参照して、重要度が高いと判別された項目の要素と音声キャラクタの対応付けについて説明する。まず、ステップS1301では、ユーザが利用可能な音声キャラクタの特徴をベクトル表記した第1のベクトルを生成する。図13(b)の1305は、音声キャラクタ「Hana」、「Taro」、「Jane」の特徴から生成した第1のベクトルを表している。例えば、音声キャラクタ「Hana」であれば、性別が「女」であるため、「女」に対応するベクトルの要素を「1」に、「男」に対応するベクトルの要素を「0」に設定する。これと同様な処理で、第1のベクトルの他の要素についても「0」もしくは「1」を割り当てる。なお、第1のベクトルはオフラインで事前に生成することもできる。
次に、ステップS1302では、図10のステップS1002で重要度が高いと判別された項目の各要素をベクトル表記して第2のベクトルを生成する。図4および図8の例では、項目「文タイプ」の重要度が高いと判別されていることから、この項目の要素である「セリフ」および「地の文」について第2のベクトルを生成する。図13(b)の1306は、これらの項目について生成した第2のベクトルを表している。例えば「セリフ」の場合、図4の文タイプに「セリフ」を持つID1、ID3、ID4およびID6の発話スタイルを用いて第2のベクトルを生成する。これらの文の性別には、男女どちらも含まれるため、性別に対応するベクトルの要素は「*」(不定)とする。年齢については、すべての文が「Young」であるため、「Young」に対応する要素には「1」を、「Adult」に対応するベクトルの要素には「0」を割り当てる。以上の処理を他の項目についても繰り返すことにより、第2のベクトルを生成することができる。
次に、ステップS1303では、第2のベクトルに最も類似する第1のベクトルを探索し、当該第1のベクトルに対応する音声キャラクタを音声合成のパラメータとして選択する。第2のベクトルと第1のベクトルの類似度には、コサイン類似度を用いる。図13(b)は、「セリフ」の第2のベクトルについて類似度を計算した結果、「Taro」の第1のベクトルとの類似度が最も高くなったことを示している。なお、ベクトルの各要素は同じ重み付けである必要はなく、各要素に重みを付けて類似度を計算してもよい。また、要素に不定(「*」)を含む次元は、コサイン類似度を計算する際に除外する。
次に、図10のステップS1004では、図12(b)に示すようなユーザインタフェースを介して音声キャラクタの編集の必要性を確認する。編集が不要な場合は(ステップS1004のNo)、処理を終了する。編集が必要な場合は(ステップS1004のYes)、プルダウンメニュー1201によってユーザが所望の音声キャラクタを選択することができる。
(ステップS25について)
最後に、図2のステップS25では、端末上の音声合成器あるいはweb経由でアクセスできるSaaS型の音声合成器に、音声キャラクタと各読み上げ対象文を対応付けて出力する。図12(b)の例の場合、ID1、ID3、ID4、ID6の文には音声キャラクタ「Taro」が、ID2、ID5、ID7の文には音声キャラクタ「Hana」が対応付けられており、音声合成器は、それぞれの文に応じた音声キャラクタを用いてこれらのテキストを音声波形に変換する。
(効果)
このように、本実施形態にかかる文書読み上げ支援装置は、文書に含まれる複数の文から抽出した素性情報を利用して、読み上げ対象となる文の発話スタイルを推定している。これにより、文脈を考慮した発話スタイルを推定することができる。
また、本実施形態にかかる文書読み上げ支援装置は、発話スタイルを推定するためのモデル(発話スタイル推定モデル)を用いて読み上げ対象となる文の発話スタイルを推定している。これにより、発話スタイル推定モデルを更新するだけで、書籍に出現する新語や未知語、創作された語などに対応することができる。
(変形例1)
以上の実施形態では、音声合成のパラメータとして音声合成のキャラクタを選択したが、音量、話速、ピッチなどを音声合成のパラメータとして選択することもできる。図14に、図8の発話スタイルに対して選択した音声合成のパラメータを示す。この例では、予め準備した所定のヒューリスティックを用いて音声合成のパラメータを付与している。例えば、音声キャラクタについては、発話スタイルの性別が「男」の文には「Taro」を、「女」の文には「Hana」を、その他の文には「Jane」を一律に付与することをルールとして持つことができる。また、音量については、感情が「恥」の文は「小さく」、「怒」の文は「大きく」、それ他の文は「ノーマル」のように選択することができる。この他にも、感情が「恥」の文は、話速を「速く」かつピッチを「高く」のような選択をすることができる。音声合成器は、これら選択された音声合成のパラメータを利用して各文を音声波形に変換する。
(変形例2)
文書取得部101が取得した文書がXMLやHTMLである場合は、各文に対応付けられている要素名(タグ名)や属性名、属性値など、文書の論理要素に関する書式情報を素性情報の一つとして抽出することができる。例えば、同じ「はじめに」という文字列でも、「はじめに」「はじめに」などの大見出し、「はじめに」「はじめに」などの見出し・箇条書きリスト、「はじめに」などの引用タグ、などの節構造の本文に相当する場合がある。このように、書式情報を素性情報として抽出することにより、各文の状況に応じた発話スタイルを推定することができる。
図15は文書取得部101が取得したXML文書の例を、図16は当該XML文書から抽出した書式情報を表している。本変形例では、書式情報を素性情報の1つとして利用して発話スタイルを推定する。これにより、”subsection_title”を書式情報として持つ文と”orderedlist”を書式情報として持つ文の口調を切り替えるなど、各文の状況を考慮した発話スタイルを推定することができる。
なお、プレーンテキストの場合であっても、インデントとして適用されているスペースの数やタブの数の違いを素性情報として抽出することができる。また、行冒頭に出現する特徴的な文字列(例えば、”第1章”、”(1)”、”1:”、”[I]”、など)の番号とや、などを対応付けることにより、素性情報としてXMLやHTMLなどのような書式情報を抽出することができる。
(変形例3)
以上の実施形態では、発話スタイル推定モデルをNeuralNetworkやSVM、CRFなどで学習したが、学習方法はこれに限られない。例えば、素性情報の「文タイプ」が「地の文」である場合の「感情」は「平(感情なし)」、のようなヒューリスティックを学習用の文書から決定してもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
101 文書取得部
102 素性情報抽出部
103 発話スタイル推定部
104 合成パラメータ選択部
105 モデル格納部
601 副詞の蓄積データ
1201 プルダウンメニュー
1305 第1のベクトル
1306 第2のベクトル

Claims (8)

  1. 学習用の文書から抽出された複数文の素性ベクトルと発話スタイルの対応付けを学習したモデルを格納するモデル格納手段と、
    読み上げ対象となる文書を取得する文書取得手段と、
    前記文書取得手段で取得された文書の各文から品詞、文タイプ及び文法情報を含む素性情報を抽出し、当該素性情報を素性ベクトルへ変換する素性情報抽出手段と、
    前記素性情報抽出手段で抽出された、読み上げ対象となる文及び当該文の前後に隣接する文の各素性ベクトルを連結した連結素性ベクトルと、前記モデル格納手段に格納されたモデルとを照合して、前記読み上げ対象となる文の発話スタイルを推定する発話スタイル推定手段と、
    を備える文書読み上げ支援装置。
  2. 前記発話スタイル推定手段は、前記読み上げ対象となる文の素性ベクトルと、当該文の前後に隣接する文の各素性ベクトルとを連結する前記請求項1記載の文書読み上げ支援装置。
  3. 前記素性ベクトルが、前記文書から抽出した書式情報を含む請求項1又は請求項2に記載の文書読み上げ支援装置。
  4. 前記発話スタイルが、性別、年齢、口調、感情のうちの少なくとも1つまたはその組み合わせである請求項1から請求項3の何れか1項に記載の文書読み上げ支援装置。
  5. 前記発話スタイル推定手段で推定された発話スタイルに適合する音声合成のパラメータを選択する合成パラメータ選択手段を更に備える請求項1から請求項4の何れか1項に記載の文書読み上げ支援装置。
  6. 前記合成パラメータ選択手段で選択される合成パラメータが、音声キャラクタ、音量、話速、ピッチのうちの少なくとも1つまたはその組み合わせである請求項5記載の文書読み上げ支援装置。
  7. 読み上げ対象となる文書を取得する文書取得工程と、
    前記文書取得工程で取得した文書の各文から品詞、文タイプ及び文法情報を含む素性情報を抽出し、当該素性情報を素性ベクトルへ変換する素性情報抽出工程と、
    前記素性情報抽出工程で抽出した、読み上げ対象となる文及び当該文の前後に隣接する文の各素性ベクトルを連結した連結素性ベクトルと、学習用の文書から抽出した複数文の素性ベクトルと発話スタイルの対応付けを学習したモデルとを照合して、前記読み上げ対象となる文の発話スタイルを推定する発話スタイル推定工程と、
    を備える文書読み上げ支援方法。
  8. 文書読み上げ支援装置に、
    読み上げ対象となる文書を取得する文書取得工程と、
    前記文書取得工程で取得した文書の各文から品詞、文タイプ及び文法情報を含む素性情報を抽出し、当該素性情報を素性ベクトルへ変換する素性情報抽出工程と、
    前記素性情報抽出工程で抽出した、読み上げ対象となる文及び当該文の前後に隣接する文の各素性ベクトルを連結した連結素性ベクトルと、学習用の文書から抽出した複数文の素性ベクトルと発話スタイルの対応付けを学習したモデルとを照合して、前記読み上げ対象となる文の発話スタイルを推定する発話スタイル推定工程と、
    を実現させるための文書読み上げ支援プログラム。
JP2015134708A 2015-07-03 2015-07-03 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム Pending JP2015215626A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015134708A JP2015215626A (ja) 2015-07-03 2015-07-03 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015134708A JP2015215626A (ja) 2015-07-03 2015-07-03 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2011060702A Division JP2012198277A (ja) 2011-03-18 2011-03-18 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム

Publications (1)

Publication Number Publication Date
JP2015215626A true JP2015215626A (ja) 2015-12-03

Family

ID=54752505

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015134708A Pending JP2015215626A (ja) 2015-07-03 2015-07-03 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム

Country Status (1)

Country Link
JP (1) JP2015215626A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018180459A (ja) * 2017-04-21 2018-11-15 株式会社日立超エル・エス・アイ・システムズ 音声合成システム、音声合成方法、及び音声合成プログラム
JP2019511036A (ja) * 2016-02-09 2019-04-18 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 複数レイヤの単語表現にわたる言語特徴生成のためのシステム及び方法
JP2019208138A (ja) * 2018-05-29 2019-12-05 住友電気工業株式会社 発話認識装置、及びコンピュータプログラム
KR20200004176A (ko) * 2018-07-03 2020-01-13 주식회사 한글과컴퓨터 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치 및 그 동작 방법
KR20200004175A (ko) * 2018-07-03 2020-01-13 주식회사 한글과컴퓨터 선택적 음성 모델의 적용이 가능한 텍스트 음성 변환 장치 및 그 동작 방법
CN113327572A (zh) * 2021-06-02 2021-08-31 清华大学深圳国际研究生院 基于情感类别标签的可控情感语音合成方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08248971A (ja) * 1995-03-09 1996-09-27 Hitachi Ltd テキスト朗読読み上げ装置
JPH11296193A (ja) * 1998-04-06 1999-10-29 Casio Comput Co Ltd 音声合成装置
JP2003302992A (ja) * 2002-04-11 2003-10-24 Canon Inc 音声合成方法及び装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08248971A (ja) * 1995-03-09 1996-09-27 Hitachi Ltd テキスト朗読読み上げ装置
JPH11296193A (ja) * 1998-04-06 1999-10-29 Casio Comput Co Ltd 音声合成装置
JP2003302992A (ja) * 2002-04-11 2003-10-24 Canon Inc 音声合成方法及び装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019511036A (ja) * 2016-02-09 2019-04-18 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 複数レイヤの単語表現にわたる言語特徴生成のためのシステム及び方法
JP2018180459A (ja) * 2017-04-21 2018-11-15 株式会社日立超エル・エス・アイ・システムズ 音声合成システム、音声合成方法、及び音声合成プログラム
JP2019208138A (ja) * 2018-05-29 2019-12-05 住友電気工業株式会社 発話認識装置、及びコンピュータプログラム
KR20200004176A (ko) * 2018-07-03 2020-01-13 주식회사 한글과컴퓨터 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치 및 그 동작 방법
KR20200004175A (ko) * 2018-07-03 2020-01-13 주식회사 한글과컴퓨터 선택적 음성 모델의 적용이 가능한 텍스트 음성 변환 장치 및 그 동작 방법
KR102107445B1 (ko) * 2018-07-03 2020-06-02 주식회사 한글과컴퓨터 선택적 음성 모델의 적용이 가능한 텍스트 음성 변환 장치 및 그 동작 방법
KR102107447B1 (ko) * 2018-07-03 2020-06-02 주식회사 한글과컴퓨터 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치 및 그 동작 방법
CN113327572A (zh) * 2021-06-02 2021-08-31 清华大学深圳国际研究生院 基于情感类别标签的可控情感语音合成方法及系统
CN113327572B (zh) * 2021-06-02 2024-02-09 清华大学深圳国际研究生院 基于情感类别标签的可控情感语音合成方法及系统

Similar Documents

Publication Publication Date Title
JP2012198277A (ja) 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム
JP2015215626A (ja) 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム
US9330657B2 (en) Text-to-speech for digital literature
US20210158795A1 (en) Generating audio for a plain text document
CN102549652B (zh) 信息检索装置
CN101996232B (zh) 信息处理装置和用于处理信息的方法
JP5141695B2 (ja) 記号挿入装置および記号挿入方法
EP3616190A1 (en) Automatic song generation
JP2009037633A (ja) 規模調整可能なニューラルネットワーク・ベースの、文書テキストからの言語同定
KR101160193B1 (ko) 감성적 음성합성 장치 및 그 방법
WO2018200268A1 (en) Automatic song generation
EP1221693A2 (en) Prosody template matching for text-to-speech systems
CN109326280B (zh) 一种歌唱合成方法及装置、电子设备
JP2009223463A (ja) 同義性判定装置、その方法、プログラム及び記録媒体
TW201822190A (zh) 語音辨識系統及其方法、詞彙建立方法與電腦程式產品
CN104750677A (zh) 语音传译装置、语音传译方法及语音传译程序
North et al. Deep learning approaches to lexical simplification: A survey
CN109492126B (zh) 一种智能交互方法及装置
CN111611793B (zh) 数据处理方法、装置、设备及存储介质
JP6232358B2 (ja) 次発話候補ランキング装置、方法、及びプログラム
JP2021131514A (ja) データ生成装置、データ生成方法およびプログラム
CN112905835B (zh) 一种多模态乐曲标题生成方法、装置及存储介质
JP5248121B2 (ja) 愛称を推定する装置、方法およびプログラム
JP6574469B2 (ja) 次発話候補ランキング装置、方法、及びプログラム
Dinarelli et al. Concept segmentation and labeling for conversational speech

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160727

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160805

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160926

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170113

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20170220

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170707