JP5634455B2

JP5634455B2 - 音声学習装置、方法およびプログラム

Info

Publication number: JP5634455B2
Application number: JP2012180447A
Authority: JP
Inventors: 紘一郎森; 眞弘森田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2012-08-16
Filing date: 2012-08-16
Publication date: 2014-12-03
Anticipated expiration: 2032-08-16
Also published as: US9466225B2; US20140051042A1; JP2014038209A

Description

本発明の実施形態は、音声学習装置、方法およびプログラムに関する。

近年、電子書籍や電子教科書の普及に伴い、コンテンツを目で読むだけではなく、音声合成技術を用いてコンテンツを耳で聞くという新たな学習方法が可能になってきた。電子書籍や電子教科書を音声で聞くことは、大きなメリットがある。例えば、音声を繰り返し聴きながらテキストを暗記する学習方法は、音声学習と呼ばれ、学習効率が上がることが知られている。しかし、合成音声の読み上げ方は単調であり、どこが重要であるかわかりにくい。そこで、ＳＳＭＬ（Speech Synthesis Markup Language）と呼ばれるマークアップ言語があり、これを用いてメリハリのある合成音声を生成する手法がある。

特開２００４−２４６０８５号公報特開平１０−２７４９９９号公報特開平１１−３２７８７０号公報

しかし、ユーザとの相互作用を通して重要なキーワードを指定するインタフェースは存在せず、同じコンテンツを聞いているどのユーザも同じキーワードが強調されてしまうので、自分の学習状況に合わせて音声を容易にカスタマイズすることができない。

また、ユーザの学習進行によるキーワードの重要性の変化に動的に対応できず、学習が進んで既に暗記したキーワードも依然強調して読まれるため、学習のポイントが絞りにくい。

本開示は、上述の課題を解決するためになされたものであり、効率のよい学習を支援することができる音声学習装置、方法およびプログラムを提供することを目的とする。

本実施形態に係る音声学習装置は、検出部、スコア算出部、パラメータ生成部、付与部および音声合成部を含む。検出部は、テキストから所定の文字列を指定するマーカーにより選択された文字列であるキーワードを検出する。第１スコア算出部は、前記マーカーの種類および前記キーワードの指定方法に基づいて、該キーワードの強調度合いを示すスコアを算出する。パラメータ生成部は、前記マーカーの種類および前記スコアに応じて、前記キーワードの読み上げ方の度合いを決定する合成パラメータを生成する。付与部は、前記合成パラメータに応じて前記キーワードを読み上げるためのタグを前記キーワードに付与する。音声合成部は、前記タグに従い前記キーワードを音声合成した合成音声を生成する。

本実施形態に係る音声学習装置を示すブロック図。マークアップＤＢに格納されるマークアップ情報の一例を示す図。マークアップ管理部の処理を示すフローチャート。タグ付きテキスト生成部の処理を示すフローチャート。合成パラメータ生成部における合成パラメータの生成方法の一例を示す図。合成パラメータ生成部におけるスコアの調整方法の一例を示す図。第１の実施形態に係る音声学習装置の利用例を示す図。タグ付与部で生成されるタグ付きテキストの一例を示す図。第２の実施形態にかかる音声学習装置を示すブロック図。第２の実施形態に係る音声学習装置の動作を示すフローチャート。ソーシャルマークアップＤＢに格納されるソーシャルマークアップ情報の一例を示す図。第３の実施形態にかかる音声学習装置を示すブロック図。第３の実施形態に係る音声学習装置の動作を示すフローチャート。第３の実施形態に係る音声学習装置の利用例を示す図。

以下、図面を参照しながら本実施形態に係る音声学習装置、方法およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。
（第１の実施形態）
第１の実施形態に係る音声学習装置について図１のブロック図を参照して説明する。
第１の実施形態に係る音声学習装置１００は、入力手段選択部１０１、取得部１０２、テキスト取得部１０３、マークアップ管理部１０４、マークアップデータベース１０５（以下、マークアップＤＢ１０５という）、タグ付きテキスト生成部１０６、パラメータ割当部１０７、表示部１０８、音声合成部１０９および音声出力部１１０を含む。また、マークアップ管理部１０４は、マークアップ範囲検出部１１１とキーワードスコア算出部１１２とを含む。タグ付きテキスト生成部１０６は、合成パラメータ生成部１１３とタグ付与部１１４とを含む。

入力手段選択部１０１は、ユーザから指定されたマーカーの種類を選択する。マーカーは、文字列の範囲と文字列の音声合成による読み上げ方とを指定する手段である。
取得部１０２は、入力手段選択部１０１から選択されたマーカーの種類を受け取る。取得部１０２は、ユーザが選択した画面上の座標情報を取得する。
テキスト取得部１０３は、電子書籍や電子教科書などのコンテンツのテキストを取得する。
マークアップ管理部１０４は、取得部１０２からマーカーの種類および座標情報を、テキスト取得部１０３からテキストをそれぞれ受け取る。マークアップ管理部１０４は、ユーザがマーカーにより選択した文字列であるキーワードに対するスコアを算出する。また、マーカーによりマークアップされたテキスト（以下、マークアップテキスト）を生成する。

マークアップＤＢ１０５は、マークアップ管理部１０４からスコアを受け取り、マークアップ情報として格納する。マークアップ情報については図２を参照して後述する。
タグ付きテキスト生成部１０６は、テキスト取得部１０３からテキストを受け取る。マークアップＤＢ１０５に格納されるマークアップ情報を参照して合成パラメータを生成し、合成パラメータに応じたタグをテキストに付与する。合成パラメータは、テキストの読み上げ方の度合いを決定するパラメータであり、図５を参照して後述する。タグは、ここではＳＳＭＬタグを想定するが、音声読み上げを制御可能なタグであればどのようなタグでもよい。
パラメータ割当部１０７は、ユーザの指定により、マーカーに対するタグと合成パラメータとを割り当てを変更する。

表示部１０８は、マークアップ管理部１０４から、マークアップテキストを受け取り、マークアップテキストを表示する。
音声合成部１０９は、タグ付きテキスト生成部１０６からタグ付きテキストを受け取り、タグ付きテキストを音声合成して、合成音声を生成する。音声合成処理は、一般的な処理を行えばよいためここでの説明は省略する。
音声出力部１１０は、音声合成部１０９から合成音声を受け取り、外部に音声を出力する。

次に、マークアップ管理部１０４の詳細について説明する。
マークアップ範囲検出部１１１は、取得部１０２からマーカーの種類および座標情報を、テキスト取得部１０３からテキストを受け取り、座標情報に基づいてマーカーの選択範囲から文字列を検出し、キーワードを得る。また、マークアップ範囲検出部１１１は、ユーザのマーカーによるキーワードの指定方法を検出し、マークアップテキストを生成する。
キーワードスコア算出部１１２は、マークアップ範囲検出部１１１からマーカーの種類と、ユーザのマーカーによるキーワードの指定方法とを受け取り、キーワードのスコアを算出する。

次に、タグ付きテキスト生成部１０６の詳細について説明する。

合成パラメータ生成部１１３は、テキスト取得部１０３からテキストを、マークアップＤＢ１０５からマークアップ情報をそれぞれ受け取り、キーワードごとに、合成パラメータを生成する。

タグ付与部１１４は、合成パラメータ生成部１１３からテキストおよびキーワードごとの合成パラメータを受け取り、各キーワードに対し、合成パラメータに応じて文字列を読み上げるようにＳＳＭＬタグを付与する。

次に、マークアップＤＢ１０５に格納されるマークアップ情報の一例について図２を参照して説明する。
図２に示すように、コンテンツＩＤ２０１、位置２０２、キーワード２０３、マーカーの種類２０４およびスコア２０５がそれぞれ対応づけられ、マークアップ情報２０６として格納される。

コンテンツＩＤ２０１は、コンテンツの種類ごとに一意に割り振られた識別子である。位置２０２は、キーワードが出現する位置を示し、図２の例ではコンテンツの本文の先頭からの文字数を示す。キーワード２０３は、マークアップされた文字列を示す。マーカーの種類２０４は、マークアップの際に用いられたマーカーの種類を示す。スコア２０５は、マーカーの種類に応じたキーワードの強調度合いを示す。
格納されるマークアップ情報２０６として、具体的には例えば、コンテンツＩＤ２０１「１２３４５」、位置２０２「０−８」、キーワード２０３「１９世紀のイタリア」、マーカーの種類２０４「下線」およびスコア２０５「０．３」が対応づけられる。

次に、マークアップ管理部１０４の処理について図３のフローチャートを参照して説明する。
ステップＳ３０１では、マークアップ範囲検出部１１１が、テキストとユーザが選択した画面上の座標情報とを取得する。
ステップＳ３０２では、マークアップ範囲検出部１１１が、座標情報からどの文字列が選択されたかを検出し、選択された文字列である選択キーワードを得る。なお、座標情報から選択されたキーワードを検出する方法は、一般的な手法を用いればよいためここでの説明を省略する。
ステップＳ３０３では、マークアップ範囲検出部１１１が、選択キーワードの範囲を数値に変換する。例えば、先頭からの文字数の基準として、選択キーワードが１０文字目から１５文字目までであれば、（１０，１５）のような数値に変換する。この数値が算出されることにより、図２に示す位置２０２が得られる。なお、キーワードの範囲の表し方は選択キーワードの位置さえ特定できればどのような方法でもよい。

ステップＳ３０４では、キーワードスコア算出部１１２は、マーカーの種類およびユーザのマーカーによるキーワードの指定方法からスコアを算出する。スコアは、例えば「０．０」から「１．０」の小数値で表し、値が大きいほど重要度が高いとする。また、マーカーが引かれていない部分、すなわち選択キーワードではないテキスト中の文字列は重要度が低いとみなし、スコアを０．０にする。
なお、マーカーによるキーワードの指定方法、例えばマーカーを同じキーワードに重ねて引く動作により、スコアを上げてもよい。具体的に図２を参照すると、ユーザにより黄マーカーおよび下線でキーワード「両シチリア王国」が選択された場合は、黄マーカーのスコア「０．５」と下線のスコア「０．３」とを加算して、スコアを「０．８」とすればよい。スコアは、キーワードの重要性を表せればどのような数値を用いてもよい。
ステップＳ３０５では、キーワードスコア算出部１１２が、選択キーワード、選択キーワードの範囲、マーカーの種類およびスコアをマークアップＤＢ１０５に格納する。以上で、マークアップ管理部１０４の処理を終了する。

次に、タグ付きテキスト生成部１０６の処理について図４のフローチャートを参照して説明する。
ステップＳ４０１では、合成パラメータ生成部１１３が、テキストを取得する。
ステップＳ４０２では、合成パラメータ生成部１１３が、マークアップＤＢ１０５に格納されているマークアップ情報を抽出する。
ステップＳ４０３では、合成パラメータ生成部１１３が、各キーワードのＳＳＭＬタグと合成パラメータとを生成する。生成される合成パラメータは、例えば、合成音声の音の高さを示すピッチ、音量、話す速度である話速、話者を調整するパラメータである。

ステップＳ４０４では、合成パラメータ生成部１１３が、スコアの値に応じて合成パラメータを調整する。例えば、後述するようにスコア１．０とスコア０．０との間で線形補間すればよい。
ステップＳ４０５では、タグ付与部１１４が、合成パラメータに応じたＳＳＭＬタグをキーワードに付与して、ＳＳＭＬタグ付きテキストを生成する。以上で、タグ付きテキスト生成部１０６の処理を終了する。

次に、合成パラメータ生成部１１３における合成パラメータの生成方法の一例について図５を参照して説明する。
合成パラメータ生成部１１３は、図５に示すようなテーブルを有してもよい。図５は、図２に示すスコア２０５が「１．０」である場合の合成パラメータの値である。
マーカーの種類５０１、読み上げ方５０２および合成パラメータ５０３がそれぞれ対応づけられる。具体的には、例えばマーカーの種類５０１「黄マーカー」、読み上げ方５０２「<prosody pitch>」および合成パラメータ５０３「３０％」が対応づけられる。これにより図５の例では、黄色マーカーがキーワードに引かれた場合は、合成音声のピッチを３０％上げる。赤色マーカーがキーワードに引かれた場合は、合成音声の音量「<volume>」を＋１００にし、かつ話速「<rate>」が−５０％になる。下線がキーワードに引かれた場合は、合成音声を強調「<strong>」する。波線がキーワードに引かれた場合は、合成音声の話者「<voice>」をＡｌｉｃｅに設定する。

なお、各マーカーにどのようなＳＳＭＬタグと合成パラメータを割り当てるかは、パラメータ割当部１０７が、ユーザの指示により設定を変更してもよい。また、テキスト中でＳＳＭＬタグが付与されない部分は、初期設定（デフォルト）の合成音声で発話される。

次に、合成パラメータ生成部１１３におけるスコアの調整方法の一例について図６を参照して説明する。
図６は、縦軸に合成音声の音量を示し、横軸にスコアを示した、合成パラメータの線形補間のグラフ６０１である。図６に示すように、スコアが１．０のときは、図５に示す合成パラメータで設定された値を用いる。一方、スコアが０．０に近づくに従って合成音声の音量が線形に減少し、スコアが０．０の時はデフォルトの音声となるように調整する。このようにスコアに応じて合成パラメータを調整することで、スコアが高い重要なキーワードほど、デフォルトの音声と合成音声との差異が大きくなり、ユーザの注意を引きつけることができる。一方、スコアが低く、重要ではないキーワードほどデフォルトの音声と合成音との差異が小さいので、ユーザからの注意が向けられなくなる。

なお、強調または話者といった定性的なＳＳＭＬタグは、図６に示すような線形補間ではパラメータを変化させることができない。しかし、音声モーフィングと呼ばれる既知の手法を用いることで、スコアに応じて徐々にデフォルトの音声に近づけることができる。

また、線形補間に限らず、スコアが小さいほどデフォルトの音声に近づけるような補間方法であればどのような方法でもよい。また、学習の初期では、キーワードのスコアを高く設定し、ユーザの暗記が進むにつれてキーワードのスコアを低くするようにしてもよい。

次に、第１の実施形態にかかる音声学習装置の利用例について図７を参照して説明する。
図７は、表示部１０８で表示されるテキストの一例であり、電子書籍または電子教科書を閲覧することを想定し、ここでは世界史のテキストを端末上で閲覧している様子を示す。テキスト７０１には、コンテンツのタイトルおよびコンテンツＩＤ７０２が付与される。
また、ユーザは、紙媒体の書籍に対して下線およびマーカーを引く場合と同様に、表示部１０８に表示されるテキスト７０１に、電子書籍上のテキストに対して指やタッチペン７０３を用いて下線７０４および色マーカー７０５を引くことができる。さらに、使用可能なマーカーの種類は、パレット７０６に表示され、下線７０４や色マーカー７０５などのマーカーを消すための消去マーカー（消しゴム）７０７も表示される。ユーザは、パレット７０６中の各マーカーのボタンに指またはタッチペン７０３により触れることで、マーカーの種類を選択することができる。

ユーザは、例えば、暗記したいキーワードとして「１９世紀のイタリア」の箇所に下線を引くことで、下線部分の話者を合成音声の話者を変更することができ、赤マーカーを「カヴール」に引くことで、強調した合成音声を作成できる。
なお、上述したもの以外にキーワードを丸や四角で囲む、太字やイタリック体にする、フォントを替えるなどの強調表示を行なってもよい。すなわち、適用したテキストの範囲を確定でき、かつテキストの見た目に反映される効果があれば、どのような強調表示でもよい。
また、ユーザは、ユーザが合成音声の再生ボタン７０８に触れることで合成音声を再生できる。また、合成音声をファイルとして保存して他のデバイスで聞くこともできる。例えば、ユーザが合成音声の保存ボタン７０９に触れることで合成音声を保存し、オーディオプレイヤーで聞くことができる。

次に、タグ付与部１１４で生成されるタグ付きテキストの一例について図８を参照して説明する。
図８に示すように、ＳＳＭＬタグ８０１がキーワード８０２に付与される。例えば、キーワード８０２「１９世紀のイタリア」は、キーワードを強調するタグであるＳＳＭＬタグ８０１「<emphasis level=”strong”>」で囲まれる。同様にキーワード８０２「教皇領」は、キーワードのピッチを調整するＳＳＭＬタグ８０１「<prosody pitch=”+30%”>」で囲まれる。音声合成部１０９は、これらのＳＳＭＬタグに従って音声合成を行ない、合成音声が生成され、音声出力部１１０により読み上げが出力される。

なお、キーワードのスコアによってマーカーの濃さおよび線の太さを変えてもよい。キーワードのスコアに応じて合成音声とともにマーカーの表示を変化させることでユーザはどこに注目して学習すればよいかより理解しやすくなる。

以上に示した第１の実施形態によれば、マーカーの種類に応じて、ユーザによりマーカーで指定されたキーワードの合成パラメータを生成することで、視覚的および聴覚的にキーワードを強調することができる。すなわち、ユーザ自身がシステムとインタラクションをとりながら重要なキーワードをマークしていくだけで、キーワードの合成音声の強調度合いに変化を付けることができる。その結果、合成音声を聴いたユーザは、暗記するべきキーワードが通常の部分と異なる合成音声になるため、その箇所に注目することができ、効率のよい学習を支援することができる。

（第２の実施形態）
第１の実施形態では、ユーザが指定したマーカーの種類およびマーカーによるキーワードの指定方法に応じて決まるスコアの値によって、合成パラメータを変化させるが、第２の実施形態では、マークアップ情報を他のユーザと共有し、共有した情報に基づいてスコアを決定する。このようにすることで、ユーザの学習段階に合わせて効率のよい学習を支援することができる。

第２の実施形態に係る音声学習装置について図９を参照して説明する。
第２の実施形態に係る音声学習装置９００は、入力手段選択部１０１、取得部１０２、テキスト取得部１０３、タグ付きテキスト生成部１０６、パラメータ割当部１０７、表示部１０８、音声合成部１０９、音声出力部１１０、ローカルマークアップ管理部９０１、ローカルマークアップＤＢ９０２、ソーシャルキーワードスコア算出部９０５、マークアップ管理サーバ９０３、ソーシャルマークアップＤＢ９０４および統合部９０６を含む。

入力手段選択部１０１、取得部１０２、テキスト取得部１０３、タグ付きテキスト生成部１０６、パラメータ割当部１０７、表示部１０８、音声合成部１０９および音声出力部１１０は、第１の実施形態と同様の動作を行なうのでここでの説明を省略する。

ローカルマークアップ管理部９０１は、第１の実施形態に係るマークアップ管理部１０４とほぼ同様の動作を行なうが、ローカルマークアップＤＢ９０２に格納されるマークアップ情報（以下、ローカルマークアップ情報ともいう）をマークアップ管理サーバ９０３に送信する点が異なる。
ローカルマークアップＤＢ９０２は、第１の実施形態に係るマークアップ管理部１０４およびマークアップＤＢ１０５と同様の動作を行なうので、ここでの説明は省略する。
マークアップ管理サーバ９０３は、ローカルマークアップ管理部９０１からマークアップ情報を受け取り、ソーシャルマークアップＤＢ９０４に送る。また、マークアップ管理サーバ９０３は、ソーシャルマークアップＤＢ９０４から他のユーザのマークアップ情報を抽出する。
ソーシャルマークアップＤＢ９０４は、マークアップ管理サーバ９０３からマークアップ情報を受け取って格納する。また、ソーシャルマークアップＤＢ９０４は、他のユーザのマークアップ情報であるソーシャルマークアップ情報も格納する。
ソーシャルキーワードスコア算出部９０５は、マークアップ管理サーバ９０３から他のユーザのマークアップ情報を受け取り、他のユーザのマークアップ情報から各キーワードについてのスコアを算出する。以下、他のユーザのマークアップ情報から算出したスコアをソーシャルスコアと呼ぶ。

統合部９０６は、ローカルマークアップ管理部９０１から、ローカルマークアップ情報に基づくスコア（ローカルスコアともいう）と、ソーシャルキーワードスコア算出部９０５からソーシャルスコアとを受け取る。統合部９０６は、ローカルスコアとソーシャルスコアとを重みづけた値である統合スコアを算出する。

次に、第２の実施形態に係る音声学習装置９００の動作について図１０のフローチャートを参照して説明する。
ステップＳ１００１では、ローカルマークアップ管理部９０１が、マークアップ情報をマークアップ管理サーバ９０３に送信する。
ステップＳ１００２では、ソーシャルキーワードスコア算出部９０５が、マークアップ管理サーバ９０３から、ソーシャルマークアップＤＢ９０４に格納された他のユーザのマークアップ情報を受信する。

ステップＳ１００３では、ソーシャルキーワードスコア算出部９０５が、ソーシャルマークアップ情報から各キーワードについてのソーシャルスコアを算出する。各キーワードのソーシャルスコアは、例えば、あるキーワードに対して複数のユーザがマークアップを行なった場合は、スコアの平均などの統計量を算出すればよい。
ステップＳ１００４では、統合部９０６が、各キーワードについて、ローカルスコアとソーシャルスコアとから統合スコアを算出する。例えば、ローカルの重みを０．０とし、ソーシャルの重みを１．０とすれば、ソーシャルスコアのみが表示部に表示されるテキストと合成音声とに反映される。また、ローカルの重みを０．５とし、ソーシャルの重みを０．５とすれば、平均を取ったスコアとなる。以上で第２の実施形態に係る音声合成装置の動作を終了する。

次に、ソーシャルマークアップＤＢ９０４に格納されるソーシャルマークアップ情報について図１１を参照して説明する。
図１１に格納されるソーシャルマークアップ情報１１０１は、図３に示すマークアップ情報とほぼ同様であるが、ユーザを識別するためのユーザＩＤ１１０２が付与される点が異なる。例えば、「サルディーニャ王国」というキーワードには、ユーザＩＤ１１０２が「１００」、「２００」および「３００」の３人がマーカーを付与している。ソーシャルキーワードスコア算出部９０５は、ユーザＩＤ１１０２を参照することでユーザを区別してソーシャルスコアを算出する。例えば、ソーシャルスコアは上述の「サルディーニャ王国」であれば、３人のソーシャルマークアップ情報より、（０．８＋１．０＋０．８）／３＝０．８６と算出することができる。

なお、マークアップ管理サーバ９０３により、ソーシャルマークアップＤＢ９０４に各ユーザの学習の進度を示すレベル情報を関連づけて格納してもよい。同一のテキストを用いて学習を進める場合、入門者と上級者とでは、テキスト中のキーワードの重要度は異なるはずである。例えば、上級者の方が入門者よりも細かいキーワードを暗記する必要があり、逆に入門者にとって重要なキーワードが上級者にとっては既に暗記しているのでそれほど重要度を上げる必要がない場合がある。
よって、ソーシャルマークアップＤＢ９０４に各ユーザのレベル情報が格納されていれば、同レベルのユーザのマークアップ情報のみを抽出してスコアに関する統計量を算出することができる。

以上に示した第２の実施形態によれば、他のユーザのマークアップ情報を参照することで、どのキーワードが重要であるかがわからない初学者にとっても、多くのユーザが重要であると認識しているキーワードを知ることができるので、効率的な学習を支援することができる。

（第３の実施形態）
第３の実施形態では、スコアの値が学習状況によって変化する点が上述の実施形態と異なる。
第３の実施形態に係る音声学習装置について図１２のブロック図を参照して説明する。
第３の実施形態に係る音声学習装置１２００は、入力手段選択部１０１、取得部１０２、テキスト取得部１０３、マークアップ管理部１０４、マークアップＤＢ１０５、タグ付きテキスト生成部１０６、パラメータ割当部１０７、表示部１０８、音声合成部１０９、音声出力部１１０、学習履歴管理部１２０１、出題部１２０２、キーワード種別推定部１２０３および学習履歴ＤＢ１２０４を含む。

学習履歴管理部１２０１は、マークアップ管理部１０４からマークアップされたキーワードを受け取る。学習履歴管理部１２０１は、後述の出題部１２０２から、ユーザの回答に関する回答結果を受け取り、回答結果に基づいて正答率を計算し、学習履歴を生成する。学習履歴は、例えば、出題日、出題回数、正答回数、正答率の情報を含む。

出題部１２０２は、キーワード種別推定部１２０３からキーワードの種別を受け取り、テキストのキーワードの文字列をキーワードの種別の文字列に変換する。種別は、キーワードの属性を示す。キーワードの種別としては、例えば国名、人名、年号が挙げられる。出題部１２０２はその後、ユーザへキーワードの種別の文字列を出題し、ユーザの回答に関する回答結果を生成する。

キーワード種別推定部１２０３は、学習履歴管理部１２０１からキーワードを受け取り、キーワードの種別を推定する。キーワードからキーワードの種別を抽出する技術は、固有表現抽出と呼ばれる一般的な手法を用いればよい。

学習履歴ＤＢ１２０４は、学習履歴管理部１２０１からキーワードの出題に対する学習履歴を受け取って格納する。

次に、第３の実施形態に係る音声学習装置１２００の動作について図１３のフローチャートを参照して説明する。
ステップＳ１３０１は、キーワード種別推定部１２０３が、キーワードの種類を推定する。
ステップＳ１３０２は、出題部１２０２が、テキストのキーワードの文字列をキーワードの種類の文字列に変換する。例えば、キーワードが「イタリア」であれば、キーワードの種類は「国名」であるので、テキスト中の文字列を「イタリア」から「国名」に変換する。
ステップＳ１３０３では、出題部１２０２が、キーワードの種類の文字列をユーザに出題する。

ステップＳ１３０４では、取得部１０２が、ユーザからの回答を取得する。例えば、タッチペンやキーボードでユーザからの回答を取得すればよい。また、表示部１０８にテキストを表示させずに音声のみを利用する場合は、ユーザからの発話を音声認識部（図示せず）が音声認識してもよい。
ステップＳ１３０５では、出題部１２０２が、出題したキーワードとユーザからの回答とを比較して、正解かどうかを判定し、回答結果を得る。その後、学習履歴管理部１２０１が、回答結果に基づいて正答率を計算する。
ステップＳ１３０６では、学習履歴管理部１２０１が、回答結果に基づいて各キーワードに対するユーザの正答率を含む学習履歴を生成し、学習履歴ＤＢ１２０４に格納する。

ステップＳ１３０７では、キーワードスコア算出部１１２が、学習履歴ＤＢ１２０４を参照して、キーワードのスコアに正答率を反映させる。例えば、正答率が高いキーワードは、ユーザがすでに暗記していると考えられるため、そのキーワードに関する重要度は、まだ暗記していないキーワードに比べて低いと考えられる。逆に、正答率が低いキーワードは、ユーザがまだ暗記していないため重要度が高いと考えられる。よって、正答率が高いほどスコアが低く、正答率が低いほどスコアが高くなるような方式で正答率からスコアを算出する。単純な方法としては、１．０から正答率を引くことでスコアを算出してもよい。正答率とスコアとが反比例の関係にあれば他のどのような方法でスコアを算出してもよい。以上で第３の実施形態に係る音声学習装置の動作を終了する。
上記の方法でスコアを算出し、タグ付きテキスト生成部１０６が合成パラメータを生成すれば、ユーザの学習状況に合わせて適切なキーワードが強調された合成音声が出力できる。

次に、第３の実施形態に係る音声学習装置１２００の利用例について図１４を参照して説明する。
図１４は、出題部１２０２により表示部１０８に表示された問題の表示例を示す。ここでは、キーワード１４０１の「人名」が出題されており、ユーザが回答欄１４０２に「カヴール」と回答したと仮定する。このとき学習履歴表示領域１４０３には、学習履歴が表示され、例えば「８回正解／１０回出題」および正答率「８０％」などが表示される。

利用例としては、ユーザの学習の初期にはスコアを高く設定し、合成音声を強調することで記憶に定着しやすくし、暗記が進むにつれて正答率が高い暗記したキーワードから順にスコアを徐々に低くしてデフォルトの合成音声に戻すといった動作が考えられる。これにより、合成音声にメリハリがつき、ユーザはどこに注目してキーワードを暗記していけばよいかがよりはっきりする。

なお、音声で出題する場合は、キーワードを置き換えたキーワードの種類の文字列を読み上げればよい。例えば、種別として「人名」と変換されていれば、音声合成部１０９が「人名」を音声合成すればよい。

以上に示した第３の実施形態によれば、ユーザにキーワードに関する問題を出題し、問題の正答率をキーワードのスコアに反映することで、クイズ形式といった方式によりユーザの学習意欲を高めつつより効率よく学習を支援することができる。

なお、本実施形態では、ＳＳＭＬタグを用いることでスコアが高いキーワードを強調するが、ＳＳＭＬタグを使わない方法でもよい。例えば、スコアが高いキーワードを繰り返し発話する、キーワードの前後にポーズを挿入する、効果音を挿入する、「ここは重要です」といった補助的な発話を挿入するといった別の手段でキーワードを強調してもよい。

上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した音声学習装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷ、Ｂｌｕ−ｒａｙ（登録商標）Ｄｉｓｃなど）、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をＣＰＵで実行させれば、上述した実施形態の音声学習装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワーク等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、ＬＡＮやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は１つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。

なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００，９００，１２００・・・音声学習装置、１０１・・・入力手段選択部、１０２・・・取得部、１０３・・・テキスト取得部、１０４・・・マークアップ管理部、１０５・・・マークアップデータベース（マークアップＤＢ）、１０６・・・タグ付きテキスト生成部、１０７・・・パラメータ割当部、１０８・・・表示部、１０９・・・音声合成部、１１０・・・音声出力部、１１１・・・マークアップ範囲検出部、１１２・・・キーワードスコア算出部、１１３・・・合成パラメータ生成部、１１４・・・タグ付与部、２０１・・・コンテンツＩＤ、２０２・・・位置、２０３，１４０１・・・キーワード、２０４・・・種類、２０５・・・スコア、２０６・・・マークアップ情報、５０１・・・種類、５０２・・・読み上げ方、５０３・・・合成パラメータ、６０１・・・グラフ、７０１・・・テキスト、７０３・・・タッチペン、７０４・・・下線、７０５・・・色マーカー、７０６・・・パレット、７０８・・・再生ボタン、７０９・・・保存ボタン、８０１・・・タグ、８０２・・・キーワード、９０１・・・ローカルマークアップ管理部、９０２・・・ローカルマークアップＤＢ、９０３・・・マークアップ管理サーバ、９０４・・・ソーシャルマークアップＤＢ、９０５・・・ソーシャルキーワードスコア算出部、９０６・・・統合部、１１０１・・・ソーシャルマークアップ情報、１２０１・・・学習履歴管理部、１２０２・・・出題部、１２０３・・・キーワード種別推定部、１４０２・・・回答欄、１４０３・・・学習履歴表示領域。

Claims

テキストから所定の文字列を指定するマーカーにより選択された文字列であるキーワードを検出する検出部と、
前記マーカーの種類および前記キーワードの指定方法に基づいて、該キーワードの強調度合いを示すスコアを算出する第１スコア算出部と、
前記マーカーの種類および前記スコアに応じて、前記キーワードの読み上げ方の度合いを決定する合成パラメータを生成するパラメータ生成部と、
前記合成パラメータに応じて前記キーワードを読み上げるためのタグを、前記キーワードに付与する付与部と、
前記タグに従い前記キーワードを音声合成した合成音声を生成する音声合成部と、
他のユーザによる前記キーワードのスコアを示すソーシャルスコアを算出する第２スコア算出部と、
前記スコアと前記ソーシャルスコアとを用いて統合スコアを算出する統合部と、を具備し、
前記パラメータ生成部は、前記統合スコアが算出される場合、前記統合スコアに応じて合成パラメータを生成することを特徴とする音声学習装置。
テキストから所定の文字列を指定するマーカーにより選択された文字列であるキーワードを検出する検出部と、
前記マーカーの種類および前記キーワードの指定方法に基づいて、該キーワードの強調度合いを示すスコアを算出する第１スコア算出部と、
前記マーカーの種類および前記スコアに応じて、前記キーワードの読み上げ方の度合いを決定する合成パラメータを生成するパラメータ生成部と、
前記合成パラメータに応じて前記キーワードを読み上げるためのタグを、前記キーワードに付与する付与部と、
前記タグに従い前記キーワードを音声合成した合成音声を生成する音声合成部と、
ユーザに対し、キーワードに関する問いを出題する出題部と、
出題したキーワードに対する前記ユーザの回答に基づいて正答率を算出し、前記出題したキーワードと該正答率とに関する情報を含む学習履歴を生成する履歴管理部と、を具備し、
前記第１スコア算出部は、前記学習履歴に応じて、前記正答率が高いほどスコアを低くすることを特徴とする音声学習装置。
前記パラメータ生成部は、前記スコアが小さいほど、前記タグが付与されない場合の読み上げ方に近くなるように合成パラメータを生成することを特徴とする請求項１または請求項２に記載の音声学習装置。
前記マーカーは、該マーカーの種類に応じて読み上げ方が異なることを特徴とする請求項１から請求項３のいずれか１項に記載の音声学習装置。
キーワードの属性を示す種別を推定する推定部をさらに具備し、
前記出題部は、前記キーワードを表す第１文字列を、前記種別を表す第２文字列に変換し、
前記音声合成部は、前記第２文字列を音声合成することを特徴とする請求項２に記載の音声学習装置。
テキストから所定の文字列を指定するマーカーにより選択された文字列であるキーワードを検出し、
前記マーカーの種類および前記キーワードの指定方法に基づいて、該キーワードの強調度合いを示すスコアを算出し、
前記マーカーの種類および前記スコアに応じて、前記キーワードの読み上げ方の度合いを決定する合成パラメータを生成し、
前記合成パラメータに応じて前記キーワードを読み上げるためのタグを、前記キーワードに付与し、
前記タグに従い前記キーワードを音声合成した合成音声を生成し、
他のユーザによる前記キーワードのスコアを示すソーシャルスコアを算出し、
前記スコアと前記ソーシャルスコアとを用いて統合スコアを算出し、
前記統合スコアが算出される場合、前記統合スコアに応じて合成パラメータを生成することを特徴とする音声学習方法。
テキストから所定の文字列を指定するマーカーにより選択された文字列であるキーワードを検出し、
前記マーカーの種類および前記キーワードの指定方法に基づいて、該キーワードの強調度合いを示すスコアを算出し、
前記マーカーの種類および前記スコアに応じて、前記キーワードの読み上げ方の度合いを決定する合成パラメータを生成し、
前記合成パラメータに応じて前記キーワードを読み上げるためのタグを、前記キーワードに付与し、
前記タグに従い前記キーワードを音声合成した合成音声を生成し、
ユーザに対し、キーワードに関する問いを出題し、
出題したキーワードに対する前記ユーザの回答に基づいて正答率を算出し、前記出題したキーワードと該正答率とに関する情報を含む学習履歴を生成し、
前記学習履歴に応じて、前記正答率が高いほどスコアを低くすることを特徴とする音声学習方法。
コンピュータを、
テキストから所定の文字列を指定するマーカーにより選択された文字列であるキーワードを検出する検出手段と、
前記マーカーの種類および前記キーワードの指定方法に基づいて、該キーワードの強調度合いを示すスコアを算出する第１スコア算出手段と、
前記マーカーの種類および前記スコアに応じて、前記キーワードの読み上げ方の度合いを決定する合成パラメータを生成するパラメータ生成手段と、
前記合成パラメータに応じて前記キーワードを読み上げるためのタグを、前記キーワードに付与する付与手段と、
前記タグに従い前記キーワードを音声合成した合成音声を生成する音声合成手段と、
他のユーザによる前記キーワードのスコアを示すソーシャルスコアを算出する第２スコア算出手段と、
前記スコアと前記ソーシャルスコアとを用いて統合スコアを算出する統合手段と、して機能させ、
前記パラメータ生成手段は、前記統合スコアが算出される場合、前記統合スコアに応じて合成パラメータを生成する音声学習プログラム。
コンピュータを、
テキストから所定の文字列を指定するマーカーにより選択された文字列であるキーワードを検出する検出手段と、
前記マーカーの種類および前記キーワードの指定方法に基づいて、該キーワードの強調度合いを示すスコアを算出する第１スコア算出手段と、
前記マーカーの種類および前記スコアに応じて、前記キーワードの読み上げ方の度合いを決定する合成パラメータを生成するパラメータ生成手段と、
前記合成パラメータに応じて前記キーワードを読み上げるためのタグを、前記キーワードに付与する付与手段と、
前記タグに従い前記キーワードを音声合成した合成音声を生成する音声合成手段と、
ユーザに対し、キーワードに関する問いを出題する出題手段と、
出題したキーワードに対する前記ユーザの回答に基づいて正答率を算出し、前記出題したキーワードと該正答率とに関する情報を含む学習履歴を生成する履歴管理手段と、して機能させ、
前記第１スコア算出部は、前記学習履歴に応じて、前記正答率が高いほどスコアを低くする音声学習プログラム。