JP5634455B2 - 音声学習装置、方法およびプログラム - Google Patents

音声学習装置、方法およびプログラム Download PDF

Info

Publication number
JP5634455B2
JP5634455B2 JP2012180447A JP2012180447A JP5634455B2 JP 5634455 B2 JP5634455 B2 JP 5634455B2 JP 2012180447 A JP2012180447 A JP 2012180447A JP 2012180447 A JP2012180447 A JP 2012180447A JP 5634455 B2 JP5634455 B2 JP 5634455B2
Authority
JP
Japan
Prior art keywords
keyword
score
marker
unit
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012180447A
Other languages
English (en)
Other versions
JP2014038209A (ja
Inventor
紘一郎 森
紘一郎 森
眞弘 森田
眞弘 森田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2012180447A priority Critical patent/JP5634455B2/ja
Priority to US13/966,927 priority patent/US9466225B2/en
Publication of JP2014038209A publication Critical patent/JP2014038209A/ja
Application granted granted Critical
Publication of JP5634455B2 publication Critical patent/JP5634455B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/04Speaking

Description

本発明の実施形態は、音声学習装置、方法およびプログラムに関する。
近年、電子書籍や電子教科書の普及に伴い、コンテンツを目で読むだけではなく、音声合成技術を用いてコンテンツを耳で聞くという新たな学習方法が可能になってきた。電子書籍や電子教科書を音声で聞くことは、大きなメリットがある。例えば、音声を繰り返し聴きながらテキストを暗記する学習方法は、音声学習と呼ばれ、学習効率が上がることが知られている。しかし、合成音声の読み上げ方は単調であり、どこが重要であるかわかりにくい。そこで、SSML(Speech Synthesis Markup Language)と呼ばれるマークアップ言語があり、これを用いてメリハリのある合成音声を生成する手法がある。
特開2004−246085号公報 特開平10−274999号公報 特開平11−327870号公報
しかし、ユーザとの相互作用を通して重要なキーワードを指定するインタフェースは存在せず、同じコンテンツを聞いているどのユーザも同じキーワードが強調されてしまうので、自分の学習状況に合わせて音声を容易にカスタマイズすることができない。
また、ユーザの学習進行によるキーワードの重要性の変化に動的に対応できず、学習が進んで既に暗記したキーワードも依然強調して読まれるため、学習のポイントが絞りにくい。
本開示は、上述の課題を解決するためになされたものであり、効率のよい学習を支援することができる音声学習装置、方法およびプログラムを提供することを目的とする。
本実施形態に係る音声学習装置は、検出部、スコア算出部、パラメータ生成部、付与部および音声合成部を含む。検出部は、テキストから所定の文字列を指定するマーカーにより選択された文字列であるキーワードを検出する。第1スコア算出部は、前記マーカーの種類および前記キーワードの指定方法に基づいて、該キーワードの強調度合いを示すスコアを算出する。パラメータ生成部は、前記マーカーの種類および前記スコアに応じて、前記キーワードの読み上げ方の度合いを決定する合成パラメータを生成する。付与部は、前記合成パラメータに応じて前記キーワードを読み上げるためのタグを前記キーワードに付与する。音声合成部は、前記タグに従い前記キーワードを音声合成した合成音声を生成する。
本実施形態に係る音声学習装置を示すブロック図。 マークアップDBに格納されるマークアップ情報の一例を示す図。 マークアップ管理部の処理を示すフローチャート。 タグ付きテキスト生成部の処理を示すフローチャート。 合成パラメータ生成部における合成パラメータの生成方法の一例を示す図。 合成パラメータ生成部におけるスコアの調整方法の一例を示す図。 第1の実施形態に係る音声学習装置の利用例を示す図。 タグ付与部で生成されるタグ付きテキストの一例を示す図。 第2の実施形態にかかる音声学習装置を示すブロック図。 第2の実施形態に係る音声学習装置の動作を示すフローチャート。 ソーシャルマークアップDBに格納されるソーシャルマークアップ情報の一例を示す図。 第3の実施形態にかかる音声学習装置を示すブロック図。 第3の実施形態に係る音声学習装置の動作を示すフローチャート。 第3の実施形態に係る音声学習装置の利用例を示す図。
以下、図面を参照しながら本実施形態に係る音声学習装置、方法およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。
(第1の実施形態)
第1の実施形態に係る音声学習装置について図1のブロック図を参照して説明する。
第1の実施形態に係る音声学習装置100は、入力手段選択部101、取得部102、テキスト取得部103、マークアップ管理部104、マークアップデータベース105(以下、マークアップDB105という)、タグ付きテキスト生成部106、パラメータ割当部107、表示部108、音声合成部109および音声出力部110を含む。また、マークアップ管理部104は、マークアップ範囲検出部111とキーワードスコア算出部112とを含む。タグ付きテキスト生成部106は、合成パラメータ生成部113とタグ付与部114とを含む。
入力手段選択部101は、ユーザから指定されたマーカーの種類を選択する。マーカーは、文字列の範囲と文字列の音声合成による読み上げ方とを指定する手段である。
取得部102は、入力手段選択部101から選択されたマーカーの種類を受け取る。取得部102は、ユーザが選択した画面上の座標情報を取得する。
テキスト取得部103は、電子書籍や電子教科書などのコンテンツのテキストを取得する。
マークアップ管理部104は、取得部102からマーカーの種類および座標情報を、テキスト取得部103からテキストをそれぞれ受け取る。マークアップ管理部104は、ユーザがマーカーにより選択した文字列であるキーワードに対するスコアを算出する。また、マーカーによりマークアップされたテキスト(以下、マークアップテキスト)を生成する。
マークアップDB105は、マークアップ管理部104からスコアを受け取り、マークアップ情報として格納する。マークアップ情報については図2を参照して後述する。
タグ付きテキスト生成部106は、テキスト取得部103からテキストを受け取る。マークアップDB105に格納されるマークアップ情報を参照して合成パラメータを生成し、合成パラメータに応じたタグをテキストに付与する。合成パラメータは、テキストの読み上げ方の度合いを決定するパラメータであり、図5を参照して後述する。タグは、ここではSSMLタグを想定するが、音声読み上げを制御可能なタグであればどのようなタグでもよい。
パラメータ割当部107は、ユーザの指定により、マーカーに対するタグと合成パラメータとを割り当てを変更する。
表示部108は、マークアップ管理部104から、マークアップテキストを受け取り、マークアップテキストを表示する。
音声合成部109は、タグ付きテキスト生成部106からタグ付きテキストを受け取り、タグ付きテキストを音声合成して、合成音声を生成する。音声合成処理は、一般的な処理を行えばよいためここでの説明は省略する。
音声出力部110は、音声合成部109から合成音声を受け取り、外部に音声を出力する。
次に、マークアップ管理部104の詳細について説明する。
マークアップ範囲検出部111は、取得部102からマーカーの種類および座標情報を、テキスト取得部103からテキストを受け取り、座標情報に基づいてマーカーの選択範囲から文字列を検出し、キーワードを得る。また、マークアップ範囲検出部111は、ユーザのマーカーによるキーワードの指定方法を検出し、マークアップテキストを生成する。
キーワードスコア算出部112は、マークアップ範囲検出部111からマーカーの種類と、ユーザのマーカーによるキーワードの指定方法とを受け取り、キーワードのスコアを算出する。
次に、タグ付きテキスト生成部106の詳細について説明する。
合成パラメータ生成部113は、テキスト取得部103からテキストを、マークアップDB105からマークアップ情報をそれぞれ受け取り、キーワードごとに、合成パラメータを生成する。
タグ付与部114は、合成パラメータ生成部113からテキストおよびキーワードごとの合成パラメータを受け取り、各キーワードに対し、合成パラメータに応じて文字列を読み上げるようにSSMLタグを付与する。
次に、マークアップDB105に格納されるマークアップ情報の一例について図2を参照して説明する。
図2に示すように、コンテンツID201、位置202、キーワード203、マーカーの種類204およびスコア205がそれぞれ対応づけられ、マークアップ情報206として格納される。
コンテンツID201は、コンテンツの種類ごとに一意に割り振られた識別子である。位置202は、キーワードが出現する位置を示し、図2の例ではコンテンツの本文の先頭からの文字数を示す。キーワード203は、マークアップされた文字列を示す。マーカーの種類204は、マークアップの際に用いられたマーカーの種類を示す。スコア205は、マーカーの種類に応じたキーワードの強調度合いを示す。
格納されるマークアップ情報206として、具体的には例えば、コンテンツID201「12345」、位置202「0−8」、キーワード203「19世紀のイタリア」、マーカーの種類204「下線」およびスコア205「0.3」が対応づけられる。
次に、マークアップ管理部104の処理について図3のフローチャートを参照して説明する。
ステップS301では、マークアップ範囲検出部111が、テキストとユーザが選択した画面上の座標情報とを取得する。
ステップS302では、マークアップ範囲検出部111が、座標情報からどの文字列が選択されたかを検出し、選択された文字列である選択キーワードを得る。なお、座標情報から選択されたキーワードを検出する方法は、一般的な手法を用いればよいためここでの説明を省略する。
ステップS303では、マークアップ範囲検出部111が、選択キーワードの範囲を数値に変換する。例えば、先頭からの文字数の基準として、選択キーワードが10文字目から15文字目までであれば、(10,15)のような数値に変換する。この数値が算出されることにより、図2に示す位置202が得られる。なお、キーワードの範囲の表し方は選択キーワードの位置さえ特定できればどのような方法でもよい。
ステップS304では、キーワードスコア算出部112は、マーカーの種類およびユーザのマーカーによるキーワードの指定方法からスコアを算出する。スコアは、例えば「0.0」から「1.0」の小数値で表し、値が大きいほど重要度が高いとする。また、マーカーが引かれていない部分、すなわち選択キーワードではないテキスト中の文字列は重要度が低いとみなし、スコアを0.0にする。
なお、マーカーによるキーワードの指定方法、例えばマーカーを同じキーワードに重ねて引く動作により、スコアを上げてもよい。具体的に図2を参照すると、ユーザにより黄マーカーおよび下線でキーワード「両シチリア王国」が選択された場合は、黄マーカーのスコア「0.5」と下線のスコア「0.3」とを加算して、スコアを「0.8」とすればよい。スコアは、キーワードの重要性を表せればどのような数値を用いてもよい。
ステップS305では、キーワードスコア算出部112が、選択キーワード、選択キーワードの範囲、マーカーの種類およびスコアをマークアップDB105に格納する。以上で、マークアップ管理部104の処理を終了する。
次に、タグ付きテキスト生成部106の処理について図4のフローチャートを参照して説明する。
ステップS401では、合成パラメータ生成部113が、テキストを取得する。
ステップS402では、合成パラメータ生成部113が、マークアップDB105に格納されているマークアップ情報を抽出する。
ステップS403では、合成パラメータ生成部113が、各キーワードのSSMLタグと合成パラメータとを生成する。生成される合成パラメータは、例えば、合成音声の音の高さを示すピッチ、音量、話す速度である話速、話者を調整するパラメータである。
ステップS404では、合成パラメータ生成部113が、スコアの値に応じて合成パラメータを調整する。例えば、後述するようにスコア1.0とスコア0.0との間で線形補間すればよい。
ステップS405では、タグ付与部114が、合成パラメータに応じたSSMLタグをキーワードに付与して、SSMLタグ付きテキストを生成する。以上で、タグ付きテキスト生成部106の処理を終了する。
次に、合成パラメータ生成部113における合成パラメータの生成方法の一例について図5を参照して説明する。
合成パラメータ生成部113は、図5に示すようなテーブルを有してもよい。図5は、図2に示すスコア205が「1.0」である場合の合成パラメータの値である。
マーカーの種類501、読み上げ方502および合成パラメータ503がそれぞれ対応づけられる。具体的には、例えばマーカーの種類501「黄マーカー」、読み上げ方502「<prosody pitch>」および合成パラメータ503「30%」が対応づけられる。これにより図5の例では、黄色マーカーがキーワードに引かれた場合は、合成音声のピッチを30%上げる。赤色マーカーがキーワードに引かれた場合は、合成音声の音量「<volume>」を+100にし、かつ話速「<rate>」が−50%になる。下線がキーワードに引かれた場合は、合成音声を強調「<strong>」する。波線がキーワードに引かれた場合は、合成音声の話者「<voice>」をAliceに設定する。
なお、各マーカーにどのようなSSMLタグと合成パラメータを割り当てるかは、パラメータ割当部107が、ユーザの指示により設定を変更してもよい。また、テキスト中でSSMLタグが付与されない部分は、初期設定(デフォルト)の合成音声で発話される。
次に、合成パラメータ生成部113におけるスコアの調整方法の一例について図6を参照して説明する。
図6は、縦軸に合成音声の音量を示し、横軸にスコアを示した、合成パラメータの線形補間のグラフ601である。図6に示すように、スコアが1.0のときは、図5に示す合成パラメータで設定された値を用いる。一方、スコアが0.0に近づくに従って合成音声の音量が線形に減少し、スコアが0.0の時はデフォルトの音声となるように調整する。このようにスコアに応じて合成パラメータを調整することで、スコアが高い重要なキーワードほど、デフォルトの音声と合成音声との差異が大きくなり、ユーザの注意を引きつけることができる。一方、スコアが低く、重要ではないキーワードほどデフォルトの音声と合成音との差異が小さいので、ユーザからの注意が向けられなくなる。
なお、強調または話者といった定性的なSSMLタグは、図6に示すような線形補間ではパラメータを変化させることができない。しかし、音声モーフィングと呼ばれる既知の手法を用いることで、スコアに応じて徐々にデフォルトの音声に近づけることができる。
また、線形補間に限らず、スコアが小さいほどデフォルトの音声に近づけるような補間方法であればどのような方法でもよい。また、学習の初期では、キーワードのスコアを高く設定し、ユーザの暗記が進むにつれてキーワードのスコアを低くするようにしてもよい。
次に、第1の実施形態にかかる音声学習装置の利用例について図7を参照して説明する。
図7は、表示部108で表示されるテキストの一例であり、電子書籍または電子教科書を閲覧することを想定し、ここでは世界史のテキストを端末上で閲覧している様子を示す。テキスト701には、コンテンツのタイトルおよびコンテンツID702が付与される。
また、ユーザは、紙媒体の書籍に対して下線およびマーカーを引く場合と同様に、表示部108に表示されるテキスト701に、電子書籍上のテキストに対して指やタッチペン703を用いて下線704および色マーカー705を引くことができる。さらに、使用可能なマーカーの種類は、パレット706に表示され、下線704や色マーカー705などのマーカーを消すための消去マーカー(消しゴム)707も表示される。ユーザは、パレット706中の各マーカーのボタンに指またはタッチペン703により触れることで、マーカーの種類を選択することができる。
ユーザは、例えば、暗記したいキーワードとして「19世紀のイタリア」の箇所に下線を引くことで、下線部分の話者を合成音声の話者を変更することができ、赤マーカーを「カヴール」に引くことで、強調した合成音声を作成できる。
なお、上述したもの以外にキーワードを丸や四角で囲む、太字やイタリック体にする、フォントを替えるなどの強調表示を行なってもよい。すなわち、適用したテキストの範囲を確定でき、かつテキストの見た目に反映される効果があれば、どのような強調表示でもよい。
また、ユーザは、ユーザが合成音声の再生ボタン708に触れることで合成音声を再生できる。また、合成音声をファイルとして保存して他のデバイスで聞くこともできる。例えば、ユーザが合成音声の保存ボタン709に触れることで合成音声を保存し、オーディオプレイヤーで聞くことができる。
次に、タグ付与部114で生成されるタグ付きテキストの一例について図8を参照して説明する。
図8に示すように、SSMLタグ801がキーワード802に付与される。例えば、キーワード802「19世紀のイタリア」は、キーワードを強調するタグであるSSMLタグ801「<emphasis level=”strong”>」で囲まれる。同様にキーワード802「教皇領」は、キーワードのピッチを調整するSSMLタグ801「<prosody pitch=”+30%”>」で囲まれる。音声合成部109は、これらのSSMLタグに従って音声合成を行ない、合成音声が生成され、音声出力部110により読み上げが出力される。
なお、キーワードのスコアによってマーカーの濃さおよび線の太さを変えてもよい。キーワードのスコアに応じて合成音声とともにマーカーの表示を変化させることでユーザはどこに注目して学習すればよいかより理解しやすくなる。
以上に示した第1の実施形態によれば、マーカーの種類に応じて、ユーザによりマーカーで指定されたキーワードの合成パラメータを生成することで、視覚的および聴覚的にキーワードを強調することができる。すなわち、ユーザ自身がシステムとインタラクションをとりながら重要なキーワードをマークしていくだけで、キーワードの合成音声の強調度合いに変化を付けることができる。その結果、合成音声を聴いたユーザは、暗記するべきキーワードが通常の部分と異なる合成音声になるため、その箇所に注目することができ、効率のよい学習を支援することができる。
(第2の実施形態)
第1の実施形態では、ユーザが指定したマーカーの種類およびマーカーによるキーワードの指定方法に応じて決まるスコアの値によって、合成パラメータを変化させるが、第2の実施形態では、マークアップ情報を他のユーザと共有し、共有した情報に基づいてスコアを決定する。このようにすることで、ユーザの学習段階に合わせて効率のよい学習を支援することができる。
第2の実施形態に係る音声学習装置について図9を参照して説明する。
第2の実施形態に係る音声学習装置900は、入力手段選択部101、取得部102、テキスト取得部103、タグ付きテキスト生成部106、パラメータ割当部107、表示部108、音声合成部109、音声出力部110、ローカルマークアップ管理部901、ローカルマークアップDB902、ソーシャルキーワードスコア算出部905、マークアップ管理サーバ903、ソーシャルマークアップDB904および統合部906を含む。
入力手段選択部101、取得部102、テキスト取得部103、タグ付きテキスト生成部106、パラメータ割当部107、表示部108、音声合成部109および音声出力部110は、第1の実施形態と同様の動作を行なうのでここでの説明を省略する。
ローカルマークアップ管理部901は、第1の実施形態に係るマークアップ管理部104とほぼ同様の動作を行なうが、ローカルマークアップDB902に格納されるマークアップ情報(以下、ローカルマークアップ情報ともいう)をマークアップ管理サーバ903に送信する点が異なる。
ローカルマークアップDB902は、第1の実施形態に係るマークアップ管理部104およびマークアップDB105と同様の動作を行なうので、ここでの説明は省略する。
マークアップ管理サーバ903は、ローカルマークアップ管理部901からマークアップ情報を受け取り、ソーシャルマークアップDB904に送る。また、マークアップ管理サーバ903は、ソーシャルマークアップDB904から他のユーザのマークアップ情報を抽出する。
ソーシャルマークアップDB904は、マークアップ管理サーバ903からマークアップ情報を受け取って格納する。また、ソーシャルマークアップDB904は、他のユーザのマークアップ情報であるソーシャルマークアップ情報も格納する。
ソーシャルキーワードスコア算出部905は、マークアップ管理サーバ903から他のユーザのマークアップ情報を受け取り、他のユーザのマークアップ情報から各キーワードについてのスコアを算出する。以下、他のユーザのマークアップ情報から算出したスコアをソーシャルスコアと呼ぶ。
統合部906は、ローカルマークアップ管理部901から、ローカルマークアップ情報に基づくスコア(ローカルスコアともいう)と、ソーシャルキーワードスコア算出部905からソーシャルスコアとを受け取る。統合部906は、ローカルスコアとソーシャルスコアとを重みづけた値である統合スコアを算出する。
次に、第2の実施形態に係る音声学習装置900の動作について図10のフローチャートを参照して説明する。
ステップS1001では、ローカルマークアップ管理部901が、マークアップ情報をマークアップ管理サーバ903に送信する。
ステップS1002では、ソーシャルキーワードスコア算出部905が、マークアップ管理サーバ903から、ソーシャルマークアップDB904に格納された他のユーザのマークアップ情報を受信する。
ステップS1003では、ソーシャルキーワードスコア算出部905が、ソーシャルマークアップ情報から各キーワードについてのソーシャルスコアを算出する。各キーワードのソーシャルスコアは、例えば、あるキーワードに対して複数のユーザがマークアップを行なった場合は、スコアの平均などの統計量を算出すればよい。
ステップS1004では、統合部906が、各キーワードについて、ローカルスコアとソーシャルスコアとから統合スコアを算出する。例えば、ローカルの重みを0.0とし、ソーシャルの重みを1.0とすれば、ソーシャルスコアのみが表示部に表示されるテキストと合成音声とに反映される。また、ローカルの重みを0.5とし、ソーシャルの重みを0.5とすれば、平均を取ったスコアとなる。以上で第2の実施形態に係る音声合成装置の動作を終了する。
次に、ソーシャルマークアップDB904に格納されるソーシャルマークアップ情報について図11を参照して説明する。
図11に格納されるソーシャルマークアップ情報1101は、図3に示すマークアップ情報とほぼ同様であるが、ユーザを識別するためのユーザID1102が付与される点が異なる。例えば、「サルディーニャ王国」というキーワードには、ユーザID1102が「100」、「200」および「300」の3人がマーカーを付与している。ソーシャルキーワードスコア算出部905は、ユーザID1102を参照することでユーザを区別してソーシャルスコアを算出する。例えば、ソーシャルスコアは上述の「サルディーニャ王国」であれば、3人のソーシャルマークアップ情報より、(0.8+1.0+0.8)/3=0.86と算出することができる。
なお、マークアップ管理サーバ903により、ソーシャルマークアップDB904に各ユーザの学習の進度を示すレベル情報を関連づけて格納してもよい。同一のテキストを用いて学習を進める場合、入門者と上級者とでは、テキスト中のキーワードの重要度は異なるはずである。例えば、上級者の方が入門者よりも細かいキーワードを暗記する必要があり、逆に入門者にとって重要なキーワードが上級者にとっては既に暗記しているのでそれほど重要度を上げる必要がない場合がある。
よって、ソーシャルマークアップDB904に各ユーザのレベル情報が格納されていれば、同レベルのユーザのマークアップ情報のみを抽出してスコアに関する統計量を算出することができる。
以上に示した第2の実施形態によれば、他のユーザのマークアップ情報を参照することで、どのキーワードが重要であるかがわからない初学者にとっても、多くのユーザが重要であると認識しているキーワードを知ることができるので、効率的な学習を支援することができる。
(第3の実施形態)
第3の実施形態では、スコアの値が学習状況によって変化する点が上述の実施形態と異なる。
第3の実施形態に係る音声学習装置について図12のブロック図を参照して説明する。
第3の実施形態に係る音声学習装置1200は、入力手段選択部101、取得部102、テキスト取得部103、マークアップ管理部104、マークアップDB105、タグ付きテキスト生成部106、パラメータ割当部107、表示部108、音声合成部109、音声出力部110、学習履歴管理部1201、出題部1202、キーワード種別推定部1203および学習履歴DB1204を含む。
学習履歴管理部1201は、マークアップ管理部104からマークアップされたキーワードを受け取る。学習履歴管理部1201は、後述の出題部1202から、ユーザの回答に関する回答結果を受け取り、回答結果に基づいて正答率を計算し、学習履歴を生成する。学習履歴は、例えば、出題日、出題回数、正答回数、正答率の情報を含む。
出題部1202は、キーワード種別推定部1203からキーワードの種別を受け取り、テキストのキーワードの文字列をキーワードの種別の文字列に変換する。種別は、キーワードの属性を示す。キーワードの種別としては、例えば国名、人名、年号が挙げられる。出題部1202はその後、ユーザへキーワードの種別の文字列を出題し、ユーザの回答に関する回答結果を生成する。
キーワード種別推定部1203は、学習履歴管理部1201からキーワードを受け取り、キーワードの種別を推定する。キーワードからキーワードの種別を抽出する技術は、固有表現抽出と呼ばれる一般的な手法を用いればよい。
学習履歴DB1204は、学習履歴管理部1201からキーワードの出題に対する学習履歴を受け取って格納する。
次に、第3の実施形態に係る音声学習装置1200の動作について図13のフローチャートを参照して説明する。
ステップS1301は、キーワード種別推定部1203が、キーワードの種類を推定する。
ステップS1302は、出題部1202が、テキストのキーワードの文字列をキーワードの種類の文字列に変換する。例えば、キーワードが「イタリア」であれば、キーワードの種類は「国名」であるので、テキスト中の文字列を「イタリア」から「国名」に変換する。
ステップS1303では、出題部1202が、キーワードの種類の文字列をユーザに出題する。
ステップS1304では、取得部102が、ユーザからの回答を取得する。例えば、タッチペンやキーボードでユーザからの回答を取得すればよい。また、表示部108にテキストを表示させずに音声のみを利用する場合は、ユーザからの発話を音声認識部(図示せず)が音声認識してもよい。
ステップS1305では、出題部1202が、出題したキーワードとユーザからの回答とを比較して、正解かどうかを判定し、回答結果を得る。その後、学習履歴管理部1201が、回答結果に基づいて正答率を計算する。
ステップS1306では、学習履歴管理部1201が、回答結果に基づいて各キーワードに対するユーザの正答率を含む学習履歴を生成し、学習履歴DB1204に格納する。
ステップS1307では、キーワードスコア算出部112が、学習履歴DB1204を参照して、キーワードのスコアに正答率を反映させる。例えば、正答率が高いキーワードは、ユーザがすでに暗記していると考えられるため、そのキーワードに関する重要度は、まだ暗記していないキーワードに比べて低いと考えられる。逆に、正答率が低いキーワードは、ユーザがまだ暗記していないため重要度が高いと考えられる。よって、正答率が高いほどスコアが低く、正答率が低いほどスコアが高くなるような方式で正答率からスコアを算出する。単純な方法としては、1.0から正答率を引くことでスコアを算出してもよい。正答率とスコアとが反比例の関係にあれば他のどのような方法でスコアを算出してもよい。以上で第3の実施形態に係る音声学習装置の動作を終了する。
上記の方法でスコアを算出し、タグ付きテキスト生成部106が合成パラメータを生成すれば、ユーザの学習状況に合わせて適切なキーワードが強調された合成音声が出力できる。
次に、第3の実施形態に係る音声学習装置1200の利用例について図14を参照して説明する。
図14は、出題部1202により表示部108に表示された問題の表示例を示す。ここでは、キーワード1401の「人名」が出題されており、ユーザが回答欄1402に「カヴール」と回答したと仮定する。このとき学習履歴表示領域1403には、学習履歴が表示され、例えば「8回正解/10回出題」および正答率「80%」などが表示される。
利用例としては、ユーザの学習の初期にはスコアを高く設定し、合成音声を強調することで記憶に定着しやすくし、暗記が進むにつれて正答率が高い暗記したキーワードから順にスコアを徐々に低くしてデフォルトの合成音声に戻すといった動作が考えられる。これにより、合成音声にメリハリがつき、ユーザはどこに注目してキーワードを暗記していけばよいかがよりはっきりする。
なお、音声で出題する場合は、キーワードを置き換えたキーワードの種類の文字列を読み上げればよい。例えば、種別として「人名」と変換されていれば、音声合成部109が「人名」を音声合成すればよい。
以上に示した第3の実施形態によれば、ユーザにキーワードに関する問題を出題し、問題の正答率をキーワードのスコアに反映することで、クイズ形式といった方式によりユーザの学習意欲を高めつつより効率よく学習を支援することができる。
なお、本実施形態では、SSMLタグを用いることでスコアが高いキーワードを強調するが、SSMLタグを使わない方法でもよい。例えば、スコアが高いキーワードを繰り返し発話する、キーワードの前後にポーズを挿入する、効果音を挿入する、「ここは重要です」といった補助的な発話を挿入するといった別の手段でキーワードを強調してもよい。
上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した音声学習装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RW、Blu−ray(登録商標)Discなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の音声学習装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100,900,1200・・・音声学習装置、101・・・入力手段選択部、102・・・取得部、103・・・テキスト取得部、104・・・マークアップ管理部、105・・・マークアップデータベース(マークアップDB)、106・・・タグ付きテキスト生成部、107・・・パラメータ割当部、108・・・表示部、109・・・音声合成部、110・・・音声出力部、111・・・マークアップ範囲検出部、112・・・キーワードスコア算出部、113・・・合成パラメータ生成部、114・・・タグ付与部、201・・・コンテンツID、202・・・位置、203,1401・・・キーワード、204・・・種類、205・・・スコア、206・・・マークアップ情報、501・・・種類、502・・・読み上げ方、503・・・合成パラメータ、601・・・グラフ、701・・・テキスト、703・・・タッチペン、704・・・下線、705・・・色マーカー、706・・・パレット、708・・・再生ボタン、709・・・保存ボタン、801・・・タグ、802・・・キーワード、901・・・ローカルマークアップ管理部、902・・・ローカルマークアップDB、903・・・マークアップ管理サーバ、904・・・ソーシャルマークアップDB、905・・・ソーシャルキーワードスコア算出部、906・・・統合部、1101・・・ソーシャルマークアップ情報、1201・・・学習履歴管理部、1202・・・出題部、1203・・・キーワード種別推定部、1402・・・回答欄、1403・・・学習履歴表示領域。

Claims (9)

  1. テキストから所定の文字列を指定するマーカーにより選択された文字列であるキーワードを検出する検出部と、
    前記マーカーの種類および前記キーワードの指定方法に基づいて、該キーワードの強調度合いを示すスコアを算出する第1スコア算出部と、
    前記マーカーの種類および前記スコアに応じて、前記キーワードの読み上げ方の度合いを決定する合成パラメータを生成するパラメータ生成部と、
    前記合成パラメータに応じて前記キーワードを読み上げるためのタグを、前記キーワードに付与する付与部と、
    前記タグに従い前記キーワードを音声合成した合成音声を生成する音声合成部と、
    他のユーザによる前記キーワードのスコアを示すソーシャルスコアを算出する第2スコア算出部と、
    前記スコアと前記ソーシャルスコアとを用いて統合スコアを算出する統合部と、を具備し、
    前記パラメータ生成部は、前記統合スコアが算出される場合、前記統合スコアに応じて合成パラメータを生成することを特徴とする音声学習装置。
  2. テキストから所定の文字列を指定するマーカーにより選択された文字列であるキーワードを検出する検出部と、
    前記マーカーの種類および前記キーワードの指定方法に基づいて、該キーワードの強調度合いを示すスコアを算出する第1スコア算出部と、
    前記マーカーの種類および前記スコアに応じて、前記キーワードの読み上げ方の度合いを決定する合成パラメータを生成するパラメータ生成部と、
    前記合成パラメータに応じて前記キーワードを読み上げるためのタグを、前記キーワードに付与する付与部と、
    前記タグに従い前記キーワードを音声合成した合成音声を生成する音声合成部と、
    ユーザに対し、キーワードに関する問いを出題する出題部と、
    出題したキーワードに対する前記ユーザの回答に基づいて正答率を算出し、前記出題したキーワードと該正答率とに関する情報を含む学習履歴を生成する履歴管理部と、を具備し、
    前記第1スコア算出部は、前記学習履歴に応じて、前記正答率が高いほどスコアを低くすることを特徴とする音声学習装置。
  3. 前記パラメータ生成部は、前記スコアが小さいほど、前記タグが付与されない場合の読み上げ方に近くなるように合成パラメータを生成することを特徴とする請求項1または請求項2に記載の音声学習装置。
  4. 前記マーカーは、該マーカーの種類に応じて読み上げ方が異なることを特徴とする請求項1から請求項3のいずれか1項に記載の音声学習装置。
  5. キーワードの属性を示す種別を推定する推定部をさらに具備し、
    前記出題部は、前記キーワードを表す第1文字列を、前記種別を表す第2文字列に変換し、
    前記音声合成部は、前記第2文字列を音声合成することを特徴とする請求項2に記載の音声学習装置。
  6. テキストから所定の文字列を指定するマーカーにより選択された文字列であるキーワードを検出し、
    前記マーカーの種類および前記キーワードの指定方法に基づいて、該キーワードの強調度合いを示すスコアを算出し、
    前記マーカーの種類および前記スコアに応じて、前記キーワードの読み上げ方の度合いを決定する合成パラメータを生成し、
    前記合成パラメータに応じて前記キーワードを読み上げるためのタグを、前記キーワードに付与し、
    前記タグに従い前記キーワードを音声合成した合成音声を生成し、
    他のユーザによる前記キーワードのスコアを示すソーシャルスコアを算出し、
    前記スコアと前記ソーシャルスコアとを用いて統合スコアを算出し、
    前記統合スコアが算出される場合、前記統合スコアに応じて合成パラメータを生成することを特徴とする音声学習方法。
  7. テキストから所定の文字列を指定するマーカーにより選択された文字列であるキーワードを検出し、
    前記マーカーの種類および前記キーワードの指定方法に基づいて、該キーワードの強調度合いを示すスコアを算出し、
    前記マーカーの種類および前記スコアに応じて、前記キーワードの読み上げ方の度合いを決定する合成パラメータを生成し、
    前記合成パラメータに応じて前記キーワードを読み上げるためのタグを、前記キーワードに付与し、
    前記タグに従い前記キーワードを音声合成した合成音声を生成し、
    ユーザに対し、キーワードに関する問いを出題し、
    出題したキーワードに対する前記ユーザの回答に基づいて正答率を算出し、前記出題したキーワードと該正答率とに関する情報を含む学習履歴を生成し、
    前記学習履歴に応じて、前記正答率が高いほどスコアを低くすることを特徴とする音声学習方法。
  8. コンピュータを、
    テキストから所定の文字列を指定するマーカーにより選択された文字列であるキーワードを検出する検出手段と、
    前記マーカーの種類および前記キーワードの指定方法に基づいて、該キーワードの強調度合いを示すスコアを算出する第1スコア算出手段と、
    前記マーカーの種類および前記スコアに応じて、前記キーワードの読み上げ方の度合いを決定する合成パラメータを生成するパラメータ生成手段と、
    前記合成パラメータに応じて前記キーワードを読み上げるためのタグを、前記キーワードに付与する付与手段と、
    前記タグに従い前記キーワードを音声合成した合成音声を生成する音声合成手段と
    他のユーザによる前記キーワードのスコアを示すソーシャルスコアを算出する第2スコア算出手段と、
    前記スコアと前記ソーシャルスコアとを用いて統合スコアを算出する統合手段と、して機能させ、
    前記パラメータ生成手段は、前記統合スコアが算出される場合、前記統合スコアに応じて合成パラメータを生成する音声学習プログラム。
  9. コンピュータを、
    テキストから所定の文字列を指定するマーカーにより選択された文字列であるキーワードを検出する検出手段と、
    前記マーカーの種類および前記キーワードの指定方法に基づいて、該キーワードの強調度合いを示すスコアを算出する第1スコア算出手段と、
    前記マーカーの種類および前記スコアに応じて、前記キーワードの読み上げ方の度合いを決定する合成パラメータを生成するパラメータ生成手段と、
    前記合成パラメータに応じて前記キーワードを読み上げるためのタグを、前記キーワードに付与する付与手段と、
    前記タグに従い前記キーワードを音声合成した合成音声を生成する音声合成手段と、
    ユーザに対し、キーワードに関する問いを出題する出題手段と、
    出題したキーワードに対する前記ユーザの回答に基づいて正答率を算出し、前記出題したキーワードと該正答率とに関する情報を含む学習履歴を生成する履歴管理手段と、して機能させ、
    前記第1スコア算出部は、前記学習履歴に応じて、前記正答率が高いほどスコアを低くする音声学習プログラム。
JP2012180447A 2012-08-16 2012-08-16 音声学習装置、方法およびプログラム Expired - Fee Related JP5634455B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012180447A JP5634455B2 (ja) 2012-08-16 2012-08-16 音声学習装置、方法およびプログラム
US13/966,927 US9466225B2 (en) 2012-08-16 2013-08-14 Speech learning apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012180447A JP5634455B2 (ja) 2012-08-16 2012-08-16 音声学習装置、方法およびプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2014209956A Division JP5813844B2 (ja) 2014-10-14 2014-10-14 音声学習装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2014038209A JP2014038209A (ja) 2014-02-27
JP5634455B2 true JP5634455B2 (ja) 2014-12-03

Family

ID=50100280

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012180447A Expired - Fee Related JP5634455B2 (ja) 2012-08-16 2012-08-16 音声学習装置、方法およびプログラム

Country Status (2)

Country Link
US (1) US9466225B2 (ja)
JP (1) JP5634455B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11244682B2 (en) 2017-07-26 2022-02-08 Sony Corporation Information processing device and information processing method

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102307330B1 (ko) 2014-07-14 2021-09-30 소니그룹주식회사 수신 장치 및 수신 방법
JP2016045835A (ja) * 2014-08-26 2016-04-04 京セラコミュニケーションシステム株式会社 アノテーション共有システム
JP6620437B2 (ja) * 2015-06-24 2019-12-18 カシオ計算機株式会社 学習支援装置およびプログラム
JP6957918B2 (ja) 2017-03-22 2021-11-02 カシオ計算機株式会社 情報表示装置、情報表示方法、及びプログラム
JP6888357B2 (ja) 2017-03-22 2021-06-16 カシオ計算機株式会社 情報表示装置、情報表示方法、及びプログラム
JP6911432B2 (ja) 2017-03-23 2021-07-28 カシオ計算機株式会社 情報表示装置、情報表示装置の制御方法、及び情報表示装置の制御プログラム
US20210133279A1 (en) * 2019-11-04 2021-05-06 Adobe Inc. Utilizing a neural network to generate label distributions for text emphasis selection

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0466998A (ja) * 1990-07-04 1992-03-03 Oki Electric Ind Co Ltd 情報処理装置
JP3282151B2 (ja) * 1993-03-15 2002-05-13 日本電信電話株式会社 音声制御方式
JPH10274999A (ja) 1997-03-31 1998-10-13 Sanyo Electric Co Ltd 文書読み上げ装置
JPH11327870A (ja) 1998-05-15 1999-11-30 Fujitsu Ltd ドキュメント読み上げ装置、読み上げ制御方法及び記 録媒体
US6324511B1 (en) * 1998-10-01 2001-11-27 Mindmaker, Inc. Method of and apparatus for multi-modal information presentation to computer users with dyslexia, reading disabilities or visual impairment
JP2004109842A (ja) * 2002-09-20 2004-04-08 Sharp Corp 電子辞書装置
JP2004246085A (ja) 2003-02-14 2004-09-02 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法、装置及びプログラム
KR20070004788A (ko) * 2004-03-05 2007-01-09 레삭 테크놀로지스 인코포레이티드. 프로소딕 스피치 텍스트 코드 및 컴퓨터화 스피치 시스템내에서의 프로소딕 스피치 텍스트 코드의 사용법
US8265936B2 (en) * 2008-06-03 2012-09-11 International Business Machines Corporation Methods and system for creating and editing an XML-based speech synthesis document
US20130085955A1 (en) * 2011-09-30 2013-04-04 Peter Dugas Systems and methods for managing learning materials

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11244682B2 (en) 2017-07-26 2022-02-08 Sony Corporation Information processing device and information processing method

Also Published As

Publication number Publication date
US9466225B2 (en) 2016-10-11
US20140051042A1 (en) 2014-02-20
JP2014038209A (ja) 2014-02-27

Similar Documents

Publication Publication Date Title
JP5634455B2 (ja) 音声学習装置、方法およびプログラム
US8907195B1 (en) Method and apparatus for musical training
US8364488B2 (en) Voice models for document narration
WO2016185289A1 (en) Device for language teaching with time dependent data memory
US20140278433A1 (en) Voice synthesis device, voice synthesis method, and recording medium having a voice synthesis program stored thereon
JP5634853B2 (ja) 電子コミックのビューワ装置、電子コミックの閲覧システム、ビューワプログラム、ならびに電子コミックの表示方法
CN104008752B (zh) 语音识别装置及方法、以及半导体集成电路装置
JP2014519058A (ja) テキストデータとオーディオデータとの間のマッピングの自動作成
CN101223571A (zh) 音质变化部位确定装置
US11282508B2 (en) System and a method for speech analysis
JP2013072957A (ja) 文書読み上げ支援装置、方法及びプログラム
US11410642B2 (en) Method and system using phoneme embedding
CN107103915A (zh) 一种音频数据处理方法以及装置
JP2016045420A (ja) 発音学習支援装置およびプログラム
CN106611603A (zh) 一种音频处理方法及装置
JP2014038282A (ja) 韻律編集装置、方法およびプログラム
JP5813844B2 (ja) 音声学習装置、方法およびプログラム
JP2013161205A (ja) 情報処理装置、情報処理方法、及びプログラム
JP6728116B2 (ja) 音声認識装置、音声認識方法およびプログラム
JP5079718B2 (ja) 外国語学習支援システム、及びプログラム
CN110299049B (zh) 一种电子乐谱的智能展现方法
JP2006139162A (ja) 語学学習装置
KR100593590B1 (ko) 콘텐츠 자동 생성방법 및 이를 이용한 어학학습방법
CN102542854A (zh) 借助角色扮演学习发音的方法
JP7425243B1 (ja) 情報処理装置及び情報処理方法

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20131219

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20131226

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20140109

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140325

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140522

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140624

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140822

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140916

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141014

R151 Written notification of patent or utility model registration

Ref document number: 5634455

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees