JP2016183992A - 音読評価装置、音読評価方法、及びプログラム - Google Patents

音読評価装置、音読評価方法、及びプログラム Download PDF

Info

Publication number
JP2016183992A
JP2016183992A JP2015062769A JP2015062769A JP2016183992A JP 2016183992 A JP2016183992 A JP 2016183992A JP 2015062769 A JP2015062769 A JP 2015062769A JP 2015062769 A JP2015062769 A JP 2015062769A JP 2016183992 A JP2016183992 A JP 2016183992A
Authority
JP
Japan
Prior art keywords
phrase
score
word
phrases
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015062769A
Other languages
English (en)
Other versions
JP6314884B2 (ja
Inventor
伸行 浅野
Nobuyuki Asano
伸行 浅野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP2015062769A priority Critical patent/JP6314884B2/ja
Publication of JP2016183992A publication Critical patent/JP2016183992A/ja
Application granted granted Critical
Publication of JP6314884B2 publication Critical patent/JP6314884B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Electrically Operated Instructional Devices (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】文脈上重要な部分かどうかに応じて評価を行うことが可能な音読評価装置、音読評価方法、及びプログラムを提供する。
【解決手段】音読評価装置Sは、話者が1以上の文節からなるフレーズを複数含む文を音読したときに発した音声の波形を示す音声波形データに基づいてフレーズ毎に算出された得点を取得する。そして、音読評価装置Sは、上記フレーズ毎の重みを決定し、決定したそれぞれの重みに応じた配点比率をフレーズ毎に決定し、上記取得されたフレーズ毎の得点を、上記決定した配点比率によりフレーズ毎に調整し、調整したフレーズ毎の得点に基づいて、複数のフレーズを含む文全体の音読に対する総得点を算出する。
【選択図】図5

Description

本発明は、話者が文を音読したときに発した音声に基づいて、文の音読に対する評価を行うシステム等の技術分野に関する。
近年、アナウンス評価や歌唱評価等の支援を目的とした様々なシステムが提案されている。例えば特許文献1には、歌唱者の歌唱音声信号から抽出された抑揚(音高)や音量などに基づいて、曲の区間別に歌唱を採点することにより、歌唱の巧拙を正しく採点評価する技術が開示されている。一方、アナウンス評価における評価項目には、抑揚、声量、滑舌、スピードなどがあるが、アナウンスでは、伝えるべき情報を伝えることが重要であり、例えば文の一部が聞き取れなかったとしても、必要な情報が聴者に伝わればアナウンスとしての意味を成していると言える。
特開平10−78749号公報
しかしながら、従来のシステムでは、例えばアナウンス評価の得点化の際に、文脈上重要かを考慮しておらず、一ヶ所ミスが発生した場合は、ミスの発生箇所が文脈上重要かどうかに関わらず、一律で同じ点数しか出すことができなかった。このため、練習者側も表示される点数に対して納得感がなく、高得点を取るためには実際の重要度と関係なく、アナウンス全体を万遍なく練習する必要があった。
本発明は、以上の点に鑑みてなされたものであり、文脈上重要な部分かどうかに応じて評価を行うことが可能な音読評価装置、音読評価方法、及びプログラムを提供する。
上記課題を解決するために、請求項1に記載の発明は、話者が1以上の文節からなるフレーズを複数含む文を音読したときに発した音声の波形を示す音声波形データに基づいて前記フレーズ毎に算出された得点を取得する取得手段と、前記フレーズ毎の重みを決定する第1決定手段と、前記第1決定手段により決定された前記フレーズ毎の重みに応じた配点比率を前記フレーズ毎に決定する第2決定手段と、前記取得手段により取得された前記得点を、前記第2決定手段により決定された前記配点比率により前記フレーズ毎に調整し、調整したフレーズ毎の得点に基づいて、前記複数のフレーズを含む文全体の音読に対する総得点を算出する算出手段と、を備えることを特徴とする。
請求項2に記載の発明は、請求項1に記載の音読評価装置において、前記文を前記複数のフレーズに区分して画面に表示させ、且つ前記複数のフレーズの中で相対的に高い重み付けがなされた前記フレーズを他のフレーズとは異なる表示態様で表示させる表示制御手段を更に備えることを特徴とする。
請求項3に記載の発明は、請求項1または2に記載の音読評価装置において、前記表示制御手段は、前記取得手段により前記フレーズ毎に取得された前記得点と、前記フレーズ毎に調整された得点との少なくとも何れか一方をそれぞれの前記フレーズに対応付けて前記画面に表示させることを特徴とする。
請求項4に記載の発明は、請求項1乃至3の何れか一項に記載の音読評価装置において、前記文のテキストデータを入力する第1入力手段と、前記第1入力手段により入力されたテキストデータが示す文を複数の単語に分解する分解手段と、単語の重要度を規定する参照情報を参照して、前記分解されたそれぞれの前記単語の重要度を特定する第1特定手段と、を更に備え、前記第1決定手段は、前記第1特定手段により特定された前記単語の重要度に基づいて、前記単語により構成されるフレーズの重みを前記フレーズ毎に決定することを特徴とする。
請求項5に記載の発明は、請求項4に記載の音読評価装置において、前記文を音読した得点算出の基準となる音声の波形を示す基準音声波形データを入力する第2入力手段と、前記第2入力手段により入力された基準音声波形データが示す音声の波形に基づいて特定される前記フレーズの時間長を前記フレーズ毎に特定する第2特定手段と、を更に備え前記第1決定手段は、前記第1特定手段により特定された前記単語の重要度と、前記第2特定手段により特定された前記フレーズの時間長とに基づいて、前記単語により構成されるフレーズの重みを前記フレーズ毎に決定することを特徴とする。
請求項6に記載の発明は、話者が複数の文節を含む文を音読したときに発した音声の波形を示す音声波形データに基づいて前記文節毎に算出された得点を取得する取得手段と、前記文節毎の重みを決定する第1決定手段と、前記第1決定手段により決定された前記文節毎の重みに応じた配点比率を前記文節毎に決定する第2決定手段と、前記取得手段により取得された前記得点を、前記第2決定手段により決定された前記配点比率により前記文節毎に調整し、調整した文節毎の得点に基づいて、前記複数の文節を含む文全体の音読に対する総得点を算出する算出手段と、を備えることを特徴とする。
請求項7に記載の発明は、請求項6に記載の音読評価装置において、前記文を前記複数の文節に区分して画面に表示させ、且つ前記複数の文節の中で相対的に高い重み付けがなされた前記文節を他の文節とは異なる表示態様で表示させる表示制御手段を更に備えることを特徴とする。
請求項8に記載の発明は、請求項6または7に記載の音読評価装置において、前記表示制御手段は、前記取得手段により前記文節毎に取得された前記得点と、前記文節毎に調整された得点との少なくとも何れか一方をそれぞれの前記文節に対応付けて前記画面に表示させることを特徴とする。
請求項9に記載の発明は、請求項6乃至8の何れか一項に記載の音読評価装置において、前記文のテキストデータを入力する第1入力手段と、前記第1入力手段により入力されたテキストデータが示す文を複数の単語に分解する分解手段と、単語の重要度を規定する参照情報を参照して、前記分解されたそれぞれの前記単語の重要度を特定する第1特定手段と、を更に備え、前記第1決定手段は、前記第1特定手段により特定された前記単語の重要度に基づいて、前記単語により構成される文節の重みを前記文節毎に決定することを特徴とする。
請求項10に記載の発明は、請求項9に記載の音読評価装置において、前記文を音読した得点算出の基準となる音声の波形を示す基準音声波形データを入力する第2入力手段と、前記第2入力手段により入力された基準音声波形データが示す音声の波形に基づいて特定される前記文節の時間長を前記文節毎に特定する第2特定手段と、を更に備え、前記第1決定手段は、前記第1特定手段により特定された前記単語の重要度と、前記第2特定手段により特定された前記文節の時間長とに基づいて、前記単語により構成される文節の重みを前記文節毎に決定することを特徴とする。
請求項11に記載の発明は、話者が複数の単語を含む文を音読したときに発した音声の波形を示す音声波形データに基づいて前記単語毎に算出された得点を取得する取得手段と、前記文のテキストデータを入力する入力手段と、前記入力手段により入力されたテキストデータが示す文を複数の単語に分解する分解手段と、単語の重要度を規定する参照情報を参照して、前記分解されたそれぞれの前記単語の重要度を特定する特定手段と、前記特定手段により特定された前記単語毎の重要度に応じた配点比率を前記単語毎に決定する決定手段と、前記取得手段により取得された前記得点を、前記決定手段により決定された前記配点比率により前記単語毎に調整し、調整した単語毎の得点に基づいて、前記複数の単語を含む文全体の音読に対する総得点を算出する算出手段と、を備えることを特徴とする。
請求項12に記載の発明は、請求項11に記載の音読評価装置において、前記文を前記複数の単語に区分して画面に表示させ、且つ前記複数の単語の中で相対的に高い重要度が付与された前記単語を他の単語とは異なる表示態様で表示させる表示制御手段を更に備えることを特徴とする。
請求項13に記載の発明は、請求項12に記載の音読評価装置において、前記表示制御手段は、前記取得手段により前記単語毎に取得された前記得点と、前記単語毎に調整された得点との少なくとも何れか一方をそれぞれの前記単語に対応付けて前記画面に表示させることを特徴とする。
請求項14に記載の発明は、1つ以上のコンピュータにより実行される音読評価方法であって、話者が1以上の文節からなるフレーズを複数含む文を音読したときに発した音声の波形を示す音声波形データに基づいて前記フレーズ毎に算出された得点を取得する取得ステップと、前記フレーズ毎の重みを決定する第1決定ステップと、前記第1決定ステップにより決定された前記フレーズ毎の重みに応じた配点比率を前記フレーズ毎に決定する第2決定ステップと、前記取得ステップにより取得された前記得点を、前記第2決定ステップにより決定された前記配点比率により前記フレーズ毎に調整し、調整したフレーズ毎の得点に基づいて、前記複数のフレーズを含む文全体の音読に対する総得点を算出する算出ステップと、を含むことを特徴とする。
請求項15に記載の発明は、話者が複数のフレーズを含む文を音読したときに発した音声の波形を示す音声波形データに基づいて前記フレーズ毎に算出された得点を取得する取得ステップと、前記フレーズ毎の重みを決定する第1決定ステップと、前記第1決定ステップにより決定された前記フレーズ毎の重みに応じた配点比率を前記フレーズ毎に決定する第2決定ステップと、前記取得ステップにより取得された前記得点を、前記第2決定ステップにより決定された前記配点比率により前記フレーズ毎に調整し、調整したフレーズ毎の得点に基づいて、前記複数のフレーズを含む文全体の音読に対する総得点を算出する算出ステップと、をコンピュータに実行させることを特徴とする。
請求項16に記載の発明は、1つ以上のコンピュータにより実行される音読評価方法であって、話者が複数の文節を含む文を音読したときに発した音声の波形を示す音声波形データに基づいて前記文節毎に算出された得点を取得する取得ステップと、前記文節毎の重みを決定する第1決定ステップと、前記第1決定ステップにより決定された前記文節毎の重みに応じた配点比率を前記文節毎に決定する第2決定ステップと、前記取得ステップにより取得された前記得点を、前記第2決定ステップにより決定された前記配点比率により前記文節毎に調整し、調整した文節毎の得点に基づいて、前記複数の文節を含む文全体の音読に対する総得点を算出する算出ステップと、を含むことを特徴とする。
請求項17に記載の発明は、話者が複数の文節を含む文を音読したときに発した音声の波形を示す音声波形データに基づいて前記文節毎に算出された得点を取得する取得ステップと、前記文節毎の重みを決定する第1決定ステップと、前記第1決定ステップにより決定された前記文節毎の重みに応じた配点比率を前記文節毎に決定する第2決定ステップと、前記取得ステップにより取得された前記得点を、前記第2決定ステップにより決定された前記配点比率により前記文節毎に調整し、調整した文節毎の得点に基づいて、前記複数の文節を含む文全体の音読に対する総得点を算出する算出ステップと、をコンピュータに実行させることを特徴とする。
請求項18に記載の発明は、1つ以上のコンピュータにより実行される音読評価方法であって、話者が複数の単語を含む文を音読したときに発した音声の波形を示す音声波形データに基づいて前記単語毎に算出された得点を取得する取得ステップと、前記文のテキストデータを入力する入力ステップと、前記入力ステップにより入力されたテキストデータが示す文を複数の単語に分解する分解ステップと、単語の重要度を規定する参照情報を参照して、前記分解されたそれぞれの前記単語の重要度を特定する特定ステップと、前記特定ステップにより特定された前記単語毎の重要度に応じた配点比率を前記単語毎に決定する決定ステップと、前記取得ステップにより取得された前記得点を、前記決定ステップにより決定された前記配点比率により前記単語毎に調整し、調整した単語毎の得点に基づいて、前記複数の単語を含む文全体の音読に対する総得点を算出する算出ステップと、を含むことを特徴とする。
請求項19に記載の発明は、話者が複数の単語を含む文を音読したときに発した音声の波形を示す音声波形データに基づいて前記単語毎に算出された得点を取得する取得ステップと、前記文のテキストデータを入力する入力ステップと、前記入力ステップにより入力されたテキストデータが示す文を複数の単語に分解する分解ステップと、単語の重要度を規定する参照情報を参照して、前記分解されたそれぞれの前記単語の重要度を特定する特定ステップと、前記特定ステップにより特定された前記単語毎の重要度に応じた配点比率を前記単語毎に決定する決定ステップと、前記取得ステップにより取得された前記得点を、前記決定ステップにより決定された前記配点比率により前記単語毎に調整し、調整した単語毎の得点に基づいて、前記複数の単語を含む文全体の音読に対する総得点を算出する算出ステップと、をコンピュータに実行させることを特徴とする。
請求項1,6,11,14〜19に記載の発明によれば、文脈上重要な部分かどうかに応じて評価を行うことができる。
請求項2,7,12に記載の発明によれば、複数のフレーズ、文節、または単語の中で相対的に高い重み付けがなされたフレーズをユーザに一見して確認させることができる。
請求項3,8,13に記載の発明によれば、フレーズ、文節、または単語毎の得点をユーザに一見して確認させることができる。
請求項4,9に記載の発明によれば、単語単位でフレーズまたは文節の重要度を重みに反映させることができる。
請求項5,10に記載の発明によれば、フレーズまたは文節の重みの適切さを高めることができる。
本実施形態に係る音読評価装置Sの概要構成例を示す図である。 ある評価項目についてのフレーズ毎の得点が配点比率により調整されて文全体の音読に対する総得点が算出される例を示す概念図である。 図2に示す重み付けエンジン内で、フレーズを構成する複数の単語それぞれの重要度に基づいてフレーズ毎に重要度が決定される例を示す概念図である。 話者の音読に対する評価を示す情報を表示する画面例を示す図である。 実施例1における制御部3の音読評価処理の一例を示すフローチャートである。 (A)は、単語の重要度及び単語長に基づいてフレーズの重要度が決定される例を示す概念図である。(B)は、フレーズの重要度及びフレーズ長に基づいてフレーズの重み及び配点比率が決定される例を示す概念図である。 実施例2における制御部3の音読評価処理の一例を示すフローチャートである。 単語毎の得点が配点比率により調整されて文全体の音読に対する総得点が算出される例を示す図である。
以下、本発明の実施形態を図面に基づいて説明する。
[1.音読評価装置Sの構成及び機能]
初めに、図1を参照して、本発明の一実施形態に係る音読評価装置Sの構成及び機能について説明する。図1は、本実施形態に係る音読評価装置Sの概要構成例を示す図である。なお、音読評価装置の一例として、パーソナルコンピュータや、携帯型情報端末(スマートフォン等)などが挙げられる。図1に示すように、音読評価装置Sは、通信部1、記憶部2、制御部3、操作部4、及びインターフェース(IF)部5等を備えて構成され、これらの構成要素はバス6に接続されている。操作部4は、ユーザからの操作指示を受け付け、受け付けた操作に応じた信号を制御部3へ出力する。インターフェース部5には、マイクM、及びディスプレイD等が接続される。マイクMは、語学学習や、アナウンス、朗読などの発声発話訓練等を行う話者が、文(文章)を音読したときに発した音声を集音する。文は、複数のフレーズ、または複数の文節を含む。フレーズは、1以上の文節からなり、一般に一息で話される文節のまとまりである。フレーズと文節は、それぞれ、1以上の単語を含む。そのため、文は、1以上の単語を含む。単語には、名詞、動詞、形容詞、副詞、及び接続詞等の自立語(単独で文節を構成できる品詞)や、助動詞及び助詞等の付属語(単独で文節を構成できない品詞)などがある。音読対象となる文の例として、例えば、語学学習またはアナウンス訓練や朗読訓練などで用いられる文章、または歌唱に用いられる歌詞文などが挙げられる。ディスプレイDは、制御部3からの表示指令にしたがって、例えば、話者の音読に対する評価を示す情報(例えば、得点)を画面に表示する。この評価には、声量の評価、抑揚(音高またはピッチともいう)の評価、滑舌の評価、スピード(音読スピード)の評価、間(間合い)の評価、総合評価などがある。なお、マイクM、及びディスプレイDは、音読評価装置Sと一体型であってもよいし、別体であってもよい。
通信部1は、有線または無線によりネットワーク(図示せず)に接続してサーバ等と通信を行う。記憶部2は、例えばハードディスクドライブ等からなり、OS(オペレーティングシステム)、及び音読評価処理プログラム(本発明のプログラムの一例)等を記憶する。音読評価処理プログラムは、コンピュータとしての制御部3に、後述する音読評価処理を実行させるプログラムである。音読評価処理プログラムは、アプリケーションとして、所定のサーバからダウンロードされてもよいし、CD、DVD等の記録媒体に記憶されて提供されてもよい。また、記憶部2は、上述した文のテキストデータと、この文を音読した得点算出の基準となる音声(例えば、音読するときの手本となる音声)の波形を示す音声波形データ(以下、「基準音声波形データ」という)とを記憶する。ここで、テキストデータには、例えば、各文字の発音タイミング(例えば、発音開始からの経過時間)が文字毎または単語毎に対応付けられて含まれる。なお、基準音声波形データは、所定の音声ファイル形式で記憶される。
また、記憶部2には、単語の重要度を規定する参照情報を登録する単語重要度データベース(DB)が構築される。単語の重要度とは、単語が文中に含まれた場合に文脈上どの程度重要になるかを示す度合である。例えば、固有名詞や、数値を示す単語は、アナウンス等の聞き手に伝えるべき重要な情報ということができるため、このような単語には重要度が高く設定(他の単語と比較して相対的に高い重要度が付与)される。特に、数によって数量や順序を表す数詞は、重要な情報であるため、無条件で重要度が高く設定されるとよい。単語の重要度は、例えば、「小(低)」、「中」、「大(高)」というように文字で表されてもよいし、「1」、「2」、「3」、「4」、「5」というように数値で表されてもよい。これにより、例えば、重要である単語とそうでない単語とに差がつけられる。参照情報には、文に含まれる全ての単語について単語毎に重要度が規定されていてもよいし、重要度が高い単語のみ(または重要度が低い単語のみ)が規定されてもよい。
制御部3は、コンピュータとしてのCPU(Central Processing Unit)、ROM(Read Only Memory)、及びRAM(Random Access Memory)等により構成される。制御部3は、音読評価処理プログラムにより、音声処理部31、音読評価部32、得点調整部33、及び表示制御部34として機能する。音声処理部31、音読評価部32、及び得点調整部33は、本発明における取得手段、第1入力手段、第2入力手段、入力手段、第1決定手段、第2決定手段、決定手段、算出手段、分解手段、第1特定手段、第2特定手段、及び特定手段の一例である。表示制御部34は、本発明における表示制御手段の一例である。
制御部3は、所定の音声ファイル形式で記憶された基準音声波形データを記憶部2から音声処理部31へ入力する。また、制御部3は、話者が上記文を音読したときに発した音声であってマイクMにより集音された音声の波形を示す音声波形データ(以下、「話者音声波形データ」という)を音声処理部31へ入力する。基準音声波形データ及び話者音声波形データを総称して音声波形データという。なお、音声波形データは、離散化された時系列の音圧波形データであり、例えば、サンプリングレート44.1kHz、量子化16bit、及びモノラルの波形データである。なお、音圧とは、音波による空気の圧力の変化分(Pa)をいう。本実施形態では、音圧として、瞬時音圧(Pa)の二乗平均平方根(RMS)である実効音圧(Pa)の大きさを計算上扱い易い数値で表した音圧レベル(dB)を適用する。音圧レベル(dB)は、広義には音量ともいう。音圧レベルは、声量の評価に用いられる。
音声処理部31は、音声波形データから例えば所定時間(例えば、10ms)毎に切り出したデータから音圧レベル(dB)を声量として所定時間毎に(所定時間間隔で)算出する。また、音声処理部31は、音声波形データから例えば所定時間毎に切り出したデータから基本周波数(Hz)を算出し、算出した基本周波数(Hz)を抑揚として所定時間毎に算出する。なお、抑揚の算出方法には、例えば、ゼロクロス法やベクトル自己相関等の公知の手法を適用できる。また、音声処理部31は、滑舌の評価に用いる声道特性を示す特徴量(音響特性)を単語毎に算出する。例えば、音声処理部31は、音声波形データを単語(単語区間)毎に切り出し(例えば、音読された文のテキストデータに基づいて切り出し)、切り出した単語区間のデータを窓掛けで区切って(例えば、25ms毎にフレーム化)、フーリエ解析(FFT)することで振幅スペクトルを求める。そして、音声処理部31は、求めた振幅スペクトルにメルフィルタバンクをかけ、メルフィルタバンクの出力を対数化した値を離散コサイン変換(DCT)することでMFCC(メル周波数ケプストラム係数)を、声道特性を示す特徴量として単語毎に算出する。
また、音声処理部31は、基準音声波形データに基づいて、各フレーズの開始タイミングから終了タイミングまでのフレーズ区間(以下、「基準フレーズ区間」という)をフレーズ毎に特定する。ここで、開始タイミングと終了タイミングは、それぞれ、音声の波形から認識されてもよいし、上述したように算出された音圧レベル(dB)から認識されてもよい。例えば、音声処理部31は、音声の波形の振幅幅が所定値以上になった時点を開始タイミングとして認識する。或いは、音声処理部31は、音圧レベル(dB)が所定値以上になった時点を開始タイミングとして認識する。また、例えば、音声処理部31は、音声の波形の振幅幅が所定値未満になった時点を終了タイミングとして認識する。或いは、音声処理部31は、音圧レベル(dB)が所定値未満になった時点を終了タイミングとして認識する。また、音声処理部31は、複数のフレーズのうち何れかのフレーズの終了タイミングから次のフレーズの開始タイミングまでのインターバル区間(以下、「基準インターバル区間」という)を特定する。また、音声処理部31は、複数の文節のうち何れかの文節の終了タイミングから次の文節の開始タイミングまでの基準インターバル区間を特定してもよい。また、音声処理部31は、例えば、音読された文のテキストデータが示す発音タイミングに基づいて、各単語の単語区間(以下、「基準単語区間」という)を単語毎に特定してもよい。さらに、音声処理部31は、例えば、音読された文のテキストデータが示す発音タイミングに基づいて、各文節の開始タイミングから終了タイミングまでの文節区間(以下、「基準文節区間」という)を、文節毎に特定してもよい。
また、音声処理部31は、話者音声波形データに基づいて、各フレーズの開始タイミングから終了タイミングまでのフレーズ区間(以下、「話者フレーズ区間」という)をフレーズ毎に特定する。また、音声処理部31は、複数のフレーズのうち何れかのフレーズの終了タイミングから次のフレーズの開始タイミングまでのインターバル区間(以下、「話者インターバル区間」という)を特定する。また、音声処理部31は、複数の文節のうち何れかの文節の終了タイミングから次の文節の開始タイミングまでの話者インターバル区間を特定してもよい。また、音声処理部31は、例えば、音読された文のテキストデータが示す発音タイミングに基づいて、各単語の単語区間(以下、「話者単語区間」という)を単語毎に特定してもよい。さらに、音声処理部31は、例えば、音読された文のテキストデータが示す発音タイミングに基づいて、各文節の開始タイミングから終了タイミングまでの文節区間(以下、「話者文節区間」という)を、文節毎に特定してもよい。
以上のようにして特定されたフレーズ区間(または文節区間)、単語区間、及びインターバル区間のデータは、例えば、それぞれの音声波形データの音声ファイルに対応付けられて記憶部2に記憶される。なお、特定された各区間(フレーズ区間(または文節区間)、単語区間、及びインターバル区間)は、例えば波形の開始時点からの時間の範囲(例えば、01:00-03:00)で表される。また、特定された各区間には、それぞれ、例えば先頭から順番にシリアル番号が付与される。
次に、音読評価部32は、基準フレーズ区間の声量と、基準フレーズ区間に対応する(例えばシリアル番号が一致する)話者フレーズ区間の声量とを比較して、声量の評価をフレーズ毎に行う。比較される声量には、例えば上述した音圧レベル(dB)が用いられる。音読評価部32は、例えば、声量の比較結果として、基準フレーズ区間の声量と話者フレーズ区間の声量との差を算出し、この差に基づいて得点(評価点)を算出することで声量の評価を行う。この得点は、例えば、差が0に近いほど、評価が高く(つまり、得点が高く)なるように算出される。つまり、話者の声量が基準の声量よりも大きいまたは小さいほど差が大きくなるので評価は低くなる。一方、話者の声量が基準の声量に近づくほど差が小さくなるので評価は高くなる。このようにしてフレーズ区間毎に声量の評価がなされる(つまり、得点が算出される)。ところで、各フレーズ区間において、所定時間毎に算出された声量を比較する場合、声量の評価は、基準フレーズ区間と話者フレーズ区間との開始の時間位置を合わせて、フレーズ区間を伸縮させてフレーズ区間の時間長を合わせて行われるとよい。このとき、単純に伸縮させて長さを合わせてもよいし、DPマッチング等の手法を使い、フレーズ区間の中で動的に評価する位置を合わせるようにしてもよい。或いは、比較される声量は、各フレーズ区間において所定時間毎に算出された声量の平均値としてもよい。なお、音読評価部32は、フレーズ毎の声量と同様の評価方法で、基準文節区間の声量と、基準文節区間に対応する話者文節区間の声量とを比較して、声量の評価を文節毎に行ってもよい(つまり、文節毎に得点が算出される)。また、音読評価部32は、フレーズ毎の声量と同様の評価方法で、基準単語区間の声量と、基準単語区間に対応する話者単語区間の声量とを比較して、声量の評価を単語毎に行ってもよい(つまり、単語毎に得点が算出される)。
また、音読評価部32は、基準フレーズ区間の抑揚(音高)と、基準フレーズ区間に対応する話者フレーズ区間の抑揚とを比較して、抑揚の評価をフレーズ毎に行う。音読評価部32は、例えば、抑揚の比較結果として、基準フレーズ区間の抑揚と話者フレーズ区間の抑揚との差を算出し、この差に基づいて得点を算出することで抑揚の評価を行う。この得点は、例えば、差が0に近いほど、評価が高く(つまり、得点が高く)なるように算出される。つまり、話者の抑揚が基準の抑揚よりも高いまたは低いほど差が大きくなるので評価は低くなる。一方、話者の抑揚が基準の抑揚に近づくほど差が小さくなるので評価は高くなる。このようにしてフレーズ区間毎に抑揚の評価がなされる(つまり、得点が算出される)。また、声量の場合と同様、抑揚の評価は、基準フレーズ区間と話者フレーズ区間との開始の時間位置を合わせて、フレーズ区間を伸縮させてフレーズ区間の時間長を合わせて行われるとよい。或いは、比較される抑揚は、各フレーズ区間において所定時間毎に算出された抑揚の平均値としてもよい。なお、音読評価部32は、フレーズ毎の抑揚と同様の評価方法で、基準文節区間の抑揚と、基準文節区間に対応する話者文節区間の抑揚とを比較して、抑揚の評価を文節毎に行ってもよい(つまり、文節毎に得点が算出される)。また、音読評価部32は、フレーズ毎の抑揚と同様の評価方法で、基準単語区間の抑揚と、基準単語区間に対応する話者単語区間の抑揚とを比較して、抑揚の評価を単語毎に行ってもよい(つまり、単語毎に得点が算出される)。
また、音読評価部32は、基準単語区間の滑舌と、基準単語区間に対応する話者単語区間の滑舌とを比較して、滑舌の評価を単語毎に行う。音読評価部32は、滑舌の評価では、例えば、単語毎に算出された声道特性を示す特徴量(MFCC)が用いられる。音読評価部32は、例えば、滑舌の比較結果として、基準単語区間の特徴量と話者単語区間の特徴量との類似度を算出し、この類似度に基づいて得点を算出することで滑舌の評価を行う。この得点は、例えば、類似度が高いほど、評価が高く(つまり、得点が高く)なるように算出される。このようにして単語区間毎に滑舌の評価がなされる(つまり、得点が算出される)。更に、音読評価部32は、基準フレーズ区間に含まれる複数の基準単語区間それぞれの特徴量に基づいて(例えば平均して)、基準フレーズ区間の特徴量を基準フレーズ区間毎に算出する。また、音読評価部32は、話者フレーズ区間に含まれる複数の話者単語区間それぞれの特徴量に基づいて(例えば平均して)、話者フレーズ区間の特徴量を話者フレーズ区間毎に算出する。そして、音読評価部32は、例えば、基準フレーズ区間の特徴量と話者フレーズ区間の特徴量との類似度を算出し、この類似度に基づいて得点を算出することで滑舌の評価をフレーズ毎に行う。なお、音読評価部32は、フレーズ毎の滑舌と同様の評価方法で、基準文節区間の滑舌と、基準文節区間に対応する話者文節区間の滑舌とを比較して、滑舌の評価を文節毎に行ってもよい(つまり、文節毎に得点が算出される)。
また、音読評価部32は、基準フレーズ区間の時間長(時間的長さ)と、話者フレーズ区間の時間長とを比較して文を音読するスピード(音読スピード)の評価をフレーズ(つまり、フレーズ区間)毎に行う。音読評価部32は、例えば、時間長の比較結果として、フレーズ毎に、基準フレーズ区間の時間長と話者フレーズ区間の時間長との時間差を算出し、この時間差の絶対値に基づいて得点を算出することでスピードの評価を行う。例えば、時間差の絶対値が0に近いほど、評価が高く(つまり、得点が高く)なるように算出される。つまり、話者のスピードが、基準のスピードよりも速いまたは遅いほど時間差の絶対値が大きくなるので評価は低くなる。一方、話者のスピードが基準のスピードに近づくほど時間差の絶対値が小さくなるので評価は高くなる。このようにしてフレーズ毎にスピードの評価がなされる(つまり、得点が算出される)。なお、音読評価部32は、フレーズ毎のスピードと同様の評価方法で、基準文節区間の時間長と、基準文節区間に対応する話者文節区間の時間長とを比較して、スピードの評価を文節毎に行ってもよい(つまり、文節毎に得点が算出される)。また、音読評価部32は、フレーズ毎のスピードと同様の評価方法で、基準単語区間の時間長と、基準単語区間に対応する話者単語区間の時間長とを比較して、スピードの評価を単語毎に行ってもよい(つまり、単語毎に得点が算出される)。
なお、上述した声量、抑揚、及びスピードの評価それぞれにおいて算出されるフレーズ毎の得点は、それぞれのフレーズを構成する複数の単語それぞれの得点に基づいて算出されてもよい。例えば、フレーズの得点は、このフレーズを構成する複数の単語それぞれの得点の平均点として算出される。或いは、例えば、フレーズの得点は、このフレーズを構成する複数の単語それぞれの得点及び重要度(上述したように単語それぞれに付与された重要度)に基づいて算出される。例えば、フレーズを構成する複数の単語の得点が、それぞれ、5,5,6,7であり、フレーズを構成する複数の単語の重要度が、それぞれ、小,小,大,小であるとする。この場合、重みの比率が「大:小=2:1」の場合、フレーズを構成する複数の単語の重みは、それぞれ、1,1,2,1に決定される。そして、この場合のフレーズの得点は、5×1/5[1/(1+1+2+1)]+5×1/5[1/(1+1+2+1)]+6×2/5[2/(1+1+2+1)]+7×1/5[1/(1+1+2+1)]=5.8として算出される。同様に、声量、抑揚、及びスピードの評価それぞれにおいて算出される文節毎の得点は、それぞれの文節を構成する複数の単語それぞれの得点に基づいて算出されてもよい。
また、音読評価部32は、基準インターバル区間の時間長と、話者インターバル区間の時間長とを比較して文を音読したときの間(間合い)の評価を行う。音読評価部32は、例えば、時間長の比較結果として、基準インターバル区間の時間長と話者インターバル区間の時間長との時間差を算出し、この時間差の絶対値に基づいて得点を算出することで間の評価を行う。また、音読評価部32は、インターバル区間毎の間の評価に基づいて全てのインターバル区間における間の評価を行う。全てのインターバル区間における間の評価では、例えば、インターバル区間毎に算出された間の得点の平均値が全てのインターバル区間における間の総得点として算出される。
得点調整部33は、音読評価部32により音声波形データに基づいてフレーズ毎に算出された得点を、調整対象として設定された評価項目について取得する。例えば、声量、抑揚、スピード、及び滑舌毎に、フレーズ毎の得点が取得される。そして、得点調整部33は、フレーズ毎の重みを決定(つまり、フレーズ毎に重み付けがなされる)し、決定したそれぞれの重みに応じた配点比率をフレーズ毎に決定する。配点比率により配点に傾斜がかけられる。なお、フレーズの重みは、例えば、単語重要度データベースが用いられ、フレーズを構成する複数の単語それぞれの重要度に基づいてフレーズ毎に決定される。これにより、単語単位でフレーズの重要度を重みに反映させることができる。また、フレーズの重みは、フレーズを構成する複数の単語それぞれの重要度と、フレーズ(例えば基準フレーズ区間)の時間長とに基づいてフレーズ毎に決定されるようにすれば、フレーズの重みの適切さを高めることができる。そして、得点調整部33は、上記取得した得点を、上記決定した配点比率によりフレーズ毎に調整し、調整したフレーズ毎の得点に基づいて、複数のフレーズを含む文全体の音読に対する総得点を算出する。例えば、声量、抑揚、スピード、及び滑舌毎に調整されたフレーズ毎の得点に基づいて文全体の音読に対する総得点が算出される。なお、調整後の得点と調整前の得点とは必ずしも異なるとは限らず、同一の場合もある。
図2は、ある評価項目についてのフレーズ毎の得点が配点比率により調整されて文全体の音読に対する総得点が算出される例を示す概念図である。図2の例では、音読された文はフレーズF1〜F4から構成されており、例えば得点調整部33が備える重み付けエンジン(ソフトウェアモジュール)より、フレーズF1〜F4の重要度が、それぞれ、「小」,「大」,「小」,「大」に決定されている。重みの比率が「大:小=2:1」に設定されている場合、フレーズF1〜F4の重みは、図2に示すように、それぞれ、「1」,「2」,「1」,「2」に決定される。これにより、フレーズF1〜F4の重みに応じた配点比率は、それぞれ、「1/6[1/(1+2+1+2)]」,「1/3[2/(1+2+1+2)]」,「1/6[1/(1+2+1+2)]」,「1/3[2/(1+2+1+2)]」に決定される。そして、フレーズF1〜F4の得点(10点,9点,8点,7点)それぞれに、フレーズF1〜F4の配点比率それぞれが乗算されることで得点が調整され、調整されたフレーズ毎の得点の合計が総得点(8.33点)として算出されている。ここで、図2の例では、フレーズF1〜F4の得点(10点,9点,8点,7点)は、配点(=満点)を10点としたときの得点になっている。なお、別の例として、仮に、フレーズF1〜F4の重要度が、それぞれ、「中」,「大」,「小」,「大」であり、重みの比率が「大:中:小=3:2:1」に設定されている場合、フレーズF1〜F4の重みは、それぞれ、「2」,「3」,「1」,「3」に決定されることになる。この場合、フレーズF1〜F4の重みに応じた配点比率は、それぞれ、「2/9[2/(2+3+1+3)]」,「1/3[3/(2+3+1+3)]」,「1/9[1/(2+3+1+3)]」,「1/3[3/(2+3+1+3)]」に決定される。
図3は、図2に示す重み付けエンジン内で、フレーズを構成する複数の単語それぞれの重要度に基づいてフレーズ毎に重要度が決定される例を示す概念図である。図3の例では、フレーズF1を構成する複数の単語の重要度は、単語重要度データベースにより、それぞれ、「小」,「小」になっている。これにより、フレーズF1を構成する単語の重みは、それぞれ、「1」,「1」に決定されている。フレーズF2〜F4を構成する複数の単語の重みについても、同様に決定される。そして、フレーズF1を構成する複数の単語の重みの平均値は「1」であり、フレーズF2を構成する複数の単語の重みの平均値は「1.2(便宜上、小数点以下2桁目以降を切り捨て)」であり、フレーズF3を構成する複数の単語の重みの平均値は「1」であり、フレーズF4を構成する複数の単語の重みの平均値は「1.2」である。これにより、フレーズF1〜F4の重要度は、それぞれ、「小」,「大」,「小」,「大」に決定されている。なお、単語の重みの数値のとり方は一例であり、単語の重要度に応じて単語間で差がつけばどのような数値をとってもよい。
また、得点調整部33は、音読評価部32により音声波形データに基づいて文節毎に算出された得点を所定の評価項目について取得してもよい。この場合、得点調整部33は、フレーズの場合と同様に、文節毎の重みを決定し(つまり、文節毎に重み付けがなされる)、決定したそれぞれの重みに応じた配点比率を文節毎に決定する。そして、得点調整部33は、フレーズの場合と同様に、上記取得した得点を、上記決定した配点比率により文節毎に調整し、調整した文節毎の得点に基づいて、複数の文節を含む文全体の音読に対する総得点を算出する。また、得点調整部33は、音読評価部32により音声波形データに基づいて単語毎に算出された得点を所定の評価項目について取得してもよい。この場合、得点調整部33は、単語毎の重要度を単語重要度データベースから特定し、特定された単語毎の重要度が反映された重みに応じた配点比率を単語毎に決定する。そして、得点調整部33は、取得した得点を、決定した配点比率により単語毎に調整し、調整した単語毎の得点に基づいて、複数の単語を含む文全体の音読に対する総得点を算出する。
音読評価部32は、各評価項目(例えば、声量、抑揚、滑舌、スピード、間)について算出された総得点に基づいて、文全体の音読に対する総合評価を行う。この総合評価では、例えば、各評価項目(例えば、声量、抑揚、滑舌、スピード、間)について算出された総得点の合計が、文全体の音読に対する総合得点として算出される。
表示制御部34は、文を複数のフレーズに区分して画面に表示させ、且つ複数のフレーズの中で相対的に高い重み付けがなされたフレーズを他のフレーズとは異なる表示態様で表示させる。これにより、複数のフレーズの中で相対的に高い重み付けがなされたフレーズをユーザに一見して確認させることができる。このとき、表示制御部34は、フレーズ毎に取得(算出)された得点(つまり、得点調整部33により調整される前の得点)と、フレーズ毎に調整された得点との少なくとも何れか一方をそれぞれのフレーズに対応付けて画面に表示させるとよい。これにより、相対的に高い重み付けがなされたフレーズ毎の得点についてもユーザに一見して確認させることができる。
図4(A),(B)は、話者の音読に対する評価を示す情報を表示する画面例を示す図である。図4(A)に示す画面には、グラフ表示部51、フレーズ表示部52、フレーズ得点表示部53、及び総得点表示部54が設けられている。グラフ表示部51には、基準音声波形データに基づいて所定時間毎に算出された抑揚の時系列的な変化を表すグラフ51aと、話者音声波形データに基づいて所定時間毎に算出された抑揚の時系列的な変化を表すグラフ51bと、基準音声波形データに基づいて所定時間毎に算出された声量の時系列的な変化を表すグラフ51cと、話者音声波形データに基づいて所定時間毎に算出された声量の時系列的な変化を表すグラフ51dとがフレーズ毎に区分されて表示されている。
フレーズ表示部52には、文が複数のフレーズに区分されて表示されている。フレーズ得点表示部53には、フレーズ表示部52に表示された各フレーズに対応する評価項目(例えば、滑舌)の得点を表示する表示欄53a〜53dが各フレーズに対応付けられて設けられている。表示制御部34は、これらの表示欄53a〜53dのうち、相対的に高い重み付けがなされたフレーズに対応する表示欄53b及び53dの欄内の色(つまり、得点の背景色)を、相対的に低い重み付けがなされたフレーズに対応する表示欄53a及び53cの欄内の色と異ならせることで表示欄53b及び53dの欄内を強調表示させている。これにより、ユーザは、文に含まれる複数のフレーズの中で相対的に高い重み付けがなされたフレーズを判別することができる。なお、相対的に高い重み付けがなされたフレーズに対応する表示欄53b及び53dの欄内の模様が、相対的に低い重み付けがなされたフレーズに対応する表示欄53a及び53cの欄内の模様と異なるように表示させてもよい。表示欄53a〜53dに表示された各得点(10点,9点,8点,7点)に対して、それぞれに対応する配点比率が乗算されることで得点が調整され、調整されたフレーズ毎の得点の合計が総得点(8.33点/10点)として算出されることになる。
なお、フレーズに対応する表示欄53a〜53dには、得点調整部33により調整される前の得点が表示されているが、得点調整部33により調整された後の得点が表示されてもよい。或いは、フレーズに対応する表示欄53a〜53dには、得点調整部33により調整される前の得点と、得点調整部33により調整された後の得点とが併記されて表示されてもよい。また、表示制御部34は、例えば、総得点表示部54に表示された評価項目のうちから選択された評価項目(この例では、抑揚)に対応するフレーズ得点表示部53を表示(つまり、切り替え表示)させている。別の例として、画面には、評価対象となった全ての評価項目に対応するフレーズ得点表示部53が設けられてもよい。
総得点表示部54には、評価対象となった全ての評価項目について算出された総得点と、総合評価について算出された総合得点とが表示されている。表示された総得点のうち、調整対象となった評価項目(例えば、声量、抑揚、滑舌、スピード)の総得点は、上述したように、得点調整部33により調整されたフレーズ毎の得点に基づいて算出された総得点である。なお、総得点表示部54内で総得点及び総合得点の右側(/の右側)には、それぞれの配点が表示されている。この例では、5種類の評価項目それぞれの配点は20点であり、総合評価の配点は100点である。このため、図4(A)の例では、滑舌について算出された総得点(8.33点/10点)は、2倍された総得点(16.7点/20点)で表示されている。
一方、図4(B)に示す画面の構成は、図4(A)に示す画面の構成と基本的に同じであるが、フレーズ得点表示部55における表示欄55a〜55dには、「得点/配点」の形式で表示されており、特に、相対的に高い重み付けがなされたフレーズに対応する表示欄55b及び55dにおける得点と配点には、それぞれ重み「2」が乗算されて表示されている。これにより、どのフレーズの配点が高いか(つまり、重要なのか)をユーザに対して明示的に示すことができる。
なお、表示制御部34は、文を複数の文節に区分して画面に表示させ、且つ複数の文節の中で相対的に高い重み付けがなされた文節を他の文節とは異なる表示態様で表示させてもよい。このとき、表示制御部34は、文節毎に取得された得点と、文節毎に調整された得点との少なくとも何れか一方をそれぞれの文節に対応付けて画面に表示させるとよい。また、表示制御部34は、文を複数の単語に区分して画面に表示させ、且つ複数の単語の中で相対的に高い重要度が付与された単語を他の単語とは異なる表示態様で表示させてもよい。このとき、表示制御部34は、単語毎に取得された得点と、単語毎に調整された得点との少なくとも何れか一方をそれぞれの単語に対応付けて画面に表示させるとよい。
[2.音読評価装置Sの動作例]
次に、音読評価装置Sの動作の一例について、実施例1と実施例2に分けて説明する。実施例1では、所定の評価項目についての文全体の音読に対する総得点がフレーズ毎または文節毎の得点に基づいて算出される場合の例である。実施例2では、所定の評価項目についての文全体の音読に対する総得点が単語毎の得点に基づいて算出される場合の例である。
(実施例1)
先ず、図5等を参照して、実施例1における制御部3の音読評価処理について説明する。図5は、実施例1における制御部3の音読評価処理の一例を示すフローチャートである。なお、以下に説明する音読評価処理では、複数のフレーズを含む文を例にとって説明するが、処理内容は複数の文節を含む文に対しても同じように適用できる。また、以下に説明する音読評価処理の前提として、基準音声波形データに基づいて特定された基準フレーズ区間、基準インターバル区間及び基準単語区間のデータと、基準音声波形データに基づいて所定時間毎に算出された声量及び抑揚のデータと、基準音声波形データに基づいて基準フレーズ区間毎に算出された声道の特徴量(MFCC)のデータとが、例えば、基準音声波形データの音声ファイルに対応付けられて記憶部2に記憶されているものとする。
図5に示す処理は、例えば、話者が操作部4を介して、音読に対する得点算出の基準(お手本)となる所望の音声ファイルを指定して開始指示を行うことにより開始される。図5に示す処理が開始されると、制御部3は、マイク入力をオンにし、上記指定された音声ファイルに対応付けられた文のテキストデータ、基準フレーズ区間、基準インターバル区間、基準単語区間、声量、抑揚、及び声道の特徴量(MFCC)のデータを記憶部2から入力する(ステップS1)。入力されたデータは、RAMに記憶される。なお、基準フレーズ区間、及び基準インターバル区間には、それぞれ、シリアル番号が付与される。基準単語区間は、これを含む基準フレーズ区間に対応付けられている。そして、話者が文の音読を開始すると、この文の音読中の発せられた音声がマイクMにより集音され、集音された音声の波形を示す話者音声波形データが、インターフェース部5を介して音読評価装置Sに入力される。
音読評価装置Sの制御部3は、入力された話者音声波形データを記憶部2に記憶(録音)しつつ、入力された話者音声波形データに基づいて、上述したように、話者フレーズ区間、及び話者インターバル区間を順次特定する(ステップS2)。特定された話者フレーズ区間及び話者インターバル区間のデータには、それぞれ、シリアル番号が付与されてRAMに記憶される。こうして記憶された各話者フレーズ区間、及び各話者インターバル区間のデータは、後述する評価に用いられる。
次いで、制御部3は、入力された話者音声波形データに基づいて、上述したように、所定時間毎に声量及び抑揚を算出し、且つ、話者フレーズ区間毎に声道の特徴量(MFCC)を算出する(ステップS3)。算出された声量、抑揚、及び声道の特徴量(MFCC)のデータはRAMに記憶される。こうして記憶された声量、抑揚、及び声道の特徴量(MFCC)のデータは、後述する評価に用いられる。次いで、制御部3は、基準フレーズ区間の抑揚と話者フレーズ区間の抑揚とをシリアル番号順に比較して抑揚の評価を行う(ステップS4)。抑揚の評価により、上述したように、フレーズ毎の抑揚の得点が算出され、例えば文のテキストデータが示すフレーズ毎に対応付けられて記憶部2に記憶される。
次いで、制御部3は、基準フレーズ区間の声量と話者フレーズ区間の声量とをシリアル番号順に比較して声量の評価を行う(ステップS5)。声量の評価により、上述したように、フレーズ毎の声量の得点が算出され、例えば文のテキストデータが示すフレーズ毎に対応付けられて記憶部2に記憶される。次いで、制御部3は、基準フレーズ区間の声道特性を示す特徴量(MFCC)と話者フレーズ区間の声道特性を示す特徴量(MFCC)とをシリアル番号順に比較して滑舌の評価を行う(ステップS6)。滑舌の評価により、上述したように、フレーズ毎の滑舌の得点が算出され、例えば文のテキストデータが示すフレーズ毎に対応付けられて記憶部2に記憶される。
次いで、制御部3は、基準フレーズ区間の時間長と話者フレーズ区間の時間長とをシリアル番号順に比較してスピードの評価を行う(ステップS7)。スピードの評価により、上述したように、フレーズ毎のスピードの得点が算出され、例えば文のテキストデータが示すフレーズ毎に対応付けられて記憶部2に記憶される。次いで、制御部3は、基準インターバル区間の時間長と話者インターバル区間の時間長とをシリアル番号順に比較して間の評価を行う(ステップS8)。間の評価により、上述したように、全てのインターバル区間における間の総得点が算出され、記憶部2に記憶される。
次いで、制御部3は、ステップS1で入力されたテキストデータが示す文をフレーズ毎に複数の単語に分解する(ステップS9)。次いで、制御部3は、単語重要度データベースに登録された、単語の重要度を規定する参照情報を参照して、ステップS9で分解されたそれぞれの単語の重要度を特定する(ステップS10)。次いで、制御部3は、ステップS10により特定された単語の重要度に基づいて、例えば図3に示すように、フレーズの重要度をフレーズ毎に決定する(ステップS11)。なお、フレーズの重要度は、単語の重要度と、単語の基準単語区間の時間長(以下、「単語長」という)とに基づいて決定されてもよい。
図6(A)は、単語の重要度及び単語長に基づいてフレーズの重要度が決定される例を示す概念図である。図6(A)の例では、フレーズF11を構成する複数の単語の重要度は、それぞれ、「小」,「小」,「小」になっている。これにより、フレーズF11を構成する複数の単語の重みは、それぞれ、「1」,「1」,「1」に決定されている。また、フレーズF11を構成する複数の単語の単語長は、それぞれ、「0.5秒」,「0.75秒」,「0.75秒」になっている。そして、これらの単語の重み及び単語長に基づいて、図6(A)に示す計算式(1)により算出された値に応じた重要度が、フレーズF11の重要度として決定されることになる。同様に、図6(A)に示す計算式(2)により算出された値に応じた重要度が、フレーズF12の重要度として決定されることになる。
次いで、制御部3は、ステップS1で入力された基準フレーズ区間のデータから、基準フレーズ区間の時間長(基準音声波形データが示す音声の波形に基づいて特定されたフレーズの時間長、以下、「フレーズ長」という))をフレーズ毎に特定する(ステップS12)。次いで、制御部3は、ステップS11で決定されたフレーズの重要度と、ステップS12で特定されたフレーズ長とに基づいて、フレーズの重みをフレーズ毎に決定する(ステップS13)。次いで、制御部3は、ステップS13で決定された重みに応じた配点比率をフレーズ毎に決定する(ステップS14)。
図6(B)は、フレーズの重要度及びフレーズ長に基づいてフレーズの重み及び配点比率が決定される例を示す概念図である。フレーズF11〜F13の重要度は、それぞれ、小,大,大になっている。一方、フレーズF11〜F13のフレーズ長は、それぞれ、「2秒」,「1秒」,「2秒」になっている。そして、重みの比率が「大:小=2:1」及び「2秒:1秒=2:1」に設定されている場合、図6(B)に示すように、フレーズF11〜F13の全体重みは、それぞれ、「2」,「2」,「4」に決定される。これにより、フレーズF11〜F13の重みに応じた配点比率は、それぞれ、「1/4」,「1/4」,「1/2」に決定される。
なお、制御部3は、ステップS11で決定されたフレーズの重要度のみに基づいてフレーズの重みをフレーズ毎に決定するように構成してもよい。
次いで、制御部3は、ステップS4〜S7で算出された、各評価項目についてのフレーズ毎の得点(つまり、抑揚、声量、滑舌、及びスピードの得点)をそれぞれ取得する(ステップS15)。次いで、制御部3は、ステップS15で取得した得点に対して、ステップS14で決定した配点比率を乗算することでフレーズ毎に得点を調整する(ステップS16)。このような得点の調整は、評価項目毎に実行される。
次いで、制御部3は、ステップS16で調整されたフレーズ毎の得点に基づいて、文全体の音読に対する総得点を算出する(ステップS17)。例えば、フレーズ毎に調整された得点の総和が総得点として算出される。このような総得点の算出は、評価項目毎に実行される。次いで、制御部3は、ステップS8で算出された間の総得点と、ステップS17で算出された各評価項目の総得点とに基づいて文全体の音読に対する総合得点を算出する(ステップS18)。次いで、制御部3は、ステップS1〜S18で得られた得点等の情報に基づいて、図4(A)又は(B)に示すように、話者の音読に対する評価を示す情報を表示する画面をディスプレイDに表示させる(ステップS19)。
以上説明したように、上記実施例1によれば、音読評価装置Sは、フレーズ(または文節)毎の重みを決定し、決定したそれぞれの重みに応じた配点比率をフレーズ(または文節)毎に決定し、音読に対する所定の評価項目についてフレーズ(または文節)毎に評価された得点を、上記決定した配点比率によりフレーズ(または文節)毎に調整し、調整したフレーズ(または文節)毎の得点に基づいて、複数のフレーズ(または文節)を含む文全体の音読に対する総得点を算出するように構成したので、文脈上重要な部分かどうかに応じて評価を行うことができる。これにより、話者(練習者)は文脈上の重要な位置(フレーズ箇所等)が分かるため、どこに注力すべきかが分かり、得点算出の納得感が上がる。そのため、例えばアナウンス全体を万遍なく練習するのではなく、文脈上の重要な位置を重点的に練習することができる。
(実施例2)
次に、図7等を参照して、実施例2における制御部3の音読評価処理について説明する。図7は、実施例2における制御部3の音読評価処理の一例を示すフローチャートである。なお、以下に説明する音読評価処理の前提として、基準音声波形データに基づいて特定された基準単語区間及び基準インターバル区間のデータと、基準音声波形データに基づいて所定時間毎に算出された声量及び抑揚のデータと、基準音声波形データに基づいて単語(話者単語区間)毎に算出された声道の特徴量(MFCC)のデータとが、例えば、基準音声波形データの音声ファイルに対応付けられて記憶部2に記憶されているものとする。
図7に示す処理は、図5に示す処理と同様に開始される。図7に示す処理が開始されると、制御部3は、マイク入力をオンにし、指定された音声ファイルに対応付けられた文のテキストデータ、基準単語区間、基準インターバル区間、声量、抑揚、及び声道の特徴量(MFCC)のデータを記憶部2から入力する(ステップS21)。なお、基準単語区間、及び基準インターバル区間には、それぞれ、シリアル番号が付与される。そして、話者が文の音読を開始すると、この文の音読中に発せられた音声がマイクMにより集音され、集音された音声の波形を示す話者音声波形データが、インターフェース部5を介して音読評価装置Sに入力される。
音読評価装置Sの制御部3は、入力された話者音声波形データを記憶部2に記憶しつつ、入力された話者音声波形データに基づいて、上述したように、話者単語区間、及び話者インターバル区間を順次特定する(ステップS22)。特定された話者単語区間及び話者インターバル区間のデータには、それぞれ、シリアル番号が付与されてRAMに記憶される。
次いで、制御部3は、入力された話者音声波形データに基づいて、上述したように、所定時間毎に声量及び抑揚を算出し、且つ、話者単語区間毎に声道の特徴量(MFCC)を算出する(ステップS23)。算出された声量、抑揚、及び声道の特徴量(MFCC)のデータはRAMに記憶される。次いで、制御部3は、基準単語区間の抑揚と話者単語区間の抑揚とをシリアル番号順に比較して抑揚の評価を行う(ステップS24)。抑揚の評価により、上述したように、単語毎の抑揚の得点が算出され、記憶部2に記憶される。
次いで、制御部3は、基準単語区間の声量と話者単語区間の声量とをシリアル番号順に比較して声量の評価を行う(ステップS25)。声量の評価により、上述したように、単語毎の声量の得点が算出され、記憶部2に記憶される。次いで、制御部3は、基準単語区間の声道特性を示す特徴量(MFCC)と話者単語区間の声道特性を示す特徴量(MFCC)とをシリアル番号順に比較して滑舌の評価を行う(ステップS26)。滑舌の評価により、上述したように、単語毎の滑舌の得点が算出され、記憶部2に記憶される。
次いで、制御部3は、基準単語区間の時間長と話者単語区間の時間長とをシリアル番号順に比較してスピードの評価を行う(ステップS27)。スピードの評価により、上述したように、単語毎のスピードの得点が算出され、記憶部2に記憶される。次いで、制御部3は、基準インターバル区間の時間長と話者インターバル区間の時間長とをシリアル番号順に比較して間の評価を行う(ステップS28)。間の評価により、上述したように、全てのインターバル区間における間の総得点が算出され、記憶部2に記憶される。
次いで、制御部3は、ステップS21で入力されたテキストデータが示す文を複数の単語に分解する(ステップS29)。次いで、制御部3は、単語重要度データベースに登録された、単語の重要度を規定する参照情報を参照して、ステップS29で分解されたそれぞれの単語の重要度を特定する(ステップS30)。次いで、制御部3は、ステップS21で入力された基準単語区間のデータから、単語長を単語毎に特定する(ステップS31)。
次いで、制御部3は、ステップS30で決定された単語の重要度と、ステップS31で特定された単語長とに基づいて、単語の重みを単語毎に決定する(ステップS32)。次いで、制御部3は、ステップS32で決定された重みに応じた配点比率を単語毎に決定する(ステップS33)。なお、制御部3は、ステップS30で決定された単語の重要度のみに基づいて単語の重みを単語毎に決定するように構成してもよい。
次いで、制御部3は、ステップS24〜S27で算出された、各評価項目についての単語毎の得点(つまり、抑揚、声量、滑舌、及びスピードの得点)をそれぞれ取得する(ステップS34)。次いで、制御部3は、ステップS34で取得した得点に対して、ステップS33で決定した配点比率を乗算することで単語毎に得点を調整する(ステップS35)。このような得点の調整は、評価項目毎に実行される。
次いで、制御部3は、ステップS35で調整された単語毎の得点に基づいて、文全体の音読に対する総得点を算出する(ステップS36)。例えば、単語毎に調整された得点の総和が総得点として算出される。このような総得点の算出は、評価項目毎に実行される。
図8は、単語毎の得点が配点比率により調整されて文全体の音読に対する総得点が算出される例を示す概念図である。図8の例では、重みの比率が「大:小=2:1」及び「1.0秒:0.5秒=2:1」に設定されており、これにより、単語W1〜W7の重みは、それぞれ、「2」,「2」,「1」,「1」,「1」,「2」,「1」に決定されている。そして、単語W1〜W7の得点(10点満点中、6点,5点,4点,8点,7点,10点,6点)それぞれに、単語W1〜W7の配点比率それぞれが乗算されることで得点が調整され、調整された単語毎の得点の合計が総得点(7.23点/10点)として算出されている。
次いで、制御部3は、ステップS28で算出された間の総得点と、ステップS36で算出された各評価項目の総得点とに基づいて文全体の音読に対する総合得点を算出する(ステップS37)。次いで、制御部3は、ステップS21〜S37で得られた得点等の情報に基づいて、話者の音読に対する評価を示す情報を表示する画面をディスプレイDに表示させる(ステップS38)。
以上説明したように、上記実施例2によれば、音読評価装置Sは、単語毎の重要度を単語重要度データベースから特定し、特定された単語毎の重要度が反映された重みに応じた配点比率を単語毎に決定し、音読に対する所定の評価項目について単語毎に評価された得点を、決定した配点比率により単語毎に調整し、調整した単語毎の得点に基づいて、複数の単語を含む文全体の音読に対する総得点を算出するように構成したので、単語重要度データベースから迅速に単語毎の重要度を特定して、文脈上重要な部分かどうかに応じて評価を行うことができる。これにより、話者は文脈上の重要な位置(単語部分)が分かるため、どこに注力すべきかが分かり、得点算出の納得感が上がる。そのため、例えばアナウンス全体を万遍なく練習するのではなく、文脈上の重要な位置を重点的に練習することができる。
1 通信部
2 記憶部
3 制御部
4 操作部
5 インターフェース部
6 バス
S 音読評価装置

Claims (19)

  1. 話者が1以上の文節からなるフレーズを複数含む文を音読したときに発した音声の波形を示す音声波形データに基づいて前記フレーズ毎に算出された得点を取得する取得手段と、
    前記フレーズ毎の重みを決定する第1決定手段と、
    前記第1決定手段により決定された前記フレーズ毎の重みに応じた配点比率を前記フレーズ毎に決定する第2決定手段と、
    前記取得手段により取得された前記得点を、前記第2決定手段により決定された前記配点比率により前記フレーズ毎に調整し、調整したフレーズ毎の得点に基づいて、前記複数のフレーズを含む文全体の音読に対する総得点を算出する算出手段と、
    を備えることを特徴とする音読評価装置。
  2. 前記文を前記複数のフレーズに区分して画面に表示させ、且つ前記複数のフレーズの中で相対的に高い重み付けがなされた前記フレーズを他のフレーズとは異なる表示態様で表示させる表示制御手段を更に備えることを特徴とする請求項1に記載の音読評価装置。
  3. 前記表示制御手段は、前記取得手段により前記フレーズ毎に取得された前記得点と、前記フレーズ毎に調整された得点との少なくとも何れか一方をそれぞれの前記フレーズに対応付けて前記画面に表示させることを特徴とする請求項1または2に記載の音読評価装置。
  4. 前記文のテキストデータを入力する第1入力手段と、
    前記第1入力手段により入力されたテキストデータが示す文を複数の単語に分解する分解手段と、
    単語の重要度を規定する参照情報を参照して、前記分解されたそれぞれの前記単語の重要度を特定する第1特定手段と、
    を更に備え、
    前記第1決定手段は、前記第1特定手段により特定された前記単語の重要度に基づいて、前記単語により構成されるフレーズの重みを前記フレーズ毎に決定することを特徴とする請求項1乃至3の何れか一項に記載の音読評価装置。
  5. 前記文を音読した得点算出の基準となる音声の波形を示す基準音声波形データを入力する第2入力手段と、
    前記第2入力手段により入力された基準音声波形データが示す音声の波形に基づいて特定される前記フレーズの時間長を前記フレーズ毎に特定する第2特定手段と、を更に備え
    前記第1決定手段は、前記第1特定手段により特定された前記単語の重要度と、前記第2特定手段により特定された前記フレーズの時間長とに基づいて、前記単語により構成されるフレーズの重みを前記フレーズ毎に決定することを特徴とする請求項4に記載の音読評価装置。
  6. 話者が複数の文節を含む文を音読したときに発した音声の波形を示す音声波形データに基づいて前記文節毎に算出された得点を取得する取得手段と、
    前記文節毎の重みを決定する第1決定手段と、
    前記第1決定手段により決定された前記文節毎の重みに応じた配点比率を前記文節毎に決定する第2決定手段と、
    前記取得手段により取得された前記得点を、前記第2決定手段により決定された前記配点比率により前記文節毎に調整し、調整した文節毎の得点に基づいて、前記複数の文節を含む文全体の音読に対する総得点を算出する算出手段と、
    を備えることを特徴とする音読評価装置。
  7. 前記文を前記複数の文節に区分して画面に表示させ、且つ前記複数の文節の中で相対的に高い重み付けがなされた前記文節を他の文節とは異なる表示態様で表示させる表示制御手段を更に備えることを特徴とする請求項6に記載の音読評価装置。
  8. 前記表示制御手段は、前記取得手段により前記文節毎に取得された前記得点と、前記文節毎に調整された得点との少なくとも何れか一方をそれぞれの前記文節に対応付けて前記画面に表示させることを特徴とする請求項6または7に記載の音読評価装置。
  9. 前記文のテキストデータを入力する第1入力手段と、
    前記第1入力手段により入力されたテキストデータが示す文を複数の単語に分解する分解手段と、
    単語の重要度を規定する参照情報を参照して、前記分解されたそれぞれの前記単語の重要度を特定する第1特定手段と、
    を更に備え、
    前記第1決定手段は、前記第1特定手段により特定された前記単語の重要度に基づいて、前記単語により構成される文節の重みを前記文節毎に決定することを特徴とする請求項6乃至8の何れか一項に記載の音読評価装置。
  10. 前記文を音読した得点算出の基準となる音声の波形を示す基準音声波形データを入力する第2入力手段と、
    前記第2入力手段により入力された基準音声波形データが示す音声の波形に基づいて特定される前記文節の時間長を前記文節毎に特定する第2特定手段と、を更に備え、
    前記第1決定手段は、前記第1特定手段により特定された前記単語の重要度と、前記第2特定手段により特定された前記文節の時間長とに基づいて、前記単語により構成される文節の重みを前記文節毎に決定することを特徴とする請求項9に記載の音読評価装置。
  11. 話者が複数の単語を含む文を音読したときに発した音声の波形を示す音声波形データに基づいて前記単語毎に算出された得点を取得する取得手段と、
    前記文のテキストデータを入力する入力手段と、
    前記入力手段により入力されたテキストデータが示す文を複数の単語に分解する分解手段と、
    単語の重要度を規定する参照情報を参照して、前記分解されたそれぞれの前記単語の重要度を特定する特定手段と、
    前記特定手段により特定された前記単語毎の重要度に応じた配点比率を前記単語毎に決定する決定手段と、
    前記取得手段により取得された前記得点を、前記決定手段により決定された前記配点比率により前記単語毎に調整し、調整した単語毎の得点に基づいて、前記複数の単語を含む文全体の音読に対する総得点を算出する算出手段と、
    を備えることを特徴とする音読評価装置。
  12. 前記文を前記複数の単語に区分して画面に表示させ、且つ前記複数の単語の中で相対的に高い重要度が付与された前記単語を他の単語とは異なる表示態様で表示させる表示制御手段を更に備えることを特徴とする請求項11に記載の音読評価装置。
  13. 前記表示制御手段は、前記取得手段により前記単語毎に取得された前記得点と、前記単語毎に調整された得点との少なくとも何れか一方をそれぞれの前記単語に対応付けて前記画面に表示させることを特徴とする請求項12に記載の音読評価装置。
  14. 1つ以上のコンピュータにより実行される音読評価方法であって、
    話者が1以上の文節からなるフレーズを複数含む文を音読したときに発した音声の波形を示す音声波形データに基づいて前記フレーズ毎に算出された得点を取得する取得ステップと、
    前記フレーズ毎の重みを決定する第1決定ステップと、
    前記第1決定ステップにより決定された前記フレーズ毎の重みに応じた配点比率を前記フレーズ毎に決定する第2決定ステップと、
    前記取得ステップにより取得された前記得点を、前記第2決定ステップにより決定された前記配点比率により前記フレーズ毎に調整し、調整したフレーズ毎の得点に基づいて、前記複数のフレーズを含む文全体の音読に対する総得点を算出する算出ステップと、
    を含むことを特徴とする音読評価方法。
  15. 話者が複数のフレーズを含む文を音読したときに発した音声の波形を示す音声波形データに基づいて前記フレーズ毎に算出された得点を取得する取得ステップと、
    前記フレーズ毎の重みを決定する第1決定ステップと、
    前記第1決定ステップにより決定された前記フレーズ毎の重みに応じた配点比率を前記フレーズ毎に決定する第2決定ステップと、
    前記取得ステップにより取得された前記得点を、前記第2決定ステップにより決定された前記配点比率により前記フレーズ毎に調整し、調整したフレーズ毎の得点に基づいて、前記複数のフレーズを含む文全体の音読に対する総得点を算出する算出ステップと、
    をコンピュータに実行させることを特徴とするプログラム。
  16. 1つ以上のコンピュータにより実行される音読評価方法であって、
    話者が複数の文節を含む文を音読したときに発した音声の波形を示す音声波形データに基づいて前記文節毎に算出された得点を取得する取得ステップと、
    前記文節毎の重みを決定する第1決定ステップと、
    前記第1決定ステップにより決定された前記文節毎の重みに応じた配点比率を前記文節毎に決定する第2決定ステップと、
    前記取得ステップにより取得された前記得点を、前記第2決定ステップにより決定された前記配点比率により前記文節毎に調整し、調整した文節毎の得点に基づいて、前記複数の文節を含む文全体の音読に対する総得点を算出する算出ステップと、
    を含むことを特徴とする音読評価方法。
  17. 話者が複数の文節を含む文を音読したときに発した音声の波形を示す音声波形データに基づいて前記文節毎に算出された得点を取得する取得ステップと、
    前記文節毎の重みを決定する第1決定ステップと、
    前記第1決定ステップにより決定された前記文節毎の重みに応じた配点比率を前記文節毎に決定する第2決定ステップと、
    前記取得ステップにより取得された前記得点を、前記第2決定ステップにより決定された前記配点比率により前記文節毎に調整し、調整した文節毎の得点に基づいて、前記複数の文節を含む文全体の音読に対する総得点を算出する算出ステップと、
    をコンピュータに実行させることを特徴とするプログラム。
  18. 1つ以上のコンピュータにより実行される音読評価方法であって、
    話者が複数の単語を含む文を音読したときに発した音声の波形を示す音声波形データに基づいて前記単語毎に算出された得点を取得する取得ステップと、
    前記文のテキストデータを入力する入力ステップと、
    前記入力ステップにより入力されたテキストデータが示す文を複数の単語に分解する分解ステップと、
    単語の重要度を規定する参照情報を参照して、前記分解されたそれぞれの前記単語の重要度を特定する特定ステップと、
    前記特定ステップにより特定された前記単語毎の重要度に応じた配点比率を前記単語毎に決定する決定ステップと、
    前記取得ステップにより取得された前記得点を、前記決定ステップにより決定された前記配点比率により前記単語毎に調整し、調整した単語毎の得点に基づいて、前記複数の単語を含む文全体の音読に対する総得点を算出する算出ステップと、
    を含むことを特徴とする音読評価方法。
  19. 話者が複数の単語を含む文を音読したときに発した音声の波形を示す音声波形データに基づいて前記単語毎に算出された得点を取得する取得ステップと、
    前記文のテキストデータを入力する入力ステップと、
    前記入力ステップにより入力されたテキストデータが示す文を複数の単語に分解する分解ステップと、
    単語の重要度を規定する参照情報を参照して、前記分解されたそれぞれの前記単語の重要度を特定する特定ステップと、
    前記特定ステップにより特定された前記単語毎の重要度に応じた配点比率を前記単語毎に決定する決定ステップと、
    前記取得ステップにより取得された前記得点を、前記決定ステップにより決定された前記配点比率により前記単語毎に調整し、調整した単語毎の得点に基づいて、前記複数の単語を含む文全体の音読に対する総得点を算出する算出ステップと、
    をコンピュータに実行させることを特徴とするプログラム。
JP2015062769A 2015-03-25 2015-03-25 音読評価装置、音読評価方法、及びプログラム Active JP6314884B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015062769A JP6314884B2 (ja) 2015-03-25 2015-03-25 音読評価装置、音読評価方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015062769A JP6314884B2 (ja) 2015-03-25 2015-03-25 音読評価装置、音読評価方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2016183992A true JP2016183992A (ja) 2016-10-20
JP6314884B2 JP6314884B2 (ja) 2018-04-25

Family

ID=57242839

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015062769A Active JP6314884B2 (ja) 2015-03-25 2015-03-25 音読評価装置、音読評価方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6314884B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108053839A (zh) * 2017-12-11 2018-05-18 广东小天才科技有限公司 一种语言练习成果的展示方法及麦克风设备
JP2022164740A (ja) * 2018-03-22 2022-10-27 カシオ計算機株式会社 発音学習支援システム、発音学習支援装置、発音学習支援方法及び発音学習支援プログラム
CN116631452A (zh) * 2023-04-06 2023-08-22 深圳市亚通桥文化传播有限公司 一种基于人工智能的绘本录音播放阅读管理系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002156897A (ja) * 2000-11-17 2002-05-31 Fuji Xerox Co Ltd 発音学習装置
JP2008191551A (ja) * 2007-02-07 2008-08-21 Advanced Telecommunication Research Institute International 発音評定装置、およびプログラム
US20160055763A1 (en) * 2014-08-25 2016-02-25 Casio Computer Co., Ltd. Electronic apparatus, pronunciation learning support method, and program storage medium

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002156897A (ja) * 2000-11-17 2002-05-31 Fuji Xerox Co Ltd 発音学習装置
JP2008191551A (ja) * 2007-02-07 2008-08-21 Advanced Telecommunication Research Institute International 発音評定装置、およびプログラム
US20160055763A1 (en) * 2014-08-25 2016-02-25 Casio Computer Co., Ltd. Electronic apparatus, pronunciation learning support method, and program storage medium

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108053839A (zh) * 2017-12-11 2018-05-18 广东小天才科技有限公司 一种语言练习成果的展示方法及麦克风设备
CN108053839B (zh) * 2017-12-11 2021-12-21 广东小天才科技有限公司 一种语言练习成果的展示方法及麦克风设备
JP2022164740A (ja) * 2018-03-22 2022-10-27 カシオ計算機株式会社 発音学習支援システム、発音学習支援装置、発音学習支援方法及び発音学習支援プログラム
JP7367819B2 (ja) 2018-03-22 2023-10-24 カシオ計算機株式会社 発音学習支援システム、発音学習支援装置、発音学習支援方法及び発音学習支援プログラム
CN116631452A (zh) * 2023-04-06 2023-08-22 深圳市亚通桥文化传播有限公司 一种基于人工智能的绘本录音播放阅读管理系统
CN116631452B (zh) * 2023-04-06 2024-01-02 深圳市亚通桥文化传播有限公司 一种基于人工智能的绘本录音播放阅读管理系统

Also Published As

Publication number Publication date
JP6314884B2 (ja) 2018-04-25

Similar Documents

Publication Publication Date Title
US10789290B2 (en) Audio data processing method and apparatus, and computer storage medium
Eyben et al. The Geneva minimalistic acoustic parameter set (GeMAPS) for voice research and affective computing
CN106898340B (zh) 一种歌曲的合成方法及终端
CN109949783B (zh) 歌曲合成方法及系统
Mertens The prosogram: Semi-automatic transcription of prosody based on a tonal perception model
US20020086269A1 (en) Spoken language teaching system based on language unit segmentation
US20210335364A1 (en) Computer program, server, terminal, and speech signal processing method
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
EP2779159A1 (en) Voice synthesis device, voice synthesis method, and recording medium having a voice synthesis program stored thereon
CN111370024B (zh) 一种音频调整方法、设备及计算机可读存储介质
JP4586615B2 (ja) 音声合成装置,音声合成方法およびコンピュータプログラム
CN104008752A (zh) 语音识别装置及方法、以及半导体集成电路装置
JP6314884B2 (ja) 音読評価装置、音読評価方法、及びプログラム
JPH08286693A (ja) 情報処理装置
JP2008040259A (ja) 楽曲練習支援装置、動的時間整合モジュールおよびプログラム
JP6728116B2 (ja) 音声認識装置、音声認識方法およびプログラム
JP4808641B2 (ja) 似顔絵出力装置およびカラオケ装置
US10403304B1 (en) Neural networks for identifying the potential of digitized audio to induce frisson in listeners
JP2016157097A (ja) 音読評価装置、音読評価方法、及びプログラム
JP6433063B2 (ja) 音声加工装置、及びプログラム
US20140074468A1 (en) System and Method for Automatic Prediction of Speech Suitability for Statistical Modeling
JP4744338B2 (ja) 合成音声生成装置
CN111091810A (zh) 基于语音信息的vr游戏人物表情控制方法及存储介质
JP6786065B2 (ja) 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム
KR102484006B1 (ko) 음성 장애 환자를 위한 음성 자가 훈련 방법 및 사용자 단말 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170830

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171003

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171204

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180227

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180312

R150 Certificate of patent or registration of utility model

Ref document number: 6314884

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150