JP5756555B1

JP5756555B1 - 発話評価装置、発話評価方法及びプログラム

Info

Publication number: JP5756555B1
Application number: JP2014227479A
Authority: JP
Inventors: 有一塚本; 功進藤; 望月　亮; 亮望月
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2014-11-07
Filing date: 2014-11-07
Publication date: 2015-07-29
Anticipated expiration: 2034-11-07
Also published as: JP2016090900A

Abstract

【課題】音読やシャドーイング時の学習者の音声に対する客観的な評価を行うことで学習者における自学習を効率的に支援し、また指導者における音読やシャドーイングにより得られた音声データの添削の工数を削減する。【解決手段】発話評価装置は、手本に対応する音声データ又はユーザの発話に対する音声データに基づき、棄却を行う棄却部と、予め定められた音響モデルを用いて、ユーザの発話に対する音声データの音素列の誤り検出を行う第１比較部と、手本に対応する第１分析データとユーザの発話に対応する第２分析データとの差分を算定して分析する第２比較部と、第１比較部又は第２比較部の出力が所定の条件式又は分析対象項目毎の条件式を満たしていた場合に、音素位置を含む１つ以上の指摘対象文字列と指摘対象文字列に対応する指摘内容とを表示部に提示させる制御部と、を備える。【選択図】図１

Description

本発明は、発話された発話者の音声を評価する発話評価装置、発話評価方法及びプログラムに関する。

昨今、外国語（例えば英語）の語学学習においては、学習者が英文を声に出して読む方法である音読や、手本となる英文を聞きながら同時に真似して発話する方法であるシャドーイングが用いられる。音読やシャドーイングには音声の聞き取りと文字の音声化を自動化させる効果があると考えられている。

しかし、学習者は音読又はシャドーイングの方法によって自己の発話に対する客観的な評価を行うことや、その発話を矯正することは困難である。また、単に手本の音声（例えばネイティブの音声）と聞き比べるだけでは、学習者は、具体的にどこをどのように修正すべきかを理解することが困難である上に、何度も手本の音声を聞き直す必要が生じ、手間がかかる。

一方で、学習者を指導する指導者においては、学習者の音読又はシャドーイングにより得られた音声データを添削するには、その音声データの全てを確認する必要があり、膨大な工数を要する。

ここで、外国語の学習を支援するための先行技術として、例えば特許文献１に示す発声訓練機と、特許文献２に示す外国語学習装置とが知られている。

特許文献１に示す発声訓練機は、見本者の発声音と訓練者の発声音との音声のパワーとピッチを抽出し、見本者の発声音と訓練者の発声音との相違を定量的に分析し、この分析結果により得られた相違を視覚的に判明するように表示する。これにより、発声訓練機は、特に見本者の発声音と訓練者の発声音との違いを定量的に分析し、両者の相違点を具体的に的確に提示することにより、より効果的な発声訓練を可能とする。

また、特許文献２に示す外国語学習装置は、学習者の発音した文章に対応する文章音声情報を音韻情報毎に認識し、モデル音韻情報及びモデル音韻配列情報を用いて、文章に含まれる単語毎の単語音声情報を認識し、外国語に含まれ得る音韻のそれぞれに対する文章音声情報中の各音韻情報の尤度を判定し、更に、単語音声情報毎にモデル音声との一致の程度を評価する。外国語学習装置は、モデル音韻情報に基づいて、モデル文章に対応した間違いやすい音素列の候補に対して、モデル音韻配列情報どおりの音韻配列で発音した際の各単語尤度と、学習者が発音した音声波形から最も尤度の高い候補の各単語尤度とを照合することで、単語毎の一致の程度を評価し、評価結果を単語毎に表示する。これにより、外国語学習装置は、学習者の発音した外国語の文章に対する評価結果を、効率的な外国語発音練習ができるように提示することができる。

特開昭６０−２０１３７６号公報特許第３５２００２２号公報

外国語の学習において、学習者の発話の流暢さを評価する際、特許文献１に示すように発話された音声のパワーとピッチの相違を分析し、学習者に提示することは有意義と考えられる。しかし、特許文献１の構成では、発話の流暢さは評価可能であるが、発音の正確性は評価されないので、評価事項としては不足する場合がある。

例えば日本人の学習者にとって発音が難しいと言われる／ｌ／や／ｒ／を誤って発話してしまうと本来伝えたい意味と異なる、相手方が理解出来なくなる可能性があるため、発音の正確性について学習、訓練することは重要であると考えられる。また、特許文献１の構成では、見本者の発声音と学習者の発声音との相違は提示されるが、学習者は具体的にどこをどのように修正すれば良いかを理解することが困難であるという課題がある。

また、上述したシャドーイングの際、学習者は聞こえてくる音声の速度に追従して発話する必要があるため、学習者が発話した際の音声データ（音声波形）はかなり崩れた不明瞭なものになることが多い。このため、特許文献２の構成では、学習者のシャドーイングの際に得られた崩れた不明瞭な音声データ（音声波形）に対しては、誤った分析や提示をする可能性があるという課題がある。

本発明は、上述した従来の状況に鑑みて案出されたものであり、音読やシャドーイング時の学習者の音声に対する客観的な評価を行うことで学習者における自学習を効率的に支援し、指導者における音読やシャドーイングにより得られた音声データの添削の工数を削減する発話評価装置、発話評価方法及びプログラムを提供することを目的とする。

本発明は、手本の音声データとテキストデータと前記テキストデータに含まれる音素毎の時間情報とを少なくとも含む第１分析データと、ユーザの発話に対する音声データと前記テキストデータと前記テキストデータに含まれる音素毎の時間情報とを少なくとも含む第２分析データとを入力する入力部と、前記手本もしくは前記ユーザの発話に対する音声データ、前記第１分析データもしくは前記第２分析データが所定の棄却条件式を満たす場合に棄却を行う棄却部と、予め定められた音響モデルを用いて、前記ユーザの発話に対する音声データの音素列の誤り検出を行う第１比較部と、前記第１分析データと前記第２分析データとの差分を算定して分析する第２比較部と、前記第１比較部において比較対象となる音素の組み合わせと所定の条件式と第１指摘内容との組み合わせを保持する第１データ管理部と、前記第２比較部において分析対象となる分析対象項目と前記分析対象項目毎の条件式と第２指摘内容との組み合わせを保持する第２データ管理部と、前記第１比較部又は前記第２比較部の出力が前記所定の条件式又は前記分析対象項目毎の条件式を満たしていた場合に、音素位置を含む１つ以上の指摘対象文字列と前記指摘対象文字列に対応する指摘内容とを表示部に提示させる制御部と、を備える、発話評価装置である。

また、本発明は、発話評価装置における発話評価方法であって、手本の音声データとテキストデータと前記テキストデータに含まれる音素毎の時間情報とを少なくとも含む第１分析データと、ユーザの発話に対する音声データと前記テキストデータと前記テキストデータに含まれる音素毎の時間情報とを少なくとも含む第２分析データとを入力するステップと、前記手本もしくは前記ユーザの発話に対する音声データ、前記第１分析データもしくは前記第２分析データが所定の棄却条件式を満たす場合に棄却を行うステップと、比較対象となる音素の組み合わせと所定の条件式との組み合わせを保持し、予め定められた音響モデルを用いて、前記ユーザの発話に対する音声データの音素列の誤り検出を行う第１比較ステップと、分析対象となる分析対象項目と前記分析対象項目毎の条件式との組み合わせを保持し、前記第１分析データと前記第２分析データとの差分を算定して分析する第２比較ステップと、前記第１比較ステップ又は前記第２比較ステップの出力が前記所定の条件式又は前記分析対象項目毎の条件式を満たしていた場合に、音素位置を含む１つ以上の指摘対象文字列と前記指摘対象文字列に対応する指摘内容とをユーザに提示させるステップと、を有する、発話評価方法である。

また、本発明は、コンピュータである発話評価装置に、手本の音声データとテキストデータと前記テキストデータに含まれる音素毎の時間情報とを少なくとも含む第１分析データと、ユーザの発話に対する音声データと前記テキストデータと前記テキストデータに含まれる音素毎の時間情報とを少なくとも含む第２分析データとを入力するステップと、前記手本もしくは前記ユーザの発話に対する音声データ、前記第１分析データもしくは前記第２分析データが所定の棄却条件式を満たす場合に棄却を行うステップと、比較対象となる音素の組み合わせと所定の条件式との組み合わせを保持し、予め定められた音響モデルを用いて、前記ユーザの発話に対する音声データの音素列の誤り検出を行う第１比較ステップと、分析対象となる分析対象項目と前記分析対象項目毎の条件式との組み合わせを保持し、前記第１分析データと前記第２分析データとの差分を算定して分析する第２比較ステップと、前記第１比較ステップ又は前記第２比較ステップの出力が前記所定の条件式又は前記分析対象項目毎の条件式を満たしていた場合に、音素位置を含む１つ以上の指摘対象文字列と前記指摘対象文字列に対応する指摘内容とをユーザに提示させるステップと、を実行させるための、プログラムである。

本発明によれば、音読やシャドーイング時の学習者の音声に対する客観的な評価を行うことで学習者における自学習を効率的に支援することができ、また指導者における音読やシャドーイングにより得られた音声データの添削の工数を削減することができる。

本実施形態の発話評価装置の内部構成を詳細に示すブロック図学習者が発話した音声に対する指摘対象文字列と指摘内容とを示した画面の表示例を示す図波形ボタンの押下に伴う手本の音声、学習者が発話した音声の各概形及びテキストを対比的に示した画面の表示例を示す図図３に示す各概形において指摘対象文字列及び指摘対象文字列に対応する音高、音圧の該当部分を識別して表示した例を示す図再生ボタンの押下に伴う手本の音声又は学習者が発話した音声の再生時の画面の表示例を示す図指定された単語に対する手本の音声、学習者が発話した音声の連続再生時の画面の表示例を示す図第１録音パターンに対応した録音ボタンの押下に伴う学習者の音読に対する録音時の画面の表示例を示す図第２録音パターンに対応したシャドーイングボタンの押下に伴う学習者のシャドーイングに対する録音時の画面の表示例を示す図第３録音パターンに対応した第１パラレルモードボタンの押下に伴う学習者の音読に対する録音時の画面の表示例を示す図第４録音パターンに対応した第２パラレルモードボタンの押下に伴う学習者の音読に対する録音時の画面の表示例を示す図スコアボタンの押下に伴う学習者が発話した音声に関する各種スコアと指摘内容とを示した画面の表示例を示す図本実施形態の発話評価装置の全体的な動作手順の一例を説明するフローチャート図１２に続く動作手順の一例を説明するフローチャート図１３に続く動作手順の一例を説明するフローチャート（Ａ）棄却部の条件式の一例を示す図、（Ｂ）棄却する際に提示する文の一例を示す図学習者が発話する音声を録音する際の本実施形態の発話評価装置の全体的な動作手順の一例を説明するフローチャート図１６に続く動作手順の一例を説明するフローチャート第１比較部における誤り検出の動作手順の一例を説明するフローチャート（Ａ）音素毎の１つ以上の比較対象音素と評価対象の有無とが対応付けられたテーブルの一例を示す図、（Ｂ）音素毎の１つ以上の比較対象音素を用いた比較対象音素列の一例を示す図第１比較部における誤り検出に基づく指摘内容の一例を示す説明図第２比較部における差分の分析処理の動作手順の一例を説明するフローチャート手本の音声に対応する第１分析データの第１例を示す図学習者の音声に対応する第２分析データの第１例を示す図手本の音声に対応する第１分析データの第２例を示す図学習者の音声に対応する第２分析データの第２例を示す図手本の音声に対応する第１分析データと学習者の音声に対応する第２分析データとの差分の第１例を示す図手本の音声に対応する第１分析データと学習者の音声に対応する第２分析データとの差分の第２例を示す図（Ａ）第２比較部における分析対象項目と分析対象項目毎の条件式と評価対象の有無とが対応付けられたテーブルの一例を示す図、（Ｂ）第２比較部における分析対象と指摘内容とが対応付けられたテーブルの一例を示す図第２比較部の分析対象項目と第１比較部における誤り検出の指摘可否とが対応付けられたテーブルの一例を示す図（Ａ）第２比較部における分析対象項目とスコア算定時の重み係数とスコア種別とが対応付けられたテーブルの一例を示す図、（Ｂ）第１比較部におけるスコア算定時の重み係数とスコア種別とが対応付けられたテーブルの一例を示す図、（Ｃ）スコア種別とスコア名称とが対応付けられたテーブルの一例を示す図（Ａ）指導者のＩＤでログインした際に表示される学習者の学習履歴の一覧表示の抜粋の一例を示す図、（Ｂ）学習者のＩＤでログインした際に表示される各自の学習履歴の一覧表示の抜粋の一例を示す図図３１の「確認する」のハイパーリンクのクリック操作に伴う学習履歴の詳細表示の一例を示す図

以下、本発明に係る発話評価装置、発話評価方法及びプログラムを具体的に開示した実施形態（以下、「本実施形態」という）について、図面を参照して説明する。本実施形態の発話評価装置は、外国語（例えば英語）を学習する学習者が手本（例えば英語を母国語とするネイティブの発話した音声）の音声データと学習者自身が発話した音声の音声データとを用いて、学習者の発話した音声に指摘事項があると判断した場合に、指摘事項を識別可能に学習者に提示する。

なお、本発明は、発話評価装置が行う各動作を含む方法（発話評価方法）、又は発話評価方法をコンピュータである発話評価装置に実行させるためのプログラムとして表現することも可能である。以下の本実施形態では、本発明に係る発話評価装置の構成及び動作の一例について説明する。

（発話評価装置の構成）
先ず、本実施形態の発話評価装置の構成の一例について、図１を参照して説明する。図１は、本実施形態の発話評価装置２０の内部構成を詳細に示すブロック図である。図１に示す発話評価装置２０は、入力部１と、録音部２と、棄却部１２と、分析データ生成部３と、第１比較部４と、第１データ管理部Ｍ１と、第２比較部５と、第２データ管理部Ｍ２と、制御部７と、履歴管理部８と、表示部９と、受信部１０と、再生部１１とを含む構成である。発話評価装置２０は、例えばデスクトップ型又はラップトップ型のＰＣ（Personal Computer）、スマートフォン、携帯電話機、タブレット端末、ＰＤＡ（Personal Digital Assistant）等のデータ通信端末である。

入力部１は、学習対象となるテキストに対する手本（例えばネイティブの発話した音声）の音声データとそのテキストのデータを示すテキストデータとテキストデータに含まれる音素毎の時間情報（例えば開始時刻、終了時刻）とを少なくとも含む第１分析データを入力（取得）する。なお、第１分析データには、手本の音声データにおける時刻毎の音高、音高の変化量、音高の変化量の変化量、音圧、音圧の変化量、音圧の変化量の変化量、話速、音高の極大値、音高の極小値、音高の最大値、音高の最小値、音圧の極大値、音圧の極小値、音圧の最大値、音圧の最小値のうち１つ以上が更に含まれてもよい。

また、入力部１は、学習対象となるテキストに対して学習者が発話した音声の音声データとそのテキストのデータを示すテキストデータとテキストデータに含まれる音素毎の時間情報（例えば開始時刻、終了時刻）とを少なくとも含む第２分析データを入力（取得）する。なお、同様に第２分析データには、学習者の発話に対する音声データにおける時刻毎の音高、音高の変化量、音高の変化量の変化量、音圧、音圧の変化量、音圧の変化量の変化量、話速、音高の極大値、音高の極小値、音高の最大値、音高の最小値、音圧の極大値、音圧の極小値、音圧の最大値、音圧の最小値のうち１つ以上が更に含まれてもよい。

入力部１は、上述した第１分析データ及び第２分析データを取得した場合には、棄却部１２に出力する。また、入力部１は、テキストデータだけを入力している場合には、テキストデータを録音部２に出力する。なお、入力部１が上述した第１分析データ及び第２分析データを入力している場合には、録音部２及び分析データ生成部３は発話評価装置２０の構成から省略されてもよい。

録音部２は、例えばマイクロホン（不図示）を有し、このマイクロホンを用いて、手本となるネイティブ又は学習者が発話した音声を収音して取り込むための録音に関する機能部である。録音部２は、ネイティブ又は学習者が学習対象となるテキストを発話した音声をマイクロホンにおいて収音した場合、入力部１から出力されたテキストデータと収音により得られた音声データとを対応付けて棄却部１２に出力する。例えばネイティブ又は学習者が発話評価装置２０に対して自己の音声を録音する際、録音は後述する第１録音パターン（図７参照）、第２録音パターン（図８参照）、第３録音パターン（図９参照）、第４録音パターン（図１０参照）のいずれかの方法に従って行われ、詳細については後述する。

棄却部１２は、入力部１から第１分析データ及び第２分析データを取得している場合、第１分析データ及び第２分析データに含まれる、もしくは第１分析データ及び第２分析データより取得する音高、音圧、音声データ長、無音の継続時間長のいずれか１つが棄却部１２の保持する条件式（図１５（Ａ）参照）を満たすか否かを判断し、満たす場合は棄却する。棄却部１２は、棄却する場合、学習者に棄却した旨を提示する（図１５（Ｂ）参照）。条件式を満たさない場合、棄却部１２は第２分析データを第１比較部４に出力し、更に、第１分析データ及び第２分析データを第２比較部５に出力する。

また、棄却部１２は、録音部２からテキストデータ及び手本又は学習者の音声データを取得している場合、手本又は学習者の音声データを分析することで、音高、音圧、音声データ長、無音の継続時間長を取得し、前述した条件式（図１５（Ａ）参照）を満たすか否かを判断し、満たす場合は棄却する。棄却部１２は、棄却する場合、学習者に棄却した旨を提示する（図１５（Ｂ）参照）。条件式を満たさない場合、棄却部１２はテキストデータ及び手本又は学習者の音声データを分析データ生成部３に出力する。音高、音圧、音声データ長の取得方法は公知技術であるため、詳細は省略することとし、以下同様である。無音の継続時間長は音圧がある一定値以下の時間を計測することで得られる。なお、棄却部１２では必ずしもテキストデータは必要ではない。

分析部の一例としての分析データ生成部３は、テキストデータとネイティブ又は学習者の音声データとを用いて分析（例えば公知の音声認識処理を使用）することで、テキストデータに含まれるテキストの音声を構成する音素毎の開始時刻及び終了時刻を取得する。また、分析データ生成部３は、テキストデータとネイティブ又は学習者の音声データとを用いて分析することで、手本又は学習者の音声データにおける時刻毎の音高、音高の変化量、音高の変化量の変化量、音圧、音圧の変化量、音圧の変化量の変化量、話速、音高の極大値、音高の極小値、音高の最大値、音高の最小値、音圧の極大値、音圧の極小値、音圧の最大値、音圧の最小値のうち１つ以上を取得してもよいし、棄却部１２より得られる各値に基づき、算出してもよい。音高の変化量、音高の変化量の変化量、音圧の変化量、音圧の変化量の変化量の取得方法は公知技術であるため、詳細は省略することとし、以下同様である。音高の極大値、音高の極小値、音高の最大値、音高の最小値は前述した音高の変化量より得られ、音圧の極大値、音圧の極小値、音圧の最大値、音圧の最小値は前述した音圧の変化量より得られる。

これにより、分析データ生成部３は、手本に対する第１分析データ（上述参照）と学習者の発話に対する第２分析データ（上述参照）とを生成することができる。分析データ生成部３は、第２分析データを第１比較部４に出力し、更に、第１分析データ及び第２分析データを第２比較部５に出力する。

第１比較部４は、棄却部１２もしくは分析データ生成部３から出力された第２分析データと第１データ管理部Ｍ１において保持される予め定められた音響モデルとを用いて、学習者が発話した音声の音素列を構成する各音素（比較元音素）と音素毎に予め定められた比較対象音素（図１９（Ａ）参照）との比較結果を基にした音素列の誤り検出を行う。言い換えると、第１比較部４は、学習者の学習対象となるテキストの発話時の発音の正確性について誤りが無いかどうかを客観的に評価する。第１比較部４は、学習者が発話した音声の音素列の誤り検出結果を第１データ管理部Ｍ１及び制御部７に出力する。なお、音響モデルとは、認識対象となる各音素がそれぞれどのような周波数特性を持っているかを表したデータである。

第１データ管理部Ｍ１は、例えば揮発性メモリ又はＨＤＤ（Hard Disk Drive）を用いて構成され、上述した音響モデル、図１９（Ａ）に示す音素と音素毎の比較対象音素との対応付けが規定されたテーブル、第１比較部４が誤り検出時に用いる所定の条件式、第１比較部４の出力（即ち、学習者が発話した音声に対する誤り検出の結果）を管理、記憶する。

第２比較部５は、棄却部１２もしくは分析データ生成部３から出力された第１分析データと第２分析データとの差分（即ち、手本の音声データに対応する第１分析データと学習者の発話に対応する第２分析データとの差分）を算定する。第２比較部５は、第１分析データと第２分析データとの差分と、第２データ管理部Ｍ２において保持される予め定められた発話時の流暢さに関する分析対象項目毎の条件式（図２８（Ａ）参照）とを比較する。言い換えると、第２比較部５は、学習者のテキストの発話時の流暢さについて誤りが無いかどうかを客観的に評価する。第２比較部５は、第１分析データと第２分析データとの差分と分析対象項目毎の条件式との比較結果を第２データ管理部Ｍ２及び制御部７に出力する。

第２データ管理部Ｍ２は、例えば揮発性メモリ又はＨＤＤを用いて構成され、図２８（Ａ）に示す第２比較部５において用いられる発話時の流暢さに関する分析対象項目と分析対象項目毎の条件式との対応付けが規定されたテーブル、第２比較部５の出力（即ち、学習者の発話時の流暢さの誤り検出結果）を管理、記憶する。

制御部７は、発話評価装置２０の各部の動作を全体的に統括するための制御処理、他の各部との間のデータの入出力処理、データの演算（計算）処理及びデータの記憶処理を行う。例えば、制御部７は、学習者の受信部１０に対する所定の入力操作に応じて、手本の音声データもしくは学習者の発話に対する音声データの再生部１１を用いた再生処理、又はテキストデータに対応するテキストの表示部９への表示（提示）処理を制御する。手本の音声データもしくは学習者の発話に対する音声データの再生部１１を用いた再生処理、又はテキストデータに対応するテキストの表示部９への表示（提示）処理の具体的な制御例については、後述する。

制御部７は、第１比較部４又は第２比較部５の各出力が第１データ管理部Ｍ１の所定の条件式又は第２データ管理部Ｍ２の分析対象項目毎の条件式を満たす場合には、第１比較部４及び第２比較部５の出力（即ち、分析対象項目毎にテキストデータの該当する音素の位置を含む１つ以上の指摘対象文字列と指摘対象文字列に対応する指摘内容）を表示部９に表示させる。

なお、制御部７は、図２９に示すテーブル（即ち、第２比較部５における分析対象項目毎に、第１比較部４における誤り検出結果の指摘可否を規定した情報が規定されたテーブル）を保持し、このテーブルと第１比較部４の出力と第２比較部５の出力とを用いて、第２比較部５の出力に含まれる分析対象項目毎の指摘内容に応じて、第１比較部４における誤り検出結果を指摘するか否かを照合し、その結果（即ち、テキストデータの該当する音素の位置を含む１つ以上の指摘対象文字列と指摘対象文字列に対応する指摘内容）を表示部９に表示させてもよい（図２参照）。

なお、必ずしも第２比較部５における分析対象項目と第１比較部４における誤り検出結果の組み合わせを規定する必要はなく、例えば第２比較部５における分析対象項目同士の組み合わせを規定しても良い。

履歴管理部８は、例えば揮発性メモリ又はＨＤＤを用いて構成され、学習者が過去に実施した第１比較部の誤り検出の結果又は第２比較部の分析結果又は指摘対象文字列及び指摘内容と、当該実施したテキストデータ及び音声データと、学習者又は実施日（学習日）又はスコア又は指摘件数のいずれかの組み合わせを示すデータが対応付けて示される学習履歴の一覧を管理、記憶する。また、履歴管理部８は、学習者の学習日毎の学習履歴に関する全てのデータ（例えば手本及び学習者の音声データ、テキストデータ及びそれに対応する第１分析データ、第２分析データ、第１比較部４における誤り検出結果、第２比較部５における分析対象項目とこの分析対象項目毎の指摘内容、制御部７における分析対象項目毎にテキストデータの該当する音素の位置を含む１つ以上の指摘対象文字列と指摘対象文字列に対応する指摘内容等）を対応付けて記憶する。

表示部９は、例えばＬＣＤ（Liquid Crystal Display）もしくは有機ＥＬ（Electroluminescence）を用いて構成され、学習者又は指導者の受信部１０に対する入力操作に応じて、制御部７の制御の下で、各種画面（例えば学習者の発話に対する第２分析データに含まれる音声データに関して指摘対象文字列を示す画面（後述参照））を表示する。

受信部１０は、学習者又は指導者の入力操作を受け付け、入力操作の内容を制御部７に通知するためのユーザインターフェース（ＵＩ：User Interface）であり、例えばマウス、キーボード等で構成される。また、受信部１０は、例えば表示部９の画面に対応して配置され、学習者又は指導者の指又はスタイラスペンによって操作が可能なタッチパネル又はタッチパッドを用いて構成されてもよい。

再生部１１は、例えばスピーカ（不図示）を有し、受信部１０が受け付けた学習者又は指導者の入力操作に応じて、制御部７の下で手本の音声データ又は学習者の発話に対する音声データを再生し、音声データに含まれる音声をスピーカから出力する。

図２は、学習者が発話した音声に対する指摘対象文字列と指摘内容とを示した画面ＷＤ１の表示例を示す図である。図２に示す画面ＷＤ１では、学習者が発話した音声に対する指摘対象文字列と指摘内容とが表示される表示領域ＡＲ１と、表示領域ＡＲ１の下側（画面ＷＤ１の下端部側）に手本ボタンＢＴ１，ユーザボタンＢＴ２，再生ボタンＢＴ３，停止ボタンＢＴ４，波形ボタンＢＴ５，スコアボタンＢＴ６とが表示されている。

表示領域ＡＲ１には、学習対象となるテキスト「Hello world. This is a pen. My name is Taro.」の３つの文章が表示されており、単語「pen」の音素「e」が指摘対象文字列として他の文字列と比べて識別可能に示され（下線参照）、更に、単語「name」の音素「n」が別の指摘対象文字列として他の文字列と比べて識別可能に示されている。

制御部７は、ユーザ（例えば学習者）の受信部１０に対する入力操作として、表示部９の画面ＷＤ１に表示されたカーソルＣＳＲを指摘対象文字列である音素「e」に重ね合わせると（ロールオーバ）、例えば音素「e」に関して第１比較部４が検出した誤りについての指摘内容ＣＭ１（第１指摘内容）として『pen[p/e/n]の発音が[p/a/n]になっています』を、指摘対象文字列である音素「e」の周囲に表示させる。

また、制御部７は、ユーザ（例えば学習者）の受信部１０に対する入力操作として、表示部９の画面ＷＤ１に表示されたカーソルＣＳＲを指摘対象文字列である音素「n」に重ね合わせると（ロールオーバ）、例えば音素「n」に関して第２比較部５が検出した分析対象項目の誤りについての指摘内容ＣＭ２（第２指摘内容）として『前に余計な呼気が含まれています』を、指摘対象文字列である音素「n」の周囲に表示させる。

なお、ユーザ（例えば学習者）の受信部１０に対する入力操作は、ロールオーバに限定されず、カーソルＣＳＲを指摘対象文字列に近づけてクリック操作もしくは長押し操作、又はタップ操作でもよく、以下同様である。また、図２では、指摘対象文字列を他の文字列に対して識別可能に表示させるために、指摘対象文字列に下線を引いているが、下線に限定されず、指摘対象文字列毎に異なる色を用いて色付けしてもよいし、指摘対象文字列毎に背景色に異なる色を用いてもよいし、枠線、ボールド表記（太字表記）、フォントタイプやフォントサイズを適宜変更してもよく、以下同様である。

図２において、ユーザ（例えば学習者）の受信部１０に対する入力操作として、波形ボタンＢＴ５が押下されると、制御部７は、手本の音声データの概形ＷＶ１及び概形ＷＶ１に対応するテキスト、並びに学習者の発話に対する音声データの概形ＷＶ２及び概形ＷＶ２に対応するテキストを対比的に表示部９に表示させる（図３参照）。図３は、波形ボタンＢＴ５の押下に伴う手本の音声、学習者が発話した音声の各概形ＷＶ１，ＷＶ２及びテキストを対比的に示した画面ＷＤ２の表示例を示す図である。

図３に示す画面ＷＤ２では、手本の音声データの概形ＷＶ１（例えば、手本の音声データの音高又は音圧）及び概形ＷＶ１に対応するテキスト、並びに学習者の発話に対する音声データの概形ＷＶ２（例えば、学習者の発話に対する音声データの音高又は音圧）及び概形ＷＶ２に対応するテキストが対比的に表示される表示領域ＡＲ１と、表示領域ＡＲ１の下側（画面ＷＤ２の下端部側）に手本ボタンＢＴ１，ユーザボタンＢＴ２，再生ボタンＢＴ３，停止ボタンＢＴ４，波形ボタンＢＴ５，スコアボタンＢＴ６とが表示されている。

表示領域ＡＲ１は、手本の音声データの概形及び概形に対応するテキストが対応付けて表示される表示領域ＭＤ１と、学習者の発話に対する音声データの概形及び概形に対応するテキストが対応付けて表示される表示領域ＵＳ１とにより構成される。表示領域ＭＤ１において、例えば区間ＤＲ１は手本の音声データの内、単語「This」が発話された開始時刻から終了時刻までの区間を示す。同様に、表示領域ＵＳ１において、例えば区間ＤＲ２は学習者の発話に対する音声データの内、単語「This」が発話された開始時刻から終了時刻までの期間を示す。これにより、発話評価装置２０は、学習対象となるテキストの単語毎に、手本の音声データと、学習者の発話に対する音声データとの音高、音圧の差異を識別可能に学習者に把握させることができる。

図３でも同様に、制御部７は、例えば単語「pen」の「e」に相当する音素について第１比較部４が誤りを検出した場合には、指摘対象文字列として、表示領域ＭＤ１のテキストと表示領域ＵＳ１のテキストの両方の文字列「e」を、他の文字列に対して識別可能に表示させる。また、表示領域ＭＤ１において、例えば区間ＤＲ３は文章「This is a pen.」と文章「My name is Taro」（図２参照）との間の息継ぎのためのショートポーズ（無音）の区間を示す。

また、制御部７は、ユーザ（例えば学習者）の受信部１０に対する入力操作として、例えば文章「This is a pen.」の単語「is」にカーソルＣＳＲを近づけてクリック操作（タップ操作でも可）した場合、クリック操作又はタップ操作された単語「is」を起点として頭出しして、単語「is」又は単語「is」以降の文章を再生部１１に再生させる。なお、制御部７は、クリック操作、タップ操作又はロールオーバ操作された単語「is」を含む所定範囲を、他の単語と識別可能に表示部９に表示させてもよい（単語「is」付近の点線参照）。識別可能に表示させる態様として、制御部７は、例えば指摘対象文字列に対応付けて表示される手本の音声データの概形及び学習者の発話に対する音声データの概形の色を変更してもよいし、当該概形の背景色を変更してもよい。

また、制御部７は、手本の音声データの概形ＷＶ１及び概形ＷＶ１に対応するテキスト、並びに学習者の発話に対する音声データの概形ＷＶ２及び概形ＷＶ２に対応するテキストを対比的に表示部９に表示させる際、指摘対象文字列である音素「e」に対応する概形ＷＶ１，ＷＶ２の音高、音圧の該当部分ＡＴ１，ＡＴ２を識別可能に表示してもよい（図４参照）。識別可能に表示させる態様として、制御部７は、例えば該当部分ＡＴ１，ＡＴ２の色を変更してもよいし、当該概形の背景色を変更してもよい。

図４は、図３に示す各概形ＷＶ１，ＷＶ２において指摘対象文字列及び指摘対象文字列に対応する音高、音圧の該当部分を識別可能に表示した例を示す図である。図４でも同様に、制御部７は、例えば単語「pen」の音素「e」について第１比較部４が誤りを検出した場合には、指摘対象文字列として、表示領域ＭＤ１のテキストと表示領域ＵＳ１のテキストの両方の音素「e」を、他の音素に対して識別可能に表示させる。

また、図３及び図４において、ユーザ（例えば学習者）の受信部１０に対する入力操作として、手本ボタンＢＴ１が選択された状態で，再生ボタンＢＴ３が押下された場合には、制御部７は、手本の音声データをテキストの最初から順に再生部１１に再生させ、停止ボタンＢＴ４が押下された場合には、手本の音声データの再生を再生部１１に停止させる。一方、ユーザボタンＢＴ２が選択された状態で，再生ボタンＢＴ３が押下された場合には、制御部７は、ユーザ（例えば学習者）の発話に対する音声データをテキストの最初から順に再生部１１に再生させ、停止ボタンＢＴ４が押下された場合には、学習者の発話に対する音声データの再生を再生部１１に停止させる。

図２において、ユーザ（例えば学習者）の受信部１０に対する入力操作として、カーソルＣＳＲを指摘対象文字列である単語「pen」の音素「e」，単語「name」の音素「n」にロールオーバしない場合には、制御部７は、音素「e」，音素「n」の周囲に各指摘内容ＣＭ１，ＣＭ２を表示させない（図５参照）。図５は、再生ボタンＢＴ３の押下に伴う手本の音声又は学習者が発話した音声の再生時の画面ＷＤ１の表示例を示す図である。図６は、指定された単語に対する手本の音声、学習者が発話した音声の連続再生時の画面ＷＤ１の表示例を示す図である。

図５において、ユーザ（例えば学習者）の受信部１０に対する入力操作として、例えば手本ボタンＢＴ１が選択された状態で，再生ボタンＢＴ３が押下された場合には、制御部７は、手本の音声データを用いて、３つの文章からなるテキスト「Hello world. This is a pen. My name is Taro.」の先頭の文章から順に再生部１１に再生させ、この場合、再生されるテキストの音声の進行状況に合わせて識別可能に表示部９に表示（例えばハイライト表示）させる。一方、ユーザボタンＢＴ２が選択された状態で，再生ボタンＢＴ３が押下された場合には、制御部７は、学習者の発話に対する音声データを用いて、３つの文章からなるテキスト「Hello world. This is a pen. My name is Taro.」の先頭の文章から順に再生部１１に再生させ、この場合、再生されるテキストの音声の進行状況に合わせて識別可能に表示部９に表示（例えばハイライト表示）させる。

また図５において、ユーザ（例えば学習者）の受信部１０に対する入力操作として、例えば文章「This is a pen.」の単語「is」にカーソルＣＳＲを近づけてクリック操作（タップ操作でも可）した場合、制御部７は、クリック操作又はタップ操作された単語「is」を起点として頭出しして、単語「is」又は単語「is」以降の文章を再生部１１に再生させる。なお、制御部７は、クリック操作又はタップ操作された単語「is」を含む所定範囲を、他の単語と識別可能に表示部９に表示させてもよい（単語「is」付近の点線参照）。

図６において、ユーザ（例えば学習者）の受信部１０に対する入力操作として、例えばカーソルＣＳＲが指摘対象文字列である音素「e」を含む単語「pen」を指定してダブルクリック操作（ダブルタップ操作でも可）された場合には、制御部７は、例えば手本の音声データの単語「pen」を再生部１１に再生させ、その後連続して学習者の発話に対する音声データの単語「pen」を再生部１１に再生させる。

なお、制御部７は、例えば学習者の発話に対する音声データの単語「pen」を再生部１１に再生させ、その後連続して手本の音声データの単語「pen」を再生部１１に再生させてもよい。先に手本の音声データと学習者の発話に対する音声データのどちらを先に再生するかについては、例えばダブルクリック操作（ダブルタップ操作でも可）がなされる前に手本ボタンＢＴ１が押下されていれば先に手本の音声データを再生し、ユーザボタンＢＴ２が押下されていれば先に学習者の発話に対する音声データを再生すればよいが、この方法に限定されない。例えば、手本の音声データと学習者の発話に対する音声データのどちらを先に再生するかを定める設定値を再生部１１が保持してもよいし、その設定値は学習者や指導者の受信部１０に対する入力操作に応じて適宜変更されてもよい。

次に、録音部２におけるネイティブ又は学習者の発話時の音声を録音する方法について、図７、図８、図９、図１０を参照して説明する。図７は、第１録音パターンに対応した音読ボタンＢＴ８の押下に伴う学習者の音読に対する録音時の画面ＷＤ３ａの表示例を示す図である。図８は、第２録音パターンに対応したシャドーイングボタンＢＴ７の押下に伴う学習者のシャドーイングに対する録音時の画面ＷＤ３ｂの表示例を示す図である。図９は、第３録音パターンに対応した第１パラレルモードボタンＢＴ９の押下に伴う学習者の音読に対する録音時の画面ＷＤ３ｃの表示例を示す図である。図１０は、第４録音パターンに対応した第２パラレルモードボタンＢＴ１０の押下に伴う学習者の音読に対する録音時の画面ＷＤ３ｄの表示例を示す図である。

図７から図１０に示す各画面ＷＤ３ａ，３ｂ，３ｃ，３ｄは、ユーザ（例えば学習者）の受信部１０に対する所定の入力操作に応じて、表示部９において表示される。また、説明を簡単にするために、図７から図１０の説明では、学習者が自己の発話時の音声を録音する場合を例示して説明するが、ネイティブが自己の発話時の音声を録音する場合でも同様である。

図７では、第１録音パターン（つまり、音読）の録音が行われるので、学習対象となるテキスト「Hello world. This is a pen. My name is Taro.」が画面ＷＤ３ａに表示される。ユーザ（例えば学習者）の受信部１０に対する入力操作として、カーソルＣＳＲが音読ボタンＢＴ８を押下した場合には、録音部２は、学習者が学習対象となるテキストを読んだ（発話した）時の音声を収音して取り込む（録音する）。第１録音パターンでは、学習者によっていわゆる音読が行われるため、制御部７は、学習対象となるテキストのテキストデータに対応する音声データを再生部１１に再生させず、学習対象となるテキストのテキストデータに対応する音声データの再生の進行状況に合わせたハイライト表示を表示部９に行わせない。これにより、学習者は、音読による自己の発話時の音声を録音することができる。

図８では、第２録音パターン（つまり、シャドーイング）の録音が行われるので、学習対象となるテキスト「Hello world. This is a pen. My name is Taro.」は画面ＷＤ３ｂに表示されない。ユーザ（例えば学習者）の受信部１０に対する入力操作として、カーソルＣＳＲがシャドーイングボタンＢＴ７を押下した場合には、制御部７は、学習対象となるテキストのテキストデータに対応する手本の音声データを再生部１１に再生させる。この場合、録音部２は、学習者が聞こえた手本の音声データの内容を発話した時の音声を収音して取り込む（録音する）。これにより、学習者は、シャドーイングによる自己の発話時の音声を録音することができる。

図９では、第３録音パターン（つまり、音声再生無しでテキストのハイライト表示あり）の録音が行われるので、学習対象となるテキスト「Hello world. This is a pen. My name is Taro.」が画面ＷＤ３ｃに表示される。ユーザ（例えば学習者）の受信部１０に対する入力操作として、カーソルＣＳＲが第１パラレルモードボタンＢＴ９を押下した場合には、制御部７は、学習対象となるテキストのテキストデータに対応する手本の音声データの音声を出力しないで再生部１１に再生させ（ミュート再生）、更に、手本の音声データに対応する第１分析データを用いて、学習対象となるテキストのテキストデータに対応する手本の音声データの再生の進行状況に合わせたハイライト表示を表示部９に行わせる。この場合、録音部２は、学習者が学習対象となるテキストのハイライト表示の進行に合わせて発話した時の音声を収音して取り込む（録音する）。これにより、学習者は、音声が出力されていない状態でもハイライト表示されたテキストを見ながら自己の発話時の音声を録音することができるので、流暢な発音を心がけることができる。

図１０では、第４録音パターン（つまり、音声再生ありでテキストのハイライト表示あり）の録音が行われるので、学習対象となるテキスト「Hello world. This is a pen. My name is Taro.」が画面ＷＤ３ｄに表示される。ユーザ（例えば学習者）の受信部１０に対する入力操作として、カーソルＣＳＲが第２パラレルモードボタンＢＴ１０を押下した場合には、制御部７は、学習対象となるテキストのテキストデータに対応する手本の音声データの音声を出力しながら再生部１１に再生させ、更に、手本の音声データに対応する第１分析データを用いて、学習対象となるテキストのテキストデータに対応する手本の音声データの再生の進行状況に合わせたハイライト表示を表示部９に行わせる。この場合、録音部２は、学習者が手本の音声データを聞き、且つテキストのハイライト表示を見ながらその進行に合わせて発話した時の音声を収音して取り込む（録音する）。これにより、学習者は、音声が出力されている状態でハイライト表示されたテキストを見ながら自己の発話時の音声を録音することができるので、音声が出力されていない状態に比べて、より流暢かつ丁寧な発音を心がけることができる。

図２において、ユーザ（例えば学習者）の受信部１０に対する入力操作として、スコアボタンＢＴ６が押下された場合には、制御部７は、第１比較部４の出力の一例としての学習者の発音の正確さのスコアと、第２比較部５の出力の一例としての学習者の発話に関する流暢さのスコアと、第１比較部４及び第２比較部５の出力の一例としての指摘内容とを含む画面ＷＤ４を表示部９に表示させる（図１１参照）。図１１は、スコアボタンＢＴ６の押下に伴う学習者が発話した音声に関する各種スコアと指摘内容とを示した画面ＷＤ４の表示例を示す図である。なお、制御部７は、前述したスコアについて、必ずしも、第１比較部４の出力の一例としての学習者の発音の正確さのスコアと、第２比較部５の出力の一例としての学習者の発話に関する流暢さのスコアを分ける必要はなく、双方のスコアを用いて１つのスコアを算出し、表示部９に表示させても良い。また、制御部７は、前述したスコアについて、第２比較部５の出力に含まれる分析対象項目毎の指摘内容に応じて、第１比較部４における誤り検出結果を指摘するかの照合結果を用いて、スコアを算出し、表示部９に表示させても良い。

図１１では、簡単にするためにスコア自体の図示は省略されているが、後述するスコア算定方法により得られたスコアが表示され、また指摘内容として、例えば「手本と比べて、発話がゆっくりです」と、「pen[p/e/n]の発音が[p/a/n]になっています」と、「「name」の前に余計な呼気が含まれています」とが表示される。「手本と比べて、発話がゆっくりです」と「「name」の前に余計な呼気が含まれています」とは、学習者の発話の流暢さに関する指摘内容の一部で第２比較部５の出力の一例である。また、「pen[p/e/n]の発音が[p/a/n]になっています」は、学習者の発音の正確さに関する指摘内容の一部で第１比較部４の出力の一例である。なお、必ずしも第１比較部４もしくは第２比較部５の出力である指摘内容を表示する必要はない。

（発話評価装置の動作）
次に、本実施形態の発話評価装置２０の全体的な動作手順について、図１２〜図１４を参照して説明する。図１２は、本実施形態の発話評価装置の全体的な動作手順の一例を説明するフローチャートである。図１３は、図１２に続く動作手順の一例を説明するフローチャートである。図１４は、図１３に続く動作手順の一例を説明するフローチャートである。図１２では、録音部２及び分析データ生成部３が使用されず、手本の音声データに対応する第１分析データと学習者の発話に対する音声データに対応する第２分析データとが入力部１に入力される例について説明する。

図１２において、入力部１は、学習対象となるテキストに対する手本（例えばネイティブの発話した音声）の音声データとそのテキストのデータを示すテキストデータとテキストデータに含まれる音素毎の時間情報（例えば開始時刻、終了時刻）とを少なくとも含む第１分析データを入力（取得）する（Ｓ１）。また、入力部１は、学習対象となるテキストに対して学習者が発話した音声の音声データとそのテキストのデータを示すテキストデータとテキストデータに含まれる音素毎の時間情報（例えば開始時刻、終了時刻）とを少なくとも含む第２分析データを入力（取得）する（Ｓ１）。

入力部１は、第１分析データと第２分析データを棄却部１２に出力する（Ｓ１）。棄却部１２は、取得した第１分析データ及び第２分析データ内に含まれる音圧もしくは音高、もしくは第１分析データ及び第２分析データより得られる音声データ長、無音の継続時間長のいずれか１つが条件式（図１５（Ａ）参照）を満たすか否か判別する（Ｓ２）。もし、いずれか１つが条件式を満たす場合は、表示部９にて入力部１に当該条件式を満たした分析データ及びそれに相当する音声データとは異なる分析データ及び音声データの入力を促す内容を表示し（図１５（Ｂ））、ステップＳ４以降の処理は行わない（Ｓ３）。

図１５（Ａ）では、棄却部１２での前述した条件式の一例として、分析対象と分析対象毎の条件式を規定している。具体的には、分析対象Ａ（音高）では、例えば音高の各時刻の値（Ａｉ）が常に０（ゼロ）の場合は条件式を満たすと判別する。

同様に、分析対象Ｂ（音圧）では、音圧の各時刻の値（Ｂｉ）が所定の値（Ｂｍａｘ、例えば、発話評価装置２０が分析可能な音圧の最大値）以上又は、所定の値（Ｂｍｉｎ、例えば、発話評価装置２０が分析可能な音圧の最小値）以下の場合は条件式を満たすと判別する。分析対象Ｃ（音声データ長）では、音声データ長（Ｃ）が所定の値（Ｃｍｉｎ、例えば、分析対象の音声データとして必要とされる時間長の０．８倍の値）以下又は、所定の値（Ｃｍａｘ、例えば、分析対象の音声データとして必要とされる時間長の１．２倍の値）以上の場合は条件式を満たすと判別する。

更に、分析対象Ｄ（無音の継続時間長）では、無音の継続時間長（Ｄ）が所定の値（Ｄｓｉｌ、例えば、５秒）以上の場合は条件式を満たすと判別する。

なお、図１５（Ａ）では一例として音圧、音高、音声データ長、無音の継続時間長の４つを用い、条件式を満たすか否かを判別しているが、いずれか１つのみ用いても良い。また、棄却部１２は、第１分析データもしくは第２分析データを用いずに、音声データより音圧、音高、音声データ長、無音の継続時間長を算出しても良い。また、手本の音声データはノイズの少ない環境で録音されている場合が多いため、手本の音声データもしくは第1分析データに対する棄却するか否かの判別を必ずしも行う必要はない。

ステップＳ２で音圧、音高、音声データ長、無音の継続時間長のいずれも条件式を満たさない場合は、棄却部１２は、ユーザ発話の音声データと分析データとを第１比較部４に出力し、手本、ユーザ発話の各分析データを第２比較部５に出力し、全てのデータを制御部７に出力する（Ｓ４）。

なお、図１の複雑化を避けるために、棄却部１２と制御部７との間の矢印の図示及び、棄却部１２から表示部９との間の矢印の図示は省略している。また、図１３のステップＳ４の後、ステップＳ５の処理とステップＳ６の処理とは並行に行われるので、時系列の順序は特に規定されない。

第１比較部４は、棄却部１２から出力された第２分析データと第１データ管理部Ｍ１において保持される予め定められた音響モデルとを用いて、学習者が発話した音声の音素列を構成する各音素（比較元音素）と音素毎に予め定められた比較対象音素（図１９（Ａ）参照）との比較結果を基にした音素列の誤り検出を行う（Ｓ５）。第１比較部４は、学習者が発話した音声の音素列の誤り検出結果を第１データ管理部Ｍ１及び制御部７に出力する。なお、第１比較部４における音素列の誤り検出の詳細については、後述する。

第２比較部５は、棄却部１２から出力された第１分析データと第２分析データとの差分（即ち、手本の音声データに対応する第１分析データと学習者の発話に対応する第２分析データとの差分）を算定する（Ｓ６）。第２比較部５は、第１分析データと第２分析データとの差分と、第２データ管理部Ｍ２において保持される予め定められた発話時の流暢さに関する分析対象項目毎の条件式（図２８（Ａ）参照）とを比較する。第２比較部５は、第１分析データと第２分析データとの差分と分析対象項目毎の条件式との比較結果を第２データ管理部Ｍ２及び制御部７に出力する。なお、第２比較部５における比較の詳細については、後述する。

第１比較部４の出力として誤りのある音素を含む音素列があると判断された場合には（Ｓ７、ＹＥＳ）、又は第２比較部５の出力として条件式を満たす分析対象項目があると判断された場合には（Ｓ８、ＹＥＳ）、発話評価装置２０の動作はステップＳ９に進む。一方、第１比較部４の出力として誤りのある音素を含む音素列がないと判断され（Ｓ７、ＮＯ）、かつ第２比較部５の出力として条件式を満たす分析対象項目がないと判断された場合に限り（Ｓ８、ＮＯ）、発話評価装置２０の動作はステップＳ１２に進む。

制御部７は、図２９に示すテーブル（即ち、第２比較部５における分析対象項目毎に、第１比較部４における誤り検出結果の指摘可否を規定した情報が規定されたテーブル）を参照し、このテーブルと第１比較部４の出力と第２比較部５の出力とを用いて、第２比較部５の出力に含まれる分析対象項目毎の指摘内容に応じて、第１比較部４における誤り検出結果を指摘するか否かを照合する（Ｓ９）。図２９は、第２比較部５の分析対象項目と第１比較部４における誤り検出の指摘可否とが対応付けられたテーブルの一例を示す図である。

図２９では、第２比較部５における分析対象項目毎に、第１比較部４における音素列の誤り検出結果を指摘するか否かを定める設定値が対応付けて規定されている。なお、図２９の場合、制御部７は、第１比較部４の出力から音素列の誤り検出結果に誤りがないと判断した場合には、図２９に示すテーブルを考慮しないで、第２比較部５の出力から分析対象項目毎の条件式を満たすか否かの判断結果を指摘するか否かの判断結果とすればよい。

具体的には、分析対象項目Ａ１「音素もしくは単語のデュレーション」について、学習者の発話に対する音声データに分析対象項目Ａ１の条件式（図２８（Ａ）参照）を満たす（即ち、分析対象項目Ａ１について指摘するべきとの結果が得られた）指摘対象文字列が存在すると第２比較部５により判断された場合には、制御部７は、当該指摘対象文字列に対しては第１比較部４の出力（即ち、音素列の発音の正確さに関する指摘事項）を指摘しないと判断する。

分析対象項目Ａ２「無音のデュレーション」について、学習者の発話に対する音声データに分析対象項目Ａ２の条件式（図２８（Ａ）参照）を満たす（即ち、分析対象項目Ａ２について指摘するべきとの結果が得られた）指摘対象文字列が存在すると第２比較部５により判断された場合には、制御部７は、当該指摘対象文字列に対しては第１比較部４の出力（即ち、音素列の発音の正確さに関する指摘事項）を指摘しないと判断する。

分析対象項目Ａ３「話速」について、学習者の発話に対する音声データが分析対象項目Ａ３の条件式（図２８（Ａ）参照）を満たす（即ち、分析対象項目Ａ３について指摘するべきとの結果が得られた）と第２比較部５により判断された場合には、制御部７は、分析対象項目Ａ３「話速」に関する第１比較部４の出力（即ち、音素列の発音の正確さに関する指摘事項）を指摘すると判断する。

分析対象項目Ａ４「音圧の最大値を持つ音素位置の差」について、学習者の発話に対する音声データに分析対象項目Ａ４の条件式（図２８（Ａ）参照）を満たす（即ち、分析対象項目Ａ４について指摘するべきとの結果が得られた）指摘対象文字列が存在すると第２比較部５により判断された場合には、制御部７は、当該指摘対象文字列に対しては第１比較部４の出力（即ち、音素列の発音の正確さに関する指摘事項）を指摘すると判断する。

分析対象項目Ａ５「音高の最大値を持つ音素位置の差」について、学習者の発話に対する音声データに分析対象項目Ａ５の条件式（図２８（Ａ）参照）を満たす（即ち、分析対象項目Ａ５について指摘するべきとの結果が得られた）指摘対象文字列が存在すると第２比較部５により判断された場合には、制御部７は、当該指摘対象文字列に対しては第１比較部４の出力（即ち、音素列の発音の正確さに関する指摘事項）を指摘すると判断する。

なお、図２９に示すテーブルにおいて、ユーザ（例えば指導者）の指導方針に応じて、第１比較部４における音素列の誤り検出結果を指摘するか否かを定める設定値は、指導者の受信部１０に対する入力操作に応じて、適宜変更されてもよい。これにより、指導者は、自己の指導方針に従って、第２比較部５における分析対象項目毎の、第１比較部４における音素列の誤り検出結果を指摘するか否かを定める設定値を規定することができる。

制御部７は、保持するテーブル（図２９参照）の組み合わせを満たす（即ち、図２９に示すレコードの組み合わせに該当する第１比較部４及び第２比較部５の各出力が得られた）場合には（Ｓ９、ＹＥＳ）、照合結果を基に、学習者への指摘内容の表示の有無（指摘の有無）を制御する（Ｓ１０）。言い換えると、制御部７は、図２９に示すテーブル（即ち、分析対象項目と第１比較部４における誤り検出結果の指摘可否との組み合わせ）の組み合わせに従って、第２比較部５の分析において分析対象項目毎の条件式を満たす分析対象項目に関する指摘内容を少なくとも表示部９に表示させ、更に、図２９に示すテーブルの組み合わせによっては第１比較部４の誤り検出において分析対象項目に関する指摘内容も表示部９に表示させる。

一方、制御部７は、保持するテーブル（図２９参照）の組み合わせを満たさない（即ち、図２９に示すレコードの組み合わせに該当する第１比較部４及び第２比較部５の各出力が得られなかった）場合には（Ｓ９、ＮＯ）、第１データ管理部Ｍ１及び第２データ管理部Ｍ２に格納されている各種データ（即ち、第１比較部４及び第２比較部５の各出力）を用いて、学習者への指摘内容の表示（指摘）を制御する（Ｓ１１）。

制御部７は、第１比較部４の出力の一例としての学習者の発音の正確さのスコアと、第２比較部５の出力の一例としての学習者の発話に関する流暢さのスコアとを取得する（Ｓ１２）。この場合、ユーザ（例えば学習者）の受信部１０に対する入力操作として、図２に示すスコアボタンＢＴ６が押下された場合には、制御部７は、第１比較部４の出力の一例としての学習者の発音の正確さのスコアと、第２比較部５の出力の一例としての学習者の発話に関する流暢さのスコアと、第１比較部４及び第２比較部５の出力の一例としての指摘内容とを含む画面ＷＤ４を表示部９に表示させる（図１１参照）。

ステップＳ１２の後、ユーザ（例えば学習者）の受信部１０に対する入力操作として、例えば手本ボタンＢＴ１が選択された状態で，再生ボタンＢＴ３が押下された場合には、制御部７は、手本の音声データを用いて、例えば３つの文章からなるテキスト「Hello world. This is a pen. My name is Taro.」の先頭の文章から順に再生部１１に再生させ、この場合、再生されるテキストの音声の進行状況に合わせて識別可能に表示部９に表示（例えばハイライト表示）させる（Ｓ１３、図５参照）。一方、ユーザボタンＢＴ２が選択された状態で，再生ボタンＢＴ３が押下された場合には、制御部７は、学習者の発話に対する音声データを用いて、例えば３つの文章からなるテキスト「Hello world. This is a pen. My name is Taro.」の先頭の文章から順に再生部１１に再生させ、この場合、再生されるテキストの音声の進行状況に合わせて識別可能に表示部９に表示（例えばハイライト表示）させる（Ｓ１３、図５参照）。

又はステップＳ１２の後、ユーザ（例えば学習者）の受信部１０に対する入力操作として、例えば文章「This is a pen.」の単語「is」にカーソルＣＳＲを近づけてクリック操作（タップ操作でも可）した場合、制御部７は、クリック操作又はタップ操作された単語「is」を起点として頭出しして、単語「is」又は単語「is」以降の文章を再生部１１に再生させる（Ｓ１３、図５参照）。

又はステップＳ１２の後、ユーザ（例えば学習者）の受信部１０に対する入力操作として、波形ボタンＢＴ５が押下されると、制御部７は、手本の音声データの概形ＷＶ１及び概形ＷＶ１に対応するテキスト、並びに学習者の発話に対する音声データの概形ＷＶ２及び概形ＷＶ２に対応するテキストを対比的に表示部９に表示させる（Ｓ１３、図３参照）。

次に、録音部２が使用される場合の発話評価装置２０の全体的な動作手順について、図１６及び図１７を参照して説明する。図１６及び図１７は、学習者が発話する音声を録音する際の本実施形態の発話評価装置２０の全体的な動作手順の一例を説明するフローチャートである。なお、図１７に示すステップＳ１ｆ以降の処理は、図１３及び図１４と同様であるため、説明を省略する。なお、図１６及び図１７の説明を簡単にするために、手本の音声データは既に録音されており、第１分析データは入力され、学習者のテキストデータの発話時の音声が録音される例について説明する。

図１６において、入力部１は、学習対象となるテキストに対する手本の音声データを含む第１分析データとテキストデータとを取得し（Ｓ１ａ）、第１分析データとテキストデータとを録音部２に出力する。録音部２は、図７〜図１０に示す第１録音パターン〜第４録音パターンのいずれかに従って、学習者が学習対象となるテキストを発話した音声をマイクロホンにおいて収音し（Ｓ１ｂ）、入力部１から出力されたテキストデータと収音により得られた音声データとを対応付けて棄却部１２に出力する（Ｓ１ｃ）。

棄却部１２の処理を示すステップＳ２、ステップＳ２にて条件式を満たす場合の処理を示すステップＳ３については、図１２のステップＳ２，Ｓ３と同様であるため、説明を省略する。ステップＳ２にて条件式を満たさない場合、分析データ生成部３に第１分析データ及びステップＳ１ｂにて録音した学習者の音声データ（とテキストデータ）を分析データ生成部３に出力し（Ｓ１ｄ）、ステップＳ１ｅへと進む。

分析データ生成部３は、テキストデータと学習者の音声データとを用いて分析（例えば公知の音声認識処理を使用）することで、テキストデータに含まれるテキストの音声を構成する音素毎の開始時刻及び終了時刻を取得する（Ｓ１ｅ）。例えば開始時刻及び終了時刻は、学習者の受信部１０に対する入力操作により入力されてもよいし、音響モデルと音声データとのＤＰ（ＤｙｎａｍｉｃＰｒｏｇｒａｍｉｎｇ）による強制アライメントによって得られてもよい。また、分析データ生成部３は、テキストデータと手本又は学習者の音声データとを用いて分析することで、手本又は学習者の音声データにおける時刻毎の音高、音高の変化量、音高の変化量の変化量、音圧、音圧の変化量、音圧の変化量の変化量、話速、音高の極大値、音高の極小値、音高の最大値、音高の最小値、音圧の極大値、音圧の極小値、音圧の最大値、音圧の最小値のうち１つ以上を取得する（Ｓ１ｅ）。音高又は音圧の変化量は所定区間に対して差分を取得する事によって得られる。音高又は音圧の変化量の変化量は、変化量の差分を計算する事によって得られる。また、音高又は音圧の最大値、最小値、極大値、極小値は変化量により得られる。また、話速は１分間に含まれる単語数（ＷＰＭ：word per minute）、１分間に含まれる音節数等のいずれでもよい。

これにより、分析データ生成部３は、手本に対する第１分析データと学習者の発話に対する第２分析データとを生成することができる。分析データ生成部３は、第２分析データを第１比較部４に出力し、更に、第１分析データ及び第２分析データを第２比較部５に出力する（Ｓ１ｆ）。また、分析データ生成部３は、全てのデータ（例えば第１分析データ、第２分析データ）を制御部７に渡す（Ｓ１ｆ）。

次に、第１比較部４における音素列の誤り検出の詳細について、図１８を参照して説明する。図１８は、第１比較部４における誤り検出の動作手順の一例を説明するフローチャートである。図１８に示すフローチャートの例は、入力された発話時の音声データＸに対し、尤度ｐ（Ｘ｜Ｗ’）が最大となる音素列Ｗ’を求め、この中で、本来の発話内容を示す音素列Ｗを構成する音素ｗｉよりも尤度の高くなる音素ｗｉ’を見つけることで発話の誤りのある音素を検出する方法である。大文字のＷは音素列、小文字のｗは音素、ｉは音素列中の該当する音素の出現位置を示し、’（ダッシュ）は最大（もしくは最適）を示す。

この方法は、例えば下記参考非特許文献１において具体的に開示されている公知技術であるが、第１比較部４における音素列の誤り検出の方法は参考非特許文献１に開示されている方法に限定されない。例えば、第２分析データから直接誤りがあるかどうかを判定する識別器（ＳＶＭ：Support Vector Machine）を用いて誤りのある音素を検出してもよい。

（参考非特許文献１）電子情報通信学会論文誌ＤＶｏｌ．Ｊ９６−Ｄ，Ｎｏ．７，ｐｐ．１５４９−１５６５，２０１３

図１８において、第１比較部４は、第１データ管理部Ｍ１に格納されている各種データ（具体的には図１９（Ａ）に示すテーブル）を参照し、１つ以上の比較対象音素列Ｗａｌｌを生成する（Ｓ２−１）。比較対象音素列Ｗａｌｌは、図１９（Ａ）に示すテーブルを用いて、学習者が発話した音声の音声データの中から、音素毎に誤って発音（発話）される可能性のある音素又は比較対象音素を並べた音素列の全ての組み合わせである。図１９（Ａ）は、音素毎の１つ以上の比較対象音素と評価対象の有無とが対応付けられたテーブルの一例を示す図である。

図１９（Ａ）に示すテーブルでは、音素と、この音素が誤って発音される可能性のある比較対象音素Ｃ１，Ｃ２と、当該音素の誤り検出結果を指摘するか否かを定める評価対象の設定値とが対応付けて規定されている。例えば音素「ah」には、比較対象音素Ｃ１「aa」と比較対象音素Ｃ２「ao」と評価対象の設定値「×」とが対応付けて規定されている。音素「th」には、比較対象音素Ｃ１「s」と比較対象音素Ｃ２「th+uh」と評価対象の設定値「○」とが対応付けて規定されている。音素「v」には、比較対象音素Ｃ１「b」と評価対象の設定値「○」とが対応付けて規定されている。同様に音素「r」には、比較対象音素Ｃ１「l」と評価対象の設定値「○」とが対応付けて規定されている。

第１比較部４は、ステップＳ２−１において生成した各比較対象音素列Ｗａｌｌの中で尤度が最大になる音素列Ｗ’を数式（１）に従って算定する（Ｓ２−２）。第１比較部４は、続いて音素列Ｗ’において個々の音素を見ていき、尤度が最大となる音素ｗｉ’について数式（２）を満たすか否かを判断する（Ｓ２−３）。ここで事前のアライメントにより音素ｗｉに対応する音声データをｘｉとする。数式（２）の不等式の左辺は、誤りがあると考えられる音素の尤度と発話するべき正解音素の尤度の差を示し、第１比較部４は、この差が予め設定された定数αより小さい場合は（Ｓ２−３，ＮＯ）、入力された学習者の音声データは、発音の正確さに関する誤りが無いと判断する（Ｓ２−４）。

一方、第１比較部４は、数式（２）を満たすと判断した場合には（Ｓ２−３，ＹＥＳ）、音素ｗｉ’を誤って発音している音素列Ｗ’と判断する（Ｓ２−５）。なお、数式（２）を満たすと判断した場合でも当該音素の誤り検出結果を指摘するか否かを定める評価対象の設定値が「×」であれば、当該音素は誤っていないと判断する（Ｓ２−３，ＮＯ。つまり、指摘しない）。この設定値は指導者が設定しても良い。また、この設定値は必ずしも必要でなく、図１９（Ａ）の構成から省略されてもよい。図１９（Ｂ）は、音素毎の１つ以上の比較対象音素を用いた比較対象音素列の一例を示す図である。図２０は、第１比較部４における誤り検出に基づく指摘内容の一例を示す説明図である。

図１９（Ｂ）及び図２０では、例えば発話される音声が単語「right」である場合に、図１９（Ａ）に示すテーブルを用いて、単語「right」の音素列を構成する音素毎に比較対象音素を組み合わせた比較対象音素列Ｗａｌｌが示されている。図２０に示す太い実線の矢印により結合される各音素の組み合わせは、図１８に示すステップＳ２−２において算定された音素列Ｗ’に対応する。例えば図２０に示すように、第１比較部４は、比較元音素列「right」の音素「r/ay/t」の発音が比較対象音素「l/ay/t/o」になっている旨を指摘内容として出力する。なお、制御部７は、図２０に示すように、本来正しく発音されるべき音素が間違って発音された音素を識別可能に表示部９に表示させる（図２０に示す下線部の比較対象音素「l」,「o」参照）。

次に、第２比較部５における第１分析データと第２分析データとを用いた分析の詳細について、図２１を参照して説明する。図２１は、第２比較部５における差分の分析処理の動作手順の一例を説明するフローチャートである。図２２は、手本の音声に対応する第１分析データの第１例を示す図である。図２３は、学習者の音声に対応する第２分析データの第１例を示す図である。図２４は、手本の音声に対応する第１分析データの第２例を示す図である。図２５は、学習者の音声に対応する第２分析データの第２例を示す図である。

図２１において、第２比較部５は、第２データ管理部Ｍ２を参照し、第２データ管理部Ｍ２に格納されている分析対象項目毎に必要となるデータの差分（即ち、棄却部１２もしくは分析データ生成部３から出力された第１分析データと第２分析データとの差分）を算定する（Ｓ３−１）。第１分析データと第２分析データとの差分は、手本の音声データに対応する第１分析データと学習者の発話に対応する第２分析データとの差分を示す（図２６、図２７参照）。図２６は、手本の音声に対応する第１分析データと学習者の音声に対応する第２分析データとの音高及び音圧の変化量、変化量の変化量の差分と、話速の差分の一例を示す図である。図２７は、手本の音声に対応する第１分析データと学習者の音声に対応する第２分析データとの差分の第２例を示す図である。

図２２では、例えば、単語（ラベル、音素列）「turn」が開始時刻「300」から終了時刻「520」まで発話され、無音状態（ショートポーズ、ＳＰ）が開始時刻「520」から終了時刻「600」まで継続し、単語「right」が開始時刻「600」から終了時刻「920」まで発話される。一方、図２３では、単語「turn」が開始時刻「320」から終了時刻「550」まで発話され、無音状態（ショートポーズ、ＳＰ）が開始時刻「550」から終了時刻「630」まで継続し、単語「right」が開始時刻「630」から終了時刻「940」まで発話される。なお、第２比較部５は、単語毎ではなく音素毎に、開始時刻と終了時刻を算定してもよい。

図２４では、一例として時刻Ｔｉにおける手本の音声データに対応する音高、音高の変化量、音高の変化量の変化量（音高変化量Δの１つ右側のΔΔ参照）、音圧、音圧の変化量、音圧の変化量の変化量（音圧変化量Δの１つ右側のΔΔ参照）、話速を含む第１分析データＥｍが示されている。ｍは手本の音声データであることを示す添え字である。同様に、図２５では、時刻Ｔｉにおける学習者の発話に対する音声データに対応する音高、音高の変化量、音高の変化量の変化量（音高変化量Δの１つ右側のΔΔ参照）、音圧、音圧の変化量、音圧の変化量の変化量（音圧変化量Δの１つ右側のΔΔ参照）、話速を含む第２分析データＥｎが示されている。ｎは学習者の発話に対する音声データであることを示す添え字である。なお、複雑化を避けるため、図２４、図２５共に「It’s OK」に相当する時刻に関する音高、音高の変化量、音高の変化量の変化量、音圧、音圧の変化量、音圧の変化量の変化量、話速の値を記述している。なお、例えば変化量は所定区間の最大値（極大値）、最小値（極小値）を算出する際に用い、変化量の変化量は音高又は音圧の変化の度合い（例えば音高の立ち上がりの度合い、図３又は図４に示す手本と学習者の音高又は音圧の概形）の差を算出する際に用いる。

図２６では、一例として時刻Ｔｉにおける手本の音声データと学習者の発話に対する音声データに対応する音高、音高の変化量、音高の変化量の変化量（音高変化量Δの１つ右側のΔΔ参照）、音圧、音圧の変化量、音圧の変化量の変化量（音圧変化量Δの１つ右側のΔΔ参照）、話速の各差分値が示されている。図２７では、ラベル（Ｌａｂｅｌ、例えば音素又は音素列又は単語）とラベル毎の時間長の差分値が示されている。なお、時間長の差（Ｌｂｄｕｒ(Ｌｉ)）はショートポーズ（ＳＰ）以外のラベルＬｉにおける手本と学習者の時間長の差を示し、無音区間長の差（Ｓｐｄｕｒ（Ｌｉ））はショートポーズ（ＳＰ）に相当するラベルＬｉにおける手本と学習者のショートポーズ（ＳＰ）の時間長の差を示している。

第２比較部５は、ステップＳ３−１において算定した第１分析データと第２分析データとの差分（図２６、図２７参照）と、第２データ管理部Ｍ２において保持される予め定められた発話時の流暢さに関する分析対象項目毎の条件式（図２８（Ａ）参照）とを比較する（Ｓ３−２）。図２８（Ａ）は、第２比較部５における分析対象項目と分析対象項目毎の条件式と評価対象の有無とが対応付けられたテーブルの一例を示す図である。

図２８（Ａ）では、発話の流暢さを客観的に評価するための分析対象項目Ａ１〜Ａ５毎に、分析対象となる算定値又は取得値（即ち、第１分析データ及び第２分析データから得られた値）と条件式と第２比較部５の出力として指摘内容に含めるか否かを示す設定値とが対応付けて示されている。分析対象項目Ａ１，Ａ５に対応する評価対象の設定値は「×」であるため、分析対象項目Ａ１，Ａ５に関しては条件式を満たすかどうかの判別をしない、もしくは分析対象項目Ａ１，Ａ５に関しては指摘内容を学習者には提示されないことになる。一方、分析対象項目Ａ２〜Ａ４に対応する評価対象の設定値は「○」であるため、分析対象項目Ａ２〜Ａ４に関しては条件式を満たすかどうかの判別をする、もしくは分析対象項目Ａ２〜Ａ４に関しては指摘内容を学習者には提示される。なお、Ｌｍｉは手本のラベルＬｉを示し、Ｌｎｉは学習者のラベルＬｉを示す。また、この設定値は指導者が設定しても良い。また、この設定値は必ずしも必要でなく、省略されてもよい（すなわち、すべて「○」になる）。

第２比較部５は、ステップＳ３−１において算定した第１分析データと第２分析データとの差分が図２８（Ａ）に示す分析対象項目毎の条件式を満たすと判断した場合には（Ｓ３−２，ＹＥＳ）、条件式を満たす分析対象項目において学習者の発話の流暢さに関する評価として誤りがあると判断し、誤りがあると判断した指摘対象文字列と指摘内容とを取得して出力する（Ｓ３−３、図２８（Ｂ）参照）。図２８（Ｂ）は、第２比較部５における分析対象と指摘内容とが対応付けられたテーブルの一例を示す図である。

図２８（Ｂ）では、図２８（Ａ）の条件式を満たす場合にそれぞれ分析対象項目Ａ１「音素もしくは単語のデュレーション」に関して、『単語「Li」で言いよどみ、詰まりの可能性があります。手本をよく聞いて再度発話してみましょう』と指摘されること、分析対象項目Ａ２「無音のデュレーション」に関して、『前に余計な呼気が含まれてます。手本をよく聞いて息継ぎするタイミングに気を付けましょう』と指摘されること、分析対象項目Ａ３「話速」に関して、『手本に比べて、かなりゆっくりです』と指摘されること、分析対象項目Ａ４「音圧の最大値を持つラベル位置の差」に関して、『手本と異なる位置にアクセントがあります。手本は単語「Lmi」で強く発声します』と指摘されること、分析対象項目Ａ５「音高の最大値を持つラベル位置の差」に関して、『手本とイントネーションが異なります。手本は単語「Lmi」で高く発声します』と指摘されることがそれぞれ示されている。例えば、分析対象項目Ａ３は図２８（Ａ）に示すように評価対象の設定値は「○」であるため、第１分析データと第２分析データとの差分が図２８（Ａ）に示す分析対象項目Ａ３の条件式を満たすかどうか判別をおこなう。図２６に示すように話速の第１分析データと第２分析データの差分は「１４」であり、図２８（Ａ）の分析対象項目Ａ３の条件式を満たさないため、学習者に提示しない。また、分析対象項目Ａ４は図２８（Ａ）に示すように評価対象の設定値は「○」であるため、第１分析データと第２分析データとの差分が図２８（Ａ）に示す分析対象項目Ａ４の条件式を満たすかどうか判別をおこなう。図２４より、第１分析データの音圧の変化量がプラスの値の後、ゼロとなり、その後がマイナスの値となるのは時刻「１０４０」であり、図２２より時刻「１０４０」に相当するラベル（Ｌｍｉ）はＬ５「It’s」である（つまり、「It’s OK」の音圧の最大値を持つラベルが「It’s」）。一方、図２５より、第２分析データの音圧の変化量がプラスの値の後、ゼロとなり、その後がマイナスの値となるのは時刻「１３４０」であり、図２３より時刻「１３４０」に相当するラベル（Ｌｎｉ）はＬ７「OK」である（つまり、「It’s OK」の音圧の最大値を持つラベルが「OK」）。図２８（Ａ）の分析対象項目Ａ４の条件式Ｌｍｉ≠Ｌｎｉを満たすため、学習者に『手本と異なる位置にアクセントがあります。手本は単語「It’s（Ｌｍｉ）」で強く発声します』を提示する。なお、分析対象項目Ａ４では音圧の最大値を用いて判別を行ったが、音圧の最小値としてもよいし、音圧の変化量の変化量又は音圧の極大値又は、音圧の極小値を用いてもよい。各項目（音圧の最小値、音圧の変化量の変化量、音圧の極大値、音圧の極小値）を用いることでより詳細な判別が可能となる。また、音高を用いた第１分析データと第２分析データとの分析は、音圧と同様のため、説明を省略する。

一方、第２比較部５は、ステップＳ３−１において算定した第１分析データと第２分析データとの差分が図２８（Ａ）に示す分析対象項目毎の条件式をいずれも満たさないと判断した場合には（Ｓ３−２，ＮＯ）、学習者の発話の流暢さに関する評価として誤りがないと判断し、誤りが無い旨を取得して出力する（Ｓ３−４）。

図３０（Ａ）は、第２比較部５における分析対象項目とスコア算定時の重み係数ｊとスコア種別とが対応付けられたテーブルの一例を示す図である。図３０（Ｂ）は、第１比較部４におけるスコア算定時の重み係数ｊとスコア種別とが対応付けられたテーブルの一例を示す図である。図３０（Ｃ）は、スコア種別とスコア名称とが対応付けられたテーブルの一例を示す図である。

図３０（Ｃ）に示すように、スコア種別「Ｓ１」に対応するスコア名称は「正確さ」であり、第１比較部４により正確さに関するスコアが算定される。また、スコア種別「Ｓ２」に対応するスコア名称は「流暢さ」であり、第２比較部５により流暢さに関するスコアが算定される。

図３０（Ａ）に示すように、分析対象項目Ａ１に対応する重み係数ｊは「１．０」であり、分析対象項目Ａ２に対応する重み係数ｊは「０．９」であり、分析対象項目Ａ４に対応する重み係数ｊは「０．７」であり、分析対象項目Ａ５に対応する重み係数ｊは「０．６」である。なお、分析対象項目Ａ３に対応する重み係数ｊは規定されていない。これは分析対象項目Ａ３についてはスコア算定時に用いない事を示している。図３０（Ｂ）に示すように、スコア種別「Ｓ１」（即ち、正確さに関するスコア）に対応する重み係数ｊは「１．０」である。また、この重み係数ｊは指導者が設定しても良い。

ここで、第１比較部４は、学習者の発音の正確さに関するスコアを、数式（３）に従って算定して第１データ管理部Ｍ１に格納する。数式（３）において、ｉは発話された音声を構成する全ての音素数（総音素数）の序数を示し、発音の正確さに関するスコアは０から１までの値である。

同様に、第２比較部５は、学習者の発話の流暢さに関するスコアを、数式（４）に従って算定して第２データ管理部Ｍ２に格納する。数式（４）において、ｉは発話された音声を構成する全ての音素数（総音素数）の序数を示し、発話の流暢さに関するスコアは０から１までの値である。

更に、制御部７は、第１データ管理部Ｍ１に格納される発音の正確さに関するスコア（数式（３）参照）と第２データ管理部Ｍ２に格納される発話の流暢さに関するスコア（数式（４）参照）との和（数式（５）参照）により、学習者の発話に関する全体スコアを算定する。

図３１（Ａ）は、指導者のＩＤでログインした際に表示される学習者の学習履歴の一覧表示の抜粋の一例を示す図である。図３１（Ｂ）は、学習者のＩＤでログインした際に表示される各自の学習履歴の一覧表示の抜粋の一例を示す図である。図３１（Ａ）に示す学習履歴の一覧では、学習者、実施日（学習日）、学習対象となるテキストを含むコンテンツ、スコア、指摘件数、指摘対象文字列、指摘内容の各項目に対する内容を示すデータが対応付けて示される。図３１（Ａ）に示す学習履歴の一覧は指導者のＩＤでログインされた結果として表示されるので、指導者にとって俯瞰性の高い学習者毎の学習履歴の一覧が示されている。一方、図３１（Ｂ）に示す学習履歴の一覧は或る学習者のＩＤでログインされた結果として表示されるので、学習者にとって俯瞰性の高い実施日（学習日）毎の学習履歴の一覧が示されている。

図３１（Ａ）又は図３１（Ｂ）に示す各学習履歴では、学習履歴を示すレコード毎に「確認する」のハイパーリンクが設けられており、例えばユーザ（例えば学習者、指導者）の受信部１０に対する入力操作として、カーソルＣＳＲを「確認する」のハイパーリンクに近づけてクリック操作すると、制御部７は、クリック操作されたレコードに対応する学習履歴のデータを履歴管理部８から読み出して、図３２に示す学習履歴の詳細な内容を示す画面ＷＤ１を表示部９に表示させる。図３２は、図３１の「確認する」のハイパーリンクのクリック操作に伴う学習履歴の詳細表示の一例を示す図である。なお、図３２の学習履歴の詳細を表示する画面は図２の学習者が発話した音声に対する指摘対象文字列と指摘内容とを示した画面と同様でよく、同様の機能（例えば、学習者もしくは手本の音声データを再生すること及びこの再生中の音声の進行に応じてテキストデータの該当箇所を識別可能に提示すること、所定の選択操作に応じて指定されたテキストデータ内の文字列を起点に、当該文字列から音声データを再生すること）を提供してもよい。

図３２では、学習対象となるテキスト「Turn right. It’s OK. This is a pen.」の３つの文章が表示されており、単語「right」の音素「r」が指摘対象文字列として他の文字列と比べて識別可能に示され（下線参照）、単語「OK」の音素「O」が指摘対象文字列として他の文字列と比べて識別可能に示され（下線参照）、更に、単語「is」の音素「i」が指摘対象文字列として他の文字列と比べて識別可能に示されている（下線参照）。

制御部７は、ユーザ（例えば学習者又は指導者）の受信部１０に対する入力操作として、表示部９の画面ＷＤ１に表示されたカーソルＣＳＲを指摘対象文字列である音素「r」に重ね合わせると（ロールオーバ）、例えば音素「r」に関して第１比較部４が検出した誤りについての指摘内容ＣＭ３（第１指摘内容）として『right[r/ay/t]の発音が[l/ay/t/o]になっています』を、指摘対象文字列である音素「r」の周囲に表示させる。

また、制御部７は、ユーザ（例えば学習者）の受信部１０に対する入力操作として、表示部９の画面ＷＤ１に表示されたカーソルＣＳＲを指摘対象文字列である音素「O」に重ね合わせると（ロールオーバ）、例えば音素「O」に関して第２比較部５が検出した分析対象項目の誤りについての指摘内容ＣＭ４（第２指摘内容）として『手本と異なる位置にアクセントがあります。手本は単語「It’s」で強く発声します』を、指摘対象文字列である音素「O」の周囲に表示させる。

更に、制御部７は、ユーザ（例えば学習者）の受信部１０に対する入力操作として、表示部９の画面ＷＤ１に表示されたカーソルＣＳＲを指摘対象文字列である音素「i」に重ね合わせると（ロールオーバ）、例えば音素「i」に関して第２比較部５が検出した分析対象項目の誤りについての指摘内容ＣＭ５（第２指摘内容）として『前に余計な呼気が含まれています。手本をよく聞いて息継ぎするタイミングに気を付けましょう』を、指摘対象文字列である音素「i」の周囲に表示させる。

以上により、本実施形態の発話評価装置２０は、手本もしくはユーザの発話に対する音声データもしくは第１分析データもしくは第２分析データに基づき、棄却を行うか否かの判別を棄却部１２において行い、予め定められた音響モデルを用いて、ユーザ（例えば学習者）の発話に対する音声データの音素列の誤り検出を第１比較部４において行い、手本の音声データとテキストデータとテキストデータに含まれる音素毎の時間情報とを少なくとも含む第１分析データとユーザの発話に対する音声データとテキストデータとテキストデータに含まれる音素毎の時間情報とを少なくとも含む第２分析データとの差分を第２比較部５において算定して分析する。発話評価装置２０は、第１比較部４又は第２比較部５の出力が所定の条件式又は分析対象項目毎の条件式を満たす場合は、音素位置を含む１つ以上の指摘対象文字列と指摘対象文字列に対応する指摘内容とを表示部９に提示（表示）させる。

これにより、発話評価装置２０は、例えば音読やシャドーイングの際に学習者（ユーザの一例）が発話した時の音声に対する誤り検出、手本に対応する第１分析データと学習者自身の発話に対応する第２分析データとの差分を用いた分析により、学習者の発話した音声に対する客観的な評価を行うことで、学習者における学習（例えば外国語学習）を効率的に支援することができ、また指導者（ユーザの他の一例）において学習者の音読やシャドーイングにより得られた音声データを添削する際の工数（手間）を効率的に削減することができる。

また、発話評価装置２０は、手本もしくはユーザの発話に対する音声データもしくは第１分析データもしくは第２分析データに基づき、棄却を行うか否かの判別をおこなうことができ、特にシャドーイングによって得られる可能性が高い崩れた不明瞭な音声データに対し、棄却することで当該ユーザに誤った指摘を提示する可能性が小さくなる。

また、発話評価装置２０は、第１比較部４又は第２比較部５の各出力の組み合わせが予め定められた組み合わせに該当するか否かに応じて指摘内容を変更して提示することができる。

また、発話評価装置２０は、手本の音声データ又はユーザの発話に対する音声データを予め用意しなくても、必要に応じて手本となるネイティブの発話に対する音声を手本の音声データとして録音することができ、学習者であるユーザの発話に対する音声を録音することができ、また、手本の音声データに対応する第１分析データ又は学習者の発話に対する音声データに対応する第２分析データを生成することで誤り検出や差分分析に資することができる。

また、発話評価装置２０は、手本の音声データ及びユーザの発話に対する音声データについて、各時刻における音高の分析結果を考慮した上で、音高の誤りに関する指摘対象文字列をユーザ（例えば学習者、指導者）に対して提示することができる。

また、発話評価装置２０は、手本の音声データ及びユーザの発話に対する音声データについて、各時刻における音圧の分析結果を考慮した上で、音圧の誤りに関する指摘対象文字列をユーザ（例えば学習者、指導者）に対して提示することができる。

また、発話評価装置２０は、手本の音声データ及びユーザの発話に対する音声データについて、手本となるネイティブの話速とユーザ（例えば学習者）の話速との比較結果を考慮した上で、話速の誤りに関する指摘対象文字列をユーザ（例えば学習者、指導者）に対して提示することができる。

また、発話評価装置２０は、手本の音声データ及びユーザの発話に対する音声データについて、音高又は音圧の変化量、音高又は音圧の変化量の変化量の分析結果を考慮した上で、音高又は音圧の変化量、変化量の変化量、極小値、極大値、最小値及び最大値のうちいずれかに関する指摘対象文字列をユーザ（例えば学習者、指導者）に対して提示することができる。

また、発話評価装置２０は、第１比較部４において用いる所定の条件式、第２比較部５における分析対象項目Ａ１〜Ａ５毎の条件式として、手本の音声データ又はテキストデータ毎に異なる値を用いるので、ユーザ（例えば学習者）の学習レベルに応じて、客観的な評価を柔軟に行うことができる。

また、発話評価装置２０は、ユーザ（例えば学習者）の発話に対する音声データに対応する第１指摘事項（例えば発音の正確性に関する指摘事項）として、テキストデータに含まれるいずれかの比較元音素が所定の１つ以上の比較対象音素のうちいずれかである旨を表示部９に提示するので（図２又は図１１又は図２０参照）、学習者の発音がどのように誤っているか（例えば学習者の発話時の音声のどの音素がどの比較対象音素となっているか）を学習者に対して明確に示唆することができる。

また、発話評価装置２０は、ユーザ（例えば指導者）の入力操作に応じて、第２比較部５において分析対象となる分析対象項目Ａ１〜Ａ５毎に分析するか否かの対応関係又は第１比較部４において比較対象となる音素の組み合わせ毎に分析するか否かの対応関係が予め規定され、この対応関係は柔軟に変更することができるので（例えば指導者のＩＤでログインされた場合に指導者の受信部１０に対する入力操作によって適宜、修正、追加、削除されてもよい）、学習者のレベル、指導者の目的に合わせた柔軟な評価を客観的に行うことができる。

また、発話評価装置２０は、ユーザ（例えば学習者）の所定の入力操作に応じて、第１録音パターン、第２録音パターン、第３録音パターン及び第４録音パターンのうちいずれかを選択するので、学習者のレベル又は学習目的に沿った上で学習者の発話時の音声を簡易に録音することができる。

また、発話評価装置２０は、学習者に対して種々の観点において指摘する必要があると判断した指摘対象文字列を識別可能に提示するので、学習者にとって確認するべき指摘対象文字列を指摘対象文字列以外の文字列と明確に区別して注意を喚起することができる。

また、発話評価装置２０は、指摘対象文字列が複数ある場合には、指摘対象文字列に対応する指摘内容毎にそれぞれ識別可能に提示するので、指摘対象文字列毎に異なる指摘内容があることを学習者に明確に提示することができる。

また、発話評価装置２０は、指摘対象文字列に対する所定の入力操作（例えばカーソルを指摘対象文字列に重ねるロールオーバ）に応じて、指摘対象文字列に対応する指摘内容を指摘対象文字列の周辺に提示するので、指摘対象文字列毎の指摘内容の詳細を簡易な操作によって学習者に確認させることができる。

また、発話評価装置２０は、第１比較部４における誤り検出に関する第１スコア（数式（３）参照）と第２比較部５における分析に関する第２スコア（数式（４）参照）とを算定し、算定結果（第１スコア、第２スコア、第１スコア及び第２スコアの和（数式（５）参照））を提示するので、学習者に対する学習の動機づけ又は学習の効果を明確に示唆することができる。

また、発話評価装置２０は、手本の音声データ及びユーザの発話に対する音声データについて、各時刻における音高と各時刻における音素もしくは音素を含む文字列とを対応付けて可視化して提示するので、学習者に対し、学習者自身が発話した音声の音高の分析結果を手本の音声の音高の分析結果と対比的かつ視覚的に確認させることができる。

また、発話評価装置２０は、手本の音声データ及びユーザの発話に対する音声データについて、各時刻における音圧と各時刻における音素もしくは音素を含む文字列とを対応付けて可視化して提示するので、学習者に対し、学習者自身が発話した音声の音圧の分析結果を手本の音声の音圧の分析結果と対比的かつ視覚的に確認させることができる。

また、発話評価装置２０は、指摘対象文字列に対応する音高の該当部分を識別可能に提示するので、学習者にとって確認するべき指摘対象文字列に対応する音高の該当部分を的確に把握させることができる。

また、発話評価装置２０は、指摘対象文字列に対応する音圧の該当部分を識別可能に提示するので、学習者にとって確認するべき指摘対象文字列に対応する音圧の該当部分を的確に把握させることができる。

また、発話評価装置２０は、所定の入力操作に応じて、テキストデータに対応する手本の音声データ及びユーザの発話時の音声データを再生することができ、更に、この再生中の音声の進行に応じてテキストデータの該当箇所を識別可能に提示するので、再生中の音声の進行状況を学習者に的確に把握させることができる。

また、発話評価装置２０は、指摘対象文字列を含むテキストデータに対する所定の指定操作に応じて、指定されたテキストデータの単語を起点に、手本の音声データ及びユーザの発話時の音声データを再生することができるので、学習者が聞きたい単語から音声データを学習者に対して聞かせることができる。

また、発話評価装置２０は、指摘対象文字列を含むテキストデータに対する所定の指定操作に応じて、指定されたテキストデータの単語を起点に、手本の音声又はユーザの発話時の音声のうち一方を再生し、その後連続して手本の音声又はユーザの発話時の音声のうち他方の音声を再生することができるので、学習者が聞きたい単語の音声を聞き比べさせることができる。

また、発話評価装置２０は、学習者が過去に実施した第１比較部の誤り検出の結果又は第２比較部の分析結果又は指摘対象文字列及び指摘内容と、当該実施したテキストデータ及び音声データと、学習者又は実施日（学習日）又はスコア又は指摘件数のいずれかの組み合わせを示すデータが対応付けて示される学習履歴の一覧を管理するので、学習者にとって俯瞰性が高い。また、この学習履歴の一覧に対する所定の選択操作に応じて、選択された学習履歴に対応する選択された学習履歴に対応するテキストデータと、指摘対象文字列と指摘内容が存在する場合は当該指摘対象文字列と指摘内容とを示した画面を提示し、選択された学習履歴に対応する学習者もしくは手本の音声データを再生することができ、更に、この再生中の音声の進行に応じてテキストデータの該当箇所を識別可能に提示し、所定の選択操作に応じて指定されたテキストデータ内の文字列を起点に、当該文字列から音声データを再生させることが出来るので、学習者は過去実施した学習の詳細な内容を使い勝手良く確認することができる。

最後に、本発明に係る発話評価装置、発話評価方法及びプログラムの構成、作用、効果について説明する。

本発明の一実施形態は、手本の音声データとテキストデータと前記テキストデータに含まれる音素毎の時間情報とを少なくとも含む第１分析データと、ユーザの発話に対する音声データと前記テキストデータと前記テキストデータに含まれる音素毎の時間情報とを少なくとも含む第２分析データとを入力する入力部と、前記手本又は前記ユーザの発話に対する音声データ、前記第１分析データもしくは前記第２分析データが所定の棄却条件式を満たす場合に棄却を行う棄却部と、予め定められた音響モデルを用いて、前記ユーザの発話に対する音声データの音素列の誤り検出を行う第１比較部と、前記第１分析データと前記第２分析データとの差分を算定して分析する第２比較部と、前記第１比較部において比較対象となる音素の組み合わせと所定の条件式と第１指摘内容との組み合わせを保持する第１データ管理部と、前記第２比較部において分析対象となる分析対象項目と前記分析対象項目毎の条件式と第２指摘内容との組み合わせを保持する第２データ管理部と、前記第１比較部又は前記第２比較部の出力が前記所定の条件式又は前記分析対象項目毎の条件式を満たしていた場合に、音素位置を含む１つ以上の指摘対象文字列と前記指摘対象文字列に対応する指摘内容とを表示部に提示させる制御部と、を備える、発話評価装置である。

この構成では、発話評価装置は、手本もしくはユーザの発話に対する音声データもしくは第１分析データもしくは第２分析データが所定の棄却条件式を満たす場合に棄却を行い、予め定められた音響モデルを用いて、ユーザの発話に対する音声データの音素列の誤り検出を第１比較部において行い、手本の音声データとテキストデータとテキストデータに含まれる音素毎の時間情報とを少なくとも含む第１分析データとユーザの発話に対する音声データとテキストデータとテキストデータに含まれる音素毎の時間情報とを少なくとも含む第２分析データとの差分を第２比較部において算定して分析する。発話評価装置は、第１比較部又は第２比較部の出力が所定の条件式又は分析対象項目毎の条件式を満たしていた場合に、音素位置を含む１つ以上の指摘対象文字列と指摘対象文字列に対応する指摘内容とを表示部に提示させる。

これにより、発話評価装置は、例えば音読やシャドーイングの際に学習者（ユーザの一例）が発話した時の音声に対する誤り検出、手本に対応する第１分析データと学習者の発話に対応する第２分析データとの差分を用いた分析により、学習者の発話した音声に対する客観的な評価を行うことで、学習者における自学習（例えば外国語学習）を効率的に支援することができ、また指導者（ユーザの他の一例）において学習者の音読やシャドーイングにより得られた音声データを添削する際の工数（手間）を効率的に削減することができる。

また、本発明の一実施形態は、前記棄却部は、前記手本もしくは前記ユーザの発話に対する音声データの音高、音圧、音声データ長又は無音の継続時間長のいずれか１つが前記所定の棄却条件式を満たす場合に棄却を行う、発話評価装置である。

この構成によれば、発話評価装置は、特にシャドーイングによって得られる可能性が高い崩れた不明瞭な音声データ又は分析データに対し、即座に棄却することができ、当該ユーザに対し、処理時間によるストレスを与える事なく、更に誤った指摘を提示する可能性が小さくなる。

また、本発明の一実施形態は、前記制御部は、前記第１比較部及び前記第２比較部の各出力の組み合わせが予め定められた組み合わせに該当するか否かに応じて、前記音素位置を含む１文字以上の指摘対象文字列と前記指摘対象文字列に対応する指摘内容とを表示部に提示させる発話評価装置である。

この構成によれば、発話評価装置は、第１比較部及び前記第２比較部の各出力の組み合わせが予め定められた組み合わせに該当するか否かに応じて指摘対象文字列と指摘内容とを提示するため、誤った指摘を提示する可能性が小さくなる。

また、本発明の一実施形態は、前記手本の音声データ又は前記ユーザの発話に対する音声データを録音する録音部と、前記録音部により録音された、前記手本の音声データに対応する前記第１分析データ、又は前記ユーザの発話に対する音声データに対応する前記第２分析データを生成する分析部と、を更に備える、発話評価装置である。

この構成によれば、発話評価装置は、手本の音声データ又はユーザの発話に対する音声データを予め用意しなくても、必要に応じて手本となるネイティブの発話に対する音声データとして録音することができ、又は学習者であるユーザの発話に対する音声を録音することができ、また、手本の音声データに対応する第１分析データ又は学習者の発話に対する音声データに対応する第２分析データを生成することで誤り検出や差分分析に資することができる。

また、本発明の一実施形態は、前記第１分析データ及び前記第２分析データに、音高の分析結果が含まれ、前記分析対象項目に、前記音高に関する指摘内容の情報が含まれる、発話評価装置である。

この構成によれば、発話評価装置は、手本の音声データ及びユーザの発話に対する音声データについて、音高の分析結果を考慮した上で、音高の誤りに関する指摘対象文字列をユーザ（例えば学習者、指導者）に対して提示することができる。

また、本発明の一実施形態は、前記第１分析データ及び前記第２分析データに、音圧の分析結果が含まれ、前記分析対象項目に、前記各時刻における音圧に関する指摘内容の情報が含まれる、発話評価装置である。

この構成によれば、発話評価装置は、手本の音声データ及びユーザの発話に対する音声データについて、音圧の分析結果を考慮した上で、音圧の誤りに関する指摘対象文字列をユーザ（例えば学習者、指導者）に対して提示することができる。

また、本発明の一実施形態は、前記第１分析データ及び前記第２分析データに、話速の分析結果が含まれ、前記分析対象項目に、前記話速に関する指摘内容の情報が含まれる、発話評価装置である。

この構成によれば、発話評価装置は、手本の音声データ及びユーザの発話に対する音声データについて、手本となるネイティブの話速とユーザ（例えば学習者）の話速との比較結果を考慮した上で、話速の誤りに関する指摘内容をユーザ（例えば学習者、指導者）に対して提示することができる。

また、本発明の一実施形態は、前記第１分析データ及び前記第２分析データに、音高又は音圧の変化量、極小値、極大値、最小値、最大値のうちいずれかの分析結果が含まれ、前記分析対象項目に、前記音高又は音圧の変化量、極小値、極大値、最小値、最大値のうちいずれかに関する情報が含まれる、発話評価装置である。

この構成によれば、発話評価装置は、手本の音声データ及びユーザの発話に対する音声データについて、音高又は音圧の変化量（即ち、音高又は音圧の変化度合い）、極小値、極大値、最小値、最大値のうちいずれかの分析結果を考慮した上で、音高又は音圧の変化量、極小値、極大値、最小値、最大値のうちいずれかの誤りに関する指摘対象文字列をユーザ（例えば学習者、指導者）に対して提示することができる。

また、本発明の一実施形態は、前記第１分析データ及び前記第２分析データに、音高又は音圧の変化量の変化量の分析結果が含まれ、前記分析対象項目に、前記各音高又は音圧の変化量の変化量に関する情報が含まれる、発話評価装置である。

この構成によれば、発話評価装置は、手本の音声データ及びユーザの発話に対する音声データについて、音高又は音圧の変化量の変化量の分析結果を考慮した上で、音高又は音圧の変化量の変化量に関する指摘対象文字列をユーザ（例えば学習者、指導者）に対して提示することができる。

また、本発明の一実施形態は、前記第１データ管理部が保持する前記所定の条件式、及び前記第２データ管理部が保持する前記分析対象項目毎の条件式は、それぞれ前記手本の音声データ又は前記テキストデータ毎に異なる、発話評価装置である。

この構成によれば、発話評価装置は、第１比較部において用いる所定の条件式、第２比較部における分析対象項目毎の条件式として、手本の音声データ又はテキストデータ毎に異なる値を用いるので、ユーザ（例えば学習者）の学習レベルに応じて、客観的な評価を柔軟に行うことができる。

また、本発明の一実施形態は、前記制御部は、前記ユーザの発話に対する音声データに対応する前記第１比較部からの前記第１指摘内容として、前記テキストデータに含まれるいずれかの比較元音素が所定の１つ以上の前記比較対象となる音素の組み合わせのうちいずれかである旨を前記表示部に提示させる、発話評価装置である。

この構成によれば、発話評価装置は、ユーザ（例えば学習者）の発話に対する音声データに対応する第１指摘事項（例えば発音の正確性に関する指摘事項）として、テキストデータに含まれるいずれかの比較元音素が所定の１つ以上の比較対象となる音素の組み合わせのうちいずれかである旨を表示部に提示するので、学習者の発音がどのように誤っているか（例えば、学習者の発話時の音声のどの音素がどの比較対象音素となっているか）を学習者に対して明確に示唆することができる。

また、本発明の一実施形態は、前記第２比較部にて分析対象となる前記分析対象項目毎に分析するか否かの対応関係、又は前記第１比較部において比較対象となる音素の組み合わせ毎に分析するか否かの対応関係が予め規定され、前記対応関係は、所定の入力操作に応じて変更可能である、発話評価装置である。

この構成によれば、発話評価装置は、ユーザ（例えば指導者）の入力操作に応じて、第２比較部において分析対象となる分析対象項目毎に分析するか否かの対応関係又は第１比較部において比較対象となる音素の組み合わせ毎に分析するか否かの対応関係を、柔軟に変更することができるので、学習者のレベル又は指導者の目的に合わせた柔軟な評価を客観的に行うことができる。

また、本発明の一実施形態は、少なくとも前記手本の音声データを再生する再生部、を更に備え、前記制御部は、前記ユーザの発話に対する音声データが前記録音部により録音される場合、前記ユーザの所定の入力操作に応じて、前記テキストデータを前記表示部に提示させる第１録音パターン、前記手本の音声データを前記再生部に再生させる第２録音パターン、前記テキストデータを前記表示部に提示させ、更に、前記手本の音声データの音声を出力しないで前記再生部に再生させ、前記再生部による前記音声の進行に応じて前記テキストデータの該当箇所を識別可能に提示させる第３録音パターン、前記テキストデータを前記表示部に提示させ、更に、前記手本の音声データの音声を出力しながら前記再生部に再生させ、前記再生部による前記音声の進行に応じて前記テキストデータの該当箇所を識別可能に提示させる第４録音パターン、のいずれかを実行する、発話評価装置である。

この構成によれば、発話評価装置は、ユーザ（例えば学習者）の所定の入力操作に応じて、第１録音パターン、第２録音パターン、第３録音パターン及び第４録音パターンのうちいずれかを選択するので、学習者のレベル又は学習目的に沿った上で学習者の発話時の音声を簡易に録音することができる。

また、本発明の一実施形態は、前記制御部は、前記指摘対象文字列を識別可能に前記表示部に提示させる、発話評価装置である。

この構成によれば、発話評価装置は、学習者に対して種々の観点において指摘する必要があると判断した指摘対象文字列を識別可能に提示するので、学習者にとって確認するべき指摘対象文字列を指摘対象文字列以外の文字列と明確に区別して注意を喚起することができる。

また、本発明の一実施形態は、前記制御部は、前記指摘対象文字列に対応する指摘内容毎に識別可能に前記表示部に提示させる、発話評価装置である。

この構成によれば、発話評価装置は、指摘対象文字列が複数ある場合には、指摘対象文字列に対応する指摘内容毎に識別可能に提示するので、指摘対象文字列毎に異なる指摘内容があることを学習者に明確に提示することができる。

また、本発明の一実施形態は、前記制御部は、前記表示部に提示された前記指摘対象文字列に対する所定の入力操作に応じて、前記指摘対象文字列に対応する指摘内容を前記指摘対象文字列の周辺に提示させる、発話評価装置である。

この構成によれば、発話評価装置は、指摘対象文字列に対する所定の入力操作（例えばカーソルを指摘対象文字列に重ねるロールオーバ）に応じて、指摘対象文字列に対応する指摘内容を指摘対象文字列の周辺に提示するので、指摘対象文字列毎の指摘内容の詳細を簡易な操作によって学習者に確認させることができる。

また、本発明の一実施形態は、前記制御部は、前記第１比較部における誤り検出に関する第１スコア又は前記第２比較部における分析に関する第２スコアを算定し、前記第１スコア、前記第２スコア又は前記第１スコアと前記第２スコアとの双方より得られる１つのスコアを前記表示部に提示させる、発話評価装置である。

この構成によれば、発話評価装置は、第１比較部における誤り検出に関する第１スコア又は第２比較部における分析に関する第２スコアを算定し、算定結果（第１スコア、第２スコア、又は例えば第１スコア及び第２スコアの和）を提示するので、学習者に対する学習の動機づけ又は学習の効果を明確に示唆することができる。

また、本発明の一実施形態は、前記制御部は、前記音高と前記音素もしくは前記音素を含む文字列とを対応付けて可視化して前記表示部に提示させる、発話評価装置である。

この構成によれば、発話評価装置は、手本の音声データ及びユーザの発話に対する音声データについて、音高と音素もしくは音素を含む文字列とを対応付けて可視化して提示するので、学習者に対し、学習者自身が発話した音声の音高の分析結果を音素もしくは音素を含む文字列又は手本の音声の音高の分析結果と対比的かつ視覚的に確認させることができる。

また、本発明の一実施形態は、前記制御部は、前記音圧と前記音素もしくは前記音素を含む文字列とを対応付けて可視化して前記表示部に提示させる、発話評価装置である。

この構成によれば、発話評価装置は、手本の音声データ及びユーザの発話に対する音声データについて、音圧と音素もしくは音素を含む文字列とを対応付けて可視化して提示するので、学習者に対し、学習者自身が発話した音声の音圧の分析結果を音素もしくは音素を含む文字列又は手本の音声の音圧の分析結果と対比的かつ視覚的に確認させることができる。

また、本発明の一実施形態は、前記制御部は、前記指摘対象文字列又は前記指定対象文字列に対応する前記音高の該当箇所を識別可能に前記表示部に提示させる、発話評価装置である。

この構成によれば、発話評価装置は、指摘対象文字列に対応する音高の該当部分を識別可能に提示するので、学習者に確認するべき指摘対象文字列に対応する音高の該当部分を的確に把握させることができる。

また、本発明の一実施形態は、前記制御部は、前記指摘対象文字列又は前記指摘対象文字列に対応する前記音圧の該当箇所を識別可能に前記表示部に提示させる、発話評価装置である。

この構成によれば、発話評価装置は、指摘対象文字列に対応する音圧の該当部分を識別可能に提示するので、学習者に確認するべき指摘対象文字列に対応する音圧の該当部分を的確に把握させることができる。

また、本発明の一実施形態は、少なくとも前記手本又は前記ユーザの発話に対する音声データを再生する再生部、を更に備え、前記制御部は、所定の入力操作に応じて、前記表示部に提示された前記テキストデータに対応する前記手本又は前記ユーザの発話に対する音声データを前記再生部に再生させ、更に、前記再生部による前記手本又は前記ユーザの発話に対する音声データの音声の進行に応じて前記テキストデータの該当箇所を識別可能に提示させる、発話評価装置である。

この構成によれば、発話評価装置は、所定の入力操作に応じて、テキストデータに対応する手本又はユーザの発話時の音声データを再生することができ、更に、この再生中の音声の進行に応じてテキストデータの該当箇所を識別可能に提示するので、再生中の音声の進行状況を学習者に的確に把握させることができる。

また、本発明の一実施形態は、少なくとも前記手本又は前記ユーザの発話に対する音声データを再生する再生部、を更に備え、前記制御部は、前記表示部に提示された前記テキストデータに対する所定の指定操作に応じて、指定された前記テキストデータ内の文字列を取得し、前記手本又は前記ユーザの発話に対する音声データ内の当該文字列に相当する位置から前記再生部にて再生させる、発話評価装置である。

この構成によれば、発話評価装置は、テキストデータに対する所定の指定操作に応じて、指定されたテキストデータの文字列を起点に、手本の音声データ又はユーザの発話時の音声データを再生することができるので、学習者が聞きたい文字列から音声データを学習者に対して聞かせることができる。

また、本発明の一実施形態は、少なくとも前記手本の音声データ又は前記ユーザの発話に対する音声データを再生する再生部、を更に備え、前記制御部は、前記表示部に提示された前記テキストデータに対する所定の指定操作に応じて、指定された前記テキストデータ内の文字列を取得し、当該文字列に相当する前記手本の音声データの位置又は前記ユーザの発話に対する音声データの位置のいずれか一方の当該位置から前記再生部にて再生させ、連続して他方の音声データの当該位置から前記再生部にて再生させる、発話評価装置である。

この構成によれば、発話評価装置は、テキストデータに対する所定の指定操作に応じて、指定されたテキストデータ内の文字列を取得し、当該文字列に相当する手本の音声データの位置又はユーザの発話時の音声データの位置のいずれか一方の当該位置から再生し、その後連続して他方の音声の当該位置から再生することができるので、学習者が聞きたい文字列を聞き比べさせることができる。

また、本発明の一実施形態は、前記学習者の過去の学習に対応した前記第１比較部の誤り検出の結果、前記第２比較部の分析結果又は前記指摘対象文字列及び前記指摘内容と、当該学習時のテキストデータ及び音声データと、学習者、学習日、スコア又は指摘件数のいずれかとの組み合わせを示すデータが対応付けて示される、学習履歴の一覧を管理する履歴管理部と、選択された前記学習履歴に対応する前記手本又は前記ユーザの音声データを再生する再生部と、を更に備え、前記制御部は、前記学習履歴の一覧に対する所定の選択操作に応じて、選択された前記学習履歴に対応した前記テキストデータと前記指摘対象文字列と前記指摘内容とが存在する場合は当該指摘対象文字列と指摘内容とを示した画面を前記表示部にて提示し、所定の選択操作に応じて、前記再生部による前記手本又は前記ユーザの発話に対する音声データの音声の進行に応じて前記テキストデータの該当箇所を識別可能に提示させ、又は前記表示部に提示された前記テキストデータに対する所定の指定操作に応じて、指定された前記テキストデータ内の文字列を取得し、前記手本又は前記ユーザの発話に対する音声データ内の当該文字列に相当する位置から前記再生部にて再生させる、発話評価装置である。

この構成によれば、発話評価装置は、学習者が過去に実施した第１比較部の誤り検出の結果又は第２比較部の分析結果又は指摘対象文字列及び指摘内容と、当該実施したテキストデータ及び音声データと、学習者又は実施日（学習日）又はスコア又は指摘件数のいずれかの組み合わせを示すデータが対応付けて示される学習履歴の一覧を管理し提示するので、学習者にとって俯瞰性が高い。また、発話評価装置は、この学習履歴の一覧に対する所定の選択操作に応じて、選択された学習履歴に対応するテキストデータと、指摘対象文字列と指摘内容が存在する場合は当該指摘対象文字列と指摘内容とを示した画面を提示し、選択された学習履歴に対応する学習者もしくは手本の音声データを再生することができ、更に、この再生中の音声の進行に応じてテキストデータの該当箇所を識別可能に提示し、所定の選択操作に応じて指定されたテキストデータ内の文字列を起点に、当該文字列から音声データを再生させることが出来るので、学習者は過去実施した学習の詳細な内容を使い勝手良く確認することができる。

また、本発明の一実施形態は、発話評価装置における発話評価方法であって、手本の音声データとテキストデータと前記テキストデータに含まれる音素毎の時間情報とを少なくとも含む第１分析データと、ユーザの発話に対する音声データと前記テキストデータと前記テキストデータに含まれる音素毎の時間情報とを少なくとも含む第２分析データとを入力するステップと、前記手本もしくは前記ユーザの発話に対する音声データ、前記第１分析データもしくは前記第２分析データが所定の棄却条件式を満たす場合に、棄却を行うステップと、予め定められた音響モデルを用いて、前記ユーザの発話に対する音声データの音素列の誤り検出を行う第１比較ステップと、前記第１分析データと前記第２分析データとの差分を算定して分析する第２比較ステップと、前記第１比較ステップにおいて比較対象となる音素の組み合わせと所定の条件式と第１指摘内容との組み合わせを保持するステップと、前記第２比較ステップにおいて分析対象となる分析対象項目と前記分析対象項目毎の条件式と第２指摘内容との組み合わせを保持するステップと、前記第１比較ステップ又は前記第２比較ステップの出力が前記所定の条件式又は前記分析対象項目毎の条件式を満たす場合に、音素位置を含む１つ以上の指摘対象文字列と前記指摘対象文字列に対応する指摘内容とを提示させるステップと、を有する、発話評価方法である。

この方法では、発話評価装置は、手本もしくはユーザの発話に対する音声データもしくは第１分析データもしくは第２分析データが所定の棄却条件式を満たす場合に棄却を行い、予め定められた音響モデルを用いて、ユーザの発話に対する音声データの音素列の誤り検出を行い、手本の音声データとテキストデータとテキストデータに含まれる音素毎の時間情報とを少なくとも含む第１分析データとユーザの発話に対する音声データとテキストデータとテキストデータに含まれる音素毎の時間情報とを少なくとも含む第２分析データとの差分を算定して分析する。発話評価装置は、誤り検出結果又は第１分析データ及び第２分析データとの分析結果が所定の条件式又は分析対象項目毎の条件式を満たしていた場合に、音素位置を含む１つ以上の指摘対象文字列と指摘対象文字列に対応する指摘内容とを提示させる。

また、本発明の一実施形態は、コンピュータである発話評価装置に、手本の音声データとテキストデータと前記テキストデータに含まれる音素毎の時間情報とを少なくとも含む第１分析データと、ユーザの発話に対する音声データと前記テキストデータと前記テキストデータに含まれる音素毎の時間情報とを少なくとも含む第２分析データとを入力するステップと、前記手本もしくは前記ユーザの発話に対する音声データ、前記第１分析データもしくは前記第２分析データが所定の棄却条件式を満たす場合に棄却を行うステップと、予め定められた音響モデルを用いて、前記ユーザの発話に対する音声データの音素列の誤り検出を行う第１比較ステップと、前記第１分析データと前記第２分析データとの差分を算定して分析する第２比較ステップと、前記第１比較ステップにおいて比較対象となる音素の組み合わせと所定の条件式と第１指摘内容との組み合わせを保持するステップと、前記第２比較ステップにおいて分析対象となる分析対象項目と前記分析対象項目毎の条件式と第２指摘内容との組み合わせを保持するステップと、前記第１比較ステップ又は前記第２比較ステップの出力が前記所定の条件式又は前記分析対象項目毎の条件式を満たしていた場合に、音素位置を含む１つ以上の指摘対象文字列と前記指摘対象文字列に対応する指摘内容とを表示部に提示させるステップと、を実行させるための、プログラムである。

このプログラムがインストールされた発話評価装置は、手本もしくはユーザの発話に対する音声データもしくは第１分析データもしくは第２分析データが所定の条件式を満たす場合に棄却を行い、予め定められた音響モデルを用いて、ユーザの発話に対する音声データの音素列の誤り検出を行い、手本の音声データとテキストデータとテキストデータに含まれる音素毎の時間情報とを少なくとも含む第１分析データとユーザの発話に対する音声データとテキストデータとテキストデータに含まれる音素毎の時間情報とを少なくとも含む第２分析データとの差分を算定して分析する。発話評価装置は、誤り検出結果又は第１分析データ及び第２分析データとの分析結果が所定の条件式又は分析対象項目毎の条件式を満たしていた場合に、音素位置を含む１つ以上の指摘対象文字列と指摘対象文字列に対応する指摘内容とを表示部に提示させる。

以上、図面を参照しながら各種の実施形態について説明したが、本発明はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。

本発明は、音読やシャドーイング時の学習者の音声に対する客観的な評価を行うことで自学習を効率的に支援し、指導者における音読やシャドーイングにより得られた音声データの添削の工数を削減する発話評価装置、発話評価方法及びプログラムとして有用である。

１入力部
２録音部
３分析データ生成部
４第１比較部
５第２比較部
７制御部
８履歴管理部
９表示部
１０受信部
１１再生部
１２棄却部
２０発話評価装置
ＢＴ１手本ボタン
ＢＴ２ユーザボタン
ＢＴ３再生ボタン
ＢＴ４停止ボタン
ＢＴ５波形ボタン
ＢＴ６スコアボタン
ＢＴ７シャドーイングボタン
ＢＴ８音読ボタン
ＢＴ９第１パラレルモードボタン
ＢＴ１０第２パラレルモードボタン
ＣＭ１、ＣＭ２、ＣＭ３、ＣＭ４、ＣＭ５指摘内容
Ｍ１第１データ管理部
Ｍ２第２データ管理部

Claims

手本の音声データとテキストデータと前記テキストデータに含まれる音素毎の時間情報とを少なくとも含む第１分析データと、ユーザの発話に対する音声データと前記テキストデータと前記テキストデータに含まれる音素毎の時間情報とを少なくとも含む第２分析データとを入力する入力部と、
前記手本又は前記ユーザの発話に対する音声データ、前記第１分析データもしくは前記第２分析データが所定の棄却条件式を満たす場合に棄却を行う棄却部と、
予め定められた音響モデルを用いて、前記ユーザの発話に対する音声データの音素列の誤り検出を行う第１比較部と、
前記第１分析データと前記第２分析データとの差分を算定して分析する第２比較部と、
前記第１比較部において比較対象となる音素の組み合わせと所定の条件式と第１指摘内容との組み合わせを保持する第１データ管理部と、
前記第２比較部において分析対象となる分析対象項目と前記分析対象項目毎の条件式と第２指摘内容との組み合わせを保持する第２データ管理部と、
前記第１比較部又は前記第２比較部の出力が、前記所定の条件式又は前記分析対象項目毎の条件式を満たしていた場合に、音素位置を含む１文字以上の指摘対象文字列と前記指摘対象文字列に対応する指摘内容とを表示部に提示させる制御部と、を備える、
発話評価装置。
請求項１に記載の発話評価装置であって、
前記棄却部は、前記手本もしくは前記ユーザの発話に対する音声データの音高、音圧、音声データ長又は無音の継続時間長のいずれか１つが前記所定の棄却条件式を満たす場合に棄却を行う、
発話評価装置。
請求項１又は２に記載の発話評価装置であって、
前記制御部は、前記第１比較部及び前記第２比較部の各出力の組み合わせが予め定められた組み合わせに該当するか否かに応じて、前記音素位置を含む１文字以上の指摘対象文字列と前記指摘対象文字列に対応する指摘内容とを表示部に提示させる、
発話評価装置。
請求項１から３のうちいずれか一項に記載の発話評価装置であって、
前記手本の音声データ又は前記ユーザの発話に対する音声データを録音する録音部と、
前記録音部により録音された、前記手本の音声データに対応する前記第１分析データ、又は前記ユーザの発話に対する音声データに対応する前記第２分析データを生成する分析部と、を更に備える、
発話評価装置。
請求項１から４のうちいずれか一項に記載の発話評価装置であって、
前記第１分析データ及び前記第２分析データに、音高の分析結果が含まれ、
前記分析対象項目に、前記音高に関する指摘内容の情報が含まれる、
発話評価装置。
請求項１から４のうちいずれか一項に記載の発話評価装置であって、
前記第１分析データ及び前記第２分析データに、音圧の分析結果が含まれ、
前記分析対象項目に、前記音圧に関する指摘内容の情報が含まれる、
発話評価装置。
請求項１から４のうちいずれか一項に記載の発話評価装置であって、
前記第１分析データ及び前記第２分析データに、話速の分析結果が含まれ、
前記分析対象項目に、前記話速に関する指摘内容の情報が含まれる、
発話評価装置。
請求項１から４のうちいずれか一項に記載の発話評価装置であって、
前記第１分析データ及び前記第２分析データに、音高又は音圧の変化量、極小値、極大値、最小値、最大値のうちいずれかの分析結果が含まれ、
前記分析対象項目に、前記音高又は音圧の変化量、極小値、極大値、最小値、最大値のうちいずれかに関する情報が含まれる、
発話評価装置。
請求項１から４のうちいずれか一項に記載の発話評価装置であって、
前記第１分析データ及び前記第２分析データに、音高又は音圧の変化量の変化量の分析結果が含まれ、
前記分析対象項目に、前記各音高又は音圧の変化量の変化量、に関する情報が含まれる、
発話評価装置。
請求項１から９のうちいずれか一項に記載の発話評価装置であって、
前記第１データ管理部が保持する前記所定の条件式、及び前記第２データ管理部が保持する前記分析対象項目毎の条件式は、それぞれ前記手本の音声データ又は前記テキストデータ毎に異なる、
発話評価装置。
請求項１、２、３、４又は１０に記載の発話評価装置であって、
前記制御部は、前記ユーザの発話に対する音声データに対応する前記第１比較部からの前記第１指摘内容として、前記テキストデータに含まれるいずれかの比較元音素が所定の１つ以上の前記比較対象となる音素の組み合わせのうちいずれかである旨を前記表示部に提示させる、
発話評価装置。
請求項１から１１のうちいずれか一項に記載の発話評価装置であって、
前記第２比較部にて分析対象となる前記分析対象項目毎に分析するか否かの対応関係、又は前記第１比較部において比較対象となる音素の組み合わせ毎に分析するか否かの対応関係が予め規定され、
前記対応関係は、所定の入力操作に応じて変更可能である、
発話評価装置。
請求項４に記載の発話評価装置であって、
少なくとも前記手本の音声データを再生する再生部、を更に備え、
前記制御部は、前記ユーザの発話に対する音声データが前記録音部により録音される場合、前記ユーザの所定の入力操作に応じて、
前記テキストデータを前記表示部に提示させる第１録音パターン、
前記手本の音声データを前記再生部に再生させる第２録音パターン、
前記テキストデータを前記表示部に提示させ、更に、前記手本の音声データの音声を出力しないで前記再生部に再生させ、前記再生部による前記音声の進行に応じて前記テキストデータの該当箇所を識別可能に提示させる第３録音パターン、
前記テキストデータを前記表示部に提示させ、更に、前記手本の音声データの音声を出力しながら前記再生部に再生させ、前記再生部による前記音声の進行に応じて前記テキストデータの該当箇所を識別可能に提示させる第４録音パターン、
のいずれかを実行する、
発話評価装置。
請求項１から１３のうちいずれか一項に記載の発話評価装置であって、
前記制御部は、前記指摘対象文字列を識別可能に前記表示部に提示させる、
発話評価装置。
請求項１４に記載の発話評価装置であって、
前記制御部は、前記指摘対象文字列に対応する指摘内容毎に識別可能に前記表示部に提示させる、
発話評価装置。
請求項１から１５のうちいずれか一項に記載の発話評価装置であって、
前記制御部は、前記表示部に提示された前記指摘対象文字列に対する所定の入力操作に応じて、前記指摘対象文字列に対応する指摘内容を前記指摘対象文字列の周辺に提示させる、
発話評価装置。
請求項１から１６のうちいずれか一項に記載の発話評価装置であって、
前記制御部は、前記第１比較部における誤り検出に関する第１スコアと、前記第２比較部における分析に関する第２スコアと、のうち少なくとも１つを算定し、算定した前記第１スコア、前記第２スコア又は前記第１スコアと前記第２スコアとの双方より得られるいずれか１つのスコアを前記表示部に提示させる、
発話評価装置。
請求項５に記載の発話評価装置であって、
前記制御部は、前記音高と前記音素もしくは前記音素を含む文字列とを対応付けて可視化して前記表示部に提示させる、
発話評価装置。
請求項６に記載の発話評価装置であって、
前記制御部は、前記音圧と前記音素もしくは前記音素を含む文字列とを対応付けて可視化して前記表示部に提示させる、
発話評価装置。
請求項１８に記載の発話評価装置であって、
前記制御部は、前記指摘対象文字列又は前記指摘対象文字列に対応する前記音高の該当箇所を識別可能に前記表示部に提示させる、
発話評価装置。
請求項１９に記載の発話評価装置であって、
前記制御部は、前記指摘対象文字列又は前記指摘対象文字列に対応する前記音圧の該当箇所を識別可能に前記表示部に提示させる、
発話評価装置。
請求項１から２１のうちいずれか一項に記載の発話評価装置であって、
少なくとも前記手本又は前記ユーザの発話に対する音声データを再生する再生部、を更に備え、
前記制御部は、所定の入力操作に応じて、前記表示部に提示された前記テキストデータに対応する前記手本又は前記ユーザの発話に対する音声データを前記再生部に再生させ、更に、前記再生部による前記手本又は前記ユーザの発話に対する音声データの音声の進行に応じて前記テキストデータの該当箇所を識別可能に提示させる、
発話評価装置。
請求項１から２１のうちいずれか一項に記載の発話評価装置であって、
少なくとも前記手本又は前記ユーザの発話に対する音声データを再生する再生部、を更に備え、
前記制御部は、前記表示部に提示された前記テキストデータに対する所定の指定操作に応じて、指定された前記テキストデータ内の文字列を取得し、前記手本又は前記ユーザの発話に対する音声データ内の当該文字列に相当する位置から前記再生部にて再生させる、
発話評価装置。
請求項１から２１のうちいずれか一項に記載の発話評価装置であって、
少なくとも前記手本の音声データ又は前記ユーザの発話に対する音声データを再生する再生部、を更に備え、
前記制御部は、前記表示部に提示された前記テキストデータに対する所定の指定操作に応じて、指定された前記テキストデータ内の文字列を取得し、当該文字列に相当する前記手本の音声データの位置又は前記ユーザの発話に対する音声データの位置のいずれか一方の当該位置から前記再生部にて再生させ、連続して他方の音声データの当該位置から前記再生部にて再生させる、
発話評価装置。
請求項１７から２４のうちいずれか一項に記載の発話評価装置であって、
前記ユーザの過去の学習に対応した前記第１比較部の誤り検出の結果、前記第２比較部の分析結果又は前記指摘対象文字列及び前記指摘内容と、当該学習時のテキストデータ及び音声データと、学習者、学習日、スコア又は指摘件数のいずれかとの組み合わせを示すデータが対応付けて示される、学習履歴の一覧を管理する履歴管理部と、
選択された前記学習履歴に対応する前記手本又は前記ユーザの音声データを再生する再生部と、を更に備え、
前記制御部は、前記学習履歴の一覧に対する所定の選択操作に応じて、選択された前記学習履歴に対応した前記テキストデータと前記指摘対象文字列と前記指摘内容とが存在する場合は当該指摘対象文字列と当該指摘内容とを示した画面を前記表示部にて提示し、所定の選択操作に応じて、前記再生部による前記手本又は前記ユーザの発話に対する音声データの音声の進行に応じて前記テキストデータの該当箇所を識別可能に提示させ、又は前記表示部に提示された前記テキストデータに対する所定の指定操作に応じて、指定された前記テキストデータ内の文字列を取得し、前記手本又は前記ユーザの発話に対する音声データ内の当該文字列に相当する位置から前記再生部にて再生させる、
発話評価装置。
発話評価装置における発話評価方法であって、
手本の音声データとテキストデータと前記テキストデータに含まれる音素毎の時間情報とを少なくとも含む第１分析データと、ユーザの発話に対する音声データと前記テキストデータと前記テキストデータに含まれる音素毎の時間情報とを少なくとも含む第２分析データとを入力するステップと、
前記手本もしくは前記ユーザの発話に対する音声データ、前記第１分析データもしくは前記第２分析データが所定の棄却条件式を満たす場合に、棄却を行うステップと、
比較対象となる音素の組み合わせと所定の条件式との組み合わせを保持し、予め定められた音響モデルを用いて、前記ユーザの発話に対する音声データの音素列の誤り検出を行う第１比較ステップと、
分析対象となる分析対象項目と前記分析対象項目毎の条件式との組み合わせを保持し、前記第１分析データと前記第２分析データとの差分を算定して分析する第２比較ステップと、
前記第１比較ステップ又は前記第２比較ステップの出力が前記所定の条件式又は前記分析対象項目毎の条件式を満たしていた場合に、音素位置を含む１つ以上の指摘対象文字列と前記指摘対象文字列に対応する指摘内容とを提示させるステップと、を有する、
発話評価方法。
コンピュータである発話評価装置に、
手本の音声データとテキストデータと前記テキストデータに含まれる音素毎の時間情報とを少なくとも含む第１分析データと、ユーザの発話に対する音声データと前記テキストデータと前記テキストデータに含まれる音素毎の時間情報とを少なくとも含む第２分析データとを入力するステップと、
前記手本もしくは前記ユーザの発話に対する音声データ、前記第１分析データもしくは前記第２分析データが所定の棄却条件式を満たす場合に、棄却を行うステップと、
比較対象となる音素の組み合わせと所定の条件式との組み合わせを保持し、予め定められた音響モデルを用いて、前記ユーザの発話に対する音声データの音素列の誤り検出を行う第１比較ステップと、
分析対象となる分析対象項目と前記分析対象項目毎の条件式との組み合わせを保持し、前記第１分析データと前記第２分析データとの差分を算定して分析する第２比較ステップと、
前記第１比較ステップ又は前記第２比較ステップの出力が前記所定の条件式又は前記分析対象項目毎の条件式を満たしていた場合に、音素位置を含む１つ以上の指摘対象文字列と前記指摘対象文字列に対応する指摘内容とを提示させるステップと、を実行させるための、
プログラム。