JP2023029751A

JP2023029751A - 音声情報処理装置、及びプログラム

Info

Publication number: JP2023029751A
Application number: JP2022131253A
Authority: JP
Inventors: 信明峯松; Nobuaki Minematsu; 多寿子西村; Tazuko Nishimura; 卓弥椢原; Takuya Kunugihara; 伝博朱; Chuan Bo Zhu; 崚箱田; Shun Hakoda; のりこ中西; Noriko Nakanishi
Original assignee: University of Tokyo NUC; Kobe Gakuin Educational Foundation
Current assignee: University of Tokyo NUC; Kobe Gakuin Educational Foundation
Priority date: 2021-08-21
Filing date: 2022-08-19
Publication date: 2023-03-06

Abstract

【課題】比較的簡便な構成で、ユーザが聴取した音声のどこを聞き取り損ねたかの評価を行うことができる音声情報処理装置、及びプログラムを提供する。【解決手段】スクリプトと、当該スクリプトを読み上げたモデル音声データとを関連付けて保持するコーパスデータベースにアクセス可能に接続され、予め定められたフローに従って、モデル音声データを提示して、対応する音声データの入力をユーザから受け入れて記憶するシャドーイング処理と、モデル音声データを対応するスクリプトとともに提示して、対応する音声データの入力をユーザから受け入れて記憶するスクリプトシャドーイング処理と、を少なくとも一つずつ含む処理を順次実行し、モデル音声データと記憶した音声データとのうちから選択される一対の音声データについて、それぞれの音声データの対応する時点での特徴量の相関、ないしその統計値を演算する音声情報処理装置である。【選択図】図１

Description

本発明は、音声情報処理装置、及びプログラムに関する。

音声コミュニケーションでは、相手の音声を聞き、音声が表す語を特定し、その内容を理解し、応答を用意して、発話するという一連の処理を同時的に実行することとなる。一般的に人は、母語であれば、音声を聞いて語を特定したり、発話したりという点に認知的困難がないが、母語以外の言語ではこれらにも認知的負荷がかかる。

すなわち音声コミュニケーションにおいて、（Ａ）相手の音声のどこを聞き取り損なっているか、（Ｂ）聞き取った音声を正しく概念化できたか、（Ｃ）発声の際に適切に発音（調音制御）できたかといった事柄は、重要である。しかしながら従来、これらを個別に評価する技術は見出されていなかった。

C.Zhu, Z.Lin, N.Minematsu, N.Nakanishi, "Analyses on instantaneous perception of Japanese English by listeners with various language profiles," Proc. The Phonetic Society of Japan General Meeting, pp.26-31, 2020

従来、音声聴取中の人の表情や、脳活動等を計測する例などを用いて、聞き取りの評価を行うものもあるが、特殊な装置を要するため、容易に計測できない。

本発明は上記実情に鑑みて為されたもので、比較的簡便な構成で、ユーザが聴取した音声のどこを聞き取り損ねたかの評価を行うことができる音声情報処理装置、及びプログラムを提供することを、その目的の一つとする。

上記従来例の問題点を解決するための本発明の一態様は、スクリプトと、当該スクリプトを読み上げたモデル音声データとを関連付けて保持するコーパスデータベースにアクセス可能に接続される音声情報処理装置であり、予め定められたフローに従って、前記モデル音声データを提示して、ユーザから対応する音声データの入力を受け入れて記憶するシャドーイング処理と、前記モデル音声データを前記対応するスクリプトとともに提示して、ユーザから対応する音声データの入力を受け入れて記憶するスクリプトシャドーイング処理と、を少なくとも一つずつ含む処理を順次実行するフロー実行手段と、前記モデル音声データと、前記フロー実行手段が記憶した音声データとのうちから選択される一対の音声データについて、それぞれの音声データを、所定の特徴量の時系列データに変換し、各音声データにおいてスクリプトの同じ部分に対応すると推定される時系列上の位置を互いに一致させて、対応する時点での前記特徴量の相関、ないしその統計値を演算する比較手段と、を含み、当該特徴量の相関ないしその統計値の少なくとも一方を提示することとしたものである。

本発明によると、比較的簡便な構成により、ユーザが聴取した音声の部分ごとに、ユーザによる聞き間違いを予測可能となる。

本発明の実施の形態の一例に係る音声情報処理装置の構成例を表すブロック図である。本発明の実施の形態の一例に係る音声情報処理装置の機能ブロック図である。本発明の実施の形態の一例に係る音声情報処理装置の提示する画面の例を表す説明図である。本発明の実施の形態の一例に係る音声情報処理装置における音声データの時間的対応関係の例を表す説明図である。本発明の実施の形態の一例に係る音声情報処理装置を用いた外国語の教材の概略を表す説明図である。

本発明の実施の形態について図面を参照しながら説明する。本発明の実施の形態に係る音声情報処理装置１は、図１に例示するように、制御部１１と、記憶部１２と、操作部１３と、音声出力部１４と、音声入力部１５と、表示部１６とを含んで構成され、さらに通信部１７を含んでもよい。ここで制御部１１は、ＣＰＵ等のプログラム制御デバイスであり、記憶部１２に格納されたプログラムに従って動作する。本実施の形態では、この制御部１１は、音声データの識別情報と、予め用意された音声データと、この音声データで発音されている単語を記載したスクリプトデータとを関連付けたコーパスデータベースを参照し、予め定めたフローにしたがってシャドーイング（音声データを鳴動し、ユーザから対応する音声の入力を受ける）、スクリプトシャドーイング（音声データを鳴動するとともに対応するスクリプトデータを表示して、ユーザから対応する音声の入力を受ける）、等の処理を実行する。

そして制御部１１は、シャドーイングやスクリプトシャドーイング等で得られたユーザの音声を所定の方法で評価し、当該評価の結果を出力する。この制御部１１の動作については後に述べる。

記憶部１２は、メモリデバイス等であり、制御部１１によって実行されるプログラムを保持する。このプログラムは、コンピュータ可読かつ非一時的な記録媒体に格納されて提供され、この記憶部１２に格納されることとしてよい。またこの記憶部１２は、制御部１１のワークメモリとしても動作する。この記憶部１２には、さらに、コーパスデータベースが格納されていてもよい。

操作部１３は、キーボードやマウス等であり、ユーザの操作を受け入れて、当該操作の内容を表す情報を、制御部１１に出力する。音声出力部１４は、制御部１１から入力される指示に従い、音声を鳴動する。音声入力部１５は、マイクを含み、ユーザが発話した音声のデータを、制御部１１に出力する。表示部１６は、制御部１１から入力される指示に従って、文字列や画像などの情報を表示する。

通信部１７は、ネットワークインタフェース等であり、ネットワークを介して受信した要求等を制御部１１に出力する。またこの通信部１７は、制御部１１から入力される指示に従い、ネットワークを介して種々のデータを送出する。

次に制御部１１の動作について説明する。本実施の形態の一例では、この制御部１１は、機能的に、図２に例示するように、フロー実行部２１と、シャドーイング処理部２２と、スクリプトシャドーイング処理部２３と、リーディング処理部２４と、比較部２５と、スコアリング部２６とを含んで構成される。

フロー実行部２１は、シャドーイングの訓練に関し、予め定められたフロー設定情報を取得する。ここでフロー設定情報は、時系列順に、どのような訓練を行うかを定めたものであり、一例として、
（１）第１回シャドーイング
（２）第２回シャドーイング
（３）第３回シャドーイング
（４）スクリプトシャドーイング
（５）第１回リーディング、
（６）２週間のインターバル
（７）第２回リーディング
というように定められる。フロー実行部２１は、コーパスデータベースに格納された音声データの一つをモデル音声データＭとして選択し、当該音声データに関連する音声データの識別情報を、選択識別情報として記憶部１２に格納する。またフロー実行部２１は、ここで定められたフロー設定情報に従ってシャドーイング処理部２２、スクリプトシャドーイング処理部２３、リーディング処理部２４の各部を制御して、上記フローを順次実行する。

シャドーイング処理部２２は、フロー実行部２１から入力される指示に従い、シャドーイングの処理を実行する。このシャドーイング処理部２２は、記憶部１２に格納された選択識別情報を読み出し、さらに当該読み出した選択識別情報に関連付けてコーパスデータベースに格納されたモデル音声データＭを読み出して、音声出力部１４に当該モデル音声データＭを鳴動させる。そしてシャドーイング処理部２２は、当該モデル音声データＭの鳴動時にユーザから入力される音声データＳを音声入力部１５から受け入れて、当該音声データＳを、選択識別情報に関連付けて記憶部１２に蓄積して格納する。なお、複数回のシャドーイングが行われる場合には、このシャドーイング処理部２２は、各回ごとの音声データＳi（ｉ＝１，２，…）を、選択識別情報に関連付けて蓄積して格納する。

スクリプトシャドーイング処理部２３は、フロー実行部２１から入力される指示に従い、スクリプトシャドーイングの処理を実行する。このスクリプトシャドーイング処理部２３は、記憶部１２に格納された識別情報に関連付けてコーパスデータベースに格納されたモデル音声データＭとスクリプトデータとを読み出して、音声出力部１４に当該モデル音声データＭを鳴動させるとともに、表示部１６にスクリプトデータの文字列を表示させる。そしてスクリプトシャドーイング処理部２３は、当該モデル音声データＭの鳴動時にユーザから入力される音声データを音声入力部１５から受け入れ、当該音声データＳＳを、選択識別情報に関連付けて記憶部１２に蓄積して格納する。

リーディング処理部２４は、フロー実行部２１から入力される指示に従い、記憶部１２に格納された識別情報に関連付けてコーパスデータベースに格納されたモデル音声データＭとスクリプトデータとを読み出す。リーディング処理部２４は、スクリプトデータの文字列を表示部１６に表示させ、ユーザに当該スクリプトデータの文字列を発音するよう求める。このとき、リーディング処理部２４は、スクリプトデータの文字列だけでなく、モデル音声データＭの波形を表す画像を併せて表示部１６に表示させる。そしてリーディング処理部２４は、モデル音声データＭを鳴動することなく、モデル音声データＭの波形上に、鳴動している位置を表すカーソルを表示する。ユーザはこの画像を参照することで、モデル音声データＭを聞くことなく、その発話のタイミングや、長さを調整する。なお、この表示は、シャドーイング処理部２２や、スクリプトシャドーイング処理部２３においても行われてよい。

リーディング処理部２４は、ユーザから入力される音声データを音声入力部１５から受け入れ、当該音声データＲを、選択識別情報に関連付けて記憶部１２に蓄積して格納する。なお、複数回のリーディングが行われる場合には、このリーディング処理部２４は、各回ごとの音声データＲｊ（ｊ＝１，２，…）を、選択識別情報に関連付けて蓄積して格納する。

比較部２５は、記憶部１２に格納された音声データＳi，ＳＳ，Ｒj及び、それらに関連付けられた選択識別情報で識別されるモデル音声データＭから選択された一対の音声データを比較する。

この比較部２５の処理は、一対の音声データＸとＹとを時系列データとして対応づけて両者の相違を「ズレの時系列」として求める、いわゆるDynamic Time Warping（動的時間伸縮）法を用いて行われる。すなわち比較部２５は、互いに対応する音が発音されているべき時点のデータ部分をＤＴＷパスにて関連付ける。そして比較部２５は、音の質に関わる音素事後確率（Phoneme Posterior Probability）、音の高さであるピッチ（pitch）、音の強さ（intensity）、母音の長さ（vowel duration）などの観点で、対応する時間ごとのズレの時系列情報｜Ｙ－Ｘ｜をそれぞれ求める。なお、ピッチの時系列情報がイントネーションであり、音の強さ、及び母音の長さの時系列情報は、リズムに関係する。

具体的に、この比較部２５は、一対の音声データＸ，Ｙをそれぞれ特徴量時系列に変換し、両者を時系列データとして比較する。ここで特徴量としては、例えば、音素事後確率（Phoneme Posterior Probability）を用いることができる。この特徴量の時系列データは、Phoneme-based PosteriorGram（ＰＰＧ）となる。比較部２５は、一方の音声データに係るＰＰＧ（Ｘ）と、他方の音声データに基づくＰＰＧ（Ｙ）とを動的時間伸縮法を用いて比較し、両者の時間対応を求める。また、比較部２５は、一方の音声データＸに対して音声認識処理を適用し、音素境界を検出する。比較部２５は、得られた音素境界の時間情報を、上記の時間対応を利用して他方の音声データの音素境界を得る。

また動的時間伸縮法では、一対の音声データの、互いに対応する部分（同じ発音がされるべき部分）の局所距離が演算されるので、比較部２５は、この局所距離の時間変化をそのままズレの時系列情報とする。この情報は、調音制御におけるズレの時系列そのものとなる。

比較部２５は、また、各音声データＸ，Ｙをそれぞれ音素境界で分割し、対応する音素ごとの局所距離の平均を、音素あたりのズレ量（phoneme-based DTW）として演算する。

比較部２５は、さらに、強勢・弱勢の情報を取得するため、音節連鎖が聞こえ度（sonority）のうねりとして解釈されることを考慮して、聞こえ度の推定技術を用いる。具体的にこの処理を行う比較部２５は、音声データＸ，Ｙのそれぞれの波形振幅の重みづけ平均（波形包絡）を用いる（Mermelstein, P.(1975) “Automatic segmentation of speech into syllabic units.” Acoustical Society of America, 58, 880-883）。すなわち、１００ミリ秒ごとの波形振幅の絶対値の移動平均を、対応する時間の聞こえ度として、その時系列により強さ制御の状況を得る。

比較部２５は、各音声データＸ，Ｙの音の高さ（以下ピッチという）をそれぞれ求め、イントネーションパターンとする。本実施の形態のここでの例では、比較部２５は、ここで求めた各音声データＸ，Ｙについての強さ制御の時系列の情報と、ピッチの時系列の情報とを、ＤＴＷパスを用いて時間的に対応付ける。

さらに比較部２５は、音素境界の情報を用いて各音声データＸ，Ｙにおける対応する母音の発音されている時間の長さの相関を、リズム類似性として演算する。

比較部２５は、これらの処理により、一対の音声データＸ，Ｙの、互いに対応する部分についての音素事後確率、ピッチ、音の強さ、及び母音の長さ等についての時系列変化の局所距離や相関を求め、さらにそれらの局所距離や相関値の統計値（平均値や中央値、最大値、最小値等、以下では一例として平均値を求めるものとする）を演算する。

スコアリング部２６は、所定のタイミングで、比較部２５を制御し、予め定めたスコアを演算する。本実施の形態のある例では、このスコアリング部２６は、フロー実行部２１から指示されたタイミングで、所定のスコアを演算する。ここで所定のスコアは、例えばモデル音声データＭに対するユーザの（Ａ）聞き取りや、（Ｂ）音韻表象、（Ｃ）調音制御に関するスコア等である。

すなわちスコアリング部２６は、スクリプトシャドーイングを終了し、スクリプトシャドーイング処理部２３が音声データＳＳを記憶部１２に蓄積して格納したタイミングで、それまでに得られているシャドーイング処理部２２が記憶部１２に蓄積した音声データＳｉ（ｉ＝１，２…）のそれぞれと、スクリプトシャドーイングの音声データＳＳとの組を比較部２５に出力し、音声データＳｉ（ｉ＝１，２…）のそれぞれと、スクリプトシャドーイングの音声データＳＳとの音素事後確率、ピッチ、音の強さ、及び母音の長さ等についての時系列変化の局所距離や相関と、それらの平均とを求める。

この時系列変化の局所距離や相関は、内容を理解しながら発音したスクリプトシャドーイングの音声データＳＳ（内容に誤りはないがユーザごとの癖や訛りが含まれる）と、内容を理解する前に聴取しただけで発音したシャドーイングの音声データＳｉ（ｉ＝１，２…）とを比較したものであるので、「聞き取りの崩れ」を時系列として表したものとなる。またその平均値は、どれほどの「聞き取りの崩れ」が生じたかを表す。そこでスコアリング部２６は、これらの時系列変化の局所距離や相関と、それらの平均とを、聞き取りスコアとして出力し、表示部１６に表示するなどの処理を行う。

またスコアリング部２６は、初回のリーディングが終了し、リーディング処理部２４が音声データＲ１を記憶部１２に蓄積して格納したタイミングで、スクリプトシャドーイングの音声データＳＳと、対応するモデル音声データＭとを比較部２５に出力し、モデル音声データＭとスクリプトシャドーイングの音声データＳＳとの音素事後確率、ピッチ、音の強さ、母音の長さの時系列変化の局所距離や相関と、それらの平均とを得る。スコアリング部２６は、また、音声データＲ１と、対応するモデル音声データＭとを比較部２５に出力し、モデル音声データＭと音声データＲ１との音素事後確率、ピッチ、音の強さ、及び母音の長さ等についての時系列変化の局所距離や相関と、それらの平均とを得る。

この時系列変化と平均とは、内容を理解しながら発音したスクリプトシャドーイングの音声データＳＳ（あるいはその直後に収録するリーディング音声データＲ１）をモデル音声データＭと比較したものとなる。この場合ユーザは、内容を把握し、かつ、モデル音声データＭの模範的な音声の心的イメージ（音韻表象）を使って発声を試みることになるが、それをユーザが声として実現するに十分な調音制御ができているのかがスコア化される。このスコアは、モデル音声データが例えば外国語であれば、その訛りの強さを定量化したものとなる。スコアリング部２６は、これらの時系列変化の局所距離や相関と、それらの平均とを、調音制御スコアとして出力し、表示部１６に表示するなどの処理を行う。

スコアリング部２６は、このほか、複数回のリーディングが終了した段階で、例えば２回目のリーディングの音声データＲ２と１回目のリーディングの音声データＲ１と、あるいは、２回目のリーディングの音声データＲ２とスクリプトシャドーイングの音声データＳＳとを比較部２５に出力し、これらの音声データの間の音素事後確率、ピッチ、音の強さ、及び母音の長さ等についての時系列変化の局所距離や相関と、それらの平均とを得る。

スクリプトを流暢に読み上げるには、スクリプトを見て音韻表象（音声を聞いた時や，テキストを見た時に心的に形成される音声イメージ（内的音声））が心的に形成される必要がある。そこで、モデル音声データとシャドーイング等でモデル音声データＭを聴取しつつ行なわれたスクリプトシャドーイングの音声データＳＳや、リーディングの音声データＲ１（いずれもモデル音声データＭによる流暢な音韻表象に基づいて発音される）と、最後にモデル音声データＭを聴取してから十分な時間を置いて発音されたリーディングの音声データＲ２（ユーザ自身の音韻表象に基づいて発音される）とを比較し、モデル音声データＭによる流暢な音韻表象に基づいて発音された音声データと、ユーザ自身の音韻表象に基づいて発音された音声データとの時系列変化の局所距離や相関とそれらの平均とは、直接的に観測できないユーザの音韻表象能力を表すものとなる。そこでスコアリング部２６は、これらの時系列変化の局所距離や相関と、平均とを、音韻表象スコアとして出力し、表示部１６に表示するなどの処理を行う。

また、スコアリング部２６は、少なくともシャドーイングが終了したタイミングで、シャドーイング処理部２２が記憶部１２に蓄積した音声データＳｉ（ｉ＝１，２…）のそれぞれと、対応するモデル音声データＭとの組を比較部２５に出力し、音声データＳｉ（ｉ＝１，２…）のそれぞれと、モデル音声データＭとの間の音素事後確率、ピッチ、音の強さ、及び母音の長さ等についての時系列変化の局所距離や相関と、それらの平均とを得て、シャドースコアとして出力し、表示部１６に表示するなどの処理を行う。

［動作］
本発明の実施の形態に係る音声情報処理装置１は基本的に以上の構成を備えており、次のように動作する。以下では、この音声情報処理装置１を英語学習に利用する場合を例として説明する。もっとも本実施の形態は、このような外国語学習に限られるものではない。

モデル音声データＭとして、一般的な英語教科書の英文テキスト（スクリプト）を、標準的な米国母語話者が読み上げたものを用いる。ここではモデル音声データＭを複数用意するものとし、それぞれ対応するスクリプトに関連付けてコーパスデータベースを作成しておく。

またフロー設定情報として、
（１）第１回シャドーイング
（２）第２回シャドーイング
（３）第３回シャドーイング
（４）スクリプトシャドーイング
（５）第１回リーディング、
（６）２週間のインターバル
（７）第２回リーディング
といったフローを設定しておく。なお、（３）第３回シャドーイングの後でシャドースコアの演算を行い、（４）スクリプトシャドーイングの後で聞き取りスコアを演算させ、（５）第１回リーディングの後で、調音制御スコアを演算させ、（７）第２回リーディングの終了後、音韻表象スコアを演算させることとする。

音声情報処理装置１の制御部１１は、コーパスデータベースに格納された音声データの一つをモデル音声データＭとして選択する。そして先のフロー設定情報に従って、まず、シャドーイングの処理を実行する。すなわち制御部１１は、選択されたモデル音声データＭを読み出して、音声出力部１４に当該モデル音声データＭを鳴動させ、英語学習者であるユーザ（以下学習者と呼ぶ）に対し、聴取している音声が表す語列をそのまま追唱して発声するよう求める。なお、鳴動された音声が表す語を、その音声の鳴動中に、聞き取ったままに、追いかけるように発声することを追唱（シャドーイング）と呼ぶ。

制御部１１は、学習者が発声した音声データＳ１を音声入力部１５から受け入れて、当該音声データＳ１を、選択したモデル音声データを識別する選択識別情報に関連付けて記憶部１２に蓄積して格納する。

以下、制御部１１は、選択されたモデル音声データＭを読み出して鳴動し、学習者に対し、聴取した音声をそのまま真似て発声するよう求めて、学習者が発声した音声データＳｉ（ｉ＝２，３…）を受け入れて、当該音声データＳｉを、選択したモデル音声データを識別する選択識別情報に関連付けて記憶部１２に蓄積して格納する処理を３回まで（ｉ＝３まで）繰り返す。

制御部１１は、この段階で記憶部１２に蓄積した音声データＳｉ（ｉ＝１，２…）のそれぞれと、対応するモデル音声データＭとの組について、当該組に含まれる一対の音声データを、特徴量の時系列情報に変換して比較する。

すなわち制御部１１は、当該組に含まれる一対の音声データ（Ｓ１，Ｍ）、（Ｓ２，Ｍ）、（Ｓ３，Ｍ）に含まれる各音声データについて、それぞれ音素事後確率の時系列データ（Phoneme-based PosteriorGram（ＰＰＧ））を求める。

そして制御部１１は、各組の一方の音声データ（学習者の音声）に係るＰＰＧ（Ｓｉ）と、他方の音声データ（モデル音声データ）に基づくＰＰＧ（Ｍ）とを動的時間伸縮法を用いて比較し、両者の時間対応を求める。また制御部１１は、一方の音声データＳｉに対して音声認識処理を適用し、音素境界を検出し、得られた音素境界の時間情報を、上記の時間対応を利用して他方の音声データＳＳの音素境界を得る。

さらに制御部１１は、各音声データの１００ミリ秒ごとの波形振幅の絶対値の移動平均を、対応する時間の聞こえ度として、その時系列により強さ制御の状況を得るとともに、各音声データのピッチの時系列変化の情報を得る。制御部１１は、また、音素境界の情報を用いて各音声データにおける母音の発音されている時間の長さの情報を得る。

制御部１１は、動的時間伸縮法によって対応付けられた各音声データの互いに対応する時間（スクリプトの同じ部分に対応し、同じ発音がされているべき時間）の情報を用い、対応する部分における上記聞こえ度やピッチの相関を求め、強勢・弱勢及びイントネーションの相関の時間変化を得る。制御部１１は、また、対応する母音の発音されている時間の相関の情報を求め、リズムに関係する相関を得る。

こうして制御部１１は、学習者の音声データＳｉ（ｉ＝１，２…）のそれぞれと、モデル音声データＭとの間の音素事後確率、ピッチ、音の強さ、母音の長さ等の時系列変化の局所距離や相関と、それらの平均とを得て、音声データＳｉ（ｉ＝１，２…）のそれぞれと、モデル音声データＭとの間の音素事後確率、ピッチ、音の強さ、母音の長さ等の時系列変化の局所距離や相関、それらの平均を求め、シャドースコアとして表示出力する。

制御部１１は、さらにフロー設定情報に従ってスクリプトシャドーイングの処理を実行する。すなわち制御部１１は、選択されたモデル音声データＭとそれに対応するスクリプトデータとをコーパスデータベースから読み出して、音声出力部１４に当該モデル音声データＭを鳴動させるとともに、表示部１６にスクリプトデータの文字列を表示させる。そして制御部１１は、当該モデル音声データＭの鳴動時に、当該モデル音声データＭを聴取しつつ、表示されたスクリプトを見て、その内容を発声する（追唱する）ように、学習者に求める。制御部１１は、この求めに応じて学習者が入力する音声データＳＳを、記憶部１２に格納する。

制御部１１は、この段階で記憶部１２に蓄積した学習者の音声データＳｉ（ｉ＝１，２…）のそれぞれと、スクリプトシャドーイングで得られた学習者の音声データＳＳとの組について、当該組に含まれる一対の音声データを、特徴量の時系列情報に変換して比較する。この場合も上述と同様の処理により、音声データＳｉ（ｉ＝１，２…）のそれぞれと、音声データＳＳとの間の音素事後確率、ピッチ、音の強さ、母音の長さ等の時系列変化の局所距離や相関、それらの平均を求め、聞き取りスコアとして表示出力する。

制御部１１は、さらにフロー設定情報に従って第１回目のリーディングの処理を実行する。制御部１１は、選択されたモデル音声データＭを鳴動することなく（その波形を表す画像を提示してもよい）、スクリプトを学習者に提示して、読み上げるように求める。制御部１１は、この求めに応じて学習者から入力される音声データを受け入れて、当該音声データＲ１を記憶部１２に蓄積して格納する。

この段階で制御部１１は、記憶部１２に蓄積されている、スクリプトシャドーイングで得た学習者の音声データＳＳとモデル音声データＭとの組、及び、第１回目のリーディングで得た学習者の音声データＲ１とモデル音声データＭとの組について、これら組に含まれる一対の音声データを、特徴量の時系列情報に変換して比較する。この場合も上述と同様の処理により、学習者の音声データＳＳとモデル音声データＭとの間、及び学習者の音声データＲ１とモデル音声データＭとの間の音素事後確率、ピッチ、音の強さ、母音の長さ等の時系列変化の局所距離や相関、平均を求め、調音制御スコアとして表示出力する。

さらに制御部１１は、フロー設定情報に従って２週間のタイマーを設定し、このタイマーがタイムアップし、学習者の音声データＲ１を取得してから２週間を過ぎてから、再度、選択されたモデル音声データＭに対応するスクリプトを学習者に提示し、読み上げるように学習者に求める（第２回目のリーディングの処理）。制御部１１は、この求めに応じて学習者から入力される音声データを受け入れて、当該学習者の音声データＲ２を記憶部１２に蓄積して格納する。

制御部１１は、記憶部１２に蓄積されている、音声データＲ２と音声データＲ１との組や音声データＲ２と音声データＳＳとの組について、これら組に含まれる一対の音声データを、特徴量の時系列情報に変換して比較する。この場合も上述と同様の処理により、音声データＲ２と音声データＲ１との間や、音声データＲ２と音声データＳＳとの間の音素事後確率、ピッチ、音の強さ、及び母音の長さ等についての時系列変化の局所距離や相関、平均を求める。制御部１１は、これらの情報を、音韻表象スコアとして表示出力する。

ユーザは、各段階で表示出力されたシャドースコアや、聞き取りスコア、調音制御スコア、音韻表象スコアを参照して、これらのスコアを向上させるように学習を続けることとなる。

［難易度順］
また本実施の形態の音声情報処理装置１では、複数のユーザ（学習者）のそれぞれに複数のモデル音声データＭに基づく上記の処理を行って、モデル音声データＭごとに各学習者のスコア（シャドースコアや、聞き取りスコア、調音制御スコア、音韻表象スコアのいずれか、またはその組み合わせ）の平均値などの統計値（中央値、最大値、最小値等でもよいし、分散や標準偏差等の情報を併せて求めてもよい）など、スコアに基づいて得られる順序が規定可能な値を演算し、モデル音声データＭごとの難易度の情報として保持してもよい。

一例として音声情報処理装置１は、モデル音声データＭごとに過去にこのモデル音声データＭについて複数の学習者から得た聞き取りスコアである、音素事後確率、ピッチ、音の強さ、母音の長さ等の時系列変化の局所距離や相関、それらの平均Ａｖの平均値（各学習者のＡｖの平均値）Ａ及び当該平均Ａｖの標準偏差ｓを難易度の情報として関連付けて保持しておく。

この例では、例えばある学習者から、選択したモデル音声データ（上記平均値Ａ、標準偏差ｓとする）についてのスクリプトシャドーイングの音声データＳＳを取得し、聞き取りスコアの情報を得たときに、その平均値ＡｖがＡｖ－Ａ＞ｓであるとき（いわば学習者間の平均より有意にスコアが低いと判断されるとき）に、音声情報処理装置１は、当該選択したモデル音声データよりも平均値の低い他のモデル音声データを選択しなおして、再度最初からフローを実行してもよい。

これによると、学習者であるユーザは、自己の現在の能力に合ったモデル音声データを利用することが可能となる。

同様に、ある学習者から、選択したモデル音声データ（上記平均値Ａ、標準偏差ｓとする）についてのスクリプトシャドーイングの音声データＳＳを取得し、聞き取りスコアの情報を得たときに、その平均値ＡｖがＡ－Ａｖ＞ｓであるとき（いわば学習者間の平均より有意にスコアが高いと判断されるとき）に、音声情報処理装置１は、当該選択したモデル音声データよりも平均値の高い他のモデル音声データを選択しなおして、再度最初からフローを実行してもよい。

［尺度予測］
音声情報処理装置１は、シャドースコアや、聞き取りスコア、調音制御スコア、音韻表象スコアを得るだけでなく、さらにこれらに基づいて例えば外国語学習等においてより一般的な尺度の情報を予測して出力してもよい。

このような尺度には、流暢さ（fluency）や、明瞭性（intelligibility）、了解性（comprehensibility）、アクセント度（accentedness）等が含まれる。ここでアクセント度は、訛りの度合い、母語の訛りの度合いを意味する。音声情報処理装置１は、例えばシャドースコアや、聞き取りスコア、調音制御スコア、音韻表象スコアの加重平均等によりこれらの値を求めることとしてよい。その際の重みの値は経験的、実験的に定め得る。

［再入力］
また本実施の形態の音声情報処理装置１は、スコアの演算の基準となるスクリプトシャドーイングによる音声データＳＳや、リーディングの音声データＲについてはユーザの要求により再度の入力を許諾してもよい。この場合は音声情報処理装置１は、新たに入力された音声データを、記憶部１２に格納して、後の処理に供する。

ただし、シャドーイングによる音声データＳｉについては再入力を許諾しないこととするのが好ましい。

［オーバーラッピング］
さらに本実施の形態の一例では、音声情報処理装置１の制御部１１は、既に説明したシャドーイングの処理や、スクリプトシャドーイングの処理、リーディングの処理に加えて、オーバーラッピングの処理を実行してもよい。

この処理を行う音声情報処理装置１は、モデル音声データＭの再生に先立ってオーバーラッピングの方法を案内する。すなわち音声情報処理装置１は、モデル音声データＭの再生中に、聞き取った内容を、モデル音声データＭと可能な限り重なるように発声するようユーザに求める表示を行う。その後音声情報処理装置１は、モデル音声データＭの再生を開始する。音声情報処理装置１は、モデル音声データＭの再生開始とともにユーザが入力した音声データを取得してオーバーラッピングの音声データＬとして記憶部１２に蓄積して格納する。なお、このようなオーバーラッピングのシャドーイングでは、ユーザの負担も大きくなるので、モデル音声データＭが比較的長い（例えば１０秒を超える）場合には、所定の時間（例えば１０秒）ごとに区切ってオーバーラッピングを行わせることとしてもよい。

音声情報処理装置１は、得られた学習者であるユーザの音声データＬとモデル音声データＭとを比較部２５の処理として比較するが、この例では音声データＬとモデル音声データＭとの時系列は一致しているものとして（動的時間伸縮法を用いることなく）比較することとしてもよい。

具体的に音声情報処理装置１は、学習者のオーバーラッピングの音声データＬとモデル音声データＭとの１００ミリ秒ごとの波形振幅の絶対値の移動平均を、対応する時間の発声の相関として、その時系列により強さ制御の状況を得る。また学習者の音声データＬとモデル音声データＭとのピッチの時系列変化の情報を得る。そして音声情報処理装置１は、これらの学習者の音声データＬとモデル音声データについて得た、互いに対応する時系列の情報を、それぞれ重ね合わせてユーザに提示する（図３）。

学習者であるユーザは、この提示された情報により、強弱の一致や、高さ制御の一致、さらにはリズムの一致の状況を知ることができ、発音の修正に役立てることが可能となる。

このオーバーラッピングの処理は、例えば上述の例のフロー設定情報において、第１回目のリーディングの後に行うこととしてもよい。これによりモデル音声データＭの内容や、スクリプトを把握させた状態でオーバーラッピングを行うことが可能となる。

［サーバとしての実装例］
また本実施の形態の音声情報処理装置１は、ウェブサーバとして機能し、ネットワークを介してユーザ側の端末（音声データの入出力が可能なデバイスを備えるならば一般的なパーソナルコンピュータやタブレット、スマートフォンなどでよい）に対してモデル音声データＭやスクリプトを提示し、また、ネットワークを介してユーザ側の端末からシャドーイングやスクリプトシャドーイング等の音声データを取得して記憶部１２に格納してもよい。この場合、音声情報処理装置１は、ユーザを認証し、ユーザごとに音声データを区別して蓄積しておくものとし、ユーザごとにスコアの演算などの処理を行って、対応するユーザの端末に提示することとなる。

［その他の特徴等］
（関連技術）
音声コミュニケーションは、１）聞いて、２）語を同定し、３）内容・意図を理解し、４）返事を考え、５）話す（調音する）、という処理をほぼ同時に走らせる必要がある。この中で認知負荷の高い処理は３），４）である。母語で会話する場合１），２），５）はほぼ自動化・無意識化され、ここに労力を割くことは稀である。しかし外国語の場合、ここにも認知負荷が割かれることとなり、３），４）の処理が疎かとなる。シャドーイングは「モデル音声を聞きながら同時に復唱するタスク」であるが、１），２），５）の自動化・無意識化を目的としている。

外国語を用いた音声コミュニケーションを円滑に行うためには、様々な基礎体力が必要である。しかし、個別の基礎体力を磨いても、それを同時進行できなければ、意味がない。シャドーイングは複合的な基礎体力トレーニングと位置づけられるが、聞き取り能力、音韻表象能力、調音制御能力など、どこに弱点があるのかは学習者によって異なる。故に、複合的なトレーニングを行いながら、各種能力のスコア化技術が求められてきた。本実施の形態ではそれを可能としている。

なお、調音制御能力のスコア化は、従来の発音評価技術そのものであるが、聞き取り能力や、音韻表象能力のスコア化は、自動化されたことはない。更に、得られた各種スコアに基づいて次課題を自動選択し、循環型・完全自動でシャドーイングを行う教材は存在しない。

（本発明の実施の形態の一例）
外国語の音声評価技術は学習者音声（例えば読み上げ音声）とモデル音声（母語話者音声）を比較し、その差異をスコア化する技術である。学習者音声に対して、ａ）音素事後確率、ｂ）ピッチ、ｃ）音の強さ、ｄ）母音の長さなどの要素の差異をスコア化するのが一般的である。この技術をシャドーイング音声とモデル音声とに適用すれば、それは１），２），５）全体に対するスコア化となる。しかし、１），２），５）の処理別にその能力をスコア化する技術は存在しない。本発明の実施の形態の音声情報処理装置１はこれを可能にする。即ち、シャドーイング課題を通して、Ａ）モデル音声のどこで聞き取りが崩れたのか、Ｂ）聞いた音声を（適切に）音韻表象化することができていたのか、Ｃ）適切な調音制御による発声が行われていたのか、を個別にスコア化する。本実施の形態の音声情報処理装置１によって、各学習者がどこで困難を抱えているのかが明確となり、より適切な教示を、人為的操作なく生成したり、より適した次課題を選択することが可能となる（循環型シャドーイング）。なお、発音評価技術は元来Ｃ）を目的として提案された技術であるが、本発明では、シャドーイング課題を改良しＡ），Ｂ）をも可能としている。

例えば日本人の英語学習を考えた場合、英語の聞き取りに困難を抱える場合が多い（上記Ａ））。一般に「聞き取りテスト」は意味理解を問うことが多い。シャドーイングは１），２），５）、即ち意味理解処理以外を対象としており、本発明でいう「聞き取り」の評価は、外国語音声の聴取中に、どのような音声パターンに対して聞き取り（語の同定）の弱点があるのか、を対象としている。なお「聞き取り」の弱点を「書き取り」の精度で検討する例もあるが、これは聴取後の推測作業を許可しているため、本実施の形態における「聞き取り」とは評価の対象が異なる。音声の聴取中の表情（表情筋）、瞳孔サイズ、脳活動を計測する例もあるが、いずれも特殊な装置が必要である。本実施の形態では、シャドーイングの音声を使って計測しており、ＰＣとイヤホン、マイクで計測が可能となり、安価に実現できる。

すなわち本実施の形態では、
Ａ）モデル音声のどこで聞き取りが崩れたのか（以下、聞き取り）、
Ｂ）聞いた音声を（適切に）音韻表象化することができていたのか（以下、音韻表象）、
Ｃ）適切な調音制御による発声が行われていたのか（以下、調音制御）、
の各々についてスコア化することが可能となっている。

このために準備する音源（シャドーイング用モデル音声）は、自動計測できるreadability score（RS）に基づいて、意味的な難易度別に収集されたシャドーイング用、モデル音声コーパスを用いる。モノローグでもダイアローグでもよい。意味的な難易度の各レベル（ＲＳ＝１，…，５、数値が高いほど難易度が高い）ごとに実験的に十分と言える量を用意しておく。必要に応じて、英語、米語などの別に用意する。

聞き取り、音韻表象、調音制御に対するスコア化を可能とするシャドーイングタスクの設計（フローの設定）では、次の要素を組み合わせる。
Ｓ：シャドーイング（モデル音声Ｍのみ提示して復唱させる）
シャドーイングは複数回行われてよく、ｉ回目のシャドーイングで取得した音声データをＳｉと表記する。
ＳＳ：モデル音声Ｍの聴覚提示、モデル音声Ｍが読み上げているテキストの提示を同時に行うシャドーイング（スクリプト・シャドーイング）。このスクリプトシャドーイングは、読み上げられた内容を完全に理解しながら行うシャドーイング音声に相当する。
Ｒ１：音源Ｍの内容（テキスト）だけを提示して読み上げさせる。音源の提示は行わない。ＳＳの直後に行う。
Ｒ２：Ｒ１の収録後、時間をおいて（モデル音声Ｍの聴覚イメージが消失するに十分な時間、数週間おいて）テキストだけを提示して読み上げを行わせる。音源の提示は行わない。

一例として、複数回Ｓ１，Ｓ２…を行い、その後ＳＳ，Ｒ１を行い、数週間後に、Ｒ２を行う（各タスクの回数や実施間隔は適宜調整してよい）。これを１セッションとする。Ｓ１，Ｓ２…は音源Ｍのみ提示、ＳＳは音源Ｍとテキスト提示、Ｒ１，Ｒ２はテキスト提示のみである。

これら音声素材を使って提示音声Ｍに対する当該学習者の、Ａ）聞き取り、Ｂ）音韻表象、Ｃ）調音制御に対するスコアを個別に導出する。比較する一対の発声ｘと発声ｙとを時系列として対応づけ、両者の違いを「ズレの時系列」として求める。Dynamic Time Warping（DTW）を用いる。このＤＴＷは広く知られた技術であるので、その詳細な説明は省略する。ズレの様子を｜ｘ－ｙ｜と表記する。このズレは時系列の情報であるため、その平均値も計算しておく。｜ｘ－ｙ｜の具体的な計算手順は後述するが、ａ）音素事後確率、ｂ）ピッチ、ｃ）音の強さ、ｄ）母音の長さの各々について「ズレの時系列」を計算できるため、｜ｘ－ｙ｜は４種類求められることとなる。図４は、一例としてＳ１とＳＳとの時間的な対応付けの例を表す概略説明図である。

次に、各種要素スコアの計算について説明する。

・聞き取り能力のスコア化（Ａ）
完全に内容を理解しながら行うシャドーイング音声がＳＳ（学習者故の癖、訛りは存在）であるので、Ｓｉ（ｉ＝１，２，…）のそれぞれをＳＳと比較すれば、調音制御の不備を無視した「聞き取りの崩れ」が時系列として得られる。
｜Ｓ１－ＳＳ｜，｜Ｓ２－ＳＳ｜，｜Ｓ３－ＳＳ｜
（音素事後確率、ピッチ、音の強さ（強弱勢）、母音の長さ（リズムに関係する）のそれぞれについて、時系列データと、平均とを求める）

・調音制御能力のスコア化（Ｃ）
完全に内容を理解しながら行うシャドーイング音声ＳＳや、その直後に収録した読み上げ音声Ｒ１を、Ｍと比較する。この場合、内容を把握し、かつ、Ｍの流暢な英語音声の心的イメージ（音韻表象）を使って発声を試みることになるが、それを声として実現するに十分な調音制御ができているのか、がスコア化対象である（外国語訛りの強さの定量化）。従来の発音評価技術を適用してよい。
｜ＳＳ－Ｍ｜，｜Ｒ１－Ｍ｜
（音素事後確率、ピッチ、音の強さ（強弱勢）、母音の長さのそれぞれについて、時系列データと、平均とを求める）

・音韻表象能力のスコア化（Ｂ）
音韻表象とは「音声を聞いた時や、テキストを見た時に心的に形成される音声イメージ（内的音声）」であり、直接的には観測できない。英語テキストを流暢に読み上げるには、テキストを見ることで（流暢な）音韻表象が心的に形成される必要がある。Ｓ１，Ｓ２，Ｓ３，ＳＳと、Ｍを聴取した直後の読み上げＲ１とは「Ｍによる（流暢な）音韻表象（１）」に基づいて行われ、一方、十分な時間を置いた読み上げＲ２は「学習者自身の音韻表象（２）」に基づいた発声となる。この両者の差異｜Ｒ２－Ｒ１｜を、（２）学習者自身の音韻表象が、どのくらい（１）Ｍによる（流暢な）音韻表象に近いのか、に相当するスコアと解釈する。Ｒ１とＳＳとは非常に類似した発声となると期待できるため、｜Ｒ２－ＳＳ｜も評価に含める。
｜Ｒ２－Ｒ１｜，｜Ｒ２－ＳＳ｜
（音素事後確率、ピッチ、音の強さ（強弱勢）、母音の長さのそれぞれについて、時系列データと、平均とを求める）
母語話者であれば、｜Ｒ２－Ｒ１｜，｜Ｒ２－ＳＳ｜は極めて小さくなるが、学習者では｜Ｒ２－Ｒ１｜，｜Ｒ２－ＳＳ｜は無視できない大きさとなると考えられる。

また、［｜Ｒ２－Ｍ｜－｜Ｒ１－Ｍ｜］や［｜Ｒ２－Ｍ｜－｜ＳＳ－Ｍ｜］を得てもよい。この例では、Ｒ２とＭとのズレが、Ｒ１やＳＳとＭのズレと比べて、どれだけ大きいのかを評価することとなり、音韻表象能力を表すものとなる。

・さらに本実施の形態の音声情報処理装置１は、シャドーイング能力の総括的なスコア化を行ってもよい。
すなわち、テキストを提示しないシャドーイング（Ｓ１，Ｓ２…）とＭとのズレはシャドーイング全体の能力をスコア化することになる（従来のシャドーイング音声評価技術はこれに相当する）。そこで、次のズレを求める。
｜Ｓ１－Ｍ｜，｜Ｓ２－Ｍ｜，｜Ｓ３－Ｍ｜
（音素事後確率、ピッチ、音の強さ（強弱勢）、母音の長さのそれぞれについて、時系列データと、平均とを求める）

次に、２つの発話間のズレ｜ｘ－ｙ｜の定量化のための処理について説明する。本実施の形態では、二つの発声ｘ，ｙを特徴量時系列に変換し、両者を時系列として比較する。特徴量としては、例えば、音素事後確率（Phoneme Posterior Probability）を用いる。この例では、その時系列は、Phoneme-based PosteriorGram (PPG)となる。このPPG（ｘ）, PPG（ｙ）をDynamic Time Warping（DTW）で比較すれば、図４に例示したように、両者の時間対応をとることができる。さらに、ｘ，ｙのいずれかの発声に対して音声認識技術を用いて音素境界を検出すれば、得られた時間対応を利用して、音素境界情報を他方へ転写することもできる。この時間対応（DTW path）には、対応する音声フレーム対の局所距離が計算されており、DTW path は「ズレの時系列」として解釈できる。これが音素生成における（即ち、調音制御における）ｘ，ｙのズレの時系列である。当然、音素単位でズレを平均し、音素数で正規化すれば1音素当たりのズレが計算できる（phoneme-based DTW, pDTWスコアとなる）。

音素生成（調音制御）に基づく発声ｘ，ｙの対応付けが求まれば、ｘ，ｙに対して計算した両者のイントネーション（ピッチの時系列変化）パターン、強弱勢（パワー）パターンを、各々対応づけることができ、両者の相関係数（類似度に相当）をイントネーション、強弱勢に対して計算できる。またｘ，ｙ中の母音対に対して、その長さを計測すれば、長さにおける両者の相関係数（リズムの類似性）も計算できる。このようにして、２つの発声ｘ，ｙに対して、ａ）音素事後確率、ｂ）ピッチ、ｃ）音の強さ、ｄ）母音の長さの４つの要素の差異を時系列として計測でき、その平均値も計算できる。なお、この差異の計算自体は、広く知られた技術の組み合わせにより実現できるものである。

本実施の形態において特徴的なことの一つは、Ａ）聞き取り、Ｂ）音韻表象、Ｃ）調音制御を個別にスコア化するために、発声タスクを設計し直したうえで、この差異の計算を行うこと、並びに、それを用いて循環型・学習者適応型の教材（システム）を実現した点にある。

さらに本実施の形態では、学習者適応型の次課題の選択処理を実行してもよい。日本人の英語学習においては、聞き取りに大きな弱点があるのは周知の事実である。「聞き取り能力のスコア化（Ａ）」で示したスコア化ができれば、当該学習者がどのような音声パターン（音素連鎖、韻律パターン）に対して聞き取りが弱くなるのか、その傾向をモデル化する。これを使い、用意されているシャドーイング音源コーパスを、当該学習者にとって聞き取り易い順に並び替えることができる。なお、聞き取り易さは意味内容にも依存するが、readability score的に等価な音源セットに対して、並び替え操作を行う。次課題として学習者に提示する音源は、当該学習者のレベルに応じて、適応的に行う。

なお、調音制御／音韻表象スコアに基づいた次課題選択も同様に実現可能である。実施の形態である「外国語音声の知覚と調音に関する多角的評価のための循環型シャドーイング教材」の全体の概略の一例を図５に示す。

本実施の形態の音声情報処理装置１を用いて、４２日間続けて、２０名の学習者に対して設定したフローを実行しつつ、Ｘ＝Ｓ１，Ｓ２，Ｓ３，Ｒ１またはＲ２としたときのＰＰＧ－ＤＴＷ（Ｘ，ＳＳ）（以下｜Ｘ－ＳＳ｜と表記する。つまりスクリプトシャドーイングと他のシャドーイングないしリーディングとのＰＰＧのズレの時系列）を調べた。

この結果は、スクリプトを理解しながら行われるスクリプトシャドーイングの結果ＳＳに対して、例えばスクリプトを理解する前に行われるシャドーイングの結果Ｓ１を比較したもので、学習者の聞き取りの崩れを表すものとなる。

この結果、初日（Ｄ＝１）での｜Ｓ１－ＳＳ｜ではズレの時系列の平均が１．４１であったものが、２３日目（Ｄ＝２３）では、ズレの時系列の平均が１．０９まで減少し、学習の効果が顕著であることが確認された。

１音声情報処理装置、１１制御部、１２記憶部、１３操作部、１４音声出力部、１５音声入力部、１６表示部、１７通信部、２１フロー実行部、２２シャドーイング処理部、２３スクリプトシャドーイング処理部、２４リーディング処理部、２５比較部、２６スコアリング部。

Claims

スクリプトと、当該スクリプトを読み上げたモデル音声データとを関連付けて保持するコーパスデータベースにアクセス可能に接続され、
予め定められたフローに従って、
前記モデル音声データを提示して、対応する音声データの入力をユーザから受け入れて記憶するシャドーイング処理と、
前記モデル音声データを前記対応するスクリプトとともに提示して、対応する音声データの入力をユーザから受け入れて記憶するスクリプトシャドーイング処理と、
を少なくとも一つずつ含む処理を順次実行するフロー実行手段と、
前記モデル音声データと、前記フロー実行手段が記憶した音声データとのうちから選択される一対の音声データについて、それぞれの音声データを、所定の特徴量の時系列データに変換し、各音声データにおいてスクリプトの同じ部分に対応すると推定される時系列上の位置を互いに一致させて、対応する時点での前記特徴量の相関、ないしその統計値を演算する比較手段と、
を含み、当該特徴量の相関ないしその統計値の少なくとも一方を提示する音声情報処理装置。
請求項１記載の音声情報処理装置であって、
前記比較手段は、前記所定の特徴量として、前記音声データを、当該音声データの強勢・弱勢に係る特徴量、ピッチに係る特徴量、音素に係る特徴量、リズムに係る特徴量の少なくとも一つの特徴量の時系列データに変換する音声情報処理装置。
請求項１記載の音声情報処理装置であって、
前記フロー実行手段は、前記スクリプトシャドーイング処理の後に実行され、前記モデル音声データに対応するスクリプトを提示して、ユーザから当該スクリプトを読み上げる音声データの入力を受け入れて記憶するリーディング処理を、さらに少なくとも一度実行する音声情報処理装置。
請求項３に記載の音声情報処理装置であって、
前記フロー実行手段は、少なくとも所定の期間をおいて、複数回のリーディング処理を実行する音声情報処理装置。
請求項１に記載の音声情報処理装置であって、
前記コーパスデータベースは、スクリプトと、当該スクリプトを読み上げたモデル音声データとを互いに関連付けた組を複数保持し、
前記比較手段が、前記フロー実行手段がシャドーイング処理にて記憶した音声データと、スクリプトシャドーイング処理にて記憶した音声データとの一対の音声データについて、前記対応する時点での特徴量の相関、ないしその統計値を聞き取りスコアとして得て、当該聞き取りスコアを参照して、前記コーパスデータベースが保持するモデル音声データのうちから次に提示するべきモデル音声データを選択する音声情報処理装置。
スクリプトと、当該スクリプトを読み上げたモデル音声データとを関連付けて保持するコーパスデータベースにアクセス可能に接続されるコンピュータを、
予め定められたフローに従って、
前記モデル音声データを提示して、対応する音声データの入力をユーザから受け入れて記憶するシャドーイング処理と、
前記モデル音声データを前記対応するスクリプトとともに提示して、対応する音声データの入力をユーザから受け入れて記憶するスクリプトシャドーイング処理と、
を少なくとも一つずつ含む処理を順次実行するフロー実行手段と、
前記モデル音声データと、前記フロー実行手段が記憶した音声データとのうちから選択される一対の音声データについて、それぞれの音声データを、所定の特徴量の時系列データに変換し、各音声データにおいてスクリプトの同じ部分に対応すると推定される時系列上の位置を互いに一致させて、対応する時点での前記特徴量の相関、ないしその統計値を演算する比較手段と、
として機能させ、当該特徴量の相関ないしその統計値の少なくとも一方を提示させるプログラム。